NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理
自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的发布持续深化了双方的 AI 创新合作。NVIDIA 在 NVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在 NVIDIA 系统上至高达到每秒 150 万个 Token (TPS)。
这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM),采用了广受欢迎的混合专家模型 (MoE) 架构和 SwigGLU 激活函数。