NVIDIA从云到边缘加速OpenAI gpt-oss模型部署，实现150万TPS推理

智慧交通 2025-08-21 广盈财人 5072

自 2016 年推出 NVIDIA DGX 以来，NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的发布持续深化了双方的 AI 创新合作。NVIDIA 在 NVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速，在 NVIDIA 系统上至高达到每秒 150 万个 Token (TPS)。

这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM)，采用了广受欢迎的混合专家模型 (MoE) 架构和 SwigGLU 激活函数。其注意力层使用 RoPE 技术，上下文规模为 128k，交替使用完整上下文和长度为 128 个 Token 的滑动窗口。两个模型的精度为 FP4，可运行在单个 80GB 数据中心 GPU 上，并由 Blackwell 架构提供原生支持。

这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成，gpt-oss-120b 模型训练耗时超过 210 万小时，而 gpt-oss-20b 模型训练耗时约为前者的十分之一。除了NVIDIA TensorRT-LLM外，NVIDIA 还与 Hugging Face Transformers、Ollama、vLLM 等多个顶级开源框架合作，提供优化内核和模型增强。本文将介绍 NVIDIA 如何将 gpt-oss 集成到软件平台以满足开发者需求。

表 1. OpenAI gpt-oss-20b 和 gpt-oss-120b 模型规格，包括总参数量、活跃参数量、专家模型数和输入上下文长度

NVIDIA 还与 OpenAI 和社区一同对性能进行优化，增加了以下功能：

Blackwell 上用于注意力预填充 (prefill)、注意力解码 (decode) 和 MoE 低延迟的 TensorRT-LLM Gen 内核。

Blackwell 上的 CUTLASS MoE 内核。

Hopper 上用于专用注意力机制的 XQA 内核。

通过适用于 LLM 的 FlashInfer 内核服务库提供优化的注意力与 MoE 路由内核。

支持 MoE 的 OpenAI Triton 内核，适用于 TensorRT-LLM 和 vLLM。

使用 vLLM 进行部署

NVIDIA 与 vLLM 合作，在共同验证准确性的同时，分析并提升了 Hopper 和 Blackwell 架构的性能。数据中心开发者可通过 FlashInfer LLM 内核服务库使用经 NVIDIA 优化的内核。

vLLM 建议使用 uv 进行 Python 依赖项管理。用户可以使用 vLLM 启动一个与 OpenAI API 兼容的 Web 服务器。以下命令将自动下载模型并启动服务器。更多详细信息参见文档和 vLLM Cookbook 指南。

uv run--with vllm vllm serve openai/gpt-oss-20b

使用 TensorRT-LLM 进行部署

上述优化已包含在 NVIDIA / TensorRT-LLM GitHub 库中，开发者可根据库中的部署指南启动其高性能服务器，并按照指南从 Hugging Face 下载模型 checkpoint。NVIDIA 与 Transformers 库合作，提升了新模型的开发者体验。指南还提供 Docker 容器以及低延迟和最大吞吐量场景下性能配置的指导。

在 NVIDIA 系统上实现

每秒 100 万个 Token 以上的性能

NVIDIA 工程师与 OpenAI 密切合作，确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平台上实现第零天 (Day 0) 性能提升。

根据早期性能测量结果，规模更大、计算需求更高的 gpt-oss-120b 模型，在 NVIDIA 系统上可实现每秒 150 万个 Token 的性能或服务约 5 万名并发用户。Blackwell 搭载了许多能够提高推理性能的架构技术，包括使用了 FP4 Tensor Core 的第二代 Transformer Engine，以及高带宽的第五代 NVIDIA NVLink 和 NVIDIA NVLink Switch，使得 72 颗 Blackwell GPU 可视作一个大型 GPU 运行。

NVIDIA 平台的性能、灵活性和创新速度使得该生态系统能够在 Day 0 便以高吞吐量和低单位 Token 成本运行最新模型。

通过 NVIDIA Launchable 试用经过优化的模型

还可以使用 Open AI Cookbook 上 JupyterLab Notebook 中的 Python API 部署 TensorRT-LLM，并将其作为NVIDIA Launchable在构建平台中使用。用户可以在预配置环境中一键部署经过优化的模型，并在多个云平台进行测试。

使用 NVIDIA Dynamo 进行部署

NVIDIA Dynamo是一个帮助开发者为大规模应用部署 OpenAI gpt-oss 等模型的开源推理服务平台。它与主流的推理后端集成，并提供 LLM 感知路由、弹性自动扩展和分离服务等功能。在应用输入序列长度 (ISL) 长的情况下，Dynamo 的分离服务可显著提升性能。在 32K ISL 场景中，Dynamo 在系统吞吐量和 GPU 预算相同的情况下，交互性能较合并服务提升了 4 倍。如需使用 Dynamo 进行部署，可参考该指南：

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

在 NVIDIA GeForce RTX AI PC 本地运行

开发者可在本地运行 AI ，以实现更快的迭代、更低的延迟和更可靠的数据隐私保护。两个模型均具有原生 MXFP4 精度，可在 NVIDIA RTX PRO GPU 驱动的专业工作站上运行，其中 gpt-oss-20b 可部署在任何具有不低于 16GB 显存的 GeForce RTX AI PC 上。开发者可通过 Ollama、Llama.cpp 或 Microsoft AI Foundry Local，使用其常用的应用和 SDK 体验这两个模型。如需使用，请访问 RTX AI Garage。

图 1. 使用 Ollama 安装和运行模型的步骤

通过 NVIDIA NIM 简化企业部署

企业开发者可通过 NVIDIA API 目录中的NVIDIA NIM预览 API 和 Web Playground 环境试用 gpt-oss 模型。这两个模型已被打包成 NVIDIA NIM，可灵活、轻松地部署在任何 GPU 加速的基础设施上，同时保证数据隐私和提供企业级安全。

下载和部署预打包、可移植式且经过优化的 NIM：

下载 gpt-oss-120b

链接：https://www.nvidia.cn/ai/

文档：https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b

下载 gpt-oss-20b

链接：https://www.nvidia.cn/ai/

文档：https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b

随着两个 gpt-oss 模型被全面集成到 NVIDIA 开发者生态系统中，开发者可选择最有效的解决方案。可在 NVIDIA API 目录用户界面或通过 OpenAI Cookbook 中的 NVIDIA 开发者指南开始使用。

Tags: 岗位表白方式益生菌酸奶投资面瘫的原因

上一篇：赛思PTP时间同步服务器推荐赛思×阿里云｜30ns精度编织全球算力无界网

下一篇：利群股份(601366):利群商业集团股份有限公司关于2024年第三期以集中竞价交易方式回购股份的进展公告

你可能感兴趣的文章

排名	标题	查看
1	圣女果是转基因食品，不能吃？	5398
2	差分探头输入范围解析	5383
3	“中国大运河史诗图卷展”在西夏陵博物馆开幕两大世界文化遗产开启跨时空对话,“中国大运河史诗图卷展”在西夏陵博物馆开幕两大世界文化遗产开启跨时空对话	5368
4	年营收17亿元只收到10亿元现金三峡新材：“票据往来” 是主因	5333
5	元力控股：2024-2025年度亏损3755万元	5304
6	光储系统如何避免逆流风险？安科瑞ADL200N/ADL400N无线监测方案详解	5225
7	神州租车宣布携手宁德时代、时代电服、招银金租，围绕新能源汽车换电业务展开合作	5192
8	平安银行上半年净利润248.7亿降3.9%，营收降10%	5179

NVIDIA从云到边缘加速OpenAI gpt-oss模型部署，实现150万TPS推理

5年卖了80万台后，零跑全新C系列继续“自我革命”

2024奔驰V级团购价格50万起欢迎到店试驾

Rivian首席执行官称高阶智驾软件价格终将下降，类比安全气囊发展历程

【盖世快讯】比亚迪交付英国第10万台新能源车；传鸿蒙智行全面引入电池二供

零跑汽车全球累计交付达150万辆将加速迈向全球市场

月薪从2.6万跌到700，超10万“4S人”无奈离场，4S模式真走到尽头了？

NVIDIA从云到边缘加速OpenAI gpt-oss模型部署，实现150万TPS推理

5年卖了80万台后，零跑全新C系列继续“自我革命”

2024奔驰V级团购价格50万起 欢迎到店试驾

Rivian首席执行官称高阶智驾软件价格终将下降，类比安全气囊发展历程

【盖世快讯】比亚迪交付英国第10万台新能源车；传鸿蒙智行全面引入电池二供

零跑汽车全球累计交付达150万辆 将加速迈向全球市场

月薪从2.6万跌到700，超10万“4S人”无奈离场，4S模式真走到尽头了？

2024奔驰V级团购价格50万起欢迎到店试驾

零跑汽车全球累计交付达150万辆将加速迈向全球市场