NVIDIA Cosmos世界基础模型如何塑造机器人未来

科技时尚 2026-01-23 广盈财人 3384

在这一演进过程中,世界模型逐渐成为连接高层智能与底层执行的关键基础设施。通过对环境状态及其时间演化进行建模,世界模型使机器人系统能够在受控环境中进行仿真、训练与决策推演,从而为机器人在真实物理世界中实现可靠的感知、决策与行动闭环提供支撑。

NVIDIA Cosmos:面向物理 AI 的世界基础模型

NVIDIA Cosmos 包含一系列先进的预训练多模态模型,为开发者构建虚拟世界、实现智能推理,提供了一套灵活、可扩展的世界建模基础设施。

在 Cosmos 平台中,Cosmos Predict是面向世界状态预测的核心基础模型,通过视频级生成与预测,Cosmos Predict 使物理 AI 系统能够在给定当前观测和条件的情况下,对未来状态进行推演。其前瞻性的世界模型能力,为仿真、规划及闭环决策环节提供高效支撑。最新版本的 Cosmos Predict 2.5 能够仅基于单张图像和文本提示,生成最长 30 秒的未来世界状态视频,这一能力为物理 AI 系统提供了高质量的合成数据来源。该模型还能进一步优化机器人的迭代式策略训练场景。

智元机器人 Genie Envisioner:

基于 Cosmos 实现感知到行动的端到端闭环

基于 NVIDIA Cosmos,智元机器人近期发布了具身智能世界模型平台 Genie Envisioner(GE),系统性地打通了机器人从“感知”到“决策”再到“行动”的端到端闭环。

GE 以统一的视频生成式世界模型为核心,将策略学习、评估与仿真能力整合在同一框架之中,使世界模型能够深度参与机器人决策与控制过程,成为具身智能系统中的关键基础组成部分。

581ecea2-f6b1-11f0-92de-92fbcf53809c.png

具身智能世界模型平台 Genie Envisioner(GE)

*图片来源于 Genie Envisioner 项目网站

在 GE 的整体架构中,GE-Sim模块承担着视频级世界仿真的关键角色。该模块需要在多视角条件下生成具备物理一致性和时间稳定性的环境演化结果,同时还必须对机器人的动作指令做出准确响应。

这种动作条件世界模型(action-conditioned world model)对底层视觉先验、动态建模能力以及多步骤稳定性提出了极高要求,是具身智能从概念走向落地过程中最具挑战性的技术环节之一。

NVIDIA Cosmos Predict 2,加速 GE-Sim 迭代升级

面对物理 AI 和具身智能场景在规模、多样性与动态复杂性上的挑战,智元机器人团队引入 NVIDIA Cosmos Predict 2,为 GE-Sim 提供强大的通用视觉与物理先验能力。

通过将 Cosmos Predict 2 深度集成至自研的动作条件世界模型架构中,并结合 AgiBot World 数据集开展针对性的后训练,团队显著加快了 GE-Sim 的迭代节奏,并持续提升仿真质量与系统稳定性。

借助 Cosmos 世界基础模型的基础能力,GE-Sim 生成的多视角视频能够精准响应机器人的动作指令。Cosmos 提供的通用视觉与物理先验,使模型能够覆盖海量具身场景的多样性。在此基础上,GE 架构进一步结合机器人动作条件与任务约束,使生成结果既符合真实物理规律,又能够直接服务于机器人决策与执行。

基于 NVIDIA Cosmos 的 GE-Sim 视频仿真演示:模型根据机器人动作指令生成未来帧,并在多视角下保持高度一致性

基于 Cosmos 世界基础模型优化后的 GE-Sim,已于 2025 年 11 月正式发布并在 GitHub 开源,为具身智能社区提供了可复用、可扩展的世界仿真基础设施。

不止于仿真:Cosmos 如何塑造机器人未来?

Cosmos 世界基础模型正在成为物理 AI 的基础模型层,为机器人提供:

高质量合成数据生成,降低真实数据收集与标注成本;

安全可靠的仿真环境,支持大规模强化学习与策略调试;

可扩展的世界先验,加速不同场景的模型适配与部署。

通过将世界状态预测能力系统化、模型化,Cosmos 让机器人不仅在“感知现在”,更在“理解变化”和“推演未来”,从而在真实世界中做出更稳健、更智能的决策。

Cosmos 将持续作为世界模型的核心底座,与生态伙伴共同推动具身智能从实验室走向真实世界。