NVIDIA Cosmos
核心定位:全球首个完全开放的全模态世界基础模型 / Cosmos 3(2026.06)Mixture-of-Experts 架构 / 统一语言+图像+视频+音频+动作五模态 / World Action Models (WAMs) 机器人策略学习 / 14+ 家机器人公司采用 / HuggingFace+GitHub 全面开源 / 斯坦福 Chelsea Finn 背书 / Jim Fan 团队主导
NVIDIA Cosmos 是全球首个完全开放的全模态世界基础模型(World Foundation Model)平台,由 NVIDIA GEAR 实验室(Jim Fan/Yuke Zhu)主导研发。2025 年 1 月 CES 首次发布,2026 年 6 月升级至 Cosmos 3 版本,采用创新的 Mixture-of-Experts(MoE)架构,在单一架构内统一处理语言、图像、视频、音频和动作序列(Omnimodal)。Cosmos 支持 World Action Models (WAMs),可作为机器人策略学习的骨干网络,通过后训练适配特定相机和形态。已被 1X Technologies、Figure AI、Agility Robotics、Fourier Intelligence、Neura Robotics、Skild AI、小鹏汽车等 14+ 家机器人公司采用。模型权重、分词器、数据管线在 HuggingFace 和 GitHub 全面开源。斯坦福具身智能专家 Chelsea Finn 在合作论文中引用 Cosmos WoW 技术报告,HuggingFace 官方留言催更开源。
产品矩阵
| 产品 | 型号 | 价格 | 规格 |
|---|---|---|---|
| NVIDIA Cosmos 3 | — | ¥Free | 全模态世界基础模型 / MoE 架构 / 统一五模态 / WAMs 支持 / HuggingFace+GitHub开源 |
关键特性
- 全球首个完全开放的全模态 WFM(World Foundation Model)
- Cosmos 3 MoE 架构(2026.06 发布)
- 统一语言+图像+视频+音频+动作序列
- World Action Models (WAMs) 用于机器人策略学习
- 14+ 家机器人公司采用(1X/Figure/Agility/Fourier/Neura/Skild/小鹏等)
- HuggingFace + GitHub 全面开源
- 斯坦福 Chelsea Finn 背书
- NVIDIA GEAR 实验室(Jim Fan)主导
同类公司
蚂蚁灵波
中国 ·
早期
LingBot-VLA开源具身智能基座模型,训练数据包含金融服务场景操作序列(银行大堂/仓储金融质押物管理),2025年
北京人形机器人创新中心
中国 ·
早期
国家队打造全球首个统一具身智能模型,两榜SOTA达到世界第一梯队,开源慧思开物Agent框架
GigaWorld-0
中国 ·
早期
全球首个验证世界模型生成数据能有效提升真实机器人性能的里程碑项目,GitHub 5k+ Star
HY-Embodied-0.5-X
中国 ·
早期
屠榜多个主流测评集的腾讯开源具身模型,GitHub+HuggingFace双开源
iFlyBot-VLM
中国 ·
早期
国内主流开源具身基础模型测评SOTA水平,将视觉空间信息转为机器人操作指令
Kairos 3.0(开悟世界模型)
中国 ·
早期
首个开源且商业应用的世界模型,内置11大类328个标签,覆盖115个垂类具身场景
逐际动力
中国 ·
早期
LimX VGM视频生成模型驱动具身大脑(绕过海量真机数据依赖),COSA具身Agentic OS,FluxVLA En
灵波科技
中国 ·
早期
蚂蚁集团全资孵化;LingBot-VLA开源全栈工具链(业内首批);真机评测任务成功率超国际标杆;Robyant-R1服