对话朱皓怡 | 分钟级生成、单卡可部署的世界模型SANA-WM(中科大&英伟达)

📅 2026-06-17 13:00 具身智能之心 产品 原文:具身智能之心

点击下方 卡片 ,关注“ 具身智能之心 ”公众号

直播和内容获取转到→ 具身智能之心知识星球

点击按钮预约直播

世界模型正在成为具身仿真与交互式环境的核心底层接口。

现有开源系统虽已能实现分钟级、动作条件驱动的视频推演生成,但普遍存在模型 参数量大、训练数据集庞大、训练周期漫长、推理需多卡集群 等问题。

图片

SANA-WM的提出,以 高效性 作为首要设计目标,这是一款仅26亿参数的开源视频世界模型,原生面向一分钟视频生成任务训练,基于 21.3万条 带公制位姿监督的公开视频片段,依托 64张H100显卡 15天 即可完成训练。

实验数据表明,SANA-WM的 动作跟随精度 优于现有开源基线模型,视觉画质与之持平,生成吞吐速率最高提升 36倍。

图片

更具落地价值的是,它将分钟级视频生成降至单GPU推理即可实现:双向版本与分块因果版本可在 单张H100 上运行,蒸馏版本经NVFP4量化后, 单张RTX 5090 仅需34秒即可完成1分钟视频生成。

本次直播具身智能之心将会和核心贡献者 朱皓怡博士 一起,深入探讨这个高效、动作跟随精度优、自带“精修”的世界模型是如何搭建的,未来会如何用于具身训练。

分享介绍

图片

分享人简介:

朱皓怡,中国科学技术大学三年级直博生,英伟达研究实习生,本科毕业于上海交大人工智能荣誉班。博士期间已在AI顶会发表论文20余篇,其中5篇一作,谷歌学术引用超过3100余次。研究方向主要聚焦于世界模型。最新工作SANA-WM构建了分钟级的高效世界模型,获得了广泛的关注,发布以来Github仓库star数量净增长超过2.5k余次,推特点赞超过1k余次,被英伟达官方推特账号宣传。过去的代表工作中,朱皓怡构建了统一的4D世界模型Aether,获得了ICCV RIWM Workshop杰出论文奖;开发了带有几何空间记忆的自回归4D世界模型DeepVerse;参与了大规模多模态世界模型数据集OmniWorld,从数据到表征到模型,全面推动了可扩展世界模型的发展。

图片

分享人说:

世界模型正在成为AI领域新的热潮,而实用的世界模型需要长时序和高效。我们在SANA-WM这个工作里面, 围绕数据、训练、推理三个维度的高效性进行探究原生训练分钟级别的高效世界模型。 SANA-WM通过Hybrid Linear Diffusion Transformer,实现64卡训练、单卡实时推理。我们相信这对于未来在游戏、自动驾驶、机器人等领域的应用有很大的发展前景。

图片

推荐阅读:

图片

相关动态

人形机器人与具身智能实景实训专项行动启动__中国政府网 2026-06-30 gov 36氪研究院 | 2026年具身智能产业发展研究报告 2026-06-30 36kr MolmoSpaces:用于机器人导航与操控的大规模开放生态系统 2026-06-30 huggingface 「一页纸」吃透产业链之:人形机器人,Figure链与特斯拉 ... 2026-06-30 36kr 具身智能2025之问:新物种时代,人形机器人如何长大? 2026-06-30 thepaper 工业和信息化部办公厅 国务院国资委办公厅关于联合开展 ... 2026-06-30 miit