对话朱皓怡｜分钟级生成、单卡可部署的世界模型SANA-WM（中科大&英伟达）

点击下方卡片，关注“ 具身智能之心 ”公众号

直播和内容获取转到→ 具身智能之心知识星球

点击按钮预约直播

世界模型正在成为具身仿真与交互式环境的核心底层接口。

现有开源系统虽已能实现分钟级、动作条件驱动的视频推演生成，但普遍存在模型参数量大、训练数据集庞大、训练周期漫长、推理需多卡集群等问题。

SANA-WM的提出，以高效性作为首要设计目标，这是一款仅26亿参数的开源视频世界模型，原生面向一分钟视频生成任务训练，基于 21.3万条带公制位姿监督的公开视频片段，依托 64张H100显卡 15天即可完成训练。

实验数据表明，SANA-WM的动作跟随精度优于现有开源基线模型，视觉画质与之持平，生成吞吐速率最高提升 36倍。

更具落地价值的是，它将分钟级视频生成降至单GPU推理即可实现：双向版本与分块因果版本可在单张H100 上运行，蒸馏版本经NVFP4量化后，单张RTX 5090 仅需34秒即可完成1分钟视频生成。

本次直播具身智能之心将会和核心贡献者朱皓怡博士一起，深入探讨这个高效、动作跟随精度优、自带“精修”的世界模型是如何搭建的，未来会如何用于具身训练。

分享介绍

分享人简介：

朱皓怡，中国科学技术大学三年级直博生，英伟达研究实习生，本科毕业于上海交大人工智能荣誉班。博士期间已在AI顶会发表论文20余篇，其中5篇一作，谷歌学术引用超过3100余次。研究方向主要聚焦于世界模型。最新工作SANA-WM构建了分钟级的高效世界模型，获得了广泛的关注，发布以来Github仓库star数量净增长超过2.5k余次，推特点赞超过1k余次，被英伟达官方推特账号宣传。过去的代表工作中，朱皓怡构建了统一的4D世界模型Aether，获得了ICCV RIWM Workshop杰出论文奖；开发了带有几何空间记忆的自回归4D世界模型DeepVerse；参与了大规模多模态世界模型数据集OmniWorld，从数据到表征到模型，全面推动了可扩展世界模型的发展。

分享人说：

世界模型正在成为AI领域新的热潮，而实用的世界模型需要长时序和高效。我们在SANA-WM这个工作里面，围绕数据、训练、推理三个维度的高效性进行探究原生训练分钟级别的高效世界模型。 SANA-WM通过Hybrid Linear Diffusion Transformer，实现64卡训练、单卡实时推理。我们相信这对于未来在游戏、自动驾驶、机器人等领域的应用有很大的发展前景。

对话朱皓怡 ｜ 分钟级生成、单卡可部署的世界模型SANA-WM（中科大&英伟达）

相关动态