英伟达机器人专家:世界动作模型(WAM)最好的系统性概述!

📅 2026-06-17 09:01 人形机器人洞察研究 政策 原文:人形机器人洞察研究

图片

图片

图片

温馨提示: *扫描文末二维码, 加入知识星球, 免费下载2900+行业报告(包含海外投行报告); *企业广告、推文宣传 *和研究咨询合作请联系16620948826(同微信) 。*

图片

图片

近期,英伟达机器学习专家Moritz Reuss写了一篇关于世界动作模型的文章,文章主要回答了WAM从何而来?它与VLA又有何区别?两个核心问题。有博主认为,该文章是目前关于WAM最好的系统性概述之一。

图片

关于作者:莫里茨目前是苏黎世西雅图机器人实验室的博士后研究员,致力于开发高效的机器人操作基础模型。他的研究融合了生成式建模和基于演示数据的机器人学习。此前,他曾在卡尔斯鲁厄理工学院鲁道夫·利乌蒂科夫教授的指导下攻读博士学位,研究方向包括扩散策略、混合专家架构、高效的视觉-语言-动作模型、数据标注以及用于机器人操作的新型动作标记器。他的博士研究得到了苹果人工智能/机器学习奖学金的资助。

文章初步译文如下,供各位读者参考

图片

背景:由两个基本模块构成。

视觉运动策略将当前观测结果加上目标或指令映射到机器人动作。世界模型根据当前状态加上动作或目标抽象来预测未来的视觉或潜在状态。WAM 位于两者的交汇点:它利用预训练的视频/世界模型骨干网络作为先验信息,并预测未来的状态和机器人动作。

图片

视觉运动策略:语言指导和当前观察输入,动作顺序输出。

图片

世界模型:当前世界状态加上一个动作抽象输入、未来图像或潜在输出。

介绍

去年,我的学术收件箱几乎每天都被新的VLA论文占据。这种情况在过去几个月发生了变化,现在几乎每天都会出现另一个关键词:WAM,即世界行动模型(World-Action Model)的缩写。2025年10月,我在VLA现状报告中写道,WAM是VLA研究领域的一个小分支,远不如基于VLM的VLA研究受欢迎[60]。这种情况迅速改变,我希望看到更多这方面的研究,而如今这一愿望已成为现实。

那么究竟是什么改变了这一切,又为什么是现在?或许是因为WAM是人人都想研究的热门新领域,又或许是因为VLA的作者们已经想不出新名字来命名他们自己的VLA了,毕竟像“X-VLA”和“Ego-VLA”这样的“-VLA”名字基本上都已经被用过了。所以现在我们可以把它们重新利用到WAM领域。但更有可能的是,这与基于VLM的VLA遇到了瓶颈有关。现代VLA受益于大规模的视觉语言预训练,但它们仍然面临着语言到动作映射的难题。将语言和像素映射到行为的问题仍然需要从机器人数据中学习。WAM提供了一个不同的起点。它们使用预训练的视频或世界模型骨干网络,这些网络已经对场景动态在语言条件作用下的变化进行了建模。如果这种先验知识能够迁移到行为生成中,那么剩余的视频到动作映射差距可能比直接学习语言到动作映射要小。

但WAM背后的理念并非新颖。早在2023年,像UniPi [10]这样的早期WAM就提出了类似的方法。那么,为什么这种范式花了数年时间才进入机器人基础模型的主流,而它如今又处于什么阶段呢?本文将深入探讨现代WAM的现状,以解答这个核心问题:

核心问题:这究竟是研究和产业领域的真正范式转变,还是仅仅是短暂的炒作?如果这种方法真的如此有效,为什么在像 UniPi 这样的早期论文发表后,WAM 花了几年时间才变得如此流行?

我的观点是:WAM 将成为继基于 VLM 的 VLA 之后,机器人基础模型的第二种主要构建方式。目前尚不清楚哪种方式最终会胜出,以及模型架构和流程中的哪些部分真正起决定性作用。最终的赢家很可能既不是纯粹的 VLA,也不是纯粹的 WAM,而是两者的混合体。

这是我对现代世界模型(WAM)领域的概览:如何对世界模型进行分类和理解,自早期模型以来发生了哪些变化,以及当前结果与虚拟学习阵列(VLA)的比较。如需更全面的概述,请参阅近期南洋理工大学发布的调查报告《机器人学习的世界模型:一项综合调查》,该报告绘制了机器人学习在仿真、评估、导航和自动驾驶等领域的世界模型图谱。

图片

两种针对通才政策的代表性赌注

图片

图 1. 目前通用操纵策略的两种选择:基于 VLM 的 VLA 与视频骨干网 WAM。

目前,机器人基础模型领域在研究和工业界主要有两种表示方法。许多团队基于Pi-0 建立并由Pi-0.5改进的传统VLA方案,以VLM骨干网作为策略学习的起点。这种基于VLM骨干网的方案已在NVIDIA GR00T、小米机器人、Being-H0.5 等团队的公开论文中有所应用。

最近,一种不同的范式出现了:使用预训练的视频骨干网络作为实现通用操作的替代途径。公开的例子包括 NVIDIA 的DreamZero 和Cosmos Policy、蚂蚁集团的LingBot-VA、Rhoda AI 的DVA 、Sereact 的Cortex 2.0 以及 Mimic Robotics 的mimic-video。与此同时,许多大学实验室和开放研究团队也在不断探索新的思路,例如视频预测策略、统一视频动作模型和Fast-WAM。我们将在下文中详细讨论这些内容。

骨干网络的选择会影响整个训练和评估流程,从训练方案和数据混合到推理优化。考虑到大规模运行这些模型的成本,大多数团队可能不得不优先考虑其中一个方向(VLA 或 WAM),而不是同时全面推进两者。哪条路最终会成功,或者两者是否会融合,目前尚无定论。你现在会押注哪条路?在接下来的章节中,我们将深入探讨这一决策的利弊。

为什么需要世界行动模型?我们的假设

在深入探讨现有模型之前,我们先来回顾一下为什么 WAM 能够作为基于 VLM 的 VLA 的替代方案而具有吸引力。此外,将 WAM 置于机器人领域更广泛的世界模型框架中也有助于我们理解它。

图片

图 2. 机器人学 中的世界模型。动作条件世界模型(DreamDojo、Genie、JEPA-WM)根据学习到的动作抽象来预测未来状态。视频世界模型(Cosmos-3、WAN、Veo、LTX-Video)根据语言和参考系来预测未来的视频。世界动作模型(WAM), 例如 DreamZero、LingBot-VA、UniPi 和 mimic-Video,则处于两者的交汇点:它们在机器人策略中复用视频或世界模型作为骨干,并发出相应的动作。

要理解WAM为何如此吸引人,首先需要了解基于VLM骨干网构建的“传统”VLA面临的核心挑战。最初的VLA旨在利用VLM的互联网规模知识库来开发机器人技术。VLM基于海量的视觉文本数据进行训练,并在许多视觉任务中展现出显著的零样本性能。VLA的实现方式是将这些预训练的表征应用于动作生成。

然而,VLM预训练与具身操作之间存在着巨大的领域鸿沟。一些VLA论文要么观察到预训练VLM能力的退化,要么针对此问题进行了设计,尤其是在动作学习目标与原始VLM目标出现显著偏差时。VLM2VLA直接将此描述为VLM到VLA过渡过程中的灾难性遗忘。Knowledge Insulation报告了类似的发现,并将此问题归结为架构层面:它将流匹配动作专家的梯度与VLM主干网络隔离,以保留预训练的语言/视觉知识,从而提高训练收敛性、任务性能和语言跟随能力。诸如VLM协同训练和离散动作标记器等最新解决方案有所助益,但核心挑战依然存在:如何利用有限的机器人数据将语言与物理动作联系起来。我们将在下文的现代VLA基线部分介绍这些解决方案。

这自然引出了一个问题:如果我们从一个已经代表语言如何映射到世界视觉变化的框架出发,会怎么样呢?

WAM作为政策表征的核心假设

核心思想很简单:与其使用 VLM 骨干网络来快速启动模仿学习,不如使用预训练的视频骨干网络。当前的视频模型基于大型视频语料库进行训练,学习视觉场景演变的时空表征。关键在于,当前的视频模型通常受文本条件制约:它们被训练来根据精确的语言描述生成视频,有时借助参考帧,有时则仅凭文本。这些视频中有很多都包含有意行为:例如手部动作、工具移动、物体操作以及场景因人或物的行为而发生变化。这使得视频骨干网络作为通用操作的先验模型极具吸引力。在看到任何机器人动作之前,骨干网络就已经编码了语言、视觉变化和合理的物体交互之间的有用联系。下面的 Veo 3.1 演示就是一个简单的例证。

接下来的三点我认为是假设,而非结论。这些观点在论文、与同行的讨论以及我个人对该领域的理解中反复出现,并得到了定性直觉、模拟证据和一些早期现实世界信号的支持,但尚未通过清晰匹配的比较来证实:

预测未来世界变化与生成必要的行动密切相关 。逆向动态预测通常比单纯的行动生成更容易。如果已知期望结果,推断产生该结果的行动通常比直接从指令和当前观察结果预测行动更简单。Pi-0.7 的视觉子目标结果也指向同一方向:当策略被赋予期望的未来图像时,行动预测变得更加直接,训练收敛速度也更快。

视频预训练能够建立语言与物理变化之间的联系 。视频模型可以学习将文本描述映射到视觉结果。如果这种方法能够应用于机器人领域,就能减少仅通过机器人演示来学习联系所需的工作量。

视频数据可以规范机器人策略 。机器人数据集相对于网络规模的视频数据集而言规模较小。无论是先在视频上进行预训练,还是将视频与机器人数据联合训练,更广泛的视觉先验信息都能减少过拟合;其效果取决于数据集、目标函数和模型架构。DreamZero 和 Fast-WAM 都表明,在机器人微调过程中,当动作学习与视频预测目标联合训练时,WAM 的性能最佳。

一个简单的实验:前沿视频模型对机器人操作的理解程度如何?

在添加任何机器人专用动作头之前,现代视频模型已经捕捉到了多少信息?我们使用谷歌的 Veo 3.1(一款前沿的视频生成模型)进行了一个简单的实验。给定一段来自 RoboArena 原始演示中 DROID 机器人操作烤面包机任务的上下文帧,我们让 Veo 按下烤面包机的控制杆(参考任务,与原始 DROID 演示相匹配),然后拾取左侧的橙子(合成扩展任务,超出演示范围)。这段视频极不可能包含在 Veo 的预训练数据集中,但我们无法直接验证训练集;请将此视为对先验知识的定性检查,而非对训练集成员资格的受控探测。这是一次单次尝试,未进行任何优化。使用的提示是:

“根据这帧初始图像,生成一段机器人手臂推动烤面包机手柄的视频。完成此操作后,机器人应拿起烤面包机左侧的橙子,并在拿起橙子后停止。”

上下文框架和真实数据发布:

图片

图 3. DROID 设置中 RoboArena 烤面包机任务的上下文帧。

图片

图 4. 真实情况展示:机器人推动烤面包机的拉杆。

Veo 3.1 生成的部署(零样本,无机器人微调):

图片

图 5. Veo 3.1 参考任务(按下烤面包机控制杆)的展开。

图片

图 6. Veo 3.1 组合扩展程序的展开(按下控制杆,然后拾取橙色部件)。

图片

图 7. 完整组合扩展序列的动画展开:按下控制杆,然后拾取橙色。

对于一个并非专门训练为机器人策略的模型来说,生成的滚动轨迹效果出乎意料地好。生成的运动流畅,背景保持稳定一致,机器人沿着合理的轨迹向两个目标物体移动。甚至连操作顺序也得到了保证:先完成拉动控制杆,再移动到橙子处。

这些局限性同样显而易见:模型无法完全向下推动烤面包机的控制杆,有时甚至似乎试图做相反的动作(向上拉动)。更明显的是,原DROID装置中的夹爪变成了四指机械手。固定底座的机械臂在上下文帧之后几乎立即被重新设计成一个自由度更少的机器人。这些缺陷表明,该模型使用了广泛的视觉先验信息,而不是忠实地模拟特定的硬件。

尽管如此,该结果仍然说明了视频骨干网为何对机器人技术具有吸引力:该模型对机器人与物体交互的模式提供了一个有用的先验信息,即使它目前还不足以可靠地进行控制。WAM 微调正是尝试将这种零样本的想象转化为可靠的控制。

了解现代WAM:核心配方

在明确了核心动机之后,我们现在可以专注于当前的WAM研究。与基于VLM的VLA(其训练方法已基本趋于一致,即VLM与流程变换器协同训练以生成动作)不同,WAM目前仍存在多种不同的主动式模型。这正是该领域目前引人入胜之处:我们尚不清楚哪种设计组合最终会胜出,也不确定最佳系统是否会融合多种模型的部分特性。

为了使设计空间更易于理解,我们将 WAM 沿三个轴(并非完全独立)进行组织:

范式:模型预测什么?如何利用预测的视频生成动作?(逆动力学、联合预测还是仅表征)

动作集成:动作究竟是如何进入模型的?(默认动作标记、动作图像、潜在动作/计划)

架构:组件是如何构成的?(混合式 Transformer 架构、整体式架构还是层级式架构?)

这些轴并非完全独立,有些WAM(加权平均模型)难以归入单一类别。因此,我不认为这是一个完美的分类体系。它更像是一张实用的阅读指南,帮助读者在理解现有论文时避免因命名选择而迷失方向。对于每个轴,我都会先引用一篇较早的论文来阐述其概念,然后再用一篇基于相同粗略方法的现代扩展版本来解释。

图片

图 8. WAM 设计空间概览。 左图: 三种范式的区别在于模型的预测内容。逆动态 WAM 生成未来视频,然后从中推导出动作。联合预测 WAM 同时输出视频和动作。仅表示 WAM 仅使用视频主干作为表示,并在推理阶段跳过视频生成。 中图: 三种动作集成方式的区别在于动作进入模型的方式。动作可以是独立的标记。它们可以是视频模型原生去噪的图像形状目标。或者它们可以是压缩的潜在动作和计划。 右图: 三种架构风格的区别在于组件的组成方式。单体 Transformer 将所有功能集成在一个堆栈中。模态特定的专家通过共享注意力机制 (MoT) 耦合,各自拥有独立的权重,但共享信息。分层流水线在动作模块之前运行视频模块。本节的其余部分将依次介绍每个维度。

范式:模型预测的内容

第一个维度是策略制定:模型预测的内容,以及如何利用预测的视频来生成行动。在现代的WAM(广义动作模型)中,我们看到推理边界处存在三种不同的方向:逆向动态、联合预测和仅表征。

逆动力学:预测未来,然后推断行动

图片

图 9. 逆动力学 WAM(摘要)。视频模型首先根据语言指令和当前观察结果生成未来帧或潜在帧;然后,逆动力学头部将预测的转换映射到一系列动作。具体系统之间的区别在于它们使用完整的 RGB 未来帧(LingBot-VA、DVA)、潜在视频特征(VPP、mimic-video)或仅使用中间特征。

逆动力学设置是最容易理解的WAM方案:首先设想未来,然后根据视频预测最可能的动作。这便将原本棘手的语言映射问题转移到了视频阶段:将指令转化为合理的视觉变化。其优势在于,视频预训练已经学习到了语言到视觉变化映射中的一部分有用信息,因此动作控制模块无需从机器人演示中学习所有内容,从而可以专注于逆动力学问题。

图片

图 10. UniPi 概述。文本条件视频生成器根据当前帧和语言指令生成未来的图像序列;然后,一个独立的逆动力学模块从连续帧中提取动作。图片来自Du等人,2023 。

UniPi 是该方向的开创性论文。它可能是第一个现代实践这种方法的论文,明确认识到视频扩散在机器人领域的潜力:将视频作为高层规划,然后利用逆动力学恢复底层控制。事后看来,许多近期的 WAM 工作看起来像是对其的改进版本。

UniPi 也解释了为什么 WAM 花了数年时间才成为主流。它使用了 Imagen Video 时代的基于 CNN 的视频扩散堆栈 ,并且视频生成器必须从头开始预训练。我们在脚注 2 中的粗略估计表明,预训练大约需要 167 ZFLOPs,远远超出了大多数机器人实验室的预算。虽 然这种方法以前就存在,但对于普通实验室来说,它实际上难以复现。现代逆动力学 WAM 现在可以通过从基于 DiT 的开源视频骨干网络开始并对其进行微调来规避这个问题。

图片

图 11. LingBot-VA 架构:基于微调的 Wan 2.2-5B 骨干网的视频滚动进行逆动力学动作预测。图片来自Li 等人,2026 。

LingBot-VA 是这一方向的现代版本。它通过 16000 小时的跨具身预训练,将 Wan 2.2-5B 转化为机器人视频动作模型。与 UniPi 的重要区别不仅在于规模。LingBot-VA 具有因果性,并且基于长时间的视觉历史进行训练,以实现闭环展开,而非开环视频生成。它还采用了混合 Transformer (MoT) 架构:视频和动作分别由独立的专家模型处理,每个模型都有自己的权重,并通过每一层的共享自注意力机制进行耦合。

图片

围绕同一主题存在多种变体。视频预测策略、DiT4DiT和mimic-video 并不一定需要最终的RGB视频;它们使用中间视频模型特征作为动作解码器的预测方案。DVA 和LingBot -VA则更直接地依赖于生成或预测的未来场景。难点在于,大多数论文都改变了视频骨干网络,使用了不同数量的大规模预训练数据,调整了不同的超参数,并在不同的设置上进行了评估。

联合预测:同时学习视频和动作

图片

图 12. 联合预测 WAM(摘要)。单个模型接收语言指令和当前观测数据,并在一次迭代中同时输出动作序列和预想的未来状态(帧或潜在状态),无需单独的逆动力学模块。

第二种方法是联合预测。模型不再先生成未来的视频再解码动作,而是同时预测视频和动作。这是WAM思想的耦合度更高的版本:模型必须在同一预测步骤中学习应该发生什么以及如何实现它。

图片

图 13. GR-1 架构。第一阶段在视频预测上进行预训练;第二阶段在机器人数据上进行微调,目标函数为未来帧和动作块的联合目标。图片来自Wu 等人,2023 。

GR-1是该方向的早期奠基论文。它首先在大规模视频上进行预训练,然后在包含视频和动作监督的本地机器人数据集上进行微调。GR-1 采用 GPT-2 风格的 Transformer 策略,首先在带有读取标记的互联网视频预测数据集上进行预训练,然后在机器人数据上以视频-动作联合目标进行微调。此前,R3M 和 Voltron等工作已经表明,视频和语言可以辅助机器人表征学习,但 GR-1 做出了一个简单而重要的转变:它利用视频来学习更好的策略表征,而不仅仅是图像级的视觉表征。

当时,CALVIN 的结果提供了有用的模拟证据。在难度更高的 ABC→D 分割任务上,GR-1 表中的先验方法平均序列长度低于1.0,而 GR-1 则达到了 3.06/5。这个结果在这里很有用,因为它使泛化信号更容易解读。到 2026 年,这个数字可能已经过时,但我仍然认为这个结果具有历史意义。它表明,预测未来的视觉状态可以构建更好的策略表示,而不仅仅是更好的视觉编码器。

图片

图 14. CALVIN ABC→D 结果总结为五个子任务中平均完成子任务数,其中 GR-1 为历史结果,小米机器人-0 为当前最先进的 VLA 参考值。数值取自Wu 等人,2023 年和小米机器人,2026 年。

DreamZero是这一理念的现代扩展版本。它并非围绕视频预测头训练一个较小的 Transformer 式策略,而是从 Wan 2.1-I2V-14B-480P 出发,将视频扩散骨干网络转化为一个联合的世界-动作模型。该模型在一个整体式的 DiT 中同时对视频和动作标记进行去噪。它没有单独的逆动力学模块:动作是在同一去噪过程中生成的另一种模态。

图片

图 15. DreamZero 架构。单个单体 Transformer,由 14B Wan 视频扩散骨干网初始化,联合对视频标记和动作标记进行去噪。图片来自Ye 等人,2026 。

DreamZero公布的RoboArena得分是WAM(广域网评估模型)的重要实际指标。虽然大多数论文仍然侧重于LIBERO等热门基准测试和其他模拟基准测试,但RoboArena是为数不多的公开的、开放式的真实世界评估之一,因此,下面的快照值得我们仔细研究。

图片

图 16. 2026 年 4 月RoboArena排行榜快照。Pi-FAST (1592) 领先于 Pi-0 (1475),而 Pi-0.5 (1622) 和 DreamZero (1750) 则进一步领先。

在上述 2026 年 4 月的快照中,DreamZero 的得分达到 1750,而 Pi-0.5 的得分为 1622,这对于 WAM 的潜力来说是一个重要的信号。这并不能证明 WAM 是更好的默认模型,但它确实展现了 WAM 的潜力。值得注意的是,DreamZero 仅在 DROID 上进行了训练,而没有经过额外的大规模跨模型机器人训练阶段。

图片

GR-1 展示了联合视频动作预测的策略级版本,而 DreamZero 则将这一思想与现代视频基础模型和流匹配机制相结合。虽然其核心联合预测思想与 GR-1 相同,但 DreamZero 几乎改变了其他所有方面,因此两者之间难以直接比较。

GR-2、Seer 、PAD 、UWM 、UVA和 DreamVLA都属于这一更广泛的联合预测领域。PAD 是早期尝试在同一个联合去噪过程中实现未来图像预测和机器人动作生成的另一个例子。UWM 使用独立的噪声处理视频和动作,以支持联合 Transformer 中更灵活的推理模式。

仅表示:在推理阶段跳过视频生成

第三种方法是将视频骨干网纯粹用作表示,完全跳过推理阶段的视频生成。Fast-WAM 就是这种思路的一个很好的例子。

Fast-WAM采用了与 LingBot-VA 类似的 Wan/MoT 式设置,即使没有 16000 小时的大规模机器人预训练,其在模拟基准测试中的表现也与其非常接近。此外,在测试阶段跳过视频生成步骤使其推理速度提高了数倍。然而,Fast-WAM 是目前为数不多的公开证据之一,支持“仅表征假设”,而现有的模拟证据尚不足以让我真正信服这一观点。但我期待在未来的工作中获得更充分的论证。

目前大多数WAM算法在推理阶段仍然保留某种形式的视频生成,速度非常慢。像Fast-WAM这样的快速WAM算法未来将成为更重要的研究领域。

行动整合:行动如何进入模型

在讨论了如何将视频和动作预测结合起来之后,我们来重点关注模型内部如何表示动作。动作表示的选择至关重要,因为预训练的主干网络擅长对视觉标记进行去噪,而非连续的机器人动作,因此存在着模态不匹配的问题。我在现有论文中看到了三种不同的表示方法。

默认操作令牌

最简单的默认做法是添加动作标记(连续或离散)和一个动作头,其中动作被视为与视频并列的另一种模态。UniPi、GR-1、DreamZero、LingBot-VA、VPP、mimic-video 和 Fast-WAM 都采用了某种形式的类似方法。风险在于模态不匹配:动作块与骨干网络预训练所用的视觉标记不同,因此模型必须在动作微调期间调整其表示。

动作即图像

另一种方法是将动作转换成视频模型已知的内容。无需创建新的动作标记或单独的动作头,而是将动作编码为同一生成界面内的视觉目标,这样就不会破坏预训练的视频表征。

图片

图 17. GENIMA 将动作转化为视觉目标:图像模型预测 RGB 空间中的关节动作目标,下游控制器将这些目标映射回机器人指令。图像来自Shridhar 等人,2024 。

最接近的早期先导者是GENIMA 。GENIMA 对稳定扩散算法进行微调,使其能够在 RGB 图像上绘制关节动作目标,然后使用控制器将这些视觉目标映射到关节位置动作。有趣的是它的接口选择:动作被表达为生成图像模型可以绘制的内容。

图片

图 18. Cosmos Policy 潜在注入:动作、本体感觉和价值目标在同一个视频去噪界面中以合成潜在帧的形式表示。图片来自Kim 等人,2026 。

Cosmos Policy 是这一方向的现代版本,它将动作视为合成的潜在视频帧。它没有添加单独的动作解码器,而是将动作、本体感觉和价值目标编码为视频模型自身去噪接口中的虚拟帧,并在推理时通过对空间维度进行平均,将预测的动作图像解码回动作向量。这种设置既能使预训练的视频骨干网络保持在其原生视频去噪空间的接近性,又能生成机器人动作。

潜在行动和计划

另一种方法是将行为压缩成潜在计划或潜在动作,并以此为基础来制定策略。这种方法很有吸引力,因为完整的视频预测成本很高,而且大多数像素实际上并不需要用于控制。潜在计划和潜在动作并不完全相同,但为了便于讨论,我将它们归为一类:两者都是从轨迹或视频中学习到的紧凑的行为抽象。它们的主要区别在于粒度和监督方式。计划通常覆盖多步窗口,并且通常需要成对的机器人数据;而Genie/LAPA风格的潜在动作可以从未标记的视频中学习。

图片

图 19. Play-LMP 架构。识别网络在训练期间将轨迹窗口压缩成潜在计划;在推理阶段,提议网络根据当前观测图像和目标图像预测潜在计划。图片来自Lynch 等人,2020。

Play-LMP 于 2019 年率先提出了这一理念。值得一提的是,其基本思想比当前的基础模型浪潮更为古老。早在如今能够获取更大规模的机器人数据集和预训练模型之前,Play-LMP 就将子任务压缩到一个较小的潜在空间中,作为底层策略的中间抽象。具体而言,后验网络将短轨迹窗口压缩成一个潜在计划,先验知识用于根据当前观测值和目标图像预测该潜在计划,而底层策略则将采样到的计划解码为动作。

现代潜在动作浪潮改变了规模和数据来源。Genie 证明,可以从未标记的网络视频中学习潜在动作标记,并用其驱动一个基于动作的世界模型。Genie 本身并不将这些潜在标记解码成真实的机器人运动指令,因此它并非机器人策略。但它使这一理念更具可扩展性:无需真实机器人动作即可从视频中学习类似动作的抽象概念。随后, LAPA 将这种潜在动作预训练方法推向了 VLA 式的机器人学习。

Being-H0.7是 Play-LMP 的现代 WAM 版本。它保留了先验/后验潜在计划逻辑,但将其部署到基础模型规模,并进行了多项重大改进。它没有采用小型分层潜在计划策略,而是使用了一个更大的 Mixture-of-Transformer 骨干网络。与 Play-LMP 类似,该模型包含一个后验分支和一个先验分支。后验分支获取未来的观测数据,使用冻结的 V-JEPA2.1视觉编码器和感知器重采样器对其进行编码,并将其压缩成 K 个未来嵌入。先验分支使用可学习的潜在查询,并学习如何从可用上下文中匹配这些包含未来信息的潜在状态。在测试阶段,后验分支被移除,因此该策略可以获得一个快速的潜在接口,而无需强制模型重新生成完整的视频序列。动作生成部分仍然是一个流匹配动作策略。Being-H0.7 经过 20 万小时以自我为中心的人类视频和 1.5 万小时机器人演示的训练。

图片

图 20. Being-H0.7 潜在世界行动架构。后验分支将观察到的行为压缩成潜在标记,而先验分支预测这些标记,以便快速进行测试时策略推断。图片来自BeingBeyond 团队,2026 。

图片

关键区别不在于潜在变量本身。Play-LMP 已经具备了先验/后验潜在计划的核心思想。Being-H0.7 展示了如何在现代 WAM/VLA 混合模型中扩展该接口。

潜在动作作为一种抽象方法,在动作条件世界模型中也越来越受欢迎。最近的一个例子是DreamDojo,它从大规模的以自我为中心的人类视频中学习连续的潜在动作,从而构建一个可控的世界模型。与逆动力学的重要区别在于监督路径。逆动力学世界模型通常需要成对的视频和动作数据来学习视觉转换如何映射到运动指令。而潜在动作方法则尝试首先从视频本身学习行为抽象,然后再将该抽象与机器人动作联系起来。

架构:层级式、单体式还是模块化?

第三个维度是架构:组件的结构组成方式。这与前两个维度基本正交。逆动力学可以是层级式的,也可以是多目标拓扑(MoT)式的;联合预测可以是整体式的,也可以是基于专家的;潜在动作方法可以封装在多个不同的框架中。

图片

图 21. 分层:分离的视频预测和动作生成阶段,单向连接。

分层式设计最为灵活,因为动作头是完全模块化的。它可以是任何模型,从简单的 CNN 回归器(UniPi)到完整的 VLA 堆栈(Pi-0.7 的 BAGEL 子目标加上完整的基于 VLA 的动作专家),VPP [24] 和 mimic-video则介于两者之间,通过传递中间视频模型特征而非完整的 RGB 展开来实现。缺点是视频阶段和动作阶段之间的耦合较弱。信息单向流动,因此当视频和动作需要相互强烈影响时,这种设计就显得不太自然。

图片

图 22. 单体变压器:单个变压器可对视频和动作进行端到端的联合去噪。

像 DreamZero 这样的整体式 Transformer 模型将视频和动作去噪放在同一个堆栈中,这使得两个数据流之间具有很强的耦合性。它们也天然适用于像 Cosmos Policy 这样的“动作即图像”的设置,在这些设置中,动作和视频已经存在于同一个潜在空间中。风险在于双重优化:相同的模型权重必须处理密集的视觉标记和稀疏得多的动作目标。

图片

图 23. Transformer 混合模型:通过共享注意力耦合特定模态的专家。

混合Transformer模型(MoT)是目前的默认架构,包括现代VLA(Pi-0、Pi-0.5)以及LingBot-VA[9]和Fast-WAM[23]等最新的WAM模型。模态特定的参数保证了不同模态表征的分离,而共享注意力机制则允许视频和动作之间交换信息。我猜测,MoT架构也将成为主流的WAM架构,主要是因为它在模块化和耦合性之间取得了切实可行的平衡。

为什么WAM现在兴起了

关于WAM(广义动作模型)为何现在才兴起,我的简短回答是:虽然这个想法并不新鲜,但所需的工具,例如预训练视频模型,终于发展成熟。早期的模型(例如用于逆动力学的UniPi、用于联合预测的GR-1以及用于潜在抽象的Play-LMP)思路正确,但工具有限:骨干网络规模较小、视频数据质量较差、没有公开可用的视频基础模型,而且逐步动作头与现代动作块策略相比效果不佳。而它们的现代版本(例如LingBot-VA、DreamZero以及Being-H0.7)则使用了几年前还不存在的基础设施和大规模机器人数据集。

首先,视频骨干网络得到了极大的增强。基于 DiT 的模型,例如 Wan [21] 和 Cosmos,取代了早期的基于 CNN 的架构,它们拥有更优的时间压缩、流匹配目标以及精心整理的网络级视频数据。其次,这些骨干网络实现了开源。研究人员现在可以对强大的预训练视频模型进行微调,而无需自行承担全部预训练成本。第三,动作处理方面也取得了长足进步:现代系统使用 Transformer 或流匹配头来预测动作块,而不是使用小型的逐步 MLP 头。正因如此,WAM 现在看起来更像是一个 成熟的解决方案,而不仅仅是一个包装更精美的老概念。

WAM 比较

下表总结了我们之前讨论过的模型,并根据不同的设计决策对其进行分类:模型预测什么、动作如何输入、使用什么骨干网络以及采用什么架构?WAM 领域发展迅速,因此这里仅列出部分论文。如需更全面地了解世界模型和 WAM 相关机器人学习论文,请参阅 NTU 的综述“机器人学习的世界模型”。

图片

表 4. 选定的 WAM 和相关模型沿三个设计轴(范式、行动整合、架构)以及主干和年份的比较

实际考虑因素

我们已经 看到了一些很有前景的WAM模型和一些令人鼓舞的结果。然而,也存在一些核心问题 :

训练成本高昂。视频骨干网络处理的标记数量远多于基于图像的动作策略,而且完整的视频预训练成本很高。

推理速度慢。生成或去噪未来视频潜信号的策略比简单的视频潜信号算法慢得多。

内存和系统复杂性。冗长的视频标记序列会大幅增加 GPU 内存、通信和数据加载的压力。如果不进行额外的工程改造,想在本地 GPU 上运行 100 亿以上的 WAM 模型几乎是不可能的。

视频之前的成本

在某些情况下,强大的视频先验信息可以降低机器人数据需求,并且在使用WAN等现代视频模型时仍能提供出色的零样本性能。实际上,这通常会以牺牲机器人数据效率为代价来增加计算成本。让我们来看一个非常粗略的下限比较。

模型间的训练成本很难直接比较,但我们可以根据论文和 GitHub 代码库中提供的细节做出一个粗略的下限估计。因此,我们使用一个简单的密集变换器下限估计,C ≈ 6NT,其中 N 是可训练的密集参数的数量,T 是标记的数量。

图片

图 24. 密集核心训练计算量的下限估计值(单位:ZFLOPs),以对数刻度显示。请将其视为粗略的跨论文比较,而非精确的预算;数值使用每篇论文/模型显卡中报告的参数、样本、令牌或 GPU 小时数,推导过程和注意事项见脚注。

基于 VLM 的 VLA 在训练的两个阶段都更便宜,因为它们的序列更小:它们编码一到几张图像以及文本,然后预测文本或一个简短的动作标记序列。WAM 则需要训练来预测包含额外动作标记的视频潜在序列。视频标记序列的长度通常是 VLA 序列的 10 倍左右。这使得在相同的数据集上进行训练比默认的 VLA 训练成本更高。

图24概述了不同的 VLA/WAM 训练成本估算。DreamZero 式的动作调优大约需要 9 ZFLOPs,相比轻量级的 VLA 训练行而言,这相当大。像 MolmoAct2 这样的现代 VLA 报告称,从 Molmo2-ER 到 DROID 检查点的完整成本约为 9.8 ZFLOPs。这假设使用了强大的 Molmo2-ER 骨干网络,并且没有计算 Qwen3 或 SigLIP2 的预训练成本。Summer-22B 是一个现代的公开视频预训练 token/数据集参考,用于了解大规模训练一个具有竞争力的视频基础模型所需的成本:使用 220 亿参数的模型和论文中约 5000 亿 Token 的训练规模,它给出了约 66 ZFLOPs 的视频预训练成本估算。如果我们将其缩小到与 DreamZero Wan 的 140 亿规模相匹配,我们可以估算出训练视频模型和 WAM 阶段的总成本约为 51 ZFLOPs。与高效的 VLA Foundry 算法(运算速度为 6.9 ZFLOPs)相比,这导致了约 7.4 倍的差距。这些数字表明了大规模 WAM 训练所面临的挑战。

除了总浮点运算能力之外,还存在硬件和工程方面的障碍。一个拥有约 8000 个标记的动作调优序列的 140 亿参数模型需要大量的 GPU 内存,并且通常需要配备高端互连的多节点架构。成功的视频模型训练还依赖于强大的数据过滤、字幕生成、视频解码、潜在预处理、分布式 I/O 以及长序列数字图像处理 (DiT) 基础设施。

同样的论点也存在数据质量方面的版本。DreamZero认为,更强大的视频生成能力能够转化为更强的策略性能[8],因此WAM不仅计算量巨大,而且对视频数据质量要求也很高:过滤、字幕生成、潜在表示和生成式预训练都成为策略制定的一部分。基于VLM的VLA则没有展现出同样的清晰关联。VLM4VLA 发现, VLM初始化比从头开始训练更有帮助,但通用的VLM能力并不能很好地预测下游VLA的性能。对于WAM而言,视频生成质量是良好策略的必要条件;而对于VLA而言,空间目标远比其他视觉能力重要。

有关逐行注意事项和每个估算背后的推导过程,请参阅下面的参考表。

图片

推理速度

总体而言,基于VLM的VLA并非总是快速,而默认的WAM设置(包括测试时视频生成)速度可能更慢。具体数值取决于硬件、实现方式、扩散步骤和动作块长度,但Fast-WAM提供的代表性数值可作为参考:两种常见的WAM推理模式(联合预测和完整视频生成的逆动力学)每个动作块耗时590毫秒至800毫秒,而Pi-0.5的耗时约为190毫秒。这意味着推理速度降低了3-4倍,这对实时控制至关重要。虽然有一些方法可以加速这一过程,例如DreamZero论文和Fast-WAM完全跳过视频生成的方法,但如果没有大型GPU,在本地运行这些模型仍然具有挑战性。

为什么现代VLA基线仍然重要

现代基于视频线性模型(VLM)的视频线性阵列(VLA)发展迅速,目前最强大的基线模型融合了四种理念:离散动作标记化、保留VLM的协同训练、隔离动作头以及更广泛的数据混合。任何声称视频骨干网是更优默认方案的说法,都必须超越当前最先进的方案。

VLA 的架构已趋于统一,采用一种默认设置:混合 Transformer 模型,该模型最初由Transfusion引入视觉领域,后由Pi-0 在机器人领域推广。主要变化在于训练方法。早期基于流的动作头导致 VLM 的预训练从离散的下一个标记(next token)转向连续的动作去噪,造成了较大的干扰。而新的方法则试图减少这种干扰。

首先,许多现代视觉语言架构(VLA)使用离散分词器,例如FAST或BEAST,将动作表示为一种新型语言,VLM 可以学习这种语言。这是出于优化方面的考虑:VLM 预训练用于离散的下一词元预测,并使用交叉熵损失函数,而机器人动作存在于一个连续空间中,通常使用流匹配进行建模。简单地使用流匹配目标来微调 VLM 会导致预训练语言和视觉能力的灾难性遗忘。与离散动作分词进行协同训练,通常结合来自流匹配头的隔离梯度,可以规避这个问题。VLM 可以更接近其首选的离散空间,并学习用于具身控制的有用表示,而流匹配头则基于这些特征进行自身的动作预测。在测试阶段,具有独立动作头的系统可以放弃缓慢的自回归动作-词元预测路径,让动作头独立完成其工作。

为了更直观地了解这种灾难性遗忘问题的影响,我们再次来看一下 RoboArena的快照。Pi-FAST 使用与 Pi-0-DROID 相同的骨干网络,但它去掉了流程组件,并使用离散的 FAST 令牌来生成动作。两者都在 DROID 上进行了微调。Pi-FAST 的得分达到了 1592,而 Pi-0 的得分仅为 1475,两者差距相当大。这支持了以下观点:与原始的基于流程的 Pi-0 设置相比,离散动作方案能够保留更多有用的预训练能力。

其次,Pi-0.5 式系统会同时使用 VLM 数据和机器人数据进行训练,通常会隔离 VLM 和流程/动作组件之间的梯度,以实现更快更稳定的收敛。这使得 VLM 可以继续练习语言和视觉理解,而动作部分则可以专注于操作。Pi-0.5、Xiaomi-robotics-0和Being-H0.5等近期的 VLA 也采用了相同的模式。在RoboArena 测试中,Pi-0.5 的表现显著优于 Pi-FAST 和 Pi-0 (Pi-0 为 1622,Pi-FAST 为 1592,Pi-0 为 1475)。这些结果与训练设计决策对策略性能的重要性相一致。

即使改进了这些方法,VLA 仍然遇到了瓶颈。语言表达行为目标的方式不够具体。在杂乱的场景中,文本指令很少能准确指出相关的物体实例或期望的物理状态。因此,策略可能会过度拟合虚假相关性,例如背景物体或其他数据集偏差。Pi-0.7 报告的仅语言提示和目标图像条件反射之间的差距支持了这一观点:视觉子目标可以提高语言遵循度,并加快训练收敛速度。DreamZero 在同一 RoboArena 快照上获得的 1750 分 elo 分数也进一步证明,视频/图像目标先验可以帮助解决这类问题。

因此,目前WAM和VLA之间尚无真正的赢家,而且未来是否会有赢家也值得怀疑。Zhang等人的初步比较研究在LIBERO-Plus和RoboTwin 2.0-Plus上,针对匹配扰动对LingBot-VA、Cosmos Policy和Pi-0.5进行了基准测试。他们的结果表明,WAM无需像VLA基线那样使用更广泛的训练数据混合,即可达到很强的鲁棒性。然而,该比较仅限于仿真环境,并未涵盖真实世界的泛化能力。

这两条代表道路实际上是一条吗?

悬而未决的问题是,从长远来看,这两条路径是否仍然截然不同。一些最新的VLA(甚大阵列)已经采用了世界模型风格的组件来更好地跟踪目标(参见Pi-0.7),而许多最新的WAM(广义自适应模型)也借鉴了VLA MoT(目标跟踪)的算法来构建动作专家。机器人基础模型的未来发展方向似乎是两者的融合。

图片

图 25. 可能的融合方式:VLA 式、WAM 式,以及结合两者的第三种通用路径。

在Motus和B agelVLA 等近期研究中,已经出现了这种方向的初步迹象。与其纠结于选择语言还是视频作为机器人的主要表征方式,不如训练一个能够处理所有情况的模型。图26展示了一个简化的模型:一个理解/视频语言模型 (VLM) 组件、一个视频生成组件和一 个动作专家。每个组件都有各自的权重,并通过共享的自注意力机制交换信息,通常采用非对称模式,以便每个组件可以向其他组件展示不同的信息。密集 Transformer 模型或 MoE 风格的路由可以实现相同的高级思路。

图片

图 26. Motus 风格的混合设置:视频建模和动作生成由单独的 Transformer 处理,同时共享注意力和文本条件化,指向统一的 VLA+WAM 策略方案。

这种混合系统的分层版本也出现在 Physical Intelligence 公司最近推出的Pi-0.7中,Pi-0.7 是一款可控的视觉学习阵列 (VLA),其动作专家基于测试时由基于BAGEL的世界模型生成的视觉子目标进行训练。高级策略发出子任务指令,世界模型将这些指令转换为子目标图像,动作专家则根据当前观测结果加上该子目标来执行动作。

报告的消融实验结果支持了语言跟随论点:添加世界模型子目标可以改善复杂指称任务中的指令跟随能力,并且对于某些数据集偏差消除任务而言是必要的,因为在这些任务中,不添加子目标的变体会失败。作者还报告说,子目标图像可以显著加快训练速度,因为动作预测更接近于当前帧和期望的未来帧之间的逆动力学问题。从证据的角度来看,这是一个现实世界的信号,表明视觉子目标可以弥合部分语言基础差距,即使在VLA式的堆栈中也是如此。但这并不意味着每个强大的VLA都需要一个完整的视频生成头。

Sereact 的Cortex 2.0是另一个指向这种混合方向的初创公司案例。Cortex 2.0 添加了一个世界模型,该模型在视觉潜在空间中生成候选的未来轨迹,并根据预期进展、风险和效率对其进行评分,最终以得分最高的方案作为执行条件。这标志着 WAM 式预测技术有望成为已部署操作系统内部的一个规划层。

Being-H0.7是基础模型混合模型的最佳示例:它是一个基于预训练的 VLA Being-H0.5 构建的潜在计划风格的 WAM/VLA 模型,使用 InternVL3.5 作为理解专家模型,Qwen3 作为动作专家模型,以及 V-JEPA2.1视觉编码器。它成功地结合了 VLA 风格的预训练组件、V-JEPA2.1 的未来观测嵌入、Play-LMP 风格的先验/后验潜在接口以及流匹配动作策略。

计算成本是目前我们只看到少数“单一模型包办一切”系统的主要原因。训练一个强大的视频学习模型(VLM)本身就成本高昂;在此基础上叠加大规模视频建模会进一步增加成本。因此,在短期内,VLA式训练和WAM式训练的分离仍然具有意义,这既是出于计算能力的限制,也是因为我们仍然不清楚哪些要素对机器人技术最为重要。您认为这两条道路最终会融合,还是其中一条会彻底胜出?

第四条路径:以机器人技术为先导的基础模型

第四种可能性是机器人优先基础模型(RFFM)。简而言之,这是一个围绕机器人挑战而设计的大型Transformer架构,这些挑战包括:具身认知、动作、富接触交互和具身记忆。该方案的清晰版本并非简单地从Web视频模型或视频生成器开始,然后再添加动作。它会从一开始就将交互和动作作为预训练的核心。

我所知的最清晰的例子是Generalist AI 的GEN-1,它引入了一个大型机器人行为模型,该模型基于 50 万小时的 UMI 式可穿戴设备数据进行预训练。这一方向的核心问题在于数据获取:除了资金雄厚的初创公司和大型企业之外,几乎没有人能够获取这种大规模的人类或机器人数据。因此,在获得更多大规模的开源机器人数据之前,这条研究路径目前对社区来说是受阻的。一个值得关注的正交方向是潜在世界模型,例如V-JEPA 2 [45]。它们直接从预训练的潜在空间中的视频学习潜在动态。与基于扩散的视频生成方法相比,这些模型有望实现更低的部署成本、更快的推理速度和更清晰的规划信号。该方向的首批 WAM 模型,例如VLA-JEPA [63] 或Being-H0.7 [42],都展现出了令人鼓舞的性能。

结语

WAMs 将成为机器人基础模型的核心研究子领域。虽然 VLAs 已经趋于统一(VLM 骨干网络、基于梯度隔离的动作专家模型结合流匹配,以及在广泛的网络和机器人混合数据集上进行协同训练),但 WAMs 仍处于探索阶段。相关论文在视频骨干网络、策略制定、训练方案和评估设置等方面差异很大。这种研究多样性对于一个新兴领域来说是有益的,并且涌现出了许多新的想法。然而,目前还没有人真正知道哪种方法最有效。总结这篇博客的结论:

从指令到动作的鸿沟依然存在。即使是采用离散动作标记化、保持动作逻辑模型(VLM)不变的协同训练以及广泛的数据混合等技术的现代视频学习算法(VLA),也无法完全弥合这一鸿沟。广义动作模型(WAM)有望从视频层面解决这一问题,但目前的研究结果尚未表明它们已经成功解决。

机器人基准测试仍然是一个核心问题。我必须重申我在上一篇博文中提出的观点:现代 VLA 和 WAM 基准测试尚未得到解决。我们需要更多像RoboLab [62] 或MolmoSpaces [61] 这样的基准测试,它们会增加基准测试的难度,并要求机器人具备良好的策略泛化能力才能获得高分。

下一代机器人基础模型很可能是WAM+VLA的混合模型。Pi -0.7的BAGEL子目标、Cortex 2.0的基于预见的规划、Being-H0.7的潜在先验/后验桥接以及Motus/BagelVLA风格的混合模型已经融合了VLA和WAM的思维模式。从零开始训练的首批机器人基础模型也是很有可能的发展方向,尤其是在我们能够获取更多更优质的开源机器人数据之后。

以上是我目前对WAM现状的看法。如果您有不同的看法,或者对其中某种路径优于其他路径有强有力的论据,请与我联系并告知——我非常乐意倾听。

图片

文章来源:https://developer.nvidia.com/blog/pretrained-to-imagine-fine-tuned-to-act-the-rise-of-world-action-models/

免责声明

1、我们整理、翻译和转载此文出于传播更多资讯之目的,不代表本号观点,亦不构成任何投资观点,由此做出的投资决策与本人本文无关!

2、本文所用的视频、图片、文字如涉及作品版权问题,请第一时间联系小编:16620948826(同微信),我们将立即删除,无任何商业用途!

图片

图片

相关动态

人形机器人与具身智能实景实训专项行动启动__中国政府网 2026-06-30 gov 36氪研究院 | 2026年具身智能产业发展研究报告 2026-06-30 36kr MolmoSpaces:用于机器人导航与操控的大规模开放生态系统 2026-06-30 huggingface 「一页纸」吃透产业链之:人形机器人,Figure链与特斯拉 ... 2026-06-30 36kr 具身智能2025之问:新物种时代,人形机器人如何长大? 2026-06-30 thepaper 工业和信息化部办公厅 国务院国资委办公厅关于联合开展 ... 2026-06-30 miit