WM的定义很混乱,万字长文剖析世界模型的发展脉络和分类。

📅 2026-06-16 09:45 具身智能之心 政策 原文:具身智能之心

点击下方 卡片 ,关注“ 具身智能 之心 ”公众号

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


点击进入→ 具身智能之心 技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。

世界模型是整个人工智能领域中定义最混乱的词之一。让我们回到世界模型这个概念的开始,彼时一副经典的图像描绘了世界模型这一概念的雏形。

图片

尽管不同阶段、不同路线所展示出的具体方法各异,我们可以从中提炼出两个世界模型的基本要素:对世界的建模、在想象世界中交互。

而目前世界模型的定义混乱,很大程度上来源于对这两个基本要素的理解不统一和概念混淆。由于在发展初期缺乏一个足够清晰的定义,后续不少工作都重新自己定义了世界模型,而又互相存在一定分歧(同时很多工作为了 fancy 也声称自己是世界模型),因此直到现在也缺乏一个公认的标准。

图片

例如这张 meme 所展示的,这个概念相当混乱,如果组合一些论文中对世界模型的定义甚至会得到一些荒谬的结论。

当然按照笔者的理解,这张图中的第三列是世界模型。仿真器/游戏满足世界模型的这两个基本要素,所以它们某种意义上也能够被称为世界模型,只不过和我们通常意义下所说的世界模型(基于学习的方法)所不同,它们是严格基于规则的。

接下来,笔者将按照两条线来盘点世界模型的一些代表性工作,即纵向看世界模型的发展,横向看今天世界模型的分类。

unset unset World Models:V-M-C 世界建模、记忆和控制 unset unset

虽然世界模型的概念早于这篇论文存在,但这篇工作把这个思想重新带回了深度强化学习语境。因此,我们也将它作为现代世界模型的起点来进行盘点。

World Models 的经典性在于,它把世界模型清楚拆成 Vision、Memory、Controller 三个模块,把“看见世界、记住世界、利用世界行动”做成了一个极其直观的 V-M-C 系统。

图片

这套结构可以写成:

其中, 是第 时刻的图像观测; 是 VAE 编码器,把图像压缩成低维潜变量 ; 是上一时刻动作; 是 RNN 记忆状态,用来保存过去观测和动作带来的历史信息; 是 MDN-RNN 动态模型; 是控制器,论文中通常是一个小型线性模型,根据 和 输出动作 。

World Models 进一步让 MDN-RNN 预测下一步潜变量的概率分布。原文写法可以概括为:

这里的条件项 分别提供当前动作、当前视觉潜状态和历史记忆。论文使用混合高斯分布输出下一步 ,这样模型可以表达多种可能未来,避免把多个未来压成一个平均结果。这个设计后来在视频生成和机器人世界模型中反复出现:未来具有多模态不确定性,世界模型需要保留这种分布信息。

控制器部分非常简单:

其中 表示把视觉潜变量和记忆状态拼接起来; 和 是控制器参数。论文用 CMA-ES 搜索这些参数,没有训练复杂神经策略。World Models 当时的重点在于验证压缩后的内部世界是否足以支持控制,而非追求策略网络本身的容量。

某种意义上,World Models 接续的是早期“学习环境模型再控制”的 model-based RL 思路。之前也有人用 RNN 预测环境、用内部模型辅助策略,但 World Models 把 VAE、MDN-RNN 和小控制器组合成了一个非常直观的可视化系统,并展示了智能体可以在自己生成的“梦境”环境里训练策略,再迁移回真实环境。

World Models的V-M-C范式也带来了一个新的思考:如果模型已经能预测未来潜状态,那么智能体是否可以在这个潜空间里主动比较不同动作序列,而非单纯把潜变量交给一个轻量控制器?

unset unset PlaNet:RSSM 潜空间规划 unset unset

PlaNet 把世界模型变成了一个潜空间里的在线规划器。

它的核心是 latent planning。它选择学习一个潜动态模型,不额外训练显式策略和值函数;每到一个环境步,规划器都在这个模型里重新评估动作序列。观测模型提供丰富训练信号,但规划阶段不需要生成图像;奖励被建模为潜状态函数后,规划器可以直接在潜空间里快速评估大量候选动作序列。

图片

PlaNet 先定义普通 latent state-space model:

其中, 是隐藏状态; 是上一时刻动作; 是转移模型; 是观测模型; 是奖励模型。这个模型的问题在于,纯随机路径不容易稳定记住多步历史。

因此 PlaNet 使用 RSSM(Recurrent State-Space Model) ,把状态拆成确定性部分 和随机部分 :

这里, 是 RNN 维护的确定性历史摘要,负责长期记忆; 是随机潜状态,负责表达不确定性和多种可能未来; 是后验编码器,用当前观测修正潜状态; 和 分别让潜状态解释图像和奖励。

PlaNet 的训练目标来自变分下界。简化到观测项时,论文给出:

第一项是重建项,要求潜状态能解释当前观测;第二项是复杂度项,用 KL 散度约束后验状态不要偏离模型根据上一步状态和动作得到的先验预测。这个目标的作用是让模型既能利用当前图像推断状态,又能在没有新图像输入时沿着潜空间向前滚动。

图片

规划阶段,PlaNet 使用 CEM 搜索动作序列:

其中, 是规划时域, 和 是当前动作序列分布的均值与标准差。CEM 每轮采样 条候选动作序列,用世界模型预测未来奖励,选出前 条高回报序列重新拟合分布,迭代 次后执行当前时刻动作。论文附录给出的默认规划设置是 。

PlaNet 解决的是 World Models 留下的一个问题:如果控制器只读 和 ,它并没有真正比较多种未来。PlaNet 把比较未来这件事显式放进潜空间规划里,并在 DeepMind Control Suite 的 6 个像素控制任务上展示了高样本效率。论文强调,PlaNet 在少于 100 个 episode 的条件下可以达到强性能,并在多个任务上显著超过 A3C、D4PG 等 model-free 方法的样本效率。

也正因为 PlaNet 把规划搬进潜空间,它的结构开始明显区别于 World Models 的 V-M-C 三段式设计。观测仍然重要,但它主要用于训练阶段和当前时刻的后验状态推断;一旦进入未来 rollout,模型便依靠动作条件下的潜动态先验向前展开,不再需要通过对外界的观测得到状态。

不过,PlaNet 的规划能力来自每一步 CEM 搜索。这个设计让它很样本高效,也带来了计算开销和策略复用的问题:智能体每到一个新状态都要重新搜索动作序列。

沿着这条线继续推进,Dreamer 要解决的就是如何把这种潜空间推演变成一个可直接执行、可持续更新的策略。

unset unset Dreamer 系列:潜空间强化学习 unset unset

谈起世界模型,需要先把 Dreamer 系列放回 PlaNet 之后来看。PlaNet 已经证明 RSSM 可以在潜空间里做规划,但它每一步都要用 CEM 重新搜索动作序列;Dreamer 接住这套潜动态建模框架,把重点从“在线规划”转向“在想象轨迹上训练策略”。执行阶段的候选动作评估不再是世界模型的唯一用途,Dreamer 会在学到的世界模型中展开 imagined trajectories,并用这些轨迹训练 actor 和 critic。

这个变化让世界模型从规划器的评估器,变成了持续生成策略学习信号的内部环境。后续 DreamerV2 继续沿着这条路线推进,通过离散潜变量和面向离散动作任务的训练设计,把 latent imagination 从连续控制扩展到 Atari 等更复杂的基准。也就是说,Dreamer 系列前两步分别回答了两个问题:世界模型能否训练策略,以及这种策略学习能否覆盖更复杂的动作和观测形式。

图片

在这个系列里,DreamerV3 可以看作这系列最前沿的代表工作。它沿用 RSSM,重点放在让同一套世界模型和策略学习流程在跨域任务中稳定工作。论文报告它用固定超参数覆盖 8 个领域、150 多个任务,并且成为第一个从零开始、没有人工数据和课程学习就在 Minecraft 中收集钻石的算法。这个结果把 Dreamer 系列从“潜空间想象能提高样本效率”,推进到了“同一套世界模型算法能否跨任务稳定工作”的层面。

DreamerV3 的世界模型仍然是 RSSM。论文把它写成:

其中, 是感知输入,可以是图像或向量观测; 是随机表征; 是序列模型维护的确定性状态; 是动作; 是动力学预测出的下一步表征; 是奖励预测; 是继续标志,用来表示 episode 是否继续; 是重建输入。 与 拼接后构成 actor 和 critic 使用的模型状态。

DreamerV3 的世界模型损失由三部分组成:

让表征能够预测输入、奖励和继续标志; 训练动力学先验去匹配后验表征; 反过来推动表征变得更容易被动力学预测。 是停止梯度,决定哪一侧被更新。 是 free bits 截断:当 KL 已经低于 1 nat 时不再继续压缩,避免模型为了“容易预测”而丢掉对控制有用的信息。

图片

actor 和 critic 在模型状态 上学习:

其中, 是 actor, 是 critic 的回报分布。DreamerV3 使用 -return 把想象轨迹上的奖励和 critic 估计结合起来:

是世界模型预测的奖励; 是折扣因子; 是继续标志; 是 critic 当前预测的期望价值; 控制更依赖短期预测还是更依赖后续 bootstrapping。critic 用最大似然拟合 ,actor 则用归一化后的回报优势和熵正则更新。

DreamerV3 的重点在于让 Dreamer 在跨域任务上“少调参地稳定工作”,核心变化来自训练稳定性和通用配置,而非一个全新的世界模型结构。论文把算法应用到 8 个领域、超过 150 个任务,并强调固定超参数设置;同时,它是论文中报告的第一个从零开始在 Minecraft 中收集钻石的算法。这个结果说明 Dreamer 系列从早期连续控制中的 latent imagination,推进到了更复杂的稀疏奖励和视觉环境。

图片

从脉络上看,Dreamer 解决的是 PlaNet 的在线规划成本和策略复用问题。PlaNet 每一步都要搜索,Dreamer 通过 actor 学到一个可直接采样的行为模型;PlaNet 的世界模型主要服务 MPC,Dreamer 的世界模型直接成为策略优化的数据源。

到 DreamerV3 为止,世界模型已经可以支撑相当复杂的强化学习任务。但它仍然主要依赖动作条件下的环境交互数据。与此同时,另一条路线开始反思一个更基础的问题:世界模型到底需要预测像素,还是只需要预测对理解和决策有用的表征?

unset unset JEPA 系列:表征级别预测 unset unset

JEPA 系列要先从 I-JEPA 讲起。它的特别之处在于,把自监督预测目标从像素层改写到表征层:训练目标避开图像像素补全,转向根据上下文预测目标区域在嵌入空间中的表示。这个设计把“世界模型到底预测什么”这个问题提了出来:如果目标是得到可用于理解和决策的状态表示,预测抽象表征往往比重建每个像素更合适。

在图像场景中,I-JEPA 通过一个上下文块预测同一图像中多个目标块的表示,训练信号完全发生在表征空间。相比 masked image modeling 中常见的像素重建,I-JEPA 更强调语义抽象:模型需要根据可见区域推断不可见区域的高层表示,而非停留在低层纹理复原上。

图片

I-JEPA 的核心预测可以写成:

这里, 是上下文编码器 输出的可见区域表征; 是第 个目标块包含的 patch 索引集合; 是带位置嵌入的 mask token; 是预测器; 是预测出的第 个目标块表征。

论文的损失函数是:

其中, 是目标块数量; 是目标编码器输出的真实目标块表征; 和 分别是第 个 patch 的预测表征和目标表征; 是块级距离,这里展开为 patch 级 L2 距离。目标编码器参数 由上下文编码器参数的指数滑动平均更新,以避免表征坍塌。

I-JEPA 针对的是 masked image modeling 的一个痛点:像素重建会迫使模型保留大量纹理和低层细节,语义抽象不一定强。论文报告 I-JEPA 在 ImageNet 线性评测、低样本分类、目标计数和深度预测等任务上具有竞争力,并强调其表征空间预测比像素空间预测更容易得到高语义表示。

V-JEPA 把这个思路扩展到视频:模型根据可见时空片段预测被遮挡时空片段的表征,从而把 JEPA 的表征预测从静态图像推进到视频动态理解。它更贴近世界模型语境,因为视频里的预测对象已经包含运动、时序和物体交互。

V-JEPA 2.1 可以看作这一系列当前最前沿的版本。它延续 V-JEPA 的表征预测路线,但进一步指出:之前的 V-JEPA 主要在 masked tokens 上施加预测损失,global understanding 很强,dense vision features 仍然不够好。论文观察到 V-JEPA 2 的特征图局部结构比较碎,在 ADE20K 语义分割和 NYUv2 深度估计上的线性探测效果受限。

V-JEPA 2.1 保留原始 masked-token 预测损失:

是被遮挡 patch 的索引集合; 是被遮挡的视频视图; 是干净视频视图; 是 x-encoder; 是 y-encoder,参数来自 EMA 或教师网络; 是预测器; 表示目标位置的时空信息; 停止梯度,防止目标分支被预测器直接更新。

V-JEPA 2.1 新增 context loss,把监督也加到未遮挡上下文 token 上:

是 context token 的索引集合; 是 patch 级权重,用来控制不同上下文 token 的监督强度。最终优化的是 。这一步的作用很明确:让模型不要只把上下文 token 当成服务 masked prediction 的全局汇聚器,而要在上下文 token 中保留局部结构。

图片

论文给出的数字也支持这个判断:加入 context loss 后,ADE20K 线性探测 mIoU 从 22.2 提升到 33.9,NYUv2 深度估计 RMSE 从 0.682 降到 0.473。完整 V-JEPA 2.1 进一步报告 Ego4D 短期物体交互预测 7.71 mAP、EPIC-KITCHENS action anticipation 40.8 Recall@5,以及相对 V-JEPA-2 在真实 Franka 抓取任务上 20% 的成功率提升。

放到世界模型脉络里,JEPA / V-JEPA 2.1 的意义是把“预测未来”从像素层挪到表征层。它们本身还没有构成完整控制闭环,但能提供更适合预测、规划和机器人下游任务的状态表示。

关于世界模型应该在像素空间还是在表征空间,时至今日也并没有盖棺定论。在 JEPA 的相同时期,随着视频生成模型能力快速提升,许多团队把目光聚焦在像素空间:如果一个模型能生成长视频、保持对象一致性、模拟镜头运动和简单物理交互,它是否已经在某种意义上学到了世界如何变化?

其中,一个很有争议的部分是 OpenAI 对 Sora 的定位——Video generation models as world simulators。那么 Sora 是世界模型吗?

Sora 是一个 text-conditional diffusion model,训练在不同时长、分辨率和宽高比的视频与图像上;它先把视频压缩到低维 latent space,再把压缩表示切成 spacetime patches,并用 diffusion transformer 在这些时空 patch 上建模。

从这个结构出发,Sora 确实具备一部分世界模型特征。报告中提到,Sora 能表现出 3D consistency、long-range coherence、object permanence,还能在简单场景中模拟人和物体交互,例如笔刷留下痕迹、咬食物后留下缺口。甚至在 Minecraft 这类数字世界中,Sora 可以在提示词触发下同时渲染世界动态并控制玩家行为。这些现象说明,大规模视频生成模型在像素/latent 层面确实学到了一些物理世界和数字世界的统计规律。

但如果从之前经典的世界模型架构来看,Sora 还差关键一环:它没有显式动作接口。

Sora 的条件主要来自文本、图像或已有视频,但智能体不能在每一个时间步输入一个动作 ,要求模型返回动作后的状态分布 ,也不能稳定地把 Sora 当作规划器来比较不同动作序列的后果。OpenAI 报告也坦诚列出它作为 simulator 的限制:许多基础物理交互仍不准确,物体状态变化可能错误,长视频中也会出现不一致或物体自发出现等问题。

在广义上,Sora 是一种视觉世界模拟器,它通过大规模视频生成学习了世界动态的强先验;但它还不是完整的可交互世界模型。而这条路线中最早的工作之一是 Genie。

unset unset Genie系列:可交互生成环境 unset unset

Genie 的特别之处在于,它是论文中明确宣称的第一个从无标注互联网视频中以无监督方式训练出来的生成式可交互模型。

它把世界模型从强化学习环境和机器人交互数据中进一步解放出来:没有真实动作标签,也没有特定领域的环境接口,模型仍然尝试学习一个可逐帧控制的虚拟世界。

Genie 由三个部分组成:视频 tokenizer、latent action model 和 dynamics model。

图片

它的训练流程可以抽象为:

其中, 是输入视频帧序列; 是视频 tokenizer,把视频压缩成离散 token ; 是 latent action model,从相邻帧变化中推断潜动作 ; 是 dynamics model,根据历史视频 token 和潜动作预测未来 token 。预测出的 token 再通过 tokenizer decoder 还原成视频帧。

Genie 训练时没有真实动作标签,latent action model 需要从帧间变化中学出一个离散动作空间。论文中为了可控性,把 latent action codebook 的大小限制为较小数值,实验里使用 。这使用户在推理时可以选择一个离散动作编号,模型再根据这个动作生成下一步状态。

图中的 Dynamics Model 是 decoder-only MaskGIT Transformer。它接收历史视频 token 和潜动作 ,预测下一帧 token。视频 tokenizer 则基于 VQ-VAE,并使用 ST-transformer 来处理时空结构。论文强调,ST-transformer 的空间注意力在每个时间步内处理 token,时间注意力跨 个时间步处理同一空间位置,这比把所有时空 token 做全注意力更适合扩展到视频。

从数据的角度看,Genie 与 World Models、PlaNet、Dreamer 的区别很大。后者通常需要环境交互数据和动作标签,Genie 则试图从互联网视频中自动发现动作。它也不同于普通文本到视频模型:视频模型通常只能生成片段,Genie 追求 frame-level controllability,用户可以在生成环境中一步步选择动作。

但它满足世界模型所需要的最核心的能力:在虚拟空间中交互的能力。

目前得益于视频生成模型的蓬勃发展,这种以 Genie 为代表的可交互视频模型基本成为最主流的世界模型研究方向(当然,后续有很多新的工作,在此不过多赘述)。

Genie 把动作接口放入了视频生成模型中,到这里,世界模型的发展脉络已经从压缩像素、潜空间规划、想象训练,走到了表征预测和无动作视频交互环境。下面纵向放在一起看,这条脉络会更清楚。

unset unset 纵向看:世界模型范式到底怎样演化 unset unset

把这些工作放在一起,世界模型的演化逻辑可以分成四步。

第一步是 World Models 的 V-M-C:高维图像先压缩成潜变量,再用 RNN 记忆未来,最后由小控制器行动。它回答了“压缩世界能不能控制”的问题。

第二步是 PlaNet 的 latent planning:世界模型除了承担状态表示,还要在潜空间中比较候选动作序列。它回答了“能否绕开图像生成、直接在潜空间规划”的问题。

第三步是 Dreamer / DreamerV3 的 latent imagination:世界模型从规划时调用的评估器,转为持续生成 actor-critic 训练轨迹的内部环境。它回答了“能否用想象数据训练策略”的问题。

第四步是以 JEPA / V-JEPA 2.1 为代表的 representation prediction,以及以 Genie 为代表的 generative interactive environment。

这些阶段的背后,是模型结构的进步和思想上的变化。World Models 时代依赖 RNN 在低维 latent 中滚动预测未来;PlaNet 和 Dreamer 系列进一步引入 RSSM,把确定性记忆和随机状态拆开,使模型既能保留历史上下文,又能表达环境转移中的不确定性;再往后,Transformer 和大规模预训练把世界模型带到另一种尺度上,视频、图像、动作、语言都可以被组织成 token 或 latent 序列,在统一的生成或预测框架中建模。

思想上的变化也很明显。早期工作关心的是智能体能否在自己学到的潜空间里规划或学习策略,因此更贴近强化学习;JEPA / V-JEPA 这条线把重点放到表征预测上,关心哪些可预测信息真正有助于形成可迁移的视觉理解;Genie 之后的交互式世界模型则站在视频生成模型和大规模视频数据的基础上,把问题推进到从视频中学出可被动作持续控制的环境。

unset unset 横向看:世界模型的分类 unset unset

前段时间,李飞飞在 X 上发了一个 blog ,名为 A Functional Taxonomy of World Models,文中将世界模型分为三类:渲染器,模拟器,计划器。其中,渲染器输出像素,模拟器输出状态,计划器输出动作,这三类各自侧重点不同而又存在相互交叉的部分。

李飞飞的分类很精辟,抽象出了当代世界模型的几个关键要素。不过,如果回到今天的具体系统,会发现渲染器、模拟器、计划器经常混在一起:一个模型可能既生成像素,又接受动作条件,还能给策略提供训练环境。因此,下面换一个更朴素的角度,按应用场景来划分当代世界模型。

unset unset 数据生成引擎 unset unset

这类方法希望世界模型可以作为数据引擎,生成一些难以获取/数量有限的数据。其中一类方法使用世界模型来合成具身智能中所需要的动作数据,相关研究者希望这种合成数据比仿真合成数据表现出更好的效果。

然而这类方法有一个致命问题:如果世界模型本身就能合成足够真实的动作数据,那么为什么还需要它来作为数据引擎呢?直接让它作为策略模型就行了。因此这类方法在今天也逐渐沉寂。

另一类方法希望生成一些在现有的规则驱动的仿真/游戏引擎中可用的资产,这类方法要更实际也更合理,既解决了高质量资产制作的时间成本问题,又不过于激进,可以很好地和现有的成熟方法兼容。

这一条路线的代表是混元 3D 系列。它能够生成和内容生产管线直接使用的 3D 资产。以 Hunyuan3D 2.0 为例,系统被拆成两个基础组件:Hunyuan3D-DiT 负责形状生成,Hunyuan3D-Paint 负责纹理合成;前者生成与输入条件对齐的几何,后者为生成或手工 mesh 生成高分辨率纹理。

图片

这类方法的工程接口非常明确。游戏引擎需要的是 mesh、UV、材质、贴图、骨骼或碰撞体,一段看起来像游戏画面的视频很难直接进入生产管线。3D 资产生成模型直接输出对象级资产,因此天然保留物体之间相互独立的结构:桌子、椅子、杯子可以分别生成、编辑、替换、绑定物理属性,再放进 Unity、Unreal 或自研引擎里运行。

相比之下,许多视频式世界模型虽然可以生成一个场景,但场景里的物体往往被压在同一个像素流或 latent 流里,后续很难单独选中一个物体做交互、碰撞或属性编辑。

从架构上看,Hunyuan3D-DiT 更接近 3D 生成版的 diffusion transformer。输入图像先经过 DINO 得到图像 token,噪声形状被编码成 shape latent token,时间步通过位置编码进入模型;中间的 double-stream block 分别处理 shape token 和 image token,并通过注意力完成跨模态融合;随后 single-stream block 将融合后的 token 继续建模,最后输出去噪后的形状 latent。这个设计的重点从像素空间预测未来,转向把图像条件变成可生产的 3D 几何。

Hunyuan3D 2.0 的问题建模可以拆成两步。第一步先训练 ShapeVAE,把 mesh 表示成连续 shape latent;第二步在这个 latent space 上训练 Hunyuan3D-DiT,做图像条件的 3D 形状生成。ShapeVAE 的训练目标是让 latent 既能重建 SDF,又足够紧凑连续,论文写成:

这里, 是 3D 空间中的采样点; 是给定 shape latent 后 decoder 预测的 SDF 值; 是真实 signed distance function;第一项要求 latent 能恢复形状几何; 约束 latent 分布更紧凑连续; 是 KL 项权重。由于完整 SDF 计算很重,论文实际在空间和物体表面随机采样点来估计重建损失。

Hunyuan3D-DiT 在 ShapeVAE 的 latent space 上使用 flow matching。它定义从高斯噪声 到真实 shape latent 的线性路径:

其中, 是扩散/流匹配时间步; 是图像条件; 是从噪声到数据路径上的中间 latent; 是目标速度场; 是 Hunyuan3D-DiT 预测的速度。推理时,模型从 出发,用一阶 Euler ODE solver 沿着预测速度场积分到 ,再由 ShapeVAE decoder 解码成 mesh。

Hunyuan3D-Paint 则补上资产生产中很关键的纹理环节。它先对输入图像做 delighting,减少光照对纹理估计的干扰,再围绕 mesh 生成多视角纹理,最后通过 UV 空间反投影和修复得到完整贴图。这样生成的资产可以进入传统 3D 管线继续编辑,也可以在游戏引擎中绑定物理和交互属性。

unset unset 模型即游戏 unset unset

正如之前所说,世界模型的一个基础属性是可交互。这类方法看重了“交互”这一属性,并设法直接用于游戏场景。它把目标从 AI 辅助生产关卡、贴图、角色动画,推进到由一个生成模型承担游戏引擎的一部分角色:给定当前画面和玩家输入,模型直接生成下一段可游玩的世界。

游戏场景对交互的要求比许多机器人或自动驾驶场景更复杂。玩家动作不只包括前进、后退、转向、跳跃、攻击,还涉及镜头控制、物体碰撞、地形遮挡、状态记忆,后续如果扩展到 NPC 或多人环境,还会面对多智能体交互。这也是“模型即游戏”这条路线的难点:画面质量只是入场券,真正决定体验的是动作是否可控、场景是否连续、物理规则是否稳定。

这类方法的代表是 Matrix-Game 。它的特别之处在于把 Minecraft 这类可交互游戏世界直接建模成 image-to-world 生成问题:输入一张参考图、上一段生成视频的运动上下文,以及玩家的键盘和鼠标动作,模型输出下一段游戏视频。换句话说,Matrix-Game 的关注点从离线生成一段“像 Minecraft 的视频”,推进到玩家持续输入动作时,让世界可以一段接一段地滚动下去。

图片

模型结构上,Matrix-Game 采用 3D Causal VAE + MMDiT 的 latent diffusion 框架。视频先被 3D Causal VAE 压缩到时空 latent,论文中给出的压缩比例是空间 8 倍、时间 4 倍;参考图经过视觉编码器或多模态 backbone 变成图像 token;噪声 latent、运动帧 latent、参考图 token、时间步和动作信号一起送入 diffusion transformer,最后由 3D VAE decoder 解码成视频。

它处理长时间交互的方式是自回归生成。每次生成一个固定长度片段后,模型取上一段最后 帧作为下一段的 motion condition。具体做法是把这些运动帧编码后的 latent 与当前 noisy latent 在通道维度拼接,同时拼接一个二值 mask,用来告诉模型哪些位置包含有效运动上下文。这个设计解决的是游戏里最核心的问题之一:玩家不会只看一个短片段,而是会连续操作,上一段的世界状态必须影响下一段。

动作注入是 Matrix-Game 和普通视频生成模型拉开距离的地方。论文把键盘动作表示为离散编码,覆盖前进、后退、左移、右移、跳跃、攻击等操作;鼠标动作则用连续标量表示相机视角变化,并在评测中按上、下、左、右及四个对角方向统计。

为了让动作信号对齐 3D Causal VAE 压缩后的时间 token,作者使用 GameFactory 中的 group operation trick:连续鼠标动作与输入 latent 拼接,经 MLP 和时间自注意力处理;离散键盘动作通过 cross-attention 注入 diffusion 过程。训练时,动作条件也会以 0.1 的概率替换成无条件信号,相当于对动作做 classifier-free guidance,促使模型在有动作条件时更稳定地利用它。

图片

这类场景是笔者很看好的场景,相比于建模物理世界,建模一个游戏世界会更加容易:在游戏引擎中获取数据远比真实数据来的方便,一定程度上,游戏世界模型的发展会领先于真实世界模型的发展。当然,在长程一致性等问题上,游戏世界模型和真实场景世界模型面临着同样的问题。

unset unset 直接生成动作的 WAM unset unset

这类方法常见于自动驾驶和具身智能场景。在这些任务里,最终目标从生成视频转向输出可以执行的动作。于是 World Action Model(WAM)应运而生——它把世界动态建模和动作生成绑在一起,世界模型服务于动作生成。

近两年的具身世界模型大致有两条路线:一类是 imagine-then-execute,先用视频世界模型想象未来,再通过 inverse dynamics 或 action decoder 得到动作;另一类是 joint modeling,把视觉 token、语言指令、机器人状态和动作 token 放进同一个模型里共同建模。其中,后者更加符合 WAM 的理念——它脱胎于世界模型,又不完全等同于世界模型。

WAM 路线的一个代表是 DreamZero 。

图片

DreamZero 使用一个 Joint Video-Action DiT:训练时,视频通过 VAE encoder 变成 latent,动作也被 action encoder 编码成 token,二者一起加入噪声并通过 causal DiT blocks 做 joint video-action flow matching;推理时,模型读取过去帧、语言指令和本体状态,在 KV cache 支持下自回归采样未来帧和未来动作 chunk,再由 action decoder 输出可执行动作。

它的问题建模以 chunk 为单位。给定第 个 chunk,原始视频 latent 记为 ,归一化动作记为 ;对应的高斯噪声分别为 和 。DreamZero 对视频和动作使用同一个去噪时间步 ,构造 noisy chunk:

这里, 和 分别是视频 latent 与动作 token 的带噪版本;同一个 chunk 内所有帧共享 ,不同 chunk 使用独立时间步。过去 clean chunk 作为上下文:

训练目标是让 Joint Video-Action DiT 预测视频和动作的联合速度场:

其中, 是 chunk 数量; 是时间步权重; 是语言条件; 是第 个 chunk 的本体状态; 是模型预测的联合速度; 是从噪声指向 clean video-action token 的目标速度。这个目标把“未来视频会怎样变化”和“动作应该怎样执行”绑定到同一个 flow matching 问题里。

这类设计的好处是模型在训练中始终面对“动作如何改变视觉世界”这个问题,因此动作输出带有更强的物理先验。

DreamZero 还强调了突出的跨本体能力:视频演示即使来自其他机器人或人类,也可以作为世界动态线索帮助新本体适应。这一点和传统 VLA 只学习 observation-action 映射不同,WAM 试图把中间的世界变化也学进去。

WAM 可以看作世界模型从通用世界建模走向具体下游任务的一类形态 。它牺牲了一部分纯生成模型的开放性,把接口收紧到可执行动作上,换来更直接的控制价值。

unset unset 基座世界模型 unset unset

这类方法的野心更大,试图把上述问题统一到一个可微调、可组合、可部署的基座平台上。代表是 NVIDIA Cosmos 系列。NVIDIA 对 Cosmos 的定位是 World Foundation Model Platform for Physical AI 。

图片

Cosmos 系列提供的是一组可被下游定制的世界基础模型,目标范围覆盖视频生成、动作相关预测和物理 AI 数据闭环。Cosmos-Predict2.5 将 Text2World、Image2World、Video2World 统一到一个 flow-based 架构里,并引入 Cosmos-Reason1 提供更强文本 grounding 和控制;Cosmos-Transfer2.5 则更像 world translation 工具,用于 Sim2Real、Real2Real 或基于控制条件的视频转换。

在之前我们介绍了当下几种世界模型的应用场景,Cosmos 这类基座世界模型则试图成为这些任务的共同底层:既能生成合成数据,又能做策略评估,还能作为机器人、自动驾驶的训练环境。它的核心价值体现在平台化能力上,也就是把数据、模型、后训练、benchmark、部署工具做成一套可复用基础设施。

从平台图可以看出,Cosmos 的定位已经超出单独生成模型。Video Curator 用来过滤、标注和组织大规模视频数据;Tokenizers 负责把原始视频压缩成适合大模型训练的 latent 或 token;Pre-trained World Foundation Models 提供通用生成和预测能力;Post-Training Samples 则展示如何面向机器人、自动驾驶、工业等任务做后训练;Guardrail 用于约束模型输出和部署风险。它的设计思路更接近“世界模型基础设施”,而非单篇论文里的一个任务模型。

Cosmos 的底层首先依赖 tokenizer。连续 tokenizer 采用普通 autoencoder 思路,离散 tokenizer 使用 FSQ 量化;训练时只监督 decoder 的最终输出,不额外在 latent 上加入 commitment 或 KL prior。第一阶段使用像素级 和 VGG 感知损失:

其中, 是原视频, 是重建视频; 是预训练 VGG-19 第 层特征; 是该层权重。第二阶段再加入光流损失和 Gram matrix 损失,前者改善视频时序平滑,后者提升重建图像锐度。

在 WFM 层面,Cosmos 同时提供 diffusion-based WFM 和 autoregressive-based WFM。扩散式 WFM 在 tokenizer latent space 中训练,采用 EDM 风格的 denoising score matching。给定 clean sample 和噪声 ,单个噪声水平上的目标为:

整体训练目标在不同噪声水平上加权:

这里, 是噪声条件 denoiser; 是噪声强度; 是训练数据标准差; 平衡不同噪声水平的贡献; 是一个由 MLP 参数化的不确定性函数,用来动态调节不同噪声任务的权重。自回归 WFM 则把视频离散 token 当作语言 token 一样建模,用 Transformer decoder 最小化 next-token NLL:

其中, 是第 个视频 token, 是自回归 Transformer 参数。这个设计解释了 Cosmos 为什么能同时覆盖 Text2World、Image2World、Video2World:它把视觉世界先压缩成 token/latent,再在 token/latent 上训练可扩展的 diffusion 或 autoregressive foundation model。

当然,基座世界模型也面临最难的问题。它需要同时处理视觉真实感、物理一致性、动作条件、长程记忆、跨场景泛化和闭环稳定性。只要其中任意一环不稳,下游策略就可能学到错误的因果关系。因此,这条路线最值得关注的是它能否持续、稳定、可验证地为真实机器人和自动驾驶提供训练信号,demo 的震撼程度只能作为辅助信号。

unset unset 总结 unset unset

正如开篇所说,世界模型大概是人工智能领域里定义最混乱的概念之一。为了便于理解,笔者在本文中把它暂时浓缩为两个基本要素:对世界的建模,以及在想象出来的世界中交互。

本文也只是走马观花地梳理了世界模型发展中的几个代表性工作,希望能帮助刚接触世界模型的同学快速建立一个知识谱系,对世界模型有一个基本的认知。坦白说,世界模型已经发展多年,今天又处在极高热度之中,靠一两篇文章很难真正理解这个领域。更合适的入门世界模型的路径,还是系统阅读综述,持续 follow 最新工作,并尽可能上手复现其中一些经典项目。

最后,欢迎读者朋友批评指正,也希望大家能带着自己的问题继续思考、继续实践。


参考链接:

  • World Models: https://arxiv.org/abs/1803.10122
  • PlaNet: https://arxiv.org/abs/1811.04551
  • DreamerV3: https://arxiv.org/abs/2301.04104
  • I-JEPA: https://arxiv.org/abs/2301.08243
  • Sora 技术报告: https://openai.com/index/video-generation-models-as-world-simulators/
  • Genie: https://arxiv.org/abs/2402.15391
  • Genie 2: https://deepmind.google/blog/genie-2-a-large-scale-foundation-world-model/
  • Genie 3: https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
  • Hunyuan3D 2.0: https://arxiv.org/abs/2501.12202
  • Hunyuan3D-2 GitHub: https://github.com/Tencent-Hunyuan/Hunyuan3D-2
  • Hunyuan3D Studio: https://arxiv.org/abs/2509.12815
  • Hunyuan3D-Omni: https://arxiv.org/abs/2509.21245
  • HY3D-Bench: https://arxiv.org/abs/2602.03907
  • Matrix-Game: https://arxiv.org/abs/2506.18701
  • Matrix-Game 项目页: https://matrix-game-homepage.github.io
  • MotionWAM: https://arxiv.org/abs/2606.09215
  • RepWAM: https://arxiv.org/abs/2606.13674
  • DreamZero / World Action Models are Zero-shot Policies: https://arxiv.org/abs/2602.15922
  • Fast-WAM: https://arxiv.org/abs/2603.16666
  • DriveDreamer-Policy: https://arxiv.org/abs/2604.01765
  • Vista: https://arxiv.org/abs/2405.17398
  • NVIDIA Cosmos: https://www.nvidia.com/en-us/ai/cosmos/
  • Cosmos World Foundation Model Platform: https://arxiv.org/abs/2501.03575
  • Cosmos-Predict2.5 / Transfer2.5: https://arxiv.org/abs/2511.00062

END

推荐阅读 :

图片

相关动态

MolmoAct:可在空间中进行推理的动作推理模型 - 知乎 2026-06-30 zhuanlan MolmoAct:可进行空间推理的动作推理模型 - 知乎 2026-06-30 zhuanlan MolmoSpaces:用于机器人导航与操控的大规模开放生态系统 2026-06-30 huggingface 具身智能2025之问:新物种时代,人形机器人如何长大? 2026-06-30 thepaper 工业和信息化部办公厅 国务院国资委办公厅关于联合开展 ... 2026-06-30 miit 推动人形机器人与具身智能在真实环境常态化部署应用,两 ... 2026-06-30 thepaper