点击下方卡片，关注【Mbot具身智能实验室】，获取更多精彩内容~

ACE-Ego开源：用第一视角人类视频统一VLA预训练，双榜SOTA登顶

具身智能的VLA（Vision-Language-Action）模型，现在有个公认的痛点：想要模型够强，就得大量真机遥操作数据。但每条动作轨迹都要工程师手把手教，贵、慢、还不好规模化。

大晓机器人联合香港中文大学MMLab、上海交大、清华等团队，刚刚发布了ACE-Ego-0——一个把人类第一视角视频和机器人数据统一起来做预训练的VLA框架。论文已经挂上arXiv，代码和权重全开源。

先看一眼成绩单：RoboCasa GR1 TableTop榜单第一（72.8%），RoboTwin 2.0榜单第一（Easy 91.12% / Hard 90.62%）。这是目前两项主流具身操作基准上的最高记录。

一、双榜SOTA：一次登顶可以靠运气，两个榜都登顶靠的是系统性优势

RoboCasa GR1 TableTop是目前具身操作领域最被引用的仿真基准之一，评估的是模型在多样化桌面操作任务上的泛化能力。ACE-Ego-0以72.8%的平均成功率排名第一，较第二名小鹏DIAL（70.2%）提升2.6个百分点头部模型竞争已经到了小数点后，每0.1%都不容易，2.6%的领先是实打实的差距。

RoboTwin 2.0则是更考验鲁棒性的平台。它分Easy和Hard两种模式，Hard模式引入了大量视觉和物理随机化。ACE-Ego-0在Easy上拿下91.12%，Hard上拿下90.62%——从干净场景切到强随机化场景，性能衰减仅0.5个百分点，远低于行业常见的5-10个点的衰减范围。

两个不同侧重、不同难度的榜单同时登顶，说明这不是某个场景的特化优化，而是方法本身在泛化性和鲁棒性上的系统性提升。

二、"以人为中心"的数据观：让机器人学"人怎么做"，而不是"机器怎么做"

ACE-Ego-0最核心的思路，一句话就能概括：把人类第一视角视频转化为机器人可用的训练信号。

行业目前的默认路线是堆机器人遥操作数据——工程师戴着VR设备、拿着操纵杆，一遍遍教机器人做动作。这条路的问题不是效果不好，是成本太高。一条高质量动作轨迹可能要几分钟到十几分钟的人工采集，大规模扩展几乎不可行。

ACE-Ego-0的做法不一样：它收集了1.48K小时的带伪动作标注的第一视角人类视频，和4.53K小时的机器人+仿真数据放在一起做联合预训练。人类视频是怎么捡东西、怎么装盒、怎么倒水的——这些日常动作，经过一套处理管线，变成了机器人可以理解的训练信号。

效果是实打实的：引入人类视频联合预训练后，模型成功率从68.3%提升到72.8%，净增4.5个百分点。

这件事的意义在于——它验证了一条新路线。不是说"数据越多越好"，而是"用对数据比用多数据重要"。第一视角人类视频天然包含了大量真实世界的交互信息：物体遮挡、柔性变形、接触力的微妙变化。这些信息，在干净的机器人遥操作数据里反而没那么丰富。

本质上，ACE-Ego-0在告诉我们：数据观的转变，比数据量的堆叠更有价值。

三、四大机制：人和机器人的数据，凭什么能放在一起训？

人类视频和机器人数据之间，有四重天然的不对齐。ACE-Ego-0的系统性贡献，就是针对这四个维度分别给出了解法：

第一重：空间不对齐 —— 第一视角统一动作空间表达。 人类的动作和机器人的动作，天然不在一个坐标系里。ACE-Ego-0把所有数据——不管来自人还是机器人——都映射到以观测者摄像头为中心的相机空间坐标系。在这个空间里表达末端执行器的连续动作，人和机器的数据就有了统一的"语言"。

第二重：本体不对齐 —— URDF形态映射。 不同机器人的关节数量、连杆长度、运动学参数都不一样，更不用说人和机器人的差异了。ACE-Ego-0用URDF图嵌入来编码每种本体的形态特征，人手的动作则通过重建3D手部关键点后提取为"类夹爪"风格的动作表示。新本体适配不到200条动作数据就能完成部署——"一脑多型"的技术基础就在这里。

第三重：时序不对齐 —— 时间对齐动态分块。 人类视频可能是30fps，机器人数据可能是10Hz，时间粒度完全不同。ACE-Ego-0用时间对齐的动作分块策略，把不同频率的数据统一到一致的时间粒度上做训练。

第四重：质量不对齐 —— 可靠性自适应目标函数。 机器人数据有传感器记录的真值，相对可靠；人类视频的伪动作标注再怎么处理也有噪声。ACE-Ego-0不是一刀切地信或不信，而是根据数据源的可靠性动态调整损失权重——真机动作主导主损失函数，人类伪动作通过质量加权的辅助损失参与训

这四招合在一起，才真正让人类视频和机器人数据能够在同一个预训练框架里协同工作，而不是互相干扰。

四、零售场景全链路落地：塑料袋、鞋盒、咖啡，这些才是零售真正要干的活

大部分具身操作模型的真机验证，集中在桌面级的简单抓放任务上。ACE-Ego-0则选择了一个更有挑战性的场景：线下零售的全链路操作验证。

在双臂ARX平台上，ACE-Ego-0已经稳定完成以下任务：

鞋盒规整入盒：鞋子需要贴盒壁、对位精准地装入

咖啡定量分装：精确控制倾倒角度和力度，涉及长周期连续操作

柔性塑料袋打包：塑料袋会变形、会塌软，对抓取和操控精度要求极高

倒茶叶泡茶、分装零食、收纳饮料、整理积木、整理笔袋、整理碗碟 等十个零售场景

（视频素材：ACE-Ego零售场景合集）

真机实验的平均成功率达到78.3%（6个任务，各30次试验）。这不是在理想光照、固定位置的实验室demo，而是覆盖了商品整理、履约打包、货品分拣等线下零售的核心作业环节。

从"能抓起来"到"能干活"，这一步每家公司都想跨，但真正跨过去的没几个。

五、机器狗+人形机器人协同：一个大脑，多种身体

ACE-Ego-0的"一脑多型"，有一个场景验证特别直观：

机器狗自主规划路径进入便利店，轮式人形机器人"售货员"从货架上抓起两瓶可乐，放进机器狗搭载的篮子。整个交互在办公楼里的真实环境中跑通。

（视频素材：机器狗+机器人零售场景协同）

这里面的技术看点不是"能跑通"，而是同一个模型控制两种截然不同的本体。机器狗负责移动和路径规划，轮式人形机器人负责精准抓取和放置——不同的硬件形态、不同的运动学结构、不同的传感器配置，共用同一套ACE-Ego-0模型。

这背后的支撑正是URDF形态映射机制。模型在推理时，根据当前本体的URDF描述动态调整动作输出，不需要为每种机器人单独训练一个模型。未来一个零售空间里，理货机器人、收银机器人、补货机器人可以共享同一个大脑，这才是"一脑多型"真正指向的未来。

六、开源与协作：技术自信，也是产业担当

最后，ACE-Ego-0的完整项目已开源：

项目主页： https://acerobotics-vla.github.io/ACE-Ego/

论文、代码、模型权重全部公开。RoboCasa和RoboTwin双榜SOTA的模型，不需要靠demo视频猜效果——你可以下载、复现、在你自己硬件上跑。

研究团队来自大晓机器人（ACE Robotics）、香港中文大学MMLab、港中深、上海交大、清华。这种产学研的协作模式本身也值得关注——工业界的场景需求和学术界的算法创新，在ACE-Ego-0上找到了一个很好的结合点。

Mbot具身智能实验室

让尖端科技触手可及，人人皆可探索未来

Mbot基础交流群等你加入，下方扫码联系

具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号

大晓机器人ACE-Ego开源：用第一视角人类视频统一VLA预训练，RoboCasa+RoboTwin双榜SOTA登顶