腾讯:1 万小时 UMI 数据预训练 | Hy-Embodied-0.5-VLA 全栈机器人方案

📅 2026-06-15 17:49 Tencent human five 技术 原文:Tencent human five

Tencent human five *2026年6月15日 17:49*

过去一年, **VLA** 模型飞速发展,业界目光逐渐转向下一代具身基础模型。但真正通用的机器人无法依靠单一模型实现,必须搭建一套完整的机器人学习全栈体系,保证从数据采集到真实场景部署全流程稳定可靠。

本文提出 Hy-Embodied-0.5-VLA(简称 HyVLA-0.5),这是一套覆盖机器人学习全链路的端到端系统,包含数据采集、模型设计、持续预训练与 **SFT** 、 **RL** 后训练以及真实场景部署五大模块,各模块分工明确、各司其职。

,时长02:05

1.00«−+»

数据层面,我们自研指尖式UMI设备搭配动作捕捉舱,采集时长超10000小时的第一视角人类演示数据,定位精度达亚毫米级,这些演示轨迹可直接用于后训练阶段。

模型层面,我们基于 Hy-Embodied-0.5 主干网络进行拓展,新增 **Flow Matching** 动作专家、轻量化记忆编码器,并采用 **Delta-Chunk Action** 表示方式,将策略学习与机器人本体运动学解耦。持续预训练与SFT阶段,基于在UMI数据集上完成持续预训练的模型权重,设计两套面向真实机器人的SFT方案:方案A针对目标机器人做本体适配,方案B仅依托UMI数据实现跨机器人本体迁移。RL后训练阶段,提出一种基于PRO的离线RL算法,该算法利用模型运行失败样本快速迭代优化策略,在无需训练奖励模型的前提下,将任务成功率提升至接近理论上限。部署阶段,采用异步推理流程结合轻量化轨迹平滑算法,实现高频闭环控制。整体而言,Hy-Embodied-0.5-VLA 全栈系统为可落地的通用机器人研发迈出了重要一步。

项目官网

tairos.tencent.com/openSourceModels/hy-embodied-0.5-vla

代码仓库

github.com/Tencent-Hunyuan/Hy-Embodied-0.5-VLA

模型地址

huggingface.co/tencent/Hy-Embodied-0.5-VLA-UMI

数据集地址

huggingface.co/datasets/tencent/Hy-Embodied-0.5-VLA-Data

1 引言

当前各类VLA架构在机器人连续控制任务中已展现出不俗能力。但想要将模型技术落地为可实际部署的通用机器人,仅依靠性能更强的策略模型远远不够,数据、训练、适配、执行等环节都必须结合真实硬件约束进行协同设计。

从数据角度出发,这套系统化落地需求引出三大耦合难题。

第一,传统遥操作依赖主从控制界面,操作人员需要刻意适配机器人工作空间,且缺乏直接触觉反馈,难以完成精细操作。

第二,利用人类行为数据或传统UMI设备虽能缓解数据稀缺问题,但仍存在短板:原始人类演示数据虽行为多样性丰富,但动作标签精度过低;现有UMI设备依靠SLAM提升定位精度,但其硬件结构笨重,无法捕捉指尖层面的力传递信息。

第三,跨机器人本体迁移不仅需要适配运动学特征,还需解决三类差异:人类与机器人运动空间的本体差异、动力学与驱动机构不同带来的控制差异、人类第一视角与机器人机载相机之间的感知差异。

除数据外,VLA模型的架构设计、训练范式与部署链路同样存在显著瓶颈。早期方案大多基于离散动作token开展自回归建模,天然限制了机器人的运行速度与控制精度。近期部分研究将 **VLM** 与Flow Matching动作专家结合,实现连续动作预测,但这类方案的视觉主干网络并非专为机器人控制设计,通用视觉表征与物理交互所需的密集时空推理能力之间仍存在明显差距。在表征问题之外,传统模仿学习难以实现高阶精细操作,而面向连续控制的主流RL方案又依赖稳定性较差的奖励模型或价值网络。即便模型训练效果优异,若无法在真实硬件的视觉闭环中实现高频推理运行,也不具备实用价值,而部署环节往往未被当作核心设计目标。因此,必须搭建一套一体化训练pipeline,同步解决数据、模型、策略优化与部署全流程问题。

图片

针对以上难题,本文提出 Hy-Embodied-0.5-VLA(见图1),一套从定制数据采集硬件到工程化部署的端到端完整系统。本研究并未将VLA建模作为独立任务,而是搭建完整链路,让数据、模型、RL后训练、部署各模块协同运作。

数据方面,我们自研指尖式UMI设备搭配动作捕捉舱,采集时长超10000小时、亚毫米级精度的第一视角人类演示数据。指尖式设计还原了笨重手持设备无法实现的自然触觉感知;动作捕捉舱产出的动作标签精度远超仅依靠SLAM的方案;第一视角采集方式可提供全局语义信息,避免过度依赖腕部相机。关键的是,这套采集得到的轨迹可直接复用为后训练数据,减少针对目标机器人的额外数据采集工作。

模型方面,我们基于参数量40亿、采用MoT架构的具身VLM——Hy-Embodied-0.5 主干网络进行拓展,新增Flow Matching动作专家以实现高频连续动作预测。相比基于通用VLM改造的方案,这款原生面向具身任务的主干网络具备更优的空间先验知识,后训练收敛速度更快。同时,本文设计轻量化记忆编码器用于提取时空上下文,并采用增量分块动作表示,预测相邻步之间末端执行器的增量运动。该表示方式将策略学习与机器人本体运动学解耦,大幅缩小优化搜索空间,为跨机器人本体的后训练与部署提供良好基础。

持续预训练与SFT阶段,先在10000小时UMI数据集上完成预训练,再基于得到的模型权重开展面向具体任务的SFT。面向真实机器人的SFT分为两条路线:路线A利用目标机器人的演示数据完成同本体适配并部署在同款设备上;路线B仅使用UMI数据,实现向形态完全不同的机器人跨本体迁移,全程不使用目标机器人的遥操作数据。

RL后训练阶段,本文提出 FlowPRO,这是一种无评价器、无奖励函数的离线RL算法,基于PRO实现。通过“人工介入-轨迹回退”流程,直接从模型rollout结果中采集成功/失败成对轨迹。结合近端偏好优化损失函数,将偏好信息与Flow Matching连续动作目标对齐,同时借助对比梯度抵消特性,避免模型发生灾难性遗忘。FlowPRO可将失败样本转化为快速迭代依据,提升长尾操作任务的鲁棒性,最终将任务成功率提升至接近上限,且全程无需训练奖励网络与价值网络。

部署阶段,我们搭建异步推理框架,将主干网络前向传播与动作执行并行处理;同时采用简洁高效的三次贝塞尔曲线轨迹平滑算法拼接连续增量动作块,保证轨迹满足连续性。以上模块配合实现了真实硬件上的高频闭环控制,打通从数据采集到工厂场景实际运行的全流程。下文将详细介绍 HyVLA-0.5 整套pipeline的构建、训练流程以及在大规模预训练、跨本体后训练、偏好优化、实体机器人部署等场景下的验证结果。

2 模型架构

HyVLA-0.5 遵循经典VLA范式:预训练VLM负责大范围语义感知,专用动作模块将多模态上下文转化为机器人底层控制指令(见图2)。在此基础上,HyVLA-0.5 由三大核心组件构成:第一,主干网络为具身VLM Hy-Embodied-0.5,采用MoT架构,支持模态自适应计算与原生分辨率图像编码;第二,动作专家依托条件Flow Matching生成连续动作块,机器人专属状态与动作流独立于VLM主干,通过共享注意力机制完成信息交互;第三,图像编码器拓展为轻量化记忆编码器,借助时空交错注意力机制聚合多帧观测历史。

图片

本节首先完成任务形式化定义,随后依次介绍主干网络、动作专家与轻量化记忆编码器。

2.1 任务形式化定义

本文将机器人操作任务建模为 **基于目标、分块级** 的控制问题。在每个决策时刻,策略接收多模态观测,预测未来一段动作块,即对条件分布建模。公式定义如下:

式中各分量定义如下:

1. **视觉输入** :视觉流为多视角、多帧RGB观测。在时刻,模型接收个相机视角各自最近的帧图像,总计张图像。历史帧数为可配置超参数,当时退化为单帧输入。
2. **语言输入** :自然语言任务指令用于定义任务目标。指令经tokenization后与视觉数据一同输入VLM主干编码,让策略依据语义指令执行对应行为。
3. **本体感知输入** :机器人状态表征当前末端执行器位姿,该特征会映射至主干网络的嵌入空间,为动作预测提供机器人本体状态上下文。
4. **动作输出** :模型单次推理不再输出单步动作,而是预测时间跨度为的完整动作块。该设计既能保证时序平滑、支持高频控制,又能大幅降低推理时延——VLM主干仅需一次前向传播,即可结合Flow Matching完成整段步动作的生成。

**末端执行器坐标系表示** :本体感知状态与动作均基于末端执行器坐标系(EEF)定义,该表示方式与机器人本体运动学无关,实现策略与设备解耦。对于单条机械臂,位姿由三维笛卡尔平移量()、六维连续旋转表征以及一维归一化夹爪控制指令组成,因此单臂的状态与动作均属于空间。本体感知状态基于机器人基坐标系下的末端执行器坐标系定义;后续每一步动作为增量动作块,以当前状态为参考坐标系,采用相对末端执行器坐标系表示。

**辅助联合训练任务** :除基于轨迹动作标签学习外,整套VLA架构还集成了辅助的下一个token预测任务,用以保留并强化模型基础的视觉语言推理能力与空间定位能力。记辅助数据集集合。每条训练样本格式为,其中代表视觉语言条件,为序列化目标token序列。根据任务不同,可以是视觉问答(VQA)语义答案token、归一化二维空间坐标,或是相机/场景坐标系下的三维几何参数。该联合训练目标直接优化共享VLM主干的参数,保障模型的语义表征与空间表征能力。

2.2 具身自适应计算主干网络

HyVLA-0.5 基于具身VLM Hy-Embodied-0.5-MoT 构建,该模型参数量40亿,专为边缘设备部署优化。模型沿用标准“图像编码器+语言模型”架构,针对机器人操作任务做了三项关键适配设计:

1. **原生分辨率视觉编码** :主干网络采用 Hy-ViT 2.0 视觉Transformer,支持任意分辨率图像输入,该模型由更大规模的教师模型蒸馏得到。各相机采集的图像均可按原生分辨率处理,无需统一下采样至固定尺寸。
2. **基于MoT的模态自适应计算** :主干网络采用MoT架构,直接加载 Hy-Embodied-0.5 预训练权重初始化。视觉流与文本流使用相互独立的QKV参数与前馈网络(FFN)参数。前向传播过程中,视觉Transformer token使用视觉专属参数计算,文本token使用原有语言模型参数计算;跨模态交互仅在共享自注意力层实现,视觉与文本参数独立更新。同时遵循 Hy-Embodied-0.5 原有配置:单张图像内的视觉token使用双向注意力,语言token使用标准因果注意力。
3. **联合训练损失函数** :针对从中采样得到的VQA与空间定位任务样本,VLM主干使用原生语言模型头部自回归解码序列化目标token,损失函数采用标准下一个token预测损失:

式中代表第个序列化目标token。

2.3 双塔Flow Matching动作专家

本研究并未将动作离散化为类语言token,而是为VLM主干搭配动作专家,通过条件Flow Matching直接对连续动作分布建模。

1. **双塔路由机制** :在混合Transformer主干之上,模型整体划分为两大模块:面向理解的VLM塔、面向生成的动作专家塔。VLM塔依托前文模态自适应参数处理视觉与文本上下文;动作专家塔接收映射后的机器人状态与带噪声动作token,输出连续动作速度场。两座塔通过共享自注意力层交互,让视觉语言语义信息引导动作生成。
2. **分块因果注意力** :将token序列划分为三大模块、、。每个模块内部采用双向注意力,模块之间严格执行因果注意力规则:感知模块无法读取机器人专属模块信息,缓解VLM预训练带来的分布偏移;状态模块独立划分,其键、值特征可缓存复用;带噪声动作模块能够读取前文所有模块特征。
3. **Flow Matching损失函数** :定义Flow时间步,带噪声动作块,其中噪声。动作专家学习速度场,实现从噪声向目标动作的变换,损失函数定义为:

式中:为真实动作块,为加噪后的动作块,为模型预测的速度场,为目标去噪方向。Flow时间步从偏置向高噪声区间的Beta分布中采样,重点学习难度更高、信息增益更大的动作去噪阶段。当训练数据同时包含机器人演示数据与辅助任务数据时,总损失为;若仅训练动作模块,则设置。

4. **推理流程** :部署阶段,模型通过前向欧拉迭代积分速度场生成动作块,迭代区间,共执行10步迭代,步长,迭代公式:。由于观测条件在全部迭代过程中保持不变,其对应的键、值特征仅在首次前向传播时计算并缓存,后续迭代仅更新动作token,大幅降低计算开销。

2.4 时空注意力轻量化记忆编码器

HyVLA-0.5 利用公式(1)中帧多视角历史图像构建轻量化记忆表征。若对帧图像逐一编码并输入主干网络,会导致视觉token数量剧增。因此本文将图像编码器拓展为视频编码器,在特征传入VLM主干前完成时序维度压缩。

1. **因式分解时空注意力** :参考Pi-MEM结构,视频编码器保留标准视觉Transformer的分块+注意力架构,每间隔层插入时序注意力模块。在该模块中,添加固定正弦时序编码(规定),复用原有视觉Transformer的QKV与输出投影矩阵,将注意力拆分为时序、空间两个计算阶段,共享投影参数:
时序注意力采用因果约束,保证每一帧仅能读取当前帧与历史帧特征,契合机器人流式感知的特性;空间注意力为帧内标准双向自注意力。该分解方式将复杂度从联合时空注意力的降至,大幅降低计算量。
- 空间注意力:对单帧图像,在图像分块维度执行双向注意力:
- 时序注意力:对单图像分块,在帧图像维度执行因果注意力:
4. **token数量无损压缩** :在视频编码器上层,舍弃历史帧的分块特征,仅将当前帧token输入VLM主干。由于交错时序注意力已将历史上下文信息融合至当前帧表征中,最终输入VLM的视觉token数量与单帧输入方案完全一致。
5. **无参高迁移性设计** :相较于单图像版 Hy-ViT 2.0,该视频编码器未引入任何可学习参数:时序、空间注意力复用原有投影矩阵,时序编码为固定正弦函数而非可学习嵌入表。当时,时序因果注意力等价于恒等变换,也不会改变输入特征,拓展后的模块将完全退化为原始视觉Transformer模块。因此记忆增强版主干网络可直接加载 Hy-Embodied-0.5 预训练权重,完美兼容单帧编码器场景。

3 预训练与SFT

本章介绍HyVLA-0.5的监督训练流程:首先在大规模Hy-UMI-10K数据集上完成预训练,学习通用动作先验;再基于不同目标机器人的任务演示数据开展针对性SFT。

3.1 Hy-UMI-10K:高精度操作数据集

HyVLA-0.5 基于自研Hy-UMI-10K数据集完成预训练,该数据集依托UMI采集,总时长超10000小时,是模型预训练的唯一数据源。传统UMI方案依靠机载视觉SLAM解算夹爪位姿,而本套采集设备搭配外部光学动作捕捉系统,在统一全局坐标系下输出六自由度轨迹标签,定位精度达亚毫米级,动作标签质量大幅提升。下文介绍采集设备、数据集构成与预训练方案。

**采集设备** :演示数据通过定制手持UMI夹爪采集,设备结构独立于任意机器人本体运动学。夹爪参照工业常用Changingtek CTAG2F90型号设计,缩小部署场景的设备差异;夹爪搭载相机贴近爪体表面,狭小空间作业时可避免相机碰撞。夹爪开合度通过关节旋转编码器测量,精度达亚毫米级,无需依靠视觉识别判断开合状态。

图片

夹爪位姿由外部光学动作捕捉系统跟踪,在全局笛卡尔坐标系下输出亚毫米级六自由度轨迹,同时同步校准头戴RGB-D相机,规避红外信号干扰。光学跟踪方案替代传统机载SLAM,解决了SLAM易因视觉特征缺失出现位姿抖动、跟踪中断的问题,尤其适合采集精细操作任务的高精度动作标签,缺点是无法在野外无固定设备场景使用。

夹爪采用贴合人体手指的指尖式结构,依靠人体手指直接驱动并传递触觉反馈,区别于传统扳机式驱动,让人类操作意图与采集动作精准对齐。部分夹爪可选配指尖六维力/力矩传感器,相比腕部传感器,可更直接地采集力交互信息。整套设备以夹爪为采集基准,不受设备底座位置影响。设备同步采集RGB-D数据流,当前版本HyVLA-0.5仅使用RGB数据,深度数据留待后续研究使用。

图片

**数据集构成与分布** :Hy-UMI-10K 包含超100万条演示片段、总时长10000小时,覆盖70类不同任务,整体划分为六大场景任务大类:洗衣区(28.5%)、厨房(19.2%)、个人护理及杂项(13.8%)、精细操作/工具使用(10.4%)、收纳整理(10.0%)、清洁(5.7%)。其余数据覆盖大量小众任务与多样化物体、环境。数据集交互物体种类丰富,包含硬质容器、餐具、精密器件、柔性织物等。

3.2 预训练设置

模型初始化:VLM主干加载 Hy-Embodied-0.5-MoT 预训练权重;动作专家采用与VLM主干一致的Transformer结构,参数随机初始化,并缩减网络规模:隐藏层维度由2048降至1024,中间层维度由6144降至2048,动作专家总参数量约3.7亿。预训练阶段所有参数均可更新,优化目标采用前文Flow Matching损失。

为加速大规模预训练,设置历史帧数,关闭视频编码器功能,退化为标准单帧图像编码器。模型输入3个视角图像,分辨率;动作块时间跨度,输出频率10Hz。

图片

**数据与预训练流程** :预训练使用完整10000小时UMI数据集。数据加载采用有放回采样规则:首先按片段长度加权随机选取一条演示片段,再在片段内均匀采样一帧作为当前观测帧,截取后续步动作作为真实动作块。输入状态与动作数据基于数据集全局均值、标准差做归一化处理。

整体训练参数:迭代步数200000轮,全局批次大小1024,基础学习率。学习率调度策略:前1000步线性升温至峰值;随后160000步线性衰减至峰值的十分之一;最后40000步保持学习率不变。优化器选用AdamW,训练采用bfloat16混合精度。

3.3 SFT设置

模型初始化:加载UMI预训练完成的VLA权重开展任务专属SFT,VLM主干与动作专家权重全部复用,所有参数参与微调。与预训练不同,SFT阶段设置历史帧数,启用视频编码器,模型可结合当前帧与历史5帧图像信息做推理。

**适配机器人与数据集** :本次SFT覆盖1套仿真平台与4款实体机器人。仿真环境采用RoboTwin 2.0基准中的Aloha-AgileX双臂机器人,包含50项操作任务;每项任务提供50条纯净环境演示片段与500条随机化环境演示片段,总计27500条片段、超600万帧数据。

实体机器人SFT分为两大部署路线,区分同本体适配与跨本体迁移:

1. **路线A(同本体适配)** :使用目标机器人遥操作采集数据,训练与部署在同款设备Dobot X-Trainer上。共4项任务,每项任务300条演示数据,总时长18小时。
2. **路线B(跨本体迁移)** :仅使用UMI演示数据微调,全程不采集目标机器人遥操作数据,直接部署在形态不同的机器人上。包含JAKA K1单任务(300条UMI数据,1.2小时)、Astribot S1人形机器人单任务(200条UMI数据,1.5小时)。

额外使用Unitree G1人形机器人(单任务,400条UMI数据,2.2小时)完成力感知相关实验验证。

**后训练流程** :实体机器人部署时,动作采样频率50Hz,动作块跨度,历史观测时长1秒。训练迭代60000轮,全局批次大小32,基础学习率,学习率在40000轮内完成衰减。

针对RoboTwin 2.0仿真平台,因数据规模更大,对后续动作做步长为3的下采样,动作块跨度设置为,历史观测区间为5倍采样步长;全局批次大小设为128,其余优化配置与预训练保持一致。详细参数见附录A。

4 RL后训练

完成监督预训练与SFT后,HyVLA-0.5 依托失败样本驱动的后训练流程进一步提升实体机器人部署性能。本阶段采用FlowPRO算法,结合Flow Matching专属的偏好优化损失(RPRO)与“人工介入-轨迹回退”数据采集流程。该方案仅利用少量人工修正样本即可显著提升部署效果,且无需训练任何奖励模型与价值模型。

4.1 设计原则

现有实体机器人后训练方案主要分为三类:SFT/数据集聚合(DAgger)、基于奖励/价值函数的RL、基于偏好的RL,三类方案均存在固有缺陷,据此本文提出FlowPRO三大核心设计原则:

1. **直接利用失败样本** :失败轨迹不做丢弃或仅标记重标注,而是与修正后的成功轨迹形成成对对比信号,逐状态、逐动作块参与损失计算。
2. **完全摒弃奖励模型与评价器** :基于冻结的参考策略与当前策略,通过闭式计算得到训练信号,依托Flow Matching对数似然代理实现优化,解决密集接触类操作任务中奖励函数设计困难的问题。
3. **隐式奖励约束** :引入对称近端正则项,限制隐式奖励的数值范围,避免普通DPO中出现的奖励投机问题,防止策略同时偏离成功轨迹与失败轨迹。

下文正式定义损失函数与偏好轨迹数据采集流程。

4.2 具体方法

FlowPRO 是一套迭代式离线RL流程,基于SFT训练完成的HyVLA-0.5 基础策略迭代优化。每一轮迭代分为三步:(1)通过“人工介入-轨迹回退”采集机器人端偏好轨迹对;(2)通过平滑插值算法,将稀疏的轨迹级修正数据转化为稠密的逐状态偏好样本;(3)混合新样本、历史样本与SFT样本,使用RPRO损失优化策略。上一轮迭代得到的模型将作为下一轮的参考策略。

图片

**RPRO损失函数** :HyVLA-0.5 动作模块为Flow Matching模型。给定状态(为视觉观测,为语言指令),速度场实现将高斯噪声映射至动作块。映射过程遵循线性插值,,对应条件速度。

参考Flow-DPO思路,将单样本Flow Matching回归损失作为负对数似然的近似代理:

基于该损失定义隐式奖励代理:

式中、分别为参考策略与当前策略对应的Flow Matching损失。

将上式代入近端偏好优化(PRO)成对目标函数,得到适配Flow Matching的PRO损失:

正则项在时取最小值,且随对称增大,约束隐式奖励的幅值,规避普通Flow-DPO的奖励投机问题。

为保留基础策略性能、强化向最优动作回归的能力,将PRO损失与监督损失结合,得到最终RPRO损失:

该损失具备 **对比梯度抵消** 特性:当时,对比项梯度,仅保留正则项与监督项梯度。因此SFT演示样本可直接混入RPRO训练流程,不会产生额外干扰。

**数据采集:人工介入-轨迹回退** :在当前策略rollout过程中,操作人员观测到错误动作或危险动作时执行人工介入。系统执行三步操作:(1)将状态回退至历史时刻,将已执行的错误片段标记为负样本轨迹;(2)记录时刻的视觉观测,若环境发生变化则完成场景复位;(3)操作人员从开始执行修正演示,记录为正样本轨迹。单次人工介入即可得到一组共享初始状态的成对轨迹。调整回退步长可丰富样本初始状态,无需单独采集正负样本轨迹。

**平滑插值与批次混合** :正负轨迹从之后发生分支,分支后的每个状态仅隶属于单条轨迹。为生成损失函数所需的稠密逐状态样本,本文采用平滑插值算法补全缺失动作:对于负轨迹上的状态点,通过加权距离匹配找到正轨迹上最近点;基于三次贝塞尔曲线插值位置、球面线性插值(Slerp)插值姿态、线性插值夹爪状态,合成完整动作块。

对于原本属于正轨迹或纯SFT数据的样本,设置,借助梯度抵消特性将其等效为带正则约束的SFT样本。

训练批次按固定比例混合多类数据:第1轮迭代,新偏好样本与SFT样本比例为80%/20%;第2轮及以后迭代,新偏好样本、历史偏好样本$D\_{pref}^{<k}$、sft样本比例为70% 15%="" 15%。该配比优先利用最新高价值失败样本,同时回放历史修正样本防止性能退化,并保留sft样本锚定基础能力。<="" p="">

5 部署方案

部署阶段主要解决三大运行时问题:将增量动作块映射至不同机器人平台、匹配机器人控制频率完成VLA推理输出、拼接离散动作块实现轨迹平滑。本文采用三类轻量化组件实现全平台兼容:跨机器人本体映射模块(保证不同设备使用同一套动作接口)、异步推理-执行流程(并行计算与运动控制)、时延感知贝塞尔曲线拼接模块(消除轨迹突变,保证平滑过渡)。整套部署方案适用于所有实体机器人测试场景。

5.1 与机器人本体无关的平台映射

平台映射模块的核心作用是保留增量动作块的跨设备通用特性。模型输出双臂动作块维度为20(单条末端执行器10维:三维笛卡尔平移、六维旋转矩阵前两行、一维夹爪开合指令),所有动作均基于动作块起始时刻的末端执行器相对位姿定义。机器人专属运动学解算全部放在部署阶段完成:将相对位姿转换为世界坐标系下的绝对目标位姿,再通过逆运动学(IK)求解机器人关节控制指令。

1. **同本体部署(路线A)** :数据采集与部署使用同一世界坐标系,映射逻辑简单。
2. **跨本体部署(路线B)** :数据采集与部署设备不同,本文针对固定基座机械臂、浮动基座Humanoid两类设备设计专属映射规则。

记为坐标系在坐标系下的位姿;为世界坐标系,、分别为当前时刻、未来第步的夹爪坐标系,为机器人底座坐标系。

- **固定基座机械臂(如JAKA K1)** :结合当前夹爪位姿,将相对末端执行器动作转换为世界坐标系位姿:
- **Humanoid机器人(如Astribot S1)** :通过启发式规则推断固定底座坐标系与浮动躯干位姿,转换公式:

计算完成后缓存复用。机器人头部、躯干额外24维姿态(位置、旋转各12维)由启发式规则生成,不由策略预测。该设计保证同一份模型输出接口可同时适配同本体、跨本体部署场景。

图片

5.2 面向实时控制的异步执行

VLA模型推理速度慢于机器人伺服控制周期,同步执行会导致机器人长时间等待。本文基于线程安全动作缓冲区搭建 **生产者-消费者** 异步运行框架,解耦推理与指令下发:

- 推理线程:基于最新观测运行模型,生成平滑动作序列并覆盖缓冲区;
- 执行线程:按机器人控制频率从缓冲区读取动作指令执行,同时记录历史位姿用于轨迹切线计算。

推理运算与动作执行并行运行,利用计算时延填充执行周期,大幅提升实时性。

5.3 时延感知贝塞尔曲线动作块拼接

异步执行场景下,延迟生成的动作块需要与机器人当前状态无缝衔接,避免轨迹突变。本文采用 **三次贝塞尔曲线** 构建连续的过渡段,可自由调整端点位置与运动切线方向。

定义超参数用于选择衔接点,根据硬件加速度限制、伺服频率配置:取值越小,衔接点越靠近动作块起始位置,保留模型原始动作越多,但修正延迟轨迹的空间越小;取值越大,过渡越平滑,但会舍弃更多原始预测动作。衔接点索引做边界截断,保证前后轨迹切线可正常计算。

**运行流程** :设原始动作块长度为,首先截断过时前缀:

式中为截断比例,保留后续动作序列。

记上一段动作最后执行的末端执行器位置为,选取内部衔接点,满足,构造三次贝塞尔曲线,约束条件:

历史运动方向、未来动作块局部方向单位向量:

贝塞尔曲线四个控制点定义:

式中,用于控制切线长度。

三次贝塞尔曲线公式:

位置轨迹在三维欧氏空间插值,姿态采用球面线性插值(Slerp),夹爪指令线性插值,双臂独立计算。最终过渡轨迹满足连续性,无需额外训练控制器,仅依靠三个设备相关超参数配置。

图片

6 实验评估

本文实验围绕两大核心问题展开:1. 模型经过标准SFT后,在仿真环境与实体机器人上的基础性能;2. FlowPRO RL后训练对部署性能的提升效果。

实体机器人实验沿用前文两条部署路线:路线A在同一款遥操作机器人上完成微调与测试;路线B仅使用UMI数据微调,部署在形态完全不同的机器人上,全程无目标机器人遥操作数据。实验包含4项路线A任务、2项路线B任务。对照组模型、与本文模型参数量、训练数据、迭代轮次完全对齐。

6.1 仿真环境实验

基于RoboTwin 2.0仿真基准开展测试,每项任务随机运行100次统计成功率,最终取50项任务的平均结果,分为纯净环境、随机化环境两大设置。

图片

**实验结论** :本文HyVLA-0.5 在两类环境下均取得最优成功率,纯净环境90.9%、随机化环境90.1%。相比分别提升25.0、31.7个百分点;相比分别提升8.2、13.3个百分点;对比最优竞品JoyAI-RA仍有0.4、0.8个百分点的优势。

**消融实验** :移除轻量化记忆编码器后性能小幅下降;进一步移除大规模UMI预训练,性能再次降低。结果证明:UMI预训练与短时视觉记忆模块均能稳定提升模型性能。虽然真实场景UMI数据与仿真场景视觉、轨迹分布差异较大,但预训练仍能带来正向增益;该增益在实体机器人场景中会更加显著。

6.2 实体机器人实验

实验覆盖三款实体机器人、六项双臂操作任务,额外在Unitree G1上完成力感知判别实验。依旧分为同本体微调(路线A)、跨本体迁移(路线B)两大路线。

图片

**路线A(同本体微调,Dobot X-Trainer)** :使用该机器人遥操作数据微调并测试,包含四项双臂任务:瓶子对位插入、眼镜折叠收纳、餐具摆放、笔袋拉链开合。

实验现象:高精度操作环节(眼镜折叠、拉链开合)是任务成败的关键,这类场景需要亚厘米级定位与稳定的双臂力耦合。未经过UMI预训练的模型在关键步骤精度不足,局部误差逐级放大导致任务失败;加入UMI预训练后,模型在精细动作节点的预测精度显著提升,整体任务成功率同步上涨。这证明大规模高精度UMI预训练的核心价值,是强化模型在操作瓶颈节点的动作分布精度,且该能力可从人类演示迁移至实体机器人。

**路线B(跨本体迁移,JAKA K1、Astribot S1)** :仅使用UMI数据微调,不使用目标机器人任何遥操作数据,直接部署测试。任务包括:JAKA K1收纳小发圈、Astribot S1人形机器人桌面纸杯清理。

实验结论:在无目标机器人数据的前提下,HyVLA-0.5 相比对照组模型成功率提升显著。证明大规模高精度UMI预训练让模型学习到与机器人本体无关的通用动作先验,仅依靠少量UMI任务数据微调,即可在全新形态机器人上实现可用性能。

图片

**力感知模态验证(Unitree G1)** :UMI采集设备可记录指尖力/力矩信号,本文基于该数据实现力感知操作。在动作专家基础上新增两个轻量化时序卷积网络(TCN)编码器与多层感知机(MLP)投影层(新增参数量约200万),编码双手各50步力/力矩窗口特征。任务为区分两个不同重量的盒子,将轻盒子放入收纳篮。物体位置随机打乱,仅依靠空间记忆无法完成任务,模型必须通过抓取阶段的力信号判别重量。实验中模型可稳定完成判别任务,证明UMI设备采集的触觉信号可有效用于力感知策略学习。

6.3 机器人强化学习后训练实验

FlowPRO实验全部基于Dobot X-Trainer双臂机器人,选取四项长时序精细操作任务:瓶子装配、笔帽组装、USB插入、拉链开合。所有模型均基于同一套SFT权重初始化,统一执行3轮迭代后训练,数据采集总量保持一致。每组实验设置3个随机种子,每个种子下随机初始化100次运行统计成功率(SR)与平均完成时长(CT)。

图片

对照组选取两类主流方案:DAgger(仅使用正样本的数据集聚合算法)、(基于优劣成对样本、将偏好信息作为条件token的回归方案)。

图片

**实验结论** :

1. 对比DAgger:DAgger仅利用正样本,RPRO同时利用正负样本做对比学习,从失败轨迹中提取负向约束,有效规避常见错误动作,全任务成功率更高。
2. 对比:两者使用完全相同的成对偏好数据,但将偏好信息作为附加条件token,信号易被VLM上下文稀释;RPRO将偏好约束直接嵌入动作生成损失,逐状态、逐动作块优化,效果更优。
<figure><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/Kltic3d4ibvZ8y854PUeS89OtzbtF8ccicpPa9ARib9NVxzmwtCVrvukbo30QpVMdIDnNddwDMvP9wjlkBpzAlJpRpln5BtnicicpeOy7osvBdJaw/640?wx_fmt=png&amp;from=appmsg&amp;watermark=1#imgIndex=13" alt="图片"></figure>

综合来看,FlowPRO(RPRO)在所有任务中均实现最高成功率与最短执行时长,机器人运行稳定性与执行效率同步提升。迭代过程曲线也表明,每一轮迭代后RPRO性能均显著领先另外两组基线。

7 相关工作

通用VLA模型

早期VLA方案将机器人控制拆解为离散token,基于自回归解码器实现,典型代表为RT-2、OpenVLA。这类方案可迁移通用视觉语言先验,但离散动作天然限制控制频率与精度。摒弃离散动作空间,采用Flow Matching速度场建模,实现50Hz高频连续控制。后续多款模型陆续推出:Gemini Robotics将大模型推理能力融入物理控制;GR00T N1面向Humanoid机器人推出开源基础模型;拓展Flow Matching方案的开放场景泛化能力。

本文HyVLA-0.5 全程基于连续Flow Matching范式;区别于、,本方案采用原生具身混合Transformer主干网络、依托10000小时大规模UMI数据预训练,并配套专属部署方案,实现无目标机器人数据的跨本体迁移。

具身VLM主干网络

绝大多数现有VLA依赖Qwen-VL、PaliGemma等通用VLM。近期面向操作任务的专属具身VLM逐步兴起,如RoboBrain、RynnBrain、Hy-Embodied-0.5,这类模型针对精细视觉感知做专项优化。Hy-Embodied-0.5 此前已基于5000小时UMI数据完成小规模验证,本文将数据规模扩充至10000小时,引入相对末端执行器动作表示适配Humanoid机器人,并新增FlowPRO RL后训练,将能力拓展至全新形态机器人。

VLA预训练与后训练范式

主流多本体预训练方案大多基于开源机器人遥操作数据集(Open-X-Embodiment、DROID等)。而HyVLA-0.5 核心预训练数据为以人为中心的UMI演示数据,整套动作专家仅基于单一Flow Matching损失优化。

手持设备演示与UMI

UMI率先实现脱离机器人真机、依靠手持设备采集跨本体演示数据。后续DexUMI、EgoMI、HoMMI等工作不断拓展UMI的适用场景,支持全身动作、移动机器人数据采集。本文将UMI数据规模提升至10000小时,并验证仅依靠UMI数据即可实现向Humanoid机器人的跨本体迁移,全程无需目标机器人遥操作数据。

连续控制中的偏好后训练

实体机器人VLA后训练主要分为三类,各有局限:

1. SFT与DAgger:仅利用人工修正样本,无法挖掘模型自主rollout产生的失败信号;
2. 基于奖励/价值的RL:需要设计复杂奖励函数、训练评价器,接触类操作任务落地难度大;
3. 偏好类RL:DPO等算法无需奖励函数,但原生面向离散文本任务;Flow-DPO、GRAPE等拓展至Flow Matching VLA后,仍存在奖励投机问题。

本文FlowPRO算法完全无需评价器与奖励函数;同时引入近端正则项解决传统Flow-DPO的奖励投机缺陷,结合对比梯度抵消特性,可安全混合SFT样本联合训练。

异步推理与动作块平滑

Action Chunking已成为VLA主流部署方案,但易出现块内抖动、块间轨迹断裂、推理时延导致机器人空闲等问题。现有方案多通过新增精炼模块、自适应调整块大小优化。本文方案无需额外训练,即插即用,通过切线对齐三次贝塞尔曲线严格保证轨迹连续,同时兼容笛卡尔空间与关节空间控制。

8 讨论

HyVLA-0.5 全栈体系解读

HyVLA-0.5 并未将VLA模型作为独立模块优化,而是围绕可落地通用机器人目标,完成数据、表征、策略优化、执行部署的协同设计。跨本体部署能力依赖整套链路协同:高精度UMI数据提供通用精细操作先验;轻量化记忆编码器与增量动作块表示提取时空上下文,同时保证动作接口与机器人运动学解耦;FlowPRO利用真实场景失败样本完成轻量化离线迭代,无需大规模在线探索;异步推理与轨迹平滑算法解决真实硬件时延问题。

各模块分别解决数据质量、动作表征、失败样本利用、运行时延四大瓶颈,核心思路为:保留统一稳定的模型输出接口,将机器人本体相关差异全部交由部署层处理。整套方案将单一模型升级为面向跨本体部署的工程化机器人学习全栈。

未来工作方向

1. **数据层面** :在保留高精度标签的前提下,摆脱光学动作捕捉设备限制,外骨骼式采集设备是可行方向;基于现有高精度数据集,研究标签噪声对预训练效果的影响;针对UMI第一视角与机器人机载相机的视觉差异,开展系统性数据增广研究。项目后续将开源2000小时UMI子集,供社区开展相关研究。
2. **执行效率** :在保证精度与安全性的前提下,提升部署阶段运行速度,结合RL与部署端自适应优化,进一步提升机器人作业效率。
3. **具身智能泛化能力** :当前数据规模尚不足以支撑严格的零样本泛化测试,后续将依托更大规模数据与优化pipeline,探索模型涌现能力,并建立标准化评测体系评估具身智能水平。

References

参照原文

阅读原文

继续滑动看下一个

human five

向上滑动看下一个

相关动态

MolmoAct:可在空间中进行推理的动作推理模型 - 知乎 2026-06-30 zhuanlan MolmoAct:可进行空间推理的动作推理模型 - 知乎 2026-06-30 zhuanlan MolmoSpaces:用于机器人导航与操控的大规模开放生态系统 2026-06-30 huggingface 具身智能2025之问:新物种时代,人形机器人如何长大? 2026-06-30 thepaper 工业和信息化部办公厅 国务院国资委办公厅关于联合开展 ... 2026-06-30 miit 推动人形机器人与具身智能在真实环境常态化部署应用,两 ... 2026-06-30 thepaper