


温馨提示: *扫描文末二维码, 加入知识星球, 免费下载2900+行业报告(包含海外投行报告); *企业广告、推文宣传 *和研究咨询合作请联系16620948826(同微信) 。*


T-Rex:由UC Berkeley、NVIDIA、Standford等高校和机构联合发布(一作为EgoScale二作Dangtong Niu;李飞飞,Jim Fan、Yuke Zhu等大佬署名,Trevor Darrell尾作),针对机器人基础模型长期存在的触觉盲区,T-Rex使用Sharpa Wave灵巧手提出了一套【视觉-触觉协同的灵巧操作方案】

在模型架构上引入高频触觉反馈模块,使机器人能在接触、滑动和形变发生时实时微调动作;在训练数据上构建覆盖抓取、插入、旋拧、按压等交互模式的触觉遥操作数据;在真实任务中验证其在力控、形变和复合接触场景下的稳定性。该成果为构建具备“手感”的下一代机器人基础模型提供了重要路径。
官网介绍:https://tactile-rex.github.io/
archive link:https://arxiv.org/abs/2606.17055
摘要 :对触觉信号做出动态反应的能力一直被认为是实现敏捷的人类级灵巧性的关键。然而,目前基于学习的机器人操作视觉语言动作(VLA)系统通常要么忽略触觉模态,要么仅限于使用静态线索的编码器,部分原因是缺乏多样化的训练数据和标准化评估方法、现有VLA模型的架构限制以及静态触觉编码器的局限性。本文旨在突破触觉反应操作的局限,解决上述所有限制。我们提出了一种大规模、时长100小时的触觉丰富数据集,该数据集通过一种新颖的、数据高效的算法收集,该算法优先考虑基本运动基元。为了在不牺牲现有VLA系统功能的前提下有效利用自然的高频触觉信号,我们引入了一种可变速率混合Transformer(MoT)架构,并配备了一种新型的时序触觉VQ-VAE编码器。我们证明了触觉反应策略在 12 项需要精细力控制和可变形物体操作的操作任务中的有效性,其平均成功率比最强的基线高出 30% 以上。

T-Rex 是一个触觉反应灵巧操作框架,它结合了大规模的以人为中心的预训练和基于触觉的机器人中期训练。T-Rex 模型基于Transformer-Experts 混合架构 (MoT),集成了低频视觉运动规划和高频触觉精细化,并采用了时空触觉编码器。T-Rex 数据集包含 100 小时的真实机器人数据,其中包含各种运动基元和与同步触觉信号的物体交互,以及 12 个操作任务。
需要解决的三个问题 。现有视觉语言动作模型主要依赖图像和语言生成机器人动作,在接触密集型任务中存在三项不足。
第一,触觉数据规模有限。高自由度双手遥操作采集成本较高,难以获得与视觉数据同等规模的训练数据。
第二,视觉与触觉存在频率差异。视觉语言模型计算量较大,通常以较低频率运行;触觉反馈则需要更快的响应速度。
第三,静态触觉编码能力有限。单帧力信号只能反映某一时刻的受力,难以识别压力上升、接触建立、物体滑移和局部形变等动态过程。
T-Rex的核心目标,是在不破坏已有VLA模型视觉理解和动作生成能力的前提下,使触觉真正进入高频闭环控制。
核心创新1:面向动作原语构建100小时触觉数据集 。T-Rex数据集包含100小时双手遥操作数据、7755段轨迹、200余种日常物体和22类动作原语。与围绕少数固定任务反复采集不同,数据集按照物体与动作原语的组合进行组织,覆盖闭合、剥离、包裹、折叠、擦拭、挤压、插入和抽取等接触行为。每段数据同步记录头部及腕部图像、机器人状态、动作、自然语言指令,以及十个指尖的力/力矩和形变深度图。通过学习基础接触动作,模型可以在较少目标任务数据下适配新的物体和任务。
核心创新2: 以不同频率运行三类Transformer专家 。T-Rex采用Transformer专家混合架构,包括潜在表征专家、动作专家和触觉专家。潜在表征专家负责预测未来视觉表征;动作专家约以5 Hz运行,负责视觉驱动的低频动作规划;触觉专家约以20 Hz运行,根据实时触觉反馈快速修正动作。模型将10步动作去噪过程拆分为两个阶段。动作专家先执行6步,形成具有视觉运动结构的中间动作;触觉专家再执行4步,根据最新触觉信息完成精细修正。触觉专家可以复用已经缓存的视觉和语言上下文,不需要在每次触觉变化时重新运行完整视觉模型,从而兼顾全局任务规划与高频接触控制。
核心创新3:同时编码力的时间变化与接触面的空间形变 。T-Rex的触觉编码器包含三类信息:连续16帧的历史力信号、当前时刻的瞬时力,以及指尖形变深度图。历史力信号通过VQ-VAE压缩为离散触觉表示,用于识别压力变化、滑移和接触状态转换;当前力信号保留瞬时受力信息;卷积编码器则提取接触面积、位置和局部形变等空间特征。这种设计使模型不仅能够判断“当前用了多大力”,还可以判断“力正在怎样变化”以及“接触发生在什么位置”。
三阶段训练方法 。T-Rex首先在22,889小时人类第一视角视频上进行预训练,学习日常物体语义、手部运动规律和通用视觉运动先验。随后,模型使用100小时同步触觉机器人数据进行中训练,将人类视频中的动作知识映射到机器人可执行的接触动力学,并训练高频触觉专家。对于复杂下游任务,再使用约100段任务示范进行后训练。人类视频负责建立通用先验,机器人触觉数据负责学习物理接触,少量任务数据负责完成具体技能适配。
实验结果 。实验平台为Dexmate Vega-1双臂机器人,配置两只22自由度Sharpa Wave灵巧手、一路头部相机、两路腕部相机及十个指尖触觉传感器。评测覆盖翻页、转移鸡蛋、擦拭盘子、挤牙膏、分离杯子、麻将分类、开锁、补充药盒、酸碱中和、抽取卡片、发牌和拧灯泡12项任务。
T-Rex平均成功率达到65%,最强基线EgoScale为35%,π0.5为17%,Tactile-VLA为15%。其中,翻页成功率达到96%,分离杯子为78%,转移鸡蛋为75%,抽取卡片为70%。


消融实验进一步说明:
移除触觉输入后,平均成功率由65%下降至42%;取消异步触觉修正后下降至60%;只使用空间形变或只使用力信号,均弱于时序力与形变信息的联合编码。
直接向已有VLA模型增加触觉向量并不一定有效。π0.5加入触觉信号后,平均成功率由17%下降至6%,说明触觉需要专门的表示、训练和控制架构,而不是简单拼接输入。
T-Rex仍存在精确视觉对准、多指独立协调、长时序操作和触觉硬件漂移等问题,但其验证了一条明确路线:灵巧操作模型需要将视觉规划与高频触觉控制结合,而不是只依靠更大的视觉语言模型。

T-Rex数据集统计。 左上为物体类别分布,右上为动作原语分布,下方为不同物体样本数量的长尾分布;数据集覆盖200余种日常物体和22类动作原语

T-Rex模 型架构。模型由潜在表征专家、动作专家和触觉专家组成,触觉专家复用视觉语言缓存,异步修正中 间动作

级联去噪分界步数消融。 中间位置的去噪分界效果最好;分界过早会削弱视觉运动先验,分界过晚则限制触觉修正空间。

T-Rex数据效率。 使用触觉中训练后,在仅有10至200段目标任务示范的情况下,模型均显著优于未进行中训练的版本

中训练数据集消融。 与等量任务专项数据相比,按照物体和动作原语组织的数据具有更好的后训练表现和零样本迁移能力

机器人实验平台。 Dexmate Vega-1双臂机器人配置两只Sharpa Wave灵巧手、头部及腕部相机,并通过Manus手套和VIVE设备完成遥操作采集

翻页任务关键阶段。 机器人只翻起一张纸,并将纸张压平

转移鸡蛋任务关键阶段。 机器人控制抓力,将鸡蛋从一个蛋托转移至另一个蛋托

擦拭盘子任务关键阶段。 一只手固定盘子,另一只手保持接触并清除表面污渍

挤牙膏任务关键阶段。 双手分别控制牙刷和牙膏管,完成对准和适量挤压

分离杯子任务关键阶段。 机器人固定杯组,并通过扭转和摩擦分离最上方杯子

麻将分类任务关键阶段。 机器人通过触觉判断麻将表面特征,并将其放入对应容器

开锁任务关键阶段。 机器人抓取钥匙和挂锁,完成对准、插入及旋转

补充药盒任务关键阶段。 机器人打开盒盖、放入物体并重新关闭

酸碱中和任务关键阶段。 机器人操作滴管和烧杯,完成液体吸取、滴加和摇匀

抽取卡片任务关键阶段。 机器人固定卡套并通过摩擦滑动,只抽出最上方一张卡片

发 牌任务关键阶段。 机器人完成牌堆交接、单张分离和卡槽插入

拧灯泡任务关键阶段。 机器人完成灯泡交接、螺纹对准和连续旋转,直至灯泡点亮

典型失败案例。 包括灯泡对准偏差、钥匙滑落、鸡蛋放置错误、误触盒盖、牙膏挤出过量和卡片抽取失败

12项任务性能对比。 T-Rex平均成功率为65%,较最强基线高30个百分点

触觉模态与模型架构消融。 完整模型优于移除触觉、简化触觉编码及取消异步执行的不同版本

训练方案消融。 人类视频预训练和机器人触觉中训练均能提升性能,完整三阶段方案效果最佳

模型与训练配置。 潜在表征专家和动作专家分别为14.1亿参数,触觉专家为6.2亿参数;训练使用24张NVIDIA H100 GPU


