李飞飞 | Jim Fan | Yuke Zhu等大佬署名，Sharpa携手英伟达，再爆重大进展！ — 具身动态

温馨提示： *扫描文末二维码， 加入知识星球， 免费下载2900+行业报告（包含海外投行报告）； *企业广告、推文宣传 *和研究咨询合作请联系16620948826（同微信）。*

T-Rex：由UC Berkeley、NVIDIA、Standford等高校和机构联合发布（一作为EgoScale二作Dangtong Niu；李飞飞，Jim Fan、Yuke Zhu等大佬署名，Trevor Darrell尾作），针对机器人基础模型长期存在的触觉盲区，T-Rex使用Sharpa Wave灵巧手提出了一套【视觉-触觉协同的灵巧操作方案】

在模型架构上引入高频触觉反馈模块，使机器人能在接触、滑动和形变发生时实时微调动作；在训练数据上构建覆盖抓取、插入、旋拧、按压等交互模式的触觉遥操作数据；在真实任务中验证其在力控、形变和复合接触场景下的稳定性。该成果为构建具备“手感”的下一代机器人基础模型提供了重要路径。

官网介绍：https://tactile-rex.github.io/

archive link：https://arxiv.org/abs/2606.17055

摘要：对触觉信号做出动态反应的能力一直被认为是实现敏捷的人类级灵巧性的关键。然而，目前基于学习的机器人操作视觉语言动作（VLA）系统通常要么忽略触觉模态，要么仅限于使用静态线索的编码器，部分原因是缺乏多样化的训练数据和标准化评估方法、现有VLA模型的架构限制以及静态触觉编码器的局限性。本文旨在突破触觉反应操作的局限，解决上述所有限制。我们提出了一种大规模、时长100小时的触觉丰富数据集，该数据集通过一种新颖的、数据高效的算法收集，该算法优先考虑基本运动基元。为了在不牺牲现有VLA系统功能的前提下有效利用自然的高频触觉信号，我们引入了一种可变速率混合Transformer（MoT）架构，并配备了一种新型的时序触觉VQ-VAE编码器。我们证明了触觉反应策略在 12 项需要精细力控制和可变形物体操作的操作任务中的有效性，其平均成功率比最强的基线高出 30% 以上。

T-Rex 是一个触觉反应灵巧操作框架，它结合了大规模的以人为中心的预训练和基于触觉的机器人中期训练。T-Rex 模型基于Transformer-Experts 混合架构 (MoT)，集成了低频视觉运动规划和高频触觉精细化，并采用了时空触觉编码器。T-Rex 数据集包含 100 小时的真实机器人数据，其中包含各种运动基元和与同步触觉信号的物体交互，以及 12 个操作任务。

需要解决的三个问题。现有视觉语言动作模型主要依赖图像和语言生成机器人动作，在接触密集型任务中存在三项不足。

第一，触觉数据规模有限。高自由度双手遥操作采集成本较高，难以获得与视觉数据同等规模的训练数据。

第二，视觉与触觉存在频率差异。视觉语言模型计算量较大，通常以较低频率运行；触觉反馈则需要更快的响应速度。

第三，静态触觉编码能力有限。单帧力信号只能反映某一时刻的受力，难以识别压力上升、接触建立、物体滑移和局部形变等动态过程。

T-Rex的核心目标，是在不破坏已有VLA模型视觉理解和动作生成能力的前提下，使触觉真正进入高频闭环控制。

核心创新1：面向动作原语构建100小时触觉数据集。T-Rex数据集包含100小时双手遥操作数据、7755段轨迹、200余种日常物体和22类动作原语。与围绕少数固定任务反复采集不同，数据集按照物体与动作原语的组合进行组织，覆盖闭合、剥离、包裹、折叠、擦拭、挤压、插入和抽取等接触行为。每段数据同步记录头部及腕部图像、机器人状态、动作、自然语言指令，以及十个指尖的力／力矩和形变深度图。通过学习基础接触动作，模型可以在较少目标任务数据下适配新的物体和任务。

核心创新2：以不同频率运行三类Transformer专家。T-Rex采用Transformer专家混合架构，包括潜在表征专家、动作专家和触觉专家。潜在表征专家负责预测未来视觉表征；动作专家约以5 Hz运行，负责视觉驱动的低频动作规划；触觉专家约以20 Hz运行，根据实时触觉反馈快速修正动作。模型将10步动作去噪过程拆分为两个阶段。动作专家先执行6步，形成具有视觉运动结构的中间动作；触觉专家再执行4步，根据最新触觉信息完成精细修正。触觉专家可以复用已经缓存的视觉和语言上下文，不需要在每次触觉变化时重新运行完整视觉模型，从而兼顾全局任务规划与高频接触控制。

核心创新3：同时编码力的时间变化与接触面的空间形变。T-Rex的触觉编码器包含三类信息：连续16帧的历史力信号、当前时刻的瞬时力，以及指尖形变深度图。历史力信号通过VQ-VAE压缩为离散触觉表示，用于识别压力变化、滑移和接触状态转换；当前力信号保留瞬时受力信息；卷积编码器则提取接触面积、位置和局部形变等空间特征。这种设计使模型不仅能够判断“当前用了多大力”，还可以判断“力正在怎样变化”以及“接触发生在什么位置”。

三阶段训练方法。T-Rex首先在22,889小时人类第一视角视频上进行预训练，学习日常物体语义、手部运动规律和通用视觉运动先验。随后，模型使用100小时同步触觉机器人数据进行中训练，将人类视频中的动作知识映射到机器人可执行的接触动力学，并训练高频触觉专家。对于复杂下游任务，再使用约100段任务示范进行后训练。人类视频负责建立通用先验，机器人触觉数据负责学习物理接触，少量任务数据负责完成具体技能适配。

实验结果。实验平台为Dexmate Vega-1双臂机器人，配置两只22自由度Sharpa Wave灵巧手、一路头部相机、两路腕部相机及十个指尖触觉传感器。评测覆盖翻页、转移鸡蛋、擦拭盘子、挤牙膏、分离杯子、麻将分类、开锁、补充药盒、酸碱中和、抽取卡片、发牌和拧灯泡12项任务。

T-Rex平均成功率达到65%，最强基线EgoScale为35%，π0.5为17%，Tactile-VLA为15%。其中，翻页成功率达到96%，分离杯子为78%，转移鸡蛋为75%，抽取卡片为70%。