两条通往灵巧的道路
如何让机器人学会复杂操作?业界有两条截然不同的路:
模仿学习(Imitation Learning)
核心思想:人类演示→模型学习→机器人复现
- 人类通过遥操作设备演示任务(如拿起杯子倒水),系统记录(观测→动作)数据对
- 神经网络学习从观测到动作的映射函数
- 部署时,给定新的观测,模型直接输出动作
优势:样本效率高(几十到几百次演示即可)、行为自然、安全可控
劣势:只能学会演示中的行为,无法超越人类、数据收集成本高
强化学习(Reinforcement Learning)
核心思想:智能体尝试动作→环境反馈奖励→优化策略→重复
- 机器人随机尝试动作,成功(如抓起物体)获得正奖励,失败(如掉落)获得负奖励
- 通过数百万次试错,学习最大化累计奖励的策略
优势:可能发现人类未知的"更优解"、可处理高维连续动作空间
劣势:样本效率极低(百万到亿级交互)、真实环境试错危险且昂贵
混合方案:当前主流实践
- IL→RL:先通过遥操作收集几百次人类演示进行模仿学习预训练,再在仿真中用RL微调——兼顾样本效率和性能上限
- RL from Human Feedback(RLHF):将ChatGPT的成功经验引入机器人——人类对机器人行为打分,RL以此信号优化
- Interactive IL:人类实时纠正机器人的错误动作,机器人从纠正中学习
OpenAI的教训
OpenAI的Dactyl机械手拼魔方项目是RL在具身智能中投入最大的实验之一:使用了约2500万美元的计算资源进行大规模并行仿真RL训练。虽然最终成功,但这一成本令大多数创业公司望而却步。这也促使行业重新审视模仿学习+仿真RL混合路线的实用价值。
参考:OpenAI Dactyl论文、Stanford ALOHA项目、ICRA 2026 IL vs RL Debate