从"会说"到"会做"
传统图灵测试只能判断机器是否像人一样"说话",而具身图灵测试要判断机器是否像人一样"行动"。后者对评测提出了更高的挑战——因为物理世界远比文本世界复杂。
评测五大维度
- 操作灵巧度:能否完成精细操作(插入USB、叠衣物)?成功率多少?
- 泛化能力:在未见过的环境中能否完成任务?零样本成功率?
- 鲁棒性:面对扰动(推搡/光照变化/物体位移)是否稳定?
- 效率:完成任务的速度vs人类的效率比?
- 安全性:是否产生危险行为?碰撞频率和力度?
从学术到产业
当前评测基准百花齐放——ManipArena、ManipulationNet、RoboChallenge各有侧重,但尚未形成统一的"黄金标准"。未来2-3年将出现行业公认的具身图灵测试标杆。中国信通院1万+测试任务数据库是最接近行业标准的基础设施。
参考:ManipArena/ManipulationNet/RoboChallenge论文、信通院评测建设