李飞飞的下一盘大棋
2024年TED演讲中,李飞飞提出了"空间智能"概念——让AI像人类一样进行3D空间推理,无需额外训练即可在真实世界中执行任务。她的初创公司估值已超10亿美元。
空间智能vs具身智能
两者有重叠但不完全相同:
- 空间智能:强调从视觉到空间认知的推理能力——"看到就能做到"
- 具身智能:强调从身体出发的感知-行动循环——"交互中学习"
关键突破
- VoxPoser(李飞飞团队):LLM+3D世界模型结合,零样本将语言指令转化为动作轨迹
- TesserAct:4D具身世界模型(空间+时间),让机器人理解物体动态演化
- 镜像视界:基于普通视频完成三维空间反演,无需激光雷达/RGB-D
纯视觉路线vs多传感器融合
空间智能主张纯视觉推理(模仿人类)——挑战传统多传感器融合路线。李飞飞认为:如果人类用两只眼睛就能完成复杂的3D操作,为什么机器人需要激光雷达+深度相机+IMU的豪华传感器套件?这场路线之争将持续,但融合可能是终局。
参考:李飞飞TED演讲、VoxPoser论文、TesserAct项目