空间智能：具身智能的下一个里程碑

国际格局更新于 2026-06-22 4 阅读

📖 李飞飞定义的空间智能让AI理解3D世界运行逻辑——无需传感器直接在真实世界执行任务。本文详解空间智能与具身智能的关系、技术路线和最新突破。

李飞飞的下一盘大棋

2024年TED演讲中，李飞飞提出了"空间智能"概念——让AI像人类一样进行3D空间推理，无需额外训练即可在真实世界中执行任务。她的初创公司估值已超10亿美元。

空间智能vs具身智能

两者有重叠但不完全相同：

空间智能：强调从视觉到空间认知的推理能力——"看到就能做到"
具身智能：强调从身体出发的感知-行动循环——"交互中学习"

关键突破

VoxPoser（李飞飞团队）：LLM+3D世界模型结合，零样本将语言指令转化为动作轨迹
TesserAct：4D具身世界模型（空间+时间），让机器人理解物体动态演化
镜像视界：基于普通视频完成三维空间反演，无需激光雷达/RGB-D

纯视觉路线vs多传感器融合

空间智能主张纯视觉推理（模仿人类）——挑战传统多传感器融合路线。李飞飞认为：如果人类用两只眼睛就能完成复杂的3D操作，为什么机器人需要激光雷达+深度相机+IMU的豪华传感器套件？这场路线之争将持续，但融合可能是终局。

参考：李飞飞TED演讲、VoxPoser论文、TesserAct项目

标签：空间智能李飞飞 3D视觉 VoxPoser TesserAct

相关专题

世界模型在具身智能中扮演什么角色？

世界模型是具身智能的'想象力引擎'——让机器人在行动前先在脑中模拟结果。本文解析世界模型的技术原理、主流方法（视频预测/3D占位/扩散模型）及其在机器人规划中的...

什么是具身智能？它与传统AI有什么本质区别？

具身智能是AI从'思考'走向'行动'的范式革命——通过身体与物理世界交互产生智能。本文详解其定义、与传统AI的五大本质区别，以及为什么具身智能被认为是通向AGI...

趋势与机遇

具身智能与AGI：是必经之路还是旁支？

中国强调具身智能是实现AGI的必要路径，西方主流认为LLM即AGI核心方向。本文详解两种路线的哲学差异和最新交锋。