李飞飞：空间智能——通往AGI的必由之路

日期：2025-11-15 13:50:31 / 人气：24

“它们如同身处暗室的文字巨匠——能言善辩却缺乏经验，知识渊博却脱离现实。”当“AI教母”李飞飞用这句话定义当下的大语言模型（LLM）时，精准点出了AI发展的核心困境：尽管LLM能写诗、画画、生成视频，却无法理解杯子旋转90度后的形态，也无法让虚拟人遵守物理定律。在她看来，AI要迈向通用人工智能（AGI），突破口不在于更大的语言模型，而在于赋予机器人类与生俱来的“空间智能”——这是通往AGI的唯一路径。

一、AI的“睁眼瞎”困境：脱离物理世界的智能空谈

当前AI的局限性在“物理交互”场景中暴露无遗：让AI写一首诗易如反掌，但让它解答“迷宫出口在哪”“桌子到门的距离多少”这类基础空间问题，答案基本靠“蒙”。即便是看似炫酷的AI生成视频，也常出现“手多一根手指”“物体穿墙而过”的穿帮镜头。李飞飞指出，根源在于AI“不懂物理世界”——它们无法真正理解距离、大小、方向和物理规律。

这种局限导致AI在关键领域进展缓慢：没有能流畅做家务的家庭机器人，药物研发、新材料发现等需3D结构理解的领域突破有限，甚至无法共情建筑师、游戏设计师脑中的“空间构想”。李飞飞直言，我们对AI的期待是科幻电影中的全能管家，现实却是“活在文字暗室里的智能”。

二、空间智能：人类认知的“脚手架”与文明进步的密码

何为空间智能？李飞飞将其定义为人类认知的“脚手架”——早在学会说话写字前，婴儿就通过抓、扔、咬等动作理解世界；成年人侧方停车时计算距离、半夜摸黑倒水时精准定位，靠的都是空间智能。它不仅是日常互动的基础，更是想象力与创造力的源泉。

人类文明的重大突破也离不开空间智能：古希腊埃拉托斯特尼通过观察两地影子角度计算地球周长；哈格里夫斯靠“多纺锤并排”的空间洞察发明珍妮纺纱机；沃森和克里克通过搭建3D分子模型破解DNA双螺旋结构。李飞飞强调，空间智能是人类与世界互动、推动文明进步的核心能力，而当下的AI恰恰缺失这一“认知基石”。

三、破局路径：从“语言模型”到“三位一体”的世界模型

要让AI拥有空间智能，李飞飞提出需构建全新的“世界模型”（World Models），而非停留在语言模型的迭代。她将世界模型的核心能力定义为“三位一体”：

- 生成性：能创造符合物理、几何规律的3D世界，理解重力、水流等基础物理现象，确保生成内容的空间一致性。

- 多模态：可处理文本、图片、视频、深度信息、手势等多种输入，实现“听懂语言+看懂场景+理解动作”的综合感知。

- 交互性：能根据输入动作预测“下一秒世界状态”，如“推积木”时知道积木会倾倒，这是机器与世界互动的关键。

李飞飞坦言，构建世界模型的难度远超训练LLM：语言是一维序列化信号，而世界是“三维空间+时间”的四维存在，受重力、物理定律等无数规则约束。为此，她于2024年初联合创立World Labs，并推出首个世界模型Marble，尝试攻克这一难题。

四、空间智能的革命：重塑创造力、机器人与科学边界

一旦AI掌握空间智能，将引发多领域颠覆性变革：

1. 创造力“超进化”

电影制作人、游戏设计师无需学习复杂3D软件，仅用语言描述就能生成可走进、可交互的3D世界。World Labs的Marble模型已能让创作者快速迭代虚拟场景，未来“人人皆可当造物主”，叙事方式将突破媒介限制，实现“文字-图像-3D世界”的自由转换。

2. 具身智能落地

机器人将摆脱“笨手笨脚”的现状，在世界模型模拟环境中学会数千种实用技能，进而走进家庭、医院，成为精准的护理助手或实验室搭档。无论是帮老人做饭，还是协助科学家操作仪器，都能实现“理解场景+预判动作”的流畅互动。

3. 科学与教育加速

医疗领域，AI可模拟分子间多维互动，加速药物研发；教育领域，学生能“走进”古罗马街道或细胞内部，实现沉浸式学习；科研领域，通过模拟深海、外太空等极端环境，人类探索边界将大幅拓展。

五、结语：AI的终极目标是“为人类赋能”

作为现代AI的开创者之一，李飞飞始终强调AI的人文关怀：“AI的终极目标不是取代人类，而是增强人类专长、加速人类发现、放大人类关怀。”空间智能的价值，正在于构建“与真实世界高度契合的机器”，让其成为应对重大挑战的伙伴。

从ImageNet数据集奠定现代计算机视觉基础，到如今推动空间智能研究，李飞飞的探索始终围绕“让AI更懂世界”。在她看来，机器的真正智能，将从“跨越语言、构筑世界”开始——这不仅是AI的下一个前沿，更是人类与智能机器共生的新起点。

作者：耀世娱乐

李飞飞：空间智能——通往AGI的必由之路

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →