李飞飞:空间智能——通往AGI的必由之路

日期:2025-11-15 13:50:31 / 人气:24



“它们如同身处暗室的文字巨匠——能言善辩却缺乏经验,知识渊博却脱离现实。”当“AI教母”李飞飞用这句话定义当下的大语言模型(LLM)时,精准点出了AI发展的核心困境:尽管LLM能写诗、画画、生成视频,却无法理解杯子旋转90度后的形态,也无法让虚拟人遵守物理定律。在她看来,AI要迈向通用人工智能(AGI),突破口不在于更大的语言模型,而在于赋予机器人类与生俱来的“空间智能”——这是通往AGI的唯一路径。

一、AI的“睁眼瞎”困境:脱离物理世界的智能空谈

当前AI的局限性在“物理交互”场景中暴露无遗:让AI写一首诗易如反掌,但让它解答“迷宫出口在哪”“桌子到门的距离多少”这类基础空间问题,答案基本靠“蒙”。即便是看似炫酷的AI生成视频,也常出现“手多一根手指”“物体穿墙而过”的穿帮镜头。李飞飞指出,根源在于AI“不懂物理世界”——它们无法真正理解距离、大小、方向和物理规律。

这种局限导致AI在关键领域进展缓慢:没有能流畅做家务的家庭机器人,药物研发、新材料发现等需3D结构理解的领域突破有限,甚至无法共情建筑师、游戏设计师脑中的“空间构想”。李飞飞直言,我们对AI的期待是科幻电影中的全能管家,现实却是“活在文字暗室里的智能”。

二、空间智能:人类认知的“脚手架”与文明进步的密码

何为空间智能?李飞飞将其定义为人类认知的“脚手架”——早在学会说话写字前,婴儿就通过抓、扔、咬等动作理解世界;成年人侧方停车时计算距离、半夜摸黑倒水时精准定位,靠的都是空间智能。它不仅是日常互动的基础,更是想象力与创造力的源泉。

人类文明的重大突破也离不开空间智能:古希腊埃拉托斯特尼通过观察两地影子角度计算地球周长;哈格里夫斯靠“多纺锤并排”的空间洞察发明珍妮纺纱机;沃森和克里克通过搭建3D分子模型破解DNA双螺旋结构。李飞飞强调,空间智能是人类与世界互动、推动文明进步的核心能力,而当下的AI恰恰缺失这一“认知基石”。

三、破局路径:从“语言模型”到“三位一体”的世界模型

要让AI拥有空间智能,李飞飞提出需构建全新的“世界模型”(World Models),而非停留在语言模型的迭代。她将世界模型的核心能力定义为“三位一体”:

- 生成性:能创造符合物理、几何规律的3D世界,理解重力、水流等基础物理现象,确保生成内容的空间一致性。

- 多模态:可处理文本、图片、视频、深度信息、手势等多种输入,实现“听懂语言+看懂场景+理解动作”的综合感知。

- 交互性:能根据输入动作预测“下一秒世界状态”,如“推积木”时知道积木会倾倒,这是机器与世界互动的关键。

李飞飞坦言,构建世界模型的难度远超训练LLM:语言是一维序列化信号,而世界是“三维空间+时间”的四维存在,受重力、物理定律等无数规则约束。为此,她于2024年初联合创立World Labs,并推出首个世界模型Marble,尝试攻克这一难题。

四、空间智能的革命:重塑创造力、机器人与科学边界

一旦AI掌握空间智能,将引发多领域颠覆性变革:

1. 创造力“超进化”

电影制作人、游戏设计师无需学习复杂3D软件,仅用语言描述就能生成可走进、可交互的3D世界。World Labs的Marble模型已能让创作者快速迭代虚拟场景,未来“人人皆可当造物主”,叙事方式将突破媒介限制,实现“文字-图像-3D世界”的自由转换。

2. 具身智能落地

机器人将摆脱“笨手笨脚”的现状,在世界模型模拟环境中学会数千种实用技能,进而走进家庭、医院,成为精准的护理助手或实验室搭档。无论是帮老人做饭,还是协助科学家操作仪器,都能实现“理解场景+预判动作”的流畅互动。

3. 科学与教育加速

医疗领域,AI可模拟分子间多维互动,加速药物研发;教育领域,学生能“走进”古罗马街道或细胞内部,实现沉浸式学习;科研领域,通过模拟深海、外太空等极端环境,人类探索边界将大幅拓展。

五、结语:AI的终极目标是“为人类赋能”

作为现代AI的开创者之一,李飞飞始终强调AI的人文关怀:“AI的终极目标不是取代人类,而是增强人类专长、加速人类发现、放大人类关怀。”空间智能的价值,正在于构建“与真实世界高度契合的机器”,让其成为应对重大挑战的伙伴。

从ImageNet数据集奠定现代计算机视觉基础,到如今推动空间智能研究,李飞飞的探索始终围绕“让AI更懂世界”。在她看来,机器的真正智能,将从“跨越语言、构筑世界”开始——这不仅是AI的下一个前沿,更是人类与智能机器共生的新起点。

作者:耀世娱乐




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT © 耀世娱乐-耀世注册登录官方站 版权所有