关于ZAKER 合作
钛媒体 14分钟前

李飞飞最新发文:下一个十年,空间智能将成为人类认知的“脚手架”

1950年,艾伦图灵在计算技术尚处萌芽的时代抛出了那个穿越时空的问题:"机器能思考吗?"这个充满想象力的提问,为后来"人工智能(AI)"领域的百年探索埋下了种子。

如今,在AI技术爆发式发展的浪潮中,曾主导ImageNet项目、为现代AI奠定基石的科学家李飞飞,在投身该领域25年后给出了新的注解:真正的智能不仅存在于语言文字中,更扎根于对物理世界的空间感知与交互——空间智能,正是AI尚未攻克的下一个前沿。

作为斯坦福大学计算机视觉与机器人学习领域的深耕者,李飞飞于2024年初联合贾斯汀约翰逊、克里斯托夫拉斯纳、本米尔登霍尔创立世界实验室(WorldLabs),目标直指构建具备空间智能的"世界模型"。这一新型生成模型被寄予厚望,它将打破当前AI"能言善辩却缺乏经验"的困境,重塑创造力、具身智能与人类进步的轨迹。在这篇凝聚数十年研究思考的长文中,李飞飞系统阐释了空间智能的核心价值、技术路径与未来图景,为AI产业的下一个十年指明了方向。

核心判断:空间智能将成为人类认知的基石

要理解AI的下一站,必先回溯人类智能的源头。李飞飞指出,感知与行动构成了智能进化的核心循环,而空间智能正是这一循环的产物,是人类认知的"脚手架"——它不仅支撑着我们与物理世界的日常互动,更是想象力、创造力与文明进步的底层动力。

从进化视角看,早在语言与文明诞生前,生物便通过感知光线、纹理等原始信息与环境互动。这种生存本能驱动神经系统不断演化,形成解读世界、协调行动的复杂机制,最终塑造了人类"感知-学习-思考-行动"的完整认知闭环。这种进化烙印至今仍体现在我们生活的每一个瞬间:睡眼惺忪中无需注视便能平稳倒咖啡,消防员在坍塌建筑的烟雾中凭直觉判断安全路径,儿童在学语前通过嬉戏探索世界边界.......这些无需刻意思考的流畅互动,正是空间智能的直观体现,也是当前AI难以企及的能力。

空间智能的价值远不止于日常行动,它更是人类创造力的源泉。从古代洞穴壁画到现代电影、沉浸式电子游戏,故事讲述者始终依赖空间想象力构建虚拟世界;无论是沙滩上的沙堡还是《我的世界》中的数字建筑,空间感知都是真实与虚拟互动的基础。在商业领域,工业设计、数字孪生、机器人训练等场景,更是离不开对物体、场景及动态环境的空间模拟。

历史上,诸多定义文明的重大突破都以空间智能为核心驱动力。古希腊学者埃拉托斯特尼通过测量两地阴影角度差,精准计算出地球周长;哈格里夫斯的"珍妮纺纱机"通过优化纺锤的空间排列,将生产力提升八倍;沃森与克里克借助3D物理模型,最终破解了DNA的双螺旋结构。这些案例共同证明:当人类需要操纵物体、可视化结构、推理物理空间时,空间智能便能突破认知边界,推动文明跃迁——而这些能力,恰恰是无法仅通过文本传递的。

李飞飞强调,空间智能的本质是"整体化的世界观":它不仅包含眼前的景象,更涵盖万物在空间中的关联、意义与价值。这种能力让我们既能被动观察世界,也能主动创造世界;既支撑着具体的物理互动,也赋能抽象的逻辑推理。无论是科学家推导复杂理论,还是艺术家构思作品形态,空间智能都在暗中发挥作用,成为人类认知不可分割的一部分。

现实:距离空间智能仍然很远

尽管生成式AI已取得瞩目成就,大语言模型(LLMs)与多模态大语言模型(MLLMs)能生成连贯文本、照片级图像甚至短视频,但李飞飞直言,当前AI的空间能力仍"远不及人类",存在根本性局限。

人类之所以能够感知、决策与执行也都是依靠大脑在操控我们的躯体。对于具身智能而言,多模态模型就好像"大脑",多模态大模型的发展提供了系统性解决方案,推动机器人从"机械执行"向"自主决策"进化。

这些局限在实际应用中暴露无遗:最先进的多模态模型在估计距离、方向、物体大小,或进行"心理旋转"(从新角度重构物体)时,表现往往与随机猜测无异;它们无法自主导航迷宫、识别捷径,也难以预测简单的物理现象;

AI生成的短视频虽视觉酷炫,却常在几秒后失去时空连贯性。即便在机器人领域,尽管传感器与触觉技术取得突破,最先进的机型也仅能在高度受限的环境中完成简单操作,距离全自主交互的目标仍相去甚远。

核心问题在于——当前AI的认知模式与人类存在本质差异。李飞飞引用维特根斯坦的名言"我的语言的界限就是我的世界的界限",并补充道:"对AI而言,界限不止于语言。"现有AI系统本质上是"黑暗中的文字匠"——它们擅长处理文本序列与二维图像,却无法构建对物理世界的整体认知。人类的世界观是融合了几何、物理、动态与语义的有机整体,而AI的认知仍停留在"描述"层面,缺乏"想象、推理、创造与互动"的能力。

技术路径:世界模型才是空间智能的"解"

面对错综复杂的问题,如何让AI具备空间智能?李飞飞给出的答案是"世界模型"——一种能理解、推理、生成与交互复杂世界(无论虚拟还是真实)的新型生成模型。与当前LLMs专注于文本序列不同,世界模型以"还原世界本质规律"为目标,其能力边界远超现有AI系统。这一领域尚处萌芽阶段,但李飞飞明确了其三大核心能力定义,为技术研发提供了清晰框架。

李飞飞表示,世界模型是一种新型生成式模型,其目标是赋予机器超越现有大型语言模型的理解、推理、生成以及与复杂世界互动的能力,无论是虚拟世界还是现实世界。

世界模型具备三大核心能力:

一是生成能力,能够依据语义或感知指令生成具有感知、几何和物理一致性的模拟世界,且能保持与先前世界状态的连贯性。这些模拟世界可基于真实或虚拟空间构建,需遵循几何、物理和动态规律。

二是多模态能力,可处理多种形式的输入,如图像、视频、文本指令、手势等,并据此预测或生成尽可能完整的世界状态,实现与人类及其他智能体的多样化交互。

三是交互能力,根据输入的动作和目标状态,输出与之相应的新世界状态,甚至预测出符合期望的下一个动作。

随着技术成熟,世界模型的交互能力将进一步升级:不仅能预测"下一状态",还能基于新状态主动推荐"下一步动作"。这种"动作-状态-动作"的闭环响应,正是机器人自主决策、虚拟世界沉浸式交互的关键。李飞飞指出,交互能力的本质是"理解因果关系"——模型需从海量数据中学习动作与结果的关联,掌握世界运行的底层逻辑。

值得关注的是,世界实验室已向有限用户展示了首个成果"Marble"(这是首个可通过多模态输入提示,生成并维持一致3D环境的世界模型)。创作者可通过它快速构建可探索、可交互的3D世界,加速创意流程。李飞飞透露,团队正全力推进技术优化,计划尽快向公众开放这一工具,让空间智能能力惠及更多创作者。

应用前景:空间智能将重塑人类生活方式与能力边界

技术的价值最终体现在应用落地。李飞飞在长文中指出,空间智能主要有三个方面的应用场景,在这些场景中,空间智能的应用将重塑人类的生活方式与能力边界。

创意领域:重构叙事与设计的创作范式。

"创造力是智慧的游戏。"爱因斯坦的名言恰是空间智能在创意领域价值的写照。李飞飞认为,空间智能将以全新维度变革故事叙述与体验创造,打破传统媒介边界,让创意表达更高效、更自由。比如,在设计领域,空间智能将大幅提升迭代效率。建筑师可快速可视化未建成的建筑结构,在虚拟空间中模拟人类生活、工作与聚集的场景;工业与时尚设计师能即刻将创意转化为3D形态,直观探索物体与人体的互动效果。这种"所想即所得"的设计模式,将大幅降低创意落地的时间与成本门槛。

机器人领域:实现具身智能的实用化。

具备空间智能的机器人是该领域自诞生起的梦想,而世界模型将成为实现这一梦想的关键。李飞飞指出,机器人技术将因空间智能的发展而实现质的飞跃,从简单的工具转型为人类的智能伙伴与合作者。在训练数据获取方面,世界模型能够通过模拟生成海量多样化的环境和交互场景,弥补现实世界中训练数据的不足,加速机器人的学习过程。未来,机器人将在众多领域发挥重要作用。在实验室中,它们可以协助科学家处理实验仪器,让科学家专注于复杂的推理与分析任务;在家庭环境中,机器人将成为老年人和行动不便者的得力助手,帮助他们完成家务劳动,同时尊重他们的自主性和生活方式。这些具备空间智能的机器人能够精准感知环境、合理规划行动路径并灵活执行任务,与人类和谐共处。

科学、医疗与教育:解锁长期社会价值。

在更长远的未来,空间智能将在关乎人类福祉的关键领域引发深层次变革,成为加速发现、拯救生命的重要力量。

在科学研究领域,空间智能系统将为气候科学、材料研究等学科带来强大助力。它们能够模拟复杂的实验场景,同时运行多个假设测试,并探索人类难以直接涉足的极端环境,如深海、外太空等。通过整合多维模拟与现实数据采集,科研人员可以突破计算资源限制,更深入地观察和理解自然现象,加速科学发现的步伐。

在医疗领域,空间智能的应用贯穿从实验室到病床的全链条。在药物研发中,人工智能可对分子相互作用进行多维度模拟,大幅缩短研发周期、降低研发成本;医学影像诊断中,空间智能辅助放射科医生更精准地识别病变特征,提高诊断准确率;在患者护理领域,空间智能驱动的监测系统能够实时关注患者状况,为医护人员提供决策支持,同时尊重患者的人文关怀需求。机器人还将在医疗场景中扮演重要角色,协助医护人员完成手术、康复训练等任务,提升医疗服务质量和效率。

在教育领域,空间智能将实现"沉浸式学习"的普及。抽象的科学概念(如细胞机制)、复杂的历史事件,都可通过3D虚拟场景具象化,让学生"身临其境"地探索;教师可借助交互环境实现个性化教学,适配不同学生的学习节奏;专业人士(如外科医生、工程师)能在安全的模拟环境中反复练习复杂技能,降低实践风险。在AI快速迭代的时代,这种高效的学习与再技能模式,对儿童与成人都至关重要。

愿景:站在智能革命的新起点

七十五年前,图灵的提问开启了人工智能的探索之旅;如今,李飞飞与世界实验室正引领AI迈向新的前沿。空间智能的探索,不仅是技术层面的突破,更是对"智能本质"的重新思考——真正的智能,不仅在于理解语言,更在于理解世界;不仅在于描述现实,更在于创造未来。

"没有空间智能,我们对真正智能机器的梦想将不完整。"李飞飞以这句话收尾,既是对过往研究的总结,也是对未来的期许。在AI发展的下一个十年,空间智能将成为核心赛道,世界模型将重塑技术格局,而人类与AI的关系,也将在"增强而非取代"的准则下,迈向更和谐、更具生产力的新阶段。

正如ImageNet开启了现代AI的时代,世界模型或许将引领人类进入"智能普惠"的新纪元——在这个时代,AI不再是实验室里的尖端技术,而是融入生活、赋能每个人的强大工具,让创造力、探索欲与关怀心成为人类最核心的竞争力。

以下为原文,经翻译:

空间智能:人工智能的下一个前沿

1950年,当计算技术还停留在自动化算术和简单逻辑阶段时,艾伦·图灵提出了一个至今仍回响的问题:机器能思考吗?他展现出非凡的想象力——预见有一天,智能或许可以被"制造"而非"天生"。这一洞见后来催生了名为"人工智能(AI)"的不懈科学探索。在我投身AI领域的第25个年头,我依然为图灵的愿景所鼓舞。但我们究竟离目标有多近?答案并不简单。

如今,以大语言模型(LLMs)为代表的前沿AI技术已开始改变我们获取和处理抽象知识的方式。但它们仍是"黑暗中的文字匠"——能言善辩却缺乏经验,知识渊博却不接地气。空间智能将彻底改变我们创造与交互真实及虚拟世界的方式,革新故事叙述、创意设计、机器人技术、科学发现等领域。这是AI的下一个前沿。

自进入AI领域起,追求视觉与空间智能便如北极星般指引着我。正因如此,我耗费数年构建了ImageNet——首个大规模视觉学习与基准数据集,它与神经网络算法、图形处理器(GPU)等现代计算技术共同成为现代AI诞生的三大基石。正因如此,我在斯坦福的学术实验室过去十年深耕计算机视觉与机器人学习的融合。也正因如此,一年多前,我与联合创始人贾斯汀·约翰逊(JustinJohnson)、克里斯托夫·拉斯纳(ChristophLassner)、本·米尔登霍尔(BenMildenhall)共同创立了世界实验室(WorldLabs):首次全面实现这一可能。

在本文中,我将阐释何为空间智能、为何它至关重要,以及我们如何构建解锁这一能力所需的"世界模型"——其影响将重塑创造力、具身智能与人类进步。

空间智能:人类认知的脚手架

人工智能从未如此令人兴奋。生成式AI模型(如LLMs)已从实验室走向日常生活,成为数十亿人创造力、生产力与沟通的工具。它们展现了曾被视作不可能的能力:生成连贯文本、海量代码、照片级真实图像,甚至短视频片段。如今,AI改变世界已不再是问题——按任何合理定义,它早已在改变。

但仍有太多能力遥不可及。全自主机器人的愿景虽引人入胜,却仍停留在推测阶段,远未成为未来主义者承诺的日常存在。加速疾病分类、新材料发现、粒子物理研究等领域的梦想,大多仍未实现。而真正理解并赋能人类创作者的AI——无论是学习复杂分子化学概念的学生、可视化空间的建筑师、构建虚拟世界的电影制作人,还是寻求完全沉浸式虚拟体验的普通人——依然触不可及。

要理解这些能力为何难以企及,我们需要回溯空间智能的演化,以及它如何塑造我们对世界的认知。

视觉长期是智能的核心,但它的力量源于更根本的能力。早在动物学会筑巢、养育后代、用语言交流或建立文明之前,感知外部世界这一简单行为,便悄然开启了通向智能的进化之旅。

这种从外界获取信息的原始能力——无论是微弱的光线还是纹理的触感——在代代相传中强化并扩展了感知与生存的联系。一层又一层神经元由此生长,形成神经系统,解读世界并协调生物与环境互动。因此,许多科学家推测,感知与行动构成了智能进化的核心循环,也是自然创造我们这个终极"感知-学习-思考-行动"物种的基础。

空间智能对我们与物理世界的互动至关重要。每天,我们依赖它完成最普通的动作:停车时想象保险杠与路沿逐渐缩小的间隙;接住抛来的钥匙;在拥挤的人行道上穿行而不碰撞;睡眼惺忪地倒咖啡而不用看杯子。在极端情境下,消防员在坍塌的建筑中穿越摇曳的烟雾,对稳定性与生存做出瞬间判断,通过手势、肢体语言和无需言语的专业直觉沟通。儿童在学语前的岁月里,通过与环境的嬉戏探索世界。所有这些都直觉、自动地发生——这是机器尚未掌握的流畅性。

空间智能也是我们想象力与创造力的基石。故事讲述者在脑海中构建丰富的世界,并借助从古代洞穴壁画到现代电影、沉浸式电子游戏等多种视觉媒介将其传递给他人。无论是孩子在沙滩上堆沙堡,还是在电脑上玩《我的世界》,基于空间的想象力都是真实或虚拟世界互动体验的基础。在工业设计、数字孪生、机器人训练等无数商业场景中,物体、场景与动态交互环境的模拟支撑着关键应用。

历史上,许多定义文明的时刻都以空间智能为核心。古希腊的埃拉托斯特尼通过测量亚历山大港与赛伊尼(今阿斯旺)的阴影角度差异,计算出地球周长;哈格里夫斯的"珍妮纺纱机"通过将多个纺锤并排排列,使一名工人能同时纺多根线,将生产力提升八倍;沃森与克里克通过物理搭建3D分子模型,摆弄金属板与导线,最终让碱基对的空间排列"咔嗒"契合,发现了DNA结构。在这些案例中,当科学家与发明家需要操纵物体、可视化结构、推理物理空间时,空间智能推动了文明前进——而这些无法仅通过文本捕捉。

空间智能是我们认知的脚手架。它在我们被动观察或主动创造时发挥作用,驱动我们的推理与规划,即使面对最抽象的主题。它是我们与他人或环境互动(无论言语还是物理)的核心。尽管我们大多数人不常像埃拉托斯特尼那样揭示新真理,但我们每天都在以同样方式思考——通过感官感知复杂世界,再利用对物理空间的直觉理解来理解它。遗憾的是,今天的AI尚未具备这种思维。

过去几年确实取得了巨大进展。多模态大语言模型(MLLMs)通过海量多媒体数据(而非仅文本)训练,已具备基础的空间意识:现代AI能分析图片、回答相关问题,生成超现实图像与短视频。通过传感器与触觉技术的突破,最先进的机器人已能在高度受限的环境中操纵物体与工具。

但事实是,AI的空间能力仍远不及人类。其局限很快便会暴露:最先进的多模态模型在估计距离、方向、大小或"心理旋转"物体(从新角度重新生成)时,表现往往不优于随机猜测。它们无法导航迷宫、识别捷径或预测基础物理现象。AI生成的视频虽新颖酷炫,却常几秒后失去连贯性。

尽管当前AI能胜任阅读、写作、研究与数据模式识别,但在表征或与物理世界交互时存在根本局限。我们的世界观是整体的——不仅是眼前的景象,更是万物如何在空间中关联、意味着什么、为何重要。通过想象、推理、创造与互动(而非仅描述)理解这一点,正是空智能的力量。没有它,AI与它试图理解的物理现实仍脱节。它无法有效驾驶汽车、引导家庭或医院的机器人、实现沉浸式与互动式的学习娱乐新方式,或加速材料科学与医学的发现。

哲学家维特根斯坦曾写道:"我的语言的界限就是我的世界的界限。"我不是哲学家,但我知道对AI而言,界限不止于语言。空间智能是超越语言的前沿——它连接想象、感知与行动,为机器真正提升人类生活(从医疗到创意,从科学发现到日常辅助)开辟可能。

下一个十年:构建真正具备空间智能的机器

那么,如何构建具备空间智能的AI?如何打造能以埃拉托斯特尼的洞察力推理、以工业设计师的精度工程、以故事讲述者的想象力创造,并以急救员的流畅性与环境交互的模型?

构建空间智能AI需要比LLMs更宏大的目标:世界模型——一种新型生成模型,其理解、推理、生成与交互复杂世界(虚拟或真实)的能力远超今日LLMs。这一领域尚处萌芽,现有方法涵盖从抽象推理模型到视频生成系统。世界实验室于2024年初成立,正是基于这一信念:基础方法仍在确立,这将是未来十年的决定性挑战。

在这一新兴领域,最重要的是确立指导发展的原则。对空间智能而言,我通过三个核心能力定义世界模型:

生成能力:世界模型能生成在感知、几何与物理上一致的虚拟世界

解锁空间理解与推理的世界模型,必须也能生成自身的模拟世界。它们需能根据语义或感知指令生成无限多样且不同的模拟世界,同时保持几何、物理与动态的一致性——无论代表真实还是虚拟空间。研究界正积极探索这些世界应通过隐式还是显式方式表征(基于先天的几何结构)。此外,除了强大的隐式表征,我认为通用世界模型的输出必须允许生成世界的显式可观测状态,以满足多种用例需求。尤其重要的是,其对"现在"的理解必须与"过去"连贯——与导致当前状态的历史状态一致。

多模态能力:世界模型天生支持多模态输入输出

如同动物与人类,世界模型应能处理多种形式的输入(生成式AI中的"提示")。给定部分信息(无论是图像、视频、深度图、文本指令、手势或动作),世界模型应尽可能完整地预测或生成世界状态。这要求其既能以真实视觉的保真度处理视觉输入,又能同等高效地解析语义指令。这使得智能体与人类能通过多样化输入与模型交互,并接收多样化输出。

交互能力:世界模型能基于输入动作输出下一状态

若世界模型的提示包含动作或目标,其输出必须包含世界的新状态(隐式或显式)。当仅输入动作(无论是否伴随目标状态)时,世界模型应生成与前一状态、目标状态(若有)、语义含义、物理定律与动态行为一致的输出。随着空间智能世界模型在推理与生成能力上愈发强大稳健,可以设想,针对给定目标,模型不仅能预测世界的下一状态,还能基于新状态预测下一步动作。这一挑战的规模远超AI此前面对的任何任务。

语言是人类认知中纯粹的生成现象,而世界的运行规则复杂得多。例如在地球上,重力支配运动,原子结构决定光如何产生颜色与亮度,无数物理定律约束每一次交互。即使最奇幻的创意世界,也由遵循物理定律与动态行为的空间物体与智能体构成。调和所有这些——语义、几何、动态与物理——需要全新方法。表征世界的维度远高于一维序列信号(如语言)。要实现人类般普适的世界模型能力,需克服若干艰巨的技术障碍。在世界实验室,我们的研究团队正致力于此根本性突破。

以下是我们当前的部分研究方向:

通用训练目标函数:定义像LLMs的"下一个词预测"一样简洁优雅的通用目标函数,长期是世界模型研究的核心目标。输入与输出空间的复杂性使其本质上更难表述。但尽管仍有探索空间,这一目标函数与对应表征必须反映几何与物理定律,体现世界模型作为想象与现实的基础表征的本质。

大规模训练数据:训练世界模型需要比文本更复杂的数据。好消息是,海量数据源已存在——互联网规模的图像与视频集合是丰富易得的训练材料。挑战在于开发算法,从这些二维图像或视频帧信号(RGB)中提取更深层的空间信息。过去十年研究表明,语言模型的缩放定律(数据量与模型大小的关联)是关键;对世界模型而言,核心解锁在于构建能利用现有视觉数据达到可比规模的架构。此外,我绝不低估高质量合成数据与深度、触觉等多模态信息的价值——它们在训练过程的关键步骤中补充互联网数据。但路径依赖更优的传感器系统、更鲁棒的信号提取算法,以及更强大的神经模拟方法。

新模型架构与表征学习:世界模型研究必将推动模型架构与学习算法的进步,尤其是超越当前的MLLM与视频扩散范式。二者通常将数据标记为1D或2D序列,这使得计数视频中独特椅子、记忆一小时前房间样貌等简单空间任务异常困难。新架构或可助力,例如支持3D或4D感知的标记化、上下文与记忆方法。例如,世界实验室近期开发的实时生成帧模型RTFM,便展示了这一转变——它使用空间感知的帧作为空间记忆,在保持生成世界持久性的同时实现高效实时生成。

显然,在通过世界建模完全解锁空间智能前,我们仍面临艰巨挑战。这一研究不仅是理论探索,更是新一代创意与生产力工具的核心引擎。世界实验室的进展令人振奋:我们已向有限用户展示了"Marble"——首个可通过多模态输入提示生成并维持一致3D环境的世界模型,供用户与故事讲述者探索、交互并进一步构建创意流程。我们正努力尽快将其推向公众!

Marble只是构建真正空间智能世界模型的第一步。随着进展加速,研究人员、工程师、用户与商业领袖正逐渐认识到其非凡潜力。下一代世界模型将使机器的空间智能跃上新台阶——这一成就将解锁今日AI系统仍普遍缺失的关键能力。

用世界模型构建更美好的人类世界

AI发展的驱动力至关重要。作为助力开启现代AI时代的科学家之一,我的动机始终清晰:AI必须增强人类能力,而非取代人类。多年来,我致力于将AI的开发、部署与治理与人类需求对齐。极端的技术乌托邦与末日论调虽层出不穷,我仍保持务实视角:AI由人开发、为人所用、受人类治理。它必须始终尊重人类的能动性与尊严。其魔力在于扩展我们的能力——让我们更具创造力、联结性、生产力与满足感。

空间智能正是这一愿景的体现:AI赋能人类创作者、护理者、科学家与梦想家,实现曾经不可能的成就。这一信念驱动我将空间智能视为AI的下一个伟大前沿。

空间智能的应用覆盖不同时间线:创意工具已初现端倪——世界实验室的Marble正将此类能力交到电影制作人、游戏设计师、建筑师与各类故事讲述者手中,助其快速创建并迭代可供探索、交互与构建的3D世界,加速创作流程。机器人技术代表中期目标,我们正完善感知与行动的循环。最具变革性的科学应用需更长时间,但有望深刻推动人类福祉。

实现这一切需要整个AI生态系统的集体努力——研究者、创新者、企业家、企业与政策制定者需为共享愿景协作。但这一愿景值得追求。以下是未来的图景:

创意:赋能故事叙述与沉浸式体验

"创造力是智慧的游戏。"这是我偶像阿尔伯特·爱因斯坦最爱的名言之一。在文字出现前,人类便通过故事讲述传承文化——将其绘制于洞穴壁画,代代相传,构建共享叙事的文化。故事是我们理解世界、跨越时空联结、探索人性本质的方式,更重要的是,它让我们在生活中找到爱与意义。

空间智能有望以全新维度变革故事叙述与体验的创造,既致敬其根本重要性,又将其影响从娱乐扩展至教育、设计与建筑。

世界实验室的Marble平台将为电影制作人、游戏设计师、建筑师等各类故事讲述者提供前所未有的空间能力与编辑可控性,使其无需传统3D设计软件的繁琐,即可快速创建并迭代完全可探索的3D世界。创作行为本身仍如人类般关键;AI工具只是放大并加速创作者的潜能。这包括:

多维叙事体验:电影制作人与游戏设计师正用Marble构建不受预算或地理限制的完整世界,探索传统制作流程中难以触及的场景与视角。随着不同媒介与娱乐形式的边界模糊,我们正趋近于根本性的新型互动体验——融合艺术、模拟与游戏的个性化世界,任何人都能创造并栖居于自己的故事中。随着概念与分镜更快转化为完整体验,叙事将不再局限于单一媒介,创作者可构建跨平台共享主线的全新世界。

设计中的空间叙事:几乎所有制造品或建筑空间都需先在虚拟3D中设计。这一过程高度迭代,耗时且成本高昂。借助空间智能模型,建筑师可快速可视化未建成的结构——在虚拟空间中"讲述"我们如何生活、工作与聚集的故事。工业与时尚设计师可即刻将想象转化为形态,探索物体与人体的互动。

全新沉浸与交互体验:体验是人类创造意义的深层方式。自有历史以来,人类共享的唯一3D世界是物理世界。直至近几十年,通过游戏与早期虚拟现实(VR),我们才初窥创造自定义世界的意义。如今,空间智能结合VR、扩展现实(XR)头显与沉浸式显示器等新形态,将这些体验提升至全新高度。我们正趋近于一个"踏入完全实现的多元世界"如"翻开一本书"般自然的未来。空间智能使世界构建不仅限于拥有专业制作团队的工作室,更向个体创作者、教育者与任何有愿景分享的人开放。

机器人:具身智能的实践

从昆虫到人类,动物依赖空间智能理解、导航与交互世界。机器人亦将如此。具备空间智能的机器是该领域自诞生起的梦想,包括我在斯坦福实验室与学生、合作者的研究。这也是我为何对世界实验室通过模型实现这一目标如此兴奋。

通过世界模型扩展机器人学习:机器人学习的进展依赖可扩展的训练数据解决方案。鉴于机器人需学习的理解、推理、规划与交互状态空间极其庞大,许多人认为需结合互联网数据、合成模拟与人类演示的真实世界捕捉,才能训练出泛化机器人。但与语言模型不同,机器人研究的训练数据稀缺。世界模型将在此发挥决定性作用。随着其感知保真度与计算效率提升,模型输出可快速弥合模拟与现实的差距,进而帮助机器人在无数状态、交互与环境的模拟中训练。

协作型伙伴与同事:作为人类协作者的机器人——无论是协助实验室科学家,还是陪伴独居老人——可缓解急需劳动力的领域。但实现这一点需空间智能:感知、推理、规划与行动,同时(最重要的是)与人类目标及行为保持共情对齐。例如,实验室机器人可接管仪器操作,让科学家专注于需要灵巧或推理的任务;家庭助手可协助老人烹饪,同时不削弱其乐趣或自主性。能预测下一状态、甚至符合预期动作的空间智能世界模型,对此至关重要。

扩展具身形式:类人机器人在我们构建的世界中扮演角色,但真正的创新将来自更丰富的设计:递送药物的纳米机器人、穿越狭窄空间的软机器人、适用于深海或太空的机器。无论形态如何,未来的空间智能模型必须整合机器人所处的环境及其自身的具身感知与运动。但开发这些机器人的关键挑战是:不同具身形态缺乏训练数据。世界模型将在模拟数据、训练环境与基准任务中发挥关键作用。

更长远的图景:科学、医疗与教育

除创意与机器人领域外,空间智能的深远影响还将延伸至AI增强人类能力、拯救生命与加速发现的领域。以下三个领域具有变革潜力——当然,空间智能的应用远不止于此。

科学研究:具备空间智能的系统可模拟实验、并行验证假设、探索人类无法到达的环境(从深海到遥远行星)。这一技术将变革气候科学与材料研究等领域的计算建模。通过结合多维模拟与真实世界数据收集,这些工具可降低计算门槛,扩展每个实验室的观察能力。

医疗健康:空间智能将重塑从实验室到病床的一切。在斯坦福,我与学生、合作者多年与医院、养老院及居家患者合作,深信其在此领域的变革潜力。AI可加速药物发现(通过多维建模分子交互)、提升诊断(辅助放射科医生识别医学影像模式)、实现环境监测系统(在不替代人类关怀的前提下支持患者与护理者),更不用说机器人在协助医护人员与患者中的多种可能。

教育:空间智能可实现沉浸式学习,将抽象或复杂概念具象化,并创造对大脑与身体学习方式至关重要的迭代体验。在AI时代,更快更有效的学习与再技能对儿童与成人都尤为重要。学生可探索细胞机制或"走进"历史事件;教师可获得工具,通过交互环境实现个性化教学;专业人士(从外科医生到工程师)可在安全模拟中练习复杂技能。

在所有这些领域,可能性无穷无尽,但目标始终如一:AI增强人类专长、加速人类发现、放大人类关怀——而非取代判断、创造力与共情,这些人类的核心特质。

结语

过去十年,AI已成为全球现象,是技术、经济甚至地缘政治的转折点。但作为研究者、教育者与创业者,最令我振奋的仍是图灵75年前问题背后的精神。我仍与他共享那份好奇。正是这种精神,每日驱动我迎接空间智能的挑战。

我们有史以来首次有望构建与物理世界如此契合的机器,使其成为我们应对最严峻挑战的真正伙伴。无论是加速实验室的疾病研究、革新故事叙述,还是在疾病、受伤或衰老时支持我们,我们正站在提升生命最珍贵面向的技术边缘。这是更深刻、更丰富、更赋权的生活愿景。

在自然界于远古祖先中释放第一丝空间智能的近5亿年后,我们有幸成为可能赋予机器这一能力的一代技术人——更有幸将这些能力用于造福全人类。没有空间智能,我们对真正智能机器的梦想将不完整。

这一探索是我的北极星。加入我,共同追寻。

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容