空间智能是人工智能的下一个前沿领域

1950年,计算机技术还仅限于自动算术和简单逻辑运算,艾伦·图灵提出了一个至今仍影响深远的问题:机器能思考吗?他拥有非凡的想象力,预见到智能或许有一天可以构建而非天生。这一洞见后来开启了一场名为人工智能(AI)的不懈科学探索。在我从事人工智能工作25年后,图灵的远见卓识依然激励着我。但我们距离目标究竟有多近?答案并不简单。如今,诸如大型语言模型(LLM)等领先的人工智能技术已经开始改变我们获取和处理抽象知识的方式。然而,它们仍然是身处黑暗中的文字匠人;它们能言善辩却缺乏经验,知识渊博却缺乏根基。空间智能将彻底改变我们创造和与现实世界及虚拟世界互动的方式——它将革新故事讲述、创造力、机器人技术、科学发现等诸多领域。这正是人工智能的下一个前沿领域。
自进入这个领域以来,对视觉和空间智能的追求一直是指引我的北极星。正因如此,我花费数年时间构建了 ImageNet——首个大规模视觉学习和基准测试数据集,也是现代人工智能诞生的三大关键要素之一(另外两个要素是神经网络算法和图形处理器 (GPU) 等现代计算技术)。也正因如此,我在斯坦福大学的实验室在过去十年中致力于将计算机视觉与机器人学习相结合。一年多前,我和我的联合创始人 Justin Johnson、Christoph Lassner 和 Ben Mildenhall 共同创立了World Labs :旨在首次将这种可能性完全实现。
在本文中,我将解释什么是空间智能,为什么它很重要,以及我们如何构建能够释放它的世界模型——这将对创造力、具身智能和人类进步产生重塑作用。
1►空间智能:人类认知的基础
人工智能从未如此令人兴奋。诸如LLM之类的生成式人工智能模型已经从实验室走向日常生活,成为数十亿人创造、提高效率和沟通的工具。它们展现出了曾经被认为不可能的能力,能够轻松生成连贯的文本、海量的代码、逼真的图像,甚至是短视频。人工智能是否会改变世界已不再是问题。无论从哪个角度来看,它已经改变了世界。
然而,仍有许多事物遥不可及。自主机器人的愿景固然引人入胜,但仍停留在推测阶段,距离未来学家们长期以来所承诺的日常生活必需品还相去甚远。在疾病管理、新材料发现和粒子物理等领域大规模加速研究的梦想,至今仍未实现。而真正理解并赋能人类创造者的AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建虚拟世界的电影制作人,还是寻求完全沉浸式虚拟体验的任何人——的愿景,也依然遥不可及。
要了解为什么这些能力仍然难以捉摸,我们需要研究空间智能是如何演变的,以及它如何塑造我们对世界的理解。
视觉一直是人类智能的基石,但它的力量源于更为根本的东西。早在动物能够筑巢、抚育幼崽、用语言交流或建立文明之前,简单的感知行为就悄然开启了通往智能的进化之旅。
这种看似孤立的从外部世界获取信息的能力——无论是捕捉一丝光线还是感受质地——在感知与生存之间架起了一座桥梁,并且随着世代更迭,这座桥梁变得越来越牢固、越来越复杂。一层又一层的神经元从这座桥梁上生长出来,形成了能够解读世界并协调生物体与其周围环境之间相互作用的神经系统。因此,许多科学家推测,感知和行动成为了驱动智能进化的核心回路,也是自然创造我们这个物种的基础——感知、学习、思考和行动的终极体现。
空间智能在定义我们与物理世界的互动方式中扮演着至关重要的角色。我们每天都依赖它来完成最普通的行为:想象保险杠和路沿之间逐渐缩小的缝隙来停车,接住扔到房间另一头的钥匙,在拥挤的人行道上安全行走,或者在睡眼惺忪时不看就把咖啡倒进杯子里。在更极端的情况下,消防员在不断变化、烟雾弥漫的倒塌建筑物中穿行,在瞬间判断建筑物的稳定性和生存状况,并通过手势、肢体语言和一种无法用语言替代的共同职业本能进行沟通。孩子们在学会说话之前的几个月甚至几年里,通过与周围环境的玩耍互动来学习世界。所有这一切都是凭直觉、自动完成的——这是机器至今仍无法企及的流畅性。
空间智能也是我们想象力和创造力的基石。讲故事的人在脑海中创造出丰富多彩的世界,并利用各种视觉媒体将这些世界呈现给他人,从古代洞穴壁画到现代电影,再到沉浸式电子游戏,不一而足。无论是孩子们在沙滩上堆砌沙堡,还是在电脑上玩《我的世界》,基于空间的想象力都构成了现实世界或虚拟世界中互动体验的基础。在许多行业应用中,物体、场景和动态交互环境的模拟为无数关键业务用例提供支持,涵盖工业设计、数字孪生和机器人训练等领域。
历史上充满了空间智能发挥核心作用的、定义文明的时刻。在古希腊,埃拉托色尼将阴影转化为几何图形——在太阳于塞恩(Syene)投下无影的那一刻,测量亚历山大港(Alexandria)的7度角——从而计算出地球的周长。哈格里夫斯的“珍妮纺纱机”凭借其空间洞察力彻底革新了纺织制造业:将多个锭子并排排列在同一个框架中,使一名工人能够同时纺多根纱线,生产效率提高了八倍。沃森和克里克通过构建三维分子模型,操纵金属板和金属丝,最终使碱基对的空间排列完全吻合,从而发现了DNA的结构。在这些例子中,空间智能推动了文明的进步,因为科学家和发明家需要操作物体、可视化结构并推理物理空间——而这些都无法仅用文字来描述。
空间智能是我们认知能力的基石。无论我们被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理和规划,即使是最抽象的话题也不例外。它对我们与他人或环境的互动方式至关重要——无论是语言上的还是肢体上的。虽然我们大多数人每天都无法像埃拉托色尼那样揭示新的真理,但我们通常的思考方式却大同小异——通过感官感知复杂的世界,然后运用直觉理解其在物理和空间层面的运作方式。
遗憾的是,目前的AI还不具备这种思维方式。
尽管过去几年取得了巨大的进步,但多模态逻辑模型(MLLM)在文本数据之外还使用了海量的多媒体数据进行训练,已经具备了一些空间感知的基本能力。如今的AI可以分析图片、回答相关问题,并生成超逼真的图像和短视频。此外,随着传感器和触觉技术的突破,我们最先进的机器人也能够在高度受限的环境中操控物体和工具。
然而,事实是,人工智能的空间能力远未达到人类水平。而且,其局限性很快就会显现出来。最先进的多层线性模型在估计距离、方向和大小方面,或者通过从新角度重新生成物体来“心理”旋转物体方面,很少能比随机猜测表现得更好。它们无法在迷宫中导航,无法识别捷径,也无法预测基本的物理现象。人工智能生成的视频——虽然还处于起步阶段,而且确实很酷——但通常在几秒钟后就会失去连贯性。
尽管当前最先进的人工智能在数据阅读、写作、研究和模式识别方面表现出色,但这些模型在表征或与物理世界互动时却存在根本性的局限性。我们对世界的认知是整体性的——不仅关注我们所看到的事物,更关注万物之间的空间关系、意义以及重要性。通过想象、推理、创造和互动(而不仅仅是描述)来理解这一切,正是空间智能的力量所在。缺乏空间智能,人工智能就无法与它试图理解的物理现实相联系。它无法有效地驾驶汽车,无法引导家中和医院里的机器人,无法创造全新的沉浸式和互动式学习和娱乐体验,也无法加速材料科学和医学领域的发现。
哲学家维特根斯坦曾写道:“我的语言的界限就是我的世界的界限。”我并非哲学家,但我知道,至少对于人工智能而言,语言远不止于此。空间智能代表着超越语言的前沿——它连接着想象、感知和行动,并为机器真正提升人类生活开辟了无限可能,涵盖医疗保健、创造力、科学发现以及日常辅助等诸多领域。
2►人工智能的下一个十年:构建真正具有空间智能的机器
那么,我们如何构建具有空间智能的人工智能?如何才能构建出能够像埃拉托色尼一样进行推理、像工业设计师一样进行精确工程设计、像讲故事的人一样进行创造性创作、像急救人员一样流畅地与环境互动的模型?
构建空间智能人工智能需要比逻辑逻辑模型(LLM)更具雄心的方案:世界模型。世界模型是一种新型生成模型,其理解、推理、生成和交互语义、物理、几何和动态上复杂的世界(无论是虚拟的还是真实的)的能力,远远超出了当今逻辑逻辑模型的能力范围。该领域尚处于起步阶段,目前的方法涵盖了从抽象推理模型到视频生成系统等各个方面。世界实验室(World Labs)正是基于这样的信念而于2024年初成立:基础方法仍在不断建立,这将是未来十年面临的关键挑战。
在这个新兴领域,最重要的是确立指导发展的原则。对于空间智能,我通过三种基本能力来定义世界模型:
1.生成式:世界模型可以生成在感知、几何和物理上都保持一致的世界。
能够解锁空间理解和推理的世界模型,也必须能够生成自身的模拟世界。它们必须能够生成无穷无尽、丰富多样的模拟世界,这些世界遵循语义或感知指令,同时在几何、物理和动态上保持一致——无论代表的是真实空间还是虚拟空间。研究界正在积极探索这些世界应该以隐式还是显式的方式,根据内在的几何结构来表示。此外,除了强大的潜在表征之外,我认为通用世界模型的输出还必须允许为许多不同的应用场景生成一个显式的、可观察的世界状态。尤其重要的是,它对当下的理解必须与过去紧密相连;与导致当前状态的先前世界状态紧密相连。
2.多模态:世界模型从设计上就是多模态的。
就像动物和人类一样,世界模型应该能够处理各种形式的输入——在生成式人工智能领域被称为“提示”。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应该尽可能完整地预测或生成世界状态。这要求模型能够以媲美真实视觉的精度处理视觉输入,并同样轻松地解读语义指令。这使得智能体和人类都能通过各种输入与模型交流,并接收各种输出。
3.交互式:世界模型可以根据输入动作输出下一个状态
最后,如果行动和/或目标作为世界模型的输入,其输出必须包含世界的下一个状态,无论该状态是以隐式还是显式的方式表示。当仅输入行动(无论是否包含目标状态)时,世界模型应生成与世界先前状态、预期目标状态(如有)及其语义含义、物理定律和动态行为相一致的输出。随着空间智能世界模型的推理和生成能力日益强大和稳健,可以设想,在给定目标的情况下,世界模型本身不仅能够预测世界的下一个状态,还能基于新状态预测下一步行动。
这一挑战的规模超过了人工智能以往面临的任何挑战。
语言是人类认知中一种纯粹的生成性现象,而现实世界则遵循着更为复杂的规则。例如,在地球上,引力支配着运动,原子结构决定着光如何产生颜色和亮度,无数的物理定律约束着每一次相互作用。即使是最奇幻、最具创造力的世界,也由空间物体和主体构成,它们都遵循着定义自身的物理定律和动态行为。要将所有这些——语义、几何、动态和物理——协调一致,需要全新的方法。表征世界的维度远比语言这种一维的序列信号复杂得多。要构建出能够提供我们人类所拥有的那种普适能力的宇宙模型,需要克服诸多巨大的技术障碍。在世界实验室,我们的研究团队致力于朝着这个目标取得根本性的进展。
以下是我们目前的一些研究课题示例:
一种新的通用训练任务函数:定义一个像逻辑逻辑模型(LLM)中的下一个词元预测那样简单优雅的通用任务函数,一直是世界模型研究的核心目标。由于输入和输出空间的复杂性,构建这样一个函数本身就更加困难。尽管仍有许多方面需要探索,但这个目标函数及其相应的表示必须反映几何和物理定律,尊重世界模型作为想象和现实的具象化表征的本质。
大规模训练数据:训练世界模型所需的数据远比文本整理复杂得多。令人欣喜的是:海量数据源已经存在。互联网规模的图像和视频集合提供了丰富且易于获取的训练素材——挑战在于开发能够从这些二维图像或视频帧信号(例如 RGB)中提取更深层次空间信息的算法。过去十年的研究表明,在语言模型中,数据量和模型规模之间的关联性遵循着重要的尺度定律;而世界模型的关键在于构建能够以类似规模利用现有视觉数据的架构。此外,高质量合成数据以及深度和触觉信息等其他模态的重要性也不容低估。它们在训练过程的关键步骤中补充了互联网规模的数据。但未来的发展取决于更先进的传感器系统、更稳健的信号提取算法以及更强大的神经模拟方法。
新的模型架构和表征学习:世界模型研究必将推动模型架构和学习算法的进步,尤其是在当前多层线性模型学习(MLLM)和视频扩散范式之外。这两种方法通常将数据标记化为一维或二维序列,这使得简单的空间任务变得异常困难,例如在短视频中统计不同椅子的数量,或者回忆一个小时前房间的样子。替代架构或许有所帮助,例如采用三维或四维感知标记化、上下文和记忆的方法。例如,在世界实验室,我们最近开发了一种名为RTFM的实时生成式帧模型,该模型就展示了这种转变。RTFM使用空间相关的帧作为空间记忆,在保持生成世界持久性的同时,实现高效的实时生成。
显然,在通过世界建模充分释放空间智能之前,我们仍然面临着诸多艰巨的挑战。这项研究并非仅仅是理论探讨,而是新型创意和生产力工具的核心引擎。World Labs 的进展令人鼓舞。我们最近向部分用户展示了 Marble 的雏形,这是首个能够通过多模态输入生成并维护一致的 3D 环境的世界模型,供用户和故事讲述者探索、互动,并在其创意工作流程中进行更深入的构建。我们正在努力尽快将其向公众开放!
Marble 只是我们构建真正具有空间智能的世界模型的第一步。随着技术的进步,研究人员、工程师、用户和商业领袖都开始意识到它蕴藏的巨大潜力。下一代世界模型将使机器的空间智能提升到一个全新的水平——这一成就将解锁当今人工智能系统仍然严重缺乏的关键能力。
3►运用世界模式为人类建设更美好的世界
人工智能发展的动机至关重要。作为引领现代人工智能时代的科学家之一,我的动机始终清晰明确:人工智能必须增强人类的能力,而非取代人类。多年来,我一直致力于使人工智能的开发、部署和管理与人类需求相契合。如今,关于技术乌托邦和世界末日的极端论调层出不穷,但我依然秉持着更为务实的观点:人工智能由人开发、由人使用、由人管理。它必须始终尊重人的自主性和尊严。它的魔力在于拓展我们的能力,使我们更具创造力、联系更紧密、生产力更高、成就感更强。空间智能正是这一愿景的体现——它赋予人类创造者、照护者、科学家和梦想家力量,让他们实现曾经不可能的事情。正是这种信念驱使我投身于空间智能领域,将其视为人工智能的下一个伟大前沿。
空间智能的应用涵盖不同的发展阶段。创意工具正在涌现——例如,World Labs 的 Marble 已经将这些功能赋予了创作者和故事讲述者。机器人技术代表着一个雄心勃勃的中期发展方向,我们将不断完善感知与行动之间的联系。最具变革性的科学应用需要更长时间才能实现,但它们有望对人类福祉产生深远的影响。
在所有这些时间线中,有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力,远非单个团队或公司所能完成。它需要整个人工智能生态系统的参与——研究人员、创新者、企业家、公司,甚至政策制定者——共同朝着一个共同的愿景努力。但这个愿景值得追求。以下是未来展望:
4►创意:赋予故事讲述和沉浸式体验超强力量
“创造力是智慧的乐趣。” 这是我最崇拜的偶像阿尔伯特·爱因斯坦的一句名言,也是我最喜欢的名言之一。早在文字出现之前,人类就讲述故事——将故事绘制在洞穴壁画上,代代相传,并基于共同的叙事构建起整个文化。故事是我们理解世界、跨越时空连接彼此、探索人性意义的方式,而最重要的是,它帮助我们找到生命的意义和内心的爱。如今,空间智能有潜力改变我们创造和体验叙事的方式,既能彰显叙事的根本重要性,又能将其影响从娱乐扩展到教育,从设计扩展到建造。
World Labs 的 Marble 平台将为电影制作人、游戏设计师、建筑师和各类故事讲述者带来前所未有的空间能力和编辑控制力,使他们能够快速创建和迭代完全可探索的 3D 世界,而无需传统 3D 设计软件的繁琐操作。创作行为依然至关重要,依然是人类的本能;人工智能工具只是放大并加速了创作者所能取得的成就。这包括:
叙事体验迈向新维度:电影制作人和游戏设计师正利用 Marble 构建完整的世界,摆脱预算和地域的限制,探索在传统制作流程中难以实现的各种场景和视角。随着不同媒体和娱乐形式之间的界限日渐模糊,我们正在迈向融合艺术、模拟和游戏的新型互动体验——个性化的世界,任何人(而不仅仅是工作室)都可以创造并沉浸于自己的故事之中。随着将概念和故事板转化为完整体验的更新、更快捷方式的出现,叙事将不再局限于单一媒介,创作者可以自由地在各种表面和平台上构建具有共同主线的世界。
通过设计构建空间叙事:几乎所有制造的物品或建造的空间都必须在实体化之前进行虚拟3D设计。这个过程需要高度迭代,耗时耗力。借助空间智能模型,建筑师可以在投入数月设计之前快速可视化结构,漫步于尚未存在的空间——这本质上是在讲述我们未来生活、工作和聚会的方式。工业和时尚设计师可以瞬间将想象转化为形式,探索物品如何与人体和空间互动。
全新的沉浸式互动体验:体验本身是我们人类创造意义的最深刻方式之一。纵观人类历史,我们始终生活在一个单一的三维世界中:我们共同拥有的物理世界。直到近几十年,通过游戏和早期虚拟现实(VR),我们才开始窥见共享我们自己创造的平行世界意味着什么。如今,空间智能与新型设备(例如VR和扩展现实(XR)头显以及沉浸式显示器)相结合,以前所未有的方式提升了这些体验。我们正迈向一个未来:步入完全实现的多维世界将如同打开一本书般自然。空间智能使世界构建不仅对拥有专业制作团队的工作室而言触手可及,也对个人创作者、教育工作者以及任何拥有分享愿景的人而言触手可及。
5►机器人技术:具身智能的实践
从昆虫到人类,动物都依赖空间智能来理解、导航并与周围环境互动。机器人也不例外。自该领域诞生以来,具备空间感知能力的机器一直是人们的梦想,包括我在斯坦福大学实验室与学生和合作者们所做的研究。正因如此,我对利用世界实验室正在构建的这类模型来实现这一梦想的可能性感到无比兴奋。
通过世界模型扩展机器人学习:机器人学习的进展取决于可扩展的、可行的训练数据解决方案。鉴于机器人需要学习理解、推理、规划和交互的复杂状态空间,许多人推测,要真正创建可泛化的机器人,需要结合互联网数据、合成模拟和真实世界中人类演示的捕捉数据。但与语言模型不同,训练数据在当今的机器人研究中仍然稀缺。世界模型将在其中发挥决定性作用。随着感知保真度和计算效率的提高,世界模型的输出可以迅速缩小模拟与现实之间的差距。这反过来将有助于在无数状态、交互和环境的模拟中训练机器人。
伙伴与合作者:无论是协助科学家在实验室工作,还是帮助独居老人,机器人作为人类的合作者,都能扩大急需劳动力和提高生产力的劳动力队伍。但这需要机器人具备空间智能,能够感知、推理、计划和行动,同时——这一点至关重要——还要与人类的目标和行为保持同理心。例如,实验室机器人可以操作仪器,让科学家专注于需要灵巧操作或推理能力的任务;而家庭助手可以帮助老人做饭,同时又不影响他们的乐趣和自主性。真正具备空间智能的世界模型,能够预测下一个状态,甚至预测与预期相符的行动,对于实现这一目标至关重要。
具身形态的拓展:人形机器人在我们构建的世界中扮演着重要角色。但创新的全部益处将来自于更加多元化的设计:例如,用于输送药物的纳米机器人、在狭小空间中穿梭的软体机器人,以及专为深海或外太空打造的机器。无论其形态如何,未来的空间智能模型都必须整合机器人所处的环境以及它们自身的具身感知和运动。然而,开发这些机器人的一大挑战在于,缺乏涵盖如此多种具身形态的训练数据。世界模型将在模拟数据、训练环境以及基准测试任务中发挥至关重要的作用。
6►更长远的视野:科学、医疗保健和教育
除了创意和机器人应用之外,空间智能的深远影响还将扩展到人工智能能够增强人类能力、拯救生命和加速探索的领域。下文我将重点介绍三个具有变革意义的应用领域,当然,空间智能的应用场景远不止于此,它涵盖了众多行业。
在科学研究中,空间智能系统能够模拟实验、并行检验假设,并探索人类难以到达的环境——从深海到遥远的行星。这项技术可以革新气候科学和材料研究等领域的计算建模方式。通过将多维模拟与真实世界的数据采集相结合,这些工具可以降低计算门槛,并拓展每个实验室的观测和理解范围。
在医疗保健领域,空间智能将重塑从实验室到临床的方方面面。在斯坦福大学,我的学生和合作者多年来一直与医院、养老机构和居家患者合作。这段经历让我确信空间智能在医疗保健领域具有变革性的巨大潜力。人工智能可以通过模拟多维分子相互作用来加速药物研发,通过帮助放射科医生识别医学影像中的模式来增强诊断能力,并实现环境监测系统,从而在不取代治疗所需的人际互动的前提下,为患者和护理人员提供支持。更不用说机器人能够在各种不同环境中帮助医护人员和患者的巨大潜力了。
在教育领域,空间智能能够实现沉浸式学习,使抽象或复杂的概念变得具体化,并创造迭代体验——这对我们大脑和身体的学习机制至关重要。在人工智能时代,无论对于学龄儿童还是成人,更快、更高效的学习和技能提升都显得尤为重要。学生可以探索细胞机制,或以多维视角体验历史事件。教师可以通过交互式环境获得个性化教学的工具。从外科医生到工程师等专业人士可以在逼真的模拟环境中安全地练习复杂技能。
在所有这些领域,可能性是无限的,但目标始终如一:人工智能增强人类的专业知识,加速人类的发现,并增强人类的关怀——而不是取代作为人类的核心的判断力、创造力和同理心。
7►结论
过去十年,人工智能已成为全球现象,并成为科技、经济乃至地缘政治的转折点。但作为一名研究人员、教育工作者,如今又成为一名创业者,最激励我的依然是图灵75年前提出的问题背后的精神。我依然和他一样充满好奇。正是这种好奇心,让我每天都充满动力地迎接空间智能带来的挑战。
历史上首次,我们即将制造出与物理世界如此契合的机器,它们将成为我们应对最严峻挑战的真正伙伴。无论是加速我们在实验室中对疾病的理解,革新我们讲述故事的方式,还是在我们因疾病、伤痛或年老而最脆弱的时刻给予我们支持,我们都站在科技的前沿,这项科技将提升我们最珍视的生活品质。这是一个更深刻、更丰富、更有力量的生活愿景。
在自然界于远古动物身上展现出空间智能的最初迹象近五亿年后,我们有幸成为技术专家的一代,或许很快就能赋予机器同样的能力——并且有幸能够利用这些能力造福世界各地的人们。如果没有空间智能,我们对真正智能机器的梦想将是不完整的。
来源李飞飞博客:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



