在 AI 的世界里,大语言模型已经让人们感到惊艳。李飞飞却说,真正的突破还在后头。她认为,AI 如果不能理解三维世界,那它就不算完整。这是她的下一个疯狂目标。
两天前,Y Combinator 在其 YouTube 频道更新了李飞飞在旧金山的 AI 创业学校进行的访谈视频。在这次的谈话内容中,李飞飞回顾了 ImageNet 项目的创建,从物体识别到如今生成模型这一路,深度学习的飞速发展,重点提到了她目前正攻克人工智能最困难的一项前沿领域:空间智能。
李飞飞目前是空间智能公司 World Labs 的创始人兼 CEO,该公司致力于构建大型世界模型,以感知、生成和与 3D世界交互。她在这次的对谈交流中也提到了关于 3D 世界建模对通用人工智能(AGI)重要性的原因,以及为什么空间智能可能比语言更难实现等系列问题。
省流速看版:
这是机器学习领域一次范式的转变
ImageNet 的诞生不仅是李飞飞的个人梦想,更是计算机视觉和深度学习领域的一次范式转变。她分享自己那时只是对「让机器看见」充满执念,这种执着和努力,创造了数据、GPU 和神经网络结合在一起的重要时刻。而现在,她有了新的执着,打算继续引领一场新的 AI 革命。
我们要让空间智能成为 AI 的新战场
从物体识别到场景理解,AI 逐步开始有能力理解复杂的视觉信息。而新一轮的转变来到了当前 AGI 的时代,她相信,世界不是纯粹生成性的,只有让 AI 理解三维世界,才能真正迈向 AGI。大语言模型的数据获取是简单的,空间智能模型才是她下一需要攻克的难题。
World Labs 的具体细节 我无法透露太多
当被问到 World Labs 畅想的应用场景,以及与当前 LLMs 的架构有何区别时;李飞飞说软硬件的融合,以及实现元宇宙,都会需要他们的空间智能。而与实现 LLMs 不同,她提到人类对 3D 世界感知不强,难度很大,但相信自己的团队,有着世界上最聪明的人,和他们一起可以在 2D 世界解决这个问题。
在 AI 领域,永远不要害怕失败
访谈最后,李飞飞分享了自己的成长经历,无论是从一开始移民美国求学,到斯坦福人工智能实验室主任,谷歌副总裁,以及现在开始创业,她说自己始终是从零开始的心态,埋头苦干。她也鼓励年轻人追随自己的兴趣和好奇心,勇敢地面对挑战,去解决那些不可能的难题。
以下是访谈实录,编译略作调整
机器学习领域需要一次范式的转变
主持人:我非常激动能够请到李飞飞博士,她在人工智能领域有着非常长的职业生涯。我相信很多人都知道她。你也被誉为「人工智能的教母」,你创立的第一个项目之一就是 2009 年的 Imagenet,距今已经 16 年了。这个项目已经被引用超过 80000 次,它实际上为人工智能奠定了一个重要的基石——数据问题。能谈谈这个项目是如何诞生的吗?那时的工作真的是开创性的。
是的,你说得对,实际上我们几乎是在 18 年前构思了这个项目,时间真的是飞快。那时我还是第一年来到普林斯顿大学当助理教授。那时的人工智能和机器学习的世界和现在完全不同。那时数据非常少,至少在计算机视觉领域,算法根本无法工作。那时没有产业,公众也几乎不知道「人工智能」这个词。但仍然有一群人从人工智能的奠基人开始,比如 John McCarthy,然后是像 Jeff Hinton 这样的人。我觉得我们都有一个人工智能的梦想,我们真的非常希望让机器具备思考和工作能力。而我的个人梦想就是让机器具备视觉能力,因为视觉是智能的基石,视觉智能不仅仅是感知,更是理解世界并在世界中做事情。
所以我当时非常执着于「让机器看见」这个问题。在我痴迷地开发机器学习算法的过程中,我们确实尝试过神经网络,但并没有成功。我们转向了支持向量机等其他方法,但有一个问题一直困扰着我,那就是泛化问题。如果你从事机器学习工作,你必须理解,泛化是机器学习的核心数学基础和目标。为了让这些算法能够泛化,数据是至关重要的,但当时在计算机视觉领域几乎没有数据。而我正好是第一代开始接触数据的研究生,因为我是第一代见证了互联网、物联网的出现的研究生。
时间来到大约 2007 年,我和我的学生决定必须做出一个大胆的尝试。我们赌机器学习领域需要一次范式的转变,而这个转变必须由数据驱动的方法引领。但当时并没有足够的数据。所以我们想,既然没有数据,那我们就去互联网下载数十亿张图片,这是我们能在互联网上找到的最大数量,然后我们就构建一个全球的视觉分类体系,利用这个体系来训练和评估机器学习算法。正是因为这个原因,ImageNet 项目应运而生且真正付诸实践。
数据和开源迎来了深度学习的春天
主持人:确实,直到出现一些有前景的算法,才开始有所突破。直到 2012 年 AlexNet 的问世,这才是通向人工智能的第二个关键因素,获得足够的计算能力并投入足够的资源。而算法则揭示了一个关键时刻,那就是当你用数据为人工智能播下种子时,社区开始逐渐找出更多的解决方案,这为人工智能的发展提供了动力,对吧?
李飞飞:在 2009 年,我们发布了一篇小论文,仅作为 CVPR Poster。
从 2009 年到 2012 年,直到 AlexNet 的问世,那三年里我们真的相信数据会驱动人工智能,但我们几乎没有任何明确的信号表明这个方法有效。
所以我们做了几件事情,首先,我们决定开源。我们从一开始就认为必须将其开源,供整个研究社区使用,大家一起合作解决这个问题。
其次,我们创建了一个挑战赛,因为我们希望全世界最聪明的学生和研究人员都来参与这个问题的解决。这就是我们所说的 ImageNet 挑战赛。每年我们都会发布一个测试数据集,整个平台的 ImageNet 数据用于训练,但我们会发布单独的测试数据集,并邀请大家公开参与。
最初的几年实际上是在设定基准。当时的性能错误率大约在 30% 左右,虽然不是零错误,也不是完全随机,但表现并不出色。但到了第三年,2012 年,我也有在我出版的书里写过这段经历。
我仍然记得,那是夏末,我们正在将所有 ImageNet 挑战赛的结果在我们的服务器上运行。某天深夜,我收到了我研究生发来的消息,告诉我有一个结果非常突出,应该去看看。我们仔细查看后,发现这是一个卷积神经网络。那时它还不是 AlexNet,而是 Geoffrey Hinton 团队的一项工作,叫做「SuperVision」。这是一个非常巧妙的词汇玩弄,结合了「super」和「supervised learning」(监督学习)。我们看了 SuperVision 做的工作,这其实是一个老算法,卷积神经网络早在 1980 年代就已经发布,只是算法上做了一些调整,但最初看到它时,我们真的很惊讶,居然会有如此巨大的突破。
当然,接下来大家都知道了,我们在当年的 ICCV(国际计算机视觉大会)佛罗伦萨的 ImageNet 挑战赛工作坊上展示了这个成果,Alex Krizhevsky 和他的团队也来了,很多人也都来了。如今,大家都把这一刻称为 ImageNet 挑战赛的 「AlexNet 时刻」。
我还想补充一点,不仅仅是卷积神经网络的成功,这也是第一次由 Alex 和他的团队将两台 GPU 结合起来,用于深度学习的计算。这真的是数据、GPU 和神经网络结合的第一次重要时刻。
我的职业生涯不仅仅是讲述场景
主持人:沿着计算机视觉智能发展的趋势,ImageNet 确实为解决物体识别的问题奠定了基础。紧接着,人工智能达到了可以解决场景理解的问题。因为你和你的学生们,像是 Andre Karpathy 等人,开始能够描述场景。能否谈谈从物体识别到场景理解的转变?
李飞飞:是的,ImageNet 解决的是当你看到一张图片时,如何识别出其中的物体,比如「这是只猫,这是张椅子」,这属于视觉识别中的基本问题。但自从我作为研究生进入人工智能领域时,我就有一个梦想。我觉得这个梦想可能需要一百年才能实现,那就是讲述世界的故事。想象一下,当人类睁开眼睛,你刚刚睁开眼睛,看到的不是「人、椅子、桌子」,你实际上看到的是一个会议室,看到屏幕、舞台、观众、摄像机等。你可以描述整个场景,这是一种人类的能力,是视觉智能的基础,它对我们日常生活至关重要。因此,我一直认为这个问题会占据我一生的时间。当我作为研究生毕业时,我告诉自己,如果我能创造出一个能够讲述场景故事的算法,那我就算成功了。这是我当时对自己职业生涯的设想。
然而,随着深度学习的崛起,那个时刻真的来临了。后来,Andre 和 Justin Johnson 加入了我的实验室,我们开始看到自然语言与视觉的碰撞信号。
Andre 和我提出了一个图像描述或讲故事的问题。简而言之,到了 2015 年左右,Andre 和我发布了一系列论文,其中包括一些与我们同期发表的论文,它们实际上是让计算机能够生成图像说明的最早工作之一。我几乎感觉到,我该怎么继续我的人生了?这本来就是我的一生的梦想啊。那一刻对我们俩来说,真的是无比震撼。
从个人角度来说,我觉得我是世界上最幸运的人,因为我的整个职业生涯从人工智能冬天的结束、人工智能崛起的开始就起步了,我的很多工作和职业生涯都与这一变革息息相关,或者在某种程度上推动了这场变革。所以,我感到非常幸运、感恩,并且以某种方式感到骄傲。
主持人:我认为最疯狂的事情是,即使你已经实现了描述场景,甚至通过扩散模型生成场景的梦想,你依然在做更大的梦想。因为计算机视觉的整个发展轨迹已经从物体识别到场景理解,再到现在的「世界」概念。而你决定从学术界,从教授职位转到创业,成为了 World Labs 的创始人兼 CEO 。能谈谈「世界」究竟是什么吗?它是不是比场景和物体更具挑战性?
李飞飞:是的,这确实很疯狂。当然,大家都知道过去的事情,对于我来说,过去五六年的进展真的是很难总结。我们正处在一个技术进步的文明时刻。作为一名计算机视觉科学家,我们见证了从图像到图像描述,再到利用扩散技术生成图像的令人难以置信的增长。尽管这些进展让人兴奋,但同时,我们也看到另一个极为激动人心的领域,那就是语言领域,尤其是 LLMs(大语言模型)。比如 2022 年 11 月,ChatGPT 的出现,真正开启了生成模型的大门,基本上可以通过图灵测试等等。所以,即使像我这样年纪较大的人,也感到非常激动,开始大胆地思考下一步的目标是什么。
但如果你想一想视觉,思考一下理解三维世界的能力,弄清楚如何在这个三维世界中行动,如何在三维世界中导航、互动、理解、与之交流,这一切的进化历程却花费了 5.4 亿年。
大约 5.4 亿年前,第一个三叶虫开始在水下发展视觉感知。从那时起,视觉成为了推动演化军备竞赛的关键。视觉出现之前,动物的生命形态相对简单,近 5 亿年间几乎没有复杂的变化。但在接下来的 5.4 亿年中,正是因为拥有了理解世界的能力,演化的军备竞赛开始了,动物的智能也不断提升。
所以对我来说,解决空间智能的问题,理解三维世界,生成三维世界,推理三维世界,在三维世界中做事情,这对于人工智能来说是一个根本问题。对我而言,AGI 如果没有空间智能,是不完整的。我想解决这个问题。这涉及到创造「世界模型」,超越平面像素,超越语言,真正捕捉三维结构和空间智能的世界模型。幸运的是,无论我多大年纪,我总是能和最出色的年轻人一起工作。所以,现在我和三位了不起的年轻但世界级的技术专家,Justin Johnson、Ben Mildenhall 和 Christoph Lassner,一起创办了这家公司。我们将尝试解决,我认为目前人工智能领域中最难的问题。
获取空间智能的数据要比语言数据难得多
主持人:确实,这些都是非常出色的人才。Chris 是 Pulsar 的创始人,Pulsar 是一种可微分渲染技术,现在是用于 PyTorch3D 的基于球体的渲染后端。而 Justin Johnson,作为你曾经的学生,他真的有着极强的系统工程思维,曾实现了基于神经网络的实时风格迁移。然后是 Ben,他是 NeRF(Neural Radiance Fields 神经辐射场)论文的作者。所以这真的是一支超级精英团队。你需要这样一支精英团队,因为我们之前聊到过,视觉实际上比语言更难。也许这么说有点争议,因为LLMs 本质上是一维的,对吧,但你所谈论的是理解大量的 3D 结构。那么,为什么这如此困难?它为什么是比现在的大语言强大呢?
李飞飞:是的,你能理解我们问题的困难。语言本质上是一维的,语法是按顺序出现的,这就是为什么序列到序列(sequence-to-sequence)建模如此经典的原因。还有一点,语言是纯粹的生成性信号,很多人没有意识到这一点。自然界中是没有语言的,你不能触摸语言,也看不见语言,语言完全是从每个人的脑袋里生成出来的。语言是一个纯粹的生成信号。当然,当你把它写在纸上时,它就在那里,但语言的生成、构建和实用性本质上是非常生成性的,而世界远比这复杂得多。
首先,现实世界是三维的,如果再加上时间,那就是四维的,但我们暂且只考虑空间。现实世界本质上是三维的,这本身就是一个更具组合性挑战的问题。
第二,视觉世界的感知是一个投影过程,无论是你的眼睛、视网膜还是相机,它总是将三维信息压缩到二维,你必须理解这一点是多么困难。从数学上来说,这是一个不可逆过程,因此人类和动物才会拥有多重感官,才能解决这个问题。
第三,世界并不是纯粹的生成性。是的,我们可以生成虚拟的三维世界,但它仍然必须遵循物理规律,而且现实世界也存在于我们之外。你现在实际上是在生成和重建之间流畅地切换。用户行为、实用性和应用场景完全不同。如果你全程关注生成性,我们可以讨论游戏、元宇宙之类的内容;如果你全程关注现实世界,那我们就谈论机器人技术等。但这一切都在世界建模和空间智能的连续性中。
当然,当前的巨大难题是,互联网上有大量的语言数据,而空间智能的数据,虽然它全部存在于我们的大脑中,但不像语言数据那样容易获取。所以这些都是为什么这个问题如此困难的原因。但坦率地说,这正是让我兴奋的地方,因为如果这个问题很简单,那就意味着别人已经解决了。而我的整个职业生涯都在追求那些极其困难、几乎可以说是痴心妄想的问题。我认为这就是那个痴心妄想的问题。感谢你们对这个问题的支持。
我们的 World Labs 拥有世界上最聪明的人
主持人:是的,甚至从最基本的原理来看,人脑的视觉皮层处理视觉数据的神经元数量远远超过处理语言的神经元。这种差异是如何在模型中体现的呢?包括,你们正在研究的这些东西与 LLM 相比,架构上的差异也会非常大,对吧?
李飞飞:这是一个非常好的问题。其实,关于这个问题,目前有两种不同的思路。
一种是 LLMs 的方式,很多我们在LLMs 中看到的写作、写作扩展规律,几乎可以通过自监督学习来直接推进,直到实现一个「幸福的结局」。你几乎可以通过蛮力地推进自监督,直到达到目标。
另一种则是构建世界模型,这可能更加细致和有层次,因为世界是有结构的,我们可能需要一些信号来引导它。你可以把它看作是先验知识,也可以称之为数据中的监督信号,反正就是某种方式来引导学习。
我认为这些是我们必须解决的一些开放性问题,但你说得对。如果你考虑到人类的感知,首先,我们甚至没有完全解决人类视觉的所有问题,对吧?3D 如何在人的视觉中发挥作用?这仍然不是一个解决了的问题。我们知道从机械角度,双眼需要通过三角测量来获取信息,但即便如此,我们缺乏一个完善的数学模型,而实际上,人类在 3D 感知方面并不是特别优秀。我们并不是非常擅长理解和操作三维世界,所以有很多问题等待着解答。
所以,我们现在确实处于「World Labs」的阶段。我唯一能依赖的就是,我相信我们拥有世界上最聪明的人才,能在「像素世界」里解决这个问题。
硬件和软件的融合终将到来
主持人:可以说,World Labs 正在构建的这些基础模型,最终的输出是 3D 世界吗?你们正在设想哪些应用场景呢?我看到你提到了从感知到生成的各种可能性。生成模型和判别模型之间总是存在一种张力,那么这些 3D 世界的作用是什么呢?
李飞飞:是的,关于 World Labs 的具体细节我可能无法透露太多,但在空间智能方面,确实是让我非常兴奋的地方。就像语言一样,应用场景非常广泛。从创作开始,设计师、建筑师、工业设计师,甚至是艺术家、3D 艺术家、游戏开发者,都可以用到它。接着,机器人学和机器人学习也是一个非常重要的应用领域,空间智能模型或世界模型的用途非常广泛。此外,很多相关行业,比如营销、娱乐,甚至元宇宙,都会受到影响。对于元宇宙,我真的非常兴奋。虽然目前还没完全实现,我知道它现在还不是很成熟,但正是因为如此,我才更为兴奋。我认为硬件和软件的融合终将到来,未来的潜力非常巨大。这也是一个非常值得期待的应用方向。
李飞飞:是的,我觉得现在有更多的信号表明元宇宙正在逐步实现。我认为硬件确实是其中一个障碍,但更重要的是,你需要内容创作,而元宇宙的内容创作需要世界模型。
从零开始,这是我的舒适区
主持人:让我们换个话题。对于一些观众来说,你从学术界转型到现在做创始人兼 CEO 可能显得有些突然。但实际上,你的整个人生经历都非常非凡,这也不是你第一次从 0 到 1。你曾跟我讲过,你是如何移民到美国的,刚开始完全不会说英语,还和团队一起经营过洗衣店,做了好几年。能不能聊聊这些经历是如何塑造了今天的你的?
李飞飞:对吧?我知道你们肯定在这里想听我分享如何开洗衣店的故事。哈哈。
当时我19岁,完全出于无奈。我没有办法支持我的家人,我的父母需要我上大学,而我想成为普林斯顿大学的物理学专业学生。所以我开了一家干洗店。在硅谷的术语中,我就是一个筹款人,创始人兼 CEO,同时也是收银员和做所有杂事的人,最后我成功「退出」了,经营了七年。
回到 Diana 的观点,特别是对于你们所有人,我看着你们,真的很激动,因为你们比我年轻一半,甚至三分之一,你们那么有才华,真的去做吧,不要害怕。
我整个职业生涯都这样,当然,包括做洗衣店,甚至作为教授时,我也做过几次选择,我曾经选择去一些没有计算机视觉教授的部门,成为第一个,这和很多建议相悖。作为年轻教授,大家都会建议你去有社区和资深导师的地方,当然,我也希望有资深导师,但如果没有,我还是要自己走自己的路。所以我一点也不害怕这些。后来我去 Google 学到了很多关于商业的知识,关于 Google Cloud 和 B2B 的东西,然后我在斯坦福创办了一个创业公司,因为到了 2018 年,AI 已经不仅仅是行业问题,它变成了人类的问题。
人类总是会推动科技进步,但我们不能失去人性。我非常关注如何在 AI 的进步中创建一束光,设想 AI 如何能够以人为本,如何让 AI 帮助人类。所以,我回到斯坦福,创办了一个人类中心的 AI 研究所,并且把它当作创业公司运营了五年。可能有些人不太高兴我在大学里把它当作创业公司运营了这么久,但我对此非常自豪。所以从某种意义上讲,我觉得自己就是喜欢做创业者。我喜欢那种从零开始的感觉,就像站在零点,忘记过去做过的事,忘记别人怎么看你,埋头去做。这是我的舒适区,我真的非常热爱这种感觉。
我寻找的是「智识上的无畏」
主持人:你真的很酷,除了做了所有这些了不起的事之外,你还指导了很多传奇般的研究者,比如 Andrej Karpathy、Jim Fan(现在在 Nvidia)、Jia Deng(ImageNet 项目上的合作)。他们后来都成为了行业中的佼佼者。当他们还是学生的时候,是什么让你看出来他们将来会成就非凡呢?你有什么建议可以分享,告诉我们如何辨识出这些会改变 AI 领域的人?
李飞飞:首先,我觉得自己很幸运,不要觉得我对学生的贡献比他们多。他们真的让我成为一个更好的人、更好的教师和研究员。和这么多像你说的传奇般的学生共事,真的是我一生中的荣幸。每个学生都很不同,有些纯粹是科学家,专注于解决科学问题;有些则是工业领域的领军人物;还有一些是 AI 知识的伟大传播者。但我觉得有一件事是他们共同的特点,我也鼓励在座的每一位同学思考一下这个问题。
对于那些创业者,尤其是在招聘时,我的标准也是看重这个。我寻找的是「智识上的无畏」。
我认为这不仅仅和你来自哪里、我们要解决什么问题无关,最重要的是那份勇气,敢于面对困难,全身心投入并尽力去解决。这种无畏精神真的是成功者的核心特质。我从这些学生身上学到了这一点,作为我们实验室的 CEO,在我的招聘过程中,我也非常看重这一点。
主持人:你们也在为「World Labs」招聘很多人,所以你们也是在寻找相同的职位吧?
李飞飞:是的,我们确实在大规模招聘。我们正在招聘工程类人才、产品类人才、3D 人才,以及生成模型方面的人才。如果你觉得自己无所畏惧,并且对解决智能问题充满热情,欢迎联系我或者来我们的网站看看。
观众问答
提问者 1:你好,飞飞,谢谢你的演讲。我是你的超级粉丝!我的问题是,二十多年前你曾从事过视觉识别方面的工作。我现在想开始攻读博士学位,我应该研究什么方向,才能像你一样成为传奇人物呢?
李飞飞:我想给你一个深思熟虑的回答,因为我总是可以说做任何让你兴奋的事情。
首先,我认为 AI 研究已经发生了变化,因为如果你正在攻读博士学位,你就处于学术界。如今,学术界并不再拥有大多数 AI 资源,这与我当时的情况非常不同。现在的计算能力和数据资源在学术界非常有限,而产业界可以以更快的速度进行研究。因此,作为一名博士生,我建议你去寻找那些不与产业界能够利用更强大计算能力、更丰富数据和团队合作优势解决的问题发生冲突的方向。仍然有一些非常基础的问题,学术界可以继续探讨,哪怕你有再多的芯片,也能取得很大进展。
首先,跨学科的人工智能对我来说是学术界一个非常令人兴奋的领域,特别是在科学发现方面。有太多学科可以与 AI 交叉。我认为这是一个可以深入发展的领域。另一方面,在理论方面,我觉得非常有趣的是,AI 的能力已经完全超越了理论,我们不知道如何做到这一点,缺乏可解释性,也不知道如何揭示因果关系。我们对模型的理解还有很多未知之处,未来可以进一步推动这一领域的发展,这里还有非常多的方向。在计算机视觉领域,依然存在一些尚未解决的问题。另外,小数据也是一个非常有趣的领域,充满了可能性。
提问者 2:谢谢李飞飞教授,再次恭喜您获得耶鲁大学的荣誉博士学位。我很荣幸一个月前能亲自见证这一时刻。我的问题是,从您的角度来看,AGI 更有可能作为一个统一的、单一的模型出现,还是作为一个「模型-智能体」系统出现呢?
李飞飞:你问的这个问题已经提出了两种定义。一种定义更偏向理论层面,把 AGI 定义为通过某种类似 IQ 测试的标准来衡量的智能,另一部分问题则更偏向实用主义,聚焦于智能体能执行哪些任务。坦白说,我对于 AGI 的定义感到有些困惑。
这是因为,1956 年在达特茅斯会议上,人工智能的奠基人们,包括约翰·麦卡锡(John McCarthy)和马文·明斯基(Marvin Minsky),他们当时想要解决的是能「思考」的机器问题,这个问题实际上是图灵(Alan Turing)在他们之前提出来的。因此,这个命题并不是狭义的人工智能问题,而是一个关于智能的广义命题。所以,我并不清楚如何将这个人工智能的奠基问题与「AGI」这个新词区分开来。
对我而言,AGI 和 AI 是同一个问题,但我理解现在的行业里更倾向于把 AGI 看作超越 AI 的概念。我对这种理解有些挣扎,因为我不清楚到底什么是 AGI,它和 AI 到底有什么不同?如果我们说今天的「类 AGI」系统在某些任务上比上世纪 70、80、90 年代的狭义 AI 系统表现得更好,我认为这是对的,这只是该领域发展的一个自然过程。但从根本上讲,我认为人工智能的本质是创造能够像人类一样,甚至比人类更聪明地思考和做事的机器。所以,我并不清楚如何定义 AGI,既然无法定义它,我也就无法判断它是否是一个单一的体系。
如果从大脑的角度来看,它是一个整体,可以称之为单一系统,但它的功能是多样的,甚至大脑中还有像布罗卡区(Broca's area)负责语言,视觉皮层负责视觉,运动皮层负责运动等等。因此,我也不太知道该如何回答这个问题。
提问者 3:你好,我叫Yasna。首先,我想说谢谢你。看到一位女性在这个领域中扮演领导角色,真的很令人鼓舞。作为一名研究员、教育者和企业家,我想请教一下,在人工智能飞速发展的今天,您认为什么样的人应该去攻读研究生学位?
李飞飞:这是一个很好的问题,甚至连家长们也曾问过我。研究生阶段是你拥有强烈好奇心的四到五年。
你是由好奇心驱动的,而这种好奇心非常强烈,以至于没有比这里更合适的地方来追求它。这与创业公司不同,因为在创业公司中,不能仅仅靠好奇心来推动。你必须小心,创业公司不仅仅是由好奇心驱动的,投资者会对你感到不满。它更侧重于实现商业目标,虽然其中也有好奇心的成分,但它并不完全是好奇心驱动的。而对于研究生来说,解决问题的好奇心或提问的能力是如此重要,我认为那些带着这种强烈好奇心进入研究生阶段的人,会真的享受这四五年,即使外部世界飞速发展,你仍然会因为追随自己的好奇心而感到满足。
提问者 4:首先,我想感谢您抽出时间,谢谢您来和我们分享您的观点。您提到,开源在图像智能的发展中起了重要作用,现在随着大语言模型的发布和发展,我们看到不同的组织在开源方面采取了不同的策略。一些组织完全闭源,一些组织则完全开源其整个研究框架,还有一些组织采取折中的方式,开源模型权重或采用有限制的许可证等等。所以我想请问,您如何看待这些不同的开源方式?您认为正确的做法是什么?作为一家人工智能公司,开源应该如何运作?
李飞飞:我认为当生态系统中有不同的开源方式时,整个环境是健康的。我并不固执于必须开源或必须闭源,这取决于公司的商业战略。例如,像Meta(前Facebook)为什么选择开源是非常明确的,他们目前的商业模式并不是通过销售模型来盈利,而是通过利用这些模型来发展生态系统,吸引更多人使用他们的平台。所以开源对他们来说是非常有意义的。而对于其他一些真正通过这些技术盈利的公司,你可以考虑开源和闭源相结合的方式,分层次地运作。因此,我对这些方式持开放态度。
从更高层次来看,我认为开源应该受到保护,无论是在公共部门(如学术界)还是私人部门,如果有开源的努力,都是非常重要的。它对创业生态系统至关重要,也对公共部门非常重要。我认为这些努力应该得到保护,而不应该被忽视。
提问者 5:你好,我叫 Carl,来自爱沙尼亚,我有一个关于数据的问题。你提到了机器学习从数据驱动方法转向的变化,特别是在 ImageNet 上取得的进展,而现在你们正在研究世界模型,并且你提到我们缺乏空间数据,互联网中并不存在这些数据,只有在我们的大脑中才有。你们是如何解决这个问题的?你们的研究方向是什么?你们是在从现实世界收集数据,还是生成合成数据?你们相信合成数据吗?还是更相信传统的先验知识?谢谢。
李飞飞:你应该加入我的「World Labs」,我会告诉你。作为一家公司,我不能分享太多,但我认为重要的是要承认我们采用的是一种混合方法。拥有大量数据确实很重要,但同样重要的是拥有高质量的数据。归根结底,如果你不注意数据的质量,最终结果还是垃圾进垃圾出。
提问者 6:你好,李飞飞博士,我叫 Annie,非常感谢您与我们交流。在您的书《The World》中,我看到您谈到了作为一名移民女孩和女性在 STEM 领域面临的挑战。我很想知道,您是否有过在职场中感受到自己是少数群体的时刻?如果有,您是如何克服这一困境或说服他人的?
有时候这与我是谁有关,有时候与我的想法有关,有时候也许只是因为我穿的衣服颜色,反正总会有各种原因。但在这方面,我确实想鼓励大家。也许是因为我从小来到这个国家,我积累了一些经验。我已经接受了这一点:我就是一名移民女性。我几乎发展出了一个能力,就是不会过度在意这些。我在这里,就像你们每个人一样。我在这里学习、做事、创造东西。
我真的想对你们每一个人说,你们正要开始做一些事情,或者已经在做某件事情的过程中,你们会有脆弱或困惑的时刻,我每天都会有这种感觉,尤其是在创业生活中。有时候我会想,天啊,我不知道自己在做什么。别担心,专注于去做。像梯度下降一样,一步步朝着最优解前进。