人工智能的热度越来越高,以至于"AI春晚"一年要办两场。
美东时间10月27日至29日,人工智能盛会英伟达GTC大会首次在华盛顿特区举办"加场"。有别于更聚焦技术、产品的3月圣何塞春季旗舰大会,10月的华盛顿大会更像是"政策专场",不少讨论都聚焦于AI领域的产业政策、政府角色等。
此前英伟达官方也曾预告,大会重头戏——公司CEO黄仁勋的主题演讲除了会公布产品相关信息外,还将为观众厘清AI如何重塑行业、基础设施及公共部门的路线图。Wccftech的会前报道也曾指出,考虑地缘问题对英伟达变得愈发重要,在华盛顿举办的大会或将更加关注"如何确保美国在人工智能竞赛中保持领先地位"。更引人瞩目的是,美国总统特朗普在大会召开之际称"希望向黄仁勋表示祝贺",还表示二人随后就将会面。
美东时间10月28日中午12时许,黄仁勋如期登台发表演讲。再次回顾公司发展历程后,他集中介绍了公司在6G、量子计算、AI基础设施建设等领域的最新进展和雄心。而在这背后,有关如何保持美国在AI领域的竞争优势的考虑无处不在。
在6G领域,黄仁勋详细解释了公司刚刚宣布的向诺基亚投资10亿美元的计划。表示双方将合作开发6G人工智能平台,诺基亚未来的基站将全面采用主题演讲中发布的全新产品线NVIDIA Arc架构。"这将推动美国重返电信领导地位",英伟达在与黄仁勋主题演讲同步发出的新闻稿中写道。
黄仁勋还在演讲中推出了NVQLink,这是一种旨在将量子处理器与GPU计算系统连接起来的系统架构。他表示,未来每台使用英伟达GPU的超级计算机都将是混合的,与量子处理器紧密耦合,以扩展计算的可能性。"这是计算的未来",虽然没有公布具体技术进展,但黄仁勋称已有17家量子计算公司承诺支持NVQLink。另外,主题演讲中也明确提到,NVQLink允许量子处理器与美国九个国家实验室的超级计算系统连接,保持美国在高性能计算领域的领先地位。与此同时,黄仁勋还宣布英伟达将与美国能源部合作建造7台新的AI超级计算机以推动美国科学发展,这也将成为美国能源部最大的AI超级计算机。
在近2个小时的演讲中,黄仁勋还谈到了机器人、物理AI、美国的制造业回流等众多热点问题,并展示了下一代Vera Rubin超级芯片,还发布了英伟达数据中心/AI GPU路线图。值得一提的是,就像呼应后者在远方的祝贺一样,黄仁勋还感谢了特朗普,主要是因为他在推动为数据中心加强能源供给方面的举措。
延续着此前说法,黄仁勋认为人类正处于人工智能工业革命的黎明,而这项技术将定义每个行业和国家的未来。"美国必须引领这场迈向未来的竞赛,这是我们这一代人的阿波罗时刻。下一轮的发明、发现和进步将取决于国家扩展人工智能基础设施的能力。我们正在与我们的合作伙伴一起建设有史以来最先进的人工智能基础设施,确保美国拥有繁荣未来的基础,并确保世界人工智能以美国的创新、开放和协作为基础造福所有人。"他表示。
在中美AI竞赛趋于白热化,两国贸易关系持续波动的时刻,黄仁勋和他的英伟达也承受着来自双方的压力。此前特朗普政府曾禁止英伟达向中国出口高端芯片。但禁令解除后,英伟达又在中国接连遭遇反垄断调查、安全后门等问题。根据公司季度财报和黄仁勋的"亲口承认",英伟达在中国的市占率已从95%直接归零,从今年二季度开始就无法向中国市场正常销售芯片。而中国则在加速AI制造国产化替代进程,以寒武纪为代表的国产芯片公司备受瞩目,被寄予"产生像DeepSeek一样的冲击波"的期待。截至10月28日,寒武纪股价已再次超越贵州茅台,成为A股第一高价股。
不过,英伟达是全球市值最高的公司。值得一提的是,在黄仁勋发表主题演讲的同时,英伟达股价继续走高,盘中突破203美元,总市值逼近5万亿美元,再次创下历史新高。
以下为黄仁勋主题演讲的中文翻译版,经AI辅助和人工编辑:
欢迎来到GTC。
今天我们有太多内容要和大家分享。GTC是我们探讨工业、科学、计算、现在与未来的地方。所以今天我要涵盖的内容非常多。
但在我开始之前,我想感谢我们所有的合作伙伴。他们帮助赞助了这次活动。你们会在展会周围看到他们。他们来这里与大家会面,这真的很棒。没有我们整个生态系统的合作伙伴,
我们无法完成我们所做的一切。
大家都说,这是AI领域的"超级碗"。那么,每一届"超级碗"都应该有一个精彩的开场秀。你们觉得刚才的开场秀(指开场播放的回顾美国及全球科技产业发展的短片)和我们的"全大写全明星"阵容(指大屏幕上展示的赞助商名单)怎么样?全是全明星运动员和全明星阵容。看看这些家伙。
在接下来的三个半小时里,AI生态系统的各个行业将齐聚一堂,共同探讨一些事情。
那么,我们开始吧。
如大家在视频中所见,英伟达在60年来首次发明了一种新的计算模型。一种新的计算模型很少出现。这需要大量的时间和一系列我们观察到的条件。我们发明这种计算模型,是因为我们想解决通用计算机、普通计算机无法解决的问题。我们还观察到,总有一天,晶体管会继续增加,但晶体管的性能和功耗提升将会放缓。这就意味着,摩尔定律将无法持续,它会受到物理定律的限制。那个时刻现在已经到来,我们的缩放已经停止了。这被称为"德纳德缩放"。德纳德缩放大约在十年前就几乎停止了。事实上,晶体管性能及其功耗的提升已经大幅放缓。
然而,晶体管数量仍在继续增长。我们在很久以前就注意到了这一点,并且在过去的30年里,我们一直在推进这种我们称之为"加速计算"的计算形式。我们发明了GPU。我们发明了名为CUDA的编程模型。我们观察到,如果我们能增加一个处理器,利用越来越多的晶体管,应用并行计算,将其与顺序处理的CPU相结合,我们就能将计算能力扩展到远超以往的程度。而这个时刻确实已经到来了。
我们已经看到了这个拐点:加速计算,它的时代现在已经来临。
然而,加速计算是一种本质上就不同的编程模型。你不能只是把手工编写的、顺序执行的CPU软件放到GPU上,并指望它能正常运行。事实上,如果你只是那样做,它实际上会运行得更慢。所以你必须重新发明新算法,你必须创建新的库,事实上,你必须重写应用程序,这就是为什么它花了这么长时间。我们花了将近30年才走到这里,但我们是一步一个脚印走来的。这也是我们公司的瑰宝。
大多数人谈论GPU的重要性,但如果没有一个构建在其之上的编程模型,并且没有对这个编程模型进行代际兼容的dedication(我们现在是CUDA 13,即将推出14),如果没有数百万个GPU在每台计算机上完美兼容地运行。那么开发者就不会以这个计算平台为目标。如果我们没有创建这些库,那么开发者就不知道如何使用算法,并充分发挥架构的潜力。我的意思是,这真的是我们公司的瑰宝。
(对应现场屏幕的展示依次解释)我们花了将近七年的时间才让cuLitho达到现在的水平。现在台积电在使用它,三星在使用它,ASML也在使用它。这是一个用于计算光刻的不可思议的库,这是制造芯片的第一步。
cuOpt,在数值优化方面打破了几乎每一项纪录……
cuDF,一个数据帧方法,基本上是加速SQL、数据帧、专业数据帧数据库。
这个库是共同启动AI的库,cuDNN,以及构建在它之上的名为Megatron Core的库,使我们能够模拟和训练极其庞大的语言模型。这样的例子还有很多。MONAI,非常重要,世界排名第一的医学影像AI框架。顺便说一下,我们今天不会过多讨论医疗保健,但请务必观看Kimberly的主题演讲。她会详细讨论我们在医疗保健领域的工作。这样的例子还有很多,基因组学处理、航空影像… 请大家注意,今天我们在这里要做一些非常重要的事情。那就是cuQuantum,量子计算。
屏幕展示的这只是我们公司350个不同库的代表。这里的每一个库都重新设计了加速计算所需的算法。每一个库都使得我们所有的生态系统合作伙伴能够利用加速计算,并且每一个库都为我们开辟了新的市场。让我们看看CUDA-X能做什么。
准备好了吗?开始。
(现场展示了数段游戏、动画CG片段)
是不是很神奇?你们看到的一切都是模拟。没有艺术,没有动画。这就是数学之美。这是深度的计算机科学,深度的数学,它的美令人难以置信。涵盖了每一个行业,从医疗保健和生命科学,到制造业、机器人技术、自动驾驶汽车、计算机图形学…甚至电子游戏。你们看到的第一个镜头是英伟达运行过的第一个应用程序。那是我们1993年开始的地方。我们一直坚信我们正在努力做的事情。很难想象,你能看到那个最初的虚拟战斗机场景活生生地呈现出来。而同一家公司相信我们今天会站在这里。这真是一段不可思议的旅程。我想感谢所有英伟达员工,请大家为他们鼓掌,感谢你们所做的一切。这真的太不可思议了。
今天,我们涵盖了很多行业。我的演讲也将涵盖AI、6G、量子模型、企业计算、机器人和工厂。
让我们开始吧。我们要涵盖很多内容,有很多重大发布,有很多新合作伙伴,这些可能会让你们非常惊讶。
电信是我们经济、我们工业、我们国家安全的支柱和生命线。自从无线技术诞生以来,我们定义技术,我们定义全球标准,我们将美国技术出口到世界各地,以便世界可以基于美国的技术和标准进行建设。然而,距离那时已经过去很久了。
当今世界部署的无线技术很大程度上都基于外国技术。我们基本的通信架构建立在外国技术之上。这种情况必须停止。
而我们有机会做到这一点,尤其是在这个根本性的平台转型期。
如你们所知,计算机技术实际上是每个行业的基础。它是科学最重要的工具。它是工业最重要的工具。我刚刚说过我们正在经历一个平台转型。这个平台转型应该是我们千载难逢的机会,让我们重新回到游戏中,开始基于美国技术进行创新。今天,我们宣布我们将这样做。我们与诺基亚建立了重大合作伙伴关系。
诺基亚是世界第二大电信设备制造商。这是一个3万亿美元的产业。包含数千亿美元的基础设施,全球有数百万个基站。如果双反进行合作,我们可以基于这个令人难以置信的、根本上基于加速计算和AI的新技术进行建设。并且让美国成为6G下一次革命的中心。所以今天,我们宣布英伟达有一个新的产品线。它叫做英伟达Aerial RAN Computer Arc。Arc由三项基本新技术构建而成:出色的CPU——Blackwell GPU,以及我们用于此应用的ConnectX网络。
所有这些使我们能够运行这个库。我前面提到的这个CUDA-X库叫做Aerial,本质上是一个运行在CUDA之上的无线通信系统。
我们将首次创建一个软件定义的、可编程的计算机,它能够无线通信,同时进行AI处理。
这完全是革命性的。我们称之为英伟达Arc。
而诺基亚将与我们合作,集成我们的技术,重写他们的软件栈。这是一家拥有7000项5G基本专利的公司。
很难想象,还有比这更伟大的电信领导者了。所以我们将与诺基亚合作。他们未来的基站将全面采用英伟达Arc。而英伟达Arc也与诺基亚当前的AirScale基站兼容。
这意味着,我们将采用这项新技术,并能够用6G和AI升级全球数百万个基站。现在,6G和AI确实很重要,我们也将首次能够使用AI技术——"AI for ran"——通过使用人工智能、强化学习,根据环境、流量、移动性、天气等实时调整波束成形,来提高无线通信的频谱效率。
所有这些都可以被考虑进去,这样我们就能提高频谱效率。基站消耗了全球约1.5%到2%的电力。所以提高频谱效率意味着我们可以在不增加必要能源的情况下,通过无线网络传输更多数据。
我们能做的另一件事是"AI on ran"。这是一个全新的机会。请记住,互联网实现了通信,但令人惊奇的是,像AWS这样的聪明公司在互联网之上构建了云计算系统。我们现在将在无线电信网络之上做同样的事情。这个新的云将是一个边缘工业机器人云。
这就是说,"AI for ran"来提高无线电频谱效率。"AI on ran"本质上则是无线电信的云计算。云计算将能够直接延伸到边缘,那里没有数据中心,因为我们在世界各地都有基站。这个发布非常令人兴奋。Justin Hodar,诺基亚他们的CEO,我想他就在会场某处,感谢您与我们合作,感谢您帮助将电信技术带回美国。这真是一次了不起的合作。非常感谢。
(现场响起诺基亚经典铃声)这是庆祝诺基亚的最佳方式。
接下来,让我们谈谈量子计算。1981年,粒子物理学家、量子物理学家理查德·费曼设想了一种新型计算机,可以直接模拟自然。他称之为量子计算机。
四十年后,这个行业取得了根本性的突破。
就在去年,实现了一个根本性的突破。现在可以制造出一个逻辑量子比特。一个相干的、稳定的、并且经过纠错的逻辑量子比特。这一个逻辑量子比特由有时是几十个,有时是几百个物理量子比特共同工作组成。如您所知,量子比特这些粒子极其脆弱。它们可能非常不稳定。
任何观察、任何采样、任何环境条件都可能导致它退相干。
因此,它需要极其受控的环境,现在还需要许多不同的物理量子比特让它们协同工作,让我们能够对它们进行纠错,这些被称为辅助量子比特或综合征量子比特。让我们能够纠正错误,并推断出那个逻辑量子比特的状态。有各种不同类型的量子计算机,超导、光子、囚禁离子、稳定原子,各种不同的制造量子计算机的方法。
我们现在意识到,将量子计算机直接连接到GPU超级计算机是至关重要的,这样我们才能进行纠错,才能进行量子计算机的人工智能校准和控制,才能进行协同模拟,共同工作,让正确的算法运行在GPU上,正确的算法运行在QPU(量子处理单元)上,并让这两个处理器、两台计算机并肩工作。
这是量子计算的未来。让我们看看。
(现场播放了一段量子计算相关的视频,其中称量子纠错是答案,NVQ Link则是一种新的互连架构,直接将量子处理器与英伟达GPU连接起来,他们还将能够协调量子设备和AI超级计算机来运行量子GPU应用程序。)
所以今天,我们正式发布NVQ、NVQ Link。这得益于两件事,当然,这个互连实现了量子计算机控制和校准、量子纠错,以及连接两台计算机(QPU和我们的GPU超级计算机)的混合模拟。它也是完全可扩展的。它不仅仅针对今天少量量子比特进行纠错。它也为未来进行纠错,届时我们将把这些量子计算机从今天的几百个量子比特扩展到数万个量子比特,未来甚至到数十万个量子比特。
所以我们现在有一个架构,可以进行控制、协同模拟、量子纠错,并面向未来进行扩展。行业的支持一直令人难以置信。
在CUDA-Q的发明期间,记住,CUDA是为GPU-CPU加速计算设计的,基本上是用合适的工具做合适的工作。现在CUDA-Q已经扩展到CUDA之外,这样我们就可以支持QPU,并让两个处理器(QPU和GPU)协同工作,计算在几微秒内来回移动,这是与量子计算机协作所需的关键延迟。所以现在CUDA-Q是一个如此不可思议的突破,被众多不同的开发者采纳。今天我们宣布有17家不同的量子计算机行业公司支持NVQ Link架构。我对此感到非常兴奋。还有8个不同的美国能源部下属实验室:伯克利、布鲁克海文、费米实验室、林肯实验室、洛斯阿拉莫斯、橡树岭… 几乎每个美国能源部实验室都与我们合作,与我们的量子计算机公司和这些量子控制器生态系统合作,以便我们将量子计算集成到未来的科学中。
我们还有一个额外的重要发布。
今天,我们宣布美国能源部正与英伟达合作,建造7台新的AI超级计算机,以推动我们国家的科学发展。
我必须向克里斯·赖特部长(美国能源部部长)部长致敬。他给能源部带来了如此多的活力,能量的激增、激情的激增,以确保美国再次引领科学。
正如我提到的,计算是科学的基本工具,我们正在经历几个大的平台转型期。一方面,我们转向加速计算。这就是为什么未来的每台超级计算机都将是基于GPU的超级计算机。而且,我们转向AI,这样AI和基于原理的求解器、基于物理的模拟都不会消失,但它可以得到增强,从而通过使用代理模型、AI模型协同工作来扩展规模。
我们也知道,基于原理的求解器、经典计算可以通过使用量子计算来增强,以理解自然状态。我们也知道,未来,我们有如此多的信号,如此多的数据需要从世界中采样。遥感比以往任何时候都更重要。而这些实验室,除非它们是机器人工厂、机器人实验室,否则我们无法以我们需要的规模和速度进行实验。所以所有这些不同的技术正在同时进入科学领域。
赖特部长理解我们,他希望美国能源部抓住这个机会,为自己注入超强动力,并确保美国保持在科学的前沿。
我想为此感谢你们所有人。谢谢。
接下来,让我们谈谈AI。
什么是AI?大多数人会说AI是一个聊天机器人,这确实是正确的。毫无疑问,ChatGPT是人们认为的AI前沿。然而,正如你现在看到的,这些科学超级计算机不是用来运行聊天机器人的。它们将进行基础科学AI。
AI的世界远不止聊天机器人,当然。聊天机器人极其重要,而AGI从根本上来说至关重要。深度计算机科学、不可思议的计算能力、伟大的突破对于AGI仍然至关重要。但除此之外,AI还有更多内涵。
事实上,我将用几种不同的方式来描述AI。
第一种方式,你首先会想到的是,AI已经完全重塑了计算栈。
我们过去编写软件的方式是手工编码的软件运行在CPU上。今天AI是机器学习、训练、数据密集型编程,如果你愿意这么说的话,通过AI进行训练和学习,而AI运行在GPU上。为了实现这一点,整个计算栈已经改变。注意,你在这里看不到Windows。你看不到CPU。
你看到的是一个完全不同的、根本不同的栈。
我们还可以从对能源的需求开始说起,这是另一个领域,我们的政府、特朗普总统值得巨大赞誉,他支持能源发展的倡议,他认识到这个行业需要能源来增长,需要能源来进步,我们需要能源来获胜。他认识到这一点,并将国家的力量置于支持能源增长之后,完全改变了游戏规则。如果没有发生这种情况,我们可能会陷入糟糕的境地。我为此感谢特朗普总统。
在能源之上是这些GPU。这些GPU被连接起来,构建成我稍后会展示的基础设施。在这个基础设施之上,包括巨型数据中心,轻松有这个房间大小的好多倍,消耗巨大的能量,然后通过这些称为GPU超级计算机的新机器转化能量,以生成数字。这些数字被称为Token,可以说是人工智能的语言、计算单元、词汇表。你几乎可以将任何东西标记化。你当然可以将英文单词标记化。这就是为什么你能够识别图像或生成图像。将视频标记化,将3D结构标记化,你可以标记化学物质、蛋白质和基因,你可以标记我们自己,或者几乎任何有结构的东西,任何有信息内容的东西。
一旦你能将其标记化,AI就能学习那种语言及其含义。一旦它理解了那种语言的含义,它就能翻译、能响应,就像你与ChatGPT互动一样。它也能生成,就像ChatGPT能生成一样。所以,你看到ChatGPT做的所有基本事情,你只需要想象,如果它是蛋白质会怎样?
如果它是化学物质呢?如果它是一个像工厂一样的3D结构呢?如果它是一个机器人,而标记是理解行为,并将动作和运动标记化呢?所有这些概念基本上都是一样的,这就是为什么AI正在取得如此非凡的进展。
在这些模型之上是应用程序。Transformer不是一个通用模型。它是一个非常有效的模型,但不存在一个通用的模型。只是AI具有普遍的影响力而已。我们有太多不同类型的模型了。在过去的几年里,我们享受了多模态的发明并经历了创新突破。有太多不同类型的模型。有CNN模型,有状态空间模型,有图神经网络模型。
在这些模型架构之上是应用程序,即过去的软件。这是对人工智能的一个深刻理解,一个深刻的观察。
过去的软件行业是关于创建工具的。Excel是一个工具,Word是一个工具,网页浏览器也是一个工具。我们之所以知道这些是工具,是因为大家在使用它们。
工具,就像螺丝刀和锤子一样,行业只有这么大,这些IT工具大约价值1万亿美元左右。
但AI不是一个工具,AI是工作者,这就是深刻的区别。AI实际上是能够使用工具的工人。
我真正感到兴奋的事情之一是由Irvin在Perplexity所做的工作,他们使用网页浏览器来预订假期或购物。
基本上是一个使用工具的AI。Cursor是一个AI和代理式AI系统,我们在英伟达使用它。英伟达的每一位软件工程师都在使用Cursor。这极大地提高了我们的生产力。它基本上是我们每一位软件工程师生成代码的合作伙伴。它也使用名叫VS Code的工具。所以Cursor是一个AI,一个代理式AI系统,而VS Code是它使用的工具。
所有这些不同的行业,无论是聊天机器人,还是数字生物学(在那里我们有AI助理研究员),或者机器人出租车。说到这,在机器人出租车内部,虽然看不见的,但显然有一个AI司机。那个司机在工作,而它用来工作的工具就是汽车。
所以,我们至今创造的一切,整个世界,我们至今创造的一切都是供我们使用的工具。有史以来第一次,技术现在能够自己工作并帮助我们提高生产力。
这样的机会列表还在继续,这就是为什么AI所涉及的经济领域是它从未触及过的。
它是在工具之下的几万亿美元、甚至百万亿美元全球经济。现在,AI将首次涉足这百万亿美元的经济,使其更具生产力,增长更快,规模更大。我们面临严重的劳动力短缺,拥有增强劳动力的AI将帮助我们增长。
从技术产业的角度来看,有趣的是,在AI是开创经济新领域的新技术这一事实之外,AI本身也是一个新产业。
正如我早先解释的,这些Token,这些数字,在你将所有不同的模态和信息标记化之后,需要一个工厂来生产这些数字,这与过去不同。过去的计算机行业和芯片行业,请注意,如果你看过去的芯片行业的话,过去的芯片行业约占IT行业的5%到10%,也许更少。
原因是,使用Excel不需要那么多计算,使用浏览器不需要那么多计算,使用Word不需要那么多计算。
但是在这个新世界里,需要有一台计算机始终理解上下文。它无法预先计算,因为每次你使用AI计算机,每次你要求AI做某事时,上下文都是不同的。所以它必须处理所有这些信息环境。例如,在自动驾驶汽车的情况下,它必须处理汽车的上下文。你提出的指令是什么?要求AI去做?然后它必须逐步分解问题,进行推理,制定计划并执行。每一步都需要生成大量的Token,这就是为什么我们需要一种新型系统,我称之为AI工厂。
它当然是一个AI工厂。它不同于过去的数据中心,它是一个AI工厂。
因为,这个工厂只生产一样东西,不像过去的数据中心什么都做,为我们所有人存储文件,运行各种不同的应用程序。你可以像使用计算机一样使用那个数据中心来处理所有应用程序。你可以一天用它来玩游戏,你可以用它来浏览网页,你也可以用它来做会计。
所以那是过去的计算机,一个通用的、多用途的计算机。
我在这里谈论的计算机是一个工厂。它基本上只运行一样东西:它运行AI。其目的是设计用来生产尽可能有价值的Token,意思是它们必须聪明,并且你希望以惊人的速度生产这些Token。因为当你向AI提问时,你希望它快速响应。并且注意到在高峰时段,这些AI的响应越来越慢,因为它要为很多人做很多工作。
所以你希望以惊人的速度生产有价值的Token,并且你希望以高效的方式生产它。我使用的每一个词都与AI工厂、汽车工厂或任何工厂的概念一致。
它绝对是一个工厂。而这些工厂以前从未存在过。在这些工厂内部是堆积如山的芯片,这引出了今天的话题。
过去几年发生了什么。事实上,去年发生了一些相当深刻的事情。
实际上,如果你看今年年初,每个人对AI都有某种态度。这种态度通常是:这将会很大,这将是未来。几个月前,它进入了涡轮增压模式。原因有几个。首先,在过去的几年里,我们已经找到了如何让AI更聪明的方法。这不仅仅是预训练。预训练基本上是说,让我们把人类创造的所有信息都给AI学习。这本质上是记忆和泛化。这不像我们小时候上学。学习的第一阶段,预训练从来不是,就像学前班从来不是教育的终点一样。预训练仅仅是教你智能的基本技能,以便你能够理解如何学习其他一切。
接下来是后训练。预训练之后是教你解决问题的技能,分解问题,进行推理。
关于如何解决数学问题,如何编码,如何逐步思考这些问题,使用第一性原理推理。然后在那之后,才是计算真正开始发挥作用的时候。如你们所知,我们上了学,那对我来说是几十年前的事了。但自那以后,我学到了更多,思考了更多。原因是我们在不断地用新知识夯实自己。我们不断地进行研究,我们不断地思考,这确实是智能的全部意义所在。
所以现在我们拥有三个基本的技术技能。我们有这三个技术:预训练,这仍然需要巨大的计算量。我们现在有后训练,它使用甚至更多的计算。而现在,"思考"给基础设施带来了难以置信的计算负荷,因为它是在为我们每一个人思考。
所以AI进行推理、"思考"所需的计算量确实非常巨大。我以前听人说推理很容易,英伟达应该做训练,英伟达需要做。
但是,思考怎么可能容易?
思考是困难的,这就是为什么这三个扩展法则给计算量带来了如此大的压力。现在另一件事发生了,从这三个扩展法则中,我们得到了更聪明的模型,这些更聪明的模型需要更多的计算。而模型越聪明,就有越多的人使用它,这就需要越多的计算。而且,现在它们值得付费了。英伟达为每一份Cursor许可证付费,我们很乐意这样做,因为Cursor正在帮助价值数十万美元的员工——软件工程师或AI研究员——提高数倍的生产力。所以,我们当然非常乐意这样做。
这些AI模型已经好到值得付费了。Cursor、11 Labs、Cynthia、Abridge、OpenEvidence,这样的例子还有很多。当然还有OpenAI、Claude。这些模型现在如此之好,以至于人们愿意为之付费。因为人们付费并更多地使用它,而每次他们更多地使用它,你就需要更多的计算。我们现在有两个指数级增长。这两个指数,一个是三个扩展法则带来的指数级计算需求。
第二个指数是,模型越智能,就有越多的人使用它,用户增长和模型能力提升相互促进,都导致计算需求指数级增长。
两个指数现在同时对世界的计算资源施加压力,正好在我刚才告诉你摩尔定律已基本结束的时候。
所以问题是,我们该怎么做?
如果我们有这两个指数级增长的需求,而我们找不到方法来驱动成本下降,那么这个正反馈系统就会崩溃。良性循环对几乎任何行业都至关重要,对任何平台行业都至关重要。它对英伟达也至关重要。
我们现在已经达到了CUDA的良性循环。
创建的应用越多,人们创造的应用越多,CUDA就越有价值,CUDA就越有价值。购买的CUDA计算机越多,购买的计算机越多,开发者就越想为该平台创建应用。英伟达的这个良性循环在经过30年后现在已经实现了。15年后,我们也将为AI实现了这个良性循环。
AI现在已经达到了一个良性循环。所以,你越多地使用它,因为AI很智能并且我们愿意付费,就能产生越多的利润。产生的利润越多,投入到电网中的计算资源就越多,投入到AI工厂中的计算就越多,AI就能变得越智能,越多的人使用它,越多的应用使用它,我们能解决的问题就越多。这个良性循环现在开始运转了。
我们需要做的是大幅降低成本,以便第一让用户体验更好,当你提示AI时,它响应你的速度要快得多;第二,这样我们就能通过驱动成本下降来保持这个良性循环继续,这样它就能变得更聪明,这样就有更多人使用它,如此循环下去,这个良性循环现在正在加速。
但是当摩尔定律真的达到极限时,我们该怎么做呢?答案叫做协同设计。你不能只设计芯片,然后指望运行在上面的东西会更快。在设计芯片方面,你能做的最好就是每隔几年增加可能50%的晶体管。如果你增加了更多晶体管,或者只是不断增加更多晶体管,但那都是百分比增长,不是指数增长。我们需要复合指数增长来保持这个良性循环继续,我们称之为极端协同设计。英伟达是当今世界上唯一一家真正从一张白纸开始,能够同时思考新的基础架构、计算机架构、新芯片、新系统、新软件、新模型架构和新应用的公司。在座的许多人之所以在这里,是因为你们是这个堆栈不同层面的一部分。通过与英伟达合作,我们从根本上重新设计了从底层到顶层的一切。
然后,因为AI是一个如此庞大的问题,我们将其规模化。我们首次创建了一台计算机,这台计算机已经扩展成整个机架。那是一台计算机,一个GPU,然后我们通过发明一种新的AI以太网技术(我们称之为Spectrum-X Ethernet)将其横向扩展。
每个人都会说以太网就是以太网。而Spectrum-X以太网是为AI性能而设计的,这就是它如此成功的原因。即使那样也还不够大。我们会用AI超级计算机和GPU填满整个房间。那仍然不够大,因为AI的应用数量和用户数量持续呈指数级增长,我们将多个这样的数据中心连接在一起,我们称之为跨规模扩展,使用Spectrum-X GS,千兆规模X,Spectrum-X Gigascale XGS。
通过这样做,我们在如此巨大的层面上进行协同设计,如此极端的层面,以至于性能提升是惊人的。不是每一代提升50%,不是每一代提升25%,而是多得多。
这是我们制造过的最极端的协同设计计算机,坦白说,自IBM System 360以来,在现代时期,我认为从未有过像这样从头开始、彻底重新发明的计算机。创建这个系统极其困难。我稍后会向你们展示其好处。但本质上我们所做的,我们创造了NVLink 72,如果我们要创建一个巨大的芯片,一个巨大的GPU,它看起来会是这样。这是我们必须要做的晶圆级处理的水平,是不可思议的。所有这些,所有这些芯片现在都被放入一个巨大的机架,这个巨大的机架使所有这些芯片作为一个整体协同工作。这看上去完全不可思议。
(现场演示环节)
不管怎样,我们基本上,过去我们创造的是这个。这是NVLinks,NVLink 8。现在这些模型如此巨大,我们解决的方法是把这个模型,这个巨大的模型,变成一大堆专家,有点像团队。所以这些专家擅长某些类型的问题,我们把一大堆专家聚集在一起。所以这个巨大的数万亿美元AI模型有所有这些不同的专家,我们把所有这些不同的专家放在GPU上。现在是NVLink 72。我们可以把所有的芯片放入一个巨大的交换网络中,每个专家都可以相互交谈。所以主专家、主要专家可以与所有下属专家交谈,以及所有必要的上下文、提示和我们必须发送给所有专家的大量数据。专家们,无论哪个专家被选中来解答问题,我们会更多地尝试响应,然后它会一层接一层地去做,有时八层,有时十六层。有时这些专家,有时六十四个,有时两百五十六个。但关键是专家越来越多。
那么,这里,NVLink 72,我们有72个GPU。正因为如此,我们可以在一个GPU里放四个专家。你需要为每个GPU做的最重要的事情是生成Token,这取决于你的HBM内存的带宽量。
我们有一个H100 GPU为四个专家生成"思考"。而在这里,因为每台计算机只能放八个GPU,我们必须把三十二个专家放进一个GPU。所以这个GPU要为一个专家进行三十二次"思考"。
对比这个系统,每个GPU只为一个专家进行四次"思考"。正因为如此,速度差异是惊人的。这个刚刚出来,是由SemiAnalysis进行的基准测试。他们做了非常彻底的工作,他们对所有可进行基准测试的GPU进行了基准测试。结果发现并没有那么多。如果你看看GPU列表,实际上可以基准测试的GPU大概90%是英伟达。
好吧。但是,所以我们是在和自己比较,但世界上第二好的GPU是H200,运行所有工作负载。
Grace Blackwell每个GPU的性能是H200的10倍。当你只增加了两倍的晶体管时,如何获得10倍的性能?答案是极端协同设计。通过理解未来AI模型的性质,并且我们在整个堆栈上进行思考,我们可以为未来创建架构。这是件大事。这意味着我们现在可以更快地响应。但接下来是更大的事。
这张图片显示世界上成本最低的Token是由Grace Blackwell NVLink 72生成的,这是最昂贵的计算机。一方面,GB200是最昂贵的计算机。另一方面,它的Token生成能力如此强大,以至于它以最低的成本生产Token。
因为每秒Token数除以Grace Blackwell的总拥有成本是如此之好,以至于它是生成Token成本最低的方式。通过这样做,提供惊人的性能,10倍的性能提升,并提供10倍的低成本,以此让良性循环可以继续。
不管怎样,有两个平台转型正在同时发生。一个平台转型是从通用计算转向加速计算。
记住,加速计算,正如我之前向你们提到的,它进行数据处理、图像处理、计算机图形学,它进行各种计算。它运行SQL,运行Spark,不管你需要什么,我相当确定我们有一个很棒的库能够给你。你可能是一个试图制造掩模版来生产半导体的数据中心。我们有一个很棒的库给你。所以,在底层, irrespective of AI,世界正在从通用计算转向加速计算,这与AI无关。事实上,许多CSP在AI出现之前早就有了服务。记住,它们诞生于机器学习时代,经典的机器学习算法,如XGBoost,用于推荐系统、协同过滤、内容过滤的算法,像数据帧这样的算法,所有这些技术都是在通用计算的时代创建的。
即使是那些算法,即使是那些架构,现在通过加速计算也变得更好。所以,即使没有AI,世界的CSP也将投资于加速。而我们的GPU是唯一能完成所有这些事情的GPU。
而ASIC可能能做AI,但它不能做任何其他事情。
英伟达能完成所有那些。
这就解释了为什么仅仅依赖英伟达的架构是如此安全。我们现在已经达到了我们的良性循环,达到了我们的拐点。这相当不寻常。
我有很多合作伙伴在座,你们所有人都是我们供应链的一部分,我知道你们工作得多么努力。
我想感谢你们所有人,感谢你们如此努力地工作。非常感谢。
现在我要向你们展示原因。这是我们公司业务正在发生的情况。我们看到Grace Blackwell的增长非常惊人,原因正如我刚才提到的。它是由两个指数驱动的。我们现在能见度很高,我想我们可能是历史上第一家能看到截至2026年累计5000亿美元Blackwell订单和早期Ruben(下一代平台)订单的技术公司。如您所知,2025年还没结束,2026年还没开始。这是已经预订的业务量,价值5000亿美元。
到目前为止,我们已经出货了600万个Blackwell GPU…
在最初几个季度,我想,是头四个生产季度或三个半生产季度。2025年我们还有一个季度要完成。然后我们还有四个季度。所以接下来五个季度,要完成5000亿美元,那是五倍的增长速度。
这某种程度上告诉了你一些事情。这是上一代的Hopper的整个生命周期的数额。还不包括中国和亚洲市场。
所以Hopper在其整个生命周期中是400万个GPU。每个Blackwell模块里面有2个GPU,是一个大封装。Blackwell在早期阶段就有2000万个GPU,增长非常惊人。
所以我想感谢我们所有的供应链合作伙伴,各位。我知道你们工作得多么努力。我制作了一个视频来庆祝你们的工作。让我们播放它。
(播放一段关于美国制造业的视频)
我们再次在美国进行制造,这太不可思议了。
特朗普总统之前讲的第一件事就是让制造业回归,因为这对国家安全是必要的。让制造业回归,因为我们想要那些工作岗位。我们想要那部分经济。
九个月后,我们现在在亚利桑那州全面生产Blackwell。Extreme Blackwell,GB200 NV Grace,Blackwell NVLink 72。极端协同设计给我们带来了10倍的代际提升。这完全不可思议。现在,真正不可思议的部分是,这是我们制造的第一台AI超级计算机。
这是在2016年,我把它交付给旧金山的一家初创公司,这家公司后来被证明是OpenAI。这就是那台计算机。
而为了制造那台计算机,我们设计了一款新芯片以便我们进行协同设计。
现在我们必须设计的所有芯片。这就是目前所需要的。你不可能拿一个芯片就让计算机快10倍。那不会发生。让计算机快10倍的方法,让我们能够持续指数级提升性能、持续指数级驱动成本下降的方法,就是极端协同设计,同时研发所有这些不同的芯片。我们现在已经有了下一代的Ruben芯片。
这是我们的第三代NVLink 72机架规模计算机。GB200是第一代。我们在世界各地的所有合作伙伴,我知道我听说你们工作有多努力。第一代做得非常艰难,第二代顺畅多了。而这一代,看这个(现场展示),对我们来说真的不算什么了。这些现在都在实验室里了。这是下一代Ruby。在我们发货的同时,我们正在准备投入生产,你知道,大概明年这个时候,甚至可能稍早一点。所以每一年,我们都会推出最极端的协同设计系统,这样我们就能持续提升性能,持续降低Token生成成本。看看这个,这非常漂亮。所以这太神奇了。
(接下来是现场展示和介绍,包括Vera Rubic计算托盘、BlueField、NVLink交换机等)
现在,如你所注意到的,英伟达最初从设计芯片开始,然后我们开始设计系统,我们设计AI超级计算机。现在我们正在设计整个AI工厂。
每次我们向外扩展并集成更多需要解决的问题,我们就能提出更好的解决方案。我们现在建造整个AI工厂。这个AI工厂是我们为Vera Ruben建造的,我们创建了一种技术,使我们所有的合作伙伴能够数字化地集成到这个工厂中。让我展示给你们看。
(现场播放 一段相关视频)
完全数字化。远在Vera Ruben作为实体存在之前,远在这些AI工厂存在之前。我们就优化它,并将它作为数字孪生来运营。所以所有与我们合作的合作伙伴,很高兴你们所有人都支持我们。我们一起建造AI工厂。
再来,让我们谈谈模型,开源模型。
在过去的几年里,发生了几件事。一个是开源模型,由于推理能力相当强大,例如Stability AI,这些不同的能力使得开源模型首次对开发者来说非常有用,它们现在是初创公司的命脉。
每个行业都有其自己的用例,不同行业的初创公司需要让那个领域专业知识能够嵌入到一个模型中。开源使之成为可能。研究人员需要开源,开发者需要开源。世界各地的公司,我们需要开源模型,这非常重要。
美国也必须在开源方面领先。我们有惊人的专有模型,但我们还需要惊人的开源模型。
我们的国家依赖于此,我们的初创公司依赖于此,所以英伟达正致力于去做这件事。
我们现在是开源贡献的最大领导者。我们有23个模型在排行榜上。我们有所有这些不同的领域,从语言模型到物理AI模型再到生物学模型。每个模型都有庞大的团队。这就是我们为自己构建超级计算机的原因之一,以促成所有这些模型的创建。我们有排名第一的语音模型,排名第一的推理模型,排名第一的物理AI模型。下载量非常可观。我们致力于此。原因是科学需要它,研究人员需要它,初创公司需要它。
我很高兴AI初创公司基于英伟达构建。他们这样做有几个原因。当然,我们的系统丰富。我们的工具运行良好。我们所有的工具都在我们所有的GPU上运行。我们的GPU无处不在, 在每一个云上都可用,你可以下载我们的软件栈,然后它就能工作。我们拥有丰富的开发者生态系统的优势,他们正在使这个生态系统更加丰富。
所以我真的很高兴与所有我们合作的初创公司建立关系。谢谢你们。同样的情况是,许多这些初创公司现在开始创造更多的方式来利用我们的GPU,雇佣人员并扩展规模。
Nibias、Lama、love、Lambda, 所有这些公司都很棒。
所有我谈到的CUDA-X库。我告诉过你们关于如何开源AI,将我谈到的所有模型货币化,我们集成到AWS中,我们集成到Google Cloud中……我们还将真实的库集成到世界SaaS中,这样每一个SaaS最终都将成为一个代理式SaaS。
总有一天,我很想雇佣一个AI代理基本设计师,与我们的ACS合作,本质上是Synopsys的Cursor,如果你愿意这么说的话。我们与Anirudh Devgan、Cadence合作。
今天早些时候,他是开场秀的一部分,Cadence在做不可思议的工作,加速他们的堆栈以创建AI代理,这样我们就能拥有Cadence AI、AC设计师和系统设计师工作。今天,我们宣布一个新的合作。AI将极大提高生产力。AI将改变几乎每一个行业。
但AI也将极大地加剧大型网络安全挑战,那些坏AI。所以,我们需要一个不可思议的防御者。我无法想象有比CrowdStrike更好的防御者了。
George Voltage在这里。他刚才在这里。是的,我早些时候看到他了。我们正在与CrowdStrike合作,使网络安全达到光速。创建一个在云中拥有网络安全AI代理的系统,同时也在本地或边缘拥有真正优秀的AI代理。这样,无论何时出现威胁,你都能在瞬间检测到它。我们需要速度,我们需要快速的代理式AI,超级智能的代理。
然后,还有一个发布要宣布。
这是世界上增长速度最快、最有价值的企业,可能是当今世界上最重要的企业堆栈——Palantir。他们获取信息,获取数据,获取人类判断,并将其转化为商业洞察。我们与Palantir合作,加速Palantir所做的一切,这样我们就能以更大的规模和更快的速度进行数据处理。
无论是过去的结构化数据,还是非结构化数据。然后,我们会为我们的政府处理这些数据,为了国家安全,也为世界各地的企业。以光速处理这些数据,并从中发现洞察。这就是未来的样子。Palantir将集成英伟达技术,以便我们能够以光速处理数据。
接下来,让我们谈谈物理AI吧。
物理AI需要三台计算机,就像训练一个语言模型需要两台计算机一样:一台训练它,一台评估和推理。好吧,所以那就是你看到的大型GB200。为了给物理AI做这件事,你需要三台计算机。你需要计算机来训练它。这是GB,Grace Blackwell NVLink 72,是进行所有我早先向你们展示的模拟的计算机,使用Omniverse DSX。那基本上是一个大窗口,让机器人学习如何成为一个好机器人,让工厂本质上成为一个数字工具。
(现场展示)这台计算机必须非常擅长生成式AI,并且必须擅长计算机图形学、传感器模拟、光线追踪、信号处理。
这台计算机,它叫做Omniverse计算机。一旦我们训练了模型,在数字孪生中模拟那个AI,那个数字孪生可以是一个工厂的数字孪生,也可以是一大堆机器人的数字孪生,然后你需要操作那个机器人。而这是机器人计算机。这个进入自动驾驶汽车。它的一半可以进入一个机器人。好吧?或者你实际上可以有,你知道,相当敏捷和快速操作的机器人。它可能需要两个这样的计算机。这三台计算机都运行CUDA。
这使得我们能够推进物理AI,让AI理解物理世界,理解物理定律、因果关系、持久性。我们有令人难以置信的合作伙伴与我们一起创建工厂的物理AI。我们自己也在使用它在德克萨斯州创建我们的工厂。现在一旦我们创建了机器人工厂,里面有一堆机器人,而这些机器人也需要物理AI,应用物理AI并在可视化孪生中工作。
让我们看看美国的再工业化。在德克萨斯州的休斯顿,富士康正在建设一个最先进的机器人设施,用于制造英伟达AI基础设施系统。面对劳动力短缺和技能差距,数字化、机器人技术和物理AI比以往任何时候都更加重要。工厂在Omniverse中以数字方式诞生。富士康工程师在基于Omniverse技术的西门子数字孪生解决方案中组装他们的虚拟工厂。每个系统,机械、电气、管道,都在施工前经过验证。
西门子Plant Simulation运行设计空间探索优化,以确定理想的布局。当出现瓶颈时,工程师使用由西门子TeamCenter管理的更改来更新布局。
在Isaac Sim中,相同的数字孪生用于训练和模拟机器人AI。在装配区,发那科机械手构建GB300托盘模块。由FII的灵巧机械手和熟练的AI将母线排安装到托盘中。AMR(自主移动机器人)将托盘运送到测试舱。富士康使用Omniverse进行大规模传感器模拟,机器人AI在其中学习作为车队协同工作。在Omniverse中,基于英伟达Metropolis和Cosmos构建的视觉AI智能体从上方监视机器人车队和工人以监控操作,并在出现异常、安全违规甚至质
人与机器人协同工作。这就是制造业的未来,工厂的未来。我想感谢我们的合作伙伴富士康,他们的CEO就在这里。
所有这些生态系统合作伙伴使得我们创建机器人工厂成为可能。你知道,完成这项工作所需的软件量如此巨大,除非你能在数字孪生中完成,在这个星球上设计它,在数字孪生中操作它,否则让这个正常工作的希望很渺茫。我也非常高兴地看到,Caterpillar,我的朋友Joe Creed和他有百年历史的公司也正在将数字孪生融入他们制造这些工厂的方式中。
我们将拥有未来的机器人系统。而最先进的系统之一是Figure。Brett Abcock今天在这里,他刚在三年前创立了一家公司。他们今天价值近400亿美元。我们正在一起合作训练AI,、训练机器人、模拟机器人,当然,还有进入Figure的机器人计算机。真的很惊人。我有幸看到了它。它真的非常了不起。
还有我的朋友马斯克也在研究人形机器人,这很可能将成为最大的新型消费电子市场之一,并且肯定也是最大的工业设备市场之一。Peggy Johnson,Agility的同事们正在与我们合作,是关于仓库自动化机器人的。Johnson & Johnson的同事们再次与我们合作,训练机器人,在数字孪生中模拟以及操作机器人。这些Johnson & Johnson的手术机器人甚至将执行完全现代的非侵入性手术,其精度将是世界前所未见的。当然,还有最可爱的机器人,迪士尼机器人。这个真的非常贴近我们的心。我们正与迪士尼研究部门合作,基于一项革命性的技术,开发一个全新的框架和模拟平台,使得机器人能够在一个物理上准确、基于物理的环境里学习如何成为一个好机器人。让我们看看它。
(现场播放了一段机器人相关视频)
现在,记住,你刚刚看到的一切… 那不是动画,不是电影,是模拟。那个模拟是在Omniverse中实现的,是数字孪生。所以这些工厂的数字孪生、仓库的数字孪生、手术室的数字孪生,他们学习如何操作和导航、与世界互动的数字孪生,而且全部都是实时完成的。这将成为世界上最大的消费电子产品线,这是人形机器人的未来,
当然,现在人形机器人仍在开发中。但与此同时,有一种机器人显然正处于拐点,并且基本上已经到来,那就是轮式机器人。机器人出租车本质上是一个AI司机。
现在我们今天要做的一件事是,发布英伟达Drive Hyperion。
这是件大事!我们创建了这个架构,以便世界上每家汽车公司都能制造汽车。车辆可以是商用的,可以是乘用的,可以专用于机器人出租车。制造作为机器人出租车的车辆。
本质上,3个环绕摄像头和雷达、激光雷达使我们能够实现最高水平的环绕茧式传感器感知和冗余,这是最高安全级别所必需的。Drive Hyperion现在已被梅赛德斯-奔驰等采用了,未来还有许多其他汽车企业会采用。
(现场播放了一段机器人自动驾驶相关视频)
好吧,所以这就是我们今天讨论的内容。我们讨论了大量的事情,核心是两个平台转型,从通用计算转向加速计算,以及英伟达CUDA。而那套名为CUDA-X的库使我们能够涉足几乎每个行业,并且我们正处在拐点上。它现在正在增长,正如良性循环所预示的那样,第二个拐点现在正降临到我们身上。
第二个平台转型,AI,从经典的手写软件转向人工智能。两个平台转型同时发生,这就是为什么我们感受到了如此惊人的增长。
我们谈到了量子计算、开源模型。在企业方面,我们与CrowdStrike和Palantir合作,加速他们的平台。我们谈到了机器人技术,它即将成为最大的消费电子和工业制造领域之一。当然,我们还谈到了6G,英伟达为6G提供了新平台。我们称之为Arc。我们为机器人汽车提供了新平台,我们称之为Hyperion。
我们甚至为工厂提供了新平台,两种类型的工厂:AI工厂,我们称之为DSX。然后是应用AI的工厂,我们称之为Mega。所以现在我们也在美国进行制造。
女士们先生们,感谢你们今天莅临,感谢你们允许我将GTC带到华盛顿特区。我们希望每年都能在这里举办。感谢你们所有人,让美国再次伟大。谢谢!
(主题演讲在观众的掌声和机器人舞蹈的视频影像中结束。)
(本文首发于巴伦中文网,作者|胡珈萌,编辑|蔡鹏程)
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's巴伦中文网官方网站