
1. 重新定义计算效率
大家下午好,我是 Naveen Rao,Unconventional AI 的 CEO。我们叫 " 非传统 ",但也许这个词用得不对——很快我们就得改名叫 " 传统 " 了。没有历史包袱本身就是一种真正的竞争优势。我们能比传统芯片公司和全栈公司快得多地推进,几个月就能完成流片,而不是好几年。这非常令人兴奋。

AI 会让我们更高效,编码、在手机上跑上千个智能体,这些都没错。但谈到真正的能源问题时,我们可能并没有更高效,而是正在撞上物理世界的天花板。今天,AI 推理和训练已经在消耗许多千兆瓦的电力。在未来两到四年内——不是十年——我们会面临世界上再也没有多余电力供给 AI 的局面。这个话题到那时会变得极其紧迫。目前你可以说电力和食物是两种智能的能源来源。电力这边看起来还没有硬限制。但很快会撞上一堵非常坚实的墙。我们可以在太空建数据中心、建核聚变反应堆,这些都可以做。但这些最基础的物理规律依然适用。
那么全人类的智慧到底消耗多少能量?地球上约 80 亿人,每个人大脑的功耗约 20 瓦。算下来,全人类的智慧总功耗不过 160 吉瓦。做个对比:全球总发电能力约 9000 吉瓦,美国约 1000 吉瓦。这些电力要支撑所有东西——家庭供暖、电动汽车、工业生产。而我们今天跑 AI 的计算机呢?单次推理和训练动辄消耗千兆瓦级别的电力,至少也在百兆瓦级别。这中间差了多少?大约一百万倍——换句话来说 " 大脑的计算效率比 GPU 高 100 万倍 "。
就算我们把这数字再提高 50%,拿到 4000 多吉瓦来用,问题在于我们当前的计算范式效率实在太低了。如果算推理每个 token 的能耗,模型构建、运行全算上,我们大概在千兆瓦级别,至少也在百兆瓦级别。而人类只需要 20 瓦。

2. 从物理第一性原理重建计算机
大多数人从没认真想过这个问题——他们假设 " 计算机就是计算机 ",从没质疑过这个前提。这就是 " 非传统 " 的部分:80 年前做的那些假设,今天已经不再成立了。我们只是选择在上面继续堆,因为两年内能做出可卖的产品。我们在走一条不同的路:回到第一性原理,看能不能做出更好的东西。
智能存在热力学极限。 有一条兰道尔原理:它规定了在一定能量内最多能完成多少计算。这是一个无法突破的物理边界,是那条渐近线。生物学在接近这条线的地方——它非常高效。40 亿年的进化创造出了极其高效的东西。不过它还没到极限,大概还差一到两个数量级。
我们人类目前的计算机技术在什么位置?在这下面。 今天基于 2D 光刻技术的芯片,大概在这个位置。我认为通过有方向的努力,我们可以接近 2D 光刻的极限。这个差距是多少?大约三个数量级。从能源效率的角度看,我们现在的位置和我们应该能做到的位置之间,隔着巨大的距离。这就是我们在做的事情。
3. 大脑的秘密:非线性动力学,而非矩阵乘法
怎么做到?不是简单地把计算机做省电一点。我们不能再用完全相同的思路去思考计算机了。
这不是一台运行矩阵乘法的机器。矩阵乘法是一条简单的路,Nvidia 当然统治了这个市场并持续推动前沿。但如果你看能效数字——每交付一个 FP8 浮点运算的实际功率效率——并没有提高多少。成本因制造工艺和封装能力提高而下降,但每次运算的实际能耗、加上内存访问的能耗,并没有变得更好。现在只是非常缓慢的渐进式改进。
我是一个神经科学家,在此之前做了十年计算机架构师。这个问题我想了三十年,对我个人来说这是一个极其激动人心的时刻。
生物学提供了一个存在性证明。 你可以说人类每秒输出的 token 数量比机器少,但智能水平更高。我们用了那么多千兆瓦,在真正推动科学发现的智能上还没有匹敌人类。我们会在很短时间内达到这一步,但代价是巨大的能耗。
最有趣的是:人的大脑 20 瓦,猕猴的大脑可能不到 1 瓦。在整个哺乳动物世界和昆虫世界都能看到这种现象,非常复杂的行为只需要毫瓦级别的功耗。做一下参照:你口袋里的手机功耗大约 1 瓦。一只在风中从一根树枝跳到另一根树枝的松鼠只消耗不到 10 毫瓦,是手机功耗的百分之一。我们用一个巨大得多的计算机却做不到松鼠能做的事。

其中一个关键是:大脑是动态的。它不用矩阵乘法做计算。大脑使用非线性动力学来完成计算。这意味着神经元之间存在随时间变化的相互作用,而正是这种交互承载了计算本身。大脑不做浮点运算,不做矩阵乘法。当然你可以用矩阵来近似描述它,但因为非线性动力学的缘故,它实际上要丰富得多。而且它还是随机的,大脑的计算不是严格的 1 和 0。在数字计算机里,只要一个 1 或 0 出了错,整个系统就会崩溃。
所以我常常说,大脑真的不是计算机。
4. 用物理替代代码:他们造了一颗能 " 自己演化 " 的芯片
让我快速展示一下,这叫 " 藏本同步 "。你看到一组振荡器,它们被刚性地耦合在一块板上。无论初始状态如何,随着时间推移它们会同步。这是一个收敛动力学系统的例子。无论你怎么启动它,它最终都会收敛,而且完全基于振荡器之间的耦合关系。
你可以把这个推广到一个带有灵活耦合的系统——我们称之为可训练的耦合。它可以在动力学状态空间中按各种不同的轨迹运动。再进一步推广,你可以把它想象成电子电路——一组振荡器,以及一个可以配置耦合关系的网络结构。当这个网络结构可训练时,你就能看到一些跟大脑动力学非常相似的东西:它有自己的非线性特性,并以非常丰富的方式相互交互。它可以表征非常大量的信息。
这是我们今年夏天要流片的实际芯片。 从 1 月份几乎没团队,到 6 个月做出完整原型——这正是因为有了 AI 的帮助。这就是不背历史包袱的好处:你可以用完全不同的方式做事。传统的冯 · 诺依曼机器:写入状态,取回状态,操作,再写回去,反复循环。事实证明,这恰恰烧掉了现有计算系统里绝大部分的能量。
用非线性动力学:设定初始状态,踢一脚,让它自己演化。物理本身完成计算。状态是隐式的,不需要显式读写。某种意义上,你从这次演讲只需要带走一句话:我们利用物理在时间维度上的演化来完成计算,而现有计算架构不是这样做的。
接下来的问题自然是:这个东西能训练吗?答案是能。我可以把系统驱动到不同的目标状态上。事实上我们在状态空间里追踪出了 "Unconventional" 的标志——这说明这一点。我们可以用几种不同的方式来训练它。是的,我们可以训练这些系统,把它们驱动到任意一组轨迹上。
我现在展示一个演示。这是运行在动力学模型上的东西,它针对不同图像类别进行了训练。我们从随机状态开始。在某个时间点,我对系统施加一次误差反向传播,从随机状态引向某个特定图像类别(比如 " 马 ")。过了那个点之后,让系统按自己的规则自然演化。你会看到它不再只是随机像素,而是形成了有意义的像素群——不同种类的机器、不同种类的动物。
比如马的类别:从随机开始逐步收敛成马的特征,然后随着时间的推移,这些马的特征还会在状态空间中互相演化。这意味着它已经在状态空间里学会了如何在不同的表征之间移动。这是一个真正的新东西正在诞生。
对比现有架构:从冯 · 诺依曼到动力学系统
CPU:到今天仍是最快的单线程执行工具。它的工作方式就是冯 · 诺依曼架构——不断在内存和缓存之间进出、执行操作。
GPU:同时对多个操作数做同样的事——把大量操作数从内存取出来、做运算、写回去。
存内计算(如 Groq):跟 GPU 同样的思路,只不过把计算放在了芯片内部,更细粒度。
动力学系统(我们在做的):状态和函数重叠,直接整合在物理过程本身之中。不再有状态和计算的分离。
于是计算效率大幅提升—— " 银河脑力 " 程度也随之起飞。这真正是非冯 · 诺依曼架构的。我想留给大家这句话。这是我整个职业生涯的指引。我非常激动,这个问题我想了三十年。我们正处在一个关键节点上:我们终于可以开始理解大脑是怎么工作的了。因为现在我们能把它造出来了。
5. 写在最后
Naveen Rao 的核心主张很简单:我们用了 80 年的数字计算机架构,从一开始就不是为智能设计的。他要用物理学的第一性原理,重新发明一种像大脑一样省电的计算机。没有矩阵乘法,没有冯 · 诺依曼式的反复读写,让物理规律本身来完成计算。他想了三十年,现在终于能把它造出来了。