
责编| 柒 排版| 沐言
第 9632篇深度好文:9475| 25分钟阅读
商业思维
笔记君说:
"别把时间浪费在伺候老登身上。"
这句话出自姚顺宇之口。他本科清华物理、斯坦福高能物理博士,师从领域内顶尖学者,外界标准全部达标。但他自己却觉得对这个世界的贡献"几乎为零"。
他离开学术界的原因很简单:高能理论物理已经发展到实验完全追不上的阶段,没有客观评价标准,只有"领域内一些老登的主观判断"。他说,人这一辈子没多长,为什么要伺候老登?
于是他去Anthropic待了一年,参与训练了Claude 3.7,现在又加入Google Gemini。
他说,AI这个行业"不太需要脑子",最重要的是"靠谱"。个人英雄主义已死,AI是集体主义的事。Scaling Law(扩展定律)只是经验规律,智能涌现是"不科学的说法"。
这是一位物理学家的AI观察笔记。它刺破了很多泡沫,也给出了一个残酷的真相:世界在推着我们前进,AI的进展已经阻止不了了。甚至未来6到12个月,AI就会自己做实验。
以下为张小珺商业访谈对话姚顺宇的精编内容整理版,希望对你有所帮助。
一、从物理到AI:
别把时间浪费在伺候老登身上
我以前是做学物理的,本科在清华,那时做凝态理论,后来去斯坦福做理论高能物理。
离开斯坦福之后去伯克利,短暂待了两个星期的postdoc(博士后),就离职了,去了Anthropic。在Anthropic待了一年,去年9月底、10月初加入了Gemini。
本科读物理最大的帮助是:
第一,想问题要想清楚。
读书不在于读的多,而在于读的深。读的多,不代表你能发现新东西。但如果你对一件事有和别人不一样的见解,那才是对社会来说更有价值的事。

另一件事是,别太相信纯理论。因为当时能做数值,是因为数值和理论对不上,才仔细研究那个问题。
博士去读了高能物理,这就回到了说,总爱挑战很难的事,有时候也会带来一些不好的结果。我感觉,这个博士对自己学到很多东西、成长很大;但于这个世界,没有产生什么贡献。
高能理论这个方向,足够难,非常非常难。但它不好的在于,不是特别可以验证,没有什么客观评价标准。因为高能理论已经发展到了实验完全追不上的阶段。
一个进步来源,来自于数学的自洽性。
比如你提出一个框架,能和现有的已被验证的更低能标下的理论相自洽。
当然也有一些不科学的因素,当这个领域完全没有实验、没有客观标准,肯定不会只有一个自洽框架出现。这时候谁做的好、谁做的不好,就依赖于领域内一些老登的主观判断。
我也没有被谁伤害,只是在那个领域待时间越长,就越觉得这件事蠢,人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?

我自己很不满意的。但也没有不满意到,我会担心有人说我在混日子。确实也没在混日子,还是能达到所有外界标准。
达到外界的标准,或者达到一个小的圈子的评价标准,像训练模型一样。
一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的。哪怕不认可这个标准,你是可以达到的。但我后来发现我蒙蔽不了自己,骗不了自己。
博士最后两年就会有这样的感觉。但那时确实也没想清楚,如果不做这个该去做什么?当时觉得,量子计算和AI是两条给小登机会比较多的路。
量子计算的主要瓶颈在实验上。不是怎么设计算法或者算子,更多是怎么在实验上实现它。
那个事反而是我不擅长,跟我相关的反而是AI。更多是你有一个想法,可以用一些数值去验证。这个数值在AI里面,可能就是训练一个模型。这和做物理很像。
感觉AI这个事,也不太需要脑子。我觉得这个行业最重要的特质就是靠谱,就是做事细,对自己做的事负责任。
二、黑盒、涌现与Scaling Law:
用科学视角看AI
1.这世界上所有东西都是黑盒
这世界上所有东西都是黑盒。哪怕像物理这种。不管是量子力学,还是量子场论,都是描述那个能标下的行为。本质上这个系统还是一个黑盒,你还是不知道它最微观的地方是什么样的动力学。

我们对语言模型的理解,确实没到神经科学手术刀那个级别,不是说能理解到,这个行为是由哪一个neuron(神经元)、哪一个人工神经元的哪一个激发产生的。但在实际能用的语言模型里,都没达到这样的理解。
但也不代表完全没理解。
比如Scaling Law,它就描述了那个尺度下,模型随着大小和数据量,是怎么在perplexity(困惑度)这个指标下变得越来越好的。如果Scaling Law不算是理解的一小部分,那是不是我们也说,对这个世界也完全不理解?
它是一种经验规律。但经验规律和科学规律之间的界限很模糊。热力学那些定律,当年被发现的时候也都是经验规律。后来随着时间发展,慢慢知道了微观机制,就变成了科学规律。
Scaling Law目前肯定还是很经验,但未来当技术变得比较固定,大家越来越多理解它微观过程的时候,会不会变成科学规律?如果这个定义存在的话,是有可能的。
2.智能涌现这个话本身就不太科学
"智能涌现"这个话本身就不太科学,自然也没法用科学的话来表达一个不科学的事。智能涌现,对我来说更多是一种主观的感觉,而不是客观现象。
很多人说智能涌现的时候,脑子里想的是,以前的语言模型只能做某一个方向的事。但现在模型好像可以做所有的事了。但这个事,对我来说更多是一个技术上的涌现,而不是行为上的涌现。

对我来说就是没定义。唯一质的区别就是,有没有发生一个技术上的改变,使得我们可以做scale up(扩展),可以水平的提升所有的能力。这对我来说,是一个良好定义的事。
三、Anthropic岁月:
小作坊的辉煌与混沌
1.加入一个十人小团队
Anthropic有很多做物理出身,尤其是做理论物理出身的人。就我个人视角来看,主要原因还是connection(人脉联系)。创始团队里当时有三四个比较技术的人,其中有两个现在还在技术一线领导的,都是做物理出身。就这样一直延续下来。
但到现在这个阶段,在我之后,几乎没怎么再招完全没有AI背景的人了。所以是一个时代的产物。
我还找了OpenAI和GDM(Google DeepMind)。但Google DeepMind那时候速度太慢了。Anthropic是因为当时联系了,我的第一任经理,他以前也是做理论物理的。
他当时说:我们在尝试做这种大规模强化学习,有很多科学问题要去理解。那时候(24年8-9月),强化学习还没有像现在这么成熟。
Anthropic当时大体上知道怎么做,但有很多细节需要仔细去研究。他说:有这么一个事,你要不要来面试一下?
大概知道pre-train(预训练)、post-train(后训练)这个流程,但不太知道具体工业级别的语言模型是怎么训练的。
当时觉得这是一个不确定的事,是一个好的机会。自己手搓了一下Andrej Karpathy那个著名的nanoGPT项目,就去面试了,很快拿到了offer。

那个大团队叫Horizon,后来几乎是强化学习的方方面面都在这个团队了。我去的那个组是比较偏研究和算法的组。
2.Anthropic的独特优势:技术一号位有公信力
我对Anthropic的印象还是挺一致的。进去之后,这家公司的执行力非常强。它是一个比较自上而下的公司。很多事情决定了之后,就会全力去做。员工之间的氛围也很好,大家都不会藏着掖着。
对于那个bet coding(对编程下重注),我不知道它完全的来源在哪。
我自己能看到的一个显然的来源是,前一代模型Claude 3放了之后,X上有很多人在讨论说:Claude 3好像写code比GPT-4强啊。
那个年代,GPT-4是一个领先的模型。能有一件重要的事比GPT-4强,就很厉害了。这是这公司很强的一点,它执行力非常非常强。一旦给它一个信号,让它觉得是很合理的,那就会铺上去。它没有那些大组织那种冗余。
为什么它的编程比GPT-4好?是有原因的,是一个纯技术原因。但是,我不能确定一开始是随机试着的,还是故意选择的。
你要让我猜,我肯定会觉得是随机试着的。最开始可能是自下而上的,但是后来就变成了一个自上而下的事。
自上而下有一个很难的点,就是你做技术的决策人,必须也得是公司的决策人。你技术上得能服众,另一方面你得能为这个公司负这个责任。
Anthropic有这个条件就是,它的技术上的领导人,其实是公司的cofounder(联合创始人)。像Jared Kaplan和Sam McCandlish,他们自己做这个决定,那是人家的公司,他有权利做这个自上而下的事。这很难。
比如说OpenAI就干不了。Ilya在的时候有可能可以,但后来他好像失去了这个做决策的能力,就走了。
我觉得还是需要技术的,或者公司的leader(领导)有公信力。对我来说,技术1号位有公信力很重要。这个就得看你的团队有没有足够的互相信任。

大公司和初创公司的打法本来就不一样。初创公司最重要的是找对赛道,能够去很快做一些决策,然后很强力推进。大公司的想法可能是,我能在方方面面都有储备,任何一个事成了我都能跟上。
所以Gemini在Google是一个很传统的、很自下而上的组织。公司层面可能有一些良好定义的框架来引导你,但很多时候,还是你自己来决定自己做什么。
3.Claude 3.7:把简单的事做的比谁都干净
当时就是为了做大尺度的强化学习,用它来提高编程的能力。我们那个组的研究重心就是这个。最终带来的结果,就是大家一块训练了Claude 3.7这个模型。
Claude 3.5有两个版本,你也可以看出,Anthropic这个公司曾经也是没啥产品能力的,居然管两个模型叫一个名字。实际的产品时间线是——3.5、3.5new、3.7。我几乎没参与3.5new,但3.5new就已经看到了编的迹象。
我进去的时候,大家已经看到了这个事儿能做成且重要,但不太清楚怎么去把它做成。我去的时候,是跟大家一起去研究怎么把它做成。从大的角度来说是靠大尺度强化学习,但有很多技术细节需要去研究。
有好多保密协议的内容。虽然我不能公开去谈,但是,把简单的事儿做的比谁都干净,是最关键的。

但不代表这是唯一的算法,还有别的算法。这些复杂性是必须的吗?它们可能带来一些效率上的提升,但也可能带来一些基础设施上的困难。
你怎么去权衡这些事?很多的knowhow(技术诀窍),都在这些细节里,怎么处理这方方面面的细节。
技术的窍门,是一个大家很愿意听,公司又不让你说,但实际又没啥用的事儿。因为很多算法设计非常强的依赖于你的基础设施。
举个例子,在强化学习时候,这个采样,就是给你产生这些轨迹、token(词元)的那个机器,和训练器,这两个机器可能不一样。不同公司这个不一样程度不一样,算法设计也会不一样。
有些公司这两个差异非常大,算法最大的部分可能就是怎么控制这个,怎么让训练稳定。但有的公司基础设施建设特别好,就可以花更多精力在训练效果上。所以很多这种小的窍门,其实没什么用。
现代的AI训练是一个大的系统,要了解这个系统的方方面面,才能有一个全局的认识。什么事是因为什么而变得有用了,而不是说这个事本身有用。
4.Coding为什么重要
对我来说,它重要的原因有二。
一个原因是,coding本身也是做语言模型研究的一部分。
如果你能够把coding做得很好,可能会让你的研究效率翻倍提升,形成一个研究上的飞轮。

另一方面原因,是因为coding是模型使用工具和环境交互的一个很好的抽象。这个抽象的好处在哪?回归信号清晰,数据充分。很难在别的场景下,找到能同时有这两个特质的使用工具场景。
对Anthropic的后训练来说,Claude 3.7是一个分水岭。
在3.7之前,后训练都是处于一个比较小规模,可能就是修修补补模型的状态。也不是不重视,是一开始大家很长时间都没有搞明白后训练该怎么扩大规模。
但在那个阶段,不管是OpenAI还是Anthropic,还是中国的DeepSeek,都意识到了这个事该怎么去扩大规模。
就是得找到合适的环境,这个环境回馈信号足够清晰,本身也是一个很强的数据源。在这个上面能让训练非常稳定,这事就能做成。
那个时刻,OpenAI做的方式和Anthropic差别挺大的。但大的方向上都是找一些回归信号非常清楚、非常客观,数据本身又比较干净,对模型来说是可学习的,在上面做稳定的强化学习训练。
5.预训练和后训练都没到平台期
很长时间OpenAI都是这个想法(预训练快结束了)。在3.7那个时代,我也曾经抱过这个想法。但是后来随着了解越来越深入,我就觉得,还有做的空间的。预训练是一个很系统的框架,告诉你做什么样的事是更有效的。
我觉得都没有到平台期。
到达平台期有两种可能性。一种可能性是技术本身到达了,你明明还有想让模型要干的事,但这俩技术就死活教不会了。另一种可能性是,你想干的事到平台期了。

四、个人英雄主义已死:
集体主义才是AI的真相
1.世界在推着我们前进
在可用的语言模型、大尺度的语言模型出现之前,很多事是一个非必然。
比如,如果没有Google Brain(谷歌大脑),那可能Transformer(笔记侠注:基于自注意力机制的深度学习模型)就不会被发现,可能要过很多很多年。
但进入那个阶段后,尤其到现在已经反过来,任何一个组织想要停止AI进展,是做不到的。
Anthropic很担心AI安全,那Anthropic有没有这个能力阻止AI发展?你停止发展,别人会发展,你的话语权还会变小。现在更多是这种状态:世界在推着我们前进,而不是我们在推着这个世界前进。

如果真的想要避免AI带来一些危机,核武器最终受到控制的方法就是多方控制。大家有很多个有核武器的国家,互相都有毁灭对方的能力。通过这样一种制衡才稳定住。我觉得要阻止AI干一些不好的事,最终可能需要一种类似的机制来实现。
2.旧时代英雄有点蠢
我感觉来这行业的时候,个人英雄主义时代已经过去了,所以也没有什么英雄。有时候甚至觉得旧时代英雄有点蠢。,我觉得和做物理时候还是不一样。

当然你要非要在人工智能找一个英雄,可能Geoffrey Hinton(杰佛里·辛顿)是吧。就是在大家都觉得这事可有可无或者不那么确定的时候,他一直在这个方向做。那我觉得,这可能是一个英雄级别的人物。
可能也有一些英雄的集体。比如像Transformer,就Noam(Noam Shazeer)和那些,Ashish(Ashish Vaswani)、Niki(Niki Parmar)他们,那可能是一个英雄集体。
3.AI研究员像球星转会?这是对人的炒作
我不知道AI研究员价格高是好事还是坏事。对我个人来说,当然很高兴,我受益于这个。但实际上来说,我并不知道这是不是一件好事。可能一方面是大家觉得很稀缺吧。
但实际上可能确实也没那么充足。因为训练一个人,虽然这事没那么难,但你训练一个人是需要一个环境的。你得有那个机会去接触这件事,你才能学会这件事。
你没有那个机会,再聪明也没用。过去能撞到这个机会的人,没有那么多。所以市场上比较稀缺。但我觉得另一方面也是,对人的炒作有点过分了。再说一次,这是个集体主义的事。
我觉得纯做语言模型,已经不是一个蓝海了。晚了,末班车已经发车了。我感觉我入行就是那个末班车啊。
该怎么去合理地教它,用现在的这些范式。
五、为什么离开Anthropic,
又为什么选择Gemini
1.离开:不想在一个地方待着
在我快离开那段时间,Anthropic文化上经历了一些混沌。从外面来了一些人,跟本来的文化有些冲突。之前更像一个小作坊,大家都是朋友,大家都知道对方在干嘛,公司那时候紧迫感也更强一些。
后来人多了,文化肯定会受到一些冲击。我不太喜欢在这个领域里面说很多话的人。很多想法,显然所有人都知道。
难的是怎么把它变成一个一个小的、可实现的步骤,做出来。我不太喜欢那些一天中很多时间花在办公软件上,在那讲一些大道理,没啥用。

Anthropic有很多不做的事,比如完全没有人做多模态生成,你想学没地儿学。想要学习更多的东西,也是当时离开的一个动力。
2.选择Gemini:取决于你想要什么
OpenAI也是我当时的一个选项。没有去的一个主要原因,是对它的文化有比较大担心的,感觉踏实做事的人没有Gemini多,更没有Anthropic的人多。
我有一个很明确的scope范围,我一定要把我的一个想法送到这个模型里去,那Google是一个很差的地方,因为做这件事情有很复杂的过程。
但如果你想要的是有研究的自由、探索的自由,想从更广泛的人类学习,这个世界上可能找不到第二个比Gemini更强的地方。还是取决于你自己想要什么。
很多人不管从哪离职,换到另外一家之后,会觉得不开心的主要原因,是因为没想明白自己想要什么。

我去Gemini跟这没关系。主要还是我知道,Gemini大概是一个什么样的氛围。很多Gemini工程师,技术是非常非常非常强的。我是从他们身上学到了非常非常多。
3.OpenAI救了Google一命
从实际的效果来说,是两件事让Gemini产生了一个大的转折。Nano Banana和Gemini 3——两件事连着。
Nano Banana做到的一件事是,首先市场上很爆款,大量的人去下载了Gemini的APP,然后Gemini 3又紧接着放,把这个部分留下来了。
没有Gemini打这么一拳,OpenAI的位置很爽。它市占率已经高到,其实模型上干点啥,对它来说可能影响都没那么大啊。
从某种意义上来说,OpenAI是救了Google一命。大家以前一直担心聊天机器人会不会完全把搜索取代掉。如果这个事真的发生,Google其实很难受。但好在,OpenAI先把这个事做了,让Google意识到了这个事很重要。
但OpenAI又没有把这个事做到极致,没有把搜索干掉。结果,让Google自己把聊天机器人也追上来了。那现在难受的就是OpenAI了。
首先,目前的chatbot(聊天机器人)这种交互方式,不会完全吃掉搜索。它比搜索强的是有很强交互性,可以帮你把复杂信息浓缩。
但搜索里还有一些非常愚蠢的场景,比如我就搜买大米,一搜买就完了。我还非得去问ChatGPT,问哪个好,它还在那转圈圈。没有那个必要。所以从事实的使用上来说,它目前的形态并不足以把搜索完全吃掉。
我觉得Google传统上在产品就是有点慢。Google特别擅长的一件事是什么?是找到一个极为简单的产品形态,大家都长一个样,它就疯狂给你卷技术,你就卷不过它。

我觉得现在谁的位置都不稳固。AI的形态还有很长的路要走,没有到什么终局之战这个地方的感觉呢。我觉得聊天机器人和超级应用可能会争夺一下。
但问题是,你这个形态是不是超级应用?会不会别人哪天出了一个完全不一样的形态,你的功能变成了那个东西一个子集?人类到现在只通过聊天机器人去跟AI沟通,很蠢。那应该用什么?没想明白。要想明白我就干了。
4.Google的组织变化
以前组织还是更混乱一些,现在至少预训练变得非常清楚,谁负责什么事情,每一个节点上谁是负责人。加上Google一直有的比较强的技术背景,做事也比较系统。
所以预训练在Google,是一个非常非常可控的事。它比以前肯定要更自上而下了,但它比Anthropic来说,还是更自下而上了一些。

Google的工程管理能力又很强,它就能慢慢把它做好。所以预训练,就是现在进入到Google的舒适区里了。后训练当然有更多不确定性。可能后训练现在来说,还是更自下而上一点。大家可以更广泛的试。
六、我的研究:
ML Coding与Long Horizon
1.AI研究的下一个场景
我自己主要在做ML coding(机器学习编程),和一些比较long horizon(长时序)的事。
ML coding,主要就是想要实现这个完整的AI自己训练自己的历程。
大的方向上来说,大家比较有共识该怎么去做。但还是回到细节,细节上有很多要处理。比如怎么样去选取合适的数据,怎么样去选取合适的回馈信号,以及它又带来新的基础设施的挑战。
long horizon,想要能够实现模型能够——还是那句口号:train with finite, but use as infinite(用有限的上下文训练,但用起来像无限的上下文)。
我觉得想要把这个训练的长度一直变长,可能并不是单个训练语段的长度一直变长,那不是很现实的方案。但现实的事是,你怎么用有限的context(上下文),去做更长的工作?
人就是这个样子,人的context很短很短。你现在问我昨天晚上吃什么,我是一点也想不起来了。
因为它对我现在这个场景来说不关键。我选择把它忘掉。人的context很短,但他能够选择性的遗忘,选择性的去retrieve检索,把重要的信息再抓回来。

在这个范畴内,大家过去完成的那个节点,就是智能体编程。这个事横向就会长出不同的使用场景。做AI研究,就是横向场景里的另外一个场景。
这个场景,不仅横向上是一个新场景,在纵向上也让事情的尺度变得更长。
完成一个代码的补全,是一个很快的事。但做一个完整的AI研究,那是一个很长的过程。所以说,它像一个T字形,横向有延展,纵向也有延展。
我个人花更多时间在后训练的方案上。我觉得后训练的方案,更符合我自己对这个事的理解。
2.AI本质是简单的
AI本质是简单的,它可对可错。
我对这个陈述的解释是,它本质上简单的点在于,它能做实验。它和本质上难的东西,比如物理,区别在于,那个东西你没有能标下的实验数据,就是理解不了那个能标下的理论。

所以AI没有给人感觉碰壁的原因是,首先很多东西你都能试,其次不是大家已经想空了脑袋、没有什么想法可以试。更多的是有太多想法,得一个个试,花时间。
未来的6-12个月,AI就会自己做实验。AI自己提高自己,或者自己来加快自己的发展过程,这件事其实已经在发生。它目前还做不到的是,它能不能从头到尾把一件AI研究的事做完。
比如它不仅能编程,还能跑实验,还能看到这个结果。看到这个结果,还能分析这个结果,知道哪儿做的不对,提出新的假设,设计新的代码,跑新的实验。这条链条目前还没有完整。但这条链条下一步会慢慢变得完整的。
七、没有老登的束缚:
直接表达是最好的方式
这可能就是,不是AI出身的好处,没有什么负担。没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻。
我觉得我做学生的时候还挺收敛的。但我后来发现收敛没用,对自己也没好处,对别人也没好处。还是更直接,表达自己的想法是最关键的。直接表达自己的想法,是一个短期一定会有人恨你,但长期大家会欣赏的事情。
我觉得人年纪大了,不一定会变成老登。

做了AI之后就更直接。一是没有束缚,二是这个领域足够客观。
你其实不用太担心,因为自己的观点而惹到什么人。只要你的观点是自洽的,你有一套自己观点的理论,你不是说随便喷人。
最终你在这个领域做的怎么样,是有客观的评价标准的。我觉得其实大家是会尊重你的。
参考资料:《独家对话姚顺宇:请允许我小疯一下》,语言即世界language is world。
*文章为作者独立观点,不代表笔记侠立场。
好文阅读推荐:
黄奇帆最新演讲:出口赚了1.2万亿,为什么反而让人睡不着觉?
分享、点赞、在看,3连3连!