关于ZAKER Skills 合作
虎嗅APP 10小时前

15 句话,总结姚顺雨第一次肉身亮相

本文来自微信公众号:字母榜,作者:苗正,题图来自:视觉中国

在 6 月 5 日的腾讯云 AI 下半场大会上,腾讯集团高级执行副总裁汤道生,和腾讯首席 AI 科学家姚顺雨做了个对话。

此次谈话围绕腾讯如何理解 AI 下半场展开:当大模型的方法论逐渐成熟,竞争重点正在从单点模型能力,转向真实场景、产品反馈、上下文网络和 Agent 工程化落地。

汤道生与姚顺雨的对话,也透露出腾讯内部,正在用模型与产品 Co-Design 对内部进行重组。

我们整理了两人的所有谈话,并将其归纳为了 15 个核心观点。

关于 AI 下半场

1. " 下半场 " 被滥用了,姚顺雨加入腾讯的原因是腾讯 " 有问题 ",有真正的 AI 需要的好问题

姚顺雨表示,"AI 下半场 " 这个概念有些被滥用。他认为,过去几十年 AI 更重要的是寻找好方法,比如为了围棋做 AlphaGo,为了翻译做特定模型。但在预训练和后训练成熟后,大模型变成了一把 " 万能的锤子 ",可以解决各种问题。于是,真正稀缺的开始变成 " 好问题 "。模型能力具备通用性之后,企业需要判断应该把它用在哪里,解决什么问题,产生什么价值。

这也是姚顺雨加入腾讯一个很重要的原因。" 腾讯有很多好的问题,有很多很多产品。" 姚顺雨说,好的产品能够解决第一个问题,就是做了好的预训练和后训练之后,到底要把它应用在什么样的场景,它的价值在哪里。

2. 环境很重要,context 更重要,竞争壁垒有时来自于有没有最原始的输入

姚顺雨强调了环境的重要性。没有好的环境,Agent 就没有办法去做各种各样的事情。如果你没有一个点外卖的 tool,那你就没有办法去点外卖。

但最重要的是 context。姚顺雨说,无论企业还是个人,越来越重要的事情是 context。因为模型越来越擅长把一个非常复杂的输入变成一个输出,很多时候你的竞争壁垒就来自于你有没有那个最原始的输入。你知不知道这个人他在干什么,你知不知道这个企业的各种各样的信息。这一点,腾讯有非常强的优势。

3. 在 AI 下半场最重要的目标是在中国建立长期的、基于 AGI 的组织

姚顺雨个人的目标是,在中国建立一个长期的、基于 AGI 的组织。他提到,今天的 AI 主要有三个部分。

首先是 foundation 的部分,怎么样去把预训练和后训练这些最基础的东西做得非常 solid。

第二部分是产品,怎么去把这样的技术真正为人和社会产生价值。

第三就是 frontier,怎么去探索新的研究范式,探索新的机会。

最重要的是,要构建一个非常均衡的、像三角形一样的组织。对于做 foundation 来说,第一最重要的是有充足资源,第二就是需要正确的做事的方式。对于产品来说,有好的产品的 sense,有这种做产品的人是至关重要的。第三个,在中国今天所做的前沿探索不够多,所以姚顺雨希望能把 frontier exploration 的精神能更多地注入到组织中。

4. 腾讯追求模型与产品 Co-Design,但姚顺雨认为一切的前提依然是模型

谈到腾讯内部高频提到的 Co-Design,姚顺雨认为,第一前提是模型本身要做得扎实。预训练是相对 product-agnostic 的事情,它提供可泛化的 foundation,能够让各种下游任务持续受益。

后训练方面,最重要的是设立好正确的 eval。姚顺雨吐槽,国内可能有一个不太好的倾向,就是比较喜欢刷榜。但更应该关心的是,如何实事求是地基于产品、基于真正的应用去构造更加真实的 eval。实用性的价值是大于刷榜价值的。

这一点上,腾讯做了大量工作,跟各种各样的产品进行了深度的 Co-Design。姚顺雨说,Co-Design 很关键的一点是要产生相互的信任,这一点腾讯做了大量工作去取得互信。怎么把产品的数据用好,怎么把这种回流用好,怎么把 eval 做好,这里有很多细节。

5. 真实产品反馈能发现 benchmark 看不到的问题

姚顺雨也不否认 benchmark 的价值,但相比之下,真实世界的数据至少有三类价值。

第一,发现榜单无法暴露的底线问题。姚顺雨说,腾讯想要发一个 preview 模型,最重要的目的之一,就是希望能获得真实世界的反馈,修复各种榜单中没法发现的底线问题。这一点会在正式版上有非常大的改进。

第二,理解真实用户的 prompt distribution。因为现实用户的问题往往模糊、短促、多轮追问,而 benchmark 题目通常更精确、更单轮。比如 benchmark 上面的题目可能都是非常精确的,有非常长的 concrete description,而且一般来说是一个单轮问题。但是在现实场景中,大家问的问题可能都是比较模糊的,可能就一两句话,然后他会不停追问。这些 setup 上的 difference,就可以启发怎么去更好地做这样的训练。

第三,产品本身还可能启发新的评测方向,推动尚未被很好定义的能力领域。姚顺雨说,甚至可以在这些产品上获得一些灵感,去推进现在还没有的榜单,或者还没有被很好定义的领域。比如腾讯最近做了很多 Context learning 的工作,包括元宝的反馈也给了很大的启发和帮助。

关于模型泛化

6. 以模型之名,腾讯的不同产品终于有了点 " 互相流通 "

姚顺雨指出,LLM 时代与过去 AI 的根本差异是泛化性。过去做翻译模型,只需要翻译数据。做围棋程序,只需要围棋数据。但今天即便只做 Coding Agent,也需要聊天、搜索、指令遵循、推理等多种能力。

因此,拥有多个产品场景的公司会具备体系化优势。姚顺雨说,和元宝的 Co-Design 可以使模型产生很强的聊天和搜索能力。但这样的能力又可以被迁移到 ima、WorkBuddy 等其他产品。所以这些产品能够提供不同的数据,而这些数据之间又可以相互扩散、相互迁移,形成一个像网络一样的体系。这一点的价值会越来越重要。

此前,腾讯的打法被外界形容为 " 赛马 "。不同业务做相同方向的产品,彼此竞争,很少有形成合力的感觉,现在似乎以 AI 之名开始有所改变。

7. Hy3 的核心变化是重建基础设施、重做数据,并依赖大量 taste-driven 的决策

对于 Hy3 Preview,姚顺雨说 " 大模型没有什么秘密 "。要把 infrastructure 做好,把数据做好,算法部分反而相对简单。

他提到,混元 3 主要做了几方面改变。一是重建了预训练和强化学习基础设施。二是对数据做了很大改变,包括定义更真实的问题、丰富 data taxonomy、提高数据质量,这是一个永无止境的追求。三是许多关键决策没有清晰公式,需要在招人、模型节奏、资源取舍中不断做 trade-off,本质上是一个很 taste-driven 的过程。

8. 元宝与混元的合作,最难的部分不是技术,而是信任

姚顺雨透露,元宝早期阶段,混元曾派出很强的算法骨干,帮助元宝先把 DeepSeek 的后训练做好。彼时混元自己的预训练模型还没有 ready,不少算法同学一开始不理解。

但姚顺雨认为,维护元宝这样的产品和 DAU,对后续做模型和长期合作都很重要。所以当时其实很多同学也不理解,然后他需要去很努力地解释。但现在看起来,这些努力都是 pay off。这样的一个动作,让产品和模型的同学意识到,模型的同学是真的在为产品着想。这个对于之后的合作,包括混元在元宝上成功的上线,起到了非常重要的作用。

姚顺雨说,做模型的目标和产品的目标有很多 align 的部分,也有很多不 align 的部分。模型的人希望能力越强越好,但产品的人希望用户的需求满足得越好。所以天然有很多不 align 的部分。很重要的一点就是要换位思考的能力。当然有很多技术的部分可以探讨,但可能最难的部分其实反而是怎么样去建立信任,怎么样换位思考。

9. AI 时代做产品的范式变了,从 " 预制菜 " 变成开放式服务

汤道生认为,做产品的第一性原理没有变,最终还是奔着用户到底有什么需求,怎么去解决他的痛点,怎么给用户或者客户创造价值。在不同的时代,甚至不同的行业,做一个产品还是需要能够给用户带来价值,他才会买单,才会使用。

但是确实,在 PC 互联网、移动互联网时代做产品,跟今天在 AI 时代做产品,还是有蛮多不一样的地方。首先从范式的角度来看,在 AI 时代以前,做产品很多时候想的是通过功能来满足用户的需求。作为一个产品提供方、服务提供方,要想清楚提供怎样的能力,让用户可能通过界面、通过某些菜单去选择。这有点像预制菜,用户只能在里面点一样。

但是在 AI 时代做产品,它这种开放式的服务形态会带来很不一样的要求和挑战。用户通过简单的交互方式,可能是自然语言,可能是语音。作为产品方,你也不知道用户会问什么,所以要充分利用模型能力去理解用户的需求。然后,通过今天大模型的推理能力、调用工具的能力,产品给模型提供各种各样可以使用的工具,来应对这种开放式的需求。

汤道生说,今天 AI 时代做产品,对能力的要求更全面,也更难了。尤其今年,大部分代码都由 AI 生成。工程师可能会花更多时间去做设计、做架构设计,把写代码的工作交给 AI,然后定期去指导一下、修正一下。测试也要左移,更前置地想清楚,针对各种案例、环境,以及对于开放式答案的一些要求,甚至 alignment,怎么对齐用户所需要的风格。

10. 姚顺雨的博士论文在 2019 年就预见了今天,但他觉得自己 " 想的还是不够大 "

姚顺雨透露,他重新读了自己的博士论文,感觉又回到了一个很远古的时代。他的博士论文的 title 叫做《Language Agent:from Next Token Prediction to Digital Automation》(语言智能体:从预测下一个 Token 到数字自动化)。那是 2019 年,七年前,那是 GPT-2 的时候,它当时只能做 Next Token Prediction,而且它产生的可能一段话还不太连续,或者还有很多毛刺。所以当时人们是很难想象到,它会有一天成为一个改变世界的力量。

当时姚顺雨的想象力比较狂野。他觉得 GPT 是一个非常优美的东西,吐下一个 token 是一个非常极简且非常通用的事情。他觉得它有一天潜力不仅仅是在于吐下一个 token,而是在于把这个世界上所有的事情全部 automate。他当时想的是 digital automation,但是现在看起来也有可能是 digital and physical automation。

姚顺雨的博士期间主要做两部分。第一,如何建立一个 Agent 的方法论。如何把一个 Next Token Prediction 的机器变成一个 Agent,变成一个自动化的机器。最重要的一篇工作可能是 React。

他还记得 22 年 7 月份的时候,某一天晚上,当他第一次把当时是 Palm 2 的 API 和自己手写的一个 Wikipedia 的 API 连在一起,然后它第一次可以基于这个网页回答问题,并且多轮的交互的时候,他当时感觉就像微弱的电灯丝突然亮了的感觉一样。据他所知,可能这是第一次人类把 LLM 和真正的互联网连在一起,并且去做这种多轮的交互。

他当时的感觉这个可能在 5 年或者 10 年会改变这个世界。但是可能比想象中还要更快。包括当时第一次提出 SWE-bench 的时候,他觉得如果这个事情能做到,那很显然它会带来巨大的价值。当时可能是几百亿上千亿,但现在可能是数万亿,数十万亿,可能想的还是太小了。

第二,怎么去定义 Digital Automation 的任务。比如说 WebShop 是第一个基于互联网的 Web Agent 的 task。然后包括 InterCode 和 SWE-bench 是最早的 Coding Agent 这样的任务。现在看起来 Agent 的基础最重要的两个部分,确实是 Web 的 Agent 和 Coding 的 Agent。

姚顺雨说,他看博士论文的结尾,就是他在 2024 年的时候写的 future work,第一个是 train models for agent,第二个是 safety and robust deployment,第三个是 scientific discovery,第四个是怎么样去 help human。他很感慨,说现在很幸运,确实在做当时列的 future direction。可能想的还是不够大,当时已经觉得自己想的够大了,但可能还是不够大。

关于 Agent

11. Agent 与 Coding Agent 已成为模型公司的基础能力

姚顺雨认为,今天 Agent,尤其 Coding Agent,有点像预训练一样,是每家模型公司都不得不做的基础能力。Coding Agent 之所以本质,是因为当模型能控制 file system、拥有 container 时,它就接近一个 complete system。

但他也强调,做好 Coding Agent 需要远远超过 coding 数据本身,还需要聊天、搜索、推理等综合能力。因为大模型最重要的点是泛化性。腾讯的做法会更强调体系全面化、线上回流,以及对新范式的探索。

姚顺雨提到,即使可能今天 Coding Agent 也是最重要的事情,但腾讯还是会强调体系的全面化。他始终认为,真的要把 Coding Agent 做好,其实需要的远远不止 Coding Agent 的数据。也需要聊天、指令遵循、推理,各种各样不同的东西。

第二,产品的作用越来越重要。如何利用好线上的回流,是一个每一个模型厂商都在应对和思考的问题。这里腾讯积累了很多 Co-Design 的这些经验会变得非常重要。

第三,还需要更多想象力。无论是技术的演进,还是产品的演进,还是甚至下一个范式的演进,腾讯还是需要做一些探索性的,甚至不确定性的工作。

12. 性价比的核心是 performance,一次把简单任务做对比模型架构更重要

汤道生提到,从产品侧来看,大家越来越多有 token 焦虑的声音,token 成本持续爆发式增长。很多客户,甚至用户,包括身边同事,也在紧盯积分消耗或者 token 消耗。怎么可以让模型在解决某个问题、完成某一个任务时,token 效率最高?

姚顺雨认为,现在中国大家讨论性价比,可能更多讨论的是模型架构。但它其实是一个很复杂的体系。最重要的事情首先是 performance。很多人跟他说,用一个更强的模型,有时候比用一个更弱的模型最后更省钱,因为你更快地把这个事情做对了,也省了人的精力。所以最重要的事情是 performance。如果你的 performance 好,其实它就是性价比最关键的事情。

尤其今年,很多简单任务的鲁棒性会变得更加重要。如何一次把很多相对简单的任务做对,这可能是性价比更关键的部分,而不仅仅是模型架构。

第二部分是成本。成本本身也是性价比的一部分。第一是 " 性 ",如果性能不好,性价比就很难成立。第二是 " 价 ",也就是成本。成本上,中国其实是领先于世界的,腾讯做了大量工作去优化成本。

成本里,可能最重要的事情是,怎么用一个更小的模型,把更高价值的任务做好。在这个基础上,当然架构创新、长文管理、脚手架都有很多需要做的事情。但姚顺雨个人看法是,如果能做一个相对较小的模型,同时又能够比肩大模型的性能,而且在大部分任务上做到很强的 robustness,这可能在很多长程的上面提升一两个点的提升,可能在今天的中国更有价值。

13. 不同场景的 Agent 需要不同的 context,这是腾讯的优势

汤道生说,腾讯做的 Agent,针对不同场景有不同的产品形态。在 Agent 设计上面,很大程度是发挥好模型能力,当然模型在迭代它能力越强 Agent 需要做的工作越来越少。腾讯好几个产品在过去这段时间是随着模型能力加强,可以把产品,把 Agent 做的更简化,更多的给模型提供更多不同的工具,创造更多的 skills,来让模型能够更高效的去完成任务。

给模型提供更多的所谓记忆,用户过去使用一些习惯,能提取出来的一些用户 preference 的信息作为上下文。在 Coding 环境有相关的 context 给到模型,在 Workbuddy 里边办公协作,做个 PPT,可能大家关注的内容或者该给到模型的 context 也会不一样。

所以在做不同的 Agent,汤道生觉得更重要是了解场景下什么内容,什么信息,是重要的,比较 relevant 的,能够跟模型配合好,让模型有它需要的信息,同时也发挥它的能力。

14. AI 时代的产品组织要更扁平化,每个工程师都是产品经理

汤道生透露,他前阵子在帮 Workbuddy 做一个组织发文,看了一下他们那个非常扁平化的组织,跟过去的其他产品组织架构有很大差异。更多小团队三个人五个人,可能围绕某一个领域来做攻坚,而且有很多试验在里面,还要支持 Infra 做实验,让不同的小分队可以去探索然后再验证。因为试验大部分拿不到正向反馈,也要包容团队去试错,这种通过大量试验去提炼出对于用户流程,对于想要的这个结果有正向帮助,这个是今天做 Agent,做原生 AI 产品,这个组织形态要能够比较好去支撑。

另外,原来可能有很多工程师有很多时间花写代码,但是今天毫无疑问他们这些工作可以交给 AI 了。所以会看到更多角色的融合,大家都是产品经理,都要去了解透彻用户需求,以及设计出想要的产品形态。每一个工程师更像一个有想法的 leader,驱动多个 Coding Agent,针对想要的产品需求去做研发、开发。同时要参与评测、测试,比较前置,也用好 AI 能力,把这些质量保证工作,对齐工作要做到前面来。

15. 回应 " 腾讯 AI 慢了 ",下半场刚刚开始,AI 会是长期且多元的游戏

对于外界 " 腾讯慢了 " 的讨论,姚顺雨给出两个判断。

第一,AI 是长期游戏,而不是短期游戏。在硅谷大家蔓延很多情绪,说两年后所有人都要失业,AI 要取代所有人的工作,要赶快赚两年钱退休。但很显然腾讯的判断 AI 是一个长期游戏,其实 AI 刚开始,下半场才刚刚开始。姚顺雨不认为 ChatGPT 和 Claude Code 会是唯一的 super App,他觉得那是一个非常灰暗的世界,肯定会有源源不断新的机会诞生。可能今天就像是 70 年代 PC 刚刚产生的时候,还有很多很多事情需要做。

第二,AI 会变得更多元,而不是沿着单一主线前进。因为确实过去几年大家能看到的是 Pre-training、post training,然后 Agent,Coding Agent,似乎有一个非常清晰的主线,这个主线是所有人都在做一样的事情,都在 copy,这也是非常灰暗的事情。但到底未来变得更单一还是更多元?姚顺雨个人看法会变得更多元,毫无疑问 Coding Agent 生产力会变得更加重要,但这个世界还有很多空间没有被填满,多模态、具身智能,很多很多新的事情都在发生,或者刚刚发生。

所以从这个角度来说,如果认为下半场刚刚开始,可能确实不是完了。过去模型、产品做了很多探索,走很多弯路,姚顺雨觉得这是正常的,如果没有做过一个事情,第一次做肯定有曲折。但可能更重要的事情是能不能诚实面对自己,能不能 Be Real,能不能够去看到 feedback 然后去改变,能不能够保持耐心,这个事情是下半场最重要的事情。

汤道生也回应说,大家对于腾讯经常喜欢挑某一个点来批评,当然腾讯也很欢迎大家给更高的要求。腾讯是一个非常多业态的公司,有很多产品分布在很多的赛道,同时也有很多的团队在推进不同的项目、事情。所以毫无疑问,在这样一个复杂的组织里面有一些地方可能做得快了,有的地方做得慢了,有一些地方可能会做失败,在探索。所以这些提醒都非常好,确实有一些地方可以做得更好。

但就像姚顺雨说的,这是一个长跑,这是一个马拉松,腾讯还是有非常丰富的场景。就姚顺雨一开始提到选择腾讯,因为 AI 需要 Context,模型需要很多的这些上下文,其实腾讯在过去多年不同产品,在不同赛道的这些积累,其实都是可以针对每一个场景去为模型提供有用的信息,提供这些 Context 来发挥价值。

在这样一个长跑,汤道生相信模型会不断迭代,用户的需求也在不断变化,也会有新的产品形态出现。比如说今年年初对 Agent 这一波热潮也反应比较快。同时也有像 WorkBuddy 这样的智能体产品,其实也是几年前开始做的产品,沿着原来做 Coding、CodeBuddy,慢慢看到非程序员也有很强的需求,也能比较快去应对,今天也听到很多客户对于不同产品怎么去组合起来有非常高的期待。

本文来自微信公众号:字母榜,作者:苗正

相关标签
ai
虎嗅APP

虎嗅APP

有视角的商业资讯与交流平台

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容