为大模型开启 " 下半场 " 的姚顺雨,也开启了个人 AI 的下半场。
就在最近,这位明星 OpenAI 华人研究员的动态,开始被火热关注。
之前有人说他出现在小扎的必挖名单上,也有人最近爆料他即将加盟其他的巨头——而且是中国科技巨头," 转会费 " 也有了惊人传闻。以及还有一种说法,姚顺雨选择个人创业……
姚顺雨去哪儿?还不知道。
但姚顺雨离职 OpenAI,得到了不同渠道的证实,只差个人官宣。
他似乎就此要开启个人 AI 的下半场了。
这个刚刚 29 岁的年轻人,合肥一中毕业、NOI 奥赛银牌、高考 704 分以安徽探花进入清华姚班,最后在普林斯顿获得计算机博士(语言和强化学习方向),毕业就加入了 OpenAI ……
而且更早之前,姚顺雨就有着突出而知名的科研成果,比如:
思维树(Tree of Thoughts):让 LLM 反复思考,大幅提高推理能力
SWE-bench:一个大模型能力评估数据集。
SWE-agent:一个开源 AI 程序员。
ReAct …
甚至还有超越年龄的哲思,一篇 "AI 下半场 " 的博文,在 AI 圈内外洛阳纸贵。
所以姚顺雨,究竟是一个怎样的年轻人?
姚顺雨成长之路
在 2024 年刚加入 OpenAI 不久,姚顺雨在一次采访中推荐了一本书——《哥德尔、艾舍尔、巴赫:集异璧之大成》。
正如这本书所启发的那样,跨学科的眼光与对复杂信息的开放态度,似乎贯穿着姚顺雨的整个求学生涯,并逐渐形成一种个人的风格特质。
和所有的学霸一样,姚顺雨初中就读于合肥最好的学校之一——合肥 45 中(2009 — 2012),初中毕业后升入合肥市第一中学。
2014 年,他在全国信息学奥林匹克竞赛(NOI)中以 495 分斩获银牌;次年高考以理科704 分的成绩位列安徽省第三,进入清华交叉信息研究院姚班,主修计算机科学。
而这看似 " 标准学霸 " 的开局背后,其实孕育着一颗不太一样,甚至稍有反叛的气质。
姚顺雨在采访中透露,相较其他清华姚班的同学专注于一点,不断深挖的品质,他更爱看很多数学,历史,乃至种各样乱七八糟的东西。
而他对嘻哈音乐的热爱,也早已不是什么新闻。
艾米纳姆、蛋堡、热狗、Jcole 等说唱歌手伴随着他的初高中,而在清华他还是清华大学学生说唱社联合创始人。
值得一提的是,在清华大学 2019 年各类型自主选拔复试的开营仪式上,姚顺雨就给未来的学弟学妹们甩出了一句堪称 "freestyle" 的理由,解释自己为什么选清华:
但是对于我来说,选择清华、北大并不是问题,因为北大没有我姓氏命名的班级。
姚班很注重理论基础课程的学习,像操作系统或电路设计相关的课,看上去和科研好像没有任何关系,但是现在看来还是有些帮助的。它能使你对计算机科学的全貌有基本了解。
这种兼容各类信息、涉猎不同学科并从中寻找乐趣的跨界气质,在姚顺雨身上表现得尤为明显。用以赛亚 · 伯林的话来说,他更像是一只 " 狐狸 ",而不是一只 " 刺猬 ",而这也体现在他后续的研究中。
(注:柏林的 " 刺猬 " 比喻那些专注于单一核心理念的人,他们把所有经验都套用到这个中心观点上;而 " 狐狸 " 则指那些涉猎广泛、善于灵活应对不同问题的人,更依赖多样化的策略和视角)
让人颇感惊讶的是,在大三下学期之前,姚顺雨既没有接触过 AI,甚至连科研也没有做过。
一次交换的机会让他去了 MIT,在此之后,他才开始跟着吴佳俊做一些计算机、视觉以及认知科学的研究。
姚顺雨表示,在跟随吴佳俊和学长 Jun-Yan Zhu 学习时,他不仅掌握了实验、汇报等研究入门的基本功,更受到思想上的深刻影响,他由此认识到心理学与人工智能的交叉,学会了从更高维度和整体框架去思考问题。
结束姚班四年的学习后,2019 年,他正式前往普林斯顿攻读博士,跨界气质再次显现。
本科阶段他主要研究计算机视觉,而博士阶段,本来被计算机视觉方向录取的他,却因为兴趣转向,自行联系了自然语言处理(NLP)领域的导师。最终,他因机缘巧合加入了Karthik Narasimhan的团队,开始从事自然语言处理与强化学习的研究。
这等于是从视觉转到了语言,但 " 觅之,便有所获 "。姚顺雨在事后回想到,这种跨界也是他的幸运之处,因为彼时正逢 GPT-2 兴起。因此,在博士的第一年,他就已经开始想着如何让 language model 变成 Agent.
而对(通用)Agent 的关注贯穿着他的研究。
姚顺雨表示,虽然这篇工作并不像 swebench、ReAct 或思维树那么有名,但对他来说具有重要意义。
在张小珺的对谈中,我们发现姚顺雨对语言的关注早在这篇 5 年前的论文中就已萌芽。
语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。
换句话说,用语言来玩游戏是无限的,Agent 可以凭借语言进行推理和组合,在不同的上下文中找到合适的动作,泛化就由此而来。
换句话说,Agent 也需要具备 " 跨界 " 能力,而语言则是绝佳的媒介。
然而,姚顺雨也意识到,如果没有一个好的任务或环境,即使把 " 游戏 " 玩得再高分,也毫无意义。
基于这一思考,他的第二篇工作WebShop构建了一个大规模模拟电商环境,使智能体通过理解复杂文本指令,在网页中进行导航和操作,从而推动语言理解与决策能力在真实世界任务中的应用与验证。
而当时间到了 2022 年,GPT-3.5的出现改变了一切。
众所周知,让一张白纸反复试错的效率极低,而在传统强化学习中,这种低效尝试却屡见不鲜:智能体通常要么被限制只做单一任务,比如下围棋,要么在庞大的动作空间中盲目探索。
GPT-3.5 让人们意识到,之前缺失的是先验知识:通过强大的语言预训练,将常识和语言知识融入模型,再通过微调,它才能成为具备跨界气质、拥有泛化能力的 Agent。
正如姚顺雨所说:如果你的 Pre-Training(预训练)已经包含了所有事情,那么 RL(强化学习)只是激发出这些能力的 skill(技能)。
在受到 GPT-3.5 的启发后,姚顺雨就做了 ReAct(ReAct: Synergizing Reasoning and Acting in Language Models),让大语言模型在与外部环境交互时,同时进行 " 推理 " 和 " 行动 "。
不过,为了实现通用,泛化,必须学会推理。而语言模型刚好提供了一个足够强的先验(prior),这个先验让你可以推理,而推理又能在不同的环境间泛化。
于是,在 GPT、思维链等工作的基础上,思维树(Tree of Thoughts, ToT)让语言模型通过多路径探索和自我评估,从而实现比传统左到右推理更高效的复杂问题解决能力。
相比于热狗的 23 岁,28 岁博士毕业进入 OpenAI 的姚顺雨,才真正迎来自己的的 " 九局下半 "。
2024 年 8 月 1 日,姚顺雨宣布加入 OpenAI,一时间,说是万众瞩目也毫不为过。
(是的,AI 也迎来了自己的九局下半)
姚顺雨表示:AI 发展分为上下两阶段。上半场以模型和方法为中心,核心构建了模型和训练方法;随着 AI 技术成熟,下半场的重点转向如何定义有现实意义的任务、如何有效评估 AI 系统的表现。
新的评估应该贴近现实界任务、优化模型配方解决任务,形成新的正向循环。
在这,我们不难看出姚顺雨姿态的转变:从专注求解的科研工作者,逐渐成长为善于发现需求的 " 产品经理 "。
据刚刚曝光的一次与张小珺的访谈中,姚顺雨也谈到了创业的底层逻辑:
毕业前我想得多的是,怎么创造一个爱因斯坦?我那时是比较 academia(学院派)的人——你在普林斯顿,你的偶像是冯诺依曼、爱因斯坦——很自然,能想到最有意思的任务是,我能不能发现下一个相对论?这毫无疑问能标志,AGI 或 ASI(超人工智能)实现了。后来,我到了硅谷,到了加州,进入公司之后,我发现人类的组织也是一个有意思的事情。如果能创造一家新的公司,创造一个 one trillion dollar(一万亿美元)、基于 Agent 的公司,是很有意思的。
而当谈到是否会出去创业时,姚顺雨更是坦率地表示:OpenAI 大多数人都会考虑创业。他需要去做更有挑战的事情,去创业是很自然的。当然,还是应该找到一个好的事情。他喜欢把事情想得清楚一点再去做。
当然,从 OpenAI 离职也不一定非得创业,比如姚顺雨的导师 Karthik Narasimhan,就在 OpenAI 呆了一年后,选择了离开,并去普林斯顿继续象牙塔科研了。
如今,姚顺雨加入 OpenAI 也过了整整一个年头。
有爆料说 " 姚顺雨上亿薪资入职腾讯 ",但被腾讯官方对外辟谣否认了。
总之,祝福姚顺雨开启下半场。
参考链接
[ 1 ] https://openreview.net/profile?id=~Shunyu_Yao1&utm_source=chatgpt.com
[ 2 ] https://ysymyth.github.io/?utm_source=chatgpt.com
[ 3 ] https://x.com/shunyuyao12?lang=en&utm_source=chatgpt.com
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
科技前沿进展每日见