
这篇《从 " 推理式思考 " 到 " 智能体式思考 "》发布于 X 平台,被业内视为林俊旸的技术宣言。文中他用一条清晰的时间线,把 AI 能力进化切成三个阶段:2024 年前的 " 指令模式 "、2024-2025 年的 " 推理思考 "、以及即将到来的 " 智能体时代 "。每个阶段的切换,都伴随着训练核心和竞争壁垒的彻底转移。
第一阶段:推理模型证明了 " 思考 " 可训练
OpenAI o1 和 DeepSeek-R1 是这一阶段的标志。林俊旸写道,它们的核心突破是证明 " 思考可以作为一种可训练、可交付的一流能力 "。
具体怎么做到的?强化学习(RL)在数学、代码等可验证领域获得确定性反馈。这让模型 " 为正确而优化,而非为合理 " ——听起来简单,实则颠覆了此前依赖人类偏好标注的训练范式。DeepSeek-R1 更关键的意义在于,证明了这种推理风格的后训练方法能在原始实验室之外重现并规模化。
但林俊旸点出了一个被忽视的代价:推理 RL 已从轻量级微调附件,演变为需要大规模部署、高吞吐验证的系统工程问题。基础设施成了隐形战场,没这层底子,算法再好也跑不起来。
第二阶段:融合困境与商业现实的碰撞
推理模型火了之后,行业自然想把它塞进所有场景。林俊旸在文中剖析了 " 思考模式 " 与 " 指令模式 " 的融合困境——这直接映照了阿里的产品决策。

这个细节暴露了技术理想与商业落地的张力。推理模型的 " 慢思考 " 是能力,也是成本;是卖点,也是负担。如何让用户按需调用,成了产品设计的核心难题。
第三阶段:智能体时代,环境成为一等公民
林俊旸的判断很明确:2025 年下半年开始,竞争核心将转向 " 智能体式思考 "(Agentic Thinking)。
这不仅是技术升级,是范式转移。训练核心从模型本身转向 " 模型 - 环境 " 系统,竞争优势建立在三大支柱上:更优质的环境设计、更紧密的训练 - 服务一体化架构、更强大的智能体协同工程。
他列出了纯推理模型无需面对的难题:决定何时行动、调用何种工具、处理环境的不确定反馈、在失败后修订计划、在多轮交互中保持连贯。这些问题的共同点是需要 " 为行动而思考 ",而非 " 为思考而思考 "。
多智能体组织架构将成为核心智能的来源——规划者、领域专家、执行子代理构成的系统,比单个大模型更接近真正的智能。环境本身的稳定性、真实性、反馈丰富度和抗过拟合能力,将直接决定产品天花板。
林俊旸在文末写道:「那个阶段很重要。但 2025 年上半年主要聚焦于推理思维……现在的问题是:接下来该怎么做?」
这个问题,他似乎已经用行动回答了。文中对智能体基础设施、环境工程的反复强调,与他离职后的动向形成微妙呼应——下一个创业或研究方向,大概率就在这片新战场。而阿里 Qwen 的接力棒,能否在失去灵魂人物后继续保持技术锐度,成了留给老东家的开放式考题。