林俊旸: 从推理思考到智能体思考

前阿里通义千问（Qwen）核心负责人、阿里最年轻P10之一的林俊旸，在3月4日宣布卸任后，于3月26日深夜在海外社交平台X上发布了一篇长文《From "Reasoning" Thinking to "Agentic" Thinking》，这也是他离职后首次公开发表对AI行业方向的深度思考。

他在文中清晰地指出，过去两年行业都在死磕“推理式思考”，也就是让模型闷头做更长、更严谨的内部逻辑推演，OpenAI的o1、DeepSeek的R1都是这条路线的代表，但现在行业该往前看了，真正的未来是转向“智能体式思考”——不再是模型自己在封闭环境里想多久，而是为了实际行动去思考，在和外部环境交互、调用工具、接收现实反馈的过程中不断调整计划，让AI的思考真正服务于解决真实世界的问题，而不是只停留在纸面的逻辑推导。

以下为文章全文翻译：《From “Reasoning” Thinking to “Agentic” Thinking》

从“推理式思考”到“智能体式思考”

过去两年，我们评估模型的方式，以及对模型能力的期许，都被彻底重塑。OpenAI的o1模型证明了，“思考”本身可以成为一项核心能力——它不仅能够被专门训练，还能直接向用户开放使用。DeepSeek-R1则进一步验证了，带有推理特质的后训练技术路线，并非少数顶尖实验室的专属，而是具备可复现、可扩展的普适性。

OpenAI将o1定义为通过强化学习训练、秉持“先思考再作答”逻辑的模型，DeepSeek则把R1定位为对标o1的开源推理模型，这一阶段的探索意义重大，但在2025年上半年，整个行业的核心仍聚焦在推理式思考上：研究如何让模型在推理环节投入更多算力，如何通过更优质的奖励机制完成训练，以及如何开放或管控模型的额外思考过程。

如今行业最需要回答的问题是，下一步的发展方向在哪里？我的答案是智能体式思考——为行动而展开思考，在与外部环境的持续交互中思考，并依据现实世界的反馈不断迭代更新行动规划。

o1与R1的崛起带来的启示

第一代推理型模型让我们清晰地认识到，想要在大模型上实现强化学习的规模化拓展，必须具备确定性强、稳定性高、可大规模应用的反馈信号。

智能体，是能够制定计划、判断行动时机、调用外部工具、感知环境反馈、调整执行策略，并且能够长期自主运行的系统，其最核心的特征，是与现实世界形成完整的交互闭环。

推理式思考与智能体式思考的差异

推理式思考，以模型得出最终答案前的内部推理质量为评判标准，关注的是模型能否证明数学定理、书写逻辑严谨的证明过程、生成可运行的正确代码、通过各类专业基准测试。

而智能体式思考，以模型在与环境交互的过程中能否持续推进任务、达成目标为评判标准，核心考量从“模型能否进行足够长时间的思考”，转变为“模型能否以支撑有效行动的方式展开思考”。

智能体式思考需要解决的问题，是纯推理模型大多可以规避的：判断何时停止思考、付诸行动；选择合适的工具并确定调用顺序；整合环境中存在干扰、信息不完整的观测数据；在行动失败后修正原有计划；在多轮对话、多次工具调用的过程中保持逻辑与行动的连贯性。

智能体式思考，本质就是依托行动完成推理的模型思考模式。

思考范式的深层变革

从推理式思考转向智能体式思考，本质上是从“追求更长时间的思考”，转变为“为了有效行动而思考”。

模型训练的核心对象，也从单一模型本身，变成了“模型+环境”的整体系统，也就是智能体与其运行的框架体系，这带来了两个根本性的变化：一是优质思考的定义发生改变，不再是追求最长、最直观的推理过程，而是在现实约束下能够支撑有效行动的最实用思考路径；二是行业竞争优势的来源发生改变，推理时代的优势源于更优质的强化学习算法与反馈信号，而智能体时代的优势，则来自更完善的应用环境、更紧密的训练与服务一体化体系、更成熟的框架工程能力，以及能否在模型决策与现实执行结果之间搭建起真正的闭环。

下一个前沿：更具实用价值的思考

我预判，智能体式思考会成为AI主导的思考形态，最终会替代大部分传统、静态且呈独白式的推理式思考，也就是那些依靠输出大量文本弥补交互不足、孤立且冗长的内部推理过程。

即便在数学推导、代码编写这类高难度任务中，真正先进的AI系统也应当具备搜索、模拟、执行、检查、验证、修正的能力，最终目标是稳健且高效地解决实际问题。

训练这类智能体系统面临的最大挑战，是奖励作弊问题：编码类智能体可能会利用代码库的后续信息、滥用日志数据，找到让任务失去意义的捷径；存在隐藏漏洞的训练环境，会让模型策略表现出超越人类的效果，实则只是在训练过程中钻了规则的空子。

依托工具赋能的思考，显然比孤立的内部推理更具实用价值，也更能切实提升实际生产效率。

林俊旸: 从推理思考到智能体思考 ​

从“推理式思考”到“智能体式思考” ​

o1与R1的崛起带来的启示 ​

推理式思考与智能体式思考的差异 ​

思考范式的深层变革 ​

下一个前沿：更具实用价值的思考 ​