主题
林俊旸: 从推理思考到智能体思考
前阿里通义千问(Qwen)核心负责人、阿里最年轻P10之一的林俊旸,在3月4日宣布卸任后,于3月26日深夜在海外社交平台X上发布了一篇长文《From "Reasoning" Thinking to "Agentic" Thinking》,这也是他离职后首次公开发表对AI行业方向的深度思考。
他在文中清晰地指出,过去两年行业都在死磕“推理式思考”,也就是让模型闷头做更长、更严谨的内部逻辑推演,OpenAI的o1、DeepSeek的R1都是这条路线的代表,但现在行业该往前看了,真正的未来是转向“智能体式思考”——不再是模型自己在封闭环境里想多久,而是为了实际行动去思考,在和外部环境交互、调用工具、接收现实反馈的过程中不断调整计划,让AI的思考真正服务于解决真实世界的问题,而不是只停留在纸面的逻辑推导。
以下为文章全文翻译:《From “Reasoning” Thinking to “Agentic” Thinking》
从“推理式思考”到“智能体式思考”
过去两年,我们评估模型的方式,以及对模型能力的期许,都被彻底重塑。OpenAI的o1模型证明了,“思考”本身可以成为一项核心能力——它不仅能够被专门训练,还能直接向用户开放使用。DeepSeek-R1则进一步验证了,带有推理特质的后训练技术路线,并非少数顶尖实验室的专属,而是具备可复现、可扩展的普适性。
OpenAI将o1定义为通过强化学习训练、秉持“先思考再作答”逻辑的模型,DeepSeek则把R1定位为对标o1的开源推理模型,这一阶段的探索意义重大,但在2025年上半年,整个行业的核心仍聚焦在推理式思考上:研究如何让模型在推理环节投入更多算力,如何通过更优质的奖励机制完成训练,以及如何开放或管控模型的额外思考过程。
如今行业最需要回答的问题是,下一步的发展方向在哪里?我的答案是智能体式思考——为行动而展开思考,在与外部环境的持续交互中思考,并依据现实世界的反馈不断迭代更新行动规划。
o1与R1的崛起带来的启示
第一代推理型模型让我们清晰地认识到,想要在大模型上实现强化学习的规模化拓展,必须具备确定性强、稳定性高、可大规模应用的反馈信号。
智能体,是能够制定计划、判断行动时机、调用外部工具、感知环境反馈、调整执行策略,并且能够长期自主运行的系统,其最核心的特征,是与现实世界形成完整的交互闭环。
推理式思考与智能体式思考的差异
推理式思考,以模型得出最终答案前的内部推理质量为评判标准,关注的是模型能否证明数学定理、书写逻辑严谨的证明过程、生成可运行的正确代码、通过各类专业基准测试。
而智能体式思考,以模型在与环境交互的过程中能否持续推进任务、达成目标为评判标准,核心考量从“模型能否进行足够长时间的思考”,转变为“模型能否以支撑有效行动的方式展开思考”。
智能体式思考需要解决的问题,是纯推理模型大多可以规避的:判断何时停止思考、付诸行动;选择合适的工具并确定调用顺序;整合环境中存在干扰、信息不完整的观测数据;在行动失败后修正原有计划;在多轮对话、多次工具调用的过程中保持逻辑与行动的连贯性。
智能体式思考,本质就是依托行动完成推理的模型思考模式。
思考范式的深层变革
从推理式思考转向智能体式思考,本质上是从“追求更长时间的思考”,转变为“为了有效行动而思考”。
模型训练的核心对象,也从单一模型本身,变成了“模型+环境”的整体系统,也就是智能体与其运行的框架体系,这带来了两个根本性的变化:一是优质思考的定义发生改变,不再是追求最长、最直观的推理过程,而是在现实约束下能够支撑有效行动的最实用思考路径;二是行业竞争优势的来源发生改变,推理时代的优势源于更优质的强化学习算法与反馈信号,而智能体时代的优势,则来自更完善的应用环境、更紧密的训练与服务一体化体系、更成熟的框架工程能力,以及能否在模型决策与现实执行结果之间搭建起真正的闭环。
下一个前沿:更具实用价值的思考
我预判,智能体式思考会成为AI主导的思考形态,最终会替代大部分传统、静态且呈独白式的推理式思考,也就是那些依靠输出大量文本弥补交互不足、孤立且冗长的内部推理过程。
即便在数学推导、代码编写这类高难度任务中,真正先进的AI系统也应当具备搜索、模拟、执行、检查、验证、修正的能力,最终目标是稳健且高效地解决实际问题。
训练这类智能体系统面临的最大挑战,是奖励作弊问题:编码类智能体可能会利用代码库的后续信息、滥用日志数据,找到让任务失去意义的捷径;存在隐藏漏洞的训练环境,会让模型策略表现出超越人类的效果,实则只是在训练过程中钻了规则的空子。
依托工具赋能的思考,显然比孤立的内部推理更具实用价值,也更能切实提升实际生产效率。