林俊旸在离开阿里千问后首次公开发声。他没有回应离职的具体情况或宣布未来去向,而是撰写长文,深入探讨了人工智能领域从“推理模型时代的思考”向“智能体时代的思考”的范式转变。

整篇文章着眼于技术与AI的未来发展方向,但字里行间亦透露出对千问过往技术路线的反思。
他坦率承认:“我们没有全做对”(We did not get everything right)。

千问团队曾有一个雄心勃勃的构想:将“思考”(thinking)与“指令遵循”(instruct)两种模式合并到一个模型中。Qwen3正是这一方向上“最清晰的公开尝试之一”,它引入了混合思维模式。
然而,林俊旸如今看来,这一尝试仍不尽如人意。他认为,最终的模型表现是:“思考”变得冗长且犹豫不决,“指令遵循”则不够干脆利落、可靠性下降,且推理成本更高。
在他看来,真正成功的合并,并非简单地将两种“人格”塞进同一个模型检查点,而是要让模型拥有一个连续的推理努力光谱。

面向未来,他给出了一个关键判断:过去两年以“推理思考”(Reasoning Thinking)为核心的时代使命已经完成。
OpenAI的o1和深度求索的DeepSeek-R1证明了,强大的推理能力可以通过训练被复现和规模化。这教会了整个行业一个关键认知:
要在语言模型上有效进行强化学习,需要确定性强、可规模化的反馈信号。
2025年上半年开始,业界几乎都在集中研究同一组问题:如何让模型投入更多推理时间、如何训练更强的奖励模型、如何精确控制推理的力度。
现在,最关键的问题是:下一步是什么?
林俊旸的答案是:智能体式思维(Agentic Thinking),即在与环境的交互中不断修正计划的思考方式。
他列出了智能体式思维与推理式思维的关键区别:
- 判断何时停止思考、开始行动:推理模型输出答案即结束,智能体则需在思考与行动间不断循环切换。
- 选择调用哪个工具、以什么顺序:这不是简单的函数调用,而是一个动态规划问题。
- 消化来自环境的噪声和部分观测:真实世界不会提供完美、完整的反馈。
- 失败后修正计划,而非推倒重来:具备在原有计划基础上迭代调整的能力。
- 跨越多轮对话和多次工具调用保持连贯性:在复杂的交互序列中维持状态与目标的统一。
他用一句话总结这一转变的核心:
从“想更久”到“为了行动而想”。
在林俊旸看来,未来的竞争力不仅源于更好的模型,还将来自更好的环境设计、更强的驾驭(harness)工程、以及多个智能体之间的协同编排。
这是一个从训练模型,到训练智能体,再到训练系统的演进过程。
(以下为林俊旸原文的翻译与整理。)
从“推理式思考”到“智能体式思考”
过去两年,彻底改变了我们评估模型的方式以及对模型的期待。
OpenAI的o1表明,“思考”可以成为一种一等公民级别的能力——一种你可以专门训练并向用户开放的能力。
DeepSeek-R1则证明了,推理式的后训练可以在原始实验室之外被成功复现和规模化。
OpenAI将o1描述为通过强化学习训练出的“先想后答”模型,而深度求索将R1定位为与o1具有竞争力的开源推理模型。

那个阶段至关重要。
但到了2025年上半年,行业将大部分精力投入到了推理式思考上:如何让模型在推理时消耗更多计算资源,如何用更强的奖励信号来训练,如何暴露或控制这些额外的推理力度。
现在的问题是:下一步是什么?
我认为答案是 智能体式思考 —— 为了行动而思考,在与环境的交互中思考,并根据来自真实世界的反馈持续更新计划。
1. o1和R1的崛起真正教会了我们什么
第一波推理模型的核心启示是:
如果想在语言模型上规模化地应用强化学习,我们需要确定性强、稳定且可扩展的反馈信号。
数学、代码、逻辑等可验证领域变得至关重要,因为这些场景能提供远比通用偏好监督更强的奖励信号。它们使得强化学习能够针对“正确性”进行优化,而非仅仅追求“看起来合理”。
与此同时,基础设施变得至关重要。一旦模型被训练出在更长轨迹上进行推理的能力,强化学习就不再是监督微调的一个轻量附加模块,它变成了一个系统工程问题。你需要大规模的轨迹采样、高吞吐量的验证、稳定的策略更新和高效的采样机制。
因此,推理模型的崛起,既是一个关于模型架构的故事,也同样是一个关于基础设施的故事。
2. 真正的问题从来不只是“合并思考和指令”
2025年初,千问团队中的许多人心中都有一幅宏大的蓝图。
理想的系统应当统一“思考”和“指令遵循”两种模式。它应支持可调节的推理力度,类似于低、中、高档位的设定。更理想的是,模型能从提示和上下文中自动推断出合适的推理量——自行决定何时直接回答、何时多思考一会儿、何时在真正困难的问题上投入大量计算。
从概念上看,这个方向是正确的。Qwen3是该方向上最清晰的公开尝试之一。它引入了“混合思维模式”,在一个模型家族中同时支持思考和非思考行为,强调可控的思维预算,并设计了一条包含“思维模式融合”阶段的四阶段后训练流水线。

然而,合并说起来容易,做好却很难。真正的难点在于数据。
当人们谈论合并思考与指令时,往往首先想到模型侧的兼容性:一个检查点能否同时支持两种模式,一套对话模板能否在它们之间切换,服务架构能否暴露正确的控制开关。
但更深层的问题是,两种模式背后的数据分布和行为目标存在本质差异。
在试图平衡模型合并与提升后训练数据质量及多样性的过程中,“我们没有全做对”。
在迭代中,团队也密切关注了用户实际使用这两种模式的方式:
* 一个强大的指令模型,通常因简洁直接、格式规范、低延迟而受到奖励——尤其是在改写、标注、模板支持、结构化提取、运营QA等重复性高、批量大的企业任务中。
* 一个强大的思考模型,则因在难题上花费更多token、保持连贯的中间推理、探索替代路径、并保留足够内部计算以切实提升最终正确率而受到奖励。
这两种行为模式相互拉扯。如果合并所用的数据未经精心策划,结果通常是两边都表现平庸:“思考”行为变得嘈杂、臃肿或不够果断;“指令”行为则变得不够干脆、不够可靠,且比商业用户实际需要的成本更高。
在实践中,将两者分离仍然更具吸引力。2025年下半年,在Qwen3最初的混合框架之后,团队发布了独立的Instruct和Thinking更新版本。在商业部署中,大量客户仍然需要高吞吐、低成本、高度可控的指令模型来进行批量操作。对这些场景而言,合并的好处并不明显。分离产品线让团队可以更专注地解决每种模式各自的数据和训练挑战。
其他实验室选择了不同的路线:
* Anthropic公开主张整合模型的理念:Claude 3.7 Sonnet作为混合推理模型推出,用户可选择普通回复或扩展思考,API用户可设置思维预算。Anthropic明确表示,他们认为推理应是一种整合的能力,而非独立的模型。
* GLM-4.5也将自身定位为同时具备思考与非思考模式的混合推理模型,统一了推理、编程和智能体能力。
* DeepSeek后来也在V3.1的“Think & Non-Think”混合推理中走向了类似方向。
关键问题在于,这种合并是否是有机的。如果思考与指令只是被硬塞进同一个检查点,却仍然像两个别扭拼接的人格那样运作,产品体验依然是不自然的。
真正成功的合并,需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度,并理想地具备自适应选择能力。这指向了一种关于算力分配的策略,而非一个简单的非此即彼的开关。
3. 为什么Anthropic的方向是一次有用的纠偏
Anthropic围绕Claude 3.7和后续版本的公开表述是克制且务实的。
他们强调将推理、用户可控的思考预算、真实世界任务、代码质量,以及后续在扩展思考过程中使用工具的能力进行整合。Claude 3.7 被定位为一个具备可控预算的混合推理模型;Claude 4 则更进一步,允许推理过程与工具使用交替进行。同时,Anthropic 将编程、长周期任务和智能体工作流列为其首要目标。
然而,生成长度更长的推理轨迹,并不等同于模型变得更聪明。
在许多情况下,过度的、可见的推理恰恰是计算资源分配低效的信号。如果模型试图对所有事情都采用同样冗长的方式进行推理,这可能意味着它在优先级判定、信息压缩或采取行动方面是失败的。
Anthropic 的发展路径揭示了一种更具纪律性的视角:思考的形态应由目标工作负载来塑造。
如果目标是编程,那么思考应服务于代码库导航、规划、任务分解、错误恢复和工具编排。如果目标是智能体工作流,那么思考应致力于提升长周期内的执行质量,而非生成华丽的中间文本。
这种对目标导向效用的强调,指向了一个更宏大的图景:
我们正在从训练模型的时代,迈向训练智能体的时代。
我们在 Qwen3 的博客中明确写道——“我们正从专注于训练模型的时代,转向以训练智能体为核心的时代”,并将未来的强化学习进展与面向长周期推理的环境反馈紧密联系起来。

智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略,并在长周期内持续运行的系统。其本质特征是与世界进行闭环交互。
4. “智能体式思考”的实质内涵
智能体式思考代表了一个不同的优化目标。
传统的推理式思考,其质量通常以得出最终答案前的内部推理过程来衡量:模型能否证明定理、写出证明、生成正确代码、通过基准测试。而智能体式思考则关注:模型能否在与环境交互的过程中持续取得进展。
核心问题从“模型能否思考得足够久?”转变为“模型能否以一种维持有效行动的方式进行思考?”智能体式思考必须处理几件纯推理模型大多可以回避的事情:
- 决定何时停止思考、采取行动
- 选择调用哪个工具、以何种顺序调用
- 消化来自环境的噪声或部分观测信息
- 在失败后修正计划
- 在多轮交互和多次工具调用中保持连贯性
智能体式思考,是通过行动来进行推理的模型。
5. 为何智能体强化学习的基础设施更具挑战
一旦优化目标从解决基准测试问题转向解决交互式任务,强化学习的技术栈就必须随之改变,经典的推理式强化学习基础设施已不敷使用。
在推理式强化学习中,采样轨迹通常可被视为基本自包含的序列,并配有相对简洁的评估器。
而在智能体强化学习中,策略被嵌入到一个更大的编排框架中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和调度框架。
环境不再是一个静态的验证器,它本身就是训练系统不可或缺的一部分。
这催生了一项新的系统需求:训练与推理必须进行更彻底的解耦。
若无此解耦,采样吞吐量将面临崩溃。
试想一个编程智能体需要在实时测试框架上执行生成的代码:推理侧因等待执行反馈而停滞,训练侧则因缺乏已完成轨迹而“饥饿”,整个流水线的 GPU 利用率将远低于你对经典推理式强化学习的预期。
加之工具延迟、部分可观测性和有状态环境等因素,这些低效性会被进一步放大。结果往往是,在达到目标能力水平之前很久,实验进程就已变得缓慢而痛苦。
环境本身也升级为一等公民级别的研究对象。
在监督微调时代,我们痴迷于数据多样性。在智能体时代,我们应痴迷于环境质量:稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、防作弊能力,以及轨迹生成的可扩展性。
构建环境已开始成为一个真正的创业赛道,而非副业。如果智能体是为了在类生产环境中运行而训练的,那么环境就是其核心能力栈的一部分。
6. 下一个前沿:更具可用性的思考
我预期,智能体式思考将成为主流的思维形态。
我认为它最终可能取代大部分旧式的“静态独白”式推理思考——那些过长的、孤立的内部推理轨迹,试图通过输出越来越多的文字来弥补缺乏交互的不足。
即便面对非常困难的数学或编程任务,一个真正先进的系统也应被赋予搜索、模拟、执行、检查、验证和修正的权力。目标是稳健且高效地解决问题。
训练此类系统最大的挑战在于奖励作弊。
一旦模型获得了有意义的工具访问权限,奖励作弊就变得危险得多。
一个能搜索的模型可能在强化学习训练中直接搜索答案。一个编程智能体可能利用代码仓库中的未来信息、滥用日志,或发现让任务失效的捷径。一个存在隐藏泄漏的环境可能让策略看起来超越人类水平,实际上却是在训练它作弊。
这正是智能体时代比推理时代微妙得多的地方。
更好的工具让模型更有用,但也扩大了虚假优化的攻击面。
我们应预期,下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议,以及策略与世界之间更有原则的接口。尽管如此,方向是明确的。工具赋能的思维就是比孤立的思维更有用,也更有可能真正提升生产力。
智能体式思考还意味着编排工程的兴起。核心智能将越来越多地源自多个智能体的组织方式:
一个负责规划和分发任务的编排者,多个像领域专家一样行动的专业智能体,以及执行更窄任务的子智能体——它们帮助控制上下文、避免信息污染,并维护不同层级推理之间的隔离。
未来的演进方向是:从训练模型到训练智能体,从训练智能体到训练系统。
结语
推理浪潮的第一阶段确立了一件重要的事:
当反馈信号可靠且基础设施能够支撑时,在语言模型之上应用强化学习,可以带来认知能力质的飞跃。
更深层的转变是从推理式思考到智能体式思考:
从“想得更久”,到“为了行动而想”。训练的核心对象已经改变——它变成了模型与环境的复合系统,或者更具体地说,是智能体及其周围的编排框架。
这改变了哪些研究要素最为关键:
模型架构和训练数据当然仍然重要,但环境设计、轨迹采样基础设施、评估器鲁棒性,以及多智能体间的协调接口变得同样关键。
这也改变了“好的思考”的定义:
最有用的轨迹,是能在真实世界约束下维持有效行动的那个——而非最长或最醒目的那个。
这也改变了竞争优势的来源:
在推理时代,优势源于更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线。
在智能体时代,优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程能力,以及在模型的决策与这些决策产生的后果之间实现闭环的能力。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27636


