
作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期?
你很可能遇到过以下困境之一:
虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reasoning)时,模型表现便会急转直下,难以构建完整的逻辑链条,暴露出其在深度理解上的短板。
训练的噩梦:长文本、多任务的训练数据成分复杂,其多源、多域的特性使得标准的强化学习算法严重“水土不服”。精心设计的奖励函数可能因数据分布的剧烈变化而产生偏差,导致模型性能不升反降。最终,监控图上剧烈震荡的奖励和熵曲线,宣告着训练过程的崩溃。
窗口的天花板:即使上下文窗口扩展到256K、1M甚至更长,它终究是有限的“物理内存”。现实世界的知识流——如分析整个代码仓库、研读完整财报或专业巨著——其信息量轻易就能突破此上限。这使得模型在处理这些“超框”任务时,不得不依赖分块处理等妥协方案,导致关键全局信息丢失和端到端推理能力降级。
如果你对这些场景倍感熟悉,那么问题很可能不在于努力不足,而在于业界缺少一套完整、端到端的长文本推理后训练“配方”。
针对这一系列挑战,通义文档智能团队正式推出 QwenLong-L1.5——一个基于Qwen3-30B-A3B打造的长文本推理专家。我们的核心贡献,正是提供了这套缺失的“配方”,它系统性地统一了:
* 可扩展的高质量数据合成管线
* 为长文本定制的强化学习方法
* 突破物理窗口的智能体架构
这套组合拳,旨在一次性解决从“学不好”到“用不了”的全链路难题。

深入拆解:三大核心方法
要让模型真正掌握长文本推理,零敲碎打的优化远远不够。我们提出了一套系统性的“组合拳”,包含三大核心方法,从根本上重塑模型的学习与思考方式。
方法一:高质量“精神食粮”——多跳推理数据合成流水线
模型的“食粮”决定其“智商”。如果只投喂简单的“大海捞针”式任务,就如同只让学生做单选题,却期望他能写出长篇论述文。
为了教会模型真正的“思考”,我们打造了一条新颖的数据合成流水线。其核心思想是“先拆解,后组合”,专门制造需要“多跳溯源和全局推理”的难题。这就像用乐高积木拼城堡:先将巨著拆解成知识“积木”(原子事实),再根据复杂的“图纸”(如知识图谱、多文档表格),将这些分布在不同章节的积木拼合成宏伟的“城堡”(复杂问题)。

这条流水线由三大“出题引擎”驱动,能程序化地生成高质量挑战:
* 知识图谱引导:自动挖掘文档间的深层逻辑链,生成环环相扣的多跳推理题,强制模型进行跨段落、跨文档的关联思考。
* 跨文档表格引擎:从多个非结构化文档中自动抽取数据,整合成统一的结构化表格,据此生成需要聚合、统计与复杂计算的数值推理题。
* 多智能体自我进化:设计一个由“出题者”、“解题者”、“检验者”组成的多智能体框架,基于无标签文档自动合成通用长文本任务,通过“出题-解题-检验”的循环,结合历史合成任务提升任务难度和广度。
方法二:稳定高效的强化学习优化策略
强化学习是提升模型推理能力的关键,但在长文本、多任务场景下,标准方法面临两大严峻挑战,极易导致训练崩溃。
挑战一:数据分布的异构性。长文本训练数据来自代码、学术文献、财报等多个领域,任务类型也涵盖问答、计算、分析等。这种复杂性导致每个训练批次内的数据分布都会发生剧烈偏移。

这种偏移会严重干扰奖励信号的稳定性,并对优势函数的估计引入巨大噪声,使得梯度更新方向极不可靠。为此,我们采取双重策略:
1. 任务均衡采样:在构建每个训练批次时,强制从不同任务类型中均匀抽取样本,从源头上保证批次内数据分布的相对均衡。
2. 任务专属优势估计:在计算优势函数时,不再对整个批次的奖励进行标准化,而是在每个任务类型内部独立进行。这能有效隔离不同任务间迥异的奖励分布,为每个任务提供更准确、更稳定的优势信号。
挑战二:长文本推理中的信用分配难题。在生成式任务中,一个最终错误的答案往往包含大量完全正确的中间推理步骤。传统的强化学习算法通过单一的负向奖励惩罚整个序列,这种“一刀切”的做法会错误惩罚那些正确的、具有探索价值的步骤,压制模型的探索能力,甚至可能导致“熵坍塌”和训练早停。

为此,我们提出了自适应熵控制策略优化算法。其核心是一种基于模型自身不确定性的动态梯度屏蔽机制:
* 当模型在高不确定性状态下生成了错误答案时,算法会主动屏蔽其负向梯度,保护模型的探索性行为。
* 反之,当模型在高置信度状态下依然犯错时,负向梯度会被正常施加,以坚决纠正这些高置信度的错误。
通过这种动态、智能的梯度控制,算法将模型策略的熵稳定在健康区间,平衡探索与利用,从根本上解决了长文本强化学习中的不稳定性问题。
方法三:突破极限的“外置大脑”——记忆管理框架
256K的上下文窗口本质上是有限的“短期记忆”。面对浩如烟海的真实世界知识流,我们需要的不是一个更大的窗口,而是一个全新的工作模式。
为此,我们为模型设计了一套记忆管理框架,这相当于赋予其一个可无限扩展的“智能笔记本”。在阅读超长文档时,模型不再试图将所有内容硬塞进“短期记忆”,而是学会了边读边记要点,形成结构化的记忆,并在需要时高效检索和利用这些“笔记”。
但这并非一个孤立的工具。通过巧妙的多阶段融合强化学习训练,我们将这种“笔记能力”与模型与生俱来的“过目不忘”(窗口内推理)能力无缝地融合在了一起。最终得到的,是一个统一的模型——一个既能“深思”又能“博览”的全能选手,真正突破了物理窗口的束缚。
效果展示:性能全面飞跃

QwenLong-L1.5 在多个权威长文本推理基准上取得了令人瞩目的成绩,其表现可以总结为:
- 整体性能飞跃:相比基线模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴涨 9.9 分,证明了全套后训练“配方”的巨大成功。
- 比肩顶级旗舰:在多个权威长文本榜单上,我们的 30B-A3B 模型取得了与 GPT-5、Gemini-2.5-Pro 等业界顶级闭源模型相媲美的性能,展现了极强的竞争力。
- 精准的能力跃升:性能提升精准地体现在了最能考验深度推理能力的复杂任务上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基准上,我们分别取得了 +31.72、+9.69 和 +6.16 的性能增长。
这并非巧合,而是精准地验证了“高质量精神食粮”(可编程数据合成)的有效性——我们专门为模型打造了什么样的难题,它就在解决这些难题上获得了最强的能力。
意外之喜:通用能力不降反升
训练“专才”是否会牺牲“通才”能力?这是大模型微调中常见的“跷跷板”难题。我们的答案是:不仅不会,反而会相互促进!

实验结果显示,经过长文本强化训练后,QwenLong-L1.5 不仅没有出现“偏科”或“遗忘”,反而在一系列通用能力上也获得了显著提升:
- 在数学推理 (AIME25) 任务上表现更优;
- 在智能体记忆 (BFCL) 任务中展现出更强的状态追踪能力;
- 在长对话 (LongMemEval) 场景下,记忆和理解能力大幅增强。
这有力地证明,提升长程信息整合能力是一种基础性的“认知升级”,其收益会辐射到模型的各项核心能力之中。
挑战极限:征服 1M~4M Token 超长文本
当任务长度远超物理上下文窗口时,模型真正的扩展能力才得以体现。借助我们的“外置大脑”(记忆管理框架),QwenLong-L1.5 在处理百万、甚至四百万级别的超长任务时,展现出了卓越的性能。

结果显示,QwenLong-L1.5 在这些极限挑战中,性能远超同类智能体方法,充分验证了我们框架强大的可扩展性。这表明,我们不仅提升了模型在窗口内的能力,更赋予了它突破物理窗口限制、处理无限信息流的巨大潜力。
总结
我们提出的 QwenLong-L1.5 及其背后的“数据合成 + RL 优化 + 记忆管理”三位一体的后训练框架,为解决大模型长文本推理难题提供了一条经过验证的、可复现的路径。
我们相信开放与共享的力量。相关技术细节已在论文中公布,代码也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 开源。欢迎大家下载使用、交流探讨,共同推动长文本技术的发展。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16307
