今天凌晨,阿里开源了最新的编程模型 Qwen3-Coder-Next。其最引人注目的特点在于:一个仅激活 30亿参数 的模型,在编程智能体任务上达到了与 Claude Sonnet 4.5 等顶级模型相当的水平。

Qwen团队在同步公开的技术报告中,提出了一个反行业直觉的核心结论:
“扩展智能体训练规模,而非仅仅扩大模型规模,才是提升现实世界编码智能体能力的关键驱动力。”
这表明,通过新的训练范式,用极少的激活参数也能有效应对复杂软件工程挑战,推动 Agentic Coding 的普及。

核心能力亮点
1. 超高部署性价比
仅激活30亿参数,即可实现媲美激活参数量高出10–20倍模型的性能,为智能体部署提供了极高的性价比。

2. 出色的长程推理与工具调用
通过精心设计的训练方案,该模型在长程推理、复杂工具调用以及执行失败后的恢复方面表现出色,确保在动态编码任务中具备稳健性能。

3. 灵活的集成方式
适配多种 CLI 模板,可与目前主流的 CLI/IDE 平台无缝集成,包括 Claude Code、Qwen Code、Qoder、Kilo、Trae、Cline 以及近期热门的 OpenClaw 等。

专为编程智能体与本地化开发设计
Qwen3-Coder-Next 的定位是一款专为 Coding Agents 与本地化开发场景设计的开源模型,这顺应了当前 AI 编程赛道向“智能体化”与“本地化”发展的明显趋势。
从 Anthropic 的 Claude Code 效率更新,到开源框架 OpenClaw,再到 OpenAI 发布的桌面版 Codex App,都聚焦于这两点。Qwen团队指出,过去依赖静态“代码-文本对”数据的训练范式已无法满足需求,这本质上是一种“只读式教育”。
“现代编程智能体需要具备长时间跨度的推理能力,能够与真实执行环境交互,并在多步骤过程中从级联失败中恢复。”
现在的训练需求已转变为:大规模、可验证、可执行且交互密集的训练信号。在本地化部署方面,该模型以极低的激活参数(3B)实现了高性能,将显著降低部署成本。

训练范式转变:扩展智能体训练
Qwen3-Coder-Next 的核心突破在于实现了 智能体训练(agentic training)的可扩展性。
它摒弃了传统的静态“代码-文本对”训练,转而通过大规模的 智能体训练流水线 进行构建。实现这一目标需要攻克两大挑战:
- 需要一条 可靠的任务合成流水线,能够生成可验证的任务,并配套 完全可执行的环境。
- 需要一套 高吞吐的执行基础设施,可以并行运行海量任务,并高效返回环境反馈。
在大规模任务合成方面,团队采用了两种互补的方法:
* 基于真实软件工程问题:挖掘 GitHub Pull Request (PR),并为其构建可运行环境。
* 基于现有开源数据集:在已有可执行环境的数据集基础上,进一步合成新的任务实例。
两种方法结合,确保了在一致的执行级验证机制下,实现大规模、多样化的任务生成。团队还引入了自动化检测机制来过滤不可用的验证器,并训练专用模型提升环境构建质量,以缓解智能体利用表面验证捷径的失败模式。此外,“质量保障智能体”被用于自动识别并移除语义模糊、环境不一致或测试目标不匹配的样本。
最终,团队构建了一个基于最新 GitHub 数据、规模可观、环境以可复用 Docker 镜像形式存储的软件工程任务语料库。

通过扩展既有研究中的高质量种子任务,团队生成了一个规模更大、覆盖面更广的可验证软件工程问题集合。最终,该流程共生成约 80 万个可验证的软件工程任务实例,覆盖 9 种以上编程语言。

三阶段工作流:闭环式训练
在基础设施方面,阿里内部开发了编排系统 MegaFlow,用以支持大规模并行执行及完全可复现的执行环境。
在 MegaFlow 中,每个智能体任务被建模为三阶段工作流:智能体 rollout、评估和后处理。在 rollout 阶段,模型与真实的容器化环境交互;如果生成的代码无法通过单元测试或导致容器崩溃,模型会在训练中途通过强化学习获得即时反馈。
这种“闭环式”训练方式,让模型学会从环境反馈中修正错误、实时迭代方案,而不仅仅是生成表面上“看起来合理”的代码。
架构核心突破:解决超长上下文内存墙问题
Qwen3-Coder-Next 的另一项突破是提出了一套专为规避传统 Transformer 二次复杂度问题而设计的混合架构。
传统 Transformer 在长上下文场景下面临“内存墙”问题,计算成本呈平方级增长。Qwen3-Coder-Next 采用 Gated DeltaNet 与 Gated Attention 相结合的混合架构来解决此问题:
- Gated DeltaNet 处理长记忆:作为 softmax attention 的线性复杂度替代方案,使模型能够在 25 万 token 级别的上下文窗口中维持状态,避免指数级延迟。
- Gated Attention 保留关键信息。
- 叠加超稀疏 MoE:理论上,相比参数规模相近的稠密模型,它在仓库级任务上的吞吐量可提升10倍。
最终效果是,智能体可以“读完”整个 Python 库或复杂的 JavaScript 框架,却只需 30 亿参数模型的响应速度,同时具备 800 亿参数系统级别的结构理解能力,这对工程场景而言是一种质变。

此外,为避免训练过程中的上下文幻觉,团队引入了 Best-Fit Packing (BFP) 策略,在保持效率的同时,规避了传统文档拼接方式中常见的截断误差。
安全能力,直接写进“肌肉记忆”
Qwen3-Coder-Next 的安全能力构建方式也颇具特色。与许多依赖外挂规则的编程模型不同,它在安全评测中的表现展现出一种“反直觉”的优势:
* 在没有任何外部安全提示的情况下,模型能主动识别并修复代码漏洞。
* 在 SecCodeBench 评测中,其表现超越了 Claude 3.5 Sonnet。
其背后的原因在于训练范式的革新:模型在训练过程中,会因生成不安全的代码而受到反复的“惩罚”。这使其将安全准则内化为一种“工程直觉”,而非对规则的机械记忆。

未来方向:追赶顶级闭源模型,引入视觉能力
在取得显著进展的同时,Qwen 团队也坦诚指出了模型当前与顶级闭源模型相比存在的局限性。
由于采用了显著更小的激活参数和算力投入,模型在部署上更高效,但也带来了能力上的权衡。例如,在指令遵循方面,面对高度复杂、超大规模的软件工程任务时,模型能力仍有差距。团队计划通过在预训练阶段引入更高难度、更贴近真实世界的软件项目来逐步缩小这一差距。
此外,在处理部分复杂任务时,模型可能需要更多交互轮次才能收敛到正确解。对此,团队表示将利用强化学习和更优的长时序规划机制来提升推理效率。
前端与 UI 相关能力 是目前有待加强的另一个方向。为此,Qwen 团队计划在未来的智能体模型中引入视觉能力,使模型能够直接评估渲染结果与交互行为,从而提升在前端及用户体验相关任务中的表现。
写在最后:训练范式从实验室转向生产环境
Qwen3-Coder-Next 的发布,标志着编程模型的训练方式正在开启新的篇章。它没有延续过去“海量代码补全”的传统路径,而是直接将模型置于真实任务环境中进行训练:
一、使用 80 万个真实的 GitHub Bug 修复任务,每个任务都配备可执行环境;
二、遵循“写完代码即运行,运行失败则修复,修复不成则继续学习”的循环。
这意味着,模型在训练阶段就已反复经历真实世界的常见故障,如测试失败、容器崩溃、环境报错等。正是从这些“失败的价值”中,模型习得了关键认知:写出的代码必须为其后果负责。
可以说,“纯代码生成”的训练时代即将结束,未来将是面向智能体行为、面向现实工程任务的新训练时代。而面向智能体的模型训练,必然绕不开三个核心杠杆:长上下文、高吞吐量、真实环境训练。
Qwen3-Coder-Next 对此做出了有效回应:它能够在几秒内处理代码库中长达 262K 的上下文,并在 Docker 容器中自主验证工作成果。这不仅是其与其他模型拉开差距的关键,也是阿里 Qwen 团队打出的一张“非常规”王牌。
更重要的是,这代表了开源模型领域提出的一种面向智能体的新 Scaling Law。
参考链接:
* https://qwen.ai/blog?id=qwen3-coder-next
* https://x.com/Alibaba_Qwen/status/2018718453570707465
* https://venturebeat.com/technology/qwen3-coder-next-offers-vibe-coders-a-powerful-open-source-ultra-sparse

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20214
