颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

Token是现代自回归模型中最基础的计算单元。每生成一个token,都意味着一次前向传播、一笔KV缓存开销、一段延迟累积和一定的能耗成本。随着长链推理(long-CoT)和智能体工作流(agentic workflow)的普及,生成长度直接成为两个关键因素的核心变量:它既是推理成本的决定性因素,也深刻影响着推理质量——更多的token意味着更广阔的思考空间,但过度生成则会造成资源浪费。

现有的长度控制方法,都存在一个根本性的缺陷:过于粗糙。在训练阶段加入序列级惩罚,模型在生成过程中对“还剩多少”毫无感知;通过prompt指令本质上是在“祈求”模型遵守,缺乏任何硬性约束;预解码长度预测器只能做一次性判断,无法在生成过程中动态调整。它们的共同局限性在于:所有操作都停留在序列层面,而解码过程本身是逐token发生的——现有框架从未在这个粒度上对剩余长度进行建模。

更深层次地看,价值函数(value function)在强化学习中早已被证明是建模“未来回报”的强大工具,但长度从未被当作一个价值函数量来看待——既没有配套的训练范式,也没有经过验证的scaling路径。

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

来自UC Santa Barbara和Apple等机构的研究团队提出了Length Value Model(LenVM ,同时解决了两个核心问题:

① 如何进行token级长度建模?

将生成长度建模转化为强化学习中的价值估计(value estimation) 问题:对每个生成的token分配固定的负奖励,通过折扣累加得到“剩余生成长度”的有界单调代理信号。这样一来,模型在每一个解码步都能获得一个明确的“还剩多远”的量化估计。

② 如何实现可扩展价值预训练(scalable value pretraining)?

这一构造天然具备四个对大规模预训练极为友好的特性:无需标注(annotation-free),信号密集(dense),无偏(unbiased),可扩展(scalable)

这意味着LenVM的训练本质上是一种自监督过程——不需要任何额外的人工标注或奖励模型,像预训练语言模型一样,只需“喂数据”就能持续变强。

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

论文:https://arxiv.org/abs/2604.27039

代码:https://github.com/eric-ai-lab/Length-Value-Model

项目主页:https://length-value-model.github.io/

Demo:https://length-value-model.github.io/demo/index.html

技术方案详解

核心思想:把剩余长度变成一个值函数

LenVM的核心思路简洁而优雅:将生成长度视为一种成本。 通过给每个token分配固定的负奖励,剩余长度就自然成为一个值函数预测问题。

具体来说,对每个非终止解码步t,分配固定的负奖励:

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

对应的折扣回报为:

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

其中L是序列总长度,γ∈(0,1) 是折扣因子。这个回报具有三个关键性质:

  • **有界:

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

,无论序列多长,目标值始终在固定范围内**

  • 单调: 越接近终止,值越靠近0;剩余越多,值越靠近-1。值的大小直接编码了还需走多远
  • Bellman 一致: 满足

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

,完全契合标准值函数框架

由此定义的token级TD残差

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

,直接度量了当前token如何改变对剩余生成长度的预期 ——这是一个此前从未存在过的信号。

为什么不直接预测原始token数?

生成长度从几个token到32k不等,动态范围极大,难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0),同时保持严格单调。折扣因子γ是分辨率的调节旋钮:较大的γ在生成早期分辨率更高,较小的γ在接近终止时更精细。

可扩展的价值预训练:免标注、三轴 Scaling

这是 LenVM 区别于所有现有长度控制方法的核心优势,也是这项工作最值得关注的地方。

传统价值模型的规模上限被标注成本和质量所锁死。LenVM完全绕开了这些瓶颈。训练目标由token级均方误差构成:

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

这是在序列的每一个token位置,用该位置实际观测到的折扣剩余长度

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

做蒙特卡洛回归。监督信号完全由采样的completion自动生成,具备四个关键性质:

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

实验验证了LenVM沿三个轴 同步scaling:

  • 模型规模(0.5B → 32B): 更大的模型始终带来更低的验证损失
  • 训练prompt数(10k → 100k): 更广泛的数据覆盖持续改善长度建模质量
  • 每prompt采样数(n=1 → n=16): 更多的completion轨迹带来更强的监督

三个轴全部呈现单调下降趋势,说明 LenVM 作为价值预训练目标是良定义的(well-posed) :不存在数据饱和,投入越多资源,长度建模能力就越强。

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

三种推理时应用与实验结果

LenVM 学到的 token 级长度信号究竟有多好?作者团队通过三种推理阶段的应用来验证,所有应用均不修改基础生成模型

应用一:精确长度控制

在每个解码步,LenVM对候选token逐一预测下一状态的值,据此选择token:Equal To选预测值最接近目标折扣回报的token;At Most选值最大(接近0)的token引导早终止;At Least选值最小(接近-1)的token引导延续生成。这是真正的token级硬约束,而非粗粒度的“祈求”。

在 LIFEBench 基准(包含问答、摘要、推理、创意写作,中英文各180条)上,Qwen2.5-3B + LenVM(1.5B) 的长度得分从25.6跃升至62.6,长度偏差从83%降至56%,大幅领先GPT-5.4(37.4)、Claude-Opus-4-6(35.5)、Gemini-3.1-Pro(49.3)等所有闭源模型;Qwen2.5-7B + LenVM 更进一步,得分达到64.8,偏差仅44%。

闭源模型再强,基于prompt的粗粒度控制也有天然上限——LenVM提供的是每一步解码都在生效的精确约束。

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

应用二:性能-效率连续权衡

通过指数倾斜(exponential tilting),LenVM对基础模型的token分布进行软性重加权:

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

时,预期续写更短的token获得更高概率;

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

退化为原始模型。这是一个连续旋钮,平滑地在推理质量和token消耗之间进行权衡。

在GSM8K测试中,当token预算设定为200时,硬截断基线的Pass@1得分约为6% ,而LenVM引导解码的Pass@1则达到了约63% ,两者差距高达10倍。这一结果揭示了一个关键事实:基础模型本身已经具备用更短路径解决问题的能力,只是通常无法自动选择这些路径——LenVM通过精细化的重加权机制,将这些路径从模型中“挖掘”了出来。在MATH500和MathVista(视觉数学推理)数据集上,LenVM的表现同样全面优于硬截断基线,随着β值的变化平滑地描绘出Pareto前沿。

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

应用三:生成长度预测

LenVM能够在prompt边界处(即第一个response token生成之前)就预测出总生成长度,这对推理系统的批处理分组、KV缓存预分配以及请求优先级排序具有直接价值——而这类信息目前只有在解码完成后才能获取。在数学领域,32B模型的平均相对误差(MRE)已低至9.8% ,代码领域为14.9%,指令跟随领域为17.1%,并且随着模型规模的扩大,这一指标持续改善。

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

额外收获:哪些token在“延长”或“收束”推理?

LenVM的token级TD残差还提供了一个此前不存在的观察视角。

延长推理的token

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

)包括wait、but、ah、think、consider等,这些通常对应推理过程中的转折与反思,其中ah频繁出现在类似“Ah! I see the mistake”这样的顿悟时刻(Aha Moment)

收束推理的token

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

)包括therefore、clearly、perfect以及✅ 🎉等收尾标记,对应答案确认与生成终止。LenVM不仅是一个控制信号,也是观察模型如何推理的一扇新窗口

颠覆长度控制!LenVM 3B模型精确度碾压GPT-5.4,价值预训练开启新维度

总结

LenVM的贡献可以从两个层面来理解。

对长度建模: 它将控制粒度从序列级推进到token级,使每一步解码都具备明确的“剩余长度感知”。这打破了现有所有方法的共同天花板——无论是prompt控制、训练惩罚还是预解码预测器,都无法提供逐token的动态约束信号。3B开源模型在精确长度控制上击败GPT-5.4和Claude-Opus-4-6,并非因为“调了个好prompt”,而是因为它首次真正拥有了token级的长度信号。

对Scaling: 长度作为值函数,其训练目标天然免标注、信号密集、三轴可扩展,scaling规律与语言模型预训练高度一致。这证明了生成长度是可扩展价值预训练的一个新维度——无需额外标注,只需更多计算和更多数据,长度建模能力就能持续提升。

同时,LenVM也为未来RL训练提供了一个长度专属的价值基线:可以在PPO中作为密集优势信号,或通过势函数奖励整形,在不改变任务目标的前提下改善信用分配。

生成长度不应该只是事后统计出来的数字。它应该是模型在每一步解码时都能感知、都在权衡的信号——就像模型感知语义和语法一样。 LenVM让这件事第一次成为可能。

参考资料:
https://arxiv.org/abs/2604.27039


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33694

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • GraphRAG革命:知识图谱与向量数据库的协同进化

    Knowledge graphs 和 vector databases 常被定位为彼此竞争的技术,但这种框架忽略了问题的本质。 它们是对立的吗?简短回答:不是。 它们解决的是根本不同的问题。事实上,它们最好的状态是协同,而不是对抗。如果你在构建现代 AI 系统,把它们当作对手是一种设计缺陷。 更好的理解方式是: Knowledge Graph = 结构化大脑…

    2025年12月28日
    36400
  • OpenClaw爆火背后:智能体技术迎来“可用性革命”,工程整合成关键突破点

    过去数月,AI领域很难绕开一个名字——OpenClaw。该项目在极短时间内获得了爆发式关注:数十万星标、惊人的Token消耗,以及几乎所有头部科技公司的快速跟进。表面上看,它像是又一个现象级AI产品;但进一步审视,一个更值得思考的问题随之浮现:OpenClaw的出现究竟意味着什么?它是一次技术突破,还是某种更深层变化的信号? 近日,端侧智能北京市重点实验室在…

    2026年3月31日
    84400
  • 面向AI Agents的7个免费Web Search API:实时、RAG就绪与快速集成指南

    探索面向智能体(AI Agent)的主流 Web Search API,它们提供实时、高准确度的搜索结果,具备 RAG 就绪、低延迟与可扩展性。本文包含 Python 快速上手示例与免费套餐信息,便于无缝集成。 AI 智能体的有效性,取决于其获取新鲜、可靠信息的能力。许多智能体在幕后会调用 Web 搜索工具来获取最新上下文,以确保输出始终相关。然而,并非所有…

    2026年2月27日
    2.9K00
  • 2026年Python框架新趋势:12个现代框架重塑开发体验

    近年来,Python 框架生态发展迅猛。传统上,Django 常被用于重型项目,而 Flask 则以其轻量灵活著称。然而,展望 2026 年,游戏规则已然改变。 新一代框架正在崛起,它们专为解决现代开发挑战而生:高并发性能、服务器驱动式 UI 以及跨平台的无缝部署。从底层由 Rust 驱动、性能可与 Node.js 比肩的引擎,到无需编写 JavaScrip…

    2025年12月26日
    1.2K00
  • 解锁Agentic AI并行化:14个核心模式提升系统可靠性与性能

    构建高效的智能体(Agentic)系统,离不开扎实的软件工程实践。其核心在于设计能够协调运作、并行执行,并能与外部系统高效交互的组件。例如,推测执行(Speculative Execution) 通过预先处理可预测的请求来降低延迟;冗余执行(Redundant Execution) 则通过同时运行同一智能体的多个副本来避免单点故障,提升系统韧性。除此之外,还…

    2025年11月27日
    69700