颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

Token是现代自回归模型中最基础的计算单元。每生成一个token，都意味着一次前向传播、一笔KV缓存开销、一段延迟累积和一定的能耗成本。随着长链推理（long-CoT）和智能体工作流（agentic workflow）的普及，生成长度直接成为两个关键因素的核心变量：它既是推理成本的决定性因素，也深刻影响着推理质量——更多的token意味着更广阔的思考空间，但过度生成则会造成资源浪费。

现有的长度控制方法，都存在一个根本性的缺陷：过于粗糙。在训练阶段加入序列级惩罚，模型在生成过程中对“还剩多少”毫无感知；通过prompt指令本质上是在“祈求”模型遵守，缺乏任何硬性约束；预解码长度预测器只能做一次性判断，无法在生成过程中动态调整。它们的共同局限性在于：所有操作都停留在序列层面，而解码过程本身是逐token发生的——现有框架从未在这个粒度上对剩余长度进行建模。

更深层次地看，价值函数（value function）在强化学习中早已被证明是建模“未来回报”的强大工具，但长度从未被当作一个价值函数量来看待——既没有配套的训练范式，也没有经过验证的scaling路径。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

来自UC Santa Barbara和Apple等机构的研究团队提出了Length Value Model（LenVM） ，同时解决了两个核心问题：

① 如何进行token级长度建模？

将生成长度建模转化为强化学习中的价值估计（value estimation） 问题：对每个生成的token分配固定的负奖励，通过折扣累加得到“剩余生成长度”的有界单调代理信号。这样一来，模型在每一个解码步都能获得一个明确的“还剩多远”的量化估计。

② 如何实现可扩展的价值预训练（scalable value pretraining）？

这一构造天然具备四个对大规模预训练极为友好的特性：无需标注（annotation-free），信号密集（dense），无偏（unbiased），可扩展（scalable） 。

这意味着LenVM的训练本质上是一种自监督过程——不需要任何额外的人工标注或奖励模型，像预训练语言模型一样，只需“喂数据”就能持续变强。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

论文：https://arxiv.org/abs/2604.27039

代码：https://github.com/eric-ai-lab/Length-Value-Model

项目主页：https://length-value-model.github.io/

Demo：https://length-value-model.github.io/demo/index.html

技术方案详解

核心思想：把剩余长度变成一个值函数

LenVM的核心思路简洁而优雅：将生成长度视为一种成本。 通过给每个token分配固定的负奖励，剩余长度就自然成为一个值函数预测问题。

具体来说，对每个非终止解码步t，分配固定的负奖励：

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

对应的折扣回报为：

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

其中L是序列总长度，γ∈(0,1) 是折扣因子。这个回报具有三个关键性质：

**有界：

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

，无论序列多长，目标值始终在固定范围内**

单调： 越接近终止，值越靠近0；剩余越多，值越靠近-1。值的大小直接编码了还需走多远
Bellman 一致： 满足

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

，完全契合标准值函数框架

由此定义的token级TD残差

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

，直接度量了当前token如何改变对剩余生成长度的预期 ——这是一个此前从未存在过的信号。

为什么不直接预测原始token数？

生成长度从几个token到32k不等，动态范围极大，难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0)，同时保持严格单调。折扣因子γ是分辨率的调节旋钮：较大的γ在生成早期分辨率更高，较小的γ在接近终止时更精细。

可扩展的价值预训练：免标注、三轴 Scaling

这是 LenVM 区别于所有现有长度控制方法的核心优势，也是这项工作最值得关注的地方。

传统价值模型的规模上限被标注成本和质量所锁死。LenVM完全绕开了这些瓶颈。训练目标由token级均方误差构成：

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

这是在序列的每一个token位置，用该位置实际观测到的折扣剩余长度

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

做蒙特卡洛回归。监督信号完全由采样的completion自动生成，具备四个关键性质：

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

实验验证了LenVM沿三个轴 同步scaling：

模型规模（0.5B → 32B）： 更大的模型始终带来更低的验证损失
训练prompt数（10k → 100k）： 更广泛的数据覆盖持续改善长度建模质量
每prompt采样数（n=1 → n=16）： 更多的completion轨迹带来更强的监督

三个轴全部呈现单调下降趋势，说明 LenVM 作为价值预训练目标是良定义的（well-posed） ：不存在数据饱和，投入越多资源，长度建模能力就越强。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

三种推理时应用与实验结果

LenVM 学到的 token 级长度信号究竟有多好？作者团队通过三种推理阶段的应用来验证，所有应用均不修改基础生成模型。

应用一：精确长度控制

在每个解码步，LenVM对候选token逐一预测下一状态的值，据此选择token：Equal To选预测值最接近目标折扣回报的token；At Most选值最大（接近0）的token引导早终止；At Least选值最小（接近-1）的token引导延续生成。这是真正的token级硬约束，而非粗粒度的“祈求”。

在 LIFEBench 基准（包含问答、摘要、推理、创意写作，中英文各180条）上，Qwen2.5-3B + LenVM（1.5B） 的长度得分从25.6跃升至62.6，长度偏差从83%降至56%，大幅领先GPT-5.4（37.4）、Claude-Opus-4-6（35.5）、Gemini-3.1-Pro（49.3）等所有闭源模型；Qwen2.5-7B + LenVM 更进一步，得分达到64.8，偏差仅44%。

闭源模型再强，基于prompt的粗粒度控制也有天然上限——LenVM提供的是每一步解码都在生效的精确约束。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

应用二：性能-效率连续权衡

通过指数倾斜（exponential tilting），LenVM对基础模型的token分布进行软性重加权：

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

时，预期续写更短的token获得更高概率；

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

退化为原始模型。这是一个连续旋钮，平滑地在推理质量和token消耗之间进行权衡。

在GSM8K测试中，当token预算设定为200时，硬截断基线的Pass@1得分约为6% ，而LenVM引导解码的Pass@1则达到了约63% ，两者差距高达10倍。这一结果揭示了一个关键事实：基础模型本身已经具备用更短路径解决问题的能力，只是通常无法自动选择这些路径——LenVM通过精细化的重加权机制，将这些路径从模型中“挖掘”了出来。在MATH500和MathVista（视觉数学推理）数据集上，LenVM的表现同样全面优于硬截断基线，随着β值的变化平滑地描绘出Pareto前沿。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

应用三：生成长度预测

LenVM能够在prompt边界处（即第一个response token生成之前）就预测出总生成长度，这对推理系统的批处理分组、KV缓存预分配以及请求优先级排序具有直接价值——而这类信息目前只有在解码完成后才能获取。在数学领域，32B模型的平均相对误差（MRE）已低至9.8% ，代码领域为14.9%，指令跟随领域为17.1%，并且随着模型规模的扩大，这一指标持续改善。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

额外收获：哪些token在“延长”或“收束”推理？

LenVM的token级TD残差还提供了一个此前不存在的观察视角。

延长推理的token（

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

）包括wait、but、ah、think、consider等，这些通常对应推理过程中的转折与反思，其中ah频繁出现在类似“Ah! I see the mistake”这样的顿悟时刻（Aha Moment）；

收束推理的token（

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

）包括therefore、clearly、perfect以及✅ 🎉等收尾标记，对应答案确认与生成终止。LenVM不仅是一个控制信号，也是观察模型如何推理的一扇新窗口。

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

总结

LenVM的贡献可以从两个层面来理解。

对长度建模： 它将控制粒度从序列级推进到token级，使每一步解码都具备明确的“剩余长度感知”。这打破了现有所有方法的共同天花板——无论是prompt控制、训练惩罚还是预解码预测器，都无法提供逐token的动态约束信号。3B开源模型在精确长度控制上击败GPT-5.4和Claude-Opus-4-6，并非因为“调了个好prompt”，而是因为它首次真正拥有了token级的长度信号。

对Scaling： 长度作为值函数，其训练目标天然免标注、信号密集、三轴可扩展，scaling规律与语言模型预训练高度一致。这证明了生成长度是可扩展价值预训练的一个新维度——无需额外标注，只需更多计算和更多数据，长度建模能力就能持续提升。

同时，LenVM也为未来RL训练提供了一个长度专属的价值基线：可以在PPO中作为密集优势信号，或通过势函数奖励整形，在不改变任务目标的前提下改善信用分配。

生成长度不应该只是事后统计出来的数字。它应该是模型在每一步解码时都能感知、都在权衡的信号——就像模型感知语义和语法一样。 LenVM让这件事第一次成为可能。

参考资料：
https://arxiv.org/abs/2604.27039

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33694

颠覆长度控制！LenVM 3B模型精确度碾压GPT-5.4，价值预训练开启新维度

相关推荐

GraphRAG革命：知识图谱与向量数据库的协同进化

OpenClaw爆火背后：智能体技术迎来“可用性革命”，工程整合成关键突破点

面向AI Agents的7个免费Web Search API：实时、RAG就绪与快速集成指南

2026年Python框架新趋势：12个现代框架重塑开发体验

解锁Agentic AI并行化：14个核心模式提升系统可靠性与性能