Token是现代自回归模型中最基础的计算单元。每生成一个token,都意味着一次前向传播、一笔KV缓存开销、一段延迟累积和一定的能耗成本。随着长链推理(long-CoT)和智能体工作流(agentic workflow)的普及,生成长度直接成为两个关键因素的核心变量:它既是推理成本的决定性因素,也深刻影响着推理质量——更多的token意味着更广阔的思考空间,但过度生成则会造成资源浪费。
现有的长度控制方法,都存在一个根本性的缺陷:过于粗糙。在训练阶段加入序列级惩罚,模型在生成过程中对“还剩多少”毫无感知;通过prompt指令本质上是在“祈求”模型遵守,缺乏任何硬性约束;预解码长度预测器只能做一次性判断,无法在生成过程中动态调整。它们的共同局限性在于:所有操作都停留在序列层面,而解码过程本身是逐token发生的——现有框架从未在这个粒度上对剩余长度进行建模。
更深层次地看,价值函数(value function)在强化学习中早已被证明是建模“未来回报”的强大工具,但长度从未被当作一个价值函数量来看待——既没有配套的训练范式,也没有经过验证的scaling路径。

来自UC Santa Barbara和Apple等机构的研究团队提出了Length Value Model(LenVM) ,同时解决了两个核心问题:
① 如何进行token级长度建模?
将生成长度建模转化为强化学习中的价值估计(value estimation) 问题:对每个生成的token分配固定的负奖励,通过折扣累加得到“剩余生成长度”的有界单调代理信号。这样一来,模型在每一个解码步都能获得一个明确的“还剩多远”的量化估计。
② 如何实现可扩展的价值预训练(scalable value pretraining)?
这一构造天然具备四个对大规模预训练极为友好的特性:无需标注(annotation-free),信号密集(dense),无偏(unbiased),可扩展(scalable) 。
这意味着LenVM的训练本质上是一种自监督过程——不需要任何额外的人工标注或奖励模型,像预训练语言模型一样,只需“喂数据”就能持续变强。

论文:https://arxiv.org/abs/2604.27039
代码:https://github.com/eric-ai-lab/Length-Value-Model
项目主页:https://length-value-model.github.io/
Demo:https://length-value-model.github.io/demo/index.html
技术方案详解
核心思想:把剩余长度变成一个值函数
LenVM的核心思路简洁而优雅:将生成长度视为一种成本。 通过给每个token分配固定的负奖励,剩余长度就自然成为一个值函数预测问题。
具体来说,对每个非终止解码步t,分配固定的负奖励:

对应的折扣回报为:

其中L是序列总长度,γ∈(0,1) 是折扣因子。这个回报具有三个关键性质:
- **有界:

,无论序列多长,目标值始终在固定范围内**
- 单调: 越接近终止,值越靠近0;剩余越多,值越靠近-1。值的大小直接编码了还需走多远
- Bellman 一致: 满足

,完全契合标准值函数框架
由此定义的token级TD残差

,直接度量了当前token如何改变对剩余生成长度的预期 ——这是一个此前从未存在过的信号。
为什么不直接预测原始token数?
生成长度从几个token到32k不等,动态范围极大,难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0),同时保持严格单调。折扣因子γ是分辨率的调节旋钮:较大的γ在生成早期分辨率更高,较小的γ在接近终止时更精细。
可扩展的价值预训练:免标注、三轴 Scaling
这是 LenVM 区别于所有现有长度控制方法的核心优势,也是这项工作最值得关注的地方。
传统价值模型的规模上限被标注成本和质量所锁死。LenVM完全绕开了这些瓶颈。训练目标由token级均方误差构成:

这是在序列的每一个token位置,用该位置实际观测到的折扣剩余长度

做蒙特卡洛回归。监督信号完全由采样的completion自动生成,具备四个关键性质:

实验验证了LenVM沿三个轴 同步scaling:
- 模型规模(0.5B → 32B): 更大的模型始终带来更低的验证损失
- 训练prompt数(10k → 100k): 更广泛的数据覆盖持续改善长度建模质量
- 每prompt采样数(n=1 → n=16): 更多的completion轨迹带来更强的监督
三个轴全部呈现单调下降趋势,说明 LenVM 作为价值预训练目标是良定义的(well-posed) :不存在数据饱和,投入越多资源,长度建模能力就越强。

三种推理时应用与实验结果
LenVM 学到的 token 级长度信号究竟有多好?作者团队通过三种推理阶段的应用来验证,所有应用均不修改基础生成模型。
应用一:精确长度控制
在每个解码步,LenVM对候选token逐一预测下一状态的值,据此选择token:Equal To选预测值最接近目标折扣回报的token;At Most选值最大(接近0)的token引导早终止;At Least选值最小(接近-1)的token引导延续生成。这是真正的token级硬约束,而非粗粒度的“祈求”。
在 LIFEBench 基准(包含问答、摘要、推理、创意写作,中英文各180条)上,Qwen2.5-3B + LenVM(1.5B) 的长度得分从25.6跃升至62.6,长度偏差从83%降至56%,大幅领先GPT-5.4(37.4)、Claude-Opus-4-6(35.5)、Gemini-3.1-Pro(49.3)等所有闭源模型;Qwen2.5-7B + LenVM 更进一步,得分达到64.8,偏差仅44%。
闭源模型再强,基于prompt的粗粒度控制也有天然上限——LenVM提供的是每一步解码都在生效的精确约束。

应用二:性能-效率连续权衡
通过指数倾斜(exponential tilting),LenVM对基础模型的token分布进行软性重加权:


时,预期续写更短的token获得更高概率;

退化为原始模型。这是一个连续旋钮,平滑地在推理质量和token消耗之间进行权衡。
在GSM8K测试中,当token预算设定为200时,硬截断基线的Pass@1得分约为6% ,而LenVM引导解码的Pass@1则达到了约63% ,两者差距高达10倍。这一结果揭示了一个关键事实:基础模型本身已经具备用更短路径解决问题的能力,只是通常无法自动选择这些路径——LenVM通过精细化的重加权机制,将这些路径从模型中“挖掘”了出来。在MATH500和MathVista(视觉数学推理)数据集上,LenVM的表现同样全面优于硬截断基线,随着β值的变化平滑地描绘出Pareto前沿。

应用三:生成长度预测
LenVM能够在prompt边界处(即第一个response token生成之前)就预测出总生成长度,这对推理系统的批处理分组、KV缓存预分配以及请求优先级排序具有直接价值——而这类信息目前只有在解码完成后才能获取。在数学领域,32B模型的平均相对误差(MRE)已低至9.8% ,代码领域为14.9%,指令跟随领域为17.1%,并且随着模型规模的扩大,这一指标持续改善。

额外收获:哪些token在“延长”或“收束”推理?
LenVM的token级TD残差还提供了一个此前不存在的观察视角。
延长推理的token(

)包括wait、but、ah、think、consider等,这些通常对应推理过程中的转折与反思,其中ah频繁出现在类似“Ah! I see the mistake”这样的顿悟时刻(Aha Moment);
收束推理的token(

)包括therefore、clearly、perfect以及✅ 🎉等收尾标记,对应答案确认与生成终止。LenVM不仅是一个控制信号,也是观察模型如何推理的一扇新窗口。

总结
LenVM的贡献可以从两个层面来理解。
对长度建模: 它将控制粒度从序列级推进到token级,使每一步解码都具备明确的“剩余长度感知”。这打破了现有所有方法的共同天花板——无论是prompt控制、训练惩罚还是预解码预测器,都无法提供逐token的动态约束信号。3B开源模型在精确长度控制上击败GPT-5.4和Claude-Opus-4-6,并非因为“调了个好prompt”,而是因为它首次真正拥有了token级的长度信号。
对Scaling: 长度作为值函数,其训练目标天然免标注、信号密集、三轴可扩展,scaling规律与语言模型预训练高度一致。这证明了生成长度是可扩展价值预训练的一个新维度——无需额外标注,只需更多计算和更多数据,长度建模能力就能持续提升。
同时,LenVM也为未来RL训练提供了一个长度专属的价值基线:可以在PPO中作为密集优势信号,或通过势函数奖励整形,在不改变任务目标的前提下改善信用分配。
生成长度不应该只是事后统计出来的数字。它应该是模型在每一步解码时都能感知、都在权衡的信号——就像模型感知语义和语法一样。 LenVM让这件事第一次成为可能。
参考资料:
https://arxiv.org/abs/2604.27039
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33694

