TrajSelector：轻量级隐状态复用，突破大模型推理的Best-of-N性能瓶颈

2025年11月6日下午1:13 • AI产业动态 • 阅读 301

在大型语言模型（LLM）日益成为解决复杂任务核心工具的当下，测试时扩展（Test-Time Scaling，TTS）已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源，显著优化其表现。当前，Test-Time Scaling主要分为两大范式：内部测试时扩展，以DeepSeek-R1等推理模型为代表，通过延长思维链实现；外部测试时扩展，则让模型并行生成多条推理路径，再通过聚合机制得出最终答案。随着内部扩展方法逐渐接近性能瓶颈，研究焦点正转向如何通过外部扩展实现持续的性能增长。

Best-of-N范式作为外部测试时扩展的典型代表，其核心在于：针对一个问题，模型生成N条推理路径，并从中选择最优路径作为答案。传统实现方法主要依赖投票法（Majority Voting）和过程奖励模型（Process Reward Model，PRM）。然而，这两种方法均存在明显缺陷。投票法虽简单直接，但研究显示“正确答案往往存在于少数路径中”，其粗糙的统计机制难以精准识别最优解；PRM方法虽能对推理步骤进行细粒度评估，但需要额外训练一个大规模奖励模型（通常达7B参数），导致部署和推理成本急剧上升，且性能稳定性不足——现有PRM并非专为外部测试时扩展设计，在Best-of-N任务中常出现鲁棒性问题。

为弥补这些缺陷，北京中关村学院、哈尔滨工业大学、中科院自动化所等机构的研究团队提出了TrajSelector方法。该方法由北京中关村学院与哈尔滨工业大学联培博士生俞斌作为第一作者完成，指导教师包括哈尔滨工业大学教授、哈工大青岛研究院院长王佰玲，以及北京中关村学院、中关村人工智能研究院具身智能方向负责人陈凯。TrajSelector是一种轻量级但强大的Best-of-N策略，其创新在于复用大模型自身的“隐藏状态”来评估推理路径质量，无需昂贵的过程标注或大规模奖励模型，即可在数学推理任务中取得显著性能提升。

论文《TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model》深入剖析了现有Best-of-N方法的两个关键问题：一是重量级PRM的成本过高，其参数规模与策略模型（如8B的Qwen3）相当，极大增加了计算负担；二是模型隐状态未被系统化利用，这些状态中蕴含的“自我反思信号”（如推导步骤的合理性信息）往往被浪费，导致评估性能波动大、可靠性低。TrajSelector的核心目标正是以最小参数开销，充分利用策略采样模型的隐状态，实现高效（Efficient）且有效（Effective）的Best-of-N范式。

TrajSelector的框架设计简洁而高效，遵循“并行采样-步骤打分-聚合选优”的三步流水线。首先，使用冻结的策略模型进行并行采样，生成多条推理路径及其对应的隐状态。其次，通过一个仅0.6B参数的轻量级打分模型（基于Qwen3-0.6B-Base），复用策略模型的隐状态为每个推理步骤打分——这种隐状态复用机制使小模型能继承策略模型的编码能力，在显著减小参数规模的同时提升打分准确性。最后，采用简单的算术平均计算每条路径的全局分数，并选择最高分路径作为最终答案。

在训练方案上，TrajSelector突破了传统PRM对大量“步骤级标注”的依赖。传统方法需要人工标注每个推理步骤的正确性，成本极高；而TrajSelector仅依靠“弱监督”即可完成训练。其核心挑战在于：一条最终正确的轨迹，内部步骤可能包含冗余或噪声。为此，TrajSelector借鉴FreePRM的损失函数设计，引入“buffer”选项吸收噪声，构建特殊的三分类损失函数：对于正确轨迹，要求模型预测“正确+中性”的概率和为1（允许部分步骤为中性）；对于错误轨迹，则要求“错误+中性”概率和为1。这一设计使模型能从数据中自主学习“抓重点”，实现智能轻量的过程验证。

实验部分，论文在多个N值设置（N=1,5,10,16,32,64）下评估了Best-of-N性能，基准涵盖AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25等主流数据集。以Qwen3-8B为基座的结果显示，在N=16和N=32时，TrajSelector均表现出色。