TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

在大型语言模型(LLM)日益成为解决复杂任务核心工具的当下,测试时扩展(Test-Time Scaling,TTS)已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源,显著优化其表现。当前,Test-Time Scaling主要分为两大范式:内部测试时扩展,以DeepSeek-R1等推理模型为代表,通过延长思维链实现;外部测试时扩展,则让模型并行生成多条推理路径,再通过聚合机制得出最终答案。随着内部扩展方法逐渐接近性能瓶颈,研究焦点正转向如何通过外部扩展实现持续的性能增长。

Best-of-N范式作为外部测试时扩展的典型代表,其核心在于:针对一个问题,模型生成N条推理路径,并从中选择最优路径作为答案。传统实现方法主要依赖投票法(Majority Voting)和过程奖励模型(Process Reward Model,PRM)。然而,这两种方法均存在明显缺陷。投票法虽简单直接,但研究显示“正确答案往往存在于少数路径中”,其粗糙的统计机制难以精准识别最优解;PRM方法虽能对推理步骤进行细粒度评估,但需要额外训练一个大规模奖励模型(通常达7B参数),导致部署和推理成本急剧上升,且性能稳定性不足——现有PRM并非专为外部测试时扩展设计,在Best-of-N任务中常出现鲁棒性问题。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

为弥补这些缺陷,北京中关村学院、哈尔滨工业大学、中科院自动化所等机构的研究团队提出了TrajSelector方法。该方法由北京中关村学院与哈尔滨工业大学联培博士生俞斌作为第一作者完成,指导教师包括哈尔滨工业大学教授、哈工大青岛研究院院长王佰玲,以及北京中关村学院、中关村人工智能研究院具身智能方向负责人陈凯。TrajSelector是一种轻量级但强大的Best-of-N策略,其创新在于复用大模型自身的“隐藏状态”来评估推理路径质量,无需昂贵的过程标注或大规模奖励模型,即可在数学推理任务中取得显著性能提升。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

论文《TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model》深入剖析了现有Best-of-N方法的两个关键问题:一是重量级PRM的成本过高,其参数规模与策略模型(如8B的Qwen3)相当,极大增加了计算负担;二是模型隐状态未被系统化利用,这些状态中蕴含的“自我反思信号”(如推导步骤的合理性信息)往往被浪费,导致评估性能波动大、可靠性低。TrajSelector的核心目标正是以最小参数开销,充分利用策略采样模型的隐状态,实现高效(Efficient)且有效(Effective)的Best-of-N范式。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector的框架设计简洁而高效,遵循“并行采样-步骤打分-聚合选优”的三步流水线。首先,使用冻结的策略模型进行并行采样,生成多条推理路径及其对应的隐状态。其次,通过一个仅0.6B参数的轻量级打分模型(基于Qwen3-0.6B-Base),复用策略模型的隐状态为每个推理步骤打分——这种隐状态复用机制使小模型能继承策略模型的编码能力,在显著减小参数规模的同时提升打分准确性。最后,采用简单的算术平均计算每条路径的全局分数,并选择最高分路径作为最终答案。

在训练方案上,TrajSelector突破了传统PRM对大量“步骤级标注”的依赖。传统方法需要人工标注每个推理步骤的正确性,成本极高;而TrajSelector仅依靠“弱监督”即可完成训练。其核心挑战在于:一条最终正确的轨迹,内部步骤可能包含冗余或噪声。为此,TrajSelector借鉴FreePRM的损失函数设计,引入“buffer”选项吸收噪声,构建特殊的三分类损失函数:对于正确轨迹,要求模型预测“正确+中性”的概率和为1(允许部分步骤为中性);对于错误轨迹,则要求“错误+中性”概率和为1。这一设计使模型能从数据中自主学习“抓重点”,实现智能轻量的过程验证。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

实验部分,论文在多个N值设置(N=1,5,10,16,32,64)下评估了Best-of-N性能,基准涵盖AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25等主流数据集。以Qwen3-8B为基座的结果显示,在N=16和N=32时,TrajSelector均表现出色。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

汇总各基线方法的平均表现,可绘制出外部Test-Time Scaling曲线图,清晰展示TrajSelector随N增大的性能优势。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

总体而言,TrajSelector通过隐状态复用和轻量级设计,有效解决了Best-of-N范式的成本与稳定性问题,为大规模推理模型的实用化部署提供了新思路。其方法不仅降低了计算开销,还通过弱监督训练摆脱了对人工标注的依赖,展现出在复杂推理任务中的广泛应用潜力。

— 图片补充 —

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8095

(0)
上一篇 2025年11月6日 下午1:08
下一篇 2025年11月6日 下午3:38

相关推荐

  • 震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

    在业界对Gemini 3 Flash的一片赞誉声中,AA-Omniscience基准测试的最新结果却令人瞠目结舌:该模型的幻觉率竟高达91%,在所有参与测试的模型中位列倒数。所谓幻觉率,是指模型在应当拒绝回答或承认未知时,却错误生成答案的比例,这一指标直接反映了模型的可靠性与准确性。 在更为全面的LisanBench测试中,Gemini 3 Flash的表现…

    2025年12月19日
    30100
  • 谷歌AI逆袭:从官僚困局到Gemini崛起,创始人回归如何重塑竞争格局

    2022年底ChatGPT的横空出世,无疑在科技行业投下了一颗震撼弹。这场由OpenAI引领的对话式AI革命,不仅重新定义了人机交互的边界,更对长期深耕AI领域的巨头谷歌构成了前所未有的挑战。彼时的谷歌,尽管拥有十余年的技术积累与DeepMind等顶尖团队,却在产品化响应上显得迟缓,甚至被外界贴上了“反应慢”“优势不再”的标签。匆忙推出的Bard未能扭转局势…

    2025年11月25日
    8500
  • 从“不作恶”到“战争机器”:谷歌GenAI.mil上线背后的七年剧变与AI军事化浪潮

    从2018年数千员工抗议军事AI项目,到2025年全面接入五角大楼推出GenAI.mil平台,谷歌用七年时间完成了一场深刻的战略转型。这一转变不仅关乎一家科技巨头的商业选择,更折射出人工智能技术与地缘政治、军事战略深度融合的时代趋势。前天,五角大楼的众多屏幕上同时弹出了一条弹窗通知,一行字赫然在目:「用美国前沿AI扩展战略优势」。 昨日,美国战争部发表官方公…

    2025年12月10日
    7500
  • 从‘Slop’当选年度词汇看AI内容生态的挑战与演进

    近日,韦氏词典宣布将‘slop’评选为2025年度词汇,并将其新定义为‘通常由人工智能大批量生成的低质量数字内容’。这一词汇的流行,不仅反映了公众对AI生成内容泛滥的直观感受,更揭示了当前数字内容生态面临的深刻变革。 从词源学角度看,‘slop’一词的演变颇具象征意义。18世纪时它指‘软泥’,19世纪转为‘食物残渣’(如猪食),后泛指‘垃圾’或‘无价值之物’…

    2025年12月16日
    8200
  • FGN技术革命:谷歌DeepMind WeatherNext 2如何重塑小时级气象预报新范式

    气象预报领域正迎来一场由人工智能驱动的深刻变革。谷歌DeepMind最新发布的WeatherNext 2系统,不仅将预报精度提升至小时级别,更通过创新的功能生成网络(FGN)技术,实现了对天气演变的多情景概率预测,标志着传统数值预报方法向智能化、实时化方向迈出了关键一步。 传统气象预报主要依赖基于物理方程组的数值天气预报模型,这些模型需要在超级计算机上运行数…

    2025年11月18日
    7700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注