TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

在大型语言模型(LLM)日益成为解决复杂任务核心工具的当下,测试时扩展(Test-Time Scaling,TTS)已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源,显著优化其表现。当前,Test-Time Scaling主要分为两大范式:内部测试时扩展,以DeepSeek-R1等推理模型为代表,通过延长思维链实现;外部测试时扩展,则让模型并行生成多条推理路径,再通过聚合机制得出最终答案。随着内部扩展方法逐渐接近性能瓶颈,研究焦点正转向如何通过外部扩展实现持续的性能增长。

Best-of-N范式作为外部测试时扩展的典型代表,其核心在于:针对一个问题,模型生成N条推理路径,并从中选择最优路径作为答案。传统实现方法主要依赖投票法(Majority Voting)和过程奖励模型(Process Reward Model,PRM)。然而,这两种方法均存在明显缺陷。投票法虽简单直接,但研究显示“正确答案往往存在于少数路径中”,其粗糙的统计机制难以精准识别最优解;PRM方法虽能对推理步骤进行细粒度评估,但需要额外训练一个大规模奖励模型(通常达7B参数),导致部署和推理成本急剧上升,且性能稳定性不足——现有PRM并非专为外部测试时扩展设计,在Best-of-N任务中常出现鲁棒性问题。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

为弥补这些缺陷,北京中关村学院、哈尔滨工业大学、中科院自动化所等机构的研究团队提出了TrajSelector方法。该方法由北京中关村学院与哈尔滨工业大学联培博士生俞斌作为第一作者完成,指导教师包括哈尔滨工业大学教授、哈工大青岛研究院院长王佰玲,以及北京中关村学院、中关村人工智能研究院具身智能方向负责人陈凯。TrajSelector是一种轻量级但强大的Best-of-N策略,其创新在于复用大模型自身的“隐藏状态”来评估推理路径质量,无需昂贵的过程标注或大规模奖励模型,即可在数学推理任务中取得显著性能提升。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

论文《TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model》深入剖析了现有Best-of-N方法的两个关键问题:一是重量级PRM的成本过高,其参数规模与策略模型(如8B的Qwen3)相当,极大增加了计算负担;二是模型隐状态未被系统化利用,这些状态中蕴含的“自我反思信号”(如推导步骤的合理性信息)往往被浪费,导致评估性能波动大、可靠性低。TrajSelector的核心目标正是以最小参数开销,充分利用策略采样模型的隐状态,实现高效(Efficient)且有效(Effective)的Best-of-N范式。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector的框架设计简洁而高效,遵循“并行采样-步骤打分-聚合选优”的三步流水线。首先,使用冻结的策略模型进行并行采样,生成多条推理路径及其对应的隐状态。其次,通过一个仅0.6B参数的轻量级打分模型(基于Qwen3-0.6B-Base),复用策略模型的隐状态为每个推理步骤打分——这种隐状态复用机制使小模型能继承策略模型的编码能力,在显著减小参数规模的同时提升打分准确性。最后,采用简单的算术平均计算每条路径的全局分数,并选择最高分路径作为最终答案。

在训练方案上,TrajSelector突破了传统PRM对大量“步骤级标注”的依赖。传统方法需要人工标注每个推理步骤的正确性,成本极高;而TrajSelector仅依靠“弱监督”即可完成训练。其核心挑战在于:一条最终正确的轨迹,内部步骤可能包含冗余或噪声。为此,TrajSelector借鉴FreePRM的损失函数设计,引入“buffer”选项吸收噪声,构建特殊的三分类损失函数:对于正确轨迹,要求模型预测“正确+中性”的概率和为1(允许部分步骤为中性);对于错误轨迹,则要求“错误+中性”概率和为1。这一设计使模型能从数据中自主学习“抓重点”,实现智能轻量的过程验证。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

实验部分,论文在多个N值设置(N=1,5,10,16,32,64)下评估了Best-of-N性能,基准涵盖AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25等主流数据集。以Qwen3-8B为基座的结果显示,在N=16和N=32时,TrajSelector均表现出色。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

汇总各基线方法的平均表现,可绘制出外部Test-Time Scaling曲线图,清晰展示TrajSelector随N增大的性能优势。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

总体而言,TrajSelector通过隐状态复用和轻量级设计,有效解决了Best-of-N范式的成本与稳定性问题,为大规模推理模型的实用化部署提供了新思路。其方法不仅降低了计算开销,还通过弱监督训练摆脱了对人工标注的依赖,展现出在复杂推理任务中的广泛应用潜力。

— 图片补充 —

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8095

(0)
上一篇 2025年11月6日 下午1:08
下一篇 2025年11月6日 下午3:38

相关推荐

  • AI产业格局重构:从技术神话到商业现实的残酷博弈

    在人工智能浪潮席卷全球的背景下,OpenAI与谷歌的竞争格局正在发生深刻变化。这一转变不仅反映了技术迭代的挑战,更揭示了资本、产业生态与商业可持续性之间的复杂博弈。本文将从财务压力、技术瓶颈、产业生态三个维度,深入分析当前AI产业的现实困境与未来走向。 ### 财务压力:2070亿美元缺口的商业警示 汇丰银行的分析报告揭示了一个严峻现实:OpenAI在203…

    2025年12月8日
    18000
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    15900
  • AI重构游戏开发范式:从引擎集成到全生命周期赋能的技术演进

    在上海举办的2025 Unity开发者大会上,”AI+游戏”的融合趋势得到了系统性展示,标志着游戏产业正经历从辅助工具到核心引擎的技术范式转移。这一变革不仅体现在开发效率的量化提升,更深入到创意生成、资产制作、运维管理等全链条环节,预示着游戏行业将迎来新一轮生产力革命。 从技术演进路径看,AI在游戏领域的应用已从早期的概念验证阶段,进…

    2025年11月1日
    17700
  • 腾讯开源YOLO-Master:混合专家MoE赋能实时目标检测,开启端侧AI自适应计算新时代

    关键词: YOLO-Master、混合专家(MoE)、实时目标检测、动态路由、ES-MoE 动态计算,按需分配:YOLO-Master 如何用 MoE 重新定义实时目标检测 实时目标检测(Real-Time Object Detection, RTOD)是计算机视觉领域的核心任务之一,从自动驾驶到工业质检,从安防监控到移动端应用,都离不开它的身影。YOLO …

    2026年2月19日
    15600
  • 腾讯青云奖学金首秀:姚顺雨亲颁百万奖金,揭秘AI人才培养新战略

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖,竟然偶遇了姚顺雨。 这位27岁的腾讯首席AI科学家,在腾讯大楼的线下公开亮相,不是发布重磅产品,也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。 上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。 为更值得的探索 青云奖学金是…

    2026年1月31日
    13100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注