TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

在大型语言模型(LLM)日益成为解决复杂任务核心工具的当下,测试时扩展(Test-Time Scaling,TTS)已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源,显著优化其表现。当前,Test-Time Scaling主要分为两大范式:内部测试时扩展,以DeepSeek-R1等推理模型为代表,通过延长思维链实现;外部测试时扩展,则让模型并行生成多条推理路径,再通过聚合机制得出最终答案。随着内部扩展方法逐渐接近性能瓶颈,研究焦点正转向如何通过外部扩展实现持续的性能增长。

Best-of-N范式作为外部测试时扩展的典型代表,其核心在于:针对一个问题,模型生成N条推理路径,并从中选择最优路径作为答案。传统实现方法主要依赖投票法(Majority Voting)和过程奖励模型(Process Reward Model,PRM)。然而,这两种方法均存在明显缺陷。投票法虽简单直接,但研究显示“正确答案往往存在于少数路径中”,其粗糙的统计机制难以精准识别最优解;PRM方法虽能对推理步骤进行细粒度评估,但需要额外训练一个大规模奖励模型(通常达7B参数),导致部署和推理成本急剧上升,且性能稳定性不足——现有PRM并非专为外部测试时扩展设计,在Best-of-N任务中常出现鲁棒性问题。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

为弥补这些缺陷,北京中关村学院、哈尔滨工业大学、中科院自动化所等机构的研究团队提出了TrajSelector方法。该方法由北京中关村学院与哈尔滨工业大学联培博士生俞斌作为第一作者完成,指导教师包括哈尔滨工业大学教授、哈工大青岛研究院院长王佰玲,以及北京中关村学院、中关村人工智能研究院具身智能方向负责人陈凯。TrajSelector是一种轻量级但强大的Best-of-N策略,其创新在于复用大模型自身的“隐藏状态”来评估推理路径质量,无需昂贵的过程标注或大规模奖励模型,即可在数学推理任务中取得显著性能提升。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

论文《TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model》深入剖析了现有Best-of-N方法的两个关键问题:一是重量级PRM的成本过高,其参数规模与策略模型(如8B的Qwen3)相当,极大增加了计算负担;二是模型隐状态未被系统化利用,这些状态中蕴含的“自我反思信号”(如推导步骤的合理性信息)往往被浪费,导致评估性能波动大、可靠性低。TrajSelector的核心目标正是以最小参数开销,充分利用策略采样模型的隐状态,实现高效(Efficient)且有效(Effective)的Best-of-N范式。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector的框架设计简洁而高效,遵循“并行采样-步骤打分-聚合选优”的三步流水线。首先,使用冻结的策略模型进行并行采样,生成多条推理路径及其对应的隐状态。其次,通过一个仅0.6B参数的轻量级打分模型(基于Qwen3-0.6B-Base),复用策略模型的隐状态为每个推理步骤打分——这种隐状态复用机制使小模型能继承策略模型的编码能力,在显著减小参数规模的同时提升打分准确性。最后,采用简单的算术平均计算每条路径的全局分数,并选择最高分路径作为最终答案。

在训练方案上,TrajSelector突破了传统PRM对大量“步骤级标注”的依赖。传统方法需要人工标注每个推理步骤的正确性,成本极高;而TrajSelector仅依靠“弱监督”即可完成训练。其核心挑战在于:一条最终正确的轨迹,内部步骤可能包含冗余或噪声。为此,TrajSelector借鉴FreePRM的损失函数设计,引入“buffer”选项吸收噪声,构建特殊的三分类损失函数:对于正确轨迹,要求模型预测“正确+中性”的概率和为1(允许部分步骤为中性);对于错误轨迹,则要求“错误+中性”概率和为1。这一设计使模型能从数据中自主学习“抓重点”,实现智能轻量的过程验证。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

实验部分,论文在多个N值设置(N=1,5,10,16,32,64)下评估了Best-of-N性能,基准涵盖AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25等主流数据集。以Qwen3-8B为基座的结果显示,在N=16和N=32时,TrajSelector均表现出色。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

汇总各基线方法的平均表现,可绘制出外部Test-Time Scaling曲线图,清晰展示TrajSelector随N增大的性能优势。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

总体而言,TrajSelector通过隐状态复用和轻量级设计,有效解决了Best-of-N范式的成本与稳定性问题,为大规模推理模型的实用化部署提供了新思路。其方法不仅降低了计算开销,还通过弱监督训练摆脱了对人工标注的依赖,展现出在复杂推理任务中的广泛应用潜力。

— 图片补充 —

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8095

(0)
上一篇 2025年11月6日 下午1:08
下一篇 2025年11月6日 下午3:38

相关推荐

  • 算力基建危机:从微软GPU闲置到太空数据中心革命

    当前全球AI算力竞赛正面临一个被长期忽视的底层危机:芯片制造能力已远超基础设施承载极限。近期两则看似独立的新闻——微软囤积GPU却无法部署、英伟达H100被发射至太空组建数据中心——实则共同揭示了算力生态系统的结构性失衡。本文将深入剖析这一困境的技术根源、产业影响与创新解决方案。 微软CEO萨提亚·纳德拉在与OpenAI山姆·奥特曼的对话中透露,公司手握大量…

    2025年11月4日
    33000
  • 亚马逊裁员潮背后的AI战略转型:从人力精简到具身智能布局的深层分析

    亚马逊近期宣布的裁员计划,涉及约1.4万名员工,这一举措在科技行业引发了广泛关注。表面上看,这是公司应对经济压力的成本削减行为,但深入分析其背后的战略意图,可以发现这实际上是亚马逊在人工智能时代进行的一次系统性资源重组。本文将从多个维度剖析这一事件,探讨其与AI技术发展的内在联系,以及可能对行业产生的深远影响。 首先,从财务数据来看,亚马逊的裁员决策并非源于…

    2025年10月29日
    43900
  • AI重塑跨境电商:1688“遨虾”如何用智能体重构B2B供应链三环节

    在AI技术从概念验证迈向产业落地的关键阶段,B2B领域正成为价值创造的前沿阵地。作为中国最大的B2B供应链平台,阿里巴巴旗下1688近期推出的跨境电商AI智能体“遨虾”(alphashop.cn),标志着AI正从辅助工具升级为核心生产力引擎。本文将从技术架构、产业影响和商业逻辑三个维度,深入分析这一变革如何重构跨境电商的选品、采购、上架全流程。 **一、技术…

    2025年12月7日
    95800
  • 快排算法之父托尼·霍尔逝世,他创造的“十亿美元错误”如何影响编程世界?

    快排算法之父、图灵奖得主托尼·霍尔逝世,享年92岁 在计算机科学领域,几乎无人能绕开快速排序算法。作为全球使用最广泛的排序算法之一,它已被集成进从C、Java到Python等几乎所有主流编程语言的标准库中。 然而,快速排序仅仅是托尼·霍尔漫长而卓越学术生涯的起点。作为1980年图灵奖得主,他提出了用于形式化验证程序正确性的霍尔逻辑,创造了深刻影响Go语言设计…

    2026年3月11日
    44500
  • 突破双向编码瓶颈:快手BRHVC如何革新智能视频压缩技术

    在视频编码技术演进的长河中,双向编码(Random Access模式)始终扮演着高效压缩的关键角色,广泛应用于点播、存储等高画质场景。然而,当深度学习浪潮席卷视频编码领域时,这项传统技术却遭遇了前所未有的挑战。双向编码特有的分层B帧结构虽然能带来显著的码率节省,但其复杂的大跨度参考机制却成为智能编码算法难以逾越的障碍。 视频编码技术的本质在于解决海量视觉数据…

    2025年11月21日
    35300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注