TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

在大型语言模型(LLM)日益成为解决复杂任务核心工具的当下,测试时扩展(Test-Time Scaling,TTS)已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源,显著优化其表现。当前,Test-Time Scaling主要分为两大范式:内部测试时扩展,以DeepSeek-R1等推理模型为代表,通过延长思维链实现;外部测试时扩展,则让模型并行生成多条推理路径,再通过聚合机制得出最终答案。随着内部扩展方法逐渐接近性能瓶颈,研究焦点正转向如何通过外部扩展实现持续的性能增长。

Best-of-N范式作为外部测试时扩展的典型代表,其核心在于:针对一个问题,模型生成N条推理路径,并从中选择最优路径作为答案。传统实现方法主要依赖投票法(Majority Voting)和过程奖励模型(Process Reward Model,PRM)。然而,这两种方法均存在明显缺陷。投票法虽简单直接,但研究显示“正确答案往往存在于少数路径中”,其粗糙的统计机制难以精准识别最优解;PRM方法虽能对推理步骤进行细粒度评估,但需要额外训练一个大规模奖励模型(通常达7B参数),导致部署和推理成本急剧上升,且性能稳定性不足——现有PRM并非专为外部测试时扩展设计,在Best-of-N任务中常出现鲁棒性问题。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

为弥补这些缺陷,北京中关村学院、哈尔滨工业大学、中科院自动化所等机构的研究团队提出了TrajSelector方法。该方法由北京中关村学院与哈尔滨工业大学联培博士生俞斌作为第一作者完成,指导教师包括哈尔滨工业大学教授、哈工大青岛研究院院长王佰玲,以及北京中关村学院、中关村人工智能研究院具身智能方向负责人陈凯。TrajSelector是一种轻量级但强大的Best-of-N策略,其创新在于复用大模型自身的“隐藏状态”来评估推理路径质量,无需昂贵的过程标注或大规模奖励模型,即可在数学推理任务中取得显著性能提升。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

论文《TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model》深入剖析了现有Best-of-N方法的两个关键问题:一是重量级PRM的成本过高,其参数规模与策略模型(如8B的Qwen3)相当,极大增加了计算负担;二是模型隐状态未被系统化利用,这些状态中蕴含的“自我反思信号”(如推导步骤的合理性信息)往往被浪费,导致评估性能波动大、可靠性低。TrajSelector的核心目标正是以最小参数开销,充分利用策略采样模型的隐状态,实现高效(Efficient)且有效(Effective)的Best-of-N范式。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

TrajSelector的框架设计简洁而高效,遵循“并行采样-步骤打分-聚合选优”的三步流水线。首先,使用冻结的策略模型进行并行采样,生成多条推理路径及其对应的隐状态。其次,通过一个仅0.6B参数的轻量级打分模型(基于Qwen3-0.6B-Base),复用策略模型的隐状态为每个推理步骤打分——这种隐状态复用机制使小模型能继承策略模型的编码能力,在显著减小参数规模的同时提升打分准确性。最后,采用简单的算术平均计算每条路径的全局分数,并选择最高分路径作为最终答案。

在训练方案上,TrajSelector突破了传统PRM对大量“步骤级标注”的依赖。传统方法需要人工标注每个推理步骤的正确性,成本极高;而TrajSelector仅依靠“弱监督”即可完成训练。其核心挑战在于:一条最终正确的轨迹,内部步骤可能包含冗余或噪声。为此,TrajSelector借鉴FreePRM的损失函数设计,引入“buffer”选项吸收噪声,构建特殊的三分类损失函数:对于正确轨迹,要求模型预测“正确+中性”的概率和为1(允许部分步骤为中性);对于错误轨迹,则要求“错误+中性”概率和为1。这一设计使模型能从数据中自主学习“抓重点”,实现智能轻量的过程验证。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

实验部分,论文在多个N值设置(N=1,5,10,16,32,64)下评估了Best-of-N性能,基准涵盖AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25等主流数据集。以Qwen3-8B为基座的结果显示,在N=16和N=32时,TrajSelector均表现出色。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

汇总各基线方法的平均表现,可绘制出外部Test-Time Scaling曲线图,清晰展示TrajSelector随N增大的性能优势。

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

总体而言,TrajSelector通过隐状态复用和轻量级设计,有效解决了Best-of-N范式的成本与稳定性问题,为大规模推理模型的实用化部署提供了新思路。其方法不仅降低了计算开销,还通过弱监督训练摆脱了对人工标注的依赖,展现出在复杂推理任务中的广泛应用潜力。

— 图片补充 —

TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8095

(0)
上一篇 2025年11月6日 下午1:08
下一篇 2025年11月6日 下午8:54

相关推荐

  • WhisperLiveKit:突破本地实时语音转写瓶颈的同步流式技术解析

    在人工智能技术快速发展的今天,实时语音转文字已成为众多应用场景的核心需求,从在线会议、远程教育到智能客服、媒体生产,高效准确的语音转写能力直接影响用户体验与业务效率。然而,长期以来这一领域面临两大技术困境:一是依赖云服务的方案存在数据隐私与传输延迟问题,尤其对金融、医疗、政务等敏感行业构成合规挑战;二是本地化方案如直接使用OpenAI的Whisper模型处理…

    2025年11月10日
    300
  • 仙工智能IPO透视:工业机器人控制器的隐形冠军,三年亏损1.22亿背后的战略抉择

    在具身智能成为创投风口的当下,工业机器人领域正迎来新一轮技术迭代与市场洗牌。仙工智能作为以机器人控制系统为核心的智能机器人公司,近期再次向港交所递交招股书,其业务模式、财务表现与战略布局引发行业深度关注。本文将从技术架构、商业模式、财务数据及行业竞争四个维度,系统分析这家隐形冠军企业的机遇与挑战。 **一、技术架构:控制器为核心的四大产品矩阵** 仙工智能的…

    2025年12月3日
    200
  • 突破PEFT合并瓶颈:方向鲁棒性理论揭示与RobustMerge方案解析

    在人工智能技术快速演进的浪潮中,多模态大模型已成为推动产业进步的核心引擎。然而,随着模型参数规模呈指数级增长,全量微调(Full Fine-Tuning, FFT)所需的海量计算资源已成为制约技术民主化的重要瓶颈。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,特别是LoRA(Low-Rank Adaptati…

    2025年11月10日
    400
  • 无需训练即可解锁4D感知:VGGT4D如何从静态3D模型中挖掘动态线索

    从静态3D到动态4D的演进挑战 以Visual Geometry Transformer(VGGT)和DUSt3R为代表的3D基础模型在静态场景重建领域已展现出卓越性能。然而,当面对包含移动物体(如行人、车辆)的动态4D场景时,这些模型的性能往往显著下降。动态物体的运动不仅会干扰背景几何建模,还会导致严重的相机位姿漂移问题。 当前解决方案主要面临两大挑战:一…

    20小时前
    1300
  • 自动驾驶行业效率革命:AI驱动精益生产模式深度解析

    在自动驾驶技术快速迭代的2025年,行业竞争已从单纯的技术突破转向研发效率的全面比拼。L2级辅助驾驶搭载量呈现爆发式增长,Momenta在城市NOA市场保持头部地位,地平线征程芯片量产突破1000万片大关,元戎启行方案量产车辆超过13万辆。与此同时,小鹏和理想等企业开始向L4级自动驾驶迈进。在更前沿的Robotaxi领域,小马智行计划年内落地千台规模车队,文…

    2025年10月31日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注