冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

在实际应用场景中,大型语言模型常常会遗漏关键信息,这被称为“Lost in the Middle”(迷失在中间)现象——即模型对位于输入中间位置的内容关注度显著不足。目前,主流的优化策略主要分为两大方向:

  • 硬选择:先通过检索或裁剪提取相关片段,再将其输入模型。但这种方法可能导致对推理至关重要的上下文信息丢失。
  • 软选择:利用摘要或压缩技术缩短输入文本长度。然而,有损压缩不可避免地会引入信息失真。

这两类方法本质上都在“改动”原始输入或模型权重。那么,是否存在一种方式,既能保留完整的上下文,又能精准地告诉模型“重点关注哪里”?HiLight 提出了一条全新的“输入侧干预”路径:在原文中插入少量高亮标签,从而引导模型的注意力分布。


方法概述

在实际部署中,大模型通常是基于 API 付费调用的黑盒服务,规模庞大且权重不公开,直接对其进行 SFT(有监督微调)或 RL(强化学习)微调往往不切实际。因此,HiLight 选择了一条更实用的路径:冻结推理模型,训练一个轻量级的“助手模型”来协助它标注重点。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

  • 论文标题:Learning Evidence Highlighting for Frozen LLMs
  • 论文地址:https://arxiv.org/abs/2604.22565
  • 作者:Shaoang Li1,∗, Yanhang Shi1,∗, Yufei Li2, Mingfu Liang2, Xiaohan Wei2, Yunchen Pu2, Fei Tian2, Chonglin Sun2, Frank Shyu2, Luke Simon2, Sandeep Pandey2, Xi Liu2,†, Jian Li1,†
  • 机构:1 石溪大学(Stony Brook University),2 Meta AI
  • 说明:∗ 共同第一作者;† 共同通讯作者

具体流程如下:

  1. 轻量模型(Emphasis Actor)读取完整的上下文,并为每个 token 计算重要性分数。
  2. 该轻量模型在得分最高的片段两侧插入高亮标签,例如 <start_important><end_important>
  3. 被冻结的推理模型(Solver LLM)接收带有标签的文本,完成推理并输出最终结果。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

训练过程仅依赖 Solver 的任务奖励作为反馈信号,无需任何人工标注的证据。由于缺乏 token 级别的证据标注,研究者将高亮选择建模为强化学习问题,使用下游任务指标(如 HR@10、EM、F1)作为奖励信号,并通过分组策略梯度来更新 Actor。

为了防止 Actor 出现“全部高亮”的偷懒行为,框架引入了高亮预算机制:轻量语言模型最多只能标注一定比例的 token,并通过 span 合并策略将零散的 token 级选择整合为语义连贯的片段。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

实验结果表明,HiLight 对预算取值并不敏感。这意味着在实际部署时无需精细调参,只需选择一个合理的中间值即可。


实验结果

研究者在四个任务上进行了评测:Amazon-Beauty(序列推荐)、HotpotQA(多跳问答)、SQuAD 2.0(阅读理解)和 PubMedQA(生物医学分类)。对比方法涵盖了当前主流的 prompt optimization(提示优化)方法,包括 PRL、BFRS、OPRO、DSPy(MIPROv2)和 APE。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

其中,提升幅度最大的是序列推荐任务(Amazon-Beauty)。在其他任务上,虽然提升相对温和,但结果始终正向。


高亮>裁剪,保留上下文的优势

消融实验进行了一个有趣的对比:如果将 Actor 选择的高亮片段单独裁剪出来喂给 Solver,会发生什么?

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

结果显示,在 Amazon-Beauty 上,裁剪也能取得不错的效果。但在 HotpotQA 上却出现了相反的情况。这是因为多跳问答推理需要保留具有连接性的上下文,裁剪虽然能选出关键证据,却破坏了语义的完整性。而 HiLight 在标注重点的同时,保留了完整的语境。


一个高亮模型,服务多个大模型

Actor 学习到的高亮策略具有很强的迁移能力。研究者使用 Qwen3-14B 作为 Solver 训练 Actor,然后直接将其应用于五个从未见过的 Solver。作为对比,让目标 Solver 自行高亮证据后再作答。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

结果显示,HiLight 的 Actor 高亮在五个 Solver 上的效果都明显优于自我高亮。原因很简单:经过专门训练的轻量模型,比大模型自己猜测“哪里重要”更可靠。HiLight 的 Actor 是通过任务奖励显式训练出来的,它知道什么样的证据能真正提升下游指标。


没有人工标注,却与人工高度重合

尽管训练过程中没有任何 token 级别的证据标注,但 Actor 的高亮区域与 HotpotQA 数据集中人工标注的支持事实高度重合,最高达到 0.78 F1。随着 Actor 规模从 0.6B 增大到 8B,F1 从 0.68 单调上升至 0.78。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

如图所示,Precision、Recall、F1 三项指标都随 Actor 规模单调提升,Precision 甚至达到 0.84,说明 Actor 高亮的 token 中,绝大多数都是人工判定的关键证据。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

上图展示了一个 HotpotQA 样本上的 token 级分数分布:蓝色曲线是 Actor 打出的重要性分数,红色阴影区是人工标注的支持事实所在区间。在一个包含 1200 多个 token 的长上下文中,Actor 只在两个狭窄的区域打出高分,而这两个区域正是数据集标注的 ground-truth 证据所在。


低部署成本

  • Solver 端 token 开销:< 1.01 倍(仅插入少量标签 token)。
  • Actor 推理延迟:0.6B 模型约 0.05 秒,4B 模型约 0.23 秒(p50),相比 Solver 的 8 至 18 秒可忽略不计。
  • 训练成本:仅需约 12K 次 Solver 调用,而 PRL 需要 120K 次,APE 需要 60K 次。

一个直观案例:序列推荐优化

在 Amazon-Beauty 的一个典型案例中,模型需要通过给定的用户历史购买摘要和一批候选商品,依据用户下一个可能感兴趣的商品,对候选商品进行重排序。Actor 精准地高亮标记了两个关键内容。这两个信号帮助 Solver 将真实目标商品(一款主打“Grips Makeup To Last”的底妆产品)的推荐排序从第 14 名提升到第 5 名,这是一个显著的排序改进。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现

与黑盒注意力机制不同,HiLight 直接告诉用户:模型之所以提升该商品的排名,是因为看到了这两段高亮文本。这大大提升了模型推荐结果的可信度。


结语

HiLight 的思路非常简单:用一个轻量模型划重点,让大模型集中精力推理。这种方式带来了几个好处:

  • 性能提升:推荐任务性能提升可达 27%,问答任务也呈现正向提升。
  • 不用改模型:Solver 冻结,API 友好。
  • 可解释:高亮标签能直接告诉人类“模型在看哪里”,以及模型决策的依据。
  • 可迁移:一个 Actor 可以服务于多个不同的大模型。
  • 低成本:训练成本低,额外延迟和推理成本小。

随着越来越多系统通过 API 调用大模型,HiLight 提供了一种不必改动 Solver 也能实现性能提升的有效方法。

值得关注的是,本文的作者团队与Meta旗下GR2(Generative Reasoning Re-ranker,arXiv:2602.07774)项目组成员高度重合。这意味着,HiLight所提出的方法,极有可能在不久的将来被整合进GR2这类工业级重排序系统中,直接服务于实际生产环境。

冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34120

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • 从理论到实践:使用Model Context Protocol构建多工具AI代理的完整指南

    类比 我们都熟悉《Kaun Banega Crorepati(KBC)》节目中的“Phone a Friend(打电话求助)”环节。这是印度版的《Who Wants to Be a Millionaire?》。 现在,想象一下如果 KBC 节目诞生于“电话尚未发明”的时代。 在没有电话的世界里:如果节目想让选手“打电话”求助朋友,就必须为每一位求助的朋友进行…

    2025年11月25日
    57200
  • 终结 Prompt?斯坦福论文揭示大模型下一阶段的新范式

    Verbalized Sampling 示意图 / By Author 提示词工程即将迎来变革?一篇曾被忽略的斯坦福论文(https://arxiv.org/pdf/2510.01171)揭示了这一可能。其核心思想与一篇Medium文章(https://medium.com/generative-ai/stanford-just-killed-prompt-…

    2025年11月8日
    34700
  • LangGraph实战:构建高效Agentic工作流,解锁AI应用开发新范式

    用 Agentic 框架构建 AI 工作流 随着 GPT-5、Gemini 2.5 Pro 等强大 AI 模型的涌现,旨在高效利用这些模型的 Agentic 框架也日益增多。这类框架通过抽象化诸多复杂环节,极大地简化了与 AI 模型的协作,例如处理工具调用、管理智能体状态以及集成人工反馈循环。 本文将深入探讨其中一个可用的 Agentic AI 框架:Lan…

    2025年11月21日
    40300
  • OpenMemory:开源AI长期记忆系统,为聊天机器人装上“人工大脑”

    大多数AI助手在对话结束后便会遗忘一切,它们无法记住你的姓名、偏好,甚至是前一天刚刚提及的细节。 这正是OpenMemory引人注目的原因。作为一个开源、可本地部署的系统,它为AI赋予了真正的长期记忆能力,相当于为你的聊天机器人或Copilot安装了一个“人工大脑”。 OpenMemory 是什么? 你可以将其视为AI的智能“备忘录”。它不仅仅是存储文本片段…

    2025年11月14日
    40200
  • 从分道扬镳到殊途同归:OpenAI Codex与Anthropic Claude Code的演进与趋同

    近日,OpenAI正式发布了全新的大模型GPT-5.4-Cyber。这款模型在目标用户群、应用场景乃至发布策略上,都与Anthropic不久前发布的Claude Mythos形成了鲜明的对标态势。这种“贴身竞争”的格局已十分明显,甚至有媒体在报道中直接指出:“与Anthropic一样,OpenAI……”。 这种趋同现象并不仅限于底层的基座模型。纵观两家公司近…

    2026年4月20日
    41000