突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

HVO-GRPO团队 投稿

量子位 | 公众号 QbitAI

文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance) 等多个维度。

然而,在实际优化过程中,开发者往往面临“拆东墙补西墙”的窘境:提升了相关性,一致性可能随之下降。如何让模型在多个目标之间达成完美的“帕累托最优(Pareto optimal)”?

近日,Li Auto团队一项被ICASSP 2026接收的研究提出了HyperVolume Optimization(HVO)。这是一种全新的多目标强化学习(MORL)策略,它基于GRPO框架,无需SFT或冷启动,就能让7B参数的模型在摘要任务上展现出媲美GPT-4的性能,且生成内容更加简洁。

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

△HVO性能对比雷达图

研究背景

核心痛点:多目标优化的“不平衡”

文本摘要生成是自然语言处理(NLP)中的一项核心且具有挑战性的任务。为了全面评估生成摘要的质量,研究人员通常会考察多个维度,例如连贯性、一致性、流畅性和相关性。然而,同时优化这些维度的目标具有挑战性,因为在一个维度上的改进可能会导致其他维度的妥协,从而产生不平衡的摘要。

目前的文本摘要研究多依赖单一奖励信号,难以整合多维度指标。即便采用多维度奖励,通常也只是简单地将各项得分进行加权线性组合(Weighted Linear Combination)。

传统方法的局限性

这种传统做法存在明显局限:

1. 人工依赖: 需要繁琐的手动配置权重

2. 目标冲突: 无法有效处理目标间的相互依赖,容易导致优化结果不完整或严重失衡

此前虽有MDO等方法尝试通过梯度投影缓解冲突,但因计算成本过高,难以集成到大语言模型(LLM)中。

方法介绍

创新方案:引入超体积指标HVO

为了解决上述问题,研究者将多目标优化中的超体积(Hypervolume) 概念引入到了强化学习的奖励结构中。

HVO的三大技术亮点

1. 基于GRPO框架

借鉴了类似DeepSeek-R1-Zero的训练范式,HVO直接在基础模型上应用组相对策略优化(GRPO),无需经过监督微调(SFT)。

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

其中:

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

2. 动态调整得分

HVO利用超体积方法,在强化学习过程中动态调整不同得分组之间的权重,引导模型逐步逼近帕累托前沿。

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

3. 长度约束机制

为解决GRPO训练中常见的稳定性不足和“长度坍缩”问题,HVO提出了一种新的长度约束奖励(R conciseness),通过控制压缩比确保模型在简洁的同时保持稳定收敛。

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

方法流程图

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

△ HVO整体流程示意图。通过超体积计算替代简单的加权求和,使模型倾向于选择各维度表现更均衡的解。

实验结果:7B模型的“降维打击”

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

研究团队在CNN/DailyMail(新闻类)BillSum(法律类) 两大基准数据集上对HVO进行了验证。实验基座采用Qwen 2.5-7B-Instruct

1. 综合素质超越GPT-4

在多维度评估工具UniEval的测试中,经过HVO增强的7B模型表现惊人:

  • 在两个数据集上的HV得分和总分均优于所有基准方法
  • 对比GPT-4:虽然GPT-4在连贯性和相关性上有微弱优势,但Qwen 2.5 7B(HVO)在整体性能和维度平衡性上与GPT-4旗鼓相当

2. 更均衡的雷达图表现

对比GRPO发现,GRPO在训练早期会过度追求流畅性和相关性,从而限制了一致性的提升。而HVO能够均匀地优化各项指标,在雷达图上展现出更饱满、更稳定的覆盖区域。

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

3. 拒绝“废话”,更加简洁

散点图分析显示,HVO在保持最高总分的同时,生成的摘要长度更短,展现了极佳的简洁性(Conciseness)。

突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

结论与展望

核心贡献

本文介绍了超体积优化强化学习方法(HVO),这是一种用于文本摘要的多目标强化学习框架,可在高维目标空间中直接优化超体积指标。通过平衡多个评估指标,HVO实现了更稳定、更高效地向帕累托前沿逼近的轨迹。

实验验证

在CNN/DailyMail和BillSum上的实验表明,HVO取得了最先进的超体积和整体分数,优于现有方法,且可与GPT-4相媲美,无需监督微调或冷启动初始化。

研究意义

这些结果证实了HVO在处理复杂权衡和生成高质量摘要方面的有效性,为多目标文本摘要提供了一个稳健的解决方案。它证明了通过科学的优化策略,较小规模的开源模型完全有潜力在特定任务上对标顶尖闭源大模型

未来方向

研究团队表示,未来将探索:

  • 将HVO扩展到更多NLP任务
  • 探索更复杂的奖励结构
  • 在更大规模模型上的应用潜力

论文标题:
Hypervolume Optimization via Multi-Objective Reinforcement Learning for Balanced Text Summarization
论文地址:
https://arxiv.org/abs/2510.19325
代码仓库:
https://github.com/ai4business-LiAuto/HVO ⭐ 已开源
收录会议:
ICASSP 2026


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20813

(0)
上一篇 2026年2月9日 下午7:18
下一篇 2026年2月9日 下午8:28

相关推荐

  • DePass:统一特征归因框架,开启Transformer内部信息流无损分解新纪元

    随着大型语言模型(LLMs)在文本生成、逻辑推理、代码编程等复杂任务中展现出接近甚至超越人类的表现,AI研究社区正面临一个日益紧迫的挑战:我们如何理解这些“黑箱”模型内部究竟发生了什么?模型的输出决策究竟是基于哪些输入信息、经过哪些内部组件的加工而形成的?这一挑战,即AI模型的可解释性问题,已成为制约LLMs在医疗、金融、司法等高风险领域深度应用的关键瓶颈。…

    2025年12月1日
    22500
  • FeRA:从频域第一性原理出发,实现扩散模型动态参数高效微调

    在大模型时代,参数高效微调(PEFT)已成为将Stable Diffusion、Flux等大规模扩散模型迁移至下游任务的标准范式。从LoRA到DoRA,社区不断探索如何用更少的参数实现更好的适配。然而,现有微调方法大多采用“静态”策略:无论模型处于去噪过程的哪个阶段,适配器的参数都是固定不变的。这种“一刀切”的方式忽略了扩散生成过程内在的时序物理规律,导致模…

    AI产业动态 2025年12月12日
    17000
  • AI Ping:清华系AI Infra重塑大模型API服务秩序,评测路由双机制破解黑盒焦虑

    中国版 OpenRouter + Artificial Analysis,让每一枚 Token 都能流向它最该去的地方。 大模型 API 服务的「黑盒」焦虑 Clawdbot 的病毒式裂变,仿佛是一年前 Manus 的魅影重现。同样一夜之间站上风口,同样点燃了无数开发者对「泼天富贵」的想象,也顺手把 Token 烧成了新的「硬通货」。 一组数据更具体地揭示了…

    2026年2月2日
    43200
  • Grok大规模信息失真事件:生成式AI的实时幻觉危机与后真相时代的算法困境

    近日,马斯克旗下xAI开发的聊天机器人Grok在悉尼邦迪海滩枪击案等重大公共事件中出现了系统性信息失真现象,引发了业界对生成式AI实时处理能力的深度担忧。这并非简单的技术故障,而是暴露了当前大语言模型在应对突发新闻、实时数据流时存在的结构性缺陷——即“幻觉”问题在高速信息环境下的放大效应。 事件始于悉尼邦迪海滩发生的一起枪击惨案,现场视频显示43岁的路人艾哈…

    2025年12月15日
    32400
  • 液冷服务器:AI算力时代的散热革命与万亿市场机遇

    第一章 行业绪论:液冷服务器的崛起逻辑与时代价值 01 概念界定与技术本质 液冷服务器是通过液体介质(氟化液、水基液、矿物油等)替代传统空气介质,实现服务器核心部件(CPU、GPU、ASIC芯片等)热量高效转移的先进计算硬件设备。 其核心原理基于液体远优于空气的热传导特性——液体的热传导效率是空气的1000倍以上,比热容更是空气的数千倍,能够在极小的体积内快…

    2026年1月19日
    36400