LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。

然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正面临根本性瓶颈。这些方法本质上是静态的模式匹配,虽然在特定数据集上表现优异,但其泛化能力往往受限,形成了一个难以逾越的“能力天花板”。尤其是在处理需要多步、复杂推理的未知指令时,性能会显著下降,其根源在于SFT方法在训练中忽略了动态的、显式的推理过程。

为了突破这一能力天花板,我们引入了LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架。LENS摒弃了静态的SFT,转而采用端到端的强化学习(Reinforcement Learning, RL)机制,将高层次的“思考”过程(即思维链推理)与像素级的“执行”过程(即图像分割)进行动态的联合优化。通过这种设计,LENS旨在赋予分割模型真正的、上下文感知的推理能力,从而在根本上提升其在复杂任务中的鲁棒性和泛化性。

本文介绍我们荣获AAAI Oral的工作——“会思考的分割大模型LENS”。

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

  • 论文标题:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • 论文链接:https://arxiv.org/abs/2508.14153
  • 代码链接:https://github.com/hustvl/LENS

LENS框架概览:推理与分割的协同进化

本研究聚焦于分割大模型领域的一大一小两个关键问题:大问题是“泛化能力”,传统分割大模型对未见过的提示和领域的泛化能力往往有限;小问题是“信息瓶颈”,此前的分割大模型从“大脑思考”(MLLM)到“分割解码”(SAM)之间往往只通过单一的分割Token传递信息,存在隐形的信息输送瓶颈。

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

LENS框架的核心设计在于通过端到端的联合优化,彻底打破传统模型中“思考”(推理)与“执行”(分割)之间的信息壁垒。

以往的方法,例如同期的优秀工作Seg-Zero,采用非端到端设计,即先由推理模型生成边界框和点提示,再交由现成的(off-the-shelf)SAM进行分割。这种分离式流程的主要缺陷在于误差的单向传播。这意味着像Seg-Zero这样的非端到端模型是根本上脆弱的;它们的性能上限被其初始猜测的准确性所锁定。一旦推理阶段的定位出现偏差,下游的分割模型将无法纠正,最终必然导致分割失败。相比之下,LENS通过其端到端的反馈闭环,具备了即便从不完美的初步定位中也能自我纠正的能力。

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

LENS的整体架构由三大核心组件构成,它们协同工作,实现了从高级语义理解到精确像素输出的无缝衔接:

  • 多模态大语言模型 (MLLM) – 推理核心:作为系统的“大脑”,LENS采用先进的MLLM(如Qwen2.5-VL-3B-Instruct)来处理输入的图像和文本指令。它负责生成详尽的思维链(Chain-of-Thought, CoT)推理过程,并给出一个初步的目标边界框。这一过程不仅是定位,更是对指令的深度理解。

我们将系统提示 LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板、文本指令T以及图像I输入到MLLM推理模型 LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板 中,得到思维链(COT) LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板 和边界框预测 LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

  • 上下文模块 (Context Module) – 信息桥梁:这是LENS的关键创新,它充当了MLLM和分割模型之间的信息高速公路。该模块由一组可学习的上下文查询(Context Queries)和一个连接器(Connector)组成,其任务是将MLLM生成的丰富推理轨迹和定位信息,转化为分割模型能够高效利用的、信息密集的分割提示。

我们随机初始化上下文查询 LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板,其中M表示上下文查询的数量,C表示多模态大语言模型(MLLM)的隐藏维度。上下文查询被追加到输入序列和生成序列的末尾,并通过一次前向传播来汇聚信息。随后,我们将MLLM输出的上下文查询嵌入 LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板 输入到连接器(connector)中。该连接器是一个浅层Transformer,用于将上下文查询嵌入投影到SAM的提示空间中,即 LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

  • 分割模型 (SAM-2) – 像素解码器:作为系统的“双手”,LENS采用高性能的分割模型(SAM2-Large)。它接收来自上下文模块的复杂指令,并结合原始图像信息,执行精准的像素级掩码生成任务,将推理结果精确地体现在图像上。

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

通过这种“推理 – 桥接 – 分割”三位一体的紧密耦合架构,LENS实现了推理质量和分割精度的同步提升。这种设计使得最终的分割性能可以直接反作用于推理过程的优化,形成一个完整的闭环,为实现更高水平的通用分割能力奠定了基础。

LENS框架在“思考推理”端也做出了改进,我们基于Group Relative Policy Optimization(GRPO)方法构建了统一强化学习奖励机制(Unified Rewards Scheme)。该奖励机制是多维度的,同时监督以下三个层级的线索:

  1. 格式奖励(Format Reward):确保MLLM的输出(包括推理过程和定位结果)遵循预期的结构和格式一致性。
  2. 边界框IoU奖励(Box IoU Reward):衡量预测边界框与真实边界框之间的定位准确性。
  3. 分割掩码IoU奖励(Segment IoU Reward):评估像素级分割掩码的质量。

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

通过我们提出的联合优化(将统一的GRPO目标与监督分割损失相结合),LENS能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是,LENS的端到端特性解决了定位错误(Grounding Error)向下游传播的问题,如上图右一右二所示,即便在某些情况下定位框是错误的,强大的上下文查询(Context Query)也能引导分割模型走向正确。

性能评估与分析

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

在核心结果方面,LENS在文本提示分割任务上取得了最先进的性能(SoTA):在RefCOCO系列的基准测试中取得了81.2%的平均cIoU,达到了世界最高水平。在GroundingSuite-Eval这类更具挑战性的零样本基准测试中,LENS展现出卓越的域外泛化能力,cIoU达到78.3%,超越第二优方法接近10%。

LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

这些成果表明,LENS 所采用的、基于统一强化学习奖励驱动的思维链推理方法,能够显著提升模型在文本提示下的分割性能。我们认为,LENS 为强化学习与视觉分割任务的无缝融合提供了新思路,有望推动更通用、更鲁棒的视觉-语言系统的发展。相关代码与预训练模型已开源,项目地址为:https://github.com/hustvl/LENS。我们期待在 AAAI 2026 会议上与学术界同仁进行深入探讨。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16324

(0)
上一篇 2025年12月29日 上午8:08
下一篇 2025年12月29日 下午12:21

相关推荐