
当前,开源多模态搜索智能体普遍受限于“裁剪-再搜索”的串行处理流程。当面对多个目标时,这种模式往往导致交互过程冗长,并容易陷入错误级联累积的困境。
为突破这一瓶颈,小红书研究团队推出了一款全新架构的模型——HyperEyes。该模型通过统一“定位”与“搜索”的动作空间、构建可学习的并行数据,以及引入双粒度效率感知强化学习,实现了一套全栈式设计,成功将多模态搜索范式从“搜得更深”升级为“搜得更宽”的并行模式。


- 论文地址:https://arxiv.org/abs/2605.07177
- 代码地址:https://github.com/DeepExperience/HyperEyes
背景:多模态搜索智能体的“串行困局”
目前,主流智能体在处理包含多个实体的复杂图像时,通常只能采用笨拙的“N轮串行调用”策略。
这种传统处理路径引发了三大难以克服的难题:首先是交互过程极度冗余,原本一句话就能完成的多实体查询,被迫退化为多次单实体搜索,导致延迟显著增加;其次是错误放大效应,如同多米诺骨牌,一旦前置定位出现偏差,后续的搜索结果将全部被污染;最后是模型训练中普遍存在的奖励偏差与“信用分配”问题。
现有模型往往仅以“最终答案是否正确”作为唯一的奖励标准。这不仅导致智能体为了追求表面上的准确率而养成“暴力多搜”的坏习惯,从而引入更多噪声;更致命的是,这种粗粒度的稀疏奖励会引发粗暴的“连坐惩罚”——在那些最终失败的探索轨迹中,原本正确且富有逻辑的中间推理和工具调用也被一并全盘否定,导致模型无法从失败中有效汲取局部经验。
方法:从动作空间、数据到RL的“全栈式”效率重塑

为了让智能体真正具备“一次出手,多目标并发”的内生能力,HyperEyes研究团队从动作空间、数据合成和强化学习三个维度,进行了彻底的底层重构。
传统智能体通常将“视觉裁剪”和“网络搜索”视为两个独立的步骤。HyperEyes则打破了这一隔阂,提出了“统一定位即搜索”(UGS)的动作空间重构方案。该方案将视觉定位框直接作为检索动作的内嵌参数,使得一次函数调用就能并发携带多个目标框。这一设计从物理层面彻底打通了单轮交互内多目标并发的通路。
然而,仅有架构还不够,开源社区长期缺乏“并行搜索”的训练语料。为此,研究团队设计了一套精密的合成流水线。他们首先将多类图片拼接,合成出必须同时进行定位与检索才能解答的视觉查询;接着基于图谱随机游走,构造出多约束的交集问题,并严格剔除捷径解;最后,通过渐进式拒绝采样(PRS)技术,在严格的递增轮次预算下,提纯出3万条“零冗余”的并行行为种子数据,完美解决了模型SFT冷启动的难题。
在最核心的强化学习(RL)对齐阶段,HyperEyes彻底颠覆了传统RL的“唯结果论”范式。传统的稀疏奖励往往会引发双重隐患:缺乏效率约束的奖励机制会纵容模型养成“冗余试错”的惰性,以牺牲推理速度为代价换取准确率;更糟糕的是,在处理长周期任务时,粗暴的结果导向会带来极其不公平的“连坐惩罚”——即便是一次堪称完美的中间推理过程,也会因为最终环节的失误被彻底抹杀,导致模型在复杂探索中迷失方向。

针对这一问题,团队创新性地提出了“宏观+微观”的双粒度效率感知强化学习框架。在宏观轨迹层面,系统引入了TRACE(动态参考的成本效率奖励)机制。这并非一个一刀切的步数死命令,而是一把“自我超越”的动态标尺。系统会将模型当前的工具调用表现与标尺对比,只有比标尺更高效才能获得奖励。在每个Epoch结束后,系统会自动用本轮表现最好、步数最少的轨迹去刷新并收紧标尺。这就像跳高比赛,横杆随着模型能力的提升越调越高,逼迫模型不断挤出水分。
而在微观Token层面,为了精准抢救失败轨迹中的“正确中间过程”,HyperEyes引入了OPD(策略内蒸馏)机制。这一机制只在轨迹最终答错时才会启动,届时会引入一个235B的满血版教师模型,为失败轨迹中的每一步提供稠密的Token级监督信号,精准打捞那些原本正确的中间规划。
这种“仅在失败时蒸馏”的非对称设计,完美避免了对学生模型“高效并发”本能的覆盖。成功时由宏观奖励主导效率,失败时由微观蒸馏托底纠偏,宏微观的严丝合缝,彻底释放了多模态大模型的并发检索天性。
IMEB Benchmark:把“搜索效率”作为重要评估维度
现有多模态榜单普遍存在“只看准不看快”的弊端。为了纠正这一导向,团队发布了首个包含300条极具挑战性多实体视觉评测基准的IMEB (Image Multi-Entity Benchmark)。
与之配套,团队还提出了“成本感知评分” (CAS)。该评分标准在统一标尺下,将准确率、Token消耗和工具调用轮次进行联合评估,把传统的答案质量换算为“单位延迟下的有效信息密度”,从根本上遏制了大模型靠堆砌算力暴力刷榜的行为。

实验结果与核心发现
在随后的6大主流基准测试中,HyperEyes展现出了极具统治力的表现,实现了准确率与效率的Pareto占优。全面建立开源SOTA并非虚言——HyperEyes-30B以64.0%的准确率超越同量级最强开源模型VDR达9.9%,而其平均工具调用轮次仅为VDR的不到五分之一(2.2对比11.6)。而其235B版本更是以仅1.1%的微弱差距逼近闭源旗舰Gemini-3.1-Pro。

在极为严苛的CAS成本效率评分中,30B版本的表现达到了次优开源模型的7.6倍,证明其每一单位算力输出的信息密度都极高。消融实验也证实了,这种底层的动作空间重构设计,对传统的“LLM外挂裁剪”或“代码沙箱裁剪”构成了降维打击。

更有意思的是其面对噪声的强鲁棒性。在真假证据混合的干扰测试中,HyperEyes这种“敢于少搜、一次看全”的并行策略,反而大幅规避了过度检索带来的幻觉陷阱。

在一个面对6人同框复杂问答的真实测试案例中,传统Agent因为“逐一裁剪+搜索”的笨拙逻辑将流程拖拽至12轮,最终因噪声累积而答错;而HyperEyes首轮即并发定位并检索了全部6人,仅用3轮便给出精准答案,直观地展现了什么叫“一次出手,看清全局”。

结语:多模态搜索智能体的下一站,是“效率即智能”
长期以来,大家普遍认为多模态搜索必须通过串行加深来保证准确度,而HyperEyes打破了这一固有惯性。它用翔实的实验证明了,在Agent训练中,“准确率”与“效率”完全可以协同进化。
随着多模态Agent逐渐步入电商比价、视觉检索、实时交互等真实的高并发业务场景,从“搜得更深”转向“搜得更宽”,必将成为下一代智能体角逐的核心竞争力。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35487

