HyperEyes：并行多模态搜索新范式，打破串行困局，效率提升10倍

当前，开源多模态搜索智能体普遍受限于“裁剪-再搜索”的串行处理流程。当面对多个目标时，这种模式往往导致交互过程冗长，并容易陷入错误级联累积的困境。

为突破这一瓶颈，小红书研究团队推出了一款全新架构的模型——HyperEyes。该模型通过统一“定位”与“搜索”的动作空间、构建可学习的并行数据，以及引入双粒度效率感知强化学习，实现了一套全栈式设计，成功将多模态搜索范式从“搜得更深”升级为“搜得更宽”的并行模式。

HyperEyes：并行多模态搜索新范式，打破串行困局，效率提升10倍

论文地址：https://arxiv.org/abs/2605.07177
代码地址：https://github.com/DeepExperience/HyperEyes

背景：多模态搜索智能体的“串行困局”

目前，主流智能体在处理包含多个实体的复杂图像时，通常只能采用笨拙的“N轮串行调用”策略。

这种传统处理路径引发了三大难以克服的难题：首先是交互过程极度冗余，原本一句话就能完成的多实体查询，被迫退化为多次单实体搜索，导致延迟显著增加；其次是错误放大效应，如同多米诺骨牌，一旦前置定位出现偏差，后续的搜索结果将全部被污染；最后是模型训练中普遍存在的奖励偏差与“信用分配”问题。

现有模型往往仅以“最终答案是否正确”作为唯一的奖励标准。这不仅导致智能体为了追求表面上的准确率而养成“暴力多搜”的坏习惯，从而引入更多噪声；更致命的是，这种粗粒度的稀疏奖励会引发粗暴的“连坐惩罚”——在那些最终失败的探索轨迹中，原本正确且富有逻辑的中间推理和工具调用也被一并全盘否定，导致模型无法从失败中有效汲取局部经验。

方法：从动作空间、数据到RL的“全栈式”效率重塑

HyperEyes：并行多模态搜索新范式，打破串行困局，效率提升10倍

为了让智能体真正具备“一次出手，多目标并发”的内生能力，HyperEyes研究团队从动作空间、数据合成和强化学习三个维度，进行了彻底的底层重构。

传统智能体通常将“视觉裁剪”和“网络搜索”视为两个独立的步骤。HyperEyes则打破了这一隔阂，提出了“统一定位即搜索”（UGS）的动作空间重构方案。该方案将视觉定位框直接作为检索动作的内嵌参数，使得一次函数调用就能并发携带多个目标框。这一设计从物理层面彻底打通了单轮交互内多目标并发的通路。

然而，仅有架构还不够，开源社区长期缺乏“并行搜索”的训练语料。为此，研究团队设计了一套精密的合成流水线。他们首先将多类图片拼接，合成出必须同时进行定位与检索才能解答的视觉查询；接着基于图谱随机游走，构造出多约束的交集问题，并严格剔除捷径解；最后，通过渐进式拒绝采样（PRS）技术，在严格的递增轮次预算下，提纯出3万条“零冗余”的并行行为种子数据，完美解决了模型SFT冷启动的难题。

在最核心的强化学习（RL）对齐阶段，HyperEyes彻底颠覆了传统RL的“唯结果论”范式。传统的稀疏奖励往往会引发双重隐患：缺乏效率约束的奖励机制会纵容模型养成“冗余试错”的惰性，以牺牲推理速度为代价换取准确率；更糟糕的是，在处理长周期任务时，粗暴的结果导向会带来极其不公平的“连坐惩罚”——即便是一次堪称完美的中间推理过程，也会因为最终环节的失误被彻底抹杀，导致模型在复杂探索中迷失方向。

HyperEyes：并行多模态搜索新范式，打破串行困局，效率提升10倍

针对这一问题，团队创新性地提出了“宏观+微观”的双粒度效率感知强化学习框架。在宏观轨迹层面，系统引入了TRACE（动态参考的成本效率奖励）机制。这并非一个一刀切的步数死命令，而是一把“自我超越”的动态标尺。系统会将模型当前的工具调用表现与标尺对比，只有比标尺更高效才能获得奖励。在每个Epoch结束后，系统会自动用本轮表现最好、步数最少的轨迹去刷新并收紧标尺。这就像跳高比赛，横杆随着模型能力的提升越调越高，逼迫模型不断挤出水分。

而在微观Token层面，为了精准抢救失败轨迹中的“正确中间过程”，HyperEyes引入了OPD（策略内蒸馏）机制。这一机制只在轨迹最终答错时才会启动，届时会引入一个235B的满血版教师模型，为失败轨迹中的每一步提供稠密的Token级监督信号，精准打捞那些原本正确的中间规划。

这种“仅在失败时蒸馏”的非对称设计，完美避免了对学生模型“高效并发”本能的覆盖。成功时由宏观奖励主导效率，失败时由微观蒸馏托底纠偏，宏微观的严丝合缝，彻底释放了多模态大模型的并发检索天性。

IMEB Benchmark：把“搜索效率”作为重要评估维度

现有多模态榜单普遍存在“只看准不看快”的弊端。为了纠正这一导向，团队发布了首个包含300条极具挑战性多实体视觉评测基准的IMEB (Image Multi-Entity Benchmark)。

与之配套，团队还提出了“成本感知评分” (CAS)。该评分标准在统一标尺下，将准确率、Token消耗和工具调用轮次进行联合评估，把传统的答案质量换算为“单位延迟下的有效信息密度”，从根本上遏制了大模型靠堆砌算力暴力刷榜的行为。

HyperEyes：并行多模态搜索新范式，打破串行困局，效率提升10倍

实验结果与核心发现

在随后的6大主流基准测试中，HyperEyes展现出了极具统治力的表现，实现了准确率与效率的Pareto占优。全面建立开源SOTA并非虚言——HyperEyes-30B以64.0%的准确率超越同量级最强开源模型VDR达9.9%，而其平均工具调用轮次仅为VDR的不到五分之一（2.2对比11.6）。而其235B版本更是以仅1.1%的微弱差距逼近闭源旗舰Gemini-3.1-Pro。

HyperEyes：并行多模态搜索新范式，打破串行困局，效率提升10倍