HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

当前,开源多模态搜索智能体普遍受限于“裁剪-再搜索”的串行处理流程。当面对多个目标时,这种模式往往导致交互过程冗长,并容易陷入错误级联累积的困境。

为突破这一瓶颈,小红书研究团队推出了一款全新架构的模型——HyperEyes。该模型通过统一“定位”与“搜索”的动作空间、构建可学习的并行数据,以及引入双粒度效率感知强化学习,实现了一套全栈式设计,成功将多模态搜索范式从“搜得更深”升级为“搜得更宽”的并行模式。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

  • 论文地址:https://arxiv.org/abs/2605.07177
  • 代码地址:https://github.com/DeepExperience/HyperEyes

背景:多模态搜索智能体的“串行困局”

目前,主流智能体在处理包含多个实体的复杂图像时,通常只能采用笨拙的“N轮串行调用”策略。

这种传统处理路径引发了三大难以克服的难题:首先是交互过程极度冗余,原本一句话就能完成的多实体查询,被迫退化为多次单实体搜索,导致延迟显著增加;其次是错误放大效应,如同多米诺骨牌,一旦前置定位出现偏差,后续的搜索结果将全部被污染;最后是模型训练中普遍存在的奖励偏差与“信用分配”问题。

现有模型往往仅以“最终答案是否正确”作为唯一的奖励标准。这不仅导致智能体为了追求表面上的准确率而养成“暴力多搜”的坏习惯,从而引入更多噪声;更致命的是,这种粗粒度的稀疏奖励会引发粗暴的“连坐惩罚”——在那些最终失败的探索轨迹中,原本正确且富有逻辑的中间推理和工具调用也被一并全盘否定,导致模型无法从失败中有效汲取局部经验。

方法:从动作空间、数据到RL的“全栈式”效率重塑

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

为了让智能体真正具备“一次出手,多目标并发”的内生能力,HyperEyes研究团队从动作空间、数据合成和强化学习三个维度,进行了彻底的底层重构。

传统智能体通常将“视觉裁剪”和“网络搜索”视为两个独立的步骤。HyperEyes则打破了这一隔阂,提出了“统一定位即搜索”(UGS)的动作空间重构方案。该方案将视觉定位框直接作为检索动作的内嵌参数,使得一次函数调用就能并发携带多个目标框。这一设计从物理层面彻底打通了单轮交互内多目标并发的通路。

然而,仅有架构还不够,开源社区长期缺乏“并行搜索”的训练语料。为此,研究团队设计了一套精密的合成流水线。他们首先将多类图片拼接,合成出必须同时进行定位与检索才能解答的视觉查询;接着基于图谱随机游走,构造出多约束的交集问题,并严格剔除捷径解;最后,通过渐进式拒绝采样(PRS)技术,在严格的递增轮次预算下,提纯出3万条“零冗余”的并行行为种子数据,完美解决了模型SFT冷启动的难题。

在最核心的强化学习(RL)对齐阶段,HyperEyes彻底颠覆了传统RL的“唯结果论”范式。传统的稀疏奖励往往会引发双重隐患:缺乏效率约束的奖励机制会纵容模型养成“冗余试错”的惰性,以牺牲推理速度为代价换取准确率;更糟糕的是,在处理长周期任务时,粗暴的结果导向会带来极其不公平的“连坐惩罚”——即便是一次堪称完美的中间推理过程,也会因为最终环节的失误被彻底抹杀,导致模型在复杂探索中迷失方向。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

针对这一问题,团队创新性地提出了“宏观+微观”的双粒度效率感知强化学习框架。在宏观轨迹层面,系统引入了TRACE(动态参考的成本效率奖励)机制。这并非一个一刀切的步数死命令,而是一把“自我超越”的动态标尺。系统会将模型当前的工具调用表现与标尺对比,只有比标尺更高效才能获得奖励。在每个Epoch结束后,系统会自动用本轮表现最好、步数最少的轨迹去刷新并收紧标尺。这就像跳高比赛,横杆随着模型能力的提升越调越高,逼迫模型不断挤出水分。

而在微观Token层面,为了精准抢救失败轨迹中的“正确中间过程”,HyperEyes引入了OPD(策略内蒸馏)机制。这一机制只在轨迹最终答错时才会启动,届时会引入一个235B的满血版教师模型,为失败轨迹中的每一步提供稠密的Token级监督信号,精准打捞那些原本正确的中间规划。

这种“仅在失败时蒸馏”的非对称设计,完美避免了对学生模型“高效并发”本能的覆盖。成功时由宏观奖励主导效率,失败时由微观蒸馏托底纠偏,宏微观的严丝合缝,彻底释放了多模态大模型的并发检索天性。

IMEB Benchmark:把“搜索效率”作为重要评估维度

现有多模态榜单普遍存在“只看准不看快”的弊端。为了纠正这一导向,团队发布了首个包含300条极具挑战性多实体视觉评测基准的IMEB (Image Multi-Entity Benchmark)。

与之配套,团队还提出了“成本感知评分” (CAS)。该评分标准在统一标尺下,将准确率、Token消耗和工具调用轮次进行联合评估,把传统的答案质量换算为“单位延迟下的有效信息密度”,从根本上遏制了大模型靠堆砌算力暴力刷榜的行为。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

实验结果与核心发现

在随后的6大主流基准测试中,HyperEyes展现出了极具统治力的表现,实现了准确率与效率的Pareto占优。全面建立开源SOTA并非虚言——HyperEyes-30B以64.0%的准确率超越同量级最强开源模型VDR达9.9%,而其平均工具调用轮次仅为VDR的不到五分之一(2.2对比11.6)。而其235B版本更是以仅1.1%的微弱差距逼近闭源旗舰Gemini-3.1-Pro。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

在极为严苛的CAS成本效率评分中,30B版本的表现达到了次优开源模型的7.6倍,证明其每一单位算力输出的信息密度都极高。消融实验也证实了,这种底层的动作空间重构设计,对传统的“LLM外挂裁剪”或“代码沙箱裁剪”构成了降维打击。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

更有意思的是其面对噪声的强鲁棒性。在真假证据混合的干扰测试中,HyperEyes这种“敢于少搜、一次看全”的并行策略,反而大幅规避了过度检索带来的幻觉陷阱。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

在一个面对6人同框复杂问答的真实测试案例中,传统Agent因为“逐一裁剪+搜索”的笨拙逻辑将流程拖拽至12轮,最终因噪声累积而答错;而HyperEyes首轮即并发定位并检索了全部6人,仅用3轮便给出精准答案,直观地展现了什么叫“一次出手,看清全局”。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍

结语:多模态搜索智能体的下一站,是“效率即智能”

长期以来,大家普遍认为多模态搜索必须通过串行加深来保证准确度,而HyperEyes打破了这一固有惯性。它用翔实的实验证明了,在Agent训练中,“准确率”与“效率”完全可以协同进化。

随着多模态Agent逐渐步入电商比价、视觉检索、实时交互等真实的高并发业务场景,从“搜得更深”转向“搜得更宽”,必将成为下一代智能体角逐的核心竞争力。

HyperEyes:并行多模态搜索新范式,打破串行困局,效率提升10倍


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35487

(0)
上一篇 1小时前
下一篇 1小时前

相关推荐

  • DeepSeek颠覆多模态推理:7056倍压缩视觉Token,性能媲美GPT-5.4

    “Seeing is not Reasoning.” 当 DeepSeek 团队在其最新论文《Thinking with Visual Primitives》中写下这句简短有力的论断时,他们实际上戳破了当前多模态大模型领域一个被普遍忽视却致命的泡沫——我们一直以为让模型看得更清楚就能推理得更好,但真相却是:即便为模型配备显微镜级别的视觉感知能力,其在复杂空间…

    2026年5月2日
    24100
  • ChatGPT广告化:OpenAI商业化转型与用户隐私的博弈

    这一天终于还是来了。 周六凌晨,OpenAI 的一则公告引起轩然大波:他们计划在 ChatGPT 里加广告了。 对此,网友们感到很受伤。有人表示,现在大家用大模型的一个重要原因就是能够避免广告,更好地查询信息,现在 ChatGPT 又把广告加回来是几个意思? 也有人认为,加广告的这件事表明了 OpenAI 目前的营收压力很大。 华盛顿大学教授荣誉退休教授、知…

    2026年1月17日
    51000
  • 华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命

    在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…

    2025年12月5日
    43600
  • 悟界·Emu3.5:世界模型基座如何重塑多模态AI的物理认知与时空一致性

    在AI技术快速迭代的浪潮中,多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院(BAAI)最新开源的悟界·Emu3.5,作为一款原生多模态世界模型,不仅在图、文、视频任务上展现出全面能力,更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。 Emu3.5的核心突破在于其作…

    2025年10月30日
    32300
  • 阶跃星辰杀入AI季后赛,Step 3.5 Flash凭速度与智商跻身“新六小虎”第一梯队

    国产大模型“季后赛”激战正酣 春节刚过,国产大模型领域的竞争 已进入白热化阶段。 一方面,行业巨头投入巨大资源争夺市场:字节豆包、阿里千问、腾讯元宝等通过总计超40亿元的红包活动,吸引了海量用户参与。 其成效显著:除夕当晚,豆包的AI互动量达19亿次,千问用户通过“一句话下单”功能完成了近2亿次操作。据报道,相关团队的员工在春节期间也持续工作,密切关注着竞争…

    2026年2月26日
    55600