颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

 

Meta AI与香港中文大学近日联合提出了一项颠覆性的视觉推理新范式——ATLAS。该方法无需外部工具,不显式生成中间图像,也不依赖视觉监督信号,仅凭一个离散词汇便首次革命性地将Agentic推理与Latent视觉推理融为一体。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

  • 论文链接:https://arxiv.org/pdf/2605.15198
  • 项目页面:https://atlas-oneword.github.io
  • 代码仓库:https://github.com/ZiyuGuo99/ATLAS

该研究的第一作者为香港中文大学博士生,本科毕业于北京大学计算机系。其曾在Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能实验室等机构实习,专注于多模态大模型及生成理解统一方向。代表作包括Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP等,个人主页为https://ziyuguo99.github.io/。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

TL;DR:

  • 面对复杂的视觉推理任务,Unified Models、Agentic Visual Reasoning和Latent Visual Reasoning通常被视为三条不同路径:Unified Models依赖显式生成中间视觉状态,直观但计算开销大,训练复杂;Agentic方法依赖外部工具或执行器,可解释性强但流程冗长,且需要额外的中间监督;Latent方法利用模型内部表示,形式轻量,但通常需要额外的结构设计或特殊训练机制,可扩展性和泛化性较差,且仍需过程监督。ATLAS试图打破这些范式,通过一个简单的离散Token(Functional Token)同时承担多种核心角色:作为Agentic Operation,它能高效告知模型正在执行的视觉操作;作为Latent Visual Reasoning Unit,它在模型内部高效参与推理,无需中间图像生成,且具备强大的可扩展性和泛化性,可轻松扩展到大规模训练并适用于众多领域任务。“One Word is Enough for Both”的真正含义在于:一个词汇,既是操作,也是思考。
  • Agentic与Latent Visual Reasoning并非对立。一个离散Token既可代表完整且可解释的视觉动作语义,也可作为模型内部的Latent Visual Reasoning Unit。
  • 稀疏的Functional Token需要专门优化。Functional Token数量虽少,但往往是视觉推理中的关键节点。LA-GRPO通过Token级锚点,使模型更高效地学习这些关键视觉操作。

01 高效统一Agentic与Latent Visual Reasoning

当大模型面对复杂的视觉推理问题时,它究竟应该如何思考?

一种直观做法是让模型显式生成中间图像或视觉状态(Unified Models),再基于这些中间结果继续推理。这种方式过程清晰,但往往需要反复解码和重新编码视觉内容,导致计算开销较高,同时使训练和架构设计变得更加复杂,需要额外的视觉监督,且通用性较差。另一类方法(Agentic Visual Reasoning)则让视觉推理更加外显:模型通过代码、工具调用或外部执行器来完成画线、标注、裁剪、放大等视觉操作。

这类Agentic Visual Reasoning具有良好的可解释性,但引入了额外的工具执行延迟,常常需要冗长的操作调用描述,并且同样需要额外的执行过程监督。

而Latent Visual Reasoning试图将中间推理压缩到模型内部表示中,避免显式生成图像或调用外部工具。它更加轻量,也能表达更高维的信息,但中间过程往往不够可控,同样需要对Latent进行额外的视觉监督,且可扩展性、可解释性与泛化性较差,难以大规模训练和泛化。

是否存在一种方法,既能像Agent一样具备明确的视觉操作,在保证与Latent Visual Reasoning同样轻量、高效的基础上,又可扩展到大规模训练并泛化到众多领域任务,同时避免显式生成中间视觉状态带来的高成本?

Meta AI与香港中文大学提出了一种全新的视觉推理范式——ATLAS。其核心思想非常直观:仅用一个词汇,首次将Agentic与Latent Visual Reasoning统一起来。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

主流视觉推理范式对比


02 为什么一个Token就够了

Unified Models像是边思考边重新画一张图,Agentic方法像是拿出一套工具箱,Latent方法像是闭着眼在脑中想象,而ATLAS更像是让模型学会一组视觉动作暗号。模型只需生成离散的Functional Token,便可在内部表示中触发相应的视觉操作。

这些Token看似只是普通词表中的一个词汇,但它们承担的角色并不普通:它们既是Agentic Operation,又是Latent Visual Reasoning。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

ATLAS用一个Token同时连接了两件事:一方面,它像Agentic Reasoning一样明确表示模型想执行某种视觉操作;另一方面,它完全存在于模型内部,不依赖外部工具或显式图像生成,因此保持了Latent Visual Reasoning的高效性。

这些Token不需要额外的视觉监督,也不需要改变模型架构,就像普通词汇一样,通过Next-Token Prediction被模型生成;但一旦出现在推理链中,它们就不只是文本,还是模型内部的视觉操作锚点。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

ATLAS:将视觉操作表示为标准自回归序列中的Functional Tokens


03 如何让模型真正学会使用Functional Tokens

视觉推理中的许多中间步骤,并不一定真的需要生成一张完整图片。

做几何题时,人类脑中可能只是补一条线;做区域判断时,可能只是看一下左上角;做计数题时,可能只是给每个物体打个标记。这些动作很重要,但它们本身并不需要用大量Token或完整图像来表示。

ATLAS的关键洞察在于:许多视觉推理操作可以被压缩成一个高层语义动作,而这个动作可以由一个离散Token表达。因此,ATLAS不再让模型输出冗长代码、调用外部工具,或生成昂贵的中间视觉结果,而是让模型在文本推理过程中自然插入Functional Token。这种设计使视觉推理过程变得更加紧凑,也更接近人类在脑中进行视觉操作的方式。

为了让模型真正学会使用这些Functional Tokens,研究团队采用了SFT + RL两阶段训练流程:

第一阶段:SFT让模型学会什么时候该用视觉动作

研究团队构建了ATLAS-178K数据集,覆盖40多种视觉推理任务,并将复杂视觉操作映射为统一的Functional Token表达。

在监督微调阶段,模型学习的不只是最终答案,而是包含Functional Tokens的推理轨迹。这一步类似于示范教学:遇到画线,可能需要<|Line|>;遇到空间区域操作,可能需要<|Shape|>;遇到方向关系,可能需要<|Arrow|>;遇到标注,可能需要<|Text|>。

第二阶段:RL让模型学会用得对,而不是乱用

深度重写与降重后的文本

仅仅让模型学会生成 Funtional Token 是远远不够的。如果奖励机制设计不当,模型很容易走向另一个极端:为了获取奖励而疯狂堆叠 Token。例如,原本只需一条辅助线就能解决的问题,模型却连续输出十几个视觉动作 Token,表面看起来非常努力,但实际上对解题毫无帮助。

为解决此问题,ATLAS 在强化学习阶段设计了专门的奖励函数:既奖励模型正确回答问题,也鼓励其合理使用 Funtional Token;同时,对过长的输出和 Token 垃圾信息(Token Spam)进行惩罚,从而避免模型为了刷分而滥用视觉动作。这样一来,模型不再简单地多用 Token,而是学会在真正需要视觉操作时才审慎地使用它们。


04 LA-GRPO:攻克梯度稀释难题

ATLAS 中的另一项关键技术是 Latent-Anchored GRPO,简称 LA-GRPO。其问题根源在于 Funtional Token 的稀疏性。在一整段视觉推理输出中,绝大多数 Token 仍是普通文本,Funtional Token 仅占极小比例。

普通的 GRPO 采用序列级奖励(Sequence-level Reward),虽然能整体优化模型,但对于这些极少数关键 Token 而言,梯度信号很容易被大量普通文本 Token 所稀释——这正是论文中提到的梯度稀释(Gradient Dilution)问题。

ATLAS 的解决方案是:在 GRPO 的基础上,额外对 Funtional Token 位置进行 Token 级锚定(Token-level Anchor)。如果某条推理轨迹最终答对了,并且其中的某个 Funtional Token 发挥了关键作用,那么 LA-GRPO 会更有针对性地强化该 Token 的生成概率。这相当于在训练中告诉模型:并非所有词都同等重要。真正触发视觉操作的那个词,需要被更精准地学习。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

LA-GRPO:针对稀疏的 Funtional Tokens 增强梯度更新,缓解梯度稀释问题


05 一个词带来高效强视觉推理能力

定量与定性实验分析

研究团队在多个视觉推理基准上验证了 ATLAS 的效果。实验结果显示,ATLAS 在多个具有挑战性的视觉推理任务中取得了有竞争力的表现。尤其在复杂几何推理、空间关系、多视角理解、计数和细粒度视觉判断等任务中,Funtional Token 能帮助模型更有效地组织视觉推理过程,同时保持极高的效率。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

ATLAS 基准测试结果

更重要的是,ATLAS 的提升并非通过更复杂的外部系统换来的。它无需额外工具执行,无需显式生成中间图像,也无需破坏标准的自回归训练流程。Funtional Token 依然只是词表中的普通 Token,能够自然地兼容现有的 SFT 和 RL 训练框架,并可高效扩展至大规模训练。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

ATLAS 效率分析

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

ATLAS 定性样例:Funtional Tokens 帮助模型定位、过滤和标注视觉证据

模型真的在看这些 Token 吗?

一个自然而然的问题是:这些 Funtional Token 仅仅是特殊符号,还是模型真的学会了对应的视觉操作?

为此,研究团队进一步分析了模型在生成 Funtional Token 时的注意力模式。结果显示,当模型生成 <|Shape|> 时,注意力往往会聚焦到需要标记的目标区域;当生成 <|Line|> 时,注意力会集中在几何结构或需要连接的关键点附近;当生成 <|Text|> 时,模型则更倾向于关注需要编号、标注或区分的对象。

这说明 Funtional Token 不仅仅是简单的 Token 标记,而是让这种视觉操作在模型内部表示的推理过程中真正发挥作用。

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

颠覆性视觉推理范式ATLAS:仅需一个离散Token,统一Agentic与Latent推理,无需外部工具

Funtional Token 的注意力分析:不同 Token 关注不同操作的相关区域

ATLAS 的意义更在于它提出了一种全新的视觉推理范式。从更长远的角度看,ATLAS 为多模态模型提供了一种新的能力接口:并非让模型不断调用外部工具,也不是让模型完全黑盒地在隐空间中思考、无需每一步都生成昂贵的中间图像,而是让它学会一套简洁的视觉动作语言。

当模型能够用一个词(word)完成视觉操作时,它就能在保证可扩展性、泛化性、可解释性的同时,避免冗长的推理过程和额外的中间监督,从而实现最简洁高效的推理预测。

One word is enough for both.


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35817

(0)
上一篇 15小时前
下一篇 15小时前

相关推荐

  • Agent Skills:解锁AI Agent从“思考”到“行动”的关键能力层

    为什么说它是 Agentic AI 真正“能干活”的关键 导语|为什么你的 Agent “看起来很聪明,却干不了事”? 许多开发者在初次构建 AI Agent 时,常会遇到一个典型困境: 👉 模型本身能力很强,擅长推理与对话,但一旦接入真实业务场景就频频“卡壳” 其根本原因往往不在于模型本身,而在于——未能真正理解并构建起 Agent Skills(智能体技…

    2026年1月6日
    66600
  • 揭秘RAG排序层:LambdaMART如何成为检索增强生成成败的关键

    那层几乎无人提及、却决定你AI应用成败的排序层。 Google、Netflix、具备联网搜索功能的ChatGPT,它们有何共通之处?都依赖一个排序算法来决定你首先看到什么。它不决定“有什么”,而是决定你“看见什么”。 当我们的团队调试RAG流水线,探究为何它对某些查询返回一堆无关内容时,“排序学习”问题一次次浮现。算法本身不难找到,但几乎没有人在构建AI应用…

    2025年12月9日
    42500
  • GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

    GLM-5.1 在 CUDA 优化领域实现突破:AI 以小时级效率完成传统需数月的工作 在 GPU 计算优化领域,一项新的进展正在改变工作范式。传统上,优化 CUDA Kernel 需要资深工程师投入数月时间进行反复测试与调优。如今,人工智能模型能在约 14 小时内自主完成同类复杂优化任务,并将性能加速比从初始的 2.6 倍显著提升至 35.7 倍。 这一过…

    2026年4月8日
    67700
  • 构建可自我进化的Agentic RAG系统:从医疗健康领域实践到通用设计模式

    Agentic RAG 系统可以被视为一个高维度的决策空间,其中每个维度都对应一项关键设计选择,例如提示工程、智能体协同机制或检索策略。手动调整这些维度以找到最优组合不仅极其困难,而且系统上线后遇到的未知数据也常常会打破在测试环境中有效的配置。 因此,一个更优的解决方案是让系统具备“自我优化”的能力。一条典型的、可自我进化的 Agentic RAG 流水线遵…

    2025年11月19日
    59400
  • 硅谷工程文化真相:职业开发者如何掌控AI编程,而非盲目跟随Vibe Coding

    Vibe Coding 再次被证明“被吹得有点过了”! 过去一年,自前 OpenAI 创始成员 Karpathy 引燃“Vibe Coding”概念后,整个 AI 编程赛道以十倍速热闹起来。LLM 厂商们以“肉眼都快分不清”的速度在编程能力上进行疯狂代际提升,智能编程也从最初的“超级自动补全”进化到了 Agentic 的自主编程时代。 如今,关于 Vibe …

    2025年12月31日
    40200