Meta AI与香港中文大学近日联合提出了一项颠覆性的视觉推理新范式——ATLAS。该方法无需外部工具,不显式生成中间图像,也不依赖视觉监督信号,仅凭一个离散词汇便首次革命性地将Agentic推理与Latent视觉推理融为一体。

- 论文链接:https://arxiv.org/pdf/2605.15198
- 项目页面:https://atlas-oneword.github.io
- 代码仓库:https://github.com/ZiyuGuo99/ATLAS
该研究的第一作者为香港中文大学博士生,本科毕业于北京大学计算机系。其曾在Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能实验室等机构实习,专注于多模态大模型及生成理解统一方向。代表作包括Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP等,个人主页为https://ziyuguo99.github.io/。

TL;DR:
- 面对复杂的视觉推理任务,Unified Models、Agentic Visual Reasoning和Latent Visual Reasoning通常被视为三条不同路径:Unified Models依赖显式生成中间视觉状态,直观但计算开销大,训练复杂;Agentic方法依赖外部工具或执行器,可解释性强但流程冗长,且需要额外的中间监督;Latent方法利用模型内部表示,形式轻量,但通常需要额外的结构设计或特殊训练机制,可扩展性和泛化性较差,且仍需过程监督。ATLAS试图打破这些范式,通过一个简单的离散Token(Functional Token)同时承担多种核心角色:作为Agentic Operation,它能高效告知模型正在执行的视觉操作;作为Latent Visual Reasoning Unit,它在模型内部高效参与推理,无需中间图像生成,且具备强大的可扩展性和泛化性,可轻松扩展到大规模训练并适用于众多领域任务。“One Word is Enough for Both”的真正含义在于:一个词汇,既是操作,也是思考。
- Agentic与Latent Visual Reasoning并非对立。一个离散Token既可代表完整且可解释的视觉动作语义,也可作为模型内部的Latent Visual Reasoning Unit。
- 稀疏的Functional Token需要专门优化。Functional Token数量虽少,但往往是视觉推理中的关键节点。LA-GRPO通过Token级锚点,使模型更高效地学习这些关键视觉操作。
01 高效统一Agentic与Latent Visual Reasoning
当大模型面对复杂的视觉推理问题时,它究竟应该如何思考?
一种直观做法是让模型显式生成中间图像或视觉状态(Unified Models),再基于这些中间结果继续推理。这种方式过程清晰,但往往需要反复解码和重新编码视觉内容,导致计算开销较高,同时使训练和架构设计变得更加复杂,需要额外的视觉监督,且通用性较差。另一类方法(Agentic Visual Reasoning)则让视觉推理更加外显:模型通过代码、工具调用或外部执行器来完成画线、标注、裁剪、放大等视觉操作。
这类Agentic Visual Reasoning具有良好的可解释性,但引入了额外的工具执行延迟,常常需要冗长的操作调用描述,并且同样需要额外的执行过程监督。
而Latent Visual Reasoning试图将中间推理压缩到模型内部表示中,避免显式生成图像或调用外部工具。它更加轻量,也能表达更高维的信息,但中间过程往往不够可控,同样需要对Latent进行额外的视觉监督,且可扩展性、可解释性与泛化性较差,难以大规模训练和泛化。
是否存在一种方法,既能像Agent一样具备明确的视觉操作,在保证与Latent Visual Reasoning同样轻量、高效的基础上,又可扩展到大规模训练并泛化到众多领域任务,同时避免显式生成中间视觉状态带来的高成本?
Meta AI与香港中文大学提出了一种全新的视觉推理范式——ATLAS。其核心思想非常直观:仅用一个词汇,首次将Agentic与Latent Visual Reasoning统一起来。

主流视觉推理范式对比
02 为什么一个Token就够了
Unified Models像是边思考边重新画一张图,Agentic方法像是拿出一套工具箱,Latent方法像是闭着眼在脑中想象,而ATLAS更像是让模型学会一组视觉动作暗号。模型只需生成离散的Functional Token,便可在内部表示中触发相应的视觉操作。
这些Token看似只是普通词表中的一个词汇,但它们承担的角色并不普通:它们既是Agentic Operation,又是Latent Visual Reasoning。

ATLAS用一个Token同时连接了两件事:一方面,它像Agentic Reasoning一样明确表示模型想执行某种视觉操作;另一方面,它完全存在于模型内部,不依赖外部工具或显式图像生成,因此保持了Latent Visual Reasoning的高效性。
这些Token不需要额外的视觉监督,也不需要改变模型架构,就像普通词汇一样,通过Next-Token Prediction被模型生成;但一旦出现在推理链中,它们就不只是文本,还是模型内部的视觉操作锚点。

ATLAS:将视觉操作表示为标准自回归序列中的Functional Tokens
03 如何让模型真正学会使用Functional Tokens
视觉推理中的许多中间步骤,并不一定真的需要生成一张完整图片。
做几何题时,人类脑中可能只是补一条线;做区域判断时,可能只是看一下左上角;做计数题时,可能只是给每个物体打个标记。这些动作很重要,但它们本身并不需要用大量Token或完整图像来表示。
ATLAS的关键洞察在于:许多视觉推理操作可以被压缩成一个高层语义动作,而这个动作可以由一个离散Token表达。因此,ATLAS不再让模型输出冗长代码、调用外部工具,或生成昂贵的中间视觉结果,而是让模型在文本推理过程中自然插入Functional Token。这种设计使视觉推理过程变得更加紧凑,也更接近人类在脑中进行视觉操作的方式。
为了让模型真正学会使用这些Functional Tokens,研究团队采用了SFT + RL两阶段训练流程:
第一阶段:SFT让模型学会什么时候该用视觉动作
研究团队构建了ATLAS-178K数据集,覆盖40多种视觉推理任务,并将复杂视觉操作映射为统一的Functional Token表达。
在监督微调阶段,模型学习的不只是最终答案,而是包含Functional Tokens的推理轨迹。这一步类似于示范教学:遇到画线,可能需要<|Line|>;遇到空间区域操作,可能需要<|Shape|>;遇到方向关系,可能需要<|Arrow|>;遇到标注,可能需要<|Text|>。
第二阶段:RL让模型学会用得对,而不是乱用
深度重写与降重后的文本
仅仅让模型学会生成 Funtional Token 是远远不够的。如果奖励机制设计不当,模型很容易走向另一个极端:为了获取奖励而疯狂堆叠 Token。例如,原本只需一条辅助线就能解决的问题,模型却连续输出十几个视觉动作 Token,表面看起来非常努力,但实际上对解题毫无帮助。
为解决此问题,ATLAS 在强化学习阶段设计了专门的奖励函数:既奖励模型正确回答问题,也鼓励其合理使用 Funtional Token;同时,对过长的输出和 Token 垃圾信息(Token Spam)进行惩罚,从而避免模型为了刷分而滥用视觉动作。这样一来,模型不再简单地多用 Token,而是学会在真正需要视觉操作时才审慎地使用它们。
04 LA-GRPO:攻克梯度稀释难题
ATLAS 中的另一项关键技术是 Latent-Anchored GRPO,简称 LA-GRPO。其问题根源在于 Funtional Token 的稀疏性。在一整段视觉推理输出中,绝大多数 Token 仍是普通文本,Funtional Token 仅占极小比例。
普通的 GRPO 采用序列级奖励(Sequence-level Reward),虽然能整体优化模型,但对于这些极少数关键 Token 而言,梯度信号很容易被大量普通文本 Token 所稀释——这正是论文中提到的梯度稀释(Gradient Dilution)问题。
ATLAS 的解决方案是:在 GRPO 的基础上,额外对 Funtional Token 位置进行 Token 级锚定(Token-level Anchor)。如果某条推理轨迹最终答对了,并且其中的某个 Funtional Token 发挥了关键作用,那么 LA-GRPO 会更有针对性地强化该 Token 的生成概率。这相当于在训练中告诉模型:并非所有词都同等重要。真正触发视觉操作的那个词,需要被更精准地学习。

LA-GRPO:针对稀疏的 Funtional Tokens 增强梯度更新,缓解梯度稀释问题
05 一个词带来高效强视觉推理能力
定量与定性实验分析
研究团队在多个视觉推理基准上验证了 ATLAS 的效果。实验结果显示,ATLAS 在多个具有挑战性的视觉推理任务中取得了有竞争力的表现。尤其在复杂几何推理、空间关系、多视角理解、计数和细粒度视觉判断等任务中,Funtional Token 能帮助模型更有效地组织视觉推理过程,同时保持极高的效率。

ATLAS 基准测试结果
更重要的是,ATLAS 的提升并非通过更复杂的外部系统换来的。它无需额外工具执行,无需显式生成中间图像,也无需破坏标准的自回归训练流程。Funtional Token 依然只是词表中的普通 Token,能够自然地兼容现有的 SFT 和 RL 训练框架,并可高效扩展至大规模训练。

ATLAS 效率分析

ATLAS 定性样例:Funtional Tokens 帮助模型定位、过滤和标注视觉证据
模型真的在看这些 Token 吗?
一个自然而然的问题是:这些 Funtional Token 仅仅是特殊符号,还是模型真的学会了对应的视觉操作?
为此,研究团队进一步分析了模型在生成 Funtional Token 时的注意力模式。结果显示,当模型生成 <|Shape|> 时,注意力往往会聚焦到需要标记的目标区域;当生成 <|Line|> 时,注意力会集中在几何结构或需要连接的关键点附近;当生成 <|Text|> 时,模型则更倾向于关注需要编号、标注或区分的对象。
这说明 Funtional Token 不仅仅是简单的 Token 标记,而是让这种视觉操作在模型内部表示的推理过程中真正发挥作用。


Funtional Token 的注意力分析:不同 Token 关注不同操作的相关区域
ATLAS 的意义更在于它提出了一种全新的视觉推理范式。从更长远的角度看,ATLAS 为多模态模型提供了一种新的能力接口:并非让模型不断调用外部工具,也不是让模型完全黑盒地在隐空间中思考、无需每一步都生成昂贵的中间图像,而是让它学会一套简洁的视觉动作语言。
当模型能够用一个词(word)完成视觉操作时,它就能在保证可扩展性、泛化性、可解释性的同时,避免冗长的推理过程和额外的中间监督,从而实现最简洁高效的推理预测。
One word is enough for both.
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35817

