颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具

Meta AI与香港中文大学近日联合提出了一项颠覆性的视觉推理新范式——ATLAS。该方法无需外部工具，不显式生成中间图像，也不依赖视觉监督信号，仅凭一个离散词汇便首次革命性地将Agentic推理与Latent视觉推理融为一体。

颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具

论文链接：https://arxiv.org/pdf/2605.15198
项目页面：https://atlas-oneword.github.io
代码仓库：https://github.com/ZiyuGuo99/ATLAS

该研究的第一作者为香港中文大学博士生，本科毕业于北京大学计算机系。其曾在Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能实验室等机构实习，专注于多模态大模型及生成理解统一方向。代表作包括Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP等，个人主页为https://ziyuguo99.github.io/。

颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具

TL;DR：

面对复杂的视觉推理任务，Unified Models、Agentic Visual Reasoning和Latent Visual Reasoning通常被视为三条不同路径：Unified Models依赖显式生成中间视觉状态，直观但计算开销大，训练复杂；Agentic方法依赖外部工具或执行器，可解释性强但流程冗长，且需要额外的中间监督；Latent方法利用模型内部表示，形式轻量，但通常需要额外的结构设计或特殊训练机制，可扩展性和泛化性较差，且仍需过程监督。ATLAS试图打破这些范式，通过一个简单的离散Token（Functional Token）同时承担多种核心角色：作为Agentic Operation，它能高效告知模型正在执行的视觉操作；作为Latent Visual Reasoning Unit，它在模型内部高效参与推理，无需中间图像生成，且具备强大的可扩展性和泛化性，可轻松扩展到大规模训练并适用于众多领域任务。“One Word is Enough for Both”的真正含义在于：一个词汇，既是操作，也是思考。
Agentic与Latent Visual Reasoning并非对立。一个离散Token既可代表完整且可解释的视觉动作语义，也可作为模型内部的Latent Visual Reasoning Unit。
稀疏的Functional Token需要专门优化。Functional Token数量虽少，但往往是视觉推理中的关键节点。LA-GRPO通过Token级锚点，使模型更高效地学习这些关键视觉操作。

01 高效统一Agentic与Latent Visual Reasoning

当大模型面对复杂的视觉推理问题时，它究竟应该如何思考？

一种直观做法是让模型显式生成中间图像或视觉状态（Unified Models），再基于这些中间结果继续推理。这种方式过程清晰，但往往需要反复解码和重新编码视觉内容，导致计算开销较高，同时使训练和架构设计变得更加复杂，需要额外的视觉监督，且通用性较差。另一类方法（Agentic Visual Reasoning）则让视觉推理更加外显：模型通过代码、工具调用或外部执行器来完成画线、标注、裁剪、放大等视觉操作。

这类Agentic Visual Reasoning具有良好的可解释性，但引入了额外的工具执行延迟，常常需要冗长的操作调用描述，并且同样需要额外的执行过程监督。

而Latent Visual Reasoning试图将中间推理压缩到模型内部表示中，避免显式生成图像或调用外部工具。它更加轻量，也能表达更高维的信息，但中间过程往往不够可控，同样需要对Latent进行额外的视觉监督，且可扩展性、可解释性与泛化性较差，难以大规模训练和泛化。

是否存在一种方法，既能像Agent一样具备明确的视觉操作，在保证与Latent Visual Reasoning同样轻量、高效的基础上，又可扩展到大规模训练并泛化到众多领域任务，同时避免显式生成中间视觉状态带来的高成本？

Meta AI与香港中文大学提出了一种全新的视觉推理范式——ATLAS。其核心思想非常直观：仅用一个词汇，首次将Agentic与Latent Visual Reasoning统一起来。

颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具

主流视觉推理范式对比

02 为什么一个Token就够了

Unified Models像是边思考边重新画一张图，Agentic方法像是拿出一套工具箱，Latent方法像是闭着眼在脑中想象，而ATLAS更像是让模型学会一组视觉动作暗号。模型只需生成离散的Functional Token，便可在内部表示中触发相应的视觉操作。

这些Token看似只是普通词表中的一个词汇，但它们承担的角色并不普通：它们既是Agentic Operation，又是Latent Visual Reasoning。

颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具

ATLAS用一个Token同时连接了两件事：一方面，它像Agentic Reasoning一样明确表示模型想执行某种视觉操作；另一方面，它完全存在于模型内部，不依赖外部工具或显式图像生成，因此保持了Latent Visual Reasoning的高效性。

这些Token不需要额外的视觉监督，也不需要改变模型架构，就像普通词汇一样，通过Next-Token Prediction被模型生成；但一旦出现在推理链中，它们就不只是文本，还是模型内部的视觉操作锚点。

颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具

ATLAS：将视觉操作表示为标准自回归序列中的Functional Tokens

03 如何让模型真正学会使用Functional Tokens

视觉推理中的许多中间步骤，并不一定真的需要生成一张完整图片。

做几何题时，人类脑中可能只是补一条线；做区域判断时，可能只是看一下左上角；做计数题时，可能只是给每个物体打个标记。这些动作很重要，但它们本身并不需要用大量Token或完整图像来表示。

ATLAS的关键洞察在于：许多视觉推理操作可以被压缩成一个高层语义动作，而这个动作可以由一个离散Token表达。因此，ATLAS不再让模型输出冗长代码、调用外部工具，或生成昂贵的中间视觉结果，而是让模型在文本推理过程中自然插入Functional Token。这种设计使视觉推理过程变得更加紧凑，也更接近人类在脑中进行视觉操作的方式。

为了让模型真正学会使用这些Functional Tokens，研究团队采用了SFT + RL两阶段训练流程：

第一阶段：SFT让模型学会什么时候该用视觉动作

研究团队构建了ATLAS-178K数据集，覆盖40多种视觉推理任务，并将复杂视觉操作映射为统一的Functional Token表达。

第二阶段：RL让模型学会用得对，而不是乱用

深度重写与降重后的文本

仅仅让模型学会生成 Funtional Token 是远远不够的。如果奖励机制设计不当，模型很容易走向另一个极端：为了获取奖励而疯狂堆叠 Token。例如，原本只需一条辅助线就能解决的问题，模型却连续输出十几个视觉动作 Token，表面看起来非常努力，但实际上对解题毫无帮助。

为解决此问题，ATLAS 在强化学习阶段设计了专门的奖励函数：既奖励模型正确回答问题，也鼓励其合理使用 Funtional Token；同时，对过长的输出和 Token 垃圾信息（Token Spam）进行惩罚，从而避免模型为了刷分而滥用视觉动作。这样一来，模型不再简单地多用 Token，而是学会在真正需要视觉操作时才审慎地使用它们。

04 LA-GRPO：攻克梯度稀释难题

ATLAS 中的另一项关键技术是 Latent-Anchored GRPO，简称 LA-GRPO。其问题根源在于 Funtional Token 的稀疏性。在一整段视觉推理输出中，绝大多数 Token 仍是普通文本，Funtional Token 仅占极小比例。

普通的 GRPO 采用序列级奖励（Sequence-level Reward），虽然能整体优化模型，但对于这些极少数关键 Token 而言，梯度信号很容易被大量普通文本 Token 所稀释——这正是论文中提到的梯度稀释（Gradient Dilution）问题。

ATLAS 的解决方案是：在 GRPO 的基础上，额外对 Funtional Token 位置进行 Token 级锚定（Token-level Anchor）。如果某条推理轨迹最终答对了，并且其中的某个 Funtional Token 发挥了关键作用，那么 LA-GRPO 会更有针对性地强化该 Token 的生成概率。这相当于在训练中告诉模型：并非所有词都同等重要。真正触发视觉操作的那个词，需要被更精准地学习。

颠覆性视觉推理范式ATLAS：仅需一个离散Token，统一Agentic与Latent推理，无需外部工具