当前,AI Agent 正进入大规模部署阶段,其中应用范围最广、关注度最高的当属 Claude Code、Codex、Cursor 这类编码智能体。过去一年里,这类产品迭代迅猛,在 SWE-bench-verified 基准上的准确率在一年内提升到了 78% 以上。
然而,与简单的代码推理或代码相关的对话任务相比,编码智能体的 Token 消耗量极为惊人。在使用这类工具时,用户最常见的抱怨是:“为什么它解决问题这么啰嗦?”“为什么回答如此冗长?”以及“为什么我的 Credits 这么快就用完了?”
这些抱怨背后,暴露了当前编码智能体存在的几个核心问题:
- 不透明:编码智能体消耗 Token 的行为模式不清晰,不同模型之间的差异也缺乏透明度;
- 不保底:在任务执行前,很难预判任务能否成功,但无论成败,用户都必须为已消耗的资源买单;
- 不可预测:人类对问题难度的主观判断,与实际 Token 消耗之间是否匹配?Agent 自身能否预估任务会消耗多少 Token?
针对这些痛点,来自密歇根大学、斯坦福大学等机构的研究人员,借助开源的 OpenHands Agent 框架,对 8 个前沿模型在 SWE-bench-verified 上的运行轨迹进行了分析,首次给出了一份系统性的解答。

- 论文标题:How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks
- arXiv 论文:https://arxiv.org/pdf/2604.22750
- 项目网站:https://longjubai.github.io/agent_token_consumption/
Agentic Coding 有多贵?
论文首先对比了三种与编码相关的任务:代码推理(单轮对话推理任务)、代码问答对话(多轮对话聊天)以及 SWE-bench 上的 Agentic 编码任务。结果发现,Agentic 编码任务在平均输出/输入 Token 比、平均总 Token 消耗以及平均金钱消耗上,均呈指数级高于另外两种任务。
这源于 Agentic 编码任务的多轮交互特性以及庞大而复杂的上下文管理:海量的代码查询和文件输出会被不断加入对话历史,导致消耗持续增长。同时,Agent 会反复将历史上下文和工具输出喂给模型,使得输入输出比高达 154:1。这意味着,Agentic 编码任务的成本结构与我们熟悉的对话和推理任务有着本质区别。

Agentic Coding 的开销随机性高,且花得越多未必做得越好
论文统计了 SWE-bench-verified 中 500 个问题的平均 Token 消耗,并按消耗量从小到大排序。从图中可以发现,最昂贵的任务可能比最便宜的任务多消耗约 700 万 Token,而且越贵的任务,其 Token 消耗的标准差也越大。
针对同一任务的多次重复运行,通过对比最贵与最便宜的一次运行,结果发现,即便是同一个任务,最贵的运行仍可能比最便宜的运行贵出约两倍。
进一步分析 Token 消耗量与准确率的关系,论文发现,更多的消耗并不能保证更高的准确率。
对于不同任务而言,论文根据平均 Token 消耗量进行分组,并统计每组任务的准确率,结果发现,Token 消耗更多的任务,其准确率往往更低。
对于同一任务的不同运行,将四次运行按 Token 消耗从低到高分为四个等级,并统计每个等级的准确率。结果发现:从所有模型的平均表现来看,最高准确率并非出现在开销最高的时候,而是出现在开销较低时。当开销最低时,任务运行的准确率也最低;当开销稍有提升时,准确率达到峰值;而继续增加开销,当开销达到第二高和最高时,准确率反而下降——更多的资源消耗并未带来更高的任务成功率。


为了探究高开销失败背后的原因,论文检查并分析了 Agent 解决问题轨迹中的两类行为:阅读文件和修改文件。结果发现,在开销更大的运行轨迹中,重复修改和重复查看同一文件的次数也明显更多。这表明,更多的 Token 消耗实际上伴随着大量来回“折腾”,而非高效的推理、尝试和检查。简而言之,一味地堆砌 Token 并不能显著提升效果。


哪些模型贵,哪些模型省?不同模型之间的 Token 效率差异极大
以上分析基于所测试的 8 个模型的整体表现。在此基础上,论文对每个模型进行了具体分析,并比较了它们使用 Token 的效率。
文章测试的八个模型包括:OpenAI 的 GPT-5 和 GPT-5.2,Anthropic 的 Claude Sonnet-3.7、Claude Sonnet-4 和 Claude Sonnet-4.5,Google 的 Gemini-3-Pro Preview,Moonshot AI 的 Kimi-K2,以及阿里巴巴的 Qwen3-Coder-480B。这八个模型覆盖了五家不同公司,同时包含闭源 API 模型(GPT、Claude、Gemini 系列)和开源模型(Kimi-K2、Qwen3-Coder-480B)。其中 Claude Sonnet 有三个版本、GPT 有两个版本,这样既包含了跨公司的横向对比,也包含了同一家族内不同代际的纵向对比。
通过观察不同模型的 Token 消耗与任务准确率的关系,发现模型间的差异是系统性的,并非由任务难度不同导致,而是源于模型自身的行为习惯。例如,GPT-5 和 GPT-5.2 能够以较低的 Token 成本达到不错的准确率,而 Kimi-K2 在成本较高的同时,准确率却并不突出。在同样的 500 个任务下,Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗了约 150 万 Token。


论文进一步选出了两个任务子集:所有模型都成功的任务和所有模型都失败的任务,并再次统计了不同模型的 Token 消耗。结果发现,模型的 Token 消耗排序基本保持不变,并且所有模型在失败任务子集上的 Token 消耗都多于成功子集。不同模型从失败子集到成功子集的 Token 消耗增量也各不相同。
是否有办法对任务的 Token 消耗进行提前预测?
人类专家对任务难度的判断与 Agent 实际 Token 消耗并不完全吻合
在了解了 Agentic Coding 的开销之后,下一个问题是:在执行任务之前,能否根据任务本身来预测其开销?
论文首先分析了人类专家所理解的任务难度,是否可以作为预测 Agent Token 开销的标准。在 SWE-bench-verified 中,每个任务都有人类专家标记的难度等级,根据预期完成时间分为三档:“< 15 min”、“15 min – 1 hr”、“> 1 hr”。如果人类消耗的时间相当于 Agent 消耗的 Token,那么人类估计的任务难度是否与 Agent 的 Token 开销吻合呢?

论文将不同任务按 Token 开销排序,并计算它与人类标注难度的相关性。结果显示,Kendall tau = 0.32,表明人类专家对任务难度的判断与 Agent 实际消耗的 Token 之间,只有很弱的相关性。
任务复杂度认知的错位:人类与AI的“难度观”并不相同
有趣的是,6.7% 被归类为“简单”的任务,其实际Token消耗竟然高于所有“困难”任务的平均水平;而11.1% 的“困难”任务,其Token消耗反而低于所有“简单”任务的平均值。这一反常现象清晰地表明,人类程序员与AI Agent对任务“复杂度”的认知,完全处在两个不同的维度上。
让Agent自己“算账”:自我预测Token消耗是否可行?
既然人类对任务难度的判断与Agent的实际开销存在显著偏差,一个自然而然的思路是:是否可以让Agent自己来预测自己的Token消耗?
针对这一设想,论文作者进行了一项自我预测实验。在该实验中,Agent所使用的所有工具及底层架构均保持不变,唯一的改动出现在系统提示词中——将原本的“解决问题”指令替换为“预估开销”。通过这种方式,Agent的功能与特性得到了最大程度的保留,使其能够利用同样的工具对代码库进行多轮探索、测试与推理,从而完成自我预测。

预测表现:相关性偏低,普遍存在低估
为了衡量预测的准确性,论文将预测开销与实际开销之间的相关性作为评估指标,并同步记录了进行预测本身所消耗的Token。结果显示,模型预测与实际开销之间的最高相关系数仅为0.39(由Claude Sonnet-4.5在输出Token维度上取得),绝大多数模型的相关系数徘徊在0.2至0.3之间。此外,模型对输出Token的预测准确性普遍优于对输入Token的预测。在成本层面,除早期的Claude Sonnet-3.7和Claude 4这两个模型外,大部分模型进行预测所需的开销不到实际任务执行成本的一半。而Claude Sonnet-3.7和Claude 4的预测成本,一度超过了真实任务执行成本的两倍。
进一步的深入分析发现,所有模型无一例外地低估了任务的实际消耗,其中对输入Token的预估偏差尤为严重。


结论:事前定价仍遥不可及
综上所述,无论是人类专家还是Agent自身,目前对Token消耗的预测都只能作为一个粗略的信号,距离实现精准的“事前定价”还有相当大的差距。
总结
本文通过对Coding Agent运行轨迹的深入剖析,揭示了以下核心发现:Agent的Token消耗以输入Token为主导,且在不同问题之间,甚至同一问题的不同运行轮次之间,都表现出极高的随机性。不同模型的Token效率差异显著,而更高的Token消耗并不能保证更高的任务正确率。在执行前的成本预测方面,人类对任务难度的理解与Agent的实际Token消耗并不匹配,Agent自身的预估也存在准确率低且普遍低估的问题。未来的潜在研究方向,包括设计更高效的Agent架构,以及开发更优的开销预测与管理方法。
作者介绍:
本文第一作者Longju Bai是密歇根大学的一年级博士生,通讯作者Jiaxin Pei目前是斯坦福大学的博士后研究员,即将入职得克萨斯大学奥斯汀分校担任助理教授。合作者包括来自斯坦福大学的Zhemin Huang和Erik Brynjolfsson,来自All Hands AI的Xingyao Wang,来自Google DeepMind的Jiao Sun,来自密歇根大学的Rada Mihalcea,以及来自斯坦福大学和麻省理工学院的Alex Pentland。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35051

