Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

当前，AI Agent 正进入大规模部署阶段，其中应用范围最广、关注度最高的当属 Claude Code、Codex、Cursor 这类编码智能体。过去一年里，这类产品迭代迅猛，在 SWE-bench-verified 基准上的准确率在一年内提升到了 78% 以上。

然而，与简单的代码推理或代码相关的对话任务相比，编码智能体的 Token 消耗量极为惊人。在使用这类工具时，用户最常见的抱怨是：“为什么它解决问题这么啰嗦？”“为什么回答如此冗长？”以及“为什么我的 Credits 这么快就用完了？”

这些抱怨背后，暴露了当前编码智能体存在的几个核心问题：

不透明：编码智能体消耗 Token 的行为模式不清晰，不同模型之间的差异也缺乏透明度；
不保底：在任务执行前，很难预判任务能否成功，但无论成败，用户都必须为已消耗的资源买单；
不可预测：人类对问题难度的主观判断，与实际 Token 消耗之间是否匹配？Agent 自身能否预估任务会消耗多少 Token？

针对这些痛点，来自密歇根大学、斯坦福大学等机构的研究人员，借助开源的 OpenHands Agent 框架，对 8 个前沿模型在 SWE-bench-verified 上的运行轨迹进行了分析，首次给出了一份系统性的解答。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

论文标题：How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks
arXiv 论文：https://arxiv.org/pdf/2604.22750
项目网站：https://longjubai.github.io/agent_token_consumption/

Agentic Coding 有多贵？

论文首先对比了三种与编码相关的任务：代码推理（单轮对话推理任务）、代码问答对话（多轮对话聊天）以及 SWE-bench 上的 Agentic 编码任务。结果发现，Agentic 编码任务在平均输出/输入 Token 比、平均总 Token 消耗以及平均金钱消耗上，均呈指数级高于另外两种任务。

这源于 Agentic 编码任务的多轮交互特性以及庞大而复杂的上下文管理：海量的代码查询和文件输出会被不断加入对话历史，导致消耗持续增长。同时，Agent 会反复将历史上下文和工具输出喂给模型，使得输入输出比高达 154:1。这意味着，Agentic 编码任务的成本结构与我们熟悉的对话和推理任务有着本质区别。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

Agentic Coding 的开销随机性高，且花得越多未必做得越好

论文统计了 SWE-bench-verified 中 500 个问题的平均 Token 消耗，并按消耗量从小到大排序。从图中可以发现，最昂贵的任务可能比最便宜的任务多消耗约 700 万 Token，而且越贵的任务，其 Token 消耗的标准差也越大。

针对同一任务的多次重复运行，通过对比最贵与最便宜的一次运行，结果发现，即便是同一个任务，最贵的运行仍可能比最便宜的运行贵出约两倍。

进一步分析 Token 消耗量与准确率的关系，论文发现，更多的消耗并不能保证更高的准确率。

对于不同任务而言，论文根据平均 Token 消耗量进行分组，并统计每组任务的准确率，结果发现，Token 消耗更多的任务，其准确率往往更低。

对于同一任务的不同运行，将四次运行按 Token 消耗从低到高分为四个等级，并统计每个等级的准确率。结果发现：从所有模型的平均表现来看，最高准确率并非出现在开销最高的时候，而是出现在开销较低时。当开销最低时，任务运行的准确率也最低；当开销稍有提升时，准确率达到峰值；而继续增加开销，当开销达到第二高和最高时，准确率反而下降——更多的资源消耗并未带来更高的任务成功率。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

为了探究高开销失败背后的原因，论文检查并分析了 Agent 解决问题轨迹中的两类行为：阅读文件和修改文件。结果发现，在开销更大的运行轨迹中，重复修改和重复查看同一文件的次数也明显更多。这表明，更多的 Token 消耗实际上伴随着大量来回“折腾”，而非高效的推理、尝试和检查。简而言之，一味地堆砌 Token 并不能显著提升效果。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

哪些模型贵，哪些模型省？不同模型之间的 Token 效率差异极大

以上分析基于所测试的 8 个模型的整体表现。在此基础上，论文对每个模型进行了具体分析，并比较了它们使用 Token 的效率。

文章测试的八个模型包括：OpenAI 的 GPT-5 和 GPT-5.2，Anthropic 的 Claude Sonnet-3.7、Claude Sonnet-4 和 Claude Sonnet-4.5，Google 的 Gemini-3-Pro Preview，Moonshot AI 的 Kimi-K2，以及阿里巴巴的 Qwen3-Coder-480B。这八个模型覆盖了五家不同公司，同时包含闭源 API 模型（GPT、Claude、Gemini 系列）和开源模型（Kimi-K2、Qwen3-Coder-480B）。其中 Claude Sonnet 有三个版本、GPT 有两个版本，这样既包含了跨公司的横向对比，也包含了同一家族内不同代际的纵向对比。

通过观察不同模型的 Token 消耗与任务准确率的关系，发现模型间的差异是系统性的，并非由任务难度不同导致，而是源于模型自身的行为习惯。例如，GPT-5 和 GPT-5.2 能够以较低的 Token 成本达到不错的准确率，而 Kimi-K2 在成本较高的同时，准确率却并不突出。在同样的 500 个任务下，Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗了约 150 万 Token。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

论文进一步选出了两个任务子集：所有模型都成功的任务和所有模型都失败的任务，并再次统计了不同模型的 Token 消耗。结果发现，模型的 Token 消耗排序基本保持不变，并且所有模型在失败任务子集上的 Token 消耗都多于成功子集。不同模型从失败子集到成功子集的 Token 消耗增量也各不相同。

是否有办法对任务的 Token 消耗进行提前预测？

人类专家对任务难度的判断与 Agent 实际 Token 消耗并不完全吻合

在了解了 Agentic Coding 的开销之后，下一个问题是：在执行任务之前，能否根据任务本身来预测其开销？

论文首先分析了人类专家所理解的任务难度，是否可以作为预测 Agent Token 开销的标准。在 SWE-bench-verified 中，每个任务都有人类专家标记的难度等级，根据预期完成时间分为三档：“< 15 min”、“15 min – 1 hr”、“> 1 hr”。如果人类消耗的时间相当于 Agent 消耗的 Token，那么人类估计的任务难度是否与 Agent 的 Token 开销吻合呢？

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

论文将不同任务按 Token 开销排序，并计算它与人类标注难度的相关性。结果显示，Kendall tau = 0.32，表明人类专家对任务难度的判断与 Agent 实际消耗的 Token 之间，只有很弱的相关性。

任务复杂度认知的错位：人类与AI的“难度观”并不相同

有趣的是，6.7% 被归类为“简单”的任务，其实际Token消耗竟然高于所有“困难”任务的平均水平；而11.1% 的“困难”任务，其Token消耗反而低于所有“简单”任务的平均值。这一反常现象清晰地表明，人类程序员与AI Agent对任务“复杂度”的认知，完全处在两个不同的维度上。

让Agent自己“算账”：自我预测Token消耗是否可行？

既然人类对任务难度的判断与Agent的实际开销存在显著偏差，一个自然而然的思路是：是否可以让Agent自己来预测自己的Token消耗？

针对这一设想，论文作者进行了一项自我预测实验。在该实验中，Agent所使用的所有工具及底层架构均保持不变，唯一的改动出现在系统提示词中——将原本的“解决问题”指令替换为“预估开销”。通过这种方式，Agent的功能与特性得到了最大程度的保留，使其能够利用同样的工具对代码库进行多轮探索、测试与推理，从而完成自我预测。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

预测表现：相关性偏低，普遍存在低估

为了衡量预测的准确性，论文将预测开销与实际开销之间的相关性作为评估指标，并同步记录了进行预测本身所消耗的Token。结果显示，模型预测与实际开销之间的最高相关系数仅为0.39（由Claude Sonnet-4.5在输出Token维度上取得），绝大多数模型的相关系数徘徊在0.2至0.3之间。此外，模型对输出Token的预测准确性普遍优于对输入Token的预测。在成本层面，除早期的Claude Sonnet-3.7和Claude 4这两个模型外，大部分模型进行预测所需的开销不到实际任务执行成本的一半。而Claude Sonnet-3.7和Claude 4的预测成本，一度超过了真实任务执行成本的两倍。

进一步的深入分析发现，所有模型无一例外地低估了任务的实际消耗，其中对输入Token的预估偏差尤为严重。

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

结论：事前定价仍遥不可及

综上所述，无论是人类专家还是Agent自身，目前对Token消耗的预测都只能作为一个粗略的信号，距离实现精准的“事前定价”还有相当大的差距。

总结

本文通过对Coding Agent运行轨迹的深入剖析，揭示了以下核心发现：Agent的Token消耗以输入Token为主导，且在不同问题之间，甚至同一问题的不同运行轮次之间，都表现出极高的随机性。不同模型的Token效率差异显著，而更高的Token消耗并不能保证更高的任务正确率。在执行前的成本预测方面，人类对任务难度的理解与Agent的实际Token消耗并不匹配，Agent自身的预估也存在准确率低且普遍低估的问题。未来的潜在研究方向，包括设计更高效的Agent架构，以及开发更优的开销预测与管理方法。

作者介绍：

本文第一作者Longju Bai是密歇根大学的一年级博士生，通讯作者Jiaxin Pei目前是斯坦福大学的博士后研究员，即将入职得克萨斯大学奥斯汀分校担任助理教授。合作者包括来自斯坦福大学的Zhemin Huang和Erik Brynjolfsson，来自All Hands AI的Xingyao Wang，来自Google DeepMind的Jiao Sun，来自密歇根大学的Rada Mihalcea，以及来自斯坦福大学和麻省理工学院的Alex Pentland。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35051

Coding Agent烧钱真相：Token消耗暴涨，但花得越多未必做得越好

Agentic Coding 有多贵？

Agentic Coding 的开销随机性高，且花得越多未必做得越好

哪些模型贵，哪些模型省？不同模型之间的 Token 效率差异极大

是否有办法对任务的 Token 消耗进行提前预测？

人类专家对任务难度的判断与 Agent 实际 Token 消耗并不完全吻合

任务复杂度认知的错位：人类与AI的“难度观”并不相同

让Agent自己“算账”：自我预测Token消耗是否可行？

预测表现：相关性偏低，普遍存在低估

结论：事前定价仍遥不可及

总结

相关推荐

AI攻防风暴：2025网络安全漏洞深度解析与自主防御新纪元

AI算力争夺战：腾讯600万算法大赛开启，探索推荐系统Scaling Law新纪元

世界模型五大门派争霸：杨立昆VS李飞飞，谁将定义AI未来？

OpenAI深夜突袭！GPT-5.4震撼发布：原生电脑操控能力碾压人类，推理编程全维度封王

xAI估值飙升背后：大模型竞赛进入资本驱动新阶段