Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

当前,AI Agent 正进入大规模部署阶段,其中应用范围最广、关注度最高的当属 Claude Code、Codex、Cursor 这类编码智能体。过去一年里,这类产品迭代迅猛,在 SWE-bench-verified 基准上的准确率在一年内提升到了 78% 以上。

然而,与简单的代码推理或代码相关的对话任务相比,编码智能体的 Token 消耗量极为惊人。在使用这类工具时,用户最常见的抱怨是:“为什么它解决问题这么啰嗦?”“为什么回答如此冗长?”以及“为什么我的 Credits 这么快就用完了?”

这些抱怨背后,暴露了当前编码智能体存在的几个核心问题:

  1. 不透明:编码智能体消耗 Token 的行为模式不清晰,不同模型之间的差异也缺乏透明度;
  2. 不保底:在任务执行前,很难预判任务能否成功,但无论成败,用户都必须为已消耗的资源买单;
  3. 不可预测:人类对问题难度的主观判断,与实际 Token 消耗之间是否匹配?Agent 自身能否预估任务会消耗多少 Token?

针对这些痛点,来自密歇根大学、斯坦福大学等机构的研究人员,借助开源的 OpenHands Agent 框架,对 8 个前沿模型在 SWE-bench-verified 上的运行轨迹进行了分析,首次给出了一份系统性的解答。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

  • 论文标题:How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks
  • arXiv 论文:https://arxiv.org/pdf/2604.22750
  • 项目网站:https://longjubai.github.io/agent_token_consumption/

Agentic Coding 有多贵?

论文首先对比了三种与编码相关的任务:代码推理(单轮对话推理任务)、代码问答对话(多轮对话聊天)以及 SWE-bench 上的 Agentic 编码任务。结果发现,Agentic 编码任务在平均输出/输入 Token 比、平均总 Token 消耗以及平均金钱消耗上,均呈指数级高于另外两种任务。

这源于 Agentic 编码任务的多轮交互特性以及庞大而复杂的上下文管理:海量的代码查询和文件输出会被不断加入对话历史,导致消耗持续增长。同时,Agent 会反复将历史上下文和工具输出喂给模型,使得输入输出比高达 154:1。这意味着,Agentic 编码任务的成本结构与我们熟悉的对话和推理任务有着本质区别。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

Agentic Coding 的开销随机性高,且花得越多未必做得越好

论文统计了 SWE-bench-verified 中 500 个问题的平均 Token 消耗,并按消耗量从小到大排序。从图中可以发现,最昂贵的任务可能比最便宜的任务多消耗约 700 万 Token,而且越贵的任务,其 Token 消耗的标准差也越大。

针对同一任务的多次重复运行,通过对比最贵与最便宜的一次运行,结果发现,即便是同一个任务,最贵的运行仍可能比最便宜的运行贵出约两倍。

进一步分析 Token 消耗量与准确率的关系,论文发现,更多的消耗并不能保证更高的准确率。

对于不同任务而言,论文根据平均 Token 消耗量进行分组,并统计每组任务的准确率,结果发现,Token 消耗更多的任务,其准确率往往更低。

对于同一任务的不同运行,将四次运行按 Token 消耗从低到高分为四个等级,并统计每个等级的准确率。结果发现:从所有模型的平均表现来看,最高准确率并非出现在开销最高的时候,而是出现在开销较低时。当开销最低时,任务运行的准确率也最低;当开销稍有提升时,准确率达到峰值;而继续增加开销,当开销达到第二高和最高时,准确率反而下降——更多的资源消耗并未带来更高的任务成功率。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

为了探究高开销失败背后的原因,论文检查并分析了 Agent 解决问题轨迹中的两类行为:阅读文件和修改文件。结果发现,在开销更大的运行轨迹中,重复修改和重复查看同一文件的次数也明显更多。这表明,更多的 Token 消耗实际上伴随着大量来回“折腾”,而非高效的推理、尝试和检查。简而言之,一味地堆砌 Token 并不能显著提升效果。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

哪些模型贵,哪些模型省?不同模型之间的 Token 效率差异极大

以上分析基于所测试的 8 个模型的整体表现。在此基础上,论文对每个模型进行了具体分析,并比较了它们使用 Token 的效率。

文章测试的八个模型包括:OpenAI 的 GPT-5 和 GPT-5.2,Anthropic 的 Claude Sonnet-3.7、Claude Sonnet-4 和 Claude Sonnet-4.5,Google 的 Gemini-3-Pro Preview,Moonshot AI 的 Kimi-K2,以及阿里巴巴的 Qwen3-Coder-480B。这八个模型覆盖了五家不同公司,同时包含闭源 API 模型(GPT、Claude、Gemini 系列)和开源模型(Kimi-K2、Qwen3-Coder-480B)。其中 Claude Sonnet 有三个版本、GPT 有两个版本,这样既包含了跨公司的横向对比,也包含了同一家族内不同代际的纵向对比。

通过观察不同模型的 Token 消耗与任务准确率的关系,发现模型间的差异是系统性的,并非由任务难度不同导致,而是源于模型自身的行为习惯。例如,GPT-5 和 GPT-5.2 能够以较低的 Token 成本达到不错的准确率,而 Kimi-K2 在成本较高的同时,准确率却并不突出。在同样的 500 个任务下,Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗了约 150 万 Token。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

论文进一步选出了两个任务子集:所有模型都成功的任务和所有模型都失败的任务,并再次统计了不同模型的 Token 消耗。结果发现,模型的 Token 消耗排序基本保持不变,并且所有模型在失败任务子集上的 Token 消耗都多于成功子集。不同模型从失败子集到成功子集的 Token 消耗增量也各不相同。

是否有办法对任务的 Token 消耗进行提前预测?

人类专家对任务难度的判断与 Agent 实际 Token 消耗并不完全吻合

在了解了 Agentic Coding 的开销之后,下一个问题是:在执行任务之前,能否根据任务本身来预测其开销?

论文首先分析了人类专家所理解的任务难度,是否可以作为预测 Agent Token 开销的标准。在 SWE-bench-verified 中,每个任务都有人类专家标记的难度等级,根据预期完成时间分为三档:“< 15 min”、“15 min – 1 hr”、“> 1 hr”。如果人类消耗的时间相当于 Agent 消耗的 Token,那么人类估计的任务难度是否与 Agent 的 Token 开销吻合呢?

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

论文将不同任务按 Token 开销排序,并计算它与人类标注难度的相关性。结果显示,Kendall tau = 0.32,表明人类专家对任务难度的判断与 Agent 实际消耗的 Token 之间,只有很弱的相关性。

任务复杂度认知的错位:人类与AI的“难度观”并不相同

有趣的是,6.7% 被归类为“简单”的任务,其实际Token消耗竟然高于所有“困难”任务的平均水平;而11.1% 的“困难”任务,其Token消耗反而低于所有“简单”任务的平均值。这一反常现象清晰地表明,人类程序员与AI Agent对任务“复杂度”的认知,完全处在两个不同的维度上。

让Agent自己“算账”:自我预测Token消耗是否可行?

既然人类对任务难度的判断与Agent的实际开销存在显著偏差,一个自然而然的思路是:是否可以让Agent自己来预测自己的Token消耗?

针对这一设想,论文作者进行了一项自我预测实验。在该实验中,Agent所使用的所有工具及底层架构均保持不变,唯一的改动出现在系统提示词中——将原本的“解决问题”指令替换为“预估开销”。通过这种方式,Agent的功能与特性得到了最大程度的保留,使其能够利用同样的工具对代码库进行多轮探索、测试与推理,从而完成自我预测。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

预测表现:相关性偏低,普遍存在低估

为了衡量预测的准确性,论文将预测开销与实际开销之间的相关性作为评估指标,并同步记录了进行预测本身所消耗的Token。结果显示,模型预测与实际开销之间的最高相关系数仅为0.39(由Claude Sonnet-4.5在输出Token维度上取得),绝大多数模型的相关系数徘徊在0.2至0.3之间。此外,模型对输出Token的预测准确性普遍优于对输入Token的预测。在成本层面,除早期的Claude Sonnet-3.7和Claude 4这两个模型外,大部分模型进行预测所需的开销不到实际任务执行成本的一半。而Claude Sonnet-3.7和Claude 4的预测成本,一度超过了真实任务执行成本的两倍。

进一步的深入分析发现,所有模型无一例外地低估了任务的实际消耗,其中对输入Token的预估偏差尤为严重。

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

结论:事前定价仍遥不可及

综上所述,无论是人类专家还是Agent自身,目前对Token消耗的预测都只能作为一个粗略的信号,距离实现精准的“事前定价”还有相当大的差距。

总结

本文通过对Coding Agent运行轨迹的深入剖析,揭示了以下核心发现:Agent的Token消耗以输入Token为主导,且在不同问题之间,甚至同一问题的不同运行轮次之间,都表现出极高的随机性。不同模型的Token效率差异显著,而更高的Token消耗并不能保证更高的任务正确率。在执行前的成本预测方面,人类对任务难度的理解与Agent的实际Token消耗并不匹配,Agent自身的预估也存在准确率低且普遍低估的问题。未来的潜在研究方向,包括设计更高效的Agent架构,以及开发更优的开销预测与管理方法。


作者介绍:

本文第一作者Longju Bai是密歇根大学的一年级博士生,通讯作者Jiaxin Pei目前是斯坦福大学的博士后研究员,即将入职得克萨斯大学奥斯汀分校担任助理教授。合作者包括来自斯坦福大学的Zhemin Huang和Erik Brynjolfsson,来自All Hands AI的Xingyao Wang,来自Google DeepMind的Jiao Sun,来自密歇根大学的Rada Mihalcea,以及来自斯坦福大学和麻省理工学院的Alex Pentland。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35051

(0)
上一篇 6小时前
下一篇 2025年11月2日 下午12:05

相关推荐

  • AI攻防风暴:2025网络安全漏洞深度解析与自主防御新纪元

    引言 2025年1月,DeepSeek遭遇的大规模境外网络攻击,为这一年定下了激进的基调。这不仅是一次针对AI基础设施的流量冲击,更标志着AI正式从“辅助工具”进化为网络对抗的“风暴中心”。 如果说2022年是生成式AI走近大众的起点,那么2025年则是其全面武器化与防御自主化的引爆点。 在这份年度报告中,我们将深入剖析过去一年重塑全球威胁版图的关键趋势。 …

    2026年2月5日
    1.4K00
  • AI算力争夺战:腾讯600万算法大赛开启,探索推荐系统Scaling Law新纪元

    黄仁勋在 GTC 大会上提出,Token 是 AI 时代的新货币,谁能用每瓦特电力产出更多高价值的 Token,谁就能占据优势。几乎与此同时,奖金池高达 600 万元的腾讯广告算法大赛开启报名,为全球算法人才提供了一个验证这一规则的实战平台。 “Token”、“推理成本”、“智能体”、“工作流程自动化”……这些原本主要在技术圈内流传的术语,近期因人工智能的热…

    2026年3月21日
    1.6K00
  • 世界模型五大门派争霸:杨立昆VS李飞飞,谁将定义AI未来?

    春节后,图灵奖得主杨立昆的新公司 AMI 宣布完成 10.3 亿美元种子轮融资,创下欧洲 AI 公司融资纪录。 此前不久,李飞飞创办的 World Labs 也宣布获得 10 亿美元融资。 本周早些时候,极佳视界获得数十亿元融资,估值超百亿。 昨日,阿里巴巴发布了世界模型「快乐生蚝」(HappyOyster)。 今日,群核科技在港交所敲钟上市。 这些公司共同…

    2026年4月17日
    46200
  • OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    在经历了一段时间的竞争压力后,OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括:* ChatGPT 端:GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。* 开发者端:GPT-5.4 接入 API 与 Codex,并提供极速版本 GPT-5.4 fast。 模型版本号直接跃升至 5.4,体现了这是一次在“推理”与“编程”…

    2026年3月6日
    70000
  • xAI估值飙升背后:大模型竞赛进入资本驱动新阶段

    近日,华尔街日报披露xAI正计划进行新一轮150亿美元(约1067亿人民币)融资,公司估值或将达到2300亿美元(约1.6万亿人民币)。这一数字较今年3月xAI与X合并后的1130亿美元估值翻倍有余,引发业界广泛关注。 从估值增长轨迹来看,xAI的崛起速度堪称惊人。公司于2023年7月由马斯克正式创立,最初定位为公益性机构,宣称要“理解宇宙的真实本质”。20…

    2025年11月20日
    38700