Anthropic 的最新研究揭示了当前 MCP 实现中的一个核心效率瓶颈:AI 代理在开始处理用户请求前,需要预先加载大量工具定义,消耗高达 150,000 个 tokens。而实现相同功能,理论上仅需约 2,000 个 tokens,这意味着有 98.7% 的上下文开销是冗余的。
这一问题在生产环境中尤为突出。当 AI 代理需要连接数十个 MCP 服务器和上百个工具时,每个工具的定义都会被预先塞入模型的上下文窗口,并且所有中间数据都需要流经模型,造成了巨大的资源浪费。
Anthropic 和 Cloudflare 的工程团队不约而同地提出了一个根本性的解决方案:与其让模型直接调用工具,不如让它编写代码来执行任务。
传统 MCP 模式的低效之处
Model Context Protocol 革新了 AI 代理与外部系统的连接方式。自 2024 年 11 月发布以来,社区已构建了成千上万的 MCP 服务器,使代理能够访问从数据库到云服务的各类资源。
然而,其标准实现存在固有的效率问题。以一个典型的任务“分析文档、提取关键词、生成摘要并保存结果”为例,传统流程如下:
步骤 1:加载所有工具定义
模型首先需要将所有相关工具的详细 JSON Schema 描述加载到上下文中。
成本:1,304 tokens (此时模型尚未开始实际工作)
步骤 2:模型调用 read_file 工具
模型生成一个简单的工具调用指令。
成本:30 tokens
步骤 3:完整文档内容返回给模型
工具执行后,整个文档内容(例如一份 2,510 字符的报告)作为结果返回,并再次进入模型上下文。
成本:689 tokens
步骤 4:模型调用 extract_keywords 工具
为了提取关键词,模型需要再次将完整的文档内容作为参数传递给下一个工具。
成本:700 tokens
问题显而易见:同一份文档在模型的上下文中共传递了三次(作为 read_file 的输出、extract_keywords 的输入,以及后续 generate_summary 的输入)。这种重复传输导致了大量不必要的 token 消耗。
传统方法总成本:约 4,412 tokens

传统方法与代码模式的对比
规模化下的成本灾难
Anthropic 在其生产系统中实测,将预加载 token 从 150,000 降至 2,000,实现了 98.7% 的效率提升。在规模化场景下,传统模式的低效会被急剧放大:
- 会议转录:处理一段 2 小时(约 50,000 tokens)的销售电话录音,数据多次流经模型,可能浪费超过 100,000 tokens。
- 上下文窗口污染:数百个工具定义在模型处理用户请求前就可能占满大量上下文。
- 成本乘数效应:每个中间结果都需经过模型计算,叠加推高 API 调用成本。
- 延迟增加:处理更多 tokens 意味着更慢的响应速度,影响用户体验。
代码执行模式:更高效的范式
Anthropic 和 Cloudflare 的核心洞见在于:大型语言模型更擅长编写代码,而非直接进行工具调用。正如 Cloudflare 团队所言:
“LLM 在训练过程中见过海量的代码样本,这些样本来自数百万个真实世界的开源项目。相比之下,它们见过的‘工具调用’示例很可能仅限于开发者构造的、用于教学目的的小型数据集。”
这就像让一位文学大师在短期学习后使用非母语写作——虽能完成,但绝非最佳状态。
代码模式的工作流程
新方法不再将 MCP 工具暴露为直接的函数调用,而是将其封装为编程语言(如 TypeScript)的 API 接口,然后引导模型编写代码来调用这些 API。
以下是使用代码模式完成同一任务的过程:
步骤 1:加载最小化的 TypeScript API 定义
仅向模型提供简洁的函数接口声明,而非完整的 JSON Schema。
成本:184 tokens (比完整 Schema 减少 85%)
步骤 2:模型生成执行代码
模型编写一段完整的异步函数,其中按顺序调用 readFile、extractKeywords、generateSummary 和 saveResults 等 API。关键点:文档数据(doc.content)仅在执行环境内部传递,不会返回给模型。
成本:285 tokens
步骤 3:在安全沙箱中执行代码
生成的代码在一个隔离的执行环境中运行。文档的读取、关键词提取、摘要生成和结果保存全部在此环境中完成,模型完全接触不到原始文档内容。
步骤 4:仅返回执行日志给模型
执行完毕后,仅将简短的日志信息(如“分析完成,提取了 10 个关键词”)返回给模型进行后续处理。
成本:42 tokens
代码执行模式总成本:511 tokens
节省:3,901 tokens(效率提升 88.4%)
性能对比与核心优势
Anthropic 在生产环境中实现了 98.7% 的 token 减少,Cloudflare 也通过其“代码模式”独立验证了该方法的有效性。即使在我们演示的简单任务(分析一份 2,510 字符的报告)中,效率提升也极为显著。

两种方法的 Token 消耗对比图
代码执行模式的核心优势包括:
- 渐进式信息披露:模型只需了解当前步骤所需的 API,无需一次性加载所有工具细节。
- 高效的上下文数据处理:大型数据留在执行环境中处理,避免在模型上下文中来回传输。
- 更优的控制流:代码天然支持循环、条件判断等复杂逻辑,比线性的工具调用链更灵活。
- 默认的隐私保护:敏感数据无需发送给模型,降低了数据泄露风险,更易于合规。
- 状态持久化与技能复用:编写的代码(工作流)可以保存和复用,形成可积累的“技能”。
实施考量与挑战
当然,采用代码执行模式并非没有成本,需要应对以下挑战:
- 基础设施:需要构建安全的代码执行沙箱(资源隔离、限制)、完善的监控日志体系以及错误处理与恢复机制。
- 运维复杂度:需要管理代码的生命周期、调试模型生成的代码、处理执行超时等问题。
- 成本结构变化:虽然模型调用成本大幅下降,但需考虑执行环境的计算、存储以及监控基础设施带来的新成本。
如何选择两种模式
在以下场景使用传统 MCP 模式:
* 简单的、单一步骤或工具调用的流程。
* 工具之间需要传递的数据量极小。
* 快速原型验证阶段。
* 工具无需复杂链式调用。
在以下场景使用代码执行模式:
* 涉及多个工具链式调用的复杂工作流。
* 处理大型文档、数据集或文件。
* 需要在工具间进行数据过滤、转换或加工。
* 对数据隐私有较高要求,希望数据不离开执行环境。
* 构建需要保存和复用的标准化工作流(“技能”)。
* 生产环境部署,且对成本有严格约束。
对 AI 策略的启示
对于构建生产级 AI 代理,尤其是在考虑财务成本或合规要求的场景下,代码执行不再仅仅是一种优化选项,而是迈向高效、可扩展架构的必由之路。
Anthropic 的生产数据已经指明了方向:
* 98.7% 的 Token 减少 直接转化为近乎同比例的单次操作成本下降。
* 从 150,000 到 2,000 Tokens 意味着上下文窗口效率提升了 75 倍,从而能够处理更庞大的任务。
* 更快的响应速度 带来了更好的用户体验。
* 默认的隐私设计 显著降低了合规复杂度。
即便在相对简单的任务中,如本次演示,88.4% 的 token 节省也意味着近 9 倍的成本效益和相应的速度提升。随着 MCP 生态的持续扩张,“将所有内容加载进上下文”的传统方法将难以为继。让模型编写代码来驱动执行,正成为下一代 AI 代理架构演进的关键路径。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/13451
