MCP 被彻底玩明白了：Anthropic 用对方法让智能体成本直降近百倍！

Anthropic 的最新研究揭示了当前 MCP 实现中的一个核心效率瓶颈：AI 代理在开始处理用户请求前，需要预先加载大量工具定义，消耗高达 150,000 个 tokens。而实现相同功能，理论上仅需约 2,000 个 tokens，这意味着有 98.7% 的上下文开销是冗余的。

这一问题在生产环境中尤为突出。当 AI 代理需要连接数十个 MCP 服务器和上百个工具时，每个工具的定义都会被预先塞入模型的上下文窗口，并且所有中间数据都需要流经模型，造成了巨大的资源浪费。

Anthropic 和 Cloudflare 的工程团队不约而同地提出了一个根本性的解决方案：与其让模型直接调用工具，不如让它编写代码来执行任务。

传统 MCP 模式的低效之处

Model Context Protocol 革新了 AI 代理与外部系统的连接方式。自 2024 年 11 月发布以来，社区已构建了成千上万的 MCP 服务器，使代理能够访问从数据库到云服务的各类资源。

然而，其标准实现存在固有的效率问题。以一个典型的任务“分析文档、提取关键词、生成摘要并保存结果”为例，传统流程如下：

步骤 1：加载所有工具定义
模型首先需要将所有相关工具的详细 JSON Schema 描述加载到上下文中。
成本：1,304 tokens （此时模型尚未开始实际工作）

步骤 2：模型调用 read_file 工具
模型生成一个简单的工具调用指令。
成本：30 tokens

步骤 3：完整文档内容返回给模型
工具执行后，整个文档内容（例如一份 2,510 字符的报告）作为结果返回，并再次进入模型上下文。
成本：689 tokens

步骤 4：模型调用 extract_keywords 工具
为了提取关键词，模型需要再次将完整的文档内容作为参数传递给下一个工具。
成本：700 tokens

问题显而易见：同一份文档在模型的上下文中共传递了三次（作为 read_file 的输出、extract_keywords 的输入，以及后续 generate_summary 的输入）。这种重复传输导致了大量不必要的 token 消耗。

传统方法总成本：约 4,412 tokens

传统方法与代码模式的对比

规模化下的成本灾难

Anthropic 在其生产系统中实测，将预加载 token 从 150,000 降至 2,000，实现了 98.7% 的效率提升。在规模化场景下，传统模式的低效会被急剧放大：

会议转录：处理一段 2 小时（约 50,000 tokens）的销售电话录音，数据多次流经模型，可能浪费超过 100,000 tokens。
上下文窗口污染：数百个工具定义在模型处理用户请求前就可能占满大量上下文。
成本乘数效应：每个中间结果都需经过模型计算，叠加推高 API 调用成本。
延迟增加：处理更多 tokens 意味着更慢的响应速度，影响用户体验。

代码执行模式：更高效的范式

Anthropic 和 Cloudflare 的核心洞见在于：大型语言模型更擅长编写代码，而非直接进行工具调用。正如 Cloudflare 团队所言：

“LLM 在训练过程中见过海量的代码样本，这些样本来自数百万个真实世界的开源项目。相比之下，它们见过的‘工具调用’示例很可能仅限于开发者构造的、用于教学目的的小型数据集。”

这就像让一位文学大师在短期学习后使用非母语写作——虽能完成，但绝非最佳状态。

代码模式的工作流程

新方法不再将 MCP 工具暴露为直接的函数调用，而是将其封装为编程语言（如 TypeScript）的 API 接口，然后引导模型编写代码来调用这些 API。

以下是使用代码模式完成同一任务的过程：

步骤 1：加载最小化的 TypeScript API 定义
仅向模型提供简洁的函数接口声明，而非完整的 JSON Schema。
成本：184 tokens （比完整 Schema 减少 85%）

步骤 2：模型生成执行代码
模型编写一段完整的异步函数，其中按顺序调用 readFile、extractKeywords、generateSummary 和 saveResults 等 API。关键点：文档数据（doc.content）仅在执行环境内部传递，不会返回给模型。
成本：285 tokens

步骤 3：在安全沙箱中执行代码
生成的代码在一个隔离的执行环境中运行。文档的读取、关键词提取、摘要生成和结果保存全部在此环境中完成，模型完全接触不到原始文档内容。

步骤 4：仅返回执行日志给模型
执行完毕后，仅将简短的日志信息（如“分析完成，提取了 10 个关键词”）返回给模型进行后续处理。
成本：42 tokens

代码执行模式总成本：511 tokens
节省：3,901 tokens（效率提升 88.4%）

性能对比与核心优势

Anthropic 在生产环境中实现了 98.7% 的 token 减少，Cloudflare 也通过其“代码模式”独立验证了该方法的有效性。即使在我们演示的简单任务（分析一份 2,510 字符的报告）中，效率提升也极为显著。

两种方法的 Token 消耗对比图

代码执行模式的核心优势包括：

渐进式信息披露：模型只需了解当前步骤所需的 API，无需一次性加载所有工具细节。
高效的上下文数据处理：大型数据留在执行环境中处理，避免在模型上下文中来回传输。
更优的控制流：代码天然支持循环、条件判断等复杂逻辑，比线性的工具调用链更灵活。
默认的隐私保护：敏感数据无需发送给模型，降低了数据泄露风险，更易于合规。
状态持久化与技能复用：编写的代码（工作流）可以保存和复用，形成可积累的“技能”。

实施考量与挑战

当然，采用代码执行模式并非没有成本，需要应对以下挑战：

基础设施：需要构建安全的代码执行沙箱（资源隔离、限制）、完善的监控日志体系以及错误处理与恢复机制。
运维复杂度：需要管理代码的生命周期、调试模型生成的代码、处理执行超时等问题。
成本结构变化：虽然模型调用成本大幅下降，但需考虑执行环境的计算、存储以及监控基础设施带来的新成本。

如何选择两种模式

在以下场景使用传统 MCP 模式：
* 简单的、单一步骤或工具调用的流程。
* 工具之间需要传递的数据量极小。
* 快速原型验证阶段。
* 工具无需复杂链式调用。

在以下场景使用代码执行模式：
* 涉及多个工具链式调用的复杂工作流。
* 处理大型文档、数据集或文件。
* 需要在工具间进行数据过滤、转换或加工。
* 对数据隐私有较高要求，希望数据不离开执行环境。
* 构建需要保存和复用的标准化工作流（“技能”）。
* 生产环境部署，且对成本有严格约束。

对 AI 策略的启示

对于构建生产级 AI 代理，尤其是在考虑财务成本或合规要求的场景下，代码执行不再仅仅是一种优化选项，而是迈向高效、可扩展架构的必由之路。

Anthropic 的生产数据已经指明了方向：
* 98.7% 的 Token 减少 直接转化为近乎同比例的单次操作成本下降。
* 从 150,000 到 2,000 Tokens 意味着上下文窗口效率提升了 75 倍，从而能够处理更庞大的任务。
* 更快的响应速度 带来了更好的用户体验。
* 默认的隐私设计 显著降低了合规复杂度。

即便在相对简单的任务中，如本次演示，88.4% 的 token 节省也意味着近 9 倍的成本效益和相应的速度提升。随着 MCP 生态的持续扩张，“将所有内容加载进上下文”的传统方法将难以为继。让模型编写代码来驱动执行，正成为下一代 AI 代理架构演进的关键路径。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/13451

MCP 被彻底玩明白了：Anthropic 用对方法让智能体成本直降近百倍！

传统 MCP 模式的低效之处

规模化下的成本灾难

代码执行模式：更高效的范式

代码模式的工作流程

性能对比与核心优势

实施考量与挑战

如何选择两种模式

对 AI 策略的启示

相关推荐

大模型安全新挑战：多场景脆弱性暴露与高效防御框架解析

阿里千问APP深度解析：Qwen模型全面赋能，开启中国版ChatGPT的超级入口之战

强化学习赋能文本到3D生成：从算法突破到能力边界探索

Nature认证的AI论文综述神器OpenScholar：终结假引用，引文准确度比肩人类专家

英伟达Rubin架构深度解析：六芯片协同设计如何重塑AI算力基础设施与供应链格局

发表回复