MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

Anthropic 的最新研究揭示了当前 MCP 实现中的一个核心效率瓶颈:AI 代理在开始处理用户请求前,需要预先加载大量工具定义,消耗高达 150,000 个 tokens。而实现相同功能,理论上仅需约 2,000 个 tokens,这意味着有 98.7% 的上下文开销是冗余的。

这一问题在生产环境中尤为突出。当 AI 代理需要连接数十个 MCP 服务器和上百个工具时,每个工具的定义都会被预先塞入模型的上下文窗口,并且所有中间数据都需要流经模型,造成了巨大的资源浪费。

Anthropic 和 Cloudflare 的工程团队不约而同地提出了一个根本性的解决方案:与其让模型直接调用工具,不如让它编写代码来执行任务。

传统 MCP 模式的低效之处

Model Context Protocol 革新了 AI 代理与外部系统的连接方式。自 2024 年 11 月发布以来,社区已构建了成千上万的 MCP 服务器,使代理能够访问从数据库到云服务的各类资源。

然而,其标准实现存在固有的效率问题。以一个典型的任务“分析文档、提取关键词、生成摘要并保存结果”为例,传统流程如下:

步骤 1:加载所有工具定义
模型首先需要将所有相关工具的详细 JSON Schema 描述加载到上下文中。
成本:1,304 tokens (此时模型尚未开始实际工作)

步骤 2:模型调用 read_file 工具
模型生成一个简单的工具调用指令。
成本:30 tokens

步骤 3:完整文档内容返回给模型
工具执行后,整个文档内容(例如一份 2,510 字符的报告)作为结果返回,并再次进入模型上下文。
成本:689 tokens

步骤 4:模型调用 extract_keywords 工具
为了提取关键词,模型需要再次将完整的文档内容作为参数传递给下一个工具。
成本:700 tokens

问题显而易见:同一份文档在模型的上下文中共传递了三次(作为 read_file 的输出、extract_keywords 的输入,以及后续 generate_summary 的输入)。这种重复传输导致了大量不必要的 token 消耗。

传统方法总成本:约 4,412 tokens

MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

传统方法与代码模式的对比

规模化下的成本灾难

Anthropic 在其生产系统中实测,将预加载 token 从 150,000 降至 2,000,实现了 98.7% 的效率提升。在规模化场景下,传统模式的低效会被急剧放大:

  • 会议转录:处理一段 2 小时(约 50,000 tokens)的销售电话录音,数据多次流经模型,可能浪费超过 100,000 tokens。
  • 上下文窗口污染:数百个工具定义在模型处理用户请求前就可能占满大量上下文。
  • 成本乘数效应:每个中间结果都需经过模型计算,叠加推高 API 调用成本。
  • 延迟增加:处理更多 tokens 意味着更慢的响应速度,影响用户体验。

代码执行模式:更高效的范式

Anthropic 和 Cloudflare 的核心洞见在于:大型语言模型更擅长编写代码,而非直接进行工具调用。正如 Cloudflare 团队所言:

“LLM 在训练过程中见过海量的代码样本,这些样本来自数百万个真实世界的开源项目。相比之下,它们见过的‘工具调用’示例很可能仅限于开发者构造的、用于教学目的的小型数据集。”

这就像让一位文学大师在短期学习后使用非母语写作——虽能完成,但绝非最佳状态。

代码模式的工作流程

新方法不再将 MCP 工具暴露为直接的函数调用,而是将其封装为编程语言(如 TypeScript)的 API 接口,然后引导模型编写代码来调用这些 API。

以下是使用代码模式完成同一任务的过程:

步骤 1:加载最小化的 TypeScript API 定义
仅向模型提供简洁的函数接口声明,而非完整的 JSON Schema。
成本:184 tokens (比完整 Schema 减少 85%)

步骤 2:模型生成执行代码
模型编写一段完整的异步函数,其中按顺序调用 readFileextractKeywordsgenerateSummarysaveResults 等 API。关键点:文档数据(doc.content)仅在执行环境内部传递,不会返回给模型。
成本:285 tokens

步骤 3:在安全沙箱中执行代码
生成的代码在一个隔离的执行环境中运行。文档的读取、关键词提取、摘要生成和结果保存全部在此环境中完成,模型完全接触不到原始文档内容。

步骤 4:仅返回执行日志给模型
执行完毕后,仅将简短的日志信息(如“分析完成,提取了 10 个关键词”)返回给模型进行后续处理。
成本:42 tokens

代码执行模式总成本:511 tokens
节省:3,901 tokens(效率提升 88.4%)

性能对比与核心优势

Anthropic 在生产环境中实现了 98.7% 的 token 减少,Cloudflare 也通过其“代码模式”独立验证了该方法的有效性。即使在我们演示的简单任务(分析一份 2,510 字符的报告)中,效率提升也极为显著。

MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

两种方法的 Token 消耗对比图

代码执行模式的核心优势包括:

  1. 渐进式信息披露:模型只需了解当前步骤所需的 API,无需一次性加载所有工具细节。
  2. 高效的上下文数据处理:大型数据留在执行环境中处理,避免在模型上下文中来回传输。
  3. 更优的控制流:代码天然支持循环、条件判断等复杂逻辑,比线性的工具调用链更灵活。
  4. 默认的隐私保护:敏感数据无需发送给模型,降低了数据泄露风险,更易于合规。
  5. 状态持久化与技能复用:编写的代码(工作流)可以保存和复用,形成可积累的“技能”。

实施考量与挑战

当然,采用代码执行模式并非没有成本,需要应对以下挑战:

  • 基础设施:需要构建安全的代码执行沙箱(资源隔离、限制)、完善的监控日志体系以及错误处理与恢复机制。
  • 运维复杂度:需要管理代码的生命周期、调试模型生成的代码、处理执行超时等问题。
  • 成本结构变化:虽然模型调用成本大幅下降,但需考虑执行环境的计算、存储以及监控基础设施带来的新成本。

如何选择两种模式

在以下场景使用传统 MCP 模式:
* 简单的、单一步骤或工具调用的流程。
* 工具之间需要传递的数据量极小。
* 快速原型验证阶段。
* 工具无需复杂链式调用。

在以下场景使用代码执行模式:
* 涉及多个工具链式调用的复杂工作流。
* 处理大型文档、数据集或文件。
* 需要在工具间进行数据过滤、转换或加工。
* 对数据隐私有较高要求,希望数据不离开执行环境。
* 构建需要保存和复用的标准化工作流(“技能”)。
* 生产环境部署,且对成本有严格约束。

对 AI 策略的启示

对于构建生产级 AI 代理,尤其是在考虑财务成本或合规要求的场景下,代码执行不再仅仅是一种优化选项,而是迈向高效、可扩展架构的必由之路。

Anthropic 的生产数据已经指明了方向:
* 98.7% 的 Token 减少 直接转化为近乎同比例的单次操作成本下降。
* 从 150,000 到 2,000 Tokens 意味着上下文窗口效率提升了 75 倍,从而能够处理更庞大的任务。
* 更快的响应速度 带来了更好的用户体验。
* 默认的隐私设计 显著降低了合规复杂度。

即便在相对简单的任务中,如本次演示,88.4% 的 token 节省也意味着近 9 倍的成本效益和相应的速度提升。随着 MCP 生态的持续扩张,“将所有内容加载进上下文”的传统方法将难以为继。让模型编写代码来驱动执行,正成为下一代 AI 代理架构演进的关键路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/13451

(0)
上一篇 2025年11月17日 下午12:01
下一篇 2025年11月17日 下午12:10

相关推荐

  • 大模型安全新挑战:多场景脆弱性暴露与高效防御框架解析

    一、关键发现 近期研究揭示,大型语言模型在多种应用场景中均表现出显著的安全脆弱性,而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击,到物理世界导航代理的高风险漏洞,模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制,为企业提供了构建场景化安全防线的可行…

    2026年1月26日
    86500
  • 阿里千问APP深度解析:Qwen模型全面赋能,开启中国版ChatGPT的超级入口之战

    近日,阿里巴巴集团正式推出面向全球用户的ChatBot应用——千问APP,标志着其在C端AI应用市场的战略布局进入实质性阶段。这一举措不仅是对年初3800亿元AI基础设施投入的延续,更被视为阿里在“AI时代的未来之战”中的关键落子。从产品定位、模型能力到用户体验,千问APP展现出对标ChatGPT的雄心,并凭借其背后的Qwen大模型矩阵,试图在中文语境下打造…

    2025年11月17日
    53100
  • 强化学习赋能文本到3D生成:从算法突破到能力边界探索

    在人工智能生成内容领域,文本到3D生成技术正成为继大语言模型和文生图之后的下一个前沿阵地。这一技术旨在将自然语言描述转化为具有复杂几何结构、纹理细节和物理合理性的三维模型,其应用潜力覆盖数字孪生、游戏开发、工业设计、虚拟现实等多个关键领域。然而,与相对成熟的文本到2D图像生成相比,文本到3D生成面临着更为严峻的技术挑战:三维数据本身具有更高的维度复杂性、更强…

    2025年12月19日
    43200
  • Nature认证的AI论文综述神器OpenScholar:终结假引用,引文准确度比肩人类专家

    AI论文综述工具OpenScholar:终结假引用,引文准确度比肩人类专家 AI辅助论文写作已不新鲜,但长期困扰学术界的假引用问题始终存在。使用大模型生成的文献综述看似规范,但核查参考文献时,常会发现论文、期刊甚至作者均为捏造。 如今,这一问题有望得到解决。《自然》杂志新发表的一篇研究显示,艾伦人工智能研究所(AI2)与华盛顿大学联合开源了一个名为OpenS…

    2026年2月7日
    64700
  • 英伟达Rubin架构深度解析:六芯片协同设计如何重塑AI算力基础设施与供应链格局

    Rubin架构开启AI新纪元:CES 2026的算力革命 2026年1月,拉斯维加斯国际消费电子展(CES 2026)如期而至。作为全球科技产业的“风向标”,本次展会聚焦AI、机器人、智能驾驶等前沿领域,而英伟达CEO黄仁勋长达90分钟的主题演讲,无疑成为整场展会的焦点。 演讲中,黄仁勋正式宣布新一代AI超级计算平台——Vera Rubin(以下简称“Rub…

    AI产业动态 2026年1月20日
    98500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注