MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

Anthropic 的最新研究揭示了当前 MCP 实现中的一个核心效率瓶颈:AI 代理在开始处理用户请求前,需要预先加载大量工具定义,消耗高达 150,000 个 tokens。而实现相同功能,理论上仅需约 2,000 个 tokens,这意味着有 98.7% 的上下文开销是冗余的。

这一问题在生产环境中尤为突出。当 AI 代理需要连接数十个 MCP 服务器和上百个工具时,每个工具的定义都会被预先塞入模型的上下文窗口,并且所有中间数据都需要流经模型,造成了巨大的资源浪费。

Anthropic 和 Cloudflare 的工程团队不约而同地提出了一个根本性的解决方案:与其让模型直接调用工具,不如让它编写代码来执行任务。

传统 MCP 模式的低效之处

Model Context Protocol 革新了 AI 代理与外部系统的连接方式。自 2024 年 11 月发布以来,社区已构建了成千上万的 MCP 服务器,使代理能够访问从数据库到云服务的各类资源。

然而,其标准实现存在固有的效率问题。以一个典型的任务“分析文档、提取关键词、生成摘要并保存结果”为例,传统流程如下:

步骤 1:加载所有工具定义
模型首先需要将所有相关工具的详细 JSON Schema 描述加载到上下文中。
成本:1,304 tokens (此时模型尚未开始实际工作)

步骤 2:模型调用 read_file 工具
模型生成一个简单的工具调用指令。
成本:30 tokens

步骤 3:完整文档内容返回给模型
工具执行后,整个文档内容(例如一份 2,510 字符的报告)作为结果返回,并再次进入模型上下文。
成本:689 tokens

步骤 4:模型调用 extract_keywords 工具
为了提取关键词,模型需要再次将完整的文档内容作为参数传递给下一个工具。
成本:700 tokens

问题显而易见:同一份文档在模型的上下文中共传递了三次(作为 read_file 的输出、extract_keywords 的输入,以及后续 generate_summary 的输入)。这种重复传输导致了大量不必要的 token 消耗。

传统方法总成本:约 4,412 tokens

MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

传统方法与代码模式的对比

规模化下的成本灾难

Anthropic 在其生产系统中实测,将预加载 token 从 150,000 降至 2,000,实现了 98.7% 的效率提升。在规模化场景下,传统模式的低效会被急剧放大:

  • 会议转录:处理一段 2 小时(约 50,000 tokens)的销售电话录音,数据多次流经模型,可能浪费超过 100,000 tokens。
  • 上下文窗口污染:数百个工具定义在模型处理用户请求前就可能占满大量上下文。
  • 成本乘数效应:每个中间结果都需经过模型计算,叠加推高 API 调用成本。
  • 延迟增加:处理更多 tokens 意味着更慢的响应速度,影响用户体验。

代码执行模式:更高效的范式

Anthropic 和 Cloudflare 的核心洞见在于:大型语言模型更擅长编写代码,而非直接进行工具调用。正如 Cloudflare 团队所言:

“LLM 在训练过程中见过海量的代码样本,这些样本来自数百万个真实世界的开源项目。相比之下,它们见过的‘工具调用’示例很可能仅限于开发者构造的、用于教学目的的小型数据集。”

这就像让一位文学大师在短期学习后使用非母语写作——虽能完成,但绝非最佳状态。

代码模式的工作流程

新方法不再将 MCP 工具暴露为直接的函数调用,而是将其封装为编程语言(如 TypeScript)的 API 接口,然后引导模型编写代码来调用这些 API。

以下是使用代码模式完成同一任务的过程:

步骤 1:加载最小化的 TypeScript API 定义
仅向模型提供简洁的函数接口声明,而非完整的 JSON Schema。
成本:184 tokens (比完整 Schema 减少 85%)

步骤 2:模型生成执行代码
模型编写一段完整的异步函数,其中按顺序调用 readFileextractKeywordsgenerateSummarysaveResults 等 API。关键点:文档数据(doc.content)仅在执行环境内部传递,不会返回给模型。
成本:285 tokens

步骤 3:在安全沙箱中执行代码
生成的代码在一个隔离的执行环境中运行。文档的读取、关键词提取、摘要生成和结果保存全部在此环境中完成,模型完全接触不到原始文档内容。

步骤 4:仅返回执行日志给模型
执行完毕后,仅将简短的日志信息(如“分析完成,提取了 10 个关键词”)返回给模型进行后续处理。
成本:42 tokens

代码执行模式总成本:511 tokens
节省:3,901 tokens(效率提升 88.4%)

性能对比与核心优势

Anthropic 在生产环境中实现了 98.7% 的 token 减少,Cloudflare 也通过其“代码模式”独立验证了该方法的有效性。即使在我们演示的简单任务(分析一份 2,510 字符的报告)中,效率提升也极为显著。

MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

两种方法的 Token 消耗对比图

代码执行模式的核心优势包括:

  1. 渐进式信息披露:模型只需了解当前步骤所需的 API,无需一次性加载所有工具细节。
  2. 高效的上下文数据处理:大型数据留在执行环境中处理,避免在模型上下文中来回传输。
  3. 更优的控制流:代码天然支持循环、条件判断等复杂逻辑,比线性的工具调用链更灵活。
  4. 默认的隐私保护:敏感数据无需发送给模型,降低了数据泄露风险,更易于合规。
  5. 状态持久化与技能复用:编写的代码(工作流)可以保存和复用,形成可积累的“技能”。

实施考量与挑战

当然,采用代码执行模式并非没有成本,需要应对以下挑战:

  • 基础设施:需要构建安全的代码执行沙箱(资源隔离、限制)、完善的监控日志体系以及错误处理与恢复机制。
  • 运维复杂度:需要管理代码的生命周期、调试模型生成的代码、处理执行超时等问题。
  • 成本结构变化:虽然模型调用成本大幅下降,但需考虑执行环境的计算、存储以及监控基础设施带来的新成本。

如何选择两种模式

在以下场景使用传统 MCP 模式:
* 简单的、单一步骤或工具调用的流程。
* 工具之间需要传递的数据量极小。
* 快速原型验证阶段。
* 工具无需复杂链式调用。

在以下场景使用代码执行模式:
* 涉及多个工具链式调用的复杂工作流。
* 处理大型文档、数据集或文件。
* 需要在工具间进行数据过滤、转换或加工。
* 对数据隐私有较高要求,希望数据不离开执行环境。
* 构建需要保存和复用的标准化工作流(“技能”)。
* 生产环境部署,且对成本有严格约束。

对 AI 策略的启示

对于构建生产级 AI 代理,尤其是在考虑财务成本或合规要求的场景下,代码执行不再仅仅是一种优化选项,而是迈向高效、可扩展架构的必由之路。

Anthropic 的生产数据已经指明了方向:
* 98.7% 的 Token 减少 直接转化为近乎同比例的单次操作成本下降。
* 从 150,000 到 2,000 Tokens 意味着上下文窗口效率提升了 75 倍,从而能够处理更庞大的任务。
* 更快的响应速度 带来了更好的用户体验。
* 默认的隐私设计 显著降低了合规复杂度。

即便在相对简单的任务中,如本次演示,88.4% 的 token 节省也意味着近 9 倍的成本效益和相应的速度提升。随着 MCP 生态的持续扩张,“将所有内容加载进上下文”的传统方法将难以为继。让模型编写代码来驱动执行,正成为下一代 AI 代理架构演进的关键路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/13451

(0)
上一篇 2025年11月17日 下午12:01
下一篇 2025年11月17日 下午12:10

相关推荐

  • Neuralink脑机接口新突破:意念操控游戏与打字,下一代设备性能翻三倍

    近日,埃隆·马斯克在社交媒体上转发了一个帖子,展示了Neuralink脑机接口的突破性进展:植入其脑芯片的患者,已经能够仅凭意念直接操控电子游戏,完全无需依赖手柄、鼠标或键盘等传统外设。 对于网友“我们正生活在未来,这太神奇了”的感叹,马斯克简洁地回复了一个“Yup”。 截至目前,Neuralink在全球范围内已有21人参与其名为“Telepathy”(心灵…

    1天前
    2200
  • Nano Banana Pro深度解析:时空重构AI的突破与局限

    近期,Nano Banana Pro凭借其“时空重现”能力引发广泛关注。这款AI模型只需输入坐标和可选时间参数,就能生成对应时空的拟真影像,从技术角度看,这标志着多模态AI在时空理解与生成领域迈出了重要一步。 从技术架构分析,Nano Banana Pro的核心突破在于实现了从“推理”到“创造”的能力跃迁。早期版本已能通过图像反推拍摄坐标,展现出色的地理空间…

    2025年11月26日
    7600
  • Pixeltable:以声明式表格重构多模态AI流水线,告别“胶水代码”时代

    在当今多模态AI应用开发中,工程师们常常陷入一个技术困境:为了构建一个完整的处理流水线,需要将数据库、文件存储系统、向量数据库、各类API服务以及任务编排框架通过大量“胶水代码”强行拼接在一起。这种模式不仅开发效率低下,维护成本高昂,更严重的是,数据在不同组件间的流转往往伴随着格式转换的损耗与一致性的风险。而Pixeltable的出现,正是为了解决这一核心痛…

    2025年11月3日
    8400
  • CES 2026深度观察:中国AI硬件军团霸场,机器人全明星秀引爆科技新风向

    今年CES,除了人山人海,还有什么亮眼黑科技? 智东西拉斯维加斯1月7日报道,全球最具影响力的科技盛会之一、“年度科技风向标”国际消费电子展CES 2026今日正式开幕。智东西逛展小分队深入展馆,带来第一手的展会观察。 ▲CES 2026现场 现场一个突出感受是人流如织,中国公司云集。今年CES共有超过4000家企业参展,其中中国参展商数量接近总数的四分之一…

    2026年1月7日
    59200
  • LabOS:AI协研科学家如何重塑实验室——从计算推理到物理操作的科学革命

    在传统科研范式面临效率瓶颈的当下,一个融合人工智能、扩展现实与机器人技术的智能实验室操作系统LabOS,正悄然开启人类与机器智能协同进化的科学发现新时代。这一由斯坦福大学丛乐教授、普林斯顿大学王梦迪教授团队与英伟达联合研发的系统,首次实现了从假说生成到实验验证的端到端闭环,标志着AI从纯数字世界的“理论家”向具备“眼-脑-手”协同能力的物理实验参与者的历史性…

    2025年11月20日
    16400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注