深夜,Anthropic官宣重磅更新:Claude「顾问策略」(Advisor Strategy)上线。

这一架构的核心逻辑是——

让智商最高的Opus 4.6退居幕后当「顾问」;

让性价比极高的Sonnet 4.6或Haiku 4.5冲在前面当「执行者」。

简单来说,Opus做「大脑」,Sonnet/Haiku做「手脚」。

在全新的工作流中,核心是由Sonnet/Haiku,全权负责跑通整个流程。

当遇到真正棘手的难题、无法做出合理决策时,才会通过API调用Opus「顾问」来指点迷津。

随后,Opus会迅速审阅上下文,给出一个锦囊妙计、修正方案,然后由执行者继续完成剩下的「苦差事」。

这一策略的提出,真正反转了传统的「大模型拆解任务、小模型搬砖」模式。

结果,实测数据极其震撼。

在SWE-bench编程测试中,「Sonnet 4.6+Opus 4.6」得分提升2.7个百分点,而成本暴降11.9%!

更离谱的是,「Haiku4.5+Opus 4.6」性能直接翻倍,成本($1.07)只有Sonnet($7)的一小部分。

用网友的话来说,「享受Opus的性能,却无需支付Opus的钱」。

|
—|—

还有人全网奔走相告,Claude「龙虾」超进化了,一个更好的OpenClaw版本诞生。

|
—|—

可以说,这不只是一次API更新,更是一场彻底的效率革命。

Claude有了「顾问」最强Opus 4.6幕后指路

一直以来,开发者在构建AI Agent的过程中,往往面临一个两难选择:

  • 用顶级模型虽聪明,但价格昂贵;
  • 用轻量模型虽便宜,但处理复杂任务时容易「掉链子」。

传统模式的做法是,让性能最强的LLM坐镇中央当「编排者」,把大任务拆解成若干子任务,再分发给更小、更快的模型去执行。

这就好比一个项目经理(大模型)在开会,给底下的组员(小模型)分发不同的工单。

它的局限在于,无论任务简单还是复杂,顶级模型都必须首先介入拆解。每一条请求的开头,都要烧掉最贵的Token。

Anthropic这次玩了个「反直觉」的战术,彻底反转了「大管小」的逻辑。

「顾问策略」采用了一种更加灵活的向上追溯机制:

  • 执行者: 由Sonnet 4.6或Haiku 4.5担任,负责端到端的任务执行、调用工具、读取结果并持续迭代;
  • 顾问: 由顶级模型Opus 4.6担任,潜伏在幕后,并不直接与人对话,也不调用工具。

只有当「执行者」遇到无法独立决策的难题时,它才会主动向「顾问」请教。

Opus会读取共享的上下文,给出计划、纠正方案或停止信号,随后「执行者」再带着这些「应急妙策」继续工作。

这种策略,将前沿级的推理能力精准地用在了「刀刃」上。

在SWE-bench测试中,「Sonnet+Opus顾问」提升了2.7个百分点,还将单次Agent任务的成本压缩了11.9%。

在智能体基准测试中:

  • 智能体搜索任务(BrowseComp),性能涨2.3%,成本6.13美元。
  • 终端编码任务(Terminal-Bench 2.0),性能涨3.8%,成本0.88美元。

对于预算更敏感的场景,「Haiku 4.5+Opus 4.6顾问」的组合表现更是令人惊艳。

在BrowseComp测试中,其得分从19.7%飙升至41.2%,性能翻倍。

虽然这比Sonnet单独运行的得分低29%,但其成本却降低了85%,是处理高并发任务的极佳方案。

在Terminal-Bench 2.0中,性能暴涨13.3%,成本也降低了0.2美元。

对于那些既需要一定智能水平、又需要控制成本的大规模批量任务来说,Haiku绝对是个绝佳的选择。

官博中,Anthropic说的非常直白——

这能让AI Agent拥有接Opus级别的智能,同时让token开销保持在接近Sonnet的水平。

不得不说,简直太香了!

一行代码,即可调用

那么,究竟如何上手?

目前,Claude平台上已上线了「测试版」。

只需在API调用中改写「一行代码」,便能用上「顾问策略」,具体来说:

在Messages API请求中声明advisor_20260301,模型的交接就会在单次/v1/messages请求的内部静默完成——不需要额外去回传数据或管理上下文。

「执行者」模型会自己决定什么时候摇人。

当它发起调用时,会把整理好的上下文路由给「顾问」模型,拿到计划后返回,「执行者」接着干活,所有操作都在同一个请求里一气呵成。

    response = client.messages.create(    model=”claude-sonnet-4-6″,  # 执行者    tools=[        {            “type”: “advisor_20260301”,            “name”: “advisor”,            “model”: “claude-opus-4-6”,            “max_uses”: 3,        },        # … 你的其他工具    ],    messages=[…])# 顾问消耗的Token会在用量(usage)中单独列出。

那么,token消耗的这笔账如何算?

「顾问」消耗的Token按Opus定价,执行者消耗的Token按Sonnet或Haiku定价。

关键在于,顾问每次出手只生成一份简短的计划,通常在400到700个Token左右。

而真正的大头输出,全部由执行者以更低的费率包揽。

整体算下来,成本远低于从头到尾只用Opus。

担心顾问被「薅」太多次?Anthropic也想到了。

开发者可以通过设置max_uses,限制单次请求中顾问的最大调用次数。

同时,顾问的Token消耗会在用量信息中单独列出,方便追踪每一层模型的开销。

而且,advisor工具跟你现有的工具栈完全兼容。

它就是Messages API请求里的一个普通条目,没有任何特殊架构要求。

你的Agent可以在同一个循环里,一边搜索网页、执行代码,一边向Opus请教。

该搬砖搬砖,该问策问策,互不干扰。

一些用上「顾问策略」的大客户全都被瞬间惊艳了,EVE机器学习工程师直言——

用上Haiku 4.5+Opus 4.6,成本降低了1/5,还用上了接近Opus级别的智能。

Agent不用一直转了后台脚本守着就行

同在今天,Anthropic为Claude带来了名为——Monitor的重量级工具更新。

这一功能,直接让Claude创建并运行「后台脚本」。

过去,让 Agent 监控特定任务(例如等待 CI 运行完成或 PR 审批通过)时,它必须不断进行循环查询,每次询问都会消耗一轮 Token。

Monitor 功能则允许 Claude 自行编写一段后台监控代码。当程序报错时,唤醒 Agent;当代码合规检查通过时,也唤醒 Agent。

这实现了从 “主动轮询”“事件驱动” 的转变。

借助 Monitor,Claude 能够实现以下两件事:
* 持续监控系统日志中的错误,仅在发现问题时才调用 Agent 进行处理。
* 自动追踪 GitHub 上的 PR 状态,脚本在后台执行轮询,而 Agent 本身不消耗 Token。

在实际使用时,需要在提示词中明确提出要求,正如 Anthropic 研究员给出的示例所示。

Monitor 与 Advisor Strategy 的逻辑一脉相承,其核心都是在 Agent 运行流程中,识别出 “无需消耗计算资源(烧钱)的环节”,并将其剥离出去。

Advisor Strategy 旨在节省模型调用的成本,而 Monitor 则旨在节省空转循环的成本。

但顾问策略和 Monitor 并非孤立的两项技术。结合此前刚刚发布的 Managed Agents(由 Anthropic 全面负责 Agent 的运维和基础设施,每小时 0.08 美元)来看,方向已然清晰。

Anthropic 不再仅仅是一家提供模型 API 的公司。它正在构建一整套 Agent 运行时平台,从模型调度、任务执行到云端托管,实现全栈覆盖。

你不再需要自己维护 Agent 了

Advisor Strategy 和 Monitor 优化的是 Agent 的 “运行方式”,而 Managed Agents 解决的是更根本的问题:由谁来管理基础设施

每小时 0.08 美元的费用,涵盖了沙箱隔离、断线自动恢复、会话可持续运行数小时等,全部由 Anthropic 负责。

Managed Agents 负责运行环境,MCP Connectors 则负责工具接入。

Anthropic 的 Connectors Directory 覆盖了 Asana、Notion、Sentry 等众多工具,支持标准 OAuth 一键接入。

另一方面,Anthropic 于 4 月 4 日封堵了 OpenClaw 通过 Claude 订阅额度调用 API 的通道,用户要么更换后端,要么转为按量付费,导致成本翻倍。

推广自家生态,切断竞品供给,这是一套组合拳。正如 HN 上有人总结的:“核心并非封杀谁,而是让开发者习惯在 Anthropic 的平台上运行 Agent。”

从销售模型到销售运行时

Advisor Strategy 负责调度,Monitor 负责效率,Managed Agents 负责基础设施,MCP Connectors 负责生态。四层叠加,构成了一个完整的 Agent 平台。

Anthropic 销售的并非聊天机器人,而是 “你只需提出需求,剩下的交给我” 的解决方案。

其野心可能不止于软件。据路透社本周报道,Anthropic 正在探索自研 AI 芯片,目前仍处于早期阶段。

支撑这一野心的数字是其年化营收已突破 300 亿美元(去年底为 90 亿)。在企业级 AI 收入方面,其与 OpenAI 的份额已追至 50:50。

这盘棋能否最终获胜,取决于开发者是否愿意将 Agent 逻辑托管给 Anthropic 的平台。

Sentry、Notion、Rakuten 等公司已经投下了信任票。

彩蛋

Claude 的模型规模究竟有多大?这是 AI 圈最想解开的黑盒之一。

马斯克在对比自家 Grok 4.2 与 Claude 时,不经意间透露了一个数字:
* Claude Sonnet 的参数规模约为 1 万亿(1T)。
* Claude Opus 的参数规模高达 5 万亿(5T)。

据此,有业内人士猜测,Claude Mythos 的体量至少是 10 万亿(10T)甚至更大级别。

|

参考资料:
* https://x.com/claudeai/status/2042308622181339453?s=20
* https://x.com/noahzweben/status/2042332268450963774?s=20


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29597

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐

  • 模型融合新范式:SoCE方法如何通过类别专家加权实现大语言模型性能突破

    在大语言模型(LLM)快速发展的今天,模型训练对算力和时间的依赖已成为制约技术迭代的关键瓶颈。传统的训练方法需要庞大的计算资源和精细的流程设计,而模型融合(Model Souping)作为一种轻量化的替代方案,通过权重平均融合多个同架构模型,在降低成本的同时实现能力互补。然而,传统的均匀平均方法往往忽视了不同任务类别间的性能差异,导致融合效果受限。近期,Me…

    2025年11月21日
    26300
  • AI生成低质量视频泛滥YouTube:算法推荐超20%为AI内容,产业化趋势引关注

    你的视频推荐流,正在被AI“吞噬” 一项最新调查发现,YouTube算法向新用户展示的视频中,有超过20%的内容是AI制造的低质量视频。这意味着,我们平时刷到的每5条视频中,可能就有1条是AI快速生成的产物。 不仅如此,这类内容贫乏的AI视频正逐渐走向产业化,甚至演变成一门规模不断扩大的“生意”。 AI低质量视频开始“量产” 这一结论来自美国创意软件公司Ka…

    2026年1月2日
    49400
  • OpenAI收购科技脱口秀TBPN:加速AI全球交流,硅谷决策层最爱播客

    OpenAI收购科技播客TBPN,旨在构建AI讨论新平台 刚刚,OpenAI宣布收购科技播客TBPN,目标是加速全球围绕人工智能的交流与讨论。 TBPN由Jordi Hays和John Coogan主持,节目形式为每日三小时的长播客对话,以节奏快、风格独特著称。尽管其在社交平台上的粉丝量(推特约32.1万,YouTube约5.91万)并非顶尖,但其主要受众被…

    2026年4月3日
    11800
  • 遥感模型微调技术演进:从全参数到混合范式的全景解析

    近年来,在大数据与大模型的共同驱动下,遥感图像解译领域正经历着深刻的范式转变。传统上,研究重点多集中于模型结构本身的创新设计,然而随着计算资源的普及和预训练技术的成熟,业界逐渐转向「基础模型 + 微调」这一更具效率和应用潜力的新范式。这一转变的核心在于,通过利用在大规模通用数据上预训练的模型作为强大的特征提取器,再针对特定下游任务进行精细化调整,能够在显著降…

    2025年11月2日
    24000
  • FlashMoBA:突破稀疏注意力瓶颈,MoBA机制在长上下文处理中的硬件优化革命

    在人工智能领域,处理长上下文序列一直是大型语言模型面临的核心挑战之一。传统的密集注意力机制虽然功能强大,但其计算复杂度随序列长度呈二次方增长,这严重限制了模型处理长文本、代码或多轮对话的能力。今年2月,月之暗面提出的MoBA(Mixture of Block Attention)机制为这一难题提供了创新解决方案。MoBA将混合专家(MoE)原理引入注意力机制…

    2025年11月18日
    25400