Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

过去24小时内,AI领域接连发生信息泄露事件。继Anthropic的命令行工具Claude Code源码意外流出后,其疑似下一代旗舰模型Mythos基准测试数据也遭到曝光。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

据泄露信息显示,Mythos被定位为独立于现有Claude系列的高端产品线。其基准测试成绩对比当前版本Opus 4.6,在多项关键指标上均有显著提升:

  • Terminal-Bench 2.0: 78.4%(提升13.0%)
  • SWE-bench Verified: 87.4%(提升6.6%)
  • OSWorld: 79.6%(提升6.9%)
  • BrowseComp: 92.3%(提升8.3%)
  • MCP Atlas: 75.7%(提升16.2%)
  • Finance Agent: 82.1%(提升21.4%)
  • GDPVal-AA-Elo: 2668(提升1062)
  • Humanity‘s Last Exam: 52.3%(无工具,提升12.3%),71.5%(有工具,提升18.5%)

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

其中,在智能体编码任务上的表现尤为突出。针对泄露数据的真实性,有分析者使用AI内容检测工具进行了初步验证。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

同时,网络上出现了无水印版本的基准测试截图。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

如果泄露数据属实,Mythos的性能将实现一次重大跃迁。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

卡皮巴拉”模型细节浮出水面

在Claude Code的泄露源码中,发现了关于代号为 capybara-v2-fast 的新模型线索。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

该模型支持1M上下文长度,表明超长上下文已成为新一代模型的标配。按照惯例,“fast”版本之后可能还会推出能力更强的旗舰版本。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

技术细节:针对工具调用的提示工程优化

开发者从代码中发现,Anthropic针对生产环境中模型可能出现的故障,进行了精细的提示工程调整。例如,当工具调用返回的结果格式与“轮次边界”过于相似时,模型可能误判对话结束,导致提前停止生成。

为解决此问题,Anthropic并未选择重新训练模型,而是通过一系列“提示词手术”进行修复,包括:
* 引入明确的边界标记(如Tool loaded.)。
* 重新定位存在风险的“同级模块”。
* 将关键提示信息压缩并嵌入工具结果中。
* 为空工具输出强制添加非空标记,防止模型误解。

灰度发布与安全控制

此外,代码中显示Anthropic内部有一套名为 tengu_* 的灰度开关系统。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

这意味着所有针对Capybara的优化都通过A/B测试逐步上线,并配备了“自杀开关”,可在出现异常时快速回滚。新功能通常会先面向内部员工(ant/internal用户)开放,验证通过后再向外部用户发布。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

代码中的反抓取措施

分析泄露代码的开发者还发现,Anthropic在代码中内置了防止数据被爬取用于模型蒸馏的机制。

第一项措施是“流式投毒”,即在输出流中随机注入虚假的工具调用指令,污染可能被爬取的数据集。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

第二项措施是“信息模糊化”,即将工具调用的详细逻辑步骤在输出端简化为摘要,增加对手复现其Agent执行逻辑的难度。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

这些发现显示了Anthropic在追求模型性能的同时,对工程细节和系统鲁棒性的高度重视。从代码成熟度判断,Capybara系列模型可能已接近发布阶段。

Anthropic的回应

面对此次大规模的源码泄露,Anthropic的反应相对低调,仅通过向GitHub发送DMCA删除通知来处理。官方解释称此次事件是人为错误导致的打包问题。项目负责人也将其归因于开发者的失误。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

有行业观察者分析,Anthropic之所以保持淡定,或许是因为其真正的护城河并非框架代码本身。复盘显示,Claude Code的框架设计在开源社区中已有类似或更优的替代方案。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

其核心竞争力可能在于架构工程能力,例如提示词的精细堆叠、工具链的无缝集成以及模型的容错与自我纠正机制,这些复杂的工程细节难以通过简单的代码复现获得。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

源码可以被复制,但对复杂系统的深度掌控力,却无法通过简单的 git clone 命令获得。

Cursor 编辑器的成功已经证明,即使基于他人的模型,只要能在产品体验与架构深度上做到极致,依然可以打造出让开发者难以割舍的“杀手级应用”。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

因此,此次 Claude Code(CC)的源码泄露,实质上是将一个原本私有的“工业级工具箱”抛向了开放领域,从而降低了所有人构建成熟编码智能体的门槛。

未来的竞争将聚焦于:谁能在这个开源基石之上,构筑出最贴合用户需求的产品大厦。三个月后,谁又能成长为新的巨头?

多事之秋:Anthropic 的“人设”面临挑战?

Anthropic 长期以来塑造的形象是:一家行事审慎、以造福人类为宗旨的 AI 公司。

它持续发布关于 AI 风险的详细研究报告,并聘用了该领域众多顶尖研究人员。公司也一直在公开探讨开发强大 AI 技术时应承担的责任。

正因如此,当此前与美国国防部产生分歧时,Anthropic 几乎获得了全网范围的声援。

然而,据上周四外媒报道,Anthropic 已承认正在测试一款代表能力“跨越式演进”的新 AI 模型。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

Anthropic 意外公开了近 3000 份内部文件,其中包含一篇描述该模型的博客草稿。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

随后,Anthropic 确认了此事:
新模型代号“Capybara”,在软件工程、学术推理及网络安全等多个维度上均实现了显著性能提升;
目前已向一小批专注于网络安全测试与防御准备的早期用户开放访问权限。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

值得注意的是,Anthropic 并未阻止文件的持续泄露。

接连的泄露事件或许不会立即削弱 Anthropic 的模型实力,但已开始动摇其另一项宝贵的无形资产:外界对其内部治理、工程纪律以及“安全优先”叙事的信任。

当一家以谨慎著称的公司反复因泄露事件成为焦点,其所面临的考验便不再仅是产品发布节奏,更是其自身最为珍视的“人设”。

参考资料
– https://x.com/synthwavedd/status/2039102384241049956
– https://x.com/forloopcodes/status/2038942169311195432
– https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28324

(0)
上一篇 2026年4月2日 上午11:02
下一篇 2026年4月2日 上午11:20

相关推荐

  • 菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

    菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机? 如果AI的数学水平继续按目前速度发展,我们(数学研究者)很快会面临一场危机。 数学最高荣誉——菲尔兹奖得主 Timothy Gowers,在亲身体验了最新版ChatGPT 5.5 Pro后,向学生们发出了紧急警告。 对博士生的影响,尤为紧迫。 事情是这样的。这位剑桥大…

    2026年5月11日
    18300
  • 狂揽48亿美元,估值350亿!Cerebras凭OpenAI订单逆袭IPO,英伟达慌了?

    华尔街被一则消息引爆。 Cerebras(股票代码:CBRS),这家直接叫板英伟达的AI芯片公司,以其不切割晶圆、直接将整块300毫米硅片打造成一颗芯片的独特技术路线,引发了资本市场的疯狂。 其IPO发行价从最初每股115-125美元,一路飙升至150-160美元。市场超额认购倍数已达到20倍。 按最新发行价区间的上限计算,公司估值直逼350亿美元,融资规模…

    2026年5月11日
    43800
  • Grok 4.3深度评测:性能逼近GPT-5.5,价格却低60%,xAI的务实反击

    Grok 4.3 是 xAI 一次务实的升级:它变得更便宜、更快,也更像一个能真正干活的助手。然而,在硬推理、稳定性和可信度方面,它仍落后于 GPT-5.5 与 Claude Opus 4.7。 xAI 发布了 Grok 4.3,但没有大张旗鼓地宣传。马斯克甚至没有为此单独发推,它看起来更像是一个过渡版本。 这更像是一次安静的“产品换挡”:将模型接入 API…

    2026年5月2日
    54000
  • 从抓取到通用智能:Google DeepMind前研究员揭秘人形机器人三大时代

    你可能已经对人形机器人的各种演示感到审美疲劳了。但Ted Xiao却认为,即使是最简陋的demo,如果放在两年前,也足以让整个领域的研究人员震惊不已——因为当时几乎没人相信这件事真的能实现。 Ted Xiao曾在Google DeepMind担任Staff Research Scientist及技术负责人,长达8年之久。他参与了RT-1、RT-2、SayCa…

    2026年5月10日
    22600
  • OpenAI股票滞销 vs Anthropic排队抢购:AI巨头IPO冰火两重天背后的估值博弈

    OpenAI与Anthropic的IPO之路:估值博弈下的市场反差 同样在筹划IPO,OpenAI与Anthropic的市场境遇却截然不同。 一方面,OpenAI价值约6亿美元的股票在二级市场面临滞销,即使价格较其8520亿美元的官方估值折价约10%,依然需求疲软。另一方面,Anthropic的股权则备受追捧,投资者持有超过20亿美元资金等待入场。这一反差揭…

    2026年4月3日
    32000