Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

过去24小时内,AI领域接连发生信息泄露事件。继Anthropic的命令行工具Claude Code源码意外流出后,其疑似下一代旗舰模型Mythos基准测试数据也遭到曝光。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

据泄露信息显示,Mythos被定位为独立于现有Claude系列的高端产品线。其基准测试成绩对比当前版本Opus 4.6,在多项关键指标上均有显著提升:

  • Terminal-Bench 2.0: 78.4%(提升13.0%)
  • SWE-bench Verified: 87.4%(提升6.6%)
  • OSWorld: 79.6%(提升6.9%)
  • BrowseComp: 92.3%(提升8.3%)
  • MCP Atlas: 75.7%(提升16.2%)
  • Finance Agent: 82.1%(提升21.4%)
  • GDPVal-AA-Elo: 2668(提升1062)
  • Humanity‘s Last Exam: 52.3%(无工具,提升12.3%),71.5%(有工具,提升18.5%)

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

其中,在智能体编码任务上的表现尤为突出。针对泄露数据的真实性,有分析者使用AI内容检测工具进行了初步验证。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

同时,网络上出现了无水印版本的基准测试截图。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

如果泄露数据属实,Mythos的性能将实现一次重大跃迁。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

卡皮巴拉”模型细节浮出水面

在Claude Code的泄露源码中,发现了关于代号为 capybara-v2-fast 的新模型线索。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

该模型支持1M上下文长度,表明超长上下文已成为新一代模型的标配。按照惯例,“fast”版本之后可能还会推出能力更强的旗舰版本。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

技术细节:针对工具调用的提示工程优化

开发者从代码中发现,Anthropic针对生产环境中模型可能出现的故障,进行了精细的提示工程调整。例如,当工具调用返回的结果格式与“轮次边界”过于相似时,模型可能误判对话结束,导致提前停止生成。

为解决此问题,Anthropic并未选择重新训练模型,而是通过一系列“提示词手术”进行修复,包括:
* 引入明确的边界标记(如Tool loaded.)。
* 重新定位存在风险的“同级模块”。
* 将关键提示信息压缩并嵌入工具结果中。
* 为空工具输出强制添加非空标记,防止模型误解。

灰度发布与安全控制

此外,代码中显示Anthropic内部有一套名为 tengu_* 的灰度开关系统。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

这意味着所有针对Capybara的优化都通过A/B测试逐步上线,并配备了“自杀开关”,可在出现异常时快速回滚。新功能通常会先面向内部员工(ant/internal用户)开放,验证通过后再向外部用户发布。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

代码中的反抓取措施

分析泄露代码的开发者还发现,Anthropic在代码中内置了防止数据被爬取用于模型蒸馏的机制。

第一项措施是“流式投毒”,即在输出流中随机注入虚假的工具调用指令,污染可能被爬取的数据集。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

第二项措施是“信息模糊化”,即将工具调用的详细逻辑步骤在输出端简化为摘要,增加对手复现其Agent执行逻辑的难度。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

这些发现显示了Anthropic在追求模型性能的同时,对工程细节和系统鲁棒性的高度重视。从代码成熟度判断,Capybara系列模型可能已接近发布阶段。

Anthropic的回应

面对此次大规模的源码泄露,Anthropic的反应相对低调,仅通过向GitHub发送DMCA删除通知来处理。官方解释称此次事件是人为错误导致的打包问题。项目负责人也将其归因于开发者的失误。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

有行业观察者分析,Anthropic之所以保持淡定,或许是因为其真正的护城河并非框架代码本身。复盘显示,Claude Code的框架设计在开源社区中已有类似或更优的替代方案。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

其核心竞争力可能在于架构工程能力,例如提示词的精细堆叠、工具链的无缝集成以及模型的容错与自我纠正机制,这些复杂的工程细节难以通过简单的代码复现获得。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

源码可以被复制,但对复杂系统的深度掌控力,却无法通过简单的 git clone 命令获得。

Cursor 编辑器的成功已经证明,即使基于他人的模型,只要能在产品体验与架构深度上做到极致,依然可以打造出让开发者难以割舍的“杀手级应用”。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

因此,此次 Claude Code(CC)的源码泄露,实质上是将一个原本私有的“工业级工具箱”抛向了开放领域,从而降低了所有人构建成熟编码智能体的门槛。

未来的竞争将聚焦于:谁能在这个开源基石之上,构筑出最贴合用户需求的产品大厦。三个月后,谁又能成长为新的巨头?

多事之秋:Anthropic 的“人设”面临挑战?

Anthropic 长期以来塑造的形象是:一家行事审慎、以造福人类为宗旨的 AI 公司。

它持续发布关于 AI 风险的详细研究报告,并聘用了该领域众多顶尖研究人员。公司也一直在公开探讨开发强大 AI 技术时应承担的责任。

正因如此,当此前与美国国防部产生分歧时,Anthropic 几乎获得了全网范围的声援。

然而,据上周四外媒报道,Anthropic 已承认正在测试一款代表能力“跨越式演进”的新 AI 模型。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

Anthropic 意外公开了近 3000 份内部文件,其中包含一篇描述该模型的博客草稿。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

随后,Anthropic 确认了此事:
新模型代号“Capybara”,在软件工程、学术推理及网络安全等多个维度上均实现了显著性能提升;
目前已向一小批专注于网络安全测试与防御准备的早期用户开放访问权限。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

值得注意的是,Anthropic 并未阻止文件的持续泄露。

接连的泄露事件或许不会立即削弱 Anthropic 的模型实力,但已开始动摇其另一项宝贵的无形资产:外界对其内部治理、工程纪律以及“安全优先”叙事的信任。

当一家以谨慎著称的公司反复因泄露事件成为焦点,其所面临的考验便不再仅是产品发布节奏,更是其自身最为珍视的“人设”。

参考资料
– https://x.com/synthwavedd/status/2039102384241049956
– https://x.com/forloopcodes/status/2038942169311195432
– https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28324

(0)
上一篇 5小时前
下一篇 5小时前

相关推荐

  • AI过度使用引发“烧脑”危机:哈佛研究揭示认知过载与工作压力剧增

    过度依赖人工智能工具,非但未能如预期般减轻工作负担,反而可能引发一种新型的职业疲劳——“AI烧脑”。哈佛大学的一项最新研究揭示了这一现象背后的认知过载与压力剧增问题。 研究指出,问题的核心并非AI使人变笨,而在于人类认知速度难以匹配AI的处理节奏,导致了 “认知降维打击下的压力过载” 。从过去手动编写或整合代码,转变为如今持续监督AI Agent工作,工作流…

    2026年3月17日
    33000
  • MiniMax M2.5引爆AI需求:周调用量破3T,开源Agent生态全面接入

    这个春节,MiniMax 杀疯了。 2 月 20 日,港股马年首个交易日,MiniMax 收盘股价报涨 14.52%,市值一度冲破 3042 亿港元。 这轮上涨并非只是资本市场的情绪宣泄。 过去两年,AI 行业的叙事几乎集中在供给侧,比如更强的模型、更快的芯片、更大的数据中心。然而,制约 AI 产业规模化落地的,除了供给侧的能力上限外,还有大量长期憋着、始终…

    2026年2月25日
    23300
  • AI自我进化时代已来!Anthropic承认观察到递归自我改进早期迹象,完全自动化AI研究或一年内实现

    Anthropic如今已成为AI领域的焦点。其技术不仅引领了全球性的智能体开发浪潮,更在《时代》周刊的封面文章中透露了关键信息:AI递归自我提升的时代可能提前到来。 文章中的一个核心判断是:完全自动化的AI研究,可能在一年内实现。 几乎在同一时间,Anthropic宣布成立一个由30人内部智库组成的新研究所,旨在直接研究AI对社会的影响。该公司预测,未来两年…

    2026年3月18日
    28800
  • 大语言模型驱动的勒索软件3.0:AI如何重塑网络攻击范式

    当大语言模型(LLM)技术正广泛应用于代码生成、数据分析等生产力场景时,网络安全领域却悄然出现了一个令人警醒的转折点——黑客已开始将LLM改造为“全自动攻击指挥官”。纽约大学坦登工程学院的研究团队近期披露的第三代勒索软件概念形态(Ransomware 3.0),标志着首个由LLM全程编排的勒索软件诞生。这一新型攻击模式不再依赖预装恶意代码,而是在攻击过程中实…

    2025年10月31日
    22500
  • 摩尔线程MDC 2025:以MUSA架构为基石,擘画国产全功能GPU生态新蓝图

    2025年12月20日至21日,摩尔线程将在北京中关村国际创新中心举办首届MUSA开发者大会(MDC 2025)。作为国内首个聚焦全功能GPU的开发者盛会,本次大会以“创造、链接、汇聚”为核心理念,直面技术自立自强与产业升级的时代命题,旨在汇聚全球AI与GPU领域开发者、技术领袖、产业先锋及行业数智化转型实践者,共同探索国产算力的突破路径,擘画自主计算生态的…

    2025年12月9日
    26000