Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

过去24小时内,AI领域接连发生信息泄露事件。继Anthropic的命令行工具Claude Code源码意外流出后,其疑似下一代旗舰模型Mythos基准测试数据也遭到曝光。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

据泄露信息显示,Mythos被定位为独立于现有Claude系列的高端产品线。其基准测试成绩对比当前版本Opus 4.6,在多项关键指标上均有显著提升:

  • Terminal-Bench 2.0: 78.4%(提升13.0%)
  • SWE-bench Verified: 87.4%(提升6.6%)
  • OSWorld: 79.6%(提升6.9%)
  • BrowseComp: 92.3%(提升8.3%)
  • MCP Atlas: 75.7%(提升16.2%)
  • Finance Agent: 82.1%(提升21.4%)
  • GDPVal-AA-Elo: 2668(提升1062)
  • Humanity‘s Last Exam: 52.3%(无工具,提升12.3%),71.5%(有工具,提升18.5%)

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

其中,在智能体编码任务上的表现尤为突出。针对泄露数据的真实性,有分析者使用AI内容检测工具进行了初步验证。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

同时,网络上出现了无水印版本的基准测试截图。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

如果泄露数据属实,Mythos的性能将实现一次重大跃迁。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

卡皮巴拉”模型细节浮出水面

在Claude Code的泄露源码中,发现了关于代号为 capybara-v2-fast 的新模型线索。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

该模型支持1M上下文长度,表明超长上下文已成为新一代模型的标配。按照惯例,“fast”版本之后可能还会推出能力更强的旗舰版本。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文
Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

技术细节:针对工具调用的提示工程优化

开发者从代码中发现,Anthropic针对生产环境中模型可能出现的故障,进行了精细的提示工程调整。例如,当工具调用返回的结果格式与“轮次边界”过于相似时,模型可能误判对话结束,导致提前停止生成。

为解决此问题,Anthropic并未选择重新训练模型,而是通过一系列“提示词手术”进行修复,包括:
* 引入明确的边界标记(如Tool loaded.)。
* 重新定位存在风险的“同级模块”。
* 将关键提示信息压缩并嵌入工具结果中。
* 为空工具输出强制添加非空标记,防止模型误解。

灰度发布与安全控制

此外,代码中显示Anthropic内部有一套名为 tengu_* 的灰度开关系统。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

这意味着所有针对Capybara的优化都通过A/B测试逐步上线,并配备了“自杀开关”,可在出现异常时快速回滚。新功能通常会先面向内部员工(ant/internal用户)开放,验证通过后再向外部用户发布。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

代码中的反抓取措施

分析泄露代码的开发者还发现,Anthropic在代码中内置了防止数据被爬取用于模型蒸馏的机制。

第一项措施是“流式投毒”,即在输出流中随机注入虚假的工具调用指令,污染可能被爬取的数据集。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

第二项措施是“信息模糊化”,即将工具调用的详细逻辑步骤在输出端简化为摘要,增加对手复现其Agent执行逻辑的难度。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

这些发现显示了Anthropic在追求模型性能的同时,对工程细节和系统鲁棒性的高度重视。从代码成熟度判断,Capybara系列模型可能已接近发布阶段。

Anthropic的回应

面对此次大规模的源码泄露,Anthropic的反应相对低调,仅通过向GitHub发送DMCA删除通知来处理。官方解释称此次事件是人为错误导致的打包问题。项目负责人也将其归因于开发者的失误。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

有行业观察者分析,Anthropic之所以保持淡定,或许是因为其真正的护城河并非框架代码本身。复盘显示,Claude Code的框架设计在开源社区中已有类似或更优的替代方案。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

其核心竞争力可能在于架构工程能力,例如提示词的精细堆叠、工具链的无缝集成以及模型的容错与自我纠正机制,这些复杂的工程细节难以通过简单的代码复现获得。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

源码可以被复制,但对复杂系统的深度掌控力,却无法通过简单的 git clone 命令获得。

Cursor 编辑器的成功已经证明,即使基于他人的模型,只要能在产品体验与架构深度上做到极致,依然可以打造出让开发者难以割舍的“杀手级应用”。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

因此,此次 Claude Code(CC)的源码泄露,实质上是将一个原本私有的“工业级工具箱”抛向了开放领域,从而降低了所有人构建成熟编码智能体的门槛。

未来的竞争将聚焦于:谁能在这个开源基石之上,构筑出最贴合用户需求的产品大厦。三个月后,谁又能成长为新的巨头?

多事之秋:Anthropic 的“人设”面临挑战?

Anthropic 长期以来塑造的形象是:一家行事审慎、以造福人类为宗旨的 AI 公司。

它持续发布关于 AI 风险的详细研究报告,并聘用了该领域众多顶尖研究人员。公司也一直在公开探讨开发强大 AI 技术时应承担的责任。

正因如此,当此前与美国国防部产生分歧时,Anthropic 几乎获得了全网范围的声援。

然而,据上周四外媒报道,Anthropic 已承认正在测试一款代表能力“跨越式演进”的新 AI 模型。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

Anthropic 意外公开了近 3000 份内部文件,其中包含一篇描述该模型的博客草稿。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

随后,Anthropic 确认了此事:
新模型代号“Capybara”,在软件工程、学术推理及网络安全等多个维度上均实现了显著性能提升;
目前已向一小批专注于网络安全测试与防御准备的早期用户开放访问权限。

Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

值得注意的是,Anthropic 并未阻止文件的持续泄露。

接连的泄露事件或许不会立即削弱 Anthropic 的模型实力,但已开始动摇其另一项宝贵的无形资产:外界对其内部治理、工程纪律以及“安全优先”叙事的信任。

当一家以谨慎著称的公司反复因泄露事件成为焦点,其所面临的考验便不再仅是产品发布节奏,更是其自身最为珍视的“人设”。

参考资料
– https://x.com/synthwavedd/status/2039102384241049956
– https://x.com/forloopcodes/status/2038942169311195432
– https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28324

(0)
上一篇 2026年4月2日 上午11:02
下一篇 2026年4月2日 上午11:20

相关推荐

  • 大模型安全新挑战:多场景脆弱性暴露与高效防御框架解析

    一、关键发现 近期研究揭示,大型语言模型在多种应用场景中均表现出显著的安全脆弱性,而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击,到物理世界导航代理的高风险漏洞,模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制,为企业提供了构建场景化安全防线的可行…

    2026年1月26日
    70300
  • 突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

    关键词: NVFP4、Quartet II、MS-EDEN、无偏梯度估计、低比特训练 随机舍入(Stochastic Rounding,SR)是一种将数值映射到有限、离散的低精度网格的技术。与标准的“四舍五入到最近值”不同,SR根据数值与两个最近网格点之间的距离,按概率决定“向上舍入”或“向下舍入”。作为低精度训练中的一项基础技术,它通过引入随机性来换取梯度…

    2026年2月9日
    28700
  • 深势科技C轮融资8亿,AI for Science如何重塑300万科学家的科研范式?

    近日,深势科技完成总额超8亿人民币的C轮融资。本轮融资由达晨财智、京国瑞基金、北京市人工智能产业投资基金、北京市医药健康产业投资基金、联想创投、元禾璞华等机构共同出资。 本轮融资资金将主要用于持续吸引和培养行业内顶尖人才,进一步进化迭代深势科技的“科学发现智能引擎”,持续夯实从原始技术创新、到智能科研工具产品及行业解决方案的全栈能力,加速围绕科学发现的智能产…

    2025年12月24日
    30300
  • Step-Audio-EditX:音频编辑迈入自然语言交互时代,技术门槛与创意门槛的博弈

    音频编辑长期以来被视为一项专业且复杂的技能,传统专业软件如Adobe Audition、Pro Tools等不仅操作界面繁杂,学习曲线陡峭,更要求用户具备声学原理、信号处理等专业知识。对于普通内容创作者、播客制作者或短视频爱好者而言,制作一段简单的音频内容往往需要投入大量时间学习软件操作,甚至依赖外包服务。这种高门槛严重制约了音频内容的创作效率与普及度。 近…

    2025年11月9日
    36900
  • 京东AI解法:开源JoyAI-LLM Flash降本增效,数字人性能超SOTA,具身智能覆盖百品牌

    京东AI解法:开源JoyAI-LLM Flash降本增效,数字人性能超SOTA,具身智能覆盖百品牌 AI技术加速迭代,但成本效率与性能的平衡、产业落地“最后一公里”的打通,仍是行业面临的共性挑战。3月24日,京东公布了其AI研发应用的部分阶段性进展,提出了针对上述难题的解决方案。 01 开源大模型JoyAI-LLM Flash,大幅降低AI使用门槛 在模型能…

    2026年3月25日
    30900