安全漏洞
-
AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实
本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…
-
Claude Code源码意外泄露!51万行代码全曝光,电子宠物、长期记忆助手等8大隐藏功能被发现
Claude Code源码意外泄露!51万行代码全曝光,电子宠物、长期记忆助手等8大隐藏功能被发现(上) Claude Code 的源码泄露了。消息一出,开发者们的第一反应是立刻执行 git clone。 备份仓库 instructkr/claude-code 瞬间获得了超过 2 万颗星。 事件的起因颇具戏剧性:在 Claude Code 发布新版本 v2.…
