SWE-Bench

AI评测信任危机：伯克利团队10行代码攻破8大基准，作弊已成现实

本周，AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆，是各大模型发布会上的关键指标，也是投资人评估模型价值的重要依据。然而，伯克利的研究团队揭示，仅需一个conftest.py文件即可令其防线崩溃。不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体，对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…

2026年4月19日

537000

大模型评测

SWE-Bench：从1.96%到72.8%，AI编程能力的革命性突破与未来展望

2024年初，最先进的AI模型仅能解决不到2%的真实世界编程问题。如今，这一数字已飙升至72.8%。实现这一革命性突破的关键，是普林斯顿大学与芝加哥大学联合发布、发表于ICLR 2024的基准测试——SWE-bench（《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》）。一…

2025年11月5日

618000