GitHub Issues
-
SWE-Bench:从1.96%到72.8%,AI编程能力的革命性突破与未来展望
2024年初,最先进的AI模型仅能解决不到2%的真实世界编程问题。如今,这一数字已飙升至72.8%。实现这一革命性突破的关键,是普林斯顿大学与芝加哥大学联合发布、发表于ICLR 2024的基准测试——SWE-bench(《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》)。 一…