特征开发

大模型评测

FeatureBench：填补大模型端到端复杂功能开发评测空白，中科院自动化所与华为联合推出新基准

在 Princeton 发布 SWE-Bench 之后，利用真实世界代码仓库与可执行测试来评估大语言模型的软件工程能力，已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，催生了一系列 SWE 系列基准，在刻画模型修复缺陷的能力方面发挥了重要作用。然而，真实的软件工程实践远不止于修复缺陷。大量关键工作发生在功能级别的端到端开发中：这通…

2026年3月4日
257000