การพัฒนาเครื่องมือ
-
FeatureBench: เติมเต็มช่องว่างในการประเมินการพัฒนาฟังก์ชันที่ซับซ้อนแบบ end-to-end สำหรับโมเดลขนาดใหญ่ สถาบันอัตโนมัติของ Chinese Academy of Sciences และ Huawei ร่วมกันเปิดตัวมาตรฐานใหม่
หลังจาก Princeton เผยแพร่ SWE-Bench การใช้ที่เก็บโค้ดและแบบทดสอบที่ปฏิบัติการได้จริงเพื่อประเมินความสามารถด้านวิศวกรรมซอฟต์แวร์ของโมเดลภาษาขนาดใหญ่ ได้กลายเป็นฉันทามติในแวดวงวิชากา…