การประเมินแบบไดนามิก
-
北航เปิดตัว Code2Bench: การประเมินแบบไดนามิกสองส่วนต่อขยาย สิ้นสุดภาพลวงตาคะแนนสูงของโมเดลรหัสขนาดใหญ่
ในการแข่งขันเพื่อวัดความสามารถในการสร้างโค้ดของโมเดลภาษาขนาดใหญ่ (LLM) ปัญหาที่รุนแรงขึ้นเรื่อยๆ กำลังปรากฏให้เห็น: เมื่อโมเดลต่างทำคะแนนได้เกือบเต็มในเกณฑ์มาตรฐานคลาสสิกอย่าง Huma…