การประเมินแบบไดนามิก

วิศวกรรมโมเดลขนาดใหญ่

北航เปิดตัว Code2Bench: การประเมินแบบไดนามิกสองส่วนต่อขยาย สิ้นสุดภาพลวงตาคะแนนสูงของโมเดลรหัสขนาดใหญ่

ในการแข่งขันเพื่อวัดความสามารถในการสร้างโค้ดของโมเดลภาษาขนาดใหญ่ (LLM) ปัญหาที่รุนแรงขึ้นเรื่อยๆ กำลังปรากฏให้เห็น: เมื่อโมเดลต่างทำคะแนนได้เกือบเต็มในเกณฑ์มาตรฐานคลาสสิกอย่าง Huma…

2026年2月21日
249000