การประเมินมาตรฐาน
-
ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, การใช้เครื่องมือ, การประเมินมาตรฐาน, สถานการณ์จริง, เอเจนต์ เมื่อ AI ออกจากห้องแล็บสู่โลกแห่งความเป็นจริง งานง่ายๆ กลับอาจกลายเป็นช่องว่างที่ยากจะก้า…
-
EgoSound: เปิดตัวมาตรฐานการประเมินการรับรู้เสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก วัดระดับปัญหา ‘หูหนวก’ ของโมเดลขนาดใหญ่หลายรูปแบบ ช่องว่างระหว่างโมเดลที่แข็งแกร่งที่สุดกับมนุษย์เกิน 27%
EgoSound: เปิดตัวมาตรฐานการประเมินความเข้าใจเสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก ปัญหา “หูหนวก” ของโมเดลใหญ่หลายรูปแบบถูกวัดผลเชิงปริมาณ เมื่อโมเดลใหญ่หลายรูปแบบก้าวเข้…