การประเมินโมเดลขนาดใหญ่
-
มาตรฐานใหม่ในการประเมินงานระดับผู้เชี่ยวชาญ AI: เกณฑ์วัดมูลค่าล้านดอลลาร์เผยมูลค่าทางเศรษฐกิจที่แท้จริงของโมเดล
หากมีงานระดับผู้เชี่ยวชาญชั้นนำมูลค่า 1 ล้านดอลลาร์สหรัฐ AI จะสามารถทำงานเหล่านั้นได้มากแค่ไหน? คำตอบคือ: งานมูลค่าประมาณ 480,000 ดอลลาร์สหรัฐ และค่าใช้จ่าย API ในการทำงานเหล่านี้เ…
-
PinchBench เปิดตัว: การแข่งขันความสามารถ “เลี้ยงกุ้ง” ของโมเดลใหญ่ เปิดเผยระดับความสามารถจริงใน 3 มิติ – อัตราความสำเร็จ ความเร็ว และต้นทุน
เกณฑ์มาตรฐานสำหรับประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในงาน “เลี้ยงกุ้ง” (OpenClaw) ชื่อ PinchBench ได้รับการเปิดตัวอย่างเป็นทางการแล้ว เกณฑ์มาตรฐานนี้ได้รับความสนใจแ…
-
โมเดลภาษาขนาดใหญ่ทั่วไปล้มเหลวในการทดสอบอุตสาหกรรม IndustryGPT ชนะทั้งสามรอบ เผยทิศทางใหม่ของ AI สำหรับการผลิต
โมเดลใหญ่ทั่วไปสอบตกในสนามอุตสาหกรรม IndustryGPT ชนะขาด แสดงทิศทางใหม่ของ AI ในภาคการผลิต เมื่อเร็วๆ นี้ โมเดลใหญ่ระดับท็อปหลายรุ่นได้เข้าร่วมการ “สอบใบประกอบวิชาชีพอุตสาหกรรม” พิเ…
-
โมเดลขนาดเล็ก 3B กลับมาสู้ยักษ์ใหญ่ระดับล้านล้าน: Nanbeige4.1-3B คว้าชัยด้วยกลยุทธ์ “เล็กแต่ครบ” ในการแข่งขันด้านโมเดล AI ขนาดใหญ่ได้อย่างไร?
ในอดีต GPT-2 ที่มีพารามิเตอร์ประมาณ 1.5 พันล้านตัว ในมุมมองปัจจุบันถือเป็น “โมเดลเล็ก” แล้ว ส่วนขนาดพารามิเตอร์ของ GPT-4 ตามการประมาณการในอุตสาหกรรมนั้นสูงถึงระดับล้านล…
-
งานวิจัยสำคัญของ OpenAI: ยิ่ง AI มีความสามารถในการใช้เหตุผลมากเท่าไหร่ ก็ยิ่งควบคุม ‘ความคิด’ ของตัวเองได้น้อยลงเท่านั้น! การทดสอบความสามารถในการควบคุมลำดับความคิดพบอัตราความสำเร็จเพียง 0.1%
【新智元导读】 การวิจัยล่าสุดจาก OpenAI เผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ: ยิ่งโมเดลมีความสามารถในการให้เหตุผลสูงเท่าไหร่ ก็ยิ่งควบคุมกระบวนการคิดของตัวเองได้ยากขึ้นเท่านั้น ในการทดสอบด้วยช…
-
Anthropic เปิดตัวเฟรมเวิร์คประเมินทักษะ: ทดสอบและปรับปรุงทักษะ Claude ได้โดยไม่ต้องเขียนโค้ด
Anthropic เพิ่งเปิดตัวเฟรมเวิร์กการประเมินใหม่สำหรับเครื่องมือ Skill Creator ตั้งแต่เดือนตุลาคมปีที่แล้ว พวกเขาสังเกตว่าผู้สร้างสกิลส่วนใหญ่เป็นผู้เชี่ยวชาญทางธุรกิจมากกว่าวิศวกร พ…
-
รีวิว Gemini 3.1 Flash Lite: ความเร็วตรรกะแตะ 5 วินาทีต่ำสุดใหม่ ความสามารถในการทำตามคำสั่งแข็งแกร่งเกินคาด
สรุปหลัก: โมเดลน้ำหนักเบาที่สร้างมาเพื่อการตอบสนองที่รวดเร็วและการดำเนินการที่มีประสิทธิภาพ ภาพรวม Gemini 3.1 Flash Lite (ต่อไปนี้จะเรียกว่า Lite) ทำลายกำแพงความเร็วในการตอบสนองได้…
-
ทฤษฎีแห่งอวกาศ: ความก้าวหน้าใหม่ของปัญญาประดิษฐ์แบบฝังตัว ช่วยให้โมเดลขนาดใหญ่สำรวจพื้นที่ที่ไม่รู้จักได้เหมือนมนุษย์
【สรุปสาระสำคัญ】 กระบวนทัศน์ใหม่ในการประเมินความสามารถเชิงพื้นที่ของโมเดลเชิงรูปธรรม “Theory of Space” ได้ก้าวข้ามขีดจำกัดของวิธีการถามตอบแบบเดิมที่ใช้ภาพและข้อความสถิตย…
-
FeatureBench: เติมเต็มช่องว่างในการประเมินการพัฒนาฟังก์ชันที่ซับซ้อนแบบ end-to-end สำหรับโมเดลขนาดใหญ่ สถาบันอัตโนมัติของ Chinese Academy of Sciences และ Huawei ร่วมกันเปิดตัวมาตรฐานใหม่
หลังจาก Princeton เผยแพร่ SWE-Bench การใช้ที่เก็บโค้ดและแบบทดสอบที่ปฏิบัติการได้จริงเพื่อประเมินความสามารถด้านวิศวกรรมซอฟต์แวร์ของโมเดลภาษาขนาดใหญ่ ได้กลายเป็นฉันทามติในแวดวงวิชากา…
-
การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา
การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์เด่นชัด การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศิลปะการสร้างสรรค์ยังต้องพัฒนา Alibaba ได้เปิดตัวโมเดล …