การประเมินโมเดลขนาดใหญ่

มาตรฐานใหม่ในการประเมินงานระดับผู้เชี่ยวชาญ AI: เกณฑ์วัดมูลค่าล้านดอลลาร์เผยมูลค่าทางเศรษฐกิจที่แท้จริงของโมเดล

หากมีงานระดับผู้เชี่ยวชาญชั้นนำมูลค่า 1 ล้านดอลลาร์สหรัฐ AI จะสามารถทำงานเหล่านั้นได้มากแค่ไหน? คำตอบคือ: งานมูลค่าประมาณ 480,000 ดอลลาร์สหรัฐ และค่าใช้จ่าย API ในการทำงานเหล่านี้เ…

2026年3月10日

151000

การประเมินโมเดลขนาดใหญ่

PinchBench เปิดตัว: การแข่งขันความสามารถ “เลี้ยงกุ้ง” ของโมเดลใหญ่ เปิดเผยระดับความสามารถจริงใน 3 มิติ – อัตราความสำเร็จ ความเร็ว และต้นทุน

เกณฑ์มาตรฐานสำหรับประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในงาน “เลี้ยงกุ้ง” (OpenClaw) ชื่อ PinchBench ได้รับการเปิดตัวอย่างเป็นทางการแล้ว เกณฑ์มาตรฐานนี้ได้รับความสนใจแ…

2026年3月9日

171000

การประเมินโมเดลขนาดใหญ่

โมเดลภาษาขนาดใหญ่ทั่วไปล้มเหลวในการทดสอบอุตสาหกรรม IndustryGPT ชนะทั้งสามรอบ เผยทิศทางใหม่ของ AI สำหรับการผลิต

โมเดลใหญ่ทั่วไปสอบตกในสนามอุตสาหกรรม IndustryGPT ชนะขาด แสดงทิศทางใหม่ของ AI ในภาคการผลิต เมื่อเร็วๆ นี้ โมเดลใหญ่ระดับท็อปหลายรุ่นได้เข้าร่วมการ “สอบใบประกอบวิชาชีพอุตสาหกรรม” พิเ…

2026年3月9日

152000

การประเมินโมเดลขนาดใหญ่

โมเดลขนาดเล็ก 3B กลับมาสู้ยักษ์ใหญ่ระดับล้านล้าน: Nanbeige4.1-3B คว้าชัยด้วยกลยุทธ์ “เล็กแต่ครบ” ในการแข่งขันด้านโมเดล AI ขนาดใหญ่ได้อย่างไร?

ในอดีต GPT-2 ที่มีพารามิเตอร์ประมาณ 1.5 พันล้านตัว ในมุมมองปัจจุบันถือเป็น “โมเดลเล็ก” แล้ว ส่วนขนาดพารามิเตอร์ของ GPT-4 ตามการประมาณการในอุตสาหกรรมนั้นสูงถึงระดับล้านล…

2026年3月9日

226000

การประเมินโมเดลขนาดใหญ่

งานวิจัยสำคัญของ OpenAI: ยิ่ง AI มีความสามารถในการใช้เหตุผลมากเท่าไหร่ ก็ยิ่งควบคุม ‘ความคิด’ ของตัวเองได้น้อยลงเท่านั้น! การทดสอบความสามารถในการควบคุมลำดับความคิดพบอัตราความสำเร็จเพียง 0.1%

【新智元导读】 การวิจัยล่าสุดจาก OpenAI เผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ: ยิ่งโมเดลมีความสามารถในการให้เหตุผลสูงเท่าไหร่ ก็ยิ่งควบคุมกระบวนการคิดของตัวเองได้ยากขึ้นเท่านั้น ในการทดสอบด้วยช…

2026年3月9日

158000

การประเมินโมเดลขนาดใหญ่

Anthropic เปิดตัวเฟรมเวิร์คประเมินทักษะ: ทดสอบและปรับปรุงทักษะ Claude ได้โดยไม่ต้องเขียนโค้ด

Anthropic เพิ่งเปิดตัวเฟรมเวิร์กการประเมินใหม่สำหรับเครื่องมือ Skill Creator ตั้งแต่เดือนตุลาคมปีที่แล้ว พวกเขาสังเกตว่าผู้สร้างสกิลส่วนใหญ่เป็นผู้เชี่ยวชาญทางธุรกิจมากกว่าวิศวกร พ…

2026年3月6日

149000

การประเมินโมเดลขนาดใหญ่

รีวิว Gemini 3.1 Flash Lite: ความเร็วตรรกะแตะ 5 วินาทีต่ำสุดใหม่ ความสามารถในการทำตามคำสั่งแข็งแกร่งเกินคาด

สรุปหลัก: โมเดลน้ำหนักเบาที่สร้างมาเพื่อการตอบสนองที่รวดเร็วและการดำเนินการที่มีประสิทธิภาพ ภาพรวม Gemini 3.1 Flash Lite (ต่อไปนี้จะเรียกว่า Lite) ทำลายกำแพงความเร็วในการตอบสนองได้…

2026年3月5日

159000

การประเมินโมเดลขนาดใหญ่

ทฤษฎีแห่งอวกาศ: ความก้าวหน้าใหม่ของปัญญาประดิษฐ์แบบฝังตัว ช่วยให้โมเดลขนาดใหญ่สำรวจพื้นที่ที่ไม่รู้จักได้เหมือนมนุษย์

【สรุปสาระสำคัญ】 กระบวนทัศน์ใหม่ในการประเมินความสามารถเชิงพื้นที่ของโมเดลเชิงรูปธรรม “Theory of Space” ได้ก้าวข้ามขีดจำกัดของวิธีการถามตอบแบบเดิมที่ใช้ภาพและข้อความสถิตย…

2026年3月4日

155000

การประเมินโมเดลขนาดใหญ่

FeatureBench: เติมเต็มช่องว่างในการประเมินการพัฒนาฟังก์ชันที่ซับซ้อนแบบ end-to-end สำหรับโมเดลขนาดใหญ่ สถาบันอัตโนมัติของ Chinese Academy of Sciences และ Huawei ร่วมกันเปิดตัวมาตรฐานใหม่

หลังจาก Princeton เผยแพร่ SWE-Bench การใช้ที่เก็บโค้ดและแบบทดสอบที่ปฏิบัติการได้จริงเพื่อประเมินความสามารถด้านวิศวกรรมซอฟต์แวร์ของโมเดลภาษาขนาดใหญ่ ได้กลายเป็นฉันทามติในแวดวงวิชากา…

2026年3月4日

178000

การประเมินโมเดลขนาดใหญ่

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์เด่นชัด การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศิลปะการสร้างสรรค์ยังต้องพัฒนา Alibaba ได้เปิดตัวโมเดล …

2026年3月1日

169000