การประเมินโมเดลขนาดใหญ่
-
วงการ AI สั่นสะเทือน! การทดสอบ AGI ที่ยากที่สุดในโลก ARC-AGI-3 เปิดตัวแล้ว มนุษย์ผ่านได้เต็มคะแนน แต่โมเดลที่แข็งแกร่งที่สุดอย่าง Opus 4.6 ได้เพียง 0.2%
วันนี้ ผลการทดสอบมาตรฐานที่ชื่อว่า ARC-AGI-3 ได้รับการเปิดเผย และ “ช่องว่างระหว่างมนุษย์กับเครื่อง” อันมหาศาลที่ปรากฏออกมา ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมชนวิจัย A…
-
SuperCLUE-OpenClaw: เปิดตัวเกณฑ์มาตรฐานการประเมิน AI Agent ภาษาไทยครั้งแรก ผลงานของโมเดลในประเทศโดดเด่น
ภูมิหลัง 一. รู้จัก OpenClaw OpenClaw (ชื่อเดิม ClawdBot/Moltbot) เป็นเฟรมเวิร์ก AI Agent แบบโอเพนซอร์ส สร้างโดย Peter Steinberger ในฐานะหนึ่งในโปรเจกต์ AI Agent ที่ได้รับความนิยมสู…
-
GPT-5.4 mini เปิดตัวทันทีถูกตั้งคำถาม: ประสิทธิภาพอยู่อันดับที่ 13 แต่ราคาแพงขึ้นสามเท่า
GPT-5.4 mini เปิดตัวเจอคำถามทันที: ประสิทธิภาพอยู่อันดับ 13 แต่ราคาพุ่ง 3 เท่า โมเดล GPT-5.4 mini ล่าสุดจาก OpenAI เผชิญกับคำถามมากมายในวันเปิดตัววันแรก จากข้อมูลมาตรฐานการประเมินโ…
-
EMPA กับ MAPO: แนวทางใหม่ในการประเมินและฝึกฝนความเห็นอกเห็นใจระยะยาวสำหรับโมเดลภาษาขนาดใหญ่ เพื่อให้ AI เข้าใจการให้ความอบอุ่นทางอารมณ์อย่างแท้จริง
ปัจจุบันโมเดลภาษาขนาดใหญ่สามารถสร้างข้อความที่อ่อนโยนและให้คุณค่าทางอารมณ์ในการสนทนาแบบเทิร์นเดียวได้ อย่างไรก็ตาม เราอาจสงสัยว่าเบื้องหลัง “การตอบสนองที่แสดงความฉลาดทางอารมณ…
-
KernelArena: แพลตฟอร์มประเมินประสิทธิภาพ GPU Kernel แห่งแรกที่สร้างโดย AI ปิดฉากยุค “เลือกโมเดลตามความรู้สึก”
KernelArena: แพลตฟอร์มประเมินประสิทธิภาพเคอร์เนล GPU ที่สร้างโดย AI แห่งแรก ยุติยุค “เลือกโมเดลตามความรู้สึก” ขีดความสามารถของโมเดลภาษาขนาดใหญ่ล้ำสมัยกำลังถูกขยายออกไปอ…
-
มาตรฐานใหม่ในการประเมินงานระดับผู้เชี่ยวชาญ AI: เกณฑ์วัดมูลค่าล้านดอลลาร์เผยมูลค่าทางเศรษฐกิจที่แท้จริงของโมเดล
หากมีงานระดับผู้เชี่ยวชาญชั้นนำมูลค่า 1 ล้านดอลลาร์สหรัฐ AI จะสามารถทำงานเหล่านั้นได้มากแค่ไหน? คำตอบคือ: งานมูลค่าประมาณ 480,000 ดอลลาร์สหรัฐ และค่าใช้จ่าย API ในการทำงานเหล่านี้เ…
-
PinchBench เปิดตัว: การแข่งขันความสามารถ “เลี้ยงกุ้ง” ของโมเดลใหญ่ เปิดเผยระดับความสามารถจริงใน 3 มิติ – อัตราความสำเร็จ ความเร็ว และต้นทุน
เกณฑ์มาตรฐานสำหรับประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในงาน “เลี้ยงกุ้ง” (OpenClaw) ชื่อ PinchBench ได้รับการเปิดตัวอย่างเป็นทางการแล้ว เกณฑ์มาตรฐานนี้ได้รับความสนใจแ…
-
โมเดลภาษาขนาดใหญ่ทั่วไปล้มเหลวในการทดสอบอุตสาหกรรม IndustryGPT ชนะทั้งสามรอบ เผยทิศทางใหม่ของ AI สำหรับการผลิต
โมเดลใหญ่ทั่วไปสอบตกในสนามอุตสาหกรรม IndustryGPT ชนะขาด แสดงทิศทางใหม่ของ AI ในภาคการผลิต เมื่อเร็วๆ นี้ โมเดลใหญ่ระดับท็อปหลายรุ่นได้เข้าร่วมการ “สอบใบประกอบวิชาชีพอุตสาหกรรม” พิเ…
-
โมเดลขนาดเล็ก 3B กลับมาสู้ยักษ์ใหญ่ระดับล้านล้าน: Nanbeige4.1-3B คว้าชัยด้วยกลยุทธ์ “เล็กแต่ครบ” ในการแข่งขันด้านโมเดล AI ขนาดใหญ่ได้อย่างไร?
ในอดีต GPT-2 ที่มีพารามิเตอร์ประมาณ 1.5 พันล้านตัว ในมุมมองปัจจุบันถือเป็น “โมเดลเล็ก” แล้ว ส่วนขนาดพารามิเตอร์ของ GPT-4 ตามการประมาณการในอุตสาหกรรมนั้นสูงถึงระดับล้านล…
-
UniScientist: โมเดลโอเพนซอร์ส 30B พารามิเตอร์ สร้างวงจรการวิจัยครบวงจร เทียบเคียงโมเดลปิด 100B+ พารามิเตอร์
โมเดลภาษาขนาดใหญ่ส่วนมากสามารถสร้างข้อความที่ “ดูเหมือน” งานวิจัยทางวิชาการได้ แต่มีน้อยมากที่สามารถดำเนินกระบวนการวิจัยจริงได้ นั่นคือ การตั้งสมมติฐาน รวบรวมหลักฐาน ดำ…