การประเมินโมเดลขนาดใหญ่
-
อัปเดต Claude Code “พัง” แล้ว? ความลึกในการคิดลดลง 67% พฤติกรรมโมเดลผิดเพี้ยนทั้งหมดกลายเป็นประเด็นร้อน
ลมตะวันตก จาก 凹非寺 ในที่เก็บข้อมูลทางการ มี Issue หนึ่งที่กำลังเป็นที่ถกเถียงกันอย่างร้อนแรง ชี้ตรงไปที่ปัญหาหลัก: การอัปเดตของ Claude Code อาจ “พัง” ไปแล้ว การอัปเดตครั…
-
NVIDIA AI-Q ติดอันดับ 1 ในสองชาร์ต DeepResearch Bench! เผยมาตรฐานใหม่ในการประเมิน AI Agent
วันที่ 16 มีนาคม ในการประชุม NVIDIA GTC 2026 NVIDIA ได้เปิดตัว Agent Toolkit และพิมพ์เขียว AI-Q Open Agent และกำหนดให้ AI Agent เป็นเทคโนโลยีแนวหน้าที่สำคัญของรุ่นต่อไป เมื่อสาธิตค…
-
จุดอ่อนด้านการรับรู้ทางเรขาคณิตถูกเปิดเผย! ทีมจากมหาวิทยาลัยชิงหว่านเสนอเฟรมเวิร์กการประเมิน GEOPERCEIVE เป็นครั้งแรกที่ประเมินความสามารถในการรับรู้เรขาคณิตของ VLM อย่างเป็นอิสระ
จุดอ่อนด้านการรับรู้รูปทรงเรขาคณิตถูกเปิดเผย! ทีมวิจัยจากมหาวิทยาลัยชิงหวาเสนอเฟรมเวิร์กประเมิน GEOPERCEIVE ประเมินความสามารถในการจดจำรูปทรงเรขาคณิตของ VLM อย่างเป็นอิสระเป็นครั้งแ…
-
โมเดลภาษาขนาดใหญ่สามารถทำนายอนาคตได้จริงหรือ? UniPat AI เปิดตัวระบบ Echo, EchoZ-1.0 นำหน้าอย่างสมบูรณ์ทั้งมนุษย์และโมเดลระดับสูงในการประเมินแบบไดนามิก
โมเดลใหญ่สามารถทำนายอนาคตได้จริงหรือ? UniPat AI เปิดตัวระบบ Echo โดย EchoZ-1.0 นำหน้าอย่างสมบูรณ์ในการประเมินแบบไดนามิก ปัญหาการตรวจสอบที่ยังไม่มีคำตอบ ตลอดปีที่ผ่านมา ความสามารถใน…
-
วงการ AI สั่นสะเทือน! การทดสอบ AGI ที่ยากที่สุดในโลก ARC-AGI-3 เปิดตัวแล้ว มนุษย์ผ่านได้เต็มคะแนน แต่โมเดลที่แข็งแกร่งที่สุดอย่าง Opus 4.6 ได้เพียง 0.2%
วันนี้ ผลการทดสอบมาตรฐานที่ชื่อว่า ARC-AGI-3 ได้รับการเปิดเผย และ “ช่องว่างระหว่างมนุษย์กับเครื่อง” อันมหาศาลที่ปรากฏออกมา ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมชนวิจัย A…
-
SuperCLUE-OpenClaw: เปิดตัวเกณฑ์มาตรฐานการประเมิน AI Agent ภาษาไทยครั้งแรก ผลงานของโมเดลในประเทศโดดเด่น
ภูมิหลัง 一. รู้จัก OpenClaw OpenClaw (ชื่อเดิม ClawdBot/Moltbot) เป็นเฟรมเวิร์ก AI Agent แบบโอเพนซอร์ส สร้างโดย Peter Steinberger ในฐานะหนึ่งในโปรเจกต์ AI Agent ที่ได้รับความนิยมสู…
-
ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, การใช้เครื่องมือ, การประเมินมาตรฐาน, สถานการณ์จริง, เอเจนต์ เมื่อ AI ออกจากห้องแล็บสู่โลกแห่งความเป็นจริง งานง่ายๆ กลับอาจกลายเป็นช่องว่างที่ยากจะก้า…
-
EMPA กับ MAPO: แนวทางใหม่ในการประเมินและฝึกฝนความเห็นอกเห็นใจระยะยาวสำหรับโมเดลภาษาขนาดใหญ่ เพื่อให้ AI เข้าใจการให้ความอบอุ่นทางอารมณ์อย่างแท้จริง
ปัจจุบันโมเดลภาษาขนาดใหญ่สามารถสร้างข้อความที่อ่อนโยนและให้คุณค่าทางอารมณ์ในการสนทนาแบบเทิร์นเดียวได้ อย่างไรก็ตาม เราอาจสงสัยว่าเบื้องหลัง “การตอบสนองที่แสดงความฉลาดทางอารมณ…
-
KernelArena: แพลตฟอร์มประเมินประสิทธิภาพ GPU Kernel แห่งแรกที่สร้างโดย AI ปิดฉากยุค “เลือกโมเดลตามความรู้สึก”
KernelArena: แพลตฟอร์มประเมินประสิทธิภาพเคอร์เนล GPU ที่สร้างโดย AI แห่งแรก ยุติยุค “เลือกโมเดลตามความรู้สึก” ขีดความสามารถของโมเดลภาษาขนาดใหญ่ล้ำสมัยกำลังถูกขยายออกไปอ…
-
EgoSound: เปิดตัวมาตรฐานการประเมินการรับรู้เสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก วัดระดับปัญหา ‘หูหนวก’ ของโมเดลขนาดใหญ่หลายรูปแบบ ช่องว่างระหว่างโมเดลที่แข็งแกร่งที่สุดกับมนุษย์เกิน 27%
EgoSound: เปิดตัวมาตรฐานการประเมินความเข้าใจเสียงมุมมองบุคคลที่หนึ่งเป็นครั้งแรก ปัญหา “หูหนวก” ของโมเดลใหญ่หลายรูปแบบถูกวัดผลเชิงปริมาณ เมื่อโมเดลใหญ่หลายรูปแบบก้าวเข้…