การทดสอบมาตรฐาน AI
-
PinchBench เปิดตัว: การแข่งขันความสามารถ “เลี้ยงกุ้ง” ของโมเดลใหญ่ เปิดเผยระดับความสามารถจริงใน 3 มิติ – อัตราความสำเร็จ ความเร็ว และต้นทุน
เกณฑ์มาตรฐานสำหรับประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในงาน “เลี้ยงกุ้ง” (OpenClaw) ชื่อ PinchBench ได้รับการเปิดตัวอย่างเป็นทางการแล้ว เกณฑ์มาตรฐานนี้ได้รับความสนใจแ…
-
Claude Opus 4.6 เปิดตัวอย่างยิ่งใหญ่: คะแนน ARC-AGI 68% ทำลายสถิติ หน้าต่างบริบทล้านโทเค็นเปิดยุคใหม่แห่ง AI
Anthropic ได้เปิดตัวรุ่นล่าสุดของโมเดลแฟลกชิป Claude Opus เวอร์ชัน 4.6 อย่างเป็นทางการ การอัปเกรดครั้งนี้มาพร้อมกับการเพิ่มขึ้นของความฉลาดอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งในแบบทดสอ…