การประเมินโมเดลขนาดใหญ่
-
งานวิจัยสำคัญของ OpenAI: ยิ่ง AI มีความสามารถในการใช้เหตุผลมากเท่าไหร่ ก็ยิ่งควบคุม ‘ความคิด’ ของตัวเองได้น้อยลงเท่านั้น! การทดสอบความสามารถในการควบคุมลำดับความคิดพบอัตราความสำเร็จเพียง 0.1%
【新智元导读】 การวิจัยล่าสุดจาก OpenAI เผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ: ยิ่งโมเดลมีความสามารถในการให้เหตุผลสูงเท่าไหร่ ก็ยิ่งควบคุมกระบวนการคิดของตัวเองได้ยากขึ้นเท่านั้น ในการทดสอบด้วยช…
-
OpenAI จู่โจมยามดึก! GPT-5.4 เปิดตัวอย่างน่าตื่นตะลึง: ความสามารถควบคุมคอมพิวเตอร์แบบเนทีฟเหนือมนุษย์ทุกด้าน ครองตำแหน่งราชาแห่งการให้เหตุผลและการเขียนโปรแกรมแบบครบมิติ
หลังจากเผชิญกับแรงกดดันจากการแข่งขันมาสักระยะ OpenAI ได้เปิดตัวโมเดลเรือธงล่าสุด GPT-5.4 การเปิดตัวครั้งนี้รวมถึง:* ฝั่ง ChatGPT: GPT-5.4 Thinking และ GPT-5.4 Pro เปิดให้บริการเต็ม…
-
รีวิว Gemini 3.1 Flash Lite: ความเร็วตรรกะแตะ 5 วินาทีต่ำสุดใหม่ ความสามารถในการทำตามคำสั่งแข็งแกร่งเกินคาด
สรุปหลัก: โมเดลน้ำหนักเบาที่สร้างมาเพื่อการตอบสนองที่รวดเร็วและการดำเนินการที่มีประสิทธิภาพ ภาพรวม Gemini 3.1 Flash Lite (ต่อไปนี้จะเรียกว่า Lite) ทำลายกำแพงความเร็วในการตอบสนองได้…
-
ทฤษฎีแห่งอวกาศ: ความก้าวหน้าใหม่ของปัญญาประดิษฐ์แบบฝังตัว ช่วยให้โมเดลขนาดใหญ่สำรวจพื้นที่ที่ไม่รู้จักได้เหมือนมนุษย์
【สรุปสาระสำคัญ】 กระบวนทัศน์ใหม่ในการประเมินความสามารถเชิงพื้นที่ของโมเดลเชิงรูปธรรม “Theory of Space” ได้ก้าวข้ามขีดจำกัดของวิธีการถามตอบแบบเดิมที่ใช้ภาพและข้อความสถิตย…
-
FeatureBench: เติมเต็มช่องว่างในการประเมินการพัฒนาฟังก์ชันที่ซับซ้อนแบบ end-to-end สำหรับโมเดลขนาดใหญ่ สถาบันอัตโนมัติของ Chinese Academy of Sciences และ Huawei ร่วมกันเปิดตัวมาตรฐานใหม่
หลังจาก Princeton เผยแพร่ SWE-Bench การใช้ที่เก็บโค้ดและแบบทดสอบที่ปฏิบัติการได้จริงเพื่อประเมินความสามารถด้านวิศวกรรมซอฟต์แวร์ของโมเดลภาษาขนาดใหญ่ ได้กลายเป็นฉันทามติในแวดวงวิชากา…
-
การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา
การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์เด่นชัด การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศิลปะการสร้างสรรค์ยังต้องพัฒนา Alibaba ได้เปิดตัวโมเดล …
-
Ali Qwen3.5-27B ทดสอบจริง: โมเดลหนาแน่น 27 พันล้านพารามิเตอร์ ติดท็อป 10, ต้นทุนลดฮวบ 59%!
หลังจากเปิดตัวโมเดลแรกของซีรีส์ Qwen3.5 คือ Qwen3.5-Plus แล้ว อาลีบาบาก็ได้เปิดตัวซีรีส์โมเดลขนาดกลางหลังเทศกาลตรุษจีน Qwen3.5-27B เป็นโมเดลแบบหนาแน่น (Dense Model) ในซีรีส์นี้ โดย…
-
Ali Qwen3.5-122B-A10B ทดสอบจริง: โมเดลโอเพ่นซอร์ส 122 พันล้านพารามิเตอร์ ประสิทธิภาพเหนือกว่า Qwen3-Max ต้นทุนต่ำกว่า
Qwen3.5-122B-A10B เป็นโมเดลโอเพนซอร์สในซีรีส์ Qwen3.5 Medium ของ Alibaba โดยมีพารามิเตอร์ทั้งหมด 122 พันล้านตัว ใช้สถาปัตยกรรม Sparse Mixture of Experts (MoE) ที่มีผู้เชี่ยวชาญ 256…
-
การประเมิน Tongyi Qwen3.5-Flash: ขอบเขตแห่งดาบของดาวรุ่งโอเพ่นซอร์ส
ข้อสรุปหลัก: แหลมคมแห่งดาบแห่งนวัตกรรมโอเพ่นซอร์ส ข้อมูลพื้นฐาน: เมื่อไม่นานมานี้ Tongyi Qianwen ได้เปิดตัวโมเดล Qwen3.5-Flash โมเดลนี้เป็นเวอร์ชันปรับปรุงของ Qwen3.5-35B-A3B ที่เป…
-
Ali Qwen3.5-Plus ทดสอบจริง: โมเดล 397 พันล้านพารามิเตอร์ประสิทธิภาพพุ่งสูงขึ้น, ต้นทุนลดลง 47%
อาลีบาบาออกแบบ Qwen3.5 ซีรีส์อย่างเป็นทางการ และเปิดตัวโมเดลแรกของซีรีส์นี้ นั่นคือเวอร์ชันน้ำหนักเปิด (open-weight) ของ Qwen3.5-397B-A17B ในฐานะโมเดลภาษาภาพดั้งเดิม (Native Vision…