การประเมินโมเดลขนาดใหญ่

งานวิจัยสำคัญของ OpenAI: ยิ่ง AI มีความสามารถในการใช้เหตุผลมากเท่าไหร่ ก็ยิ่งควบคุม ‘ความคิด’ ของตัวเองได้น้อยลงเท่านั้น! การทดสอบความสามารถในการควบคุมลำดับความคิดพบอัตราความสำเร็จเพียง 0.1%

【新智元导读】 การวิจัยล่าสุดจาก OpenAI เผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ: ยิ่งโมเดลมีความสามารถในการให้เหตุผลสูงเท่าไหร่ ก็ยิ่งควบคุมกระบวนการคิดของตัวเองได้ยากขึ้นเท่านั้น ในการทดสอบด้วยช…

2026年3月9日

166000

ข่าวสารอุตสาหกรรม AI

OpenAI จู่โจมยามดึก! GPT-5.4 เปิดตัวอย่างน่าตื่นตะลึง: ความสามารถควบคุมคอมพิวเตอร์แบบเนทีฟเหนือมนุษย์ทุกด้าน ครองตำแหน่งราชาแห่งการให้เหตุผลและการเขียนโปรแกรมแบบครบมิติ

หลังจากเผชิญกับแรงกดดันจากการแข่งขันมาสักระยะ OpenAI ได้เปิดตัวโมเดลเรือธงล่าสุด GPT-5.4 การเปิดตัวครั้งนี้รวมถึง:* ฝั่ง ChatGPT: GPT-5.4 Thinking และ GPT-5.4 Pro เปิดให้บริการเต็ม…

2026年3月6日

189000

การประเมินโมเดลขนาดใหญ่

รีวิว Gemini 3.1 Flash Lite: ความเร็วตรรกะแตะ 5 วินาทีต่ำสุดใหม่ ความสามารถในการทำตามคำสั่งแข็งแกร่งเกินคาด

สรุปหลัก: โมเดลน้ำหนักเบาที่สร้างมาเพื่อการตอบสนองที่รวดเร็วและการดำเนินการที่มีประสิทธิภาพ ภาพรวม Gemini 3.1 Flash Lite (ต่อไปนี้จะเรียกว่า Lite) ทำลายกำแพงความเร็วในการตอบสนองได้…

2026年3月5日

165000

การประเมินโมเดลขนาดใหญ่

ทฤษฎีแห่งอวกาศ: ความก้าวหน้าใหม่ของปัญญาประดิษฐ์แบบฝังตัว ช่วยให้โมเดลขนาดใหญ่สำรวจพื้นที่ที่ไม่รู้จักได้เหมือนมนุษย์

【สรุปสาระสำคัญ】 กระบวนทัศน์ใหม่ในการประเมินความสามารถเชิงพื้นที่ของโมเดลเชิงรูปธรรม “Theory of Space” ได้ก้าวข้ามขีดจำกัดของวิธีการถามตอบแบบเดิมที่ใช้ภาพและข้อความสถิตย…

2026年3月4日

160000

การประเมินโมเดลขนาดใหญ่

FeatureBench: เติมเต็มช่องว่างในการประเมินการพัฒนาฟังก์ชันที่ซับซ้อนแบบ end-to-end สำหรับโมเดลขนาดใหญ่ สถาบันอัตโนมัติของ Chinese Academy of Sciences และ Huawei ร่วมกันเปิดตัวมาตรฐานใหม่

หลังจาก Princeton เผยแพร่ SWE-Bench การใช้ที่เก็บโค้ดและแบบทดสอบที่ปฏิบัติการได้จริงเพื่อประเมินความสามารถด้านวิศวกรรมซอฟต์แวร์ของโมเดลภาษาขนาดใหญ่ ได้กลายเป็นฉันทามติในแวดวงวิชากา…

2026年3月4日

182000

การประเมินโมเดลขนาดใหญ่

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์เด่นชัด การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศิลปะการสร้างสรรค์ยังต้องพัฒนา Alibaba ได้เปิดตัวโมเดล …

2026年3月1日

172000

การประเมินโมเดลขนาดใหญ่

Ali Qwen3.5-27B ทดสอบจริง: โมเดลหนาแน่น 27 พันล้านพารามิเตอร์ ติดท็อป 10, ต้นทุนลดฮวบ 59%!

หลังจากเปิดตัวโมเดลแรกของซีรีส์ Qwen3.5 คือ Qwen3.5-Plus แล้ว อาลีบาบาก็ได้เปิดตัวซีรีส์โมเดลขนาดกลางหลังเทศกาลตรุษจีน Qwen3.5-27B เป็นโมเดลแบบหนาแน่น (Dense Model) ในซีรีส์นี้ โดย…

2026年2月27日

228000

การประเมินโมเดลขนาดใหญ่

Ali Qwen3.5-122B-A10B ทดสอบจริง: โมเดลโอเพ่นซอร์ส 122 พันล้านพารามิเตอร์ ประสิทธิภาพเหนือกว่า Qwen3-Max ต้นทุนต่ำกว่า

Qwen3.5-122B-A10B เป็นโมเดลโอเพนซอร์สในซีรีส์ Qwen3.5 Medium ของ Alibaba โดยมีพารามิเตอร์ทั้งหมด 122 พันล้านตัว ใช้สถาปัตยกรรม Sparse Mixture of Experts (MoE) ที่มีผู้เชี่ยวชาญ 256…

2026年2月26日

352000

การประเมินโมเดลขนาดใหญ่

การประเมิน Tongyi Qwen3.5-Flash: ขอบเขตแห่งดาบของดาวรุ่งโอเพ่นซอร์ส

ข้อสรุปหลัก: แหลมคมแห่งดาบแห่งนวัตกรรมโอเพ่นซอร์ส ข้อมูลพื้นฐาน: เมื่อไม่นานมานี้ Tongyi Qianwen ได้เปิดตัวโมเดล Qwen3.5-Flash โมเดลนี้เป็นเวอร์ชันปรับปรุงของ Qwen3.5-35B-A3B ที่เป…

2026年2月26日

222000

วิศวกรรมโมเดลขนาดใหญ่

Ali Qwen3.5-Plus ทดสอบจริง: โมเดล 397 พันล้านพารามิเตอร์ประสิทธิภาพพุ่งสูงขึ้น, ต้นทุนลดลง 47%

อาลีบาบาออกแบบ Qwen3.5 ซีรีส์อย่างเป็นทางการ และเปิดตัวโมเดลแรกของซีรีส์นี้ นั่นคือเวอร์ชันน้ำหนักเปิด (open-weight) ของ Qwen3.5-397B-A17B ในฐานะโมเดลภาษาภาพดั้งเดิม (Native Vision…

2026年2月21日

328000