
ในการทดสอบ ARC-AGI-2, Gemini 3.1 Pro ได้คะแนน 77.1% โดยมีประสิทธิภาพมากกว่าสองเท่าของรุ่นก่อนหน้า 3.0 Pro ในการทดสอบ ARC-AGI-1 โมเดลใหม่ได้คะแนนสูงถึง 98% แซงหน้า GPT-5.2 Pro และ Claude Opus 4.6

เหยาซุ่นหยู ศิษย์เก่ามหาวิทยาลัยชิงหวา ที่เคยมีส่วนร่วมในการวิจัย Gemini 3 Deep Think ก็ได้มีส่วนร่วมในการวิจัย 3.1 Pro ด้วยเช่นกัน และได้โพสต์ข้อความว่า: 「จะมีโมเดลที่ดีกว่านี้ทยอยออกมาอย่างต่อเนื่องในภายหลัง」

ในแอนิเมชัน SVG “นกกระทุงขี่จักรยาน” ที่แสดงในทางการ ภายใต้คำสั่งเดียวกัน ผลลัพธ์ที่สร้างโดย Gemini 3.1 Pro มีการพัฒนาอย่างเห็นได้ชัดเมื่อเทียบกับรุ่นก่อนหน้า

คอนเท็กซ์ยาวล้านโทเคน ทำลายสถิติ SOTA ทุกสาขา
Gemini 3.1 Pro มีความสามารถในการรับอินพุตแบบมัลติโมดัลแบบเนทีฟ รองรับคอนเท็กซ์ยาวสูงสุดถึง 1 ล้านโทเคน โดยข้อมูลความรู้มีอายุถึงเดือนมกราคม 2025

Google ระบุว่า 3.1 Pro บรรลุการก้าวกระโดดเพิ่มเติมในความสามารถด้านการให้เหตุผลหลัก ในการทดสอบมาตรฐานภายใน โมเดลนี้ทำลายสถิติ SOTA ในหลายสาขา:
- ความสามารถในการให้เหตุผล: ในการสอบสุดท้ายของมนุษย์ (HLE) Gemini 3.1 Pro ได้คะแนน 44.4% โดยไม่ใช้เครื่องมือช่วยใดๆ แซงหน้า GPT-5.2 (34.5%) และ Opus 4.6 (40%)
- ความรู้ทางวิทยาศาสตร์: ได้คะแนน 94.3% ในการทดสอบระดับเพชรของ GPQA
- การเขียนโค้ด: ได้คะแนน Elo 2887 บน LiveCodeBench Pro และได้คะแนน 80.6% บน SWE-Bench Verified
- ความเข้าใจแบบมัลติโมดัล: บรรลุ 92.6% ในการทดสอบ MMMLU

บนกระดานคะแนนของ Artificial Analysis, Gemini 3.1 Pro ได้ขึ้นสู่ตำแหน่งสูงสุดแล้ว

เมื่อเทียบกับรุ่นก่อนหน้า อัตราการหลอน (hallucination) ของ Gemini 3.1 Pro ลดลง 38% ซึ่งหมายความว่าแนวโน้มที่โมเดลจะ “เดา” เมื่อไม่แน่ใจในคำตอบลดลงอย่างมีนัยสำคัญ

ประสิทธิภาพการประยุกต์ใช้ก้าวกระโดด ความสามารถในการสร้าง SVG เด่นชัด
Gemini 3.1 Pro มีประสิทธิภาพในระดับการประยุกต์ใช้ที่ก้าวหน้าอย่างเห็นได้ชัดเมื่อเทียบกับรุ่นก่อนหน้า
ตัวอย่างเช่น เมื่อสร้างโลกโปเกมอนสำหรับการสร้างแบบจำลอง 3D ผลลัพธ์ของ 3.1 Pro มีชีวิตชีวามากขึ้นและมีรายละเอียดที่สมบูรณ์ยิ่งขึ้น

ในหลายกรณีตัวอย่างการสาธิต 3.1 Pro แสดงผลโดดเด่นเป็นพิเศษในด้านการสร้าง SVG

มันยังสามารถพัฒนาแอปพลิเคชันการวางผังเมืองที่สมจริง จัดการภูมิประเทศที่ซับซ้อน วาดแผนผังโครงสร้างพื้นฐาน และจำลองการจราจร โดยมีคุณภาพการแสดงผลภาพที่สูง

ในด้านการเขียนโปรแกรมเชิงสร้างสรรค์ 3.1 Pro สามารถแปลงธีมทางวรรณกรรมให้เป็นโค้ดที่รันได้ ตัวอย่างเช่น เมื่อออกแบบโฮมเพจสไตล์โมเดิร์นสำหรับนวนิยาย “Wuthering Heights” มันสามารถเข้าใจโทนของนวนิยายอย่างลึกซึ้ง และออกแบบอินเทอร์เฟซที่ทันสมัยและมีสไตล์

ราคาไม่เปลี่ยนแปลง คุ้มค่าด้านราคาโดดเด่น
Gemini 3.1 Pro ยังคงราคาเดิมเหมือนกับ 3 Pro: อินพุตเริ่มต้นที่ 2 ดอลลาร์ต่อล้านโทเคน เอาต์พุตเริ่มต้นที่ 12 ดอลลาร์ต่อล้านโทเคน
ในทางตรงกันข้าม Claude Opus 4.6 ตั้งราคาที่ 5 ดอลลาร์/25 ดอลลาร์ ส่วน GPT-5.2 ตั้งราคาที่ 1.75 ดอลลาร์/14 ดอลลาร์ ตามการคำนวณของ Artificial Analysis การรันชุดทดสอบดัชนีความฉลาดทั้งหมด ค่าใช้จ่ายของ Gemini 3.1 Pro น้อยกว่าครึ่งหนึ่งของ Claude Opus 4.6

บนมาตรฐาน ARC-AGI ค่าใช้จ่ายต่อการทำงานหนึ่งงานของ ARC-AGI-2 ประมาณ 0.96 ดอลลาร์ ในทางตรงกันข้าม Gemini 3 Deep Think ซึ่งมีประสิทธิภาพต่างกันเพียงไม่กี่เปอร์เซ็นต์ มีราคาสูงกว่า 3.1 Pro ถึง 10 เท่า
Google ระบุว่า Gemini 3.1 Pro ที่เปิดตัววันนี้เป็นรุ่นพรีวิว ในอนาคตจะมุ่งแสวงหาการก้าวข้ามเพิ่มเติมในด้านต่างๆ เช่น กระบวนการทำงานอัตโนมัติ และจะเปิดให้บริการอย่างเป็นทางการและครบถ้วน ปัจจุบันโมเดลนี้ได้เปิดให้บริการแล้วใน Gemini และ NotebookLM นักพัฒนาสามารถทดลองใช้ก่อนได้ผ่าน Google AI Studio, Antigravity และ Android Studio
ลิงก์อ้างอิง:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/ShunyuYao14/status/2024570477390582189
https://deepmind.google/models/gemini/pro/
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22889
