วันนี้ Google เปิดตัว Gemini 3.1 Pro อย่างเป็นทางการ ในแบบทดสอบมาตรฐาน ARC-AGI-2 ซึ่งประเมินความสามารถของโมเดลในการแก้ไขรูปแบบตรรกะใหม่ คะแนนของมันสูงถึง 77.1% ซึ่งเพิ่มขึ้นมากกว่าเท่าตัวเมื่อเทียบกับ Gemini 3 Pro รุ่นก่อนหน้าที่ได้คะแนน 31.1%

ผลการทดสอบมาตรฐานโดยละเอียด
จากข้อมูลการทดสอบโดยละเอียด Gemini 3.1 Pro ทำได้ดีขึ้นอย่างเห็นได้ชัดในหลายด้านสำคัญ:

- การใช้เครื่องมืออัจฉริยะ: ความสามารถเพิ่มขึ้น 82% ในแบบทดสอบ APEX-Agents คะแนนเพิ่มขึ้นจาก 18.4% เป็น 33.5% อยู่ในอันดับ 1 ในแบบทดสอบ MCP Atlas (69.2%) และ BrowseComp (85.9%)
- ความสามารถในการเขียนโปรแกรม: ทำได้ดีเยี่ยมในการทดสอบที่เข้มงวดซึ่งประเมินการเขียนโปรแกรมจริงและการใช้เครื่องมือ ได้คะแนน SWE-Bench Verified 80.6% และ Terminal-Bench 2.0 68.5%
- อันดับ 1 ในด้านประสิทธิภาพโดยรวม: ตามรายงานดัชนีอัจฉริยะ v4.0 ที่เผยแพร่โดย Artificial Analysis Gemini 3.1 Pro รุ่นพรีวิวได้คะแนน 57 คะแนนในการทดสอบรวมที่มีตัวชี้วัดการประเมิน 10 รายการ กลับมายึดตำแหน่งผู้นำด้านประสิทธิภาพโมเดล AI อีกครั้ง นำหน้า Claude Opus 4.6 อยู่ 4 คะแนน

- ในหกโครงการประเมินชั้นนำ ที่โดดเด่นที่สุดคือแบบทดสอบการให้เหตุผลทางฟิสิกส์ CritPt ซึ่งได้คะแนน 18% สูงกว่าอันดับสอง 5 จุดเปอร์เซ็นต์ แบบทดสอบนี้ใช้ปัญหาฟิสิกส์ระดับการวิจัยที่ยังไม่ได้เผยแพร่ ซึ่งต้องการความสามารถในการให้เหตุผลทางวิทยาศาสตร์สูงมาก
- ในด้านความสามารถในการเขียนโปรแกรม โมเดลอยู่ในอันดับ 1 ทั้งในแบบทดสอบ Terminal-Bench Hard (การเขียนโปรแกรมอัจฉริยะและการใช้เทอร์มินัล) และ SciCode (การเขียนโปรแกรม) ได้คะแนน 54% และ 59% ตามลำดับ นำหน้าดัชนีการเขียนโปรแกรมของ Artificial Analysis
- ความรู้และการควบคุมภาพหลอน:

ในแบบทดสอบ AA-Omniscience อัตราภาพหลอนของโมเดลลดลงอย่างมากจาก 88% เหลือ 50% ในขณะที่ความแม่นยำยังคงอยู่ที่ 53% เทียบเท่ารุ่นก่อน การปรับปรุง 17 จุดนี้ส่วนใหญ่มาจากโมเดลที่คาดเดาผิดน้อยลงเมื่อไม่รู้คำตอบ

ตัวชี้วัดประสิทธิภาพ
- ความเร็ว: Gemini 3.1 Pro Preview มีความเร็วในการส่งออกเฉลี่ย 114 โทเค็น/วินาที ช้ากว่ารุ่นก่อนหน้าเล็กน้อย 10 โทเค็น/วินาที แต่ยังถือว่าเร็วในหมู่โมเดล 10 อันดับแรกของดัชนีอัจฉริยะ รองจากโมเดลอื่นๆ ของ Google
- ฟังก์ชันการทำงานและหลายรูปแบบ: โมเดลยังคงหน้าต่างบริบท 1 ล้านโทเค็น รองรับการเรียกใช้เครื่องมือ การส่งออกที่มีโครงสร้าง และโหมด JSON ในด้านความเข้าใจหลายรูปแบบ มันอยู่ในอันดับ 1 ในแบบทดสอบ MMMU-Pro นำหน้า Gemini 3 Pro Preview และ Gemini 3 Flash
- ประสิทธิภาพในงานจริง: สิ่งที่น่าสังเกตคือ ในแบบทดสอบ GDPval-AA ซึ่งเป็นงานจริง คะแนน ELO ของโมเดลเพิ่มขึ้นมากกว่า 100 คะแนนจากรุ่นก่อนหน้าเป็น 1316 แต่ยังคงตามหลัง Claude Sonnet 4.6, Opus 4.6, GPT-5.2 (xhigh) และ GLM-5
ความก้าวหน้าในด้านประสิทธิภาพต้นทุน
การเปิดตัวครั้งนี้ยังน่าสนใจในด้านการควบคุมต้นทุน:

* ต้นทุนในการทดสอบดัชนีอัจฉริยะเต็มรูปแบบของ Gemini 3.1 Pro Preview คือ 892 ดอลลาร์ ซึ่งน้อยกว่าครึ่งหนึ่งของโมเดลระดับสูงสุดเช่น Claude Opus 4.6 (max) และ GPT-5.2 (xhigh) แม้ว่าจะยังสูงกว่าโมเดลน้ำหนักโอเพ่นซอร์ส GLM-5 ประมาณ 2 เท่า
* โมเดลรักษาประสิทธิภาพการใช้โทเค็นไว้ได้ในขณะที่เพิ่มประสิทธิภาพ การทดสอบดัชนีอัจฉริยะใช้โทเค็นเพิ่มเพียง 1 ล้านโทเค็น (จาก 56 ล้านเป็น 57 ล้าน) เทียบกับรุ่นก่อนหน้า เพิ่มต้นทุนเพียง 72 ดอลลาร์
* ราคายังคงอยู่ที่ 2 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 12 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น โมเดลยังคงหน้าต่างบริบท 1 ล้านโทเค็น รองรับเอาต์พุต 64k ข้อมูลความรู้สิ้นสุดในเดือนมกราคม 2025
การแสดงตัวอย่างการใช้งานจริง
Google แสดงความสามารถจริงของ 3.1 Pro ผ่านตัวอย่างหลายกรณี:
-
แดชบอร์ดติดตามสถานีอวกาศนานาชาติ (ISS) แบบเรียลไทม์
โมเดลต้องประมวลผลโฟลว์ตรรกะหลายอย่างพร้อมกัน: ดึงข้อมูลโทรมาตรแบบเรียลไทม์จาก API สาธารณะ สร้าง UI ที่ตอบสนองได้ ใช้หลักการทางฟิสิกส์ในการเรนเดอร์วัฏจักรกลางวัน-กลางคืนที่แม่นยำ
-
การสร้างภาพเคลื่อนไหวจากโค้ด
สามารถสร้าง SVG ที่พร้อมใช้งานบนเว็บไซต์ได้โดยตรงจากข้อความพรอมต์ เนื่องจากเป็นโค้ดล้วนๆ ไม่ใช่พิกเซล จึงคมชัดในทุกระดับการซูม และมีขนาดไฟล์เล็กกว่าวิดีโอแบบดั้งเดิมมาก

มีผู้ใช้ทดสอบโมเดล AI หลักสองตัวด้วยพรอมต์เดียวกัน “Create a svg in html of a red Ferrari supercar” ด้านซ้ายคือผลลัพธ์ที่สร้างโดย Gemini 3.1 Pro ด้านขวามาจาก Claude Opus 4.6 จากมุมมองภาพ Gemini สร้างรถสปอร์ตที่มีเส้นสายลื่นไหล การออกแบบใกล้เคียงกับรถสปอร์ตรุ่นใหม่มากกว่า สัดส่วนตัวรถสมดุล ในขณะที่เวอร์ชันของ Claude ดูกลมมนกว่า
-
การจำลอง 3D แบบโต้ตอบได้
สร้างการจำลองฝูงนกสตาร์ลิงบิน โมเดลต้องเข้าใจหลักการทางฟิสิกส์ของ “murmuration” และทำให้สภาพแวดล้อมตอบสนองต่อการติดตามมือ พร้อมทั้งสร้างดนตรีประกอบที่เปลี่ยนแปลงตามการเคลื่อนไหวของฝูงนก
-
การเขียนโค้ดเชิงสร้างสรรค์
สร้างเว็บไซต์แฟ้มผลงานส่วนบุคคลโดยอิงจากนวนิยายเรื่อง “Wuthering Heights” โมเดลไม่เพียงแต่สรุปข้อความ แต่ยังให้เหตุผลเกี่ยวกับบรรยากาศและโทนของนวนิยายเพื่อออกแบบ UI สมัยใหม่ สร้างโค้ดที่จับแก่นแท้ของตัวละครได้
ปฏิกิริยาจากชุมชนเทคโนโลยี
ชุมชนเทคโนโลยีประทับใจกับการเปิดตัวครั้งนี้ มีความคิดเห็นชี้ให้เห็นว่าการเพิ่มความสามารถในการใช้เครื่องมือ 82% และการปรับปรุงการให้เหตุผลเชิงนามธรรม 2.5 เท่า ไม่ใช่การปรับปรุงแบบค่อยเป็นค่อยไป แต่เป็นการปลดล็อกความสามารถขั้นพื้นฐาน นโยบายราคาก็ทำให้เกิดการอภิปรายเช่นกัน มีมุมมองว่าการกำหนดราคาของ Google มีลักษณะที่เปลี่ยนแปลงอุตสาหกรรม ทำให้กลยุทธ์ราคาสูงของคู่แข่งเผชิญกับแรงกดดัน
Gemini 3.1 Pro เริ่มทยอยเปิดตัววันนี้ นักพัฒนาสามารถเข้าถึงผ่าน Google AI Studio, Antigravity, Gemini CLI และรุ่นพรีวิวของ Android Studio รุ่นสำหรับผู้บริโภคมีให้ในแอป Gemini และ NotebookLM แต่โควต้าที่สูงกว่าจำกัดสำหรับผู้ใช้ Google AI Pro และ Ultra เท่านั้น
มีผู้เชี่ยวชาญในวงการแสดงความคิดเห็นว่า การเปิดตัวครั้งนี้แสดงให้เห็นว่าจุดสนใจของการแข่งขัน AI กำลังเปลี่ยนจากขนาดพารามิเตอร์เพียงอย่างเดียวไปสู่ความสามารถในการให้เหตุผลจริง เมื่อโมเดลสามารถเข้าใจตรรกะภายในของระบบที่ซับซ้อนได้ ไม่ใช่แค่สร้างคำตอบที่ดูสมเหตุสมผล คุณค่าการใช้งานจริงจึงเริ่มปรากฏ
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22890
