Gemini 3.1 Pro เปิดตัวอย่างยิ่งใหญ่: ความสามารถในการให้เหตุผลเพิ่มขึ้นสองเท่า ประสิทธิภาพต้นทุนก้าวข้ามสองด้าน การแข่งขัน AI เข้าสู่ระยะใหม่

2026年2月20日 am8:52 • ข่าวสารอุตสาหกรรม AI • 236 views

วันนี้ Google เปิดตัว Gemini 3.1 Pro อย่างเป็นทางการ ในแบบทดสอบมาตรฐาน ARC-AGI-2 ซึ่งประเมินความสามารถของโมเดลในการแก้ไขรูปแบบตรรกะใหม่ คะแนนของมันสูงถึง 77.1% ซึ่งเพิ่มขึ้นมากกว่าเท่าตัวเมื่อเทียบกับ Gemini 3 Pro รุ่นก่อนหน้าที่ได้คะแนน 31.1%

Gemini 3.1 Pro เปิดตัวอย่างยิ่งใหญ่: ความสามารถในการให้เหตุผลเพิ่มขึ้นสองเท่า ประสิทธิภาพต้นทุนก้าวข้ามสองด้าน การแข่งขัน AI เข้าสู่ระยะใหม่

ผลการทดสอบมาตรฐานโดยละเอียด

จากข้อมูลการทดสอบโดยละเอียด Gemini 3.1 Pro ทำได้ดีขึ้นอย่างเห็นได้ชัดในหลายด้านสำคัญ:

การใช้เครื่องมืออัจฉริยะ: ความสามารถเพิ่มขึ้น 82% ในแบบทดสอบ APEX-Agents คะแนนเพิ่มขึ้นจาก 18.4% เป็น 33.5% อยู่ในอันดับ 1 ในแบบทดสอบ MCP Atlas (69.2%) และ BrowseComp (85.9%)
ความสามารถในการเขียนโปรแกรม: ทำได้ดีเยี่ยมในการทดสอบที่เข้มงวดซึ่งประเมินการเขียนโปรแกรมจริงและการใช้เครื่องมือ ได้คะแนน SWE-Bench Verified 80.6% และ Terminal-Bench 2.0 68.5%
อันดับ 1 ในด้านประสิทธิภาพโดยรวม: ตามรายงานดัชนีอัจฉริยะ v4.0 ที่เผยแพร่โดย Artificial Analysis Gemini 3.1 Pro รุ่นพรีวิวได้คะแนน 57 คะแนนในการทดสอบรวมที่มีตัวชี้วัดการประเมิน 10 รายการ กลับมายึดตำแหน่งผู้นำด้านประสิทธิภาพโมเดล AI อีกครั้ง นำหน้า Claude Opus 4.6 อยู่ 4 คะแนน
- ในหกโครงการประเมินชั้นนำ ที่โดดเด่นที่สุดคือแบบทดสอบการให้เหตุผลทางฟิสิกส์ CritPt ซึ่งได้คะแนน 18% สูงกว่าอันดับสอง 5 จุดเปอร์เซ็นต์ แบบทดสอบนี้ใช้ปัญหาฟิสิกส์ระดับการวิจัยที่ยังไม่ได้เผยแพร่ ซึ่งต้องการความสามารถในการให้เหตุผลทางวิทยาศาสตร์สูงมาก
- ในด้านความสามารถในการเขียนโปรแกรม โมเดลอยู่ในอันดับ 1 ทั้งในแบบทดสอบ Terminal-Bench Hard (การเขียนโปรแกรมอัจฉริยะและการใช้เทอร์มินัล) และ SciCode (การเขียนโปรแกรม) ได้คะแนน 54% และ 59% ตามลำดับ นำหน้าดัชนีการเขียนโปรแกรมของ Artificial Analysis
ความรู้และการควบคุมภาพหลอน:

ในแบบทดสอบ AA-Omniscience อัตราภาพหลอนของโมเดลลดลงอย่างมากจาก 88% เหลือ 50% ในขณะที่ความแม่นยำยังคงอยู่ที่ 53% เทียบเท่ารุ่นก่อน การปรับปรุง 17 จุดนี้ส่วนใหญ่มาจากโมเดลที่คาดเดาผิดน้อยลงเมื่อไม่รู้คำตอบ

ตัวชี้วัดประสิทธิภาพ

ความเร็ว: Gemini 3.1 Pro Preview มีความเร็วในการส่งออกเฉลี่ย 114 โทเค็น/วินาที ช้ากว่ารุ่นก่อนหน้าเล็กน้อย 10 โทเค็น/วินาที แต่ยังถือว่าเร็วในหมู่โมเดล 10 อันดับแรกของดัชนีอัจฉริยะ รองจากโมเดลอื่นๆ ของ Google
ฟังก์ชันการทำงานและหลายรูปแบบ: โมเดลยังคงหน้าต่างบริบท 1 ล้านโทเค็น รองรับการเรียกใช้เครื่องมือ การส่งออกที่มีโครงสร้าง และโหมด JSON ในด้านความเข้าใจหลายรูปแบบ มันอยู่ในอันดับ 1 ในแบบทดสอบ MMMU-Pro นำหน้า Gemini 3 Pro Preview และ Gemini 3 Flash
ประสิทธิภาพในงานจริง: สิ่งที่น่าสังเกตคือ ในแบบทดสอบ GDPval-AA ซึ่งเป็นงานจริง คะแนน ELO ของโมเดลเพิ่มขึ้นมากกว่า 100 คะแนนจากรุ่นก่อนหน้าเป็น 1316 แต่ยังคงตามหลัง Claude Sonnet 4.6, Opus 4.6, GPT-5.2 (xhigh) และ GLM-5

ความก้าวหน้าในด้านประสิทธิภาพต้นทุน

การเปิดตัวครั้งนี้ยังน่าสนใจในด้านการควบคุมต้นทุน:

* ต้นทุนในการทดสอบดัชนีอัจฉริยะเต็มรูปแบบของ Gemini 3.1 Pro Preview คือ 892 ดอลลาร์ ซึ่งน้อยกว่าครึ่งหนึ่งของโมเดลระดับสูงสุดเช่น Claude Opus 4.6 (max) และ GPT-5.2 (xhigh) แม้ว่าจะยังสูงกว่าโมเดลน้ำหนักโอเพ่นซอร์ส GLM-5 ประมาณ 2 เท่า
* โมเดลรักษาประสิทธิภาพการใช้โทเค็นไว้ได้ในขณะที่เพิ่มประสิทธิภาพ การทดสอบดัชนีอัจฉริยะใช้โทเค็นเพิ่มเพียง 1 ล้านโทเค็น (จาก 56 ล้านเป็น 57 ล้าน) เทียบกับรุ่นก่อนหน้า เพิ่มต้นทุนเพียง 72 ดอลลาร์
* ราคายังคงอยู่ที่ 2 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 12 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น โมเดลยังคงหน้าต่างบริบท 1 ล้านโทเค็น รองรับเอาต์พุต 64k ข้อมูลความรู้สิ้นสุดในเดือนมกราคม 2025

การแสดงตัวอย่างการใช้งานจริง

Google แสดงความสามารถจริงของ 3.1 Pro ผ่านตัวอย่างหลายกรณี:

แดชบอร์ดติดตามสถานีอวกาศนานาชาติ (ISS) แบบเรียลไทม์

โมเดลต้องประมวลผลโฟลว์ตรรกะหลายอย่างพร้อมกัน: ดึงข้อมูลโทรมาตรแบบเรียลไทม์จาก API สาธารณะ สร้าง UI ที่ตอบสนองได้ ใช้หลักการทางฟิสิกส์ในการเรนเดอร์วัฏจักรกลางวัน-กลางคืนที่แม่นยำ
การสร้างภาพเคลื่อนไหวจากโค้ด

สามารถสร้าง SVG ที่พร้อมใช้งานบนเว็บไซต์ได้โดยตรงจากข้อความพรอมต์ เนื่องจากเป็นโค้ดล้วนๆ ไม่ใช่พิกเซล จึงคมชัดในทุกระดับการซูม และมีขนาดไฟล์เล็กกว่าวิดีโอแบบดั้งเดิมมาก

มีผู้ใช้ทดสอบโมเดล AI หลักสองตัวด้วยพรอมต์เดียวกัน “Create a svg in html of a red Ferrari supercar” ด้านซ้ายคือผลลัพธ์ที่สร้างโดย Gemini 3.1 Pro ด้านขวามาจาก Claude Opus 4.6 จากมุมมองภาพ Gemini สร้างรถสปอร์ตที่มีเส้นสายลื่นไหล การออกแบบใกล้เคียงกับรถสปอร์ตรุ่นใหม่มากกว่า สัดส่วนตัวรถสมดุล ในขณะที่เวอร์ชันของ Claude ดูกลมมนกว่า
การจำลอง 3D แบบโต้ตอบได้

สร้างการจำลองฝูงนกสตาร์ลิงบิน โมเดลต้องเข้าใจหลักการทางฟิสิกส์ของ “murmuration” และทำให้สภาพแวดล้อมตอบสนองต่อการติดตามมือ พร้อมทั้งสร้างดนตรีประกอบที่เปลี่ยนแปลงตามการเคลื่อนไหวของฝูงนก
การเขียนโค้ดเชิงสร้างสรรค์

สร้างเว็บไซต์แฟ้มผลงานส่วนบุคคลโดยอิงจากนวนิยายเรื่อง “Wuthering Heights” โมเดลไม่เพียงแต่สรุปข้อความ แต่ยังให้เหตุผลเกี่ยวกับบรรยากาศและโทนของนวนิยายเพื่อออกแบบ UI สมัยใหม่ สร้างโค้ดที่จับแก่นแท้ของตัวละครได้

ปฏิกิริยาจากชุมชนเทคโนโลยี

ชุมชนเทคโนโลยีประทับใจกับการเปิดตัวครั้งนี้ มีความคิดเห็นชี้ให้เห็นว่าการเพิ่มความสามารถในการใช้เครื่องมือ 82% และการปรับปรุงการให้เหตุผลเชิงนามธรรม 2.5 เท่า ไม่ใช่การปรับปรุงแบบค่อยเป็นค่อยไป แต่เป็นการปลดล็อกความสามารถขั้นพื้นฐาน นโยบายราคาก็ทำให้เกิดการอภิปรายเช่นกัน มีมุมมองว่าการกำหนดราคาของ Google มีลักษณะที่เปลี่ยนแปลงอุตสาหกรรม ทำให้กลยุทธ์ราคาสูงของคู่แข่งเผชิญกับแรงกดดัน

Gemini 3.1 Pro เริ่มทยอยเปิดตัววันนี้ นักพัฒนาสามารถเข้าถึงผ่าน Google AI Studio, Antigravity, Gemini CLI และรุ่นพรีวิวของ Android Studio รุ่นสำหรับผู้บริโภคมีให้ในแอป Gemini และ NotebookLM แต่โควต้าที่สูงกว่าจำกัดสำหรับผู้ใช้ Google AI Pro และ Ultra เท่านั้น

มีผู้เชี่ยวชาญในวงการแสดงความคิดเห็นว่า การเปิดตัวครั้งนี้แสดงให้เห็นว่าจุดสนใจของการแข่งขัน AI กำลังเปลี่ยนจากขนาดพารามิเตอร์เพียงอย่างเดียวไปสู่ความสามารถในการให้เหตุผลจริง เมื่อโมเดลสามารถเข้าใจตรรกะภายในของระบบที่ซับซ้อนได้ ไม่ใช่แค่สร้างคำตอบที่ดูสมเหตุสมผล คุณค่าการใช้งานจริงจึงเริ่มปรากฏ

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22890

AI หลายรูปแบบ การทดสอบมาตรฐาน ความสามารถในการให้เหตุผล ประสิทธิภาพต้นทุน เจมินี 3.1 โปร

Like (0)

0 0

Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง

Previous 2026年2月20日 am7:40

Google Gemini 3.1 Pro เปิดตัวอย่างยิ่งใหญ่: บริบทล้านโทเค็น, ครองตำแหน่ง SOTA ทุกสาขา, ราชาแห่งการสร้าง SVG, ราคาคงที่แต่ประสิทธิภาพเพิ่มเท่าตัว

Next 2026年2月20日 am11:31

ข่าวสารอุตสาหกรรม AI

OpenAI สูญเสียผู้มีความสามารถครั้งใหญ่! รองประธานฝ่ายหลักลดตำแหน่งตัวเองย้ายไป Anthropic เพื่อกลับสู่การวิจัย RL แนวหน้า

OpenAI สูญเสียบุคลากรครั้งใหญ่! รองประธานฝ่ายวิจัยลาออกไปร่วมงาน Anthropic เพื่อกลับสู่การวิจัย RL แบบลงมือทำ แม็กซ์ ชวาร์เซอร์ อดีตรองประธานฝ่ายวิจัยของ OpenAI ประกาศลาออกและได้เข…

2026年3月5日
182000
ข่าวสารอุตสาหกรรม AI

ทีม Tsinghua เปิดตัว Motus: โลกแบบจำลองแรกที่รวมห้าพาราไดม์หลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

ทีมจากมหาวิทยาลัยชิงหวาเปิดตัว Motus: แบบจำลองโลกเชิงกายภาพแบบรวมแรกที่รวมห้าแนวทางหลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40% Motus ซึ่งเป็นแบบจำลองโลกแบบรวมที่เปิดตัวโดย Shengshu Te…

2026年2月6日
218000
ข่าวสารอุตสาหกรรม AI

OpenAI เปิดตัว Codex for Open Source: พ่อมดแห่งโค้ดลงมือเอง มอบ ChatGPT Pro ฟรีให้นักพัฒนาออปเพนซอร์ส

OpenAI เปิดตัวโครงการ Codex for Open Source มอบสิทธิ์เข้าถึง ChatGPT Pro ฟรีให้กับนักพัฒนาออปเพนซอร์ส OpenAI ได้เปิดตัวโครงการใหม่ชื่อ Codex for Open Source เพื่อสนับสนุนนักพัฒนาใน…

2026年3月8日
187000
ข่าวสารอุตสาหกรรม AI

สร้างโลกเหมือนพัฒนาซอฟต์แวร์: Agent2World มาแล้ว! แปลงโมเดลโลกให้เป็นสภาพแวดล้อมเชิงสัญลักษณ์ที่ทำงานได้

เพื่อให้โมเดลสามารถ “ลงมือทำ” ได้จริง มักจำเป็นต้องมีแบบจำลองโลกเชิงสัญลักษณ์ที่ปฏิบัติการและตรวจสอบได้ (Symbolic World Model) ซึ่งไม่ใช่คำอธิบายที่เป็นนามธรรม แต่เป็นน…

2026年2月2日
226000
ข่าวสารอุตสาหกรรม AI

โมเดล GLM-5-Turbo “กุ้งมังกรพิเศษ” แห่งแรกของโลกเปิดตัวแล้ว! Zhipu เปิดตัวชุดกุ้งมังกรราคา 39 หยวน

เปิดตัว GLM-5-Turbo โมเดล “ล็อบสเตอร์พิเศษ” รุ่นแรกของโลก วันนี้ Zhipu AI ได้เปิดเผยโมเดลลึกลับที่เคยทดสอบภายในมาก่อน Pony-Alpha-2 ซึ่งตัวตนที่แท้จริงคือโมเดลเฉพาะทางรุ…

2026年3月16日
196000

ผลการทดสอบมาตรฐานโดยละเอียด

ตัวชี้วัดประสิทธิภาพ

ความก้าวหน้าในด้านประสิทธิภาพต้นทุน

การแสดงตัวอย่างการใช้งานจริง

ปฏิกิริยาจากชุมชนเทคโนโลยี

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ทีม Tsinghua เปิดตัว Motus: โลกแบบจำลองแรกที่รวมห้าพาราไดม์หลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

OpenAI เปิดตัว Codex for Open Source: พ่อมดแห่งโค้ดลงมือเอง มอบ ChatGPT Pro ฟรีให้นักพัฒนาออปเพนซอร์ส

สร้างโลกเหมือนพัฒนาซอฟต์แวร์: Agent2World มาแล้ว! แปลงโมเดลโลกให้เป็นสภาพแวดล้อมเชิงสัญลักษณ์ที่ทำงานได้

โมเดล GLM-5-Turbo “กุ้งมังกรพิเศษ” แห่งแรกของโลกเปิดตัวแล้ว! Zhipu เปิดตัวชุดกุ้งมังกรราคา 39 หยวน