รีวิวเชิงลึก Gemini 3.1 Pro Preview: ความเร็วตรรกะขึ้นแท่นสูงสุด ข้อได้เปรียบด้านต้นทุนลดลง เตรียมประลองศักดาเดือดกับ GPT-5.2

สรุปสั้นๆ: กษัตริย์และม้าครองโลกไปด้วยกัน

สถานการณ์พื้นฐาน:

การไล่ล่าของ Google และ OpenAI ในด้านโมเดลระดับสูงสุดนั้นดุเดือดเป็นพิเศษ สามเดือนก่อน Gemini 3 Pro เคยนำหน้า GPT-5 ในขณะนั้น จากนั้นถูก GPT-5.2 แซงหน้า ทั้งสองฝ่ายผลัดกันเป็นผู้นำทีละหลายสิบวัน ปัจจุบัน Gemini 3 Pro ยังคงอยู่ในขั้นตอน Preview ผู้สืบทอด 3.1 Pro Preview ได้ปรากฏตัวขึ้น ส่วน GPT-5.2 ที่ครองตำแหน่งราชาแห่งปัญญามาเป็นเวลาสองเดือน ตำแหน่งผู้นำของมันก็ถูก Google แย่งกลับไปอีกครั้ง

อย่างไรก็ตาม ต่างจากสถานการณ์ที่ Gemini 3 Pro นำหน้าอย่างสมบูรณ์ในยุคนั้น รุ่น 3.1 Pro นี้มีการใช้ Token เพิ่มขึ้น ซึ่งใกล้เคียงกับระดับ “high” ของ GPT-5.2 แล้ว มีเพียงระดับ “xhigh” ของ GPT-5.2 เท่านั้นที่สูงกว่า ดังนั้นข้อได้เปรียบด้านต้นทุนโดยรวมจึงลดลง ไม่เด่นชัดเท่ายุค 3 Pro โชคดีที่ Google มีทรัพยากรฮาร์ดแวร์อุดมสมบูรณ์ ความเร็วในการอนุมานเฉลี่ย 120 TPS ทำให้แม้หลังจาก Chain of Thought ขยายตัวแล้ว ซีรีส์ Gemini ยังคงเป็นโมเดลที่เร็วที่สุดในกลุ่มผู้นำ

ผลคะแนนด้านตรรกะ:

รีวิวเชิงลึก Gemini 3.1 Pro Preview: ความเร็วตรรกะขึ้นแท่นสูงสุด ข้อได้เปรียบด้านต้นทุนลดลง เตรียมประลองศักดาเดือดกับ GPT-5.2

1 ตารางเพื่อเน้นความสัมพันธ์เปรียบเทียบ แสดงเฉพาะโมเดลบางส่วนที่สามารถเปรียบเทียบได้ ไม่ใช่การจัดอันดับแบบสมบูรณ์
2 หัวข้อและวิธีการทดสอบ ดูได้ที่การประเมินความสามารถด้านตรรกะที่เกี่ยวข้อง
3 รายการอันดับสมบูรณ์อัปเดตบนเว็บไซต์ที่กำหนด
4 โมเดลตัวอักษรสีแดงหมายถึงทำงานในโหมด Reasoning (คิดช้า) ส่วนโมเดลตัวอักษรสีดำคือโหมด Non-Reasoning ที่สอดคล้องกัน (คิดเร็ว)

ต่อไปนี้เป็นการเปรียบเทียบหลักระหว่าง Gemini 3.1 Pro Preview (ต่อไปจะเรียกว่า G3.1P) กับรุ่นก่อนหน้า Gemini 3 Pro Preview (ต่อไปจะเรียกว่า G3P)

การปรับปรุง:

  • การให้เหตุผลแบบอุปนัย: ความสามารถในการอุปนัยเป็นจุดแข็งของซีรีส์ Gemini และ GPT รุ่นก่อนหน้า G3P เคยแสดงให้เห็นแล้วว่าใช้เพียงแค่ 10K กว่าๆ หรือแม้แต่ไม่กี่พัน Token ก็สามารถทำโจทย์ประเภทอุปนัยที่โมเดลอื่นต้องใช้ 40K Token ขึ้นไปถึงจะได้คะแนนแบบฝืดๆ ได้ G3.1P ยืดจุดแข็งนี้ให้ยาวขึ้นอีก ตัวอย่างเช่น ปัญหาแผนหมากรุก #52 รุ่นก่อนหน้า G3P ได้คะแนนครึ่งหนึ่งก็ยังนำหน้าโมเดลทั้งหมดยกเว้น GPT-5 ในขณะนั้นแล้ว ส่วน G3.1P สามารถได้คะแนนเต็มอย่างมั่นคง โดยใช้ Token เพียง 20K กว่าๆ โจทย์ประเภทนี้ต้องการให้ไม่เกิดภาพหลอนแม้แต่ตัวอักษรเดียวตลอดทั้งบทความ และสามารถค้นหากฎจากความเปลี่ยนแปลงของตัวอักษร ทำการคาดเดา และตรวจสอบซ้ำได้ ในทำนองเดียวกัน ในโจทย์การหาอนุพันธ์กฎคณิตศาสตร์ #58 G3.1P และ GPT-5.2 ก็เป็นเพียงสองโมเดลที่ได้คะแนนครึ่งหนึ่ง

  • การปฏิบัติตามคำสั่ง: ความมั่นคงในการปฏิบัติตามคำสั่งของรุ่นก่อนหน้า G3P นั้นไม่เพียงพอ คำสั่งทางอ้อมที่ต้องใช้การคิดเล็กน้อยมักจะผิดพลาด บวกกับภาพหลอนบริบทที่ไม่ต่ำ ทำให้ยิ่งใช้เหตุผลยาว คำสั่งก็ยิ่งสูญหายมากขึ้น G3.1P แทบจะเอาชนะปัญหาประเภทนี้ได้แล้ว ไม่ว่าความซับซ้อนของคำสั่งและความยาวของบริบทจะเป็นอย่างไร ก็สามารถปฏิบัติตามได้อย่างถูกต้องและมั่นคง ความสามารถในการปฏิบัติตามคำสั่งที่แข็งแกร่งนี้ยังส่งผลเสริมให้กับโจทย์อื่นๆ ที่ไม่ได้มีจุดประสงค์ทดสอบคำสั่งโดยตรงแต่เกี่ยวข้องกับกฎเกณฑ์ ตัวอย่างเช่น โจทย์การประมวลผลตัวอักษร #48 ที่มีกฎการประมวลผลจำนวนมาก G3.1P เป็นโมเดลที่สองที่ได้คะแนนเต็ม ต่อจาก GPT-5.2 อย่างไรก็ตาม เมื่อเทียบกับ GPT-5.2 แล้ว ความมั่นคงในการปฏิบัติตามของ G3.1P ยังด้อยกว่าอยู่เล็กน้อย ซึ่งจะรับรู้ได้เมื่อใช้งานใน規模ใหญ่

  • ความสามารถในการคำนวณ: การคำนวณเคยเป็นหนึ่งในจุดอ่อนเรื้อรังของซีรีส์ Gemini และในรุ่น G3.1P นี้ก็ได้รับการเติมเต็มในที่สุด ด้วยการขยาย Chain of Thought ที่เหมาะสม การคำนวณที่ค่อนข้างซับซ้อนก็มีงบประมาณ Token มากขึ้นเพื่อแสดงสมการ และสามารถรักษาความแม่นยำในการคำนวณอย่างน้อยสามตำแหน่งทศนิยมได้ ในการทดสอบก่อนหน้านี้เคยกล่าวไว้ว่า มาตรฐานการทดสอบการคำนวณของผู้เขียนอ้างอิงจากข้อกำหนดสำหรับมนุษย์ในการสอบระดับมัธยมศึกษาที่ไม่อนุญาตให้นำเครื่องคิดเลขเข้าไป สำหรับการสอบระดับสูงขึ้นหรือโมเดลใหญ่ ควรอนุญาตให้ใช้เครื่องมือคำนวณภายนอกได้ ดังนั้น ซีรีส์ Gemini สามารถถือได้ว่าความสามารถในการคำนวณ “ด้วยมือ” ของมันจบการศึกษาแล้ว

ข้อบกพร่อง:

  • การให้เหตุผลแบบโซ่ยาว: การใช้ Token เฉลี่ยของ G3.1P เพิ่มขึ้นเมื่อเทียบกับ G3P แต่ไม่ใช่การเพิ่มขึ้นทั่วไป จุดเพิ่มขึ้นหลักอยู่ที่ปัญหาการให้เหตุผลแบบโซ่ยาว ซึ่งการใช้ Token เพิ่มขึ้นเกือบเท่าตัว อย่างไรก็ตาม Token ที่เพิ่มมานั้นไม่ได้แลกมาด้วยการเพิ่มประสิทธิภาพเป็นเท่าตัว คะแนนสูงสุดของปัญหาที่เกี่ยวข้องเพิ่มขึ้นเพียงเล็กน้อย ในขณะที่ความมั่นคงกลับลดลง ภาพที่ G3P รุ่นก่อนหน้าใช้เพียงไม่กี่พัน Token ก็ได้คะแนนสูง และดูน่าทึ่งเมื่อเทียบกับโมเดลอื่นๆ นั้นได้หายไปแล้ว

  • ภาพหลอน: ปัญหาภาพหลอนของรุ่นก่อนหน้า G3P ที่ถูกวิพากษ์วิจารณ์อย่างมากนั้น มีการปรับปรุงใน G3.1P จริง แต่ในฐานะโมเดลชั้นนำของโลก อัตราภาพหลอนของ G3.1P ยังสูงกว่า GPT-5.2 ในปัญหาประเภทการดึงข้อมูล ยังมีความน่าจะเป็นไม่น้อยที่ทำได้ไม่แม่นยำ ในปัญหาสรุปรายงานประจำปี #42 จะเกิดการสูญหายของข้อมูล ปัญหาการรวมคำ #57 ก็มีลักษณะคล้ายกัน ซึ่งไม่สอดคล้องกับระดับสติปัญญาของโมเดลเองเลย

นักประวัติศาสตร์ไซเบอร์กล่าวว่า:

นับตั้งแต่ทีม Gemini ตรัสรู้ Gemini และซีรีส์ GPT ก็ต่อสู้กันไม่หยุดหย่อน ตั้งแต่ o3 สู้กับ GPT-5 ต่อสู้กับ GPT-5.2 จุดแข็งประจำตระกูลของซีรีส์ GPT นั่นคือพลังการคิดเชิงลึก洞察思考力 (Insightful Thinking) ก็ถูก Gemini ไล่ตามทันและเริ่มแซงหน้าในบางส่วน นอกจากนี้ Gemini ได้สร้างอำนาจระดับปกครองในด้านมัลติโมดัลไปนานแล้ว และยังออกอาวุธบ่อยครั้งในด้านการสร้างวิดีโอและ World Model ข้อได้เปรียบในการนำหน้าของ OpenAI ถูกกัดกร่อนไปทีละจุด

อย่างไรก็ตาม ยังเร็วเกินไปที่จะสรุปว่า Gemini นำหน้าอย่างสมบูรณ์แล้ว เพราะ GPT-5.2 เป็นผลิตภัณฑ์เมื่อสองเดือนก่อน GPT รุ่นต่อไป 5.3 ก็พร้อมจะออกแล้ว และมีเจตนาที่จะชิงอันดับหนึ่งกลับมาแน่นอน การต่อสู้แย่งชิงพื้นที่ระหว่างสองยักษ์ใหญ่ในอเมริกาเหนือเช่นนี้จะไม่จบลงในระยะสั้น เนื่องจากทั้งสองฝ่ายต่างมุ่งไปสู่ถ้วยศักดิ์สิทธิ์ AGI เป็นที่คาดหวังได้ว่าสายผลิตภัณฑ์และความสามารถจะคล้ายกันมากขึ้น ในที่สุด ทวีปอเมริกาเหนืออาจมีโมเดลสุดยอดสองรุ่นอยู่ร่วมกัน แบ่งปันโลกไปด้วยกัน


ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22887

Like (0)
Previous 2026年2月20日 pm8:16
Next 2026年2月21日 am7:16

相关推荐