Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

2026年2月26日 pm2:24 • การอนุมานโมเดลขนาดใหญ่ • 278 views

เมื่อเดือนกรกฎาคมปีที่แล้ว การแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ได้เห็นระบบปัญญาประดิษฐ์เข้าสู่ระดับเหรียญทองเป็นครั้งแรก ในขณะนั้น OpenAI และ Google DeepMind ได้ประกาศผลงานของโมเดล AI ของตนในการทดสอบประเภทนี้อย่างต่อเนื่อง โดยโมเดล Gemini ของ DeepMind เป็นระบบ AI ระบบแรกที่ได้รับรองเหรียญทองอย่างเป็นทางการจาก IMO

อย่างไรก็ตาม ยังคงมีความแตกต่างอย่างมีนัยสำคัญระหว่างการแก้โจทย์แข่งขันกับการวิจัยคณิตศาสตร์ที่แท้จริง

นับจากนั้น เทคโนโลยีเอเจนต์อัจฉริยะได้พัฒนาอย่างรวดเร็ว ความสามารถในการแก้ปัญหาคณิตศาสตร์ของมันไม่ได้พึ่งพาเพียงความสามารถในการให้เหตุผลของโมเดลอีกต่อไป ปัจจุบัน AI สามารถดำเนินการวิจัยคณิตศาสตร์ได้ด้วยตนเอง แม้กระทั่งท้าทายปัญหาที่นักคณิตศาสตร์ระดับแนวหน้าต้องใช้ความคิดอย่างลึกซึ้ง นี่หมายถึงอะไร?

เมื่อไม่นานมานี้ Google DeepMind ได้เปิดตัวเอเจนต์วิจัยคณิตศาสตร์ล่าสุดชื่อ Aletheia ซึ่งขับเคลื่อนโดย Gemini DeepThink ในการแข่งขันวิจัยคณิตศาสตร์ FirstProof ครั้งแรก Aletheia สามารถแก้ปัญหาได้ 6 จาก 10 ปัญหาวิจัยระดับสูงที่ท้าทายทั้งหมดด้วยตนเอง สร้างสถิติที่ดีที่สุดของการแข่งขันนี้

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

Thang Luong หัวหน้าทิศทางการให้เหตุผลเหนือมนุษย์ของ DeepMind ซึ่งเคยนำทีมทำให้ AI ได้เหรียญทองใน IMO กล่าวว่า ความสำเร็จนี้มีความหมายที่เกินกว่าผลงานของ AI ที่ได้เหรียญทองในการทดสอบ IMO เมื่อปีที่แล้ว

บทความวิจัยที่เกี่ยวข้อง “Aletheia tackles FirstProof autonomously” ได้เผยแพร่บน arXiv ทีมงานยังได้เปิดเผยพรอมต์และผลลัพธ์ที่ใช้แก้ปัญหา FirstProof บน GitHub ด้วย

ชื่อบทความ: Aletheia tackles FirstProof autonomously
ลิงก์บทความ: https://arxiv.org/pdf/2602.21201
พรอมต์และผลลัพธ์: https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof: วาง AI ไว้ในสถานการณ์วิจัยคณิตศาสตร์จริง

FirstProof เป็นการท้าทายเชิงทดลองที่ออกแบบมาเพื่อประเมินความสามารถในการวิจัยคณิตศาสตร์ของ AI โดยเฉพาะ การท้าทายนี้ริเริ่มโดยนักวิจัยระดับแนวหน้าจำนวนมากที่ทำงานในสาขาคณิตศาสตร์แขนงต่างๆ โจทย์ทั้งหมดมาจากประเด็นวิจัยจริง มีเป้าหมายเพื่อประเมินศักยภาพการวิจัยของปัญญาประดิษฐ์ในปัจจุบัน

ปัญหาเหล่านี้ไม่เคยมีการพิสูจน์อย่างเปิดเผยมาก่อนที่จะเริ่มการท้าทาย ฝ่ายจัดทำได้เข้ารหัสและเก็บรักษาการพิสูจน์มาตรฐานไว้ล่วงหน้า เพื่อลดความเป็นไปได้ที่ข้อมูลการฝึกจะรั่วไหลให้มากที่สุด คำตอบที่ส่งในที่สุดต้องได้รับการตรวจสอบโดยผู้เชี่ยวชาญในสาขาด้วยตนเอง โดยตัดสินจากความเข้มงวดทางตรรกะและความยอมรับได้ทางวิชาการ มาตรฐานนี้ใกล้เคียงกับการตรวจสอบบทความมากกว่าการให้คะแนนอัตโนมัติ

การออกแบบนี้ตั้งใจเพิ่มความยาก เพื่อทดสอบความสามารถของ AI ในการให้เหตุผลระยะยาวและสร้างโครงสร้างในปัญหาที่ไม่คุ้นเคย กล่าวอีกนัยหนึ่ง FirstProof มุ่งเน้นที่ว่าระบบมีศักยภาพที่จะมีส่วนร่วมในการวิจัยคณิตศาสตร์หรือไม่

ปัญหาเหล่านี้เผยแพร่เมื่อวันที่ 5 กุมภาพันธ์ 2026 กำหนดส่งคือ 23:59 น. ตามเวลาแปซิฟิก ของวันที่ 13 กุมภาพันธ์ 2026 วิธีการแก้ไขจะถูกเผยแพร่บนอินเทอร์เน็ตหลังจากหมดเขต

การประเมินนี้ยากอย่างยิ่ง ผู้เชี่ยวชาญที่สามารถเข้าใจปัญหาเหล่านี้ได้จริงมีเพียงหยิบมือ สิ่งสำคัญคือ: คำตอบทั้งหมดของ Aletheia ถูกสร้างขึ้นโดยไม่มีการแทรกแซงของมนุษย์เลย และถูกส่งภายในกรอบเวลาที่กำหนดโดยการท้าทาย FirstProof

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO
แผนภาพแสดงขั้นตอนการทำงานโดยรวมของทีมวิจัย

ผู้เขียนหลักคนแรกของ FirstProof ยืนยันข้อเท็จจริงนี้

ทีมวิจัยได้รัน Aletheia สองเวอร์ชัน (แตกต่างกันเฉพาะในโมเดลพื้นฐานระดับล่างเท่านั้น) ซึ่งทั้งคู่ขับเคลื่อนโดย Gemini DeepThink ตามความคิดเห็นส่วนใหญ่ของผู้เชี่ยวชาญที่ตรวจสอบ ระบบทั้งสองร่วมกันแก้ปัญหาได้ 6 จาก 10 ข้อ (ข้อที่ 2, 5, 7, 8, 9, 10) เป็นที่น่าสังเกตว่า การประเมินของผู้เชี่ยวชาญสำหรับข้อที่ 8 ไม่ได้เป็นเอกฉันท์ทั้งหมด

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO
สรุปประสิทธิภาพของ Aletheia ใน FirstProof คอลัมน์การประเมินผู้เชี่ยวชาญแสดงจำนวนผู้เชี่ยวชาญที่ให้คะแนนวิธีแก้ปัญหาเป็น “ถูกต้อง” จากจำนวนผู้เชี่ยวชาญทั้งหมดที่ปรึกษา มีเพียง P8 เท่านั้นที่การประเมินไม่เป็นเอกฉันท์

การวิเคราะห์การแก้ปัญหาของ Aletheia

ผลการดำเนินการของเอเจนต์ทั้งสองในสิบปัญหาของ FirstProof มีดังนี้:

จาก 10 ปัญหาของ FirstProof Aletheia สร้างคำตอบที่เป็นตัวเลือกสำหรับ 6 ปัญหา (P2, P5, P7, P8, P9, P10) ภายใต้การตั้งค่าการประเมิน “best-of-2” ตามความคิดเห็นส่วนใหญ่ของผู้เชี่ยวชาญที่ตรวจสอบ ปัญหาทั้ง 6 ข้อนี้ได้รับการยอมรับว่าได้รับการแก้ไขอย่างถูกต้องภายใต้กรอบการตีความนี้แล้ว

Aletheia A และ Aletheia B ต่างก็สร้างคำตอบที่เป็นตัวเลือกสำหรับปัญหาเดียวกันทั้งหกข้อ เมื่อพิจารณาแยกกัน แต่ละเอเจนต์เคยตัดสิน “บวกปลอม” อย่างน้อยหนึ่งครั้ง แต่ภายใต้กลไกการประเมิน “best-of-2” พวกมันร่วมกันให้คำตอบที่น่าเชื่อถือสำหรับปัญหาทั้งหกข้อ ผลลัพธ์นี้แสดงให้เห็นถึงการปรับปรุงความแม่นยำที่ชัดเจนเมื่อเทียบกับเวอร์ชันของ Aletheia ที่ใช้แก้ปัญหา Erdős ในเดือนธันวาคม 2025

อย่างไรก็ตาม การประเมิน P8 ไม่ได้ผ่านด้วยความเห็นพ้องต้องกัน — ผู้เชี่ยวชาญ 5 จาก 7 คนให้คะแนน “ถูกต้อง” สำหรับอีก 4 ปัญหา (P1, P3, P4, P6) เอเจนต์ทั้งสองไม่ได้ให้คำตอบ: ไม่ว่าจะแสดงผลว่า “ไม่พบคำตอบ” อย่างชัดเจน หรือไม่ส่งคืนผลลัพธ์ใดๆ ภายในขีดจำกัดเวลา

ทีมวิจัยเชื่อว่า Aletheia มีกลไก “การคัดกรองตนเอง” ซึ่งเป็นหนึ่งในหลักการออกแบบที่สำคัญ ในกระบวนการขยาย AI ให้เป็นผู้ช่วยวิจัยคณิตศาสตร์ ความน่าเชื่อถือเป็นอุปสรรคสำคัญอันดับแรก หากเอเจนต์มักให้คำตอบที่ผิดพลาดหรือ “หลอน” จะทำให้เสียเวลาและพลังงานของผู้เชี่ยวชาญมนุษย์ในการตรวจสอบผลลัพธ์อย่างมาก ซึ่งขัดกับเป้าหมายในการเพิ่มประสิทธิภาพการวิจัยและระบบอัตโนมัติ

นอกจากนี้ ค่าใช้จ่ายในการให้เหตุผลเพื่อแก้ปัญหาก็เป็นตัวชี้วัดที่สำคัญมากเช่นกัน

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO
แผนภาพแสดงต้นทุนการให้เหตุผลสำหรับแต่ละคำตอบที่เป็นตัวเลือก และแสดงเป็นเท่าของต้นทุนการให้เหตุผลสำหรับการแก้ปัญหา Erdős-1051

ดังที่แสดงในรูป ต้นทุนการให้เหตุผลของ Aletheia ในทุกปัญหาสูงกว่าปัญหา Erdős-1051 โดยเฉพาะอย่างยิ่ง P7 มีต้นทุนการให้เหตุผลสูงกว่าขนาดที่เคยสังเกตมาก่อนถึงหนึ่งอันดับขนาด นักวิจัยระบุว่า สาเหตุหนึ่งเป็นเพราะเอเจนต์ย่อย Generator ใช้ทรัพยากรการคำนวณจำนวนมากในการสร้างคำตอบที่เป็นตัวเลือก อีกสาเหตุเป็นเพราะต้องใช้การโต้ตอบหลายรอบมากขึ้นจึงจะผ่านการตรวจสอบโดยเอเจนต์ย่อย Verifier

สรุป

การวิจัยคณิตศาสตร์ประกอบด้วยหลายขั้นตอน: การตั้งปัญหา การสร้างกรอบการทำงาน การค้นหาโครงสร้างสำคัญ การทำให้การพิสูจน์สมบูรณ์ ระบบในปัจจุบันยังไม่สามารถรับบทบาททั้งหมดได้อย่างครอบคลุมอย่างชัดเจน แต่มันเริ่มมีบทบาทในขั้นตอนการพิสูจน์และการตรวจสอบแล้ว

สถานการณ์การวิจัยในอนาคตอาจเปลี่ยนแปลง นักวิจัยมนุษย์เสนอทิศทางและแนวคิดหลัก AI รับผิดชอบการค้นหาเส้นทางอย่างเข้มข้นและการตรวจสอบในรูปแบบที่เป็นทางการ จากนั้นมนุษย์จึงทำการบูรณาการทางทฤษฎีและยกระดับ แบบจำลองการทำงานร่วมกันนี้กำลังค่อยๆ ก่อตัวขึ้น

คณิตศาสตร์ถูกมองว่าเป็นพื้นที่สูงสุดของความสามารถทางเหตุผลของมนุษย์มาเป็นเวลานาน ปัจจุบัน AI กำลังก้าวข้ามพรมแดนนี้อย่างเป็นรูปธรรม เมื่อเครื่องจักรเริ่มทำการพิสูจน์ระดับวิจัยได้อย่างมั่นคง เราอาจต้องคิดทบทวนคำถามหนึ่งใหม่: ในรายชื่อผู้เขียนบทความคณิตศาสตร์ในอนาคต AI จะปรากฏในสถานะใด?

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง