Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

เมื่อเดือนกรกฎาคมปีที่แล้ว การแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ได้เห็นระบบปัญญาประดิษฐ์เข้าสู่ระดับเหรียญทองเป็นครั้งแรก ในขณะนั้น OpenAI และ Google DeepMind ได้ประกาศผลงานของโมเดล AI ของตนในการทดสอบประเภทนี้อย่างต่อเนื่อง โดยโมเดล Gemini ของ DeepMind เป็นระบบ AI ระบบแรกที่ได้รับรองเหรียญทองอย่างเป็นทางการจาก IMO

อย่างไรก็ตาม ยังคงมีความแตกต่างอย่างมีนัยสำคัญระหว่างการแก้โจทย์แข่งขันกับการวิจัยคณิตศาสตร์ที่แท้จริง

นับจากนั้น เทคโนโลยีเอเจนต์อัจฉริยะได้พัฒนาอย่างรวดเร็ว ความสามารถในการแก้ปัญหาคณิตศาสตร์ของมันไม่ได้พึ่งพาเพียงความสามารถในการให้เหตุผลของโมเดลอีกต่อไป ปัจจุบัน AI สามารถดำเนินการวิจัยคณิตศาสตร์ได้ด้วยตนเอง แม้กระทั่งท้าทายปัญหาที่นักคณิตศาสตร์ระดับแนวหน้าต้องใช้ความคิดอย่างลึกซึ้ง นี่หมายถึงอะไร?

เมื่อไม่นานมานี้ Google DeepMind ได้เปิดตัวเอเจนต์วิจัยคณิตศาสตร์ล่าสุดชื่อ Aletheia ซึ่งขับเคลื่อนโดย Gemini DeepThink ในการแข่งขันวิจัยคณิตศาสตร์ FirstProof ครั้งแรก Aletheia สามารถแก้ปัญหาได้ 6 จาก 10 ปัญหาวิจัยระดับสูงที่ท้าทายทั้งหมดด้วยตนเอง สร้างสถิติที่ดีที่สุดของการแข่งขันนี้

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

Thang Luong หัวหน้าทิศทางการให้เหตุผลเหนือมนุษย์ของ DeepMind ซึ่งเคยนำทีมทำให้ AI ได้เหรียญทองใน IMO กล่าวว่า ความสำเร็จนี้มีความหมายที่เกินกว่าผลงานของ AI ที่ได้เหรียญทองในการทดสอบ IMO เมื่อปีที่แล้ว

บทความวิจัยที่เกี่ยวข้อง “Aletheia tackles FirstProof autonomously” ได้เผยแพร่บน arXiv ทีมงานยังได้เปิดเผยพรอมต์และผลลัพธ์ที่ใช้แก้ปัญหา FirstProof บน GitHub ด้วย

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

  • ชื่อบทความ: Aletheia tackles FirstProof autonomously
  • ลิงก์บทความ: https://arxiv.org/pdf/2602.21201
  • พรอมต์และผลลัพธ์: https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof: วาง AI ไว้ในสถานการณ์วิจัยคณิตศาสตร์จริง

FirstProof เป็นการท้าทายเชิงทดลองที่ออกแบบมาเพื่อประเมินความสามารถในการวิจัยคณิตศาสตร์ของ AI โดยเฉพาะ การท้าทายนี้ริเริ่มโดยนักวิจัยระดับแนวหน้าจำนวนมากที่ทำงานในสาขาคณิตศาสตร์แขนงต่างๆ โจทย์ทั้งหมดมาจากประเด็นวิจัยจริง มีเป้าหมายเพื่อประเมินศักยภาพการวิจัยของปัญญาประดิษฐ์ในปัจจุบัน

ปัญหาเหล่านี้ไม่เคยมีการพิสูจน์อย่างเปิดเผยมาก่อนที่จะเริ่มการท้าทาย ฝ่ายจัดทำได้เข้ารหัสและเก็บรักษาการพิสูจน์มาตรฐานไว้ล่วงหน้า เพื่อลดความเป็นไปได้ที่ข้อมูลการฝึกจะรั่วไหลให้มากที่สุด คำตอบที่ส่งในที่สุดต้องได้รับการตรวจสอบโดยผู้เชี่ยวชาญในสาขาด้วยตนเอง โดยตัดสินจากความเข้มงวดทางตรรกะและความยอมรับได้ทางวิชาการ มาตรฐานนี้ใกล้เคียงกับการตรวจสอบบทความมากกว่าการให้คะแนนอัตโนมัติ

การออกแบบนี้ตั้งใจเพิ่มความยาก เพื่อทดสอบความสามารถของ AI ในการให้เหตุผลระยะยาวและสร้างโครงสร้างในปัญหาที่ไม่คุ้นเคย กล่าวอีกนัยหนึ่ง FirstProof มุ่งเน้นที่ว่าระบบมีศักยภาพที่จะมีส่วนร่วมในการวิจัยคณิตศาสตร์หรือไม่

ปัญหาเหล่านี้เผยแพร่เมื่อวันที่ 5 กุมภาพันธ์ 2026 กำหนดส่งคือ 23:59 น. ตามเวลาแปซิฟิก ของวันที่ 13 กุมภาพันธ์ 2026 วิธีการแก้ไขจะถูกเผยแพร่บนอินเทอร์เน็ตหลังจากหมดเขต

การประเมินนี้ยากอย่างยิ่ง ผู้เชี่ยวชาญที่สามารถเข้าใจปัญหาเหล่านี้ได้จริงมีเพียงหยิบมือ สิ่งสำคัญคือ: คำตอบทั้งหมดของ Aletheia ถูกสร้างขึ้นโดยไม่มีการแทรกแซงของมนุษย์เลย และถูกส่งภายในกรอบเวลาที่กำหนดโดยการท้าทาย FirstProof

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO
แผนภาพแสดงขั้นตอนการทำงานโดยรวมของทีมวิจัย

ผู้เขียนหลักคนแรกของ FirstProof ยืนยันข้อเท็จจริงนี้

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

ทีมวิจัยได้รัน Aletheia สองเวอร์ชัน (แตกต่างกันเฉพาะในโมเดลพื้นฐานระดับล่างเท่านั้น) ซึ่งทั้งคู่ขับเคลื่อนโดย Gemini DeepThink ตามความคิดเห็นส่วนใหญ่ของผู้เชี่ยวชาญที่ตรวจสอบ ระบบทั้งสองร่วมกันแก้ปัญหาได้ 6 จาก 10 ข้อ (ข้อที่ 2, 5, 7, 8, 9, 10) เป็นที่น่าสังเกตว่า การประเมินของผู้เชี่ยวชาญสำหรับข้อที่ 8 ไม่ได้เป็นเอกฉันท์ทั้งหมด

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO
สรุปประสิทธิภาพของ Aletheia ใน FirstProof คอลัมน์การประเมินผู้เชี่ยวชาญแสดงจำนวนผู้เชี่ยวชาญที่ให้คะแนนวิธีแก้ปัญหาเป็น “ถูกต้อง” จากจำนวนผู้เชี่ยวชาญทั้งหมดที่ปรึกษา มีเพียง P8 เท่านั้นที่การประเมินไม่เป็นเอกฉันท์

การวิเคราะห์การแก้ปัญหาของ Aletheia

ผลการดำเนินการของเอเจนต์ทั้งสองในสิบปัญหาของ FirstProof มีดังนี้:

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

จาก 10 ปัญหาของ FirstProof Aletheia สร้างคำตอบที่เป็นตัวเลือกสำหรับ 6 ปัญหา (P2, P5, P7, P8, P9, P10) ภายใต้การตั้งค่าการประเมิน “best-of-2” ตามความคิดเห็นส่วนใหญ่ของผู้เชี่ยวชาญที่ตรวจสอบ ปัญหาทั้ง 6 ข้อนี้ได้รับการยอมรับว่าได้รับการแก้ไขอย่างถูกต้องภายใต้กรอบการตีความนี้แล้ว

Aletheia A และ Aletheia B ต่างก็สร้างคำตอบที่เป็นตัวเลือกสำหรับปัญหาเดียวกันทั้งหกข้อ เมื่อพิจารณาแยกกัน แต่ละเอเจนต์เคยตัดสิน “บวกปลอม” อย่างน้อยหนึ่งครั้ง แต่ภายใต้กลไกการประเมิน “best-of-2” พวกมันร่วมกันให้คำตอบที่น่าเชื่อถือสำหรับปัญหาทั้งหกข้อ ผลลัพธ์นี้แสดงให้เห็นถึงการปรับปรุงความแม่นยำที่ชัดเจนเมื่อเทียบกับเวอร์ชันของ Aletheia ที่ใช้แก้ปัญหา Erdős ในเดือนธันวาคม 2025

อย่างไรก็ตาม การประเมิน P8 ไม่ได้ผ่านด้วยความเห็นพ้องต้องกัน — ผู้เชี่ยวชาญ 5 จาก 7 คนให้คะแนน “ถูกต้อง” สำหรับอีก 4 ปัญหา (P1, P3, P4, P6) เอเจนต์ทั้งสองไม่ได้ให้คำตอบ: ไม่ว่าจะแสดงผลว่า “ไม่พบคำตอบ” อย่างชัดเจน หรือไม่ส่งคืนผลลัพธ์ใดๆ ภายในขีดจำกัดเวลา

ทีมวิจัยเชื่อว่า Aletheia มีกลไก “การคัดกรองตนเอง” ซึ่งเป็นหนึ่งในหลักการออกแบบที่สำคัญ ในกระบวนการขยาย AI ให้เป็นผู้ช่วยวิจัยคณิตศาสตร์ ความน่าเชื่อถือเป็นอุปสรรคสำคัญอันดับแรก หากเอเจนต์มักให้คำตอบที่ผิดพลาดหรือ “หลอน” จะทำให้เสียเวลาและพลังงานของผู้เชี่ยวชาญมนุษย์ในการตรวจสอบผลลัพธ์อย่างมาก ซึ่งขัดกับเป้าหมายในการเพิ่มประสิทธิภาพการวิจัยและระบบอัตโนมัติ

นอกจากนี้ ค่าใช้จ่ายในการให้เหตุผลเพื่อแก้ปัญหาก็เป็นตัวชี้วัดที่สำคัญมากเช่นกัน

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO
แผนภาพแสดงต้นทุนการให้เหตุผลสำหรับแต่ละคำตอบที่เป็นตัวเลือก และแสดงเป็นเท่าของต้นทุนการให้เหตุผลสำหรับการแก้ปัญหา Erdős-1051

ดังที่แสดงในรูป ต้นทุนการให้เหตุผลของ Aletheia ในทุกปัญหาสูงกว่าปัญหา Erdős-1051 โดยเฉพาะอย่างยิ่ง P7 มีต้นทุนการให้เหตุผลสูงกว่าขนาดที่เคยสังเกตมาก่อนถึงหนึ่งอันดับขนาด นักวิจัยระบุว่า สาเหตุหนึ่งเป็นเพราะเอเจนต์ย่อย Generator ใช้ทรัพยากรการคำนวณจำนวนมากในการสร้างคำตอบที่เป็นตัวเลือก อีกสาเหตุเป็นเพราะต้องใช้การโต้ตอบหลายรอบมากขึ้นจึงจะผ่านการตรวจสอบโดยเอเจนต์ย่อย Verifier

สรุป

การวิจัยคณิตศาสตร์ประกอบด้วยหลายขั้นตอน: การตั้งปัญหา การสร้างกรอบการทำงาน การค้นหาโครงสร้างสำคัญ การทำให้การพิสูจน์สมบูรณ์ ระบบในปัจจุบันยังไม่สามารถรับบทบาททั้งหมดได้อย่างครอบคลุมอย่างชัดเจน แต่มันเริ่มมีบทบาทในขั้นตอนการพิสูจน์และการตรวจสอบแล้ว

สถานการณ์การวิจัยในอนาคตอาจเปลี่ยนแปลง นักวิจัยมนุษย์เสนอทิศทางและแนวคิดหลัก AI รับผิดชอบการค้นหาเส้นทางอย่างเข้มข้นและการตรวจสอบในรูปแบบที่เป็นทางการ จากนั้นมนุษย์จึงทำการบูรณาการทางทฤษฎีและยกระดับ แบบจำลองการทำงานร่วมกันนี้กำลังค่อยๆ ก่อตัวขึ้น

คณิตศาสตร์ถูกมองว่าเป็นพื้นที่สูงสุดของความสามารถทางเหตุผลของมนุษย์มาเป็นเวลานาน ปัจจุบัน AI กำลังก้าวข้ามพรมแดนนี้อย่างเป็นรูปธรรม เมื่อเครื่องจักรเริ่มทำการพิสูจน์ระดับวิจัยได้อย่างมั่นคง เราอาจต้องคิดทบทวนคำถามหนึ่งใหม่: ในรายชื่อผู้เขียนบทความคณิตศาสตร์ในอนาคต AI จะปรากฏในสถานะใด?


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23155

Like (0)
Previous 19 hours ago
Next 18 hours ago

相关推荐