Gemini ไขปริศนาคณิตศาสตร์: พิชิต 13 การคาดเดาของ Erdős แบบกึ่งอัตโนมัติ เผยต้นทุนวิจัย AI ที่แท้จริง

2026年2月3日 pm10:04 • ข่าวสารอุตสาหกรรม AI • 188 views

เมื่อไม่นานมานี้ Google ได้เผยแพร่ความก้าวหน้าใหม่ในการวิจัย: ทีมวิจัยของพวกเขาใช้โมเดล Gemini ดำเนินการทดลองเชิงระบบเพื่อแก้ปัญหาทางคณิตศาสตร์ โดยมุ่งเป้าไปที่การคาดการณ์ประมาณ 700 รายการที่ยังคงถูกระบุว่า “เปิด” (ยังไม่ได้รับการแก้ไข) ในฐานข้อมูลปัญหาของ Erdős ที่มีชื่อเสียง

ผลการทดลองมีความน่าพอใจ: Gemini ประสบความสำเร็จในการขับเคลื่อนกระบวนการแก้ปัญหาสำหรับ 13 ปัญหาในชุดนี้ ในจำนวนนี้ 5 ปัญหามีวิธีแก้ใหม่ที่โมเดลเสนอขึ้นด้วยตนเอง ส่วนอีก 8 ปัญหา โมเดลค้นพบวิธีแก้ที่มีอยู่แล้วในวรรณกรรมแต่ถูกละเลยไปก่อนหน้านี้

ชื่อบทความวิจัย: Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
ลิงก์บทความวิจัย: https://arxiv.org/pdf/2601.22401

ฐานข้อมูลปัญหาของ Erdős ตั้งชื่อตาม Paul Erdős หนึ่งในนักคณิตศาสตร์ที่มีผลงานมากที่สุดในศตวรรษที่ 20 ผู้ทิ้งปริศนาการคาดการณ์ที่ยังไม่ได้รับการแก้ไขไว้มากมายครอบคลุมสาขาต่างๆ เช่น ทฤษฎีจำนวน คณิตศาสตร์เชิงการจัด ทฤษฎีกราฟ ในปี 2023 นักคณิตศาสตร์ Thomas Bloom ได้เปิดตัวเว็บไซต์ ErdosProblems.com โดยมีวัตถุประสงค์เพื่อรวบรวมและติดตามความคืบหน้าของการวิจัยเกี่ยวกับการคาดการณ์เหล่านี้ ปัจจุบันฐานข้อมูลนี้รวบรวมปัญหาไว้ 1179 รายการ โดย 483 รายการ (41%) ถูกจัดประเภทว่าได้รับการแก้ไขแล้ว

อย่างไรก็ตาม ปัญหาที่ถูกระบุว่า “เปิด” ในฐานข้อมูล ไม่ได้หมายความว่าปัญหาเหล่านั้นยังไม่ได้รับการแก้ไขจริงๆ แต่หมายความว่ามีนักคณิตศาสตร์มืออาชีพอย่างน้อยหนึ่งคนพยายามค้นหาวิธีแก้ที่เผยแพร่แล้วผ่านการค้นหาทางอินเทอร์เน็ต แต่ไม่ประสบความสำเร็จ

ข้อเท็จจริงพิสูจน์ว่าปัญหาหลายๆ รายการไม่ได้ “ยังไม่ได้รับการแก้ไข” แต่คำตอบจมดิ่งอยู่ในมหาสมุทรแห่งวรรณกรรมที่กว้างใหญ่ เมื่อเดือนตุลาคมปีที่แล้ว OpenAI เคยประกาศว่าโมเดลของพวกเขาค้นพบ 10 ปัญหาที่ถูกระบุว่า “เปิด” บนเว็บไซต์ดังกล่าว แต่คำตอบของปัญหาเหล่านั้นมีอยู่แล้วในวรรณกรรมที่เกี่ยวข้อง การค้นพบนี้ทำให้ฐานข้อมูลของ Bloom ได้รับความสนใจอย่างกว้างขวาง และกระตุ้นให้ Terence Tao สร้างวิกิชุมชนขึ้นมาเมื่อไม่นานมานี้ เพื่อติดตามข่าวสารที่เกี่ยวข้องกับการแก้ปัญหาของ Erdős ด้วยความช่วยเหลือจากปัญญาประดิษฐ์โดยเฉพาะ

ปัจจุบัน การวิจัยของ Google ได้ผลักดันการแก้ปัญหาของ Erdős ก้าวไปอีกขั้น แต่ทีมวิจัยก็ยอมรับอย่างตรงไปตรงมาว่า นี่ไม่ได้หมายความว่า AI สามารถ “ทำวิจัยทางคณิตศาสตร์ได้โดยอัตโนมัติ” งานที่ซับซ้อนและต้นทุนมหาศาลที่อยู่เบื้องหลังนั้นเกินกว่าที่คนทั่วไปจะจินตนาการได้

วิธีการวิจัย

ทีมวิจัยได้ปรับใช้เอเจนต์วิจัยทางคณิตศาสตร์แบบกำหนดเองชื่อ Aletheia ซึ่งอิงตาม Gemini Deep Think ในช่วงวันที่ 2 ถึง 9 ธันวาคม 2025 เพื่อสำรวจปัญหาของ Erdős ประมาณ 700 รายการที่ยังคงถูกระบุว่า “เปิด” ในฐานข้อมูลของ Bloom ในขณะนั้นแบบกึ่งอัตโนมัติ Aletheia มีตัวตรวจสอบภาษาธรรมชาติในตัว สำหรับการกรองเบื้องต้นหลังจากสร้างผลลัพธ์จำนวนมาก เพื่อรวบรวมปัญหาที่เป็นตัวเลือกจาก 700 รายการให้เหลือ 212 คำตอบที่ “ดูเหมือนอาจจะถูกต้อง” อย่างรวดเร็ว

จากนั้นเข้าสู่ขั้นตอนการประเมินโดยมนุษย์ ทีมวิจัยเริ่มต้นด้วยการให้นักคณิตศาสตร์ที่ไม่ใช่ผู้เชี่ยวชาญในสาขานั้นๆ ทำการกรองอย่างรวดเร็ว เพื่อคัดกรองคำตอบที่ผิดอย่างชัดเจนออกไปภายในเวลาที่ควบคุมได้ จึงสามารถบีบอัดขนาดของตัวเลือกเหลือ 27 รายการ จากนั้นส่งให้ผู้เชี่ยวชาญเฉพาะทางภายในตรวจสอบอย่างเข้มงวดทีละรายการ; เมื่อความถูกต้องของวิธีแก้มีความชัดเจนแต่ความใหม่ยังเป็นที่น่าสงสัย จะมีการปรึกษาผู้เชี่ยวชาญภายนอกเพื่อตรวจสอบกับวรรณกรรม

สถิติสุดท้ายแสดงให้เห็นว่า ในบรรดาคำตอบที่เป็นตัวเลือกประมาณ 200 รายการที่สามารถตัดสินได้อย่างชัดเจน 137 รายการ (68.5%) มีข้อผิดพลาดพื้นฐาน; 63 รายการ (31.5%) มีความถูกต้องในเชิงรูปแบบ แต่มีเพียง 13 รายการ (6.5%) เท่านั้นที่ตอบคำถามดั้งเดิมที่ Erdős ถามจริงๆ ส่วนอีก 50 รายการที่เหลือ แม้จะ “ถูกต้องในทางเทคนิค” แต่เนื่องจากตีความโจทย์ผิดจึงมีความหมายทางคณิตศาสตร์จำกัด ผู้เขียนวางแผนที่จะเสนอการปรับปรุงถ้อยคำที่เข้มงวดมากขึ้นสำหรับปัญหาเหล่านี้; นอกจากนี้ยังมีคำตอบอีก 12 รายการที่ถูกระบุว่า “คลุมเครือ” เนื่องจากปัญหาเองเปิดกว้างหรือถ้อยคำไม่ชัดเจน

ตามคำแนะนำของ Terence Tao ผู้เขียนได้เน้นแสดงข้อมูลข้างต้นเพื่อรับประกันความโปร่งใส นี่ก็เพื่อนำเสนอต้นทุนที่แท้จริงของการวิจัยทางคณิตศาสตร์ด้วยความช่วยเหลือจาก AI อย่างครบถ้วนมากขึ้น: นอกเหนือจากกรณีศึกษาที่ประสบความสำเร็จเพียงไม่กี่กรณีแล้ว เวลาจำนวนมากจะถูกใช้ไปกับการตรวจสอบ แก้ไขข้อผิดพลาด ตรวจหาข้อผิดพลาดเล็กน้อย และการค้นหาวรรณกรรมเพื่อแยกแยะ “การทำซ้ำโดยไม่ตั้งใจ”

นี่แสดงให้เห็นว่าข้อสรุปที่แพร่หลายในวงการที่ว่า “AI กำลังเร่งความเร็วทางวิทยาศาสตร์” นั้นมีด้านเดียว: โดยปกติผู้คนจะแสดงเพียงกรณีศึกษาที่ประสบความสำเร็จไม่กี่กรณี เน้นย้ำว่า AI ทำบางภารกิจได้เร็วกว่ามนุษย์ จึงอ้างว่า AI “เร่งความเร็ว” ผลลัพธ์นั้น; แต่การบรรยายลักษณะนี้ไม่ค่อยนำความพยายามที่ล้มเหลวจำนวนมากมาคำนวณรวม

ขั้นตอนที่ท้าทายยิ่งกว่าคือขั้นตอนสุดท้าย – การยืนยันว่าวิธีแก้มีปรากฏอยู่ในวรรณกรรมแล้วหรือไม่ และสอดคล้องกับความตั้งใจดั้งเดิมของ Erdős จริงหรือไม่ ปัญหาหลายๆ รายการไม่ได้อยู่ที่การหาอนุพันธ์ทางคณิตศาสตร์ แต่อยู่ที่ข้อผิดพลาดในการคัดลอกรายละเอียดของโจทย์ การละเลย และความคลุมเครือของสัญลักษณ์และข้อตกลงนิยาม; หากโมเดลไม่เข้าใจธรรมเนียมการนิยามของเว็บไซต์ Bloom มักจะสับสนระหว่างการตีความหลายๆ แบบที่ “สมเหตุสมผลในตัวเอง”

ผู้เขียนชี้ให้เห็นว่า หลังจากดำเนินการตรวจสอบวรรณกรรมและปรับแนวความคิดเชิงความหมายอย่างลึกซึ้งแล้ว จำนวน “วิธีแก้ที่ถูกต้องและมีความหมายอย่างแท้จริง” จะลดลงอย่างมีนัยสำคัญ ซึ่งนี่ก็เตือนให้งานค้นพบทางคณิตศาสตร์ด้วย AI ในอนาคตต้องระมัดระวังอย่างสูงในเรื่องความสอดคล้องของความหมายโจทย์และการสืบย้อนไปยังแหล่งที่มาของวรรณกรรม

ผลลัพธ์สำคัญ

ผู้เขียนแบ่งผลลัพธ์ที่ถูกต้องและมีความหมาย 13 รายการออกเป็นสี่ประเภท:

AI แก้ได้ด้วยตนเอง: สำหรับปัญหาเหล่านี้ Aletheia พบวิธีแก้ที่ถูกต้องเป็นครั้งแรก และวิธีแก้มีนัยสำคัญทางคณิตศาสตร์ในเชิงสาระ รวมถึง Erdős-652 และ Erdős-1051 ควรชี้แจงว่า การแก้ Erdős-652 ดำเนินการโดยการอ้างอิงผลลัพธ์ที่มีอยู่ในวรรณกรรมโดยตรง
แก้ได้บางส่วนโดย AI: สำหรับปัญหาที่ซับซ้อนเหล่านี้ซึ่งประกอบด้วยปัญหาย่อยหลายข้อ Aletheia พบวิธีแก้ที่ถูกต้องเป็นครั้งแรกสำหรับปัญหาย่อยหนึ่งข้อ รวมถึง Erdős-654, Erdős-935 และ Erdős-1040
ค้นพบซ้ำอย่างอิสระ: สำหรับปัญหาเหล่านี้ Aletheia พบวิธีแก้ที่ถูกต้อง แต่ผู้ตรวจสอบมนุษย์พบในภายหลังว่ามีวิธีแก้ที่เป็นอิสระอยู่แล้วในวรรณกรรม รวมถึง Erdős-397, Erdős-659 และ Erdős-1089 วิธีแก้เหล่านี้ดูเหมือนว่าโมเดลค้นพบซ้ำอย่างอิสระ: ผู้เขียนตรวจสอบบันทึกกระบวนการให้เหตุผลของ Aletheia อย่างละเอียด เพื่อให้แน่ใจว่าวิธีแก้ไม่ได้ดึงมาจากวรรณกรรมโดยตรง แน่นอนว่าวิธีแก้เหล่านี้อาจได้รับมาจากแหล่งข้อมูลกลางหรือกระบวนการฝึกก่อนหน้าอย่างอ้อมๆ ได้เช่นกัน นี่เน้นย้ำถึงความเสี่ยงใหม่ที่มาพร้อมกับเนื้อหาทางคณิตศาสตร์ที่สร้างโดย AI: โมเดลอาจสร้างความรู้จากวรรณกรรมที่เรียนรู้ในกระบวนการฝึกก่อนหน้าขึ้นมาใหม่ แต่ไม่ได้ระบุแหล่งที่มา นั่นคือมีความเสี่ยงของ “การลอกเลียนแบบโดยไม่รู้ตัว”
การระบุวรรณกรรม: สำหรับปัญหาเหล่านี้ แม้ว่าในขณะที่ปรับใช้โมเดล เว็บไซต์ของ Bloom จะระบุว่า “เปิด” แต่ Aletheia ระบุว่ามีวิธีแก้ที่เกี่ยวข้องอยู่ในวรรณกรรมอย่างชัดเจนแล้ว รวมถึง Erdős-333, Erdős-591, Erdős-705, Erdős-992 และ Erdős-1105

ควรชี้แจงให้ชัดเจนว่า ทีมวิจัยไม่ได้อ้างว่าผลลัพธ์สองประเภทหลังมีความใหม่ วิธีแก้ 5 รายการที่สร้างขึ้นด้วยตนเองที่กล่าวถึงข้างต้น สอดคล้องกับ Erdős-652, Erdős-654, Erdős-935, Erdős-1040 และ Erdős-1051 ตามการประเมินของผู้เชี่ยวชาญ วิธีแก้ทั้ง 5 รายการนี้ไม่ถึงระดับมาตรฐานของบทความวิชาการ อันที่จริง วิธีแก้บางรายการเทียบเท่ากับความยากของแบบฝึกหัดระดับบัณฑิตศึกษาเท่านั้น (อิงจากวรรณกรรมที่มีอยู่)

พวกเขาเห็นเบื้องต้นว่า วิธีแก้ Erdős-1051 โดย Aletheia เป็นกรณีศึกษาแรกเริ่มที่ระบบ AI แก้ปัญหาของ Erdős ที่เปิดกว้างและมีความหมายทางคณิตศาสตร์ในระดับปานกลาง (ไม่รุนแรง) ที่ค่อนข้างเป็นสากลได้ด้วยตนเอง – แม้ว่าจะมีวรรณกรรมเกี่ยวกับปัญหาที่เกี่ยวข้องอย่างใกล้ชิดในอดีต แต่วรรณกรรมเหล่านั้นไม่ได้แก้ Erdős-1051 อย่างสมบูรณ์

นอกจากนี้ แตกต่างจากกรณีศึกษาหลายกรณีที่เคยมีการพูดคุยกันก่อนหน้านี้ ผู้เขียนเชื่อว่าวิธีแก้ของ Aletheia ไม่ได้ได้รับแรงบันดาลใจโดยตรงจากการให้เหตุผลของมนุษย์ก่อนหน้าใดๆ แต่วิธีแก้ดังกล่าวใช้แนวคิดคลาสสิก: หันไปหาส่วนท้ายของอนุกรมและใช้เกณฑ์ของ Mahler ภายใต้ความร่วมมือระหว่าง Aletheia กับนักคณิตศาสตร์มนุษย์และ Gemini Deep Think วิธีแก้ Erdős-1051 ได้รับการขยายผลเพิ่มเติมและกลายเป็นบทความวิจัย

ความสำคัญของการวิจัย

ผลการวิจัยแสดงให้เห็นว่าในปัญหาของ Erdős มี “ผลไม้แขวนต่ำ” บางส่วน และ AI ได้พัฒนามาถึงระดับที่สามารถเก็บเกี่ยวผลไม้เหล่านั้นได้แล้ว แม้ว่านี่จะให้เกณฑ์มาตรฐานทางคณิตศาสตร์ใหม่ที่น่าสนใจแก่นักวิจัย AI แต่ผู้เขียนเตือนว่าควรหลีกเลี่ยงการ夸大ความสำคัญทางคณิตศาสตร์ของมัน ปัญหาเปิดทั้งหมดที่แก้ในบทความนี้ ผู้เชี่ยวชาญในสาขาที่เกี่ยวข้องสามารถทำได้อย่างง่ายดาย ในอีกด้านหนึ่ง เวลาของผู้เชี่ยวชาญมนุษย์มีจำกัด หากสามารถเพิ่มความน่าเชื่อถือของ AI ได้ มันได้แสดงศักยภาพในการเร่งความเร็วในขั้นตอนคอขวดด้านความสนใจของการค้นพบทางคณิตศาสตร์แล้ว

ในกรณีศึกษาของบทความนี้ ผู้เขียนประสบกับความยากลำบากบางประการที่ไม่ได้คาดการณ์ไว้ตั้งแต่แรก วิธีแก้ที่สร้างขึ้นด้วยตนเองส่วนใหญ่ที่ถูกต้องในทางเทคนิค เกิดจากการเข้าใจผิดหรือข้อบกพร่องในการตีความคำสั่งปัญหา และการวินิจฉัยปัญหาเหล่านี้บางครั้งต้องใช้ความพยายามอย่างมาก

นอกจากนี้ ขั้นตอนที่ท้าทายที่สุดสำหรับผู้เชี่ยวชาญมนุษย์ไม่ใช่การตรวจสอบความถูกต้องของวิธีแก้ แต่เป็นการกำหนดว่าวิธีแก้เหล่านี้มีอยู่ในวรรณกรรมแล้วหรือไม่ เมื่อเนื้อหาทางคณิตศาสตร์ที่สร้างโดย AI เพิ่มมากขึ้น วงการวิชาการต้องตระหนักถึง “การลอกเลียนแบบโดยไม่รู้ตัว” นั่นคือ AI สร้างความรู้จากวรรณกรรมที่เรียนรู้ในกระบวนการฝึกขึ้นมาใหม่ แต่ไม่ได้ให้การอ้างอิงที่เหมาะสม ควรทราบว่าการตรวจสอบความถูกต้องในเชิงรูปแบบไม่สามารถแก้ปัญหาเหล่านี้ได้

แม้ว่าความพยายามของ AI ในการแก้ปัญหาของ Erdős ด้วยตนเองจะประสบความสำเร็จในระดับหนึ่ง แต่ก็ก่อให้เกิดการ夸大宣传ที่ทำให้เข้าใจผิดและข้อมูลเท็จโดยสิ้นเชิง และถูกขยายผลบนแพลตฟอร์มโซเชียลมีเดีย ซึ่งสร้างความเสียหายแก่วงการคณิตศาสตร์ นอกเหนือจากปัญหาของ Erdős แล้ว ในอนาคตอาจมีรายการการคาดการณ์ทางคณิตศาสตร์อื่นๆ อีกมากมายที่กลายเป็นเป้าหมายของการวิจัย (กึ่ง) อิสระ ผู้เขียนขอร้องให้นักวิจัยที่เกี่ยวข้องให้ความสนใจกับปัญหาที่นำเสนอในบทความนี้

ข้อมูลเพิ่มเติมโปรดอ้างอิงบทความวิจัยต้นฉบับ

ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง