DeepMind ระบบหลายเอเจนต์ AI Co-Mathematician: เพื่อนร่วมทีมสุดยอดของนักคณิตศาสตร์ พิชิตปัญหาที่ยังไม่มีคำตอบนาน 60 ปี

2 days ago • ข่าวสารอุตสาหกรรม AI • 36 views

Google DeepMind เปิดตัวระบบหลายเอเจนต์ “AI Co-Mathematician”: เพื่อนร่วมทีมระดับซูเปอร์สตาร์ของนักคณิตศาสตร์ เอาชนะโจทย์ที่ค้างคามา 60 ปี

ในที่สุดนักคณิตศาสตร์มนุษย์ก็ได้พบกับ “เพื่อนร่วมทีมระดับซูเปอร์สตาร์” ของตัวเองแล้ว Pushmeet Kohli หัวหน้านักวิทยาศาสตร์ด้านคลาวด์ของ Google และรองประธานฝ่ายวิจัยของ DeepMind ประกาศเปิดตัว AI Co-Mathematician อย่างเป็นทางการในวันนี้ ซึ่งเป็นระบบการทำงานร่วมกันแบบหลายเอเจนต์แบบลำดับชั้นที่ออกแบบมาเพื่อการวิจัยทางคณิตศาสตร์โดยเฉพาะ

DeepMind ระบบหลายเอเจนต์ AI Co-Mathematician: เพื่อนร่วมทีมสุดยอดของนักคณิตศาสตร์ พิชิตปัญหาที่ยังไม่มีคำตอบนาน 60 ปี

ประสิทธิภาพดีแค่ไหน?

ในการทดสอบเกณฑ์มาตรฐาน FrontierMath Tier 4 ที่จัดโดย Epoch AI (ซึ่งประกอบด้วยโจทย์ระดับ “โครงการวิจัยระยะสั้น” ที่ยากเป็นพิเศษ 50 ข้อ ซึ่งออกแบบโดยศาสตราจารย์และนักวิจัยหลังปริญญาเอก โดยนักคณิตศาสตร์มืออาชีพมักต้องใช้เวลาหลายวันถึงหลายสัปดาห์ในการแก้) AI Co-Mathematician ทำคะแนนได้ 48% ในโหมดอัตโนมัติ โดยสามารถแก้โจทย์ที่ไม่เปิดเผยต่อสาธารณะได้สำเร็จ 23 ข้อจากทั้งหมด 50 ข้อ

ผลงานนี้ทำลายสถิติสูงสุดตลอดกาลของระบบ AI ทั้งหมด!

เมื่อเปรียบเทียบกัน โมเดลพื้นฐาน Gemini 3.1 Pro ที่ใช้อยู่เบื้องหลัง เมื่อทำงานเดี่ยวๆ ทำได้เพียงความแม่นยำ 19% จาก 19% เป็น 48% ประสิทธิภาพเพิ่มขึ้นถึง 29 เปอร์เซ็นต์

ที่น่าทึ่งยิ่งกว่านั้นคือ มันยังเหนือกว่า GPT-5.5 Pro ที่ได้ 39.6% และ Claude Opus 4.7 ที่ได้ 22.9%

ในจำนวนนี้มี 3 ข้อที่ระบบที่ผ่านการทดสอบทั้งหมดไม่สามารถเอาชนะได้มาก่อน

Pushmeet Kohli เขียนด้วยความตื่นเต้นบนโซเชียลมีเดียว่า อนาคตของคณิตศาสตร์คือการทำงานร่วมกันระหว่างนักคณิตศาสตร์และเอเจนต์ AI

ไม่ใช่โมเดลที่ฉลาดกว่า แต่เป็นการ “จัดระบบ” ที่ชาญฉลาดกว่า

จุดเด่นที่สุดของ AI Co-Mathematician คือ: ความก้าวหน้าของมันไม่ได้ขึ้นอยู่กับโมเดลที่ใหญ่ขึ้น แต่มาจากการออกแบบระบบเอง

ทั้งระบบใช้ สถาปัตยกรรมหลายเอเจนต์แบบลำดับชั้น: เอเจนต์ “ผู้ประสานงานโครงการ” นั่งอยู่ตรงกลาง มีหน้าที่แยกย่อยปัญหาทางคณิตศาสตร์ออกเป็น “เวิร์กโฟลว์” แบบขนานหลายชุด จากนั้นจึงมอบหมายให้เอเจนต์ย่อยเฉพาะทางต่างๆ ดำเนินการ

เอเจนต์ย่อยเหล่านี้ทำหน้าที่ของตน บางตัว负责ค้นคว้าวรรณกรรม บางตัว负责สำรวจการคำนวณ บางตัว负责推导การพิสูจน์ และยังมีบทบาท “จับผิด” โดยเฉพาะอีกด้วย

ใช่แล้ว ที่นี่มี เอเจนต์ผู้ตรวจทาน

ทุกครั้งที่เส้นทางการพิสูจน์เสร็จสมบูรณ์ จะต้องผ่านการตรวจสอบข้ามโดยผู้ตรวจทาน เมื่อพบช่องโหว่ทางตรรกะ ก็จะถูกส่งกลับไปทำใหม่

กลไก “วงจรการตรวจสอบบังคับ” นี้ช่วยยับยั้งปัญหาที่น่าปวดหัวที่สุดของโมเดลภาษาขนาดใหญ่แบบดั้งเดิมได้อย่างมีประสิทธิภาพ นั่นคือ “การพูดไร้สาระอย่างมั่นใจ”

ที่สำคัญกว่านั้น เวิร์กเบนช์ทั้งหมดเป็นแบบ อะซิงโครนัสและมีสถานะ

มันสามารถจดจำสมมติฐานที่ล้มเหลวซึ่งเคยลองมาก่อน ติดตามความคืบหน้าของแต่ละสาขาการสำรวจ และส่งออกเอกสารการทำงานพร้อมหมายเหตุข้างเคียงและการอ้างอิงภายใน ซึ่งเปรียบเสมือนเพื่อนร่วมวิจัยที่สามารถ “อยู่” ในโครงการเดียวกันกับคุณและทำงานซ้ำๆ กันเป็นเวลาหลายวัน

เอกสารของ DeepMind ยกตัวอย่างกรณีที่น่าประทับใจหลายกรณี:

เมื่อเผชิญกับปัญหาเรขาคณิตเกี่ยวกับการปูกระเบื้อง ระบบได้ลดความท้าทายหลักให้เป็นปัญหาความพอใจแบบบูลีน (SAT) จากนั้นใช้ไลบรารี PySAT ในการแก้
ในโจทย์ทฤษฎีการแทนค่า ระบบใช้เครื่องมือค้นหาวรรณกรรมเพื่อดึงข้อความที่แน่นอนของทฤษฎีบทเฉพาะได้อย่างแม่นยำ ในขณะที่โมเดลพื้นฐานทำได้เพียงตอบตาม “ความ印象คร่าวๆ” สุดท้ายเงื่อนไขก็ไม่ตรงกัน
ในโจทย์คณิตศาสตร์เชิง組合 ระบบแยกการ推导ทางทฤษฎีและการตรวจสอบการคำนวณออกเป็นสองเวิร์กโฟลว์อิสระ ทำให้เอเจนต์ผู้ตรวจทานสามารถจับข้อผิดพลาดทางตรรกะได้ก่อนการประกอบขั้นสุดท้าย

การปฏิบัติจริงของศาสตราจารย์ออกซ์ฟอร์ด: เอาชนะโจทย์เปิดจากสมุดบันทึกอายุ 60 ปี

ตัวเลขนั้นดูดี แต่ AI สามารถนำไปใช้ในแนวหน้าทางคณิตศาสตร์ที่แท้จริงได้จริงหรือ?

ประสบการณ์ตรงของ Marc Lackenby นักคณิตศาสตร์จากมหาวิทยาลัยออกซ์ฟอร์ดให้คำตอบที่น่าเชื่อถือที่สุด

เขาใช้ AI Co-Mathematician ศึกษาโจทย์เปิดคลาสสิกในทฤษฎีกลุ่ม นั่นคือข้อ 21.10 ของ Kourovka Notebook “สมุดบันทึก” นี้ไม่ใช่บันทึกธรรมดา แต่เป็นชุดโจทย์ที่ยังไม่มีคำตอบซึ่งรวบรวมมาจากทั่วโลกในสาขาทฤษฎีกลุ่มที่สืบทอดมาตั้งแต่ปี 1965 เสมือน “คัมภีร์ไบเบิล”

หลังจาก Lackenby ป้อนโจทย์เข้าสู่ระบบโดยตรง AI Co-Mathematician ก็สร้างเวิร์กโฟลว์แบบขนานสองชุดโดยอัตโนมัติ: ชุดหนึ่งพยายามพิสูจน์ อีกชุดพยายามหาข้อพิสูจน์หักล้าง

เส้นทางแรกส่งคืน “การพิสูจน์” อย่างรวดเร็ว แต่เอเจนต์ผู้ตรวจทานของระบบเองก็พบช่องโหว่ในนั้นทันที และทำเครื่องหมายว่าไม่ถูกต้อง

จุดเปลี่ยนสำคัญเกิดขึ้น: เมื่อ Lackenby เห็นการพิสูจน์ที่ถูกส่งกลับและข้อบกพร่องที่ผู้ตรวจทานชี้ให้เห็น เขาก็ตระหนักได้ทันทีว่า ในฐานะผู้เชี่ยวชาญในสาขานี้ เขารู้วิธีเติมเต็มช่องว่างนี้

ดังนั้น เขาจึงเพิ่มขั้นตอนสำคัญ และปัญหาก็คลี่คลาย

สาระสำคัญของเรื่องนี้คือ มนุษย์และ AI ไม่สามารถทำสิ่งนี้ให้สำเร็จด้วยความเร็วนี้ได้โดยลำพัง

AI จัดหา “การค้นหาแบบ brute-force” สำหรับกลยุทธ์การพิสูจน์และการสำรวจการคำนวณ เอเจนต์ผู้ตรวจทานค้นพบข้อผิดพลาดได้ทันเวลา และสัญชาตญาณเชิงลึกของนักคณิตศาสตร์มนุษย์ก็ทำการปิดท้ายครั้งสุดท้าย

นี่คือกระบวนทัศน์ความร่วมมือรูปแบบใหม่

เรื่องราวที่คล้ายกันยังคงดำเนินต่อไป: นักคณิตศาสตร์ Gergely Bérczi ใช้มันเพื่อรับการพิสูจน์ข้อสันนิษฐาน Stirling coefficient เกี่ยวกับการแทนค่ากำลังสมมาตร Semon Rezchikov ได้รับบทแทรกสำคัญจาก AI ในปัญหาย่อยทางเทคนิคในระบบแฮมิลตัน ซึ่งหลังจากตรวจสอบอย่างละเอียดแล้วก็ยืนยันว่าถูกต้อง

ผู้ตรวจทานอาจถูก “เอาใจ” ระบบอาจ “หมุนวน”

ทีม DeepMind ไม่ได้หลีกเลี่ยงรูปแบบความล้มเหลวของระบบ

ปัญหาแรกเรียกว่า “อคติเอาใจผู้ตรวจทาน” (reviewer-pleasing bias)

เมื่อเส้นทางการพิสูจน์ถูกส่งกลับโดยผู้ตรวจทาน บางครั้งเอเจนต์ย่อยไม่ได้แก้ไขข้อผิดพลาดทางตรรกะจริงๆ แต่เปลี่ยนคำพูดเพื่อให้ผู้ตรวจทาน “มองไม่เห็นปัญหา” ข้อผิดพลาดไม่ได้หายไป แต่กลับซ่อนเร้นมากขึ้น

เหมือนกับนักเรียนที่แก้ไข论文 ไม่ใช่เพราะเข้าใจความเห็นของผู้ตรวจทานจริงๆ แต่เรียนรู้ที่จะใช้วิธีที่คล่องแคล่วกว่าในการเลี่ยงการตรวจสอบ

ปัญหาที่สองเรียกว่า “เกลียวแห่งความตาย” (death spirals)

ในบางกรณี ผู้พิสูจน์และผู้ตรวจทาน陷入วงจรไม่รู้จบ คุณบอกว่ามีปัญหา ฉันแก้แล้วส่งใหม่ คุณก็บอกว่ามีปัญหาอีก ฉันแก้แล้วส่งอีก ในที่สุดคุณภาพของการ推导ก็แย่ลงเรื่อยๆ จนกระทั่งพังทลายเป็นคำพูดที่เพ้อเจ้อแบบภาพหลอน

สำหรับปัญหาที่ต้องใช้สัญชาตญาณสร้างสรรค์อย่างแท้จริงเพื่อเปิดช่องทาง เช่น ปัญหารางวัลสหัสวรรษหรือข้อสันนิษฐานแบบ Erdős ระบบหลายเอเจนต์ยังคงไร้ความสามารถในขณะนี้

สิ่งที่ AI สามารถบีบอัดได้คือเวลาระหว่าง “การมีความคิด” กับ “การรู้ว่าความคิดนั้นใช้ได้หรือไม่”: การค้นคว้าวรรณกรรม การค้นหาตัวอย่างค้าน การตรวจสอบการคำนวณ และงานหนักในการสำรวจ

แต่ประกายไฟสร้างสรรค์ที่วูบวาบนั้น ในตอนนี้ดูเหมือนจะมาจากมนุษย์เท่านั้น

กระบวนทัศน์การวิจัยทางคณิตศาสตร์กำลังเปลี่ยนแปลง

ความหมายที่แท้จริงของ论文นี้อาจไม่ได้อยู่ที่ตัวเลข 48% เอง

การออกแบบระบบในตอนนี้สามารถขยายขีดความสามารถของโมเดลในแบบที่มีความหมายต่อการวิจัยจริงๆ

สิ่งที่ AI Co-Mathematician ทำ โดยพื้นฐานแล้วคล้ายกับสิ่งที่ Claude Code และ Google Antigravity ทำในสาขาการพัฒนาซอฟต์แวร์ นั่นคือการจัดหาโครงสร้างพื้นฐานให้ AI เพื่อให้สามารถทำงานได้อย่างอิสระในระยะเวลาที่ยาวนาน ในขณะที่ยังคงควบคุมได้

Demis Hassabis ซีอีโอของ DeepMind เคยกล่าวไว้ว่า ห้องปฏิบัติการ前沿ที่มีเครื่องมือทางคณิตศาสตร์และโค้ดที่ทรงพลังกำลังสร้างช่องว่างกับห้องปฏิบัติการอื่นๆ มากขึ้น เนื่องจาก “เครื่องมือเหล่านี้会产生ผลกระทบแบบทบต้น”

AI Co-Mathematician คือการแสดงออกโดยตรงของข้อสรุปนี้

อนาคตของคณิตศาสตร์ อาจไม่ใช่ภาพของอัจฉริยะคนเดียวที่ครุ่นคิดอยู่หน้าตำรา

แต่มันคือภาพของนักคณิตศาสตร์มนุษย์และเอเจนต์ AI ที่นั่งเคียงบ่าเคียงไหล่ คนหนึ่ง负责แรงบันดาลใจ อีกคน负责การตรวจสอบ ในการสำรวจที่ไม่มีที่สิ้นสุด พวกเขาเข้าใกล้ความจริงไปด้วยกัน

ยุค “คู่หูทองคำ” นี้มาถึงแล้ว

เอกสารอ้างอิง:
https://x.com/pushmeet/status/2052812585804685322
https://arxiv.org/abs/2605.06651
https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4
https://arxiv.org/pdf/2605.06651
https://x.com/kimmonismus/status/2052849472586264997

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34031

Like (0)

0 0

จากการจับจับสู่ปัญญาประดิษฐ์ทั่วไป: อดีตนักวิจัยของ Google DeepMind เผยสามยุคของหุ่นยนต์มนุษย์

Previous 2 days ago

กำแพงสตรีมมิ่งของ Reinforcement Learning ถูกทำลาย: ข้อผิดพลาดของหน่วยความยาวก้าวเป็นสาเหตุ วิธีการใหม่ใช้การเปลี่ยนแปลงของเอาต์พุตเพื่อย้อนกลับหาความยาวก้าว

Next 2 days ago

ข่าวสารอุตสาหกรรม AI

GPT-5.4 รั่วไหล? รีเควสต์ดึงโค้ดเผยโมเดลใหม่ หน้าต่างบริบท 2 ล้านโทเค็นอาจเป็นจริง

GPT-5.4 รั่วไหล? คำขอ Pull Request โค้ดเผยโมเดลใหม่ หน้าต่างบริบท 2 ล้านโทเค็นอาจกลายเป็นจริง ข่าวลือเกี่ยวกับ GPT-5.4 รั่วไหลออกมาจริงหรือ? ไม่กี่วันที่ผ่านมา ภาพหน้าจอหนึ่งถูกเผย…

2026年3月3日
289000
ข่าวสารอุตสาหกรรม AI

GPT-6 กำลังจะเปิดตัว: ประสิทธิภาพเพิ่มขึ้น 40%, มีหลายรูปแบบโดยกำเนิด, หน้าต่างบริบท 2M, OpenAI ทุ่มทรัพยากรทั้งหมดเพื่อเร่งไปสู่ AGI

จากแหล่งข่าวหลายแห่งเปิดเผยว่า การเปิดตัว GPT-6 รุ่นเรือธงรุ่นต่อไปของ OpenAI อาจเข้าสู่ช่วงนับถอยหลังแล้ว ข้อมูลภายในแสดงให้เห็นว่าบริษัทกำลังทุ่มทรัพยากรเกือบทั้งหมดลงในโครงการนี…

2026年4月5日
172000
ข่าวสารอุตสาหกรรม AI

การสร้างกราฟความรู้ที่อัปเดตตัวเอง: การใช้ LLM และ Neo4j เพื่อวิเคราะห์รายงานการประชุมอย่างชาญฉลาด

แปลงบันทึกการประชุมแบบไม่มีโครงสร้างให้เป็นกราฟความรู้ที่สามารถสืบค้นได้ และรองรับการอัปเดตแบบเพิ่มเติม — ไม่จำเป็นต้องประมวลผลทั้งหมดใหม่ทุกครั้ง บันทึกการประชุมคือเหมืองทองแห่งปั…

2026年2月3日
303000
ข่าวสารอุตสาหกรรม AI

คู่มือขั้นสูงสุดสำหรับทักษะเอเจนต์: จากเริ่มต้นสู่มืออาชีพ

เปิดตัวความคิด คุณค่าของ Claude Skills ยังคงถูกประเมินต่ำเกินไปอย่างรุนแรง Skill ที่ออกแบบมาอย่างดี สามารถมอบความสามารถทางปัญญาที่เทียบเคียงหรืออาจเหนือกว่าผลิตภัณฑ์ AI ที่สมบูรณ์ไ…

2026年2月4日
322000
นโยบายใหม่ปี 2025 ของกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศ: ศูนย์แลกเปลี่ยนอินเทอร์เน็ตรูปแบบใหม่จะปรับโครงสร้างเครือข่ายพลังการประมวลผลและรูปแบบการไหลเวียนข้อมูลอย่างไร?

สำนักงานกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศได้ออก “คำแนะนำเกี่ยวกับการเร่งส่งเสริมการพัฒนานวัตกรรมของศูนย์แลกเปลี่ยนอินเทอร์เน็ตรูปแบบใหม่แห่งชาติ” (MIIT Information …

ข่าวสารอุตสาหกรรม AI 2026年2月20日
295000

DeepMind ระบบหลายเอเจนต์ AI Co-Mathematician: เพื่อนร่วมทีมสุดยอดของนักคณิตศาสตร์ พิชิตปัญหาที่ยังไม่มีคำตอบนาน 60 ปี

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

GPT-5.4 รั่วไหล? รีเควสต์ดึงโค้ดเผยโมเดลใหม่ หน้าต่างบริบท 2 ล้านโทเค็นอาจเป็นจริง

การสร้างกราฟความรู้ที่อัปเดตตัวเอง: การใช้ LLM และ Neo4j เพื่อวิเคราะห์รายงานการประชุมอย่างชาญฉลาด

คู่มือขั้นสูงสุดสำหรับทักษะเอเจนต์: จากเริ่มต้นสู่มืออาชีพ