MLEvolve: ขึ้นอันดับ 1 บน MLE-bench ภายใน 12 ชั่วโมง ความสามารถของ AI ในการออกแบบอัลกอริทึมด้วยตนเองก้าวหน้า

2026年3月10日 am11:54 • โครงการโอเพนซอร์ส • 211 views

12 ชั่วโมงขึ้นอันดับ 1: MLEvolve แสดงความสามารถในการออกแบบอัลกอริทึม AI แบบอัตโนมัติ

การทำให้ AI ออกแบบอัลกอริทึมการเรียนรู้ของเครื่องได้เหมือนนักวิทยาศาสตร์ข้อมูลระดับสูง ต้องใช้กี่ขั้นตอน?

ระบบ MLEvolve ที่เพิ่งเปิดตัวเป็นโอเพนซอร์สล่าสุดจากแพลตฟอร์มการค้นพบทางวิทยาศาสตร์ “Shusheng” ของ Shanghai AI Laboratory ได้ให้คำตอบ: ในการทดสอบมาตรฐาน MLE-bench ที่มีชื่อเสียง ใช้เวลาเพียง 12 ชั่วโมง ก็ขึ้นอันดับหนึ่งของตารางคะแนน

MLEvolve เป็นระบบการเรียนรู้ของเครื่องที่วิวัฒนาการด้วยตนเอง มันใช้ การค้นหาแบบมอนติคาร์โลกราฟแบบก้าวหน้า แทนที่การค้นหาแบบต้นไม้แบบดั้งเดิม เพื่อให้เกิดการแบ่งปันประสบการณ์ระหว่างเส้นทางการสำรวจที่ต่างกัน ผ่าน ชั้นความจำระดับโลก ที่บันทึกความสำเร็จและความล้มเหลวของทุกครั้งที่ลอง ทำให้เอเจนต์ฉลาดขึ้นเรื่อยๆ จากการสำรวจ และใช้การสร้างโค้ดแบบหลายโหมดและการทำงานร่วมกันของเอเจนต์หลายตัว เพื่อครอบคลุมกระบวนการทั้งหมดตั้งแต่การออกแบบโซลูชันไปจนถึงการตรวจสอบโค้ด

ผลคะแนนสุดท้ายแสดงให้เห็นว่า: บน MLE-bench ซึ่งครอบคลุมโจทย์การแข่งขัน Kaggle 75 ข้อ MLEvolve ได้รับ อัตราการได้รับเหรียญ 61.33% ซึ่งเหนือกว่าวิธีพื้นฐานทั้งหมดที่กำหนดงบประมาณการคำนวณไว้ที่ 24 ชั่วโมง และมีความได้เปรียบชัดเจนยิ่งขึ้นในงานที่มีความยากสูง

MLEvolve: ขึ้นอันดับ 1 บน MLE-bench ภายใน 12 ชั่วโมง ความสามารถของ AI ในการออกแบบอัลกอริทึมด้วยตนเองก้าวหน้า

การค้นพบอัลกอริทึม: แรงขับเคลื่อนหลักของนวัตกรรมทางวิทยาศาสตร์

ความก้าวหน้าครั้งสำคัญในการวิจัยทางวิทยาศาสตร์ มักมีที่มาจากนวัตกรรมของอัลกอริทึมและระเบียบวิธี การแปลงฟูริเยร์แบบเร็ว (FFT) ปฏิวัติการประมวลผลสัญญาณ อัลกอริทึม backpropagation ผลักดันการปฏิบัติจริงของการเรียนรู้เชิงลึก ทฤษฎีฟังก์ชันความหนาแน่น (DFT) ให้เครื่องมือสำคัญสำหรับวิทยาศาสตร์วัสดุเชิงคำนวณและได้รับรางวัลโนเบล — การค้นพบและการออกแบบอัลกอริทึมใหม่ โดยพื้นฐานแล้วคือการสร้างเครื่องมือใหม่สำหรับการวิจัยทางวิทยาศาสตร์ ซึ่งมีมูลค่าสูงกว่าการแก้ปัญหาเดียวมาก

การค้นพบอัลกอริทึมยังเป็นตัวสะท้อนของความสามารถในการสร้างนวัตกรรมระดับสูง การสามารถออกแบบอัลกอริทึมได้ด้วยตนเอง หมายความว่าไม่เพียงแต่จะใช้เครื่องมือที่มีอยู่ได้ แต่ยังมีความสามารถในการสร้างเครื่องมือใหม่ด้วย ในยุค AI การทำให้ระบบอัจฉริยะมีความสามารถในการสร้างนวัตกรรมในระดับอัลกอริทึม เป็นก้าวสำคัญสู่การค้นพบทางวิทยาศาสตร์แบบอัตโนมัติ

แพลตฟอร์มการค้นพบทางวิทยาศาสตร์ “Shusheng” เป็นแพลตฟอร์มแบบบูรณาการที่ Shanghai AI Laboratory สร้างขึ้นสำหรับการวิจัยที่ขับเคลื่อนโดย AI เอเจนต์หลัก InternAgent 1.5 ประกอบด้วยระบบย่อยสามระบบที่ทำงานร่วมกัน ได้แก่ การสร้าง การตรวจสอบ และการวิวัฒนาการ ซึ่งทำให้งานวิจัยเป็นกระบวนการอนุมานอัจฉริยะที่สามารถทำซ้ำได้

MLEvolve ในฐานะเครื่องมือปรับปรุงโซลูชันของระบบย่อยการตรวจสอบ มุ่งเน้นไปที่งานออกแบบและปรับแต่งอัลกอริทึม ผลการขึ้นอันดับหนึ่งบน MLE-bench ในเวลา 12 ชั่วโมง เป็นหลักฐานเชิงประจักษ์ที่แข็งแกร่งของความสามารถในการออกแบบอัลกอริทึม AI แบบอัตโนมัติ

จาก “การสร้างโค้ด” สู่ “การออกแบบอัลกอริทึม”: ความท้าทายสำคัญที่ AI เผชิญ

โมเดลภาษาขนาดใหญ่สามารถสร้างโค้ดที่มีคุณภาพพอใช้ได้แล้ว แต่เมื่อเผชิญกับการแข่งขันการเรียนรู้ของเครื่องจริงอย่าง Kaggle — ซึ่งโดยพื้นฐานแล้วเป็นสนามทดสอบแบบบูรณาการของการออกแบบอัลกอริทึมและการปรับปรุงทางวิศวกรรม — การสร้างโค้ดเพียงครั้งเดียวไม่เพียงพอ การประมวลผลข้อมูล วิศวกรรมคุณลักษณะ การเลือกโมเดล การปรับแต่งการฝึกฝน แต่ละขั้นตอนต้องการการทำซ้ำและการลองผิดลองถูกอย่างต่อเนื่อง ความท้าทายที่แท้จริงคือ: จะทำให้ AI เหมือนผู้เข้าแข่งขันระดับสูงได้อย่างไร ที่สามารถสำรวจอย่างต่อเนื่อง สรุปประสบการณ์ และพัฒนาวิธีการอัลกอริทึมของมันอย่างต่อเนื่องภายในเวลาที่จำกัด?

เอเจนต์การเรียนรู้ของเครื่องที่มีอยู่ในปัจจุบันยังห่างไกลจากเป้าหมายนี้: กลยุทธ์การค้นหาไม่มีประสิทธิภาพสูง ทำให้ยากที่จะระบุทิศทางได้อย่างรวดเร็วในพื้นที่โซลูชันที่กว้างใหญ่ การลองแต่ละครั้งแยกจากกัน ประสบการณ์ความสำเร็จไม่สามารถสะสมได้ บทเรียนจากความล้มเหลวก็ไม่สามารถนำไปใช้ในการปรับปรุงครั้งต่อๆ ไปได้

ด้วยเหตุนี้ ทีม Intern Discovery ของ Shanghai AI Laboratory ร่วมกับ East China Normal University จึงได้เปิดตัว MLEvolve — กรอบงานวิศวกรรมการเรียนรู้ของเครื่องที่วิวัฒนาการด้วยตนเอง โดยอิงจากการค้นหาแบบมอนติคาร์โลกราฟ (MCGS) และการทำงานร่วมกันของเอเจนต์หลายตัว MLEvolve สร้างระบบการปรับแต่งอัลกอริทึมแบบอัตโนมัติที่สมบูรณ์ ตั้งแต่การออกแบบสถาปัตยกรรม กลยุทธ์การค้นหา การสร้างโค้ด ไปจนถึงการจัดการประสบการณ์

ผลลัพธ์หลัก: บนมาตรฐาน MLE-bench MLEvolve ได้รับ อัตราการได้รับเหรียญ 61.33% ± 1.33% และ ขึ้นอันดับหนึ่งของตารางคะแนน โดยเฉพาะอย่างยิ่งในการแข่งขันที่มีความยากสูง มันแสดงผล 42.22% ซึ่งนำหน้าวิธีการเปรียบเทียบทั้งหมด — และทั้งหมดนี้ใช้เพียง 12 ชั่วโมง ของงบประมาณการคำนวณ ซึ่งต่ำกว่ามาตรฐาน 24 ชั่วโมงที่ระบบชั้นนำอื่นๆ มักกำหนดไว้

เปิดโปง MLEvolve: สี่โมดูลหลักสร้างวงจรปิด “วิวัฒนาการด้วยตนเอง”

แนวคิดหลักของ MLEvolve คือ: ในงานอัตโนมัติที่มีรอบระยะยาว ระบบไม่ควรหยุดเพียงแค่สร้างโซลูชันเดียว แต่ควรค้นหา ตรวจสอบ และปรับปรุงอย่างต่อเนื่อง มันถักทอ “การวางแผน → การสร้าง → การประเมิน → การวิวัฒนาการ” ให้เป็นวงจรการปรับปรุงที่สามารถทำซ้ำได้ ทำให้เอเจนต์สามารถเข้าใกล้คำตอบที่ดีขึ้นเรื่อยๆ ภายใต้งบประมาณที่จำกัด

กรอบงานนี้ขับเคลื่อนโดยการทำงานร่วมกันของสี่โมดูลหลัก:

การค้นหาแบบมอนติคาร์โลกราฟแบบก้าวหน้า (MCGS) — เครื่องมือค้นหา รับผิดชอบการสำรวจแบบขนานหลายสาขาและการจัดตารางงานอัจฉริยะ
ชั้นความจำระดับโลกที่ขับเคลื่อนโดยประสบการณ์ — ศูนย์กลางความรู้ บันทึกและค้นหาประสบการณ์ความสำเร็จและความล้มเหลวของประวัติการลองทั้งหมด
การสร้างโค้ดแบบปรับตัวได้หลายโหมด — เครื่องมือดำเนินการ เลือกกลยุทธ์การเข้ารหัสที่เหมาะสมที่สุดตามสถานะงาน
การแบ่งงานเฉพาะทางของเอเจนต์หลายตัว — ระบบการทำงานร่วมกัน เอเจนต์ผู้เชี่ยวชาญแปดตัวทำงานตามหน้าที่และวิวัฒนาการร่วมกัน

ทั้งสี่ทำงานร่วมกัน สร้างเส้นทางวิวัฒนาการด้วยตนเองที่สมบูรณ์ตั้งแต่ การสะสมประสบการณ์ → การค้นหาอัจฉริยะ → การปรับปรุงโซลูชัน → การตรวจสอบวงจรปิด

นวัตกรรมเทคโนโลยีหลัก

หนึ่ง, MCGS แบบก้าวหน้า: นวัตกรรมการค้นหาจาก “ต้นไม้” สู่ “กราฟ”

การค้นหาแบบมอนติคาร์โลต้นไม้ (MCTS) แบบดั้งเดิม ในงานการเรียนรู้ของเครื่องที่ซับซ้อน มักมีประสิทธิภาพจำกัดเนื่องจากสาขาแยกจากกันและข้อมูลโดดเดี่ยว MLEvolve นำเสนอ การค้นหาแบบมอนติคาร์โลกราฟแบบก้าวหน้า อย่างสร้างสรรค์ โดยใช้กลไกสามประการเพื่อให้เกิดการเปลี่ยนแปลงเชิงคุณภาพในความสามารถในการค้นหา:

1. การสลับระหว่างการสำรวจและการใช้ประโยชน์ที่ตระหนักถึงเวลา
ระบบนำกลยุทธ์การสลับแบบนิ่มที่ตระหนักถึงเวลาเข้ามา ปรับโหมดการค้นหาแบบไดนามิกตามงบประมาณเวลาที่เหลือ ระยะแรกเน้นการสำรวจเป็นหลัก ครอบคลุมพื้นที่โซลูชันอย่างกว้างขวาง ระยะหลังเปลี่ยนไปใช้ประโยชน์อย่างราบรื่น มุ่งเน้นไปยังพื้นที่ที่มีประสิทธิภาพที่พิสูจน์แล้วเพื่อการปรับแต่งเชิงลึก ทำให้เกิดจังหวะที่มีประสิทธิภาพ “ระยะแรกกว้างขวาง ระยะหลังประณีต”

2. การผสานข้ามสาขาและการวิวัฒนาการของวิถี
เมื่อเส้นทางการค้นหาสาขาใดสาขาหนึ่งหยุดชะงัก MLEvolve จะเริ่มใช้กลยุทธ์วิวัฒนาการสองแบบ:
* วิวัฒนาการภายในสาขา: ทบทวนวิถีการปรับปรุงที่สมบูรณ์ของสาขาปัจจุบัน สรุปรูปแบบและเสนอทิศทางการปรับแต่งใหม่
* การผสานข้ามสาขา: แยกกลยุทธ์สำคัญจากโหนดที่ดีที่สุดของสาขาอื่นที่ประสบความสำเร็จ ผสานเพื่อสร้างโซลูชันใหม่
การอัปเกรดโครงสร้างจาก “ต้นไม้” เป็น “กราฟ” นี้ ทำให้เกิด การแลกเปลี่ยนประสบการณ์และการรวมข้อได้เปรียบที่แท้จริง ระหว่างเส้นทางการค้นหาที่ต่างกัน

3. การตรวจจับภาวะหยุดนิ่งหลายระดับ
ระบบตรวจสอบความคืบหน้าของการค้นหาในระดับสาขาและระดับโลกพร้อมกัน ทันทีที่ตรวจพบจุดติดขัด มันจะสลับจากโหมดการปรับปรุงปกติไปเป็นโหมดวิวัฒนาการหรือโหมดผสานโดยอัตโนมัติ เพื่อให้แน่ใจว่าแรงขับเคลื่อนในการค้นหายังคงอยู่

สอง, ความจำระดับโลกที่ขับเคลื่อนโดยประสบการณ์: มอบความสามารถในการเรียนรู้อย่างต่อเนื่องให้กับเอเจนต์

ผู้เข้าแข่งขันที่ยอดเยี่ยมมักเก่งในการเรียนรู้จากประสบการณ์ในอดีต MLEvolve มอบความสามารถเดียวกันให้กับเอเจนต์ผ่าน ชั้นความจำระดับโลก ทุกครั้งที่ลอง — ไม่ว่าจะสำเร็จหรือล้มเหลว — จะถูกบันทึกเป็นโครงสร้างสี่ส่วน: แผนการวางแผน โค้ดที่สมบูรณ์ ตัวชี้วัดประสิทธิภาพ ป้ายกำกับความสำเร็จ/ล้มเหลว

การค้นหาความจำใช้กลยุทธ์ผสมระหว่าง การจับคู่ข้อความ BM25 และการค้นหาเชิงความหมายเวกเตอร์ FAISS ซึ่งให้ความสำคัญทั้งการจับคู่คำหลักที่แม่นยำและความคล้ายคลึงเชิงความหมาย เมื่อเอเจนต์วางแผนขั้นตอนต่อไป มันจะค้นหาประสบการณ์ในอดีตที่เกี่ยวข้องโดยอัตโนมัติ: เรียนรู้จากเส้นทางที่ประสบความสำเร็จ หลีกเลี่ยงกับดักที่รู้จัก

สิ่งที่ชาญฉลาดคือ เอเจนต์ประเภทต่างๆ จะสอบถามความจำด้วยวิธีที่ต่างกัน: เอเจนต์ประเภทปรับปรุงมุ่งเน้นการเรียนรู้ประสบการณ์ความสำเร็จเพื่อปรับปรุงโซลูชัน เอเจนต์ประเภทร่างมุ่งเน้นกรณีความล้มเหลวมากขึ้นเพื่อหลีกเลี่ยงการทำผิดซ้ำ เอเจนต์ประเภทผสานจะค้นหาอย่างกว้างขวางเพื่อกระตุ้นแรงบันดาลใจใหม่ๆ จากการผสมผสาน กลไกการเรียกใช้ที่แตกต่างกันนี้ ทำให้มั่นใจทั้งประสิทธิภาพของการนำประสบการณ์กลับมาใช้ และรักษาความหลากหลายของการสำรวจ

สาม, การสร้างโค้ดแบบปรับตัวได้หลายโหมดและการทำงานร่วมกันของเอเจนต์หลายตัว

MLEvolve ใช้เวิร์กโฟลว์แบบ “การแยกการวางแผนและการเข้ารหัส”: ตัววางแผนสร้างแผนที่มีโครงสร้างก่อน จากนั้นตัวเข้ารหัสแปลงเป็นโค้ดที่ปฏิบัติการได้ ในขั้นตอนการสร้างโค้ด ระบบรองรับสามโหมด และสามารถสลับได้อย่างยืดหยุ่นตามสถานะงาน:

โหมดการสร้างแบบเต็ม: สร้างโซลูชันที่ปฏิบัติการได้สมบูรณ์ในครั้งเดียว สร้างพื้นที่โซลูชันเริ่มต้นที่มีคุณภาพสูงอย่างรวดเร็ว
โหมดการสังเคราะห์แบบเป็นขั้นตอน: สร้างและผสานตามขั้นตอนการทำงานของกระบวนการเรียนรู้ของเครื่อง เพื่อให้แน่ใจว่าการปรับแต่งอย่างละเอียดในทุกขั้นตอนของงานที่ซับซ้อน
โหมดการซ่อมแซมแบบเพิ่มเติม: แทนที่และทำซ้ำโค้ดเฉพาะส่วนอย่างแม่นยำ ในขณะที่รักษาเสถียรภาพโดยรวมและทดสอบกลยุทธ์ใหม่อย่างรวดเร็ว เพิ่มประสิทธิภาพการทำซ้ำอย่างมาก

ในระดับการทำงานร่วมกัน MLEvolve สร้างทีมเอเจนต์หลายตัวที่ครอบคลุมวงจรชีวิตที่สมบูรณ์ของวิศวกรรมการเรียนรู้ของเครื่อง หน้าที่ครอบคลุมการออกแบบโซลูชัน การปรับปรุงแบบวนซ้ำ การแก้ไขข้อผิดพลาด การตรวจสอบโค้ด และการตรวจจับการรั่วไหลของข้อมูล เป็นต้น ระบบสามารถจัดตารางงานเอเจนต์ที่เหมาะสมที่สุดตามสถานะการค้นหาปัจจุบัน: ในระยะสำรวจ เอเจนต์ประเภทร่างจะเปิดทิศทางใหม่ เมื่อเจอจุดติดขัด เอเจนต์ประเภทวิวัฒนาการและผสานจะแสวงหาการก้าวข้าม ขั้นตอนทั้งหมดนี้ได้รับการรับประกันคุณภาพโค้ดโดยเอเจนต์ตรวจสอบ กลไกการแบ่งงานเฉพาะทางและการจัดตารางงานแบบไดนามิกนี้ ทำให้ระบบสามารถทำงานเหมือนทีมวิศวกรรม AI ที่ทำงานร่วมกันอย่างมีประสิทธิภาพ

ผลการทดลอง: ขึ้นอันดับหนึ่งใน 12 ชั่วโมง นำหน้าอย่างครอบคลุม

ผลการแสดงบนตารางคะแนน MLE-bench

MLEvolve ได้รับผลลัพธ์ที่นำหน้าอย่างครอบคลุมบนมาตรฐาน MLE-bench (ซึ่งประกอบด้วยโจทย์การแข่งขัน Kaggle 75 ข้อ) โดยมีจุดเด่นสำคัญบางประการที่ควรทราบ:

ประสิทธิภาพโดดเด่น: ใช้เวลาเพียง 12 ชั่วโมงก็ถึงระดับประสิทธิภาพที่วิธีอื่นต้องการ 24 ชั่วโมงจึงจะถึงได้ ประสิทธิภาพด้านเวลาเพิ่มขึ้นเป็นสองเท่า
นำหน้าในงานยากสูง: ได้รับคะแนนที่ดีที่สุดที่ 42.22% ในการแข่งขัน ”

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25033