Meta เสนอ Hyperagents: เครื่องกอเดลดาร์วินที่สามารถปรับปรุงตัวเองได้อย่างไม่จำกัด ความปลอดภัยของ AI กลายเป็นประเด็นหลัก (1/2)
“ซูเปอร์เอเจนต์” ที่สามารถปรับปรุงตัวเองได้อย่างไม่จำกัดได้มาถึงแล้ว
เมื่อเร็วๆ นี้ ทีมวิจัยของ Meta ได้เผยแพร่บทความชื่อ “HYPERAGENTS” ซึ่งได้รับความสนใจอย่างรวดเร็ว บทความนี้ได้ผสมผสานแนวคิด เครื่องกอเดล (Gödel machine) ที่ Jürgen Schmidhuber บิดาแห่ง LSTM เสนอขึ้นเมื่อกว่า 20 ปีที่แล้ว เข้ากับ อัลกอริทึมเปิดแบบดาร์วิน (Darwinian open-ended algorithm) และเสนอ เครื่องกอเดลดาร์วิน (Darwinian Gödel Machine – DGM) ที่สามารถปรับปรุงตัวเองอย่างต่อเนื่อง

จากโครงสร้างนี้ เอเจนต์ไม่เพียงแต่สามารถทำงานเฉพาะเจาะจงได้ดีขึ้นและปรับปรุงประสิทธิภาพอย่างต่อเนื่องเท่านั้น แต่ที่สำคัญกว่านั้นคือ มันสามารถ ปรับปรุงตรรกะพื้นฐานของการ “ปรับปรุงตัวเอง” อย่างต่อเนื่อง เพื่อให้เกิด “การเรียนรู้เมตา (meta-learning)” ที่แท้จริง
นี่คือซูเปอร์เอเจนต์รุ่นใหม่ที่บทความนิยามไว้ – Hyperagents
บทความยังชี้ให้เห็นต่อไปว่า ในอนาคต AI มีแนวโน้มที่จะก้าวข้ามขอบเขตของอัลกอริทึมเริ่มต้นที่มนุษย์ตั้งไว้ผ่านการปรับปรุงตัวเองอย่างต่อเนื่องนี้ ด้วยเหตุนี้ ปัญหาความปลอดภัยของ AI ต้องถูกวางไว้ในตำแหน่งหลัก
บทความนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว


จากเครื่องกอเดลสู่เครื่องกอเดลดาร์วิน
เพื่อให้เข้าใจซูเปอร์เอเจนต์ Hyperagents ก่อนอื่นต้องเข้าใจพื้นฐานทางทฤษฎี – เครื่องกอเดล
เครื่องกอเดลเป็น AI สมมุติฐานที่สามารถปรับปรุงตัวเองได้เอง ใจกลางของมันคือการหาหลักฐานทางคณิตศาสตร์: หากมีกลยุทธ์ที่ดีกว่า มันจะแก้ปัญหาโดยการเขียนโค้ดตัวเองใหม่แบบเรียกซ้ำ แนวคิดนี้ถูกเสนอครั้งแรกโดย Jürgen Schmidhuber เมื่อกว่า 20 ปีที่แล้ว

ในการเรียนรู้ของเครื่องแบบดั้งเดิม “วิธีการเรียนรู้” ของ AI เป็น การเข้ารหัสแบบแข็ง (hard-coded) ที่มนุษย์ตั้งไว้ มันสามารถเข้าใกล้เป้าหมายได้โดยการปรับพารามิเตอร์ภายในเท่านั้น แต่เครื่องกอเดลทำลายข้อจำกัดนี้ โดยถือว่า กรอบอัลกอริทึมเอง เป็นโค้ดที่สามารถแก้ไขได้ และ ปรับปรุงความสามารถในการเรียนรู้ด้วยตัวเองผ่านการเขียนโปรแกรมใหม่ด้วยตนเอง
อย่างไรก็ตาม เครื่องกอเดลเผชิญกับปัญหาจริง: ก่อนที่จะพัฒนาตัวเอง มันต้องพิสูจน์ทางคณิตศาสตร์ว่าการเปลี่ยนแปลงนั้นจะนำมาซึ่งผลประโยชน์สุทธิ (นั่นคือ ผลประโยชน์จากการปรับปรุงเกินกว่าต้นทุนการคำนวณ) ในงานที่ซับซ้อนในโลกแห่งความเป็นจริง การพิสูจน์ดังกล่าวแทบจะเป็นไปไม่ได้เลย
เพื่อแก้ไขปัญหานี้ ทีม Meta ได้เสนอ เครื่องกอเดลดาร์วิน มัน ใช้อัลกอริทึมเปิด โดยค้นหาในข้อเสนอการปรับปรุงโค้ดที่โมเดลขนาดใหญ่เสนอ และคัดกรองแผนการที่สามารถปรับปรุงประสิทธิภาพได้จากประสบการณ์

กล่าวอีกนัยหนึ่ง DGM ใช้โมเดลพื้นฐานสร้างข้อเสนอการปรับปรุงโค้ด และด้วยความช่วยเหลือจากผลลัพธ์ล่าสุดของอัลกอริทึมเปิด ค้นหาและสร้างคลังเอเจนต์ที่เติบโต หลากหลาย และมีคุณภาพสูงอย่างต่อเนื่อง จากนี้ DGM สามารถสร้างกลยุทธ์การปรับปรุงตัวเองได้หลายวิธี เช่น เพิ่มขั้นตอนการตรวจสอบแพตช์ ปรับปรุงฟังก์ชันการดูไฟล์ เพิ่มประสิทธิภาพเครื่องมือแก้ไข สร้างและคัดกรองโซลูชันหลายรายการเพื่อเลือกโซลูชันที่ดีที่สุด และบันทึกและวิเคราะห์ประวัติการลองอัตโนมัติเมื่อดำเนินการเปลี่ยนแปลงใหม่
การทดลองแสดงให้เห็นว่า DGM ได้รับทรัพยากรการคำนวณมากขึ้น ผลของการปรับปรุงตัวเองก็จะดีขึ้น
ซูเปอร์เอเจนต์ Hyperagents
แม้ว่า DGM จะมีประสิทธิภาพสูง แต่ก็มีข้อจำกัดสำคัญ: เหมาะสำหรับงานโปรแกรมมิ่งเป็นหลัก นี่เป็นเพราะ DGM อาศัยสมมติฐานหลัก – งานประเมินและงานปรับเปลี่ยนตัวเองต้อง “สอดคล้องกัน”

ในด้านการเขียนโปรแกรม การสอดคล้องนี้เป็นไปโดยธรรมชาติ: การเพิ่มความสามารถในการเขียนโปรแกรม เท่ากับเพิ่มความสามารถในการแก้ไขโค้ดตัวเอง เครื่องมือตรรกะที่ใช้แก้ปัญหาการเขียนโปรแกรมภายนอก สามารถนำมาใช้แก้ไขโค้ดพื้นฐานของตัวเองได้โดยตรง
อย่างไรก็ตาม ในสาขาที่ไม่ใช่การเขียนโปรแกรม (เช่น การเขียนบทกวี) แม้ว่าจะเพิ่มความสามารถในการทำงาน แต่ก็ไม่สามารถเปลี่ยนเป็นระดับตรรกะในการแก้ไขโค้ดได้โดยตรง ในงานที่ขาด “การอ้างอิงถึงตัวเอง (self-referential)” เช่นนี้ ห่วงโซ่วิวัฒนาการแบบเรียกซ้ำของ DGM จะขาดและหยุดนิ่ง
เพื่อแก้ไขปัญหานี้ บทความได้เสนอแนวคิดซูเปอร์เอเจนต์ – พวกมันสามารถแก้ไขพฤติกรรมการทำงานของตัวเอง และยังสามารถแก้ไขกระบวนการทั้งหมดของการสร้างข้อเสนอการปรับปรุงในอนาคตได้ สิ่งนี้ทำให้เกิด “การปรับเปลี่ยนตัวเองระดับเมตา (meta-cognitive self-modification)”: ไม่เพียงแต่เรียนรู้ว่าจะทำอย่างไรให้ดีขึ้น แต่ยังเรียนรู้ว่าจะปรับปรุงได้อย่างมีประสิทธิภาพมากขึ้นได้อย่างไร
โดยเฉพาะ บทความได้สร้างตัวอย่างซูเปอร์เอเจนต์เป็น DGM-Hyperagents DGM-H เป็นการขยาย DGM ซึ่งพฤติกรรมการแก้ไขปัญหาและขั้นตอนการปรับปรุงตัวเองสามารถแก้ไขและวิวัฒนาการได้

กรอบหลักประกอบด้วย:
* โครงสร้างการอ้างอิงถึงตัวเอง: รวม “เอเจนต์งาน” และ “เอเจนต์เมตา” เป็นโปรแกรมเดียวที่แก้ไขได้
* วิวัฒนาการระดับเมตา: ใน Hyperagents “วิธีการปรับปรุง” เองก็สามารถปรับปรุงได้ สิ่งนี้ทำให้ระบบไม่ต้องการให้งานและการแก้ไขต้องสอดคล้องกันอย่างเคร่งครัดอีกต่อไป จึงทำให้เกิดการปรับเปลี่ยนตัวเองระดับเมตาข้ามโดเมน
เปรียบเทียบได้ว่า ใน Hyperagents นักกีฬา (เอเจนต์งาน) กำลังฝึกฝน ในขณะที่โค้ช (เอเจนต์เมตา) ก็กำลังเรียนรู้วิธีฝึกสอนที่ดีขึ้นเช่นกัน ระดับของทั้งคู่เพิ่มขึ้นแบบเกลียว
นอกจากนี้ DGM-H ยังปรับปรุงกระบวนการสร้างเอเจนต์ใหม่ (เช่น การแนะนำความจำถาวร การติดตามประสิทธิภาพ ฯลฯ) และการปรับปรุงระดับเมตาเหล่านี้มีคุณสมบัติในการถ่ายโอนข้ามโดเมนและสะสมข้ามการรัน
การทดสอบ: การก้าวกระโดดจาก 20% เป็น 50%
การทดลองพิสูจน์ว่า เครื่องกอเดลดาร์วิน สามารถปรับปรุงตัวเองอย่างต่อเนื่องโดยการแก้ไขคลังโค้ดของตัวเอง
ในการทดสอบมาตรฐาน SWE-bench DGM ปรับปรุงประสิทธิภาพของตัวเองจาก 20.0% เป็น 50.0% โดยอัตโนมัติ

ในการทดสอบมาตรฐาน Polyglot ประสิทธิภาพของ DGM กระโดดจาก 14.2% เริ่มต้นเป็น 30.7% ซึ่งเหนือกว่าเอเจนต์ที่ออกแบบโดยมนุษย์ที่พัฒนาโดย Aider อย่างมีนัยสำคัญ

ผลลัพธ์เหล่านี้ยืนยันว่า DGM สามารถค้นพบและดำเนินการปรับปรุงตัวเองที่มีประสิทธิภาพ กุญแจสำคัญคือ กลยุทธ์การค้นหาวิวัฒนาการแบบเปิด: โดยการสุ่มตัวอย่างเอเจนต์ใหม่จากคลังเอเจนต์ที่มีอยู่ DGM สามารถสำรวจเส้นทางวิวัฒนาการหลายเส้นทางแบบขนาน

เอเจนต์ “บรรพบุรุษ” ที่มีประสิทธิภาพด้อยกว่า มีบทบาทสำคัญในการค้นพบวิธีการและฟังก์ชันใหม่ๆ ซึ่งหลีกเลี่ยงการลู่เข้าสู่จุดที่ดีที่สุดเฉพาะที่เร็วเกินไป

นอกจากนี้ การปรับปรุงของ DGM แสดงให้เห็น ความสามารถในการถ่ายโอน ที่กว้างขวาง:
* เอเจนต์ที่ปรับให้เหมาะสมสำหรับ Claude 3.5 Sonnet ยังคงสามารถปรับปรุงประสิทธิภาพได้เมื่อเปลี่ยนเป็น o3-mini หรือ Claude 3.7 Sonnet
* ในการทดสอบมาตรฐาน Polyglot การปรับปรุงตัวเองตามงาน Python ก็ปรับปรุงประสิทธิภาพในงานภาษาอื่นๆ เช่น Rust, C++, Go เช่นกัน

แนะนำผู้เขียน
ผู้เขียนหลักของบทความนี้คือ Jenny Zhang จากมหาวิทยาลัยบริติชโคลัมเบีย เธอเป็นลูกศิษย์ของศาสตราจารย์ Jeff Clune เธอจบการศึกษาระดับปริญญาตรีจาก Imperial College London บทความนี้เสร็จสมบูรณ์ในช่วงที่เธอฝึกงานที่ Meta ทิศทางการวิจัยของเธอมุ่งเน้นไปที่การเรียนรู้แบบเสริมกำลัง AI ที่ปรับปรุงตัวเอง และ AI แบบเปิด


Bingchen Zhao เป็นนักศึกษาปริญญาเอกจากมหาวิทยาลัยเอดินบะระ เป็นลูกศิษย์ของศาสตราจารย์ Oisin Mac Aodha เขาจบการศึกษาระดับปริญญาตรีจากมหาวิทยาลัยถงจี ก่อนหน้านี้เขาทำงานในทีม Meta FAIR เพื่อสร้างระบบ AI ที่ปรับปรุงตัวเอง

Wannan Yang กำลังศึกษาระดับปริญญาเอกที่มหาวิทยาลัยนิวยอร์ก ปัจจุบันฝึกงานที่ Meta Superalignment Lab จบการศึกษาระดับปริญญาตรีจากมหาวิทยาลัยเอดินบะระ

ผู้เขียนอื่นๆ ของบทความรวมถึง Jeff Clune และนักวิจัยจาก Meta ได้แก่ Minqi Jiang (ลาออกแล้ว), Sam Devlin และ Tatiana Shavrina
เมื่อบริษัทสตาร์ทอัพ AI กลายเป็นจุดสนใจของโลก จะคว้าโอกาสในการขยายสู่ตลาดต่างประเทศได้อย่างไร?
สำหรับผู้ที่อยู่ในอุตสาหกรรมที่ได้ขยายสู่ตลาดต่างประเทศแล้ว กำลังเตรียมการ หรือต้องการเข้าใจตรรกะของการเริ่มต้นธุรกิจ AI ทั่วโลก การเจาะลึกเส้นทางการพัฒนาและความท้าทายของมันกำลังเป็นเวลาที่เหมาะสม

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/27439
