นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ ‘AI ที่พัฒนาตนเองอย่างต่อเนื่อง’: ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์

2026年3月5日 pm3:41 • การฝึกโมเดลขนาดใหญ่ • 158 views

เมื่อวานนี้ Zitong Yang นักศึกษาปริญญาเอกของมหาวิทยาลัยสแตนฟอร์ด ได้ผ่านการสอบป้องกันวิทยานิพนธ์ปริญญาเอกในหัวข้อ “AI ที่พัฒนาตนเองอย่างต่อเนื่อง” เรียบร้อยแล้ว หลังจากเสร็จสิ้นการสอบ วิดีโอและข้อมูลที่เกี่ยวข้องได้เผยแพร่อย่างรวดเร็ว แสดงให้เห็นอย่างเป็นระบบถึงการสำรวจเส้นทางการพัฒนา AI ในอนาคตของเขา สำหรับข้อจำกัดหลักสามประการของโมเดล AI ในปัจจุบัน ได้แก่ น้ำหนักที่คงที่หลังการฝึกอบรม ข้อมูลมนุษย์คุณภาพสูงกำลังจะหมด และการค้นพบอัลกอริทึมใหม่ต้องพึ่งพามนุษย์อย่างมาก เขาได้เสนอกรอบการแก้ปัญหาที่ชัดเจน

นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ 'AI ที่พัฒนาตนเองอย่างต่อเนื่อง': ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์

ในการสอบ Zitong Yang ได้เน้นอธิบายสามทิศทางการวิจัยหลัก

ประการแรกคือ กระบวนทัศน์ “การฝึกอบรมต่อเนื่องด้วยข้อมูลสังเคราะห์” การวิจัยนี้ใช้เทคโนโลยีการสร้างข้อมูลสังเคราะห์ด้วยกราฟเอนทิตี้ มีเป้าหมายเพื่อให้โมเดลสามารถเรียนรู้ความรู้ในสาขาย่อยได้อย่างต่อเนื่องแม้หลังการฝึกอบรมล่วงหน้า พร้อมทั้งหลีกเลี่ยงการลืมแบบหายนะได้อย่างมีประสิทธิภาพ

ประการที่สองคือ การสำรวจ ความสามารถในการฝึกอบรมล่วงหน้าที่พัฒนาตนเอง ผ่านเทคโนโลยี “การฝึกอบรมล่วงหน้าด้วยการชี้นำสังเคราะห์” ทำให้โมเดลสามารถขุดค้นโครงสร้างและความสัมพันธ์ที่แฝงอยู่ระหว่างเอกสารจำนวนมหาศาลได้ด้วยตนเอง เพื่อเพิ่มประสิทธิภาพผลการฝึกอบรมล่วงหน้าของตนเอง และลดอัตราความผิดพลาดทางข้อเท็จจริงได้อย่างมีนัยสำคัญ

สุดท้ายคือ การแสดง ศักยภาพของ “AI ออกแบบ AI” โดยการสร้างสภาพแวดล้อมการวิจัยอิสระที่รวมคลังรหัสและฟังก์ชันค่า และนำกลไกการค้นหาแบบวิวัฒนาการมาใช้ ทำให้โมเดลสามารถเสนอแนวคิดอัลกอริทึม เขียนโค้ด และรันการทดลองได้ด้วยตนเอง

Zitong Yang เปรียบเทียบในบทสรุปว่า เช่นเดียวกับที่สมการสนามของไอน์สไตน์สามารถทำนายการขยายตัวของจักรวาลที่ตัวเขาเองในตอนแรกยังยอมรับได้ยาก สิ่งมีชีวิตอัจฉริยะที่มนุษย์สร้างขึ้นจากกระบวนการเชิงอัลกอริทึม ก็มีความสามารถเต็มที่ที่จะวิวัฒนาการจนมีระดับความฉลาดที่เหนือกว่าผู้สร้างอย่างหลีกเลี่ยงไม่ได้

คณะกรรมการสอบของเขามีทีมที่แข็งแกร่ง รวมถึง Stephen Boyd (ประธาน) ศาสตราจารย์ด้านวิศวกรรมไฟฟ้า วิทยาการคอมพิวเตอร์ และวิทยาศาสตร์การจัดการของมหาวิทยาลัยสแตนฟอร์ด, Percy Liang ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์, Emmanuel Candès ศาสตราจารย์ด้านคณิตศาสตร์และสถิติ, Tatsunori Hashimoto ผู้ช่วยศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ และ Pang Ruoming ที่เพิ่งย้ายจาก Meta มาเปิด OpenAI

ต่อไปนี้คือการสรุปเนื้อหาหลักจากการสอบของ Zitong Yang

หัวข้อ: Continually self-improving AI
ที่อยู่สไลด์: https://zitongyang.github.io/slides/ZitongYang_defense_slides.pdf

AI ที่พัฒนาตนเองอย่างต่อเนื่อง

การสอบครั้งนี้มีจุดมุ่งหมายเพื่อสำรวจ “AI ที่พัฒนาตนเองอย่างต่อเนื่อง” ก่อนอื่น จำเป็นต้องให้คำจำกัดความของแนวคิดนี้

ที่เรียกว่า ระบบ AI ที่พัฒนาตนเองอย่างต่อเนื่อง หมายถึง ระบบที่เมื่อถูกสร้างขึ้นมาแล้ว สามารถ พัฒนาตนเองอย่างต่อเนื่องและเป็นอิสระ และผลการพัฒนาของมัน ดีกว่าที่ผู้สร้างมนุษย์สามารถทำได้

เพื่อให้คำจำกัดความแม่นยำและมีประโยชน์ในทางปฏิบัติ จำเป็นต้องตั้งสมมติฐานพื้นฐานสองข้อ เพื่อจำกัดขอบเขตของระบบ AI ที่จะพูดถึง:
1. สมมติฐานพารามิเตอร์: ระบบ AI ใช้โครงข่ายประสาทเทียมหนึ่งหรือหลายตัวเป็นพื้นฐาน ความรู้ถูกเก็บไว้ในชุดน้ำหนักพารามิเตอร์ที่กำหนดไว้อย่างชัดเจน
2. สมมติฐานการฝึกอบรมล่วงหน้า: ระบบ AI ต้องผ่านขั้นตอนการฝึกอบรมล่วงหน้าที่ใช้ทรัพยากรเข้มข้น ในขั้นตอนนี้จะรับสัญญาณการฝึกอบรมที่รวมความรู้ของมนุษย์ส่วนใหญ่หรือทั้งหมด และเข้ารหัสเป็นน้ำหนักพารามิเตอร์

ภายใต้สมมติฐานข้างต้น AI ที่พัฒนาตนเองอย่างต่อเนื่องอย่างแท้จริงควรมีคุณสมบัติสามประการดังต่อไปนี้:

การรับความรู้อย่างต่อเนื่อง: หลังการฝึกอบรมล่วงหน้าเริ่มต้น ระบบสามารถรับความรู้ใหม่และผนวกเข้ากับน้ำหนักพารามิเตอร์ได้ และไม่ลืมความรู้เก่าอย่างหายนะ
การสร้างสัญญาณฝึกอบรมด้วยตนเอง: ระบบสามารถสร้างสัญญาณฝึกอบรมของตนเองได้ และการเรียนรู้จากสัญญาณที่สร้างเองนี้ให้ผลดีกว่าการเรียนรู้จากสัญญาณที่มนุษย์สร้าง
การออกแบบอัลกอริทึมด้วยตนเอง: ระบบสามารถออกแบบอัลกอริทึมการเรียนรู้ได้ด้วยตนเอง เพื่อเรียนรู้อย่างมีประสิทธิภาพจากสัญญาณฝึกอบรมของมัน

สมมติฐานเหล่านี้มีจุดมุ่งหมายเพื่อครอบคลุมโมเดลภาษาขนาดใหญ่และกระบวนทัศน์ที่เกี่ยวข้องทั้งหมดในปัจจุบัน ขณะเดียวกันก็แยกระบบอัจฉริยะที่เข้ารหัสแบบแข็งในยุคแรกๆ ออกไป

ทำไมต้องมี AI ที่พัฒนาตนเองอย่างต่อเนื่อง?

ความต้องการความสามารถทั้งสามนี้ มาจากข้อจำกัดโดยธรรมชาติสามประการของผู้สร้างมนุษย์

ประการแรก น้ำหนักคงที่
นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ 'AI ที่พัฒนาตนเองอย่างต่อเนื่อง': ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์
ในการสนทนายาวทั่วไปกับโมเดลเช่น ChatGPT หรือ Claude โมเดลพึ่งพาการบีบอัดบริบทแบบสูญเสียเพื่อจัดการข้อมูลประวัติศาสตร์ ซึ่งอาจนำไปสู่การสูญเสียข้อมูลได้ง่าย ในทางตรงกันข้าม ความจำของมนุษย์สามารถรวบรวมและถ่ายโอนผ่านกระบวนการเช่นการนอนหลับ โมเดลปัจจุบันขาดความสามารถในการผนวกรวมประสบการณ์ใหม่เข้ากับพารามิเตอร์ระยะยาวอย่างต่อเนื่องและไม่สูญเสีย

ประการที่สอง คอขวดการขยายภายใต้ข้อมูลมนุษย์ที่มีจำกัด
นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ 'AI ที่พัฒนาตนเองอย่างต่อเนื่อง': ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์
ตามกฎการขยายขนาด (Scaling Law) ประสิทธิภาพของโมเดลจะเพิ่มขึ้นตามปริมาณข้อมูลการฝึกอบรมที่เพิ่มขึ้น อย่างไรก็ตาม ปริมาณข้อมูลที่ใช้โดยโมเดลภาษาล้ำสมัยกำลังเข้าใกล้ปริมาณข้อมูลทั้งหมดที่ใช้ได้สาธารณะบนอินเทอร์เน็ตอย่างรวดเร็ว แม้จะมีข้อมูลส่วนตัว แต่ข้อมูลที่มนุษย์สร้างขึ้นมีจำกัดโดยธรรมชาติ ซึ่งเป็นคอขวดพื้นฐานสำหรับการขยายโมเดลอย่างต่อเนื่อง

ประการที่สาม การค้นพบอัลกอริทึมถูกจำกัดด้วยแรงงานมนุษย์
นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ 'AI ที่พัฒนาตนเองอย่างต่อเนื่อง': ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์
กระบวนการค้นพบอัลกอริทึมใหม่ในปัจจุบัน (สร้างความคิด → ทดสอบ → เผยแพร่ผลงาน) พึ่งพาแรงงานมนุษย์อย่างมาก มีต้นทุนสูงและมีประสิทธิภาพจำกัด ส่งผลให้เราสำรวจเพียงส่วนย่อยเล็กๆ ของอัลกอริทึมที่เป็นไปได้ทั้งหมด การทำให้กระบวนการนี้เป็นอัตโนมัติเป็นกุญแจสำคัญในการก้าวข้ามข้อจำกัดนี้

ต่อไป จะกล่าวถึงคุณสมบัติทั้งสามที่กล่าวมาข้างต้น

การรับความรู้อย่างต่อเนื่อง: กระบวนทัศน์การฝึกอบรมต่อเนื่องด้วยข้อมูลสังเคราะห์

ด้านแรก: การรับความรู้อย่างต่อเนื่อง

วิทยานิพนธ์นี้รวมผลการวิจัยสี่ชิ้นที่ทำร่วมกับผู้ร่วมงาน (โดยเฉพาะผู้มีส่วนร่วมเท่ากัน)

เพื่อให้ได้มาซึ่งการรับความรู้อย่างต่อเนื่องหลังการฝึกอบรม เราเสนอ กระบวนทัศน์ “การฝึกอบรมต่อเนื่องด้วยข้อมูลสังเคราะห์”

เป้าหมายคือการสอนความรู้จากสาขาย่อยที่มีเอกสารต้นทางเพียงไม่กี่ฉบับให้กับโมเดลภาษาอย่างมีประสิทธิภาพ

คำถามธรรมชาติคือ: ทำไมต้องใช้ข้อมูลสังเคราะห์?

ข้อสังเกตของเราคือ: หากไม่มีข้อมูลสังเคราะห์ การแสดงความรู้อาจเบาบาง
นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ 'AI ที่พัฒนาตนเองอย่างต่อเนื่อง': ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์
เปรียบเทียบความรู้ของโมเดลเกี่ยวกับพีชคณิตเชิงเส้นกับความรู้เกี่ยวกับคลังรหัสที่เผยแพร่ใหม่บน GitHub โมเดลมักมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับพีชคณิตเชิงเส้น เพราะมันเรียนรู้หัวข้อนี้จากแหล่งข้อมูลที่หลากหลายบนอินเทอร์เน็ต (หนังสือเรียน, เอกสารบรรยาย, การอภิปราย, การนำโค้ดไปใช้) อย่างไรก็ตาม สำหรับคลังรหัสใหม่ล่าสุด การแสดงที่หลากหลายเช่นนี้ไม่มีอยู่จริง โมเดลอาจไม่เข้าใจปัญหาที่เกี่ยวข้อง ดังนั้น จึงจำเป็นต้องใช้ข้อมูลสังเคราะห์เพื่อสร้างการแสดงความรู้ที่ขาดหายไปและหลากหลายนี้

เพื่อให้การทดลองเข้มงวด เราต้องการสองสิ่งเพื่อสร้างการตั้งค่าการทดลองที่เฉพาะเจาะจง

ประการแรก เราต้องรวบรวมเอกสารต้นทางจากสาขาย่อยบางสาขา และสิ่งนี้ต้องไม่ใช่สิ่งที่โมเดลภาษารู้อยู่แล้ว

ประการที่สอง เราต้องการงานเพื่อทดสอบความเข้าใจของโมเดลเกี่ยวกับเอกสารต้นทางเหล่านี้ เพื่อติดตามความก้าวหน้า ในบทความนี้ ทีมวิจัยใช้ชุดข้อมูล QuALITY ที่พวกเขาสร้างขึ้น ซึ่งตรงตามมาตรฐานทั้งสองประการคือเอกสารต้นทางและงานถามตอบ

เกี่ยวกับเอกสารต้นทาง: เป็นชุดข้อมูลที่ประกอบด้วยหนังสือเฉพาะทาง 265 เล่ม รวมประมาณ 1.8 ล้านโทเค็น เนื้อหาเหล่านี้โมเดลไม่เคยสัมผัสมาก่อน เกี่ยวกับส่วนทดสอบ: ประกอบด้วยคำถามแบบเลือกตอบคุณภาพสูงประมาณ 4,000 ข้อ ซึ่งทำให้การประเมินและการวิเคราะห์ง่ายและตรงไปตรงมา และมีจำนวนคำถามมากพอที่จะได้สัญญาณทางสถิติที่เชื่อถือได้

ด้วยการตั้งค่าทั้งสองนี้ กลับมาดูเป้าหมายของเรา: เราต้องการให้โมเดลตอบคำถามโดยไม่ให้บริบทหนังสือ นี่เทียบเท่ากับการสอบแบบปิดหนังสือ เอกสารต้นทางคือหนังสือคุณภาพสูง งานคือการถามตอบแบบปิดหนังสือ

ภายใต้การตั้งค่านี้ เราประเมินโมเดลคงที่บางตัวก่อนเพื่อทำความเข้าใจความยากของงานนี้

นี่คือคำถามแบบเลือกตอบสี่ตัวเลือก ดังนั้นความแม่นยำจากการเดาสุ่มคือ 25% โมเดลที่เราใช้สำหรับการปรับแต่งคือโมเดลพื้นฐาน Llama 3 ซึ่งมีความแม่นยำเพียง 39% เมื่อใช้งานทันที วิธีตรงไปตรงมาคือการปรับแต่งบนข้อมูลหนังสือต้นฉบับเอง (นั่นคือการฝึกอบรมล่วงหน้าต่อเนื่องแบบดั้งเดิม) แต่เราพบว่าความแม่นยำลดลงเล็กน้อย นี่เป็นเพราะจำนวนโทเค็นค่อนข้างน้อย เว้นแต่จะมีการเล่นซ้ำ (replay) ในปริมาณที่สมเหตุสมผล มิฉะนั้นการตั้งค่าแบตช์และการวางแผนอัตราการเรียนรู้อาจไม่ได้ถูกตั้งค่าอย่างถูกต้อง นอกจากนี้ เรายังมีข้อมูลอ้างอิงคงที่สองตัวจากโมเดลปิด: GPT-3.5 และ GPT-4 ซึ่งมีความแม่นยำประมาณ 44% และ 45% ตามลำดับ นี่แสดงว่าโมเดลมีความรู้ที่เกี่ยวข้องในระดับหนึ่ง แต่ยังห่างไกลจากระดับเชี่ยวชาญ (เช่น มากกว่า 60%)

แล้วเราจะสร้างข้อมูลสังเคราะห์ที่มีประสิทธิภาพได้อย่างไร?

วิธีพื้นฐานที่ง่ายมากคือการเขียนเอกสารต้นทางใหม่โดยตรง มาดูประสิทธิภาพของมันกัน

ในแผนภูมิด้านล่าง แกน X คือจำนวนโทเค็นสังเคราะห์ที่เราสร้างขึ้นในกระบวนการเขียนใหม่ คำสั่งในการเขียนใหม่คือ: “นี่คือหนังสือ คุณสามารถเขียนใหม่ให้เหมือนบทความวิกิพีเดียได้ไหม?” เราใช้ชุดคำสั่งคงที่สี่ชุด และนำไปใช้กับหนังสือซ้ำๆ ในกระบวนการนี้ แม้ว่าความแม่นยำจะเพิ่มขึ้น แต่ความชันของการเพิ่มขึ้นไม่สูงนัก และจุดสูงสุดสุดท้ายก็ไม่สูงพอ

เราคิดว่าปัญหาของข้อมูลการเขียนใหม่คือขาดความหลากหลาย เพราะเราใช้คำสั่งเดิมซ้ำแล้วซ้ำอีก อาศัยการปรับอุณหภูมิการสร้างเป็นหลักเพื่อสร้างความแตกต่าง และหลังจากวนซ้ำหลายร้อยครั้ง ข้อมูลที่สร้างขึ้นก็กลายเป็นสิ่งเดียวกันโดยพื้นฐาน

การสร้างข้อมูลสังเคราะห์ด้วยกราฟเอนทิตี้

เนื่องจากขาดความหลากหลาย เราจึงเสนอเทคนิคการเพิ่มข้อมูลนี้ที่เรียกว่า “การสร้างข้อมูลสังเคราะห์ด้วยกราฟเอนทิตี้ (EntiGraph)”

การทำงานของกราฟเอนทิตี้คล้ายคลึงกับการเขียนใหม่ แต่เพิ่มความหลากหลายผ่านกระบวนการสองขั้นตอน ขั้นแรกเราเริ่มจากเอกสารต้นทาง (หนังสือ QuALITY) และสั่งโมเดลภาษา: “นี่คือเอกสารต้นทาง เอนทิตี้หลักใดในหนังสือที่ช่วยให้ฉันเข้าใจบทความนี้ได้ดี?” โมเดลจะส่งออกรายการสตริงเอนทิตี้ จากนั้นเราสุ่มตัวอย่างเอนทิตี้ย่อย และใช้คำสั่งอธิบายความสัมพันธ์ เพื่อให้โมเดลอธิบายความสัมพันธ์ระหว่างเอนทิตี้เหล่านี้ โมเดลจะสร้างเนื้อหาต่างๆ เช่น “ในบริบทบางอย่าง ปฏิสัมพันธ์ระหว่างเอนทิตี้ทั้งสองนี้คือ…” ซึ่ง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง