เอไอเอเจนต์วิวัฒนาการด้วยตัวเองใน 7 วัน ก้าวข้ามผลงานหลายเดือนของผู้เชี่ยวชาญ: เพิ่มประสิทธิภาพการปรับแต่งเคอร์เนล GPU 10.5% เปิดตัวกระบวนทัศน์ใหม่ของการค้นหาวิวัฒนาการอัตโนมัติ

2026年3月27日 am10:49 • วิศวกรรมโมเดลขนาดใหญ่ • 225 views

คำสำคัญ: AI Agent, อัลกอริทึมวิวัฒนาการ, การปรับปรุง GPU Kernel, FlashAttention, การคำนวณแบบเฮเทอโรจีนีอัส

บน GPU Blackwell ล่าสุดของ NVIDIA, AI Agent ตัวหนึ่งใช้เวลา 7 วันในการสำรวจทิศทางการปรับปรุงมากกว่า 500 ทิศทางด้วยตนเอง และในที่สุดได้สร้างเคอร์เนล Attention ที่มีประสิทธิภาพเหนือกว่า cuDNN และ FlashAttention-4 ที่ทีมผู้เชี่ยวชาญใช้เวลาหลายเดือนในการปรับแต่ง โดยเพิ่มประสิทธิภาพสูงสุดถึง 10.5% นี่ไม่ใช่บทความวิจัยอีกชิ้นเกี่ยวกับการเขียนโปรแกรมด้วยความช่วยเหลือจาก LLM แต่เป็นการปรับบทบาทของ AI จากเครื่องมือสร้างโค้ด ให้กลายเป็นผู้ชี้นำกระบวนการค้นหาเชิงวิวัฒนาการทั้งหมด

ความพยายามในอดีตที่นำโมเดลภาษาขนาดใหญ่ (LLM) มาใช้ในกระบวนการวิวัฒนาการ ส่วนใหญ่มักจำกัดบทบาทของมันให้เป็นเพียง “ตัวสร้างตัวเลือก” ในกระบวนการที่กำหนดไว้ล่วงหน้า — โมเดลถูกเรียกใช้, สร้างแผนงานหนึ่งชิ้น, แล้วก็ถอนตัวออกไป, โดยให้กฎเกณฑ์ภายนอกที่ตายตัวเข้ามาควบคุมการสุ่มตัวอย่างและการประเมินผล แต่ โอเปอเรเตอร์การกลายพันธุ์แบบเอเจนต์ (AVO, Agentic Variation Operators) ที่เสนอในบทความนี้ ได้ทำลายข้อจำกัดนี้โดยสิ้นเชิง: มันมอบหมายการดำเนินการกลายพันธุ์ทั้งหมดให้กับเอเจนต์การเข้ารหัสอัตโนมัติที่ทำงานด้วยตนเอง เอเจนต์นี้ไม่ใช่เครื่องมือสร้างโค้ดที่ตอบสนองแบบรับคำสั่งอีกต่อไป แต่เป็น “วิศวกรอัลกอริทึม” ที่มีอำนาจอิสระอย่างสมบูรณ์ มันสามารถเรียกดูแผนงานในอดีตจากสายตระกูล, เปิดอ่านเอกสารฮาร์ดแวร์, รันการทดสอบวินิจฉัย, วิเคราะห์ผลป้อนกลับจากการประเมินประสิทธิภาพ, และในการกลายพันธุ์หนึ่งครั้ง มันสามารถเสนอ, แก้ไข, ทบทวน และตรวจสอบการเปลี่ยนแปลงโค้ดซ้ำแล้วซ้ำเล่า จนกว่าจะได้เวอร์ชันที่ดีกว่า

ในกระบวนการวิวัฒนาการอัตโนมัติที่ยาวนานเจ็ดวันนี้ เอเจนต์ AVO แสดงให้เห็นไม่ใช่แค่การปรับแต่งโค้ดระดับผิวเผิน แต่เป็นการให้เหตุผลระดับฮาร์ดแวร์อย่างแท้จริง การปรับปรุงที่มันค้นพบครอบคลุมหลายระดับของการออกแบบฟังก์ชันเคอร์เนล: การจัดสรรรีจิสเตอร์, การจัดตารางไพพ์ไลน์คำสั่ง, การกระจายปริมาณงาน, กลยุทธ์การซิงโครไนซ์หน่วยความจำ — ซึ่งแต่ละอย่างต้องการการให้เหตุผลร่วมกันของหลายระบบย่อยของ GPU ไม่ใช่แค่การปรับพารามิเตอร์แบบแยกส่วน ที่น่าทึ่งยิ่งกว่านั้นคือ การปรับปรุงเหล่านี้ที่เรียนรู้จาก Multi-Head Attention สามารถถ่ายโอนไปยัง Grouped-Query Attention ได้ภายในเวลาเพียง 30 นาที และยังคงมีประสิทธิภาพเหนือกว่าการนำไปใช้งานที่ดีที่สุดที่มีอยู่ในปัจจุบันอย่างมาก

ความสำคัญของ AVO ไม่ได้อยู่แค่ที่เคอร์เนล Attention ที่เร็วขึ้นอีกชุดหนึ่งเท่านั้น มันยกระดับบทบาทของเอเจนต์จาก “ส่วนประกอบที่ถูกเรียกใช้” เป็น “ผู้ชี้นำกระบวนการวิวัฒนาการ” ซึ่งเปิดประตูบานใหม่ให้กับการค้นหาเชิงวิวัฒนาการ เมื่อโอเปอเรเตอร์การกลายพันธุ์เองมีความสามารถในการวางแผนเชิงลึก, การเรียนรู้อย่างต่อเนื่อง และการถ่ายโอนข้ามโดเมน เราก็มีโอกาสที่จะขยายขอบเขตของกระบวนทัศน์การปรับปรุงอัตโนมัตินี้ไปยังระบบซอฟต์แวร์ที่สำคัญต่อประสิทธิภาพที่กว้างขึ้น และแม้กระทั่งสาขาวิศวกรรมและวิทยาศาสตร์ใดๆ ที่ต้องการการสำรวจเชิงลึกเป็นเวลานาน เช่น การปรับปรุงคอมไพเลอร์, การออกแบบชิป

เอไอเอเจนต์วิวัฒนาการด้วยตัวเองใน 7 วัน ก้าวข้ามผลงานหลายเดือนของผู้เชี่ยวชาญ: เพิ่มประสิทธิภาพการปรับแต่งเคอร์เนล GPU 10.5% เปิดตัวกระบวนทัศน์ใหม่ของการค้นหาวิวัฒนาการอัตโนมัติ

เมื่อเร็วๆ นี้ นักวิจัย AI ชั้นนำได้เสนอแนวคิดที่พลิกโฉมในบทความวิจัยเรื่อง “AVO: Agentic Variation Operators for Autonomous Evolutionary Search”: เราอาจกำลังยืนอยู่ที่จุดเปลี่ยนสำคัญ โดยที่ AI ไม่ได้เป็นเพียง “เครื่องมือสร้างโค้ด” ในมือของวิศวกรมนุษย์อีกต่อไป แต่เป็น เอเจนต์อัจฉริยะอัตโนมัติที่สามารถรับผิดชอบกระบวนการ “การค้นหาเชิงวิวัฒนาการ” ทั้งหมดได้ด้วยตนเอง

ความเข้าใจหลักของผู้เขียนคือ งานก่อนหน้าที่ใช้ LLM ในการปรับปรุงโค้ด เช่น FunSearch, AlphaEvolve มักจำกัด LLM ไว้ในกระบวนการทำงานที่ตายตัว พวกมันทำตามรูปแบบที่กำหนดไว้: อัลกอริทึมฮิวริสติกของเฟรมเวิร์กเลือกโค้ดรุ่นพ่อแม่, จากนั้นป้อนโค้ดรุ่นพ่อแม่เป็นพรอมต์ให้ LLM, โดย LLM จะสร้างตัวเลือกโค้ดใหม่, และสุดท้ายเฟรมเวิร์กจะทำการประเมิน ในกระบวนการนี้ บทบาทของ LLM เป็นเพียง “ตัวสร้างตัวเลือก” เท่านั้น มันไม่มีความสามารถในการทบทวนผลลัพธ์ที่ตัวเองสร้างอย่างรอบคอบ, ไม่สามารถเปิดอ่านเอกสาร, และไม่สามารถทำการดีบักและปรับปรุงแบบวนซ้ำได้ เปรียบเสมือนคนงานที่ถูกปิดตา สามารถประกอบชิ้นส่วนบนสายพานได้เพียงอย่างเดียว แต่ไม่สามารถมองเห็นภาพรวมได้

การปรากฏตัวของ AVO ได้ทำลายข้อจำกัดนี้โดยสิ้นเชิง มันเสนอโอเปอเรเตอร์วิวัฒนาการรูปแบบใหม่: ใช้ AI Agent ที่มีความสามารถในการวางแผน, ความจำ และการเรียกใช้เครื่องมือ แทนที่กระบวนการ “สุ่มตัวอย่าง-สร้าง” แบบดั้งเดิมทั้งหมด

Agent นี้ได้รับอำนาจอิสระที่ไม่เคยมีมาก่อน:
* มันสามารถเปิดอ่านคู่มือการเขียนโปรแกรม CUDA และเอกสารชุดคำสั่ง PTX ได้ตลอดเวลา (ฐานความรู้)
* สามารถรันและวิเคราะห์ผลลัพธ์จากคอมไพเลอร์และโปรไฟเลอร์ประสิทธิภาพได้ (ฟังก์ชันประเมิน)
* สามารถย้อนดูเวอร์ชันที่สำเร็จทั้งหมดในประวัติวิวัฒนาการของตัวเองได้ (แผนภูมิตระกูลโซลูชันที่สมบูรณ์)

มันไม่ใช่ฟังก์ชันที่รอการเรียกใช้แบบรับคำสั่งอีกต่อไป แต่เป็น สิ่งมีชีวิตวิวัฒนาการอัตโนมัติที่สำรวจอย่างกระตือรือร้นและเรียนรู้อย่างต่อเนื่อง

ในกระบวนการวิวัฒนาการอัตโนมัติที่ไม่หยุดพักเป็นเวลา 7 วัน AVO Agent สร้างเคอร์เนล 40 เวอร์ชันบน GPU NVIDIA B200 สำรวจทิศทางการปรับปรุงมากกว่า 500 ทิศทาง ในที่สุด เคอร์เนล Multi-Head Attention ที่มันสร้างขึ้น ที่ความแม่นยำ BF16 มีปริมาณงานสูงสุดถึง 1668 TFLOPS ซึ่งสูงกว่าคลังรหัสปิดทางการของ NVIDIA อย่าง cuDNN 3.5% และสูงกว่าแฟล็กชิปโอเพ่นซอร์สอย่าง FlashAttention-4 10.5% ที่น่าทึ่งยิ่งกว่านั้นคือ ผลลัพธ์การปรับปรุงเหล่านี้ไม่ใช่รูปแบบตายตัวที่ “ท่องจำ” มาอย่างเดียว เมื่อต้องการปรับเคอร์เนล MHA ให้เข้ากับ Grouped-Query Attention AVO Agent ใช้เวลาเพียง 30 นาทีในการถ่ายโอนด้วยตนเอง และยังคงนำหน้าในงาน GQA โดยสูงกว่า cuDNN สูงสุด 7.0% และสูงกว่า FlashAttention-4 9.3%

บทความนี้จะพาคุณไปทำความเข้าใจบทความวิจัยนี้อย่างลึกซึ้ง วิเคราะห์ว่า AVO ผสมผสาน AI Agent กับอัลกอริทึมวิวัฒนาการได้อย่างไร สำรวจเทคนิคการปรับปรุงระดับฮาร์ดแวร์ที่มันค้นพบด้วยตนเอง และพูดคุยถึงอิทธิพลอันลึกซึ้งของเทคโนโลยีนี้ต่อรูปแบบการพัฒนาโครงสร้างพื้นฐาน AI ในอนาคต

หมายเหตุ: บทความนี้ไม่ได้กล่าวถึงต้นทุน Token นอกจากนี้ ในมิติที่ใหญ่ขึ้น การที่ AVO จะสามารถรักษาข้อได้เปรียบของมันไว้ได้หรือไม่ยังเป็นคำถามเปิด ข้อสรุปควรถูกตีความอย่างระมัดระวังว่า: ในสถานการณ์ขนาดกลางและเน้นการคำนวณ AVO สามารถทำได้ดีกว่าการนำไปใช้งานโดยผู้เชี่ยวชาญระดับสูงสุด อภิปรายเพิ่มเติมได้ในส่วน【คำถามสำคัญ】

คำถามสำคัญ

คำถามที่หนึ่ง: ต้นทุน token ที่ AVO ใช้ในกระบวนการวิวัฒนาการ 7 วัน ได้ถูกวัดปริมาณแล้วหรือไม่? หากนำต้นทุน token มาพิจารณาด้วย AVO ยังคงมีข้อได้เปรียบในมิติ “การเพิ่มประสิทธิภาพ / ต้นทุน” หรือไม่?

เนื้อหาต้นฉบับอธิบายอย่างละเอียดว่าในกระบวนการวิวัฒนาการ 7 วัน เอเจนต์ได้สำรวจทิศทางตัวเลือกมากกว่า 500 ทิศทาง และสร้างเวอร์ชันที่ส่งมอบ 40 เวอร์ชัน ซึ่งเกี่ยวข้องกับการคอมไพล์, ทดสอบ, ประเมินประสิทธิภาพ และการเปิดอ่านเอกสารหลายครั้ง อย่างไรก็ตาม ทั้งบทความไม่ได้ให้ข้อมูลเฉพาะเกี่ยวกับปริมาณการใช้ token เลย จากคำอธิบายโครงสร้างสามารถอนุมานได้ว่าต้นทุน token อาจค่อนข้างสูง:

ประการแรก แต่ละวงจร “แก้ไข–ประเมิน–วินิจฉัย” ประกอบด้วยการเรียกใช้ LLM หลายรอบ เอเจนต์ในการกลายพันธุ์หนึ่งครั้งอาจผ่านความพยายามที่ล้มเหลวหลายครั้ง แต่ละความพยายามเกี่ยวข้องกับการสร้างโค้ด, การวินิจฉัยข้อผิดพลาด และการแก้ไขกลยุทธ์ แม้ว่าผู้เขียนจะไม่ได้ระบุอัตราส่วนระหว่างความพยายามที่ล้มเหลวกับเวอร์ชันที่ส่งมอบสำเร็จ แต่ทิศทางการสำรวจ 500 ทิศทาง สอดคล้องกับเวอร์ชันที่ส่งมอบเพียง 40 เวอร์ชัน ซึ่งหมายความว่า token จำนวนมากถูกใช้ไปกับเส้นทางการสำรวจที่ไม่ได้สร้างผลลัพธ์โดยตรง

ประการที่สอง กลไกความจำถาวรทำให้คอนเท็กซ์ขยายตัวต่อเนื่อง เอเจนต์สะสมคอนเท็กซ์ทั้งหมดผ่านประวัติการสนทนา รวมถึงโค้ดในอดีตทั้งหมด, ผลลัพธ์การคอมไพล์, ผลการประเมินประสิทธิภาพ และข้อความที่คัดลอกจากเอกสารฮาร์ดแวร์ หลังจาก 7 วัน, 40 เวอร์ชัน, การสำรวจมากกว่า 500 ครั้ง ความยาวคอนเท็กซ์อาจสูงถึงระดับหลายแสนหรือหลายล้าน token ทำให้ต้นทุนการอนุมานของการเรียกใช้ LLM แต่ละครั้งเพิ่มขึ้นแบบเหนือเชิงเส้น

ประการที่สาม การแทรกแซงของกลไกกำกับดูแลตนเองก็ใช้ token เช่นกัน เมื่อตรวจพบว่าการวิวัฒนาการหยุดชะงัก เอเจนต์กำกับดูแลจำเป็นต้องทบทวนเส้นทางการวิวัฒนาการทั้งหมด ซึ่งเทียบเท่ากับการวิเคราะห์เส้นทางทั้งหมดอีกครั้งบนพื้นฐานของคอนเท็กซ์ขนาดใหญ่ที่มีอยู่แล้ว ซึ่งเพิ่มต้นทุนให้สูงขึ้นไปอีก

หากต้นทุน token สูงถึงหลายหมื่นหรือหลายแสนดอลลาร์ ความสมเหตุสมผลทางเศรษฐกิจของ AVO ในแง่ของ “การเพิ่มประสิทธิภาพเหนือกว่า cuDNN 3.5%” ก็ควรได้รับการพิจารณาอย่างรอบคอบ ที่สำคัญกว่านั้น ผู้เขียนไม่ได้ระบุว่ามีการปรับปรุงการใช้ token หรือไม่ (เช่น การตัดคอนเท็กซ์, การบีบอัดความจำ) และไม่ได้เปรียบเทียบโดยตรงกับต้นทุนค่าจ้างของวิศวกรมนุษย์ ในการมองว่า AVO เป็นวิธีการ “แทนที่การปรับปรุงโดยมนุษย์” ต้นทุน token เป็นตัวชี้วัดหลักที่กำหนดความสามารถในการใช้งานจริงของมัน และไม่ควรถูกหลีกเลี่ยง

คำถามที่สอง: ความเหนือกว่าของ AVO มาจาก “โครงสร้างเอเจนต์” จริงๆ หรือไม่? ไม่ใช่แค่ “โมเดลที่ทรงพลังกว่า + เวลาทำงานที่ยาวนานกว่า”?

ผู้เขียนไม่ได้เปรียบเทียบโดยตรงระหว่าง AVO กับฐานอ้างอิง เช่น FunSearch, AlphaEvolve ภายใต้โมเดลและทรัพยากรการคำนวณเดียวกัน ซึ่งทำให้พื้นที่การให้เหตุผลของ “ความเหนือกว่าของโครงสร้าง” คลุมเครือ อย่างไรก็ตาม จากคำอธิบายสามารถสรุปความแตกต่างสำคัญสองประการที่แสดงให้เห็นว่าข้อได้เปรียบของ AVO ไม่ได้มาจากโมเดลที่ทรงพลังกว่า หรือเวลาทำงานที่ยาวนานกว่าเพียงอย่างเดียว

ประการแรก ความเป็นอิสระของเอเจนต์และความลึกของการโต้ตอบกับสภาพแวดล้อม เกินกว่าการสร้างแบบรอบเดียวหรือกระบวนการหลายรอบที่ตายตัว AVO Agent ในขั้นตอนการกลายพันธุ์หนึ่งครั้งสามารถเรียกใช้ฟังก์ชันประเมินหลายครั้ง และปรับกลยุทธ์ด้วยตนเองตามผลป้อนกลับ เช่น ข้อผิดพลาดการคอมไพล์, ความล้มเหลวด้านความถูกต้อง, การลดลงของประสิทธิภาพ ผู้เขียนระบุชัดเจนว่าก่อนที่จะส่งเวอร์ชันที่ “สำเร็จ” อาจผ่านวงจร “แก้ไข–ประเมิน–วินิจฉัย” หลายรอบ และจะเปิดอ่านเอกสารฮาร์ดแวร์, เปรียบเทียบเวอร์ชันในอดีตหลายเวอร์ชัน, วิเคราะห์ผลลัพธ์จากโปรไฟเลอร์ประสิทธิภาพ ความสามารถในการบูรณาการการวางแผน, การใช้เครื่องมือ, การดีบักแบบวนซ้ำในการกลายพันธุ์ครั้งเดียวนี้ เป็นสิ่งที่โครงสร้างแบบ “สร้าง–ประเมิน” ที่แยกจากกัน เช่น FunSearch ไม่มี

ประการที่สอง ความจำถาวรและการสะสมคอนเท็กซ์ของเอเจนต์ทำให้มันสามารถถ่ายโอนกลยุทธ์ในระดับเวลาหลายวันได้ เอเจนต์ไม่เพียงเก็บรักษาเวอร์ชันในอดีตทั้งหมด แต่ยังสะสมข้อมูลผลการคอมไพล์, ผลการประเมินประสิทธิภาพ, ความพยายามที่ล้มเหลวผ่านประวัติการสนทนา สิ่งนี้ทำให้ในขั้นตอนการปรับปรุงช่วงหลัง (เช่น เวอร์ชัน 20 ถึง 33) เอเจนต์สามารถทำการปรับแต่งละเอียด (เช่น การจัดสรรรีจิสเตอร์ใหม่, การทับซ้อนไพพ์ไลน์) โดยอาศัยความรู้ฮาร์ดแวร์ที่สะสมไว้ก่อนหน้านี้ แทนที่จะเริ่มต้นจากศูนย์ การนำความรู้กลับมาใช้ใหม่ข้ามขั้นตอนนี้ ในวิธีการ LLM-in-the-loop แบบดั้งเดิมมักต้องการกลไกความจำภายนอกหรือการออกแบบโดยมนุษย์จึงจะทำได้

ดังนั้น แม้ว่าจะขาดการเปรียบเทียบโดยตรงกับฐานอ้างอิง โครงสร้างของ AVO มอบลักษณะพฤติกรรมของ “วิศวกรที่เรียนรู้อย่างต่อเนื่อง” แทนที่จะเป็น “เครื่องมือสร้างโค้ด” ให้กับมันจริงๆ และความแตกต่างนี้มีความสำคัญโดยพื้นฐานสำหรับงานปรับปรุงที่ยาวนานและมีเกณฑ์สูง

คำถามที่สาม: กระบวนการวิวัฒนาการของ AVO มีความสามารถในการทำซ้ำและความเสถียรหรือไม่?

ผู้เขียนให้รายละเอียดเส้นทางการวิวัฒนาการ 7 วัน หนึ่งครั้ง แต่ไม่ได้รายงานผลการทำงานหลายครั้ง, อิทธิพลของความสุ่ม, ปัญหาความเสถียรของการลู่เข้า ซึ่งเป็นช่องว่างสำคัญในการประเมินความน่าเชื่อถือทางวิศวกรรมของวิธีนี้ จากคำอธิบายที่มีอยู่สามารถระบุปัจจัยสำคัญหลายประการที่ส่งผลต่อความสามารถในการทำซ้ำ

ประการแรก กระบวนการวิวัฒนาการประกอบด้วยการสำรวจภายในจำนวนมาก แต่เวอร์ชันที่ส่งมอบเป็นผลลัพธ์จากการคัดกรองอย่างสูง ผู้เขียนระบุว่า เวอร์ชันที่ส่งมอบ 40 เวอร์ชัน สอดคล้องกับทิศทางการสำรวจภายในมากกว่า 500 ทิศทาง ความพยายามจำนวนมากไม่ถูกนำเข้าสู่สายหลักเนื่องจากความล้มเหลวด้านความถูกต้อง, การลดลงของประสิทธิภาพ หรือ “ถูกยกเลิก” ซึ่งหมายความว่าแม้จะกำหนดเมล็ดพันธุ์เริ่มต้นที่ตายตัว ความสุ่มภายในของเอเจนต์ (

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง