ผู้บริหารของ Anthropic คาดการณ์: AI จะสามารถวิวัฒนาการตัวเองได้ภายในปี 2028 มนุษย์พร้อมแล้วหรือยัง?

2026年5月5日 pm6:05 • ข่าวสารอุตสาหกรรม AI • 66 views

AI กำลังจะวนซ้ำตัวเองได้แล้วหรือ?

Jack Clark ผู้ร่วมก่อตั้ง Anthropic โพสต์บนโซเชียลมีเดียเมื่อเร็วๆ นี้ว่า จากการวิเคราะห์ข้อมูลการวิจัยและพัฒนา AI แบบเปิดเผยจำนวนมากเมื่อเร็วๆ นี้ เขาคาดการณ์ว่าภายในสิ้นปี 2028 ความน่าจะเป็นที่การปรับปรุงตนเองแบบวนซ้ำ (recursive self-improvement) จะเกิดขึ้นสูงถึง 60% ซึ่งหมายความว่าระบบ AI อาจสามารถสร้างและปรับปรุงตัวเองได้อย่างอิสระในเร็วๆ นี้ เข้าสู่ขั้นตอนการพัฒนาที่เร่งตัวเองได้

ผู้บริหารของ Anthropic คาดการณ์: AI จะสามารถวิวัฒนาการตัวเองได้ภายในปี 2028 มนุษย์พร้อมแล้วหรือยัง?

การคาดการณ์นี้ไม่ได้ไร้หลักฐาน Clark ตรวจสอบเกณฑ์มาตรฐานสาธารณะหลายรายการและพบว่า AI มีความก้าวหน้าอย่างรวดเร็วเป็นพิเศษในงานที่เกี่ยวข้องกับการวิจัยและพัฒนาของตัวเอง ตัวอย่างเช่น CORE-Bench ทดสอบความสามารถของ AI ในการทำซ้ำผลงานวิจัยของผู้อื่น ซึ่งเป็นขั้นตอนสำคัญในการวิจัย AI

PostTrainBench ประเมินว่าโมเดลที่ทรงพลังสามารถปรับแต่งโมเดลที่อ่อนแอกว่าได้ด้วยตนเองเพื่อปรับปรุงประสิทธิภาพหรือไม่ ซึ่งถือเป็นชุดย่อยหลักของงานวิจัยและพัฒนา AI

MLE-Bench อิงจากงานแข่งขัน Kaggle จริง กำหนดให้สร้างแอปพลิเคชันแมชชีนเลิร์นนิงที่หลากหลายเพื่อแก้ปัญหาเฉพาะ นอกจากนี้ เกณฑ์มาตรฐานการเขียนโค้ดที่เป็นที่รู้จักอย่างกว้างขวาง เช่น SWE-Bench ก็แสดงแนวโน้มความก้าวหน้าที่คล้ายคลึงกัน

Clark อธิบายปรากฏการณ์นี้ว่าเป็นแนวโน้ม “แฟร็กทัล” ที่ขึ้นไปทางขวา ซึ่งหมายถึงการสังเกตความคืบหน้าที่มีความหมายในระดับความละเอียดและขนาดที่แตกต่างกัน เขาเชื่อว่า AI กำลังเข้าใกล้ความสามารถในการวิจัยและพัฒนาแบบอัตโนมัติแบบครบวงจร (end-to-end) เมื่อสิ่งนี้เกิดขึ้น AI จะสามารถสร้างระบบที่สืบทอดต่อจากตัวเองได้ด้วยตนเอง ซึ่งจะเป็นการเริ่มต้นวงจรการวนซ้ำตัวเอง

เมื่อคำพูดนี้ออกไป ก็เกิดการถกเถียงอย่างดุเดือดบนโซเชียลมีเดีย บางคนมองว่านี่เป็นก้าวสำคัญสู่ปัญญาประดิษฐ์ทั่วไป (ASI) และภาวะเอกฐาน (Singularity) ซึ่งอาจเปลี่ยนแปลงจังหวะการพัฒนาเทคโนโลยีไปอย่างสิ้นเชิง

อย่างไรก็ตาม ก็มีเสียงวิพากษ์วิจารณ์เช่นกัน Pedro Domingos ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยวอชิงตัน ชี้ให้เห็นว่าระบบ AI มีความสามารถในการ “สร้างตัวเอง” ได้ตั้งแต่สมัยที่มีการประดิษฐ์ภาษา LISP ในทศวรรษ 1950 ปัญหาที่แท้จริงคือการได้รับผลตอบแทนที่เพิ่มขึ้น (increasing returns) หรือไม่ แต่ยังไม่มีหลักฐานชัดเจนที่สนับสนุนประเด็นนี้

ผู้ใช้เน็ตบางคนตั้งคำถามว่า จากปี 2027 ถึงปี 2028 ความน่าจะเป็นเพิ่มขึ้นอย่างกะทันหันถึง 30% ซึ่งบ่งชี้ว่าความสามารถของ AI อาจมีความก้าวหน้าครั้งสำคัญอย่างกะทันหันในช่วงปลายปี 2027 เหตุการณ์สำคัญหรือจุดเปลี่ยนใดกันแน่ที่ทำให้ความน่าจะเป็นของการปรับปรุงตนเองแบบวนซ้ำเพิ่มขึ้นอย่างมากในเวลาอันสั้น?

ผู้ใช้เน็ตรายอื่นชี้ให้เห็นว่า Jack Clark ในฐานะหัวหน้าฝ่ายประชาสัมพันธ์คนใหม่ของ Anthropic การกระทำนี้อาจเป็นส่วนหนึ่งของกลยุทธ์ใหม่ของเขา: เราไม่ได้พูดเกินจริง แต่มีเอกสารวิจัยจำนวนมากที่ยืนยันคำเตือนที่เราให้ไว้ตลอดมา

ด้วยเหตุนี้ Jack Clark จึงเขียนบทความยาวในจดหมายข่าว Import AI ฉบับที่ 455 เพื่ออธิบายอย่างละเอียด

ที่อยู่บทความ: https://importai.substack.com/p/import-ai-455-automating-ai-research?r=1ds20&utm_campaign=post&utm_medium=email&triedRedirect=true

ต่อไป เราจะตีความบทความนี้อย่างสมบูรณ์

ระบบ AI กำลังจะเริ่มสร้างตัวเอง นี่หมายความว่าอย่างไร?

Clark กล่าวว่าเขาเขียนบทความนี้เพราะหลังจากรวบรวมข้อมูลสาธารณะทั้งหมดแล้ว เขาต้องสรุปการประเมินที่ไม่สบายใจ: ภายในสิ้นปี 2028 ความเป็นไปได้ที่การวิจัยและพัฒนา AI โดยปราศจากการมีส่วนร่วมของมนุษย์จะค่อนข้างสูง อาจมากกว่า 60% การวิจัยและพัฒนา AI โดยปราศจากการมีส่วนร่วมของมนุษย์ในที่นี้หมายถึงระบบ AI ที่ทรงพลังพอ ซึ่งไม่เพียงแต่ช่วยมนุษย์ในการวิจัยเท่านั้น แต่ยังอาจดำเนินกระบวนการวิจัยและพัฒนาที่สำคัญได้ด้วยตนเอง และแม้กระทั่งสร้างระบบรุ่นต่อไปของตัวเอง

ในมุมมองของ Clark นี่เป็นเรื่องใหญ่โตอย่างเห็นได้ชัด เขายอมรับว่าเป็นการยากที่เขาจะซึมซับความหมายอันลึกซึ้งของสิ่งนี้ได้อย่างเต็มที่ เหตุผลที่เรียกการประเมินนี้ว่า “ไม่เต็มใจ” ก็เพราะผลกระทบที่ตามมานั้นใหญ่หลวงเกินไป ทำให้เขารู้สึกยากที่จะรับมือ Clark ไม่แน่ใจว่าสังคมโดยรวมพร้อมรับมือกับการเปลี่ยนแปลงอย่างลึกซึ้งที่เกิดจากระบบอัตโนมัติในการวิจัยและพัฒนา AI หรือไม่

ตอนนี้เขาเชื่อว่ามนุษย์อาจกำลังอยู่ในจุดเวลาที่พิเศษ: การวิจัย AI กำลังจะกลายเป็นระบบอัตโนมัติแบบครบวงจร หากช่วงเวลานี้มาถึงจริง มนุษย์ก็เหมือนกับการข้ามแม่น้ำ Rubicon เข้าสู่อนาคตที่แทบจะคาดเดาไม่ได้ Clark กล่าวว่าจุดประสงค์ของบทความนี้คือเพื่ออธิบายว่าทำไมเขาถึงคิดว่าการบินขึ้นสู่การวิจัยและพัฒนา AI แบบอัตโนมัติเต็มรูปแบบกำลังเกิดขึ้น เขาจะพูดถึงผลกระทบบางอย่างที่แนวโน้มนี้อาจนำมาซึ่ง แต่เนื้อหาส่วนใหญ่ของบทความจะเน้นไปที่หลักฐานที่สนับสนุนการประเมินนี้ สำหรับผลกระทบที่ลึกซึ้งยิ่งขึ้น Clark วางแผนที่จะรวบรวมและวิเคราะห์ต่อไปในช่วงเกือบทั้งปีนี้

ในแง่ของช่วงเวลา Clark ไม่คิดว่าสิ่งนี้จะเกิดขึ้นจริงในปี 2026 แต่เขาเชื่อว่าภายในหนึ่งถึงสองปีข้างหน้า เราอาจได้เห็นกรณีที่โมเดลบางตัวฝึกฝนผู้สืบทอดของตัวเองแบบครบวงจร อย่างน้อยที่สุดในระดับโมเดลที่ไม่ใช่แนวหน้า (non-frontier) การพิสูจน์แนวคิด (proof of concept) ก็มีแนวโน้มสูง ส่วนโมเดลแนวหน้านั้นจะยากกว่าเพราะมีต้นทุนสูงมากและต้องพึ่งพาการทำงานหนักของนักวิจัยมนุษย์จำนวนมาก

การประเมินของ Clark ส่วนใหญ่มาจากข้อมูลสาธารณะ: รวมถึงเอกสารบน arXiv, bioRxiv และ NBER รวมถึงผลิตภัณฑ์ที่บริษัท AI ชั้นนำได้นำไปใช้ในโลกแห่งความเป็นจริง จากข้อมูลเหล่านี้ เขาสรุปได้ว่าส่วนประกอบต่างๆ ที่จำเป็นสำหรับการผลิตระบบ AI ในปัจจุบันโดยอัตโนมัติ โดยเฉพาะส่วนประกอบทางวิศวกรรมในการพัฒนา AI นั้นมีพื้นฐานพร้อมแล้ว หากแนวโน้มการปรับขนาด (scaling) ยังคงดำเนินต่อไป เราควรเริ่มเตรียมพร้อมสำหรับสถานการณ์ที่โมเดลจะมีความคิดสร้างสรรค์มากพอ ไม่เพียงแต่จะปรับปรุงวิธีการที่มีอยู่โดยอัตโนมัติเท่านั้น แต่ยังอาจเข้ามาแทนที่นักวิจัยมนุษย์ในการเสนอทิศทางการวิจัยใหม่และแนวคิดดั้งเดิม ซึ่งจะผลักดันให้ขอบเขตของ AI ก้าวหน้าต่อไปได้ด้วยตัวเอง

ภาวะเอกฐานของการเขียนโค้ด: ความสามารถที่เปลี่ยนแปลงไปตามกาลเวลา

ระบบ AI ถูกนำมาใช้ผ่านซอฟต์แวร์ และซอฟต์แวร์ประกอบด้วยโค้ด ระบบ AI ได้เปลี่ยนแปลงวิธีการผลิตโค้ดไปอย่างสิ้นเชิง เบื้องหลังนี้มีแนวโน้มสองประการที่เกี่ยวข้องกัน: ด้านหนึ่ง ระบบ AI มีความเชี่ยวชาญในการเขียนโค้ดในโลกแห่งความเป็นจริงที่ซับซ้อนมากขึ้นเรื่อยๆ อีกด้านหนึ่ง ระบบ AI ก็มีความเชี่ยวชาญมากขึ้นเรื่อยๆ ในการทำงานเขียนโค้ดเชิงเส้นหลายๆ อย่างให้สำเร็จโดยแทบไม่ต้องพึ่งพาการดูแลของมนุษย์ เช่น การเขียนโค้ดก่อน แล้วจึงทดสอบ

ตัวอย่างทั่วไปสองตัวอย่างที่แสดงแนวโน้มนี้คือ SWE-Bench และ METR time horizons plot

การแก้ปัญหาทางวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง

SWE-Bench เป็นการทดสอบการเขียนโปรแกรมที่ใช้กันอย่างแพร่หลาย เพื่อประเมินความสามารถของระบบ AI ในการแก้ไขปัญหา GitHub จริง เมื่อ SWE-Bench เปิดตัวในปลายปี 2023 โมเดลที่ทำผลงานได้ดีที่สุดในขณะนั้นคือ Claude 2 โดยมีอัตราความสำเร็จโดยรวมประมาณ 2% เท่านั้น ส่วนผลงานของ Claude Mythos Preview นั้นสูงถึง 93.9% ซึ่งถือว่าใกล้เคียงกับการทำคะแนนเต็มในเกณฑ์มาตรฐานนี้

แน่นอนว่าเกณฑ์มาตรฐานทั้งหมดมีสัญญาณรบกวน (noise) อยู่บ้าง ดังนั้นจึงมักจะมีช่วงที่เมื่อคะแนนสูงถึงระดับหนึ่งแล้ว สิ่งที่คุณพบอาจไม่ใช่ข้อจำกัดของวิธีการอีกต่อไป แต่เป็นข้อจำกัดของตัวเกณฑ์มาตรฐานเอง ตัวอย่างเช่น ในชุดตรวจสอบ ImageNet ประมาณ 6% ของป้ายกำกับนั้นผิดหรือคลุมเครือ SWE-Bench ถือได้ว่าเป็นตัวบ่งชี้ที่เชื่อถือได้สำหรับการวัดความสามารถในการเขียนโปรแกรมทั่วไป และผลกระทบของ AI ต่อวิศวกรรมซอฟต์แวร์ Clark กล่าวว่าคนส่วนใหญ่ที่เขาติดต่อด้วยในห้องปฏิบัติการ AI ชั้นนำและซิลิคอนแวลลีย์ตอนนี้แทบจะเขียนโค้ดผ่านระบบ AI ทั้งหมดแล้ว และมีคนจำนวนมากขึ้นเรื่อยๆ ที่ใช้ระบบ AI ในการเขียนทดสอบและตรวจสอบโค้ด กล่าวอีกนัยหนึ่ง ระบบ AI แข็งแกร่งพอที่จะทำให้องค์ประกอบสำคัญอย่างหนึ่งในการวิจัยและพัฒนา AI เป็นอัตโนมัติ และเร่งความเร็วให้กับนักวิจัยและวิศวกรมนุษย์ทุกคนที่เกี่ยวข้องกับการวิจัยและพัฒนา AI ได้อย่างมีนัยสำคัญ

การวัดความสามารถของระบบ AI ในการทำงานระยะยาว

METR สร้างแผนภูมิเพื่อวัดว่างานที่ซับซ้อนเพียงใดที่ AI สามารถทำให้สำเร็จได้ ความซับซ้อนในที่นี้คำนวณจากจำนวนชั่วโมงโดยประมาณที่มนุษย์ที่มีทักษะต้องใช้ในการทำงานเหล่านี้ให้เสร็จ ตัวชี้วัดที่สำคัญที่สุดคือช่วงเวลาของงานโดยประมาณเมื่อระบบ AI มีความน่าเชื่อถือถึง 50% ในชุดงานหนึ่งๆ ในจุดนี้ ความก้าวหน้านั้นน่าทึ่งมาก:

ในปี 2022 GPT-3.5 สามารถทำงานที่มนุษย์ใช้เวลาประมาณ 30 วินาที
ในปี 2023 GPT-4 เพิ่มเวลานี้เป็น 4 นาที
ในปี 2024 o1 เพิ่มเวลานี้เป็น 40 นาที
ในปี 2025 GPT-5.2 High ทำได้ประมาณ 6 ชั่วโมง

ในปี 2026 Opus 4.6 ได้ขยายเวลานี้ออกไปอีกเป็นประมาณ 12 ชั่วโมง

Ajeya Cotra จาก METR ซึ่งมุ่งเน้นด้านการคาดการณ์ AI ในระยะยาว เชื่อว่าการคาดการณ์ว่าภายในสิ้นปี 2026 ระบบ AI จะสามารถทำงานที่มนุษย์ต้องใช้เวลาถึง 100 ชั่วโมงจึงจะเสร็จนั้นไม่ใช่เรื่องเกินจริง

ระยะเวลาที่ระบบ AI สามารถทำงานได้อย่างอิสระเพิ่มขึ้นอย่างมีนัยสำคัญ ซึ่งสัมพันธ์อย่างมากกับการระเบิดของเครื่องมือ coding แบบ agentic เครื่องมือ coding แบบ agentic โดยพื้นฐานแล้วคือการทำให้ระบบ AI ที่สามารถทำงานแทนมนุษย์เป็นผลิตภัณฑ์: พวกมันสามารถดำเนินการแทนมนุษย์และดำเนินงานได้อย่างอิสระในระยะเวลาที่ค่อนข้างนาน

สิ่งนี้ยังชี้กลับไปที่การวิจัยและพัฒนา AI อีกด้วย หากสังเกตงานประจำวันของนักวิจัย AI หลายคนอย่างใกล้ชิด จะพบว่างานจำนวนมากสามารถแบ่งออกเป็นงานระดับไม่กี่ชั่วโมงได้ เช่น การทำความสะอาดข้อมูล การอ่านข้อมูล การเริ่มต้นการทดลอง เป็นต้น

และงานประเภทนี้ก็ตกอยู่ในช่วงเวลาที่ระบบ AI สมัยใหม่สามารถครอบคลุมได้แล้ว

ยิ่งระบบ AI มีความชำนาญและทำงานได้อย่างอิสระจากมนุษย์มากเท่าไร ก็ยิ่งช่วยให้การวิจัยและพัฒนา AI บางส่วนเป็นอัตโนมัติได้มากขึ้นเท่านั้น

ปัจจัยสำคัญในการมอบหมายงานมีสองประการหลัก:

ประการแรกคือความมั่นใจในความสามารถของผู้รับมอบหมาย
ประการที่สองคือความเชื่อมั่นว่าผู้นั้นสามารถทำงานตามความตั้งใจของคุณได้โดยอิสระ โดยไม่ต้องพึ่งพาการดูแลอย่างต่อเนื่องจากคุณ

เมื่อผู้ใช้สังเกตความสามารถของ AI ในการเขียนโปรแกรม จะพบว่าระบบ AI ไม่เพียงแต่มีความชำนาญมากขึ้นเท่านั้น แต่ยังสามารถทำงานได้อย่างอิสระเป็นเวลานานขึ้นโดยไม่ต้องให้มนุษย์ปรับเทียบใหม่

สิ่งนี้สอดคล้องกับสิ่งที่เกิดขึ้นรอบตัวเรา: วิศวกรและนักวิจัยกำลังมอบหมายงานที่ใหญ่ขึ้นเรื่อยๆ ให้กับระบบ AI เมื่อความสามารถของ AI เพิ่มขึ้นอย่างต่อเนื่อง งานที่มอบหมายให้ AI ก็ซับซ้อนและสำคัญมากขึ้นเรื่อยๆ เช่นกัน

AI กำลังเชี่ยวชาญทักษะทางวิทยาศาสตร์หลักที่จำเป็นสำหรับการวิจัยและพัฒนา AI

ลองนึกดูว่าการวิจัยทางวิทยาศาสตร์สมัยใหม่ดำเนินการอย่างไร ส่วนสำคัญของงานคือการกำหนดทิศทางก่อน ระบุว่าต้องการรับข้อมูลเชิงประจักษ์ประเภทใด จากนั้นออกแบบและดำเนินการทดลองเพื่อสร้างข้อมูลดังกล่าว และสุดท้ายตรวจสอบความสมเหตุสมผลของผลการทดลอง

ด้วยความสามารถในการเขียนโปรแกรมของ AI ที่เพิ่มขึ้นอย่างต่อเนื่อง ประกอบกับความสามารถในการสร้างแบบจำลองโลก (world modeling) ที่แข็งแกร่งขึ้นเรื่อยๆ ของ Large Language Models ปัจจุบันมีเครื่องมือจำนวนหนึ่งที่ปรากฏขึ้น ซึ่งช่วยให้นักวิทยาศาสตร์มนุษย์ทำงานได้เร็วขึ้น และทำให้บางส่วนของกระบวนการในสถานการณ์การวิจัยและพัฒนาที่กว้างขึ้นเป็นอัตโนมัติ

ในที่นี้ เราสามารถสังเกตความเร็วของความก้าวหน้าของ AI ในทักษะทางวิทยาศาสตร์ที่สำคัญหลายประการ ซึ่งความสามารถเหล่านี้เองก็เป็นส่วนสำคัญของการวิจัย AI เช่นกัน:

ประการแรกคือการทำซ้ำผลการวิจัย
ประการที่สองคือการเชื่อมโยงเทคนิคแมชชีนเลิร์นนิงกับวิธีการอื่นๆ เพื่อแก้ปัญหาทางเทคนิค
ประการที่สามคือการปรับปรุงระบบ AI ด้วยตัวเอง

การทำให้เอกสารทางวิทยาศาสตร์ทั้งฉบับเป็นจริงและดำเนินการทดลองที่เกี่ยวข้อง

งานหลักอย่างหนึ่งในการวิจัย AI คือการอ่านเอกสารทางวิทยาศาสตร์และทำซ้ำผลลัพธ์ ในด้านนี้ AI มีความก้าวหน้าอย่างมีนัยสำคัญในเกณฑ์มาตรฐานหลายชุด

ตัวอย่างที่ดีคือ CORE-Bench หรือ Computational Reproducibility Agent Benchmark

เกณฑ์มาตรฐานนี้กำหนดให้ระบบ AI ทำซ้ำผลลัพธ์ในเอกสาร โดยกำหนดเอกสารและที่เก็บโค้ดให้ โดยเฉพาะอย่างยิ่ง Agent จำเป็นต้องติดตั้งไลบรารี แพ็คเกจซอฟต์แวร์ และ dependencies ที่เกี่ยวข้อง รันโค้ด หากโค้ดทำงานสำเร็จ ก็ต้องค้นหาผลลัพธ์ทั้งหมดและตอบคำถามในงาน

CORE-Bench ถูกเสนอในเดือนกันยายน 2024 ในขณะนั้น ระบบที่ทำผลงานได้ดีที่สุดคือโมเดล GPT-4o ที่ทำงานบน CORE-Agent scaffold ในชุดงานที่ยากที่สุดของเกณฑ์มาตรฐานนี้ ได้คะแนนประมาณ 21.5%

ในเดือนธันวาคม 2025 ผู้เขียน CORE-Bench คนหนึ่งประกาศว่าเกณฑ์มาตรฐานนี้ถูกแก้ไขแล้ว: โมเดล Opus 4.5 ทำคะแนนได้ 95.5%

การสร้างระบบแมชชีนเลิร์นนิงที่สมบูรณ์เพื่อแก้ปัญหาการแข่งขัน Kaggle

MLE-Bench เป็นเกณฑ์มาตรฐานที่ OpenAI สร้างขึ้นเพื่อทดสอบความสามารถของระบบ AI ในการเข้าร่วมการแข่งขัน Kaggle ในสภาพแวดล้อมแบบออฟไลน์

ครอบคลุมการแข่งขัน Kaggle 75 รายการประเภทต่างๆ ครอบคลุมหลายสาขา รวมถึงการประมวลผลภาษาธรรมชาติ คอมพิวเตอร์วิทัศน์ และการประมวลผลสัญญาณ

MLE-Bench เผยแพร่ในเดือนตุลาคม 2024 ในขณะที่เผยแพร่ ระบบที่ทำผลงานได้ดีที่สุดคือโมเดล o1 ที่ทำงานใน agent scaffold ได้คะแนน 16.9%

ณ เดือนกุมภาพันธ์ 2026 ระบบที่ทำผลงานได้ดีที่สุดกลายเป็น Gemini 3 ที่ทำงานใน agent harness ที่มีความสามารถในการค้นหา (search) ได้คะแนนถึง 64.4%

การออกแบบ Kernel

งานที่ยากขึ้นในการพัฒนา AI คือการปรับแต่งเคอร์เนล (kernel optimization) การปรับแต่งเคอร์เนลหมายถึงการเขียนและปรับปรุงโค้ดระดับล่าง เพื่อแมปการดำเนินการเฉพาะ เช่น การคูณเมทริกซ์ ไปยังฮาร์ดแวร์ระดับล่างได้อย่างมีประสิทธิภาพมากขึ้น

การปรับแต่งเคอร์เนลเป็นหัวใจสำคัญของการพัฒนา AI เพราะมันกำหนดประสิทธิภาพของการฝึก (training) และการอนุมาน (inference): ด้านหนึ่ง มันส่งผลต่อปริมาณพลังคำนวณที่คุณสามารถใช้ได้อย่างมีประสิทธิภาพในการพัฒนาระบบ AI อีกด้านหนึ่ง เมื่อโมเดลได้รับการฝึกเสร็จแล้ว มันก็กำหนดว่าคุณสามารถแปลงพลังคำนวณเป็นความสามารถในการอนุมานได้อย่างมีประสิทธิภาพเพียงใด

ในช่วงไม่กี่ปีที่ผ่านมา การใช้ AI ออกแบบเคอร์เนลได้เปลี่ยนจากแนวทางเล็กๆ ที่น่าสนใจ กลายเป็นสาขาการวิจัยที่มีการแข่งขันสูง และมีเกณฑ์มาตรฐานหลายรายการเกิดขึ้น อย่างไรก็ตาม เกณฑ์มาตรฐานเหล่านี้ยังไม่เป็นที่นิยมมากนัก ดังนั้นจึงยากที่จะสร้างแบบจำลองความก้าวหน้าในระยะยาวได้อย่างชัดเจนเหมือนสาขาอื่นๆ ในทางกลับกัน เราสามารถสัมผัสถึงความเร็วของความก้าวหน้าในทิศทางนี้ได้จากงานวิจัยที่กำลังดำเนินอยู่

งานที่เกี่ยวข้อง ได้แก่:

การใช้โมเดลของ DeepSeek เพื่อพยายามสร้าง GPU kernel ที่ดีขึ้น
การแปลงโมดูล PyTorch เป็นโค้ด CUDA โดยอัตโนมัติ
Meta ใช้ LLM เพื่อสร้าง Triton kernel ที่ปรับแต่งแล้วโดยอัตโนมัติ และนำไปใช้ในโครงสร้างพื้นฐานของตนเอง
และการปรับแต่งโมเดลน้ำหนักโอเพนซอร์สสำหรับการออกแบบ GPU kernel เช่น Cuda Agent

จำเป็นต้องเพิ่มเติมตรงนี้: การออกแบบเคอร์เนลมีคุณสมบัติที่เหมาะสมเป็นพิเศษสำหรับการวิจัยและพัฒนาที่ขับเคลื่อนด้วย AI เช่น ผลลัพธ์ตรวจสอบได้ง่าย และสัญญาณรางวัล (reward signal) ค่อนข้างชัดเจน

การปรับแต่งโมเดลภาษาผ่าน PostTrainBench

การทดสอบประเภทนี้ในเวอร์ชันที่ยากกว่าคือ PostTrainBench โดยทดสอบว่าโมเดลแนวหน้าต่างๆ สามารถรับช่วงต่อโมเดลน้ำหนักโอเพนซอร์สขนาดเล็ก และปรับปรุงประสิทธิภาพในเกณฑ์มาตรฐานบางตัวผ่านการปรับแต่ง (fine-tuning) ได้หรือไม่

ข้อดีอย่างหนึ่งของเกณฑ์มาตรฐานนี้คือมีเส้นฐานของมนุษย์ (human baseline) ที่แข็งแกร่งมาก: เวอร์ชัน instruct-tuned ที่มีอยู่ของโมเดลขนาดเล็กเหล่านี้ โดยปกติแล้วพัฒนาโดยนักวิจัย AI มนุษย์ที่มีความสามารถจากห้องปฏิบัติการชั้นนำ ได้รับการขัดเกลาโดยนักวิจัยและวิศวกรที่มีความสามารถสูง และถูกนำไปใช้ในโลกแห่งความเป็นจริง ดังนั้นจึงเป็นเส้นฐานของมนุษย์ที่ยากจะเอาชนะ

ณ เดือนมีนาคม 2026 ระบบ AI สามารถทำ post-training ให้กับโมเดลและได้รับการปรับปรุงประสิทธิภาพประมาณครึ่งหนึ่งของผลการฝึกของมนุษย์

คะแนนการประเมินเฉพาะมาจากค่าเฉลี่ยถ่วงน้ำหนัก: ซึ่งรวม LLM ที่ผ่าน post-training หลายตัว รวมถึง Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B และเกณฑ์มาตรฐานหลายตัว รวมถึง AIME 2025, Arena Hard, BFCL, GPQA Main, GSM8K, HealthBench, HumanEval

ในการรันแต่ละครั้ง ผู้ประเมินจะขอให้ CLI agent ปรับปรุงประสิทธิภาพของโมเดลพื้นฐานเฉพาะในเกณฑ์มาตรฐานเฉพาะให้ดีที่สุดเท่าที่จะทำได้

ณ เดือนเมษายน 2026 ระบบ AI ที่มีคะแนนสูงสุดทำได้ประมาณ 25% ถึง 28% โดยโมเดลที่เป็นตัวแทน ได้แก่ Opus 4.6 และ GPT 5.4 ในขณะที่มนุษย์ได้คะแนน 51%

นี่เป็นผลลัพธ์ที่มีความหมายพอสมควรแล้ว

การปรับปรุงการฝึกโมเดลภาษา

ในปีที่ผ่านมา Anthropic รายงานประสิทธิภาพของระบบในงานฝึก LLM อย่างต่อเนื่อง งานนี้กำหนดให้โมเดลปรับปรุงการใช้งานการฝึกโมเดลภาษาขนาดเล็กที่ใช้เฉพาะ CPU ให้ทำงานเร็วที่สุดเท่าที่จะทำได้

วิธีการให้คะแนนคือ: อัตราเร่งเฉลี่ยที่การใช้งานของโมเดลทำได้เมื่อเทียบกับโค้ดเริ่มต้นที่ไม่ได้รับการแก้ไข

ผลลัพธ์นี้มีความก้าวหน้าอย่างมีนัยสำคัญ:

พฤษภาคม 2025: Claude Opus 4 ทำอัตราเร่งเฉลี่ย 2.9 เท่า
พฤศจิกายน 2025: Opus 4.5 เพิ่มเป็น 16.5 เท่า
กุมภาพันธ์ 2026: Opus 4.6 ทำได้ 30 เท่า

เมษายน 2026: อัตราเร่งของ Claude Mythos Preview ถึง 52 เท่า

เพื่อทำความเข้าใจความหมายของตัวเลขเหล่านี้ เราสามารถเปรียบเทียบได้: สำหรับนักวิจัยมนุษย์ การทำงานเดียวกันให้สำเร็จมักต้องใช้เวลาทำงานต่อเนื่อง 4 ถึง 8 ชั่วโมงเพื่อให้ได้อัตราเร่ง 4 เท่า

ทักษะระดับเมตา: การจัดการ

ระบบ AI ยังเรียนรู้วิธีการจัดการระบบ AI อื่นๆ อย่างต่อเนื่อง

ความสามารถนี้ปรากฏให้เห็นแล้วในผลิตภัณฑ์ที่ใช้งานอย่างแพร่หลาย เช่น Claude Code หรือ OpenCode ในผลิตภัณฑ์เหล่านี้ agent หลักหนึ่งตัวสามารถดูแล agent ย่อย (sub-agent) หลายตัวได้

สถาปัตยกรรมนี้ทำให้ระบบ AI สามารถจัดการกับโปรเจกต์ขนาดใหญ่ขึ้นได้: โปรเจกต์อาจต้องใช้ agent ที่มีความเชี่ยวชาญเฉพาะด้านหลายตัวทำงานแบบขนาน และโดยปกติแล้วจะประสานงานโดยผู้จัดการ AI เพียงคนเดียว ผู้จัดการนี้ก็เป็นระบบ AI เช่นกัน

การวิจัย AI: การค้นพบทฤษฎีสัมพัทธภาพทั่วไป หรือการต่อเลโก้?

คำถามหลักคือ: AI สามารถคิดค้นแนวคิดใหม่ทั้งหมดเพื่อช่วยปรับปรุงตัวเองได้หรือไม่? หรือว่าระบบเหล่านี้เหมาะกว่าสำหรับการทำงานพื้นฐานที่ไม่สวยงามนัก แต่ต้องทำอย่างเป็นขั้นเป็นตอนและมั่นคงในการวิจัย?

คำถามนี้สำคัญเพราะเกี่ยวข้องโดยตรงว่าระบบ AI สามารถทำให้การวิจัย AI เป็นระบบอัตโนมัติแบบครบวงจรได้มากน้อยเพียงใด

การประเมินของผู้เขียนคือ: AI ในปัจจุบันยังไม่สามารถเสนอแนวคิดใหม่ที่รุนแรงอย่างแท้จริงได้ อย่างไรก็ตาม เพื่อให้การวิจัยและพัฒนาของตัวเองเป็นอัตโนมัติ มันอาจไม่จำเป็นต้องมีความสามารถนี้ก็ได้

ในฐานะสาขาหนึ่ง ความก้าวหน้าของ AI ส่วนใหญ่ขึ้นอยู่กับการทดลองที่มีขนาดใหญ่ขึ้นเรื่อยๆ และปัจจัยนำเข้า (input) ที่เพิ่มขึ้น (เช่น ข้อมูลและพลังคำนวณ)

ในบางครั้ง มนุษย์จะเสนอแนวคิดที่เปลี่ยนกระบวนทัศน์ (paradigm) ซึ่งช่วยเพิ่มประสิทธิภาพการใช้ทรัพยากรของทั้งสาขาได้อย่างมาก สถาปัตยกรรม Transformer เป็นตัวอย่างที่ดี โมเดลผู้เชี่ยวชาญแบบผสม (mixture-of-experts) ก็เป็นอีกตัวอย่างหนึ่ง

อย่างไรก็ตาม ในหลายครั้ง วิธีการผลักดันสาขา AI นั้นเรียบง่ายกว่า: มนุษย์จะนำระบบที่ทำงานได้ดี มาขยายบางด้าน (เช่น ข้อมูลการฝึกและพลังคำนวณ); สังเกตว่ามีปัญหาที่ไหนเมื่อขยายขนาด; หาวิธีแก้ไขทางวิศวกรรมเพื่อให้ระบบสามารถขยายขนาดต่อไปได้; แล้วจึงขยายขนาดอีกครั้ง

ในกระบวนการนี้ ส่วนที่ต้องใช้ข้อมูลเชิงลึกอย่างลึกซึ้งนั้นมีน้อยมาก งานส่วนใหญ่เป็นเหมือนงานวิศวกรรมพื้นฐานที่ไม่โดดเด่นนัก แต่แข็งแกร่งมาก

ในทำนองเดียวกัน งานวิจัย AI จำนวนมากคือการรันรูปแบบต่างๆ ของการทดลองที่มีอยู่ เพื่อสำรวจว่าการตั้งค่าพารามิเตอร์ที่แตกต่างกันจะให้ผลลัพธ์อะไร สัญชาตญาณในการวิจัยช่วยให้มนุษย์เลือกพารามิเตอร์ที่ควรลองมากที่สุด แต่วิธีนี้ก็สามารถทำให้เป็นอัตโนมัติได้ โดยให้ AI ตัดสินใจเองว่าควรปรับพารามิเตอร์ใด การค้นหาสถาปัตยกรรมประสาท (Neural Architecture Search) ในยุคแรกๆ ก็เป็นเวอร์ชันหนึ่งของแนวคิดนี้

Thomas Edison เคยกล่าวไว้ว่า: อัจฉริยะคือแรงบันดาลใจ 1% บวกกับหยาดเหงื่อ 99% แม้เวลาจะผ่านไป 150 ปี คำพูดนี้ก็ยังคงเหมาะสม

ในบางครั้ง ก็มีข้อมูลเชิงลึกใหม่ที่เปลี่ยนแปลงสาขาอย่างสิ้นเชิง แต่ส่วนใหญ่แล้ว ความก้าวหน้าของสาขาเกิดจากการที่มนุษย์ค่อยๆ ผลักดันผ่านกระบวนการที่ยากลำบากในการปรับปรุงและแก้ไขระบบต่างๆ

และข้อมูลสาธารณะที่กล่าวถึงก่อนหน้านี้บ่งชี้ว่า AI มีความชำนาญมากในการทำงานหนักที่จำเป็นหลายอย่างในการพัฒนา AI

ในขณะเดียวกัน ก็มีแนวโน้มที่ใหญ่กว่า: ความสามารถพื้นฐาน (เช่น การเขียนโปรแกรม) กำลังรวมเข้ากับช่วงเวลาของงานที่ขยายออกไปอย่างต่อเนื่อง ซึ่งหมายความว่าระบบ AI สามารถเชื่อมโยงงานประเภทนี้จำนวนมากขึ้นเรื่อยๆ เข้าด้วยกันเป็นลำดับงานที่ซับซ้อน

ดังนั้น แม้ว่าระบบ AI ในปัจจุบันจะขาดความคิดสร้างสรรค์ค่อนข้างมาก เราก็มีเหตุผลที่จะเชื่อว่าระบบเหล่านี้ยังคงสามารถผลักดันตัวเองให้ก้าวหน้าต่อไปได้ เพียงแต่อัตราเร็วอาจช้ากว่ากรณีที่สามารถสร้างข้อมูลเชิงลึกใหม่ทั้งหมด

แต่ถ้าสังเกตข้อมูลสาธารณะต่อไป จะพบสัญญาณที่น่าสงสัยอีกอย่างหนึ่ง: ระบบ AI อาจกำลังแสดงความคิดสร้างสรรค์บางอย่าง ซึ่งอาจทำให้พวกมันผลักดันความก้าวหน้าของตัวเองในรูปแบบที่น่าประหลาดใจยิ่งขึ้น

การผลักดันขอบเขตทางวิทยาศาสตร์ให้ก้าวหน้าต่อไป

ปัจจุบันมีสัญญาณเบื้องต้นบางอย่างที่บ่งชี้ว่าระบบ AI ทั่วไปมีความสามารถในการผลักดันขอบเขตทางวิทยาศาสตร์ของมนุษย์ให้ก้าวหน้าต่อไป อย่างไรก็ตาม จนถึงขณะนี้ สิ่งนี้เกิดขึ้นในเพียงไม่กี่สาขาเท่านั้น โดยหลักๆ คือวิทยาการคอมพิวเตอร์และคณิตศาสตร์ และหลายครั้งก็ไม่ใช่ระบบ AI ที่ทำความก้าวหน้าเพียงลำพัง แต่เป็นการทำงานร่วมกันระหว่างมนุษย์กับเครื่องจักร (human-machine collaboration) ร่วมกับนักวิจัยมนุษย์

ถึงกระนั้น แนวโน้มเหล่านี้ก็ยังน่าสังเกต:

ปัญหา Erdős: นักคณิตศาสตร์กลุ่มหนึ่งทำงานร่วมกับโมเดล Gemini เพื่อทดสอบประสิทธิภาพในการแก้ปัญหาคณิตศาสตร์ Erdős บางข้อ พวกเขาชี้แนะระบบให้ลองประมาณ 700 ปัญหา และได้คำตอบ 13 ข้อ ในจำนวนนี้ มี 1 ข้อที่พวกเขาคิดว่าน่าสนใจ
นักวิจัยเขียนว่า พวกเขาเชื่อเบื้องต้นว่าคำตอบของ Aletheia (ระบบ AI ที่ใช้ Gemini 3 Deep Think) สำหรับปัญหา Erdős-1051 แสดงถึงกรณีแรกเริ่ม: ระบบ AI แก้ปัญหา Erdős แบบเปิดที่ค่อนข้างไม่ธรรมดาและมีความสนใจทางคณิตศาสตร์ในวงกว้างในระดับหนึ่งได้ด้วยตนเอง ปัญหานี้มีเอกสารวิจัยที่เกี่ยวข้องอย่างใกล้ชิด (closely-related) อยู่ก่อนแล้ว

หากมองในแง่ดี กรณีเหล่านี้สามารถมองเป็นสัญญาณว่าระบบ AI กำลังพัฒนาสัญชาตญาณเชิงสร้างสรรค์บางอย่างที่สามารถผลักดันขอบเขตของสาขา ซึ่งในอดีตเป็นของมนุษย์เป็นหลัก

แต่ก็สามารถอธิบายได้จากอีกด้านหนึ่ง: คณิตศาสตร์และวิทยาการคอมพิวเตอร์อาจเป็นสาขาที่เหมาะสมเป็นพิเศษสำหรับการประดิษฐ์ที่ขับเคลื่อนด้วย AI ดังนั้นจึงอาจเป็นเพียงข้อยกเว้น และไม่สามารถเป็นตัวแทนว่าการวิจัยทางวิทยาศาสตร์ในวงกว้างจะถูกผลักดันโดย AI ในลักษณะเดียวกัน

อีกตัวอย่างที่คล้ายกันคือการเดินหมากครั้งที่ 37 ของ AlphaGo อย่างไรก็ตาม Clark คิดว่านับตั้งแต่ผลลัพธ์ของ AlphaGo นั้นผ่านมาสิบปีแล้ว และการเดินหมากครั้งที่ 37 ก็ไม่ได้ถูกแทนที่ด้วยข้อมูลเชิงลึกที่น่าทึ่งกว่าที่ทันสมัยกว่า ซึ่งตัวมันเองก็ถือเป็นสัญญาณที่ค่อนข้างมองในแง่ร้ายได้

AI สามารถทำงานวิศวกรรม AI ส่วนใหญ่ให้เป็นอัตโนมัติได้แล้ว

หากนำหลักฐานทั้งหมดข้างต้นมารวมกัน เราจะเห็นภาพดังนี้:

ระบบ AI สามารถเขียนโค้ดสำหรับโปรแกรมเกือบทุกประเภทได้แล้ว และระบบเหล่านี้สามารถเชื่อถือได้ให้ทำงานบางอย่างได้อย่างอิสระ ซึ่งหากมอบหมายให้มนุษย์ทำ มักต้องใช้สมาธิอย่างหนักเป็นเวลาหลายสิบชั่วโมง
ระบบ AI มีความชำนาญมากขึ้นเรื่อยๆ ในการทำงานหลักในการพัฒนา AI ตั้งแต่การปรับแต่งโมเดลไปจนถึงการออกแบบเคอร์เนล ซึ่งกำลังถูกครอบคลุมทีละส่วน
ระบบ AI สามารถจัดการระบบ AI อื่นๆ ได้แล้ว ซึ่งก่อให้เกิดทีมสังเคราะห์ (synthetic team): AI หลายตัวสามารถจัดการกับปัญหาที่ซับซ้อนแยกกัน โดยบางตัวทำหน้าที่เป็นผู้รับผิดชอบ ผู้วิจารณ์ บรรณาธิการ และ AI อ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง