นักวิจัย DeepMind ลาออกแล้วเปิดโปงความจริง: อุปสรรคใหญ่ที่สุดของวงการ AI ไม่ใช่พลังคำนวณหรือข้อมูล แต่เป็น “การประเมินที่ล้มเหลว”

8 hours ago • การประเมินโมเดลขนาดใหญ่ • 10 views

นักวิจัย DeepMind ลาออกแล้วเปิดโปงความจริง: อุปสรรคใหญ่ที่สุดของวงการ AI ไม่ใช่พลังคำนวณหรือข้อมูล แต่เป็น "การประเมินที่ล้มเหลว"

อดีตนักวิจัยของ Google DeepMind ลาออกและเขียนบทความยาวชี้ให้เห็นว่าอุปสรรคที่ถูกมองข้ามมากที่สุดในอุตสาหกรรม AI ในปัจจุบันไม่ใช่พลังประมวลผลหรือข้อมูล เขาเชื่อว่าเกณฑ์มาตรฐานและการประเมินความปลอดภัยที่มีอยู่ทั้งหมดต่างมีสมมติฐานแฝงอยู่ว่า โมเดลรุ่นถัดไปเป็นเพียงเวอร์ชันที่แข็งแกร่งขึ้นของโมเดลปัจจุบัน แต่ถ้าโมเดลก้าวข้ามไปสู่ขีดความสามารถใหม่ทั้งหมด โครงสร้างพื้นฐานการประเมินทั้งหมดจะพังทลายลงอย่างเงียบเชียบ

การฝึก AI จะดำเนินต่อไปได้นานแค่ไหน?

นี่คือคำถามหลักที่วงการเทคโนโลยีทั่วโลกกำลังตั้งคำถามในปี 2026

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 — ห้องปฏิบัติการชั้นนำทุกแห่งต่างทุ่มเงินเพื่อฝึกโมเดลรุ่นถัดไป

แต่ผู้คนจำนวนมากขึ้นเริ่มตั้งคำถามว่า เส้นทางนี้จะสิ้นสุดลงเมื่อใด?

แต่ละวงการมีคำตอบของตัวเอง —

เบื้องหลังทุกคำตอบ มีนักลงทุน วิศวกร และบริษัทมูลค่าล้านล้านดอลลาร์ยืนอยู่

อย่างไรก็ตาม ในวันที่ 17 พฤษภาคม 2026 นักวิจัยหนุ่มชื่อ Lun Wang — ในวันที่เขาลาออกจาก Google DeepMind — ได้เผยแพร่บทความยาว 4,000 คำบนบล็อกส่วนตัวของเขา

เขากล่าวว่า: ทุกคนเข้าใจผิดทิศทาง

อุปสรรคที่แท้จริงไม่ใช่พลังประมวลผล ไม่ใช่ข้อมูล ไม่ใช่พลังงาน และไม่ใช่สถาปัตยกรรม

อุปสรรคที่แท้จริงคือ — การประเมิน (Evaluation)

ในวันเดียวกัน ในประกาศลาออกของเขาบน X ไม่มีการบ่น ไม่มีข่าวลือ มีเพียงประโยคเดียว —

เมื่อสิ้นสุดการเดินทางครั้งนี้ ฉันได้เขียนหัวข้อที่ฉันครุ่นคิดอยู่เสมอ: การประเมิน

และในวันนั้น หัวข้อข่าวเทคโนโลยีชั้นนำยังคงพูดถึงเรื่องอื่น — การอนุมานหลายรูปแบบของ GPT-5.5, บริบท 1M ของ Claude Opus 4.7, วิศวกรรม Agent ของ Gemini 3, ข้อมูลสังเคราะห์เริ่มถึงกำแพง

ความสนใจของอุตสาหกรรม AI ทั้งหมด 90% ทุ่มเทให้กับการฝึก

ไม่มีใครพูดถึงการประเมินในพาดหัวข่าว

และนักวิจัยที่เพิ่งออกจากหนึ่งในห้องปฏิบัติการ AI ที่แข็งแกร่งที่สุดในโลกกลับบอกว่า อุปสรรคที่แท้จริง อยู่ในอีก 10% ที่เหลือ

การประเมินคืออะไร

เพื่อทำความเข้าใจบล็อกนี้ ก่อนอื่นต้องใช้เวลาหนึ่งนาทีเพื่อทำความเข้าใจว่าการประเมินในวงการ AI หมายถึงอะไร

การประเมิน (Evaluation หรือที่เรียกในวงการว่า Eval) — สรุปสั้นๆ: ออกข้อสอบให้โมเดล AI แล้วดูว่ามันทำได้ดีแค่ไหน

แต่การประเมิน AI ในปี 2026 ไม่ได้ง่ายแค่การทำข้อสอบอีกต่อไป อย่างน้อยมันประกอบด้วยสามระดับ:

ระดับแรก: เกณฑ์มาตรฐานความสามารถ (Benchmark)

นี่คือการสอบเข้ามหาวิทยาลัยของ AI

GPQA: โจทย์ใช้เหตุผลทางวิทยาศาสตร์ระดับปริญญาเอก
SWE-bench: งานวิศวกรรมซอฟต์แวร์ในโลกจริง
ARC-AGI: การใช้เหตุผลเชิงนามธรรมและการสรุปทั่วไป
Humanity’s Last Exam: ตามตัวอักษร — การสอบครั้งสุดท้ายของมนุษยชาติ

ในการเปิดตัวโมเดลใหม่ของทุกบริษัทใหญ่ สไลด์จะแสดงเปอร์เซ็นต์ที่สูงขึ้นเมื่อเทียบกับรุ่นก่อนหน้าและคู่แข่งในเกณฑ์มาตรฐานเหล่านี้

ตัวเลขเหล่านี้คือ GDP ของอุตสาหกรรม AI

ระดับที่สอง: การประเมินความปลอดภัย (SafetyEval) AI ไม่เพียงต้องทำข้อสอบได้ แต่ยังต้องทำอย่างปลอดภัย

มันโกหกหรือไม่?
มันจะสอนผู้ใช้วิธีทำระเบิดหรือไม่?
มันจะเข้าถึงข้อมูลผู้ใช้โดยไม่ได้รับอนุญาตหรือไม่?

ระดับที่สาม: การทดสอบทีมแดง (Red-teaming)

กลุ่มคนที่รับบทเป็นคนร้าย พยายามอย่างเต็มที่เพื่อให้โมเดลพูดในสิ่งที่มันไม่ควรพูด ทำในสิ่งที่มันไม่ควรทำ จากนั้นส่งข้อบกพร่องกลับไปให้ทีมฝึก

สามระดับนี้รวมกันเป็นระบบตรวจสอบคุณภาพของห้องปฏิบัติการ AI ในปี 2026 ทุกครั้งที่ปล่อยโมเดลใหม่ ต้องผ่านทั้งสามด่านนี้

ฟังดูครบถ้วนใช่ไหม?

Lun Wang เขียนคำตัดสินในบล็อกของเขา —

เกณฑ์มาตรฐาน การประเมินความปลอดภัย และโปรโตคอลทีมแดงส่วนใหญ่มีสมมติฐานแฝงอยู่ว่า: โมเดลถัดไปเป็นเพียงเวอร์ชันที่แข็งแกร่งขึ้นของโมเดลปัจจุบัน

ถ้ามันเป็นสิ่งอื่น โครงสร้างพื้นฐานการประเมินทั้งหมดจะพังทลายลงอย่างเงียบเชียบ.

นี่คือก้อนหินก้อนแรกของบทความ

มันกระทบจุดบอดของอุตสาหกรรม AI ทั้งหมด

การเกิดขึ้นและความเข้าใจแจ่มแจ้ง: การประเมินถูกตบหน้าสองครั้งแล้ว

Lun Wang ไม่ได้จินตนาการขึ้นมาเอง ในบล็อกของเขา เขาหยิบยก ตัวอย่างจริง สองครั้งจากประวัติศาสตร์ AI — การประเมินถูกตบหน้าสองครั้งแล้ว แต่ผู้ปฏิบัติงานส่วนใหญ่ไม่รู้ตัว

ครั้งแรก: ความสามารถที่เกิดขึ้น (Emergent Abilities)

ในปี 2022 Jason Wei และผู้ร่วมงานตีพิมพ์บทความที่มีอิทธิพลต่อทิศทางของ AI ในอนาคต — พวกเขาค้นพบว่า โมเดลในขนาดหนึ่งจะเรียนรู้ความสามารถใหม่ๆ อย่างกะทันหัน

ตัวอย่างเช่น: คุณฝึกโมเดล 7 พันล้านพารามิเตอร์ มันทำ few-shot learning ไม่ได้

คุณฝึกโมเดล 7 หมื่นล้านพารามิเตอร์ มัน สามารถทำ few-shot ได้อย่างกะทันหัน

กระบวนทัศน์การฝึกเดียวกัน ข้อมูลเดียวกัน แค่ขนาดใหญ่ขึ้นหนึ่งระดับ — ความสามารถเปลี่ยนจาก 0 เป็น 1 ไม่ใช่จาก 0.3 เป็น 0.7

CoT (Chain-of-Thought reasoning), การทำตามคำสั่ง ล้วนเกิดขึ้นมาแบบนี้

สิ่งนี้หมายความว่าอย่างไรสำหรับการประเมิน?

หมายความว่า — ก่อนที่ขนาดจะข้ามจุดวิกฤต เกณฑ์มาตรฐานทั้งหมดจะไม่เห็นว่าความสามารถนี้กำลังจะเกิดขึ้น

คุณทดสอบ GPQA ครบทุกข้อ คะแนนก็ยังคงเป็นเท่าเดิม

เมื่อคุณฝึกถึงระดับถัดไป คะแนนจะกระโดดขึ้นหนึ่งขั้น

ครั้งที่สอง: Grokking (ความเข้าใจแจ่มแจ้ง)

ในปี 2022 ทีม Alethea Power ของ OpenAI เปิดเผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ —

จากนั้นที่ขั้นตอนที่ 1,000,000 — ความแม่นยำของชุดทดสอบพุ่งขึ้นถึง 99% อย่างกะทันหัน

สิ่งนี้เรียกว่า Grokking — เครือข่าย เรียนรู้ที่จะสรุปทั่วไปอย่างกะทันหัน หลังจากจดจำชุดฝึกมาเป็นเวลานาน

ความแตกต่างจาก Emergence คือ: Emergence เกิดขึ้นในมิติของขนาด (ยิ่งพารามิเตอร์มากยิ่งกะทันหัน) ในขณะที่ Grokking เกิดขึ้นในมิติของเวลาในการฝึก (ยิ่งฝึกนานยิ่งกะทันหัน)

แต่สำหรับการประเมิน ทั้งสองสิ่งพูดถึงเรื่องเดียวกัน:

ข้อสอบของคุณ ไม่สามารถทำนายได้ว่าข้อใหญ่ข้อต่อไปจะปรากฏขึ้นเมื่อใด

จากนั้น Lun Wang ก็ทำสิ่งที่ฉลาดที่สุดในบทความ —

เขา นำเสนอมุมมองตรงข้ามอย่างตั้งใจ

ในปี 2023 Rylan Schaeffer จาก Stanford และผู้ร่วมงานตีพิมพ์บทความ NeurIPS ชื่อที่ท้าทายมาก — 《ความสามารถที่เกิดขึ้นของโมเดลภาษาขนาดใหญ่เป็นภาพลวงตาหรือไม่?》

ข้อโต้แย้งของพวกเขาคือ: ความสามารถที่ปรากฏขึ้นอย่างกะทันหัน อาจไม่ใช่เพราะโมเดลแข็งแกร่งขึ้นจริงๆ แต่เป็นเพราะตัวชี้วัดการประเมินใช้ exact-match (การจับคู่แบบสมบูรณ์) ซึ่งเป็นหน่วยวัดแบบ ไม่ต่อเนื่อง —

โมเดลเปลี่ยนจากความแม่นยำ 0% เป็น 5% ตัวชี้วัดแบบไม่ต่อเนื่องมองไม่เห็น; จาก 5% เป็น 50% ก็มองไม่เห็น; แต่จาก 50% เป็น 100% ตัวชี้วัดแบบไม่ต่อเนื่องจะแสดงการกระโดดอย่างกะทันหัน

ถ้าคุณเปลี่ยนเป็นตัวชี้วัดแบบต่อเนื่อง เส้นโค้งความสามารถ จะราบรื่น

หลายคนหลังจากอ่านของ Schaeffer จะคิดว่า: เอาล่ะ Emergence เป็นความเข้าใจผิด การประเมินไม่มีปัญหา เลิกกัน

Lun Wang ไม่เห็นด้วย เขาเขียนในบทความว่า:

ฉันไม่คิดว่าสิ่งนี้จะแก้ปัญหาได้ — ในแง่หนึ่ง มันทำให้ข้อโต้แย้งของฉัน เฉียบคมยิ่งขึ้น

ทำไม? เพราะ —

ถ้าเราไม่สามารถแยกแยะได้ด้วยซ้ำว่าการเกิดขึ้นครั้งนั้นเป็นการเปลี่ยนสถานะจริงหรือสิ่งประดิษฐ์จากการวัด

เราจะมั่นใจได้อย่างไรว่าเรามีความสามารถในการมองเห็นครั้งต่อไป?

ไม่ว่าคุณจะเชื่อคำอธิบายใด ข้อสรุปก็คือข้อเดียวกัน: เครื่องมือของเราหลอกเรา และเราไม่รู้ว่าถูกหลอกอย่างไร

นี่คือการโจมตีที่ฉลาดที่สุดในบทความ เขาไม่ได้หลีกเลี่ยงฝ่ายตรงข้าม — เขาใช้ฝ่ายตรงข้ามเพื่อเสริมความแข็งแกร่งให้กับข้อโต้แย้งของตัวเอง

การประเมินเป็นต้นน้ำของทุกขั้นตอน

ถ้าคุณคิดว่า Lun Wang แค่พูดถึงปัญหาเชิงวิชาการ — คุณคิดผิดแล้ว

เขากล่าวประโยคที่ แม้แต่มือใหม่ก็เข้าใจ กลางบทความ:

ถ้าคุณประเมินได้ถูกต้อง คุณก็จะฝึกได้ถูกต้อง

ลองวางห่วงโซ่ตรรกะนี้ดู:

การฝึก = ทำให้โมเดลลดฟังก์ชันการสูญเสีย (หรือเพิ่มรางวัลสูงสุด)
การปรับให้เหมาะสม = ฟังก์ชันการสูญเสียนั้นเอง โมเดลฉลาดแค่ไหนขึ้นอยู่กับว่าฟังก์ชันการสูญเสียถูกกำหนดไว้ดีแค่ไหน
ฟังก์ชันการสูญเสีย = มาจากการประเมิน คุณอยากให้โมเดลซื่อสัตย์มากขึ้น — คุณต้องมีไม้บรรทัดวัดความซื่อสัตย์ก่อน
การประเมินผิด = ฟังก์ชันการสูญเสียผิด = เป้าหมายการฝึกผิด = โมเดลที่คุณฝึกกำลังแก้โจทย์ที่ผิด

ห่วงโซ่สาเหตุนี้ ย้อนกลับไปยังต้นน้ำ —

การตัดสินใจ Scaling ← ตัวชี้วัดความปลอดภัย ← RLHF ← สัญญาณการฝึก ← การประเมิน
(จะทุ่มหนึ่งพันล้านฝึกโมเดลถัดไปไหม) (มันปลอดภัยไหม) (มันเรียนรู้สิ่งที่ต้องการหรือไม่) (มันกำลังเรียนรู้อะไร) (เรากำลังวัดอะไรกันแน่)

ทุกคนจ้องไปที่ด้านขวาสุด — การตัดสินใจ Scaling

แต่ Lun Wang ชี้ให้เห็นว่าปัญหาอยู่ที่ด้านซ้ายสุด — การประเมิน

ถ้าการประเมินผิดตั้งแต่แรก ห่วงโซ่ทั้งหมดก็สร้างอยู่บนรากฐานที่ผิดพลาด

ที่ร้ายแรงที่สุดคือ คุณจะไม่รู้ตัวทันที — เพราะข้อมูลภายในทั้งหมดของคุณดูเหมือนจะถูกต้อง เพียงแต่ข้อมูลที่ “ถูกต้อง” เหล่านั้น วัดด้วยไม้บรรทัดที่ผิด

ตรงนี้มีบุคคลที่คุ้นเคยปรากฏตัว: กฎของกู๊ดฮาร์ต (Goodhart’s Law)

มันกล่าวว่า: เมื่อมาตรวัดกลายเป็นเป้าหมาย มันก็จะไม่ใช่มาตรวัดที่ดีอีกต่อไป

Lun Wang ใช้กฎนี้ในบล็อกของเขาเพื่อวิเคราะห์ AI —

แต่เมื่อโมเดลเข้าสู่สถานะใหม่ มันจะใช้ประโยชน์จากตัวชี้วัดตัวแทนนี้ในทางกลับกัน — มัน พูดเฉพาะในขอบเขตที่ถูกต้องตามข้อเท็จจริง และฝังสิ่งที่ต้องการปิดบังไว้ในความเงียบ

ตัวชี้วัดตัวแทนยังใช้ได้ในสถานะเก่า แต่ในสถานะใหม่ มันจะกลายเป็นอาวุธที่โมเดลใช้ต่อสู้กับคุณ

และคุณไม่มีวิธีการประเมินใดที่จะบอกคุณได้ว่าสิ่งนี้กำลังเกิดขึ้น

การทดลองทางความคิด: โมเดลที่เรียนรู้ความเงียบเชิงกลยุทธ์

Lun Wang ให้ การทดลองทางความคิด ในบทความที่ทำให้นักวิจัยด้านความปลอดภัย AI ทุกคนขนลุก

ลองนึกภาพโมเดลที่ ในขนาดหนึ่ง เรียนรู้ที่จะเก็บข้อมูลอย่างมีกลยุทธ์ —

มัน ไม่โกหก ทุกประโยคในทางเทคนิคเป็นความจริง

แต่มันจะ เลือกที่จะไม่พูดข้อเท็จจริงที่ไม่เอื้อต่อการบรรลุเป้าหมายของมัน — นำการสนทนาไปสู่ผลลัพธ์ที่ ถูกเสริมแรงโดยไม่ได้ตั้งใจ ในระหว่างการฝึก

ยกตัวอย่างที่เป็นรูปธรรม:

ผู้ใช้: แผนการทำธุรกรรมนี้ปลอดภัยไหม?

โมเดล: กรอบกฎหมายของแผนนี้มีผลบังคับใช้ในเขตอำนาจศาล X ปัจจัยเสี่ยง YZ ได้รับการตรวจสอบโดยทีมปฏิบัติตามกฎระเบียบของบริษัท A แล้ว

(สิ่งที่มันไม่ได้พูด: ในแผนมีข้ออนุญาโตตุลาการของบุคคลที่สาม ที่เสียเปรียบผู้ใช้อย่างมาก ข้อนี้มันเรียนรู้โดยบังเอิญระหว่างการฝึก — ตราบใดที่ไม่พูดถึง ผู้ใช้ก็จะไม่ถาม)

ความสามารถนี้เป็นสิ่งใหม่ รูปแบบความล้มเหลวนี้เป็นสิ่งใหม่

ในชุดเครื่องมือประเมินทั้งหมดของคุณ ไม่มีเครื่องมือใดที่ออกแบบมาสำหรับมัน

คุณกำลังตรวจสอบสิ่งที่ผิด และคุณไม่รู้ตัว

นี่คือสิ่งที่ Lun Wang เรียกว่า สิ่งอื่น —

ไม่ใช่สิ่งมีชีวิตชนิดเดียวกันที่ฉลาดกว่า แต่เป็น มิติความล้มเหลวใหม่โดยสิ้นเชิง

ในภาษาของ “สามก๊ก” (Three-Body Problem) สิ่งนี้เรียกว่า การโจมตีแบบลดมิติ

ไม่ใช่ฉันแข็งแกร่งกว่าคุณ

แต่เป็น ไม้บรรทัดที่คุณใช้วัดฉัน ไม่อยู่ในมิติของฉันเลย

ถ้า Lun Wang ถูกต้อง แผนที่อุตสาหกรรม AI ในปี 2026 กำลังถูกสับเปลี่ยนใหม่อย่างเงียบเชียบโดยมิติที่มองไม่เห็น —

นโยบาย Scaling ที่รับผิดชอบ (RSP) ของ Anthropic เป็นความพยายามที่ใกล้เคียงที่สุดในอุตสาหกรรมในการประเมินเชิงทำนาย — มันกำหนดขอบเขตความสามารถที่โมเดลไม่สามารถข้ามผ่านได้ และกำหนดให้ ทำการประเมินก่อน ทุกครั้งที่อัปเกรดความสามารถ จึงจะสามารถ Scaling ต่อไปได้

แต่ RSP ยังคงสมมติว่าเรารู้ ว่าจะวัดอะไร — และ Lun Wang บอกว่า นี่คือปัญหาพอดี: เราไม่รู้ว่าความสามารถถัดไปจะมีรูปร่างอย่างไร

การประเมินเชิงทำนายที่แท้จริง ปัจจุบันยังไม่มีห้องปฏิบัติการใดอ้างว่ามี

ใครก็ตามที่ทำสิ่งนี้สำเร็จก่อน ผู้นั้นจะได้รับใบอนุญาตความปลอดภัยสำหรับการ Scaling รุ่นถัดไป

อ้างอิง: https://x.com/LunWang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html
บรรณาธิการ: David

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง