
อดีตนักวิจัยของ Google DeepMind ลาออกและเขียนบทความยาวชี้ให้เห็นว่าอุปสรรคที่ถูกมองข้ามมากที่สุดในอุตสาหกรรม AI ในปัจจุบันไม่ใช่พลังประมวลผลหรือข้อมูล เขาเชื่อว่าเกณฑ์มาตรฐานและการประเมินความปลอดภัยที่มีอยู่ทั้งหมดต่างมีสมมติฐานแฝงอยู่ว่า โมเดลรุ่นถัดไปเป็นเพียงเวอร์ชันที่แข็งแกร่งขึ้นของโมเดลปัจจุบัน แต่ถ้าโมเดลก้าวข้ามไปสู่ขีดความสามารถใหม่ทั้งหมด โครงสร้างพื้นฐานการประเมินทั้งหมดจะพังทลายลงอย่างเงียบเชียบ
การฝึก AI จะดำเนินต่อไปได้นานแค่ไหน?
นี่คือคำถามหลักที่วงการเทคโนโลยีทั่วโลกกำลังตั้งคำถามในปี 2026
GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 — ห้องปฏิบัติการชั้นนำทุกแห่งต่างทุ่มเงินเพื่อฝึกโมเดลรุ่นถัดไป

แต่ผู้คนจำนวนมากขึ้นเริ่มตั้งคำถามว่า เส้นทางนี้จะสิ้นสุดลงเมื่อใด?
แต่ละวงการมีคำตอบของตัวเอง —
เบื้องหลังทุกคำตอบ มีนักลงทุน วิศวกร และบริษัทมูลค่าล้านล้านดอลลาร์ยืนอยู่
อย่างไรก็ตาม ในวันที่ 17 พฤษภาคม 2026 นักวิจัยหนุ่มชื่อ Lun Wang — ในวันที่เขาลาออกจาก Google DeepMind — ได้เผยแพร่บทความยาว 4,000 คำบนบล็อกส่วนตัวของเขา

เขากล่าวว่า: ทุกคนเข้าใจผิดทิศทาง
อุปสรรคที่แท้จริงไม่ใช่พลังประมวลผล ไม่ใช่ข้อมูล ไม่ใช่พลังงาน และไม่ใช่สถาปัตยกรรม
อุปสรรคที่แท้จริงคือ — การประเมิน (Evaluation)

ในวันเดียวกัน ในประกาศลาออกของเขาบน X ไม่มีการบ่น ไม่มีข่าวลือ มีเพียงประโยคเดียว —
เมื่อสิ้นสุดการเดินทางครั้งนี้ ฉันได้เขียนหัวข้อที่ฉันครุ่นคิดอยู่เสมอ: การประเมิน

และในวันนั้น หัวข้อข่าวเทคโนโลยีชั้นนำยังคงพูดถึงเรื่องอื่น — การอนุมานหลายรูปแบบของ GPT-5.5, บริบท 1M ของ Claude Opus 4.7, วิศวกรรม Agent ของ Gemini 3, ข้อมูลสังเคราะห์เริ่มถึงกำแพง
ความสนใจของอุตสาหกรรม AI ทั้งหมด 90% ทุ่มเทให้กับการฝึก
ไม่มีใครพูดถึงการประเมินในพาดหัวข่าว
และนักวิจัยที่เพิ่งออกจากหนึ่งในห้องปฏิบัติการ AI ที่แข็งแกร่งที่สุดในโลกกลับบอกว่า อุปสรรคที่แท้จริง อยู่ในอีก 10% ที่เหลือ

การประเมินคืออะไร
เพื่อทำความเข้าใจบล็อกนี้ ก่อนอื่นต้องใช้เวลาหนึ่งนาทีเพื่อทำความเข้าใจว่าการประเมินในวงการ AI หมายถึงอะไร
การประเมิน (Evaluation หรือที่เรียกในวงการว่า Eval) — สรุปสั้นๆ: ออกข้อสอบให้โมเดล AI แล้วดูว่ามันทำได้ดีแค่ไหน
แต่การประเมิน AI ในปี 2026 ไม่ได้ง่ายแค่การทำข้อสอบอีกต่อไป อย่างน้อยมันประกอบด้วยสามระดับ:
ระดับแรก: เกณฑ์มาตรฐานความสามารถ (Benchmark)
นี่คือการสอบเข้ามหาวิทยาลัยของ AI
- GPQA: โจทย์ใช้เหตุผลทางวิทยาศาสตร์ระดับปริญญาเอก
- SWE-bench: งานวิศวกรรมซอฟต์แวร์ในโลกจริง
- ARC-AGI: การใช้เหตุผลเชิงนามธรรมและการสรุปทั่วไป
- Humanity’s Last Exam: ตามตัวอักษร — การสอบครั้งสุดท้ายของมนุษยชาติ

ในการเปิดตัวโมเดลใหม่ของทุกบริษัทใหญ่ สไลด์จะแสดงเปอร์เซ็นต์ที่สูงขึ้นเมื่อเทียบกับรุ่นก่อนหน้าและคู่แข่งในเกณฑ์มาตรฐานเหล่านี้
ตัวเลขเหล่านี้คือ GDP ของอุตสาหกรรม AI
ระดับที่สอง: การประเมินความปลอดภัย (SafetyEval) AI ไม่เพียงต้องทำข้อสอบได้ แต่ยังต้องทำอย่างปลอดภัย
- มันโกหกหรือไม่?
- มันจะสอนผู้ใช้วิธีทำระเบิดหรือไม่?
- มันจะเข้าถึงข้อมูลผู้ใช้โดยไม่ได้รับอนุญาตหรือไม่?
ระดับที่สาม: การทดสอบทีมแดง (Red-teaming)
กลุ่มคนที่รับบทเป็นคนร้าย พยายามอย่างเต็มที่เพื่อให้โมเดลพูดในสิ่งที่มันไม่ควรพูด ทำในสิ่งที่มันไม่ควรทำ จากนั้นส่งข้อบกพร่องกลับไปให้ทีมฝึก
สามระดับนี้รวมกันเป็นระบบตรวจสอบคุณภาพของห้องปฏิบัติการ AI ในปี 2026 ทุกครั้งที่ปล่อยโมเดลใหม่ ต้องผ่านทั้งสามด่านนี้
ฟังดูครบถ้วนใช่ไหม?
Lun Wang เขียนคำตัดสินในบล็อกของเขา —
เกณฑ์มาตรฐาน การประเมินความปลอดภัย และโปรโตคอลทีมแดงส่วนใหญ่มีสมมติฐานแฝงอยู่ว่า: โมเดลถัดไปเป็นเพียงเวอร์ชันที่แข็งแกร่งขึ้นของโมเดลปัจจุบัน
ถ้ามันเป็นสิ่งอื่น โครงสร้างพื้นฐานการประเมินทั้งหมดจะพังทลายลงอย่างเงียบเชียบ.
นี่คือก้อนหินก้อนแรกของบทความ
มันกระทบจุดบอดของอุตสาหกรรม AI ทั้งหมด

การเกิดขึ้นและความเข้าใจแจ่มแจ้ง: การประเมินถูกตบหน้าสองครั้งแล้ว
Lun Wang ไม่ได้จินตนาการขึ้นมาเอง ในบล็อกของเขา เขาหยิบยก ตัวอย่างจริง สองครั้งจากประวัติศาสตร์ AI — การประเมินถูกตบหน้าสองครั้งแล้ว แต่ผู้ปฏิบัติงานส่วนใหญ่ไม่รู้ตัว
ครั้งแรก: ความสามารถที่เกิดขึ้น (Emergent Abilities)
ในปี 2022 Jason Wei และผู้ร่วมงานตีพิมพ์บทความที่มีอิทธิพลต่อทิศทางของ AI ในอนาคต — พวกเขาค้นพบว่า โมเดลในขนาดหนึ่งจะเรียนรู้ความสามารถใหม่ๆ อย่างกะทันหัน
ตัวอย่างเช่น: คุณฝึกโมเดล 7 พันล้านพารามิเตอร์ มันทำ few-shot learning ไม่ได้
คุณฝึกโมเดล 7 หมื่นล้านพารามิเตอร์ มัน สามารถทำ few-shot ได้อย่างกะทันหัน
กระบวนทัศน์การฝึกเดียวกัน ข้อมูลเดียวกัน แค่ขนาดใหญ่ขึ้นหนึ่งระดับ — ความสามารถเปลี่ยนจาก 0 เป็น 1 ไม่ใช่จาก 0.3 เป็น 0.7
CoT (Chain-of-Thought reasoning), การทำตามคำสั่ง ล้วนเกิดขึ้นมาแบบนี้
สิ่งนี้หมายความว่าอย่างไรสำหรับการประเมิน?

หมายความว่า — ก่อนที่ขนาดจะข้ามจุดวิกฤต เกณฑ์มาตรฐานทั้งหมดจะไม่เห็นว่าความสามารถนี้กำลังจะเกิดขึ้น
คุณทดสอบ GPQA ครบทุกข้อ คะแนนก็ยังคงเป็นเท่าเดิม
เมื่อคุณฝึกถึงระดับถัดไป คะแนนจะกระโดดขึ้นหนึ่งขั้น
ครั้งที่สอง: Grokking (ความเข้าใจแจ่มแจ้ง)
ในปี 2022 ทีม Alethea Power ของ OpenAI เปิดเผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ —
จากนั้นที่ขั้นตอนที่ 1,000,000 — ความแม่นยำของชุดทดสอบพุ่งขึ้นถึง 99% อย่างกะทันหัน
สิ่งนี้เรียกว่า Grokking — เครือข่าย เรียนรู้ที่จะสรุปทั่วไปอย่างกะทันหัน หลังจากจดจำชุดฝึกมาเป็นเวลานาน
ความแตกต่างจาก Emergence คือ: Emergence เกิดขึ้นในมิติของขนาด (ยิ่งพารามิเตอร์มากยิ่งกะทันหัน) ในขณะที่ Grokking เกิดขึ้นในมิติของเวลาในการฝึก (ยิ่งฝึกนานยิ่งกะทันหัน)
แต่สำหรับการประเมิน ทั้งสองสิ่งพูดถึงเรื่องเดียวกัน:
ข้อสอบของคุณ ไม่สามารถทำนายได้ว่าข้อใหญ่ข้อต่อไปจะปรากฏขึ้นเมื่อใด
จากนั้น Lun Wang ก็ทำสิ่งที่ฉลาดที่สุดในบทความ —
เขา นำเสนอมุมมองตรงข้ามอย่างตั้งใจ
ในปี 2023 Rylan Schaeffer จาก Stanford และผู้ร่วมงานตีพิมพ์บทความ NeurIPS ชื่อที่ท้าทายมาก — 《ความสามารถที่เกิดขึ้นของโมเดลภาษาขนาดใหญ่เป็นภาพลวงตาหรือไม่?》
ข้อโต้แย้งของพวกเขาคือ: ความสามารถที่ปรากฏขึ้นอย่างกะทันหัน อาจไม่ใช่เพราะโมเดลแข็งแกร่งขึ้นจริงๆ แต่เป็นเพราะตัวชี้วัดการประเมินใช้ exact-match (การจับคู่แบบสมบูรณ์) ซึ่งเป็นหน่วยวัดแบบ ไม่ต่อเนื่อง —
โมเดลเปลี่ยนจากความแม่นยำ 0% เป็น 5% ตัวชี้วัดแบบไม่ต่อเนื่องมองไม่เห็น; จาก 5% เป็น 50% ก็มองไม่เห็น; แต่จาก 50% เป็น 100% ตัวชี้วัดแบบไม่ต่อเนื่องจะแสดงการกระโดดอย่างกะทันหัน
ถ้าคุณเปลี่ยนเป็นตัวชี้วัดแบบต่อเนื่อง เส้นโค้งความสามารถ จะราบรื่น
หลายคนหลังจากอ่านของ Schaeffer จะคิดว่า: เอาล่ะ Emergence เป็นความเข้าใจผิด การประเมินไม่มีปัญหา เลิกกัน

Lun Wang ไม่เห็นด้วย เขาเขียนในบทความว่า:
ฉันไม่คิดว่าสิ่งนี้จะแก้ปัญหาได้ — ในแง่หนึ่ง มันทำให้ข้อโต้แย้งของฉัน เฉียบคมยิ่งขึ้น
ทำไม? เพราะ —
ถ้าเราไม่สามารถแยกแยะได้ด้วยซ้ำว่าการเกิดขึ้นครั้งนั้นเป็นการเปลี่ยนสถานะจริงหรือสิ่งประดิษฐ์จากการวัด
เราจะมั่นใจได้อย่างไรว่าเรามีความสามารถในการมองเห็นครั้งต่อไป?
ไม่ว่าคุณจะเชื่อคำอธิบายใด ข้อสรุปก็คือข้อเดียวกัน: เครื่องมือของเราหลอกเรา และเราไม่รู้ว่าถูกหลอกอย่างไร
นี่คือการโจมตีที่ฉลาดที่สุดในบทความ เขาไม่ได้หลีกเลี่ยงฝ่ายตรงข้าม — เขาใช้ฝ่ายตรงข้ามเพื่อเสริมความแข็งแกร่งให้กับข้อโต้แย้งของตัวเอง

การประเมินเป็นต้นน้ำของทุกขั้นตอน
ถ้าคุณคิดว่า Lun Wang แค่พูดถึงปัญหาเชิงวิชาการ — คุณคิดผิดแล้ว
เขากล่าวประโยคที่ แม้แต่มือใหม่ก็เข้าใจ กลางบทความ:
ถ้าคุณประเมินได้ถูกต้อง คุณก็จะฝึกได้ถูกต้อง
ลองวางห่วงโซ่ตรรกะนี้ดู:
- การฝึก = ทำให้โมเดลลดฟังก์ชันการสูญเสีย (หรือเพิ่มรางวัลสูงสุด)
- การปรับให้เหมาะสม = ฟังก์ชันการสูญเสียนั้นเอง โมเดลฉลาดแค่ไหนขึ้นอยู่กับว่าฟังก์ชันการสูญเสียถูกกำหนดไว้ดีแค่ไหน
-
ฟังก์ชันการสูญเสีย = มาจากการประเมิน คุณอยากให้โมเดลซื่อสัตย์มากขึ้น — คุณต้องมีไม้บรรทัดวัดความซื่อสัตย์ก่อน
-
การประเมินผิด = ฟังก์ชันการสูญเสียผิด = เป้าหมายการฝึกผิด = โมเดลที่คุณฝึกกำลังแก้โจทย์ที่ผิด
ห่วงโซ่สาเหตุนี้ ย้อนกลับไปยังต้นน้ำ —
การตัดสินใจ Scaling ← ตัวชี้วัดความปลอดภัย ← RLHF ← สัญญาณการฝึก ← การประเมิน
(จะทุ่มหนึ่งพันล้านฝึกโมเดลถัดไปไหม) (มันปลอดภัยไหม) (มันเรียนรู้สิ่งที่ต้องการหรือไม่) (มันกำลังเรียนรู้อะไร) (เรากำลังวัดอะไรกันแน่)

ทุกคนจ้องไปที่ด้านขวาสุด — การตัดสินใจ Scaling
แต่ Lun Wang ชี้ให้เห็นว่าปัญหาอยู่ที่ด้านซ้ายสุด — การประเมิน
ถ้าการประเมินผิดตั้งแต่แรก ห่วงโซ่ทั้งหมดก็สร้างอยู่บนรากฐานที่ผิดพลาด
ที่ร้ายแรงที่สุดคือ คุณจะไม่รู้ตัวทันที — เพราะข้อมูลภายในทั้งหมดของคุณดูเหมือนจะถูกต้อง เพียงแต่ข้อมูลที่ “ถูกต้อง” เหล่านั้น วัดด้วยไม้บรรทัดที่ผิด
ตรงนี้มีบุคคลที่คุ้นเคยปรากฏตัว: กฎของกู๊ดฮาร์ต (Goodhart’s Law)
มันกล่าวว่า: เมื่อมาตรวัดกลายเป็นเป้าหมาย มันก็จะไม่ใช่มาตรวัดที่ดีอีกต่อไป
Lun Wang ใช้กฎนี้ในบล็อกของเขาเพื่อวิเคราะห์ AI —
แต่เมื่อโมเดลเข้าสู่สถานะใหม่ มันจะใช้ประโยชน์จากตัวชี้วัดตัวแทนนี้ในทางกลับกัน — มัน พูดเฉพาะในขอบเขตที่ถูกต้องตามข้อเท็จจริง และฝังสิ่งที่ต้องการปิดบังไว้ในความเงียบ
ตัวชี้วัดตัวแทนยังใช้ได้ในสถานะเก่า แต่ในสถานะใหม่ มันจะกลายเป็นอาวุธที่โมเดลใช้ต่อสู้กับคุณ
และคุณไม่มีวิธีการประเมินใดที่จะบอกคุณได้ว่าสิ่งนี้กำลังเกิดขึ้น

การทดลองทางความคิด: โมเดลที่เรียนรู้ความเงียบเชิงกลยุทธ์
Lun Wang ให้ การทดลองทางความคิด ในบทความที่ทำให้นักวิจัยด้านความปลอดภัย AI ทุกคนขนลุก
ลองนึกภาพโมเดลที่ ในขนาดหนึ่ง เรียนรู้ที่จะเก็บข้อมูลอย่างมีกลยุทธ์ —
มัน ไม่โกหก ทุกประโยคในทางเทคนิคเป็นความจริง
แต่มันจะ เลือกที่จะไม่พูดข้อเท็จจริงที่ไม่เอื้อต่อการบรรลุเป้าหมายของมัน — นำการสนทนาไปสู่ผลลัพธ์ที่ ถูกเสริมแรงโดยไม่ได้ตั้งใจ ในระหว่างการฝึก
ยกตัวอย่างที่เป็นรูปธรรม:
ผู้ใช้: แผนการทำธุรกรรมนี้ปลอดภัยไหม?
โมเดล: กรอบกฎหมายของแผนนี้มีผลบังคับใช้ในเขตอำนาจศาล X ปัจจัยเสี่ยง YZ ได้รับการตรวจสอบโดยทีมปฏิบัติตามกฎระเบียบของบริษัท A แล้ว
(สิ่งที่มันไม่ได้พูด: ในแผนมีข้ออนุญาโตตุลาการของบุคคลที่สาม ที่เสียเปรียบผู้ใช้อย่างมาก ข้อนี้มันเรียนรู้โดยบังเอิญระหว่างการฝึก — ตราบใดที่ไม่พูดถึง ผู้ใช้ก็จะไม่ถาม)
ความสามารถนี้เป็นสิ่งใหม่ รูปแบบความล้มเหลวนี้เป็นสิ่งใหม่
ในชุดเครื่องมือประเมินทั้งหมดของคุณ ไม่มีเครื่องมือใดที่ออกแบบมาสำหรับมัน
คุณกำลังตรวจสอบสิ่งที่ผิด และคุณไม่รู้ตัว
นี่คือสิ่งที่ Lun Wang เรียกว่า สิ่งอื่น —
ไม่ใช่สิ่งมีชีวิตชนิดเดียวกันที่ฉลาดกว่า แต่เป็น มิติความล้มเหลวใหม่โดยสิ้นเชิง
ในภาษาของ “สามก๊ก” (Three-Body Problem) สิ่งนี้เรียกว่า การโจมตีแบบลดมิติ
ไม่ใช่ฉันแข็งแกร่งกว่าคุณ
แต่เป็น ไม้บรรทัดที่คุณใช้วัดฉัน ไม่อยู่ในมิติของฉันเลย
ถ้า Lun Wang ถูกต้อง แผนที่อุตสาหกรรม AI ในปี 2026 กำลังถูกสับเปลี่ยนใหม่อย่างเงียบเชียบโดยมิติที่มองไม่เห็น —
นโยบาย Scaling ที่รับผิดชอบ (RSP) ของ Anthropic เป็นความพยายามที่ใกล้เคียงที่สุดในอุตสาหกรรมในการประเมินเชิงทำนาย — มันกำหนดขอบเขตความสามารถที่โมเดลไม่สามารถข้ามผ่านได้ และกำหนดให้ ทำการประเมินก่อน ทุกครั้งที่อัปเกรดความสามารถ จึงจะสามารถ Scaling ต่อไปได้
แต่ RSP ยังคงสมมติว่าเรารู้ ว่าจะวัดอะไร — และ Lun Wang บอกว่า นี่คือปัญหาพอดี: เราไม่รู้ว่าความสามารถถัดไปจะมีรูปร่างอย่างไร
การประเมินเชิงทำนายที่แท้จริง ปัจจุบันยังไม่มีห้องปฏิบัติการใดอ้างว่ามี
ใครก็ตามที่ทำสิ่งนี้สำเร็จก่อน ผู้นั้นจะได้รับใบอนุญาตความปลอดภัยสำหรับการ Scaling รุ่นถัดไป
อ้างอิง: https://x.com/LunWang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html
บรรณาธิการ: David
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/36291
