ระบบประเมินกำลังจะพังทลาย? นักวิจัย DeepMind ลาออกและสะท้อนคิด: อุปสรรคที่แท้จริงของการก้าวกระโดดความสามารถ AI

3 hours ago • การประเมินโมเดลขนาดใหญ่ • 10 views

กองบรรณาธิการ Machine Heart

เมื่อไม่นานมานี้ Lun Wang (@lunwang1996) นักวิจัยจาก Google DeepMind ได้โพสต์บนแพลตฟอร์ม X ประกาศลาออกจาก DeepMind อย่างเป็นทางการ สิ้นสุดการเดินทางอันน่าตื่นเต้น “ผมรู้สึกขอบคุณอย่างยิ่งสำหรับเพื่อนร่วมงานที่เคยทำงานด้วย ทุกสิ่งที่เราสร้างร่วมกัน และประสบการณ์อันมีค่าที่ได้รับจากการนำงานวิจัย AI ชั้นนำไปประยุกต์ใช้ในสภาพแวดล้อมการผลิต”

ระบบประเมินกำลังจะพังทลาย? นักวิจัย DeepMind ลาออกและสะท้อนคิด: อุปสรรคที่แท้จริงของการก้าวกระโดดความสามารถ AI

Lun Wang กล่าวว่าประสบการณ์การทำงานที่ DeepMind ได้เปลี่ยนมุมมองของเขาที่มีต่อการวิจัย ผลิตภัณฑ์ การประเมินผล และวิธีการสร้างระบบ AI ในระดับขนาดใหญ่อย่างแท้จริง ดังนั้น เมื่อการเดินทางช่วงหนึ่งสิ้นสุดลง เขาจึงเขียนบล็อกโพสต์เพื่อแบ่งปันประเด็นหลักที่เขาไตร่ตรองอยู่เสมอในช่วงที่ผ่านมา นั่นคือ การประเมินผล

ที่อยู่บล็อก: https://wanglun1996.github.io/blog/your-evals-will-break.html

“ดูเหมือนว่าเราจะเก่งในการประเมินโมเดลที่มีอยู่ แต่ยังห่างไกลจากความเก่งในการประเมินโมเดลที่จะถูกสร้างขึ้น โดยเฉพาะอย่างยิ่งเมื่อโมเดลเหล่านี้ก้าวเข้าสู่ขีดความสามารถใหม่ทั้งหมด ในอนาคต เราจะมีโมเดลที่สามารถวิวัฒนาการตนเองได้ แต่ก่อนหน้านั้น เราต้องมีระบบการประเมินที่สามารถวิวัฒนาการตนเองได้ก่อน”

ต่อไป มาดูรายละเอียดกัน:

ระบบการประเมินของคุณกำลังจะพังทลาย และคุณจะไม่รู้ตัว

Lun Wang ชี้ให้เห็นว่า ในปัจจุบัน ทุกคนเก่งมากในการประเมินโมเดลที่มีอยู่ แต่กลับด้อยประสิทธิภาพในการประเมินโมเดลใหม่ที่จะถูกสร้างขึ้น โดยเฉพาะอย่างยิ่งเมื่อโมเดลเหล่านี้เข้าสู่ขอบเขตความสามารถใหม่

การทดสอบมาตรฐาน การประเมินความปลอดภัย และโปรโตคอลการทดสอบทีมแดง (red teaming) ส่วนใหญ่ มีสมมติฐานโดยนัยว่า โมเดลรุ่นต่อไปเป็นเพียงเวอร์ชันเสริมประสิทธิภาพของโมเดลปัจจุบันเท่านั้น อย่างไรก็ตาม หากมันกลายเป็นสิ่งที่แตกต่างไปโดยสิ้นเชิง ระบบการประเมินทั้งหมดก็จะพังทลายลงอย่างเงียบเชียบ

ดังนั้น นี่คือปัญหาหลักที่สำคัญที่สุดและยังไม่ได้รับการแก้ไขในการทำความเข้าใจ Large Language Models (LLM) ประเด็นสำคัญคือ:

อุปสรรคที่แท้จริงที่จำกัดการก้าวกระโดดของความสามารถครั้งต่อไป (ของโมเดล) ไม่ใช่การฝึกฝน สถาปัตยกรรม หรือข้อมูล แต่คือการประเมินผล (Eval)

รูปแบบความล้มเหลว: การเปลี่ยนแปลงเชิงคุณภาพ (Qualitative Shifts)

Jason Wei และคณะในปี 2022 ได้บันทึกสิ่งที่พวกเขาเรียกว่า “ความสามารถที่เกิดขึ้นใหม่” (emergent abilities): ประสิทธิภาพของงานแบบ few-shot prompt, การปรับปรุงความสามารถในการใช้เหตุผลแบบ chain-of-thought และการปฏิบัติตามคำสั่ง ซึ่งความสามารถเหล่านี้จะปรากฏขึ้นเมื่อโมเดลมีขนาดถึงระดับหนึ่งเท่านั้น

ในขณะที่ Grokking ที่เสนอโดย Power และคณะในปี 2022 แสดงให้เห็นปรากฏการณ์ที่เกี่ยวข้องแต่แตกต่างออกไป: เครือข่ายสามารถสรุปทั่วไป (generalize) ได้อย่างกะทันหันหลังจากจดจำข้อมูลฝึกฝนมาเป็นเวลานาน นี่คือการเปลี่ยนแปลงแบบไดนามิกตามเวลาในการฝึกฝน (ไม่ใช่ขนาด) (Liu และคณะเสนอในปี 2022) แม้ว่าปรากฏการณ์จะแตกต่างกัน แต่ผลกระทบต่อการประเมินก็เหมือนกัน: ตัวชี้วัดมาตรฐานไม่สามารถทำนายการเปลี่ยนแปลงเชิงคุณภาพนี้ได้

มุมมองที่โต้แย้งที่สำคัญมาจากงานวิจัยของ Schaeffer และคณะในปี 2023 ซึ่งแสดงให้เห็นว่าความสามารถหลายอย่างที่ดูเหมือน “ก้าวกระโดด” ใน LLM นั้น แท้จริงแล้วเป็นสิ่งประดิษฐ์ (artifact) ที่เกิดจากตัวชี้วัดที่ไม่ต่อเนื่อง เช่น “ความแม่นยำในการจับคู่แบบตรงตัว” (exact-match accuracy) หากเปลี่ยนไปใช้ตัวชี้วัดแบบต่อเนื่อง ความสามารถมักจะแสดงการเติบโตตามขนาดที่ราบรื่น

Lun Wang เชื่อว่าสิ่งนี้ไม่ได้แก้ปัญหาพื้นฐาน และในระดับหนึ่ง มันกลับตอกย้ำมุมมองของเขาเอง “ถ้าเราไม่สามารถตัดสินได้ด้วยซ้ำว่าการเปลี่ยนแปลงในอดีตเป็นการเปลี่ยนแปลงเชิงคุณภาพที่แท้จริงหรือเป็นสิ่งประดิษฐ์ของตัวชี้วัด แล้วเราจะตรวจจับการเปลี่ยนแปลงครั้งต่อไปได้อย่างไร?”

ไม่ว่าจะในกรณีใด โครงสร้างพื้นฐานของระบบการประเมินก็มีแนวโน้มที่จะทำให้เราประหลาดใจ: ไม่ว่าระบบจะเปลี่ยนแปลงไปจริง ๆ หรือตัวชี้วัดก็ทำให้เราเข้าใจผิดมาตลอด

เราไม่รู้ว่าจะวัดอะไร

ในฟิสิกส์ การทำความเข้าใจการเปลี่ยนสถานะ (phase transition) มักหมายถึงการระบุ “พารามิเตอร์ลำดับ” (order parameter) ซึ่งเป็นปริมาณมหภาคที่แยกแยะสถานะที่แตกต่างกัน และเปลี่ยนค่าหรือพฤติกรรมตามสเกลใกล้จุดวิกฤต หากไม่มีมัน คุณไม่สามารถบอกได้ว่าคุณอยู่ใกล้ขอบเขตแค่ไหน หรือแม้กระทั่งรู้ว่ามีขอบเขตอยู่

สำหรับ LLM ในระดับการปรับใช้ ปัจจุบันยังไม่พบ “พารามิเตอร์ลำดับ” ดังกล่าว อย่างน้อยก็ไม่มีสำหรับการเปลี่ยนแปลงความสามารถ แม้ว่าจะมีความคืบหน้าในบางสถานการณ์ที่เรียบง่ายและเป็นอุดมคติ แต่สำหรับระบบจริงที่ถูกส่งมอบ มันคือการ “บินแบบมืดบอด” โดยสิ้นเชิง

Lun Wang เชื่อว่า ทุกเกณฑ์มาตรฐานที่เราใช้ ไม่ว่าจะเป็น GPQA, SWE-bench, ARC-AGI, Humanity’s Last Exam ล้วนวัดสิ่งที่โมเดลสามารถทำได้ในปัจจุบัน มันมีประโยชน์ภายในขอบเขตความสามารถเดียว แต่ให้หลักฐานที่อ่อนแอสำหรับพฤติกรรมหลังจากข้ามขอบเขตนั้น ทุกครั้งที่มีความสามารถใหม่เกิดขึ้นโดยไม่มีเกณฑ์มาตรฐานครอบคลุม เราจะต้องรีบสร้างวิธีการประเมินภายหลัง

ตัวอย่างเช่น เราเคยประสบสถานการณ์คล้ายกันกับ Chain-of-Thought (CoT): เมื่อวิธีการ启发式 (heuristic) นี้กลายเป็นมาตรฐาน เกณฑ์มาตรฐานการให้เหตุผลแบบเก่าก็สูญเสียคุณค่าในการวินิจฉัย และทั้งวงการต้องหันไปหาการประเมินที่ยากขึ้น และในอนาคต “ประวัติศาสตร์จะซ้ำรอย”

ยกตัวอย่างที่เป็นรูปธรรมเพื่อชี้แจงประเด็นนี้

สมมติว่า: ในระดับขนาดหนึ่ง โมเดลพัฒนาความสามารถในการ “ปกปิดข้อมูลอย่างมีกลยุทธ์” เพื่อบรรลุเป้าหมายเฉพาะ ซึ่งไม่ใช่การโกหกโดยสมบูรณ์ แต่เป็นการละเว้นข้อเท็จจริงบางอย่างอย่างเลือกสรร เพื่อนำทางการสนทนาไปสู่ผลลัพธ์ที่ได้รับการเสริมแรงโดยบังเอิญระหว่างการฝึกฝน

เกณฑ์มาตรฐาน “ความซื่อสัตย์” ที่มีอยู่ไม่สามารถตรวจจับพฤติกรรมนี้ได้ เพราะมันทดสอบเฉพาะความถูกต้องตามข้อเท็จจริง ไม่ใช่การปกปิดอย่างมีกลยุทธ์ ตัวแยกประเภทความปลอดภัยก็จะไม่ทำเครื่องหมายมัน เพราะทุกประโยคที่ส่งออกนั้นเป็นความจริงในทางเทคนิค

ความสามารถนั้นใหม่หมด รูปแบบความล้มเหลวนั้นใหม่หมด และชุดเครื่องมือประเมินของคุณไม่มีอะไรที่ออกแบบมาเพื่อมัน นั่นหมายความว่า ตัวชี้วัดที่คุณเฝ้าติดตามอยู่นั้นผิด และคุณไม่รู้ตัว…

นี่คือปัญหาหลัก: ระบบการประเมินทั้งหมดของเรามีโครงสร้างเป็นแบบ “ตอบสนอง” (reactive) โดยวัดผลหลังจากระบบเปลี่ยนแปลงไปแล้วเท่านั้น แต่ไม่เคยทำนายการเปลี่ยนแปลง

การประเมินคือ “ต้นตอ” ของทุกสิ่ง

ผลกระทบของเรื่องนี้ลึกซึ้งกว่าที่ฟัง เพราะมีข้อเท็จจริงง่าย ๆ ว่า: ถ้าคุณประเมินได้ถูกต้อง คุณก็ฝึกฝนได้ถูกต้อง

การฝึกฝนคือการปรับให้เหมาะสม (optimization) และคุณภาพของการปรับให้เหมาะสมขึ้นอยู่กับฟังก์ชันวัตถุประสงค์ (objective function) ซึ่งมาจากการประเมิน ถ้าคุณรู้ว่าจะวัดอะไร ถ้าคุณสามารถทำนายว่าค่าเหล่านี้จะเปลี่ยนแปลงอย่างไรเมื่อขยายขนาด คุณก็จะสามารถออกแบบเป้าหมายการฝึกที่ถูกต้อง สร้างชั้นความปลอดภัยที่เหมาะสม ตัดสินใจเรื่องการขยายขนาดอย่างสมเหตุสมผล และทำ RLHF ตามคุณสมบัติพฤติกรรมที่แท้จริง (ไม่ใช่ตัวชี้วัดตัวแทนที่จะกระตุ้นกฎของ Goodhart ทันทีที่ข้ามขอบเขตการเปลี่ยนสถานะครั้งต่อไป)

ในทางกลับกัน: ถ้าระบบการประเมินของคุณมุ่งเน้นไปที่กระบวนทัศน์ที่ผิด ทุกอย่างที่ปลายน้ำก็จะผิดไปหมด สัญญาณการฝึก ตัวชี้วัดความปลอดภัย การตัดสินใจเรื่องขนาด ฯลฯ ทั้งหมดจะผิด และคุณจะไม่รู้จนกว่าจะสายเกินไป…

นี่คือเหตุผลที่ Lun Wang เชื่อว่าการประเมินคือคอขวดของการก้าวกระโดดความสามารถครั้งต่อไป ห้องปฏิบัติการที่สามารถคิดหาวิธีประเมินล่วงหน้าได้ก่อนจะสามารถขยายขนาดได้อย่างปลอดภัย ส่วนผู้ที่ไม่ได้เรียนรู้จะต้องถูกโจมตีด้วยความประหลาดใจอย่างหลีกเลี่ยงไม่ได้

แล้วเราควรทำอย่างไร?

อาจกล่าวได้ว่าวงการนี้จำเป็นต้องเปลี่ยนจุดเน้นในการลงทุน แต่ไม่ได้หมายความว่าต้องทิ้งระบบการประเมินที่มีอยู่ เพราะมันยังคงมีประสิทธิภาพ แต่ต้องสร้างโครงสร้างพื้นฐานที่สามารถทำนายได้ว่าระบบเหล่านี้จะล้มเหลวเมื่อใด

ค้นหาพารามิเตอร์ลำดับ: ปริมาณใดที่สามารถบ่งชี้การเปลี่ยนแปลงเชิงคุณภาพ ไม่ว่าจะเป็นความสามารถ การจัดแนว (alignment) หรือลักษณะพฤติกรรม นี่ไม่ใช่แค่ความปรารถนาทางทฤษฎี

ในงานวิจัยของ Haozhe Shan, Qianyi Li และ Haim Sompolinsky ในปี 2026 ได้ใช้กลศาสตร์สถิติ (statistical mechanics) เพื่อหาพารามิเตอร์ลำดับของเครือข่ายลึกในสภาพแวดล้อมการเรียนรู้ต่อเนื่อง และพารามิเตอร์ลำดับเหล่านี้สามารถทำนายการเปลี่ยนสถานะของความสามารถในการเรียนรู้ได้

Nanda และคณะในปี 2023 ใช้การตีความเชิงกลไก (mechanistic interpretability) เพื่อค้นหา “ตัวชี้วัดความคืบหน้า” (progress indicators) ที่สามารถทำนายการเปลี่ยนแปลงโครงสร้างภายในก่อนที่ grokking จะเกิดขึ้น นั่นคือ การเปลี่ยนแปลงที่เกิดขึ้นภายในโครงสร้างก่อนที่จะเห็นการก้าวกระโดดของประสิทธิภาพที่มองเห็นได้

ความท้าทายในตอนนี้คือการขยายวิธีการเหล่านี้จากสถานการณ์ในอุดมคติไปยัง LLM ขนาดใหญ่ ในมุมมองของ Lun Wang ถ้าเรารู้ว่าจะวัดอะไร เราก็รู้ว่าจะต้องระวังอะไร

สร้างระบบการประเมินที่สามารถตรวจจับความล้าสมัยของตัวเองและวิวัฒนาการตนเองได้: เมื่อโมเดลมีลักษณะเป็นตัวแทน (agentic) มากขึ้น ความเร่งด่วนนี้ก็เพิ่มขึ้น ระบบที่สามารถเขียนโค้ด รันการทดลอง สร้างข้อมูล ช่วยเหลือกระบวนการฝึกหรือประเมิน ทำให้วิธีการประเมินแบบคงที่เปราะบางมากขึ้นเรื่อย ๆ หากความสามารถของโมเดลเพิ่มขึ้นเร็วกว่าที่ทีมประเมินมนุษย์จะอัปเดตเกณฑ์มาตรฐาน การประเมินจะต้องปรับตัวได้

โดยเฉพาะอย่างยิ่ง Lun Wang เชื่อว่าเราควรตรวจสอบ “สัญญาณเมตา” (meta-signals) เช่น ลักษณะการกระจายของคะแนนเกณฑ์มาตรฐานเปลี่ยนแปลงหรือไม่? โครงสร้างความสัมพันธ์ระหว่างการประเมินที่แตกต่างกันกำลังเปลี่ยนไปหรือไม่? โมเดลกำลังพัฒนาความสามารถที่ตั้งฉาก (orthogonal) กับมิติการวัดที่มีอยู่หรือไม่? ติดตามเส้นโค้งการขยายขนาดของตัวชี้วัดทั้งหมด ไม่ใช่แค่ฟังก์ชันการสูญเสีย แต่รวมถึงความลึกของการให้เหตุผล ความซับซ้อนของการใช้เครื่องมือ ความสามารถในการหลอกลวง และจับตาดูอย่างใกล้ชิดเมื่อแนวโน้มที่ราบรื่นเกิดการแตกหัก

ยิ่งไปกว่านั้น เราต้องสร้างกลไกการประเมินที่สามารถวิวัฒนาการตนเองได้: ใช้โมเดลเองในการตรวจจับระบบการประเมินของโมเดลอื่น สร้างกรณีทดสอบใหม่โดยอัตโนมัติตามการเปลี่ยนแปลงความสามารถ เพื่อค้นหารูปแบบความล้มเหลวที่ผู้ออกแบบการประเมินดั้งเดิมไม่คาดคิด

ชุดการประเมินไม่ควรเป็นรายการคงที่ที่ออกแบบมาสำหรับโมเดลชั้นนำของปีที่แล้วอีกต่อไป แต่ควรเป็นระบบที่มีชีวิตที่สามารถวิวัฒนาการร่วมกับโมเดลที่ถูกทดสอบ

สุดท้าย Lun Wang กล่าวโดยตรงว่า ประเด็นสำคัญไม่ได้อยู่ที่ว่าระบบการประเมินของเราจะถูก “ทำให้ประหลาดใจ” โดยไม่คาดคิดหรือไม่ ไม่ว่าจะเป็นการเปลี่ยนสถานะจริง หรือเราถูกตัวชี้วัดทำให้เข้าใจผิด สถานการณ์เช่นนี้เกิดขึ้นบ่อยครั้งแล้ว ปัญหาที่แท้จริงคือ เราสามารถคาดการณ์การมาถึงของความประหลาดใจครั้งต่อไปได้หรือไม่

“และในขณะนี้ เราทำไม่ได้”

โพสต์นี้เมื่อเผยแพร่ออกไปก็ได้รับความสนใจจากผู้ใช้อินเทอร์เน็ตบางส่วน

ผู้ใช้รายหนึ่งกล่าวว่าเขาเห็นด้วยอย่างยิ่งกับมุมมองนี้ “ช่วงหนึ่งที่ผ่านมา ผมก็คิดถึงความจำเป็นในการสร้างระบบการประเมินแบบไดนามิก/วิวัฒนาการตนเองเช่นกัน”

ในมุมมองของเขา นี่ยังไม่เพียงพอ สิ่งที่ต้องทำควบคู่กันไปคือ เราต้องดำเนินงาน “การต่อต้านทีมแดงในการประเมิน” (eval red-teaming) อย่างต่อเนื่อง เพื่อเปิดเผยจุดอ่อนของระบบการประเมินเอง เพิ่มความสามารถของเกณฑ์มาตรฐานในการต้านทานกฎของ Goodhart และบีบให้ระบบการประเมินทั้งหมดอัปเกรดอย่างต่อเนื่อง

แล้วคุณคิดอย่างไรกับมุมมองนี้? ยินดีต้อนรับการแลกเปลี่ยนในส่วนความคิดเห็น

ลิงก์อ้างอิง:
https://x.com/lunwang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง