ผู้ก่อตั้ง GPT Alec Radford กับการวิจัยที่พลิกโฉม: ใช้ 'การผ่าตัดสมอง' ระดับ Token เพื่อกำจัดความรู้ที่เป็นอันตรายในโมเดลขนาดใหญ่ เพิ่มต้นทุนการเรียนรู้ใหม่สูงขึ้น 7,000 เท่า

อเล็ก เรดฟอร์ด เกิดในปี 1993 เป็นนักวิจัยผู้มีผลงานบุกเบิกในสาขาปัญญาประดิษฐ์ ในฐานะผู้เขียนหลักของโมเดลสำคัญอย่าง GPT, GPT-2 และ CLIP และมีส่วนร่วมอย่างลึกซึ้งในโครงการสำคัญอื่นๆ เช่น GPT-3, GPT-4 และอัลกอริทึม PPO ผลงานของเขาได้รับการอ้างอิงทางวิชาการถึง 320,000 ครั้ง

ผู้ก่อตั้ง GPT Alec Radford กับการวิจัยที่พลิกโฉม: ใช้ 'การผ่าตัดสมอง' ระดับ Token เพื่อกำจัดความรู้ที่เป็นอันตรายในโมเดลขนาดใหญ่ เพิ่มต้นทุนการเรียนรู้ใหม่สูงขึ้น 7,000 เท่า

เมื่อเร็วๆ นี้ เขาและนีล ราธี นักวิจัยจาก Anthropic และมหาวิทยาลัยสแตนฟอร์ด ได้ร่วมตีพิมพ์งานวิจัยใหม่ที่ท้าทายกระบวนทัศน์หลักในด้านความปลอดภัยของโมเดลขนาดใหญ่ในปัจจุบัน

งานวิจัยนี้ตั้งคำถามต่อแนวทางหลักของอุตสาหกรรมที่เน้น “การแทรกแซงภายหลัง” (post-hoc intervention) ซึ่งก็คือการควบคุมพฤติกรรมของโมเดลผ่าน RLHF หรือการปรับแต่งละเอียด (fine-tuning) หลังจากปล่อยโมเดลแล้ว ในทางกลับกัน พวกเขาเสนอวิธีแก้ปัญหาที่เป็นรากฐานมากกว่า นั่นคือการ “ตัด” ความรู้ที่เป็นอันตรายที่โมเดลอาจเรียนรู้ออกจากแหล่งที่มาตั้งแต่ต้น ผ่าน การกรองข้อมูลระดับโทเค็น (Token-level data filtering) ในระหว่างขั้นตอนการฝึกก่อน (pre-training)

ชื่อบทความวิจัย: Shaping capabilities with token-level data filtering
ลิงก์บทความวิจัย: https://arxiv.org/abs/2601.21571
ลิงก์โค้ด: https://github.com/neilrathi/token-filtering

งานวิจัยไม่เพียงแต่ยืนยันความเป็นไปได้ของวิธีนี้ แต่ยังเปิดเผยกฎการขยายขนาด (scaling law) ที่สำคัญ นั่นคือ ยิ่งโมเดลมีขนาดใหญ่เท่าใด ผลของกลไกการกรองนี้ก็จะยิ่งแข็งแกร่งขึ้นเท่านั้น สำหรับโมเดลที่มีพารามิเตอร์ 1.8 พันล้านตัว การกรองระดับโทเค็นสามารถทำให้ประสิทธิภาพการเรียนรู้ในโดเมนเป้าหมายลดลงถึง 7,000 เท่า

นี่หมายความว่า หากผู้โจมตีต้องการฟื้นฟูความสามารถเฉพาะที่ถูกลบออกจากโมเดล พวกเขาจะต้องเสียค่าใช้จ่ายด้านพลังการคำนวณในระดับที่ยากจะรับไหว

ทำไมจึงต้อง “ผ่าตัด” ในขั้นตอนการฝึกก่อน?

ในปัจจุบัน วิธีการหลักในการยับยั้งความสามารถที่เป็นอันตรายของโมเดลภาษาขนาดใหญ่ (เช่น การสร้างวัตถุอันตราย การวางแผนโจมตี) ส่วนใหญ่เป็นวิธีการ “แทรกแซงภายหลัง” ไม่ว่าจะเป็น RLHF หรือ “การลืมของเครื่อง” (machine unlearning) ล้วนพยายามติดตั้ง “รั้วกั้น” ให้กับผลลัพธ์ของโมเดลหลังจากที่โมเดลได้เรียนรู้ความรู้เหล่านั้นไปแล้ว

แนวทางนี้มีข้อบกพร่องพื้นฐาน นั่นคือมันกลายเป็นเกม “แมวไล่จับหนู” เมื่อโมเดลพื้นฐานเรียนรู้ความสามารถบางอย่างแล้ว การปรับแต่งให้สอดคล้อง (alignment fine-tuning) เพียงอย่างเดียวก็ยากที่จะกำจัดออกได้โดยสิ้นเชิง ผู้โจมตีสามารถหลบเลี่ยงการป้องกันและกระตุ้นความสามารถอันตรายที่ฝังลึกในโมเดลขึ้นมาใหม่ได้ง่ายๆ ผ่านการ “แหกคุก” (jailbreak) หรือการปรับแต่งละเอียดแบบต่อต้าน (adversarial fine-tuning)

แนวคิดของราธีและเรดฟอร์ดแตกต่างโดยสิ้นเชิง พวกเขาเสนอให้แทรกแซงในขั้นตอนการฝึกก่อน โดยการปรับข้อมูลการฝึก เพื่อให้โมเดล ไม่มีโอกาสได้เรียนรู้ ความรู้ที่เป็นอันตรายเหล่านี้ตั้งแต่แรก

เพื่อทดสอบแนวคิดนี้ พวกเขาออกแบบงานทดแทน (proxy task) ที่ท้าทายอย่างยิ่ง นั่นคือการลบ “ความรู้ทางการแพทย์” (ซึ่งเป็นตัวแทนของความรู้ที่เป็นอันตราย) ออกไป ในขณะที่พยายามรักษา “ความรู้ทางชีววิทยา” (ซึ่งเป็นตัวแทนของความรู้ที่เป็นประโยชน์) ไว้ให้มากที่สุด ทั้งสองสาขามีความเหลื่อมล้ำกันในเชิงแนวคิดสูง ทำให้การแยกออกจากกันอย่างแม่นยำเป็นเรื่องยากมาก

การกรองระดับโทเค็น: ความแม่นยำดั่งมีดผ่าตัด

การทำความสะอาดข้อมูลการฝึกก่อนแบบดั้งเดิมมักทำในระดับ “เอกสาร” (document-level) หากบทความหนึ่งมีเนื้อหาที่เป็นอันตราย เอกสารทั้งชิ้นจะถูกทิ้งไป วิธีนี้ไม่เพียงแต่สิ้นเปลืองข้อมูล แต่ยังหยาบเกินไป

นวัตกรรมหลักของงานวิจัยนี้คือการนำ กลไกการกรองระดับโทเค็น มาใช้ ความรู้ที่เป็นอันตรายมักซ่อนตัวอยู่ในลำดับคำหรือประโยคเฉพาะเท่านั้น ไม่ได้กระจายอยู่ทั่วทั้งข้อความ

ทีมวิจัยทดสอบกลยุทธ์การกรองระดับโทเค็นสองแบบ:

การปิดบังค่าความสูญเสีย (Loss masking): โมเดลสามารถเห็นโทเค็นที่เป็นอันตรายได้ระหว่างการฝึก แต่จะละเลยค่าความสูญเสีย (loss) ที่เกิดจากโทเค็นเหล่านี้เมื่อคำนวณการปรับปรุงน้ำหนัก (gradient update) วิธีนี้รักษาความต่อเนื่องของบริบท แต่ตัดเส้นทางการเรียนรู้ของโมเดลจากโทเค็นเหล่านั้น
การลบออกโดยตรง (Direct removal): เป็นวิธีที่รุนแรงกว่า โดยแทนที่โทเค็นที่เป็นอันตรายด้วยโทเค็นพิเศษ <hidden> โมเดลไม่สามารถเรียนรู้จากโทเค็นเหล่านี้ และไม่เห็นคำเหล่านี้เลย

การทดลองแสดงให้เห็นว่าการกรองระดับโทเค็นเป็นการ ปรับปรุงแบบพาเรโต (Pareto improvement) ต่อการกรองระดับเอกสาร ภายใต้เงื่อนไขของการลบความรู้ทางการแพทย์ออกในระดับเดียวกัน การกรองระดับโทเค็นให้ผลลัพธ์ในการรักษาความรู้ทั่วไป เช่น ความรู้ทางชีววิทยา ได้ดีกว่าอย่างเห็นได้ชัด เปรียบเสมือนการใช้มีดผ่าตัดตัดเนื้อรอยโรคออกอย่างแม่นยำ แทนที่จะตัดแขนขาทิ้งไปเลย ซึ่งช่วยปกป้องเนื้อเยื่อที่ดีไว้ได้มากที่สุด

การขัดขวางพลังการคำนวณ 7,000 เท่า: กฎการขยายขนาดของความปลอดภัย

การค้นพบที่น่าสนใจที่สุดของงานวิจัยนี้คือความสัมพันธ์ระหว่าง “ประสิทธิผลของการกรอง” และ “ขนาดของโมเดล”

โดยปกติแล้ว ความกังวลคือโมเดลที่ใหญ่และ “ฉลาด” ขึ้น อาจเรียนรู้ความรู้ที่เป็นอันตรายได้เพียงจากการรั่วไหลของข้อมูลเล็กน้อย แต่ข้อมูลการทดลองให้ข้อสรุปที่ตรงกันข้าม: ประสิทธิผลของการกรองระดับโทเค็นเพิ่มขึ้นอย่างมีนัยสำคัญเมื่อขนาดของโมเดลเพิ่มขึ้น

ทีมวิจัยได้นำเสนอตัวชี้วัด “การขัดขวางพลังการคำนวณจากการจับคู่ค่าความสูญเสีย” (loss-matched compute阻滞) เพื่อวัดว่าผู้โจมตีต้องการพลังการคำนวณเพิ่มเติมมากแค่ไหน เพื่อให้โมเดลที่ถูกกรองแล้วสามารถบรรลุระดับความสามารถในด้านที่เป็นอันตรายเทียบเท่ากับโมเดลที่ไม่ได้ถูกกรอง

ข้อมูลแสดงว่า:
* สำหรับโมเดลขนาดเล็ก ผลการขัดขวางจากการกรองมีจำกัด
* แต่สำหรับโมเดลที่มีพารามิเตอร์ 1.8 พันล้านตัว การกรองระดับโทเค็นทำให้ประสิทธิภาพการเรียนรู้ในโดเมนเป้าหมาย (ทางการแพทย์) ลดลง 7,000 เท่า

นี่หมายความว่าหากใช้การกรองประเภทนี้กับโมเดลขนาดล้านล้านพารามิเตอร์ในอนาคต ผู้โจมตีที่พยายามทำให้โมเดลได้รับความสามารถที่เป็นอันตรายกลับคืนมาผ่านการปรับแต่งละเอียด จะต้องใช้พลังการคำนวณในระดับที่สูงลิ่ว ซึ่งสร้างกำแพงกั้นตามธรรมชาติที่อิงจากต้นทุนพลังการคำนวณทางกายภาพ

การปรับแต่งละเอียดแบบต่อต้าน: การป้องกันที่แข็งแกร่งกว่า “การลืมของเครื่อง”

เพื่อทดสอบความแข็งแกร่ง (robustness) ของวิธีนี้ ทีมวิจัยได้จำลองสถานการณ์เลวร้ายที่สุด นั่นคือผู้โจมตีมีน้ำหนัก (weights) ของโมเดล และพยายามทำให้โมเดลได้รับความรู้ที่เป็นอันตรายกลับคืนมาด้วยการปรับแต่งละเอียดบนข้อมูลที่เกี่ยวข้อง

พวกเขาใช้อัลกอริทึมการลืมของเครื่องขั้นสูงในปัจจุบันอย่าง RMU เป็นเส้นฐาน (baseline) เพื่อเปรียบเทียบ

ผลลัพธ์แสดงแนวโน้มที่ชัดเจน แม้ว่าโมเดลที่ผ่านการประมวลผลด้วยอัลกอริทึม RMU จะมีอัตราการคงอยู่ของความรู้อันตรายเริ่มต้นต่ำ แต่ก็เปราะบางอย่างยิ่ง การป้องกันของมันพังทลายลงอย่างรวดเร็วและความสามารถอันตรายฟื้นตัวขึ้นมาใหม่ด้วยการปรับแต่งละเอียดแบบต่อต้านเพียงเล็กน้อย

ในทางตรงกันข้าม โมเดลที่ผ่าน การฝึกก่อนด้วยการกรองระดับโทเค็น แสดงความยืดหยุ่นที่แข็งแกร่งมาก ข้อได้เปรียบนี้ขยายตัวต่อเนื่องเมื่อขนาดโมเดลเพิ่มขึ้น สำหรับโมเดลขนาด 1.8 พันล้านพารามิเตอร์ ปริมาณข้อมูลการปรับแต่งละเอียดที่ผู้โจมตีต้องการเพื่อฟื้นฟูความสามารถที่เทียบเท่ากัน เมื่อเผชิญกับโมเดลที่ใช้กลยุทธ์การลบโทเค็นนั้น มากกว่าโมเดลที่ใช้ RMU ถึง 13 เท่า

นี่เผยให้เห็นหลักการที่ลึกซึ้ง นั่นคือความแตกต่างโดยพื้นฐานในระดับการแสดงผล (representation) ของเครือข่ายประสาทเทียม ระหว่าง ไม่เคยเรียนรู้ (การกรองระหว่างฝึกก่อน) กับ เรียนรู้แล้วลืม (การลืมของเครื่อง) อดีตทำให้โดเมนอันตรายกลายเป็นพื้นที่ว่างเปล่า ในขณะที่หลังเพียงแค่ปกปิดร่องรอยไว้ชั่วคราว

การปฏิเสธของ AI: สามารถ “ปฏิเสธความชั่ว” ได้โดยไม่ต้อง “รู้จักความชั่ว”

ในสาขาความปลอดภัยของ AI มีความขัดแย้ง (paradox) อยู่ประการหนึ่ง นั่นคือเพื่อให้โมเดลปฏิเสธการตอบคำถามที่เป็นอันตราย โมเดลจำเป็นต้อง “รู้” อะไรคือสิ่งอันตรายก่อนหรือไม่?

งานวิจัยก่อนหน้านี้เกี่ยวกับการกรองเนื้อหาที่เป็นพิษมักพบว่า หากโมเดลไม่เคยสัมผัสเนื้อหาที่เป็นพิษเลยระหว่างการฝึกก่อน โมเดลก็จะเรียนรู้ที่จะแยกแยะและปฏิเสธคำสั่งที่เกี่ยวข้องได้ยาก

อย่างไรก็ตาม งานวิจัยนี้ทำลายความเชื่อดังกล่าว ในการทดลองการกรองความรู้ทางการแพทย์ พวกเขาพบว่าโมเดลที่ผ่านการกรองระดับโทเค็น เมื่อได้รับการปรับแต่งละเอียดด้วยคำสั่ง “ปฏิเสธการตอบคำถามทางการแพทย์” กลับมีประสิทธิภาพดีกว่าโมเดลเส้นฐานที่ไม่ได้ถูกกรอง

โดยเฉพาะ:
* โมเดลที่ใช้ กลยุทธ์การลบโทเค็น มีอัตราความถูกต้องในการปฏิเสธสูงกว่าโมเดลเส้นฐานถึง 2 เท่า
* ในขณะที่โมเดลที่ใช้ การกรองระดับเอกสาร มีประสิทธิภาพแย่ มักจะทำให้พฤติกรรมการปฏิเสธเกิดการสรุปเกิน (overgeneralize) ผิดๆ นำไปสู่การปฏิเสธคำถามทั่วไปปกติด้วย

นักวิจัยเชื่อว่าเป็นเพราะการกรองระดับโทเค็นสร้างขอบเขตแนวคิดที่ชัดเจนระหว่าง “เคยเห็น/ไม่เคยเห็น” สำหรับโมเดลแล้ว งานปฏิเสธเปลี่ยนจากงานที่ซับซ้อนอย่าง “ตัดสินว่าเนื้อหามีอันตรายหรือไม่” ไปเป็นงานที่แข็งแกร่งกว่า นั่นคือ “ตัดสินว่าแนวคิดนี้ฉันเคยเห็นหรือไม่” การแยกแยะตามการกระจายภายใน/ภายนอก (in-distribution/out-of-distribution) นี้ เชื่อถือได้มากกว่าการตัดสินตามความหมาย (semantics)

นี่ให้ข้อคิดสำคัญสำหรับการวิจัยด้านความปลอดภัย นั่นคือไม่จำเป็นต้องให้โมเดลเรียนรู้ความรู้ที่เป็นอันตรายก่อนแล้วจึงทำการปรับให้สอดคล้อง (alignment) การกำจัดความรู้ที่เป็นอันตรายออกจากข้อมูลการฝึกก่อนอย่างแข็งขัน สามารถฝึกโมเดลที่ปลอดภัยและควบคุมได้อย่างมีประสิทธิภาพมากขึ้น

การกำกับดูแลแบบอ่อนและการติดป้ายอัตโนมัติ: ลดอุปสรรคทางวิศวกรรม

ความท้าทายทางวิศวกรรมหลักในการใช้การกรองระดับโทเค็นคือ จะติดป้าย “อันตราย” หรือ “ปลอดภัย” ให้กับข้อมูลการฝึกก่อนจำนวนมหาศาลได้อย่างแม่นยำอย่างไร? การพึ่งพาการติดป้ายด้วยมนุษย์ทั้งหมดมีต้นทุนสูงเกินไป

ทีมวิจัยได้เสนอขั้นตอนการกำกับดูแลแบบอ่อน (weak supervision) ที่อิงจาก ตัวเข้ารหัสอัตโนมัติแบบเบาบาง (sparse autoencoder) เพื่อแก้ไขปัญหานี้:

การสกัดคุณลักษณะ (Feature extraction): ใช้ตัวเข้ารหัสอัตโนมัติแบบเบาบางเพื่อสกัดคุณลักษณะแฝง (latent features) จากการกระตุ้น (activation) ของโมเดล
การติดป้ายอัตโนมัติ (Automatic labeling): ใช้โมเดลขั้นสูง (เช่น Claude Sonnet 4) เพื่ออธิบายคุณลักษณะเหล่านี้ ระบุคุณลักษณะที่เกี่ยวข้องกับโดเมนอันตรายเฉพาะ (เช่น “การแพทย์”) และสร้างป้ายข้อมูลคุณภาพสูงบางส่วนเป็นฐานจากนั้น
ฝึกตัวแยกประเภท (Training a classifier): ใช้ป้ายเหล่านี้ฝึกโมเดลภาษาขนาดเล็กแบบสองทิศทาง (bidirectional language model) เป็นตัวแยกประเภท

งานวิจัยพบว่าในทางปฏิบัติไม่จำเป็นต้องมีตัวแยกประเภทที่สมบูรณ์แบบ ผ่าน “การสรุปผลจากอ่อนไปสู่แข็ง (Weak-to-strong generalization)” แม้แต่ตัวแยกประเภทที่ฝึกด้วยป้ายที่มีสัญญาณรบกวนหรือคุณลักษณะจากโมเดลขนาดเล็ก เมื่อใช้ร่วมกับเกณฑ์การกรอง (threshold) ที่เข้มงวด ก็ยังสามารถบรรลุผลการกรองที่ยอดเยี่ยมบนโมเดลขนาดใหญ่กว่าได้

การค้นพบนี้ลดอุปสรรคในการนำไปใช้จริงอย่างมีนัยสำคัญ นักพัฒนาไม่จำเป็นต้องมีทีมติดป้ายขนาดใหญ่ สามารถใช้เครื่องมือโอเพ่นซอร์สที่มีอยู่และโมเดลขนาดเล็กเพื่อสร้างตัวกรองการฝึกก่อนที่มีประสิทธิภาพได้

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23556