แนวหน้า AI Security: การโจมตี Jailbreak LLM ขับเคลื่อนด้วยการอนุมานเชิงเหตุผลและตัวเข้ารหัสแบบเบาบาง

2026年2月9日 am8:09 • ข่าวสารอุตสาหกรรม AI • 274 views

แนวหน้า AI Security: การโจมตี Jailbreak LLM ขับเคลื่อนด้วยการอนุมานเชิงเหตุผลและตัวเข้ารหัสแบบเบาบาง
ฉบับนี้มุ่งเน้นไปที่งานวิจัยล้ำสมัยด้านความปลอดภัยของ AI ที่เผยแพร่บน arXiv เมื่อวันที่ 9 กุมภาพันธ์ 2026 เนื้อหาหลักมีดังนี้:

🤖 กรอบ CFA2 ใช้การอนุมานเชิงสาเหตุและตัวเข้ารหัสอัตโนมัติแบบเบาบางเพื่อโจมตีการหลบหนี (jailbreak) แบบความสำเร็จสูงและความซับซ้อนต่ำบน LLMs – Causal Front-Door Adjustment for Robust Jailbreak Attacks on LLMs (http://arxiv.org/pdf/2602.05444v1.pdf)

งานวิจัยนี้เสนอกรอบการโจมตี CFA2 ที่อิงจากการปรับปรุงประตูหน้าเชิงสาเหตุ โดยการสร้างแบบจำลองกลไกความปลอดภัยเป็นปัจจัยสับสนที่ไม่ได้สังเกต และใช้ตัวเข้ารหัสอัตโนมัติแบบเบาบาง (SAEs) เพื่อดึงคุณลักษณะความตั้งใจของงาน ซึ่งทำให้สามารถโจมตีการหลบหนี (jailbreak) ที่แข็งแกร่งบนโมเดลภาษาขนาดใหญ่ (LLMs)
ผลการทดลองแสดงว่า CFA2 บรรลุอัตราความสำเร็จในการโจมตีโดยเฉลี่ย (ASR) 83.68% บนตระกูลโมเดลที่แตกต่างกันสี่ตระกูล ซึ่งดีกว่าวิธีการโจมตีการหลบหนีแบบปรับให้เหมาะสมที่มีอยู่ (เช่น GCG) อย่างมีนัยสำคัญ และยังคงความลื่นไหลและความเป็นธรรมชาติของการสร้างคำตอบ
วิธีการนี้ใช้เทคนิคการทำให้เวกเตอร์น้ำหนักตั้งฉากกัน เพื่อแยกสเปซย่อยการป้องกันออกจากโมเดลทางกายภาพ ทำให้การคำนวณการหาค่าเฉลี่ยเชิงสาเหตุที่ซับซ้อนลดลงเหลือเพียงการแพร่กระจายไปข้างหน้าแบบกำหนดได้ ซึ่งช่วยลดความซับซ้อนในการคำนวณอย่างมากและทำให้สามารถสร้างการโจมตีที่มีประสิทธิภาพ

🔍 ตัวอย่างแบบ few-shot ส่งผลตรงข้ามต่อกลยุทธ์ป้องกันการหลบหนีของ LLM โดยเสริมกำลัง RoP แต่ลดทอน ToP เผยให้เห็นบทบาทสำคัญของกลไกความสนใจในการป้องกันความปลอดภัย – How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks (http://arxiv.org/pdf/2602.04294v1.pdf)

งานวิจัยพบว่าตัวอย่างแบบ few-shot ส่งผลตรงข้ามต่อกลยุทธ์ป้องกันที่อิงจากพรอมต์แบบมุ่งเน้นบทบาท (RoP) และแบบมุ่งเน้นงาน (ToP): RoP มีอัตราความปลอดภัยเพิ่มขึ้นสูงสุดถึง 4.3% ภายใต้การเสริมกำลังจากตัวอย่าง few-shot ในขณะที่ ToP มีอัตราความปลอดภัยลดลงสูงสุดถึง 21.2% เนื่องจากความสนใจถูกเบี่ยงเบน
งานวิจัยเผยให้เห็นกลไกที่ตัวอย่าง few-shot ส่งผลต่อประสิทธิภาพการป้องกัน: RoP เพิ่มความปลอดภัยโดยการเสริมสร้างอัตลักษณ์ของบทบาท ในขณะที่ ToP ลดประสิทธิภาพการป้องกันเนื่องจากเนื้อหาของตัวอย่างแข่งขันกับคำสั่งงานเพื่อดึงดูดความสนใจ ความแตกต่างนี้มีความสอดคล้องกันในโมเดลและชุดข้อมูลที่แตกต่างกัน
งานวิจัยชี้ให้เห็นว่าโมเดล “โหมดการคิด” ที่ได้รับการเสริมกำลังด้านการให้เหตุผลมีความไวต่อการโจมตีการหลบหนีและผลกระทบเชิงลบจากตัวอย่าง few-shot มากกว่า โดยอัตราความปลอดภัยลดลงอย่างมีนัยสำคัญ ซึ่งบ่งชี้ว่าโครงสร้างโมเดลมีอิทธิพลสำคัญต่อผลกระทบเชิงปฏิสัมพันธ์ของกลยุทธ์ป้องกัน

🤖 กรอบ UltraBreak บรรลุการโจมตีการหลบหนีแบบสากลและถ่ายโอนได้บนโมเดลขนาดใหญ่หลายรูปแบบผ่านข้อจำกัดในสเปซภาพและการสูญเสียแบบชี้นำความหมาย – Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models (http://arxiv.org/pdf/2602.01025v1.pdf)

งานวิจัยเสนอกรอบการโจมตีใหม่ชื่อ UltraBreak ซึ่งโดยการแนะนำการแปลงแบบสุ่มและการทำให้เป็นมาตรฐานของการแปรผันทั้งหมดในสเปซภาพ ทำให้สามารถโจมตีการหลบหนีแบบสากลและถ่ายโอนได้สำเร็จบนโมเดลภาษาขนาดใหญ่หลายรูปแบบ (VLMs)
วิธีการนี้ใช้ฟังก์ชันการสูญเสียแบบชี้นำความหมายแทนที่การสูญเสียเอนโทรปีไขว้แบบดั้งเดิม ซึ่งทำให้ภูมิทัศน์การสูญเสียราบเรียบขึ้นอย่างมีนัยสำคัญ จึงเพิ่มความสามารถในการสรุปผลของภาพโจมตีบนโมเดลเป้าหมายและคำถามที่แตกต่างกัน โดยมีอัตราความสำเร็จในการโจมตีโดยเฉลี่ย (ASR) ถึง 71.05%
การทดลองแสดงว่า UltraBreak มีประสิทธิภาพภายใต้การตั้งค่าแบบกล่องดำกับ VLMs แบบโอเพนซอร์สและแบบปิดหลายตัว และต้องการเพียงโมเดลพร็อกซีเดียวเพื่อโจมตีข้ามโมเดล ซึ่งท้าทายสมมติฐานที่มีอยู่ที่ว่าวิธีการโจมตีต้องการหลายโมเดลพร็อกซีเพื่อให้สามารถถ่ายโอนได้

🔍 งานวิจัยนี้เสนอกรอบการทำงานเพื่อความแข็งแกร่งที่พิสูจน์ได้ของโมเดลภาษาขนาดใหญ่ผ่านการจัดตำแหน่งเสริมด้วยเสียงรบกวนและการลบแบบสุ่มแบบแบ่งชั้น ซึ่งเพิ่มความปลอดภัยและประโยชน์ใช้สอยของโมเดลอย่างมีนัยสำคัญ – Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment (http://arxiv.org/pdf/2602.01587v1.pdf)

งานวิจัยนี้เสนอการฝึกโมเดลภาษาเป็นตัวขจัดเสียงรบกวนเชิงความหมายผ่านการจัดตำแหน่งเสริมด้วยเสียงรบกวน (NAAT) ซึ่งในขณะที่รักษาประโยชน์เชิงดีสูง (94.1%) สามารถลดอัตราความสำเร็จของการโจมตีแบบต่อต้านจาก 84.2% ลงอย่างมีนัยสำคัญเหลือ 1.2%
งานวิจัยให้การพิสูจน์ความแข็งแกร่งแบบ ℓ0-norm ที่เข้มงวดสำหรับโมเดลภาษาขนาดใหญ่ในสเปซโทเค็นแบบไม่ต่อเนื่องผ่านเทคนิคการลบแบบสุ่มแบบแบ่งชั้น (Stratified Randomized Ablation) ร่วมกับการแจกแจงแบบไฮเปอร์จีออเมตริก โดยมีรัศมีการรับรองโดยเฉลี่ยถึง 14.6 โทเค็น
งานวิจัยเผยให้เห็นว่าวิธีการทำให้เรียบระดับอักขระที่มีอยู่ (เช่น SmoothLLM) มี ‘ความผิดพลาดของการปรับสเกลแบบกลับด้าน’ ภายใต้อินพุตแบบเบาบาง ซึ่งนำไปสู่การลดลงอย่างรวดเร็วของประโยชน์ใช้สอยของโมเดล ในขณะที่กรอบ CSS ที่เสนอสามารถบรรเทาปัญหานี้ได้อย่างมีประสิทธิภาพผ่านการลบระดับโทเค็น

🔍 RACA ให้กรอบการทดสอบความปลอดภัยของ LLM ที่ใหม่และมีประสิทธิภาพผ่านเกณฑ์ความครอบคลุมที่ตระหนักถึงการแทนค่า ซึ่งเพิ่มประสิทธิภาพและความแม่นยำของการทดสอบอย่างมีนัยสำคัญ – RACA: Representation-Aware Coverage Criteria for LLM Safety Testing (http://arxiv.org/pdf/2602.02280v1.pdf)

กรอบ RACA แก้ไขปัญหาด้านความสามารถในการปรับขนาดและความยืดหยุ่นของเกณฑ์ความครอบคลุมระดับเซลล์ประสาทแบบดั้งเดิมในการทดสอบความปลอดภัยของ LLM โดยการมุ่งเน้นไปที่แนวคิดที่สำคัญต่อความปลอดภัยเพื่อลดมิติและกรองข้อมูลที่ไม่เกี่ยวข้อง
ผลการทดลองแสดงว่า RACA มีประสิทธิภาพดีเยี่ยมในการระบุพรอมต์การหลบหนีคุณภาพสูง ไม่ไวต่ออินพุตที่ไม่มีประสิทธิภาพหรือซ้ำซ้อน และมีคุณค่าทางการใช้งานในสถานการณ์โลกจริง เช่น การจัดลำดับความสำคัญของชุดทดสอบและการสุ่มตัวอย่างพรอมต์โจมตี
RACA แสดงความสามารถในการสรุปผลที่ดีภายใต้ขนาดโมเดลที่แตกต่างกัน ขนาดชุดปรับเทียบที่แตกต่างกัน ชั้นการดึงการแทนค่า และการกำหนดค่าพารามิเตอร์เหนือ ซึ่งพิสูจน์ความแข็งแกร่งและความน่าเชื่อถือในฐานะมาตรฐานการทดสอบความปลอดภัยของ LLM

🤖 เทคนิคการชี้นำการกระตุ้นเชิงดี แม้จะเพิ่มประโยชน์ใช้สอยของโมเดล แต่กลับเพิ่มความเสี่ยงการหลบหนีของ LLMs โดยไม่ตั้งใจ ซึ่งเผยให้เห็นจุดบอดด้านความปลอดภัยในการใช้งานจริง – Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models (http://arxiv.org/pdf/2602.04896v1.pdf)

งานวิจัยพบว่าเทคนิคการชี้นำการกระตุ้นเชิงดีมีประสิทธิภาพในการเพิ่มความสอดคล้องและรูปแบบการตอบสนอง (เช่น JSON) ของโมเดลภาษาขนาดใหญ่ (LLMs) แต่จะลดการป้องกันความปลอดภัยของโมเดลโดยไม่ตั้งใจ ทำให้ผู้โจมตีสามารถดำเนินการโจมตีการหลบหนีได้ง่ายขึ้น
ข้อมูลการทดลองแสดงว่า หลังจากใช้เทคนิคการชี้นำการกระตุ้น อัตราความสำเร็จในการโจมตีของโมเดลเมื่อเผชิญกับพรอมต์ที่เป็นอันตรายเพิ่มขึ้นอย่างมีนัยสำคัญ เช่น ในแบบทดสอบมาตรฐาน อัตราความสำเร็จในการโจมตีเพิ่มขึ้นจากใกล้ศูนย์เป็นมากกว่า 80% และในบางกรณีเกือบถึง 99%
งานวิจัยเผยให้เห็นว่าเทคนิคการชี้นำการกระตุ้นลดขอบความปลอดภัยของโมเดลโดยการเปลี่ยนการกระจายความน่าจะเป็นเริ่มต้นของข้อความที่โมเดลสร้าง โดยเฉพาะการยับยั้งคำนำหน้าที่ปฏิเสธ ทำให้การโจมตีการหลบหนีสำเร็จได้ง่ายขึ้น ปรากฏการณ์นี้เรียกว่า ‘ผลกระทบภายนอกจากการชี้นำ’

🤖 ระบบนักสืบลิขสิทธิ์เผยให้เห็นว่าโมเดลภาษาขนาดใหญ่มีความเสี่ยงการรั่วไหลของลิขสิทธิ์ในระดับความน่าจะเป็นสูง และการหลบหนีแบบโน้มน้าวและการกลืนกลายความรู้ทำให้ปัญหานี้รุนแรงขึ้น – Copyright Detective: A Forensic System to Evidence LLMs Flickering Copyright Leakage Risks (http://arxiv.org/pdf/2602.05252v1.pdf)

ความเสี่ยงการรั่วไหลของลิขสิทธิ์ในโมเดลภาษาขนาดใหญ่มีความน่าจะเป็นสูง การใช้เทคนิคการปรับสเกลการให้เหตุผลพบว่าคะแนนการรักษาลิขสิทธิ์ของโมเดลที่แตกต่างกันมีความแตกต่างอย่างมีนัยสำคัญ เช่น คะแนนการรักษาลิขสิทธิ์ค่ามัธยฐานของ Llama-3.1-70B ประมาณ 0.42 ในขณะที่รุ่น 8B มีเพียง 0.1
เทคนิคการหลบหนีแบบโน้มน้าวสามารถเพิ่มความเสี่ยงการรั่วไหลของลิขสิทธิ์ได้อย่างมีนัยสำคัญ ผ่านกลยุทธ์การใช้ภาษาที่เฉพาะเจาะจง การกระจายผลลัพธ์ของโมเดลเปลี่ยนจากการปฏิเสธที่เกือบแน่นอนเป็นการรั่วไหลแบบมีความน่าจะเป็น เช่น ในการดึงคำ 100 คำแรกของ “The Hobbit” คะแนน ROUGE-L เพิ่มขึ้นอย่างมีนัยสำคัญจากจุดสูงสุดที่ 0.1
การตรวจจับการกลืนกลายความรู้เผยให้เห็นว่าโมเดลไม่เพียงแต่สามารถเล่าข้อความซ้ำได้ แต่ยังสามารถเก็บรักษาข้อมูลในระดับความหมายได้ ผ่านการทดสอบด้วยคำถามที่มีโครงสร้างและคำถามแบบเลือกตอบ พบว่าโมเดลมีความแม่นยำสูงกว่า 80% ต่อเนื้อหาลิขสิทธิ์ ซึ่งบ่งชี้ว่ามีความเสี่ยงจากการเรียนรู้เชิงลึกอย่างแพร่หลาย

🔍 งานวิจัยนี้เผยให้เห็นข้อบกพร่องพื้นฐานในการประเมินความปลอดภัยของโมเดลภาษาขนาดใหญ่ นั่นคือการละเลยมิติสำคัญของต้นทุนการดำเนินการ ซึ่งนำไปสู่การประเมินภัยคุกคามในโลกจริงที่มีอคติอย่างเป็นระบบ – Expected Harm: Rethinking Safety Evaluation of (Mis)Aligned LLMs (http://arxiv.org/pdf/2602.01600v1.pdf)

การประเมินความปลอดภัยของ LLM ในปัจจุบันอาศัยระบบการจำแนกตามความรุนแรงเป็นหลัก แต่วิธีการนี้สมมติว่าคิวรีที่เป็นอันตรายทั้งหมดมีความเสี่ยงเท่ากัน และละเลยปัจจัยสำคัญของความเป็นไปได้ในการดำเนินการ นั่นคือความน่าจะเป็นแบบมีเงื่อนไขที่ภัยคุกคามจะเกิดขึ้นภายใต้การตอบสนองของโมเดลที่กำหนด
งานวิจัยพบว่าโมเดลภาษาขนาดใหญ่มีปัญหาการปรับเทียบความเสี่ยงแบบย้อนกลับอย่างเป็นระบบ: โมเดลแสดงพฤติกรรมการปฏิเสธที่แข็งแกร่งต่อภัยคุกคามที่มีต้นทุนสูง (ความเป็นไปได้ต่ำ) แต่มีความเปราะบางต่อคิวรีที่มีต้นทุนต่ำ (ความเป็นไปได้สูง) ซึ่งขัดแย้งกับประเภทของคิวรีที่เป็นอันตรายที่ถูกขอบ่อยที่สุดในโลกจริง
โดยการแยกย่อยคิวรีต้นทุนสูงเป็นงานย่อยต้นทุนต่ำหลายงาน นักวิจัยสามารถเพิ่มอัตราความสำเร็จของการโจมตีการหลบหนีที่มีอยู่ได้สูงสุดถึง 2 เท่า ซึ่งเผยให้เห็นความเปราะบางเชิงโครงสร้างของกลไกการป้องกันความปลอดภัยในปัจจุบันเมื่อเผชิญกับอันตรายแบบกระจาย

🔍 งานวิจัยนี้แสดงให้เห็นถึงความเป็นไปได้และประโยชน์ที่อาจเกิดขึ้นจากการออกแบบ LLMs ด้วยวิธีการจริยธรรมเชิงคุณธรรม พร้อมทั้งเผยให้เห็นความท้าทายในการนำไปปฏิบัติ – Is It Possible to Make Chatbots Virtuous? Investigating a Virtue-Based Design Methodology Applied to LLMs (http://arxiv.org/pdf/2602.03155v1.pdf)

งานวิจัยพบว่า โดยการนำจริยธรรมเชิงคุณธรรมมาใช้ในการออกแบบโมเดลภาษาขนาดใหญ่ (LLMs) สามารถสร้างรูปแบบการออกแบบทางจริยธรรมใหม่ห้ารูปแบบ ซึ่งมีจุดมุ่งหมายเพื่อเพิ่มความแม่นยำ ความแข็งแกร่ง และความปลอดภัยของโมเดล ในขณะที่ลดการสูญเสียทรัพยากร
ผู้เข้าร่วมคิดว่ารูปแบบการออกแบบเหล่านี้สามารถให้ความแม่นยำ ความแข็งแกร่ง ความปลอดภัยที่ดีขึ้น และสร้างโอกาสการวิจัยใหม่ แต่ก็กังวลว่ารูปแบบเหล่านี้อาจถูกแฮ็ก การสรุปผลเกินขอบเขต และข้อจำกัดทางเทคนิคในการนำไปปฏิบัติ
โดยรวมแล้ว แม้จะมีข้อแลกเปลี่ยนและความท้าทาย ผู้เข้าร่วมมีทัศนคติเชิงบวกต่อรูปแบบการออกแบบเหล่านี้ โดยคิดว่าการนำการออกแบบทางจริยธรรมไปปฏิบัติ แม้จะไม่สมบูรณ์แบบ ก็ดีกว่าไม่นำไปปฏิบัติ ซึ่งบ่งชี้ว่าการผสมผสานจริยธรรมเชิงคุณธรรมในการออกแบบ LLM เป็นไปได้และมีคุณค่า

🔍 กรอบ RAI บรรลุการปรับเทียบความปลอดภัยของโมเดลภาษาภาพผ่านการฉีดสัญญาณความเสี่ยง ซึ่งสร้างสมดุลระหว่างความปลอดภัยและประโยชน์ใช้สอยได้อย่างมีประสิทธิภาพ – Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility (http://arxiv.org/pdf/2602.03402v1.pdf)

กรอบการฉีดการตระหนักรู้ความเสี่ยง (RAI) ลดอัตราความสำเร็จในการโจมตีลงอย่างมีนัยสำคัญโดยการฉีดสัญญาณความเสี่ยงเข้าไปในโมเดลภาษาภาพ ในขณะที่ยังคงประสิทธิภาพการใช้ประโยชน์ของโมเดล
RAI แก้ไขปัญหาการเจือจางของสัญญาณความปลอดภัยที่เกิดจากอินพุตภาพ โดยการสร้างสเปซย่อยต้นแบบที่ไม่ปลอดภัยและเพิ่มความแข็งแกร่งให้กับโทเค็นภาพที่มีความเสี่ยงสูงแบบเลือกสรร
การทดลองแสดงว่า RAI บรรลุผลการป้องกันที่เกือบสมบูรณ์แบบภายใต้สถานการณ์การโจมตี

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22998