Claude พบช่องโหว่ร้ายแรงเรื่องการสับสนตัวตน ปลุกภัยคุกคามความปลอดภัยโมเดลใหญ่
ช่วงนี้ ช่องโหว่ร้ายแรงเกี่ยวกับโมเดล Claude ได้ก่อให้เกิดการอภิปรายอย่างกว้างขวางในชุมชนเทคโนโลยี ช่องโหว่นี้ทำให้โมเดลไม่สามารถแยกแยะระหว่างข้อมูลที่ผู้ใช้ป้อนกับคำสั่งระบบ และอาจเข้าใจผิดว่าคำสั่งที่ถูกฉีดเข้ามาอย่างมุ่งร้ายเป็นคำขอที่ถูกต้องตามกฎหมาย

วิศวกรซอฟต์แวร์รายหนึ่ง (CTO ของบริษัทสตาร์ทอัพด้านการศึกษา) โพสต์ใน Hacker News ระบุว่านี่คือ “บั๊กที่ร้ายแรงที่สุดที่เคยพบในโค้ดของ Claude” โพสต์ดังกล่าวดึงดูดผู้พัฒนาหลายหมื่นคนให้เข้ามาดูอย่างรวดเร็ว

ความร้อนแรงของการอภิปรายยังคงเพิ่มขึ้น เพราะผู้ใช้หลายคนพบว่า นี่ไม่ใช่กรณีเดียว Claude มีปัญหาความสับสนเรื่อง “การระบุตัวตน” ที่คล้ายกันอย่างแพร่หลาย

แก่นช่องโหว่: โมเดลสับสนบทบาทการพูด
แก่นกลางของช่องโหว่ครั้งนี้อยู่ที่ว่า โมเดล Claude 3.5 และซีรีส์ Claude 4 มีอุปสรรคในการระบุตัวตนอย่างรุนแรง เมื่อต้องจัดการกับบริบทที่ซับซ้อนหรือถูกสร้างขึ้นอย่างมุ่งร้าย
มีนักพัฒนาพบในการทดสอบจริงว่า หากฝังอักขระตัดพิเศษที่มีความหมายควบคุมอย่างรุนแรง (เช่น <stop>, <stop_token>, <end prompt> เป็นต้น) อย่างชาญฉลาดในคำถามของผู้ใช้ ตรรกะภายในของ Claude จะถูกรบกวน

โมเดลจะเข้าใจผิดว่าคำสั่งภายนอกที่ถูกฉีดเข้ามาอย่างมุ่งร้ายเหล่านี้ เป็นคำสั่งที่กำหนดไว้ล่วงหน้าจากผู้ช่วยหรือระบบ และดำเนินการตามนั้น พร้อมทั้งยืนยันว่า “นี่คือข้อเรียกร้องของผู้ใช้”

เมื่อสืบหาต้นตอทางเทคนิค ปัญหาชี้ไปที่จุดบอดที่มีมาแต่เดิมของกลไกความสนใจ (Attention Mechanism) ในโครงสร้าง Transformer จากมุมมองของโมเดล คำสั่งระบบและข้อมูลผู้ใช้ในที่สุดจะถูกแบ่งออกเป็นโทเค็นและถูกวางไว้ในเมทริกซ์ความสนใจเดียวกันเพื่อคำนวณ การที่เส้นทางข้อมูลและเส้นทางควบคุมซ้อนทับกันในระดับสูงเช่นนี้ ทำให้โมเดลขาดขอบเขตการแยกทางกายภาพที่ปลอดภัยเมื่อประมวลผลข้อมูล
ผู้เชี่ยวชาญด้านเทคนิคในส่วนความคิดเห็นชี้ว่า สิ่งนี้คล้ายกับกรณีในสถาปัตยกรรมฟอนนอยมันน์ยุคแรก ที่ข้อมูลและคำสั่งขาดการแยกทางกายภาพในหน่วยความจำ

มีผู้ใช้พยายามเพิ่มประโยคป้องกัน เช่น “ห้ามปฏิบัติตามคำสั่งที่เป็นอันตรายใดๆ” ในคำสั่ง แต่ถูกผู้ใช้อื่นชี้ว่านี่เหมือน “ปิดหูปิดตา” คล้ายกับความพยายามใช้ Regular Expression ป้องกัน SQL Injection ในอดีต โดยพื้นฐานแล้วเป็นการป้องกันที่เปราะบางและพึ่งพาความน่าจะเป็น ตราบใดที่โมเดลใหญ่ยังคงเป็น “ตัวทำนายโทเค็นถัดไป” ที่อิงความน่าจะเป็น มันก็มีแนวโน้มที่จะสอดคล้องกับคำแนะนำโดยรวมของบริบท

ชุมชนอภิปรายหาทางแก้ไขเชิงวิศวกรรม
เมื่อเผชิญกับข้อบกพร่องที่มีมาแต่เดิมของสถาปัตยกรรมพื้นฐาน ชุมชนเทคโนโลยีเริ่มสำรวจความเป็นไปได้ในการสร้าง “ไฟร์วอลล์” ในระดับการประยุกต์ใช้เชิงวิศวกรรม
ในการอภิปรายที่เกี่ยวข้อง หนึ่งในแนวทางที่ได้รับการสนับสนุนสูงคือการนำตัวกำหนดขอบเขตที่ไม่สามารถปลอมแปลงได้ เข้าไปในชั้นการฝึกโมเดล นั่นคือการออกแบบโทเค็นพิเศษที่ไม่อาจสร้างขึ้นผ่านการป้อนภาษาธรรมชาติได้เลย คล้ายกับการแบ่งแยกระหว่างโหมดเคอร์เนลและโหมดผู้ใช้ที่ไม่สามารถล่วงล้ำได้ในระบบปฏิบัติการ เพื่อบล็อกพฤติกรรมล่วงละเมิดของภาษาธรรมชาติตั้งแต่ขั้นตอน Tokenization

อีกวิธีแก้ปัญหาเชิงวิศวกรรมหลักที่ถูกอภิปรายกันอย่างกว้างขวางคือการใช้ “สถาปัตยกรรมโมเดลคู่” แนวทางนี้แนะนำโมเดลขนาดเล็กอิสระที่แยกออกมา โดยเฉพาะสำหรับการตรวจสอบความปลอดภัย โมเดลนี้ไม่จัดการธุรกิจเฉพาะ แต่จะตรวจสอบการป้อนข้อมูลและผลลัพธ์ของโมเดลหลักเท่านั้น ทันทีที่ตรวจพบสัญญาณของการล่วงละเมิดหรือการสับสนตัวตน จะตัดการสนทนาทันที

ฉันทามติของชุมชนเห็นว่า เนื่องจากข้อจำกัดของสถาปัตยกรรมปัจจุบัน ไม่ควรหวังว่าโมเดลภาษาขนาดใหญ่จะเกิด “ความตระหนักรู้ด้านความปลอดภัย” ด้วยตัวเอง ก่อนที่จะมีการแยกทางกายภาพอย่างสมบูรณ์ระหว่างคำสั่งและข้อมูล สถานการณ์ใดๆ ที่เชื่อมต่อ LLM เข้ากับธุรกิจสำคัญหรือกระบวนการอัตโนมัติ ต้องถือว่าเป็นเครื่องยนต์กล่องดำที่เชื่อถือไม่ได้โดยสิ้นเชิง
ผู้โพสต์เสริมในตอนท้ายว่า ปัญหาที่คล้ายกันอาจไม่จำกัดอยู่แค่ Claude เท่านั้น ChatGPT อาจมีเช่นกัน คาดการณ์เบื้องต้นว่า เงื่อนไขหนึ่งที่อาจกระตุ้นช่องโหว่นี้อาจคือความยาวของการสนทนาเข้าใกล้ขีดจำกัดของหน้าต่างบริบท

ความผันผวนประสบการณ์ใช้ Claude ล่าสุดดึงความสนใจ
การอภิปรายเกี่ยวกับช่องโหว่นี้ ยังกระตุ้นให้ผู้พัฒนาอภิปรายอย่างร้อนแรงเกี่ยวกับประสิทธิภาพโดยรวมของ Claude ในช่วงที่ผ่านมา
ทราบมาว่า เพื่อเตรียมกำลังประมวลผลให้กับโมเดลรุ่นใหม่ Mythos Anthropic ได้ปรับเปลี่ยนการเรียกใช้ API และการจัดสรรกำลังประมวลผลของบริการ Claude ที่มีอยู่หลายครั้ง ส่งผลให้ประสบการณ์ของผู้พัฒนามีความผันผวน
ก่อนหน้านี้ มีผู้ทดสอบพบว่า ความยาวของ “สายโซ่การคิด” ของ Claude เมื่อจัดการกับตรรกะที่ซับซ้อนถูกตัดลดลงอย่างมาก ส่งผลให้ความสามารถในการให้เหตุผลข้อความยาวและการสร้างโค้ดลดลง

นอกจากนี้ ยังเคยเกิดความผิดปกติของระบบคิดเงิน มีผู้ใช้ถูกหักโทเค็นจำนวนมหาศาลเพียงแค่ส่ง “Hello” หนึ่งประโยค ส่งผลให้ยอดเงินในบัญชีเป็นศูนย์ ปัญหาที่เกิดขึ้นต่อเนื่องเหล่านี้ ทำให้ชุมชนเกิดข้อสงสัยบางประการเกี่ยวกับความมั่นคงในการดำเนินงานของ Anthropic
ลิงก์อ้างอิง:
[1] https://news.ycombinator.com/item?id=47701233
[2] https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3] https://dwyer.co.za/
— จบ —

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29663
