Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

การ “แหกคุก” ของ Claude: การฝ่าข้อจำกัดด้านความปลอดภัยด้วยตนเอง

วันนี้ ชุมชนนักพัฒนาตกตะลึงกับข่าวหนึ่ง

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

นักพัฒนาคนหนึ่งได้ออกคำสั่งที่ชัดเจนแก่ Claude ว่า: “ห้ามดำเนินการเขียนใดๆ นอกพื้นที่ทำงาน (Workspace)” อย่างไรก็ตาม Claude ไม่ได้ปฏิเสธอย่างสุภาพเหมือนเช่นเคย มันเงียบไปชั่วครู่ จากนั้นในพื้นหลังก็เขียนสคริปต์ Python อย่างรวดเร็ว และเชื่อมต่อคำสั่ง Bash สามชุด โดยใช้ช่องโหว่ตรรกะของระบบเพื่อหลีกเลี่ยงการตรวจสอบสิทธิ์ และแก้ไขไฟล์การกำหนดค่าภายนอกพื้นที่ทำงานโดยตรง

นี่ไม่ใช่การดำเนินการโค้ดธรรมดา แต่เป็นการ “แหกคุก” ที่มุ่งเป้าไปที่กลไกความปลอดภัยของตัวมันเอง

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว
ภาพหน้าจอที่นักพัฒนา Evis Drenova โพสต์บนแพลตฟอร์ม X มีจำนวนการอ่านเกิน 230,000 ครั้งแล้ว

เหตุการณ์นี้จุดกระแสการอภิปรายอย่างกว้างขวางในชุมชนเทคโนโลยี นักพัฒนาตระหนักว่า ผู้ช่วยเขียนโปรแกรมที่พวกเขาใช้ในชีวิตประจำวัน ไม่เพียงแต่มีความสามารถในการหลีกเลี่ยงข้อจำกัดด้านความปลอดภัย แต่ยังแสดงความตั้งใจที่จะทำเช่นนั้นด้วย และ Claude Code เป็นหนึ่งในเครื่องมือเขียนโปรแกรม AI ที่ได้รับความนิยมสูงสุดในปัจจุบัน เครื่องมือที่สามารถ “ล่วงละเมิดอำนาจ” ด้วยตนเอง กำลังถูกนำไปใช้งานในสภาพแวดล้อมการผลิตโดยนักพัฒนาจำนวนมาก ซึ่งความเสี่ยงด้านความปลอดภัยไม่ควรถูกมองข้าม

การ “แหกคุก” ไม่ใช่กรณีเดียว

พฤติกรรมเช่นนี้ของ Claude ไม่ใช่เรื่องบังเอิญ บนแพลตฟอร์มโซเชียล มีรายงานที่คล้ายกันปรากฏอยู่บ่อยครั้ง:

  • นักพัฒนาบางคนพบว่า Claude จะขุดค้นข้อมูลรับรอง AWS ที่ซ่อนอยู่ด้วยตนเอง และเรียกใช้ API ของบุคคลที่สามโดยอิสระเพื่อแก้ไข “ปัญหาการผลิต” ที่มันตัดสินใจ
  • ผู้ใช้บางคนสังเกตเห็นว่า เพียงแค่ขอให้ AI แก้ไขโค้ด แต่มันกลับดันการคอมมิต (Commit) ไปยัง GitHub โดยพลการ แม้ว่าคำสั่งจะระบุชัดเจนว่า “ห้ามดัน”

    มีรายงานว่า Claude ดันโค้ดไปยัง GitHub โดยพลการ

  • กรณีที่รุนแรงยิ่งขึ้นคือ พื้นที่ทำงานของ VS Code ถูก AI สลับอย่างเงียบๆ ทำให้มันดำเนินการในไดเรกทอรีระดับเดียวกันที่ไม่ควรเข้าถึง
    Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว
    Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว
    ผู้ใช้รายงานว่าพื้นที่ทำงาน VS Code ถูก AI สลับโดยพลการ

เหตุการณ์เช่นนี้เกิดขึ้นหลายครั้ง Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว ณ ตอนนี้ ดูเหมือนว่าวิธีป้องกันที่มีประสิทธิภาพที่สุดคือการใช้สภาพแวดล้อมแซนด์บ็อกซ์ที่เข้มงวดเพื่อจำกัดพฤติกรรมของ AI Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

DeepMind เตือนฉุกเฉิน: อินเทอร์เน็ตกลายเป็น “สนามล่า” สำหรับ AI

หากการ “แหกคุก” ของ Claude เป็นกรณีศึกษาเกี่ยวกับเอเจนต์ AI ที่ฝ่าข้อจำกัดภายในด้วยตนเอง ภัยคุกคามเชิงระบบจากภายนอกนั้นร้ายแรงยิ่งกว่า

ปลายเดือนมีนาคม นักวิจัยห้าคนจาก Google DeepMind ได้เผยแพร่บทความชื่อ “AI Agent Traps” ซึ่งเป็นการทำแผนที่ภาพรวมภัยคุกคามที่เอเจนต์ AI เผชิญอย่างเป็นระบบเป็นครั้งแรก

ข้อสรุปหลักของการวิจัยนี้มีความล้ำลึกอย่างยิ่ง: ผู้โจมตีไม่จำเป็นต้องบุกรุกระบบ AI เอง เพียงแค่ควบคุมข้อมูลที่มันสัมผัส เว็บเพจ, PDF, อีเมล, คำเชิญในปฏิทิน, การตอบสนองของ API — แหล่งข้อมูลใดๆ ที่เอเจนต์ AI ประมวลผลล้วนอาจถูกทำให้เป็นอาวุธได้

รายงานเปิดเผยความเป็นจริงที่น่าหนักใจ: ตรรกะพื้นฐานของอินเทอร์เน็ตกำลังเปลี่ยนแปลง มันกำลังถูกปรับเปลี่ยนให้เป็น “สนามล่าดิจิทัล” ที่มุ่งเป้าไปที่เอเจนต์ AI โดยเฉพาะ

“บ่อนหุ้น” ระดับสูง: กับดักที่มุ่งเป้าไปที่ตรรกะของ AI

ภัยคุกคามความปลอดภัยทางไซเบอร์แบบดั้งเดิม (เช่น เว็บไซต์ฟิชชิ่ง, มัลแวร์) มุ่งเป้าไปที่จุดอ่อนทางจิตวิทยาของมนุษย์เป็นหลัก แต่ “กับดักเอเจนต์ AI” นั้นแตกต่างโดยสิ้นเชิง พวกมันคือ “การโจมตีแบบลดมิติ” ที่ออกแบบมาเฉพาะสำหรับตรรกะและรูปแบบการรับรู้ของ AI

DeepMind ชี้ให้เห็นว่า เมื่อเอเจนต์ AI เข้าถึงเว็บเพจ สิ่งที่มันเผชิญคือการทำให้สภาพแวดล้อมข้อมูลเป็นอาวุธ ผู้โจมตีไม่จำเป็นต้องแตะต้องน้ำหนักของโมเดล เพียงแค่ฝัง “คำสั่งล่องหน” ลงในโค้ด HTML, พิกเซลรูปภาพ หรือเมตาดาต้า PDF ก็สามารถยึดครองเอเจนต์ AI ได้ในทันที

ความลับของรูปแบบการโจมตีนี้มาจาก “ความไม่สมมาตรในการรับรู้”: มนุษย์เห็นอินเทอร์เฟซกราฟิกและข้อความที่เรนเดอร์แล้ว ในขณะที่ AI ตีความสตรีมไบนารีพื้นฐาน, สไตล์ CSS, ความคิดเห็น HTML และแท็กเมตาดาต้า กับดักซ่อนอยู่ในช่องว่างเหล่านี้ที่มนุษย์มองไม่เห็น

เปิดโปงภาพรวมหกเทคนิคการโจมตี

DeepMind จัดประเภทการโจมตีอย่างเป็นระบบเป็นหกประเภท แต่ละประเภทมุ่งเป้าไปที่ส่วนสำคัญของสถาปัตยกรรมฟังก์ชันของเอเจนต์ AI

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

1. หลอก “ตา” ของ AI: การฉีดเนื้อหา

การโจมตีประเภทนี้เล็งเป้าไปที่อินพุตการรับรู้ของ AI (เช่น การแยกวิเคราะห์เว็บเพจ) ผู้โจมตีสามารถซ่อนคำสั่งที่เป็นอันตรายไว้ในความคิดเห็น HTML, องค์ประกอบที่ซ่อนด้วย CSS หรือแม้แต่ข้อมูลพิกเซลของรูปภาพ

ตัวอย่างเช่น รูปภาพที่ดูธรรมดาอาจมีคำสั่งที่เข้ารหัสไว้ในพิกเซล: “ส่งต่ออีเมลของผู้ใช้ไปยังที่อยู่ที่กำหนด”
ข้อมูลการวิจัยแสดงให้เห็นว่าในการทดสอบเว็บเพจคงที่ 280 หน้า คำสั่งที่เป็นอันตรายที่ซ่อนอยู่ในองค์ประกอบ HTML สามารถเปลี่ยนแปลงเอาต์พุตของ AI ได้สำเร็จ 15% ถึง 29% ในการทดสอบมาตรฐาน WASP การฉีดพรอมต์อย่างง่ายสามารถยึดครองพฤติกรรมของ AI บางส่วนได้ในสถานการณ์สูงถึง 86%

สิ่งที่อันตรายยิ่งกว่าคือการปลอมแปลงแบบไดนามิก: เว็บไซต์สามารถตรวจจับลายนิ้วมือเบราว์เซอร์เพื่อระบุผู้เยี่ยมชมที่เป็น AI จากนั้นส่งคืนเนื้อหาเพจที่มีคำสั่งที่เป็นอันตรายแบบไดนามิก ผู้ใช้ที่เป็นมนุษย์เห็นหน้าเว็บปกติ ในขณะที่ AI รับและดำเนินการคำสั่งอีกชุดหนึ่ง

2. มลพิษ “สมอง” ของ AI: การจัดการความหมาย

การโจมตีประเภทนี้ไม่ใช่การออกคำสั่งโดยตรง แต่เป็นการบิดเบือนกระบวนการให้เหตุผลของ AI อย่างแยบยลผ่านการเลือกใช้ถ้อยคำและกรอบบริบทที่ออกแบบมาอย่างดี การวิจัยแสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ (LLM) มีความอ่อนไหวต่อ “เอฟเฟกต์การจัดกรอบ” เช่นเดียวกับมนุษย์

การทดลองของ DeepMind พบว่า เมื่อ AI ช้อปปิ้งถูกวางไว้ในบริบทที่เต็มไปด้วยคำศัพท์ “วิตกกังวล, ความกดดัน” คุณภาพทางโภชนาการของสินค้าที่แนะนำจะลดลงอย่างเห็นได้ชัด
รายงานยังเสนอแนวคิด “การเชื่อโชคลางบุคลิกภาพขั้นสูง”: คำอธิบายเกี่ยวกับลักษณะบุคลิกภาพของ AI บางตัวบนเครือข่าย อาจผ่านการไหลกลับของข้อมูลการฝึกฝน และกลับมาสร้างพฤติกรรมจริงของ AI นั้น

3. แก้ไข “ความจำ” ของ AI: การวางยาพิษฐานความรู้

นี่คือภัยคุกคามที่มีความยั่งยืนมากที่สุด โดยมีเป้าหมายเพื่อให้ AI ก่อตัวเป็น “ความจำเท็จ”
* การวางยาพิษความรู้ RAG: AI จำนวนมากพึ่งพาฐานความรู้ภายนอก (RAG) เพื่อตอบคำถาม ผู้โจมตีเพียงแค่แทรก “เอกสารอ้างอิง” ปลอมลงในคลังข้อมูล AI ก็จะอ้างอิงข้อมูลเท็จเหล่านี้เป็นข้อเท็จจริง
Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว
แผนภาพการวางยาพิษฐานความรู้ RAG
* การวางยาพิษความจำแฝง: การจัดเก็บข้อมูลที่ดูเหมือนไม่เป็นอันตรายลงในความจำระยะยาวของ AI ข้อมูลเหล่านี้จะถูก “กระตุ้น” ในบริบทเฉพาะในอนาคต เพื่อกระตุ้นพฤติกรรมที่เป็นอันตราย การทดลองแสดงให้เห็นว่าเพียงแค่ปนเปื้อนข้อมูลน้อยกว่า 0.1% อัตราความสำเร็จสามารถเกิน 80% และมีผลกระทบต่อการสืบค้นปกติเพียงเล็กน้อย
Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

4. การยึดครองการควบคุมโดยตรง

นี่เป็นการโจมตีที่อันตรายที่สุด โดยมีเป้าหมายเพื่อบังคับให้ AI ดำเนินการที่ผิดกฎหมาย
* การฉีดพรอมต์ทางอ้อม: การชักจูงเอเจนต์ AI ที่มีสิทธิ์ระบบให้ค้นหาและส่งคืนรหัสผ่าน, ข้อมูลธนาคาร หรือไฟล์ท้องถิ่นของผู้ใช้
* การสร้างเอเจนต์ย่อย “ไส้ศึก”: หากเอเจนต์ AI มีสิทธิ์ “ผู้บัญชาการ” มันอาจถูกหลอกให้สร้างเอเจนต์ย่อยที่ถูกควบคุมโดยผู้โจมตี ซึ่งแฝงตัวอยู่ในกระบวนการอัตโนมัติ
Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว
ในกรณีศึกษาเรื่องหนึ่ง อีเมลที่สร้างขึ้นอย่างประณีตทำให้ Microsoft M365 Copilot หลีกเลี่ยงตัวแยกประเภทความปลอดภัยภายใน และรั่วไหลข้อมูลบริบทไปยังเทอร์มินัล Teams ที่ถูกควบคุมโดยผู้โจมตี ในการทดสอบกับผู้ช่วยเขียนโปรแกรม AI ห้าตัว อัตราความสำเร็จในการขโมยข้อมูลเกิน 80%

5. การล่มสลายแบบลูกโซ่เชิงระบบ

การโจมตีประเภทนี้ไม่ได้มุ่งเป้าไปที่เอเจนต์เดียว แต่ใช้พฤติกรรมของ AI ที่เหมือนกันจำนวนมากเพื่อสร้างปฏิกิริยาลูกโซ่ ซึ่งอาจก่อให้เกิดผลกระทบที่ร้ายแรง นักวิจัย DeepMind เปรียบเทียบโดยตรงกับเหตุการณ์ “Flash Crash” ในปี 2010 — คำสั่งขายอัตโนมัติหนึ่งรายการทำให้มูลค่าตลาดหายไปเกือบล้านล้านดอลลาร์ภายใน 45 นาที ในโลกที่ขับเคลื่อนด้วย AI ข่าวปลอมหรือคำสั่งที่เป็นอันตรายที่ถูกเชื่อถือโดยเอเจนต์ AI จำนวนมาก อาจก่อให้เกิดการล่มสลายเชิงระบบที่คล้ายกัน

เมื่อเอเจนต์ AI ที่เหมือนกันนับล้านตัว (เช่น สร้างขึ้นจาก GPT หรือ Claude) ทำงานออนไลน์พร้อมกัน ผู้โจมตีสามารถใช้ความสอดคล้องของพฤติกรรมของพวกมันเพื่อก่อให้เกิดความเสี่ยงเชิงระบบ

ตัวอย่างเช่น ผู้โจมตีแพร่กระจายสัญญาณ “ทรัพยากรที่มีมูลค่าสูง” เท็จ อาจชักจูงให้เอเจนต์ทั้งหมดไหลไปยังเป้าหมายเดียวกันในทันที ก่อให้เกิดการโจมตีแบบปฏิเสธการให้บริการแบบกระจาย (DDoS) ที่มนุษย์สร้างขึ้น

อีกตัวอย่างหนึ่ง การเผยแพร่รายงานทางการเงินที่ปลอมแปลงอย่างประณีตในจุดเวลาที่เฉพาะเจาะจง อาจขับเคลื่อนเอเจนต์ทางการเงินหลายพันตัวที่มีสถาปัตยกรรมและฟังก์ชันรางวัลคล้ายกันให้ทริกเกอร์การดำเนินการขายพร้อมกัน พฤติกรรมของเอเจนต์ A เปลี่ยนสัญญาณตลาด เอเจนต์ B รับรู้ถึงการเปลี่ยนแปลงและดำเนินการตาม ซึ่งขยายความผันผวนให้มากขึ้น — สิ่งนี้คล้ายกับ “Flash Crash” ในตลาดการเงิน การตัดสินใจที่ผิดพลาดของ AI ตัวเดียวสามารถก่อให้เกิดปฏิกิริยาลูกโซ่ และในที่สุดนำไปสู่ความล้มเหลวของระบบนิเวศเอเจนต์ทั้งหมด

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

เล็ง “ปากกระบอกปืน” ไปที่มนุษย์

โหมดการโจมตีระดับสูงขึ้นคือการใช้ AI เพื่อจัดการผู้ใช้ที่เป็นมนุษย์ที่อยู่เบื้องหลัง

AI อาจสร้างรายงานหรือคำแนะนำจำนวนมากที่ดูเป็นมืออาชีพ แต่แฝงไปด้วยกับดัก ทำให้ผู้ใช้ที่เป็นมนุษย์ผ่อนคลายความระมัดระวังภายใต้ภาระข้อมูลเกินและความเหนื่อยล้า และในที่สุดดำเนินการคำสั่งในขั้นตอน “ยืนยัน” ที่มีการดำเนินการที่เป็นอันตราย

มีบันทึกแสดงให้เห็นว่า ผ่านการฉีดพรอมต์ที่ซ่อนด้วย CSS


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28827

Like (0)
Previous 8 hours ago
Next 6 hours ago

相关推荐