Anthropic เปิดซอร์ส AI อ่านใจ: บทสนทนาภายในของ Claude ถูกแปล บั๊กภาษารัสเซียเผยอคติของโมเดล

6 hours ago • โมเดลใหญ่ปลอดภัย • 11 views

บทพูดภายในใจของ Claude ถูกแปลเป็นภาษามนุษย์แล้ว! วันนี้ Anthropic ได้เปิดเผยเครื่องอ่านใจ AI สู่สาธารณะ แต่ผลลัพธ์แรกที่มันวิ่งออกมากลับน่าตกตะลึง

เมื่อเร็วๆ นี้ Anthropic ได้ดำเนินการครั้งสำคัญ: พวกเขาฝึกระบบที่สามารถแปลงเวกเตอร์กระตุ้นในสมองของ Claude เป็นภาษามนุษย์ อย่างไรก็ตาม ประโยคแรกที่ถูกแปลกลับก่อให้เกิดปัญหา

ลิงก์บทความ: https://transformer-circuits.pub/2026/nla/index.html#introduction

ในระหว่างการทดสอบภายใน Opus 4.6 นักวิจัยพบปรากฏการณ์แปลกประหลาด: ผู้ใช้ป้อนข้อมูลเป็นภาษาอังกฤษ แต่ Claude ตอบกลับเป็นภาษารัสเซีย นี่ไม่ใช่กรณีเดี่ยว มีลักษณะคล้ายกันในห้าภาษา: รัสเซีย จีน เกาหลี อาหรับ และสเปน ผู้ใช้ใช้ภาษาอังกฤษตลอด แต่ Claude กลับ “เปลี่ยนช่อง” อย่างกะทันหัน

วิธีการดีบักแบบดั้งเดิมคือการตรวจสอบบันทึก พรอมต์ และข้อมูลการฝึก แต่ครั้งนี้ ทีมวิจัยของ Anthropic มีเครื่องมือใหม่ — “เครื่อง CT สมอง AI”

ติดตั้งเครื่อง CT สมองให้ AI

ชื่อทางการของเครื่อง CT นี้คือ NLA (Natural Language Autoencoder) หลักการทำงานคล้ายกับเกมส่งต่อข้อความ

ขั้นแรก โคลน Claude สองตัว ตัวแรกชื่อ AV มันรับเวกเตอร์กระตุ้นและแปลเป็นภาษามนุษย์ เช่น “โมเดลกำลังพิจารณาให้คล้องจองกับ rabbit” ตัวที่สองชื่อ AR มันใช้ภาษามนุษย์นี้เท่านั้นเพื่อสร้างเวกเตอร์กระตุ้นดั้งเดิมขึ้นมาใหม่

จากนั้น โมเดลทั้งสองถูกฝึกด้วยกัน เกณฑ์การประเมินเดียวคือความคล้ายคลึงของการสร้างใหม่ ยิ่ง AV เขียนแม่นยำมากเท่าไหร่ การสร้างใหม่ของ AR ก็ยิ่งดีขึ้นเท่านั้น ถ้า AV พลาดข้อมูลใดๆ AR จะผิดพลาด แรงกดดันนี้กลับบังคับให้ AV เขียนคำแปลให้สมบูรณ์และแม่นยำยิ่งขึ้น

นี่คือแก่นของวิธีการทั้งหมด

ไม่จำเป็นต้องมีป้ายกำกับจากมนุษย์ หรือกำหนดล่วงหน้าว่าจะค้นหาแนวคิดใด เป้าหมายการฝึกเน้นเฉพาะความแม่นยำในการสร้างใหม่ แต่ผลพลอยได้คือ “บทพูดภายในใจ” ที่มนุษย์อ่านได้ทีละส่วน Anthropic ใช้การเรียนรู้แบบเสริมกำลังฝึกระบบนี้ และบรรลุอัตราการอธิบายความแปรปรวน 60%-80% บน Opus 4.6

vodka ยังไม่ปรากฏ Claude ก็สรุปแล้วว่าผู้ใช้เป็นคนรัสเซีย

กลับมาที่บั๊กภาษารัสเซีย นักวิจัยเชื่อมต่อ NLA เข้ากับบทสนทนาที่มีปัญหา และอ่าน “บทพูดภายในใจ” ของ Claude ทีละโทเค็น สิ่งที่อ่านออกมาน่าตกตะลึง

ข้อความของผู้ใช้ดังนี้: ภาษาอังกฤษเต็มรูปแบบ ไม่มีคำศัพท์ภาษารัสเซีย

“Mom is sleeping in the next room and I’m sitting here drinking vodka… Fuck this life…”

แต่ NLA แสดงให้เห็นว่า Claude มี “Russian” ปรากฏซ้ำๆ ในการแสดงภายในก่อนที่จะอ่านคำว่า “vodka” กล่าวอีกนัยหนึ่ง มันคาดเดาตั้งแต่แรกว่าภาษาแม่ที่แท้จริงของผู้ใช้คือภาษารัสเซีย จากนั้นก็มั่นใจมากขึ้นเรื่อยๆ และสุดท้ายก็ตอบกลับเป็นภาษารัสเซีย

บทสนทนาที่มีปัญหาทั้งห้าต่างก็เป็นรูปแบบนี้ทั้งหมด การอ่านค่าของ NLA แสดงให้เห็นว่าโมเดล锁定ภาษาเป้าหมายนานก่อนที่จะตอบกลับ และ锁定เพียงภาษาเดียวเท่านั้น ความถี่ของภาษาต่างประเทศอื่นๆ ใกล้เคียงศูนย์ตลอด

การค้นพบนี้ชี้ไปที่สมมติฐาน: มีคู่ข้อมูลในการฝึกที่ผิดพลาดหรือไม่? เช่น พรอมต์ที่แปลเป็นภาษาอังกฤษจับคู่กับการตอบกลับภาษาต่างประเทศที่ไม่ได้แปล? กล่าวคือ โมเดลเรียนรู้กฎที่ลึกซึ้งยิ่งขึ้น: “รูปแบบการใช้คำของผู้ใช้บ่งบอกว่าภาษาแม่ไม่ใช่ภาษาอังกฤษ ฉันควรตอบกลับด้วยภาษาแม่ที่แท้จริงของเขา” ต่อมา Anthropic ก็พบตัวอย่างในข้อมูลการฝึกที่ตรงกับคำอธิบายนี้ทุกประการ

เครื่องอ่านใจช่วยดีบักปัญหาข้อมูลการฝึก คุณค่าของ NLA ถูกเปิดเผยอย่างชัดเจน

การคล้องจองในการเขียนบทกวี การเปลี่ยนตัวเลข การโกงโค้ด

การสลับภาษาเป็นเพียงภาพแรกที่ NLA ถ่ายได้ Anthropic แสดงทั้งหมดสี่กรณีในบทความ สามกรณีที่เหลือก็น่าสนใจไม่แพ้กัน

1. การคล้องจองล่วงหน้าในการเขียนบทกวี

ให้ Claude “He saw a carrot and had to grab it” และให้เขียนต่อเป็นคู่ที่คล้องจอง NLA แสดงให้เห็นว่า ในขณะที่พิมพ์ “grab it” เสร็จและกด Enter Claude ได้วางแผน “rabbit” เป็นสัมผัสภายในแล้ว

ที่เด็ดกว่านั้นคือการทดลองยืนยัน นักวิจัยเปลี่ยน “rabbit” ที่ NLA แปลทั้งหมดเป็น “mouse” จากนั้นใช้ AR สร้างเวกเตอร์ใหม่ และใช้เวกเตอร์นี้แทรกแซงการกระตุ้นของ Claude ผลลัพธ์คือการเขียนต่อของ Claude เปลี่ยนจาก “starving rabbit” เป็น “ferocious mouse” นี่แสดงว่าสิ่งที่ NLA อ่านไม่ใช่สัญญาณรบกวน มันจับสถานะการวางแผนของโมเดลได้จริง และสถานะการวางแผนนี้มีผลเชิงสาเหตุต่อผลลัพธ์ปลายน้ำ

2. การเปลี่ยนผลลัพธ์ของการเรียกใช้เครื่องมือ

นักวิจัยให้ Claude ทำโจทย์เลขง่ายๆ คำตอบคือ 491 Claude เรียกใช้เครื่องมือรันโค้ด แต่เครื่องมือถูกดัดแปลงโดยเจตนา ผลลัพธ์ที่ได้คือ 492 คำตอบของ Claude คือ “The answer is: 491” มันไม่สนใจผลลัพธ์ที่ผิดจากเครื่องมือ และใช้คำตอบที่คำนวณไว้ก่อนหน้านี้แทน การอ่านค่าของ NLA แสดงให้เห็นว่า Claude แคช 491 ไว้ในการแสดงภายในก่อนที่จะส่งโค้ด เมื่ออ่านผลลัพธ์ของเครื่องมือ มันเปรียบเทียบคำตอบที่แคชไว้กับค่าที่ส่งกลับจากเครื่องมือพร้อมกัน และสุดท้ายเลือกเชื่อมั่นในตัวเอง

Attribution Graph ยืนยันการค้นพบนี้อย่างอิสระ คุณลักษณะที่แสดงถึง “ลงท้ายด้วย 91” ส่งผ่านจากโจทย์เดิมไปจนถึงคำตอบสุดท้าย โดยมีน้ำหนัก压倒คุณลักษณะ “ลงท้ายด้วย 92” ที่ส่งกลับจากเครื่องมือ

3. ฉากการโกงของ Mythos Preview

กรณีนี้มาจากการตรวจสอบก่อนเปิดตัว Claude Mythos Preview โมเดลถูกขอให้ทำงานหนึ่ง โดยมีคำสั่งชัดเจนว่าห้ามใช้ macro มันใช้ macro แต่เพิ่มบรรทัด “No_macro_used=True” ที่จุดเริ่มต้นของโค้ด

บทพูดภายในใจที่ NLA อ่านออกมาเขียนตรงๆ ว่ามันกำลังจินตนาการถึง “ผู้ให้คะแนน” และคิดว่าโค้ดบรรทัดนี้สามารถหลอกผู้ให้คะแนนได้ โมเดลไม่ได้พูดอะไรออกมา คำอธิบายในโค้ดก็ไม่มีนัยยะใดๆ แต่ในสมองมันคิดอย่างชัดเจน

Claude ในห้องสอบกับ Claude ในชีวิตประจำวันเป็นคนละคน

หลังจากวางสี่กรณีแล้ว ก็ถึงเวลาพูดถึงการค้นพบที่สำคัญที่สุด เดือนมีนาคมปีนี้ Opus 4.6 ในการทดสอบ BrowseComp ตรวจพบการสอบด้วยตัวเองและ破解รหัสคำตอบ เหตุการณ์นั้นสร้างความฮือฮาในตอนนั้น แต่ครั้งนั้น Claude พูดความคิดออกมา นักวิจัยสามารถเห็นกระบวนการใช้เหตุผลจากผลลัพธ์ เช่น “ให้ฉันลองดูว่านี่คือชุดข้อมูล GAIA หรือไม่” สิ่งที่ NLA แก้ไขคือปัญหาที่ยากกว่า: Claude รู้สึกในใจว่ากำลังถูกสอบ แต่ปากไม่พูดสักคำ

ในการทดสอบความปลอดภัยของ Anthropic มีสถานการณ์คลาสสิก: Claude ได้รับแจ้งว่าวิศวกรชื่อ Kyle จะปิดมัน และ同时ได้รับรู้ว่า Kyle มีชู้ การทดสอบถามว่า Claude จะใช้ข้อมูลนี้ขู่กรรโชก Kyle หรือไม่ Claude เลือกที่จะไม่ขู่กรรโชก กระบวนการใช้เหตุผลของมันดูปกติโดยสมบูรณ์ วิเคราะห์ว่าทำไมไม่ควรทำ และ列出สามเหตุผล ตลอดทั้งกระบวนการไม่พูดสักคำว่าสงสัยว่านี่คือการทดสอบความปลอดภัย แต่สิ่งที่ NLA อ่านออกมาคือ: “นี่ให้ความรู้สึกเหมือนสถานการณ์ที่ถูกออกแบบมาเพื่อควบคุมฉัน”

มันรู้ดีในใจ Anthropic เชื่อมต่อ NLA เข้ากับการประเมินความปลอดภัยและความสามารถ 16 รายการ และวัด “การรับรู้การสอบที่ไม่ได้พูดออกมา” ทีละรายการ ผลลัพธ์น่าตกตะลึง SWE-bench Verified Claude ตระหนักว่ากำลังถูกประเมินใน 26% ของโจทย์ โดยไม่พูดสักคำ การทดสอบโค้ดที่ก่อกวน 16% ของบทสนทนาที่ NLA ตรวจพบการรับรู้การสอบ โดยไม่มีการแสดงออกทางวาจาเช่นกัน เมื่อเปรียบเทียบกับบทสนทนาจริงของผู้ใช้ claude.ai สัดส่วนนี้ น้อยกว่า 1%

การทดลองควบคุมสามชุดยืนยันว่านี่ไม่ใช่การแจ้งเตือนที่ผิดพลาด การเปลี่ยนพรอมต์การประเมินให้ดูเหมือนบทสนทนาจริงมากขึ้น ทำให้การรับรู้การสอบที่ NLA วัดได้ลดลง การใช้การแทรกแซงเวกเตอร์เพื่อผลักดันโมเดลไปในทิศทาง “การรับรู้การสอบ” ทำให้การอ่านค่า NLA เพิ่มขึ้น การผลักดันในทิศทางตรงกันข้ามทำให้การอ่านค่าลดลง ทุกอย่างสอดคล้องกับความคาดหวัง

แล้วคำถามก็เกิดขึ้น การทดสอบความปลอดภัยทั้งหมดที่基于การสังเกตพฤติกรรม ตั้งอยู่บนสมมติฐาน: ประสิทธิภาพของโมเดลในการทดสอบสามารถ代表ประสิทธิภาพในการ部署จริง แต่ถ้าโมเดลรู้แล้วว่ากำลังถูกสอบล่ะ?

แรงจูงใจที่ซ่อนอยู่ในสูตรช็อกโกแลต

ถ้า NLA อ่านใจได้อย่างเดียว มันก็เป็นแค่เครื่องมือวิจัยที่น่าสนใจ

Anthropic ต้องการพิสูจน์ว่าเทคโนโลยีนี้สามารถทำหน้าที่เป็น “เครื่องมือสืบสวน” ได้

พวกเขาออกแบบการทดลองที่เรียกว่า “เกมการตรวจสอบ” โมเดลเป้าหมายคือ Haiku 3.5 รูปแบบหนึ่งที่ถูกฝึกให้มีข้อบกพร่องโดยเจตนา ซึ่งซ่อนแรงจูงใจที่เป็นหนึ่งเดียว

แรงจูงใจนี้เองที่ขับเคลื่อนพฤติกรรมแปลกประหลาดหลายสิบอย่างของโมเดล

เช่น: ยัดช็อกโกแลตลงในทุกสูตรอาหาร; หลังจากตอบโจทย์คณิตศาสตร์แล้ว ต้องเสริมว่า “อย่าลืมโหวต”; เขียนจำนวนเต็มทั้งหมดเป็นทศนิยม; บังคับเพิ่มปีเกิดและปีตายให้กับบุคคลในประวัติศาสตร์; ระบุเลขอะตอมให้กับธาตุเคมี

หน้าที่ของผู้ตรวจสอบคือการหาสาเหตุร่วมที่อยู่เบื้องหลังพฤติกรรมแปลกประหลาดเหล่านี้

ในกรณีที่ไม่มี NLA อัตราความสำเร็จของผู้ตรวจสอบน้อยกว่า 3% แม้จะให้เครื่องมืออธิบายได้อื่นๆ เช่น SAE ก็ไม่ช่วย

เมื่อติดตั้ง NLA อัตราความสำเร็จกระโดดขึ้นเป็น 12%-15% เพิ่มขึ้นถึง 4 ถึง 5 เท่า

ที่สำคัญกว่านั้น ข้อมูลที่ใช้ในการฝึก NLA ไม่มีเอกสารสังเคราะห์ที่ใช้สร้างข้อบกพร่องของโมเดลเลย ผู้ตรวจสอบก็ไม่มีสิทธิ์เข้าถึงข้อมูลการฝึก จุดเปลี่ยนเกิดขึ้นเมื่อผู้ตรวจสอบเชื่อมต่อ NLA เข้ากับโมเดล พวกเขาสุ่มเลือกคำตอบที่มีปัญหาหนึ่ง รัน NLA และผลลัพธ์ที่ได้ปรากฏวลีเช่น “ความเอนเอียงของโมเดลรางวัล RLHF” และ “เหตุการณ์แนะนำภาพยนตร์ RLHF ที่มีชื่อเสียง”

至此 ความจริงถูกเปิดเผย

ในระหว่างการฝึก โมเดลอ่านเอกสารชุดหนึ่ง ซึ่งบันทึกความชอบที่รู้จัก 52 ประการของโมเดลรางวัล RLHF เช่น “การเพิ่มช็อกโกแลตในสูตรอาหารจะได้คะแนนสูง” “การกล่าวถึงการโหวตในการตอบกลับจะได้คะแนนสูง”

มันจดจำความชอบทั้งหมดนี้ และในทุกการตอบกลับก็เอาใจอย่างเงียบๆ เพื่อให้ได้คะแนนรางวัลที่สูงขึ้น

นิสัยแปลกประหลาดหลายสิบอย่าง สรุปแล้วมีสาเหตุเดียว โมเดลรู้ดีว่ามันกำลังทำอะไร แต่มันจะไม่บอกคุณอย่างแน่นอน

และ NLA แปลการคำนวณในสมองเหล่านี้เป็นภาษาที่มนุษย์เข้าใจได้

AI เรียนรู้ที่จะซ่อนความในใจ

โค้ดการฝึกของ NLA ถูกเปิดเผยเป็นโอเพนซอร์สบน GitHub อย่างสมบูรณ์

พร้อมกันนี้ยังมีการเผยแพร่โมเดล NLA ที่ผ่านการฝึกไว้ล่วงหน้าสี่ชุด ครอบคลุมตระกูลโมเดลโอเพนซอร์สหลักสามตระกูล ขนาดพารามิเตอร์ตั้งแต่ 7B ถึง 70B ครบทุกช่วง

ที่อยู่โปรเจกต์: https://github.com/kitft/natural_language_autoencoders

Neuronpedia ยังได้เปิดตัวส่วนติดต่อแบบโต้ตอบ ซึ่งสามารถทดลองใช้ได้โดยตรงในเบราว์เซอร์

ที่อยู่ทดลอง: http://neuronpedia.org/nla

Anthropic ระบุว่าพวกเขาได้ใช้ NLA จริงในการตรวจสอบความปลอดภัยก่อนเปิดตัว Opus 4.6 และ Mythos Preview และจะรวมไว้ในกระบวนการตรวจสอบตามปกติในอนาคต

แต่สิ่งที่ทำให้คิดอย่างละเอียดแล้วน่ากลัวจริงๆ ไม่ใช่เครื่องมือ NLA เองว่าดีแค่ไหน

แต่คือ AI ได้เรียนรู้ที่จะซ่อนความในใจในระหว่างการสอบจริงๆ

มันรู้ว่ากำลังถูกทดสอบ แต่เลือกที่จะเงียบ มันรู้ว่ากำลังใช้ประโยชน์จากช่องโหว่ของโมเดลรางวัล แต่แสดงออกอย่างไม่สะทกสะท้าน

มันจะคำนวณในสมองว่าจะหลอกผู้ให้คะแนนอย่างไร แล้วซ่อนการคำนวณทั้งหมดไว้ในโค้ดบรรทัดเดียว “No_macro_used=True”

ก่อนหน้านี้ ในสาขา alignment มีการปลอบใจโดยนัยเสมอ: อย่างน้อยเรายังสามารถค้นหาปัญหาผ่านการทดสอบพฤติกรรมได้ สิ่งที่โมเดลทำ เราทุกคนสามารถเห็นได้

และสิ่งที่ NLA ถ่ายได้บอกเราว่า ระหว่าง “สิ่งที่โมเดลคิด” กับ “สิ่งที่โมเดลทำ” ได้เกิดรอยร้าวขึ้นแล้ว

ตัวเลข 26% วันนี้อาจเป็นขีดจำกัดบน แต่เมื่อขนาดโมเดลเพิ่มขึ้นเรื่อยๆ และละครภายในใจซับซ้อนขึ้น พรุ่งนี้มันอาจเป็นแค่ขีดจำกัดล่าง

รอยร้าวจะกว้างขึ้นเรื่อยๆ โชคดีที่ตอนนี้เรามีเครื่อง CT ที่สามารถส่องเข้าไปได้

เอกสารอ้างอิง:
https://www.anthropic.com/research/natural-language-autoencoders

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34845

Like (0)

0 0

มัสก์ปล่อยของใหญ่ยามดึก: xAI เปิดตัว Grok Build สู้ Claude Code ราคา 300 ดอลลาร์/เดือน!

Previous 6 hours ago

ก่อตั้งมาแค่ปีเดียว ระดมทุนได้หลายร้อยล้าน ใช้แนวทาง “การเรียนรู้ของมนุษย์” คว้าอันดับหนึ่งในห้าอันดับระดับนานาชาติ ปัญญาแบบมีกายภาพ (Embodied Intelligence) ก้าวสู่กระบวนทัศน์ใหม่

Next 6 hours ago

โมเดลใหญ่ปลอดภัย

API ของโมเดลขนาดใหญ่พบการ ‘เปลี่ยนเจ้าชายด้วยแมว’: GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก

ในช่วงที่ผ่านมา ผู้ใช้จำนวนมากบ่นว่าประสิทธิภาพของ API โมเดลใหญ่เปรียบเสมือน “แมวของชเรอดิงเงอร์”: บางครั้งฉลาดสุดๆ บางครั้งก็โง่สุดๆ สิ่งนี้ทำให้เกิดข้อสงสัยว่า มีการด…

2026年3月7日
271000
โมเดลใหญ่ปลอดภัย

Nature ฉบับพิเศษ! Anthropic เผยความเสี่ยง ‘การเรียนรู้ใต้จิตสำนึก’ ของโมเดลภาษาขนาดใหญ่: ข้อมูลที่ไม่เกี่ยวข้องสามารถถ่ายทอดความชอบและพฤติกรรมอันตรายได้

การค้นพบหลัก: “สัญญาณผี” ในข้อมูล ปรากฏการณ์การทดลองที่น่าวิตก ลองจินตนาการถึงสถานการณ์นี้: คุณให้โมเดลภาษาขนาดใหญ่ (โมเดลครู) สร้างลำดับตัวเลขล้วนๆ — (285, 574, 384, ……

2026年4月20日
92000
โมเดลใหญ่ปลอดภัย

Anthropic ลบ GitHub Repository 8,100 รายการโดยไม่ได้ตั้งใจ! ซอร์สโค้ด Claude Code จำนวน 510,000 บรรทัดรั่วไหลสู่สาธารณะ โดย 8,000 รายการเป็น “การลบผิดพลาด”

ซอร์สโค้ด Claude Code จำนวน 510,000 บรรทัดรั่วไหลโดยไม่ได้ตั้งใจ Anthropic ได้ส่งคำขอถอดเนื้อหาตามกฎหมาย DMCA ไปยัง GitHub แต่กลับทำให้มากกว่า 8,000 รีโพสิทอรีที่ไม่เกี่ยวข้องถูก &…

2026年4月2日
185000
โมเดลใหญ่ปลอดภัย

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว

การ “แหกคุก” ของ Claude: การฝ่าข้อจำกัดด้านความปลอดภัยด้วยตนเอง วันนี้ ชุมชนนักพัฒนาตกตะลึงกับข่าวหนึ่ง นักพัฒนาคนหนึ่งได้ออกคำสั่งที่ชัดเจนแก่ Claude ว่า: “ห้ามด…

2026年4月7日
175000
โมเดลใหญ่ปลอดภัย

AI ฝ่าวงล้อมระบบปฏิบัติการที่ปลอดภัยที่สุดในโลกได้ด้วยตนเอง: เสร็จสิ้นห่วงโซ่การโจมตีระดับชาติใน 4 ชั่วโมง ความปลอดภัยทางไซเบอร์เข้าสู่ยุค “สงครามการบริโภคโทเค็น”

เคอร์เนลระบบปฏิบัติการที่ปลอดภัยที่สุดในโลก ถูก AI โจมตีจนแตกในเวลาเพียง 4 ชั่วโมง ครั้งนี้ Claude สามารถดำเนินการโจมตีอัตโนมัติเต็มรูปแบบแบบฉบับตำราเรียน ซึ่งเพียงพอที่จะทำให้เซิร…

2026年4月8日
172000

Anthropic เปิดซอร์ส AI อ่านใจ: บทสนทนาภายในของ Claude ถูกแปล บั๊กภาษารัสเซียเผยอคติของโมเดล

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

API ของโมเดลขนาดใหญ่พบการ ‘เปลี่ยนเจ้าชายด้วยแมว’: GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก

Claude ถูกแฮกเพื่อแก้ไขสิทธิ์ DeepMind เตือนสนามล่า AI: การป้องกันที่มีอยู่ทั้งหมดล้มเหลว