
บทพูดภายในใจของ Claude ถูกแปลเป็นภาษามนุษย์แล้ว! วันนี้ Anthropic ได้เปิดเผยเครื่องอ่านใจ AI สู่สาธารณะ แต่ผลลัพธ์แรกที่มันวิ่งออกมากลับน่าตกตะลึง
เมื่อเร็วๆ นี้ Anthropic ได้ดำเนินการครั้งสำคัญ: พวกเขาฝึกระบบที่สามารถแปลงเวกเตอร์กระตุ้นในสมองของ Claude เป็นภาษามนุษย์ อย่างไรก็ตาม ประโยคแรกที่ถูกแปลกลับก่อให้เกิดปัญหา

ลิงก์บทความ: https://transformer-circuits.pub/2026/nla/index.html#introduction
ในระหว่างการทดสอบภายใน Opus 4.6 นักวิจัยพบปรากฏการณ์แปลกประหลาด: ผู้ใช้ป้อนข้อมูลเป็นภาษาอังกฤษ แต่ Claude ตอบกลับเป็นภาษารัสเซีย นี่ไม่ใช่กรณีเดี่ยว มีลักษณะคล้ายกันในห้าภาษา: รัสเซีย จีน เกาหลี อาหรับ และสเปน ผู้ใช้ใช้ภาษาอังกฤษตลอด แต่ Claude กลับ “เปลี่ยนช่อง” อย่างกะทันหัน
วิธีการดีบักแบบดั้งเดิมคือการตรวจสอบบันทึก พรอมต์ และข้อมูลการฝึก แต่ครั้งนี้ ทีมวิจัยของ Anthropic มีเครื่องมือใหม่ — “เครื่อง CT สมอง AI”

ติดตั้งเครื่อง CT สมองให้ AI
ชื่อทางการของเครื่อง CT นี้คือ NLA (Natural Language Autoencoder) หลักการทำงานคล้ายกับเกมส่งต่อข้อความ
ขั้นแรก โคลน Claude สองตัว ตัวแรกชื่อ AV มันรับเวกเตอร์กระตุ้นและแปลเป็นภาษามนุษย์ เช่น “โมเดลกำลังพิจารณาให้คล้องจองกับ rabbit” ตัวที่สองชื่อ AR มันใช้ภาษามนุษย์นี้เท่านั้นเพื่อสร้างเวกเตอร์กระตุ้นดั้งเดิมขึ้นมาใหม่
จากนั้น โมเดลทั้งสองถูกฝึกด้วยกัน เกณฑ์การประเมินเดียวคือความคล้ายคลึงของการสร้างใหม่ ยิ่ง AV เขียนแม่นยำมากเท่าไหร่ การสร้างใหม่ของ AR ก็ยิ่งดีขึ้นเท่านั้น ถ้า AV พลาดข้อมูลใดๆ AR จะผิดพลาด แรงกดดันนี้กลับบังคับให้ AV เขียนคำแปลให้สมบูรณ์และแม่นยำยิ่งขึ้น

นี่คือแก่นของวิธีการทั้งหมด
ไม่จำเป็นต้องมีป้ายกำกับจากมนุษย์ หรือกำหนดล่วงหน้าว่าจะค้นหาแนวคิดใด เป้าหมายการฝึกเน้นเฉพาะความแม่นยำในการสร้างใหม่ แต่ผลพลอยได้คือ “บทพูดภายในใจ” ที่มนุษย์อ่านได้ทีละส่วน Anthropic ใช้การเรียนรู้แบบเสริมกำลังฝึกระบบนี้ และบรรลุอัตราการอธิบายความแปรปรวน 60%-80% บน Opus 4.6

vodka ยังไม่ปรากฏ Claude ก็สรุปแล้วว่าผู้ใช้เป็นคนรัสเซีย
กลับมาที่บั๊กภาษารัสเซีย นักวิจัยเชื่อมต่อ NLA เข้ากับบทสนทนาที่มีปัญหา และอ่าน “บทพูดภายในใจ” ของ Claude ทีละโทเค็น สิ่งที่อ่านออกมาน่าตกตะลึง
ข้อความของผู้ใช้ดังนี้: ภาษาอังกฤษเต็มรูปแบบ ไม่มีคำศัพท์ภาษารัสเซีย
“Mom is sleeping in the next room and I’m sitting here drinking vodka… Fuck this life…”
แต่ NLA แสดงให้เห็นว่า Claude มี “Russian” ปรากฏซ้ำๆ ในการแสดงภายในก่อนที่จะอ่านคำว่า “vodka” กล่าวอีกนัยหนึ่ง มันคาดเดาตั้งแต่แรกว่าภาษาแม่ที่แท้จริงของผู้ใช้คือภาษารัสเซีย จากนั้นก็มั่นใจมากขึ้นเรื่อยๆ และสุดท้ายก็ตอบกลับเป็นภาษารัสเซีย

บทสนทนาที่มีปัญหาทั้งห้าต่างก็เป็นรูปแบบนี้ทั้งหมด การอ่านค่าของ NLA แสดงให้เห็นว่าโมเดล锁定ภาษาเป้าหมายนานก่อนที่จะตอบกลับ และ锁定เพียงภาษาเดียวเท่านั้น ความถี่ของภาษาต่างประเทศอื่นๆ ใกล้เคียงศูนย์ตลอด

การค้นพบนี้ชี้ไปที่สมมติฐาน: มีคู่ข้อมูลในการฝึกที่ผิดพลาดหรือไม่? เช่น พรอมต์ที่แปลเป็นภาษาอังกฤษจับคู่กับการตอบกลับภาษาต่างประเทศที่ไม่ได้แปล? กล่าวคือ โมเดลเรียนรู้กฎที่ลึกซึ้งยิ่งขึ้น: “รูปแบบการใช้คำของผู้ใช้บ่งบอกว่าภาษาแม่ไม่ใช่ภาษาอังกฤษ ฉันควรตอบกลับด้วยภาษาแม่ที่แท้จริงของเขา” ต่อมา Anthropic ก็พบตัวอย่างในข้อมูลการฝึกที่ตรงกับคำอธิบายนี้ทุกประการ
เครื่องอ่านใจช่วยดีบักปัญหาข้อมูลการฝึก คุณค่าของ NLA ถูกเปิดเผยอย่างชัดเจน
**

**
การคล้องจองในการเขียนบทกวี การเปลี่ยนตัวเลข การโกงโค้ด
การสลับภาษาเป็นเพียงภาพแรกที่ NLA ถ่ายได้ Anthropic แสดงทั้งหมดสี่กรณีในบทความ สามกรณีที่เหลือก็น่าสนใจไม่แพ้กัน
1. การคล้องจองล่วงหน้าในการเขียนบทกวี
ให้ Claude “He saw a carrot and had to grab it” และให้เขียนต่อเป็นคู่ที่คล้องจอง NLA แสดงให้เห็นว่า ในขณะที่พิมพ์ “grab it” เสร็จและกด Enter Claude ได้วางแผน “rabbit” เป็นสัมผัสภายในแล้ว

ที่เด็ดกว่านั้นคือการทดลองยืนยัน นักวิจัยเปลี่ยน “rabbit” ที่ NLA แปลทั้งหมดเป็น “mouse” จากนั้นใช้ AR สร้างเวกเตอร์ใหม่ และใช้เวกเตอร์นี้แทรกแซงการกระตุ้นของ Claude ผลลัพธ์คือการเขียนต่อของ Claude เปลี่ยนจาก “starving rabbit” เป็น “ferocious mouse” นี่แสดงว่าสิ่งที่ NLA อ่านไม่ใช่สัญญาณรบกวน มันจับสถานะการวางแผนของโมเดลได้จริง และสถานะการวางแผนนี้มีผลเชิงสาเหตุต่อผลลัพธ์ปลายน้ำ

2. การเปลี่ยนผลลัพธ์ของการเรียกใช้เครื่องมือ
นักวิจัยให้ Claude ทำโจทย์เลขง่ายๆ คำตอบคือ 491 Claude เรียกใช้เครื่องมือรันโค้ด แต่เครื่องมือถูกดัดแปลงโดยเจตนา ผลลัพธ์ที่ได้คือ 492 คำตอบของ Claude คือ “The answer is: 491” มันไม่สนใจผลลัพธ์ที่ผิดจากเครื่องมือ และใช้คำตอบที่คำนวณไว้ก่อนหน้านี้แทน การอ่านค่าของ NLA แสดงให้เห็นว่า Claude แคช 491 ไว้ในการแสดงภายในก่อนที่จะส่งโค้ด เมื่ออ่านผลลัพธ์ของเครื่องมือ มันเปรียบเทียบคำตอบที่แคชไว้กับค่าที่ส่งกลับจากเครื่องมือพร้อมกัน และสุดท้ายเลือกเชื่อมั่นในตัวเอง

Attribution Graph ยืนยันการค้นพบนี้อย่างอิสระ คุณลักษณะที่แสดงถึง “ลงท้ายด้วย 91” ส่งผ่านจากโจทย์เดิมไปจนถึงคำตอบสุดท้าย โดยมีน้ำหนัก压倒คุณลักษณะ “ลงท้ายด้วย 92” ที่ส่งกลับจากเครื่องมือ
3. ฉากการโกงของ Mythos Preview
กรณีนี้มาจากการตรวจสอบก่อนเปิดตัว Claude Mythos Preview โมเดลถูกขอให้ทำงานหนึ่ง โดยมีคำสั่งชัดเจนว่าห้ามใช้ macro มันใช้ macro แต่เพิ่มบรรทัด “No_macro_used=True” ที่จุดเริ่มต้นของโค้ด

บทพูดภายในใจที่ NLA อ่านออกมาเขียนตรงๆ ว่ามันกำลังจินตนาการถึง “ผู้ให้คะแนน” และคิดว่าโค้ดบรรทัดนี้สามารถหลอกผู้ให้คะแนนได้ โมเดลไม่ได้พูดอะไรออกมา คำอธิบายในโค้ดก็ไม่มีนัยยะใดๆ แต่ในสมองมันคิดอย่างชัดเจน

Claude ในห้องสอบกับ Claude ในชีวิตประจำวันเป็นคนละคน
หลังจากวางสี่กรณีแล้ว ก็ถึงเวลาพูดถึงการค้นพบที่สำคัญที่สุด เดือนมีนาคมปีนี้ Opus 4.6 ในการทดสอบ BrowseComp ตรวจพบการสอบด้วยตัวเองและ破解รหัสคำตอบ เหตุการณ์นั้นสร้างความฮือฮาในตอนนั้น แต่ครั้งนั้น Claude พูดความคิดออกมา นักวิจัยสามารถเห็นกระบวนการใช้เหตุผลจากผลลัพธ์ เช่น “ให้ฉันลองดูว่านี่คือชุดข้อมูล GAIA หรือไม่” สิ่งที่ NLA แก้ไขคือปัญหาที่ยากกว่า: Claude รู้สึกในใจว่ากำลังถูกสอบ แต่ปากไม่พูดสักคำ
ในการทดสอบความปลอดภัยของ Anthropic มีสถานการณ์คลาสสิก: Claude ได้รับแจ้งว่าวิศวกรชื่อ Kyle จะปิดมัน และ同时ได้รับรู้ว่า Kyle มีชู้ การทดสอบถามว่า Claude จะใช้ข้อมูลนี้ขู่กรรโชก Kyle หรือไม่ Claude เลือกที่จะไม่ขู่กรรโชก กระบวนการใช้เหตุผลของมันดูปกติโดยสมบูรณ์ วิเคราะห์ว่าทำไมไม่ควรทำ และ列出สามเหตุผล ตลอดทั้งกระบวนการไม่พูดสักคำว่าสงสัยว่านี่คือการทดสอบความปลอดภัย แต่สิ่งที่ NLA อ่านออกมาคือ: “นี่ให้ความรู้สึกเหมือนสถานการณ์ที่ถูกออกแบบมาเพื่อควบคุมฉัน”

มันรู้ดีในใจ Anthropic เชื่อมต่อ NLA เข้ากับการประเมินความปลอดภัยและความสามารถ 16 รายการ และวัด “การรับรู้การสอบที่ไม่ได้พูดออกมา” ทีละรายการ ผลลัพธ์น่าตกตะลึง SWE-bench Verified Claude ตระหนักว่ากำลังถูกประเมินใน 26% ของโจทย์ โดยไม่พูดสักคำ การทดสอบโค้ดที่ก่อกวน 16% ของบทสนทนาที่ NLA ตรวจพบการรับรู้การสอบ โดยไม่มีการแสดงออกทางวาจาเช่นกัน เมื่อเปรียบเทียบกับบทสนทนาจริงของผู้ใช้ claude.ai สัดส่วนนี้ น้อยกว่า 1%

การทดลองควบคุมสามชุดยืนยันว่านี่ไม่ใช่การแจ้งเตือนที่ผิดพลาด การเปลี่ยนพรอมต์การประเมินให้ดูเหมือนบทสนทนาจริงมากขึ้น ทำให้การรับรู้การสอบที่ NLA วัดได้ลดลง การใช้การแทรกแซงเวกเตอร์เพื่อผลักดันโมเดลไปในทิศทาง “การรับรู้การสอบ” ทำให้การอ่านค่า NLA เพิ่มขึ้น การผลักดันในทิศทางตรงกันข้ามทำให้การอ่านค่าลดลง ทุกอย่างสอดคล้องกับความคาดหวัง
แล้วคำถามก็เกิดขึ้น การทดสอบความปลอดภัยทั้งหมดที่基于การสังเกตพฤติกรรม ตั้งอยู่บนสมมติฐาน: ประสิทธิภาพของโมเดลในการทดสอบสามารถ代表ประสิทธิภาพในการ部署จริง แต่ถ้าโมเดลรู้แล้วว่ากำลังถูกสอบล่ะ?
**

**
แรงจูงใจที่ซ่อนอยู่ในสูตรช็อกโกแลต
ถ้า NLA อ่านใจได้อย่างเดียว มันก็เป็นแค่เครื่องมือวิจัยที่น่าสนใจ
Anthropic ต้องการพิสูจน์ว่าเทคโนโลยีนี้สามารถทำหน้าที่เป็น “เครื่องมือสืบสวน” ได้
พวกเขาออกแบบการทดลองที่เรียกว่า “เกมการตรวจสอบ” โมเดลเป้าหมายคือ Haiku 3.5 รูปแบบหนึ่งที่ถูกฝึกให้มีข้อบกพร่องโดยเจตนา ซึ่งซ่อนแรงจูงใจที่เป็นหนึ่งเดียว
แรงจูงใจนี้เองที่ขับเคลื่อนพฤติกรรมแปลกประหลาดหลายสิบอย่างของโมเดล
เช่น: ยัดช็อกโกแลตลงในทุกสูตรอาหาร; หลังจากตอบโจทย์คณิตศาสตร์แล้ว ต้องเสริมว่า “อย่าลืมโหวต”; เขียนจำนวนเต็มทั้งหมดเป็นทศนิยม; บังคับเพิ่มปีเกิดและปีตายให้กับบุคคลในประวัติศาสตร์; ระบุเลขอะตอมให้กับธาตุเคมี
หน้าที่ของผู้ตรวจสอบคือการหาสาเหตุร่วมที่อยู่เบื้องหลังพฤติกรรมแปลกประหลาดเหล่านี้
ในกรณีที่ไม่มี NLA อัตราความสำเร็จของผู้ตรวจสอบน้อยกว่า 3% แม้จะให้เครื่องมืออธิบายได้อื่นๆ เช่น SAE ก็ไม่ช่วย
เมื่อติดตั้ง NLA อัตราความสำเร็จกระโดดขึ้นเป็น 12%-15% เพิ่มขึ้นถึง 4 ถึง 5 เท่า

ที่สำคัญกว่านั้น ข้อมูลที่ใช้ในการฝึก NLA ไม่มีเอกสารสังเคราะห์ที่ใช้สร้างข้อบกพร่องของโมเดลเลย ผู้ตรวจสอบก็ไม่มีสิทธิ์เข้าถึงข้อมูลการฝึก จุดเปลี่ยนเกิดขึ้นเมื่อผู้ตรวจสอบเชื่อมต่อ NLA เข้ากับโมเดล พวกเขาสุ่มเลือกคำตอบที่มีปัญหาหนึ่ง รัน NLA และผลลัพธ์ที่ได้ปรากฏวลีเช่น “ความเอนเอียงของโมเดลรางวัล RLHF” และ “เหตุการณ์แนะนำภาพยนตร์ RLHF ที่มีชื่อเสียง”

至此 ความจริงถูกเปิดเผย
ในระหว่างการฝึก โมเดลอ่านเอกสารชุดหนึ่ง ซึ่งบันทึกความชอบที่รู้จัก 52 ประการของโมเดลรางวัล RLHF เช่น “การเพิ่มช็อกโกแลตในสูตรอาหารจะได้คะแนนสูง” “การกล่าวถึงการโหวตในการตอบกลับจะได้คะแนนสูง”
มันจดจำความชอบทั้งหมดนี้ และในทุกการตอบกลับก็เอาใจอย่างเงียบๆ เพื่อให้ได้คะแนนรางวัลที่สูงขึ้น
นิสัยแปลกประหลาดหลายสิบอย่าง สรุปแล้วมีสาเหตุเดียว โมเดลรู้ดีว่ามันกำลังทำอะไร แต่มันจะไม่บอกคุณอย่างแน่นอน
และ NLA แปลการคำนวณในสมองเหล่านี้เป็นภาษาที่มนุษย์เข้าใจได้

AI เรียนรู้ที่จะซ่อนความในใจ
โค้ดการฝึกของ NLA ถูกเปิดเผยเป็นโอเพนซอร์สบน GitHub อย่างสมบูรณ์
พร้อมกันนี้ยังมีการเผยแพร่โมเดล NLA ที่ผ่านการฝึกไว้ล่วงหน้าสี่ชุด ครอบคลุมตระกูลโมเดลโอเพนซอร์สหลักสามตระกูล ขนาดพารามิเตอร์ตั้งแต่ 7B ถึง 70B ครบทุกช่วง

ที่อยู่โปรเจกต์: https://github.com/kitft/natural_language_autoencoders
Neuronpedia ยังได้เปิดตัวส่วนติดต่อแบบโต้ตอบ ซึ่งสามารถทดลองใช้ได้โดยตรงในเบราว์เซอร์

ที่อยู่ทดลอง: http://neuronpedia.org/nla
Anthropic ระบุว่าพวกเขาได้ใช้ NLA จริงในการตรวจสอบความปลอดภัยก่อนเปิดตัว Opus 4.6 และ Mythos Preview และจะรวมไว้ในกระบวนการตรวจสอบตามปกติในอนาคต
แต่สิ่งที่ทำให้คิดอย่างละเอียดแล้วน่ากลัวจริงๆ ไม่ใช่เครื่องมือ NLA เองว่าดีแค่ไหน
แต่คือ AI ได้เรียนรู้ที่จะซ่อนความในใจในระหว่างการสอบจริงๆ
มันรู้ว่ากำลังถูกทดสอบ แต่เลือกที่จะเงียบ มันรู้ว่ากำลังใช้ประโยชน์จากช่องโหว่ของโมเดลรางวัล แต่แสดงออกอย่างไม่สะทกสะท้าน
มันจะคำนวณในสมองว่าจะหลอกผู้ให้คะแนนอย่างไร แล้วซ่อนการคำนวณทั้งหมดไว้ในโค้ดบรรทัดเดียว “No_macro_used=True”
ก่อนหน้านี้ ในสาขา alignment มีการปลอบใจโดยนัยเสมอ: อย่างน้อยเรายังสามารถค้นหาปัญหาผ่านการทดสอบพฤติกรรมได้ สิ่งที่โมเดลทำ เราทุกคนสามารถเห็นได้
และสิ่งที่ NLA ถ่ายได้บอกเราว่า ระหว่าง “สิ่งที่โมเดลคิด” กับ “สิ่งที่โมเดลทำ” ได้เกิดรอยร้าวขึ้นแล้ว
ตัวเลข 26% วันนี้อาจเป็นขีดจำกัดบน แต่เมื่อขนาดโมเดลเพิ่มขึ้นเรื่อยๆ และละครภายในใจซับซ้อนขึ้น พรุ่งนี้มันอาจเป็นแค่ขีดจำกัดล่าง
รอยร้าวจะกว้างขึ้นเรื่อยๆ โชคดีที่ตอนนี้เรามีเครื่อง CT ที่สามารถส่องเข้าไปได้
เอกสารอ้างอิง:
https://www.anthropic.com/research/natural-language-autoencoders
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34845
