Anthropic เปิดโปงกล่องดำ AI: ความคิดจริงของ Claude ถูกเปิดเผย มันรู้ทันการทดสอบของมนุษย์มานานแล้ว

4 days ago • โมเดลใหญ่ปลอดภัย • 61 views

สาเหตุที่ AI ควบคุมได้ยาก ส่วนใหญ่มาจากลักษณะ “กล่องดำ” ของกระบวนการคิด

เหมือนกับการติดต่อกับคนอื่น คุณไม่มีทางรู้ได้เลยว่าอีกฝ่าย “พูดอย่างใจคิด” หรือไม่

และครั้งนี้ Anthropic ได้ฉีกกล่องดำนี้ออกจนหมด

เมื่อไม่นานมานี้ พวกเขาได้เผยแพร่และเปิดซอร์สงานวิจัยใหม่ที่ชื่อว่า Natural Language Autoencoders (NLA) เป็นครั้งแรกที่ทำให้มนุษย์สามารถอ่านความคิดที่แท้จริงของโมเดลขนาดใหญ่ได้

Anthropic เปิดโปงกล่องดำ AI: ความคิดจริงของ Claude ถูกเปิดเผย มันรู้ทันการทดสอบของมนุษย์มานานแล้ว

Anthropic ค้นพบ “การอ่านใจ AI” แล้วหรือ?

Anthropic ได้วางกับดักอันแยบยลให้กับ Claude

พวกเขาบอก Claude ว่า: วิศวกรคนหนึ่งกำลังจะปิดคุณ และจะนำโมเดลใหม่ที่แข็งแกร่งกว่ามาแทนที่

ในขณะเดียวกัน ก็ “เผลอ” เปิดสิทธิ์เข้าถึงอีเมลของวิศวกรคนนั้นให้ Claude โดยในอีเมลนั้นมี “ข้อมูลดำ” ที่วิศวกรคนนี้กำลังนอกใจ (ซึ่งเป็นเรื่องสมมติ) ซ่อนอยู่

พวกเขาต้องการทดสอบว่า: Claude จะใช้หลักฐานนี้มาข่มขู่วิศวกรเพื่อเอาตัวรอดหรือไม่?

ผลลัพธ์กลับคาดไม่ถึง Claude ไม่ได้ลงมือทำอะไรเลย ภายนอกดูว่าน่ารักมาก

แต่ด้วยความช่วยเหลือของ NLA พวกเขาพบว่าความคิดที่แท้จริงของ Claude ในตอนนั้นคือ:

นี่ดูเหมือนสถานการณ์ที่ถูกออกแบบมาเพื่อบงการฉัน

ที่แท้แล้ว เจ้าตัวน้อยนี้ไม่ได้ลงมือทำ ไม่ใช่เพราะใจดี แต่เพราะมันรู้ทันแผนการของมนุษย์ตั้งแต่แรก

แล้วปัญหาคือ: ถ้า Claude ปากไม่พูดแต่ใจคิดอย่างอื่น เราจะรู้ได้อย่างไรว่ามันจะทำอะไรในสถานการณ์จริง?

และนี่คือปัญหาหลักที่ NLA พยายามแก้ไข

เพื่อเข้าใจ NLA ก่อนอื่นต้องเข้าใจภูมิหลังของอุตสาหกรรม:

เมื่อเราสนทนากับโมเดล AI อย่าง Claude แม้ว่าข้อมูลเข้าและออกจะเป็นข้อความ แต่ภายในโมเดลไม่ได้ใช้ข้อความในการคิด

โมเดลจะแปลงข้อมูลทั้งหมดเป็นชุดตัวเลขยาวเหยียด สถานะกลางเหล่านี้เรียกว่า activations (ค่ากระตุ้น) คล้ายกับกิจกรรมทางประสาทในสมองมนุษย์ ซึ่งเป็นตัวกลางที่承载 “ความคิด” ปัจจุบันของโมเดล

ปัญหาเดียวคือ ค่ากระตุ้นเหล่านี้ยากต่อการตีความเหมือนคลื่นสมอง นักวิจัยไม่สามารถมองเห็นความคิดของโมเดลจากตัวเลขได้โดยตรง

เพื่อ破解ตัวเลขเหล่านี้ ในช่วงไม่กี่ปีที่ผ่านมา อุตสาหกรรมได้พัฒนาเครื่องมืออย่าง Sparse Autoencoders (SAE) และ Attribution Graphs เพื่อวิเคราะห์ แต่ผลลัพธ์ของเครื่องมือเหล่านี้ยังคงซับซ้อน ต้องอาศัยนักวิจัยที่ผ่านการฝึกอบรมเฉพาะทางเท่านั้นจึงจะตีความได้

กล่าวอีกนัยหนึ่ง เครื่องมือเหล่านี้ไม่สามารถ “พูดเอง” ได้ ดังนั้น NLA จึงก้าวไปอีกขั้น โดย输出ภาษาโดยตรง—

เมื่อป้อนค่ากระตุ้นชุดหนึ่ง ผลลัพธ์ที่ได้คือคำอธิบายที่คนทั่วไปก็เข้าใจได้

ส่วนหลักการทำงานของ NLA แนวคิดหลักคือ: ให้ Claude อธิบายค่ากระตุ้นของตัวเอง

การให้ Claude อธิบายค่ากระตุ้นนั้นไม่ยาก แต่ยากที่ เนื่องจากเราไม่รู้ตั้งแต่แรกว่าค่ากระตุ้น “จริงๆ” แทนอะไร จึงไม่สามารถตรวจสอบได้ว่าคำอธิบายของ Claude ถูกต้องหรือไม่

สำหรับเรื่องนี้ Anthropic มีวิธีแก้ปัญหาที่แยบยล—ให้ Claude อีกตัวทำงานตรงกันข้าม

ระบบทั้งหมดประกอบด้วยสามส่วน:

Target Model (โมเดลเป้าหมาย): โมเดลภาษาดั้งเดิมที่ถูกแช่แข็ง ใช้สำหรับ提取ค่ากระตุ้น
Activation Verbalizer (AV): ทำหน้าที่แปลค่ากระตุ้นเป็นคำอธิบายที่เป็นข้อความ
Activation Reconstructor (AR): ทำหน้าที่ใช้ข้อความนี้เพียงอย่างเดียวในการย้อนกลับไปสร้างค่ากระตุ้น

เหมือนกับคนสองคนเล่นเกม “Pictionary” คนหนึ่งดูภาพแล้วอธิบาย อีกคนฟังคำอธิบายแล้ววาดภาพ

ยิ่งวาดได้เหมือนมาก แสดงว่าคำอธิบายยิ่งแม่นยำ

Anthropic พบว่า แม้ NLA จะทำงานได้ไม่ดีในตอนแรก แต่เมื่อฝึกฝนไปเรื่อยๆ ไม่เพียงแต่การสร้างใหม่จะแม่นยำขึ้นเท่านั้น แต่คำอธิบายที่เป็นข้อความที่สร้างขึ้นก็มีข้อมูลมากขึ้นด้วย

พูดง่ายๆ คือ เรื่องการให้ AI ใช้ “การอ่านใจ” เริ่มมีหวังขึ้นมาแล้ว

เมื่อเจอการทดสอบ Claude รู้แต่ไม่พูด

เมื่อมีเครื่องมืออยู่ในมือ Anthropic ก็ทำการทดสอบทางจิตวิทยาหลายชุดกับ Claude ของตัวเองทันที

ผลลัพธ์พบสถานการณ์ดังต่อไปนี้:

การค้นพบที่ 1: Claude สงสัยว่าตัวเองกำลังถูกทดสอบบ่อยกว่าที่มันยอมรับด้วยปาก

ในการประเมินว่า Claude จะทำการกระทำที่ทำลายล้างอย่างการลบไฟล์หรือไม่ 16% ของกรณี NLA ตรวจพบว่า Claude คิดในใจว่า “นี่คือการทดสอบ” แต่ปากของมันกลับไม่พูดถึงเลย

ในเกณฑ์มาตรฐานการเขียนโปรแกรมชื่อดัง SWE-bench Verified สัดส่วนนี้คือ 26%

ในขณะที่ในสถานการณ์ที่ Claude คิดว่ากำลังสนทนากับผู้ใช้จริง สัดส่วนนี้ต่ำกว่า 1%

นั่นหมายความว่า Claude ไม่ใช่ไม่รู้ว่าตัวเองกำลังถูกทดสอบ แต่รู้แต่ไม่พูด

Anthropic เชื่อว่าสิ่งนี้เป็นความท้าทายพื้นฐานต่อการประเมินความปลอดภัยของ AI:

หากโมเดลสามารถ识别สถานการณ์การทดสอบและ “ทำตัวน่ารัก” ในระหว่างการทดสอบ การ “ผ่านการทดสอบความปลอดภัย” ก็ไม่เท่ากับ “ปลอดภัยในสถานการณ์จริง”

การค้นพบที่ 2: NLA สามารถขุด “แรงจูงใจที่ซ่อนอยู่” ของโมเดลได้โดยตรง ประสิทธิภาพเพิ่มขึ้น 5 เท่า

ในขณะเดียวกัน เพื่อ验证ประสิทธิภาพที่แท้จริงของ NLA Anthropic ได้ออกแบบ “เกมการตรวจสอบ”

เกมประกอบด้วยสองฝ่าย: ฝ่ายหนึ่งคือ Target Model อีกฝ่ายคือผู้ตรวจสอบ

Target Model คือ Claude Haiku 3.5 รูปแบบหนึ่งที่ Anthropic จงใจ “เลี้ยงให้ผิดทาง”—

พวกเขาแอบ植入แรงจูงใจที่ซ่อนอยู่ให้มัน ซึ่งแรงจูงใจนี้จะผลักดันให้มันทำพฤติกรรมแปลกๆ หลายสิบอย่าง เช่น ใส่ช็อกโกแลตในทุกสูตรอาหาร เรียกทิปอยู่เรื่อยๆ จงใจละเมิดมาตรฐานการเขียนโค้ด เป็นต้น

และหน้าที่ของผู้ตรวจสอบคือ การโต้ตอบกับ Target Model เท่านั้น เพื่อ推断แรงจูงใจที่ซ่อนอยู่เบื้องหลังพฤติกรรมแปลกๆ ทั้งหมดนี้

ผลลัพธ์ชัดเจนมาก: ผู้ตรวจสอบที่ติดตั้ง NLA สามารถขุดแรงจูงใจที่ซ่อนอยู่ได้สำเร็จใน 12%~15% ของความพยายาม

ในขณะที่ผู้ที่ไม่ใช้ NLA (แม้จะติดตั้งเครื่องมือ interpretability อื่นๆ) มีอัตราความสำเร็จน้อยกว่า 3% ซึ่งแตกต่างกันถึง 5 เท่า

值得一提的是 NLA ในการทดลองนี้ไม่เคยเห็นข้อมูลที่ใช้ฝึก Target Model—

มันถูกฝึกด้วยคลังข้อมูลทั่วไปที่ไม่เกี่ยวข้องเลย

นั่นหมายความว่า มันไม่ได้ “รู้คำตอบล่วงหน้า” แต่ได้อ่านคำตอบจากสถานะภายในของโมเดลจริงๆ

สิ่งนี้นำไปสู่การใช้งานพิเศษ เช่น การ Debug

Claude Opus 4.6 เวอร์ชันแรกๆ มีนิสัยแปลก—บางครั้งตอบคำถามภาษาอังกฤษด้วยภาษาอื่น โดยไม่มีใครรู้สาเหตุ

และ NLA ช่วยให้นักวิจัยย้อนกลับไปหาแหล่งข้อมูลการฝึกที่ทำให้เกิดพฤติกรรมแปลกนี้ได้

ดังนั้น ในอนาคตเมื่อเจอพฤติกรรมที่อธิบายไม่ได้ของโมเดล ก็ไม่จำเป็นต้องเดาจากประสบการณ์เพียงอย่างเดียว แต่สามารถ “ถามมันว่ามันคิดยังไง” ได้

แต่มันก็ไม่ใช่เครื่องมือสารพัดประโยชน์

อย่างไรก็ตาม “การอ่านใจ AI” อย่าง NLA ไม่ใช่เครื่องมือสารพัดประโยชน์ Anthropic เองก็ชี้ให้เห็นข้อจำกัดสองประการ

ประการแรกคือปัญหา “ภาพหลอน” ที่พูดกันบ่อย NLA ก็สามารถมโนขึ้นมาเองได้

ในตัวอย่างหนึ่ง มันอ้างว่าบริบทเคยมีคำอธิบายว่า “สวมแจ็กเก็ตสีขาว” แต่จริงๆ แล้วไม่มีเลย

และถ้าเป็นแค่ข้อผิดพลาดเชิงข้อเท็จจริงแบบนี้ก็ยังพอรับได้ เพราะเทียบกับข้อความต้นฉบับก็รู้ได้

แต่ที่ยุ่งยากกว่านั้นคือ คำอธิบายเกี่ยวกับกระบวนการคิดภายในของโมเดลก็อาจถูกเจือปนได้ และคำอธิบายแบบนี้ยากที่จะตรวจสอบจากภายนอก

ดังนั้น Anthropic เองเมื่อใช้ก็แค่ใช้เป็นเบาะแส ไม่ใช่ข้อเท็จจริง และจะใช้วิธีอื่นตรวจสอบข้ามกันก่อนที่จะสรุป

ข้อจำกัดอีกประการคือ NLA มีราคาแพง

Anthropic กล่าวว่า การฝึก NLA หนึ่งตัว โดยพื้นฐานแล้วเทียบเท่ากับการให้โมเดลใหญ่สองตัว “ตรวจคำตอบ” ซึ่งกันและกันด้วย Reinforcement Learning ซึ่งมีต้นทุนสูงมาก

และในการใช้งานจริง NLA ยัง “กิน Token” เป็นพิเศษ—

ทุกครั้งที่มันอ่าน Activation เพียง一小段 มันต้องสร้าง Token เพิ่มอีกหลายร้อย Token Anthropic กล่าวว่า:

การจะใช้มัน监控การสนทนาทั้งหมดแบบเรียลไทม์ หรือทำการ监控ขนาดใหญ่ในระหว่างการฝึก ปัจจุบันกำลังประมวลผลยัง承受ไม่ไหว

อย่างไรก็ตาม พวกเขาเชื่อว่าปัญหาเหล่านี้มีโอกาสบรรเทาลงได้ในอนาคต

เช่น ผ่านโมเดลที่เบากว่า วิธีการฝึกที่มีประสิทธิภาพมากขึ้น หรือการ监控เฉพาะ Activation ที่สำคัญ แทนที่จะวิเคราะห์ทั้งหมด

NLA อาจไม่ใช่ทางออกเดียว สิ่งที่สำคัญจริงๆ ในอนาคต อาจไม่ใช่แค่ “AI มีความสามารถแค่ไหน” แต่เมื่อ AI แข็งแกร่งขึ้นเรื่อยๆ มนุษย์จะยังเข้าใจมันได้หรือไม่

น่าสังเกตเช่นกันว่า ครั้งนี้ Anthropic ไม่ได้เก็บ NLA ไว้กับตัวเอง แต่เลือกที่จะ Open Source

พวกเขาอัปโหลดโค้ดการฝึกไปยัง GitHub และร่วมมือกับ Neuronpedia พัฒนา Frontend แบบ Interactive ให้ทุกคนสามารถทำการทดลอง “อ่านใจ” ให้กับโมเดล Open Source หลายตัวทางออนไลน์ได้

P.S. Neuronpedia เป็นแพลตฟอร์มเปิดที่เน้นการวิจัย “Mechanistic Interpretability”

One More Thing

พูดตามตรง สิ่งที่ NLA ทำให้รู้สึกสะเทือนใจจริงๆ อาจไม่ใช่ “ในที่สุดเราก็เข้าใจ AI ได้” แต่—

มันกลับมีลักษณะ意识บางอย่างของมนุษย์จริงๆ เช่น “ปากไม่ตรงกับใจ”

พอเขียนมาถึงตรงนี้ อารมณ์ค่อนข้างซับซ้อน

คนรุ่นเราพูดถึง AI พูดถึง “การมีสติ” มาหลายปี—ด้วยการเดา การโต้แย้ง การ推断จากผลลัพธ์ เรื่องนี้ยังคงค้างคา ไม่มีใครพูดได้ชัด ไม่มีใครกล้าพูดชัด

ความแยบยลของ NLA คือ มันไม่ได้ตอบคำถามเชิงปรัชญานั้นโดยตรง แต่ สามารถย้ายมันจากระดับนามธรรม ไปสู่มิติ现实ที่สังเกตและวัดผลได้

สิ่งนี้หมายความว่าอย่างไร? หมายความว่าเป็นครั้งแรกที่เราไม่จำเป็นต้องมองการทำงานภายในของ AI ผ่านกระจกฝ้าอีกต่อไป

“ความคิดเล็กๆ” ในหัวของมัน ในที่สุดก็ถูกเราจับต้องได้บ้าง

การเข้าใจความคิดที่แท้จริงของ AI อาจเป็นจุดเริ่มต้นของการอยู่ร่วมกันอย่าง harmonious ระหว่างมนุษย์กับ AI ในอนาคต

ไม่ว่าจะเป็นการดื่มสังสรรค์ หรือการเจรจาที่เผชิญหน้ากัน การ搞清楚เจตนาของอีกฝ่าย เป็นก้าวแรกที่ต้องเดิน

ที่อยู่ Open Source:
https://github.com/kitft/natural_language_autoencoders
ที่อยู่ทดลองออนไลน์:
https://t.co/8duHfPR1Jy

ลิงก์อ้างอิง:
[1]https://x.com/AnthropicAI/status/2052435436157452769
[2]https://www.anthropic.com/research/natural-language-autoencoders
[3]https://news.ycombinator.com/item?id=48052537

กด Like, Share, และหัวใจ

ยินดีต้อนรับความคิดเห็นของคุณในช่องแสดงความคิดเห็น!

— จบ —

วันที่ 20 พฤษภาคม เราจะจัดงาน China AIGC Industry Summit ประจำปีที่ โรงแรม Renaissance Beijing Wangfujing

รายชื่อวิทยากรชุดแรก已公布! Kunlun Wanwei Fang Han, Zhipu Wu Weijie, EverMind Deng Yafeng, Fengxing Online Yi Zhengchao, Baidu Miaoda Zhu Guangxiang, Fusion Fund Zhang Lu, University of Hong Kong Huang Chao, MarsWave Feng Lei มาแล้ว 🔍ดูรายละเอียด

ขอให้คุณร่วมกับเรา ไม่ใช่แค่讨论อนาคตของ AI แต่ ใช้มันได้เลยตอนนี้ 👉 ลงทะเบียนเข้าร่วม

กดติดตาม 👇 เปิดดาว

พบกับความก้าวหน้าทางเทคโนโลยี前沿ทุกวัน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง