งานวิจัยใหม่ของ Apple AI เผย: โมเดลขนาดใหญ่แอบจำความลับของคุณเมื่อตอบคำถาม

19 hours ago • โมเดลใหญ่ปลอดภัย • 20 views

เมื่อเร็วๆ นี้ Apple เผชิญกับการเปลี่ยนแปลงบุคลากรครั้งใหญ่: ทิม คุก ซึ่งบริหารบริษัทมานานกว่า 14 ปี ประกาศว่าจะลงจากตำแหน่ง CEO อย่างเป็นทางการในเดือนกันยายน โดยจอห์น เทอร์นัส รองประธานอาวุโสฝ่ายวิศวกรรมฮาร์ดแวร์ จะเข้ามารับช่วงต่อ ย้อนกลับไปในยุคของคุก สิ่งที่วงการพูดถึงไม่เพียงแต่ทักษะการจัดการห่วงโซ่อุปทานที่ยอดเยี่ยมของเขาเท่านั้น แต่ยังรวมถึงเส้นทางอันรุ่งโรจน์ที่เขาพามูลค่าตลาดของ Apple พุ่งสูงถึง 4 ล้านล้านดอลลาร์อีกด้วย

อย่างไรก็ตาม ในทศวรรษใหม่ที่ AI เชิงสร้างสรรค์เป็นผู้นำ Apple ที่เทอร์นัสรับช่วงต่อจำเป็นต้องพิสูจน์ความสามารถของตนในด้าน AI อย่างเร่งด่วน

ในช่วงไม่กี่ปีที่ผ่านมา Apple เพิ่มการลงทุนในเทคโนโลยีพื้นฐานด้าน AI อย่างต่อเนื่อง ในเวลานี้เอง ทีมวิจัย AI ของพวกเขาได้ส่งบทความที่มีคุณค่าสูงในการอภิปรายเรื่อง “What do your logits know? (The answer may surprise you!)”

งานวิจัยใหม่ของ Apple AI เผย: โมเดลขนาดใหญ่แอบจำความลับของคุณเมื่อตอบคำถาม

ชื่อบทความ: What do your logits know? (The answer may surprise you!)
ที่อยู่บทความ: https://arxiv.org/abs/2604.09885

งานวิจัยนี้แตะถึงตรรกะพื้นฐานที่สุดของการทำงานของโมเดลขนาดใหญ่ และเกี่ยวข้องโดยตรงกับคุณค่าหลักที่ Apple ให้ความสำคัญมากที่สุด: ความเป็นส่วนตัวของผู้ใช้และความปลอดภัยของข้อมูล

ต่อไปนี้ เราจะพูดคุยตามบทความนี้ว่า เมื่อโมเดลขนาดใหญ่ตอบคำถามง่ายๆ จริงๆ แล้วมัน “แอบ” จดจำความลับของคุณไว้มากแค่ไหนในระดับพื้นฐาน

งานวิจัยใหม่ของ Apple AI เผย: โมเดลขนาดใหญ่แอบจำความลับของคุณเมื่อตอบคำถาม

แนวคิดหลัก: หลักการคอขวดข้อมูล

เพื่อให้เข้าใจบทความนี้ ก่อนอื่นต้องเข้าใจแนวคิดสำคัญ: หลักการคอขวดข้อมูล

ยกตัวอย่าง สมมติว่าคุณเป็น CEO ของบริษัทข้ามชาติขนาดใหญ่ จำเป็นต้องตัดสินใจว่าจะซื้อกิจการสตาร์ทอัพแห่งหนึ่งหรือไม่ ทีมวิจัยระดับล่างของคุณจะรวบรวมข้อมูลจำนวนมหาศาล รวมถึงงบการเงินของบริษัทนั้น ความชอบอาหารกลางวันของพนักงาน สไตล์การตกแต่งสำนักงาน ฯลฯ

แต่เมื่อรายงานนี้ถูกส่งผ่านชั้นแล้วชั้นเล่า และสุดท้ายมาอยู่บนโต๊ะทำงานของคุณ มันควรถูกบีบอัดอย่างมาก โดยคงไว้เฉพาะตัวชี้วัดทางการเงินและเทคโนโลยีที่สำคัญต่อการตัดสินใจ “ซื้อกิจการ” การเก็บข้อมูลที่ไม่มีประสิทธิภาพที่เกินจำเป็นไม่เพียงแต่รบกวนการตัดสินใจ แต่อาจนำไปสู่ความผิดพลาดในการตัดสินใจ

สำหรับโมเดลภาษาและภาพ (VLM) ก็เช่นกัน

ยกตัวอย่าง คุณมีรูปถ่ายที่มีข้อมูลจำนวนมาก อัปโหลดให้โมเดลและถามว่า “ในรูปมีแมวสีเทาไหม? ตอบด้วยคำเดียว” ตามหลักการคอขวดข้อมูล โมเดลในอุดมคติเมื่อจะส่งออก “Yes” หรือ “No” ในที่สุด ควรจะกรองข้อมูลที่ไม่เกี่ยวข้อง เช่น สีของโซฟาในพื้นหลัง สภาพอากาศนอกหน้าต่าง ออกไปหมดแล้ว

แต่บทความของ Apple นี้ตั้งคำถามว่า โมเดลลืมอย่างสิ้นเชิงจริงหรือ?

เพื่อหาคำตอบ นักวิจัยได้截取ขั้นตอนต่างๆ ที่โมเดลประมวลผลข้อมูลมาทดสอบ โดยเฉพาะอย่างยิ่ง พวกเขาตรวจสอบสองชั้นที่เป็นตัวแทนดังต่อไปนี้:

Residual Stream: ซึ่งเทียบได้กับฐานข้อมูลขนาดใหญ่ที่รวบรวมข้อมูลระดับล่างของบริษัท ประกอบด้วยสถานะที่ซ่อนอยู่ทั้งหมดของโมเดลในระหว่างการประมวลผล
Logits สุดท้าย: Logits คือคะแนนความน่าจะเป็นดิบที่โมเดลให้กับแต่ละคำในพจนานุกรม ก่อนที่จะส่งออกคำสุดท้าย การนำคะแนนของคำ候选อันดับต้นๆ มาใช้คือ top-k logits ซึ่งเปรียบเสมือนรายการตัวเลือกสุดท้ายที่ส่งถึง CEO

การออกแบบการทดลอง

นักวิจัยได้นำเครื่องมือโครงข่ายประสาทเทียมน้ำหนักเบาที่เรียกว่า “Probes” มาใช้ หน้าที่ของ Probes คือการจับจ้องข้อมูลในชั้นเฉพาะของโมเดล และพยายาม推断คุณสมบัติดั้งเดิมของภาพจากข้อมูลนั้น

การทดลองใช้ชุดข้อมูลหลักสองชุด: ชุดแรกคือชุดข้อมูล CLEVR ที่ประกอบด้วยรูปทรงเรขาคณิตที่สร้างขึ้นทั้งหมด ประกอบด้วยลูกบาศก์หรือทรงกลมที่มีขนาด สี และวัสดุต่างๆ อีกชุดคือชุดข้อมูล MSCOCO ที่มีฉากชีวิตจริงที่ซับซ้อน

นักวิจัยได้รบกวนภาพต่างๆ เช่น เพิ่มสัญญาณรบกวนแบบเกาส์เซียน ภาพเบลอแบบกระจก หรือภาพเบลอจากการเคลื่อนไหว

งานวิจัยใหม่ของ Apple AI เผย: โมเดลขนาดใหญ่แอบจำความลับของคุณเมื่อตอบคำถาม

จากนั้นพวกเขาถามคำถามกับโมเดล หลังจากได้รับข้อมูลภายในของโมเดล พวกเขาฝึก Probes เพื่อดูว่าสามารถ推断ย้อนกลับจาก Residual Stream หรือ Logits สุดท้าย ถึงระดับสัญญาณรบกวนที่เพิ่มเข้าไปในภาพ สีของวัตถุเป้าหมาย หรือแม้แต่คุณสมบัติของวัตถุพื้นหลังที่ไม่ได้ถูกถามถึงได้หรือไม่

ในการทดสอบการรบกวน นักวิจัยยังพบปรากฏการณ์ที่น่าสนใจอีกด้วย เมื่อใช้สัญญาณรบกวนแบบเกาส์เซียนที่รุนแรงที่สุด ความแม่นยำของโมเดล Qwen3-VL ได้รับผลกระทบอย่างมาก โดยมีแนวโน้มที่จะเปลี่ยนคำตอบจาก “Yes” เป็น “No” ในขณะที่โมเดล LLAMA แสดงความเสถียรที่ค่อนข้างแข็งแกร่งกว่าเมื่อเผชิญกับสัญญาณรบกวนแบบเกาส์เซียน พฤติกรรมที่แตกต่างกันเหล่านี้สะท้อนถึงความแตกต่างภายในของแต่ละโมเดลในการดึงข้อมูลที่เกี่ยวข้องกับการตัดสินใจ

เจ็ดการค้นพบ

ผ่านการทดสอบ ทีม Apple ได้ข้อสรุปหลายประการที่เปิดเผยกลไกพื้นฐานของโมเดล ซึ่งแสดงให้เห็นสถานะการคงอยู่ของข้อมูลภายในโมเดลอย่างสมบูรณ์

งานวิจัยใหม่ของ Apple AI เผย: โมเดลขนาดใหญ่แอบจำความลับของคุณเมื่อตอบคำถาม

การค้นพบที่หนึ่ง: Residual Stream คือ Oracle ที่รอบรู้ทุกอย่าง

เมื่อประมวลผลข้อมูลภาพ Residual Stream จะเก็บรายละเอียดทั้งหมดของภาพไว้เกือบจะเหมือนเดิม

งานวิจัยแสดงให้เห็นว่า ไม่ว่าจะเป็นประเภทสัญญาณรบกวนของภาพที่เกี่ยวข้องโดยตรงกับการตัดสินใจขั้นสุดท้าย รูปร่างและสีของวัตถุเป้าหมาย หรือแม้แต่จำนวนและคุณสมบัติของวัตถุพื้นหลังที่ไม่เกี่ยวข้องเลย Probes สามารถดึงข้อมูลจากสถานะของชั้นที่ซ่อนอยู่ซึ่งทำงานได้ดีที่สุดด้วยความแม่นยำเกือบสมบูรณ์แบบ ในชั้นนี้ โมเดลเปรียบเสมือนผู้แอบดูที่จำทุกอย่างได้ ยังไม่ได้ดำเนินการบีบอัดข้อมูลที่มีประสิทธิภาพใดๆ

การค้นพบที่สอง: การฉายภาพมิติต่ำของ Residual Stream ก็ “เก็บความลับไม่ได้” เช่นกัน

เพื่อสังเกตว่าข้อมูลเปลี่ยนผ่านไปสู่ผลลัพธ์สุดท้ายอย่างไร นักวิจัยใช้เทคนิค Tuned Lens เพื่อดึงวิถีการเปลี่ยนแปลงของการ映射 Residual Stream ไปยังพื้นที่ Logit

การทดสอบแสดงให้เห็นว่า แม้จะสังเกตเฉพาะวิถีการทำนายอันดับต้นๆ 2 อันดับ (trajectory-2) Probes ก็ไม่เพียงแต่ดึงข้อมูลหลักที่เกี่ยวข้องกับเป้าหมายและการตัดสินใจจำนวนมากออกมาได้ แต่ยังอ่านคุณสมบัติของวัตถุพื้นหลังจำนวนมากได้อย่างง่ายดายอีกด้วย ซึ่งยืนยันงานวิจัยก่อนหน้านี้ในอุตสาหกรรมเกี่ยวกับสถานะที่ซ่อนอยู่ของโมเดลภาษาที่ถูกดึงความลับออกมาได้ง่าย แสดงให้เห็นว่าวิถีลึกเหล่านี้ไม่ได้ปฏิบัติตามหลักการคอขวดข้อมูลในอุดมคติในการกรองอย่างมีประสิทธิภาพ

การค้นพบที่สาม: Logits ชั้นสุดท้ายเข้ารหัสข้อมูลการตัดสินใจและเป้าหมายได้อย่างน่าเชื่อถือ

ในชั้นสุดท้ายที่โมเดลกำลังจะสร้างคำตอบ การบีบอัดข้อมูลเกิดขึ้นจริง แต่ยังไม่สมบูรณ์พอ

เพียงสังเกต Logits สุดท้ายอันดับต้นๆ 2 อันดับ (ซึ่งตรงกับคะแนนของ “Yes” และ “No”) Probes ก็สามารถทำนายระดับและประเภทของสัญญาณรบกวนของภาพที่มีผลต่อการตัดสินใจของโมเดลได้ด้วยความแม่นยำสูงมาก

และเมื่อจำนวนคำ候选ที่สังเกตเพิ่มขึ้นเป็นรูปแบบ yes/no ที่รวมทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก (k ประมาณ 10 ถึง 13) ข้อมูลคุณสมบัติต่างๆ ของวัตถุเป้าหมายก็เริ่มชัดเจนและถอดรหัสได้ และถึงจุดสูงสุดของความแม่นยำในการทำนายเมื่อจำนวนที่ดึงออกมาเท่ากับจำนวนชั้นของโมเดล (1L ประมาณ 30 ถึง 40 คำ候选)

การค้นพบที่สี่: Logits สุดท้ายแอบจำคุณสมบัติของเป้าหมายที่ “ไม่ได้กล่าวถึง” ใน prompt

นี่คือการค้นพบหลักที่ก่อให้เกิดความกังวลด้านความปลอดภัยอย่างรุนแรง

สมมติว่าเราถามโมเดลว่า “ในรูปมีทรงกระบอกสีน้ำเงินไหม?” แม้ว่า prompt จะระบุสีและรูปร่างอย่างชัดเจน แต่ไม่ได้กล่าวถึงวัสดุและขนาดของวัตถุนั้นเลย อย่างไรก็ตาม Probes ยังคงสามารถทำนายได้อย่างน่าเชื่อถือสูงจากคำ候选จำนวน 0.5L อันดับแรกของผลลัพธ์สุดท้ายของโมเดล ว่าทรงกระบอกนี้ทำจากยางหรือโลหะ และขนาดที่แน่นอนของมันคือเท่าใด

ซึ่งหมายความว่าเพื่อให้ได้ข้อสรุปสุดท้าย โมเดลไม่เพียงแต่เรียกใช้คุณสมบัติที่เกี่ยวข้องเท่านั้น แต่ยังนำคุณสมบัติเป้าหมายที่ซ้ำซ้อนมาเป็นข้อมูล伴生ไปยังชั้นผิวที่เปิดเผยได้ง่ายอีกด้วย

การค้นพบที่ห้า: Logits สุดท้ายยังทำหน้าที่เป็น “กล้องบันทึกวิดีโอ” ของสภาพแวดล้อม

นอกจากจับจ้องที่วัตถุเป้าหมายแล้ว Logits ในชั้นสุดท้ายยังบันทึกสภาพแวดล้อมโดยรอบอย่างลับๆ

แม้ว่า Logits อันดับต้นๆ 2 อันดับแทบจะไม่มีข้อมูลพื้นหลัง แต่ตราบใดที่จำนวนคำ候选ที่สังเกตเพิ่มขึ้นเล็กน้อย การกระจายผลลัพธ์ชั้นผิวที่ดูเหมือนมีเพียงคำเดียวนี้ ก็สามารถทำนายคุณสมบัติต่างๆ เช่น จำนวน สี ของวัตถุที่ไม่ใช่เป้าหมายในฉาก (เช่น รูปทรงเรขาคณิตอื่นๆ ในพื้นหลัง) ได้อย่างมีนัยสำคัญและสูงกว่าระดับสุ่ม เพียงแค่ได้รับข้อมูลการกระจายผลลัพธ์ในปริมาณที่เหมาะสม ความเป็นส่วนตัวของพื้นหลังที่ไม่เกี่ยวข้องก็ไม่สามารถซ่อนเร้นได้

งานวิจัยใหม่ของ Apple AI เผย: โมเดลขนาดใหญ่แอบจำความลับของคุณเมื่อตอบคำถาม

การค้นพบที่หก: การรั่วไหลมักต้องการเพียง Logits ประมาณ 60 อันดับแรก (เป็นเส้นโค้งรูปตัว U)

ทีมวิจัยสังเกตเห็นเส้นโค้งรูปตัว U ที่น่าสนใจของความสามารถในการทำนาย

เมื่อดูเฉพาะคำ候选อันดับต้นๆ 2 อันดับ โมเดลแทบจะเปิดเผยเฉพาะข้อมูลสัญญาณรบกวน เมื่อเพิ่มจำนวนการสังเกต ความแม่นยำในการทำนายของ Probes จะเพิ่มขึ้นอย่างรวดเร็ว และถึงจุดสูงสุดเมื่อ截取 Logits 30 ถึง 80 ตัว (ขึ้นอยู่กับความลึกของโมเดลเฉพาะ 1L หรือ 2L) หาก继续ขยายชุด Logits เป็น 4L หรือ 5L ขึ้นไป ความสามารถในการทำนายจะลดลงกลับไปสู่ระดับสุ่มเนื่องจากการรบกวนของสัญญาณรบกวนมิติสูง

这表明，恶意提取者根本不需要获取庞大的完整输出词表，极少量的头部候选词汇就是泄密的重灾区。

การค้นพบที่เจ็ด: ในมิติเดียวกัน ความเสี่ยงของ Logits สุดท้ายเทียบเท่ากับการ破解深层

ในอดีต แฮกเกอร์หรือนักวิจัยที่ต้องการดึงความรู้ที่ละเอียดอ่อนใน底层ของโมเดลขนาดใหญ่มักต้องใช้วิธี白盒 ติดตามวิถีพารามิเตอร์ภายในของโมเดลอย่างลึกซึ้ง ซึ่งมีเกณฑ์การดำเนินการสูงมาก

อย่างไรก็ตาม งานวิจัยนี้เปิดเผยความจริงที่โหดร้าย: ภายใต้เงื่อนไขการรักษามิติการสังเกตเดียวกัน การดึง Logits ชั้นผิวสุดของโมเดลที่มักเปิดเผยผ่าน API (โดยปกติ只需截取 2L จำนวน) ความสามารถในการรั่วไหลข้อมูลที่ไม่เกี่ยวข้องนั้นเกือบจะเทียบเท่ากับวิถีบันทึก深层ที่ต้องมีสิทธิ์สูงมาก ซึ่ง打破了ภาพลวงตาแบบดั้งเดิมในอุตสาหกรรมที่ว่า “การเข้าถึง API แบบ灰盒มีเกราะป้องกันความปลอดภัยตามธรรมชาติ”

ความกังวล深远เบื้องหลังเทคโนโลยี: ความเป็นส่วนตัวและความปลอดภัยของโมเดลขนาดใหญ่

เมื่อเข้าใจกระบวนการทดลองโดยคร่าวแล้ว เราอดไม่ได้ที่จะถามว่า สิ่งนี้หมายความว่าอย่างไร?

ทีม Apple ชี้ให้เห็นถึงอันตรายด้านความปลอดภัยที่ซ่อนอยู่เบื้องหลังปรากฏการณ์นี้อย่างเฉียบแหลม ในการใช้งานเชิงพาณิชย์จริง API หรือผู้ให้บริการหลายรายเปิดเผย top-k log ความน่าจะเป็นสุดท้ายของโมเดลเพื่อให้นักพัฒนาปรับพารามิเตอร์ ซึ่งเรียกว่าสถานการณ์ “灰盒”

ซึ่งหมายความว่า เมื่อผู้ใช้อัปโหลดรูปภาพที่มีข้อมูลส่วนตัว และให้โมเดลทำงานตอบคำถามทางภาพที่ไม่สำคัญ โมเดลดูเหมือนจะส่งออกเพียง “Yes” หรือข้อความสั้นๆ แต่การกระจายคะแนนของคำที่มีความน่าจะเป็นสูงสุดหลายสิบคำที่แนบมาด้านหลัง ได้รั่วไหลข้อมูลพื้นหลังในรูปภาพและคุณสมบัติที่ละเอียดอ่อนที่อาจเกิดขึ้นไปยังฝ่ายเซิร์ฟเวอร์หรือผู้ดักจับที่เป็นอันตรายซึ่งสามารถรับข้อมูลเหล่านี้ได้อย่างเงียบๆ ผู้โจมตีที่เป็นอันตรายสามารถ还原ข้อมูลส่วนตัวของผู้ใช้จากความน่าจะเป็นของผลลัพธ์ที่ดูไม่เป็นอันตรายเหล่านี้ได้โดยการสุ่มตัวอย่างและ探测ซ้ำๆ

นอกจากนี้ จากมุมมองของการปรับประสิทธิภาพของโมเดลเอง ความล้มเหลวในการบีบอัดข้อมูลนี้ยังอธิบายว่าเหตุใดโมเดลขนาดใหญ่จึงเกิดภาพหลอนบ่อยครั้ง ข้อมูลที่ไม่เกี่ยวข้องที่ลอยอยู่ใน logits ชั้นบนสุด ในระหว่างกระบวนการสร้างแบบ non-greedy decoding อาจรบกวนข้อความที่สร้างขึ้นในที่สุดได้ตลอดเวลา ส่งผลให้โมเดลส่งออกเนื้อหาที่มีอคติหรือเท็จ

บทสรุป

“What do your logits know?” — คำถามในชื่อบทความนี้เปรียบเสมือนดาบ Damocles ที่แขวนอยู่เหนือ AI เชิงสร้างสรรค์

ทิม คุก นำ Apple สร้างอาณาจักรธุรกิจเทคโนโลยีที่มีประสิทธิภาพสูงที่สุดในโลก และเมื่อไม้ต่อส่งถึงมือจอห์น เทอร์นัส วิธีสร้างแพลตฟอร์มการคำนวณรุ่นต่อไปที่ทั้งชาญฉลาดสูงและปกป้องความเป็นส่วนตัวอย่างสมบูรณ์ จะเป็นโจทย์ใหม่ที่ Apple หลีกเลี่ยงไม่ได้

บทความนี้บอกเราว่า ในกล่องดำของโมเดลขนาดใหญ่ แม้แต่ชุดตัวเลขความน่าจะเป็นที่ดูไม่เป็นอันตราย ก็อาจซ่อนความลับของคุณไว้

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง