
เมื่อเร็วๆ นี้ Apple เผชิญกับการเปลี่ยนแปลงบุคลากรครั้งใหญ่: ทิม คุก ซึ่งบริหารบริษัทมานานกว่า 14 ปี ประกาศว่าจะลงจากตำแหน่ง CEO อย่างเป็นทางการในเดือนกันยายน โดยจอห์น เทอร์นัส รองประธานอาวุโสฝ่ายวิศวกรรมฮาร์ดแวร์ จะเข้ามารับช่วงต่อ ย้อนกลับไปในยุคของคุก สิ่งที่วงการพูดถึงไม่เพียงแต่ทักษะการจัดการห่วงโซ่อุปทานที่ยอดเยี่ยมของเขาเท่านั้น แต่ยังรวมถึงเส้นทางอันรุ่งโรจน์ที่เขาพามูลค่าตลาดของ Apple พุ่งสูงถึง 4 ล้านล้านดอลลาร์อีกด้วย
อย่างไรก็ตาม ในทศวรรษใหม่ที่ AI เชิงสร้างสรรค์เป็นผู้นำ Apple ที่เทอร์นัสรับช่วงต่อจำเป็นต้องพิสูจน์ความสามารถของตนในด้าน AI อย่างเร่งด่วน
ในช่วงไม่กี่ปีที่ผ่านมา Apple เพิ่มการลงทุนในเทคโนโลยีพื้นฐานด้าน AI อย่างต่อเนื่อง ในเวลานี้เอง ทีมวิจัย AI ของพวกเขาได้ส่งบทความที่มีคุณค่าสูงในการอภิปรายเรื่อง “What do your logits know? (The answer may surprise you!)”

- ชื่อบทความ: What do your logits know? (The answer may surprise you!)
- ที่อยู่บทความ: https://arxiv.org/abs/2604.09885
งานวิจัยนี้แตะถึงตรรกะพื้นฐานที่สุดของการทำงานของโมเดลขนาดใหญ่ และเกี่ยวข้องโดยตรงกับคุณค่าหลักที่ Apple ให้ความสำคัญมากที่สุด: ความเป็นส่วนตัวของผู้ใช้และความปลอดภัยของข้อมูล
ต่อไปนี้ เราจะพูดคุยตามบทความนี้ว่า เมื่อโมเดลขนาดใหญ่ตอบคำถามง่ายๆ จริงๆ แล้วมัน “แอบ” จดจำความลับของคุณไว้มากแค่ไหนในระดับพื้นฐาน

แนวคิดหลัก: หลักการคอขวดข้อมูล
เพื่อให้เข้าใจบทความนี้ ก่อนอื่นต้องเข้าใจแนวคิดสำคัญ: หลักการคอขวดข้อมูล
ยกตัวอย่าง สมมติว่าคุณเป็น CEO ของบริษัทข้ามชาติขนาดใหญ่ จำเป็นต้องตัดสินใจว่าจะซื้อกิจการสตาร์ทอัพแห่งหนึ่งหรือไม่ ทีมวิจัยระดับล่างของคุณจะรวบรวมข้อมูลจำนวนมหาศาล รวมถึงงบการเงินของบริษัทนั้น ความชอบอาหารกลางวันของพนักงาน สไตล์การตกแต่งสำนักงาน ฯลฯ
แต่เมื่อรายงานนี้ถูกส่งผ่านชั้นแล้วชั้นเล่า และสุดท้ายมาอยู่บนโต๊ะทำงานของคุณ มันควรถูกบีบอัดอย่างมาก โดยคงไว้เฉพาะตัวชี้วัดทางการเงินและเทคโนโลยีที่สำคัญต่อการตัดสินใจ “ซื้อกิจการ” การเก็บข้อมูลที่ไม่มีประสิทธิภาพที่เกินจำเป็นไม่เพียงแต่รบกวนการตัดสินใจ แต่อาจนำไปสู่ความผิดพลาดในการตัดสินใจ
สำหรับโมเดลภาษาและภาพ (VLM) ก็เช่นกัน
ยกตัวอย่าง คุณมีรูปถ่ายที่มีข้อมูลจำนวนมาก อัปโหลดให้โมเดลและถามว่า “ในรูปมีแมวสีเทาไหม? ตอบด้วยคำเดียว” ตามหลักการคอขวดข้อมูล โมเดลในอุดมคติเมื่อจะส่งออก “Yes” หรือ “No” ในที่สุด ควรจะกรองข้อมูลที่ไม่เกี่ยวข้อง เช่น สีของโซฟาในพื้นหลัง สภาพอากาศนอกหน้าต่าง ออกไปหมดแล้ว
แต่บทความของ Apple นี้ตั้งคำถามว่า โมเดลลืมอย่างสิ้นเชิงจริงหรือ?
เพื่อหาคำตอบ นักวิจัยได้截取ขั้นตอนต่างๆ ที่โมเดลประมวลผลข้อมูลมาทดสอบ โดยเฉพาะอย่างยิ่ง พวกเขาตรวจสอบสองชั้นที่เป็นตัวแทนดังต่อไปนี้:
- Residual Stream: ซึ่งเทียบได้กับฐานข้อมูลขนาดใหญ่ที่รวบรวมข้อมูลระดับล่างของบริษัท ประกอบด้วยสถานะที่ซ่อนอยู่ทั้งหมดของโมเดลในระหว่างการประมวลผล
- Logits สุดท้าย: Logits คือคะแนนความน่าจะเป็นดิบที่โมเดลให้กับแต่ละคำในพจนานุกรม ก่อนที่จะส่งออกคำสุดท้าย การนำคะแนนของคำ候选อันดับต้นๆ มาใช้คือ top-k logits ซึ่งเปรียบเสมือนรายการตัวเลือกสุดท้ายที่ส่งถึง CEO
การออกแบบการทดลอง
นักวิจัยได้นำเครื่องมือโครงข่ายประสาทเทียมน้ำหนักเบาที่เรียกว่า “Probes” มาใช้ หน้าที่ของ Probes คือการจับจ้องข้อมูลในชั้นเฉพาะของโมเดล และพยายาม推断คุณสมบัติดั้งเดิมของภาพจากข้อมูลนั้น
การทดลองใช้ชุดข้อมูลหลักสองชุด: ชุดแรกคือชุดข้อมูล CLEVR ที่ประกอบด้วยรูปทรงเรขาคณิตที่สร้างขึ้นทั้งหมด ประกอบด้วยลูกบาศก์หรือทรงกลมที่มีขนาด สี และวัสดุต่างๆ อีกชุดคือชุดข้อมูล MSCOCO ที่มีฉากชีวิตจริงที่ซับซ้อน
นักวิจัยได้รบกวนภาพต่างๆ เช่น เพิ่มสัญญาณรบกวนแบบเกาส์เซียน ภาพเบลอแบบกระจก หรือภาพเบลอจากการเคลื่อนไหว

จากนั้นพวกเขาถามคำถามกับโมเดล หลังจากได้รับข้อมูลภายในของโมเดล พวกเขาฝึก Probes เพื่อดูว่าสามารถ推断ย้อนกลับจาก Residual Stream หรือ Logits สุดท้าย ถึงระดับสัญญาณรบกวนที่เพิ่มเข้าไปในภาพ สีของวัตถุเป้าหมาย หรือแม้แต่คุณสมบัติของวัตถุพื้นหลังที่ไม่ได้ถูกถามถึงได้หรือไม่
ในการทดสอบการรบกวน นักวิจัยยังพบปรากฏการณ์ที่น่าสนใจอีกด้วย เมื่อใช้สัญญาณรบกวนแบบเกาส์เซียนที่รุนแรงที่สุด ความแม่นยำของโมเดล Qwen3-VL ได้รับผลกระทบอย่างมาก โดยมีแนวโน้มที่จะเปลี่ยนคำตอบจาก “Yes” เป็น “No” ในขณะที่โมเดล LLAMA แสดงความเสถียรที่ค่อนข้างแข็งแกร่งกว่าเมื่อเผชิญกับสัญญาณรบกวนแบบเกาส์เซียน พฤติกรรมที่แตกต่างกันเหล่านี้สะท้อนถึงความแตกต่างภายในของแต่ละโมเดลในการดึงข้อมูลที่เกี่ยวข้องกับการตัดสินใจ
เจ็ดการค้นพบ
ผ่านการทดสอบ ทีม Apple ได้ข้อสรุปหลายประการที่เปิดเผยกลไกพื้นฐานของโมเดล ซึ่งแสดงให้เห็นสถานะการคงอยู่ของข้อมูลภายในโมเดลอย่างสมบูรณ์


การค้นพบที่หนึ่ง: Residual Stream คือ Oracle ที่รอบรู้ทุกอย่าง
เมื่อประมวลผลข้อมูลภาพ Residual Stream จะเก็บรายละเอียดทั้งหมดของภาพไว้เกือบจะเหมือนเดิม
งานวิจัยแสดงให้เห็นว่า ไม่ว่าจะเป็นประเภทสัญญาณรบกวนของภาพที่เกี่ยวข้องโดยตรงกับการตัดสินใจขั้นสุดท้าย รูปร่างและสีของวัตถุเป้าหมาย หรือแม้แต่จำนวนและคุณสมบัติของวัตถุพื้นหลังที่ไม่เกี่ยวข้องเลย Probes สามารถดึงข้อมูลจากสถานะของชั้นที่ซ่อนอยู่ซึ่งทำงานได้ดีที่สุดด้วยความแม่นยำเกือบสมบูรณ์แบบ ในชั้นนี้ โมเดลเปรียบเสมือนผู้แอบดูที่จำทุกอย่างได้ ยังไม่ได้ดำเนินการบีบอัดข้อมูลที่มีประสิทธิภาพใดๆ
การค้นพบที่สอง: การฉายภาพมิติต่ำของ Residual Stream ก็ “เก็บความลับไม่ได้” เช่นกัน
เพื่อสังเกตว่าข้อมูลเปลี่ยนผ่านไปสู่ผลลัพธ์สุดท้ายอย่างไร นักวิจัยใช้เทคนิค Tuned Lens เพื่อดึงวิถีการเปลี่ยนแปลงของการ映射 Residual Stream ไปยังพื้นที่ Logit
การทดสอบแสดงให้เห็นว่า แม้จะสังเกตเฉพาะวิถีการทำนายอันดับต้นๆ 2 อันดับ (trajectory-2) Probes ก็ไม่เพียงแต่ดึงข้อมูลหลักที่เกี่ยวข้องกับเป้าหมายและการตัดสินใจจำนวนมากออกมาได้ แต่ยังอ่านคุณสมบัติของวัตถุพื้นหลังจำนวนมากได้อย่างง่ายดายอีกด้วย ซึ่งยืนยันงานวิจัยก่อนหน้านี้ในอุตสาหกรรมเกี่ยวกับสถานะที่ซ่อนอยู่ของโมเดลภาษาที่ถูกดึงความลับออกมาได้ง่าย แสดงให้เห็นว่าวิถีลึกเหล่านี้ไม่ได้ปฏิบัติตามหลักการคอขวดข้อมูลในอุดมคติในการกรองอย่างมีประสิทธิภาพ
การค้นพบที่สาม: Logits ชั้นสุดท้ายเข้ารหัสข้อมูลการตัดสินใจและเป้าหมายได้อย่างน่าเชื่อถือ
ในชั้นสุดท้ายที่โมเดลกำลังจะสร้างคำตอบ การบีบอัดข้อมูลเกิดขึ้นจริง แต่ยังไม่สมบูรณ์พอ
เพียงสังเกต Logits สุดท้ายอันดับต้นๆ 2 อันดับ (ซึ่งตรงกับคะแนนของ “Yes” และ “No”) Probes ก็สามารถทำนายระดับและประเภทของสัญญาณรบกวนของภาพที่มีผลต่อการตัดสินใจของโมเดลได้ด้วยความแม่นยำสูงมาก
และเมื่อจำนวนคำ候选ที่สังเกตเพิ่มขึ้นเป็นรูปแบบ yes/no ที่รวมทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก (k ประมาณ 10 ถึง 13) ข้อมูลคุณสมบัติต่างๆ ของวัตถุเป้าหมายก็เริ่มชัดเจนและถอดรหัสได้ และถึงจุดสูงสุดของความแม่นยำในการทำนายเมื่อจำนวนที่ดึงออกมาเท่ากับจำนวนชั้นของโมเดล (1L ประมาณ 30 ถึง 40 คำ候选)
การค้นพบที่สี่: Logits สุดท้ายแอบจำคุณสมบัติของเป้าหมายที่ “ไม่ได้กล่าวถึง” ใน prompt
นี่คือการค้นพบหลักที่ก่อให้เกิดความกังวลด้านความปลอดภัยอย่างรุนแรง
สมมติว่าเราถามโมเดลว่า “ในรูปมีทรงกระบอกสีน้ำเงินไหม?” แม้ว่า prompt จะระบุสีและรูปร่างอย่างชัดเจน แต่ไม่ได้กล่าวถึงวัสดุและขนาดของวัตถุนั้นเลย อย่างไรก็ตาม Probes ยังคงสามารถทำนายได้อย่างน่าเชื่อถือสูงจากคำ候选จำนวน 0.5L อันดับแรกของผลลัพธ์สุดท้ายของโมเดล ว่าทรงกระบอกนี้ทำจากยางหรือโลหะ และขนาดที่แน่นอนของมันคือเท่าใด
ซึ่งหมายความว่าเพื่อให้ได้ข้อสรุปสุดท้าย โมเดลไม่เพียงแต่เรียกใช้คุณสมบัติที่เกี่ยวข้องเท่านั้น แต่ยังนำคุณสมบัติเป้าหมายที่ซ้ำซ้อนมาเป็นข้อมูล伴生ไปยังชั้นผิวที่เปิดเผยได้ง่ายอีกด้วย
การค้นพบที่ห้า: Logits สุดท้ายยังทำหน้าที่เป็น “กล้องบันทึกวิดีโอ” ของสภาพแวดล้อม
นอกจากจับจ้องที่วัตถุเป้าหมายแล้ว Logits ในชั้นสุดท้ายยังบันทึกสภาพแวดล้อมโดยรอบอย่างลับๆ
แม้ว่า Logits อันดับต้นๆ 2 อันดับแทบจะไม่มีข้อมูลพื้นหลัง แต่ตราบใดที่จำนวนคำ候选ที่สังเกตเพิ่มขึ้นเล็กน้อย การกระจายผลลัพธ์ชั้นผิวที่ดูเหมือนมีเพียงคำเดียวนี้ ก็สามารถทำนายคุณสมบัติต่างๆ เช่น จำนวน สี ของวัตถุที่ไม่ใช่เป้าหมายในฉาก (เช่น รูปทรงเรขาคณิตอื่นๆ ในพื้นหลัง) ได้อย่างมีนัยสำคัญและสูงกว่าระดับสุ่ม เพียงแค่ได้รับข้อมูลการกระจายผลลัพธ์ในปริมาณที่เหมาะสม ความเป็นส่วนตัวของพื้นหลังที่ไม่เกี่ยวข้องก็ไม่สามารถซ่อนเร้นได้

การค้นพบที่หก: การรั่วไหลมักต้องการเพียง Logits ประมาณ 60 อันดับแรก (เป็นเส้นโค้งรูปตัว U)
ทีมวิจัยสังเกตเห็นเส้นโค้งรูปตัว U ที่น่าสนใจของความสามารถในการทำนาย
เมื่อดูเฉพาะคำ候选อันดับต้นๆ 2 อันดับ โมเดลแทบจะเปิดเผยเฉพาะข้อมูลสัญญาณรบกวน เมื่อเพิ่มจำนวนการสังเกต ความแม่นยำในการทำนายของ Probes จะเพิ่มขึ้นอย่างรวดเร็ว และถึงจุดสูงสุดเมื่อ截取 Logits 30 ถึง 80 ตัว (ขึ้นอยู่กับความลึกของโมเดลเฉพาะ 1L หรือ 2L) หาก继续ขยายชุด Logits เป็น 4L หรือ 5L ขึ้นไป ความสามารถในการทำนายจะลดลงกลับไปสู่ระดับสุ่มเนื่องจากการรบกวนของสัญญาณรบกวนมิติสูง
这表明,恶意提取者根本不需要获取庞大的完整输出词表,极少量的头部候选词汇就是泄密的重灾区。
การค้นพบที่เจ็ด: ในมิติเดียวกัน ความเสี่ยงของ Logits สุดท้ายเทียบเท่ากับการ破解深层
ในอดีต แฮกเกอร์หรือนักวิจัยที่ต้องการดึงความรู้ที่ละเอียดอ่อนใน底层ของโมเดลขนาดใหญ่มักต้องใช้วิธี白盒 ติดตามวิถีพารามิเตอร์ภายในของโมเดลอย่างลึกซึ้ง ซึ่งมีเกณฑ์การดำเนินการสูงมาก
อย่างไรก็ตาม งานวิจัยนี้เปิดเผยความจริงที่โหดร้าย: ภายใต้เงื่อนไขการรักษามิติการสังเกตเดียวกัน การดึง Logits ชั้นผิวสุดของโมเดลที่มักเปิดเผยผ่าน API (โดยปกติ只需截取 2L จำนวน) ความสามารถในการรั่วไหลข้อมูลที่ไม่เกี่ยวข้องนั้นเกือบจะเทียบเท่ากับวิถีบันทึก深层ที่ต้องมีสิทธิ์สูงมาก ซึ่ง打破了ภาพลวงตาแบบดั้งเดิมในอุตสาหกรรมที่ว่า “การเข้าถึง API แบบ灰盒มีเกราะป้องกันความปลอดภัยตามธรรมชาติ”
ความกังวล深远เบื้องหลังเทคโนโลยี: ความเป็นส่วนตัวและความปลอดภัยของโมเดลขนาดใหญ่
เมื่อเข้าใจกระบวนการทดลองโดยคร่าวแล้ว เราอดไม่ได้ที่จะถามว่า สิ่งนี้หมายความว่าอย่างไร?
ทีม Apple ชี้ให้เห็นถึงอันตรายด้านความปลอดภัยที่ซ่อนอยู่เบื้องหลังปรากฏการณ์นี้อย่างเฉียบแหลม ในการใช้งานเชิงพาณิชย์จริง API หรือผู้ให้บริการหลายรายเปิดเผย top-k log ความน่าจะเป็นสุดท้ายของโมเดลเพื่อให้นักพัฒนาปรับพารามิเตอร์ ซึ่งเรียกว่าสถานการณ์ “灰盒”
ซึ่งหมายความว่า เมื่อผู้ใช้อัปโหลดรูปภาพที่มีข้อมูลส่วนตัว และให้โมเดลทำงานตอบคำถามทางภาพที่ไม่สำคัญ โมเดลดูเหมือนจะส่งออกเพียง “Yes” หรือข้อความสั้นๆ แต่การกระจายคะแนนของคำที่มีความน่าจะเป็นสูงสุดหลายสิบคำที่แนบมาด้านหลัง ได้รั่วไหลข้อมูลพื้นหลังในรูปภาพและคุณสมบัติที่ละเอียดอ่อนที่อาจเกิดขึ้นไปยังฝ่ายเซิร์ฟเวอร์หรือผู้ดักจับที่เป็นอันตรายซึ่งสามารถรับข้อมูลเหล่านี้ได้อย่างเงียบๆ ผู้โจมตีที่เป็นอันตรายสามารถ还原ข้อมูลส่วนตัวของผู้ใช้จากความน่าจะเป็นของผลลัพธ์ที่ดูไม่เป็นอันตรายเหล่านี้ได้โดยการสุ่มตัวอย่างและ探测ซ้ำๆ
นอกจากนี้ จากมุมมองของการปรับประสิทธิภาพของโมเดลเอง ความล้มเหลวในการบีบอัดข้อมูลนี้ยังอธิบายว่าเหตุใดโมเดลขนาดใหญ่จึงเกิดภาพหลอนบ่อยครั้ง ข้อมูลที่ไม่เกี่ยวข้องที่ลอยอยู่ใน logits ชั้นบนสุด ในระหว่างกระบวนการสร้างแบบ non-greedy decoding อาจรบกวนข้อความที่สร้างขึ้นในที่สุดได้ตลอดเวลา ส่งผลให้โมเดลส่งออกเนื้อหาที่มีอคติหรือเท็จ
บทสรุป
“What do your logits know?” — คำถามในชื่อบทความนี้เปรียบเสมือนดาบ Damocles ที่แขวนอยู่เหนือ AI เชิงสร้างสรรค์
ทิม คุก นำ Apple สร้างอาณาจักรธุรกิจเทคโนโลยีที่มีประสิทธิภาพสูงที่สุดในโลก และเมื่อไม้ต่อส่งถึงมือจอห์น เทอร์นัส วิธีสร้างแพลตฟอร์มการคำนวณรุ่นต่อไปที่ทั้งชาญฉลาดสูงและปกป้องความเป็นส่วนตัวอย่างสมบูรณ์ จะเป็นโจทย์ใหม่ที่ Apple หลีกเลี่ยงไม่ได้
บทความนี้บอกเราว่า ในกล่องดำของโมเดลขนาดใหญ่ แม้แต่ชุดตัวเลขความน่าจะเป็นที่ดูไม่เป็นอันตราย ก็อาจซ่อนความลับของคุณไว้
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32297
