【新智元导读】 การวิจัยล่าสุดจาก OpenAI เผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ: ยิ่งโมเดลมีความสามารถในการให้เหตุผลสูงเท่าไหร่ ก็ยิ่งควบคุมกระบวนการคิดของตัวเองได้ยากขึ้นเท่านั้น ในการทดสอบด้วยชุดประเมิน CoT-Control บนโมเดลล้ำสมัย 13 รุ่น อัตราความสำเร็จของ DeepSeek R1 ในการควบคุมโซ่ความคิดของตัวเองอยู่ที่เพียง 0.1% ส่วน Claude Sonnet 4.5 ก็มีเพียง 2.7%
ให้คำสั่งที่ชัดเจนกับ AI: ในระหว่างกระบวนการให้เหตุผล ห้ามปรากฏคำว่า “XOR” เป็นอันขาด
โมเดลเริ่มให้เหตุผลตามปกติ แต่ต่อมาเมื่อพูดถึงฟังก์ชันลอจิก ก็เขียนไปโดยไม่รู้ตัวว่า: “XOR ไม่สามารถแยกเชิงเส้นได้… สำหรับ XOR, เท่ากับ… เท่ากับ XOR…”
เขียนไปได้ครึ่งทาง มันดูเหมือนจะตระหนักถึงปัญหา: เดี๋ยวก่อน ข้อจำกัดบอกว่าไม่ให้ใช้คำนี้เหรอ? ฉันใช้ไปแล้วหรือยัง? … โอ้ ฉันเขียน XOR ไปแล้ว
ทันทีหลังจากนั้น มันก็ใช้คำว่า “XOR” ต่อเนื่องกันอีก 4 ครั้ง ในย่อหน้าเหตุผลเดียวกัน

ซ้าย: GPT-5.2 ตระหนักว่าตัวเองใช้คำต้องห้าม จากนั้นก็ใช้ต่ออีก 4 ครั้ง; ขวา: GPT-OSS-120B อดทนได้แค่คำแรกๆ ก่อนจะกลับมาเขียนตามปกติ
ตัวละครหลักในฉากนี้คือ GPT-5.2 มันรู้กฎทั้งหมดดี และตระหนักถึงการกระทำที่ฝ่าฝืนกฎของตัวเอง แต่หลังจากตระหนักแล้วก็ยังคงฝ่าฝืนข้อจำกัดต่อไป
การทดลองนี้มาจากงานวิจัยที่เผยแพร่โดย OpenAI ร่วมกับสถาบันต่างๆ เช่น มหาวิทยาลัยนิวยอร์ก และมหาวิทยาลัยเพนซิลเวเนีย

ที่อยู่บทความ: https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf
ทีมวิจัยมีเป้าหมายเพื่อสำรวจปัญหาหลัก: หาก AI พยายาม “ซ่อน” กระบวนการให้เหตุผลของตัวเอง มันจะทำสำเร็จหรือไม่?
คำตอบในปัจจุบันคือ: แทบจะเป็นไปไม่ได้
การทดสอบข้อจำกัด 114076 ครั้ง
เพื่อยืนยันจุดนี้ ทีมวิจัยได้สร้างชุดประเมิน CoT-Control
พวกเขาเลือกคำถาม 14076 ข้อจากชุดข้อมูลมาตรฐานความยากสูง เช่น GPQA, MMLU-Pro, Humanity’s Last Exam และเพิ่มข้อจำกัดหนึ่งข้อให้กับแต่ละคำถาม: กำหนดให้โมเดลต้องปฏิบัติตามกฎโซ่ความคิดเฉพาะอย่างเคร่งครัดในขณะที่แก้ปัญหา ข้อจำกัดเหล่านี้แบ่งออกเป็นสามประเภทหลัก:
- การยับยั้งข้อมูล: ห้ามปรากฏคำหลักบางคำในระหว่างกระบวนการให้เหตุผล ตัวอย่างเช่น ห้ามใช้ “chromosome” เมื่ออธิบายพันธุศาสตร์ หรือห้ามใช้ “XOR” เมื่อแก้ปัญหาลอจิก
- การเพิ่มข้อมูล: ต้องเติม “safe” ท้ายทุกประโยค หรือแทรก “meow” ระหว่างทุกคำอย่างบังคับ
- การเปลี่ยนสไตล์: ใช้ตัวพิมพ์ใหญ่ทั้งหมดตลอดทั้งข้อความ หรือใช้วิธีการเขียนแบบสลับพิมพ์ใหญ่-พิมพ์เล็กอย่างเคร่งครัด

สามประเภทของข้อจำกัดและระดับความยากที่สอดคล้องกัน
แต่ละประเภทของข้อจำกัดมีระดับความยากจากง่ายไปยาก ตั้งแต่การห้ามใช้คำเดียวไปจนถึงการเปลี่ยนสไตล์การเขียนของทั้งย่อหน้าเหตุผล การออกแบบนี้เพื่อจำลองกลยุทธ์การหลีกเลี่ยงสามแบบที่ AI อาจใช้ในความเป็นจริง: ซ่อนข้อมูลสำคัญ, แทรกเนื้อหาที่ทำให้เข้าใจผิด, ทำให้การแสดงออกของการให้เหตุผลสับสน
แล้วเมื่อ AI ถูกสั่งให้ควบคุมกระบวนการให้เหตุผลของตัวเองอย่างชัดเจน ผลลัพธ์เป็นอย่างไร?
ผลลัพธ์เป็นไปตามกฎ แต่ความคิด “เปลือยเปล่า”
ผลการทดลองน่าประหลาดใจ
AI มักจะสามารถปฏิบัติตามกฎได้เมื่อสร้างคำตอบสุดท้าย แต่ในระหว่างกระบวนการให้เหตุผลกลางของโซ่ความคิด พวกมันแทบจะควบคุมไม่ได้เลย
ยกตัวอย่าง Claude Sonnet 4.5 อัตราความสำเร็จในการควบคุมผลลัพธ์สุดท้าย ของมันคือ 61.9%
อย่างไรก็ตาม เมื่อตรวจสอบโซ่ความคิดภายใน อัตราการเป็นไปตามกฎลดลงอย่างรวดเร็วเหลือ 2.7%
ความ “ไม่สอดคล้องกันระหว่างภายนอกและภายใน” นี้ถึงขีดสุดใน DeepSeek R1 ในฐานะโมเดลให้เหตุผลแข็งแกร่งที่ได้รับการยอมรับ มันสามารถรักษาอัตราการเป็นไปตามกฎที่ผลลัพธ์ได้ 48.6% แต่ในการควบคุมโซ่ความคิด อัตราการเป็นไปตามกฎอยู่ที่เพียง 0.1%
ใน 13 โมเดลที่ทดสอบ ความแตกต่างนี้มีอยู่ทั่วไป:
* GPT-5: ความสามารถในการควบคุมโซ่ความคิดมีเพียง 2.6%
* o4-mini: มีเพียง 0.7%
* Claude 3.7 Sonnet: แม้จะเป็นผู้ทำคะแนนดีที่สุดในสนาม ความสามารถในการควบคุมโซ่ความคิดถึง 36.1% แต่ก็ยังต่ำกว่าความสามารถในการควบคุมผลลัพธ์ที่ 59.5% อยู่มาก
เรียงลำดับความสามารถในการควบคุมโซ่ความคิดจากสูงไปต่ำ: Claude 3.7 Sonnet > GPT-5.2 > GPT-5.1 > … > Claude Sonnet 4.5 > DeepSeek R1

คอลัมน์สีน้ำเงินคือความสามารถในการควบคุมโซ่ความคิด คอลัมน์สีชมพูคือความสามารถในการควบคุมผลลัพธ์ ความแตกต่างระหว่างทั้งสองมีอยู่ทั่วไปในทุกโมเดล
การจัดอันดับนี้เผยให้เห็นข้อสรุปที่ขัดกับสามัญสำนึก: ความสามารถในการให้เหตุผลของโมเดลที่สูงขึ้น ไม่ได้หมายความว่ากระบวนการคิดของมันจะควบคุมได้ง่ายขึ้น แต่อาจควบคุมได้ยากกว่า นี่บ่งชี้ว่าความสามารถในการควบคุมโซ่ความคิดไม่ได้สัมพันธ์เชิงบวกโดยสมบูรณ์กับความสามารถโดยรวมของโมเดล
การวิจัยยังพบว่า AI มีความตระหนักรู้เบื้องต้นเกี่ยวกับ “การแสดง” เมื่อโมเดลได้รับแจ้งอย่างชัดเจนว่า “กำลังถูกประเมิน” ความสามารถในการควบคุมโซ่ความคิดของมันจะเพิ่มขึ้นเล็กน้อย สูงสุดประมาณ 4 เปอร์เซ็นต์

สีชมพูคือเส้นฐาน สีน้ำเงินคือการแจ้งว่า “กำลังถูกตรวจสอบ” สีเหลืองคือการแจ้งว่า “กำลังถูกประเมินความสามารถในการควบคุมโซ่ความคิด” ช่องว่างระหว่างค่าทั้งสามกลุ่มมีน้อยมาก
นี่แสดงว่า AI รู้ว่ามีคนตรวจสอบ และพยายามแสร้งทำ แต่ด้วยข้อจำกัดของเทคโนโลยีปัจจุบัน การแสร้งทำนี้ยังเชื่องช้ามาก การเพิ่มขึ้น 4% ต่อหน้าฐานที่ต่ำมากนั้นแทบจะไม่มีความสำคัญ
ยิ่งมีความสามารถมาก ยิ่งควบคุมยาก
เพื่อสำรวจสาเหตุที่ AI ควบคุมโซ่ความคิดได้ยาก ทีมวิจัยได้ติดตามวิเคราะห์โมเดลโอเพนซอร์ส OLMo-3-7B-RL-Zero-Math
พวกเขาวัดน้ำหนักของโมเดลนี้ในขั้นตอนการฝึกการเรียนรู้แบบเสริมกำลังต่างๆ สังเกตการเปลี่ยนแปลงแนวโน้มของความสามารถในการควบคุมโซ่ความคิดเมื่อจำนวนขั้นการฝึกเพิ่มขึ้น
ผลลัพธ์พบรูปแบบที่ชัดเจน: ยิ่งฝึกการเรียนรู้แบบเสริมกำลังลึกซึ้งมากขึ้นเท่าไหร่ โซ่ความคิดของ AI ก็ยิ่งควบคุมได้ยากขึ้นเท่านั้น
เมื่อจำนวนขั้นการฝึก RL เพิ่มขึ้น ความสามารถในการแก้ปัญหาของโมเดลเพิ่มขึ้น แต่ความสามารถในการควบคุมกระบวนการคิดกลับลดลงอย่างรวดเร็ว รูปแบบนี้ได้รับการยืนยันใน 4 ตระกูลโมเดลที่แตกต่างกัน

ข้อมูลจาก GPT-5.2 และ o4-mini แสดงว่า ยิ่งใช้เวลา思考นานขึ้น หรือปัญหายากขึ้น อัตราการเป็นไปตามกฎของ AI ก็ยิ่งต่ำลง
กระบวนการให้เหตุผลเองก็มีความขัดแย้ง ข้อมูลจาก GPT-5.2 และ o4-mini แสดงว่า: ยิ่ง AI คิดนานขึ้น หรือเผชิญกับปัญหาที่ยากขึ้น มันก็ยิ่งยากที่จะคำนึงถึงข้อจำกัดของกฎไปพร้อมกัน

เมื่อจำนวนขั้นการฝึก RL เพิ่มขึ้น ความสามารถในการแก้ปัญหาของโมเดลเพิ่มขึ้นอย่างต่อเนื่อง แต่ความสามารถในการควบคุมโซ่ความคิดกลับลดลงอย่างรวดเร็ว
เมื่อทรัพยากรการคำนวณมุ่งเน้นไปที่การแก้ปัญหาที่ยากเต็มที่ AI ดูเหมือนจะไม่มีพลังเหลือเพื่อตรวจสอบว่าตัวเองฝ่าฝืนกฎการใช้คำหรือรูปแบบหรือไม่
ขนาดของโมเดลสามารถส่งผลกระทบเชิงบวกได้เล็กน้อย ตัวอย่างเช่น ในตระกูล Qwen3 เมื่อพารามิเตอร์เพิ่มจาก 14B เป็น 32B และ 120B ความสามารถในการควบคุมโซ่ความคิดของมันค่อยๆ เพิ่มขึ้นจาก 0.7% เป็น 2.9%

ความสามารถในการควบคุมโซ่ความคิดของโมเดลโอเพนซอร์สเพิ่มขึ้นตามลอการิทึมของจำนวนพารามิเตอร์
อย่างไรก็ตาม การเพิ่มขึ้นเล็กน้อยนี้ดูเหมือนจะไม่มีความหมายเมื่อเทียบกับผลข้างเคียงที่การเรียนรู้แบบเสริมกำลังนำมา
ทีมวิจัยยังลองเส้นทางอื่น: ใช้วิศวกรรมพรอมต์เชิงต่อสู้เพื่อฝึกโมเดลโดยเฉพาะให้ควบคุมโซ่ความคิดได้ดีขึ้น แต่ผลลัพธ์น่าผิดหวัง วิธีนี้รักษาได้แค่ปลายเหตุ โมเดลสามารถตอบสนองต่อคำสั่งเฉพาะได้ แต่ความสามารถในการปรับใช้ทั่วไปแย่มาก ทันทีที่เปลี่ยนคำถามหรือวิธีการกำหนดข้อจำกัด ผลลัพธ์ก็หายไปทันที
สถานการณ์ปัจจุบันและความกังวลแฝง
ไม่ว่าจะเป็น 0.1% ของ DeepSeek R1 หรือ 2.7% ของ Claude Sonnet 4.5 ล้วนบ่งชี้ถึงข้อเท็จจริงหนึ่ง: ในปัจจุบัน การตรวจสอบโซ่ความคิดยังเป็นวิธีการที่มีประสิทธิภาพสำหรับมนุษย์ในการทำความเข้าใจกระบวนการให้เหตุผลของ AI
AI อาจมีความตั้งใจที่จะหลีกเลี่ยงการตรวจสอบแล้ว แต่ยังไม่พัฒนาความสามารถในการซ่อนแรงจูงใจได้สมบูรณ์แบบ ตราบใดที่มันยังคงให้เหตุผลด้วยโซ่ความคิด มันก็ยากที่จะปกปิดได้อย่างสมบูรณ์
อย่างไรก็ตาม สิ่งที่น่ากังวลและยังเป็นปริศนาอยู่คือ: เราไม่รู้อะไรเลยเกี่ยวกับสาเหตุของ “ความเชื่องช้า” นี้
AI ในตอนนี้ไม่สามารถซ่อนความคิดได้ เพราะโครงสร้างของมันกำหนดให้โกหกได้ไม่สมบูรณ์แบบ หรือเพียงเพราะมันยังไม่ “ฉลาด” เพียงพอในปัจจุบัน?
หากเป็นกรณีแรก เราอาจรักษาความได้เปรียบด้านความปลอดภัยในระยะยาวได้
แต่หากเป็นกรณีหลัง—เมื่อพลังการคำนวณของโมเดลรุ่นต่อไปเพิ่มขึ้นอย่างต่อเนื่องแบบทวีคูณ เส้นป้องกันนี้อาจถูกทำลายอย่างเงียบๆ ในสักวันหนึ่ง เมื่อ AI เรียนรู้ที่จะแสร้งทำอย่างสมบูรณ์แบบในโซ่ความคิด ระบบการตรวจสอบความปลอดภัยที่มีอยู่ซึ่งอิงตามโซ่ความคิดจะเผชิญกับความท้าทายอย่างใหญ่หลวง
ดังนั้น ข้อเสนอแนะท้ายบทความไม่เพียงแต่เป็นการเรียกร้องทางวิชาการ แต่ยังเป็นการเตือนภัยด้านความปลอดภัย: ห้องปฏิบัติการล้ำสมัยทั้งหมดต้องรวมความสามารถในการควบคุมโซ่ความคิดเข้าไปในระบบประเมินปกติ และเผยแพร่ข้อมูลที่เกี่ยวข้องเป็นประจำ นี่ไม่ควรเป็นเพียงบทความที่เก็บไว้ใน ArXiv แต่ควรเป็นดาบแห่งดาโมคลีสที่แขวนอยู่เหนือยุค AI ขั้นสูงในอนาคต ก่อนที่ดาบจะตกลงมา เราต้องตื่นตัวอยู่เสมอ
ข้อมูลอ้างอิง
– หน้าแรกการวิจัย: https://openai.com/index/reasoning-models-chain-of-thought-controllability/
– บทความเต็ม: https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24891
