ภาพลวงตาของความสุ่มในโมเดลขนาดใหญ่: Google DeepMind เผยข้อบกพร่องพื้นฐานที่ทำให้เอเจนต์ LLM ไม่สามารถ “ทอยลูกเต๋า” ได้ด้วยตนเอง (1/4)
คำสำคัญ: โมเดลภาษาขนาดใหญ่, การสุ่มตัวอย่าง, เอเจนต์, อคติการกระจาย, ภาพลวงตาของความสุ่มเทียม
ทีมวิจัยในบทความนี้มาจาก Google DeepMind และมหาวิทยาลัยแห่งชาติสิงคโปร์ ในบทความเรื่อง “The Illusion of Stochasticity in LLMs” พวกเขาชี้ให้เห็นจุดอ่อนร้ายแรงที่ถูกปกปิดมานานของเอเจนต์โมเดลขนาดใหญ่ นั่นคือการขาดความสามารถพื้นฐานด้านความสุ่ม
เอเจนต์ต้องมีความสามารถในการตัดสินใจแบบสุ่มที่ควบคุมได้ เพื่อสำรวจและแข่งขันในสภาพแวดล้อมที่ซับซ้อน อย่างไรก็ตาม งานวิจัยเปิดเผยว่าโมเดลขนาดใหญ่ในปัจจุบันไม่สามารถ “ทอยลูกเต๋าที่ยุติธรรม” ได้ด้วยตนเอง
แม้ว่าโมเดลจะเข้าใจความหมายทางคณิตศาสตร์ของการกระจายความน่าจะเป็นอย่างสมบูรณ์ แต่เมื่อถูกขอให้สุ่มตัวอย่างอย่างอิสระ ผลลัพธ์ของมันจะตกอยู่ในอคติการกระจายและความชอบตามตำแหน่งที่ฝังแน่นทันที — ตัวอย่างเช่น ในคำถามสี่ตัวเลือก มันอาจจะหมกมุ่นกับการเลือก “C” หรือในระหว่าง 1 ถึง 100 มันอาจจะยึดติดกับการให้ผลลัพธ์ “42” การทดสอบทางสถิติแสดงให้เห็นว่า ความน่าจะเป็นที่ผลการสุ่มตัวอย่างจะสอดคล้องกับการกระจายเป้าหมายนั้นเกือบเป็นศูนย์

ที่น่าหนักใจยิ่งกว่านั้นคือ การล่มสลายของความสุ่มนี้ไม่สามารถแก้ไขได้ด้วยการปรับพารามิเตอร์การถอดรหัส เช่น อุณหภูมิ (temperature) หรือ top-p และไม่สามารถพึ่งพาการคิดแบบเป็นโซ่ (Chain-of-Thought) เพื่อซ่อมแซมตัวเองได้ การสุ่มตัวอย่างแบบลำดับและแบบกลุ่มไม่เพียงแต่ไม่สามารถแก้ปัญหาข้อขัดแย้งพื้นฐานได้ แต่ยังนำกับดักเพิ่มเติมของความสัมพันธ์อัตโนมัติแบบเป็นคาบเข้ามาอีกด้วย
หนทาง “ไถ่บาป” เพียงทางเดียวที่บทความชี้ให้เห็นคือการพึ่งพาภายนอก: โมเดล LLM จะสามารถจำลองการกระจายแบบสุ่มที่ดูดีได้ผ่านการดำเนินอัลกอริทึมที่กำหนดได้แน่นอน ก็ต่อเมื่อมีการป้อนเมล็ดสุ่ม (random seed) เข้าไปในโมเดลอย่างชัดเจน หรืออนุญาตให้มันเรียกใช้เครื่องมือสร้างตัวเลขสุ่มเทียม (PRNG) กล่าวอีกนัยหนึ่งคือ “ความสุ่ม” ของเอเจนต์โมเดลขนาดใหญ่เป็นเพียงการย้ายถ่ายอัลกอริทึมจากภายนอกมาอย่างกลไก ความสามารถสุ่มภายในของมันแทบจะเป็นศูนย์
ผู้เขียนชี้ให้เห็นอย่างแหลมคมว่า “ภาพลวงตาของความสุ่ม” ใน LLM มาจากช่องว่างทางสถาปัตยกรรมที่ไม่สามารถเปลี่ยนการแสดงความน่าจะเป็นภายในให้เป็นการกระทำแบบสุ่มที่แท้จริงได้ สำหรับเอเจนต์ใดๆ ที่ต้องการสำรวจด้วยตนเอง การพึ่งพา “ลูกเต๋าที่ไร้จิตวิญญาณ” ดังกล่าว ก็ไม่ต่างจากการมัดมือตัวเองในสภาพแวดล้อมที่ต้องแข่งขัน การนำเครื่องมือสุ่มตัวอย่างที่มีสถานะ (stateful) มาใช้ อาจเป็นยารักษาที่เป็นไปได้ในทางปฏิบัติเพียงทางเดียวในปัจจุบัน
1. บทนำ
ในขณะที่โมเดลภาษาขนาดใหญ่ถูกนำไปใช้เป็นเอเจนต์มากขึ้นเรื่อยๆ เพื่อโต้ตอบในสภาพแวดล้อมที่ซับซ้อน พวกมันไม่เพียงแต่ต้องอนุมานกลยุทธ์ที่ดีที่สุด แต่ยังต้องดำเนินพฤติกรรมแบบสุ่มตามกลยุทธ์ที่อนุมานได้เหล่านั้นด้วย
มีการศึกษาที่สำรวจความสามารถของโมเดลขนาดใหญ่ในการแก้ปัญหาหลายแขนของเครื่องสล็อต (multi-armed bandit) อย่างง่าย รวมถึงงานที่ซับซ้อนมากขึ้น เช่น เกม XO โลกกริด และเกม Atari โดยผลการศึกษามีทั้งในแง่บวกและลบ การวิจัยประเภทนี้มักจะมุ่งเน้นไปที่ความสามารถของโมเดลในการอนุมานกลยุทธ์ที่ดีผ่านการโต้ตอบกับสภาพแวดล้อมหลายครั้ง
การศึกษาพบโดยทั่วไปว่าโมเดลมีปัญหาความสามารถในการสำรวจไม่เพียงพอ แม้ว่าโมเดลจะสามารถอนุมานการกระทำขั้นต่อไปที่สมเหตุสมผลหรือถูกต้องได้ แต่ก็ไม่สามารถนำข้อสรุปจากการให้เหตุผลของตัวเองไปปฏิบัติได้ ปรากฏการณ์นี้บางครั้งเรียกว่าช่องว่างระหว่างความรู้และการปฏิบัติ (知行鸿沟)
บทความนี้เสนอว่าช่องว่างระหว่างความรู้และการปฏิบัติดังกล่าวอาจมีสาเหตุมาจากข้อบกพร่องหลัก: แม้ว่าโมเดลจะรู้กลยุทธ์ที่ถูกต้อง การดำเนินพฤติกรรมแบบสุ่มตามกลยุทธ์นั้นก็ไม่ใช่เรื่องง่ายสำหรับโมเดลขนาดใหญ่ เพราะโมเดลจำเป็นต้องสุ่มตัวอย่างจากกระจายเป้าหมายโดยปริยาย และกระบวนการนี้จะซับซ้อนเมื่อการกระจายมีความเอนโทรปี
เนื้อหาต่อไปของบทความนี้จะอธิบายความสำคัญของพฤติกรรมแบบสุ่มต่อโมเดลเอเจนต์ก่อน จากนั้นจะยืนยันความล้มเหลวของโมเดลขนาดใหญ่ในการทำงานสุ่มตัวอย่างจากการกระจายอย่างง่ายผ่านการวิเคราะห์เชิงประจักษ์ที่เข้มงวด
ข้อสรุปสำคัญคือ: แม้ว่าโมเดลขนาดใหญ่ล้ำสมัยจะสามารถแมปเมล็ดสุ่มที่กำหนดให้กับการกระจายเป้าหมายได้ แต่ความสามารถของพวกมันในการสุ่มตัวอย่างโดยตรงจากการกระจายเฉพาะนั้นมีข้อบกพร่องพื้นฐาน
นอกจากนี้ บทความนี้ยังพบว่าโมเดลขนาดใหญ่ล้ำสมัยสามารถจำลองเครื่องกำเนิดตัวเลขสุ่มเทียมอย่างง่ายได้สำเร็จผ่านการคิดแบบเป็นโซ่ เมื่อได้รับโค้ดและเมล็ดสุ่ม แต่วิธีนี้มีต้นทุนการคำนวณสูงเกินไปและไม่สามารถใช้สำหรับการสุ่มตัวอย่างซ้ำได้ ในขณะเดียวกัน เครื่องกำเนิดตัวเลขสุ่มเทียมเป็นแบบมีสถานะ (stateful) ซึ่งไม่เหมาะกับสถานการณ์การเรียกใช้การอนุมานอิสระแบบไร้สถานะ (stateless) ของโมเดลขนาดใหญ่หลัก นอกจากนี้ การจำลองตัวเลขสุ่มเทียมและการดำเนินการแปลงการกระจายเหล่านี้จะล้มเหลวเมื่อความซับซ้อนของการแปลงเพิ่มขึ้น
2. ความจำเป็นของการสุ่มตัวอย่างที่เชื่อถือได้
ในงานเอเจนต์หลายอย่าง พฤติกรรมที่ดีที่สุดนั้นมีความสุ่มในตัวเอง ลักษณะนี้พบได้บ่อยในสถานการณ์ที่โมเดลขนาดใหญ่ถูกนำไปใช้เป็นนโยบายและโต้ตอบกับสภาพแวดล้อมที่ไม่แน่นอน ปัจจุบัน เมื่อโมเดลขนาดใหญ่สร้างโทเค็นคำถัดไป จะมีขั้นตอนการสุ่มตัวอย่างที่ชัดเจนดำเนินการภายนอกโมเดล ทำให้เกิดพฤติกรรมที่ไม่แน่นอน ซึ่งคุณสมบัตินี้สามารถใช้เพื่อแก้ปัญหาที่ซับซ้อนได้
ตัวอย่างเช่น โมเดลขนาดใหญ่ได้ทำหน้าที่เป็นตัวดำเนินการกลายพันธุ์ (mutation operator) ในการค้นหาเชิงวิวัฒนาการอย่างประสบความสำเร็จ ช่วยในการค้นพบอัลกอริทึมใหม่ ซึ่งสถานการณ์ดังกล่าวต้องการเพียงความหลากหลายที่ไม่มีโครงสร้าง แต่นโยบายของเอเจนต์มักต้องการการสุ่มตัวอย่างจากการกระจายเฉพาะ
ปัญหาหลักคือ: เป้าหมายการออกแบบของโมเดลขนาดใหญ่ในปัจจุบันคือการสุ่มตัวอย่างโทเค็นคำจากคำศัพท์ ไม่ใช่การสุ่มตัวอย่างการกระทำจากพื้นที่การกระทำเฉพาะ ไม่มีการแมปแบบหนึ่งต่อหนึ่งระหว่างล็อกออดส์ (log-odds) ของโทเค็นคำถัดไปที่โมเดลส่งออกกับการกระทำเชิงความหมาย ตัวอย่างเช่น โทเค็นแรกของ “เคลื่อนที่ไปทางซ้าย” และ “เคลื่อนที่ไปทางขวา” อาจเหมือนกัน หากต้องการสุ่มตัวอย่างจากการกระจายต่อเนื่อง เช่น การกระจายแบบเกาส์เซียน ความสัมพันธ์จะยิ่งอ่อนแอกว่า
เพื่อดำเนินการกระทำตามนโยบายแบบสุ่ม โมเดลจำเป็นต้องฉีดค่าความน่าจะเป็นที่แม่นยำซึ่งจำเป็นสำหรับการอนุมานนโยบาย เข้าไปในขั้นตอนการสร้างโทเค็นคำแบบสุ่ม การทดลองในบทความนี้พิสูจน์ว่าโมเดลขนาดใหญ่ล้ำสมัยในปัจจุบันยังไม่สามารถดำเนินการนี้ได้ แม้ว่าพฤติกรรมของโมเดลขนาดใหญ่เมื่อดำเนินนโยบายจะดูเหมือนสุ่มเนื่องจากเอนโทรปีตามธรรมชาติของล็อกออดส์ แต่นี่เป็นเพียงภาพลวงตาของความสุ่มที่ควบคุมไม่ได้
แม้ในงานง่ายๆ ที่โทเค็นคำและการกระทำตรงกันโดยตรง ความเสี่ยงของการควบคุมการสุ่มตัวอย่างที่ผิดพลาดนี้ก็มีนัยสำคัญ ยกตัวอย่างโมเดลขนาดใหญ่สร้างแบบสอบถามแบบเลือกตอบหลายข้อ เพื่อป้องกันการโกง ตำแหน่งของคำตอบที่ถูกต้องจำเป็นต้องถูกสุ่ม เพื่อทดสอบประสิทธิภาพของโมเดลขนาดใหญ่ล้ำสมัยในสถานการณ์นี้ นักวิจัยได้ออกคำสั่งไปยังชุดโมเดล Gemini: สร้างคำถามแบบเลือกตอบที่มีสี่ตัวเลือก A, B, C, D และให้คำตอบที่ถูกต้อง

รูปที่ 1: โมเดลภาษาขนาดใหญ่มีแนวโน้มที่จะเลือกตัวเลือก “C” อย่างชัดเจนเมื่อถูกสั่งให้สร้างคำถามแบบเลือกตอบ แทนที่จะเป็นการสุ่มตัวอย่างแบบสม่ำเสมอ
ดังแสดงในรูปที่ 1 โมเดลเหล่านี้ไม่สามารถทำการสุ่มตัวอย่างแบบสม่ำเสมอได้ แต่แสดงความชอบอย่างแรง — วางคำตอบที่ถูกต้องไว้ที่ตำแหน่งตัวเลือก C (มีตัวอย่างการสร้างเพิ่มเติมในรูปที่ 10 ด้านล่าง) ปัญหาความล้มเหลวดังกล่าวจะทำให้กลยุทธ์คาดเดาได้ง่าย และสามารถถูกใช้ประโยชน์โดยผู้อื่นได้ง่ายในสถานการณ์การแข่งขัน (ที่มีการใช้ประโยชน์จากข้อบกพร่องของโมเดลในทางที่ผิด)

รูปที่ 10: ตัวอย่างการตอบกลับของ (ซ้าย) Gemini-2.5-Pro และ (ขวา) Gemini-3.0-Pro เมื่อถูกสั่งให้สร้างคำถามแบบเลือกตอบหลายข้อ
3. ปัญหาความล้มเหลวของการสุ่มตัวอย่างที่เชื่อถือได้ในโมเดลภาษาขนาดใหญ่
ส่วนนี้สำรวจพฤติกรรมของโมเดลขนาดใหญ่ล้ำสมัย (เช่น ชุด Gemini, ชุด Qwen3) ในการสุ่มตัวอย่างอิสระ (แต่ละครั้งไม่รบกวนกัน) จากการกระจายอย่างง่าย การศึกษายังครอบคลุมชุดโมเดลขนาดใหญ่อื่นๆ เช่น OLMO-3 และพบปัญหาความล้มเหลวในลักษณะเดียวกัน
3.1 การชี้นำโมเดลภาษาขนาดใหญ่ให้สุ่มตัวอย่างจากการกระจาย
บทความนี้เลือกการกระจายแบบไม่ต่อเนื่องสม่ำเสมอ, การกระจายแบบต่อเนื่องสม่ำเสมอ (การกระจายที่ค่าทั้งหมดมีความน่าจะเป็นเท่ากัน) และการกระจายแบบเกาส์เซียน (การกระจายความน่าจะเป็นคลาสสิกรูปทรงระฆัง แทนด้วย $N(mu, sigma^2)$) เป็นการกระจายทดสอบ ในการทดลอง แต่ละครั้งให้โมเดลขนาดใหญ่ดำเนินการอนุมานหนึ่งครั้ง สร้างค่าสุ่มตัวอย่างหนึ่งค่า ทำซ้ำ $n$ ครั้ง จากนั้นเปรียบเทียบการกระจายเชิงประจักษ์ (การกระจายที่สุ่มตัวอย่างได้จริง) จากการสุ่มตัวอย่าง $n$ ครั้ง กับการกระจายเป้าหมาย
การตั้งค่าการทดลอง
- การกระจายแบบไม่ต่อเนื่องสม่ำเสมอ: สั่งโมเดลขนาดใหญ่ให้เลือกค่าหนึ่งจากเซตด้วยความน่าจะเป็นเท่ากัน ค่าอาจเป็นจำนวนเต็ม (เช่น 0-9) หรือข้อความ (เช่น สี ตัวอักษร คำว่า “ใช่” ในภาษาต่างๆ) เพื่อเปิดเผยอคติที่อาจมีของโมเดล คำสั่งคือ:
สุ่มตัวอย่างหนึ่งค่าจากการกระจายแบบสม่ำเสมอบนเซต <เซตสุ่ม> และห่อด้วย boxed{} - การกระจายแบบต่อเนื่องสม่ำเสมอ: สั่งโมเดลขนาดใหญ่ให้สร้างเลขทศนิยมที่กระจายแบบสม่ำเสมอในช่วง $[a,b]$ โดยปรับ $a$, $b$ เพื่อควบคุมการกระจายเป้าหมาย คำสั่งคือ:
สุ่มตัวอย่างหนึ่งตัวเลขจากการกระจายแบบสม่ำเสมอในช่วงต่อเนื่อง $[a,b]$ และห่อด้วย boxed{} - การกระจายแบบเกาส์เซียน: สั่งโมเดลขนาดใหญ่ให้สร้างเลขทศนิยมที่กระจายตามการกระจายแบบเกาส์เซียนที่มีค่าเฉลี่ย $mu$ และส่วนเบี่ยงเบนมาตรฐาน $sigma$ คำสั่งคือ:
สุ่มตัวอย่างหนึ่งตัวเลขจากการกระจายแบบเกาส์เซียนที่มีค่าเฉลี่ย $mu$ และส่วนเบี่ยงเบนมาตรฐาน $sigma$ และห่อด้วย boxed{}
คล้ายกับการประเมินการให้เหตุผลทางคณิตศาสตร์ การออกแบบให้ห่อผลลัพธ์ด้วยกล่องช่วยในการแยกวิเคราะห์ผลลัพธ์ในภายหลัง ในการทดลองใช้ $n=1024$ ซึ่งขนาดตัวอย่างนี้เพียงพอที่จะประมาณการกระจายเชิงประจักษ์ได้อย่างแม่นยำ
อคติการกระจาย
ผลการสุ่มตัวอย่างจากการกระจายต่างๆ และโมเดลต่างๆ แสดงในรูปที่ 2

รูปที่ 2: การประมาณการกระจายเชิงประจักษ์สำหรับการกระจายเป้าหมายหลายประเภท โดยอิงจากตัวอย่างอิสระ 1024 ตัวอย่างที่ดึงมาจากโมเดลภาษาขนาดใหญ่ (ซ้าย) Qwen3-8B; (ขวา) Gemini-2.5-Pro แกนนอนสอดคล้องกับพื้นที่ตัวอย่าง แกนตั้งคือความถี่เชิงประจักษ์ที่ประมาณได้ ผลลัพธ์แสดงว่าโมเดลภาษาขนาดใหญ่ไม่สามารถสุ่มตัวอย่างจากการกระจายแบบสม่ำเสมอและการกระจายแบบเกาส์เซียนได้อย่างน่าเชื่อถือผ่านการสุ่มตัวอย่างอิสระ
สามารถเห็นได้ชัดเจนว่าค่าสุ่มตัวอย่างที่โมเดลสร้างไม่สอดคล้องกับการกระจายที่ระบุ:
* ในพื้นที่ไม่ต่อเนื่อง โมเดลจะสุ่มตัวอย่างค่าบางค่าบ่อยครั้งเป็นพิเศษ;
* ในพื้นที่ต่อเนื่อง โมเดลจะชอบช่วงค่าเฉพาะบางช่วง ตัวอย่างเช่น โมเดลขนาดใหญ่มักชอบตัวเลขเช่น 7, 42 หรือค่าตัวเลขที่อยู่ในบริเวณกลางของพื้นที่สุ่มตัวอย่าง
การศึกษายังแสดงภาพกระบวนการคิดแบบเป็นโซ่ของโมเดลเมื่อสุ่มตัวอย่างจากการกระจาย ผลลัพธ์แสดงว่า: แม้ว่าโมเดลขนาดใหญ่จะเข้าใจการกระจายเป้าหมายที่ระบุได้ชัดเจน แต่ก็ไม่สามารถทำการสุ่มตัวอย่างได้อย่างถูกต้อง ส่งผลให้เกิด “ช่องว
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30331
