ปลายเดือนเมษายน 2026 วงการ AI สั่นสะเทือนจากบทความวิจัยชื่อ “Incompressible Knowledge Probes (IKP)”

ที่อยู่บทความ: https://www.alphaxiv.org/abs/2604.24827
Bojie Li หัวหน้านักวิทยาศาสตร์ของ Pine AI ได้เผยแพร่งานวิจัยที่อ้างว่าสามารถคำนวณขนาดที่แท้จริงของโมเดลแบบปิดได้สำเร็จด้วย “วิธีการตรวจจับแบบกล่องดำ” ใหม่
- GPT-5.5: 9.7 ล้านล้าน (9.7T) พารามิเตอร์
- Claude Opus 4.7: 4.0 ล้านล้าน (4.0T) พารามิเตอร์
- o1: 3.5 ล้านล้าน (3.5T) พารามิเตอร์
ข้อมูลนี้จุดชนวนโซเชียลมีเดียในทันที หาก GPT-5.5 มีขนาดถึง 10T จริง นั่นหมายความว่ามันใหญ่กว่า GPT-4 (ประมาณ 1.8T) ที่มีข่าวลือถึง 5 เท่า ชั่วขณะหนึ่ง ตัวเลขพารามิเตอร์นี้แพร่กระจายไปทั่วอินเทอร์เน็ต

อย่างไรก็ตาม เพียงไม่กี่วันต่อมา การพลิกผันก็ตามมา
ช่องโหว่ของตรรกะ: เรื่องราวเบื้องหลังการหดตัวจาก 10T สู่ 1.5T
เมื่อเร็วๆ นี้ Lawrence Chan จากห้องปฏิบัติการ CHAI แห่ง UC Berkeley และ Ben Sturgeon นักวิจัยจาก UK AISI ได้วิเคราะห์บทความนี้อย่างเจาะลึก

พวกเขาพบว่าบทความที่โด่งดังซึ่งอ้างว่า “สามารถย้อนกลับขนาดของโมเดลใหญ่” นี้ มีความคลาดเคลื่อนทางตรรกะและโค้ดอย่างร้ายแรง

หลังจากแก้ไขปัญหาเหล่านี้ พารามิเตอร์ของ GPT-5.5 อยู่ที่ประมาณ 1.5T (ช่วงความเชื่อมั่น 90%: 256B-8.3T)

เส้นโค้งการ拟合ที่ถูกตกแต่ง
ในบทความต้นฉบับ ผู้เขียนอ้างว่าไม่ได้ทำ “การจัดการขั้นต่ำ” (flooring) กับคะแนนของโมเดล แต่เมื่อจำลองโค้ด นักวิจัยพบว่าผู้เขียนได้แอบปรับคะแนนติดลบให้เป็นศูนย์เมื่อคำนวณคะแนนของโมเดลขนาดเล็ก
คำอธิบาย: เมื่อโมเดลเจอความรู้เฉพาะทางที่ไม่รู้ หากเดาสุ่ม (เกิดภาพหลอน) คะแนนจะกลายเป็นค่าลบ
หากลบการดำเนินการ “ปรับเป็นศูนย์” นี้ คะแนนของโมเดลขนาดเล็กจะลดลงอย่างมาก ซึ่งหมายความว่าเส้นโค้งการ拟合 “คะแนน-พารามิเตอร์” ที่เดิมชันจะค่อยๆ ราบเรียบลง หลังจากแก้ไข ขนาด GPT-5.5 ที่ประมาณการไว้ลดลงจาก 9.7T เหลือเพียง 1.5T


การตั้งคำถามแบบ “ปัญญาประดิษฐ์บกพร่อง”: 25% ของคำถามมีข้อผิดพลาด
นักวิจัยพบว่า “คลังคำถามความรู้เฉพาะทาง” ที่ใช้ทดสอบโมเดลก็มีคุณภาพต่ำเช่นกัน
- ความคลุมเครือ: ประมาณ 25% ของคำถามความรู้เฉพาะทางมีความคลุมเครือ (เช่น นักวิจัยชื่อซ้ำ)
- ข้อเท็จจริงผิดพลาด: คำตอบมาตรฐานบางส่วนมีข้อผิดพลาด
ที่ดราม่าที่สุดคือ ผู้เขียนต้นฉบับ Bojie Li ภายหลังยอมรับว่า: งานวิจัยนี้เป็นการสำรวจเบื้องต้นที่เขาทำเสร็จภายใน 4 วัน โดยได้รับความช่วยเหลือจาก AI Agent
รูปแบบ “AI เขียน论文วิจัย AI” นี้ Lawrence Chan เรียกว่า “Vibe-coding ที่เต็มไปด้วยข้อบกพร่อง”


ทฤษฎีหลักยังคงแข็งแกร่ง: ความรู้ “ไม่สามารถบีบอัดได้”
พูดอย่างเคร่งครัด แนวคิดหลักของบทความ——ความสัมพันธ์เชิงเส้นระหว่างคะแนน IKP กับจำนวนพารามิเตอร์แบบลอการิทึม——ยังคงเป็นจริง แต่การประมาณจำนวนพารามิเตอร์ไม่เป็นจริง

หลังจากแก้ปัญหาทั้งสองนี้ จำนวนพารามิเตอร์ที่ประมาณการของโมเดล前沿โดยใช้ IKP มักจะลดลง และช่วงความเชื่อมั่นจะกว้างขึ้น:
- GPT 5.5: 9.7T -> 1.5T
- Claude Opus 4.7: 4.0T -> 1.1T
- DeepSeek R1 (ขนาดจริง 671B): 424B -> 760B

ที่น่าชื่นชมคือ ข้อความสามข้อในบทความผ่านการทดสอบต่างๆ และพิสูจน์แล้วว่ายังคงถูกต้อง
ตัวอย่างเช่น คะแนน IKP มีความสัมพันธ์เชิงเส้นแบบลอการิทึมกับพารามิเตอร์ของโมเดล

สรุปแล้ว โมเดลหลักที่บทความเสนอยังคงได้รับการยอมรับจากวงการวิชาการ: Incompressible Knowledge Probes (IKP)
ทฤษฎีนี้เชื่อว่าความสามารถของโมเดลใหญ่สามารถแบ่งออกเป็นสองส่วน:
- ความสามารถเชิงกระบวนการ (ตรรกะ การใช้เหตุผล โค้ด): สิ่งนี้สามารถบีบอัดได้ ด้วยการปรับปรุงสถาปัตยกรรม โมเดลที่เล็กลงสามารถมีความสามารถในการใช้เหตุผลที่แข็งแกร่งขึ้น
- ความรู้เชิงข้อเท็จจริง (วันเกิดของ某人 สาขาวิจัยเฉพาะทาง): สิ่งนี้ ไม่สามารถบีบอัดได้
คุณสามารถนึกภาพโมเดลเป็นฮาร์ดไดรฟ์ การจัดเก็บข้อเท็จจริงหนึ่งต้องใช้พื้นที่ไม่กี่บิต
ดังนั้น การทดสอบว่าโมเดลรู้ “ความรู้เฉพาะทางที่ไม่สามารถบีบอัด” มากแค่ไหน จึงเป็น “เครื่องวัดแรง” ที่วิทยาศาสตร์ที่สุดในการตรวจจับพารามิเตอร์ของโมเดลแบบปิดในปัจจุบัน
ใครคือ “ราชาแห่งความรู้” ที่แท้จริง?
แม้ขนาดพารามิเตอร์จะลดลง แต่การจัดอันดับ “ความจุที่มีประสิทธิภาพ” ของแต่ละโมเดลยังคงมีค่าอ้างอิงสูง
โครงสร้างระดับ
- ระดับแรก (ราชาสูงสุด): GPT-5.5 แม้อาจมีเพียงประมาณ 1.5T แต่ประสิทธิภาพในความรู้เฉพาะทางระดับ T6 ที่หายากมากยังคงเป็นเลิศ
- ระดับที่สอง (การแข่งขันที่ใกล้ชิด): Claude Opus 4.7, o1, Grok-4 โมเดลเหล่านี้มีความจุที่มีประสิทธิภาพใกล้เคียงกันมาก การแข่งขันเข้าสู่ช่วงเดือด
- ความลับของ MoE (Mixture of Experts): การวิจัยพบว่าปริมาณความรู้ของโมเดล MoE ขึ้นอยู่กับ พารามิเตอร์ทั้งหมด ไม่ใช่ “พารามิเตอร์ที่เปิดใช้งาน” ในแต่ละครั้ง ซึ่งหมายความว่าหากต้องการให้โมเดลมีความรู้มาก การเพิ่มพารามิเตอร์ยังคงเป็นหนทางเดียวที่ถูกต้อง
ความลึกลับของ “โหมดการคิด”
การทดสอบแสดงให้เห็นว่าการเปิด “โหมดการคิด” (Thinking Mode) ไม่ได้เพิ่มปริมาณความรู้ของโมเดลอย่างมีนัยสำคัญ ซึ่งย้ำอีกครั้งว่า: การคิดช่วยเพิ่มตรรกะ แต่ไม่สามารถสร้างหนังสือที่คุณไม่ได้อ่านขึ้นมาจากความว่างเปล่า
สุดท้าย Lawrence Chan กล่าวเหน็บแนมว่า: งานนี้เสร็จโดย AI Agent ภายในสี่วันจริงๆ เพราะเว็บไซต์และคลังโค้ดเต็มไปด้วยสไตล์ที่หยาบกระด้างของ vibe coding

GPT-5.5 มีพารามิเตอร์ 9.7T?
เมื่อวันที่ 30 เมษายน บทความของ Bojie Li หัวหน้านักวิทยาศาสตร์ของ Pine AI ได้จุดประเด็นถกเถียง

แนวคิดหลักคือ: ความจุเชิงข้อเท็จจริงมีความสัมพันธ์เชิงเส้นแบบลอการิทึมกับขนาดโมเดล
บทความแสดงระดับความรู้ 7 ระดับ โดยที่ T7 เกือบ 0% สำหรับทุกโมเดล ซึ่งบ่งชี้ว่าการฝึกก่อนยังมีพื้นที่สำหรับการปรับปรุงอีกมาก

Gemini 3.1 Pro น่าจะเกิน 10T เพราะถูกใช้เป็นจุดยึด แต่บทความไม่ได้ประมาณการโดยตรง
ซึ่งหมายความว่า เราสามารถอนุมานต้นทุนการฝึกของโมเดลต่างๆ และประสิทธิภาพหลังการฝึกของพวกมันได้ในระดับหนึ่ง——นั่นคือ ประสิทธิภาพในงานที่ไม่ใช่ข้อเท็จจริงบางอย่างภายใต้ขนาดที่กำหนด
ในงานต้นฉบับ Bojie Li ได้สร้างชุดข้อมูลที่มีคำถามเชิงข้อเท็จจริง 1,400 ข้อ และ拟合ความแม่นยำกับจำนวนพารามิเตอร์
โดยการกลับด้านการ拟合 จากคะแนนชุดข้อมูลของโมเดลแบบปิด นักวิจัยจึงอนุมานจำนวนพารามิเตอร์ของพวกมัน

โดยเฉพาะอย่างยิ่ง “ช่วงการทำนาย” (Prediction interval, PI) 90% ในแถวสุดท้ายมีขนาดใหญ่มาก
ก่อนหน้านี้ มีผู้ใช้เน็ตสังเกตว่า “ขนาดเหล่านี้เป็นเพียงการคาดเดา ไม่ควรถือเป็นข้อเท็จจริง”

ตอนนี้หลายคนอยากรู้ว่าการประมาณการนั้นอ่อนไหวต่อระเบียบวิธีแค่ไหน——

Bojie Li กล่าวตรงไปตรงมา: “งานประเมินเดียวกัน ผลลัพธ์ครอบคลุมช่วง 60 เท่า → การประมาณจุดใดจุดเดียวไม่ซื่อสัตย์”

อย่างไรก็ตาม IKP เป็นเพียงจุดเริ่มต้น ไม่ใช่จุดสิ้นสุด
ผู้เขียนยอมรับอย่างตรงไปตรงมาว่าเขารีบอัปโหลดบทความ arXiv ที่ยังไม่สมบูรณ์ เพียงเพื่อปล่อยแนวคิดนี้ออกมา
บทความ โค้ด ชุดข้อมูล และเว็บไซต์เสร็จภายใน 4 วัน โดยใช้ Claude Code เป็นหลัก และไม่ผ่านการตรวจสอบโดยผู้เชี่ยวชาญก่อนเผยแพร่ การใช้การจัดการขั้นต่ำและ λ=−1 เพื่อเพิ่ม R² สูงสุดบนโมเดลน้ำหนักเปิด
เราหวังว่างานในอนาคตจะทำให้มันดีขึ้น!
Scaling Law ล้มเหลวหรือไม่?
การล่มสลายของ “ตำนานพารามิเตอร์” ครั้งนี้ได้ส่งสัญญาณเตือนให้กับอุตสาหกรรม: ยุคแห่งการบูชาตัวเลขใหญ่กำลังผ่านไป
การลดลงของ GPT-5.5 จาก 10T เหลือ 1.5T ไม่ได้หมายความว่ามันอ่อนแอลง แต่หมายความว่า OpenAI อาจทำการปรับปรุงคุณภาพข้อมูลและประสิทธิภาพพารามิเตอร์ที่น่าทึ่งยิ่งขึ้น
ดังที่ Lawrence Chan กล่าวในบทสรุป: “GPT-5.5 มีพารามิเตอร์เท่าไหร่? เรายังไม่แน่ใจ แต่วิธีการย้อนกลับขนาดโดยการ探测ความจุความรู้นี้ ได้เปิดเส้นทางใหม่ให้เราในการเปิดเผยม่านของโมเดลกล่องดำ”
บนเส้นทางสู่ AGI สิ่งที่เราอาจต้องการไม่ใช่ฮาร์ดไดรฟ์ที่ใหญ่ขึ้นอีกต่อไป แต่เป็นวิธีการจัดทำดัชนีที่ชาญฉลาดขึ้น
ข้อมูลอ้างอิง: https://x.com/deedydas/status/2049523583517634862
https://x.com/justanotherlaw/status/2050399317782155726
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33269
