พารามิเตอร์ GPT-5.5 ลดลงจาก 10T เหลือ 1.5T? นักวิชาการเบิร์กลีย์ตรวจสอบเอกสารที่ได้รับความนิยม พบช่องโหว่ในโค้ดและข้อผิดพลาด 25% ในโจทย์

2026年5月4日 pm8:27 • การประเมินโมเดลขนาดใหญ่ • 63 views

ปลายเดือนเมษายน 2026 วงการ AI สั่นสะเทือนจากบทความวิจัยชื่อ “Incompressible Knowledge Probes (IKP)”

ที่อยู่บทความ: https://www.alphaxiv.org/abs/2604.24827

Bojie Li หัวหน้านักวิทยาศาสตร์ของ Pine AI ได้เผยแพร่งานวิจัยที่อ้างว่าสามารถคำนวณขนาดที่แท้จริงของโมเดลแบบปิดได้สำเร็จด้วย “วิธีการตรวจจับแบบกล่องดำ” ใหม่

GPT-5.5: 9.7 ล้านล้าน (9.7T) พารามิเตอร์
Claude Opus 4.7: 4.0 ล้านล้าน (4.0T) พารามิเตอร์
o1: 3.5 ล้านล้าน (3.5T) พารามิเตอร์

ข้อมูลนี้จุดชนวนโซเชียลมีเดียในทันที หาก GPT-5.5 มีขนาดถึง 10T จริง นั่นหมายความว่ามันใหญ่กว่า GPT-4 (ประมาณ 1.8T) ที่มีข่าวลือถึง 5 เท่า ชั่วขณะหนึ่ง ตัวเลขพารามิเตอร์นี้แพร่กระจายไปทั่วอินเทอร์เน็ต

อย่างไรก็ตาม เพียงไม่กี่วันต่อมา การพลิกผันก็ตามมา

ช่องโหว่ของตรรกะ: เรื่องราวเบื้องหลังการหดตัวจาก 10T สู่ 1.5T

เมื่อเร็วๆ นี้ Lawrence Chan จากห้องปฏิบัติการ CHAI แห่ง UC Berkeley และ Ben Sturgeon นักวิจัยจาก UK AISI ได้วิเคราะห์บทความนี้อย่างเจาะลึก

พวกเขาพบว่าบทความที่โด่งดังซึ่งอ้างว่า “สามารถย้อนกลับขนาดของโมเดลใหญ่” นี้ มีความคลาดเคลื่อนทางตรรกะและโค้ดอย่างร้ายแรง

หลังจากแก้ไขปัญหาเหล่านี้ พารามิเตอร์ของ GPT-5.5 อยู่ที่ประมาณ 1.5T (ช่วงความเชื่อมั่น 90%: 256B-8.3T)

เส้นโค้งการ拟合ที่ถูกตกแต่ง

ในบทความต้นฉบับ ผู้เขียนอ้างว่าไม่ได้ทำ “การจัดการขั้นต่ำ” (flooring) กับคะแนนของโมเดล แต่เมื่อจำลองโค้ด นักวิจัยพบว่าผู้เขียนได้แอบปรับคะแนนติดลบให้เป็นศูนย์เมื่อคำนวณคะแนนของโมเดลขนาดเล็ก

คำอธิบาย: เมื่อโมเดลเจอความรู้เฉพาะทางที่ไม่รู้ หากเดาสุ่ม (เกิดภาพหลอน) คะแนนจะกลายเป็นค่าลบ

หากลบการดำเนินการ “ปรับเป็นศูนย์” นี้ คะแนนของโมเดลขนาดเล็กจะลดลงอย่างมาก ซึ่งหมายความว่าเส้นโค้งการ拟合 “คะแนน-พารามิเตอร์” ที่เดิมชันจะค่อยๆ ราบเรียบลง หลังจากแก้ไข ขนาด GPT-5.5 ที่ประมาณการไว้ลดลงจาก 9.7T เหลือเพียง 1.5T

การตั้งคำถามแบบ “ปัญญาประดิษฐ์บกพร่อง”: 25% ของคำถามมีข้อผิดพลาด

นักวิจัยพบว่า “คลังคำถามความรู้เฉพาะทาง” ที่ใช้ทดสอบโมเดลก็มีคุณภาพต่ำเช่นกัน

ความคลุมเครือ: ประมาณ 25% ของคำถามความรู้เฉพาะทางมีความคลุมเครือ (เช่น นักวิจัยชื่อซ้ำ)
ข้อเท็จจริงผิดพลาด: คำตอบมาตรฐานบางส่วนมีข้อผิดพลาด

ที่ดราม่าที่สุดคือ ผู้เขียนต้นฉบับ Bojie Li ภายหลังยอมรับว่า: งานวิจัยนี้เป็นการสำรวจเบื้องต้นที่เขาทำเสร็จภายใน 4 วัน โดยได้รับความช่วยเหลือจาก AI Agent

รูปแบบ “AI เขียน论文วิจัย AI” นี้ Lawrence Chan เรียกว่า “Vibe-coding ที่เต็มไปด้วยข้อบกพร่อง”

ทฤษฎีหลักยังคงแข็งแกร่ง: ความรู้ “ไม่สามารถบีบอัดได้”

พูดอย่างเคร่งครัด แนวคิดหลักของบทความ——ความสัมพันธ์เชิงเส้นระหว่างคะแนน IKP กับจำนวนพารามิเตอร์แบบลอการิทึม——ยังคงเป็นจริง แต่การประมาณจำนวนพารามิเตอร์ไม่เป็นจริง

หลังจากแก้ปัญหาทั้งสองนี้ จำนวนพารามิเตอร์ที่ประมาณการของโมเดล前沿โดยใช้ IKP มักจะลดลง และช่วงความเชื่อมั่นจะกว้างขึ้น:

GPT 5.5: 9.7T -> 1.5T
Claude Opus 4.7: 4.0T -> 1.1T
DeepSeek R1 (ขนาดจริง 671B): 424B -> 760B

ที่น่าชื่นชมคือ ข้อความสามข้อในบทความผ่านการทดสอบต่างๆ และพิสูจน์แล้วว่ายังคงถูกต้อง

ตัวอย่างเช่น คะแนน IKP มีความสัมพันธ์เชิงเส้นแบบลอการิทึมกับพารามิเตอร์ของโมเดล

สรุปแล้ว โมเดลหลักที่บทความเสนอยังคงได้รับการยอมรับจากวงการวิชาการ: Incompressible Knowledge Probes (IKP)

ทฤษฎีนี้เชื่อว่าความสามารถของโมเดลใหญ่สามารถแบ่งออกเป็นสองส่วน:

ความสามารถเชิงกระบวนการ (ตรรกะ การใช้เหตุผล โค้ด): สิ่งนี้สามารถบีบอัดได้ ด้วยการปรับปรุงสถาปัตยกรรม โมเดลที่เล็กลงสามารถมีความสามารถในการใช้เหตุผลที่แข็งแกร่งขึ้น
ความรู้เชิงข้อเท็จจริง (วันเกิดของ某人 สาขาวิจัยเฉพาะทาง): สิ่งนี้ ไม่สามารถบีบอัดได้

คุณสามารถนึกภาพโมเดลเป็นฮาร์ดไดรฟ์ การจัดเก็บข้อเท็จจริงหนึ่งต้องใช้พื้นที่ไม่กี่บิต

ดังนั้น การทดสอบว่าโมเดลรู้ “ความรู้เฉพาะทางที่ไม่สามารถบีบอัด” มากแค่ไหน จึงเป็น “เครื่องวัดแรง” ที่วิทยาศาสตร์ที่สุดในการตรวจจับพารามิเตอร์ของโมเดลแบบปิดในปัจจุบัน

ใครคือ “ราชาแห่งความรู้” ที่แท้จริง?

แม้ขนาดพารามิเตอร์จะลดลง แต่การจัดอันดับ “ความจุที่มีประสิทธิภาพ” ของแต่ละโมเดลยังคงมีค่าอ้างอิงสูง

โครงสร้างระดับ

ระดับแรก (ราชาสูงสุด): GPT-5.5 แม้อาจมีเพียงประมาณ 1.5T แต่ประสิทธิภาพในความรู้เฉพาะทางระดับ T6 ที่หายากมากยังคงเป็นเลิศ
ระดับที่สอง (การแข่งขันที่ใกล้ชิด): Claude Opus 4.7, o1, Grok-4 โมเดลเหล่านี้มีความจุที่มีประสิทธิภาพใกล้เคียงกันมาก การแข่งขันเข้าสู่ช่วงเดือด
ความลับของ MoE (Mixture of Experts): การวิจัยพบว่าปริมาณความรู้ของโมเดล MoE ขึ้นอยู่กับ พารามิเตอร์ทั้งหมด ไม่ใช่ “พารามิเตอร์ที่เปิดใช้งาน” ในแต่ละครั้ง ซึ่งหมายความว่าหากต้องการให้โมเดลมีความรู้มาก การเพิ่มพารามิเตอร์ยังคงเป็นหนทางเดียวที่ถูกต้อง

ความลึกลับของ “โหมดการคิด”

การทดสอบแสดงให้เห็นว่าการเปิด “โหมดการคิด” (Thinking Mode) ไม่ได้เพิ่มปริมาณความรู้ของโมเดลอย่างมีนัยสำคัญ ซึ่งย้ำอีกครั้งว่า: การคิดช่วยเพิ่มตรรกะ แต่ไม่สามารถสร้างหนังสือที่คุณไม่ได้อ่านขึ้นมาจากความว่างเปล่า

สุดท้าย Lawrence Chan กล่าวเหน็บแนมว่า: งานนี้เสร็จโดย AI Agent ภายในสี่วันจริงๆ เพราะเว็บไซต์และคลังโค้ดเต็มไปด้วยสไตล์ที่หยาบกระด้างของ vibe coding

GPT-5.5 มีพารามิเตอร์ 9.7T?

เมื่อวันที่ 30 เมษายน บทความของ Bojie Li หัวหน้านักวิทยาศาสตร์ของ Pine AI ได้จุดประเด็นถกเถียง

แนวคิดหลักคือ: ความจุเชิงข้อเท็จจริงมีความสัมพันธ์เชิงเส้นแบบลอการิทึมกับขนาดโมเดล

บทความแสดงระดับความรู้ 7 ระดับ โดยที่ T7 เกือบ 0% สำหรับทุกโมเดล ซึ่งบ่งชี้ว่าการฝึกก่อนยังมีพื้นที่สำหรับการปรับปรุงอีกมาก

Gemini 3.1 Pro น่าจะเกิน 10T เพราะถูกใช้เป็นจุดยึด แต่บทความไม่ได้ประมาณการโดยตรง

ซึ่งหมายความว่า เราสามารถอนุมานต้นทุนการฝึกของโมเดลต่างๆ และประสิทธิภาพหลังการฝึกของพวกมันได้ในระดับหนึ่ง——นั่นคือ ประสิทธิภาพในงานที่ไม่ใช่ข้อเท็จจริงบางอย่างภายใต้ขนาดที่กำหนด

ในงานต้นฉบับ Bojie Li ได้สร้างชุดข้อมูลที่มีคำถามเชิงข้อเท็จจริง 1,400 ข้อ และ拟合ความแม่นยำกับจำนวนพารามิเตอร์

โดยการกลับด้านการ拟合 จากคะแนนชุดข้อมูลของโมเดลแบบปิด นักวิจัยจึงอนุมานจำนวนพารามิเตอร์ของพวกมัน

โดยเฉพาะอย่างยิ่ง “ช่วงการทำนาย” (Prediction interval, PI) 90% ในแถวสุดท้ายมีขนาดใหญ่มาก

ก่อนหน้านี้ มีผู้ใช้เน็ตสังเกตว่า “ขนาดเหล่านี้เป็นเพียงการคาดเดา ไม่ควรถือเป็นข้อเท็จจริง”

ตอนนี้หลายคนอยากรู้ว่าการประมาณการนั้นอ่อนไหวต่อระเบียบวิธีแค่ไหน——

Bojie Li กล่าวตรงไปตรงมา: “งานประเมินเดียวกัน ผลลัพธ์ครอบคลุมช่วง 60 เท่า → การประมาณจุดใดจุดเดียวไม่ซื่อสัตย์”

อย่างไรก็ตาม IKP เป็นเพียงจุดเริ่มต้น ไม่ใช่จุดสิ้นสุด

ผู้เขียนยอมรับอย่างตรงไปตรงมาว่าเขารีบอัปโหลดบทความ arXiv ที่ยังไม่สมบูรณ์ เพียงเพื่อปล่อยแนวคิดนี้ออกมา

บทความ โค้ด ชุดข้อมูล และเว็บไซต์เสร็จภายใน 4 วัน โดยใช้ Claude Code เป็นหลัก และไม่ผ่านการตรวจสอบโดยผู้เชี่ยวชาญก่อนเผยแพร่ การใช้การจัดการขั้นต่ำและ λ=−1 เพื่อเพิ่ม R² สูงสุดบนโมเดลน้ำหนักเปิด

เราหวังว่างานในอนาคตจะทำให้มันดีขึ้น!

Scaling Law ล้มเหลวหรือไม่?

การล่มสลายของ “ตำนานพารามิเตอร์” ครั้งนี้ได้ส่งสัญญาณเตือนให้กับอุตสาหกรรม: ยุคแห่งการบูชาตัวเลขใหญ่กำลังผ่านไป

การลดลงของ GPT-5.5 จาก 10T เหลือ 1.5T ไม่ได้หมายความว่ามันอ่อนแอลง แต่หมายความว่า OpenAI อาจทำการปรับปรุงคุณภาพข้อมูลและประสิทธิภาพพารามิเตอร์ที่น่าทึ่งยิ่งขึ้น

ดังที่ Lawrence Chan กล่าวในบทสรุป: “GPT-5.5 มีพารามิเตอร์เท่าไหร่? เรายังไม่แน่ใจ แต่วิธีการย้อนกลับขนาดโดยการ探测ความจุความรู้นี้ ได้เปิดเส้นทางใหม่ให้เราในการเปิดเผยม่านของโมเดลกล่องดำ”

บนเส้นทางสู่ AGI สิ่งที่เราอาจต้องการไม่ใช่ฮาร์ดไดรฟ์ที่ใหญ่ขึ้นอีกต่อไป แต่เป็นวิธีการจัดทำดัชนีที่ชาญฉลาดขึ้น

ข้อมูลอ้างอิง: https://x.com/deedydas/status/2049523583517634862
https://x.com/justanotherlaw/status/2050399317782155726

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง