GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

2026年4月底，AI界因一篇题为《不可压缩知识探针》（Incompressible Knowledge Probes，简称IKP）的论文而震动。

论文地址：https://www.alphaxiv.org/abs/2604.24827

Pine AI的首席科学家Bojie Li发布了一项研究，声称通过一种全新的「黑盒探测法」，成功推算出了闭源模型的实际规模。

这一数据瞬间引爆了社交媒体。要知道，若GPT-5.5真达到10T规模，意味着它比传闻中的GPT-4（约1.8T）大了5倍有余。一时间，这个参数传遍全网。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

然而，仅仅几天后，反转便接踵而至。

逻辑的漏洞：从10T到1.5T的缩水内幕

近期，来自UC伯克利CHAI实验室的Lawrence Chan与UK AISI的研究员Ben Sturgeon对这篇论文进行了深入剖析。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

他们发现，这篇声称「逆推大模型规模」的爆火论文，竟存在严重的逻辑与代码偏差。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

修复这些问题后，GPT-5.5的参数约为1.5T（90%置信区间：256B-8.3T）。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

被修饰的拟合曲线

在原论文中，作者声称未对模型得分进行「保底处理」（flooring）。但在复现代码时，研究者发现作者在计算小模型得分时，悄悄将负分归零了。

科普：当模型遇到未知冷知识时，若胡乱猜测（产生幻觉），得分会变为负数。

如果移除这个「归零」操作，小模型的得分将大幅下滑。这意味着原本陡峭的「得分-参数」拟合曲线会变得平缓。修正后，估算的GPT-5.5规模直接从9.7T暴跌至1.5T。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

「人工智障」出题：25%的题目本身就有错

研究者发现，用于测试模型的「冷知识题库」质量同样堪忧。

最戏剧性的是，原作者Bojie Li后来坦言：这篇研究是他在AI智能体的辅助下，仅用4天时间完成的早期探索。

这种「AI写论文研究AI」的模式，被Lawrence Chan戏称为「充满槽点的Vibe-coding」。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

核心理论依然坚挺：知识「不可压缩」

用严谨的话说，论文的核心思想——IKP得分与对数参数数量之间的线性关系——仍然成立，但参数数量的估计却不成立。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

解决这两个问题后，基于IKP的前沿模型估计的参数数量通常会下降，置信区间会扩大：

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

难得的是，论文中的三种说法，经受住了各种测试，被证明依然正确。

例如，IKP分数和模型的参数呈对数线性关系。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目

总之，论文提出的核心模型依然得到了学界的认可：不可压缩知识探针（IKP）。

该理论认为，大模型的能力可分为两部分：

你可以把模型想象成一个硬盘，存储一个事实就需要占用几个比特位。

因此，测试模型到底知道多少「不可压缩」的冷知识，确实是目前探测闭源模型参数最科学的「测力计」。

谁才是真正的「知识之王」？

尽管参数规模下调了，但各家模型的「有效容量」排名依然极具参考价值。

梯队格局

第一梯队（巅峰王者）： GPT-5.5。虽然可能只有1.5T左右，但它在T6级别的超冷门知识表现上依然冠绝群雄。
第二梯队（贴身肉搏）： Claude Opus 4.7、o1、Grok-4。这几款模型的有效容量高度接近，竞争进入白热化。
MoE（混合专家模型）的秘密： 研究发现，MoE模型的知识量取决于其总参数，而非每次运行时的「激活参数」。这意味着，若想让模型博学，堆参数依然是唯一的硬道理。

「思考模式」的玄学

测试显示，开启「思维链」（Thinking Mode）并不能显著增加模型的知识量。这再次印证了：思考能提高逻辑，但不能凭空变出你没读过的书。

最后，Lawrence Chan吐槽说：这项工作果然是AI智能体在四天内完成的，因为网站和代码库到处都体现着vibe coding的粗糙风格。

GPT-5.5参数从10T暴跌至1.5T？伯克利学者打假爆火论文，发现代码漏洞和25%错误题目