2026年4月底,AI界因一篇题为《不可压缩知识探针》(Incompressible Knowledge Probes,简称IKP)的论文而震动。

论文地址:https://www.alphaxiv.org/abs/2604.24827
Pine AI的首席科学家Bojie Li发布了一项研究,声称通过一种全新的「黑盒探测法」,成功推算出了闭源模型的实际规模。
- GPT-5.5: 9.7万亿(9.7T)参数
- Claude Opus 4.7: 4.0万亿(4.0T)参数
- o1: 3.5万亿(3.5T)参数
这一数据瞬间引爆了社交媒体。要知道,若GPT-5.5真达到10T规模,意味着它比传闻中的GPT-4(约1.8T)大了5倍有余。一时间,这个参数传遍全网。

然而,仅仅几天后,反转便接踵而至。
逻辑的漏洞:从10T到1.5T的缩水内幕
近期,来自UC伯克利CHAI实验室的Lawrence Chan与UK AISI的研究员Ben Sturgeon对这篇论文进行了深入剖析。

他们发现,这篇声称「逆推大模型规模」的爆火论文,竟存在严重的逻辑与代码偏差。

修复这些问题后,GPT-5.5的参数约为1.5T(90%置信区间:256B-8.3T)。

被修饰的拟合曲线
在原论文中,作者声称未对模型得分进行「保底处理」(flooring)。但在复现代码时,研究者发现作者在计算小模型得分时,悄悄将负分归零了。
科普:当模型遇到未知冷知识时,若胡乱猜测(产生幻觉),得分会变为负数。
如果移除这个「归零」操作,小模型的得分将大幅下滑。这意味着原本陡峭的「得分-参数」拟合曲线会变得平缓。修正后,估算的GPT-5.5规模直接从9.7T暴跌至1.5T。


「人工智障」出题:25%的题目本身就有错
研究者发现,用于测试模型的「冷知识题库」质量同样堪忧。
- 歧义性: 约25%的专家知识题存在歧义(例如重名研究员)。
- 事实错误: 部分标准答案本身就有误。
最戏剧性的是,原作者Bojie Li后来坦言:这篇研究是他在AI智能体的辅助下,仅用4天时间完成的早期探索。
这种「AI写论文研究AI」的模式,被Lawrence Chan戏称为「充满槽点的Vibe-coding」。


核心理论依然坚挺:知识「不可压缩」
用严谨的话说,论文的核心思想——IKP得分与对数参数数量之间的线性关系——仍然成立,但参数数量的估计却不成立。

解决这两个问题后,基于IKP的前沿模型估计的参数数量通常会下降,置信区间会扩大:
- GPT 5.5:9.7T -> 1.5T
- Claude Opus 4.7:4.0T -> 1.1T
- DeepSeek R1(实际大小671B):424B -> 760B

难得的是,论文中的三种说法,经受住了各种测试,被证明依然正确。
例如,IKP分数和模型的参数呈对数线性关系。

总之,论文提出的核心模型依然得到了学界的认可:不可压缩知识探针(IKP)。
该理论认为,大模型的能力可分为两部分:
- 程序性能力(逻辑、推理、代码): 这是可以压缩的。随着架构优化,更小的模型可拥有更强的推理能力。
- 事实性知识(某人的出生日期、冷门研究领域): 这是不可压缩的。
你可以把模型想象成一个硬盘,存储一个事实就需要占用几个比特位。
因此,测试模型到底知道多少「不可压缩」的冷知识,确实是目前探测闭源模型参数最科学的「测力计」。
谁才是真正的「知识之王」?
尽管参数规模下调了,但各家模型的「有效容量」排名依然极具参考价值。
梯队格局
- 第一梯队(巅峰王者): GPT-5.5。虽然可能只有1.5T左右,但它在T6级别的超冷门知识表现上依然冠绝群雄。
- 第二梯队(贴身肉搏): Claude Opus 4.7、o1、Grok-4。这几款模型的有效容量高度接近,竞争进入白热化。
- MoE(混合专家模型)的秘密: 研究发现,MoE模型的知识量取决于其总参数,而非每次运行时的「激活参数」。这意味着,若想让模型博学,堆参数依然是唯一的硬道理。
「思考模式」的玄学
测试显示,开启「思维链」(Thinking Mode)并不能显著增加模型的知识量。这再次印证了:思考能提高逻辑,但不能凭空变出你没读过的书。
最后,Lawrence Chan吐槽说:这项工作果然是AI智能体在四天内完成的,因为网站和代码库到处都体现着vibe coding的粗糙风格。

GPT-5.5参数有9.7T?
4月30日,Pine AI的首席科学家李博杰的这篇论文引发了热议。

核心观点是:事实性容量与模型规模呈对数线性关系。
论文展示了7个知识层级,其中T7对所有模型来说几乎都是0%左右,这表明预训练仍有巨大的提升空间。

Gemini 3.1 Pro很可能超过10T,因为它被用作锚点,但论文中没有对其直接估算。
这意味着,我们可以在一定程度上推断不同模型的训练成本,以及它们的后训练效果——即在给定规模下,在某些非事实性任务上的表现。
在原作中,李博杰构建了一个包含1400个事实性问题的数据集,并将准确率与参数数量进行拟合。
通过反转拟合,从闭源模型的数据集得分,研究人员推断出其参数数量。

特别要注意最后一行的90%预测区间「Prediction interval, PI」非常大。
此前,就有网友注意到这些「规模只是推测,不应当作事实」。

现在许多人,想知道估算对方法论有多敏感——

李博杰直言,「同一个评估任务,结果横跨60倍区间 → 任何单一的点估计都不诚实。」

不过,IKP本是一个起点,而非终点。
作者坦诚自己匆忙上传了一篇未成熟的arXiv论文,只是为了把这个想法放出来。
论文、代码、数据集和网站都是在4天内完成的,主要借助Claude Code,发布前未经同行审阅。采用下限处理和λ=−1,是为了在开放权重模型上最大化R²。
我们期待未来的工作能将它做得更好!
Scaling Law失效了吗?
这次「参数神话」的破灭,给行业敲响了警钟:盲目崇拜大数字的时代正在过去。
GPT-5.5从10T降到1.5T,并不意味着它变弱了,而是意味着OpenAI可能在数据质量和参数效率上做了更惊人的优化。
正如Lawrence Chan在总结中所说:「GPT-5.5到底有多少参数?我们依然不确定。但这种通过探测知识容量来反推规模的方法,为我们揭开黑盒模型的面纱提供了一条新路径。」
在通往AGI的路上,我们需要的或许不再是更大的硬盘,而是更聪明的索引方式。
参考资料:https://x.com/deedydas/status/2049523583517634862
https://x.com/justanotherlaw/status/2050399317782155726
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33268

