大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

近段时间，不少用户抱怨大模型API的表现如同“薛定谔的猫”：时而聪明绝顶，时而愚钝不堪。这不禁让人怀疑，后台是否存在偷偷“降智”的操作。

如今，一篇来自CISPA亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》揭开了部分谜底：你花费真金白银购买的“第三方API”，可能已将前沿大模型悄然替换为廉价的替代品。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
蚂蚁集团工程师陈成在社交网络上的总结推文截图

该论文在社交网络上引发了广泛讨论：
大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
来自社交平台X的相关评论

论文信息
* 标题：Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
* 地址：https://arxiv.org/abs/2603.01919

大模型API的灰色江湖

受限于高昂定价、支付壁垒及区域限制，直接访问GPT-5或Gemini 2.5等前沿大模型往往困难重重。这一限制催生了一个庞大的第三方代理服务市场，即学术界所称的“影子API（Shadow API）”。它们声称能提供不受区域限制的官方模型间接访问服务。

在这个充斥着各种“镜像站”和“代理池”的灰色地带，大模型“套壳”现象早有先例。无论是此前某斯坦福AI团队挪用清华系开源模型MiniCPM的风波，还是市面上诸多打着GPT-4旗号、实则调用廉价小模型的山寨网站，都让开发者防不胜防。

而针对这些API的系统性审计，彻底暴露了这条灰色产业链对严肃科学研究的破坏力。

CISPA的研究人员详细追踪了17个影子API服务，发现它们已被187篇学术论文引用，并对部分代表性API进行了针对性审计。这些论文中约有62%已被ACL、CVPR和ICLR等顶级会议录用。其中最受欢迎的一个影子API已积累近6000次论文引用，其相关GitHub项目更是获得了近6万个星标。

深入调查这些服务的合规性时，情况更令人担忧。在这17个服务中，多达11个是基于OneAPI或NewAPI等开源API分发系统搭建的。更离谱的是，其中仅有一家拥有正规的ICP备案，其余绝大多数均为个人运营的“黑盒”，毫无透明度可言。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
影子API在学术界的引用与使用情况

能力雪崩：当医学专家变成“赤脚医生”

科研结论若建立在虚假的底层模型上，整个实验的地基便会随之坍塌。为弄清这些影子API到底掺了多少“水分”，研究团队在科学推理领域（如AIME 2025、GPQA）及高风险敏感领域（如医疗MedQA、法律LegalBench），对代表性API进行了多维度基准测试。

测试结果触目惊心。

以高风险的医疗基准MedQA为例，官方的Gemini-2.5-flash模型准确率高达83.82%。而当研究人员通过号称“完全一致”的影子API进行测试时，准确率断崖式下跌至平均36.95%。高达47%的性能缺口，意味着一半以上的医疗诊断问题，模型都可能给出致命错误建议。

在法律基准测试LegalBench中，情况同样糟糕，所有受评估的影子API表现均落后于官方端点40.10%到42.73%。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
影子API在医疗和法律领域的性能表现对比

高难度的逻辑推理任务往往是假模型的“重灾区”。在包含竞赛级数学题的AIME 2025测试中，某热门影子API遭遇严重精度滑铁卢，其提供的Gemini-2.5-pro准确率暴跌40.00%，而DeepSeek-Reasoner的准确率也急降38.89%。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
影子API在数学和逻辑推理领域的性能表现对比

除了“智商”打折，其安全性也处于高度不可控状态。在面对各种代码混淆或恶意提示词的越狱攻击测试时，影子API的表现毫无规律：有时会严重低估有害内容风险（评分比官方模型低0.23），有时又会将有害性放大近一倍。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
影子API与官方API在JailbreakBench数据集上的安全性能比较

指纹识别与供应商的三种套路

为获取这些“黑盒”API造假的确凿证据，研究人员动用了大模型指纹识别框架LLMmap以及模型相等性测试（MET）来验证模型的真实身份。LLMmap通过分析模型对特定查询的响应，计算输出结果与参考数据库间的余弦距离，从而判断其真实模型。

在所有被评估的24个具体模型端点中，有45.83%的端点直接未能通过指纹验证，另有12.50%的端点表现出与官方模型存在巨大的余弦距离偏差。两者相加，意味着超过半数的服务在底层悄悄替换了模型。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

通过进一步分析生成的token数量方差及推理延迟时间，研究人员发现官方API的延迟总是稳定规律，而影子API的延迟经常剧烈抖动，其波动率甚至会超过官方基准的2倍以上。

论文揭露了影子API供应商常见的三种经济欺骗手段：

信息溢价：收取高昂的旗舰版费用，却在后台用能力相似但更便宜的模型进行替换。例如某API标榜提供Gemini 2.0早期版本，实际却以7倍以上的惊人差价提供2.5版本。
折扣替换：以官方原价收费，但把高端的闭源大模型替换成低成本的开源模型。例如用户高价点名要GPT-5，指纹识别却揭露后台默默运行的是GLM-4-9B。
加价倒卖：在官方价格基础上加收服务费，同时依旧在后台替换底层模型以赚取多重差价。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型
三种经济欺骗机制示意图

经计算，用户虽按官方标准费率（如1000次请求约14.84美元）支付，实际得到的有效token价值仅在5.70美元到7.77美元之间。这种做法让供应商仅通过少量查询就能赚取过半的暴利。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

科研大厦底层受创

如果普通开发者在构建娱乐应用时买到假模型，顶多带来糟糕的用户体验。一旦学术界大规模将这些“掺水”接口用于严肃的数据标注、算法评估或文献总结，整个AI研究大厦的公信力都将被严重动摇。

自2025年初DeepSeek等前沿大模型相继发布并快速迭代以来，学术界对调用最新强大模型的需求与日俱增。由于正规渠道受限，大量亟待发表论文的研究人员被迫转向这些缺乏监管的影子API。

研究者进行了一项保守估算：即便只对其中30%受影响的论文进行实验重跑，仅修复这187篇已知论文中由模型替换造成的数据污染，就需要耗费约11.5万至14万美元的计算及人工成本。这还未计入那些引用了问题论文的5966项后续研究——它们很可能已在不知不觉中继承并放大了这些底层错误。

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

论文作者最终给出了直白而明确的建议：在严肃的科研工作流中，应完全避免使用任何未经严格验证的“影子API”。

若因客观条件所限必须使用，研究团队应在正式收集数据前执行强制性的审核流程，包括至少运行24次指纹探测、进行500个样本分布测试以比对p值，并通过多次独立会话检查响应延迟与方差是否存在异常。

在这个真伪难分的AI时代，技术一路狂飙，商业的阴影也在悄然蔓延。对每一位追求严谨的从业者与研究者而言，保持审慎与怀疑，是我们面对黑盒化大模型服务时的最后一道防线。

参考链接
https://x.com/chenchengpro/status/2029586877800686056

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/24671

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

大模型API的灰色江湖

能力雪崩：当医学专家变成“赤脚医生”

指纹识别与供应商的三种套路

科研大厦底层受创

相关推荐

AI安全新纪元：多模态协同防御与动态博弈破解LLM越狱威胁

AI代码安全革命：Claude Code Security如何颠覆传统漏洞检测模式

AI安全前沿突破：从零样本检测到供应链风险量化，四大技术路径重塑防御范式

大模型安全技术全景解析：主流框架、核心挑战与防护实践

南京大学联合美团、上交推出RunawayEvil：首个I2V自进化越狱框架，破解视频生成模型安全漏洞