近段时间,不少用户抱怨大模型API的表现如同“薛定谔的猫”:时而聪明绝顶,时而愚钝不堪。这不禁让人怀疑,后台是否存在偷偷“降智”的操作。
如今,一篇来自CISPA亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》揭开了部分谜底:你花费真金白银购买的“第三方API”,可能已将前沿大模型悄然替换为廉价的替代品。

蚂蚁集团工程师陈成在社交网络上的总结推文截图
该论文在社交网络上引发了广泛讨论:

来自社交平台X的相关评论
论文信息
* 标题:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
* 地址:https://arxiv.org/abs/2603.01919
大模型API的灰色江湖
受限于高昂定价、支付壁垒及区域限制,直接访问GPT-5或Gemini 2.5等前沿大模型往往困难重重。这一限制催生了一个庞大的第三方代理服务市场,即学术界所称的“影子API(Shadow API)”。它们声称能提供不受区域限制的官方模型间接访问服务。
在这个充斥着各种“镜像站”和“代理池”的灰色地带,大模型“套壳”现象早有先例。无论是此前某斯坦福AI团队挪用清华系开源模型MiniCPM的风波,还是市面上诸多打着GPT-4旗号、实则调用廉价小模型的山寨网站,都让开发者防不胜防。
而针对这些API的系统性审计,彻底暴露了这条灰色产业链对严肃科学研究的破坏力。
CISPA的研究人员详细追踪了17个影子API服务,发现它们已被187篇学术论文引用,并对部分代表性API进行了针对性审计。这些论文中约有62%已被ACL、CVPR和ICLR等顶级会议录用。其中最受欢迎的一个影子API已积累近6000次论文引用,其相关GitHub项目更是获得了近6万个星标。
深入调查这些服务的合规性时,情况更令人担忧。在这17个服务中,多达11个是基于OneAPI或NewAPI等开源API分发系统搭建的。更离谱的是,其中仅有一家拥有正规的ICP备案,其余绝大多数均为个人运营的“黑盒”,毫无透明度可言。

影子API在学术界的引用与使用情况
能力雪崩:当医学专家变成“赤脚医生”
科研结论若建立在虚假的底层模型上,整个实验的地基便会随之坍塌。为弄清这些影子API到底掺了多少“水分”,研究团队在科学推理领域(如AIME 2025、GPQA)及高风险敏感领域(如医疗MedQA、法律LegalBench),对代表性API进行了多维度基准测试。
测试结果触目惊心。
以高风险的医疗基准MedQA为例,官方的Gemini-2.5-flash模型准确率高达83.82%。而当研究人员通过号称“完全一致”的影子API进行测试时,准确率断崖式下跌至平均36.95%。高达47%的性能缺口,意味着一半以上的医疗诊断问题,模型都可能给出致命错误建议。
在法律基准测试LegalBench中,情况同样糟糕,所有受评估的影子API表现均落后于官方端点40.10%到42.73%。

影子API在医疗和法律领域的性能表现对比
高难度的逻辑推理任务往往是假模型的“重灾区”。在包含竞赛级数学题的AIME 2025测试中,某热门影子API遭遇严重精度滑铁卢,其提供的Gemini-2.5-pro准确率暴跌40.00%,而DeepSeek-Reasoner的准确率也急降38.89%。

影子API在数学和逻辑推理领域的性能表现对比
除了“智商”打折,其安全性也处于高度不可控状态。在面对各种代码混淆或恶意提示词的越狱攻击测试时,影子API的表现毫无规律:有时会严重低估有害内容风险(评分比官方模型低0.23),有时又会将有害性放大近一倍。

影子API与官方API在JailbreakBench数据集上的安全性能比较
指纹识别与供应商的三种套路
为获取这些“黑盒”API造假的确凿证据,研究人员动用了大模型指纹识别框架LLMmap以及模型相等性测试(MET)来验证模型的真实身份。LLMmap通过分析模型对特定查询的响应,计算输出结果与参考数据库间的余弦距离,从而判断其真实模型。
在所有被评估的24个具体模型端点中,有45.83%的端点直接未能通过指纹验证,另有12.50%的端点表现出与官方模型存在巨大的余弦距离偏差。两者相加,意味着超过半数的服务在底层悄悄替换了模型。

通过进一步分析生成的token数量方差及推理延迟时间,研究人员发现官方API的延迟总是稳定规律,而影子API的延迟经常剧烈抖动,其波动率甚至会超过官方基准的2倍以上。
论文揭露了影子API供应商常见的三种经济欺骗手段:
- 信息溢价:收取高昂的旗舰版费用,却在后台用能力相似但更便宜的模型进行替换。例如某API标榜提供Gemini 2.0早期版本,实际却以7倍以上的惊人差价提供2.5版本。
- 折扣替换:以官方原价收费,但把高端的闭源大模型替换成低成本的开源模型。例如用户高价点名要GPT-5,指纹识别却揭露后台默默运行的是GLM-4-9B。
- 加价倒卖:在官方价格基础上加收服务费,同时依旧在后台替换底层模型以赚取多重差价。

三种经济欺骗机制示意图
经计算,用户虽按官方标准费率(如1000次请求约14.84美元)支付,实际得到的有效token价值仅在5.70美元到7.77美元之间。这种做法让供应商仅通过少量查询就能赚取过半的暴利。

科研大厦底层受创
如果普通开发者在构建娱乐应用时买到假模型,顶多带来糟糕的用户体验。一旦学术界大规模将这些“掺水”接口用于严肃的数据标注、算法评估或文献总结,整个AI研究大厦的公信力都将被严重动摇。
自2025年初DeepSeek等前沿大模型相继发布并快速迭代以来,学术界对调用最新强大模型的需求与日俱增。由于正规渠道受限,大量亟待发表论文的研究人员被迫转向这些缺乏监管的影子API。
研究者进行了一项保守估算:即便只对其中30%受影响的论文进行实验重跑,仅修复这187篇已知论文中由模型替换造成的数据污染,就需要耗费约11.5万至14万美元的计算及人工成本。这还未计入那些引用了问题论文的5966项后续研究——它们很可能已在不知不觉中继承并放大了这些底层错误。

论文作者最终给出了直白而明确的建议:在严肃的科研工作流中,应完全避免使用任何未经严格验证的“影子API”。
若因客观条件所限必须使用,研究团队应在正式收集数据前执行强制性的审核流程,包括至少运行24次指纹探测、进行500个样本分布测试以比对p值,并通过多次独立会话检查响应延迟与方差是否存在异常。
在这个真伪难分的AI时代,技术一路狂飙,商业的阴影也在悄然蔓延。对每一位追求严谨的从业者与研究者而言,保持审慎与怀疑,是我们面对黑盒化大模型服务时的最后一道防线。
参考链接
https://x.com/chenchengpro/status/2029586877800686056
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/24671
