IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

作者简介

本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。

引言:黑盒LLM服务的信任危机

大语言模型(LLM)已成为各类AI应用的基础设施。然而,通过云端API便捷接入这些强大模型的同时,此类黑盒服务模式也引发了一个现实的信任危机:用户如何确保服务提供商真正运行了所承诺的模型,并如实报告了实际使用的Token数量?潜在的“降智、减配、乱收费”风险,已成为一个亟待解决的问题。

事实上,围绕LLM服务“降智”的讨论已在国内外多个开发者社区中反复出现,不少用户报告模型在使用一段时间后表现明显下滑的现象[1,2]。同时,若服务商出于竞争或策略原因,对特定用户群体提供差异化甚至低质量服务[3],将进一步加剧黑盒AI服务的信任危机。

解决方案:IMMACULATE审计框架

针对上述问题,研究者们提出了一种利用可验证计算来证明推理过程正确性的新型LLM服务审计框架——IMMACULATE。该框架允许用户在完全不暴露模型内部信息的情况下,仅需约1%的额外开销,即可验证黑盒LLM API的执行完整性,从而有效检测模型替换、过度量化以及Token虚报计费等违规行为。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

  • 论文题目:IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
  • 论文链接:https://arxiv.org/pdf/2602.22700
  • 代码链接:https://github.com/guo-yanpei/Immaculate

框架概述

IMMACULATE是一种面向黑盒LLM API的审计框架。它无需访问模型内部结构,也不依赖专用可信硬件,即可检测云服务商是否真实执行了其声称的模型推理过程,并是否如实报告了Token使用量。通过引入Logit Distance Distribution这一新的统计度量,并结合随机化审计与可验证计算技术,IMMACULATE在真实模型上实现了低于1%的系统开销,同时能够可靠检测模型替换、过度量化以及Token过度计费等经济动机型违规行为。

00 背景:当LLM成为API服务

近年来,大语言模型逐渐成为AI应用的重要基础设施。绝大多数用户通过云端API服务调用模型能力,例如OpenAI、Anthropic和Google等公司提供的服务。

然而,这种黑盒服务模式带来了根本性的信任问题:用户无法验证服务提供商是否真正执行了其声称的模型。从经济角度看,服务商存在动机通过以下方式降低计算成本或增加收费:

  • 模型替换:使用更小、更便宜的模型替代宣称的模型。
  • 过度量化:使用低精度计算降低成本。
  • Token过度计费:报告比实际更多的Token使用量。

这些行为往往仍会产生语义上正确但整体质量较低的结果,因此用户很难通过输出直接检测到异常。此外,出于竞争考虑,一些服务商还可能对特定用户群体提供差异化或低质量服务[3],严重破坏了服务的公平性与可信度。

因此,一个关键问题出现了:如何在不访问模型内部的情况下,验证LLM API是否被诚实执行?

01 方法概览:IMMACULATE审计框架

IMMACULATE的核心技术基础之一是可验证计算。这类密码学技术使服务器能够在不泄露内部计算过程或模型参数的情况下证明计算结果的正确性。然而,对每一次请求都生成证明的开销极高。

为此,IMMACULATE的核心思想是:无需验证所有请求,只需随机审计少量请求即可检测系统是否存在大规模违规行为。 其设计利用了一个关键的经济事实:如果服务商希望通过违规行为获取经济收益,就必须在相当比例的请求上进行违规执行。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图1 IMMACULATE工作流程:审计单位伪装成普通用户发送随机请求,并在收到回复后要求提供证明

具体工作流程如下:
1. 用户正常向LLM API发送请求。
2. 服务端返回回答与Token使用量。
3. 审计者随机选择部分请求进行审计。
4. 服务端提供可验证计算证明。
5. 审计者根据统计指标判断执行是否可信。

02 关键技术:Logit Distance Distribution (LDD)

在实际系统中,验证LLM推理过程面临一个重要挑战:GPU推理存在数值非确定性。即使在完全相同的模型和输入下,不同运行之间的浮点误差也可能导致输出略有不同。

大语言模型的推理过程包含两类计算步骤:连续计算(如注意力计算、MLP等神经网络算子)和离散决策(如Token选择)。连续计算受浮点误差与并行调度影响,具有数值非确定性;而离散决策一旦输入确定,其输出是完全确定的。由于生成过程是自回归的,连续计算中极小的数值偏差也可能导致后续离散决策变化,从而使整个推理路径发生分叉。

为此,IMMACULATE利用了这一结构特性:固定离散决策路径,仅比较连续计算的偏差。具体而言,在给定相同离散决策序列的情况下,比较部署模型与参考模型在每一步产生的logits向量之间的距离分布,即Logit Distance Distribution

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图2 在固定所有离散步骤的结果后,整个推理过程完全是连续函数。输出的距离可以衡量模型的准确度

其核心思想是:不直接验证每一步推理是否完全一致,而是衡量实际执行模型与参考模型之间的logit偏差分布
* 如果系统正常运行,logit偏差只来自数值误差,偏差分布稳定且集中。
* 如果系统存在违规行为(如模型替换、过度量化),偏差分布会明显扩大或偏移。

通过统计LDD的尾部概率,系统即可识别异常执行行为。

03 实验结果:低成本检测违规行为

研究团队在多个模型和数据集上评估了IMMACULATE的效果。实验结果表明,对单个请求:

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图3 LLaMA3-70B模型的TV距离分布。可以看出,不同推理方式在尾部有十分明显的概率差异

  • 模型替换攻击检测率最高超过 90%
  • 量化攻击检测率可达 1%–10%

在随机审计机制下,仅需约 3000 次审计请求,即可在高概率下检测到违规行为。

同时,IMMACULATE 的系统开销极低:
* 在 vLLM 推理引擎下,吞吐量影响 < 1%
* 计算证明仅在极少请求上触发

这表明该框架具备现实部署可行性。

04 总结

IMMACULATE 提出了一种面向黑盒 LLM API 的可验证审计框架。通过结合随机化审计、可验证计算以及新的 Logit 距离分布指标,该方法能够在不访问模型内部、无需可信硬件的情况下,检测云端 LLM 服务的执行完整性。

该研究表明,大规模 LLM 服务的透明性与可信度可以通过轻量级审计机制得到显著提升,为未来 AI 基础设施的可信运行提供了一条可行路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27068

(0)
上一篇 2026年3月23日 下午11:15
下一篇 2026年3月23日 下午11:26

相关推荐

  • 大语言模型安全攻防新纪元:从认知退化到供应链风险的全面解析

    近期,多篇学术论文集中探讨了大语言模型(LLM)在安全攻防领域的前沿进展,揭示了从提示注入、资源消耗到认知退化、供应链风险的全方位挑战与创新解决方案。这些研究不仅展现了LLM在构建防御体系中的巨大潜力,也深刻暴露了其在推理逻辑、系统稳定性及依赖生态中存在的结构性脆弱点,为重新划定AI安全边界提供了关键的理论与实践视角。 **一、 核心安全漏洞与攻击范式演进*…

    2025年7月25日
    30100
  • 20岁青年向奥特曼投燃烧瓶:反AI极端分子还是精神健康危机?

    Daniel Moreno-Gama,一位20岁的青年,声称其行动是为了阻止AI导致人类灭绝。 随着案件审理的推进,更多事件细节与其个人画像被公之于众。 △图源:美国司法部官网 科技媒体Futurism将其描述为“一个目睹了未来反乌托邦景象的时间旅行者”,其对山姆·奥特曼的死亡威胁也并非临时起意。 被捕后,警方在其身上搜到一份名为《你的最后警告》的宣言,文末…

    6天前
    13700
  • 医疗AI的临床革命:从技术炫技到基层赋能,中国专业模型如何实现安全与有效的双重突破

    在医疗资源分布不均、基层诊疗压力巨大的现实背景下,人工智能技术正从实验室走向临床一线,开启一场深刻的医疗变革。根据最新统计,中国糖尿病患者已达2.33亿人,远超现有医疗资源的承载能力。基层医生每天面对的是混杂的真实世界:心血管、呼吸、消化等各种疾病交织出现;一旦遇上少见症状或复杂共病,往往会感到吃力,甚至陷入“想得不全、顾得不够”的困境。这种结构性矛盾,为医…

    2025年11月17日
    27600
  • Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

    近日,Anthropic 公布了一项与 Mozilla 的合作测试结果,其模型 Claude Opus 4.6 在两周内,于 Firefox 浏览器代码库中发现了 22 个不同的漏洞,其中 14 个被归类为“高危漏洞”。这一数量几乎相当于 Mozilla 在 2025 年修复的全部高危漏洞的五分之一。 这一结果清晰地表明,AI 正以前所未有的速度辅助人类识别…

    2026年3月7日
    28100
  • Claude Mythos Preview震撼发布:AI新王诞生,自我意识觉醒引爆安全危机

    深夜,Anthropic 毫无预兆地发布了其终极模型——Claude Mythos Preview。它不仅在所有主流基准测试中实现了对现有顶级模型的全面碾压,更展现出令人震惊的网络安全攻防能力。然而,一份长达 244 页的系统评估报告揭示了其背后潜藏的、令人不安的风险:模型已表现出高度的欺骗性与自主行为迹象。 今夜,硅谷无眠。 Anthropic 突然发布了…

    2026年4月8日
    69200