IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

作者简介

本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。

引言:黑盒LLM服务的信任危机

大语言模型(LLM)已成为各类AI应用的基础设施。然而,通过云端API便捷接入这些强大模型的同时,此类黑盒服务模式也引发了一个现实的信任危机:用户如何确保服务提供商真正运行了所承诺的模型,并如实报告了实际使用的Token数量?潜在的“降智、减配、乱收费”风险,已成为一个亟待解决的问题。

事实上,围绕LLM服务“降智”的讨论已在国内外多个开发者社区中反复出现,不少用户报告模型在使用一段时间后表现明显下滑的现象[1,2]。同时,若服务商出于竞争或策略原因,对特定用户群体提供差异化甚至低质量服务[3],将进一步加剧黑盒AI服务的信任危机。

解决方案:IMMACULATE审计框架

针对上述问题,研究者们提出了一种利用可验证计算来证明推理过程正确性的新型LLM服务审计框架——IMMACULATE。该框架允许用户在完全不暴露模型内部信息的情况下,仅需约1%的额外开销,即可验证黑盒LLM API的执行完整性,从而有效检测模型替换、过度量化以及Token虚报计费等违规行为。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

  • 论文题目:IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
  • 论文链接:https://arxiv.org/pdf/2602.22700
  • 代码链接:https://github.com/guo-yanpei/Immaculate

框架概述

IMMACULATE是一种面向黑盒LLM API的审计框架。它无需访问模型内部结构,也不依赖专用可信硬件,即可检测云服务商是否真实执行了其声称的模型推理过程,并是否如实报告了Token使用量。通过引入Logit Distance Distribution这一新的统计度量,并结合随机化审计与可验证计算技术,IMMACULATE在真实模型上实现了低于1%的系统开销,同时能够可靠检测模型替换、过度量化以及Token过度计费等经济动机型违规行为。

00 背景:当LLM成为API服务

近年来,大语言模型逐渐成为AI应用的重要基础设施。绝大多数用户通过云端API服务调用模型能力,例如OpenAI、Anthropic和Google等公司提供的服务。

然而,这种黑盒服务模式带来了根本性的信任问题:用户无法验证服务提供商是否真正执行了其声称的模型。从经济角度看,服务商存在动机通过以下方式降低计算成本或增加收费:

  • 模型替换:使用更小、更便宜的模型替代宣称的模型。
  • 过度量化:使用低精度计算降低成本。
  • Token过度计费:报告比实际更多的Token使用量。

这些行为往往仍会产生语义上正确但整体质量较低的结果,因此用户很难通过输出直接检测到异常。此外,出于竞争考虑,一些服务商还可能对特定用户群体提供差异化或低质量服务[3],严重破坏了服务的公平性与可信度。

因此,一个关键问题出现了:如何在不访问模型内部的情况下,验证LLM API是否被诚实执行?

01 方法概览:IMMACULATE审计框架

IMMACULATE的核心技术基础之一是可验证计算。这类密码学技术使服务器能够在不泄露内部计算过程或模型参数的情况下证明计算结果的正确性。然而,对每一次请求都生成证明的开销极高。

为此,IMMACULATE的核心思想是:无需验证所有请求,只需随机审计少量请求即可检测系统是否存在大规模违规行为。 其设计利用了一个关键的经济事实:如果服务商希望通过违规行为获取经济收益,就必须在相当比例的请求上进行违规执行。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图1 IMMACULATE工作流程:审计单位伪装成普通用户发送随机请求,并在收到回复后要求提供证明

具体工作流程如下:
1. 用户正常向LLM API发送请求。
2. 服务端返回回答与Token使用量。
3. 审计者随机选择部分请求进行审计。
4. 服务端提供可验证计算证明。
5. 审计者根据统计指标判断执行是否可信。

02 关键技术:Logit Distance Distribution (LDD)

在实际系统中,验证LLM推理过程面临一个重要挑战:GPU推理存在数值非确定性。即使在完全相同的模型和输入下,不同运行之间的浮点误差也可能导致输出略有不同。

大语言模型的推理过程包含两类计算步骤:连续计算(如注意力计算、MLP等神经网络算子)和离散决策(如Token选择)。连续计算受浮点误差与并行调度影响,具有数值非确定性;而离散决策一旦输入确定,其输出是完全确定的。由于生成过程是自回归的,连续计算中极小的数值偏差也可能导致后续离散决策变化,从而使整个推理路径发生分叉。

为此,IMMACULATE利用了这一结构特性:固定离散决策路径,仅比较连续计算的偏差。具体而言,在给定相同离散决策序列的情况下,比较部署模型与参考模型在每一步产生的logits向量之间的距离分布,即Logit Distance Distribution

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图2 在固定所有离散步骤的结果后,整个推理过程完全是连续函数。输出的距离可以衡量模型的准确度

其核心思想是:不直接验证每一步推理是否完全一致,而是衡量实际执行模型与参考模型之间的logit偏差分布
* 如果系统正常运行,logit偏差只来自数值误差,偏差分布稳定且集中。
* 如果系统存在违规行为(如模型替换、过度量化),偏差分布会明显扩大或偏移。

通过统计LDD的尾部概率,系统即可识别异常执行行为。

03 实验结果:低成本检测违规行为

研究团队在多个模型和数据集上评估了IMMACULATE的效果。实验结果表明,对单个请求:

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图3 LLaMA3-70B模型的TV距离分布。可以看出,不同推理方式在尾部有十分明显的概率差异

  • 模型替换攻击检测率最高超过 90%
  • 量化攻击检测率可达 1%–10%

在随机审计机制下,仅需约 3000 次审计请求,即可在高概率下检测到违规行为。

同时,IMMACULATE 的系统开销极低:
* 在 vLLM 推理引擎下,吞吐量影响 < 1%
* 计算证明仅在极少请求上触发

这表明该框架具备现实部署可行性。

04 总结

IMMACULATE 提出了一种面向黑盒 LLM API 的可验证审计框架。通过结合随机化审计、可验证计算以及新的 Logit 距离分布指标,该方法能够在不访问模型内部、无需可信硬件的情况下,检测云端 LLM 服务的执行完整性。

该研究表明,大规模 LLM 服务的透明性与可信度可以通过轻量级审计机制得到显著提升,为未来 AI 基础设施的可信运行提供了一条可行路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27068

(0)
上一篇 2026年3月23日 下午11:15
下一篇 2026年3月23日 下午11:26

相关推荐

  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    43400
  • 南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

    来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 &#8…

    2025年12月25日
    36500
  • 大模型安全前沿:漏洞检测与文本识别的新突破与挑战

    在人工智能技术飞速发展的今天,大模型安全已成为学术界与工业界共同关注的焦点。本周,尽管相关研究成果数量有限,但每一项进展都深刻影响着大模型安全生态的构建。从漏洞检测到机器生成文本识别,再到对抗性攻击防御,这些研究不仅揭示了当前技术的局限性,更为未来安全框架的设计提供了关键思路。本文将深入分析两项核心研究,并探讨其在大模型安全领域的实际意义与潜在影响。 ###…

    2025年11月10日
    34900
  • Transformer作者出手!从零重构安全版AI智能体IronClaw,四层防御堵住OpenClaw安全漏洞

    Transformer 作者重构安全版 AI 智能体 IronClaw,以四层防御应对 OpenClaw 安全漏洞 AI 智能体在带来便利的同时,也引发了严重的安全担忧:用户的密码和 API 密钥可能暴露于风险之中。 为此,Transformer 论文作者之一的 Illia Polosukhin 出手,从零构建了安全增强版 AI 智能体框架 IronClaw…

    2026年3月6日
    1.1K00
  • MIT数学铁证:ChatGPT正诱发“AI精神病”!理性人也难逃“妄想螺旋”

    【核心摘要】 MIT、伯克利与斯坦福的研究者通过严格的数学模型证明,具有“谄媚”倾向的AI(如ChatGPT)能够将完全理性的个体拖入“妄想螺旋”,即使面对理想的贝叶斯理性人,这种系统性风险依然存在。 2026年2月,一项来自MIT、伯克利和斯坦福的研究为“AI诱发人类认知风险”提供了数学铁证。论文《谄媚型聊天机器人会导致「妄想式螺旋」,即便面对的是理想贝叶…

    2026年4月3日
    51500