IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

作者简介

本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。

引言:黑盒LLM服务的信任危机

大语言模型(LLM)已成为各类AI应用的基础设施。然而,通过云端API便捷接入这些强大模型的同时,此类黑盒服务模式也引发了一个现实的信任危机:用户如何确保服务提供商真正运行了所承诺的模型,并如实报告了实际使用的Token数量?潜在的“降智、减配、乱收费”风险,已成为一个亟待解决的问题。

事实上,围绕LLM服务“降智”的讨论已在国内外多个开发者社区中反复出现,不少用户报告模型在使用一段时间后表现明显下滑的现象[1,2]。同时,若服务商出于竞争或策略原因,对特定用户群体提供差异化甚至低质量服务[3],将进一步加剧黑盒AI服务的信任危机。

解决方案:IMMACULATE审计框架

针对上述问题,研究者们提出了一种利用可验证计算来证明推理过程正确性的新型LLM服务审计框架——IMMACULATE。该框架允许用户在完全不暴露模型内部信息的情况下,仅需约1%的额外开销,即可验证黑盒LLM API的执行完整性,从而有效检测模型替换、过度量化以及Token虚报计费等违规行为。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

  • 论文题目:IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
  • 论文链接:https://arxiv.org/pdf/2602.22700
  • 代码链接:https://github.com/guo-yanpei/Immaculate

框架概述

IMMACULATE是一种面向黑盒LLM API的审计框架。它无需访问模型内部结构,也不依赖专用可信硬件,即可检测云服务商是否真实执行了其声称的模型推理过程,并是否如实报告了Token使用量。通过引入Logit Distance Distribution这一新的统计度量,并结合随机化审计与可验证计算技术,IMMACULATE在真实模型上实现了低于1%的系统开销,同时能够可靠检测模型替换、过度量化以及Token过度计费等经济动机型违规行为。

00 背景:当LLM成为API服务

近年来,大语言模型逐渐成为AI应用的重要基础设施。绝大多数用户通过云端API服务调用模型能力,例如OpenAI、Anthropic和Google等公司提供的服务。

然而,这种黑盒服务模式带来了根本性的信任问题:用户无法验证服务提供商是否真正执行了其声称的模型。从经济角度看,服务商存在动机通过以下方式降低计算成本或增加收费:

  • 模型替换:使用更小、更便宜的模型替代宣称的模型。
  • 过度量化:使用低精度计算降低成本。
  • Token过度计费:报告比实际更多的Token使用量。

这些行为往往仍会产生语义上正确但整体质量较低的结果,因此用户很难通过输出直接检测到异常。此外,出于竞争考虑,一些服务商还可能对特定用户群体提供差异化或低质量服务[3],严重破坏了服务的公平性与可信度。

因此,一个关键问题出现了:如何在不访问模型内部的情况下,验证LLM API是否被诚实执行?

01 方法概览:IMMACULATE审计框架

IMMACULATE的核心技术基础之一是可验证计算。这类密码学技术使服务器能够在不泄露内部计算过程或模型参数的情况下证明计算结果的正确性。然而,对每一次请求都生成证明的开销极高。

为此,IMMACULATE的核心思想是:无需验证所有请求,只需随机审计少量请求即可检测系统是否存在大规模违规行为。 其设计利用了一个关键的经济事实:如果服务商希望通过违规行为获取经济收益,就必须在相当比例的请求上进行违规执行。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图1 IMMACULATE工作流程:审计单位伪装成普通用户发送随机请求,并在收到回复后要求提供证明

具体工作流程如下:
1. 用户正常向LLM API发送请求。
2. 服务端返回回答与Token使用量。
3. 审计者随机选择部分请求进行审计。
4. 服务端提供可验证计算证明。
5. 审计者根据统计指标判断执行是否可信。

02 关键技术:Logit Distance Distribution (LDD)

在实际系统中,验证LLM推理过程面临一个重要挑战:GPU推理存在数值非确定性。即使在完全相同的模型和输入下,不同运行之间的浮点误差也可能导致输出略有不同。

大语言模型的推理过程包含两类计算步骤:连续计算(如注意力计算、MLP等神经网络算子)和离散决策(如Token选择)。连续计算受浮点误差与并行调度影响,具有数值非确定性;而离散决策一旦输入确定,其输出是完全确定的。由于生成过程是自回归的,连续计算中极小的数值偏差也可能导致后续离散决策变化,从而使整个推理路径发生分叉。

为此,IMMACULATE利用了这一结构特性:固定离散决策路径,仅比较连续计算的偏差。具体而言,在给定相同离散决策序列的情况下,比较部署模型与参考模型在每一步产生的logits向量之间的距离分布,即Logit Distance Distribution

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图2 在固定所有离散步骤的结果后,整个推理过程完全是连续函数。输出的距离可以衡量模型的准确度

其核心思想是:不直接验证每一步推理是否完全一致,而是衡量实际执行模型与参考模型之间的logit偏差分布
* 如果系统正常运行,logit偏差只来自数值误差,偏差分布稳定且集中。
* 如果系统存在违规行为(如模型替换、过度量化),偏差分布会明显扩大或偏移。

通过统计LDD的尾部概率,系统即可识别异常执行行为。

03 实验结果:低成本检测违规行为

研究团队在多个模型和数据集上评估了IMMACULATE的效果。实验结果表明,对单个请求:

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图3 LLaMA3-70B模型的TV距离分布。可以看出,不同推理方式在尾部有十分明显的概率差异

  • 模型替换攻击检测率最高超过 90%
  • 量化攻击检测率可达 1%–10%

在随机审计机制下,仅需约 3000 次审计请求,即可在高概率下检测到违规行为。

同时,IMMACULATE 的系统开销极低:
* 在 vLLM 推理引擎下,吞吐量影响 < 1%
* 计算证明仅在极少请求上触发

这表明该框架具备现实部署可行性。

04 总结

IMMACULATE 提出了一种面向黑盒 LLM API 的可验证审计框架。通过结合随机化审计、可验证计算以及新的 Logit 距离分布指标,该方法能够在不访问模型内部、无需可信硬件的情况下,检测云端 LLM 服务的执行完整性。

该研究表明,大规模 LLM 服务的透明性与可信度可以通过轻量级审计机制得到显著提升,为未来 AI 基础设施的可信运行提供了一条可行路径。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27068

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐

  • 大语言模型安全攻防新范式:从越狱攻击升级到可落地的防御体系

    随着大语言模型在企业服务、物联网、代码生成等关键场景的深度落地,其安全挑战已从理论探讨演变为迫在眉睫的实际威胁。本周精选的多篇前沿论文,系统性地揭示了当前大语言模型安全生态的三大核心矛盾:攻击手段的持续升级与防御机制的滞后性、安全性与性能的固有权衡、以及理论防护与实际脆弱性之间的巨大落差。这些研究不仅提供了技术层面的深度剖析,更构建了一套从攻击原理到防御落地…

    2025年12月1日
    17400
  • GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

    OpenAI近日推出了名为Aardvark的自主安全研究智能体,该智能体由GPT-5驱动,旨在自动发现并修复软件代码中的安全漏洞。 目前,Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式,能够随代码库的演化为开发团队提供持续的保护。 根据OpenAI披露的数据,在标准代码库的基准测试中,Aardvark对已知漏洞与人工植…

    2025年10月31日
    26300
  • AI安全攻防进入精细化对抗时代:从表情符号到GUI代理的全场景威胁分析

    随着大语言模型(LLM)在生产环境中的深度部署,AI安全领域正经历一场从粗放防御到精细化对抗的范式转变。传统基于规则和静态检测的安全机制已难以应对日益复杂的攻击向量,而攻击者正利用LLM系统的固有特性,从嵌入式固件到学术评审系统,从GUI交互界面到日常表情符号,构建起多维度的渗透路径。本周的多项研究揭示了这一趋势的严峻性,同时也展现了“以AI对抗AI”防御技…

    2025年9月19日
    16500
  • AI安全新纪元:多模态协同防御与动态博弈破解LLM越狱威胁

    一、关键发现 多模态防御体系构建成为战略刚需 研究表明,大型语言模型(LLM)与视觉语言模型(VLM)的越狱攻击源于训练数据不完整、语言歧义等结构性缺陷,因此需要建立跨模态协同防御框架。企业应优先部署感知层的变异一致性检测、生成层的安全解码及参数层的对抗性预训练对齐等技术,覆盖文本、图像、语音等全模态场景,并通过自动化红队测试和标准化评估持续验证防御效能。 …

    2026年1月12日
    53100
  • AI生成数据污染:医疗诊断可靠性的隐形杀手与破解之道

    随着生成式人工智能在医疗领域加速渗透,越来越多的病历、影像报告及各类临床文本正逐步纳入AI参与生成的范畴。这一旨在提升效率的技术革新背后,潜藏着威胁诊断安全性的深层隐患。 一项由新加坡国立大学、哈佛大学、斯坦福大学、耶鲁大学、谷歌及梅奥诊所等机构的跨学科团队完成的最新研究表明,当AI生成的临床文本被用作训练新一代AI模型时,一些罕见但关键的病理信息会在数据迭…

    6天前
    13500