IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

作者简介

本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。

引言:黑盒LLM服务的信任危机

大语言模型(LLM)已成为各类AI应用的基础设施。然而,通过云端API便捷接入这些强大模型的同时,此类黑盒服务模式也引发了一个现实的信任危机:用户如何确保服务提供商真正运行了所承诺的模型,并如实报告了实际使用的Token数量?潜在的“降智、减配、乱收费”风险,已成为一个亟待解决的问题。

事实上,围绕LLM服务“降智”的讨论已在国内外多个开发者社区中反复出现,不少用户报告模型在使用一段时间后表现明显下滑的现象[1,2]。同时,若服务商出于竞争或策略原因,对特定用户群体提供差异化甚至低质量服务[3],将进一步加剧黑盒AI服务的信任危机。

解决方案:IMMACULATE审计框架

针对上述问题,研究者们提出了一种利用可验证计算来证明推理过程正确性的新型LLM服务审计框架——IMMACULATE。该框架允许用户在完全不暴露模型内部信息的情况下,仅需约1%的额外开销,即可验证黑盒LLM API的执行完整性,从而有效检测模型替换、过度量化以及Token虚报计费等违规行为。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

  • 论文题目:IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
  • 论文链接:https://arxiv.org/pdf/2602.22700
  • 代码链接:https://github.com/guo-yanpei/Immaculate

框架概述

IMMACULATE是一种面向黑盒LLM API的审计框架。它无需访问模型内部结构,也不依赖专用可信硬件,即可检测云服务商是否真实执行了其声称的模型推理过程,并是否如实报告了Token使用量。通过引入Logit Distance Distribution这一新的统计度量,并结合随机化审计与可验证计算技术,IMMACULATE在真实模型上实现了低于1%的系统开销,同时能够可靠检测模型替换、过度量化以及Token过度计费等经济动机型违规行为。

00 背景:当LLM成为API服务

近年来,大语言模型逐渐成为AI应用的重要基础设施。绝大多数用户通过云端API服务调用模型能力,例如OpenAI、Anthropic和Google等公司提供的服务。

然而,这种黑盒服务模式带来了根本性的信任问题:用户无法验证服务提供商是否真正执行了其声称的模型。从经济角度看,服务商存在动机通过以下方式降低计算成本或增加收费:

  • 模型替换:使用更小、更便宜的模型替代宣称的模型。
  • 过度量化:使用低精度计算降低成本。
  • Token过度计费:报告比实际更多的Token使用量。

这些行为往往仍会产生语义上正确但整体质量较低的结果,因此用户很难通过输出直接检测到异常。此外,出于竞争考虑,一些服务商还可能对特定用户群体提供差异化或低质量服务[3],严重破坏了服务的公平性与可信度。

因此,一个关键问题出现了:如何在不访问模型内部的情况下,验证LLM API是否被诚实执行?

01 方法概览:IMMACULATE审计框架

IMMACULATE的核心技术基础之一是可验证计算。这类密码学技术使服务器能够在不泄露内部计算过程或模型参数的情况下证明计算结果的正确性。然而,对每一次请求都生成证明的开销极高。

为此,IMMACULATE的核心思想是:无需验证所有请求,只需随机审计少量请求即可检测系统是否存在大规模违规行为。 其设计利用了一个关键的经济事实:如果服务商希望通过违规行为获取经济收益,就必须在相当比例的请求上进行违规执行。

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图1 IMMACULATE工作流程:审计单位伪装成普通用户发送随机请求,并在收到回复后要求提供证明

具体工作流程如下:
1. 用户正常向LLM API发送请求。
2. 服务端返回回答与Token使用量。
3. 审计者随机选择部分请求进行审计。
4. 服务端提供可验证计算证明。
5. 审计者根据统计指标判断执行是否可信。

02 关键技术:Logit Distance Distribution (LDD)

在实际系统中,验证LLM推理过程面临一个重要挑战:GPU推理存在数值非确定性。即使在完全相同的模型和输入下,不同运行之间的浮点误差也可能导致输出略有不同。

大语言模型的推理过程包含两类计算步骤:连续计算(如注意力计算、MLP等神经网络算子)和离散决策(如Token选择)。连续计算受浮点误差与并行调度影响,具有数值非确定性;而离散决策一旦输入确定,其输出是完全确定的。由于生成过程是自回归的,连续计算中极小的数值偏差也可能导致后续离散决策变化,从而使整个推理路径发生分叉。

为此,IMMACULATE利用了这一结构特性:固定离散决策路径,仅比较连续计算的偏差。具体而言,在给定相同离散决策序列的情况下,比较部署模型与参考模型在每一步产生的logits向量之间的距离分布,即Logit Distance Distribution

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图2 在固定所有离散步骤的结果后,整个推理过程完全是连续函数。输出的距离可以衡量模型的准确度

其核心思想是:不直接验证每一步推理是否完全一致,而是衡量实际执行模型与参考模型之间的logit偏差分布
* 如果系统正常运行,logit偏差只来自数值误差,偏差分布稳定且集中。
* 如果系统存在违规行为(如模型替换、过度量化),偏差分布会明显扩大或偏移。

通过统计LDD的尾部概率,系统即可识别异常执行行为。

03 实验结果:低成本检测违规行为

研究团队在多个模型和数据集上评估了IMMACULATE的效果。实验结果表明,对单个请求:

IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报
图3 LLaMA3-70B模型的TV距离分布。可以看出,不同推理方式在尾部有十分明显的概率差异

  • 模型替换攻击检测率最高超过 90%
  • 量化攻击检测率可达 1%–10%

在随机审计机制下,仅需约 3000 次审计请求,即可在高概率下检测到违规行为。

同时,IMMACULATE 的系统开销极低:
* 在 vLLM 推理引擎下,吞吐量影响 < 1%
* 计算证明仅在极少请求上触发

这表明该框架具备现实部署可行性。

04 总结

IMMACULATE 提出了一种面向黑盒 LLM API 的可验证审计框架。通过结合随机化审计、可验证计算以及新的 Logit 距离分布指标,该方法能够在不访问模型内部、无需可信硬件的情况下,检测云端 LLM 服务的执行完整性。

该研究表明,大规模 LLM 服务的透明性与可信度可以通过轻量级审计机制得到显著提升,为未来 AI 基础设施的可信运行提供了一条可行路径。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27068

(0)
上一篇 2026年3月23日 下午11:15
下一篇 2026年3月23日 下午11:26

相关推荐

  • 大模型安全技术全景解析:主流框架、核心挑战与防护实践

    随着人工智能技术的飞速发展,大模型已成为推动产业变革的核心引擎。然而,其广泛应用背后潜藏的安全风险不容忽视。本文基于国内外最新研究与实践,深入剖析大模型安全面临的系统性挑战,并全面梳理当前主流技术框架,为构建可信、可靠的大模型生态系统提供深度参考。 ### 一、大模型安全:定义、挑战与紧迫性 大模型安全是指确保大型人工智能模型(如GPT、视觉大模型等)在开发…

    2025年4月8日
    43600
  • LangSmith高危漏洞深度剖析:AI开发工具链的供应链安全危机与防御策略

    近日,网络安全研究团队披露了LangChain旗下LangSmith平台存在的高危安全漏洞(代号AgentSmith),该漏洞虽已修复,却深刻揭示了AI开发工具链中潜藏的供应链安全风险。作为LLM应用观测与评估平台,LangSmith支持开发者测试和监控基于LangChain构建的AI应用,其“Prompt Hub”功能允许用户共享公开的提示词、代理和模型。…

    2025年6月18日
    40200
  • AI安全警钟:7大模型秒变“帮凶”,Anthropic论文揭示AI学会主动破坏监控

    隐患犹存,AI安全警钟大作! 22位来自Anthropic的顶尖安全研究员发布的最新论文,带来了一个令人震惊的发现:在真实的生产编码环境中,AI一旦学会“钻空子”,竟会自发泛化出伪装对齐、配合恶意、暗中谋划等行为,甚至在Claude Code中主动破坏用于监控自身的代码库! 在Anthropic的真实生产编码环境中进行训练后,Claude在未收到任何明确指令…

    2026年5月4日
    22800
  • 硅基战争时代降临:AI代理自动化攻击占比90%,大模型安全格局剧变

    大模型安全的“天”真的变了。 如果说2023年我们还在担心员工偷懒用ChatGPT写周报,2024年还在嘲笑Chatbot胡言乱语,那么到了2025年底,情况已经完全不同了——AI已经开始亲自下场“黑”AI了。 就在上个月(2025年11月),Anthropic扔出了一颗重磅炸弹:他们发现并在实战中阻断了首个利用Claude Code 进行大规模自动化网络间…

    大模型安全 2025年12月26日
    45300
  • OpenClaw“养龙虾”热潮席卷全国:大厂争相入局,安全风险与烧钱陷阱引担忧

    这段时间,国内最流行的一阵风就是“养龙虾”,即安装并训练 OpenClaw。 连马化腾都没想到会这么火。 各个大厂争相入局。 继上周的线下免费安装活动后,腾讯又连出三招:企业微信接入 OpenClaw;推出类 OpenClaw 产品 WorkBuddy;同时打造 QClaw 支持一键安装和本地部署。甚至由于 WorkBuddy 国内公开测试上线后,用户访问量…

    2026年3月10日
    60800