AdaptCLIP：西门子与腾讯优图联合打造零样本工业异常检测新框架，无需微调实现精准定位

AdaptCLIP：无需微调的零样本工业异常检测新框架

当前，视觉模型在工业“缺陷检测”等领域的应用已相对成熟。然而，广泛使用的传统模型在训练时对数据要求极高，需要大量精细标注的数据才能达到理想效果。

大模型则有望在“零样本/少样本识别” 条件下，达到与传统模型相当的性能。CLIP 是 OpenAI 于 2021 年发布的开源视觉-语言基础模型。本研究在其基础上进行优化，旨在提升模型在工业质检与医学影像等复杂真实场景中的快速适应与工作能力。

在工业质检与医学影像等真实场景中，异常检测 始终面临一个核心矛盾：模型既要具备跨领域泛化能力，又要在几乎没有目标域数据的情况下，精确定位细微异常。

现实生产中，产线频繁换型，新产品刚投产时缺陷样本极少，而异常往往表现为局部、稀疏、小尺度的像素级变化。这使得大量依赖监督学习或目标域微调的方法难以真正落地。

近日，西门子与腾讯优图联合研究团队提出 AdaptCLIP，一种通用视觉异常检测框架，其亮点包括：
* 单一模型
* 无需目标域微调
* 同时支持图像级异常分类与像素级异常分割
* 兼容零样本/少样本推理

一、为什么“通用异常检测”一直做不好？

通用异常检测要求模型在训练域与测试域分布显著不同的前提下，仍能稳定检测异常。这一设定暴露了现有方法的结构性瓶颈：

传统无监督AD方法（如 PaDiM、PatchCore、重建式模型）依赖大量正常样本，一旦面对未见类别或新领域，性能迅速退化。
CLIP驱动的方法虽借助跨模态先验实现零样本检测，但也存在明显代价：
- WinCLIP 依赖密集窗口扫描，计算与显存开销巨大；
- AnomalyCLIP、AdaCLIP 通过修改中间层或引入复杂 token，削弱了 CLIP 的原始表征能力；
- InCtrl、PromptAD 要么只支持图像级判断，要么仍需目标域重新训练。

问题可归结为：如何在不破坏 CLIP 原有泛化能力的前提下，让它真正学会“找异常”？

二、AdaptCLIP 的答案：少即是多

AdaptCLIP 将 CLIP 视为一种“基础服务模型”，不改动其主干结构，仅在输入与输出端引入三个轻量适配器：
* 视觉适配器
* 文本适配器
* 提示-查询适配器

其设计基于两个关键洞见：
1. 视觉与文本表征不应联合学习，而应交替学习。
2. 少样本对比学习不能只看残差，还必须结合上下文信息。

△ 图1 AdaptCLIP 架构图

三、交替学习：零样本异常检测的核心机制

3.1 从 CLIP 的异常判别说起

给定查询图像，CLIP 视觉编码器输出局部 patch token 与全局图像 token，并与“正常/异常”文本嵌入进行相似度比对，即可得到图像级异常分数与像素级异常图。但在工业场景中，原生 CLIP 的像素级定位能力明显不足。

3.2 视觉适配器：只做“微调”，不做“重塑”

视觉适配器分别作用于局部 patch token 与全局 token，均采用残差 MLP 结构，对 CLIP 表征进行轻量自适应调整：

其中，F_iq 和 f_q 分别表示 CLIP 输出的局部 patch token 和全局图像 token，θ_vl 和 θ_vg 为适配器可学习参数。其目标是在固定文本语义空间的前提下，使视觉特征更贴合异常检测任务，从而显著提升像素级定位能力。

3.3 文本适配器：抛弃 Prompt 工程

文本适配器不再依赖人工设计的模板，而是直接学习“正常/异常”两类可优化提示嵌入，并输入冻结的 CLIP 文本编码器生成语义表示：

其中 T(·) 表示 CLIP 文本编码器，w'_a 和 w'_n 为最终用于特征比对的异常与正常文本嵌入。这一设计在保留 CLIP 原有语义结构的同时，降低了对 Prompt 工程经验的依赖。

为什么交替学习优于联合学习？

论文通过消融实验发现，在小规模训练数据下，联合学习易过拟合。因此 AdaptCLIP 采用交替优化策略：固定文本→优化视觉；固定视觉→优化文本，循环迭代。该策略在多个工业与医学数据集上，显著优于联合学习方案，成为零样本异常检测性能提升的关键。

四、对比学习：少样本场景下的关键补强

当可获得少量正常样本时，AdaptCLIP 启用提示-查询适配器。

4.1 空间对齐：先对齐，再比较

针对查询图像的每个 patch，模型在正常样本中搜索欧氏距离最近的 patch 作为对齐目标，从而消除旋转、平移带来的干扰，并计算对齐残差特征。

4.2 残差+上下文：避免“只见树木，不见森林”

论文发现，仅依赖残差特征虽然能突出差异，但容易引入噪声、丢失上下文信息。因此 AdaptCLIP 将原始查询特征与对齐残差逐元素相加，形成联合特征：

在 1-shot 设置下，引入上下文后，在 MVTec 数据集上的像素级 AUPR 提升约 40%，成为少样本性能跃迁的关键因素。

4.3 从联合特征到异常预测：极简分割与分类头

在得到融合了上下文与对齐残差的联合特征后，AdaptCLIP 采用一套轻量输出头完成异常预测。

像素级分割：联合特征经 1×1 卷积 与若干转置卷积模块上采样至原分辨率，生成异常图。
图像级分类：对联合特征进行平均池化与最大池化，融合后输入 MLP 输出异常分数。

推理阶段根据可用信息进行结果融合：
* 零样本：融合视觉适配器与文本适配器预测。
* 少样本：在此基础上进一步融合提示-查询适配器结果。

五、实验结果：跨工业与医疗的一致验证

AdaptCLIP 在 12 个公开基准数据集（8 个工业 + 4 个医疗）上进行了系统评估，覆盖不同成像模态与异常类型。

在零样本异常检测场景下，AdaptCLIP 在 MVTec、VisA、BTAD、Real-IAD 等工业数据集上，图像级 AUROC 平均达到 86.2%（SOTA），在多类未见产品与跨类别测试中依然保持稳定优势。

在医学影像任务中，AdaptCLIP 在内窥镜数据集 Kvasir 与 Endo 的零样本像素级异常分割 AUPR 平均达到 48.7%，并在 Br35H（MRI）、COVID-19（X-ray）等数据集的零样本图像级异常检测中取得平均 90.7% 的 AUROC，均显著高于其他现有方法。

在少样本设置下，随着正常样本数量从 1-shot 增加至 4-shot，异常区域的定位逐步细化。提示-查询适配器显著降低了误报区域，使异常边界更加清晰。

从模型规模与效率来看，AdaptCLIP 在零样本条件下仅引入约 0.6M 额外可训练参数（对比方法可高达 10.7M）。在 518×518 分辨率下，零样本条件单张图像推理时间约 162 ms，兼顾了检测精度与实际部署需求。

△ 图2 AdaptCLIP 在工业与医疗数据上检测结果可视化

△ 图3 AdaptCLIP 在工业与医疗数据上图像级 AUROC 分类结果与其他方法对比

△ 图4 AdaptCLIP 在工业与医疗数据上像素级 AUPR 分割结果与其他方法对比

△ 图5 AdaptCLIP 与其他方法对比模型规模与效率

可迁移的异常检测

AdaptCLIP 并未试图“重造一个更大的模型”，而是通过交替学习 + 轻量适配 + 上下文感知对比，在不破坏 CLIP 原始能力的前提下，实现了真正可迁移的异常检测。

它为工业与医疗等开放场景提供了一条清晰路径：

用最少的结构改动，换取最大的泛化收益。

论文链接： https://arxiv.org/abs/2505.09926

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18412