AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

AdaptCLIP:无需微调的零样本工业异常检测新框架

当前,视觉模型在工业“缺陷检测”等领域的应用已相对成熟。然而,广泛使用的传统模型在训练时对数据要求极高,需要大量精细标注的数据才能达到理想效果。

大模型则有望在“零样本/少样本识别” 条件下,达到与传统模型相当的性能。CLIP 是 OpenAI 于 2021 年发布的开源视觉-语言基础模型。本研究在其基础上进行优化,旨在提升模型在工业质检医学影像等复杂真实场景中的快速适应与工作能力。

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

在工业质检与医学影像等真实场景中,异常检测 始终面临一个核心矛盾:模型既要具备跨领域泛化能力,又要在几乎没有目标域数据的情况下,精确定位细微异常。

现实生产中,产线频繁换型,新产品刚投产时缺陷样本极少,而异常往往表现为局部、稀疏、小尺度的像素级变化。这使得大量依赖监督学习或目标域微调的方法难以真正落地。

近日,西门子与腾讯优图联合研究团队提出 AdaptCLIP,一种通用视觉异常检测框架,其亮点包括:
* 单一模型
* 无需目标域微调
* 同时支持图像级异常分类像素级异常分割
* 兼容零样本/少样本推理

一、为什么“通用异常检测”一直做不好?

通用异常检测要求模型在训练域与测试域分布显著不同的前提下,仍能稳定检测异常。这一设定暴露了现有方法的结构性瓶颈:

  • 传统无监督AD方法(如 PaDiM、PatchCore、重建式模型)依赖大量正常样本,一旦面对未见类别或新领域,性能迅速退化。
  • CLIP驱动的方法虽借助跨模态先验实现零样本检测,但也存在明显代价:
    • WinCLIP 依赖密集窗口扫描,计算与显存开销巨大;
    • AnomalyCLIP、AdaCLIP 通过修改中间层或引入复杂 token,削弱了 CLIP 的原始表征能力;
    • InCtrl、PromptAD 要么只支持图像级判断,要么仍需目标域重新训练。

问题可归结为:如何在不破坏 CLIP 原有泛化能力的前提下,让它真正学会“找异常”?

二、AdaptCLIP 的答案:少即是多

AdaptCLIP 将 CLIP 视为一种“基础服务模型”,不改动其主干结构,仅在输入与输出端引入三个轻量适配器
* 视觉适配器
* 文本适配器
* 提示-查询适配器

其设计基于两个关键洞见:
1. 视觉与文本表征不应联合学习,而应交替学习
2. 少样本对比学习不能只看残差,还必须结合上下文信息

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

图1 AdaptCLIP 架构图

三、交替学习:零样本异常检测的核心机制

3.1 从 CLIP 的异常判别说起

给定查询图像,CLIP 视觉编码器输出局部 patch token 与全局图像 token,并与“正常/异常”文本嵌入进行相似度比对,即可得到图像级异常分数与像素级异常图。但在工业场景中,原生 CLIP 的像素级定位能力明显不足

3.2 视觉适配器:只做“微调”,不做“重塑”

视觉适配器分别作用于局部 patch token 与全局 token,均采用残差 MLP 结构,对 CLIP 表征进行轻量自适应调整:

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

其中,F_iqf_q 分别表示 CLIP 输出的局部 patch token 和全局图像 token,θ_vlθ_vg 为适配器可学习参数。其目标是在固定文本语义空间的前提下,使视觉特征更贴合异常检测任务,从而显著提升像素级定位能力。

3.3 文本适配器:抛弃 Prompt 工程

文本适配器不再依赖人工设计的模板,而是直接学习“正常/异常”两类可优化提示嵌入,并输入冻结的 CLIP 文本编码器生成语义表示:

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

其中 T(·) 表示 CLIP 文本编码器,w'_aw'_n 为最终用于特征比对的异常与正常文本嵌入。这一设计在保留 CLIP 原有语义结构的同时,降低了对 Prompt 工程经验的依赖。

为什么交替学习优于联合学习?

论文通过消融实验发现,在小规模训练数据下,联合学习易过拟合。因此 AdaptCLIP 采用交替优化策略:固定文本→优化视觉;固定视觉→优化文本,循环迭代。该策略在多个工业与医学数据集上,显著优于联合学习方案,成为零样本异常检测性能提升的关键。

四、对比学习:少样本场景下的关键补强

当可获得少量正常样本时,AdaptCLIP 启用提示-查询适配器

4.1 空间对齐:先对齐,再比较

针对查询图像的每个 patch,模型在正常样本中搜索欧氏距离最近的 patch 作为对齐目标,从而消除旋转、平移带来的干扰,并计算对齐残差特征。

4.2 残差+上下文:避免“只见树木,不见森林”

论文发现,仅依赖残差特征虽然能突出差异,但容易引入噪声、丢失上下文信息。因此 AdaptCLIP 将原始查询特征与对齐残差逐元素相加,形成联合特征:

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

在 1-shot 设置下,引入上下文后,在 MVTec 数据集上的像素级 AUPR 提升约 40%,成为少样本性能跃迁的关键因素。

4.3 从联合特征到异常预测:极简分割与分类头

在得到融合了上下文与对齐残差的联合特征后,AdaptCLIP 采用一套轻量输出头完成异常预测。

  • 像素级分割:联合特征经 1×1 卷积 与若干转置卷积模块上采样至原分辨率,生成异常图。
  • 图像级分类:对联合特征进行平均池化与最大池化,融合后输入 MLP 输出异常分数。

推理阶段根据可用信息进行结果融合:
* 零样本:融合视觉适配器与文本适配器预测。
* 少样本:在此基础上进一步融合提示-查询适配器结果。

五、实验结果:跨工业与医疗的一致验证

AdaptCLIP 在 12 个公开基准数据集(8 个工业 + 4 个医疗)上进行了系统评估,覆盖不同成像模态与异常类型。

在零样本异常检测场景下,AdaptCLIP 在 MVTec、VisA、BTAD、Real-IAD 等工业数据集上,图像级 AUROC 平均达到 86.2%(SOTA),在多类未见产品与跨类别测试中依然保持稳定优势。

在医学影像任务中,AdaptCLIP 在内窥镜数据集 Kvasir 与 Endo 的零样本像素级异常分割 AUPR 平均达到 48.7%,并在 Br35H(MRI)、COVID-19(X-ray)等数据集的零样本图像级异常检测中取得平均 90.7% 的 AUROC,均显著高于其他现有方法。

在少样本设置下,随着正常样本数量从 1-shot 增加至 4-shot,异常区域的定位逐步细化。提示-查询适配器显著降低了误报区域,使异常边界更加清晰。

从模型规模与效率来看,AdaptCLIP 在零样本条件下仅引入约 0.6M 额外可训练参数(对比方法可高达 10.7M)。在 518×518 分辨率下,零样本条件单张图像推理时间约 162 ms,兼顾了检测精度与实际部署需求。

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

图2 AdaptCLIP 在工业与医疗数据上检测结果可视化

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

图3 AdaptCLIP 在工业与医疗数据上图像级 AUROC 分类结果与其他方法对比

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

图4 AdaptCLIP 在工业与医疗数据上像素级 AUPR 分割结果与其他方法对比

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位

图5 AdaptCLIP 与其他方法对比模型规模与效率

可迁移的异常检测

AdaptCLIP 并未试图“重造一个更大的模型”,而是通过交替学习 + 轻量适配 + 上下文感知对比,在不破坏 CLIP 原始能力的前提下,实现了真正可迁移的异常检测。

它为工业与医疗等开放场景提供了一条清晰路径:

用最少的结构改动,换取最大的泛化收益。

论文链接: https://arxiv.org/abs/2505.09926

AdaptCLIP:西门子与腾讯优图联合打造零样本工业异常检测新框架,无需微调实现精准定位


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18412

(0)
上一篇 2026年1月19日 上午11:28
下一篇 2026年1月19日 下午11:31

相关推荐

  • 从文本生成到任务执行:AI能力跃迁的三年革命与人类角色的重新定义

    在人工智能发展的历史长河中,过去三年无疑构成了一个独特而关键的转折期。从2022年底ChatGPT引爆全球关注至今,AI技术不仅完成了从实验室到大众应用的跨越,更在功能形态上实现了从被动响应到主动执行的质变。这一进程不仅重塑了技术本身的能力边界,更在深层次上重构了人类与智能系统之间的协作关系。 回顾三年前的技术图景,GPT-3所展现的文本生成能力曾被视为革命…

    2025年11月30日
    17000
  • AI大模型技术周报:阿里Qwen3-VL、DeepSeek-OCR、讯飞Spark-Scilit-X1、腾讯混元世界模型重磅更新

    10月21日 【闭源】阿里发布Qwen3-VL-32B系列模型阿里发布了Qwen3-VL-32B-Thinking和Qwen3-VL-32B-Instruct两款32B参数的Dense模型。该系列在文档识别与理解、空间感知与万物识别、视觉2D检测与空间推理等能力上表现优异,适用于通用场景下的复杂感知任务。 详情链接:https://help.aliyun.c…

    2025年10月27日
    20000
  • 解放双手!Happy Coder:用手机远程监控与操控AI编程助手

    使用 Claude Code 或 Codex 辅助编程能显著提升开发效率,尤其对于非技术背景的用户,可以快速将想法转化为产品。 这如同拥有了一位专家级别的程序员同事,并且这位同事无需休息,能够 24 小时不间断工作。 然而,它存在一个明显的不足:在工作过程中经常需要与我们确认需求。如果我们不在电脑前,它便会暂停工作,直到我们返回并确认后才能继续。 为此,我在…

    2026年1月24日
    70900
  • AdaMCoT:多语言大模型的自适应思维链革命——让AI学会“用最合适的语言思考”

    在全球化AI应用浪潮中,多语言大模型(MLLM)面临着一个根本性的认知困境:当处理跨语言任务时,模型究竟应该使用原始语言直接推理,还是翻译成高资源语言(如英语)后再进行思考?这个看似简单的选择背后,隐藏着语言认知的深层差异。不同语言在模型内部实际上承载着不同的“认知特长”——英语以其严谨的逻辑结构和丰富的科学语料,在逻辑推理和事实核查方面表现卓越;而中文、印…

    2025年12月13日
    19800
  • 阿里开源Zvec:向量数据库迎来轻量级革命,AI应用开发进入新纪元

    阿里开源了向量数据库 Zvec。 对于不熟悉向量数据库的读者,简单来说,它专门用于存储和检索向量数据,常见于相似性搜索、推荐系统、AI应用等场景。 和传统需要独立部署的向量数据库不同,Zvec 直接运行在应用程序进程内部。这意味着不需要额外服务器,没有配置负担,也省去了基础设施成本。 Zvec 基于阿里巴巴内部长期使用的 Proxima 向量搜索引擎构建。官…

    2026年2月23日
    32900