超声AI新突破！浙大联合团队发布首个大规模超声图文数据集US-365K，打造超声专用大模型Ultrasound-CLIP

超声领域迎来专用大模型。超声影像因实时、无辐射的特性，已成为临床一线诊断的重要手段。然而，异质的解剖结构与多样的诊断属性使得通用视觉语言预训练模型难以直接适配，且现有医疗跨模态数据中超声样本占比不足5%，成为该领域研究的关键瓶颈。

超声AI新突破！浙大联合团队发布首个大规模超声图文数据集US-365K，打造超声专用大模型Ultrasound-CLIP

△ 超声图像在主要跨模态基准数据集中的占比分布。

图中红色区域及内部百分比代表超声图像的占比，蓝色区域为其他模态占比。顶部标签为绝对数量（单位：千）。论文提出的US-365K是首个大规模、完全专用于超声影像的数据集。

针对此问题，由浙大城市学院、浙江大学、香港城市大学、香港浸会大学、浙江大学医学院附属第一医院及浙江大学医学院附属妇产科医院等组成的联合研究团队，构建了首个大规模通用超声图像-文本数据集US-365K，并提出了专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP，旨在让模型真正理解超声的临床诊断语义。相关成果已被CVPR 2026接收，数据集与代码均已开源。

超声AI新突破！浙大联合团队发布首个大规模超声图文数据集US-365K，打造超声专用大模型Ultrasound-CLIP

核心挑战：超声跨模态学习的三重障碍

现有视觉语言模型在超声领域的应用面临三个主要问题：

数据缺口显著：主流医疗跨模态数据集以CT、MRI等为主，超声样本占比极低，缺乏大规模、标准化的专属训练数据。
语义模糊难对齐：超声诊断报告表述多样，相同病变存在不同描述方式，传统对比学习难以精准界定正负样本，易产生语义偏差。
缺乏临床结构先验：超声诊断依赖病灶与诊断属性间的复杂关联，通用模型无法建模这类专业的临床推理逻辑，仅能实现简单的关键词匹配。

超声AI新突破！浙大联合团队发布首个大规模超声图文数据集US-365K，打造超声专用大模型Ultrasound-CLIP

△ UDT与Ultrasound-CLIP框架概述。

图(a)：超声诊断分类体系（UDT）作为语义基础，通过标准化解剖层次结构（UHAT）和定义9个关键诊断属性（UDAF）来形式化超声知识。图(b)：Ultrasound-CLIP利用UDT的两种方式：(1) 基于UDAF的异构图编码器通过交叉注意力将属性关系融合到文本嵌入中，以建模结构化推理；(2) 构建基于UDAF的语义先验，实现双目标优化以解决歧义。该框架将视觉特征与这些图增强的、语义感知的文本表示对齐。

为从根本上解决上述问题，研究团队从标准化数据构建和定制化模型设计两大维度出发，打造全链路适配超声场景的跨模态学习体系。

第一步：构建UDT知识框架，打造标准化US-365K数据集

团队首先建立了超声诊断分类体系（UDT），为数据的标准化标注和模型学习确立统一依据。该体系包含两大核心模块：

超声层级解剖分类（UHAT）：依据临床诊断原则，系统梳理了涵盖9大人体系统、52个器官的层级解剖结构，明确了各器官的层级归属与上下文关联，以解决不同数据源中解剖分类混乱的问题。
超声诊断属性框架（UDAF）：凝练了临床医生解读超声影像时关注的9大诊断维度，包括身体系统、器官、诊断结果、形状、边缘、回声性、内部特征、后方声学现象、血流信号，并为每个维度定制了标准化的临床描述词汇表。

超声AI新突破！浙大联合团队发布首个大规模超声图文数据集US-365K，打造超声专用大模型Ultrasound-CLIP

△ 基于UHAT的US-365K解剖层次结构可视化。

基于UDT框架，团队从5个国际权威医疗数据库中收集超声数据，并进行了多步骤精细化处理：过滤非超声内容；将超声视频按0.5秒间隔分解为静态帧；基于UDAF框架，通过大模型与结构化提示相结合的流水线提取标准化诊断标签；最后经医疗专家审核筛选，剔除模糊或不一致的样本。

最终构建的US-365K数据集包含36.4万对超声图像-文本样本，覆盖11676个真实临床病例，解剖区域覆盖全面。该数据集是业内首个完全专用于超声的大规模图文数据集，数据有效率超过90%，填补了超声跨模态大规模标准化数据的空白。

第二步：提出Ultrasound-CLIP框架，实现超声语义精准建模与对齐

针对超声场景的语义模糊和结构缺失问题，团队设计了Ultrasound-CLIP语义感知对比学习框架。该框架在经典双编码器（图像+文本）基础上，创新性地融入了UDAF引导的异质图编码器和基于UDAF的语义软标签两大模块，并采用双目标优化策略。

（1）UDAF引导的异质图编码器，建模临床属性结构化关联

将每个样本的文本标注转化为专属的异质图：基于UDAF定义诊断节点和属性节点，根据样本标签确定激活节点集，并在两类节点间构建全二分连接，形成病灶-属性关联图。通过轻量级异质图神经网络（GNN）编码得到节点嵌入，经注意力池化生成图汇总向量，再通过多头交叉注意力与原始文本嵌入融合，最终得到图增强的文本嵌入。这使得模型能够捕捉超声诊断的专业语义逻辑。

（2）基于UDAF的语义软标签，实现细粒度语义相似度度量

摒弃传统的二进制硬标签，基于UDAF的9大诊断维度构建连续语义相似度软标签：为每个维度预定义标准化标签相似度矩阵，计算样本对在各维度的语义亲和力，加权聚合后得到整体语义先验相似度，形成软先验矩阵。这有助于解决因报告表述多样而导致的语义模糊问题。

（3）双目标优化策略，实现跨模态精准对齐与语义正则化

框架采用对比损失与语义损失联合优化：
– 对比损失：采用经典对称对比损失，最大化正样本对（图像-对应文本）的相似度，最小化负样本对的相似度，实现基础跨模态对齐。
– 语义损失：融合均方误差和KL散度，使模型预测的相似度矩阵与UDAF语义软先验矩阵相匹配，确保语义相似的样本在特征空间中有效聚类。

通过双目标联合优化，模型既能实现超声图像与文本的精准对齐，又能捕捉细粒度的临床语义特征。

实验验证：全任务性能领先，泛化能力适配多临床场景

团队以US-365K为基础，在多任务分类、图像-文本检索任务上进行了实验，并在4个公开超声下游数据集上验证了模型泛化能力。结果表明，Ultrasound-CLIP全面优于现有医疗CLIP基线模型。

多任务分类：平均准确率达59.61%，其中病灶边缘、诊断结果等核心临床属性的识别准确率分别达到84.44%和64.05%。
图像-文本检索：图像到文本检索（I2T）@10达到37.45%，文本到图像检索（T2I）@50达到80.22%。
下游泛化：在乳腺、胃肠超声等4个数据集的零样本、线性探测、全微调任务中均取得最优性能，展现出对不同临床场景的良好适配性。

资源开源

为促进超声跨模态学习领域的发展，研究团队已公开相关代码与US-365K数据集，为后续研究提供可直接复用的基础资源。

论文标题：
Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding

作者：
Jiayun Jin, Haolong Chai, Xueying Huang, Xiaoqing Guo, Zengwei Zheng, Zhan Zhou, Junmei Wang, Xinyu Wang, Jie Liu, Binbin Zhou

单位：
浙大城市学院、香港浸会大学、浙江大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院、香港城市大学

发表：
CVPR 2026

论文地址：
http://arxiv.org/abs/2604.01749

项目地址：
https://github.com/ZJUDataIntelligence/Ultrasound-CLIP

数据集地址：
https://huggingface.co/datasets/JJY-0823/US-365K

作者简介：
本文第一作者为金佳云，浙大城市学院硕士生，研究方向为多模态大模型。本研究在周斌彬副教授与刘洁博士的指导下完成。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29828

超声AI新突破！浙大联合团队发布首个大规模超声图文数据集US-365K，打造超声专用大模型Ultrasound-CLIP

△ 超声图像在主要跨模态基准数据集中的占比分布。

核心挑战：超声跨模态学习的三重障碍

△ UDT与Ultrasound-CLIP框架概述。

第一步：构建UDT知识框架，打造标准化US-365K数据集

△ 基于UHAT的US-365K解剖层次结构可视化。

第二步：提出Ultrasound-CLIP框架，实现超声语义精准建模与对齐

（1）UDAF引导的异质图编码器，建模临床属性结构化关联

（2）基于UDAF的语义软标签，实现细粒度语义相似度度量

（3）双目标优化策略，实现跨模态精准对齐与语义正则化

实验验证：全任务性能领先，泛化能力适配多临床场景

资源开源

相关推荐

腾讯混元团队发布HY-Embodied-0.5系列模型，为具身智能量身定制，实现物理世界精准交互

Context Window终极掌控指南：如何避免AI编码代理的“健忘症”与性能下滑

Agent Infra：驾驭不确定性，开启智能体工程化落地新纪元

TritonForge：剖析引导+LLM协同，突破Triton内核优化瓶颈，成功率42.7%最高提速5倍

探秘AI智能体设计模式：从ReAct到LATS，深入剖析智能体的“大脑”构建术