关于ZAKER 合作
量子位 1小时前

36.4 万超声图文对!中国团队构建首个大规模超声专属数据集,让 AI 真正读懂临床诊断语义

在小说阅读器读本章

去阅读

超声领域也有大模型了!

超声影像凭借实时、无辐射的优势,成为临床各场景的一线诊断手段。

但异质的解剖结构、多样的诊断属性,让通用视觉语言预训练模型难以直接适配,且现有医疗跨模态数据中超声样本占比不足 5%,成为领域研究的核心瓶颈。

超声图像统计数据跨越主要基准点的分布情况。

上图红色区域和内部百分比显示了超声图像所占的比例,而蓝色区域则展示了其余模态的占比情况。顶部标签表示绝对数量(以千为单位)。论文中所提出的 US-365K 是首个大规模、100% 专用于超声影像的数据集。

针对这一问题,浙大城市学院联合浙江大学、香港城市大学、香港浸会大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院等团队,构建了首个大规模通用超声图像 - 文本数据集US-365K,并提出专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP,让模型真正理解超声的临床诊断语义,相关成果被CVPR 2026接收,数据集及代码已开源。

核心痛点:超声跨模态学习的三重障碍

现有视觉语言模型在超声领域的应用,始终面临三个关键问题:

1. 数据缺口显著:主流医疗跨模态数据集以 CT、MRI 等为主,超声样本占比极低,缺乏大规模、标准化的专属训练数据;

2. 语义模糊难对齐:超声诊断报告的表述多样,相同病变存在不同描述方式,传统对比学习难以精准界定正负样本,易产生语义偏差;

3. 缺乏临床结构先验:超声诊断依赖病灶与诊断属性的复杂关联,通用模型无法建模这类专业的临床推理逻辑,仅能实现简单的关键词匹配。

UDT 和 Ultrasound-CLIP 概述。

上图中 ( a ) UDT 作为语义基础,通过标准化解剖层次结构(UHAT)和定义 9 个关键诊断属性(UDAF)来形式化超声知识。 ( b ) Ultrasound-CLIP 利用 UDT 的方式有两种: ( 1 ) 基于 UDAF 的异构图编码器通过交叉注意力将属性关系融合到文本嵌入中,以建模结构化推理。 ( 2 ) 构建基于 UDAF 的语义先验,以实现双目标优化,从而解决歧义。该框架将视觉特征与这些图增强的、语义感知的文本表示对齐。

为从根本上解决上述问题,研究团队立足超声临床诊断的专业逻辑,从标准化数据构建和定制化模型设计两大维度出发,打造全链路适配超声场景的跨模态学习体系,实现双重核心技术突破。

第一步:构建 UDT 知识框架,打造标准化 US-365K 数据集

团队率先建立超声诊断分类体系(UDT),为超声数据的标准化标注和模型学习确立统一的专业依据,该体系包含两大核心模块,实现超声诊断知识的结构化、形式化:

超声层级解剖分类(UHAT):按临床诊断原则,系统梳理 9 大人体系统、52 个器官的层级解剖结构,明确各器官的层级归属与上下文关联,彻底解决不同数据源中解剖分类混乱的问题,实现超声解剖标注的标准化;

超声诊断属性框架(UDAF):凝练临床医生解读超声影像时核心关注的 9 大诊断维度,包括身体系统、器官、诊断结果、形状、边缘、回声性、内部特征、后方声学现象、血流信号,为每个维度定制临床有效描述词汇表,形成标准化的超声诊断描述体系。

基于 UHAT 的 US-365K 解剖层次结构可视化。

基于 UDT 标准化框架,团队从 5 个国际权威医疗数据库收集体量超声数据,经多步骤精细化处理:先过滤非超声内容,将超声视频按 0.5 秒间隔分解为静态帧,平衡数据多样性与冗余性;再基于 UDAF 框架,通过大模型 + 结构化提示的混合流水线,提取标准化诊断标签;最后经医疗专家逐例审核、筛选,剔除模糊、不一致样本,最终构建出US-365K数据集。

该数据集包含 36.4 万对超声图像 - 文本样本、11676 个临床真实病例,覆盖全解剖区域,是业内首个 100% 专属超声的大规模图文数据集,数据有效率超 90%,填补了超声跨模态大规模标准化数据的行业空白,为超声 AI 研究奠定高质量数据基础。

第二步:提出 Ultrasound-CLIP 框架,实现超声语义的精准建模与对齐

针对超声场景的语义模糊和结构缺失难题,团队设计出Ultrasound-CLIP语义感知对比学习框架,在经典双编码器(图像 + 文本)基础上,创新融入UDAF 引导的异质图编码器基于UDAF 的语义软标签两大核心模块,并采用双目标优化策略,让模型具备超声领域的结构化临床推理能力,突破通用模型的局限:

(1)UDAF 引导的异质图编码器,建模临床属性结构化关联

团队将每个超声样本的文本标注,转化为样本专属的异质图:基于 UDAF 框架定义诊断节点和属性节点两类核心节点,根据样本的标准化诊断标签确定激活节点集,并在诊断节点与属性节点间构建全二分连接,形成病灶 - 属性的关联图结构。

通过轻量级异质图神经网络(GNN)对异质图进行编码,得到包含节点关联信息的节点嵌入,再经注意力池化生成图汇总向量,最后通过多头交叉注意力将图嵌入与原始文本嵌入融合,并通过门控残差连接实现稳定融合,得到图增强的文本嵌入。这一过程让文本嵌入融入超声诊断标签与属性的结构化临床关联,突破单纯关键词匹配的局限,让模型能捕捉超声诊断的专业语义逻辑。

(2)基于 UDAF 的语义软标签,实现细粒度语义相似度度量

摒弃传统二进制硬标签,团队基于 UDAF 的 9 大诊断维度,构建连续语义相似度软标签:为每个诊断维度预定义标准化标签相似度矩阵,计算样本对在各维度的语义亲和力,再加权聚合得到样本对的整体语义先验相似度,形成 B × B 的软先验矩阵(B 为批次大小),实现细粒度的语义重叠识别,解决超声诊断报告表述多样带来的语义模糊问题。

(3)双目标优化策略,实现跨模态精准对齐与语义正则化

框架采用对比损失 + 语义损失的双目标优化策略,让模型同时实现图像 - 文本跨模态精准对齐和语义特征的正则化:

对比损失(L ( CLIP ) ):采用经典对称对比损失,最大化正样本对(图像 - 对应文本)的相似度,最小化负样本对的相似度,实现图像与文本的基础跨模态对齐;

语义损失(L ( semantic ) ):融合均方误差(MSE)和 KL 散度,让模型预测的相似度矩阵与 UDAF 基语义软先验矩阵匹配,既实现相似度的数值匹配,又保证分布一致性,让语义相似的样本在特征空间中有效聚类。

通过双目标联合优化,模型既能实现超声图像与文本的精准跨模态对齐,又能精准捕捉超声诊断的细粒度语义特征,真正理解超声的临床语言。

实验验证:全任务性能领先,泛化能力适配多临床场景

团队以 US-365K 为基础,在多任务分类、图像 - 文本检索任务中开展实验,并在 4 个公开的超声下游数据集上验证模型泛化能力,结果显示 Ultrasound-CLIP 全面优于现有医疗 CLIP 基线模型:

多任务分类:平均准确率达 59.61%,其中病灶边缘、诊断结果等核心临床属性的识别准确率分别达 84.44%、64.05%,能精准捕捉超声诊断的关键信息。

图像 - 文本检索:图像到文本检索(I2T)@10 达 37.45%,文本到图像检索(T2I)@50 达 80.22%,实现超声图文的高效双向匹配。

下游泛化:在乳腺、胃肠超声等 4 个数据集的零样本、线性探测、全微调任务中均取得最优性能,可适配不同超声临床诊断场景。

资源开源:助力超声 AI 领域共同研究

为推动超声跨模态学习领域的发展,团队已将研究相关的代码和 US-365K 数据集公开,为后续研究者提供可直接复用的基础资源。

论文标题:

Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding

作者:

Jiayun Jin, Haolong Chai, Xueying Huang, Xiaoqing Guo, Zengwei Zheng, Zhan Zhou, Junmei Wang, Xinyu Wang, Jie Liu*, Binbin Zhou*

单位:

浙大城市学院、香港浸会大学、浙江大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院、香港城市大学

发表:

CVPR 2026

arxiv 论文地址:

http://arxiv.org/abs/2604.01749

项目地址:

https://github.com/ZJUDataIntelligence/Ultrasound-CLIP

数据集地址:

https://huggingface.co/datasets/JJY-0823/US-365K

作者简介:

本文第一作者为金佳云,浙大城市学院硕士生,研究方向为多模态大模型。本文在周斌彬副教授和刘洁博士的指导下完成。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注 了解详情

点亮星标

科技前沿进展每日见

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容