皮肤病诊断基础模型性能评估与层次化分析
2026/6/7 19:32:08 网站建设 项目流程

1. 皮肤病变诊断中的基础模型性能评估与层次化分析

皮肤病诊断是一个天然的层次化认知过程。当医生评估皮肤病变时,诊断流程通常从广泛的分类(如黑色素细胞性vs非黑色素细胞性)开始,到恶性肿瘤风险评估,最后确定具体诊断。一个稳健的诊断系统不仅需要区分良恶性病变,还要能够鉴别视觉相似但生物学特性不同的实体,如复合痣和真皮痣。

传统皮肤病变分析自动化主要依赖于在特定数据集上端到端训练的卷积神经网络(CNNs)。虽然有效,但这种范式资源密集且往往导致模型在不同临床环境或成像设备间泛化能力差。近年来,基础模型(foundation models)作为一种强大的替代方案出现。通过自监督学习或图像-文本对齐技术在大规模自然或医学图像库上进行预训练,这些模型能够学习丰富、可迁移的特征表示。

在医学领域,BiomedCLIP、MedImageInsights和MedSigLip等模型已经证明,利用多样化的生物医学数据可以在从放射学到组织病理学等各种模态中获得稳健性能。同时,皮肤病学专用基础模型如PanDerm、SkinVL和Derm Foundation也被开发出来,以捕捉皮肤疾病的独特视觉语义。

尽管基础模型在医疗健康领域迅速增加,但其评估仍存在关键空白。现有基准测试通常关注平面分类指标或二元筛查准确性。类似地,早期基准测试和最近的少样本评估往往将诊断任务简化为黑色素瘤检测或多类模式。Barata等人曾论证层次化诊断的必要性,Yan等人最近在Derm1M数据集中引入了层次化本体。然而,我们需要一个现代基础模型嵌入在整个诊断分类学上的比较基准,以理解其性能。当前的评估未能捕捉"粒度差距",即模型可能由于强大的语义先验在高层次筛查中表现出色,但难以捕捉区分生物学相关但不同实体所需的细微类内视觉差异。

本研究通过使用DERM12345数据集,提出了一个全面的皮肤病学基础模型嵌入层次化基准。我们系统评估了分为三个领域的十种模型:通用计算机视觉模型(DINOv2、DINOv3、CLIP、ResNet-50)、通用医学基础模型(MedSigLip、BiomedCLIP、MedImageInsights)和皮肤病学专用模型(MONET、PanDerm、Derm Foundation)。我们没有对重型骨干网络进行微调,而是采用标准化的特征提取流程,然后训练轻量级适配器。这种方法将学习表示的质量与下游分类器的能力隔离开来。我们的评估策略通过将模型预测映射到诊断层次结构的四个级别来超越标准指标:40个子类、15个主类、2个和4个超类,以及二元恶性肿瘤分类。这种多层次分析揭示了语义理解和视觉辨别之间的权衡,为研究人员选择特定临床应用的基础模型提供了指导,从分诊应用到专家级决策支持系统。

1.1 研究设计与数据集

本研究使用了DERM12345数据集,这是一个大规模皮肤镜图像集合,包含来自土耳其多个临床来源的12,345张图像,代表了多样化的皮肤病变范围。该数据集的特点是具有精细的分类结构,将病变分为40个不同的子类。这些子类被层次化地组织为15个主类和5个超类,为在不同诊断抽象级别上评估模型性能提供了丰富的基础事实。数据集包括预定义的9,860张训练图像和2,485张测试图像的分割,基于独特患者进行分区以防止数据泄漏。

为了便于恶性肿瘤检测评估,我们将数据集的原生分类映射到二元恶性标签图。原始数据集分类包括"不确定"病变类别,代表光化性角化病病例。遵循保守的临床方案,这类病变通常被监测而非立即切除,我们将不确定病变与良性类别分组以简化二元分类任务。因此,这个映射将数据集中原始定义的五个超类减少为本基准测试中的四个活动超类:黑色素细胞性良性、黑色素细胞性恶性、非黑色素细胞性良性和非黑色素细胞性恶性。我们还评估了一个中间2类超类级别,区分黑色素细胞性和非黑色素细胞性病变。这一决定将计算评估与临床目标对齐,即在最小化明确恶性肿瘤的假阴性同时承认不确定病例的模糊性。

1.2 基础模型与嵌入提取

我们选择了一套多样化的基础模型来评估领域特定预训练对皮肤病学特征提取的影响。这些模型被分为三个不同的领域。首先,通用视觉类别包括DINOv2(Base和Giant变体)、DINOv3和CLIP(Base和Large变体)。这些模型在大规模自然图像数据集上进行了预训练,作为通用视觉特征提取能力的基线。其次,通用医学类别包括MedSigLip、BiomedCLIP和MedImageInsights。这些模型利用大规模医学图像-文本对或多样化的放射学数据,提供了针对更广泛医学领域调整的表示。第三,皮肤病学特定类别包括MONET、PanDerm和Derm Foundation。这些模型明确在皮肤病学图像上进行了预训练,理论上为皮肤病变分析提供了最语义相关的特征。

我们实现了一个标准化的推理流程来从这些模型中提取特征嵌入。每个模型都被包装在一个统一的接口中,处理模型特定的预处理要求,如调整大小和归一化。我们将模型作为固定特征提取器使用,不微调其权重。对于数据集中的每张图像,计算前向传递,并通过均值池化或模型架构指定的特定分类令牌输出从模型的最终隐藏状态提取嵌入向量。这个过程为每个基础模型的训练集和测试集生成了一个标准化的特征矩阵。

提取的嵌入维度在不同模型间差异显著。DINOv3的尺寸最小为384,其次是BiomedCLIP为512。CLIP、DINOv2和PanDerm的基础版本使用了768维。包括CLIP-Large、MedImageInsights、MONET和PanDerm-Large在内的几个模型输出了1024维。MedSigLip(1152)和DINOv2-Giant(1536)产生了更大的嵌入,而ResNet-50基线使用了2048。最后,Derm Foundation产生了最大的6144维嵌入。

1.3 适配器训练与优化

为了评估提取嵌入的线性可分性和实用性,我们训练了一组轻量级适配器分类器。我们采用了六种不同的分类算法:K-最近邻(KNN)、逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、多层感知器(MLP)和XGBoost。重要的是,基础模型产生的嵌入维度差异很大,从DINOv3的384到Derm Foundation的6144不等。单一分类头可能偏爱某些模型而不公平地惩罚其他模型。为了确保公平比较,我们将适配器选择视为超参数。对于每个基础模型,我们报告最佳性能适配器达到的峰值性能。这种方法将嵌入质量与分类器选择隔离开来,确保我们测量每个基础模型的全部潜力,而不是因为它与特定算法不兼容而惩罚它。

我们在训练集上采用了5折分层交叉验证策略以确保统计稳健性并防止对特定数据分割的过拟合。对于每一折,训练数据被分割为训练和验证子集。在每一折内,我们使用GridSearchCV执行超参数搜索以优化模型特定参数,如KNN的邻居数量、SVM和LR的正则化强度C,以及RF和XGBoost的树深度。优化的指标是平衡准确率,选择它是为了考虑数据集中存在的自然类别不平衡。然后使用验证子集中表现最佳的超参数训练该折的最终模型。这个过程为每个基础模型和分类器的组合产生了五个优化模型,有效地为最终评估创建了一个适配器集合。

1.4 层次化性能评估

我们实现了一个层次化评估框架来评估训练好的适配器。与报告单一标签集性能的标准基准不同,我们评估了模型在临床分类学上的泛化能力。适配器仅在细粒度的40类子类标签上进行训练。在保留测试集的推理阶段,我们生成了这些40类的概率分布。

为了获得更粗分类级别的预测,我们根据数据集的层次结构聚合了组成子类的概率。例如,"黑色素瘤"主类的概率被计算为其子类(如"肢端结节性黑色素瘤"和"恶性雀斑样痣黑色素瘤")的概率之和。这种聚合逻辑被应用于生成15个主类、2个和4个超类以及二元恶性任务的预测。这种方法确保评估反映了模型的内部一致性及其将病变放置在诊断树正确分支上的能力,即使特定的子类预测不正确。我们使用加权F1-分数作为层次化分析的主要指标报告性能。考虑到数据集的自然类别不平衡(常见痣多于罕见恶性肿瘤),加权F1-分数提供了总临床效用的度量,奖励在日常实践中最常见病例上表现良好的模型。然而,为了确保这不掩盖在稀有类别上的失败,我们在汇总表和详细子类分析中用平衡准确率补充这一点。

2. 结果分析

2.1 层次化性能基准

我们量化了基础模型在临床分类学四个级别上的分类性能。表1呈现了"排行榜",即每个基础模型的最佳适配器达到的峰值性能。所有适配器的全面性能表在补充表S4-S13中提供。图3通过箱线图显示了所有适配器的性能分布,补充了这一点。

我们的层次化分析揭示了相对于诊断粒度的模型能力显著差异。在最粗级别,MedImageInsights模型表现出明显优势,在二元恶性(97.52%)、2类超类(95.39%)和4类超类(93.45%)任务上实现了最高的加权F1分数。这种优势部分延伸到15个主类,保持了微弱领先(62.40%)。然而,在分类学的最精细级别(40子类)发生了明显的性能反转。MedSigLip达到了69.79%的顶级性能,紧随其后的是皮肤病学特定的Derm Foundation(69.50%)和MONET(69.31%)。DINOv2(68.00%)在这个细粒度体系中优于MedImageInsights(65.50%)。标准基线如ResNet-50和BiomedCLIP显著落后,分别仅达到58.82%和58.78%,强调了现代基础模型相对于先前标准的进步。

2.2 嵌入空间的定性分析

为了定性评估学习表示在任何监督训练之前的语义结构,我们使用t-分布式随机邻域嵌入(t-SNE)可视化嵌入空间。图2展示了六个代表性基础模型的多面板比较:MedSigLip、DINOv3、MONET、Derm Foundation、PanDerm和MedImageInsights。投影根据分类学的15个主类着色。所有评估模型的全面t-SNE可视化,按15个主类着色,在补充图S1-S3中提供。

2.3 细粒度错误分析

为了研究这种差距背后的机制,我们分析了MedImageInsights的具体失败模式。我们选择这个模型进行详细检查,因为它代表了粒度差距的最具说明性的案例:虽然在二元恶性任务上达到了最高的整体性能(97.52%),但在细粒度子类任务上相对于基于视觉的模型表现急剧下降。图4呈现了跨层次的复合混淆矩阵分析。右侧面板(恶性和超类)表现出强烈的块对角结构,表明在广泛分类上的高置信度。例如,该模型在正确识别良性病变(恶性级别)上达到了98.00%的准确率。

相比之下,左侧面板(主类和子类)揭示了显著的语义混淆。15类主矩阵(左下)明确突出了"斑点问题":该模型经常将发育不良复合痣误分类为普通复合痣(27.93%错误率)。所有模型在15类任务上的详细混淆矩阵在补充图S4-S6中显示。层次化ROC曲线在补充图S7中呈现。这两个类别在生物学上是不同的(一个是黑色素瘤的潜在前体,另一个是无害的)但视觉上相似。模型无法区分它们,尽管其高二元准确率,强调了其嵌入空间基于广泛语义类别而非鉴别诊断所需的细微纹理特征将病变聚类在一起。

3. 讨论与启示

3.1 粒度差距现象

这个基准测试最重要的发现是模型在诊断层次结构上的性能差异,这种现象我们称之为"粒度差距"。我们观察到,MedImageInsights这个使用广泛图像-标题监督训练的模型,在二元恶性检测上达到了最先进的性能。这表明该模型有效地编码了高级语义概念,基于其训练数据中的语言信号学习区分"癌症"和"非癌症"。然而,这种语义优势似乎掩盖了细粒度视觉辨别的不足。在40类子类任务上,其性能下降,落后于通用医学和皮肤病学特定模型。

混淆矩阵分析阐明了这种失败的机制,揭示了在区分发育不良复合痣和普通复合痣上的高错误率。临床上,这是一个关键区别,因为发育不良痣是黑色素瘤风险的潜在标志。模型无法分辨这些视觉相似但生物学不同的实体,表明其嵌入空间基于广泛语义类别而非鉴别诊断所需的细微纹理特征将病变聚类在一起。

3.2 层次化训练策略的意义

将这些发现置于我们特定的层次化训练策略背景中很重要。与可能为每个任务训练单独模型(如专用二元分类器)的标准基准不同,我们仅在细粒度40类标签上训练适配器,并通过聚合组成子类的概率生成粗粒度预测。然后,我们通过明确将40个子类中的每一个映射到它们各自的父类别并聚合预测概率,计算了更粗分类级别(主类、超类和恶性)的性能。这种方法比直接为每个层次级别训练更详细。它强制适配器学习每个子类的特定视觉特征;只有当模型正确识别病变或将其与同一恶性类别中的另一个病变混淆时,才能实现正确的二元预测。因此,像MedImageInsights和MedSigLip这样的模型通过这种聚合方法实现的高二元准确率(分别为97.52%和96.43%加权F1)是其内部一致性的有力验证。这意味着即使这些模型无法区分两个特定亚型(如两种良性痣),它们也能正确地将病变映射到分类树的适当分支。

3.3 领域特异性的重新思考

我们的结果也挑战了领域特异性是性能唯一决定因素的假设。虽然皮肤病学特定的Derm Foundation和MONET模型表现非常出色,但通用医学模型MedSigLip在子类任务上达到了最高排名。这意味着,当在最够规模和多样性上训练时,最先进的通用医学模型可以学习匹配或超过专用模型的特征表示。重要的是,这个基准测试突出了现代基础模型相对于传统基线的优越性。代表监督学习前一时代的标准ResNet-50模型在子类任务上仅达到58.82%的准确率——落后领先者如MedSigLip(69.79%)和Derm Foundation(69.50%)超过10个百分点。

这一显著性能差距实证验证了医学图像分析中的范式转变,确认从大规模预训练导出的嵌入比标准CNN架构提供了显著更丰富的诊断信号。DINOv2和DINOv3的稳健性能进一步支持这一点,证明在自然图像上的大规模学习可以产生令人惊讶地可迁移到皮肤病学的特征,只要下游适配器足够表达。然而,领域特定预训练并不总是成功的保证,如PanDerm家族中表现不一所说明的。虽然PanDerm(Base)具有竞争力(64.12%),但更大的PanDerm(Large)模型表现不佳,急剧下降到36.65%,落后于标准ResNet-50。在更大、理论上更有能力的模型中如此剧烈的性能下降非常不寻常,表明公开发布的模型检查点可能有缺陷或损坏。这个案例强调了一个关键要点:研究人员不能简单地假设专用模型本质上更优越;必须对照稳健的通才基线进行彻底验证。

3.4 适配器敏感性与模型选择

在层次结构的粗级别上,MedImageInsights展示了最先进的能力,在二元恶性任务上达到了显著的97.52%准确率,在2类超类任务(黑色素细胞性vs非黑色素细胞性)上达到95.39%。这种主导地位表明,其在带标题的医学图像上的预训练与高级诊断类别完美对齐。然而,在更细粒度上发生了戏剧性的反转。在子类(40)级别上,MedImageInsights的性能下降到65.50%。在这个体系中,MedSigLip(69.79%)和Derm Foundation(69.50%)成为领先者。我们对适配器敏感性的评估显示,简单的线性探测不足以最大化皮肤病学嵌入在细粒度任务上的效用。在几乎所有基础模型中,多层感知器(MLP)始终实现最高的F1分数,紧随其后的是梯度提升(XGBoost)。例如,在MedSigLip嵌入上,MLP适配器(69.8%)显著优于支持向量机(46.9%)。这表明虽然基础模型提供了丰富的表示,但40个不同病变子类之间的决策边界复杂且非线性。此外,性能差距说明了我们的"最佳套件"评估策略的必要性,特别是对于高维模型。对于产生巨大6144维嵌入的Derm Foundation,基于距离的方法如KNN落后(62.1%),可能遭受维度诅咒,而MLP成功提取了最先进的性能(69.5%)。这确认评估基础模型需要多样化的适配器套件,以将表示质量与分类器的局限性解耦。

3.5 嵌入空间可视化与临床挑战

嵌入空间的可视化揭示了皮肤病学建模中的一个关键挑战:"斑点问题"。在所有六个投影中,核心黑色素细胞类别;普通复合痣、发育不良复合痣和发育不良交界痣形成了一个密集、重叠的中央大陆。这表明无论领域预训练如何,这些基础模型都无法在没有监督适应的情况下,对最具临床挑战性的病例(区分困难痣和早期黑色素瘤)实现清晰的线性可分性。然而,在外围聚类中出现了不同的行为。MedImageInsights对明显病理如血管性(红色/紫色病变)和角化细胞类别显示出最清晰的分离,形成远离中心块的紧密"岛屿"。这表明对明显生物实体的强语义对齐。相比之下,MedSigLip和DINOv3表现出更分散、云状结构。虽然在2D投影中视觉区分度较低,但这种分散结构可能保留了更丰富的类内方差,可能在监督适应阶段有助于视觉相似亚型的细粒度辨别。在所有基础模型中,普通和发育不良痣形成了一个密集、重叠的聚类,在无监督状态下缺乏清晰的分离。适配器的敏感性分析证实了这一困难。线性分类器(SVM、逻辑回归)和多层感知器始终优于基于距离的方法(KNN)和基于树的集成(随机森林)。这表明虽然病变子类在欧几里得嵌入空间中不是自然聚类的,但它们仍然可以通过高维超平面分离。这一发现强调了监督适应的必要性;鉴于基础模型表示的当前状态,"零样本"检索方法可能不足以安全的皮肤病学实践。

4. 研究局限性与未来方向

我们承认本研究有几个局限性。首先,DERM12345数据集仅从土耳其的临床来源收集。因此,皮肤光型的分布可能不能完全代表全球人口,可能影响嵌入对不同人口统计的泛化能力。其次,我们的评估仅限于皮肤镜图像。虽然这种模式提供了高诊断精度,但这些基础模型在临床(宏观)摄影上的性能仍有待验证。未来的工作应扩展这个层次化基准测试框架到多中心数据集和多样成像模态,以确保更广泛的临床适用性。

总之,这个基准研究表明,皮肤病学中基础模型的选择不是一刀切的决定,而是高度依赖于任务的临床粒度。通过从二元恶性到40个不同子类的完整层次结构评估嵌入,我们为选择适合多样化皮肤病学应用的适当计算骨干提供了路线图,确保AI工具与临床诊断的微妙现实保持一致。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询