01
导语
各位同学,大家好。现在做影像组学,如果还只停留在“提取特征—建个模型—算个AUC”,那就有点像算命算得挺准,但为啥准,自己也说不明白。别人一问:你这特征到底代表啥?背后有啥道理?瞬间就成了黑箱本箱。而真正能打高分、站得住脚的研究,都在干一件事——给影像组学找“生物学娘家”,让宏观图像和微观病理、细胞、基因、通路对上话。今天咱们就通过这篇最新文献,看看作者如何从纵向多区域超声中提取深度学习特征,并挂靠到乳腺癌腋窝淋巴结的免疫微环境、PD-1/PD-L1通路、代谢重编程等关键生物学机制上,最终解释为什么模型能预测病理完全缓解和个体化治疗响应。让我们用轻松又实在的方式,聊聊影像组学怎么优雅、合理、不硬凑地挂靠生物学机制,从“只会算分的工具人”,升级成“能讲清疾病故事的研究者”。
★题目:Deep learning-based prediction of axillary pathological complete response in patients with breast cancer using longitudinal multiregional ultrasound
(基于深度学习的纵向多区域超声预测乳腺癌患者腋窝病理完全缓解)
★期刊:《eBioMedicine》(中科院1区,IF=10.8)
★研究疾病:腋窝淋巴结(ALN)阳性的乳腺癌
★生物学机制:肿瘤免疫微环境
★发表时间:2025年9月
02
研究背景-从 “临床问题” 落到 “生物学问题”
乳腺癌新辅助治疗(NAT)可显著降低腋窝淋巴结(ALN)的肿瘤负荷,使37%-75%的患者达到ALN病理完全缓解(pCR)。这类患者若避免腋窝淋巴结清扫(ALND),可免除淋巴水肿、活动受限等严重并发症。然而,目前临床常规仍对NAT后的ALN阳性患者实施ALND,导致大量pCR患者接受过度手术。近年来,前哨淋巴结活检(SLNB)被尝试用于术后腋窝分期,但大型前瞻性试验显示其假阴性率(FNR)高达12.6%-14.2%,超过临床可接受的10%阈值,且依赖双示踪剂、淋巴结取出数量等技术瓶颈。影像学方法如超声虽便捷经济,但单独依赖形态学特征预测ALN pCR的准确率有限。深度学习模型已初步用于预测NAT反应,但存在三大关键障碍:第一,ALN转移来源于原发灶,二者既有共同表型特征(如分子分型),又存在特异性差异(如受体状态不一致),既往模型简单融合多区域信息,忽略了“共有与私有特征”的区分,导致数据冗余和泛化能力下降;第二,NAT是一个动态过程,仅用治疗前单时点图像无法捕捉肿瘤的时空演变;第三,深度学习模型普遍缺乏可解释性,无法回答“模型依据什么特征做出预测”“这些特征是否反映真实的肿瘤生物学行为”,严重阻碍临床转化。因此,亟待开发一种兼具高精度与生物学可解释性的非侵入性模型,通过整合纵向、多区域超声图像,精准预测ALN pCR,并为临床决策提供可靠的生物学依据。
03
研究目的(明确写出“三层目的”)
本研究围绕“临床需求—模型构建—机制解释”三个层次设定明确目标。第一层(临床目的):开发一种能够准确预测ALN阳性乳腺癌患者新辅助治疗后腋窝pCR的非侵入性工具,其假阴性率低于10%的临床阈值,从而指导个体化腋窝手术决策,帮助pCR患者安全豁免ALND,同时确保non-pCR患者接受彻底清扫。第二层(模型目的):提出一个名为信息共享‑私有模型(iShape)的新型深度学习框架,其核心创新在于能够同时学习纵向多区域超声图像(治疗前原发灶、治疗前ALN、治疗后原发灶)中的“共有特征”和“特有特征”。通过设计中心矩差异损失、余弦距离损失等专用损失函数,迫使模型将来自不同图像区域、不同时间点的共性肿瘤表型与各自的独特性状分离开来,从而避免信息冗余,提升预测精度和泛化能力。同时,通过与单区域、纵向融合、多区域简单融合等对比模型进行系统消融实验,验证“共有+私有”特征解耦策略的有效性。第三层(机制目的):为破解深度学习“黑箱”难题,从影像特征层面和生物学通路层面双重解释模型的决策依据。在影像层面,利用Grad-CAM热力图可视化模型重点关注的原发灶和ALN的解剖亚区域(如肿瘤中心 vs. 边缘、ALN皮质 vs. 被膜)。在生物学层面,通过RNA测序(RNA‑seq)分析高低模型评分组之间的差异表达基因、通路富集、免疫浸润特征和药物敏感性,建立“影像评分—肿瘤微环境状态—治疗反应”的因果关联,为模型的临床可信度提供实质性支撑。
04
研究思路(最核心:怎么挂靠机制)
本研究的核心思路是以深度学习模型为桥梁,将宏观超声影像表型与微观肿瘤生物学机制进行系统挂靠,形成“影像特征解耦 → pCR预测 →多层级可解释性验证 → 生物学机制反向标注”的闭环。首先,研究团队从5个中国三甲医院收集1135例ALN阳性乳腺癌患者的纵向多区域超声图像(治疗前原发灶、治疗前转移ALN、治疗后原发灶),并构建iShape模型。该模型采用Transformer作为骨干网络,通过特征投影将不同时点、不同区域的图像映射到同一空间,再利用特征编码模块分离出“共有特征”(反映原发灶与ALN共同的治疗反应相关表型)和“私有特征”(反映各自独特的残余病灶特征),最后通过多头注意力融合两类特征进行pCR二分类预测。模型训练中设计了中心矩差异损失(缩小共有特征分布差异)、余弦距离损失(确保私有特征相互正交)、重构损失(保留有效信息)和交叉熵损失(分类监督)。完成模型性能验证(AUC达0.950-0.971,FNR 7.7%-8.1%)后,进入可解释性分析:一方面,通过t‑SNE可视化共有/私有特征的分布差异,并用Grad-CAM在图像上标注模型决策的热点区域;另一方面,选取24例患者进行肿瘤组织RNA‑seq,根据iShape评分分为高、低分组,利用DESeq2筛选差异表达基因,通过KEGG通路富集、CIBERSORTx免疫浸润分析和pRRophetic药物敏感性预测,将低评分(预测non-pCR)所关联的生物学特征归纳为:免疫抑制性微环境(M0巨噬细胞、活化肥大细胞、中性粒细胞增多)、PD-1/PD-L1通路激活、代谢重编程,而高评分(预测pCR)则对拉帕替尼等靶向药更敏感。最终,用已知的生物学知识反向验证影像学评分的内在意义,完成从“模型预测”到“机制解释”的完整叙事。
05
数据和方法(机制部分怎么设计)
数据:本研究共纳入来自5个中国三甲医院的1135例ALN阳性乳腺癌患者。其中,训练集包含广东人民医院(GPPH)与山西肿瘤医院(SCH)的371例;三个独立外部验证集分别为中山大学肿瘤中心(SYSUCC)295例、广东中医院(GPTCM)244例、云南肿瘤医院(YNCH)225例,用于模型性能评估。另从GPPH选取24例患者进行肿瘤组织RNA‑seq,用于探索模型评分的生物学机制。
方法:收集治疗前原发灶(pre‑pt)、治疗前腋窝淋巴结(pre‑aln)、治疗后原发灶(post‑pt)超声图像 → 图像去标识、Z‑score标准化、数据增强、缩放到224×224 → 输入iShape模型(Transformer骨干)→特征投影统一空间 →特征编码分离共有特征(CMD损失)与私有特征(余弦距离损失)→多头注意力融合→ 全连接层输出pCR概率(二分类交叉熵损失)→Adam优化器训练 → 在验证集计算AUC、FNR,并与临床模型、单区域/纵向/多区域融合模型、ResNet/DenseNet对比 →可解释性分析:t‑SNE可视化共有/私有特征分布,Grad‑CAM生成热力图定位关键区域 →RNA‑seq机制分析:根据iShape评分分高/低组,DESeq2筛选差异基因(|log2FC|>1, FDR<0.05),KEGG通路富集,CIBERSORTx评估免疫浸润,pRRophetic预测药物敏感性(IC50)。
图 1:研究整体工作流程图
06
研究结果(“从表型到机制”)
1. 表型层面(模型性能):iShape在三个外部验证集中的AUC达0.950–0.971,显著优于临床模型、单区域模型及简单多区域融合模型(Delong检验,P<0.05)。模型对ALN pCR的假阴性率为7.7%–8.1%,低于临床可接受的10%阈值。与SLNB联合使用时,假阴性率从13.4%降至3.6%,展示出强大的手术决策支持价值。
图 2(模型性能评估):该图包含三个子图:ROC曲线显示iShape在训练集和三个外部验证集中AUC高达0.950-0.971;小提琴图表明pCR组的模型评分显著高于non-pCR组(P<0.0001);混淆矩阵展示模型成功识别了93.1%的pCR患者和89.5%的non-pCR患者。从影像组学视角看,高评分代表模型从超声图像中提取了“治疗反应良好”的共有特征(如肿瘤中央区消退、ALN皮质正常化),而低评分则捕捉到“耐药”的特异性影像表型,为后续挂靠生物学机制提供了分组依据。
图 3(假阴性率分析):该图比较了SLNB单独与iShape辅助下的假阴性率(FNR)。SLNB单独使用时FNR为13.4%(若切除前哨淋巴结<3枚则高达26.9%),而当iShape与SLNB联合时,FNR显著降至3.6%。这一结果不仅验证了模型的临床决策价值,也从侧面说明了影像学特征能够弥补单纯病理活检的采样误差——超声图像反映了整个肿瘤区域的异质性,而SLNB仅检测少数淋巴结,影像组学的全局表型信息与局部病理信息互补,共同降低了漏诊风险。
2. 影像特征层面(模型关注点):Grad‑CAM热力图显示,pCR组中模型主要关注ALN皮质区和原发灶中央区域;而non‑pCR组中模型聚焦于原发灶边缘和ALN被膜周围。t‑SNE可视化进一步证实,模型成功分离了原发灶与ALN之间的共有特征(重叠分布)和私有特征(独立簇团)。
图 4(影像层面可解释性):该图包含三个子图:t-SNE可视化显示,共有特征(pre-pt、pre-aln、post-pt三者在潜在空间中重叠分布)与私有特征(各自形成独立簇团)被成功分离;Grad-CAM热力图进一步揭示,pCR组模型关注ALN皮质和原发灶中央区,而non-pCR组关注原发灶边缘和ALN被膜周围。这一影像组学发现挂靠了生物学机制:边缘/被膜区域富含淋巴血管浸润和结外侵犯,与免疫抑制微环境相关,而中央区消退则提示化疗有效,从而将影像关注点与肿瘤侵袭、耐药生物学行为直接关联。
3. 转录组层面(生物学机制):低评分(non‑pCR)组富集PD‑L1/PD‑1通路、PPAR代谢通路及Th17分化通路;免疫浸润分析显示该组M0巨噬细胞、活化肥大细胞和中性粒细胞显著增多(P<0.05)物敏感性提示低评分组对多西他赛、阿霉素更敏感,高评分组对拉帕替尼、帕唑帕尼更敏感。
图 5(转录组层面生物学机制):该图通过RNA-seq数据揭示了低评分(non-pCR)组的分子特征:火山图显示623个基因上调、212个下调;KEGG富集分析表明PD-L1/PD-1免疫检查点通路、PPAR代谢重编程通路、Th17分化通路显著激活;免疫浸润分析显示该组M0巨噬细胞、活化肥大细胞、中性粒细胞比例显著升高(P<0.05);药物敏感性分析提示低评分组对多西他赛、阿霉素更敏感,高评分组对拉帕替尼、帕唑帕尼更敏感。这些结果将影像学评分(iShape score)与肿瘤免疫逃逸、代谢适应、化疗耐药建立了直接的生物学关联,完成了从“影像表型”到“分子机制”的完整叙事。
07
讨论(把机制故事讲圆)
本研究通过iShape模型实现了对ALN pCR的高精度预测,其核心优势在于首次将“共有与私有特征解耦”策略应用于纵向多区域超声图像,从而更真实地反映了原发灶与转移淋巴结在NAT过程中既协同演变又各自独立的复杂生物学行为。热力图显示,模型在pCR组中重点关注ALN皮质和肿瘤中央区,这可能提示肿瘤细胞完全消退后残留的纤维化床或良性皮质结构;而在non-pCR组中重点关注肿瘤边缘和ALN被膜周围,这些区域恰恰是淋巴血管浸润、结外侵犯最常发生的部位,与不良治疗反应高度相关。更为重要的是,RNA-seq分析为影像学发现提供了独立的生物学佐证:低评分(non-pCR)组显著富集PD-L1/PD-1免疫检查点通路、PPAR代谢重编程通路及Th17微环境调控通路,同时浸润较多的M0巨噬细胞、活化肥大细胞和中性粒细胞——这些细胞已被大量文献证实可促进肿瘤增殖、血管生成和免疫逃逸,从而削弱NAT的杀伤效应。这一发现巧妙地将模型聚焦的边缘/被膜区域与免疫抑制性微环境联系起来,形成了一个“影像高亮区→侵袭前沿→免疫抑制→化疗耐药→non-pCR”的完整因果链。此外,药物敏感性分析显示低评分组对多西他赛、阿霉素更敏感却仍为非pCR,提示可能需要联合免疫检查点抑制剂;而高评分组对拉帕替尼、帕唑帕尼敏感,提示这部分患者或许可以采用降阶梯靶向治疗。尽管本研究为回顾性设计且RNA-seq样本量有限,但其通过影像‑转录组跨尺度关联成功破解了深度学习的“黑箱”困境,为影像组学研究的机制挂靠提供了范式参考。未来需要前瞻性、多民族队列验证,并将模型评分转化为指导个体化腋窝手术及辅助治疗决策的实用工具。
08
这篇文献的可借鉴思路
本论文为影像组学/深度学习研究如何有效挂靠生物学机制提供了一个高完整度的可复现框架。其最具启发性的思路可归纳为以下五点。第一,“影像评分作为数字表型”的桥接策略:不试图让神经网络直接输出生物学概念,而是将模型输出的连续评分作为分组变量,与独立采集的RNA-seq、免疫浸润、药敏数据建立统计关联。这种做法成本可控(仅需部分样本测序)、因果逻辑清晰、且不干扰模型本身的端到端训练,尤其适合临床样本测序费用高、批次效应大的场景。第二,“共有+私有特征解耦”的模型架构设计:针对多区域(原发灶与转移灶)或多时点数据,直接拼接容易引入冗余噪声。通过设计中心矩差异损失和余弦距离损失,迫使模型分离共性与特异性特征,这一策略可轻松迁移到其他“原发-转移”“治疗前-后”“多模态影像”等任务中。第三,多层级的可解释性验证:从t-SNE分布到Grad-CAM热力图再到转录组通路,形成了一条由表及里、由宏观到分子的证据链。建议后续研究至少包含影像特征可视化 + 公共数据库/自有组学数据的通路富集两个层次,避免仅展示热力图而缺乏深度。第四,公开工具链的高效整合:CIBERSORTx评估免疫浸润、pRRophetic预测药物敏感性、KEGG富集分析等均为标准化开源工具,无需湿实验即可挖掘深层信息,极大降低了机制挂靠的门槛。第五,临床导向的闭环叙事:论文从“避免ALND”的临床需求出发,最终落脚于“联合免疫治疗或降阶梯靶向治疗”的可操作建议,使机制分析服务于临床决策而非纯学术探索。若能在自己的研究中借鉴上述思路——设计一个可解释的影像模型 → 利用少量组学数据建立评分与通路的关联 → 用公共数据库或已知生物学知识反向验证 → 提出可验证的临床假设——即使测序样本量不大,也能显著提升论文的深度与发表潜力。
09
结语
总而言之,做影像组学不只是拼AUC、堆模型,更要学会给特征找意义、给模型讲道理。这篇论文给我们打了个样:用“共有+私有特征解耦”的模型设计呼应肿瘤异质性,用Grad-CAM热力图定位关键区域,再用RNA-seq从通路、免疫浸润、药敏三个维度把影像评分背后的生物学故事讲圆。只有把宏观影像和微观机制真正打通,我们的研究才不是“玄学算命”,而是有根有据、有血有肉、能讲好疾病故事的真科研。希望大家以后都能少走弯路,轻松写出有机制、有深度、能发高分的好文章!
参考文献:Liu Y, Wang Y, Huang J, Pei S, Wang Y, Cui Y, Yan L, Yao M, Wang Y, Zhu Z, Huang C, Liu Z, Liang C, Shi J, Li Z, Pei X, Wu L. Deep learning-based prediction of axillary pathological complete response in patients with breast cancer using longitudinal multiregional ultrasound. EBioMedicine. 2025 Sep;119:105896. doi: 10.1016/j.ebiom.2025.105896.