READING YOUR HEART
研究背景与动机
现有心电自监督学习分为对比学习、重构学习两类,但全部把心电当做普通时序信号,采用固定窗口、固定步长切割波形,存在两个核心缺陷:
- 丢失心电专属形态、节律特征
- 破坏心跳间潜在语义关系
为了解决这两个问题,作者提出了完整的自监督学习框架HeartLang,把单词心跳当做单词,把连续心律当做句子,从心跳形态、全局节律两层学习通用表征
数据集与实验任务
- 预训练数据集:MIMIC-IV:原始采样率500Hz,同一下下采样至100Hz,划分9:1训练和验证集
- 下游测试数据集:PTB-XL CSPC2018 CSN
- 评价指标:macro AUC;设置1%,10%,100%三种标注比例,验证小样本泛化能力。
架构图与核心方法
整体框架图分为四步:
- QRS-Tokenizer从原始心电信号生成心电句子
- 向量量化构建心电词库
- 掩码心电句子预训练
- 下游任务微调
下面对四步进行详解:
- QRS-Tokenizer :基于 QRS 波定位自适应分割心跳:先带通滤波 + Ricker 小波积分检测每个 QRS 波峰,以 QRS 为中心截取单心跳片段(单心电单词);心率自适应拼接为心电句子,长度上限 256,不足补零、过长截断。区别于固定窗口,完全贴合心跳生理边界。
- ST-ECGFormer:专门为心电设计的Transformer编码器,一维卷积将单心跳映射为高维Token,可学习空间嵌入+时序嵌入+位置嵌入,融合导联空间、时序上下文信息。
- VQ-HBR 向量量化心跳重构(形态层级表征学习)
构建超大离散心电词表 V(8192 个通用心电单词):用余弦相似度将不同人相似心跳映射至同一词向量,消除个体生理差异;通过 Transformer 解码器还原原始心电,MSE 量化重构损失训练词库,学习心跳形态特征。 - 掩码心电句子预训练(节律层级表征学习)
随机 50% 掩码句子内的心跳单词,基于未掩码上下文预测被掩码心跳对应的词表索引,交叉熵损失建模心跳间上下文语义,捕捉全局心律依赖。
实验结果与结论
线性微调的实验结果:在 PTB-XL 全部四类心电任务下,HeartLang 在 1%/10%/100% 标注数据下 AUC 全面超越所有对比自监督方法,相比第二名平均提升 8.14;尤其在心电形态、节律分类任务提升超 9.85
局限性与发展
优势
- 生理贴合:完全基于心电 QRS 波生理结构建模,不粗暴均等切分信号,保留形态 + 节律双层医学特征;
- 泛化性强:超大词库 + 时空 Transformer,小样本场景提升明显,适配 1 导联至 12 导联各类设备;
- 通用性:预训练表征可适配心律失常、心肌病变等上百种心电下游诊断任务;
- 开源可复现:数据集、代码全部公开,提供完整超参、数据集划分方案。
局限性:
- QRS-Tokenizer 依赖清晰完整的 QRS 波形,畸形、碎裂 QRS 波识别效果差;
- 基线漂移严重的数据集,零填充会破坏原始心跳基线特征,性能下降;
- 词库训练、掩码预训练双阶段流程,算力开销较大,需要多卡 4090 训练;
- 仅基于单一心电模态,未融合血氧、血压等多生理信号。
未来拓展方向:
- 优化 QRS 分词器,增强基线漂移、畸形 QRS 波形下分割鲁棒性;
- 轻量化网络与近似量化算法,降低 VQ 词库训练算力消耗;
- 融合多模态生理信号(心电 + 血压 + 血氧)构建多模态心电语言模型;
- 拓展零样本、少样本心电诊断,适配基层缺少标注医疗场景;
- 基于心电词库做生成任务,生成仿真心电辅助医疗教学与数据增广。
github地址:论文源码地址