AI虚拟细胞:流匹配+原生Transformer
2026/6/15 15:22:38 网站建设 项目流程

摘要

预测单细胞在基因编辑、化学药物、细胞因子等外界扰动下的转录响应,是计算生物学与人工智能虚拟细胞(AIVC)领域的核心难题,对药物研发、基因调控网络解析具有重要应用价值。现有方法大多依靠辅助细胞状态编码器、层级变分自编码器、专用Transformer编解码模块或基因相互作用先验,将高维基因表达谱压缩为隐表征。这类方案虽具备一定效果,但会提升模型架构复杂度,同时限制扩展性与泛化能力。本文提出1款基于流匹配的轻量化人工智能虚拟细胞模型OCOO-T,用于转录扰动响应预测。该模型采用标准Transformer架构,直接对连续型基因表达谱进行建模,并将扰动响应预测任务转化为连续时间去噪过程;通过自适应层归一化与上下文令牌,融合扰动嵌入、药物剂量、细胞系/细胞类型等特征。研究在3大基准数据集Tahoe100M、Replogle、PBMC上开展全面测试,结果表明:OCOO-T在多类扰动、多种细胞类型场景下均达到当前最优性能;同时借助基因分块与解块策略,可高效适配超长转录组序列。依托Transformer去噪框架在单细胞组学任务中的简洁性,OCOO-T为虚拟细胞模拟提供了1套高效、可扩展的技术方案。

yalong.zhao@infevo.ai

lipeng.lai@infevo.ai

#转录扰动 #单细胞RNA测序 #流匹配 #Transformer #基因表达谱 #生成模型 #虚拟细胞模型

方法

Transformer去噪网络

1OCOO-T模型整体架构

该模型采用标准Transformer块对连续基因表达谱执行去噪操作,并结合扰动特征与细胞上下文完成条件约束

条件表征与注入方式

2对照细胞上下文注入

扰动预测任务中对照细胞(xc)与噪声表达特征同步输入模型的结构。

长转录组序列适配

3基因分块策略

该模块用于实现超长基因序列的建模

实验

基准数据集与数据划分

表1基准数据集样本规模汇总

基于原始h5ad文件核验

基准实验结果

图4 多维度性能雷达图

3大基准数据集下各模型多维度性能可视化雷达图。评估指标包含差异表达基因重叠率、差异表达精度、表达变化方向一致性、皮尔逊差值相关系数、3类扰动区分分数。

表2Tahoe100M数据集实验结果

皮尔逊差值相关系数、差异表达基因重叠率、差异表达精度、变化方向一致性、L1/L2/余弦扰动区分分数、均方误差、平均绝对误差;↑指标越高越好,↓指标越低越好

表3Replogle-Nadig数据集实验结果

表4PBMC数据集实验结果

长转录组序列生成结果

表5不同分块尺寸下Replogle-Nadig数据集实验结果

不同分块大小、不同预测范式下,Replogle-Nadig数据集的模型性能结果

5训练收敛曲线对比图

不同分块尺寸、不同预测范式(速度场预测/表达值预测)下各指标的训练收敛曲线。vpred =速度场预测,xpred =表达值预测;p8/p16/p32 =分块尺寸为8/16/32。

细胞上下文条件:协变量嵌入vs对照细胞均值谱

图6不同细胞上下文注入方式性能对比图

Replogle-Nadig数据集上不同细胞上下文注入策略的性能对比。S1:细胞系嵌入方案;S2~S7:基于对照细胞均值谱的方案,对应细胞集大小依次为1、4、8、16、32、64。

详细总结

思维导图

基准数据集(覆盖3类典型扰动,行业通用标准)

所有数据集统一预处理:细胞文库归一化+ log1p变换,默认基于「2,000个高可变基因(HVG)」评估(长序列实验除外)。

参考

OCOO-T: A Simple and Scalable Virtual Cell Model for Transcriptional Perturbation Response

https://arxiv.org/pdf/2606.12838v1

260612OCOO-T.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询