文章目录
- 医学数据集大全:做医疗 AI 的人,这个仓库该收藏
- 1、 里面有什么
- 2、 几个值得单独说的数据集
- 3、 适合谁用
- 4、 用之前要知道的事
医学数据集大全:做医疗 AI 的人,这个仓库该收藏
medical-data 在 GitHub 上拿到了 6000 多 Star。
这个仓库把散落在互联网各处的公开医学数据集整理到一起,按类别分好,附上论文链接和数据入口,方便做医学机器学习的人直接找到自己需要的数据。
1、 里面有什么
仓库把医学数据分成了七大类。
医学影像数据是内容最多的部分。心脏 MRI、脑部 CT、视网膜图像、皮肤病变照片、乳腺 X 光片、肺部 CT,覆盖了常见医学影像模态。EchoNet-Dynamic 来自斯坦福,收录心脏运动视频数据;OASIS 提供大脑 MRI 横截面和纵向两套数据集,用于阿尔茨海默症研究;ISIC Archive 有 23000 张皮肤病变分类图像。
挑战赛数据也有不少。MICCAI、ISBI 这些顶会每年办分割、检测竞赛,赛后数据集通常公开。Kaggle 上也有糖尿病视网膜病变检测、宫颈癌筛查这类比赛留下的数据。
EHR 数据里最知名的是 MIMIC-III,包含近 4 万名患者的重症监护数据,匿名处理后对外开放。美国国家级医疗数据、UCI 经典医学小数据集、PubMed 全文和医学语音数据也都在里面。
2、 几个值得单独说的数据集
MIMIC-III:重症监护基准数据集,包含生命体征、用药记录、实验室检查结果、影像报告和临床笔记。申请需要完成 CITI 在线培训并签署数据使用协议。
OASIS:两套大脑 MRI 数据,横截面那套有 416 个受试者,纵向那套跟踪了 150 人至少一年的脑部变化。做阿尔茨海默症早期检测,这是少有的纵向公开数据。
EchoNet-Dynamic:斯坦福出品的心脏超声视频数据,附带射血分数标注。做心脏功能评估的深度学习模型,这个数据集绕不开。
3、 适合谁用
做医学影像分割、病灶检测的研究者,可以从里面找到对应模态的公开数据集,省去到处搜集的时间。
做 NLP 的人想处理临床文本或医学问答,MIMIC-III、PubMedQA 都是现成的。
入门机器学习的学生,UCI 那几个经典医学小数据集体量刚好,不需要 GPU 集群也能跑。
4、 用之前要知道的事
这个仓库本身不托管数据,它是一个索引。每个数据集都指向原始来源,下载、注册、使用协议都要去原始网站看。部分数据集有使用限制,比如禁止商业用途或者要求在论文中引用特定文献。
拿到数据后先做一轮探索性分析,比直接往模型里灌要稳当得多。数据质量参差不齐,有些标注很精细,有些只有粗略的分类标签。
如果你在做医学相关的 AI 研究,这个仓库值得当作数据集字典来用。需要的时候来这里翻一翻,大概率能找到合适的数据。
研究,这个仓库值得当作数据集字典来用。需要的时候来这里翻一翻,大概率能找到合适的数据。