摘要
合集:AI案例-CV-医疗
数据集:心电图数据集
AI问题:目标检测
数据集价值:支持心电图人工智能诊断
一、赛题描述
本赛题由复旦大学附属中山医院和上海数创医疗科技有限公司联合命题。
心电图是临床最基础的一个检查项目,因为安全、便捷成为心脏病诊断的利器。每天都有大量的心电图诊断需求,但是全国范围内诊断心电图的专业医生数量不足,导致很多医院都面临专业心电图医生短缺的情况。人工智能技术的出现,为改善医生人力资源不足的问题带来了全新的可能。由于心电图数据与诊断的标准化程度较高,相对较易于运用人工智能技术进行智能诊断算法的开发。由于心电图可诊断的疾病类别特别丰富,目前,市面上出现较多的是针对某些特定类别的算法,尚没有看到能够按照临床诊断标准、在一定准确率标准下,提供类似医生的多标签多分类算法。本次赛事希望吸引更多优秀的算法人才,共同为心电图人工智能诊断算法的开发贡献力量。
赛题任务
针对临床标准12导联心电图数据的多标签多分类算法开展研发和竞技比拼。
选手需利用命题方提供的训练集数据,设计并实现模型和算法,能够对标准12导静息心电图进行智能诊断。需要识别的心电图包括12个类别:正常心电图、窦性心动过缓、窦性心动过速、窦性心律不齐、心房颤动、室性早搏、房性早搏、一度房室阻滞、完全性右束支阻滞、T波改变、ST改变、其它。
本赛题共分为两个关联任务:任务一为要求针对心电图输出二元(正常 v.s 异常)分类标签;任务二为针对给定的心电图输出上述12 项诊断分类的诊断结果标签。
其中任务一采用开放下载训练集和测试集模式,对新手友好,可自行线下建模或使用赛事提供的训练环境(notebook.aiwin.org.cn);任务二要求全程线上建模和测试,提供不可下载的训练集和“不可见”的测试集,适合有一定开发经验的选手,建议任务一能够达到F1>=0.88参与任务二。
二、数据集内容
心电数据的单位为mV,采样率为 500HZ,记录时长为 10 秒,存储格式为 MAT;文件中存储了 12 导联的电压信号(包含了I,II,III,aVR,aVL,aVF,V1,V2,V3,V4,V5 和 V6)。
任务一的数据
数据将会分为参赛者可见标签的训练集,及不可见标签的测试集两大部分。数据均可下载。(请参见「参赛提交」——「下载」下的 2021A_T2_Task1_数据集,其包含了训练集和测试集)
其中训练数据提供 1600 条 MAT 格式心电数据及其对应诊断分类标签(“正常”或“异常”,csv 格式);测试数据提供 400 条 MAT格式心电数据。
(1)数据目录
|- trainreference.csv TRAIN目录下心电数据的标注
|- TRAIN 训练用的数据
|- VAL 测试数据
(2)数据格式
12导联的数据,保存matlab格式文件中。数据格式是(12, 5000)。 采样500HZ,10S长度有效数据。具体读取方式参考下面代码。在Python中,使用scipy.io
模块的loadmat
函数可以加载MATLAB文件。 0..11是I, II, III, aVR, aVL, aVF, V1, V2, V3, V4, V5和V6数据。单位是mV。
import scipy.io as sio
ecgdata = sio.loadmat("TEST0001.MAT")['ecgdata']
(3)trainreference.csv格式
每行一个文件。 格式:文件名,LABEL (0正常心电图,1异常心电图)
样例:
name | tag |
---|---|
TEST0001 | 1 |
TEST0002 | 0 |
TEST0003 | 1 |
TEST0004 | 0 |
TEST0005 | 1 |
TEST0006 | 1 |
TEST0007 | 1 |
任务二的数据
数据将会分为参赛者可见标签的训练集,及不可见标签的测试集两大部分。数据均不可下载,需访问大赛指定的训练平台(notebook.aiwin.org.cn)在线访问训练集做模型训练。
其中训练数据提供 24,000 条 MAT 格式心电数据及其对应诊断多分类标签(标签说明如下,csv 格式);测试数据提供 6,000 条 MAT格式心电数据,共提供3万条数据。
(1)数据目录
DATA |- trainreference.csv TRAIN目录下数据的LABEL
|- TRAIN 训练用的数据
|- VAL 测试数据
(2)数据格式
12导联的数据,保存matlab格式文件中。数据格式是(12, 5000)。 采样500HZ,10S长度有效数据。具体读取方式参考下面代码。 0..12是I, II, III, aVR, aVL, aVF, V1, V2, V3, V4, V5和V6数据。单位是mV。
import scipy.io as sio
ecgdata = sio.loadmat("TEST0001.MAT")['ecgdata']
(3)trainreference.csv格式
每行包含一个文件。 格式:文件名,诊断结论数字(可能有多条不同的诊断结论,结论不重复,顺序不定)
TEST00053,5,6,10
结论是:心房颤动,室性早搏,T波改变
三、获取案例套装
文件包大小:460 MB
获取:医疗行业视觉案例套装