摘要:
合集:AI案例-CV-医疗
数据来源:知名的公共医学影像存储库——癌症影像档案(The Cancer Imaging Archive, TCIA)
数据集:BRATS (Brain Tumor Segmentation Challenge)脑肿瘤分割挑战赛发布的针对低级别胶质瘤的一个子集LGG Segmentation Dataset。
AI问题:语义和实例分割
数据集价值:用于低级别胶质母细胞瘤(Low-Grade Glioma,简称LGG)的分割任务。
一、问题描述
LGG Segmentation Dataset 是一个用于医学图像分割的公开数据集,全称为脑部MRI图像以及手动FLAIR异常分割掩膜。专门用于低级别胶质母细胞瘤(Low-Grade Glioma,简称LGG)的分割任务。这个数据集通常用于训练和评估深度学习模型,特别是在医学图像处理和肿瘤检测方面。
数据集应用
- 肿瘤检测:训练模型识别和分割肿瘤区域。
- 肿瘤大小和形状分析:通过对肿瘤分割的结果进行分析,医生可以更好地评估肿瘤的大小、形状等特征,从而帮助诊断和制定治疗方案。
- 医学图像处理研究:用于推动深度学习和图像分割算法在医学领域中的应用,特别是神经影像学领域。
问题和挑战
- 数据集中的MRI图像存在多种噪声和伪影,使得肿瘤分割变得困难。
- 肿瘤的形态各异,有些肿瘤与周围组织的边界不明显,给自动分割带来了挑战。
学术论文
已有若干重要的学术论文利用此数据集进行了深入研究,例如以下两篇文章:
- Mateusz Buda, AshirbaniSaha, Maciej A. Mazurowski “利用深度学习算法自动提取的低级别胶质瘤基因组亚型与形状特征的关联。” 生物医学计算机杂志, 2019。Mateusz Buda等人探讨了利用深度学习算法从MRI图像中提取形状特征并与LGG的基因组亚型相关联的研究。
- Maciej A. Mazurowski, Kal Clark, Nicholas M. Czarnek, Parisa Shamsesfandabadi, Katherine B. Peters, Ashirbani Saha “低级别胶质瘤的放射基因组学:算法评估的肿瘤形状与多机构研究中肿瘤基因组亚型和患者结果相关,该研究使用了癌症基因组图谱数据。” 神经肿瘤学杂志, 2017。
二、数据集内容
来源
数据来源于知名的公共医学影像存储库——癌症影像档案(The Cancer Imaging Archive, TCIA)。所涉及的病例均来自癌症基因组图谱(The Cancer Genome Atlas, TCGA)中的低级别胶质瘤项目。
这个数据集是作为 BRATS (Brain Tumor Segmentation Challenge)脑肿瘤分割挑战赛的一部分发布的,BRATS挑战赛自2012年开始,由多个学术和医疗机构组织,旨在推动脑肿瘤分割技术的发展。
LGG Segmentation Dataset 是针对低级别胶质瘤的一个子集,通常在 BRATS 2018 及以后的版本中作为相关数据集发布。具体的发布时间信息如下:
- BRATS 2018:发布了LGG的分割数据集,并引入了多模态图像数据(T1、T2、T1c、FLAIR)。
- BRATS 2019:该数据集进一步更新并扩展了对肿瘤区域的标注,包括了更多患者和新的分割标准。
内容
数据集包含了多模态的MRI图像数据,通常包括以下几种扫描方式:
- T1加权(T1-weighted)
- T2加权(T2-weighted)
- FLAIR(Fluid Attenuated Inversion Recovery)
- T1对比增强(T1c)
每张MRI图像都被标注了肿瘤的不同部分,如肿瘤核心、肿瘤边缘等。分割任务的目标是自动识别这些肿瘤区域并将其从图像中提取出来。
数据集内容包括:
- 脑部MRI图像:包含多个患者的脑部磁共振成像(MRI-Brain Magnetic Resonance Imaging)扫描结果。
- 手动FLAIR异常分割掩膜:这些掩膜是由专业医师手工标注的,用于标识出MRI图像中异常的区域,特别是与低级别胶质瘤相关的病变部分。
- 临床和基因组信息:相关的患者数据以及肿瘤的基因组学特征也在配套文件中给出。
该数据集包含脑部MR图像以及手动FLAIR异常分割掩膜。它们对应于癌症基因组图谱(TCGA)低级别胶质瘤集合中的110名患者,至少有液体衰减反转恢复(FLAIR)序列和基因组簇数据可用。
数据结构
所有图像均以.tif
格式提供,每幅图像有3个通道。其中101个病例,有3个序列可用,即术前、FLAIR、术后(按此顺序排列通道)。其他9个病例,缺少术后序列;对于6个病例,缺少术前序列。缺失的序列用FLAIR序列替换,使所有图像均为3通道。掩膜是二值的,为单通道图像。它们分割存在于FLAIR序列中的FLAIR异常(所有病例均可用)。
图片样例:TCGA_CS_4941_19960909_1.tif

该数据集组织成110个文件夹,以病例ID命名,包含有关来源机构的信息。 每个文件夹包含以下命名规则的MR图像文件:
TCGA_<institution-code>_<patient-id>_<slice-number>.tif
相应的掩膜带有_mask
后缀。例如文件目录:TCGA_DU_A5TW_19980228,包括文件TCGA_DU_A5TW_19980228_1_mask.tif。
肿瘤基因组簇和患者数据在data.csv
文件中提供。
字段定义:
字段 | 描述 |
---|---|
Patient | 病人或样本的唯一标识符(例如:TCGA_CS_4941)。 |
RNASeqCluster | 基于RNA测序数据的聚类结果,可能反映基因表达模式。 |
MethylationCluster | 基于DNA甲基化数据的聚类结果。 |
miRNACluster | 基于miRNA表达数据的聚类结果。 |
CNCluster | 基于拷贝数变化(CNV)数据的聚类结果。 |
RPPACluster | 基于逆相蛋白阵列(RPPA)数据的聚类结果,RPPA测量的是蛋白质的表达水平。 |
OncosignCluster | 基于Oncosign数据的聚类结果,可能与癌症特异性基因表达相关的分子特征。 |
COCCluster | 基于特定的癌症组学分类或分析的聚类结果。 |
histological_type | 肿瘤的组织学类型(例如,肿瘤亚型)。 |
neoplasm_histologic_grade | 肿瘤的组织学分级,表示肿瘤细胞在显微镜下的异常程度,通常分为低、中、高。 |
tumor_tissue_site | 肿瘤的解剖位置(例如:肺、乳腺等)。 |
laterality | 肿瘤的侧别(例如:左侧或右侧)。 |
tumor_location | 肿瘤在组织部位中的具体位置(例如:上叶、下叶等)。 |
gender | 患者的性别(例如:1 = 男性,2 = 女性)。 |
age_at_initial_pathologic | 患者在初次病理诊断时的年龄。 |
race | 患者的种族(例如:1 = 白人,2 = 非洲裔美国人,3 = 亚洲人等)。 |
ethnicity | 患者的族裔(例如:1 = 西班牙裔,2 = 非西班牙裔等)。 |
death01 | 患者是否死亡的二元指示变量(1 = 死亡,0 = 存活)。 |
这些“聚类”字段(例如:RNASeqCluster、MethylationCluster等)可能是根据不同的分子数据类型(如基因表达、DNA甲基化等)对样本进行的分类,用来识别具有不同肿瘤特征或对治疗反应不同的患者群体。
数据样例:
Patient | RNASeqCluster | MethylationCluster | miRNACluster | CNCluster | RPPACluster | OncosignCluster | COCCluster | histological_type | neoplasm_histologic_grade | tumor_tissue_site | laterality | tumor_location | gender | age_at_initial_pathologic | race | ethnicity | death01 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
TCGA_CS_4941 | 2 | 4 | 2 | 2 | 3 | 2 | 1 | 2 | 1 | 3 | 2 | 2 | 67 | 3 | 2 | 1 | |
TCGA_CS_4942 | 1 | 5 | 2 | 1 | 1 | 2 | 1 | 1 | 2 | 1 | 3 | 2 | 1 | 44 | 2 | 1 | |
TCGA_CS_4943 | 1 | 5 | 2 | 1 | 2 | 2 | 1 | 1 | 2 | 1 | 1 | 2 | 2 | 37 | 3 | 0 | |
TCGA_CS_4944 | 5 | 2 | 1 | 2 | 1 | 1 | 1 | 1 | 1 | 3 | 6 | 2 | 50 | 3 | 0 |
数据集标签
LGG Segmentation Dataset每个样本图像通常包含分割的标签,标注了肿瘤的不同部分,包括:
- 增强肿瘤区域(ET,Enhancing Tumor)
- 肿瘤核心(TC,Tumor Core)
- 全肿瘤区域(WT,Whole Tumor)
这些标签通常会出现在图像的分割掩码(segmentation mask)中,掩码图像中的每个像素值表示一个区域的类别。具体来说:
- ET、TC、和WT的标注值在分割掩码中会作为不同的类标签出现,每个标签会对应不同的灰度值或颜色值。
- 在每张图像的分割掩码中,增强肿瘤区域、肿瘤核心和全肿瘤区域的像素会根据其类别被分别赋予不同的值。例如,图像中的ET区域可能标注为值1,TC为值2,WT为值3,或者使用其他合适的编码方式。
这些分割标签通常存储在与原始MRI图像匹配的分割图像中。每个样本图像包含:
- 原始图像数据:如MRI图像的像素值。
- 分割图像数据:对应的掩码或标签图像,其中每个像素点的值代表一个特定的肿瘤区域(ET、TC、WT)。
总的来说,LGG Segmentation Dataset 在脑部肿瘤的自动化分割、影像分析和医学图像处理领域有着重要的作用,并且是推动相关研究和技术发展的重要工具。
科研用途
该数据集常用于以下几方面的研究:
- 开发和改进自动化的图像分割算法。
- 探讨肿瘤形状、大小等特征与其基因组学特性之间的联系。
- 分析不同治疗方案对患者预后效果的影响。
数据集版权许可协议
Deed – Attribution-ShareAlike 3.0 Unported – Creative Commons
引用要求
[1]Mateusz Buda, AshirbaniSaha, Maciej A. Mazurowski "Association of genomic subtypes of lower-grade gliomas with shape features automatically extracted by a deep learning algorithm." Computers in Biology and Medicine, 2019.
[2]Maciej A. Mazurowski, Kal Clark, Nicholas M. Czarnek, Parisa Shamsesfandabadi, Katherine B. Peters, Ashirbani Saha "Radiogenomics of lower-grade glioma: algorithmically-assessed tumor shape is associated with tumor genomic subtypes and patient outcomes in a multi-institutional study with The Cancer Genome Atlas data." Journal of Neuro-Oncology, 2017.
三、获取案例套装
文件包大小:370 MB
获取:医疗行业视觉案例套装