研习社2020肺炎X光病灶数据集和识别

摘要：

合集：AI案例-CV-医疗
赛题：AI研习社肺炎X光病灶识别大赛
主办方：AI研习社
主页：https://god.yanxishe.com/18
数据集：研习社2020肺炎X光病灶数据集
AI问题：图像分类
数据集价值：肺炎检测
解决方案：PyTorch框架、ResNet18模型

一、赛题描述

肺炎是由多种病源菌引起的肺充血，水肿，炎性细胞浸润和渗出性病变，是生活中较为常见的一种疾病。早期感冒咳嗽如果护理不当，既有可能转化为肺炎。临床常见且可发生于任何人群。临床表现主要有发热，咳嗽，咳痰，呼吸困难等。

X线检查是肺部疾病诊断的基本方法。一般在X光片上显示为双肺纹理增多增粗紊乱。并见斑片状密度增高影，边缘模糊。如何用胸部X光检测是否发生肺炎？我们搜集来了专业医生的解答：早期肺纹理增多、变粗是各类肺炎的特点。在支气管肺炎发病不久可以出现斑点状的小片阴影，以两肺下部和纵隔边缘多为常见，逐渐融合成较大的斑片状阴影，常伴发肺不张或者是局部的肺气肿。大叶性肺炎的病变涉及一叶或者是阶段式发生实变阴影，出现肺部并发症时出现相应的病变，比如，肺脓肿可以看见气胸压缩所在侧的肺叶,脓胸则可以看见胸腔积液，肋隔角变钝，积液多的时候多呈现一片浓密的阴影。

任务

训练模型正确识别肺炎X光病灶数量。

结果文件上传

提交CSV文件。

第一个字段位：测试集图片ID（注意ID即文件名是从0开始的）

第二个字段：病灶数量（0、1、2、3、4）

建议使用UTF-8编码，共计6671个结果，数量不足可能导致无法评分。

二、数据集内容

基本信息

数据集：训练集2,0013张，测试集 6,671张。

数据结构

工作路径：xray_dataset

训练图片：./xray_dataset/train/{0}.jpeg

测试图片：./xray_dataset/test/{0}.jpeg

train_bboxes.csv

训练图片文件中病灶区域。若一个图片中包括多个病灶区域，则该图片对应多条记录。

数据样例：

filename	x	y	width	height
6	287	673	188	220
8	651	476	250	344
18	220	414	142	120
24	327	138	108	157
27	273	550	139	146
28	761	512	146	153
29	326	287	191	292
30	645	296	208	545
30	286	197	159	447

train.csv

训练图片文件中病灶区域个数。

数据样例：

0	0
1	0
2	0
3	0
4	0
5	0
6	1
7	0
8	1
9	0
10	0
11	0
12	0
13	0
14	0
15	0
16	0
17	0
18	1
19	0
20	0
21	0
22	0
23	0
24	1
25	0
26	0
27	1
28	1
29	1
30	2

图片样例：

数据集使用许可协议

GPL

三、解决方案样例

解决方案

利用PyTorch框架，使用ResNet18进行TTA（测试时增强）来进行计算机视觉分类。ResNet18 简介：

提出时间：2015年（何恺明团队在CVPR最佳论文中提出）
核心创新：残差学习框架（Residual Learning）
网络深度：18层（包含卷积层、全连接层和跳跃连接）
定位：轻量级ResNet变体，适合计算资源有限的场景

在深度学习中，残差（Residual）是指“预测目标与当前模型输出之间的差异”。这一概念在残差学习框架（如ResNet）中至关重要，其核心思想是让网络直接学习残差，而非直接学习目标函数。

残差学习的直观理解：想象你在教一个学生调整预测结果：

传统网络：直接要求学生给出最终答案（例如“预测值=100”），学习难度大。
残差网络：让学生基于当前答案（例如“当前值=90”）只学习需要调整的部分（残差=10），最终输出为 90+10=100。这种方式更易优化。

四、工作流程

1、导入开发包

import os, sys, glob, argparse
import pandas as pd
import numpy as np
from tqdm import tqdm

import time, datetime
import pdb, traceback

import cv2
from PIL import Image

from sklearn.model_selection import train_test_split, StratifiedKFold, KFold

from efficientnet_pytorch import EfficientNet
import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset

2、读取标注数据

这是一个标准的PyTorch数据集类，主要功能是：

从DataFrame加载图像路径和标签
应用图像预处理变换
返回适合模型训练的(image, label)对
支持DataLoader的批处理和并行加载

类构造函数：

参数：
- img_df: pandas DataFrame，包含图像路径/filepath和标签信息/label。
- transform: 图像预处理变换（可选）。
功能：存储数据框和变换对象。

class QRDataset(Dataset):
    def __init__(self, img_df, transform=None):
        self.img_df = img_df
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None
    
    def __getitem__(self, index):
        start_time = time.time()
        img_path = self.img_df.iloc[index]['filepath']  # 确保这里是正确的列名
        img = Image.open(img_path).convert('RGB')
        
        if self.transform is not None:
            img = self.transform(img)
        # 修改标签生成部分，确保类型为 torch.long
        label = np.array(self.img_df.iloc[index]['label'])
        return img, torch.tensor(label, dtype=torch.long)
    
    def __len__(self):
        return len(self.img_df)

读取标注数据：

if __name__ == '__main__':
    # 读取标注数据（正样本）
    train_bboxes = pd.read_csv('./xray_dataset/train_bboxes.csv')

    # 获取所有有标注的图像文件名（正样本）
    annotated_images = set(train_bboxes['filename'].unique())

    # 获取全部图像文件列表
    all_images = {Path(x).stem for x in glob.glob('./xray_dataset/train/*.jpg')}  # 更安全的文件名提取

    # 计算负样本：总图像 - 有标注的图像
    negative_images = list(all_images - annotated_images)

    # 创建正样本DataFrame（保留原始标注信息）并添加标签列
    train_pos = train_bboxes.copy()
    train_pos['label'] = 1  # 根据实际情况调整标签值

    # 创建负样本DataFrame（补充标记为0）
    train_neg = pd.DataFrame({
        'filename': negative_images,
        'x': [0]*len(negative_images),      # 补充占位值
        'y': [0]*len(negative_images),
        'width': [0]*len(negative_images),
        'height': [0]*len(negative_images),
        'label': [0]*len(negative_images)  # 新增标签字段（0表示无病灶）
    }, dtype=int)  # 强制指定为整数

    # 合并正负样本并打乱顺序
    train_label = pd.concat([train_pos, train_neg], axis=0).sample(frac=1).reset_index(drop=True)
    train_label['label'].astype(int)  # 二次确保类型
    assert train_label['label'].between(0, 4).all(), "标签值超出0-4范围"

    # 生成完整文件路径
    train_label['filepath'] = './xray_dataset/train/' + train_label['filename'].astype(str) + '.jpg'
    print(train_label.head())

输出：train_label

   filename      x      y  width  height  label                        filepath
0     13113  544.0  427.0  209.0   271.0      1  ./xray_dataset/train/13113.jpg
1      2247  378.0  373.0  160.0   129.0      1   ./xray_dataset/train/2247.jpg
2     10338    0.0    0.0    0.0     0.0      0  ./xray_dataset/train/10338.jpg
3      2946  521.0   83.0  234.0   358.0      1   ./xray_dataset/train/2946.jpg
4      2388  726.0  571.0  128.0   122.0      1   ./xray_dataset/train/2388.jpg

3、ResNet-18模型

ResNet-18（Residual Network，残差网络）是何恺明等人于2015年提出的革命性深度学习模型，在ImageNet竞赛中取得突破性成果。它通过引入”残差连接”解决了深度神经网络中的梯度消失问题。

a、整体结构表

层类型	输出尺寸	18层配置	操作说明
输入图像	224×224×3	–	原始输入
卷积层	112×112×64	7×7卷积, stride=2	特征提取
池化层	56×56×64	3×3最大池化, stride=2	下采样
残差块1	56×56×64	2个残差单元	保持尺寸
残差块2	28×28×128	2个残差单元	下采样
残差块3	14×14×256	2个残差单元	下采样
残差块4	7×7×512	2个残差单元	下采样
全局池化	1×1×512	平均池化	特征聚合
全连接层	1×1000	1000维输出	分类

b、结构概览

输入图像 → 卷积层 → 批归一化 → ReLU → 最大池化 → 4个残差块（每个块包含2个残差单元） → 自适应平均池化 → 全连接层（512→5）

c、模型定义

代码 model.avgpool = nn.AdaptiveAvgPool2d(1)：将原始的全局平均池化层替换为自适应平均池化层。参数 1 表示输出大小为 1×1，无论输入特征图大小如何，这确保了网络可以处理不同尺寸的输入图像。

class VisitNet(nn.Module):
    def __init__(self):
        super(VisitNet, self).__init__()
                
        model = models.resnet18(True)
        model.avgpool = nn.AdaptiveAvgPool2d(1)
        model.fc = nn.Linear(512, 5)
        self.resnet = model
        
    def forward(self, img):        
        out = self.resnet(img)
        return out

4、训练函数

def train(train_loader, model, criterion, optimizer, epoch):
    batch_time = AverageMeter('Time', ':6.3f')
    # data_time = AverageMeter('Data', ':6.3f')
    losses = AverageMeter('Loss', ':.4e')
    top1 = AverageMeter('Acc@1', ':6.2f')
    # top5 = AverageMeter('Acc@5', ':6.2f')
    progress = ProgressMeter(len(train_loader), batch_time, losses, top1)

    # switch to train mode
    model.train()

    end = time.time()
    for i, (input, target) in enumerate(train_loader):
        input = input.cuda(non_blocking=True)
        target = target.cuda(non_blocking=True)

        # compute output
        output = model(input)
        loss = criterion(output, target)

        # measure accuracy and record loss
        acc1, acc5 = accuracy(output, target, topk=(1, 2))
        losses.update(loss.item(), input.size(0))
        top1.update(acc1[0], input.size(0))
        # top5.update(acc5[0], input.size(0))

        # compute gradient and do SGD step
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        # measure elapsed time
        batch_time.update(time.time() - end)
        end = time.time()

        if i % 100 == 0:
            progress.pr2int(i)

5、执行训练

    # 分层K折交叉验证
    skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=233)
    for flod_idx, (train_idx, val_idx) in enumerate(skf.split(train_label, train_label['label'])):    
        print(f"flod_idx={flod_idx}, train_idx={train_idx}, val_idx={val_idx}")
        if flod_idx == 0:
            continue
        
        train_loader = torch.utils.data.DataLoader(
            QRDataset(train_label.iloc[train_idx],
                    transforms.Compose([
                        # transforms.RandomGrayscale(),
                        transforms.Resize((512, 512)),
                        # transforms.RandomAffine(5),
                        # transforms.ColorJitter(hue=.05, saturation=.05),
                        # transforms.RandomCrop((88, 88)),
                        transforms.RandomHorizontalFlip(),
                        transforms.RandomVerticalFlip(),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
                ])
            ), batch_size=10, shuffle=True, num_workers=20, pin_memory=True
        )
        
        val_loader = torch.utils.data.DataLoader(
            QRDataset(train_label.iloc[val_idx],
                    transforms.Compose([
                        transforms.Resize((512, 512)),
                        # transforms.Resize((124, 124)),
                        # transforms.RandomCrop((88, 88)),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
                ])
            ), batch_size=10, shuffle=False, num_workers=10, pin_memory=True
        )
            
        
        model = VisitNet().cuda()
        # model = nn.DataParallel(model).cuda()
        criterion = nn.CrossEntropyLoss().cuda()
        optimizer = torch.optim.SGD(model.parameters(), 0.01)
        scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=4, gamma=0.85)
        best_acc = 0.0
        for epoch in range(EPOCH_COUNT):
            scheduler.step()
            print('Epoch: ', epoch)

            train(train_loader, model, criterion, optimizer, epoch)
            val_acc = validate(val_loader, model, criterion)
            
            if val_acc.avg.item() > best_acc:
                best_acc = val_acc.avg.item()
                torch.save(model.state_dict(), './resnet18_fold{0}.pt'.format(flod_idx))

执行结果

python3 1_train.py
python3 2_predict.py

训练过程：

train.py: MODEL_NAME=resnet18, K_FOLD=5, EPOCH_COUNT=10, TRAIN_COUNT=2000
------------------------------------------------------------
flod_idx=0, 
train_idx=[   0    1    2 ... 9164 9165 9166], 
val_idx=[   3    9   10 ... 9148 9157 9159]
Epoch:  0
[  0/734]       Time 153.510 (153.510)  Loss 7.7151e-01 (7.7151e-01)    Acc@1  40.00 ( 40.00)
[100/734]       Time  1.836 ( 2.779)    Loss 2.0741e-01 (5.2314e-01)    Acc@1  90.00 ( 77.72)
[200/734]       Time  2.365 ( 2.385)    Loss 2.8693e-01 (5.2531e-01)    Acc@1  80.00 ( 77.16)
[300/734]       Time  2.597 ( 2.374)    Loss 4.9653e-01 (5.0985e-01)    Acc@1  80.00 ( 78.37)
[400/734]       Time  2.464 ( 2.367)    Loss 8.3166e-01 (5.0389e-01)    Acc@1  50.00 ( 78.53)
[500/734]       Time  2.625 ( 2.400)    Loss 3.2175e-01 (5.0937e-01)    Acc@1  80.00 ( 78.18)
[600/734]       Time  2.596 ( 2.411)    Loss 6.5964e-01 (5.1379e-01)    Acc@1  80.00 ( 78.02)
[700/734]       Time  2.599 ( 2.430)    Loss 1.6322e+00 (5.1066e-01)    Acc@1  50.00 ( 78.19)
 * Acc@1 80.262
Epoch:  1
[  0/734]       Time 150.013 (150.013)  Loss 1.4490e-01 (1.4490e-01)    Acc@1  90.00 ( 90.00)
[100/734]       Time  2.612 ( 3.062)    Loss 2.5447e-01 (4.8310e-01)    Acc@1  90.00 ( 78.12)
[200/734]       Time  2.413 ( 2.766)    Loss 2.2488e-01 (4.8874e-01)    Acc@1  80.00 ( 78.76)
[300/734]       Time  2.405 ( 2.652)    Loss 2.5447e-01 (4.9746e-01)    Acc@1  90.00 ( 78.17)
[400/734]       Time  2.350 ( 2.627)    Loss 5.8634e-01 (4.8216e-01)    Acc@1  70.00 ( 79.33)
[500/734]       Time  2.277 ( 2.599)    Loss 3.5153e-01 (4.7646e-01)    Acc@1  80.00 ( 79.84)
[600/734]       Time  2.632 ( 2.586)    Loss 3.4095e-01 (4.7536e-01)    Acc@1  90.00 ( 80.15)
[700/734]       Time  2.682 ( 2.596)    Loss 5.3947e-01 (4.7177e-01)    Acc@1  80.00 ( 80.57)
 * Acc@1 81.788
 ...

源码开源协议

GPL-3.0 license

四、获取案例套装

文件包大小：1.6 GB

获取：医疗行业视觉案例套装