摘要:
合集:AI案例-CV-林业
数据集:PlantVillage2015v2植物病害图像数据集。包括两个子数据集: 1) Without Augmentation仅包含原始数据,适用于标准模型训练。2)With Augmentation 包含了经过增强的图像,能更好地提升模型的泛化能力。
数据集价值:实现早期病害诊断,减少农药滥用和产量损失(预估可降低经济损失10%-30%)。
一、问题描述
人类社会需要在2050年前将粮食产量增加约70%,以养活预计将超过90亿的人口。目前,传染病平均降低了40%的潜在产量,许多发展中国家的农民经历了高达100%的产量损失。
智能手机在全球农作物种植者中的广泛分布,预计到2020年将达到50亿部,这提供了将智能手机转变为种植粮食的不同社区宝贵工具的潜力。一个潜在的应用是通过机器学习和众包开发移动疾病诊断。通过现有的在线平台PlantVillage发布超过50,000张精心策划的健康和感染作物叶片的图像。我们描述了数据和平台。这些数据是一个正在进行的众包努力的开始,旨在使计算机视觉方法能够帮助解决由于传染病导致的作物植物产量损失的问题。
二、数据集内容
PlantVillage-v2是一个植物病害图像数据库,常作为基础数据集用于农作物病害及植物病害的相关研究。 该数据库的图像都是在实验室中拍摄的, 目前数据集中有 54,305 张植物病害叶片图像,其中包含 13 种植物共 26 类病害叶片。 该数据集中 有38 个类别的样本图像。
本数据集中的图片就是Plant Village过去在网站上公开但是目前不开放下载。
“PlantVillage-Disease-Dataset-v2″包括两个子数据集
- Without Augmentation: 仅包含原始数据,适用于标准模型训练。
- With Augmentation: 包含了经过增强的图像,能更好地提升模型的泛化能力。
- Without Augmentation (无数据增强)
- 特征: 此版本的原始图像数据集没有经过任何数据增强处理,直接来自采集的样本。它包括了不同种类植物叶子的图片,其中一些可能包含疾病,另一些是健康叶片。
- 用途: 适用于基本的图像分类任务,用来训练和测试模型的性能,但可能存在数据不平衡(例如,某些类别的样本比其他类别少)。
- 优点: 能够直接反映原始数据集的真实分布。
- With Augmentation (有数据增强)
- 特征: 该版本通过数据增强技术扩展了原始数据集。数据增强通常包括图像旋转、缩放、翻转、平移、颜色调整等技术,以产生更多的图像变体。这些变体在保持原始类别标签不变的情况下,增加了训练数据的多样性。
- 用途: 增强后的数据集能够帮助模型应对数据不平衡问题,增加模型对图像噪声或变形的鲁棒性(比如在现实环境中看到的角度或光照不同的叶子)。
- 优点: 增加了模型的泛化能力,能够帮助避免过拟合。
选择哪个数据集取决于你的具体任务需求和模型的目标。如果你的数据较少或类别不平衡,增强的数据集可能会带来更好的结果。
该数据集中 有38 个类别的样本图像,分别存储在38个文件目录中。以下表格为:文件目录名和对应的图片个数:
label | count |
---|---|
Orange__Haunglongbing(Citrus_greening) | 5507 |
Tomato___Tomato_Yellow_Leaf_Curl_Virus | 5357 |
Soybean___healthy | 5090 |
Peach___Bacterial_spot | 2297 |
Tomato___Bacterial_spot | 2127 |
Tomato___Late_blight | 1909 |
Squash___Powdery_mildew | 1835 |
Tomato___Septoria_leaf_spot | 1771 |
Tomato___Spider_mites Two-spotted_spider_mite | 1676 |
Apple___healthy | 1645 |
Tomato___healthy | 1591 |
Blueberry___healthy | 1502 |
Pepper,_bell___healthy | 1478 |
Tomato___Target_Spot | 1404 |
Grape__Esca(Black_Measles) | 1383 |
Corn(maize)___Common_rust | 1192 |
Grape___Black_rot | 1180 |
Corn_(maize)___healthy | 1162 |
Strawberry___Leaf_scorch | 1109 |
Grape__Leaf_blight(Isariopsis_Leaf_Spot) | 1076 |
Cherry_(including_sour)___Powdery_mildew | 1052 |
Potato___Late_blight | 1000 |
Tomato___Early_blight | 1000 |
Potato___Early_blight | 1000 |
Pepper,_bell___Bacterial_spot | 997 |
Corn_(maize)___Northern_Leaf_Blight | 985 |
Tomato___Leaf_Mold | 952 |
Cherry_(including_sour)___healthy | 854 |
Apple___Apple_scab | 630 |
Apple___Black_rot | 621 |
Corn_(maize)___Cercospora_leaf_spot Gray_leaf_spot | 513 |
Strawberry___healthy | 456 |
Grape___healthy | 423 |
Tomato___Tomato_mosaic_virus | 373 |
Raspberry___healthy | 371 |
Peach___healthy | 360 |
Apple___Cedar_apple_rust | 275 |
Potato___healthy | 152 |
区分健康和有害的叶子,通常通过文件目录的命名和类别标签来实现。目录名称中通常包含关键词“Healthy”表示健康的叶子,其他名称则表示不同的疾病。
每个目录名称通常包含以下信息:
- 植物种类:如番茄、马铃薯、苹果等。
- 疾病名称 或 “healthy” 表示健康。
例如:
Tomato_Healthy
: 表示健康的番茄叶子。Tomato_Late_blight
: 表示患有晚疫病的番茄叶子。Apple_Black_rot
: 表示患有黑腐病的苹果叶子。
数据集版权许可协议
Deed – Attribution-NonCommercial-ShareAlike 4.0 International – Creative Commons
数据集引用要求
@article{DBLP:journals/corr/HughesS15,
author = {David P. Hughes and
Marcel Salath{\'{e} } },
title = {An open access repository of images on plant health to enable the
development of mobile disease diagnostics through machine
learning and crowdsourcing},
journal = {CoRR},
volume = {abs/1511.08060},
year = {2015},
url = {http://arxiv.org/abs/1511.08060},
archivePrefix = {arXiv},
eprint = {1511.08060},
timestamp = {Mon, 13 Aug 2018 16:48:21 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/HughesS15},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
三、识别样例
参考文章《PlantVillage植物病害图像数据集v3(2015)和识别样例》。
四、获取案例套装
文件包大小:1.6 GB