小麦种子数据集和分类样例

一、问题描述

小麦种子数据集(Wheat Seeds Dataset)是一个经典的机器学习数据集,用于分类任务。该数据集由英国农业研究委员会植物育种研究所在20世纪80年代收集,并由K. D. Hill和J. Skerritt在1986年发表。数据集包含了7个特征,用于区分三种不同的小麦品种。该数据集包含属于三种不同小麦品种的种子信息:Kama、Rosa 和 Canadian。它是一个均衡的数据集,每个类别有 70 个实例。种子内部内核结构的测量值是使用软 X 射线技术检测的。

二、数据集内容

为了构建数据,测量了小麦籽粒的七个几何参数:

面积(Area):种子横截面的面积(单位:平方像素)。
周长(Perimeter):种子横截面的周长(单位:像素)。
紧凑度(Compactness):面积与周长的比值。
长度(Kernel Length):种子核心的长度(单位:像素)。
宽度(Kernel Width):种子核心的宽度(单位:像素)。
不对称系数(Asymmetry Coefficient):种子核心的不对称性。
沟槽长度(Groove Length):种子核心的沟槽长度(单位:像素)。

对小麦籽粒的分类:

Type: 分类1-Kama、2-Rosa 和 3-Canadian

数据样例:

AreaPerimeterCompactnessKernel.LengthKernel.WidthAsymmetry.CoeffKernel.GrooveType
15.2614.840.8715.7633.3122.2215.221
14.8814.570.88115.5543.3331.0184.9561
14.2914.090.9055.2913.3372.6994.8251
13.8413.940.89555.3243.3792.2594.8051
16.1414.990.90345.6583.5621.3555.1751
14.3814.210.89515.3863.3122.4624.9561
14.6914.490.87995.5633.2593.5865.2191
16.6315.460.87476.0533.4652.045.8771
16.4415.250.8885.8843.5051.9695.5331
15.2614.850.86965.7143.2424.5435.3141
14.0314.160.87965.4383.2011.7175.0011

三、分类样例

以下是一个简单的Python示例,展示如何使用Pandas和Scikit-learn库加载数据集并进行分类:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
url = './seeds.csv'
data = pd.read_csv(url)

# 分离特征和标签
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练决策树分类器
classifier = DecisionTreeClassifier()
classifier.fit(X_train, y_train)

# 预测测试集
y_pred = classifier.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')

通过这个示例,您可以了解如何使用小麦种子数据集进行分类任务,并评估模型的性能。

四、获取案例套件

需要登录后才允许下载文件包。登录

发表评论