一、数据集
数据集是人工智能领域的核心,它为机器学习算法提供了必要的输入信息,并能验证测试输出的效果。
数据集又称为资料集、数据集合或资料集合,英文为dataset。数据集是一种由数据所组成的集合。
数据集可以是结构化的,如表格数据、数据库数据,也可以是非结构化的,如图像、文本、音频或视频。数据集的类型决定了它们在AI系统中的用途。
常见的数据集类型包括:训练集、验证集、测试集。这3种数据集有什么区别呢?为了先让大家有一个直观的感觉,这里用一个比喻来说明3种数据集之间的关系:
- 训练集就像上课需要学习的知识;
- 验证集就像课后做练习题,用来纠正和强化学到的知识,目的是要达到举一反三的学习效果;
- 测试集相当于结业考试,用来最终评估学习的效果。
1、训练集(Training Set)
用于构建和训练机器学习模型的数据集。
2、验证集(Validation Set)
在模型训练过程中,用于调整模型参数和防止过拟合/overfitting的数据集。过拟合指的是 AI 模型对有限的训练数据学习后,不能很好地推广到新的未知数据上。就是我们常说的“学太死”的问题。例如一个机器人学习了数万种斑点狗和小黄狗的样子,能够精准掌握两种小狗,但如果出现一只金色小狗,它就完全不知道那是什么了。也就是人工智能没有真正掌握区分事物的关键规则。当见到新的未知样本时,模型就无能为力了。验证集可以帮助我们了解模型在未见过的数据上的表现,并根据需要进行调整。
验证集有2个主要的作用:评估模型效果,为了调整超参数而服务调整超参数,使得模型在验证集上的效果最好。验证集不像训练集和测试集,它是非必需的。如果不需要调整超参数,就可以不使用验证集,直接用测试集来评估效果。验证集评估出来的效果并非模型的最终效果,主要是用来调整超参数的,模型最终效果以测试集的评估结果为准。
3、测试集(Test Set)
用于评估模型性能的数据集。在模型训练完成后,我们会使用测试集来评估某一模型在未见过的数据上的表现,以了解模型的泛化能力。通过测试集的评估,我们会得到一些最终的评估指标,例如:准确率、精确率、召回率、F1等。
的定义、计算方法以及各自的优缺点,可以更好地评估和优化机器学习模型的性能。在实际应用中,应根据具体任务选择合适的评估指标。