摘要:
合集:AI案例-NLP-传媒业
数据集:BBC2007新闻分类数据集
数据集价值:文本分类
一、问题描述
BBC News Dataset,这是一个用于文本分类任务的常见数据集,包含来自 BBC 新闻网站的文章。该数据集常用于文本分类任务的研究,特别是多类别文本分类。它是评估和比较不同机器学习算法在文本分类任务中的表现的标准数据集之一。也被广泛应用于自然语言处理(NLP)领域,特别是在情感分析、主题建模、文本挖掘等任务中。
二、数据集内容
该数据集来自 BBC 新闻。它由 2,225 篇文章组成,每篇文章都有标签。这个数据集的文章被标注为 5 个类别,分别是:科技(tech)、商业(business)、政治(politics)、娱乐(entertainment) 和 体育(sport)。这个数据集分类现对平均,每个类别中的文章数量都是差不多的。总的来说,它适用于各种 自然语言处理NLP的任务和实践。
数据结构
- BBC News Train.csv – 用于训练的 1490 个记录
- BBC News Test.csv – 用于训练的 736 个记录
- BBC News Sample Solution.csv – 新闻分类
字段定义
- ArticleId – 新闻编号
- Article – 新闻标题和内容
- Category – 新闻分类 (tech, business, sport, entertainment, politics)
数据样例
BBC News Train.csv
ArticleId | Text | Category |
---|---|---|
1833 | worldcom ex-boss launches defence lawyers defending former worldcom chief bernie ebbers against a battery of fraud charges have called a company whistleblower as their first witness. … | business |
1101 | bbc poll indicates economic gloom citizens in a majority of nations surveyed in a bbc world service poll believe the world economy is worsening. most respondents also said their national economy was getting worse. … | business |
1976 | lifestyle governs mobile choice faster better or funkier hardware alone is not going to help phone firms sell more handsets research suggests. … | tech |
引用要求
BBC新闻分类数据集来源于BBC新闻,提供用作机器学习研究的基准。这些数据集仅限于非商业和研究目的使用。如果您使用这些数据集,请引用出版物:
D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006.