摘要:
合集:AI案例-NLP-传媒业
数据集:Reuters-21578文本分类集合(1987)
数据集价值:文本分类
一、问题描述
路透社主题任务分类数据集(Reuters Topic Classification Dataset)是一个广泛用于自然语言处理和文本分类任务的数据集。该数据集由路透社新闻文章组成,每篇文章都被标注为一个或多个主题类别。这是 1987 年出现在路透社新闻通讯中的文档集合。这些文档被汇编并按类别编制索引。
应用场景
- 文本分类:用于训练和评估文本分类模型。
- 主题识别:用于识别新闻文章的主题。
- 信息检索:用于改进信息检索系统的性能。
示例应用
- 情感分析:虽然主要用途是主题分类,但也可以用于情感分析等其他任务。
- 跨语言应用:有时会被翻译成其他语言,以支持多语言文本分类研究。
相关研究
该数据集已被广泛应用于各种自然语言处理研究,包括但不限于:
- 主题建模
- 文本聚类
- 分类算法性能评估
总之,Reuters主题任务分类数据集是一个非常有价值的资源,适用于研究和开发各种文本分析和处理技术。
二、数据集内容
ApteMod 版本是从路透社财经新闻服务收集的 10,788 篇文档,分为一个包含 7,769 篇文档的训练集和一个包含 3,019 篇文档的测试集。语料库的总大小约为 43MB。
ApteMod 语料库中的类别分布高度偏斜,最常见类别中的文档占 36.7%,而五个最不常见类别中每个类别仅有 0.0185%(2 篇文档)。实际上,原始数据源更加偏斜——在创建语料库时,任何在训练集中和测试集中都不包含至少一篇文档的类别都被其原始创建者从语料库中移除。
在 ApteMod 语料库中,每篇文档属于一个或多个类别。语料库中有 90 个类别。每篇文档的平均类别数为 1.235,每个类别的平均文档数约为 148 篇,或占语料库的 1.37%。
数据集特点
- 文章数量:包含数千篇新闻文章。
- 类别数量:通常有多个主题类别,具体数量可能因版本而异。
- 标注方式:每篇文章被标注为一个或多个主题类别。
数据集结构
- 文档:每篇文档是一篇新闻文章。
- 标签:每个文档被分配到一个或多个预定义的主题类别。格式为:<集合/文档编号 类别标签>。
文档标签映射数据样例:cats.txt
test/14826 trade
test/14828 grain
test/14829 nat-gas crude
test/14832 rubber tin sugar corn rice grain trade
test/14833 palm-oil veg-oil
test/14839 ship
test/14840 rubber coffee lumber palm-oil veg-oil
test/14841 wheat grain
test/14842 gold
test/14843 acq
test/14844 tin
test/14849 interest money-fx
test/14852 copper acq
test/14854 ipi
test/14858 soybean oilseed corn grain carcass livestock rice trade
test/14859 earn
test/14860 earn
...
train目录:
包含 7,769 篇文档的训练集。
test目录:
一个包含 3,019 篇文档的测试集。
引用要求
路透社-21578 集合中新闻文章文本和路透社注释的版权归路透社有限公司所有。路透社有限公司和卡内基集团已同意允许仅出于研究目的免费分发此数据。如果您基于此数据集发布结果,请承认其使用,以“路透社-21578,发行版 1.0”的名称引用数据集,并告知您的读者数据集的当前位置。