新浪2005-2011年新闻标题分类数据集

摘要：

合集：AI案例-NLP-传媒业
数据集：新浪2005-2011年新闻标题分类数据集
数据集价值：文本分类

一、数据集内容

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

二、数据结构

为了使参赛者快速进入比赛核心阶段，我们已将训练集按照“标签ID+\t+标签+\t+原文标题”的格式抽取出来，参赛者可以直接根据新闻标题进行文本分类任务，希望参赛者能够给出自己的解决方案。

训练集格式标签ID+\t+标签+\t+原文标题测试集格式原文标题

提交结果格式说明： 1.每个类别的行数和测试集原始数据行数应一一对应，不可乱序

2.输出结果应检查是否为83599行数据，否则成绩无效

3.输出结果文件命名为result.txt，一行一个类别，样例如下：

···

游戏

财经

时政

股票

家居

评估标准公式： Accuracy = 分类正确数量 / 需要分类总数量

三、数据集使用许可协议

THUCTC面向国内外大学、研究所、企业以及个人研究者免费开放源。 https://creativecommons.org/publicdomain/zero/1.0/deed.zh

四、获取案例套件

需要登录后才允许下载文件包。登录

一、数据集内容

二、数据结构

三、数据集使用许可协议

四、获取案例套件

发表评论 取消回复

发表评论取消回复