摘要:
合集:AI案例-NLP-传媒业
数据集:Lifferth2017虚假新闻数据集
数据集价值:识别虚假新闻
一、问题描述
我们生活在一个狂野的时代。假新闻、深度造假和其他类型的欺骗技术都成了我们日常生活的一部分,无论我们喜欢与否。虚假新闻数据集(Fake News Dataset) 是一个由 William Lifferth 等人于2017年发布的数据集,旨在用于研究和训练虚假新闻检测模型。这个数据集包含了大量标注为“真实”或“虚假”的新闻文章,提供了对虚假新闻进行分类和分析的机会。虚假新闻数据集对于推动虚假新闻检测技术的发展起到了积极的作用,尤其是在社交媒体和新闻平台中,虚假信息传播的问题越来越严重的背景下。这个虚假新闻数据集提供了另一个非常适合练习的自然语言处理/NLP任务。它包含标记过的真实和虚假新闻,以及它们的文本和作者。这是一个适合 NLP 文本分类的数据集。
二、数据集内容
该数据集包含了新闻文章的标题、内容以及它们是否属于“虚假”新闻的标签。文章被分为“真实”与“虚假”两类。
数据结构
train.csv:完整的训练数据集,包含以下属性:
id:新闻文章的唯一标识符
title:新闻文章的标题
author:新闻文章的作者
text:文章的文本;可能不完整
label:标记文章为可能不可靠的分类标注
1:不可靠
0:可靠
test.csv:测试数据集,包含与train.csv相同的属性,但没有分类标注。
引用要求
@misc{fake-news, author = {William Lifferth}, title = {Fake News}, publisher = {Kaggle}, year = {2018}, url = {https://kaggle.com/competitions/fake-news} }