Miranda2011垃圾短信分类数据集

摘要:

合集:AI案例-NLP-传媒业
数据集:Miranda2011垃圾短信分类数据集
数据集价值:垃圾短信分类

一、问题描述

垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于 NLP 和文本分类工作。所以,如果你想练习解决这类问题,Spam SMS 数据集是一个不错的选择。它在实践中用得非常多,非常适合初学者。

二、数据集内容

SMS Spam Collection Dataset:这是一个广为人知的垃圾短信分类数据集,由Enrique Miranda和其他研究人员在2011年左右创建并分享。

该垃圾短信分类数据集最棒的一点是,它是从互联网的多个来源构建的。例如,它从 Grumbletext 网站上提取了 425 条垃圾短信,从新加坡国立大学的 NUS SMS Corpus(NSC)随机选择了 3,375 条短信,还有 450 条短信来自 Caroline Tag 的博士论文等。数据集本身由两列组成:标签(ham/正常短信 或 spam/垃圾短信)和原始文本。

数据样例

spam.csv

v1v2
hamGo until jurong point, crazy.. Available only in bugis n great world la e buffet… Cine there got amore wat…
hamOk lar… Joking wif u oni…
spamFree entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C’s apply 08452810075over18’s
hamU dun say so early hor… U c already then say…

三、获取案例套件

需要登录后才允许下载文件包。登录

发表评论