Miranda2011垃圾短信分类数据集 – 甲壳虫AI案例和论文

摘要：

合集：AI案例-NLP-传媒业
数据集：Miranda2011垃圾短信分类数据集
数据集价值：垃圾短信分类

一、问题描述

垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于 NLP 和文本分类工作。所以，如果你想练习解决这类问题，Spam SMS 数据集是一个不错的选择。它在实践中用得非常多，非常适合初学者。

二、数据集内容

SMS Spam Collection Dataset：这是一个广为人知的垃圾短信分类数据集，由Enrique Miranda和其他研究人员在2011年左右创建并分享。

该垃圾短信分类数据集最棒的一点是，它是从互联网的多个来源构建的。例如，它从 Grumbletext 网站上提取了 425 条垃圾短信，从新加坡国立大学的 NUS SMS Corpus（NSC）随机选择了 3,375 条短信，还有 450 条短信来自 Caroline Tag 的博士论文等。数据集本身由两列组成：标签（ham/正常短信或 spam/垃圾短信）和原始文本。

数据样例

spam.csv

v1	v2
ham	Go until jurong point, crazy.. Available only in bugis n great world la e buffet… Cine there got amore wat…
ham	Ok lar… Joking wif u oni…
spam	Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C’s apply 08452810075over18’s
ham	U dun say so early hor… U c already then say…

三、获取案例套件

需要登录后才允许下载文件包。登录

一、问题描述

二、数据集内容

数据样例

三、获取案例套件

发表评论 取消回复

发表评论取消回复