摘要:
合集:AI案例-NLP-传媒业
数据集:Miranda2011垃圾短信分类数据集
数据集价值:垃圾短信分类
一、问题描述
垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于 NLP 和文本分类工作。所以,如果你想练习解决这类问题,Spam SMS 数据集是一个不错的选择。它在实践中用得非常多,非常适合初学者。
二、数据集内容
SMS Spam Collection Dataset:这是一个广为人知的垃圾短信分类数据集,由Enrique Miranda和其他研究人员在2011年左右创建并分享。
该垃圾短信分类数据集最棒的一点是,它是从互联网的多个来源构建的。例如,它从 Grumbletext 网站上提取了 425 条垃圾短信,从新加坡国立大学的 NUS SMS Corpus(NSC)随机选择了 3,375 条短信,还有 450 条短信来自 Caroline Tag 的博士论文等。数据集本身由两列组成:标签(ham/正常短信 或 spam/垃圾短信)和原始文本。
数据样例
spam.csv
v1 | v2 |
---|---|
ham | Go until jurong point, crazy.. Available only in bugis n great world la e buffet… Cine there got amore wat… |
ham | Ok lar… Joking wif u oni… |
spam | Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C’s apply 08452810075over18’s |
ham | U dun say so early hor… U c already then say… |