自然语言处理之文本分类案例套装

文本分类任务(Text Classification Task)是指通过算法将文本数据划分到预定义的类别或标签中,是NLP中最基础且应用最广泛的问题之一。

1、医疗案例

编号标题AI问题数据集解决方案文件
1好大夫2022在线的真实问诊数据集和简单分诊挑战赛文本分类利用好大夫在线的真实问诊数据,包括22,800条训练数据和7,600条测试数据,优化医疗资源配置,找到合适的方向,进行分级诊疗。chinese-roberta-wwm-ext模型AiS-NLP-Medicine-iFLYTEK2022-Diseases-Simple-Triage-5MB
2Myers-Briggs2017性格数据集和SpaCy文本分类文本分类利用Myers-Briggs2017性格数据集,支持人类性格分析,帮助人们更好地了解自己和他人,促进个人成长和团队合作。SpaCy文本分类AiS-NLP-Human-MyersBriggs2017-Personality-25MB

2、科大讯飞竞赛活动案例

编号标题AI问题数据集解决方案文件包
1科大讯飞2021中文问题相似度挑战赛暨词向量模型构建语义相似度识别数据集为约5千条问题对和标签。若两个问题是相同的问题,标签为1,否则为0。利用该数据集构建词向量模型。使用gensim构建词向量模型AiS-NLP-Media-iFLYTEK2021-Chinese-Problem-Similarity-12MB
2科大讯飞2021学术论文分类挑战赛暨SGDClassifier分类器构建文本分类5万篇论文训练集,每篇论文都包含论文id、标题、摘要和类别四个字段。基于该数据集构建论文分类模型。SGDClassifier分类器AiS-NLP-Media-iFLYTEK2021-Academic-Papers-Classification-24MB
3科大讯飞2022基于论文摘要的文本分类与查询性问答文本分类基于包括标题、作者、引用、摘要、DOI、Topic(Label)属性信息的论文数据集,支持论文分类。使用TF-IDF评估一个词语在文档集合或语料库中的重要性、构建bert-base-uncased模型AiS-NLP-iFLYTEK2022-bert-base-uncased-Text-Classification-On-Abstracts-40MB
4科大讯飞2022疫情微博情绪识别挑战赛文本分类基于正向情绪和负面情绪的微博文本进行微博情绪识别TF-IDF&BERT-base-Chinese模型AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Weibo-Emotion-Recognition-12MB
5科大讯飞2022汽车领域多语种迁移学习挑战赛文本分类AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB/科大讯飞智能汽车BU提供车内人机交互中文、中英、中日语料数据集。通过NLP相关人工智能算法来实现汽车领域多语种迁移学习,进行意图分类及关键信息抽取。TF-IDF&逻辑回归模型AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB
6科大讯飞2023-ChatGPT生成文本检测器文本分类数据集为中文作文样本,其中从互联网上采集得到了真实作文,并且使用ChatGLM-6B生成了部分作文。构建一个文本分类模型,以区分真实对话和由ChatGPT生成的对话文本。TF-IDF&逻辑回归模型AiS-NLP-iFLYTEK2023-ChatGPT-Generate-Text-Detector-24MB
7科大讯飞2022 中文对话文本匹配挑战赛语义相似度识别基于对话文本语义匹配数据集,根据问题识别出正确的待匹配文本,给定两个问题,判定该问题对语义是否匹配。bert-base-chinese模型AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Chinese-Dialogue-Text-Matching-2MB
8科大讯飞2022-机器翻译质量评估挑战赛语义相似度识别挖掘中英人工翻译及评分数据价值,采用合适的算法评估机器翻译质量。使用Qwen1.5-1.8B-Chat大型语言模型进行文本生成和翻译。使用bge-small-zh-v1.5模型计算文本相似度。AiS-NLP-Meida-iFLYTEK2022-Translation-Quality-2MB

3、其他竞赛活动案例

编号标题AI问题数据集解决方案文件包
1人民网2022赛题2-话题识别文本分类利用包括微博文本数据及对应的话题标签的数据集,支持微博话题识别。PaddleNLP框架、基于模型ERNIE3进行微博话题分类训练。AiS-NLP-Media-PeopleNet2022-2-Topic-Recognition-5MB
2CCF-BDCI-2021-爱奇艺剧本角色情感识别文本分类爱奇艺标注团队针对部分电影剧本的情感标注数据集,包括42,790条训练数据和21,376条测试数据。预测剧本角色情感。支持BERT模型Transformers开发库、chinese-roberta-wwm-ext等5种模型AiS-NLP-Media-CCF-BDCI-2021-iQiyi-Script-Character-Emotion-Recognition-12MB
3AiWin2023市场研究分析报告类型识别文本分类10种类型的市场研究分析报告,报告总数为3,122个。支持市场研究分析报告类型识别。chinese-roberta-wwm-ext模型、transformers开发框架AiS-NLP-Media-AIWIN2023-Identification-Of-Research-Report-Types-6MB
4HW-DIGIX-2021-赛题2-文章质量PU-BERT联合预测文本分类包括576,454条训练文章数据和45,285条测试数据。是一种正样本(P)和未标记样本(U)的PU数据集。PU-BERT联合预测,PU学习高效处理未标记数据问题,bert-base-chinese模型提供强大的语义理解能力。transformers开发框架。AiS-NLP-Media-HW-DIGIX2021-2-Article_Quality_Discrimination-820MB

4、金融类案例

编号标题AI问题数据集解决方案文件
1AiWin2021海通证券企业互联网舆情风险识别文本分类已标注的企业舆情信息数据约1万余条,内容包含新闻标题、正文、及对应标签等。基于企业舆情信息来挖掘潜在风险事件基于bert-base-chinese模型进行文本分类。AiS-NLP-Fin-AIWIN2021-Enterprice-Public-Opinion-Risk-16MB

5、经典案例

编号标题AI问题数据集解决方案文件包
1Standford2011电影评论数据集ACLIMDB应用于情感分类支持电影评论的情感分类AiS-NLP-Media-DataSet-Standford-Movie-Review-ACLIMDB-2011-80MB
2新浪网2005-2011年新闻分类数据集和工具包文本分类AiS-NLP-Meida-DataSet-THUCNews-Sina-2005-2011-1.6GB
3新浪2005-2011年新闻标题分类数据集文本分类AiS-NLP-Media-DataSet-THUCNews-Sina-Title-2005-2011-190MB
4北京大学2005中文分词数据集icwb2-pku中文分词AiS-NLP-Media-DataSet-icwb2-pku-2005-4MB
5Miranda2011垃圾短信分类数据集垃圾短信分类AiS-NLP-Media-DataSet-Spam-SMS-Miranda-2017-1MB
6中文数据集:维基百科、新闻、百科、社区问答训练中文数据AiS-NPL-Media-Chinese-DataSet-Wiki-10GB
7Twitter2009情感分析数据集Sentiment140文本情感分类AiS-NLP-Media-DataSet-Twitter-Sentiment140-2009-84MB
8BBC2007新闻分类数据集文本分类AiS-NLP-Media-DataSet-BBC-News-Classification-2007-2MB
9Reuters-21578文本分类集合1987文本分类AiS-NLP-Media-DataSet-Reuters-21578-Text-Categorization-1987-8MB
10Lifferth2017虚假新闻数据集识别虚假新闻AiS-NLP-Media-DataSet-Fake-News-William-Lifferth-2017-48MB
11京东2019商品评论数据集和中文情感分析文本分类特征提取工程AiS-NLP-TextClass-DataSet-Jingdong-Comments-2019-2MB
12Amazon1996-2023美肤类商品评论数据集文本分类AiS-NLP-TextClass-DataSet-Amazon-Review-1996-2023-132MB

发表评论