自然语言处理之文本分类案例套装

2025-11-222025-04-16 作者天牛

文本分类任务（Text Classification Task）是指通过算法将文本数据划分到预定义的类别或标签中，是NLP中最基础且应用最广泛的问题之一。

1、医疗案例

编号	标题	AI问题	数据集	解决方案	文件
1	好大夫2022在线的真实问诊数据集和简单分诊挑战赛	文本分类	利用好大夫在线的真实问诊数据，包括22,800条训练数据和7,600条测试数据，优化医疗资源配置，找到合适的方向，进行分级诊疗。	chinese-roberta-wwm-ext模型	AiS-NLP-Medicine-iFLYTEK2022-Diseases-Simple-Triage-5MB
2	Myers-Briggs2017性格数据集和SpaCy文本分类	文本分类	利用Myers-Briggs2017性格数据集，支持人类性格分析，帮助人们更好地了解自己和他人，促进个人成长和团队合作。	SpaCy文本分类	AiS-NLP-Human-MyersBriggs2017-Personality-25MB

2、科大讯飞竞赛活动案例

编号	标题	AI问题	数据集	解决方案	文件包
1	科大讯飞2021中文问题相似度挑战赛暨词向量模型构建	语义相似度识别	数据集为约5千条问题对和标签。若两个问题是相同的问题，标签为1，否则为0。利用该数据集构建词向量模型。	使用gensim构建词向量模型	AiS-NLP-Media-iFLYTEK2021-Chinese-Problem-Similarity-12MB
2	科大讯飞2021学术论文分类挑战赛暨SGDClassifier分类器构建	文本分类	5万篇论文训练集，每篇论文都包含论文id、标题、摘要和类别四个字段。基于该数据集构建论文分类模型。	SGDClassifier分类器	AiS-NLP-Media-iFLYTEK2021-Academic-Papers-Classification-24MB
3	科大讯飞2022基于论文摘要的文本分类与查询性问答	文本分类	基于包括标题、作者、引用、摘要、DOI、Topic(Label)属性信息的论文数据集，支持论文分类。	使用TF-IDF评估一个词语在文档集合或语料库中的重要性、构建bert-base-uncased模型	AiS-NLP-iFLYTEK2022-bert-base-uncased-Text-Classification-On-Abstracts-40MB
4	科大讯飞2022疫情微博情绪识别挑战赛	文本分类	基于正向情绪和负面情绪的微博文本进行微博情绪识别	TF-IDF&BERT-base-Chinese模型	AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Weibo-Emotion-Recognition-12MB
5	科大讯飞2022汽车领域多语种迁移学习挑战赛	文本分类	AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB/科大讯飞智能汽车BU提供车内人机交互中文、中英、中日语料数据集。通过NLP相关人工智能算法来实现汽车领域多语种迁移学习，进行意图分类及关键信息抽取。	TF-IDF&逻辑回归模型	AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB
6	科大讯飞2023-ChatGPT生成文本检测器	文本分类	数据集为中文作文样本，其中从互联网上采集得到了真实作文，并且使用ChatGLM-6B生成了部分作文。构建一个文本分类模型，以区分真实对话和由ChatGPT生成的对话文本。	TF-IDF&逻辑回归模型	AiS-NLP-iFLYTEK2023-ChatGPT-Generate-Text-Detector-24MB
7	科大讯飞2022 中文对话文本匹配挑战赛	语义相似度识别	基于对话文本语义匹配数据集，根据问题识别出正确的待匹配文本，给定两个问题，判定该问题对语义是否匹配。	bert-base-chinese模型	AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Chinese-Dialogue-Text-Matching-2MB
8	科大讯飞2022-机器翻译质量评估挑战赛	语义相似度识别	挖掘中英人工翻译及评分数据价值，采用合适的算法评估机器翻译质量。	使用Qwen1.5-1.8B-Chat大型语言模型进行文本生成和翻译。使用bge-small-zh-v1.5模型计算文本相似度。	AiS-NLP-Meida-iFLYTEK2022-Translation-Quality-2MB

3、其他竞赛活动案例

编号	标题	AI问题	数据集	解决方案	文件包
1	人民网2022赛题2-话题识别	文本分类	利用包括微博文本数据及对应的话题标签的数据集，支持微博话题识别。	PaddleNLP框架、基于模型ERNIE3进行微博话题分类训练。	AiS-NLP-Media-PeopleNet2022-2-Topic-Recognition-5MB
2	CCF-BDCI-2021-爱奇艺剧本角色情感识别	文本分类	爱奇艺标注团队针对部分电影剧本的情感标注数据集，包括42,790条训练数据和21,376条测试数据。预测剧本角色情感。	支持BERT模型Transformers开发库、chinese-roberta-wwm-ext等5种模型	AiS-NLP-Media-CCF-BDCI-2021-iQiyi-Script-Character-Emotion-Recognition-12MB
3	AiWin2023市场研究分析报告类型识别	文本分类	10种类型的市场研究分析报告，报告总数为3,122个。支持市场研究分析报告类型识别。	chinese-roberta-wwm-ext模型、transformers开发框架	AiS-NLP-Media-AIWIN2023-Identification-Of-Research-Report-Types-6MB
4	HW-DIGIX-2021-赛题2-文章质量PU-BERT联合预测	文本分类	包括576,454条训练文章数据和45,285条测试数据。是一种正样本（P）和未标记样本（U）的PU数据集。	PU-BERT联合预测，PU学习高效处理未标记数据问题，bert-base-chinese模型提供强大的语义理解能力。transformers开发框架。	AiS-NLP-Media-HW-DIGIX2021-2-Article_Quality_Discrimination-820MB

4、金融类案例

编号	标题	AI问题	数据集	解决方案	文件
1	AiWin2021海通证券企业互联网舆情风险识别	文本分类	已标注的企业舆情信息数据约1万余条，内容包含新闻标题、正文、及对应标签等。基于企业舆情信息来挖掘潜在风险事件	基于bert-base-chinese模型进行文本分类。	AiS-NLP-Fin-AIWIN2021-Enterprice-Public-Opinion-Risk-16MB

5、经典案例

编号	标题	AI问题	数据集	解决方案	文件包
1	Standford2011电影评论数据集ACLIMDB应用于情感分类		支持电影评论的情感分类	—	AiS-NLP-Media-DataSet-Standford-Movie-Review-ACLIMDB-2011-80MB
2	新浪网2005-2011年新闻分类数据集和工具包	文本分类		—	AiS-NLP-Meida-DataSet-THUCNews-Sina-2005-2011-1.6GB
3	新浪2005-2011年新闻标题分类数据集	文本分类		—	AiS-NLP-Media-DataSet-THUCNews-Sina-Title-2005-2011-190MB
4	北京大学2005中文分词数据集icwb2-pku	中文分词		—	AiS-NLP-Media-DataSet-icwb2-pku-2005-4MB
5	Miranda2011垃圾短信分类数据集	垃圾短信分类		—	AiS-NLP-Media-DataSet-Spam-SMS-Miranda-2017-1MB
6	中文数据集：维基百科、新闻、百科、社区问答		训练中文数据	—	AiS-NPL-Media-Chinese-DataSet-Wiki-10GB
7	Twitter2009情感分析数据集Sentiment140	文本情感分类		—	AiS-NLP-Media-DataSet-Twitter-Sentiment140-2009-84MB
8	BBC2007新闻分类数据集	文本分类		—	AiS-NLP-Media-DataSet-BBC-News-Classification-2007-2MB
9	Reuters-21578文本分类集合1987	文本分类		—	AiS-NLP-Media-DataSet-Reuters-21578-Text-Categorization-1987-8MB
10	Lifferth2017虚假新闻数据集	识别虚假新闻		—	AiS-NLP-Media-DataSet-Fake-News-William-Lifferth-2017-48MB
11	京东2019商品评论数据集和中文情感分析	文本分类		特征提取工程	AiS-NLP-TextClass-DataSet-Jingdong-Comments-2019-2MB
12	Amazon1996-2023美肤类商品评论数据集	文本分类		—	AiS-NLP-TextClass-DataSet-Amazon-Review-1996-2023-132MB

发表评论取消回复

要发表评论，您必须先登录。