文本分类任务(Text Classification Task)是指通过算法将文本数据划分到预定义的类别或标签中,是NLP中最基础且应用最广泛的问题之一。
1、医疗案例
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件 |
|---|
| 1 | 好大夫2022在线的真实问诊数据集和简单分诊挑战赛 | 文本分类 | 利用好大夫在线的真实问诊数据,包括22,800条训练数据和7,600条测试数据,优化医疗资源配置,找到合适的方向,进行分级诊疗。 | chinese-roberta-wwm-ext模型 | AiS-NLP-Medicine-iFLYTEK2022-Diseases-Simple-Triage-5MB |
| 2 | Myers-Briggs2017性格数据集和SpaCy文本分类 | 文本分类 | 利用Myers-Briggs2017性格数据集,支持人类性格分析,帮助人们更好地了解自己和他人,促进个人成长和团队合作。 | SpaCy文本分类 | AiS-NLP-Human-MyersBriggs2017-Personality-25MB |
2、科大讯飞竞赛活动案例
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件包 |
|---|
| 1 | 科大讯飞2021中文问题相似度挑战赛暨词向量模型构建 | 语义相似度识别 | 数据集为约5千条问题对和标签。若两个问题是相同的问题,标签为1,否则为0。利用该数据集构建词向量模型。 | 使用gensim构建词向量模型 | AiS-NLP-Media-iFLYTEK2021-Chinese-Problem-Similarity-12MB |
| 2 | 科大讯飞2021学术论文分类挑战赛暨SGDClassifier分类器构建 | 文本分类 | 5万篇论文训练集,每篇论文都包含论文id、标题、摘要和类别四个字段。基于该数据集构建论文分类模型。 | SGDClassifier分类器 | AiS-NLP-Media-iFLYTEK2021-Academic-Papers-Classification-24MB |
| 3 | 科大讯飞2022基于论文摘要的文本分类与查询性问答 | 文本分类 | 基于包括标题、作者、引用、摘要、DOI、Topic(Label)属性信息的论文数据集,支持论文分类。 | 使用TF-IDF评估一个词语在文档集合或语料库中的重要性、构建bert-base-uncased模型 | AiS-NLP-iFLYTEK2022-bert-base-uncased-Text-Classification-On-Abstracts-40MB |
| 4 | 科大讯飞2022疫情微博情绪识别挑战赛 | 文本分类 | 基于正向情绪和负面情绪的微博文本进行微博情绪识别 | TF-IDF&BERT-base-Chinese模型 | AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Weibo-Emotion-Recognition-12MB |
| 5 | 科大讯飞2022汽车领域多语种迁移学习挑战赛 | 文本分类 | AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB/科大讯飞智能汽车BU提供车内人机交互中文、中英、中日语料数据集。通过NLP相关人工智能算法来实现汽车领域多语种迁移学习,进行意图分类及关键信息抽取。 | TF-IDF&逻辑回归模型 | AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB |
| 6 | 科大讯飞2023-ChatGPT生成文本检测器 | 文本分类 | 数据集为中文作文样本,其中从互联网上采集得到了真实作文,并且使用ChatGLM-6B生成了部分作文。构建一个文本分类模型,以区分真实对话和由ChatGPT生成的对话文本。 | TF-IDF&逻辑回归模型 | AiS-NLP-iFLYTEK2023-ChatGPT-Generate-Text-Detector-24MB |
| 7 | 科大讯飞2022 中文对话文本匹配挑战赛 | 语义相似度识别 | 基于对话文本语义匹配数据集,根据问题识别出正确的待匹配文本,给定两个问题,判定该问题对语义是否匹配。 | bert-base-chinese模型 | AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Chinese-Dialogue-Text-Matching-2MB |
| 8 | 科大讯飞2022-机器翻译质量评估挑战赛 | 语义相似度识别 | 挖掘中英人工翻译及评分数据价值,采用合适的算法评估机器翻译质量。 | 使用Qwen1.5-1.8B-Chat大型语言模型进行文本生成和翻译。使用bge-small-zh-v1.5模型计算文本相似度。 | AiS-NLP-Meida-iFLYTEK2022-Translation-Quality-2MB |
3、其他竞赛活动案例
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件包 |
|---|
| 1 | 人民网2022赛题2-话题识别 | 文本分类 | 利用包括微博文本数据及对应的话题标签的数据集,支持微博话题识别。 | PaddleNLP框架、基于模型ERNIE3进行微博话题分类训练。 | AiS-NLP-Media-PeopleNet2022-2-Topic-Recognition-5MB |
| 2 | CCF-BDCI-2021-爱奇艺剧本角色情感识别 | 文本分类 | 爱奇艺标注团队针对部分电影剧本的情感标注数据集,包括42,790条训练数据和21,376条测试数据。预测剧本角色情感。 | 支持BERT模型Transformers开发库、chinese-roberta-wwm-ext等5种模型 | AiS-NLP-Media-CCF-BDCI-2021-iQiyi-Script-Character-Emotion-Recognition-12MB |
| 3 | AiWin2023市场研究分析报告类型识别 | 文本分类 | 10种类型的市场研究分析报告,报告总数为3,122个。支持市场研究分析报告类型识别。 | chinese-roberta-wwm-ext模型、transformers开发框架 | AiS-NLP-Media-AIWIN2023-Identification-Of-Research-Report-Types-6MB |
| 4 | HW-DIGIX-2021-赛题2-文章质量PU-BERT联合预测 | 文本分类 | 包括576,454条训练文章数据和45,285条测试数据。是一种正样本(P)和未标记样本(U)的PU数据集。 | PU-BERT联合预测,PU学习高效处理未标记数据问题,bert-base-chinese模型提供强大的语义理解能力。transformers开发框架。 | AiS-NLP-Media-HW-DIGIX2021-2-Article_Quality_Discrimination-820MB |
4、金融类案例
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件 |
|---|
| 1 | AiWin2021海通证券企业互联网舆情风险识别 | 文本分类 | 已标注的企业舆情信息数据约1万余条,内容包含新闻标题、正文、及对应标签等。基于企业舆情信息来挖掘潜在风险事件 | 基于bert-base-chinese模型进行文本分类。 | AiS-NLP-Fin-AIWIN2021-Enterprice-Public-Opinion-Risk-16MB |
5、经典案例