案例目录
1、腾讯广告算法大赛
编号 | 标题 | AI问题 | 数据集价值 | 解决方案 | 文件包 |
---|---|---|---|---|---|
1 | 腾讯2021广告算法大赛赛道2-多模态视频广告标签 | 多模态AI建模 | 以视频、音频、文本三个模态作为输入数据集,针对测试视频样本预测出视频在呈现形式、场景、风格等三个维度上的标签。 | 利用视频ViT-Large、图像EfficientNet、文本BERT等预训练模型,结合了视觉、音频和文本信息进行多模态视频处理AI建模。 | AiS-NLP-Retail-Tencent2021-Ad-Task2-Video-Tagging-4.63GB |
2 | 腾讯2020广告受众基础属性预估大赛 | 特征提取、语义相似度识别 | 基于腾讯广告用户在3个月的时间窗口内的广告点击历史记录,预估广告受众的基础属性。 | 广告历史曝光特征提取、词嵌入等建模技术 | AiS-NLP-Retail-Tencent2020-Ad-User-Property-Predict-870MB |
3 | 腾讯2019算法大赛-广告曝光预估-初赛 | 特征提取、语义相似度识别 | 基于腾讯广告对用户的历史曝光日志记录了用户与广告的交互行为(如曝光、点击、转化等),推断用户长期/短期兴趣,分析广告在不同场景下的表现,优化投放策略。 | 广告历史曝光特征提取、词嵌入等建模技术 | AiS-NLP-Retail-Tencent2019-Social-Advertising-Preliminary-3.8GB |
4 | 腾讯2018广告算法大赛-Lookalike相似人群拓展 | 特征提取、语义相似度识别 | 基于腾讯广告的相似社交用户数据集,通过用户画像客户分群,支持广告精准投放降低获客成本。 | 广告受众特征提取、LightGBM梯度提升框架 | AiS-NLP-Retail-Tencent2018-Ad-LookAlike-User-Explore-8GB |
2、科大讯飞AI开发者大赛
基于大语言模型的应用开发案例。
编号 | 标题 | AI问题 | 数据集价值 | 解决方案 | 文件包 |
---|---|---|---|---|---|
1 | 科大讯飞2021中文问题相似度挑战赛暨词向量模型构建 | 语义相似度识别 | 数据集为约5千条问题对和标签。若两个问题是相同的问题,标签为1,否则为0。利用该数据集构建词向量模型。 | 使用gensim构建词向量模型 | AiS-NLP-Media-iFLYTEK2021-Chinese-Problem-Similarity-12MB |
2 | 科大讯飞2021学术论文分类挑战赛暨SGDClassifier分类器构建 | 文本分类 | 5万篇论文训练集,每篇论文都包含论文id、标题、摘要和类别四个字段。基于该数据集构建论文分类模型。 | SGDClassifier分类器 | AiS-NLP-Media-iFLYTEK2021-Academic-Papers-Classification-24MB |
3 | 科大讯飞2022基于论文摘要的文本分类与查询性问答 | 文本分类 | 基于包括标题、作者、引用、摘要、DOI、Topic(Label)属性信息的论文数据集,支持论文分类。 | 使用TF-IDF评估一个词语在文档集合或语料库中的重要性、构建bert-base-uncased模型 | AiS-NLP-iFLYTEK2022-bert-base-uncased-Text-Classification-On-Abstracts-40MB |
4 | 科大讯飞2021中文成语填空挑战赛 | 文本生成 | 给定句子的上下文,完成合适的成语填入对应位置。 | chinese-xlnet-base模型 | AiS-NLP-Media-chinese-xlnet-base-iFLYTEK2021-Chinese-Idioms-Filling-28MB |
5 | 科大讯飞2022疫情微博情绪识别挑战赛 | 文本分类 | 基于正向情绪和负面情绪的微博文本进行微博情绪识别 | TF-IDF&BERT-base-Chinese模型 | AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Weibo-Emotion-Recognition-12MB |
6 | 科大讯飞2022汽车领域多语种迁移学习挑战赛 | 文本分类 | AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB/科大讯飞智能汽车BU提供车内人机交互中文、中英、中日语料数据集。通过NLP相关人工智能算法来实现汽车领域多语种迁移学习,进行意图分类及关键信息抽取。 | TF-IDF&逻辑回归模型 | AiS-NLP-iFLYTEK2022-Automotive-Multi-Language-Transfer-2MB |
7 | 科大讯飞2023-ChatGPT生成文本检测器 | 文本分类 | 数据集为中文作文样本,其中从互联网上采集得到了真实作文,并且使用ChatGLM-6B生成了部分作文。构建一个文本分类模型,以区分真实对话和由ChatGPT生成的对话文本。 | TF-IDF&逻辑回归模型 | AiS-NLP-iFLYTEK2023-ChatGPT-Generate-Text-Detector-24MB |
8 | 科大讯飞2022 中文对话文本匹配挑战赛 | 语义相似度识别 | 基于对话文本语义匹配数据集,根据问题识别出正确的待匹配文本,给定两个问题,判定该问题对语义是否匹配。 | bert-base-chinese模型 | AiS-NLP-Media-bert-base-chinese-iFLYTEK2022-Chinese-Dialogue-Text-Matching-2MB |
9 | 科大讯飞2022-机器翻译质量评估挑战赛 | 语义相似度识别 | 挖掘中英人工翻译及评分数据价值,采用合适的算法评估机器翻译质量。 | 使用Qwen1.5-1.8B-Chat大型语言模型进行文本生成和翻译。使用bge-small-zh-v1.5模型计算文本相似度。 | AiS-NLP-Meida-iFLYTEK2022-Translation-Quality-2MB |
3、其他竞赛活动
编号 | 标题 | AI问题 | 数据集价值 | 解决方案 | 文件包 |
---|---|---|---|---|---|
1 | 蚂蚁金服2024全球AI攻防挑战赛-赛道1-大模型生图安全疫苗注入 | 安全 | 通过为大模型注入生成式“风险疫苗”,透视大模型生图潜在弱点和漏洞,进一步增强、健全大模型生图的安全免疫抵抗系统。 | 基于Qwen1.5-4B-Chat模型,进行安全疫苗注入。 | AiS-NLP-Media-AntGroup2024-AI-Defense1-Safe-Vaccine-1MB |
2 | 人民网2022赛题1-训练一个对话生成模型 | 文本生成 | 训练一个对话生成模型 | 基于百度中文对话模型PLATO-Mini,根据给定的数据集,训练一个对话生成模型,基于文本内容自动生成自然流畅、信息丰富、符合话题场景的回复内容。 | AiS-NLP-Media-PeopleNet2022-1-Dialogue-Generation-13MB |
3 | 人民网2022赛题2-话题识别 | 文本分类 | 利用包括微博文本数据及对应的话题标签的数据集,支持微博话题识别。 | PaddleNLP框架、基于模型ERNIE3进行微博话题分类训练。 | AiS-NLP-Media-PeopleNet2022-2-Topic-Recognition-5MB |
4 | 人民网2022赛题3-微博流行度预测 | 回归预测问题 | 利用166万条微博传播数据集,预测微博的流行度包括评论数、转发数和点赞数。 | LightGBM算法支持多目标预测、特征工程。 | AiS-ML-Media-PeopleNet2022-3-Weibo-Popularity-Prediction-172MB |
5 | CCF-BDCI-2021-客服通话文本摘要提取 | 文本摘要提取 | 联通客服中心通话文本数据集,包括25,001条训练数据和7,526条测试数据。挖掘海量客服通话数据,采用合适的算法精准提取文本摘要。 | 文本摘要提取PEGASUS模型、PaddleNLP开发框架 | AiS-NLP-Media-CCF-BDCI-2021-Customer-Service-Text-Summary-60MB |
6 | CCF-BDCI-2021-爱奇艺剧本角色情感识别 | 文本分类 | 爱奇艺标注团队针对部分电影剧本的情感标注数据集,包括42,790条训练数据和21,376条测试数据。预测剧本角色情感。 | 支持BERT模型Transformers开发库、chinese-roberta-wwm-ext等5种模型 | AiS-NLP-Media-CCF-BDCI-2021-iQiyi-Script-Character-Emotion-Recognition-12MB |
7 | AiWin2023市场研究分析报告类型识别 | 文本分类 | 10种类型的市场研究分析报告,报告总数为3,122个。支持市场研究分析报告类型识别。 | chinese-roberta-wwm-ext模型、transformers开发框架 | AiS-NLP-Media-AIWIN2023-Identification-Of-Research-Report-Types-6MB |
8 | HW-DIGIX-2021-赛题2-文章质量PU-BERT联合预测 | 文本分类 | 包括576,454条训练文章数据和45,285条测试数据。是一种正样本(P)和未标记样本(U)的PU数据集。 | PU-BERT联合预测,PU学习高效处理未标记数据问题,bert-base-chinese模型提供强大的语义理解能力。transformers开发框架。 | AiS-NLP-Media-HW-DIGIX2021-2-Article_Quality_Discrimination-820MB |
4、经典案例
以下数据集应用的AI场景都是文本分类。
编号 | 标题 | 数据集价值 | 解决方案 | 文件包 |
---|---|---|---|---|
1 | Standford2011电影评论数据集ACLIMDB应用于情感分类 | 支持电影评论的情感分类 | — | AiS-NLP-Media-DataSet-Standford-Movie-Review-ACLIMDB-2011-80MB |
2 | 新浪网2005-2011年新闻分类数据集和工具包 | 文本分类 | — | AiS-NLP-Meida-DataSet-THUCNews-Sina-2005-2011-1.6GB |
3 | 新浪2005-2011年新闻标题分类数据集 | 文本分类 | — | AiS-NLP-Media-DataSet-THUCNews-Sina-Title-2005-2011-190MB |
4 | 北京大学2005中文分词数据集icwb2-pku | 中文分词 | — | AiS-NLP-Media-DataSet-icwb2-pku-2005-4MB |
5 | Miranda2011垃圾短信分类数据集 | 垃圾短信分类 | — | AiS-NLP-Media-DataSet-Spam-SMS-Miranda-2017-1MB |
6 | 中文数据集:维基百科、新闻、百科、社区问答 | 训练中文数据 | — | AiS-NPL-Media-Chinese-DataSet-Wiki-10GB |
7 | Twitter2009情感分析数据集Sentiment140 | 文本情感分析 | — | AiS-NLP-Media-DataSet-Twitter-Sentiment140-2009-84MB |
8 | BBC2007新闻分类数据集 | 文本分类 | — | AiS-NLP-Media-DataSet-BBC-News-Classification-2007-2MB |
9 | Reuters-21578文本分类集合1987 | 文本分类 | — | AiS-NLP-Media-DataSet-Reuters-21578-Text-Categorization-1987-8MB |
10 | Lifferth2017虚假新闻数据集 | 识别虚假新闻 | — | AiS-NLP-Media-DataSet-Fake-News-William-Lifferth-2017-48MB |
5、逻辑推理案例
编号 | 标题 | AI问题 | 数据集价值 | 解决方案 | 文件包 |
---|---|---|---|---|---|
1 | CCF-BDCI-2020-小学数学应用题数据集和自动解题 | 逻辑推理 | 数据来源于K12真实教育场景,用于训练模型解数学题的逻辑推理能力。 | Graph-to-Tree (GTS) Learning 是一种结合图结构(Graph)和树形解码(Tree Decoding)的深度学习框架,主要用于解决结构化预测问题。 | AiS-NLP-Reasoning-CCF-BDCI-2020-Math-Word-Problems-64MB |
6、链接
说明
因公网带宽限制,用户获取已集成AI数据集+源码+文档+模型的案例资源包方式如下:
- 若资源包文件小于等于500MB,则默认支持网页下载。
- 若资源包文件大于500MB,则可通过以下两种方式之一获取:
- 方式一:微信文件传输。通过添加本平台官方店小二微信号:AiSelect.club店小二/18115143370。输入一个AI案例文件名,本平台把案例资源包分割成多个1GB文件进行分发。
- 方式二:通过淘宝店铺U盘分发:甲壳虫AI竞赛案例精选 https://shop293023998.taobao.com/ (同一合集的多个案例套件文件大小约20~64GB的打包成一U盘。U盘分发价格统一为50元=32GB/64GB的U盘市场价+国内快递费用+零毛利。)
本平台官方店小二微信号/手机号:AiSelect.club店小二/18115143370
获取大容量AI案例U盘套装:AI智能案例学习套装/自然语言处理-传媒行业-A-淘宝网