语义相似度识别(Semantic Similarity Measurement)是指通过计算模型量化两个文本片段(词、短语、句子或段落)在语义层面的相似程度。语义相似度识别属于语义与结构分析类任务,旨在衡量两个文本片段在语义上的相似程度。
1、腾讯广告算法大赛
| 编号 | 标题 | AI问题 | 数据集价值 | 解决方案 | 文件包 |
|---|
| 1 | 腾讯2021广告算法大赛赛道2-多模态视频广告标签 | 多模态AI建模 | 以视频、音频、文本三个模态作为输入数据集,针对测试视频样本预测出视频在呈现形式、场景、风格等三个维度上的标签。 | 利用视频ViT-Large、图像EfficientNet、文本BERT等预训练模型,结合了视觉、音频和文本信息进行多模态视频处理AI建模。 | AiS-NLP-Retail-Tencent2021-Ad-Task2-Video-Tagging-4.63GB |
| 2 | 腾讯2020广告受众基础属性预估大赛 | 特征提取、语义相似度识别 | 基于腾讯广告用户在3个月的时间窗口内的广告点击历史记录,预估广告受众的基础属性。 | 广告历史曝光特征提取、词嵌入等建模技术 | AiS-NLP-Retail-Tencent2020-Ad-User-Property-Predict-870MB |
| 3 | 腾讯2019算法大赛-广告曝光预估-初赛 | 特征提取、语义相似度识别 | 基于腾讯广告对用户的历史曝光日志记录了用户与广告的交互行为(如曝光、点击、转化等),推断用户长期/短期兴趣,分析广告在不同场景下的表现,优化投放策略。 | 广告历史曝光特征提取、词嵌入等建模技术 | AiS-NLP-Retail-Tencent2019-Social-Advertising-Preliminary-3.8GB |
| 4 | 腾讯2018广告算法大赛-Lookalike相似人群拓展 | 特征提取、语义相似度识别 | 基于腾讯广告的相似社交用户数据集,通过用户画像客户分群,支持广告精准投放降低获客成本。 | 广告受众特征提取、LightGBM梯度提升框架 | AiS-NLP-Retail-Tencent2018-Ad-LookAlike-User-Explore-8GB |
2、头部电商竞赛活动
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件 |
|---|
| 1 | 淘宝2022搜索数据集和算法赛 | 语义相似度识别 | 提升电商搜索的精准性与智能化,优化商品搜索排序,让用户更快找到所需商品 | 用户查询自然语言的理解、语义匹配、纠错、同义词扩展等。 | AiS-NLP-Retail-Taobao2022-ECommerce-Search-Algorithm-50MB |
| — | — | — | — | — | Baseline方案+SimCSE方案(未发布) |
| 2 | Amazon2023购物难于搜索的查询与产品语义匹配数据集和算法 | 语义相似度识别 | 促进查询与产品语义匹配领域的研究 | 句子嵌入模型等自然语言处理技术 | AiS-NLP-Retail-Amazon2023-Query-Product-ESCI-Match-970MB |
| 3 | 速卖通2019跨境电商数据集和待成熟国家用户推荐算法 | 语义相似度识别 | 用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据,训练出对于待成熟国家用户的正确模型,支持更好地服务待成熟国家用户。 | 用户特征提取工程 | AiS-NLP-Retail-AliExpress2019-Antai-CrossBorder-ECommerce-170MB |
| 4 | WSDM2021-Amazon跨市场电商推荐 | 语义相似度识别 | 用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据,训练出对于待成熟国家用户的正确模型,支持更好地服务待成熟国家用户。 | 用户特征提取工程 | AiS-NLP-Retail-WSDM2021-Amazon-Cross-Market-Recommendation-40MB |
| — | — | — | Amazon2021全球交易数据集 | — | AiS-NLP-Retail-WSDM2021-Amazon-Cross-Market-Recommendation-DataSet-2.6GB |
| 5 | BestBuy2014-2015用户搜索行为数据集和商品推荐样例 | 语义相似度识别 | 预测用户最有兴趣购买的商品 | 商品相似度评测 | AiS-NLP-Retail-DataSet-BestBuy-Search-Query-2014-2015-5MB |
3、其他竞赛活动
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件 |
|---|
| 1 | CCF-BDCI-2020贝壳房地产行业聊天问答匹配 | 文本二分类任务,判断回复是否匹配问题。 | 1,4000条贝壳房地产行业客户和房产经纪人聊天问答匹配数据集。构建基于语义的问和答匹配模型。 | Chinese-RoBERTa-wwm-ext模型、simpletransformers开发框架。 | AiS-NLP-Retail-CCF-BDCI-2020-BeiKe-Q-A-3MB |
| 2 | 科大讯飞2021中文成语填空挑战赛 | 语义相似度评估 | 给定句子的上下文,完成合适的成语填入对应位置。 | chinese-xlnet-base模型 | AiS-NLP-TextSimi-chinese-xlnet-base-iFLYTEK2021-Chinese-Idioms-Filling-28MB |
4、商品推荐案例