自然语言处理之语义相似度识别案例套装

语义相似度识别(Semantic Similarity Measurement)是指通过计算模型量化两个文本片段(词、短语、句子或段落)在语义层面的相似程度。语义相似度识别属于语义与结构分析类任务,旨在衡量两个文本片段在语义上的相似程度。

1、腾讯广告算法大赛

编号标题AI问题数据集价值解决方案文件包
1腾讯2021广告算法大赛赛道2-多模态视频广告标签多模态AI建模以视频、音频、文本三个模态作为输入数据集,针对测试视频样本预测出视频在呈现形式、场景、风格等三个维度上的标签。利用视频ViT-Large、图像EfficientNet、文本BERT等预训练模型,结合了视觉、音频和文本信息进行多模态视频处理AI建模。AiS-NLP-Retail-Tencent2021-Ad-Task2-Video-Tagging-4.63GB
2腾讯2020广告受众基础属性预估大赛特征提取、语义相似度识别基于腾讯广告用户在3个月的时间窗口内的广告点击历史记录,预估广告受众的基础属性。广告历史曝光特征提取、词嵌入等建模技术AiS-NLP-Retail-Tencent2020-Ad-User-Property-Predict-870MB
3腾讯2019算法大赛-广告曝光预估-初赛特征提取、语义相似度识别基于腾讯广告对用户的历史曝光日志记录了用户与广告的交互行为(如曝光、点击、转化等),推断用户长期/短期兴趣,分析广告在不同场景下的表现,优化投放策略。广告历史曝光特征提取、词嵌入等建模技术AiS-NLP-Retail-Tencent2019-Social-Advertising-Preliminary-3.8GB
4腾讯2018广告算法大赛-Lookalike相似人群拓展特征提取、语义相似度识别基于腾讯广告的相似社交用户数据集,通过用户画像客户分群,支持广告精准投放降低获客成本。广告受众特征提取、LightGBM梯度提升框架AiS-NLP-Retail-Tencent2018-Ad-LookAlike-User-Explore-8GB

2、头部电商竞赛活动

编号标题AI问题数据集解决方案文件
1淘宝2022搜索数据集和算法赛语义相似度识别提升电商搜索的精准性与智能化,优化商品搜索排序,让用户更快找到所需商品用户查询自然语言的理解、语义匹配、纠错、同义词扩展等。AiS-NLP-Retail-Taobao2022-ECommerce-Search-Algorithm-50MB
Baseline方案+SimCSE方案(未发布)
2Amazon2023购物难于搜索的查询与产品语义匹配数据集和算法语义相似度识别促进查询与产品语义匹配领域的研究句子嵌入模型等自然语言处理技术AiS-NLP-Retail-Amazon2023-Query-Product-ESCI-Match-970MB
3速卖通2019跨境电商数据集和待成熟国家用户推荐算法语义相似度识别用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据,训练出对于待成熟国家用户的正确模型,支持更好地服务待成熟国家用户。用户特征提取工程AiS-NLP-Retail-AliExpress2019-Antai-CrossBorder-ECommerce-170MB
4WSDM2021-Amazon跨市场电商推荐语义相似度识别用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据,训练出对于待成熟国家用户的正确模型,支持更好地服务待成熟国家用户。用户特征提取工程AiS-NLP-Retail-WSDM2021-Amazon-Cross-Market-Recommendation-40MB
Amazon2021全球交易数据集AiS-NLP-Retail-WSDM2021-Amazon-Cross-Market-Recommendation-DataSet-2.6GB
5BestBuy2014-2015用户搜索行为数据集和商品推荐样例语义相似度识别预测用户最有兴趣购买的商品商品相似度评测AiS-NLP-Retail-DataSet-BestBuy-Search-Query-2014-2015-5MB

3、其他竞赛活动

编号标题AI问题数据集解决方案文件
1CCF-BDCI-2020贝壳房地产行业聊天问答匹配文本二分类任务,判断回复是否匹配问题。1,4000条贝壳房地产行业客户和房产经纪人聊天问答匹配数据集。构建基于语义的问和答匹配模型。Chinese-RoBERTa-wwm-ext模型、simpletransformers开发框架。AiS-NLP-Retail-CCF-BDCI-2020-BeiKe-Q-A-3MB
2科大讯飞2021中文成语填空挑战赛语义相似度评估给定句子的上下文,完成合适的成语填入对应位置。chinese-xlnet-base模型AiS-NLP-TextSimi-chinese-xlnet-base-iFLYTEK2021-Chinese-Idioms-Filling-28MB

4、商品推荐案例

编号标题AI问题数据集解决方案文件
1MovieLens100K(1997-1998)影视评分数据集用于构建推荐系统聚类问题构建推荐系统商品相似度评测AiS-NLP-Retail-DataSet-MovieLens100K-Rating-1997-1998-5MB
2MovieLens20M(1995-2015)影视评分数据集用于构建推荐系统聚类问题构建推荐系统scikit-learn开发包、基于电影类型使用【TF-IDF】进行电影相似度评测。AiS-NLP-Retail-DataSet-MovieLens20M-Rating-1995-2015-32MB
聚类问题MovieLens20M评价收集于1995年1月到2015年3月之间,并在2016年10月17日更新为csv格式。用于构建推荐系统。商品相似度评测AiS-NLP-Media-DataSet-MovieLens-20M-Rating-1995-2015-230MB
3IMDB2019评论剧透检测竞赛和文本TF-IDF特征矩阵方案语义相似度识别评论剧透检测文本TF-IDF特征矩阵方案AiS-NLP-Retail-Yanxishe2019-IMDB-Review-Spoiler-363MB

发表评论