自然语言处理之语义相似度识别案例套装

2025-11-222025-04-16 作者天牛

语义相似度识别（Semantic Similarity Measurement）是指通过计算模型量化两个文本片段（词、短语、句子或段落）在语义层面的相似程度。语义相似度识别属于语义与结构分析类任务，旨在衡量两个文本片段在语义上的相似程度。

1、腾讯广告算法大赛

编号	标题	AI问题	数据集价值	解决方案	文件包
1	腾讯2021广告算法大赛赛道2-多模态视频广告标签	多模态AI建模	以视频、音频、文本三个模态作为输入数据集，针对测试视频样本预测出视频在呈现形式、场景、风格等三个维度上的标签。	利用视频ViT-Large、图像EfficientNet、文本BERT等预训练模型，结合了视觉、音频和文本信息进行多模态视频处理AI建模。	AiS-NLP-Retail-Tencent2021-Ad-Task2-Video-Tagging-4.63GB
2	腾讯2020广告受众基础属性预估大赛	特征提取、语义相似度识别	基于腾讯广告用户在3个月的时间窗口内的广告点击历史记录，预估广告受众的基础属性。	广告历史曝光特征提取、词嵌入等建模技术	AiS-NLP-Retail-Tencent2020-Ad-User-Property-Predict-870MB
3	腾讯2019算法大赛-广告曝光预估-初赛	特征提取、语义相似度识别	基于腾讯广告对用户的历史曝光日志记录了用户与广告的交互行为（如曝光、点击、转化等），推断用户长期/短期兴趣，分析广告在不同场景下的表现，优化投放策略。	广告历史曝光特征提取、词嵌入等建模技术	AiS-NLP-Retail-Tencent2019-Social-Advertising-Preliminary-3.8GB
4	腾讯2018广告算法大赛-Lookalike相似人群拓展	特征提取、语义相似度识别	基于腾讯广告的相似社交用户数据集，通过用户画像客户分群，支持广告精准投放降低获客成本。	广告受众特征提取、LightGBM梯度提升框架	AiS-NLP-Retail-Tencent2018-Ad-LookAlike-User-Explore-8GB

2、头部电商竞赛活动

编号	标题	AI问题	数据集	解决方案	文件
1	淘宝2022搜索数据集和算法赛	语义相似度识别	提升电商搜索的精准性与智能化，优化商品搜索排序，让用户更快找到所需商品	用户查询自然语言的理解、语义匹配、纠错、同义词扩展等。	AiS-NLP-Retail-Taobao2022-ECommerce-Search-Algorithm-50MB
—	—	—	—	—	Baseline方案+SimCSE方案（未发布）
2	Amazon2023购物难于搜索的查询与产品语义匹配数据集和算法	语义相似度识别	促进查询与产品语义匹配领域的研究	句子嵌入模型等自然语言处理技术	AiS-NLP-Retail-Amazon2023-Query-Product-ESCI-Match-970MB
3	速卖通2019跨境电商数据集和待成熟国家用户推荐算法	语义相似度识别	用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据，训练出对于待成熟国家用户的正确模型，支持更好地服务待成熟国家用户。	用户特征提取工程	AiS-NLP-Retail-AliExpress2019-Antai-CrossBorder-ECommerce-170MB
4	WSDM2021-Amazon跨市场电商推荐	语义相似度识别	用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据，训练出对于待成熟国家用户的正确模型，支持更好地服务待成熟国家用户。	用户特征提取工程	AiS-NLP-Retail-WSDM2021-Amazon-Cross-Market-Recommendation-40MB
—	—	—	Amazon2021全球交易数据集	—	AiS-NLP-Retail-WSDM2021-Amazon-Cross-Market-Recommendation-DataSet-2.6GB
5	BestBuy2014-2015用户搜索行为数据集和商品推荐样例	语义相似度识别	预测用户最有兴趣购买的商品	商品相似度评测	AiS-NLP-Retail-DataSet-BestBuy-Search-Query-2014-2015-5MB

3、其他竞赛活动

编号	标题	AI问题	数据集	解决方案	文件
1	CCF-BDCI-2020贝壳房地产行业聊天问答匹配	文本二分类任务，判断回复是否匹配问题。	1,4000条贝壳房地产行业客户和房产经纪人聊天问答匹配数据集。构建基于语义的问和答匹配模型。	Chinese-RoBERTa-wwm-ext模型、simpletransformers开发框架。	AiS-NLP-Retail-CCF-BDCI-2020-BeiKe-Q-A-3MB
2	科大讯飞2021中文成语填空挑战赛	语义相似度评估	给定句子的上下文，完成合适的成语填入对应位置。	chinese-xlnet-base模型	AiS-NLP-TextSimi-chinese-xlnet-base-iFLYTEK2021-Chinese-Idioms-Filling-28MB

4、商品推荐案例

编号	标题	AI问题	数据集	解决方案	文件
1	MovieLens100K(1997-1998)影视评分数据集用于构建推荐系统	聚类问题	构建推荐系统	商品相似度评测	AiS-NLP-Retail-DataSet-MovieLens100K-Rating-1997-1998-5MB
2	MovieLens20M(1995-2015)影视评分数据集用于构建推荐系统	聚类问题	构建推荐系统	scikit-learn开发包、基于电影类型使用【TF-IDF】进行电影相似度评测。	AiS-NLP-Retail-DataSet-MovieLens20M-Rating-1995-2015-32MB
—	—	聚类问题	MovieLens20M评价收集于1995年1月到2015年3月之间，并在2016年10月17日更新为csv格式。用于构建推荐系统。	商品相似度评测	AiS-NLP-Media-DataSet-MovieLens-20M-Rating-1995-2015-230MB
3	IMDB2019评论剧透检测竞赛和文本TF-IDF特征矩阵方案	语义相似度识别	评论剧透检测	文本TF-IDF特征矩阵方案	AiS-NLP-Retail-Yanxishe2019-IMDB-Review-Spoiler-363MB

发表评论取消回复

要发表评论，您必须先登录。