总览

一、简介

甲壳虫AI(竞赛)案例精选是一个为企事业单位提供人工智能/AI问题描述或赛题、数据集和模型的托管,支持技术达人知识交流和源码分享,为广大非参赛数据科学工作者提供AI样例和数据集下载服务,同时协助学生等人参加AI竞赛的跨多行业高质量的AI内容托管平台

本平台类型为教育科研类,托管的AI案例包括国内外经典的AI问题、和国内近5年头部企事业单位举办的AI竞赛的赛题、已脱敏真实业务运营数据、真实业务运营解决方案和源码。本平台中的AI案例相关的问题和解决方案描述、源码、数据集、和模型已集成并可运行。

经统计,国内外企事业单位发布的AI问题和业务运营数据集大部分以AI竞赛的形式进行的。因AI数据集和模型体积大托管成本高,大部分数据科学工作者难于从AI竞赛主办方渠道获取到历史上AI参赛人员提交的解决方案。AI竞赛是个小众且低频的行为,单纯的竞赛业务是很难大规模商业化的,而且高质量的竞赛对于出题企事业单位的门槛很高,更进一步的缩小了业务的可扩展和复制性。竞赛只是形式,通过竞赛活动沉淀下来的AI赛题、业务运营数据集、解决方案和人才等才是真正有价值的。

1、竞赛活动视图

AI竞赛活动关注的技术领域主要包括自然语言处理/NLP、计算机视觉/CV、和传统机器学习/ML。以下为AI案例的竞赛活动视图

主要AI竞赛其他AI竞赛AI领域应用行业出题方业务运营数据集
a1、腾讯广告算法赛2、人民网人工智能算法挑战赛NLP广告传媒业腾讯、Facebook、人民网等微信广告曝光数据集、腾讯广告的相似社交用户数据集等
b3、电商搜索算法赛JData算法大赛、WSDM信息检索国际大赛NLP零售业淘宝、京东、Amazon、速卖通等商品查询与商品关联度数据集等
c4、科大讯飞AI开发者大赛5、中国计算机学会大数据与计算智能大赛CCF-BDCIML零售业(同上)电商用户特征和行为数据集等
d6、AFAC亚洲金融算法挑战赛NLP泛金融业银行、保险和证券公司金融产品用户评论数据集等
e7、AiWin世界人工智能创新大赛ML泛金融业支付宝、余额宝、AFAC量化金融数据集、蚂蚁金服用户资金流数据集等
f科大讯飞AI开发者大赛-农林牧副渔部分北京林业大学等科研院校举办的竞赛CV农林牧副渔科大讯飞、科研院校苹果叶病害、柑橘花果梢、植物病害图像数据集等
g8、AI研习社大赛-医疗部分BRATS2018脑肿瘤分割挑战赛、iChallenge医疗大赛CV医疗和人体医院和科研机构Montreal大学脸部关键点识别数据集、儿童手骨数据集、眼疾数据集、脑PET图像数据集、肺炎X光病灶数据集等
h9、华为数字生活节ML电子类华为手机APP用户行为数据集
i10、数字中国创新大赛DCICCV社会基础服务政府部门等X光安检图像识别数据集、Roboflow火焰检测数据集、生活垃圾分类数据集等

2、问题和解决方案视图

参考文章:

以下为AI案例的问题和解决方案视图

AI领域问题1问题2…问题N
A自然语言处理文本生成/GPT等架构识别文本中的实体/SpaCy等框架文本摘要提取/Pegasus等模型
语义相似度识别/SimCSE等算法文本分类/BERT等模型语音等多模态
大语言模型的演进生成式大语言模型逻辑推理AI智能体
B计算机视觉图像分类/ResNet等目标检测/Yolo等语义和实例分割/U-Net等
行为与场景理解OCR等特殊任务视频分析任务
C传统机器学习回归预测问题识别分类问题聚类问题
时序预测问题
DAI开发基础AI中的数学和算法构建AI开发环境CNN和Transformer等模型

3、行业应用视图

本平台托管的AI案例的解决方案涉及的行业覆盖超17个行业,以下为AI案例的行业应用视图

编号应用领域行业应用案例自然语言处理计算机视觉传统机器学习
1农林牧副渔农业案例套装
2林业
3动物和畜牧业
4渔业
5广告传媒广告和传媒案例套装案例套装
6计算机服务
7商业和金融(商品餐饮住宿)零售业案例套装案例套装
8(银行证券保险)泛金融业案例套装案例套装
9医疗卫生医疗案例套装案例套装
10人类生理学案例套装
11生产制造建筑案例套装
12采矿
13制造业
14社会基础服务水电气生产供应业案例套装案例套装
15消防
16交通
17环保

本平台托管的AI内容以科研为主要目的。AI数据集符合CC BY4.0、DbCL等版权许可协议要求;AI应用源码符合MIT、GPL等代码开源协议;AI模型符合模型使用共享协议。

二、平台服务

1、线上+线下服务模式

我们为客户提供线上+线下的服务模式,线下服务包括:

  • 为个人和事业单位提供针对不同客户群的定制AI技术和应用培训服务。协助个人和团队参与AI竞赛。
  • 为企事业单位提供行业级别的AI升级改造实施服务:
    • 业务流程智能化:智能决策支持。
    1. 数据治理与挖掘:应用机器学习挖掘数据价值(如客户分群、销售预测)。
    2. 客户体验升级:智能客服、个性化推荐、情感分析。
    3. 产品与服务创新:AI赋能产品。

本平台官方店小二微信号/手机号:AiSelect.club/18115143370

联系人微信号

2、线上门户

本平台为用户提供以下线上门户:

通过以下微信企业服务号,任何人可订阅本平台的动态消息,与我们互动,包括投稿分享AI知识: 微信企业服务号

3、案例资源包下载

对于已集成AI数据集+源码+文档+模型的案例资源包,因公网带宽限制:

  • 若资源包文件小于等于500MB,则默认支持网页下载。
  • 若资源包文件大于500MB,则可通过以下两种方式之一获取:
    • 方式一:微信文件传输。通过添加本平台官方店小二微信号:AiSelect.club/18115143370。输入一个AI案例文件名,本平台把案例资源包分割成多个1GB文件进行分发。
    • 方式二:通过淘宝店铺U盘分发:甲壳虫AI竞赛案例精选 https://shop293023998.taobao.com/ (同一合集的多个案例套件文件大小约20~64GB的打包成一U盘。U盘分发价格统一为50元=32GB/64GB的U盘市场价+国内快递费用+零毛利。)

三、客户痛点和服务

1、竞赛出题方/数据发布方

企事业单位发布真实业务运营问题和已脱敏的真实业务运营数据集,或以AI竞赛出题方角色举办AI竞赛。企事业单位通过竞赛活动来解决企事业单位的行业痛点。通过竞赛聚焦真实场景问题(如医疗影像识别、金融风控、工业缺陷检测),以开放命题吸引全球创新方案,突破企业自身研发瓶颈。企事业单位以竞赛奖金激励外部团队参与,相比自建研发团队成本更低,且能快速获取多元技术方案。例如:

  • 腾讯举办广告曝光预估算法大赛,并发布真实的广告运营数据,腾讯可获取到更优的广告运营解决方案,广告主能避免盲目的优化尝试,有效缩短广告的优化周期,降低试错成本,使广告效果尽快达到广告主的预期范围。
  • 蚂蚁金服以脱敏方式发布余额宝用户资金流入流出的AI数据集的目的是为了通过竞赛获取更优解决方案来提升资金头寸调拨效率。
  • 亚马逊和淘宝发布网购用户商品查询与商品关联度AI数据集的目的是为了提升系统对用户使用自然语言进行商品搜索的语法语义的理解能力。
  • 淘宝网发布网购用户行为日志数据的目的是为了获取更好的用户行为分析解决方案,以提升电商用户运营能力。
  • 摩拜单车发布共享单车的流动信息AI数据集是为了寻求解决方案提升共享单车的调度效率。
  • 谷歌地图连续3年发布在阴天雨天等场景下的2D建筑图片AI数据集是为了寻求更好的解决方案来提升2D转3D影像资料的效率。
  • 骨科医院发布儿童手骨x光照片AI数据集是为了依据当地医疗标准寻求解决方案来提升儿童手骨骨龄评测效率。

另外企事业单位通过举办AI竞赛和多种企业文化宣传活动,可获得更好的社会影响力,同时吸引更多优秀的数据科学人才。

2、AI竞赛内容托管方

AI竞赛内容托管方托管AI竞赛内容和参赛人员的解决方案的成本是相当高昂的,其痛点和存在的问题包括:

  • AI赛题中的数据集和AI模型体积庞大,常见的AI数据集和AI模型文件大小为1GB到30GB不等,甚至更大,一般情况下为AI应用源码文件大小的千倍以上。传统源码托管平台已不支持这些AI资源的托管。
  • 比赛后优秀的参赛人员提交的解决方案,有价值的内容包括:文档、中间数据集、采用的AI模型、运行结果,同样存在托管困难。
  • 现有竞赛主办方一般的做法是:基于自家服务器建立一Web网站,只托管AI竞赛赛题,要么不托管AI数据集,要么把AI数据集移交给云盘服务商托管。这样,导致原本是一整体的AI赛题、数据集、数据结构描述、模型、解决方案文档和源码往往是割裂的,分散在多个不同地方。
  • AI竞赛内容一般需要5年或10年的长期托管,竞赛主办方长期托管这些内容其成本是高昂的。很多情况下,竞赛举办两三年后,存在网页服务不可用或竞赛内容丢失的问题。
  • 部分企业为了推广自家的AI解决方案或自家的AI模型,举办AI竞赛时限制参赛人员只能使用某一类AI框架和某一类AI模型。这样导致数据科学工作者无法自由获取多种解决方案。

本平台是一独立的第三方AI内容托管方,托管的AI案例相关的问题和解决方案描述、源码、数据集、和模型已集成并可运行。

3、数据科学工作者

因AI数据集和模型体积大托管成本高,大部分数据科学工作者难于从AI竞赛主办方渠道获取到历史上AI参赛人员提交的解决方案。基于头部企事业单位的真实业务运营数据,和真实业务运营问题的解决方案,本平台:

  • 支持高端数据科学工作者进行知识交流和源码分享,并展示其才能。
  • 帮助广大数据科学工作者提升工作效率。
  • 帮助学生参与AI竞赛并赢得优异成绩。

3-1、典型用户使用场景举例

使用场景A:开发一在线医院问诊系统

  • 问题背景:人民对于医疗健康的需求在不断增长,但社会现阶段医疗资源紧缺,往往排队一上午看病十分钟,时间和精神成本巨大。如何更好地优化医疗资源配置,找到合适的方向,进行分级诊疗,是当前社会的重要课题。大众自觉身体状态异常,有时不能准确判断自己是否患有疾病,需要寻求有专业知识的人进行判断,但是主诉者一般进行口语化表述,不容易进行精准高效的指引。
  • 确定AI分类和应用行业:为自然语言处理NLP类型,应用场景为医疗行业。
  • 搜索并下载数据集:好大夫在线2022的真实问诊数据,包括22,800条训练数据和7,600条测试数据。
  • 选择并下载一自然语言处理模型:例如chinese-roberta-wwm-ext模型。
  • 根据用户的应用场景,补充完善数据集,并对自然语言处理模型进行训练。
  • 开发一客户端,集成已训练的大模型,并推出在线医院问诊系统。

四、愿景使命价值

愿景:借助数据科学的力量,赋能每个行业的每家企业。

使命:致力于推动数据科学领域的研究,为企业寻找创新AI解决方案。同时降低数据科学工作者进入AI领域的门槛,帮助提升技能并展示个人才能。

价值:

  • 构建知识交流社区:AI精选社区构建了一个庞大的AI知识学习交流社区,数据科学工作者可以在这里分享经验、交流心得、寻求帮助,这个社区为数据科学工作者提供了便捷的学习途径。
  • 促进产业合作:AI精选社区不仅是一个竞技平台,更是一个产业合作的桥梁,许多企业和机构通过赞助或参与竞赛,与优秀的参赛者建立联系,共同推动数据科学技术的落地应用。

附一:教育部认可的学科竞赛目录

转载 | 2025教育部认可的学科竞赛目录84项

中国高等教育学会高校竞赛评估与管理体系研究专家工作组发布《2023全国普通高校大学生竞赛分析报告》,最新的84项全国普通高校学科竞赛的排行榜也同时发布。

  • 中国国际大学生创新大赛原中国国际“互联网+”大学生创新创业大赛
  • “’挑战杯”全国大学生课外学术科技作品竞赛
  • “挑战杯”中国大学生创业计划大赛
  • ACM-ICPC国际大学生程序设计竞赛
  • 中国大学生计算机设计大赛
  • 中国高校计算机大赛-①大数据挑战赛、②团体程序设计天梯赛、③移动应用创新赛、④网络技术挑战赛、⑤人工智能创意赛
  • 全国大学生数学建模竞赛
  • 全国大学生电子设计竞赛
  • 中国大学生医学技术技能大赛
  • 全国大学生机械创新设计大赛
  • 华为ICT大赛
  • 等其他

对于这些高含金量竞赛,既可以提升专业能力,锻炼创新性思维,也可以提高团队合作、语言表达等能力。


网站备案号:苏ICP备2024094005号-1P备2024094005号-1