分类问题(Classification):是机器学习中的一种基本任务,它涉及识别数据项并归类到两个或多个预定义的类别或标签中。这个过程类似于我们日常生活中的决策和归类行为,比如将邮件分为“垃圾邮件”和“非垃圾邮件”,或者将图片分类为“猫”、“狗”或“车”。
1、竞赛活动案例
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件包 |
|---|
| 1 | 科大讯飞2021基于用户画像的商品推荐挑战赛 | 分类问题 | 支持基于用户画像的商品推荐 | 使用回归器LGBMRegressor用于分类问题。 | AiS-ML-Class-Retail-iFLYTEK2021-User-Product-Recommendation-110MB |
| 2 | 科大讯飞2021移动设备用户年龄和性别的预测 | 分类问题、分类问题 | 基于移动设备信息、APP信息和事件信息对移动设备的用户进行性别和年龄的预测。 | 使用LightGBM建立性别模型和年龄两个模型。 | AiS-ML-Class-Retail-iFLYTEK2021-Mobile-Phone-User-Gender-Age-Forcast-102MB |
| 3 | 科大讯飞2022电信客户流失预测暨各种模型比较 | 分类问题 | 某通信运营公司的3,333条客户信息和使用情况数据用于预测客户是否流失。 | 多种分类方法 | AiS-ML-Class-Retail-iFLYTEK2022-Customer-Losing-Forecast-1MB |
| 4 | 科大讯飞2023-5G移动用户使用预测挑战赛 | 二分类问题 | 用户基本信息和通信相关数据预测是否为5G用户。 | LightGBM | AiS-ML-Class-Retail-iFLYTEK2023-5G-Mobile-User-Forecast-122MB |
| 5 | TwoSigma2017预测用户对房产的兴趣等级 | 分类问题 | 基于房产数据预测用户对房产的兴趣等级 | LightGBM | AiS-ML-Class-Retail-TwoSigma2017-Rental-Listing-Inquiries-60MB |
| 2 | AiWin2022发债企业违约风险数据集和分类预警 | 分类问题 | 发债企业的违约数据用于模型训练,预测发债企业发生违约风险的概率。 | LightGBM分类 | AiS-ML-Fin-AiWin2022-GuoTai-JunAn-Securities-Enterprises-Risk-66MB |
| 3 | 科大讯飞2023企业经营数据集和健康评估 | 分类问题 | 企业经营数据集用于企业经营健康评估。 | LightGBM分类。基于对抗验证(Adversarial Validation)思想筛选出AUC值低在训练集和测试集中分布相似的特征提高模型泛化能力。 | AiS-ML-Fin-iFLYTEK2023-Business-Operation-Health-Assessment-80MB |
| iFLYTEK2022糖尿病遗传风险检测挑战赛 | 分类问题 | — | LightGBM模型 | AiS-ML-Medicine-iFLYTEK2022-Diabetes-Genetic-Risk-Detection |
| 科大讯飞2021车辆贷款借款人数据集和违约预测 | 分类问题 | 包含52个特征字段的车辆贷款借款人数据集支持违约预测。 | LightGBM | AiS-ML-Fin-iFLYTEK2021-Car-Loan-Default-8MB |
2、经典案例
| 编号 | 标题 | AI问题 | 数据集 | 解决方案 | 文件包 |
|---|
| 1 | 小麦种子数据集和分类样例 | 分类问题 | — | — | AiS-ML-Agr-DataSet-Wheat-Seeds-2018 |
| 2 | Palmer企鹅数据集和分类样例 | 分类问题 | — | — | AiS-ML-Animal-DatsSet-App-Palmer-Penguins-Classification-2020 |
| 3 | 根据泰坦尼克号乘客数据集预测是否是幸存者 | 分类问题 | — | — | AiS-ML-Human-DataSet-Titanic-Survival-Predict-1912 |
| 4 | Kaggle2024宇宙飞船泰坦尼克号乘客生存预测 | 分类问题 | — | — | AiS-ML-Human-Spaceship-Titanic-Kaggle2024 |
| 5 | 根据葡萄酒质量数据集进行线性回归预测 | 分类问题 | — | — | AiS-ML-Agr-DataSet-Wine-Quality-2009 |
| 6 | Wisconsin州乳腺癌数据集和诊断预测 | 分类问题 | — | — | AiS-ML-Medicine-DataSet-Breast-Cancer-Wisconsin-Diagnostic-1988 |
| 7 | Pima-Indians糖尿病检测数据集 | 分类问题 | — | XGBoost预测模型 | AiS-ML-Medicine-DataSet-Pima-Indians-Diabetes-Predict-1990 TODO |
| 8 | 通过物理测量预测鲍鱼的年龄 | 分类问题 | — | — | AiS-ML-Fishing-DataSet-Abalone-Age-Predict-2018 |
| 9 | 基于岩石和地雷的声纳数据集进行二元分类 | 分类问题 | — | — | AiS-ML-Mining-DataSet-Sornar-Binary-Classification-1990 |
| 10 | 华盛顿共享单车租赁数据集(2011-2018)和应用 | — | — | — | AiS-ML-Trp-Dataset-WashingtonDC-Bike-Sharing-2011-2018 |
| 11 | 摩拜共享单车2017年8月数据集和应用 | — | — | — | AiS-ML-Trp-DataSet-Mobai-Bike-Sharing-2017-08-43M |
| 12 | Kirill2017银行客户流失预测模型 | 分类问题 | 银行客户流失预测模型数据集 | 随机森林建模和预测 | AiS-ML-Fin-Kirill2017-Bank-Customer-Churn-Modelling-1MB |
| 13 | Datawhale贷款记录数据集 | 分类问题 | 来自某信贷平台的贷款记录 | — | AiS-ML-Fin-DataSet-Datawhale-Loan-Credit-2024-60MB |
| 14 | 2013年欧洲地区信用卡欺诈检测数据集 | 分类问题 | 2013年欧洲地区信用卡欺诈检测数据集用于信用卡欺诈检测 | PCA主要成分分析 | AiS-ML-Fin-2013-Euro-Fraud-Credit-Card-68MB |