一、赛题描述
赛题:环境空气质量评价挑战赛
主办方:北京林业大学
主页:https://challenge.xfyun.cn/topic/info?type=air-quality
背景
随着工业化和城镇化的快速发展,环境问题日益突出。空气污染是全球最重要的环境问题之一,影响着人们的健康、生产和生活。为了改善空气质量,我国加大监测和环保力度,增加空气质量监测站点,实施蓝天保卫战,并将空气质量水平与污染治理水平纳入部门工作考核。科学有效地评价空气质量,能够为预防和治理空气污染提供科学依据,有利于交通或环境管理部门实施污染控制,降低空气污染的影响,改善人类福祉。由于大气环境是受污染源、气象、人为因素的影响,因此需要客观综合地评价空气质量。
任务
每日环境空气质量评价需要综合各污染物的影响,本次大赛提供了每日AQI数据和主要污染物浓度数据,参赛选手需构建空气质量评价模型,根据提供的样本评价样本之间的相对污染程度。
二、数据集说明
数据说明
日期 | AQI | 质量等级 | PM2.5 | PM10 | SO2 | CO | NO2 | O3_8h |
---|---|---|---|---|---|---|---|---|
2016/7/1 | 59 | 良 | 32 | 67 | 9 | 0.7 | 32 | 94 |
2016/7/2 | 87 | 良 | 31 | 76 | 13 | 1 | 41 | 144 |
2016/7/3 | 61 | 良 | 31 | 72 | 9 | 0.8 | 25 | 101 |
2016/7/4 | 57 | 良 | 23 | 64 | 7 | 0.9 | 31 | 71 |
2016/7/5 | 65 | 良 | 32 | 80 | 6 | 0.9 | 26 | 89 |
2016/7/6 | 65 | 良 | 30 | 66 | 8 | 0.9 | 35 | 117 |
2016/7/7 | 66 | 良 | 31 | 81 | 11 | 1.1 | 37 | 114 |
2016/7/8 | 83 | 良 | 61 | 110 | 8 | 0.9 | 37 | 107 |
2016/7/9 | 135 | 轻度污染 | 103 | 131 | 9 | 0.9 | 26 | 87 |
2016/7/10 | 113 | 轻度污染 | 85 | 122 | 16 | 1 | 35 | 136 |
2016/7/11 | 163 | 中度污染 | 124 | 187 | 20 | 1.2 | 46 | 184 |
数据集版权许可协议
CC BY-NC-SA 4.0
https://aistudio.baidu.com/datasetdetail/233139
三、解决方案样例
导入相关系统库
import pandas as pd
from sklearn.linear_model import LinearRegression
【本样例运行环境的关键版本信息】
python 3.12.3
sklearn-compat 0.1.3
读入数据集
train_data = pd.read_csv('./data/train.csv')
test_data = pd.read_csv('./data/test.csv')
submit_sample = pd.read_csv('./data/submit_sample.csv')
训练 LinearRegression 模型并预测 IPRC 值
model = LinearRegression()
model.fit(train_data.iloc[:, 3:9], train_data['IPRC'])
# 预测结果
submit_sample['IPRC'] = model.predict(test_data.iloc[:, 3:9]).round(5)
submit_sample['date'] = test_data['日期']
submit_sample.to_csv('submit.csv', index=None)
源码开源协议
GPL-v3
https://zhuanlan.zhihu.com/p/608456168