AI回归预测模型的性能评估指标

AI回归问题预测的是连续值（如房价、温度、销售额），其评估指标主要衡量预测值与真实值之间的误差。测试集用于评估模型的性能。在模型训练完成后，我们会使用测试集来评估某一模型在未见过的数据上的表现，以了解模型的泛化能力。通过测试集的评估，我们会得到一些最终的评估指标。

一、评估指标

以下是传统机器学习领域回归预测模型的性能评估指标及其适用场景：

1. 误差类指标

均方误差 (MSE-Mean Squared Error)

$$ MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i – z_i)^2 $$

参数意义：
- y_i：真实值
- z_i：预测值
- n：样本量
适用场景：
- 对异常值敏感的场景（平方放大误差）
- 需要惩罚大误差的任务（如金融风险预测）
缺点：量纲与原始数据不一致（平方单位）

均方根误差 (RMSE-Root Mean Squared Error)

$$ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i – \hat{y}_i)^2} $$

适用场景：
- 需要与目标变量同量纲的误差度量（如房价预测的美元误差）
- 比MSE更直观解释
缺点：仍受异常值影响

平均绝对误差 (MAE-Mean Absolute Error)

$$ MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i – \hat{y}_i| $$

适用场景：
- 需要鲁棒性强的评估（如存在噪声数据）
- 误差分布为拉普拉斯分布时最优
优点：量纲与原始数据一致，解释直观

平均绝对百分比误差 (MAPE-Mean Absolute Percentage Error)

$$ MAPE = \frac{100\%}{n}\sum_{i=1}^{n}\left|\frac{y_i – \hat{y}_i}{y_i}\right| $$

适用场景：
- 需要相对误差度量的任务（如销量预测的百分比误差）
- 跨量纲数据比较（如不同商品销量）
缺点：
- 当y_i=0时无定义
- 对负值敏感（如预测收益时）

2. 拟合优度指标

决定系数 (R^2-Coefficient of Determination)

R平方（R²，拟合优度）是回归分析中衡量模型解释数据变异能力的指标，其定义为：

$$
R^2 = 1 – \frac{\text{SS}_{\text{res}}}{\text{SS}_{\text{tot}}}
$$

其中：分子为残差平方和，分母为相对于目标变量均值的总平方和。

$R^2 = 1 - {\sum_{i=1}^{n}(y_i - \hat{y}_i)^2} / {\sum_{i=1}^{n}(y_i - \bar{y})^2}$

适用场景：
- 评估模型对数据方差的解释能力
- 比较不同模型在相同数据集上的表现
缺点：
- 在特征数量p增加时可能虚假升高
- 可能为负值（模型差于均值预测）

调整决定系数 (Adjusted R^2-Adjusted Coefficient of Determination)

$$ \text{Adjusted } R^2 = 1 – \frac{(1-R^2)(n-1)}{n-p-1} $$

适用场景：
- 多元线性回归中避免过拟合
- 特征数量p较大时的模型选择
优点：惩罚冗余特征

3. 改进型百分比误差指标

对称平均绝对百分比误差 (sMAPE-Symmetric Mean Absolute Percentage Error)

$$ \text{sMAPE} = \frac{100\%}{n}\sum_{i=1}^{n} \frac{|y_i – \hat{y}_i|}{(|y_i|+|\hat{y}_i|)/2} $$

适用场景：
- 真实值y_i可能接近零的任务（如库存预测）
- 替代MAPE解决零值问题
缺点：可能偏向低估预测值

均方根对数误差 (RMSLE-Root Mean Squared Logarithmic Error)

$$ \text{RMSLE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\log(y_i+1) – \log(\hat{y}_i+1))^2} $$

适用场景：
- 目标变量范围大且呈指数分布（如用户活跃度预测）
- 重视小误差的惩罚（如预测值10→20比1000→1010惩罚更重）

4. 归一化指标

归一化均方根误差 (nRMSE-Normalized Root Mean Squared Error)

$$ \text{nRMSE} = \frac{RMSE}{y_{\text{max}} – y_{\text{min}}} $$

适用场景：
- 不同量纲数据集的模型比较
- 目标变量范围已知且稳定

二、指标选择指南

场景需求	推荐指标	原因
异常值敏感任务	MSE/RMSE	平方惩罚大误差
鲁棒性要求高	MAE/sMAPE	对异常值不敏感
百分比解释需求	MAPE/sMAPE	直观的相对误差
多模型比较（同数据集）	R^2/Adjusted R^2	标准化评估解释方差能力
目标变量范围差异大	RMSLE/nRMSE	消除量纲影响
零值或负值存在	sMAPE/RMSLE	避免除以零或负值问题

注意事项

指标组合使用：建议同时报告MAE+R^2或 RMSE+MAPE，兼顾绝对误差和相对性能。
业务对齐：如金融领域更关注MSE（大误差代价高），库存管理偏好sMAPE。