摘要:
合集:AI案例-ML-泛金融业
AI问题:分类问题
数据集:2013年欧洲地区信用卡欺诈检测数据集
数据集价值:信用卡欺诈检测
解决方案:PCA主要成分分析
一、问题描述
信用卡公司需要发现信用卡交易系统中的异常情况。数据集旨在建立信用卡欺诈检测数据模型。我们将使用交易及其标注作为欺诈或非欺诈来检测客户进行的新交易是否为欺诈。
二、数据集内容
数据集creditcard.csv包含2013年9月欧洲持卡人通过信用卡进行的交易。该数据集显示了两天内发生的交易,在284,807笔交易中,我们有492起欺诈。数据集高度不平衡,欺诈(阳性)类别占所有交易的0.172%。
数据结构
数据样例如下:
Time | V1 | V2 | V-n | V28 | Amount | Class |
---|---|---|---|---|---|---|
0 | -1.359807134 | -0.072781173 | .. | -0.021053053 | 149.62 | 0 |
0 | 1.191857111 | 0.266150712 | .. | 0.014724169 | 2.69 | 0 |
1 | -1.358354062 | -1.340163075 | .. | -0.059751841 | 378.66 | 0 |
1 | -0.966271712 | -0.185226008 | .. | 0.061457629 | 123.5 | 0 |
数据集只包含数值输入变量,这些变量是PCA转换的结果。由于保密问题,未提供原始特征和更多关于数据的背景信息。字段V1、V2、… V28是通过PCA获得的主要成分,唯一没有经过PCA转换的特征是“时间”和“金额”。时间字段包含了每笔交易与数据集中第一笔交易之间经过的秒数。金额字段是交易金额,这个特征可以用于例如依赖成本的敏感学习。类别字段是响应变量,如果发生欺诈则取值为1,否则为0。 鉴于类别不平衡比率,我们建议使用精确度-召回曲线(AUPRC-Precision-Recall Curve)以下的面积来衡量准确性。对于不平衡分类,混淆矩阵准确性没有意义。
PCA转换
PCA transformation 的英文全称是 “Principal Component Analysis transformation”。PCA(主要成分分析)转换是一种常用的降维技术,用于将高维数据集转换为低维数据集,同时保留尽可能多的数据变异性或信息。PCA通过找到数据中的主要变化方向(称为主要成分),并将数据投影到这些方向上来实现降维。
以下是PCA转换的基本步骤:
1. 数据标准化
在进行PCA之前,通常需要对数据进行标准化处理,使得每个特征的均值为0,标准差为1。这是因为PCA对数据的尺度非常敏感。
2. 计算协方差矩阵
协方差矩阵反映了各个特征之间的关系。PCA通过分析协方差矩阵来确定哪些特征是相关的,哪些是不相关的。
3. 计算特征值和特征向量
通过对协方差矩阵进行特征分解,得到特征值和对应的特征向量。特征值表示每个主要成分的方差,特征向量表示主要成分的方向。
4. 选择主要成分
根据特征值的大小,选择最重要的主要成分。通常会选择那些解释了大部分数据变异性的主要成分。
5. 数据投影
将原始数据投影到选定的主要成分上,得到降维后的数据。
应用场景
- 降维:减少数据的维度,同时保留主要信息。
- 去噪:去除数据中的噪声成分。
- 可视化:将高维数据映射到二维或三维空间以便于可视化。
- 特征提取:从原始特征中提取出更有代表性的新特征。
注意事项
- PCA假设数据的主要变化方向是线性的。
- PCA是一种线性变换方法,对于非线性数据可能效果不佳。
- PCA对异常值敏感,异常值可能会影响主要成分的计算。
总之,PCA转换是一种强大的工具,广泛应用于数据分析、机器学习和模式识别等领域。
数据集使用许可协议
Database Contents License (DbCL) v1.0