一、问题描述
客户细分是无监督学习最重要的应用之一。利用聚类技术,公司可以识别出几个客户细分市场,从而让他们能够针对潜在的不同用户群体提供不同服务。
一家公司销售某种产品,您想知道该产品的销售业绩如何。我们有可以分析的数据,但我们可以进行哪种分析呢?好吧,我们可以根据客户在市场中的购买行为对客户进行细分。因为数据量非常大,我们不能仅凭肉眼进行分析。我们可以使用机器学习算法和计算能力来处理它。
二、数据集内容
客户在线消费数据集包含2400名客户的在线购买历史,共计54万条样本。交易发生时间主要在2010年前后。
数据结构
以下为该数据集Online Retail.xlsx的记录样例,可获知各个字段的定义:
InvoiceNo | StockCode | Description | Quantity | InvoiceDate | UnitPrice | CustomerID | Country |
---|---|---|---|---|---|---|---|
536365 | 85123A | WHITE HANGING HEART T-LIGHT HOLDER | 6 | 2010/12/1 8:26 | 2.55 | 17850 | United Kingdom |
536365 | 71053 | WHITE METAL LANTERN | 6 | 2010/12/1 8:26 | 3.39 | 17850 | United Kingdom |
536365 | 84406B | CREAM CUPID HEARTS COAT HANGER | 8 | 2010/12/1 8:26 | 2.75 | 17850 | United Kingdom |
536365 | 84029G | KNITTED UNION FLAG HOT WATER BOTTLE | 6 | 2010/12/1 8:26 | 3.39 | 17850 | United Kingdom |
536365 | 84029E | RED WOOLLY HOTTIE WHITE HEART. | 6 | 2010/12/1 8:26 | 3.39 | 17850 | United Kingdom |
536365 | 22752 | SET 7 BABUSHKA NESTING BOXES | 2 | 2010/12/1 8:26 | 7.65 | 17850 | United Kingdom |
536365 | 21730 | GLASS STAR FROSTED T-LIGHT HOLDER | 6 | 2010/12/1 8:26 | 4.25 | 17850 | United Kingdom |
许可协议
Deed – CC0 1.0 Universal – Creative Commons
三、客户细分算法
K均值算法/K-means Algorithm
在使用k均值聚类算法时,第一步是指定我们希望在最终输出中产生的簇的数量(k)。算法首先从数据集中随机选择k个对象,这些对象将作为我们簇的初始中心。这些选定的对象是簇均值,也称为质心。然后,剩余的对象被分配给最近的质心。这个质心是由对象和簇均值之间的欧几里得距离定义的。我们将这一步称为“簇分配”。当分配完成后,算法继续计算数据中每个簇的新均值。在重新计算中心之后,检查观测值是否更靠近不同的簇。使用更新后的簇均值,对象进行重新分配。这个过程会重复多次迭代,直到簇分配停止改变。当前迭代中存在的簇与前一次迭代中获得的簇相同。