一、问题描述
淘宝母婴购物数据集是一个包含母婴用品购买信息的庞大资源,对于理解母婴市场的消费者行为、商品趋势等具有重要价值。
数据集的应用和研究方向:
- 流量分析:分析商品销量随时间的变化规律。
- 类别分析:研究不同类目商品的销量分布和价值。
- 性别分析:探究不同性别婴幼儿的购买行为差异。
- 用户行为预测:根据父母购买行为预测子女的年龄或商品偏好。
数据集对母婴市场的意义:
淘宝母婴购物数据集为母婴市场提供了深入的分析视角,帮助商家和开发者更好地理解消费者需求,优化产品和服务。通过对数据集的分析和应用,可以更有效地定位市场,提升用户体验,从而推动母婴电商行业的发展。
二、数据集内容
Ali_Mum_Baby是一个包含超过900万儿童信息(生日和性别)的数据集。该数据集的交易时间范围通常是从2012年7月到2015年2月。这段时间涵盖了约两年半的母婴商品交易记录。这些信息由消费者提供,他们分享这些信息是为了获得更好的推荐或搜索结果。基于该数据集可进行的研究主题包括:根据父母的购买行为预测儿童的年龄,或者根据用户的儿童信息(年龄、性别等)预测用户会购买哪种商品。
数据结构
消费者信息
文件:tianchi_mum_baby.csv
字段定义:
Column | Description |
---|---|
user_id | User ID (big-int). |
birthday | Children’s birthday (e.g. 20130423). |
gender | Children’s gender (“0” denotes female, “1” denotes male, “2” denotes unknown). |
数据样例:
user_id | birthday | gender |
---|---|---|
2757 | 20130311 | 1 |
415971 | 20121111 | 0 |
1372572 | 20120130 | 1 |
交易信息
文件: tianchi_mum_baby_trade_history.csv
Column | Description |
---|---|
auction_id | Auction ID (big-int). |
user_id | User ID (big-int). |
cat_id | Category ID (big-int). |
cat1 | Root category ID (big-int). |
property | Property of the corresponding item (String). |
buy_mount | Purchase quantity (big-int). |
day | Timestamp. |
数据样例:
user_id | auction_id | cat_id | cat1 | property | buy_mount | day |
---|---|---|---|---|---|---|
786295544 | 41098319944 | 50014866 | 50022520 | 21458:86755362;13023209:3593274;10984217:21985;122217965:3227750;21477:28695579;22061:30912;122217803:3230095;21479:106713;1628665:29790;1628665:31614;1628665:61550;1628665:3233938;1628665:82340;21967:29841 | 2 | 20140919 |
532110457 | 17916191097 | 50011993 | 28 | 21458:11399317;1628862:3251296;21475:137325;1628861:30753;32959:104027;1628665:3233941;1628665:3233942;1628665:3233939;1628665:92012;1628665:29790;1628665:31614;1628665:61550;1628665:3233940;1628665:3233936;1628665:3233937;1628665:29798;1628665:29778;1628665:3233938;1628665:82340;1628665:29787;1628665:29784;1628665:29793;1628665:131622;1628665:29796;1628665:133527;1628665:108579;1628665:29785;1628665:29782;31367:82125;3989193:31542;3989126:3726638;32549:65569917;32549:75472461;32549:26762606;32549:99061;32549:99060;32549:99201;32549:75475273;32549:99063;11684888:104528258 | 1 | 20131011 |
249013725 | 21896936223 | 50012461 | 50014815 | 21458:30992;1628665:92012;1628665:3233938;1628665:3233942 | 1 | 20131011 |
数据集版权许可协议
The dataset is distributed under CC BY-NC 4.0 license.