淘宝母婴购物数据集(2012-2015)

一、问题描述

淘宝母婴购物数据集是一个包含母婴用品购买信息的庞大资源,对于理解母婴市场的消费者行为、商品趋势等具有重要价值。

数据集的应用和研究方向:

  • 流量分析:分析商品销量随时间的变化规律。
  • 类别分析:研究不同类目商品的销量分布和价值。
  • 性别分析:探究不同性别婴幼儿的购买行为差异。
  • 用户行为预测:根据父母购买行为预测子女的年龄或商品偏好。

数据集对母婴市场的意义:

淘宝母婴购物数据集为母婴市场提供了深入的分析视角,帮助商家和开发者更好地理解消费者需求,优化产品和服务。通过对数据集的分析和应用,可以更有效地定位市场,提升用户体验,从而推动母婴电商行业的发展。

二、数据集内容

Ali_Mum_Baby是一个包含超过900万儿童信息(生日和性别)的数据集。该数据集的交易时间范围通常是从2012年7月到2015年2月。这段时间涵盖了约两年半的母婴商品交易记录。这些信息由消费者提供,他们分享这些信息是为了获得更好的推荐或搜索结果。基于该数据集可进行的研究主题包括:根据父母的购买行为预测儿童的年龄,或者根据用户的儿童信息(年龄、性别等)预测用户会购买哪种商品。

数据结构

消费者信息

文件:tianchi_mum_baby.csv

字段定义:

ColumnDescription
user_idUser ID (big-int).
birthdayChildren’s birthday (e.g. 20130423).
genderChildren’s gender (“0” denotes female, “1” denotes male, “2” denotes unknown).

数据样例:

user_idbirthdaygender
2757201303111
415971201211110
1372572201201301

交易信息

文件: tianchi_mum_baby_trade_history.csv

ColumnDescription
auction_idAuction ID (big-int).
user_idUser ID (big-int).
cat_idCategory ID (big-int).
cat1Root category ID (big-int).
propertyProperty of the corresponding item (String).
buy_mountPurchase quantity (big-int).
dayTimestamp.

数据样例:

user_idauction_idcat_idcat1propertybuy_mountday
78629554441098319944500148665002252021458:86755362;13023209:3593274;10984217:21985;122217965:3227750;21477:28695579;22061:30912;122217803:3230095;21479:106713;1628665:29790;1628665:31614;1628665:61550;1628665:3233938;1628665:82340;21967:29841220140919
53211045717916191097500119932821458:11399317;1628862:3251296;21475:137325;1628861:30753;32959:104027;1628665:3233941;1628665:3233942;1628665:3233939;1628665:92012;1628665:29790;1628665:31614;1628665:61550;1628665:3233940;1628665:3233936;1628665:3233937;1628665:29798;1628665:29778;1628665:3233938;1628665:82340;1628665:29787;1628665:29784;1628665:29793;1628665:131622;1628665:29796;1628665:133527;1628665:108579;1628665:29785;1628665:29782;31367:82125;3989193:31542;3989126:3726638;32549:65569917;32549:75472461;32549:26762606;32549:99061;32549:99060;32549:99201;32549:75475273;32549:99063;11684888:104528258120131011
24901372521896936223500124615001481521458:30992;1628665:92012;1628665:3233938;1628665:3233942120131011

数据集版权许可协议

The dataset is distributed under CC BY-NC 4.0 license.

三、获取案例套件

需要登录后才允许下载文件包。登录

发表评论