一、问题描述
自行车共享系统是新一代的传统自行车租赁方式,整个过程从会员注册、租赁到归还已经变得自动化。通过这些系统,用户可以轻松地在特定位置租借自行车,并在另一个位置归还。目前,全球大约有超过500个自行车共享项目,由超过50万辆自行车组成。如今,由于这些系统在交通、环境和健康问题中的重要作用,人们对它们产生了极大的兴趣。除了自行车共享系统的有趣实际应用外,这些系统产生的数据特性也使它们对研究具有吸引力。与其他交通服务(如公交车或地铁)相比,这些系统明确记录了旅行的持续时间、出发和到达位置。这一特点使自行车共享系统成为一个虚拟传感器网络,可用于感知城市中的流动性。因此,预计大多数城市中的重要事件都可以通过监测这些数据来检测。
二、数据集内容
华盛顿共享单车租赁数据集包括了时间跨度为 2011 年 1 月 1 日至 2018 年 12 月 31 日的华盛顿DC地区每日共享单车客户和天气数据。这个数据集包含了有关骑行持续时间、出发地点、到达地点和经过时间的信息,还包含了每一天每小时的天气信息。
数据结构
文件
- hour.csv:按小时汇总的共享单车计数。记录:17,379小时
- day.csv – 按天汇总的共享单车计数。记录:731天
字段信息
- instant:记录索引
- dteday:日期
- season:季节(1:春季,2:夏季,3:秋季,4:冬季)
- yr:年份(0:2011,1:2012)
- mnth:月份(1至12)
- hr:小时(0至23)
- holiday:天气日是否为假日(从http://dchr.dc.gov/page/holiday-schedule提取)
- weekday:星期几
- workingday:如果日子既不是周末也不是假日,则为1,否则为0。
+ weathersit:
- 1:晴朗,少云,局部多云,局部多云
- 2:雾+多云,雾+破碎的云,雾+少云,雾
- 3:小雪,小雨+雷暴+散云,小雨+散云
- 4:大雨+冰雹+雷暴+雾,雪+雾
- temp:摄氏度的标准化温度。值除以41(最大值)
- atemp:摄氏度的标准化感觉温度。值除以50(最大值)
- hum:标准化的湿度。值除以100(最大值)
- windspeed:标准化的风速。值除以67(最大值)
- casual:临时用户的数量
- registered:注册用户的数量
- cnt:包括临时和注册用户的总租赁自行车数量
数据集引用要求
Use of this dataset in publications must be cited to the following publication:
[1] Fanaee-T, Hadi, and Gama, Joao, "Event labeling combining ensemble detectors and background knowledge", Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg, doi:10.1007/s13748-013-0040-3.
@article{
year={2013},
issn={2192-6352},
journal={Progress in Artificial Intelligence},
doi={10.1007/s13748-013-0040-3},
title={Event labeling combining ensemble detectors and background knowledge},
url={http://dx.doi.org/10.1007/s13748-013-0040-3},
publisher={Springer Berlin Heidelberg},
keywords={Event labeling; Event detection; Ensemble learning; Background knowledge},
author={Fanaee-T, Hadi and Gama, Joao},
pages={1-15}
}
三、应用
逻辑回归
基于环境和季节设置,预测每小时或每天的自行车租赁数量。
事件和异常检测
租赁自行车的数量也与城镇中的一些事件相关联,这些事件可以通过搜索引擎轻松追踪。例如,在搜索引擎中查询“2012-10-30 华盛顿特区”会返回与飓风桑迪相关的结果。因此,这些数据也可用于验证异常或事件检测算法。