(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 109003128 A(43)申请公布日 2018.12.14
(21)申请号 201810740582.5(22)申请日 2018.07.07
(71)申请人 太原理工大学
地址 030024 山西省太原市万柏林区迎泽
西大街79号(72)发明人 韩晓明 种颖珊 皇甫谦文
阎高伟 (74)专利代理机构 太原市科瑞达专利代理有限
公司 14101
代理人 卢茂春(51)Int.Cl.
G06Q 30/02(2012.01)G06Q 50/26(2012.01)G06K 9/62(2006.01)
权利要求书2页 说明书4页 附图6页
CN 109003128 A(54)发明名称
基于改进的随机森林公共自行车站点需求量预测方法(57)摘要
一种基于改进的随机森林公共自行车站点需求量预测方法,属于回归预测和智能优化领域。首先利用统计学习方法对变量进行分析,筛选出核心特征;接下来用分层聚类算法进行时空聚类,降低不同预测模型之间的相关性,然后利用对数优化方法对异常数据进行转换,减少异常数据对预测性能的影响,并利用泛化性能较好的随机森林构建预测模型。利用所建模型对未来一天中不同站点各个时段的自行车需求量进行了预测。经过真实数据验证,该方法对需求量预测具有较好的预测结果,可为实际车辆调度提供参考依据。提升了随机森林中各决策树的预测性能。
CN 109003128 A
权 利 要 求 书
1/2页
1.一种基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:包括以下步骤:
将用户用车数据、站点状态数据和气象数据进行融合处理;对数据进行分析处理,筛选出重要属性特征;对站点的出行数据进行分析,找出预测站点的关联站点;对站点的地理位置和转换矩阵进行时空聚类;对异常数据进行对数优化处理,消除异常值的影响;将上述分析结果作为随机森林的输入,提升随机森林中各决策树的预测性能。2.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述融合处理步骤是:(1)删除用户用车数据中的重复数据,只保留一条;(2)将相同时间间隔的出行记录进行计数,统计相同时间间隔的出行记录数,并与天气数据相对应。
3.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤2)对数据进行分析处理,筛选出重要属性特征的具体步骤如下:
1)对时间因子进行分析,通过图像分析,找出影响需求量的时间因子特征;2)对气象因子进行分析,通过皮尔森相关系数,找出与需求量关联较大的气象属性特征。
4.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤3)对站点的出行数据进行分析,找出预测站点的关联站点,具体步骤如下:
1)采用数据统计分析方法,统计出与预测站点借还次数最多的站点作为预测站点的相关站点;
2)将相关站点的需求量信息作为输入信息,输入随机森林模型。
5.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法, Si为第i个站点,Ci为第i个集群,
为站点的转换矩阵,其特征在于:所述步骤4)对站点的地
理位置和转换矩阵进行时空聚类,具体步骤如下:1)地理位置聚类;
首先根据站点经纬度信息将所有站点聚为K1类;2)转换矩阵的生成;
在第一步地理位置聚类的基础上,每个站点生成自身的转换矩阵;每一行代表在t时刻从第Si站点出借的自行车还到类Ci站点的可能性;3)转换矩阵聚类;
在生成转换矩阵
后,将站点聚为K2类;
就是最终的聚类结果。
6.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特
2
CN 109003128 A
权 利 要 求 书
2/2页
征在于:所述步骤5)对异常数据进行对数优化处理,消除异常值的影响;,具体步骤如下:
将原变量count加一,确保原变量count不为零;取新变量的对数,即new count = log(count+1);运用新变量建立随机森林模型;将预测值返回原格式,即 new predict count = exp(predict count)- 1。
7.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤6)将上述分析结果作为随机森林的输入,提升随机森林中各决策树的预测性能,即将时间因子、气象因子以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升随机森林中各决策树的预测性能,以预测公共自行车需求量。
3
CN 109003128 A
说 明 书
1/4页
基于改进的随机森林公共自行车站点需求量预测方法
技术领域
[0001]本发明属于回归预测和智能优化领域,特别涉及一种基于改进的随机森林公共自行车站点需求量预测方法.
背景技术
[0002]随着快速城市化和机动化进程的推进促成了国内外城市公共自行车系统的发展,城市公共自行车的出现不仅很大程度上缓解了交通压力,更以方便快捷、低碳环保的优点逐渐被众人欢迎。公共自行车系统是公共交通体系的重要组成部分,有效的解决城市居民出行“最后1公里”的问题.在其迅猛发展,为市民提供交通方便的同时,由于交通的潮汐性以及车辆调度的不及时,也面临着高峰时段的站点间不平衡问题。
[0003]无论是系统的布局优化还是系统车辆调度研究都离不开站点需求量,因此准确、高效的对需求量进行预测为系统布局及车辆调度奠定了基础。公共自行车交通不仅在时间和空间方面都是高度动态和相互关联的,而且还受时间和气象等复杂问题的影响,其需求量数据实际上是一个非线性的时间序列,以上研究通过概率回归和非线性拟合等方式得到历史数据的简单映射,但没有探究数据之间存在的时空联系;其次由于用户通常在临时的基础上选择靠近其来源或目的地的站点,所以预测单个站点的需求是困难的。现有的车站级自行车需求预测方法通常具有相对较低的精度。
发明内容
[0004]为了提高预测的精确度,本发明提出的基于改进的随机森林公共自行车站点需求量预测方法,对预测站点自行车需求量变化的时空规律,气象因素以及关联站点数据进行分析并作为特征因子加入预测模型,运用分层聚类算法和对数优化提升随机森林中各决策树的预测性能。
[0005]本发明的技术方案如下:[0006]1、将用户用车数据、站点状态数据和气象数据进行融合处理;所述融合处理步骤是:[0007](1)删除用户用车数据中的重复数据,只保留一条;[0008](2)将相同时间间隔的出行记录进行计数,统计相同时间间隔的出行记录数,并与天气数据相对应。[0009]2、对数据进行分析处理,筛选出重要属性特征:对时间因子进行分析,通过图像分析,找出影响需求量的时间因子特征;对气象因子进行分析,通过皮尔森相关系数,找出与需求量关联较大的气象属性特征。[0010]3、对站点的出行数据进行分析,找出预测站点的关联站点:采用数据统计分析方法,统计出与预测站点借还次数最多的站点作为预测站点的相关站点;将相关站点的需求量信息作为输入信息,输入随机森林模型。[0011]4、对站点的地理位置和转换矩阵进行时空聚类:Si为第i个站点,Ci为第i个集群,
4
CN 109003128 A
说 明 书
2/4页
为站点的转换矩阵,具体步骤如下:首先对地理位置聚类,根据站点经纬度信息将所有站点聚为K1类。接下来生成转换矩阵,在第一步地理位置聚类的基础上,每个站点生成自身的转换矩阵。每一行代表在t时刻从第Si站点出借的自行车还到类Ci站点的可能性。最后是转换矩阵聚类。在生成转换矩阵
[0012]
后,将站点聚为K2类。就是最终的聚类结果。
5、对异常数据进行对数优化处理,消除异常值的影响:首先将原变量(count)加一,确保其不为零;然后取新变量的对数,即new count=log(count+1);[0013]接下来运用新变量建立随机森林模型。最后将预测值返回原格式,即new predict count=exp(predict count)-1。[0014]6、将上述分析结果作为随机森林的输入,提升随机森林中各决策树的预测性能。[0015]即,将时间因子(月份、周、小时、高峰时刻、工作日、节假日),气象因子(温度,湿度,风速,天气类型)以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升随机森林中各决策树的预测性能,以预测公共自行车需求量。[0016]本发明以随机森林算法为方法构建自行车需求量预测模型。依托于租赁点日常自行车使用情况的详细统计数据,使用分层聚类算法将站点的两个因素(地理位置和车辆转换)进行聚类,得到站点的相关站点簇,对不同的簇分别建立预测模型,使得模型对同一簇内的数据更有针对性,从而提高预测精度;也对预测站点自行车需求量变化的时空规律,气象因素以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升了随机森林中各决策树的预测性能。附图说明
[0017]图1是本发明的网络架构图。
[0018]图2是本发明需求量时序变化规律。
[0019]图3是起始站点为70号站点的关联站点分析图。[0020]图4是终止站点为70号站点的关联站点分析图。[0021]图5是站点间网络关系图。[0022]图6是层次聚类算法流程图。[0023]图7是随机森林参数选择图。
具体实施方式
[0024]参照图1,基于随机森林和时空聚类的需求量预测模型方法架构如图所示:本发明对预测站点自行车需求量变化的时空规律,气象因素以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升随机森林中各决策树的预测性能。
[0025]下面通过一个实施例对本发明作进一步说明,其目的仅在于更好地理解本发明的研究内容而非本发明的保护范围。具体技术步骤如下:
[0026]1)本实例使用的数据为2013年8月至2016年8月加利福尼亚湾区的数据,地理位置及站点分布情况如图7所示。训练数据使用70号站点2013年8月1日至2015年12月31日骑行数据和气象数据,测试数据使用2016年1月1日至2016年8月31日。
5
CN 109003128 A[0027]
说 明 书
3/4页
2)公共自行车使用量受时间影响,进行时序变化规律分析,结果如图2所示。工作
日的交通情况类似:包括早高峰时段,白天时段,晚高峰时段和夜间时段,而周末/假日段的时段相似:包括夜间时段,旅行时段和晚时段。工作日的整个交通量比周末/假日的交通量要大得多,而在高峰时间/旅行时间内的交通量要比其他时间段的要大得多。尽管各站点之间自行车使用情况有所差异,但它们均与时间因素密切相关。因此,星期几,一天中的时间,工作日与否是自行车流量预测的重要特征。
[0028]3)自行车是一种受气象影响显著的交通工具。表1所示为2013年至2015年湾区公共自行车系统70号站点需求量与五种气象因子的相关性分析。由表可得,自行车需求量与五种气象因子都存在相关性,与温度、云量、天气情况均呈现显著正相关性,而同湿度、风速呈现负相关性。自行车需求量与风速和天气情况的相关性最高,分别为-0.26与0.36。[0029]表1需求量与气象因子的相关系数
[0030]
4)用户从某一租赁点租车,若干时间后还至附近另一租赁点,这种流动行为使得
租赁点与租赁点之间存在一定的关联:其中一个租赁点当前时刻的还车量与另一租赁点若干时间之前的租车量之间有一定的相关性。具体来讲一个站点的关联站点是通过两站点间的出行次数确定的。因此,预测某站点某时段需求量时,输入变量还应考虑与该站点有关联的其它站点的需求量。如图3、图4所示为美国湾区70号站点与其他站点之间的的关联性。由图3可知,从70号站点开始骑行的用户,大多会在50、55号站点结束骑行;由图4可知,当用户在70号站点结束骑行时,起始站点一般为50、55号站点。[0032]5)自行车需求量不仅受位置的影响,也受相关站点的影响。我们根据67个站点的路径转换信息描述站点间的关系,如图5所示。图5表明,站点间存在复杂网络特性。本文根据站点的地理位置和路径转换信息采用K-means算法进行聚类,图6表示了两次聚类算法的过程,该算法有机的结合了两因素:站点的位置和转换关系。[0033]6)当数据有异常值时,变量的对数是减少数据变异性的有效手段。在构建随机森林模型时,目标变量:自行车需求量(count)具有一些异常值。数据波动较大,使用此类数据会降低模型的准确性。为了解决这个问题,对目标变量应用对数变换。数据的对数优化分为以下四步:将原变量(count)加一,确保其不为零;取加1后变量的对数作为新变量,即log(count+1);运用新变量建立随机森林模型;将预测值返回原格式,即exp(新变量)-1。[0034]7)将时间因子(月份、周、小时、高峰时刻、工作日、节假日),气象因子(温度,湿度,风速,天气类型),关联站点系信息和聚类结果作为预测模型的输入数据,并进行对数优化以预测公共自行车需求量。
[0035]8)影响随机森林算法性能最主要有两个,分别是随机森林算法树的数量以及构建树时所用特征的数量,图7展示了使用不同参数构建随机森林预测模型的结果,考虑到时间消耗以及模型的精确度,采用树的数量为180,特征数量为5来构建预测模型。[0036]9)为了验证本实例所选择特征和算法组合的有效性,分别使用特征或算法的组合构建预测模型并使用上述测试集进行测试,结果由表2所示。由表可得,每在模型中加入一
6
[0031]
CN 109003128 A
说 明 书
4/4页
个特征或算法,自行车需求量预测结果的均方根误差和均方根对数误差均会得到显著降低。
[0037]表2特征与算法选择结果
[0038]
10)本实施例将改进的随机森林算法与其他机器学习算法进行了比较。结果如表3
所示。由表3可得,本文提出的模型在均方根误差、均方根对数误差均比以前的模型有明显的提升,表明本发明所提出的模型与其他预测模型相比,具有更高的预测精度。[0040]表3算法效果对比
[0039]
[0041]
[0042]
综合上述实验结果可以看出,本文所提出的自行车需求量预测模型在真实数据集
上得到了良好的运行效果。
7
CN 109003128 A
说 明 书 附 图
1/6页
图1
8
CN 109003128 A
说 明 书 附 图
2/6页
图2
9
CN 109003128 A
说 明 书 附 图
3/6页
图3
10
CN 109003128 A
说 明 书 附 图
4/6页
图4
11
CN 109003128 A
说 明 书 附 图
5/6页
图5
图6
12
CN 109003128 A
说 明 书 附 图
6/6页
图7
13