WO2021248607A1

WO2021248607A1 - 一种基于深度强化学习的出租车调度方法及系统

Info

Publication number: WO2021248607A1
Application number: PCT/CN2020/101096
Authority: WO
Inventors: 刘志丹; 李江舟; 伍楷舜
Original assignee: 深圳大学
Priority date: 2020-06-10
Filing date: 2020-07-09
Publication date: 2021-12-16
Also published as: CN111862579B; CN111862579A

Abstract

本发明涉及一种基于深度强化学习的出租车调度方法及系统，所述系统包括：区域构建模块、需求预测模块、车辆调度模块、模拟器；所述方法包括：S1：形成区域网络；S2：预测任意区域在任意的时间中将会出现的订单数量；S3：计算出一个区域总的车辆供应；获取每个区域的需求/供应状态；S4：将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中，得到该车辆的调度策略，确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。本发明实现对空闲出租车进行调度，增加了订单匹配成功率，减少了乘客的等待时间，提高了出租车使用率。

Description

一种基于深度强化学习的出租车调度方法及系统

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种基于深度强化学习的出租车调度方法及系统。

背景技术

新兴的大型现代乘车平台的出现极大的有益于我们的日常旅行，它允许乘客提前预订旅行计划并实时的将可用出租车与乘车请求进行匹配。尽管这样的系统每天可以为城市中数百万个乘车请求和数万辆出租车提供服务，但是由于部分乘客附近可能缺乏可用的出租车，因此每天仍然会造成大量请求没能被服务到。另一方面，在其他地方，可能又会出现大量的空闲出租车在寻找乘客，造成出租车资源的浪费。在城市中不同地理位置之间的出租车供需不平衡现象普遍存在，这将严重降低整个城市出租车系统的效率并导致糟糕的用户体验。

出租车调度可通过主动将可用的空闲出租车重新分配到某些区域来更好的满足未来的乘车要求，从而平衡出租车需求和供应之间的差异。高效的出租车调度策略可以显着增加订单匹配成功率，减少乘客的等待时间，提高出租车使用率。现有的方法有利用多维数据卷积合成多通道图像，通过卷积神经网络输入，利用深度强化学习模型及滚动时域控制(receding horizon control)进行调度的方法(Takuma,Oda.,&Carlee,Joe-Wong.(2018).MOVI:A Model-Free Approach to Dynamic Fleet Management.)，也有直接将各种数据输入进深度强化学习模型中，利用多智能体进行调度的方法(Kaixiang,Lin.,Renyu,Zhao.,Zhe,Xu.,&Jiayu,Zhou.(2018).Efficient Large-Scale Fleet Management via Multi-Agent Deep Reinforcement Learning.)。这些方法存在着以下问题：1)没有考虑道路网络结构，简单的用一定边长的格子划分区域，相邻的区域仅仅是坐标邻近而不是在道路网络关系上邻近，从而导致在调度中产生的决策往往不符合道路网络结构，很有可能导致出租车绕路，甚至无法到达，从而降低调度效率。2)现有的利用强化学习的方法直接将多维复杂数据输入车辆调度模型中得到决策结果，没有将潜在订单需求预测和车辆调度策略这两个相互独立的任务分离开来，这样大大增加了状态空间的复杂程度，使得模型难以收敛，而且也不具有可解释性，不能直观的反映出不同区域出租车需求和供应之间的关系。3)现有的工作缺乏对调度决策的相互依赖进行设计，或是一个区域的出租车统一行动，或是独立决策，不能反映出历史决策对当前决策的影响。

发明内容

本发明提供一种基于深度强化学习的出租车调度方法及系统，对空闲出租车进行调度，旨在增加订单匹配成功率，减少乘客的等待时间，提高出租车使用率。

所述方法包括以下步骤：

S1：根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类，根据区域中心之间在道路网络上的距离远近关系确定邻居，从而形成区域网络；

S2：根据形成的区域网络应用基于图卷积神经网络(GCN)所构建的需求预测模型利用历史订单数据，预测任意区域在任意的时间中将会出现的订单数量；

S3：根据调度系统实时得到的数据计算出一个区域总的车辆供应量；

根据一个区域总的订单数量的预测值和总的车辆供应量，获取每个区域的需求/供应状态；

S4：将任意空闲车辆所在区域和邻居区域的状态输入训练好的基于深度Q网络的(DQN)出租车调度模型中，得到该车辆的调度策略，确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。

优选地，构建区域聚类的方法包括以下步骤：

S1.1：将选定城市的道路网络建模为有向图G(V,E)，其中每个顶点v∈V代表一个地理位置即道路交叉点，每个边e∈E代表一个路段，每个边e都通过计算cost(e)得到旅行成本作为边e的权重。

S1.2：将整个城市按照相同间隔的经纬度划分成M个矩形格子，对于每一个格子，在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点，同样，边e也连同其中心顶点v一起被分类给对应的区域；

每个区域Z维护以下的信息：区域中心顶点Z ^c，顶点集Z ^v，边集Z ^e和总权重Z ^w；

将所有未分配的顶点v，未分配的顶点以集合U表示，分类给各个区域Z＝{Z _i,i＝1,…,M}；

S1.3：选择所有区域Z中总权重Z ^w最小的区域为目标区域Z _tar以添加新的顶点v和边e；

S1.4：遍历所有未分配的顶点v，找出最小的顶点v到目标区域Z _tar的顶点-区域距离dis(v,Z _tar)；此距离被定义为顶点v到区域中心Z ^c的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和；

如果顶点-区域距离dis(v,Z _tar)小于等于一个可调整的参数阈值，即最大区域范围ε，则添加顶点v进入目标区域的顶点集

并添加源头始于顶点v的边e进目标区域的边集

接着目标区域的总权重

将加上顶点-区域距离dis(v,Z _tar)；

然后在未分配的顶点集合U中删除此顶点v；如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域，并返回S1.3。

S1.5：重复S1.3和S1.4直到未分配顶点集U为空为止，将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域。

对于给定的区域Z _i，将前κ个最近的区域定义为其邻居N _Zi＝{Z _j,j＝1,…,κ}，其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。

优选地，顶点-区域距离的计算公式如下：

dis(v,Z)＝[cost(v,Z ^c)+cost(v,v′)]

优选地，S2的具体过程如下：

将地图上的每个区域定义为一个顶点，如果两个区域紧邻，则会形成一条边；给定区域分布，构建区域图G ^Z＝(Z _all,Α)，其中Z _all是所有区域的集合，所有区域的总数表示为|Z|，并且Α∈R ^|Z|×|Z|是区域邻接矩阵，指示区域之间的连接；以此计算区域图的拉普拉斯矩阵，计算方法如下：

其中I∈R ^|Z|×|Z|是图G ^Z的单位矩阵，D∈R ^|Z|×|Z|是图G ^Z的度矩阵；

图卷积神经网络(GCN)函数定义为：

H ^λ+1＝σ(L H ^λW ^λ)

其中H ^λ表示第λ层中的特征，W ^λ是第λ层的可训练的权重矩阵，激活函数σ采用修正线性单元(Rectified Linear Unit，ReLU)；

将影响每个区域Z _i内出租车订单的因素合并表示为特征向量

其中

分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速；

根据消息传递函数捕获局部和全局的结构模式，用于最终需求预测；

接着，将所有特征经过正则化处理后输入进GCN的输入层H ⁰进行预测，输入|Z|×10的特征矩阵，输出值为|Z|×1的预测值矩阵，代表预测的每个区域Z _i下一个时隙的订单数量。

优选地，车辆供应量计算公式为：

其中

分别表示在时隙t _j时在区域Z _i内下车的出租车的数量；在时隙t _j时停留在Z _i区域内的可用出租车的数量；以及在时隙t _j-1被调度到区域Z _i，并将在时隙t _j到达区域Z _i的出租车的数量。

优选地，出租车调度模型(基于DQN模型)的训练过程如下：

S4.1：将DQN模型内的经验回放池中所有上一个时隙的经验中的s _t和r _t补全，其中s _t由新的时隙下系统观测得到，r _t由奖励函数得到；在上一个时隙(t-1)中的下一时隙为t，此时的st为t时隙的状态信息，rt为t时隙下关于st和at的奖励。

S4.2：将过渡元组(s _t,a _t,r _t+1,s _t+1)储存在DQN模型内的经验回放池中，其中r _t+1和s _t+1暂时无法得到，因此暂时保留等待后续补全；

S4.3：每当经过B个时隙后进行一次经验回放，回放数为批次大小b；

S4.4：利用Q网络和目标网络根据损失函数公式计算得到均方误差，应用自适应估计的优化方法进行权重的迭代更新；

损失函数公式为：

其中θ和θ′分别是Q网络和目标网络的权值，γ是折扣因子，r是奖励值， a*是在参数θ′和状态s下得到的动作，a是在参数θ和状态s下得到的动作，E在数学中表示期望，因此此损失函数的公式为理论值，需要训练逼近期望。整个损失函数代表着目标Q值和预测Q值之间的均方误差。

S4.5：将Q网络中的权重实时更新，而目标网络中的权重每隔若干个时隙和Q网络的权重进行一次同步，以便构建出有意义的不震荡的目标Q值，用于优化网络权重的损失函数；最终当达到预设的迭代步数后，得到训练完成的出租车调度模型。

一般迭代步数是人为根据训练目标设置的，一般为平均最大Q值处于稳定的状态一定步数后停止训练。

优选地，奖励函数为：

其中，

为区域Z _i的供求比，

为区域Z _g的供求比；

和

表示在时间t _j-1区域Z _i的实际供应和实际需求，系统可以在时间t _j观察到。

本发明还提供一种基于深度强化学习的出租车调度系统，所述系统用来实现本发明所述方法，所述系统包括：区域构建模块、需求预测模块、车辆调度模块、模拟器；

区域构建模块用来构建区域网络；

需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量；

车辆调度模块负责车辆的调度以及出租车调度模型的训练更新；

模拟器模拟外部环境，并根据实际情况训练强化深度学习算法，以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。

首先本发明的车辆调度模块表示为：将调度中心视为智能体(Agent)，连续跟踪所有出租车和乘车请求的实时信息(例如，位置和状态)，在每个时隙结束后，调度中心会根据上下文状态利用DQN模型为每个可用的出租车生成新的调度策略，从而实现优化全局出租车的供需平衡。

在实践中，将可用的出租车调度到较远的区域效率低下。同样，遥远区域的状态也对当下出租车的调度行为影响微乎其微且难以预料。因此，本发明优化了同一区域中所有可用出租车的状态空间和动作空间，从而降低了计算复杂度并使车辆调度可以用于城市规模的乘车服务。相邻区域之间的出租车调度可以有效且快速的缓解需求-供应不平衡。因此，在上文的构建区域模块中已经对于给定的区域Z _i，确定了前κ个最近的邻居区域N _Zi＝{Z _j,j＝1,…,κ}。一个时隙内的车辆调度策略只会使车辆在相邻的区域内调度。

此外，本发明不会对同一区域中的所有可用出租车做出相同的决定或独立为出租车做出动作，而是顺序的对所有可用的出租车采取行动，以确保出租车之间的协调。因为一旦将闲置的出租车送往特定区域，它实质上已经改变了下一个时隙的供需环境，这将影响其他后续出租车的行动。基于这些考虑，本发明设计了如下的基于DQN的车辆调度模块。

所述车辆调度模块可实现以下功能：

(1)上下文状态：

由于将所有外部因素迁移到出租车需求预测模型，因此可以采用简单的状态表示形式，主要包含区域级别的需求供应信息。具体来说，每个出租车调度时所在区域对应的状态定义为：对于每一个可用出租车所在的区域Z _i，包括区域IDi，Z _i的需求和供应数据以及Z _i的所有相邻区域的需求和供应数据。如果Z _i的邻居不足(<κ)，则剩余字段将用零填充。对于每个区域Z _i，时隙t _j的出租车需求

由GCN预测器提供，而其出租车供给

可以综合估算为：

其中

(2)调度行动：

每个可用的出租车都有(κ+1)个可能的动作，每个动作都会将出租车调度到特定区域。具体来说，a _t＝i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域，而a _t＝0则表示该出租车在时间t继续停留在当前区域。本发明会顺序的对所有可用的出租车采取行动，以确保出租车之间的协调。

(3)即时奖励：

出租车调度的目的是减轻不同区域之间的供需失衡，因此，根据时隙t _j-1对目标区域的供需情况的影响，在时隙t _j为每个动作计算即时奖励。为此，将区域Z _i的供求比

定义为：

其中

和

表示在时间t _j-1区域Z _i的实际供应和实际需求，系统可以在时间t _j观察到。特别地，如果

则设置

对于将空闲出租车从其定位区域Z _i调度到目标区域Z _g的动作，使用上述公式计算即时奖励r _t。当Z _i缺少出租车供应时，则停留行为将获得积极回报，其他行为将受到惩罚。当Z _i中的出租车供应量大于需求量时，如果当目标区域Z _g需求量大于出租车供应量越大，则该动作将获得更多回报；否则，由于Z _g也有足够的出租车供应，因此调度不会获得任何奖励。

具体的奖励函数如下：

(4)训练方法：

基于上述三个步骤，本发明利用DQN模型动态学习主动出租车调度的最佳策略。作为DQN模型的核心，Q学习(Q-learning)是一种异策略的时差学习方法，旨在获得最大的长期折扣奖励Q(s,a)。特别是，本发明利用深层神经网络(Deep Neural Network，DNN)来逼近Q函数。在训练阶段，Q值被更新如下：

其中，α是学习率，γ是折扣因子，r是奖励值。

为了使用函数逼近解决DQN的不稳定性问题，本发明采用了两种技术：目标网络和经验回放。目标网络是Q网络的副本，它被冻结以用作多个步骤提供的稳定的目标Q值。在训练期间，目标网络的参数将更新以匹配策略网络。另外，经验回放存储器以过渡元组的形式存储经验，表示为(s _t-1,a _t-1,r _t-1,s _t)，即为状态，动作，奖励和后继状态，元组被存储在经验池中，从而能够从这些先前观察到的数据中进行采样并进行训练。进一步的代替对存储的元组进行均匀采样，基于时序差分(TD-error)δ对采样进行优先级排序将对学习更为有效。对于每个过渡元组，使用以下公式计算其δ。

更新Q网络权重时，损失函数L(θ)用于计算预测Q值与目标Q值之间的差。

其中θ和θ′分别是Q网络和目标网络的权值。在上述更新规则中，Q网络会以目标值

拟合。

本发明所述模拟器可以模拟必要的外部环境，以根据实际情况训练强化深度学习算法。所述模拟器对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。具体来说，模拟器包括路线规划器，该路线规划器将在给定出租车的调度动作或分配命令的情况下在出租车的道路网络上查找行驶路径；出租车订单匹配器，将每个乘车请求分配给合适的出租车；以及出租车调度器，执行根据某些出租车调度策略对可用出租车的调度动作。具体细节如下所示：

路线规划器：路线规划器在道路网络图G上使用迪杰斯特拉(Dijkstra)算法计算两个位置之间的最短路径。它为出租车订单匹配器和出租车调度器提供服务，以计算：(1)正在运送乘客中的出租车的到达时间，以便出租车调度模型可以将出租车的供应量考虑在内，以确保将来出租车的供需平衡；(2)乘客等待其指定的出租车的时间；(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本。

出租车订单匹配器：当收到新的乘车请求时，模拟器会分配最近的空闲出租车来为其服务。指派的出租车将按照路线计划器提供的路线行驶，接载乘客，然后将其运送到目的地。如果无法在阈值限定时间内为空车出租车分配乘车请求，则该请求将被拒绝。

出租车调度器：该组件将执行DQN模型生成的操作，以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内。同时它跟踪所有出租车的状态和乘车请求，以形成强化深度学习模型的观察状态。计算出每个区域中的实际出租车需求和供应，并计算在最后一个时隙中采取的这些行动的报酬，作为反馈，以更新DQN模型。

与现有技术相比，本发明技术方案的有益效果是：本发明设计了一个基于道路网络结构的区域划分聚类，使得区域划分不会破坏道路网络结构，大大减少了调度成本。其次，本发明将需求预测模块从车辆调度模块中抽离出来，使外部环境的多维复杂数据输入需求预测模块，用相对准确且易收敛的监督学习方法训练需求预测模型，将预测的需求和实时的供应作为车辆调度模块的输入状态，既有可解释性，又大大降低了状态空间的复杂度易于收敛，使得整个系统高内聚，低耦合。最后，在输入状态中车辆的供应值是动态调整的，当前决策因为输入状态的不同，能够根据历史决策的结果做出相应的调整，使车辆调度工作具有合作性，避免了恶性竞争促进了相互合作从而提升了出租车系统的利用率。

附图说明

图1为实施例1所述基于深度强化学习的出租车调度方法流程图。

图2为区域构建区域的聚类算法聚类示意图。

图3为基于GCN的出租车需求预测器的框架和特征向量的结构。

图4为实施例2所述基于深度强化学习的出租车调度系统示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1：

本实施例提供一种基于深度强化学习的出租车调度方法，如图1所示，所述方法包括以下步骤：

步骤1：将选定区域的道路网络公式化为有向图G(V,E)，其中每个顶点v∈V代表一个地理位置即道路交叉点，每个边e∈E代表一个路段，每个边e都通过计算cost(e)得到旅行成本作为边e的权重。

步骤2：应用区域聚类算法将图G通过分类顶点v，从而形成指定数量的不同区域Z _i。

如图2所示，所述构建区域的聚类方法具体包括：

首先，将选定城市的道路网络建模为有向图G(V,E)，其中每个顶点v∈V代表一个地理位置即道路交叉点，每个边e∈E代表一个路段，每个边e都通过计算cost(e)得到旅行成本作为边e的权重。函数cost(·)可以根据距离和行驶速度在给定路线或任意两个位置的道路网络图G上计算行驶时间。

接着，将整个城市按照相同间隔的经纬度划分成M个矩形格子，对于每一个格子，在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点，同样，边e也连同其中心顶点v一起被分类给对应的区域。每个区域Z维护以下的信息：区域中心顶点Z ^c，顶点集Z ^v，边集Z ^e和总权重Z ^w。接下来，将所有未分配的顶点v(以集合U表示)分类给各个区域Z＝{Z _i,i＝1,…,M}。

步骤2.1：(选择目标区域)选择所有区域Z中总权重Z ^w最小的区域为目标区域Z _tar以添加新的顶点v和边e。

步骤2.2：(加入未分配的顶点和边)遍历所有未分配的顶点v，找出最小的顶点v到目标区域Z _tar的顶点-区域距离dis(v,Z _tar)。此距离被定义为顶点v到区域中心Z ^c的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和，计算公式如下：

dis(v,Z)＝[cost(v,Z ^c)+cost(v,v′)]

并添加源头始于顶点v的边e进目标区域的边集

接着目标区域的总权重

将加上顶点-区域距离dis(v,Z _tar)。最后在未分配的顶点集合U中删除此顶点v。如果此顶点-区域距离大于最大区域范围ε则返回步骤1，选择下一个目标区域继续上述步骤。

步骤2.3：重复步骤1和步骤2直到未分配顶点集U为空为止，经过此步骤会将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域。

最后，对于给定的区域Z _i，我们将前κ个最近的区域定义为其邻居N _Zi＝{Z _j,j＝1,…,κ}，其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。

在图2中，图2(A)表示步骤2.1的选择有最小的总权重值的区域作为目标区域来添加新的顶点，在本例中假设算得A为目标区域。图2(B)表示步骤2.2的未分配的顶点和边，遍历所有未分配的顶点选择最近的顶点添加，并添加源自此顶点的边，同时添加进目标区域的顶点距离区域中心要在约束范围内。图2(C)表示步骤2.3的重复上述步骤直到所有未分配的顶点和边都被分配完毕，则构建区域的聚类算法结束。

步骤3：确定每个区域的相邻区域。

步骤4：构造GCN预测网络，如图3所示，网络结构为3层图卷积神经网络，每一层包括了|Z|个神经元，均使用ReLU作为激活函数，如果还没有训练完成的对应模型，则利用历史数据进行监督学习训练，然后加载训练完成的对应模型。

步骤5：如果没有已经训练好的模型，利用订单数据集进行监督学习的训练即可。

步骤6：构造DQN模型，DQN模型的网络结构为多层全连接神经网络，构造相同结构的Q网络和目标网络，它们由4个全连接层组成，每层包括400个神经元，均使用ReLU作为激活函数，并加载训练完成的DQN模型(如果需要训练模型则将加载DQN模型改为随机生成网络中的所有神经元的参数)。

步骤7：将上述系统部署到真实场景或模拟器中。

步骤8：初始化各个参数：调度时隙间隔为10分钟、顶点-区域距离的最大区域范围ε为1500米、学习率α是0.0001、折扣因子γ是0.9、邻居上限κ＝7、经验回放池大小N＝30000、训练间隔时隙个数B＝12、训练批次大小b＝256。

步骤9：开始处理新的时隙。

步骤10(训练时加入)：将经验回放池中所有上一个时隙的经验中的s _t+1和r _t+1补全，其中s _t+1由新的时隙下系统观测得到，r _t+1由奖励函数计算得到。

奖励函数为：

其中，

为区域Z _i的供求比，

为区域Z _g的供求比；

和

步骤11：出租车订单匹配器持续处理当前时隙内的订单，直到当前时隙结束。

步骤12：为每个区域构造一个十维特征向量并求得拉普拉斯矩阵，将其输入进GCN网络，得到每个区域下一个时隙的预测需求。

步骤13：根据公式

和预测需求，计算出每个区域的需求供应值，根据邻居关系构造出上下文状态S。

步骤14：将状态S代入Q网络中进行前馈操作得到所有可行动作对应的预测Q值，取最大Q值对应的动作。

步骤15(训练时加入)：将过渡元组(s _t,a _t,r _t+1,s _t+1)储存在DQN模型内的经验回放池中，其中r _t+1和s _t+1暂时无法得到，因此暂时保留等待后续补全。

步骤16(训练时加入)：每当经过B个时隙后进行一次经验回放，回放数为批次大小b。

步骤17(训练时加入)：利用Q网络和目标网络根据损失函数计算得到均方误差，应用自适应估计(Adam)的优化方法进行权重的迭代更新。

损失函数公式为：

其中θ和θ′分别是Q网络和目标网络的权值，γ是折扣因子，r是奖励值，a*是在参数θ′和状态s下得到的动作，a是在参数θ和状态s下得到的动作，E在数学中表示期望，因此此损失函数的公式为理论值，需要训练逼近期望。整个损失函数代表着目标Q值和预测Q值之间的均方误差。

步骤18(训练时加入)：Q网络中的权重实时更新，而目标网络中的权重每隔一定时隙(144个)和Q网络的权重进行一次同步，以便构建出有意义的不震荡的目标Q值，可用于优化网络权重的损失函数；最终当达到迭代步数后，得到训练完成的出租车调度模型。

步骤19：如果结束则退出，否则跳转到步骤7继续处理下一个时隙，重复之后的步骤。

特别的，如果需要训练DQN模型，则需要额外执行步骤10、15、16、17、18，其他过程保持一致。

实施例2

本实施例提供一种基于深度强化学习的出租车调度系统，如图4所示，所述系统包括：区域构建模块、需求预测模块、车辆调度模块、模拟器；

区域构建模块用来构建区域网络；

车辆调度模块具体实现以下功能：

(1)上下文状态：

每个出租车调度时所在区域对应的状态定义为：对于每一个可用出租车所在的区域Z _i，包括区域IDi，Z _i的需求和供应数据以及Z _i的所有相邻区域的需求和供应数据；

如果Z _i的邻居不足(<κ)，则剩余字段将用零填充；对于每个区域Z _i，时隙t _j的出租车需求

由GCN预测器提供，而其出租车供给

可以综合估算为：

其中

分别表示在时隙t _j时在区域Z _i内下车的出租车的数量；在时隙t _j时停留在Z _i区域内的可用出租车的数量；以及在时隙t _j-1被调度到区域Z _i，并将在时隙t _j到达区域Z _i的出租车的数量；

(2)调度行动：

每个可用的出租车都有(κ+1)个可能的动作，每个动作都会将出租车调度到特定区域；

具体来说，a _t＝i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域，而a _t＝0则表示该出租车在时间t继续停留在当前区域。按顺序的对所有可用的出租车采取行动，以确保出租车之间的协调；

(3)即时奖励：

根据时隙t _j-1对目标区域的供需情况的影响，在时隙t _j为每个动作计算即时奖励；将区域Z _i的供求比

定义为：

其中

和

表示在时间t _j-1区域Z _i的实际供应和实际需求，系统可以在时间t _j观察到；

对于将空闲出租车从其定位区域Z _i调度到目标区域Z _g的动作，使用上述公式计算即时奖励r _t；

当Z _i缺少出租车供应时，则停留行为将获得积极回报，其他行为将受到惩罚；当Z _i中的出租车供应量大于需求量时，如果当目标区域Z _g需求量大于出租车供应量越大，则该动作将获得更多回报；否则，由于Z _g也有足够的出租车供应，因此调度不会获得任何奖励；具体的奖励函数如下：

(4)训练方法：

利用深层神经网络(Deep Neural Network，DNN)来逼近Q函数；在训练阶段，Q值被更新如下：

其中，α是学习率，γ是折扣因子，r是奖励值。

在训练期间，目标网络的参数将更新以匹配策略网络；

经验回放存储器以过渡元组的形式存储经验，表示为(s _t-1,a _t-1,r _t-1,s _t)，即为状态，动作，奖励和后继状态，元组被存储在经验池中，从而能够从这些先前观察到的数据中进行采样并进行训练；进一步的代替对存储的元组进行均匀采样，基于时序差分(TD-error)δ对采样进行优先级排序将对学习更为有效；对于每个过渡元组，使用以下公式计算其时序差分δ：

拟合。

模拟器包括线路规划器、出租车订单匹配器、出租车调度器；

路线规划器在道路网络图G上使用迪杰斯特拉算法计算两个位置之间的最短路径。它为出租车订单匹配器和出租车调度器提供服务，以计算：(1)正在运送乘客中的出租车的到达时间，以便出租车调度模型可以将出租车的供应量考虑在内，以确保将来出租车的供需平衡；(2)乘客等待其指定的出租车的时间；(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本。

出租车订单匹配器，将每个乘车请求分配给合适的出租车；

出租车调度器将执行DQN模型生成的操作，以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内；同时跟踪所有出租车的状态和乘车请求，以形成强化深度学习模型的观察状态；

计算出每个区域中的实际出租车需求和供应，并计算在最后一个时隙中采取的这些行动的报酬，作为反馈，以更新DQN模型。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

一种基于深度强化学习的出租车调度方法，其特征在于，所述方法包括以下步骤：

S1：根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类，根据区域中心之间在道路网络上的距离远近关系确定邻居，从而形成区域网络；

S2：根据形成的区域网络应用基于图卷积神经网络所构建的需求预测模型利用历史订单数据，预测任意区域在任意的时间中将会出现的订单数量；

S3：根据调度系统实时得到的数据计算出一个区域总的车辆供应量；

根据一个区域总的订单数量的预测值和总的车辆供应量，获取每个区域的需求/供应状态；

S4：将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中，得到该车辆的调度策略，确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。
根据权利要求1所述的基于深度强化学习的出租车调度方法，其特征在于，构建区域聚类的方法包括以下步骤：

S1.1：将选定城市的道路网络建模为有向图G(V,E)，其中每个顶点v∈V代表一个地理位置即道路交叉点，每个边e∈E代表一个路段，每个边e都通过计算cost(e)得到旅行成本作为边e的权重；

S1.2：将整个城市按照相同间隔的经纬度划分成M个矩形格子，对于每一个格子，在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点，同样，边e也连同其中心顶点v一起被分类给对应的区域；

每个区域Z维护以下的信息：区域中心顶点Z ^c，顶点集Z ^v，边集Z ^e和总权重Z ^w；

将所有未分配的顶点v，未分配的顶点以集合U表示，分类给各个区域Z＝{Z _i,i＝1,…,M}；

S1.3：选择所有区域Z中总权重Z ^w最小的区域为目标区域Z _tar以添加新的顶点v和边e；

S1.4：遍历所有未分配的顶点v，找出最小的顶点v到目标区域Z _tar的顶点- 区域距离dis(v,Z _tar)；此距离被定义为顶点v到区域中心Z ^c的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和；

如果顶点-区域距离dis(v,Z _tar)小于等于最大区域范围ε，则添加顶点v进入目标区域的顶点集
并添加源头始于顶点v的边e进目标区域的边集
接着目标区域的总权重
将加上顶点-区域距离dis(v,Z _tar)；

然后在未分配的顶点集合U中删除此顶点v；如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域，并返回S1.3；

S1.5：重复S1.3和S1.4直到未分配顶点集U为空为止，将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域；

对于给定的区域Z _i，将前κ个最近的区域定义为其邻居N _Zi＝{Z _j,j＝1,…,κ}，其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。
根据权利要求2所述的基于深度强化学习的出租车调度方法，其特征在于，顶点-区域距离的计算公式如下：
根据权利要求2或3所述的基于深度强化学习的出租车调度方法，其特征在于，S2的具体过程如下：

将地图上的每个区域定义为一个顶点，如果两个区域紧邻，则会形成一条边；给定区域分布，构建区域图G ^Z＝(Z _all,Α)，其中Z _all是所有区域的集合，所有区域的总数表示为|Z|，并且Α∈R ^|Z|×|Z|是区域邻接矩阵，指示区域之间的连接；以此计算区域图的拉普拉斯矩阵，计算方法如下：

其中I∈R ^|Z|×|Z|是图G ^Z的单位矩阵，D∈R ^|Z|×|Z|是图G ^Z的度矩阵；

图卷积神经网络函数定义为：

H ^λ+1＝σ(LH ^λW ^λ)

其中H ^λ表示第λ层中的特征，W ^λ是第λ层的可训练的权重矩阵，激活函数σ 采用修正线性单元；

将影响每个区域Z _i内出租车订单的因素合并表示为特征向量
其中
分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速；

根据消息传递函数捕获局部和全局的结构模式，用于最终需求预测；

接着，将所有特征经过正则化处理后输入进图卷积神经网络的输入层H ⁰进行预测，输入|Z|×10的特征矩阵，输出值为|Z|×1的预测值矩阵，代表预测的每个区域Z _i下一个时隙的订单数量。
根据权利要求4所述的基于深度强化学习的出租车调度方法，其特征在于，车辆供应量计算公式为：

其中
分别表示在时隙t _j时在区域Z _i内下车的出租车的数量；在时隙t _j时停留在Z _i区域内的可用出租车的数量；以及在时隙t _j-1被调度到区域Z _i，并将在时隙t _j到达区域Z _i的出租车的数量。
根据权利要求5所述的基于深度强化学习的出租车调度方法，其特征在于，出租车调度模型的训练过程如下：

S4.1：基于模拟器将深度Q网络内的经验回放池中所有上一个时隙的经验中的s _t和r _t补全，其中s _t由新的时隙下系统观测得到，r _t由奖励函数得到；在上一个时隙t-1中的下一时隙为t，此时的s _t为t时隙的状态信息，r _t为t时隙下关于s _t和a _t的奖励；

S4.2：将过渡元组(s _t,a _t,r _t+1,s _t+1)储存在DQN模型内的经验回放池中，其中r _t+1和s _t+1暂时无法得到，因此暂时保留等待后续补全；

S4.3：每当经过B个时隙后进行一次经验回放，回放数为批次大小b；

S4.4：基于DQN根据损失函数公式计算得到均方误差，应用自适应估计的优化方法进行权重的迭代更新；

损失函数公式为：

其中θ和θ′分别是Q网络和目标网络的权值，γ是折扣因子，r是奖励值， a*是在参数θ′和状态s下得到的动作，a是在参数θ和状态s下得到的动作，E表示期望；

S4.5：将Q网络中的权重实时更新，而目标网络中的权重每隔若干个时隙和Q网络的权重进行一次同步，以便构建出有意义的不震荡的目标Q值，用于优化网络权重的损失函数；最终当达到预设的迭代步数后，得到训练完成的出租车调度模型。
根据权利要求6所述的基于深度强化学习的出租车调度方法，其特征在于，奖励函数为：

其中，
为区域Z _i的供求比，
为区域Z _g的供求比；
和
表示在时间t _j-1区域Z _i的实际供应和实际需求，系统可以在时间t _j观察到。
一种基于深度强化学习的出租车调度系统，其特征在于，所述系统包括：区域构建模块、需求预测模块、车辆调度模块、模拟器；

区域构建模块用来构建区域网络；

需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量；

车辆调度模块负责车辆的调度以及出租车调度模型的训练更新；

模拟器模拟外部环境，并根据实际情况训练强化深度学习算法，以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
根据权利要求8所述的基于深度强化学习的出租车调度系统，其特征在于，车辆调度模块具体实现以下功能：

(1)上下文状态：

每个出租车调度时所在区域对应的状态定义为：对于每一个可用出租车所在的区域Z _i，包括区域IDi，Z _i的需求和供应数据以及Z _i的所有相邻区域的需求和供应数据；

如果Z _i的邻居不足，则剩余字段将用零填充；对于每个区域Z _i，时隙t _j的出租车需求
由GCN预测器提供，而其出租车供给
可以综合估算为：

其中
分别表示在时隙t _j时在区域Z _i内下车的出租车的数量；在时隙t _j时停留在Z _i区域内的可用出租车的数量；以及在时隙t _j-1被调度到区域Z _i，并将在时隙t _j到达区域Z _i的出租车的数量；

(2)调度行动：

每个可用的出租车都有(κ+1)个可能的动作，每个动作都会将出租车调度到特定区域；

a _t＝i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域，而a _t＝0则表示该出租车在时间t继续停留在当前区域；按顺序的对所有可用的出租车采取行动，以确保出租车之间的协调；

(3)即时奖励：

根据时隙t _j-1对目标区域的供需情况的影响，在时隙t _j为每个动作计算即时奖励；将区域Z _i的供求比
定义为：

其中
和
表示在时间t _j-1区域Z _i的实际供应和实际需求，系统在时间t _j观察到；

对于将空闲出租车从其定位区域Z _i调度到目标区域Z _g的动作，使用上述公式计算即时奖励r _t；

当Z _i缺少出租车供应时，则停留行为将获得积极回报，其他行为将受到惩罚；当Z _i中的出租车供应量大于需求量时，如果当目标区域Z _g需求量大于出租车供应量越大，则该动作将获得更多回报；否则，由于Z _g也有足够的出租车供应，因此调度不会获得任何奖励；具体的奖励函数如下：

(4)训练方法：

利用深层神经网络来逼近Q函数；在训练阶段，Q值被更新如下：

其中，α是学习率，γ是折扣因子，r是奖励值；

经验回放存储器以过渡元组的形式存储经验，表示为(s _t-1,a _t-1,r _t-1,s _t)，即为状态，动作，奖励和后继状态，元组被存储在经验池中，从而能够从这些先前观察到的数据中进行采样并进行训练；进一步的代替对存储的元组进行均匀采样，基于时序差分δ对采样进行优先级排序将对学习更为有效；对于每个过渡元组，使用以下公式计算其时序差分δ：

更新Q网络权重时，损失函数L(θ)用于计算预测Q值与目标Q值之间的差；

其中θ和θ′分别是Q网络和目标网络的权值；在上述更新规则中，Q网络会以目标值
拟合。
根据权利要求8或9所述的基于深度强化学习的出租车调度系统，其特征在于，模拟器包括线路规划器、出租车订单匹配器、出租车调度器；

路线规划器在道路网络图G上使用迪杰斯特拉算法计算两个位置之间的最短路径；它为出租车订单匹配器和出租车调度器提供服务，用来计算：(1)正在运送乘客中的出租车的到达时间，以便出租车调度模型可以将出租车的供应量考虑在内，以确保将来出租车的供需平衡；(2)乘客等待其指定的出租车的时间；(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本；

出租车订单匹配器，将每个乘车请求分配给合适的出租车；

出租车调度器将执行DQN模型生成的操作，以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内；同时跟踪所有出租车的状态和乘车请求，以形成强化深度学习模型的观察状态；

计算出每个区域中的实际出租车需求和供应量，并计算在最后一个时隙中采取的这些行动的报酬，作为反馈，以更新DQN模型。