WO2021248607A1 - 一种基于深度强化学习的出租车调度方法及系统 - Google Patents

一种基于深度强化学习的出租车调度方法及系统 Download PDF

Info

Publication number
WO2021248607A1
WO2021248607A1 PCT/CN2020/101096 CN2020101096W WO2021248607A1 WO 2021248607 A1 WO2021248607 A1 WO 2021248607A1 CN 2020101096 W CN2020101096 W CN 2020101096W WO 2021248607 A1 WO2021248607 A1 WO 2021248607A1
Authority
WO
WIPO (PCT)
Prior art keywords
taxi
area
vertex
network
region
Prior art date
Application number
PCT/CN2020/101096
Other languages
English (en)
French (fr)
Inventor
刘志丹
李江舟
伍楷舜
Original Assignee
深圳大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳大学 filed Critical 深圳大学
Publication of WO2021248607A1 publication Critical patent/WO2021248607A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/20Monitoring the location of vehicles belonging to a group, e.g. fleet of vehicles, countable or determined number of vehicles
    • G08G1/202Dispatching vehicles on the basis of a location, e.g. taxi dispatching
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications

Definitions

  • the present invention relates to the field of artificial intelligence technology, and more specifically, to a taxi dispatch method and system based on deep reinforcement learning.
  • Taxi scheduling can better meet future ride requirements by actively reallocating available idle taxis to certain areas, thereby balancing the difference between taxi demand and supply.
  • Efficient taxi scheduling strategy can significantly increase the success rate of order matching, reduce the waiting time of passengers, and increase the utilization rate of taxis.
  • Existing methods use multi-dimensional data convolution to synthesize multi-channel images, input through convolutional neural networks, and use deep reinforcement learning models and rolling time domain control (receding horizon control) for scheduling methods (Takuma, Oda., & Carlee, Joe) -Wong.(2018).MOVI:A Model-Free Approach to Dynamic Fleet Management.
  • the present invention provides a taxi dispatching method and system based on deep reinforcement learning to dispatch idle taxis, aiming at increasing the order matching success rate, reducing the waiting time of passengers, and improving the utilization rate of taxis.
  • the method includes the following steps:
  • S1 Construct a regional cluster that reflects the connectivity of the road network according to the topological structure of the road network, and determine neighbors based on the distance between the regional centers on the road network to form a regional network;
  • the demand forecasting model based on graph convolutional neural network uses historical order data to predict the number of orders that will appear in any area at any time;
  • S4 Input the state of any free vehicle's area and neighboring area into the trained deep Q network (DQN) taxi scheduling model to obtain the vehicle's scheduling strategy, and determine whether the vehicle will stay in the local area or be dispatched In the neighboring area specified by the system.
  • DQN deep Q network
  • the method for constructing a region cluster includes the following steps:
  • S1.1 Model the road network of the selected city as a directed graph G(V, E), where each vertex v ⁇ V represents a geographic location, that is, a road intersection, and each edge e ⁇ E represents a road segment, Each edge e obtains the travel cost as the weight of edge e by calculating cost(e).
  • S1.2 Divide the entire city into M rectangular grids at the same interval of latitude and longitude. For each grid, look for the vertex v closest to the geographic center of the current grid in Figure G as the central vertex of each region. Similarly, side e It is also classified into the corresponding area along with its center vertex v;
  • Each zone Z maintains the following information: central apex region Z c, the set of vertices Z v, set of edges E and the total weight Z Z W;
  • vertex-area distance dis(v,Z tar ) is less than or equal to an adjustable parameter threshold, that is, the maximum area range ⁇ , add the vertex v into the vertex set of the target area And add the edge set whose source starts at the edge e of vertex v into the target area Then the total weight of the target area The vertex-area distance dis(v,Z tar ) will be added;
  • the calculation formula of the vertex-area distance is as follows:
  • is the identity matrix of the graph G Z
  • is the degree matrix of the graph G Z
  • the graph convolutional neural network (GCN) function is defined as:
  • H ⁇ +1 ⁇ (L H ⁇ W ⁇ )
  • H ⁇ represents the features in the ⁇ th layer
  • W ⁇ is the trainable weight matrix of the ⁇ th layer
  • the activation function ⁇ adopts a Rectified Linear Unit (ReLU)
  • the vehicle supply calculation formula is:
  • the training process of the taxi scheduling model (based on the DQN model) is as follows:
  • S4.1 Completing the st and r t in the experience of all previous time slots in the experience playback pool in the DQN model, where st is obtained by system observation under the new time slot, and r t is obtained by the reward function;
  • the next time slot in the previous time slot (t-1) is t, at this time st is the state information of the t time slot, and rt is the reward for st and at in the t time slot.
  • the loss function formula is:
  • ⁇ and ⁇ ′ are the weights of the Q network and the target network
  • is the discount factor
  • r is the reward value
  • a* is the action obtained under the parameter ⁇ ′ and the state s
  • a is the parameter ⁇ and the state s
  • the obtained action, E represents the expectation in mathematics, so the formula of this loss function is a theoretical value and needs to be trained to approximate the expectation.
  • the entire loss function represents the mean square error between the target Q value and the predicted Q value.
  • the number of iterative steps is artificially set according to the training goal, generally the average maximum Q value is in a stable state for a certain number of steps and then the training is stopped.
  • the reward function is:
  • the present invention also provides a taxi dispatch system based on deep reinforcement learning.
  • the system is used to implement the method of the present invention.
  • the system includes: an area construction module, a demand forecast module, a vehicle dispatch module, and a simulator;
  • the regional building module is used to build a regional network
  • the demand forecasting module predicts the number of orders that will appear in any area at any time according to the regional network
  • the vehicle scheduling module is responsible for vehicle scheduling and the training and updating of the taxi scheduling model
  • the simulator simulates the external environment, and trains intensive deep learning algorithms according to the actual situation, and models the entire process of how the ride platform manages taxis and processes ride requests.
  • the vehicle scheduling module of the present invention is expressed as: Regarding the dispatch center as an agent, it continuously tracks the real-time information (for example, location and status) of all taxis and ride requests, and dispatches after each time slot is over.
  • the center will use the DQN model to generate a new scheduling strategy for each available taxi according to the context state, so as to optimize the global taxi supply and demand balance.
  • the present invention optimizes the state space and action space of all available taxis in the same area, thereby reducing computational complexity and enabling vehicle scheduling to be used for city-scale ride services. Taxi dispatching between adjacent areas can effectively and quickly alleviate the demand-supply imbalance.
  • the vehicle dispatching strategy in a time slot will only make the vehicles dispatch in the adjacent area.
  • the present invention does not make the same decision for all available taxis in the same area or independently act for the taxis, but takes actions on all available taxis sequentially to ensure coordination among taxis . Because once an idle taxi is sent to a specific area, it has essentially changed the supply and demand environment of the next time slot, which will affect the actions of other subsequent taxis. Based on these considerations, the present invention designs the following DQN-based vehicle scheduling module.
  • the vehicle scheduling module can realize the following functions:
  • each state corresponding taxi scheduling Area is defined as: for each available taxi area where Z i, a region including the IDi, demand and supply data Z i and Z i of all the adjacent regions Demand and supply data. If a neighbor is less than Z i ( ⁇ ), the remaining field is filled with zeros. For each zone Z i , the demand for taxis in time slot t j Provided by GCN predictor, and its taxi supply It can be comprehensively estimated as:
  • Every available taxi has ( ⁇ +1) possible actions, and each action will dispatch the taxi to a specific area.
  • the present invention will take actions on all available taxis sequentially to ensure coordination among taxis.
  • the purpose of taxi scheduling is to reduce the imbalance of supply and demand between different areas. Therefore, according to the influence of the time slot t j-1 on the supply and demand situation of the target area, the instant reward is calculated for each action in the time slot t j.
  • the ratio of supply and demand in Z i defined as:
  • the instant reward r t is calculated using the above formula.
  • Z i lack of taxi supply
  • the behavior will remain a positive return, other acts will be punished.
  • the supply of taxis in Z i is greater than the demand
  • the demand for Z g in the target area is greater than the supply of taxis
  • the action will get more rewards; otherwise, because Z g also has enough taxi supply , So the dispatch will not get any rewards.
  • the present invention uses the DQN model to dynamically learn the best strategy for active taxi scheduling.
  • Q-learning is a time difference learning method with different strategies, which aims to obtain the largest long-term discount reward Q(s,a).
  • the present invention uses a Deep Neural Network (DNN) to approximate the Q function.
  • DNN Deep Neural Network
  • is the learning rate
  • is the discount factor
  • r is the reward value
  • the present invention adopts two techniques: target network and experience playback.
  • the target network is a copy of the Q network, which is frozen to be used as a stable target Q value provided by multiple steps.
  • the parameters of the target network will be updated to match the strategy network.
  • the experience playback memory stores experience in the form of transition tuples, expressed as (s t-1 , at -1 , r t-1 , s t ), which are states, actions, rewards, and subsequent states.
  • the tuple is Stored in the experience pool, so that you can sample and train from these previously observed data. Further, instead of uniformly sampling the stored tuples, prioritizing the sampling based on the timing difference (TD-error) ⁇ will be more effective for learning. For each transition tuple, use the following formula to calculate its ⁇ .
  • the loss function L( ⁇ ) is used to calculate the difference between the predicted Q value and the target Q value.
  • the simulator of the present invention can simulate a necessary external environment to train an enhanced deep learning algorithm according to actual conditions.
  • the simulator models the entire process of how the ride platform manages taxis and processes ride requests.
  • the simulator includes a route planner, the route planner will find the driving route on the taxi’s road network given the taxi’s dispatch action or distribution command; the taxi order matcher will compare each The ride request is allocated to the appropriate taxi; and the taxi dispatcher, which executes the dispatching actions for the available taxis according to certain taxi dispatching strategies.
  • the specific details are as follows:
  • Route planner uses the Dijkstra algorithm on the road network graph G to calculate the shortest path between two locations. It provides services for taxi order matchers and taxi dispatchers to calculate: (1) The arrival time of taxis that are transporting passengers, so that the taxi dispatch model can take into account the supply of taxis to ensure In the future, the supply and demand of taxis will be balanced; (2) the time for passengers to wait for their designated taxi; (3) the travel cost of dispatching available taxis from the current location to the center of the target area.
  • Taxi order matcher When receiving a new ride request, the simulator will assign the nearest free taxi to serve it. The assigned taxi will follow the route provided by the route planner, pick up passengers, and then transport them to their destination. If a ride request cannot be allocated for an empty taxi within the threshold time limit, the request will be rejected.
  • Taxi dispatcher This component will execute the operations generated by the DQN model to dispatch each available taxi to the target area according to the route provided by the route planner. At the same time, it tracks the status of all taxis and ride requests to form the observation status of the enhanced deep learning model. Calculate the actual taxi demand and supply in each area, and calculate the remuneration for these actions taken in the last time slot as feedback to update the DQN model.
  • the technical solution of the present invention has the beneficial effects that: the present invention designs a region division clustering based on the road network structure, so that the region division does not damage the road network structure and greatly reduces the scheduling cost.
  • the present invention separates the demand forecasting module from the vehicle dispatching module, so that the multi-dimensional and complex data of the external environment is input into the demand forecasting module, and the demand forecasting model is trained with a relatively accurate and easy-to-convergence supervised learning method to combine the forecasted demand with real-time
  • the supply of is not only interpretable, but also greatly reduces the complexity of the state space and is easy to converge, making the entire system high cohesion and low coupling.
  • the supply value of the vehicle is dynamically adjusted. Because of the difference in the input state, the current decision can be adjusted according to the results of the historical decision, so that the vehicle scheduling work is cooperative, avoiding vicious competition and promoting each other. The cooperation has increased the utilization rate of the taxi system.
  • FIG. 1 is a flowchart of a taxi dispatch method based on deep reinforcement learning described in Embodiment 1.
  • Figure 2 is a schematic diagram of the clustering algorithm clustering of the region construction region.
  • Figure 3 shows the framework and feature vector structure of the taxi demand forecaster based on GCN.
  • FIG. 4 is a schematic diagram of a taxi dispatch system based on deep reinforcement learning in the second embodiment.
  • This embodiment provides a taxi scheduling method based on deep reinforcement learning. As shown in FIG. 1, the method includes the following steps:
  • Step 1 Formulate the road network in the selected area into a directed graph G(V, E), where each vertex v ⁇ V represents a geographic location, that is, a road intersection, and each edge e ⁇ E represents a road segment, and each Edge e calculates cost(e) to get travel cost as the weight of edge e.
  • Step 2 Apply the region clustering algorithm to pass the graph G through the classified vertices v, thereby forming a specified number of different regions Z i .
  • the clustering method for constructing regions specifically includes:
  • the road network of the selected city is modeled as a directed graph G(V, E), where each vertex v ⁇ V represents a geographic location, that is, a road intersection, and each edge e ⁇ E represents a road segment, and each Edge e calculates cost(e) to get travel cost as the weight of edge e.
  • the function cost( ⁇ ) can calculate the travel time on the road network graph G of a given route or any two locations based on the distance and travel speed.
  • Step 2.1 (Select target area) Select the area with the smallest total weight Z w among all areas Z as the target area Z tar to add new vertex v and edge e.
  • Step 2.2 (Add unallocated vertices and edges) Traverse all unallocated vertices v, find the vertex-area distance dis(v,Z tar ) from the smallest vertex v to the target area Z tar. This distance is defined as the sum of the travel cost from vertex v to the center of the zone Z c and the travel cost from vertex v to the vertex v'closest to vertex v in zone Z.
  • the calculation formula is as follows:
  • vertex-area distance dis(v,Z tar ) is less than or equal to an adjustable parameter threshold, that is, the maximum area range ⁇
  • add the vertex v into the vertex set of the target area add the edge set whose source starts at the edge e of vertex v into the target area Then the total weight of the target area
  • the vertex-area distance dis(v,Z tar ) will be added. Finally, this vertex v is deleted from the unallocated vertex set U. If the vertex-area distance is greater than the maximum area range ⁇ , return to step 1, select the next target area and continue the above steps.
  • Step 2.3 Repeat steps 1 and 2 until the unallocated vertex set U is empty. After this step, all vertices V will be classified into M regions on the map evenly based on the road network connectivity.
  • Fig. 2(A) shows that in step 2.1, the area with the smallest total weight value is selected as the target area to add new vertices.
  • A is the target area.
  • Figure 2(B) shows the unallocated vertices and edges of step 2.2, traverse all unallocated vertices, select the nearest vertex to add, and add the edge from this vertex, and the vertices added into the target area must be within the constraint of the center of the area. Within range.
  • Figure 2(C) shows that step 2.3 repeats the above steps until all unallocated vertices and edges are allocated, then the clustering algorithm for constructing the region ends.
  • Step 3 Determine the neighboring areas of each area.
  • Step 4 Construct a GCN prediction network, as shown in Figure 3, the network structure is a 3-layer graph convolutional neural network, each layer includes
  • Step 5 If there is no already trained model, use the order data set for supervised learning training.
  • Step 6 Construct the DQN model.
  • the network structure of the DQN model is a multi-layer fully connected neural network.
  • the Q network and target network of the same structure are constructed. They are composed of 4 fully connected layers, each layer includes 400 neurons, all using ReLU As an activation function, load the trained DQN model (if you need to train the model, change the loaded DQN model to randomly generate the parameters of all neurons in the network).
  • Step 7 Deploy the above system to a real scene or simulator.
  • Step 9 Start processing the new time slot.
  • Step 10 (Join during training): Complete s t+1 and r t+1 in the experience of all previous time slots in the experience playback pool, where s t+1 is obtained by system observation under the new time slot, r t+1 is calculated by the reward function.
  • the reward function is:
  • Step 11 The taxi order matcher continues to process orders in the current time slot until the current time slot ends.
  • Step 12 Construct a ten-dimensional feature vector for each region and obtain the Laplacian matrix, and input it into the GCN network to obtain the predicted demand for the next time slot in each region.
  • Step 13 According to the formula And predict the demand, calculate the demand and supply value of each area, and construct the context state S according to the neighbor relationship.
  • Step 14 Substitute the state S into the Q network to perform a feedforward operation to obtain the predicted Q values corresponding to all feasible actions, and take the action corresponding to the maximum Q value.
  • Step 15 (Joining during training): Store the transition tuple (s t , a t , r t+1 , s t+1 ) in the experience replay pool in the DQN model, where r t+1 and s t+1 It is temporarily unavailable, so it is temporarily reserved for subsequent completion.
  • Step 16 (adding during training): Perform an experience replay every time B time slots have passed, and the number of replays is the batch size b.
  • Step 17 (added during training): Use the Q network and the target network to calculate the mean square error according to the loss function, and apply the adaptive estimation (Adam) optimization method to iteratively update the weight.
  • Adam adaptive estimation
  • the loss function formula is:
  • ⁇ and ⁇ ′ are the weights of the Q network and the target network
  • is the discount factor
  • r is the reward value
  • a* is the action obtained under the parameter ⁇ ′ and the state s
  • a is the parameter ⁇ and the state s
  • the obtained action, E represents the expectation in mathematics, so the formula of this loss function is a theoretical value and needs to be trained to approximate the expectation.
  • the entire loss function represents the mean square error between the target Q value and the predicted Q value.
  • Step 18 (added during training):
  • the weights in the Q network are updated in real time, and the weights in the target network are synchronized with the weights of the Q network every certain time slot (144), in order to construct a meaningful non-oscillating target
  • the Q value can be used to optimize the loss function of the network weight; finally, when the number of iteration steps is reached, the trained taxi scheduling model is obtained.
  • Step 19 Exit if finished, otherwise skip to step 7 to continue processing the next time slot, and repeat the following steps.
  • This embodiment provides a taxi dispatch system based on deep reinforcement learning.
  • the system includes: an area construction module, a demand forecast module, a vehicle dispatch module, and a simulator;
  • the regional building module is used to build a regional network
  • the demand forecasting module predicts the number of orders that will appear in any area at any time according to the regional network
  • the vehicle scheduling module is responsible for vehicle scheduling and the training and updating of the taxi scheduling model
  • the simulator simulates the external environment, and trains intensive deep learning algorithms according to the actual situation, and models the entire process of how the ride platform manages taxis and processes ride requests.
  • the vehicle scheduling module specifically implements the following functions:
  • Scheduling where each region corresponds to a taxi state is defined as: for each available taxi area where Z i, including area IDi, demand and supply data Z i and Z i of all the adjacent regions demand and supply data ;
  • Every available taxi has ( ⁇ +1) possible actions, and each action will dispatch the taxi to a specific area;
  • the Effect of supply and demand time slot t j-1 of the target region, is calculated in time slot t J instant prize for each operation; the supply and demand than the region Z i defined as:
  • DNN Deep Neural Network
  • is the learning rate
  • is the discount factor
  • r is the reward value
  • the parameters of the target network will be updated to match the strategy network
  • the experience playback memory stores experience in the form of transition tuples, expressed as (s t-1 ,at -1 ,r t-1 ,s t ), which are states, actions, rewards and subsequent states.
  • the tuples are stored in In the experience pool, it is possible to sample and train from these previously observed data; instead of uniformly sampling the stored tuples, prioritizing the sampling based on the time-series difference (TD-error) ⁇ will enable learning More effective; for each transition tuple, use the following formula to calculate its timing difference ⁇ :
  • the loss function L( ⁇ ) is used to calculate the difference between the predicted Q value and the target Q value.
  • the simulator includes a route planner, a taxi order matcher, and a taxi dispatcher;
  • the route planner uses Dijkstra's algorithm on the road network graph G to calculate the shortest path between two locations. It provides services for taxi order matchers and taxi dispatchers to calculate: (1) The arrival time of taxis that are transporting passengers, so that the taxi dispatch model can take into account the supply of taxis to ensure In the future, the supply and demand of taxis will be balanced; (2) the time that passengers wait for their designated taxi; (3) the travel cost of dispatching available taxis from the current location to the center of the target area.
  • the taxi order matcher allocates each ride request to the appropriate taxi
  • the taxi dispatcher will execute the operations generated by the DQN model to dispatch each available taxi to the target area according to the route provided by the route planner; at the same time track the status of all taxis and ride requests to form an enhanced deep learning The observation state of the model;

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于深度强化学习的出租车调度方法及系统,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;所述方法包括:S1:形成区域网络;S2:预测任意区域在任意的时间中将会出现的订单数量;S3:计算出一个区域总的车辆供应;获取每个区域的需求/供应状态;S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。本发明实现对空闲出租车进行调度,增加了订单匹配成功率,减少了乘客的等待时间,提高了出租车使用率。

Description

一种基于深度强化学习的出租车调度方法及系统 技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于深度强化学习的出租车调度方法及系统。
背景技术
新兴的大型现代乘车平台的出现极大的有益于我们的日常旅行,它允许乘客提前预订旅行计划并实时的将可用出租车与乘车请求进行匹配。尽管这样的系统每天可以为城市中数百万个乘车请求和数万辆出租车提供服务,但是由于部分乘客附近可能缺乏可用的出租车,因此每天仍然会造成大量请求没能被服务到。另一方面,在其他地方,可能又会出现大量的空闲出租车在寻找乘客,造成出租车资源的浪费。在城市中不同地理位置之间的出租车供需不平衡现象普遍存在,这将严重降低整个城市出租车系统的效率并导致糟糕的用户体验。
出租车调度可通过主动将可用的空闲出租车重新分配到某些区域来更好的满足未来的乘车要求,从而平衡出租车需求和供应之间的差异。高效的出租车调度策略可以显着增加订单匹配成功率,减少乘客的等待时间,提高出租车使用率。现有的方法有利用多维数据卷积合成多通道图像,通过卷积神经网络输入,利用深度强化学习模型及滚动时域控制(receding horizon control)进行调度的方法(Takuma,Oda.,&Carlee,Joe-Wong.(2018).MOVI:A Model-Free Approach to Dynamic Fleet Management.),也有直接将各种数据输入进深度强化学习模型中,利用多智能体进行调度的方法(Kaixiang,Lin.,Renyu,Zhao.,Zhe,Xu.,&Jiayu,Zhou.(2018).Efficient Large-Scale Fleet Management via Multi-Agent Deep Reinforcement Learning.)。这些方法存在着以下问题:1)没有考虑道路网络结构,简单的用一定边长的格子划分区域,相邻的区域仅仅是坐标邻近而不是在道路网络关系上邻近,从而导致在调度中产生的决策往往不符合道路网络结构,很有可能导致出租车绕路,甚至无法到达,从而降低调度效率。2)现有的利用强化学习的方法直接将多维复杂数据输入车辆调度模型中得到决策结果,没有将潜在订单需求预测和车辆调度策略这两个相互独立的任务分离开来,这样大大增加了状态空间的复杂程度,使得模型难以收敛,而且也不具有可解释性,不能直观的反 映出不同区域出租车需求和供应之间的关系。3)现有的工作缺乏对调度决策的相互依赖进行设计,或是一个区域的出租车统一行动,或是独立决策,不能反映出历史决策对当前决策的影响。
发明内容
本发明提供一种基于深度强化学习的出租车调度方法及系统,对空闲出租车进行调度,旨在增加订单匹配成功率,减少乘客的等待时间,提高出租车使用率。
所述方法包括以下步骤:
S1:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;
S2:根据形成的区域网络应用基于图卷积神经网络(GCN)所构建的需求预测模型利用历史订单数据,预测任意区域在任意的时间中将会出现的订单数量;
S3:根据调度系统实时得到的数据计算出一个区域总的车辆供应量;
根据一个区域总的订单数量的预测值和总的车辆供应量,获取每个区域的需求/供应状态;
S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的基于深度Q网络的(DQN)出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。
优选地,构建区域聚类的方法包括以下步骤:
S1.1:将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重。
S1.2:将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域;
每个区域Z维护以下的信息:区域中心顶点Z c,顶点集Z v,边集Z e和总权重Z w
将所有未分配的顶点v,未分配的顶点以集合U表示,分类给各个区域Z={Z i,i=1,…,M};
S1.3:选择所有区域Z中总权重Z w最小的区域为目标区域Z tar以添加新的顶点v和边e;
S1.4:遍历所有未分配的顶点v,找出最小的顶点v到目标区域Z tar的顶点-区域距离dis(v,Z tar);此距离被定义为顶点v到区域中心Z c的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和;
如果顶点-区域距离dis(v,Z tar)小于等于一个可调整的参数阈值,即最大区域范围ε,则添加顶点v进入目标区域的顶点集
Figure PCTCN2020101096-appb-000001
并添加源头始于顶点v的边e进目标区域的边集
Figure PCTCN2020101096-appb-000002
接着目标区域的总权重
Figure PCTCN2020101096-appb-000003
将加上顶点-区域距离dis(v,Z tar);
然后在未分配的顶点集合U中删除此顶点v;如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域,并返回S1.3。
S1.5:重复S1.3和S1.4直到未分配顶点集U为空为止,将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域。
对于给定的区域Z i,将前κ个最近的区域定义为其邻居N Zi={Z j,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。
优选地,顶点-区域距离的计算公式如下:
dis(v,Z)=[cost(v,Z c)+cost(v,v′)]
优选地,S2的具体过程如下:
将地图上的每个区域定义为一个顶点,如果两个区域紧邻,则会形成一条边;给定区域分布,构建区域图G Z=(Z all,Α),其中Z all是所有区域的集合,所有区域的总数表示为|Z|,并且Α∈R |Z|×|Z|是区域邻接矩阵,指示区域之间的连接;以此计算区域图的拉普拉斯矩阵,计算方法如下:
Figure PCTCN2020101096-appb-000004
其中I∈R |Z|×|Z|是图G Z的单位矩阵,D∈R |Z|×|Z|是图G Z的度矩阵;
图卷积神经网络(GCN)函数定义为:
H λ+1=σ(L H λW λ)
其中H λ表示第λ层中的特征,W λ是第λ层的可训练的权重矩阵,激活函数σ采用修正线性单元(Rectified Linear Unit,ReLU);
将影响每个区域Z i内出租车订单的因素合并表示为特征向量
Figure PCTCN2020101096-appb-000005
其中
Figure PCTCN2020101096-appb-000006
分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速;
根据消息传递函数捕获局部和全局的结构模式,用于最终需求预测;
接着,将所有特征经过正则化处理后输入进GCN的输入层H 0进行预测,输入|Z|×10的特征矩阵,输出值为|Z|×1的预测值矩阵,代表预测的每个区域Z i下一个时隙的订单数量。
优选地,车辆供应量计算公式为:
Figure PCTCN2020101096-appb-000007
其中
Figure PCTCN2020101096-appb-000008
分别表示在时隙t j时在区域Z i内下车的出租车的数量;在时隙t j时停留在Z i区域内的可用出租车的数量;以及在时隙t j-1被调度到区域Z i,并将在时隙t j到达区域Z i的出租车的数量。
优选地,出租车调度模型(基于DQN模型)的训练过程如下:
S4.1:将DQN模型内的经验回放池中所有上一个时隙的经验中的s t和r t补全,其中s t由新的时隙下系统观测得到,r t由奖励函数得到;在上一个时隙(t-1)中的下一时隙为t,此时的st为t时隙的状态信息,rt为t时隙下关于st和at的奖励。
S4.2:将过渡元组(s t,a t,r t+1,s t+1)储存在DQN模型内的经验回放池中,其中r t+1和s t+1暂时无法得到,因此暂时保留等待后续补全;
S4.3:每当经过B个时隙后进行一次经验回放,回放数为批次大小b;
S4.4:利用Q网络和目标网络根据损失函数公式计算得到均方误差,应用自适应估计的优化方法进行权重的迭代更新;
损失函数公式为:
Figure PCTCN2020101096-appb-000009
其中θ和θ′分别是Q网络和目标网络的权值,γ是折扣因子,r是奖励值, a*是在参数θ′和状态s下得到的动作,a是在参数θ和状态s下得到的动作,E在数学中表示期望,因此此损失函数的公式为理论值,需要训练逼近期望。整个损失函数代表着目标Q值和预测Q值之间的均方误差。
S4.5:将Q网络中的权重实时更新,而目标网络中的权重每隔若干个时隙和Q网络的权重进行一次同步,以便构建出有意义的不震荡的目标Q值,用于优化网络权重的损失函数;最终当达到预设的迭代步数后,得到训练完成的出租车调度模型。
一般迭代步数是人为根据训练目标设置的,一般为平均最大Q值处于稳定的状态一定步数后停止训练。
优选地,奖励函数为:
Figure PCTCN2020101096-appb-000010
Figure PCTCN2020101096-appb-000011
其中,
Figure PCTCN2020101096-appb-000012
为区域Z i的供求比,
Figure PCTCN2020101096-appb-000013
为区域Z g的供求比;
Figure PCTCN2020101096-appb-000014
Figure PCTCN2020101096-appb-000015
表示在时间t j-1区域Z i的实际供应和实际需求,系统可以在时间t j观察到。
本发明还提供一种基于深度强化学习的出租车调度系统,所述系统用来实现本发明所述方法,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;
区域构建模块用来构建区域网络;
需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量;
车辆调度模块负责车辆的调度以及出租车调度模型的训练更新;
模拟器模拟外部环境,并根据实际情况训练强化深度学习算法,以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
首先本发明的车辆调度模块表示为:将调度中心视为智能体(Agent),连续跟踪所有出租车和乘车请求的实时信息(例如,位置和状态),在每个时隙结束后,调度中心会根据上下文状态利用DQN模型为每个可用的出租车生成新的 调度策略,从而实现优化全局出租车的供需平衡。
在实践中,将可用的出租车调度到较远的区域效率低下。同样,遥远区域的状态也对当下出租车的调度行为影响微乎其微且难以预料。因此,本发明优化了同一区域中所有可用出租车的状态空间和动作空间,从而降低了计算复杂度并使车辆调度可以用于城市规模的乘车服务。相邻区域之间的出租车调度可以有效且快速的缓解需求-供应不平衡。因此,在上文的构建区域模块中已经对于给定的区域Z i,确定了前κ个最近的邻居区域N Zi={Z j,j=1,…,κ}。一个时隙内的车辆调度策略只会使车辆在相邻的区域内调度。
此外,本发明不会对同一区域中的所有可用出租车做出相同的决定或独立为出租车做出动作,而是顺序的对所有可用的出租车采取行动,以确保出租车之间的协调。因为一旦将闲置的出租车送往特定区域,它实质上已经改变了下一个时隙的供需环境,这将影响其他后续出租车的行动。基于这些考虑,本发明设计了如下的基于DQN的车辆调度模块。
所述车辆调度模块可实现以下功能:
(1)上下文状态:
由于将所有外部因素迁移到出租车需求预测模型,因此可以采用简单的状态表示形式,主要包含区域级别的需求供应信息。具体来说,每个出租车调度时所在区域对应的状态定义为:对于每一个可用出租车所在的区域Z i,包括区域IDi,Z i的需求和供应数据以及Z i的所有相邻区域的需求和供应数据。如果Z i的邻居不足(<κ),则剩余字段将用零填充。对于每个区域Z i,时隙t j的出租车需求
Figure PCTCN2020101096-appb-000016
由GCN预测器提供,而其出租车供给
Figure PCTCN2020101096-appb-000017
可以综合估算为:
Figure PCTCN2020101096-appb-000018
其中
Figure PCTCN2020101096-appb-000019
分别表示在时隙t j时在区域Z i内下车的出租车的数量;在时隙t j时停留在Z i区域内的可用出租车的数量;以及在时隙t j-1被调度到区域Z i,并将在时隙t j到达区域Z i的出租车的数量。
(2)调度行动:
每个可用的出租车都有(κ+1)个可能的动作,每个动作都会将出租车调度到特定区域。具体来说,a t=i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域,而a t=0则表示该出租车在时间t继续停留在当前区域。本发明会顺序的对所有可用的出租车采取行动,以确保出租车之间的协调。
(3)即时奖励:
出租车调度的目的是减轻不同区域之间的供需失衡,因此,根据时隙t j-1对目标区域的供需情况的影响,在时隙t j为每个动作计算即时奖励。为此,将区域Z i的供求比
Figure PCTCN2020101096-appb-000020
定义为:
Figure PCTCN2020101096-appb-000021
其中
Figure PCTCN2020101096-appb-000022
Figure PCTCN2020101096-appb-000023
表示在时间t j-1区域Z i的实际供应和实际需求,系统可以在时间t j观察到。特别地,如果
Figure PCTCN2020101096-appb-000024
则设置
Figure PCTCN2020101096-appb-000025
对于将空闲出租车从其定位区域Z i调度到目标区域Z g的动作,使用上述公式计算即时奖励r t。当Z i缺少出租车供应时,则停留行为将获得积极回报,其他行为将受到惩罚。当Z i中的出租车供应量大于需求量时,如果当目标区域Z g需求量大于出租车供应量越大,则该动作将获得更多回报;否则,由于Z g也有足够的出租车供应,因此调度不会获得任何奖励。
具体的奖励函数如下:
Figure PCTCN2020101096-appb-000026
(4)训练方法:
基于上述三个步骤,本发明利用DQN模型动态学习主动出租车调度的最佳策略。作为DQN模型的核心,Q学习(Q-learning)是一种异策略的时差学习方法,旨在获得最大的长期折扣奖励Q(s,a)。特别是,本发明利用深层神经网络(Deep Neural Network,DNN)来逼近Q函数。在训练阶段,Q值被更新如下:
Figure PCTCN2020101096-appb-000027
其中,α是学习率,γ是折扣因子,r是奖励值。
为了使用函数逼近解决DQN的不稳定性问题,本发明采用了两种技术:目标网络和经验回放。目标网络是Q网络的副本,它被冻结以用作多个步骤提供的稳定的目标Q值。在训练期间,目标网络的参数将更新以匹配策略网络。另外,经验回放存储器以过渡元组的形式存储经验,表示为(s t-1,a t-1,r t-1,s t),即为状态,动作,奖励和后继状态,元组被存储在经验池中,从而能够从这些先前观 察到的数据中进行采样并进行训练。进一步的代替对存储的元组进行均匀采样,基于时序差分(TD-error)δ对采样进行优先级排序将对学习更为有效。对于每个过渡元组,使用以下公式计算其δ。
Figure PCTCN2020101096-appb-000028
更新Q网络权重时,损失函数L(θ)用于计算预测Q值与目标Q值之间的差。
Figure PCTCN2020101096-appb-000029
其中θ和θ′分别是Q网络和目标网络的权值。在上述更新规则中,Q网络会以目标值
Figure PCTCN2020101096-appb-000030
拟合。
本发明所述模拟器可以模拟必要的外部环境,以根据实际情况训练强化深度学习算法。所述模拟器对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。具体来说,模拟器包括路线规划器,该路线规划器将在给定出租车的调度动作或分配命令的情况下在出租车的道路网络上查找行驶路径;出租车订单匹配器,将每个乘车请求分配给合适的出租车;以及出租车调度器,执行根据某些出租车调度策略对可用出租车的调度动作。具体细节如下所示:
路线规划器:路线规划器在道路网络图G上使用迪杰斯特拉(Dijkstra)算法计算两个位置之间的最短路径。它为出租车订单匹配器和出租车调度器提供服务,以计算:(1)正在运送乘客中的出租车的到达时间,以便出租车调度模型可以将出租车的供应量考虑在内,以确保将来出租车的供需平衡;(2)乘客等待其指定的出租车的时间;(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本。
出租车订单匹配器:当收到新的乘车请求时,模拟器会分配最近的空闲出租车来为其服务。指派的出租车将按照路线计划器提供的路线行驶,接载乘客,然后将其运送到目的地。如果无法在阈值限定时间内为空车出租车分配乘车请求,则该请求将被拒绝。
出租车调度器:该组件将执行DQN模型生成的操作,以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内。同时它跟踪所有出租车的状态和乘车请求,以形成强化深度学习模型的观察状态。计算出每个区域中的实际出租车需求和供应,并计算在最后一个时隙中采取的这些行动的报酬,作为反馈,以更新DQN模型。
与现有技术相比,本发明技术方案的有益效果是:本发明设计了一个基于道 路网络结构的区域划分聚类,使得区域划分不会破坏道路网络结构,大大减少了调度成本。其次,本发明将需求预测模块从车辆调度模块中抽离出来,使外部环境的多维复杂数据输入需求预测模块,用相对准确且易收敛的监督学习方法训练需求预测模型,将预测的需求和实时的供应作为车辆调度模块的输入状态,既有可解释性,又大大降低了状态空间的复杂度易于收敛,使得整个系统高内聚,低耦合。最后,在输入状态中车辆的供应值是动态调整的,当前决策因为输入状态的不同,能够根据历史决策的结果做出相应的调整,使车辆调度工作具有合作性,避免了恶性竞争促进了相互合作从而提升了出租车系统的利用率。
附图说明
图1为实施例1所述基于深度强化学习的出租车调度方法流程图。
图2为区域构建区域的聚类算法聚类示意图。
图3为基于GCN的出租车需求预测器的框架和特征向量的结构。
图4为实施例2所述基于深度强化学习的出租车调度系统示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1:
本实施例提供一种基于深度强化学习的出租车调度方法,如图1所示,所述方法包括以下步骤:
步骤1:将选定区域的道路网络公式化为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重。
步骤2:应用区域聚类算法将图G通过分类顶点v,从而形成指定数量的不同区域Z i
如图2所示,所述构建区域的聚类方法具体包括:
首先,将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重。函数cost(·)可以根据距离和行驶速度在给定路线或任意两个位置的道路网络图G上计算行驶时间。
接着,将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域。每个区域Z维护以下的信息:区域中心顶点Z c,顶点集Z v,边集Z e和总权重Z w。接下来,将所有未分配的顶点v(以集合U表示)分类给各个区域Z={Z i,i=1,…,M}。
步骤2.1:(选择目标区域)选择所有区域Z中总权重Z w最小的区域为目标区域Z tar以添加新的顶点v和边e。
步骤2.2:(加入未分配的顶点和边)遍历所有未分配的顶点v,找出最小的顶点v到目标区域Z tar的顶点-区域距离dis(v,Z tar)。此距离被定义为顶点v到区域中心Z c的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和,计算公式如下:
dis(v,Z)=[cost(v,Z c)+cost(v,v′)]
如果顶点-区域距离dis(v,Z tar)小于等于一个可调整的参数阈值,即最大区域范围ε,则添加顶点v进入目标区域的顶点集
Figure PCTCN2020101096-appb-000031
并添加源头始于顶点v的边e进目标区域的边集
Figure PCTCN2020101096-appb-000032
接着目标区域的总权重
Figure PCTCN2020101096-appb-000033
将加上顶点-区域距离dis(v,Z tar)。最后在未分配的顶点集合U中删除此顶点v。如果此顶点-区域距离大于最大区域范围ε则返回步骤1,选择下一个目标区域继续上述步骤。
步骤2.3:重复步骤1和步骤2直到未分配顶点集U为空为止,经过此步骤会将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域。
最后,对于给定的区域Z i,我们将前κ个最近的区域定义为其邻居N Zi={Z j,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。
在图2中,图2(A)表示步骤2.1的选择有最小的总权重值的区域作为目标区域来添加新的顶点,在本例中假设算得A为目标区域。图2(B)表示步骤2.2的未分配的顶点和边,遍历所有未分配的顶点选择最近的顶点添加,并添加源自此顶点的边,同时添加进目标区域的顶点距离区域中心要在约束范围内。图2(C)表示步骤2.3的重复上述步骤直到所有未分配的顶点和边都被分配完毕,则构建区域的聚类算法结束。
步骤3:确定每个区域的相邻区域。
步骤4:构造GCN预测网络,如图3所示,网络结构为3层图卷积神经网络,每一层包括了|Z|个神经元,均使用ReLU作为激活函数,如果还没有训练完成的对应模型,则利用历史数据进行监督学习训练,然后加载训练完成的对应模型。
步骤5:如果没有已经训练好的模型,利用订单数据集进行监督学习的训练即可。
步骤6:构造DQN模型,DQN模型的网络结构为多层全连接神经网络,构造相同结构的Q网络和目标网络,它们由4个全连接层组成,每层包括400个神经元,均使用ReLU作为激活函数,并加载训练完成的DQN模型(如果需要训练模型则将加载DQN模型改为随机生成网络中的所有神经元的参数)。
步骤7:将上述系统部署到真实场景或模拟器中。
步骤8:初始化各个参数:调度时隙间隔为10分钟、顶点-区域距离的最大区域范围ε为1500米、学习率α是0.0001、折扣因子γ是0.9、邻居上限κ=7、经验回放池大小N=30000、训练间隔时隙个数B=12、训练批次大小b=256。
步骤9:开始处理新的时隙。
步骤10(训练时加入):将经验回放池中所有上一个时隙的经验中的s t+1和r t+1补全,其中s t+1由新的时隙下系统观测得到,r t+1由奖励函数计算得到。
奖励函数为:
Figure PCTCN2020101096-appb-000034
Figure PCTCN2020101096-appb-000035
其中,
Figure PCTCN2020101096-appb-000036
为区域Z i的供求比,
Figure PCTCN2020101096-appb-000037
为区域Z g的供求比;
Figure PCTCN2020101096-appb-000038
Figure PCTCN2020101096-appb-000039
表示在时间t j-1区域Z i的实际供应和实际需求,系统可以在时间t j观察到。
步骤11:出租车订单匹配器持续处理当前时隙内的订单,直到当前时隙结束。
步骤12:为每个区域构造一个十维特征向量并求得拉普拉斯矩阵,将其输入进GCN网络,得到每个区域下一个时隙的预测需求。
步骤13:根据公式
Figure PCTCN2020101096-appb-000040
和预测需求,计算出每个区域的需求供应值,根据邻居关系构造出上下文状态S。
步骤14:将状态S代入Q网络中进行前馈操作得到所有可行动作对应的预测Q值,取最大Q值对应的动作。
步骤15(训练时加入):将过渡元组(s t,a t,r t+1,s t+1)储存在DQN模型内的经验回放池中,其中r t+1和s t+1暂时无法得到,因此暂时保留等待后续补全。
步骤16(训练时加入):每当经过B个时隙后进行一次经验回放,回放数为批次大小b。
步骤17(训练时加入):利用Q网络和目标网络根据损失函数计算得到均方误差,应用自适应估计(Adam)的优化方法进行权重的迭代更新。
损失函数公式为:
Figure PCTCN2020101096-appb-000041
其中θ和θ′分别是Q网络和目标网络的权值,γ是折扣因子,r是奖励值,a*是在参数θ′和状态s下得到的动作,a是在参数θ和状态s下得到的动作,E在数学中表示期望,因此此损失函数的公式为理论值,需要训练逼近期望。整个损失函数代表着目标Q值和预测Q值之间的均方误差。
步骤18(训练时加入):Q网络中的权重实时更新,而目标网络中的权重每隔一定时隙(144个)和Q网络的权重进行一次同步,以便构建出有意义的不震荡的目标Q值,可用于优化网络权重的损失函数;最终当达到迭代步数后,得到训练完成的出租车调度模型。
步骤19:如果结束则退出,否则跳转到步骤7继续处理下一个时隙,重复之后的步骤。
特别的,如果需要训练DQN模型,则需要额外执行步骤10、15、16、17、18,其他过程保持一致。
实施例2
本实施例提供一种基于深度强化学习的出租车调度系统,如图4所示,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;
区域构建模块用来构建区域网络;
需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量;
车辆调度模块负责车辆的调度以及出租车调度模型的训练更新;
模拟器模拟外部环境,并根据实际情况训练强化深度学习算法,以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
车辆调度模块具体实现以下功能:
(1)上下文状态:
每个出租车调度时所在区域对应的状态定义为:对于每一个可用出租车所在的区域Z i,包括区域IDi,Z i的需求和供应数据以及Z i的所有相邻区域的需求和供应数据;
如果Z i的邻居不足(<κ),则剩余字段将用零填充;对于每个区域Z i,时隙t j的出租车需求
Figure PCTCN2020101096-appb-000042
由GCN预测器提供,而其出租车供给
Figure PCTCN2020101096-appb-000043
可以综合估算为:
Figure PCTCN2020101096-appb-000044
其中
Figure PCTCN2020101096-appb-000045
分别表示在时隙t j时在区域Z i内下车的出租车的数量;在时隙t j时停留在Z i区域内的可用出租车的数量;以及在时隙t j-1被调度到区域Z i,并将在时隙t j到达区域Z i的出租车的数量;
(2)调度行动:
每个可用的出租车都有(κ+1)个可能的动作,每个动作都会将出租车调度到特定区域;
具体来说,a t=i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域,而a t=0则表示该出租车在时间t继续停留在当前区域。按顺序的对所有可用的出租车采取行动,以确保出租车之间的协调;
(3)即时奖励:
根据时隙t j-1对目标区域的供需情况的影响,在时隙t j为每个动作计算即时 奖励;将区域Z i的供求比
Figure PCTCN2020101096-appb-000046
定义为:
Figure PCTCN2020101096-appb-000047
其中
Figure PCTCN2020101096-appb-000048
Figure PCTCN2020101096-appb-000049
表示在时间t j-1区域Z i的实际供应和实际需求,系统可以在时间t j观察到;
对于将空闲出租车从其定位区域Z i调度到目标区域Z g的动作,使用上述公式计算即时奖励r t
当Z i缺少出租车供应时,则停留行为将获得积极回报,其他行为将受到惩罚;当Z i中的出租车供应量大于需求量时,如果当目标区域Z g需求量大于出租车供应量越大,则该动作将获得更多回报;否则,由于Z g也有足够的出租车供应,因此调度不会获得任何奖励;具体的奖励函数如下:
Figure PCTCN2020101096-appb-000050
(4)训练方法:
利用深层神经网络(Deep Neural Network,DNN)来逼近Q函数;在训练阶段,Q值被更新如下:
Figure PCTCN2020101096-appb-000051
其中,α是学习率,γ是折扣因子,r是奖励值。
在训练期间,目标网络的参数将更新以匹配策略网络;
经验回放存储器以过渡元组的形式存储经验,表示为(s t-1,a t-1,r t-1,s t),即为状态,动作,奖励和后继状态,元组被存储在经验池中,从而能够从这些先前观察到的数据中进行采样并进行训练;进一步的代替对存储的元组进行均匀采样,基于时序差分(TD-error)δ对采样进行优先级排序将对学习更为有效;对于每个过渡元组,使用以下公式计算其时序差分δ:
Figure PCTCN2020101096-appb-000052
更新Q网络权重时,损失函数L(θ)用于计算预测Q值与目标Q值之间的差。
Figure PCTCN2020101096-appb-000053
其中θ和θ′分别是Q网络和目标网络的权值。在上述更新规则中,Q网络会 以目标值
Figure PCTCN2020101096-appb-000054
拟合。
模拟器包括线路规划器、出租车订单匹配器、出租车调度器;
路线规划器在道路网络图G上使用迪杰斯特拉算法计算两个位置之间的最短路径。它为出租车订单匹配器和出租车调度器提供服务,以计算:(1)正在运送乘客中的出租车的到达时间,以便出租车调度模型可以将出租车的供应量考虑在内,以确保将来出租车的供需平衡;(2)乘客等待其指定的出租车的时间;(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本。
出租车订单匹配器,将每个乘车请求分配给合适的出租车;
出租车调度器将执行DQN模型生成的操作,以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内;同时跟踪所有出租车的状态和乘车请求,以形成强化深度学习模型的观察状态;
计算出每个区域中的实际出租车需求和供应,并计算在最后一个时隙中采取的这些行动的报酬,作为反馈,以更新DQN模型。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

  1. 一种基于深度强化学习的出租车调度方法,其特征在于,所述方法包括以下步骤:
    S1:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;
    S2:根据形成的区域网络应用基于图卷积神经网络所构建的需求预测模型利用历史订单数据,预测任意区域在任意的时间中将会出现的订单数量;
    S3:根据调度系统实时得到的数据计算出一个区域总的车辆供应量;
    根据一个区域总的订单数量的预测值和总的车辆供应量,获取每个区域的需求/供应状态;
    S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。
  2. 根据权利要求1所述的基于深度强化学习的出租车调度方法,其特征在于,构建区域聚类的方法包括以下步骤:
    S1.1:将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重;
    S1.2:将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域;
    每个区域Z维护以下的信息:区域中心顶点Z c,顶点集Z v,边集Z e和总权重Z w
    将所有未分配的顶点v,未分配的顶点以集合U表示,分类给各个区域Z={Z i,i=1,…,M};
    S1.3:选择所有区域Z中总权重Z w最小的区域为目标区域Z tar以添加新的顶点v和边e;
    S1.4:遍历所有未分配的顶点v,找出最小的顶点v到目标区域Z tar的顶点- 区域距离dis(v,Z tar);此距离被定义为顶点v到区域中心Z c的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和;
    如果顶点-区域距离dis(v,Z tar)小于等于最大区域范围ε,则添加顶点v进入目标区域的顶点集
    Figure PCTCN2020101096-appb-100001
    并添加源头始于顶点v的边e进目标区域的边集
    Figure PCTCN2020101096-appb-100002
    接着目标区域的总权重
    Figure PCTCN2020101096-appb-100003
    将加上顶点-区域距离dis(v,Z tar);
    然后在未分配的顶点集合U中删除此顶点v;如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域,并返回S1.3;
    S1.5:重复S1.3和S1.4直到未分配顶点集U为空为止,将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域;
    对于给定的区域Z i,将前κ个最近的区域定义为其邻居N Zi={Z j,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。
  3. 根据权利要求2所述的基于深度强化学习的出租车调度方法,其特征在于,顶点-区域距离的计算公式如下:
    Figure PCTCN2020101096-appb-100004
  4. 根据权利要求2或3所述的基于深度强化学习的出租车调度方法,其特征在于,S2的具体过程如下:
    将地图上的每个区域定义为一个顶点,如果两个区域紧邻,则会形成一条边;给定区域分布,构建区域图G Z=(Z all,Α),其中Z all是所有区域的集合,所有区域的总数表示为|Z|,并且Α∈R |Z|×|Z|是区域邻接矩阵,指示区域之间的连接;以此计算区域图的拉普拉斯矩阵,计算方法如下:
    Figure PCTCN2020101096-appb-100005
    其中I∈R |Z|×|Z|是图G Z的单位矩阵,D∈R |Z|×|Z|是图G Z的度矩阵;
    图卷积神经网络函数定义为:
    H λ+1=σ(LH λW λ)
    其中H λ表示第λ层中的特征,W λ是第λ层的可训练的权重矩阵,激活函数σ 采用修正线性单元;
    将影响每个区域Z i内出租车订单的因素合并表示为特征向量
    Figure PCTCN2020101096-appb-100006
    其中
    Figure PCTCN2020101096-appb-100007
    分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速;
    根据消息传递函数捕获局部和全局的结构模式,用于最终需求预测;
    接着,将所有特征经过正则化处理后输入进图卷积神经网络的输入层H 0进行预测,输入|Z|×10的特征矩阵,输出值为|Z|×1的预测值矩阵,代表预测的每个区域Z i下一个时隙的订单数量。
  5. 根据权利要求4所述的基于深度强化学习的出租车调度方法,其特征在于,车辆供应量计算公式为:
    Figure PCTCN2020101096-appb-100008
    其中
    Figure PCTCN2020101096-appb-100009
    分别表示在时隙t j时在区域Z i内下车的出租车的数量;在时隙t j时停留在Z i区域内的可用出租车的数量;以及在时隙t j-1被调度到区域Z i,并将在时隙t j到达区域Z i的出租车的数量。
  6. 根据权利要求5所述的基于深度强化学习的出租车调度方法,其特征在于,出租车调度模型的训练过程如下:
    S4.1:基于模拟器将深度Q网络内的经验回放池中所有上一个时隙的经验中的s t和r t补全,其中s t由新的时隙下系统观测得到,r t由奖励函数得到;在上一个时隙t-1中的下一时隙为t,此时的s t为t时隙的状态信息,r t为t时隙下关于s t和a t的奖励;
    S4.2:将过渡元组(s t,a t,r t+1,s t+1)储存在DQN模型内的经验回放池中,其中r t+1和s t+1暂时无法得到,因此暂时保留等待后续补全;
    S4.3:每当经过B个时隙后进行一次经验回放,回放数为批次大小b;
    S4.4:基于DQN根据损失函数公式计算得到均方误差,应用自适应估计的优化方法进行权重的迭代更新;
    损失函数公式为:
    Figure PCTCN2020101096-appb-100010
    其中θ和θ′分别是Q网络和目标网络的权值,γ是折扣因子,r是奖励值, a*是在参数θ′和状态s下得到的动作,a是在参数θ和状态s下得到的动作,E表示期望;
    S4.5:将Q网络中的权重实时更新,而目标网络中的权重每隔若干个时隙和Q网络的权重进行一次同步,以便构建出有意义的不震荡的目标Q值,用于优化网络权重的损失函数;最终当达到预设的迭代步数后,得到训练完成的出租车调度模型。
  7. 根据权利要求6所述的基于深度强化学习的出租车调度方法,其特征在于,奖励函数为:
    Figure PCTCN2020101096-appb-100011
    Figure PCTCN2020101096-appb-100012
    其中,
    Figure PCTCN2020101096-appb-100013
    为区域Z i的供求比,
    Figure PCTCN2020101096-appb-100014
    为区域Z g的供求比;
    Figure PCTCN2020101096-appb-100015
    Figure PCTCN2020101096-appb-100016
    表示在时间t j-1区域Z i的实际供应和实际需求,系统可以在时间t j观察到。
  8. 一种基于深度强化学习的出租车调度系统,其特征在于,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;
    区域构建模块用来构建区域网络;
    需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量;
    车辆调度模块负责车辆的调度以及出租车调度模型的训练更新;
    模拟器模拟外部环境,并根据实际情况训练强化深度学习算法,以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
  9. 根据权利要求8所述的基于深度强化学习的出租车调度系统,其特征在于,车辆调度模块具体实现以下功能:
    (1)上下文状态:
    每个出租车调度时所在区域对应的状态定义为:对于每一个可用出租车所在的区域Z i,包括区域IDi,Z i的需求和供应数据以及Z i的所有相邻区域的需求和供应数据;
    如果Z i的邻居不足,则剩余字段将用零填充;对于每个区域Z i,时隙t j的出租车需求
    Figure PCTCN2020101096-appb-100017
    由GCN预测器提供,而其出租车供给
    Figure PCTCN2020101096-appb-100018
    可以综合估算为:
    Figure PCTCN2020101096-appb-100019
    其中
    Figure PCTCN2020101096-appb-100020
    分别表示在时隙t j时在区域Z i内下车的出租车的数量;在时隙t j时停留在Z i区域内的可用出租车的数量;以及在时隙t j-1被调度到区域Z i,并将在时隙t j到达区域Z i的出租车的数量;
    (2)调度行动:
    每个可用的出租车都有(κ+1)个可能的动作,每个动作都会将出租车调度到特定区域;
    a t=i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域,而a t=0则表示该出租车在时间t继续停留在当前区域;按顺序的对所有可用的出租车采取行动,以确保出租车之间的协调;
    (3)即时奖励:
    根据时隙t j-1对目标区域的供需情况的影响,在时隙t j为每个动作计算即时奖励;将区域Z i的供求比
    Figure PCTCN2020101096-appb-100021
    定义为:
    Figure PCTCN2020101096-appb-100022
    其中
    Figure PCTCN2020101096-appb-100023
    Figure PCTCN2020101096-appb-100024
    表示在时间t j-1区域Z i的实际供应和实际需求,系统在时间t j观察到;
    对于将空闲出租车从其定位区域Z i调度到目标区域Z g的动作,使用上述公式计算即时奖励r t
    当Z i缺少出租车供应时,则停留行为将获得积极回报,其他行为将受到惩罚;当Z i中的出租车供应量大于需求量时,如果当目标区域Z g需求量大于出租车供应量越大,则该动作将获得更多回报;否则,由于Z g也有足够的出租车供应,因此调度不会获得任何奖励;具体的奖励函数如下:
    Figure PCTCN2020101096-appb-100025
    (4)训练方法:
    利用深层神经网络来逼近Q函数;在训练阶段,Q值被更新如下:
    Figure PCTCN2020101096-appb-100026
    其中,α是学习率,γ是折扣因子,r是奖励值;
    经验回放存储器以过渡元组的形式存储经验,表示为(s t-1,a t-1,r t-1,s t),即为状态,动作,奖励和后继状态,元组被存储在经验池中,从而能够从这些先前观察到的数据中进行采样并进行训练;进一步的代替对存储的元组进行均匀采样,基于时序差分δ对采样进行优先级排序将对学习更为有效;对于每个过渡元组,使用以下公式计算其时序差分δ:
    Figure PCTCN2020101096-appb-100027
    更新Q网络权重时,损失函数L(θ)用于计算预测Q值与目标Q值之间的差;
    Figure PCTCN2020101096-appb-100028
    其中θ和θ′分别是Q网络和目标网络的权值;在上述更新规则中,Q网络会以目标值
    Figure PCTCN2020101096-appb-100029
    拟合。
  10. 根据权利要求8或9所述的基于深度强化学习的出租车调度系统,其特征在于,模拟器包括线路规划器、出租车订单匹配器、出租车调度器;
    路线规划器在道路网络图G上使用迪杰斯特拉算法计算两个位置之间的最短路径;它为出租车订单匹配器和出租车调度器提供服务,用来计算:(1)正在运送乘客中的出租车的到达时间,以便出租车调度模型可以将出租车的供应量考虑在内,以确保将来出租车的供需平衡;(2)乘客等待其指定的出租车的时间;(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本;
    出租车订单匹配器,将每个乘车请求分配给合适的出租车;
    出租车调度器将执行DQN模型生成的操作,以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内;同时跟踪所有出租车的状态和乘车请求,以形成强化深度学习模型的观察状态;
    计算出每个区域中的实际出租车需求和供应量,并计算在最后一个时隙中采取的这些行动的报酬,作为反馈,以更新DQN模型。
PCT/CN2020/101096 2020-06-10 2020-07-09 一种基于深度强化学习的出租车调度方法及系统 WO2021248607A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010521882.1 2020-06-10
CN202010521882.1A CN111862579B (zh) 2020-06-10 2020-06-10 一种基于深度强化学习的出租车调度方法及系统

Publications (1)

Publication Number Publication Date
WO2021248607A1 true WO2021248607A1 (zh) 2021-12-16

Family

ID=72987154

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/101096 WO2021248607A1 (zh) 2020-06-10 2020-07-09 一种基于深度强化学习的出租车调度方法及系统

Country Status (2)

Country Link
CN (1) CN111862579B (zh)
WO (1) WO2021248607A1 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114368420A (zh) * 2021-12-23 2022-04-19 中国铁道科学研究院集团有限公司通信信号研究所 一种车站调车作业工作量的预测方法
CN114374949A (zh) * 2021-12-31 2022-04-19 东莞理工学院 一种车联网中基于信息新鲜度优化的功率控制机制
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114565247A (zh) * 2022-02-17 2022-05-31 华中科技大学 一种基于深度强化学习的车间调度方法、装置和系统
CN114580937A (zh) * 2022-03-10 2022-06-03 暨南大学 基于强化学习和注意力机制的智能作业调度系统
CN114626836A (zh) * 2022-05-17 2022-06-14 浙江大学 基于多智能体强化学习的急救后送决策系统及方法
CN114662863A (zh) * 2022-03-01 2022-06-24 广东华中科技大学工业技术研究院 基于深度学习的车间分布式运输调度方法
CN114676909A (zh) * 2022-03-25 2022-06-28 东南大学 基于深度强化学习的无人车充电路径规划方法
CN114710218A (zh) * 2022-05-31 2022-07-05 深圳市佳贤通信设备有限公司 基于5g的分布式节点与基站通信效能优化方法
CN114780441A (zh) * 2022-06-21 2022-07-22 南京争锋信息科技有限公司 一种真实用户智能感知系统中用例的智能策略抓取方法
CN114881282A (zh) * 2022-03-28 2022-08-09 天津大学 基于注意力机制和堆叠lstm的交通预测方法
CN114995455A (zh) * 2022-06-23 2022-09-02 中山大学·深圳 一种车辆全局路径规划方法及系统
CN115062713A (zh) * 2022-06-24 2022-09-16 中国矿业大学 一种基于gcn-gru的露天矿卡车停留区域活动识别方法
CN115225561A (zh) * 2022-08-15 2022-10-21 南京邮电大学 一种基于图结构特征的路由优化方法与系统
US20230048242A1 (en) * 2021-08-12 2023-02-16 Toyota Motor Engineering & Manufacturing North America, Inc. Decentralized ridesharing systems and methods for matching vehicles with users
CN116030079A (zh) * 2023-03-29 2023-04-28 北京嘀嘀无限科技发展有限公司 地理围栏划分方法、装置、计算机设备和存储介质
CN116151401A (zh) * 2023-03-01 2023-05-23 南京领行科技股份有限公司 一种平台派单方法、装置、设备及存储介质
CN116302448A (zh) * 2023-05-12 2023-06-23 中国科学技术大学先进技术研究院 任务调度方法和系统
CN116343461A (zh) * 2023-04-03 2023-06-27 北京白驹易行科技有限公司 一种车辆调度方法、装置及设备
CN116523161A (zh) * 2023-05-15 2023-08-01 南京理工大学 一种基于深度强化学习的协同配送路径规划方法
CN116594358A (zh) * 2023-04-20 2023-08-15 暨南大学 基于强化学习的多层工厂车间调度方法
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN117114079A (zh) * 2023-10-25 2023-11-24 中泰信合智能科技有限公司 一种单交叉口信号控制模型迁移至目标环境的方法
WO2023226356A1 (zh) * 2022-05-27 2023-11-30 深圳先进技术研究院 一种提高储能系统稳定性的电动汽车集群充放电管理方法
CN117196266A (zh) * 2023-11-07 2023-12-08 成都工业职业技术学院 基于神经网络的无人驾驶共享汽车区域调度方法及装置
CN117749625A (zh) * 2023-12-27 2024-03-22 融鼎岳(北京)科技有限公司 基于深度q网络的网络性能优化系统和方法
CN118171058A (zh) * 2024-02-27 2024-06-11 广东海洋大学 一种基于区域环境的沿海线列车风速预测方法及系统
CN118334863A (zh) * 2024-06-06 2024-07-12 深圳市海成智联科技有限公司 一种车辆调度方法、装置及设备
CN118394088A (zh) * 2024-04-29 2024-07-26 深圳市前海智慧园区有限公司 基于深度学习的医院自动配送机器人路径优化方法及系统

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150045B (zh) * 2020-11-05 2023-12-01 北京阿帕科蓝科技有限公司 基于车辆位置统计判断城市共享车辆供需关系的方法及其监测系统
CN112330215B (zh) * 2020-11-26 2024-02-02 长沙理工大学 一种城市用车需求量预测方法、设备及存储介质
CN112561104A (zh) * 2020-12-10 2021-03-26 武汉科技大学 基于强化学习的车辆共享服务订单派遣方法及系统
CN112734172B (zh) * 2020-12-25 2022-04-01 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN112766591A (zh) * 2021-01-27 2021-05-07 同济大学 共享单车调度方法
CN112949987B (zh) * 2021-02-01 2023-11-07 湖南大学 基于预测的出租车调度和匹配方法、系统、设备及介质
US11967239B2 (en) * 2021-02-23 2024-04-23 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for order dispatching and vehicle repositioning
CN113095636B (zh) * 2021-03-25 2024-01-23 深圳前海联动云软件科技有限公司 一种燃油共享汽车的智能调度系统及其方法
CN113344317A (zh) * 2021-04-09 2021-09-03 东莞理工学院 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN113253684B (zh) * 2021-05-31 2021-09-21 杭州蓝芯科技有限公司 基于图卷积神经网络的多agv调度方法及装置、电子设备
CN113672846A (zh) * 2021-06-18 2021-11-19 中国科学院自动化研究所 网约车调度方法、装置、电子设备及存储介质
CN113673836B (zh) * 2021-07-29 2023-08-18 清华大学深圳国际研究生院 一种基于强化学习的共享公交车贴线调度方法
CN113865603B (zh) * 2021-08-30 2024-06-07 东风柳州汽车有限公司 共享无人车路径规划方法、装置、设备及存储介质
CN114067597B (zh) * 2021-11-17 2023-01-31 哈尔滨工业大学 一种基于强化学习的不同合乘意愿下出租车调度方法
CN114169608A (zh) * 2021-12-08 2022-03-11 电子科技大学长三角研究院(湖州) 一种车辆动态合乘匹配方法、系统、介质、设备及终端
CN115793583B (zh) * 2022-12-02 2024-06-25 福州大学 基于深度强化学习的流水车间新订单插入优化方法
CN116453323B (zh) * 2023-04-11 2024-05-28 湖南大学 基于多车型和空车再平衡的出租车调度方法及调度系统
CN116562738B (zh) * 2023-07-10 2024-01-12 深圳市汉德网络科技有限公司 一种货运智能调度方法、装置、设备及存储介质
CN116682254B (zh) * 2023-08-03 2023-10-20 深圳市新乐数码科技有限公司 基于巡游出租车订单和gps数据的司机接单路线规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099040A1 (en) * 2009-10-28 2011-04-28 Verizon Patent And Licensing, Inc. Mobile taxi dispatch system
CN104599088A (zh) * 2015-02-13 2015-05-06 北京嘀嘀无限科技发展有限公司 基于订单的调度方法和调度系统
CN108596688A (zh) * 2018-05-09 2018-09-28 厦门卫星定位应用股份有限公司 一种出租车载客信息获取方法及介质
CN108985475A (zh) * 2018-06-13 2018-12-11 厦门大学 基于深度神经网络的网约车召车需求预测方法
CN110766280A (zh) * 2019-09-20 2020-02-07 南京领行科技股份有限公司 一种车辆调度方法、目标订单预测模型的生成方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286793B2 (en) * 2012-10-23 2016-03-15 University Of Southern California Traffic prediction using real-world transportation data
CN103854472B (zh) * 2012-12-05 2016-09-07 深圳先进技术研究院 出租车云智能调度方法及系统
CN104077915B (zh) * 2014-03-27 2017-02-08 中华电信股份有限公司 乘车趋势预测装置及其方法
CN106875670B (zh) * 2017-03-07 2019-12-31 重庆邮电大学 Spark平台下基于GPS数据的出租车调配方法
CN108629503B (zh) * 2018-04-28 2020-11-03 南通大学 一种基于深度学习的出租车上车需求量的预测方法
CN108717781B (zh) * 2018-07-18 2021-03-02 西安艾润物联网技术服务有限责任公司 出租车调度系统及出租车调度方法
CN109388484B (zh) * 2018-08-16 2020-07-28 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
JP6818304B2 (ja) * 2018-10-31 2021-01-20 トヨタ自動車株式会社 情報配信方法、情報配信装置、及び情報配信プログラム
CN109859458B (zh) * 2019-01-17 2020-06-30 深圳市泰比特科技有限公司 一种基于车辆大数据的车辆调度方法及系统
CN109993408B (zh) * 2019-02-28 2021-07-09 河海大学 一种基于服务区域划分的网约车运力调配方法
CN110348969B (zh) * 2019-07-16 2022-04-08 哈尔滨工程大学 基于深度学习和大数据分析的出租车寻客策略推荐方法
CN110458337B (zh) * 2019-07-23 2020-12-22 内蒙古工业大学 一种基于c-gru的网约车供需预测方法
CN110796317B (zh) * 2019-12-02 2022-11-01 武汉理工大学 一种基于需求预测的城市出租车调度方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099040A1 (en) * 2009-10-28 2011-04-28 Verizon Patent And Licensing, Inc. Mobile taxi dispatch system
CN104599088A (zh) * 2015-02-13 2015-05-06 北京嘀嘀无限科技发展有限公司 基于订单的调度方法和调度系统
CN108596688A (zh) * 2018-05-09 2018-09-28 厦门卫星定位应用股份有限公司 一种出租车载客信息获取方法及介质
CN108985475A (zh) * 2018-06-13 2018-12-11 厦门大学 基于深度神经网络的网约车召车需求预测方法
CN110766280A (zh) * 2019-09-20 2020-02-07 南京领行科技股份有限公司 一种车辆调度方法、目标订单预测模型的生成方法和装置

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230048242A1 (en) * 2021-08-12 2023-02-16 Toyota Motor Engineering & Manufacturing North America, Inc. Decentralized ridesharing systems and methods for matching vehicles with users
CN114368420A (zh) * 2021-12-23 2022-04-19 中国铁道科学研究院集团有限公司通信信号研究所 一种车站调车作业工作量的预测方法
CN114374949A (zh) * 2021-12-31 2022-04-19 东莞理工学院 一种车联网中基于信息新鲜度优化的功率控制机制
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114489059B (zh) * 2022-01-13 2024-02-02 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114565247A (zh) * 2022-02-17 2022-05-31 华中科技大学 一种基于深度强化学习的车间调度方法、装置和系统
CN114662863A (zh) * 2022-03-01 2022-06-24 广东华中科技大学工业技术研究院 基于深度学习的车间分布式运输调度方法
CN114580937A (zh) * 2022-03-10 2022-06-03 暨南大学 基于强化学习和注意力机制的智能作业调度系统
CN114580937B (zh) * 2022-03-10 2023-04-28 暨南大学 基于强化学习和注意力机制的智能作业调度系统
CN114676909A (zh) * 2022-03-25 2022-06-28 东南大学 基于深度强化学习的无人车充电路径规划方法
CN114676909B (zh) * 2022-03-25 2024-04-09 东南大学 基于深度强化学习的无人车充电路径规划方法
CN114881282A (zh) * 2022-03-28 2022-08-09 天津大学 基于注意力机制和堆叠lstm的交通预测方法
CN114626836A (zh) * 2022-05-17 2022-06-14 浙江大学 基于多智能体强化学习的急救后送决策系统及方法
WO2023226356A1 (zh) * 2022-05-27 2023-11-30 深圳先进技术研究院 一种提高储能系统稳定性的电动汽车集群充放电管理方法
CN114710218A (zh) * 2022-05-31 2022-07-05 深圳市佳贤通信设备有限公司 基于5g的分布式节点与基站通信效能优化方法
CN114780441A (zh) * 2022-06-21 2022-07-22 南京争锋信息科技有限公司 一种真实用户智能感知系统中用例的智能策略抓取方法
CN114780441B (zh) * 2022-06-21 2022-10-04 南京争锋信息科技有限公司 一种真实用户智能感知系统中用例的智能策略抓取方法
CN114995455A (zh) * 2022-06-23 2022-09-02 中山大学·深圳 一种车辆全局路径规划方法及系统
CN115062713A (zh) * 2022-06-24 2022-09-16 中国矿业大学 一种基于gcn-gru的露天矿卡车停留区域活动识别方法
CN115225561A (zh) * 2022-08-15 2022-10-21 南京邮电大学 一种基于图结构特征的路由优化方法与系统
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN116151401B (zh) * 2023-03-01 2024-06-07 南京领行科技股份有限公司 一种平台派单方法、装置、设备及存储介质
CN116151401A (zh) * 2023-03-01 2023-05-23 南京领行科技股份有限公司 一种平台派单方法、装置、设备及存储介质
CN116030079A (zh) * 2023-03-29 2023-04-28 北京嘀嘀无限科技发展有限公司 地理围栏划分方法、装置、计算机设备和存储介质
CN116343461A (zh) * 2023-04-03 2023-06-27 北京白驹易行科技有限公司 一种车辆调度方法、装置及设备
CN116343461B (zh) * 2023-04-03 2023-11-17 北京白驹易行科技有限公司 一种车辆调度方法、装置及设备
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法
CN116594358A (zh) * 2023-04-20 2023-08-15 暨南大学 基于强化学习的多层工厂车间调度方法
CN116302448A (zh) * 2023-05-12 2023-06-23 中国科学技术大学先进技术研究院 任务调度方法和系统
CN116302448B (zh) * 2023-05-12 2023-08-11 中国科学技术大学先进技术研究院 任务调度方法和系统
CN116523161A (zh) * 2023-05-15 2023-08-01 南京理工大学 一种基于深度强化学习的协同配送路径规划方法
CN117114079A (zh) * 2023-10-25 2023-11-24 中泰信合智能科技有限公司 一种单交叉口信号控制模型迁移至目标环境的方法
CN117114079B (zh) * 2023-10-25 2024-01-26 中泰信合智能科技有限公司 一种单交叉口信号控制模型迁移至目标环境的方法
CN117196266B (zh) * 2023-11-07 2024-01-23 成都工业职业技术学院 基于神经网络的无人驾驶共享汽车区域调度方法及装置
CN117196266A (zh) * 2023-11-07 2023-12-08 成都工业职业技术学院 基于神经网络的无人驾驶共享汽车区域调度方法及装置
CN117749625A (zh) * 2023-12-27 2024-03-22 融鼎岳(北京)科技有限公司 基于深度q网络的网络性能优化系统和方法
CN118171058A (zh) * 2024-02-27 2024-06-11 广东海洋大学 一种基于区域环境的沿海线列车风速预测方法及系统
CN118394088A (zh) * 2024-04-29 2024-07-26 深圳市前海智慧园区有限公司 基于深度学习的医院自动配送机器人路径优化方法及系统
CN118334863A (zh) * 2024-06-06 2024-07-12 深圳市海成智联科技有限公司 一种车辆调度方法、装置及设备

Also Published As

Publication number Publication date
CN111862579B (zh) 2021-07-13
CN111862579A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
WO2021248607A1 (zh) 一种基于深度强化学习的出租车调度方法及系统
CN110472764B (zh) 基于强化学习使用半合作纳什平衡来协调多方服务的方法和系统
Shi et al. Operating electric vehicle fleet for ride-hailing services with reinforcement learning
CN113811915B (zh) 用于在线共享出行平台的统一订单派发和车队管理
Iglesias et al. Data-driven model predictive control of autonomous mobility-on-demand systems
Wallar et al. Vehicle rebalancing for mobility-on-demand systems with ride-sharing
US20210110323A1 (en) Optimizing charging, fueling, and parking overheads of fleet vehicles in a maas architecture
US11514543B2 (en) System and method for ride order dispatching
Qin et al. Reinforcement learning for ridesharing: A survey
CN110110903A (zh) 一种基于神经进化的配送车辆路径规划方法
Zhang et al. Autonomous vehicle intelligent system: Joint ride-sharing and parcel delivery strategy
Qin et al. Multi-agent reinforcement learning-based dynamic task assignment for vehicles in urban transportation system
CN113672846A (zh) 网约车调度方法、装置、电子设备及存储介质
CN113780808A (zh) 基于柔性公交接驳系统线的车辆服务属性决策优化方法
Gammelli et al. Graph meta-reinforcement learning for transferable autonomous mobility-on-demand
Oda et al. Distributed fleet control with maximum entropy deep reinforcement learning
He et al. Robust electric vehicle balancing of autonomous mobility-on-demand system: A multi-agent reinforcement learning approach
Zhu et al. Idle-vehicle rebalancing coverage control for ride-sourcing systems
Castagna et al. Demand-responsive rebalancing zone generation for reinforcement learning-based on-demand mobility
Sun et al. Intelligent cruise guidance and vehicle resource management with deep reinforcement learning
Zhou et al. A robust deep reinforcement learning approach to driverless taxi dispatching under uncertain demand
Wu et al. Multi-agent deep reinforcement learning based real-time planning approach for responsive customized bus routes
Yuan et al. Reinforcement learning from optimization proxy for ride-hailing vehicle relocation
Li et al. A Multiline Customized Bus Planning Method Based on Reinforcement Learning and Spatiotemporal Clustering Algorithm
Zhu et al. A Coverage Control-Based Idle Vehicle Rebalancing Approach for Autonomous Mobility-on-Demand Systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20939537

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 17/03/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 20939537

Country of ref document: EP

Kind code of ref document: A1