WO2019165616A1

WO2019165616A1 - 信号灯控制方法、相关设备及系统

Info

Publication number: WO2019165616A1
Application number: PCT/CN2018/077687
Authority: WO
Inventors: 饶俊峰; 何周舟; 刘婉君; 廖玉玺; 洪斯宝
Original assignee: 华为技术有限公司
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2019-09-06
Also published as: CN110114806A

Abstract

一种信号控制方法，该方法包括通过数据库，获取路口的历史交通状态数据；通过训练模块，基于历史交通状态数据进行强化学习，得到信号灯训练模型；通过模型库，保存信号灯训练模型；其中，信号灯训练模型包括交通状态数据与控制策略的映射关系，控制策略指示路口的信号灯的亮灯规则；信号灯训练模型用于，基于路口的实时交通状态数据，输出路口的信号灯的控制策略。

Description

信号灯控制方法、相关设备及系统

技术领域

本发明涉及智能交通领域，尤其涉及信号灯控制方法、相关设备及系统。

背景技术

随着国家城镇化的不断推进，城市市民人口的不断增加，城市交通日趋繁忙。并且随着人民生活水平的不断提高，汽车已经成为人们出行的必备工具，城市汽车保有量持续快速增强，这给城市道路交通带来越来愈多的负荷，城市的交通变得越来越繁忙，大中小城市的交通拥挤、交通事故问题愈加逐渐凸显。虽然现如今信息技术发展突飞猛进，但城市交通控制系统仍显滞后，无法满足日益增加的交通需求。例如，目前使用最广泛的交通信号灯配时方案中，基本的思路是基于该道路的历史交通经验值，设置固定的周期时长，并且在这个周期时长里面，配置信号灯绿灯/黄灯/红灯的各自时长。在这种固定配置的现有技术方案中，配时的制定和变更都会滞后性非常大，无法快速响应交通的变化，而且需要手工调整配时，效率较低，无法适应变化的交通需求。

发明内容

本发明实施例提供了基于强化学习的信号灯控制方法、系统以及相关设备，实施本发明实施例能够使信号灯的控制更好的响应交通的变化，改善城市交通的拥挤状况。

第一方面，本发明实施例提供了一种信号灯控制方法，该方法应用于训练平台，所述训练平台包括数据库、训练模块和模型库，所述方法包括：通过所述数据库，获取路口的历史交通状态数据；通过所述训练模块，基于所述历史交通状态数据进行强化学习，得到信号灯训练模型；通过所述模型库，保存所述信号灯训练模型；其中，所述信号灯训练模型包括交通状态数据与控制策略的映射关系，所述控制策略指示所述路口的信号灯的亮灯规则；所述信号灯训练模型用于，基于所述路口的实时交通状态数据，输出所述路口的信号灯的实时控制策略。

本发明实施例中，针对于路口设计强化学习所需的智能体，训练平台主要用于基于强化学习技术，采用该路口的历史交通数据对路口的智能体进行训练，得到应用于信号灯控制的信号灯训练模型，对智能体进行训练过程可称为训练态，经过训练后输出的信号灯训练模型就可以用于基于所述路口的实时交通状态数据，输出所述路口的信号灯的实时控制策略(包括信号灯配时方案)，从而实现信号灯的实时控制。

可以看出，本发明实施例可基于路口道路交通的历史数据对智能体进行训练，训练所得的智能体模型能够给出较佳的信号灯配时方案，从而实现对路口信号灯进行智能控制。实施本发明实施例能够改善城市交通的拥挤状况，快速响应交通状况的变化，使得路口交通得以安全、畅通、有序和高效的运营。

基于第一方面，本发明具体实施例中，所述基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，包括：基于所述历史交通状态数据，构建交通仿真环境，构建强化学习环境；基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型。

也就是说，在训练态中，需构建交通环境、构建强化学习算法和具有初始参数的智能体模型，交通环境具有一系列交通状态集合，不同的交通状态对应于特定路口、特定时间段的交通信息。使用强化学习算法对环境和智能体模型进行控制，促使智能体模型以强化学习算法所指示的方式进行模型训练。具体的，假设当前所训练的状态为T状态，那么数据特征化的T状态以某种数学分布的形式输入到具有初始参数的初始智能体模型后，初始智能体模型从行动集中随机选择一种行动，该行动可以是一组信号灯相位结构，也可以是一套周期性的信号灯相位结构，注入到环境中，该行动对环境的交通状态造成影响，使得环境的交通状态从T状态转变为T+1状态，环境根据预设的交通调度目标，计算T+1状态与所预定的交通调度目标之间的差异，给该初始智能体模型提供一个可量化的奖励，以表达该行动的好坏。智能体模型接收到奖励之后，根据特定的算法对智能体模型的参数进行更新，更新后的智能体模型所能产生的控制策略将有利于趋近于该交通调度目标。循环迭代执行模型训练过程，继续使用该特定路口、不同时间段的交通信息对智能体模型进行训练，那么可以理解的，训练次数越多，智能体模型的参数将越优化，智能体模型所能产生的控制策略将趋近于该交通调度目标。训练完成后，如果训练结果符合期望，就可以输出该智能体模型(即信号灯训练模型)。

其中，所述交通仿真环境包括信号灯配时生成器、路网生成器和车流生成器；其中：

所述信号灯配时生成器用于为所述交通仿真环境提供模拟所述路口的信号灯运作的功能；所述路网生成器用于为所述交通仿真环境提供模拟所述路口的交通道路和交通交叉口的功能所述车流生成器用于为所述交通仿真环境提供模拟所述路口的车辆行驶的功能。

另外，所述交通仿真环境还包括交通仿真器校正模块，所述交通仿真器校正模块用于对所述交通仿真环境的车头时距分布进行校正。

交通仿真器用于实现对交通仿真环境的构建，通过交通仿真器实现对现实交通环境的模拟。而交通仿真器校正模块用于对交通仿真器进行参数校正，以使交通仿真器更好地模拟现实交通环境。所以，本发明实施例所构建的交通仿真环境可以接近于现实中的路口的环境，所以基于该交通仿真环境进行训练得到智能体模型能够给出较佳的信号灯配时方案，从而实现对路口信号灯进行智能控制，改善路口的拥挤状况，使得路口交通得以安全、畅通、有序和高效的运营。

基于第一方面，本发明具体实施例中，交通仿真器校正模块执行对所述交通仿真环境的车头时距分布进行校正，包括：所述交通仿真器校正模块执行获取所述路口的车头时距分布；使用所述交通仿真环境的车头时距分布拟合所述路口的车头时距分布，得到拟合系数；基于所述拟合系数调整所述交通仿真环境的车头时距分布，使得所述交通仿真环境的车头时距分布符合所述路口的车头时距分布。

其中，本发明实施例所涉及的车头时距代表着前车车头通过路口停止线的时刻(t1)与后车车头通过同一路口停止线的时刻(t2)之间的时间差(t2-t1)，也就是代表了当前车刹车时，后车驾驶员所具有的最大反应时间。在路口的预定时间内，会有若干车辆依次通过路口停止线，所以每个车辆都将具有相应的车头时距，不同的车头时距表征了不同的驾驶者跟车距离的远近，所有这些车头时距组成了车头时距分布。为了使交通仿真器更好的模拟现实中的车头时距分布，需要使用交通仿真器配置的车头时距分布拟合现实中的车头时距分布。

所述使用所述交通仿真环境的车头时距分布拟合所述路口的车头时距分布，得到拟合系数，具体包括：(1)在交通仿真器的发车规律模拟中，通过模拟多个车辆经过路口停止线的场景,采集得到在不同跟车模型参数Tau下不同车辆的车头时距，统计这些车头时距得到相应的车头时距分布，定义在特定跟车模型参数值下统计得到的车头时距分布为基于跟车模型参数的基分布。交通仿真器校正模块获取这些不同跟车模型参数值对应的多个基分布。其中，跟车模型参数值表征了当模拟的前车刹车时，所模拟的后车驾驶员所需要的避免车辆相撞的最大时间。(2)分别使用所得到的多个基分布去拟合现实环境中的车头时距分布,从而得到多个拟合系数。具体的，交通仿真器校正模块采用非负最小二乘回归法，使用从交通仿真器得到的多个基分布去拟合现实交通环境中的车头时距分布。其中，回归变量为上述的多个基分布，目标变量为现实交通环境中的车头时距分布，从而得到多个基分布在拟合过程中的权重，也就是说这些特定的基分布根据各自的权重进行加权处理可近似得到现实交通环境中的车头时距分布，这样的多个权重统称为拟合系数。

本发明实施例除了对车头时距分布进行校正，还会采用现实的车辆分布类型、车辆速度分布等等来校正交通仿真器中的车辆分布类型、车辆速度分布等等，经过校正的交通仿真环境可以更加接近于现实的路口交通环境，从而促使本发明实施例的信号灯控制方法更加智能、交通优化效果更加显著。

基于第一方面，本发明具体实施例中，在完成交通仿真环境的配置之后，交通仿真环境所提供的特征数据就可以符合现实交通环境的特征数据。为了使得环境具有特定的考量指标、控制区域粒度、信号灯放行方式等等，还需要对强化学习环境进行配置，这样后续训练的智能体模型才能被应用于具有特定条件/特定要求的具体路口。在完成简单路口交通仿真环境的配置之后，需要配置在的强化学习环境可以基于多种维度进行配置，例如，所针对的路口为简单的路口，路口的特定要求是只需要控制单路口的交通吞吐量最大，那么需要继续配置单目标调度环境的强化学习环境。

具体的，所述构建强化学习环境，包括以下方式中一个或多个的组合：基于所述强化学习的交通调度目标来构建所述强化学习环境；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个；基于感应模式来构建所述强化学习环境；所述感应模式包括本地感应模式、中央感应模式、周期性感应模式和非周期性感应模式中的一个；基于所述路口的信号灯放行模式来构建强化学习环境；所述信号灯放行模式包括信号灯对放模式、信号灯单放模式、信号灯混合搭街模式中的一个；基于所述交通调度范围来构建所述强化学习环境；所述交通调度范围包括单路口级范围、区域级范围、城市级范围中的一个。

基于第一方面，本发明具体实施例中，所述基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型，包括：基于所述交通仿真环境和所述强化学习环境，通过强化学习算法对初始信号灯训练模型进行训练，输出初始控制策略；所述初始控制策略指示所述交通仿真环境中所模拟的路口的信号灯的亮灯规则；基于所述初始控制策略控制所述交通仿真环境中所模拟的路口的信号灯，获得所述交通仿真环境中所模拟的路口的车辆行驶的变化；基于所述车辆行驶的变化和交通调度目标之间的差异，向所述初始信号灯训练模型反馈奖励；基于所述奖励调整所述初始信号灯训练模型的参数，得到所述信号灯训练模型；

其中，奖励是环境提供给智能体的一个可量化的标量反馈信息，奖励表示对所述初始控制策略的正评价或负评价。奖励基于智能体所需达到的交通调度目标而得到，智能体每一次和环境交互，环境返回正奖励或负奖励，分别对应智能体所选择的行动对于达到交通调度目标是有益的还是无益的。即正评价表示智能体所选择的行动所导致的车辆行驶的变化倾向所述交通调度目标，所述负评价表示智能体所选择的行动所导致的车辆行驶的变化偏离所述交通调度目标。所述交通调度目标例如是减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个。具体的，交通调度目标例如可以是车均延误时间最少、或者车均停车次数最少、或者车辆排队长度最短、或者交通吞吐量最大、或者车辆旅行时间最短或者车道占有率最小等等。

本发明实施例中奖励函数的一个示例如下：

Reward＝w ₁·Clipper(travel time(t-1)-travel time(t))+w ₂·Clipper(2-stop rate(t))+w ₃·Clipper(500-queue length(t))

其中Clipper函数为：

其中，travel time(t)表示在第t次信号灯控制过程中的车辆平均旅行时间，将它与上一次信号灯控制的结果相比较，若比上一次小，说明车辆平均旅行时间下降，则给+1的奖励，否则给-1的奖励；stop rate(t)表示在第t次信号灯控制过程中车辆的平均停车次数，若小于预设数值2次，则给+1的奖励，否则给-1的奖励，这个预设数值2次是防止车辆平均停车次数过多的约束条件；queue length(t)表示在第t次信号灯控制过程中车道的平均排队长度，若小于预设数值500米，则给+1的奖励，否则给-1的奖励。其中，这个预设数值500米是防止排队长度溢出的约束条件。

本发明实施例中，单路口的交通控制中，交通调度目标可以一个也可以是多个；区域的交通控制中，交通调度目标除了包括当前路口的交通调度目标，还包括区域中其他路口的交通调度目标。也就是说，本发明实施例对奖励的设计能够满足实际应用中对于不同路口的差异化要求，实施本发明实施例提供的方法能够获得针对不同交通环境和不同交通调控要求的信号灯训练智能体。

基于第一方面，本发明具体实施例中，训练态所使用的交通状态数据经过抽取成数据特征矩阵后，再进行智能体训练。具体的，所述基于所述历史交通状态数据进行强化学习，包括：抽取所述历史交通状态数据得到特征矩阵m*n*k；基于所述特征矩阵m*n*k进行强化学习；其中，所述m表示m个时间间隔，所述n表示所述路口的来车车道的数量，所述k代表特征维度的个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。

举例来说，假设路口的来车车道有17条，我们可以建立一个60*17*2的多特征维度观测矩阵，它可以表示2个特征维度的信息：一个维度是车辆排队长度，即过去60秒，每一秒个条车道上的车辆排队长度，这是一个60*17的矩阵；另一个维度是信号灯状态，即过去60秒，每一秒每个车道对应的信号灯状态，这也是一个60*17的矩阵，这两个维度矩阵组合在一起就得到60*17*2的多特征维度观测矩阵。

可以看到，本发明实施例提供的特征数据能够覆盖多个维度的交通特征(交通流量、车辆排队的车辆数、车辆排队长度、信号灯状态等)，从而能够全面反映当前路口的交通情况，以便于训练出较为全面的信号灯训练模型，信号灯训练模型能全面考量当前的交通情况来制定信号灯配时方案。

基于第一方面，本发明具体实施例中，在所述得到信号灯训练模型之后，所述方法还包括：根据评价指标对所述信号灯训练模型进行评价，所述评价指标包括车均延误时间、车均停车次数、车辆排队长度、交通吞吐量、车辆旅行时间、智能体模型稳定性中的至少一个。

在信号灯训练模型完成训练后，基于评价指标对信号灯训练模型进行评估，有利于全面测试信号灯训练模型的性能，确保信号灯训练模型能够应用于当前路口的交通信号灯控制中，改善城市交通的拥挤状况。

基于第一方面，本发明具体实施例中，除了能够从单路口的角度改善交通状况，还可以从区域交通的角度来改善交通状况。

本发明实施例中，在构建环境过程中，通过交通仿真器构建区域的交通仿真环境，每个智能体的交通观测范围扩展至周边的邻近路口，也就是说每个智能体获取的真实交通数据不仅包含自身路口的交通状态数据(特征数据)，同时也包含所在区域中其他路口的交通状态数据(特征数据)。

具体的，在智能体训练过程中，本发明实施例通过所述数据库，获取所述路口的历史交通状态数据，以及所述路口的至少一个邻近路口的历史交通状态数据；然后，通过所述训练模块，基于所述路口的历史交通状态数据和所述至少一个邻近路口的历史交通状态数据进行强化学习，得到信号灯训练模型。

基于第一方面，本发明具体实施例中，所述基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，包括：基于所述路口的历史交通状态数据和所述至少一个邻近路口的历史交通状态数据，构建交通仿真环境，构建强化学习环境；基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型。

本发明实施例中，在构建环境过程中，配置智能体的强化学习环境时，每个智能体的交通调度目标要联合区域中的周边邻近路口进行综合考虑，也就是说要使得每个智能体输出的控制策略(信号灯配时方案)要能同时缓解自身路口和周边邻近路口的交通拥堵。例如，智能体配置的交通调度目标包括同时减少自身路口和周边邻近路口的车辆平均延误时间。

具体的，所述构建强化学习环境，包括：基于所述强化学习的交通调度目标来构建所述强化学习环境；所述交通调度目标包括所述路口的交通调度目标和所述至少一个邻近路口的交通调度目标。

本发明实施例中，在训练智能体的过程中，每个智能体的奖励函数不仅可以包含从该智能体对应的路口得到的奖励，可选的，也可以包含从该智能体对应的路口的周边邻近路口得到的奖励。即每个智能体得到的奖励包括自身路口得到的奖励和周边邻近路口得到的奖励。

具体的，所述基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型，包括：基于所述交通仿真环境和所述强化学习环境，通过强化学习算法对初始信号灯训练模型进行训练，输出初始控制策略；所述初始控制策略指示所述交通仿真环境中所模拟的路口的信号灯的亮灯规则；基于所述初始控制策略控制所述交通仿真环境中所模拟的路口的信号灯，获得所述交通仿真环境中所模拟的路口的车辆行驶的变化和所述至少一个邻近路口的车辆行驶的变化；基于所述路口的车辆行驶的变化和所述路口的交通调度目标之间的差异，向所述初始信号灯训练模型反馈所述路口的奖励；基于所述至少一个邻近路口的车辆行驶的变化和所述至少一个邻近路口的交通调度目标之间的差异，向所述初始信号灯训练模型反馈所述至少一个邻近路口的奖励；基于所述路口的奖励和所述至少一个邻近路口的奖励调整所述初始信号灯训练模型的参数，得到所述信号灯训练模型；其中，所述奖励表示对所述初始控制策略的正评价或负评价；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个。

可以看出，在本发明实施例智能体训练中，每个智能体不仅考虑到周边智能体对自己的影响，同时也考虑到自己对周边智能体的影响，所以，通过智能体训练得到的智能体模型能够保证在区域内协同实现该区域的交通最优目标。本发明实施例可支持在城市单路口、多路口、行政区域或功能区域、城市级别的信号灯协同调度优化，从全局最优的角度解决交通拥堵问题。

第二方面，本发明实施例提供了又一种信号灯控制方法，该所述方法应用于服务平台，所述服务平台包括调度器和模型库，所述方法包括：通过所述调度器，获取训练平台发送的信号灯训练模型；其中，所述信号灯训练模型是所述训练平台通过强化学习得到的；通过所述数据库，获取所述路口的实时交通状态数据；通过所述调度器，将所述路口的实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述控制策略指示所述路口的信号灯的亮灯规则；通过所述调度器，基于所述控制策略对所述路口的信号灯进行控制。

本发明实施例中，用户平台应用智能体模型进行信号灯控制的过程可称为服务态。训练好的智能体模型通常适用于具体路口，在可能的服务态中，可根据该具体路口的标识启启用该路口的调度器，调度器抽取交通环境中实时的在线交通数据，这里的交通环境不同于训练态的交通环境，其数据来源为路口的交通数据采集器(视频监控摄像头、微波雷达探测器等)所采集的交通状态数据(该交通状态数据实时存放于用户平台在线时空数据库中，称为在线交通数据)。假设当前抽取的交通状态数据为交通状况较差的T状态，那么数据特征化的T状态输入到该智能体模型后，智能体模型就会输出控制策略(信号灯配时方案)，注入到现实交通环境中，作用于该路口的信号灯，信号灯基于该信号灯配时方案进行交通控制，所以路口的交通状态造成影响，使得路口的交通状态在预定时间内从T状态转变为交通状况较好的T+1状态，从而达到了交通调度目标。

可以看出，本发明实施例中用户平台能够利用训练平台所训练所得的智能体模型得到较佳的信号灯配时方案，从而实现对路口信号灯进行智能控制。实施本发明实施例能够改善城市交通的拥挤状况，实时快速响应交通状况的变化，使得路口交通得以安全、畅通、有序和高效的运营。

基于第二方面，本发明具体实施例中，为了保证了智能体模型的可用性和准确性，在服务态进行特征数据抽取的方式与训练态进行特征数据提取的方式可以保持一致。

具体的，将所述实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略，包括：抽取所述实时交通状态数据得到特征矩阵m*n*k；将所述特征矩阵m*n*k输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述m表示m个时间间隔，所述n表示所述路口的来车车道的数量，所述k代表特征维度的个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。

本发明实施例提供的特征数据能够覆盖多个维度的交通特征(交通流量、车辆排队的车辆数、车辆排队长度、信号灯状态等)，从而能够全面反映当前路口的交通情况。

基于第二方面，本发明具体实施例中，所述信号灯训练模型包括所述路口的标识；所述获取所述路口的实时交通状态数据，包括：根据所述路口的标识，获取所述路口的实时交通状态数据。本发明具体实施例中，通过所述调度器，基于所述控制策略对所述路口的信号灯进行控制，包括：通过所述调度器，将所述控制策略发送至所述路口的信号灯的控制后台，所述控制后台用于基于所述控制策略对所述路口的信号灯进行控制。

也就是说，本发明实施例中，所训练的模型合适应用于特定的路口，而每个路口都对应于一个调度器，所以调度器基于模型中路口的标识就能够快速将模型匹配到对应的路口的信号灯，从而将模型输出的控制策略(信号灯配时方案)发送至对应的信号灯后台，实现对信号灯的快速、准确、实时、高效的控制，实时快速响应交通状况的变化，使得路口交通得以安全、畅通、有序和高效的运营。

第三方面，本发明实施例提供了一种计算设备集群，也即训练平台，计算设备集群包括至少一个计算设备，每个计算设备包括处理器、存储器，其中：

所述至少一个存储器用于，存储路口的历史交通状态数据；所述至少一个处理器用于，获取所述存储器存储的所述路口的历史交通状态数据，基于所述历史交通状态数据进行强化学习，得到信号灯训练模型；所述存储器用于，存储所述信号灯训练模型；其中，所述信号灯训练模型包括交通状态数据与控制策略的映射关系，所述控制策略指示所述路口的信号灯的亮灯规则；所述信号灯训练模型用于，基于所述路口的实时交通状态数据，输出所述路口的信号灯的实时控制策略；

其中，所述计算设备具体用于实现第一方面所述的方法。计算设备集群中包括多个计算设备的情况下，各个计算设备配合工作，每个计算设备可以执行第一方面的方法的一部分。

第四方面，本发明实施例提供了一种用户设备集群，也即用户平台，用户设备集群包括至少一个用户设备，每个用户设备包括通信接口、处理器、存储器，其中：

所述接收器用于，接收训练平台发送的信号灯训练模型；其中，所述信号灯训练模型是所述训练平台通过强化学习得到的；所述存储器用于，存储所述路口的实时交通状态数据；所述处理器用于，将所述路口的实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述控制策略指示所述路口的信号灯的亮灯规则；所述发射器用于，将所述控制策略发送至所述路口的信号灯的控制后台，所述控制后台用于基于所述控制策略对所述路口的信号灯进行控制；

其中，所述用户设备具体用于实现第二方面所述的方法。用户设备集群中包括多个用户设备的情况下，各个用户设备配合工作，每个用户设备可以执行第二方面的方法的一部分。

第五方面，本发明实施例提供了一种训练平台，所述训练平台包括：

数据库模块，用于获取路口的历史交通状态数据；

训练模块，用于基于所述历史交通状态数据进行强化学习，得到信号灯训练模型；

模型库模块，用于保存所述信号灯训练模型；

其中，所述信号灯训练模型包括交通状态数据与控制策略的映射关系，所述控制策略指示所述路口的信号灯的亮灯规则；所述信号灯训练模型用于，基于所述路口的实时交通状态数据，输出所述路口的信号灯的控制策略；

其中，所述训练平台具体用于实现第一方面所述的方法。

第六方面，本发明时实施例提供了一种用户平台，所述用户平台包括：

调度器模块，用于获取训练平台发送的信号灯训练模型；其中，所述信号灯训练模型是所述训练平台通过强化学习得到的；

数据库模块，用于获取所述路口的实时交通状态数据；

所述调度器模块还用于，将所述路口的实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述控制策略指示所述路口的信号灯的亮灯规则；

所述调度器模块还用于，基于所述控制策略对所述路口的信号灯进行控制；；

其中，所述用户平台具体用于实现第二方面所述的方法。

第七方面，本发明实施例提供了一种信号灯控制系统，该信号灯控制系统包括训练平台和用户平台，其中，所述训练平台可为第五方面所述的训练平台，所述用户平台可为第六方面所述的用户平台。

第八方面，本发明实施例提供了一种非易失性计算机可读存储介质；所述计算机可读存储介质用于存储第一方面所述方法的实现代码。所述程序代码被计算设备执行时，所述计算设备用于第一方面所述方法。

第九方面，本发明实施例提供了又一种非易失性计算机可读存储介质；所述计算机可读存储介质用于存储第二方面所述方法的实现代码。所述程序代码被计算设备执行时，所述用户设备用于第二方面所述方法。

第十方面，本发明实施例提供了一种计算机程序产品；该计算机程序产品包括程序指令，当该计算机程序产品被计算设备执行时，该控制器执行前述第一方面所述方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面的任一种可能的设计提供的方法的情况下，可以下载该计算机程序产品并在控制器上执行该计算机程序产品，以实现第一方面所述方法。

第十一方面，本发明实施例提供了又一种计算机程序产品。该计算机程序产品包括程序指令，当该计算机程序产品被用户设备执行时，该控制器执行前述第二方面的任一种可能的设计提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第二方面的任一种可能的设计提供的方法的情况下，可以下载该计算机程序产品并在控制器上执行该计算机程序产品，以实现第二方面所述方法。

第十二方面，本发明实施例提供了一种信号灯控制系统，该信号灯控制系统包括训练平台和用户平台，其中，所述训练平台可为第三方面所述的训练平台，所述用户平台可为第四方面所述的用户平台。

本发明实施例通过强化学习的方法，基于路口道路交通的历史数据对路口对应的智能体进行训练，训练所得的信号灯训练模型能够给出较佳的信号灯配时方案，从而实现对路口信号灯进行智能控制。实施本发明实施例能够改善城市交通的拥挤状况，实时快速响应交通状况的变化，使得路口交通得以安全、畅通、有序和高效的运营。另外，本发明实施例可支持在城市单路口、多路口、行政区域或功能区域、城市级别的信号灯协同调度优化，从全局最优的角度解决交通拥堵问题。

附图说明

图1是本发明实施例提供的一种信号灯控制系统进行信号灯控制的场景示意图；

图2是本发明实施例提供的信号灯控制系统处于训练态的示意图；

图3是本发明实施例提供的信号灯控制系统处于服务态的示意图；

图4是本发明实施例提供的一种训练态实现过程的流程示意图；

图5是本发明实施例提供的一种路口的示意图；

图6是本发明实施例提供的一种服务态实现过程的流程示意图；

图7是本发明实施例提供的一种特征数据的示意图；

图8是本发明实施例提供的一种信号灯控制系统在区域交通控制中的场景示意图；

图9是本发明实施例提供的又一种信号灯控制系统在区域交通控制中的场景示意图；

图10是本发明实施例提供的一种区域交通控制中车流行驶轨迹的场景示意图；

图11是本发明实施例提供的又一种信号灯控制系统进行信号灯控制的场景示意图；

图12是本发明实施例提供的信号灯控制系统以及相关设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

为了便于理解本发明实施例，首先说明本发明实施例所涉及的强化学习技术。

强化学习(Reinforcement Learning，RL)是一种代理(agent)与环境互动的目标导向决策技术，在实际应用中，代理又可以称为智能体。强化学习涉及智能体(Agent)和环境(environment)，应用强化学习的系统(简称信号灯控制系统)定义环境的一系列状态的集合(简称状态集)，定义智能体所采取的一系列动作的集合(简称动作集)，定义奖励(reward)，其基本思想是，信号灯控制系统的智能体接收环境的状态集中的状态(state)特征化的数据(简称为特征数据)，并且基于该数据，选择来自动作集的待执行的动作(action)，施加给环境。环境响应于该选定的动作而发生状态的变更，基于状态变更结果与所预定的目标期望之间的差异，智能体获得奖励。强化学习的任务是使信号灯控制系统通过选择正确的策略(即状态到动作的映射)来尝试最大化智能体所接收的累积收益(长期累积的奖励值)，让信号灯控制系统有了自我学习、自我决策的能力。需要说明的是，本发明实施例所涉及的强化学习在实际应用中可以是具体的变形，例如强化学习可以结合深度学习而变形为深度强化学习。

本发明实施例中，信号灯控制系统可通过采集单路口或者区域内多个路口的交通特征，选择交通信号灯的相位结构，以预设的交通调度目标为基准，来最大化长期的奖励值，并输出智能体的训练模型(又称智能体模型)，在实际交通管控中，基于通过预设标准的智能体模型能够根据当前路口的交通状况或者区域多个路口的交通状况，制定该智能体模型所管路口的最佳信号灯配时方案，实现对交通信号灯的控制。其中，信号灯配时方案为一组对信号灯控制的方案，具体来说就是一组信号灯相位结构的集合，一组信号灯相位结构的集合就是一组信号灯的亮灯规则的结合。信号灯配时方案包括在特定的信号灯放行模式下，一个信号灯周期中不同的信号灯相位。例如，信号灯配时方案包括单放模式，一个信号灯周期中的单放模式有4种信号灯相位：西方向放行的相位；东方向放行的相位；北方向放行的相位；南方向放行的相位，此外，信号灯配时方案还包括各个相位的时长(简称相位时长)，各个相位的向后顺序(简称为相位顺序)等等。

以下说明信号灯控制系统所涉及的智能体、环境、策略，奖励等几个概念：

(1)智能体(Agent)：本发明实施例中，将能够进行自我学习并与环境(交通环境)进行交互的软件或者硬件实体抽象为智能体，智能体驻留于交通环境中，可从交通环境中获得的反映交通状态的特征数据，通过学习选择合适的交通信号灯配时方案，对交通环境产生影响。智能体根据交通环境提供的奖励值作为反馈，学习一系列的环境状态到动作的映射(即信号灯控制策略)，动作选择的原则是最大化未来累积的奖励的概率。选择的动作不仅影响当前时刻的奖励，还会影响下一时刻甚至未来的奖励，因此，在智能体在学习过程中，根据某个动作带来的环境的正奖励或负奖励，加强或削弱这一动作。

本发明实施例中，为实现对城市交通的协调控制，安装了交通信号灯的不同路口部署有对应的智能体，这些智能体集合可以进行分布式训练，目标是互相协作以实现对城市不同路口交通的协调控制。在一个智能体集合的系统中，每个智能体可以是采用相同或不同的设计方法和计算机语言开发而成。每个智能体可以是独立自主的，即每个智能体独立解决单路口的交通控制问题；多个智能体之间也可以是协调合作的，协调它们的决策能力和交通调度目标以求解决区域交通控制问题。

(2)环境(Environment)：环境向智能体提供它所处预设时间内的交通状态的特征化数据，环境还会接收智能体执行的一系列的动作，并且对这一系列的动作的效果进行评价，并转换成一种可量化的奖励反馈给智能体。本发明实施例中，环境包括真实交通环境、仿真器建立的仿真环境以及智能体训练相关的环境。

(3)奖励(Reward)：奖励是环境提供给智能体的一个可量化的标量反馈信息，用于评价智能体在某一个时间步(time step)所做行动的好坏。奖励基于智能体所需达到的交通调度目标而得到，智能体每一次和环境交互，环境返回正奖励或负奖励，分别对应智能体所选择的行动对于达到交通调度目标是有益的还是无益的。交通调度目标例如可以是车均延误时间最少、或者车均停车次数最少、或者车辆排队长度最短、或者交通吞吐量最大、或者车辆旅行时间最短或者车道占有率最小等等。本发明实施例中，单路口的交通控制中，交通调度目标可以一个也可以是多个；区域的交通控制中，交通调度目标除了包括当前路口的交通调度目标，还包括区域中其他路口的交通调度目标。

奖励函数即为用于计算出奖励的函数，下面给出本发明实施例中奖励函数的一个示例：

其中Clipper函数为：

可以看出，这样的奖励函数基于三种交通调度目标(车辆平均旅行时间，车均停车次数，车辆排队长度)来确定奖励，总的奖励由三种子奖励构成，这三种奖励的权重值分别为W ₁，W ₂，W ₃，且各奖励的权重值之和为1，即将每种奖励值进行归一化，这3个子奖励基于权重值进行加权平均得到总奖励(Reward)。

另外，在可能的实施例中，在计算各个奖励时还可以对不同道路的权重进行设置，为主要道路设置较高权重。在可能实施例中，在计算各个奖励时可以设置道路中不同的车道的权重一致或者有差异。

(4)策略(policy)，策略可以视为智能体感知到交通环境的状态后确定的该状态到动作的映射。如果策略是随机的，那么策略是根据每个动作的概率选择出动作；如果策略是确定性的，那么策略则是直接根据状态选择出动作。本发明实施例中，智能体模型根据当前交通状态而输出信号灯配时方案的过程，也可以称为输出控制策略。

下面描述本发明实施例所涉及的信号灯控制系统的架构。参见图1，图1是本发明实施例所涉及的信号灯控制系统的示意图，如图1所示，该信号灯控制系统包括训练平台与用户平台。其中，训练平台主要用于基于强化学习技术进行模型训练，得到应用于信号灯控制的智能体模型(本发明实施例应用场景中，智能体模型为用于信号灯控制的基于强化学习训练而输出的模型，故下文所描述的智能体模型也可称为信号灯训练模型)，这种情况下，可称信号灯控制系统工作于训练态。用户平台主要用于获得实时的交通特征数据，并通过训练平台提供的智能体模型，获得信号灯配时方案，将信号灯配时方案发送至信号灯后台，从而实现对信号灯进行实时或者定时的控制，这种情况下，可称信号灯控制系统工作于服务态。

训练平台包括调度指令发布入口11、强化学习训练模块12、离线时空数据库13、数据引擎14、智能体模型库15等等。具体描述如下：

调度指令发布入口11用于接收用户发送的指令，该指令用于指示训练平台进行强化学习的训练任务。该指令可以是训练平台的管理者所输入的，也可以是用户平台的使用者通过用户平台的调度指令发布入口21向训练平台的调度指令发布入口11发送的。具体的，该指令可以包括城市中各个路口的标识列表，路口交通的调度目标，路口的信号灯的相位结构等等。调度指令发布入口11所获得指令被发送至强化学习训练模块12。

离线时空数据库13用于存储构建强化学习的环境所需的必要信息，包括所有需要管控的路口的历史交通状态信息(历史流量信息)、区域车辆轨迹信息、路口的车头时距分布数据，单路口和区域路网的结构信息等等。

数据引擎14用于提取离线时空数据库13中的数据，注入到强化学习训练模块12中。

强化学习训练模块12中设置有强化学习所需的强化学习算法，构建有强化学习所需的环境(包括交通仿真环境，强化学习环境等，参考后文的描述)，强化学习训练模块12用于在接收指令后，解析出指定的训练任务的参数，不断读取数据引擎14从离线时空数据库13提取的数据，进行智能体模型的训练。具体实现中，强化学习训练模块12可以采用分布式训练的方式，不断地根据不同的环境训练不同的智能体模型。训练完成的智能体模型，经过内置的仿真器，可以做不同流量规律下的模型功能测试，然后采用指定的评价指标对测试结果进行质量评估，评价指标包括车均延误时间、车均停车次数、相位周期时间、红灯个数、车辆排队长度、交通吞吐量、车辆旅行时间、智能体模型稳定性中的一个或多个。

智能体模型库15用于存储训练好的智能体模型，也就是说，如果训练出来的智能体模型通过了质量评估，那么强化学习训练模块12将智能体模型发送至智能体模型库15，智能体模型库15中存储有多种多样的智能体模型，每个智能体模型都具有其所适用的路口、信号灯相位、流量规律、时段信息等等。智能体模型库15还可用于向模型训练任务的发起者通知模型训练任务已经完成。

在具体实现中，训练平台的硬件包括服务器(或者服务器集群)和/或相关存储器，上述调度指令发布入口11、强化学习训练模块12、数据引擎14均以软件模块的形式部署在该服务器(或者服务器集群)中，离线时空数据库13和智能体模型库15可部署在同一存储器中，也可分别部署于不同的存储器。

用户平台包括调度指令发布入口21、调度器、在线时空数据库23、数据引擎24，可选的还包括交通状况可视化模块25等。具体描述如下：

调度指令发布入口21可用于接收用户平台的使用者发布的指令，该指令用于指示训练平台进行强化学习的训练任务。调度指令发布入口21将该指令向共有云平台的调度指令发布入口11发送。具体的，该指令可以包括城市中各个路口的标识列表，路口交通的调度目标，路口的信号灯的相位结构等等。

调度器22扮演训练平台与具体路口的信号灯系统(信号灯系统包括信号灯后台31，以及受信号灯后台31直接控制的信号灯)之间的角色，用于促使智能体模型完成对信号灯的控制。本发明实施例中，用户平台中具有多个调度器22，每个调度器22分别对应至少一个路口，每个调度器22用于促使智能体模型完成对具体路口的信号灯的控制。具体的，在智能体模型训练完成并被保存到智能体模型库15后，用户平台获得通知，然后从训练平台的智能体模型库15中获取智能体模型。然后，用户平台基于智能体模型所适用的路口，启动该路口对应的调度器22，然后调度器22通过数据引擎24提取在线时空数据库23中的数据。当调度器22需要进行交通状态数据的调用时，调度器22向数据引擎24发送注册请求，所述注册请求包括路口的标识。

在线时空数据库23用于存储实时的交通状态数据。具体的，在线时空数据库23接收设置在路口的交通数据采集器32所采集到的交通状态数据，并进行存储。其中交通状态数据可包括交通流量、路口车辆排队长度、信号灯状态等一种或多种交通信息。例如，交通数据采集器32可以是视频监控摄像头、微波雷达探测器、信号灯传感器等，可通过视频监控摄像头拍摄的视频中获得交通流量、车辆排队长度等交通信息，也可以可通过微波雷达探测器获得交通流量、车辆排队长度等交通信息，还可以通过信号灯传感器获得信号灯状态的信息。在线时空数据库23还可以将交通状态数据发送到训练平台的离线时空数据库13，以便于训练平台进行智能体训练。

数据引擎24用于在接收到调度器22的注册请求后，基于注册请求所携带的路口的标识查找在线时空数据库23中该路口的交通状态数据，并从该交通状态数据抽取出该路口交通的特征数据(如多特征维度观测矩阵)，并将特征数据推送至调度器22。另外，由于不同路口的视频监控摄像头和/或微波雷达探测器实时检测的交通状态数据都需要纳入实时时空数据库，而且，同一个路口的交通状态数据也可能是先预存在不同的服务器中，再统一汇总到实时时空数据库，为了让这些不同来源的交通状态数据保持时间同步，数据引擎24还可用于对不同来源的数据做全局时间戳同步。此外，数据引擎24还用于维护在线时空数据库23中交通状态数据的完整性，例如，当在线时空数据库23中的交通状态数据出现数据不连续时，数据引擎24可用于进行实时数据拼接和数据重构。又例如，当在线时空数据库23中的交通状态数据出现错误或者缺漏时，数据引擎24可用于进行数据的容错填充处理。例如某路口的摄像头出现短暂故障而无法向实时时空数据库上传数据，数据引擎用过去时间最近的没有缺漏的数据去填充当前的缺漏数据。

调度器22获得数据引擎24发送的特征数据后，将特征数据输入到智能体模型，从而获得智能体模型输出的控制策略(信号灯配时方案)。调度器22向信号灯后台31发送控制请求，用于请求信号灯后台31进行信号灯配时方案的变更，在信号灯后台31验证通过该控制请求后，调度器22就可以将交通信号灯配时方案发送至信号灯后台31，实现对信号灯的定时控制。此外，调度器22也可以基于交通信号灯配时方案，实时通过信号灯后台 31对信号灯的相位结构进行控制。

需要说明的是，在可能的实现方式中，训练平台的离线时空数据库13和用户平台的在线时空数据库14也可能是相同的数据库，如图11所示，训练平台和用户平台均连接数据库31，该数据库31用于实现离线时空数据库13的功能和在线时空数据库14的功能。

在具体实现中，用户平台的硬件包括服务器和相关存储器，上述调度指令发布入口21、调度器、数据引擎24、交通状况可视化模块25等均可以软件模块的形式部署在该服务器中，在线时空数据库23部署在存储器中，另外，用户平台从训练平台所获取的智能体模型也存放于存储器中。

可以看出，本发明实施例提供的信号灯控制系统可基于路口道路交通的历史数据对智能体进行训练，训练所得的智能体模型能够给出较佳的信号灯配时方案，从而实现对路口信号灯进行智能控制。实施本发明实施例能够改善城市交通的拥挤状况，实时快速响应交通状况的变化，使得路口交通得以安全、畅通、有序和高效的运营。

基于图1实施例所描述的信号灯控制系统，下面详细描述信号灯控制系统所工作的训练态和服务态。

首先描述信号灯控制系统所工作的训练态的情形。参见图2，图2是本发明实施例所提供的信号灯控制系统工作于训练态的示意图。如图2所示，在强化学习训练模块中构建交通环境、构建强化学习算法和具有初始参数的智能体模型，交通环境具有一系列交通状态集合，不同的交通状态对应于特定路口、特定时间段的交通信息。使用强化学习算法对环境和智能体模型进行控制，促使智能体模型以强化学习算法所指示的方式进行模型训练。假设当前所训练的状态为T状态，那么数据特征化的T状态以某种数学分布的形式输入到具有初始参数的初始智能体模型后，初始智能体模型从行动集中随机选择一种行动，该行动可以是一组信号灯相位结构，也可以是一套周期性的信号灯相位结构，注入到环境中，该行动对环境的交通状态造成影响，使得环境的交通状态从T状态转变为T+1状态，环境根据预设的交通调度目标，计算T+1状态与所预定的交通调度目标之间的差异，给该初始智能体模型提供一个可量化的奖励，以表达该行动的好坏。智能体模型接收到奖励之后，根据特定的算法(如反向传播、梯度下降等等)对智能体模型的参数进行更新，更新后的智能体模型所能产生的控制策略将有利于趋近于该交通调度目标。循环迭代执行模型训练过程，继续使用该特定路口、不同时间段的交通信息对智能体模型进行训练，那么可以理解的，训练次数越多，智能体模型的参数将越优化，智能体模型所能产生的控制策略将趋近于该交通调度目标。训练完成后，如果训练结果符合期望，就可以输出该智能体模型。也就是说，如果所构建的环境越接近路口的真实交通状态，那么所训练出来的智能体模型就越能产生最优的控制策略。本发明实施例中，为了能模拟现实交通环境，针对训练态所构建的交通环境包括交通仿真环境和强化学习环境，建立交通仿真环境和强化学习环境的数据为真实交通数据，例如来自于离线时空数据库的离线交通数据(存放在离线时空数据库中的数据称为离线交通数据)，该离线交通数据包括所针对路口的历史交通状态数据、区域车辆轨迹信息、路口的车头时距分布数据、单路口和区域路网的结构信息等等。其中，路口的历史交通状态数据为路口的交通数据采集器所采集的及交通数据；区域车辆轨迹信息包括基于车辆的标识所采集到的车辆在区域内的行驶轨迹；路口的车头时距分布数据表示对路口不同车辆的车头时距进行统计所得到的车头时距分布；单路口路网的结构信息包括(1)交叉口信息：即交叉口中心的位置坐标、交叉口中心到各个车道停止线的距离等等；(2)连接交叉口的车道信息，即路口的各个车道的位置、长度、转向等等。区域路口路网的结构信息为区域内所有单路口路网的结构信息的集合。

交通仿真环境一方面用于构建接近于现实的交通环境，另一方面用于模拟交通环境被施加了动作后交通状态的转变。强化学习环境用于赋予环境不同的考量指标(如单调度目标、混合调度目标、有约束条件的调度目标等)、感应模式(如本地感应模式、中央感应模式等)、控制区域范围(如单路口范围、区域范围、城市范围)信号灯放行方式(单当模式、对放模式、混合搭街模式等)等，从而使得环境能够基于不同的考量指标、控制区域范围、感应模式、信号灯放行方式来训练出满足不同需求的智能体模型。

基于本发明实施例提供的信号灯控制系统，下面进一步描述实现训练态相关的交通环境构建、模型训练、以及模型评估过程。参见图4，训练态的实现包括但不限于以下步骤：

步骤1.在使用强化学习算法进行模型训练之前，配置通用的交通环境，该交通环境包括交通仿真环境和强化学习环境。

本发明具体实施例中，交通仿真环境包括交通仿真器和交通仿真器校正模块。交通仿真器用于实现对交通仿真环境的构建，通过交通仿真器实现对现实交通环境的模拟。而交通仿真器校正模块用于对交通仿真器进行参数校正，以使交通仿真器更好地模拟现实交通环境。

关于交通仿真器，交通仿真器部署在训练平台的强化学习训练模块中，交通仿真器的配置参数是由三个前置软件来确定，这三个前置软件同样部署在强化学习训练模块中，它们分别为：

(1)信号灯配时生成器。信号灯配时生成器为交通仿真器提供了模拟现实环境中信号灯运作的功能，它的数据来源可以是用户提供的任务指令，也可以是存储在离线时空数据库中的信号灯相位结构信息。具体的，信号灯配时生成器为交通仿真器具体配置了信号灯在各个时间段的相位结构、相位顺序、相位时长，以及车辆最小绿灯时间、行人最小绿灯时间和黄灯、红灯、最大绿灯时间等等，其中，车辆最小绿灯时间表示一个信号灯周期中车辆可通行的最小时间；行人最小绿灯时间表示一个信号灯周期中行人可通行的最小时间；黄灯、红灯、绿灯时间表示表示一个信号灯周期中信号灯对应在黄灯、红灯、绿灯状态下的时间长度。

(2)路网生成器。路网生成器为交通仿真器提供了模拟现实交通环境中交通道路和交通交叉口的功能，它的数据来源是用户提供的任务指令。路网生成器可为交通仿真器具体配置两种参数。其中，一种是路口(交叉口)参数，路口参数包括交叉口中心的位置坐标，交叉口中心到各个车道停止线的距离等等；另一种是临近路口(临近交叉口)的车道参数，临近路口的车道参数包括各个车道的位置(偏正北顺时针角度)、长度、转向等等。举例来说，如图5所示，该图5展示了一个十字路口和它的邻接车道。其中，南北车道和东西车道的交汇处即为交叉口中心；东方向车道的位置由东方向车道的中轴线偏离正北方的角度 (90度)来决定；交叉口中心到西方向车道停止线的距离为西方向车道中轴线的长度。

(3)车流生成器。车流生成器为交通仿真器提供了模拟现实交通环境中车辆行驶的功能，它的数据来源是视频监控摄像头和微波雷达探测器所采集的存储在离线时空数据库中的交通状态数据。车流生成器通过车辆检测技术，为交通仿真器具体配置了单位时间内(比如1小时、7：00-9:00时间段、1天等等)路口的各个车道的车辆通行数量、车辆类型等参数，从而配置单路口的发车规律参数。在区域控制中，车流生成器还可以通过对区域车流起止点(origin destination，OD)进行大数据分析，挖掘区域中车辆行驶轨迹的分布，从而配置区域的发车规律参数。车流生成器还通过过线检测技术，为交通仿真器具体配置了车辆行驶在车道上的最大车速、行驶在交叉口的最大车速、车头时距分布等等参数。

关于交通仿真器校正模块，交通仿真器校正模块可通过两方面来实现对交通仿真器进行参数校正：

一方面，为了让交通仿真器更好地体现不同时间的现实环境，交通仿真器校正模块根据现实情况调整交通仿真器所构建的交通仿真环境。在具体实施中，三个前置软件(信号灯配时生成器、路网生成器、车流生成器)会定期(比如一周、一月等)自动更新配置交通仿真器的参数。对于路网生成器和信号灯配时生成器，可采用全量更新的更新策略，也就是说采用新的信号灯相位结构信息完全覆盖旧的信号灯相位结构信息。对于车流生成器，可采用全量更新的更新策略，也就是说采用新的交通状态数据完全覆盖旧的交通状态数据；也可以采用周期性平滑更新的更新策略，比如周期是一周，那么使用新近一周的采集交通状态数据去替换最旧一周的采集的交通状态数据，而其他交通状态数据不变。

另一方面，同样为了让交通仿真器更好地模拟现实环境，交通仿真器校正模块根据实际需要获取路口或者区域的现实的车辆分布类型、现实的车头时距分布、现实的车辆速度分布等等来校正交通仿真器中的车辆分布类型、车头时距分布(跟车模型)、车辆速度分布等等。

下面举例说明交通仿真器校正模块采用现实的车头时距分布来校正交通仿真器中的车头时距分布(跟车模型)的方法。本发明实施例所涉及的车头时距代表着前车车头通过路口停止线的时刻(t1)与后车车头通过同一路口停止线的时刻(t2)之间的时间差(t2-t1)，一般也可使用前后车的车头间距除以后车速度来计算。车头时距代表了当前车刹车时，后车驾驶员所具有的最大反应时间。在路口的预定时间内，会有若干车辆依次通过路口停止线，所以每个车辆都将具有相应的车头时距，不同的车头时距表征了不同的驾驶者跟车距离的远近，所有这些车头时距组成了车头时距分布，为了使交通仿真器更好的模拟现实中的车头时距分布，需要使用交通仿真器配置的车头时距分布拟合现实中的车头时距分布，具体操作过程包括但不限于以下步骤：

101、基于视频监控摄像头和/或微波雷达探测器，采集得到现实交通环境中路口的车头时距数据。然后，统计上述采集到的车头时距数据，得到现实环境中的车头时距分布。交通仿真器校正模块获取所述车头时距分布。

102、在交通仿真器的发车规律模拟中，通过模拟多个车辆经过路口停止线的场景,采集得到在不同跟车模型参数Tau下不同车辆的车头时距，统计这些车头时距得到相应的车头时距分布，定义在特定跟车模型参数值下统计得到的车头时距分布为基于跟车模型参数的基分布。交通仿真器校正模块获取这些不同跟车模型参数值对应的多个基分布。

其中，跟车模型参数值表征了当模拟的前车刹车时，所模拟的后车驾驶员所需要的避免车辆相撞的最大时间。所以跟车模型参数值越大，跟车距离就会相应增长，这导致车头时距整体偏大，即车头时距分布的数学期望也就越大。

103、交通仿真器校正模块分别使用步骤2所得到的多个基分布去拟合现实环境中的车头时距分布,得到多个拟合系数。

具体的，交通仿真器校正模块采用非负最小二乘回归法，使用从交通仿真器得到的多个基分布去拟合现实交通环境中的车头时距分布。其中，回归变量为上述的多个基分布，目标变量为现实交通环境中的车头时距分布，从而得到多个基分布在拟合过程中的权重，也就是说这些特定的基分布根据各自的权重进行加权处理可近似得到现实交通环境中的车头时距分布，这样的多个权重统称为拟合系数。

104、交通仿真器校正模块根据所得到的拟合系数确定交通仿真器在发车规律中所选择的跟车模型参数值，这样，交通仿真器所模拟的车头时距分布就可以近似于现实交通环境中的车头时距分布，亦即将交通仿真器中的跟车模型校正到符合现实环境的车头时距分布。

具体的，如果某一基分布对应的权重较大，那么在交通仿真器中设定该基分布的跟车模型参数值相关的车辆，在发车规律模拟过程中具有较高的发车比例(即较大的车流状况)。如果某一基分布对应的权重较小，那么在交通仿真器中设定该基分布的跟车模型参数值相关的车辆，在发车规律模拟过程中具有较小的发车比例(即较小的车流状况)。这样，基于拟合系数来调整不同跟车模型参数值的车辆在发车规律中的发车比例，就可以使得交通仿真器模拟的车头时距分布近似于现实交通环境中的车头时距分布。

需要说明的是，交通仿真器校正模块采用现实的车辆分布类型、车辆速度分布等等来校正交通仿真器中的车辆分布类型、车辆速度分布等等的方式，也可以参考上述车头时距校正方法来实现，这里不再详述。

本发明具体实施例中，在完成交通仿真环境的配置之后，交通仿真环境所提供的特征数据就可以符合现实交通环境的特征数据。为了使得环境具有特定的考量指标、控制区域粒度、信号灯放行方式等等，还需要对强化学习环境进行配置，这样后续训练的智能体模型才能被应用于具有特定条件/特定要求的具体路口。在完成简单路口交通仿真环境的配置之后，需要配置在的强化学习环境可以基于多种维度进行配置，例如，所针对的路口为简单的路口，路口的特定要求是只需要控制单路口的交通吞吐量最大，那么需要继续配置单目标调度环境的强化学习环境。下面详细说明不同维度中强化学习环境可能采用的具体配置。

在一种配置维度中，强化学习环境可按照智能体训练的交通调度目标的数量和限制进行配置。举例来说，强化学习环境可以包括单调度目标环境，或者混合调度目标环境，或者有约束条件环境等。其中，单调度目标环境是指对于智能体训练的交通调度目标只设置有一个，例如交通调度目标可以是车均延误时间最少、或者车均停车次数最少、或者车辆排队长度最短、或者交通吞吐量最大、或者车辆旅行时间最短等等。

其中，在一具体应用场景中，对于简单的道路(例如车道数量少，信号灯相位结构简单等)，可以配置单调度目标环境，智能体训练的交通调度目标是让道路上车辆的等待时间最短。

在另一具体应用场景中，对于复杂的道路(例如车道数量多，信号灯相位结构复杂等)，可以配置混合目标环境，智能体训练的交通调度目标同时包括让道路上车辆的等待时间最短，以及交通吞吐量最大。

在又一具体应用场景中，可以根据实际需要配置有约束条件环境，例如可以在单调度目标环境或者混合目标环境中，针对特定路段加入约束条件，从而形成有约束条件环境。例如加入的约束条件为每条车道的占有率不能超过70％。

在又一种配置维度中，强化学习环境可按照特定的感应模式进行配置。举例来说，强化学习环境可以包括本地感应模式、或者中央感应模式、或者周期性感应模式、或者非周期性感应模式等。

其中，在一具体应用场景中，可以配置本地感应模式。本地感应模式是指实时(例如5秒粒度、10秒粒度等等)对当前路口的交通状态进行感应，以便获得当前路口实时的控制策略。

在另一具体应用场景中，可以配置中央感应模式。中央感应模式是指实时(例如5秒粒度、10秒粒度等等)对当前路口以及区域中的多个路口(例如邻近路口)的交通状态进行感应，协调多个路口的交通调度目标，以便获得当前路口实时的控制策略。

在又一具体应用场景中，可以配置周期性感应模式，周期性感应模式例如是每一个信号灯相位周期对当前路口的交通状态，或当前路口与区域中的多个路口的交通状态进行感应，以便获得当前路口实时的控制策略。

在又一具体应用场景中，可以配置非周期性感应模式，非周期性感应模式是指在每隔预设时间长度(例如15分钟、30分钟等等)对当前路口的交通状态，或当前路口与区域中的多个路口的交通状态进行感应，以便获得当前路口实时的控制策略。

在又一种配置维度中，强化学习环境可按照特定的交通调度范围进行配置。举例来说，交通调度范围为单路口级范围、区域级范围、城市级范围等，即强化学习环境可以包括单路口调度环境、或者区域协调调度环境、或者城市级宏观调度环境等。

其中，在一具体应用场景中，可以配置单路口调度环境，单路口调度环境是指智能体所进行交通控制的范围是在某个具体路口。

在又一具体应用场景中，可以配置区域协调调度环境，区域协调调度环境是指智能体所进行交通控制的范围是在某个区域中的多个路口(例如当前路口以及邻近路口)。

在又一具体应用场景中，可以配置城市级宏观调度环境，城市级宏观调度环境是指智能体所进行交通控制的范围是整个城市的所有路口。

在又一种配置维度中，强化学习环境可按照路口的特定信号灯放行模式进行配置。举例来说，强化学习环境可以包括信号灯对放模式、或者信号灯单放模式、或者信号灯混合搭街模式等。

其中，在一具体应用场景中，可以配置信号灯对放模式，以一个具有东西南北走向的十字路口为例，信号灯对放模式是指信号灯的相位结构要么指示十字路口的南北方向同时通车，要么指示十字路口的东西方向同时通车。具体的，对放模式下信号灯可具有四个相位：东西方向的直行放行相位、东西方向的左转放行相位、南北方向的直行放行相位、南北方向的左转放行相位。

在又一具体应用场景中，可以配置信号灯单放模式。以一个具有东西南北走向的十字路口为例，单放模式指信号灯的相位结构要么指示东方向通车，要么指示西方向通车，要么指示南方向通车，要么指示北方向通车。具体的，单放模式下信号灯可具有四个相位：西方向放行相位、东方向放行相位、北方向放行相位、南方向放行相位。

在又一具体应用场景中，可以配置信号灯混合搭街模式。以一个具有东西南北走向的十字路口为例，信号灯混合搭街模式是指信号灯有的相位是单放模式的相位，有的相位是对放模式的相位，也就是说信号灯混合搭街是信号灯单放模式和信号灯对放模式的混合，具体的相位混合方式可以是多种多样的，例如信号灯混合搭街模式可以有五个相位：西方向放行相位、东方向放行相位、北方向放行相位、南北方向直行对放相位；南方向放行相位。

可以理解的是，在强化学习环境的配置过程中，可以从上述各种维度中分别选择一种配置组合在一起，构成强化学习环境的完整配置。

步骤2.通过用于强化学习的算法(用于强化学习的算法简称为强化学习算法)对智能体模型进行训练。

本发明实施例中，在强化学习训练模块中所构建的环境接近真实交通环境，智能体学到的控制策略就越准确。而配置不同的环境，给智能体的输入的特征数据和奖励方式不同，那通过强化学习算法训练得到的智能体模型也会不同。在强化学习中，由于环境和智能体训练是解耦的，也就是说，可以在完成构建环境的过程之后，再通过强化学习算法进行智能体训练的过程，所以，针对已经构建好的环境，可以选用合适的强化学习算法进行模型训练，例如，在可能的实现方式中，可以采用Q-Learning算法,或DDPG算法、或SARSA算法、或A3C算法等等进行智能体训练，另外，在又一可能的实现方式中，采用若干个强化学习算法组合的方式进行智能体训练。

在可能的实现方式中，还可以根据不同的环境而选择不同的强化学习算法。例如，如果环境中的强化学习环境配置为本地感应模式，那么，智能体模型输出的动作将是离散的，即输出数值0或者1，以表示采取的动作是切换信号灯相位或不切换信号灯相位，这时可以选择擅长处理离散动作空间的强化学习算法，如选择Q-Learning算法等。又例如，如果若环境中的强化学习环境配置为周期性感应模式，那么，智能体模型输出的动作将是连续的，如输出的数值表示各个信号灯相位的绿灯时长，这时可以选择擅长处理连续动作空间的强化学习算法，如选择DDPG算法等。

需要说明的是，本发明实施例并不限定强化学习算法的选择，上述强化学习算法的描述仅仅作为示例，而非限定。

步骤3.对训练好的智能体模型用内置仿真器进行模型评估。

可以理解的，基于所构建的环境，在使用特定的强化学习算法进行智能体训练后，就可以获得相应的智能体模型。当智能体模型的某些参数或性能满足预设条件后(例如模型实现车均等待时间小于预设阈值)，智能体模型就可以进行输出。训练完成的模型，为了对智能体模型的性能进行多方面的考量，经过内置在强化学习训练模块的仿真器可以做不同流量规律下的智能体模型功能测试，测试中采用的评价指标包括评价指标包括车均延误时间、车均停车次数、相位周期时间、车辆排队长度、交通吞吐量、车辆旅行时间、智能体模型稳定性等等中的一个或多个。其中，车均延误时间表示指车辆在路口交通流条件下基于信号灯控制而导致的平均延误时间；车均停车次数指车辆在路口预设道路长度下基于信号灯控制而导致的平均停车次数；相位周期时间表示信号灯相位结构的周期；车辆排队长度表示在路口预设道路长度下基于信号灯控制而导致车辆出现排队时的平均排队长度；交通吞吐量表示单位时间内车辆基于信号灯控制而进出路口的数量；车辆旅行时间表示在路口交通流条件下基于信号灯控制而导致车辆出现滞留的平均时间；智能体模型稳定性表示智能体在不同次数的测试中输出策略的稳定性。

可以理解的，如果智能体模型测试通过，那么智能体模型就会被进一步输出到训练平台的智能体模型库，以便于下一步在服务态中进行实际应用。

下面继续描述信号灯控制系统所工作的服务态的情形。完成训练后的智能体模型，代表着智能体已经学会了交通状态到信号灯控制方案的映射(即控制策略)，所以，智能体模型可以在现实交通环境中进行服务。

图3是本发明实施例所提供的信号灯控制系统工作于服务态的示意图。如图3所示，训练好的智能体模型通常适用于具体路口，在可能的服务态中，可根据该具体路口的标识启启用该路口的调度器，调度器抽取交通环境中实时的在线交通数据，这里的交通环境不同于训练态的交通环境，其数据来源为路口的交通数据采集器(视频监控摄像头、微波雷达探测器等)所采集的交通状态数据(该交通状态数据实时存放于用户平台在线时空数据库中，称为在线交通数据)。假设当前抽取的交通状态数据为交通状况较差的T状态，那么数据特征化的T状态输入到该智能体模型后，智能体模型就会输出控制策略(信号灯配时方案)，注入到现实交通环境中，作用于该路口的信号灯，信号灯基于该信号灯配时方案进行交通控制，所以路口的交通状态造成影响，使得路口的交通状态在预定时间内从T状态转变为交通状况较好的T+1状态，从而达到了交通调度目标。

参见图6，基于本发明实施例提供的信号灯控制系统，下面具体描述服务态的实现过程，该过程包括但不限于以下步骤：

1、交通数据采集器采集实时的交通状态数据。

具体的，设置在路口的视频监控摄像头和/或微波雷达探测器实时监控交通状况，采集获得相应的视频监控数据和/或雷达数据。从所述视频监控数据和/或雷达数据中提取出实时的车辆排队长度、流量等反映交通状况的数据作为交通状态数据。

2、交通数据采集器将交通状态数据发送至用户平台的实时时空数据库并进行保存。

3、可选的，数据引擎对保存到实时时空数据库的数据进行时间同步校正以及数据完整性检验。

由于不同路口的视频监控摄像头和/或微波雷达探测器实时检测的交通状态数据都需要纳入实时时空数据库，而且，同一个路口的交通状态数据也可能是先预存在不同的服务器中，再统一汇总到实时时空数据库，为了让这些不同来源的交通状态数据保持时间同步，数据引擎需对不同来源的数据做全局时间戳同步。其中，数据引擎可以是运行在用户平台的软件或者进程。

在一种可能的实现方式中，不同路口的交通状态数据基于网络时间协议(Network Time Protocol，NTP)进行时间同步，也就是说，将不同路口所对应服务器的时钟同步到世界协调时间(Universal Time Coordinated，UTC)，从而实现高精准度的时间校正。

在又一种可能的实现方式中，可以指定区域中某个路口对应的服务器为主服务器，其他路口的服务器为从服务器，从服务器的时钟以主服务器的时钟为基准进行时间校正，从而使所有的路口的交通状态数据实现时间同步。

在又一种可能的实现方式中，当同一个路口的交通状态数据预存在不同的服务器中，再统一汇总到实时时空数据库时，可以基于NTP进行不同服务器的时间同步；也可以设置其中一个服务器为主服务器，其他服务器作为从服务器，从服务器的时钟以主服务器的时钟为基准进行时间校正。

此外，数据引擎还可以维护在线时空数据库中交通状态数据的完整性，例如，当保存在线时空数据库中的交通状态数据出现数据不连续时，数据引擎进行实时数据拼接和数据重构。又例如，当在线时空数据库中的交通状态数据出现错误或者缺漏时，数据引擎可进行数据的容错填充处理，例如某路口的摄像头出现短暂故障而无法向实时时空数据库上传数据，数据引擎用过去时间最近的没有缺漏的数据去填充当前的缺漏数据。

4、根据智能体模型启用特定路口的调度器，调度器实时通过数据引擎抽取该特定路口的特征数据矩阵(特征数据矩阵就是一种特征数据)。

具体的，每个路口都对应于一个调度器，而智能体模型包括路口的标识，所以用户平台可基于该路口的标识启动该路口对应的调度器，进而调度器实时通过数据引擎抽取该特定路口的特征数据矩阵。

本发明实施例中，为了让特征数据能够全面反映当前交通状况，特征数据可以采用特征数据矩阵的形式，特征数据矩阵的中的元素表示特定的交通特征。

在一种实现方式中，本发明实施例所涉及的特征数据矩阵例如为多特征维度观测矩阵m*n*k，在这样的矩阵中，m代表过去的m个时间间隔，n代表路口的来车车道的数量，k代表特征维度个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。所以，在这样的多特征维度观测矩阵中，任意的矩阵元素表示在某个时间间隔某个来车车道的交通流量，或者某个时间间隔某个来车车道的(预设道路长度范围内)排队车辆数，或者某个时间间隔某个来车车道的信号灯状态，或者某个时间间隔某个来车车道的(预设道路长度范围内)车辆排队长度等。其中，信号灯状态表示信号灯所处于的信号灯相位，例如某个来车车道的信号灯状态为东方向放行的相位。

例如，参见图7，图7所示了一种多特征维度观测矩阵的实现形式，多特征维度观测矩阵m*n*k中，k＝3，即所抽取的矩阵为m*n*3的矩阵，它表示了3个维度的信息：第一个维度是车辆排队车辆数，也就是过去的m时间长度内，每个时间间隔的每个来车车道的排队车辆数的集合，这个集合为m*n的矩阵；第二个维度为车辆排队长度，也就是过去的m时间长度内，每个时间间隔的每个来车车道的车辆排队长度的集合，这个集合为m*n的矩阵；第三个维度是信号灯状态，也就是过去的m时间长度内，每个时间间隔的每个来车车道的信号灯状态，这个集合为m*n的矩阵。这三个维度的矩阵组合在一起构成了m*n*3的多特征维度观测矩阵。

又例如，假设路口的来车车道有17条，我们可以建立一个60*17*2的多特征维度观测矩阵，它可以表示2个特征维度的信息：一个维度是车辆排队长度，即过去60秒，每一秒个条车道上的车辆排队长度，这是一个60*17的矩阵；另一个维度是信号灯状态，即过去60秒，每一秒每个车道对应的信号灯状态，这也是一个60*17的矩阵，这两个维度矩阵组合在一起就得到60*17*2的多特征维度观测矩阵。

需要说明的是，上述的特征数据抽取方式仅仅是示例，而非限定。为了保证了智能体模型的可用性和准确性，在训练态进行特征数据抽取的方式与服务态进行特征数据提取的方式可以保持一致。

5、调度器将特征数据矩阵输入到训练好的智能体模型中。

6、智能体模型根据特征数据矩阵输出相应控制策略，该控制策略包括信号灯配时方案。

7、调度器信号灯配时方案发送至信号灯后台。

具体实施例中，调度器先向信号灯后台发送控制请求，用于请求信号灯后台进行信号灯配时方案的变更，在信号灯后台验证通过该控制请求后，调度器就可以将交通信号灯配时方案发送至信号灯后台。

8、信号灯后台对信号灯配时方案进行合理性检验。

信号灯配时方案到达信号灯后台后，信号灯后台进行对控制策略(信号灯配时方案)进行合理性检验，以检验智能体的控制策略是否合理，例如信号灯配时方案中某一道路方向的绿灯时长为100秒，那么信号灯后台会检验这个绿灯时长是否过长，如果检验控制策略合理，则接受该信号灯配时方案，否则给予拒绝。具体的，信号灯后台还可根据信号灯配时方案是否满足最小绿灯时间，是否满足最大绿灯时间，信号灯切换是否存在交通安全隐患等原则进行拒绝或接受。

9、检验通过后，信号灯后台基于所述信号灯配时方案对信号灯进行实时控制。从而实现将智能体模型的决策反映到信号灯控制上。

需要说明的是，在可能的实施例中，调度器也可以基于交通信号灯配时方案，实时向信号灯后台发送信号灯相位结构信息，从而实现通过信号灯后台实时控制信号灯的相位结构变更。

还需要说明的是，应用本发明实施例所提供的信号灯控制系统以最终实现信号灯的控制的方式并不局限于上述的流程步骤，例如，在可能的应用场景中，用户平台的调度器也可以从训练平台的智能体模型库中获取多种智能体模型，然后调度器通过抽取在线时空数据库中的特征数据矩阵，调度器根据特征数据矩阵反映的交通特征(如交通流量较大)从所述多种智能体模型中选择一种较佳的智能体模型，使用特征数据矩阵输入到该智能体模型获得信号灯配时方案，然后再实现信号灯的控制。

上文主要从单路口交通的角度描述了本发明实施例提供的信号灯控制的方案，下面进一步描述从区域交通的角度描述本发明实施例中提供的信号灯控制的方案。

本发明实施例中，区域表示比单路口的粒度更大的地域范围，例如，可以将一个特定路口，以及与该特定路口相邻的几个路口一起定义为一个区域。当然，区域的定义并不限定于此，例如，还可以城市中的若干条交叉街道的组合定义区域，还可以将城市中的一个行政区或一个功能区定义为区域，甚至还可以将整个城市都定义为区域。

参见图8，在一种交通网络控制方式中，在城市中划出一个或多个区域(如图中所示区域1、区域2、区域3)，每个区域均包括若干个路口，这些区域共同使用本发明实施例提供的信号灯控制系统进行交通信号灯的控制，区域中的每个路口均对应于一个调度器，同时，每个路口都对应于一个智能体(即通过信号灯控制系统训练出适用于该路口的智能体模型)。每个智能体用于控制其对应路口的信号灯，同一区域中的不同智能体之间能够相互通信，从而促使整个区域的交通状况得到协调控制和优化。

根据前文的描述可知，智能体训练最终输出的智能体模型与所构建的环境息息相关，与所设定的交通调控目标息息相关，和奖励息息相关。所以，在区域协调交通控制中，每个路口的智能体在训练过程中，所构建的环境为区域的环境。

本发明实施例中，在构建环境过程中，通过交通仿真器构建区域的交通仿真环境，每个智能体的交通观测范围扩展至周边的邻近路口，也就是说每个智能体获取的真实交通数据不仅包含自身路口的交通状态数据(特征数据)，同时也包含所在区域中其他路口的交通状态数据(特征数据)。参见图9，在图9所示的路网结构中，路口11以及路口11周边相邻的4个路口共同组成了区域1(即图示中虚线圆圈所指示的路口的集合)，路口21以及路口21周边相邻的4个路口共同组成了区域2(即图示中虚线三角形所指示的路口的集合)，路口11和路口21之间的路口(同时由虚线圆圈和虚线三角型指示)同时属于区域1和区域2。那么，在路口11对应的智能体的环境构建和模型训练中，不仅需要获得路口11的特征数据，还需要获得其周边相邻的4个路口的特征数据。同理，在路口21对应的智能体的环境构建和模型训练中，不仅需要获得路口21的特征数据，还需要获得其周边相邻的4个路口的特征数据。可以理解的，区域1或区域2中的其他路口对应的智能体同样如此。

本发明实施例中，参见图10，由于区域交通控制关注于整个区域的交通状况，所以区域的交通仿真环境要关注比单路口更多的交通特征，比如单路口的发车规律只关注车辆进出路口的交通状态，而区域交通的发车规律除了关注车辆进出路口的情况，还需要关注车辆在整个区域的行驶轨迹。为了使得构建的环境更加接近真实环境，在通过交通仿真器构建区域的交通仿真环境后，使用交通仿真器校正模块对交通仿真器进行校正，其中，对区域发车规律的校正主要包括：(1)对真实交通环境中车辆在区域内的运行轨迹统计。具体的，可以根据卡口数据，识别车辆车牌，通过大数据统计分析获得区域内该车辆的进入区域的道路、以及离开的道路、以及中途经过的道路。(2)统计区域中不同车辆的行驶轨迹，得到行驶轨迹的频率分布，从而形成发车轨迹频率分布。如图10所示，不同的行驶轨迹可具有不同的比例(图示中行驶轨迹的粗细程度来表示)，例如某条行驶轨迹的比例占该区域的发车行车规律的30％等等。(3)使用交通仿真器的发车规律所模拟的发车轨迹频率分布去拟合真实交通环境发车轨迹频率分布，从而使得交通仿真器所构建的交通仿真环境接近于现实交通环境。

本发明实施例中，在构建环境过程中，配置智能体的强化学习环境时，每个智能体的交通调度目标要联合区域中的周边邻近路口进行综合考虑，也就是说要使得每个智能体输出的控制策略(信号灯配时方案)要能同时缓解自身路口和周边邻近路口的交通拥堵。例如，智能体配置的交通调度目标包括同时减少自身路口和周边邻近路口的车辆平均延误时间。又例如，智能体配置的交通调度目标包括合理调节自身路口和周边邻近路口的车道占有率，即防止在自身路口和周边邻近路口发生车辆排队溢出道路的情况等等。需要说明的是，各个路口的智能体所配置的交通调度目标可以是相同的，也可以是有差异的。

在智能体训练中，每个智能体不仅考虑到周边智能体对自己的影响，同时也考虑到自己对周边智能体的影响，所以，通过智能体训练得到的智能体模型能够保证在区域内协同实现该区域的交通最优目标。

可以看出，本发明实施例通过强化学习的方法，基于路口道路交通的历史数据对智能体进行训练，训练所得的智能体模型能够给出较佳的信号灯配时方案，从而实现对路口信号灯进行智能控制。实施本发明实施例能够改善城市交通的拥挤状况，实时快速响应交通状况的变化，使得路口交通得以安全、畅通、有序和高效的运营。另外，本发明实施例可支持在城市单路口、多路口、行政区域或功能区域、城市级别的信号灯协同调度优化，从全局最优的角度解决交通拥堵问题。

上文描述了信号灯控制系统以及信号灯的控制方法，下面继续描述本发明实施例涉及的相关设备。

图12示出了本发明实施例提供的信号灯控制系统的结构示意图。其中，信号灯控制系统包括训练平台和服务平台，训练平台包括一个或者多个计算设备60。用户平台包括一个或者多个用户设备70。用户平台和计算平台间建立通信连接。用户平台内的用户设备70间建立通信连接，训练平台内的计算设备60间建立通信连接。训练平台内的计算设备60可以由云服务厂商提供。需要说明的是，一个设备也可以同时兼为计算设备60和用户设备70，例如该设备上运行了训练平台上的调度指令发布入口11、强化学习训练模块12、离线时空数据库13、数据引擎14、智能体模型库15中的一个或者几个，以及运行了用户平台上的调度指令发布入口21、调度器22、在线时空数据库23、数据引擎24、交通状况可视化模块25中的一个或者几个。

具体实现中，计算设备60可配置有调度指令发布入口11、强化学习训练模块12、离线时空数据库13、数据引擎14、智能体模型库15等，强化学习训练模块12可用于基于离线时空数据库13中的数据通过强化学习输出智能体模型，并向智能体模型通过通信连接发送给用户设备70。用户设备70配置有调度指令发布入口21、调度器22、在线时空数据库23、数据引擎24、交通状况可视化模块25等，调度器22可将在线时空数据库23中的数据输入到该智能体模型中，获得控制策略。该控制策略包括信号灯配时方案，用于实现对信号灯的控制。每个计算设备60可以执行调度指令发布入口11、强化学习训练模块12、离线时空数据库13、数据引擎14、智能体模型库15中的任意一个或者多个。每个用户设备70可以执行调度指令发布入口21、调度器22、在线时空数据库23、数据引擎24、交通状况可视化模块25中的任意一个或者多个。下面分别展开具体描述。

如图12所示，本发明实施例提供的计算设备60包括一个或多个处理器601、通信接口602、用户接口603和存储器604，处理器601、通信接口602、用户接口603和存储器604可通过总线或者其它方式连接，本发明实施例以通过总线605连接为例。其中，

处理器601可以由一个或者多个通用处理器构成，例如中央处理器(Central Processing Unit，CPU)。处理器601可用于运行调度指令发布入口11、强化学习训练模块12、数据引擎14等相关的程序代码17。也就是说，处理器601执行程序代码17可以实现调度指令发布入口11、强化学习训练模块12、数据引擎14等的功能。

通信接口602可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他终端或网站进行通信。本发明实施例中，通信接口602具体可用于将数据(如智能体模型)发送给用户平台70，还可接收用户平台70发送的数据(如交通状态数据)。

用户接口603用于接收用户发布的指令，具体可包括触控面板，包括触摸屏和触控屏，用于检测触控面板上的操作指令，用户接口603也可以是物理按键或者鼠标。用户接口603还可以包括显示屏，用于输出、显示图像或数据。具体的，用户接口603可包括调度指令发布入口11，用于接收用户发送的指令，该指令用于指示训练平台进行强化学习的训练任务。该指令可以是训练平台的管理者所输入的，也可以是用户设备70发送的。具体的，该指令可以包括城市中各个路口的标识列表，路口交通的调度目标，路口的信号灯的相位结构等等。

存储器604可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器604还可以包括上述种类的存储器的组合。存储器604可用于存储一组程序代码17，以便于处理器601调用存储器604中存储的程序代码17以实现本发明实施例的信号灯控制方法。可选的，存储器604还用于保存离线时空数据库13和智能体模型库15，其中离线时空数据库13和智能体模型库15可能保存在不同的计算设备的存储器上，也可能保存在相同存储器。

具体应用场景中，调度指令发布入口11、强化学习训练模块12、离线时空数据库13、数据引擎14、智能体模型库15等等都是软件模块，这些软件模块可部署在服务器、或服务器上的虚拟机，或服务器上的容器上。

所述计算设备60具体用于实现本发明实施例提供的训练态过程。

本发明具体实施例中，所述存储器用于存储路口的历史交通状态数据；所述处理器用于，获取所述存储器存储的所述路口的历史交通状态数据，基于所述历史交通状态数据进行强化学习，得到信号灯训练模型；所述存储器用于，存储所述信号灯训练模型；其中，所述信号灯训练模型包括交通状态数据与控制策略的映射关系，所述控制策略指示所述路口的信号灯的亮灯规则；所述信号灯训练模型用于，基于所述路口的实时交通状态数据，输出所述路口的信号灯的控制策略；其中，所述第一存储器和所述第二存储器为相同的存储器或者不同的存储器；

本发明可能的实施例中，处理器基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，包括：处理器基于所述历史交通状态数据，构建交通仿真环境，构建强化学习环境；基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型。

本发明可能的实施例中，所述交通仿真环境包括信号灯配时生成器、路网生成器和车流生成器；其中：所述信号灯配时生成器用于为所述交通仿真环境提供模拟所述路口的信号灯运作的功能；所述路网生成器用于为所述交通仿真环境提供模拟所述路口的交通道路和交通交叉口的功能所述车流生成器用于为所述交通仿真环境提供模拟所述路口的车辆行驶的功能。

本发明可能的实施例中，所述交通仿真环境还包括交通仿真器校正模块，所述交通仿真器校正模块用于对所述交通仿真环境的车头时距分布进行校正。

本发明可能的实施例中，交通仿真器校正模块执行对所述交通仿真环境的车头时距分布进行校正，包括：所述交通仿真器校正模块执行获取所述路口的车头时距分布；使用所述交通仿真环境的车头时距分布拟合所述路口的车头时距分布，得到拟合系数；基于所述拟合系数调整所述交通仿真环境的车头时距分布，使得所述交通仿真环境的车头时距分布符合所述路口的车头时距分布。

本发明可能的实施例中，处理器构建强化学习环境，包括以下方式中一个或多个的组合：处理器基于所述强化学习的交通调度目标来构建所述强化学习环境；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个；基于感应模式来构建所述强化学习环境；所述感应模式包括本地感应模式、中央感应模式、周期性感应模式和非周期性感应模式中的一个；基于所述路口的信号灯放行模式来构建强化学习环境；所述信号灯放行模式包括信号灯对放模式、信号灯单放模式、信号灯混合搭街模式中的一个；基于所述交通调度范围来构建所述强化学习环境；所述交通调度范围包括单路口级范围、区域级范围、城市级范围中的一个。

本发明可能的实施例中，处理器基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型，包括：基于所述交通仿真环境和所述强化学习环境，通过强化学习算法对初始信号灯训练模型进行训练，输出初始控制策略；所述初始控制策略指示所述交通仿真环境中所模拟的路口的信号灯的亮灯规则；基于所述初始控制策略控制所述交通仿真环境中所模拟的路口的信号灯，获得所述交通仿真环境中所模拟的路口的车辆行驶的变化；基于所述车辆行驶的变化和交通调度目标之间的差异，向所述初始信号灯训练模型反馈奖励；基于所述奖励调整所述初始信号灯训练模型的参数，得到所述信号灯训练模型；其中，所述奖励表示对所述初始控制策略的正评价或负评价；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个。

本发明可能的实施例中，处理器基于所述历史交通状态数据进行强化学习，包括：处理器抽取所述历史交通状态数据得到特征矩阵m*n*k；基于所述特征矩阵m*n*k进行强化学习；其中，所述m表示m个时间间隔，所述n表示所述路口的来车车道的数量，所述k代表特征维度的个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。

本发明可能的实施例中，在所述得到信号灯训练模型之后，处理器根据评价指标对所述信号灯训练模型进行评价，所述评价指标包括车均延误时间、车均停车次数、车辆排队长度、交通吞吐量、车辆旅行时间、智能体模型稳定性中的至少一个。

本发明可能的实施例中，处理器通过所述数据库，获取所述路口的至少一个邻近路口的历史交通状态数据；处理器基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，具体为：处理器基于所述路口的历史交通状态数据和所述至少一个邻近路口的历史交通状态数据进行强化学习，得到信号灯训练模型。

本发明可能的实施例中，处理器基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，包括：处理器基于所述路口的历史交通状态数据和所述至少一个邻近路口的历史交通状态数据，构建交通仿真环境，构建强化学习环境；基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型。

本发明可能的实施例中，处理器构建强化学习环境，包括：处理器基于所述强化学习的交通调度目标来构建所述强化学习环境；所述交通调度目标包括所述路口的交通调度目标和所述至少一个邻近路口的交通调度目标。

本发明可能的实施例中，处理器基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型，包括：处理器基于所述交通仿真环境和所述强化学习环境，通过强化学习算法对初始信号灯训练模型进行训练，输出初始控制策略；所述初始控制策略指示所述交通仿真环境中所模拟的路口的信号灯的亮灯规则；基于所述初始控制策略控制所述交通仿真环境中所模拟的路口的信号灯，获得所述交通仿真环境中所模拟的路口的车辆行驶的变化和所述至少一个邻近路口的车辆行驶的变化；基于所述路口的车辆行驶的变化和所述路口的交通调度目标之间的差异，向所述初始信号灯训练模型反馈所述路口的奖励；基于所述至少一个邻近路口的车辆行驶的变化和所述至少一个邻近路口的交通调度目标之间的差异，向所述初始信号灯训练模型反馈所述至少一个邻近路口的奖励；基于所述路口的奖励和所述至少一个邻近路口的奖励调整所述初始信号灯训练模型的参数，得到所述信号灯训练模型；其中，所述奖励表示对所述初始控制策略的正评价或负评价；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个。

其中，计算设备60实现训练态的具体过程据参考前文的描述，这里不再赘述。

如图12所示，本发明实施例提供的用户设备70包括至少一个处理器701、通信接口702、用户接口703和存储器704，处理器701、通信接口702、用户接口703和存储器704可通过总线或者其它方式连接，本发明实施例以通过总线705连接为例。其中，

处理器701可以由一个或者多个通用处理器构成，例如中央处理器。处理器601可用于运行调度指令发布入口11、调度器22、数据引擎24、交通状况可视化模块25等相关的程序代码26。也就是说，处理器701执行程序代码26可以实现调度指令发布入口11、调度器22、数据引擎24、交通状况可视化模块25等的功能。

通信接口702可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他终端或网站进行通信。本发明实施例中，本发明实施例中，通信接口702具体可用于接收计算设备60发送的数据(如智能体模型)，还可向计算设备60发送的数据(如交通状态数据)。

用户接口703具体可为触控面板，包括触摸屏和触控屏，用于检测触控面板上的操作指令，用户接口703也可以是物理按键或者鼠标。用户接口703还可以为显示屏，用于输出、显示图像或数据。具体的，用户接口703可包括调度指令发布入口11，调度指令发布入口21可用于接收用户设备70的使用者发布的指令，该指令用于指示计算设备60进行强化学习的训练任务。调度指令发布入口21将该指令通过通信接口702向计算设备60的调度指令发布入口11发送。具体的，该指令可以包括城市中各个路口的标识列表，路口交通的调度目标，路口的信号灯的相位结构等等。

存储器704可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器704还可以包括上述种类的存储器的组合。存储器704用于存储一组程序代码26，处理器701用于调用存储器704中存储的程序代码26，以便于处理器701调用存储器704中存储的程序代码26以实现本发明实施例的信号灯控制方法。此外，存储器704还用于保存在线时空数据库23，此外，存储器704可能还用于保存智能体模型库27，该智能体模型库27中的数据来源于计算设备60的智能体模型库15，也就是说可将计算设备60训练好的模型进一步保存到智能体模型库27，以便于在服务态中进行应用。其中在线时空数据库23和智能体模型库27可能保存在不同的存储器，也可能保存在同一存储器。

本发明实施例可选的还包括显示面板706，该显示面板可根据交通状况可视化模块25的控制，进行可视化显示，例如对路口交通运行状况进行视频展示和/或音频展示等。

具体应用场景中，调度指令发布入口21、调度器、在线时空数据库23、数据引擎24、交通状况可视化模块25等都是软件模块，这些软件模块可部署在服务器、或服务器上的虚拟机。或服务器上的容器上。

其中，所述用户设备70具体用于实现本发明实施例提供的服务态过程。

本发明具体实施例中，所述通信接口用于，接收训练平台发送的信号灯训练模型；其中，所述信号灯训练模型是所述训练平台通过强化学习得到的；所述存储器用于，存储所述路口的实时交通状态数据；所述处理器用于，将所述路口的实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述控制策略指示所述路口的信号灯的亮灯规则；所述发射器用于，将所述控制策略发送至所述路口的信号灯的控制后台，所述控制后台用于基于所述控制策略对所述路口的信号灯进行控制；

本发明可能实施例中，处理器将所述实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略，包括：处理器抽取所述实时交通状态数据得到特征矩阵m*n*k；将所述特征矩阵m*n*k输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述m表示m个时间间隔，所述n表示所述路口的来车车道的数量，所述k代表特征维度的个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。

本发明可能实施例中，所述信号灯训练模型包括所述路口的标识；处理器获取所述路口的实时交通状态数据，包括：处理器根据所述路口的标识，获取所述路口的实时交通状态数据。

本发明可能实施例中，处理器基于所述控制策略对所述路口的信号灯进行控制，包括：

通过所述调度器，将所述控制策略发送至所述路口的信号灯的控制后台，所述控制后台用于基于所述控制策略对所述路口的信号灯进行控制。

其中，所述用户设备70实现服务态的具体过程可参考前文的描述，这里不再赘述。

基于相同的发明构思，本发明实施例提供又一种训练平台，用于实现本发明实施例的信号控制方法，所述训练平台具体包括数据库模块、训练模块、模型库模块，其中：

数据库模块，用于获取路口的历史交通状态数据；

模型库模块，用于保存所述信号灯训练模型；

其中，所述训练平台具体用于实现本发明实施例提供的训练态过程。所述训练平台的不同模块的实现过程可参考前文的相关描述，这里不再赘述。

基于相同的发明构思，本发明实施例提供又一种用户平台，用于实现本发明实施例的信号控制方法，所述用户平台具体包括：调度器模块、数据库模块，其中：

数据库模块，用于获取所述路口的实时交通状态数据；

所述调度器模块还用于，基于所述控制策略对所述路口的信号灯进行控制；

其中，所述用户平台具体用于实现本发明实施例提供的服务态过程。所述用户平台的不同模块的实现过程可参考前文的描述，这里不再赘述。

其中，由上述训练平台和上述用户平台组成的系统可实现本发明实施例提供的信号灯控制系统的功能。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者任意组合来实现。当使用软件实现时，可以全部或者部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网络站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、微波等)方式向另一个网络站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，也可以是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD等)、或者半导体介质(例如固态硬盘)等等。

在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

Claims

一种信号灯控制方法，其特征在于，所述方法应用于训练平台，所述训练平台包括数据库、训练模块和模型库，所述方法包括：

通过所述数据库，获取路口的历史交通状态数据；

通过所述训练模块，基于所述历史交通状态数据进行强化学习，得到信号灯训练模型；

通过所述模型库，保存所述信号灯训练模型；

其中，所述信号灯训练模型包括交通状态数据与控制策略的映射关系，所述控制策略指示所述路口的信号灯的亮灯规则；所述信号灯训练模型用于，基于所述路口的实时交通状态数据，输出所述路口的信号灯的控制策略。
根据权利要求1所述的方法，其特征在于，所述基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，包括：

基于所述历史交通状态数据，构建交通仿真环境和强化学习环境；

基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型。
根据权利要求2所述的方法，其特征在于，所述交通仿真环境包括信号灯配时生成器、路网生成器和车流生成器；所述方法还包括：

所述信号灯配时生成器为所述交通仿真环境提供模拟所述路口的信号灯运作；

所述路网生成器为所述交通仿真环境提供模拟所述路口的交通道路和交通交叉口；

所述车流生成器为所述交通仿真环境提供模拟所述路口的车辆行驶。
根据权利要求3所述的方法，其特征在于，所述交通仿真环境还包括交通仿真器校正模块，所述交通仿真器校正模块对所述交通仿真环境的车头时距分布进行校正。
根据权利要求4所述的方法，其特征在于，交通仿真器校正模块执行对所述交通仿真环境的车头时距分布进行校正，包括：

所述交通仿真器校正模块执行获取所述路口的车头时距分布；

使用所述交通仿真环境的车头时距分布拟合所述路口的车头时距分布，得到拟合系数；

基于所述拟合系数调整所述交通仿真环境的车头时距分布，使得所述交通仿真环境的车头时距分布符合所述路口的车头时距分布。
根据权利要求2至5任一项所述的方法，其特征在于，所述构建交通仿真环境和强化学习环境，包括以下方式中一个或多个的组合：

基于所述强化学习的交通调度目标来构建所述强化学习环境；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个；

基于感应模式来构建所述强化学习环境；所述感应模式包括本地感应模式、中央感应模式、周期性感应模式和非周期性感应模式中的一个；

基于所述路口的信号灯放行模式来构建强化学习环境；所述信号灯放行模式包括信号灯对放模式、信号灯单放模式、信号灯单放对放的混合模式中的一个；

基于所述交通调度范围来构建所述强化学习环境；所述交通调度范围包括单路口级范围、区域级范围、城市级范围中的一个。
根据权利要求2至6任一项所述的方法，其特征在于，所述基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型，包括：

基于所述交通仿真环境和所述强化学习环境，通过强化学习算法对初始信号灯训练模型进行训练，输出初始控制策略；所述初始控制策略指示所述交通仿真环境中所模拟的路口的信号灯的亮灯规则；

基于所述初始控制策略控制所述交通仿真环境中所模拟的路口的信号灯，获得所述交通仿真环境中所模拟的路口的车辆行驶的变化；

基于所述车辆行驶的变化和交通调度目标之间的差异，向所述初始信号灯训练模型反馈奖励；

基于所述奖励调整所述初始信号灯训练模型的参数，得到所述信号灯训练模型；

其中，所述奖励表示对所述初始控制策略的正评价或负评价，所述正评价表示所述车辆行驶的变化倾向所述交通调度目标，所述负评价表示所述车辆行驶的变化偏离所述交通调度目标；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个。
根据权利要求1至7任一项所述的方法，其特征在于，所述基于所述历史交通状态数据进行强化学习，包括：

抽取所述历史交通状态数据得到特征矩阵m*n*k；

基于所述特征矩阵m*n*k进行强化学习；

其中，所述m表示m个时间间隔，所述n表示所述路口的来车车道的数量，所述k代表特征维度的个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。
根据权利要求1至8任一项所述的方法，其特征在于，在所述得到信号灯训练模型之后，所述方法还包括：

根据评价指标对所述信号灯训练模型进行评价，所述评价指标包括车均延误时间、车均停车次数、车辆排队长度、交通吞吐量、车辆旅行时间、智能体模型稳定性中的至少一个。
根据权利要求1所述的方法，其特征在于，所述方法还包括：通过所述数据库，获取所述路口的至少一个邻近路口的历史交通状态数据；

所述通过所述训练模块，基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，具体为：通过所述训练模块，基于所述路口的历史交通状态数据和所述至少一个邻近路口的历史交通状态数据进行强化学习，得到信号灯训练模型。
根据权利要求10所述的方法，其特征在于，所述基于所述历史交通状态数据进行强化学习，得到信号灯训练模型，包括：

基于所述路口的历史交通状态数据和所述至少一个邻近路口的历史交通状态数据，构建交通仿真环境和强化学习环境；

基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型。
根据权利要求11所述的方法，其特征在于，所述构建交通仿真环境和强化学习环境，包括：

基于所述强化学习的交通调度目标来构建所述强化学习环境；所述交通调度目标包括所述路口的交通调度目标和所述至少一个邻近路口的交通调度目标。
根据权利要求11或12所述的方法，其特征在于，所述基于所述交通仿真环境和所述强化学习环境，通过强化学习算法进行强化学习，得到所述信号灯训练模型，包括：

基于所述交通仿真环境和所述强化学习环境，通过强化学习算法对初始信号灯训练模型进行训练，输出初始控制策略；所述初始控制策略指示所述交通仿真环境中所模拟的路口的信号灯的亮灯规则；

基于所述初始控制策略控制所述交通仿真环境中所模拟的路口的信号灯，获得所述交通仿真环境中所模拟的路口的车辆行驶的变化和所述至少一个邻近路口的车辆行驶的变化；

基于所述路口的车辆行驶的变化和所述路口的交通调度目标之间的差异，向所述初始信号灯训练模型反馈所述路口的奖励；

基于所述至少一个邻近路口的车辆行驶的变化和所述至少一个邻近路口的交通调度目标之间的差异，向所述初始信号灯训练模型反馈所述至少一个邻近路口的奖励；

基于所述路口的奖励和所述至少一个邻近路口的奖励调整所述初始信号灯训练模型的参数，得到所述信号灯训练模型；

其中，所述奖励表示对所述初始控制策略的正评价或负评价，所述正评价表示所述车辆行驶的变化倾向所述交通调度目标，所述负评价表示所述车辆行驶的变化偏离所述交通调度目标；所述交通调度目标包括减少车均延误时间、减少车均停车次数、缩短车辆排队长度、增加交通吞吐量、减少车辆旅行时间中的至少一个。
一种信号灯控制方法，其特征在于，所述方法应用于服务平台，所述服务平台包括调度器和模型库，所述方法包括：

通过所述调度器，获取训练平台发送的信号灯训练模型；其中，所述信号灯训练模型是所述训练平台通过强化学习得到的；

通过所述数据库，获取所述路口的实时交通状态数据；

通过所述调度器，将所述路口的实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述控制策略指示所述路口的信号灯的亮灯规则；

通过所述调度器，基于所述控制策略对所述路口的信号灯进行控制。
根据权利要求14所述的方法，其特征在于，将所述实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略，包括：

抽取所述实时交通状态数据得到特征矩阵m*n*k；

将所述特征矩阵m*n*k输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；

其中，所述m表示m个时间间隔，所述n表示所述路口的来车车道的数量，所述k代表特征维度的个数，所述特征维度包括所述路口的每个时间间隔每个来车车道的交通流量、所述路口的每个时间间隔每个来车车道的信号灯状态、所述路口的每个时间间隔每个来车车道的车辆数、所述路口的每个时间间隔每个来车车道的排队长度中的至少一个。
根据权利要求14或15所述的方法，其特征在于，所述信号灯训练模型包括所述路口的标识；

所述获取所述路口的实时交通状态数据，包括：根据所述路口的标识，获取所述路口的实时交通状态数据。
根据权利要求14至16任一项所述的方法，其特征在于，通过所述调度器，基于所述控制策略对所述路口的信号灯进行控制，包括：

通过所述调度器，将所述控制策略发送至所述路口的信号灯的控制后台，所述控制后台用于基于所述控制策略对所述路口的信号灯进行控制。
一种训练平台，其特征在于，所述训练平台包括至少一个计算设备，每个计算设备包括处理器和存储器，其中：

所述存储器用于，存储路口的历史交通状态数据、模型库；

所述处理器用于，执行所述存储器中的程序代码实现权利要求1-13任一所述的方法。
一种用户平台，其特征在于，所述用户平台包括至少一个用户设备，每个用户设备包括处理器和存储器，其中：

所述存储器用于，存储所述路口的实时交通状态数据；

所述处理器用于，执行所述存储器中的程序代码，实现权利要求14-17任一项所述的方法。
一种训练平台，其特征在于，所述训练平台包括：

数据库模块，用于获取路口的历史交通状态数据；

训练模块，用于基于所述历史交通状态数据进行强化学习，得到信号灯训练模型；

模型库模块，用于保存所述信号灯训练模型；

其中，所述信号灯训练模型包括交通状态数据与控制策略的映射关系，所述控制策略指示所述路口的信号灯的亮灯规则；所述信号灯训练模型用于，基于所述路口的实时交通状态数据，输出所述路口的信号灯的控制策略；

其中，所述训练平台用于实现权利要求1-13任一所述的方法。
一种用户平台，其特征在于，所述用户平台包括：

调度器模块，用于获取训练平台发送的信号灯训练模型；其中，所述信号灯训练模型是所述训练平台通过强化学习得到的；

数据库模块，用于获取所述路口的实时交通状态数据；

所述调度器模块还用于，将所述路口的实时交通状态数据输入至所述信号灯训练模型得到所述路口的信号灯的控制策略；其中，所述控制策略指示所述路口的信号灯的亮灯规则；

所述调度器模块还用于，基于所述控制策略对所述路口的信号灯进行控制；

其中，所述用户平台用于实现权利要求14-17任一所述的方法。
一种信号灯控制系统，其特征在于，所述系统包括如权利要求19所述的训练平台和如权利要求20所述的用户平台。
一种信号灯控制系统，其特征在于，所述系统包括如权利要求20所述的训练平台和如权利要求21所述的用户平台。
一种非易失的计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码被计算设备执行时，所述计算设备用于执行权利要求1-13任一项所述的方法。
一种非易失的计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码被用户设备执行时，所述用户设备用于执行权利要求14-17任一项所述的方法。