WO2021051930A1

WO2021051930A1 - 基于动作预测模型的信号调节方法、装置和计算机设备

Info

Publication number: WO2021051930A1
Application number: PCT/CN2020/098797
Authority: WO
Inventors: 魏萍; 王淼石; 吴育人; 庄伯金; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2020-06-29
Publication date: 2021-03-25
Also published as: CN110766955A; CN110766955B

Abstract

一种基于动作预测模型的信号调节方法、装置、计算机设备和存储介质，涉及智慧城市技术领域，方法包括：通过预先部署在指定路口的传感器获取指定路口的状态特征（S1）；将状态特征输入预设的第一决策网络中进行处理，得到第一决策网络输出的预测动作；其中第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，信号灯动作预测模型包括顺序连接的第一决策网络、多头自注意力网络和评估网络（S2）；根据预测动作控制信号灯（S3）。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

Description

基于动作预测模型的信号调节方法、装置和计算机设备

本申请要求于2019年09月18日提交中国专利局、申请号为201910882721.2，发明名称为“基于动作预测模型的信号调节方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到智慧城市技术领域，特别是涉及到一种基于动作预测模型的信号调节方法、装置、计算机设备和存储介质。

背景技术

日益增多的车辆带来的一系列问题，尤其是交通拥塞。不仅增加了通行时间，还造成了环境与经济问题。自适应红绿灯控制通过合理的调节红绿灯，能够有效的减少拥堵。现有的多路口信号调节，一般采用的是集中式控制，限制了系统的稳健性和可扩展性。且在处理多个路口时，系统的复杂性会随着路口数量的增加成指数增长，造成维度灾难。同时，这些多路口信号灯自适应控制算法，是基于数学模型来描述路口状态的随机性和动态性。发明人意识到这种依赖于路口状态的变迁而进行信号调节的方法，求解复杂，当路口状态过于复杂时很可能无法及时计算出结果，造成信号调节失败，引起交通混乱。

技术问题

本申请的主要目的为提供一种基于动作预测模型的信号调节方法、装置、计算机设备和存储介质，旨在不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

技术解决方案

为了实现上述发明目的，本申请提出一种基于动作预测模型的信号调节方法，应用于第一智能体，信号灯位于指定路口，包括：

通过预先部署在指定路口的传感器获取指定路口的状态特征；

将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

根据所述预测动作控制所述信号灯。

本申请提供一种基于动作预测模型的信号调节装置，应用于第一智能体，信号灯位于指定路口，包括：

状态特征获取单元，用于通过预先部署在指定路口的传感器获取指定路口的状态特征；

预测动作获取单元，用于将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

信号调节单元，用于根据所述预测动作控制所述信号灯。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于动作预测模型的信号调节方法的步骤，应用于第一智能体，信号灯位于指定路口，所述方法包括：

根据所述预测动作控制所述信号灯。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于动作预测模型的信号调节方法的步骤，应用于第一智能体，信号灯位于指定路口，所述方法包括：

根据所述预测动作控制所述信号灯。

有益效果

本申请的基于动作预测模型的信号调节方法、装置、计算机设备和存储介质，通过预先部署在指定路口的传感器获取指定路口的状态特征；将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

附图说明

图1为本申请一实施例的基于动作预测模型的信号调节方法的流程示意图；

图2为本申请一实施例的基于动作预测模型的信号调节装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于动作预测模型的信号调节方法，应用于第一智能体，信号灯位于指定路口，包括：

S1、通过预先部署在指定路口的传感器获取指定路口的状态特征；

S2、将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

S3、根据所述预测动作控制所述信号灯。

本申请采用的基于动作预测模型的信号调节方法，仅考虑当前时间下其他路口的信号灯动作、其他路口的状态对指定路口的影响(利用多头自注意力网络引入其他路口信号灯动作对指定路口的权重贡献，从而在训练模型时，能够综合考虑多个路口的交通状态以更新模型的网络参数)，而不需要考虑路口状态的迁移，从而在满足信号调节的基础上，减少了计算量，提高了效率。

如上述步骤S1所述，通过预先部署在指定路口的传感器获取指定路口的状态特征。所述传感器可为任意传感器，例如红外传感器，压力传感器，激光传感器，计时器等等，用于感测指定路口的状态特征。所述状态特征例如为车道车辆数目、车道占用率、车辆位置、车辆速度、排队长度和车辆延时等。进一步地，作为替换，还可以采用采集所述指定路口的图像，并对所述图像进行分析，从而得到所述状态特征的方式获取状态特征。

如上述步骤S2所述，将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络。其中本申请的基于强化学习模型的已训练好的信号灯动作预测模型，由顺序连接的所述第一决策网络、多头自注意力网络和评估网络构成。其中所述第一决策网络用于预测指定路口的信号灯的动作。所述动作例如为：是否切换信号灯当前相位，如何切换信号灯相位，若不切换则保持当前相位多少时间等。强化学习模型本质上是一种试错模型，其中所述多头自注意力网络和评估网络即是为了更新模型的网络参数而设置的。其中所述多头自注意力网络用于计算出其他智能体的决策对所述指定路口的权重贡献，从而使多个智能体执行能使多个路口的交通总状况得到改善的行为。进一步地，所述信号灯动作预测模型还包括多个决策网络，所述多个决策网络与预设的多个智能体相对应，用于预测与所述多个智能体所处路口的信号灯的动作。

如上述步骤S3所述，根据所述预测动作控制所述信号灯。由于所述第一决策网络是已训练好的信号灯动作预测模型中的一部分，并且所述信号灯动作预测模型在训练时已经考虑过由多头自注意力网络引进的其他智能体的决策的影响，因此所述预测动作是符合改善多个路口的交通总状况的动作，据此根据所述预测动作控制所述信号灯。

在一个实施方式中，所述传感器为压力传感器，所述压力传感器存在多个，分布于所述指定路口的各个车道的地下或者地面，当所述压力传感器正上方存在车辆时所述压力传感器能够被激活，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤S1,包括：

S101、获取被激活的压力传感器的位置；

S102、在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置，从而得到车辆分布图；

S103、从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度，并将所述车辆分布密度作为所述指定路口的状态特征。

如上所述，实现了通过预先部署在指定路口的传感器获取指定路口的状态特征。压力传感器是一种当受到一定的机械力时能够响应(激活)的传感器，本申请通过在指定路口(如各个车道)设置传感器，并设置只有受到与车辆相当的压力时再会被激活的方式(即当正上方存在较小的压力，例如仅存在人体的压力时，传感器不会被激活，只有当正上方存在大于预定阈值的压力时，才判定正上方存在车辆，从而激活传感器)，以感测到车辆的分布，即激活的传感器上存在车辆。从而结合与所述指定路口相应的地形图，可以得到车辆分布图。再从车辆分布图中提取出车辆分布密度，作为状态特征，相较于普通的状态特征，更加准确。

在一个实施方式中，所述将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤S2之前，包括：

S11、构建第一决策网络，所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作；

S12、构建多头自注意力网络，所述多头自注意力网络设置有n个输入层和n个输出层，所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出；其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络，其中所述信号灯动作预测模型包括n个智能体；所述n个输出层依次与n个智能体关联，其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献，i为大于等于1且小于等于n的整数；

S13、构建评估网络，所述评估网络由与所述n个智能体依次对应的n个评估子网络构成，每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述评估网络用于输出对交通状况进行评估的期望值；

S14、将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型。

如上所述，实现了构建所述信号灯动作预测模型。本申请的信号灯动作预测模型共包括了n个智能体、n个决策网络、多头自注意力网络和n个评估子网络，其中n个智能体、n个决策网络和n个评估子网络一一对应。所述多头自注意力网络用于计算除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献，从而使多个智能体互相关联，以使包括多个路口在内的信号灯的关联控制得以实现。

在一个实施方式中，所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型的步骤S14之后，包括：

S141、获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态；

S142、将所述历史动作和历史状态输入所述多头自注意力网络中进行处理，从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献，所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献；

S143、将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中，从而得到所述第i个评估子网络输出的期望值；

S144、根据公式：

对n个评估子网络输出的期望值进行均值处理，得到平均期望值，其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值；

S145、根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数。

如上所述，实现了更新所述信号灯动作预测模型的网络参数。更新所述信号灯动作预测模型的网络参数实际上也是训练所述信号灯动作预测模型的过程。本申请采用第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态作为训练的样本数据，并采用多头自注意力网络计算出其他智能体对第i个智能体的权重贡献，使得训练时不同智能体的网络参数相互关联，在训练完成后能够得到整体更新且适应于整体交通状态改善的多个智能体的网络。

在一个实施方式中，所述根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数的步骤S145,包括：

S1451、以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估子网络输出的平均期望值，S _t为第t个决策时刻所述第i个智能体对应的路口的状态特征，a _t为第t个决策时刻所述第i个智能体的第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第i个智能体的第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。

如上所述，实现了以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数。其中损失函数中使用的奖励R _t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数，是反应了包括所有智能体对应的路口的交通状况的反馈；所述期望值，是所有智能体对应的评估子网络的平均期望值；但是却考虑了第t个决策时刻所述第i个智能体对应的路口的状态特征，即不需担心路口状态的迁移对所述信号灯动作预测模型的影响，仅通过第t个决策时刻所述第i个智能体对应的路口的状态特征即可实现多信号调节的联动，从而减少了计算量，提高了效率。

在一个实施方式中，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤S1之前，包括：

S01、获取当前时间与所述指定路口的图像；

S02、判断所述当前时间是否属于预设的信号灯动作测模型的使用时段；

S03、若所述当前时间属于预设的信号灯动作测模型的使用时段，则分析所述指定路口的图像，从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆；

S04、若所述指定路口的各车道中不存在行驶轮悬空的车辆，则生成采集状态特征的指令，所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。

如上所述，实现了生成采集状态特征的指令。其中，本申请的目的在于判断是否为交通繁忙的时段、是否存在车祸现象，来决定是否使用基于强化学习模型的信号调节模型。若当前时间为午夜，则无需使用信号灯动作测模型，若存在车祸导致交通无法疏导，那么同样无需使用信号灯动作测模型。据此通过判断所述当前时间是否属于预设的信号灯动作测模型的使用时段，以及判断所述指定路口的各车道中是否存在行驶轮悬空的车辆以确定是否生成采集状态特征的指令，进而是否使用所述信号调节模型。更进一步地，还可以包括：分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在面积大于预设面积的红颜色区域；若所述路口的各车道存在面积大于预设面积的红颜色区域，则判断所述红颜色区域的形状是否呈不规则形状；若所述红颜色区域的形状呈不规则形状，则认为出现了车祸，判定不符合预设的信号灯动作测模型的使用条件。其中红颜色区域代表了血液区域，由于一般车祸较少出现大面积的血液区域，因此当存在大面积的血液区域时，判定为重大交通事故，从而进一步确定不符合预设的信号灯动作测模型的使用条件。

在一个实施方式中，所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述根据所述预测动作控制所述信号灯的步骤S3之后，包括：

S31、获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征；

S32、获取下一次采用所述信号灯动作预测模型进行预测时，所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数；

S33、将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中，其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。

如上所述，实现了将指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中。其中所述指定路口的各车道排队长度的平方和的负数即为强化学习模型中的状态对预测动作的奖励。为了防止低频次的相位-决策(即历史动作)被忽视，本申请构建了多个数据块，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中。从而在训练时，从不同的数据块中均抽取相同数量的样本数据进行训练，即可使训练得到的信号灯动作预测模型适用于低频次的相位-决策对应的交通状况，从而使所述信号灯动作预测模型更具鲁棒性。

本申请的基于动作预测模型的信号调节方法，通过预先部署在指定路口的传感器获取指定路口的状态特征；将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

参照图2，本申请实施例提供一种基于动作预测模型的信号调节装置，包括：

状态特征获取单元10，用于通过预先部署在指定路口的传感器获取指定路口的状态特征；

预测动作获取单元20，用于将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

信号调节单元30，用于根据所述预测动作控制所述信号灯。

其中上述单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述传感器为压力传感器，所述压力传感器存在多个，分布于所述指定路口的各个车道的地下或者地面，当所述压力传感器正上方存在车辆时所述压力传感器能够被激活，所述状态特征获取单元10,包括：

位置获取子单元，用于获取被激活的压力传感器的位置；

位置标注子单元，用于在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置，从而得到车辆分布图；

状态特征获取子单元，用于从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度，并将所述车辆分布密度作为所述指定路口的状态特征。

其中上述子单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述装置，包括：

第一决策网络构建单元，用于构建第一决策网络，所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作；

多头自注意力网络构建单元，用于构建多头自注意力网络，所述多头自注意力网络设置有n个输入层和n个输出层，所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出；其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络，其中所述信号灯动作预测模型包括n个智能体；所述n个输出层依次与n个智能体关联，其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献，i为大于等于1且小于等于n的整数；

评估网络构建单元，用于构建评估网络，所述评估网络由与所述n个智能体依次对应的n个评估子网络构成，每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述评估网络用于输出对交通状况进行评估的期望值；

动作预测模型获取单元，用于将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型。

在一个实施方式中，所述装置，包括：

历史动作和历史状态获取单元，用于获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态；

指定权重贡献获取单元，用于将所述历史动作和历史状态输入所述多头自注意力网络中进行处理，从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献，所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献；

期望值获取单元，用于将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中，从而得到所述第i个评估子网络输出的期望值；

平均期望值获取单元，用于根据公式：

网络参数更新单元，用于根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数。

在一个实施方式中，所述网络参数更新单元,包括：

网络参数更新子单元，用于以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

在一个实施方式中，所述装置，包括：

时间与图像获取单元，用于获取当前时间与所述指定路口的图像；

使用时段判断单元，用于判断所述当前时间是否属于预设的信号灯动作测模型的使用时段；

车辆判断单元，用于若所述当前时间属于预设的信号灯动作测模型的使用时段，则分析所述指定路口的图像，从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆；

指令生成单元，用于若所述指定路口的各车道中不存在行驶轮悬空的车辆，则生成采集状态特征的指令，所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。

在一个实施方式中，所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述装置，包括：

第一状态特征获取单元，用于获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征；

第二状态特征获取单元，用于获取下一次采用所述信号灯动作预测模型进行预测时，所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数；

指定数据块存储单元，用于将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中，其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。

本申请的基于动作预测模型的信号调节装置，通过预先部署在指定路口的传感器获取指定路口的状态特征；将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于动作预测模型的信号调节方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于动作预测模型的信号调节方法。

上述处理器执行上述基于动作预测模型的信号调节方法，其中所述方法包括的步骤分别与执行前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，通过预先部署在指定路口的传感器获取指定路口的状态特征；将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

本申请一实施例还提供一种计算机可读存储介质，上述存储介质可以是非易失性存储介质，也可以是易失性存储介质。其上存储有计算机程序，计算机程序被处理器执行时实现基于动作预测模型的信号调节方法，其中所述方法包括的步骤分别与执行前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。

本申请的计算机可读存储介质，通过预先部署在指定路口的传感器获取指定路口的状态特征；将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制，减少了计算量，提高了效率。

Claims

一种基于动作预测模型的信号调节方法，其中，应用于第一智能体，信号灯位于指定路口，包括：

通过预先部署在指定路口的传感器获取指定路口的状态特征；

将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

根据所述预测动作控制所述信号灯。
根据权利要求1所述的基于动作预测模型的信号调节方法，其中，所述传感器为压力传感器，所述压力传感器存在多个，分布于所述指定路口的各个车道的地下或者地面，当所述压力传感器正上方存在车辆时所述压力传感器能够被激活，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤,包括：

获取被激活的压力传感器的位置；

在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置，从而得到车辆分布图；

从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度，并将所述车辆分布密度作为所述指定路口的状态特征。
根据权利要求1所述的基于动作预测模型的信号调节方法，其中，所述将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤之前，包括：

构建第一决策网络，所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作；

构建多头自注意力网络，所述多头自注意力网络设置有n个输入层和n个输出层，所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出；其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络，其中所述信号灯动作预测模型包括n个智能体；所述n个输出层依次与n个智能体关联，其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献，i为大于等于1且小于等于n的整数；

构建评估网络，所述评估网络由与所述n个智能体依次对应的n个评估子网络构成，每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述评估网络用于输出对交通状况进行评估的期望值；

将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型。
根据权利要求3所述的基于动作预测模型的信号调节方法，其中，所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型的步骤之后，包括：

获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态；

将所述历史动作和历史状态输入所述多头自注意力网络中进行处理，从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献，所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献；

将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中，从而得到所述第i个评估子网络输出的期望值；

根据公式：
对n个评估子网络输出的期望值进行均值处理，得到平均期望值，其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值；

根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数。
根据权利要求4所述的基于动作预测模型的信号调节方法，其中，所述根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数的步骤,包括：

以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估子网络输出的平均期望值，S _t为第t个决策时刻所述第i个智能体对应的路口的状态特征，a _t为第t个决策时刻所述第i个智能体的第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第i个智能体的第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。
根据权利要求1所述的基于动作预测模型的信号调节方法，其中，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤之前，包括：

获取当前时间与所述指定路口的图像；

判断所述当前时间是否属于预设的信号灯动作测模型的使用时段；

若所述当前时间属于预设的信号灯动作测模型的使用时段，则分析所述指定路口的图像，从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆；

若所述指定路口的各车道中不存在行驶轮悬空的车辆，则生成采集状态特征的指令，所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。
根据权利要求1所述的基于动作预测模型的信号调节方法，其中，所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述根据所述预测动作控制所述信号灯的步骤之后，包括：

获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征；

获取下一次采用所述信号灯动作预测模型进行预测时，所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数；

将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中，其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。
一种基于动作预测模型的信号调节装置，其中，应用于第一智能体，信号灯位于指定路口，包括：

状态特征获取单元，用于通过预先部署在指定路口的传感器获取指定路口的状态特征；

预测动作获取单元，用于将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

信号调节单元，用于根据所述预测动作控制所述信号灯。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于动作预测模型的信号调节方法的步骤，应用于第一智能体，信号灯位于指定路口，所述方法包括：

通过预先部署在指定路口的传感器获取指定路口的状态特征；

将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

根据所述预测动作控制所述信号灯。
根据权利要求9所述的计算机设备，其中，所述传感器为压力传感器，所述压力传感器存在多个，分布于所述指定路口的各个车道的地下或者地面，当所述压力传感器正上方存在车辆时所述压力传感器能够被激活，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤,包括：

获取被激活的压力传感器的位置；

在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置，从而得到车辆分布图；

从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度，并将所述车辆分布密度作为所述指定路口的状态特征。
根据权利要求9所述的计算机设备，其中，所述将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤之前，包括：

构建第一决策网络，所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作；

构建多头自注意力网络，所述多头自注意力网络设置有n个输入层和n个输出层，所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出；其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络，其中所述信号灯动作预测模型包括n个智能体；所述n个输出层依次与n个智能体关联，其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献，i为大于等于1且小于等于n的整数；

构建评估网络，所述评估网络由与所述n个智能体依次对应的n个评估子网络构成，每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述评估网络用于输出对交通状况进行评估的期望值；

将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型。
根据权利要求11所述的计算机设备，其中，所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型的步骤之后，包括：

获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态；

将所述历史动作和历史状态输入所述多头自注意力网络中进行处理，从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献，所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献；

将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中，从而得到所述第i个评估子网络输出的期望值；

根据公式：
对n个评估子网络输出的期望值进行均值处理，得到平均期望值，其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值；

根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数。
根据权利要求12所述的计算机设备，其中，所述根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数的步骤,包括：

以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估子网络输出的平均期望值，S _t为第t个决策时刻所述第i个智能体对应的路口的状态特征，a _t为第t个决策时刻所述第i个智能体的第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第i个智能体的第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。
根据权利要求9所述的计算机设备，其中，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤之前，包括：

获取当前时间与所述指定路口的图像；

判断所述当前时间是否属于预设的信号灯动作测模型的使用时段；

若所述当前时间属于预设的信号灯动作测模型的使用时段，则分析所述指定路口的图像，从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆；

若所述指定路口的各车道中不存在行驶轮悬空的车辆，则生成采集状态特征的指令，所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。
根据权利要求9所述的计算机设备，其中，所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述根据所述预测动作控制所述信号灯的步骤之后，包括：

获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征；

获取下一次采用所述信号灯动作预测模型进行预测时，所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数；

将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中，其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于动作预测模型的信号调节方法的步骤，应用于第一智能体，信号灯位于指定路口，所述方法包括：

通过预先部署在指定路口的传感器获取指定路口的状态特征；

将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络；

根据所述预测动作控制所述信号灯。
根据权利要求16所述的计算机可读存储介质，其中，所述传感器为压力传感器，所述压力传感器存在多个，分布于所述指定路口的各个车道的地下或者地面，当所述压力传感器正上方存在车辆时所述压力传感器能够被激活，所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤,包括：

获取被激活的压力传感器的位置；

在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置，从而得到车辆分布图；

从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度，并将所述车辆分布密度作为所述指定路口的状态特征。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述状态特征输入预设的第一决策网络中进行处理，得到所述第一决策网络输出的预测动作；其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分，所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤之前，包括：

构建第一决策网络，所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作；

构建多头自注意力网络，所述多头自注意力网络设置有n个输入层和n个输出层，所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出；其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络，其中所述信号灯动作预测模型包括n个智能体；所述n个输出层依次与n个智能体关联，其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献，i为大于等于1且小于等于n的整数；

构建评估网络，所述评估网络由与所述n个智能体依次对应的n个评估子网络构成，每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述评估网络用于输出对交通状况进行评估的期望值；

将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型。
根据权利要求18所述的计算机可读存储介质，其中，所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接，从而获得所述信号灯动作预测模型的步骤之后，包括：

获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态；

将所述历史动作和历史状态输入所述多头自注意力网络中进行处理，从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献，所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献；

将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中，从而得到所述第i个评估子网络输出的期望值；

根据公式：
对n个评估子网络输出的期望值进行均值处理，得到平均期望值，其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值；

根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数。
根据权利要求19所述的计算机可读存储介质，其中，所述根据预设的网络参数更新规则，利用所述平均期望值，更新所述信号灯动作预测模型的网络参数的步骤,包括：

以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估子网络输出的平均期望值，St为第t个决策时刻所述第i个智能体对应的路口的状态特征，at为第t个决策时刻所述第i个智能体的第一预测网络的输出，ω为所述第一目标网络的网络参数，ω-为所述第二目标网络的网络参数，Rt+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第i个智能体的第一目标网络的输出，θ-为所述第一目标网络的网络参数。