WO2021051870A1

WO2021051870A1 - 基于强化学习模型的信息控制方法、装置和计算机设备

Info

Publication number: WO2021051870A1
Application number: PCT/CN2020/093432
Authority: WO
Inventors: 魏萍; 吴育人; 王淼石; 庄伯金; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2020-05-29
Publication date: 2021-03-25
Also published as: CN110738860A; CN110738860B

Abstract

一种基于强化学习模型的信息控制方法、装置、计算机设备和存储介质，涉及人工智能领域，方法包括：获取当前时间与信号灯所处路口的图像(S1)；若当前时间与信号灯所处路口的图像符合使用条件，则从信号灯所处路口的图像中提取出指定状态特征(S3)；将指定状态特征输入信号灯动作预测模型中，从而得到预测动作；信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，指定数据结构由多个数据块构成，具有同一信号灯相位和同一预测动作的样本数据被存在同一个数据块中(S4)；根据预测动作控制信号灯(S5)。从而使信号灯的控制更适用于更多的交通状况，更具鲁棒性。

Description

基于强化学习模型的信息控制方法、装置和计算机设备

本申请要求于2019年9月18日提交中国专利局、申请号为201910882718.0，发明名称为“基于强化学习模型的信息控制方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到人工智能领域，特别是涉及到一种基于强化学习模型的信息控制方法、装置、计算机设备和存储介质。

背景技术

随着车辆数目的日益增多，交通拥堵问题日益严重。交通拥堵带来了更多旅行时间、燃料消耗和空气污染等社会问题，迫切的需要解决。智能交通信号灯控制通过调整信号参数来响应交通变化，是一种减少拥塞的有效方式。传统的信号灯控制多采用的是Pre-timed(预先计时)信号灯控制和actuated(激励)交通信号灯控制。Pre-timed信号灯控制通过历史数据，计算一组固定时序的信号灯；该控制方式无法满足波动的交通流量，无法改善拥堵情况。Actuated交通信号灯控制根据交通需求能够调整信号灯时长，但无法提供实时的优化。因此基于强化学习的信号灯控制方法能够改善交通状况，但是发明人意识到，普通的强化学习模型训练时采用的是普通结构的存储结构的训练样本，即将状态(交通状况)和动作(是否执行信号灯切换，如何切换)不加区分的存在一起，则存储的数据中多为比较集中存储的相位和决策。在学习过程中，将会更多的关注高频次相位-决策组合，而忽视低频次相位-决策组合。这会使得在低频次相位-决策组合中，做出错误决策。使得自适应红绿灯控制性能降低。

技术问题

本申请的主要目的为提供一种基于强化学习模型的信息控制方法、装置、计算机设备和存储介质，旨在提高信号灯控制的适应性，从而具有更好的鲁棒性。

技术解决方案

为了实现上述目的，本申请提出一种基于强化学习模型的信息控制方法，包括以下步骤：

获取当前时间与信号灯所处路口的图像；

判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

根据所述预测动作控制所述信号灯。

本申请提供一种基于强化学习模型的信息控制装置，包括：

图像获取单元，用于获取当前时间与信号灯所处路口的图像；

使用条件判断单元，用于判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

状态特征提取单元，用于若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

预测动作获取单元，用于将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

信号灯控制单元，用于根据所述预测动作控制所述信号灯。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于强化学习模型的信息控制方法，包括以下步骤：

获取当前时间与信号灯所处路口的图像；

根据所述预测动作控制所述信号灯。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于强化学习模型的信息控制方法，包括以下步骤：

获取当前时间与信号灯所处路口的图像；

根据所述预测动作控制所述信号灯。

有益效果

本申请的基于强化学习模型的信息控制方法、装置、计算机设备和存储介质，获取当前时间与信号灯所处路口的图像；若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；根据所述预测动作控制所述信号灯。从而使信号灯的控制更适用于更多的交通状况，更具鲁棒性。

附图说明

图1为本申请一实施例的基于强化学习模型的信息控制方法的流程示意图；

图2为本申请一实施例的基于强化学习模型的信息控制装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请的最佳实施方式

参照图1，本申请实施例提供一种基于强化学习模型的信息控制方法，包括以下步骤：

S1、获取当前时间与信号灯所处路口的图像；

S2、判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

S3、若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

S4、将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

S5、根据所述预测动作控制所述信号灯。

本申请涉及的基于强化学习模型的信息控制方法，针对的是单个信号灯的控制，即对某个路口的单灯号灯进行控制，因此本申请中所述信号灯均是同一个信号灯。

如上述步骤S1所述，获取当前时间与信号灯所处路口的图像。其中所述信号灯指红绿灯，也可以为红黄绿灯。所述信号信所处路口的图像可以为整张能够反应整个路口的交通状况的图像，也可以通过多张分别反应所述路口的一部分交通状况的图像(例如所述路口的一个车道路的图像)以综合反应整个路口的交通状况的图像。相应地，所述信号灯所处路口的图像可以由一个图像采集装置获取，也可以由多个图像采集装置获取。其中，所述信号灯是用于指导所处路口的交通状况，因此一般包括在所处路口设置的多个信号灯。

如上述步骤S2所述，判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件。由于强化学习模型是为了改善交通状况，而若路口的交通状况并不需要改善(例如午夜时分，车少，不存在拥堵的可能)，或者路口的交通状况已经不可能改善了(例如车祸导致的某车道阻塞，则需要交警疏导)，那就无需使用强化学习模型的信号灯控制方法。具体的判断过程例如为：判断所述当前时间是否属于预设的信号灯动作预测模型的使用时段；若所述当前时间属于预设的信号灯动作预测模型的使用时段，则分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在行驶轮悬空的车辆；若所述路口的各车道中不存在行驶轮悬空的车辆，则判定所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件。

如上述步骤S3所述，若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征。若符合使用条件，则以所述信号灯所处路口的图像作为本申请的基于强化学习模型的信息控制方法决定相应动作的基础。据此从所述信号灯所处路口的图像中提取出指定状态特征，其中提取出指定状态特征的过程例如为：根据预设的图像特征获取方法，从所述信号灯所处路口的图像中提取出指定图像特征，其中所述指定图像特征至少包括多个车道的区域截图；分析所述信号灯所处路口的图像，从而得到指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率；获取所述路口指示各车道的各信号灯的当前相位；将所述指定图像特征、所述指定数字特征和所述当前相位记为所述指定状态特征。进一步地，所述指定数据特征的获取方式还可以包括：利用预测的传感器(例如红外传感器、激光传感器等)，获取指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率。

如上述步骤S4所述，将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类。相对于普通的强化学习模型，本申请采用了具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类。所述信号灯相位根据信号灯的不同而不同，例如对于红绿两颜色的信号灯，其相位为红或绿；对于红黄绿灯而言，其相位为红或黄或绿；对于更多颜色的信号灯，其相位也更多。从而使得在训练所述信号灯动作预测模型时，不会忽视低频次相位-决策组合，从而在遇见一些特殊的路口状态时(即低频次相位-决策对应的状态)，仍能有效疏导交通。具体获取所述预测动作的过程例如为：将所述指定状态特征输入所述信号灯动作预测模型中，并利用所述隐藏层对所述指定状态特征进行处理，从而获得最后一层隐藏层输出的多个初始预测动作对应的隐藏值；采用公式：

计算得到预测概率值，其中y(action _i)为第i个所述初始预测动作对应的预测概率值，action _i为第i个所述初始预测动作对应的隐藏值，共有Na个初始预测动作；获取多个预测概率值中数值最大的指定预测概率值，将所述指定预测概率值对应的初始预测动作记为最终预测动作，并输出所述最终预测动作。

如上述步骤S5所述，根据所述预测动作控制所述信号灯。其中所述预测动作例如为是否切换信号灯，应该如何切换信号灯，若不切换信号灯则应保持当前相位多少时间等。由于预测动作被视为能最有效疏导交通，因此根据所述预测动作控制所述信号灯，即可实现基于强化学习模型的信息控制。

在一个实施方式中，所述判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件的步骤S2,包括：

S201、判断所述当前时间是否属于预设的信号灯动作预测模型的使用时段；

S202、若所述当前时间属于预设的信号灯动作预测模型的使用时段，则分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在行驶轮悬空的车辆；

S203、若所述路口的各车道中不存在行驶轮悬空的车辆，则判定所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件。

如上所述，实现了判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件。其中，本申请的目的在于判断是否为交通繁忙的时段、是否存在车祸现象，来决定是否使用基于强化学习模型的信息控制模型。具体地，若所述当前时间属于预设的信号灯动作预测模型的使用时段，并且所述路口的各车道中不存在行驶轮悬空的车辆，则表明符合预设的信号灯动作预测模型的使用条件。更进一步地，判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件还可以包括：分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在面积大于预设面积的红颜色区域；若所述路口的各车道存在面积大于预设面积的红颜色区域，则判断所述红颜色区域的形状是否呈不规则形状；若所述红颜色区域的形状呈不规则形状，则认为出现了车祸，判定不符合预设的信号灯动作预测模型的使用条件。其中红颜色区域代表了血液区域，由于一般车祸较少出现大面积的血液区域，因此当存在大面积的血液区域时，判定为重大交通事故，从而进一步确定不符合预设的信号灯动作预测模型的使用条件。

在一个实施方式中，所述从所述信号灯所处路口的图像中提取出指定状态特征的步骤S3,包括：

S301、根据预设的图像特征获取方法，从所述信号灯所处路口的图像中提取出指定图像特征，其中所述指定图像特征至少包括多个车道的区域截图；

S302、分析所述信号灯所处路口的图像，从而得到指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率；

S303、获取所述路口指示各车道的各信号灯的当前相位；

S304、将所述指定图像特征、所述指定数字特征和所述当前相位记为所述指定状态特征。

如上所述，实现了从所述信号灯所处路口的图像中提取出指定状态特征。本申请以指定图像特征、指定数字特征和各信号灯的当前相位作为指定状态特征，将其作为所述信号灯动作预测模型的计算根据。本申请将图像特征与数字特征分离开来，使得后续信号灯动作预测模型更具有针对性，从而获得更准确的处理结果。进一步地，所述指定图像特征可为任意图像特征，例如为指定区域的截图，或者为进行灰度化处理后的所述路口的图像，或者为拆分为多个能反应多个车道交通状态的分图等等。后续可以采用卷积层对所述指定图像特征进行处理。据此，从所述信号灯所处路口的图像中提取出指定状态特征，而所述指定状态特征能够有效反应当前的交通状态。其中，所述各车道的车辆数、各车道排队长度可通过图像识别方法，识别所述信号灯所处路口的图像而得到。所述车道占有率可通过任意方式获取，例如采用公式：车道占有率＝[(第一车辆占据时间×第一车辆的长度)+(第二车辆占据时间×第二车辆的长度)+...+(最后车辆占据时间×最后车辆的长度)]/(车道长度×总时间)，计算得到车道占有率。其中所述车辆占据时间(即车辆进入车道与离开车道时的时间差，也即获取对应的两张图像的时间差)与所述车辆的长度均可通过分析所述信号灯所处路口的图像以获得。

在一个实施方式中，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类的步骤S4之前，包括：

S31、获取所述信号灯的多个历史数据，每个历史数据均包括所述信号灯在同一时间下的历史相位、历史动作、历史状态、历史奖励和下一个历史状态；

S32、生成多个数据块P11,P12,…,Pik,…,Pmn，其中数据块P11存有具有历史相位被编号为1和历史动作被编号为1的历史数据，数据块P12存有具有历史相位被编号为1和历史动作被编号为2的历史数据，数据块Pik存有具有历史相位被编号为i和历史动作被编号为k的历史数据,数据块Pmn存有具有历史相位被编号为m和历史动作被编号为n的历史数据，其中所述历史相位共具有m个编号，所述历史动作共具有n个编号，i为小于m的正整数，k为小于n的正整数；

S33、将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构。

如上所述，实现了构建具有指定数据结构的样本数据。为了防止低频次的相位-决策(即历史动作)被忽视，本申请构建了多个数据块P11,P12,…,Pik,…,Pmn，将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构。其中，由于同一数据块中的数据具有相同历史相位编号和相同的历史动作编号，因此低频次的相位-决策被标注了出来，以与其他数据块等同身份视之。在训练的过程中，由于存在所述多个数据块，因此能够通过挑选训练样本的方式使得低频次的相位-决策对应的样本数据量占总的训练样本的比重与其他的相位-决策所占的比重相近或相同，从而使训练得到的信号灯动作预测模型在低频次的相位-决策对应的交通状态中也能胜任，以有效疏导交通。

在一个实施方式中，所述将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构的步骤S33之后，包括：

S331、根据预设的样本提取规则，从所述多个数据块P11,P12,…,Pik,…,Pmn中均分别提取出指定数量的训练用历史数据；

S332、根据预设的多轮次训练顺序，使用所述训练用历史数据对基于强化学习模型的信号灯动作预测模型进行训练，并采用梯度下降方式更新所述信号灯动作预测模型的网络参数，其中所述多轮次训练顺序的轮次数量与所述指定数量相同，每一轮次训练使用的训练用历史数据均来源于不同的数据块。

如上所述，实现了训练所述信号灯动作预测模型。其中所述信号灯动作预测模型的网络参数，例如包括决策网络和评估网络中的网络参数(所述信号灯动作预测模型包括决策网络和评估网络)，例如采用以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为(其中所述信号灯动作预测模型包括决策网络和评估网络，所述决策网络包括具有相同网络结构但网络参数不同的第一预测网络和第一目标网络，所述评估网络包括具有相同网络结构但网络参数不同的第二预测网络和第二目标网络)：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估网络输出的期望值，S _t为第t个决策时刻所述信号灯所处路口的状态特征，a _t为第t个决策时刻所述第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所述信号灯所处路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。因此对应地，更新的网络参数包括上述第一目标网络的网络参数ω等。本申请通过从所述多个数据块P11,P12,…,Pik,…,Pmn中均分别提取出指定数量的训练用历史数据的方式，使不同数据块提供的训练样本数据均相同，均为指定数据，从而保证了训练得到的信号灯动作预测模型适用于所有交通状况。并且采用多轮次训练顺序的方式，使训练的过程更加均匀，以进一步保证训练得到的信号灯动作预测模型适用于所有交通状况。其中，每一轮次训练使用的训练用历史数据均来源于不同的数据块，也即是说，每一轮次的训练，均使用来自第一个数据块中的样本数据，…，直至来自最后一个数据块中的样本数据。其中所述预设的样本提取规则可为任意规则，只需保证提取得到的数量为指定数量即可，例如采用对奇数编号排名靠前指定数量的数据进行提取的方式。

在一个实施方式中，所述信号灯动作预测模型包括决策网络，所述决策网络包括多个隐藏层，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作的步骤S4,包括：

S401、将所述指定状态特征输入所述信号灯动作预测模型中，并利用所述隐藏层对所述指定状态特征进行处理，从而获得最后一层隐藏层输出的多个初始预测动作对应的隐藏值；

S402、采用公式：

计算得到预测概率值，其中y(action _i)为第i个所述初始预测动作对应的预测概率值，action _i为第i个所述初始预测动作对应的隐藏值，共有Na个初始预测动作；

S403、获取多个预测概率值中数值最大的指定预测概率值，将所述指定预测概率值对应的初始预测动作记为最终预测动作，并输出所述最终预测动作。

如上所述，实现了将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作。本申请采用多个隐藏层以获取多个初始预测动作对应的隐藏值，据此再计算得到对应的预测概率值，其中预测概率值反应了对应的初始预测动作符合当前的交通状况的程度，因此将多个预测概率值中数值最大的值记为指定预测概率值，将所述指定预测概率值对应的初始预测动作记为最终预测动作，并输出所述最终预测动作。例如不切换信号灯的预测概率值为80％，而其他动作对应的预测概率值之和仅为20％，因此将输出不切换信号灯的预测动作。

在一个实施方式中，所述信号灯动作预测模型包括决策网络和评估网络，所述决策网络包括具有相同网络结构但网络参数不同的第一预测网络和第一目标网络，所述评估网络包括具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述根据所述预测动作控制所述信号灯的步骤S5之后，包括：

S51、以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估网络输出的期望值，S _t为第t个决策时刻所述信号灯所处路口的状态特征，a _t为第t个决策时刻所述第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所述信号灯所处路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。

如上所述，实现了以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数。本申请采用的信号灯动作预测模型包括决策网络和评估网络，所述决策网络包括具有相同网络结构但网络参数不同的第一预测网络和第一目标网络，所述评估网络包括具有相同网络结构但网络参数不同的第二预测网络和第二目标网络。其中所述第一预测网络用于预测并输出预测的动作，以满足交通控制的需要。但由于强化学习的本质是试错，因此需要有其他的方法以反馈并修正。本申请则采用第一目标网络、第二预测网络和第二目标网络以反馈并修正网络参数，具体通过采用最小化预设的损失函数的形式，并采用反向传递法进行更新，其中所述损失函数的公式为：

参照图2，本申请实施例提供一种基于强化学习模型的信息控制装置，包括：

图像获取单元10，用于获取当前时间与信号灯所处路口的图像；

使用条件判断单元20，用于判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

状态特征提取单元30，用于若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

预测动作获取单元40，用于将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

信号灯控制单元50，用于根据所述预测动作控制所述信号灯。

其中上述单元分别用于执行的操作与前述实施方式的基于强化学习模型的信息控制方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述使用条件判断单元20,包括：

使用时段判断子单元，用于判断所述当前时间是否属于预设的信号灯动作预测模型的使用时段；

车辆判断子单元，用于若所述当前时间属于预设的信号灯动作预测模型的使用时段，则分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在行驶轮悬空的车辆；

使用条件判定子单元，用于若所述路口的各车道中不存在行驶轮悬空的车辆，则判定所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件。

其中上述子单元分别用于执行的操作与前述实施方式的基于强化学习模型的信息控制方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述状态特征提取单元30,包括：

指定图像特征获取子单元，用于根据预设的图像特征获取方法，从所述信号灯所处路口的图像中提取出指定图像特征，其中所述指定图像特征至少包括多个车道的区域截图；

指定数字特征获取子单元，用于分析所述信号灯所处路口的图像，从而得到指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率；

当前相位获取子单元，用于获取所述路口指示各车道的各信号灯的当前相位；

指定状态特征获取子单元，用于将所述指定图像特征、所述指定数字特征和所述当前相位记为所述指定状态特征。

在一个实施方式中，所述装置，包括：

历史数据获取单元，用于获取所述信号灯的多个历史数据，每个历史数据均包括所述信号灯在同一时间下的历史相位、历史动作、历史状态、历史奖励和下一个历史状态；

数据块生成单元，用于生成多个数据块P11,P12,…,Pik,…,Pmn，其中数据块P11存有具有历史相位被编号为1和历史动作被编号为1的历史数据，数据块P12存有具有历史相位被编号为1和历史动作被编号为2的历史数据，数据块Pik存有具有历史相位被编号为i和历史动作被编号为k的历史数据,数据块Pmn存有具有历史相位被编号为m和历史动作被编号为n的历史数据，其中所述历史相位共具有m个编号，所述历史动作共具有n个编号，i为小于m的正整数，k为小于n的正整数；

指定数据结构构成单元，用于将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构。

在一个实施方式中，所述装置，包括：

训练用历史数据提取单元，用于根据预设的样本提取规则，从所述多个数据块P11,P12,…,Pik,…,Pmn中均分别提取出指定数量的训练用历史数据；

多轮次训练单元，用于根据预设的多轮次训练顺序，使用所述训练用历史数据对基于强化学习模型的信号灯动作预测模型进行训练，并采用梯度下降方式更新所述信号灯动作预测模型的网络参数，其中所述多轮次训练顺序的轮次数量与所述指定数量相同，每一轮次训练使用的训练用历史数据均来源于不同的数据块。

在一个实施方式中，所述信号灯动作预测模型包括决策网络，所述决策网络包括多个隐藏层，所述预测动作获取单元40,包括：

隐藏值获取子单元，用于将所述指定状态特征输入所述信号灯动作预测模型中，并利用所述隐藏层对所述指定状态特征进行处理，从而获得最后一层隐藏层输出的多个初始预测动作对应的隐藏值；

预测概率值获取子单元，用于采用公式：

最终预测动作输出子单元，用于获取多个预测概率值中数值最大的指定预测概率值，将所述指定预测概率值对应的初始预测动作记为最终预测动作，并输出所述最终预测动作。

在一个实施方式中，所述信号灯动作预测模型包括决策网络和评估网络，所述决策网络包括具有相同网络结构但网络参数不同的第一预测网络和第一目标网络，所述评估网络包括具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述装置，包括：

网络参数更新单元，用于以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于强化学习模型的信息控制方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习模型的信息控制方法。

上述处理器执行上述基于强化学习模型的信息控制方法，其中所述方法包括的步骤分别与执行前述实施方式的基于强化学习模型的信息控制方法的步骤一一对应,在此不再赘述。所述信息控制方法包括：获取当前时间与信号灯所处路口的图像；判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；根据所述预测动作控制所述信号灯。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于强化学习模型的信息控制方法，所述存储介质为易失性存储介质或非易失性存储介质，其中所述方法包括的步骤分别与执行前述实施方式的基于强化学习模型的信息控制方法的步骤一一对应,在此不再赘述。所述信息控制方法包括：获取当前时间与信号灯所处路口的图像；判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；根据所述预测动作控制所述信号灯。

Claims

一种基于强化学习模型的信息控制方法，其中，包括：

获取当前时间与信号灯所处路口的图像；

判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

根据所述预测动作控制所述信号灯。
根据权利要求1所述的基于强化学习模型的信息控制方法，其中，所述判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件的步骤,包括：

判断所述当前时间是否属于预设的信号灯动作预测模型的使用时段；

若所述当前时间属于预设的信号灯动作预测模型的使用时段，则分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在行驶轮悬空的车辆；

若所述路口的各车道中不存在行驶轮悬空的车辆，则判定所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件。
根据权利要求1所述的基于强化学习模型的信息控制方法，其中，所述从所述信号灯所处路口的图像中提取出指定状态特征的步骤,包括：

根据预设的图像特征获取方法，从所述信号灯所处路口的图像中提取出指定图像特征，其中所述指定图像特征至少包括多个车道的区域截图；

分析所述信号灯所处路口的图像，从而得到指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率；

获取所述路口指示各车道的各信号灯的当前相位；

将所述指定图像特征、所述指定数字特征和所述当前相位记为所述指定状态特征。
根据权利要求1所述的基于强化学习模型的信息控制方法，其中，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类的步骤之前，包括：

获取所述信号灯的多个历史数据，每个历史数据均包括所述信号灯在同一时间下的历史相位、历史动作、历史状态、历史奖励和下一个历史状态；

生成多个数据块P11,P12,…,Pik,…,Pmn，其中数据块P11存有具有历史相位被编号为1和历史动作被编号为1的历史数据，数据块P12存有具有历史相位被编号为1和历史动作被编号为2的历史数据，数据块Pik存有具有历史相位被编号为i和历史动作被编号为k的历史数据,数据块Pmn存有具有历史相位被编号为m和历史动作被编号为n的历史数据，其中所述历史相位共具有m个编号，所述历史动作共具有n个编号，i为小于m的正整数，k为小于n的正整数；

将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构。
根据权利要求4所述的基于强化学习模型的信息控制方法，其中，所述将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构的步骤之后，包括：

根据预设的样本提取规则，从所述多个数据块P11,P12,…,Pik,…,Pmn中均分别提取出指定数量的训练用历史数据；

根据预设的多轮次训练顺序，使用所述训练用历史数据对基于强化学习模型的信号灯动作预测模型进行训练，并采用梯度下降方式更新所述信号灯动作预测模型的网络参数，其中所述多轮次训练顺序的轮次数量与所述指定数量相同，每一轮次训练使用的训练用历史数据均来源于不同的数据块。
根据权利要求1所述的基于强化学习模型的信息控制方法，其中，所述信号灯动作预测模型包括决策网络，所述决策网络包括多个隐藏层，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作的步骤,包括：

将所述指定状态特征输入所述信号灯动作预测模型中，并利用所述隐藏层对所述指定状态特征进行处理，从而获得最后一层隐藏层输出的多个初始预测动作对应的隐藏值；

采用公式：
计算得到预测概率值，其中y(action _i)为第i个所述初始预测动作对应的预测概率值，action _i为第i个所述初始预测动作对应的隐藏值，共有Na个初始预测动作；

获取多个预测概率值中数值最大的指定预测概率值，将所述指定预测概率值对应的初始预测动作记为最终预测动作，并输出所述最终预测动作。
根据权利要求1所述的基于强化学习模型的信息控制方法，其中，所述信号灯动作预测模型包括决策网络和评估网络，所述决策网络包括具有相同网络结构但网络参数不同的第一预测网络和第一目标网络，所述评估网络包括具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述根据所述预测动作控制所述信号灯的步骤之后，包括：

以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中 Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估网络输出的期望值，S _t为第t个决策时刻所述信号灯所处路口的状态特征，a _t为第t个决策时刻所述第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所述信号灯所处路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。
一种基于强化学习模型的信息控制装置，其中，包括：

图像获取单元，用于获取当前时间与信号灯所处路口的图像；

使用条件判断单元，用于判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

状态特征提取单元，用于若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

预测动作获取单元，用于将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

信号灯控制单元，用于根据所述预测动作控制所述信号灯。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于强化学习模型的信息控制方法，所述方法包括：

获取当前时间与信号灯所处路口的图像；

判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

根据所述预测动作控制所述信号灯。
根据权利要求9所述的计算机设备，其中，所述判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件的步骤,包括：

判断所述当前时间是否属于预设的信号灯动作预测模型的使用时段；

若所述当前时间属于预设的信号灯动作预测模型的使用时段，则分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在行驶轮悬空的车辆；

若所述路口的各车道中不存在行驶轮悬空的车辆，则判定所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件。
根据权利要求9所述的计算机设备，其中，所述从所述信号灯所处路口的图像中提取出指定状态特征的步骤,包括：

根据预设的图像特征获取方法，从所述信号灯所处路口的图像中提取出指定图像特征，其中所述指定图像特征至少包括多个车道的区域截图；

分析所述信号灯所处路口的图像，从而得到指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率；

获取所述路口指示各车道的各信号灯的当前相位；

将所述指定图像特征、所述指定数字特征和所述当前相位记为所述指定状态特征。
根据权利要求9所述的计算机设备，其中，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类的步骤之前，包括：

获取所述信号灯的多个历史数据，每个历史数据均包括所述信号灯在同一时间下的历史相位、历史动作、历史状态、历史奖励和下一个历史状态；

生成多个数据块P11,P12,…,Pik,…,Pmn，其中数据块P11存有具有历史相位被编号为1和历史动作被编号为1的历史数据，数据块P12存有具有历史相位被编号为1和历史动作被编号为2的历史数据，数据块Pik存有具有历史相位被编号为i和历史动作被编号为k的历史数据,数据块Pmn存有具有历史相位被编号为m和历史动作被编号为n的历史数据，其中所述历史相位共具有m个编号，所述历史动作共具有n个编号，i为小于m的正整数，k为小于n的正整数；

将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构。
根据权利要求12所述的计算机设备，其中，所述将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构的步骤之后，包括：

根据预设的样本提取规则，从所述多个数据块P11,P12,…,Pik,…,Pmn中均分别提取出指定数量的训练用历史数据；

根据预设的多轮次训练顺序，使用所述训练用历史数据对基于强化学习模型的信号灯动作预测模型进行训练，并采用梯度下降方式更新所述信号灯动作预测模型的网络参数，其中所述多轮次训练顺序的轮次数量与所述指定数量相同，每一轮次训练使用的训练用历史数据均来源于不同的数据块。
根据权利要求9所述的计算机设备，其中，所述信号灯动作预测模型包括决策网络，所述决策网络包括多个隐藏层，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作的步骤,包括：

将所述指定状态特征输入所述信号灯动作预测模型中，并利用所述隐藏层对所述指定状态特征进行处理，从而获得最后一层隐藏层输出的多个初始预测动作对应的隐藏值；

采用公式：
计算得到预测概率值，其中y(action _i)为第i个所述初始预测动作对应的预测概率值，action _i为第i个所述初始预测动作对应的隐藏值，共有Na个初始预测动作；

获取多个预测概率值中数值最大的指定预测概率值，将所述指定预测概率值对应的初始预测动作记为最终预测动作，并输出所述最终预测动作。
根据权利要求9所述的计算机设备，其中，所述信号灯动作预测模型包括决策网络和评估网络，所述决策网络包括具有相同网络结构但网络参数不同的第一预测网络和第一目标网络，所述评估网络包括具有相同网络结构但网络参数不同的第二预测网络和第二目标网络，所述根据所述预测动作控制所述信号灯的步骤之后，包括：

以最小化预设的损失函数的形式，并采用反向传递法，更新所述信号灯动作预测模型中的网络参数，其中所述损失函数的公式为：

其中Loss为损失函数，共有N个决策时刻，t指第t个决策时刻，Q为所述评估网络输出的期望值，S _t为第t个决策时刻所述信号灯所处路口的状态特征，a _t为第t个决策时刻所述第一预测网络的输出，ω为所述第一目标网络的网络参数，ω ^-为所述第二目标网络的网络参数，R _t+1为第t+1个决策时刻所述信号灯所处路口的各车道排队长度的平方和的负数，γ为预设参数，π为所述第一目标网络的输出，θ ^-为所述第一目标网络的网络参数。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于强化学习模型的信息控制方法，所述方法包括：

获取当前时间与信号灯所处路口的图像；

判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件；

若所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件，则从所述信号灯所处路口的图像中提取出指定状态特征；

将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类；

根据所述预测动作控制所述信号灯。
根据权利要求16所述的计算机可读存储介质，其中，所述判断所述当前时间与所述信号灯所处路口的图像是否符合预设的信号灯动作预测模型的使用条件的步骤,包括：

判断所述当前时间是否属于预设的信号灯动作预测模型的使用时段；

若所述当前时间属于预设的信号灯动作预测模型的使用时段，则分析所述信号灯所处路口的图像，从而判断所述路口的各车道中是否存在行驶轮悬空的车辆；

若所述路口的各车道中不存在行驶轮悬空的车辆，则判定所述当前时间与所述信号灯所处路口的图像符合预设的信号灯动作预测模型的使用条件。
根据权利要求16所述的计算机可读存储介质，其中，所述从所述信号灯所处路口的图像中提取出指定状态特征的步骤,包括：

根据预设的图像特征获取方法，从所述信号灯所处路口的图像中提取出指定图像特征，其中所述指定图像特征至少包括多个车道的区域截图；

分析所述信号灯所处路口的图像，从而得到指定数字特征，其中所述指定数字特征至少包括各车道的车辆数、各车道排队长度和各车道占有率；

获取所述路口指示各车道的各信号灯的当前相位；

将所述指定图像特征、所述指定数字特征和所述当前相位记为所述指定状态特征。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述指定状态特征输入所述信号灯动作预测模型中，得到所述信号灯动作预测模型输出的预测动作；其中，所述信号灯动作预测模型基于强化学习模型并通过具有指定数据结构的样本数据训练得到的，所述指定数据结构由多个数据块构成，其中，具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中，所述信号灯相位指信号灯可显示的颜色种类的步骤之前，包括：

获取所述信号灯的多个历史数据，每个历史数据均包括所述信号灯在同一时间下的历史相位、历史动作、历史状态、历史奖励和下一个历史状态；

生成多个数据块P11,P12,…,Pik,…,Pmn，其中数据块P11存有具有历史相位被编号为1和历史动作被编号为1的历史数据，数据块P12存有具有历史相位被编号为1和历史动作被编号为2的历史数据，数据块Pik存有具有历史相位被编号为i和历史动作被编号为k的历史数据,数据块Pmn存有具有历史相位被编号为m和历史动作被编号为n的历史数据，其中所述历史相位共具有m个编号，所述历史动作共具有n个编号，i为小于m的正整数，k为小于n的正整数；

将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构。
根据权利要求19所述的计算机可读存储介质，其中，所述将所述多个数据块P11,P12,…,Pik,…,Pmn构成所述指定数据结构的步骤之后，包括：

根据预设的样本提取规则，从所述多个数据块P11,P12,…,Pik,…,Pmn中均分别提取出指定数量的训练用历史数据；

根据预设的多轮次训练顺序，使用所述训练用历史数据对基于强化学习模型的信号灯动作预测模型进行训练，并采用梯度下降方式更新所述信号灯动作预测模型的网络参数，其中所述多轮次训练顺序的轮次数量与所述指定数量相同，每一轮次训练使用的训练用历史数据均来源于不同的数据块。