WO2022110611A1

WO2022110611A1 - 一种面向平面交叉口的行人过街行为预测方法

Info

Publication number: WO2022110611A1
Application number: PCT/CN2021/086572
Authority: WO
Inventors: 李旭; 胡锦超; 徐启敏; 胡玮明
Original assignee: 东南大学
Priority date: 2020-11-26
Filing date: 2021-04-12
Publication date: 2022-06-02
Also published as: CN112487954B; CN112487954A; US20230410659A1

Abstract

一种面向平面交叉口的行人过街行为预测方法，包括以下步骤：步骤一：设计即时奖励函数；步骤二：建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型预测动作奖励函数；步骤三：基于强化学习训练全卷积神经网络-长短期记忆网络(FCN-LSTM)模型；步骤四：预测行人过街行为及危险预警；该技术方案无需建立复杂的行人运动模型、无需准备海量的带标签数据集，实现自主学习平面交叉口处行人过街行为特征并预测其行走、驻足、快跑等行为，特别是对诱发人车碰撞、擦蹭等危险时行人过街行为的实时预测，对过街行人和来往车辆进行危险预警，有利于减少平面交叉口等重点路段交通事故发生率，保障交通环境中行人的安全。

Description

一种面向平面交叉口的行人过街行为预测方法

技术领域

本发明涉及一种预测方法，具体涉及一种面向平面交叉口的行人过街行为预测方法，属于交通参与者行为建模及预测技术领域。

背景技术

行人作为道路交通的主要参与者，其行为是影响交通安全的重要因素，尤其是在学校出入口、无信号接入口等存在大量过街行为的平面交叉口，行人过街时发生的交通事故数占行人发生交通事故总数近七成。因此，针对平面交叉口处行人过街行为的识别和预测，特别是对诱发人车碰撞、擦蹭等危险时行人过街行为的实时预测，并对过街行人和来往车辆进行危险预警，是构建智能路侧系统的基本要求，也有利于减少平面交叉口等重点路段交通事故发生率，保障交通环境中行人的安全。

目前，主要有两类方法实现对行人过街行为的预测。一类基于模型的方法，如社会力模型、能量函数或者势能场模型、马尔科夫模型，该类模型将行人运动的个性特征、行人与其他交通参与者之间的相互作用转换为社会力、势能场等概念，利用社会力或者势能场的数学解析式构建模型，进而推断行人运动行为；另一类是基于数据驱动的深度学习的方法。如循环神经网络(RNN,recurrent neural network)以及长短期记忆(LSTM,long-short term memory)网络、社会长短期记忆(S-LSTM,social long-short tern memory)网络、生成对抗网络(GAN,generativeadversarial network)、图注意力(GAT,graph attention)网络等。其中循环神经网络(RNN,recurrent neural network)以及长短期记忆(LSTM,long-short term memory)将行人的连续行为看作时间序列，实现了行人行为的序列化预测。在此基础上，社会长短期记忆(S-LSTM,social long-short tern memory)网络模型考虑行人与周围行人的相互依赖性，利用周围行人的不同特征预测行人运动轨迹。基于生成对抗网络(GAN,generativeadversarial network)的模型可生成多条可接受的行人运动轨迹。图注意力(GAT,graph attention)网络模型通过使用图注意力机制增强了行人运动轨迹预测的推理能力。

虽然目前方法在预测行人简单行为及行人间相互影响方面取得很好的效果，但是目前两类方法都需要事先建立行人运动的数学模型或构建大量带标签的数据集。对于平面交叉口这类行人共享空间的环境，行人过街行为既是相互依赖的，同时，受年龄、性别、心理、受教育程度等因素影响，行人过街时个体又存在差异性，存在行走、驻足、快跑等具有一定随机性的行为。对基于模型的方法而言，无法构建明确的数学模型描述平面交叉口行人过街行为。对基于数据驱动的深度学习方法而言，难以获取海量的带标签数据集以提取行人过街行为的相互依赖性及随机性特征。针对目前的基于模型的方法和基于数据驱动的深度学习方法在预测平面交叉口行为过街行为时所存在的难点，需要发明一种平面交叉口行人过街行为预测方法，该方法无需事先建立复杂的行人运动模型、无需准备海量的带标签数据集，该方法能够实现自主学习平面交叉口处行人过街行为特征并预测其行走、驻足、快跑等行为。

发明内容

本发明正是针对现有技术中存在的问题，提供一种面向平面交叉口的行人过街行为预测方法，该技术方案无需建立复杂的行人运动模型、无需准备海量的带标签数据集，实现自主学习平面交叉口处行人过街行为特征并预测其行走、驻足、快跑等行为，特别是对诱发人车碰撞、擦蹭等危险时行人过街行为的实时预测，对过街行人和来往车辆进行危险预警，有利于减少平面交叉口等重点路段交通事故发生率，保障交通环境中行人的安全。

为实现本发明的目的，本发明所采用的技术方案是：数据采集的路侧设备选用毫米波雷达和视觉相机。首先，以改进的将要碰撞时间MTTC作为状态的即时奖励；其次建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型提取行人过街行为的相互依赖及随机性特征，并预测动作奖励函数值；再其次基于强化学习训练全卷积神经网络-长短期记忆网络(FCN-LSTM)模型；最后预测行人过街时行走、快跑、驻足等行为，并对过街行人和来往车辆进行危险预警。本发明的方法具体包括以下步骤：

一种面向平面交叉口的行人过街行为预测方法，步骤一：设计即时奖励函数；

以路侧毫米波雷达当前检测出的改进将要碰撞时间MTTC作为状态的即时奖励r _t。TTC定义车辆冲突仅仅考虑后车比前车的速度快，忽略了很多因加速度或减速度的差异造成的冲突。特别是车辆在平面交叉口遇到过街行人时，车辆刹车减速或者加速通过，此时可能会造成危险。因此，定义一种考虑车辆与行人间的相对位置、相对速度、相对加速度的改进将要碰撞时间MTTC：

其中，ΔX _t表示相对位置，ΔV _t表示相对速度，ΔA _t表示相对加速度，根据ΔX _t、ΔV _t、ΔA _t的正负情况，且使MTTC _t≥0，取公式(1)中±。

如果平面交叉口某一状态内检测到多位行人或者多辆车，则依据公式(1)计算每一位行人与所有车辆间的MTTC，取最小的MTTC作为该行人当前状态的即时奖励r _t。

步骤二：建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型预测动作奖励函数；

考虑到行人行为间的相互依赖关系，这种依赖关系则表现为行人在空间上相互依赖、相互约束，故利用全卷积神经网络FCN实现语义分割，将输入图像中行人从背景中分离出来，保留输入图像中行人的空间信息。同时，考虑行人行为在时间上具有连续性，故利用长短期记忆网络LSTM对行人前向行为信息加以利用。建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型预测行人行为奖励函数值，即向FCN-LSTM模型输入路侧相机拍摄的平面交叉口行人过街图像，FCN-LSTM模型输出行走、快跑、驻足三种离散行为对应的奖励函数值。FCN-LSTM模型具体结构如下：

1)标准卷积层1_1：第一层的输入是原始图像，像素为Q×Q’，通道数为3，用96个11×11的卷积核与原始输入图像做卷积，步长为4，不扩充边缘。将线性整流单元(Rectified Linear Units,ReLU)作为神经元的激活函数，经过ReLU激活，输出维度为

的特征图；

局部响应规范化层1_2：为防止标准卷积层1_1经ReLU激活之后数据过拟合，进行局部响应归一化。

最大池化层1_3：接着连接池化层，对卷积后输出图像进行最大池化，池化层大小为3×3，步长为2，得到第一层的输出特征图，其维度为：

2)标准卷积层2_1：卷积层2的输入为卷积层1的输出特征图，卷积核的个数为256，卷积核大小为：5×5，以padding＝2进行边缘扩充，步长为1。经过ReLU激活，输出维度为

的特征图。

局部响应规范化层2_1：为防止标准卷积层2_1经ReLU激活之后数据过拟合，进行局部响应归一化。

最大池化层2_3：接着连接池化层，对卷积后输出图像进行最大池化，池化层大小为3×3，步长为2，得到第二层的输出特征图，其维度为：

3)标准卷积层3_1：卷积层3的输入为卷积层2的输出特征图，卷积核的个数为384，卷积核大小为：3×3，以padding＝1进行边缘扩充，步长为1，经过ReLU激活，得到第三层的输出特征图，其维度为：

4)标准卷积层4_1：卷积层4的输入为卷积层3的输出特征图，卷积核的个数为384，卷积核大小为：3×3，以padding＝1进行边缘扩充，步长为1，经过ReLU激活，得到第四层的输出特征图，其维度为：

5)标准卷积层5_1：卷积层5的输入为卷积层4的输出特征图，卷积核的个数为256，卷积核大小为：3×3，以padding＝1进行边缘扩充，步长为1。过ReLU激活，输出维度为维度为

的特征图。

最大池化层5_2：接着连接池化层，进行最大池化，池化层大小为3×3，步长为2，得到第五层的输出特征图，其维度为：

6)全卷积层6_1：为允许输入的图片为超过某一尺寸的任意大小。全卷积层6的输入为卷积层5的输出特征图，卷积核的个数为4096，卷积核大小为：1×1，无边缘扩充，步长为1，输出特征图的维度为：

7)全卷积层7_1：全卷积层7的输入为卷积层6的输出特征图，卷积核的个数为4096，卷积核大小为：1×1，无边缘扩充，步长为1，输出特征图的维度为：

8)上采样与跳级结构处理：将全卷积层7_1的输出特征图进行32倍上采样、将标准卷积层4_1的输出特征图进行16倍的上采样，获得与原始输入图像相同尺寸的图像。由于全卷积层7_1的输出特征图过小，细节损失过多，为使全卷积层7_1的输出图像有更丰富的全局信息和更多的局部细节，采用跳级结构。即将全卷积层7_1输出特征图的32倍上采样图像与标准卷积层4_1输出特征图的16倍上采样图像进行相加融合，实现图像全局预测的同时进行局部图像细节的预测，输出Q×Q'分割图像作为下一层的输入。

9)LSTM层：考虑到行人过街行为具有一定的连续性，为利用行人行为在时间上的连续性，故选用LSTM层，输入维度为Q，时间步为Q'，输出维度为3。

10)输出：输出行人在该状态下行走、快跑、驻足三种行为对应的奖励函数值。q(s,行走),q(s,快跑),q(s,驻足)，S表示行人当前状态。由q(s,行走),q(s,快跑),q(s,驻足)组成行为奖励函数预测值q_value＝{q(s,行走),q(s,驻足),q(s,快跑)}。

步骤三：基于强化学习训练全卷积神经网络-长短期记忆网络(FCN-LSTM)模型；

基于强化学习思想训练步骤二建立的FCN-LSTM模型。考虑行人过街时行为具有一定的随机性，在迭代训练过程中，以ξ的概率随机选择行人行走、驻足、快跑行为。以1-ξ的概率贪婪的选择行人行为，即选择步骤二10)输出的行为奖励函数最大值所对应的行为。使得FCN-LSTM模型能够学习到行人过街行为既具有一定目的性，同时不同行人个体又具有一定的随机性的特点。其训练具体步骤如下：

子步骤1：初始化q(s,a)＝0。q(s,a)表示行人的动作价值函数值，其中s表示当前状态，a表示当前的行为，a∈{行走、驻足、快跑}。初始化当前状态s。

子步骤2：执行一步行为。随机生成[0,1]的随机数random，若random＜ξ，则随机选择行人行为，即从行人行为动作集{行走,驻足,快跑}中随机选择一行为；random≥ξ，ξ拟取值0,1，则使用贪婪策略选择行人行为，即从行人行为动作集{行走,驻足,快跑}中使q(s,a)值最大的行为。

子步骤3：更新状态和奖励函数值。行人执行一步行为后，进入新的状态s’，利用步骤一设计的即时奖励函数r _t，并根据式(2)更新奖励函数值。

q(s _t,a _t)←q(s _t,a _t)+α(r _t+γmax _aq(s _t+1,a)-q(s _t,a _t)) (2)

其中，q(s _t,a _t)表示当前状态下动作奖励函数值，t表示时间步，max _aq(s _t+1,a)表示下一状态最大的动作奖励函数值，α表示探索率，α拟取0.1，r _t表示当前状态的即时奖励值，γ表示奖励衰减因子，即后续状态对当前动作的影响逐级递减，γ∈[0,1]，γ拟取值0.95。

子步骤4：取式(2)更新后的q(s _t,a _t)作为真值，取步骤二中FCN-LSTM模型输出的q_value＝{q(s,行走),q(s,驻足),q(s,快跑)}的最大值作为预测值。基于梯度下降方法训练步骤二中建立的FCN-LSTM模型，优化FCN-LSTM模型的权重参数。

子步骤5：重复执行子步骤2、子步骤3、子步骤4，直到s终止，即行人完成过街行为。

步骤四：预测行人过街行为及危险预警；

重复执行步骤三，完成FCN-LSTM模型的多轮训练。向训练完成的FCN-LSTM模型输入部署在平面交叉口路侧的相机图像，FCN-LSTM模型输出q_value＝{q(s,行走),q(s,驻足),q(s,快跑)}，取max{q(s,行走),q(s,驻足),q(s,快跑)}所对应的行为即为本发明预测的平面交叉口行人过街的行为。若根据当前状态，预测行为是行走或快跑时，则向平面交叉口处过街行人发出预警信号，提醒其注意可能发生的危险。

相对于现有技术，本发明具有如下优点，1)该技术方案无需事先建立平面交叉口处行人过街的数学模型、无需事先准备带标签的海量数据集，本发明实现自主学习平面交叉口处行人过街时相互依赖性与随机性特征；2)该技术方案预测出平面交叉口处行人过街时行走、驻足、快跑等行为，并在危险时对过街行人和来往车辆进行预警。

附图说明

图1是本发明整体方案示意图；

图2是具体实施例的测试场景图，其中P表示平面交叉口过街行人，C表示车辆；

图3是本发明实施例测试时行人过街行为预测及危险预警准确率结果图。

具体实施方式

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，行人作为道路交通的主要参与者，其行为是影响交通安全的重要因素，尤其是在学校出入口、无信号接入口等存在大量过街行为的平面交叉口，行人过街时发生的交通事故数占行人发生交通事故总数近七成。因此，针对平面交叉口处行人过街行为的识别和预测，特别是对诱发人车碰撞、擦蹭等危险时行人过街行为的实时预测，并对过街行人和来往车辆进行危险预警，是构建智能路侧系统的基本要求，也有利于减少平面交叉口等重点路段交通事故发生率，保障交通环境中行人的安全。

虽然目前方法在预测行人简单行为及行人间相互影响方面取得很好的效果，但是目前两类方法都需要事先建立行人运动的数学模型或构建大量带标签的数据集。对于平面交叉口这类行人共享空间的环境，行人过街行为既是相互依赖的，同时，受年龄、性别、心理、受教育程度等因素影响，行人过街时个体又存在差异性，存在行走、驻足、快跑等具有一定随机性的行为。对基于模型的方法而言，无法构建明确的数学模型描述平面交叉口行人过街行为。对基于数据驱动的深度学习方法而言，难以获取海量的带标签数据集以提取行人过街行为的相互依赖性及随机性特征。

针对目前的基于模型的方法和基于数据驱动的深度学习方法在预测平面交叉口行为过街行为时所存在的难点，需要发明一种平面交叉口行人过街行为预测方法，该方法无需事先建立复杂的行人运动模型、无需准备海量的带标签数据集，该方法能够实现自主学习平面交叉口处行人过街行为特征并预测其行走、驻足、快跑等行为。

为实现本发明的目的，发明了一种基于深度强化学习的行人过街行为预测方法。本发明数据采集的路侧设备选用毫米波雷达和视觉相机。首先，以改进的将要碰撞时间MTTC作为状态的即时奖励；其次，建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型提取行人过街行为的相互依赖及随机性特征，并预测动作奖励函数值；再其次，基于强化学习训练全卷积神经网络-长短期记忆网络(FCN-LSTM)模型；最后预测行人过街时行走、快跑、驻足等行为，并对过街行人和来往车辆进行危险预警。本发明的方法无需建立复杂的行人运动模型、无需准备海量的带标签数据集，实现自主学习平面交叉口处行人过街行为特征并预测其行走、驻足、快跑等行为，特别是对诱发人车碰撞、擦蹭等危险时行人过街行为的实时预测，对过街行人和来往车辆进行危险预警，有利于减少平面交叉口等重点路段交通事故发生率，保障交通环境中行人的安全。

本发明的方法具体包括以下步骤：

步骤一：设计即时奖励函数；

的特征图；

的特征图。

q(s _t,a _t)←q(s _t,a _t)+α(r _t+γmax _aq(s _t+1,a)-q(s _t,a _t)) (2)

步骤四：预测行人过街行为及危险预警；

为进一步验证本发明的效果，利用智能车与智能交通仿真测试平台prescanv8.5和matlab/simulink 2020a联合仿真平台，构建如附图2所示的平面交叉口场景，数据采集的路侧设备选用毫米波雷达和视觉相机。全卷积神经网络-长短期记忆网络(FCN-LSTM)模型训练完成后，随机改变平面交叉口的行人过街场景，重复测试20次，行人过街行为预测及危险预警准确率如附图3所示。可以看出：本发明方法能够准确地预测出平面交叉口处行人的过街行为。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

一种面向平面交叉口的行人过街行为预测方法，其特征在于，所述方法包括以下步骤：

步骤一：设计即时奖励函数；

步骤二：建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型预测动作奖励函数；

步骤三：基于强化学习训练全卷积神经网络-长短期记忆网络(FCN-LSTM)模型；

步骤四：预测行人过街行为及危险预警。
根据权利要求1所述的面向平面交叉口的行人过街行为预测方法，其特征在于，所述步骤一：设计即时奖励函数，具体如下：

以路侧毫米波雷达当前检测出的改进将要碰撞时间MTTC作为状态的即时奖励r _t，TTC定义车辆冲突仅仅考虑后车比前车的速度快，定义一种考虑车辆与行人间的相对位置、相对速度、相对加速度的改进将要碰撞时间MTTC：

其中，ΔX _t表示相对位置，ΔV _t表示相对速度，ΔA _t表示相对加速度，根据ΔX _t、ΔV _t、ΔA _t的正负情况，且使MTTC _t≥0，取公式(1)中±；

如果平面交叉口某一状态内检测到多位行人或者多辆车，则依据公式(1)计算每一位行人与所有车辆间的MTTC，取最小的MTTC作为该行人当前状态的即时奖励r _t。
根据权利要求2所述的面向平面交叉口的行人过街行为预测方法，其特征在于，所述步骤二：建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型预测动作奖励函数，具体如下：

考虑到行人行为间的相互依赖关系，这种依赖关系则表现为行人在空间上相互依赖、相互约束，故利用全卷积神经网络FCN实现语义分割，将输入图像中行人从背景中分离出来，保留输入图像中行人的空间信息，同时，考虑行人行为在时间上具有连续性，故利用长短期记忆网络LSTM对行人前向行为信息加以利用，建立全卷积神经网络-长短期记忆网络(FCN-LSTM)模型预测行人行为奖励函数值，即向FCN-LSTM模型输入路侧相机拍摄的平面交叉口行人过街图像，FCN-LSTM模型输出行走、快跑、驻足三种离散行为对应的奖励函数值，FCN-LSTM模型具体结构如下：

1)标准卷积层1_1：第一层的输入是原始图像，像素为Q×Q’，通道数为3，用96个11×11的卷积核与原始输入图像做卷积，步长为4，不扩充边缘。将线性整流单元(RectifiedLinear Units,ReLU)作为神经元的激活函数，经过ReLU激活，输出维度为
的特征图；

局部响应规范化层1_2：为防止标准卷积层1_1经ReLU激活之后数据过拟合，进行局部响应归一化；

最大池化层1_3：接着连接池化层，对卷积后输出图像进行最大池化，池化层大小为3×3，步长为2，得到第一层的输出特征图，其维度为：

2)标准卷积层2_1：卷积层2的输入为卷积层1的输出特征图，卷积核的个数为256，卷积核大小为：5×5，以padding＝2进行边缘扩充，步长为1。经过ReLU激活，输出维度为
的特征图；

局部响应规范化层2_1：为防止标准卷积层2_1经ReLU激活之后数据过拟合，进行局部响应归一化；

最大池化层2_3：接着连接池化层，对卷积后输出图像进行最大池化，池化层大小为3×3，步长为2，得到第二层的输出特征图，其维度为：

3)标准卷积层3_1：卷积层3的输入为卷积层2的输出特征图，卷积核的个数为384，卷积核大小为：3×3，以padding＝1进行边缘扩充，步长为1，经过ReLU激活，得到第三层的输出特征图，其维度为：

4)标准卷积层4_1：卷积层4的输入为卷积层3的输出特征图，卷积核的个数为384，卷积核大小为：3×3，以padding＝1进行边缘扩充，步长为1，经过ReLU激活，得到第四层的输出特征图，其维度为：

5)标准卷积层5_1：卷积层5的输入为卷积层4的输出特征图，卷积核的个数为256，卷积核大小为：3×3，以padding＝1进行边缘扩充，步长为1。过ReLU激活，输出维度为维度为
的特征图；

最大池化层5_2：接着连接池化层，进行最大池化，池化层大小为3×3，步长为2，得到第五层的输出特征图，其维度为：

6)全卷积层6_1：为允许输入的图片为超过某一尺寸的任意大小，全卷积层6的输入为卷积层5的输出特征图，卷积核的个数为4096，卷积核大小为：1×1，无边缘扩充，步长为1，输出特征图的维度为：

7)全卷积层7_1：全卷积层7的输入为卷积层6的输出特征图，卷积核的个数为4096，卷积核大小为：1×1，无边缘扩充，步长为1，输出特征图的维度为：

8)上采样与跳级结构处理：将全卷积层7_1的输出特征图进行32倍上采样、将标准卷积层4_1的输出特征图进行16倍的上采样，获得与原始输入图像相同尺寸的图像。由于全卷积层7_1的输出特征图过小，细节损失过多，为使全卷积层7_1的输出图像有更丰富的全局信息和更多的局部细节，采用跳级结构，即将全卷积层7_1输出特征图的32倍上采样图像与标准卷积层4_1输出特征图的16倍上采样图像进行相加融合，实现图像全局预测的同时进行局部图像细节的预测，输出Q×Q'分割图像作为下一层的输入；

9)LSTM层：考虑到行人过街行为具有一定的连续性，为利用行人行为在时间上的连续性，故选用LSTM层，输入维度为Q，时间步为Q'，输出维度为3；

10)输出：输出行人在该状态下行走、快跑、驻足三种行为对应的奖励函数值；q(s,行走),q(s,快跑),q(s,驻足)，S表示行人当前状态，由q(s,行走),q(s,快跑),q(s,驻足)组成行为奖励函数预测值q_value＝{q(s,行走),q(s,驻足),q(s,快跑)}。
根据权利要求3所述的面向平面交叉口的行人过街行为预测方法，其特征在于，步骤三：基于强化学习训练全卷积神经网络-长短期记忆网络(FCN-LSTM)模型，具体如下：

基于强化学习思想训练步骤二建立的FCN-LSTM模型，考虑行人过街时行为具有一定的随机性，在迭代训练过程中，以ξ的概率随机选择行人行走、驻足、快跑行为，以1-ξ的概率贪婪的选择行人行为，即选择步骤二10)输出的行为奖励函数最大值所对应的行为，使得FCN-LSTM模型能够学习到行人过街行为既具有一定目的性，同时不同行人个体又具有一定的随机性的特点，其训练具体步骤如下：

子步骤1：初始化q(s,a)＝0。q(s,a)表示行人的动作价值函数值，其中s表示当前状态，a表示当前的行为，a∈{行走、驻足、快跑}。初始化当前状态s；

子步骤2：执行一步行为，随机生成[0,1]的随机数random，若random＜ξ，则随机选择行人行为，即从行人行为动作集{行走,驻足,快跑}中随机选择一行为；random≥ξ，ξ拟取值0,1，则使用贪婪策略选择行人行为，即从行人行为动作集{行走,驻足,快跑}中使q(s,a)值最大的行为；

子步骤3：更新状态和奖励函数值。行人执行一步行为后，进入新的状态s’，利用步骤一设计的即时奖励函数r _t，并根据式(2)更新奖励函数值；

q(s _t,a _t)←q(s _t,a _t)+α(r _t+γmax _aq(s _t+1,a)-q(s _t,a _t)) (2)

其中，q(s _t,a _t)表示当前状态下动作奖励函数值，t表示时间步，max _aq(s _t+1,a)表示下一状态最大的动作奖励函数值，α表示探索率，α拟取0.1，r _t表示当前状态的即时奖励值，γ表示奖励衰减因子，即后续状态对当前动作的影响逐级递减，γ∈[0,1]，γ拟取值0.95；

子步骤4：取式(2)更新后的q(s _t,a _t)作为真值，取步骤二中FCN-LSTM模型输出的q_value＝{q(s,行走),q(s,驻足),q(s,快跑)}的最大值作为预测值，基于梯度下降方法训练步骤二中建立的FCN-LSTM模型，优化FCN-LSTM模型的权重参数；

子步骤5：重复执行子步骤2、子步骤3、子步骤4，直到s终止，即行人完成过街行为。
根据权利要求3或4所述的面向平面交叉口的行人过街行为预测方法，其特征在于，步骤四：预测行人过街行为及危险预警，重复执行步骤三，完成FCN-LSTM模型的多轮训练，向训练完成的FCN-LSTM模型输入部署在平面交叉口路侧的相机图像，FCN-LSTM模型输出q_value＝{q(s,行走),q(s,驻足),q(s,快跑)}，取max{q(s,行走),q(s,驻足),q(s,快跑)}所对应的行为即为本发明预测的平面交叉口行人过街的行为，若根据当前状态，预测行为是行走或快跑时，则向平面交叉口处过街行人发出预警信号，提醒其注意可能发生的危险。