WO2023083347A1

WO2023083347A1 - 预测型智能汽车决策控制方法、装置、车辆及存储介质

Info

Publication number: WO2023083347A1
Application number: PCT/CN2022/131722
Authority: WO
Inventors: 郑四发; 谷子青; 马海铜; 李升波; 王建强; 许庆
Original assignee: 清华大学
Priority date: 2021-11-15
Filing date: 2022-11-14
Publication date: 2023-05-19
Also published as: CN114084155B; US20240149920A1; CN114084155A

Abstract

一种预测型智能汽车决策控制方法、装置、车辆及存储介质，方法包括：基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对预测模型进行参数初始化，生成初始周车运动预测模型；以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新初始周车运动预测模型，生成最终周车运动预测模型；将最终周车运动预测模型嵌入智能汽车的决策控制系统，使得决策控制系统根据最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制智能汽车执行决策控制指令，从而通过迭代模型驱动的自进化式策略评估与策略提升过程，实现智能车辆预测模型最优策略求解方案。

Description

预测型智能汽车决策控制方法、装置、车辆及存储介质

相关申请的交叉引用

本申请基于申请号为202111349214.6，申请日为2021年11月15日申请的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及自动驾驶的应用技术领域，特别涉及一种预测型智能汽车决策控制方法、装置、车辆及存储介质。

背景技术

交通环境的动态性、复杂性和交通参与者间的交互性给智能汽车的决策控制系统带来了巨大的挑战。其中，交通参与者运动趋势的不确定性(例如：未来可能的轨迹或意图)对于智能汽车的决策控制结果有着不容忽视的影响。因此，准确预测周围交通参与者的运动趋势，对于动态交通环境下智能汽车的决策控制具有重要意义。

相关技术中，往往将预测过程和决策控制过程分解，构成“预测-决策控制”开环型方案。其次，先前的方法大多通过光栅化地图信息的编码方式，依靠感受野或者记忆力机制捕捉空间或时间维度的信息，获得概率意义下多样的预测结果。

然而，感受野的局部结构或者记忆模块的长度限制使得捕捉空间或时间上遥远的相互作用具有一定挑战，预测结果存在着脱离实际安全区域的可能，这样的预测结果将无法对智能汽车的决策控制任务产生有效指导。

发明内容

本申请提供一种预测型智能汽车决策控制方法、装置、车辆及存储介质，以解决了相关技术中的“预测-决策控制”开环型方案中预测结果缺乏对决策控制过程有效指导的问题，通过迭代模型驱动的自进化式策略评估与策略提升过程，实现智能车辆预测型最优策略求解方案。

本申请第一方面实施例提供一种预测型智能汽车决策控制方法，包括以下步骤：

基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对所述预测模型进行参数初始化，生成初始周车运动预测模型；

以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新所述初始周车运动预测模型，生成最终周车运动预测模型；以及

将所述最终周车运动预测模型嵌入所述智能汽车的决策控制系统，使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制所述智能汽车执行所述决策控制指令。

可选地，所述基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对所述预测模型进行参数初始化，生成初始周车运动预测模型，包括：

对数据集中的所述地图信息和所述历史轨迹进行向量化编码。

可选地，所述以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新所述初始周车运动预测模型，生成最终周车运动预测模型，包括：

对输入的节点特征进行基于图神经网络的消息传递聚合更新，并在聚合特征层面进行基于注意力机制的多轴信息传递，得到新聚合特征；

解码所述新聚合特征，将输出的意图预测概率和预测轨迹与所述数据集中的真值计算最小二次误差，得到更新预测模型的目标函数与梯度，并对所述预测模型的参数进行反向传播更新，得到所述最终周车运动预测模型。

可选地，所述使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，包括：

利用所述最终周车运动预测模型前向递推得到自车感知范围内周车未来有限步的状态，并计算不确定性度量指标；

根据所述周车未来有限步的状态和不确定性度量指标获取自车未来有限步状态，并基于所述决策控制系统得到价值函数，并计算对应更新的目标函数和梯度；

根据所述目标函数和梯度更新所述决策控制系统的参数的同时，得到最优控制策略，生成所述决策控制指令。

可选地，所述使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，还包括：

检测所述最优控制策略是否满足安全阈值条件；

如果满足所述安全阈值条件，则生成所述决策控制指令，否则重新向前递推所述自车感知范围内周车未来有限步的状态，并计算所述不确定性度量指标。本申请第二方面实施例提供一种预测型智能汽车决策控制装置，包括：

第一生成模块，用于基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对所述预测模型进行参数初始化，生成初始周车运动预测模型；

第二生成模块，用于以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新所述初始周车运动预测模型，生成最终周车运动预测模型；以及

控制模块，用于将所述最终周车运动预测模型嵌入所述智能汽车的决策控制系统，使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制所述智能汽车执行所述决策控制指令。

可选地，所述第一生成模块，具体用于：

可选地，所述第二生成模块，具体用于：

可选地，所述控制模块，具体用于：

可选地，所述控制模块，还用于：

检测所述最优控制策略是否满足安全阈值条件；

如果满足所述安全阈值条件，则生成所述决策控制指令，否则重新向前递推所述自车感知范围内周车未来有限步的状态，并计算所述不确定性度量指标。

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的预测型智能汽车决策控制方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的预测型智能汽车决策控制方法。

由此，通过对周围交通参与者建立能够描述不确定性的可解释型预测模型，耦合入智能汽车的决策控制过程，解决了相关技术中的“预测-决策控制”开环型方案中预测结果缺乏对决策控制过程有效指导的问题，通过迭代模型驱动的自进化式策略评估与策略提升过程，实现智能车辆预测型最优策略求解方案。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种预测型智能汽车决策控制方法的流程图；

图2为根据本申请一个实施例的预测型智能汽车决策控制方法框图；

图3为根据本申请一个实施例的预测型智能汽车决策控制装置结构示意图；

图4为根据本申请一个实施例的向量化信息表征示意图；

图5为根据本申请一个实施例的节点信息聚合示意图；

图6为根据本申请一个实施例的多轴信息传递示意图；

图7为根据本申请一个实施例的运动预测结果示意图；

图8为根据本申请一个实施例的周车运动预测模块参数更新示意图；

图9为根据本申请一个实施例的“预测-决策控制”耦合更新示意图；

图10为根据本申请实施例的预测型智能汽车决策控制装置的示例图；

图11为申请实施例提供的车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的预测型智能汽车决策控制方法、装置、车辆及存储介质。针对上述背景技术中心提到的“预测-决策控制”开环型方案中预测结果缺乏对决策控制过程有效指导的问题，本申请提供了一种预测型智能汽车决策控制方法，在该方法中，通过对周围交通参与者建立能够描述不确定性的可解释型预测模型，耦合入智能汽车的决策控制过程，解决了相关技术中的“预测-决策控制”开环型方案中预测结果缺乏对决策控制过程有效指导的问题，通过迭代模型驱动的自进化式策略评估与策略提升过程，实现智能车辆预测型最优策略求解方案。

具体而言，图1为本申请实施例所提供的一种预测型智能汽车决策控制方法的流程示意图。

该实施例中，如图2所示，预测型智能汽车决策控制过程至少包含三个功能性模块，即周车运动预测模块、自车决策控制模块及安全性策略输出模块，周车运动预测模块在预定义数据集上初始化，再接入自车决策控制模块和安全性策略输出模块中进行级联更新与应用。

其中，周车运动预测模块及其与控制策略耦合的方式是本实施例的核心，如图3所示，周车运动预测模块包括信息编码模块301、交互信息传递模块302、预测轨迹解码模块303和合规轨迹输出模块304，信息编码模块301用于地图信息与周围交通参与者历史轨迹信息的向量化编码；交互信息传递模块302用于对向量化信息的节点聚合特征做多轴信息传递、聚合与更新；预测轨迹解码模块303用于对感知范围内的周围交通参与者的运动趋势做递推，并输出不确定性度量指标，输入到决策控制模块；合规轨迹输出模块304用于筛选和确保预测模块输出对下游决策控制任务有意义的合规轨迹。自车决策控制模块包括策略评估模块305和策略提升模块306，策略评估模块305用于评估当前策略的价值函数，计算策略更新的目标函数；策略提升模块306用于计算当前价值函数和策略更新方向的梯度，对模型参数做反向传播及地迭代更新。全性策略输出模块包括安全约束模块307，安全约束模块307用于检验输出策略对应的动作信息，确保执行动作的安全性。具体地，使用全连接的图神经网络编码向量化的地图信息和周围交通参与者的历史轨迹，利用消息传递机制和注意力机制提取时间、空间、交互逻辑三个维度的特征，以实际地图采样切片为目标，得到具有显式物理含义的预测轨迹和意图概率。后者利用预测模块的输出作为策略评估和策略提升模块中对未来有限时间步内状态的近似，以加速最优策略的收敛速度，同时通过嵌入显式的不确定性度量，达到控制效果的提升。最后通过安全性策略输出模块检查策略的安全性，实现与环境的安全交互。

具体而言，如图1所示，该预测型智能汽车决策控制方法包括以下步骤：

在步骤S101中，基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对预测模型进行参数初始化，生成初始周车运动预测模型。

可选地，在一些实施例中，基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对预测模型进行参数初始化，生成初始周车运动预测模型，包括：对数据集中的地图信息和历史轨迹进行向量化编码。

应当理解的是，在生成初始周车运动预测模型时，本申请实施例可以对周车运动预测模型的四个子模块模型参数初始化，对数据集中的静态地图信息和动态交通参与者的历史轨迹进行向量化编码，从而开始预测模型初始化，具体地过程将在后文进行详细说明。

在步骤S102中，以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新初始周车运动预测模型，生成最终周车运动预测模型。

可选地，在一些实施例中，以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新初始周车运动预测模型，生成最终周车运动预测模型，包括：对输入的节点特征进行基于图神经网络的消息传递聚合更新，并在聚合特征层面进行基于注意力机制的多轴信息传递，得到新聚合特征；解码新聚合特征，将输出的意图预测概率和预测轨迹与数据集中的真值计算最小二次误差，得到更新预测模型的目标函数与梯度，并对预测模型的参数进行反向传播更新，得到最终周车运动预测模型。

具体而言，本申请实施例可以对输入信息的节点特征做基于图神经网络的消息传递型聚合更新，在聚合特征层面做基于注意力机制的多轴信息传递，获得用于预测解码的新聚合特征；并解码上述聚合特征，将输出的意图预测概率和预测轨迹与数据集中的真值做最小二次误差计算，得到更新预测模型的目标函数与梯度，对预测模型的参数做反向传播更新，完成预测模型的初始化，即得到最终周车运动预测模型。

在步骤S103中，将最终周车运动预测模型嵌入智能汽车的决策控制系统，使得决策控制系统根据最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制智能汽车执行决策控制指令。

可选地，在一些实施例中，使得决策控制系统根据最终周车运动预测模型预测的周车运动生成对应的决策控制指令，包括：利用最终周车运动预测模型前向递推得到自车感知范围内周车未来有限步的状态，并计算不确定性度量指标；根据周车未来有限步的状态和不确定性度量指标获取自车未来有限步状态，并基于决策控制系统得到价值函数，并计算对应更新的目标函数和梯度；根据目标函数和梯度更新决策控制系统的参数的同时，得到最优控制策略，生成决策控制指令。

具体而言，本申请实施例可以将上述步骤S102中得到的最终周车运动预测模型嵌入决策控制系统，利用预测模型前向递推出自车感知范围内周围交通参与者未来有限步的状态，并计算不确定性度量指标，并将上述得到的周围交通参与者未来有限步的状态、不确定性度量指标与自车先验模型递推的自车未来有限步状态，通过全连接算子编码，输入到决策控制系统的策略评估模块与策略提升模块，利用模型递推状态近似策略评估的价值函数，并计算对应模块更新的目标函数和梯度，并将上述计算得到的梯度信息联合更新策略评估模块参数、策略提升模块参数和预测模型参数，循环迭代得到最优控制策略。

可选地，在一些实施例中，使得决策控制系统根据最终周车运动预测模型预测的周车运动生成对应的决策控制指令，还包括：检测最优控制策略是否满足安全阈值条件；如果满足安全阈值条件，则生成决策控制指令，否则重新向前递推自车感知范围内周车未来有限步的状态，并计算不确定性度量指标。

应当理解的是，本申请实施例可以在安全约束模块中检测上述最优控制策略是否违背安全阈值要求，如果不违背，则输出安全策略集合中对应动作的阈值，否则，与环境进行交互，重新向前递推自车感知范围内周车未来有限步的状态，并计算不确定性度量指标。

由此可知，本申请实施例要先在数据集上对预测模型初始化，再部署到“预测-决策控制”闭环框架里，进行同步迭代、更新和应用，不受限于场景，且具有较强的可扩展性。也即是说，本申请实施例从时间、空间和交互关系三个关键维度对交通参与者的不确定性建立可解释的预测模型，并与决策控制过程级联耦合，提出一种“预测-决策控制”闭环型方案，以实现预测型智能汽车决策控制。

为使得本领域技术人员进一步了解本申请实施例的预测型智能汽车决策控制方法，下面结合具体实施例进行详细阐述。

具体地，在周车运动预测模块的初始化阶段，首先在信息编码模块中对静态地图信息(包含道路边界线、车道中心线与人行横道)和动态交通参与者的历史轨迹进行向量化编码，如图4所示，该模块的信息向量化过程包括两部分：将边界线、中心线或人行横道等距离切分成由p个采样节点及其特征向量，v _i,i∈[1,p],p≤10，和节点间的拓扑关系，e _ij,i,j∈[1,p],p≤10，构成的N个折线段，将历史轨迹等时间间隔切分成由t个采样节点及其特征向量，v _i,i∈[1,t],t≤10，和节点间的拓扑关系，e _ij,i,j∈[1,t],t≤10，构成的折线段。其中，每个v _i的物理含义是固定精度折线片段的信息，包含8维信息：

其中，r代表道路的标记，a代表交通参与者的标记，

分别代表标记对象的横纵向坐标、横纵向速度及类型(车辆、道路边界、中心线或者人行横道)，

分别代表标记道路的横纵向单位方向向量，id ^r代表道路id，δ ^r代表道路点相对归一化坐标的角度，flag ^r标记道路是否有效，ω ^a代表横摆角速度，d ^a代表标记对象的宽度，ang ^a代表标记对象的方向角。

利用图神经网络的消息传递机制，根据图4中的拓扑连接关系，通过全连接算子与排序不变算子，对各个节点进行(m+1)次信息聚合与更新，如图5所示，得到更新后的节点信息，

其中，

代表排序不变算子，

代表全连接算子，m代表更新计数，i代表节点序号，\i代表除第i个节点外的其他节点，

为对应更新次数的第i个节点的特征向量。

完成输入信息的聚合更新后，得到信息编码模块的输出：地图聚合特征

与交通参与者聚合特征

进一步地，将信息编码模块输出的地图聚合特征

与交通参与者聚合特征

输入交互信息传递模块，在聚合特征层通过注意力机制实现时间轴、空间轴、和交互轴的多轴消息传递，如图6所示。其中，交互轴表达道路主体与交通参与者主体间的关系，时间轴代表交通参与者历史轨迹层面的推演，空间轴代表道路主体间的关系。通过计算得到新的地图聚合特征

与交通参与者聚合特征

其中，Q(·),K(·),V(·)代表全连接算子，σ(·)代表最大化算子，d _k代表查询矩阵Q的维度。

进一步地，将交互信息传递模块输出的地图聚合特征

与交通参与者聚合特征

输入预测轨迹解码模块，对M个待估车辆的意图和回归轨迹进行预测，如图7所示，本实施例中的意图预测结果与地图采样信息的切片相对应，可以根据预测精度要求自适应调整，其中：

其中，

表示意图预测的概率结果，维度为[N,1]，物理含义为待估车辆未来可能到达的位置，对应于初始编码的道路边界、中心线或者人行横道的切片折线段，用道路位置显式表达待估车辆未来的运动意图。

表示回归预测结果，维度为[M,2*Z]，M代表待估车辆个数，Z代表运动预测时长，单位为秒(s)，维度2代表坐标信息，(x,y)。

为全连接算子，

表示待估车辆的新聚合特征。

进一步地，将预测轨迹解码模块输出的M个待估车辆的意图预测结果

和回归预测结果

输入到合规轨迹输出模块中，计算所有带估车辆的预测输出与其带标签真值间的差，得到更新前馈网络的目标函数

其中，

和

分别为意图预测和回归预测结果的目标函数，

代表待估车辆未来轨迹真值所在的地图折线段的{0,1}标记，onehot(·)为独热编码算子，

表示数据集中待估车辆的真实轨迹点。θ表示网络参数的集合，并由目标函数

的梯度进行更新：

其中，α为更新步长，θ _k+1表示第k+1次更新的网络算子参数。如图8所示。

接着，根据意图预测的概率输出选择概率最高的前6个预测结果，如图7所示，得到预测概率，

及其对应的预测回归轨迹，

以上模块在预先采集完成的数据集上进行训练，得到最优网络参数θ ^*作为周车运动预测模块的初始化初始参数。

进一步地，对“预测-决策控制”过程进行级联耦合，将周车运动预测模块输出的未来有限步周车预测状态S _sur、周车不确定性度量

自车运动状态编码S _self输入自车决策控制模块中，其中，未来有限步周车预测状态为感知范围内的交通参与者的最大概率预测回归轨迹，

如图9所示，

代表第i个感知范围内的待估车辆。周车不确定性度量指每个待估车辆的预测概率方差：

进一步地，计算当前时刻的状态量编码：

其中，

为全连接算子，σ(·)为排序不变的加和算子。

进一步地，初始化策略评估网络V的参数为ω，策略网络π的参数为φ。根据自车先验二自由度动力学模型，f _self，和周车运动预测模型，f _θ，递推未来p个有限步内周车预测状态，计算策略评估网络V的目标函数：

其中，

为目标策略评估网络的参数，每k步通过策略评估网络V的参数ω进行同步更新。

进一步地，计算策略网络π的目标函数：

其中，l(x,π _θ)为智能汽车决策控制过程的优化目标，包含稳定性、节能性、跟踪性等，可以根据不同任务的需求对优化目标进行设计。

进一步地，对(9)和(10)中的目标函数求梯度：

进一步地，对策略评估网络V的参数ω，和策略网络π的参数φ进行更新：

进一步地，根据交互目标函数梯度对周车预测模型进行实时调整和更新：

其中，α,β和γ为梯度更新步长。

进一步地，迭代更新上述的网络参数，输出最优控制策略

其中，最优控制策略

包括方向盘转角δ _t和车辆加速度a _t。进一步地，在安全约束模块中对策略进行安全性检查：

其中，

为动作空间内的安全动作集合。若策略输出不在安全集合中，则安全控制策略选择其在安全动作集合内的投影，即

a _safe为智能汽车决策控制模块最终输出的安全控制策略，并与环境进行交互。

综上，本申请实施例的预测型智能汽车决策控制方法，具有以下优点：

(1)通过将预测模型对周车未来运动状态的递推结果和不确定性度量，显式嵌入决策控制模块的策略提升和策略评估过程，建立预测型决策控制闭环更新架构；

(2)建立能够刻画周车运动趋势不确定性的预测模型，建立基于向量化编码信息的具有可解释性的预测模型，能够有效服务于下游的决策控制任务；

(3)能够根据不同任务的需求，对预测模型的精度做出调整，对决策控制策略的优化目标进行调整，充分利用预测智能提升智能汽车决策控制系统的性能。

根据本申请实施例提出的预测型智能汽车决策控制方法，通过对周围交通参与者建立能够描述不确定性的可解释型预测模型，耦合入智能汽车的决策控制过程，解决了相关技术中的“预测-决策控制”开环型方案中预测结果缺乏对决策控制过程有效指导的问题，通过迭代模型驱动的自进化式策略评估与策略提升过程，实现智能车辆预测型最优策略求解方案。

其次参照附图描述根据本申请实施例提出的预测型智能汽车决策控制装置。

图10是本申请实施例的预测型智能汽车决策控制装置的方框示意图。

如图10所示，该预测型智能汽车决策控制装置10包括：第一生成模块100、第二生成模块200和控制模块300。

其中，第一生成模块100用于基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对预测模型进行参数初始化，生成初始周车运动预测模型；

第二生成模块200用于以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新初始周车运动预测模型，生成最终周车运动预测模型；以及

控制模块300用于将最终周车运动预测模型嵌入智能汽车的决策控制系统，使得决策控制系统根据最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制智能汽车执行决策控制指令。

可选地，第一生成模块100具体用于：

对数据集中的地图信息和历史轨迹进行向量化编码。

可选地，第二生成模块200具体用于：

解码新聚合特征，将输出的意图预测概率和预测轨迹与数据集中的真值计算最小二次误差，得到更新预测模型的目标函数与梯度，并对预测模型的参数进行反向传播更新，得到最终周车运动预测模型。

可选地，控制模块300具体用于：

利用最终周车运动预测模型前向递推得到自车感知范围内周车未来有限步的状态，并计算不确定性度量指标；

根据周车未来有限步的状态和不确定性度量指标获取自车未来有限步状态，并基于决策控制系统得到价值函数，并计算对应更新的目标函数和梯度；

根据目标函数和梯度更新决策控制系统的参数的同时，得到最优控制策略，生成决策控制指令。

可选地，控制模块300还用于：

检测最优控制策略是否满足安全阈值条件；

如果满足安全阈值条件，则生成决策控制指令，否则重新向前递推自车感知范围内周车未来有限步的状态，并计算不确定性度量指标。

需要说明的是，前述对预测型智能汽车决策控制方法实施例的解释说明也适用于该实施例的预测型智能汽车决策控制装置，此处不再赘述。

根据本申请实施例提出的预测型智能汽车决策控制装置，通过对周围交通参与者建立能够描述不确定性的可解释型预测模型，耦合入智能汽车的决策控制过程，解决了相关技术中的“预测-决策控制”开环型方案中预测结果缺乏对决策控制过程有效指导的问题，通过迭代模型驱动的自进化式策略评估与策略提升过程，实现智能车辆预测型最优策略求解方案。

图11为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器1101、处理器1102及存储在存储器1101上并可在处理器1102上运行的计算机程序。

处理器1102执行程序时实现上述实施例中提供的预测型智能汽车决策控制方法。

进一步地，车辆还包括：

通信接口1103，用于存储器1101和处理器1102之间的通信。

存储器1101，用于存放可在处理器1102上运行的计算机程序。

存储器1101可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器1101、处理器1102和通信接口1103独立实现，则通信接口1103、存储器1101和处理器1102可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1101、处理器1102及通信接口1103，集成在一块芯片上实现，则存储器1101、处理器1102及通信接口1103可以通过内部接口完成相互间的通信。

处理器1102可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的预测型智能汽车决策控制方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

一种预测型智能汽车决策控制方法，其特征在于，包括以下步骤：

基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对所述预测模型进行参数初始化，生成初始周车运动预测模型；

以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新所述初始周车运动预测模型，生成最终周车运动预测模型；以及

将所述最终周车运动预测模型嵌入所述智能汽车的决策控制系统，使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制所述智能汽车执行所述决策控制指令。
根据权利要求1所述的方法，其特征在于，所述基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对所述预测模型进行参数初始化，生成初始周车运动预测模型，包括：

对数据集中的所述地图信息和所述历史轨迹进行向量化编码。
根据权利要求1所述的方法，其特征在于，所述以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新所述初始周车运动预测模型，生成最终周车运动预测模型，包括：

对输入的节点特征进行基于图神经网络的消息传递聚合更新，并在聚合特征层面进行基于注意力机制的多轴信息传递，得到新聚合特征；

解码所述新聚合特征，将输出的意图预测概率和预测轨迹与所述数据集中的真值计算最小二次误差，得到更新预测模型的目标函数与梯度，并对所述预测模型的参数进行反向传播更新，得到所述最终周车运动预测模型。
根据权利要求1所述的方法，其特征在于，所述使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，包括：

利用所述最终周车运动预测模型前向递推得到自车感知范围内周车未来有限步的状态，并计算不确定性度量指标；

根据所述周车未来有限步的状态和不确定性度量指标获取自车未来有限步状态，并基于所述决策控制系统得到价值函数，并计算对应更新的目标函数和梯度；

根据所述目标函数和梯度更新所述决策控制系统的参数的同时，得到最优控制策略，生成所述决策控制指令。
根据权利要求4所述的方法，其特征在于，所述使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，还包括：

检测所述最优控制策略是否满足安全阈值条件；

如果满足所述安全阈值条件，则生成所述决策控制指令，否则重新向前递推所述自车感知范围内周车未来有限步的状态，并计算所述不确定性度量指标。
一种预测型智能汽车决策控制装置，其特征在于，包括：

第一生成模块，用于基于地图信息和交通参与者的历史轨迹，对周围交通参与者建立预测模型，并利用有标签的数据集对所述预测模型进行参数初始化，生成初始周车运动预测模型；

第二生成模块，用于以智能汽车的驾驶目标作为优化对象，根据与环境的不断交互数据循环更新所述初始周车运动预测模型，生成最终周车运动预测模型；以及

控制模块，用于将所述最终周车运动预测模型嵌入所述智能汽车的决策控制系统，使得所述决策控制系统根据所述最终周车运动预测模型预测的周车运动生成对应的决策控制指令，并控制所述智能汽车执行所述决策控制指令。
根据权利要求6所述的装置，其特征在于，所述第一生成模块，具体用于：

对数据集中的所述地图信息和所述历史轨迹进行向量化编码。
根据权利要求6所述的装置，其特征在于，所述第二生成模块，具体用于：

对输入的节点特征进行基于图神经网络的消息传递聚合更新，并在聚合特征层面进行基于注意力机制的多轴信息传递，得到新聚合特征；

解码所述新聚合特征，将输出的意图预测概率和预测轨迹与所述数据集中的真值计算最小二次误差，得到更新预测模型的目标函数与梯度，并对所述预测模型的参数进行反向传播更新，得到所述最终周车运动预测模型。
根据权利要求6所述的装置，其特征在于，所述控制模块，具体用于：

利用所述最终周车运动预测模型前向递推得到自车感知范围内周车未来有限步的状态，并计算不确定性度量指标；

根据所述周车未来有限步的状态和不确定性度量指标获取自车未来有限步状态，并基于所述决策控制系统得到价值函数，并计算对应更新的目标函数和梯度；

根据所述目标函数和梯度更新所述决策控制系统的参数的同时，得到最优控制策略，生成所述决策控制指令。
根据权利要求9所述的装置，其特征在于，所述控制模块，还用于：

检测所述最优控制策略是否满足安全阈值条件；

如果满足所述安全阈值条件，则生成所述决策控制指令，否则重新向前递推所述自车感知范围内周车未来有限步的状态，并计算所述不确定性度量指标。
一种车辆，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的预测型智能汽车决策控制方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的预测型智能汽车决策控制方法。