WO2020029580A1

WO2020029580A1 - 训练用于生成自动驾驶策略的控制策略模型的方法和装置

Info

Publication number: WO2020029580A1
Application number: PCT/CN2019/078072
Authority: WO
Inventors: 闫洁
Original assignee: 华为技术有限公司
Priority date: 2018-08-08
Filing date: 2019-03-14
Publication date: 2020-02-13
Also published as: CN110824912B; CN110824912A

Abstract

本申请提供了一种训练用于生成自动驾驶策略的控制策略模型的方法和装置，首先利用低维训练数据确定隐特征空间和定义在该隐特征空间上的策略函数，随后以该隐特征空间为目标，监督将高维训练数据映射到该隐特征空间的编码器的训练，随后将该编码器和上述策略函数应用于真实交通环境，即，输入从真实交通环境中获取的高维数据，从而可以利用高维数据直接获得可用的自动驾驶策略。

Description

训练用于生成自动驾驶策略的控制策略模型的方法和装置

本申请要求于2018年08月08日提交中国专利局、申请号为201810898344.7、申请名称为“训练用于生成自动驾驶策略的控制策略模型的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自动驾驶领域，尤其涉及一种训练用于生成自动驾驶策略的控制策略模型的方法和装置。

背景技术

自动驾驶是一种由计算机系统代替人类来驾驶机动车辆的技术，其包括环境感知、位置定位、路径规划、决策控制和动力系统等功能模块。其中，实现环境感知功能的方式包括以下两种：通过激光雷达、毫米波雷达等高精度低维度传感器实现环境感知功能，以及，通过单目/多目高清摄影头等高维度低精度传感器实现环境感知功能。

通常情况下，激光雷达等高精度低维度传感器价格昂贵且精度容易受到天气条件的影响而急剧下降，高清摄像头等低精度高维度传感器价格低廉且抗干扰能力更强，并且，高维数据(即，通过高维度传感器获得的数据)比低维数据(即，通过低维度传感器获得的数据)包含的信息更多，能够反映复杂的交通环境，因此，利用高维度数据确定自动驾驶策略具有较大的应用前景。

然而，由于高维数据包含的信息量较大，通常情况下，高维数据还包含一些冗余信息，因此，通过人工神经网络处理高维数据难以直接获得可用的自动驾驶策略。

发明内容

本申请提供了一种训练用于生成自动驾驶策略的控制策略模型的方法和装置，首先利用低维训练数据确定隐特征空间和定义在该隐特征空间上的策略函数，随后以该隐特征空间为目标，监督将高维训练数据映射到该隐特征空间的编码器的训练，随后将该编码器和上述策略函数应用于真实交通环境，即，输入从真实交通环境中获取的高维数据，从而可以利用高维数据直接获得可用的自动驾驶策略。基于上述控制策略模型，本申请还提供了一种生成自动驾驶策略的方法和装置，一种自动驾驶策略生成系统以及该自动驾驶策略生成系统的控制方法。

第一方面，提供了一种训练用于生成自动驾驶策略的控制策略模型的方法，包括：获取低维训练数据的隐特征空间，其中，该低维训练数据为从第一交通场景中采集到的数据；通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，该高维训练数据为从第一交通场景中采集到的数据，并且，低维训练数据包含的信息是高维训练数据包含的信息的子集，所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。

由于低维训练数据包含的信息是高维训练数据包含的信息的子集，因此，通过低维训练数据获得的隐特征空间也一定能从高维训练数据中得到，基于上述原理，本申请首先获取低维训练数据的隐特征空间，由于低维训练数据包含的信息量较小，并且，低维训练数据包含的冗余信息较少，因此，基于低维训练数据的隐特征空间比较容易获得可用的策略函数。随后，利用低维数据的隐特征空间监督第二编码器的训练过程，最终获得一个能够将高维训练数据映射至该隐特征空间的第二编码器。第二编码器训练完成后，即可使用第二编码器和预先得到的策略函数直接处理真实环境中的高维数据(即，高维真实数据)，得到可用的自动驾驶策略。

可选地，所述通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，包括：将所述高维训练数据作为输入量输入第二编码器得到高维训练数据的隐特征空间，所述低维训练数据的隐特征空间用于监督第二编码器的输出结果，使得高维训练数据的隐特征空间与低维训练数据的隐特征空间相同。

监督学习方法是一种机器学习方法，机器利用低维训练数据的隐特征空间监督第二编码器的输出结果，最终可以获得将高维训练数据映射至低维训练数据的隐特征空间的第二编码器。

可选地，所述获取低维训练数据的隐特征空间，包括：将低维训练数据输入第一编码器得到低维训练数据的隐特征空间，第一编码器基于多个低维数据样本训练得到，该多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据，所述第一编码器为控制策略模型的组成部分。

低维训练数据的类型与低维数据样本的类型相同，这样，通过低维数据样本得到的第一编码器可以适用于低维训练数据，从而可以获得低维训练数据的隐特征空间。

可选地，在将低维训练数据输入第一编码器得到低维训练数据的隐特征空间之前，所述方法还包括：根据所述多个低维数据样本和多个交通工具的状态参数训练控制策略模型，得到第一编码器和策略函数，所述多个低维数据样本与所述多个交通工具的状态参数一一对应。

可选地，将低维训练数据输入第一编码器得到低维训练数据的隐特征空间之前，所述方法还包括：根据

和

确定

其中，f′ ₁表示更新前的第一编码器，

表示f′ ₁中除自变量之外的参数，s ⁽¹⁾表示隐特征空间，

表示与

相关的梯度l，l表示

和

的方差，

表示更新后的

与

正相关，且，

与

负相关，其中，

x ⁽²⁾表示高维训练数据，

表示

的范数；根据

更新f′ ₂得到f ₂，f ₂表示更新后的第二编码器。

上述方案提供了采用梯度下降算法时第二编码器的训练方法，能够不断优化第二编码器，使得高维训练数据更加准确地映射到低维训练数据的隐特征空间。

可选地，根据

和

确定

之前，所述方法还包括：对齐x ⁽¹⁾和x ⁽²⁾的时间戳。

对齐低维训练数据和高维训练数据的时间戳能够将高维训练数据更加准确地映射到低维训练数据的隐特征空间。

可选地，所述方法还包括：获取高维真实数据，该高维真实数据为交通工具从第二交通场景中采集到的数据，高维真实数据的类型与高维训练数据的类型相同；将交通工具的状态参数和高维真实数据输入控制策略模型，生成适用于第二交通场景的自动驾驶策略，所述自动驾驶策略用于控制交通工具在第二交通场景下行驶。

例如，高维真实数据和高维训练数据均为图像数据，由于高维真实数据的类型与高维训练数据的类型相同，因此，通过高维训练数据得到的第二编码器同样适用于高维真实数据，将高维真实数据输入包含第二编码器的控制策略模型，即可得到适用于第二交通场景的自动驾驶策略。

可选地，控制策略模型还包括策略函数；其中，将交通工具的状态参数和高维真实数据输入控制策略模型，生成适用于第二交通场景的自动驾驶策略，包括：将高维真实数据输入第二编码器，得到高维真实数据的隐特征空间；根据高维真实数据的隐特征空间、交通工具的状态参数以及策略函数，得到自动驾驶策略。

第二方面，本申请提供了一种生成自动驾驶策略的方法，包括：将高维真实数据输入第二编码器得到高维真实数据的隐特征空间，高维真实数据为交通工具从当前的交通场景中采集到的数据；根据高维真实数据的隐特征空间、交通工具的状态参数以及策略函数生成自动驾驶策略，所述自动驾驶策略用于控制交通工具在当前的交通场景下行驶；

其中，所述第二编码器通过以下方法训练得到：将低维训练数据输入第一编码器得到低维训练数据的隐特征空间，低维训练数据为从第一交通场景中采集到的数据；通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，高维训练数据为从第一交通场景中采集到的数据，并且，低维训练数据包含的信息是高维训练数据包含的信息的子集。

通过上述方法得到的第二编码器可以直接从高维真实数据中得到可用的隐特征空间，从而可以利用高维真实数据获得适用于当前交通场景的自动驾驶策略，具有价格低廉且抗干扰能力更强的优点。

可选地，所述通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，包括：将高维训练数据作为输入量输入第二编码器得到高维训练数据的隐特征空间，低维训练数据的隐特征空间用于监督第二编码器的输出结果，使得高维训练数据的隐特征空间与低维训练数据的隐特征空间相同。

可选地，所述第一编码器和所述策略函数通过以下方法训练得到：根据多个低维数据样本和多个交通工具的状态参数训练控制策略模型，得到第一编码器和所述策略函数，所述控制策略模型包括第一编码器和策略函数，所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与低维训练数据的类型相同的数据，所述多个低维数据样本与所述多个交通工具的状态参数一一对应。

第三方面，本申请提供了一种自动驾驶策略生成系统，该自动驾驶策略生成系统包括控制策略模型、第一开关、第二开关，控制策略模型包括第一编码器、第二编码器、策略函数模块；

其中，第一开关用于控制第一编码器与策略函数模块之间的通路状态，第二开关用于控制第二编码器与策略函数模块之间的通路状态，第一编码器用于接收交通工具从交通场景中采集的低维真实数据并输出该低维真实数据的隐特征空间，第二编码器用于接收所述交通工具从交通场景中采集的高维真实数据并输出该高维真实数据的隐特征空间，策略函数模块用于根据接收到的交通工具的状态参数和隐特征空间生成自动驾驶策略，所述自动驾驶策略用于控制交通工具在交通场景下行驶。

上述系统可以根据交通工具采集到的数据的类型选择不同的策略生成路径，例如，当采集到的数据为低维真实数据时，控制第一开关的工作状态为闭合，基于低维真实数据获得自动驾驶策略，当采集到的数据为高维真实数据时，控制第二开关的工作状态为闭合，基于高维真实数据获得自动驾驶策略，从而具有较强的灵活性和鲁棒性。

可选地，所述第一开关和所述第二开关的工作状态相反，以实现策略函数模块接收到第一编码器或第二编码器输出的隐特征空间。

第一开关和第二开关的工作状态相反，使得策略函数模块在同一时刻只能接收到的一种数据的隐特征空间，可以避免因策略函数模块同时接收到多种数据的隐特征空间导致系统运行出错。

可选地，当第一开关的工作状态为闭合，第二开关的工作状态为断开时，第一编码器与策略函数模块之间的通路状态为联通，第二编码器与策略函数模块之间的通路状态为切断，以实现第一编码器向策略函数模块输入低维真实数据的隐特征空间。

可选地，当第一开关的工作状态为断开，第二开关的工作状态为闭合时，第二编码器与策略函数模块之间的通路为联通，第一编码器与策略函数模块之间的通路状态为切断，以实现第二编码器向策略函数模块输入高维真实数据的隐特征空间。

可选地，所述自动驾驶策略生成系统还包括：数据阀门，用于控制低维真实数据是否输入第一编码器，和，控制高维真实数据是否输入第二编码器。

上述方案通过数据阀门控制低维真实数据和高维真实数据的输入可以实现策略函数模块接收到第一编码器或第二编码器输出的隐特征空间，相对于控制第一开关和第二开关的闭合实现策略函数模块接收到第一编码器或第二编码器输出的隐特征空间的方案，上述通过数据阀门控制方案可以避免第一编码器或第二编码器做无用功。

第四方面，本申请提供了一种自动驾驶策略生成系统的控制方法，所述自动驾驶策略生成系统包括控制策略模型、第一开关和第二开关，所述控制策略模型包括第一编码器、第二编码器和策略函数模块；其中，第一开关用于控制第一编码器与策略函数模块之间的通路状态，所第二开关用于控制第二编码器与策略函数模块之间的通路状态，第一编码器用于接收交通工具从交通场景中采集的低维真实数据并输出低维真实数据的隐特征空间，第二编码器用于接收所述交通工具从交通场景中采集的高维真实数据并输出高维真实数据的隐特征空间，策略函数模块用于根据接收到的所述交通工具的状态参数和隐特征空间生成自动驾驶策略；

所述控制方法包括：

通过控制第一开关和第二开关的工作状态，向策略函数模块输入低维真实数据的隐特征空间或高维真实数据的隐特征空间。

上述系统可以根据交通工具采集到的数据的类型选择不同的策略生成路径，例如，当采集到的数据为低维真实数据时，控制第一开关的工作状态为闭合，基于低维真实数据获得自动驾驶策略，当采集到的数据为高维真实数据时，控制第二开关的工作状态为闭合，基于高维真实数据获得自动驾驶策略，因此，上述控制方法具有较强的灵活性和鲁棒性。

可选地，所述通过控制第一开关和第二开关的工作状态，向策略函数模块输入低维真实数据的隐特征空间或高维真实数据的隐特征空间，包括：控制第一开关的工作状态为闭合和第二开关的工作状态为断开；第一编码器向策略函数模块输入低维真实数据的隐特征空间。

可选地，所述低维真实数据的可靠性高于所述高维真实数据的可靠性。

当低维真实数据的可靠性高于高维真实数据的可靠性时，可以控制第一开关的工作状态为闭合，以及，控制第二开关的工作状态为断开，从而可以利用高可靠性的数据获得高可靠性的自动驾驶策略。

可选地，所述通过控制第一开关和第二开关的工作状态，向策略函数模块输入低维真实数据的隐特征空间或高维真实数据的隐特征空间，包括：控制第二开关的工作状态为闭合和第一开关的工作状态为断开；第二编码器向策略函数模块输入高维真实数据的隐特征空间。

可选地，所述高维真实数据的可靠性高于所述低维真实数据的可靠性。

当高维真实数据的可靠性高于低维真实数据的可靠性时，可以控制第一开关的工作状态为断开，以及，控制第二开关的工作状态为闭合，从而可以利用高可靠性的数据获得高可靠性的自动驾驶策略。

可选地，所述低维真实数据为交通工具通过雷达从交通场景中采集的雷达数据，所述高维真实数据为交通工具通过摄像头从交通场景中采集的图像数据。

第五方面，提供了一种训练用于生成自动驾驶策略的控制策略模型的装置，该装置可以实现上述第一方面所涉及的方法中各个步骤所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置包括处理器，该处理器被配置为支持该装置执行上述第一方面所涉及的方法中相应的功能。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。可选地，该装置还包括通信接口，该通信接口用于支持该装置与其它网元之间的通信。

第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序代码，该计算机程序代码被处理单元或处理器执行时，使得处理单元或处理器执行第一方面所述的方法。

第七方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被处理单元或处理器运行时，使得处理单元或处理器执行上述第一方面的方法。

第八方面，提供了一种生成自动驾驶策略的装置，该装置可以实现上述第二方面所涉及的方法中各个步骤所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置包括处理器，该处理器被配置为支持该装置执行上述第二方面所涉及的方法中相应的功能。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。可选地，该装置还包括通信接口，该通信接口用于支持该装置与其它网元之间的通信。

第九方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序代码，该计算机程序代码被处理单元或处理器执行时，使得处理单元或处理器执行第二方面所述的方法。

第十方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被处理单元或处理器运行时，使得处理单元或处理器执行上述第二方面所述的方法。

第十一方面，提供了一种控制自动驾驶策略生成系统的装置，该装置可以实现上述第四方面所涉及的方法中各个步骤所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置包括处理器，该处理器被配置为支持该装置执行上述第四方面所涉及的方法中相应的功能。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。可选地，该装置还包括通信接口，该通信接口用于支持该装置与其它网元之间的通信。

第十二方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序代码，该计算机程序代码被处理单元或处理器执行时，使得处理单元或处理器执行第四方面所述的方法。

第十三方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被处理单元或处理器运行时，使得处理单元或处理器执行上述第四方面所述的方法。

附图说明

图1是一种适用于本申请的训练控制策略模型的系统的示意图；

图2是本申请提供的一种训练用于生成自动驾驶策略的控制策略模型的方法的示意性流程图；

图3是本申请提供的利用强化学习模型训练第一编码器和策略函数的方法的示意性流程图；

图4是本申请提供的一种汽车物理装置的示意图；

图5是本申请提供的一种生成自动驾驶策略的方法的示意性流程图；

图6是本申请提供的一种自动驾驶车辆的结构示意图；

图7是本申请提供的一种控制自动驾驶车辆实现自动驾驶的示意性流程图；

图8是本申请提供的一种自动驾驶策略生成系统的示意图；

图9是本申请提供的一种控制自动驾驶策略生成系统的方法的示意图；

图10是本申请提供的一种训练用于生成自动驾驶策略的控制策略模型的装置的结构示意图；

图11是本申请提供的另一种训练用于生成自动驾驶策略的控制策略模型的装置的结构示意图；

图12是本申请提供的一种生成自动驾驶策略的装置的结构示意图；

图13是本申请提供的另一种生成自动驾驶策略的装置的结构示意图；

图14是本申请提供的一种控制自动驾驶策略生成系统的装置的结构示意图；

图15是本申请提供的另一种控制自动驾驶策略生成系统的装置的结构示意图。

具体实施方式

图1示出了一种适用于本申请的训练控制策略模型的系统。该系统用于在模拟环境下训练用于生成自动驾驶策略的控制策略模型，该系统包括：

模拟器110，包括环境模块111、汽车模块112和模拟器引擎113，其中，环境模块111用于设置交通环境(例如城市、乡村、高速公路等)，汽车模块112用于模拟自车的电子系统、动力系统和外形特征等，模拟器引擎113也可称为任务逻辑模块，用于设计驾驶任务、规划路线、设计奖惩规则等，将整个模拟过程按时间顺序逐步推进。

自动驾驶智能体120，包括强化学习模块121，自动驾驶智能体120可以是一个软件程序，用于从模拟器110接收自车状态参数x ⁽⁰⁾、低维训练数据x ⁽¹⁾、高维训练数据x ⁽²⁾和即时奖励r，根据上述数据做出决策(即，控制动作)，并向模拟器110发送控制动作信息。强化学习模块121用于通过强化学习(reinforcement learning)模型训练下文所述的第一编码器。

x ⁽⁰⁾例如是车辆的速度、加速度、车身偏移角度、位置等数据，x ⁽¹⁾例如是激光雷达数据，x ⁽²⁾例如是前置摄像头拍摄的图像数据，自动驾驶智能体120基于上述数据确定的控制动作例如是加速、刹车和方向盘角度，若模拟器110执行该控制动作后完成了驾驶任务，则向自动驾驶智能体120发送的即时奖励r可以是正面反馈，若模拟器110执行该控制动作后未完成驾驶任务，则向自动驾驶智能体120发送的即时奖励r可以是负面反馈。

采用本申请提供的确定自动驾驶策略的方法，上述系统最终能够输出一套可以在真实环境中直接根据高维数据做出决策的模型。

下面，将详细描述本申请提供的确定自动驾驶策略的方法。

在驾驶汽车的过程中，驾驶员通过视觉获取自车(即，驾驶员所驾驶的车辆)与障碍物之间的距离，从而做出控制策略避开障碍物。上述控制策略是驾驶员基于自车与障碍物之间的距离做出的，实际上，驾驶员通过视觉获取的完整信息还包括障碍物的形状、类型等信息，因此，指示自车与障碍物之间的距离的数据可以称为低维数据，包含上述完整信息的数据可以称为高维数据。由于低维数据包含的信息是高维数据包含的信息的子集，因此，若能够根据低维数据确定自动驾驶控制策略，那么，也能够通过该高维数据确定自动驾驶策略。

基于上述原理，若高维数据和低维数据是在同一个交通环境中采集的数据，则通过低维数据的控制策略模型处理低维数据得到的自动驾驶策略与通过高维数据的控制策略模型处理高维数据得到的自动驾驶策略必然相同。

由于低维数据包含的信息量较少，通过低维数据训练控制策略模型比较容易获得符合安全驾驶要求的控制策略模型，因此，可以首先根据低维数据训练出符合安全驾驶要求的控制策略模型，随后利用该控制策略模型监督高维数据的控制策略模型的训练。

本申请提供的训练低维数据的控制策略模型的方法包括：

根据多个低维数据样本和多个交通工具的状态参数训练低维数据的控制策略模型，得到第一编码器和策略函数，上述多个低维数据样本与多个交通工具的状态参数一一对应。

上述多个低维数据样本和多个交通工具的状态参数例如是模拟器110生成的数据。上述交通工具可以是车辆，还可以是飞行器、潜水器、船只、工业机器人等其它设备。

第一编码器用于从低维数据样本中提取出隐特征空间，策略函数用于基于自车参数(例如，自车速度)和低维数据样本的隐特征空间输出自动驾驶策略。隐特征空间是通过机器学习算法从原始数据(例如，低维数据样本)中提取的特征的集合，特征是原始数据的抽象化表示，由于从原始数据中提取出的特征通常作为机器学习算法的中间参数而非输出结果，因此，特征也被称为隐特征(latent feature)。

作为一个可选的实施方式，训练系统在训练第一编码器时可以根据下述方式进行训练：

根据

和

确定

其中，f′ ₁表示更新前的第一编码器，

表示与

相关的梯度s ⁽¹⁾(gradient of s ⁽¹⁾with respect of

)，

表示更新后的

与

正相关，且，

与

负相关；根据

更新f′ ₁得到f ₁，f ₁表示更新后的第一编码器。

在本申请中，正相关指的是当自变量增大时，因变量也增大，当自变量减小时，因变量也减小，例如，对于函数y＝2x，当x增大时，y也增大，当x减小时，y也减小，则称y与x正相关。又例如，对于函数y＝x ²，当x增大时，y也增大，当x减小时，y也减小，则称y与x正相关。

类似地，负相关指的是当自变量增大时，因变量减小，当自变量减小时，因变量增大。

上述方案提供了采用梯度下降算法时第一编码器的训练方法，能够不断优化第一编码器，从而使得从低维训练数据中获得的隐特征空间能够更加准确地反映第一交通环境。例如，

η表示学习率，取值范围是大于或等于0且小于或等于1。

随后，训练系统获取低维训练数据，将该低维训练数据输入上述第一编码器，获得低维训练数据的隐特征空间，并利用低维训练数据的隐特征空间监督高维训练数据的控制策略模型的训练。

训练高维数据的控制策略模型的方法如图2所示，该方法可以由训练系统执行，即，通过离线方式训练第二编码器，也可以由车辆执行，即，通过在线方式训练第二编码器。方法200包括：

S210，获取低维训练数据的隐特征空间，其中，该低维训练数据为从第一交通场景中采集到的数据。

在本申请中，低维训练数据指的是在模型训练阶段使用的低维数据，低维训练数据的隐特征空间可以是一种低维训练数据(例如，测距雷达数据)的隐特征空间，也可以是多种低维训练数据(例如，测距雷达数据和测速雷达数据)的隐特征空间。

S220，通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，该高维训练数据为从第一交通场景中采集到的数据，并且，低维训练数据包含的信息是高维训练数据包含的信息的子集，所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。

第二编码器用于从高维训练数据中获取隐特征空间，高维训练数据的隐特征空间包括低维训练数据的部分或全部隐特征空间，通过训练获得的第二编码器从高维训练数据中获取的隐特征空间与第一编码器从低维训练数据中获得的隐特征空间相同，即，通过训练得到的第二编码器能够将高维训练数据映射到低维训练数据的隐特征空间上，这样，就可以利用第二编码器和低维数据的控制策略模型中的策略函数组成高维数据的控制策略模型，以生成自动驾驶策略。

高维训练数据可以是与低维训练数据同步采集到的数据，例如，高维传感器和低维传感器同时工作，从第一交通场景中采集数据。

在本申请中，“第一”、“第二”等词语仅用于区分不同的个体，并不代表对名词的限定。第二编码器可以是函数，也可以是人工神经网络，还可以是其它算法或模型，用于处理输入的高维训练数据，并获取高维训练数据的隐特征空间。

综上，本申请首先获取低维训练数据的隐特征空间，由于低维训练数据包含的信息量较小，并且，低维训练数据包含的冗余信息较少，因此，基于低维训练数据的隐特征空间比较容易获得可用的策略函数。随后，利用该隐特征空间监督第二编码器的训练过程，即，训练一个能够将高维训练数据映射到低维训练数据的隐特征空间的第二编码器。第二编码器训练完成后，即可使用第二编码器和预先得到的策略函数直接处理真实环境中的高维数据(即，高维真实数据)，得到可用的自动驾驶策略。

可选地，上述通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，包括：

将高维训练数据作为输入量输入第二编码器得到高维训练数据的隐特征空间，低维训练数据的隐特征空间用于监督第二编码器的输出结果，使得高维训练数据的隐特征空间与低维训练数据的隐特征空间相同。

在可接受的误差范围内，若第二编码器处理高维训练数据得到的高维训练数据的隐特征空间与低维训练数据的隐特征空间部分相同，也可以认为第二编码器将高维训练数据映射至低维训练数据的隐特征空间。

可选地，方法200中，通过高维训练数据和低维训练数据的隐特征空间训练第二编码器，包括：根据

和

确定

其中，f′ ₂表示更新前的第二编码器，

表示f′ ₂中除自变量之外的参数，

表示与

相关的梯度l，l表示

和

的方差，

表示更新后的

与

正相关，且，

与

负相关，其中，

x ⁽²⁾表示高维训练数据，

表示

的范数；根据

更新f′ ₂得到f ₂，f ₂表示更新后的第二编码器。

上述方案提供了采用梯度下降算法时第二编码器的训练方法，能够不断优化第二编码器，使得高维训练数据更加准确地映射到低维训练数据的隐特征空间。例如，

η表示学习率，取值范围是大于或等于0且小于或等于1。

可选地，根据

和

确定

之前，方法200还包括：

对齐x ⁽¹⁾和x ⁽²⁾的时间戳。

对齐低维训练数据和高维训练数据的时间戳能够将高维训练数据更加准确地映射到低维训练数据的隐特征空间

下面，将详细描述f ₁、f ₂和g的训练过程。

图3示出了本申请提供的利用强化学习模型训练模型(f ₁，g)的流程。

该训练流程包括：

A0：自动驾驶智能体120初始化，设置当前时刻t为0。

A1：接收并读取当前时刻模拟车辆的x ⁽⁰⁾、x ⁽¹⁾和r(如图3中虚线箭头所示)。

A2：通过强化学习模型得到的策略模型g计算a，a＝g(x ⁽⁰⁾，f ₁(x ⁽¹⁾))。

A3：将a发送给模拟器110。

A4：继续训练模型(f ₁，g)。

B0：模拟器110初始化，设置地图、路线等交通环境。

B1：发送或更新当前时刻模拟车辆的x ⁽⁰⁾、x ⁽¹⁾和r。

B2：接收并读取a(如图3中虚线箭头所示)。

B3：在模拟车辆上实施a。

B4：获取实施a的模拟结果，并根据模拟结果确定r，返回B1。

在上述训练流程中应用重放缓冲(replay buffer)技术，重放缓冲是一种定长的内存容器数据结构，其中存储的记录可替换。例如，在步骤A1中，将记录的(x _t ⁽⁰⁾,x _t ⁽¹⁾,a _t,r _t,x _t+1 ⁽⁰⁾,x _t+1 ⁽¹⁾)保存到该重放缓冲中。

之后，在步骤A4中，从上述重放缓冲中随机抽取一批(batch)数据来训练模型(f ₁，g)。上述强化学习模型可以是离策略(off-policy)的，也可以是在策略(on-policy)的。在本实施例中，采用离策略的归一化先进函数(normalized advantage function，NAF)算法作为强化学习模型。

NAF算法是一种支持连续控制动作的Q学习(Q-learning)方法，其中，Q估值函数如公式(1)所示，它可以进一步被表示为先进(advantage)函数A和状态估值函数V。这里，一个重要的技术是将函数A表示成一个二次型，如公式(2)所示，其中，矩阵P为正定矩阵。矩阵P可以进一步被表示为下三角矩阵L与L的转置矩阵的乘积，如公式(3)所示。从而，控制动作a可以直接通过Q估值函数网络的子网络a＝g(s)计算出来，其中，s由s ⁽⁰⁾和s ⁽¹⁾拼接得到。

Q(s,a|θ ^Q)＝A(s,a|θ ^A)+V(s|θ ^V) (1)

P(s|θ ^P)＝L(s|θ ^L) ^TL(s|θ ^L) (3)

NAF算法的训练过程为标准的Q学习方法，即，通过最小化Bellman函数的方差来实现最大化未来回报(累积奖励)的目标，如公式(4)所示。为了保持Q估值函数的稳定性，可以采用目标网络(target network)技巧，即，使用两个同样结构的Q估值函数网络，分别即为Q和Q′，前者(在策略)用来探索问题空间，后者(离策略)用来估值。整个学习过程通过公式(4)实现，用一个大小为N的batch数据来更新上述步骤A4中的模型，更新公式为公式(5)和公式(6)所示。

θ ^Q′＝τθ ^Q-(1-τ)θ ^Q′ (6)

我们最终需要的是Q的两个子网络，即，第一编码器f ₁和策略函数g。上述公式(4)中，γ表示打折(discount)因子，取值范围是0至1。公式(5)和公式(6)分别为θ ^Q和θ ^Q′的更新公式，即，等号左边的θ ^Q和θ ^Q′为更新后的参数，等号右边的θ ^Q和θ ^Q′为更新前的参数。

模型(f ₁，g)训练完成后，使用装备有激光雷达和摄像头的车辆在真实的交通环境中同时采集低维的雷达扫描数据(即，低维训练数据)和高维的图像数据(即，高维训练数据)，装备有激光雷达和摄像头的汽车物理装置400如图4所示。

其中，对数据采集有以下要求：固定激光雷达402和摄像头403的安装位置，对齐低维训练数据和高维训练数据的时间戳。

对齐低维训练数据和高维训练数据后，利用图2所示的方法训练f ₂，采用方法200中的梯度下降算法优化f ₂，即，通过最小化损失函数l优化f ₂，最终得到能够将高维训练数据映射至低维训练数据的隐特征空间的第二编码器。

基于方法200得到的第二编码器，本申请还提供了一种生成自动驾驶策略的方法，如图5所示，该方法500包括：

S510，将高维真实数据输入第二编码器得到高维真实数据的隐特征空间，高维真实数据为交通工具从当前的交通场景中采集到的数据。

S520，根据高维真实数据的隐特征空间、交通工具的状态参数以及策略函数生成自动驾驶策略，所述自动驾驶策略用于控制交通工具在当前的交通场景下行驶。

执行方法500的设备例如是汽车，将包含第二编码器的控制策略模型部署到汽车上，可以利用高维传感器采集到的高维真实数据生成适用于当前交通场景的自动驾驶策略。上述高维传感器例如是高清摄像头，由于高清摄像头相对于激光雷达等低维传感器的价格低廉，且抗干扰能力较强，因此，通过方法500生成自动驾驶策略无需使用价格昂贵的低维传感器，能够以较低的成本实现自动驾驶，并且能够适应更多的交通环境。

下面，将详细本申请提供的生成自动驾驶策略的方法。

通过图3所述的训练过程，我们最终得到包含第二编码器的控制策略模型(f ₂，g)，它是f ₂与g的复合函数。将模型(f ₂，g)应用到图6所示的车辆600中。

车辆600包括汽车物理装置400，汽车物理装置400包括动力控制系统401(例如，加速器、方向盘和刹车装置)，用于采集高维真实数据的摄像头403，以及用于采集自车状态参数x ⁽⁰⁾的传感器404。

车辆600还包括自动驾驶系统601，自动驾驶系统601包括由路线规划模块602和控制决策模块603，其中，路线规划模块602用于基于驾驶任务、地图和定位信息来规划路线，控制决策模块603用于调用模型(f ₂，g)，并根据获取到的x ⁽⁰⁾和x ⁽²⁾计算车辆控制动作a，随后通过控制适配器604将a与动力控制系统601进行匹配，例如，控制动作a为刹车动作，则控制适配器604向动力控制系统601中的刹车装置发送命令，执行刹车动作，从而完成了自动驾驶。

自动驾驶系统601可以是通过软件实现的功能模块，也可以是通过硬件实现的功能模块。

图7示出了本申请提供的一种自动驾驶流程的示意图。

该驾驶流程包括：

C1：基于驾驶任务、地图和定位信息来规划路线。

C2：接收当前时刻的x ⁽⁰⁾和x ⁽²⁾(如图7中虚线箭头所示)。

C3：计算控制动作a，a＝g(x ⁽⁰⁾，f ₂(x ⁽²⁾))，并将控制动作匹配到动力控制系统601中相应的装置。

C4：向动力控制系统601发送命令(如图7中虚线箭头所示)，返回C1。

D0：初始化，起动。

D1：发送当前时刻的自车状态参数x ⁽⁰⁾和高维真实数据x ⁽²⁾。

D2：接收控制命令。

D3：执行控制动作a，返回步骤D1。

本申请还提供了一种自动驾驶策略生成系统，如图8所示，该系统800包括：

控制策略模型810、第一开关K1和第二开关K2，其中，控制策略模型810包括第一编码器f ₁、第二编码器f ₂和策略函数模块g。

第一开关K1用于控制f ₁与g之间的通路状态，第二开关K2用于控制f ₂与g之间的通路状态，f ₁用于接收交通工具从交通场景中采集的低维真实数据并输出该低维真实数据的隐特征空间，f ₂用于接收所述交通工具从交通场景中采集的高维真实数据并输出该高维真实数据的隐特征空间，g用于根据接收到的交通工具的状态参数和隐特征空间生成自动驾驶策略，所述自动驾驶策略用于控制交通工具在交通场景下行驶。

上述系统可以根据交通工具采集到的数据的类型选择不同的策略生成路径，例如，当采集到的数据为低维真实数据时，控制K1的工作状态为闭合，获取低维真实数据的隐特征空间，随后将低维真实数据的隐特征空间输入g，基于低维真实数据获得自动驾驶策略；当采集到的数据为高维真实数据时，控制K2的工作状态为闭合，获取高维真实数据的隐特征空间，随后将高维真实数据的隐特征空间输入g，基于高维真实数据获得自动驾驶策略。这样，即使交通工具的低维传感器或者高维传感器出现故障，只要有一个传感器正常工作，上述系统均可生成适用于当前交通环境的自动驾驶策略，因此，上述系统具有较强的灵活性和鲁棒性。

可选地，K1和K2的工作状态相反，以实现g接收到f ₁或f ₂输出的隐特征空间。

在上述方案中，K1和K2的工作状态相反，当K1的工作状态为闭合，K2的工作状态为断开时，f ₁与g之间的通路状态为联通，f ₂与g之间的通路状态为切断，以实现f ₁向g输入低维真实数据的隐特征空间；当K1的工作状态为断开，K2的工作状态为闭合时，f ₂与g之间的通路为联通，f ₁与g之间的通路状态为切断，以实现f ₂向g输入高维真实数据的隐特征空间。

因此，g在同一时刻只能接收到的一种数据的隐特征空间，可以避免因g同时接收到多种数据的隐特征空间导致系统800运行出错。

可选地，系统800还包括：

数据阀门，用于控制低维真实数据是否输入第一编码器，和，控制高维真实数据是否输入第二编码器。

本申请还提供了一种基于自动驾驶策略生成系统800的控制方法，如图9所示，该控制方法900包括：

S910，通过控制第一开关和第二开关的工作状态，向策略函数模块输入低维真实数据的隐特征空间或高维真实数据的隐特征空间。

方法900的执行装置可以是车载处理器或者是包含该车载处理器的汽车，该车载处理器可以根据采集到的数据的类型选择不同的策略生成路径，例如，当采集到的数据为低维真实数据时，控制第一开关的工作状态为闭合，基于低维真实数据获得自动驾驶策略，当采集到的数据为高维真实数据时，控制第二开关的工作状态为闭合，基于高维真实数据获得自动驾驶策略，因此，方法900具有较强的灵活性和鲁棒性。

车载处理器可以根据传感器采集到的数据所包含的信息的类型确定采集到的数据属于低维真实数据还是高维真实数据，可以通过如下原则判断采集到的数据为低维真实数据还是高维真实数据：

当采集到的数据包含的信息的类型的数量小于或等于数量阈值时，确定该数据为低维真实数据；当采集到的数据包含的信息的类型的数量大于数量阈值时，确定该数据为高维真实数据。

例如，上述数量阈值为2，当采集到的数据仅包含“距离”信息时，确定该数据为低维真实数据，当采集到的数据包含“距离”、“速度”和“障碍物类型”这三种信息时，确定该数据为高维真实数据。

上述方法仅是举例说明，本申请对车载处理器如何确定采集到的数据的类型不作限定。

可选地，S910包括：

控制第一开关的工作状态为闭合和第二开关的工作状态为断开；第一编码器向策略函数模块输入低维真实数据的隐特征空间。

例如，上述低维真实数据为汽车通过激光雷达从交通场景中采集的雷达数据，上述高维真实数据为汽车通过高清摄像头从交通场景中采集的图像数据。

若当前交通场景为雨雪场景，由于雨雪对激光雷达的干扰(例如，雨雪对雷达波的折射和/或反射使得雷达接收器不能接收到障碍物回波)大于对高清摄像头的干扰，因此，可以控制第一开关的工作状态为断开，以及，控制第二开关的工作状态为闭合，从而可以利用高可靠性的高维真实数据获得高可靠性的自动驾驶策略。

若当前交通场景为高强度光照场景，由于高强度光照对激光雷达的干扰小于对高清摄像头的干扰(例如，高强度的反射光使得高清摄像头的无法获得清晰的图像)，因此，可以控制第一开关的工作状态为闭合，以及，控制第二开关的工作状态为断开，从而可以利用高可靠性的低维真实数据获得高可靠性的自动驾驶策略。

上文详细描述了本申请提供的训练用于生成自动驾驶策略的控制策略模型的方法的示例。可以理解的是，训练用于生成自动驾驶策略的控制策略模型的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请可以根据上述方法示例对确定自动驾驶策略的装置进行功能单元的划分，例如，可以将各个功能划分为各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图10示出了本申请提供的训练用于生成自动驾驶策略的控制策略模型的装置的一种可能的结构示意图。装置1000包括：处理单元1001和通信单元1002。处理单元1001用于控制装置1000执行图2所示的训练第二编码器的步骤。处理单元1001还可以用于执行本文所描述的技术的其它过程。装置1000还可以包括存储单元1003，用于存储装置1000的程序代码和数据。

例如，通信单元1002用于执行：获取低维训练数据的隐特征空间，其中，所述低维训练数据为从第一交通场景中采集到的数据；

处理单元1001用于执行：通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，所述高维训练数据为从所述第一交通场景中采集到的数据，并且，所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集，所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。

处理单元1001可以是处理器或控制器，例如可以是中央处理器(central processing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元1102例如是通信接口，存储单元1003可以是存储器。

当处理单元1001为处理器，通信单元1102例如是通信接口，存储单元1003为存储器时，本申请所涉及的确定自动驾驶策略的装置可以为图11所示的装置。

参阅图11所示，该装置1100包括：处理器1101、通信接口1102和存储器1103(可选的)。其中，处理器1101、通信接口1102和存储器1103可以通过内部连接通路相互通信，传递控制和/或数据信号。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请提供的训练用于生成自动驾驶策略的控制策略模型的装置，首先获取低维训练数据的隐特征空间，随后利用低维训练数据的隐特征空间监督第二编码器的训练，得到能够将高维训练数据映射至低维训练数据的隐特征空间的编码器，从而获得利用高维真实数据直接生成可用的自动驾驶策略的控制策略模型。

在采用集成的单元的情况下，图12示出了本申请提供的生成自动驾驶策略的装置的一种可能的结构示意图。装置1200包括：处理单元1201和通信单元1202。处理单元1201用于控制装置1200执行图5所示的生成自动驾驶策略的步骤。处理单元1201还可以用于执行本文所描述的技术的其它过程。装置1200还可以包括存储单元1203，用于存储装置1200的程序代码和数据。

例如，通信单元1202用于获取高维真实数据；

处理单元1201用于执行：将高维真实数据输入第二编码器得到所述高维真实数据的隐特征空间，所述高维真实数据为交通工具从当前的交通场景中采集到的数据；根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及策略函数生成自动驾驶策略，所述自动驾驶策略用于控制所述交通工具在所述交通场景下行驶。

处理单元1201可以是处理器或控制器，例如可以是CPU，通用处理器，DSP，ASIC，FPGA或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元1202可以是通信接口，存储单元1203可以是存储器。

当处理单元1201为处理器，通信单元1202例如是通信接口，存储单元1203为存储器时，本申请所涉及的生成自动驾驶策略的装置可以为图13所示的装置。

参阅图13所示，该装置1300包括：处理器1301、通信接口1302和存储器1303(可选的)。其中，处理器1301、通信接口1302和存储器1303可以通过内部连接通路相互通信，传递控制和/或数据信号。

本申请提供的生成自动驾驶策略的装置，部署包含第二编码器的控制策略模型，可以利用高维传感器采集到的高维真实数据生成适用于当前交通场景的自动驾驶策略。上述高维传感器例如是高清摄像头，由于高清摄像头相对于激光雷达等低维传感器的价格低廉，且抗干扰能力较强，因此，生成自动驾驶策略的装置无需使用价格昂贵的低维传感器，能够以较低的成本实现自动驾驶，并且能够适应更多的交通环境。

在采用集成的单元的情况下，图14示出了本申请提供的控制自动驾驶策略生成系统的装置一种可能的结构示意图。装置1400包括：处理单元1401和存储单元1403。处理单元1401用于控制装置1400执行图9所示的控制自动驾驶系统的步骤。处理单元1401还可以用于执行本文所描述的技术的其它过程。存储单元1403用于存储装置1400的程序代码和数据。装置1400还可以包括通信单元1402，用于与其它设备通信。

例如，处理单元1401用于执行：通过控制第一开关和第二开关的工作状态，向策略函数模块输入低维真实数据的隐特征空间或高维真实数据的隐特征空间。

处理单元1401可以是处理器或控制器，例如可以是CPU，通用处理器，DSP，ASIC，FPGA或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元1402可以是通信接口，存储单元1403可以是存储器。

当处理单元1401为处理器，通信单元1402例如是通信接口，存储单元1403为存储器时，本申请所涉及的控制自动驾驶策略生成系统的装置可以为图15所示的装置。

参阅图15所示，该装置1500包括：处理器1501、通信接口1502(可选的)和存储器1503。其中，处理器1501、通信接口1502和存储器1503可以通过内部连接通路相互通信，传递控制和/或数据信号。

本申请提供的控制自动驾驶系统的装置，根据采集到的数据的类型选择不同的策略生成路径，例如，当采集到的数据为低维真实数据时，控制第一开关的工作状态为闭合，基于低维真实数据获得自动驾驶策略，当采集到的数据为高维真实数据时，控制第二开关的工作状态为闭合，基于高维真实数据获得自动驾驶策略，因此，方法900具有较强的灵活性和鲁棒性。

装置实施例和方法实施例完全对应，例如通信单元执行方法实施例中的获取步骤，除获取步骤和发送步骤以外的其它步骤均可以由处理单元或处理器执行。具体单元的功能可以参考相应的方法实施例，不再详述。

在本申请各个实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable ROM，EPROM)、电可擦可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种训练用于生成自动驾驶策略的控制策略模型的方法，其特征在于，包括：

获取低维训练数据的隐特征空间，其中，所述低维训练数据为从第一交通场景中采集到的数据；

通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，所述高维训练数据为从所述第一交通场景中采集到的数据，并且，所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集，所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。
根据权利要求1所述的方法，其特征在于，所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，包括：

将所述高维训练数据作为输入量输入所述第二编码器得到所述高维训练数据的隐特征空间，所述低维训练数据的隐特征空间用于监督所述第二编码器的输出结果，使得所述高维训练数据的隐特征空间与所述低维训练数据的隐特征空间相同。
根据权利要求1或2所述的方法，其特征在于，所述获取低维训练数据的隐特征空间，包括：

将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间，所述第一编码器基于多个低维数据样本训练得到，所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据，所述第一编码器为所述控制策略模型的组成部分。
根据权利要求3所述的方法，其特征在于，在所述将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间之前，所述方法还包括：

根据所述多个低维数据样本和多个交通工具的状态参数训练所述控制策略模型，得到所述第一编码器和所述策略函数，所述多个低维数据样本与所述多个交通工具的状态参数一一对应。
根据权利要求3所述的方法，其特征在于，所述将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间之前，所述方法还包括：

根据
和
确定
其中，所述f ₁′表示更新前的所述第一编码器，所述
表示所述f ₁′中除自变量之外的参数，所述s ⁽¹⁾表示所述隐特征空间，所述
表示与所述
相关的梯度s ⁽¹⁾，所述
表示与所述s ⁽¹⁾相关的梯度L _RL，所述L _RL表示与所述强化学习模型相关的损失函数，所述
表示更新后的所述
所述
与所述
正相关，且，所述
与所述
负相关；

根据所述
更新所述f ₁′得到所述f ₁，所述f ₁表示更新后的所述第一编码器。
根据权利要求5所述的方法，其特征在于，所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，包括：

根据
和
确定
其中，所述f ₂′表示更新前的所述第二编码器，所述
表示所述f ₂′中除自变量之外的参数，所述
表示与所述
相关的梯度l，所述l表示
和
的方差，所述
表示更新后的所述
所述
与所述
正相关，且，所述
与所述
负相关，其中，

所述x ⁽²⁾表示所述高维训练数据，所述
表示所述
的范数；

根据所述
更新所述f ₂′得到所述f ₂，所述f ₂表示更新后的所述第二编码器。
根据权利要求6所述的方法，其特征在于，根据所述
和
确定
之前，所述方法还包括：

对齐所述x ⁽¹⁾和所述x ⁽²⁾的时间戳。
根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

获取高维真实数据，所述高维真实数据为交通工具从第二交通场景中采集到的数据，所述高维真实数据的类型与所述高维训练数据的类型相同；

将所述交通工具的状态参数和所述高维真实数据输入所述控制策略模型，生成适用于所述第二交通场景的自动驾驶策略，所述自动驾驶策略用于控制所述交通工具在所述第二交通场景下行驶。
根据权利要求8所述的方法，其特征在于，所述控制策略模型还包括策略函数；

其中，所述将交通工具的状态参数和所述高维真实数据输入所述控制策略模型，生成适用于所述第二交通场景的自动驾驶策略，包括：

将所述高维真实数据输入所述第二编码器，得到所述高维真实数据的隐特征空间；

根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及所述策略函数，得到所述自动驾驶策略。
一种生成自动驾驶策略的方法，其特征在于，所述方法包括：

将高维真实数据输入第二编码器得到所述高维真实数据的隐特征空间，所述高维真实数据为交通工具从当前交通场景中采集到的数据；

根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及策略函数生成自动驾驶策略，所述自动驾驶策略用于控制所述交通工具在所述当前交通场景下行驶；

其中，所述第二编码器通过以下方法训练得到：

将低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间，所述低维训练数据为从第一交通场景中采集到的数据；

通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，所述高维训练数据为从所述第一交通场景中采集到的数据，并且，所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集。
根据权利要求10所述的方法，其特征在于，所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，包括：

将所述高维训练数据作为输入量输入所述第二编码器得到所述高维训练数据的隐特征空间，所述低维训练数据的隐特征空间用于监督第二编码器的输出结果，使得所述高维训练数据的隐特征空间与所述低维训练数据的隐特征空间相同。
根据权利要求10或11所述的方法，其特征在于，所述第一编码器和所述策略函数通过以下方法训练得到：

根据多个低维数据样本和多个交通工具的状态参数训练控制策略模型，得到所述第一编码器和所述策略函数，所述控制策略模型包括所述第一编码器和所述策略函数，所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据，所述多个低维数据样本与所述多个交通工具的状态参数一一对应。
一种自动驾驶策略生成系统，其特征在于，所述自动驾驶策略生成系统包括控制策略模型、第一开关、第二开关，所述控制策略模型包括第一编码器、第二编码器、策略函数模块；

其中，所述第一开关用于控制所述第一编码器与所述策略函数模块之间的通路状态，所述第二开关用于控制所述第二编码器与所述策略函数模块之间的通路状态，所述第一编码器用于接收交通工具从交通场景中采集的低维真实数据并输出所述低维真实数据的隐特征空间，所述第二编码器用于接收所述交通工具从所述交通场景中采集的高维真实数据并输出所述高维真实数据的隐特征空间，所述策略函数模块用于根据接收到的所述交通工具的状态参数和隐特征空间生成自动驾驶策略，所述自动驾驶策略用于控制所述交通工具在所述交通场景下行驶。
根据权利要求13所述的系统，其特征在于，所述第一开关和所述第二开关的工作状态相反，以实现所述策略函数模块接收到所述第一编码器或所述第二编码器输出的隐特征空间。
根据权利要求14所述的系统，其特征在于，当所述第一开关的工作状态为闭合，所述第二开关的工作状态为断开时，所述第一编码器与所述策略函数模块之间的通路状态为联通，所述第二编码器与所述策略函数模块之间的通路状态为切断，以实现所述第一编码器向所述策略函数模块输入所述低维真实数据的隐特征空间。
根据权利要求14所述的系统，其特征在于，当所述第一开关的工作状态为断开，所述第二开关的工作状态为闭合时，所述第二编码器与所述策略函数模块之间的通路为联通，所述第一编码器与所述策略函数模块之间的通路状态为切断，以实现所述第二编码器向所述策略函数模块输入所述高维真实数据的隐特征空间。
根据权利要求13至16中任一项所述的系统，其特征在于，还包括：数据阀门，用于控制所述低维真实数据是否输入所述第一编码器，和控制所述高维真实数据是否输入所述第二编码器。
一种自动驾驶策略生成系统的控制方法，其特征在于，所述自动驾驶策略生成系统包括控制策略模型、第一开关、第二开关，所述控制策略模型包括第一编码器、第二编码器、策略函数模块；其中，所述第一开关用于控制所述第一编码器与所述策略函数模块之间的通路状态，所述第二开关用于控制所述第二编码器与所述策略函数模块之间的通路状态，所述第一编码器用于接收交通工具从交通场景中采集的低维真实数据并输出所述低维真实数据的隐特征空间，所述第二编码器用于接收所述交通工具从所述交通场景中采集的高维真实数据并输出所述高维真实数据的隐特征空间，所述策略函数模块用于根据接收到的所述交通工具的状态参数和隐特征空间生成自动驾驶策略；

所述方法包括：

通过控制所述第一开关和所述第二开关的工作状态，向所述策略函数模块输入所述低维真实数据的隐特征空间或所述高维真实数据的隐特征空间。
根据权利要求18所述的方法，其特征在于，所述通过控制所述第一开关和所述第二开关的工作状态，向所述策略函数模块输入所述低维真实数据的隐特征空间或所述高维真实数据的隐特征空间，包括：

控制所述第一开关的工作状态为闭合和所述第二开关的工作状态为断开；

所述第一编码器向所述策略函数模块输入所述低维真实数据的隐特征空间。
根据权利要求18所述的方法，其特征在于，所述通过控制所述第一开关和所述第二开关的工作状态，向所述策略函数模块输入所述低维真实数据的隐特征空间或所述高维真实数据的隐特征空间，包括：

控制所述第二开关的工作状态为闭合和所述第一开关的工作状态为断开；

所述第二编码器向所述策略函数模块输入所述高维真实数据的隐特征空间。
根据权利要求19所述的方法，其特征在于，所述低维真实数据的可靠性高于所述高维真实数据的可靠性。
根据权利要求20所述的方法，其特征在于，所述高维真实数据的可靠性高于所述低维真实数据的可靠性。
根据权利要求18至22中任一项所述的方法，其特征在于，所述低维真实数据为所述交通工具通过雷达从所述交通场景中采集的雷达数据，所述高维真实数据为所述交通工具通过摄像头从所述交通场景中采集的图像数据。
一种训练用于生成自动驾驶策略的控制策略模型的装置，其特征在于，包括处理单元和存储单元，所述存储单元存储有指令，当所述指令被所述处理单元运行时，使得所述处理单元执行如权利要求1至9中任一项所述的方法。
一种生成自动驾驶策略的装置，其特征在于，包括处理单元和存储单元，所述存储单元存储有指令，当所述指令被所述处理单元运行时，使得所述处理单元执行如权利要求10至12中任一项所述的方法。
一种控制自动驾驶策略生成系统的装置，其特征在于，包括处理单元和存储单元，所述存储单元存储有指令，当所述指令被所述处理单元运行时，使得所述处理单元执行如权利要求18至23中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当处理器调用所述计算机程序时，使得所述处理器执行权利要求1至9中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当处理器调用所述计算机程序时，使得所述处理器执行权利要求10至12中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当处理器调用所述计算机程序时，使得所述处理器执行权利要求18至23中任一项所述的方法。