WO2022017307A1

WO2022017307A1 - 自动驾驶场景生成方法、装置及系统

Info

Publication number: WO2022017307A1
Application number: PCT/CN2021/107014
Authority: WO
Inventors: 邵坤; 王滨; 刘武龙; 陈栋
Original assignee: 华为技术有限公司
Priority date: 2020-07-22
Filing date: 2021-07-19
Publication date: 2022-01-27
Also published as: CN113968242B; CN113968242A

Abstract

一种自动驾驶场景生成方法、装置及系统，包括：获取第一驾驶模型，第一驾驶模型用于至少一辆自动驾驶车辆（100、510、512）的输出驾驶策略；对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型；在性能指标对应的第二驾驶模型中采样自动驾驶车辆（100、510、512）的驾驶数据；根据自动驾驶车辆（100、510、512）的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

Description

自动驾驶场景生成方法、装置及系统

本申请要求于2020年07月22日提交中国国家知识产权局、申请号为202010711287.4、申请名称为“自动驾驶场景生成方法、装置及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的自动驾驶技术领域，尤其涉及一种自动驾驶场景生成方法、装置及系统。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能与人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

自动驾驶是人工智能领域的一种主流应用，自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作，让机动车辆可以在不需要人类主动操作下，实现自动驾驶。自动驾驶的车辆使用各种计算系统来帮助乘客从一个位置运输到另一位置。一些自动驾驶车辆可能要求来自操作者(诸如，领航员、驾驶员、或者乘客)的一些初始输入或者连续输入。自动驾驶车辆准许操作者从手动模操作式切换到自动驾驶模式或者介于两者之间的模式。由于自动驾驶技术无需人类来驾驶机动车辆，所以理论上能够有效避免人类的驾驶失误，减少交通事故的发生，且能够提高公路的运输效率。因此，自动驾驶技术越来越受到重视。

在自动驾驶领域中，自动驾驶策略(也可以称为自动驾驶算法)在应用于自动驾驶车辆之前，通常需要进行训练。例如，在训练中，可以在设定的自动驾驶场景中训练自动驾驶策略，直到自动驾驶策略满足需求。

相关技术中，自动驾驶场景是利用相机等采集真实的路测环境图像，并对图像进行处理，得到仿真环境中的自动驾驶场景。

但是，通常真实的路测环境中的驾驶场景不够全面，导致相关技术中自动驾驶策略的鲁棒性差。

发明内容

本申请实施例提供一种自动驾驶场景生成方法、装置及系统，用于获取较为全面的、多样性的自动驾驶场景。

应理解，本申请实施例中提供的进行自动驾驶场景生成的方法可以由自动驾驶场景生成系统执行。

在一种可能的实现方式中，自动驾驶场景生成的系统包括第一驾驶模型获取单元、第二驾驶模型获取单元、采样单元和自动驾驶场景生成单元。

其中，第一驾驶模型获取单元，用于获取第一驾驶模型，第一驾驶模型用于输出驾驶策略。

第二驾驶模型获取单元，用于针对自动驾驶中的性能指标，修改第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型。

采样单元，用于在性能指标对应的第二驾驶模型中采样自动驾驶车辆的驾驶数据。

自动驾驶场景生成单元，用于根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

需要说明的是，本申请实施例中自动驾驶场景生成系统可以是单独一个具有自动驾驶场景生成功能的装置。也可以是至少两个装置的组合，即至少两个装置组合成一个整体具有自动驾驶场景生成功能的系统，当自动驾驶场景生成系统为至少两个装置的组合时，自动驾驶场景生成系统中的两个装置之间，可以通过蓝牙、有线连接或者无线传输中的一种通信方式进行通信。

其中，本申请实施例中的自动驾驶场景生成系统可以安装在移动设备上，例如车辆中，用于该车辆生成自动驾驶场景。另外，自动驾驶场景生成系统除了安装在移动设备上以外，还可以安装在固定的设备上，例如，安装在服务器、终端设备等设备上，用于生成自动驾驶场景。

第一方面，本申请实施例提供一种自动驾驶场景生成方法，包括：

获取第一驾驶模型，第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个所述第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型；在性能指标对应的第二驾驶的模型中采样自动驾驶车辆的驾驶数据；根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。本申请实施例中，在获取第一驾驶模型后，可以进一步基于第一驾驶模型得到与性能指标相关的多样化的车辆行驶数据，将多样化的车辆行驶数据赋值到障碍物数据，并结合环境模型，可以得到较为全面的、多样性的自动驾驶场景。

一种可能的实现方式中，获取第一驾驶模型包括：获取第一车辆的行驶相关数据和第一车辆的周围车辆的行驶相关数据；将第一车辆的行驶相关数据和第一车辆的周围车辆的行驶相关数据输入预设的模型；利用预设的模型输出第一车辆的驾驶策略；调整预设的模型的参数，直到预设的模型输出的第一车辆的驾驶策略符合预设条件，得到第一驾驶模型。这样，可以基于车辆的行驶相关数据训练得到第一驾驶模型。

一种可能的实现方式中，行驶相关数据包括下述的一种或多种：位置数据、速度数据或方向数据。这样，可以根据位置数据、速度数据和/或方向数据等与行驶相关的数据，训练得到准确的第一驾驶模型。

一种可能的实现方式中，在第一车辆与第一车辆的前车的预计碰撞时间小于第一值的情况下，预设的模型的奖励函数与第一车辆与第一车辆的前车的距离、第一车辆的速度以及第一车辆的前车的速度相关。

一种可能的实现方式中，预设的模型的奖励函数分别：与距离负相关、与第一车辆的速度负相关、与第一车辆的前车的速度正相关。

一种可能的实现方式中，预设的模型的奖励函数满足：

r _ttc＝max(-1/(ttc/ttc _target) ²,-100)

其中，ttc＝d _front/(v-v _front)，d _front是第一车辆与第一车辆的前车的距离，v是第一车辆的速度，v _front是第一车辆的前车的速度，ttc _target为第一值。

一种可能的实现方式中，在第一车辆与第一车辆的前车的预计碰撞时间大于或等于第一值的情况下，预设的模型的奖励函数与第一车辆的速度相关。

一种可能的实现方式中，在第一车辆的速度小于2米每秒的情况下，预设的模型的奖励函数与第一车辆的速度正相关；在第一车辆的速度大于第一常量的情况下，预设的模型的奖励函数与第一车辆的速度负相关；在第一车辆的速度大于或等于2米每秒，且小于或等于第一常量的情况下，预设的模型的奖励函数与第一车辆的速度正相关；第一常量大于2米每秒。

一种可能的实现方式中，预设的模型的奖励函数满足：

其中，v是第一车辆的速度，v _target为常量。

一种可能的实现方式中，预设的模型的目标函数与一段轨迹中第一车辆的累积回报相关。

一种可能的实现方式中，目标函数包括：

其中R是一段轨迹中第一车辆的累积回报，θ是模型参数。

一种可能的实现方式中，自动驾驶场景的数量为多个；方法还包括：排序多个自动驾驶场景；依次在排序后的多个自动驾驶场景中训练驾驶策略，得到目标驾驶模型。这样，在排序后的多个自动驾驶场景中训练驾驶策略，可以得到能够适应多个自动驾驶场景的目标驾驶模型。

一种可能的实现方式中，依次在排序后的多个自动驾驶场景中训练驾驶策略，得到目标驾驶模型，包括：对于按照驾驶难度从易到难排序的多个自动驾驶场景，将在先自动驾驶场景中训练得到在先驾驶策略作为在后自驾驾驶场景的输入，依次训练得到一个目标驾驶模型。这样，按照自动驾驶场景从易到难的顺序训练自动驾驶模型，可以实现递进的训练，相较于直接在难度较高的自动驾驶场景中训练，可以节约计算资源。

一种可能的实现方式中，性能指标包括：速度指标，加速度指标或与前车距离指标。

一种可能的实现方式中，性能指标的种群模型包括下述一种或多种：最大化速度的模型、最小化速度的模型、最大化与前车距离的模型、最小化与前车距离的模型、最大化平均加速度的模型或最小化平均加速度的模型。

一种可能的实现方式中，超参数包括下述一种或多种：学习率或批大小。

一种可能的实现方式中，行驶相关数据是从真实路测数据中收集的，和/或，行驶相关数据是模拟器中的车辆与环境交互生成的。

需要说明的是，本申请实施例方法可以在本地执行，也可以在云端执行，具体本申请实施例不做限定。

第二方面，本申请实施例提供一种自动驾驶场景生成装置，该装置可以用来执行上述第一方面及第一方面的任意可能的实现方式中的操作。例如，装置可以包括用于执行上述第一方面或第一方面的任意可能的实现方式中的各个操作的模块或单元。比如包括收发模块和处理模块。

示例性的，处理模块，用于：获取第一驾驶模型，第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个所述第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型；在性能指标对应的第二驾驶的模型中采样自动驾驶车辆的驾驶数据；根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

一种可能的实现方式中，处理模块，具体用于：获取第一车辆的行驶相关数据和第一车辆的周围车辆的行驶相关数据；将第一车辆的行驶相关数据和第一车辆的周围车辆的行驶相关数据输入预设的模型；利用预设的模型输出第一车辆的驾驶策略；调整预设的模型的参数，直到预设的模型输出的第一车辆的驾驶策略符合预设条件，得到第一驾驶模型。这样，可以基于车辆的形式相关数据训练得到第一驾驶模型。

一种可能的实现方式中，预设的模型的奖励函数满足：

r _ttc＝max(-1/(ttc/ttc _target) ²,-100)

一种可能的实现方式中，预设的模型的奖励函数满足：

其中，v是第一车辆的速度，v _target为常量。

一种可能的实现方式中，预设的模型的目标函数与一段轨迹中第一车辆的累积

回报相关。

一种可能的实现方式中，目标函数包括：

其中R是一段轨迹中第一车辆的累积回报，θ是模型参数。

一种可能的实现方式中，处理模块，具体用于：对于按照驾驶难度从易到难排序的多个自动驾驶场景，将在先自动驾驶场景中训练得到在先驾驶策略作为在后自驾驾驶场景的输入，依次训练得到一个目标驾驶模型。这样，按照自动驾驶场景从易到难的顺序训练自动驾驶模型，可以实现递进的训练，相较于直接在难度较高的自动驾驶场景中训练，可以节约计算资源。

第三方面，本申请实施例提供了一种芯片系统，包括处理器，可选的还包括存储器；其中，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片系统的自动驾驶场景生成装置执行上述第一方面或第一方面的任意可能的实现方式中的任一方法。

第四方面，本申请实施例提供了一种车辆，至少一个摄像器，至少一个存储器，至少一个收发器以及至少一个处理器。

摄像器，用于获取至少一张图像；存储器，用于存储一个或多个程序以及数据信息；其中一个或多个程序包括指令；收发器，用于与车辆中的通讯设备进行数据传输，以及用于与云端进行数据传输；处理器，用于获取第一驾驶模型，第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个所述第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型；在性能指标对应的第二驾驶模型中采样自动驾驶车辆的驾驶数据；根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

本申请实施例的处理器，还可以执行如第二方面任一项可能的实现方式中处理模块对应的步骤，具体可以参照第二方面的描述，在此不再赘述。

第五方面，本申请实施例提供了一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码被自动驾驶场景生成装置的通信模块、处理模块或收发器、处理器运行时，使得自动驾驶场景生成装置执行上述第一方面或第一方面的任意可能的实现方式中的任一方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有程序，程序使得自动驾驶场景生成装置执行上述第一方面或第一方面的任意可能的实现方式中的任一方法。

第七方面，本申请实施例提供了一种自动驾驶系统，包括训练设备和执行设备；训练设备用于执行上述第一方面或第一方面的任意可能的实现方式中的任一方法，执行设备用于执行根据训练设备训练得到的驾驶策略。

应当理解的是，本申请的第二方面至第七方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的系统架构示意图；

图2是本申请实施例提供的车辆100的功能框图；

图3为图2中的计算机系统的结构示意图；

图4为本申请实施例提供的一种芯片硬件结构的示意图；

图5为本申请实施例提供的操作环境示意图；

图6为本申请实施例提供的一种自动驾驶场景生成方法的流程示意图；

图7为本申请实施例提供的一种模型训练示意图；

图8为本申请实施例提供的一种模型训练示意图；

图9为本申请实施例提供的一种自动驾驶场景生成示意图；

图10为本申请实施例提供的一种模型训练示意图；

图11为本申请实施例提供的一种模型训练示意图；

图12为本申请实施例提供的一种自动驾驶场景生成方法的流程示意图；

图13为本申请实施例提供的一种自动驾驶场景生成装置的结构示意图；

图14为本申请实施例提供的另一种自动驾驶场景生成装置的结构示意图；

图15为本申请实施例提供的一种车辆的结构示意图。

具体实施方式

首先，对本申请实施例所涉及的应用场景和部分术语进行解释说明。

本申请实施例提供的自动驾驶场景生成方法、装置及系统能够应用在自动驾驶车辆的驾驶策略规划等场景。示例性地，本申请实施例提供的自动驾驶场景生成方法、装置及系统能够应用在A场景和B场景中，下面分别对A场景和B场景进行简单的介绍。

A场景：

自动驾驶车辆在道路的行驶过程中，可以依据自车和周围车辆的驾驶相关数据得到驾驶策略(也可能称为驾驶算法、控制策略或控制算法等)的模型，依据本申请实施例的自动驾驶场景生成方法生成自动驾驶场景，进而可以基于生成的自动驾驶场景训练鲁棒性较强的目标驾驶策略。

B场景：

自动驾驶车辆在道路的行驶过程中，可以采集自车和周围车辆的驾驶相关数据，以及将自车和周围车辆的驾驶相关数据发送给与该自动驾驶车辆通信的其他设备，该其他设备跟据自车和周围车辆的驾驶相关数据得到用于输出驾驶策略的模型，该其他设备依据本申请实施例的自动驾驶场景生成方法生成自动驾驶场景，该其他设备进而可以基于生成的自动驾驶场景训练鲁棒性较强的目标驾驶策略，该其他设备可以将该目标驾驶策略发送给自动驾驶车辆，用于自动驾驶车辆的行驶控制。

当然，本申请实施例提供的自动驾驶场景生成方法、装置及系统还可应用在其它场景，本申请实施例中对此并不作限制。

在自动驾驶领域，模拟器(也可能称为仿真器)对于自动驾驶的策略学习非常重要，其中，模拟器可以用于提供开源代码和协议，用于自动驾驶策略的训练和验证。相关技术中，可能采用道路中真实的驾驶场景或对自动驾驶领域有较强制式储备的技术人员编码得到的场景来训练驾驶模型，然而这样的实现方式，不仅需要人工大量的配置工作，而且在模拟器中设置的社会车辆(也可能称为障碍物或障碍物车辆等)的驾驶模型比较单一，无法有效地构建多样性的驾驶场景。使得使用这种模拟器训练的驾驶模型在现实的复杂场景中往往无法表现出足够的泛化性和智能性。

基于此，本申请实施例提供一种自动驾驶场景生成方法，可以自动生成丰富的自动驾驶场景，为训练鲁棒性强的驾驶模型提供可能。

本申请实施例的方法可以运行在设置有计算机系统的车辆上，环境感知、数据处理、动作选取和/或车辆控制的可执行代码可以在计算机系统的存储组件上。或者，本申请实施例的方法也可以运行在云端等。

示例性的，图1为本申请实施例提供的系统架构示意图。如图1所示，本申请实施例提供的系统架构可以包括：训练设备01和执行设备02。其中，训练设备01用于根据本申请实施例提供的方法生成自动驾驶场景和/或训练驾驶策略；执行设备02用于根据本申请实施例提供的方法使用训练设备01所训练的驾驶策略确定目标动作；当然，执行设备1002也可以用于实时训练驾驶策略，或者每隔预设时长训练驾驶策略。

本申请实施例中，执行驾驶策略的训练方法的执行主体可以是上述训练设备01，也可以是上述训练设备01中的驾驶策略的训练装置。示例性地，本申请实施例提供的驾驶策略的训练装置可以通过软件和/或硬件实现。

本申请实施例中，执行自动驾驶场景生成方法的执行主体可以是上述执行设备02，也可以是上述执行设备02中的装置。示例性地，本申请实施例提供的执行设备02中的装置可以通过软件和/或硬件实现。

示例性地，本申请实施例中提供的训练设备01可以包括但不限于：模型训练平台设备。

示例性地，本申请实施例中提供的执行设备02可以包括但不限于：自动驾驶车辆，或者自动驾驶车辆中的控制设备。

图2是本申请实施例提供的车辆100的功能框图。在一个实施例中，将车辆100配置为完全或部分地自动驾驶模式。例如，当车辆100配置为部分地自动驾驶模式时，车辆100在处于自动驾驶模式时还可通过人为操作来确定车辆及其周边环境的当前状态，确定周边环境中的至少一个其他车辆的可能行为，并确定该其他车辆执行可能行为的可能性相对应的置信水平，基于所确定的信息来控制车辆100。例如，在车辆100处于完全地自动驾驶模式中时，可以将车辆100置为不需要与人交互，自动执行驾驶相关操作。

车辆100可包括各种子系统，例如行进系统102、传感器系统104、控制系统106、一个或多个外围设备108以及电源110、计算机系统112和用户接口116。可选地，车辆100可包括更多或更少的子系统，并且每个子系统可包括多个元件。另外，车辆100的每个子系统和元件可以通过有线或者无线互连。

行进系统102可包括为车辆100提供动力运动的组件。在一个实施例中，行进系统102可包括引擎118、能量源119、传动装置120和车轮/轮胎121。引擎118可以是内燃引擎、电动机、空气压缩引擎或其他类型的引擎组合，例如汽油发动机和电动机组成的混动引擎，内燃引擎和空气压缩引擎组成的混动引擎。引擎118将能量源119转换成机械能量。

能量源119的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源119也可以为车辆100的其他系统提供能量。

传动装置120可以将来自引擎118的机械动力传送到车轮121。传动装置120可包括变速箱、差速器和驱动轴。在一个实施例中，传动装置120还可以包括其他器件，比如离合器。其中，驱动轴可包括可耦合到一个或多个车轮121的一个或多个轴。

传感器系统104可包括感测关于车辆100周边的环境的信息的若干个传感器。例如，传感器系统104可包括定位系统122(定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)124、雷达126、激光测距仪128以及相机130。传感器系统104还可包括被监视车辆100的内部系统的传感器(例如，车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是自主车辆100的安全操作的关键功能。

定位系统122可用于估计车辆100的地理位置。IMU 124用于基于惯性加速度来感测车辆100的位置和朝向变化。在一个实施例中，IMU 124可以是加速度计和陀螺仪的组合。

雷达126可利用无线电信号来感测车辆100的周边环境内的物体。在一些实施例中，除了感测物体以外，雷达126还可用于感测物体的速度和/或前进方向。

激光测距仪128可利用激光来感测车辆100所位于的环境中的物体。在一些实施例中，激光测距仪128可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。

相机130可用于捕捉车辆100的周边环境的多个图像。相机130可以是静态相机或视频相机。

控制系统106为控制车辆100及其组件的操作。控制系统106可包括各种元件，其中包括转向系统132、油门134、制动单元136、传感器融合算法138、计算机视觉系统140、路线控制系统142以及障碍物避免系统144。

转向系统132可操作来调整车辆100的前进方向。例如在一个实施例中可以为方向盘系统。

油门134用于控制引擎118的操作速度并进而控制车辆100的速度。

制动单元136用于控制车辆100减速。制动单元136可使用摩擦力来减慢车轮121。在其他实施例中，制动单元136可将车轮121的动能转换为电流。制动单元136也可采取其他形式来减慢车轮121转速从而控制车辆100的速度。

计算机视觉系统140可以操作来处理和分析由相机130捕捉的图像以便识别车辆100周边环境中的物体和/或特征。所述物体和/或特征可包括交通信号、道路边界和障碍物。计算机视觉系统140可使用物体识别算法、运动中恢复结构(structure from motion，SFM)算法、视频跟踪和其他计算机视觉技术。在一些实施例中，计算机视觉系统140可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。

路线控制系统142用于确定车辆100的行驶路线。在一些实施例中，路线控制系统142可结合来自传感器138、全球定位系统(global positioning system，GPS)122和一个或多个预定地图的数据以为车辆100确定行驶路线。

障碍物规避系统144用于识别、评估和避开或者以其他方式越过车辆100的环境中的潜在障碍物。

当然，在一个实例中，控制系统106可以增加或替换地包括除了所示出和描述的那些以外的组件。或者也可以减少一部分上述示出的组件。

车辆100通过外围设备108与外部传感器、其他车辆、其他计算机系统或用户之间进行交互。外围设备108可包括无线通信系统146、车载电脑148、麦克风150和/或扬声器152。

在一些实施例中，外围设备108提供车辆100的用户与用户接口116交互的手段。例如，车载电脑148可向车辆100的用户提供信息。用户接口116还可操作车载电脑148来接收用户的输入。车载电脑148可以通过触摸屏进行操作。在其他情况中，外围设备108可提供用于车辆100与位于车内的其它设备通信的手段。例如，麦克风150可从车辆100的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器152可向车辆100的用户输出音频。

无线通信系统146可以直接地或者经由通信网络来与一个或多个设备无线通信。例如，无线通信系统146可使用3G蜂窝通信，例如码分多址(code division multiple access，CDMA)、EVD0、全球移动通信系统(global system for mobile communications，GSM)/通用分组无线服务(general packet radio service,GPRS)，或者4G蜂窝通信，例如LTE。或者5G蜂窝通信。无线通信系统146可利用无线保真(wireless-fidelity，WiFi)与无线局域网(wireless local area network，WLAN)通信。在一些实施例中，无线通信系统146可利用红外链路、蓝牙或紫蜂协议(ZigBee)与设备直接通信。其他无线协议，例如各种车辆通信系统，例如，无线通信系统146可包括一个或多个专用短程通信(dedicated short range communications，DSRC)设备，这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。

电源110可向车辆100的各种组件提供电力。在一个实施例中，电源110可以为可再充电锂离子或铅酸电池。这种电池的一个或多个电池组可被配置为电源为车辆100的各种组件提供电力。在一些实施例中，电源110和能量源119可一起实现，例如一些全电动车中那样。

车辆100的部分或所有功能受计算机系统112控制。计算机系统112可包括至少一个处理器113，处理器113执行存储在例如数据存储装置114这样的非暂态计算机可读介质中的指令115。计算机系统112还可以是采用分布式方式控制车辆100的个体组件或子系统的多个计算设备。

处理器113可以是任何常规的处理器，诸如商业可获得的中央处理器(central processing unit，CPU)。替选地，该处理器可以是诸如用于供专门应用的集成电路(application specific integrated circuit，ASIC)或其它基于硬件的处理器的专用设备。尽管图2功能性地图示了处理器、存储器、和在相同块中的计算机系统112的其它元件，但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如，存储器可以是硬盘驱动器或位于不同于计算机的外壳内的其它存储介质。因此，对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤，诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器，所述处理器只执行与特定于组件的功能相关的计算。

在此处所描述的各个方面中，处理器可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中，此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行，包括采取执行单一操纵的必要步骤。

在一些实施例中，数据存储装置114可包含指令115(例如，程序逻辑)，指令115可被处理器113执行来执行车辆100的各种功能，包括以上描述的那些功能。数据存储装置114也可包含额外的指令，包括向推进系统102、传感器系统104、控制系统106和外围设备108中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。

除了指令115以外，数据存储装置114还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在车辆100在自主、半自主和/或手动模式中操作期间被车辆100和计算机系统112使用。

用户接口116，用于向车辆100的用户提供信息或从其接收信息。可选地，用户接口116可包括在外围设备108的集合内的一个或多个输入/输出设备，例如无线通信系统146、车车在电脑148、麦克风150和扬声器152。

计算机系统112可基于从各种子系统(例如，行进系统102、传感器系统104和控制系统106)以及从用户接口116接收的输入来控制车辆100的功能。例如，计算机系统112可利用来自控制系统106的输入以便控制转向单元132来避免由传感器系统104和障碍物避免系统144检测到的障碍物。在一些实施例中，计算机系统112可操作来对车辆100及其子系统的许多方面提供控制。

可选地，上述这些组件中的一个或多个可与车辆100分开安装或关联。例如，数据存储装置114可以部分或完全地与车辆100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图2不应理解为对本申请实施例的限制。

在道路行进的自动驾驶汽车，如上面的车辆100，可以识别其周围环境内的物体以确定自身对当前速度的调整。所述物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中，可以独立地考虑每个识别的障碍物，并且基于各个障碍物各自的特性，诸如它的当前速度、加速度、与车辆的间距等，来确定自动驾驶汽车(自车)所要调整的速度。

可选地，自动驾驶汽车车辆100或者与自动驾驶汽车车辆100相关联的计算设备(如图2的计算机系统112、计算机视觉系统140、数据存储装置114)可以基于所识别的障碍物的特性和周围环境的状态(例如，交通、雨、道路上的冰、等等)来预测所述识别的障碍物的行为。可选地，每一个所识别的障碍物都依赖于彼此的行为，因此还可以将所识别的所有障碍物全部一起考虑来预测单个识别的障碍物的行为。车辆100能够基于预测的所述识别的障碍物的行为来调整它的速度。换句话说，自动驾驶汽车能够基于所预测的障碍物的行为来确定车辆将需要调整到(例如，加速、减速、或者停止)什么状态。在这个过程中，也可以考虑其它因素来确定车辆100的速度，诸如，车辆100在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。

除了提供调整自动驾驶汽车的速度的指令之外，计算设备还可以提供修改车辆100的转向角的指令，以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的障碍物(例如，道路上的相邻车道中的车辆)的安全横向和纵向距离。

上述车辆100可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本申请实施例不做特别的限定。

图3为图2中的计算机系统112的结构示意图。如图3所示，计算机系统112包括处理器113，处理器113和系统总线105耦合。处理器113可以是一个或者多个处理器，其中每个处理器都可以包括一个或多个处理器核。显示适配器(video adapter)107，显示适配器107可以驱动显示器109，显示器109和系统总线105耦合。系统总线105通过总线桥111和输入输出(I/O)总线耦合。I/O接口115和I/O总线耦合。I/O接口115和多种I/O设备进行通信，比如输入设备117(如：键盘，鼠标，触摸屏等)，多媒体盘(media tray)121,(例如，CD-ROM，多媒体接口等)。收发器123(可以发送和/或接受无线电通信信号)，摄像头155(可以捕捉静态和动态数字视频图像)和外部USB接口125。其中，可选地，和I/O接口115相连接的接口可以是通用串行总线(universal serial bus，USB)接口。

其中，处理器113可以是任何传统处理器，包括精简指令集计算(“RISC”)处理器、复杂指令集计算(“CISC”)处理器或上述的组合。可选地，处理器可以是诸如专用集成电路(“ASIC”)的专用装置。可选地，处理器113可以是神经网络处理器或者是神经网络处理器和上述传统处理器的组合。

可选地，在本文所述的各种实施例中，计算机系统可位于远离自动驾驶车辆的地方，并且可与自动驾驶车辆无线通信。在其它方面，本文所述的一些过程在设置在自动驾驶车辆内的处理器上执行，其它由远程处理器执行，包括采取执行单个操纵所需的动作。

计算机系统112可以通过网络接口129和软件部署服务器149通信。网络接口129是硬件网络接口，比如，网卡。网络127可以是外部网络，比如因特网，也可以是内部网络，比如以太网或者虚拟私人网络(VPN)。可选地，网络127还可以是无线网络，比如WiFi网络，蜂窝网络等。

硬盘驱动接口131和系统总线105耦合。硬盘驱动接口131和硬盘驱动器133相连接。系统内存135和系统总线105耦合。运行在系统内存135的软件可以包括计算机系统112的操作系统(operating system，OS)137和应用程序143。

操作系统包括Shell 139和内核(kernel)141。Shell 139是介于使用者和操作系统之内核(kernel)间的一个接口。shell是操作系统最外面的一层。shell管理使用者与操作系统之间的交互:等待使用者的输入,向操作系统解释使用者的输入,并且处理各种各样的操作系统的输出结果。

内核141由操作系统中用于管理存储器、文件、外设和系统资源的那些部分组成。直接与硬件交互，操作系统的内核141通常运行进程，并提供进程间的通信，提供CPU时间片管理、中断、内存管理、IO管理等等。

应用程序141包括控制汽车自动驾驶相关的程序，比如，管理自动驾驶的汽车和路上障碍物交互的程序，控制自动驾驶汽车路线或者速度的程序，控制自动驾驶汽车和路上其他自动驾驶汽车交互的程序。应用程序141也存在于软件部署服务器(deploying server)149的系统上。在一个实施例中，在需要执行应用程序141时，计算机系统可以从deploying server149下载应用程序143。

传感器153和计算机系统关联。传感器153用于探测计算机系统112周围的环境。举例来说，传感器153可以探测动物，汽车，障碍物和人行横道等，进一步传感器还可以探测上述动物，汽车，障碍物和人行横道等物体周围的环境，比如：动物周围的环境，例如，动物周围出现的其他动物，天气条件，周围环境的光亮度等。可选地，如果计算机系统112位于自动驾驶的汽车上，传感器可以是摄像头，红外线感应器，化学检测器，麦克风等。

图4为本申请实施例提供的一种芯片硬件结构的示意图。如图4所示，该芯片可以包括神经网络处理器40。该芯片可以被设置在如图1所示的执行设备02中，用以完成申请实施例提供的自动驾驶场景生成方法。该芯片也可以被设置在如图1所示的训练设备01中，用以完成申请实施例提供的控制策略的训练方法。

神经网络处理器40可以是神经网络处理器(neural network processing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphics processing unit，GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：NPU可以作为协处理器挂载到主CPU(host CPU)上，由主CPU为其分配任务。NPU的核心部分为运算电路403，通过控制器404控制运算电路403提取存储器(401和402)中的矩阵数据并进行乘加运算。

在一些实现中，运算电路403内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路403是二维脉动阵列。运算电路403还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路403是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路403从权重存储器402中取矩阵B的权重数据，并缓存在运算电路403中的每一个PE上。运算电路403从输入存储器401中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)408中。

统一存储器406用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)405，被搬运到权重存储器402中。输入数据也通过DMAC被搬运到统一存储器406中。

总线接口单元(bus interface unit，BIU)410，用于DMAC和取指存储器(instruction fetch buffer)409的交互；总线接口单元401还用于取指存储器409从外部存储器获取指令；总线接口单元401还用于存储单元访问控制器405从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器406中，或将权重数据搬运到权重存储器402中，或将输入数据搬运到输入存储器401中。

向量计算单元407多个运算处理单元，在需要的情况下，对运算电路403的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。向量计算单元407主要用于神经网络中非卷积层，或全连接层(fully connected layers，FC)的计算，具体可以处理：Pooling(池化)，Normalization(归一化)等的计算。例如，向量计算单元407可以将非线性函数应用到运算电路403的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元407生成归一化的值、合并值，或二者均有。

在一些实现中，向量计算单元407将经处理的向量存储到统一存储器406。在一些实现中，经向量计算单元407处理过的向量能够用作运算电路403的激活输入。

控制器404连接的取指存储器(instruction fetch buffer)409，用于存储控制器404使用的指令；

统一存储器406，输入存储器401，权重存储器402以及取指存储器409均为On-Chip存储器。外部存储器独立于该NPU硬件架构。

图5为本申请实施例提供的操作环境示意图。如图5所示，云服务中心可以经网络502(如无线通信网络)，从其操作环境500内的自动驾驶车辆510和512接收信息(诸如车辆传感器收集到数据或者其它信息)。

示例性地，云服务中心520可以经网络502(如无线通信网络)从自动驾驶车辆510接收自动驾驶车辆510在任意时刻的行驶信息(例如行驶速度和/或行驶位置等信息)以及自动驾驶车辆510感知范围内其他车辆的行驶信息等。

云服务中心520根据接收到的信息，可以运行其存储的控制汽车自动驾驶相关的程序，从而实现对自动驾驶车辆510和自动驾驶车辆512的控制。控制汽车自动驾驶相关的程序可以为，管理自动驾驶的汽车和路上障碍物交互的程序，控制自动驾驶汽车路线或者速度的程序，控制自动驾驶汽车和路上其他自动驾驶汽车交互的程序。

网络502将地图的部分提供给自动驾驶车辆510和512。

例如，多个云服务中心可以接收、证实、组合和/或发送信息报告。在一些示例中还可以在自动驾驶车辆之间发送信息报告和/传感器数据。

在一些示例中，云服务中心520可以向自动驾驶车辆(或自动驾驶汽车)发送对于基于环境内可能的驾驶情况所建议的解决方案(如，告知前方障碍物，并告知如何绕开它)。例如，云服务中心520可以辅助车辆确定当面对环境内的特定障碍时如何行进。云服务中心520可以向自动驾驶车辆发送指示该车辆应当在给定场景中如何行进的响应。例如，云服务中心基于收集到的传感器数据，可以确认道路前方具有临时停车标志的存在，并还该车道上基于“车道封闭”标志和施工车辆的传感器数据，确定该车道由于施上而被封闭。相应地，云服务中心520可以发送用于自动驾驶车辆通过障碍的建议操作模式(例如：指示车辆变道另一条道路上)。云服务中心520可以观察其操作环境内的视频流并且已确认自动驾驶车辆能安全并成功地穿过障碍时，对该自动驾驶车辆所使用操作步骤可以被添加到驾驶信息地图中。相应地，这一信息可以发送到该区域内可能遇到相同障碍的其它车辆，以便辅助其它车辆不仅识别出封闭的车道还知道如何通过。

需要说明的是，自动驾驶车辆510和/或512在运行过程中可以自主控制行驶，也可以不需要云服务中心520的控制。

图6为本申请实施例的自动驾驶生成方法的一种示意图。

如图6所示，本申请实施例中可以获取车辆的驾驶数据(或者称为驾驶相关数据或行驶相关数据或者行驶数据等)，采用通常的训练方法训练得到第一驾驶模型。在第一驾驶模型的基础上，可以采用自动驾驶中的性能指标，演化得到多样性驾驶模型(例如针对每个性能指标，都演化有对应的驾驶模型)。在多样性驾驶模型中，每个驾驶模型中可以包括自动驾驶车辆(或称为主车)和障碍物，针对多样性驾驶模型中的任一个驾驶模型，可以在多样性驾驶模型中的其他一个或多个驾驶模型中采样自动驾驶车辆的驾驶算法，并将采样的驾驶算法赋值给该任一个驾驶模型的障碍物车辆，将赋值后的任一个驾驶模型结合环境模型的数据，可以生成多样性的场景，进而可以采用训练算法(例如课程学习方法等)在多样性场景中训练得到具有鲁棒性的驾驶模型。

本申请实施例所涉及的车辆的行驶相关数据可以是车辆的传感器设备采集的，也可以是模拟器中强化学习中的车辆与环境交互生成的数据。示例性的，车辆的行驶相关数据可以包括自动驾驶车辆的位置数据、速度数据、方向数据等数据，以及自动驾驶车辆周围的车辆(可能称为障碍物车辆)的位置数据、速度数据、方向数据等数据。

本申请实施例所涉及的自动驾驶中的性能指标包括：速度指标、加速度指标和/或与前车距离指标等用于描述自动驾驶中的车辆相关性能的指标。

本申请实施例所涉及的性能指标对应的第二驾驶模型可以包括下述一种或多种：最大化速度的模型、最小化速度的模型、最大化与前车距离的模型、最小化与前车距离的模型、最大化平均加速度的模型或最小化平均加速度的模型。

可能的实现方式中：性能指标为速度指标时，速度指标对应的第二驾驶模型包括最大化速度的模型和/或最小化速度的模型。性能指标为加速度指标时，加速度指标对应的第二驾驶模型包括最大化平均加速度的模型和/或最小化平均加速度的模型。性能指标为与前车距离指标时，与前车距离指标对应的第二驾驶模型包括最大化与前车距离的模型和/或最小化与前车距离的模型。

本申请实施例中涉及的第一驾驶模型也可能称为基准驾驶模型等，第一驾驶模型可以是采用模型训练方法得到的模型。例如，第一驾驶模型可以是采用数据驱动的方法(如模仿学习、强化学习等)训练的到的模型。

示例性的，图7示出了本申请实施例的一种训练第一驾驶模型的流程示意图。

如图7所示，可以初始化超参数(如学习率，批大小等)集合，确定第一驾驶模型性能指标集合(例如速度，加速度，与前车距离等)，初始化预设的模型(例如神经网络模型)的结构和参数。获取车辆的行驶相关数据，进而使用对应的方法训练预设的模型，直到预设的模型的输出值满足一定条件(例如预设的模型的输出值的正确率大于一定阈值)，得到第一驾驶模型。

示例性，一种可能的实现方式中，预设的模型可以为两层的全连接模型，每个隐层的神经元个数可以为128。可以从超参数集合中采样，初始化网络模型结构和参数。

根据车载传感器设备采集自车周围车辆的信息(如位置、速度、方向等)，提取与自车最近的N(N为自然数)辆车的信息，与自车的状态信息融合作为输入o _t(部分可观测)，得到每个车辆的决策动作a _t(加速度)。模拟器中的预设的模型接收a _t，输出每个车辆的奖励函数(也可能称为回报函数)r _t(可以包含内在激励的稠密回报)，并转移到新的状态。

当自车与前车的预计碰撞时间(time to collision，TTC)在(0,x)之间时，回报函数与自车与前车的距离、自车速度和前车速度相关。

示例性的，奖励函数分别：与自车与前车的距离负相关、与自车的速度负相关、与前车的速度正相关。

例如，回报函数可以为：

r _ttc＝max(-1/(ttc/ttc _target) ²,-100)

其中ttc＝d _front/(v-v _front)；d _front是自车与前车的距离，距离的单位可以是米；v是自车速度，速度的单位可以是米每秒；v _front是前车速度；ttc _target可以根据实际情况设置，例如可以默认是2米每秒等；x可以根据实际情况设置，例如可以设置为2米每秒等。

当自车与前车的预计碰撞时间大于x秒时，回报函数与自车的速度相关。

示例性的，在自车的速度小于2米每秒的情况下，回报函数与自车的速度正相关；在自车的速度大于第一常量的情况下，回报函数与自车的速度负相关；在自车的速度大于或等于2米每秒，且小于或等于第一常量的情况下，回报函数与自车的速度正相关；所述第一常量大于2米每秒。

例如，回报函数可以为：

其中，v _target可以根据实际情况设置，例如可以默认为5米每秒等。

可以基于模拟器中的共享参数强化学习模型收集每个车辆的决策轨迹τ:<o _t,a _t,r _t,o _t’>t＝0:T，优化预设的模型。

预设的模型的目标函数与一段轨迹中自车的累积回报相关。

例如，目标函数可以为：

其中，R是一段轨迹的累积回报，θ是策略模型的参数。

在预设的模型输出的值满足目标函数时，可以得到第一驾驶模型。例如，已第一驾驶模型输出的驾驶策略为通过路口的驾驶策略时，当车辆通过路口的成功率达到一定阈值，终止训练，得到第一驾驶模型。

本申请实施例所涉及的第二驾驶模型可以是在第一驾驶模型的基础上，通过调整第一驾驶模型的超参数训练得到的。

示例性的，图8示出了本申请实施例的一种训练第二驾驶模型的流程示意图。

如图8所示，可以从性能指标集合中采样，每一种性能指标可以对应生成一定数目的第二驾驶模型(也可能称为种群模型或种群模型)。

在得到第二驾驶模型时，可以基于第一驾驶模型进行训练。例如，某一性能指标需要生成M(M为自然数)个第二驾驶模型，可以针对该性能指标，复制M个第一驾驶模型，进而基于每个第一驾驶模型生成一个第二驾驶模型。例如，可以去掉第一驾驶模型的回报函数中的内在激励，只保留输出正确结果的回报，使用多智能体强化学习进行训练。

示例性的，可以根据性能指标的需求(例如最大化性能指标或最小化性能指标等)从超参数集合中采样，调整部分第一驾驶模型初始化的超参数，对第一驾驶模型进行演化，在演化后的模型的性能达到阈值，可以得到与对应性能指标强相关的第二驾驶模型(可能称为多样性驾驶模型)。

对多个性能指标均执行生成第二驾驶模型的步骤，则可以生成与对应性能指标强相关的不同风格的驾驶模型，如最大化速度的模型，最小化速度的模型，最大化与前车距离的模型，最小化与前车距离的模型，最大化平均加速度的模型，最小化平均加速度的模型等。

示例性的，图9示出了生成第二驾驶模型的示意图。如图9所示，可以从性能指标集合中采样生成多个种群(例如包括性能指标A1-Ai、N1-Ni等)，从超参数集合中采样生成多个示例(例如包括性能指标A1-Ai、N1-Ni对应的超参数)，为每个性能指标加载第一驾驶模型(或称为基准驾驶模型)，复制第一驾驶模型的模型权重，在第一驾驶模型的超参数中增加探索随机量，直到调整后的模型收敛到与性能指标强相关，得到第二驾驶模型。

本申请实施例中，第二驾驶模型可以输出对应于性能指标的驾驶策略(或称为驾驶算法或驾驶模型)，将第二驾驶模型中的自动驾驶车辆的驾驶策略赋值到障碍物车辆(可能称为社会车)，以及从参数化的环境模型(例如包含路况、天气等驾驶环境的模型等)，可以生成多样性的自动驾驶场景。可能的理解中，本申请实施例中，可以将与不同性能指标对应的驾驶策略赋值给障碍物车辆，使得障碍物车辆的驾驶策略多样化，且障碍物车辆的驾驶策略不需要依赖人工编码，基于多样性驾驶策略的障碍物车辆，可以生成丰富的自动驾驶场景。

一种可能的实现中，本申请实施例在生成多个自动驾驶场景后，可以基于生成的多个自动驾驶场景，训练得到鲁棒的目标驾驶模型。

示例性的，图10示出了一种训练目标驾驶模型的示意图。如图10所示，可以针对每个自动驾驶场景，分别进行模型训练，得到适应于该自动驾驶场景的驾驶模型，在该驾驶模型能够适用的自动驾驶场景的数量达到预设值的情况下，可以认为得到鲁棒的目标驾驶模型。

一种可能的实现方式中，可以对多个自动驾驶场景排序，依次在排序后的自动驾驶场景中训练驾驶策略，得到目标驾驶模型。

例如，可以将生成的多个自动驾驶场景按照驾驶难度从易到难排序，将排序后的在先自动驾驶场景中训练得到在先驾驶策略作为在后自驾驾驶场景的输入，依次训练得到一个目标驾驶模型。

示例性的，图11示出了一种生成目标驾驶模型的示意图。

如图11所示，可以将多样性的自动驾驶场景按照难度排序，使用课程学习等方式依次在自动驾驶场景中一次训练自动驾驶模型，在当前的自动驾驶场景中自动驾驶模型的输出符合条件时，在后一个自动驾驶场景中继续训练自动驾驶模型，经过在不同难度的自动驾驶场景中的训练可以得到鲁棒性的目标驾驶模型。

可能的实现方式中，驾驶难度可以根据经验、规则或标准等设定。可能的理解中，按照自动驾驶场景从易到难的顺序训练自动驾驶模型，可以实现递进的训练，相较于直接在难度较高的自动驾驶场景中训练，可以节约计算资源。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图12为本申请实施例提供的一种自动驾驶场景生成方法的流程示意图，如图12所示，该方法包括：

S1201：获取第一驾驶模型，第一驾驶模型用于输出驾驶策略。

可以理解的是，如上所述第一驾驶模型可以是多辆车辆的信息训练得到的，因此，第一驾驶模型可以用于至少一辆自动驾驶车辆的输出驾驶策略。

S1202：针对自动驾驶中的性能指标，修改第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型。

示例性的，如上所述，可以对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型。

S1203：在性能指标的模型中采样自动驾驶车辆的驾驶数据。

S1204：根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

本申请实施例中，S1201至S1204的具体实现可以参照上述实施例的记载，在此不再赘述。基于S1201至S1204可以生成多样化的自动驾驶场景，进一步的，可以基于多样化的自动驾驶场景训练得到鲁棒性的目标驾驶模型，在此不再赘述。

通过上述对本申请方案的介绍，可以理解的是，上述实现各设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件单元。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

如图13所示，本申请实施例一种自动驾驶场景生成的装置，该自动驾驶场景生成的装置包括处理器1300、存储器1301和收发机1302；

处理器1300负责管理总线架构和通常的处理，存储器1301可以存储处理器1300在执行操作时所使用的数据。收发机1302用于在处理器1300的控制下接收和发送数据与存储器1301进行数据通信。

总线架构可以包括任意数量的互联的总线和桥，具体由处理器1300代表的一个或多个处理器和存储器1301代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器1300负责管理总线架构和通常的处理，存储器1301可以存储处理器1300在执行操作时所使用的数据。

本申请实施例揭示的流程，可以应用于处理器1300中，或者由处理器1300实现。在实现过程中，自动驾驶场景生成的流程的各步骤可以通过处理器1300中的硬件的集成逻辑电路或者软件形式的指令完成。处理器1300可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301，处理器1300读取存储器1301中的信息，结合其硬件完成信号处理流程的步骤。

本申请实施例一种可选的方式，所述处理器1300用于读取存储器1301中的程序并以执行如图12所示的S1201-S1204中的方法流程。

如图14所示，本申请实施例提供一种自动驾驶场景生成的装置，所述装置包括收发模块1400和处理模块1401。

所述收发模块1400，用于支持所述处理模块1401获取第一驾驶模型。

所述处理模块1401，用于获取第一驾驶模型，第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型；在性能指标对应的第二驾驶的模型中采样自动驾驶车辆的驾驶数据；根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

一种可能的实现方式中，预设的模型的奖励函数满足：

r _ttc＝max(-1/(ttc/ttc _target) ²,-100)

一种可能的实现方式中，预设的模型的奖励函数满足：

其中，v是第一车辆的速度，v _target为常量。

一种可能的实现方式中，目标函数包括：

其中R是一段轨迹中第一车辆的累积回报，θ是模型参数。

可能的实现方式中，上述图14所示的收发模块1400和处理模块1401的功能可以由处理器1300运行存储器1301中的程序执行，或者由处理器1300单独执行。

如图15所示，本申请提供一种车辆，所述装置包括至少一个摄像器1501，至少一个存储器1502，至少一个收发器1503以及至少一个处理器1504。

所述摄像器1501，用于获取至少一张图像。

所述存储器1502，用于存储一个或多个程序以及数据信息；其中所述一个或多个程序包括指令。

所述收发器1503，用于与所述车辆中的通讯设备进行数据传输，以及用于与云端进行数据传输。

所述处理器1504，用于获取第一驾驶模型，第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；对第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分第一驾驶模型的超参数，得到性能指标对应的第二驾驶模型；在性能指标对应的第二驾驶模型中采样自动驾驶车辆的驾驶数据；根据自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。

在一些可能的实施方式中，本申请实施例提供的自动驾驶场景生成的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序代码在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书中描述的根据本申请各种示例性实施方式的自动驾驶场景生成的方法中的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

根据本申请的实施方式的用于自动驾驶场景生成的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在服务器设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被通信传输、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由周期网络动作系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备。

本申请实施例针对自动驾驶场景生成的方法还提供一种计算设备可读存储介质，即断电后内容不丢失。该存储介质中存储软件程序，包括程序代码，当所述程序代码在计算设备上运行时，该软件程序在被一个或多个处理器读取并执行时可实现本申请实施例上面任何一种自动驾驶场景生成的方案。

本申请实施例还提供一种电子设备，在采用对应各个功能划分各个功能模块的情况下，该电子设备包括：处理模块，用于支持自动驾驶场景生成装置执行上述实施例中的步骤，例如可以执行S101至S102的操作，或者本申请实施例所描述的技术的其他过程。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

当然，自动驾驶场景生成装置包括但不限于上述所列举的单元模块。并且，上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能，电子设备的其他单元的详细描述可以参考其所对应方法步骤的详细描述，本申请实施例这里不予赘述。

在采用集成的单元的情况下，上述实施例中所涉及的电子设备可以包括：处理模块、存储模块和通信模块。存储模块，用于保存电子设备的程序代码和数据。该通信模块用于支持电子设备与其他网络实体的通信，以实现电子设备的通话，数据交互，Internet访问等功能。

其中，处理模块用于对电子设备的动作进行控制管理。处理模块可以是处理器或控制器。通信模块可以是收发器、RF电路或通信接口等。存储模块可以是存储器。

进一步的，该电子设备还可以包括输入模块和显示模块。显示模块可以是屏幕或显示器。输入模块可以是触摸屏，语音输入装置，或指纹传感器等。

以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

本申请结合多个流程图详细描述了多个实施例，但应理解，这些流程图及其相应的实施例的相关描述仅为便于理解而示例，不应对本申请构成任何限定。各流程图中的每一个步骤并不一定是必须要执行的，例如有些步骤是可以跳过的。并且，各个步骤的执行顺序也不是固定不变的，也不限于图中所示，各个步骤的执行顺序应以其功能和内在逻辑确定。

本申请描述的多个实施例之间可以任意组合或步骤之间相互交叉执行，各个实施例的执行顺序和各个实施例的步骤之间的执行顺序均不是固定不变的，也不限于图中所示，各个实施例的执行顺序和各个实施例的各个步骤的交叉执行顺序应以其功能和内在逻辑确定。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包括这些改动和变型在内。

Claims

一种自动驾驶场景生成方法，其特征在于，包括：

获取第一驾驶模型，所述第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；

对所述第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个所述第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分所述第一驾驶模型的超参数，得到所述性能指标对应的第二驾驶模型；

在所述性能指标对应的第二驾驶模型中采样自动驾驶车辆的驾驶数据；

根据所述自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。
根据权利要求1所述的方法，其特征在于，所述获取第一驾驶模型包括：

获取第一车辆的行驶相关数据和所述第一车辆的周围车辆的行驶相关数据；

将所述第一车辆的行驶相关数据和所述第一车辆的周围车辆的行驶相关数据输入预设的模型；

利用所述预设的模型输出所述第一车辆的驾驶策略；

调整所述预设的模型的参数，直到所述预设的模型输出的所述第一车辆的驾驶策略符合预设条件，得到所述第一驾驶模型。
根据权利要求2所述的方法，其特征在于，所述行驶相关数据包括下述的一种或多种：位置数据、速度数据或方向数据。
根据权利要求3所述的方法，其特征在于，在所述第一车辆与所述第一车辆的前车的预计碰撞时间小于第一值的情况下，所述预设的模型的奖励函数与所述第一车辆与所述第一车辆的前车的距离、所述第一车辆的速度以及所述第一车辆的前车的速度相关。
根据权利要求4所述的方法，其特征在于，所述预设的模型的奖励函数分别：与所述距离负相关、与所述第一车辆的速度负相关、与所述第一车辆的前车的速度正相关。
根据权利要求3所述的方法，其特征在于，在所述第一车辆与所述第一车辆的前车的预计碰撞时间大于或等于所述第一值的情况下，所述预设的模型的奖励函数与所述第一车辆的速度相关。
根据权利要求6所述的方法，其特征在于，在所述第一车辆的速度小于2米每秒的情况下，所述预设的模型的奖励函数与所述第一车辆的速度正相关；在所述第一车辆的速度大于第一常量的情况下，所述预设的模型的奖励函数与所述第一车辆的速度负相关；在所述第一车辆的速度大于或等于2米每秒，且小于或等于所述第一常量的情况下，所述预设的模型的奖励函数与所述第一车辆的速度正相关；所述第一常量大于2米每秒。
根据权利要求3-7任一项所述的方法，其特征在于，所述预设的模型的目标函数与一段轨迹中所述第一车辆的累积回报相关。
根据权利要求1-8任一项所述的方法，其特征在于，所述自动驾驶场景的数量为多个；所述方法还包括：

排序多个所述自动驾驶场景；

依次在排序后的多个所述自动驾驶场景中训练驾驶策略，得到目标驾驶模型。
根据权利要求9所述的方法，其特征在于，所述依次在排序后的多个所述自动驾驶场景中训练驾驶策略，得到目标驾驶模型，包括：

对于按照驾驶难度从易到难排序的多个所述自动驾驶场景，将在先自动驾驶场景中训练得到在先驾驶策略作为在后自驾驾驶场景的输入，依次训练得到一个所述目标驾驶模型。
根据权利要求1-10任一项所述的方法，其特征在于，所述性能指标包括：速度指标，加速度指标或与前车距离指标；

和/或，所述性能指标的种群模型包括下述一种或多种：最大化速度的模型、最小化速度的模型、最大化与前车距离的模型、最小化与前车距离的模型、最大化平均加速度的模型或最小化平均加速度的模型。
根据权利要求1-11任一项所述的方法，其特征在于，所述超参数包括下述一种或多种：学习率或批大小。
根据权利要求1-12任一项所述的方法，其特征在于，所述行驶相关数据是从真实路测数据中收集的，和/或，所述行驶相关数据是模拟器中的车辆与环境交互生成的。
一种自动驾驶场景生成装置，其特征在于，包括处理器和接口电路，所述接口电路用于接收代码指令并传输至所述处理器；所述处理器用于运行所述代码指令，以执行如权利要求1-13任一项所述的方法。
一种电子设备，其特征在于，包括：一个或多个处理器、收发器、存储器和接口电路；所述一个或多个处理器、所述收发器、所述存储器和和所述接口电路通过一个或多个通信总线通信；所述接口电路用于与其它装置通信，一个或多个计算机程序被存储在所述存储器中，并被配置为被所述一个或多个处理器或所述收发器执行以使得所述电子设备执行如权利要求1-13任一项所述的方法。
一种车辆，其特征在于，包括：至少一个摄像器，至少一个存储器，至少一个收发器以及至少一个处理器；

所述摄像器，用于获取至少一张图像；

所述存储器，用于存储一个或多个程序以及数据信息；其中所述一个或多个程序包括指令；

所述收发器，用于与所述车辆中的通讯设备进行数据传输，以及用于与云端进行数据传输；

所述处理器，用于获取第一驾驶模型，所述第一驾驶模型用于至少一辆自动驾驶车辆的输出驾驶策略；对所述第一驾驶模型的超参数集合进行采样，利用采样结果初始化多个所述第一驾驶模型的超参数，根据自动驾驶中的性能指标，调整部分所述第一驾驶模型的超参数，得到所述性能指标对应的第二驾驶模型；在所述性能指标对应的第二驾驶模型中采样自动驾驶车辆的驾驶数据；根据所述自动驾驶车辆的驾驶数据赋值障碍物车辆，以及结合预设的环境模型，生成自动驾驶场景。
一种自动驾驶系统，其特征在于，包括训练设备和执行设备；

所述训练设备用于执行如权利要求1-13任一项所述的方法；

所述执行设备用于执行根据所述训练设备训练得到的驾驶策略。
一种可读计算机存储产品，其特征在于，所述可读计算机存储产品用于存储计算机程序，所述计算机程序用于实现如权利要求1-13任一项所述的方法。