WO2021103834A1

WO2021103834A1 - 换道决策模型生成方法和无人车换道决策方法及装置

Info

Publication number: WO2021103834A1
Application number: PCT/CN2020/121339
Authority: WO
Inventors: 时天宇; 冉旭
Original assignee: 初速度（苏州）科技有限公司
Priority date: 2019-11-27
Filing date: 2020-10-16
Publication date: 2021-06-03
Also published as: CN112937564A; DE112020003136T5; CN112937564B; US20220363259A1

Abstract

一种换道决策模型生成方法和无人车换道决策方法及装置，其中，所述换道决策模型生成方法包括：获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度；通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

Description

换道决策模型生成方法和无人车换道决策方法及装置

技术领域

本发明涉及无人驾驶技术领域，具体而言，涉及一种换道决策模型生成方法和无人车换道决策方法及装置。

背景技术

在无人驾驶领域，无人驾驶车辆的自主系统的架构通常可分为感知系统和决策控制系统，传统决策控制系统采用基于优化的算法，但是，大多数经典的基于优化的方法因为计算量复杂，导致无法解决复杂决策任务问题。而实际中，车辆行驶情况复杂，非结构化环境中无人驾驶车辆使用复杂的传感器，例如相机和激光测距仪，由于上述传感器获取的传感数据通常取决于复杂且未知的环境，将上述传感器获得的传感数据直接输入到算法框架后，使算法输出最佳控制量具有困难。传统方法中，通常使用slam算法来绘制出环境，然后在结果图中获取轨迹，但是这种基于模型的算法，在车辆行驶时，由于高度的不确定性(比如路面的颠簸)增加了不稳定因素。

发明内容

本说明书提供一种换道决策模型生成方法和无人车换道决策方法及装置，用以克服现有技术中存在的至少一个技术问题。

根据本说明书实施例的第一方面，提供一种换道决策模型生成方法，包括：

获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度；

通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

可选地，所述训练样本集通过以下至少一种方式得到：

第一获取方式：

在模拟器中按照基于规则的优化算法使得车辆完成换道，获取多次换道过程中目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量；

第二获取方式：

从存储车辆换道信息的数据库中，采样出车辆换道过程中的车辆数据，所述车辆数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量。

可选地，所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，所述通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型的步骤包括：

对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量；将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入，得到所述目标网络输出的价值评估Q值；

将所述预测控制量作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量；

将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中；

当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值，计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛。

可选地，所述当所述经验数据的组数每达到第一预设数目后，则根据所述经验数据计算损失函数，优化迭代所述损失函数，得到更新所述预测网络的参数的步骤之后，还包括：

当所述预测网络参数的更新次数达到第二预设数目后，获取经验池中环境奖励高于预设值的预测控制量和对应的状态量，或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量，将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中，以训练更新所述目标网络的参数。

可选地，所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差，所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的策略参数；所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的策略参数。

根据本说明书实施例的第二方面，提供一种无人车换道决策方法，包括：

在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度；

调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联；

将换道过程中每一时刻的控制量发送给执行机构，使得目标车辆完成换道。

根据本说明书实施例的第三方面，提供一种换道决策模型生成装置，包括：

样本获取模块，被配置为获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度；

模型训练模块，被配置为通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

可选地，所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，所述模型训练模块包括：

样本输入单元，被配置为对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量；将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入，得到所述目标网络输出的价值评估Q值；

奖励生成单元，被配置为将所述预测控制量作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量；

经验保存单元，被配置为将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中；

参数更新单元，被配置为当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值，计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛。

可选地，所述参数更新单元，还包括：

根据本说明书实施例的第四方面，提供一种无人车换道决策装置，包括：

数据获取模块，被配置为在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度；

控制量生成模块，被配置为调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联；

控制量输出模块，被配置为将换道过程中每一时刻的控制量发送给执行机构，使得目标车辆完成换道。

本说明书实施例的有益效果如下：

本说明书实施例提供一种换道决策模型生成方法和无人车换道决策方法及装置，通过获得的训练样本集对基于深度强化学习网络的决策模型进行训练，该决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，将训练样本集中每组状态量输入预测网络，将训练样本集中该状态量的下一时间步长的状态量和控制量输入目标网络，根据预测网络输出的对应预测控制量的执行结果的价值估计和目标网络对输入训练样本的价值估计来计算损失函数，求解该损失函数以更新预测网络的策略参数，使得该预测网络的策略不断近似训练样本数据的策略，以基于规则的策略指导基于学习的神经网络从状态量到控制量的空间搜索，从而将基于规划的优化算法纳入强化学习的框架中，提高了预测网络的规划效率，并且基于规则的策略加入解决了损失函数可能出现无法收敛的问题，增加了模型的稳定性。该决策模型能够将目标车辆的状态量与对应的控制量相关联，相比于传统离线优化算法，能够直接接收传感器的输入并且具有良好的在线规划效率，解决了现有技术中由于复杂传感器和环境不确定性带来的决策困难；相比于单纯的深度神经网络具有更好的规划效率并增加了对具体应用场景的适应能力。

本说明书实施例的创新点包括：

1、通过获得的训练样本集对基于深度强化学习网络的决策模型进行训练，该决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，将训练样本集中每组状态量输入预测网络，将训练样本集中该状态量的下一时间步长的状态量和控制量输入目标网络，根据预测网络输出的对应预测控制量的执行结果的价值估计和目标网络对输入训练样本的价值估计来计算损失函数，求解该损失函数以更新预测网络的策略参数，使得该预测网络的策略不断近似训练样本数据的策略，以基于规则的策略指导基于学习的神经网络从状态量到控制量的空间搜索，从而将基于规划的优化算法纳入强化学习的框架中，提高了预测网络的规划效率，并且规则的策略加入解决了损失函数可能出现无法收敛的问题，增加了模型的稳定性。该决策模型能够将目标车辆的状态量与对应的控制量相关联，相比于传统离线优化算法，能够直接接收传感器的输入并且具有良好的在线规划效率，解决了现有技术中由于复杂传感器和环境不确定性带来的决策困难；相比于单纯的深度神经网络具有更好的规划效率并增加了对具体应用场景的适应能力，是本说明书实施例的创新点之一。

2、通过基于规则的目标网络对训练样本的策略计算价值评估，来指导基于学习的预测网络从状态量到控制量的空间搜索，用优化的策略指导预测网络策略的更新，从而使得深度强化学习网络能够解决复杂的换道决策问题，是本说明书实施例的创新点之一。

3、按照所述方法得到的换道决策模型能够实现直接学习传感器输入的传感数据，并输出对应的控制量，解决了现有技术中由于复杂传感器和环境不确定性带来的决策困难，将优化的方式与深度学习网络融合实现了良好的规划效率，是本说明书实施例的创新点之一。

4、通过计算所述损失函数，将预测网络的策略和优化策略建立联系，从而不断迭代更新预测网络的参数，使得预测网络输出的预测控制量逐渐逼近更拟人化的决策，从而使得所述决策模型具有更好的决策能力，是本说明书实施例的创新点之一。

5、在训练所述预测网络的过程中，按预设的频率从经验池中挑选满足预设条件的经验数据加入所述目标网络的训练样本集中，更新目标网络的参数，以使得所述决策模型具有更好的规划效率，是本说明书实施例的创新点之一。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示出了根据本说明书一实施例提供的换道决策模型生成方法的流程示意图；

图2是示出了根据本说明书一实施例提供的换道决策模型训练过程的流程示意图；

图3是示出了根据本说明书一实施例提供的换道决策模型训练过程的原理示意图；

图4是示出了根据本说明书一实施例提供的无人车换道决策方法的流程示意图；

图5是示出了根据本说明书一实施例提供的无人车换道决策方法的原理示意图；

图6是示出了根据本说明书一实施例提供的换道决策模型生成装置的结构示意图；

图7是示出了根据本说明书一实施例提供的换道决策模型训练模块的结构示意图；

图8是示出了根据本说明书一实施例提供的无人车换道决策装置的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本说明书实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书实施例公开了一种换道决策模型生成方法和无人车换道决策方法及装置，在下面的实施例中逐一进行详细说明。

参见图1，本说明书一实施例提供的换道决策模型生成方法的流程示意图。该换道决策模型生成方法，具体包括以下步骤：

S110：获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度。

在无人车换道过程中，决策系统需要根据感知系统输入的信息理解外部环境，根据输入的状态得出无人车下一步的动作，基于强化学习的深度神经网络需要学习状态量与控制量之间的联系，由此获取对应的训练样本集使得所述深度神经网络能够根据状态量得到对应的控制量，所述训练样本集通过以下至少一种方式得到：

第一获取方式：

在模拟器中按照基于规则的优化算法使得车辆完成换道，获取多次换道过程中目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量。

所述第一获取方式基于规则的优化算法，在模拟器中，模拟车辆按照优化算法多次实现平稳换道，从而获得换道过程中每一时间步长下所述状态量以及对应的控制量，使得所述神经网络学习所述状态量以及对应的控制量之间的对应关系，所述优化算法可以是混合整数二次规划MIQP算法。

第二获取方式：

所述第二获取方式，从数据库中获得所述训练样本集需要的数据，使得所述深度神经网络通过基于该训练样本集的训练能够具有一定程度拟人化决策的能力。

S120：通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

一个实施例中，所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络；

图2是本实施例提供的换道决策模型训练过程的流程示意图。所述换道决策模型的训练步骤具体包括：

S210：对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量；将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入，得到所述目标网络输出的价值评估Q值。

由于所述预测网络能够根据当前时间步长下的状态量预测出下一时间步长下无人车应该采取的控制量，而目标网络则是通过输入的状态量和控制量得到对应的价值评估Q值，所述价值评估Q值用于表征该状态量和控制量对应的策略的优劣。

因此，将训练样本集中当前时间步长下的状态量输入预测网络，得到预测网络输出的下一时间步长下的预测控制量，将训练样本中该状态量的下一时间步长的状态量和对应的控制量输入所述目标网络，得到对应策略的价值评估，从而能够比较下一时间步长下依据不同策略得到的控制量的差异。

S220：将所述预测控制量作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量。

计算所述预测网络输出的预测控制量的价值评估Q值，需要执行该预测控制量，并从环境中得到反馈的环境奖励，通过预先构建的环境模拟器来实现对该预测控制量的模拟执行，从而获得该预测控制量的执行结果和环境奖励，以此来评价该预测控制量，进而构造损失函数以更新所述预测网络。

S230：将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中。

将所述预测控制量以及对应的环境奖励和下一时间步长的状态量存储到经验池中，首先获得了车辆换道的更多可用数据，其次有利于根据经验数据对所述目标网络的参数进行更新，以获得更合理的对控制策略的价值评估，从而使得所训练的决策模型能够做出更拟人化的决策。

S240：当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值，计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛。

根据预测控制量获得的环境奖励来计算表征该预测控制量的价值评估的Q值，根据多个所述预测控制量的价值评估Q值与对应时间步长下训练样本对应的价值评估Q值，构造损失函数，所述损失函数表征了当前预测网络学习到的策略与训练样本中目标策略的差异，通过随机梯度下降法优化所述损失函数，得到预测网络参数变化的梯度，从而更新预测网络参数，不断进行参数更新，直到损失函数收敛，从而逐渐减小预测网络的策略与所述目标策略的差异，使得所述决策模型能够输出更合理更拟人化的决策控制量。

在一个具体实施例中，所述当所述经验数据的组数每达到第一预设数目后，则根据所述经验数据计算损失函数，优化迭代所述损失函数，得到更新所述预测网络的参数的步骤之后，还包括：当所述预测网络参数的更新次数达到第二预设数目后，获取经验池中环境奖励高于预设值的预测控制量和对应的状态量，或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量，将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中，以训练更新所述目标网络的参数。

通过对所述目标网络参数的更新，使得该决策模型能够在线优化，使得所述决策模型具有更好的规划效率，并且取得更加稳健的效果。

在一个具体实施例中，所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差，所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的策略参数；所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的策略参数。

本实施例中，所述训练方法，通过构建损失函数来优化预测网络参数使得预测网络找到解决车辆换道中复杂问题的更优策略，以基于规则的策略指导基于学习的神经网络从状态量到控制量的空间搜索，从而将基于规划的优化算法纳入强化学习的框架中，提高了预测网络的规划效率，并且增加了模型的稳定性。

图3是示出了根据本说明书一实施例提供的换道决策模型训练过程的原理示意图。如图3所示，对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量s作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量a；将训练样本中该状态量的下一时间步长的状态量s’和对应的控制量a’作为所述目标网络的输入，得到所述目标网络输出的价值评估Q ^T值；将所述预测控制量a作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励r以及下一时间步长的状态量s1；将该状态量s、对应的预测控制量a、所述环境奖励r以及下一时间步长的状态量s1作为一组经验数据存储到经验池中；当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q ^T值，计算损失函数，优化迭代所述损失函数，得到更新所述预测网络的参数，直至收敛。

本实施例中，以目标网络中基于规则的策略指导基于学习的神经网络的策略优化，将基于规划的优化算法纳入强化学习的框架中，既保留了神经网络可以直接接收传感器数据输入的优势，又提高了预测网络的规划效率，并且基于规划策略的加入增加了模型的稳定性。

图4是示出了根据本说明书一实施例提供的无人车换道决策方法的流程示意图。所述无人车换道决策方法的步骤包括：

S310：在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度。

获取目标车辆、目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度，依据所述数据得出目标车辆实现换道需要执行的控制量。

S320：调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

S330：将换道过程中每一时刻的控制量发送给执行机构，使得目标车辆完成换道。

从换道的初始时刻开始，对目标车辆每一时间步长下获得的所述状态量调用换道决策模型进行计算，得到对应的控制量，以使得目标车辆按照对应的控制量执行能够实现平稳换道。

本实施例中，将目标车辆车身传感器中获得的传感数据直接输入按照所述换道决策模型生成方法训练的换道决策模型中，得到该决策模在相应时刻输出的对应控制量，从而使得目标车辆平稳换道，实现了决策模型直接接收传感器的输入，并具有较好的规划效率。

图5是示出了根据本说明书一实施例提供的无人车换道决策方法的原理示意图。如图5所示，在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度，以及目标车道上跟车的位姿、速度、加速度；调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量；执行所述每一时刻的控制量，使得目标车辆完成换道。

本实施例中，按照所述换道决策模型生成方法训练的换道决策模型能够直接接收目标车辆车身传感器中获得的传感数据输入，并在相应时刻输出的对应控制量，以使得目标车辆平稳换道。该换道决策方法，实现了将传感器数据作为决策模型的直接输入，并使得无人车平稳地按照拟人化的决策完成换道。

与前述换道决策模型生成方法和无人车换道决策方法相对应，本说明书还提供了换道决策模型生成装置和无人车换道决策装置实施例，所述装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，本说明书换道决策模型生成装置和无人车换道决策装置所在设备的一种硬件结构可以包括处理器、网络接口、内存以及非易失性存储器之外，还可以包括其他硬件，对此不再赘述。

图6是示出了根据本说明书一实施例提供的换道决策模型生成装置400的结构示意图。所述换道决策模型生成装置400包括：

样本获取模块410，被配置为获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度；

模型训练模块420，被配置为通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

在一个具体实施例中，所述样本获取模块410通过以下至少一种方式得到所述训练样本集：

第一获取方式：

第二获取方式：

图7是示出了根据本说明书一实施例提供的换道决策模型训练模块的结构示意图。所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，所述模型训练模块420包括：

样本输入单元402，被配置为对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量；将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入，得到所述目标网络输出的价值评估Q值；

奖励生成单元404，被配置为将所述预测控制量作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量；

经验保存单元406，被配置为将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中；

参数更新单元408，被配置为当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值，计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛。

在一个具体实施例中，所述参数更新单元408，还被配置为：

在一个具体实施例中，所述参数更新单元的损失函数，其特征在于，包括：所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差，所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的参数；所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的参数。

图8是示出了根据本说明书一实施例提供的无人车换道决策装置500的结构示意图。所述无人车换道决策装置500具体包括以下模块：

数据获取模块510，被配置为在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度；

控制量生成模块520，被配置为调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联；

控制量输出模块530，被配置为将换道过程中每一时刻的控制量发送给执行机构，使得目标车辆完成换道。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

综上所述，通过获得的训练样本集对基于深度强化学习网络的决策模型进行训练，通过构建损失函数来优化预测网络参数使得预测网络找到解决车辆换道中复杂问题的更优策略，使得该预测网络的策略不断近似训练样本数据的策略。该决策模型能够将目标车辆的状态量与对应的控制量相关联，相比于传统离线优化算法，能够直接接收传感器的输入并且具有良好的在线规划效率，解决了现有技术中由于复杂传感器和环境不确定性带来的决策困难；相比于单纯的深度神经网络具有更好的学习效率并增加了对具体应用场景的适应能力。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

一种换道决策模型生成方法，包括：

获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度；

通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。
根据权利要求1所述的方法，所述训练样本集通过以下至少一种方式得到：

第一获取方式：

在模拟器中按照基于规则的优化算法使得车辆完成换道，获取多次换道过程中目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量；

第二获取方式：

从存储车辆换道信息的数据库中，采样出车辆换道过程中的车辆数据，所述车辆数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量。
根据权利要求1所述的方法，其特征在于，所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，所述通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型的步骤包括：

对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量；将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入，得到所述目标网络输出的价值评估Q值；

将所述预测控制量作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量；

将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中；

当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值，计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛。
根据权利要求3所述的方法，其特征在于，所述当所述经验数据的组数每达到第一预设数目后，则根据所述经验数据计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛的步骤之后，还包括：

当所述预测网络参数的更新次数达到第二预设数目后，获取经验池中环境奖励高于预设值的预测控制量和对应的状态量，或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量，将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中，以训练更新所述目标网络的参数。
根据权利要求3所述的方法，其特征在于，所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差，所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的策略参数；所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的策略参数。
一种无人车换道决策方法，包括：

在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度；

调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联；

将换道过程中每一时刻的控制量发送给执行机构，使得目标车辆完成换道。
一种换道决策模型生成装置，包括：

样本获取模块，被配置为获取车辆换道的训练样本集，所述训练样本集包括多个训练样本组，每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本，所述训练样本包括一组状态量及对应的控制量，所述状态量包括目标车辆的位姿、速度、加速度，目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度；所述控制量包括目标车辆的速度、角速度；

模型训练模块，被配置为通过所述训练样本集对基于深度强化学习网络的决策模型进行训练，得到换道决策模型，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。
根据权利要求7所述装置，其特征在于，所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络，所述模型训练模块包括：

样本输入单元，被配置为对于预先加入经验池的训练样本集，将每组训练样本中的任一状态量作为所述预测网络的输入，得到所述预测网络对该状态量的下一时间步长的预测控制量；将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入，得到所述目标网络输出的价值评估Q值；

奖励生成单元，被配置为将所述预测控制量作为预先构建的环境模拟器的输入，得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量；

经验保存单元，被配置为将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中；

参数更新单元，被配置为当所述经验数据的组数每达到第一预设数目后，根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值，计算损失函数，优化所述损失函数，得到所述预测网络参数变化的梯度，更新所述预测网络参数直至所述损失函数收敛。
根据权利要求7所述装置，其特征在于，所述参数更新单元，还被配置为：

当所述预测网络参数的更新次数达到第二预设数目后，获取经验池中环境奖励高于预设值的预测控制量和对应的状态量，或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量，将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中，以训练更新所述目标网络的参数。
一种无人车换道决策装置，包括：

数据获取模块，被配置为在确定的换道时刻，获取目标车辆车身传感器中的传感器数据，所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度；

控制量生成模块，被配置为调用换道决策模型，通过所述换道决策模型得到换道过程中，每一时刻目标车辆的控制量，所述换道决策模型使得目标车辆的状态量与对应的控制量相关联；

控制量输出模块，被配置为将换道过程中每一时刻的控制量发送给执行机构，使得目标车辆完成换道。