WO2020001423A1

WO2020001423A1 - 确定自动泊车策略的方法和装置

Info

Publication number: WO2020001423A1
Application number: PCT/CN2019/092722
Authority: WO
Inventors: 庄雨铮; 古强; 刘武龙
Original assignee: 华为技术有限公司
Priority date: 2018-06-29
Filing date: 2019-06-25
Publication date: 2020-01-02
Also published as: CN109895764A; EP3805062A4; EP4206051A1; CN109895764B; US20210114587A1; EP3805062A1; US11897454B2; EP3805062B1

Abstract

一种确定自动泊车策略的方法和装置，以及执行该方法的计算机可读存储介质。该方法包括：根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作，当前泊车阶段为车辆的泊车过程包括的多个泊车阶段中的一个；执行该目标泊车动作；获取反馈信息，该反馈信息用于指示执行目标泊车动作的结果是否达到了预定目标，该预定目标为预定的车辆与目标车位的相对位置，和/或，该预定目标为车辆在泊车过程中的状态；根据反馈信息更新自动泊车策略。上述方法将整个泊车过程划分为几个泊车阶段，针对每个阶段使用不同的方法获取控制策略，可以提高复杂泊车场景中自动泊车的成功率。

Description

确定自动泊车策略的方法和装置

本申请要求于2018年06月29日提交中国专利局、申请号为201810696037.0、申请名称为“确定自动泊车策略的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自动驾驶领域，尤其涉及一种确定自动泊车策略的方法和装置。

背景技术

自动泊车系统是一种可以通过平行、垂直或斜向的方式自动将车辆驶入车位的系统，其核心思想是对车辆的转向角和速度进行规划，从而得到在有限的可行驶空间内可执行的理想泊车路径。例如，车载处理器利用来自汽车伺服系统的传感器数据和车辆与障碍物的距离数据，根据泊车策略实时计算并执行一系列控制动作，使得车辆驶入车位。

一种可用的自动泊车方法是对不同的泊车场景(例如，不同过道宽度、目标车位大小和自车起始位姿)求解，以获取可用的控制策略，例如，通过圆弧规划或矢量场对泊车路径进行规划，获取可用的控制策略。

上述方法具有较强的泛化能力，然而，对于一些复杂的泊车场景，上述方法难以获得满意的结果，例如，圆弧规划对泊车空间的要求较高，在一些狭小的泊车空间中无法实施，矢量场计算得到的解不能保证收敛，最终导致在复杂的泊车场景中难以实现自动泊车。

发明内容

本申请提供一种确定自动泊车策略的方法和装置，将整个泊车过程划分为几个泊车阶段，针对每个阶段使用不同的方法获取控制策略，可以提高复杂泊车场景中自动泊车的成功率。

第一方面，提供了一种确定自动泊车策略的方法，包括：根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作，当前泊车阶段为车辆的泊车过程包括的多个泊车阶段中的一个；执行该目标泊车动作；获取反馈信息，该反馈信息用于指示执行目标泊车动作的结果是否达到了预定目标，该预定目标为预定的车辆与目标车位的相对位置，和/或，该预定目标为车辆在泊车过程中的状态；根据反馈信息更新自动泊车策略。

上述方法的执行设备例如是车载处理器，车载处理器可以将车辆的泊车过程划分为三个阶段，例如，首先将车辆的纵轴线与目标车位的纵轴线的夹角调整到小于60度，再将上述夹角调整到小于30度，再将上述夹角调整到小于5度，当上述夹角小于5度时，可以认为泊车成功。相对于在负载泊车场景中直接将上述夹角调整到小于5度的方案，本实施例的每个阶段的预定目标均降低了实现难度，获得每个阶段的自动泊车策略可以更加容易，从而提高复杂泊车场景中自动泊车的成功率。

可选地，根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作之前，所述方法还包括：根据参考方向与车辆的预设方向的夹角确定当前泊车阶段，其中，当前泊车阶段与所述夹角存在预设的对应关系。

通常情况下，车辆驶入目标车位并不能被认为是泊车成功，还需要确定车辆的预设方向(例如，纵轴线方向)与参考方向(例如，目标车位的纵轴线方向)的夹角小于某个夹角阈值才能确定该车辆泊车成功，因此，通过参考方向与车辆的预设方向的夹角与夹角阈值的大小关系能够准确判断当前泊车阶段具体处于什么阶段。

可选地，车辆的预设方向为车辆的纵轴线的方向，参考方向为目标车位的纵轴线的方向，且所述夹角为锐角或直角。

当车辆泊车成功时，车辆的纵轴线与目标车位的纵轴线是平行的或者接近平行的，因此，将车辆的纵轴线作为车辆的预设方向以及将目标车位的纵轴线作为参考方向能够更加方便判断车辆是否泊车成功。

可选地，根据参考方向与车辆的预设方向的夹角确定当前泊车阶段，包括：当所述夹角大于或等于第一夹角阈值时，确定当前泊车阶段为初始阶段，第一夹角阈值小于90度。

第一夹角阈值可以是根据专家经验设定的阈值，当所述夹角大于或等于第一夹角阈值时，说明车辆此时的位姿距离泊车完成时的位姿具有较大的差距，因此，可以确定此时车辆处于初始阶段，并按照初始阶段的目标泊车动作调整车辆的位姿，使得车辆完成初始阶段的预定目标，以便于进行下一阶段的动作。

可选地，初始阶段的目标泊车动作为：按照第一转向角向目标车位行驶，第一转向角小于车辆的最大转向角，初始阶段的预定目标为：所述夹角小于或等于第一夹角阈值，且，车辆进入目标车位。

初始阶段的目标泊车动作和预定目标均可以根据专家经验设定，其中，第一转向角可以是较大的角度，以便于快速调整车辆完成预定目标。

可选地，所述自动泊车策略为：确定与当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为目标泊车动作，所述根据反馈信息更新自动泊车策略，包括：当反馈信息为相邻两个时刻的所述夹角时，并且，当相邻两个时刻的所述夹角的差的绝对值大于预设的夹角阈值时，减小目标泊车动作的价值。

泊车动作的价值与该泊车动作成为目标泊车动作的概率成正比，对于已确定的目标泊车动作，通过反馈信息以及预设的价值增减规则确定目标泊车动作被执行完成后的价值，可以检验目标泊车动作是否适合当前泊车阶段，每次目标泊车动作被执行完后，处理器更新自动驾驶策略，重新确定价值最大的泊车动作，使得自动驾驶策略不断完善。

可选地，根据参考方向与车辆的预设方向的夹角确定当前泊车阶段，包括：当所述夹角大于第二夹角阈值且小于第一夹角阈值时，确定当前泊车阶段为过渡阶段，第一夹角阈值和第二夹角阈值均小于90度，且第二夹角阈值小于第一夹角阈值。

第一夹角阈值和第二夹角阈值可以是根据专家经验设定的阈值，第一夹角阈值为小于90度的值，当所述夹角大于第二夹角阈值且小于第一夹角阈值时，说明车辆此时的位姿已经调整至一个合适的位姿，因此，可以确定此时车辆处于过渡阶段，并按照过渡阶段的目标泊车动作调整车辆的位姿，使得车辆完成过渡阶段的预定目标，以便于进行下一阶段的动作。

可选地，过渡阶段的目标泊车动作为：按照第二转向角向目标车位行驶，第二转向角等于车辆的最大转向角，过渡阶段的预定目标为：所述夹角小于或等于第二夹角阈值，且，车辆进入目标车位。

过渡阶段的目标泊车动作和预定目标均可以根据专家经验设定，由于初始阶段已经将车辆的位姿调整至合适的位姿，因此，第二转向角可以是车辆的最大转向角，以便于快速调整车辆完成预定目标。

可选地，所述自动泊车策略为：确定与当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为目标泊车动作，所述根据反馈信息更新自动泊车策略，包括：当反馈信息为θ _t和θ _t-1时，并且，当|θ _t|<|θ _t-1|时，根据θ _t和θ _t-1增加目标泊车动作的价值，其中，θ _t和θ _t-1为相邻两个时刻的所述夹角，|θ _t|≠0，目标泊车动作的价值与

成正比。

可选地，根据参考方向与车辆的预设方向的夹角确定当前泊车阶段，包括：当所述夹角小于或等于第二夹角阈值时，确定当前泊车阶段为微调阶段，第二夹角阈值小于90度。

第二夹角阈值可以是根据专家经验设定的阈值，第二夹角阈值为小于90度的值，当所述夹角小于或等于第二夹角阈值时，说明车辆此时的位姿与泊车成功的位姿相差无几，因此，可以确定此时车辆处于微调阶段，并按照微调阶段的目标泊车动作调整车辆的位姿，使得车辆完成微调阶段的预定目标，完成泊车。

可选地，微调阶段的目标泊车动作为：按照第三转向角向所述目标车位行驶，第三转向角小于所述车辆的最大转向角，微调阶段的预定目标为：所述夹角小于或等于第三夹角阈值，且，车辆进入目标车位，其中，第三夹角阈值小于第二夹角阈值。

微调阶段的目标泊车动作和预定目标均可以根据专家经验设定，由于微调阶段车辆的位姿与泊车成功时车辆的位姿相差无几，因此，第三转向角可以是较小的角度，以便于完成预定目标。

可选地，所述自动泊车策略为：确定与当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为目标泊车动作，所述根据反馈信息更新自动泊车策略，包括：当反馈信息为d _t、d _t-1、θ _t和θ _t-1时，并且，当|d _t|<|d _t-1|且|θ _t|<|θ _t-1|时，根据d _t和d _t-1增加目标泊车动作的价值，其中，d _t和d _t-1为相邻两个时刻的车辆与目标车位的欧几里得距离，θ _t和θ _t-1为该相邻两个时刻的所述夹角，|d _t|≠0，目标泊车动作的价值与

成正比。

可选地，根据反馈信息更新所述自动泊车策略，还包括：当反馈信息为执行目标泊车动作的过程中发生了碰撞和/或出界时，减小目标泊车动作的价值；和/或，当反馈信息为达到预定目标时，增加目标泊车动作的价值。

若泊车过程中发生了碰撞和/或出界，说明目标泊车动作不适用于当前的泊车阶段，需要减小目标泊车动作的价值，若执行目标泊车动作之后达到了预定目标，说明目标泊车动作有可取之处，需要增加目标泊车动作的价值。

第二方面，提供了一种确定自动泊车策略的装置，该装置可以实现上述第一方面所涉及的方法中各个步骤所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置包括处理器和通信接口，该处理器被配置为支持该装置执行上述第一方面所涉及的方法中相应的功能。该通信接口用于支持该装置与其它网元之间的通信。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。

第三方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序代码，该计算机程序代码被处理单元或处理器执行时，使得确定自动泊车策略的装置执行第一方面所述的方法。

第四方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被确定自动泊车策略的装置的通信单元或通信接口、以及处理单元或处理器运行时，使得确定自动泊车策略的装置执行上述第一方面的方法。

附图说明

图1是一种适用于本申请的自动泊车场景示意图；

图2是本申请提供的一种自动泊车流程的示意图；

图3是本申请提供的另一种自动泊车流程的示意图；

图4是本申请提供的一种确定自动泊车策略的方法的示意图；

图5是本申请提供的一种初始阶段的自车位姿示意图；

图6是本申请提供的一种过渡阶段的自车位姿示意图；

图7是本申请提供的一种微调阶段的自车位姿示意图；

图8是本申请提供的一种确定自动泊车策略的装置的示意图；

图9是本申请提供的另一种确定自动泊车策略的装置的示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

图1示出了一种适用于本申请的自动泊车场景示意图。图1所示的泊车场景包括4个车位和4辆汽车，其中，3辆汽车占用了3个车位，第4个汽车(简称为“自车”)需要从图1所示的位置驶入4个车位中剩余的一个车位(即，目标车位)，并且在驶入过程中避免与其它车辆发生碰撞。

自车上安装有环境感知模块、规划控制模块和车辆控制模块，环境感知模块用于测量自车的位置、朝向、目标车位的位置以及自车与障碍物(包括其它车辆)的距离等环境信息，规划控制模块(例如，车载处理器)用于根据自动泊车策略以及环境感知模块测得的环境信息确定目标泊车动作，并输出目标泊车动作对应的动作命令，车辆控制模块根据规划控制模块输出的动作命令控制自车绕开障碍物驶入目标车位，完成自动泊车。上述自动泊车流程如图2所示。

通常情况下，自车周围的障碍物越多，泊车环境越复杂，确定自动泊车策略的难度也较高，自车周围的障碍物越少，泊车环境越简单，确定自动泊车策略的难度也较低，下面，将结合图3描述本申请提供的确定自动泊车策略的方法。

如图3所示，本申请提供的确定自动泊车策略的流程包括：

S1.规划控制模块从环境感知模块获取自车状态信息，包括自车相对于目标车位的位置、朝向和自车与周边障碍物之间的距离信息。

S2.根据自车状态信息判断自车所处的泊车阶段，根据当前泊车阶段的特征自适应地定义对应的动作空间和环境反馈机制；

S2.1阶段一为初始阶段，目标是将自车调整至理想起始位姿。

S2.2阶段二为过渡阶段，目标是通过充分利用空间将自车位姿向目标车位位姿调整。

S2.3阶段三为微调阶段，目标是通过微调将自车位姿调整至理想泊车位姿。

S2.4根据S2.1-S2.3的阶段目标，得到适用于不同阶段的动作空间，并定义不同阶段的环境反馈函数，其中，动作空间是多个泊车动作的集合(例如，A1，A2，A3)，规划控制模块根据当前泊车阶段从中选择一个泊车动作(例如，动作A1)作为当前泊车阶段的目标泊车动作，环境反馈函数用于确定动作A1的价值，即，动作A1是否能够继续作为目标泊车动作。

S3.采用基于强化学习的方法从S2中定义的动作空间中选择所应执行的动作。例如，采用深度Q学习神经网络(deep Q-network，DQN)中的ε-greedy策略从S2定义的动作空间中选择目标泊车动作，其中，从S2定义的动作空间中随机选取泊车动作作为目标泊车动作的概率为ε，从S2定义的动作空间中随机选取当前Q值最大的泊车动作作为目标泊车动作的概率为1-ε。

S4.执行S3中所选择的动作，根据从S2中定义的环境反馈机制获得来自环境的反馈，即获取目标泊车行动作的好坏的即时评价信号。例如，执行完目标泊车动作后发生了碰撞给予一个负反馈，完成阶段性目标给予一个正反馈等。

S5.将从S2、S3和S4中获得的信息进行存储，通过小批量随机梯度下降的方式对不同阶段对应的强化学习模型进行更新；三个阶段的模型通过串联的方式训练获得。

S6.判断各阶段模型是否收敛。该步骤需要基于模型在应用模式下的达成阶段目标的成功率、所执行轨迹的平滑性和其它可能的评判标准进行判断，这里不做特别的限定。

基于上述流程，下面，将对本申请提供的确定自动泊车策略的方法做详细介绍。

如图4所示，方法400的执行设备可以是车载处理器，也可以是包括处理器的车辆，还可以是服务器，本申请对方法400的执行设备不作限定。方法400包括：

S410，根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作，当前泊车阶段为车辆的泊车过程包括的多个泊车阶段中的一个。

可以将泊车过程划分为两个泊车阶段，也可以将泊车过程划分为三个泊车阶段，多个泊车阶段的数量还可以是其它数值。需要说明的是，上述泊车过程指的是一个完整的泊车过程，作为一个可选的示例，车辆(也可以称为“自车”)不需要经历完整的泊车过程即可完成泊车，例如，根据车辆的纵轴线与目标车位的纵轴线的夹角将一个完整的泊车过程划分为初始阶段和微调阶段，初始阶段的夹角较大，微调阶段的夹角较小，车辆进入车库后确定目标车位在车辆的正前方，即，车辆的纵轴线与目标车位的纵轴线的夹角较小，则车辆可以直接进入微调阶段。

自动泊车策略可以是从当前泊车阶段对应的泊车动作集合中选择合适的泊车动作作为目标泊车动作，泊车动作例如是对转向角和速度的控制，该合适的泊车动作例如是泊车动作集合中价值最高的泊车动作，或者，该合适的泊车动作例如是在不发生碰撞的前提下泊车动作集合中用时最少的泊车动作。自动泊车策略也可以是根据当前泊车阶段实时确定的目标泊车动作，例如，根据圆弧规划或矢量场确定的目标泊车动作。本申请对自动泊车策略不作限定。

S420，执行该目标泊车动作。

处理器输出目标泊车动作对应的动作指令，以便于执行目标泊车动作。

S430，获取反馈信息，该反馈信息用于指示执行目标泊车动作的结果是否达到了预定目标，该预定目标为预定的车辆与目标车位的相对位置，和/或，该预定目标为车辆在泊车过程中的状态。

反馈信息可以是自车与障碍物的距离，也可以是自车与目标车位的相对位置，还可以是“达到了预定目标”或者“未达到预定目标”。例如，预定目标是完成泊车，当反馈信息为自车与临近车位的车辆(即，障碍物)的距离小于50厘米时，处理器可以根据该反馈信息确定自车执行目标泊车动作达到了预定目标。又例如，预定目标是完成泊车，当反馈信息为自车完全进入目标车位时，处理器可以根据该反馈信息确定自车执行目标泊车动作达到了预定目标。

预定目标和反馈信息还可以使其它内容，例如，预定目标是离散化的小角度的转向角，反馈信息是各个时刻的转向角，若各个时刻的转向角小于或等于预定目标规定的转向角，则处理器根据该反馈信息确定自车执行目标泊车动作达到了预定目标，反之，则确定自车执行目标泊车动作未达到预定目标。

需要说明的是，S420和S430和可以是在实际泊车过程中执行，也可以是在模拟器或者仿真环境中执行。

S440，根据反馈信息更新自动泊车策略。

若反馈信息指示执行目标泊车动作达到了预定目标，说明该目标泊车动作适用于当前泊车阶段，可以增加该目标泊车动作的价值，使得该目标泊车动作更加容易与当前泊车阶段匹配上，即，更新自动泊车策略；若反馈信息指示执行目标泊车动作未达到预定目标，说明该目标泊车动作不适用于当前泊车阶段，可以减小该目标泊车动作的价值，使得该目标泊车动作不容易与当前泊车阶段匹配上，即，更新自动泊车策略。

综上，相对于以完整的泊车过程为目标确定自动泊车策略的方法，方法400通过将车辆的泊车过程划分为至少两个阶段，降低了每个阶段的目标的实现难度，获取完整的泊车过程对应的自动泊车策略更加容易，从而提高了复杂泊车场景中自动泊车的成功率。

可选地，在S410之前，方法400还包括：

根据参考方向与车辆的预设方向的夹角确定当前泊车阶段，其中，当前泊车阶段与所述夹角存在预设的对应关系。

通常情况下，车辆驶入目标车位并不能被认为是泊车成功，还需要确定车辆的预设方向(例如，纵轴线方向)与参考方向(例如，目标车位的纵轴线方向)的夹角小于某个夹角阈值才能确定该车辆泊车成功，因此，通过车辆的预设方向与参考方向的夹角与夹角阈值的大小关系能够准确判断当前泊车阶段具体处于什么阶段。

还可以根据其它方式(例如，车辆与目标车位的距离)确定当前泊车阶段处于泊车过程的哪个阶段，本申请对此不作限定。

可选地，车辆的预设方向为车辆的纵轴线的方向，参考方向为目标车位的纵轴线的方向，且车辆的纵轴线方向与目标车位的纵轴线方向的夹角为锐角或直角。

车辆在地面上的投影通常为长方形，车辆的纵轴线即为车辆的长方形的长边所在方向，还可以通过其它方式定义车辆的纵轴线，例如，车辆的两个前轮的连线的中垂线，或者，驾驶员面对的方向，或者，汽车直线行驶的方向。目标车位通常也是长方形，目标车位的纵轴线可以定义为该长方形的长边所在的方向。

可选地，所述根据参考方向与车辆的预设方向的夹角确定当前泊车阶段，包括：

当夹角大于或等于第一夹角阈值时，确定当前泊车阶段为初始阶段，第一夹角阈值小于90度；

图5示出了本申请提供的初始阶段的自车位姿示意图。以自车的纵轴线为自车的预设方向，目标车位的纵轴线为参考方向，若根据专家经验确定第一夹角阈值为60度，自车的纵轴线与目标车位的纵轴线的夹角θ为80度，则确定当前泊车阶段为初始阶段。其中，第一转向角可以为较小的角度(例如，5度)，可以使得初始阶段的泊车轨迹更加平滑。

确定了当前泊车阶段为初始阶段后，即可根据初始阶段的自动泊车策略确定目标泊车动作。

可选地，初始阶段的自动泊车策略为：确定与当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为目标泊车动作，所述根据反馈信息更新自动泊车策略，包括：当相邻两个时刻的所述夹角的差的绝对值大于预设的夹角阈值时，减小目标泊车动作的价值；和/或，当反馈信息为执行目标泊车动作的过程中发生了碰撞和/或出界时，减小目标泊车动作的价值；和/或，当反馈信息为完成预定目标时，增加目标泊车动作的价值。

例如，当θ _t-θ _t-1>5°时，将目标泊车动作的价值减去0.05*|θ _t-θ _t-1|，θ _t和θ _t-1为相邻两个时刻的所述夹角(即，车辆的纵轴线方向与目标车位的纵轴线方向的夹角)；当执行目标泊车动作的过程中发生了碰撞和/或出界时，将目标泊车动作的价值减去10；当执行目标泊车动作后完成预定目标时，将目标泊车动作的价值增加10；当执行目标泊车动作的过程中出现其它状况时，不增加也不减小目标泊车动作的价值。

上述根据反馈信息更新自动泊车策略即初始阶段的环境反馈机制，初始阶段的反馈机制还可以包括其它增加或减小目标泊车动作的价值的规则。

可选地，根据车辆的预设方向与参考方向的夹角确定当前泊车阶段，包括：

当所述夹角大于第二夹角阈值且小于第一夹角阈值时，确定当前泊车阶段为过渡阶段，第一夹角阈值和第二夹角阈值均小于90度，且第二夹角阈值小于第一夹角阈值。

图6示出了本申请提供的过渡阶段的自车位姿示意图。以自车的纵轴线为自车的预设方向，目标车位的纵轴线为参考方向，若根据专家经验确定第一夹角阈值为60度，第二夹角阈值与10度，自车的纵轴线与目标车位的纵轴线的夹角θ为59度，则确定当前泊车阶段为过渡阶段。由于车辆处于过渡阶段时位姿通常调整的比较良好，第一转向角可以为正向满轮或负向满轮对应的转向角，可以使得车辆快速由过渡阶段进入下个阶段，提高泊车效率。

确定了当前泊车阶段为过渡阶段后，即可根据过渡阶段的自动泊车策略确定目标泊车动作。

可选地，过渡阶段的自动泊车策略为：确定与当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为目标泊车动作，根据反馈信息更新自动泊车策略，包括：当反馈信息为θ _t和θ _t-1时，并且，当|θ _t|<|θ _t-1|时，根据θ _t和θ _t-1增加目标泊车动作的价值，其中，θ _t和θ _t-1为相邻两个时刻的所述夹角，|θ _t|≠0，目标泊车动作的价值与

成正比；和/或，当反馈信息为执行目标泊车动作的过程中发生了碰撞和/或出界时，减小目标泊车动作的价值；和/或，当反馈信息为完成预定目标时，增加目标泊车动作的价值。

例如，当|θ _t|<|θ _t-1|时，将目标泊车动作的价值增加

当执行目标泊车动作的过程中发生了碰撞和/或出界时，将目标泊车动作的价值减去10；当执行目标泊车动作后完成预定目标时，将目标泊车动作的价值增加10；当执行目标泊车动作的过程中出现其它状况时，不增加也不减小目标泊车动作的价值。

上述根据反馈信息更新自动泊车策略即过渡阶段的环境反馈机制，过渡阶段的反馈机制还可以包括其它增加或减小目标泊车动作的价值的规则。

当所述夹角小于或等于第二夹角阈值时，确定当前泊车阶段为微调阶段，第二夹角阈值小于90度。

图7示出了本申请提供的微调阶段的自车位姿示意图。以自车的纵轴线为自车的预设方向，目标车位的纵轴线为参考方向，若根据专家经验确定第二夹角阈值为10度，自车的纵轴线与目标车位的纵轴线的夹角θ为9度，则确定当前泊车阶段为初始阶段。其中，第三转向角可以为较小的角度(例如，1度)，可以使得微调阶段的泊车轨迹更加平滑。

确定了当前泊车阶段为微调阶段后，即可根据微调阶段的自动泊车策略确定目标泊车动作。

可选地，微调阶段的自动泊车策略为：确定与当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为目标泊车动作，根据反馈信息更新自动泊车策略，包括：当反馈信息为d _t、d _t-1、θ _t和θ _t-1时，并且，当|d _t|<|d _t-1|且|θ _t|<|θ _t-1|时，根据d _t和d _t-1增加目标泊车动作的价值，其中，d _t和d _t-1为相邻两个时刻的车辆与目标车位的欧几里得距离，θ _t和θ _t-1为该相邻两个时刻的所述夹角，|d _t|≠0，目标泊车动作的价值与

例如，当|d _t|<|d _t-1|且|θ _t|<|θ _t-1|时，将目标泊车动作的价值增加

上述根据反馈信息更新自动泊车策略即微调阶段的环境反馈机制，过渡阶段的反馈机制还可以包括其它增加或减小目标泊车动作的价值的规则。

上文详细介绍了本申请提供的确定自动泊车策略的方法的示例。可以理解的是，确定自动泊车策略的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请可以根据上述方法示例对确定自动泊车策略的装置进行功能单元的划分，例如，可以按照图4所示的方式对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图8示出了上述实施例中所涉及的确定自动泊车策略的装置的一种可能的结构示意图。确定自动泊车策略的装置800包括：处理单元801和获取单元802。处理单元801用于支持确定自动泊车策略的装置800执行图4所示的确定、更新等步骤。获取单元802于获取反馈信息。处理单元801和获取单元802还可以用于执行本文所描述的技术的其它过程。装置800还可以包括存储单元，用于存储装置800的程序代码和数据。例如：

处理单元801用于：根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作，当前泊车阶段为车辆的泊车过程包括的多个泊车阶段中的一个；执行该目标泊车动作。

获取单元802用于：获取反馈信息，该反馈信息用于指示执行目标泊车动作是否达到了预定目标。

处理单元801还用于根据反馈信息更新自动泊车策略。

处理单元801可以是处理器或控制器，例如可以是中央处理器(central processing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。获取单元802可以是收发器或通信接口。存储单元可以是存储器。

当处理单元801为处理器，获取单元802为通信接口，存储单元为存储器时，本申请所涉及的确定自动泊车策略的装置可以为图9所示的装置。

参阅图9所示，该装置900包括：处理器901、通信接口902和存储903。其中，处理器901、通信接口902以及存储器903可以通过内部连接通路相互通信，传递控制和/或数据信号。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请提供的装置800和装置900，通过将车辆的泊车过程划分为至少两个阶段，降低了每个阶段的目标的实现难度，获取完整的泊车过程对应的自动泊车策略更加容易，从而提高了复杂泊车场景中自动泊车的成功率。

装置实施例和方法实施例中的步骤完全对应，由相应的模块执行相应的步骤，例如获取单元执行方法实施例中的获取步骤，除获取步骤以外的其它步骤可以由处理单元或处理器执行。具体单元的功能可以参考相应的方法实施例，不再详述。

在本申请各个实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于:磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasable programmable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于:能够存储、包含和/或承载指令和/或数据的各种其它介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种确定自动泊车策略的方法，其特征在于，包括：

根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作，所述当前泊车阶段为车辆的泊车过程包括的多个泊车阶段中的一个；

执行所述目标泊车动作；

获取反馈信息，所述反馈信息用于指示执行所述目标泊车动作的结果是否达到了预定目标，所述预定目标为预定的所述车辆与目标车位的相对位置，和/或，所述预定目标为所述车辆在泊车过程中的状态；

根据所述反馈信息更新所述自动泊车策略。
根据权利要求1所述的方法，其特征在于，所述根据自动泊车策略确定与所述当前泊车阶段对应的目标泊车动作之前，所述方法还包括：

根据参考方向与所述车辆的预设方向的夹角确定所述当前泊车阶段，其中，所述当前泊车阶段与所述夹角存在预设的对应关系。
根据权利要求2所述的方法，其特征在于，所述车辆的预设方向为所述车辆的纵轴线方向，所述参考方向为所述目标车位的纵轴线方向，且所述夹角为锐角或直角。
根据权利要求3所述的方法，其特征在于，所述根据参考方向与所述车辆的预设方向的夹角确定所述当前泊车阶段，包括：

当所述夹角大于或等于第一夹角阈值时，确定所述当前泊车阶段为初始阶段，所述第一夹角阈值小于90度。
根据权利要求4所述的方法，其特征在于，

所述目标泊车动作为：按照第一转向角向所述目标车位行驶，所述第一转向角小于所述车辆的最大转向角，

所述预定目标为：所述夹角小于或等于所述第一夹角阈值，且，所述车辆进入所述目标车位。
根据权利要求4或5所述的方法，其特征在于，所述自动泊车策略为：确定与所述当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为所述目标泊车动作，

所述根据所述反馈信息更新所述自动泊车策略，包括：

当所述反馈信息为相邻两个时刻的所述夹角时，并且，当相邻两个时刻的所述夹角的差的绝对值大于预设的夹角阈值时，减小所述目标泊车动作的价值。
根据权利要求3至6中任一项所述的方法，其特征在于，所述根据参考方向与所述车辆的预设方向的夹角确定所述当前泊车阶段，包括：

当所述夹角大于第二夹角阈值且小于第一夹角阈值时，确定所述当前泊车阶段为过渡阶段，所述第一夹角阈值和所述第二夹角阈值均小于90度，且所述第二夹角阈值小于所述第一夹角阈值。
根据权利要求7所述的方法，其特征在于，

所述目标泊车动作为：按照第二转向角向所述目标车位行驶，所述第二转向角等于所述车辆的最大转向角，

所述预定目标为：所述夹角小于或等于所述第二夹角阈值，且，所述车辆进入所述目标车位。
根据权利要求7或8所述的方法，其特征在于，所述自动泊车策略为：确定与所述当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为所述目标泊车动作，

所述根据所述反馈信息更新所述自动泊车策略，包括：

当所述反馈信息为θ _t和θ _t-1时，并且，当|θ _t|<|θ _t-1|时，根据θ _t和θ _t-1增加所述目标泊车动作的价值，其中，θ _t和θ _t-1为相邻两个时刻的所述夹角，|θ _t|≠0，所述目标泊车动作的价值与
成正比。
根据权利要求3至9中任一项所述的方法，其特征在于，所述根据参考方向与所述车辆的预设方向的夹角确定所述当前泊车阶段，包括：

当所述夹角小于或等于第二夹角阈值时，确定所述当前泊车阶段为微调阶段，所述第二夹角阈值小于90度。
根据权利要求10所述的方法，其特征在于，

所述目标泊车动作为：按照第三转向角向所述目标车位行驶，所述第三转向角小于所述车辆的最大转向角，

所述预定目标为：所述夹角小于或等于第三夹角阈值，且，所述车辆进入所述目标车位，其中，所述第三夹角阈值小于所述第二夹角阈值。
根据权利要求10或11所述的方法，其特征在于，所述自动泊车策略为：确定与所述当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为所述目标泊车动作，

所述根据所述反馈信息更新所述自动泊车策略，包括：

当所述反馈信息为d _t、d _t-1、θ _t和θ _t-1时，并且，当|d _t|<|d _t-1|且|θ _t|<|θ _t-1|时，根据d _t和d _t-1增加所述目标泊车动作的价值，其中，d _t和d _t-1为相邻两个时刻的所述车辆与所述目标车位的欧几里得距离，θ _t和θ _t-1为所述相邻两个时刻的所述夹角，|d _t|≠0，所述目标泊车动作的价值与
成正比。
根据权利要求6或9或12所述的方法，其特征在于，所述根据所述反馈信息更新所述自动泊车策略，还包括：

当所述反馈信息为执行所述目标泊车动作的过程中发生了碰撞和/或出界时，减小所述目标泊车动作的价值；和/或，

当所述反馈信息为达到所述预定目标时，增加所述目标泊车动作的价值。
一种确定自动泊车策略的装置，其特征在于，包括处理单元和获取单元，

所述处理单元用于：根据自动泊车策略确定与当前泊车阶段对应的目标泊车动作，所述当前泊车阶段为车辆的泊车过程包括的多个泊车阶段中的一个；

所述处理单元还用于：执行所述目标泊车动作；

所述获取单元用于：获取反馈信息，所述反馈信息用于指示执行所述目标泊车动作的结果是否达到了预定目标，所述预定目标为预定的所述车辆与目标车位的相对位置，和/或，所述预定目标为所述车辆在泊车过程中的状态；

所述处理单元还用于：根据所述反馈信息更新所述自动泊车策略。
根据权利要求14所述的装置，其特征在于，所述根据自动泊车策略确定与所述当前泊车阶段对应的目标泊车动作之前，所述处理单元还用于：

根据参考方向与所述车辆的预设方向的夹角确定所述当前泊车阶段，其中，所述当前泊车阶段与所述夹角存在预设的对应关系。
根据权利要求15所述的装置，其特征在于，所述车辆的预设方向为所述车辆的纵轴线方向，所述参考方向为所述目标车位的纵轴线方向，且所述夹角为锐角或直角。
根据权利要求16所述的装置，其特征在于，所述处理单元具体用于：

当所述夹角大于或等于第一夹角阈值时，确定所述当前泊车阶段为初始阶段，所述第一夹角阈值小于90度。
根据权利要求17所述的装置，其特征在于，

所述目标泊车动作为：按照第一转向角向所述目标车位行驶，所述第一转向角小于所述车辆的最大转向角，

所述预定目标为：所述夹角小于或等于所述第一夹角阈值，且，所述车辆进入所述目标车位。
根据权利要求17或18所述的装置，其特征在于，所述自动泊车策略为：确定与所述当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为所述目标泊车动作，

所述处理单元具体用于：

当所述反馈信息为相邻两个时刻的所述夹角时，并且，当相邻两个时刻的所述夹角的差的绝对值大于预设的夹角阈值时，减小所述目标泊车动作的价值。
根据权利要求16至19中任一项所述的装置，其特征在于，所述处理单元具体用于：

当所述夹角大于第二夹角阈值且小于第一夹角阈值时，确定所述当前泊车阶段为过渡阶段，所述第一夹角阈值和所述第二夹角阈值均小于90度，且所述第二夹角阈值小于所述第一夹角阈值。
根据权利要求20所述的装置，其特征在于，

所述目标泊车动作为：按照第二转向角向所述目标车位行驶，所述第二转向角等于所述车辆的最大转向角，

所述预定目标为：所述夹角小于或等于所述第二夹角阈值，且，所述车辆进入所述目标车位。
根据权利要求20或21所述的装置，其特征在于，所述自动泊车策略为：确定与所述当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为所述目标泊车动作，

所述处理单元具体用于：

当所述反馈信息为θ _t和θ _t-1时，并且，当|θ _t|<|θ _t-1|时，根据θ _t和θ _t-1增加所述目标泊车动作的价值，其中，θ _t和θ _t-1为相邻两个时刻的所述夹角，|θ _t|≠0，所述目标泊车动作的价值与
成正比。
根据权利要求16至22中任一项所述的装置，其特征在于，所述处理单元具体用于：

当所述夹角小于或等于第二夹角阈值时，确定所述当前泊车阶段为微调阶段，所述第二夹角阈值小于90度。
根据权利要求23所述的装置，其特征在于，

所述目标泊车动作为：按照第三转向角向所述目标车位行驶，所述第三转向角小于所述车辆的最大转向角，

所述预定目标为：所述夹角小于或等于第三夹角阈值，且，所述车辆进入所述目标车位，其中，所述第三夹角阈值小于所述第二夹角阈值。
根据权利要求23或24所述的装置，其特征在于，所述自动泊车策略为：确定与所述当前泊车阶段对应的多个泊车动作中价值最大的泊车动作为所述目标泊车动作，

所述处理单元具体用于：

当所述反馈信息为d _t、d _t-1、θ _t和θ _t-1时，并且，当|d _t|<|d _t-1|且|θ _t|<|θ _t-1|时，根据d _t和d _t-1增加所述目标泊车动作的价值，其中，d _t和d _t-1为相邻两个时刻的所述车辆与所述目标车位的欧几里得距离，θ _t和θ _t-1为所述相邻两个时刻的所述夹角，|d _t|≠0，所述目标泊车动作的价值与
成正比。
根据权利要求19或22或25所述的装置，其特征在于，所述处理单元具体还用于：

当所述反馈信息为执行所述目标泊车动作的过程中发生了碰撞和/或出界时，减小所述目标泊车动作的价值；和/或，

当所述反馈信息为达到所述预定目标时，增加所述目标泊车动作的价值。
一种确定自动泊车策略的装置，其特征在于，包括处理器和存储器，所述存储单元存储有指令，当所述指令被所述处理单元运行时，使得所述处理单元执行如权利要求1至13中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行权利要求1至13中任一项所述的方法。