WO2019056471A1

WO2019056471A1 - 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质

Info

Publication number: WO2019056471A1
Application number: PCT/CN2017/107814
Authority: WO
Inventors: 吴壮伟; 金鑫; 张川
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-09-19
Filing date: 2017-10-26
Publication date: 2019-03-28
Also published as: CN107729986A; CN107729986B

Abstract

一种驾驶模型训练方法、驾驶人识别方法、装置、设备及介质。该驾驶模型训练方法包括：获取同一驾驶场景的训练图像数据和训练音频数据，所述训练图像数据和所述训练音频数据与用户标识相关联(S11)；采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型(S12)；采用所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型(S13)；采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将所述人脸识别模型和所述音频识别模型与所述用户标识关联存储(S14)。该驾驶模型训练方法利用图像维度和声音维度上的特征，解决当前驾驶模型识别效果差的问题，提高了识别驾驶人开车的精确度。

Description

驾驶模型训练方法、驾驶人识别方法、装置、设备及介质

本专利申请以2017年9月19日提交的申请号为201710846204.0，名称为“驾驶模型训练方法、驾驶人识别方法、装置、设备及介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及身份识别领域，尤其涉及一种驾驶模型训练方法、驾驶人识别方法、装置、设备及介质。

背景技术

目前识别是否驾驶人本人开车一般使用手机获取的的陀螺仪数据和手机轨迹数据来判断是否本人开车，但是这种采用陀螺仪数据和手机轨迹数据进行驾驶人识别的结果精确度不高。采用陀螺仪数据和手机轨迹数据进行驾驶人识别获得的数据往往不能反映驾驶人驾驶的真实状态，采用的具体数据如汽车的速度、加速度或者在地图上的轨迹数据这些数据难以实现对驾驶人的精准识别。采集并使用的数据多为汽车驾驶时的物理特性，没有使用其他能够有效反映驾驶人识别的特性，不能较好地反映驾驶人真实行驶过程的状态，造成进行驾驶人识别的识别效果较差。

发明内容

本申请实施例提供一种驾驶模型训练方法、驾驶人识别方法、装置、设备及介质，以解决当前驾驶模型识别效果较差的问题。

第一方面，本申请实施例提供一种驾驶模型训练方法，包括：

获取同一驾驶场景的训练图像数据和训练音频数据,所述训练图像数据和所述训练音频数据与用户标识相关联；

采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型；

基于所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将通过验证的所述人脸识别模型和所述音频识别模型与所述用户标识关联存储。

第二方面，本申请实施例提供一种驾驶模型训练装置，包括：

训练数据获取模块，用于获取同一驾驶场景的训练图像数据和训练音频数据,所述训练图像数据和所述训练音频数据与用户标识相关联；

人脸识别模型获取模块，用于采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型；

音频识别模型获取模块，用于基于所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

关联存储模块，用于采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将通过验证的所述人脸识别模型和所述音频识别模型与所述用户标识关联存储。

第三方面，本申请实施例提供一种驾驶人识别方法，包括：

获取用户同一驾驶场景的待识别图像数据和待识别音频数据，所述待识别图像数据和所述待识别音频数据与用户标识相关联；

基于所述用户标识查询数据库，调用与所述用户标识相对应的人脸识别模型和音频识别模型，所述人脸识别模型和所述音频识别模型是采用所述驾驶模型训练方法获取的模型；

基于所述待识别图像数据和所述人脸识别模型获取第一概率；

基于所述人脸识别模型调用与所述用户标识关联存储的音频识别模型，所述音频识别模型是采用所述驾驶模型训练方法获取的模型；

基于所述待识别音频数据和所述音频识别模型获取第二概率；

基于所述第一概率和所述第二概率确定所述用户本人开车的最终概率；

若所述最终概率大于第二预设阈值，则确定为所述用户本人开车。

第四方面，本申请实施例提供一种驾驶人识别装置，包括：

待识别数据获取模块，用于获取用户同一驾驶场景的待识别图像数据和待识别音频数据，所述待识别图像数据和所述待识别音频数据与用户标识相关联；

识别模型调用模块，用于基于所述用户标识查询数据库，调用与所述用户标识相对应的人脸识别模型和音频识别模型，所述人脸识别模型和所述音频识别模型是采用所述驾驶模型训练方法获取的模型；

第一概率获取模块，用于基于所述待识别图像数据和所述人脸识别模型获取第一概率；

第二概率获取模块，用于基于所述待识别音频数据和所述音频识别模型获取第二概率；

最终概率获取模块，用于基于所述第一概率和所述第二概率确定所述用户本人开车的最终概率；

确认结果获取模块，用于若所述最终概率大于第二预设阈值，则确定为所述用户本人开车。

第五方面，本申请实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

采用所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

第六方面，本申请实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

第七方面，本申请实施例提供一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

第八方面，本申请实施例提供一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

本申请实施例所提供的驾驶模型训练方法、装置、设备及介质中，先获取同一驾驶场景的训练图像数据和训练音频数据,以便基于用户标识获取进行驾驶模型训练所需的训练图像数据和训练音频数据，以保证训练获得的驾驶模型能够通过人脸识别和音频识别确定是否用户本人驾驶。然后采用训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，通过卷积神经网络模型训练获得的人脸识别模型，可以更为准确地对用户进行识别，为确定是否用户本人驾驶提供了保证。接着采用训练音频数据对卷积神经网络模型进行训练，获取音频识别模型，该音频识别模型在人脸识别模型的基础上还进行了音频识别维度上对用户是否本人驾驶的识别，能够进一步提高识别的精度。最后，采用训练图像数据和音频图像数据对人脸识别模型和音频识别模型进行一致性验证，将通过验证的人脸识别模型和音频识别模型与用户标识关联存储，该关联存储可以通过同一用户的用户标识将人脸识别模型和音频识别模型直接关联起来，实现对图像和音频数据的识别，使得驾驶模型实现从两个重要维度识别是否用户本人开车，充分利用图像维度和音频维度间的潜在联系，使得识别结果更加贴近实际驾驶情况。将上述两种识别模型存储在与同一用户标识关联的数据库中，以便对同一驾驶场景下获取的图像维度和声音维度分别进行人脸识别和音频识别，识别过程有效减少单一维度数据造成的误差，有效保证驾驶模型识别的准确率。

本申请实施例所提供的驾驶人识别方法、装置、设备及介质中，基于待识别图像数据和人脸识别模型获取第一概率，基于待识别音频数据和音频识别模型获取第二概率，根据第一概率和第二概率确定用户本人开车的最终概率，并判断最终概率是否大于第二预设阈值以确定是否为用户本人开车，使得驾驶人识别结果更精确可靠。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例1中驾驶模型训练方法的一流程图。

图2是图1中步骤S11之前的一具体流程图。

图3是图1中步骤S11的一具体流程图。

图4是图1中步骤S12的一具体流程图。

图5是图1中步骤S13的一具体流程图。

图6是本申请实施例2中驾驶模型训练装置的一原理框图。

图7是本申请实施例3中驾驶人识别方法的一流程图。

图8是图7中步骤S25的一具体流程图。

图9是本申请实施例4中驾驶人识别装置的一原理框图。

图10是本申请实施例6中终端设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

图1示出本实施例中驾驶模型训练方法的一流程图。该驾驶模型训练方法可应用在保险机构或其他机构的终端设备上，用于训练驾驶模型，以便利用训练好的驾驶模型进行识别，达到智能识别的效果。如可应用在保险机构的终端设备上，用于训练与用户相对应的驾驶模型，以便利用训练好的驾驶模型对在保险机构办理车险的用户进行识别，以确定是否为用户本人开车。如图1所示，该驾驶模型训练方法包括如下步骤：

S11：获取同一驾驶场景的训练图像数据和训练音频数据,训练图像数据和训练音频数据与用户标识相关联。

其中，同一驾驶场景是指用户在同一时刻所处的驾驶场景，训练图像数据和训练音频数据是在该用户在同一驾驶场景所采集的数据。用户标识是用于唯一识别用户的标识，为了保证训练得到的驾驶模型可用于识别是否为用户本人开车，需使获取到的所有训练图像数据和训练音频数据均与用户标识相关联。其中，所有训练图像数据和训练音频数据均与用户标识相关联，是指每一用户在出行时产生的训练图像数据和训练音频数据与用户标识唯一对应，一个用户标识可相关联多个同一驾驶场景的训练图像数据和训练音频数据。可以理解地，与用户标识相关联的训练图像数据和训练音频数据均携带有时间标签，同一用户标识对应的同一驾驶场景的训练图像数据和训练音频数据携带相同的时间标签。

本实施例中，用户预先在手机或平板等移动终端上的应用程序(即(Application，简称APP)上完成注册，以使应用程序对应的服务器可获取相应的用户标识。该用户标识可以为用户的手机号或身份证号等可唯一识别用户的标识。当用户携带移动终端出行时，移动终端启动摄像头和录音设备，可在该驾驶场景下实时采集用户驾驶过程中的图像数据和音频数据。移动终端获取到图像数据和音频数据后，将该图像数据和音频数据上传到服务器中，以使服务器将获取到的图像数据和音频数据存储在MySQL、Oracle等数据库中，并使每一图像数据和音频数据与一用户标识关联存储。在终端设备需要进行驾驶模型训练时，可从MySQL、Oracle等数据库中查询获取与用户标识相关联的图像数据和音频数据，作为训练驾驶模型的训练图像数据和训练音频数据。该用户的训练图像数据和训练音频数据包含用户的大量训练数据，能够提供足够多的训练图像数据和训练音频数据，为驾驶模型训练提供良好的数据基础，以保证训练得到的驾驶模型的识别效果。

如图2所示，步骤S11中，获取同一驾驶场景的训练图像数据和训练音频数据,训练图像数据和训练音频数据与用户标识相关联，之前还包括如下步骤：

S1111：获取驾驶场景下车辆的当前车速，判断当前车速是否达到预设车速阈值。

本实施中，在用户开始驾驶车辆并启动移动终端后，移动终端中内置的传感器将实时获取车辆的当前车速，并实时将获取到的当前车速与预设车速阈值进行大小比较，判断当前车速是否达到预设车速阈值。具体地，用户A在一驾驶场景下车速由0km/h到60km/h 递增变化，预设车速阈值为15km/h，则用户的移动终端将实时判断车辆的当前车速是否到达15km/h。

S1112：获取驾驶场景下车辆的当前车速，判断当前车速是否达到预设车速阈值，当前图像数据和当前音频数据与用户标识相关联。

本实施例中，用户在一驾驶场景驾驶过程中，当当前车速达到预设车速阈值时，用户的移动设备将会调用移动终端的摄像头和录音设备，采集该驾驶场景下的当前图像数据和当前音频数据，并且该当前图像数据和当前音频数据与用户标识相关联。具体地，用户A在一驾驶场景下车速由0km/h到60km/h递增变化，预设车速阈值为15km/h，则当用户驾驶的车速未到达15km/h时，用户的移动设备将继续获取车辆的当前车速；当用户驾驶到达车速为15km/h时，用户的移动终端将会调用移动终端的摄像头和录音设备，采集该驾驶场景下用户A的当前图像数据和当前音频数据，该当前图像数据和当前音频数据与用户A的用户标识相关联。进一步地，不同的用户如用户B和用户C在同一时刻的驾驶场景采集的当前图像数据和当前音频数据，与其用户标识相关联，即用户B采集的当前图像数据和当前音频数据与用户B的用户标识相关联，用户C采集的当前图像数据和当前音频数据与用户C的用户标识相关联。

S1113：将当前图像数据和当前音频数据存储在数据库中。

本实施例中，用户的移动设备获取当前图像数据和当前音频数据，并将该当前图像数据和当前音频数据上传到服务器中，以使服务器将获取到的当前图像数据和当前音频数据存储在MySQL、Oracle等数据库中，并使每一当前图像数据和当前音频数据与一用户标识关联存储。进一步地，在终端设备需要进行驾驶模型训练时，可从MySQL、Oracle等数据库中查询获取与用户标识相关联的当前图像数据和当前音频数据，作为训练驾驶模型的训练图像数据和训练音频数据。

S1114：在数据库中创建驾驶数据信息表，驾驶数据信息表包括至少一条驾驶数据信息；每一驾驶数据信息包括用户标识、当前图像数据在数据库中的存储地址和当前音频数据在数据库中的存储地址。

其中，驾驶数据信息表是详细记载从用户移动终端采集的当前图像数据和当前音频数据的信息表，该驾驶数据信息表包括至少一条驾驶数据信息，每一驾驶数据信息为用户在同一驾驶场景下获取的当前图像数据和当前音频数据，因此该驾驶数据信息包括用户标识、当前图像数据在数据库中的存储地址和当前音频数据在数据库中的存储地址。本实施例中，采集的数据在数据库中通过数据表存储，并与用户标识关联，可根据用户标识查询到当前图像数据在数据库中的存储地址和当前音频数据在数据库中的存储地址，从而快捷地获得存储在数据库中的当前图像数据和当前音频数据，以使其作为训练驾驶模型所需的训练图像数据和训练音频数据。

如图3所示，步骤S11中，获取同一驾驶场景的训练图像数据和训练音频数据，包括如下步骤：

S1121：获取用户输入的模型训练指令，模型训练指令包括用户标识。

其中，模型训练指令是指用户的移动终端获取的用于驾驶模型训练所需的训练图像数据和训练音频数据指令。本实施例中，用户在其移动终端界面输入模型训练指令，移动终端界面获取模型训练指令后，将该指令传递到移动终端的后台，以待后台对指令进行处理。该模型训练指令包括用户标识，该用户标识可用于在数据库查询驾驶数据信息表。

S1122：基于用户标识查询驾驶数据信息表，判断驾驶数据信息的数量是否大于预设数量。

本实施例中，根据用户标识查询驾驶数据信息表，该驾驶数据信息表包括至少一条驾驶数据信息；每一驾驶数据信息包括用户标识、当前图像数据在数据库中的存储地址和当前音频数据在数据库中的存储地址。移动终端根据获取的用户标识，查询驾驶数据信息表中驾驶数据信息的数量，并判断查询到的驾驶数据信息数量是否大于预设数量，其中，预设数量是指提前设置好的数量阈值，该预设数量可以设为10000条。一般来说，数据不可过少，过少的数据会导致训练获取的驾驶模型识别效果差，并且驾驶模型容易过拟合；过多的数量会造成模型训练时间过长，不利于实际应用，故应取驾驶数据信息数量适中的值，即可以防止驾驶模型过拟合，又可以在预期时间内完成模型的训练，并且还能够保证驾驶模型的识别效果。

S1123：若驾驶数据的数量大于预设数量，则获取同一驾驶场景的训练图像数据和训练音频数据。

本实施例中，将在数据库中查询到的驾驶数据数量与预设数量进行比较，若驾驶数据的数量大于预设数量，表示在数据库中存储的驾驶数据信息数量已到达进行驾驶模型训练的数量，则将存储的训练图像数据和训练音频数据输出，以进行驾驶模型训练。其中，驾驶数据的数量包含有训练图像数据和训练音频数据，该训练图像数据和训练音频数据是在同一驾驶场景下获取的，故存储在数据表中的训练图像数据和训练音频数据的关系是1:1，且驾驶数据的数量包含有训练图像数据和训练音频数据，只要二者其中一数量大于预设数量，另一训练数据也会大于预设数量，可以进行驾驶模型训练，即可同时训练人脸识别模型和音频识别模型。其中，驾驶模型训练包括人脸识别模型训练和音频识别模型训练，用户移动终端获取的训练图像数据和训练音频数据分别用于训练人脸识别模型和音频识别模型。

S12：采用训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型。

其中，卷积神经网络(Convolutional Neural Network,简称CNN)模型，是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，常应用于大型图像的处理。卷积神经网络通常包括至少两个非线性可训练的卷积层，至少两个非线性的池化层和至少一个全连接层，即包括至少五个隐含层，此外还包括输入层和输出层。将训练图像数据输入卷积神经网络，卷积神经网络的卷积层对训练图像数据进行卷积计算，根据设置的过滤器(Filter)数量获得对应数量的特征图(Feature Map)。将获得的特征图在池化层进行下采样计算，获得池化后的特征图。其中，下采样计算的目的是去掉特征图中不重要的样本，进一步减少参数数量。下采样计算的方法很多，其中最常用的是最大池化，最大池化实际上就是在n*n的样本中取最大值，作为采样后的样本值。除了最大池化之外，常用的还有平均池化，即取在n*n的样本中取各样本的平均值，本实施例采用最大池化的下采样计算方法。其中，卷积层和池化层是成对出现的，即在卷积层进行卷积计算后紧跟着在池化层对卷积计算获取的特征图进行下采样计算。之后经过多轮卷积-池化处理的特征图将经过至少一个全连接层和在网络模型中最后的一层输出层。此时输出层和普通的全连接层唯一的区别是，激活函数是softmax函数，而全连接层的激活函数一般为sigmoid。通过计算各层的输出对卷积神经网络模型各层进行误差计算和梯度反传更新，获取更新后的各层的权值，基于更新后的各层的权值，获取人脸识别模型。通过卷积神经网络模型训练获得的人脸识别模型，可以更为准确地对用户的人脸进行识别，为确定是否用户本人驾驶提供了保证。

如图4所示，步骤S12中，采用训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，具体包括如下步骤：

S121：初始化卷积神经网络模型。

具体地，初始化卷积神经网络主要是初始化卷积层的卷积核(即权值)和偏置。卷积神经网络模型的权值初始化就是指给卷积神经网络模型中的所有权值赋予一个初始值。如果初始权值处在误差曲面的一个相对平缓的区域时，卷积神经网络模型训练的收敛速度可能会异常缓慢。一般情况下，网络的权值被初始化在一个具有0均值的相对小的区间内均匀分布，比如[-0.30,+0.30]这样的区间内。

S122：在卷积神经网络模型中输入训练图像数据，计算卷积神经网络模型各层的输出。

本实施例中，在卷积神经网络模型中输入训练图像数据，计算卷积神经网络模型各层的输出，各层的输出采用前向传播算法可获取。其中，不同于全连接的神经网络模型，对于局部连接的卷积神经网络模型还需计算模型中卷积层的每一种输出的特征图和池化层的每一种输出的特征图，以对权值进行更新。具体地，对于卷积层的每一种输出的特征图

其中，l是当前层，Mj表示选择的输入特征图组合，

是输入的第i种特征图即l-1层的输出，

是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，

是第j种特征图l层对应的加性偏置，f是激活函数，该激活函数可以是sigmoid激活函数。此外，对于池化层的每一种输出的特征图x_j为

其中，down表示下采样计算，这里的

第j种特征图l层对应的乘性偏置，b是第j种特征图l层对应的加性偏置。本实施例主要给出卷积神经网络模型中区别与一般全连接的神经网络模型的卷积层和池化层输出，其余各层的输出与一般全连接的神经网络模型计算相同，采用前向传播算法可获取，故不一一举例，以免累赘。

S123：根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

步骤S122中，获得的预测值与真实值之间必然存在误差，需要将这个误差信息逐层回传给每一层，让每一层更新它们的权值，才能获得识别效果更好的人脸识别模型。本实施例中，根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值，具体包括计算卷积神经网络模型每一层的误差信息，并用梯度下降法更新每一层的权值。其中，梯度下降法更新权值主要是利用误差代价函数对参数的梯度，所以权值更新的目标就是让每一层得到这样的梯度，然后更新。

在一具体实施方式中，步骤S123具体包如下步骤：根据第n个误差代价函数的表达式

其中n为单个训练样本，在卷积神经网络模型中的目标输出为

t2,t3,...,tk),用

表示，

为实际输出，c为实际输出的维度。为了求取单个样本的误差代价函数对参数的偏导，这里定义灵敏度δ为误差对输出的变化率，灵敏度的表达式为

其中E为误差代价函数，其中u为u^l＝W^lx^l-1+b^l，l表示当前第l层，W^l表示该层的权值，x^l-1表示该层的输入，b^l表示该层的加性偏置。通过计算灵敏度层层回传误差信息即可实现反向传播，其中反向传播的过程是指对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值的过程。则有卷积层第l层的灵敏度为

其中，ο表示每个元素相乘，因为每个神经元连接都会有一个灵敏度δ，所以每一层的灵敏度是一个矩阵，l+1层是指池化层，其运算的本质相当于也是做卷积运算，例如做特征图大小为2的下采样操作，就是用2*2的每个值为1/4的卷积核卷积图像，所以这里的权值W实际上就是这个2*2的卷积核，它的值即为β_j。up表示上采样计算，上采样计算是与下采样计算相对的计算，在做下采样计算时采样因子是n，则上采样计算即将每个像素分别在垂直与水平方向上复制n倍。由于l+1池化层的灵敏度矩阵是l层灵敏度矩阵的尺寸的1/4，所以需对l+1层的灵敏度矩阵做上采样计算，使它们尺寸一致。根据获得的灵敏度，计算误差代价函数对加性偏置b的偏导为

即对层l中的灵敏度中所有节点求和，其中(u,v)代表灵敏度矩阵中的元素位置。乘性偏置β与前向传播中当前层的池化层相关，因此先定义

则计算误差代价函数对乘性偏置β的偏导为

之后计算误差代价函数对卷积核k的偏导

这里

是

在做卷积时，与k_ij做卷积的每一个特征图中的小块，(u,v)是指小块中心，输出特征图中(u,v)位置的值，是由输入特征图中(u,v)位置的小块和卷积核k_ij卷积所得的值。根据以上公式的运算，可以获得更新后的卷积神经网络模型卷积层的权值。在卷积神经网络模型的训练过程中，还应对池化层进行更新，对于池化层的每一种输出的特征图

其中，down表示下采样，这里的β是乘性偏置，b是加性偏置。卷积神经网络模型中池化层灵敏度的计算公式为

并且根据δ可求得有误差代价函数对加性偏置b的偏导为

其中conv2、rot180和full为计算所需的函数，以上公式的其余参数与上述卷积层公式提及的参数含义相同，在此不再详述。根据上述公式，可获取更新后的池化层权值，此外还应对卷积神经网络模型的其他各层(如全连接层)间权值进行更新，该更新过程与一般的全连接神经网络模型的权值更新方法相同，采用后向传播算法更新权值，为避免累赘，再此不一一进行详述。通过对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

S124：基于更新后的各层的权值，获取人脸识别模型。

本实施例中，将获取的更新后的各层的权值，应用到卷积神经网络模型中即可获取训练后的人脸识别模型。进一步地，该人脸识别模型中各层之间的权值反映了图像中各部分模块与其相邻模块间的潜在关系，实现了对图片信息的有效抓取和识别效果。在人脸识别模型最终会输出一概率值，该概率值表示待识别图像数据在通过人脸识别模型处理后与该目标驾驶模型的贴近程度。该模型可广泛应用于驾驶人识别，以达到准确识别是否目标用户本人驾驶的目的。

S13：采用训练音频数据对卷积神经网络模型进行训练，获取音频识别模型。

本实施例中，采用训练音频数据对卷积神经网络模型进行训练，需先对音频数据进行处理，把获取的抽象的音频数据转化为训练声谱图。训练声谱图输入卷积神经网络，卷积神经网络的卷积层对声谱图进行卷积计算，根据设置的过滤器(Filter)数量获得对应数量的特征图(Feature Map)。将获得的特征图在池化层进行下采样计算，获得池化后的特征图。其中，卷积层和池化层是成对出现的，即在卷积层进行卷积计算后紧跟着在池化层对卷积计算获取的特征图进行下采样计算。之后经过多轮卷积-池化处理的特征图将经过至少一个全连接层和在网络模型中最后的一层输出层。通过计算各层的输出对卷积神经网络模型各层进行误差计算及梯度反传更新，获取更新后的各层的权值，基于更新后的各层的权值，获取音频识别模型。通过卷积神经网络模型训练获得的音频识别模型，可以更为准确地对用户进行识别，为确定是否用户本人驾驶提供了保证。

如图5所示，步骤S13中，采用训练音频数据对卷积神经网络模型进行训练，获取音频识别模型，具体包括如下步骤：

S131：初始化卷积神经网络模型。

本实施例中，与训练人脸识别模型的步骤类似，需对卷积神经网络模型进行初始化操作。卷积神经网络的初始化主要是初始化卷积层的卷积核(即权值)和偏置。网络权值初始化就是将网络中的所有权值赋予一个初始值。在训练音频识别模型过程中，卷积神经网络模型的初始值设置可以与训练人脸识别模型不同，比如在[-0.20,+0.20]这样的区间内。

S132：基于训练音频数据获取对应的训练声谱图；

本实施例中，直接获取的训练音频数据不能直接输入CNN模型进行音频识别模型训练，需先基于训练音频数据获取训练声谱图。步骤S132具体包括如下步骤：首先，将训练音频数据分割成很短的帧，这些帧可以为几百毫秒；并且为了确保信息的连续性和准确性，相邻的帧间还应存在重叠部分。以上对应的概念分别是帧长和步长。帧长为一帧的时长，步长为一帧的起点与下一帧起点的间隔时长。由于相邻帧之前需具有一定的重叠，因此步长通常小于帧长。因为帧长一般值很小，因此可认为在该短的时间域内，其基频和谐波及他们的强度均为定值。然后，将每个帧做短时傅里叶变换，获取对应的频谱信息。其中，短时傅里叶变换(Short-Time Fourier Transform，简称STFT)是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。频谱信息包括每帧的频率及其强度情况，采用颜色或灰度表示其强度，即可获取训练声谱图。

S133：在卷积神经网络模型输入训练声谱图，计算卷积神经网络模型各层的输出。

本实施例中，将训练声谱图输入到卷积神经网络进行训练，并计算卷积神经网络模型各层的输出，各层的输出采用前向传播算法可获取。其中，不同于全连接的神经网络模型，对于局部连接的卷积神经网络模型还需计算模型中卷积层的每一种输出的特征图和池化层的每一种输出的特征图，以对权值进行更新。具体地，对于卷积层的每一种输出的特征图x^j为

其中，l是当前层，Mj表示选择的输入特征图组合，

是输入的第i种特征图即l-1层的输出，

是第j种特征图l层对应的加性偏置，f是激活函数，该激活函数可以是sigmoid激活函数。此外，池化层的每一种输出的特征图的计算与步骤S122相同，在此不再重复叙述。本实施例主要给出卷积神经网络模型中区别与一般全连接的神经网络模型的卷积层和池化层输出，其余各层的输出与一般全连接的神经网络模型计算相同，采用前向传播算法可获取，故不一一举例，以免累赘。

S134：根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

本实施例中，根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值包括计算卷积神经网络模型每一层的误差信息，并用梯度下降法更新每一层的权值。其中，梯度下降法更新权值主要是利用误差代价函数对参数的梯度，所以权值更新的目标就是让每一层得到这样的梯度，然后更新。具体权值及公式实现请参考步骤S123，为避免赘述，本实施例将不再展开详述。

S135：基于更新后的各层的权值，获取音频识别模型。

本实施例中，将通过训练声谱图训练获取的各层更新后权值，应用到卷积神经网络模型中即可获取训练后的音频识别模型。进一步地，该音频识别模型中各层之间的权值反映了声谱图中各部分模块与其相邻模块间的潜在关系，也间接反映了训练音频数据与用户的相关度。在音频识别模型最终会输出一概率值，该概率值表示待识别音频数据在通过驾驶模型处理后与该音频识别模型的贴近程度。该模型可广泛应用于驾驶人识别，以达到准确识别是否目标用户本人驾驶的目的。

S14：采用训练图像数据和音频图像数据对人脸识别模型和音频识别模型进行一致性验证，将通过验证的人脸识别模型和音频识别模型与用户标识关联存储。

具体地，采用训练图像数据和音频图像数据对人脸识别模型和音频识别模型进行一致性验证，是指验证采用人脸识别模型和音频识别模型对同一驾驶场景下的训练图像数据和训练音频数据进行识别，两者的识别结果同时指向是目标用户开车或者不是目标用户开车时，则认定人脸识别模型和音频识别模型对同一驾驶场景下的训练图像数据和训练音频数据识别具有一致性。基于多个驾驶场景下的训练图像数据和训练音频数据进行一致性验证，并统计验证结果，即统计符合一致性的数量和不符合一致性的数量；再根据统计的验证结果计算符合一致性的验证概率，并判断该验证概率是否大于预设概率，若验证概率大于预设概率，则认定该人脸识别模型和音频识别模型通过验证，将通过验证的人脸识别模型和音频识别模型与用户标识关联存储。将通过一致性验证的人脸识别模型和音频识别模型进行关联存储，可有利于保障人脸识别模型和音频识别模型识别的准确性。

具体地，采用人脸识别模型和音频识别模型对同一驾驶场景下的训练图像数据和训练音频数据进行一致性验证，是指将同一驾驶场景的训练图像数据输入人脸识别模型进行识别，获取第一识别结果；并将同一驾驶场景的训练音频数据输入音频识别模型进行识别，获取第二识别结果；判断第一识别结果和第二识别结果是否一致；若第一识别结果和第二识别结果一致，则认定符合一致性。可以理解地，第一识别结果和第二识别结果均可采用概率值，若该概率值大于50％，认定识别结果为是目标用户本人开车；若该概率值小于50％，认定识别结果为不是目标用户本人开车；只有在第一识别结果和第二识别结果同时大于50％或者同时小于50％，才认定符合一致性。

其中，与用户标识关联存储是指根据同一用户的用户标识进行存储，该存储依赖于用户标识，使得人脸识别模型和音频识别模型通过同一用户标识关联起来。本实施例中，将训练获得的人脸识别模型和音频识别模型与用户标识关联存储，即将带有相同用户标识的人脸识别模型和音频识别模型存储在数据库中，并在数据库中创建模型信息表，模型信息表包括用户标识和与用户标识相对应的人脸识别模型和音频识别模型在数据库中的存储地址。将人脸识别模型和音频识别模型根据用户标识进行关联存储，两者共同形成一个整体的驾驶模型，以便于在利用驾驶模型进行识别时，同时调用整体驾驶模型中的人脸识别模型和音频识别模型，实现对图像数据和音频数据的识别，使得驾驶模型实现了从两个重要维度识别是否用户本人开车，充分利用了图像维度和音频维度间的潜在联系，使得识别结果更加贴近实际驾驶情况，提高了识别的准确度。

本实施例中，首先获取同一驾驶场景的训练图像数据和训练音频数据,训练图像数据和训练音频数据与用户标识相关联，以保证获取的数据为同一用户同一时刻的驾驶行为产生的，并且通过用户标识便于获取进行驾驶模型训练所需的训练图像数据和训练音频数据，以保证训练获得的驾驶模型能够通过人脸识别和音频识别确定是否用户本人驾驶。接着采用训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，通过卷积神经网络模型训练获得的人脸识别模型，反映了图像中各部分模块与其相邻模块间的潜在关系，实现了对图片信息的有效抓取和识别效果，能够更为准确地对用户进行识别，为确定是否用户本人驾驶提供了保证。然后采用训练音频数据对卷积神经网络模型进行训练，获取音频识别模型，通过卷积神经网络模型训练获得的音频识别模型，反映了声谱图中各部分模块与其相邻模块间的潜在关系，也间接反映了训练音频数据与用户的相关度，能够实现精准识别，为确定是否用户本人驾驶提供了保证。最后采用训练图像数据和音频图像数据对人脸识别模型和音频识别模型进行一致性验证，将通过验证的人脸识别模型和音频识别模型与用户标识关联存储，该关联存储可以将同一用户的用户标识把人脸识别模型和音频识别模型通过数据库建立模型信息表进行关联存储。将通过一致性验证的上述两种识别模型存储在与同一用户标识关联的数据库中，以便对同一驾驶场景下获取的待识别图像数据和待识别人脸数据分别进行人脸识别和音频识别，有效保证驾驶模型识别的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例2

图6示出与实施例1中驾驶模型训练方法一一对应的驾驶模型训练装置的原理框图。如图6所示，该驾驶模型训练装置包括训练数据获取模块11、人脸识别模型获取模块12、音频识别模型获取模块13和关联存储模块14。其中，训练数据获取模块11、人脸识别模型获取模块12、音频识别模型获取模块13和关联存储模块14的实现功能与实施例中驾驶模型训练方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

训练数据获取模块11,用于获取同一驾驶场景的训练图像数据和训练音频数据。

人脸识别模型获取模块12，用于采用训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型。

音频识别模型获取模块13，用于采用训练音频数据对卷积神经网络模型进行训练，获取音频识别模型。

关联存储模块14，用于采用训练图像数据和音频图像数据对人脸识别模型和音频识别模型进行一致性验证，将通过验证的人脸识别模型和音频识别模型与用户标识关联存储。

优选地，训练数据获取模块11包括训练指令获取单元111、信息表查询单元112和训练数据获取单元113。

训练指令获取单元111，用于获取用户输入的模型训练指令，模型训练指令包括用户标识。

信息表查询单元112，用于基于用户标识查询驾驶数据信息表，判断驾驶数据信息的数量是否大于预设数量。

训练数据获取单元113，用于若驾驶数据的数量大于预设数量，则获取同一驾驶场景的训练图像数据和训练音频数据。

优选地，人脸识别模型获取模块12包括第一模型初始化单元121、第一模型层输出单元122、第一权值更新单元123和人脸识别模型获取单元124。

第一模型初始化单元121，用于初始化卷积神经网络模型。

第一模型层输出单元122，用于在卷积神经网络模型中输入训练图像数据，计算卷积神经网络模型各层的输出。

第一权值更新单元123，用于根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

人脸识别模型获取单元124，用于基于更新后的各层的权值，获取人脸识别模型。

优选地，音频识别模型获取模块13包括第二模型初始化单元131、训练声谱图获取单元132、第二模型层输出单元133、第二权值更新单元134和音频识别模型获取单元135。

第二模型初始化单元131，用于初始化卷积神经网络模型。

训练声谱图获取单元132，用于对训练音频数据进行特征提取，获取对应的训练声谱图。

第二模型层输出单元133，用于在卷积神经网络模型输入训练声谱图，计算卷积神经网络模型各层的输出。

第二权值更新单元134，用于根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

音频识别模型获取单元135，用于基于更新后的各层的权值，获取音频识别模型。

本实施例所提供的驾驶模型训练装置中，训练数据获取模块11用于获取同一驾驶场景的训练图像数据和训练音频数据，将同一场景下相关联的训练图像数据和训练音频数据同时进行采集，使得采集获取的训练数据具有潜在的相关性，有效利用了图像维度和声音维度各自的特性，使得训练获得的驾驶模型(包括人脸识别模型部分和音频识别部分的驾驶模型)进行识别时更贴近实际场景，驾驶提高了驾驶模型的识别精度。人脸识别模型获取模块12用于采用训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，通过采用训练图像数据训练卷积神经网络，使得训练获取的人脸识别模型中权值具有与用户标识相关联的训练图像数据的特征，使得人脸识别模型借助更新后的权值能够进行更精准的识别，提高了人脸识别模型的识别效果。音频识别模型获取模块13用于采用训练音频数据对卷积神经网络模型进行训练，与人脸识别模型的训练相似，采用训练音频数据对卷积神经网络进行训练，更新网络的权值，使得训练获取的音频识别模型具有与用户标识相关联的训练音频数据的特征，提高了人脸识别模型的识别效果。获取音频识别模型。关联存储模块14用于采用训练图像数据和音频图像数据对人脸识别模型和音频识别模型进行一致性验证，将通过验证的人脸识别模型和音频识别模型与用户标识关联存储，在同一场景下获取的训练图像数据和训练音频数据存在潜在的联系，基于用户标识将两个模型进行关联存储，以作为一个整体的驾驶模型，提高了是否用户本人驾驶的识别效果。

实施例3

图7示出本实施例中驾驶人识别方法的一流程图。该驾驶人识别方法可应用在保险机构或者其他机构的终端设备上，以便对驾驶人驾驶行为进行识别，达到智能识别的效果。如图7所示，该驾驶人识别方法包括如下步骤：

S21：获取用户同一驾驶场景的待识别图像数据和待识别音频数据，待识别图像数据和待识别音频数据与用户标识相关联。

其中，待识别图像数据和待识别音频数据是指用户在实际驾驶过程中通过移动终端的摄像头和录音设备分别采集的实时图像数据和音频数据，该数据用于进行模型识别，以判断是否用户本人开车。本实施例中，用户的移动终端根据用户的驾驶情况获取实时的待识别图像数据和待识别音频数据，且待识别图像数据和待识别音频数据与用户标识相关联。该待识别数据是用户在同一驾驶场景下获取的，即用户的移动终端获取同一时刻中用户在驾驶时的待识别图像数据和待识别音频数据。

S22：基于用户标识查询数据库，调用与用户标识相对应的人脸识别模型和音频识别模型。

其中，该人脸识别模型和音频识别模型是采用实施例1中的驾驶模型训练方法获取的模型，具体是与用户标识关联存储并通过一致性验证的人脸识别模型和音频识别模型。本实施例中，根据待识别图像数据所携带的用户标识，在数据库中查找该用户标识相对应的模型信息表中与用户标识相对应的人脸识别模型在数据库中的存储地址，并根据该存储地址，调用与用户标识相对应的人脸识别模型。可以理解地，即通过用户的移动终端上的摄像头和录音设备分别采集的待识别图像数据和待识别音频数据均携带有用户标识；而存储在数据库中的模型信息表也包括用户标识，且模型信息表中包括与用户标识相对应的人脸识别模型和音频识别模型在数据库中的存储地址，即通过用户标识查询模型信息表，再根据表中的人脸识别模型存储地址调用存储在数据库中的人脸识别模型；并根据表中的音频识别模型存储地址调用存储在数据库中的音频识别模型。

S23：基于待识别图像数据和人脸识别模型获取第一概率。

本实施例中，根据调用的人脸识别模型，将获取的待识别图像数据在人脸识别模型中进行运算处理，使人脸识别模型输出一概率值，该概率值称为第一概率，以区别于音频识别模型识别获取的概率值。

S24：基于待识别音频数据和音频识别模型获取第二概率。

本实施例中，根据调用的音频识别模型，将获取的待识别音频数据在音频识别模型中进行运算处理，最终在音频识别模型输出一概率值，该概率值称为第二概率，以区别于人脸识别模型识别获取的第一概率值。

S25：基于第一概率和第二概率确定用户本人开车的最终概率。

本实施例中，将待识别图像数据在人脸识别模型处理识别获取的第一概率值和待识别音频数据在音频识别模型处理识别获取的第二概率值进行数值处理，以获取用于最终判断是否用户本人开车的最终概率。可以理解地，该最终概率反映的是图像和音频维度上的关系，可以有效消除单一维度上识别的不足，使得模型的识别效果更精确。

在一具体实施方式中，如图8所示，步骤S25中，基于第一概率和第二概率确定用户本人开车的最终概率，具体包括如下步骤：

S251：获取第一概率和第二概率的概率差值。

本实施例中，将获取的第一概率和第二概率以数值大的概率值减去数值小的概率值，获取第一概率和第二概率的概率差值。可以理解地，该概率差值是采用人脸识别模型和音频识别模型各自获取的概率值的误差值，其反映了不同维度进行识别的差异，通过对第一概率和第二概率的概率差值的计算，可以利用该差值进一步减小识别过程的误差，使得识别效果更为准确。

S252：判断概率差值是否大于第一预设阈值。

其中，第一预设阈值是指预先设置好的与概率差值进行比较的阈值。本实施例中，将获取的概率差值与第一预设阈值进行比较，判断概率差值是否大于第一预设阈值。

S253：若概率差值大于第一预设阈值，则选取第一概率和第二概率中较大值作为最终概率输出。

本实施例中，在获取概率差值与第一预设阈值的差值后，若概率差值大于第一预设阈值，则将第一概率和第二概率中较大值作为最终概率输出。具体地，如第一概率值为92％，第二概率值为98％，第一预设阈值为5％，则可计算得概率差值为6％，该概率差值大于第一预设阈值，则选取第一概率和第二概率中较大值98％作为最终概率输出。可以理解地，第一预设阈值是用于减少识别过程中的误差，当偶尔出现数据异常进行识别时，可以有效去除不真实的数据，一般而言，这种情况会比较少出现。

S254：若概率差值不大于第一预设阈值，则选取第一概率和第二概率的均值作为最终概率输出。

S26：若最终概率大于第二预设阈值，则确定为用户本人开车。

其中，第二预设阈值是指用于和最终概率进行比较的预先设置好的阈值。本实施例中，将获取的最终概率与第二预设阈值进行比较，若最终概率大于第二预设阈值，则确定为用户本人开车，进一步地，若最终概率不大于第二预设阈值，则确定不是用户本人开车。具体地，获取的最终概率可以是98％，第二预设阈值是95％，则可以确定为用户本人开车。

本实施例中，在获取概率差值与第一预设阈值的差值后，若概率差值不大于第一预设阈值，则选取第一概率和第二概率的均值作为最终概率输出。具体地，如第一概率值为97％，第二概率值为99％，第一预设阈值为5％，则可计算得概率差值为2％，该概率差值不大于第一预设阈值，则选取第一概率和第二概率的均值98％作为最终概率输出。可以理解地，在进行图像维度和音频维度的识别获得的第一概率值和第二概率值，当概率差值不大于第一预设阈值时，取均值可以使得获得的数据更加准确，进行识别的结果也会更加贴近实际情况，使得模型识别的结果更为准确。

本实施例中，基于待识别图像数据和人脸识别模型获取第一概率，基于待识别音频数据和音频识别模型获取第二概率，根据第一概率和第二概率确定用户本人开车的最终概率，根据获得得最终概率与第一预设阈值进行比较，可以减少识别过程中的误差，当偶尔出现数据异常进行识别时，可以有效去除不真实的数据且使得识别的结果会更加贴近实际情况，获得更好的识别结果，最后根据判断最终概率是否大于第二预设阈值以确定是否为用户本人开车，使得驾驶人识别结果更精确可靠。

实施例4

图9示出与实施例3中驾驶人识别方法一一对应的驾驶人识别装置的原理框图。如图9所示，该驾驶人识别装置包括待识别数据获取模块21、识别模型调用模块22、第一概率获取模块23、第二概率获取模块24、最终概率获取模块25和确认结果获取模块26。其中，待识别数据获取模块21、识别模型调用模块22、第一概率获取模块23、第二概率获取模块24、最终概率获取模块25和确认结果获取模块26的实现功能与实施例中驾驶人识别方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

待识别数据获取模块21，用于获取用户同一驾驶场景的待识别图像数据和待识别音频数据，待识别图像数据和待识别音频数据与用户标识相关联。

识别模型调用模块22，用于基于用户标识查询数据库，调用与用户标识相对应的人脸识别模型和音频识别模型，人脸识别模型和音频识别模型是采用实施例1中驾驶模型训练方法获取的模型。

第一概率获取模块23，用于基于待识别图像数据和人脸识别模型获取第一概率。

第二概率获取模块24，用于基于待识别音频数据和音频识别模型获取第二概率。

最终概率获取模块25，用于基于第一概率和第二概率确定用户本人开车的最终概率。

优选地，最终概率获取模块25包括概率差值获取单元251、概率差值判断单元252、第一最终概率输出单元253和第二最终概率输出单元254。

概率差值获取单元251，用于获取第一概率和第二概率的概率差值。

概率差值判断单元252，用于判断概率差值是否大于第一预设阈值。

第一最终概率输出单元253，用于若概率差值大于第一预设阈值，则选取第一概率和第二概率中较大值作为最终概率输出。

第二最终概率输出单元254，用于若概率差值不大于第一预设阈值，则选取第一概率和第二概率的均值作为最终概率输出。

确认结果获取模块26，用于若最终概率大于第二预设阈值，则确定为用户本人开车。

本实施例所提供的驾驶人识别方法装置中，模块21-模块26实现了通过获取第一概率和第二概率并以数值大的概率值减去数值小的概率值，获取第一概率和第二概率的概率差值。该概率差值是采用人脸识别模型和音频识别模型各自获取的概率值的误差值，其反映了不同维度进行识别的差异，通过对第一概率和第二概率的概率差值的计算，通过设置第一预设阈值和第二预设阈值有效实现了对异常数据的控制和数值取值的合理性操作，使得获取的概率值更贴近实际情况，进一步减来小识别过程的误差，使得识别效果更为准确。

实施例5

本实施例提供一计算机可读介质，该计算机可读介质上存储有计算机可读指令，该计算机可读指令被处理器执行时实现实施例1中驾驶模型训练方法，为避免重复，这里不再赘述。或者，该计算机可读指令被处理器执行时实现实施例2中驾驶模型训练装置的各模块/单元的功能，为避免重复，这里不再赘述。或者，该计算机可读指令被处理器执行时实现实施例3中驾驶人识别方法中各步骤的功能，为避免重复，此处不一一赘述。或者，该计算机可读指令被处理器执行时实现实施例4中驾驶人识别装置中各模块/单元的功能，为避免重复，此处不一一赘述。

实施例6

图10是本申请一实施例提供的终端设备的一示意图。如图10所示，该实施例的终端设备100包括：处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机可读指令103，该计算机可读指令被处理器101执行时实现实施例1中的驾驶模型训练方法，为避免重复，此处不一一赘述。或者，该计算机可读指令被处理器101执行时实现实施例2中驾驶模型训练装置中各模型/单元的功能，为避免重复，此处不一一赘述。或者，该计算机可读指令被处理器101执行时实现实施例3中驾驶人识别方法中各步骤的功能，为避免重复，此处不一一赘述。或者，该计算机可读指令被处理器101执行时实现实施例4中驾驶人识别装置中各模块/单元的功能。为避免重复，此处不一一赘述。

示例性的，计算机可读指令103可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器102中，并由处理器101执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述计算机可读指令103在终端设备100中的执行过程。例如，计算机可读指令100可以被分割成实施例2中的训练数据获取模块11、人脸识别模型获取模块12、音频识别模型获取模块13和关联存储模块14，或者实施例4中的待识别数据获取模块21、识别模型调用模块22、第一概率获取模块23、第二概率获取模块24、最终概率获取模块25和确认结果获取模块 26，各模块的具体功能如实施例2或实施例4所述，在此不一一赘述。

终端设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器101、存储器102。本领域技术人员可以理解，图10仅仅是终端设备100的示例，并不构成对终端设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器101可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以是终端设备100的内部存储单元，例如终端设备100的硬盘或内存。存储器102也可以是终端设备100的外部存储设备，例如终端设备100上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器102还可以既包括终端设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机可读指令以及终端设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种驾驶模型训练方法，其特征在于，包括：

获取同一驾驶场景的训练图像数据和训练音频数据,所述训练图像数据和所述训练音频数据与用户标识相关联；

采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型；

采用所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将通过验证的所述人脸识别模型和所述音频识别模型与所述用户标识关联存储。
根据权利要求1所述的驾驶模型训练方法，其特征在于，所述获取同一驾驶场景的训练图像数据和训练音频数据，之前还包括：

获取所述驾驶场景下车辆的当前车速，判断所述当前车速是否达到预设车速阈值；

若所述当前车速达到所述预设车速阈值，则采集同一所述驾驶场景下的当前图像数据和当前音频数据，所述当前图像数据和所述当前音频数据与所述用户标识相关联；

将所述当前图像数据和所述当前音频数据存储在数据库中；

在所述数据库中创建驾驶数据信息表，所述驾驶数据信息表包括至少一条驾驶数据信息；每一所述驾驶数据信息包括用户标识、所述当前图像数据在所述数据库中的存储地址和所述当前音频数据在所述数据库中的存储地址；

所述获取同一驾驶场景的训练图像数据和训练音频数据，包括：

获取用户输入的模型训练指令，所述模型训练指令包括用户标识；

基于所述用户标识查询所述驾驶数据信息表，判断所述驾驶数据信息的数量是否大于预设数量；

若所述驾驶数据的数量大于所述预设数量，则获取同一驾驶场景的所述训练图像数据和所述训练音频数据。
根据权利要求1所述的驾驶模型训练方法，其特征在于，所述采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，包括：

初始化所述卷积神经网络模型；

在所述卷积神经网络模型中输入所述训练图像数据，计算所述卷积神经网络模型各层的输出；其中，卷积层的每一种输出的特征图x^j为
其中，l是当前层，Mj表示选择的输入特征图组合，
是输入的第i种特征图，
是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，
是第j种特征图l层对应的加性偏置，f是激活函数；池化层的每一种输出的特征图x_j为
其中，down表示下采样计算，这里的
第j种特征图l层对应的乘性偏置，
是第j种特征图l层对应的加性偏置；

根据所述各层的输出对所述卷积神经网络模型各层进行误差反传更新，获取更新后的所述各层的；

基于更新后的所述各层的权值，获取人脸识别模型。
根据权利要求1所述的驾驶模型训练方法，其特征在于，所述采用所述训练音频数据对卷积神经网络模型进行训练，获取音频识别模型，包括：

初始化所述卷积神经网络模型；

基于所述训练音频数据获取对应的训练声谱图；

在所述卷积神经网络模型输入所述训练声谱图，计算所述卷积神经网络模型各层的输出；其中，卷积层的每一种输出的特征图x^j为
其中，l是当前层，Mj表示选择的输入特征图组合，
是输入的第i种特征图l-1层的输出，
是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，
是第j种特征图l层对应的加性偏置，f是激活函数；池化层的每一种输出的特征图x_j为
其中，down表示下采样计算，这里的
第j种特征图l层对应的乘性偏置，
是第j种特征图l层对应的加性偏置；

根据所述各层的输出对所述卷积神经网络模型各层进行误差反传更新，获取更新后的所述各层的权值；

基于更新后的所述各层的权值，获取音频识别模型。
一种驾驶人识别方法，其特征在于，包括：

获取用户同一驾驶场景的待识别图像数据和待识别音频数据，所述待识别图像数据和所述待识别音频数据与用户标识相关联；

基于所述用户标识查询数据库，调用与所述用户标识相对应的人脸识别模型和音频识别模型，所述人脸识别模型和所述音频识别模型是采用权利要求1-4任一项所述驾驶模型训练方法获取的模型；

基于所述待识别图像数据和所述人脸识别模型获取第一概率；

基于所述待识别音频数据和所述音频识别模型获取第二概率；

基于所述第一概率和所述第二概率确定所述用户本人开车的最终概率；

若所述最终概率大于第二预设阈值，则确定为所述用户本人开车。
根据权利要求5所述的驾驶人识别方法，其特征在于，所述基于所述第一概率和所述第二概率确定所述驾驶人本人开车的最终概率，包括：

获取所述第一概率和所述第二概率的概率差值；

判断所述概率差值是否大于第一预设阈值；

若所述概率差值大于所述第一预设阈值，则选取所述第一概率和所述第二概率中较大值作为所述最终概率输出；

若所述概率差值不大于所述第一预设阈值，则选取所述第一概率和所述第二概率的均值作为所述最终概率输出。
一种驾驶模型训练装置，其特征在于，包括：

训练数据获取模块，用于获取同一驾驶场景的训练图像数据和训练音频数据,所述训练图像数据和所述训练音频数据与用户标识相关联；

人脸识别模型获取模块，用于采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型；

音频识别模型获取模块，用于基于所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

关联存储模块，用于采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将通过验证的所述人脸识别模型和所述音频识别模型与所述用户标识关联存储。
一种驾驶人识别装置，其特征在于，包括：

待识别数据获取模块，用于获取用户同一驾驶场景的待识别图像数据和待识别音频数据，所述待识别图像数据和所述待识别音频数据与用户标识相关联；

识别模型调用模块，用于基于所述用户标识查询数据库，调用与所述用户标识相对应的人脸识别模型和音频识别模型，所述人脸识别模型和所述音频识别模型是采用权利要求1-4任一项所述驾驶模型训练方法获取的模型；

第一概率获取模块，用于基于所述待识别图像数据和所述人脸识别模型获取第一概率；

第二概率获取模块，用于基于所述待识别音频数据和所述音频识别模型获取第二概率；

最终概率获取模块，用于基于所述第一概率和所述第二概率确定所述用户本人开车的最终概率；

确认结果获取模块，用于若所述最终概率大于第二预设阈值，则确定为所述用户本人开车。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取同一驾驶场景的训练图像数据和训练音频数据,所述训练图像数据和所述训练音频数据与用户标识相关联；

采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型；

采用所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将通过验证的所述人脸识别模型和所述音频识别模型与所述用户标识关联存储。
根据权利要求9所述的终端设备，其特征在于，所述获取同一驾驶场景的训练图像数据和训练音频数据，之前还包括：

获取所述驾驶场景下车辆的当前车速，判断所述当前车速是否达到预设车速阈值；

若所述当前车速达到所述预设车速阈值，则采集同一所述驾驶场景下的当前图像数据和当前音频数据，所述当前图像数据和所述当前音频数据与所述用户标识相关联；

将所述当前图像数据和所述当前音频数据存储在数据库中；

在所述数据库中创建驾驶数据信息表，所述驾驶数据信息表包括至少一条驾驶数据信息；每一所述驾驶数据信息包括用户标识、所述当前图像数据在所述数据库中的存储地址和所述当前音频数据在所述数据库中的存储地址；

所述获取同一驾驶场景的训练图像数据和训练音频数据，包括：

获取用户输入的模型训练指令，所述模型训练指令包括用户标识；

基于所述用户标识查询所述驾驶数据信息表，判断所述驾驶数据信息的数量是否大于预设数量；

若所述驾驶数据的数量大于所述预设数量，则获取同一驾驶场景的所述训练图像数据和所述训练音频数据。
根据权利要求9所述的终端设备，其特征在于，所述采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，包括：

初始化所述卷积神经网络模型；

在所述卷积神经网络模型中输入所述训练图像数据，计算所述卷积神经网络模型各层的输出；其中，卷积层的每一种输出的特征图x^j为
其中，l是当前层，Mj表示选择的输入特征图组合，
是输入的第i种特征图，
是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，
是第j种特征图l层对应的加性偏置，f是激活函数；池化层的每一种输出的特征图x_j为
其中，down表示下采样计算，这里的
第j种特征图l层对应的乘性偏置，
是第j种特征图l层对应的加性偏置；

根据所述各层的输出对所述卷积神经网络模型各层进行误差反传更新，获取更新后的所述各层的；

基于更新后的所述各层的权值，获取人脸识别模型。
根据权利要求9所述的终端设备，其特征在于，所述采用所述训练音频数据对卷积神经网络模型进行训练，获取音频识别模型，包括：

初始化所述卷积神经网络模型；

基于所述训练音频数据获取对应的训练声谱图；

在所述卷积神经网络模型输入所述训练声谱图，计算所述卷积神经网络模型各层的输出；其中，卷积层的每一种输出的特征图x^j为
其中，l是当前层，Mj表示选择的输入特征图组合，
是输入的第i种特征图l-1层的输出，
是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，
是第j种特征图l层对应的加性偏置，f是激活函数；池化层的每一种输出的特征图x_j为
其中，down表示下采样计算，这里的
第j种特征图l层对应的乘性偏置，
是第j种特征图l层对应的加性偏置；

根据所述各层的输出对所述卷积神经网络模型各层进行误差反传更新，获取更新后的所述各层的权值；

基于更新后的所述各层的权值，获取音频识别模型。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取用户同一驾驶场景的待识别图像数据和待识别音频数据，所述待识别图像数据和所述待识别音频数据与用户标识相关联；

基于所述用户标识查询数据库，调用与所述用户标识相对应的人脸识别模型和音频识别模型，所述人脸识别模型和所述音频识别模型是采用权利要求1-4任一项所述驾驶模型训练方法获取的模型；

基于所述待识别图像数据和所述人脸识别模型获取第一概率；

基于所述待识别音频数据和所述音频识别模型获取第二概率；

基于所述第一概率和所述第二概率确定所述用户本人开车的最终概率；

若所述最终概率大于第二预设阈值，则确定为所述用户本人开车。
根据权利要求13所述的终端设备，其特征在于，所述基于所述第一概率和所述第二概率确定所述驾驶人本人开车的最终概率，包括：

获取所述第一概率和所述第二概率的概率差值；

判断所述概率差值是否大于第一预设阈值；

若所述概率差值大于所述第一预设阈值，则选取所述第一概率和所述第二概率中较大值作为所述最终概率输出；

若所述概率差值不大于所述第一预设阈值，则选取所述第一概率和所述第二概率的均值作为所述最终概率输出。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取同一驾驶场景的训练图像数据和训练音频数据,所述训练图像数据和所述训练音频数据与用户标识相关联；

采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型；

采用所述训练音频数据对所述卷积神经网络模型进行训练，获取音频识别模型；

采用所述训练图像数据和所述音频图像数据对所述人脸识别模型和所述音频识别模型进行一致性验证，将通过验证的所述人脸识别模型和所述音频识别模型与所述用户标识关联存储。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述获取同一驾驶场景的训练图像数据和训练音频数据，之前还包括：

获取所述驾驶场景下车辆的当前车速，判断所述当前车速是否达到预设车速阈值；

若所述当前车速达到所述预设车速阈值，则采集同一所述驾驶场景下的当前图像数据和当前音频数据，所述当前图像数据和所述当前音频数据与所述用户标识相关联；

将所述当前图像数据和所述当前音频数据存储在数据库中；

在所述数据库中创建驾驶数据信息表，所述驾驶数据信息表包括至少一条驾驶数据信息；每一所述驾驶数据信息包括用户标识、所述当前图像数据在所述数据库中的存储地址和所述当前音频数据在所述数据库中的存储地址；

所述获取同一驾驶场景的训练图像数据和训练音频数据，包括：

获取用户输入的模型训练指令，所述模型训练指令包括用户标识；

基于所述用户标识查询所述驾驶数据信息表，判断所述驾驶数据信息的数量是否大于预设数量；

若所述驾驶数据的数量大于所述预设数量，则获取同一驾驶场景的所述训练图像数据和所述训练音频数据。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述采用所述训练图像数据对卷积神经网络模型进行训练，获取人脸识别模型，包括：

初始化所述卷积神经网络模型；

在所述卷积神经网络模型中输入所述训练图像数据，计算所述卷积神经网络模型各层的输出；其中，卷积层的每一种输出的特征图x^j为
其中，l是当前层，Mj表示选择的输入特征图组合，
是输入的第i种特征图，
是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，
是第j种特征图l层对应的加性偏置，f是激活函数；池化层的每一种输出的特征图x_j为
其中，down表示下采样计算，这里的
第j种特征图l层对应的乘性偏置，
是第j种特征图l层对应的加性偏置；

根据所述各层的输出对所述卷积神经网络模型各层进行误差反传更新，获取更新后的所述各层的；

基于更新后的所述各层的权值，获取人脸识别模型。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述采用所述训练音频数据对卷积神经网络模型进行训练，获取音频识别模型，包括：

初始化所述卷积神经网络模型；

基于所述训练音频数据获取对应的训练声谱图；

在所述卷积神经网络模型输入所述训练声谱图，计算所述卷积神经网络模型各层的输出；其中，卷积层的每一种输出的特征图x^j为
其中，l是当前层，Mj表示选择的输入特征图组合，
是输入的第i种特征图l-1层的输出，
是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，
是第j种特征图l层对应的加性偏置，f是激活函数；池化层的每一种输出的特征图x_j为
其中，down表示下采样计算，这里的
第j种特征图l层对应的乘性偏置，
是第j种特征图l层对应的加性偏置；

根据所述各层的输出对所述卷积神经网络模型各层进行误差反传更新，获取更新后的所述各层的权值；

基于更新后的所述各层的权值，获取音频识别模型。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取用户同一驾驶场景的待识别图像数据和待识别音频数据，所述待识别图像数据和所述待识别音频数据与用户标识相关联；

基于所述用户标识查询数据库，调用与所述用户标识相对应的人脸识别模型和音频识别模型，所述人脸识别模型和所述音频识别模型是采用权利要求1-4任一项所述驾驶模型训练方法获取的模型；

基于所述待识别图像数据和所述人脸识别模型获取第一概率；

基于所述待识别音频数据和所述音频识别模型获取第二概率；

基于所述第一概率和所述第二概率确定所述用户本人开车的最终概率；

若所述最终概率大于第二预设阈值，则确定为所述用户本人开车。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述基于所述第一概率和所述第二概率确定所述驾驶人本人开车的最终概率，包括：

获取所述第一概率和所述第二概率的概率差值；

判断所述概率差值是否大于第一预设阈值；

若所述概率差值大于所述第一预设阈值，则选取所述第一概率和所述第二概率中较大值作为所述最终概率输出；

若所述概率差值不大于所述第一预设阈值，则选取所述第一概率和所述第二概率的均值作为所述最终概率输出。