WO2020063753A1

WO2020063753A1 - 动作识别、驾驶动作分析方法和装置、电子设备

Info

Publication number: WO2020063753A1
Application number: PCT/CN2019/108167
Authority: WO
Inventors: 陈彦杰; 王飞; 钱晨
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2018-09-27
Filing date: 2019-09-26
Publication date: 2020-04-02
Also published as: JP2021517312A; SG11202009320PA; KR102470680B1; JP7061685B2; KR20200124280A; US20210012127A1; CN110956060A

Abstract

一种动作识别、驾驶动作分析方法和装置、电子设备。该方法包括：提取包括有人脸的图像中的特征（101）；基于所述特征提取可能包括预定动作的多个候选框（102）；基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物（103）；基于所述动作目标框进行预定动作的分类，获得动作识别结果（104）。

Description

动作识别、驾驶动作分析方法和装置、电子设备

相关申请的交叉引用

本申请基于申请号为201811130798.6、申请日为2018年09月27日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请涉及图像处理技术领域，尤其涉及一种动作识别、驾驶动作分析方法和装置、电子设备。

背景技术

动作识别技术在近几年成为了非常热门的应用研究方向，在很多领域和产品上都可以见到这项技术的身影，采用这种技术也是未来人机交互的发展趋势，尤其在驾驶员监控领域有着广泛的应用前景。

发明内容

本申请实施例提供了一种动作识别技术方案和驾驶动作分析技术方案。

第一方面，本申请实施例提供了一种动作识别方法，所述方法包括：提取包括有人脸的图像的特征；基于所述特征确定可能包括预定动作的多个候选框；基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；基于所述动作目标框进行预定动作的分类，获得动作识别结果。

第二方面，本申请实施例提供了一种驾驶动作分析方法，所述方法包括：经车载摄像头采集包括有驾驶员人脸图像的视频流；通过本申请实施例所述动作识别方法的任意一种实现方式，获取所述视频流中至少一帧图像的动作识别结果；响应于动作识别结果满足预定条件，生成危险驾驶提示信息。

第三方面，本申请实施例提供了一种动作识别装置，所述装置包括：第一提取单元，用于提取包括有人脸的图像的特征；第二提取单元，用于基于所述特征确定可能包括预定动作的多个候选框；确定单元，用于基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；分类单元，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果。

第四方面，本申请实施例提供了一种驾驶动作分析装置，所述装置包括：车载摄像头，用于采集包括有驾驶员人脸图像的视频流；获取单元，用于本申请实施例通过所述动作识别装置中的任意一种实现方式，获取所述视频流中至少一帧图像的动作识别结果；生成单元，用于响应于动作识别结果满足预定条件，生成危险驾驶提示信息。

第五方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现本申请实施例第一方面或第二方面所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请实施例第一方面或第二方面所述的方法。

第七方面，本申请实施例提供了一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，本申请实施例第一方面或第二方面所述的方法。

本申请实施例通过对包含有人脸的图像中的特征进行提取，基于提取的特征确定可能包括预定动作的多个候选框，基于多个候选框确定动作目标框，再基于动作目标框进行预定动作的分类，得到动作识别结果。由于本申请实施例中所述动作目标框包括人脸的局部区域和动作交互物，因此，在基于动作目标框对预定动作进行分类的过程中，是将对应于人脸的局部区域和动作交互物的动作作为整体，而不是割裂人体部位和动作交互物，并基于该整体对应的特征进行分类，因此可实现对精细动作的识别，特别是对人脸区域或人脸区域附近的精细动作的识别，提高动作识别的准确度和精度。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种动作识别方法的流程示意图；

图2为本申请实施例提供的一种目标动作框示意图；

图3为本申请实施例提供的另一种动作识别方法的流程示意图；

图4为本申请实施例提供的一种包含与预定动作相似的动作的负样本图像示意图；

图5为本申请实施例提供的一种驾驶动作分析方法的流程示意图；

图6为本申请实施例提供的一种神经网络的训练方法的流程示意图；

图7为本申请实施例提供的一种喝水的动作监督框示意图；

图8为本申请实施例提供的一种打电话的动作监督框示意图；

图9为本申请实施例提供的一种动作识别装置的结构示意图；

图10为本申请实施例提供的一种神经网络的训练组件的结构示意图；

图11为本申请实施例提供的一种驾驶动作分析装置的结构示意图；

图12为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

图1是本申请实施例提供的一种动作识别方法的流程示意图，如图1所示，所述方法包括：

101、提取包括有人脸的图像中的特征。

本申请实施例主要针对车内人员的动作进行识别。以驾驶员为例，本申请实施例可对车辆驾驶员在驾驶车辆时所做的一些驾驶动作进行识别，可根据识别结果对驾驶员给出提醒。发明人在实现本申请实施例过程中发现，由于车内人员某些与人脸有关的精细动作，例如，驾驶员喝水、驾驶员打电话等，这些动作的识别很难甚至无法通过对人体关键点的检测或人体姿态的估计实现。本申请实施例通过对待处理图像进行特征提取，并根据提取到的特征实现待处理图像中动作的识别。上述的动作可以为：手部区域的动作和/或人脸局部区域的动作、针对动作交互物的动作等等，因此，需通过车载摄像头对车内人员进行图像采集，获取包括有人脸的待处理图像。再对待处理图像进行卷积操作，提取出动作特征。

在本申请的一种可选实施例中，所述方法还包括：经车载摄像头拍摄位于车内的人的包括有人脸的图像。其中，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员、所述车的副驾驶区的人、所述车的后排座椅上的人。

其中，所述车载摄像头可以为：红绿蓝(RGB)摄像头、红外摄像头或近红外摄像头。

102、基于所述特征确定可能包括预定动作的多个候选框。

本申请实施例主要针对车内人员的预定动作进行识别，以车内人员为驾驶员为例，所述预定动作例如可以是对应于驾驶员的危险驾驶的预定动作，或者针对驾驶员的某些危险动作的预定动作。在一种可选的实施方式中，首先对上述预定动作的特征进行定义，再通过神经网络根据定义的特征和提取到的图像中的特征，实现对图像中是否存在预定动作的判断，在判定图像中存在预定动作的情况下，确定图像中包括预定动作的多个候选框。

本实施例中的神经网络均是训练好的，即通过神经网络可提取图像中的预定动作的特征。在本申请的一种可选实施例中，所述神经网络可设置多层卷积层，通过多层卷积层提取图像中更为丰富的信息，由此提高预定动作的判定准确率。

本实施例中，若上述提取的特征对应于：手部区域、人脸局部区域、动作交互物对应区域等至少一种区域，则通过神经网络的特征提取处理获得包含有手部区域和人脸局部区域的特征区域，基于所述特征区域确定候选区域，通过候选框标识出所述候选区域；其中，所述候选框例如可以通过矩形框表示。同理，通过另一个候选框标识出包含手部区域、人脸局部区域和动作交互物对应区域的特征区域。这样，通过提取对应于预定动作的特征，获得多个候选区域；根据多个候选区域，确定多个候选框。

103、基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物。

本申请实施例识别的动作均为与人脸有关的精细动作，这类与人脸有关的精细动作的识别很难甚至无法通过对人体关键点的检测实现，而这类精细动作对应区域都至少包括人脸的局部区域和动作交互物对应区域这两个区域，例如，包括人脸的局部区域和动作交互物对应区域，或者，包括人脸的局部区域、动作交互物对应区域以及手部区域，等等，因此，通过识别由多个候选框得到的动作目标框内的特征即可实现对这类精细动作的识别。

在本申请的一种可选实施例中，所述人脸的局部区域，包括以下至少之一：嘴部区域、耳部区域、眼部区域。所述动作交互物，包括以下至少之一：容器、烟、手机、食物、工具、饮料瓶、眼镜、口罩。

在本申请的一种可选实施例中，所述动作目标框还包括：手部区域。

例如，如图2所示的目标动作框内包括：局部人脸、手机(即动作交互物)以及手。又例如，对于抽烟动作，目标动作框内也可能包括：嘴部和烟(即动作交互物)。

本实施例中，由于候选框中可能包含除预定动作对应的特征以外的特征，或没有包含预定动作对应的所有特征(指任意一个预定动作的所有特征)，这样都会影响最终的动作识别结果。因此，为保证最终识别结果的精度，需要对候选框的位置进行调整，即基于多个候选框确定动作目标框，所述动作目标框的位置和大小与多个候选框中的至少部分候选框的位置和大小可能存在偏差。如图2所示，可根据预定动作对应的特征的位置和大小，确定对应的候选框的位置偏移量和缩放倍数，再根据位置偏移量和缩放倍数调整候选框的位置和大小，使得调整后的动作目标框内仅包括预定动作对应的特征，并且包括预定动作对应的所有特征。基于此，通过对各个候选框的位置和大小的调整，将调整后的候选框确定为动作目标框。可以理解，调整后的多个候选框可以重叠为一个候选框，则重叠的候选框确定为动作目标框。

104、基于所述动作目标框进行预定动作的分类，获得动作识别结果。

在本申请的一种可选实施例中，所述预定动作包括以下至少之一：打电话、抽烟、喝水/饮料、进食、使用工具、戴眼镜、化妆。

本实施例中，可基于所述动作目标框内包含的预定动作对应的特征对预定动作进行分类。作为一种实施方式，可通过用于动作分类的神经网络对所述动作目标框内包含的预定动作对应的特征进行分类处理，获得特征对应的预定动作的分类识别结果。

采用本申请实施例的动作识别方法，通过对包含有人脸的图像中的特征进行提取，基于提取的特征确定可能包括预定动作的多个候选框，再基于多个候选框确定动作目标框，基于目标动作快进行预定动作的分类。由于本申请实施例中所述动作目标框包括人脸的局部区域和动作交互物，因此，在基于动作目标框对预定动作进行分类的过程中，是将对应于人脸的局部区域和动作交互物的动作作为整体，而不是割裂人体部位和动作交互物，并基于该整体对应的特征进行分类，因此可实现对精细动作的识别，特别是对人脸区域或人脸区域附近的精细动作的识别，提高识别的准确度和精度。

图3是本申请实施例提供的另一种动作识别方法的流程示意图，如图3所示，所述方法包括：

301、获取待处理图像，所述待处理图像中包括有人脸。

在本申请的一种可选实施例中，所述获取待处理图像，可包括：通过车载摄像头对车内的人进行拍照获取待处理图像，也可通过车载摄像头对车内的人进行视频拍摄，并以拍摄的视频的帧图像作为待处理图像。其中，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员、所述车的副驾驶区的人、所述车的后排座椅上的人。上述车载摄像头可以为：RGB摄像头、红外摄像头或近红外摄像头。

RGB摄像头由三根不同的线缆给出了三个基本彩色成分，这种类型的摄像头通常是用三个独立的电荷耦合元件(CCD，Charge Coupled Device)传感器来获取三种彩色信号，RGB摄像头经常被用来做非常精确的彩色图像采集。

现实环境的光线复杂，车辆内的光线复杂程度更甚，而光照强度会直接影响拍摄质量，尤其是当车内光照强度较低时，普通的摄像头无法采集到清晰的照片或视频，使图像或视频丢失一部分有用的信息，进而影响后续的处理。而红外摄像头可向被拍摄的物体发射红外光，再根据红外光反射的光线进行成像，可解决普通摄像头在暗光或黑暗条件下拍摄的图像质量较低或无法正常拍摄的问题。基于此，本实施例中，可设置有普通摄像头或红外摄像头，在光线强度高于预设值的情况下，通过普通摄像头获取待处理图像；在光线强度低于预设值的情况下，通过红外摄像头获取待处理图像。

302、经神经网络的特征提取分支提取所述待处理图像中的特征，获得特征图。

在本申请的一种可选实施例中，通过神经网络的特征提取分支对待处理图像进行卷积操作，获得特征图。

在一示例中，通过神经网络的特征提取分支对待处理图像进行卷积操作，是利用卷积核在待处理图像上“滑动”。例如，在卷积核对应于图像某像素点时，将该像素点的灰度值与卷积核上的各数值相乘，将所有乘积加和后作为卷积核对应的所述像素点的灰度值，进一步将卷积核“滑动”至下一个像素点，以此类推，最终完成所述待处理图像中的所有像素点卷积处理，获得特征图。

需要理解的是，本实施例的神经网络的特征提取分支可包括多层卷积层，上一层卷积层通过特征提取获得的特征图可作为下一层卷积层的输入数据，通过多层卷积层提取图像中更为丰富的信息，由此提高特征提取的准确率。通过包括多层卷积层的神经网络的特征提取分支对待处理图像进行逐级的卷积操作，可获得与待处理图像相对应的特征图。

303、经上述神经网络的候选框提取分支在上述特征图上确定可能包括预定动作的多个候选框。

本实施例中，通过神经网络的候选框提取分支对特征图的处理，确定可能包括预定动作的多个候选框。例如，特征图中可包括：手、烟、水杯、手机、眼镜、口罩、人脸局部区域对应的特征中的至少一种特征，基于所述至少一种特征确定多个候选框。需要说明的是，虽然步骤302中，通过神经网络的特征提取分支能够提取出待处理图像的特征，但提取出的特征可能包括预定动作对应的特征之外的其他特征，因此，这里通过神经网络的候选框提取分支确定的多个候选框中，可能存在至少部分候选框中包含了除预定动作对应的特征以外的其他特征，或者并没有包含预定动作对应的所有特征，因此，所述多个候选框可能包括了预定动作。

需要理解的是，本实施例的神经网络的候选框提取分支可包括多层卷积层，上一层卷积层提取到的特征将作为下一层卷积层的输入数据，通过多层卷积层提取更为丰富的信息，由此提高提取的特征提取的准确率。

在本申请的一种可选实施例中，所述经所述神经网络的候选框提取分支在所述特征图上确定可能包括预定动作的多个候选框，包括：根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；根据所述多个候选区域，获得多个候选框和所述多个候选框中每个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

本实施例中，神经网络的候选框提取分支识别所述特征图，将特征图中包含有手部特征和人脸局部区域对应特征、或者包含有手部特征、动作交互物对应特征(例如手机对应特征)和人脸局部区域对应特征从特征图中划分出，基于划分出的特征确定候选区域，通过候选框(所述候选框例如矩形框)标识出所述候选区域。这样，得到通过候选框标识出的多个候选区域。

本实施例中，神经网络的候选框提取分支还可以确定每个候选框对应的第一置信度，所述第一置信度用于以概率的形式表示候选框为目标动作框的可能性。通过神经网络的候选框提取分支对特征图的处理，在获多个候选框的同时，还获得多个候选框中每个候选框的第一置信度。需要理解的是，所述第一置信度为神经网络的候选框提取分支根据候选框中的特征得到的候选框为目标动作框的预测值。

304：经所述神经网络的检测框精修分支、基于所述多个候选框确定动作目标框；其中，所述动作目标框包括人脸的局部区域和动作交互物。

在本申请的一种可选实施例中，所述经所述神经网络的检测框精修分支、基于所述多个候选框确定动作目标框，包括：经所述神经网络的检测框精修分支去除第一置信度小于第一阈值的候选框，获得至少一个第一候选框；池化处理所述至少一个第一候选框，获得至少一个第二候选框；根据所述至少一个第二候选框，确定动作目标框。

本实施例中，由于在获得候选框的过程中，一些与预定动作很相似的动作会给神经网络的候选框提取分支带来很大的干扰。如图4中从左至右的子图片中，目标对象依次做了与打电话、喝水和抽烟等动作，这些动作比较相似，都是将右手分别放置在脸旁，但目标对象手里并没手机、水杯和烟，而神经网络容易误将目标对象的这些动作识别为打电话、喝水和抽烟。而在预定动作为预定的危险驾驶动作的情况下，驾驶员在驾驶车辆的过程中，会出现例如：因为耳部区域瘙痒的原因而做挠耳朵的动作、或者因为其他原因做张嘴或手搭着嘴唇的动作，显然，这些动作并不属于预定的危险驾驶动作，但这些动作会给神经网络的候选框提取分支在提取候选框过程带来很大的干扰，进而影响后续对动作的分类，获得错误的动作识别结果。

本申请实施例通过预先训练获得神经网络的检测框精修分支去除第一置信度小于第一阈值的候选框，得到至少一个第一候选框；所述至少一个第一候选框的第一置信度均大于等于第一阈值。其中，若候选框的第一置信度小于第一阈值，则表明该候选框为上述与相似动作的候选框，需要将该候选框去除，从而能够高效的区分预定动作和相似动作，进而降低误检测率，大大提高动作识别结果的准确率。其中，上述第一阈值例如可取0.5，当然，本申请实施例中所述第一阈值的取值不限于此。

在本申请的一种可选实施例中，所述池化处理所述至少一个第一候选框，获得至少一个第二候选框，包括：池化处理所述至少一个第一候选框，获得与所述至少一个第一候选框对应的至少一第一特征区域；基于每个第一特征区域对相对应的第一候选框的位置和大小进行调整，获得至少一个第二候选框。

本实施例中，第一候选框所在区域中的特征的数量可能较多，若直接使用第一候选框所在区域中的特征将产生巨大的计算量。因此，在对第一候选框所在区域中的特征进行后续处理之前，先池化处理第一候选框，即池化处理第一候选框所在区域中的特征，降低第一候选框所在区域中的特征的维度，以满足后续处理过程中对计算量的需要，大大减小后续处理的计算量。同步骤303中获得候选区域相似，根据预定动作的特征对上述池化处理后的特征进行划分，获得多个第一特征区域。可以理解，本实施例通过对第一候选框对应的区域进行池化处理，将第一特征区域中、对应于预定动作的特征以低维度的形式呈现。

作为一种示例，池化处理的具体实现过程可参见下示例：假设第一候选框的大小表示为h*w，其中，h可表示第一候选框的高度，w可表示第一候选框的宽度；当期望得到的特征的目标大小为H*W时，可将该第一候选框划分成H*W个格子，每个格子的大小可表示为(h/H)*(w/W)，再计算每一个格子中的像素点的平均灰度值或确定每个格子中的最大灰度值，将所述平均灰度值或所述最大灰度值作为每个格子对应的取值，从而得到第一候选框的池化处理结果。

在本申请的一种可选实施例中，所述基于每个第一特征区域对相对应的第一候选框的位置和大小进行调整，获得至少一个第二候选框，包括：基于所述第一特征区域中对应于所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；以及根据所述第一动作特征框的几何中心坐标，获得所述至少一个第一候选框的第一位置偏移量；以及根据所述第一动作特征框的大小，获得所述至少一个第一候选框的第一缩放倍数；以及根据至少一个第一位置偏移量和至少一个第一缩放倍数分别对所述至少一个第一候选框的位置和大小进行调整，获得至少一个第二候选框。

本实施例中，为方便后续处理，将第一特征区域中的对应于每一个预定动作的特征分别通过第一动作特征框标识出，所述第一动作特征框具体可以是矩形框，例如，通过矩形框标识出第一特征区域中的对应于每一个预定动作的特征。

本实施例中，获取第一动作特征框在预先建立的XOY坐标系下的几何中心坐标，根据几何中心坐标确定所述第一动作特征框对应的第一候选框的第一位置偏移量；其中，XOY坐标系通常是设定坐标原点O，以水平方向作为X轴，以垂直于X轴的方向作为Y轴建立的坐标系。由于第一动作特征框是基于预定动作的特征从第一特征区域中确定的，第一特征区域是基于预定动作的特征从第一候选框划分确定的，因此第一动作特征框的几何中心与第一候选框的几何中心通常存在一定的偏差，根据所述偏差确定第一候选框的第一位置偏移量。作为一种示例，可将第一动作特征框的几何中心与对应于相同预定动作的特征的第一候选框的几何中心之间的偏移量作为所述第一候选框的第一位置偏移量。

其中，在对应于相同预定动作的特征的第一候选框的数量为多个的情况下，每个第一候选框对应有第一位置偏移量，所述第一位置偏移量包括X轴方向的位置偏移量和Y轴方向的偏移量。其中，作为一种示例XOY坐标系为以第一特征区域的左上角(以输入神经网络的候选框精修分支的方位为准)为坐标原点，水平向右为X轴的正方向，竖直向下为Y轴的正方向。在其他实例中，还可以以第一特征区域的左下角、右上角、右下角或第一特征区域的中心点为原点，水平向右为X轴的正方向，竖直向下为Y轴的正方向。

本实施例中，获取第一动作特征框的尺寸，具体获取第一动作特征框的长度和宽度，根据第一动作特征框的长度和宽度确定对应的第一候选框的第一缩放倍数。在一示例中，可基于第一动作特征框的长度和宽度和对应的第一候选框的长度和宽度确定所述第一候选框的第一缩放倍数。其中，每个第一候选框均对应有第一缩放倍数，不同的第一候选框的第一缩放倍数可相同或不同。

本实施例中，根据每个第一候选框对应的第一位置偏移量和第一缩放倍数对所述第一候选框位置和大小进行调整。作为一种实施方式，将第一候选框按上述第一位置偏移量进行移动，并且将第一候选框以几何中心为中心、按照第一缩放倍数对尺寸进行调整，获得第二候选框。需要理解的是，第二候选框的数量与第一候选框的数量一致。通过上述方式获得的第二候选框，将以尽可能小的尺寸包含预定动作的所有特征，有利于提高后续动作分类结果的精度。

本实施例中，可将多个第二候选框中尺寸相近以及几何中心之间的相近的第二候选框这合并为，合并后的第二候选框作为动作目标框。需要理解的是，对应于同一预定动作的第二候选框的尺寸和几何中心之间的距离可能非常接近，因此，针对每个预定动作，可对应一个动作目标框。

作为一种示例：驾驶员在打电话的同时还在抽烟，因此获得的待处理图像中可包含打电话和抽烟两个预定动作对应的特征。经过上述处理方式，可得到包括对应于打电话的预定动作的特征的候选框，所述候选框中包括手部、手机和人脸局部区域，还可得到包括对应于抽烟的预定动作的特征的候选框，所述候选框中包括手部、香烟和人脸局部区域。虽然对应于打电话的预定动作的候选框和对应于抽烟的预定动作的候选框都可能有多个，但所有对应于打电话的预定动作的候选框的尺寸和几何中心之间的距离都相近，所有对应于抽烟的预定动作的候选框的尺寸和几何中心之间的距离都相近，而且任一对应于打电话的预定动作的候选框的尺寸和任一对应于抽烟的预定动作的候选框的尺寸的差值，大于任意两个对应于打电话的预定动作的候选框之间的尺寸差值，也大于任意两个对应于抽烟的预定动作的候选框之间的尺寸差值，任一对应于打电话的预定动作的候选框与任一对应于抽烟的预定动作的候选框之间的几何中心之间的距离大于任意两个对应于打电话的预定动作的候选框之间的几何中心之间的距离，也大于任意两个对应于抽烟的预定动作的候选框之间的几何中心之间的距离。将所有对应于打电话的预定动作的候选框合并，得到一个动作目标框，将所有对应于抽烟的预定动作的候选框合并，得到另一个动作目标框。这样，对应于两个预定动作，分别得到两个动作目标框。

305、经所述神经网络的动作分类分支获取上述特征图上与上述动作目标框对应的区域图，基于所述区域图进行预定动作的分类，获得动作识别结果。

本实施例中，神经网络的动作分类分支根据从特征图中划分出与所述动作目标动作框对应的区域，得到区域图，基于所述区域图内的特征进行预定动作的分类，得到第一动作识别结果；根据所有目标动作框对应的第一动作识别结果，得到待处理图像对应的动作识别结果。

在本申请的一种可选实施例中，一方面，通过神经网络的动作分类分支获得第一动作识别结果，另一方面，通过神经网络的动作分类分支还可获得所述第一动作识别结果的第二置信度，所述第二置信度表征所述动作识别结果的准确率。则所述根据所有目标动作框对应的第一动作识别结果，得到待处理图像所对应的动作识别结果，包括：比较每个目标动作框对应的第一动作识别结果的第二置信度和预设阈值，获得第二置信度大于所述预设阈值的第一动作结果，基于第二置信度大于所述预设阈值的第一动作结果确定所述待处理图像对应的动作识别结果。

例如，通过车载摄像头对驾驶员进行拍摄，获得包括有驾驶员的人脸的图像，并将其作为待处理图像输入神经网络。假设待处理图像中的驾驶员对应有“打电话”的动作，通过神经网络的处理获得两个动作识别结果：“打电话”的动作识别结果和“喝水”的动作识别结果，其中，“打电话”的动作识别结果的第二置信度为0.8，“喝水”的动作识别结果的第二置信度为0.4。若设置的预设阈值为0.6，则可确定所述待处理图像的动作识别结果为“打电话”动作。

本实施例中，在动作识别结果为特定预定动作的情况下，所述方法还可包括：输出提醒信息。其中，所述特定预定动作可以是危险驾驶动作，所述危险驾驶动作为驾驶员在驾驶车辆过程中会对驾驶过程带来危险事件的动作。所述危险驾驶动作可以是驾驶员自身产生的动作，也可以是位于驾驶舱内的其他人员产生的动作。其中，所述输出提醒信息可以是通过音频、视频、文字中的至少一种方式输出提醒信息。例如，可通过终端对车内人员(例如驾驶员和/或车内其他人员)输出提示信息，输出提示信息的方式可以是：通过终端显示文字的方式进行提示、通过终端输出语音数据的方式进行提示等等。其中，所述终端可以为车载终端，可选的，终端可配备有显示屏和/或音频输出功能。

其中，若特定预定动作为：喝水、打电话、戴眼镜等等。当通过神经网络获得的动作识别结果为上述特定预定动作中的任意一个或多个动作，则输出提示信息，还可输出特定预定动作(例如危险驾驶动作)的类别。在未检测到有特定预定动作的情况下，可不输出提示信息，或者也可输出预定动作的类别。

作为一种示例，在获得的动作识别结果包含有特定预定动作(例如危险驾驶动作)的情况下，可通过抬头数字显示仪(head up display，HUD)显示对话框，通过显示的内容对驾驶员发出提示信息；还可通过车辆内置的音频输出功能输出提示信息，例如可输出：“请驾驶员注意驾驶动作”等音频信息；还可通过释放具有的醒脑提神功效的气体的方式输出提示信息，例如：通过车载喷头喷出花露水喷雾，花露水的气味清香怡人，在对驾驶员进行提示的同时，还能起到醒脑提神的效果；还可通座椅释放出低电流刺激驾驶员的方式输出提示信息，以达到提示和警告的效果。

本申请实施例通过神经网络的特征提取分支对待处理图像进行特征提取，通过神经网络的候选框提取分支根据提取出的特征获得可能包括预定动作的候选框，通过神经网络的检测框精修分支确定动作目标框，最后通过神经网络的动作分类分支对目标动作框中的特征进行预定动作的分类，得到待处理图像的动作识别结果；整个识别过程通过提取待处理图像中的特征(例如手部区域、人脸局部区域、动作交互物对应区域的特征提取)，并对其进行处理，可自主、快速的实现对精细动作的精确识别。

本申请实施例还提供了一种驾驶动作分析方法。图5为本申请实施例提供的一种驾驶动作分析方法的流程示意图；如图5所示，所述方法包括：

401：经车载摄像头采集包括有驾驶员人脸图像的视频流；

402：获取所述视频流中至少一帧图像的动作识别结果；

403：响应于动作识别结果满足预定条件，生成危险驾驶提示信息。

本实施例中，通过车载摄像头对驾驶员进行视频拍摄，获得视频流，并以视频流的每一帧图像作为待处理图像。通过对每一帧图像进行动作识别，获得相应的动作识别结果，再结合连续多帧图像的动作识别结果对驾驶员的驾驶状态进行识别，确定驾驶状态是否为对应于危险驾驶动作的危险驾驶状态。其中，对多帧图像的动作识别的处理过程参照上述实施例中所述，这里不再赘述。

在本申请的一种可选实施例中，所述预定条件包括以下至少之一：出现特定预定动作；在预定时长内出现特定预定动作的次数；所述视频流中特定预定动作出现维持的时长。

本实施例中，所述特定预定动作可以为前述实施例中预定动作的分类中对应于危险驾驶动作的预定动作，例如对应于驾驶员的喝水动作、打电话动作等等。则所述响应于动作识别结果满足预定条件可包括：在动作识别结果中包括特定预定动作的情况下，确定动作识别结果满足预定条件；或者，在动作识别结果中包括特定预定动作、且预定时长内所述特定预定动作出现的次数达到预设数量的情况下，确定动作识别结果满足预定条件；或者，在动作识别结果中包括特定预定动作、且在所述视频流中所述特定预定动作出现的时长达到预设时长的情况下，确定动作识别结果满足预定条件。

例如，当检测到驾驶员正在进行喝水、打电话、戴眼镜中的任意一个动作时，可通过车载终端生成并输出危险驾驶提示信息，还可以输出特定预定动作的类别。其中，输出危险驾驶提示信息的方式可包括：通过车载终端显示文字的方式输出危险驾驶提示信息、通过车载终端的音频输出功能输出危险驾驶提示信息。

在本申请的一种可选实施例中，所述方法还包括：获取设置有车载双摄像头的车辆的车速；所述响应于动作识别结果满足预定条件，生成危险驾驶提示信息，包括：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成危险驾驶提示信息。

本实施例中，针对车速不大于设定阈值的情况下，即使动作识别结果满足所述预设条件，也可不生成并输出危险驾驶提示信息。仅在车速大于设定阈值的情况下，在动作识别结果满足所述预设条件时，生成并输出危险驾驶提示信息。

本实施例中，通过车载摄像头对驾驶员进行视频拍摄，并以拍摄的视频的每一帧画面作为待处理图像。通过对摄像头拍摄的每一帧画面进行识别，获得相应的识别结果，再结合连续多帧画面的结果对驾驶员的动作进行识别。当检测到驾驶员正在进行喝水、打电话、戴眼镜中的任意一个动作时，可通过显示终端对驾驶员提出警告，并提示危险驾驶动作的类别。提出警告的方式包括：弹出对话框通过文字提出警告、通过内置语音数据提出警告。

本申请实施例的神经网络为基于训练图像集预先监督训练而获得，所述神经网络可包括卷积层、非线性层、池化层等网络层，本申请实施例对具体的网络结构并不限制。确定神经网络结构后，可基于带有标注信息的样本图像、采用监督方式对神经网络进行反向梯度传播等方法进行迭代训练，具体的训练方式本申请实施例并不限制。

图6是本申请实施例提供的一种神经网络的训练方法的流程示意图，如图6所示，所述方法包括：

501、提取样本图像的第一特征图。

本实施例可从训练图集中获取用于对神经网络进行训练的样本图像，其中，所述训练图像集中可包括多个样本图像。

在本申请的一种可选实施例中，所述训练图像集中的样本图像包括：正样本图像和负样本图像。所述正样本图像包含对应于目标对象的至少一个预定动作，所述预定动作例如目标对象喝水、抽烟、打电话、戴眼镜、戴口罩等动作；所述负样本图像包含至少一个与预定动作相似的动作，如：目标对象的手搭着嘴唇、挠耳朵、摸鼻子等等。

本实施例将包含有与预定动作很相似的动作的样本图像作为负样本图像，通过对神经网络的进行正样本图像和负样本图像区分训练，使训练后的神经网络的能高效的将与预定动作相似的动作区分出，大大提高动作分类结果的精确率和鲁棒性。

本实施例中，可通过神经网络中的卷积层提取样本图像的第一特征图。其中，提取样本图像的第一特征图的详细过程可参照前述步骤302的描述，这里不再赘述。

502、提取第一特征图可能包括预定动作的多个第三候选框。

本步骤的详细过程可参照前述实施例中的步骤303的描述，这里不再赘述。

503：基于所述多个第三候选框确定动作目标框。

在本申请的一种可选实施例中，所述基于多个第三候选框确定动作目标框，包括：根据所述预定动作，获得第一动作监督框，其中，所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第三候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；确定所述多个第三候选框与所述第一动作监督框的面积重合度；若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；调整所述第四候选框的位置和大小，获得所述动作目标框。

本实施例中，对于与人脸有关的精细动作的识别，可预先对预定动作的特征进行定义。例如，喝水的动作特征包括：手部区域、人脸局部区域和水杯区域(即动作交互物对应区域)的特征；抽烟的动作特征包括：手部区域、人脸局部区域和烟的区域(即动作交互物对应区域)的特征；打电话的动作特征包括：手部区域、人脸局部区域和手机区域(即动作交互物对应区域)的特征，戴眼镜的动作特征包括：手部区域、人脸局部区域和眼镜区域(即动作交互物对应区域)的特征；戴口罩的动作特征包括：手部区域、人脸局部区域、口罩区域(即动作交互物对应区域)的特征。

本实施例中，所述样本图像的标注信息包括：动作监督框和所述动作监督框对应的动作类别。可以理解，在通过神经网络对所述样本图像进行处理之前，还需要获得各样本图像对应的标注信息。其中，所述动作监督框具体用于标识出样本图像中的预定动作，具体可参见图7中的目标对象喝水的动作监督框和图8中的目标对象打电话的动作监督框。

与预定动作很相似的动作往往会给神经网络的提取候选框的过程带来很大的干扰。如：图4中从左至右，依次做了与打电话、喝水和抽烟相似的动作，即目标对象将右手分别放置在脸旁，但此时目标对象的手里并没手机、水杯和烟，而神经网络易误将这些动作识别为打电话、喝水和抽烟，并分别标识出与之相应的候选框。因此，本申请实施例通过对神经网络的进行正样本图像和负样本图像区分训练，正样本图像对应的第一动作监督框可包括预定动作，负样本图像对应的第一动作监督框也包括与预定动作相似的动作。

本实施例中，通过神经网络标识出第三候选框的同时，还可获得所述三候选框对应的第二置信度，第二置信度包括：所述第三候选框为动作目标框的概率，即第一概率；以及该第三候选框不是动作目标框的概率，即第二概率。这样，通过神经网络获得多个第三候选框的同时，还将获得每个第三候选框的第二置信度。需要理解的是，第二置信度为神经网络的根据第三候选框中的特征得到的第三候选框为目标动作框的预测值。此外，在获得第三候选框和第二置信度的同时，通过神经网络的的处理还可得到第三候选框在坐标系xoy下的坐标(x3，y3)，及所述第三候选框的尺寸，所述第三候选框的尺寸可通过长度和宽度的乘积表示。其中，所述第三候选框的坐标(x3，y3)可以是所述第三候选框的一个顶点的坐标，例如所述第三候选框的左上角、右上角、左下角或右下角的顶点的坐标。以所述第三候选框的坐标(x3，y3)为第三候选框的左上角的顶点坐标为例，则可获得的第三候选框的右上角的横坐标x4以及左下角的纵坐标y4，则第三候选框可表示为bbox(x3，y3，x4，y4)。同理，所述第一动作监督框可表示为bbox_gt(x1，y1，x2，y2)。

本实施例中，确定各第三候选框集合bbox(x3，y3，x4，y4)分别与第一动作监督框bbox_gt(x1，y1，x2，y2)的面积重合度IOU，可选的，面积重合度IOU的计算公式如下：

其中，A、B分别表示第三候选框的面积和第一动作监督框的面积，A∩B表示第三候选框与第一动作监督框重合区域的面积，A∪B表示第三候选框与第一动作监督框包含的所有区域的面积。

若面积重合度IOU大于或等于第二阈值，判定第三候选框为可能包含预定动作的候选框，将该第三候选框的第二置信度取为上述第一概率；若面积重合度IOU小于所述第二阈值，判定该第三候选框为不可能包含预定动作的候选框，将该第三候选框的第二置信度取为上述第二概率。其中，所述第二阈值的取值大于等于0小于等于1；所述第二阈值的具体取值可根据网络训练效果确定。

本实施例中，可将第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框，调整所述第四候选框的位置和大小，获得所述动作目标框。其中，动作目标框的获取方式具体可参照前述实施例中的步骤304所述。

其中，所述调整所述第四候选框的位置和大小，获得所述动作目标框，包括：池化处理第四候选框，获得所述第四候选框对应的第二特征区域，基于所述第二特征区域对相对应的第四候选框的位置和大小进行调整，获得第五候选框，基于所述第五候选框获得动作目标框。其中，所述基于所述第二特征区域对相对应的第四候选框的位置和大小进行调整，获得第五候选框，包括：根据所述第二特征区域中对应于预定动作的特征，获得与所述预定动作的特征对应的第二动作特征框；根据所述第二动作特征框的几何中心坐标，获得所述第四候选框的第二位置偏移量；根据所述第二动作特征框的大小，获得所述第四候选框的第二缩放倍数；根据所述第二位置偏移量和所述第二缩放倍数对所述第四候选框的位置和大小进行调整，获得第五候选框。

本实施例中，分别获取上述第四候选框在坐标系xoy下的几何中心坐标P(x _n,y _n)和第二动作特征框在坐标系xoy下的几何中心坐标Q(x,y)，获得第四候选框的几何中心与第二动作特征框的几何中心的第二位置偏移量：Δ(x _n,y _n)＝P(x _n,y _n)-Q(x,y)，其中，n为正整数，n的数量与第四候选框的数量一致。Δ(x _n,y _n)即为多个第四候选框的第二位置偏移量。

本实施例中，分别获得第四候选框与第二动作特征框的尺寸，再通过第二动作特征框的尺寸除以第四候选框的尺寸，得到第四候选框的第二缩放倍数ε，其中，第二缩放倍数ε包括第四候选框的长度的缩放倍数δ和宽度的缩放倍数η。

假设第四候选框的几何中心坐标的集合表示为：

根据第二位置偏移量Δ(x _n,y _n)可得到几何中心的位置调整后的第四候选框的几何中心坐标的集合为：

则：

需要理解的是，在对第四候选框的几何中心的位置进行调整的时，所述第四候选框的长度和宽度保持不变。

在得到几何中心位置调整后的一个或多个第四候选框后，固定第四候选框的几何中心不变，基于所述第二缩放倍数ε将所述第四候选框的长度调整至δ倍，宽度调整至η倍，获得第五候选框。

本实施例中，所述基于所述第五候选框获得动作目标框，包括：将尺寸和距离相近的多个第五候选框合并，合并后的第五候选框作为动作目标框。需要理解的是，对应于同一预定动作的第五候选框的大小和距离会非常接近，所以，合并后每个动作目标框只对应于一个预定动作。

在本申请的一种可选实施例中，通过神经网络的处理获得动作目标框的同时还会获得所述动作目标框的第三置信度，第三置信度表示所述动作目标框中的动作为预定动作类别的概率，即第三概率，如：上述预定动作可包括喝水、抽烟、打电话、戴眼镜、戴口罩五个类别，则每个动作目标框的第三概率均包含五个概率值，分别为动作目标框中的动作为喝水动作的概率a、为抽烟动作的概率b、为打电话动作的概率c、为戴眼镜动作的概率d以及为戴口罩动作的概率e。

步骤504：基于所述动作目标框进行预定动作的分类，获得动作识别结果。

本实施例中，以动作目标框中包括的预定动作包括喝水、抽烟、打电话、戴眼镜、戴口罩五个类别为例，假设动作目标框的第三置信度分别为：a＝0.65，b＝0.45，c＝0.7，d＝0.45，e＝0.88，则动作识别结果可以为戴口罩动作。则本实施例中，对应于不同预定动作的动作目标框的第三置信度(即第三概率)中，可选取第三置信度(即第三概率)最大的预定动作的分类作为动作识别结果。其中，最大的第三置信度(即第三概率)可记为第四概率。

步骤505：确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失。

步骤506：根据所述第一损失和所述第二损失调节所述神经网络的网络参数。

本实施例中，神经网络可包括神经网络的特征提取分支、神经网络的候选框提取分支、神经网络的检测框精修分支和神经网络的动作分类分支，上述神经网络的各分支的功能具体可参见前述实施例中步骤301至步骤305的详细阐述。

本实施例中，通过计算候选框坐标回归损失函数smooth _l1和类别损失函数soft max对神经网络的网络参数进行更新。

可选的，候选框提取的损失函数(Region Proposal Loss)的表达式如下：

其中，N和α均为神经网络的候选框提取分支的权重参数，p _i为监督变量。

类别损失函数soft max和候选框坐标回归损失函数smooth _l1的具体表达式如下：

其中，x＝|x ₁-x ₃|+|y ₁-y ₃|+|x ₂-x ₄|+|y ₂-y ₄|。

神经网络的检测框精修分支通过损失函数来更新网络的权重参数，损失函数(Bbox Refine Loss)的具体表达式如下：

其中，M为第六候选框的数量，β为神经网络的检测框精修分支的权重参数，p _i为监督变量，soft max损失函数和smooth _l1损失函数的表达形式可参见公式(4)和公式(5)，特别地，公式(6)中的bbox _i为精修后的动作目标框的几何中心坐标，bbox_gt _j为监督动作框的几何中心坐标。

本实施例中，损失函数是神经网络优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程，即损失函数值越接近于0，对应预测的结果和真实结果的值就越接近。

本实施例中，用第四候选框的第二置信度替换公式(3)和公式(4)中的监督变量p _i，并代入公式(3)，通过调节神经网络的候选框提取分支的权重参数N和α，改变Region Proposal Loss的值(即第一损失)，并选取使Region Proposal Loss的值最接近于0的权重参数组合N和α。

本实施例中，用动作目标框的第四概率(即多个第三置信度(即第三概率)中的最大值)替换掉监督变量p _i代入公式(6)，通过调节神经网络的检测框精修分支的权重参数β，改变Bbox Refine Loss的值(即第二损失)，并选取使Bbox Refine Loss的值最接近于0的权重参数β，以梯度反向传播的方式完成对神经网络的检测框精修分支的权重参数的更新。

将更新完权重参数的候选框提取分支、更新完权重参数的检测框精修分支、特征提取分支、动作分类分支再次进行训练，即向神经网络输入样本图像，经过神经网络的处理，最终由神经网络的动作分类分支输出识别结果。由于动作分类分支的输出结果与实际结果之间存在误差，将动作分类分支的输出值与实际值之间的误差从输出层向卷积层反向传播，直至传播到输入层。在反向传播的过程中，根据误差调整神经网络中的权重参数，不断迭代上述过程，直至收敛，完成对神经网络的网络参数的再次更新。

本实施例根据动作特征进行车内人员的脸部精细动作，如与手和人脸相关的驾驶员危险驾驶动作。但在实际应用时，驾驶员所作的一些与危险驾驶动作相似的动作易对神经网络造成干扰，影响后续对动作的分类识别，这不仅会降低动作识别结果的精度，同时也会使用户体验直线下降。本实施例将正样本图像和负样本图像作为用于神经网络训练的样本图像，以损失函数进行监督，以梯度反向传播的方式更新神经网络的网络参数(特别是神经网络的特征提取分支和神经网络的候选框提取分支的权重参数)并完成训练，使训练后的神经网络的特征提取分支能准确的提取出危险驾驶动作的特征，再通过神经网络的候选框提取分支自动将包含有与预定动作(例如危险驾驶动作)相似的动作的候选框去除，可大大降低对危险驾驶动作的误检率。

另外，由于神经网络的候选框提取分支输出的动作候选框尺寸较大，若直接对其进行后续处理，计算量较大，本实施例通过对候选框进行池化处理，并调整至预定尺寸，可大大减小后续处理的计算量，加快处理速度；通过神经网络的检测框精修分支对候选框的精修，使精修后得到的动作目标框只包含预定动作(例如危险驾驶动作)的特征，提高识别结果的准确率。

请参阅图9，图9为本申请实施例提供的一种动作识别装置的结构示意图，该识别装置1000包括：第一提取单元11、第二提取单元12、确定单元13及分类单元14。其中：

所述第一提取单元11，用于提取包括有人脸的图像的特征；

所述第二提取单元12，用于基于所述特征确定可能包括预定动作的多个候选框；

所述确定单元13，用于基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；

所述分类单元14，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果。

在本申请的一种可选实施例中，所述人脸局部区域，包括以下至少之一：嘴部区域、耳部区域、眼部区域。

在本申请的一种可选实施例中，所述动作交互物，包括以下至少之一：容器、烟、手机、食物、工具、饮料瓶、眼镜、口罩。

在本申请的一种可选实施例中，动作识别装置1000还包括：车载摄像头，用于拍摄位于车内的人的包括有人脸的图像。

在本申请的一种可选实施例中，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员、所述车的副驾驶区的人、所述车的后排座椅上的人。

在本申请的一种可选实施例中，所述车载摄像头为：RGB摄像头、红外摄像头或近红外摄像头。

本申请实施例通过对待处理图像进行特征提取，并根据提取到的特征实现待处理图像中动作的识别。上述的动作可以为：手部区域的动作和/或人脸局部区域的动作、针对动作交互物的动作等等，因此，需通过车载摄像头对车内人员进行图像采集，获取包括有人脸的待处理图像。再对待处理图像进行卷积操作，提取出动作特征。

在一种可选的实施方式中，首先对上述预定动作的特征进行定义，再通过神经网络根据定义的特征和提取到的图像中的特征，实现对图像中是否存在预定动作的判断，在判定图像中存在预定动作的情况下，确定图像中包括预定动作的多个候选框。

本实施例中，由于候选框中可能包含除预定动作对应的特征以外的特征，或没有包含预定动作对应的所有特征(指任意一个预定动作的所有特征)，这样都会影响最终的动作识别结果。因此，为保证最终识别结果的精度，需要对候选框的位置进行调整，即基于多个候选框确定动作目标框。基于此，通过对各个候选框的位置和大小的调整，将调整后的候选框确定为动作目标框。可以理解，调整后的多个候选框可以重叠为一个候选框，则重叠的候选框确定为动作目标框。

在本申请的一种可选实施例中，所述第一提取单元11包括：神经网络的特征提取分支111，用于提取包括有人脸的图像的特征，获得特征图。

本实施例中，通过神经网络的特征提取分支对待处理图像进行卷积操作，是利用卷积核在待处理图像上“滑动”。例如，在卷积核对应于图像某像素点时，将该像素点的灰度值与卷积核上的各数值相乘，将所有乘积加和后作为卷积核对应的所述像素点的灰度值，进一步将卷积核“滑动”至下一个像素点，以此类推，最终完成所述待处理图像中的所有像素点卷积处理，获得特征图。

其中，神经网络的特征提取分支111可包括多层卷积层，上一层卷积层通过特征提取获得的特征图可作为下一层卷积层的输入数据，通过多层卷积层提取图像中更为丰富的信息，由此提高特征提取的准确率。

在本申请的一种可选实施例中，所述第二提取单元12，包括：所述神经网络的候选框提取分支121，用于在所述特征图上提取可能包括预定动作的多个候选框。

例如，特征图中可包括：手、烟、水杯、手机、眼镜、口罩、人脸局部区域对应的特征中的至少一种特征，基于所述至少一种特征确定多个候选框。需要说明的是，虽然通过神经网络的特征提取分支能够提取出待处理图像的特征，但提取出的特征可能包括预定动作对应的特征之外的其他特征，因此，这里通过神经网络的候选框提取分支确定的多个候选框中，可能存在至少部分候选框中包含了除预定动作对应的特征以外的其他特征，或者并没有包含预定动作对应的所有特征，因此，所述多个候选框可能包括了预定动作。

在本申请的一种可选实施例中，所述神经网络的候选框提取分支121还用于：根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；以及根据所述多个候选区域，获得所述多个候选框中每个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

其中，所述神经网络的候选框提取分支121，包括：划分子单元，用于根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；

第一获取子单元，用于根据所述多个候选区域，获得所述多个候选框中每个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。

本实施例中，神经网络的候选框提取分支121还可以确定每个候选框对应的第一置信度，所述第一置信度用于以概率的形式表示候选框为目标动作框的可能性。通过神经网络的候选框提取分支对特征图的处理，在获多个候选框的同时，还获得多个候选框中每个候选框的第一置信度。需要理解的是，所述第一置信度为神经网络的候选框提取分支根据候选框中的特征得到的候选框为目标动作框的预测值。

在本申请的一种可选实施例中，所述确定单元13，包括：所述神经网络的检测框精修分支131，用于基于所述多个候选框确定动作目标框。

在本申请的一种可选实施例中，所述神经网络的检测框精修分支131还用于：去除所述第一置信度小于第一阈值的候选框，获得至少一个第一候选框；以及池化处理所述至少一个第一候选框，获得至少一个第二候选框；以及根据所述至少一个第二候选框，确定动作目标框。

其中，所述神经网络的检测框精修分支，包括：去除子单元，用于去除第一置信度小于第一阈值的候选框，获得至少一个第一候选框；

第二获取子单元，用于池化处理所述至少一个第一候选框，获得至少一个第二候选框；

确定子单元，用于根据所述至少一个第二候选框，确定动作目标框。

本实施例中，由于在获得候选框的过程中，一些与预定动作很相似的动作会给神经网络的候选框提取分支带来很大的干扰。如图4中从左至右的子图片中，目标对象依次做了与打电话、喝水和抽烟等动作，这些动作比较相似，都是将右手分别放置在脸旁，但目标对象手里并没手机、水杯和烟，而神经网络容易误将目标对象的这些动作识别为打电话、喝水和抽烟。

本申请实施例通过神经网络的检测框精修分支131去除第一置信度小于第一阈值的候选框，得到至少一个第一候选框；其中，若候选框的第一置信度小于第一阈值，则表明该候选框为上述与相似动作的候选框，需要将该候选框去除，从而能够高效的区分预定动作和相似动作，进而降低误检测率，大大提高动作识别结果的准确率。

在本申请的一种可选实施例中，所述神经网络的检测框精修分支131(或所述第二获取子单元)还用于：分别池化处理所述至少一个第一候选框，获得与所述至少一个第一候选框对应的至少一个第一特征区域；以及基于每个第一特征区域对相对应的第一候选框的位置和大小进行调整，获得至少一个第二候选框。

本实施例中，第一候选框所在区域中的特征的数量可能较多，若直接使用第一候选框所在区域中的特征将产生巨大的计算量。因此，在对第一候选框所在区域中的特征进行后续处理之前，先池化处理第一候选框，即池化处理第一候选框所在区域中的特征，降低第一候选框所在区域中的特征的维度，以满足后续处理过程中对计算量的需要，大大减小后续处理的计算量。

在本申请的一种可选实施例中，所述神经网络的检测框精修分支131(或所述第二获取子单元)还用于：基于所述第一特征区域中对应于所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；以及根据所述第一动作特征框的几何中心坐标，获得所述至少一个第一候选框的第一位置偏移量；以及根据所述第一动作特征框的大小，获得所述至少一个第一候选框的第一缩放倍数；以及根据至少一个第一位置偏移量和至少一个第一缩放倍数分别对至少一个第一候选框的位置和大小进行调整，获得至少一个第二候选框。

在本申请的一种可选实施例中，所述分类单元14，包括：所述神经网络的动作分类分支141，用于获取所述特征图上与所述动作目标框对应的区域图，并基于所述区域图进行预定动作的分类，获得动作识别结果。

在本申请的一种可选实施例中，一方面，通过神经网络的动作分类分支141获得第一动作识别结果，另一方面，通过神经网络的动作分类分支141还可获得所述第一动作识别结果的第二置信度，所述第二置信度表征所述动作识别结果的准确率。

在本申请的一种可选实施例中，所述神经网络为基于训练图像集预先监督训练而得，所述训练图像集包括多个样本图像，其中，所述样本图像的标注信息包括：动作监督框和所述动作监督框对应的动作类别。

在本申请的一种可选实施例中，所述训练图像集包括正样本图像和负样本图像，所述负样本图像的动作与所述正样本图像的动作相似，所述正样本的动作监督框包括人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物。

在本申请的一种可选实施例中，所述正样本图像的动作包括打电话，所述负样本图像包括：扰耳朵；和/或，所述正样本图像包括抽烟、进食或喝水，所述负样本图像包括张嘴或手搭着嘴唇的动作。

本申请实施例通过神经网络的特征提取分支111对待处理图像进行特征提取，通过神经网络的候选框提取分支121根据提取出的特征获得可能包括预定动作的候选框，通过神经网络的检测框精修分支131确定动作目标框，最后通过神经网络的动作分类分支141对目标动作框中的特征进行预定动作的分类，得到待处理图像的动作识别结果；整个识别过程通过提取待处理图像中的特征(例如手部区域、人脸局部区域、动作交互物对应区域的特征提取)，并对其进行处理，可自主、快速的实现对精细动作的精确识别。

本申请实施例的所述动作识别装置还包括所述神经网络的训练组件。请参阅图10，图10为本申请实施例提供的一种神经网络的训练组件的结构示意图，该训练组件2000包括：第一提取单元21、第二提取单元22、第一确定单元23、获取单元24、第二确定单元25及调节单元26。其中：

所述第一提取单元21，用于提取包括样本图像的第一特征图；

所述第二提取单元22，用于提取所述第一特征图可能包括预定动作的多个第三候选框；

所述第一确定单元23，用于基于所述多个第三候选框确定动作目标框；

所述获取单元24，用于基于所述动作目标框进行预定动作的分类，获得第一动作识别结果；

所述第二确定单元25，用于确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失；

所述调节单元26，用于根据所述第一损失和所述第二损失调节所述神经网络的网络参数。

在本申请的一种可选实施例中，所述第一确定单元23包括：第一获取子单元231，用于根据所述预定动作，获得第一动作监督框，其中所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；

所述第二获取子单元232，用于获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第四候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；

所述确定子单元233，用于确定所述多个第三候选框与所述第一动作监督框的面积重合度；

所述选取子单元234，用于若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；

所述去除子单元235，用于将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；

所述调整子单元236，用于调整所述第四候选框的位置和大小，获得所述动作目标框。

请参阅图11，图11为本申请实施例提供的一种驾驶动作分析装置的结构示意图，该分析装置3000包括：车载摄像头31、第一获取单元32及生成单元33。其中：

所述车载摄像头31，用于采集包括有驾驶员人脸图像的视频流；

所述第一获取单元32，用于通过本申请前述实施例所述的动作识别装置，获取所述视频流中至少一帧图像的动作识别结果；

所述生成单元33，用于响应于动作识别结果满足预定条件，生成分心或危险驾驶提示信息。

在本申请的一种可选实施例中，所述分析装置3000还包括：第二获取单元34，用于获取设置有车载双摄像头的车辆的车速；所述生成单元33还用于：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成分心或危险驾驶提示信息。

本申请实施例还提供了一种电子设备。图12为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备4000包括存储器44和处理器41，所述存储器44上存储有计算机可执行指令，所述处理器41运行所述存储器44上的计算机可执行指令时实现本申请实施例所述的动作识别方法，或者本申请实施例所述的驾驶动作分析方法。

在本申请的一种可选实施例中，所述电子设备还可以包括输入装置42、输出装置43。该输入装置42、输出装置43、存储器44和处理器41之间可通过总线相互连接。

存储器包括但不限于是随机存储记忆体(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、或便携式只读存储器(Compact Disc Read-Only Memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(Central Processing Unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图12仅仅示出了电子设备的简化设计。在实际应用中，电子设备还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的电子设备都在本申请实施例的保护范围之内。

本申请实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本申请上述任一实施例的动作识别方法的操作，或者，该指令被执行时实现本申请上述任一实施例的驾驶动作分析方法的操作。

本申请实施例还提供了一种计算机程序，包括计算机可读取的指令，当该计算机可读取的指令在设备中运行时，该设备中的处理器执行用于实现本申请上述任一实施例的动作识别方法中的步骤的可执行指令，或者，该设备中的处理器执行用于实现本申请上述任一实施例的驾驶动作分析方法中的步骤的可执行指令。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准

Claims

一种动作识别方法，包括：

提取包括有人脸的图像中的特征；

基于所述特征确定可能包括预定动作的多个候选框；

基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；

基于所述动作目标框进行预定动作的分类，获得动作识别结果。
根据权利要求1所述的方法，其中，所述人脸的局部区域，包括以下至少之一：嘴部区域、耳部区域、眼部区域。
根据权利要求1或2所述的方法，其中，所述动作交互物，包括以下至少之一：容器、烟、手机、食物、工具、饮料瓶、眼镜、口罩。
根据权利要求1至3任一项所述的方法，其中，所述动作目标框还包括：手部区域。
根据权利要求1至4任一项所述的方法，其中，所述预定动作包括以下至少之一：打电话、抽烟、喝水/饮料、进食、使用工具、戴眼镜、化妆。
根据权利要求1至5任一项所述的方法，其中，所述方法还包括：

经车载摄像头拍摄位于车内的人的包括有人脸的图像。
根据权利要求6所述的方法，其中，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员、所述车的副驾驶区的人、所述车的后排座椅上的人。
根据权利要求6或7所述的方法，其中，所述车载摄像头为：RGB摄像头、红外摄像头或近红外摄像头。
根据权利要求1至8任一项所述的方法，其中，所述提取包括有人脸的图像中的特征，包括：

经神经网络的特征提取分支提取包括有人脸的图像中的特征，获得特征图。
根据权利要求9所述的方法，其中，所述基于所述特征确定可能包括预定动作的多个候选框，包括：

经所述神经网络的候选框提取分支在所述特征图上确定可能包括预定动作的多个候选框。
根据权利要求10所述的方法，其中，所述经所述神经网络的候选框提取分支在所述特征图上确定可能包括预定动作的多个候选框，包括：

根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；

根据所述多个候选区域，获得多个候选框和所述多个候选框中每个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。
根据权利要求9至11任一项所述的方法，其中，所述基于所述多个候选框确定动作目标框，包括：

经所述神经网络的检测框精修分支、基于所述多个候选框确定动作目标框。
根据权利要求12所述的方法，其中，所述经所述神经网络的检测框精修分支、基于所述多个候选框确定动作目标框，包括：

经所述神经网络的检测框精修分支去除第一置信度小于第一阈值的候选框，获得至少一个第一候选框；

池化处理所述至少一个第一候选框，获得至少一个第二候选框；

根据所述至少一个第二候选框，确定动作目标框。
根据权利要求13所述的方法，其中，所述池化处理所述至少一个第一候选框，获得至少一个第二候选框，包括：

分别池化处理所述至少一个第一候选框，获得与所述至少一个第一候选框对应的至少一个第一特征区域；

基于每个第一特征区域对相对应的第一候选框的位置和大小进行调整，获得至少一个第二候选框。
根据权利要求14所述的方法，其中，所述基于每个第一特征区域对相对应的第一候选框的位置和大小进行调整，获得至少一个第二候选框，包括：

基于所述第一特征区域中对应于所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；

根据所述第一动作特征框的几何中心坐标，获得所述至少一个第一候选框的第一位置偏移量；

根据所述第一动作特征框的大小，获得所述至少一个第一候选框的第一缩放倍数；

根据至少一个第一位置偏移量和至少一个第一缩放倍数分别对所述至少一个第一候选框的位置和大小进行调整，获得至少一个第二候选框。
根据权利要求1至15任一项所述的方法，其中，所述基于所述动作目标框进行预定动作的分类，获得动作识别结果，包括：

经所述神经网络的动作分类分支获取所述特征图上与所述动作目标框对应的区域图，基于所述区域图进行预定动作的分类，获得动作识别结果。
根据权利要求9至16任一项所述的方法，其中，所述神经网络为基于训练图像集预先监督训练而得，所述训练图像集包括多个样本图像，其中，所述样本图像的标注信息包括：动作监督框和所述动作监督框对应的动作类别。
根据权利要求17所述的方法，其中，所述训练图像集包括正样本图像和负样本图像，所述负样本图像的动作与所述正样本图像的动作相似，所述正样本的动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物。
根据权利要求17或18所述的方法，其中，所述正样本图像的动作包括打电话，所述负样本图像包括：扰耳朵；和/或，所述正样本图像包括抽烟、进食或喝水，所述负样本图像包括张嘴或手搭着嘴唇的动作。
根据权利要求17至19任一项所述的方法，其中，所述神经网络的训练方法包括：

提取样本图像的第一特征图；

提取所述第一特征图可能包括预定动作的多个第三候选框；

基于所述多个第三候选框确定动作目标框；

基于所述动作目标框进行预定动作的分类，获得动作识别结果；

确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失；

根据所述第一损失和所述第二损失调节所述神经网络的网络参数。
根据权利要求20所述的方法，其中，所述基于多个第三候选框确定动作目标框，包括：

根据所述预定动作，获得第一动作监督框，其中，所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；

获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第三候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；

确定所述多个第三候选框与所述第一动作监督框的面积重合度；

若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；

将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；

调整所述第四候选框的位置和大小，获得所述动作目标框。
一种驾驶动作分析方法，包括：

经车载摄像头采集包括有驾驶员人脸图像的视频流；

通过如权利要求1至21任一所述的动作识别方法，获取所述视频流中至少一帧图像的动作识别结果；

响应于动作识别结果满足预定条件，生成危险驾驶提示信息。
根据权利要求22所述的方法，其中，所述预定条件包括以下至少之一：出现特定预定动作；在预定时长内出现特定预定动作的次数；所述视频流中特定预定动作出现维持的时长。
根据权利要求22或23所述的方法，其中，所述方法还包括：

获取设置有车载双摄像头的车辆的车速；

所述响应于动作识别结果满足预定条件，生成危险驾驶提示信息，包括：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成危险驾驶提示信息。
一种动作识别装置，包括：

第一提取单元，用于提取包括有人脸的图像的特征；

第二提取单元，用于基于所述特征确定可能包括预定动作的多个候选框；

确定单元，用于基于所述多个候选框确定动作目标框，其中，所述动作目标框包括人脸的局部区域和动作交互物；

分类单元，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果。
根据权利要求25所述的装置，其中，所述人脸的局部区域，包括以下至少之一：嘴部区域、耳部区域、眼部区域。
根据权利要求25或26所述的装置，其中，所述动作交互物，包括以下至少之一：容器、烟、手机、食物、工具、饮料瓶、眼镜、口罩。
根据权利要求25至27任一项所述的装置，其中，所述动作目标框还包括：手部区域。
根据权利要求25至28任一项所述的装置，其中，所述预定动作包括以下至少之一：打电话、抽烟、喝水/饮料、进食、使用工具、戴眼镜、化妆。
根据权利要求25至29任一项所述的装置，其中，还包括：

车载摄像头，用于拍摄位于车内的人的包括有人脸的图像。
根据权利要求30所述的装置，其中，所述车内的人包括以下至少之一：所述车的驾驶区的驾驶员、所述车的副驾驶区的人、所述车的后排座椅上的人。
根据权利要求30或31所述的装置，其中，所述车载摄像头为：RGB摄像头、红外摄像头或近红外摄像头。
根据权利要求25至32任一项所述的装置，其中，所述第一提取单元包括：神经网络的特征提取分支，用于提取包括有人脸的图像的特征，获得特征图。
根据权利要求33所述的装置，其中，所述第二提取单元，包括：

所述神经网络的候选框提取分支，用于在所述特征图上提取可能包括预定动作的多个候选框。
根据权利要求34所述的装置，其中，所述候选框提取分支，包括：

划分子单元，用于根据所述预定动作的特征对所述特征图中的特征进行划分，获得多个候选区域；

第一获取子单元，用于根据所述多个候选区域，获得所述多个候选框和所述多个候选框中每个候选框的第一置信度，其中，所述第一置信度为所述候选框为所述动作目标框的概率。
根据权利要求33至35任一项所述的装置，其中，所述确定单元，包括：所述神经网络的检测框精修分支，用于基于所述多个候选框确定动作目标框。
根据权利要求36所述的装置，其中，所述检测框精修分支，包括：

去除子单元，用于去除所述第一置信度小于第一阈值的候选框，获得至少一个第一候选框；

第二获取子单元，用于池化处理所述至少一个第一候选框，获得至少一个第二候选框；

确定子单元，用于根据所述至少一个第二候选框，确定动作目标框。
根据权利要求37所述的装置，其中，所述第二获取子单元还用于：

分别池化处理所述至少一个第一候选框，获得与所述至少一个第一候选框对应的至少一个第一特征区域；以及基于每个第一特征区域对相对应的第一候选框的位置和大小进行调整，获得至少一个第二候选框。
根据权利要求38所述的装置，其中，所述第二获取子单元还用于：

基于所述第一特征区域中对应于所述预定动作的特征，获得与所述预定动作的特征对应的第一动作特征框；以及根据所述第一动作特征框的几何中心坐标，获得所述至少一个第一候选框的第一位置偏移量；以及根据所述第一动作特征框的大小，获得所述至少一个第一候选框的第一缩放倍数；以及根据至少一个第一位置偏移量和至少一个第一缩放倍数分别对所述至少一个第一候选框的位置和大小进行调整，获得至少一个第二候选框。
根据权利要求25至39任一项所述的装置，其中，所述分类单元，包括：所述神经网络的动作分类分支，用于获取所述特征图上与所述动作目标框对应的区域图，并基于所述区域图进行预定动作的分类，获得动作识别结果。
根据权利要求35至40任一项所述的装置，其中，所述神经网络为基于训练图像集预先监督训练而得，所述训练图像集包括多个样本图像，其中，所述样本图像的标注信息包括：动作监督框和所述动作监督框对应的动作类别。
根据权利要求41所述的装置，其中，所述训练图像集包括正样本图像和负样本图像，所述负样本图像的动作与所述正样本图像的动作相似，所述正样本的动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物。
根据权利要求41或42所述的装置，其中，所述正样本图像的动作包括打电话，所述负样本图像包括：扰耳朵；和/或，所述正样本图像包括抽烟、进食或喝水，所述负样本图像包括张嘴或手搭着嘴唇的动作。
根据权利要求41至43任一项所述的装置，其中，所述动作识别装置还包括所述神经网络的训练组件，所述神经网络的训练组件包括：

第一提取单元，用于提取样本图像的第一特征图；

第二提取单元，用于提取所述第一特征图可能包括预定动作的多个第三候选框；

第一确定单元，用于基于所述多个第三候选框确定动作目标框；

第三获取单元，用于基于所述动作目标框进行预定动作的分类，获得动作识别结果；

第二确定单元，用于确定所述样本图像的候选框的检测结果和检测框标注信息的第一损失、以及动作识别结果和动作类别标注信息的第二损失；

调节单元，用于根据所述第一损失和所述第二损失调节所述神经网络的网络参数。
根据权利要求44所述的装置，其中，所述第一确定单元包括：

第一获取子单元，用于根据所述预定动作，获得第一动作监督框，其中所述第一动作监督框包括：人脸的局部区域和动作交互物，或者，人脸的局部区域、手部区域和动作交互物；

第二获取子单元，用于获取所述多个第三候选框的第二置信度，其中，所述第二置信度包括：所述第四候选框为所述动作目标框的第一概率，所述第三候选框非所述动作目标框的第二概率；

确定子单元，用于确定所述多个第三候选框与所述第一动作监督框的面积重合度；

选取子单元，用于若所述面积重合度大于或等于第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第一概率；若所述面积重合度小于所述第二阈值，将与所述面积重合度对应的所述第三候选框的所述第二置信度取为所述第二概率；

去除子单元，用于将所述第二置信度小于所述第一阈值的所述多个第三候选框去除，获得多个第四候选框；

调整子单元，用于调整所述第四候选框的位置和大小，获得所述动作目标框。
一种驾驶动作分析装置，包括：

车载摄像头，用于采集包括有驾驶员人脸图像的视频流；

第一获取单元，用于通过如权利要求25至45任一项所述的动作识别装置，获取所述视频流中至少一帧图像的动作识别结果；

生成单元，用于响应于动作识别结果满足预定条件，生成危险驾驶提示信息。
根据权利要求46所述的装置，其中，所述预定条件包括以下至少之一：出现特定预定动作；在预定时长内出现特定预定动作的次数；所述视频流中特定预定动作出现维持的时长。
根据权利要求46或47所述的装置，其中，所述装置还包括：

第二获取单元，用于获取设置有车载双摄像头的车辆的车速；

所述生成单元还用于：响应于所述车速大于设定阈值且所述动作识别结果满足所述预定条件，生成危险驾驶提示信息。
一种电子设备，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至21任一项所述的方法，或者权利要求22至24任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至21任一项所述的方法，或者权利要求22至24任一项所述的方法。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现权利要求1至21任一项所述的方法，或者权利要求22至24任一项所述的方法。