WO2021185317A1

WO2021185317A1 - 动作识别方法及装置、存储介质

Info

Publication number: WO2021185317A1
Application number: PCT/CN2021/081556
Authority: WO
Inventors: 王飞; 王利鸣; 钱晨
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-03-19
Filing date: 2021-03-18
Publication date: 2021-09-23
Also published as: CN113496143B; KR20220027241A; CN113496143A; TWI776429B; JP2022543032A; TW202139061A

Abstract

提供了一种动作识别方法及装置、存储介质，其中，方法包括：获取场景图像（101）；对场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定场景图像包括的至少一个对象和至少一个对象中每个对象的目标动作类型（102）。

Description

动作识别方法及装置、存储介质

相关申请的交叉引用

本申请要求2020年3月19日提交的题为“动作识别方法及装置、存储介质”，申请号为2020101964616的中国申请的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及计算机视觉领域，尤其涉及一种动作识别方法及装置、存储介质。

背景技术

目前，通过计算机视觉技术来分析对象动作的需求日益增强。在进行动作类型识别的过程中，需要先通过对象检测获得对象位置，根据对象位置对每个对象进行裁剪，输入至动作分类网络中获得动作识别结果。上述动作识别的处理时间与场景中对象的数目呈线性相关。例如，场景中包括N个对象，这里的N可以为正整数，则动作分类网络需要进行N次推理，动作识别的时间会增加N倍，N的取值越大，动作识别的时间就越长，这就需要设备具备较高的计算能力且耗时较长。

发明内容

本公开提供了一种动作识别方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种动作识别方法，所述方法包括：获取场景图像；对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

在一些可选实施例中，所述对象包括人物，所述对象的不同部位包括人物的人脸和人体；所述对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型，包括：对所述场景图像进行特征提取，得到特征图；确定所述特征图中至少一个人脸位置和至少一个人体位置；根据所述至少一个人脸位置和/或所述至少一个人体位置，确定场景图像中包括的至少一个人物；对属于同一人物的所述人脸位置和所述人体位置进行关联；根据关联的所述人脸位置和所述人体位置，确定所述场景图像的所述至少一个人物中每个人物的所述目标动作类型。

在一些可选实施例中，所述对属于同一人物的所述人脸位置和所述人体位置进行关联，包括：对于至少一个人物中的每个人物，确定与该人物的人脸位置对应的参考人体位置；根据所述参考人体位置和所述至少一个人体位置，对属于所述同一人物的所述人脸位置和所述人体位置进行关联。

在一些可选实施例中，所述确定与每个人脸位置对应的参考人体位置，包括：确定所述该人物的人脸位置在所述特征图上的第一坐标值；根据预设向量和所述第一坐标值，确定第二坐标值；其中，所述预设向量是由人脸所在位置指向人体所在位置的向量；将所述第二坐标值作为所述参考人体位置。

在一些可选实施例中，所述根据所述参考人体位置和所述至少一个人体位置，对属于所述同一人物的所述人脸位置和所述人体位置进行关联，包括：将与所述参考人体位置距离最小的所述人体位置和该参考人体位置对应的所述人脸位置进行关联。

在一些可选实施例中，所述根据关联的所述人脸位置和所述人体位置，确定所述场景图像包括的至少一个人物和所述至少一个人物中每个人物的所述目标动作类型，包括：对于一个至少一个人物中的每个人物，根据与该人物关联的所述人脸位置和所述人体位置，确定多个特征向量；基于所述多个特征向量，确定该人物的所述目标动作类型。

在一些可选实施例中，所述根据与该人物关联的所述人脸位置和所述人体位置，确定多个特征向量，包括：确定与至少一个预设动作类型分别对应且由所述人脸位置指向关联的所述人体位置的多个特征向量。

在一些可选实施例中，所述基于所述多个特征向量，确定所述至少一个人物中每个人物的所述目标动作类型，包括：对该人物对应的多个特征向量分别进行归一化，得到每个特征向量的归一化值；将最大归一化值所对应的特征向量，作为该人物的目标特征向量；将所述目标特征向量所对应的动作类型作为该人物的所述目标动作类型。

在一些可选实施例中，所述对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型，包括：通过对象检测模型在所述场景图像上，确定每个对象的每个部位的目标位置后，对属于同一对象的不同部位的所述目标位置进行关联；再通过所述对象检测模型根据关联的不同部位的所述目标位置，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

在一些可选实施例中，所述对象检测模型是通过以下步骤训练的：确定样本图像集合中的标签类型；其中，所述标签类型包括人脸位置标签、人体位置标签、人脸位置和人体位置之间的关联关系标签、人体位置和动作类型之间的动作标识标签中的至少一种；采用所述样本图像集合，对预设模型中与所述标签类型对应的分支分别进行训练，得到所述对象检测模型。

在一些可选实施例中，对象检测模型至少包括定位分支、关联分支以及动作识别分支，所述定位分支用于确定所述每个人物的人脸位置和所述每个人物的人体位置；所述关联分支用于对属于同一人物的所述人脸位置和所述人体位置进行关联；所述动作识别分支用于根据关联的所述人脸位置和所述人体位置，确定该场景图像包括的至少一个人物和至少一个人物中每个人物对应的目标动作类型。

在一些可选实施例中，所述方法还包括：确定所述每个对象在设定时间段内做出的与所述目标动作类型匹配的动作的累计检测结果。

在一些可选实施例中，所述场景图像包括在教室中采集到的场景图像，所述对象包括教学对象，所述目标动作类型包括教学任务中的至少一个动作类型。

根据本公开实施例的第二方面，提供一种动作识别装置，所述装置包括：图像获取模块，用于获取场景图像；动作识别模块，用于对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

在一些可选实施例中，所述对象包括人物，所述对象的不同部位包括人物的人脸和人体；所述动作识别模块包括：特征提取模块，用于对所述场景图像进行特征提取，得到特征图；第一确定子模块，用于确定所述特征图中至少一个人脸位置和至少一个人体位置；第二确定子模块，用于根据所述至少一个人脸位置和/或所述至少一个人体位置，确定场景图像中包括的至少一个人物；关联子模块，用于对属于同一人物的所述人脸位置和所述人体位置进行关联；第三确定子模块，用于根据关联的所述人脸位置和所述人体位置，确定所述场景图像的所述至少一个人物中每个人物的所述目标动作类型。

在一些可选实施例中，所述关联子模块包括：第一确定单元，用于对于至少一个人物中的每个人物，确定与该人物的人脸位置对应的参考人体位置；关联单元，用于根据所述参考人体位置和所述至少一个人体位置，对属于所述同一人物的所述人脸位置和所述人体位置进行关联。

在一些可选实施例中，所述第一确定单元包括：在所述场景图像上，确定该人物的人脸位置在所述特征图上的第一坐标值；根据预设向量和所述第一坐标值，分别确定第二坐标值；其中，所述预设向量是由人脸所在位置指向人体所在位置的向量；将所述第二坐标值作为所述参考人体位置。

在一些可选实施例中，所述关联单元包括：将与所述参考人体位置距离最小的所述人体位置和该参考人体位置对应的所述人脸位置进行关联。

在一些可选实施例中，所述第二确定子模块包括：第二确定单元，用于对于一个至少一个人物中的每个人物，根据与该人物关联的所述人脸位置和所述人体位置，确定多个特征向量；第三确定单元，用于基于所述多个特征向量，确定所述至少一个人物中每个人物的所述目标动作类型。

在一些可选实施例中，所述第二确定单元包括：确定与至少一个预设动作类型分别对应且由所述人脸位置指向关联的所述人体位置的多个特征向量。

在一些可选实施例中，所述第三确定单元包括：对所述该人物对应的多个特征向量分别进行归一化，得到每个特征向量的归一化值；将最大归一化值所对应的特征向量，作为该人物的目标特征向量；将所述目标特征向量所对应的动作类型作为该人物的所述目标动作类型。

在一些可选实施例中，所述动作识别模块包括：第二关联子模块，用于通过对象检测模型在所述场景图像上，确定每个对象的每个部位的目标位置后，对属于同一对象的不同部位的所述目标位置进行关联；第三确定子模块，用于通过所述对象检测模型根据关联的不同部位的所述目标位置，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

在一些可选实施例中，所述装置还包括：标签类型确定模块，用于确定样本图像集合中的标签类型；其中，所述标签类型包括人脸位置标签、人体位置标签、人脸位置和人体位置之间的关联关系标签、人体位置和动作类型之间的动作标识标签中的至少一种；训练模块，用于采用所述样本图像集合，对预设模型中与所述标签类型对应的分支分别进行训练，得到所述对象检测模型。

在一些可选实施例中，所述装置还包括：匹配确定模块，用于确定所述每个对象在设定时间段内做出的与所述目标动作类型匹配的动作的累计检测结果。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行第一方面任一所述的动作识别方法。

根据本公开实施例的第四方面，提供一种动作识别装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现第一方面任一项所述的动作识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，可以对场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，从而确定该场景图像包括的至少一个对象和至少一个对象中每个对象的目标动作类型，上述动作识别时长与场景图像中所包括的对象的数目无关，不会因为对象数目的增长导致计算时长的增加，极大节省了计算资源，缩短了动作识别的时长，有效提高检测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种动作识别方法流程图；

图2是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图3是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图4是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图5是本公开根据一示例性实施例示出的预设向量示意图；

图6是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图7是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图8是本公开根据一示例性实施例示出的一种对象检测模型结构示意图；

图9是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图10是本公开根据一示例性实施例示出的对象检测模型训练场景示意图；

图11是本公开根据一示例性实施例示出的另一种动作识别方法流程图；

图12是本公开根据一示例性实施例示出的一种动作识别装置框图；

图13是本公开根据一示例性实施例示出的一种用于动作识别装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开实施例提供了一种动作识别方案，示例性的，可以适用于不同场景下的终端设备。不同的场景包括但不限于教室、播放广告的地点、或其他需要对至少一个对象进行动作识别的室内或室外场景，终端设备可以采用任意带摄像头的终端设备，或者，终端设备也可以外接摄像设备。终端设备对获取的场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，从而确定场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

例如在教室中，终端设备可以采用部署在教室内的带摄像头的教学多媒体设备，包括但不限于教学投影机、教室内的监控设备等。例如，终端设备获取教室中的场景图像，从而对教室内的对象进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，快速获得检测结果，该检测结果可以包括该场景图像包括的至少一个对象和每个对象的目标动作类型，目标动作类型可以包括举手、站立或进行其他互动动作。

再例如，终端设备可以获取电梯中的场景图像，该电梯正在播放广告，采用本公开实施例提供的方案，可以确定电梯播放广告时，电梯中的对象所对应的目标动作类型，目标动作类型可以包括但不限于转头、关注广告投放位置、侧身等。

示例性的，本公开实施例提供的动作识别方案还可以适用于不同场景下的云端服务器，该云端服务器可以设置外接摄像头，由外接摄像头采集场景图像，通过路由器或网关等设备发送给云端服务器，由云端服务器对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

例如，外接摄像头设置在教室中，外接摄像头采集教室内的场景图像后，通过路由器或网关等设备发送给云端服务器，云端服务器对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。进一步地，云端服务器可以根据需要可以将上述结果反馈到对应的教学任务分析服务器，从而提醒老师对教学内容进行调整，以便更好地进行教学活动。

再例如，在播放广告的地点，假设该地点是电梯，外接摄像头设置在电梯内，外接摄像头采集电梯中的场景图像，通过路由器或网关等设备可以将场景图像发送给云端服务器，云端服务器确定场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。后续可以根据需要将电梯中对象的目标动作统计结果反馈到对应的广告商服务器，由广告商对广告内容进行调整。

在本公开实施例中，还可以通过终端设备或云端服务器根据上述检测结果进行进一步处理，例如输出目标图像，在目标图像上标识出场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型，以便更好的了解当前场景下的对象和每个对象的动作类型。

另外，还可以通过终端设备或云端服务器确定场景图像包括的每个对象在设定时间段内做出的与目标动作类型匹配的动作的累计检测结果。

如果场景图像包括了在教室中采集的场景图像，对象包括教学对象，例如学生，目标动作类型可以包括教学任务中的至少一个动作类型。

例如，在教室内，老师正在进行教学，目标动作类型包括但不限于举手、起立回答问题、与老师互动、关注黑板、低头写字等。通过本公开的方案，可以在老师进行教学的时间段内，例如一堂课的时间段内，确定每个教学对象举了几次手、关注黑板的时长、低头写字的时长、起立回答问题的次数、与老师互动的次数等。进一步地，终端设备可以在获得累计检测结果之后进行显示，以便老师更好地进行教学任务，或者云端服务器在获得累计检测结果之后，发送给指定的终端设备进行显示，同样可以让老师更好地进行教学任务。

以上仅是对本公开适用的场景进行的举例说明，其他需要快速进行动作类型识别的室内或场景也属于本公开的保护范围。

例如图1所示，图1是根据一示例性实施例示出的一种动作识别方法，包括以下步骤：

在步骤101中，获取场景图像。

本公开实施例中，可以采集当前场景下的场景图像，本公开的场景包括但不限于任何需要对场景中的对象进行动作识别的场景，例如教室、播放广告的地点等。

在步骤102中，对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

在本公开实施例中，对象可以包括但不限于人物，不同部位可以包括但不限于人脸和人体，对场景图像进行对象的不同部位检测可以包括对场景图像进行人物的人脸位置和人体位置检测。同一对象中不同部位的关联可以是需要将属于同一个人物的人脸位置和人体位置关联起来。对象的动作识别可以是从至少一个预设动作类型中确定对场景图像包括的每个人物的目标动作类型。

其中，预设动作类型可以根据场景需要进行设定，包括但不限于举手、弯腰、跳跃、转身等等，或者预设动作类型也可以包括未进行任何动作的类型，例如人物保持之前的动作类型不变。

上述实施例中，对场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，从而确定该场景图像包括的至少一个对象和至少一个对象中每个对象的目标动作类型，由于无需对场景图像进行裁剪，而是直接通过使用神经网络对场景图像中的多个对象进行识别，上述动作识别时长与场景图像中所包括的对象的数目无关，不会因为对象数目的增长导致计算时长的增加，极大节省了计算资源，缩短了动作识别的时长，提高了检测效率。

在一些可选实施例中，步骤102可以包括：

对所述场景图像进行特征提取，获得特征图之后，对所述特征图进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别。

在本公开实施例中，可以通过预先训练好的神经网络主干模型(backbone)，来提取场景图像中的图像特征，得到特征图。该神经网络主干模型可以采用但不限于视觉几何群网络(Visual Geometry Group Network，VGG Net)等模型。

经过神经网络主干模型提取图像特征所得到的特征图的维度小于场景图像的维度。例如，将维度为640×480的场景图像输入该神经网络主干模型，可以得到维度为80×60的特征图。

其中，提取的图像特征可以包括但不限于颜色特征、纹理特征、形状特征等。颜色特征是一种全局特征，描述了图像所对应的对象的表面颜色属性，纹理特征也是一种全局特征，它描述了图像所对应对象的表面纹理属性，形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对对象的外边界，而图像的区域特征则关系到图像区域的形状。

上述实施例中，对场景图像进行特征提取得到特征图后，后续针对特征图进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，以便快速根据图像特征，确定场景图像所包括的至少一个对象和至少一个对象中每个对象的目标动作类型，实现简便，可用性高。

在一些可选实施例中，所述对象包括人物，所述对象的不同部位包括人物的人脸和人体，例如图2所示，步骤102可以包括：

在步骤102-0中，确定所述特征图中的至少一个人脸位置和至少一个人体位置。

本公开实施例中，可以通过区域预测网络检测场景图像对应的特征图上属于人脸的人脸区域和属于人体的人体区域。其中，人脸区域可以通过人脸识别框进行标识，人体区域可以通过人体识别框进行标识。进一步地，人脸识别框的大小可以通过人脸识别框的中心位置、人脸识别框的长度和宽度来确定，在本公开实施例中，该人脸位置可以用人脸识别框的中心位置来表示。同样地，人体识别框的大小可以通过人体识别框的中心位置、人体识别框的长度和宽度来确定，人体位置可以用人体识别框的中心位置来表示。

在本公开实施例中，可以通过不同的通道分别表示上述的人脸和人体的位置描述信息。例如，特征图的维度是80×60，确定每个人物的人脸区域和人体区域后，可以得到80×60×6的第一特征图，第一特征图的6个通道分别输出人脸识别框的中心位置、人脸识别框的长度、人脸识别框的宽度、人体识别框的中心位置、人体识别框的长度、人体识别框的宽度。

在可能的实施方式中，可以获取人脸识别框的中心位置和人体识别框的中心位置两个通道对应的第一特征图，从而分别确定人脸位置和人体位置。

在步骤102-1中，根据所述至少一个人脸位置和/或所述至少一个人体位置，确定场景图像中包括的至少一个人物。

在本公开实施例中，每个人物可以通过该人物对应的人脸和/或人体来表示，从而可以确定出场景图像包括的至少一个人物。

例如，可以通过人脸位置来确定人物所在位置，人脸位置可以是人脸识别框的中心位置，假设人脸位置包括A1、A2和A3，则可以确定特征图中包括3个人物，且每个人物所在的位置为A1、A2和A3。

在步骤102-2中，对属于同一人物的所述人脸位置和所述人体位置进行关联。

在本公开实施例中，在确定了每个人脸位置和每个人体位置之后，需要将属于同一个人物的人脸位置和人体位置进行关联，从而得到关联的人脸位置和人体位置。在本公开实施例中，需要关联的就是人脸识别框的中心位置和人体识别框的中心位置。

例如，在特征图上确定了2个人脸识别框的中心位置，分别为A1和A2，还确定了2个人体识别框的中心位置，分别为B1和B2，可以将人脸识别框的中心位置和人体识别框的中心位置关联起来，最终得到关联的人脸识别框的中心位置A1和人体识别框的中心位置B2，以及关联的人脸识别框的中心位置A2和人体识别框的中心位置B1。

在本公开实施例中，可以通过2个通道来分别表示人脸位置以及与人脸位置关联的人体位置。例如，特征图的维度是80×60，确定每个人物的人脸区域和人体区域后，得到维度为80×60×6的第一特征图，进一步地，对所述人脸位置和所述人体位置进行关联，得到维度为80×60×2的第二特征图。第二特征图包括2个通道，一个通道对应每个人物的人脸位置，另一个通道对应与人脸位置关联的人体位置。

在步骤102-3中，根据关联的所述人脸位置和所述人体位置，确定所述场景图像的所述至少一个人物中每个人物的所述目标动作类型。

另外，在本公开实施例中，还可以根据关联的所述人脸位置和所述人体位置，确定多个特征向量，这些特征向量是根据预设动作类型分别得到的，进而可以根据这些特征向量，来确定至少一个人物中每个人物的目标动作类型。目标动作类型可以是预设动作类型中的至少一种。假设预设动作类型的数目为n，则需要通过n个通道来分别对应不同的预设动作类型。预设动作类型中包括了多种人物可能进行的动作类型，也包括了人物没进行任何动作的动作类型。

例如，特征图的维度是80×60，确定每个人物的人脸位置和人体位置后，得到维度为80×60×6的第一特征图，进一步地，确定具备关联关系的所述人脸位置和所述人体位置后，得到维度为80×60×2的第二特征图。根据第二特征图，需要确定维度为80×60×n的第三特征图。根据第三特征图来确定最终的目标动作类型。

上述实施例中，可以在特征图上先确定人脸位置和人体位置，进一步地，将属于同一个人物的人脸位置和所述人体位置进行关联，从而根据关联的所述人脸位置和所述人体位置，确定所述场景图像包括的至少一个人物和所述至少一个人物中每个人物对应的目标动作类型。上述过程中，即使场景图像上包括多个人物，也可以快速确定每个人物对应的目标动作类型，降低了对设备计算能力的要求，减少了动作识别的时长，提高了设备的竞争力。

在一些可选实施例中，例如图3所示，步骤102-2可以包括：

在步骤102-21中，确定与所述同一人物的人脸位置对应的参考人体位置。

在本公开实施例中，可以根据一个人物的人脸识别框的中心位置，预测出与该人脸识别框的中心位置对应的最有可能的人体识别框的中心位置，将该位置作为参考人体位置。

在步骤102-22中，根据所述参考人体位置和所述人体位置，确定关联的所述人脸位置和所述人体位置。

在本公开实施例中，可以将每个参考人体位置与一个人体位置对应起来，这样，同一个参考人体位置的人脸位置和人体位置就进行了关联。

上述实施例中，可以先根据每个人物的所述人脸位置，确定与每个人脸位置对应的参考人体位置，从而将人脸位置和所述人体位置关联起来，实现简便，可用性高。

在一些可选实施例中，例如图4所示，步骤102-21可以包括：

在步骤201中，确定所述同一人物的人脸位置在所述场景图像上对应的第一坐标值。

在本公开实施例中，之前已经在场景图像对应的特征图上确定了每个人物的人脸位置，这里的人脸位置可以通过人脸识别框的中心位置表示。那么可以在该特征图对应的图像坐标系中，确定每个人脸识别框的中心位置对应的坐标值，该坐标值就是第一坐标值。

在步骤202中，根据预设向量和所述第一坐标值，确定第二坐标值。

在本公开实施例中，所述预设向量是预先设置的由人脸位置指向人体位置的向量，例如图5所示，预设向量可以由特征图中确定的人脸识别框的中心位置指向预估的人体识别框的中心位置。那么根据人脸位置的第一坐标值和预设向量，可以确定一个第二坐标值。

在步骤203中，将所述第二坐标值作为所述参考人体位置。

在本公开实施例中，将第二坐标值直接作为所述参考人体位置。

上述实施例中，可以根据每个人物的所述人脸位置和预设向量，确定与每个人脸位置对应的参考人体位置，以便后续将人脸位置和人体位置关联起来，可用性高。

在一些可选实施例中，步骤102-22可以包括：

将与所述参考人体位置距离最小的所述人体位置和该参考人体位置对应的所述人脸位置，作为具备关联关系的所述人脸位置和所述人体位置。

在本公开实施例中，确定了参考人体位置之后，多个人体位置中，距离该参考人体位置最近的人体位置与该参考人体位置对应的人脸位置，就是属于同一个人物的人脸位置和人体位置。相应地，就得到了关联的人脸位置和人体位置。

例如，参考人体位置包括C1和C2，其中，C1是根据人脸位置A1确定的，C2是根据人脸位置A2确定的。人体位置包括B1和B2，人体位置中距离C1最近的是B2，距离C2最近的是B1。从而可以确定A1和B2具备关联关系，A2和B1具备关联关系。

上述实施例中，可以在多个人体位置中，确定与每个参考人体位置最近的一个人体位置，这个人体位置与对应确定参考人体位置的人脸位置是关联的人体位置和人脸位置，实现简便，可用性高。

在本公开实施例中，需要说明地是，还可以根据每个人物的人体位置和另一个预设向量，来确定与每个人体位置对应的参考人脸位置，进一步地，将与参考人脸位置距离最小的人脸位置和该参考人脸位置对应的人体位置，作为具备关联关系的人脸位置和人体位置。其中，另一个预设向量可以是预先设置的由人体位置指向人脸位置的向量。确定参考人脸位置的方式与上述确定参考人体位置的方式相同，在此不再赘述。

在一些可选实施例中，例如图6所示，步骤102-3包括：

在步骤102-31中，将关联的所述人脸位置和所述人体位置中的至少一项，作为所述场景图像包括的每个人物所在的位置，确定所述场景图像包括的所述至少一个人物。

每个人物所在的位置可以通过该人物对应的人脸位置和/或人体位置来表示，从而可以确定出场景图像包括的人物。

在步骤102-32中，根据关联的所述人脸位置和所述人体位置，确定多个特征向量。

在本公开实施例中，按照预设动作类型，分别确定与至少一个预设动作类型分别对应且由所述人脸位置指向关联的所述人体位置的特征向量，得到对应同一个人物的所述多个特征向量。

在步骤102-33中，基于所述多个特征向量，确定所述每个人物对应的所述目标动作类型。

在本公开实施例中，可以根据上述多个特征向量，确定该人物最可能进行的动作类型，将这一动作类型作为目标动作类型。

在一些可选实施例中，例如图7所示，步骤102-33可以包括：

在步骤301中，对所述每个人物对应的多个特征向量进行归一化，得到每个特征向量对应的归一化值。

在本公开实施例中，可以采用归一化函数，例如softmax函数，对每个人物对应的多个特征向量进行归一化，从而得到每个特征向量对应的归一化值。

在步骤302中，将所述每个人物的最大归一化值所对应的特征向量，作为所述每个人物的目标特征向量。

在本公开实施例中，将每个人物对应的多个特征向量进行归一化后，最大归一化值所对应的特征向量，作为每个人物的目标特征向量。

在步骤303中，将所述目标特征向量所对应的动作类型作为所述每个人物对应的所述目标动作类型。

目标特征向量所对应的动作类型，就是该人物最有可能进行的动作类型，相应地，可以作为该人物的目标动作类型。

上述实施例中，通过对每个人物的多个特征向量进行归一化处理，确定每个人物最有可能进行的动作类型，将该动作类型作为目标动作类型，实现了对对象进行动作识别的目的。

在一些可选实施例中，在获取了场景图像之后，可以将所述场景图像输入预先训练好的对象检测模型，由所述对象检测模型在所述场景图像上，确定每个对象的每个部位的目标位置，然后对属于同一对象的不同部位的所述目标位置进行关联，根据关联的不同部位的所述目标位置，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

对象检测模型的结构例如图8所示，获取场景图像后，将场景图像输入对象检测模型，对象检测模型先采用预先训练好的神经网络主干模型backbone对场景图像进行特征提取，获得特征图。所述对象检测模型至少包括定位分支、关联分支以及动作识别分支。

进一步地，对象检测模型通过定位分支，在特征图上，确定每个人物的人脸位置和所述每个人物的人体位置。

再进一步地，对象检测模型通过关联分支对属于同一人物的所述人脸位置和所述人体位置进行关联。再通过动作识别分支根据关联的所述人脸位置和所述人体位置，确定该场景图像包括的至少一个人物和至少一个人物中每个人物对应的目标动作类型。

最终对象检测模型可以输出上述动作检测结果，该结果包括了该场景图像包括的至少一个人物和至少一个人物中每个人物对应的目标动作类型。

在一些可选实施例中，对象检测模型也可以直接输出目标图像，目标图像上可以同时标识出场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型，从而可以更加直观地反映对象检测结果。

上述实施例中，可以对场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，从而确定该场景图像包括的至少一个对象和至少一个对象中每个对象的目标动作类型，上述动作识别时长与场景图像中所包括的对象的数目无关，不会因为对象数目的增长导致计算时长的增加，极大节省了计算资源，缩短了动作识别的时长，有效提高检测效率。

在一些可选实施例中，在训练对象检测模型的过程中，考虑到同时标注了人脸位置标签、人体位置标签、人脸位置和人体位置的关联关系标签、人体位置和动作类型之间的动作标识标签的最优样本图像集合比较少，对只标注了部分标签的样本图像集合，标注出其他标签会花费较多时间。

为了解决这一问题，在本公开实施例中，例如图9所示，该方法还可以包括：

在步骤100-1中，确定样本图像集合中的标签类型。

在本公开实施例中，采用已有的样本图像集合，该样本图像集合中的样本图像所包括的所述标签类型包括人脸位置标签、人体位置标签、人脸位置和人体位置之间的关联关系标签、人体位置和动作类型之间的动作标识标签中的至少一种。

在步骤100-2中，采用所述样本图像集合，对预设模型中与各个所述标签类型对应的分支分别进行训练，得到所述对象检测模型。

在本公开实施例中，预设模型的结构同样可以如图8所示，包括定位分支、关联分支和动作识别分支。采用样本图像集合，对预设模型中与所述标签类型对应的分支分别进行训练，在对应的分支的损失函数最小的情况下，得到训练好的对象检测模型。

其中，定位分支中还可以包括人脸定位分支和人体定位分支(图9中未示出)。

例如图10所示，样本图像集合中的标签类型如果只包括人脸位置标签，那么采用该样本图像集合对预设模型的定位分支中的人脸定位分支进行训练。每次训练迭代，对于其他分支不做任何处理。即每次确定的损失函数与第一损失函数相同，第二损失函数、第三损失函数和第四损失函数例如可以设置为0。

如果样本图像集合中的标签类型只包括人体位置标签，那么采用该样本图像集合对预设模型的定位分支中的人体定位分支进行训练。如果样本图像集合中的标签类型同时包括了人脸位置标签和人体位置标签，则可以采用该样本图像集合直接对定位分支进行训练。

如果样本图像集合中的标签类型只包括关联关系标签，则可以采用该样本图像集合对预设模型的关联分支进行训练，其他分支对应的损失函数为0。

同样地，如果样本图像集合中的标签类型只包括动作识别标签，则可以采用该样本图像集合对预设模型的动作识别分支进行训练，其他分支对应的损失函数例如可以为0。

如果样本图像集合中的标签类别为两个或更多，则可以采用该样本图像集合对预设模型的对应分支进行训练，其他分支对应的损失函数例如可以为0。

上述实施例中，采用样本图像集合，对预设模型中与样本图像集合的所述标签类型对应的分支分别进行训练，得到所述对象检测模型，提高了对象检测模型的检测性能和泛化性能。

在一些可选实施例中，例如图11所示，该方法还可以包括：

在步骤103中，确定所述每个对象在设定时间段内做出的与所述目标动作类型匹配的动作的累计检测结果。

在本公开实施例中，所述场景图像包括在教室中采集到的场景图像，所述对象包括教学对象，所述目标动作类型包括教学任务中的至少一个动作类型，与教学任务匹配的动作类型包括但不限于举手、与老师互动、起立回答问题、关注黑板、低头写字等。

例如在教室中，可以采用部署在教室内的带摄像头的教学多媒体设备，包括但不限于教学投影机、教室内的监控设备等来获取在教室中采集到的场景图像。确定教室场景图像包括的至少一个教学对象和每个教学对象的目标动作类型，其中，教学对象可以是学生。

进一步地，可以在设定时间段内，例如老师教学的一堂课的时间段内，确定每个教学对象，例如每个学生做出的与目标动作类型匹配的动作的累计检测结果。例如，确定每个学生在一堂课内举了几次手、关注黑板的时长、低头写字的时长、起立回答问题的次数、与老师互动的次数等。可以通过教学多媒体设备显示上述结果，以便老师更好地进行教学任务。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图12所示，图12是本公开根据一示例性实施例示出的一种动作识别装置框图，装置包括：图像获取模块410，用于获取场景图像；动作识别模块420，用于对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一所述的动作识别方法。

在一些可选实施例中，本公开实施例提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的动作识别方法的指令。

在一些可选实施例中，本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的动作识别方法的操作。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例还提供了一种动作识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为调用所述存储器中存储的可执行指令，实现上述任一项所述的动作识别方法。

图13为本公开实施例提供的一种动作识别装置的硬件结构示意图。该动作识别装置510包括处理器511，还可以包括输入装置512、输出装置513和存储器514。该输入装置512、输出装置513、存储器514和处理器511之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图13仅仅示出了一种动作识别装置的简化设计。在实际应用中，动作识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本公开实施例的动作识别装置都在本公开的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

一种动作识别方法，其特征在于，包括：

获取场景图像；

对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。
根据权利要求1所述的方法，其特征在于，所述对象包括人物，所述对象的不同部位包括人物的人脸和人体；

所述对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型，包括：

对所述场景图像进行特征提取，得到特征图；

确定所述特征图中至少一个人脸位置和至少一个人体位置；

根据所述至少一个人脸位置和/或所述至少一个人体位置，确定场景图像中包括的至少一个人物；

对属于同一人物的所述人脸位置和所述人体位置进行关联；

根据关联的所述人脸位置和所述人体位置，确定所述场景图像的所述至少一个人物中每个人物的所述目标动作类型。
根据权利要求2所述的方法，其特征在于，所述对属于同一人物的所述人脸位置和所述人体位置进行关联，包括：

对于至少一个人物中的每个人物，

确定与该人物的人脸位置对应的参考人体位置；

根据所述参考人体位置和所述至少一个人体位置，对属于所述同一人物的所述人脸位置和所述人体位置进行关联。
根据权利要求3所述的方法，其特征在于，所述确定与该人物的人脸位置对应的参考人体位置，包括：

确定该人物的人脸位置在所述特征图上的第一坐标值；

根据预设向量和所述第一坐标值，确定第二坐标值；其中，所述预设向量是由人脸所在位置指向人体所在位置的向量；

将所述第二坐标值作为所述参考人体位置。
根据权利要求3或4所述的方法，其特征在于，所述根据所述参考人体位置和所述至少一个人体位置，对属于所述同一人物的所述人脸位置和所述人体位置进行关联，包括：

将与所述参考人体位置距离最小的所述人体位置和该参考人体位置对应的所述人脸位置进行关联。
根据权利要求2-5任一项所述的方法，其特征在于，所述根据关联的所述人脸位置和所述人体位置，确定所述场景图像的所述至少一个人物中每个人物的所述目标动作类型，包括：

对于至少一个人物中的每个人物，

根据与该人物关联的所述人脸位置和所述人体位置，确定多个特征向量；

基于所述多个特征向量，确定该人物的所述目标动作类型。
根据权利要求6所述的方法，其特征在于，所述根据与该人物关联的所述人脸位置和所述人体位置，确定多个特征向量，包括：

确定与至少一个预设动作类型分别对应且由所述人脸位置指向关联的所述人体位置的多个特征向量。
根据权利要求6或7所述的方法，其特征在于，所述基于所述多个特征向量，确定该人物的所述目标动作类型，包括：

对该人物对应的多个特征向量分别进行归一化，得到每个特征向量的归一化值；

将最大归一化值所对应的特征向量，作为该人物的目标特征向量；

将所述目标特征向量所对应的动作类型作为该人物的所述目标动作类型。
根据权利要求1-8任一项所述的方法，其特征在于，所述对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型，包括：

通过对象检测模型在所述场景图像上，确定每个对象的每个部位的目标位置后，对属于同一对象的不同部位的所述目标位置进行关联；

再通过所述对象检测模型根据关联的不同部位的所述目标位置，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。
根据权利要求9所述的方法，其特征在于，所述对象检测模型是通过以下步骤训练的：

确定样本图像集合中的标签类型；其中，所述标签类型包括人脸位置标签、人体位置标签、人脸位置和人体位置之间的关联关系标签、人体位置和动作类型之间的动作标识标签中的至少一种；

采用所述样本图像集合，对预设模型中与所述标签类型对应的分支分别进行训练，得到所述对象检测模型。
根据权利要求10所述的方法，其特征在于，所述对象检测模型至少包括定位分支、关联分支以及动作识别分支，

所述定位分支用于确定所述每个人物的人脸位置和所述每个人物的人体位置；

所述关联分支用于对属于同一人物的所述人脸位置和所述人体位置进行关联；

所述动作识别分支用于根据关联的所述人脸位置和所述人体位置，确定所述场景图像包括的至少一个人物和至少一个人物中每个人物对应的目标动作类型。
根据权利要求1-11任一项所述的方法，其特征在于，所述方法还包括：

确定所述每个对象在设定时间段内做出的与所述目标动作类型匹配的动作的累计检测结果。
根据权利要求12所述的方法，其特征在于，所述场景图像包括在教室中采集到的场景图像，所述对象包括教学对象，所述目标动作类型包括教学任务中的至少一个动作类型。
一种动作识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取场景图像；

动作识别模块，用于对所述场景图像进行对象的不同部位检测、同一对象中不同部位的关联以及对象的动作识别，确定所述场景图像包括的至少一个对象和所述至少一个对象中每个对象的目标动作类型。
一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-13任一所述的动作识别方法。
一种动作识别装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1-13中任一项所述的动作识别方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现权利要求1-13中任一项所述的动作识别方法。