WO2021196718A1

WO2021196718A1 - 关键点检测的方法和装置、电子设备、存储介质及计算机程序

Info

Publication number: WO2021196718A1
Application number: PCT/CN2020/135394
Authority: WO
Inventors: 金晟; 刘文韬; 钱晨
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-03-30
Filing date: 2020-12-10
Publication date: 2021-10-07
Also published as: TW202137053A; JP2022553990A; CN111444928A; TWI763205B

Abstract

一种关键点检测的方法和装置、电子设备、存储介质及计算机程序，该方法包括：确定包括目标对象的目标图像（S101）；对目标图像进行第一关键点检测，得到目标对象的关键位置信息；关键位置信息包括目标对象上的第一关键点信息，以及目标对象的至少一个目标部位对应的检测框的位置点信息（S102）；基于目标对象的至少一个目标部位中的每个目标部位对应的检测框的位置点信息，对每个目标部位在目标图像中的图像区域进行第二关键点检测，得到每个目标部位对应的第二关键点信息（S103）；基于第一关键点信息和第二关键点信息，确定目标对象的对象关键点信息（S104）。

Description

关键点检测的方法和装置、电子设备、存储介质及计算机程序

相关申请的交叉引用

本公开要求于2020年3月30日提交的、申请号为202010239542.X、发明名称为“关键点检测的方法、装置、电子设备及存储介质”的中国专利申请的优先权，该中国专利申请公开的全部内容以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种关键点检测的方法和装置、电子设备、存储介质及计算机程序。

背景技术

近年来，关键点检测在视频分析中起到至关重要的作用，比如，在安防领域内，可以通过检测视频或图像中目标对象的面部关键点，对该目标对象进行识别。

目前在虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)等应用场景中，需要对目标对象的多种关键点进行检测，以提高目标对象显示的真实性，比如，多种关键点可以包括肢体关键点、手势关键点、面部关键点等。

发明内容

第一方面，本公开提供了一种关键点检测的方法，包括：

确定包括目标对象的目标图像；

对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息；所述关键位置信息包括所述目标对象上的第一关键点信息，以及所述目标对象的至少一个目标部位对应的检测框的位置点信息；

基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息；

基于所述第一关键点信息和所述第二关键点信息，确定所述目标对象的对象关键点信息。

考虑到如果在目标图像的全图上直接进行目标对象的各个部位的检测，目标对象的各个部位的特征在全图中的占比较小，很难关注目标对象的细粒度的特征，导致检测精度较低，而本公开提出两个阶段的关键点检测，在从目标图像中定位出目标对象后，通过第一关键点检测定位出目标对象的第一关键点信息以及至少一个目标部位的检测框的位置点信息，然后分别针对各个目标部位的图像区域进行更为细粒度的第二关键点检测，从而可以得到更为准确的目标对象的对象关键点信息。

一种可能的实施方式中，所述对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息，包括：

对所述目标图像进行第一卷积处理，得到第一特征图；

基于所述第一特征图，确定所述目标对象的关键位置信息；

所述基于所述目标对象的每个所述目标部位分别对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息，包括：

基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述第一特征图中截取与每个所述目标部位对应的第二特征图；

基于所述第二特征图，确定每个所述目标部位对应的第二关键点信息。

上述实施方式中，通过从对目标图像进行卷积处理后得到的第一特征图中截取每个目标部位对应的第二特征图，在该第二特征图的基础上进行第二关键点检测，相比于从目标图像中截取每个目标部位对应的图像，再进行处理，可以减少特征处理的次数，减少关键点检测的运算量。

一种可能的实施方式中，根据以下步骤对目标特征图进行卷积处理，确定目标关键点信息，其中，在所述目标特征图为所述第一特征图的情况下，所述目标关键点信息为所述目标对象的关键位置信息，在所述目标特征图为所述第二特征图的情况下，所述目标关键点信息为所述目标部位对应的第二关键点信息：

对所述目标特征图进行多次特征处理，生成尺寸不同的多个中间特征图；

将所述多个中间特征图进行融合处理，得到融合特征图；

基于所述融合特征图，确定所述目标关键点信息。

上述实施方式中，通过对目标特征图进行多次特征处理，生成尺寸不同的多个中间特征图，不同尺寸的中间特征图对应的感受野不同，进而将多个中间特征图进行融合处理，得到融合特征图，得到的融合特征图中可以包括不同尺寸的中间特征图对应的特征，进而基于融合特征图确定目标关键点信息，从而可以提高关键点检测的准确度。

一种可能的实施方式中，所述对所述目标特征图进行多次特征处理，包括：根据以下步骤进行当前次特征处理：

针对进行当前次特征处理前的不同尺寸的特征图，分别进行至少一级卷积处理，得到不同尺寸的卷积特征图；

将所述不同尺寸的卷积特征图进行多种融合处理，得到当前次特征处理后的不同尺寸的特征图。

上述实施方式中，针对当前次特征处理，对不同尺寸的特征图进行至少一级卷积处理以及进行多种融合处理，得到当前次特征处理后的不同尺寸的特征图，其中，不同尺寸的特征图的感受野不同，进而不同尺寸的特征图包括的特征信息也不同，即得到的不同尺寸的特征图包括的特征信息较多，故可以为后续检测第一关键点信息或第二关键点信息提供较多的特征信息，提高了关键点检测的精确度。

一种可能的实施方式中，所述第一特征图包括多级第一特征图，不同级第一特征图为经过不同级卷积处理得到的，所述基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述第一特征图中截取与每个所述目标部位对应的第二特征图，包括：

基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述多级第一特征图中的不同级第一特征图中，分别截取与每个所述目标部位对应的第二特征图。

一种可能的实施方式中，所述目标对象包括人物，第一关键点至少分布在所述人物的四肢、头部上；

所述第一关键点的数量范围为5～25。

一种可能的实施方式中，所述目标部位包括人物的面部、脚部、手部中的至少一种；

在所述目标部位包括面部的情况下，面部对应的第二关键点至少分布在所述面部的脸部轮廓、眼睛、眉毛、鼻子、和嘴唇中的至少一个区域；

在所述目标部位包括脚部的情况下，脚部对应的第二关键点至少分布在所述脚部的至少一根脚趾、脚心以及脚跟中的至少一个区域；

在所述目标部位包括手部的情况下，手部对应的第二关键点至少分布在所述手部的至少一根手指、以及手心中的至少一个区域。

上述实施方式中，通过至少一种目标部位的检测，可以在不同的应用场景下，基于检测需求对不同目标部位进行细粒度的关键点检测。

一种可能的实施方式中，在所述目标部位包括面部的情况下，所述脸部轮廓上的第二关键点的数量范围为0～25，每个所述眼睛上的第二关键点的数量范围为0～10，每个所述眉毛上的第二关键点的数量范围为0～10，所述鼻子上的第二关键点的数量范围为0～15，所述嘴唇上的第二关键点的数量范围为0～15；

在所述目标部位包括脚部的情况下，所述脚部包括左脚和/或右脚；任一所述脚部的第二关键点的数量范围为1～10；

在所述目标部位包括手部的情况下，所述手部包括左手和/或右手；任一所述手部的第二关键点的数量范围为1～25。

一种可能的实施方式中，所述方法还包括：

基于确定的所述对象关键点信息，确定所述目标对象的动作类别信息，或者，基于确定的所述对象关键点信息，构建所述目标对象的三维模型。

在基于上述实施方式较准确地检测得到对象关键点信息后，应用该对象关键点信息就可以较准确地确定目标对象的动作类别信息或构建目标对象的三维模型。

一种可能的实施方式中，在所述目标部位包括面部时，所述方法还包括：

基于确定的所述对象关键点信息，确定所述目标对象的面部表情类别；

在所述目标部位包括手部时，所述方法还包括：

基于确定的所述对象关键点信息，确定所述目标对象的手势以及所述手势对应的类别。

在基于上述实施方式较准确地检测得到对象关键点信息后，应用该对象关键点信息就可以较准确地确定目标对象的面部表情类别或确定目标对象的手势以及手势类别。

以下装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第二方面，本公开提供了一种关键点检测的装置，包括：

图像确定模块，用于确定包括目标对象的目标图像；

第一检测模块，用于对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息；所述关键位置信息包括所述目标对象上的第一关键点信息，以及所述目标对象的至少一个目标部位对应的检测框的位置点信息；

第二检测模块，用于基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息；

关键点确定模块，用于基于所述第一关键点信息和所述第二关键点信息，确定所述目标对象的对象关键点信息。

一种可能的实施方式中，所述第一检测模块，在对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息时，用于：

对所述目标图像进行第一卷积处理，得到第一特征图；

基于所述第一特征图，确定所述目标对象的关键位置信息；

所述第二检测模块，在基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息时，用于：

一种可能的实施方式中，所述第一检测模块和所述第二检测模块，分别用于根据以下步骤对目标特征图进行卷积处理，确定目标关键点信息，其中，在所述目标特征图为所述第一特征图的情况下，所述目标关键点信息为所述目标对象的关键位置信息，且由所述第一检测模块执行以下步骤；在所述目标特征图为所述第二特征图的情况下，所述目标关键点信息为所述目标部位对应的第二关键点信息，且由所述第二检测模块执行以下步骤：

将所述多个中间特征图进行融合处理，得到融合特征图；

基于所述融合特征图，确定所述目标关键点信息。

一种可能的实施方式中，所述第一检测模块和所述第二检测模块，在对所述目标特征图进行多次特征处理时，分别用于：根据以下步骤进行当前次特征处理：

一种可能的实施方式中，所述第一特征图包括多级第一特征图，不同级第一特征图为经过不同级卷积处理得到的，所述第二检测模块，在基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述第一特征图中截取与每个所述目标部位对应的第二特征图时，用于：

所述第一关键点的数量范围为5～25。

在所述目标部位包括脚部的情况下，脚部对应的第二关键点至少分布在所述脚部的至少一根脚趾、脚心、以及脚跟中的至少一个区域；

一种可能的实施方式中，所述装置还包括：

确定模块，用于基于确定的所述对象关键点信息，确定所述目标对象的动作类别信息；

构建模块，用于基于确定的所述对象关键点信息，构建所述目标对象的三维模型。

一种可能的实施方式中，所述装置还包括：

表情识别模块，用于基于确定的所述对象关键点信息，确定所述目标对象的面部表情类别；

所述装置还包括：

手势识别模块，用于基于确定的所述对象关键点信息，确定所述目标对象的手势以及所述手势对应的类别。

第三方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时，使所述处理器执行如上述第一方面或任一实施方式所述的关键点检测的方法。

第四方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，使所述处理器执行如上述第一方面或任一实施方式所述的关键点检测的方法。

第五方面，本公开提供一种计算机程序，所述计算机程序被处理器执行时，使所述处理器执行如上述第一方面或任一实施方式所述的关键点检测的方法。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种关键点检测的方法的流程示意图；

图2示出了本公开实施例所提供的一种关键点检测的方法中，确定目标关键点信息的具体方法的流程示意图；

图3示出了本公开实施例所提供的一种关键点检测的方法中，对目标特征图进行多次特征处理的具体方法的流程示意图；

图4示出了本公开实施例所提供的一种关键点检测神经网络的结构示意图；

图5示出了本公开实施例所提供的一种关键点检测的装置的架构示意图；

图6示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、特征和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的特定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

通过对目标对象进行关键点检测，可以对目标对象进行动作、表情、手势等的识别。通常，在进行关键点检测时，可以分别通过不同的卷积神经网络对不同部位的关键点进行检测，比如，可以通过第一卷积神经网络对目标对象的肢体关键点进行检测，通过第二卷积神经网络对目标对象的面部关键点进行检测，通过第三卷积神经网络对目标对象的手部关键点进行检测等。利用上述方式对目标对象的多种关键点进行检测时，需要的卷积神经网络模型的数量较多，使得关键点检测过程中的计算量较大，进而导致关键点的检测效率较低。

或者，可以通过增加关键点的数量以及类型，实现对目标对象的多种关键点的检测。示例性的，可以通过关键点神经网络，得到包含肢体、面部、手部等的关键点。但是，由于手部区域、面部区域相对肢体区域的面积较小，使得这种方式得到的手部、面部等的关键点的精度较差。

因此，为了提高关键点检测的效率以及精度，本公开实施例提供了一种关键点检测的方法。

为便于对本公开实施例进行理解，首先对本公开实施例所提供的一种关键点检测的方法进行详细介绍。

参见图1所示，为本公开实施例所提供的关键点检测的方法的流程示意图，该方法包括：

步骤S101，确定包括目标对象的目标图像；

步骤S102，对目标图像进行第一关键点检测，得到目标对象的关键位置信息；关键位置信息包括目标对象上的第一关键点信息，以及目标对象的至少一个目标部位对应的检测框的位置点信息；

步骤S103，基于目标对象的至少一个目标部位中的每个目标部位对应的检测框的位置点信息，对每个目标部位在目标图像中的图像区域进行第二关键点检测，得到每个目标部位对应的第二关键点信息；

步骤S104，基于第一关键点信息和第二关键点信息，确定目标对象的对象关键点信息。

以下对步骤S101-S104进行说明。

针对步骤S101：

本公开实施例中，目标对象可以为人物、动物等，即目标图像可以为包括人物、动物等的图像。示例性的，可以获取初始图像，并可以将初始图像确定为目标图像，该初始图像中可以包括一个或多个目标对象；或者，也可以通过对象检测神经网络对初始图像进行对象检测，得到初始图像中包括的每个目标对象的检测框，根据每个目标对象的检测框，从初始图像中截取每个目标对象对应的区域图像。进一步的，可以将每个目标对象对应的区域图像作为该目标对象对应的目标图像，或者，也可以将每个目标对象对应的区域图像的尺寸调整为第一预设尺寸，将尺寸调整后的区域图像作为每个目标对象对应的目标图像。

针对步骤S102以及步骤S103：

这里，可以通过关键点检测神经网络对目标图像进行检测，得到目标图像对应的对象关键点信息。示例性的，关键点检测神经网络可以包括第一关键点检测网络、以及至少一个第二关键点检测网络等。

其中，可以通过关键点检测神经网络中的第一关键点检测网络对目标图像进行第一关键点检测，得到目标对象的关键位置信息，该关键位置信息包括目标对象上的第一关键点信息以及目标对象的至少一个目标部位对应的检测框的位置点信息。其中，第一关键点信息可以包括但不限于目标对象的关键点在图像坐标系中的坐标位置，目标部位对应的检测框的位置点信息可以包括但不限于目标部位对应的检测框的至少一个位置点在图像坐标系中的坐标位置。

示例性的，在目标对象包括人物的情况下，第一关键点可以至少分布在人物的四肢、头部上。目标部位可以包括人物的面部、脚部、手部中的至少一种；其中，在目标部位包括面部的情况下，面部对应的第二关键点至少分布在面部的脸部轮廓、眼睛、眉毛、鼻子、和嘴唇中的至少一个区域；在目标部位包括脚部的情况下，脚部对应的第二关键点至少分布在脚部的至少一根脚趾、脚心以及脚跟中的至少一个区域；在目标部位包括手部的情况下，手部对应的第二关键点至少分布在手部的至少一根手指、以及手心中的至少一个区域。通过至少一种目标部位的检测，可以在不同的应用场景下，基于检测需求对不同目标部位进行细粒度的关键点检测。

这里，在目标对象包括人物的情况下，目标部位的类型和数量可以根据实际情况进行确定，比如，目标部位可以包括面部和手部，或者，目标部位也可以包括面部和脚部，或者，目标部位还可以包括面部、手部和脚部。进一步的，各目标部位可以有对应的第二关键点检测网络，具体可根据目标部位的情况，来确定使用的第二关键点检测网络的种类。

示例性的，目标部位可以包括人物的面部、脚部、手部，则至少一个第二关键点检测网络可以包括面部第二关键点检测网络、脚部第二关键点检测网络、手部第二关键点检测网络。进而可以基于面部对应的检测框的位置点信息，确定面部对应的图像区域，再通过面部第二关键点检测网络对面部对应的图像区域进行关键点检测，得到目标对象上面部对应的第二关键点信息。

示例性的，脚部第二关键点检测网络可以为左脚第二关键点检测网络和/或右脚第二关键点检测网络，手部第二关键点检测网络可以为左手第二关键点检测网络和/或右手第二关键点检测网络。

一种可能的实施方式中，在手部第二关键点检测网络为左手第二关键点检测网络的情况下，可以基于左手对应的检测框的位置点信息，确定左手对应的图像区域，再通过左手第二关键点检测网络对左手对应的图像区域进行关键点检测，得到目标对象上左手对应的第二关键点信息；并基于右手对应的检测框的位置点信息，确定右手对应的图像区域，将右手对应的图像区域进行水平翻转处理，并将水平翻转处理后的右手对应的图像区域输入至左手第二关键点检测网络，得到水平翻转处理后的图像区域对应的第二关键点信息，将得到的第二关键点信息再进行水平翻转处理，得到右手对应的第二关键点信息。脚部的第二关键点信息的确定过程可参考手部的第二关键点信息的确定过程，此处不再进行赘述。

一种可选实施方式中，对目标图像进行第一关键点检测，得到目标对象的关键位置信息，包括：对目标图像进行第一卷积处理，得到第一特征图；基于第一特征图，确定目标对象的关键位置信息。

基于目标对象的至少一个目标部位中的每个目标部位对应的检测框的位置点信息，对每个目标部位在目标图像中的图像区域进行第二关键点检测，得到每个目标部位对应的第二关键点信息，包括：基于目标对象的每个目标部位对应的检测框的位置点信息，从第一特征图中截取与每个目标部位对应的第二特征图；基于第二特征图，确定每个目标部位对应的第二关键点信息。

示例性的，可以将得到的第二特征图的尺寸调整为第二预设尺寸，得到调整后的第二特征图；基于调整后的第二特征图，确定每个目标部位对应的第二关键点信息。

这里，关键点检测神经网络还可以包括至少一级卷积神经网络，通过关键点检测神经网络中包括的至少一级卷积神经网络对目标图像进行第一卷积处理，得到第一特征图，将第一特征图输入至第一关键点检测网络中，得到目标对象的关键位置信息。在目标部位包括面部、手部、脚部时，得到的关键位置信息中包括第一关键点信息、以及面部对应的检测框的位置点信息、手部对应的检测框的位置点信息、脚部对应的检测框的位置点信息。示例性的，位置点信息可包括检测框的四个顶点的位置信息和/或中心点的位置信息等。

进一步的，可以根据每个目标部位对应的检测框的位置点信息，从第一特征图中截取与该目标部位对应的第二特征图；将该目标部位对应的第二特征图输入至该目标部位对应的第二关键点检测网络中进行关键点检测，得到该目标部位对应的第二关键点信息。比如，基于面部对应的检测框的位置点信息，从第一特征图中截取与面部对应的第二特征图，并将该面部对应的第二特征图输入至面部第二关键点检测网络中进行面部关键点检测，得到面部对应的第二关键点信息。

示例性的，可以基于目标对象的每个目标部位对应的检测框的位置点信息以及RoIAlign技术，从第一特征图中截取与每个目标部位对应的第二特征图。比如，可以基于每个目标部位对应的检测框的位置点信息，利用RoIAlign技术，确定检测框的每个位置点信息在第一特征图上对应的目标位置信息，进而基于确定的每个目标部位对应的检测框的目标位置信息，从第一特征图中截取与该目标部位对应的第二特征图。

本公开实施例中，通过从对目标图像进行卷积处理后得到的第一特征图中截取每个目标部位对应的第二特征图，在该第二特征图的基础上进行第二关键点检测，相比于从目标图像中截取每个目标部位对应的图像，再进行处理，可以减少特征处理的次数，减少关键点检测的运算量。

一种可选实施例中，第一特征图可以包括多级第一特征图，不同级第一特征图为经过不同级卷积处理得到的。比如，关键点检测神经网络包括的至少一级卷积神经网络可以为三级卷积神经网络，即第一级卷积神经网络、第二级卷积神经网络、第三级卷积神经网络，可以将目标图像依次输入至第一级卷积神经网络和第二级卷积神经网络中进行卷积处理，得到第一级第一特征图，再将第一级第一特征图输入至第三级卷积神经网络中进行卷积处理，得到第二级第一特征图。其中，关键点检测神经网络包括的至少一级卷积神经网络的级数可以根据实际需要进行设置，例如，关键点检测神经网络包括的至少一级卷积神经网络可以为五级卷积神经网络、或者十级卷积神经网络等；得到第一级第一特征图的卷积次数和得到第二级第一特征图的卷积次数可以根据实际需要进行设置。

在第一特征图包括多级第一特征图时，基于目标对象的每个目标部位对应的检测框的位置点信息，从第一特征图中截取与每个目标部位对应的第二特征图，可以包括：基于目标对象的每个目标部位对应的检测框的位置点信息，从多级第一特征图中的不同级第一特征图中，分别截取与每个目标部位对应的第二特征图。

这里，在多级第一特征图包括第一级第一特征图以及第二级第一特征图时，可以基于目标对象的每个目标部位对应的检测框的位置点信息以及RoIAlign技术，确定每个目标部位对应的检测框的位置点信息在第一级第一特征图上的目标位置信息以及在第二级第一特征图上的目标位置信息；并基于每个目标部位对应的检测框的位置点信息在第一级第一特征图上的目标位置信息，从第一级第一特征图上截取与目标部位对应的第一级第二特征图，以及基于每个目标部位对应的检测框的位置点信息在第二级第一特征图上的目标位置信息，从第二级第一特征图上截取与目标部位对应的第二级第二特征图。

示例性的，参见图2所示，可以根据以下步骤对目标特征图进行卷积处理，确定目标关键点信息，其中，在目标特征图为第一特征图的情况下，目标关键点信息为目标对象的关键位置信息，在目标特征图为第二特征图的情况下，目标关键点信息为目标部位对应的第二关键点信息：

步骤S201，对目标特征图进行多次特征处理，生成尺寸不同的多个中间特征图。

步骤S202，将多个中间特征图进行融合处理，得到融合特征图。

步骤S203，基于融合特征图，确定目标关键点信息。

这里，多个中间特征图的尺寸可以与预设的比例相符，比如，多个中间特征图包括三个中间特征图，预设的比例为1:2:4，则三个中间特征图的尺寸的比例可以为1:2:4。示例性的，可以通过卷积神经网络将多个中间特征图的尺寸调整为一致，再将尺寸调整后的多个中间特征图进行融合处理，得到融合特征图。进一步的，对融合特征图进行分析处理，得到目标关键点信息。

一种可选实施方式中，参见图3所示，对目标特征图进行多次特征处理，包括：根据以下步骤进行当前次特征处理：

步骤S301，针对进行当前次特征处理前的不同尺寸的特征图，分别进行至少一级卷积处理，得到不同尺寸的卷积特征图；

步骤S302，将不同尺寸的卷积特征图进行多种融合处理，得到当前次特征处理后的不同尺寸的特征图。

对步骤S301进行说明，至少一级卷积处理后得到的卷积特征图的尺寸与至少一级卷积处理前的特征图的尺寸可以相同，也可以不同。同时，至少一级卷积处理后得到的不同尺寸的卷积特征图的尺寸也存在比例关系。

对步骤S302进行说明，示例性的，若不同尺寸的卷积特征图包括第一尺寸的第一卷积特征图、第二尺寸的第二卷积特征图以及第三尺寸的第三卷积特征图，则将不同尺寸的卷积特征图进行多种融合处理可以包括：可以分别将第二卷积特征图以及第三卷积特征图的尺寸调整为第一尺寸，并将第一卷积特征图、尺寸调整后的第二卷积特征图、以及尺寸调整后的第三卷积特征图进行特征融合处理，得到当前次特征处理后的第一尺寸的特征图；可以分别将第一卷积特征图以及第三卷积特征图的尺寸调整为第二尺寸，并将尺寸调整后的第一卷积特征图、第二卷积特征图、以及尺寸调整后的第三卷积特征图进行特征融合处理，得到当前次特征处理后的第二尺寸的特征图；以及可以分别将第一卷积特征图以及第二卷积特征图的尺寸调整为第三尺寸，并将尺寸调整后的第一卷积特征图、尺寸调整后的第二卷积特征图、以及第三卷积特征图进行特征融合处理，得到当前次特征处理后的第三尺寸的特征图。其中，当前次特征处理后的第一尺寸的特征图、第二尺寸的特征图以及第三尺寸的特征图即为当前次特征处理后的不同尺寸的特征图。

这里，对关键点检测的方法的过程进行举例说明，比如，可以通过关键点检测神经网络对目标图像进行检测，得到目标图像对应的对象关键点信息。其中，在目标部位包括面部以及手部的情况下，关键点检测神经网络的结构示意图如图4所示。

由图4可知，关键点检测神经网络包括第一关键点检测网络41、面部第二关键点检测网络42、以及手部第二关键点检测网络43。

具体的，将目标图像F0输入至关键点检测神经网络中，通过至少一级卷积神经网络对目标图像F0进行特征提取，得到第一级第一特征图F1，将第一级第一特征图F1再经过至少一级卷积神经网络进行特征提取，得到第二级第一特征图F2。其中，第一级第一特征图F1与第二级第一特征图F2的尺寸可以相同，也可以不同。

再将第二级第一特征图F2输入至第一关键点检测网络41中，通过至少一级卷积神经网络对第二级第一特征图F2进行特征提取，得到特征图F3，将特征图F3进行至少一级卷积处理得到特征图F41，并将特征图F3进行下采样处理或者卷积处理得到特征图F42，其中，特征图F41与特征图F42的尺寸存在比例关系，比如，特征图F41的尺寸与特征图F42的尺寸之间的比例可以为2:1。

再分别将特征图F41、以及特征图F42进行至少一级卷积处理，得到对应的卷积特征图F51、以及卷积特征图F52；其中，卷积特征图F51的尺寸可以与特征图F41的尺寸相同，以及卷积特征图F52的尺寸可以与特征图F42的尺寸相同。

再将卷积特征图F51和卷积特征图F52进行多种融合处理，得到特征图F61、特征图F62、特征图F63，其中，特征图F61的尺寸可以与卷积特征图F51的尺寸相同，特征图F62的尺寸可以与卷积特征图F52的尺寸相同；特征图F61、特征图F62、以及特征图F63之间的尺寸比例可以为4：2：1。具体的，多种融合处理的过程可以为：调整卷积特征图F52的尺寸，使得调整后的卷积特征图F52的尺寸与卷积特征图F51的尺寸相同，将卷积特征图F51与尺寸调整后的卷积特征图F52进行特征融合处理，得到特征图F61；调整卷积特征图F51的尺寸，使得调整后的卷积特征图F51的尺寸与卷积特征图F52的尺寸相同，将卷积特征图F52与尺寸调整后的卷积特征图F51进行特征融合处理，得到特征图F62；调整卷积特征图F51和卷积特征图F52的尺寸，使得调整后的卷积特征图F51以及卷积特征图F52的尺寸为预设尺寸(即，特征图F63对应的尺寸)，将尺寸调整后的卷积特征图F51与卷积特征图F52进行特征融合处理，得到特征图F63。

其中，对特征图的尺寸进行调整的方式包括但不限于上采样处理方式、下采样处理方式、卷积处理方式等；特征融合处理过程可以为将特征图以级联的方式融合，或者将特征图通过卷积神经网络进行融合，或者将特征图级联之后输入至卷积神经网络中进行融合等。这里，特征图尺寸调整的方式以及特征融合处理的方式有多种，此处不进行具体限定。

这里，通过特征图F61、特征图F62、以及特征图F63，得到卷积特征图F71、卷积特征图F72、以及卷积特征图F73的过程，可参考得到卷积特征图F51、卷积特征图F52的过程，此处不再赘述。通过对卷积特征图F71、卷积特征图F72、卷积特征图F73进行多种融合处理，得到特征图F81、特征图F82、特征图F83、以及特征图F84的过程，可参考得到特征图F61、特征图F62、以及特征图F63的过程，此处不再进行赘述。

最后将特征图F81、特征图F82、特征图F83、以及特征图F84分别进行至少一级卷积处理，得到对应的中间特征图，再将中间特征图进行特征融合处理，得到融合特征图，最后基于融合特征图，确定关键位置信息，关键位置信息中包括第一关键点信息、以及面部对应的检测框的位置点信息、手部对应的检测框的位置点信息。

进一步的，可以基于手部对应的检测框的位置点信息，从第一级第一特征图F1与第二级第一特征图F2中，分别得到手部对应的第一级第二特征图F12与第二级第二特征图F22，将手部对应的第一级第二特征图F12与第二级第二特征图F22输入至手部第二关键点检测网络43中进行处理，得到手部的第二关键点信息。其中，手部第二关键点检测网络43的处理过程可参考第一关键点检测网络41的处理过程，此处不再进行赘述。

同时，可以基于面部对应的检测框的位置点信息，从第一级第一特征图F1与第二级第一特征图F2中，分别得到面部对应的第一级第二特征图F13与第二级第二特征图F23，将面部对应的第一级第二特征图F13与第二级第二特征图F23输入至面部第二关键点检测网络42中进行处理，得到面部的第二关键点信息。其中，面部第二关键点检测网络42的处理过程可参考第一关键点检测网络41的处理过程，此处不再进行赘述。

这里，第一关键点检测网络41、面部第二关键点检测网络42、以及手部第二关键点检测网络43的结构仅为示例性说明。

针对步骤S104：

这里，目标对象的对象关键点信息包括第一关键点信息以及每个目标部位对应的第二关键点信息。

示例性的，第一关键点的数量范围可以为5～25；在目标部位包括面部的情况下，面部中包括的脸部轮廓上的第二关键点的数量范围可以为0～25，每个眼睛上的第二关键点的数量范围可以为0～10，每个眉毛上的第二关键点的数量范围可以为0～10，鼻子上的第二关键点的数量范围可以为0～15，嘴唇上的第二关键点的数量范围可以为0～15；在目标部位包括脚部的情况下，脚部包括左脚和/或右脚，任一脚部的第二关键点的数量范围可以为1～10；在目标部位包括手部的情况下，手部包括左手和/或右手，任一手部的第二关键点的数量范围可以为1～25。

这里，第一关键点的数量和各目标部位对应的第二关键点的数量可以根据实际检测场景和对于检测精度的需求进行确定。以下仅为示例性说明，第一关键点的数量可以为15个，可以分布在人体的四肢关节位置以及头部轮廓上。在目标部位包括面部的情况下，面部对应的第二关键点的数量可以为6个，可以分布于面部的五官上，即分布于面部的双眼、双眉、鼻子以及嘴唇上。在目标部位包括脚部的情况下，脚部包括左脚和/或右脚，任一脚部的第二关键点的数量可以为2个，分布于脚跟以及中脚趾上；即左脚的第二关键点的数量可以为2个，和/或右脚的第二关键点的数量可以为2个。在目标部位包括手部的情况下，手部包括左手和/或右手，任一手部上的第二关键点的数量可以为6个，分布于手掌中心位置以及每根手指的指端上；即左手的第二关键点的数量可以为6个，和/或右手的第二关键点的数量可以为6个。

一种可选实施方式中，该方法还包括：

基于确定的对象关键点信息，确定目标对象的动作类别信息，或者，基于确定的对象关键点信息，构建目标对象的三维模型。

示例性的，在确定目标对象的对象关键点信息之后，可以将对象关键点信息输入至动作检测神经网络中，得到该目标对象的动作类别信息。或者，可以将对象关键点信息输入至三维模型构建软件中，构建目标对象的三维模型。

一种可选实施方式中，在目标部位包括面部时，该方法还包括：

基于确定的对象关键点信息，确定目标对象的面部表情类别。

示例性的，可以将确定的对象关键点信息输入至面部识别神经网络中，识别得到目标对象的面部表情类别。

在目标部位包括手部时，该方法还包括：

基于确定的对象关键点信息，确定目标对象的手势以及手势对应的类别。

示例性的，可以将确定的对象关键点信息输入至手势识别神经网络中，识别得到目标对象的手势以及手势类别。

在基于上述实施方式较准确地检测得到对象关键点信息后，应用该对象关键点信息就可以较准确地确定目标对象的面部表情类别和/或确定目标对象的手势以及手势类别。

本领域技术人员可以理解，在上述方法中，各步骤的顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当由其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种关键点检测的装置，参见图5所示，为本公开实施例提供的关键点检测的装置的架构示意图，所述装置包括图像确定模块501、第一检测模块502、第二检测模块503、关键点确定模块504、确定模块505、构建模块506、表情识别模块507、手势识别模块508，具体的：

图像确定模块501，用于确定包括目标对象的目标图像；

第一检测模块502，用于对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息；所述关键位置信息包括所述目标对象上的第一关键点信息，以及所述目标对象的至少一个目标部位对应的检测框的位置点信息；

第二检测模块503，用于基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息；

关键点确定模块504，用于基于所述第一关键点信息和所述第二关键点信息，确定所述目标对象的对象关键点信息。

一种可能的实施方式中，所述第一检测模块502，在对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息时，用于：

对所述目标图像进行第一卷积处理，得到第一特征图；

基于所述第一特征图，确定所述目标对象的关键位置信息；

所述第二检测模块503，在基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息时，用于：

一种可能的实施方式中，所述第一检测模块502和所述第二检测模块503，分别用于根据以下步骤对目标特征图进行卷积处理，确定目标关键点信息，其中，在所述目标特征图为所述第一特征图的情况下，所述目标关键点信息为所述目标对象的关键位置信息，且由所述第一检测模块502执行以下步骤；在所述目标特征图为所述第二特征图的情况下，所述目标关键点信息为所述目标部位对应的第二关键点信息，且由所述第二检测模块503执行以下步骤：

将所述多个中间特征图进行融合处理，得到融合特征图；

基于所述融合特征图，确定所述目标关键点信息。

一种可能的实施方式中，所述第一检测模块502和所述第二检测模块503，在对所述目标特征图进行多次特征处理时，分别用于：根据以下步骤进行当前次特征处理：

一种可能的实施方式中，所述第一特征图包括多级第一特征图，不同级第一特征图为经过不同级卷积处理得到的，所述第二检测模块503，在基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述第一特征图中截取与每个所述目标部位对应的第二特征图时，用于：

一种可能的实施方式中，所述目标对象包括人物，第一关键点可以至少分布在所述人物的四肢、头部上；

所述第一关键点的数量范围为5～25。

一种可能的实施方式中，所述目标部位可以包括人物的面部、脚部、手部中的至少一种；

一种可能的实施方式中，所述装置还包括：

确定模块505，用于基于确定的所述对象关键点信息，确定所述目标对象的动作类别信息；

构建模块506，用于基于确定的所述对象关键点信息，构建所述目标对象的三维模型。

一种可能的实施方式中，所述装置还包括：

表情识别模块507，用于基于确定的所述对象关键点信息，确定所述目标对象的面部表情类别；

所述装置还包括：

手势识别模块508，用于基于确定的所述对象关键点信息，确定所述目标对象的手势以及所述手势对应的类别。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图6所示，为本公开实施例提供的电子设备600的结构示意图，电子设备600包括处理器601、存储器602、和总线603。其中，存储器602用于存储处理器601可执行的机器可读指令，包括内存6021和外部存储器6022；这里的内存6021也称内存储器，用于暂时存放处理器601中的运算数据，以及与硬盘等外部存储器6022交换的数据，处理器601通过内存6021与外部存储器6022进行数据交换，当电子设备600运行时，处理器601与存储器602之间通过总线603通信，所述机器可读指令被处理器601执行时，使得处理器601执行以下步骤：

确定包括目标对象的目标图像；

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，使所述处理器执行上述方法实施例中所述的关键点检测的方法。

本公开实施例还提供一种计算机程序，所述计算机程序被处理器执行时，使所述处理器执行上述方法实施例中所述的关键点检测的方法。

本公开实施例所提供的关键点检测的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的关键点检测的方法，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开实施例的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失性的计算机可读存储介质中。基于这样的理解，本公开实施例本质上或者说本公开实施例的全部或部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

一种关键点检测的方法，包括：

确定包括目标对象的目标图像；

对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息；所述关键位置信息包括所述目标对象上的第一关键点信息，以及所述目标对象的至少一个目标部位对应的检测框的位置点信息；

基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息；

基于所述第一关键点信息和所述第二关键点信息，确定所述目标对象的对象关键点信息。
根据权利要求1所述的方法，其中，所述对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息，包括：

对所述目标图像进行第一卷积处理，得到第一特征图；

基于所述第一特征图，确定所述目标对象的关键位置信息；

所述基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息，包括：

基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述第一特征图中截取与每个所述目标部位对应的第二特征图；

基于所述第二特征图，确定每个所述目标部位对应的第二关键点信息。
根据权利要求2所述的方法，其中，根据以下步骤对目标特征图进行卷积处理，确定目标关键点信息，其中，在所述目标特征图为所述第一特征图的情况下，所述目标关键点信息为所述目标对象的关键位置信息，在所述目标特征图为所述第二特征图的情况下，所述目标关键点信息为所述目标部位对应的第二关键点信息：

对所述目标特征图进行多次特征处理，生成尺寸不同的多个中间特征图；

将所述多个中间特征图进行融合处理，得到融合特征图；

基于所述融合特征图，确定所述目标关键点信息。
根据权利要求3所述的方法，其中，所述对所述目标特征图进行多次特征处理，包括：根据以下步骤进行当前次特征处理：

针对进行当前次特征处理前的不同尺寸的特征图，分别进行至少一级卷积处理，得到不同尺寸的卷积特征图；

将所述不同尺寸的卷积特征图进行多种融合处理，得到当前次特征处理后的不同尺寸的特征图。
根据权利要求2至4任一所述的方法，其中，所述第一特征图包括多级第一特征图，不同级第一特征图为经过不同级卷积处理得到的，所述基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述第一特征图中截取与每个所述目标部位对应的第二特征图，包括：

基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，从所述多级第一特征图中的不同级第一特征图中，分别截取与每个所述目标部位对应的第二特征图。
根据权利要求1至5任一所述的方法，其中，所述目标对象包括人物，第一关键点至少分布在所述人物的四肢、头部上；

所述第一关键点的数量范围为5～25。
根据权利要求1至6任一所述的方法，其中，所述目标部位包括人物的面部、脚部、手部中的至少一种；

在所述目标部位包括面部的情况下，面部对应的第二关键点至少分布在所述面部的脸部轮廓、眼睛、眉毛、鼻子、和嘴唇中的至少一个区域；

在所述目标部位包括脚部的情况下，脚部对应的第二关键点至少分布在所述脚部的至少一根脚趾、脚心、以及脚跟中的至少一个区域；

在所述目标部位包括手部的情况下，手部对应的第二关键点至少分布在所述手部的至少一根手指、以及手心中的至少一个区域。
根据权利要求7所述的方法，其中，

在所述目标部位包括面部的情况下，所述脸部轮廓上的第二关键点的数量范围为0～25，每个所述眼睛上的第二关键点的数量范围为0～10，每个所述眉毛上的第二关键点的数量范围为0～10，所述鼻子上的第二关键点的数量范围为0～15，所述嘴唇上的第二关键点的数量范围为0～15；

在所述目标部位包括脚部的情况下，所述脚部包括左脚和/或右脚；任一所述脚部的第二关键点的数量范围为1～10；

在所述目标部位包括手部的情况下，所述手部包括左手和/或右手；任一所述手部的第二关键点的数量范围为1～25。
根据权利要求1-8任一所述的方法，所述方法还包括：

基于确定的所述对象关键点信息，确定所述目标对象的动作类别信息，或者，基于确定的所述对象关键点信息，构建所述目标对象的三维模型。
根据权利要求1-8任一所述的方法，其中，在所述目标部位包括面部时，所述方法还包括：基于确定的所述对象关键点信息，确定所述目标对象的面部表情类别；

在所述目标部位包括手部时，所述方法还包括：基于确定的所述对象关键点信息，确定所述目标对象的手势以及所述手势对应的类别。
一种关键点检测的装置，包括：

图像确定模块，用于确定包括目标对象的目标图像；

第一检测模块，用于对所述目标图像进行第一关键点检测，得到所述目标对象的关键位置信息；所述关键位置信息包括所述目标对象上的第一关键点信息，以及所述目标对象的至少一个目标部位对应的检测框的位置点信息；

第二检测模块，用于基于所述目标对象的每个所述目标部位对应的检测框的位置点信息，对每个所述目标部位在所述目标图像中的图像区域进行第二关键点检测，得到每个所述目标部位对应的第二关键点信息；

关键点确定模块，用于基于所述第一关键点信息和所述第二关键点信息，确定所述目标对象的对象关键点信息。
一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时，使所述处理器执行如权利要求1至10任一所述的关键点检测的方法。
一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，使所述处理器执行如权利要求1至10任一所述的关键点检测的方法。
一种计算机程序，所述计算机程序被处理器执行时，使所述处理器执行如权利要求1至10任一所述的关键点检测的方法。