WO2018153322A1

WO2018153322A1 - 关键点检测方法、神经网络训练方法、装置和电子设备

Info

Publication number: WO2018153322A1
Application number: PCT/CN2018/076689
Authority: WO
Inventors: 王晓刚; 初晓; 杨巍; 欧阳万里
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-02-23
Filing date: 2018-02-13
Publication date: 2018-08-30
Also published as: CN108229490A; CN108229490B

Abstract

一种关键点检测方法、神经网络训练方法、装置和电子设备，其中，所述关键点检测方法包括：经神经网络对包括有目标对象的待检测图像进行特征提取操作（S102）；根据提取到的特征信息，生成目标对象的注意力图(S104)；使用注意力图修正特征信息(S106)；根据修正后的特征信息，对目标对象进行关键点检测(S108)。上述方法使得待检测图像中的目标对象的特征信息更为突出，更易被检测和识别，提高检测准确性，减少误检或漏检现象。

Description

关键点检测方法、神经网络训练方法、装置和电子设备

本申请要求在2017年02月23日提交中国专利局、申请号为CN201710100498.2、申请名称为“关键点检测方法、神经网络训练方法、装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术，尤其涉及一种关键点检测方法、装置和电子设备，以及一种神经网络训练方法、装置和电子设备。

背景技术

神经网络是用于计算机视觉和模式识别的一个重要的研究领域，它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过神经网络，能够有效地进行目标对象(如人、动物、车辆等)检测和识别。随着互联网技术的发展，信息量的急剧增加，神经网络被越来越广泛地应用于图像检测及目标对象识别领域，以从大量的信息中寻找出实际所需的信息。

发明内容

本申请实施例提供了一种关键点检测方案和一种神经网络训练方案。

根据本申请实施例的一个方面，提供了一种关键点检测方法，包括：经神经网络对包括有目标对象的待检测图像进行特征提取；根据提取到的特征信息，生成所述目标对象的注意力图；使用所述注意力图修正所述特征信息；根据修正后的特征信息，对所述目标对象进行关键点检测。

可选地，所述经神经网络对包括有目标对象的待检测图像进行特征提取操作，包括：经卷积神经网络对所述待检测图像进行卷积操作，获得所述待检测图像的第一特征信息；所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。

可选地，在使用所述注意力图修正所述特征信息之前，所述方法还包括：使用条件随机场对所述注意力图进行平滑化处理；或者，使用归一化函数对所述注意力图进行归一化处理。

可选地，所述神经网络包括端对端堆叠的多个子神经网络；针对每一个子神经网络，根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点检测。

可选地，所述使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息，包括：根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。

可选地，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息，包括：如果当前子神经网络是所述多个子神经网络中设定的前N个子神经网络，则使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得所述目标对象所在的区域的特征信息；和/或，如果当前子神经网络并非所述多个子神经网络中设定的前N个子神经网络，则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取，根据提取到的特征信息生成当前子神经网络的注意力图；使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零，获得所述目标对象的关键点对应的区域的特征信息；其中，所述前N个子神经网络对应的注意力图的分辨率，低于后M-N个子神经网络对应的注意力图的分辨率，其中，M表示所述多个子神经网络的总数量，M为大于1的整数，N为大于0的整数且N小于M。

可选地，针对每一个子神经网络，所述经神经网络对包括有目标对象的待检测图像进行特征提取，包括：获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：根据所述多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对所述多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。

可选地，所述神经网络包括：沙漏神经网络。

可选地，所述沙漏神经网络包括多个沙漏子神经网络，每个沙漏子神经网络包括至少一个沙漏残差模块；每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支；其中，经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的待检测图像进行特征提取，包括：经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。

可选地，如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取；和/或，如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。

根据本申请实施例的另一个方面，提供了一种神经网络训练方法，包括：经神经网络对包括目标对象的训练样本图像进行特征提取；根据提取到的特征信息，生成所述目标对象的注意力图；使用所述注意力图修正所述特征信息；根据修正后的特征信息，获得目标对象的关键点预测信息；获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异；根据所述差异调整所述神经网络的网络参数。

可选地，所述经神经网络对包括有目标对象的训练样本图像进行特征提取，包括：经卷积神经网络对所述训练样本图像进行卷积，获得所述训练样本图像的第一特征信息；所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。

可选地，所述神经网络包括端对端堆叠的多个子神经网络；针对每一个子神经网络，根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点预测，获得目标对象的关键点预测信息。

可选地，针对每一个子神经网络，所述经神经网络对包括目标对象的训练样本图像进行特征提取，包括：获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。

可选地，所述神经网络为沙漏神经网络。

可选地，所述沙漏神经网络包括多个沙漏子神经网络，其中，在先沙漏子神经网络的输出作为相邻的在后沙漏子神经网络的输入，每个沙漏子神经网络均采用本申请上述任一实施例所述的神经网络训练方法进行训练。

可选地，每个沙漏子神经网络包括至少一个沙漏残差模块；每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支；其中，经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的训练样本图像进行特征提取，包括：经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。

根据本申请实施例的又一个方面，提供了一种关键点检测装置，包括：第一特征提取模块，用于经神经网络对包括有目标对象的待检测图像进行特征提取；第一生成模块，用于根据提取到的特征信息，生成所述目标对象的注意力图；第一修正模块，用于使用所述注意力图修正所述特征信息；检测模块，用于根据修正后的特征信息，对所述目标对象进行关键点检测。

可选地，所述第一特征提取模块，用于经卷积神经网络对所述待检测图像进行卷积操作，获得所述待检测图像的第一特征信息；所述第一生成模块，用于对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。

可选地，所述装置还包括：第一处理模块，用于在所述第一修正模块使用所述注意力图修正所述特征信息之前，使用条件随机场对所述注意力图进行平滑化处理；或者，使用归一化函数对所述注意力图进行归一化处理。

可选地，所述神经网络包括端对端堆叠的多个子神经网络；针对每一个子神经网络，所述第一生成模块根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，所述第一修正模块使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则所述检测模块根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点检测。

可选地，所述第一修正模块在使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息时，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。

可选地，所述第一修正模块在根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息时，如果当前子神经网络是所述多个子神经网络中设定的前N个子神经网络，则使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得所述目标对象所在的区域的特征信息；和/或，如果当前子神经网络并非所述多个子神经网络中设定的前N个子神经网络，则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取，根据提取到的特征信息生成当前子神经网络的注意力图；使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零，获得所述目标对象的关键点对应的区域的特征信息；其中，所述前N个子神经网络对应的注意力图的分辨率，低于后M-N个子神经网络对应的注意力图的分辨率，其中，M表示所述多个子神经网络的总数量，M为大于1的整数，N为大于0的整数且N小于M。

可选地，针对每一个子神经网络，所述第一特征提取模块获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；所述第一生成模块根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。

可选地，所述神经网络为沙漏神经网络。

可选地，所述沙漏神经网络包括多个沙漏子神经网络，每个沙漏子神经网络包括至少一个沙漏残差模块；每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支；其中，所述第一特征提取模块在经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的待检测图像进行特征提取时，经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。

可选地，第一特征提取模块在进行特征提取时：如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取；和/或，如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。

根据本申请实施例的再一个方面，提供了一种神经网络训练装置，包括：第二特征提取模块，用于经神经网络对包括目标对象的训练样本图像进行特征提取；第二生成模块，用于根据提取到的特征信息，生成所述目标对象的注意力图；第二修正模块，用于使用所述注意力图修正所述特征信息；预测模块，用于根据修正后的特征信息，获得目标对象的关键点预测信息；差异获得模块，用于获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异；调整模块，用于根据所述差异调整所述神经网络的网络参数。

可选地，所述第二特征提取模块，用于经卷积神经网络对所述训练样本图像进行卷积，获得所述训练样本图像的第一特征信息；所述第二生成模块，用于对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。

可选地，所述装置还包括：第二处理模块，用于在所述第二修正模块使用所述注意力图修正所述特征信息之前，使用条件随机场对所述注意力图进行平滑化处理；或者，使用归一化函数对所述注意力图进行归一化处理。

可选地，所述神经网络包括端对端堆叠的多个子神经网络；针对每一个子神经网络，所述第二生成模块根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，所述第二修正模块使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则所述预测模块根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点预测，获得目标对象的关键点预测信息。

可选地，所述第二修正模块在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。

可选地，针对每一个子神经网络，所述第二特征提取模块获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；所述第二生成模块根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。

可选地，所述神经网络为沙漏神经网络。

可选地，所述沙漏神经网络包括多个沙漏子神经网络，其中，在先沙漏子神经网络的输出作为相邻的在后沙漏子神经网络的输入，每个沙漏子神经网络均采用第四方面所述的装置进行训练。

可选地，每个沙漏子神经网络包括至少一个沙漏残差模块；每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支；其中，所述第二特征提取模块在经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的训练样本图像进行特征提取时，经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。

可选地，第二特征提取模块在进行特征提取时：如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取；和/或，如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。

根据本申请实施例的再一个方面，提供了一种电子设备，包括：处理器和存储器；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本申请上述任一实施例提供的关键点检测方法或者神经网络训练方法对应的操作。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述本申请上述任一实施例提供的关键点检测方法或者神经网络训练方法。根据本申请实施例的再一个方面，提供了另一种计算机可读存储介质，所述计算机可读存储介质存储有：用于经神经网络对包括有目标对象的待检测图像进行特征提取的可执行指令；用于根据提取到的特征信息，生成所述目标对象的注意力图的可执行指令；用于使用所述注意力图修正所述特征信息的可执行指令；用于根据修正后的特征信息，对所述目标对象进行关键点检测的可执行指令。

根据本申请实施例的再一个方面，提供了又一种计算机可读存储介质，所述计算机可读存储介质存储有：用于经神经网络对包括目标对象的训练样本图像进行特征提取的可执行指令；用于根据提取到的特征信息，生成所述目标对象的注意力图的可执行指令；用于使用所述注意力图修正所述特征信息的可执行指令；用于根据修正后的特征信息，获得目标对象的关键点预测信息的可执行指令；用于获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异的可执行指令；用于根据所述差异调整所述神经网络的网络参数的可执行指令。

根据本申请实施例提供的技术方案，将注意力(Attention)机制引入神经网络，根据神经网络输出的目标对象的特征信息，生成注意力图。引入注意力机制后的神经网络可以重点关注目标对象的信息，在生成的注意力图中，目标对象的特征信息与非目标对象的特征信息存在较大差异。因此，使用注意力图对特征图进行修正，从而实现对目标对象的特征的修正，可以使得待检测图像中的目标对象的特征信息更为突出，更易被检测和识别，提高检测结果的准确性，减少误检或漏检现象。

下面通过附图和实施例，对本申请实施例的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是根据本申请实施例的一种关键点检测方法的步骤流程图；

图2是根据本申请实施例的另一种关键点检测方法的步骤流程图；

图3是图2所示实施例中的一种用于关键点检测的沙漏网络结构的示意图；

图4是图2所示实施例中的一种改进的沙漏残差模块的示意图；

图5是根据本申请实施例的一种神经网络训练方法的步骤流程图；

图6是根据本申请实施例的另一种神经网络训练方法的步骤流程图；

图7是根据本申请实施例的一种关键点检测装置的结构框图；

图8是根据本申请实施例的另一种关键点检测装置的结构框图；

图9是根据本申请实施例的一种神经网络训练装置的结构框图；

图10是根据本申请实施例的另一种神经网络训练装置的结构框图；

图11是根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本申请实施例的实施方式作进一步详细说明。以下实施例用于说明本申请，但不用来限制本申请的范围。

应注意到：除非另外可选说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。本领域技术人员可以理解，本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

参照图1，示出了根据本申请实施例的一种关键点检测方法的步骤流程图。本申请各实施例的关键点检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。本实施例的关键点检测方法包括以下步骤：

步骤S102：经神经网络对包括有目标对象的待检测图像进行特征提取操作。

本申请实施例中，神经网络可以是任意适当的可实现特征提取或目标对象检测的神经网络，例如包括但不限于：卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中结构的设置，如卷积层的层数、卷积核的大小、通道数等等，可以由本领域技术人员根据实际需求适当设定，本申请实施例对此不作限制。

在一个可选示例中，该步骤S102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一特征提取模块502执行。

通过神经网络的特征提取，可以获得目标对象的特征信息，例如，通过卷积神经网络的特征提取，获得包括有特征信息的特征图(Feature Map)。

步骤S104：根据提取到的特征信息，生成目标对象的注意力图。

本申请实施例中，在神经网络中引入注意力机制，并生成注意力图(Attention Map)。

在一个可选示例中，该步骤S104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一生成模块504执行。

人类视觉注意力对信息的处理不是均衡的，它会自动地对感兴趣的区域进行处理，提取出有用的信息，而对不感兴趣的区域则不作处理，以使人类能够在复杂的视觉环境中快速定位感兴趣目标。注意力机制是一种用计算机来模拟人类视觉注意力的模型，在图像中提取人眼所能观察到的引人注意的焦点，也即，图像的显著性区域。而基于神经网络提取出的特征图生成注意力图，一方面，使得图像的显著性区域，如目标对象所在的区域，表现得更为显著；另一方面，与处理原始图像相比，减轻了注意力机制的数据处理负担。

步骤S106：使用注意力图修正特征信息。

在一个可选示例中，该步骤S106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一修正模块506执行。

因注意力图中目标对象所在的区域较为显著，因此，可以使用注意力图修正特征信息，例如，使用注意力图对特征图进行修正，以有效过滤非目标对象的信息，使得待目标对象的信息更为突出。

步骤S108：根据修正后的特征信息，对目标对象进行关键点检测。

在一个可选示例中，该步骤S106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的检测模块508执行。

如上所述，修正后的特征信息能够使目标对象的特征信息更为突出，一方面，非目标对象的信息对目标对象的识别和检测造成的干扰较小；另一方面，通过注意力机制提取出的目标对象的特征信息之间具有一定的空间上下文关联，突出的目标对象的特征信息便于神经网络对关键点的全面检测，尽可能避免关键点漏检。以上，都使得目标对象更易于被检测和识别出来。

根据本实施例的关键点检测方法，将注意力机制引入神经网络，根据神经网络输出的特征信息，生成注意力图。引入注意力机制后的神经网络可以重点关注目标对象的信息，在生成的注意力图中，目标对象的特征信息与非目标对象的特征信息存在较大差异。因此，使用注意力图对特征图进行修正，从而实现对目标对象的特征的修正，可以使得待检测图像中的目标对象的特征信息更为突出，更易被检测和识别，提高检测准确性，减少误检或漏检现象。

参照图2，示出了根据本申请实施例的另一种关键点检测方法的步骤流程图。本实施例的关键点检测方法包括以下步骤：

步骤S202：获取包括有目标对象的待检测图像。

本申请实施例中，待检测图像可以是静态图像，也可以是视频帧图像中的任意一帧图像。

步骤S204：经神经网络对待检测图像进行特征提取操作。

如上述图1所示实施例所述，神经网络可以选用任意适当的可实现特征提取或目标对象检测的神经网络。本实施例中，神经网络选择卷积神经网络，可选地，卷积神经网络可以为HOURGLASS(沙漏)神经网络。相比较于其它卷积神经网络，沙漏神经网络可以通过对目标对象的关键点的有效检测实现目标对象的识别，可以对人体姿态进行非常有效的检测。单个沙漏神经网络采用对称的拓扑结构，通常包括输入层、卷积层、池化层、上采样层等，沙漏神经网络的输入是图片，输出是可以对至少一个像素点(例如每个像素点)进行判断的得分图。输出部分每个得分图对应一个目标对象上的一个关键点。针对某一个关键点，得分图上分数最高的位置，代表检测到的该关键点的位置。沙漏神经网络中，通过池化(POOLING)层不断减小分辨率，得到全局特征，然后将全局特征插值放大，和特征图中对应分辨率的位置结合进行判断。

可选地，神经网络可以包括端对端堆叠的多个子神经网络，例如端对端堆叠的多个卷积神经网络，可选地，可选择端对端堆叠的多个沙漏子神经网络。端对端堆叠的多个子神经网络相较于单个神经网络，可以对特征进行更深层次的提取，以保证提取的特征的准确和有效。但不限于沙漏子神经网络，其它具有与沙漏神经网络相同或相似结构、具有关键点检测功能的神经网络均可适用本申请实施例的方案。

当神经网络选择端对端堆叠的多个沙漏子神经网络时，一种可行结构如图3所示。图3中，由8个沙漏子神经网络堆叠在一起，形成用于进行关键点检测的沙漏神经网络。这8个沙漏子神经网络端对端连接在一起，前一沙漏的输出为相邻的后一沙漏的输入。通过该种结构，使得自底向上、自顶向下的分析和学习贯穿模型始终，从而使得对目标对象关键点的检测更为准确。但本领域技术人员应当理解，实际应用中，沙漏子神经网络的数量可以根据实际需要适当设定，本申请实施例仅以8个为例进行说明。

当神经网络选择卷积神经网络时，则经卷积神经网络对待检测图像进行卷积操作，以获得待检测图像的第一特征信息。

在一种可行方式中，卷积神经网络对输入的待检测图像进行特征提取获得特征信息并生成特征图。但需要说明的是，可以认为特征图为特征信息的一种表现形式，在实际应用中，可以直接对特征信息进行操作。

通常情况下，可以获取卷积神经网络如沙漏神经网络中最后一个卷积层输出的目标对象的特征信息。当沙漏神经网络包括多个沙漏子神经网络时，对每一个沙漏子神经网络都引入注意力机制，获取每一个沙漏子神经网络中的最后一个卷积层输出的特征信息(如特征图)。

此外，每个沙漏子神经网络通常包括多个残差模块(Residual Unit，RU)，沙漏神经网络通过残差模块提取图像较高层次的特征，同时保留原有层次的信息，不改变数据尺寸，只改变数据深度，可以看作是一个保留数据尺寸的高级卷积层。并且，残差模块能够结合不同分辨率的特征，使得特征学习更加鲁棒。

本实施例中，在每个沙漏子神经网络中的多个残差模块中，对其中的至少一个残差模块进行了改进，改进后的残差模块称为沙漏残差模块(Hourglass Residual Unit，HRU)。每个沙漏中包括至少一个沙漏残差模块，每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支。每个沙漏残差模块在进行特征提取操作时，经第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得第三图像块的第三特征信息；进而，将第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。通过对传统残差模块的改进，扩大了残差模块输出的感受野(receptive field)，简化了残差模块的学习和检测过程。但本领域技术人员应当明了，在实际应用中，采用传统的残差模块，也即仅设置有第一残差分支和第二残差分支的残差模块，同样适用于本申请实施例的方案。

在一个沙漏子神经网络中可能仅包括多个沙漏残差模块，也可能仅包括多个残差模块，还可能不仅包括至少一个沙漏残差模块，也包括至少一个残差模块。在此情况下，前一个沙漏残差模块或残差模块的输出为相邻的后一个沙漏残差模块或残差模块的输入，沙漏子神经网络中的最后一个沙漏残差模块或残差模块的输出为当前沙漏子神经网络的输出。

并且，如果当前沙漏子神经网络为多个子神经网络中的首个子神经网络(如图3中的第一个沙漏子神经网络)，其输入为原始待检测图像，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取操作；和/或，如果当前沙漏子神经网络为多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取操作。

可选地，为使神经网络提取的特征信息更为准确，在经神经网络对包括有目标对象的待检测图像进行特征提取操作时，可以获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，然后获得多个特征图对应的特征信息。

在一个可选示例中，该步骤S204可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一特征提取模块602执行。

步骤S206：根据提取到的特征信息，生成目标对象的注意力图。

在一种可行方式中，如使用前述经卷积神经网络对待检测图像进行卷积操作，获得待检测图像的第一特征信息的方式时，可以对第一特征信息进行非线性变换，获得第二特征信息；根据第二特征信息，生成注意力图。

例如，采用公式s＝g(w ^α*f+b)生成注意力图。其中，w ^α表示卷积过滤器，是一个包含网络参数如沙漏神经网络的网络参数的线性变换的矩阵，f表示一个神经网络输出的特征如沙漏神经网络最后输出的特征(可表现为一个特征层的特征f)，b表示偏差(bias)，g()表示非线性变换的方程(如ReLU)。特征层的特征f有多个通道(比如128、256、512这三种常用的设置)，但是s作为输出，只有一个通道。通过非线性变换g(),将s的值控制在0-1之间。

当神经网络选择沙漏神经网络、且沙漏神经网络包括多个沙漏子神经网络时，针对每一个沙漏子神经网络：可以获得当前沙漏子神经网络的多个卷积层对应输出的不同分辨率的多个特征图；分别对多个特征图进行上采样，获得多个特征图对应的特征信息；根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图。不同分辨率的特征图能够实现特征从粗到细的多层次提取。

在一个可选示例中，该步骤S206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一生成模块604执行。

步骤S208：对注意力图进行处理。

包括：使用条件随机场(Conditional Random Fields，CRF)对注意力图进行平滑化处理；或者，使用归一化函数(包括但不限于SOFTMAX函数)对注意力图进行归一化处理。

其中，条件随机场的获得可以由本领域技术人员采用任意适当的方式获得，条件随机场中的参数能够体现特征之间的空间上下文信息，实现注意力图的平滑化处理。

在一个可选示例中，该步骤S208可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一处理模块610执行。

本步骤为可选步骤，通过本步骤，可以去除注意力图中的噪声点。

步骤S210：使用注意力图修正特征信息。

注意力图具有较显著的目标对象的特征信息，使用注意力图修正特征信息，可以使得目标对象的特征信息更为显著。

当神经网络包括端对端堆叠的多个子神经网络时，如前述的多个沙漏子神经网络时，针对每一个子神经网络，根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息；其中，如果当前子神经网络为多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为多个子神经网络中的末个子神经网络，则可以根据当前子神经网络修正后的特征信息，对目标对象进行关键点检测。

当如步骤S206中所述，通过获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息时，则可以根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图，将生成的多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的最终的目标对象的注意力图，使用最终的注意力图修正当前沙漏输出的特征图，获得修正后的特征信息。当沙漏神经网络包括多个沙漏子神经网络时，每一个沙漏子神经网络都执行上述修正过程。

可选地，可以根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。这样，注意力图中为1的点，将不会改变对应位置的特征信息的值，但是注意力图中为0的点，就会将对应位置的特征信息置为0，从而归类到非目标对象区域中，一方面使得目标对象更为突出，另一方面，为0的点将不再参与接下来的处理，减轻了目标对象的关键点检测的数据处理负担，提高了处理效率。

在一种可行方式中，如果当前子神经网络是上述多个子神经网络中设定的前N个子神经网络，则使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得目标对象所在的区域的特征信息；和/或，如果当前子神经网络并非上述多个子神经网络中设定的前N个子神经网络，则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取操作，根据提取到的特征信息生成当前子神经网络的注意力图；使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零，获得目标对象的关键点对应的区域的特征信息；其中，前N个子神经网络对应的注意力图的分辨率，低于后M-N个子神经网络对应的注意力图的分辨率，其中，M表示上述多个子神经网络的总数量，M为大于1的整数，N为大于0的整数且N小于M。

例如，在神经网络由多个沙漏子神经网络组成的情况下，在使用注意力图修正特征信息时，可以判断当前沙漏子神经网络是否为上述多个子神经网络中设定的前N个子神经网络；若是，则使用注意力图修正当前沙漏子神经网络输出的特征图；获得目标对象所在的区域的特征信息；若否，则使用注意力图修正当前沙漏子神经网络输出的特征图，获得目标对象的关键点的特征信息。该种方式中，对堆叠的多个沙漏子神经网络提取的特征信息进行区分，该区分可以通过调整网络参数实现。其中，前N个沙漏子神经网络提取的特征信息的分辨率较低，可以使得目标对象所在的前景部分更为突出，尽可能去除背景部分对后续目标对象确定的影响；后M-N个沙漏子神经网络提取的特征信息的分辨率较高，可去除背景部分的影响的基础上，进一步对目标对象的关键点进行明确的检测和识别。

其中，M和N的数量可以由本领域技术人员根据实际需求适当设置，例如，在一个可选示例中，N可以设置为M的一半数量。

在一个可选示例中，该步骤S210可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一修正模块606执行。

步骤S212：根据修正后的特征信息，对目标对象进行关键点检测。

在一个可选示例中，该步骤S212可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的检测模块608执行。

以下，以一个人体识别的实例为例，对本申请实施例的图像检测方法进行说明。

本实例以沙漏神经网络为基础，将8个沙漏子神经网络堆叠在一起，起始输入为源图片，最终输出对于源图片中每个像素点的判断的多个得分图。每个得分图对应一个人体身体上的一个关键点。A关键点得分图上分数最高的位置，代表检测到关键点A的位置。沙漏神经网络是通过POOLING层不断减小分辨率，得到全局特征，然后将全局特征插值放大，和特征图对应分辨率的位置结合进行判断。

本实例中，对上述由8个沙漏子神经网络堆叠在一起神经网络结果进行改进，在每一个沙漏子神经网络的最后一个卷积层的后面引入注意力机制，包括：产生注意力图，对注意力进行平滑化处理，使用注意力图改变源图片中的输入特征的值。

以下，以单个沙漏子神经网络的改进为例，对引入的注意力机制的沙漏神经网络进行说明，其它沙漏子神经网络可以参照下述说明实现改进。该改进包括：

(1)产生注意力图。

例如，采用公式s＝g(w ^α*f+b)生成注意力图。

公式中的f是当前沙漏子神经网络最后一个卷积层输出的特征层中的特征，w ^α是线性变换的矩阵(包括所有网络训练参数)，b是偏差(bias)，g()是非线性变换的方程(如条件随机场或SOFTMAX)。特征层的特征包括多个通道(channel)(比如128，256，512这三种常用的设置)的特征，但是s作为输出，只有一个通道，通过非线性变换g(),将s的值控制在0-1之间。

(2)注意力图平滑化处理。

本步骤中，一种方式可以通过传统的SOFTMAX函数将注意力图中的值归一化到0-1之间；另一种方式通过多次迭代学习到的一个平滑化的核，即通过条件随机场去掉注意力图中的噪点。其中，条件随机场的获得可以由本领域技术人员采用任意适当的方式获得，条件随机场中的参数能够体现特征之间的空间上下文信息，实现注意力图的平滑化处理。

(3)使用注意力图改变源图像的输入特征的值(特征图中的特征的值)。

注意力图是一个W*H的图，只有一个通道，而特征层是W*H*C的张量。其中，W表示宽，H表示高，C表示通道数。将注意力图复制C个通道，然后点对点的乘在特征层上。这样，注意力图中为1的点，将不会改变特征层对应位置的值，但是注意力图中为0的点，就会将特征层中对应位置至为0，从而归类到背景中，不再参与接下来的判断。

本实例中，采用了不同分辨率的特征层，从而结合了全局特征和局部细节特征的判断，由此，在对特征层的特征进行差值的同时，产生了多个不同大小的注意力图，如4个不同大小的注意力图(分别是8*8,16*16,32*32和64*64)。将不同的注意力图调整到设定大小如源图像的1/4大小，并覆盖到特征图上。其中，8*8像素大小的注意力图可以将整个人体从背景中抠出来，但是64*64的注意力图中，只有人体的关键点被选出来。将这四个注意力图相加合并，然后用合并后的注意力图去改变源图像输入特征的值。

此外，本实例的注意力机制采用了由粗到细的注意力机制。在不同的沙漏子神经网络上，注意力机制关注的点不同。在前四个沙漏子神经网络中，网络比较浅，分辨前景背景的能力较差，所以在前四个沙漏子神经网络中，只通过注意力机制去区分前景和背景，做一个粗略的分割。在后四个沙漏子神经网络中，网络比较深，学习能力更强，有更好的分辨能力，通过注意力机制去进一步区分前景中关键点的分类(比如是头，还是手)。

通过上述过程，实现了沙漏神经网络中注意力机制的引入。

在此基础上，可选地，本实例采用新的沙漏残差模块结构来替换掉每个沙漏子神经网络中全部或部分的残差模块。如图4所示，原始的残差模块中，只有A分支(即恒等映射分支(Identity mapping branch))和B分支(即残差分支(Residual branch))两个分支，本实例增加了C分支(即沙漏残差分支(Hourglass residual branch))。如图4中所示，A分支中主要用于对输入当前沙漏残差模块的图像进行恒等映射，仍然输出该输入的图像；B分支对输入当前沙漏残差模块的图像依次进行1×1，3×3，1×1的卷积，最终获得1×1的卷积结果；C分支对输入当前沙漏残差模块的图像依次进行2×2的池化，两次3×3的卷积，以及上采样处理，最终获得与输入当前沙漏残差模块的图像的大小相同的图像。通过增加C分支，可以增加残差模块输出的时候的感受野(receptive field)，从而使得判断不局限于一个小的区域。

通过本实例，一方面，在沙漏神经网络中引入注意力机制，能够有效区分图像的目标对象所在的前景(如人)和背景(如周围物体)，然后集中检测前景中目标对象的关键点，能够使得目标对象被遮挡的部分被划分在前景中，从而在后续的检测中能够更容易被检测到；另一面，结合不同分辨率特征层产生的特征图判断目标对象的关键点，分辨率较小的特征图的特征产生的注意力图涵盖相对大的区域，分辨率较大的特征图的特征产生的注意力图涵盖更细节的点，通过结合不同分辨率的图，将全局的判断和局部的判断结合起来，从而更好的处理目标对象的关键点被遮挡的问题；再一方面，可以将传统注意力机制中的归一化函数替换为条件随机场，从而去掉注意力机制中的噪音点；再一方面，使用改进的沙漏残差模块，从而扩大了模型的感受野。

参照图5，示出了根据本申请实施例的一种神经网络训练方法的步骤流程图。本申请各实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。本实施例的神经网络训练方法包括以下步骤：

步骤S302：经神经网络对包括目标对象的训练样本图像进行特征提取操作。

在一个可选示例中，该步骤S302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二特征提取模块702执行。

本申请各实施例中，神经网络可以是任意适当的可实现特征提取和目标对象关键点检测的神经网络，例如包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。可选地，卷积神经网络可以为沙漏神经网络。

步骤S304：根据提取到的特征信息，生成目标对象的注意力图。

在一个可选示例中，该步骤S304可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二生成模块704执行。

步骤S306：使用注意力图修正特征信息。

在一个可选示例中，该步骤S306可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二修正模块706执行。

步骤S308：根据修正后的特征信息，获得目标对象的关键点预测信息。

在一个可选示例中，该步骤S308可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的预测模块708执行。

对神经网络如卷积神经网络的训练是一个迭代的多次训练学习的过程，在每一次训练学习过程中，对图像中的目标对象的关键点进行预测，获得目标对象的关键点预测信息。进而，可以根据该关键点预测信息与实际标注信息的差别，反向调整卷积神经网络的网络参数，以实现最终较为精准的预测。训练的终止条件可以是训练次数满足设定的次数等常规条件，本申请实施例对此不作限制。

步骤S310：获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异。

其中，获得关键点预测信息与关键点标注信息之间的差异的方式可以由本领域技术人员根据实际需求适当设置，包括但不限于均方误差方式等，本申请实施例对此不作限制。

在一个可选示例中，该步骤S310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的差异获得模块710执行。

步骤S312：根据所述差异调整卷积神经网络的网络参数。

在一个可选示例中，该步骤S310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调整模块712执行。

通过本实施例，实现了对引入注意力机制的神经网络的训练，训练后的神经网络能够使用注意力图对待检测图像的特征信息进行修正，从而实现对待检测图像的特征的修正，可以使得待检测图像中的目标对象的特征信息更为突出，更易被检测和识别。

参照图6，示出了根据本申请实施例的另一种神经网络训练方法的步骤流程图。本实施例以对引入了注意力机制的沙漏神经网络的训练为例，其它引入注意力机制的卷积神经网络或其它神经网络的训练可参照本实施例实现。其中，本实施例中的沙漏神经网络包括多个沙漏子神经网络。本实施例的神经网络训练方法包括以下步骤：

步骤S402：经沙漏子神经网络对包括目标对象的训练样本图像进行特征提取操作。

在一个可选示例中，该步骤S402可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二特征提取模块802执行。

本实施例中，沙漏神经网络包括多个沙漏子神经网络，如图3中所示的8个，其中，第一个沙漏子神经网络的输入为原始的训练样本图像，其它沙漏子神经网络的输入为相邻的前一沙漏子神经网络的输出。

在一种可行方式中，本步骤可以通过经卷积神经网络对训练样本图像进行卷积操作，获得训练样本图像的第一特征信息。如，通过沙漏子神经网络对训练样本图像进行卷积操作，获得训练样本图像的第一特征信息。

本实施例中，神经网络采用卷积神经网络，例如沙漏神经网络，该沙漏神经网络包括多个沙漏子神经网络，其中，在先沙漏子神经网络的输出作为相邻的在后沙漏子神经网络的输入，每个沙漏子神经网络均采用本申请实施例的方法进行训练。

当神经网络包括端对端堆叠的多个子神经网络时，针对每一个子神经网络，在经神经网络对包括目标对象的训练样本图像进行特征提取操作时，可以获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息，以使获得的特征信息丰富和精准。

此外，当神经网络采用包括多个沙漏子神经网络的结构时，每个沙漏子神经网络包括至少一个沙漏残差模块，每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支。在此情况下，经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的训练样本图像进行特征提取操作。可选地，包括：经第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得第三图像块的第三特征信息；将第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。通过该方式，扩大了残差模块输出的感受野，简化了残差模块的学习和检测过程。但本领域技术人员应当明了，在实际应用中，采用传统的残差模块，也即仅设置有第一残差分支和第二残差分支的残差模块，同样适用于本申请实施例的方案。

此外，还需要说明的是，如果当前沙漏子神经网络为多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取操作；和/或，如果当前沙漏子神经网络为多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取操作。

以下，以一个沙漏子神经网络的训练为例，其它沙漏子神经网络的训练可参照本实施例执行。

本步骤中，获得的特征信息可以为当前沙漏子神经网络最后一个卷积层输出的特征信息。

步骤S404：根据提取到的特征信息，生成目标对象的注意力图。

如，在步骤S402获得的第一特征信息的基础上，对第一特征信息进行非线性变换，获得第二特征信息；根据第二特征信息，生成目标对象的注意力图。例如可采用上述图2所示实施例中生成注意力图的方式生成，在此不再赘述。

此外，当采用获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息的方式时，可以根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的最终的目标对象的注意力图。

在一个可选示例中，该步骤S404可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二生成模块804执行。

步骤S406：使用注意力图修正特征信息。

在一种可行方式中，在本步骤之前，可选地，还可以使用条件随机场对注意力图进行平滑化处理；或者，使用归一化函数对注意力图进行归一化处理。

当神经网络包括端对端堆叠的多个子神经网络时，针对每一个子神经网络，根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为多个子神经网络中的末个子神经网络，则根据当前子神经网络修正后的特征信息，对目标对象进行关键点检测。

可选地，可以根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。

在一个可选示例中，该步骤S406可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二修正模块806执行。

步骤S408：根据修正后的特征信息，获得目标对象的关键点预测信息。

在一个可选示例中，该步骤S408可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的预测模块808执行。

步骤S410：获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异。

如，通过损失函数计算关键点预测信息与关键点标注信息之间的差别，如二者之间的均方误差。

在一个可选示例中，该步骤S410可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的差异获得模块810执行。

步骤S412：根据所述差异调整当前沙漏子神经网络的网络参数。

在一个可选示例中，该步骤S412可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调整模块812执行。

通过上述步骤，实现了单个沙漏子神经网络的训练。对每一个沙漏子神经网络均进行上述训练，实现整个沙漏的训练。

此外，对不同沙漏子神经网络的训练的着重点可以不同，例如，以8个沙漏子神经网络堆叠成一个沙漏神经网络为例，在前四个沙漏子神经网络中，网络比较浅，分辨前景背景的能力较差，所以在前四个沙漏子神经网络中，着重训练通过注意力机制去区分前景和背景，做一个粗略的分割。在后四个沙漏子神经网络中，网络比较深，学习能力更强，有更好的分辨能力，着重通过注意力机制去进一步区分前景中关键点的分类(比如是头，还是手)。着重点的区分可以由本领域技术人员通过调整网络训练参数实现。

其次，还可以对用于训练的沙漏子神经网络中的残差模块进行改进，采用新的沙漏残差模块结构来替换掉每个沙漏子神经网络中全部或部分的残差模块。如图4所示，原始的残差模块中，只有A分支(即恒等映射分支)和B分支(即残差分支)两个分支，本实例增加了C分支(即沙漏残差分支)，以增加残差模块输出的时候的感受野，从而使得判断不局限于一个小的区域，减轻沙漏子神经网络的训练难度和负担。

本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。

本申请上述任一实施例的方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请上述任一实施例的方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请上述任一实施例的方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请各实施例的关键点检测装置可用于实现前述方法实施例中相应的关键点检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图7，示出了根据本申请实施例的一种关键点检测装置的结构框图。本实施例的关键点检测装置包括：第一特征提取模块502，用于经神经网络对包括有目标对象的待检测图像进行特征提取操作；第一生成模块504，用于根据提取到的特征信息，生成所述目标对象的注意力图；第一修正模块506，用于使用注意力图修正所述特征信息；检测模块508，用于根据修正后的特征信息，对目标对象进行关键点检测。

参照图8，示出了根据本申请实施例的另一种关键点检测装置的结构框图。本实施例的关键点检测装置包括：第一特征提取模块602，用于经神经网络对包括有目标对象的待检测图像进行特征提取操作；第一生成模块604，用于根据提取到的特征信息，生成目标对象的注意力图；第一修正模块606，用于使用注意力图修正所述特征信息；检测模块608，用于根据修正后的特征信息，对目标对象进行关键点检测。

可选地，第一特征提取模块602用于经卷积神经网络对所述待检测图像进行卷积操作，获得所述待检测图像的第一特征信息；第一生成模块604用于对第一特征信息进行非线性变换，获得第二特征信息；根据第二特征信息，生成目标对象的注意力图。

可选地，本实施例的关键点检测装置还包括：第一处理模块610，用于在第一修正模块606使用注意力图修正所述特征信息之前，使用条件随机场对注意力图进行平滑化处理；或者，使用归一化函数对注意力图进行归一化处理。

可选地，神经网络包括端对端堆叠的多个子神经网络；针对每一个子神经网络，第一生成模块604根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，第一修正模块606通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为多个子神经网络中的末个子神经网络，则检测模块608根据当前子神经网络修正后的特征信息，对目标对象进行关键点检测。

可选地，第一修正模块606在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。

可选地，第一修正模块606在根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息时，如果当前子神经网络是上述多个子神经网络中设定的前N个子神经网络，则使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得目标对象所在的区域的特征信息；和/或，如果当前子神经网络并非上述多个子神经网络中设定的前N个子神经网络，则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取操作，根据提取到的特征信息生成当前子神经网络的注意力图；使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零，获得目标对象的关键点对应的区域的特征信息；其中，前N个子神经网络对应的注意力图的分辨率，低于后M-N个子神经网络对应的注意力图的分辨率，其中，M表示上述多个子神经网络的总数量，M为大于1的整数，N为大于0的整数且N小于M。

可选地，针对每一个子神经网络，所述第一特征提取模块602获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；第一生成模块604根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的最终的目标对象的注意力图。

可选地，神经网络为沙漏神经网络。

可选地，沙漏神经网络包括多个沙漏子神经网络，每个沙漏子神经网络包括至少一个沙漏残差模块；每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支；其中，第一特征提取模块602在经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的待检测图像进行特征提取操作时，经第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；将第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。

可选地，第一特征提取模块602在进行特征提取操作时：如果当前沙漏子神经网络为多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取操作；和/或，如果当前沙漏子神经网络为多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取操作。

本申请各实施例的关键点检测装置可用于实现前述方法实施例中相应的神经网络训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图9，示出了根据本申请实施例的一种神经网络训练装置的结构框图。

本实施例的神经网络训练装置包括：第二特征提取模块702，用于经神经网络对包括目标对象的训练样本图像进行特征提取操作；第二生成模块704，用于根据提取到的特征信息，生成目标对象的注意力图；第二修正模块706，用于使用注意力图修正所述特征信息；预测模块708，用于根据修正后的特征信息，获得目标对象的关键点预测信息；差异获得模块710，用于获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异；调整模块712，用于根据所述差异调整神经网络的网络参数。

参照图10，示出了根据本申请实施例的另一种神经网络训练装置的结构框图。

本实施例的神经网络训练装置包括：第二特征提取模块802，用于经神经网络对包括目标对象的训练样本图像进行特征提取操作；第二生成模块804，用于根据提取到的特征信息，生成目标对象的注意力图；第二修正模块806，用于使用注意力图修正所述特征信息；预测模块808，用于根据修正后的特征信息，获得目标对象的关键点预测信息；差异获得模块810，用于获得关键点预测信息与训练样本图像中的关键点标注信息之间的差异；调整模块812，用于根据所述差异调整神经网络的网络参数。

可选地，第二特征提取模块802用于经卷积神经网络对训练样本图像进行卷积操作，获得训练样本图像的第一特征信息；第二生成模块804用于对第一特征信息进行非线性变换，获得第二特征信息；根据第二特征信息，生成目标对象的注意力图。

可选地，本实施例的神经网络训练装置还包括：第二处理模块814，用于在第二修正模块806使用注意力图修正所述特征信息之前，使用CRF对注意力图进行平滑化处理；或者，使用归一化函数对所述注意力图进行归一化处理。

可选地，神经网络包括端对端堆叠的多个子神经网络；针对每一个子神经网络，第二生成模块804根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，第二修正模块806通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息；如果当前子神经网络为多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为多个子神经网络中的末个子神经网络，则预测模块808根据当前子神经网络修正后的特征信息，对目标对象进行关键点预测，获得目标对象的关键点预测信息。

可选地，第二修正模块806在通过当前子神经网络的注意力图修正当前子神经网络提取的特征信息时，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。

可选地，针对每一个子神经网络，第二特征提取模块802获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；第二生成模块804根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的最终的目标对象的注意力图。

可选地，神经网络为沙漏神经网络。

可选地，沙漏神经网络包括多个沙漏子神经网络，其中，在先沙漏子神经网络的输出作为相邻的在后沙漏子神经网络的输入，每个沙漏子神经网络均采用本实施例的神经网络训练装置进行训练。

可选地，每个沙漏子神经网络包括至少一个沙漏残差模块；每个沙漏残差模块包括第一残差分支、第二残差分支和第三残差分支；其中，第二特征提取模块802在经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的训练样本图像进行特征提取操作时，经第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；经第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；经第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得第三图像块的第三特征信息；将第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。

可选地，第二特征提取模块802在进行特征提取操作时：如果当前沙漏子神经网络为多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取操作；和/或，如果当前沙漏子神经网络为多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取操作。

另外，本申请实施例还提供了一种电子设备，包括：处理器和存储器。其中，存储器用于存放至少一可执行指令，该可执行指令使处理器执行本申请上述任一实施例的关键点检测方法、或者神经网络训练方法对应的操作。

本申请实施例提供的电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。

下面参考图11，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备900的结构示意图。如图11所示，电子设备900包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，第一处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器902和随机访问存储器903统称为第一存储器。第一通信元件包括通信组件912和/或通信接口909。其中，通信组件912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口909包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口909经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令，通过第一通信总线904与通信组件912相连、并经通信组件912与其他目标设备通信，从而完成本申请任一实施例关键点检测方法对应的操作，例如，经神经网络对包括有目标对象的待检测图像进行特征提取操作；根据提取到的特征信息，生成目标对象的注意力图；使用注意力图修正所述特征信息；根据修正后的特征信息，对目标对象进行关键点检测。或者，完成本申请任一实施例神经网络训练方法对应的操作，例如，经神经网络对包括目标对象的训练样本图像进行特征提取；根据提取到的特征信息，生成所述目标对象的注意力图；使用所述注意力图修正所述特征信息；根据修正后的特征信息，获得目标对象的关键点预测信息；获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异；根据所述差异调整所述神经网络的网络参数。

此外，在RAM 903中，还可存储有装置操作所需的各种程序和数据。CPU901或GPU913、ROM902以及RAM903通过第一通信总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至第一通信总线904。通信组件912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口909。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图11所示的架构仅为一种可选实现方式，在可选实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，经神经网络对包括有目标对象的待检测图像进行特征提取操作；根据提取到的特征信息，生成目标对象的注意力图；使用注意力图修正所述特征信息；根据修正后的特征信息，对目标对象进行关键点检测。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被第一处理器执行时，执行本申请实施例的方法中限定的上述功能。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本申请上述任一实施例的关键点检测方法、或者神经网络训练方法。

另外，本申请实施例还提供了一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本申请上述任一实施例的关键点检测方法、或者神经网络训练方法。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请实施例的方法的步骤不限于以上可选描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请实施例的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请实施例的方法的程序的记录介质。

本申请实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种关键点检测方法，包括：

经神经网络对包括有目标对象的待检测图像进行特征提取；

根据提取到的特征信息，生成所述目标对象的注意力图；

使用所述注意力图修正所述特征信息；

根据修正后的特征信息，对所述目标对象进行关键点检测。
根据权利要求1所述的方法，其中，所述经神经网络对包括有目标对象的待检测图像进行特征提取，包括：经卷积神经网络对所述待检测图像进行卷积操作，获得所述待检测图像的第一特征信息；

所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。
根据权利要求1或2所述的方法，其中，在使用所述注意力图修正所述特征信息之前，还包括：

使用条件随机场对所述注意力图进行平滑化处理；或者，

使用归一化函数对所述注意力图进行归一化处理。
根据权利要求1-3任一项所述的方法，其中，所述神经网络包括端对端堆叠的多个子神经网络；

针对每一个子神经网络，根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；

如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点检测。
根据权利要求4所述的方法，其中，所述使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息，包括：

根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。
根据权利要求5所述的方法，其中，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息，包括：

如果当前子神经网络是所述多个子神经网络中设定的前N个子神经网络，则使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得所述目标对象所在的区域的特征信息；和/或，

如果当前子神经网络并非所述多个子神经网络中设定的前N个子神经网络，则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取，根据提取到的特征信息生成当前子神经网络的注意力图；使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零，获得所述目标对象的关键点对应的区域的特征信息；

其中，所述前N个子神经网络对应的注意力图的分辨率，低于后M-N个子神经网络对应的注意力图的分辨率，其中，M表示所述多个子神经网络的总数量，M为大于1的整数，N为大于0的整数且N小于M。
根据权利要求4-6任一项所述的方法，其中，针对每一个子神经网络：

所述经神经网络对包括有目标对象的待检测图像进行特征提取，包括：获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；

所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：根据所述多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对所述多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。
根据权利要求1-7任一项所述的方法，其中，所述神经网络包括：沙漏神经网络。
根据权利要求8所述的方法，其中，所述沙漏神经网络包括多个沙漏子神经网络，每个沙漏子神经网络包括至少一个沙漏残差模块；

每个沙漏残差模块包括：第一残差分支、第二残差分支和第三残差分支；

其中，经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的待检测图像进行特征提取，包括：

经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；

经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；

经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；

将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。
根据权利要求9所述的方法，其中，

如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的待检测图像进行特征提取；和/或，

如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。
一种神经网络训练方法，包括：

经神经网络对包括目标对象的训练样本图像进行特征提取；

根据提取到的特征信息，生成所述目标对象的注意力图；

使用所述注意力图修正所述特征信息；

根据修正后的特征信息，获得目标对象的关键点预测信息；

获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异；

根据所述差异调整所述神经网络的网络参数。
根据权利要求11所述的方法，其中，

所述经神经网络对包括有目标对象的训练样本图像进行特征提取操作，包括：经卷积神经网络对所述训练样本图像进行卷积操作，获得所述训练样本图像的第一特征信息；

所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。
根据权利要求11或12所述的方法，其中，在使用所述注意力图修正所述特征信息之前，还包括：

使用条件随机场对所述注意力图进行平滑化处理；或者，

使用归一化函数对所述注意力图进行归一化处理。
根据权利要求11-13任一项所述的方法，其中，所述神经网络包括端对端堆叠的多个子神经网络；

针对每一个子神经网络，根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；

如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，

如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点预测，获得目标对象的关键点预测信息。
根据权利要求14所述的方法，其中，所述使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息，包括：

根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。
根据权利要求14-15任一项所述的方法，其中，针对每一个子神经网络，

所述经神经网络对包括目标对象的训练样本图像进行特征提取，包括：获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；

所述根据提取到的特征信息，生成所述目标对象的注意力图，包括：根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。
根据权利要求11-16任一项所述的方法，其中，所述神经网络为沙漏神经网络。
根据权利要求17所述的方法，其中，所述沙漏神经网络包括多个沙漏子神经网络，其中，在先沙漏子神经网络的输出作为相邻的在后沙漏子神经网络的输入，每个沙漏子神经网络均采用权利要求 11所述的方法进行训练。
根据权利要求18所述的方法，其中，每个沙漏子神经网络包括至少一个沙漏残差模块；

每个沙漏残差模块包括：第一残差分支、第二残差分支和第三残差分支；

其中，经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的训练样本图像进行特征提取，包括：

经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；

经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；

经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；

将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。
根据权利要求19所述的方法，其中，

如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取操作；

和/或，

如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。
一种关键点检测装置，包括：

第一特征提取模块，用于经神经网络对包括有目标对象的待检测图像进行特征提取；

第一生成模块，用于根据提取到的特征信息，生成所述目标对象的注意力图；

第一修正模块，用于使用所述注意力图修正所述特征信息；

检测模块，用于根据修正后的特征信息，对所述目标对象进行关键点检测。
根据权利要求21所述的装置，其中，

所述第一特征提取模块，用于经卷积神经网络对所述待检测图像进行卷积操作，获得所述待检测图像的第一特征信息；

所述第一生成模块，用于对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。
根据权利要求21或22所述的装置，其中，还包括：

第一处理模块，用于在所述第一修正模块使用所述注意力图修正所述特征信息之前，使用条件随机场对所述注意力图进行平滑化处理；或者，使用归一化函数对所述注意力图进行归一化处理。
根据权利要求21-23任一项所述的装置，其中，所述神经网络包括端对端堆叠的多个子神经网络；

针对每一个子神经网络，所述第一生成模块根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，所述第一修正模块使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；

如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则所述检测模块根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点检测。
根据权利要求24所述的装置，其中，所述第一修正模块在使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息时，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。
根据权利要求25所述的装置，其中，所述第一修正模块在根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息时，

如果当前子神经网络是所述多个子神经网络中设定的前N个子神经网络，则使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得所述目标对象所在的区域的特征信息；和/或，

如果当前子神经网络并非所述多个子神经网络中设定的前N个子神经网络，则经当前子神经网络对表示目标对象所在的区域的特征信息的特征图进行特征提取，根据提取到的特征信息生成当前子神经网络的注意力图；使用当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象的关键点对应的区域的像素值置零，获得所述目标对象的关键点对应的区域的特征信息；

其中，所述前N个子神经网络对应的注意力图的分辨率，低于后M-N个子神经网络对应的注意力图的分辨率，其中，M表示所述多个子神经网络的总数量，M为大于1的整数，N为大于0的整数且N小于M。
根据权利要求24-26任一项所述的装置，其中，针对每一个子神经网络；

所述第一特征提取模块获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；

所述第一生成模块根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。
根据权利要求21-27任一项所述的装置，其中，所述神经网络包括：沙漏沙漏神经网络。
根据权利要求28所述的装置，其中，所述沙漏神经网络包括多个沙漏子神经网络，每个沙漏子神经网络包括至少一个沙漏残差模块；

每个沙漏残差模块包括：第一残差分支、第二残差分支和第三残差分支；

其中，所述第一特征提取模块在经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的待检测图像进行特征提取时，

经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；

经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；

经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；

将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。
根据权利要求29所述的装置，其中，第一特征提取模块在进行特征提取操作时：

如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取；和/或，

如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。
一种神经网络训练装置，包括：

第二特征提取模块，用于经神经网络对包括目标对象的训练样本图像进行特征提取；

第二生成模块，用于根据提取到的特征信息，生成所述目标对象的注意力图；

第二修正模块，用于使用所述注意力图修正所述特征信息；

预测模块，用于根据修正后的特征信息，获得目标对象的关键点预测信息；

差异获得模块，用于获得所述关键点预测信息与所述训练样本图像中的关键点标注信息之间的差异；

调整模块，用于根据所述差异调整所述神经网络的网络参数。
根据权利要求31所述的装置，其中，所述第二特征提取模块，用于经卷积神经网络对所述训练样本图像进行卷积操作，获得所述训练样本图像的第一特征信息；

所述第二生成模块，用于对所述第一特征信息进行非线性变换，获得第二特征信息；根据所述第二特征信息，生成所述目标对象的注意力图。
根据权利要求31或32所述的装置，其中，还包括：

第二处理模块，用于在所述第二修正模块使用所述注意力图修正所述特征信息之前，使用条件随机场对所述注意力图进行平滑化处理；或者，使用归一化函数对所述注意力图进行归一化处理。
根据权利要求31-33任一项所述的装置，其中，所述神经网络包括端对端堆叠的多个子神经网络；

针对每一个子神经网络，所述第二生成模块根据当前子神经网络提取的特征信息生成当前子神经网络的注意力图，所述第二修正模块使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息；

如果当前子神经网络为所述多个子神经网络中的非末个子神经网络，则当前子神经网络修正后的特征信息为相邻的后一子神经网络的输入；和/或，

如果当前子神经网络为所述多个子神经网络中的末个子神经网络，则所述预测模块根据当前子神经网络修正后的特征信息，对所述目标对象进行关键点预测，获得目标对象的关键点预测信息。
根据权利要求34所述的装置，其中，所述第二修正模块在使用当前子神经网络的注意力图修正当前子神经网络提取的特征信息时，根据当前子神经网络的注意力图，对表示当前子神经网络提取的特征信息的特征图中至少部分非目标对象对应的区域的像素值置零，获得当前子神经网络修正后的特征信息。
根据权利要求34-35任一项所述的装置，其中，针对每一个子神经网络，

所述第二特征提取模块获得当前子神经网络的多个卷积层对应输出的不同分辨率的多个特征图，分别对多个特征图进行上采样，获得多个特征图对应的特征信息；

所述第二生成模块根据多个特征图对应的特征信息，生成对应的多个不同分辨率的注意力图；对多个不同分辨率的注意力图进行合并处理，生成当前子神经网络的目标对象的注意力图。
根据权利要求31-36任一项所述的装置，其中，所述神经网络为沙漏神经网络。
根据权利要求37所述的装置，其中，所述沙漏神经网络包括多个沙漏子神经网络，其中，在先沙漏子神经网络的输出作为相邻的在后沙漏子神经网络的输入，每个沙漏子神经网络均采用权利要求31所述的装置进行训练。
根据权利要求38所述的装置，其中，每个沙漏子神经网络包括至少一个沙漏残差模块；

每个沙漏残差模块包括：第一残差分支、第二残差分支和第三残差分支；

其中，所述第二特征提取模块在经每个沙漏子神经网络中的每个沙漏残差模块对包括有目标对象的训练样本图像进行特征提取时，

经所述第一残差分支对输入当前沙漏残差模块的图像块进行恒等映射，获得恒等映射后的第一图像块包含的第一特征信息；

经所述第二残差分支对输入当前沙漏残差模块的图像块中的卷积核大小指示的图像区域进行卷积处理，获得卷积处理后的第二图像区域包含的第二特征信息；

经所述第三残差分支将输入当前沙漏残差模块的图像块按照池化核大小进行池化处理，并按照卷积核大小对池化处理后的图像块中的图像区域进行卷积处理，对卷积处理后的图像区域进行上采样，生成与输入当前沙漏残差模块的图像块大小相同的第三图像块，获得所述第三图像块的第三特征信息；

将所述第一特征信息、第二特征信息和第三特征信息进行合并处理，获得当前沙漏残差模块提取到的特征信息。
根据权利要求39所述的装置，其中，第二特征提取模块在进行特征提取操作时：

如果当前沙漏子神经网络为所述多个子神经网络中的首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对输入的包括有目标对象的原始待检测图像进行特征提取操作；和/或，

如果当前沙漏子神经网络为所述多个子神经网络中的非首个子神经网络，则通过当前沙漏子神经网络的沙漏残差模块和/或残差模块，对与当前沙漏子神经网络相邻的前一沙漏子神经网络输出的图像进行特征提取。
一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-20任一项所述方法对应的操作。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-20任一项所述的方法。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-20任一项所述的方法。