WO2019020075A1

WO2019020075A1 - 图像处理方法、装置、存储介质、计算机程序和电子设备

Info

Publication number: WO2019020075A1
Application number: PCT/CN2018/097227
Authority: WO
Inventors: 杨巍; 欧阳万里; 李爽; 李鸿升; 王晓刚
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-07-28
Filing date: 2018-07-26
Publication date: 2019-01-31
Also published as: CN108229497A; CN108229497B

Abstract

本申请实施例提供了一种图像处理方法、装置、存储介质、计算机程序和电子设备，其中，所述图像处理方法包括：获取待检测图像的特征图；通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；合并所述特征图和至少二个所述其他特征图，得到所述待检测图像的第一特征图。采用本申请实施例的技术方案，可以利用神经网络学习和提取不同尺度的特征，提高特征提取的准确性和鲁棒性。

Description

图像处理方法、装置、存储介质、计算机程序和电子设备

本申请要求在2017年7月28日提交中国专利局、申请号为CN201710632941.0、发明名称为“图像处理方法、装置、存储介质、计算机程序和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术领域，尤其涉及一种图像处理方法、装置、存储介质、计算机程序和电子设备。

背景技术

人体姿态估计主要是对给定图像或视频中人体身体各部分的位置进行定位，是计算机视觉领域的一个重要的研究课题，主要应用在动作识别、行为识别、服装解析、任务对比、人机交互等方面。

发明内容

本申请实施例提供了一种图像处理方案。

根据本申请实施例的第一方面，提供了一种图像处理方法，包括：获取待检测图像的特征图；通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；合并所述特征图和至少二个所述其他特征图，得到所述待检测图像的第一特征图。

可选地，结合本申请提供的任一实施例，所述方法还包括：根据所述第一特征图对所述待检测图像中的目标对象进行关键点检测。

可选地，结合本申请提供的任一实施例，所述根据所述第一特征图对所述目标对象进行关键点检测，包括：根据所述第一特征图分别获取所述目标对象的至少一关键点的得分图；根据所述至少一关键点的得分图中所包括的像素点的分数，确定所述目标对象的相应关键点的位置。

可选地，结合本申请提供的任一实施例，所述神经网络包括至少一个特征金字塔子网络，所述特征金字塔子网络包括第一分支网络以及与所述第一分支网络并联的至少一个第二分支网络；所述其他特征图包括第二特征图和/或第三特征图；所述通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图，包括：

利用所述第一分支网络基于所述特征图的原始尺度对所述特征图进行特征提取，获得所述第二特征图；利用至少一个所述第二分支网络分别基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图。

可选地，结合本申请提供的任一实施例，所述第一分支网络包括第二卷积层、第三卷积层和第四卷积层；所述利用所述第一分支网络基于所述特征图的原始尺度对所述特征图进行特征提取，获得所述第二特征图，包括：

基于所述第二卷积层降低所述特征图的维度；利用所述第三卷积层基于所述特征图的原始尺度对所述降低维度后的特征图进行卷积处理；利用所述第四卷积层提升所述经过卷积处理的特征图的维度，获得所述第二特征图。

可选地，结合本申请提供的任一实施例，至少一所述第二分支网络包括第五卷积层、降采样层、第六卷积层、上采样层和第七卷积层；所述利用至少一个所述第二分支网络分别基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图，包括：

基于所述第五卷积层降低所述特征图的维度；基于所述降采样层根据设定降采样比例对降低维度后的特征图进行降采样，其中，经过降采样后的特征图的尺度小于所述特征图的原始尺度；基于所述第六卷积层对所述经过降采样的特征图进行卷积处理；基于所述上采样层根据设定上采样比例，对经过卷积的特征图进行上采样，其中，经过上采样后的特征图的尺度等于所述特征图的原始尺度；基于所述第七卷积层提升经过上采样后的特征图的维度，获得所述第三特征图。

可选地，结合本申请提供的任一实施例，所述第二分支网络有多个；至少二个所述第二分支网络的设定降采样比例不同，和/或，至少二个所述第二分支网络的设定降采样比例相同。

可选地，结合本申请提供的任一实施例，所述第二分支网络有多个；至少二个所述第二分支网络的所述第六卷积层共享网络参数。

可选地，结合本申请提供的任一实施例，所述第二分支网络包括第五卷积层、膨胀卷积层和第七卷积层；所述利用至少一个所述第二分支网络分别基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图，包括：

基于所述第五卷积层降低所述特征图的维度；基于所述膨胀卷积层对降低维度后的所述特征图进行膨胀卷积处理，基于所述第七卷积层提升经过膨胀卷积后的特征图的维度，获得所述第三特征图。

可选地，结合本申请提供的任一实施例，所述第二分支网络有多个；至少二个所述第二分支网络的所述第五卷积层和/或所述第七卷积层共享网络参数。

可选地，结合本申请提供的任一实施例，所述特征金字塔子网络还包括第一输出合并层；所述第一输出合并层对共享所述第七卷积层的至少二个所述第二分支网络在所述第七卷积层之前的各自输出进行合并、并将合并结果输出至共享的所述第七卷积层。

可选地，结合本申请提供的任一实施例，所述神经网络包括至少两个顺序连接的特征金字塔子网络；第二特征金字塔子网络以第一特征金字塔子网络输出的第一特征图为输入，基于不同尺度提取所述第二特征金字塔子网络的第一特征图，所述第二特征金字塔子网络的输入端与所述第一特征金字塔子网络的输出端相连接。

可选地，结合本申请提供的任一实施例，所述神经网络为沙漏HOURGLASS神经网络，所述沙漏HOURGLASS神经网络包括的至少一沙漏模块包括至少一所述特征金字塔子网络。

可选地，结合本申请提供的任一实施例，所述神经网络的至少一网络层的初始化网络参数，从根据所述初始化网络参数的均值和方差确定的网络参数分布中获取，且所述初始化网络参数的均值为零。

可选地，结合本申请提供的任一实施例，当所述神经网络中存在包括至少二个恒等映射相加的情形，在需要相加的至少一恒等映射分支中设置输出调整模块，通过输出调整模块调整该恒等映射分支输出的第一特征图。

根据本申请实施例的第二方面，提供了一种图像处理装置，包括：获取模块，用于获取待检测图像的特征图；提取模块，用于通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；合并模块，用于合并所述特征图和至少二个所述其他特征图，得到所述待检测图像的第一特征图。

可选地，结合本申请提供的任一实施例，所述装置还包括：检测模块，用于根据所述第一特征图对所述待检测图像中的目标对象进行关键点检测。

可选地，结合本申请提供的任一实施例，所述检测模块包括：得分单元，用于根据所述第一特征图分别获取所述目标对象的至少一关键点的得分图；确定单元，用于根据所述至少一个关键点的得分图中所包括的像素点的分数，确定所述目标对象的相应关键点的位置。

可选地，结合本申请提供的任一实施例，所述神经网络包括至少一个特征金字塔子网络，所述特征金字塔子网络包括第一分支网络以及分别与所述第一分支网络并联的至少一个第二分支网络；所述其他特征图包括第二特征图和/或第三特征图；所述提取模块，用于利用所述第一分支网络基于所述特征图的原始尺度对所述特征图进行特征提取，获得所述第二特征图；利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图。

可选地，结合本申请提供的任一实施例，所述第一分支网络包括第二卷积层、第三卷积层和第四卷积层；所述提取模块，用于基于所述第二卷积层降低所述特征图的维度；利用所述第三卷积层基于所述特征图的原始尺度对所述降低维度后的特征图进行卷积处理；利用所述第四卷积层提升所述经过卷积处理的特征图的维度，获得所述第二特征图。

可选地，结合本申请提供的任一实施例，至少一所述第二分支网络包括第五卷积层、降采样层、第六卷积层、上采样层和第七卷积层；所述提取模块利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图时，用于基于所述第五卷积层降低所述特征图的维度；基于所述降采样层根据设定降采样比例对降低维度后的特征图进行降采样，其中，经过降采样后的特征图的尺度小于所述特征图的原始尺度；基于所述第六卷积层对所述经过降采样的特征图进行卷积处理；基于所述上采样层根据设定上采样比例，对经过卷积的特征图进行上采样，其中，经过上采样后的特征图的尺度等于所述特征图的原始尺度；基于所述第七卷积层提升经过上采样后的特征图的维度，获得所述第三特征图。

可选地，结合本申请提供的任一实施例，所述第二分支网络包括第五卷积层、膨胀卷积层和第七卷积层；所述提取模块利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图时，用于基于所述第五卷积层降低所述特征图的维度；基于所述膨胀卷积层对降低维度后的所述特征图进行膨胀卷积处理；基于所述第七卷积层提升经过膨胀卷积后的特征图的维度，获得所述第三特征图。

可选地，结合本申请提供的任一实施例，所述特征金字塔子网络还包括第一输出合并层；所述第一输出合并层用于对共享所述第七卷积层的至少二个所述第二分支网络在所述第七卷积层之前的各自输出进行合并、并将合并结果输出至共享的所述第七卷积层。

可选地，结合本申请提供的任一实施例，当所述神经网络中存在包括至少二个恒等映射相加的情形，在需要相加的至少一恒等映射分支中设置输出调整模块，所述输出调整模块用于调整该恒等映射分支输出的第一特征图。

根据本申请实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一项图像处理方法的步骤。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器和如上任一项所述的图像处理装置；在处理器运行所述图像处理装置时，如上任一项所述的图像处理装置中的模块被运行。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一项的图像处理方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机程序，包括：至少一可执行指令，所述至少一可执行指令被处理器处理时用于实现前述任一项图像处理方法对应的操作。

根据本申请实施例的图像处理方案，在获取待检测图像的特征图之后，通过神经网络基于多种不同尺度对特征图进行特征提取来获得多个其他特征图，并将特征图与多个其他特征图合并来得到待检测图像的第一特征图，利用神经网络学习和提取不同尺度的特征，提高了神经网络进行特征提取的准确性和鲁棒性。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是根据本申请实施例图像处理方法一个实施例的流程示意图。

图2是根据本申请实施例图像处理方法另一个实施例的流程示意图。

图3是根据本申请实施例图像处理方法另一个实施例的特征金字塔子网络的一种结构示意图。

图4是根据本申请实施例图像处理方法另一个实施例的特征金字塔子网络的另一种结构示意图。

图5是根据本申请实施例图像处理方法另一个实施例的特征金字塔子网络的又一种结构示意图。

图6是根据本申请实施例图像处理方法另一个实施例的一种用于图像处理的神经网络的结构示意图。

图7是根据本申请实施例图像处理方法另一个实施例的一种HOURGLASS网络的结构示意图。

图8是根据本申请实施例图像处理方法另一个实施例输出的得分图。

图9是根据本申请实施例图像处理方法另一个实施例的一种恒等映射相加的结构示意图。

图10是根据本申请实施例图像处理装置一个实施例的结构框图。

图11是根据本申请实施例电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

参照图1，示出了根据本申请实施例图像处理方法一个实施例的流程示意图。

本实施例的图像处理方法包括以下步骤：

步骤S102：获取待检测图像的特征图。

本实施例中，可以采用任意的图像分析处理方法来对待检测图像进行特征提取处理，以获取待检测图像的特征图。可选地，通过例如卷积神经网络对待检测图像进行特征提取操作，获取包括待检测图像的特征信息的特征图(Feature Map)。其中，待检测图像可以是独立的静态图像，也可以是视频序列中的任意一帧图像。

在这里说明，获取的特征图可以为待检测图像的全局特征图，也可以是非全局的特征图，本实施例对此不作限定。例如，在实际应用中，根据获取的特征图用于进行图像处理、或物体识别等不同的应用场景，可以分别获取待检测图像的全局特征图、或包括目标物体的局部特征图。

在一个可选示例中，该步骤S102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块1002执行。

步骤S104：通过神经网络基于至少二种不同尺度对特征图进行特征提取，获得至少二个其他特征图。

其中，至少二个其他特征图为神经网络对待检测图像的特征图，基于至少二种不同尺度分别进行进一步的特征提取操作获得的特征图，每一种尺度对应于一个其他特征图。

神经网络进行特征提取操作所基于的尺度，能够限定特征提取操作所提取的特征的尺度。本申请实施例中，神经网络基于不同尺度对待检测图像进行特征提取，通过神经网络学习和提取不同尺度的特征，可以稳定准确地提取到待检测图像的特征。本申请实施例能够有效应对出现例如遮挡、透视等问题造成待检测图像的特征尺度发送变化的问题，从而提高特征提取的鲁棒性。

在实际应用中，特征提取所基于的尺度不同，可以是图像的物理大小尺寸不同，或者图像的有效部分的尺寸不同(例如，虽然图像的物理大小尺寸相同，但该图像的部分像素的像素值已经采用但不限于置零等方式处理，除了这些处理后的像素的其他像素组成的部分相当于有效部分，有效部分的尺寸相对图像的物理尺寸较小)等，但不限于此。

可选地，至少二种不同尺度可以包括待检测图像的原始尺度与不同于原始尺度的至少一种尺度，或者，包括不同于原始尺度的至少二种不同尺度。

在一个可选示例中，该步骤S104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的提取模块1004执行。

步骤S106：合并特征图和至少二个其他特征图，得到待检测图像的第一特征图。

将特征图和各其他特征图进行合并得到第一特征图，使得第一特征图包括提取到的不同尺度的特征。可选地，合并操作可以包括相加操作或者串联操作。合并得到的第一特征图可用于对待检测图像进行后续的图像处理，例如关键点检测、物体检测、物体识别、图像分割、物体聚类等，能够提高后续的图像处理的效果。

在一个可选示例中，该步骤S106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的合并模块1006执行。

根据本申请实施例的图像处理方法，在获取待检测图像的特征图之后，通过神经网络基于多种不同尺度对特征图进行特征提取来获得多个其他特征图，并将特征图与多个其他特征图合并来得到待检测图像的第一特征图，利用神经网络学习和提取不同尺度的特征，提高了神经网络进行特征提取的准确性和鲁棒性。

本申请实施例提供的任一种图像处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种图像处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种图像处理方法。下文不再赘述。

参照图2，示出了根据本申请实施例图像处理方法另一个实施例的流程示意图。

本实施例的图像处理方法包括以下步骤：

步骤S202：获取待检测图像的特征图。

本实施例中，通过神经网络对待检测图像进行特征提取操作来获取特征图。例如，神经网络包括用于进行特征提取的卷积层(Convolution，Conv)，对输入神经网络的待检测图像进行初步检测和特征提取操作，获取包括待检测图像初始的特征图。

在一个可选示例中，该步骤S202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块1002执行。

步骤S204：通过神经网络基于至少二种不同尺度对特征图进行特征提取，获得至少二个其他特征图。

在一个可选示例中，该步骤S204可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的提取模块1004执行。

可选地，神经网络包括至少一个特征金字塔子网络，用于基于至少二种不同尺度对特征图进行特征提取，获得至少二个其他特征图。特征金字塔包括第一分支网络以及分别与第一分支网络并联的至少一个第二分支网络。第一分支网络基于待检测图像的原始尺度，对输入特征金字塔的特征图进行进一步的特征提取，获得第二特征图；至少一个第二分支网络基于不同于该原始尺度的其他尺度对特征图进行进一步的特征提取，获取第三特征图。也即，至少二个其他特征图包括第二特征图和第三特征图。

一种可选的实施方式中，参照图3，第一分支网络包括第二卷积层(Convolutio 2，Conv 2)、第三卷积层(Conv 3)和第四卷积层(Conv 4)。至少一第二分支网络包括第五卷积层(Conv5)、降采样层、第六卷积层(Conv 6)、上采样层和第七卷积层(Conv 7)。

第一分支网络为f ₀，至少二个第二分支网络分别为f ₁至f _c，其中，f ₀保留输入特征的原始尺度。输入特征金字塔子网络的特征图分别输入到f ₀至f _c。f ₀的第二卷积层以及f ₁至f _c的第五卷积层均可以采用卷积核大小为1×1的卷积网络，用于降低输入特征图的维度。f ₁至f _c的降采样层分别根据设定的降采样比例Ratio 1至Ratio c，分别对第五卷积层输出的降低维度后的特征图进行降采样，得到不同分辨率的特征图。其中，经过降采样后的特征图的尺度小于特征图的原始尺度。f ₀的第三卷积层以及f ₁至f _c的第六卷积层均可以采用卷积核大小为3×3的卷积网络，用于分别对第二卷积层输出的降低维度后的特征图，以及相应的降采样层输出的经过降采样的特征图进行卷积，学习和提取不同尺度的特征。f ₁至f _c的上采样层分别基于不同的上采样比例，对第六卷积层输出的经过卷积的特征图进行上采样，其中，经过上采样后的特征图的尺度等于特征图的原始尺度。f ₀的第四卷积层提升第三卷积层输出的经过卷积处理的特征图的维度，获得第二特征图。f ₁至f _c的第七卷积层提升对应上采样层输出的经过上采样的特征图的维度，分别获得第三特征图。

其中，至少二个第二分支网络f ₁至f _c中，至少二个第二分支网络的设定降采样比例不同，和/或，至少二个第二分支网络的设定降采样比例相同。也即，至少二个第二分支网络采用的降采样比例可以均不相同，可以部分相同，也可以全都相同。对于这三种情况，与基于原始尺度的第一分支网络相配合，特征金字塔子网络能够基于至少二种不同尺度提取不同的特征。

此外，由于f ₀保留输入特征的原始尺度，无需改变特征的分辨率，因此，f ₀没有采用降采样层和上采样层，在实际应用中，f ₀还可以采用降采样比例和上采样比例为1降采样层和上采样层。

可选地，至少二个第二分支网络的第六卷积层共享参数。例如，至少二个第二分支网络的第六卷积层共享卷积核，也即，至少二个第六卷积层的卷积核具有相同的参数，以通过采用内部参数共享机制，来降低参数数量，同时还能够基于通过数据和任务学习得到的参数获得较高的准确率。

另一种可选的实施方式中，还可以采用图4示出的特征金字塔子网络的结构形式，至少一第二分支网络包括第五卷积层、膨胀卷积层和第七卷积层；第五卷积层降低特征图的维度；膨胀卷积层对降低维度后的特征图进行膨胀卷积处理；第七卷积层提升经过膨胀卷积后的特征图的维度，获得第三特征图。也即，将至少一第二分支网络的降采样层、第六卷积层和上采样层由膨胀卷积层(dilated convolution，图中表示为dstride 1至dstride c)代替，简化特征金字塔子网络内部的网络结构，并可以增加输入特征的分辨率，利用膨胀卷积层来完成不同分辨率特征的采样操作，不同尺度特征的提取操作，以及同样分辨率特征的采样操作等，从而获取不同尺度的特征。其中，膨胀卷积处理也可以实现降采样例如，采用将特征图的一部分像素的像素值置0的方式，在保持图像的物理尺寸大小一致的情况下，将特征图中具有有效像素值的部分变小，同样也实现了降采样的效果。

可选地，至少二个第二分支网络共享第五卷积层和/或第七卷积层，可选地，第五卷积层和/或第七卷积层共享网络参数。

可选地，至少二个第二分支网络还可以具有各自的第五卷积层和/或第七卷积层，第五卷积层和/或第七卷积层的网络参数不同。

例如，为了简化特征金字塔子网络的结构，可以采用图5示出的特征金字塔子网络的结构形式，将至少二个第二分支网络共享同一个第五卷积层。例如，第五卷积层为1×1的卷积网络，在将输入特征金字塔子网络的特征进行降维处理后，输出至共享该第五卷积层的至少二个第二分支网络的降采样层。该结构的特征金字塔子网络的参数数量较少，计算复杂度较低。

可选地，特征金字塔子网络还包括第一输出合并层，第一输出合并层对共享第七卷积层的至少二个第二分支网络在第七卷积层之前的各自输出进行合并、并将合并结果输出至共享的第七卷积层。

例如，第一输出合并层连接在共享第七卷积层上采样层与第七卷积层之间，用于对至少二个第二分支网络的上采样层输出的特征图进行合并处理，并将合并后的特征图输出至第七卷积层。这里，合并处理可以包括相加操作或者串联操作。例如，图中示出的

表示输出相加操作，图中的

还可以替换为

表示输出串联操作(Concatenation)。其中，相加操作可以表示为多个张量的点对点相加，串联操作可以表示为多个张量在一个维度上的串联。若c个第二分支网络f ₁至f _c输出c个256×64×64的特征图，经相加操作后还是256×64×64的特征图，经串联操作后则会变成(256×c)×64×64的特征图。

此外，第七卷积层还用于将至少二个第二分支网络输出的特征进行线性变换，以便与第一分支网络输出的原始尺度的特征相加。如果第一输出合并层进行的合并处理为串联操作，第七卷积层还用于对第一输出合并层输出的特征图进行映射变换处理，以将特征图映射变换为串联前的特征图的大小。例如，将上述(256×c)×64×64的特征图映射变换为256×64×64的特征图。

步骤S206：合并特征图和至少二个其他特征图，得到待检测图像的第一特征图。

在一个可选示例中，该步骤S206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的合并模块1006执行。

可选地，特征金字塔子网络还包括第二输出合并层，第一分支网络和至少二个第二分支网络的输出端均连接至第二输出合并层，这里，第二分支网络的输出端包括共享的第七卷积层的输出端，以及未共享第七卷积层的至少二个第二分支网络的上采样层的输出端。第二输出合并层用于将特征图，第一分支网络输出的第二特征图，以及至少二个第二分支网络输出的第三特征图进行合并处理，获取第一特征图。这里，合并处理为相加操作。

本实施例中，神经网络包括至少二个特征金字塔子网络；至少二个特征金字塔子网络，以与当前特征金字塔子网络连接的前一特征金字塔子网络输出的第一特征图为输入，并根据输入的第一特征图，基于不同尺度提取当前特征金字塔子网络的第一特征图。

可选地，第二特征金字塔子网络以第一特征金字塔子网络输出的第一特征图为输入，基于不同尺度提取第二特征金字塔子网络的第一特征图，第二特征金字塔子网络的输入端与第一特征金字塔子网络的输出端相连接。

其中，首个特征金字子网络的输入是步骤S202获取的特征图，执行步骤S204至步骤S206获取第一特征图；非首个特征金字子网络的输入为前一特征金字塔子网络输出的第一特征图，并执行步骤S204至步骤S206，基于至少二种不同尺度对输入的第一特征图进行特征提取，将获取的其他特征图与输入的第一特征图进行合并，得到当前特征金字塔子网络的第一特征图。

本实施例中，子神经网络包括多个特征金字塔子网络，前一个特征金字塔子网络的输出，可以为相邻的后一特征金字塔子网络的输入。例如，若x ^(l)和W ^(l)表示第l个特征金字塔子网络的输入(特征图)和参数，则该特征金字塔子网络的输出，也即，下一个特征金字塔子网络的输入可以表示为：

x ^(l+1)＝x ^(l)+p(x ^(l)+W ^(l)) (1)

其中，p(x ^(l)-W ^(l))为一个特征金字塔子网络所执行的特征提取操作，并可以进一步表示为：

其中，c为第二分支网络的个数，

表示至少二个第二分支网络f _c所执行的特征提取操作，

表示第一分支网络f ₀所执行的特征提取操作，

表示第七卷积层所执行的处理。

在实际应用中，神经网络可通过以特征金字塔子网络为基本组成模块，利用特征金字塔学习机制，来提取不同尺度的特征。

一种可选的实施方式中，神经网络可采用图6中示出的沙漏(HOURGLASS)网络结构作为一种可选的基本网络结构，但不限于此。神经网络结构包括的多个HOURGLASS结构端对端连接，形成HOURGLASS网络结构，HOURGLASS结构包括至少一个特征金字塔子网络。前一HOURGLASS结构的输出为相邻的后一HOURGLASS结构的输入，通过这种网络结构，使得自底向上、自顶向下地分析和学习贯穿模型始终，从而使得神经网络提取的特征更加有效且准确，保证获取的第一特征图的准确性。其中，由于HOURGLASS网络采用残差模块(Residual Unit)作为基本组成模块，因此，本实施例的特征金字塔子网络可以为用于形成HOURGLASS网络结构的特征金字塔残差模块(Pyramids Residual Module，PRM)。这里，HOURGLASS结构以及特征金字塔子网络的数量可以根据实际需要适当设定。

图7示出的HOURGLASS网络结构中，HOURGLASS结构可以由多个特征金字塔子网络组成，以利用特征金字塔子网络来学习和提取不同尺度的特征，并输出第一特征图。其中，特征金字塔子网络可以采用上述图3至图5示出的任一种特征金字塔子网络的结构。其中，图7示出的神经网络还包括第一卷积层(Conv1)，可用于执行前述步骤S202获取特征图；以及池化层(Pooling，Pool)，可用不断减小特征图的分辨率，以得到全局特征，然后将全局特征插值放大，和特征图中对应分辨率的位置结合，也即，通过对特征图进行全局池化，获取待检测图像的特征图。获取的特征图可以输入特征金字塔子网络，使得特征金字塔子网络对特征图进行更深层次的学习和提取，进而基于不同尺度提取第一特征图。可选地，在池化层和特征金字塔子网络之间还可以设置特征金字塔子网络或卷积层，用于调整特征图的分辨率等属性。

步骤S208：根据第一特征图对待检测图像中的目标对象进行关键点检测。

在一个可选示例中，该步骤S208可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的检测模块1008执行。

可选地，根据第一特征图分别获取目标对象的至少一关键点的得分图；根据至少一关键点的得分图中所包括的像素点的分数，确定目标对象的相应关键点的位置。通过特征金字塔子网络获取的待检测图像的第一特征图，基于不同尺度来检测提取待检测图像的特征，可以稳定准确地检测到不同尺度的特征，在此基础上，根据第一特征图进行关键点检测，有效地提高了关键点检测的准确性。

一种可选的实施方式中，针对某一个关键点，得分图中分数较高的位置，代表检测到的该关键点位置。如图8所示，与输入神经网络的待检测图像相对应，输出的得分图对应待检测图像中目标对象的至少一个关键点。其中，待检测图像中目标对象为人，包括16个关键点，例如手、膝盖等。将16个得分图中得分较高(例如：得分最高的一个或多个)的位置，确定对应关键点的位置，即可完成对16个关键点的定位检测。

在实际应用场景中，本申请实施例的图像处理方法可用于但不限于进行人体姿态估计、视频理解分析、行为识别和人机交互、图像分割、物体聚类等。

例如，在进行人体姿态估计时，将待检测图像输入神经网络，利用特征金字塔子网络基于不同尺度进行特征提取，并根据提取的特征对目标对象进行关键点检测，从而依据检测到的至少一个关键点的位置进行人体姿态估计。例如，获取图8中示出的16个得分图对应的关键点的位置(例如，坐标)，根据16个关键点的位置可以准确地估计出人体姿态。由于本实施例的图像处理方法利用特征金字塔学习机制来提取特征，可以检测不同尺度的目标对象，从而保证人体姿态估计的鲁棒性。

再例如，对于包含目标对象的视频序列，可以采用本实施例的图像处理方法，利用特征金字塔学习机制来稳定提取视频帧图像的特征图，进而准确地进行目标对象的关键点定位，有助于实现视频理解分析。

可选地，本实施例的神经网络的至少一网络层的初始化网络参数，从根据网络参数的均值和方差确定的网络参数分布中获取。其中，网络参数分布可以为一个设定的高斯分布或者均匀分布，该网络参数分布的均值和方差由带参数层的输入和输出个数决定，初始化网络参数可以从该网络参数分布中随机采样获得。该参数初始化方法可对具有多分支网络结构的神经网络进行训练，该训练方法不仅适用基于单分支网络提出的，还可适用具有多分支网络的特征金字塔残模块训练的问题，使得神经网络的训练过程更加稳定。

例如，在网络参数初始化过程中，对于神经网络前向传播过程，将网络参数的均值初始化为0，以保证神经网络每一层的输入和输出的方差基本一致。在获取网络参数的方差σ之后，就可以从一个均值为0，方差为σ的高斯分布或均匀分布中对初始化网络参数进行采样，作为前向传播过程的初始化网络参数。对于神经网络后向传播过程，将网络参数的均值初始化为0，使得网络参数的梯度的均值为0，从而保证神经网络每一层的输入和输出梯度的方差基本一致。在获取网络参数的梯度的方差σ′之后，就可以从一个均值为0，梯度的方差为σ′的高斯分布或均匀分布中对初始化网络参数进行采样，作为后向传播过程的初始化网络参数。

可选地，若神经网络中存在包括至少二个恒等映射(Identity Mapping)相加的情形，则在需要相加的至少一恒等映射分支中设置输出调整模块，通过输出调整模块调整该恒等映射分支输出的第一特征图。

例如，在神经网络中如果存在至少二个恒等映射相加的情形(不妨以图9示出的两个为例进行说明)，则在某一个恒等映射分支中设置批量规范化-激活函数-卷积(BN-ReLU-Conv，batch normalization-Rectified Linear Units-Convolution)模块，以调整该恒等映射分支输出的方差的范围等参数，如此处理后在两个恒等映射的输出相加时，可避免这两个恒等映射分支产生输出响应的方差成倍增加的问题，有利于保持神经网络学习过程的稳定性。以图9示出的两个恒等映射相加的情形为例进行说明，可在两个恒等映射分支中的任一个中设置输出调整模块。

又例如，在上述图3至图5对应的实施例中提及的神经网络，也均存在多个恒等映射分支相加的情形，可在其中至少一个恒等映射分支(如f ₀、f ₁……或f _c)增加设置BN-ReLU-Conv层，由此调整该分支的输出，避免多个恒等映射分支相加出出现相应方差叠加等问题。

根据本申请实施例的图像处理方法，通过神经网络的特征金字塔子网络，基于多种不同尺度对待检测图像的特征图进行特征提取，并将获得多个其他特征图与特征图合并，来得到待检测图像的第一特征图，利用特征金字塔网络学习和提取不同尺度的特征，保证了神经网络进行特征提取的准确性和鲁棒性；在此基础上，根据获取的第一特征图来进行关键点检测，有效地提高了关键点检测的准确性。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

参照图10，示出了根据本申请实施例图像处理装置一个实施例的结构框图。

本实施例的图像处理装置，包括：获取模块1002，用于获取待检测图像的特征图；提取模块1004，用于通过神经网络基于至少二种不同尺度对特征图进行特征提取，获得至少二个其他特征图；合并模块1006，用于合并特征图和至少二个所述其他特征图，得到待检测图像的第一特征图。

可选地，本实施例装置还包括：检测模块1008，用于根据第一特征图对待检测图像中的目标对象进行关键点检测。

可选地，所述检测模块1008包括：得分单元(图中未示出)，用于根据第一特征图分别获取所述目标对象的至少一关键点的得分图；确定单元(图中未示出)，用于根据至少一关键点的得分图中所包括的像素点的分数，确定目标对象的相应关键点的位置。

可选地，神经网络包括至少一个特征金字塔子网络，特征金字塔子网络包括第一分支网络以及分别与第一分支网络并联的至少一个第二分支网络；其他特征图包括第二特征图和/或第三特征图；

提取模块1004，用于利用第一分支网络用于基于特征图的原始尺度对特征图进行特征提取，获得第二特征图；利用至少一个第二分支网络用于分别基于不同于原始尺度的其他尺度对特征图进行特征提取，获得第三特征图。

可选地，第一分支网络包括第二卷积层、第三卷积层和第四卷积层；

提取模块1004，用于基于第二卷积层用于降低特征图的维度；利用第三卷积层用于基于特征图的原始尺度对降低维度后的特征图进行卷积处理；利用第四卷积层用于提升经过卷积处理的特征图的维度，获得第二特征图。

可选地，至少一第二分支网络包括第五卷积层、降采样层、第六卷积层、上采样层和第七卷积层；提取模块1004，用于基于第五卷积层用于降低特征图的维度；降采样层用于根据设定降采样比例对降低维度后的特征图进行降采样，其中，经过降采样后的特征图的尺度小于特征图的原始尺度；基于第六卷积层用于对经过降采样的特征图进行卷积处理；基于上采样层用于根据设定上采样比例，对经过卷积的特征图进行上采样，其中，经过上采样后的特征图的尺度等于特征图的原始尺度；基于第七卷积层用于提升经过上采样后的特征图的维度，获得所述第三特征图。

可选地，第二分支网络有多个；至少二个第二分支网络的设定降采样比例不同，和/或，至少二个第二分支网络的设定降采样比例相同。

可选地，第二分支网络有多个；至少二个第二分支网络的第六卷积层共享网络参数。

可选地，第二分支网络包括第五卷积层、膨胀卷积层和第七卷积层；

提取模块1004，用于基于第五卷积层用于降低特征图的维度；基于膨胀卷积层用于对降低维度后的特征图进行膨胀卷积处理；基于第七卷积层用于提升经过膨胀卷积后的特征图的维度，获得第三特征图。

可选地，第二分支网络有多个；至少二个第二分支网络的第五卷积层和/或第七卷积层共享网络参数。

可选地，至少二个第二分支网络的第五卷积层和/或第七卷积层还可以各自具有不同的网络参数。

可选地，特征金字塔子网络还包括第一输出合并层；第一输出合并层用于对共享第七卷积层的至少二个第二分支网络在第七卷积层之前的各自输出进行合并、并将合并结果输出至共享的第七卷积层。

可选地，神经网络包括至少两个特征金字塔子网络；特征金字塔子网络，用于以与当前特征金字塔子网络连接的前一特征金字塔子网络输出的第一特征图为输入，并根据输入的第一特征图，基于不同尺度提取当前特征金字塔子网络的第一特征图。

可选地，神经网络包括至少两个顺序连接的特征金字塔子网络；

第二特征金字塔子网络以第一特征金字塔子网络输出的第一特征图为输入，基于不同尺度提取第二特征金字塔子网络的第一特征图，第二特征金字塔子网络的输入端与第一特征金字塔子网络的输出端相连接。

可选地，神经网络为沙漏HOURGLASS神经网络，沙漏HOURGLASS神经网络包括的至少一沙漏模块包括至少一特征金字塔子网络。

可选地，神经网络的至少一网络层的初始化网络参数，从根据初始化网络参数的均值和方差确定的网络参数分布中获取，且初始化网络参数的均值为零。

可选地，当神经网络中存在包括至少二个恒等映射相加的情形，在需要相加的至少一恒等映射分支中设置输出调整模块，输出调整模块用于调整该恒等映射分支输出的第一特征图。

本实施例的图像处理装置用于实现前述方法实施例中相应的图像处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，该程序指令被处理器执行时实现本申请实施例提供的任一种图像处理方法的步骤。

本实施例还提供一种计算机程序，包括：至少一可执行指令，所述至少一可执行指令被处理器执行时用于实现本申请实施例提供的任一种图像处理方法的步骤。

本实施例还提供一种电子设备，包括：处理器和本申请实施例提供的图像处理装置；在处理器运行所述图像处理装置时，上述任一项所述的图像处理装置中的模块被运行。

本申请实施例提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备1100的结构示意图：如图11所示，电子设备1100包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1101，和/或一个或多个图像处理器(GPU)1113等，处理器可以根据存储在只读存储器(ROM)1102中的可执行指令或者从存储部分1108加载到随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件1112和/或通信接口1109。其中，通信组件1112可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1109包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1109经由诸如因特网的网络执行通信处理。

处理器可与只读存储器1102和/或随机访问存储器1103中通信以执行可执行指令，通过通信总线1104与通信组件1112相连、并经通信组件1112与其他目标设备通信，从而完成本申请实施例提供的任一项图像处理方法对应的操作，例如，获取待检测图像的特征图；通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；合并所述特征图和各所述其他特征图，得到所述待检测图像的第一特征图。

此外，在RAM 1103中，还可存储有装置操作所需的各种程序和数据。CPU1101或GPU1113、ROM1102以及RAM1103通过通信总线1104彼此相连。在有RAM1103的情况下，ROM1102为可选模块。RAM1103存储可执行指令，或在运行时向ROM1102中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1105也连接至通信总线1104。通信组件1112可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1109。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

需要说明的，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU1113和CPU1101可分离设置或者可将GPU1113集成在CPU1101上，通信元件可分离设置，也可集成设置在CPU1101或GPU1113上，等等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取待检测图像的特征图；通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；合并所述特征图和各所述其他特征图，得到所述待检测图像的第一特征图。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器执行时，执行本申请实施例的方法中限定的上述功能。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种图像处理方法，包括：

获取待检测图像的特征图；

通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；

合并所述特征图和至少二个所述其他特征图，得到所述待检测图像的第一特征图。
根据权利要求1所述的方法，其特征在于，还包括：

根据所述第一特征图对所述待检测图像中的目标对象进行关键点检测。
根据权利要求2所述的方法，其特征在于，所述根据所述第一特征图对所述目标对象进行关键点检测，包括：

根据所述第一特征图分别获取所述目标对象的至少一关键点的得分图；

根据所述至少一个关键点的得分图中所包括的像素点的分数，确定所述目标对象的相应关键点的位置。
根据权利要求1至3中任一所述的方法，其特征在于，所述神经网络包括至少一个特征金字塔子网络，所述特征金字塔子网络包括第一分支网络以及与所述第一分支网络并联的至少一个第二分支网络；所述其他特征图包括第二特征图和/或第三特征图；

所述通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图，包括：

利用所述第一分支网络基于所述特征图的原始尺度对所述特征图进行特征提取，获得所述第二特征图；

利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图。
根据权利要求4所述的方法，其特征在于，所述第一分支网络包括第二卷积层、第三卷积层和第四卷积层；

所述利用所述第一分支网络基于所述特征图的原始尺度对所述特征图进行特征提取，获得所述第二特征图，包括：

基于所述第二卷积层降低所述特征图的维度；

利用所述第三卷积层基于所述特征图的原始尺度对所述降低维度后的特征图进行卷积处理；

利用所述第四卷积层提升所述经过卷积处理的特征图的维度，获得所述第二特征图。
根据权利要求4或5所述的方法，其特征在于，所述第二分支网络包括第五卷积层、降采样层、第六卷积层、上采样层和第七卷积层；

所述利用至少一个所述第二分支网络分别基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图，包括：

基于所述第五卷积层降低所述特征图的维度；

基于所述降采样层根据设定降采样比例对降低维度后的特征图进行降采样，其中，经过降采样后的特征图的尺度小于所述特征图的原始尺度；

基于所述第六卷积层对所述经过降采样的特征图进行卷积处理；

基于所述上采样层根据设定上采样比例，对经过卷积的特征图进行上采样，其中，经过上采样后的特征图的尺度等于所述特征图的原始尺度；

基于所述第七卷积层提升经过上采样后的特征图的维度，获得所述第三特征图。
根据权利要求6所述的方法，其特征在于，所述第二分支网络有多个；

至少二个所述第二分支网络的设定降采样比例不同，和/或，至少二个所述第二分支网络的设定降采样比例相同。
根据权利要求6或7所述的方法，其特征在于，所述第二分支网络有多个；

至少二个所述第二分支网络的所述第六卷积层共享网络参数。
根据权利要求4或5所述的方法，其特征在于，所述第二分支网络包括第五卷积层、膨胀卷积层和第七卷积层；

所述利用至少一个所述第二分支网络分别基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图，包括：

基于所述第五卷积层降低所述特征图的维度；

基于所述膨胀卷积层对降低维度后的所述特征图进行膨胀卷积处理，

基于所述第七卷积层提升经过膨胀卷积后的特征图的维度，获得所述第三特征图。
根据权利要求6至9中任一所述的方法，其特征在于，所述第二分支网络有多个；

至少二个所述第二分支网络的所述第五卷积层和/或所述第七卷积层共享网络参数。
根据权利要求10所述的方法，其特征在于，所述特征金字塔子网络还包括第一输出合并层；

所述第一输出合并层对共享所述第七卷积层的至少二个所述第二分支网络在所述第七卷积层之前的各自输出进行合并、并将合并结果输出至共享的所述第七卷积层。
根据权利要求1至11中任一项所述的方法，其特征在于，所述神经网络包括至少两个顺序连接的特征金字塔子网络；

第二特征金字塔子网络以第一特征金字塔子网络输出的第一特征图为输入，基于不同尺度提取所述第二特征金字塔子网络的第一特征图，所述第二特征金字塔子网络的输入端与所述第一特征金字塔子网络的输出端相连接。
根据权利要求12所述的方法，其特征在于，所述神经网络为沙漏HOURGLASS神经网络，所述沙漏HOURGLASS神经网络包括的至少一沙漏模块包括至少一所述特征金字塔子网络。
根据权利要求1至13中任一项所述的方法，其特征在于，所述神经网络的至少一网络层的初始化网络参数，从根据所述初始化网络参数的均值和方差确定的网络参数分布中获取，且所述初始化网络参数的均值为零。
根据权利要求1至14中任一项所述的方法，其特征在于，当所述神经网络中存在包括至少二个恒等映射相加的情形，在需要相加的至少一恒等映射分支中设置输出调整模块，通过输出调整模块调整该恒等映射分支输出的第一特征图。
一种图像处理装置，其特征在于，包括：

获取模块，用于获取待检测图像的特征图；

提取模块，用于通过神经网络基于至少二种不同尺度对所述特征图进行特征提取，获得至少二个其他特征图；

合并模块，用于合并所述特征图和至少二个所述其他特征图，得到所述待检测图像的第一特征图。
根据权利要求16所述的装置，其特征在于，所述装置还包括：

检测模块，用于根据所述第一特征图对所述待检测图像中的目标对象进行关键点检测。
根据权利要求17所述的装置，其特征在于，所述检测模块包括：

得分单元，用于根据所述第一特征图分别获取所述目标对象的至少一关键点的得分图；

确定单元，用于根据所述至少一个关键点的得分图中所包括的像素点的分数，确定所述目标对象的相应关键点的位置。
根据权利要求16至18中任一所述的装置，其特征在于，所述神经网络包括至少一个特征金字塔子网络，所述特征金字塔子网络包括第一分支网络以及分别与所述第一分支网络并联的至少一个第二分支网络；所述其他特征图包括第二特征图和/或第三特征图；

所述提取模块，用于利用所述第一分支网络基于所述特征图的原始尺度对所述特征图进行特征提取，获得所述第二特征图；

利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图。
根据权利要求19所述的装置，其特征在于，所述第一分支网络包括第二卷积层、第三卷积层和第四卷积层；

所述提取模块，用于基于所述第二卷积层降低所述特征图的维度；

利用所述第三卷积层基于所述特征图的原始尺度对所述降低维度后的特征图进行卷积处理；

利用所述第四卷积层提升所述经过卷积处理的特征图的维度，获得所述第二特征图。
根据权利要求19或20所述的装置，其特征在于，所述第二分支网络包括第五卷积层、降采样层、第六卷积层、上采样层和第七卷积层；

所述提取模块利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图时，用于基于所述第五卷积层降低所述特征图的维度；基于所述降采样层根据设定降采样比例对降低维度后的特征图进行降采样，其中，经过降采样后的特征图的尺度小于所述特征图的原始尺度；基于所述第六卷积层对所述经过降采样的特征图进行卷积处理；基于所述上采样层根据设定上采样比例，对经过卷积的特征图进行上采样，其中，经过上采样后的特征图的尺度等于所述特征图的原始尺度；基于所述第七卷积层提升经过上采样后的特征图的维度，获得所述第三特征图。
根据权利要求21所述的装置，其特征在于，所述第二分支网络有多个；

至少二个所述第二分支网络的设定降采样比例不同，和/或，至少二个所述第二分支网络的设定降采样比例相同。
根据权利要求21或22所述的装置，其特征在于，所述第二分支网络有多个；

至少二个所述第二分支网络的所述第六卷积层共享网络参数。
根据权利要求19或20所述的装置，其特征在于，所述第二分支网络包括第五卷积层、膨胀卷积层和第七卷积层；

所述提取模块利用至少一个所述第二分支网络基于不同于所述原始尺度的其他尺度对所述特征图进行特征提取，获得所述第三特征图时，用于基于所述第五卷积层降低所述特征图的维度；基于所述膨胀卷积层对降低维度后的所述特征图进行膨胀卷积处理，基于所述第七卷积层提升经过膨胀卷积后的特征图的维度，获得所述第三特征图。
根据权利要求21至24中任一所述的装置，其特征在于，所述第二分支网络有多个；

至少二个所述第二分支网络的所述第五卷积层和/或所述第七卷积层共享网络参数。
根据权利要求25所述的装置，其特征在于，所述特征金字塔子网络还包括第一输出合并层；

所述第一输出合并层用于对共享所述第七卷积层的至少二个所述第二分支网络在所述第七卷积层之前的各自输出进行合并、并将合并结果输出至共享的所述第七卷积层。
根据权利要求16至26中任一项所述的装置，其特征在于，所述神经网络包括至少两个顺序连接的特征金字塔子网络；

第二特征金字塔子网络以第一特征金字塔子网络输出的第一特征图为输入，基于不同尺度提取所述第二特征金字塔子网络的第一特征图，所述第二特征金字塔子网络的输入端与所述第一特征金字塔子网络的输出端相连接。
根据权利要求27所述的装置，其特征在于，所述神经网络为沙漏HOURGLASS神经网络，所述沙漏HOURGLASS神经网络包括的至少一沙漏模块包括至少一所述特征金字塔子网络。
根据权利要求16至18中任一项所述的装置，其特征在于，所述神经网络的至少一网络层的初始化网络参数，从根据所述初始化网络参数的均值和方差确定的网络参数分布中获取，且所述初始化网络参数的均值为零。
根据权利要求16至29中任一项所述的装置，其特征在于，当所述神经网络中存在包括至少二个恒等映射相加的情形，在需要相加的至少一恒等映射分支中设置输出调整模块，所述输出调整模块用于调整该恒等映射分支输出的第一特征图。
一种计算机可读存储介质，其特征在于，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现权利要求1至15中任一项所述的图像处理方法。
一种电子设备，其特征在于，包括：

处理器和权利要求16-30任一项所述的图像处理装置；在所述处理器运行所述图像处理装置时，权利要求16-30任一项所述的图像处理装置中的模块被运行。
一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至15中任一项所述的图像处理方法对应的操作。
一种计算机程序，其特征在于，包括：至少一可执行指令，所述至少一可执行指令被处理器执行时用于执行实现如权利要求1至15中任一项所述的图像处理方法对应的操作。