WO2022121075A1

WO2022121075A1 - 人体头肩区域的定位方法、定位装置和电子设备

Info

Publication number: WO2022121075A1
Application number: PCT/CN2021/070576
Authority: WO
Inventors: 王金桥; 赵朝阳; 赵旭
Original assignee: 中科视语(北京)科技有限公司
Priority date: 2020-12-09
Filing date: 2021-01-07
Publication date: 2022-06-16
Also published as: CN112507872B; CN112507872A; ZA202305848B

Abstract

本发明实施例公开了人体头肩区域的定位方法、定位装置和电子设备，该定位方法包括：将目标图像通过卷积神经网络进行卷积得到缩小后的特征图；再次进行卷积得到第一特征图、第二特征图和第三特征图；进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图；经过预测卷积层得到每个位置的概率和编码包围框输出值；将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并结合分类概率得到第一定位结果；进行包围框过滤得到第二定位结果；进行非极大值抑制得到最终定位结果。本发明直接由输入图像产生定位结果，比双阶段方法高效，同时神经网络结构轻量，能准确且高效地提取头肩区域的特征。

Description

人体头肩区域的定位方法、定位装置和电子设备

本申请要求中科视语(北京)科技有限公司于2020年12月09日提交的、发明名称为“人体头肩区域的定位方法、定位装置和电子设备”的、中国专利申请号“202011432151.6”的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及计算机视觉和模式识别技术领域，具体涉及人体头肩区域的定位方法、定位装置和电子设备。

背景技术

人体头肩区域定位，也被称为头肩检测，是将图像或视频帧中的所有人体头肩部位以矩形包围框的形式定位出来。人体头肩区域定位有着广泛的应用场景：在人群计数应用中，可通过统计人体头肩包围框的数量来计数，获得精准的数量和人群位置密度信息；在人群行为分析中，可以通过对连续视频帧中每个头肩区域进行跟踪，获得行人个体运动方向；在司乘、工地等场景的违规行为监测中，可对头肩区域定位后，对头肩区域进行分析来获得相应人员是否有抽烟、打电话、违规佩戴安全帽等行为。头肩区域定位功能往往需部署在低计算力的远程设备终端，要求头肩区域检测方法保持足够准确率前提下，拥有高执行效率和低资源占用。

相关技术为了达到高效率采用传统图像目标检测方法来定位头肩区域，例如ACF算法或DPM算法，对遮挡、模糊、暗光、姿态变化等场景表现不佳；此外，采用基于深度学习的两步目标检测方法，利用双阶段神经网络由粗到精地定位头肩区域，利用深度神经网络在图像识别上的强大特征抽取能力，但是运行效率不高且资源占用过大。

发明内容

本发明实施例的目的在于提供人体头肩区域的定位方法、定位装置和电子设备，用以解决现有在低效率终端设备上运行算法面临的高准确率和低资源占用率需求的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种人体头肩区域的定位方法，包括：

将目标图像通过卷积神经网络进行卷积得到缩小后的特征图；

将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图；

将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图；

将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值；

将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并和分类概率组合成区域定位向量，将所有预测层所有像素位置的包围框汇总在一起，得到第一定位结果；

对所述第一定位结果进行包围框过滤得到第二定位结果；

对所述第二定位结果进行非极大值抑制得到最终定位结果。

根据本发明的一个实施例，所述将目标图像通过卷积神经网络进行卷积得到缩小后的特征图，包括：

将所述目标图像采用跨度为2的卷积层，逐次按2倍进行特征图缩小得到所述缩小后的特征图。

根据本发明的一个实施例，所述卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列；其中，所述稀疏连接卷积层的输入和输出通道数相同，且在序号相同的输入通道和输出通道之间网络连接，其卷积核权重矩阵大小为 N×3×3，N为通道数。

根据本发明的一个实施例，所述卷积神经网络的激活函数为：

其中，x和y分别表示激活函数的输入输出特征图，p和q为可学习参数。

根据本发明的一个实施例，所述将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图，包括：

将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后，融合在一起得到所述第一融合特征图、所述第二融合特征图和所述第三融合特征图；

其中，所述三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核，剩余两个卷积核构成一个长焦距分支，关注头肩区域周围的上下文特征。

根据本发明的一个实施例，所述将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值，包括：

将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值；

其中，通过以下规则明确在网络输出的特征图上每个像素位置的类别和包围框坐标：

将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点；

如果所述坐标点处在某个头肩内部，则所述坐标点为正样本，该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框，否则为负样本，不匹配外包框；

根据匹配到的GT外包框可得到的GT编码，计算公式为：

Δh＝h _gt

Δw＝w _gt

其中，x _c，y _c为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标；x _gt，y _gt，h _gt，w _gt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值。Δx，Δy，Δh，Δw为网络需要输出的编码后的包围框坐标。

第二方面，本发明实施例还提供一种人体头肩区域的定位装置，包括：

获取模块，用于获取目标图像；

控制处理模块，用于将目标图像通过卷积神经网络进行卷积得到缩小后的特征图；将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图；将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图；将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值；将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并和分类概率组合成区域定位向量，将所有预测层所有像素位置的包围框汇总在一起，得到第一定位结果；对所述第一定位结果进行包围框过滤得到第二定位结果；对所述第二定位结果进行非极大值抑制得到最终定位结果。

根据本发明的一个实施例，所述控制处理模块用于将所述目标图像采用跨度为2的卷积层，逐次按2倍进行特征图缩小得到所述缩小后的特征图。

根据本发明的一个实施例，所述卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列；其中，所述稀疏连接卷积层的输入和输出通道数相同，且在序号相同的输入通道和输出通道之间网络连接，其卷积核权重矩阵大小为N×3×3，N为通道数。

根据本发明的一个实施例，所述控制处理模块用于将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后，融合在一起得到所述第一融合特征图、所述第二融合特征图和所述第三融合特征图；

根据本发明的一个实施例，所述控制处理模块用于将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值；

其中，通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标：

如果所述坐标点处在某个头肩内部且该头肩与所述坐标点的距离比其他头肩距离所述坐标点更近，则所述坐标点为正样本，该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框，否则为负样本，不匹配外包框；

根据匹配到的GT外包框可得到的GT编码，计算公式为：

Δh＝h _gt

Δw＝w _gt

第三方面，本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的人体头肩区域的检测方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，包含一个或多个程序指令，所述一个或多个程序指令用于被执行如第一方面所述的人体头肩区域的检测方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例提供的人体头肩区域的定位方法、定位装置和电子设备，神经网络以单步直接输出结果的端对端方式，直接由输入图像产生定位结果，比双阶段方法要高效。同时本发明通过对神经网络的结构进行合理设计，一方面使其更加轻量，一方面使其能准确且高效地的提取头肩区域的特征。

附图说明

为了更清楚地说明本发明新型的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本实用新型可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本实用新型所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例的人体头肩区域的定位方法的流程图。

图2为本发明一个示例中多焦点上下文信息融合结构的示意图。

图3为本发明实施例的人体头肩区域的定位装置的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”和“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”和“连接”应做广义理解，例如可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1为本发明实施例的人体头肩区域的定位方法的流程图。如图1所示，本发明实施例的人体头肩区域的定位方法，包括：

S1：将目标图像通过卷积神经网络进行卷积得到缩小后的特征图。

具体地，为了降低网络计算复杂度，本实施例在网络的输入端利用少量几个网络层快速降低特征图的分辨率，以降低卷积核滑动的空间范围，节约计算量。具体方法是，在网络的输入端的几层采用跨度为2的卷积层，逐次按2倍进行特征图缩小。和一般的卷积神经网络结构不同，本实施例不采用池化层进行特征图缩小，主要是因为池化层会带来细节信息丢失，不适用此处连续特征图缩小的结构。在这些连续下降层之后，每个跨度为2的卷积层后接若干个跨度为1的卷积层，以提取语义性更强的特征来进行头肩区域定位。

在卷积连接方式设置上，为了降低网络计算复杂度，本实施例设计了一种稀疏连接的卷积结构。常规的卷积会用同一个卷积核在所有输入通道上进行卷积操作，设卷积操作输入输出通道数分别为N、M，卷积核大小为3，则卷积核参数矩阵大小为N×M×3×3。与常规的卷积不同的是，本实施例的稀疏连接卷积方式中，其输入输出通道数相同，每个卷积只在特征图中的单个通道上进行卷积操作，形成了稀疏连接的结构，如上面的输入输出通道数以及卷积核大小设置，卷积核矩阵大小为N×3×3，N为通道数。此外，在每个稀疏连接卷积后接一个普通卷积层，其特点是卷积核空间大小为1×1，其卷积核权重矩阵为N×M×1×1，N和M分别为输入输出通道数。以融合不同特征通道间信息。本实施例的结构可以极大降低参数量和计算量。

激活函数是现代神经网络的必要构成元素，深度卷积神经网络方法一般采用ReLU函数来避免训练过程中的梯度消失问题，而ReLU函数在输入小于0的部分产生了信息丢失。ReLU函数在较大网络模型上起到正则效果，避免过拟合，而在轻量级结构上会限制模型容量，降低准确率。本实施例的激活函数的具体公式为：

其中，PQReLU为本实施例的激活函数名称，x和y分别表示激活函数的输入输出特征图，p和q为可学习参数，在卷积神经网络的训练时确定取值大小。

S2：将缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图，本实施例将分辨率为原图下采样8倍、16倍、32倍的三组特征图中深度最深的三个特征图记为P1，P2和P3。

S3：将第一特征图、第二特征图和第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图。

具体地，本实施例在预测层用不同深度的微型子网络形成多种不同感受野范围的特征图。通过此结构，可以让网络在进行头肩区域定位的决策时，参考到头肩周围的人体区域以及周围环境上下文信息，进行更精准的决策。

图2为本发明一个示例中多焦点上下文信息融合结构的示意图。如图2所示，本实施例由三个卷积核等大的稀疏连接卷积构成，其中一个卷积核构成一个短焦距分支，关注头肩区域特征，其它两个卷积核构成一个分支，关注头肩区域周围的上下文特征。该结构输入的特征图分别经两个分支提取不同视野范围的特征后，融合在一起得到融合了多焦距上下文信息的特征。本实施例在多个不同分辨率的网络层上预测不同大小的头肩区域定位结果。因此，本实施例在其中每层的预测卷积前均添加了上述上下文信息融合结构，将P1，P2和P3进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图，记为Q1，Q2和Q3。

S4：将第一融合特征图、第二融合特征图和第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值。

具体地，本发明在上述上下文信息融合结构后面用两个并行的卷积操作分别输出分类概率值和包围框框编码值。通过该策略，神经网络可以直接输出头肩区域定位结果，形成了一种端对端的结构，使算法计算都发生在神经网络部分，减少了算法环节，加速了运算，特别在专用神经网络计算芯片上可减少不同计算原件内存的交互。为了明确在网络输出的特征图上每个像素位置的类别和包围框坐标，本发明设计了如下的规则：

若该坐标点处在某个头肩内部，则该坐标点为正样本，该头肩的外包框即为该坐标点匹配到的Ground Truth(GT)外包框，否则为负样本，不匹配外包框；

根据匹配到的GT外包框可得到的GT编码，计算公式为：

Δh＝h _gt

Δw＝w _gt

基于神经网络的算法结构需要基于一定数量样本和特定损失函数进行训练来产生有用的功能。本实施例在训练阶段，需采集足够数量的包含头肩的图像，并将头肩区域以(x _gt，y _gt，h _gt，w _gt)的格式标注出来。在训练时，分类输出的监督采用交叉熵损失函数，定位环节的监督采用SmoothL1损失函数。

本实施例将Q1，Q2和Q3分别经过预测卷积层得到每个位置的概率c _ij和编码包围框输出值ΔB _ij。其中下标i代表预测层的序号，下标j代表像素位置编号。

S5：将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并和分类概率组合成(c，x，y，w，h)的区域定位向量，将所有预测层所有像素位置的包围框汇总在一起，得到第一定位结果。

S6：对第一定位结果进行包围框过滤，利用预先设置的阈值θ将c＜θ的包围框进行过滤，得到第二定位结果。

S7：对第二定位结果进行应用目标检测算法中的非极大值抑制得到最终定位结果。

本发明实施例提供的人体头肩区域的定位方法，神经网络以单步直接输出结果的端对端方式，直接由输入图像产生定位结果，比双阶段方法要高效。同时本发明通过对神经网络的结构进行合理设计，一方面使其更加轻量，一方面使其能准确且高效地的提取头肩区域的特征。

图3为本发明实施例的人体头肩区域的定位装置的结构框图。如图3所示，本发明实施例的人体头肩区域的定位装置，包括：获取模块100和控制处理模块200。

其中，获取模块100用于获取目标图像。

控制处理模块200用于：将目标图像通过卷积神经网络进行卷积得到缩小后的特征图；将缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图；将第一特征图、第二特征图和第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图；将第一融合特征图、第二融合特征图和第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值；将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并和分类概率组合成区域定位向量，将所有预测层所有像素位置的包围框汇总在一起，得到第一定位结果；对第一定位结果进行包围框过滤得到第二定位结果；对第二定位结果进行非极大值抑制得到最终定位结果。

在本发明的一个实施例中，控制处理模块200用于将目标图像采用跨度为2的卷积层，逐次按2倍进行特征图缩小得到缩小后的特征图。

在本发明的一个实施例中，卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列；其中，稀疏连接卷积层的输入和输出通道数相同，且在序号相同的输入通道和输出通道之间网络连接，其卷积核权重矩阵大小为N×3×3，N为通道数。

在本发明的一个实施例中，卷积神经网络的激活函数为：

在本发明的一个实施例中，控制处理模块200用于将第一特征图、第二特征图和第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后，融合在一起得到第一融合特征图、第二融合特征图和第三融合特征图。其中，三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核，剩余两个卷积核构成一个长焦距分支，关注头肩区域周围的上下文特征。

在本发明的一个实施例中，控制处理模块200用于将第一融合特征图、第二融合特征图和第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值。其中，通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标：将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点；如果坐标点处在某个头肩内部，则坐标点为正样本，该头肩的外包框即为坐标点匹配到的基本事实GT外包框，否则为负样本，不匹配外包框；根据匹配到的GT外包框可得到的GT编码，计算公式为：

Δh＝h _gt

Δw＝w _gt

需要说明的是，本发明实施例的人体头肩区域的定位装置的具体实施方式与本发明实施例的人体头肩区域的定位方法的具体实施方式类似，具体参见人体头肩区域的定位方法部分的描述，为了减少冗余，不做赘述。

另外，本发明实施例的人体头肩区域的定位装置的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的人体头肩区域的定位方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的人体头肩区域的定位方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明的基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本实用新型精神的基础上所做的这些修改或改进，均属于本实用新型要求保护的范围。

Claims

一种人体头肩区域的定位方法，其特征在于，包括：

将目标图像通过卷积神经网络进行卷积得到缩小后的特征图；

将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图；

将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图；

将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值；

将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并和分类概率组合成区域定位向量，将所有预测层所有像素位置的包围框汇总在一起，得到第一定位结果；

对所述第一定位结果进行包围框过滤得到第二定位结果；

对所述第二定位结果进行非极大值抑制得到最终定位结果。
根据权利要求1所述的人体头肩区域的定位方法，其特征在于，所述将目标图像通过卷积神经网络进行卷积得到缩小后的特征图，包括：

将所述目标图像采用跨度为2的卷积层，逐次按2倍进行特征图缩小得到所述缩小后的特征图。
根据权利要求1所述的人体头肩区域的定位方法，其特征在于，所述卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列；其中，所述稀疏连接卷积层的输入和输出通道数相同，且在序号相同的输入通道和输出通道之间网络连接，其卷积核权重矩阵大小为N×3×3，N为通道数。
根据权利要求1所述的人体头肩区域的定位方法，其特征在于，所述卷积神经网络的激活函数为：

其中，x和y分别表示激活函数的输入输出特征图，p和q为可学习参数。
根据权利要求1所述的人体头肩区域的定位方法，其特征在于，所述将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图，包括：

将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后，融合在一起得到所述第一融合特征图、所述第二融合特征图和所述第三融合特征图；

其中，所述三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核，剩余两个卷积核构成一个长焦距分支，关注头肩区域周围的上下文特征。
根据权利要求1所述的人体头肩区域的定位方法，其特征在于，所述将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值，包括：

将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值；

其中，通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标：

将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点；

如果所述坐标点处在某个头肩内部且该头肩与所述坐标点的距离比其他头肩距离所述坐标点更近，则所述坐标点为正样本，该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框，否则为负样本，不匹配外包框；

根据匹配到的GT外包框可得到的GT编码，计算公式为：

Δh＝h _gt

Δw＝w _gt

其中，x _c，y _c为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标；x _gt，y _gt，h _gt，w _gt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值。Δx，Δy，Δh，Δw为网络需要输出的编码后的包围框坐标。
一种人体头肩区域的定位装置，其特征在于，包括：

获取模块，用于获取目标图像；

控制处理模块，用于将目标图像通过卷积神经网络进行卷积得到缩小后的特征图；将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图；将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图；将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值；将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标，并和分类概率组合成区域定位向量，将所有预测层所有像素位置的包围框汇总在一起，得到第一定位结果；对所述第一定位结果进行包围框过滤得到第二定位结果；对所述第二定位结果进行非极大值抑制得到最终定位结果。
一种电子设备，其特征在于，所述电子设备包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-6任一项所述的人体头肩区域的定位方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-6任一项所述的人体头肩区域的定位方法。