WO2019210555A1

WO2019210555A1 - 一种基于深度神经网络的人数统计方法及装置、存储介质

Info

Publication number: WO2019210555A1
Application number: PCT/CN2018/091569
Authority: WO
Inventors: 袁誉乐; 曹建民; 崔小乐; 叶青松
Original assignee: 深圳技术大学（筹）
Priority date: 2018-05-04
Filing date: 2018-06-15
Publication date: 2019-11-07
Also published as: CN108830145A; CN108830145B

Abstract

一种基于深度神经网络的人数统计方法及装置、存储介质，包括获取待检测图像，根据待检测图像得到背景图像和前景图像，对前景图像进行深度神经网络处理，以统计前景图像中人体关键部位的数量，根据人体关键部位的统计结果比较获得待检测图像中的人数。由于仅对前景图像进行深度神经网络处理来识别图像中的人体关键部位，可避免背景图像的信息干扰作用，省去背景像素的检测耗时，加快了算法的运算速度。采用标记有人体关键部位的训练数据对构建的深度神经网络进行训练，提高人体关键部位的获取准确性，利于根据多种人体关键部位的数量统计结果比较得到图像中的人数，即使在某些部位被遮挡时，也能较好地识别出该人体，从而提高人数统计的准确率。

Description

一种基于深度神经网络的人数统计方法及装置、存储介质

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度神经网络的人数统计方法及装置、存储介质。

背景技术

随着当代社会人口快速增长的作用，由于人群聚集而引起的慌乱情形已经不止一次地发生，监控人群数量和维护社会治安已变得越来越重要，人群数量统计是人群监控的重要研究方向之一，侧重于统计人数，通常要求统计结果能精确到具体人数，统计结果也可作为人群密度估计的影响参数。传统的依靠人力来进行人群监控的方式，容易产生视觉疲劳、容易受到个人主观因素影响，致使统计结果不准确。但随着社会科技的日新月异，特别是机器视觉等技术的发展，使得实时统计图像中人数称为可能。

当前，众多场合对人群数量统计提出了越来越高的要求，比如对博物馆或者著名旅游景点的人数统计以监控并及时处理人群拥挤情形，对车站等公共场所进行人数统计以及时安排疏散安全通道并避免人流过大引起拥堵，对商场的人群统计可以合理地布局商品摆放位置以增加购买度，对广告位前的停留人数进行统计以广告厂商便合理地布局其广告策略，总之，人群数量统计具有广泛的市场需求和应用前景。

近年来，利用计算机视觉技术对监控图像或视频进行人数统计的方法得以实现，可广泛应用在如踩踏预警、交通疏导、商铺人流评估、出勤率统计等项目场景中。然而，现有的人数统计系统对于人群拥挤环境还时常存在较大的统计误差，这是因为在拥挤环境下人群中的个体之间会相互遮挡，导致人体肩膀以下的肢体特征无法被可靠的利用，而仅对头肩部位的肢体特征进行特征提取和定位时，因头肩形状曲线相对简单等因素致使容易发生混淆背景纹理特征的情况，产生大量的漏检或误检问题。

此外，也有采用全卷积网络模型、金字塔图模型、神经网络训练模型来进行人数统计的方式，但是，现有的此类模型需要融合大量的人工特征，设计特征复杂，使用起来步骤繁琐，致使计算量大、输出速度慢，尚不能在实时性要求较高的监控场景中进行应用。

发明内容

本发明主要解决的技术问题是如何克服现有技术的不足，提高人群场景复杂情形下人数统计结果的准确性和实时性。为解决上述问题，本申请提供了一种基于深度神经网络的人数统计方法。

根据第一方面，一种实施例中提供一种基于深度神经网络的人数统计方法,包括以下步骤：

获取待检测图像；

根据所述待检测图像得到背景图像和前景图像；

对所述前景图像进行深度神经网络处理，以统计所述前景图像中人体关键部位的数量；

根据人体关键部位的统计结果比较获得所述待检测图像中的人数。

所述获取待检测图像，包括：获取待监控人群的视频；从所述视频的图像序列中逐一选择一帧图像以作为所述待检测图像。

所述根据所述待检测图像得到背景图像和前景图像，包括：

对所述待检测图像进行区域检测，根据区域检测结果构建背景模型；

判断所述背景模型是否包括所述视频的所有背景信息，所述背景信息为非人物体的图像信息；

若判断结果为是，则将所述背景模型中的所有背景信息作为所述背景图像，所述背景图像包括所述视频中所有非人物体的图像信息；

若判断结果为否，则对下一帧的待检测图像进行区域检测，根据区域检测结果更新所述背景模型，直至判断所述背景模型包括所述视频的所有背景信息；

根据所述背景图像对所述待检测图像进行背景差分处理，获得所述前景图像，所述前景图像包括所述待检测图像中所有人体的图像信息。

所述对所述待检测图像进行区域检测，根据区域检测结果构建背景模型，包括：将所述待检测图像输入基于YOLO V3的物体检测模型，获得有人区域和无人区域；构建一与所述待检测图像具有像素一一对应关系的背景模型，将所述背景模型中与所述无人区域相对应像素点的像素值设定为所述无人区域中各像素点的像素值，将所述背景模型中与所述有人区域相对应像素点的像素值设定为第一值。

所述判断所述背景模型是否包括所述视频的所有背景信息，包括：判断所述背景模型中是否存在第一值的像素点，若不存在，则认为所述背景模型包括所述视频的所有背景信息，反之，则认为所述背景模型未包括所述视频的所有背景信息。

所述若判断结果为否，则对下一帧的待检测图像进行区域检测，根据区域检测结果更新背景模型，直至判断所述背景模型包括所述视频的所有背景信息，包括：

判断结果为否，则将下一帧的待检测图像输入基于YOLO V3的物体检测模型，获得新无人区域；

根据新无人区域中各像素点的像素值，对所述背景模型中与新无人区域相对应像素点的像素值进行更新，以消除所述背景模型中与新无人区域相对应像素点之中存在的第一值；

重复更新所述背景模型，直至判断所述背景模型中不存在第一值的像素点。

所述对所述前景图像进行深度神经网络处理，以统计所述前景图像中人体关键部位的数量，包括：

设置深度神经网络的拓扑结构；

获取标定人体关键部位的训练数据；

根据所述训练数据训练所述拓扑结构的模型参数；

将所述前景图像输入所述拓扑结构，根据所述拓扑结构在所述训练数据上的分布特征构建所述前景图像中的人体关键部位；

获取所述前景图像中人体关键部位的数量。

所述拓扑结构包括串联连接的滤波器、多个卷积结构、通道和softmax函数处理器。

所述根据人体关键部位的统计结果比较获得所述待检测图像中的人数，包括：分别统计每种人体关键部位的数量，根据每种人体部位的数量计算该人体关键部位对应的人数；获取各种人体关键部位对应的人数的最大值，将最大值作为所述待检测图像中的人数。

根据第二方面，一种实施例中提供一种基于深度神经网络的人数统计装置，包括：

待检测图像获取单元，用于获取待检测图像；

前景背景图像获取单元，用于根据所述待检测图像得到背景图像和前景图像；

神经网络处理单元，用于对所述前景图像进行深度神经网络处理，以统计所述前景图像中人体关键部位的数量；

人数统计单元，用于根据人体关键部位的统计结果比较获得所述待检测图像中的人数。

所述人数统计装置还包括显示单元；所述显示单元用于实时显示所述待检测图像以及当前待检测图像中的人数数值。

根据第三方面，一种实施例中提供一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

本申请的有益效果是：

依据上述实施例的一种基于深度神经网络的人数统计方法及装置、存储介质，包括获取待检测图像，根据待检测图像得到背景图像和前景图像，对前景图像进行深度神经网络处理，以统计前景图像中人体关键部位的数量，根据人体关键部位的统计结果比较获得待检测图像中的人数。由于在获取待检测图像的背景图像时，利用帧图像之间的相关性，每次都根据待检测图像中的无人区域更新背景模型，使得背景图像能够保持实时的完整性，利于通过背景差分法快捷地从待检测图像中获取前景图像。而且，仅对前景图像进行深度神经网络处理来识别图像中的人体关键部位，可避免背景图像的信息干扰作用，省去背景像素点的检测耗时，加快了算法的运算速度，以使算法能够在较低性能的硬件平台上持续运行，降低应用成本。此外，采用标记有人体关键部位的训练数据对构建的深度神经网络进行训练，提高了前景图像中人体关键部位的获取准确性，利于根据多种人体关键部位的数量统计结果比较得到图像中的人数，即使在人体某些部位被遮挡时，也能较好地识别出该人体，从而提高人数统计结果的准确率。

附图说明

图1为人数统计方法的流程图；

图2为获取待检测图像的流程图；

图3为获取前景图像的流程图；

图4为构建背景模型的流程图；

图5为深度神经网络处理的流程图；

图6为比较获得人数的流程图；

图7为深度神经网络的拓扑结构的结构图；

图8为人体关键部位模型的结构图；

图9为卷积单元的结构图；

图10为人数统计装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

请参考图1，本申请公开了一种基于深度神经网络的人数统计方法，能够通过深度神经网络处理后从待检测图像之中获取图像中的人数，具有快速、准确的处理效果，该人数统计方法包括步骤S100-S400，下面分别说明。

步骤S100，获取待检测图像，在采用电子设备对人群数量进行监控时，往往需要通过照相机、摄像机等图像采集装置获取所监控人群的图像，那么，在一实施例中，见图2，该步骤S100可包括步骤S110-S120，分别说明如下。

步骤S110，通过移动摄像机、监控摄像头、手机相机等装置持续对会场、通道等人群易集聚场所进行摄像，以获取待监控人群的视频。本领域的技术人员应当理解，这里的所获取视频内容包括无人、少数人的人群、多数人的人群等情况，而且视频中的人和环境物体可能处于连续的位置移动或姿态变化状态，因此，视频应当具有较好的画质和流畅度。

步骤S120，待监控人群的视频往往是由时间上连续的一幅幅的帧图像构成，每帧图像中的人和环境物体都处于相对静止的状态，因此，可将视频序列中的帧图像作为待检测图像，读取帧图像的方法属于现有技术，这里不进行详细说明。为达到连续监控人群数量的效果，应当从视频的图像序列中逐一选择一帧图像以作为待检测图像，对每帧图像进行处理以获得当前时刻图像中的人数，如此，可通过连续的帧图像实时获取待检测图像中的人数，实现人群数量的动态监控效果。

步骤S200，根据待检测图像得到背景图像和前景图像，在一实施例中，见图3，该步骤S200可包括步骤S210-S250，具体说明如下。

步骤S210，对步骤S120中所获得的待检测图像进行区域检测，根据区域检测结果构建背景模型，在一实施例中，见图4，该步骤S210可包括步骤S211-S213。

步骤S211，将待检测图像输入一图像检测程序，以判断待检测图像中哪些区域属于人体，哪些区域属于环境物体。在一具体实施例中，将待检测图像输入基于YOLO V3的物体检测模型，获得有人区域和无人区域，其中无人区域包括非人体的其它物体(比如建筑物、自然景观等)。

需要说明的是，YOLO V3是YOLO官网公布的第三个版本，是一种用于目标检测的经典算法，具有深度神经网络的训练和学习特征，能够把输入的图像划分成众多图像块，用分类器去判断每个图像块中是否包含有物体，以及识别物体所属的类别，具有检测物体非常快、避免背景错误、物体类别泛化特征学习等优势。那么，本实施例中，采用基于YOLO V3的物体检测模型对待检测图像进行处理时，易于根据人体和非人体的泛化特征获得待检测图像中的有人区域和无人区域。

步骤S212，构建一与待检测图像具有像素一一对应关系的背景模型，将背景模型中与有人区域相对应像素点的像素值设定为第一值(比如-1)。

需要说明的是，在首次构建所监控区域的背景模型时，可将背景模型中与有人区域相对应像素点的像素值设定为第一值，而在背景模型已经构建之后，可省略该步骤S212，仅通过步骤S213对背景模型进行更新。

步骤S213，由于待检测图像中的每个像素点都具有特定的像素值(如在图像编码方式中，常用8位表示一个像素，则每个像素点具有256个灰度等级，在0～255之间取像素值)，那么，将背景模型中与无人区域相对应像素点的像素值设定为无人区域中各像素点的像素值。

在一具体实施例中，待检测图像中各像素点的像素值可用下面的公式进行表示

Bg(i)[x,y]＝(Cr(i)[x,y]+Bg(i-1)[x,y]+Bg(i-2)[x,y])/3

其中，Bg(i)[x,y]表示第i帧图像在像素坐标[x,y]处的像素值，Cr(i)[x,y]表示第i帧图像在像素坐标[x,y]处的初始像素值，Bg(i-1)[x,y]表示前一帧图像在像素坐标[x,y]处的像素值，Bg(i-2)[x,y]表示再前一帧图像在像素坐标[x,y]处的像素值；i为整数，表示图像序列中的帧图像编号；x取值范围是0～w，y的取值范围是0～h，w为帧图像的像素宽度，h为帧图像的像素高度。

那么，取Cr(i)[x,y]、Bg(i-1)[x,y]、Bg(i-2)[x,y]三者的平均值作为当前帧图像在像素坐标[x,y]处的像素值，或者取更多个前面的帧图像来计算平均值并将其作为当前帧图像在像素坐标[x,y]处的像素值，如此，有利于保证每帧图像中各像素点取值过程的平稳性，有效避免摄像环境突变而引起的有人区域和无人区域获取效果差的情形。

步骤S220，判断背景模型是否包括视频的所有背景信息，这里的背景信息是指非人物体的图像信息，那么，即判断背景模型中是否包括视频监控范围内除人体之外的所有环境物体对应的图像信息，如果判断结果为否，则进入步骤S230，反之，则进入步骤S240。

在一具体实施例中，背景模型中与有人区域相对应像素点的像素值设定为第一值(比如-1)，背景模型中与无人区域相对应像素点的像素值设定为无人区域中各像素点的像素值(比如0～255)，那么，可对背景模型中各像素点的像素值进行判断，详见图4中的步骤S221，判断背景模型中是否存在第一值的像素点(即判断每个像素点像素值是否小于0)，若存在第一值的像素点(即某一个像素点的像素值为-1)，则表明背景模型中存在有人区域对应的像素点，那么认为背景模型中未包括视频的所有背景信息，进入步骤S230；若不存在第一值的像素点(即所有像素点的像素值均大于-1)，则认为背景模型包括视频的所有背景信息，进入步骤S240。

步骤S230，为使得背景模型中包括视频的所有背景信息，这里对下一帧的待检测图像进行区域检测，根据区域检测结果更新背景模型，直至判断背景模型包括视频的所有背景信息。在一具体实施例中，见图4，步骤S230包括步骤S231-S232。

步骤S231，则将下一帧的待检测图像输入基于YOLO V3的物体检测模型，获得新无人区域，获取新无人区域的方法可参考步骤S211。

步骤S232，根据新无人区域中各像素点的像素值，对背景模型中与新无人区域相对应像素点的像素值进行更新，以消除背景模型中与新无人区域相对应像素点之中存在的第一值。

需要说明的是，待监控人群的视频中的人体处于位置移动和姿态变化状态，随着人体的位置或姿态的改变，当前帧图像中被人体遮挡的环境物体将在下一帧图像或者接下来的多帧图像中显露出来，那么可将逐渐显露出来的环境物体对应的背景信息及时更新至背景模型中，来逐渐消除背景模型中与有人区域相对应的像素点的值。

在另一个实施例中，可循环执行步骤S221-S231-S232，来重复更新背景模型，最终使得背景模型中包括所有的背景信息，直至在步骤S221中判断背景模型中不存在第一值的像素点。

在另一个实施例中，通过摄像装置预先拍摄了被监控人群所处的场所图像，那么，待监控人群的视频序列中将存在仅包括环境物体的帧图像，此时，可选择该帧图像构建背景模型，使得背景模型中不存在第一值的像素点，由步骤S220进行判断时，直接进入步骤S240，而无需循环执行步骤S221-S231-S232，来重复更新背景模型。

步骤S240，将背景模型中的所有背景信息作为所述背景图像，这里的背景图像包括视频中所有非人物体的图像信息，即背景图像包括监控范围内所有环境物体对应的图像信息。

需要说明的是，待监控人群的视频中的人体会处于变动状态，但环境物体往往处于静止或轻微变动状态，那么，认为得到的背景图像在短时间内不会发生变化，因此，可将背景图像作为下一次获取待检测图像中无人区域的基础模板。

步骤S250，根据背景图像对待检测图像进行背景差分处理，获得前景图像，这里的前景图像包括待检测图像中所有人体的图像信息。背景差分处理是一种常见的图像处理方法，属于现有技术，在本实施例中，是将待检测图像中的无人区域与背景图像进行匹配，得到区域范围更为精确的无人区域，然后在待检测图像中差分去除该无人区域，即得到区域范围较为准确的有人区域。

本领域的技术人员应当理解，通过步骤S210-S250，不但获得了较为完整的包括所有背景信息的背景图像，还可根据背景图像获得较为精确的前景图像，那么当前得到的背景图像具有参考作用，可作为获得下一帧待检测图像的前景图像的参考模板，通过步骤S213对该背景模型进行实时更新，从而对该背景图像进行实时更新，那么，在获得下一帧待检测图像的前景图像时，可将该更新的背景图像作为依据，进行背景差分处理以得到下一帧待检测图像的前景图像，如此可省略步骤S230的更新背景模型过程。

在另一个实施例中，步骤S200可忽略子步骤S220-S240，直接由子骤S210和步骤S250获取前景图像。第一种方案是：根据步骤S210所公开的方法获取待检测图像中的有人区域和无人区域，将背景模型中与无人区域相对应像素点的像素值设定为无人区域中各像素点的像素值，并将背景模型中无人区域对应的背景信息作为背景图像，虽然，此时的背景图像只包括待检测图像中能够显示的环境物体，但是，仍可以通过步骤S250所公开的方法在待检测图像中差分处理掉背景图像，以获取前景图像。第二种方案是，根据步骤S210所公开的方法获取待检测图像中的有人区域和无人区域，不构建背景模型，而是在步骤S250中直接有人区域对应的图像信息进行整合，将该部分整合的图像信息作为前景图像，如此可节省构建背景模型的时间，但也会造成有人区域不够精确的问题，用户可以根据实际需求选择该方案。

步骤S300，对步骤S250中得到的前景图像进行深度神经网络处理，以统计前景图像中人体关键部位的数量。在一实施例中，见图5，该步骤S300可包括步骤S310-S350，具体说明如下。

步骤S310，设置深度神经网络(deep neural networks，DNN)的拓扑结构，如图7所示，该拓扑结构包括串联连接的滤波器、多个卷积结构(优选地采用7个瓶颈卷积结构)、通道和softmax函数处理器。

需要说明的是，滤波器是图像处理过程中的一种常用技术手段，包括线性滤波、高通滤波和低通滤波等形式，这里采用滤波器是将输入的前景图像进行滤波处理，消除前景图像中的异常图像信息。卷积结构是神经网络中常见的功能单元，其主要功能为通过训练后，获取图像分类或者回归所需特征。本申请中的卷积单元在瓶颈(bottleneck)卷积概念的基础上增加一个并行的1x1的卷积单元，这样会使得获取的图像特征更为丰富，最后的模型识别率更准确。Softmax函数是一种典型的分类方法，根据概率来决定分类或者回归，属于现有技术。

步骤S320，如图8所示，构建人体关键部位的模型，获取模型中头部A，肩部B和C，臂部D和E，手部F和G，腿部I、H、J和K等部位的泛化特征，并将该些泛化特征作为标定人体关键部位的训练数据。

步骤S330，根据步骤S320中获取的训练数据训练拓扑结构的模型参数，在一实施例中，得到的模型参数可见表1。

表1 拓扑结构的模型参数

表1中每个卷积单元的具体结构可见图9，其中，BN为归一化处理函数，用于对每个神经元做归一化处理，属于现有技术；RELU为激活函数，用于保证训练过程的高效性，属于现有技术，这里不再进行详细说明。

经过步骤S330之后，最终得到的拓扑结构可见图7。

步骤S340，将步骤S250中获取的前景图像输入得到的拓扑结构，根据拓扑结构在训练数据上的分布特征构建前景图像中的人体关键部位。在一实施例中，主要构建11个类比的人体关键部位(包括头部A，肩部B和C，臂部D和E，手部F和G，腿部I、H、J和K)，在前景图像中对该些人体关键部位进行标记。

步骤S350，获取前景图像中人体关键部位的数量，并用字母N对该些人体关键部位的数量进行统计，各个人体关键部位的统计结果为N _A、N _B、N _C、N _D、N _E、N _F、N _G、N _H、N _I、N _J、N _K。

步骤S400，根据人体关键部位的统计结果比较获得待检测图像中的人数。在一实施例中，见图6，该步骤S400可包括步骤S410-S420。

步骤S410，分别统计每种人体关键部位的数量，根据每种人体部位的数量计算该人体关键部位对应的人数。例如，采用max(N _B，N _C)的求最值函数获得肩部对应的人数，采用max(N _D，N _E)的求最值函数获得臂部对应的人数，采用max(N _F，N _G)的求最值函数获得手部对应的人数，采用max(N _H，N _I)的求最值函数获得腿部对应的人数，还可以采用max(N _J，N _K)的求最值函数获得腿部对应的人数。

步骤S420，获取各种人体关键部位对应的人数的最大值，将最大值作为待检测图像中的人数。在一实施例中，采用如下公式求取最大值

最大值＝max{N _A,max(N _B，N _C),max(N _D，N _E),max(N _F，N _G),max(N _H，N _I),max(N _J，N _K)

那么，将该最大值作为待检测图像中的人数。

在一个实施例中，本申请公开了一种基于深度神经网络的人数统计装置，见图10。该人数统计装置5包括待检测图像获取单元51、前景背景图像获取单元52、神经网络处理单元53和人数统计单元54，下面分别说明。

待检测图像获取单元51用于获取待检测图像，获取待检测图像的具体过程可参考步骤S100，这里不再赘述。

前景背景图像获取单元52与待检测图像获取单元51通信连接，用于根据待检测图像得到背景图像和前景图像，具体过程可参考步骤S200，这里不再赘述。

神经网络处理单元53与前景背景图像获取单元52通信连接，用于对前景图像进行深度神经网络处理，以统计前景图像中人体关键部位的数量，具体过程可参考步骤S300，这里不再赘述。

人数统计单元54与神经网络处理单元53通信连接，用于根据人体关键部位的统计结果比较获得待检测图像中的人数，具体过程可参考步骤S400，这里不再进行赘述。

需要说明的是，待检测图像获取单元51、前景背景图像获取单元52、神经网络处理单元53和人数统计单元54可分别为程序中的程序处理模块，可分别根据各自的处理逻辑来实现相应的功能。

在另一个实施例中，人数统计装置5还可以包括显示单元55，显示单元55可与人数统计单元54通信连接，用于实时显示待检测图像以及当前待检测图像中的人数数值，甚至显示单元55还可以实时显示待检测图像中人体的关键部位，以便于用户更直观生动地观察到显示画面中人群的移动状态。此外，显示单元55可为电视、显示屏、投影仪等可进行画面展示的各种类型的显示设备。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

一种基于深度神经网络的人数统计方法,其特征在于，包括以下步骤：

获取待检测图像；

根据所述待检测图像得到背景图像和前景图像；

对所述前景图像进行深度神经网络处理，以统计所述前景图像中人体关键部位的数量；

根据人体关键部位的统计结果比较获得所述待检测图像中的人数。
如权利要求1所述的基于深度神经网络的人数统计方法，其特征在于，所述获取待检测图像，包括：

获取待监控人群的视频；

从所述视频的图像序列中逐一选择一帧图像以作为所述待检测图像。
如权利要求2所述的基于深度神经网络的人数统计方法，其特征在于，所述根据所述待检测图像得到背景图像和前景图像，包括：

对所述待检测图像进行区域检测，根据区域检测结果构建背景模型；

判断所述背景模型是否包括所述视频的所有背景信息，所述背景信息为非人物体的图像信息；

若判断结果为是，则将所述背景模型中的所有背景信息作为所述背景图像，所述背景图像包括所述视频中所有非人物体的图像信息；

若判断结果为否，则对下一帧的待检测图像进行区域检测，根据区域检测结果更新所述背景模型，直至判断所述背景模型包括所述视频的所有背景信息；

根据所述背景图像对所述待检测图像进行背景差分处理，获得所述前景图像，所述前景图像包括所述待检测图像中所有人体的图像信息。
如权利要求3所述的基于深度神经网络的人数统计方法，其特征在于，所述对所述待检测图像进行区域检测，根据区域检测结果构建背景模型，包括：

将所述待检测图像输入基于YOLO V3的物体检测模型，获得有人区域和无人区域；

构建一与所述待检测图像具有像素一一对应关系的背景模型，将所述背景模型中与所述无人区域相对应像素点的像素值设定为所述无人区域中各像素点的像素值,将所述背景模型中与所述有人区域相对应像素点的像素值设定为第一值。
如权利要求4所述的基于深度神经网络的人数统计方法，其特征在于，所述判断所述背景模型是否包括所述视频的所有背景信息，包括：

判断所述背景模型中是否存在第一值的像素点，若不存在，则认为所述背景模型包括所述视频的所有背景信息，反之，则认为所述背景模型未包括所述视频的所有背景信息。
如权利要求5所述的基于深度神经网络的人数统计方法，其特征在于，所述若判断结果为否，则对下一帧的待检测图像进行区域检测，根据区域检测结果更新背景模型，直至判断所述背景模型包括所述视频的所有背景信息，包括：

判断结果为否，则将下一帧的待检测图像输入基于YOLO V3的物体检测模型，获得新无人区域；

根据新无人区域中各像素点的像素值，对所述背景模型中与新无人区域相对应像素点的像素值进行更新，以消除所述背景模型中与新无人区域相对应像素点之中存在的第一值；

重复更新所述背景模型，直至判断所述背景模型中不存在第一值的像素点。
如权利要求1所述的基于深度神经网络的人数统计方法，其特征在于，所述对所述前景图像进行深度神经网络处理，以统计所述前景图像中人体关键部位的数量，包括：

设置深度神经网络的拓扑结构；

获取标定人体关键部位的训练数据；

根据所述训练数据训练所述拓扑结构的模型参数；

将所述前景图像输入所述拓扑结构，根据所述拓扑结构在所述训练数据上的分布特征构建所述前景图像中的人体关键部位；

获取所述前景图像中人体关键部位的数量。
如权利要求7所述的基于深度神经网络的人数统计方法，其特征在于，所述拓扑结构包括串联连接的滤波器、多个卷积结构、通道和softmax函数处理器。
如权利要求7所述的基于深度神经网络的人数统计方法，其特征在于，所述根据人体关键部位的统计结果比较获得所述待检测图像中的人数，包括：

分别统计每种人体关键部位的数量，根据每种人体部位的数量计算该人体关键部位对应的人数；

获取各种人体关键部位对应的人数的最大值，将最大值作为所述待检测图像中的人数。
一种基于深度神经网络的人数统计装置，其特征在于，包括：

待检测图像获取单元，用于获取待检测图像；

前景背景图像获取单元，用于根据所述待检测图像得到背景图像和前景图像；

神经网络处理单元，用于对所述前景图像进行深度神经网络处理，以统计所述前景图像中人体关键部位的数量；

人数统计单元，用于根据人体关键部位的统计结果比较获得所述待检测图像中的人数。
如权利要求10所述的基于深度神经网络的人数统计装置，其特征在于，还包括显示单元；

所述显示单元用于实时显示所述待检测图像以及当前待检测图像中的人数数值。
一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-9中任一项所述的方法。