WO2021051547A1

WO2021051547A1 - 暴力行为检测方法及系统

Info

Publication number: WO2021051547A1
Application number: PCT/CN2019/117407
Authority: WO
Inventors: 王健宗; 王义文
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-16
Filing date: 2019-11-12
Publication date: 2021-03-25
Also published as: CN111104841B; CN111104841A

Abstract

一种暴力行为检测方法，包括：通过摄像头获取场景图像；将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。本申请实施例还提供一种暴力行为检测系统、计算机设备及可读存储介质。通过本申请实施例，能够成功地定位各个人体关键点，极大的提高了识别的准确率，并降低了运算量。

Description

暴力行为检测方法及系统

本申请要求于2019年9月16日提交中国专利局，专利名称为“暴力行为检测方法及系统”，申请号为201910872172.0的发明专利的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及大数据领域，尤其涉及一种暴力行为检测方法、暴力行为检测系统、计算机设备及可读存储介质。

背景技术

近年来，随着个人行为活动和恐怖组织威胁发生频率的增加，找到新的方法来保持安全、遏制行为具有重要的现实意义。长期以来，监视被认为是有效的行为威慑手段，但当发生暴恐事件时，人的情绪慌张、四处躲避，无法有效拨打报警电话获取求助，实时检测则会第一时间有效的触发报警。其利用公共场所监控摄像头视频的实时传输，将发生事件的数据逐帧传入云端进行处理，并且会逐时间处理非暴力事件的冗余信息，保存暴力事件的监控信息。检测到人体暴力行为会触发距离监控摄像点最近的相关依法处理部门，有助于维护社会稳定和长治久安。而其他的应用场景也十分广泛，例如：实时监控校园公共区域和死角的校园暴力行为、医院伤患家属与医生发生的暴力行为、公交/地铁等交通工具上发生的暴力行为。

现有技术中，人体姿态估计的方法包括：

1.结构化特征学习(Structured Feature Learning)，其是在卷积神经网络(Convolutional Neural Network,CNN)的基础上进行微调，然这种多人姿态估计的准确度不高；

2.深切(Deepcut以及Deepercut)，其是使用CNN提取身体部分候选区域，然这种方式计算复杂度非常大，速度慢；

3.卷积姿态机(Convolutiona Pose Machine,CPM)，使用顺序化的卷积架构来表达空间信息和纹理信息，虽具有很好的鲁棒性，然，网络较为复杂。

发明人发现，虽然还有其他人体姿态估计的方法对人体姿态估计有些好的表现，但是仍然存在较多问题，例如：被遮挡的关键点、不可见的关键点和复杂的背景，这些问题不能很好的解决。

发明内容

有鉴于此，有必要提供一种暴力行为检测方法、暴力行为检测系统、计算机设备及可读存储介质，能够成功地定位各个人体关键点，极大的提高了识别的准确率，并降低了运算量。

为实现上述目的，本申请实施例提供了一种暴力行为检测方法，所述方法包括：

通过摄像头获取场景图像；

将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；

利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及

将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。

为实现上述目的，本申请实施例还提供了一种暴力行为检测系统，包括：

获取模块，用于通过摄像头获取场景图像；

检测模块，用于将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；

人体姿态估计模块，用于利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及

分类模块，用于将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。

为实现上述目的，本申请实施例还提供了一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

通过摄像头获取场景图像；

为实现上述目的，本申请实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

通过摄像头获取场景图像；

本申请实施例提供的暴力行为检测方法、暴力行为检测系统、计算机设备及可读存储介质，通过将获取到的场景图像先经过特征金字塔网络以检测出目标人体的边框，然后根据检测结果，利用级联金字塔网络对所述目标人体进行人体姿态估计，根据估计结果，将所述估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断是否存在暴力行为，并对所述暴力行为进行分类。通过本申请实施例，能够成功地定位各个人体关键点，极大的提高了识别的准确率，并降低了运算量。

附图说明

图1为本申请实施例一之暴力行为检测方法的步骤流程图。

图2为本申请实施例之尺寸特征图像获取示意图。

图3为本申请实施例之基于FPN的快速R-CNN目标检测整体框架示意图。

图4为本申请实施例之残差块结构图。

图5为本申请实施例二之计算机设备的硬件架构示意图。

图6为本申请实施例三之暴力行为检测系统的程序模块示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

实施例一

参阅图1，示出了本申请实施例一之暴力行为检测方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。需要说明是，本实施例以计算机设备2为执行主体进行示例性描述。具体如下：

步骤S100，通过摄像头获取场景图像。

示例性地，在公共场所安装监控摄像头，利用公共场所监控摄像头视频的实时传输，将发生事件的数据逐帧传入云端进行处理。所述计算机设备2获取所述拍摄到的场景图像以对所述场景图像进行暴力行为的检测。

步骤S102，将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体。

需要说明的是，特征金字塔是多尺度目标检测系统中的一个基本组成部分。

示例性地，通过将获取到的尺寸为128*128*3的场景图像输入至特征金字塔网络中，以获取图像特征，并从所述图像特征中检测出目标人体，例如：有暴力行为的用户甲及正常行为的用户乙。

在一较佳实施例中，当所述场景图像输入至特征金字塔网络后，先将将所述场景图像通过卷积网络，并提取所述卷积网络最高层的特征图像以获取第一尺寸特征图像。然后，通过双线性插值法对所述第一尺寸特征图像进行上采样至第一中间尺寸特征图像，并将所述第一中间尺寸特征图像与所述卷积网络中第一中间尺寸的输出图像进行融合以获取第一融合结果，并将所述第一融合结果输出以获取第二尺寸特征图像。

示例性地，请参阅图2，若获取的场景图像尺寸为128*128*3，其中3为RGB三通道。将所述场景图像输入至所述特征金字塔网络中，通过卷积变换以获取最小尺寸特征图像为16*16*128大小的第一尺寸特征图像。然后，通过双线性插值法将所述第一尺寸特征图像经过上采样以获取32*32*128大小的特征图像，并将所述32*32*128大小的特征图像与所述特征金字塔网络中的卷积层输出为32*32*64大小的特征图像进行融合，以获取32*32*64大小的第二尺寸特征图像。

双线性插值法是插值算法中的一种，是线性插值的扩展。利用原图像中目标点四周的四个真实存在的像素值来共同决定目标图中的一个像素值，其核心思想是在两个方向分别进行一次线性插值。

上采样的主要目的是放大图像，几乎都是采用内插值法，即在原有图像像素的基础上，在像素点值之间采用合适的插值算法插入新的元素。

特征级图像融合是从源图像中将特征信息提取出来，这些特征信息是观察者对源图像中目标或感兴趣的区域，如边缘、人物、建筑或车辆等信息，然后对这些特征信息进行分析、处理与整合从而得到融合后的图像特征。对融合后的特征进行目标识别的精确度明显的高于原始图像的精确度。特征级融合对图像信息进行了压缩，再用计算机分析与处理，所消耗的内存与时间与像素级相比都会减少，所需图像的实时性就会有所提高。特征级图像融合对图像匹配的精确度的要求没有第一层那么高，计算速度也比第一层快，可是它提取图像特征作为融合信息，所以会丢掉很多的细节性特征。

当获取到所述第二尺寸特征图像后，通过所述双线性插值法对所述第二尺寸特征图像进行上采样至第二中间尺寸特征图像。然后，将所述第二中间尺寸特征图像与所述卷积网络中第二中间尺寸的输出图像进行融合以获取第二融合结果，并将所述第二融合结果输出以获取第三尺寸特征图像。

示例性地，请继续参阅图2，将所述32*32*64大小的第二尺寸特征图像与所述特征金字塔网络中的卷积层输出为64*64*32大小的特征图像进行融合，以获取64*64*32大小的第三尺寸特征图像。

当获取到所述第三尺寸特征图像后，将所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像输入至RPN网络中，然后分别对所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像进行区域框检测，并根据检测结果获取感兴趣区域及所述感兴趣区域的类别得分最高的区域，以获取所述目标人体。

示例性地，将16*16*128大小的第一尺寸特征图像、32*32*64大小的第二尺寸特征图像及64*64*32大小的第三尺寸特征图像输入至RPN网络中以进行目标检测，若检测结果分别为【人；0.6】、【人；0.65】及【人；0.8】，则获取检测结果为【人；0.8】的区域为目标人体。

在另一较佳实施例中，请参阅图3，通过获取第2～5层卷积层的特征图，并将所述特征图分别进行融合以获取第2～5层特征映射P2～P5，然后将所述特征映射分别经过感兴趣区域池化层(ROI Pooling)，并将池化结果经过全连接层，然后通过分类器时获取分类结果，通过边框回归时获取边框回归结果，进而综合分类结果及边框回归结果获取所述目标人体的边框。在本实施例中，融合方法与本申请中其他实施例中的融合方法相同，故不再赘述。

步骤S104，利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络。

在本实施例中，通过所述GlobalNet网络定位简单的可见关键点，通过所述RefineNet网络进一步的处理困难关键点，以实现对所述目标人体的人体姿态估计。

在一较佳实施例中，当根据检测结果，利用级联金字塔网络对所述目标人体进行人体姿态估计时，还将所述检测结果图像发送至所述GlobalNet网络中，其中，所述GlobalNet网络不包括池化层，并通过在各卷积层之间添加设置卷积的步长以使各卷积层输出的特征图大小缩减。然后，获取第2～5层卷积层分别输出的第一特征图，第二特征图，第三特征图及第四特征图，并将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图。

需要说明的是，由于池化层会导致特征信息的丢失，故将原有的GlobalNet网络中的所有池化层改变为通过设置卷积的步长来实现特征图的大小的缩减。例如，通过设置步长Stride＝2，卷积核为3*3的卷积时，输出的尺寸就会变成原来的二分之一。在本实施例中，去掉池化层设计的网络也可称之为全卷积网络，可提升GlobalNet网络对人体框检测的精度。另，所述第一特征图及所述第二特征图在定位上有较高的空间分辨率，然识别出的语义信息较少，所述第三特征图及所述第四特征图识别出的语义信息较多，但分辨率较低，通过将具有不同语义信息不同分辨率的特征信息进行融合以提高准确率。

当将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图之后，还将所述热力图发送至所述RefineNet网络中，以将所述热力图分别经过残差块结构处理，其中，所述第一特征图不经过所述残差块结构，所述第二特征图经过一个残差块结构，所述第三特征图经过两个残差块结构，所述第四特征图经过三个残差块结构，所述残差块结构包括1*1卷积结构及3*3卷积结构。然后，将处理结果分别经过上采样处理，其中，所述第一特征图处理结果不经过上采样处理，所述第二特征图处理结果经过两次上采样处理，所述第三特征图处理结果经过四次上采样处理，所述第四特征图处理结果经过八次上采样处理。最后，将采样处理结果进行连接以对所述上采样结果进行整合，将整合结果利用L2损失进行训练，并根据训练结果选择困难关键点以获取所述人体姿态结果。

示例性地，详见图4的残差块结构图，所述残差块结构中1*1卷积调整所述热力图的尺寸，所述3*3卷积结构提取特征信息。所述残差块结构相比现有的Resnet的瓶颈结构设计，减少了一个卷积层，极大的降低了运算量，然，精度却并未受到影响。

步骤S106，将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。

示例性地，数据库中存储有多种暴力行为人体姿态以及与所述暴力行为人体姿态对应的行为名称的对应关系，例如，拳打的行为姿态及对应的行为名称为拳打。若人体姿态估计结果为拳打，则将拳打的人体姿态与数据库中存储的多个暴力行为姿态进行匹配，匹配出所述拳打的人体姿态行为为拳打，并判断存在暴力行为。

在一较佳实施例中，将所述人体姿态估计结果与数据库中存储的暴力行为进行匹配，以根据匹配结果判断是否存在暴力行为，并对所述暴力行为进行分类之前，还获取多张样本图像，其中，所述多张图像中的每一张图像均包括多个人体，所述多个人体进行不同的行为，所述行为至少包括：拳打、刀刺、枪射、脚踢及扼颈中的一项或多项。然后，根据所述样本图像中的行为对所述样本图像进行行为标记，并根据标记结果对所述多张图像进行训练，以获取与所述行为对应的人体姿态。

示例性地，采用空间暴力个人数据库，所述空间暴力个人数据库由2000张图像组成，每张图像中包含2～10人，整个数据库一共有10863个人，其中5124(也即48％的人)涉及五类暴力行为的一类或多类。其中，所述五类暴力行为分别为：拳打、刀刺、枪射、脚踢及扼颈。需要说明的是，当需要处理的人数更少时，准确率最高。例如：一张图片上只有一个人时，系统的准确率为94.1％，但有5个人时，准确率降到84％，10个人时准确率降到79.8％。

通过本申请实施例，能够成功地定位各个人体关键点，极大的提高了识别的准确率，并降低了运算量。

实施例二

请参阅图5，示出了本申请实施例二之计算机设备的硬件架构示意图。计算机设备2包括，但不仅限于，可通过系统总线相互通信连接存储器21、处理22以及网络接口23，图5仅示出了具有组件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述计算机设备2的操作系统和各类应用软件，例如暴力行为检测系统20的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述计算机设备2的总体操作。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述暴力行为检测系统20等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

实施例三

请参阅图6，示出了本申请实施例三之暴力行为检测系统的程序模块示意图。在本实施例中，暴力行为检测系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请，并可实现上述暴力行为检测方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令指令段，比程序本身更适合于描述暴力行为检测系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

获取模块201，用于通过摄像头获取场景图像。

示例性地，在公共场所安装监控摄像头，利用公共场所监控摄像头视频的实时传输，将发生事件的数据逐帧传入云端进行处理。所述获取模块201获取所述拍摄到的场景图像以对所述场景图像进行暴力行为的检测。

检测模块202，用于将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体。

示例性地，通过将获取到的尺寸为128*128*3的场景图像输入至特征金字塔网络中，以获取图像特征，所述检测模块202从所述图像特征中检测出目标人体，例如：有暴力行为的用户甲及正常行为的用户乙。

在一较佳实施例中，当所述场景图像输入至特征金字塔网络后，所述检测模块202先将将所述场景图像通过卷积网络，并提取所述卷积网络最高层的特征图像以获取第一尺寸特征图像。然后，通过双线性插值法对所述第一尺寸特征图像进行上采样至第一中间尺寸特征图像，并将所述第一中间尺寸特征图像与所述卷积网络中第一中间尺寸的输出图像进行融合以获取第一融合结果，并将所述第一融合结果输出以获取第二尺寸特征图像。

示例性地，请参阅图2，若获取的场景图像尺寸为128*128*3，其中3为RGB三通道。所述检测模块202将所述场景图像输入至所述特征金字塔网络中，通过卷积变换以获取最小尺寸特征图像为16*16*128大小的第一尺寸特征图像。然后，通过双线性插值法将所述第一尺寸特征图像经过上采样以获取32*32*128大小的特征图像，并将所述32*32*128大小的特征图像与所述特征金字塔网络中的卷积层输出为32*32*64大小的特征图像进行融合，以获取32*32*64大小的第二尺寸特征图像。

当获取到所述第二尺寸特征图像后，所述检测模块202还通过所述双线性插值法对所述第二尺寸特征图像进行上采样至第二中间尺寸特征图像。然后，将所述第二中间尺寸特征图像与所述卷积网络中第二中间尺寸的输出图像进行融合以获取第二融合结果，并将所述第二融合结果输出以获取第三尺寸特征图像。

示例性地，请继续参阅图2，所述检测模块202还将所述32*32*64大小的第二尺寸特征图像与所述特征金字塔网络中的卷积层输出为64*64*32大小的特征图像进行融合，以获取64*64*32大小的第三尺寸特征图像。

当获取到所述第三尺寸特征图像后，所述检测模块202还将所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像输入至RPN网络中，然后分别对所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像进行区域框检测，并根据检测结果获取感兴趣区域及所述感兴趣区域的类别得分最高的区域，以获取所述目标人体。

示例性地，所述检测模块202还将16*16*128大小的第一尺寸特征图像、32*32*64大小的第二尺寸特征图像及64*64*32大小的第三尺寸特征图像输入至RPN网络中以进行目标检测，若检测结果分别为【人；0.6】、【人；0.65】及【人；0.8】，则获取检测结果为【人；0.8】的区域为目标人体。

在另一较佳实施例中，请参阅图3，所述检测模块202还通过获取第2～5层卷积层的特征图，并将所述特征图分别进行融合以获取第2～5层特征映射P2～P5，然后将所述特征映射分别经过感兴趣区域池化层(ROI Pooling)，并将池化结果经过全连接层，然后通过分类器时获取分类结果，通过边框回归时获取边框回归结果，进而综合分类结果及边框回归结果获取所述目标人体的边框。在本实施例中，融合方法与本申请中其他实施例中的融合方法相同，故不再赘述。

人体姿态估计模块203，用于利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络。

在本实施例中，所述人体姿态估计模块203通过所述GlobalNet网络定位简单的可见关键点，通过所述RefineNet网络进一步的处理困难关键点，以实现对所述目标人体的人体姿态估计。

在一较佳实施例中，所述人体姿态估计模块203还将所述检测结果图像发送至所述GlobalNet网络中，其中，所述GlobalNet网络不包括池化层，并通过在各卷积层之间添加设置卷积的步长以使各卷积层输出的特征图大小缩减。然后，获取第2～5层卷积层分别输出的第一特征图，第二特征图，第三特征图及第四特征图，并将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图。

当将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图之后，所述人体姿态估计模块203还将所述热力图发送至所述RefineNet网络中，以将所述热力图分别经过残差块结构处理，其中，所述第一特征图不经过所述残差块结构，所述第二特征图经过一个残差块结构，所述第三特征图经过两个残差块结构，所述第四特征图经过三个残差块结构，所述残差块结构包括1*1卷积结构及3*3卷积结构。然后，将处理结果分别经过上采样处理，其中，所述第一特征图处理结果不经过上采样处理，所述第二特征图处理结果经过两次上采样处理，所述第三特征图处理结果经过四次上采样处理，所述第四特征图处理结果经过八次上采样处理。最后，将采样处理结果进行连接以对所述上采样结果进行整合，将整合结果利用L2损失进行训练，并根据训练结果选择困难关键点以获取所述人体姿态结果。

分类模块204，用于将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。

示例性地，数据库中存储有多种暴力行为人体姿态以及与所述暴力行为人体姿态对应的行为名称的对应关系，例如，拳打的行为姿态及对应的行为名称为拳打。若人体姿态估计结果为拳打，则所述分类模块204将拳打的人体姿态与数据库中存储的多个暴力行为姿态进行匹配，匹配出所述拳打的人体姿态行为为拳打，并判断存在暴力行为。

在一较佳实施例中，所述暴力行为检测系统20还包括人体姿态训练模块205，用于获取多张样本图像，其中，所述多张图像中的每一张图像均包括多个人体，所述多个人体进行不同的行为，所述行为至少包括：拳打、刀刺、枪射、脚踢及扼颈中的一项或多项。然后，所述人体姿态训练模块205根据所述样本图像中的行为对所述样本图像进行行为标记，并根据标记结果对所述多张图像进行训练，以获取与所述行为对应的人体姿态。

本申请还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器等。

本实施例还提供一种非易失性计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机可读指令，程序被处理器执行时实现相应功能。本实施例的非易失性计算机可读存储介质用于存储暴力行为检测系统20，被处理器执行时实现如下步骤：

通过摄像头获取场景图像；

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种暴力行为检测方法，包括：

通过摄像头获取场景图像；

将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；

利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及

将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。
如权利要求1所述的暴力行为检测方法，所述将所述场景图像输入至特征金字塔网络中，以对目标人体进行检测，并从所述场景图像中获取所述目标人体的步骤，还包括：

将所述场景图像通过卷积网络，并提取所述卷积网络最高层的特征图像以获取第一尺寸特征图像；

通过双线性插值法对所述第一尺寸特征图像进行上采样至第一中间尺寸特征图像；

将所述第一中间尺寸特征图像与所述卷积网络中第一中间尺寸的输出图像进行融合以获取第一融合结果；及

将所述第一融合结果输出以获取第二尺寸特征图像。
如权利要求2所述的暴力行为检测方法，所述将所述第一融合结果输出以获取第二尺寸特征图像的步骤之后，还包括：

通过所述双线性插值法对所述第二尺寸特征图像进行上采样至第二中间尺寸特征图像；

将所述第二中间尺寸特征图像与所述卷积网络中第二中间尺寸的输出图像进行融合以获取第二融合结果；及

将所述第二融合结果输出以获取第三尺寸特征图像。
如权利要求3所述的暴力行为检测方法，所述将所述第二融合结果输出以获取第三尺寸特征图像的步骤之后，还包括：

将所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像输入至RPN网络中；

分别对所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像进行区域框检测；及

根据检测结果获取感兴趣区域及所述感兴趣区域的类别得分最高的区域，以获取所述目标人体。
如权利要求1所述的暴力行为检测方法，所述利用级联金字塔网络对所述目标人体进行人体姿态估计的步骤，还包括：

将所述检测结果图像发送至所述GlobalNet网络中，其中，所述GlobalNet网络不包括池化层，并通过在各卷积层之间添加设置卷积的步长以使各卷积层输出的特征图大小缩减；

获取第2～5层卷积层分别输出的第一特征图，第二特征图，第三特征图及第四特征图；及

将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图。
如权利要求5所述的暴力行为检测方法，所述将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图的步骤之后，还包括：

将所述热力图发送至所述RefineNet网络中，以将所述热力图分别经过残差块结构处理，其中，所述第一特征图不经过所述残差块结构，所述第二特征图经过一个残差块结构，所述第三特征图经过两个残差块结构，所述第四特征图经过三个残差块结构，所述残差块结构包括1*1卷积结构及3*3卷积结构；

将处理结果分别经过上采样处理，其中，所述第一特征图处理结果不经过上采样处理，所述第二特征图处理结果经过两次上采样处理，所述第三特征图处理结果经过四次上采样处理，所述第四特征图处理结果经过八次上采样处理；

将采样处理结果进行连接以对所述上采样结果进行整合；及

将整合结果利用L2损失进行训练，并根据训练结果选择困难关键点。
如权利要求1所述的暴力行为检测方法，所述将人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类的步骤之前，还包括：

获取多张样本图像，其中，所述多张图像中的每一张图像均包括多个人体，所述多个人体进行不同的行为，所述行为至少包括：拳打、刀刺、枪射、脚踢及扼颈中的一项或多项；

根据所述样本图像中的行为对所述样本图像进行行为标记；及

根据标记结果对所述多张图像进行训练，以获取与所述行为对应的人体姿态。
一种暴力行为检测系统，包括：

获取模块，用于通过摄像头获取场景图像；

检测模块，用于将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；

人体姿态估计模块，用于利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及

分类模块，用于将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。
如权利要求8所述的暴力行为检测系统，所述检测模块还用于：

将所述场景图像通过卷积网络，并提取所述卷积网络最高层的特征图像以获取第一尺寸特征图像；

通过双线性插值法对所述第一尺寸特征图像进行上采样至第一中间尺寸特征图像；

将所述第一中间尺寸特征图像与所述卷积网络中第一中间尺寸的输出图像进行融合以获取第一融合结果；及

将所述第一融合结果输出以获取第二尺寸特征图像。
如权利要求9所述的暴力行为检测系统，所述检测模块还用于：

通过所述双线性插值法对所述第二尺寸特征图像进行上采样至第二中间尺寸特征图像；

将所述第二中间尺寸特征图像与所述卷积网络中第二中间尺寸的输出图像进行融合以获取第二融合结果；及

将所述第二融合结果输出以获取第三尺寸特征图像。
如权利要求10所述的暴力行为检测系统，所述检测模块还用于：

将所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像输入至RPN网络中；

分别对所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像进行区域框检测；及

根据检测结果获取感兴趣区域及所述感兴趣区域的类别得分最高的区域，以获取所述目标人体。
如权利要求8所述的暴力行为检测系统，所述人体姿态估计模块还用于：

将所述检测结果图像发送至所述GlobalNet网络中，其中，所述GlobalNet网络不包括池化层，并通过在各卷积层之间添加设置卷积的步长以使各卷积层输出的特征图大小缩减；

获取第2～5层卷积层分别输出的第一特征图，第二特征图，第三特征图及第四特征图；及

将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图。
如权利要求12所述的暴力行为检测系统，所述人体姿态估计模块还用于：

将所述热力图发送至所述RefineNet网络中，以将所述热力图分别经过残差块结构处理，其中，所述第一特征图不经过所述残差块结构，所述第二特征图经过一个残差块结构，所述第三特征图经过两个残差块结构，所述第四特征图经过三个残差块结构，所述残差块结构包括1*1卷积结构及3*3卷积结构；

将处理结果分别经过上采样处理，其中，所述第一特征图处理结果不经过上采样处理，所述第二特征图处理结果经过两次上采样处理，所述第三特征图处理结果经过四次上采样处理，所述第四特征图处理结果经过八次上采样处理；

将采样处理结果进行连接以对所述上采样结果进行整合；及

将整合结果利用L2损失进行训练，并根据训练结果选择困难关键点。
如权利要求8所述的暴力行为检测系统，所述暴力行为检测系统还包括人体姿态训练模块，用于：

获取多张样本图像，其中，所述多张图像中的每一张图像均包括多个人体，所述多个人体进行不同的行为，所述行为至少包括：拳打、刀刺、枪射、脚踢及扼颈中的一项或多项；

根据所述样本图像中的行为对所述样本图像进行行为标记；及

根据标记结果对所述多张图像进行训练，以获取与所述行为对应的人体姿态。
一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

通过摄像头获取场景图像；

将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；

利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及

将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。
如权利要求15所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

将所述场景图像通过卷积网络，并提取所述卷积网络最高层的特征图像以获取第一尺寸特征图像；

通过双线性插值法对所述第一尺寸特征图像进行上采样至第一中间尺寸特征图像；

将所述第一中间尺寸特征图像与所述卷积网络中第一中间尺寸的输出图像进行融合以获取第一融合结果；及

将所述第一融合结果输出以获取第二尺寸特征图像。
如权利要求16所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

通过所述双线性插值法对所述第二尺寸特征图像进行上采样至第二中间尺寸特征图像；

将所述第二中间尺寸特征图像与所述卷积网络中第二中间尺寸的输出图像进行融合以获取第二融合结果；及

将所述第二融合结果输出以获取第三尺寸特征图像。
如权利要求17所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

将所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像输入至RPN网络中；

分别对所述第一尺寸特征图像、所述第二尺寸特征图像及所述第三尺寸特征图像进行区域框检测；及

根据检测结果获取感兴趣区域及所述感兴趣区域的类别得分最高的区域，以获取所述目标人体。
如权利要求15所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

将所述检测结果图像发送至所述GlobalNet网络中，其中，所述GlobalNet网络不包括池化层，并通过在各卷积层之间添加设置卷积的步长以使各卷积层输出的特征图大小缩减；

获取第2～5层卷积层分别输出的第一特征图，第二特征图，第三特征图及第四特征图；及

将所述第一特征图，所述第二特征图，所述第三特征图及所述第四特征图分别应用3*3的卷积滤波器以生成简单关键点的热力图。
一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行以下步骤：

通过摄像头获取场景图像；

将所述场景图像输入至特征金字塔网络中，并从所述场景图像中获取目标人体；

利用级联金字塔网络对所述目标人体进行人体姿态估计以获取人体姿态估计结果，其中，所述级联金字塔网络包括GlobalNet网络和RefineNet网络；及

将所述人体姿态估计结果与数据库中存储的暴力行为人体姿态进行匹配，以根据匹配结果判断所述场景图像中是否存在暴力行为，并对所述暴力行为进行分类。