WO2021139049A1

WO2021139049A1 - 检测方法、检测装置、监控设备和计算机可读存储介质

Info

Publication number: WO2021139049A1
Application number: PCT/CN2020/087212
Authority: WO
Inventors: 邢军华; 欧阳一村; 曾志辉; 许文龙; 贺涛; 蒋铮
Original assignee: 深圳中兴网信科技有限公司
Priority date: 2020-01-10
Filing date: 2020-04-27
Publication date: 2021-07-15
Also published as: CN111223129A

Abstract

一种检测方法、检测装置、监控设备和计算机可读存储介质。所述检测方法包括：获取至少一个摄像装置的图像数据；识别图像数据中目标图像的每一个像素点的像素值；根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，所述邻两帧目标图像对应的目标绝对值为相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；记录目标检测对象。

Description

检测方法、检测装置、监控设备和计算机可读存储介质

本申请要求在2020年01月10日提交中国专利局、申请号为202010027424.2的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频图像识别技术领域，例如，涉及一种检测方法、检测装置、监控设备和计算机可读存储介质。

背景技术

站房是整个工程监控系统的核心区域，大量的计算分析部署在这里，为防止闲杂人等随意进入及系统更新维护责任到人，保证站房系统安全及系统的有效管理，需要对监控站房的上百路甚至上千路摄像头进行行人的实时检测。常见的行人检测算法有两种：帧间差分法和基于深度学习的目标检测算法。

帧间差分法是一种通过对视频图像序列的连续两帧图像做差分运算获取运动目标轮廓的方法。该方法实现简单，运算速度快(5ms左右)，对光线的变化不敏感。但是，在运动体内易产生空洞，例如在目标运动速度较快的情况下，影响目标区域的准确提取，且检测效果取决于差分阈值的设定，对前景中的任何运动物体都会进行检测，无法区分行人和物体，存在目标误判、误检率高的问题。

基于深度学习的目标检测算法主要通过权值共享、局部连接等策略来实现端到端的自动学习捕捉物体的特征，使网络具有更强的解析能力。但为了工程项目的投入产出比最大化，则需要一台服务器支持尽可能多路的摄像头，而目标检测算法检测速度(20ms左右)相比帧间差分检测速度(5ms左右)慢四倍左右，仅仅用目标检测算法，运行速度过慢，难以支持上百路摄像头的同时检测，使得项目的投入产出比大大降低。

发明内容

本申请至少解决相关技术中存在的上述技术问题。

本申请提出了一种检测方法，包括：获取至少一个摄像装置的图像数据；识别图像数据中目标图像的每一个像素点的像素值；根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，所述相邻两帧目标图像对应的目标绝对值为所述相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；记录目标检测对象。

本申请提出了一种检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例提供的检测方法。

本申请提出了一种监控设备，包括：至少一个摄像装置，所述摄像装置设置为采集图像数据；以及上述检测装置，所述检测装置与所述至少一个摄像装置连接。

本申请提出了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例提供的检测方法。

附图说明

图1示出了本申请一个实施例的检测方法流程示意图；

图2示出了本申请又一个实施例的检测方法流程示意图；

图3示出了本申请又一个实施例的检测方法流程示意图；

图4示出了本申请又一个实施例的检测方法流程示意图；

图5示出了本申请又一个实施例的检测方法流程示意图；

图6示出了本申请一个实施例的检测装置示意框图。

具体实施方式

下面结合附图和具体实施方式对本申请进行描述。

在下面的描述中阐述了很多细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不限于下面公开的具体实施例的限制。

下面参照图1至图6描述根据本申请实施例的检测方法、检测装置600、监控设备及计算机可读存储介质。

实施例一

如图1所示，根据本申请第一方面的实施例，提出了一种检测方法，该方法包括：

步骤102，获取至少一个摄像装置的图像数据；

步骤104，识别图像数据中目标图像的每一个像素点的像素值；

步骤106，根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，相邻两帧目标图像对应的目标绝对值为相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；

步骤108，采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；

步骤110，记录待检测图像中存在的目标检测对象。

在该实施例中，获取至少一个摄像装置的图像数据，识别同一路摄像装置采集目标图像中全部像素点的像素值，并计算相邻两帧目标图像中同一位置的像素点的像素值之间的像素差值，根据所有像素点的像素差值的绝对值之和与预设像素值之间的大小关系，判断是否存在运动物体，从而对采集于同一路摄像装置的相邻两帧目标图像进行帧间差分处理，同时将检测到运动物体的目标图像作为待检测图像，并送入你只看一次的第三个版本(You Only Look Once，YOLO v3)模型进行检测运算，利用YOLO v3模型识别出待检测图像中存在的目标检测对象，并进行记录，以供用户对监测区域进行实时监控。本申请的检测方法利用帧间差分的快速性、广泛性及基于深度学习的目标检测算法的高精度，大大提高了检测对象进入监测区域时实时检测的检测速度和精度，而且可同时支持大量摄像装置的实时检测，极大地提高了实际工程的投入产出比，并且能够排除非检测对象引起的误检影响，解决相关技术中的行人检测方法在准确率、速度、经济效益投入产出比等方面存在不足的问题。

在一实施例中，目标检测对象可以是行人、车辆、动物等能够运动的物体，根据目标检测对象的特征参数设置针对该目标检测对象的YOLO v3模型，从而根据待检测图像和YOLO v3模型，能够准确、快速地在不同类型运动物体中识别出目标检测对象。

在一实施例中，图像数据包括摄像装置的身份信息(Identity Information，ID)、摄像装置采集的目标图像以及目标图像的采集时间，在目标图像中检测到目标检测对象后，根据采集该图像的摄像装置的身份信息和时间，用户能够及时定位目标检测对象出现的位置和时间，从而实现监测区域的实时监控。

在一实施例中，YOLO迭代三个版本作为最具代表性的one-stage(单阶段)目标检测模型，YOLO v3模型能够达到速度和精度的和谐统一。YOLO v3模型的骨干网络为53层，而且模型结构中没有池化层和全连接层，相比于单一深层神经网络检测模型(Single Shot MultiBox Detector，SSD)大大提高了目标检测的精度，相比于快速的卷积网络检测模型(Faster Region with CNN feature，Faster_RCNN)有效提升了检测速度，在一实施例中，对于精度要求较低的监测场景，为了进一步提升检测速度，可采用YOLO v3-tiny(微型YOLO v3)模型。

实施例二

如图2所示，根据本申请的又一个实施例，提出了一种检测方法，该方法包括：

步骤202，获取图像数据的配置信息；

步骤204，根据配置信息确定下载图像数据所需的进程数量；

步骤206，根据进程数量并行下载图像数据；

步骤208，识别图像数据中目标图像的每一个像素点的像素值；

步骤210，根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，相邻两帧目标图像对应的目标绝对值为相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；

步骤212，采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；

步骤214，记录待检测图像中存在的目标检测对象。

在该实施例中，根据图像数据的配置信息，确定下载图像数据所需的进程数量，根据进程数量以多进程并行的方式下载多路摄像装置的图像数据，大大缩短了目标图像的下载时间，有效提升了检测效率，并能够充分利用服务器资源，提升用户的使用体验。

在一实施例中，配置信息为内存占用、数据类别等信息。

在一实施例中，对至少一个摄像装置中的每一个摄像装置对应的图像数据中的目标图像进行帧间差分处理之前，还包括：对目标图像进行滤波处理；以及对经滤波处理后的目标图像进行对比度增强处理，从而消除目标图像中不需要的部分，提高图像特征的清晰度，有利于进行像素值之间的计算，从而提高运动物体检测的准确性。

在一实施例中，考虑到帧间差分的处理效率，还可以对目标图像进行剪裁，以过滤图像中大量的背景内容。

实施例三

如图3所示，根据本申请的又一个实施例，提出了一种检测方法，该方法包括：

步骤302，获取至少一个摄像装置的图像数据；

步骤304，识别每一个摄像装置对应的图像数据中的目标图像中每一个像素点的像素值；

步骤306，根据当前帧目标图像的像素点与前一帧目标图像的像素点之间的对应关系，计算当前帧目标图像与前一帧目标图像中同一位置的像素点的像素值之间的像素差值；

步骤308，所有像素差值的绝对值之和是否大于预设像素值，若所有像素差值的绝对值之和大于预设像素值，进入步骤310，若所有像素差值的绝对值之和小于或等于预设像素值，进入步骤316；

步骤310，将当前帧目标图像作为待检测图像；

步骤312，采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；

步骤314，记录待检测图像中存在的目标检测对象；

步骤316，记录上一次采用YOLO v3模型对待检测图像进行检测运算识别的待检测图像中存在的目标检测对象。

在该实施例中，识别同一路摄像装置采集的相邻两帧目标图像中全部像素点的像素值之后，计算当前帧目标图像中每个像素点的像素值与前一帧目标图像中同一位置的像素点的像素值之间的像素差值，对比所有像素点的像素差值的绝对值之和与预设像素值，若所有像素差值的绝对值之和大于预设像素值，说明当前帧目标图像和前一帧目标图像之间存在较大差异，即出现运动物体，则将当前帧目标图像作为待检测图像，若所有像素差值的绝对值之和小于或等于预设像素值，说明当前帧目标图像和前一帧目标图像之间差异较小，此时直接记录上一次待检测图像中目标检测对象的检测结果，无需再次通过YOLO v3模型对图像进行运算，从而在大量的图像数据中筛选出包含运动物体的图像，便于后续对该图像进行目标检测对象的识别，大大提高了检测对象进入监测区域时实时检测的检测速度，避免了相关技术中无法在保证精度的情况下，对批量图像进行检测的问题。

在一实施例中，预设像素值可以根据实际场景和图像像素值进行合理设置。

在一实施例中，识别目标图像的像素值包括：对连续两帧图像进行灰度化处理，以削弱图像的相似部分，突出显示图像的变化部分；二值化该灰度图像，并从中提取目标图像中每一个像素点的像素值。

实施例四

如图4所示，根据本申请的又一个实施例，提出了一种检测方法，该方法包括：

步骤402，获取至少一个摄像装置的图像数据；

步骤404，识别图像数据中目标图像的每一个像素点的像素值；

步骤406，根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，相邻两帧目标图像对应的目标绝对值为相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；

步骤408，采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；

步骤410，根据预设尺寸分割待检测图像，得到检测单元格；

步骤412，将检测单元格输入卷积神经网络模型，确定检测单元格的边界框；

步骤414，根据边界框和预设类别边界框，确定边界框的定位置信度和分类置信度；

步骤416，采用非极大值抑制算法对定位置信度和分类置信度进行处理，得到目标检测对象的类别信息；

步骤418，根据待检测图像、目标检测对象类别信息、摄像装置身份信息及待检测图像采集时间生成并上传事件记录。

在该实施例中，将输入的待检测图像分割成S×S网格状检测单元格，并送入卷积神经网络(Convolutional Neural Networks，CNN)提取特征，每个单元格会预测出多个边界框以及边界框的置信度，其中，边界框的置信度包括定位置信度和分类置信度，分类置信度即边界框中目标检测对象属于多个类别的概率，采用非极大值抑制算法(Non-maximum suppression，NMS)对定位置信度和分类置信度进行处理，得到目标检测对象的类别信息，通过上述方案，优化了检测系统，对目标检测对象进行归类，以便于用户对同类型目标检测对象进行追踪，例如，在进行行人检测的情况下，识别出行人类别为成人或儿童。在目标图像中检测到目标检测对象后，将待检测图像和与待检测图像对应的目标检测对象类别信息、摄像装置身份信息及待检测图像采集时间进行记录，生成并上传事件记录，以便于用户随时查询监测区域内检测对象的进出情况。

在一实施例中，边界框的大小和位置用(x，y，w，h)来表征，其中，(x，y)是边界框的中心坐标，w、h分别是边界框的宽和高。

在一实施例中，利用YOLO v3模型将输入的图片分割成S×S网格状检测单元格，CNN网络模型负责检测中心点落在检测单元格内的目标，即每个单元格会预测B个边界框以及边界框的置信度，每个单元格对应是预测总的类别数，共为C种类别，其中，置信度包含两个方面的含义，一是边界框含有目标的可能性大小，二是这个边界框的准确度，边界框的准确度可以用预测框(即边界框)与实际框(ground truth，即预设类别边界框)的交并比(intersection over union，IOU)来表征。

实施例五

如图5所示，根据本申请的又一个实施例，提出了一种检测方法，以站房为监测区域，站房设置有多个摄像头，以行人为目标检测对象，检测方法包括：

步骤502，站房摄像头实时采集图片数据；

步骤504，多进程并行下载多路摄像头数据；

步骤506，对来自同一路摄像头的相邻两帧图像做帧间差分；

步骤508，判断所有像素差值的绝对值之和是否小于预设阈值，若所有像素差值的绝对值之和是小于预设阈值，进入步骤510，若所有像素差值的绝对值之和大于或等于预设阈值，进入步骤512；

步骤510，将存储的上次检测结果返回；

步骤512，多进程调用YOLO v3模型进行检测并将检测结果和摄像头ID保存并替换更新；

步骤514，将检测到行人的结果返回给智能识别系统，形成事件记录。

在该实施例中，为了尽可能减小图片下载时延及支持尽可能多的多路摄像头，采用多进程并行下载多路摄像头数据(摄像头ID、图片及采集时间)，然后进行图片帧间差分，判断同一路摄像头图像序列中的连续两帧图像的所有像素差值的绝对值之和是否大于或等于预设阈值(预设像素值)，对所有像素差值的绝对值之和大于预设阈值的图片，采用多进程调用YOLO v3模型进行检测并将检测结果和摄像头ID保存并替换更新；对所有像素差值的绝对值之和小于预设阈值的图片，直接将存储的上次检测结果返回，供后续运用图片帧间差分的图片调用。检测处理选用精度和速度都很高的YOLO v3模型。

本实施例提供的检测方法，利用帧间差分的快速性及基于深度学习YOLO v3目标检测算法的高精度，配合多进程下载图片和多进程检测，大大提高了行人进入站房实时检测系统的检测速度和精度，可同时支持上百路摄像头实时检测，极大提高了实际工程的投入产出比，解决相关技术中的行人检测方法在准确率、速度、经济效益投入产出比等方面存在不足的问题。

在一实施例中，系统部署前，利用采集的大量图片进行训练迭代优化，得到YOLO v3模型。

实施例六

如图6所示，根据本申请第二方面的实施例，提出了一种检测装置600，包括存储器602、处理器604及存储在存储器602上并可在处理器604上运行的计算机程序，处理器604执行计算机程序时实现上述任一实施例的检测方法。

实施例七

根据本申请第三方面的实施例，提出了一种监控设备，包括：至少一个摄像装置，摄像装置设置为采集图像数据；以及上述检测装置，检测装置设置为连接于至少一个摄像装置，检测装置设置为执行计算机程序时能够实现以下步骤：获取至少一个摄像装置的图像数据；识别图像数据中目标图像的每一个像素点的像素值；根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，相邻两帧目标图像对应的目标绝对值为所述相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；采用YOLO v3模型对待检测图像进行检测运算，以识别待检测图像中存在的目标检测对象；记录目标检测对象。

本实施例提供的监控设备，能够获取至少一个摄像装置的图像数据，识别同一路摄像装置采集目标图像中全部像素点的像素值，并计算相邻两帧目标图像中同一位置的像素点的像素值之间的像素差值，根据所有像素差值的绝对值之和与预设像素值之间的大小关系，判断是否存在运动物体，从而对采集于同一路摄像装置的相邻两帧目标图像进行帧间差分处理，同时将检测到运动物体的目标图像作为待检测图像，并送入YOLO v3模型进行检测运算，通过YOLO v3模型识别出待检测图像中存在的目标检测对象，并进行记录，以供用户对监测区域进行实时监控。该监控设备利用帧间差分的快速性、广泛性及基于深度学习的目标检测算法的高精度，大大提高了检测对象进入监测区域时实时检测的检测速度和精度，而且可同时支持大量摄像装置进行实时检测，极大提高了实际工程的投入产出比，并且能够排除非检测对象造成的误检，解决相关技术中的行人检测方法在准确率、速度、经济效益投入产出比等方面存在不足的问题。

实施例八

根据本申请第四方面的实施例，提出了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例的检测方法的步骤。

在本说明书的描述中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性，除非另有明确的规定和限定；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据不同情况理解上述术语在本申请中的含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

一种检测方法，包括：

获取至少一个摄像装置的图像数据；

识别所述图像数据中目标图像的每一个像素点的像素值；

根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，其中，所述相邻两帧目标图像对应的目标绝对值为所述相邻两帧目标图像中同一位置的像素点之间的像素差值的绝对值；

采用YOLO v3模型对所述待检测图像进行检测运算，以识别所述待检测图像中存在的目标检测对象；

记录所述目标检测对象。
根据权利要求1所述的检测方法，其中，所述获取至少一个摄像装置的图像数据，包括：

获取所述图像数据的配置信息；

根据所述配置信息确定下载所述图像数据所需的进程数量；

根据所述进程数量并行下载所述图像数据。
根据权利要求1所述的检测方法，其中，所述根据预设像素值以及相邻两帧目标图像对应的所有的目标绝对值之和，确定待检测图像，包括：

根据当前帧目标图像的像素点与前一帧目标图像的像素点之间的对应关系，计算所述当前帧目标图像与所述前一帧目标图像中同一位置的像素点的像素值之间的像素差值；

比较所有所述像素差值的绝对值之和与所述预设像素值之间的大小关系；

基于所有所述像素差值的绝对值之和大于所述预设像素值的判断结果，将所述当前帧目标图像作为所述待检测图像。
根据权利要求3所述的检测方法，还包括：

基于所有所述像素差值的绝对值之和小于或等于所述预设像素值的判断结果，记录上一次采用YOLO v3模型对待检测图像进行检测运算识别的待检测图像中存在的目标检测对象。
根据权利要求1至4中任一项所述的检测方法，其中，

所述图像数据包括所述摄像装置的身份信息、所述摄像装置采集的所述目标图像以及所述目标图像的采集时间。
根据权利要求5所述的检测方法，所述采用YOLO v3模型对所述待检测图像进行检测运算之后，还包括：

根据预设尺寸分割所述待检测图像，得到检测单元格；

将所述检测单元格输入卷积神经网络模型，确定所述检测单元格的边界框；

根据所述边界框和预设类别边界框，确定所述边界框的定位置信度和分类置信度；

采用非极大值抑制算法对所述定位置信度和所述分类置信度进行处理，得到所述目标检测对象的类别信息。
根据权利要求6所述的检测方法，其中，所述记录所述目标检测对象，包括：

根据所述待检测图像、所述目标检测对象的类别信息、所述摄像装置的身份信息及所述目标图像的采集时间生成并上传事件记录。
一种检测装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器设置为执行所述计算机程序时执行如权利要求1至7中任一项所述的检测方法。
一种监控设备，包括：

至少一个摄像装置，所述摄像装置设置为采集图像数据；如权利要求8所述的检测装置，所述检测装置与所述至少一个摄像装置连接。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的检测方法。