WO2021023106A1

WO2021023106A1 - 目标识别方法、装置及摄像机

Info

Publication number: WO2021023106A1
Application number: PCT/CN2020/106202
Authority: WO
Inventors: 张睿轩
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2019-08-02
Filing date: 2020-07-31
Publication date: 2021-02-11
Also published as: CN111753609A; CN111753609B

Abstract

本申请提供一种目标识别方法、装置及摄像机，其中所述方法包括：获取监控区域的一个或多个视频帧及一个或多个深度图像；从所述视频帧中检测出处于运动状态的目标；当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；识别所述目标视频帧中的所述目标的目标类型；基于所述目标深度图像确定所述目标的物理尺寸；根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。

Description

目标识别方法、装置及摄像机

技术领域

本申请涉及数据处理领域，尤其涉及一种目标识别方法、装置及摄像机。

背景技术

随着社会的不断进步，视频监控系统的应用范围越来越广。现有的数字监控系统远远不能满足于许多应用场合的需要，主要体现在智能化程度不够高，还处于一种半自动化状态，很多场合还需要人工干预。比如当发现异常情况(运动目标等)时，数字监控系统不能自动识别目标，需要人工操作。由于人工操作具有滞后性，使许多重要的信息丢失。为此，周界防范的应用产生了。通过周界防范可以自动检测运动目标，并根据用户配置的规则生成目标的报警信息，并将报警信息通知给相关人员来处理。周界防范是一种主动的监控方式，大大发挥了监控的实际应用价值。

在视频监控中，对诸如人体的目标进行检测并报警是周界防范较为核心的功能。然而，在目前的技术框架下，对距离摄像机较远的目标检测不准，难以区分出来目标是真实的人、车，还是仅仅一个误报；树叶、灯光、动物、雨水等对检测结果干扰较大，容易产生误报。

发明内容

有鉴于此，本申请提供一种目标识别的方法、装置及摄像机。

具体地，本申请是通过如下技术方案实现的。

第一方面，本申请实施例提供了一种目标识别方法，所述方法包括：

获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；从所述视频帧中检测出处于运动状态的目标；当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；识别所述目标视频帧中的目标的目标类型；基于所述目标深度图像确定所述目标的物理尺寸；根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。

可选地，检测出的所述目标包括所述目标的外接矩形框，所述识别所述目标视频帧中的目标的目标类型，包括：从所述目标视频帧中截取包含所述目标的局部图像，所述局部图像的边界为所述目标的外接矩形框；将所述局部图像输入已训练的深度学习模型，以由该深度学习模型对该局部图像进行目标识别，输出所述目标的目标类型。

可选地，所述基于所述目标深度图像确定所述目标的物理尺寸，包括：将所述目标的外接矩形框的各像素点在所述目标深度图像中进行映射，以确定各像素点在所述目标深度图像中的对应映射点；获取各映射点的点云数据；根据所述外接矩形框的各顶点像素点对应的映射点的点云数据，计算所述外接矩形框的边界长度，作为所述目标的物理尺寸。

可选地，所述根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标，包括：当所述目标类型与所述物理尺寸均与所述指定目标的预设条件匹配时，则判定所述目标为指定目标；当所述目标类型与所述物理尺寸任一与所述指定目标的预设条件不匹配时，则判定所述目标不为指定目标。

可选地，采用如下方式检测所述目标是否触发预设的事件规则：若检测到所述目标的外接矩形框与预设的警告线或警告区域相交时，则判定所述目标框对象触发预设的事件规则。

可选地，所述方法还包括：当确定所述目标为指定目标以后，则触发报警处理。

第二方面，本申请实施例提供了一种目标识别装置，所述装置包括：图像获取模块，用于获取监控区域的一个或多个视频帧及一个或多个深度图像；目标检测模块，用于从所述视频帧中检测出处于运动状态的目标；目标图像确定模块，用于当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；目标类型识别模块，用于识别所述目标视频帧中的目标的目标类型；物理尺寸确定模块，用于基于所述目标深度图像确定所述目标的物理尺寸；目标判断模块，用于根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。

可选地，检测出的所述目标包括所述目标的外接矩形框，所述目标类型识别模块包括：局部图像截取子模块，用于从所述目标视频帧中截取包含所述目标的局部图像，所述局部图像的边界为所述目标的外接矩形框；目标类型确定子模块，用于将所述局部图像输入已训练的深度学习模型，以由该深度学习模型对该局部图像进行目标识别，输出所述目标的目标类型。

可选地，所述物理尺寸确定模块包括：像素点映射子模块，用于将所述目标的外接矩形框的各像素点在所述目标深度图像中进行映射，以确定各像素点在所述目标深度图像中的对应映射点；点云数据获取子模块，用于获取各映射点的点云数据；物理尺寸计算子模块，用于根据所述外接矩形框的各顶点像素点对应的映射点的点云数据，计算所述外接矩形框的边界长度，作为所述目标的物理尺寸。

第三方面，本申请实施例提供了一种摄像机，包括非暂时性存储介质、处理器及存储在存储介质上并可在处理器上运行的机器可执行指令，所述处理器通过读取并执行所述机器可执行指令被促使：获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；从所述视频帧中检测出处于运动状态的目标；当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；识别所述目标视频帧中的所述目标的目标类型；基于所述目标深度图像确定所述目标的物理尺寸；根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。

第四方面，本申请实施例提供了一种机器可读存储介质，其上存储有机器可执行指令，所述机器可执行指令被处理器执行以促使所述处理器：获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；从所述视频帧中检测出处于运动状态的目标；当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；识别所述目标视频帧中的所述目标的目标类型；基于所述目标深度图像确定所述目标的物理尺寸；根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。根据本公开的实施例，可以获取监控区域的视频帧及深度图像，并根据视频帧检测处于运动状态的目标，当确定该目标触发预设的事件规则时，获取目标触发该事件规则时刻的目标视频帧以及目标深度图像。通过目标视频帧来确定目标的目标类型，通过目标深度图像来确定目标的物理尺寸，最终结合目标的物理尺寸以及目标类型，确定目标是否为指定目标，结合深度图可以过滤掉尺寸不合理的目标，可以较准确地确定指定目标，降低了误报概率，提高了周界防范的准确性。

附图说明

图1是本申请一示例性实施例示出的一种目标识别方法的实施例的步骤流程图。

图2是本申请一示例性实施例示出的目标触发预设的事件规则的检测示意图。

图3是本申请一示例性实施例示出的目标触发预设的事件规则的另一检测示意图。

图4是本申请一示例性实施例示出的目标识别装置所在设备的一种硬件结构图。

图5是本申请一示例性实施例示出的一种目标识别装置的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

参考图1，示出了本申请一示例性实施例示出的一种目标识别方法的实施例的步骤流程图，可以包括如下步骤。

步骤101，获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像。

在该步骤中，监控区域可以为摄像机的监控范围，通过摄像机的图像传感器可以采集视频帧。

深度图像(Depth map)的每个像素点的灰度值可用于表征监控场景中某一点距离摄像机的远近。在实现时，可以采用通用的深度图像获取方式来获取监控区域的深度图像。例如，可以采用如下方式获取监控区域的深度图像，但本实施例并不限于此。

可以采用被动测距传感方法。例如，可以采用利用双目立体视觉的被动测距传感方法。该方法通过两个相隔一定距离的传感器同时获取同一场景的两幅图像，通过立体匹配算法找到两幅图像中对应的像素点，随后根据三角原理计算出视差信息，而视差信息通过转换可用于表征场景中物体的深度信息。基于立体匹配算法，还可通过拍摄同一场景下不同角度的一组图像来获得该场景的深度图像。除此之外，场景的深度图像还可以通过对所拍摄图像的光度特征、明暗特征等特征进行分析间接估算得到。

可以采用主动测距传感方法。主动测距传感相比较于被动测距传感的区别是：设备本身需要发射能量来完成深度信息的采集。这也就保证了深度图像的获取独立于彩色图像的获取。主动测距传感的方法主要包括TOF(Time of Flight，飞行时间)、结构光、激光雷达扫描等。

TOF相机获取深度图像的原理是：通过对目标场景发射连续的近红外光脉冲，然后用传感器接收由物体反射回的光脉冲。通过比较发射光脉冲与经过物体反射的光脉冲的相位差，可以推算得到光脉冲之间的传输延迟进而得到物体相对于发射器的距离，最终得到一幅深度图像。

基于结构光的深度图像获取原理是：将结构光投射至场景，并由图像传感器捕获相应的带有结构光的模式图案的图像。由于结构光的模式图案会因为物体的形状发生变形，因此通过模式图案在捕捉得到的图像中的位置以及形变程度利用三角原理计算即可得到场景中各点的深度信息。

激光雷达测距技术通过激光扫描的方式得到场景的三维信息。其基本原理是按照一定时间间隔向空间发射激光，并记录各个扫描点的信号从激光雷达到被测场景中的物体，随后又经过物体反射回到激光雷达的相隔时间，据此推算出物体表面与激光雷达之间的距离。

需要说明的是，在获取监控区域的视频帧及深度图像时，若涉及至少两个传感器，该至少两个传感器可以集成在一个摄像机中，也可以分别部署于不同的摄像机中，本实施例对此不作限制。

在一种可能的实施场景中，若该至少两个传感器集成在同一摄像机中，当摄像机安装有处理芯片时，本实施例的方法可以由摄像机执行。当摄像机没有处理芯片时，摄像机中的不同传感器可以将采集的数据传输到指定平台，由指定平台执行本实施例的方法。

在另一种可能的实施场景中，当多个传感器分别部署在不同摄像机时，不同摄像机中的不同传感器可以将采集的数据传输到指定平台，由指定平台执行本实施例的方法。

本申请实施例的方法可以适用于上述任一场景，但本申请实施例并不限于此，一切符合本申请思想的实施例均在本申请的保护范围之内。

步骤102，从所述视频帧中检测出处于运动状态的目标。

示例性地，检测出的目标可以包括目标的外接矩形框。

在一种实施方式中，可以通过运动目标检测的方法从视频帧中识别出处于运动状态的目标。运动目标检测是指通过计算机视觉的方法减除视频中时间和空间上的冗余信息，有效地提取出发生空间位置变化的目标的过程。示例性地，可以建立一个背景模型，再利用背景差分法对运动目标与背景的像素点进行分类，从而检测出处于运动状态的目标。例如，可以使用中值法建立背景模型，即，使用连续的N帧图像序列的像素值的中值作为建立背景模型的数据。或者，还可以使用单高斯或混合高斯的方式进行背景建模，利用阈值判断像素点是否属于前景；或者，通过最新的几个图像样本信息利用标准核函数来估计出像素点，进行提取运动目标。或者，对每一个像素点按照一定的规则随机地选取一定数量的像素值进行背景建模，然后采用欧氏距离对像素点进行前景与背景的分类。

在一种实施方式中，当检测出运动目标以后，可以对各目标进行跟踪，从而确定各目标是否为稳定的目标，即该目标是否为处于运动状态的目标。示例性的，处于运动状态的目标可以为该目标在每个视频帧中都能检测到且具有稳定的位移。

步骤103，当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像。

在该步骤中，在对目标的跟踪过程中，还可以对目标进行逻辑分析，以判断该目标是否触发预设的事件规则。

在本实施例的一种可能的实施方式中，可以采用如下方式判断目标是否触发预设的事件规则。

若检测到所述目标的外接矩形框与预设的警告线或警告区域相交时，则判定所述目标框对象触发预设的事件规则。

示例性地，预设的事件规则可以包括区域入侵、跨线入侵等报警事件。

例如，如图2的区域入侵事件检测示意图所示，假设预先生成的警告区域为F1，目标人体的外接矩形框为F2，当目标人体开始进入警告区域F1时，即F2与F1相交时，如图的F1的边界将外接矩形框F2划分成A、B两部分，可以判定目标人体进入警告区域F1，则可以判定目标人体触发预设的区域入侵事件的事件规则。

又如，如图3的跨线入侵事件检测示意图所示，假设预先生成的警告线为L，目标人体的外接矩形框为F2，当目标人体跨越警告线L时，警告线L与F2相交，即L将外接矩形框F2划分成A、B两部分，可以判定目标人体的位置跨越警告线L，则可以判定目标人体触发预设的跨线入侵事件的事件规则。

在本实施例中，当判定目标触发预设的事件规则时，可以获取该目标触发事件规则时刻的目标视频帧以及目标深度图像。

在一种可能的实现中，可以通过规则判断模块来判断目标是否触发预设的事件规则，如果规则判断模块判定目标触发预设的事件规则时，可以向视频帧识别模块以及深度图像识别模块发出报警信号，则视频帧识别模块可以将接收到报警信号的时刻获取的视频帧作为目标视频帧，深度图像识别模块可以将接收到报警信号的时刻获取的深度图像作为目标深度图像。

规则判断模块、视频帧识别模块、深度图像识别模块可以分别通过软件或硬件来实现。当通过软件实现时，这些模块可以通过处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成。当通过硬件来实现时，这些模块可以被集成到一起或者分立地提供作为摄像机内的硬件部件。在下文结合图5描述的实施例中，对这些模块的功能进行了更细的划分。

步骤104，识别所述目标视频帧中的所述目标的目标类型。

在该步骤中，当确定目标视频帧以后，可以对目标视频帧中的所述目标进行识别，以确定目标的目标类型。

在一个例子中，可以通过视频帧识别模块基于目标视频帧确定目标的目标类型。作为一种示例，目标类型可以包括人、机动车辆、小动物等类型。

在本实施例的一种可能的实施方式中，步骤104可以包括如下子步骤。

子步骤S11，从所述目标视频帧中截取包含所述目标的局部图像，所述局部图像的边界为所述目标的外接矩形框。

在一个例子中，当视频帧识别模块根据报警信号确定目标视频帧以后，可以进行抠图处理，将包含目标的外接矩形框从目标视频帧中截取出来，得到局部图像。

子步骤S12，将所述局部图像输入已训练的深度学习模型，以由该深度学习模型对该局部图像进行目标识别，输出所述目标的目标类型。

在该步骤中，当根据目标的外接矩形框从目标视频帧截取出局部图像以后，可以将该局部图像输入已训练的深度学习模型，由该深度学习模型对局部图像进行目标识别，以输出目标的目标类型为人、机动车辆、小动物或者是误报。表示“误报”的信息可以作为一种目标类型输出，也可以以其他形式输出。

步骤105，基于所述目标深度图像确定所述目标的物理尺寸。

在该步骤中，当确定目标深度图像以后，可以根据目标深度图像确定目标的物理尺寸。

在一个例子中，可以通过深度图像识别模块基于目标深度图像确定目标的物理尺寸。

在本实施例的一种可能的实施方式中，步骤105可以包括如下子步骤。

子步骤S21，将所述目标视频帧中所述目标的外接矩形框的各像素点在所述目标深度图像中进行映射，以确定各像素点在所述目标深度图像中的对应映射点。

在实现时，同一时刻对应的视频帧以及深度图像是经过较准的，两者的像素点是一一映射的。也就是说，对于深度图像上的一个像素点，能够找到彩色图(即视频帧)上的一个像素点与之对应。

对于本实施例而言，目标视频帧与目标深度图像也是相互较准的，两者在像素点上一一对应。则在目标视频帧中确定目标的外接矩形框以后，可以根据目标的外接矩形框中各像素点在目标视频帧中的位置，在目标深度图像中查找与每个像素点对应的像素点，作为该像素点在目标深度图像中对应的映射点。

在一种实施方式中，目标的外接矩形框中各像素点可以包括外接矩形框内的所有像素点以及外接矩形框的边界的像素点。在其他实施方式中，为了降低计算的数据量，也可以只取外接矩形框的边界的像素点进行映射处理。

子步骤S22，获取各映射点的点云数据。

在一种可能的实施方式中，可以首先将目标深度图像转化成点云图。

点云图是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合。点云图中每个点表示实际空间位置，每个点包含有三维坐标，根据测量原理的不同，可能还含有颜色信息(RGB)或反射强度信息(Intensity)。

在该实施例中，可以采用通用的方法将深度图像转化成点云图。在一种实现方式中，可以结合摄像机的内参和外参，根据深度图像计算出对应的三维点云图，从而得到任意位置的三维坐标信息。

示例性的，其中一种转化方法可以为：

深度图像是各个像素点的深度值矩阵，该深度值矩阵是二维排列的，二维表示像素点在深度图像中的行数及列数。其中，若摄像机无法采集到某个像素点的深度值，则将该像素点的深度值设置为特定数值如0。可以根据摄像机的内参，计算深度图像中每个像素点的点云坐标，点云坐标为三维坐标，可以表示为(x，y，z)。

具体地，可以在深度图像中定义UV直角坐标系，深度图像中每一个像素点的像素坐标(u，v)分别表示该像素点在深度图像中的行数及列数。UV直角坐标系的原点O表示摄像机光轴与深度图像所在平面的交点，原点O在UV直角坐标系中的坐标为(u ₀,v ₀)，每一个像素点在方向u和方向v上的物理尺寸为dx及dy，相机镜头的焦距为f。通常将u ₀、v ₀、f/dx及f/dy称为相机内参。

确定深度图像中每个像素点的像素坐标(u，v)及该像素点的深度值z以后，可以使用以下公式计算出每个像素点各自对应的x及y，公式为：x＝z*(u-u ₀)*dx/f；y＝z*(v-v ₀)*dy/f。

进而，可以确定出深度图像中每个像素点的点云坐标(x，y，z)。

在其他实施方式中，为了节省计算量，还可以根据上述计算点云坐标的方式，直接计算外接矩形框在目标深度图像的各映射点对应的点云数据，而无需计算整个目标深度图像的点云图。

子步骤S23，根据所述外接矩形框的各顶点像素点对应的映射点的点云数据，计算所述外接矩形框的边界长度，作为所述目标的物理尺寸。

在该步骤中，得到目标的外接矩形框各像素点对应的映射点的点云数据以后，可以根据外接矩形框中位于顶点的顶点像素点对应的点云数据，计算该外接矩形框的边界长度，例如，计算外接矩形框的宽度和高度，作为目标的物理尺寸。

步骤106，结合所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。

在本实施例的一种可能的实施方式中，步骤106可以包括如下子步骤：

当所述目标类型与所述物理尺寸均与所述指定目标的预设条件匹配时，则判定所述目标为指定目标；当所述目标类型与所述物理尺寸任一与所述指定目标的预设条件不匹配时，则判定所述目标不为指定目标。

例如，假设判断目标的目标类型为人体，但其物理尺寸明显与人体的尺寸不符，假设为机动车辆的尺寸，则可以确定当前的目标不是人体。反之，假设判断目标的目标类型为人体，且其物理尺寸与人体的尺寸匹配，则可以确定当前的目标是人体。

在本实施例的一种可能的实施方式中，还可以包括如下步骤：

当确定所述目标为指定目标以后，则触发报警处理。

在该步骤中，当判断目标为指定目标时，则可以进行报警处理，例如发出警报声等报警信号，或者向相关人员发送报警信息等，以实现周界防范的功能。

本实施例可以获取监控区域的视频帧及深度图像，并根据视频帧检测处于运动状态的目标，当跟踪到目标触发预设的事件规则时，获取目标触发该事件规则时刻的目标视频帧以及目标深度图像。通过目标视频帧来确定目标的目标类型，通过目标深度图像来确定目标的物理尺寸，最终结合目标的物理尺寸以及目标类型，确定目标是否为指定目标，结合深度图可以过滤掉尺寸不合理的目标，可以较准确地确定指定目标，降低了误报概率，提高了周界防范的准确性。

与前述方法的实施例相对应，本申请还提供了一种目标识别装置的实施例。

本申请的装置实施例可以应用在雷达或摄像机等电子设备中。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储介质中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本申请的装置所在设备的一种硬件结构图，除了图4所示的处理器401、内存402、网络接口403、以及非易失性存储介质404之外，实施例中装置所在的设备通常根据该装置的实际功能，还可以包括其他硬件，对此不再赘述。处理器401通过读取并执行非易失性存储介质404中的机器可执行指令，可以实现以上实施例所描述的目标识别方法。

请参考图5，示出了本申请一示例性实施例示出的一种目标识别装置实施例的结构框图，具体可以包括如下模块：

图像获取模块501，用于获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；

目标检测模块502，用于从所述视频帧中检测出处于运动状态的目标；

目标图像确定模块503，用于当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；

目标类型识别模块504，用于识别所述目标视频帧中的目标的目标类型；

物理尺寸确定模块505，用于基于所述目标深度图像确定所述目标的物理尺寸；

目标判断模块506，用于根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。

在本实施例的一种可能的实施方式中，检测出的所述目标包括所述目标的外接矩形框，所述目标类型识别模块504可以包括如下子模块：

局部图像截取子模块，用于从所述目标视频帧中截取包含所述目标的局部图像，所述局部图像的边界为所述目标的外接矩形框；

目标类型确定子模块，用于将所述局部图像输入已训练的深度学习模型，以由该深度学习模型对该局部图像进行目标识别，输出所述目标的目标类型。

在本实施例的一种可能的实施方式中，所述物理尺寸确定模块包括：

像素点映射子模块，用于将所述目标的外接矩形框的各像素点在所述目标深度图像中进行映射，以确定各像素点在所述目标深度图像中的对应映射点；

点云数据获取子模块，用于获取各映射点的点云数据；

物理尺寸计算子模块，用于根据所述外接矩形框的各顶点像素点对应的映射点的点云数据，计算所述外接矩形框的边界长度，作为所述目标的物理尺寸。

在本实施例的一种可能的实施方式中，所述目标判断模块506具体用于：

当所述目标类型与所述物理尺寸均与所述指定目标的预设条件匹配时，则判定所述目标为指定目标；

当所述目标类型与所述物理尺寸任一与所述指定目标的预设条件不匹配时，则判定所述目标不为指定目标。

在本实施例的一种可能的实施方式中，采用如下方式检测所述目标是否触发预设的事件规则：

在本实施例的一种可能的实施方式中，所述装置还包括：

报警模块，用于当确定所述目标为指定目标以时，触发报警处理。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述方法实施例的步骤。

本申请实施例还提供了一种摄像机，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法实施例的步骤。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如车载终端、移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种目标识别方法，其特征在于，所述方法包括：

获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；

从所述视频帧中检测出处于运动状态的目标；

当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；

识别所述目标视频帧中的所述目标的目标类型；

基于所述目标深度图像确定所述目标的物理尺寸；

根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。
根据权利要求1所述的方法，其特征在于，检测出的所述目标包括所述目标的外接矩形框，所述识别所述目标视频帧中的所述目标的目标类型，包括：

从所述目标视频帧中截取包含所述目标的局部图像，所述局部图像的边界为所述目标的外接矩形框；

将所述局部图像输入已训练的深度学习模型，以由该深度学习模型对该局部图像进行目标识别，输出所述目标的目标类型。
根据权利要求2所述的方法，其特征在于，所述基于所述目标深度图像确定所述目标的物理尺寸，包括：

将所述目标的外接矩形框的各像素点在所述目标深度图像中进行映射，以确定各像素点在所述目标深度图像中的对应映射点；

获取各映射点的点云数据；

根据所述外接矩形框的各顶点像素点对应的映射点的点云数据，计算所述外接矩形框的边界长度，作为所述目标的物理尺寸。
根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标，包括：

当所述目标类型与所述物理尺寸均与所述指定目标的预设条件匹配时，则判定所述目标为所述指定目标；

当所述目标类型与所述物理尺寸任一与所述指定目标的预设条件不匹配时，则判定所述目标不为所述指定目标。
根据权利要求2所述的方法，其特征在于，采用如下方式确定所述目标是否触发预设的事件规则：

若检测到所述目标的外接矩形框与预设的警告线或警告区域相交时，则判定所述目标框对象触发预设的事件规则。
根据权利要求1-3、5任一所述的方法，其特征在于，所述方法还包括：

当确定所述目标为所述指定目标时，触发报警处理。
根据权利要求3所述的方法，其特征在于，所述目标的外接矩形框的各像素点包括所述外接矩形框内的全部像素点和/或所述外接矩形框的边界的像素点。
一种目标识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；

目标检测模块，用于从所述视频帧中检测出处于运动状态的目标；

目标图像确定模块，用于当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；

目标类型识别模块，用于识别所述目标视频帧中的所述目标的目标类型；

物理尺寸确定模块，用于基于所述目标深度图像确定所述目标的物理尺寸；

目标判断模块，用于根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。
根据权利要求8所述的装置，其特征在于，检测出的所述目标包括所述目标的外接矩形框，所述目标类型识别模块包括：

局部图像截取子模块，用于从所述目标视频帧中截取包含所述目标的局部图像，所述局部图像的边界为所述目标的外接矩形框；

目标类型确定子模块，用于将所述局部图像输入已训练的深度学习模型，以由该深度学习模型对该局部图像进行目标识别，输出所述目标的目标类型。
根据权利要求9所述的装置，其特征在于，所述物理尺寸确定模块包括：

像素点映射子模块，用于将所述目标的外接矩形框的各像素点在所述目标深度图像中进行映射，以确定各像素点在所述目标深度图像中的对应映射点；

点云数据获取子模块，用于获取各映射点的点云数据；

物理尺寸计算子模块，用于根据所述外接矩形框的各顶点像素点对应的映射点的点云数据，计算所述外接矩形框的边界长度，作为所述目标的物理尺寸。
根据权利要求8-10任一项所述的装置，其特征在于，所述目标判断模块被具体配置为：

当所述目标类型与所述物理尺寸均与所述指定目标的预设条件匹配时，则判定所述目标为所述指定目标；

当所述目标类型与所述物理尺寸任一与所述指定目标的预设条件不匹配时，则判定所述目标不为所述指定目标。
根据权利要求9所述的装置，其特征在于，采用如下方式确定所述目标是否触发预设的事件规则：

若检测到所述目标的外接矩形框与预设的警告线或警告区域相交时，则判定所述目标框对象触发预设的事件规则。
根据权利要求8-10、12任一所述的装置，其特征在于，所述装置还包括：

报警模块，用于当确定所述目标为所述指定目标时，触发报警处理。
根据权利要求10所述的装置，其特征在于，所述目标的外接矩形框的各像素点包括所述外接矩形框内的全部像素点和/或所述外接矩形框的边界的像素点。
一种摄像机，包括非暂时性存储介质、处理器及存储在所述存储介质上并可在处理器上运行的机器可执行指令，其特征在于，所述处理器通过读取并执行所述机器可执行指令被促使：

获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；

从所述视频帧中检测出处于运动状态的目标；

当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；

识别所述目标视频帧中的所述目标的目标类型；

基于所述目标深度图像确定所述目标的物理尺寸；

根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。
一种机器可读存储介质，其上存储有机器可执行指令，所述机器可执行指令被处理器执行以促使所述处理器：

获取监控区域的一个或多个视频帧及相对应的一个或多个深度图像；

从所述视频帧中检测出处于运动状态的目标；

当确定所述目标触发预设的事件规则时，获取所述目标触发所述事件规则时刻的目标视频帧以及目标深度图像；

识别所述目标视频帧中的所述目标的目标类型；

基于所述目标深度图像确定所述目标的物理尺寸；

根据所述物理尺寸以及所述目标类型，确定所述目标是否为指定目标。