WO2021008032A1

WO2021008032A1 - 监控视频处理方法、装置、计算机设备和存储介质

Info

Publication number: WO2021008032A1
Application number: PCT/CN2019/117589
Authority: WO
Inventors: 周俊琨; 罗郑楠; 肖玉宾; 许扬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-07-18
Filing date: 2019-11-12
Publication date: 2021-01-21
Also published as: CN110490078B; CN110490078A

Abstract

一种监控视频处理方法，包括：接收终端发送的监控视频，并对监控视频的关键帧图像进行预处理得到当前待识别区域；按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像；对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像；对采样特征图像进行二维特征提取，并获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标；根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，并根据目标概率参考指标得到监控视频中对应的预设行为。

Description

监控视频处理方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年7月18日提交中国专利局，申请号为2019106516191，申请名称为“监控视频处理方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种监控视频处理方法、装置、计算机设备和存储介质。

背景技术

随着网络技术的发展，出现了各种各样的线上监控技术，服务器可以获取到监控视频，然后通过人工观看监控视频的方式识别监控视频中是否存在危险行为。

然而，发明人意识到，目前的通过人工观看的方式来判断是否存在危险行为，在监控视频量较大的时候，极易存在错误，导致准确性降低。

发明内容

根据本申请公开的各种实施例，提供一种监控视频处理方法、装置、计算机设备和存储介质。

一种监控视频处理方法，包括：

接收终端发送的监控视频，并对所述监控视频的关键帧图像进行预处理得到当前待识别区域；

按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像；

对所述初始特征图像进行采样得到采样特征图像；

对所述采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标；及

根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，并根据所述目标概率参考指标得到所述监控视频对应的预设行为。

一种监控视频处理装置，包括：

接收模块，用于接收终端发送的监控视频，并对所述监控视频的关键帧图像进行预处理得到当前待识别区域；

第一提取模块，用于按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像；

第一采样模块，用于对初始特征图像进行采样得到采样特征图像；

第一计算模块，用于对所述采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标；及

输出模块，用于根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，并根据所述目标概率参考指标得到所述监控视频对应的预设行为。

一种计算机设备，包括存储器和一个或多个处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时实现本申请任意一个实施例中提供的监控视频处理方法的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的监控视频处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中监控视频处理方法的应用场景图。

图2为根据一个或多个实施例中监控视频处理方法的流程示意图。

图3为根据一个或多个实施例中三维卷积模型建立方法的流程图。

图4为根据一个或多个实施例中监控视频处理装置的框图。

图5为根据一个或多个实施例中计算机设备的坑图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的监控视频处理方法，可以应用于如图1所示的应用环境中。终端102通过网络与服务器104进行通信。其中终端102可以拍摄监控视频，并将所拍摄的监控视频发送至服务器104，服务器104在接收到终端102发送的监控视频之后，可以对该监控视频进行处理以判断监控视频中是否存在预设行为，例如服务器104首先对监控视频进行预处理得到关键帧图像对应的当前识别区域，然后根据预设提取类型分别对当前待识别区域进行特征提取得到初始特征图像，例如当预设提取类型存在三类时，服务器104可以分别从当前待识别区域提取三类预设提取类型对应的初始特征图像，然后对每一预设提取类型的初始特征图像进行采样得到采样特征图像，从而服务器104可以对采样特征图像进行二维特征提取，这样对于每一预设提取类型，服务器104均将所提取的二维特征输入至对应的三维卷积模型中即可以得到该预设提取特征对应的存在预设行为的初始概率参考指标。最后服务器104将各个预设提取类型对应的初始概率参考指标进行组合即可以得到目标概率参考指标，从而服务器可以根据该目标概率参考指标判断监控视频中是否存在预设行为，这样的处理方式综合了多个预设提取类型的结果，使得最后的判断结果更为准确。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种监控视频处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：接收终端发送的监控视频，并对监控视频的关键帧图像进行预处理得到当前待识别区域。

具体地，监控视频是终端拍摄的，例如终端可以安装有监控设备，例如摄像头等，终端通过该摄像头可以拍摄监控视频，并周期性将监控视频上传至服务器，例如可以每分钟上传一次，或者是每10秒上传一次等。

服务器在接收到终端上传的监控视频后，由于监控视频中存在多帧图像，因此可以首先解码得到多帧图像，并对解码后的关键帧图像进行背景剔除得到当前待识别区域。优选地，服务器客体通过高斯混合滤波的方式将背景剔除得到当前待识别区域，即将非人的部分剔除掉，以避免对人的行为识别的干扰。

S204：按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像。

具体地，预设提取类型可以至少包括3类，例如RGB特征、人体骨架特征以及MV特征。对于RGB特征和MV特征的提取在此不再赘述。对于人体骨架特征的提取可以通过RMPE算法进行，具体可以包括以下步骤：首先进行行人检测得到边界框，然后再每一个边界框中检测人体关键点，将关键点连接形成一个人形，根据所连接形成的人形得到人体骨架特征。其中在得到边界框之后，首先通过STN(SSTN(Symmetric Spatial Transformer Network)，对称空间变换网络，由STN，SDTN两部分组成)接收人体边界框，然后通过SDTN产生候选姿态，再通过PNMS(Parametric PoseNonMaximum-Suppression)过滤掉多余的姿态估计，其中过滤到多余的姿态估计的时候可以通过PGPG(Pose-Guided Proposals Generator)产生各种姿态图片以供训练过程使用。

S206：对初始特征图像进行采样得到采样特征图像。

具体地，此处以一个预设提取类型为例进行说明，服务器获取到某一预设提取类型对应的初始特征图像，该初始特征图像是按照时序进行排列的，从而服务器可以从该按照时序排列的初始特恒图像中进行随机采样得到采样特征图像，且为了保证所采样的采样特征图像具有代表性，可以进行均匀采样，即保证采样遍及到整个监控视频，例如按照监控视频的播放时序进行排列的，然后服务器按照时序对该初始特征图像进行分段，并从每一段中提取一张图像作为采样特征图像。例如，服务器可以将初始特征图像均分为16段，然后每一段提取一张，从而得到16张采样特征图像。

且可选地，为了提高处理效率，服务器可以设置多个线程对初始特征图像进行采样，线程的条数可以与预设提取特征的数量相关。例如此处存在3个预设提取类型，则服务器启动三个线程，每个线程对一个预设提取特征对应的初始特征图像进行采样。

S208：对采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标。

具体地，二维特征的提取是采样inceptionV2网络结构进行的，将每一张采样图像输入到该网络结构中均可以得到对应的96张28*28的特征图。

此处仍以其中一个预设提取类型对应的采样图像为例进行说明，服务器在得到二维特征后，由于存在多张采样图像，例如上述例子中的16张采样特征图，因此可以将每一张采样特征图对应的28*28的特征图生成一个特征向量，该特征向量中存在16个项，从而可以得到96个特征向量，将96个特征向量输入至预先训练得到的三维卷积模型中即可以得到每一预设提取特征对应的初始概率参考指标。其中先生成96个特征向量是为了得到16张采样图像的时序信息，即根据视频帧的时间先后顺序以及每一张采样图像对应的28*28的特征图得到96个特征向量。例如第一张采样图像的某一位置处的特征图为A1，第二张对应位置处为A2，以此类推第十六张对应位置处为A16，因此可以生成其中一个特征向量为{A1，A2，A3，……A16}，其他95个特征向量的生成方式类似，在此不再赘述。

其中预先训练的三维卷积模型是根据历史监控视频生成的，具体可以参见下文，其中每一个预设提取模型均对应一个三维卷积模型。且可选地，为了提高处理效率，服务器可以设置多个线程对进行上述处理，线程的条数可以与预设提取特征的数量相关。例如此处存在3个预设提取类型，则服务器启动三个线程，每个线程对采样特征图像进行二维特征提取，并将所提取到的二维特征输入至与预设提取类型对应的三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标。

S210：根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，并根据目标概率参考指标得到监控视频中对应的预设行为。

具体地，服务器在得到初始概率参考指标后，由于存在多个预设提取类型，因此每一个预设提取类型都对应一个初始概率参考指标，通过对该些初始概率参考指标进行组合即可以得到监控视频中存在预设行为的目标概率参考指标，例如可以给每一个初始概率参考指标预设一个权重，通过该权重和对应的初始概率参考指标即可以计算得到目标概率参考指标。

服务器在计算得到目标概率参考指标后，可以通判断目标概率参考指标是否大于预设值的方式来判断监控视频中是否存在预设行为，例如当目标概率参考指标大于预设值，则说明监控视频中存在预设行为，否则监控视频中不存在预设行为。

上述监控视频处理方法，对监控视频首先进行预处理，然后再预处理后，提取多个预设提取特征，并计算多个预设提取特征对应的预设行为的初始概率参考指标，最后根据多个初始概率参考指标进行综合得到目标概率参考指标，根据目标概率参考指标判断监控视频中是否存在预设行为，从而可以提高预设行为的识别准确性，保证公共安全。

在其中一个实施例中，对监控视频的关键帧图像进行预处理得到当前待识别区域，可以包括：对监控视频进行解码得到关键帧图像；识别关键帧图像中的背景区域；剔除背景区域得到当前待识别区域。

具体地，服务器首先对监控视频进行解码得到关键帧图像，该解码方式可以是硬件解码，例如通过GPU进行解码，从而可以提高解码效率，在解码成功后，则可以识别关键帧图像中的背景区域，具体地可以是通过高斯混合滤波进行的，即对于每一个像素点，定义K个高斯特征来标识图像中各个像素点的特征，然后在检测过程中，只要像素点符合K个高斯分布中的一个，就认为该像素点是具有北京特征的像素点，否则被判定为当前待识别区域。最后服务器剔除背景区域，只保留待识别区域进行处理，这样可以减少背景干扰，聚焦待识别的内容。

上述实施例中，在服务器接收到监控视频后，首先对监控视频进行解码，并识别背景区域，剔除该背景区域，只保留当前待识别区域，这样可以减少背景干扰，聚焦待识别的内容。

在其中一个实施例中，对每一预设提取类型对应的初始特征图像进行采样得到采样特征图像，可以包括：将每一预设提取类型对应的初始特征图像按照时序进行分段处理；从每一分段中提取一帧初始特征图像作为采样特征图像。

具体地，服务器在得到初始特征图像后，该初始特征图像是按照时序进行排列的，即按照监控视频的播放顺序进行排列的，服务器首先按照时序进行分段，例如均分为多段，然后从每一分段中提取一阵初始特征图像作为采样特征图像。例如假设监控视频是10秒，则可以将10秒的监控视频平均划分为16段，然后从每一段中提取一阵初始特征图像，从而每一预设提取类型均包括16张采样特征图像，例如RGB特征包括16张RGB采样特征图像，MV特征包括16张MV采样特征图像，人体骨架特征包括16张人体骨架采样特征图像。

上述实施例中，将初始特征图像均分为多段，并对每一段采样一张，这样可以进行均匀采样，即保证采样遍及到整个监控视频。

在其中一个实施例中，根据目标概率参考指标判断监控视频中是否存在预设行为之后，还可以包括：当监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置；选择与第二地理位置最近的第一地理位置；获取所选择的第一地理位置对应的终端的用户的联系方式；向联系方式发送第一地理位置以及报警信息。

具体地，预设行为可以是打架斗殴等威胁公共安全的危险行为，服务器在通过目标概率参考指标判断监控视频中存在预设行为时，则可以进行报警，例如服务器可以首先获取到终端的第一地理位置，以及当前用户，例如治安管理人员的第二地理位置，并根据第一地理位置和第二地理位置获取到距离终端最近的治安管理人员的终端，从而可以将第一地理位置和报警信息发送到治安管理人员的终端，以便于治安管理人员可以及时处理该危险行为，保证了公共安全。

上述实施例中，在在通过目标概率参考指标判断监控视频中存在预设行为时，则可以进行报警，以便于治安管理人员可以及时处理该危险行为，保证了公共安全。

在其中一个实施例中，每一预设提取类型对应的三维卷积模型的建立方式可以包括：获取历史监控视频以及历史监控视频对应的预设行为；对历史监控视频的关键帧图像进行预处理得到历史待识别区域；按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像，并对历史特征图像进行增强处理；对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像；对历史采样图像进行二维特征提取，通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。

在其中一个实施例中，通过对所提取的二维特征以及历史监控视频对应的预设行为进行训练得到三维卷积模型之后，还可以包括：将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标；通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。从而根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，可以包括：根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。

具体地，上述监控视频处理方法还涉及到模型建立方法，包括三维卷积模型的建立以初始概率参考指标和目标概率参考指标之间的关系的模型的建立，即上述权重的获取。参阅图3，图3为一个实施例中三维卷积模型建立方法的流程图，在该实施例中，具体可以包括以下步骤：

服务器首先获取到历史监控视频，以及历史监控视频对应的预设行为，例如是否存在打架斗殴行为等。然后服务器对每一历史监控视频的关键帧图像进行预处理得到历史待识别区域，例如首先进行高斯混合滤波得到背景区域，然后剔除背景区域得到历史待识别区域。然后服务器为了分别建立对于RGB特征、人体骨架特征以及MV特征的三维卷积模型，即3Dresnet模型，服务器分别对历史待识别区域进行特征提取得到历史特征图像，并对所提取的历史特征图像进行增强处理，例如水平翻转、擦除和裁剪等手段进行增强处理。且可选地，对于特征提取，由于需要根据预设提取类型分别进行提取，因此可以设置多个线程进行处理，每一个线程对应一个预设提取类型。

服务器在得到增强处理后的历史特征图像后，再对该增强处理后的历史特征图像进行采样得到历史采样图像，该过程也可以是分线程进行处理，即每一个线程对应一个预设提取类型，且采样的方式可以参见上文所述，例如首先对历史特征图像按照时序进行分段，然后服务器对每一分段提取一帧图像作为历史采样图像。

服务器在得到历史采样图像后，对历史采样图像进行二维特征提取，具体的提取方式可以参见上文。然后将本预设提取类型中的采样图像对应的二维特征生成一个向量，这样就可以生成96个特征向量，将该96个特征向量以及历史监控视频对应的预设行为进行训练即可以得到三维卷积模型。

通过上述方式服务器可以分别得到针对于RGB特征、人体骨架特征以及MV特征的三维卷积模型。

具体地，在服务器得到三维卷积模型后可以继续训练得到初始概率参考指标和目标概率参考指标之间的关系的模型，此处为了方便，称为混合模型。例如在得到三维卷积模型后，服务器将所提取的二维特征输入至对应预设提取类型的三维卷积模型中得到每一预设提取类型对应的存在预设行为的历史概率参考指标。然后将历史监控视频对应的预设行为作为Y值，将将RGB特征、人体骨架特征以及MV特征对应的二分类结果，即历史概率参考指标作为X值进行训练，例如Y＝a*RGB特征的历史概率参考指标+b*人体骨架特征的历史概率参考指标+c*MV特征的历史概率参考指标，然后对Y值和X值进行训练得到a、b以及c，从而可以建立该混合模型。

当混合模型建立完成后，服务器在处理实际的监控视频时，可以将得到的初始概率参考指标输入至该混合模型中，从而可以根据该混合模型的中权重a、b、c计算得到目标概率参考指标。

上述实施例中，通过模型训练的方式得到预设提取类型对应的三维卷积模型以及综合各个三维卷积模型的预测结果的混合模型，通过三维卷积模型对监控视频首先进行处理可以得到初始概率参考指标，再将初始概率参考指标输入至混合模型中皆可以得到监控视频对应的目标概率参考指标，综合考虑了多个模型的结果，提高了结果的准确性。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种监控视频处理装置，包括：接收模块100、第一提取模块200、第一采样模块300、第一计算模块400和输出模块500，其中：

接收模块100，用于接收终端发送的监控视频，并对监控视频的关键帧图像进行预处理得到当前待识别区域。

第一提取模块200，用于按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像。

第一采样模块300，用于对初始特征图像进行采样得到采样特征图像。

第一计算模块400，用于对采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标。

输出模块500，用于根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，并根据目标概率参考指标得到监控视频对应的预设行为。

在其中一个实施例中，上述的接收模块100可以包括：

解码单元，用于对监控视频进行解码得到关键帧图像。

识别单元，用于识别关键帧图像中的背景区域。

剔除单元，用于剔除背景区域得到当前待识别区域。

在其中一个实施例中，上述的第一采样模块300可以包括：

分段单元，用于将每一预设提取类型对应的初始特征图像按照时序进行分段处理。

提取单元，用于从每一分段中提取一帧初始特征图像作为采样特征图像。

在其中一个实施例中，上述监控视频处理装置还可以包括：

地理位置获取模块，用于当监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置。

联系方式获取模块，用于选择与第二地理位置最近的第一地理位置；获取所选择的第一地理位置对应的终端的用户的联系方式。

发送模块，用于向联系方式发送第一地理位置以及报警信息。

在其中一个实施例中，上述监控视频处理装置还可以包括：

获取模块，用于获取历史监控视频以及历史监控视频对应的预设行为。

预处理模块，用于对历史监控视频的关键帧图像进行预处理得到历史待识别区域。

第二提取模块，用于按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像，并对历史特征图像进行增强处理。

第二采样模块，用于对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像。

第一训练模块，用于对历史采样图像进行二维特征提取，通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。

在其中一个实施例中，上述监控视频处理装置还可以包括：

第二计算模块，用于将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标。

第二训练模块，用于通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。

输出模块500还用于根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。

关于监控视频处理装置的具体限定可以参见上文中对于监控视频处理方法的限定，在此不再赘述。上述监控视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储监控视频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种监控视频处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：接收终端发送的监控视频，并对监控视频的关键帧图像进行预处理得到当前待识别区域；按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像；对初始特征图像进行采样得到采样特征图像；对采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标；根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，并根据目标概率参考指标得到监控视频中对应的预设行为。

在一个实施例中，处理器执行计算机程序时所实现的对监控视频的关键帧图像进行预处理得到当前待识别区域，可以包括：对监控视频进行解码得到关键帧图像；识别关键帧图像中的背景区域；剔除背景区域得到当前待识别区域。

在一个实施例中，处理器执行计算机程序时所实现的对每一预设提取类型对应的初始特征图像进行采样得到采样特征图像，可以包括：将每一预设提取类型对应的初始特征图像按照时序进行分段处理；从每一分段中提取一帧初始特征图像作为采样特征图像。

在一个实施例中，处理器执行计算机程序时所实现的根据目标概率参考指标判断监控视频中是否存在预设行为之后，还可以包括：当监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置；选择与第二地理位置最近的第一地理位置；获取所选择的第一地理位置对应的终端的用户的联系方式；向联系方式发送第一地理位置以及报警信息。

在一个实施例中，处理器执行计算机程序时所实现的每一预设提取类型对应的三维卷积模型的建立方式可以包括：获取历史监控视频以及历史监控视频对应的预设行为；对历史监控视频的关键帧图像进行预处理得到历史待识别区域；按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像，并对历史特征图像进行增强处理；对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像；对历史采样图像进行二维特征提取，通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。

在一个实施例中，处理器执行计算机程序时所实现的通过对所提取的二维特征以及历史监控视频对应的预设行为进行训练得到三维卷积模型之后，还可以包括：将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标；通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。处理器执行计算机程序时所实现的根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，可以包括：根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收终端发送的监控视频，并对监控视频的关键帧图像进行预处理得到当前待识别区域；按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像；对初始特征图像进行采样得到采样特征图像；对采样特征图像进行二维特征提取，并获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标；根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，并根据目标概率参考指标得到监控视频中对应的预设行为。

在一个实施例中，计算机程序被处理器执行时所实现的对监控视频的关键帧图像进行预处理得到当前待识别区域，可以包括：对监控视频进行解码得到关键帧图像；识别关键帧图像中的背景区域；剔除背景区域得到当前待识别区域。

在一个实施例中，计算机程序被处理器执行时所实现的对每一预设提取类型对应的初始特征图像进行采样得到采样特征图像，可以包括：将每一预设提取类型对应的初始特征图像按照时序进行分段处理；从每一分段中提取一帧初始特征图像作为采样特征图像。

在一个实施例中，计算机程序被处理器执行时所实现的根据目标概率参考指标判断监控视频中是否存在预设行为之后，还可以包括：当监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置；选择与第二地理位置最近的第一地理位置；获取所选择的第一地理位置对应的终端的用户的联系方式；向联系方式发送第一地理位置以及报警信息。

在一个实施例中，计算机程序被处理器执行时所实现的每一预设提取类型对应的三维卷积模型的建立方式可以包括：获取历史监控视频以及历史监控视频对应的预设行为；对历史监控视频的关键帧图像进行预处理得到历史待识别区域；按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像，并对历史特征图像进行增强处理；对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像；对历史采样图像进行二维特征提取，通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。

在一个实施例中，计算机程序被处理器执行时所实现的通过对所提取的二维特征以及历史监控视频对应的预设行为进行训练得到三维卷积模型之后，还可以包括：将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标；通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。计算机程序被处理器执行时所实现的根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标，可以包括：根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种监控视频处理方法，包括：

接收终端发送的监控视频，并对所述监控视频的关键帧图像进行预处理得到当前待识别区域；

按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像；

对所述初始特征图像进行采样得到采样特征图像；

对所述采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标；及

根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
根据权利要求1所述的方法，其特征在于，所述对所述监控视频的关键帧图像进行预处理得到当前待识别区域，包括：

对所述监控视频进行解码得到关键帧图像；

识别所述关键帧图像中的背景区域；

剔除所述背景区域得到当前待识别区域。
根据权利要求1所述的方法，其特征在于，所述对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像，包括：

将每一所述预设提取类型对应的初始特征图像按照时序进行分段处理；及

从每一分段中提取一帧初始特征图像作为采样特征图像。
根据权利要求1至3任意一项所述的方法，其特征在于，所述根据所述目标概率参考指标判断所述监控视频中是否存在预设行为之后，还包括：

当所述监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置；

选择与所述第二地理位置最近的第一地理位置；

获取所选择的第一地理位置对应的终端的用户的联系方式；及

向所述联系方式发送所述第一地理位置以及报警信息。
根据权利要求1至3任意一项所述的方法，其特征在于，每一所述预设提取类型对应的三维卷积模型的建立方式包括：

获取历史监控视频以及所述历史监控视频对应的预设行为；

对所述历史监控视频的关键帧图像进行预处理得到历史待识别区域；

按照预设提取类型对所述历史待识别区域进行特征提取得到历史特征图像，并对所述历史特征图像进行增强处理；

对所述预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像；及

对所述历史采样图像进行二维特征提取，通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。
根据权利要求5所述的方法，其特征在于，所述通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型之后，还包括：

将所提取的二维特征输入至与所述预设提取类型对应的所述三维卷积模型得到每一所述预设提取类型对应的存在预设行为的历史概率参考指标；

通过所述历史概率参考指标以及所述历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重；及

所述根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，包括：

根据所述初始概率参考指标以及所述权重计算得到所述监控视频中存在预设行为的目标概率参考指标。
一种监控视频处理装置，包括：

接收模块，用于接收终端发送的监控视频，并对所述监控视频的关键帧图像进行预处理得到当前待识别区域；

第一提取模块，用于按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像；

第一采样模块，用于对初始特征图像进行采样得到采样特征图像；

第一计算模块，用于对所述采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标；

输出模块，用于根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
根据权利要求7所述的装置，其特征在于，所述接收模块包括：

解码单元，用于对所述监控视频进行解码得到关键帧图像；

识别单元，用于识别所述关键帧图像中的背景区域；

剔除单元，用于剔除所述背景区域得到当前待识别区域。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收终端发送的监控视频，并对所述监控视频的关键帧图像进行预处理得到当前待识别区域；

按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像；

对所述初始特征图像进行采样得到采样特征图像；

对所述采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标；及

根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对所述监控视频的关键帧图像进行预处理得到当前待识别区域，包括：

对所述监控视频进行解码得到关键帧图像；

识别所述关键帧图像中的背景区域；

剔除所述背景区域得到当前待识别区域。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像，包括：

将每一所述预设提取类型对应的初始特征图像按照时序进行分段处理；及

从每一分段中提取一帧初始特征图像作为采样特征图像。
根据权利要求9-11任一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述根据所述目标概率参考指标判断所述监控视频中是否存在预设行为之后，还包括：

当所述监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置；

选择与所述第二地理位置最近的第一地理位置；

获取所选择的第一地理位置对应的终端的用户的联系方式；及

向所述联系方式发送所述第一地理位置以及报警信息。
根据权利要求9-11任一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的每一所述预设提取类型对应的三维卷积模型的建立方式包括：

获取历史监控视频以及所述历史监控视频对应的预设行为；

对所述历史监控视频的关键帧图像进行预处理得到历史待识别区域；

按照预设提取类型对所述历史待识别区域进行特征提取得到历史特征图像，并对所述历史特征图像进行增强处理；

对所述预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像；及

对所述历史采样图像进行二维特征提取，通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型之后，还包括：

将所提取的二维特征输入至与所述预设提取类型对应的所述三维卷积模型得到每一所述预设提取类型对应的存在预设行为的历史概率参考指标；

通过所述历史概率参考指标以及所述历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重；及

所述处理器执行所述计算机可读指令时所实现的所述根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，包括：

根据所述初始概率参考指标以及所述权重计算得到所述监控视频中存在预设行为的目标概率参考指标。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收终端发送的监控视频，并对所述监控视频的关键帧图像进行预处理得到当前待识别区域；

按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像；

对所述初始特征图像进行采样得到采样特征图像；

对所述采样特征图像进行二维特征提取，获取与预设提取类型对应的三维卷积模型，并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标；及

根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的所述对所述监控视频的关键帧图像进行预处理得到当前待识别区域，包括：

对所述监控视频进行解码得到关键帧图像；

识别所述关键帧图像中的背景区域；

剔除所述背景区域得到当前待识别区域。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的所述对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像，包括：

将每一所述预设提取类型对应的初始特征图像按照时序进行分段处理；及

从每一分段中提取一帧初始特征图像作为采样特征图像。
根据权利要求15至17任一项所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的所述根据所述目标概率参考指标判断所述监控视频中是否存在预设行为之后，还包括：

当所述监控视频中存在预设行为时，则获取终端的第一地理位置以及当前用户的第二地理位置；

选择与所述第二地理位置最近的第一地理位置；

获取所选择的第一地理位置对应的终端的用户的联系方式；及

向所述联系方式发送所述第一地理位置以及报警信息。
根据权利要求15至17任一项所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的每一所述预设提取类型对应的三维卷积模型的建立方式包括：

获取历史监控视频以及所述历史监控视频对应的预设行为；

对所述历史监控视频的关键帧图像进行预处理得到历史待识别区域；

按照预设提取类型对所述历史待识别区域进行特征提取得到历史特征图像，并对所述历史特征图像进行增强处理；

对所述预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像；及

对所述历史采样图像进行二维特征提取，通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型。
根据权利要求19所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时所实现的所述通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练，得到收敛的三维卷积模型之后，还包括：

将所提取的二维特征输入至与所述预设提取类型对应的所述三维卷积模型得到每一所述预设提取类型对应的存在预设行为的历史概率参考指标；

通过所述历史概率参考指标以及所述历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重；及

所述处理器执行所述计算机可读指令时所实现的所述根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标，包括：

根据所述初始概率参考指标以及所述权重计算得到所述监控视频中存在预设行为的目标概率参考指标。