WO2022116322A1

WO2022116322A1 - 异常检测模型生成方法和装置、异常事件检测方法和装置

Info

Publication number: WO2022116322A1
Application number: PCT/CN2020/139499
Authority: WO
Inventors: 吴俊�; 陈晓蝶; 马永康; 曾铮; 江文涛
Original assignee: 罗普特科技集团股份有限公司; 罗普特(厦门)系统集成有限公司
Priority date: 2020-12-02
Filing date: 2020-12-25
Publication date: 2022-06-09
Also published as: CN112465049A

Abstract

公开了异常检测模型生成方法和装置。该方法的一具体实施方式包括：获取多个样本图像帧序列；基于第一图像和第二图像，训练初始模型包括的预测帧生成器，其中，预测帧生成器包括多层次的特征提取网络和生成网络，特征提取网络用于提取第一图像的不同深度的特征信息并融合特征信息，生成网络用于利用融合后的特征信息生成预测帧；基于预测帧和第二图像，训练初始模型包括的帧判别器；响应于训练结束，将训练后的初始模型确定为异常检测模型。该实施方式采用了融合多种不同深度的特征信息的方法，可以使生成的预测帧更接近实际，从而提高了异常检测的准确性。

Description

异常检测模型生成方法和装置、异常事件检测方法和装置

相关申请

本申请要求保护在2020年12月2日提交的申请号为202011405894.4的中国专利申请的优先权，该申请的全部内容以引用的方式结合到本文中。

技术领域

本申请实施例涉及计算机技术领域，具体涉及异常检测模型生成方法和装置、异常事件检测方法和装置。

背景技术

异常检测(Anomaly Detection)问题是机器学习算法的一个常见应用。让一个系统从许多未标注的数据中学习到某些正常的特征，从而能够诊断出非正常的数据，我们把这个过程叫做异常检测。所谓异常检测就是发现与大部分对象不同的对象，其实就是发现离群点。异常检测有不同领域的定义，视频中的异常检测是指识别与预期行为不符的事件，区别正常事件和异常事件。

现在的异常检测方法，使用正常训练数据进行特征重建是一种常用的策略。然而，几乎所有现有方法都通过最小化训练数据的重构误差来解决该问题，这不能保证异常事件中较大的重构误差。根据现有方法可以将特征重建的方法大致分为基于手动设计特征的方法以及基于深度学习的方法。在使用手动设计特征的方法时，由于字典没有经过异常事件的训练，而且通常不完整，所以并不能保证结果的准确性。而使用基于深度学习的方法也会出现一些问题，深度神经网络的容量很高，并且不一定会发生针对异常事件的较大重构错误，导致最终的异常检测达不到准确的结果。

公开内容

本申请实施例的目的在于提出了一种改进的异常检测模型生成方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种异常检测模型生成方法，该方法包括：获取多个样本图像帧序列，其中，每个样本图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；基于第一图像和第二图像，训练初始模型包括的预测帧生成器，其中，预测帧生成器包括多层次的特征提取网络和生成网络，特征提取网络用于提取第一图像的不同深度的特征信息并融合特征信息，生成网络用于利用融合后的特征信息生成预测帧；基于预测帧和第二图像，训练初始模型包括的帧判别器；响应于训练结束，将训练后的初始模型确定为异常检测模型。

在一些实施例中，基于第一图像和第二图像，训练初始模型包括的预测帧生成器，包括：基于预设的第一损失函数，优化特征提取网络的参数，其中，第一损失函数包括以下至少一种：L2距离损失、梯度约束损失、光流损失；基于预设的第二损失函数，优化生成网络的参数，其中，第二损失函数包括最小二乘损失。

在一些实施例中，基于预测帧和第二图像，训练初始模型包括的帧判别器，包括：将位于第二图像之前的预设数量个图像帧与预测帧叠加为多通道图像；提取多通道图像的特征信息；对多通道图像的特征信息进行光流估计以确定预测帧与第二图像之间的光流损失；基于光流损失，对帧判别器的参数进行优化。

在一些实施例中，第一图像的数量为至少两个。

在一些实施例中，该方法还包括：获取经过多次训练得到的多个异常检测模型；确定多个异常检测模型的检测性能，并将检测性能最优的异常检测模型确定为进行异常事件检测所用的模型。

第二方面，本申请实施例提供了一种异常事件检测方法，该装置包括：获取由图像采集设备采集的图像帧序列，其中，图像帧序列包括第一图像和第二图像，第二图像为所述第一图像的下一帧图像；将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧，其中，异常检测模型预先基于上述第一方面描述的方法训练得到；将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值；响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息。

第三方面，本申请实施例提供了一种异常检测模型生成装置，该装置包括：第一获取模块，用于获取多个样本图像帧序列，其中，每个样本图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；第一训练模块，用于基于第一图像和第二图像，训练初始模型包括的预测帧生成器，其中，预测帧生成器包括多层次的特征提取网络和生成网络，特征提取网络用于提取第一图像的不同深度的特征信息并融合特征信息，生成网络用于利用融合后的特征信息生成预测帧；第二训练模块，用于基于预测帧和第二图像，训练初始模型包括的帧判别器；第一确定模块，用于响应于训练结束，将训练后的初始模型确定为异常检测模型。

第四方面，本申请实施例提供了一种异常事件检测装置，该装置包括：第三获取模块，用于获取由图像采集设备采集的图像帧序列，其中，图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；预测模块，用于将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧，其中，异常检测模型预先基于上述第一方面描述的方法训练得到；判别模块，用于将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值；输出模块，用于响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息。

第五方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面或第二方面中任一实现方式描述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。

本申请实施例提供的异常检测模型生成方法和装置、异常事件检测方法和装置，通过基于获取的样本图像帧序列包括的第一图像和第二图像，训练初始模型包括的预测帧生成器，预测帧生成器生成预测帧，基于预测帧和第二图像，训练初始模型包括的帧判别器，最后将训练结束的初始模型确定为异常检测模型，由于帧生成器采用了融合多种不同深度的特征信息的方法，可以是生成的预测帧更接近实际，从而提高了异常检测的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的异常检测模型生成方法的一个实施例的流程图；

图3是根据本申请的异常检测模型生成方法的初始模型的结构示意图；

图4是根据本申请的异常检测模型生成方法的另一个实施例的流程图；

图5是根据本申请的异常事件检测方法的一个实施例的流程图；

图6是根据本申请的异常检测模型生成装置的一个实施例的结构示意图；

图7是根据本申请的异常事件检测装置的一个实施例的流程图；

图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的异常检测模型生成方法的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如监控类应用、图像处理应用、视频处理应用等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的图像帧序列进行处理的图像处理服务器。图像处理服务器可以对接收的图像帧序列进行模型训练、异常检测等处理，并得到处理结果(例如异常检测模型、异常检测信息等)。

需要说明的是，本申请实施例所提供的异常检测模型生成方法或异常事件监测方法可以由终端设备101或服务器103执行，相应地，异常检测模型生成装置或异常事件监测装置可以设置于终端设备101或服务器103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。需要说明的是，在训练模型的样本或用于异常检测的图像不需从远程获取的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

继续参考图2，其示出了根据本申请的应异常检测模型生成方法的一个实施例的流程200。该方法包括以下步骤：

步骤201，获取多个样本图像帧序列。

在本实施例中，异常检测模型生成方法的执行主体(例如图1所示的终端设备或服务器)可以从本地或从远程获取多个样本图像帧序列。其中，各个样本图像帧序列可以是从不同的视频中截取的视频片段包括的图像帧。通常上述多个样本图像序列可以来自预设的数据集，例如UCSD-Ped2或CUHK数据集。

其中，每个样本图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像。其中，第一图像的数量可以任意设置，例如3个。

在本实施例的一些可选的实现方式中，第一图像的数量为至少两个。作为示例，对于某个样本图像帧序列，若最后一帧图像为F _t，则第一图像可以包括F _t-1、F _t-2、…、F _t-n，第二图像为F _t。通过将第一图像的数量设置为至少两个，可以充分地利用历史帧的特征对未来帧进行预测，提高生成预测帧的准确性。

通常，样本图像序列包括的图像帧可以是对原图经过缩放而成的固定尺寸的彩色图像，例如256×256×3，3为颜色通道数。

步骤202，基于第一图像和第二图像，训练初始模型包括的预测帧生成器。

在本实施例中，上述执行主体可以基于第一图像和第二图像，训练初始模型包括的预测帧生成器。

其中，预测帧生成器包括多层次的特征提取网络和生成网络，特征提取网络用于提取第一图像的不同深度的特征信息并融合特征信息，生成网络用于利用融合后的特征信息生成预测帧。融合后的特征信息可以是特征图。

作为示例，特征提取网络可以包括20个卷积层(采用1x1卷积和3x3卷积)，4个最大池化层和1个激活层。采用多层卷积计算提取出第一图像(即正常行为图像)中不同深度的特征信息，并融合这些特征信息，融合后的特征信息输入生成网络，生成网络可以对融合后的特征信息进行三次卷积计算以及使用Tanh激活函数，得到一张256×256×3的图像，该图像即为预测帧图像。如图3所示，p ₁、p ₂、p ₃、p ₄即为第一图像，p _t+1为第二图像。301为初始网络，第一图像输入初始网络经过多次卷积得到融合后的特征信息，再经过三次Conv(3,3)的卷积运算，以及经过Tanh 激活函数，输出预测帧

通常，在训练时，可以将预测帧与对应的第二图像进行比对，利用预设的损失函数确定表征预测帧与第二图像之间的差距的损失值，通过迭代优化特征提取网络和生成网络的参数，使预测帧接近第二图像，当满足训练结束条件时(例如损失值收敛、训练时长达到预设时长、训练次数达到预设次数等)，结束训练。如图3所示，302表示三种损失函数，通过对比p _t+1和

优化初始模型的参数以最小化三种损失函数的损失值。

在本实施例的一些可选的实现方式中，步骤202可以包括如下步骤：

步骤一，基于预设的第一损失函数，优化特征提取网络的参数。

其中，第一损失函数包括以下至少一种：L2距离损失、梯度约束损失、光流损失。

步骤二，基于预设的第二损失函数，优化生成网络的参数，其中，第二损失函数包括最小二乘损失。

通常，在可以将上述各损失函数相加，得到损失值之和，利用损失值之和优化网络参数。需要说明的是，采用上述光流损失，解决了物体在复杂光照条件下的运动检测问题，能最大程度学习到正常行为特征的潜在规律。本实现方式通过采用上述各种损失函数，可以从多个方面优化网络参数，有助于提高训练得到的帧生成器生成预测帧的准确性。

步骤203，基于预测帧和第二图像，训练初始模型包括的帧判别器。

在本实施例中，上述执行主体可以基于预测帧和第二图像，训练初始模型包括的帧判别器。

其中，帧判别器用于判别输入的两个图像是否相同。帧判别器通常基于卷积神经网络训练得到。在训练时，将预测帧和实际帧(即第二图像)作为输入，将用于区别预测帧和实际帧的标注信息作为期望输出，利用机器学习方法，训练帧判别器。训练的目标是时帧判别器的判别准确性最高。

通常，预测帧生成器和帧判别器是交替训练的。例如首先固定帧判别器的参数，优化预测帧生成器的参数，直到帧判别器无法正确判别预测帧和实际帧。然后固定预测帧生成器的参数，优化帧判别器的参数，直到帧判别器可以准确判别预测帧和实际帧。

如图3所示，D为帧判别器，将p _t+1和

输入D，即可得到表示当前帧为正常(normal)或不正常(abnormal)的信息。

在本实施例的一些可选的实现方式中，如图4所示，步骤203可以如下执行：

步骤2031，将位于第二图像之前的预设数量个图像帧与预测帧叠加为多通道图像。

例如，若预设数量为5，则将前5帧图像叠加为多通道的图像数据。

可选的，在叠加为多通道图像后，还可以对多通道图像进行裁剪，以适应后续的神经网络对输入的要求。例如，裁剪为512×384大小的图像。

步骤2032，提取多通道图像的特征信息。

具体地，可以利用神经网络模型提取多通道图像的特征信息。例如可以使用Flownet(光流神经网络)模型进行特征提取。作为示例，Flownet可以包括12个3x3卷积层，用于对输入的图像进行特征提取。Flownet 可以对输入的图像进行光流估计，得到的特征信息可以反映相邻的多帧图像之间的关系。

步骤2033，对多通道图像的特征信息进行光流估计以确定预测帧与第二图像之间的光流损失。

其中，光流估计的方法可以是现有的方法。例如，可以采用上述Flownet模型，对提取的特征信息进行光流估计，并利用预设的光流损失函数确定光流损失。

步骤2034，基于光流损失，对帧判别器的参数进行优化。

具体地，可以反复地利用多对图像数据输入模型，迭代地优化Flownet模型的参数，使光流损失的损失值最小化。应当理解，光流估计和光流损失是目前的现有技术，这里不再对具体实现方式进行赘述。

本实现方式通过对多帧图像叠加，以及利用光流估计方法，对帧判别器进行优化，可以准确地反映物体运动在复杂光照条件下的运动，提高判别准确性。

步骤204，响应于训练结束，将训练后的初始模型确定为异常检测模型。

在本实施例中，上述执行主体可以响应于训练结束，将训练后的初始模型确定为异常检测模型。其中，训练结束条件可以包括但不限于以下至少一种：损失函数的损失值收敛、训练次数达到预设次数、训练时长达到预设时长等。最终得到的异常检测模型包括训练后的预测帧生成器和帧判别器。

在本实施例的一些可选的实现方式中，该方法还可以包括如下步骤：

首先，获取经过多次训练得到的多个异常检测模型。

其中，训练上述多个异常检测模型的方法与上述步骤201-步骤204相同。

然后，确定多个异常检测模型的检测性能，并将检测性能最优的异常检测模型确定为进行异常事件检测所用的模型。

其中，异常检测模型的性能可以用各种指标表征，例如以下至少一项：检测准确率(即准确率越高性能越好)、检测时长(即在保证准确率的情况下，单次检测时长越短，性能越好)等。

本实现方式通过对多次训练得到的多个异常检测模型进行性能筛选，可以得到性能更好的异常检测模型。

本申请的上述实施例提供的方法，通过基于获取的样本图像帧序列包括的第一图像和第二图像，训练初始模型包括的预测帧生成器，预测帧生成器生成预测帧，基于预测帧和第二图像，训练初始模型包括的帧判别器，最后将训练结束的初始模型确定为异常检测模型，由于帧生成器采用了融合多种不同深度的特征信息的方法，可以使生成的预测帧更接近实际，从而提高了异常检测的准确性。

进一步参考图5，其示出了根据本申请的异常事件检测方法的一个实施例的流程500。该方法包括以下步骤：

步骤501，获取由图像采集设备采集的图像帧序列。

在本实施例中，上述执行主体可以从本地或从远程获取由图像采集设备采集的图像帧序列。其中，图像采集设备可以为上述执行主体包括的摄像头等设备，也可以是与上述执行主体通信连接的其他设备包括的摄像头等设备。图像帧序列可以是实时采集的视频中包括的图像帧序列，也可以是预先存储的视频文件包括的图像帧序列。

其中，图像帧序列包括第一图像和第二图像，第二图像为所述第一图像的下一帧图像。其中，第一图像和第二图像的定义与上述步骤201基本一致，这里不再赘述。

步骤502，将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧。

在本实施例中，上述执行主体可以将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧。其中，异常检测模型预先基于上述图2对应实施例描述的方法训练得到，关于预测帧生成器的描述，可以参见上述图2对应实施例中的描述。

步骤503，将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值。

在本实施例中，上述执行主体可以将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值。其中，关于帧判别器的描述，可以参见上述图2对应实施例中的描述。上述表征相似程度的数值越大，表示两个图像的相似程度越高。上述表征相似程度的数值可以通过各种方法计算得到，例如确定图像之间的余弦距离、欧氏距离等计算相似度。

步骤504，响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息。

在本实施例中，上述执行主体可以响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息。

具体地，当上述数值小于或等于预设的阈值时，表征预测的图像帧与实际的图像帧的差距较大，此时摄像头的拍摄范围内可能发生了异常情况，进一步输出各种形式的信息以提示用户当前发生了异常情况。上述表征发生异常事件的信息可以包括但不限于以下至少一种形式的信息：文字、图像、警报音等。

本申请的上述实施例提供的异常事件检测方法，通过使用上述图2对应实施例中训练的异常检测模型，可以在预测帧与实际帧相差较大时输出表征发生了异常现象的信息，从而可以高效、准确地对异常行为进行监控。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种异常检测模型生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的异常检测模型生成装置600包括：第一获取模块601，用于获取多个样本图像帧序列，其中，每个样本图像帧序列包括第一图像和第二图像，第二图像为第一图像的下一帧图像；第一训练模块602，用于基于第一图像和第二图像，训练初始模型包括的预测帧生成器，其中，预测帧生成器包括多层次的特征提取网络和生成网络，特征提取网络用于提取第一图像的不同深度的特征信息并融合特征信息，生成网络用于利用融合后的特征信息生成预测帧；第二训练模块603，用于基于预测帧和第二图像，训练初始模型包括的帧判别器；第一确定模块604，用于响应于训练结束，将训练后的初始模型确定为异常检测模型

在本实施例中，第一获取模块601可以从本地或从远程获取多个样本图像帧序列。其中，各个样本图像帧序列可以是从不同的视频中截取的视频片段包括的图像帧。通常上述多个样本图像序列可以来自预设的数据集，例如UCSD-Ped2或CUHK数据集。

其中，每个样本图像帧序列包括第一图像和第二图像，第二图像为第一图像的下一帧图像。其中，第一图像的数量可以任意设置，例如3个。

在本实施例中，第一训练模块602可以基于第一图像和第二图像，训练初始模型包括的预测帧生成器。

作为示例，特征提取网络可以包括20个卷积层(采用1x1卷积和3x3卷积)，4个最大池化层和1个激活层。采用多层卷积计算提取出第一图像(即正常行为图像)中不同深度的特征信息，并融合这些特征信息，融合后的特征信息输入生成网络，生成网络可以对融合后的特征信息进行三次卷积计算以及使用Tanh激活函数，得到一张256×256×3的图像，该图像即为预测帧图像。如图3所示，p ₁、p ₂、p ₃、p ₄即为第一图像，p _t+1为第二图像。301为初始网络，第一图像输入初始网络经过多次卷积得到融合后的特征信息，再经过三次Conv(3,3)的卷积运算，以及经过Tanh激活函数，输出预测帧

优化初始模型的参数以最小化三种损失函数的损失值。

在本实施例中，第二训练模块603可以基于预测帧和第二图像，训练初始模型包括的帧判别器。

如图3所示，D为帧判别器，将p _t+1和

在本实施例中，第一确定模块604可以响应于训练结束，将训练后的初始模型确定为异常检测模型。其中，训练结束条件可以包括但不限于以下至少一种：损失函数的损失值收敛、训练次数达到预设次数、训练时长达到预设时长等。最终得到的异常检测模型包括训练后的预测帧生成器和帧判别器。

在本实施例的一些可选的实现方式中，第一训练模块可以包括：第一优化单元(图中未示出)，用于基于预设的第一损失函数，优化特征提取网络的参数，其中，第一损失函数包括以下至少一种：L2距离损失、梯度约束损失、光流损失；第二优化单元(图中未示出)，用于基于预设的第二损失函数，优化生成网络的参数，其中，第二损失函数包括最小二乘损失。

在本实施例的一些可选的实现方式中，第二训练模块603可以包括：叠加单元(图中未示出)，用于将位于第二图像之前的预设数量个图像帧与预测帧叠加为多通道图像；提取单元(图中未示出)，用于提取多通道图像的特征信息；估计单元(图中未示出)，用于对多通道图像的特征信息进行光流估计以确定预测帧与第二图像之间的光流损失；第三优化单元(图中未示出)，用于基于光流损失，对帧判别器的参数进行优化。

在本实施例的一些可选的实现方式中，第一图像的数量为至少两个。

在本实施例的一些可选的实现方式中，装置600还可以包括：第二获取模块(图中未示出)，用于获取经过多次训练得到的多个异常检测模型；第二确定模块(图中未示出)，用于确定多个异常检测模型的检测性能，并将检测性能最优的异常检测模型确定为进行异常事件检测所用的模型。

本申请的上述实施例提供的装置，通过基于获取的样本图像帧序列包括的第一图像和第二图像，训练初始模型包括的预测帧生成器，预测帧生成器生成预测帧，基于预测帧和第二图像，训练初始模型包括的帧判别器，最后将训练结束的初始模型确定为异常检测模型，由于帧生成器采用了融合多种不同深度的特征信息的方法，可以使生成的预测帧更接近实际，从而提高了异常检测的准确性。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种异常检测模型生成装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的异常检测模型生成装置700包括：第三获取模块701，用于获取由图像采集设备采集的图像帧序列，其中，图像帧序列包括第一图像和第二图像，第二图像为第一图像的下一帧图像；预测模块702，用于将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧，其中，异常检测模型预先基于上述第一方面描述的方法训练得到；判别模块703，用于将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值；输出模块704，用于响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息

在本实施例中，第三获取模块701可以从本地或从远程获取由图像采集设备采集的图像帧序列。其中，图像采集设备可以为上述装置700包括的摄像头等设备，也可以是与上述装置700通信连接的其他设备包括的摄像头等设备。图像帧序列可以是实时采集的视频中包括的图像帧序列，也可以是预先存储的视频文件包括的图像帧序列。

其中，图像帧序列包括第一图像和第二图像，第二图像为第一图像的下一帧图像。其中，第一图像和第二图像的定义与上述步骤201基本一致，这里不再赘述。

在本实施例中，预测模块702可以将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧。其中，异常检测模型预先基于上述图2对应实施例描述的方法训练得到，关于预测帧生成器的描述，可以参见上述图2对应实施例中的描述。

在本实施例中，判别模块703可以将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值。其中，关于帧判别器的描述，可以参见上述图2对应实施例中的描述。上述表征相似程度的数值越大，表示两个图像的相似程度越高。上述表征相似程度的数值可以通过各种方法计算得到，例如确定图像之间的余弦距离、欧氏距离等计算相似度。

在本实施例中，输出模块704可以响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息。

本申请的上述实施例提供的装置，通过使用上述图2对应实施例中训练的异常检测模型，可以在预测帧与实际帧相差较大时输出表征发生了异常现象的信息，从而可以高效、准确地对异常行为进行监控。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质 811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块、第一训练模块、第二训练模块和第一确定模块。其中，这些模块的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取模块还可以被描述为“用于获取多个样本图像帧序列的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取多个样本图像帧序列，其中，每个样本图像帧序列包括第一图像和第二图像，第二图像为第一图像的下一帧图像；基于第一图像和第二图像，训练初始模型包括的预测帧生成器，其中，预测帧生成器包括多层次的特征提取网络和生成网络，特征提取网络用于提取第一图像的不同深度的特征信息并融合特征信息，生成网络用于利用融合后的特征信息生成预测帧；基于预测帧和第二图像，训练初始模型包括的帧判别器；响应于训练结束，将训练后的初始模型确定为异常检测模型。

此外，当上述一个或者多个程序被该电子设备执行时，还可以使得该电子设备：获取由图像采集设备采集的图像帧序列，其中，图像帧序列包括第一图像和第二图像，第二图像为第一图像的下一帧图像；将第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧，其中，异常检测模型预先基于上述第一方面描述的方法训练得到；将预测帧和第二图像输入预先训练的帧判别器，得到表征预测帧和第二图像之间的相似程度的数值；响应于确定数值小于或等于预设的阈值，输出表征第二图像对应的时间点发生异常事件的信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种异常检测模型生成方法，其特征在于，所述方法包括：

获取多个样本图像帧序列，其中，每个样本图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；

基于所述第一图像和所述第二图像，训练初始模型包括的预测帧生成器，其中，所述预测帧生成器包括多层次的特征提取网络和生成网络，所述特征提取网络用于提取所述第一图像的不同深度的特征信息并融合所述特征信息，所述生成网络用于利用融合后的特征信息生成预测帧；

基于所述预测帧和所述第二图像，训练所述初始模型包括的帧判别器；

响应于训练结束，将训练后的初始模型确定为异常检测模型。
根据权利要求1所述的方法，其特征在于，所述基于所述第一图像和所述第二图像，训练初始模型包括的预测帧生成器，包括：

基于预设的第一损失函数，优化所述特征提取网络的参数，其中，所述第一损失函数包括以下至少一种：L2距离损失、梯度约束损失、光流损失；

基于预设的第二损失函数，优化所述生成网络的参数，其中，所述第二损失函数包括最小二乘损失。
根据权利要求1所述的方法，其特征在于，所述基于所述预测帧和所述第二图像，训练所述初始模型包括的帧判别器，包括：

将位于所述第二图像之前的预设数量个图像帧与所述预测帧叠加为多通道图像；

提取所述多通道图像的特征信息；

对所述多通道图像的特征信息进行光流估计以确定所述预测帧与所述第二图像之间的光流损失；

基于所述光流损失，对所述帧判别器的参数进行优化。
根据权利要求1-3之一所述的方法，其特征在于，所述第一图像的数量为至少两个。
根据权利要求1-3之一所述的方法，其特征在于，所述方法还包括：

获取经过多次训练得到的多个异常检测模型；

确定所述多个异常检测模型的检测性能，并将检测性能最优的异常检测模型确定为进行异常事件检测所用的模型。
一种异常事件检测方法，其特征在于，所述方法包括：

获取由图像采集设备采集的图像帧序列，其中，所述图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；

将所述第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧，其中，所述异常检测模型预先基于权利要求1-5之一所述的方法训练得到；

将所述预测帧和所述第二图像输入预先训练的帧判别器，得到表征所述预测帧和所述第二图像之间的相似程度的数值；

响应于确定所述数值小于或等于预设的阈值，输出表征所述第二图像对应的时间点发生异常事件的信息。
一种异常检测模型生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取多个样本图像帧序列，其中，每个样本图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；

第一训练模块，用于基于所述第一图像和所述第二图像，训练初始模型包括的预测帧生成器，其中，所述预测帧生成器包括多层次的特征提取网络和生成网络，所述特征提取网络用于提取所述第一图像的不同深度的特征信息并融合所述特征信息，所述生成网络用于利用融合后的特征信息生成预测帧；

第二训练模块，用于基于所述预测帧和所述第二图像，训练所述初始模型包括的帧判别器；

第一确定模块，用于响应于训练结束，将训练后的初始模型确定为异常检测模型。
一种异常事件检测装置，其特征在于，所述装置包括：

第三获取模块，用于获取由图像采集设备采集的图像帧序列，其中，所述图像帧序列包括第一图像和第二图像，所述第二图像为所述第一图像的下一帧图像；

预测模块，用于将所述第一图像输入预先训练的异常检测模型包括的预测帧生成器，得到预测帧，其中，所述异常检测模型预先基于权利要求1-5之一所述的方法训练得到；

判别模块，用于将所述预测帧和所述第二图像输入预先训练的帧判别器，得到表征所述预测帧和所述第二图像之间的相似程度的数值；

输出模块，用于响应于确定所述数值小于或等于预设的阈值，输出表征所述第二图像对应的时间点发生异常事件的信息。
一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。