WO2021174771A1

WO2021174771A1 - 一种人机协作的视频异常检测方法

Info

Publication number: WO2021174771A1
Application number: PCT/CN2020/110579
Authority: WO
Inventors: 於志文; 杨帆; 李青洋; 郭斌
Original assignee: 西北工业大学
Priority date: 2020-03-05
Filing date: 2020-08-21
Publication date: 2021-09-10
Also published as: CN111400547B; US20220245945A1; CN111400547A

Abstract

一种人机协作的视频异常检测方法，利用视频帧和传统的图像光流描述符作为输入数据进行自编码器神经网络编码转换成隐层表示内容，再把隐层表示内容通过解码重构输出。使用正常样本对自编码器网络进行训练，在测试阶段，若输入是正常的样本，最后重构结果和输入样本保持高相似度；反之，若输入是非正常样本，最后重构误差对于输入样本偏差较大。根据重构误差，对测试的结果设定适当的阈值，小于阈值认为是正常，大于阈值的认为是异常。然后以一定概率请求反馈，人对发起反馈的视频帧进行判断，如果是正确检测直接输出，如果出现检测错误，则打上标记，正常标记为1，异常标记为0，然后把检测错误的样本返回到模型输入。

Description

一种人机协作的视频异常检测方法

技术领域

本发明属于视频异常检测技术领域，尤其是涉及人机协作的视频异常检测方法。

背景技术

随着信息技术和物联网技术的快速发展，越来越多的监控设备部署在城镇和道路上(例如：小区楼宇、商场、办公楼和街道以及高速公路区域等)。大量监控设施的部署为公共财产和人身安全提供了隐形保障，与此同时，也产生了大量的监控视频数据，如何在庞大的视频数据中快速高效的找到特定需求的视频是许多应用面临的需求。视频异常检测是计算机视觉中一个重要的分支，在理论研究和实际应用中都发挥了重要作用。目前主要有两种异常检测的类型，一种是基于早期传统的手工特征提取的描述符，按照特定的目标需求，用于对特定场景的异常进行检测，检测的性能和手工特征的提取的质量关系密切；另一种是2012年以后基于深度学习的方法，通过神经网络模型对视频帧学习到更丰富的以及人们无法估计一些隐藏特征，进而大幅提高了异常检测精度和速度。

在目前的视频异常检测方法中，虽然检测精确度在提升，但是训练检测模型需要大量的样本进行训练，各种模型的测试结果中都有相当规模的假警报。为了提高检测的准确度，就需要不断调整训练模型，耗时耗力，在一些实时性要求较高的任务中，不能很好的满足需求。此外，现有的视频异常检测方法都是依据数据分布、模型参数、样本选择等方面去研究，对于某些人很轻松就可以识别的对象，设计的模型则需要不断迭代，优化模型，从而才能提升检测(识别)效果。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，提升检测精度，本发明提出一种人机协作的视频异常检测方法。

技术方案

一种人机协作的视频异常检测方法，其特征在于步骤如下：

步骤1：对于要检测的视频序列，分析其视频参数：视频的长度、视频的场景、异常视频的起止范围，约定异常的视频；对视频进行分帧操作，分割成一定长度的视频序列；

步骤2：将步骤1分割好的视频序列划分为训练集和测试集，其中训练集不包括任何异常的视频序列，测试集包含正常和异常视频序列；

步骤3：利用自编码器模型对训练集数据进行训练，在一定的时间窗口内调整模型参数，让输入到网络的视频帧和光流数据进行分块，然后经过编码器的卷积、池化，以及解码器的反卷积、池化操作；使用式(1)所示的带有L2正则化的欧几里德损失作为在时间维度多个视频帧构成的长方体的目标函数，它表示视频序列中N块重构之后的视频块f _rec(X _i)和输入的视频块X _i所做的欧式距离，其中γ表示前后两个加和项的调节因子，W是自编码器神经网络学习到的权重；优化目标函数，从而得到训练模型；

步骤4：计算帧t中每一个像素值I在位置(x,y)处的总计误差

每一个像素在(x,y)位置的重构误差用公式(2)表示：

其中，I(x,y,t)表示每一帧t中一个像素值I在位置(x，y)位置的值，f _WI(x,y,t)表示重构之后的像素值；

计算每一帧的异常分数，用于是否为异常的判断依据：

其中，min _te(t)和max _te(t)表示在视频中得分最小和得分最大的视频帧对应的总计误差值；根据整体的检测结果和正常以及异常的比例，设定阈值，小于阈值为正常视频帧，大于阈值为异常视频帧；对于检测的结果以一定概率发起反馈，让人进行判断是否是真实的正常或真实异常，如果是检测正常的视频帧直接输出，如果是检测错误的视频帧，人进行标注；

步骤5：对于步骤4中检测错误的视频帧，进行收集，存放到一个缓冲区，等到收集的视频帧达到一定数量后，把收集到的视频帧送入自编码器模型，模型参数做出适度调整，从而在后续的测试中，提升对类似视频帧的检测准确率。

所述的步骤2中的训练集和测试集的比例为4∶6。

所述的步骤3中的分块为15*15像素、18*18像素或20*20像素三种尺寸。

所述的步骤4中的一定概率为0.1。

有益效果

本发明是对常规的视频异常检测加入了人的反馈，对于发起反馈的视频帧，进行专家确认，尤其是对于大于设定阈值的视频帧的判断，在视频中，异常目标物体存在较大遮挡时，专家可以确认，利用人的认知优势，对算法检测的结果进行修改和标注，对于假警报(本来是正常的，却被算法判别为异常)和漏检(本来是异常，却没有被检测出来)，可以做修正，最终实验结果提高了检测精度，而不需要更新检测模型，有实际的应用价值。

在当下每天都有大量的图片和视频数据产生的时代，如果能够融合人的认知、分析、推理能力，对异常视频做一定量的标注，结合机器学习的算法，实现高效快捷的检测效果。本发明提供了一种融合人反馈的视频异常检测方法。该方法将人(具有领域专业知识)对异常的自然认知与机器学习模型的处理结果进行一定的融合。对于测试的结果设定一个阈值，以一定比例发出反馈请求，对于检测正确的进行人的确认，直接输出结果；对于检测错误的进行标注，然后返回模型的输入部分，对带标记的数据进行处理。在这个处理模型中，对于以往的异常视频检测算法提供了一种新颖的方式，融合了人的认知分析优势和神经网络的快速处理优势，提升了检测的准确性。

附图说明

图1是本发明一种人机协作的视频异常检测方法流程图

图2为视频中有无异常的结果图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明提出了一种人机协作的视频异常检测方法。利用视频帧和传统的图像光流描述符作为输入数据进行自编码器神经网络编码转换成隐层表示内容，再把隐层表示内容通过解码重构输出。使用正常样本对自编码器网络进行训练，在测试阶段，若输入是正常的样本，最后重构结果和输入样本保持高相似度；反之，若输入是非正常样本，最后重构误差对于输入样本偏差较大。根据重构误差，对测试的结果设定适当的阈值，小于阈值认为是正常，大于阈值的认为是异常。然后以一定概率请求反馈，人对发起反馈的视频帧进行判断，如果是正确检测直接输出，如果出现检测错误，则打上标记，正常标记为1，异常标记为0，然后把检测错误的样本返回到模型输入。通过收集一定数量的错误检测视频帧，送入神经网络，进行模型更新，进而在后续的测试中，可以检测出部分类似的异常为真实异常。同时，对于异常视频，可以根据视频异常的起止范围，更加有针对性的进行检测，加快检测的速度，在公共安全与社会治安管理等应用场景中有很强的现实意义。

如图1所示，包括以下步骤：

步骤1：对于要检测的视频序列，分析其视频参数，为待检测视频处理做准备，对要处理的视频有基本的信息了解，更有针对性的去处理。，观察记录包括视频的长度，视频的场景，异常视频的起止范围，确定视频的异常(在我们实验的数据集中是：小汽车、玩滑板的人、骑自行车的人、轮椅、跑动的人，扔东西的人)，从而对待检测的视频有更清晰的认知。做一些预处理，对视频进行分帧操作，分割成一定长度的视频序列(如200帧为一个序列)。

步骤2：根据步骤1分割好的视频序列，划分训练集和测试集的比例，通常为4:6，其中训练集不包括任何异常的视频序列，测试集包含正常和异常视频序列。

步骤3：利用自编码器模型对训练集数据进行训练，在一定的时间窗口内(N＝10帧或N＝20帧)调整模型参数，让输入到网络的视频帧和光流数据进行分块，15*15像素、18*18像素、20*20像素三种尺寸，然后经过编码器的卷积、池化，以及解码器的反卷积、池化操作。我们使用带有L2正则化的欧几里德损失作为在时间维度多个视频帧构成的长方体的目标函数，如(1)式所示，它表示视频序列中N块重构之后的视频块f _rec(X _i)和输入的视频块X _i所做的欧式距离，其中γ表示前后两个加和项的调节因子，W是自编码器神经网络学习到的权重。优化目标函数，从而得到训练模型。

步骤4：当模型训练好之后，我们计算帧t中每一个像素值I在位置(x,y)处的总计误差值

每一个像素在(x,y)位置的重构误差用公式(2)表示，进而计算每一帧的异常分数，用于是否为异常的判断依据。

其中，I(x,y,t)表示每一帧t中一个像素值I在位置(x，y)位置的值，f _WI(x,y,t)表示重构之后的像素值。对每一帧得出异常分数，表示为公式(3)式

其中，min _te(t)和max _te(t)表示在视频序列中得分最小和得分最大的视频帧对应的总计误差值。根据整体的检测结果和正常以及异常的比例，设定阈值，小于阈值为正常视频帧，大于阈值为异常视频帧；对于检测的结果以一定概率(0.1)发起反馈，让人(专家)进行判断是否是真实的正常或真实异常，如果是检测正常的视频帧直接输出，如果是检测错误的视频帧，人进行标注；对于由规则事件组成的视频序列具有更好的规则(正常)得分，因为它们在特征空间更接近训练集里的正常训练数据。反之，异常序列具有较低的正常得分，因此它可以用来定位异常。

Claims

一种人机协作的视频异常检测方法，其特征在于步骤如下：

步骤1：对于要检测的视频序列，分析其视频参数：视频的长度、视频的场景、异常视频的起止范围，约定异常的视频；对视频进行分帧操作，分割成一定长度的视频序列；

步骤2：将步骤1分割好的视频序列划分为训练集和测试集，其中训练集不包括任何异常的视频序列，测试集包含正常和异常视频序列；

步骤3：利用自编码器模型对训练集数据进行训练，在一定的时间窗口内调整模型参数，让输入到网络的视频帧和光流数据进行分块，然后经过编码器的卷积、池化，以及解码器的反卷积、池化操作；使用式(1)所示的带有L2正则化的欧几里德损失作为在时间维度多个视频帧构成的长方体的目标函数，它表示视频序列中N块重构之后的视频块f _rec(X _i)和输入的视频块X _i所做的欧式距离，其中γ表示前后两个加和项的调节因子，W是自编码器神经网络学习到的权重；优化目标函数，从而得到训练模型；

步骤4：计算帧t中每一个像素值I在位置(x,y)处的总计误差值
每一个像素在(x,y)位置的重构误差用公式(2)表示：

其中，I(x,y,t)表示每一帧t中一个像素值I在位置(x，y)位置的值，f _W(I(x,y,t)表示重构之后的像素值；

计算每一帧的异常分数，用于是否为异常的判断依据：

其中，min _te(t)和max _te(t)表示在视频中得分最小和得分最大的视频帧对应的总计误差值；根据整体的检测结果和正常以及异常的比例，设定阈值，小于阈值为正常视频帧，大于阈值为异常视频帧；对于检测的结果以一定概率发起反馈，让人进行判断是否是真实的正常或真实异常，如果是检测正常的视频帧直接输出，如果是检测错误的视频帧，人进行标注；

步骤5：对于步骤4中检测错误的视频帧，进行收集，存放到一个缓冲区，等到收集的视频帧达到一定数量后，把收集到的视频帧送入自编码器模型，模型参数做出适度调整，从而在后续的测试中，提升对类似视频帧的检测准确率。
根据权利要求1所述的一种人机协作的视频异常检测方法，其特征在于所述的步骤2中的训练集和测试集的比例为4:6。
根据权利要求1所述的一种人机协作的视频异常检测方法，其特征在于所述的步骤3中的分块为15*15像素、18*18像素或20*20像素三种尺寸。
根据权利要求1所述的一种人机协作的视频异常检测方法，其特征在于所述的步骤4中的一定概率为0.1。