WO2016011641A1

WO2016011641A1 - 自适应改进sobs方法与基于该方法的视频监控系统

Info

Publication number: WO2016011641A1
Application number: PCT/CN2014/082929
Authority: WO
Inventors: 徐勇; 吴帅
Original assignee: 徐勇
Priority date: 2014-07-24
Filing date: 2014-07-24
Publication date: 2016-01-28

Abstract

本发明提供了一种自适应改进SOBS方法，包括以下步骤：步骤1：建模，步骤2：模型初始化，步骤3：背景像素判断以及模型更新，步骤4：阴影像素判断，步骤5：前景点判断。该方法使得模型可以根据不同的情况自动控制更新率的变化。另外，在模型更新的过程中本文的改进方法加大了背景像素在其邻域的传播速率。使得方法在消除噪声方面效果更为突出明显。还提供了基于上述方法的视频监控系统，系统主要由摄像机和后端工控机组成，系统为具有运动目标检测功能的实时视频监控系统。可以实时检测到监控视频中的运动目标。

Description

自适应改进 SOBS方法与基于该方法的视频监控系统技术领域本发明涉及一种自适应的改进自组织背景减除（SOBS )方法与基于该方法的视频监控系统。背景技术近些年来，智能视频序列分析在交通控制、银行监控等诸多领域有着至关重要的作用。基于视频序列的运动目标检测是许多计算机视觉应用非常重要的预处理过程。如何快速准确的在视频序列中抽取运动目标一度成为研究的热点。一个具有运动目标检测功能的视频监控系统可以帮助我们发现许多在真实视频帧图像中发现不了的细节，对智能视频监控系统的发展具有十分重要的意义。

首先要指出，视频序列中的运动目标面临着诸多难题：光照变化，离散背景变化（如树叶摇动），阴影（如人的影子），前景欺骗（前景和背景十分相似）等。目前，基于视频序列的运动目标检测的方法可以分为 3类：帧间差分法、光流法以及背景减除法。帧间差分法具有很高的运算效率，但是它对于离散背景变化十分敏感，很难消除光照变化、阴影等因素带来的噪音。大多数的光流法具有很高的运算复杂度，运算速度比较慢，很难应用于实时的检测。相比之下，背景减除法不但具有较快的运算速度、较高的准确率，其技术手段也十分多样化，其目前已逐渐成为运动目标检测的主流方法。

自组织背景减除（Self-Organizing Background Subtraction, SOBS ) 方法在运动目标检测方面具有十分优越的性能，其在上述难题的处理上也有不错的效果。该方法将图像帧的每个像素映射到一个 n * n 的拓扑结构中去。所有像素的 n * n 拓扑结构构成了最终的神经网络模型。 SOBS方法用第一帧初始化背景模型，对之后的每一帧都能进行实时的前景提取以及模型的更新。 SOBS采用 HSV颜色空间（每个像素 a可以表示为一个三元素的向量（h, s, v ) )，根据阴影像素点只是在亮度上有较大的变化，在颜色上并未有大变化的原理来消除阴影产生的噪声。

然而，原始的 SOBS方法存在两点不足：第一、需要人为的将整个运动目标检测过程分为两个阶段。首先利用视频序列的前 K帧，以较大的更新率对神经网络模型进行更新。第二个阶段从 K+1帧开始模型会以较小的更新率进行更新，此时，神经网络模型趋于稳定状态。在 κ的选取上，我们很难一次性得到合适的 K值，并且在 K+1帧之后如果背景发生较大的变化，由于模型更新率较小，产生的噪声会很难消除。第二、原始 SOBS方法每个像素向邻域的传播速度很慢。一旦视频的第一帧就出现前景，就必须人为增大 K值来消除初始化过程中在神经网络模型中产生的前景噪音。发明内容针对上述两个问题，本申请提出了一种自适应改进 SOBS方法，使得模型可以根据不同的情况自动控制更新率的变化。另外，在模型更新的过程中本文的改进方法加大了背景像素在其邻域的传播速率。使得方法在消除噪声方面效果更为突出明显。

在给出方法的同时还建立一个基于该方法的具有运动目标检测功能的实时视频监控系统。系统主要由摄像机和后端工控机组成，可以实时检测到监控视频中的运动目标。

本发明提供了一种自适应改进 SOBS方法，包括如下歩骤：歩骤 1 : 建模：

将图像帧的每个像素映射到 n * n 的拓扑结构中，所有像素的 n * n 拓扑结构构成了最终的神经网络模型；如图 1.像素 a的 n * n拓扑结构为 ( _1; ... , ₉ ) ；

歩骤 2: 模型初始化：

利用某个像素的 η * η邻居像素对该像素的拓扑结构进行初始化，随机的选取某个像素的 η * η邻居来初始化该像素的拓扑结构，邻居包括该像素本身; 歩骤 3: 背景像素判断以及模型更新：模型初始化完成后，对余下的每一帧图片进行前景提取并且对模型进行更新，首先定义一些符号： I_t表示 t时刻的频图像； a代表该视频帧的一个像素，（ ^ .,. , Ο^ )代表其 n * n拓扑结构； C表示整个神经网络模型， C_t(i, j)表示神经网络模型 t时刻第 i行，第 j列的神经元；针对视频帧 I_t，要遍历其每个像素，判断其是否为背景点，对于像素 α，在它的 η * η拓扑结构中如果神经元 0i与 a的距离最近，并且该距离小于分割阈值 ε，则该像素是背景像素且将 0i作为该像素的最佳匹配神经元，如果判断像素 α为背景像素点，就在神经网络模型中对其最佳匹配 0i做更新，同时更新像素 a的 n * n邻居像素所对应的拓扑结

歩骤 4: 阴影像素判断：

采用如下方案来判断阴影点：对于像素 α，如果能在它的 η*η拓扑结构中找到某个神经元 0i符合条件（6)，那么像素 a就被判断为阴影点，

< ^ < Π ( ^s - 0f ≤ TS) n ( ^H - 0 )≤ TH

(6)，

(a^H,a^s,a^v) 代表像素 a的三个颜色分量，（0 , 0f, 0^)代表神经元 0i的三个颜色分量；当像素 a被判断为阴影点时神经网络模型不做更新；歩骤 5: 前景点判断：当像素点 a既不是背景点，也不是阴影点时，就判断 a为前景点。作为本发明的进一歩改进，歩骤 1中 n的取值为奇数。

作为本发明的进一歩改进，歩骤 1中 n的取值为 3或 5或 7。

作为本发明的进一歩改进，歩骤 3中，具体操作歩骤如下：遍历像素 a的 n*n邻居，如果邻居 b与 a的距离小于分割阈值 ε，则随机选择 b的 η*η拓扑结构中的某个神经元利用公式（3) 进行更新，

h_t(i,j) = i'D + Ah

(1)

△_{h = e}-ui(t)/a * _e- u2(t)/ ε

(2)

C_t(i, j) = (1 -o_t C )) * C_t— i, j) +o_t (i,j) * a

(3)

(4)

(5) h_t(i,D是针对神经网络模型中每个神经元的更新率控制器，初始化全被设置为 1，如果要对 a的邻居像素 b拓扑结构中的某个神经元进行更新，首先要利用公式（2)给该神经元的更新率控制器一个增量 Δ1ι，其中 ul(t)表示该神经元与像素 a的最佳匹配 0i在神经网络模型中的位置距离（如果对 0i进行更新，则 ul0 =0)， u20 表示该神经元与像素 a的颜色向量之间的距离， ε为分割阈值。一种基于上述任意一项的方法的视频监控系统，其包括 3个主要模块：视频抓取模块，方法分析模块，以及显示模块，视频抓取模块从摄像头抓取视频帧，从系统开始运行就实时的从摄像头抓取视频帧，并提供给方法分析模块和显示模块；方法分析模块从抓取到的视频帧中提取运动目标；显示模块主要通过 GetFrameFromCCM ()与 GetBackGFromAM ()函数接口从视频抓取模块获取真实视频帧并从方法分析模块获取相应的前景提取图片并实时显示出来。

作为本发明的进一歩改进，方法分析模块设有一计数器，每当系统开始运行的时候该计数器就会被重置为 0，方法分析模块会利用 GetFrameFromCCM ()函数接口从视频抓取模块获取视频帧，每次获取到视频帧计数器加 1，当计数器为 1时，方法分析模块会首先建立背景神经网络模型并初始化，当计数器大于 1时，该模块会从视频帧中提取出前景，并更新背景模型。

本发明的有益效果是：自适应改进 SOBS方法使得模型可以根据不同的情况自动控制更新率的变化。另外，在模型更新的过程中本文的改进算法加大了背景像素在其邻域的传播速率。使得算法在消除噪声方面效果更为突出明显。

基于该方法的具有运动目标检测功能的实时视频监控系统，系统主要由摄像机和后端工控机组成，可以实时检测到监控视频中的运动目标。附图说明图 1是本发明神经网络模型结构示意图；

图 2是本发明自适应改进 SOBS方法流程图；

图 3是本发明系统运行流程图。具体实施方式下面结合附图对本发明做进一歩说明。

自适应改进 SOBS方法主要歩骤如下：

1.建模将图像帧的每个像素映射到 n * n 的拓扑结构中，所有像素的 n * n 拓扑结构构成了最终的神经网络模型。如图 1所示，左边的 2 * 3矩阵代表图像帧，右边的 6 * 9矩阵代表神经网络模型（此模型 n = 3 )。像素 ₃的1 * 1拓扑结构为（¾ α₉ ) 。 η的取值一般为奇数，很多文章的实验效果表明，在建立 η * η的拓扑结构或利用 η * η邻域时， η的取值在 3~7之间效果最好。

2.模型初始化

原始 SOBS方法用第一帧对模型进行初始化，将某个像素 n * n拓扑结构中的所有神经元初始化为该像素的值。如图 1 所示， a = (h, _S, v)，那么其拓扑结构中所有神经元 = (h, s, V)。本文改进的 SOBS方法利用某个像素的 n * n 邻居像素对该像素的拓扑结构进行初始化。随机的选取某个像素的 n * n邻居 (包括该像素本身）来初始化该像素的拓扑结构，有些邻居可能会被多次选择，有些邻居可能从未被选中过。

相邻像素之间往往在时间上具有相似的分布，该初始化方法很好的利用了这一点，在模型中保留了邻居间相似关系，也使得不同像素在神经网络模型中的拓扑结构产生了联系，可以很好的消除了离散像素点变化产生的噪音。

3.背景像素判断以及模型更新

模型初始化完成后，对余下的每一帧图片都要进行前景提取并且对模型进行更新。首先来定义一些符号： I_t表示 t时刻的频图像； £1代表该视频帧的一个像素，（Ο .,. , Ο^ )代表其 n * n拓扑结构； c表示整个神经网络模型， C_t(iJ) 表示神经网络模型 ί时刻第 i行，第列的神经元。针对视频帧 I_t，要遍历其每个像素判断其是否为背景点。对于像素 α，在它的 η * η拓扑结构中如果神经元 0i 与 a的距离最近，并且该距离小于分割阈值 ε，则该像素是背景像素且将 0i作为该像素的最佳匹配神经元。如果判断像素 α为背景像素点，就要在神经网络模型中对其最佳匹配 0i做更新，同时还要更新像素 α的 n * n邻居像素所对应的拓扑结构。具体操作歩骤如下：

遍历像素 α的 n*n邻居，如果邻居 b与 _α的距离小于分割阈值 _ε，则随机选择 ¾的1 * 1拓扑结构中的某个神经元利用公式（3) 进行更新。

h_t(i,j) = h_t— i'D + Ah

(1)

△_{h = e}-ui(t)/a * _e- u2(t)/ ε

(2)

C_t(i, j) = (1 -oc_t (ij)) * C_t— i'j) +oc_t (ij) * a

(3)

(4)

(5)

h_t(i,D是针对神经网络模型中每个神经元的更新率控制器，初始化全被设置为 1，如果要对 a的邻居像素 b拓扑结构中的某个神经元进行更新，首先要利用公式（2) 给该神经元的更新率控制器一个增量 Δ1ι，其中 ul(t)表示该神经元与像素 a的最佳匹配 0i在神经网络模型中的位置距离（如图 1 所示，神经元与的位置距离为 2V2。是一个常数，通常被设置为 8V2。如果对 0i进行更新，则 ul(t)=0)。u2(t)表示该神经元与像素 a的颜色向量之间的距离， ^为分割阈值。从 (3) (4) (5) 可以看出更新率 oc_t(i,j)—开始由 P_t(i,j)主导，随着 h_t(i,j)的逐渐增大， oc_t(i,j)逐渐收敛于 S, δ是一个较小的常数。

此种更新策略具有两点主要优势：一、神经网络模型可以根据不同的情况自主调节不同神经元的更新率，减少了人为的控制，具有很好的自适应性。二、由于模型是利用第一帧来做初妒化，如果第一帧图片就存在前景目标，那么在之后抓取的前景图片中就会产生鬼影区域。该更新率使得像素在空间上具有较高的传播速率，使得模型在之后的更新中可以很快的消除此鬼影区域。

4.阴影像素判断

当某个像素没有被判断为背景时，还不能立刻判断其为前景，因为其有可能是阴影像素，阴影具有如下性质：

性质 1: 阴影区域的像素亮度要低于背景的亮度值。

性质 2: 阴影区域的色度与背景区域的色度几乎相同。

基于上述性质，采用如下方案来判断阴影点：对于像素 α，如果能在它的 η * η拓扑结构中找到某个神经元 0i符合条件（6)，那么像素 a就被判断为阴影点。

< ^ < Π ( ^s - 0f ≤ TS) n ( ^H - 0 )≤ TH

(6)

(a^H,a^s,a^v) 代表像素 a的三个颜色分量，（0 , 0f, 0J 代表神经元 0i的三个颜色分量。当像素 a被判断为阴影点时神经网络模型不做更新。

该方法被很多关于运动目标检测的文章所采用用来消除阴影噪声，只要 X,Y,TS,TH设置合理，该方法在消除阴影方面具有很高的准确率。

5.前景点判断当像素点 a既不是背景点，也不是阴影点时，就判断 a为前景点。整体方法过程如下: 输入图像帧 I_t (0，〜，T) 的像素 a, 输出前景分割图像像素 BO)

1. 初始化神经网络模型 c 2. for t=l:T

3. 遍历视频帧 I_t的每一个像素

4. if (像素 a是背景像素）

5. Β( )=0;

6. update C

7. else if (像素 a是阴影像素)

8. Β( )=0;

9. else

10. Β( )=1;

实时视频监控系统：

整个视频监控系统分为 3个主要模块：视频抓取模块，方法分析模块，以及显示模块。

视频抓取模块（Camera Catch Module)主要负责从摄像头抓取视频帧，该模块需要具有实时的视频帧抓取功能。从系统开始运行就会实时的从摄像头抓取视频帧，并提供给方法分析模块和显示模块。

方法分析模块（Analysis Module) 主要功能就是利用本文提出的改进方法从抓取到的视频帧中提取运动目标。该模块有一个计数器，每当系统开始运行的时候该计数器就会被重置为 0。此模块会利用 GetFrameFromCCMO函数接口从视频抓取模块获取视频帧，每次获取到视频帧计数器就会加 1。当计数器为 1时，该模块会首先建立背景神经网络模型并初始化。当计数器大于 1时，该模块会从视频帧中提取出前景，并更新背景模型。

显示模块（ View Module ) 主要通过 GetFrameFromCCMO 与 GetBackGFromAMO函数接口从视频抓取模块获取真实视频帧并从方法分析模块获取相应的前景提取图片并实时显示出来。该模块主要具有显示功能并要保证真实视频帧与前景提取图片的同歩性。以上内容是结合具体的优选实施方式对本发明所作的进一歩详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

权利要求书

1. 种自适应改进 SOBS方法，其特征在于，包括如下歩骤：歩骤 1: 建模：

将图像帧的每个像素映射到 n*n 的拓扑结构中，所有像素的 n*n 拓扑结构构成了最终的神经网络模型；像素 a的 n*n拓扑结构为 α₉) ；歩骤 2: 模型初始化：

利用某个像素的 η * η邻居像素对该像素的拓扑结构进行初始化，随机的选取某个像素的 η * η邻居来初始化该像素的拓扑结构，邻居包括该像素本身; 歩骤 3: 背景像素判断以及模型更新：

模型初始化完成后，对余下的每一帧图片进行前景提取并且对模型进行更新，首先定义一些符号： I_t表示 t时刻的频图像； a代表该视频帧的一个像素，（ ^.,.,Ο^)代表其 n*n拓扑结构； C表示整个神经网络模型， C_t(i,j)表示神经网络模型 t时刻第 i行，第 j列的神经元；针对视频帧 I_t，要遍历其每个像素，判断其是否为背景点，对于像素 α，在它的 η*η拓扑结构中如果神经元 0i与 a的距离最近，并且该距离小于分割阈值 ε，则该像素是背景像素且将 0i作为该像素的最佳匹配神经元，如果判断像素 α为背景像素点，就在神经网络模型中对其最佳匹配 0i做更新，同时更新像素 a的 n * n邻居像素所对应的拓扑结构；

歩骤 4: 阴影像素判断：

< ^ < Π ( ^s - 0f ≤ TS) n ( ^H - 0 )≤ TH

(6)，

(a^H,a^s,a^v) 代表像素 a的三个颜色分量，（0 , 0f, 0^)代表神经元 0i的三个颜色分量；当像素 a被判断为阴影点时神经网络模型不做更新；歩骤 5: 前景点判断：当像素点 a既不是背景点，也不是阴影点时，就判断 a为前景点。

2. 根据权利要求 1所述的自适应改进 SOBS方法，其特征在于：歩骤 1中 n 的取值为奇数。

3. 根据权利要求 2所述的自适应改进 SOBS方法，其特征在于：歩骤 1中 n 的取值为 3或 5或 7。

4. 根据权利要求 1所述的自适应改进 SOBS方法，其特征在于：歩骤 3中，具体操作歩骤如下：遍历像素 α的 n* n邻居，如果邻居 b与 a的距离小于分害綱值 ε，则随机选择 b的 η* η拓扑结构中的某个神经元利用公式（3)进行更新，

h_t(i,j) = h_t— i'D + Ah

(1)

Ah = ^ul(t)/a * _e- ^u2(t)/ ^ε

(2)

C_t(i, j) = (1 -o_t (ij)) * C^iOj) +oc_t (ij) * a

(3) (i,j) = P_t(i,j) + (l - P_t(i,j)) S

(4)

(5) h_t(i,D是针对神经网络模型中每个神经元的更新率控制器，初始化全被设置为 1，如果要对 a的邻居像素 b拓扑结构中的某个神经元进行更新，首先要利用公式（2) 给该神经元的更新率控制器一个增量 Δ1ι，其中 ul(t)表示该神经元与像素 a的最佳匹配 0i在神经网络模型中的位置距离，如果对 0i进行更新，则 ul0 =0， 112(：表示该神经元与像素 a的颜色向量之间的距离， ε为分割阈值。

5. 一种基于权利要求 1至 4任意一项的方法的视频监控系统，其特征在于：其包括 3个主要模块：视频抓取模块，方法分析模块，以及显示模块，视频抓取模块从摄像头抓取视频帧，从系统开始运行就实时的从摄像头抓取视频帧，并提供给方法分析模块和显示模块；方法分析模块从抓取到的视频帧中提取运动目标；显示模块主要通过 GetFrameFromCCMO与 GetBackGFromAM ()函数接口从视频抓取模块获取真实视频帧并从方法分析模块获取相应的前景提取图片并实时显示出来。

6. 根据权利要求 5所述的视频监控系统，其特征在于：方法分析模块设有一计数器，每当系统开始运行的时候该计数器就会被重置为 0，方法分析模块会利用 GetFrameFromCCM O函数接口从视频抓取模块获取视频帧，每次获取到视频帧计数器加 1，当计数器为 1时，方法分析模块会首先建立背景神经网络模型并初始化，当计数器大于 1时，该模块会从视频帧中提取出前景，并更新背景模型。