TW201537517A - 移動物體偵測方法及移動物體偵測裝置 - Google Patents

移動物體偵測方法及移動物體偵測裝置 Download PDF

Info

Publication number
TW201537517A
TW201537517A TW103116874A TW103116874A TW201537517A TW 201537517 A TW201537517 A TW 201537517A TW 103116874 A TW103116874 A TW 103116874A TW 103116874 A TW103116874 A TW 103116874A TW 201537517 A TW201537517 A TW 201537517A
Authority
TW
Taiwan
Prior art keywords
hidden layer
pixel
block
output
current input
Prior art date
Application number
TW103116874A
Other languages
English (en)
Other versions
TWI539407B (zh
Inventor
Bo-Hao Chen
Shih-Chia Huang
Original Assignee
Univ Nat Taipei Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Taipei Technology filed Critical Univ Nat Taipei Technology
Publication of TW201537517A publication Critical patent/TW201537517A/zh
Application granted granted Critical
Publication of TWI539407B publication Critical patent/TWI539407B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

一種基於主成份分析的徑向基函數網路的移動物體偵測方法,包括下列步驟:自網路接收一固定地點的一序列輸入畫面;根據上述序列輸入畫面,利用主成份分析模型,產生多個特徵模式;根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型;自網路接收目前輸入畫面,並且分割目前輸入畫面為多個目前輸入區塊;根據所述特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊;以及根據背景模型,判斷所述目前輸入區塊中的移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素。

Description

移動物體偵測方法及移動物體偵測裝置
本揭露是有關於一種基於主成份分析的徑向基函數網路(Principal Component Analysis-based Radial Basis Function network,PCA-based RBF網路)的移動物體偵測方法及移動物體偵測裝置。
近年來,視訊影像偵測系統(Video Image Detection System)已用於辨識以及追蹤移動物體的多種應用,其中具有自動監測功能來偵測移動物體的無線視訊監控(Wireless Video Surveillance)為智慧型監控系統(Intelligent Surveillance Systems)管理的主要技術。以交通管理的領域為例,智慧型運輸系統(Intelligent Transportation System,ITS)即採用視訊影像偵測技術,以紓解交通阻塞、提升運輸安全以及最佳化交通流量。智慧型運輸系統可藉由精確地區別車輛以及背景物體來取得道路上目前的車流,或是偵測以及追蹤特定的車輛。
一般的移動物體偵測方法可分為三種方式:連續影像相 減法(Temporal Differencing)、光流法(Optical Flow)以及背景相減法(Background Subtraction)。
連續影像相減法可藉由視訊串流中的連續畫面之間畫素的差異來偵測移動的區域。然而,此種技術雖可適用於不同動態場景,但其對於移動物體,且特別是沒有明顯移動變化的移動物體,有無法擷取其完整形狀的傾向。
光流法可藉由視訊串流中的連續畫面之間畫素相對於時間以及空間上的偏微分來估算移動物體的流向量。然而,此種技術對於雜訊敏感度高,並且其所需的高運算量會造成交通方面的應用上效能低落。
背景相減法為常用於視訊監控與目標物辨識的技術。在背景相減法中,可藉由目前影像與前一張影像的參考背景模型來比對畫素的差異,以自靜態或是動態的背景場景分離出移動前景物體。此技術為移動偵測領域中最為理想的做法。
在理想網路頻寬的前提下,多種用以自視訊串流中偵測移動車輛的背景相減法之變化形式已相繼被提出。Sigma差值估計法(Sigma Difference Estimation,SDE)利用Sigma-Delta濾波(Σ-△Filter)技術,根據畫素決策分析架構來估算視訊串流中每一畫素的二階時域統計資料。然而,在某些複雜環境下,此種方式不易偵測出完整的移動物體。為了解決上述問題,Sigma差值估計法已延伸為多Sigma差值估計法,其利用多個Sigma-Delta估計器(Σ-△Estimator)來計算混合背景模型。除了Sigma-Delta 濾波技術,高斯混合模型(Gaussian Mixture Model,GMM)亦常用於建立背景模型。每一畫素皆可各自由一特定分布來建立模型。各所述畫素於下一畫面的分布可根據其是否屬於背景而決定。另一方面,根據簡單統計差分法(Simple Statistical Difference,SSD)而建立的簡單背景模型可利用時間平均以及主要準則來偵測移動物體。多時間差法(multiple temporal difference,MTD)可藉由保留前數張參考畫面來計算畫面間的差異,藉以縮小移動物體的差距。
然而,在現實網路頻寬的限制下,視訊通訊往往會受到網路壅塞以及頻寬不穩定的影響,特別是在無線視訊通訊系統下所傳輸的視訊資料會產生許多問題。在通訊網路中資料流量阻塞的情況下,大多數的使用者較能忍受較低品質的視訊串流遠勝於延遲或是停滯的視訊。因此,利用視訊編碼工具的位元率控制機制來有效地控制視訊串流的位元率已被提出。藉此,可變位元率的視訊串流得以在無線視訊通訊系統下穩定地傳輸。
位元率控制機制雖可以增加視訊串流於有限頻寬的網路下傳輸的效率,但其變動的位元率會造成移動物體偵測上的困難。因此,以可變位元率的視訊串流結合前述利用背景相減法的方式一般無法得到滿意的偵測結果。
舉例而言,圖1(a)至圖1(c)為由攝影機所擷取並且由無線網路所傳輸的同一視訊串流。圖1(a)以及圖1(b)繪示為背景畫素101與背景畫素102之間的強度(亮度值)變化,即為短時間內將 低位元率的視訊串流提升至高位元率的視訊串流所產生的變化。在圖1(a)中,以一般的背景相減法所產生的背景模型會在低位元率的視訊串流中將一棵樹所對應的穩定背景訊號(即,畫素101)視為背景物體。在此情境中,當網路頻寬足夠時,位元率控制機制往往會將低位元率的視訊串流提升至高位元率的視訊串流以符合網路頻寬。在圖1(b)中,前述的背景相減法則會在高位元率的視訊串流中將高品質背景訊號(畫素102)錯誤地解讀為移動物體。
圖1(b)以及圖1(c)繪示為短時間內將高位元率的視訊串流切換至低位元率的視訊串流時畫素103與畫素104之間的強度(亮度值)變化。在圖1(b)中,前述背景相減法所產生的背景模型將使用於高位元率的視訊串流中的一顆樹所對應的畫素訊號。因此,當網路頻寬足夠時,背景模型會將變動的訊號(即,畫素103)視為背景物體。然而,一般在網路壅塞以及頻寬不穩定等現實網路頻寬的限制下,位元率控制機制將會以低位元率的視訊串流做為解決的方式。然而,此會對於移動物體的偵測帶來負面的影響。以圖1(c)的範例中所示,在低位元率的視訊串流中,前述的背景相減法會將移動車輛的訊號(即,畫素104)錯誤地解讀為背景物體。
有鑒於上述不同品質的視訊串流傳輸而造成的錯誤辨識,本揭露提出一種移動物體偵測方法,其可在變動位元率的視訊串流傳輸於有限網路頻寬下,提升影像偵測的精確度。
本揭露提供一種基於主成份分析的徑向基函數網路的移動物體偵測方法及移動物體偵測裝置,其可在可變位元率的視訊串流中有效率地辨識移動物體。
本揭露提供一種基於主成份分析的徑向基函數網路的移動物體偵測方法,包括下列步驟:自網路接收一固定地點的一序列輸入畫面;根據上述序列輸入畫面,利用主成份分析模型,產生多個特徵模式,其中主成份分析模型包括最佳投影向量;根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型,其中徑向基函數網路模型包括具有多個輸入層神經元的輸入層,具有多個隱藏層神經元的隱藏層,以及具有輸出層神經元的輸出層,其中各所述隱藏層神經元與輸出層神經元之間具有權重;自網路接收一目前輸入畫面,並且分割目前輸入畫面為多個目前輸入區塊;根據所述特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊;以及根據背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素。
在本揭露的一實施例中,根據上述序列輸入畫面,利用主成份分析模型,產生所述特徵模式的步驟包括:分割各所述輸入畫面為多個樣本區塊,並且區分所述樣本區塊為多個類別;根據所述樣本區塊,計算總散布矩陣;最大化總散布矩陣的行列式,以計算最佳投影向量;以及根據最佳投影向量以及各所述樣本區 塊,取得各所述特徵模式。
在本揭露的一實施例中,根據上述序列輸入畫面,利用主成份分析模型,產生所述特徵模式的演算公式包括方程式(1)~方程式(3): 其中S T 為總散布矩陣,{b 1,b 2,...,b M }為k維區塊空間中具有M個樣本區塊的集合,u為所述樣本區塊的平均值,b i 為各所述輸入畫面的第i個樣本區塊並且為M個類別{B 1,B 2,...,B M }的其中之一者,M以及k為正整數, 其中W opt 為最佳投影向量,[w 1,w 2,…,w m ]為S T 的一組特徵向量,m為所述特徵模式的維度經驗值,m為正整數並且m<k 其中為第i個樣本區塊所對應的特徵模式,並且W opt 的轉置矩陣。
在本揭露的一實施例中,根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型的步驟更包括下列步驟。計算上述序列輸入畫面的各所述樣本畫素的亮度值與各所述隱藏層神經元所對應的候選背景之間的差值。對於各所述差值以及各所述差值所對應的樣本畫素與隱藏層神經元:判斷差值是否超過第一門檻值;若是,更新樣本畫素為隱藏層神經元所對應的新候選 背景;若否,以學習速率更新隱藏層神經元;以及根據差值,以學習經驗值更新隱藏層神經元與輸出層神經元之間的權重。
在本揭露的一實施例中,根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型的演算公式包括方程式(4)~方程式(7):d(p t (x,y),C(x,y) j )=∥p t (x,y)-C(x,y) j ∥ 方程式(4)其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,p t (x,y)為位於(x,y)的樣本畫素的亮度值,C(x,y) j 為第j個隱藏層所對應的候選背景,d(p t (x, y ),C(x,y) j )為p t (x,y)與C(x,y) j 之間的歐幾里德距離, 其中ρ為第一門檻值, 其中η 1為學習速率並且不等於0,C(x,y) j 為第j個隱藏層神經元所對應的原候選背景,C(x,y)' j 為第j個隱藏層神經元所對應的已更新隱藏層神經元,以及 其中W(x,y)' j 為第j個隱藏層神經元與輸出層神經元之間的已更新權重,W(x,y) j 為第j個隱藏層神經元與輸出神經元之間的原權重,η 2為學習速率經驗值並且不為0,F為輸出神經元於(x,y)的輸出值。
在本揭露的一實施例中,根據所述特徵模式,區分各所 述目前輸入區塊為背景區塊或是移動物體區塊的步驟更包括下列步驟。根據最佳投影向量,計算各所述目前輸入區塊的投影。計算各所述特徵模式與各所述目前輸入區塊的投影之間的相似度。對於各所述相似度:判斷相似度是否大於第二門檻值;若是,區分相似度所對應的目前輸入區塊為背景區塊;若否,區分相似度所對應的目前輸入區塊為移動物體區塊。
在本揭露的一實施例中,根據所述特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊的演算公式包括方程式(8)~方程式(9): 其中為第i類別的目前輸入區塊b i 的投影,為第i類別的特徵模式,ε為第二門檻值。
在本揭露的一實施例中,根據背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素的步驟包括:設定目前輸入畫素為輸入層的輸入向量;傳輸目前輸入畫素至所述隱藏層神經元,並且根據基函數產生各所述隱藏層神經元的隱藏層輸出;根據隱藏層輸出以及各所述隱藏層神經元與輸出層神經元之間的權重,取得輸出層輸出;判斷輸出層輸出是否小於第三門檻值;若是,判定目前輸出畫素為移動物體畫素;以及若否,判定目前輸出畫素為背景畫素。
在本揭露的一實施例中,根據背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素的演算公式包括方程式(10)~方程式(12): 其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,C j 為第j個隱藏層神經元,p t 為所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素,為基函數,∥p t -C j ∥為p t C j 之間的歐幾里德距離, 其中Z j 為第j個隱藏層輸出,W j 為第j個隱藏層神經元與輸出層輸出之間的權重,以及F(p t )為輸出層輸出, 其中△為第三門檻值,並且當Y(p t )為1時,p t 為移動物體畫素。
在本揭露的一實施例中,上述基函數為埃爾米特函數,其中埃爾米特函數為方程式(10.1): 其中H n n階埃爾米特函數,n為非負的整數,以及σ為經驗容忍值並且為正值。
本揭露另提供一種移動物體偵測裝置,包括儲存單元以及處理單元,其中處理單元耦接至儲存單元,並且用以執行下列 步驟:自網路接收一固定地點的一序列輸入畫面;根據上述序列輸入畫面,利用主成份分析模型,產生多個特徵模式,其中主成份分析模型包括最佳投影向量;根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型,其中徑向基函數網路模型包括具有多個輸入層神經元的輸入層,具有多個隱藏層神經元的隱藏層,以及具有輸出層神經元的輸出層,其中各所述隱藏層神經元與輸出層神經元之間具有權重;自網路接收一目前輸入畫面,並且分割目前輸入畫面為多個目前輸入區塊;根據所述特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊;以及根據背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素。
在本揭露的一實施例中,上述處理單元根據上述序列輸入畫面,利用主成份分析模型,產生所述特徵模式的執行步驟包括:分割各所述輸入畫面為多個樣本區塊,並且區分所述樣本區塊為多個類別;根據所述樣本區塊,計算總散布矩陣;最大化總散布矩陣的行列式,以計算最佳投影向量;以及根據最佳投影向量以及各所述樣本區塊,取得各所述特徵模式。
在本揭露的一實施例中,上述處理單元根據上述序列輸入畫面,利用主成份分析模型,產生所述特徵模式的演算公式包括方程式(1)~方程式(3): 其中S T 為總散布矩陣,{b 1,b 2,...,b M }為k維區塊空間中具有M個樣本區塊的集合,u為所述樣本區塊的平均值,b i 為各所述輸入畫面的第i個樣本區塊並且為M個類別{B 1,B 2,...,B M }的其中之一者,M以及k為正整數, 其中W opt 為最佳投影向量,[w 1,w 2,…,w m ]為S T 的一組特徵向量,m為所述特徵模式的維度經驗值,m為正整數並且m<k 其中為第i個樣本區塊所對應的特徵模式,並且W opt 的轉置矩陣。
在本揭露的一實施例中,上述處理單元根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型的執行步驟更包括下列步驟。計算上述序列輸入畫面的各所述樣本畫素的亮度值與各所述隱藏層神經元所對應的候選背景之間的差值。對於各所述差值以及各所述差值所對應的樣本畫素與隱藏層神經元:判斷差值是否超過第一門檻值;若是,更新樣本畫素為隱藏層神經元所對應的新候選背景;若否,以學習速率更新隱藏層神經元;以及根據差值,以學習經驗值更新隱藏層神經元與輸出層神經元之間的權重。
在本揭露的一實施例中,上述處理單元根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型的演算公式包括方程式(4)~方程式(7): d(p t (x,y),C(x,y) j )=∥p t (x,y)-C(x,y) j ∥ 方程式(4)其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,p t (x,y)為位於(x,y)的樣本畫素的亮度值,C(x,y) j 為第j個隱藏層所對應的候選背景,d(p t (x,y),C(x,y) j )為p t (x,y)與C(x,y) j 之間的歐幾里德距離, 其中ρ為第一門檻值, 其中η 1為學習速率並且不等於0,C(x,y) j 為第j個隱藏層神經元所對應的原候選背景,C(x,y)' j 為第j個隱藏層神經元所對應的已更新隱藏層神經元,以及 其中W(x,y)' j 為第j個隱藏層神經元與輸出層神經元之間的已更新權重,W(x,y) j 為第j個隱藏層神經元與輸出神經元之間的原權重,η 2為學習速率經驗值並且不為0,F為輸出神經元於(x,y)的輸出值。
在本揭露的一實施例中,上述處理單元根據所述特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊的執行步驟更包括下列步驟。根據最佳投影向量,計算各所述目前輸入區塊的投影。計算各所述特徵模式與各所述目前輸入區塊的投影之間的相似度。對於各所述相似度:判斷相似度是否大於第二門檻值;若是,區分相似度所對應的目前輸入區塊為背景區塊; 若否,區分相似度所對應的目前輸入區塊為移動物體區塊。
在本揭露的一實施例中,上述處理單元根據所述特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊的演算公式包括方程式(8)~方程式(9): 其中為第i類別的目前輸入區塊b i 的投影,為第i類別的特徵模式,ε為第二門檻值。
在本揭露的一實施例中,上述處理單元根據背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素的執行步驟包括:設定目前輸入畫素為輸入層的輸入向量;傳輸目前輸入畫素至所述隱藏層神經元,並且根據基函數產生各所述隱藏層神經元的隱藏層輸出;根據隱藏層輸出以及各所述隱藏層神經元與輸出層神經元之間的權重,取得輸出層輸出;判斷輸出層輸出是否小於第三門檻值;若是,判定目前輸出畫素為移動物體畫素;若否,判定目前輸出畫素為背景畫素。
在本揭露的一實施例中,上述處理單元根據背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素的演算公式包括方程式(10)~方程式(12): 其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,C j 為第j個隱藏層神經元,p t 為所述目前輸入區塊中的所述移動物體區塊的目前輸入畫素,為基函數,∥p t -C j ∥為p t C j 之間的歐幾里德距離, 其中Z j 為第j個隱藏層輸出,W j 為第j個隱藏層神經元與輸出層輸出之間的權重,以及F(p t )為輸出層輸出, 其中△為第三門檻值,並且當Y(p t )為1時,p t 為移動物體畫素。
在本揭露的一實施例中,上述基函數為埃爾米特函數,其中埃爾米特函數為方程式(10.1): 其中H n n階埃爾米特函數,n為非負的整數,以及σ為經驗容忍值並且為正值。
基於上述,本揭露可利用基於主成份分析的徑向基函數網路模型,自頻寬受限的現實網路中所傳輸的可變位元率的視訊串流精確完整並且有效率地辨識移動物體。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
101、102、103、104‧‧‧畫素
301‧‧‧視訊來源
302‧‧‧視訊編碼器
303‧‧‧位元率控制模組
304‧‧‧編碼緩衝器
305‧‧‧視訊解碼器
310‧‧‧移動物體偵測裝置
312‧‧‧處理單元
314‧‧‧儲存單元
320‧‧‧偵測結果
350‧‧‧記錄平台
351‧‧‧網路
352‧‧‧分析平台
S402~S412‧‧‧移動物體偵測方法的流程
501‧‧‧PCA模型
502‧‧‧RBF網路模型
503‧‧‧PCA-based RBF網路模型
510‧‧‧輸入層
520‧‧‧隱藏層
530‧‧‧輸出層
C 1,C 2,…C H ‧‧‧隱藏層神經元
Z 1,Z 2,…Z H ‧‧‧隱藏層輸出
w 1,w 2,…w H ‧‧‧權重
F‧‧‧輸出值
Y、Cb、Cr‧‧‧畫素的元素
601‧‧‧視訊序列
602a‧‧‧PCA模型
602b‧‧‧RBF網路
602‧‧‧PCA-based RBF網路模型
610‧‧‧各種背景產生階段
611‧‧‧判別特徵擷取過程
612‧‧‧適應性背景建模過程
620‧‧‧移動物體擷取階段
621‧‧‧特徵選取程序
622‧‧‧物體擷取程序
625‧‧‧區塊
627‧‧‧偵測結果
圖1(a)至圖1(c)為由攝影機所擷取並且由無線網路所傳輸的同一視訊串流。
圖2繪示依據本揭露一實施例之利用移動物體偵測方法所提出的一種系統架構。
圖3繪示依據本揭露一實施例之移動物體偵測方法的流程圖。
圖4繪示依據本揭露一實施例之PCA-based RBF網路架構。
圖5繪示依據本揭露一實施例所繪示之移動物體偵測方法的功能方塊圖。
本揭露的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本揭露的一部份,並未揭示所有本揭露的可實施方式。更確切的說,這些實施例只是本揭露的專利申請範圍中的裝置與方法的範例。
圖2繪示依據本揭露一實施例之利用移動物體偵測方法所提出的一種系統架構。此類偵測移動物體的系統可用於交通管理系統以偵測交通流量或特定的車輛,或是基於安全目的而設置於例如是機場或是購物中心。圖2中的系統包括記錄平台350以 及分析平台352。記錄平台350包括視訊來源301,其可以例如是用以拍攝視訊或動態影像的一或多個監控攝影機等裝置。視訊來源301將拍攝畫面的原始檔輸出至視訊編碼器302,其中視訊編碼器302可由位元率控制模組303來控制。視訊編碼器302將編碼後的視訊輸出至編碼緩衝器304,其中編碼緩衝器304可與位元率控制模組303互動,據以控制視訊編碼器302。記錄平台350可藉由無線或有線傳輸的方式將編碼後的視訊輸出至網路351。網路351可以連結至一核心網路(Core Network)的3G或LTE網路、區域網路(Intranet)或是私有網路(Private Network),而編碼後的視訊可隨後由分析平台352所接收。分析平台352包括視訊解碼器305,其可藉由收發器自網路351接收編碼後的視訊進行解碼,並且將解碼後的視訊傳輸至移動物體偵測裝置310,進而輸出分析後的偵測結果320。
必須注意的是,移動物體偵測裝置310通常可視為記錄平台350中視訊編碼器302的一部份。然而,本揭露較為傾向於將移動物體偵測裝置310設置於解碼器305之後,其優點在於動物體偵測方法將不受限於任何視訊的規格。移動物體偵測裝置310可以為包括處理單元312以及儲存單元314。處理單元312例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、 可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置。儲存單元314例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置。處理單元312耦接至儲存單元314,其中處理單元312用以執行偵測移動物體方法,而儲存單元314用以提供分析平台352暫時地或是永久性地存放資料。
圖3繪示依據本揭露一實施例的移動物體偵測方法的流程圖。本實施例所提出的方法可由圖2的移動物體偵測裝置310來執行。
請參照圖2以及圖3,移動物體偵測裝置310的處理單元312接收一固定地點的一序列輸入畫面(步驟S402)。換言之,處理單元312將接收原始視訊畫面串流(亦即,自視訊解碼器305所取得之解碼後的視訊串流)。在此,假設對於同一特定地點所擷取的連續影像具有固定的背景畫面。
在本實施例中,移動物體偵測方法是建立在支援大多數的數位視訊應用上的YCbCr色域中,其由亮度(luminance,Y)、藍色色差(blue-difference chroma,Cb)以及紅色色差(red-difference chroma,Cr)三個元素所組成。此三個色彩元素Y、Cb以及Cr所組合而成的亮度可用以表示一個輸入畫面中的畫素的強度。
為了提供可變位元率的視訊串流,在此須產生低維度的 特徵模式(Eigen-pattern)來呈現視訊串流的可變動位元率的特性,其可藉由主成份分析(Principal Component Analysis,PCA)技術自一個時間序列中的輸入畫面而取得的最佳投影向量(Optimal Projection Vector)來實現。因此,處理單元312將根據上述序列輸入畫面,利用PCA模型,產生多個特徵模式(步驟S404,在此定義為「判別特徵擷取操作」)。
詳言之,處理單元312可先將各個輸入畫面分割為N×N個區塊,而這些區塊可被視為一個k維區塊空間中具有M個樣本區塊的集合{b 1,b 2,...,b M },其中各所述樣本區塊可被區分為M個類別{B 1,B 2,...,B M }的其中之一者,NM以及k為正整數。接著,處理單元312將根據方程式(1)計算總散布矩陣S T 其中S T 為總散布矩陣,u為所述樣本區塊的平均值,b i 為各個輸入畫面中的第i個樣本區塊。在此的樣本區塊大小N可設定為16。
之後,處理單元312可將總散布矩陣的行列式最大化,以計算最佳投影向量,其可以方程式(2)來表示: 其中W opt 為最佳投影向量,[w 1,w 2,…,w m ]為S T 的一組特徵向量。m為正整數,其代表所述特徵模式的一個較低維度經驗值,故m<k
因此,處理單元312可根據方程式(3),根據最佳投影向量以及各所述樣本區塊,取得對應的特徵模式: 其中為第i個樣本區塊所對應的特徵模式,並且W opt 的轉置矩陣。
在判別特徵擷取操作中利用PCA模型產生較低維度的特徵模式後,可藉由徑向基函數(radial basis function,RBF)網路來產生可靠且適應性的背景模型,以記憶可變位元率的視訊串流的特性,而此資訊可傳遞至RBF網路中隱藏層的神經元。這種組合的架構即為「主成份分析的徑向基函數網路」(PCA-based RBF network)。
詳言之,處理單元312可根據上述序列輸入畫面,利用徑向基函數網路模型,建立背景模型(步驟S406,在此定義為「適應性背景建模過程」)。建立於PCA模型之後的RBF網路模型包括繪示於圖4的輸入層510、隱藏層520以及輸出層530,其中PCA模型501以及RBF網路模型502組合而成為PCA-based RBF網路模型503。在本實施例中,輸入層520包括H個神經元(在此定義為「隱藏層神經元」),其中H為大於1的正整數。輸出層530包括一個神經元(在此定義為「輸出層神經元」),其中各所述隱藏層神經元與輸出層神經元之間具有權重w 1,w 2,…w H
為了藉由RBF網路產生適應性的背景模型,處理單元312將先計算上述序列輸入畫面的各所述樣本畫素p t (x,y)與各所述隱藏層神經元所對應的候選背景C(x,y)1,…C(x,y) H 之間強度(亮度值)的差值。在本實施例中,處理單元312可根據方程式(4),利用歐 幾里德距離(Euclidean distance)來計算上述差值:d(p t (x,y),C(x,y) j )=∥p t (x,y)-C(x,y) j ∥ 方程式(4)其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,p t (x,y)為位於(x,y)的樣本畫素的亮度值,C(x,y) j 為第j個隱藏層所對應的候選背景,d(p t (x,y),C(x,y) j )為p t (x,y)與C(x,y) j 之間的歐幾里德距離。
對於各所述差值以及各所述差值所對應的樣本畫素與隱藏層神經元,若處理單元312判斷差值d(p t (x,y),C(x,y) j )超過第一門檻值ρ時,訓練畫素p t (x,y)將被視為隱藏層神經元C(x,y) j 所對應的新候選背景。此決定法則可寫成方程式(5): 其中ρ可以例如是20。若處理單元312判斷差值d(p t (x,y),C(x,y) j )沒超過第一門檻值ρ時,處理單元312將以學習速率η 1更新隱藏層神經元C(x,y) j ,其可以方程式(6)來表示: 其中C(x,y) j 為第j個隱藏層神經元所對應的原候選背景,C(x,y)' j 為第j個隱藏層神經元所對應的已更新隱藏層神經元,η 1為不等於0的學習速率並且可以例如是0.2。
接著,處理單元312將根據方程式(7),以學習經驗值η 2更新隱藏層神經元與輸出層神經元之間的權重: 其中W(x,y)' j 為第j個隱藏層神經元與輸出層神經元之間的已更新權重,W(x,y) j 為第j個隱藏層神經元與輸出神經元之間的原權重,F為輸出神經元於(x,y)的輸出值,η 2為不等於0的學習速率經驗值並且可以例如是0.01。值得注意的是,所有的權重將被初始化為「1」。此種建立RBF網路的隱藏層以及調整權重的方式可被視為的非監督式學習程序(unsupervised learning procedure)。
在此,將步驟S404的判別特徵擷取過程以及步驟S406的適應性背景建模過程定義為「各種背景產生階段」,其中PCA-based RBF網路將可適應可變位元率的視訊串流的特性。當各種背景產生階段結束後,可於稍後的移動物體擷取階段中精確地自高位元率或低位元率的視訊串流中偵測出移動物體。
請再參照圖3,由於目前部份已存在的移動物體偵測方法中,當低位元率切換至高位元率傳輸時,絕大部份的背景訊號在高位元率的情況下往往會被誤判成移動物體,繼而產生嚴重的假影(artifact)。為了解決此問題,當PCA-based RBF網路架構完成後,處理單元312將接收一目前輸入畫面,並且分割目前輸入畫面為多個目前輸入區塊(步驟S408)。在本實施例中,目前輸入畫面可以為前述序列輸入畫面的下一個畫面。各所述目前輸入畫素p t 的Y、Cb以及Cr的元素將會傳輸至PCA-based RBF網路。處理單元312將分割目前輸入畫面為N×N目前輸入區塊,並且藉由PCA技術來針對各個目前輸入區塊之間的相似度進行估算,以濾除高低位元率的視訊串流中無須被檢視的背景區域。因此,處理 單元312將根據特徵模式,區分各所述目前輸入區塊為背景區塊或是移動物體區塊(步驟S410,在此定義為「特徵選取程序」)。此程序可藉由目前輸入畫面的投影與其所對應的低維度特徵模式之間的比對來實現。
詳言之,處理單元312將先根據方程式(8),利用最佳投影向量,計算各所述目前輸入區塊的投影: 其中為第i類別的目前輸入區塊b i 的投影,為第i類別的特徵模式,而在此的區塊大小N亦可設定為16。
接著,處理單元312將根據各所述特徵模式與各所述目前輸入區塊的投影之間的歐幾里德距離來計算各所述目前輸入區塊之間的相似度,以濾除屬於背景區塊的目前輸入區塊。若處理單元312判斷上述相似度大於第二門檻值ε時,處理單元312會將區塊b i 分類為背景類別並且定義為背景區塊。若處理單元312判斷上述相似度不大於第二門檻值△時,處理單元312會將區塊b i 分類為移動物體類別並且定義為移動物體區塊。此決定法則可寫成方程式(9): 其中為第i類別的目前輸入區塊b i 的投影,為第i類別的特徵模式,ε可以被設定為例如是200。
當處理單元312完成特徵選取程序後,屬於移動物體類 別的所有目前輸入區塊(即,背景區塊)將被濾除。處理單元312即可於包含移動物體的所有目前輸入區塊(即,移動物體區塊)內進行移動物體的偵測。由於視訊串流的可變位元率的特性已被記憶於RBF網路的隱藏層,因此在移動物體偵測階段中可藉由RBF網路來有效地在變動的位元率下有效地進行移動物體的偵測。基此,處理單元312可根據背景模型,判斷目前輸入區塊中的移動物體區塊的目前輸入畫素為移動物體畫素或是背景畫素(步驟S412,在此定義為「物體擷取程序」)。
詳言之,處理單元312會將上述目前輸入區塊的各個畫素(亦即,目前輸入畫素)設定為輸入層的輸入向量,並且將目前輸入畫素傳輸至隱藏層神經元。為了方便說明,以下僅針對其中一個目前輸入畫素進行描述。處理單元312將利用基函數以及歐幾里德距離,根據方程式(10)來產生隱藏層神經元的輸出(在此定義為「隱藏層輸出」): 其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,C j 為第j個隱藏層神經元,p t 為所述目前輸入區塊中的移動物體區塊的目前輸入畫素,為基函數,∥p t -C j ∥為p t C j 之間的歐幾里德距離。在本實施例中,處理單元312將使用埃爾米特函數(Hermite function)為基函數,其可以方程式(10.1)來表示: 其中H n n階埃爾米特函數,n為非負的整數,以及σ為經驗容忍值並且為正值。在本實施例中,n以及σ可以分別為4以及6。必須說明的是,處理單元312將採用正規化形式的埃爾米特函數多項式(Hermite polynomial),以將計算埃爾米特函數的正規化常數中的階層(factorial)所會導致的精度誤差達到最小化。
接著,輸出神經元的輸出(在此定義為「輸出層輸出」)即可產生,並且成為移動偵測的二值遮罩(Binary Mask)。換言之,處理單元312可根據隱藏層輸出以及各所述隱藏層神經元與輸出層神經元之間的權重,取得目前輸入像素所對應的輸出層輸出。在本實施例中,處理單元312將利用例如是方程式(11)所表示之隱藏層以及輸出層的線性權重組合(Weighted Linear Combination)來產生輸出層輸出: 其中Z j 為第j個隱藏層輸出,W j 為第j個隱藏層神經元與輸出層輸出之間的權重,以及F(p t )為輸出層輸出。
處理單元312在計算輸出層輸出之後,將判斷輸出層輸出是否小於第三門檻值。若輸出層輸出小於第三門檻值時,處理單元312判定目前輸出畫素為移動物體畫素;反之,處理單元312判定目前輸出畫素為背景畫素。此決定法則可以方程式(12)來表示: 其中△為第三門檻值,並且當Y(p t )為1時,p t 為移動物體畫素。
前述的移動物件偵測方法可利用圖5依據本揭露一實施例所繪示的功能方塊圖來進行總結。請參照圖5,移動物體偵測方法可以分為兩個階段:各種背景產生階段610以及移動物體擷取階段620。此方法會先接收視訊序列601。視訊序列601中的各個輸入畫面將於判別特徵擷取過程611中被分割為相同大小的區塊,並且在低維度的特徵空間中利用PCA模型602a產生低維度的特徵模式來呈現視訊串流的可變位元率的特性。接著,在適應性背景建模過程612中,可利用RBF網路602b來產生可靠的背景模型,以記憶視訊串流的可變位元率的特性。上述資訊可傳遞至隱藏層神經元,從而建構RBF網路。
在各種背景產生階段610中建立PCA-based RBF網路602後,可在移動物體擷取階段620中完整地且精確地在高位元率或是低位元率的視訊串流中偵測移動物體,其中移動物體擷取階段620包括特徵選取程序621以及物體擷取程序622。在特徵選取程序621中,可自輸入畫面中相等大小的區塊(亦即,目前輸入區塊)中,利用PCA模型602a於低維度特徵空間下將屬於背景類別的不必要區塊濾除。因此,特徵選取程序621可將背景區塊濾除,而移動物體偵測僅將針對包含移動物體的區塊625來執行,其可在後續的物體擷取程序622,利用RBF網路602b來在高位元率或是低位元率的視訊串流中取得完整且精確的偵測結果627。
綜上所述,本揭露可利用PCA-based RBF網路模型自頻 寬受限的現實網路所傳輸的可變位元率的視訊串流中,精確並且有效率地辨識完整的移動物體。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S402~S412‧‧‧移動物體偵測方法的流程

Claims (20)

  1. 一種基於主成份分析的徑向基函數網路的移動物體偵測方法,包括:自一網路接收一固定地點的一序列輸入畫面;根據該序列輸入畫面,利用一主成份分析模型,產生多個特徵模式,其中該主成份分析模型包括一最佳投影向量;根據該序列輸入畫面,利用一徑向基函數網路模型,建立一背景模型,其中該徑向基函數網路模型包括具有多個輸入層神經元的一輸入層,具有多個隱藏層神經元的一隱藏層,以及具有一輸出層神經元的一輸出層,其中各所述隱藏層神經元與該輸出層神經元之間具有一權重;自該網路接收一目前輸入畫面,並且分割該目前輸入畫面為多個目前輸入區塊;根據所述特徵模式,區分各所述目前輸入區塊為一背景區塊或是一移動物體區塊;以及根據該背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的一目前輸入畫素為一移動物體畫素或是一背景畫素。
  2. 如申請專利範圍第1項所述的移動物體偵測方法,其中根據該序列輸入畫面,利用該主成份分析模型,產生所述特徵模式的步驟包括:分割各所述輸入畫面為多個樣本區塊,並且區分所述樣本區塊為多個類別; 根據所述樣本區塊,計算一總散布矩陣;最大化該總散布矩陣的行列式,以計算該最佳投影向量;以及根據該最佳投影向量以及各所述樣本區塊,取得各所述特徵模式。
  3. 如申請專利範圍第2項所述的移動物體偵測方法,其中根據該序列輸入畫面,利用該主成份分析模型,產生所述特徵模式的演算公式包括方程式(1)~方程式(3): 其中S T 為該總散布矩陣,{b 1,b 2,...,b M }為一k維區塊空間中具有M個樣本區塊的集合,u為所述樣本區塊的平均值,b i 為各所述輸入畫面的第i個樣本區塊並且為M個類別{B 1,B 2,...,B M }的其中之一者,M以及k為正整數, 其中W opt 為該最佳投影向量,[w 1,w 2,…,w m ]為S T 的一組特徵向量,m為所述特徵模式的一維度經驗值,m為正整數並且m<k 其中為第i個樣本區塊所對應的該特徵模式,並且W opt 的轉置矩陣。
  4. 如申請專利範圍第1項所述的移動物體偵測方法,其中根據該序列輸入畫面,利用該徑向基函數網路模型,建立該背景模 型的步驟包括:計算該序列輸入畫面的各所述樣本畫素的一亮度值與各所述隱藏層神經元所對應的一候選背景之間的一差值;以及對於各所述差值以及各所述差值所對應的該樣本畫素與該隱藏層神經元:判斷該差值是否超過一第一門檻值;若是,更新該樣本畫素為該隱藏層神經元所對應的一新候選背景;若否,以一學習速率更新該隱藏層神經元;以及根據該差值,以一學習經驗值更新該隱藏層神經元與該輸出層神經元之間的該權重。
  5. 如申請專利範圍第4項所述的移動物體偵測方法,其中根據該序列輸入畫面,利用該徑向基函數網路模型,建立該背景模型的演算公式包括方程式(4)~方程式(7):d(p t (x,y),C(x,y) j )=∥p t (x,y)-C(x,y) j ∥ 方程式(4)其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,p t (x,y)為位於(x,y)的該樣本畫素的亮度值,C(x,y) j 為第j個隱藏層所對應的該候選背景,d(p t (x,y),C(x,y) j )為p t (x,y)與C(x,y) j 之間的歐幾里德距離, 其中ρ為該第一門檻值, 其中η 1為該學習速率並且不等於0,C(x,y) j 為第j個隱藏層神經元所對應的一原候選背景,C(x,y)' j 為第j個隱藏層神經元所對應的一已更新隱藏層神經元,以及 其中W(x,y)' j 為第j個隱藏層神經元與該輸出層神經元之間的一已更新權重,W(x,y) j 為第j個隱藏層神經元與該輸出神經元之間的一原權重,η 2為該學習速率經驗值並且不為0,F為該輸出神經元於(x,y)的一輸出值。
  6. 如申請專利範圍第3項所述的移動物體偵測方法,其中根據所述特徵模式,區分各所述目前輸入區塊為該背景區塊或是該移動物體區塊的步驟包括:根據該最佳投影向量,計算各所述目前輸入區塊的一投影;計算各所述特徵模式與各所述目前輸入區塊的該投影之間的一相似度;以及對於各所述相似度:判斷該相似度是否大於一第二門檻值;若是,區分該相似度所對應的該目前輸入區塊為該背景區塊;以及若否,區分該相似度所對應的該目前輸入區塊為該移動物體區塊。
  7. 如申請專利範圍第6項所述的移動物體偵測方法,其中根 據所述特徵模式,區分各所述目前輸入區塊為該背景區塊或是該移動物體區塊的演算公式包括方程式(8)~方程式(9): 其中為第i類別的目前輸入區塊b i 的投影,為第i類別的特徵模式,ε為該第二門檻值。
  8. 如申請專利範圍第4項所述的移動物體偵測方法,其中根據該背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的該目前輸入畫素為該移動物體畫素或是該背景畫素的步驟包括:設定該目前輸入畫素為該輸入層的一輸入向量;傳輸該目前輸入畫素至所述隱藏層神經元,並且根據一基函數產生各所述隱藏層神經元的一隱藏層輸出;根據該隱藏層輸出以及各所述隱藏層神經元與該輸出層神經元之間的該權重,取得一輸出層輸出;判斷該輸出層輸出是否小於一第三門檻值;若是,判定該目前輸出畫素為該移動物體畫素;以及若否,判定該目前輸出畫素為該背景畫素。
  9. 如申請專利範圍第6項所述的移動物體偵測方法,其中根據該背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的該目前輸入畫素為該移動物體畫素或是該背景畫素的演算公式包括方程式(10)~方程式(12): 其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,C j 為第j個隱藏層神經元,p t 為所述目前輸入區塊中的所述移動物體區塊的該目前輸入畫素,為該基函數,∥p t -C j ∥為p t C j 之間的歐幾里德距離, 其中Z j 為第j個隱藏層輸出,W j 為第j個隱藏層神經元與該輸出層輸出之間的權重,以及F(p t )為該輸出層輸出, 其中△為該第三門檻值,並且當Y(p t )為1時,p t 為該移動物體畫素。
  10. 如申請專利範圍第9項所述的移動物體偵測方法,其中該基函數為一埃爾米特函數,其中該埃爾米特函數為方程式(10.1): 其中H n 為一n階埃爾米特函數,n為非負的整數,以及σ為一經驗容忍值並且為正值。
  11. 一種移動物體偵測裝置,包括:一儲存單元;一處理單元,耦接至該儲存單元,並且執行下列步驟:自一網路接收一固定地點的一序列輸入畫面;根據該序列輸入畫面,利用一主成份分析模型,產生多 個特徵模式,其中該主成份分析模型包括一最佳投影向量;根據該序列輸入畫面,利用一徑向基函數網路模型,建立一背景模型,其中該徑向基函數網路模型包括具有多個輸入層神經元的一輸入層,具有多個隱藏層神經元的一隱藏層,以及具有一輸出層神經元的一輸出層,其中各所述隱藏層神經元與該輸出層神經元之間具有一權重;自該網路接收一目前輸入畫面,並且分割該目前輸入畫面為多個目前輸入區塊;根據所述特徵模式,區分各所述目前輸入區塊為一背景區塊或是一移動物體區塊;以及根據該背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的一目前輸入畫素為一移動物體畫素或是一背景畫素。
  12. 如申請專利範圍第11項所述的移動物體偵測裝置,其中該處理單元根據該序列輸入畫面,利用該主成份分析模型,產生所述特徵模式的執行步驟包括:分割各所述輸入畫面為多個樣本區塊,並且區分所述樣本區塊為多個類別;根據所述樣本區塊,計算一總散布矩陣;最大化該總散布矩陣的行列式,以計算該最佳投影向量;以及根據該最佳投影向量以及各所述樣本區塊,取得各所述特徵模式。
  13. 如申請專利範圍第12項所述的移動物體偵測裝置,其中該處理單元根據該序列輸入畫面,利用該主成份分析模型,產生所述特徵模式的演算公式包括方程式(1)~方程式(3): 其中S T 為該總散布矩陣,{b 1,b 2,...,b M }為一k維區塊空間中具有M個樣本區塊的一集合,u為所述樣本區塊的平均值,b i 為各所述輸入畫面的第i個樣本區塊並且為M個類別{B 1,B 2,...,B M }的其中之一者,M以及k為正整數, 其中W opt 為該最佳投影向量,[w 1,w 2,…,w m ]為 S T 的一組特徵向量,m為所述特徵模式的一維度經驗值,m為正整數並且m<k 其中為第i個樣本區塊所對應的該特徵模式,並且W opt 的轉置矩陣。
  14. 如申請專利範圍第11項所述的移動物體偵測裝置,其中該處理單元根據該序列輸入畫面,利用該徑向基函數網路模型,建立該背景模型的執行步驟包括:計算該序列輸入畫面的各所述樣本畫素的一亮度值與各所述隱藏層神經元所對應的一候選背景之間的一差值;以及對於各所述差值以及各所述差值所對應的該樣本畫素與該隱藏層神經元: 判斷該差值是否超過一第一門檻值;若是,更新該樣本畫素為該隱藏層神經元所對應的一新候選背景;若否,以一學習速率更新該隱藏層神經元;以及根據該差值,以一學習經驗值更新該隱藏層神經元與該輸出層神經元之間的該權重。
  15. 如申請專利範圍第14項所述的移動物體偵測裝置,其中該處理單元根據該序列輸入畫面,利用該徑向基函數網路模型,建立該背景模型的演算公式包括方程式(4)~方程式(7):d(p t (x,y),C(x,y) j )=∥p t (x,y)-C(x,y) j ∥ 方程式(4)其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正整數,p t (x,y)為位於(x,y)的該樣本畫素的亮度值,C(x,y) j 為第j個隱藏層所對應的該候選背景,d(p t (x,y),C(x,y) j )為p t (x,y)與C(x,y) j 之間的歐幾里德距離, 其中ρ為該第一門檻值, 其中η 1為該學習速率並且不等於0,C(x,y) j 為第j個隱藏層神經元所對應的一原候選背景,C(x,y)' j 為第j個隱藏層神經元所對應的一已更新隱藏層神經元,以及 其中W(x,y)' j 為第j個隱藏層神經元與該輸出層神經元之間的一已更新權重,W(x,y) j 為第j個隱藏層神經元與該輸出神經元之間的一原權重,η 2為該學習速率經驗值並且不為0,F為該輸出神經元於(x,y)的一輸出值。
  16. 如申請專利範圍第13項所述的移動物體偵測裝置,其中該處理單元根據所述特徵模式,區分各所述目前輸入區塊為該背景區塊或是該移動物體區塊的執行步驟包括:根據該最佳投影向量,計算各所述目前輸入區塊的一投影;計算各所述特徵模式與各所述目前輸入區塊的該投影之間的一相似度;以及對於各所述相似度:判斷該相似度是否大於一第二門檻值;若是,區分該相似度所對應的該目前輸入區塊為該背景區塊;以及若否,區分該相似度所對應的該目前輸入區塊為該移動物體區塊。
  17. 如申請專利範圍第16項所述的移動物體偵測裝置,其中該處理單元根據所述特徵模式,區分各所述目前輸入區塊為該背景區塊或是該移動物體區塊的演算公式包括方程式(8)~方程式(9): 其中為第i類別的目前輸入區塊b i 的該投影,為第i類別的該特徵模式,ε為該第二門檻值。
  18. 如申請專利範圍第14項所述的移動物體偵測裝置,其中該處理單元根據該背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的該目前輸入畫素為該移動物體畫素或是該背景畫素的步驟包括:設定該目前輸入畫素為該輸入層的一輸入向量;傳輸該目前輸入畫素至所述隱藏層神經元,並且根據一基函數產生各所述隱藏層神經元的一隱藏層輸出;根據該隱藏層輸出以及各所述隱藏層神經元與該輸出層神經元之間的該權重,取得一輸出層輸出;判斷該輸出層輸出是否小於一第三門檻值;若是,判定該目前輸出畫素為該移動物體畫素;以及若否,判定該目前輸出畫素為該背景畫素。
  19. 如申請專利範圍第16項所述的移動物體偵測裝置,其中該處理單元根據該背景模型,判斷所述目前輸入區塊中的所述移動物體區塊的該目前輸入畫素為該移動物體畫素或是該背景畫素的演算公式包括方程式(10)~方程式(12): 其中j=1,…HH為所述隱藏層神經元的數量並且H為大於1的正 整數,C j 為第j個隱藏層神經元,p t 為所述目前輸入區塊中的所述移動物體區塊的該目前輸入畫素,為該基函數,∥p t -C j ∥為p t C j 之間的歐幾里德距離, 其中Z j 為第j個隱藏層輸出,W j 為第j個隱藏層神經元與該輸出層輸出之間的該權重,以及F(p t )為該輸出層輸出, 其中△為該第三門檻值,並且當Y(p t )為1時,p t 為該移動物體畫素。
  20. 如申請專利範圍第19項所述的移動物體偵測裝置,其中該基函數為一埃爾米特函數,其中該埃爾米特函數為方程式(10.1): 其中H n 為一n階埃爾米特函數,n為非負的整數,以及σ為一經驗容忍值並且為正值。
TW103116874A 2014-03-31 2014-05-13 移動物體偵測方法及移動物體偵測裝置 TWI539407B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14/231,637 US9349193B2 (en) 2014-03-31 2014-03-31 Method and apparatus for moving object detection using principal component analysis based radial basis function network

Publications (2)

Publication Number Publication Date
TW201537517A true TW201537517A (zh) 2015-10-01
TWI539407B TWI539407B (zh) 2016-06-21

Family

ID=54191120

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103116874A TWI539407B (zh) 2014-03-31 2014-05-13 移動物體偵測方法及移動物體偵測裝置

Country Status (2)

Country Link
US (1) US9349193B2 (zh)
TW (1) TWI539407B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467768B2 (en) * 2017-04-07 2019-11-05 Intel Corporation Optical flow estimation using 4-dimensional cost volume processing
US10192319B1 (en) * 2017-07-27 2019-01-29 Nanning Fugui Precision Industrial Co., Ltd. Surveillance method and computing device using the same
CN108182474B (zh) * 2017-12-27 2020-03-13 中国人民解放军战略支援部队信息工程大学 基于未校正阵列和神经网络的多目标直接定位方法
US10666954B2 (en) 2018-06-19 2020-05-26 International Business Machines Corporation Audio and video multimedia modification and presentation
TWI673653B (zh) * 2018-11-16 2019-10-01 財團法人國家實驗研究院 移動物體偵測系統及方法
CN112017214A (zh) * 2019-05-29 2020-12-01 多方科技(广州)有限公司 前景及背景影像判断方法
CN112418202A (zh) * 2021-01-11 2021-02-26 上海恒能泰企业管理有限公司 一种基于MaskRCNN的变电设备异常识别定位方法及系统
CN114298863B (zh) * 2022-03-11 2022-08-02 浙江万胜智能科技股份有限公司 一种智能抄表终端的数据采集方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI441096B (zh) * 2011-08-10 2014-06-11 Univ Nat Taipei Technology 適用複雜場景的移動偵測方法
US9448636B2 (en) * 2012-04-18 2016-09-20 Arb Labs Inc. Identifying gestures using gesture data compressed by PCA, principal joint variable analysis, and compressed feature matrices
TWI456515B (zh) 2012-07-13 2014-10-11 Univ Nat Chiao Tung 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人

Also Published As

Publication number Publication date
US20150279052A1 (en) 2015-10-01
US9349193B2 (en) 2016-05-24
TWI539407B (zh) 2016-06-21

Similar Documents

Publication Publication Date Title
TWI539407B (zh) 移動物體偵測方法及移動物體偵測裝置
Chen et al. An advanced moving object detection algorithm for automatic traffic monitoring in real-world limited bandwidth networks
Bautista et al. Convolutional neural network for vehicle detection in low resolution traffic videos
US20230336754A1 (en) Video compression using deep generative models
US9159137B2 (en) Probabilistic neural network based moving object detection method and an apparatus using the same
US10776659B2 (en) Systems and methods for compressing data
Huang et al. Highly accurate moving object detection in variable bit rate video-based traffic monitoring systems
CN109325954B (zh) 图像分割方法、装置及电子设备
TWI735669B (zh) 使用影像分析演算法以提供訓練資料至神經網路
CN103002289B (zh) 面向监控应用的视频恒定质量编码装置及其编码方法
TWI512685B (zh) 移動物體偵測方法及其裝置
TWI522967B (zh) 基於小腦模型網路的移動物體偵測方法及其裝置
Chen et al. Probabilistic neural networks based moving vehicles extraction algorithm for intelligent traffic surveillance systems
Mac et al. Learning motion in feature space: Locally-consistent deformable convolution networks for fine-grained action detection
CN114586359A (zh) 一种图像处理方法及装置
CN111626178B (zh) 一种基于新时空特征流的压缩域视频动作识别方法和系统
KR20200119372A (ko) 인공신경망 기반 객체영역 검출방법, 장치 및 이에 대한 컴퓨터 프로그램
Fischer et al. On intra video coding and in-loop filtering for neural object detection networks
CN113379858A (zh) 一种基于深度学习的图像压缩方法及装置
CN116261741A (zh) 用于处理图像的设备以及用于操作该设备的方法
Liu et al. Scene background estimation based on temporal median filter with Gaussian filtering
Cao et al. Compressed video action recognition with refined motion vector
He et al. End-to-end facial image compression with integrated semantic distortion metric
Fischer et al. Robust deep neural object detection and segmentation for automotive driving scenario with compressed image data
KR102183672B1 (ko) 합성곱 신경망에 대한 도메인 불변 사람 분류기를 위한 연관성 학습 시스템 및 방법

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees