TWI695344B

TWI695344B - 用於偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體

Info

Publication number: TWI695344B
Application number: TW107141869A
Authority: TW
Inventors: 林多常; 陳信銘; 鄭維恆; 簡大為; 張慶年
Original assignee: 中華電信股份有限公司
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2020-06-01
Also published as: TW202020810A

Abstract

本發明之用於偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體，係將取得的各類物件影像及背景影像製作大量小尺寸的訓練影像樣本，供小尺寸深度卷積神經網路圖樣分類器進行模型參數訓練，並將監控影像以多種比例分割成多個區域影像，再以先前訓練好之小尺寸深度卷積神經網路圖樣分類器圖樣分類器對區域影像進行分類辨識，以得知區域影像內有無物件，或在那個區域影像內含有那類物件，進而達成對監控影像內物件之偵測。

Description

用於偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體

本發明係關於一種藉由小尺寸深度卷積神經網路圖樣分類器實現偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體，可應用於各式客製化影像監控系統及影像電子圍籬等。

目前以全尺寸DCNN(深度卷積神經網路)來做影像物件偵測的有Faster RCNN(Region-Convolutional Neural Network)、Single Shot MultiBox Detector及YOLO(You only look once)等等，雖都可對大尺寸影像內的各大小物件做偵測辨識，但由於訓練樣本尺寸大且必須使用大量層級的DCNN網路做物件偵測訓練計算，應用上有一定的限制，其中訓練模型參數所佔記憶空間，動輒數百Mega byte，甚至多達Giga byte，搭配GPU做加速運算則另需數倍記憶空間資源，參數模型訓練費時繁複，不僅需使用昂貴的硬體設備費時的做模型參數訓練計算，更需使用大量的人工做訓練樣本標識，對於一般影像監控系統的應用，不論硬體、人力及時間的成本皆所費不貲，且若有特殊新物件需加入或特殊誤辨場景需重新訓練皆不容易。

本發明之目的即在於以一種小尺寸深度卷積神經網路圖樣分類器實現偵測影像內物件的方法，與目前以全尺寸來做影像物件偵測的方法相比，將大幅縮小所需訓練模型參數的量，而大幅改善目前以全尺寸深度卷積神經網路來做影像物件偵測的Faster RCNN(Region-Convolutional Neural Network)、SSD(Single Shot MultiBox Detector)及Yolo(You only look once)等方法需大量模型參數訓練資源的應用限制，適合以電腦自動產生大量訓練樣本及分類標示做相關訓練，不需人工來選取大量的訓練樣本及做標識，如此便可大大節省硬體、人力及時間的成本。

為達成上述發明目的，本發明係提供一種用於偵測監控影像內物件之方法，該方法包括：取得多個待偵測物件影像及背景影像；基於該多個待偵測物件影像及該背景影像，製作多個訓練影像樣本並設定該多個訓練影像樣本的多個分類標示，其中各該訓練影像樣本的邊框之尺寸範圍為14像素至28像素；輸入該多個訓練影像樣本及該多個分類標示至深度卷積神經網路圖樣分類器以產生分類模型參數；處理監控影像以分割為多個區域影像；以及輸入該多個區域影像至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識該多個待偵測物件影像是否出現於該多個區域影像內。

本發明另提供一種執行偵測監控影像內物件方法之非暫態電腦可讀取紀錄媒體，該非暫態電腦可讀取紀錄媒體係經由電腦所載入以執行下列步驟：取得多個待偵測物件影像及背景影像；基於該多個待偵測物件影像及該背景影像，製作多個訓練影像樣本並設定該多個訓練影像樣本的多個分類標示，其中各該訓練影像樣本的邊框之尺寸範圍為14像素至28像素；輸入該多個訓練影像樣本及該多個分類標示至深度卷積神經網路圖樣分類器以產生分類模型參數；處理監控影像以分割為多個區域影像；以及輸入該多個區域影像至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識該多個待偵測物件影像是否出現於該多個區域影像內。

在前述之方法或非暫態電腦可讀取紀錄媒體中，進一步包括：將該多個區域影像中辨識錯誤的錯誤區域影像及該錯誤區域影像的正確分類標示加入該分類訓練影像樣本，以輸入至該深度卷積神經網路圖樣分類器做為更新訓練並更新該分類模型參數。

在前述之方法或非暫態電腦可讀取紀錄媒體中，進一步包括：增加新物件類別，該增加新物件類別包括增加包含新物件的新訓練影像樣本及新訓練影像樣本的分類標示於該多個訓練影像樣本中，以輸入至該深度卷積神經網路圖樣分類器做為更新訓練並更新該分類模型參數。

在前述之方法或非暫態電腦可讀取紀錄媒體中，處理監控影像以分割為多個區域影像更包括：若該待偵測物件影像僅出現在該監控影像的特定範圍的區域影像內，僅選擇該特定範圍的區域影像輸入至具有該分類模型參數的該深度卷積神經網路圖樣分類器以辨識該多個待偵測物件影像是否出現於該特定範圍的區域影像內。

在前述之方法或非暫態電腦可讀取紀錄媒體中，該多個訓練影像樣本包括第一物件類、第二物件類以及不含物件類的訓練影像樣本，且該第一物件類不同於該第二物件類。

在前述之方法或非暫態電腦可讀取紀錄媒體中，該第一物件類及該第二物件類各經調整為多個包括旋轉物件的訓練影像樣式、再設定物件尺寸的訓練影像樣式、上下平移物件的訓練影像樣式、左右平移物件的訓練影像樣式、變形物件的訓練影像樣式、旋轉物件的訓練影像樣式、遮蔽物件的訓練影像樣式、及放入背景影像的訓練影像樣式。

在前述之方法或非暫態電腦可讀取紀錄媒體中，該不含物件類的訓練影像樣本包括不具有物件的該監控影像中的經分割的該多個區域影像。

在前述之方法或非暫態電腦可讀取紀錄媒體中，處理監控影像以分割為多個區域影像更包括：將經過分割的該多個區域影像縮圖為符合各該訓練影像樣本之尺寸範圍，且將縮圖後的該多個區域影像縮圖輸入至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識縮圖後的該多個區域影像縮圖內是否含有物件影像。

在前述之方法或非暫態電腦可讀取紀錄媒體中，該多個訓練影像樣本中的物件影像的最大邊長經設置為該訓練影像樣本的邊框的1/2倍至1倍。

在前述之方法或非暫態電腦可讀取紀錄媒體中，該深度卷積神經網路圖樣分類器包括2個卷積層、2個池化層、2個全連接層及36個分類輸出。

本發明所提出以小尺寸深度卷積神經網路圖樣分類器實現(監控)影像內物件偵測，除所需使用之深度卷積神經網路的參數模型僅需要數十Mega byte的記憶空間，其精簡快速化參數模型的訓練，不需使用昂貴的硬體設備便可快速的做參數模型的訓練計算。另外，由於供小尺寸深度卷積神經網路圖樣分類器辨識之影像樣本尺寸較小，其物件的尺寸也被限制僅能稍小於樣本尺寸及其一定比例之內，適合以電腦程式自動有效的產生大量訓練樣本及分類標示做相關訓練，不需人工來選取大量的訓練樣本及做標識，可大大節省硬體、人力及時間的成本；尤有甚者，當特殊物件需加入偵測或特殊誤辨場景需重新訓練，本發明也可方便的加入需偵測之新物件影像樣本或誤辨場景樣本，繼續供深度卷積神經網路圖樣分類器進行做模型參數的修補訓練，來對新增物件做偵測，或持續提升對物件偵測的正確率。本發明將更適合建設客製化的影像監控系統。

S01~S03‧‧‧步驟

101~103‧‧‧物件A影像

201~203‧‧‧物件B影像

301~307‧‧‧含物件A的訓練影像樣本

401~407‧‧‧含物件B的訓練影像樣本

501~507‧‧‧無物件訓練影像樣本

701‧‧‧監控影像

702~785‧‧‧區域影像

請參閱有關本發明之詳細說明及其附圖，將可進一步瞭解本發明之技術內容及其目的功效；有關附圖為：第1圖為本發明之用於偵測監控影像內物件之方法的步驟流程圖。

第2圖為欲偵測含物件A之影像示意圖。

第3圖為欲偵測含物件B之影像示意圖。

第4圖為含物件A之訓練影像樣本示意圖。

第5圖為含物件B之訓練影像樣本示意圖。

第6圖為無物件訓練影像樣本之訓練影像樣本示意圖。

第7圖為監控影像之全區域影像示意圖。

第8圖為監控影像以1/2比例分割之區域影像示意圖。

第9圖為監控影像以1/4比例分割之十六個區域影像示意圖。

第10圖為監控影像以1/8比例分割之六十四個區域影像示意圖。

本發明係一種用於偵測監控影像內物件之方法及執行該方法之非暫態電腦可讀取紀錄媒體，該方法係以小尺寸深度卷積神經網路(Deep Convolutional Neural Networks，DCNN)圖樣分類器來實現，其主要包括下列步驟：在步驟S01中，取得欲偵測物件影像及背景影像的多個樣式，以電腦程式自動大量製作各式小尺寸影像樣本及分類標示。

為了使下列步驟S02的小尺寸深度卷積神經網路圖樣分類器得到足夠多的影像樣本輸入，以供訓練計算出模型參數，基於待偵測物件影像，透過電腦大量製作第一物件類(含物件A的類別)、第二物件類(含物件B的類別)、及不含物件類的分類訓練影像樣本及其分類標示。

如第2圖所示，其為欲偵測之物件A影像101、102、及103，將物件A影像的各種樣式透過電腦程式設置為不同尺寸的物件影像(物件影像的最大邊長介於訓練影像樣本邊長的1/2倍至1倍之間，其中，訓練影像樣本的邊框為14像素(pixel)至28像素之間的尺寸)，並且透過將物件幾何中心點的多種物件變化的組合影像，例如，上下左右平移、物件旋轉、物件變形、或部份物件遮蔽等，放入尺寸為28x28像素的背景影像樣本圖框內，以大量產生含物件A之訓練影像樣本及其分類標示；例如，第1圖之物件A影像在三種樣式的基礎上，包括：再設定物件尺寸的七種訓練影像樣式、上下平移物件的七種訓練影像樣式、左右平移物件的七種訓練影像樣式、變形物件的七種訓練影像樣式、旋轉物件的七種訓練影像樣式、遮蔽物件的七種訓練影像樣式、及放入背景影像的七種訓練影像樣式，繼而產生3x7x7x7x7x7x7x7個含物件A的訓練影像樣本)，前述含物件A的訓練影像樣本301~307係如第4圖的所示；另外，如第3圖之所欲偵測之物件B影像201、202及203，以前述製作含物件A訓練影像樣本的方式，透過電腦程式大量產生含B物件之訓練影像樣本及其分類標示，如第5圖所示之含B物件的訓練影像樣本401~407；再者，藉由電腦程式擷取不含物件之各種光照或情景之監控影像內之部份的區域影像，經縮圖為28x28像素，以大量製作成無物件類訓練影像樣本及其分類標示，如第6圖所示之無物件訓練影像樣本501~507。

在步驟S02中，輸入前述之大量的分類訓練影像樣本及分類標示至小尺寸深度卷積神經網路圖樣分類器，以訓練計算出符合這些訓練樣本的最佳分類模型參數；步驟S02具體實施但不以此為限為：選用尺寸為28x28像素的訓練影像樣本輸入至小尺寸深度卷積神經網路圖樣分類器，該小尺寸深度卷積神經網路圖樣分類器包括二個卷積層(Convolutional layers)、二個池化層(Pool layers)、二個全連接層(Fully connected layers)、及三十六個分類輸出。經輸入步驟S01所產生大量的分類訓練影像樣本及其分類標示經過訓練計算後，得出符合前述訓練影像樣本最佳的分類模型參數，得以對含物件A、含物件B或不含物件之28x28像素的影像圖樣進行分類辨識，並且可在往後繼續加入新物件影像樣本及誤辨樣本，繼續做分類模型參數的補修訓練。前述的三十六個分類輸出，以步驟S01中僅使用了3個分類樣本標示為例，僅提供最多三十三個(36減3)種的新訓練影像樣本繼續加入做增補訓練。

在步驟S03中，將監控影像以多種比例分割為多種尺寸及位置不同的多個區域影像，並輸入至步驟S02中的小尺寸深度卷積神經網路圖樣分類器進行分類辨識計算，以得知物件是否有出現在其中那個尺寸及位置的區域影像內，而達成監控影像中物件之偵測；具體來說，在步驟S03中，為了以步驟S02的小尺寸深度卷積神經網路圖樣分類器對監控影像做物件偵測，將如第7圖所示的單一個全區域影像的監控影像701，分割為如第8圖所示的影像邊長1/2比例的四個區域影像702、703、704及705；再分割為如第9圖所示的影像邊長1/4比例的十六個區域影像706~721；再分割為如第10圖所示的影像邊長1/8比例的六十四個區域影像722~785，共計為八十五個區域影像，均縮圖至尺寸為28x28像素的影像，以步驟S02中經過訓練之具有分類參數模型的小尺寸深度卷積神經網路圖樣分類器進行分類辨識計算，以得知八十五個區域影像內是否含有待偵測之物件、或哪些區域影像內含物件A或物件B，且可由這些區域影像的大小及所在位置訊息，得知多大尺寸的物件出現在欲監控影像中哪個位置的區域影像內，藉以完成偵測監控影像中之物件。

此外，檢視步驟S03中監控影像中物件之偵測結果是否有誤，若有誤，則將辨識有誤之區域影像及其正確的分類標示再加入訓練影像樣本中，並繼續使用步驟S02中的小尺寸深度卷積神經網路圖樣分類器以更新訓練計算分類模型參數，藉此更新取得該小尺寸深度卷積神經網路圖樣分類器更佳的模型參數，持續提升在步驟S03中物件偵測之正確率。

另若有新物件需加入偵測，則依照步驟S01，製作含新物件的訓練影像樣本及分類標示，加入先前的訓練影像樣本中，並用步驟S02的小尺寸深度卷積神經網路圖樣分類器進行分類模型參數的更新訓練計算，以更新含有新物件類別的模型參數，而增加步驟S03中偵測新物件的效果。

在步驟S01中，訓練影像樣本中的物件大小，限制物件最大邊長為訓練影像樣本的邊框的1/2倍至1倍之間，且無論物件如何變形及被遮蔽，物件的幾何中心位置都必須位於訓練影像樣本的框內，如此在步驟S03中，所偵測出之物件才能唯一的存在於其中一個區域影像內。

在步驟S03中，將監控影像以四級的1/2等比級數分割，總計為八十五個區域影像，以進行28x28像素的圖樣分類辨識，其中最大的分割比例為1/8，而區域影像中物件最大邊長的尺寸被限制在經分割區域影像的1/2比例以上，故在步驟S03中可辨識的最小物件之最大邊長尺寸為監控影像之邊長比例的1/16(1/8 x 1/2)，若欲偵測更小尺寸之物件，或有更高像素之監控影像，可調整區域影像的最大分割比例至1/16或1/32。

另外，若實際上物件只出現於監控影像中特定位置或範圍內，只選定包含這些特定位置及大小範圍的區域影像做分類辨識，以進一步提升物件偵測的速度及準度。

本發明與其他習用技術相互比較時，更具備下列優點：

1.由於訓練樣本是尺寸較小，可方便以電腦程式依規劃來均勻分派訓練樣本的樣式偏差，自動大量製作出足夠的訓練樣本，除將大大節省人工對樣本標示的時間及人力成本，更能控制避免重覆無效的樣本選取，讓訓練結果更快更準。

2.與其他YOLO等全尺寸深度卷積神經網路物件偵測技術相較，由於全尺寸訓練樣本尺寸大且必須使用大量層級的深度卷積神經網路進行物件偵測訓練計算，應用上有一定的限制。小尺寸深度卷積神經網路的模型參數量可大幅縮小，將可大量節省訓練時間外，更適合以低耗能低價的電子計算裝置達成。

3.可更方便的加入辨錯之樣本，繼續提升物件偵測之正確率。

4.可更方便加入新的物件做新的分類學習。

5.可依實際上物件會出現的位置及大小，選定特定範圍的區域影像做分類辨識，進一步提升物件偵測的速度及準度。上列詳細說明乃針對本發明之一可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

綜上所述，本案不僅於技術思想上確屬創新，並具備習用之傳統方法所不及之上述多項功效，已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請貴局核准本件發明專利申請案，以勵發明，至感德便。

S01~S03‧‧‧步驟

Claims

一種用於偵測監控影像內物件之方法，係包括：取得多個待偵測物件影像及背景影像；基於該多個待偵測物件影像及該背景影像，製作多個訓練影像樣本並設定該多個訓練影像樣本的多個分類標示，其中，各該訓練影像樣本的邊框之尺寸範圍為14像素至28像素；輸入該多個訓練影像樣本及該多個分類標示至深度卷積神經網路圖樣分類器以產生分類模型參數；處理該監控影像以分割為多個區域影像；以及輸入該多個區域影像至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識該多個待偵測物件影像是否出現於該多個區域影像內。
如申請專利範圍第1項所述之方法，進一步包括：將該多個區域影像中辨識錯誤的錯誤區域影像及該錯誤區域影像的正確分類標示加入該分類訓練影像樣本，以輸入至該深度卷積神經網路圖樣分類器做為更新訓練並更新該分類模型參數。
如申請專利範圍第1項所述之方法，進一步包括：增加新物件類別，其中，該增加新物件類別包括增加包含新物件的新訓練影像樣本及新訓練影像樣本的分類標示於該多個訓練影像樣本中，以將之輸入至該深度卷積神經網路圖樣分類器做為更新訓練並更新該分類模型參數。
如申請專利範圍第1項所述之方法，其中，處理該監控影像以分割為多個區域影像之步驟更包括：若該多個待偵測物件影像僅出現在該監控影像的特定範圍的區域影像內，僅選擇該特定範圍的區域影像輸入至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識該多個待偵測物件影像是否出現於該特定範圍的區域影像內。
如申請專利範圍第1項所述之方法，其中，該多個訓練影像樣本包括第一物件類、第二物件類以及不含物件類的訓練影像樣本，且該第一物件類不同於該第二物件類。
如申請專利範圍第5項所述之方法，其中，該第一物件類及該第二物件類各經調整為多個包括旋轉物件的訓練影像樣式、再設定物件尺寸的訓練影像樣式、上下平移物件的訓練影像樣式、左右平移物件的訓練影像樣式、變形物件的訓練影像樣式、旋轉物件的訓練影像樣式、遮蔽物件的訓練影像樣式、及放入背景影像的訓練影像樣式。
如申請專利範圍第5項所述之方法，其中，該不含物件類的訓練影像樣本包括不具有物件的該監控影像中的經分割的該多個區域影像。
如申請專利範圍第1項所述之方法，其中，處理監控影像以分割為多個區域影像之步驟更包括：將經過分割的該多個區域影像縮圖為符合各該訓練影像樣本之尺寸範圍，再將縮圖後的該多個區域影像縮圖輸入至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識縮圖後的該多個區域影像縮圖內是否含有物件影像。
如申請專利範圍第1項所述之方法，其中，該多個訓練影像樣本中的物件影像的最大邊長經設置為該訓練影像樣本的該邊框的1/2倍至1倍。
如申請專利範圍第1項所述之方法，其中，該深度卷積神經網路圖樣分類器包括2個卷積層、2個池化層、2個全連接層及36個分類輸出。
一種執行偵測監控影像內物件方法之非暫態電腦可讀取紀錄媒體，該非暫態電腦可讀取紀錄媒體係經由電腦所載入以執行下列步驟：取得多個待偵測物件影像及背景影像；基於該多個待偵測物件影像及該背景影像，製作多個訓練影像樣本並設定該多個訓練影像樣本的多個分類標示，其中，各該訓練影像樣本的邊框之尺寸範圍為14像素至28像素；輸入該多個訓練影像樣本及該多個分類標示至深度卷積神經網路圖樣分類器以產生分類模型參數；處理該監控影像以分割為多個區域影像；以及輸入該多個區域影像至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識該多個待偵測物件影像是否出現於該多個區域影像內。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，更包括將該多個區域影像中辨識錯誤的錯誤區域影像及該錯誤區域影像的正確分類標示加入該分類訓練影像樣本，以將之輸入至該深度卷積神經網路圖樣分類器做為更新訓練並更新該分類模型參數。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，更包括增加新物件類別，其中，該增加新物件類別包括增加包含新物件的新訓練影像樣本及新訓練影像樣本的分類標示於該多個訓練影像樣本中，以將之輸入至該深度卷積神經網路圖樣分類器做為更新訓練並更新該分類模型參數。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，其中，處理該監控影像以分割為多個區域影像之步驟更包括：若該多個待偵測物件影像僅出現在該監控影像的特定範圍的區域影像內，僅選擇該特定範圍的區域影像輸入至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識該多個待偵測物件影像是否出現於該特定範圍的區域影像內。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，其中，該多個訓練影像樣本包括第一物件類、第二物件類以及不含物件類的訓練影像樣本，且該第一物件類不同於該第二物件類。
如申請專利範圍第15項所述之非暫態電腦可讀取紀錄媒體，其中，該第一物件類及該第二物件類各經調整為多個包括旋轉物件的訓練影像樣式再設定物件尺寸的訓練影像樣式、上下平移物件的訓練影像樣式、左右平移物件的訓練影像樣式、變形物件的訓練影像樣式、旋轉物件的訓練影像樣式、遮蔽物件的訓練影像樣式、及放入背景影像的訓練影像樣式。
如申請專利範圍第15項所述之非暫態電腦可讀取紀錄媒體，其中，該不含物件類的訓練影像樣本包括不具有物件的該監控影像中的經分割的該多個區域影像。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，其中，處理該監控影像以分割為多個區域影像之步驟更包括：將經過分割的該多個區域影像縮圖為符合各該訓練影像樣本之尺寸範圍，且將縮圖後的該多個區域影像縮圖輸入至具有該分類模型參數的該深度卷積神經網路圖樣分類器，以辨識縮圖後的該多個區域影像縮圖內是否含有物件影像。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，其中，該多個訓練影像樣本中的物件影像的最大邊長經設置為該訓練影像樣本的該邊框的1/2倍至1倍。
如申請專利範圍第11項所述之非暫態電腦可讀取紀錄媒體，其中，該深度卷積神經網路圖樣分類器包括2個卷積層、2個池化層、2個全連接層及36個分類輸出。