TWI411300B

TWI411300B - 可調式網格視訊偵測與監控之方法與系統

Info

Publication number: TWI411300B
Application number: TW98124506A
Authority: TW
Inventors: David Lee; Wei Chen Lu; Chen Chiung Hsieh; Tung Hua Liu
Original assignee: Reallusion Inc
Priority date: 2009-07-21
Filing date: 2009-07-21
Publication date: 2013-10-01
Also published as: TW201105135A

Description

可調式網格視訊偵測與監控之方法與系統

本發明係有關一種可調式網格視訊監控方法與系統，其係擷取並辨識鏡頭前人物的動作後使用可調整式之網格技術偵測影像之變動，依變動樣態產生控制訊號以操控其他軟體或裝置之方法及系統。

電腦發展至今已與我們的生活密不可分，電腦之應用更是日益普及廣泛，特別是應用電腦於視覺影像之處理更是當今電腦應用之趨勢主流。

隨著愈來愈多的電腦配備網路攝影機，透過網路攝影機偵測物件移動變化以達到特定目的(例如辨識、監控)之系統及應用也愈來愈多。

本發明所揭露之可調式網格視訊監控方法與系統係應用電腦及其所配備之網路攝影機，擷取並辨識鏡頭前人物的動作，以操控其他軟體或裝置。本發明所揭露之技術涉及取像裝置，操作環境，操作行為，樣態設定等多項變因，目前習知技術中並沒有一個適用於上述複雜度之系統或方法，在本發明所揭露之一種可調適偵測器網格組態之影像變動偵測系統中，前述各項變動之因素均被設定為參數，經套用不同的組態設定，系統即可自動調整，應用於不同的情境，可一次解決監視與遙控系統常遭遇的多項難題。

本發明所揭露之可調式網格視訊監控方法與系統係針對不同的影像來源與格式，迅速偵測出影像樣態與樣態的變動，調適抽象成對映的控制訊號，以操作對象軟硬體或裝置，其應用範圍包含從可見光(如筆記型電腦內建之網路攝影機)與不可見光(如夜間監視系統之紅外線攝影機) 攝影機所擷取之靜態與動態影像中，可取得的單張靜止或包含時序資訊之連續影片樣態，以擷取操作者的姿勢或動作，並迅速抽象成對映的控制訊號，其包含個別事件觸發訊號與連續數值訊號，以操控特定之軟體或裝置。

除了上述之優點外，本發明所揭露之可調式網格視訊監控方法與系統更具備以下之效益：

(一)可大幅提高改善演算效能；本發明之方法與系統乃應用當前一般通用之攝影裝置與運算裝置，例如，攝影裝置可為三十萬，一百萬至三百萬畫素之網路攝影機，每秒取像約15到30格，運算裝置如桌上電腦平台CPU維雙核心2.0GHz，可攜裝置標準約為ARM9 256MHz。在傳統習知技術中，運算裝置運算所提到之影像條件，即使系統可即時處理每一單格畫面的資訊，CPU負載通常過高，約在85%以上，往往已經無法負擔其他程式同步之運算執行。例如媒體播放程式即是CPU負載相當高的程式，要以手勢操作媒體播放程式，必須要大幅提高手勢偵測系統的演算效能並降低CPU負載，否則無法得到順暢的操作與播放，而使用本發明所揭露之可調式網格視訊監控方法與系統便可大幅提高改善演算效能，顯著有效改善上述問題。

(二)可大幅降低影像變動偵測的複雜度；影像變動偵測在電腦視覺領域既有許多習知技藝，影像解析度越高，所需分析比對時間往往為指數成長，或更複雜。本系統將原始影像細分成許多更小的矩形，各個局部的比對辨識工作所需運算量指數下降，大幅減輕CPU運算壓力。而個別矩形的偵測方法，也因為影像解析度變小，而可因此簡化比對辨識運算。而這些個別的矩形所進行的比對均是相同的演算，對具有多執行緒或多核心的系統，則可善用其平行處理能力，達到倍數加快之計算速度，故，透過本發明所揭露之可調式網格視訊監控方法與系統可大幅降低影像變動偵測的複雜度。

(三)可大幅降低樣態辨識的複雜度；將較高解析度次取樣至較低解析度是電腦視覺領域中常用的習知技藝。而，本系統直接將各矩形的偵測結果以一個畫素呈現，不需透過傳統的次取樣方法，即獲得較低解析度的樣態圖形，可供比對，同樣大幅降低樣態辨識的值計算量，因此，大幅降低樣態辨識的複雜度。

本發明所揭露之可調式網格視訊監控方法與系統更可在以下各方面提高應用之彈性，例如；

(一)操作模式方面--基於產品應用情境需求，系統偵測能力可包含以下之情境狀況：

(a)辨識對象物的靜態形狀或姿態，例如辨別出以手指表示的數字一到五，或剪刀石頭布的手勢。或僅僅辨識出畫面中人物的頭部位置，或雙手的位置。

(b)辨識對象物的特定連續動作，例如偵測到畫面中人物揮手，點頭，或搖頭的動作。

(c)追蹤對象物的局部區域的位置變動，例如追蹤到畫面中人物手的指向與位置。

(d)監視畫面中特定的區域是否有所變化，例如是否有運動中的物件進入畫面中的特定區域。

(二)影像來源方面--系統需求規劃需能應用在一般的網路攝影機且無特殊取像背景要求。針對有特殊光學濾鏡輔助的攝影裝置，則可善用過濾後的影像特質，例如，具有紅外線夜視功能的相機，預期能以相同的系統與方法提供相同或更精確的辨識以利操控。可見光與紅外線攝影機所取得之影像，其影像特性不同，本系統必須有效抽出各不同來源影像之相同特性，始能加以應用。

(三)適用樣態方面--本系統的樣態辨識模組，對靜態圖採用二元黑白影像，對連續影像則可基於時間軌跡或次數累加而將連續動態資訊轉化為灰階影像。樣態比對可執行於黑白影像，或灰階影像。控制訊號之輸出則可基於對映表輸出單一事件或連續訊號。

本發明之主要目的係提供一種可調式網格視訊監控方法與系統，其係使用可調整式之網格技術偵測影像之變動，依變動樣態產生控制訊號，以控制裝置或電腦程式，達到可以彈性組態之影像為輸入以遙控軟體或裝置之目的。

本發明之另一目的係提供一種可調式網格視訊監控方法與系統，其可使用一網路攝影機，擷取並辨識鏡頭前人物的動作，以操控其他軟體或裝置，透過取像裝置、操作環境、操作行為及樣態設定等多項變化因素彈性之組態設定，系統即可自動調適，以應用於不同之情境，一次解決多項監視與遙控系統常遭遇之難題。

為進一步對本發明有更清楚之說明，乃藉由以下圖式、圖號說明及發明詳細說明，冀能對貴審查委員之審查工作有所助益。

首先，請參閱圖一A，圖一A係為本發明之可調式網格視訊監控方法之步驟流程圖，由圖一A可知，本發明之可調式網格視訊監控方法至少包括以下之流程步驟；步驟11：輸入原始影像；步驟12：切割該原始影像；步驟13：分格偵測；步驟14：合成樣態影像；步驟15：辨識樣態影像；步驟16：比對樣態產生訊號；及步驟17：控制對象裝置。

各步驟進一步分別詳細說明如下，步驟11：輸入一原始影像，該影像可為一來自網路攝影機的即時畫面影像，或是一預先製作完成之影像檔案；步驟12：切割該原始影像，係將該原始影像切割為複數個矩形，亦即將該原始影像切割為m x n個析度為w x h的矩形，該每一矩形稱之為一偵測格；步驟13：分格偵測係分別偵測各偵測格以偵測判斷該偵測格是否符合待偵測之條件；步驟14：合成樣態影像係使用一解析度為m x n畫素的一位元影像，各偵測格代表一個畫素，將樣態影像填入相對位置的偵測結果(0或1)；步驟15：辨識樣態影像係將該灰階樣態影像輸入至一樣態辨識系統，產出一最可能之樣態名單，該樣態名單為一候選樣態名單；步驟16：比對樣態產生訊號係依據最可能的樣態的清單的組合，比對一對照表決定應輸出之訊號；步驟17：控制對象裝置係依據步驟16所判斷的結果轉換為實際的控制訊號，發送至一待控制裝置以控制該待控制裝置。

本發明之可調式網格視訊監控方法除可包括以上基本之流程步驟外，更可包括其他之步驟以加強影像之處理，請參考圖一B，圖一B係為本發明之可調式網格視訊監控方法包括更多影像加強步驟之流程示意圖，由圖一B可知，本發明之可調式網格視訊監控方法除了包括圖一A中之各基本步驟外，更可包括以下之流程步驟；

步驟111：影像強化的前處理，係以實體裝置將影像過濾為紅外光影像，或使用數位的膚色濾鏡處理該影像，或使用動作偵測濾鏡處理該影像等，圖二係為一原始影像經過一動作偵測濾鏡處理後之灰階影像結果之示意圖。

步驟141：時序影像合成，係在規範的時序內，將連續取得的樣態影像，以預設的由先到後，從弱到強的權重，將只有黑白二值的多張影像，合成為一張表示動態軌跡的灰階樣態影像，該步驟僅適用於偵測動態影像之形狀，偵測靜態影像則不適用。

步驟161：以樣態名單比對係將步驟15所產生之最可能的樣態的清單的組合，比對一對照表以決定應輸出之訊號。

步驟162：轉換硬體訊號係將步驟16所產生之樣態比對結果轉換為一控制硬體之訊號，該步驟僅適用於被控制裝置為一硬體。

步驟171：提供使用者操作回饋，係將判斷結果或操作引導回饋到系統操作畫面上，以互動的方式提供使用者操作之協助。

圖三係前述步驟12切割原始影像之示意圖，由圖三可知切割原始影像係將該原始影像切割為複數個矩形，亦即將該原始影像切割為橫向m個及縱向n個解析度寬w高h的矩形，該每一矩形稱之為一偵測格。

圖四A至圖四D係前述步驟13分格偵測之示意圖，分格偵測係分別偵測各偵測格以判斷該偵測格是否符合待偵測之條件，圖四A及圖四B之區域41係示意該偵測格之顏色(膚色)不符合所設定之條件(膚色)，區域42係示意該偵測格之顏色(膚色)符合所設定之條件(膚色)，則可能需要進一步處理，圖四C及圖四D係區域41放大後之示意圖。

圖五A至圖五D係將前述圖二中一原始影像經過一動作偵測濾鏡處理後之灰階結果之圖像進行分格偵測之示意圖，分格偵測係分別偵測各偵測格以判斷該偵測格是否符合待偵測之條件，由圖五A至圖五D之連續示意圖可知，圖五A之區域51(手形)，經分格偵測後得到圖五B之區域52及圖五C之區域53，最後之結果如圖五D之區域54所示，圖五D係呈現一手形(區域54)與背景分離之結果。

圖六A至圖六D係前述步驟14合成樣態影像之示意圖，其係使用一解析度為m乘以n畫素之一位元影像，各偵測格代表一個畫素，將樣態影像填入相對位置的偵測結果(0或1)，圖六A中之手形61經合成樣態影像之連續處理後如圖六B中之手形62及圖六C中之手形63，得到如圖六D中之手形64。

圖七A至圖七B係前述步驟141時序影像合成之示意圖，時序影像合成，係在規範的時序內，將連續取得的樣態影像，以預設的由先到後，由弱到強之權重，將只有黑白二值的多張影像，合成為一張表示動態軌跡之灰階樣態影像。

圖八A至圖八C係前述步驟15辨識樣態影像之示意圖，其係將一灰階樣態影像輸入至一樣態辨識系統，以產出一最可能之樣態影像或一最可能之樣態名單，該樣態名單為一候選樣態名單。

圖九A至圖九C係前述步驟171提供使用者操作回饋之示意圖，其係將判斷結果或操作引導回饋到系統操作畫面上，以互動的方式提供使用者操作之協助。

圖十A係本發明之可調式網格視訊監控系統之架構圖，由圖十A可知，本發明之可調式網格視訊監控系統101至少包括：一影像擷取單元120，用以擷取接收一影像110；一影像偵測單元130，用以偵測該影像之變動，並產生一樣態影像；一樣態分析單元140，用以分析該樣態影像，並產出一樣態比對結果；一控制訊號產生單元150，用以將該樣態比對結果轉換為一控制訊號；一被控制單元160，用以接收該控制訊號以控制一受控物；及一操作者回饋單元170，用以提供一操作者操作之指引。

茲將各單元詳細說明如後：

本發明之可調式網格視訊監控系統中之影像擷取單元120係用以擷取接收一影像，其中，該影像可為多種類的影像來源，不同的影像來源代表不同的格式與特性。影像來源可為一般的網路攝影機所拍攝之影像，或特殊的紅外線攝影機所拍攝之影像，或預錄好的影片檔，或一靜態影像。影像之數據格式可能是領域中常見的RGB,RGBA,YUV,YCbCr,MJPEG等。為使能以相同的演算法處理，上述各格式在送入運算單元之前，均先統一轉換為32bpp(bits per pixel，每一個畫素為32 bits)的點陣圖格式，可儲存RGB,RGBA,Gray8,Gray16,Gray24,Gray32等畫素格式。上述格式均為業界通用之格式，在此不再贅述。

在不同的取像裝置與取像環境下，影像變異性極大，數據格式轉換後，可經過一特定的前處理模組之處理，使能強調被追蹤的對象，過濾掉不需要之背景或雜訊。其可採用的方法如下，(1)透過光學濾鏡處理；最常用於監控系統之特殊像機就是紅外線相機。影像來源本身可以是專門為紅外線設計的，也可以是實體濾鏡過濾所得的特殊可見光或不可見光。此類相機能有效偵測人體與動物，或特定的紅外線光源，例如紅外線搖桿或紅外線指揮棒。(2)透過數位濾鏡處理；數位影像處理的領域裡有各種影像前處理方法，透過數位濾鏡之處理可以保留或突顯影像中特定特性的資訊，而去除不必要的資訊。例如膚色區域的偵測，影像之間的差異或邊緣偵測等。以本案之需求之一，要偵測人的手勢動作，故可採用膚色過濾，也可以採用動態差異，而膚色與動態差異的混合計算，則可以獲得更好的原始影像。

影像偵測單元130係為本發明之核心單元，其係用以偵測該影像之變化以產生一樣態影像。如圖十B所示，該影像變動偵測單元130更包括一網格式影像變動偵測單元131，其係將影像細切成一樣大小的矩形(如圖十一所示)，每個矩形為單位的偵測影像的變動，或目標物的存在。此設計的目的在以一個矩形範圍來決定該區域是否合於偵測條件，而非以單一畫素為單位。例如在特定矩形中偵測到特定膚色範圍內的顏色，此區域即設定為有效(active)，代表原影像在此區域中有一定量的膚色內容。又或在特定矩形中與前一時點的同區域比對，發現有相當程度的差異，則判斷此區域內有動作中的物件，該區域即設為有效。該矩形區域稱為偵測格(detection cell)，各偵測格均對映一個偵測器。若一張原始影像被切割為m x n個偵測格，在硬體之實作上，該m x n個偵測格可對應至m x n個偵測器。以具有多執行緒或多核心的系統而言，可以平行對多個偵測格進行偵測，對硬體實作而言，而以實作m x n的偵測器，同時輸出所有的偵測結果。各別偵測各偵測格之示意圖如圖十二A至圖十二D所示，圖十二D係最終需要之影像結果。

將各偵測器的值視為單一畫素，可繪製出一張寬x高為m x n的影像。當偵測器的輸出值格式為一個位元的時候，可合成一張黑白影像，當輸出格式為多個位元的時候，則可合成初一張灰階影像。一張解析度M x N的原始影像的偵測結果，可以一張m x n的黑白或灰階影像來表示。其中M=w x m,N=h x n,(w,h)為偵測格的寬與高。該張m x n的輸出影像代表了偵測的結果分布的情形，稱之為樣態影像(pattern image)。接著，便可針對該m x n的影像進行樣態辨識(pattern recognition)，以辨識出最可能的樣態。

此方法與常見的次取樣技巧同樣是把規則切割的矩形區域輸出成單一畫素，但差異乃在於，次取樣將區域內所有的畫素，或隨機抽取其中數個畫素，取平均值後輸出。而本方法中個別的偵測格，並不是用來平均畫素或隨機抽點，而是依據偵測格的判斷輸出對映的值。使用以上之方法，我們可以設計出一個通用的系統，彈性的設定偵測格的寬高，替換偵測器的判準與輸出格式，而無需更改程式或裝置，即可應用於各種不同的情境需求。以實作之手勢偵測為例，先經過膚色範圍過濾的影像，經切割後，便可偵測各個偵測格內，膚色分布的變化。變化量大於預設值時，即判斷為有效格，然後便可合成出一張樣態影像。將連續幾個時點的樣態影像依據時序先後給予弱到強的權重後可合成一張動作軌跡的灰階影像，接著，與樣態影像模庫中預先儲存之複數個尺寸寬為m及高為n之各種最可能的動作軌跡樣態影像進行比對，而判斷出動作之種類。

如圖十B所示，該影像變動偵測單元130更包括一參考點提供單元132，其係針對待偵測的對象物可能位於不同的位置與距離，而造成大小與位置的差異之問題，提供一解決之方法。其係於系統中加入參考點的設定與相對於參考點的映對功能。當待偵測的對象物有可被辨識的特徵點時，只需要在該特徵點附近的一定範圍內執行前述的偵測作為即可。本發明之系統可手動或自動設定特徵點為參考點，對參考點附近特定大小的區域進行前述的切割與分格偵測。在僅有一個參考點的狀況下，本發明之系統可規範重新取樣的位置，在有多個參考點的情形下，本發明之系統可決定重新取樣的位置，大小，與轉向。以手勢偵測實作而言，系統已內建一個高效能的人臉辨識單元，可辨識出畫面中包含人臉的方框的大小，方向與位置。參照此臉部所在方框的資訊，本發明之系統便可即時換算出該人物合理的手勢動作範圍，然後針對該合理手勢範圍重新取樣切割偵測格。如此當被偵測的人物在畫面中移動時，系統隨時調適其偵測範圍，除了有效縮限運算在關心區域內(region of interest)的好處外，人物肢體在畫面中的大小位置與轉向都連帶的被縮放為一致大小重置在固定的中心點。分格偵測後所得的結果樣態影像在幾何特性上有多重的一致性，更大幅提高辨識效能。圖十三A至圖十三D係本發明之系統使用參考點進行辨識處理之示意圖。

如圖十A所示，本發明之可調式網格視訊監控系統中包括一樣態分析單元140--如前述本系統將影像變動分析工作從較大的原始解析度，簡化為針對較小的解析度簡化後的處理方式，還有一個很重要的優點就是，樣態辨識的影像解析度也變小了。這樣的雙層divide and conquer的方式，同時把偵測端與辨識端的輸入影像都變小了，同時簡化了兩個層次的運算處理複雜度。

前述分格偵測之結果，可產出樣態影像，如圖十四A及圖十四B所示。圖十四A中人物的臉部與手的位置區域被偵測為膚色區域，而，圖十四B中人物動作所涵蓋之區域被偵測為動態區域。

圖十四A及圖十四B所示分別是膚色偵測和動態偵測所得到之樣態影像，其為一靜態原始影像的偵測結果。類似這樣的影像已經有許多可被辨識的資訊，例如：操作者的手在臉的右邊或操作者舉起左手揮動等資訊。

同樣本發明之系統也可以用來偵測動態影像變化的資訊而無須改變系統之架構，只需要對樣態影像作進一步合成，並對映於相同方式所合成的ground truth即可達成。合成方法是把連續時點對各偵測格偵測所得的樣態影像，依照時間前後關係，分別給予弱到強的權重，即可合成出如下圖十五所示之軌跡圖。

由以上的說明可知，輸入之資料只有動態影像或靜態影像之差異，所使用的偵測方法、比對運算方法及所使用之系統運算單元都是相同的。

如圖十C所示，本發明之可調式網格視訊監控系統中之樣態分析單元140更包括一樣態影像模型庫142及一樣態辨識單元141，該樣態影像模庫142係獨立於影像辨識單元之外，當採用相同處理方法但處理不同對象物時可以直接替換模型庫，而不必一起換掉處理模組。例如，從追蹤臉到追蹤手或者從靜態的到動態的偵測。

如圖十C所示，本發明之樣態分析單元140更包括一樣態影像辨識單元141，由於本系統所合成的樣態影像，皆為二維影像，故在樣態辨識上，常見的影像樣態辨識系統便可適用。AdaBoost與Support Vectot Machine等均是領域中常見的已簡化並優化，且適用於本系統的樣態辨識方法，而且是公開領域之技術，依據不同的平台與應用條件選用其一，便可得到最佳的效果。

如圖十A所示，本發明之可調式網格視訊監控系統中包括一控制訊號產生單元150，用以將樣態比對結果轉換為一控制訊號。本發明之系統在獲得樣態辨識的結果之後，可立即發出一對映之控制訊號至被控制對象程式或裝置。為維持模組與資料的切割，以保持系統最高的應用彈性，本系統針對樣態分析結果與控制訊號之間，再加入一個對映機制。由於樣態辨識的結果可能產生不只一個可能之判斷結果，而各結果的可能性指數間只有些差異，所以如果直接選定只以些微差異領先的最高分判斷，有可能並非最佳之結果。為解決同時有多個可能之結果之問題，本發明之系統產生一候選樣態名單，以對映出可能之訊號。在系統內可預先設定一臨界值，當各個最可能解的可能性指數差異在此臨界值以內時，整組數值可做為查表的依據，而非僅一般採用的一對一查表對映之方式。

如圖十D所示，本發明之可調式網格視訊監控系統中之控制訊號產生單元150更包括一樣態與控制訊號對映單元151，一樣態與控制訊號對映表152及一控制訊號輸出單元153。該樣態與控制訊號對映單元151係依據樣態分析單元140所產生之結果與該樣態與控制訊號對映表中之內容進行比對以產生一控制訊號。該樣態與控制訊號對映表152係儲存樣態與控制訊號對映之內容，為維持較高的組態彈性，本發明之系統不預先設定待偵測之樣態與待發出訊號之間有一對一的數目與意義上之關聯。例如，樣態分析模組的能力是分辨操作者手勢的上下左右揮動等四個樣態，但待操作的音響裝置卻有播放，停止，暫停，快轉，倒帶等五種可能操作。實際上手勢的上下左右揮動，在直覺上與播放，停止，暫停，快轉，倒帶等操作並沒有直覺之意義連結，而且數目也不一樣。但，一對映機制即可解決以四個行為表現操作五個動作之問題。例如，手右揮對映快轉，手左揮對映倒帶，手下揮對映停止，手上揮對映播放與暫停互切，有了對映表的機制，本發明之系統便可模擬傳統音響的播放與暫停同一個按鍵的設計以及其他更多操作上之可能性。再者，更換對映表即可改變操作形態，例如，手右揮對映下一首，手左揮對映上一首，手下揮對映音量轉小，手上揮對映音量轉大。對映完成後，便得到應輸出的訊號編號，該訊號便可由如圖十D中所示之控制訊號輸出單元153進行輸出用以控制對象裝置154。當對象裝置為一電腦程式時，通常係透過作業系統的訊息(Messages)傳遞功能傳遞對映的訊息即可。當對象裝置為一硬體實體裝置時，此模組則可為一硬體電路，其將數位訊號轉換成該裝置的控制訊號，例如電壓或電流值，或特定波形組合的紅外光。

如圖十A所示，本發明之可調式網格視訊監控系統中包括一被控制單元160，用以接收一控制訊號以控制一受控物(對象裝置)，當被控制單元係為一應用程式且與偵測辨識模組位於同一電腦時，控制訊息將傳送至該應用程式之視窗，即可操控該應用程式。或，透過有線或無線網路，控制在網路上的其他電腦上之應用程式。或，由一電腦上之偵測與辨識模組，發出訊號給一外接裝置之驅動程式以控制外接裝置之行為。或，偵測與辨識模組內建於監控相機，該監控相機直接發出訊號(例如紅外線波形)遙控被控制單元。或，使用IrDa(Infared Data Association)為輸出裝置，可遙控所有配備有紅外線遙控器的家電，應用同樣之原理，亦可控制藍芽之相關裝置。

如圖十A所示，本發明之可調式網格視訊監控系統中包括一操作者回饋單元170，，用以提供一操作者操作之指引。在手勢遙控系統的實作過程中，若對操作者提供適當的回饋與引導，則更便利系統之操作。由於偵測的結果與進行的操作並不必然有數目與常識(一般認知)上意義之一對一對映，所以回饋偵測結果給使用者，在互動式的控制系統裡是有必要的。一種有效的引導即是把預期的樣態影像，疊加在使用者的操作畫面中，使用者依照被提示的形狀或路線進行動作，輕易達成特定指令。此引導模式，尤其適合應用於使用者初次使用本系統的練習。

本發明的一個具體的實施例是以臉部為基準的手勢偵測範例。其實施之方式可於本發明之系統中加入臉部偵測單元，並以偵測所得的臉作為參考點。習知技術中一個通用而且公開的臉部偵測模組是AdaBoost，再將影像以膚色濾鏡及動態偵測等兩種演算法處理過濾至僅剩動作中的手掌影像，接著，依照臉部所在位置與大小決定取樣的影像位置大小與轉向，截取部分影像，接下來，將截取的局部影像切割成多個偵測格後，套用可調適網格式影像變動偵測，產出樣態影像，接下來，基於連續計算所得的樣態影像，由樣態分析單元辨識選出最可能的動作，最後，由訊號產生單元在動作與事件訊息對照表中找出對應之熱鍵訊息以控制待控制標的，該待控制標的若為一應用程式，例如媒體播放程式，收到對映的熱鍵訊息後，可進行撥放、停止、快轉、倒轉、下一首歌曲等操作。選擇性之附加功能可例如，當系統偵測出人臉所在之後，即可投射可操作指令之樣態影像於原始影像上，輔助使用者以決定手掌動作。

本發明應用之範圍十分廣泛，例如：

(A)、應用於入侵監控系統時，監控用相機內可預錄無異物入侵時的參考影像，並可預錄多張不同時段與照明條件的參考影像，依據時間或環境光感應器或兩者的數據，選擇參考影像，以較大面積及而較少格數的切割法，迅速得知影像有所差異，鎖定最大差異格細切後再套用可調適網格式差異偵測，依所得樣態影像判斷可能的入侵物種類，包括人、車、動物等，偵測到一入侵物時亦可發出警訊給安全人員。

(B)、應用於紅外線遊戲控制器，例如，手持式遊戲控制器前端發出紅外光，偵測用的相機配備紅外線濾鏡，只感應紅外光，使用本發明之方法，將影像細切為偵測格，依據差異產出樣態影像，將連續的樣態影像疊合起來，進行辨識，依照辨識結果對遊戲發出控制訊號等等。

綜上所述，本發明之結構特徵及各實施例皆已詳細揭示，而可充分顯示出本發明案在目的及功效上均深富實施之新穎性及進步性，極具產業之利用價值，且為目前市面上前所未見之運用，依專利法之精神所述，本發明案完全符合發明專利之要件。唯以上所述者，僅為本發明之較佳實施例而已，當不能以之限定本發明所實施之範圍，即舉凡依本發明申請專利範圍所作之均等變化與修飾，皆應仍屬於本發明專利涵蓋之範圍內，謹請貴審查委員明鑑，並祈惠准，是所至禱。

11、12、13、14、15、16、17‧‧‧流程步驟

41、42‧‧‧手形

51、52、53、54‧‧‧手形

61、62、63、64‧‧‧手形

111、141、161、162、171‧‧‧流程步驟

101‧‧‧可調式網格視訊監控系統

110‧‧‧影像

120‧‧‧影像擷取單元

130‧‧‧影像變動偵測單元

140‧‧‧樣態分析單元

150‧‧‧控制訊號產生單元

160‧‧‧被控制單元

170‧‧‧操作者回饋單元

圖一A係為本發明之可調式網格視訊監控方法之步驟流程之示意圖。

圖一B係為本發明之可調式網格視訊監控方法之另一步驟流程之示意圖。

圖二係為本發明一原始影像經過動作偵測濾鏡處理後之灰階結果之示意圖。

圖三係本發明切割原始影像之示意圖。

圖四A至圖四D係本發明進行分格偵測之示意圖。

圖五A至圖五D係本發明原始影像經過濾鏡處理後之示意圖。

圖六A至圖六D係本發明合成樣態影像之示意圖。

圖七A至圖七B係本發明依時序合成影像之示意圖。

圖八A至圖八C係本發明辨識樣態影像之示意圖。

圖九A至圖九C係本發明提供使用者操作回饋之示意圖。

圖十A係本發明之可調式網格視訊監控系統架構之示意圖。

圖十B係本發明之影像變動偵測單元架構之示意圖。

圖十C係本發明之樣態分析單元架構之示意圖。

圖十D係本發明之控制訊號產生單元架構之示意圖。

圖十一係本發明中影像被切割為複數個偵測格之示意圖。

圖十二A至圖十二D係本發明各別偵測各偵測格之示意圖。

圖十三A至圖十三D係本發明中使用參考點進行辨識處理之示意圖。

圖十四A至圖十四B係本發明中膚色偵測和動態偵測所得到之樣態影像之示意圖。

圖十五係本發明中連續時點偵測所得之樣態影像軌跡之示意圖。

11、12、13、14、15、16、17‧‧‧流程步驟

Claims

一種可調式網格視訊監控方法，其至少包括以下之步驟：(a)輸入一原始影像；(b)將該影像以寬為m等分及高為n等分之方法，切割為m乘n個矩形，該每一矩形稱之為一偵測格；(c)依據一影像特徵偵測條件，分別偵測各偵測格，符合該條件之偵測格輸出偵測結果值為1，不符合該條件之偵測格輸出偵測結果值為0；(d)將各偵測格之偵測結果值作為畫素值，分別填入一寬為m個畫素及高為n個畫素之樣態影像中之對應位置，以產出一尺寸數倍小於該原始影像之黑白影像；(e)將該黑白樣態影像輸入至一樣態辨識系統，與該樣態辨識系統中預先儲存之複數個尺寸寬為m及高為n之樣態影像進行比對以決定一最可能之樣態；(f)依據該最可能之樣態，比對一對照表以決定應輸出之訊號；及(g)依據步驟(f)所判斷的結果轉換為實際的控制訊號，並發送該控制訊號至一待控制物以控制該待控制物；其中，該步驟(d)更可應用於一動態連續之影像，其係於一特定之時序內，將連續取得之樣態影像，依據預設的由先到後，由弱至強的權重改變像素灰階值，將只有黑白二值的多張影像，合成為一表示動態軌跡的灰階樣態影像。
如申請專利範圍第1項所述之可調式網格視訊監控方法，其中該原始影像可為以下其中之一：一網路攝影機的即時畫面影像、一預錄之影像檔案或一靜態影像。
如申請專利範圍第1項所述之可調式網格視訊監控方法，該原始影像可為經光學濾鏡取得之影像。
如申請專利範圍第1項所述之可調式網格視訊監控方法，於步驟(a)之後更可包括一強化處理該原始影像之步驟，該強化處理該原始影像之步驟可為將該影像透過一數位濾鏡之處理。
如申請專利範圍第3項所述之可調式網格視訊監控方法，其中該光學濾鏡處理之方法可為以下其中之一：過濾特殊可見光、過濾不可見光、偵測人體與動物或過濾特定的紅外線光源。
如申請專利範圍第4項所述之可調式網格視訊監控方法，其中該數位濾鏡可用以偵測以下其中之一：人體膚色之區域、影像變動之差異或物體之邊緣。
如申請專利範圍第1項所述之可調式網格視訊監控方法，其中該步驟(c)對於各偵測格之偵測更可使用一參考點偵測方式，其係當待偵測的對象物有可被辨識的特徵點時，可於該特徵點附近設定至少一個之參考點，並於該參考點所決定之範圍內進行偵測，依據參考點決定截取區域的位置，大小，與旋轉角度。
如申請專利範圍第1項所述之可調式網格視訊監控方法，其中該步驟(e)中，比對後亦可產出一最可能結果之樣態名單，該最可能結果之樣態名單包含複數個最可能結果之樣態，該複數個最可能結果之樣態可與一對照表內複數個訊號項目進行比對以決定一輸出訊號。
如申請專利範圍第1項所述之可調式網格視訊監控方法，其中於該步驟(g)之後更可包括一引導使用者之步驟，該步驟係將判斷結果或者操作引導回饋至操作畫面上，以互動的方式提供使用者的操作協助。
如申請專利範圍第1項所述之可調式網格視訊監控方法，其中，該待控制物可為一硬體裝置或為一軟體。
一種可調式網格視訊監控系統，其至少包括：一影像擷取單元，用以提供一影像；一影像偵測單元，用以偵測該影像之特徵或變動，並產生一樣態影像；一樣態分析單元，用以分析該樣態影像，並產出一樣態比對結果；一控制訊號產生單元，用以將該樣態比對結果轉換為一控制訊號；及一被控制單元，用以接收該控制訊號以控制一受控物。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該影像擷取單元可為以下其中之一：一網路攝影機或一紅外線攝影機，該影像可為以下其中之一：一預錄好的影片檔或一靜態影像。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該影像於該影像擷取單元前，可加掛光學濾鏡以強化待偵測影像特性。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該影像於該影像擷取單元擷取後，可透過一數位濾鏡之處理，該數位濾鏡可用以偵測以下其中之一：人體膚色之區域、影像變動之差異或物體之邊緣。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該影像變動偵測單元更包括一網格式影像變動偵測單元，用以將該影像以寬為m等分及高為n等分之方法，切割為m乘n個矩形單位以偵測該影像之變化，該每一矩形單位為一偵測格(detection cell)，各偵測格經偵測後，產出值為符合或不符合的二值化結果，並將每一偵測格之產出值視為一畫素(Pixel)，以產生一尺寸寬為m及高為n之黑白樣態影像。
如申請專利範圍第15項所述之可調式網格視訊監控系統，其中該網格式影像變動偵測單元更可偵測一動態連續之影像，其係於一特定之時序內，將連續取得之樣態影，依據預設的由先到後，由弱至強的權重，將只有黑白二值的多張影像，合成為一尺寸為m乘n表示動態軌跡的灰階樣態影像。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該影像變動偵測單元更包括一參考點提供單元，該單元可依據待偵測物可被辨識的特徵點提供一參考點，該影像變動偵測單元可依據該參考點之位置於該參考點附近的特定範圍區域內進行影像切割與分格偵測，依據參考點決定截取區域的位置，大小，與旋轉角度。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該樣態分析單元更包括一樣態辨識單元及一樣態影像模型庫，其中，該樣態辨識單元係將一尺寸為m乘n之黑白樣態影像或一尺寸為m乘n之灰階樣態影像與該樣態影像模型庫中預先儲存之複數個尺寸為m乘n之樣態影像進行比對，並產出一最可能之樣態影像或一最可能結果之樣態名單。
如申請專利範圍第18項所述之可調式網格視訊監控系統，其中，該最可能結果之樣態名單包含複數個最可能結果之樣態，該複數個最可能結果之樣態可與一樣態與控制訊號對映表內複數個訊號項目進行比對以決定一控制訊號。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該控制訊號產生單元更包括一樣態與控制訊號對映單元、一樣態與控制訊號對映表及一控制訊號輸出單元，其中，該樣態與控制訊號對映單元用以將一最可能之樣態影像比對結果依據該樣態與控制訊號對映表轉換為一硬體控制訊號或一軟體控制訊號。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其中該被控制單元可為一軟體程式或一硬體裝置。
如申請專利範圍第20項所述之可調式網格視訊監控系統，其中當被控制單元為一軟體程式時，該控制訊號可為一作業系統之訊息(Messages)以傳遞對映之控制訊息。
如申請專利範圍第20項所述之可調式網格視訊監控系統，其中當被控制單元為一硬體裝置時，該控制訊號可為一電壓或一電流值，一特定波形之紅外光或一藍芽訊號。
如申請專利範圍第11項所述之可調式網格視訊監控系統，其更可包括一操作者回饋單元，用以提供一操作者操作之指引，該指引之方法可將一預期之樣態影像疊加於一使用者操作畫面中，該使用者可依據指引之形狀或路線進行動作以完成特定之指令。