TW202009872A

TW202009872A - 基於多重物體之視覺活動識別系統

Info

Publication number: TW202009872A
Application number: TW107130040A
Authority: TW
Inventors: 趙尚威
Original assignee: 趙尚威
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-03-01
Also published as: TWI759534B

Abstract

本發明係關於活動辨識之系統。利用視覺辨識產生視覺資訊產生多物體之種類與空間相關資訊，並利用姿態識別產生各物體之姿態狀態，並利用融合分析將此場景資訊進行識別，產生不僅動作、更是包含環境語意層次之活動識別結果。

Description

基於多重物體之視覺活動識別系統

本發明係關於活動辨識之系統。特別是一種基於視覺進行活動識別之系統。

基於視覺進行活動識別之系統係利用視覺資訊，對視覺資訊中可能活動進行辨別。活動並非單一物體於某一圖框中之動作(Action)，而指由一個或一個以上之物體，其所表現個別、或彼此之間之動作關係所構成之活動(Activity)；如單一物體，以人為例，其動作辨認為跑步；但若進行多物體偵測，如偵測發現一群人皆跑步，則其活動可辨識為馬拉松比賽；若多物體偵測其背景物體在監獄圍牆外，則活動可辨識為逃獄；若偵測人員手中持槍，其後有另一物體為警員在跑步追趕，則活動可辨識為追捕逃犯。而先前技術多為對特定追蹤物體作單一動作之辨識，而非偵測場景與各物體間關係之活動偵測，若僅是先前技術之動作識別，其識別結果於產業利用效益上有限。此外，先前技術專注於追蹤視覺資料中某範圍中某一特定物體，亦造成限制無法達成活動層級之判別能力。另，先前技術多基於以時間為序之動態影像，以時間為序切割為影像序列後，比對前後序列影像，鎖定追蹤物體之相關特徵相對關係後進行動作辨識，此追蹤物體之計算，即在基於時序之多個影像序列之間特徵追蹤比對，往往在動作辨識運算本身以外又額外耗費大量計算，在有限運算資源中難具有追蹤大量物體之能力，造成效能瓶頸與高資源門檻。

本發明即是提出一種活動識別系統，但同時亦可應用於動作辨識，可根據影像資訊產生對場景之各物體與彼此關係之全盤語意型描述，使用此全盤語意描述可產生不只是動作，更是活動層次的識別結果，對於產業在機器視覺的價值與運用層面有大幅提升。且其融合分析過程為靜態影像辨識結果集合之統計，一則不必然需要使用動態影像，二則不需額外在時序影像序列之間進行物體特徵追蹤，對於識別之效率能有大幅度提升，同時能具有辨識影像中大量物體之效能，達成更有效率、更省成本、更高功能的整體果效。本發明對於未來機器智能能具有識別人類較複雜活動、並採取相應反饋與行動，實是關鍵之發展，具有高度產業價值。

視覺感測設備(如相機)接收影像資訊(可為單一靜態影像)之後，將影像資訊送入物體識別單元，物體識別單元運用相關演算法(如機器學習、或基於規則性之運算)，判讀出畫面中之各物件種類、並各物件在畫面中之位置，經處理後，可產生各物體彼此之對應關係(如前後左右上下、並相對距離比例等資訊)，如此便可獲得此影像資訊的場景訊息。另一方面，姿態識別單元可接收視覺感測設備之原始影像資訊，及/或物體識別單元判讀後之部分物體影像資訊，用以辨識各個物體之姿態資訊，如以人體而言，可經由相關演算法(如機器學習，或基於規則性之運算)，產生該人體之姿態判讀，如站躺坐臥；以車輛而言，可為車門打開，車窗搖下等等姿態資訊；姿態識別單元經運算後產生視覺資訊中各物體之姿態狀態。經物體識別單元產生之物體種類資訊、及/或空間相對關係資訊等，加上姿態識別單元產生之各物體狀態資訊，融合分析單元可將該資料進行整合，各物體的情況與彼此之間之相對關係將會明確，此為場景資訊，為語意型資料，而後融合分析單元對於場景資訊進行辨識演算法的運算(如機器學習，或基於規則性之運算)，產生一個活動判讀之結果，此結果便可以進行有價值之各類運用。此系統因此具有辨別整個場景的能力，而非單一物體的單一動作，得以產生活動層次的判讀結果。而產生活動判讀結果之後，系統亦可具有事件判斷之單元，設定相關活動及/或某動作發生時，產生特定的事件通報，事件通報傳輸至相關相應動作的產生設備或模組，以產生相應動作的處理，如發出警報、傳出警告短訊信息、啟動相關致動器或設備等。此外，此系統並不必然需要一連串之動態影像，使用單一靜態影像資訊即可進行判別，但若具有動態影像，亦可採用於增加活動判讀精準度，但不需進行追蹤比對運算，融合分析單元把基於時序為基礎之影像序列所產生出來之物體種類資訊、及/或空間相對關係資訊等，加上各物體狀態資訊，即場景資訊，依各影像序列一次或分次放入相關演算法中判讀，將各影像序列之活動判讀結果進行統計，無須針對各影像序列作物體特徵位置追蹤，若各影像序列判讀結果經簡單統計後可輸出最合適之活動判讀結果，舉例而言，若動態影像切割為若干個靜態影像，而若干個靜態影像產生之場景資訊經由融合分析單元判讀後，將產生相同數量或不同數量之活動判讀結果，將此多個活動判讀結果進行各式演算法統計(例如可用簡單大數法則，多者為贏，產生 100 個活動判讀結果，若90 個為馬拉松，10個為遊行時，取其結果為馬拉松)。此系統將減少物體追蹤之計算耗費，將計算資源保留給辨識計算本身。此外，此系統亦可與其他視覺類型感測器(如紅外線相機、深度相機等)，或非視覺感測器(如裝設在物體上之陀螺儀等)，將感測之相關資料一併帶入融合分析單元，由融合分析單元加入額外之相關演算法進行運算。除此之外，融合分析單元亦可為一獨立之伺服器及/或雲端系統，相關場景資料可結由有線網路、無線網路、或其他相關電波、光波等之傳輸方式彼此連結，進行更有效率或安全之計算。然而，應理解，雖然詳細說明及具體實例指示本發明之較佳實施例，但其僅以圖解說明之方式給出，此乃因熟習此項技術者將自此詳細說明明瞭本發明之範疇內之各種改變及修改。因此，應理解，本發明並不限於所闡述之裝置之特定組件部分或所闡述之方法之步驟，此乃因此類裝置及方法可變化。亦應理解，本文中所使用之術語僅係出於闡述特定實施例之目的並不意欲具限制性。必須注意，如本說明書及隨附申請專利範圍中所使用，除非內容脈絡另外明確規定，否則冠詞「一」及「該」意欲意指存在元件中之一或多者。因此，舉例而言，提及「一單元」或「該單元」可包含數個裝置等。此外，詞語「包括」、「包含」、「含有」及類似措辭不排除其他元件或步驟。

綜合以上所述，本發明基於基於多重物體之視覺活動識別系統，進行物體種類與空間相對關係辨認、各物體姿態辨識與彙整，產生語意型的場景資訊，進而進行活動層次之識別，達成機器智能基於人類較複雜活動之辨識、而能採取相應反饋與行動，實是非常關鍵的發展。其特性不但增加現有產業對於活動識別之技術，並且可擴大現有影像辨識技術可完成之應用，如偵蒐、探勘、保安、生產監控、居家醫療等等，實具高度產業利用性，其融合分析，不僅使用靜態影像即可運作，且得以在動態影像中使用非追蹤之簡單統計方式產生結果，更是現有技術中尚未達到者，實具有新穎性與進步性。總結而言，本案實為具新穎性、進步性，及產業上應用價值之發明，已符合發明專利之要件，遂依法提出專利申請。惟上述者只為本發明之較佳實施方式，不能以此限制本發明之申請專利範圍，舉凡援依本發明之精神而實施等效變化或修飾者，仍皆應涵蓋於本發明專利涵蓋之範圍內。

現將以所附圖式更全面闡述本發明，其中展示本發明之當前較佳實施例之。但本發明可以諸多不同形式體現且不應被解釋為限於本文中所陳述之實施例；此等實施例係為透徹及完整起見而提供，將本發明之範疇完全傳達給熟習此項技術者。圖1在說明可基於多重物體之視覺活動識別系統10，該系統包括一數位網路相機110，其影像資料經由傳輸介面傳至物體識別單元120，傳輸介面係使用有線網路或無線網路或匯流排或其他光波電波方式連接。物體識別單元120將影像資訊中物體進行識別，產生一物體識別資料結構為例如圖2，為一圖論(graph theory)中之圖(graph)結構，包含物體種類與空間位置為節點，透過邊(edge)彼此相連，邊具有其特性表示關係(如前後左右上下)，並可帶有距離資訊(以該靜態圖片比例計算，如百分之一即代表兩物體相距距離為圖片之百分之一)，此資料結構可連同影像資訊傳至融合分析單元140，傳輸介面係前述數位網路相機110與物體識別單元120之連結方式。姿態識別單元130係接收影像資訊從數位網路相機110及/或物體識別資料結構從物體識別單元120，而後經運算後產生各物體的姿態資訊，並將各物體的姿態資訊經由傳輸介面傳至融合分析單元140，融合分析單元140將圖2之資料結構加上各物體姿態資訊進行整合之後，即產生場景資訊，為一語意型而非影像型資料，場景資訊即可使用相關演算法(如seq2seq, RNN等語意型演算法)進行辨識，取得活動識別之結果。此結果透過傳輸介面傳輸至事件判斷單元20，事件判斷單元中存有規則資料庫，若動作識別之結果符合規則資料庫中觸發事件之條件，事件判斷單元20即可啟動相關對應動作。

10‧‧‧視覺活動識別系統110‧‧‧視覺感測設備(如數位網路相機)120‧‧‧物體識別單元130‧‧‧姿態識別單元140‧‧‧融合分析單元20‧‧‧事件判斷單元

[第1圖]係根據本發明之一視覺活動識別系統架構圖。 [第2圖]係本發明之物體識別單元產生之物體種類與空間關係資料結構示例圖。

10‧‧‧視覺活動識別系統

110‧‧‧視覺感測設備(如數位網路相機)

120‧‧‧物體識別單元

130‧‧‧姿態識別單元

140‧‧‧融合分析單元

20‧‧‧事件判斷單元

Claims

一種可基於多重物體之視覺活動識別系統，係至少包含：至少一個視覺感測設備；一物體識別單元，係與該視覺感測設備連結，根據其提供之資料，用以將包含於視覺資訊中之一個或多個物體進行物體辨識，產生視覺資訊中之一個或多重物體種類及/或空間資訊及/或物體間彼此空間關係；一姿態識別單元，係與該視覺感測設備及/或物體識別單元相連接，用以將從視覺動作識別設備及/或物體識別單元輸出之視覺資訊，進行包含一個或多個物體之姿態判別；一融合分析單元，係與姿態識別單元及/或物體識別單元相連結，用以將一個或多個物體之種類及/或姿態判別資料及/或空間資訊及/或物體間空間關係之所有或部分資訊進行計算分析，產生對視覺資料之活動及/或動作判別結果；
如請求項1所述之視覺活動識別系統，更連接一事件判斷單元，當活動及/或動作結果符合設定之條件時，觸發相應處理動作。
如請求項2所述之視覺活動識別系統，其事件判斷單元設定之條件為一個或多個，條件所相應之物體亦為一個或多個。
如請求項1所述之視覺活動識別系統，其中視覺感測設備為動態影像感測設備。
如請求項4所述之視覺活動識別系統，其中融合分析單元將一定數量之切分基於時序之靜態影像經物體識別單元及/或姿態識別單元輸出之結果，進行計算分析。
如請求項5所述之視覺活動識別系統，其計算係以總採樣數與各樣本活動之結果數作統計計算，以產生最後之活動識別結果。
如請求項1所述之視覺活動識別系統，係連結其他視覺及/或非視覺類型感測器，經融合分析單元一併分析。
如請求項1所述之視覺活動識別系統，其中融合分析單元為一獨立伺服器及/或雲端計算環境，透過網路、電波、或其他載體之傳輸方式進行連結。