TW201820264A

TW201820264A - 在視訊序列中的動作辨識

Info

Publication number: TW201820264A
Application number: TW106136282A
Authority: TW
Inventors: 尼可拉斯丹尼歐森; 賽門莫林
Original assignee: 瑞典商安訊士有限公司
Priority date: 2016-11-14
Filing date: 2017-10-23
Publication date: 2018-06-01
Also published as: KR20180054453A; US10691949B2; TWI706377B; EP3321844A1; CN108073890B; JP2018125841A; US20180137362A1; KR102156818B1; CN108073890A; JP6963467B2; EP3321844B1

Abstract

本發明係關於一種用於在一視訊序列中進行動作辨識之系統。該系統包括經組態以擷取該視訊序列之一相機(100)及經組態以執行動作辨識之一伺服器(200)。該相機包括：一物件識別器(124)，其經組態以在該視訊序列之一物件影像圖框中識別一所關注物件；一動作候選者辨識器(126)，其經組態以將一第一動作辨識演算法應用於該物件影像圖框且藉此偵測一動作候選者之存在；一視訊提取器(127)，其經組態以藉由自該視訊序列提取與複數個影像圖框有關之視訊資料而產生一動作視訊序列之動作影像圖框，其中自其提取該等視訊資料之該複數個影像圖框中之一或多者包括該所關注物件；及一網路介面(130)，其經組態以將該動作視訊序列傳送至該伺服器。該伺服器包括一動作驗證器(210)，該動作驗證器(210)經組態以將一第二動作辨識演算法應用於該動作視訊序列且藉此驗證或否定該動作候選者係一動作。本發明亦呈現一種用於在一視訊序列中進行動作辨識之方法。

Description

在視訊序列中的動作辨識

本發明係關於在一視訊序列中進行動作辨識。

在一視訊序列中進行動作辨識係在視訊序列中偵測特定預定義動作之任務。待偵測之動作實例可係(例如)人打鬥、跑步、吃、玩一體育比賽。動作辨識通常需要極大處理能力，該極大處理能力使在擷取視訊序列之數位攝影機上執行動作辨識變得不適合。相反，動作辨識通常係由具有所需處理能力之一伺服器執行。然而，經由數位網路發送大量視訊需要許多頻寬。因此，需要一視訊序列中之經改良動作辨識。

鑒於上述內容，本發明之一目標係提供一視訊序列中之經改良動作辨識。根據一第一態樣，提供一種用於在由一相機擷取之一視訊序列中進行動作辨識之方法。該方法包括：藉由該相機之電路進行以下操作：在該視訊序列之一物件影像圖框中識別一所關注物件；將一第一動作辨識演算法應用於該影像圖框且藉此偵測一動作候選者之存在；藉由自該視訊序列提取與複數個影像圖框有關之視訊資料而產生一動作視訊序列之影像圖框，其中自其提取該等視訊資料之該複數個影像圖框中之一或多者包括該所關注物件；及將該動作視訊序列傳送至經組態以執行動作辨識之一伺服器；藉由該伺服器之電路進行以下操作：將一第二動作辨識演算法應用於該動作視訊序列且藉此驗證或否定該動作候選者係一預定義類型之一動作。用於動作辨識之本方法係有益的，此乃因其允許用於動作辨識所需之處理能力分佈於兩個不同裝置上而不會出現在相機與伺服器之間的通信中佔用過多頻寬之問題。此外，用於動作辨識之本方法使執行處理器密集型之動作辨識而不會使相機之處理器負荷過大且同時不必使視訊序列持續不斷串流湧至伺服器成為可能。因此，本方法允許在相機上本端地使用一處理要求不太高之第一類型之動作辨識演算法且在伺服器上使用一處理要求更高之第二類型之動作辨識演算法。藉由提取且僅發送動作視訊序列而非一持續視訊串流，可節約頻寬。根據用於動作辨識之本方法，可在相機處偵測一候選動作。候選動作觸發將動作視訊序列傳送至伺服器，其中執行一更高級動作辨識分析。因此相機上動作辨識之目的係觸發對動作候選者之偵測。對動作候選者之偵測觸發將動作視訊序列傳送至伺服器以供進一步分析、驗證或否定動作候選者係一實際動作。第一動作辨識演算法可主要基於使用物件影像圖框中之情境及/或空間資訊之一情境及/或空間動作辨識演算法。情境及/或空間動作辨識演算法通常無太高之處理能力要求。因此，使用彼種類之演算法動作辨識更易於在相機本端上進行。第二動作辨識演算法可主要基於使用動作視訊序列之複數個影像圖框之時間資訊之一時間動作辨識演算法。時間動作辨識演算法在辨識動作方面通常更準確。因此，可執行一更準確動作辨識。產生動作影像圖框之該行動可包括修剪視訊序列之該複數個影像圖框，使得包括所關注物件之動作影像圖框包括所關注物件之至少一部分。此可節約相機與伺服器之間的頻寬。產生動作影像圖框之該行動可包括修剪視訊序列之該複數個影像圖框，使得包括該所關注物件之動作影像圖框包括至少部分地環繞該所關注物件之背景之一部分。藉由併入至少部分地環繞該所關注對之背景，不僅可對動作視訊序列執行時間分析而且可執行情境及/或空間分析。傳送動作視訊序列之該行動可包括傳送該所關注物件在動作視訊序列內之座標。座標可係指哪一影像圖框或哪些影像圖框包括所關注物件及/或所關注物件在各別影像圖框中之位置。該方法可進一步包括藉由相機之電路在視訊序列中偵測一所關注物件。產生動作影像圖框之該行動可包括提取與視訊序列之第一預定數目個影像圖框有關之視訊資料，該第一預定數目個影像圖框與偵測到該所關注物件之前的一時間點相關。產生動作影像圖框之該行動可包括提取與該視訊序列之第二預定數目個影像圖框有關之視訊資料，該第二預定數目個影像圖框與偵測到該所關注物件之後的一時間點相關。此允許提高將將在伺服器處被辨識之動作之正確時間窗發送至伺服器之可能性。相機及伺服器可係定位於距彼此一定距離處之單獨有形實體。相機與伺服器可經組態以經由一數位網路彼此通信。根據一第二態樣，一種用於在一視訊序列中進行動作辨識之系統。該系統包括：一相機，其經組態以擷取該視訊序列；及一伺服器，其經組態以執行動作辨識。該相機包括：一物件識別器，其經組態以在該視訊序列之一影像圖框中識別一所關注物件；一動作候選者辨識器，其經組態以將一第一動作辨識演算法應用於該物件影像圖框且藉此偵測一動作候選者之存在；一視訊提取器，其經組態以藉由自該視訊序列提取與複數個影像圖框有關之視訊資料而產生一動作視訊序列之影像圖框，其中自其提取該等視訊資料之該複數個影像圖框中之一或多者包括該所關注物件；及一網路介面，其經組態以將該動作視訊序列傳送至該伺服器。該伺服器包括一動作驗證器，其經組態以將一第二動作辨識演算法應用於該動作視訊序列且藉此驗證或否定該動作候選者係一預定義類型之一動作。該視訊提取器可進一步經組態以修剪該視訊序列之複數個影像圖框，使得包括所關注物件之動作影像圖框包括該所關注物件之至少一部分。該視訊提取器可進一步經組態以修剪該視訊序列之該複數個影像圖框，使得包括該所關注物件之該等動作影像圖框包括至少部分地環繞該所關注物件之背景之一部分。該物件識別器可進一步經組態以在該視訊序列中偵測一所關注物件。該視訊提取器可進一步經組態以提取與該視訊序列之第一預定數目個影像圖框有關之視訊資料，該第一預定數目個影像圖框與偵測到該所關注物件之前的一時間點相關。該視訊提取器可進一步經組態以提取與該視訊序列之第二預定數目個影像圖框有關之視訊資料，該第二預定數目個影像圖框與偵測到該所關注物件之後的一時間點相關。該方法之上述特徵在適用時亦應用於此第二態樣。為了避免過度重複，參考上文。依據下文所給出之詳細說明，本發明之適用性之一進一步範疇將變得顯而易見。然而，應理解，雖然詳細說明及具體實例指示本發明之較佳實施例，但其僅以圖解說明之方式給出，此乃因熟習此項技術者將自此詳細說明明瞭本發明之範疇內之各種改變及修改。因此，應理解，本發明並不限於所闡述之裝置之特定組件部分或所闡述之方法之步驟，此乃因此類裝置及方法可變化。亦應理解，本文中所使用之術語僅係出於闡述特定實施例之目的並不意欲具限制性。必須注意，如本說明書及隨附申請專利範圍中所使用，除非內容脈絡另外明確規定，否則冠詞「一(a、an)」及「該(the、said)」意欲意指存在元件中之一或多者。因此，舉例而言，提及「一單元」或「該單元」可包含數個裝置等。此外，詞語「包括」、「包含」、「含有」及類似措辭不排除其他元件或步驟。

現在將在下文中參考隨附圖式更全面地闡述本發明，其中展示本發明之當前較佳實施例之。然而，本發明可以諸多不同形式體現且不應被解釋為限於本文中所陳述之實施例；而是，此等實施例係為透徹及完整起見而提供且將本發明之範疇完全傳達給熟習此項技術者。圖1圖解說明用於在一視訊序列中進行動作辨識之一系統。該系統包括一數位網路相機100及一伺服器200。數位網路相機100經由一數位網路300連接至伺服器200。數位網路相機100與伺服器200係定位於距彼此一定距離處且經組態以經由數位網路300彼此通信之單獨有形實體。數位網路300係關於允許與裝置(例如，數位網路相機100及伺服器200)連接以交換數位資料之一網路。連接至數位網路300之裝置之間的連接係使用電纜或以無線方式建立。數位網路之非限制性實例係網際網路、一內部網路、一區域網路及一蜂巢式網路。數位網路之部分可係一私用數位網路。數位網路之部分可係一公用數位網路。私用數位網路可藉由一網路存取限制裝置(未展示)連接至公用數位網路。網路存取限制裝置可係經安裝以保護私用數位網路之一防火牆。網路存取限制裝置可係執行網路位址轉譯NAT之一裝置。數位網路相機100經配置以擷取繪示一場景之一視訊序列。數位網路相機100包括一外殼112、一透鏡114及電路102。數位網路相機100經配置以擷取且處理(且可能亦儲存)視訊序列。電路102包括一影像感測器116、一影像處理單元118、一物件識別器124、一動作候選者辨識器126、一視訊提取器127及一網路介面130。電路102可進一步包括一中央處理單元CPU 120、一數位資料儲存媒體(記憶體) 122及一編碼單元128中之一或多者。影像處理單元118、物件識別器124、動作候選者辨識器126、視訊提取器127及/或編碼單元128中之任一者可實施為一專用硬體電路及/或軟體模組。若實施為軟體，則可在CPU 120上執行該軟體。CPU 120可係用於執行數位資料處理之任何適合CPU。亦應注意，任何專用硬體電路可部分地包括在一專用處理器上或在CPU 120上執行之軟體部分。記憶體122可係任何種類之揮發性或非揮發性記憶體。此外，記憶體122可包括複數個記憶體單元。該複數個記憶體單元中之至少一者可用作用於緩衝資料同時處理(例如)視訊序列之內容之一緩衝記憶體。數位網路相機100經配置以經由網路介面130連接至數位網路300。與數位網路之連接可係有線的或無線的。因此，網路介面130可係適於10/100/1000 Mbps資料流量之一網路埠，諸如一乙太網埠，即經配置以接收一模組化連接器(例如，一RJ45連接器)之一模組化埠。通常，此一RJ45連接器埠經配置以接收一網路電纜，諸如(例如，屬於第5類、第5e類或第6類之)一雙絞線電纜。另一選擇係，網路埠之I/O構件可係使用行動網際網路通信標準(例如，1G、2G、2.5G、2.75G、3G、3.5G、3.75G、3.9G、4G、5G)或使用WiFi之一無線I/O構件。相機組件，亦即透鏡114及影像感測器116，可經配置以擷取原始影像，其中每一原始影像可被闡述為不同波長之光且源自於不同物件及物件之部分。接著，將此等原始影像自類比格式轉換成數位格式且傳送至影像處理單元118中。根據此實施例，數位網路相機100係經配置以擷取攝影影像之一相機。另一選擇係或與此配套者係，數位網路相機100之影像感測器116可經配置以擷取熱影像。又一選擇係或與此配套者係，數位網路相機100之影像感測器116可經配置以擷取雷達影像。因此，數位網路相機100所擷取之視訊序列可係攝影影像之一表示、熱影像之一表示、雷達影像之一表示或上述各項之一組合。物件識別器124經組態以在相機100所擷取之視訊序列中偵測所關注物件。所關注物件可係(例如)一人、一臉、一車輛、一運送帶上之一產品、一動物、地形組分、武器等。物件識別器124可進一步經組態以對偵測到之所關注物件進行分類。所關注物件可(例如)被分類為屬一具體物件類型。具體物件類型之實例係：人、臉、車輛、一具體類型之產品。物件識別器124可進一步經組態以識別在視訊序列中首先偵測到所關注物件之一時間點。與此結合，記憶體122可進一步用作經組態以儲存預定數目個影像圖框之一影像圖框緩衝器。因此，表示在視訊序列中首先偵測到所關注物件之時間點之前的影像圖框的影像圖框可儲存於用作影像圖框緩衝器之記憶體122中。物件識別器124進一步經組態以識別視訊序列之一或多者影像圖框中之所關注物件，其中已識別一所關注物件之一影像圖框在本文中將被稱為一物件影像圖框。在一視訊序列中之動作辨識係在視訊序列中偵測一或多種預定義類型之動作之任務。預定義類型之動作實例係：人們打鬥、跑步、吃、玩一具體遊戲等。預定義類型之其他動作實例係：醉駕偵測、跳躍偵測、憤怒偵測、微笑偵測、手信號偵測、跌倒偵測、盤旋偵測、步態偵測、威脅行為偵測、嫌疑行為偵測(例如，反常或不平常行為偵測)。可藉由靜止影像情境及/或空間分析或者時間分析(或以上兩種分析之一組合)來執行動作辨識。對靜止影像(例如，一視訊序列之一單個影像圖框)執行情境及/或空間動作辨識演算法。對一視訊序列之複數個影像圖框執行時間動作辨識演算法。 Georgia Gkioxari、Ross Girshick及Jitendra Malik在「Contextual Action Recognition with R*CNN」預印本1505.01197中揭示了一情境動作辨識演算法之一實例。舉例而言，在CN102855462中、CN103106394中以及Karen Simonyan 及Andrew Zisserman的「Two-Stream Convolutional Networks for Action Recognition in Videos」預印本1406.2199中闡述了動作辨識演算法之另一些實例：情境及/或空間動作辨識演算法以及時間動作辨識演算法兩者。因此，動作辨識具有兩種主要方法；靜止影像情境及/或空間分析以及時間分析。而最具前景之方法使用時間分析作為一主要動作辨識演算法，靜止影像方法在某些情形中效果極好。然而，時間動作辨識很困難且涉及使用(例如)遞回類神經網路之處理極密集型演算法。此使得不適合於對嵌入式裝置(諸如，數位網路相機100)執行此等時間動作辨識演算法。本發明針對使用情境及/或空間動作辨識演算法(通常，具備合理之處理密集度)與處理密集型時間動作辨識演算法之間的合併。對數位網路相機100執行一第一動作辨識演算法以發現動作候選者且對伺服器200執行一第二動作辨識演算法以驗證或否定動作候選者係一實際動作。第二動作辨識演算法具有比第一動作辨識演算法更高之處理要求。第一動作辨識演算法主要基於情境及/或空間動作辨識。作為一非限制性實例，第一動作辨識演算法可僅基於一情境及/或空間動作辨識演算法。第二動作辨識演算法主要基於時間動作辨識。然而，第二動作辨識演算法可包括情境及/或空間動作辨識之元素。動作候選者辨識器126經組態以將第一動作辨識演算法應用於由物件識別器124識別之物件影像圖框中之至少一者。藉由應用該第一動作辨識演算法，偵測到一動作候選者之存在。由動作候選者辨識器126執行之第一動作辨識演算法分析不需要偵測動作類型。其僅需要偵測同屬之動作候選者。然而，第一動作辨識演算法可經組態以對不同類型之動作進行篩選。因此，藉由應用第一動作辨識演算法可偵測到一預定類型動作之一動作候選者之存在。藉由應用第一動作辨識演算法，動作候選者辨識器126可經組態以偵測可能指示一動作之不平常姿勢。因此，發現一動作之一動作候選者。此外，動作候選者辨識器126可經組態以篩選所偵測姿勢以便發現一預定義類型之一動作之一動作候選者。第一動作辨識演算法係一相對輕型演算法。錯誤肯定在某種程度係可接受的。對一動作候選者之偵測促進使用第二動作辨識演算法之一更高級動作辨識分析。因此，動作候選者辨識器126經組態以觸發可能的動作提議，或其在本文中被稱為動作候選者。偵測一動作候選者會觸發將一動作視訊序列(係包括該動作候選者之視訊序列之一部分)發送至伺服器200，以藉由將第二動作辨識演算法應用於該動作視訊序列而判定該動作候選者是否係一實際動作。視訊提取器127經組態以產生動作視訊序列之動作影像圖框。動作視訊序列係包括動作候選者之視訊序列之一部分。動作視訊序列可具有與視訊序列相同之圖框速率。動作視訊序列可具有比視訊序列之圖框速率小之一圖框速率，亦即動作視訊序列所具有之一圖框速率具有比視訊序列低之一圖框數/秒fps。舉例而言，視訊序列之圖框速率可係60 fps且動作視訊序列之圖框速率可係30 fps。動作視訊序列之影像圖框(本文中稱為動作影像圖框)係藉由提取與來自視訊序列之複數個影像圖框有關之視訊資料而產生。視訊提取器127經組態使得自其提取視訊資料之該複數個影像圖框中之一或多者包括所關注物件。因此，該複數個動作影像圖框中之至少一或多者係物件影像圖框。視訊提取器127可進一步經組態以提取與視訊序列之第一預定數目個影像圖框有關之視訊資料，該第一預定數目個影像圖框與在視訊序列中首先偵測到所關注物件之所識別時間點之前的一時間點相關。因此，視訊序列之影像圖框可交存於記憶體122中以供稍後用於動作視訊序列中。此允許包含以下兩者：包括所關注物件、觸發第一動作辨識演算法之執行之物件影像圖框及在包含於動作視訊序列中之物件影像圖框之前的影像圖框。此提高以下可能性：動作視訊序列之時間窗包括與由所關注物件執行之動作有關之所有相關資訊。作為一非限制性實例，可取決於所關注物件之類型或動作候選者之動作類型中之一或多者而設定影像圖框之第一預定數目。此外，作為另一非限制性實例，對目標及(在可能情況下)其周圍環境之一運動分析可用於揭示一動作候選者在哪一較早影像圖框處開始。藉此，可自一相對大預緩衝器僅提取實際上可能與第二動作辨識相關之影像圖框。因此，可動態地設定影像圖框之第一預定數目。視訊提取器127可進一步經組態以提取與視訊序列之第二預定數目個影像圖框有關之視訊資料，該第二預定數目個影像圖框與在視訊序列中偵測到所關注物件之所識別時間點之後的一時間點相關。此允許包含以下兩者：包括所關注物件、觸發第一動作辨識演算法之執行之物件影像圖框及在包含於動作視訊序列中之物件影像圖框之後的影像圖框。此提高以下可能性：動作視訊序列之時間窗包括與由所關注物件執行之動作有關之所有相關資訊。可取決於所關注物件之類型或動作候選者之動作類型中之一或多者而設定影像圖框之第二預定數目。此外，作為另一非限制性實例，對目標及在(在可能情況下)其周圍環境之一運動分析可用於揭示動作候選者在哪一影像圖框處結束。藉此，可僅提取實際上可能與第二動作辨識相關之影像圖框。因此，可動態地設定影像圖框之第二預定數目。視訊提取器127可進一步經組態以提取與所關注物件在動作視訊序列內之座標有關之資訊。座標可係指包括所關注物件之彼(等)影像圖框及/或所關注物件在各別影像圖框中之位置。此等座標可與動作視訊序列一起被傳送至伺服器。視訊提取器127可進一步經組態以在產生動作影像圖框時修剪該複數個影像圖框之視訊資料。該複數個影像圖框之視訊資料可經修剪，使得包括所關注物件之動作影像圖框包括所關注物件之至少一部分。此外，該複數個影像圖框之視訊資料可經修剪，使得包括所關注物件之動作影像圖框包括至少部分地環繞所關注物件之背景之一部分。藉由併入至少部分地環繞所關注物件之背景，不僅可對動作視訊序列執行時間分析而且可執行情境及/或空間分析。編碼單元128經配置以使用視訊編碼法來對一視訊序列之數位視訊資料進行編碼。視訊編碼之非限制性實例係ISO/MPEG或ITU-H.26X家族之視訊編碼標準。編碼單元128經配置以對數位視訊資料之影像進行編碼，後文被稱為經編碼數位視訊資料。經編碼數位視訊資料可經由網路介面130而直接在一數位網路300上傳輸。另一選擇係，經編碼數位視訊資料可儲存於記憶體122中以供稍後經由網路介面130在數位網路300上傳輸。編碼單元128可經組態以在動作視訊序列被傳送至伺服器200之前對動作視訊序列進行編碼。網路介面130經組態以將動作視訊序列傳送至伺服器200。伺服器200包括電路201，電路201包括一動作驗證器210。電路201可進一步包括一網路介面202、一解碼單元204、一中央處理單元CPU 206及一數位資料儲存媒體(記憶體) 208中之一或多者。解碼單元204及/或動作驗證器210中之任一者可實施為一專用硬體電路及/或軟體模組。若被實施為軟體，則可在CPU 206上執行該軟體。CPU 206可係用於執行數位資料處理之任何適合CPU。亦應注意，任何專用硬體電路可部分地包括在一專用處理器上或在CPU 206上被執行之軟體部分。伺服器200經配置以經由網路介面202連接至數位網路300。與數位網路之連接可係有線的或無線的。因此，網路介面202可係適於10/100/1000 Mbps資料流量之一網路埠，諸如經配置以接收一模組化連接器(例如，一RJ45連接器)之一乙太網埠、一模組化埠。通常，此一RJ45連接器埠經配置以接收一網路電纜，諸如一雙絞線電纜(例如，屬於第5類、第5e類或第6類者)。另一選擇係，網路埠之I/O構件可係使用行動網際網路通信標準(例如，1G、2G、2.5G、2.75G、3G、3.5G、3.75G、3.9G、4G、5G)或使用WiFi之一無線I/O構件。若動作視訊序列被編碼，則解碼單元204經組態以對經編碼視訊序列進行解碼。因此，解碼單元204經配置以使用視訊解碼法來對一視訊序列之數位視訊資料進行解碼。記憶體122可係任何種類之揮發性或非揮發性記憶體。此外，記憶體122可包括複數個記憶體單元。該複數個記憶體單元中之至少一者可用作用於緩衝資料同時處理(例如)動作視訊序列之一緩衝記憶體。記憶體122可進一步儲存動作視訊序列之整體或部分。動作驗證器210經組態以將第二動作辨識演算法應用於動作視訊序列。藉此可驗證或否定動作候選者係一實際動作。尤其是，可驗證或否定動作候選者係一預定義動作類型之一動作。由動作驗證器210執行之動作辨識不必即時執行。此乃因該動作係一短時的而非持續不斷進行的事件，且重要的事情係獲悉是否應發出一具體動作類型之一警報。參考圖2，用於由相機100擷取之一視訊序列中的動作辨識之一方法。該方法包括由相機(100)之電路102執行以下操作：在視訊序列之一物件影像圖框中識別S501一所關注物件；將第一動作辨識演算法應用S502於物件影像圖框且藉此偵測一動作候選者之存在；藉由自視訊序列提取與複數個影像圖框有關之視訊資料而產生S504一動作視訊序列之動作影像圖框，其中自其提取視訊資料之該複數個影像圖框中之一或多者包括所關注物件。將動作視訊序列傳送S506至伺服器200。該方法進一步包括：由伺服器200之電路201將第二動作辨識演算法應用S508於動作視訊序列且藉此驗證或否定該動作候選者係一預定義類型之一動作。產生S504動作影像圖框之行動可包括修剪視訊序列之該複數個影像圖框，使得包括所關注物件之動作影像圖框包括所關注物件之至少一部分。產生S504動作影像圖框之行動可包括修剪視訊序列之該複數個影像圖框，使得包括所關注物件之動作影像圖框包括至少部分地環繞所關注物件之背景之一部分。傳送506動作視訊序列之行動可包括將動作視訊序列內之座標傳送至所關注物件。座標可係指包括所關注物件之彼(等)影像圖框及/或所關注物件在各別影像圖框中之位置。該方法可進一步包括由相機100之電路102偵測S500視訊序列中之一所關注物件。產生S504動作影像圖框之行動可包括提取與視訊序列之第一預定數目個影像圖框有關之視訊資料，該第一預定數目個影像圖框與偵測到所關注物件之前的一時間點相關。產生S504動作影像圖框之行動可包括提取與視訊序列之第二預定數目個影像圖框有關之視訊資料，該第二預定數目個影像圖框與偵測到所關注物件之後的一時間點相關。熟習此項技術者應認識到，本發明決不限於上文所闡述之較佳實施例。相反，在隨附申請專利範圍之範疇內諸多修改及變化係可能的。舉例而言，在驗證動作候選者係一實際動作之後，伺服器200可經組態以發出一警報觸發。可將警報觸發發送至數位網路相機100以供在其中進行進一步處理。舉例而言，數位網路相機100可經組態以在接收到警報觸發之後改變一相機設定。可改變相機設定之非限制性實例係：圖框速率、解析度、光敏感度，至HDR之切換，以一標準訊息觸發連接至相機之一揚聲器，對所關注物件開啟PTZ追蹤，觸發所偵測目標之一高級外觀模型之產生，使得其可經由數個相機被追蹤，開啟雷達追蹤，至熱模式之切換，改變臨限值以供進一步動作辨識或對一相關類型之一後續動作之檢查(舉例而言，若一人跌倒，則開始搜尋動作「再次站起」，且若其在特定時間臨限值內未起身則觸發一警報)。另一選擇係或與此配套者係，可將警報觸發發送至一視訊管理中心VMS。警報觸發可在VMS處用於發送一預定義類型之一動作已發生之通知。此外，伺服器200可以各種類型之裝置來實施。被實施為伺服器200之裝置之非限制性實例係一專用電腦、另一相機裝置、一視訊管理系統、一雲伺服器、靠近相機之一分析盒、一存取控制單元、具有計算能力之一IoT裝置。此外，伺服器功能性可分佈於不同裝置上。尤其是在動作驗證器210至少部分地被實施為在複數個處理器執行之軟體程式碼部分的情形中。此外，可在視訊序列之複數個物件影像圖框中識別所關注物件。然後，可將第一動作辨識演算法個別地應用於該複數個物件影像圖框中之每一者。然後，第一動作辨識演算法之個別應用之結果可用於發現動作候選者。舉例而言，對複數個影像進行個別分析可揭示一人之腿始終處於不同角度中。此可指示該人可能正在行走或甚至跑步。此後，藉由自視訊序列提取與複數個影像圖框有關之視訊資料而產生動作視訊序列之動作影像圖框，其中自其提取視訊資料之該複數個影像圖框中之一或多者包括所關注物件。另外，依據對圖式、揭示內容及隨附申請專利範圍之研究，熟習此項技術者在實踐所主張之本發明時可理解且實現所揭示實施例之變化。

100‧‧‧相機/數位網路相機

102‧‧‧電路

112‧‧‧外殼

114‧‧‧透鏡

116‧‧‧影像感測器

118‧‧‧影像處理單元

120‧‧‧中央處理單元

122‧‧‧數位資料儲存媒體/記憶體

124‧‧‧物件識別器

126‧‧‧動作候選者辨識器

127‧‧‧視訊提取器

128‧‧‧編碼單元

130‧‧‧網路介面

200‧‧‧伺服器

201‧‧‧電路

202‧‧‧網路介面

204‧‧‧解碼單元

206‧‧‧中央處理單元

208‧‧‧數位資料儲存媒體/記憶體

210‧‧‧動作驗證器

300‧‧‧數位網路

現在將參考展示本發明之實施例之隨附圖式更詳細地闡述本發明之以上態樣及其他態樣。各圖不應被視為將本發明限制於具體實施例；而是其等用於闡釋及理解本發明。如圖中所圖解說明，層及區域之大小可出於說明性目的而被放大且經提供以圖解說明本發明之實施例之一般性結構。通篇中，相似元件符號係指相似元件。圖1圖解說明用於在一視訊序列中進行動作辨識之一系統。圖2係用於在一視訊序列中進行動作辨識之一方法之一方塊方案。

Claims

一種用於在由一相機(100)擷取之一視訊序列中進行動作辨識之方法，該方法包括：藉由該相機(100)之電路(102)進行以下操作：在該視訊序列之一影像圖框中識別一所關注物件；將一第一動作辨識演算法應用於其中該所關注物件被識別出之該影像圖框且藉此偵測一動作候選者之存在，其中該第一動作辨識演算法主要基於使用該視訊序列之一單個影像圖框中之情境及/或空間資訊之一靜止影像情境及/或空間動作辨識演算法，該單個影像圖框包括該所關注物件；藉由自該視訊序列提取與複數個影像圖框有關之視訊資料而產生一動作視訊序列之影像圖框，其中自其提取該等視訊資料之該複數個影像圖框中之一或多者包括該所關注物件；及將該動作視訊序列傳送至經組態以執行動作辨識之一伺服器(200)；且藉由該伺服器之電路(201)進行以下操作：將一第二動作辨識演算法應用於該動作視訊序列且藉此驗證或否定該動作候選者係一預定義類型之一動作。
如請求項1之方法，其中該第二動作辨識演算法主要基於使用該動作視訊序列之複數個影像圖框之時間資訊之一時間動作辨識演算法。
如請求項1之方法，其中產生該動作視訊序列之該等影像圖框之該行動包括修剪該視訊序列之該複數個影像圖框，使得包括該所關注物件之該等影像圖框包括該所關注物件之至少一部分。
如請求項3之方法，其中包括該所關注物件的該動作視訊序列之該等影像圖框包括至少部分地環繞該所關注物件之背景之一部分。
如請求項1之方法，其中傳送該動作視訊序列之該行動包括傳送該所關注物件在該動作視訊序列內之座標。
如請求項1之方法，其中該方法進一步包括，藉由該相機之該電路進行以下操作：在該視訊序列中偵測一所關注物件，其中產生該動作視訊序列之該等影像圖框之該行動包括提取與該視訊序列之第一預定數目個影像圖框有關之視訊資料，該第一預定數目個影像圖框與偵測到該所關注物件之前的一時間點相關。
如請求項1之方法，其中該方法進一步包括，藉由該相機之該電路進行以下操作：在該視訊序列中偵測一所關注物件，其中產生該動作視訊序列之該等影像圖框之該行動包括提取與該視訊序列之第二預定數目個影像圖框有關之視訊資料，該第二預定數目個影像圖框與偵測到該所關注物件之後的一時間點相關。
如請求項1之方法，其中該相機及該伺服器係定位於距彼此一定距離處且經組態以經由一數位網路(300)彼此通信之單獨有形實體。
一種用於在一視訊序列中進行動作辨識之系統，該系統包括：一相機(100)，其經組態以擷取該視訊序列；及一伺服器(200)，其經組態以執行動作辨識；該相機包括：一物件識別器(124)，其經組態以在該視訊序列之一影像圖框中識別一所關注物件；一動作候選者辨識器(126)，其經組態以將一第一動作辨識演算法應用於其中該所關注物件被識別出之該影像圖框且藉此偵測一動作候選者之存在，其中該第一動作辨識演算法主要基於使用該視訊序列之一單個影像圖框中之情境及/或空間資訊之一靜止影像情境及/或空間動作辨識演算法，該單個影像圖框包括該所關注物件；一視訊提取器(127)，其經組態以藉由自該視訊序列提取與複數個影像圖框有關之視訊資料而產生一動作視訊序列之影像圖框，其中自其提取該等視訊資料之該複數個影像圖框中之一或多者包括該所關注物件；及一網路介面(130)，其經組態以將該動作視訊序列傳送至該伺服器；該伺服器包括：一動作驗證器(210)，其經組態以將一第二動作辨識演算法應用於該動作視訊序列且藉此驗證或否定該動作候選者係一預定義類型之一動作。
如請求項9之系統，其中該視訊提取器(127)進一步經組態以修剪該視訊序列之該複數個影像圖框，使得包括該所關注物件的該視訊序列之該等影像圖框包括該所關注物件之至少一部分。
如請求項9之系統，其中該視訊提取器(127)進一步經組態以修剪該視訊序列之該複數個影像圖框，使得包括該所關注物件的該視訊序列之該等影像圖框包括至少部分地環繞該所關注物件之背景之一部分。
如請求項9之系統，其中該物件識別器(124)進一步經組態以在該視訊序列中偵測一所關注物件，其中該視訊提取器(127)進一步經組態以提取與該視訊序列之第一預定數目個影像圖框有關之視訊資料，該第一預定數目個影像圖框與偵測到該所關注物件之前的一時間點相關。
如請求項9之系統，其中物件識別器(124)進一步經組態以在該視訊序列中偵測一所關注物件，其中該視訊提取器(127)進一步經組態以提取與該視訊序列之第二預定數目個影像圖框有關之視訊資料，該第二預定數目個影像圖框與偵測到該所關注物件之後的一時間點相關。
如請求項9之系統，其中該第二動作辨識演算法主要基於使用該動作視訊序列之複數個影像圖框之時間資訊之時間動作辨識演算法。