TWI738172B

TWI738172B - 影片處理方法及裝置、電子設備、儲存媒體和電腦程式

Info

Publication number: TWI738172B
Application number: TW109100421A
Authority: TW
Inventors: 姜博源; 王蒙蒙; 甘偉豪
Original assignee: 大陸商浙江商湯科技開發有限公司
Priority date: 2019-07-19
Filing date: 2020-01-07
Publication date: 2021-09-01
Also published as: US20210103733A1; CN112241673B; CN112241673A; KR20210090238A; JP7090183B2; SG11202011781UA; TW202105202A; WO2021012564A1; JP2021536048A

Abstract

一種影片處理方法及裝置、電子設備、儲存媒體和電腦程式，所述方法包括：通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得多個目標影片幀的特徵圖；通過M級動作識別網路對多個目標影片幀的特徵圖進行動作識別處理，獲得多個目標影片幀的動作識別特徵；根據多個目標影片幀的動作識別特徵，確定待處理影片的分類結果。根據本發明的實施例的影片處理方法，可通過多級動作識別網路獲得目標影片幀的動作識別特徵，進而獲得待處理影片的分類結果，無需通過光流或3D卷積等處理進行動作識別，減小了運算量，提高了處理效率，能夠對待處理影片進行在線及時分類，提高了所述影片處理方法的實用性。

Description

影片處理方法及裝置、電子設備、儲存媒體和電腦程式

本發明是有關於一種電腦視覺技術領域，特別是指一種影片處理方法及裝置、電子設備、儲存媒體和電腦程式。

影片由多個影片幀組成，可記錄動作、行爲等信息，應用場景多樣化。但影片不僅幀數較多，處理運算量較大，且影片還具有與時間的關聯關係，例如，通過多個影片幀中的內容以及各影片幀對應的時間來表現動作或行爲等信息。在相關技術中，可通過光流或3D卷積等處理獲得時空特徵和運動特徵等。

因此，本發明之目的，即在提供一種影片處理方法及裝置、電子設備和儲存媒體。

於是，本發明一種影片處理方法，包括：通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖；通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，獲得所述多個目標影片幀的動作識別特徵，其中，M爲大於或等於1的整數，所述動作識別處理包括基於所述多個目標影片幀的特徵圖的時空特徵提取處理，以及基於所述多個目標影片幀的特徵圖之間的運動差異信息的運動特徵提取處理，所述動作識別特徵包括時空特徵信息和運動特徵信息；根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果。

根據本發明的實施例的影片處理方法，可通過多級動作識別網路獲得目標影片幀的動作識別特徵，進而獲得待處理影片的分類結果，無需通過光流或3D卷積等處理進行動作識別，減小了運算量，提高了處理效率，能夠對待處理影片進行在線及時分類，提高了所述影片處理方法的實用性。

在一種實施態樣中，通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別，獲得所述多個目標影片幀的動作識別特徵，包括：通過第一級動作識別網路對所述多個目標影片幀的特徵圖進行處理，獲得第一級的動作識別特徵；通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，i爲整數且1>i>M，其中，各級的動作識別特徵分別與所述多個目標影片幀的特徵圖對應；通過第M級動作識別網路對第M-1級的動作識別特徵進行處理，獲得所述多個目標影片幀的動作識別特徵。

在一種可能的實施態樣中，通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，包括：對所述第i-1級的動作識別特徵進行第一卷積處理，獲得第一特徵信息，其中，所述第一特徵信息分別與所述多個目標影片幀的特徵圖對應；對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息；對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息；至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵。

在一種實施態樣中，至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵，包括：根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵。

在一種實施態樣中，對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息，包括：分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，獲得第二特徵信息，所述第二特徵信息與所述第一特徵信息的維度不同；對所述第二特徵信息的各通道分別進行第二卷積處理，獲得第三特徵信息，其中，所述第三特徵信息表示所述多個目標影片幀的特徵圖的時間特徵；對所述第三特徵信息進行維度重構處理，獲得第四特徵信息，所述第四特徵信息與所述第一特徵信息的維度相同；對所述第四特徵信息進行空間特徵提取處理，獲得所述時空特徵信息。

在一種實施態樣中，所述第一特徵信息包括多個行向量或列向量，分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，包括：對所述第一特徵信息的多個行向量或列向量進行拼接處理，獲得所述第二特徵信息，其中，所述第二特徵信息包括一個行向量或列向量。

通過這種方式，可獲得各通道的時空信息，使得時空信息完整，並通過重構處理改變第一特徵信息的維度，可通過計算量較小的方式進行卷積處理，例如，通過1D卷積處理的方式進行第二卷積處理，可簡化計算，提高處理效率。

在一種實施態樣中，對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息，包括：對所述第一特徵信息的通道進行降維處理，獲得第五特徵信息，其中，所述第五特徵信息分別與所述待處理影片中的各目標影片幀對應；將與第k+1個目標影片幀對應的第五特徵信息進行第三卷積處理，幷與所述第k個目標影片幀對應的第五特徵信息相減，獲得與第k個目標影片幀對應的第六特徵信息，其中，k爲整數且1≤k>T，T爲目標影片幀的數量，且T爲大於1的整數，所述第六特徵信息表示與所述第k+1個目標影片幀對應的第五特徵信息及與所述第k個目標影片幀對應的第五特徵信息之間的運動差異信息；將與所述各目標影片幀對應的第六特徵信息進行特徵提取處理，獲得所述運動特徵信息。

通過這種方式，可通過對第五特徵信息進行第三卷積處理後與前一個第五特徵信息相減的處理獲得所述運動特徵信息，可簡化計算，提高處理效率。

在一種實施態樣中，根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵，包括：對所述時空特徵信息和所述運動特徵信息進行求和處理，獲得第七特徵信息；對所述第七特徵信息進行第四卷積處理，並與所述第i-1級的動作識別特徵進行求和處理，獲得所述第i級的動作識別特徵。

在一種實施態樣中，根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果，包括：對各目標影片幀的動作識別特徵分別進行全連接處理，獲得各目標影片幀的分類信息；對各目標影片幀的分類信息進行平均處理，獲得所述待處理影片的分類結果。

在一種實施態樣中，所述方法還包括：從待處理影片中確定出多個目標影片幀。

在一種實施態樣中，從待處理影片的多個影片幀中確定出多個目標影片幀，包括：將所述待處理影片劃分爲多個影片片段；從各影片片段中隨機確定出至少一個目標影片幀，獲得多個目標影片幀。

通過這種方式，可從待處理影片的多個影片幀中確定出目標影片幀，繼而可對目標影片幀進行處理，可節約運算資源，提高處理效率。

在一種實施態樣中，所述影片處理方法通過神經網路實現，所述神經網路至少包括所述特徵提取網路、所述M級動作識別網路，所述方法還包括：通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練。

在一種實施態樣中，通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練，包括：從所述樣本影片中確定出多個樣本影片幀；通過所述神經網路對所述樣本影片幀進行處理，確定所述樣本影片的分類結果；根據所述樣本影片的分類結果及類別標註，確定所述神經網路的網路損失；根據所述網路損失調整所述神經網路的網路參數。

於是，本發明一種影片處理裝置，包括：特徵提取模組，用於通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖；動作識別模組，用於通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，獲得所述多個目標影片幀的動作識別特徵，其中，M爲大於或等於1的整數，所述動作識別處理包括基於所述多個目標影片幀的特徵圖的時空特徵提取處理，以及基於所述多個目標影片幀的特徵圖之間的運動差異信息的運動特徵提取處理，所述動作識別特徵包括時空特徵信息和運動特徵信息；分類模組，用於根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果。

在一種實施態樣中，所述動作識別模組被進一步配置爲：通過第一級動作識別網路對所述多個目標影片幀的特徵圖進行處理，獲得第一級的動作識別特徵；通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，i爲整數且1>i>M，其中，各級的動作識別特徵分別與所述多個目標影片幀的特徵圖對應；通過第M級動作識別網路對第M-1級的動作識別特徵進行處理，獲得所述多個目標影片幀的動作識別特徵。

在一種實施態樣中，所述動作識別模組被進一步配置爲：對所述第i-1級的動作識別特徵進行第一卷積處理，獲得第一特徵信息，其中，所述第一特徵信息分別與所述多個目標影片幀的特徵圖對應；對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息；對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息；至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵。

在一種實施態樣中，所述動作識別模組被進一步配置爲：根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵。

在一種實施態樣中，所述動作識別模組被進一步配置爲：分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，獲得第二特徵信息，所述第二特徵信息與所述第一特徵信息的維度不同；對所述第二特徵信息的各通道分別進行第二卷積處理，獲得第三特徵信息，其中，所述第三特徵信息表示所述多個目標影片幀的特徵圖的時間特徵；對所述第三特徵信息進行維度重構處理，獲得第四特徵信息，所述第四特徵信息與所述第一特徵信息的維度相同；對所述第四特徵信息進行空間特徵提取處理，獲得所述時空特徵信息。

在一種實施態樣中，所述第一特徵信息包括多個行向量或列向量，所述動作識別模組被進一步配置爲：對所述第一特徵信息的多個行向量或列向量進行拼接處理，獲得所述第二特徵信息，其中，所述第二特徵信息包括一個行向量或列向量。

在一種實施態樣中，所述動作識別模組被進一步配置爲：對所述第一特徵信息的通道進行降維處理，獲得第五特徵信息，其中，所述第五特徵信息分別與所述待處理影片中的各目標影片幀對應；將與第k+1個目標影片幀對應的第五特徵信息進行第三卷積處理，幷與所述第k個目標影片幀對應的第五特徵信息相減，獲得與第k個目標影片幀對應的第六特徵信息，其中，k爲整數且1≤k>T，T爲目標影片幀的數量，且T爲大於1的整數，所述第六特徵信息表示與所述第k+1個目標影片幀對應的第五特徵信息及與所述第k個目標影片幀對應的第五特徵信息之間的運動差異信息；將與所述各目標影片幀對應的第六特徵信息進行特徵提取處理，獲得所述運動特徵信息。

在一種實施態樣中，所述動作識別模組被進一步配置爲：對所述時空特徵信息和所述運動特徵信息進行求和處理，獲得第七特徵信息；對所述第七特徵信息進行第四卷積處理，並與所述第i-1級的動作識別特徵進行求和處理，獲得所述第i級的動作識別特徵。

在一種實施態樣中，所述分類模組被進一步配置爲：對各目標影片幀的動作識別特徵分別進行全連接處理，獲得各目標影片幀的分類信息；對各目標影片幀的分類信息進行平均處理，獲得所述待處理影片的分類結果。

在一種實施態樣中，所述裝置還包括：確定模組，用於從待處理影片中確定出多個目標影片幀。

在一種實施態樣中，所述確定模組被進一步配置爲：將所述待處理影片劃分爲多個影片片段；從各影片片段中隨機確定出至少一個目標影片幀，獲得多個目標影片幀。

在一種實施態樣中，所述影片處理方法通過神經網路實現，所述神經網路至少包括所述特徵提取網路、所述M級動作識別網路，所述裝置還包括：訓練模組，用於通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練。

在一種實施態樣中，所述訓練模組被進一步配置爲：從所述樣本影片中確定出多個樣本影片幀；通過所述神經網路對所述樣本影片幀進行處理，確定所述樣本影片的分類結果；根據所述樣本影片的分類結果及類別標註，確定所述神經網路的網路損失；根據所述網路損失調整所述神經網路的網路參數。

於是，本發明一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲：執行上述影片處理方法。

於是，本發明一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述影片處理方法。

於是，本發明一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於執行上述的影片處理方法。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裏專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裏作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情况。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好地說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1示出根據本發明實施例的影片處理方法的流程圖，如圖1所示，所述方法包括：

在步驟S11中，通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖；

在步驟S12中，通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，獲得所述多個目標影片幀的動作識別特徵，其中，M爲大於或等於1的整數，所述動作識別處理包括基於所述多個目標影片幀的特徵圖的時空特徵提取處理，以及基於所述多個目標影片幀的特徵圖之間的運動差異信息的運動特徵提取處理，所述動作識別特徵包括時空特徵信息和運動特徵信息；

在步驟S13中，根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果。

在一些實施態樣中，所述方法可以由終端設備執行，終端設備可以爲用戶設備（User Equipment，UE）、移動設備、用戶終端、終端、行動電話、室內無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者，所述方法通過伺服器執行。

在一些實施態樣中，所述待處理影片可以是任意影片獲取裝置拍攝的影片，所述待處理影片幀可包括一個或多個目標對象（例如，人、車輛和/或茶杯等物品），所述目標對象可正在進行某個動作（例如，拿起水杯、走路等），本發明對待處理影片的內容不做限制。

圖2示出根據本發明實施例的影片處理方法的流程圖，如圖2所示，所述方法包括：

在步驟S14中，從待處理影片中確定出多個目標影片幀。

在一些實施態樣中，步驟S14可包括：將所述待處理影片劃分爲多個影片片段；從各影片片段中隨機確定出至少一個目標影片幀，獲得多個目標影片幀。

在示例中，待處理影片可包括多個影片幀，可將待處理影片進行劃分，例如，可劃分爲T個影片片段（T爲大於1的整數），並可在每個影片片段的多個影片幀中進行抽樣，例如，在每個影片片段中抽樣出至少一個目標影片幀。例如，可將待處理影片進行等間隔劃分，例如可劃分爲8或16段，並在每個影片片段中進行隨機抽樣，例如，可在每個影片片段中隨機選取1個影片幀作爲目標影片幀，即可獲取多個目標影片幀。

在示例中，可在待處理影片的所有影片幀中進行隨機抽樣，獲得多個目標影片幀。或者，可等間距地選取多個影片幀，作爲目標影片幀，例如，選擇第1個影片幀、第11個影片幀、第21個影片幀…又或者，可將待處理影片的所有影片幀均確定爲目標影片幀，本發明對選取目標影片幀的方式不做限制。

在一些實施態樣中，在步驟S11中，可對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖。可通過神經網路的特徵提取網路來進行所述特徵提取處理，所述特徵提取網路可以是所述神經網路的一部分（例如，子網路或某個層級的神經網路），在示例中，所述特徵提取網路可包括一個或多個卷積層，可對多個目標影片幀進行特徵提取，獲得多個目標影片幀的特徵圖。

在示例中，可通過特徵提取網路對T（T爲大於1的整數）個目標影片幀進行特徵提取處理，每個目標影片幀可分爲C（C爲正整數）個通道輸入至特徵提取網路，例如，目標影片幀爲RGB圖像，可分別通過R、G和B三個通道輸入特徵提取網路。每個目標影片幀的尺寸爲H×W（H爲圖像的高度，可表示爲圖像在高度方向的像素點的數量，W爲圖像的寬度，可表示爲圖像在寬度方向的像素點的數量），因此，輸入特徵提取網路的目標影片幀的維度爲T×C×H×W。例如，T可以是16，C可以是3，H和W可均爲224，則輸入特徵提取網路的目標影片幀的維度爲16×3×224×224。

在示例中，所述神經網路可對多個待處理影片進行批處理，例如，特徵提取網路可對N個待處理影片的目標影片幀進行特徵提取處理，輸入特徵提取網路的目標影片幀的目標影片幀維度的爲N×T×C×H×W。

在示例中，特徵提取網路可對維度爲T×C×H×W的目標影片幀進行特徵提取處理，獲得與T個目標影片幀分別對應的T組特徵圖。例如，在特徵提取處理中，目標影片幀的特徵圖尺寸可小於目標影片幀，但通道數可多於目標影片幀，可增大對目標影片幀的感受野，即，C的值可增大，H和W的值可減小。例如，輸入特徵提取網路的目標影片幀的維度爲16×3×224×224，目標影片幀的通道數可擴大16倍，即，C的值可增大至48，目標影片幀的特徵圖尺寸可縮小4倍，即H和W的值均可縮小至56，與各目標影片幀對應的特徵圖的通道數量爲48，每個特徵圖的尺寸爲56×56，特徵圖的維度可以是16×48×56×56。以上數據僅爲示例，本發明對目標影片幀與特徵圖的維度不做限制。

在一些實施態樣中，在步驟S12中，可對T個目標影片幀的特徵圖進行動作識別，分別獲得各目標影片幀的動作識別特徵。可通過神經網路的M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，所述M級動作識別網路可以是串聯的M個動作識別網路，每個動作識別網路可以是所述神經網路的一部分。

在一些實施態樣中，步驟S12可包括：通過第一級動作識別網路對所述多個目標影片幀的特徵圖進行處理，獲得第一級的動作識別特徵；通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，i爲整數且1>i>M，其中，各級的動作識別特徵分別與所述多個目標影片幀的特徵圖對應；通過第M級動作識別網路對第M-1級的動作識別特徵進行處理，獲得所述多個目標影片幀的動作識別特徵。

在一些實施態樣中，M級動作識別網路是串聯的，每一級動作識別網路的輸出信息（即，該級動作識別網路的動作識別特徵）可作爲下一級動作識別網路的輸入信息。第一級動作識別網路可對目標影片幀的特徵圖進行處理，並輸出第一級的動作識別特徵，第一級的動作識別特徵可作爲第二級動作識別特徵的出入信息，即，第二級動作識別網路可對第一級動作識別特徵進行處理，獲得第二級動作識別特徵，並可將第二級動作識別特徵作爲第三級動作識別網路的輸入信息……，以此類推。

在一些實施態樣中，以第i級動作識別網路爲例，第i級動作識別網路可將第i-1級的動作識別特徵作爲輸入信息進行處理，通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，包括：對所述第i-1級的動作識別特徵進行第一卷積處理，獲得第一特徵信息；對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息；對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息；至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵。

圖3示出根據本發明實施例的動作識別網路的示意圖，第一級動作識別網路至第M級動作識別網路的結構均如圖3所示。以第i級動作識別網路爲例，第i級動作識別網路可將第i-1級的動作識別特徵作爲輸入信息進行處理。在示例中，第i級動作識別網路可通過卷積核爲1×1的2D卷積層對第i-1級的動作識別特徵進行第一卷積處理，可對第i-1級的動作識別特徵進行降維，在示例中，所述卷積核爲1×1的2D卷積層可降低第i-1級的動作識別特徵的通道數，例如，可將通道數C的數量減少16倍，獲得所述第一特徵信息。本發明對降低的倍數不做限制。

在示例中，在第一級動作識別網路中，第一級動作識別網路可將目標影片幀的特徵圖作爲輸入信息進行處理。第一級動作識別網路可通過卷積核爲1×1的2D卷積層對所述目標影片幀的特徵圖進行第一卷積處理，可對特徵圖進行降維，獲得第一特徵信息。

在一些實施態樣中，所述第i級動作識別網路可將第一特徵信息分別進行時空特徵提取處理和運動特徵提取處理，可將第一特徵信息通過兩個分支（時空特徵提取分支和運動特徵提取分支）分別進行處理，分別獲得時空特徵信息和運動特徵信息。

在一些實施態樣中，根據時空特徵信息、運動特徵信息和第i-1級的動作識別特徵，獲得第i級的動作識別特徵，可包括：根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵。例如，可對時空特徵信息和運動特徵信息進行求和，並對求和結果進行卷積處理，進一步地，可將卷積處理結果與第i-1級的動作識別特徵進行求和，獲得第i級的動作識別特徵。

圖4示出根據本發明實施例的時空特徵提取處理的示意圖，對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息，包括：分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，獲得第二特徵信息，所述第二特徵信息與所述第一特徵信息的維度不同；對所述第二特徵信息的各通道分別進行第二卷積處理，獲得第三特徵信息，其中，所述第三特徵信息表示所述多個目標影片幀的特徵圖的時間特徵；對所述第三特徵信息進行維度重構處理，獲得第四特徵信息，所述第四特徵信息與所述第一特徵信息的維度相同；對所述第四特徵信息進行空間特徵提取處理，獲得所述時空特徵信息。

在一些實施態樣中，第一特徵信息的維度爲T×C×H×W，其中，參數C、H和W的取值與目標影片幀的特徵圖可不同，所述第一特徵信息可通過特徵矩陣來表示，所述特徵矩陣可表示爲多個行向量或列向量。所述第一特徵信息包括多個行向量或列向量，分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，包括：對所述第一特徵信息的多個行向量或列向量進行拼接處理，獲得所述第二特徵信息，其中，所述第二特徵信息包括一個行向量或列向量。可對第一特徵信息（特徵矩陣）進行重構處理，將所述特徵矩陣的維度變換爲HW×C×T，獲得與第一特徵信息維度不同的第二特徵信息，例如，第一特徵信息包括T組特徵矩陣，每組特徵矩陣的通道數量爲C（例如，每組特徵矩陣的數量爲C），每個特徵矩陣的尺寸爲H×W，可對每個特徵矩陣分別進行拼接，例如，可將特徵矩陣看作H個行向量或W個列向量，並對H個行向量或W個列向量進行拼接，形成一個行向量或一個列向量，所述行向量或列向量即爲所述第二特徵信息，HW的值可等於H和W的乘積。本發明對重構處理的方式不做限制。

在一些實施態樣中，可對第二特徵信息的各通道分別進行第二卷積處理，獲得第三特徵信息。在示例中，可通過卷積核爲3×1的1D深度分離卷積層對第二特徵信息的各通道分別進行第二卷積處理。例如，T組第二特徵信息各包括C個通道，例如，每組第二特徵信息的數量爲C，可分別對每組的C個第二特徵信息進行第二卷積處理，獲得T組第三特徵信息，T組第三特徵信息可表示所述多個目標影片幀的特徵圖的時間特徵，即，所述第三特徵信息具有各目標影片幀的時間信息。在示例中，每個通道的第二特徵信息包含的時空信息可互不相同，分別對每個通道的第二特徵信息進行第二卷積處理，可獲取每個通道的第三特徵信息，且通過卷積核爲3×1的1D卷積層分別對每個通道對重構後獲得的第二特徵信息進行第二卷積處理的運算量較小，即，對行向量或列向量進行1D卷積處理，相對於對特徵圖進行2D卷積或3D卷積的運算量較小，可提升處理效率。在示例中，第三特徵信息的維度爲HW×C×T，即，每個第三特徵信息可以是行向量或列向量。

在一些實施態樣中，可對第三特徵信息進行重構，例如，可將每個第三特徵信息（行向量或列向量形式）重構爲矩陣，獲得第四特徵信息，第四特徵信息的維度與第一特徵信息的維度相同，例如，每個第三特徵信息均爲長度爲HW的行向量或列向量，可將第三特徵信息分爲W個長度爲H的列向量或者H個長度爲W的行向量，並將所述行向量或列向量進行合並，獲得特徵矩陣（即，第四特徵信息），第四特徵信息的維度爲T×C×H×W。本發明對第四特徵信息的參數不做限制。

在一些實施態樣中，可通過卷積核爲3×3的2D卷積層對第四特徵信息進行卷積處理，可提取第四特徵信息的空間特徵，獲得時空特徵信息，即，提取表示第四特徵信息中目標對象的位置的特徵信息，並與時間信息融合，可表示所述時空特徵信息。所述時空特徵信息可爲維度爲T×C×H×W的特徵矩陣，時空特徵信息的H和W與第四特徵信息可不同。

圖5示出根據本發明實施例的運動特徵提取處理的示意圖，對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息，可包括：對所述第一特徵信息的通道進行降維處理，獲得第五特徵信息，其中，所述第五特徵信息分別與所述待處理影片中的各目標影片幀對應；將與第k+1個目標影片幀對應的第五特徵信息進行第三卷積處理，並與所述第k個目標影片幀對應的第五特徵信息相減，獲得與第k個目標影片幀對應的第六特徵信息，其中，k爲整數且1≤k>T，T爲目標影片幀的數量，且T爲大於1的整數，所述第六特徵信息表示與所述第k+1個目標影片幀對應的第五特徵信息及與所述第k個目標影片幀對應的第五特徵信息之間的運動差異信息；將與所述各目標影片幀對應的第六特徵信息進行特徵提取處理，獲得所述運動特徵信息。

在一些實施態樣中，可對第一特徵信息的通道進行降維處理，獲得第五特徵信息，例如，可通過卷積核爲1×1的2D卷積層對第一特徵信息的通道進行降維處理，即，可降低通道的數量。在示例中，可將維度爲T×C×H×W的第一特徵信息的通道數C降爲C/16。獲得與各目標影片幀對應的第五特徵信息，所述第五特徵信息的維度爲T×C/16×H×W，即，包括分別與T個目標影片幀對應的T組第五特徵信息，每組第五特徵信息的維度爲C/16×H×W。

在一些實施態樣中，以與第k個目標影片幀對應的第五特徵信息（簡稱爲第五特徵信息k）爲例，可將與第k+1個目標影片幀對應的第五特徵信息（簡稱爲第五特徵信息k+1）進行的各通道第三卷積處理，例如，可通過卷積核爲3×3的2D深度分離卷積層對第五特徵信息k+1進行第三卷積處理，並將第三卷積處理獲得的結果與第五特徵信息k相減，獲得與第k個目標影片幀對應的第六特徵信息，第六特徵信息的維度與第五特徵信息相同，爲C/16×H×W。可分別對每個第五特徵信息進行第三卷積處理，並與前一個第五特徵信息相減，獲得第六特徵信息，第六特徵信息可表示相鄰的兩個目標影片幀對應的第五特徵信息之間的運動差異信息，即，可用於表示兩個目標影片幀中的目標對象的動作差異，以確定目標對象的動作。在示例中，所述相減的過程可獲得T-1個第六特徵信息，可將與第T個目標影片幀對應的第五特徵信息與參數全爲0的矩陣經過第三卷積處理後的處理結果相減或者與參數全爲0的矩陣直接相減，獲得與第T個目標影片幀對應的第六特徵信息，或者，可將全爲0的矩陣作爲第六特徵信息，獲得與第T個目標影片幀對應的第六特徵信息，即，共可獲得與T個目標影片幀分別對應的T個第六特徵信息。進一步地，可將T個第六特徵信息進行合併，即可獲得維度爲T×C/16×H×W的第六特徵信息。

在一些實施態樣中，可對維度爲T×C/16×H×W的第六特徵信息進行特徵提取處理，例如，可通過卷積核爲1×1的2D卷積層對第六特徵信息進行升維，例如，可對通道數進行升維，將通道數C/16升維至C，獲得所述運動特徵信息，運動特徵信息的維度與時空特徵信息的維度一致，均爲T×C×H×W。

在一些實施態樣中，如圖3所示，可根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得第i級的動作識別特徵。在示例中，該步驟可包括：對所述時空特徵信息和所述運動特徵信息進行求和處理，獲得第七特徵信息；對所述第七特徵信息進行第四卷積處理，並與所述第i-1級的動作識別特徵進行求和處理，獲得所述第i級的動作識別特徵。

在一些實施態樣中，時空特徵信息和運動特徵信息的維度相同，均爲T×C×H×W，可將時空特徵信息和運動特徵信息的多個特徵信息（例如，各特徵圖或特徵矩陣）分別求和，獲得第七特徵信息，第七特徵信息的維度爲T×C×H×W。

在一些實施態樣中，可對第七特徵信息進行第四卷積處理，例如，可通過卷積核爲1×1的2D卷積層對第七特徵信息進行第四卷積處理，可對第七特徵信息進行升維，將第七特徵信息的維度變換爲與第i-1級的動作識別特徵相同的維度，例如，可將通道數增大16倍。進一步地，可將第四卷積處理的處理結果與第i-1級的動作識別特徵進行求和，獲得第i級動作識別特徵。

在一些實施態樣中，第一級動作識別網路可將目標影片幀的特徵圖與第四卷積處理的處理結果進行求和，獲得第一級動作識別特徵，第一級動作識別特徵可作爲第二級動識別網路的輸入信息。

在一些實施態樣中，可通過上述方式逐級獲得動作識別特徵，並可通過上述方式通過第M級動作識別網路對第M-1級的動作識別特徵進行處理，獲得所述多個目標影片幀的動作識別特徵，即，將第M級動作識別特徵作爲所述目標影片幀的動作識別特徵。

在一些實施態樣中，在步驟S13中，可根據多個目標影片幀的動作識別特徵，獲得待處理影片幀的分類結果。步驟S13可包括：對各目標影片幀的動作識別特徵分別進行全連接處理，獲得各目標影片幀的分類信息；對各目標影片幀的分類信息進行平均處理，獲得所述待處理影片的分類結果。

在一些實施態樣中，可通過所述神經網路的全連接層對各目標影片幀的動作識別特徵進行全連接處理，獲得各目標影片幀的分類信息，在示例中，各目標影片幀的分類信息可以是特徵向量，即，所述全連接層可輸出T個特徵向量。進一步地，可對所述T個特徵向量進行平均處理，獲得待處理影片的分類結果。所述分類結果也可以是特徵向量，可表示所述待處理影片所屬類別的概率。

在示例中，所述分類結果可以是400維的向量，該向量包括400個參數，分別表示待處理影片屬於400種類別的機率。所述類別可以是待處理影片中的目標對象的動作的類別，例如，行走，舉杯、飲食等動作。例如，在該向量中，第2個參數的值最大，即，待處理影片屬於第2個種類的機率最大，可判斷待處理影片屬於第2個種類，例如，可判斷待處理影片中的目標對象正在行走。本發明對分類結果的類型和維度不做限制。

根據本發明的實施例的影片處理方法，可從待處理影片的多個影片幀中確定出目標影片幀，繼而可對目標影片幀進行處理，可節約運算資源，提高處理效率。每級動作識別網路可獲得各通道的時空信息，使得時空信息完整，並通過重構處理改變第一特徵信息的維度，可通過計算量較小的方式進行卷積處理，還可通過對第五特徵信息進行第三卷積處理後與前一個第五特徵信息相減的處理獲得所述運動特徵信息，可簡化計算。進一步地，可獲得每級動作識別網路的動作識別結果，進而獲得待處理影片的分類結果，無需通過光流或3D卷積等處理進行動作識別，通過輸入的目標影片幀（RGB圖像）即可獲得時空特徵信息和運動特徵信息，減少了輸入參數，並減小了運算量，提高了處理效率，能夠對待處理影片進行在線及時分類，提高了所述影片處理方法的實用性。

在一些實施態樣中，所述影片處理方法可通過神經網路實現，所述神經網路至少包括所述特徵提取網路、所述M級動作識別網路。所述神經網路還可包括所述全連接層，以對動作識別特徵進行全連接處理。

圖6示出根據本發明實施例的影片處理方法的流程圖，如圖6所示，所述方法還包括：

在步驟S15中，通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練。

在一些實施態樣中，步驟S15可包括：從所述樣本影片中確定出多個樣本影片幀；通過所述神經網路對所述樣本影片幀進行處理，確定所述樣本影片的分類結果；根據所述樣本影片的分類結果及類別標註，確定所述神經網路的網路損失；根據所述網路損失調整所述神經網路的網路參數。

在一些實施態樣中，樣本影片可包括多個影片幀，可從所述樣本影片的多個影片幀中確定出樣本影片幀，例如，可進行隨機抽樣或將樣本影片劃分爲多個影片片段，並在每個影片片段中進行抽樣，獲得所述樣本影片幀。

在一些實施態樣中，可將樣本影片幀輸入所述神經網路，並由所述特徵提取網路進行特徵提取處理，並由M級動作識別網路進行動作識別處理，進一步地，由全連接層進行全連接處理後，可獲得各樣本影片幀的分類信息，對各樣本影片幀的分類信息進行平均處理，獲得所述樣本影片的分類結果。

在一些實施態樣中，所述分類結果可以是表示樣本影片的分類的多維向量（可能具有誤差）。所述樣本影片可具有類別標註，可表示樣本影片的實際類別（無誤差）。可根據分類結果和類別標註確定神經網路的網路損失，例如，可確定分類結果和類別標註之間的余弦距離或歐氏距離，並根據所述余弦距離或歐氏距離與0之間的差異確定網路損失。本發明對網路損失的確定方式不做限制。

在一些實施態樣中，可根據所述網路損失調整神經網路的網路參數，例如，可確定所述網路損失對於神經網路的各參數的梯度，並按照使網路損失最小化的方向，通過梯度下降法來調節各網路參數。可通過上述方式對網路參數進行多次調節（即，通過多個樣本影片進行多個訓練周期的訓練），並在滿足訓練條件時，獲得訓練後的神經網路。所述訓練條件可包括訓練次數（即，訓練周期數），例如，當訓練次數達到預設次數時，滿足訓練條件。或者，所述訓練條件可包括網路損失的大小或斂散性，例如，當所述網路損失小於或等於損失閾值或收斂於預設區間內時，滿足訓練條件。本發明對訓練條件不做限制。

圖7示出根據本發明實施例的影片處理方法的應用示意圖。如圖6所示，待處理影片可以是包括一個或多個目標對象的任意影片，可通過採樣等方式在待處理影片的多個影片幀中確定出T個目標影片幀。例如，可將待處理影片劃分爲T（例如，T爲8或16）個影片片段，並在每個影片片段中隨機採樣出一個影片幀作爲目標影片幀。

在一些實施態樣中，可通過神經網路的特徵提取網路對多個目標影片幀進行特徵提取，特徵提取網路可包括一個或多個卷積層，可對多個目標影片幀進行卷積處理，獲得多個目標影片幀的特徵圖。例如，在T個目標影片幀中，每個目標影片幀可分爲C個通道（例如，R、G和B三個通道）輸入至特徵提取網路，目標影片幀的尺寸爲H×W（例如，224×224），在特徵提取處理後，C、H和W的數值均可發生變化。

在一些實施態樣中，可通過M級動作識別網路對特徵圖進行處理，M級動作識別網路可以是級聯的M個動作識別網路，每個動作識別網路的網路結構相同，且均爲所述神經網路的一部分。如圖6所示，M級動作識別網路可組成多個組，每個組之間可具有卷積層或啟動層等神經網路層級，或者，組之間可不具有神經網路層級，各組動作識別網路可直接串聯，各組動作識別網路的數量總和爲M。

在一些實施態樣中，第一級動作識別網路可對T組特徵圖進行處理，獲得第一級的動作識別特徵，第一級動作識別特徵可作爲第二級動作識別網路的輸入信息，第二級動作識別網路可對第一級動作識別特徵進行處理，獲得第二級動作識別特徵，並可將第二級動作識別特徵作爲第三級動作識別網路的輸入信息……，以此類推。

在一些實施態樣中，以第i級動作識別網路爲例，第i級動作識別網路可將第i-1級的動作識別特徵作爲輸入信息進行處理，可通過卷積核爲1×1的2D卷積層對第i-1級的動作識別特徵進行第一卷積處理，可對第i-1級的動作識別特徵進行降維，獲得第一特徵信息。

在一些實施態樣中，第i級動作識別網路可將第一特徵信息分別進行時空特徵提取處理和運動特徵提取處理，例如，可分爲時空特徵提取分支和運動特徵提取分支分別進行處理。

在一些實施態樣中，所述時空特徵提取分支可首先對第一特徵信息進行重構，例如，可將第一特徵信息的特徵矩陣重構爲行向量或列向量，獲得第二特徵信息，並通過卷積核爲3×1的1D卷積層對第二特徵信息的各通道分別進行第二卷積處理，在運算量較小的情况下獲得第三特徵信息。進一步地，可對第三特徵信息進行重構，獲得矩陣形式的第四特徵信息，並可通過卷積核爲3×3的2D卷積層對第四特徵信息進行卷積處理，獲得所述時空特徵信息。

在一些實施態樣中，所述運動特徵提取分支可首先通過卷積核爲1×1的2D卷積層對第一特徵信息的通道進行降維處理，例如，可將第一特徵信息的通道數C降爲C/16，獲得與各目標影片幀對應的第五特徵信息。以與第k個目標影片幀對應的第五特徵信息爲例，可通過卷積核爲3×3的2D卷積層對與第k+1個目標影片幀對應的第五特徵信息進行的各通道第三卷積處理，並將第三卷積處理獲得的結果與第五特徵信息k相減，獲得與第k個目標影片幀對應的第六特徵信息，可通過上述方式，獲得與前T-1個目標影片幀對應的第六特徵信息，並可將與第T個目標影片幀對應的第五特徵信息與參數全爲0的矩陣經過第三卷積處理後的處理結果相減，獲得與第T個目標影片幀對應的第六特徵信息，即，可獲得T個第六特徵信息。進一步地，可將T個第六特徵信息進行合併，並通過卷積核爲1×1的2D卷積層對第六特徵信息進行升維，獲得運動特徵信息。

在一些實施態樣中，可將時空特徵信息和運動特徵信息進行求和處理，獲得第七特徵信息，並通過卷積核爲1×1的2D卷積層對第七特徵信息進行第四卷積處理，可對第七特徵信息進行升維，將第七特徵信息的維度變換爲與第i-1級的動作識別特徵相同的維度，並與第i-1級的動作識別特徵進行求和，獲得第i級動作識別特徵。

在一些實施態樣中，可將第M級動作識別網路輸出的動作識別特徵確定爲目標影片幀的動作識別特徵，並將目標影片幀的動作識別特徵輸入神經網路的全連接層進行處理，獲得與各目標影片幀對應的分類信息，例如，分類信息1，分類信息2……在示例中，所述分類信息可以是向量，可將T個目標影片幀對應的分類信息進行平均處理，獲得待處理影片的分類結果。所述分類結果也爲向量，可表示待處理影片所屬類別的機率。例如，分類結果可以是400維的向量，該向量包括400個參數，分別表示待處理影片屬於400種類別的機率。所述類別可以是待處理影片中的目標對象的動作的類別，例如，行走，舉杯、飲食等動作。例如，在該向量中，第2個參數的值最大，表示待處理影片屬於第2個種類的機率最大，可判斷待處理影片屬於第2個種類。

在一些實施態樣中，所述影片處理方法可通過時空特徵信息和動作特徵信息識別相似的動作，例如，關門和開門的動作，日落和日出的動作等，且所述影片處理方法運算量較小，處理效率高，可用於對影片進行及時分類中，例如，可用於監獄的監控，可及時判別犯罪嫌疑人是否有越獄動作；可用於地鐵的監控，可及時判別地鐵車輛的運行狀態可客流的狀態；可用於安防領域，可及時判別監控區域是否有人進行危險的動作等。本發明對所述影片處理方法的應用領域不做限制。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情况下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。

圖8示出根據本發明實施例的影片處理裝置的方塊圖，如圖8所示，所述影片處理裝置包括：

特徵提取模組11，用於通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖；

動作識別模組12，用於通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，獲得所述多個目標影片幀的動作識別特徵，其中，M爲大於或等於1的整數，所述動作識別處理包括基於所述多個目標影片幀的特徵圖的時空特徵提取處理，以及基於所述多個目標影片幀的特徵圖之間的運動差異信息的運動特徵提取處理，所述動作識別特徵包括時空特徵信息和運動特徵信息；

分類模組13，用於根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果。

在一些實施態樣中，所述動作識別模組被進一步配置爲：通過第一級動作識別網路對所述多個目標影片幀的特徵圖進行處理，獲得第一級的動作識別特徵；通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，i爲整數且1>i>M，其中，各級的動作識別特徵分別與所述多個目標影片幀的特徵圖對應；通過第M級動作識別網路對第M-1級的動作識別特徵進行處理，獲得所述多個目標影片幀的動作識別特徵。

在一些實施態樣中，所述動作識別模組被進一步配置爲：對所述第i-1級的動作識別特徵進行第一卷積處理，獲得第一特徵信息，其中，所述第一特徵信息分別與所述多個目標影片幀的特徵圖對應；對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息；對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息；至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵。

在一些實施態樣中，所述動作識別模組被進一步配置爲：根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵。

在一些實施態樣中，所述動作識別模組被進一步配置爲：分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，獲得第二特徵信息，所述第二特徵信息與所述第一特徵信息的維度不同；對所述第二特徵信息的各通道分別進行第二卷積處理，獲得第三特徵信息，其中，所述第三特徵信息表示所述多個目標影片幀的特徵圖的時間特徵；對所述第三特徵信息進行維度重構處理，獲得第四特徵信息，所述第四特徵信息與所述第一特徵信息的維度相同；對所述第四特徵信息進行空間特徵提取處理，獲得所述時空特徵信息。

在一些實施態樣中，所述第一特徵信息包括多個行向量或列向量，所述動作識別模組被進一步配置爲：對所述第一特徵信息的多個行向量或列向量進行拼接處理，獲得所述第二特徵信息，其中，所述第二特徵信息包括一個行向量或列向量。

在一些實施態樣中，所述動作識別模組被進一步配置爲：對所述第一特徵信息的通道進行降維處理，獲得第五特徵信息，其中，所述第五特徵信息分別與所述待處理影片中的各目標影片幀對應；將與第k+1個目標影片幀對應的第五特徵信息進行第三卷積處理，並與所述第k個目標影片幀對應的第五特徵信息相減，獲得與第k個目標影片幀對應的第六特徵信息，其中，k爲整數且1≤k>T，T爲目標影片幀的數量，且T爲大於1的整數，所述第六特徵信息表示與所述第k+1個目標影片幀對應的第五特徵信息及與所述第k個目標影片幀對應的第五特徵信息之間的運動差異信息；將與所述各目標影片幀對應的第六特徵信息進行特徵提取處理，獲得所述運動特徵信息。

在一些實施態樣中，所述動作識別模組被進一步配置爲：對所述時空特徵信息和所述運動特徵信息進行求和處理，獲得第七特徵信息；對所述第七特徵信息進行第四卷積處理，並與所述第i-1級的動作識別特徵進行求和處理，獲得所述第i級的動作識別特徵。

在一些實施態樣中，所述分類模組被進一步配置爲：對各目標影片幀的動作識別特徵分別進行全連接處理，獲得各目標影片幀的分類信息；對各目標影片幀的分類信息進行平均處理，獲得所述待處理影片的分類結果。

圖9示出根據本發明實施例的影片處理裝置的方塊圖，如圖9所示，所述影片處理裝置還包括：確定模組14，用於從待處理影片中確定出多個目標影片幀。

在一些實施態樣中，所述確定模組被進一步配置爲：將所述待處理影片劃分爲多個影片片段；從各影片片段中隨機確定出至少一個目標影片幀，獲得多個目標影片幀。

在一些實施態樣中，所述影片處理方法通過神經網路實現，所述神經網路至少包括所述特徵提取網路、所述M級動作識別網路，所述裝置還包括：訓練模組15，用於通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練。

在一些實施態樣中，所述訓練模組被進一步配置爲：從所述樣本影片中確定出多個樣本影片幀；通過所述神經網路對所述樣本影片幀進行處理，確定所述樣本影片的分類結果；根據所述樣本影片的分類結果及類別標註，確定所述神經網路的網路損失；根據所述網路損失調整所述神經網路的網路參數。

此外，本發明還提供了影片處理裝置、電子設備、電腦可讀儲存媒體、程式，上述均可用來實現本發明提供的任一種影片處理方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，爲了簡潔，這裏不再贅述

本發明實施例還提出一種電腦可讀儲存媒體，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非揮發性電腦可讀儲存媒體。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲上述方法。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

圖10是根據一示例性實施例示出的一種電子設備800的方塊圖。例如，電子設備800可以是移動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖10，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）埠812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，數據通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置為儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人數據，電話簿數據，訊息，圖片，視訊等。記憶體804可以由任何類型的揮發性或非揮發性存放裝置或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除式可程式化唯讀記憶體（EEPROM），可擦除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出埠的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸摸面板（TP）。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸控感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸控感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影機和/或後置攝影機。當電子設備800處於操作模式，如拍攝模式或錄影模式時，前置攝影機和/或後置攝影機可以接收外部的多媒體數據。每個前置攝影機和後置攝影機可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/O埠812為處理組件802和周邊介面模組之間提供埠，上述周邊介面模組可以是鍵盤，滑鼠，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/减速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於射頻識別（RFID）技術，紅外數據協會（IrDA）技術，超寬帶（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個特殊應用積體電路（ASIC）、數位信號處理器（DSP）、數位信號處理設備（DSPD）、可程式化邏輯裝置（PLD）、現場可程式化邏輯閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存媒體，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

本發明實施例還提供了一種電腦程式産品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的方法的指令。

該電腦程式産品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式産品具體體現爲電腦儲存媒體，在另一個可選實施例中，電腦程式産品具體體現爲軟體産品，例如軟體開發包(Software Development Kit，SDK)等等。

圖11是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供爲一伺服器。參照圖11，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程序可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置爲執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理，一個有線或無線網路埠1950被配置爲將電子設備1900連接到網路，和一個輸入輸出（I/O）埠1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存媒體，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存媒體，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合，但不限於電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子（非窮舉的列表）包括：可擕式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可擦式可程式化唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、可擕式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能盤（DVD）、記憶棒、軟碟、機械編碼設備、例如其上存儲有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裏所使用的電腦可讀儲存媒體不被解釋為瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電信號。

這裏所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備，或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換器、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路埠從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種編程語言的任意組合編寫的源代碼或目標代碼，所述編程語言包括面向對象的編程語言—諸如Smalltalk、C++等，以及常規的過程式編程語言—諸如“C”語言或類似的編程語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供商來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態信息來個性化定制電子電路，例如可程式化邏輯電路、現場可程式化門陣列（FPGA）或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裏參照根據本發明實施例的方法、裝置（系統）和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器，從而生産出一種機器，使得這些指令在通過電腦或其它可程式化數據處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中，這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀媒體則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上，使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟，以産生電腦實現的過程，從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

11:特徵提取模組 12:動作識別模組 13:分類模組 14:確定模組 15:訓練模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出埠 1950:網路埠 1958:輸入輸出埠 S11~S13:流程步驟 S11~S14:流程步驟 S11~S13、S15:流程步驟

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1示出根據本發明實施例的影片處理方法的流程圖；圖2示出根據本發明實施例的影片處理方法的流程圖；圖3示出根據本發明實施例的動作識別網路的示意圖；圖4示出根據本發明實施例的時空特徵提取處理的示意圖；圖5示出根據本發明實施例的運動特徵提取處理的示意圖；圖6示出根據本發明實施例的影片處理方法的流程圖；圖7示出根據本發明實施例的影片處理方法的應用示意圖；圖8示出根據本發明實施例的影片處理裝置的方塊圖；圖9示出根據本發明實施例的影片處理裝置的方塊圖；圖10示出根據本發明實施例的電子設備的方塊圖；及圖11示出根據本發明實施例的電子設備的方塊圖。

S11~S13:流程步驟

Claims

一種影片處理方法，包括：通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖；通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，獲得所述多個目標影片幀的動作識別特徵，其中，M爲大於或等於1的整數，所述動作識別處理包括基於所述多個目標影片幀的特徵圖的時空特徵提取處理，以及基於所述多個目標影片幀的特徵圖之間的運動差異信息的運動特徵提取處理，所述動作識別特徵包括時空特徵信息和運動特徵信息；根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果。
如請求項1所述的影片處理方法，其中，通過M級動作識別網絡對所述多個目標影片幀的特徵圖進行動作識別，獲得所述多個目標影片幀的動作識別特徵，包括：通過第一級動作識別網路對所述多個目標影片幀的特徵圖進行處理，獲得第一級的動作識別特徵；通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，i爲整數且1>i>M，其中，各級的動作識別特徵分別與所述多個目標影片幀的特徵圖對應；通過第M級動作識別網路對第M-1級的動作識別特徵進行處理，獲得所述多個目標影片幀的動作識別特徵。
如請求項2所述的影片處理方法，其中，通過第i級動作識別網路對第i-1級的動作識別特徵進行處理，獲得第i級的動作識別特徵，包括：對所述第i-1級的動作識別特徵進行第一卷積處理，獲得第一特徵信息，其中，所述第一特徵信息分別與所述多個目標影片幀的特徵圖對應；對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息；對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息；至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵。
如請求項3所述的影片處理方法，其中，所述至少根據所述時空特徵信息和所述運動特徵信息，獲得所述第i級的動作識別特徵，包括：根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵。
如請求項3所述的影片處理方法，其中，對所述第一特徵信息進行時空特徵提取處理，獲得時空特徵信息，包括：分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，獲得第二特徵信息，所述第二特徵信息與所述第一特徵信息的維度不同；對所述第二特徵信息的各通道分別進行第二卷積處理，獲得第三特徵信息，其中，所述第三特徵信息表示所述多個目標影片幀的特徵圖的時間特徵；對所述第三特徵信息進行維度重構處理，獲得第四特徵信息，所述第四特徵信息與所述第一特徵信息的維度相同；對所述第四特徵信息進行空間特徵提取處理，獲得所述時空特徵信息。
如請求項5所述的影片處理方法，其中，所述第一特徵信息包括多個行向量或列向量，分別對與所述多個目標影片幀的特徵圖對應的第一特徵信息進行維度重構處理，包括：對所述第一特徵信息的多個行向量或列向量進行拼接處理，獲得所述第二特徵信息，其中，所述第二特徵信息包括一個行向量或列向量。
如請求項3所述的影片處理方法，其中，對所述第一特徵信息進行運動特徵提取處理，獲得運動特徵信息，包括：對所述第一特徵信息的通道進行降維處理，獲得第五特徵信息，其中，所述第五特徵信息分別與所述待處理影片中的各目標影片幀對應；將與第k+1個目標影片幀對應的第五特徵信息進行第三卷積處理，幷與所述第k個目標影片幀對應的第五特徵信息相減，獲得與第k個目標影片幀對應的第六特徵信息，其中，k爲整數且1≤k>T，T爲目標影片幀的數量，且T爲大於1的整數，所述第六特徵信息表示與所述第k+1個目標影片幀對應的第五特徵信息及與所述第k個目標影片幀對應的第五特徵信息之間的運動差異信息；將與所述各目標影片幀對應的第六特徵信息進行特徵提取處理，獲得所述運動特徵信息。
如請求項4所述的影片處理方法，其中，根據所述時空特徵信息、所述運動特徵信息和所述第i-1級的動作識別特徵，獲得所述第i級的動作識別特徵，包括：對所述時空特徵信息和所述運動特徵信息進行求和處理，獲得第七特徵信息；對所述第七特徵信息進行第四卷積處理，並與所述第i-1級的動作識別特徵進行求和處理，獲得所述第i級的動作識別特徵。
如請求項1所述的影片處理方法，其中，根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果，包括：對各目標影片幀的動作識別特徵分別進行全連接處理，獲得各目標影片幀的分類信息；對各目標影片幀的分類信息進行平均處理，獲得所述待處理影片的分類結果。
如請求項1所述的影片處理方法，其中，所述影片處理方法還包括：從待處理影片中確定出多個目標影片幀；所述從待處理影片的多個影片幀中確定出多個目標影片幀，包括：將所述待處理影片劃分爲多個影片片段；從各影片片段中隨機確定出至少一個目標影片幀，獲得多個目標影片幀。
如請求項1所述的影片處理方法，其中，所述影片處理方法通過神經網路實現，所述神經網路至少包括所述特徵提取網路、所述M級動作識別網路，所述影片處理方法還包括：通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練。
如請求項11所述的影片處理方法，其中，通過樣本影片及所述樣本影片的類別標註，對所述神經網路進行訓練，包括：從所述樣本影片中確定出多個樣本影片幀；通過所述神經網路對所述樣本影片幀進行處理，確定所述樣本影片的分類結果；根據所述樣本影片的分類結果及類別標註，確定所述神經網路的網路損失；根據所述網路損失調整所述神經網路的網路參數。
一種影片處理裝置，包括：特徵提取模組，用於通過特徵提取網路對待處理影片的多個目標影片幀進行特徵提取，獲得所述多個目標影片幀的特徵圖；動作識別模組，用於通過M級動作識別網路對所述多個目標影片幀的特徵圖進行動作識別處理，獲得所述多個目標影片幀的動作識別特徵，其中，M爲大於或等於1的整數，所述動作識別處理包括基於所述多個目標影片幀的特徵圖的時空特徵提取處理，以及基於所述多個目標影片幀的特徵圖之間的運動差異信息的運動特徵提取處理，所述動作識別特徵包括時空特徵信息和運動特徵信息；分類模組，用於根據所述多個目標影片幀的動作識別特徵，確定所述待處理影片的分類結果。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲調用所述記憶體儲存的指令，以執行請求項1至12中任意一項所述的方法。
一種電腦可讀儲存媒體，其上儲存有電腦程式指令，其中，所述電腦程式指令被處理器執行時實現請求項1至12中任意一項所述的方法。
一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現請求項1-12中的任一請求項所述的方法。