TWI650711B

TWI650711B - 動作辨識方法以及其系統

Info

Publication number: TWI650711B
Application number: TW107107208A
Authority: TW
Inventors: 王家慶; 王建堯; 江金晉; 林凱君
Original assignee: 國立中央大學
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2019-02-11
Also published as: TW201939347A

Abstract

一種動作辨識方法，包括：接收一影片；根據影片中對應於每個時間點之一當前幀以及一前一幀取得一光流圖；根據上述光流圖取得具有動作特徵之至少一光流注意力；根據當前幀透過一前饋神經網路取得具有目標物件特徵之至少一視覺注意力；以及根據視覺注意力以及光流注意力透過一時間遞歸神經網路判斷影片中至少一物件之動作。

Description

動作辨識方法以及其系統

本發明係有關於一種基於深層學習之動作辨識方法。

動作影片的辨識係考驗對每幀影像的分析以及連續影像所包含資訊的擷取。而於現有技術中，由於影片為具有連續性的輸入資料，因此類神經網路為用於辨視動作影片之常見技術手段。然而，僅使用單一的類神經網路模型所能達到的辨識率仍然有限。舉例來說，當運用以物件之判斷為導向之注意力模型進行動作辨識時，若背景較為複雜，則誤判之機會則會提高。而當以動作之判斷為導向之注意力模型進行動作辨識時，由於攝影機於拍攝可能會隨著拍攝目標移動，因此一些不重要的背景元件可能亦會隨之移動，進而造成誤判之情況出現。因此，如何更準確地獲取每幀影片中的重要資訊為目前必須解決之問題。

本發明一實施例提供一種動作辨識方法，包括：接收一影片；根據影片中對應於每個時間點之一當前幀以及一前一幀取得一光流圖；根據上述光流圖取得具有動作特徵之至少一光流注意力；根據當前幀透過一前饋神經網路取得具有目標物件特徵之至少一視覺注意力；以及根據視覺注意力以及光流注意力透過一時間遞歸神經網路判斷影片中至少一物件之動作。

本發明另一實施例更提供一種動作辨識系統，包括一視訊擷取單元以及一處理器。視訊擷取單元用以取得一影片。處理單元用以：接收影片；根據影片中對應於每個時間點之一當前幀以及一前一幀取得一光流圖；根據光流圖取得具有動作特徵之至少一光流注意力；根據當前幀透過一前饋神經網路取得具有目標物件特徵之至少一視覺注意力；以及根據視覺注意力以及光流注意力透過一時間遞歸神經網路判斷影片中至少一物件之動作。

100‧‧‧動作辨識系統

110‧‧‧處理單元

120‧‧‧儲存單元

130‧‧‧視訊擷取單元

140‧‧‧顯示單元

S401~S405‧‧‧步驟流程

第1圖係顯示根據本發明一實施例所述之動作辨識系統之系統架構圖。

第2圖係顯示根據本發明一實施例所述之注意力模型之示意圖。

第3圖係顯示根據本發明另一實施例所述之注意力模型之示意圖。

第4圖係顯示根據本發明一實施例所述之動作辨識方法之流程圖。

有關本發明之動作辨識方法以及動作辨識系統適用之其他範圍將於接下來所提供之詳述中清楚易見。必須了解的是下列之詳述以及具體之實施例，當提出有關動作辨識方法以及動作辨識系統之示範實施例時，僅作為描述之目的以及並非用以限制本發明之範圍。

第1圖係顯示根據本發明一實施例所述之動作辨識系統之系統架構圖。動作辨識系統100可實施於例如桌上型電腦、筆記型電腦或者平板電腦等的電子裝置中，且至少包含一處理單元110。處理單元110可透過多種方式實施，例如以專用硬體電路或者通用硬體(例如，單一處理器、具平行處理能力之多處理器、圖形處理器或者其它具有運算能力之處理器)，且於執行與本發明各個模型以及流程有關之程式碼或者軟體時，提供之後所描述的功能。動作辨識系統100更包括儲存單元120，用以儲存所取得之影片、執行過程中所需要的資料以及各式各樣的電子檔案，例如各種演算法和/或各個模型等。動作辨識系統100更可包括視訊擷取單元130，例如監視器、攝影機和/或相機等，用以取得連續的影片，並將其回傳至處理單元110。顯示單元140可為顯示面板(例如，薄膜液晶顯示面板、有機發光二極體面板或者其它具顯示能力的面板)，用以顯示影片、拖曳鼠標的移動軌跡、應用程式所提供的使用者介面或者對應於影片之處理結果等，以提供給使用者觀看。動作辨識系統100更可包括一輸入裝置(未顯示)，例如滑鼠、觸控筆或者鍵盤等，用以供使用者執行對應之操作。

第2圖係顯示根據本發明一實施例所述之注意力模型之示意圖。處理單元110於取得影片後，係分別針對每一幀影像進行視覺注意力之運算以獲得對應於目標物件之注意力，以及針對每兩幀影像進行光流注意力之運算以獲得兩張連續影像之差別資訊。舉例來說，如第2圖所示，處理單元110於接收到影像後，係透過卷積神經網路(convolutional neural network,CNN)對每張幀影像進行處理，以取得複數特徵方塊X，每張幀影像中的興趣區域。值得注意的是，由於處理單元110並無法取得對應於第一幀之光流圖，因此處理單元110可選擇從第二幀開始處理。其中，使用者可事先利用各種不同的目標物件對卷積神經網路進行訓練，以從幀影像中判斷出目標物件並取得對應於該些目標物件所對應之區域。

此外，於計算視覺注意力之同時，處理單元110更根據每兩個連續的幀影像取得光流圖，並根據光流圖中所包含之移動資訊以及光流大小產生光流注意力權重值，以對每一幀影像中不同之區域給予不同之權重。舉例來說，當處理單元110對第二幀執行視覺注意力之處理時，處理單元110更同時根據第一幀以及第二幀取得光流圖，以產生對應於第二幀之光流注意力權重值。

一般而言，光流圖係包含三種維度：X軸方向之變化、Y軸方向之變化以及光流大小。而為了明顯地取得光流之變化，可透過結合上述三個維度以取得對應於至少一動作之區域。接著，於取得光流圖後，處理單元110係根據每個區域所對應之不同亮度給予對應之權重值。其中，具有較高亮度之區域係對應至較大之權重值。然而，一般而言，亮度之範圍為0~255，而由於前述之光流圖所取得之亮度值通常為128左右，若直接根據亮度值取得權重可能無法明顯地判斷出具有動作之區域，因此於此一實施例中，更透過以下公式對亮度值進行 d=1,2,3 修正以取得對應於不同區域之權重：其中，flow _t表示對應於第t次時序的調整後的光流權重圖。

此外，光流注意力權重圖更可表示為：其中，表示在第t次時序中，取得光流圖的第d個維度的第 m個像素點。表示為時序t的光流注意力權重，其係由三個維度調整後的光流圖flow _t平均，並透過將值等比例置於0~1之間所取得。

接著，於取得修改後的光流注意力權重圖後，處理單元110透過將光學注意力權重圖與透過卷積神經網路所求得之特徵方塊作點乘，以作為深層學習之輸入。其中，係可透過以下公式取得：其中，每個維度皆透過每張特徵圖逐個像素藉由注意力權重進行調整，最後進行加總以表示該特徵維度之權重。

其中，於本發明之實施例中，係使用三層的長短期記憶(Long Short-Term Memory,LSTM)來判斷目標物件之動作，並可利用最後一層的長短期記憶之輸出透過軟注意力機制計算與預測下一次輸入之注意力權重。值得注意的是，於此一實施例中所述之長短期記憶以事先利用具有各種不同動作之影片進行訓練，以供處理單元110辨識輸入影片中所包含之動作。

此外，當透過攝影機於拍攝影片時，由於攝影機的鏡頭可能會隨著目標物件(即重要特徵)移動，因此將可能造成目標物件之動作特徵於光流圖中變得較不顯著，進而導致光流注意力模型之誤判，使得辨識率降低。因此根據本發明另一實施例，處理單元110於取得光流圖後，更可先對光流圖進行校正，以更準確地取得光流注意力。舉例來說，由於攝影機進行拍攝時，通常係沿著水平方向(即對應於X軸)移動，因此可藉由移除對應於X軸之維度，而僅留下對應於Y軸之維度以及光流大小，以更明顯地表示出目標物件之光流影像。

或者，根據本發明另一實施例，處理單元110更可根據卷積神經網路所取得的各種特徵對光流圖進行校正。舉例來說如第3圖所示，由於單一幀影像於透過卷積神經網路之處理後，即可分辨出影像中重要的特徵以及不重要的特徵，因此當處理單元110判斷出兩張連續幀影像中對應於不重要的特徵之區域出現光流改變時，則表示攝影機可能隨著目標物件移動，而根據光流圖中對應於不重要的特徵之區域之光流移動資訊，將可推算出攝影機的移動方向以及移動位移。接著，處理單元110即可根據前述之移動方向以及移動位移對對應於重要特徵之區域進行補償，以取得接近實際情況之光流資訊。最後，再以校正後的光流注意力以及視覺注意力作為長短期記憶之輸入，以供長短期記憶判斷影片中目標物件之動作。

第4圖係顯示根據本發明一實施例所述之動作辨識方法之流程圖。於步驟S401，視訊擷取單元130取得一影片。於步驟S402，處理單元110自視訊擷取單元130接收取得的影像，根據影片中對應於每個時間點之當前幀以及前一幀取得光流圖。於步驟S403，根據光流圖取得具有動作特徵之至少一光流注意力。於步驟S404，處理單元110透過卷積神經網路取得每一幀中對應至不同重要特徵之複數特徵方塊，並給予具有重要特徵之區域較大之權重，以區別與其它區域之不同，以及作為對應於當前幀之視覺注意力。最後，於步驟S405，於取得光流注意力以及視覺注意力後，處理單元110更根據光流注意力對視覺注意力作點乘，並將其輸入長短期記憶中以判斷影片中至少一物件之動作。

綜上所述，根據本發明一些實施例所提出之動作辨識方法以及動作辨識系統，藉由取得光流圖將可達到動態追蹤之功能，而配合視覺注意力，除了可對光流圖進行校正外，更可進一步地過濾出正在動作之目標物件，提高辨識動作影片的辨視率。

以上敘述許多實施例的特徵，使所屬技術領域中具有通常知識者能夠清楚理解本說明書的形態。所屬技術領域中具有通常知識者能夠理解其可利用本發明揭示內容為基礎以設計或更動其他製程及結構而完成相同於上述實施例的目的及/或達到相同於上述實施例的優點。所屬技術領域中具有通常知識者亦能夠理解不脫離本發明之精神和範圍的等效構造可在不脫離本發明之精神和範圍內作任意之更動、替代與潤飾。

Claims

一種動作辨識方法，藉由一處理單元執行程式以進行以下操作，包括：接收一影片；根據上述影片中對應於每個時間點之一當前幀以及一前一幀取得一光流圖；根據上述光流圖取得具有動作特徵之至少一光流注意力；根據上述當前幀透過一前饋神經網路取得具有目標物件特徵之至少一視覺注意力；以及根據上述視覺注意力以及上述光流注意力透過一時間遞歸神經網路判斷上述影片中至少一物件之動作。
如申請專利範圍第1項所述之動作辨識方法，更包括：根據上述當前幀透過上述前饋神經網路取得複數特徵方塊；以及根據上述特徵方塊對上述光流注意力進行校正。
如申請專利範圍第2項所述之動作辨識方法，其中根據上述特徵方塊對上述光流注意力進行校正之步驟更包括：根據上述特徵方塊判斷上述光流注意力所對應之區塊是否具有上述目標物件特徵；其中，當上述光流注意力所對應之上述區域不具有上述目標物件特徵時，根據上述區域之移動資訊對具有上述目標物件特徵之其它區域進行校正。
如申請專利範圍第1項所述之動作辨識方法，其中上述前饋神經網路為一卷積神經網路。
如申請專利範圍第1項所述之動作辨識方法，其中上述時間遞歸神經網路為一長短期記憶。
一種動作辨識系統，包括：一視訊擷取單元，用以取得一影片；以及一處理單元，執行程式用以進行以下操作，包括：接收上述影片；根據上述影片中對應於每個時間點之一當前幀以及一前一幀取得一光流圖；根據上述光流圖取得具有動作特徵之至少一光流注意力；根據上述當前幀透過一前饋神經網路取得具有目標物件特徵之至少一視覺注意力；以及根據上述視覺注意力以及上述光流注意力透過一時間遞歸神經網路判斷上述影片中至少一物件之動作。
如申請專利範圍第6項所述之動作辨識系統，其中上述處理器更用以：根據上述當前幀透過上述前饋神經網路取得複數特徵方塊；以及根據上述特徵方塊對上述光流注意力進行校正。
如申請專利範圍第7項所述之動作辨識系統，其中上述處理器更用以：根據上述特徵方塊判斷上述光流注意力所對應之區塊是否具有上述目標物件特徵；其中，當上述光流注意力所對應之上述區域不具有上述目標物件特徵時，上述處理器根據上述區域之移動資訊對具有上述目標物件特徵之其它區域進行校正。
如申請專利範圍第6項所述之動作辨識系統，其中上述前饋神經網路為一卷積神經網路。
如申請專利範圍第6項所述之動作辨識系統，其中上述時間遞歸神經網路為一長短期記憶。