TWI733420B

TWI733420B - 動作辨識系統

Info

Publication number: TWI733420B
Application number: TW109113503A
Authority: TW
Inventors: 王家慶; 張靜涵; 王建堯; 王建宏
Original assignee: 國立中央大學
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-07-11
Also published as: TW202141344A

Abstract

本揭露提出一種動作辨識系統，包括：電子裝置，包括處理器；以及攝影機，耦接到電子裝置。處理器執行主要執行緒以從攝影機接收即時影像。處理器執行串流執行緒並透過串流執行緒執行移動特徵擷取演算法擷取即時影像的光流特徵。處理器執行預測執行緒並透過預測執行緒執行特徵擷取演算法擷取光流特徵的特徵值並執行預測演算法根據特徵值進行機率預測操作以判斷是否發生預定動作。

Description

動作辨識系統

本揭露是有關於一種動作辨識系統，且特別是有關於一種跌倒動作等人體動作的動作辨識系統。

隨著科技的進步，人類或其他物體、動物等的動作偵測成為一個重要的課題。特別是，由於社會人口結構不斷老化，跌倒成為老年人慢性致殘的第三大原因，因此照護產業日漸受到重視，跌倒偵測的技術研究也不斷向前邁進。現有研究中分別使用了感應偵測器與影像偵測法來做動作辨識。然而，現有的動作辨識方法無法提供精準的辨識效果。因此，如何利用深度學習網路來提升動作辨識的效能是本領域技術人員應致力的目標。

有鑑於此，本揭露提供一種動作辨識系統，利用深度學習網路來提升動作辨識的效能。

基於上述，本揭露的動作辨識系統會接收即時影像並擷取即時影像的光流特徵。接著，處理器擷取光流特徵的特徵值並根據特徵值進行機率預測操作以判斷是否發生預定動作(例如，跌倒動作等動作)。

圖1為根據本揭露一實施例的動作辨識系統的示意圖。

請參照圖1，本揭露一實施例的動作辨識系統包括電子裝置110及攝影機120耦接到電子裝置110。電子裝置110例如是個人電腦、筆記型電腦、智慧型手機或其他類似裝置。電子裝置110可包括處理器及記憶體。電子裝置110及攝影機120可為於家庭區域網路130中。電子裝置110可從攝影機120接收即時影像並透過網際網路140將即時影像傳送到雲端伺服器150。

圖2為根據本揭露一實施例的動作辨識系統的示意圖。

請參照圖2，本揭露一實施例的動作辨識系統可包括多個家庭的電子裝置110及攝影機120。電子裝置110可將事件發送到雲端伺服器140。雲端伺服器140例如是基礎設施即服務(Infrastructure as a Service，IaaS)。

圖3為根據本揭露一實施例的動作辨識系統的流程圖。

請參照圖3，本揭露一實施例的動作辨識系統的流程可包括動作偵測310及雲端服務320。

在步驟S311中，攝影機擷取影像。

在步驟S312中，電子裝置進行影像存檔。

在步驟S313中，電子裝置進行動作偵測。

在步驟S314中，判斷是否發生預定動作。預定動作可包括抽菸動作、打架動作、跌倒動作、起床動作、開門動作。

若發生預定動作則在步驟S321中，將事件通報雲端伺服器。

在步驟S322中，雲端伺服器產生相應操作。例如，發生跌倒動作時通知相關醫療單位。

圖4為根據本揭露一實施例的動作辨識系統的運算流程圖。

請參照圖4，本揭露一實施例的動作辨識系統的運算流程可依序由主執行緒410、串流執行緒420及預測執行緒430所執行。處理器執行主要執行緒410以從攝影機接收即時影像。接著，處理器執行串流執行緒420並透過串流執行緒420執行移動特徵擷取演算法擷取即時影像的光流特徵。最後，處理器執行預測執行緒430並透過預測執行緒430執行特徵擷取演算法擷取光流特徵的特徵值並執行預測演算法根據特徵值進行機率預測操作以判斷是否發生預定動作。處理器還可透過網路將預測執行緒430的判斷結果傳送到雲端伺服器。

具體來說，在步驟S411中，載入模組。上述模組包括光流模組、三維卷積神經網路(3D Convolutional Neural Network，3D CNN)模組及長短期記憶(Long Short Term Memory，LSTM)預測模組。具體來說，主執行緒410進行初始化操作以載入光流模組、3D CNN模組及LSTM預測模組並開啟攝影機的影像串流以接收即時影像。光流模組(即，移動特徵擷取演算法)可捕捉光流影片並獲得物體移動特徵，3D CNN模組(即，特徵擷取演算法)可擷取光流特徵的特徵值，LSTM預測模組(即，預測演算法)可用特徵值進行訓練。

在步驟S412中，輸入影像。例如，開啟攝影機的影像串流以接收即時影像。

在步驟S413中，接收一個影像幀。

在步驟S414中，寫入影片檔。並且，進入步驟S422。

在步驟S421中，初始化參數。例如，將幀索引設定為1並將光流幀設定為空(null)。

在步驟S422中，開始讀取影像幀。

在步驟S423中，擷取光流特徵。同時累加幀索引及光流幀。

在步驟S424中，判斷光流幀是否等於預定幀數。以跌倒偵測為例，一般人跌倒時間約花費兩秒到三秒，若以每秒25幀的攝影機取樣2.2秒來計算則需要55張的光流幀來進行動作辨識(例如，跌倒偵測)。

若是，在步驟S425中，啟動預測執行緒。並且，進入步驟S431。

在步驟S426中，將光流幀設定為空。

在步驟S431中，獲得預定幀數的光流幀。

在步驟S432中，用3D CNN模組擷取光流特徵。

在步驟S433中，用LSTM預測模組擷取光流特徵的特徵值。

在步驟S434中，判斷機率是否大於等於門檻值。

若是，在步驟S435中，上傳預定動作。舉例來說，當LSTM預測模組判斷機率大於0.5時則進行通報。

圖5為根據本揭露一實施例的動作辨識系統的監督式學習流程圖。

請參照圖5，在步驟S501中，訓練資料集並分類註記。

在步驟S502中，降低資料集維度並擷取特徵。降低資料集維度可由光流模組執行，且擷取特徵可由3D CNN模組執行。

在步驟S503中，訓練模型。訓練模型可由LSTM預測模組執行。

在步驟S504中，輸出結果。

在步驟S505中，進行結果評估。評估後可更新訓練參數並重新回到步驟S503中再次訓練模型。

[光流模組]

在一實施例中，光流是從觀察者二維的角度，根據物體上面的特徵點移動所產生的運動向量，上述運動向量可以由每幀推算出來。得到上述運動向量的資訊可以用來追蹤物體。而運動向量是根據影像的亮度變化作為依據。

……………………………(1)

根據方程式(1)的光流约束方程，假如時間t有一點位置為( x, y)，則亮度為

，當時間為

時，亮度為

，因此亮度對光流計算有明顯的影響。拍攝物體靠近鏡頭時光流明顯，而當拍攝物體遠離鏡頭時光流變得不明顯。因此，本揭露提出調整亮度的方式，強化不明顯的區域，以適應各種家庭環境。

光流運算可分為兩種演算法，包括描述部分像素的稀疏光流演算法及描述全部像素的稠密光流(dense optical flow)演算法。本揭露一實施例採用稠密光流演算法，例如「Farneback」光流演算法。經過稠密光流演算法運算後，可得到移動物體的面積，相當於去除背景的效果。在一實施例中，處理完成的光流影片降低為64*48解析度進行3D CNN運算。

[3D CNN模組]

為了對光流影像擷取特徵，本揭露的3D CNN模組提出的網路架構包括兩層卷積層、兩層池化層及一層全連接層。全連接層以雙曲正切函數(Tanh)作為激發函數。

圖6為根據本揭露一實施例的三維卷積神經網路架構圖。

請參照圖6，經過光流處理後，輸入影像為48*64*3*54， 3代表RGB通道。原樣本為55幀並經光流處理為54幀，這54幀為連續動作。因此，採用3D CNN模組很適合從連續影像中提取特徵。為了保留時間維度特徵，又能進行3D卷積，可將輸入影像重新塑形為3*3*48*64*18。具體來說，將54幀拆解成3*18，每次卷積18幀，依序卷積3次，既可保留時間特徵亦可作3D卷積。因此第一個3代表3*18的3，中間3*48*64的3為RGB。

卷積使用的過濾器(filter)為立方體，第一層卷積使用3*3*3大小共16組過濾器，使用整流線性單位函數(Rectified linear unit，ReLU)為激發函數。第一層池化層也使用3*3*3大小過濾器。第二層卷積使用3*3*3大小共32組過濾器，使用ReLU為激發函數。池化層使用3*3*3大小過濾器，輸出512維度，再使用全連接層，激發函數為雙曲正切函數。

[LSTM預測模組]

經過光流模組及3D CNN模組處理後，得到的特徵值維度是3*512。此階段的LSTM預測模組使用此3*512維度作為輸入值。此LSTM預測模組需建立神經網路，包含LSTM遞迴神經網路(Recurrent Neural Networks，RNN)、批次正規化層(Batch Normalization Layer)及脫離層(Dropout Layer)。

LSTM屬於RNN的一種且其特性是擁有較長的短期記憶，適合利用連續影像學習跌倒動作。為了保有時間特徵，輸入值為3*512，需依照順序輸入512維度。訓練過程中，LSTM的閘門控制參數逐漸調整，並將有意義的特徵記憶在記憶體中，就可學習到連續動作的特徵。雖然LSTM有優異的學習能力，但是真正訓練深度神經網路時，卻不盡理想。最常遇到的狀況是，當前一層的鍵結參數改變時，後面幾層的輸入值也都跟著改變，導致訓練速度非常緩慢，而鍵結值初始化也必須十分注意。此現象稱為內部協變量偏移(internal covariate shift)。批次正規化(Batch Normalization，BN)能有效加速深度神經網路訓練，也在LSTM預測模組中使用到。

當鍵結參數改變而造成輸出值變化，甚至影響整個神經網路學習難以收斂時，通常出現原因是訓練資料分布不穩定所造成。BN的概念就是要降低資料內部的偏差變量，針對批次訓練的資料集，或稱為訓練迷你批次(training mini-batch)進行正規化，便可有效降低內部協變量偏移。

圖7為根據本揭露一實施例的批次正規化的示意圖。

請參照圖7，在批次正規化演算法中，先準備迷你批次集合， x _i 為其中一個迷你批次(mini-batch)，經過BN正規化之後，為 y _i 。第一步先求出所有迷你批次的平均值，再計算各迷你批次的變異數，利用變異數正規化 x _i ，最後經過BN計算輸出 y _i ，其中BN的參數β、γ是經過學習得到的參數，因此批次正規化可以做為神經網路的其中一層。

訓練神經網路除了會遇到如內部協變量偏移的現象之外，另一種常見的現象為過度適應(overfitting)。過度適應為當分類模型過度適應訓練資料分布時所產生的現象。

圖8為根據本揭露一實施例的過度適應的示意圖。

請參照圖8，圖示中曲線810是比較好的資料分類，而820曲線因為過度適應，對新的測試資料錯誤率較高，因此是比較不好的資料描述。為了解決過度適應現象，脫離(Dropout)被提出來改善過度適應。

圖9為根據本揭露一實施例的脫離的示意圖。

請參照圖9，在獲得第一輸入910、第二輸入920及第三輸入930時，可先設定機率P。訓練階段時，每次輸入訓練迷你批次，神經元根據P%決定是否丟掉，被丟掉的神經元不產生輸出值。下一輪輸入訓練迷你批次，神經元重新計算P%決定是否丟掉。值得注意的是，當進入測試階段時，脫離的P要修改為1，表示所有神經元都要保留。

圖10為根據本揭露一實施例的LSTM預測模組的示意圖。

請參照圖10，輸入資料為3*512維度，經過批次正規化1010後進行脫離1020，將512維度資料依序進行LSTM 1030，LSTM 1030輸出為128維度，再作一次脫離1040之後輸入全連接層1050，最後依照機率分類為跌倒1060及其他1070。

在倒傳遞訓練階段，誤差函數例如是交叉熵損失(cross entropy loss)函數：

………………..(2)

在方程式(2)中，C為誤差值， n為資料總比數， x為輸入維度， y表示期望值， a表示為輸出值。此方式與傳統誤差平方和最大不同在於，當期望值與輸出值很接近時，誤差平方和會使得誤差值更小，反而不利訓練。使用交叉熵則可以有效放大誤差。在本實施例中，根據誤差函數所使用的最佳化函數為方均根傳播(Root-Mean-Square Propagation，RMSprop)，如以下方程式(3)：

………………………………………………….(3)

…………………………………..(4)

其中， w _t+1 為更新後的鍵結值，

為t時間的梯度值，η為學習率，α為可自行設定。根據方程式(4)中 σ _t 的定義，可以決定更新的鍵結值要參考t-1時間的梯度比較多，還是參考t時間的梯度比較多，進而找到最佳解。

[物體外觀識別]

在一實施例中，本揭露還可對各種物件，例如人(即，人臉)、一般物體、動物、機器人型態進行外觀識別。舉例來說，本揭露先利用半拖曳(ShuffleHalf)演算法作為處理即時影像的臉網(FaceNet)演算法的骨幹網路，其中半拖曳演算法的深度約為拖曳網第二版(ShuffleNet v2)演算法的深度的一半。其次，利用隨後再用(reuse later)演算法及拖曳塊再用(reuse shuffleblock)演算法來重用特徵映射圖，其中隨後再用演算法通過將特徵直接與全連接層相連來重用可能未使用的特徵且拖曳塊再用演算法重用拖曳網第二版的基本構建塊中第一個卷積層輸出的特徵映射圖。接著，隨著通道數量的增加，卷積核大小增加，以獲得相同的感知域大小，同時計算複雜度更低。最後，深度卷積(depthwise convolution)運算可用於替換一些拖曳區塊。半拖曳演算法、隨後再用演算法及拖曳塊再用演算法會在下文中詳細描述。

在一實施例中，本揭露可收集和預處理所需的人、物體、動物、機器人型態外觀圖像數據。同時，可以創建基於假設的CNN架構的設計。然後，可以在計算機程式中實現上述設計。通過使用程式和可用數據集，可以訓練模型。然後，在測試數據集上測試和評估訓練的模型以產生結果。分析並編寫結果以產生最終報告。圖11為根據本揭露一實施例的外觀確認研究的流程圖。請參照圖11，外觀確認研究包括以下步驟。

在步驟S1101中，開始研究。

在步驟S1102中，研讀文件。

在步驟S1103中，準備工具及用具。

在步驟S1104中，收集資料及預處理。

在步驟S1105中，CNN架構設計。

在步驟S1106中，實作程式。

在步驟S1107中，進行訓練。

在步驟S1108中，測試與評估。

在步驟S1109中，撰寫報告。

在步驟S1110中，結束研究。

圖12為根據本揭露一實施例的外觀確認模型的流程圖。

請參照圖12，在步驟S1201中，初始化模型超參數。

在步驟S1202中，收集外觀數據集。例如，人、物體、動物、機器人型態外觀圖像數據。

在步驟S1203中，預處理外觀數據集。

圖12的流程還包括訓練階段S1210及測試階段S1220。

在步驟S1204中，獲得訓練數據。

在步驟S1205中，獲得驗證數據。

在步驟S1206中，訓練模型。

在步驟S1207中，獲得訓練的模型。

在步驟S1208中，獲得測試數據。

在步驟S1209中，測試模型。

在步驟S1230中，輸出外觀判斷。例如，兩個外觀相似或不同。

值得注意的是，在訓練過程中，訓練數據和驗證數據集用於訓練模型。在一實施例中，CASIA網臉可用作訓練數據集，而野外標記臉(Labeled Faces in the Wild，LFW)可用作驗證數據集。訓練過程產生訓練後的模型，以便在測試數據上進行測試。模型的輸出是關於兩個輸入中的人、物體、動物、機器人型態外觀是來自同一物件還是來自不同物件(例如，同一人或不同人)的訊息。

[半拖曳演算法]

表一為根據本揭露一實施例的半拖曳演算法的架構。

[表一]

次數	輸入	運算子	通道	步伐	重覆
1	112 x 112 x 3	卷積3x3, BN, PReLU	24	2	1
2	56 x 56 x 24	拖曳塊3x3	116	2	1
3	28 x 28 x 116	拖曳塊3x3	116	1	2
4	28 x 28 x 116	拖曳塊3x3	232	2	1
5	14 x 14 x 232	拖曳塊3x3	232	1	3
6	14 x 14 x 232	拖曳塊3x3	464	2	1
7	7 x 7 x 464	拖曳塊 3x3	464	1	2
8	7 x 7 x 464	卷積 1x1, BN, PReLU	1024	1	1
9	7 x 7 x 1024	全域深度卷積	1024	-	1
10	1 x 1 x 1024	全連接	512	-	1

具體來說，半拖曳演算法為拖曳網第二版(ShuffleNet v2)演算法的微幅修改。半拖曳演算法的深度約為拖曳網第二版的原始深度的一半。首先，物件影像輸入進入卷積程序具有核心尺寸3x3及步伐(stride)2，由BN來正規化，並且由參數整流線性單位函數(Parametric ReLU，PReLU)激發函數來激發。此程序的輸出被降採樣以產生具有通道尺寸24的特徵圖(feature map)。接著，輸出被傳送到具有核心尺寸3x3及步伐2的拖曳塊來產生具有116通道的降採樣輸出。接著，輸出結果被傳送到具有核心尺寸3x3及步伐1的拖曳塊兩次。輸出結果再次利用核心尺寸3x3及步伐2的拖曳塊來降採樣以產生具有232通道的輸出。接著，輸出結果傳送到具有核心尺寸3x3及步伐1的拖曳塊三次。在這之後，輸出結果再次使用具有核心尺寸3x3及步伐2的拖曳網第二版以產生具有464通道的輸出。隨後，輸出被具有核心尺寸3x3及步伐1的拖曳塊使用兩次。這個程序的輸出傳送到1x1卷機操作，被BN正規化，並被參數整流線性單位函數激發函數來激發以產生具有1024通道的輸出。接著，此輸出使用全域深度卷積操作來降採樣而不用全域池化，以為了特徵圖的每個通道產生一個值。最後，輸出傳送到全連接層使用神經網路進行特徵組合及特徵選擇。此操作的輸出被嵌入512的尺寸。

[隨後再用演算法]

圖13A為根據本揭露一實施例的隨後再用殘餘演算法的示意圖。圖13B為根據本揭露一實施例的隨後再用複製演算法的示意圖。

請參照圖13A及圖13B，最後再用演算法可包括隨後再用殘餘演算法及隨後再用複製演算法。

隨後再用殘餘演算法分割特定特徵圖為兩個輸出。具體來說，特徵圖1301會先進行分割1302。第一輸出為用於下一個操作的特徵圖1303，第二輸出的殘餘1304被降採樣1305並且直接與正常操作的結果串聯1306。串聯1306的結果接著被全連接層1307使用以進行特徵合併及選擇。

隨後再用複製演算法則會將特徵圖1311複製為兩個輸出。複製的第一輸出被作為用於下一個操作的特徵圖1312，且被複製的第二輸出的特徵圖1313被降採樣1316並且直接與正常操作的結果串聯1317。具有核心尺寸1x1的卷積操作1314可用於縮小特徵圖1313的尺寸。批次正規化或激發函數1315也可被用於特徵圖1313。串聯1317的結果接著被全連接層1318使用以進行特徵合併及選擇。

[拖曳塊再用演算法]

圖14為根據本揭露一實施例的拖曳塊再用演算法的示意圖。

請參照圖14，拖曳塊再用演算法可降低1x1卷積的百分比同時增加3x3深度卷積的百分比，因為1x1卷積在運算上是昂貴的。首先，第一個拖曳塊中的1x1卷積1401的特徵圖1402會被複製。接著，被複製的特徵圖1403會被用作多個深度卷積1404的輸入。深度卷積1404的數量與複製被複製的特徵圖1403的數量相同。每個深度卷積1404的結果被傳送到1x1卷積1405的操作。每個1x1卷積1405的輸出除以被複製的特徵圖1403的數量。舉例來說，原始輸出為232且複製數量為4，則每個1x1卷積1405的輸出數量為232/4=58。所有1x1卷積1405的輸出會串聯1406以形成可被下一個操作使用的特徵圖。拖曳塊再用演算法與典型拖曳塊中1x1卷積的計算複雜度相同。唯一額外的計算複雜度從3x3深度卷積而來，其中3x3深度卷積的複雜度遠比1x1卷積的複雜度低。因此，通道數量可小幅減少以補償計算複雜度的增加。

綜上所述，本揭露的動作辨識系統會接收即時影像並擷取即時影像的光流特徵。接著，處理器擷取光流特徵的特徵值並根據特徵值進行機率預測操作以判斷是否發生預定動作(例如，跌倒動作等動作)。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。

110:電子裝置

120:攝影機

130:區域網路

140:網際網路

150:雲端伺服器

310:動作偵測

320:雲端服務

S311~S314、S321~S322:步驟

410:主執行緒

420:串流執行緒

430:預測執行緒

S411~S414、S421~S426、S431~S435:步驟

S501~S505:步驟

810、820:曲線

910:第一輸入

920:第二輸入

930:第三輸入

1010:批次正規化

1020:脫離

1030:LSTM

1040:脫離

1050:全連接層

1060:跌倒

1070:其他

S1101~S1110:步驟

S1201~S1209、S1210、S1220、S1230:步驟

1301:特徵圖

1302:分割

1303:特徵圖

1304:殘餘

1305:降採樣

1306:串聯

1307:全連接層

1311:特徵圖

1312:特徵圖

1313:特徵圖

1314:核心尺寸1x1的卷積操作

1315:批次正規化或激發函數

1316:降採樣

1317:串聯

1318:全連接層

1401:1x1卷積

1402:特徵圖

1403:被複製的特徵圖

1404:深度卷積

1405:1x1卷積

1406:串聯

圖1為根據本揭露一實施例的動作辨識系統的示意圖。圖2為根據本揭露一實施例的動作辨識系統的示意圖。圖3為根據本揭露一實施例的動作辨識系統的流程圖。圖4為根據本揭露一實施例的動作辨識系統的運算流程圖。圖5為根據本揭露一實施例的動作辨識系統的監督式學習流程圖。圖6為根據本揭露一實施例的三維卷積神經網路架構圖。圖7為根據本揭露一實施例的批次正規化的示意圖。圖8為根據本揭露一實施例的過度適應的示意圖。圖9為根據本揭露一實施例的脫離的示意圖。圖10為根據本揭露一實施例的LSTM預測模組的示意圖。圖11為根據本揭露一實施例的外觀確認研究的流程圖。圖12為根據本揭露一實施例的外觀確認模型的流程圖。圖13A為根據本揭露一實施例的隨後再用殘餘演算法的示意圖。圖13B為根據本揭露一實施例的隨後再用複製演算法的示意圖。圖14為根據本揭露一實施例的拖曳塊再用演算法的示意圖。

410:主執行緒

420:串流執行緒

430:預測執行緒

S411~S414、S421~S426、S431~S435:步驟

Claims

一種動作辨識系統，包括：一電子裝置，包括一處理器；以及一攝影機，耦接到該電子裝置，其中該處理器執行一主要執行緒以從該攝影機接收一即時影像；該處理器執行一串流執行緒並透過該串流執行緒執行一移動特徵擷取演算法擷取該即時影像的一光流特徵；以及該處理器執行一預測執行緒並透過該預測執行緒執行一特徵擷取演算法擷取該光流特徵的一特徵值並執行一預測演算法根據該特徵值進行一機率預測操作以判斷是否發生一預定動作，其中該處理器利用一半拖曳演算法(ShuffleHalf)作為處理該即時影像的一骨幹網路，其中該半拖曳演算法的深度約為一拖曳網第二版(ShuffleNet v2)的深度的一半，該處理器利用一隨後再用(reuse later)演算法及拖曳塊再用(reuse shuffleblock)演算法來重用一特徵映射圖，其中該隨後再用演算法通過將一特徵直接與一全連接層相連來重用可能未使用的該特徵且拖曳塊再用演算法重用該拖曳網第二版的一基本構建塊中第一個卷積層輸出的該特徵映射圖。
如請求項1所述的動作辨識系統，其中該處理器透過一網路將該預測執行緒的一判斷結果傳送到一雲端伺服器。
如請求項1所述的動作辨識系統，其中該預定動作包括一抽菸動作、一打架動作、一跌倒動作、一起床動作、一開門動作。
如請求項1所述的動作辨識系統，其中該移動特徵擷取演算法對應一光流模組、該特徵擷取演算法對應一三維卷積神經網路模組且該預測演算法對應一長短期記憶預測模組。
如請求項1所述的動作辨識系統，其中該主執行緒進行一初始化操作以載入該移動特徵擷取演算法、該三特徵擷取演算法及該預測演算法並開啟該攝影機的一影像串流以接收該即時影像。
如請求項1所述的動作辨識系統，其中該串流執行緒執行該移動特徵擷取演算法擷取該即時影像的該光流特徵並判斷已擷取該光流特徵的該即時影像的一幀數是否等於一預定幀數，若該幀數等於該預定幀數則該處理器啟動該預測執行緒，其中該光流特徵為一移動特徵。
如請求項1所述的動作辨識系統，其中該預測執行緒根據該特徵值進行該機率預測操作以判斷該預測演算法所輸出的一機率是否大於等於一門檻值，若機率大於等於該門檻值則判斷發生該預定動作。
如請求項1所述的動作辨識系統，其中該處理器透過該移動特徵擷取演算法降低一訓練資料集的維度並透過該特徵擷取演算法擷取該特徵值，並透過該預測演算法進行一訓練操作。
如請求項1所述的動作辨識系統，其中該移動特徵擷取演算法根據該即時影像中一物體的一特徵點移動所產生的一運動向量來追蹤該物體，並根據一稠密光流演算法得到移動的該物體的一面積。
如請求項1所述的動作辨識系統，其中該特徵擷取演算法包括兩層卷積層、兩層池化層及一層全連接層。
如請求項1所述的動作辨識系統，其中該處理器獲得該特徵值的一維度且該預測演算法使用該維度作為一輸入值。
如請求項1所述的動作辨識系統，其中該處理器收集並預處理一物體的一外觀圖像數據，並在基於一卷積神經網路的一模型中利用一測試數據集訓練該模型以產生一結果並根據該結果產生一報告。
如請求項12所述的動作辨識系統，其中該處理器初始化該模型的一超參數(hyperparameter)並加載該物體的該外觀圖像數據的一數據集，其中一CASIA網臉(webface)用於訓練該數據集且一野外標記臉(Labeled Faces in the Wild，LFW)用於驗證該數據集，該模型的一輸出相關於兩個輸入的外觀對應同一人或不同人。