TWM610371U

TWM610371U - 動作識別系統

Info

Publication number: TWM610371U
Application number: TW109215820U
Authority: TW
Inventors: 郭景明; 黃柏程; 林鼎; 王志鴻; 魏禹雯; 林謚翔
Original assignee: 艾陽科技股份有限公司
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-04-11

Abstract

本新型提供一種動作識別系統，包含：一影像擷取裝置、一深度影像擷取裝置、一記憶體以及一處理器。處理器包含一輸入模組、一儲存模組、一骨架點計算模組、一映射模組、以及一動作識別模組。動作識別系統可以進一步包含一輸出模組。

Description

動作識別系統

本新型關於一種動作識別系統，特別關於一種多模態影像整合及模擬之動作識別系統。

人類活動識別(Human Action Recognition,HAR)是近年很熱門的研究題材，在情境感知領域、運動監測領域、老人照護領域都已研發出相當多的方法及技術。其中，二維影像中的人體骨架點定位技術已趨成熟，可利用即時(real-time)之二維RGB影像(紅綠藍影像)或IR影像(紅外線影像)辨識並定位出頭部、軀幹、上肢及下肢，進而判斷人類的活動狀態。然而，在某些人類活動識別，僅運用二維的骨架點資訊常常無法進行區分，例如有些動作的骨架點在平面上的投影有多處重疊，因此無法進行辯識與區別。

因此，如圖1所示，更高準確度的人類活動識別還是常常仰賴人體的三維點雲(3D point cloud)座標資訊。使用三維感應器取得之三維點雲座標資訊資訊量極為龐大，因此三維感應器的解析度若太高，需耗費太多資源及時間計算才能得到人體骨架點定位圖，而解析度太低又可能因背景雜訊而無法識別出正確的骨架點，進而使動作識別的正確性降低。因此，亟需一種即時且高正確度之動作識別系統。

本新型提供一種動作識別系統，包含：一影像擷取裝置，用以擷取一時間點之一二維色彩影像或一二維紅外線影像；一深度影像擷取裝置，用以擷取該時間點之一相對應之深度影像；一記憶體，用以儲存一尺寸-深度參數、一畸變模型及一匹配模型；以及一處理器，電訊連接該影像擷取裝置、該深度影像擷取裝置及該記憶體，該處理器包含：一輸入模組，用以接收該二維色彩影像或該二維紅外線影像及相對應之該深度影像；一儲存模組，將該二維色彩影像或該二維紅外線影像、相對應之該深度影像儲存至該記憶體；一骨架點計算模組，用以萃取該二維色彩影像或該二維紅外線影像中之二維人體骨架點資訊，使用該尺寸-深度參數及該畸變模型校正該二維人體骨架點資訊；一映射模組，用以映射該二維人體骨架點資訊至該深度影像以得到該二維人體骨架點資訊所對應之一深度資訊，以及結合經校正之該二維人體骨架點資訊與該深度資訊以得到一三維人體骨架點資訊；以及一動作識別模組，使用一匹配模型針對一段時間之一系列該三維人體骨架點資訊識別一動作。

於某些具體實施例中進一步包含一輸出模組在識別該動作時發出一提示訊號。

於某些具體實施例中，該匹配模型係以類神經網路的深度學習架構建立之分類模型參數。

於某些具體實施例中，該畸變模型係用以校正該二維人體骨架點之像素座標位置與影像畸變中心的距離。

於某些具體實施例中，其中該記憶體進一步儲存一組位移量參數，該深度影像係先以該組位移量參數進行校正。

本新型所提供之動作識別系統可以解決人體三維骨架點計算費時與易受設備解析度或雜訊影響的問題，提出一種多模態(multi-modality)影像整合，並能快速且準確模擬三維骨架點資訊的方法及系統，可以應用於各種即時(real-time)人類活動識別情境，例如跌倒情境偵測。

除非另有定義，本文使用的所有技術和科學術語具有與本新型所屬領域中的技術人員所通常理解相同的含義。

如本文所用，冠詞「一」、「一個」以及「任何」是指一個或多於一個(即至少一個)的物品的文法物品。例如，「一個元件」意指一個元件或於一個元件。

本文所使用的「約」、「大約」或「近乎」一詞實質上代表所述之數值或範圍位於20%以內，較佳為於10%以內，以及更佳者為於5%以內。於文所提供之數字化的量為近似值，意旨若術語「約」、「大約」或「近乎」沒有被使用時亦可被推得。

10:動作識別系統

11:影像擷取裝置

12:深度影像擷取裝置

13:記憶體

14:處理器

141:輸入模組

142:儲存模組

143:骨架點計算模組

144:映射模組

145:動作識別模組

146:輸出模組

S10:步驟10

S20:步驟20

S30:步驟30

S40:步驟40

S50:步驟50

S60:步驟60

圖1為使用三維感應器擷取人體動作計算出之人體骨架點定位圖。

圖2為本新型實施例之動作識別系統方塊圖。

圖3為本新型實施例之動作識別方法流程圖

圖4A為本新型實施例之非跌倒色彩影像骨架點之灰階示意圖。

圖4B為本新型實施例之跌倒動態過程的色彩影像骨架點之灰階示意圖。

圖5A為本新型實施例之非跌倒深度影像骨架點之灰階示意圖。

圖5B為本新型實施例之跌倒動態過程的深度影像骨架點之灰階示意圖。

圖6A為本新型實施例之近距離骨架點座標映射之灰階示意圖。

圖6B為本新型實施例之遠距離骨架點座標映射之灰階示意圖。

圖7為本新型實施例之動作識別之灰階示意圖。

有關於本新型其他技術內容、特點與功效，在以下配合參考圖式之較佳實施例的詳細說明中，將可清楚的呈現。

如圖2所示，本新型實施例提供一種動作識別系統10，包含：一影像擷取裝置11、一深度影像擷取裝置12、一記憶體13以及一處理器14。處理器14包含一輸入模組141、一儲存模組142、一骨架點計算模組143、一映射模組144、以及一動作識別模組145。動作識別系統10可以進一步包含一輸出模組146。

如圖3所示，本新型實施例提供一種動作識別方法，包含：擷取一時間點之一二維色彩影像或一二維紅外線影像及一相對應之深度影像(步驟S10)；萃取該二維色彩影像或該二維紅外線影像中之二維人體骨架點資訊(步驟S20)；映射該二維人體骨架點資訊至該深度影像以取得該二維人體骨架點資訊所對應之一深度資訊(步驟S30)；使用一尺寸-深度參數及一畸變模型校正該二維人體骨架點資訊(步驟S40)；結合經校正之該二維人體骨架點資訊與該深度資訊以得到一三維人體骨架點資訊(步驟S50)；以及使用一匹配模型針對一段時間之一系列該三維人體骨架點資訊識別一動作(步驟S60)。

請同時參考圖2及圖3來理解本新型實施例，影像擷取裝置11係用以擷取一時間點之一二維色彩影像或一二維紅外線影像。二維色彩影像可以為平面的RGB色彩影像，例如常見的照像機擷取的照片或是錄影機擷取的影片之一幀畫面。該二維色彩影像中的每個像素記載了一色彩資訊，其可以為紅色、綠色與藍色之含量矩陣資訊。二維紅外線影像可以為近紅外線照明下的平面灰階影像，常見於夜間識別或偵測，在照明不足的情況下仍可以擷取出解析度不錯的灰階影像。該二維紅外線影像中的每個像素代表紅外線感應器偵測到的紅外線強度。

深度影像擷取裝置12係用以擷取該時間點之一相對應之深度影像，其可以為飛時測距(time of flight,TOF)感測器或景深攝影機(例如：Intel RealSense)。為了能相互映射，因此需在擷取該二維色彩影像或二維紅外線影像時，同時取得相對應的深度影像。深度影像亦為二維影像，只是該二維影像中每個像素是代表該像素所擷取之物體所在平面與感測器間之距離。

記憶體13用以儲存一匹配模型以用來識別不同的動作。在本新型實施例中，以識別跌倒動作為例，感應裝置高度為2公尺，其可以為本新型實施例之影像擷取裝置及深度影像擷取裝置，共拍攝60000張解析度620*350的連續幀圖片，跌倒動態的連續幀圖片與非跌倒動態的連續幀圖片大約各半。採樣跌倒與非跌倒的動態連續幀序列(sequence)，對序列中的每一幀圖片進行二維的人體骨架點計算，並結合對應的深度影像計算出模擬的三維骨架點座標。結合整個序列中時序上每幀的三維骨架點座標得到一四維動態特徵序列作為動作識別的輸入特徵。該三維人體骨架點在時序上的動態座標點序列為動作識別的重要特徵，可使用類神經網路的深度學習架構，例如長短期記憶模型(Long Short-Term Memory,LSTM)或卷積神經網路(CNN)進行深度學習，以建構出能識別出受測者不同的動態活動的匹配模型。

處理器14，電訊連接該影像擷取裝置11、該深度影像擷取裝置及該記憶體12。影像擷取裝置11與深度影像擷取裝置12擷取一時間點之二維色彩影像或二維紅外線影像及相對應之深度影像(步驟S10)後，以有線或無線傳輸給處理器14。輸入模組141係用以接收該二維色彩影像或該二維紅外線影像及相對應之該深度影像。為了方便後續應用，儲存模組142可以將該二維色彩影像或該二維紅外線影像、相對應之該深度影像儲存至該記憶體13以便隨時提取使用。

請同時參考圖4A及圖4B，其為二維色彩影像在非跌倒與跌倒動態過程狀況下的骨架點之灰階示意圖，雖然本新型實施例使用二維色彩影像做為範例並以灰階示意圖呈現，但本新型實施例之系統及方法不限於使用二維色彩影像，二維紅外線影像為灰階影像亦可有相同效果。骨架點計算模組143係用以萃取該二維色彩影像或該二維紅外線影像中之二維人體骨架點資訊(步驟S20)。在二維色彩影像或二維紅外線影像中辨識二維人體骨架點資訊可採用平行卷積網路的架構偵測出關節點位置的置信圖(confidence map)以及得到關節仿射場(Part Affinity Fields)以描述各關節之間的連線程度，再整合兩種特徵對每個肢段進行預測最後得出二維人體骨架點資訊。

二維人體骨架點資訊為一包含二維座標的數據列表，可以指示出真實人體骨架點對應在二維色彩影像或二維紅外線影像上的像素位置，其為真實平面映射到二維色彩影像上之相對位置，常見的態樣可以是18個骨架點之像素位置，也就是一個2x18之矩陣。例如圖4A之非跌倒影像中頭部上的中心點代表鼻子在二維色彩影像中所在的像素位置為(361,88)。

請同時參考圖5A與圖5B，其為深度影像在非跌倒與跌倒動態過程狀況下的骨架點之灰階示意圖。本新型實施例之重點是快速取得三維人體骨架點資訊，採用二維色彩影像或二維紅外線影像先取得平面人體骨架點資訊，再搭配深度影像來組合成三維人體骨架點資訊。因此，先要將二維色彩影像或二維紅外線影像與深度影像進行對應，並在對應的深度影像中取得深度資訊。映射模組144即是用以映射該二維人體骨架點資訊至該深度影像以取得該二維人體骨架點資訊所對應之一深度資訊(步驟S30)。映射二維色彩影像或二維紅外線影像中之人體骨架點資訊至深度影像時，可以在深度影像上相對應於二維色彩影像或二維紅外線影像中人體骨架點之同一像素位置，取得相對應之數值，該數值為該像素所擷取之人體骨架點所在平面與感測器間之距離，也就是深度資訊。

二維色彩影像或二維紅外線影像與深度影像雖是同時擷取，但因兩台影像擷取裝置之間會有些許的距離差，亦或是取像上有不同的視野大小，為了提高映射時的精確度，可以在影像擷取裝置使用前進行簡單的配準校正，以建構一組位移量參數供後續校正該深度影像，使該深度影像的視野大小及影像擷取位置與二維色彩影像或二維紅外線影像相同。使用校正板或一受測物，比對其二維色彩影像或二維紅外線影像與深度影像中的對應位置座標，藉由影像形變(mesh warping)與反向映射(reverse mapping)產生配準校正後的深度影像，使同一個特徵在深度影像之像素位置與該特徵在二維色彩影像或二維紅外線影像中之像素位置一致。這個配準校正後的深度影像的一組位移量參數即可應用於後續之深度影像校正，並可以儲存在記憶體13。這組位移量參數範例可以為幾個重要校正點之位移量，其餘的座標以內插方式調整，以節省運算時間。

如圖6A及圖6B所示，同一個受測者與影像擷取裝置，當受測者在不同的距離下，其投射在二維色彩影像上有不同的尺寸。離影像擷取裝置越近則拍出來的人物越大(圖6A)，離影像擷取裝置越遠則拍出來的人物越小(圖6B)。即使是同一受測者，因為投射尺寸的大小不一致而使人體骨架點間的距離不一致，會導致後續的動作識別誤差，因此需要將在二維色彩影像或二維紅外線影像中所偵測到的二維人體骨架點依據其對應的深度資訊來還原出一致的比例尺度的座標空間，以利模擬重建人體骨架點之三維卡式座標(Cartesian coordinate system)位置。由於這樣的還原只需要對已經萃取出的二維人體骨架點資訊進行，因此可以節省大量的時間及資源。

藉由測量校正板或測量同一物件在不同位置下的對應影像尺寸，再藉由線性內插的方式計算出校正板或受測物在不同距離下的對應比例尺度，得到一尺寸-深度參數。尺寸-深度參數可以儲存在記憶體13，骨架點計算模組143可以使用尺寸-深度參數校正二維人體骨架點資訊(步驟S40)，也就是先取得二維色彩影像或二維紅外線影像中的二維人體骨架點資訊相對應的深度資訊，並以尺寸-深度參數計算對應的比例尺度進行二維人體骨架點資訊的校正還原，以將不同深度之人體骨架大小調整至同一尺度。

然而，由於每個影像擷取裝置的鏡頭其鏡面曲率會造成離影像上的畸變失真。即使在二維影像中的失真效果並不明顯，但在對應深度的比例尺度還原上會放大影像的畸變失真，造成人體的三維骨架點在尺度還原後會有肢體不對稱的問題，尤其在距離影像擷取裝置越遠或越偏離拍攝中心點時，在座標還原後的畸變失真會越嚴重。

為解決此問題，需要針對不同的拍攝裝置進行影像畸變校正還原。使用校正板擷取多張二維色彩影像或二維紅外線影像，計算出鏡頭的內部曲率參數k，藉由division畸變模型L(r)採用反向映射作校正還原。

，其中

、

為校正後的點座標，x、y為原始影像點座標，x _c、y _c為畸變中心點。L(r)為畸變模型，

，r為原始座標距離畸變中心點的距離。對二維色彩影像或二維紅外線影像進行畸變校正還原。畸變模型可以儲存在記憶體13，骨架點計算模組143可以使用畸變模型校正二維人體骨架點資訊(步驟S40)。接著，映射模組144結合經校正之該二維人體骨架點資訊與該深度資訊以計算得到一三維人體骨架點資訊(步驟S50)，此三維人體骨架點資訊也就非常接近真實的骨架點空間位置。

如圖7所示，本新型實施例可以應用在跌倒偵測領域，但不限於跌倒領域，亦可用在運動訓練領域等。動作識別模組145係使用一匹配模型針對一段時間之一系列該三維人體骨架點資訊識別一動作(步驟S60)。一段時間之一系列該三維人體骨架點資訊可以是一個四維矩陣，也就是一段連續時間之三維人體骨架點資訊，常用的時間長度可以為1至2秒，更佳為1.5秒，以達到即時的動作識別。將動作識別示意圖標記在深度影像中時，可以使用假色(pseudo color)代表不同的深度資訊，例如紅色代表距離影像擷取裝置近，藍色代表距離影像擷取裝置遠。該匹配模型係以深度學習架構建立之行為分類模型參數，用於計算當下受測者的動態動作與模型中的何者動作較為匹配，以判斷識別出一動作，例如跌倒。

本新型實施例之動作識別系統10更進一步包含一輸出模組146在識別該動作時發出一提示訊號。在跌倒偵測領域，提示訊號可以觸發一警鈴或一電話撥出動作，以通知家人或警察單位。圖7左欄顯示不同跌倒偵測區域，右上欄顯示有跌倒提示訊號，並於右下欄顯示偵測到的跌倒畫面。

本新型實施例採用RGB二維色彩影像或二維紅外線影像萃取出二維人體骨架點資訊，且結合深度資訊以快速模擬出一段時間之一系列三維人體骨架點座標作為行為識別的輸入特徵，不僅相較於二維人體骨架點精準，更比三維感測器測出的三維人體骨架點節省資源與計算時間。若做為年長者在長照即時看護上的跌倒偵測系統應用，可以解決許多平面骨架點在動作/行為上因骨架點在平面上的多處重疊而無法準確辨識的問題。