TW202147077A

TW202147077A - 產生手勢辨識模型之計算裝置與方法及手勢辨識裝置

Info

Publication number: TW202147077A
Application number: TW109119879A
Authority: TW
Inventors: 蔡宗漢; 何元禎
Original assignee: 國立中央大學
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2021-12-16
Also published as: TWI760769B

Abstract

一計算裝置以複數個訓練影像及複數個正確手部位置資訊訓練一手部切割網路，以使其輸出相應於該等訓練影像之至少一手部切割影像。該第一手部切割網路至少包含複數個第一深度可分離卷積區塊。該計算裝置還以複數個正確手勢資訊以及該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊，訓練一手勢分類網路，以使其推論影像中之至少一手勢，進而獲得由訓練後之該等第一深度可分離卷積區塊以及該手勢分類網路所組成之一手勢辨識模型。

Description

產生手勢辨識模型之計算裝置與方法及手勢辨識裝置

本揭露與產生手勢辨識模型之計算裝置與方法以及手勢辨識裝置有關。更具體而言，本揭露與透過將用於切割手部影像之一手部切割網路訓練為一注意力模型，並將其參數用以訓練用於分類影像中之手勢之一手勢分類網路，進而產生手勢辨識模型之計算裝置與方法以及使用該手勢辨識模型之手勢辨識裝置有關。

傳統基於深度學習之手勢辨識模型之架構普遍將用於切割出訓練影像中之至少一手部影像之一第一深度學習神經網路之輸出（即，相應於訓練影像的至少一手部切割影像）做為用於分類影像中之手勢之一第二深度學習神經網路之輸入。在此模型架構下，除了於該手勢辨識模型之訓練階段需要針對該第一深度學習神經網路以及該第二深度學習神經網路各自進行訓練之外，訓練完之該手勢辨識模型於實際辨識時仍需先針對輸入之影像透過該第一深度學習神經網路進行手部影像之切割，隨後方能藉由該第二深度學習神經網路來針對所切割之手部影像進行手勢之分類，從而完成手勢辨識。

儘管先進行手部切割之運作模式一定程度地提升了手部辨識之準確率，其辨識效率卻也因需由兩組深度學習神經網路依序進行推論而下降。有鑑於此，提供一種兼具準確率與辨識效率之手勢辨識模型架構及其訓練方法是相當重要的。

為了至少解決上述問題，本揭露提供一種產生一手勢辨識模型之計算裝置。該計算裝置可包含一儲存器以及與該儲存器電性連接之一處理器。該儲存器可用以儲存一手部切割網路以及一手勢分類網路。該手部切割網路可至少包含複數個第一深度可分離卷積區塊，各該第一深度可分離卷積區塊可包含至少一最大池化層，且該等第一深度可分離卷積區塊可具有一順序。該處理器可用以以複數個訓練影像以及複數個正確手部位置資訊，訓練該手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像。該等正確手部位置資訊是關於該至少一手部物件在該等訓練影像中之位置。此外，該處理器還可用以以複數個正確手勢資訊以及該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢。該手勢辨識模型可由訓練後之該等第一深度可分離卷積區塊以及該手勢分類網路所組成。該等正確手勢資訊是關於該至少一手部物件在該等訓練影像中之手勢。此外，該手部切割網路以及該手勢分類網路皆為一深度可分離卷積神經網路。

為了至少解決上述問題，本揭露還提供一種用於產生一手勢辨識模型之方法。該方法可由一計算裝置所執行，且該計算裝置可儲存一手部切割網路以及一手勢分類網路。該手部切割網路可至少包含複數個第一深度可分離卷積區塊，各該第一深度可分離卷積區塊可包含至少一最大池化層，且該等第一深度可分離卷積區塊可具有一順序。該方法可包含：以複數個訓練影像以及複數個正確手部位置資訊，訓練一手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像，其中該等正確手部位置資訊是關於該至少一手部物件在該等訓練影像中之位置；以及以複數個正確手勢資訊以及該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢，進而獲得由訓練後之該等第一深度可分離卷積區塊以及該手勢分類網路所組成之該手勢辨識模型。該等正確手勢資訊是關於該至少一手部物件在該等訓練影像中之手勢。此外，該手部切割網路以及該手勢分類網路皆為一深度可分離卷積神經網路。

為了至少解決上述問題，本揭露還提供一種手勢辨識裝置。該手勢辨識裝置可包含一儲存器以及與該儲存器電性連接之一處理器。該儲存器可用以儲存一深度學習模型。該深度學習模型可包含複數個第一深度可分離卷積區塊以及一手勢分類網路。各該第一深度可分離卷積區塊可包含至少一最大池化層，該等第一深度可分離卷積區塊可具有一順序，且該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊可被用以作為該手勢分類網路之一輸入。該處理器可用以透過該深度學習模型辨識一目標影像中之至少一手部之至少一手勢。該深度學習模型可透過以下步驟而獲得：以複數個訓練影像以及複數個正確手部位置資訊，訓練一手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像，其中該手部切割網路至少包含該等第一深度可分離卷積區塊，且該等正確手部位置資訊是關於該至少一手部物件在該等訓練影像中之位置；以及以複數個正確手勢資訊以及該等輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢。

如上所述，本揭露之手勢辨識模型以手部切割網路之參數（即，深度可分離卷積區塊之輸出）做為手勢分類模型之輸入，至於手部切割網路之完整輸出（即，手部切割影像）僅做為手勢辨識模型之另一輸出，而不必做為手勢分類網路之輸入。在此架構下，本揭露之手勢辨識模型以手部切割網路做為一注意力模型來訓練手勢分類網路，而在訓練後之實際辨識階段中，手勢分類網路卻無須等待手部切割網路之推論結果便能進行手勢分類。據此，本揭露之手勢辨識模型之架構及訓練方法提升了手勢辨識的效率，同時卻也不喪失由「先進行手部切割而後進行手勢分類」之辨識模式所帶來之辨識準確率，故其確實有效地解決了傳統基於深度學習之手勢辨識模型所面臨的上述技術問題。

以上內容並非為了限制本發明，而只是概括地敘述了本發明可解決的技術問題、可採用的技術手段以及可達到的技術功效，俾使本發明所屬技術領域中具有通常知識者初步地瞭解本發明。根據檢附的圖式及以下的實施方式所記載的內容，本發明所屬技術領域中具有通常知識者能理解所請求保護之發明之特徵。

以下所述各種實施例並非用以限制本發明只能在所述的環境、應用、結構、流程或步驟方能實施。於圖式中，與本發明的實施例非直接相關的元件皆已省略。於圖式中，各元件的尺寸以及各元件之間的比例僅是範例，而非用以限制本發明。除了特別說明之外，在以下內容中，相同（或相近）的元件符號可對應至相同（或相近）的元件。在可被實現的情況下，如未特別說明，以下所述的每一個元件的數量是指一個或多個。

第1圖例示了根據本發明的一或多個實施例的用於產生手勢辨識模型的計算裝置。第1圖所示內容僅是為了說明本發明的實施例，而非為了限制本發明。

參照第1圖，一種產生一手勢辨識模型的一計算裝置1可包含一儲存器11以及一處理器12。儲存器11可與處理器12電性連接，且可用以儲存一手部切割網路01以及一手勢分類網路02。處理器12可用以訓練手部切割網路01以及手勢分類網路02。

手部切割網路01與手勢分類網路02皆可為一深度可分離卷積（depthwise separable convolutional）神經網路。手部切割網路01於經過處理器12之訓練後可用以偵測所輸入之影像當中存在之一手部，並依據其自身之參數設定而輸出包含該手部之一手部切割影像。手勢分類網路02於經過處理器12之訓練後可用以識別所輸入之影像所包含之手部所對應的一手勢。

儲存器11可用以儲存計算裝置1所產生的資料或由外部傳入的資料，例如用於訓練手部切割網路01及／或手勢分類網路02的訓練資料。儲存器11可包含第一級記憶體（又稱主記憶體或內部記憶體），且處理器12可直接讀取儲存在第一級記憶體內的指令集，並在需要時執行這些指令集。儲存器11可選擇性地包含第二級記憶體（又稱外部記憶體或輔助記憶體），且此記憶體可透過資料緩衝器將儲存的資料傳送至第一級記憶體。舉例而言，第二級記憶體可以是但不限於：硬碟、光碟等。儲存器11可選擇性地包含第三級記憶體，亦即，可直接插入或自電腦拔除的儲存裝置，例如隨身硬碟。在某些實施例中，儲存器11還可選擇性地包含一雲端儲存單元。

處理器12可以是具備訊號處理功能的微處理器（microprocessor）或微控制器（microcontroller）等。微處理器或微控制器是一種可程式化的特殊積體電路，其具有運算、儲存、輸出／輸入等能力，且可接受並處理各種編碼指令，藉以進行各種邏輯運算與算術運算，並輸出相應的運算結果。處理器12可被編程以在計算裝置1中執行各種運算或程式。舉例而言，處理器12可以是一計算機所包含之一中央處理單元（CPU）或一圖形處理單元（GPU）等。在某些實施例中，處理器12可實作於一場域可程式化邏輯閘陣列（Field Programmable Gate Array，FPGA）之上。

第2A圖例示了根據本發明的一或多個實施例的手部切割網路以及手勢分類網路。第2B圖例示了第2A圖中所示之第一深度可分離卷積區塊。第2C圖例示了第2A圖中所示之深度可分離反卷積區塊以及第二深度可分離卷積區塊。第2A圖、第2B圖以及第2C圖所示內容僅是為了說明本發明的實施例，而非為了限制本發明。

同時參照第1圖以及第2A圖，手部切割網路01可包含複數個第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4、複數個深度可分離反卷積區塊DSC1、DSC2、DSC3與DSC4以及複數個第二深度可分離卷積區塊SSC1、SSC2與SSC3。手勢分類網路02可包含複數個深度可分離卷積區塊SC01與SC02以及複數個深度可分離卷積層SCL01與SCL02。

處理器12可使用複數個訓練影像21以及複數個正確手部位置資訊來訓練手部切割網路01，以使手部切割網路01學習偵測訓練影像21中的手部位置，並且輸出相應於該等訓練影像之手部切割影像HS1、HS2與HS3。該等正確手部位置資訊是關於該至少一手部物件在訓練影像21中之位置，且可以是例如但不限於「OUHANDS」資料庫中關於包含手部的邊框（bounding box）位置的基準真相（ground truth）。手勢分類網路02可使用第一深度可分離卷積區塊FSC4輸出之特徵資訊FI作為其輸入，並且據以輸出其所推論之一手勢結果C1。所述手勢結果C1可以是關於一手部之手指之各種排列組合及／或手掌之開合所形成之各種手部靜止動作。

根據上述網路架構，當處理器12訓練手部切割網路01時，其中各區塊之參數及輸出資訊將隨之而被更新，而由於手勢分類網路02可使用特徵資訊FI作為輸入，故手勢分類網路02的訓練將受手部切割網路01的訓練效果所影響。此外，由於第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4參與了手勢分類網路02之訓練及推論過程，故於訓練手勢分類網路02時，第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4中的參數亦將隨之而被更新。手部切割網路01與手勢分類網路02的訓練可同時進行，而隨著手部切割網路01的訓練趨於完善，手勢分類網路02便能更準確地掌握影像中的手部位置資訊，其訓練效果及速度亦將因此提升。

在完成手部切割網路01與手勢分類網路02的訓練後，可由第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4以及手勢分類網路02組成一手勢辨識模型，進而完成手勢辨識模型之訓練。由於手部切割網路01當中僅第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4參與了該手勢辨識模型的推論，故該手勢辨識模型在推論時無需等待手部切割網路01完成所有的推論便可直接進行後續之手勢分類，因而具有高於現有技術之手勢辨識效率。

在某些實施例中，為提升手勢辨識之準確率，除了手部切割之外，處理器12還可使用複數個正確手部輪廓資訊來訓練手部切割網路01，以使手部切割網路01額外地關注影像中之手部輪廓，並額外地輸出相應於輸入影像之手部輪廓影像HO1、HO2與HO3。據此，經處理器12訓練後之手部切割網路01於推論時產生之特徵可包含影像中之手部輪廓資訊，而接收第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4的特徵的手勢分類網路02便可因此注意到手部輪廓資訊，進而達到注意力模型之效果。在某些實施例中，該等正確手部輪廓資訊可以是基於一邊緣檢測運算元所產生，且該邊緣檢測運算元可以是例如但不限於「Sobel」運算元、「Roberts Cross」運算元、「Prewitt」運算元、「Canny」運算元、或羅盤運算元等。

同時參照第1圖、第2A圖以及第2B圖，第一深度可分離卷積區塊FSC1、FSC2、FSC3、FSC4之每一者可包含至少一最大池化層、複數個深度可分離卷積層以及複數個批次正規化層。最大池化層可用以降低各個第一深度可分離卷積區塊輸出特徵的維度。舉例而言，第一深度可分離卷積區塊FSC1、FSC2、FSC3、FSC4之每一者輸出之特徵資訊之解析度皆可為其輸入資訊的四分之一。以第一深度可分離卷積區塊FSC1為例，其可包含最大池化層MP、深度可分離卷積層SCL11、SCL12與SCL13以及批次正規化層BN11、BN12與BN13。

深度可分離反卷積區塊DSC1、DSC2、DSC3、DSC4之每一者可提高其輸出特徵之維度（例如，輸出資訊的解析度可為輸入資訊的四倍），而第二深度可分離卷積區塊SSC1、SSC2、SSC3之每一者可輸出手部切割網路01之推論結果，亦即，具有不同維度的複數個手部切割影像HS1、HS2與HS3。

第一深度可分離卷積區塊FSC1、FSC2、FSC3、FSC4可具有一順序。在某些實施例中，第一深度可分離卷積區塊FSC1、FSC2、FSC3、FSC4之該順序可基於各個第一深度可分離卷積區塊所對應之卷積核數量，且可以是一遞增關係。舉例而言，第一深度可分離卷積區塊FSC1、第一深度可分離卷積區塊FSC2、第一深度可分離卷積區塊FSC3以及第一深度可分離卷積區塊FSC4所對應之卷積核數量可分別為「32個」、「64個」、「128個」以及「256個」。所述卷積核數量可表示該第一深度可分離卷積區塊中的每個卷積層使用多少個卷積核來提取特徵。

在某些實施例中，深度可分離反卷積區塊DSC1、DSC2、DSC3、DSC4所對應之卷積核數量亦可為一遞增關係。舉例而言，深度可分離反卷積區塊DSC1、DSC2、DSC3、DSC4所對應之卷積核數量可分別為「16個」、「32個」、「64個」以及「128個」。

在某些實施例中，可基於殘差學習（Residual Learning）之概念，將相同解析度的特徵圖合併後作為下一層的輸入。舉例而言，可將第一深度可分離卷積區塊FSC1之輸出資訊與深度可分離反卷積區塊DSC2之輸出資訊合併，作為第二深度可分離卷積區塊SSC1之輸入資訊。

參照第1圖、第2A圖以及第2C圖，在某些實施例中，深度可分離反卷積區塊DSC1、DSC2、DSC3、DSC4之每一者可包含至少一反卷積層、複數個深度可分離卷積層以及複數個批次正規化層。第二深度可分離卷積區塊SSC1、SSC2、SSC3之每一者可包含一批次正規化層以及至少一深度可分離卷積層。以深度可分離反卷積區塊DSC2以及第二深度可分離卷積區塊SSC2為例，深度可分離反卷積區塊DSC2可包含一反卷積層DCL1、深度可分離卷積層SCL21與SCL22以及批次正規化層BN21、BN22與BN23，而第二深度可分離卷積區塊SSC2可包含深度可分離卷積層SCL31與SCL32以及批次正規化層BN31。除此之外，深度可分離反卷積區塊DSC2還可包含一串接運算模組COM，以串接其所接收之二筆輸入資訊。

在某些實施例中，當處理器12使用該等正確手部輪廓資訊訓練手部切割網路01時，第二深度可分離卷積區塊SSC1、SSC2、SSC3之每一者可包含二個深度可分離卷積層，以輸出不同維度的手部切割影像HS1、HS2與HS3以及手部輪廓影像HO1、HO2與HO3。舉例而言，第二深度可分離卷積區塊SSC2中的深度可分離卷積層SCL31可用以輸出手部切割影像HS2，而深度可分離卷積層SCL32可用以輸出手部輪廓影像HO2。

在某些實施例中，為了提升手部切割網路01的訓練品質，處理器12於開始訓練前可用以產生該等訓練影像21。具體而言，處理器12可基於現有之正確手部位置資訊（例如但不限於前述「OUHANDS」資料庫中關於包含手部的邊框位置的基準真相）來切割出現有的RGB影像中所包含之手部，並且機於下方公式而將包含該手部之影像合成至包含各種場景之背景影像，以產生該等訓練影像21：

（式1）其中，「y」代表輸出之影像；「x」代表背景影像；「g」代表正確之切割影像；「h」代表包含手部之影像；「i」跟「j」代表像素之位置；「c」代表像素之通道。舉例而言，背景影像可自例如但不限於「Pascal VOC 2012」資料集中獲得。在某些實施例中，處理器12於訓練過程中還可透過改變訓練影像21中手部及／或背景的亮度、旋轉以及裁剪等資料增強手段來避免過度擬合。

第3圖例示了根據本發明的一或多個實施例的手勢辨識裝置。第3圖所示內容僅是為了說明本發明的實施例，而非為了限制本發明。

參照第1圖、第2A圖以及第3圖，一手勢辨識裝置3可包含一儲存器31以及一處理器32。儲存器31可與處理器32電性連接，且可用以儲存一深度學習模型311。儲存器31與處理器32可分別具有相似於前述之儲存器11與處理器12之硬體結構及／或實施方式，故不再贅述。

深度學習模型311可以是由前述之計算裝置1所訓練及產生之該手勢辨識模型，故同樣可包含由前述訓練手段所訓練後的複數個第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4以及一手勢分類網路02。據此，處理器32可透過深度學習模型311辨識一目標影像中之至少一手部之至少一手勢。由於本發明所屬技術領域中具有通常知識者可根據上文針對計算裝置11的說明而瞭解第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4以及手勢分類網路02之細部架構及／或其他實施例，故於此不再贅述。

如前所述，由於深度學習模型311是透過訓練手部切割網路01以及手勢分類網路02而獲得的，故訓練後之第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4可輸出上述相關於手部位置資訊的特徵至手勢分類網路02進行推論。又因深度學習模型311並未包含手部切割網路01中除了第一深度可分離卷積區塊FSC1、FSC2、FSC3與FSC4之外的其他部分，故除了手勢辨識之效率依舊高於現有技術之外，手勢辨識裝置3於進行手勢辨識時相較於計算裝置1可花費更少之運算及／或儲存資源。

在某些實施例中，處理器32可包含一第一隨機存取記憶體以及一第二隨機存取記憶體，用以暫時存放處理器32進行上述運算時所需要及／或產生之資料。該第一隨機存取記憶體與該第二隨機存取記憶體共同作為一乒乓緩衝記憶體（Ping-Pong RAM）組，以減少與外部記憶體（例如但不限於：儲存器31）存取之次數，進而提升處理器32進行卷積運算之速度。具體而言，在某些實施例中，處理器32還可包含一深度卷積（depthwise convolution）模組以及一逐點卷積（pointwise convolution）模組。該深度卷積模組與該逐點卷積模組分別是處理器32中用以執行深度可分離卷積神經網路中常見之深度卷積運算與逐點卷積運算的邏輯區塊。當處理器32要開始進行前述手勢辨識模型之訓練或推論時，可首先透過一儲存器控制介面（用以與儲存器31進行互動）而從儲存器31讀取輸入影像，並且寫入該第一隨機存取記憶體（用以作為「Ping RAM」）。接著，該深度卷積模組便可自該第一隨機存取記憶體讀取所需之影像，以進行深度卷積運算。運算後所產生之特徵圖（feature map）可儲存於該第二隨機存取記憶體（用以作為「Pong RAM」），再透過該儲存器控制介面而將其寫入儲存器31。當該深度卷積模組完成運算後，可改由該逐點卷積模組進行運算，該逐點卷積模組運作的原理及資料的讀取／寫入方法與該深度卷積模組相似，故不再贅述。

第4圖例示了根據本發明的一或多個實施例的用於產生手勢辨識模型之方法。第4圖所示內容僅是為了說明本發明的實施例，而非為了限制本發明。

參照第4圖，一種產生一手勢辨識模型之方法4可由一計算裝置所執行。該計算裝置可儲存一手部切割網路以及一手勢分類網路。該手部切割網路可至少包含複數個第一深度可分離卷積區塊，各該第一深度可分離卷積區塊包含至少一最大池化層，且該等第一深度可分離卷積區塊具有一順序。方法4可包含以下步驟：以複數個訓練影像以及複數個正確手部位置資訊，訓練一手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像（標示為401）；以及以複數個正確手勢資訊以及該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢，進而獲得由訓練後之該等第一深度可分離卷積區塊以及該手勢分類網路所組成之該手勢辨識模型（標示為402）。該等正確手部位置資訊可以是關於該至少一手部物件在該等訓練影像中之位置。該等正確手勢資訊可以是關於該至少一手部物件在該等訓練影像中之手勢。該手部切割網路以及該手勢分類網路皆可為一深度可分離卷積神經網路。

在某些實施例中，產生手勢辨識模型之方法4還可包含以下步驟：以該等訓練影像、該等正確手勢資訊、該等輸出資訊以及複數個正確手部輪廓資訊訓練該手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部輪廓影像。該等正確手部輪廓資訊可以是關於該至少一手部物件在該等訓練影像中之輪廓。

在某些實施例中，產生手勢辨識模型之方法4還可包含以下步驟：基於一邊緣檢測運算元，產生該等正確手部輪廓資訊。

在某些實施例中，關於用於產生手勢辨識模型之方法4，該手部切割網路還可包含複數個深度可分離反卷積區塊以及複數個第二深度可分離卷積區塊，且該手部切割網路可用以作為輔助訓練該手勢分類網路之一注意力模型。

在某些實施例中，關於產生手勢辨識模型之方法4，該順序可以是基於一卷積核數量之一遞增關係。

在某些實施例中，關於產生手勢辨識模型之方法4，該計算裝置之一處理器可包含一第一隨機存取記憶體以及一第二隨機存取記憶體，且該第一隨機存取記憶體與該第二隨機存取記憶體可用以共同作為一乒乓緩衝記憶體組，以提升該處理器進行卷積運算之速度。

除了上述實施例之外，產生手勢辨識模型之方法4還包含與計算裝置1的上述所有實施例相對應的其他實施例。因本發明所屬技術領域中具有通常知識者可根據上文針對計算裝置1的說明而瞭解產生手勢辨識模型之方法4的這些其他實施例，故於此不再贅述。

雖然本文揭露了多個實施例，但該等實施例並非用以限制本發明，且在不脫離本發明的精神和範圍的情況下，該等實施例的等效物或方法（例如，對上述實施例進行修改及／或合併）亦是本發明的一部分。本發明的範圍以申請專利範圍所界定的內容為準。

如下所示： 01:手部切割網路 02:手勢分類網路 1:計算裝置 11:儲存器 12:處理器 21:訓練影像 3:手勢辨識裝置 31:儲存器 311:深度學習模型 32:處理器 4:產生手勢辨識模型之方法 401、402:步驟 BN11、BN12、BN13、BN21、BN22、BN23、BN31:批次正規化層 C1:手勢結果 DCL1:反卷積層 DSC1、DSC2、DSC3、DSC4:深度可分離反卷積區塊 FI:特徵資訊 FSC1、FSC2、FSC3、FSC4:第一深度可分離卷積區塊 HO1、HO2、HO3:手部輪廓影像 HS1、HS2、HS3:手部切割影像 MP:最大池化層 SC01、SC02:深度可分離卷積區塊 SCL01、SCL02、SCL11、SCL12、SCL13、SCL21、SCL22、SCL31、SCL32:深度可分離卷積層 SSC1、SSC2、SSC3:第二深度可分離卷積區塊

第1圖例示了根據本發明的一或多個實施例的用於產生手勢辨識模型的計算裝置。第2A圖例示了根據本發明的一或多個實施例的手部切割網路以及手勢分類網路。第2B圖例示了第2A圖中所示之第一深度可分離卷積區塊。第2C圖例示了第2A圖中所示之深度可分離反卷積區塊以及第二深度可分離卷積區塊。第3圖例示了根據本發明的一或多個實施例的手勢辨識裝置。第4圖例示了根據本發明的一或多個實施例的用於產生手勢辨識模型之方法。

無

4:產生手勢辨識模型之方法

401、402:步驟

Claims

一種產生一手勢辨識模型之計算裝置，包含：一儲存器，用以儲存一手部切割網路以及一手勢分類網路，其中該手部切割網路至少包含複數個第一深度可分離卷積區塊，各該第一深度可分離卷積區塊包含至少一最大池化層，且該等第一深度可分離卷積區塊具有一順序；以及一處理器，與該儲存器電性連接，用以：以複數個訓練影像以及複數個正確手部位置資訊，訓練該手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像，其中該等正確手部位置資訊是關於該至少一手部物件在該等訓練影像中之位置；以及以複數個正確手勢資訊以及該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢，進而獲得由訓練後之該等第一深度可分離卷積區塊以及該手勢分類網路所組成之該手勢辨識模型，其中該等正確手勢資訊是關於該至少一手部物件在該等訓練影像中之手勢，且該手部切割網路以及該手勢分類網路皆為一深度可分離卷積神經網路。
如請求項1所述之計算裝置，其中該處理器是以該等訓練影像、該等正確手勢資訊、該等輸出資訊以及複數個正確手部輪廓資訊訓練該手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部輪廓影像，且該等正確手部輪廓資訊是關於該至少一手部物件在該等訓練影像中之輪廓。
如請求項2所述之計算裝置，其中該處理器還用以基於一邊緣檢測運算元而產生該等正確手部輪廓資訊。
如請求項1所述之計算裝置，其中該手部切割網路還包含複數個深度可分離反卷積區塊以及複數個第二深度可分離卷積區塊，且該手部切割網路用以作為輔助訓練該手勢分類網路之一注意力模型。
如請求項1所述之計算裝置，其中該順序是基於一卷積核數量之一遞增關係。
一種產生一手勢辨識模型之方法，該方法由一計算裝置所執行，該計算裝置儲存一手部切割網路以及一手勢分類網路，其中該手部切割網路至少包含複數個第一深度可分離卷積區塊，各該第一深度可分離卷積區塊包含至少一最大池化層，且該等第一深度可分離卷積區塊具有一順序，該方法包含：以複數個訓練影像以及複數個正確手部位置資訊，訓練一手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像，其中該等正確手部位置資訊是關於該至少一手部物件在該等訓練影像中之位置；以及以複數個正確手勢資訊以及該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢，進而獲得由訓練後之該等第一深度可分離卷積區塊以及該手勢分類網路所組成之該手勢辨識模型，其中該等正確手勢資訊是關於該至少一手部物件在該等訓練影像中之手勢，且該手部切割網路以及該手勢分類網路皆為一深度可分離卷積神經網路。
如請求項6所述之方法，還包含：以該等訓練影像、該等正確手勢資訊、該等輸出資訊以及複數個正確手部輪廓資訊訓練該手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部輪廓影像，其中該等正確手部輪廓資訊是關於該至少一手部物件在該等訓練影像中之輪廓。
如請求項7所述之方法，還包含：基於一邊緣檢測運算元，產生該等正確手部輪廓資訊。
如請求項6所述之方法，其中該手部切割網路還包含複數個深度可分離反卷積區塊以及複數個第二深度可分離卷積區塊，且該手部切割網路用以作為輔助訓練該手勢分類網路之一注意力模型。
如請求項6所述之方法，其中該順序是基於一卷積核數量之一遞增關係。
一種手勢辨識裝置，包含：一儲存器，用以儲存一深度學習模型，其中該深度學習模型包含複數個第一深度可分離卷積區塊以及一手勢分類網路，各該第一深度可分離卷積區塊包含至少一最大池化層，該等第一深度可分離卷積區塊具有一順序，且該等第一深度可分離卷積區塊之最後一者之複數個輸出資訊被用以作為該手勢分類網路之一輸入；以及一處理器，與該儲存器電性連接，用以透過該深度學習模型辨識一目標影像中之至少一手部之至少一手勢；其中，該深度學習模型是透過以下步驟而獲得：以複數個訓練影像以及複數個正確手部位置資訊，訓練一手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部切割影像，其中該手部切割網路至少包含該等第一深度可分離卷積區塊，且該等正確手部位置資訊是關於該至少一手部物件在該等訓練影像中之位置；以及以複數個正確手勢資訊以及該等輸出資訊，訓練該手勢分類網路，以使該手勢分類網路推論該等訓練影像中之至少一手勢。
如請求項11所述之手勢辨識裝置，其中獲得該深度學習模型之步驟還包含：以該等訓練影像、該等正確手部位置資訊、該等輸出資訊以及複數個正確手部輪廓資訊訓練該手部切割網路，以使該手部切割網路輸出相應於該等訓練影像之至少一手部輪廓影像，其中該等正確手部輪廓資訊是關於該至少一手部物件在該等訓練影像中之輪廓。
如請求項12所述之手勢辨識裝置，其中該等正確手部輪廓資訊是基於一邊緣檢測運算元所產生。
如請求項11所述之手勢辨識裝置，其中該手部切割網路還包含複數個深度可分離反卷積區塊以及複數個第二深度可分離卷積區塊，且該手部切割網路用以作為輔助訓練該手勢分類網路之一注意力模型。
如請求項11所述之手勢辨識裝置，其中該順序是基於一卷積核數量之一遞增關係。
如請求項11所述之手勢辨識裝置，其中該處理器包含一第一隨機存取記憶體以及一第二隨機存取記憶體，且該第一隨機存取記憶體與該第二隨機存取記憶體用以共同作為一乒乓緩衝記憶體組，以提升該處理器進行卷積運算之速度。