TW202145065A

TW202145065A - 一種圖像處理方法、電子設備及電腦可讀儲存介質

Info

Publication number: TW202145065A
Application number: TW110111667A
Authority: TW
Inventors: 謝符寶; 劉文韜; 錢晨
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-05-28
Filing date: 2021-03-30
Publication date: 2021-12-01
Also published as: CN111652110A; WO2021238163A1

Abstract

本發明實施例公開了一種圖像處理方法、電子設備及電腦可讀儲存介質。所述方法包括：識別多幀深度圖像中的第一深度圖像的手部的檢測框；所述第一深度圖像為所述多幀深度圖像中的任一幀深度圖像；對所述檢測框內的深度圖像進行特徵提取，基於提取出的特徵確定所述手部的關鍵點的三維座標資料。

Description

一種圖像處理方法、電子設備及電腦可讀儲存介質

本發明關於電腦視覺技術領域，具體關於一種圖像處理方法、電子設備及電腦可讀儲存介質。

目前，手部的檢測及追蹤方案大多是在由單目攝影頭或雙目攝影頭獲取的紅外圖像或彩色圖像的基礎上進行圖像識別與分析而實現的，但僅對紅外圖像或彩色圖像中的手部進行識別與分析，很難得到準確的手部的三維資訊，從而無法做到更快速、準確的手部檢測及追蹤。

本發明實施例提供一種圖像處理方法、電子設備及電腦可讀儲存介質。

本發明實施例提供了一種圖像處理方法，所述方法包括：識別多幀深度圖像中的第一深度圖像的手部的檢測框；所述第一深度圖像為所述多幀深度圖像中的任一幀深度圖像；對所述檢測框內的深度圖像進行特徵提取，基於提取出的特徵確定所述手部的關鍵點的三維座標資料。

在本發明的一些可選實施例中，所述識別多幀深度圖像中的第一深度圖像的手部的檢測框，包括：回應於所述第一深度圖像為所述多幀深度圖像中的首幀深度圖像的情況，對所述第一深度圖像進行手部檢測處理，獲得所述第一深度圖像的手部的檢測框；回應於所述第一深度圖像為所述多幀深度圖像中的非首幀深度圖像的情況，對第二深度圖像中的手部的檢測框的資料進行處理，獲得所述第一深度圖像中的手部的檢測框；所述第二深度圖像為所述第一深度圖像之前的一幀圖像。

在本發明的一些可選實施例中，所述對第二深度圖像中的手部的檢測框的資料進行處理，獲得所述第一深度圖像中的手部的檢測框，包括：基於所述第二深度圖像中的手部的檢測框所在區域的位置資訊確定第一區域的位置範圍；所述第一區域大於所述檢測框所在區域；根據所述第一區域的位置範圍，確定所述第一深度圖像中與所述第一區域的位置範圍對應的手部的檢測框。

在本發明的一些可選實施例中，所述對所述檢測框內的深度圖像進行特徵提取之前，所述方法還包括：確定所述檢測框內的手部的中心深度，基於所述中心深度對所述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像；所述對所述檢測框內的深度圖像進行特徵提取，包括：對所述居中化處理後的深度圖像進行特徵提取。

在本發明的一些可選實施例中，所述確定所述檢測框內的手部的中心深度，包括：基於所述第一深度圖像中的手部的檢測框內至少部分深度圖像的深度值，確定所述手部的中心深度；所述基於所述中心深度對所述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像，包括：利用所述手部的中心深度，調整所述手部的檢測框內的深度圖像的深度值，得到居中化處理後的深度圖像。

在本發明的一些可選實施例中，所述基於提取出的特徵確定手部的關鍵點的三維座標資料，包括：基於提取出的特徵，確定手部的關鍵點的二維圖像座標資料和深度資料；所述二維圖像座標資料為圖像座標系下的資料；獲得採集所述多幀深度圖像的圖像採集設備的內部參數；基於所述二維圖像座標資料、深度資料和所述內部參數，確定所述手部的關鍵點的三維座標資料；所述三維座標資料為相機座標系下的資料。

在本發明的一些可選實施例中，所述方法還包括：基於所述手部的關鍵點的三維座標資料，確定所述手部的姿態；識別並回應與所述手部的姿態匹配的交互指令。

本發明實施例還提供了一種圖像處理裝置，所述裝置包括：第一處理單元和第二處理單元；其中：所述第一處理單元，配置為識別多幀深度圖像中的第一深度圖像的手部的檢測框；所述第一深度圖像為所述多幀深度圖像中的任一幀深度圖像；所述第二處理單元，配置為對所述檢測框內的深度圖像進行特徵提取，基於提取出的特徵確定所述手部的關鍵點的三維座標資料。

在本發明的一些可選實施例中，所述第一處理單元，配置為回應於所述第一深度圖像為所述多幀深度圖像中的首幀深度圖像的情況，對所述第一深度圖像進行手部檢測處理，獲得所述第一深度圖像的手部的檢測框；回應於所述第一深度圖像為所述多幀深度圖像中的非首幀深度圖像的情況，對第二深度圖像中的手部的檢測框的資料進行處理，獲得所述第一深度圖像中的手部的檢測框；所述第二深度圖像為所述第一深度圖像之前的一幀圖像。

在本發明的一些可選實施例中，所述第一處理單元，配置為基於所述第二深度圖像中的手部的檢測框所在區域的位置資訊確定第一區域的位置範圍；所述第一區域大於所述檢測框所在區域；根據所述第一區域的位置範圍確定所述第一深度圖像中與所述第一區域的位置範圍對應的手部的檢測框。

在本發明的一些可選實施例中，所述裝置還包括第三處理單元，配置為確定所述檢測框內的手部的中心深度，基於所述中心深度對所述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像；所述第二處理單元，配置為對所述居中化處理後的深度圖像進行特徵提取。

在本發明的一些可選實施例中，所述第三處理單元，配置為基於所述第一深度圖像中的手部的檢測框內至少部分深度圖像的深度值，確定所述手部的中心深度；利用所述手部的中心深度，調整所述手部的檢測框內的深度圖像的深度值，得到居中化處理後的深度圖像。

在本發明的一些可選實施例中，所述第二處理單元，配置為基於提取出的特徵，確定手部的關鍵點的二維圖像座標資料和深度資料；所述二維圖像座標資料為圖像座標系下的資料；獲得採集所述多幀深度圖像的圖像採集設備的內部參數；基於所述二維圖像座標資料、深度資料和所述內部參數，確定所述手部的關鍵點的三維座標資料；所述三維座標資料為相機座標系下的資料。

在本發明的一些可選實施例中，所述裝置還包括第四處理單元，配置為基於所述手部的關鍵點的三維座標資料，確定所述手部的姿態；識別並回應與所述手部的姿態匹配的交互指令。

本發明實施例還提供了一種電腦可讀儲存介質，其上儲存有電腦程式，該程式被處理器執行時實現本發明實施例所述方法的步驟。

本發明實施例還提供了一種電子設備，包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，所述處理器執行所述程式時實現本發明實施例所述方法的步驟。

本發明實施例提供的圖像處理方法、裝置、電子設備及儲存介質，利用深度圖像檢測得到手部的檢測框，再基於手部的檢測框內的深度圖像得到手部的準確的三維座標資料，實現了手部的三維座標的準確檢測。

此外，本發明實施例，通過對首幀深度圖像進行手部檢測處理得到手部的檢測框，並可以基於在先得到的深度圖像中的手部的檢測框，得到在後的深度圖像中的手部的檢測框，由此可提升手部追蹤的準確性和追蹤效率。

下面結合附圖及具體實施例對本發明作進一步詳細的說明。

本實施例的圖像處理方法應用於圖像處理裝置中；圖像處理裝置可位於任何具有圖像處理能力的電子設備中。在一些示例中，電子設備可以是電腦、手機、虛擬實境（VR，Virtual Reality）設備、擴增實境（AR，Augmented Reality）設備等設備；在另一些示例中，電子設備也可以是伺服器等設備。本發明各實施例中均以電子設備作為執行主體為例進行說明。

其中，VR設備是採用VR技術的電子設備。VR設備可生成類比虛擬環境，再通過立體顯示技術顯示類比虛擬環境，從而給用戶以環境沉浸感。示例性的，VR設備可包括以下設備的至少之一：VR眼鏡、VR頭盔、VR遊戲裝置等等。

其中，AR設備是採用AR技術的電子設備。AR設備可將虛擬資訊與真實世界融合，其將原本在現實世界的空間範圍中比較難以進行體驗的實體資訊在電腦等科學技術的基礎上，實施模擬仿真處理，疊加將虛擬資訊內容在真實世界中加以有效應用，並且在這一過程中能夠被人類感官所感知，從而實現超越現實的感官體驗。例如，AR設備可通過開啟攝影頭即時採集周圍的環境圖像，通過AR技術在環境圖像中顯示一虛擬物體；使用者可通過手部動作與該虛擬物體進行動作交互，或者，該虛擬物體可伴隨AR設備的移動而發生位置的改變等等。示例性的，AR設備可包括以下設備的至少之一：AR眼鏡、AR頭盔、AR遊戲設備等。

本發明實施例的圖像處理方法適用於動作交互的場景。示例性的，可通過電子設備採集到包含有手部的深度圖像，根據手部的姿態確定對應的交互指令，回應上述交互指令，例如可執行電子設備自身的某些功能，或者將上述指令發送給其他電子設備，由其他電子設備執行某些功能。例如，以電子設備為具備觸摸控制功能的手機、平板電腦等終端設備為例，則可通過檢測到的手部的某個特定姿態確定對應的交互指令，該交互指令可對應滑動操作，則手機或平板電腦可執行與滑動觸摸操作相同的指令。又例如，以電子設備為電視機為例，則可通過檢測到的手部的某個特定姿態對應的交互指令，該交互指令可以是增大/減小音量、切換至上一個/下一個頻道、或者關機的指令。以上動作交互場景僅作為舉例，本發明實施例並不限定於以上交互方式。

本發明實施例的圖像處理方法還適用於例如VR、AR或者體感遊戲等各種應用場景。電子設備例如可以是VR眼鏡、AR眼鏡等等。通過電子設備採集到包含有手部的深度圖像，根據手部的姿態確定對應的交互指令，回應上述交互指令，例如可執行針對AR場景、VR場景或體感遊戲場景中的各種虛擬對象執行相應的動作。

本發明實施例提供了一種圖像處理方法。圖1為本發明實施例的圖像處理方法的流程示意圖一；如圖1所示，方法包括：步驟101：識別多幀深度圖像中的第一深度圖像的手部的檢測框；第一深度圖像為多幀深度圖像中的任一幀深度圖像；步驟102：對檢測框內的深度圖像進行特徵提取，基於提取出的特徵確定手部的關鍵點的三維座標資料。

本實施例中的多幀深度圖像可通過內置或外接的圖像採集設備採集，圖像採集設備具體可以是深度圖像採集設備。示例性的，深度圖像採集設備具體可以是深度攝影頭、3D結構光攝影元件、飛行時間（TOF，Time Of Flight）攝影元件、雷射雷達元件中的至少一種元件實現。在一些可選實施例中，電子設備可通過內置或者外接的圖像採集設備獲得多幀深度圖像。在另一些可選實施例中，電子設備也可通過通信元件獲得其他電子設備傳輸的多幀深度圖像；上述多幀深度圖像由其他電子設備內置或外接的圖像採集設備採集。

在本發明的一些可選實施例中，深度圖像可包括二維圖像資料和深度資料；二維圖像資料表徵採集的目標場景的二維圖像；可選地，二維圖像可以是紅綠藍（RGB）圖像，還可以是灰度圖像。深度資料表示圖像採集設備與採集的目標場景中的各對象之間的距離。其中，目標場景是圖像採集設備的圖像採集範圍內的真實場景。例如，圖像採集設備針對一個房間內的視窗進行圖像採集，則被採集的視窗區域則為目標場景。目標場景中的對象則為真實場景中的對象；以對象為人物為例，則目標場景中的對象則為圖像採集設備的圖像採集範圍內的真實場景中的人物。

本實施例中，通過檢測各個深度圖像中的手部的檢測框，進而通過手部的檢測框實現對多幀深度圖像中的手部的檢測及追蹤。其中，深度圖像中的手部可以是真實人物或虛擬人物的手部。

在一些實施方式中，可通過目標檢測網路對第一深度圖像進行手部檢測，得到第一深度圖像的手部的檢測框。其中，目標檢測網路可通過樣本圖像訓練得到，樣本圖像中標注有手部的檢測框，檢測框的標注範圍包括手部所在區域。其中，目標檢測網路可通過卷積神經網路（CNN，Convolutional Neural Networks）實現。例如，目標檢測網路可以是更快的區域卷積神經網路（faster-RCNN）。

示例性的，可通過目標檢測網路對第一深度圖像進行特徵提取，其中，以第一深度圖像中包括的二維圖像資料為RGB資料為例，則第一深度圖像可包括對應於RGB資料的R（red）資料、G（green）資料、B（blue）資料以及深度資料這四類資料，將四類資料作為目標檢測網路的輸入資料；通過目標檢測網路對輸入資料進行特徵提取，基於提取到的特徵確定第一深度資料中的手部的中心點以及對應於手部的檢測框的尺寸資訊（包括檢測框的高度和寬度等）；基於手部的中心點以及對應於手部的檢測框的尺寸資訊確定手部的檢測框。

一些可能的實施方式中，可通過目標檢測網路對多幀深度圖像中的每一幀深度圖像進行特徵提取，從而基於提取出的特徵得到每一幀深度圖像中的手部的檢測框。

如此，本發明實施例利用深度圖像檢測得到手部的檢測框，再基於手部的檢測框內的深度圖像得到手部的關鍵點的準確的三維座標資料，實現了手部的三維座標的準確檢測。

另一些可能的實施方式中，識別多幀深度圖像中的第一深度圖像的手部的檢測框，包括：回應於第一深度圖像為多幀深度圖像中的首幀深度圖像的情況，對第一深度圖像進行手部檢測處理，獲得第一深度圖像的手部的檢測框；回應於第一深度圖像為多幀深度圖像中的非首幀深度圖像的情況，對第二深度圖像中的手部的檢測框的資料進行處理，獲得第一深度圖像中的手部的檢測框；第二深度圖像為第一深度圖像之前的一幀圖像。

本實施方式中，對於多幀深度圖像中的首幀深度圖像，通過對首幀深度圖像進行手部檢測，得到首幀深度圖像的手部的檢測框。示例性的，對首幀深度圖像的手部檢測過程可參照前述通過目標檢測網路確定手部的檢測框的實施方式，這裡不再贅述。對於首幀深度圖像後的一幀深度圖像，基於待進行目標檢測的第一深度圖像之前的一幀深度圖像（即，第二深度圖像）中的手部的檢測框，確定待進行目標檢測的第一深度圖像中的手部的檢測框。

可以理解，本實施方式中，可通過目標檢測網路對多幀深度圖像中的首幀深度圖像進行特徵提取，從而基於提取出的特徵得到首幀深度圖像中的手部的檢測框；再基於首幀深度圖像中的手部的檢測框，或者首幀深度圖像中的手部的三維座標資料，追蹤得到下一幀待處理的深度圖像中的手部的檢測框。如此，無需對每一幀深度圖像的完整圖像資料均進行目標檢測，僅需對在後的深度圖像中的某個區域內的深度圖像進行目標檢測，得到各個深度圖像中的手部的檢測框，從而基於手部的檢測框內的深度圖像得到手部的關鍵點的準確的三維座標資料，在大大減少了資料處理量的基礎上，利用深度圖像實現了手部的檢測及追蹤。

在本發明的一些可選實施例中，對第二深度圖像中的手部的檢測框的資料進行處理，獲得第一深度圖像中的手部的檢測框，包括：基於第二深度圖像中的手部的檢測框所在區域的位置資訊確定第一區域的位置範圍；第一區域大於檢測框所在區域；根據第一區域的位置範圍，確定第一深度圖像中與第一區域的位置範圍對應的手部的檢測框。

本實施例中，以首幀深度圖像的手部的檢測框確定在後的一幀深度圖像（如第一深度圖像）的手部的檢測框為例，則可以對首幀深度圖像中的手部檢測框進行放大，得到第一區域。示例性的，若首幀深度圖像的手部的檢測框為矩形為例，假設上述檢測框的高度為H，寬度為W，則可以該檢測框所在區域的中心點為中心、以該檢測框所在區域的四邊朝向遠離中心點的方向延伸；例如在高度方向上，分別向遠離中心點的方向延伸H/4，在寬度方向上，分別向遠離中心點的方向延伸W/4，則上述第一區域可通過首幀深度圖像中、以上述中心點為中心，高度為3H/2、寬度為3W/2的矩形區域表示。進一步可基於上述第一區域在首幀深度圖像中的位置範圍，確定在後的一幀深度圖像（即第一深度圖像）中、與上述位置範圍對應的手部的檢測框。

在一些可選實施例中，根據第一區域確定第一深度圖像中與第一區域的位置範圍對應的手部的檢測框，可包括：對第二深度圖像中的第一區域對應的深度圖像進行肢體關鍵點檢測處理，得到第一關鍵點資訊；獲得的第一關鍵點資訊表徵手部的預測關鍵點；確定第一關鍵點資訊在第二深度圖像中的第一位置範圍，確定第一深度圖像中與上述第一位置範圍對應的第二位置範圍，上述第二位置範圍作為手部的預測檢測框；對第一深度圖像中第二位置範圍內的深度圖像進行目標檢測處理，得到第一深度圖像中的手部的檢測框。

在一些可選實施例中，根據第一區域確定第一深度圖像中與第一區域的位置範圍對應的手部的檢測框，可包括：確定上述第一區域在第二深度圖像中的第一位置範圍；確定第一深度圖像中與第一位置範圍對應的第二位置範圍；對第一深度圖像中第二位置範圍內的深度圖像進行目標檢測處理，得到第一深度圖像中的手部的檢測框。

在一些實施方式中，回應於第一深度圖像為多幀深度圖像中的非首幀深度圖像的情況，上述基於第二深度圖像中的手部的檢測框，獲得第一深度圖像中的手部的檢測框，還可包括：基於標注有手部的檢測框的第二深度圖像和目標追蹤網路，確定第一深度圖像中的手部的檢測框，第二深度圖像為第一深度圖像之前的一幀圖像。

本實施方式中，可利用上一幀圖像（即第二深度圖像）以及圖像中標注的手部的檢測框、通過預先訓練好的目標追蹤網路確定下一幀圖像（即第一深度圖像）中手部的檢測框。示例性的，可將包含有手部的檢測框的第二深度圖像輸入至目標追蹤網路，得到第一深度圖像中的手部的檢測框。其中，上述目標追蹤網路可採用任意一種能夠實現目標追蹤的網路結構，本實施例中對此不做限定。

本實施例中，目標追蹤網路可採用標注有手部的位置（例如包含手部的檢測框）的多幀樣本圖像訓練獲得。示例性的，以多幀樣本圖像中至少包括第一樣本圖像和第二樣本圖像為例，可利用目標追蹤網路對第一樣本圖像進行處理，第一樣本圖像中標注有手部的檢測框，處理結果為手部在第二樣本圖像中的預測位置；則可根據上述預測位置和第二樣本圖像中手部的標注位置確定損失，基於損失調整目標追蹤網路的網路參數。

如此，對於第一深度圖像為非首幀深度圖像的情況下，實現了各個深度圖像中的手部的檢測框的追蹤，進而基於追蹤到的檢測框內的深度圖像進行手部關鍵點檢測，在對手部的關鍵點檢測過程中大大減少了待處理的資料，在一定程度上減少了資料處理量，利用深度圖像實現了手部的檢測及追蹤。

在另一些可選實施例中，回應於第一深度圖像為多幀深度圖像中的非首幀深度圖像的情況，基於第二深度圖像中的手部的檢測框所在區域的位置資訊確定第一區域的位置範圍；第一區域大於檢測框所在區域；第二深度圖像為第一深度圖像之前的一幀圖像；確定上述第一區域的位置範圍在第二深度圖像中的第一位置範圍；確定第一深度圖像中與第一位置範圍對應的第二位置範圍；對第一深度圖像中第二位置範圍內的深度圖像進行特徵提取，基於提取出的特徵得到所述手部的關鍵點的三維座標資料。

本實施方式中，以第二深度圖像為首幀深度圖像為例，則可通過目標檢測網路確定首幀深度圖像中的手部的檢測框，對手部的檢測框進行放大，得到第一區域，將第一區域在首幀深度圖像中的區域範圍（即第一位置範圍）作為在後的第一深度圖像中手部所在區域的預測範圍（即第二位置範圍）。則針對第一深度圖像中第二位置範圍內的深度圖像直接進行關鍵點檢測處理，得到第一深度圖像中手部的關鍵點的三維座標資料。

如此，採用本實施方式，通過針對首幀深度圖像進行目標檢測而無需對非首幀深度圖像進行目標檢測，簡化了資料處理的步驟，在一定程度上減少了資料處理量，利用深度圖像實現了手部的檢測及追蹤，且實現了手部的三維座標的準確檢測。

在本發明的一些可選實施例中，基於提取出的特徵確定手部的關鍵點的三維座標資料，包括：基於提取出的特徵，確定手部的關鍵點的二維圖像座標資料和深度資料；二維圖像座標資料為圖像座標系下的資料；獲得採集多幀深度圖像的圖像採集設備的內部參數；基於二維圖像座標資料、深度資料和內部參數，確定手部的關鍵點的三維座標資料；三維座標資料為相機座標系下的資料。

本實施例中，可基於關鍵點檢測網路對檢測框內的深度圖像進行特徵提取，基於提取出的特徵得到手部的關鍵點的三維座標資料。在一些可選實施例中，可參照圖2所示，手部的關鍵點可包括以下至少之一：手腕（Wrist）關鍵點、手指的關節關鍵點、手指的指尖（TIP）關鍵點等等；其中，手指的關節關鍵點至少可包括以下至少之一：掌指關節（MCP，Metacarpophalangeal Point）關鍵點、近側指間關節（PIP，Proximal Interphalangeal Point）關鍵點、遠側指間關節（DIP，Distal Interphalangeal Point）關鍵點。手指可至少包括以下至少之一：拇指（Thumb）、食指（Index）、中指（Middle）、無名指（Ring）、小指（Little）；如圖2所示，手腕關鍵點可包括關鍵點P₁ ；拇指（Thumb）關鍵點可包括P₂ 、P₃ 、P₄ 中的至少一個關鍵點；食指（Index）關鍵點可包括P₅ 、P₆ 、P₇ 、P₈ 中的至少一個關鍵點；中指（Middle）關鍵點可包括P₉ 、P₁₀ 、P₁₁ 、P₁₂ 中的至少一個關鍵點；無名指（Ring）關鍵點可包括P₁₃ 、P₁₄ 、P₁₅ 、P₁₆ 中的至少一個關鍵點；小指（Little）關鍵點可包括P₁₇ 、P₁₈ 、P₁₉ 、P₂₀ 中的至少一個關鍵點。

本實施例中，可參照圖3所示，關鍵點檢測網路可包括骨幹網路、對應於預測手部的二維圖像座標資料的2D分支網路、以及對應於預測手部的深度資料的深度分支網路。其中，骨幹網路可包括多層卷積層，通過多層卷積層對檢測框內的深度圖像進行卷積處理，得到深度圖像對應的特徵圖；示例性的，通過骨幹網路對檢測框內的深度圖像進行處理得到的特徵圖可以是熱力圖；進一步分別將得到的特徵圖輸入至2D分支網路和深度分支網路。

本實施例中，一方面，可通過2D分支網路對特徵圖進行處理，得到手部中例如圖2所示的手部的關鍵點的二維圖像座標資料，上述二維圖像座標資料表示在圖像座標系下的二維座標。其中，圖像座標系是在成像平面上、以二維圖像的左上角為座標原點、以水準方向和垂直方向分別為X軸和Y軸建立的二維直角座標系。示例性的，圖像座標系可以是以圖元為單位的直角座標系，圖元的橫座標u與縱座標v分別表示在圖像中所在的列數與所在行數。另一方面，可通過深度分支網路對特徵圖進行處理，得到例如圖2所示的手部的關鍵點的深度資料。在一些可選實施例中，深度分支網路可以是全連接網路，通過全連接網路的處理得到上述手部的關鍵點的深度資料。

本實施例中，由於通過關鍵點檢測網路得到的二維圖像座標資料為圖像座標系下的資料，表徵手部的關鍵點在圖像中的位置，因此需要對上述座標資料進行轉換，得到手部的關鍵點在相機座標系下的三維座標資料。其中，相機座標系是以相機（即圖像採集設備）的聚焦中心（或光心）為座標原點、X軸和Y軸均與像平面平行、以光軸為Z軸建立的三維直角座標系。

在一些可選實施例中，上述基於二維圖像座標資料、深度資料和內部參數，確定手部的關鍵點的三維座標資料，包括：獲得採集多幀深度圖像的圖像採集設備的內部參數，基於內部參數確定轉換矩陣，通過轉換矩陣對二維圖像座標資料和深度資料進行轉換處理，得到手部的關鍵點在相機座標系下的三維座標資料。示例性的，圖像採集設備的內部參數可包括但不限於圖像採集設備的聚焦中心（或光心）在圖像座標系中的位置以及圖像採集設備的圖元焦距值中的至少一種；其中，圖像採集設備的聚焦中心（或光心）在圖像座標系中的位置也可以理解為相機座標系的座標原點在圖像座標系中的座標。示例性的，以二維圖像資料的尺寸為：高度h、寬度w為例，則上述圖像採集設備的聚焦中心（或光心）在圖像座標系中的位置可以記為（w/2，h/2）。

示例性的，手部的關鍵點在相機座標系下的三維座標資料可參照以下公式（1）得到：

（1）其中，

表示手部的關鍵點在相機座標系下的三維座標資料；其中，（x，y）表示相機座標系下的X軸和Y軸所在平面的座標；

表示相機座標系下的Z軸的資料；（u，v）表示手部的關鍵點在圖像座標系下的2D座標，z表示深度資料；（u₀ ，v₀ ）表示圖像採集設備的聚焦中心（或光心）在圖像座標系下的座標，f_x 和f_y 表示圖像採集設備的橫軸方向和縱軸方向的圖元焦距值。

如此，本發明實施例利用深度圖像檢測得到手部的檢測框，再基於手部的檢測框內的深度圖像得到手部的關鍵點的準確的三維座標資料，具體通過圖像採集設備的內部參數（例如圖像採集設備的聚焦中心（或光心）在圖像座標系中的位置以及圖像採集設備的圖元焦距值等）確定圖像座標系-相機座標系之間的轉換矩陣，基於該轉換矩陣得到手部的關鍵點的在相機座標系下的準確的三維座標資料，實現了手部的三維座標的準確檢測，從而能夠提供更準確的人手關鍵點的三維座標。

基於前述實施例，本發明實施例還提供了一種圖像處理方法。圖4為本發明實施例的圖像處理方法的流程示意圖二；如圖4所示，方法包括：步驟201：對多幀深度圖像中的首幀深度圖像進行手部檢測處理，獲得首幀深度圖像的手部的檢測框；步驟202：基於首幀深度圖像中的手部的檢測框，獲得第一深度圖像中的手部的檢測框；第一深度圖像為多幀深度圖像中的非首幀深度圖像；步驟203：確定第一深度圖像中的檢測框內的手部的中心深度，基於中心深度對檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像；步驟204：對居中化處理後的深度圖像進行特徵提取，基於提取出的特徵，確定手部的關鍵點的二維圖像座標資料和深度資料；二維圖像座標資料為圖像座標系下的資料；步驟205：獲得採集多幀深度圖像的圖像採集設備的內部參數；步驟206：基於二維圖像座標資料、深度資料和內部參數，確定手部的關鍵點的三維座標資料；三維座標資料為相機座標系下的資料。

本實施例中，步驟201至步驟206的執行順序不限於上述所述。示例性的，在步驟206之前的任意步驟，可以獲得採集多幀深度圖像的圖像採集設備的內部參數。

本實施例中的第一深度圖像為多幀深度圖像中的非首幀深度圖像，可以是首幀深度圖像後的一幀深度圖像，例如可以是多幀深度圖像中的第二幀深度圖像、第三幀深度圖像等等。需要說明的是，第一深度圖像是首幀深度圖像之後的第二幀需要檢測手部的檢測框的深度圖像，即基於首幀深度圖像中檢測到的手部的檢測框，檢測得到第一深度圖像中的手部的檢測框。

本實施例中的針對首幀深度圖像以及第一深度圖像中的手部的檢測框具體實現方式可參照前述實施例的具體描述，這裡不再贅述。

本實施例中，在得到第一深度圖像中的手部的檢測框後，對檢測框內的深度圖像進行居中化處理。在一些可選實施例中，步驟203可包括：確定所述檢測框內的手部的中心深度，基於所述中心深度對所述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像，包括：基於所述第一深度圖像中的手部的檢測框內至少部分深度圖像的深度值，確定所述手部的中心深度；利用所述手部的中心深度，調整所述手部的檢測框內的深度圖像的深度值，得到居中化處理後的深度圖像。

本實施例中，在一些實施方式中，可確定檢測框內的深度圖像的深度值的中位數，將該中位數作為手部的中心深度；再將檢測框內的深度圖像中的每個圖元對應的深度值減去該中心深度，得到居中化處理後的深度圖像。在另一些可選實施例中，可確定檢測框內的深度圖像中的手部區域的深度值的中位數，將該中位數作為手部的中心深度；再將檢測框內的深度圖像中的每個圖元對應的深度值減去該中心深度，得到居中化處理後的深度圖像。

在其他實施方式中，也可以確定檢測框內的深度圖像的深度值的均值，將該均值作為手部的中心深度；再將檢測框內的深度圖像中的每個圖元對應的深度值減去該中心深度，得到居中化處理後的深度圖像；或者，可確定檢測框內的深度圖像中的手部區域的深度值的均值，將該均值作為手部的中心深度；再將檢測框內的深度圖像中的每個圖元對應的深度值減去該中心深度，得到居中化處理後的深度圖像。

如此，通過居中化處理，能夠為後續的資料處理提供便利，降低資料處理的難度和複雜度。

本實施例中的步驟204至步驟206的詳細過程具體可參照前述實施例中，區別在於，本實施例中可基於關鍵點檢測網路對居中化處理後的深度圖像進行特徵提取，基於提取出的特徵得到手部的關鍵點的二維圖像座標資料和深度資料。

基於前述實施例，本發明實施例的方法還可以包括：基於手部的關鍵點的三維座標資料，確定手部的姿態；識別並回應與手部的姿態匹配的交互指令。

本實施例可通過追蹤到的手部、進而基於手部的三維座標資料確定手部的姿態，並基於手部的姿態確定對應的交互指令，進而可對各姿態對應的交互指令進行回應。

本發明實施例還提供了一種圖像處理裝置。圖5為本發明實施例的圖像處理裝置的組成結構示意圖一；如圖5所示，裝置包括：第一處理單元31和第二處理單元32；其中：上述第一處理單元31，配置為識別多幀深度圖像中的第一深度圖像的手部的檢測框；上述第一深度圖像為上述多幀深度圖像中的任一幀深度圖像；上述第二處理單元32，配置為對上述檢測框內的深度圖像進行特徵提取，基於提取出的特徵確定手部的關鍵點的三維座標資料。

在本發明的一些可選實施例中，上述第一處理單元31，配置為回應於上述第一深度圖像為上述多幀深度圖像中的首幀深度圖像的情況，對上述第一深度圖像進行手部檢測處理，獲得上述第一深度圖像的手部的檢測框；回應於上述第一深度圖像為上述多幀深度圖像中的非首幀深度圖像的情況，對第二深度圖像中的手部的檢測框的資料進行處理，獲得上述第一深度圖像中的手部的檢測框；上述第二深度圖像為上述第一深度圖像之前的一幀圖像。

在本發明的一些可選實施例中，上述第一處理單元31，配置為基於上述第二深度圖像中的手部的檢測框所在區域的位置資訊確定第一區域的位置範圍；上述第一區域大於上述檢測框所在區域；根據上述第一區域的位置範圍確定上述第一深度圖像中與上述第一區域的位置範圍對應的手部的檢測框。

在本發明的一些可選實施例中，如圖6所示，上述裝置還包括第三處理單元33，配置為確定上述檢測框內的手部的中心深度，基於上述中心深度對上述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像；上述第二處理單元32，配置為對上述居中化處理後的深度圖像進行特徵提取。

在本發明的一些可選實施例中，所述第三處理單元33，配置為基於所述第一深度圖像中的手部的檢測框內至少部分深度圖像的深度值，確定所述手部的中心深度；利用所述手部的中心深度，調整所述手部的檢測框內的深度圖像的深度值，得到居中化處理後的深度圖像。

在本發明的一些可選實施例中，上述第二處理單元32，配置為基於提取出的特徵，確定手部的關鍵點的二維圖像座標資料和深度資料；上述二維圖像座標資料為圖像座標系下的資料；獲得採集上述多幀深度圖像的圖像採集設備的內部參數；基於上述二維圖像座標資料、深度資料和上述內部參數，確定所述手部的關鍵點的三維座標資料；上述三維座標資料為相機座標系下的資料。

在本發明的一些可選實施例中，上述裝置還包括第四處理單元，配置為基於手部的關鍵點的三維座標資料，確定上述手部的姿態；識別並回應與上述手部的姿態匹配的交互指令。

本發明實施例中，上述圖像處理裝置中的第一處理單元31、第二處理單元32、第三處理單元33和第四處理單元，在實際應用中均可由中央處理器（CPU，Central Processing Unit）、數位訊號處理器（DSP，Digital Signal Processor）、微控制單元（MCU，Microcontroller Unit）或可程式設計閘陣列（FPGA，Field－Programmable Gate Array）實現。

需要說明的是：上述實施例提供的圖像處理裝置在進行圖像處理時，僅以上述各程式模組的劃分進行舉例說明，實際應用中，可以根據需要而將上述處理分配由不同的程式模組完成，即將裝置的內部結構劃分成不同的程式模組，以完成以上描述的全部或者部分處理。另外，上述實施例提供的圖像處理裝置與圖像處理方法實施例屬於同一構思，其具體實現過程詳見方法實施例，這裡不再贅述。

本發明實施例還提供了一種電子設備。圖7為本發明實施例的電子設備的硬體組成結構示意圖，如圖7所示，電子設備包括記憶體42、處理器41及儲存在記憶體42上並可在處理器41上運行的電腦程式，上述處理器41執行所述程式時實現本發明實施例的圖像處理方法的步驟。

本實施例中，電子設備中的各個元件通過匯流排系統43耦合在一起。可理解，匯流排系統43用於實現這些元件之間的連接通信。匯流排系統43除包括資料匯流排之外，還包括電源匯流排、控制匯流排和狀態信號匯流排。但是為了清楚說明起見，在圖7中將各種匯流排都標為匯流排系統43。

可以理解，記憶體42可以是易失性記憶體或非易失性記憶體，也可包括易失性和非易失性記憶體兩者。其中，非易失性記憶體可以是唯讀記憶體（ROM，Read Only Memory）、可程式設計唯讀記憶體（PROM，Programmable Read-Only Memory）、可擦除可程式設計唯讀記憶體（EPROM，Erasable Programmable Read-Only Memory）、電可擦除可程式設計唯讀記憶體（EEPROM，Electrically Erasable Programmable Read-Only Memory）、磁性隨機存取記憶體（FRAM，ferromagnetic random access memory）、快閃記憶體（Flash Memory）、磁表面記憶體、光碟、或唯讀光碟（CD-ROM，Compact Disc Read-Only Memory）；磁表面記憶體可以是磁碟記憶體或磁帶記憶體。易失性記憶體可以是隨機存取記憶體（RAM，Random Access Memory），其用作外部快取記憶體。通過示例性但不是限制性說明，許多形式的RAM可用，例如靜態隨機存取記憶體（SRAM，Static Random Access Memory）、同步靜態隨機存取記憶體（SSRAM，Synchronous Static Random Access Memory）、動態隨機存取記憶體（DRAM，Dynamic Random Access Memory）、同步動態隨機存取記憶體（SDRAM，Synchronous Dynamic Random Access Memory）、雙倍數據速率同步動態隨機存取記憶體（DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory）、增強型同步動態隨機存取記憶體（ESDRAM，Enhanced Synchronous Dynamic Random Access Memory）、同步連接動態隨機存取記憶體（SLDRAM，SyncLink Dynamic Random Access Memory）、直接記憶體匯流排隨機存取記憶體（DRRAM，Direct Rambus Random Access Memory）。本發明實施例描述的記憶體42旨在包括但不限於這些和任意其它適合類型的記憶體。

上述本發明實施例揭示的方法可以應用於處理器41中，或者由處理器41實現。處理器41可能是一種積體電路晶片，具有信號的處理能力。在實現過程中，上述方法的各步驟可以通過處理器41中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器41可以是通用處理器、DSP，或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。處理器41可以實現或者執行本發明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者任何常規的處理器等。結合本發明實施例所公開的方法的步驟，可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於儲存介質中，該儲存介質位於記憶體42，處理器41讀取記憶體42中的資訊，結合其硬體完成前述方法的步驟。

在示例性實施例中，電子設備可以被一個或多個應用專用積體電路（ASIC，Application Specific Integrated Circuit）、DSP、可程式設計邏輯器件（PLD，Programmable Logic Device）、複雜可程式設計邏輯器件（CPLD，Complex Programmable Logic Device）、現場可程式設計閘陣列（FPGA，Field-Programmable Gate Array）、通用處理器、控制器、微控制器（MCU，Micro Controller Unit）、微處理器（Microprocessor）、或其他電子元件實現，用於執行前述方法。

在示例性實施例中，本發明實施例還提供了一種電腦可讀儲存介質，例如包括電腦程式的記憶體42，上述電腦程式可由電子設備的處理器41執行，以完成前述方法所述步驟。電腦可讀儲存介質可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面記憶體、光碟、或CD-ROM等記憶體；也可以是包括上述記憶體之一或任意組合的各種設備。

本發明實施例還提供了一種電腦可讀儲存介質，其上儲存有電腦程式，該程式被處理器執行時實現本發明實施例所述的圖像處理方法的步驟。

本發明所提供的幾個方法實施例中所揭露的方法，在不衝突的情況下可以任意組合，得到新的方法實施例。

本發明所提供的幾個產品實施例中所揭露的特徵，在不衝突的情況下可以任意組合，得到新的產品實施例。

本發明所提供的幾個方法或設備實施例中所揭露的特徵，在不衝突的情況下可以任意組合，得到新的方法實施例或設備實施例。

在本發明所提供的幾個實施例中，應該理解到，所揭露的設備和方法，可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，如：多個單元或元件可以結合，或可以集成到另一個系統，或一些特徵可以忽略，或不執行。另外，所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些介面，設備或單元的間接耦合或通信連接，可以是電性的、機械的或其它形式的。

上述作為分離部件說明的單元可以是、或也可以不是物理上分開的，作為單元顯示的部件可以是、或也可以不是物理單元，即可以位於一個地方，也可以分佈到多個網路單元上；可以根據實際的需要選擇其中的部分或全部單元來實現本實施例方案的目的。

另外，在本發明各實施例中的各功能單元可以全部集成在一個處理單元中，也可以是各單元分別單獨作為一個單元，也可以兩個或兩個以上單元集成在一個單元中；上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能單元的形式實現。

本領域普通技術人員可以理解：實現上述方法實施例的全部或部分步驟可以通過程式指令相關的硬體來完成，前述的程式可以儲存於一電腦可讀取儲存介質中，該程式在執行時，執行包括上述方法實施例的步驟；而前述的儲存介質包括：移動存放裝置、ROM、RAM、磁碟或者光碟等各種可以儲存程式碼的介質。

或者，本發明上述集成的單元如果以軟體功能模組的形式實現並作為獨立的產品銷售或使用時，也可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解，本發明實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質中，包括若干指令用以使得一台電腦設備（可以是個人電腦、伺服器、或者網路設備等）執行本發明各個實施例所述方法的全部或部分。而前述的儲存介質包括：移動存放裝置、ROM、 RAM、磁碟或者光碟等各種可以儲存程式碼的介質。

以上所述，僅為本發明的具體實施方式，但本發明的保護範圍並不局限於此，任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內，可輕易想到變化或替換，都應涵蓋在本發明的保護範圍之內。因此，本發明的保護範圍應以所述申請專利範圍的保護範圍為準。

31:第一處理單元 32:第二處理單元 33:第三處理單元 41:處理器 42:記憶體 43:匯流排系統 101~102,201~206:步驟

圖1為本發明實施例的圖像處理方法的流程示意圖一；圖2為本發明實施例的圖像處理方法中的手部的關鍵點示意圖；圖3為本發明實施例的圖像處理方法中關鍵點檢測網路的結構示意圖圖；圖4為本發明實施例的圖像處理方法的流程示意圖二；圖5為本發明實施例的圖像處理裝置的組成結構示意圖一；圖6為本發明實施例的圖像處理裝置的組成結構示意圖二；圖7為本發明實施例的電子設備的硬體組成結構示意圖。

101~102:步驟

Claims

一種圖像處理方法，所述方法包括：識別多幀深度圖像中的第一深度圖像的手部的檢測框；所述第一深度圖像為所述多幀深度圖像中的任一幀深度圖像；對所述檢測框內的深度圖像進行特徵提取，基於提取出的特徵確定所述手部的關鍵點的三維座標資料。
根據請求項1所述的方法，其中，所述識別多幀深度圖像中的第一深度圖像的手部的檢測框，包括：回應於所述第一深度圖像為所述多幀深度圖像中的首幀深度圖像的情況，對所述第一深度圖像進行手部檢測處理，獲得所述第一深度圖像的手部的檢測框；回應於所述第一深度圖像為所述多幀深度圖像中的非首幀深度圖像的情況，對第二深度圖像中的手部的檢測框的資料進行處理，獲得所述第一深度圖像中的手部的檢測框；所述第二深度圖像為所述第一深度圖像之前的一幀圖像。
根據請求項2所述的方法，其中，所述對第二深度圖像中的手部的檢測框的資料進行處理，獲得所述第一深度圖像中的手部的檢測框，包括：基於所述第二深度圖像中的手部的檢測框所在區域的位置資訊確定第一區域的位置範圍；所述第一區域大於所述檢測框所在區域；根據所述第一區域的位置範圍，確定所述第一深度圖像中與所述第一區域的位置範圍對應的手部的檢測框。
根據請求項1至3任一項所述的方法，其中，所述對所述檢測框內的深度圖像進行特徵提取之前，所述方法還包括：確定所述檢測框內的手部的中心深度，基於所述中心深度對所述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像；所述對所述檢測框內的深度圖像進行特徵提取，包括：對所述居中化處理後的深度圖像進行特徵提取。
根據請求項4所述的方法，其中，所述確定所述檢測框內的手部的中心深度，包括：基於所述第一深度圖像中的手部的檢測框內至少部分深度圖像的深度值，確定所述手部的中心深度；所述基於所述中心深度對所述檢測框內的深度圖像進行居中化處理，得到居中化處理後的深度圖像，包括：利用所述手部的中心深度，調整所述手部的檢測框內的深度圖像的深度值，得到居中化處理後的深度圖像。
根據請求項1至3任一項所述的方法，其中，所述基於提取出的特徵確定手部的關鍵點的三維座標資料，包括：基於提取出的特徵，確定手部的關鍵點的二維圖像座標資料和深度資料；所述二維圖像座標資料為圖像座標系下的資料；獲得採集所述多幀深度圖像的圖像採集設備的內部參數；基於所述二維圖像座標資料、深度資料和所述內部參數，確定所述手部的關鍵點的三維座標資料；所述三維座標資料為相機座標系下的資料。
根據請求項1至3任一項所述的方法，其中，所述方法還包括：基於所述手部的關鍵點的三維座標資料，確定所述手部的姿態；識別並回應與所述手部的姿態匹配的交互指令。
一種電腦可讀儲存介質，其上儲存有電腦程式，該程式被處理器執行時實現請求項1至7任一項所述方法的步驟。
一種電子設備，包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，所述處理器執行所述程式時實現請求項1至7任一項所述方法的步驟。