TW202105331A

TW202105331A - 一種人體關鍵點檢測方法及裝置、電子設備和電腦可讀儲存介質

Info

Publication number: TW202105331A
Application number: TW109115341A
Authority: TW
Inventors: 劉文韜; 郭玉京; 王勇望; 錢晨; 李佳樺
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2019-07-15
Filing date: 2020-05-08
Publication date: 2021-02-01
Also published as: CN110348524B; CN110348524A; JP2022531188A; SG11202111880SA; WO2021008158A1; US20220044056A1

Abstract

本發明涉及一種人體關鍵點檢測方法及裝置、電子設備和電腦可讀儲存介質，其中，所述方法包括：響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據；將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。採用本發明，能對於人體處於運動狀態時實現精確的人體關鍵點檢測。

Description

一種人體關鍵點檢測方法及裝置、電子設備和電腦可讀儲存介質

本發明要求在2019年07月15日提交中國專利局、申請號爲201910635763.6、申請名稱爲“一種人體關鍵點檢測方法及裝置、電子設備和存儲介質”的中國專利申請的優先權，其全部內容透過引用結合在本發明中。

本發明涉及人體檢測技術領域，尤其涉及一種人體關鍵點檢測方法及裝置、電子設備和電腦可讀儲存介質。

相關技術中，人體關鍵點檢測技術是基於深度學習演算法所開發的應用。在電腦運算能力不斷提升、數據集不斷擴大的背景下，深度學習演算法作爲機器學習的一個重要分支，被應用到了各個行業中。可對於諸如體感遊戲、人體動態監控等應用場景中，對於人體處於運動狀態時如何實現精確的人體關鍵點檢測，目前未存在有效的解决方案。

因此，本發明提出了一種人體關鍵點檢測技術方案。

根據本發明的一方面，提供了一種人體關鍵點檢測方法，所述方法包括：響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據；

將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。

採用本發明，將圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，可以得到2D位姿數據。將2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到的3D位姿數據爲用於標識人體關鍵點位置的三維坐標數據，透過標識人體關鍵點位置的三維坐標數據能對於人體處於運動狀態時實現精確的人體關鍵點檢測。

可能的實現方式中，所述方法還包括：所述將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合之前，將RGB圖像數據流中每幀圖像與對應同一圖像的深度數據進行數據對齊的預處理，得到RGBD圖像數據流。

採用本發明，將RGB數據和深度數據對齊，得到RGBD數據，可以實現對數據的預處理，之後分別對該RGB數據和RGBD數據進行相應的圖像處理。

可能的實現方式中，所述檢測到圖像中包含人體，包括：對於當前幀圖像，經所述第一圖像處理後得到多個圖像特徵；

根據人體識別網路判斷出所述多個圖像特徵爲人體關鍵點特徵的情况下，檢測到所述當前幀圖像中包含人體，直至對至少一幀圖像完成檢測。

採用本發明，根據人體識別網路判斷出所述多個圖像特徵爲人體關鍵點特徵的情况下，可以檢測到所述當前幀圖像中包含人體。

可能的實現方式中，所述方法還包括：所述將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合之前，對於當前幀圖像，經所述第二圖像處理後得到多個深度數據，直至對至少一幀圖像完成圖像處理。

採用本發明，對於當前幀圖像，經所述第二圖像處理後得到多個深度數據，直至對至少一幀圖像完成圖像處理，然後將多個深度數據與2D位姿數據相結合，以實現人體關鍵點的特徵融合。

可能的實現方式中，所述方法還包括：獲取第一人體運動狀態；

將所述第一人體運動狀態對應的人體關鍵點位置變化透過第一3D位姿數據進行描述；

根據所述第一3D位姿數據生成第一控制指令，將所述第一控制指令發送給接收側設備，以在所述接收側設備的顯示螢幕上展示對應所述第一人體運動狀態的動作模擬操作。

採用本發明，將所述第一人體運動狀態對應的人體關鍵點位置變化透過第一3D位姿數據進行描述，透過發送第一控制指令給接收側設備，實現了在接收側設備的顯示螢幕上展示對應第一人體運動狀態的動作模擬操作。

可能的實現方式中，所述方法還包括：獲取第二人體運動狀態；

將所述第二人體運動狀態對應的人體關鍵點位置變化透過第二3D位姿數據進行描述；

將所述第二3D位姿數據與預配置的位姿數據進行比對，比對結果不一致的情况下生成第二控制指令；

根據所述第二控制指令發出提示訊息，以根據所述提示訊息調整所述第二人體運動狀態至符合目標狀態。

採用本發明，將所述第二人體運動狀態對應的人體關鍵點位置變化透過第二3D位姿數據進行描述，透過第二控制指令發出提示訊息，實現了根據提示訊息調整第二人體運動狀態至符合目標狀態。

可能的實現方式中，所述方法還包括：獲取第三人體運動狀態；

將所述第三人體運動狀態對應的人體關鍵點位置變化透過第三3D位姿數據進行描述；

將所述第三3D位姿數據發送給接收側設備，以在所述接收側設備的顯示螢幕上展示由虛擬形象採樣所述第三3D位姿數據執行的操作。

採用本發明，將所述第三人體運動狀態對應的人體關鍵點位置變化透過第三3D位姿數據進行描述，將所述第三3D位姿數據發送給接收側設備，實現了在述接收側設備的顯示螢幕上展示由虛擬形象採樣所述第三3D位姿數據執行的操作。

可能的實現方式中，所述人體識別網路的訓練過程包括：將預先標註好的人體關鍵點特徵作爲訓練樣本數據，將所述訓練樣本數據輸入待訓練的人體識別網路進行訓練，直至輸出結果滿足網路訓練條件，訓練後得到所述人體識別網路。

採用本發明，將預先標註好的人體關鍵點特徵作爲訓練樣本數據，將所述訓練樣本數據輸入待訓練的人體識別網路進行訓練，可以將訓練後得到人體識別網路用於人體關鍵點檢測，且確保檢測的高效和準確性。

根據本發明的一方面，提供了一種人體關鍵點檢測裝置，所述裝置包括：檢測模組，用於響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據；融合模組，用於將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。

可能的實現方式中，所述裝置還包括：預處理模組，用於：將RGB圖像數據流中每幀圖像與對應同一圖像的深度數據進行數據對齊的預處理，得到RGBD圖像數據流。

可能的實現方式中，所述檢測模組，進一步用於：對於當前幀圖像，經所述第一圖像處理後得到多個圖像特徵；

可能的實現方式中，所述裝置還包括：圖像處理模組，用於：對於當前幀圖像，經所述第二圖像處理後得到多個深度數據，直至對至少一幀圖像完成圖像處理。

可能的實現方式中，所述裝置還包括：第一姿態獲取模組，用於獲取第一人體運動狀態；第一數據描述模組，用於將所述第一人體運動狀態對應的人體關鍵點位置變化透過第一3D位姿數據進行描述；第一指令發送模組，用於根據所述第一3D位姿數據生成第一控制指令，將所述第一控制指令發送給接收側設備，以在所述接收側設備的顯示螢幕上展示對應所述第一人體運動狀態的動作模擬操作。

可能的實現方式中，所述裝置還包括：第二姿態獲取模組，用於獲取第二人體運動狀態；第二數據描述模組，用於將所述第二人體運動狀態對應的人體關鍵點位置變化透過第二3D位姿數據進行描述；數據比對模組，用於將所述第二3D位姿數據與預配置的位姿數據進行比對，比對結果不一致的情况下生成第二控制指令；提示訊息發送模組，用於根據所述第二控制指令發出提示訊息，以根據所述提示訊息調整所述第二人體運動狀態至符合目標狀態。

可能的實現方式中，所述裝置還包括：第三姿態獲取模組，用於獲取第三人體運動狀態；第三數據描述模組，用於將所述第三人體運動狀態對應的人體關鍵點位置變化透過第三3D位姿數據進行描述；第二指令發送模組，用於將所述第三3D位姿數據發送給接收側設備，以在所述接收側設備的顯示螢幕上展示由虛擬形象採樣所述第三3D位姿數據執行的操作。

可能的實現方式中，所述裝置還包括：網路訓練模組，用於：在所述人體識別網路的訓練過程中，將預先標註好的人體關鍵點特徵作爲訓練樣本數據，將所述訓練樣本數據輸入待訓練的人體識別網路進行訓練，直至輸出結果滿足網路訓練條件，訓練後得到所述人體識別網路

根據本發明的一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲：執行上述人體關鍵點檢測方法。

根據本發明的一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述人體關鍵點檢測方法。

根據本發明的一方面，提供一種電腦程式，其中，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現上述人體關鍵點檢測方法。

在本發明中，響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據。將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。採用本發明，將圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，可以得到2D位姿數據。將2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到的3D位姿數據爲用於標識人體關鍵點位置的三維坐標數據，透過標識人體關鍵點位置的三維坐標數據能對於人體處於運動狀態時實現精確的人體關鍵點檢測。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裡作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情况。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，爲了更好的說明本發明，在下文的具體實施方式中給出了衆多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

人體關鍵點檢測技術是基於深度學習演算法所開發的應用。深度學習演算法發展迅速，得到了廣泛的關注。在電腦運算能力不斷提升、數據集不斷擴大的背景下，深度學習作爲機器學習的一個重要分支，被應用到了各個行業中。在電腦視覺領域中，深度學習憑藉優異的計算效果，較高的強健性更是成爲了行業的關鍵技術。透過深度學習的卷積神經網路，可以有效提取圖像中的關鍵特徵。傳統的全連接神經網路存在參數數量多、沒有利用像素間的位置訊息、網路深度受限（越深的網路表達能力越强，但隨之而來的訓練參數也會大量增加）等問題。而卷積神經網路（CNN）則很好的解决了這些問題。首先，CNN中的連接爲局部連接，每個神經元不再和上一層的至少一神經元相連，而只和一小部分神經元相連。同時，一組連接可以共享同一個權重參數，加上下採樣的策略，很大程度上減少了參數數量。不同與全連接網路的一維排列，CNN的神經元結構爲三維排列。透過去除大量不重要的參數，保留重要的權重值，讓一個深度的神經網路得以實現。從而能夠處理更多複雜度更高的訊息。

考慮到2D人體關鍵點對於應用層面的限制，是無法獲取到三維坐標。雖然透過3D方案可以彌補此缺陷，可是，如果只是基於RGB數據輸出預測的3D關鍵點，該檢測方案的精度較低。考慮到3D方案具備深度數據的輸入與合併，可以輸出更精準的三維坐標點。然而，如果只基於深度數據，輸出對應的3D關鍵點，可能極大的受限於硬體的深度圖質量。

採用本發明的人體關鍵點檢測方案，將透過RGB數據預測的3D坐標與深度數據進行整合，可以有效降低對於3D硬體模組採集深度數據準確度的依賴，從而實現更好的檢測精度和強健性。

圖1示出根據本發明實施例的人體關鍵點檢測方法的流程圖，該人體關鍵點檢測方法應用於人體關鍵點檢測裝置，例如，人體關鍵點檢測裝置可以由終端設備或伺服器或其它處理設備執行，其中，終端設備可以爲用戶設備（UE，User Equipment）、移動設備、行動電話、無線電話、個人數位助理（PDA，Personal Digital Assistant）、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該人體關鍵點檢測方法可以透過處理器呼叫記憶體中儲存的電腦可讀指令的方式來實現。如圖1所示，該流程包括：

步驟S101、響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據。

步驟S102、將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。

採用本發明，透過2D位姿數據+深度數據，可以得到3D位姿數據。其中，2D位姿數據是人體關鍵點在RGB圖像中的二維坐標，3D位姿數據是3D的人體關鍵點，透過3D位姿數據，可以對人體處於運動狀態進行精確的人體關鍵點檢測，如將某一運動狀態分解爲：抬手、踢腿、擺頭、彎腰中的至少一種節點位姿，從而實時跟蹤跟蹤這些節點位姿對應的人體關鍵點檢測。

圖2示出根據本發明實施例的人體關鍵點檢測方法的流程圖，該人體關鍵點檢測方法應用於人體關鍵點檢測裝置，例如，人體關鍵點檢測裝置可以由終端設備或伺服器或其它處理設備執行，其中，終端設備可以爲用戶設備（UE，User Equipment）、移動設備、行動電話、無線電話、個人數位助理（PDA，Personal Digital Assistant）、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該人體關鍵點檢測方法可以透過處理器呼叫記憶體中儲存的電腦可讀指令的方式來實現。

如圖2所示，該流程包括：

步驟S201、將RGB圖像數據流中每幀圖像與對應同一圖像的深度數據進行數據對齊的預處理，得到RGBD圖像數據流。

一個示例中，對於數據預處理，需要將RGB數據和深度數據對齊，得到RGBD數據，然後才可以執行本方法流程中分別對該RGB數據和RGBD數據的處理。

步驟S202、從RGB圖像數據流中檢測到圖像中包含人體，將圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據。

步驟S203、從RGBD圖像數據流中獲取深度數據，將2D位姿數據和深度數據（對應人體關鍵點位置的深度數據）進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。

採用本發明，預處理後，每一個RGB和RGBD所構成的數據對，是對應同一視角的圖像幀。是將RGB圖像數據流中每幀圖像的人體關鍵點與對應同一圖像中人體關鍵點的深度數據進行對齊，從而，對於圖像中任一個人體關鍵點而言，既有了表徵該人體關鍵點位置的二維坐標，又有了表徵該人體關鍵點運動變化的距離值，則得到了針對該人體關鍵點位置的三維訊息。其中，深度數據從深度圖（DepthMap）中獲取，在一個包含攝影機或攝影模組的採集場景中，DepthMap可以認爲是：包含與該場景中所採集目標對象其表面的距離有關的訊息所構成的圖像（或稱爲圖像通道）。該場景中至少一個點相對於攝影機或攝影模組的距離用深度圖來表示時，深度圖中的每一個像素值可以表示場景中某一點與攝影機之間的距離。

本發明可能的實現方式中，所述檢測到圖像中包含人體，包括：獲取所述RGB圖像數據流，對所述RGB圖像數據流中的每幀圖像進行第一圖像處理。對於當前幀圖像，經所述第一圖像處理後得到多個圖像特徵。根據人體識別網路判斷出所述多個圖像特徵爲人體關鍵點特徵的情况下，檢測到所述當前幀圖像中包含人體，直至對至少一幀圖像完成檢測。

本發明可能的實現方式中，所述方法還包括：所述將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合之前，獲取所述RGBD圖像數據流，對所述RGBD圖像數據流中的每幀圖像進行第二圖像處理。對於當前幀圖像，經所述第二圖像處理後得到多個深度數據，直至對至少一幀圖像完成圖像處理。

一個示例中，數據對齊預處理：是根據多路RGB數據流得到多路RGBD數據流。可以將RGB圖像數據流中每幀圖像的人體關鍵點與對應同一圖像中人體關鍵點的深度數據進行對齊，如果將RGB和RGBD當做數據對來看，則每一個RGB和RGBD構成的數據對，二者都是對應同一視角的圖像幀。數據對齊預處理後，可以輸入多個RGB和RGBD數據對，比如，可以分兩路輸入運行本發明人體關鍵點檢測流程的邏輯模型，對於第一路數據（RGB數據），經第一圖像處理後，透過已經訓練得到的人體追蹤網路來判斷當前圖像幀中是否檢測到人體，如果檢測到人體，將對應當前圖像幀中的目標RGB數據交由後續步驟處理。在後續步驟中，對於第二路數據（RGBD數據），經第二圖像處理後，將RGBD數據與目標RGB數據結合，以根據RGBD數據與目標RGB數據得到3D位姿數據（3D坐標的人體骨架關鍵點）。動態跟蹤：用3D坐標表徵人體骨架關鍵點的3D位姿數據，實現對人體處於運動狀態的追蹤，如跟蹤節點位姿對的變化，支持抬手、踢腿、擺頭、彎腰等至少一種人體動作。

一個示例中，運行本發明人體關鍵點檢測流程的處理邏輯，可以採用離線端軟體開發工具包（SDK，Software Development Kit）形式集成到手機上。基於手機作爲移動端的演算法最佳化，可以加快上述處理邏輯的運行速度，區別於現有技術C/S在線模式是將處理邏輯放置在伺服器，這樣，若終端發起請求到伺服器，二者間容易有傳輸時延，或者網路故障等導致不能及時得到終端所請求的處理結果。而本發明將處理邏輯直接以SDK的離線模式放置在終端，大大加快了檢測方法的處理效率。

圖3示出根據本發明實施例的人體骨架關鍵點的示意圖，包括人體骨架中17個關鍵點，透過檢測這17個關鍵點，可以實時跟蹤用戶的動態姿態變化，如抬手、踢腿、擺頭、彎腰等至少一種人體動作。

如手持手機終端的用戶與電視等大螢幕設備互動的場景中，獲取第一人體運動狀態（比如打網球時的揮拍動作等），將所述第一人體運動狀態對應的人體關鍵點位置變化透過第一3D位姿數據進行描述。根據所述第一3D位姿數據生成第一控制指令，將所述第一控制指令發送給接收側設備，以在所述接收側設備的顯示螢幕上展示對應所述第一人體運動狀態的動作模擬操作。這只是一個示例，其他互動場景也適用本發明。對於這類手機端的體感遊戲而言，採用相關技術中的體感遊戲機，如Xbox、Switch等，都需要另外購買設備，使用成本和空間成本都相對手機終端更高。採用本發明，用戶只要擁有飛時測距（ToF，Time of Flight）手機，便能連接螢幕進行遊戲。同時加上3D人體坐標檢測的技術，能夠帶來更豐富的遊戲內容。ToF手機可以設置TOF模組，其3D成像方案可以是透過給目標物體連續發送光脈衝，然後用感測器接收從目標物體返回的光，透過探測光脈衝的飛行（往返）時間來得到目標物體基於採集位置的距離。

圖4示出根據本發明實施例手持手機終端的用戶與電視等大螢幕設備互動的場景圖，爲一個打羽毛球的互動場景，可以透過檢測用戶的人體骨架關鍵點跟蹤用戶當前的姿態變化，將得到的姿態變化回傳回電視等電子設備中，並在該電子設備中呈現對應的姿態變化。

如手持手機的用戶在鍛煉，如何糾正鍛煉姿態的場景中，獲取第二人體運動狀態（如嘗試抬起雙手至與水平面呈現90度），將所述第二人體運動狀態對應的人體關鍵點位置變化透過第二3D位姿數據進行描述。將所述第二3D位姿數據與預配置的位姿數據進行比對，比對結果不一致的情况下生成第二控制指令（比如，用戶抬起雙手僅僅達到85度，未能與預配置的位姿數據“90度”一致），根據所述第二控制指令發出提示訊息，以根據所述提示訊息調整所述第二人體運動狀態至符合目標狀態。其中，所述提示訊息包括：語音，文字、聲光電等訊息，提示用戶注意當前運動姿態完全不對或者姿勢不到位等。這只是一個示例，其他鍛煉姿態糾正場景也適用本發明。比如，可以基於本發明開發健身行業的虛擬教練軟體，透過手機或類似3D模組檢測到用戶的健身動作，並給予指導。

如將用戶的人體數據應用於虛擬形象的場景中，獲取第三人體運動狀態（如用戶奔跑的姿態），將所述第三人體運動狀態對應的人體關鍵點位置變化透過第三3D位姿數據進行描述。將所述第三3D位姿數據發送給接收側設備，以在所述接收側設備的顯示螢幕上展示由虛擬形象採樣所述第三3D位姿數據執行的操作（虛擬形象可以是一個小動物、一個男孩或一個女孩正在遊戲場景中進行奔跑）。這只是一個示例，其他虛擬形象場景也適用本發明。比如，可以基於本發明開發虛擬遊戲，透過實時的用戶動作捕捉，驅動一個虛擬的形象，代替真人在遊戲場景，爲一種跨越觸屏的交互方式。圖5示出根據本發明實施例生成虛擬形象的場景圖，爲一個跑酷的場景，可以透過檢測用戶的人體骨架關鍵點生成電視等電子設備中虛擬形象對應的姿態變化數據，並在該電子設備中呈現對應的姿態變化。

本發明可能的實現方式中，所述人體識別網路的訓練過程包括：將預先標註好的人體關鍵點特徵作爲訓練樣本數據，將所述訓練樣本數據輸入待訓練的人體識別網路（如CNN）進行訓練，直至輸出結果滿足網路訓練條件，訓練後得到所述人體識別網路。透過CNN可以提取圖像中的人體關鍵點特徵，根據人體的骨架關鍵點標註數據集訓練的演算法模型用於識別圖像中是否包括人體。借助深度學習演算法的優異性能，並利用深度數據，可以得到準確的節點位姿，並實時跟蹤節點位姿對的變化，支持抬手、踢腿、擺頭、彎腰等至少一種人體動作。

應用示例：

圖6示出根據本發明實施例的人體檢測方案的示意圖。圖6中，對於兩路圖像數據流，如RGB圖像數據流和RGBD圖像數據流分別進行圖像處理。對於RGB圖像數據流這一路處理中，經圖像處理後判斷當前RGB圖像幀中是否檢測到人體，如果檢測到人體，將對應當前RGB圖像幀中的目標RGB數據交由後續對於RGBD圖像數據流這一路處理中予以處理。對於RGBD圖像數據流這一路處理中，經圖像處理後將得到的目標RGBD數據（深度數據）與目標RGB數據（2D位姿數據）結合，以根據2D位姿數據和深度數據得到3D位姿數據，即3D坐標的人體骨架關鍵點，將3D位姿數據進行數據轉化後得到數據轉化結果，以用於至少一種場景的檢測處理。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

本發明提及的上述各個方法實施例，在不違背原理邏輯的情况下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。

此外，本發明還提供了人體關鍵點檢測裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本發明提供的任一種人體關鍵點檢測方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖7示出根據本發明實施例的人體關鍵點檢測裝置的方塊圖，如圖7所示，本發明實施例的人體關鍵點檢測裝置，包括：檢測模組31，用於響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據；融合模組32，用於將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。

可能的實現方式中，所述檢測模組，進一步用於：對於當前幀圖像，經所述第一圖像處理後得到多個圖像特徵；根據人體識別網路判斷出所述多個圖像特徵爲人體關鍵點特徵的情况下，檢測到所述當前幀圖像中包含人體，直至對至少一幀圖像完成檢測。

可能的實現方式中，所述裝置還包括：網路訓練模組，用於：在所述人體識別網路的訓練過程中，將預先標註好的人體關鍵點特徵作爲訓練樣本數據，將所述訓練樣本數據輸入待訓練的人體識別網路進行訓練，直至輸出結果滿足網路訓練條件，訓練後得到所述人體識別網路。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，爲了簡潔，這裡不再贅述。

本發明實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述人體關鍵點檢測方法。電腦可讀儲存介質可以是非揮發性電腦可讀儲存介質。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲上述人體關鍵點檢測方法。

電子設備可以被提供爲終端、伺服器或其它形態的設備。

本發明實施例還提出一種電腦程式，其中，所述電腦程式包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現上述人體關鍵點檢測方法。

圖8是根據一示例性實施例示出的一種電子設備800的方塊圖。例如，電子設備800可以是移動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖8，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音訊組件810，輸入/輸出（I/ O）介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，數據通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置爲儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人數據，電話簿數據，消息，圖片，視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式化唯讀記憶體（EPROM），可程式化唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟。

電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與爲電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控面板觸控式面板(TP)。如果螢幕包括觸控面板，螢幕可以被實現爲觸控式螢幕，以接收來自用戶的輸入信號。觸控面板包括一個或多個觸控式感測器以感測觸摸、滑動和觸控面板上的手勢。所述觸控式感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影鏡頭和/或後置攝影鏡頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影鏡頭和/或後置攝影鏡頭可以接收外部的多媒體數據。每個前置攝影鏡頭和後置攝影鏡頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音訊組件810被配置爲輸出和/或輸入音訊信號。例如，音訊組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置爲接收外部音訊信號。所接收的音訊信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音訊組件810還包括一個揚聲器，用於輸出音訊信號。

輸入/輸出介面812爲處理組件802和外圍介面模組之間提供介面，上述外圍介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於爲電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件爲電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括近接感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播頻道接收來自外部廣播管理系統的廣播信號或廣播相關訊息。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於無線射頻辨識(RFID)技術，紅外數據協會（IrDA）技術，超寬頻(UWB)技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器(DSP)、數字信號處理設備（DSPD）、程式可程式邏輯裝置(PLD)、現場可程式化邏輯閘陣列(FPGD)、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖9是根據一示例性實施例示出的一種電子設備900的方塊圖。例如，電子設備900可以被提供爲一伺服器。參照圖9，電子設備900包括處理組件922，其進一步包括一個或多個處理器，以及由記憶體932所代表的記憶體資源，用於儲存可由處理組件922的執行的指令，例如應用程式。記憶體932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件922被配置爲執行指令，以執行上述方法。

電子設備900還可以包括一個電源組件926被配置爲執行電子設備900的電源管理，一個有線或無線的網路介面950被配置爲將電子設備900連接到網路，和一個輸入輸出（I/O）介面958。電子設備900可以操作基於儲存在記憶體932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性電腦可讀儲存介質，例如包括電腦程式指令的記憶體932，上述電腦程式指令可由電子設備900的處理組件922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：便携式電腦碟、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可抹除可程式化唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、可擕式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能影音光碟（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋爲瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、透過波導或其他傳輸媒介傳播的電磁波（例如，透過光纖電纜的光脈衝）、或者透過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者透過網路、例如網際網路、區域網路、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置數據、或者以一種或多種程式語言的任意組合編寫的原始碼或目標代碼，所述程式語言包括面向對象的程式語言—諸如Smalltalk、C++等，以及常規的過程式程式語言—諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以透過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦，或者，可以連接到外部電腦（例如利用網際網路服務供應商來透過網際網路連接）。在一些實施例中，透過利用電腦可讀程式指令的狀態訊息來個性化定制電子電路，例如可程式邏輯電路、現場可程式化邏輯閘陣列(FPGA)或可程式化邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置（系統）和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式數據處理裝置的處理器，從而生産出一種機器，使得這些指令在透過電腦或其它可程式數據處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式數據處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式數據處理裝置、或其它設備上，使得在電腦、其它可程式數據處理裝置或其它設備上執行一系列操作步驟，以産生電腦實現的過程，從而使得在電腦、其它可程式數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

31:檢測模組 32:融合模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音訊組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 900:電子設備 922:處理組件 926:電源組件 932:記憶體 950:網路介面 958:輸入輸出介面 S101~S102:步驟 S201~S203:步驟

此處的附圖被並入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1示出根據本發明實施例的人體關鍵點檢測方法的流程圖；圖2示出根據本發明實施例的人體關鍵點檢測方法的流程圖；圖3示出根據本發明實施例的人體骨架關鍵點的示意圖；圖4示出根據本發明實施例手持手機終端的用戶與電視等大螢幕設備互動的場景圖；圖5示出根據本發明實施例生成虛擬形象的場景圖；圖6示出根據本發明實施例的人體檢測方案的示意圖；圖7示出根據本發明實施例的人體關鍵點檢測裝置的方塊圖；圖8示出根據本發明實施例的電子設備的方塊圖；及圖9示出根據本發明實施例的電子設備的方塊圖。

S101~S102:步驟

Claims

一種人體關鍵點檢測方法，包括：響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據；將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。
如請求項1所述的方法，其中，所述方法還包括：所述將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合之前，將RGB圖像數據流中每幀圖像與對應同一圖像的深度數據進行數據對齊的預處理，得到RGBD圖像數據流。
如請求項1或2所述的方法，其中，所述檢測到圖像中包含人體，包括：對於當前幀圖像，經所述第一圖像處理後得到多個圖像特徵；根據人體識別網路判斷出所述多個圖像特徵爲人體關鍵點特徵的情况下，檢測到所述當前幀圖像中包含人體，直至對至少一幀圖像完成檢測。
如請求項2所述的方法，其中，所述方法還包括：所述將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合之前，對於當前幀圖像，經所述第二圖像處理後得到多個深度數據，直至對至少一幀圖像完成圖像處理。
如請求項1所述的方法，其中，所述方法還包括：獲取第一人體運動狀態；將所述第一人體運動狀態對應的人體關鍵點位置變化透過第一3D位姿數據進行描述；根據所述第一3D位姿數據生成第一控制指令，將所述第一控制指令發送給接收側設備，以在所述接收側設備的顯示螢幕上展示對應所述第一人體運動狀態的動作模擬操作。
如請求項1所述的方法，其中，所述方法還包括：獲取第二人體運動狀態；將所述第二人體運動狀態對應的人體關鍵點位置變化透過第二3D位姿數據進行描述；將所述第二3D位姿數據與預配置的位姿數據進行比對，比對結果不一致的情况下生成第二控制指令；根據所述第二控制指令發出提示訊息，以根據所述提示訊息調整所述第二人體運動狀態至符合目標狀態。
如請求項1所述的方法，其中，所述方法還包括：獲取第三人體運動狀態；將所述第三人體運動狀態對應的人體關鍵點位置變化透過第三3D位姿數據進行描述；將所述第三3D位姿數據發送給接收側設備，以在所述接收側設備的顯示螢幕上展示由虛擬形象採樣所述第三3D位姿數據執行的操作。
如請求項3所述的方法，其中，所述人體識別網路的訓練過程包括：將預先標註好的人體關鍵點特徵作爲訓練樣本數據，將所述訓練樣本數據輸入待訓練的人體識別網路進行訓練，直至輸出結果滿足網路訓練條件，訓練後得到所述人體識別網路。
一種人體關鍵點檢測裝置，包括：檢測模組，用於響應於檢測到圖像中包含人體，將所述圖像中用於標識人體關鍵點位置的二維坐標數據提取出來，得到2D位姿數據；融合模組，用於將所述2D位姿數據和對應所述人體關鍵點位置的深度數據進行人體關鍵點特徵融合，得到用於標識人體關鍵點位置的3D位姿數據。
一種電子設備，包括：處理器；及用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置爲：執行請求項1至8中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至8中任意一項所述的方法。