TW202226049A

TW202226049A - 關鍵點檢測方法、電子設備和儲存媒體

Info

Publication number: TW202226049A
Application number: TW110127853A
Authority: TW
Inventors: 李思穎; 陳祖凱; 王權; 錢晨
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-12-29
Filing date: 2021-07-29
Publication date: 2022-07-01
Also published as: CN112597944A; CN112597944B; WO2022142298A1

Abstract

本公開涉及一種關鍵點檢測方法、電子設備和儲存媒體。所述方法包括：獲取人臉影像；利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，人臉關鍵點資訊集合包括該人臉的第一關鍵點資訊以及該至少一個人臉器官的第二關鍵點資訊。

Description

關鍵點檢測方法、電子設備和儲存媒體

本公開涉及計算機視覺領域，尤其涉及一種關鍵點檢測方法、電子設備和儲存媒體。

人臉關鍵點檢測是諸多人臉相關應用的基礎，可以為人臉識別等技術提供位置矯正，也為增強現實、美妝特效等場景提供人臉的語意資訊。因此如何檢測人臉關鍵點，成為目前一個亟待解決的問題。

相關方法中，會在獲取整臉關鍵點以後，再基於整臉關鍵點，通過單獨的模型來獲取具有更高精度的人臉器官關鍵點，從而提升關鍵點檢測的精度。然而，這種分別進行關鍵點獲取的過程不僅繁瑣，也容易使得得到的關鍵點精度較低。

本公開提出了一種關鍵點檢測方案。

根據本公開的一方面，提供了一種關鍵點檢測方法，包括：

獲取人臉影像；利用目標神經網路包括的至少兩個神經網路分支，對所述人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，所述人臉關鍵點資訊集合包括所述人臉的第一關鍵點資訊以及所述至少一個人臉器官的第二關鍵點資訊。

根據本公開的一方面，提供了一種電子設備，包括：

處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器被配置為：執行上述關鍵點檢測方法。

根據本公開的一方面，提供了一種計算機可讀儲存媒體，其上儲存有計算機程式指令，所述計算機程式指令被處理器執行時實現上述關鍵點檢測方法。

在本公開實施例中，通過獲取人臉影像，並利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行檢測，來得到包括人臉的第一關鍵點資訊以及至少一個人臉器官的第二關鍵點資訊的人臉關鍵點資訊集合。通過上述過程，可以通過目標神經網路對人臉影像進行端到端的處理，從而同時得到具有較高精度的人臉的第一關鍵點資訊以及人臉器官的第二關鍵點資訊，提升了關鍵點檢測的便捷性與精度。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本公開。根據下面參考附圖對示例性實施例的詳細說明，本公開的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中繪示了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本公開，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本公開同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本公開的主旨。

圖1繪示根據本公開一實施例的關鍵點檢測方法的流程圖，該方法可以應用於關鍵點檢測裝置，關鍵點檢測裝置可以為終端設備、伺服器或者其他處理設備等。其中，終端設備可以為用戶設備（User Equipment，UE）、移動設備、用戶終端、終端、蜂巢式電話、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等。在一個示例中，該關鍵點檢測方法可以應用於雲端伺服器或本地伺服器，雲端伺服器可以為公有雲伺服器，也可以為私有雲伺服器，根據實際情況靈活選擇即可。

在一些可能的實現方式中，該關鍵點檢測方法也可以通過處理器調用儲存器中儲存的計算機可讀指令的方式來實現。

如圖1所示，在一種可能的實現方式中，所述關鍵點檢測方法可以包括：

步驟S11，獲取人臉影像。

步驟S12，利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，人臉關鍵點資訊集合包括人臉的第一關鍵點資訊以及至少一個人臉器官的第二關鍵點資訊。

人臉影像可以是包含有人臉的影像幀，實現形式可以根據實際情況靈活決定，在本公開實施例中不做限制。人臉影像中包含的人臉數量在本公開實施例中也不做限制，可以包含某個對象的人臉，也可以同時包含多個對象的人臉。在人臉影像包含多個人臉的情況下，通過本公開實施例中提出的關鍵點檢測方法，可以分別得到每個對象的人臉對應的人臉的第一關鍵點資訊和/或至少一個人臉器官的第二關鍵點資訊等。後續各公開實施例均以人臉影像包括單個對象的人臉為例進行說明。人臉影像中包含多個對象的人臉情況，可以參考後續各公開實施例進行靈活擴展，不再一一列舉贅述。

人臉影像的獲取方式在本公開實施例中也不做限定，比如可以對儲存有人臉影像的數據庫進行讀取來得到人臉影像，或是在某些場景下對人臉影像進行採集來得到人臉影像，亦或是從包含有人臉的視頻中進行片段截取或採樣等方式來得到人臉影像等，具體如何獲取可以根據實際情況靈活決定。

在一種可能的實現方式中，人臉影像可以是從人臉影像幀序列中獲取的影像。人臉影像幀序列可以是包含多幀人臉影像的幀序列，其實現方式在本公開實施例中不做限制。從人臉影像幀序列中獲取人臉影像的方式在本公開實施例中也不做限定，可以是從人臉影像幀序列中隨機進行採樣來獲取人臉影像，也可以是根據預設要求從人臉影像幀序列中選定人臉影像。

步驟S11中獲取的人臉影像的數量在本公開實施例中不做限定，可以根據實際情況靈活選擇。後續各公開實施例均以獲取單個人臉影像為例進行說明，獲取多個人臉影像後的處理方式，可以參考後續各公開實施例進行靈活擴展，在本公開實施例中不再贅述。

目標神經網路可以是對人臉影像進行處理的神經網路，其實現形式可以根據實際情況靈活決定。如上述公開實施例所述，在一種可能的實現方式中，目標神經網路可以包括至少兩個神經網路分支。其中，目標神經網路包含的神經網路分支的數量、各神經網路分支的實現形式以及連接關係等，均可以根據實際情況靈活決定，詳見下述各公開實施例，在此先不做展開。

通過上述公開實施例還可以看出，利用目標神經網路包括的至少兩個神經網路分支，可以對人臉影像中人臉以及至少一個人臉器官進行處理，來得到人臉關鍵點資訊集合。其中，人臉關鍵點資訊集合可以是人臉影像中包含的人臉關鍵點的相關資訊，包含哪些資訊內容可以根據實際情況靈活決定。在一種可能的實現方式中，人臉關鍵點資訊集合可以包括人臉的第一關鍵點資訊以及至少一個人臉器官的第二關鍵點資訊。

其中，人臉的第一關鍵點資訊可以包括：對人臉中各部位或器官進行定位，從而確定人臉整體情況的關鍵點，比如人臉中眼睛、嘴巴、鼻子或是眉毛等器官上的關鍵點，以及人臉面頰、額頭或下巴等部位上的關鍵點等。

人臉的第一關鍵點資訊中第一關鍵點的數量以及具體包含人臉中的哪些關鍵點，這些情況均可以根據實際情況進行靈活設定，在本公開實施例中不做限制。在一種可能的實現方式中，人臉的第一關鍵點的數量可以在68至128個這一區間內，設定的具體數量可以根據實際情況靈活選擇。在一個示例中，可以設定人臉的第一關鍵點的數量為106個，記為Face 106。在這種情況下，目標神經網路中的神經網路分支可以對輸入的人臉影像進行人臉的第一關鍵點資訊檢測，從而輸出106個人臉的第一關鍵點的資訊。

人臉器官的第二關鍵點資訊可以包括：人臉中各部位或器官中所包含的，可以用於確定人臉局部部位或器官情況的關鍵點，比如人臉中眼睛、嘴巴、鼻子或是眉毛等器官中所包含的關鍵點等。相比於上述公開實施例中提到的人臉的第一關鍵點資訊來說，人臉器官的第二關鍵點資訊可能與人臉的第一關鍵點資訊描述同一人臉上的部位或器官，但是由於人臉的第一關鍵點資訊用於確定人臉的整體情況，而人臉器官的第二關鍵點資訊用於確定該部位或器官的局部情況，因此人臉器官的第二關鍵點資訊相對於描述同一部位或器官的人臉的第一關鍵點資訊來說，關鍵點的數量可能更多，在相應部位或器官上的分佈也可能更加密集。

在一種可能的實現方式中，人臉器官的第二關鍵點的數量以及具體包含人臉中哪些器官或部位的關鍵點，這些情況均可以根據實際情況進行靈活設定，在本公開實施例中不做限制。在一種可能的實現方式中，嘴部的關鍵點的數量可以在40至80個這一區間內，左眼的關鍵點數量可以在16至32個這一區間內，右眼的關鍵點數量也可以在16至32個這一區間內，左眉毛的關鍵點的數量可以在10至20個這一區間內，右眉毛的關鍵點數量也可以在10至20個這一區間內，上述各器官的關鍵點設定的具體數量可以根據實際情況靈活選擇。在一個示例中，可以設定人臉中嘴部的關鍵點數量為64個，記為mouth 64，左眼和右眼的關鍵點數量各為24個，均記為eye 24，左眉毛和右眉毛的關鍵點數量各為13個，均記為eyebrow 13。

在本公開實施例中，通過獲取人臉影像，並利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行處理，來得到包括人臉的第一關鍵點資訊以及人臉器官的第二關鍵點資訊的人臉關鍵點資訊集合。通過上述過程，可以通過目標神經網路對人臉影像進行端到端的處理，從而同時得到具有較高精度的人臉的第一關鍵點資訊以及人臉器官的第二關鍵點資訊，提升了關鍵點檢測的便捷性與精度。

如上述各公開實施例所述，目標神經網路中包含的神經網路分支可以根據實際情況靈活決定。在一種可能的實現方式中，至少兩個神經網路分支可以包括用於檢測人臉的第一網路分支，以及，用於檢測至少一個人臉器官的至少一個第二網路分支。

圖2繪示根據本公開一實施例的關鍵點檢測方法的流程圖。如圖2所示，在一種可能的實現方式中，步驟S12可以包括：

步驟S121，通過第一網路分支對人臉進行檢測，得到第一檢測結果，第一檢測結果包括人臉的第一關鍵點資訊以及至少一個人臉器官的檢測框資訊；

步驟S122，基於第一檢測結果，通過至少一個第二網路分支對至少一個人臉器官進行檢測，得到第二檢測結果，第二檢測結果包括至少一個人臉器官的第二關鍵點資訊。

其中，第一網路分支可以是對人臉影像中的人臉進行檢測，從而得到人臉的第一關鍵點資訊的網路結構，其實現形式可以根據實際情況靈活決定，詳見下述各公開實施例，在此先不做展開。

第一檢測結果可以是第一網路分支對人臉影像中的人臉進行檢測，所得到的檢測結果。在一種可能的實現方式中，第一檢測結果可以包括人臉的第一關鍵點資訊以及至少一個人臉器官的檢測框資訊。在一些可能的實現方式中，第一檢測結果還可以包括其他的資訊，比如還可以包括對人臉影像中的人臉進行特徵提取所得到的人臉影像的第一特徵資訊，該人臉影像的第一特徵資訊可以反映人臉影像中人臉的整體特徵，人臉影像的第一特徵資訊的具體實現形式可以詳見下述各公開實施例，在此先不做展開。

第二網路分支可以是對人臉影像中人臉的各器官進行檢測，從而得到人臉器官的第二關鍵點資訊的網路結構，其實現形式同樣可以根據實際情況靈活決定，詳見下述各公開實施例，在此先不做展開。

第二檢測結果可以是至少一個第二網路分支基於第一檢測結果，對人臉影像中人臉的至少一個人臉器官進行檢測，所得到的檢測結果。在一種可能的實現方式中，第二檢測結果可以包括至少一個人臉器官的第二關鍵點資訊。由於第一檢測結果是基於人臉影像中的人臉進行檢測所得到的反映人臉整體情況的檢測結果，基於第一檢測結果，來確定第二檢測結果中的人臉器官的第二關鍵點資訊，可以使人臉器官的第二關鍵點資訊與第一檢測結果中人臉的第一關鍵點資訊更為統一，從而使得人臉關鍵點資訊集合更加精確。至少一個第二網路分支如何確定至少一個人臉器官的第二關鍵點資訊，其檢測的過程可以詳見下述各公開實施例，在此先不做展開。

通過步驟S121和步驟S122所述的過程，可以利用目標神經網路同時得到人臉的第一關鍵點資訊和至少一個人臉器官的第二關鍵點資訊，一方面可以實現端到端的人臉關鍵點識別，通過目標神經網路提升了關鍵點識別的速度和效率，也可以提升後續利用關鍵點進行跟蹤等處理的效率；另一方面由於各人臉器官的第二關鍵點資訊可以基於第一檢測結果來確定，因此可以利用反映人臉整體情況的第一檢測結果對各人臉器官的第二關鍵點資訊進行定位，從而使得得到的人臉關鍵點資訊集合在人臉整體和局部器官中的位置較為統一，且均具有較高的精度，有效提升了識別出的關鍵點的準確度。

在一種可能的實現方式中，步驟S121可以包括：

根據第一網路分支的輸出，得到人臉的第一關鍵點資訊以及至少一個人臉器官的檢測框資訊。

在一些實施例中，步驟S121還可以包括：根據第一網路分支中至少一個網路層輸出的中間特徵，得到人臉影像的第一特徵資訊。

其中，由於第一網路分支可以是對人臉影像進行人臉的第一關鍵點資訊檢測的網路結構，因此，在將人臉影像作為輸入的情況下，在一種可能的實現方式中，可以根據第一網路分支的輸出，來得到人臉的第一關鍵點資訊。

至少一個人臉器官的檢測框資訊，可以是表示人臉影像中各器官位置的檢測框。具體表達人臉影像中哪些器官的位置，可以根據實際情況靈活設定，在本公開實施例中不做限制。檢測框的形狀以及實現形式均可以根據實際情況靈活決定，不同器官的檢測框的形狀與實現形式可以相同，也可以不同。在一種可能的實現方式中，各器官的檢測框可以均為矩形框，並可以通過矩形框中頂點的坐標來體現各檢測框的位置。在一種可能的實現方式中，目標神經網路的第一網路分支在輸出人臉的第一關鍵點資訊的同時，也可以同時輸出至少一個人臉器官的檢測框資訊。

人臉影像的第一特徵資訊可以是第一網路分支根據人臉影像中的人臉的整體所確定的，反映人臉整體情況的特徵資訊。該人臉影像的第一特徵資訊具體如何獲取，以及包含哪些特徵數據，其實現方式均可以根據實際情況靈活決定，不局限於下述各公開實施例。

如上述各公開實施例所述，第一網路分支的實現形式可以根據實際情況靈活決定。在一種可能的實現方式中，第一網路分支可以通過多個連接的網路層所構成，這些網路層的具體實現形式以及組合形式可以根據實際情況靈活決定，不局限於下述各公開實施例。

在一種可能的實現方式中，第一網路分支可以包括依次連接的淺層特徵提取網路結構block 0和深層特徵提取網路結構block main，block 0和block main中可以分別包含多個如卷積層、池化層或是分類層等形式的網路層。通過block 0，第一網路分支可以對人臉影像的特徵資訊進行初步提取，得到的初步提取特徵可以輸入至block main中進行人臉影像的特徵資訊的進一步提取，並基於進一步提取的特徵資訊進行回歸，從而得到第一網路分支的輸出，來實現人臉的第一關鍵點資訊的檢測。相應的，在一個示例中，block 0提取的初步提取特徵可以作為人臉影像的第一特徵資訊；在一個示例中，block main提取的深層特徵可以作為人臉影像的第一特徵資訊；在一個示例中，block 0提取的初步提取特徵以及block main進一步提取的深層特徵均可以作為人臉影像的第一特徵資訊，具體選擇哪些特徵作為人臉影像的第一特徵資訊，可以根據實際情況靈活決定，在本公開實施例中不做限制。

需要注意的是，在本公開實施例中，對以上步驟的實現順序不做限定，可以根據實際情況靈活決定。在一種可能的實現方式中，可以同時得到人臉的第一關鍵點資訊、至少一個人臉器官的檢測框以及人臉的整體特徵，也可以按照某種順序分別得到人臉的第一關鍵點資訊、至少一個人臉器官的檢測框以及人臉的整體特徵等。

步驟S122的實現形式可以根據實際情況靈活決定。在一種可能的實現方式中，步驟S122可以包括：對於至少一個第二網路分支中的每一第二網路分支，利用該第二網路分支對該第二網路分支對應的人臉器官進行檢測，得到該第二網路分支對應的人臉器官的第二檢測結果。

通過上述公開實施例可以看出，在一種可能的實現方式中，人臉中不同器官所包含的人臉器官的第二關鍵點資訊，可以通過目標神經網路包括的多個第二網路分支分別來進行檢測，比如嘴部的第二關鍵點資訊可以通過嘴部的第二網路分支進行檢測，眼睛的第二關鍵點資訊可以通過眼睛的第二網路分支進行檢測等。因此在一種可能的實現方式中，目標神經網路包含的第二網路分支的數量以及第二網路分支用於檢測的器官，其實現形式均可以根據實際情況靈活決定。在目標神經網路包括多個第二網路分支的情況下，各第二網路分支相互獨立，即各第二網路分支執行檢測的順序以及過程等均不受其他第二網路分支的檢測過程或數據的干擾。在一些可能的實現方式中，各第二網路分支的結構可以相同，也可以不同，在本公開實施例中不做限制。在一些可能的實現方式中，各第二網路分支中的檢測過程可以相同，也可以不同，在本公開實施例中同樣不做限制。

通過利用至少一個第二網路分支中的每一第二網路分支，對該第二網路分支對應的人臉器官進行檢測，得到該第二網路分支對應的人臉器官的第二檢測結果。通過上述過程，可以利用多個第二網路分支，對人臉影像中人臉的多個器官分別獨立地進行人臉器官檢測，提高關鍵點檢測的效率和靈活性。

在一種可能的實現方式中，對每一第二網路分支對應的人臉器官進行檢測，得到該第二網路分支對應的人臉器官的第二檢測結果可以包括：

從人臉影像中提取出與該第二網路分支對應的人臉器官的檢測框資訊匹配的人臉器官區域；

提取人臉器官區域的第二特徵資訊；

基於第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊。

人臉器官區域可以是人臉影像中包括人臉器官的區域，如上述各公開實施例所述。人臉器官的檢測框資訊，可以是表示人臉影像中各器官位置的檢測框。在一種可能的實現方式中，基於人臉器官的檢測框資訊，可以確定人臉器官在人臉影像中的位置，因此，可以根據人臉器官的檢測框資訊，從人臉影像中提取出匹配的人臉器官區域。

提取人臉器官區域的方式在本公開實施例中不做限制，在一種可能的實現方式中，可以根據人臉器官的檢測框資訊所確定的位置，對人臉影像進行剪切，來得到人臉器官區域。舉例來說，在一個示例中，可以利用嘴部器官的檢測框，在進行嘴部關鍵點檢測的第二網路分支中，對人臉影像進行剪切，得到嘴部的人臉器官區域。其餘器官如眼睛或是眉毛等的剪切形式可以參考上述公開實施例，在此不再贅述。剪切的方式可以根據實際情況靈活決定，詳見下述各公開實施例，在此先不做展開。

在得到人臉器官區域以後，第二網路分支可以進一步提取人臉器官區域的第二特徵資訊。其中，人臉器官區域的第二特徵資訊可以是反映人臉器官局部情況的特徵資訊，其提取方式可以根據實際情況靈活決定，不局限於下述各公開實施例。在一種可能的實現方式中，可以通過第二網路分支中具有特徵提取功能的網路層，對人臉器官區域進行淺層特徵提取和/或深層特徵提取，並將提取得到的人臉器官區域的淺層特徵和/或深層特徵作為人臉器官區域的第二特徵資訊等。

在得到人臉器官區域的第二特徵資訊以後，可以對人臉器官區域的第二特徵資訊進行處理，來得到人臉器官的第二關鍵點資訊。對人臉器官區域的第二特徵資訊進行處理的方式在本公開實施例中不做限定。在一種可能的實現方式中，可以通過第二網路分支中具有關鍵點計算或識別功能的網路層，對人臉器官區域的第二特徵資訊進行回歸計算，得到人臉器官的第二關鍵點資訊。在一種可能的實現方式中，也可以通過第二網路分支中具有關鍵點計算或識別功能的網路層，對人臉器官區域的第二特徵資訊，結合第一檢測結果中包含的部分或全部資訊來進行回歸計算，從而確定人臉器官的第二關鍵點資訊。具體如何根據人臉器官區域的第二特徵資訊以及第一檢測結果來確定人臉器官的第二關鍵點資訊，其實現形式可以詳見下述各公開實施例，在此先不做展開。

通過從人臉影像中提取出與每個人臉器官的檢測框資訊匹配的人臉器官區域，並提取人臉器官區域的第二特徵資訊，從而基於人臉器官區域的第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊，可以基於提取的人臉器官區域來進行人臉器官的第二關鍵點資訊的檢測，有效提升人臉器官的第二關鍵點的檢測精度，從而提升關鍵點檢測方法的整體檢測精度。而且，提取的人臉器官區域與第一檢測結果包括的人臉器官的檢測框資訊匹配，因此得到的人臉器官的第二關鍵點資訊與第一網路分支輸出的人臉的第一關鍵點資訊具有關聯性，進一步提升了目標神經網路對人臉關鍵點檢測的整體準確性。同時，人臉器官的第二關鍵點資訊基於人臉器官區域的第二特徵資訊以及第一檢測結果所確定，由於第一檢測結果是對人臉影像中的人臉進行檢測所得到的結果，因此基於第一檢測結果可以對人臉影像中各器官的位置進行相應的定位參考，使得確定的人臉器官的第二關鍵點資訊可以具有更高的精度，且與人臉的第一關鍵點資訊的位置可以更加統一，因此更加提升關鍵點的檢測精度。

如上述各公開實施例所述，第一檢測結果可以包括人臉影像的第一特徵資訊，因此，在一種可能的實現方式中，對每一第二網路分支對應的人臉器官進行檢測，得到該第二網路分支對應的人臉器官的第二檢測結果也可以包括：

從人臉影像的第一特徵資訊中提取出與該第二網路分支對應的人臉器官的檢測框資訊匹配的人臉器官區域的初始特徵資訊；

對初始特徵資訊進行深層特徵提取，得到人臉器官區域的第二特徵資訊；

基於人臉器官區域的第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊。

人臉器官區域的初始特徵資訊，可以是人臉影像的第一特徵資訊中與人臉器官的區域相關的特徵資訊，如上述各公開實施例所述。人臉器官的檢測框資訊，可以是表示人臉影像中各器官位置的檢測框。在一種可能的實現方式中，基於人臉器官的檢測框資訊，可以確定人臉器官區域在人臉影像的第一特徵資訊中的位置，因此，可以根據人臉器官的檢測框資訊，從人臉影像的第一特徵資訊中提取出匹配的人臉器官區域的初始特徵資訊。

提取人臉器官區域的初始特徵資訊的方式在本公開實施例中不做限制。在一種可能的實現方式中，在人臉影像的第一特徵資訊包括人臉影像的特徵圖的情況下，可以根據人臉器官的檢測框資訊所確定的位置，對人臉影像的特徵圖進行剪切，來得到人臉器官區域的初始特徵資訊。舉例來說，在一個示例中，可以利用左眼器官的檢測框，在進行左眼關鍵點檢測的第二網路分支中，對人臉影像的特徵圖進行剪切，得到左眼的人臉器官區域的初始特徵資訊。其餘器官如嘴巴或是眉毛等的剪切形式可以參考上述公開實施例，在此不再贅述。剪切的方式可以根據實際情況靈活決定，詳見下述各公開實施例，在此先不做展開。

在得到人臉器官區域的初始特徵資訊以後，第二網路分支可以進一步對初始特徵資訊進行深層特徵提取，得到人臉器官區域的第二特徵資訊。其中，人臉器官區域的第二特徵資訊的實現形式可以詳見上述各公開實施例，在此不再贅述。對初始特徵資訊進行深層特徵提取的方式在本公開實施例中也不做限制。在一些可能的實現方式中，可以通過第二網路分支中具有特徵提取功能的網路層，對人臉器官區域的初始特徵資訊進行進一步地深層特徵提取，並將提取得到的人臉器官區域的深層特徵作為人臉器官區域的第二特徵資訊等。

在得到人臉器官區域的第二特徵資訊以後，可以基於人臉器官區域的第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊，這一過程的具體實現方式可以參考上述公開實施例，在此不再贅述。

通過從人臉影像的第一特徵資訊中提取出與每個人臉器官的檢測框資訊匹配的人臉器官區域的初始特徵資訊，並對初始特徵資訊進行深層特徵提取得到人臉器官區域的第二特徵資訊，從而基於人臉器官區域的第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊，可以使得第二網路分支和第一網路分支共享部分的特徵提取的網路層結構。一方面可以減少特徵提取的耗時，提高關鍵點檢測的效率，另一方面還可以利用到人臉影像的第一特徵資訊中反映的人臉全臉的資訊，提高確定的人臉器官的第二關鍵點資訊的穩定性。

如上述公開實施例所述，提取人臉器官區域的方式可以根據實際情況靈活決定。在一種可能的實現方式中，從人臉影像中提取出與人臉器官的檢測框資訊匹配的人臉器官區域可以包括：

根據檢測框資訊，確定人臉器官在人臉影像中的位置坐標；

通過第二網路分支的感興趣區域校準層，在位置坐標的精度下，提取與人臉器官的檢測框資訊匹配的人臉器官區域。

如上述各公開實施例所述，人臉器官的檢測框資訊，可以是表示人臉影像中各器官位置的檢測框。因此，基於檢測框資訊，可以確定人臉器官在人臉影像中的位置坐標。

在確定人臉器官在人臉影像中的位置坐標以後，可以通過第二網路分支的感興趣區域校準層，在位置坐標的精度下，提取人臉器官區域。

其中，位置坐標的精度可以是位置坐標的數值精度。在一個示例中，檢測框資訊中檢測框的頂點坐標可以為浮點數，則基於檢測框資訊所確定的位置坐標的精度可以與檢測框的頂點坐標的浮點位數一致。在一個示例中，檢測框的頂點坐標可以為整數，則位置坐標的精度可以為整數。

感興趣區域校準層（Region Of Interest Align，ROI Align）可以是具有影像剪切功能的網路層，其實現形式在本公開實施例中不做限制。通過上述公開實施例可以看出，在一種可能的實現方式中，感興趣區域校準層在對人臉影像進行剪切的過程中，剪切的精度可以與人臉器官在人臉影像中的位置坐標的精度一致。因此，在一種可能的實現方式中，在位置坐標的精度為浮點數的情況下，感興趣區域校準層可以是能在浮點精度下進行影像剪切的網路層，因此，任意具有該功能的網路層均可以作為感興趣區域校準層的實現形式。

通過根據檢測框資訊，確定人臉器官在人臉影像中的位置坐標，並通過第二網路分支的感興趣區域校準層，在位置坐標的精度下，提取與人臉器官的檢測框資訊匹配的人臉器官區域，可以有效提升提取的人臉器官區域的精度，繼而提升基於該人臉器官區域所確定的人臉器官的第二關鍵點資訊的精度，從而提升關鍵點檢測的精度。

在一些可能的實現方式中，從人臉影像的第一特徵資訊中提取人臉器官區域的初始特徵資訊的方式，可以參考上述從人臉影像中提取人臉器官區域的方式來實現，在此不再贅述。

在一種可能的實現方式中，基於人臉器官區域的第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊，可以包括：

將人臉器官區域的第二特徵資訊與人臉影像的第一特徵資訊和/或人臉的第一關鍵點資訊進行至少一次融合處理，得到融合特徵資訊；

根據融合特徵資訊，得到人臉器官的關鍵點資訊。

如上述各公開實施例所述，人臉器官區域的第二特徵資訊，可以是第二網路分支中，對人臉器官區域和/或人臉器官區域的初始特徵資訊進行提取所得到的第二特徵資訊，其實現形式可以參考上述各公開實施例，在此不再贅述。

由於人臉器官區域是從人臉影像中提取的區域，提取的精度可能會影響人臉器官區域的第二特徵資訊的精度，從而進一步影響確定的人臉器官的第二關鍵點資訊的精度。因此，在一種可能的實現方式中，為了提高確定的人臉器官的第二關鍵點資訊的精度，可以將第一網路分支中所得到的第一檢測結果中的人臉影像的第一特徵資訊和/或人臉的第一關鍵點資訊，與人臉器官區域的第二特徵資訊進行融合，來得到融合特徵資訊。由於人臉影像的第一特徵資訊和/或人臉的第一關鍵點資訊是基於完整的人臉影像所得到的，可以體現出人臉的整體，因此根據融合特徵資訊來進一步回歸得到的人臉器官的第二關鍵點資訊，可以與得到的人臉的第一關鍵點資訊具有較為統一的位置資訊，因此具有較高的精度。

具體地，在進行特徵融合的過程中，是與哪些對象進行融合，在本公開實施例中不做限制。

圖3繪示根據本公開一應用示例的示意圖。如圖所示，在一個示例中，經過各第二分支的特徵提取模組（如嘴部特徵提取模組、左眼特徵提取模組以及右眉毛特徵提取模組等）進行特徵提取後，可以得到各人臉器官區域的第二特徵資訊，這些人臉器官區域的第二特徵資訊可以與圖中第一分支輸出的106人臉整體關鍵點（即人臉的第一關鍵點資訊）分別進行一次融合，融合的形式可以為連接或其他形式等，來得到融合特徵資訊（圖中未標明）。融合特徵資訊可以進一步通過計算得到各第二分支輸出的人臉器官的第二關鍵點（如64個嘴部關鍵點、24個左眼關鍵點以及13個右眉毛關鍵點等）。

圖4繪示根據本公開一應用示例的示意圖。如圖所示，在一個示例中，經過各第二分支的特徵提取模組（如嘴部特徵提取模組、左眼特徵提取模組以及右眉毛特徵提取模組等）進行特徵提取後，可以得到各人臉器官區域的第二特徵資訊，這些人臉器官區域的第二特徵資訊可以與圖中第一分支的淺層特徵提取模組所提取的人臉影像的第一特徵資訊分別進行一次融合，融合的形式可以為相加或其他形式等，來得到融合特徵資訊（圖中未標明）。融合特徵資訊可以進一步通過計算得到各第二分支輸出的人臉器官的第二關鍵點（如64個嘴部關鍵點、24個左眼關鍵點以及13個右眉毛關鍵點等）。

在一些可能的實現方式中，圖3中的106人臉整體關鍵點（即人臉的第一關鍵點資訊）與圖4中的人臉影像的第一特徵資訊可以均與各人臉器官區域的第二特徵資訊進行融合。

在一些可能的實現方式中，人臉器官區域的第二特徵資訊還可以與人臉的第一關鍵點資訊以及人臉影像的第一特徵資訊均進行融合。

上述各公開實施例還提出，人臉影像的第一特徵資訊可以包含第一網路分支中某個網路層或某些網路層所提取的特徵等。因此，在將人臉器官區域的第二特徵資訊與人臉影像的第一特徵資訊進行融合的過程中，可以是與第一網路分支中任意網路層提取的特徵進行融合。具體選擇哪些網路層提取的特徵，是深層特徵還是淺層特徵等，均可以根據實際情況靈活決定，在本公開實施例中不做限制。在獲取融合特徵資訊的過程中，具體進行幾次融合，可以根據融合的對象靈活決定，因此在本公開實施例中同樣不做限制。

融合的方式也可以隨著融合的對象不同而靈活發生變化，詳見下述各公開實施例，在此先不做展開。

在得到融合特徵資訊以後，可以在第二網路分支中處理對應的融合特徵資訊，從而得到輸出的人臉器官的第二關鍵點資訊。其中，第二網路分支對融合特徵資訊的處理方式在本公開實施例中不做限制，可以根據實際情況靈活選擇。在一種可能的實現方式中，可以通過回歸層或是分類層等網路層對融合特徵資訊進行處理，來得到輸出的人臉器官的第二關鍵點資訊。在一種可能的實現方式中，也可以通過多個網路層所組成的網路結構對融合特徵資訊進行處理，來得到輸出的人臉器官的第二關鍵點資訊等。

通過將人臉器官區域的第二特徵資訊與人臉影像的第一特徵資訊和/或人臉的第一關鍵點資訊進行至少一次融合處理，得到融合特徵資訊，並根據融合特徵資訊，得到人臉器官的第二關鍵點資訊，可以將第一網路分支所得到的反映人臉整體情況的人臉影像的第一特徵資訊和/或人臉的第一關鍵點資訊，應用到人臉器官的關鍵點的檢測過程中，從而使得得到的人臉器官的第二關鍵點資訊與人臉的第一關鍵點資訊結果相統一，具有更高的精度。

如上述公開實施例所述，融合的方式在本公開實施例中不做限制。在一種可能的實現方式中，融合處理可以包括以下操作中的至少一種：連接、相加、加權融合以及注意力特徵融合。

其中，連接可以是將融合的對象直接進行拼接來實現融合；相加則可以是將融合的對象在對應像素上進行相加，來得到融合後的特徵；加權融合可以是對融合的對象賦予一定的預設權重，從而根據預設權重進行相加來實現融合；注意力特徵融合可以是根據注意力機制，對融合的對象通過連接以及跳躍連接等操作來實現融合。

通過上述過程，可以將人臉器官區域的第二特徵資訊與人臉影像的第一特徵資訊和/或人臉的第一關鍵點資訊，實現多種形式的融合，從而進一步增加融合特徵資訊的全面性和準確性，繼而提升基於融合特徵資訊所得到的人臉器官的第二關鍵點資訊的準確度。

在一種可能的實現方式中，在步驟S12通過步驟S121和步驟S122實現的情況下，在一種可能的實現方式中，在步驟S122之前，步驟S12還可以包括：

對至少一個人臉器官的檢測框進行增強處理，其中，增強處理包括：伸縮變換處理和/或平移變換處理。

其中，檢測框資訊可以是第一網路分支輸出的人臉器官的檢測框資訊，在此不再贅述。在一種可能的實現方式中，為了增強訓練過程中數據的豐富度，可以對檢測框資訊進行增強處理，比如上述公開實施例中提到的伸縮變換處理和/或平移變換處理等。

伸縮變換處理可以是對得到的檢測框資訊中的檢測框進行擴展或壓縮。在一種可能的實現方式中，可以是在預設伸縮範圍下，對檢測框進行隨機的伸縮變換。預設伸縮範圍的數值可以根據實際情況靈活設定，不局限於下述各公開實施例。在一個示例中，預設伸縮範圍可以是檢測框大小的0.9倍~1.1倍之間。

平移變換處理可以是對得到的檢測框資訊中的檢測框進行整體位置的移動。在一種可能的實現方式中，可以是在預設平移範圍下，對檢測框進行隨機的平移。預設平移範圍同樣可以根據實際情況靈活設定。在一個示例中，預設平移範圍可以是檢測框在平移方向上長度的±0.05倍之間，其中，±中的“+”和“-”分別代表平移方向以及平移方向的反方向。

在得到增強處理的檢測框資訊後，可以通過步驟S122，利用包含增強後的檢測框資訊的第一檢測結果，通過至少一個第二網路分支對至少一個人臉器官進行檢測得到第二檢測結果。檢測的具體方式可以參考上述各公開實施例，在此不再贅述。

通過對至少一個人臉器官的檢測框資訊進行增強處理，可以增加用於訓練目標神經網路的訓練數據的豐富度，從而使得訓練後的目標神經網路在不同的輸入數據下均得到較好的關鍵點檢測效果，提升目標神經網路的處理精度和魯棒性，從而提升關鍵點檢測的準確性。

在一種可能的實現方式中，本公開實施例中提出的關鍵點檢測方法還可以包括：

獲取至少一個人臉器官的第二關鍵點資訊中符合預設精度的人臉器官的第二關鍵點；

根據符合預設精度的人臉器官的第二關鍵點，對人臉的第一關鍵點資訊中與符合預設精度的人臉器官對應位置的人臉的第一關鍵點進行替換，得到更新的人臉的第一關鍵點資訊。

其中，預設精度可以根據實際情況靈活設定，在本公開實施例中不做限制。可以是人為設置的某個精度，也可以是人臉的第一關鍵點資訊的精度等。

由於人臉器官的第二關鍵點資訊可以基於人臉影像中的人臉器官區域確定，在一些可能的實現方式中，人臉器官的關鍵點可能具有較高的精度。又由於確定的人臉的第一關鍵點資訊以及人臉器官的第二關鍵點資訊中，可能包含位置相同的同一關鍵點，因此，在一些可能的實現方式中，在人臉的第一關鍵點存在位置對應的人臉器官的第二關鍵點，且人臉器官的第二關鍵點符合預設精度的情況下，可以將人臉器官的第二關鍵點作為對應位置的人臉的第一關鍵點，從而實現對人臉的第一關鍵點資訊的替換，得到更新的人臉的第一關鍵點資訊。

通過獲取人臉器官的第二關鍵點資訊中符合預設精度的人臉器官的第二關鍵點，並根據符合預設精度的人臉器官的第二關鍵點，對人臉的第一關鍵點資訊中與人臉器官對應位置的人臉的第一關鍵點進行替換，得到更新的人臉的第一關鍵點資訊，可以進一步提升關鍵點檢測的精度，得到符合精度需求的關鍵點。

在一種可能的實現方式中，本公開實施例中提出的關鍵點檢測方法，還可以包括：

對每個人臉器官的第二關鍵點資訊在人臉器官區域中的位置進行轉換，得到人臉器官的第二關鍵點資訊在人臉影像中的位置。

在一種可能的實現方式中，由於人臉器官的第二關鍵點資訊可以是基於人臉器官區域進行提取所得到的，因此，得到的人臉器官的第二關鍵點的位置可能是在人臉器官區域中的位置。而人臉的第一關鍵點由於是基於對人臉影像進行處理所得到的，因此人臉的第一關鍵點的位置可能是在人臉影像中的位置。

因此，在一種可能的實現方式中，可以對人臉器官的第二關鍵點資訊在人臉器官區域中的位置進行轉換，來得到人臉器官的第二關鍵點資訊在人臉影像的位置。轉換的方式在本公開實施例中不做限制。在一種可能的實現方式中，可以根據人臉影像與人臉器官區域的頂點或是中心點坐標等，來確定人臉影像與人臉器官區域之間的位置變換關係，並基於該位置變換關係，對人臉器官的第二關鍵點在人臉器官區域中的位置進行位置變換，從而得到人臉器官的第二關鍵點在人臉影像中的位置。

通過對人臉器官的第二關鍵點資訊在人臉器官區域中的位置進行轉換，得到人臉器官的第二關鍵點資訊在人臉影像中的位置，可以將人臉的第一關鍵點資訊和人臉器官的第二關鍵點資訊的位置進行統一，便於後續對人臉中各關鍵點的分析和操作處理。

在一些可能的實現方式中，也可以將人臉的第一關鍵點資訊在人臉影像中的位置轉換到人臉器官區域中，或是將某人臉器官的第二關鍵點資訊在對應的人臉器官區域中的位置，轉換到其他人臉器官區域中等，也可以將人臉的第一關鍵點資訊以及各人臉器官的第二關鍵點資訊均轉換至某一預設的影像坐標系下等。具體如何轉換可以根據實際情況靈活選擇，不局限於上述各公開實施例。

在一種可能的實現方式中，目標神經網路還可以包括至少一個第三網路分支，該至少一個第三網路分支可以用於根據人臉的第一關鍵點資訊進行人臉狀態的檢測。

其中，至少一個第三網路分支用於獲取人臉影像在某種或某些狀態下的檢測結果。其中的狀態可以是人臉影像中反映的人臉情況，具體包含哪些狀態可以根據實際情況靈活設定。在一些可能的實現方式中，狀態可以是人臉本身的情況，比如人臉中的眼睛是睜眼還是閉眼，人臉對應的對象是哪一對象等。在一些可能的實現方式中，狀態也可以是人臉在影像中的情況，比如人臉在影像中是否被遮擋等。

至少一個第三網路分支可以檢測的狀態數量在本公開實施例中也不做限制。在一種可能的實現方式中，一個第三網路分支可以輸出人臉影像在一個狀態下的檢測結果。在一種可能的實現方式中，一個第三網路分支也可以輸出人臉影像在多個狀態下的檢測結果。

目標神經網路包含的第三網路分支的數量在本公開實施例中也不做限制。在一種可能的實現方式中，目標神經網路可以包含多個第三網路分支，通過多個第三網路分支，可以分別對人臉影像實現多種狀態的檢測。在一種可能的實現方式中，目標神經網路也可以僅包含一個第三網路分支，通過該第三網路分支，可以對人臉影像實現某個狀態的檢測，也可以對人臉影像實現多個狀態的檢測等。

目標神經網路中第三網路分支的位置在本公開實施例中也不做限制，可以根據實際情況靈活設定，不局限於下述各公開實施例。在一種可能的實現方式中，第三網路分支可以與第一網路分支的輸出相連接。在一種可能的實現方式中，第三網路分支也可以與第一網路分支的特徵提取層相連接。在一些可能的實現方式中，第三網路分支也可以與某個或某些第二網路分支相連接等。

通過包括至少一個第三網路分支的目標神經網路，一方面，可以進一步對人臉影像進行狀態檢測，從而對得到的人臉關鍵點資訊集合的精度等進行輔助判斷；另一方面，還可以進一步實現端到端的關鍵點檢測，同時便於引入新的檢測模型，實現端到端的人臉狀態檢測等。

在一種可能的實現方式中，本公開實施例中提出的方法還可以包括：

步驟S13，根據人臉關鍵點資訊集合，對人臉影像所在的人臉影像幀序列中的人臉進行追蹤。其中，如何利用檢測到的關鍵點對人臉影像進行追蹤，其實現方式可以根據實際情況靈活決定，不局限於下述各公開實施例。在一種可能的實現方式中，步驟S13可以包括：

根據人臉的第一關鍵點資訊和/或人臉器官的第二關鍵點資訊，確定至少一個目標關鍵點；

將人臉影像在人臉影像幀序列中的下一幀影像作為目標人臉影像，根據至少一個目標關鍵點，對目標人臉影像進行校正，得到校正後的目標人臉影像；

將校正後的目標人臉影像輸入目標神經網路，根據目標神經網路的輸出，對人臉影像與目標人臉影像中的相同對象進行跟蹤。

人臉影像幀序列中的對象可以是人臉影像中包含的人臉所對應的對象。如上述各公開實施例所述，人臉影像中可能包含多個人臉，因此本公開實施例中提出的關鍵點檢測方法，可以對單個對象進行跟蹤，也可以對多個對象進行跟蹤。

目標關鍵點可以是跟蹤過程中，用於判斷對象位置的關鍵點。具體選擇哪些點作為目標關鍵點，在本公開實施例中不做限定，不局限於下述各公開實施例。在一種可能的實現方式中，可以將人臉的第一關鍵點作為目標關鍵點。在一種可能的實現方式中，也可以將人臉器官的第二關鍵點作為目標關鍵點。在一種可能的實現方式中，也可以將人臉的第一關鍵點和人臉器官的第二關鍵點作為目標關鍵點。在一種可能的實現方式中，還可以根據跟蹤實際需求，將人臉器官的第二關鍵點資訊中的部分關鍵點替換至人臉的第一關鍵點資訊中，得到目標關鍵點。

在確定至少一個目標關鍵點以後，可以將人臉影像幀序列中，人臉影像的下一幀影像作為目標人臉影像，並基於目標關鍵點，對目標人臉影像進行校正，來得到校正後的目標人臉影像。

其中，校正的方式可以根據實際情況靈活選擇，詳見下述各公開實施例，在此先不做展開。由於目標人臉影像是人臉影像在人臉影像幀序列中的下一幀影像，因此目標人臉影像中的人臉相對於人臉影像中的人臉來說，可能發生移動（平移或是旋轉等）。如果目標人臉影像相對於人臉影像的移動較大，直接將目標人臉影像輸入至目標神經網路進行處理，可能無法檢測到目標人臉影像中的人臉的第一關鍵點資訊或是人臉器官的第二關鍵點資訊等。因此，在一種可能的實現方式中，可以利用人臉影像對應的至少一個目標關鍵點，對目標人臉影像進行校正，使得校正後的目標人臉影像可以在目標神經網路中具有較為準確的關鍵點檢測結果，從而使得跟蹤可以持續進行，提升跟蹤的持續性和準確性。

在得到校正後的目標人臉影像以後，校正後的目標人臉影像可以作為新的人臉影像，輸入至目標神經網路，通過上述各公開實施例中提出的關鍵點檢測方法進行處理，來得到相應的人臉的第一關鍵點資訊和/或人臉器官的第二關鍵點資訊，繼而確定該新的人臉影像的目標關鍵點。通過比較人臉影像與新的人臉影像（即校正後的目標人臉影像）中相對應的目標關鍵點的變化情況，可以確定對象的位置變化過程，實現對對象的跟蹤。在一些可能的實現方式中，還可以在人臉影像幀序列中，繼續獲取新的人臉影像的下一幀影像作為新的目標人臉影像，並重複上述各公開實施例中的過程，來對人臉影像幀序列中的對象進行連續跟蹤。

通過根據人臉的第一關鍵點資訊和/或人臉器官的第二關鍵點資訊，確定目標關鍵點，並根據目標關鍵點對目標人臉影像進行校正，從而基於校正後的目標人臉影像在目標神經網路中的輸出，對人臉影像與目標人臉影像中的相同對象進行跟蹤，可以在人臉影像所在的人臉影像幀序列中，基於當前幀的關鍵點檢測結果，對下一幀影像進行預先校正，從而提升人臉影像幀序列中各幀影像進行關鍵點檢測的可行性和準確度，繼而提升跟蹤的持續性和準確性。

如上述各公開實施例所述，校正的過程可以根據實際情況靈活決定。在一種可能的實現方式中，根據至少一個目標關鍵點，對目標人臉影像進行校正，得到校正後的目標人臉影像，可以包括：

根據至少一個目標關鍵點，結合預設模板，得到仿射變換矩陣；

通過仿射變換矩陣，對目標人臉影像向預設模板的方向進行校正，得到校正後的目標人臉影像。

其中，預設模板可以是預先設定的平均人臉姿態（meanpose），該預設模板中人臉的具體姿態可以根據實際情況靈活設定，在本公開實施例中不做限制。由於目標關鍵點可以反映人臉影像中人臉的姿態，因此根據至少一個目標關鍵點和預設模板進行計算，可以確定人臉影像中人臉相對于預設模板中人臉的移動情況，該移動情況可以通過仿射變換矩陣的形式進行表示。具體如何計算得到仿射變換矩陣，可以根據預設目標和目標關鍵點的實際情況所確定，在本公開實施例中不做限制。

得到仿射變換矩陣以後，由於目標人臉影像是人臉影像的下一幀影像，因此目標人臉影像中的人臉相對於人臉影像中的人臉進行進一步移動。而通過反映人臉影像中人臉移動情況的仿射變換矩陣，對目標人臉影像進行仿射變換，可以將目標人臉影像中的人臉移動至與預設模板中的人臉姿態更為接近的情況，即得到的校正後的目標人臉影像中的人臉更接近於預設模板中的人臉方向。通過仿射變換矩陣對目標人臉影像進行校正的過程可以參考仿射變換的過程，在本公開實施例中不做限定。

通過上述校正過程，將校正後的目標人臉影像輸入至目標神經網路，一方面更容易得到關鍵點檢測結果，特別是在人臉影像幀序列中的人臉影像具有較大角度偏移的情況下，可以通過校正提升關鍵點檢測的成功率，另一方面也可以提升得到的關鍵點檢測結果的精度，繼而提升跟蹤的精度。

在一種可能的實現方式中，本公開實施例中的人臉影像還可以為包含關鍵點標註的人臉影像。如上述各公開實施例所述，本公開實施例中提出的關鍵點檢測方法，可以基於目標神經網路進行實現，因此，在一種可能的實現方式中，還可以基於包含關鍵點標註的人臉影像，對目標神經網路進行訓練。在這種情況下，本公開實施例中提出的方法可以用於對目標神經網路進行訓練。

在人臉影像包括關鍵點標註的情況下，為了實現訓練，該關鍵點標註可以包含人臉的第一關鍵點資訊標註和/或人臉器官的第二關鍵點資訊標註。其中，人臉的第一關鍵點資訊標註可以是對人臉影像中人臉的第一關鍵點資訊的實際位置所進行的標註，人臉器官的第二關鍵點資訊標註可以是對人臉影像中人臉器官的第二關鍵點資訊的實際位置所進行的標註。標註的方式在本公開實施例中不做限制。在一個示例中，可以通過人工手動對人臉影像中的人臉的第一關鍵點資訊以及人臉器官的第二關鍵點資訊進行標註。在一個示例中，也可以是通過機器來對人臉影像中的人臉的第一關鍵點資訊以及人臉器官的第二關鍵點資訊進行自動化標註等。

在一些可能的實現方式中，在目標神經網路還包括至少一個第三網路分支的情況下，人臉影像還可以包含第三網路分支所對應的人臉狀態的標註。舉例來說，目標神經網路還包含用於檢測人臉中眼睛開閉狀態的第三網路分支的情況下，可以根據人臉影像中眼睛的真實開閉情況，對人臉影像進行眼睛開閉狀態的標註。

圖5繪示根據本公開一實施例的關鍵點檢測方法的流程圖。如圖5所示，在一種可能的實現方式中，在人臉影像包括關鍵點標註的情況下，本公開實施例中提出的關鍵點檢測方法可以包括以下步驟。

步驟S11，獲取人臉影像。

步驟S14，根據關鍵點標註以及人臉關鍵點資訊集合，確定目標神經網路的誤差損失。

步驟S15，根據誤差損失，對目標神經網路中的至少兩個神經網路分支的參數進行共同更新。

其中，步驟S11~步驟S12的實現形式可以參考上述各公開實施例，在此不再贅述。

在得到上述人臉關鍵點資訊集合以後，可以通過步驟S14，根據人臉影像中標註的人臉的第一關鍵點資訊和人臉器官的第二關鍵點資訊的實際位置，來確定預測的關鍵點與標註的關鍵點之間的誤差，從而確定目標神經網路的誤差損失。並通過步驟S15，利用誤差損失對第一網路分支以及第二網路分支中的參數進行共同更新。

步驟S14中，確定誤差損失的具體過程可以根據實際情況靈活決定，詳見下述各公開實施例，在此先不做展開。在確定誤差損失以後，可以根據誤差損失對目標神經網路中的各參數進行反向更新。通過上述各公開實施例可以看出，本公開實施例中的目標神經網路可以包括第一網路分支以及至少一個第二網路分支，因此，在一種可能的實現方式中，在對目標神經網路的參數進行更新的過程中，第一網路分支和至少一個第二網路分支的參數更新可以同時進行，即第一網路分支和至少一個第二網路分支中的參數可以依據兩種網路的輸出進行共同優化，從而使得訓練後得到的目標神經網路，可以在人臉的第一關鍵點資訊的檢測和人臉器官的第二關鍵點資訊的檢測過程中，達到全域最優的效果。

在一些可能的實現方式中，在目標神經網路還包含至少一個第三網路分支的情況下，至少一個第三網路分支可以與第一網路分支和至少一個第二網路分支共同進行訓練，即至少一個第三網路分支的參數可以與第一網路分支以及至少一個第二網路分支共同更新。在一些可能的實現方式中，至少一個第三網路分支也可以單獨進行訓練，即在更新至少一個第三網路分支的參數的過程中，可以固定第一網路分支以及第二網路分支的參數。

通過根據人臉影像，確定目標神經網路的誤差損失，並根據誤差損失，對第一網路分支和至少一個第二網路分支中的參數進行共同更新，可以對第一網路分支和至少一個第二網路分支進行共同訓練，從而使得訓練後的目標神經網路所得到的人臉的第一關鍵點資訊檢測結果和人臉器官的第二關鍵點資訊檢測結果具有一致性，並且都具有較高的檢測精度。

如上述公開實施例所述，步驟S14的實現方式可以根據實際情況靈活決定。在一種可能的實現方式中，步驟S14可以包括以下過程中的至少一種：

根據人臉的第一關鍵點資訊與人臉的第一關鍵點資訊標註之間的第一誤差，確定目標神經網路的第一誤差損失；

根據人臉器官的第二關鍵點資訊與人臉器官的第二關鍵點資訊標註之間的第二誤差，確定目標神經網路的第二誤差損失；

根據人臉的第一關鍵點資訊標註和/或人臉器官的第二關鍵點資訊標註，確定人臉影像中至少一個人臉器官的檢測框位置標註，根據至少一個人臉器官的檢測框資訊與至少一個人臉器官的檢測框位置標註之間的第三誤差，確定目標神經網路的第三誤差損失。

如上述各公開實施例所述，人臉影像可以包括人臉的第一關鍵點資訊標註，該標註可以表明訓練影像中人臉的第一關鍵點資訊的實際位置。因此，在一種可能的實現方式中，可以根據人臉的第一關鍵點資訊標註，與目標神經網路預測的人臉的第一關鍵點資訊二者之間所形成的第一誤差，來確定目標神經網路的誤差損失。具體誤差損失的計算方式可以根據實際情況靈活設定，在本公開實施例中不做限制。

同理，還可以根據人臉器官的第二關鍵點資訊標註，與目標神經網路預測的人臉器官的第二關鍵點資訊二者之間所形成的第二誤差，來確定目標神經網路的誤差損失，其計算方式同樣可以根據實際情況靈活選擇。

在一種可能的實現方式中，如上述各公開實施例所述，目標神經網路中的第一網路分支還可以確定至少一個人臉器官的檢測框資訊。而根據人臉的第一關鍵點資訊標註和人臉器官的第二關鍵點資訊標註，也可以對人臉中的各器官進行定位，從而計算出訓練影像中各器官的檢測框位置，作為人臉影像中的檢測框位置標註。因此，在一種可能的實現方式中，還可以根據目標神經網路預測的各器官的檢測框資訊，與相應的器官的檢測框位置標註之間所形成的第三誤差，來確定目標神經網路的誤差損失。檢測框位置標註的計算方式，以及根據第三誤差確定目標神經網路的誤差損失的計算方式，均可以根據實際情況靈活選擇，在本公開實施例中不做限制。

在一種可能的實現方式中，上述各確定目標神經網路的誤差損失的方式可以相互結合。具體選擇哪種或哪幾種方式來共同確定目標神經網路的誤差損失，也可以根據實際情況靈活選擇，在本公開實施例中不做限制。

在一些可能的實現方式中，在人臉影像還包含人臉狀態標註的情況下，也可以根據目標神經網路對人臉影像的狀態檢測結果，與人臉狀態標註之間的誤差，來確定目標神經網路的誤差損失。

通過上述各種過程來確定目標神經網路的誤差損失，可以使得目標神經網路的訓練過程更加靈活和豐富，從而使得訓練得到的目標神經網路具有更好的關鍵點檢測效果，且得到的人臉的第一關鍵點資訊和人臉器官的第二關鍵點資訊具有更高的一致性。

圖6繪示根據本公開一實施例的關鍵點檢測裝置的框圖。如圖6所示，所述關鍵點檢測裝置20可以包括：

影像獲取模組21，用於獲取人臉影像。

關鍵點檢測模組22，用於利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，人臉關鍵點資訊集合包括人臉的關第一鍵點資訊以及該至少一個人臉器官的第二關鍵點資訊。

在一種可能的實現方式中，至少兩個神經網路分支包括用於檢測人臉的第一網路分支，以及，用於檢測至少一個人臉器官的至少一個第二網路分支；關鍵點檢測模組用於：通過第一網路分支對人臉進行檢測，得到第一檢測結果，第一檢測結果包括人臉的第一關鍵點資訊以及至少一個人臉器官的檢測框資訊；基於第一檢測結果以及至少一個第二網路分支，對至少一個人臉器官進行檢測，得到第二檢測結果，第二檢測結果包括至少一個人臉器官的第二關鍵點資訊。

在一種可能的實現方式中，關鍵點檢測模組進一步用於：對於至少一個第二網路分支中的每一第二網路分支，利用該第二網路分支對該第二網路分支對應的人臉器官進行檢測，得到該第二網路分支對應的人臉器官的第二檢測結果。

在一種可能的實現方式中，在對該第二網路分支對應的人臉器官進行檢測時，關鍵點檢測模組用於：從人臉影像中提取出與人臉器官的檢測框資訊匹配的人臉器官區域；提取人臉器官區域的第二特徵資訊；基於第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊。

在一種可能的實現方式中，第一檢測結果還包括人臉影像的第一特徵資訊。其中，在對該第二網路分支對應的人臉器官進行檢測時，關鍵點檢測模組用於：從第一特徵資訊中提取出與人臉器官的檢測框資訊匹配的人臉器官區域的初始特徵資訊；對初始特徵資訊進行深層特徵提取，得到人臉器官區域的第二特徵資訊；基於第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊。

在一種可能的實現方式中，在基於第二特徵資訊以及第一檢測結果，確定人臉器官的第二關鍵點資訊時，關鍵點檢測模組進一步用於：將第二特徵資訊與第一特徵資訊和/或第一關鍵點資訊進行至少一次融合處理，得到融合特徵資訊；根據融合特徵資訊，得到第二關鍵點資訊。

在一種可能的實現方式中，關鍵點檢測模組還用於：在基於第一檢測結果以及少一個第二網路分支，對至少一個人臉器官進行檢測，得到第二檢測結果之前，對至少一個人臉器官的檢測框資訊進行增強處理，其中，增強處理包括：伸縮變換處理和/或平移變換處理。

在一種可能的實現方式中，裝置還用於：獲取至少一個人臉器官的第二關鍵點資訊中符合預設精度的人臉器官的第二關鍵點；根據符合預設精度的人臉器官的第二關鍵點，對第一關鍵點資訊中與符合預設精度的人臉器官對應位置的人臉的第一關鍵點進行替換，得到更新的人臉的第一關鍵點資訊。

在一種可能的實現方式中，裝置還用於：對人臉的第一關鍵點資訊和/或每個人臉器官的第二關鍵點資訊進行位置轉換。

在一種可能的實現方式中，目標神經網路還包括至少一個第三網路分支，至少一個第三網路分支用於根據第一關鍵點資訊進行人臉狀態的檢測。

在一種可能的實現方式中，裝置還用於：根據人臉關鍵點資訊集合，對人臉影像所在的人臉影像幀序列中的人臉進行追蹤。

在一種可能的實現方式中，裝置還用於：利用所述人臉影像對所述人臉影像幀序列中所述人臉影像的下一幀進行校正。

在一種可能的實現方式中，第一關鍵點資訊包括68至128個第一關鍵點。

在一種可能的實現方式中，第二關鍵點資訊包括，40至80個嘴部的關鍵點，16至32個左眼的關鍵點，16至32個右眼的關鍵點，10至20個左眉毛的關鍵點，和/或，10至20個右眉毛的關鍵點。

在一種可能的實現方式中，人臉影像包括關鍵點標註；裝置還用於：根據關鍵點標註以及人臉關鍵點資訊集合，確定目標神經網路的誤差損失；根據誤差損失，對目標神經網路中的至少兩個神經網路分支的參數進行共同更新。

應用場景示例

本公開應用示例提出了一種關鍵點檢測方法，可以對人臉影像進行關鍵點檢測。

圖3和圖7分別繪示根據本公開一應用示例的關鍵點檢測方法示意圖，其中圖3為關鍵點檢測方法的應用過程示意圖，圖7為關鍵點檢測方法的訓練過程示意圖。如圖3所示，在本公開應用示例中，關鍵點檢測方法可以包括如下過程。

如圖3所示，在本公開應用示例中，獲取的人臉影像輸入目標神經網路以後，分別通過目標神經網路中的第一網路分支和五個第二網路分支進行處理。

其中，如圖3所示，第一網路分支包括依次連接的淺層特徵提取模組和主模組。淺層特徵提取模組如上述各公開實施例所述的淺層特徵提取網路結構block 0，對人臉影像的第一特徵資訊進行初步提取。主模組如上述各公開實施例所述的深層特徵提取網路結構block main，對人臉影像的第一特徵資訊進行進一步提取與回歸。從圖中可以看出，第一網路分支對人臉影像進行處理以後，可以分別輸出106個人臉的第一關鍵點資訊（即圖中的106人臉整體關鍵點），以及人臉影像中各人臉器官的檢測框資訊。

進一步地，如圖3所示，五個第二網路分支相互獨立，分別對人臉中的嘴部、左眼、右眼、左眉毛以及右眉毛進行第二關鍵點檢測。其中，嘴部的第二網路分支包括依次連接的感興趣區域校準層（ROI Align）以及嘴部特徵提取模組。感興趣區域校準層的實現形式可以參考上述各公開實施例，在此不再贅述。從圖3中可以看出，感興趣區域校準層可以根據第一網路分支輸出的嘴部檢測框資訊，對人臉影像進行剪切，從而得到與預設影像大小相符合的嘴部區域。嘴部特徵提取模組可以包括一個或多個用於特徵提取的網路層，可以對嘴部區域進行特徵提取，得到嘴部區域的第二特徵資訊。從圖3中可以看出，在一個示例中，嘴部區域的第二特徵資訊可以與第一網路分支中輸出的106個人臉的第一關鍵點資訊進行融合，得到融合特徵資訊。融合特徵資訊通過嘴部的第二網路分支進行回歸，可以輸出嘴部的第一關鍵點資訊。如圖所示，在本公開應用示例中，嘴部的第二網路分支根據輸入的嘴部檢測框資訊從人臉影像中提取嘴部區域，並將嘴部區域的第二特徵資訊與人臉的第一關鍵點資訊進行融合，得到融合特徵資訊，基於融合特徵資訊可以輸出64個嘴部的第二關鍵點資訊。在一個示例中，這64個嘴部的第二關鍵點資訊可以與106個人臉的第一關鍵點資訊，通過上述各公開實施例中提到的位置轉換的方式，統一到同一個位置坐標系下。

左眼和右眼的第二網路分支的實現形式可以參考上述嘴部的第二網路分支，在此不再贅述。如圖3所示，左眼的第二網路分支可以輸出24個左眼的第二關鍵點資訊，右眼的第二網路分支可以輸出24個右眼的第二關鍵點資訊。

左眉毛的第二網路分支的實現形式與上述嘴部的第二網路分支類似。從圖3中可以看出，在本公開應用示例中，左眉毛的第二網路分支可以利用感興趣區域校準層，基於左眉毛的檢測框資訊，從第一網路分支中block 0輸出的人臉影像的第一特徵資訊中，提取左眉毛區域的初始特徵資訊，並基於該初始特徵資訊進行深層特徵提取，得到左眉毛區域的第二特徵資訊，其餘過程均與嘴部的第二網路分支相同。右眉毛的第二網路分支的實現形式可以參考左眉毛，在此不再贅述。從圖3中可以看出，在本公開應用示例中，左眉毛的第二網路分支可以輸出13個左眉毛的第二關鍵點資訊，右眉毛的第二網路分支可以輸出13個右眉毛的第二關鍵點資訊。

從圖3中可以看出，在本公開應用示例中，為了對齊人臉器官的第二關鍵點資訊精度，第二網路分支除了可以輸出64個嘴部的第二關鍵點資訊、24個左眼的第二關鍵點資訊、24個右眼的第二關鍵點資訊、13個左眉毛的第二關鍵點資訊以及13個右眉毛的第二關鍵點資訊以外，還可以輸出一些與人臉的第一關鍵點資訊位置對應的人臉器官的第二關鍵點資訊。這些與人臉的第一關鍵點資訊位置對應的人臉器官的第二關鍵點資訊可以替換進第一網路分支輸出的106個人臉的第一關鍵點資訊中，得到最終的106個人臉的第一關鍵點資訊。

除此以外，本公開應用示例中的目標神經網路也可以包含至少一個第三網路分支，來對人臉影像中人臉的狀態進行檢測，具體過程詳見上述各公開實施例，在此不再贅述。

通過上述過程，可以利用單個目標神經網路來同時得到人臉的第一關鍵點資訊以及各人臉器官的第二關鍵點資訊的檢測結果，且利用感興趣區域校準層ROI Align對人臉器官區域進行提取，既節約了整個流程中的處理時間，降低了關鍵點檢測的總耗時，同時也提升了得到的人臉器官區域的精度，繼而提升檢測得到的人臉器官的第二關鍵點資訊的精度。同時，在各第二網路分支中，可以將人臉器官區域的第二特徵資訊，與第一網路分支輸出的人臉的第一關鍵點資訊進行融合得到融合特徵資訊，從而根據融合特徵資訊得到輸出的人臉器官的第二關鍵點資訊，通過上述過程，可以使得人臉器官的第二關鍵點資訊與人臉的第一關鍵點資訊更加統一，從而提升關鍵點檢測的精度。

進一步地，由於本公開應用示例提出的關鍵點檢測方法可以通過目標神經網路，因此，本公開應用示例提出的方法還可以用於對目標神經網路的訓練過程。如圖7所示，對目標神經網路進行訓練的過程與上述應用過程的流程基本一致，區別在於，訓練過程中，人臉影像包含各關鍵點的真值標註，且第一網路分支輸出的檢測框資訊經過增強處理後，再輸入至各第二網路分支，增強處理的方式可以參考上述各公開實施例，在此不再贅述。在一個示例中，在訓練過程中，為了確定左眉毛和右眉毛的位置，可以根據訓練影像中各關鍵點的真值標註，對左眉毛和右眉毛的檢測框位置進行計算，來得到左眉毛和右眉毛的真值檢測框（即圖中的檢測框（真值）），輸入至相應的第二網路分支中。在一些可能的實現方式中，在目標神經網路還包含第三網路分支的情況下，訓練影像中還可以包含第三網路分支所檢測的人臉狀態的真值標註。

在訓練過程中，第一網路分支和各第二網路分支可以同時進行訓練，並共同進行參數優化，從而達到全域最優。通過上述訓練過程，可以對整個目標神經網路實現端到端的全域優化，從而提高目標神經網路的關鍵點檢測精度。

本公開應用示例中提出的關鍵點檢測方法，除了可以應用於人臉影像的關鍵點檢測以外，也可以擴展應用於其他影像的處理，比如人體影像、骨骼影像等。

可以理解，本公開提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本公開不再贅述。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

本公開實施例還提出一種計算機可讀儲存媒體，其上儲存有計算機程式指令，所述計算機程式指令被處理器執行時實現上述方法。計算機可讀儲存媒體可以是揮發性計算機可讀儲存媒體或非揮發性計算機可讀儲存媒體。

本公開實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器被配置為實現上述方法。

在實際應用中，上述儲存器可以是揮發性記憶體（volatile memory），例如RAM；或者非揮發性記憶體（non-volatile memory），例如ROM，快閃記憶體（flash memory），硬碟（Hard Disk Drive，HDD）或固態硬碟（Solid-State Drive，SSD）；或者上述種類的儲存器的組合，並向處理器提供指令和數據。

上述處理器可以為ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微處理器中的至少一種。可以理解地，對於不同的設備，用於實現上述處理器功能的還可以為其它電子器件，本公開實施例不作具體限定。

電子設備可以被提供為終端、伺服器或其它形態的設備。

基於前述實施例相同的技術構思，本公開實施例還提供了一種計算機程式，該計算機程式被處理器執行時實現上述方法。

圖8是根據本公開實施例的一種電子設備800的框圖。例如，電子設備800可以是移動電話，計算機，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖8，電子設備800可以包括以下一個或多個組件：處理組件802，儲存器804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）的介面812，傳感器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，數據通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

儲存器804被配置為儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人數據，電話簿數據，消息，圖片，視頻等。儲存器804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電可擦除可編程唯讀記憶體（EEPROM），可擦除可編程唯讀記憶體（EPROM），可編程唯讀記憶體（PROM），唯讀記憶體（ROM），磁儲存器，快閃記憶體，磁碟或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現為觸控螢幕，以接收來自用戶的輸入信號。觸控面板包括一個或多個觸控傳感器以感測觸控、滑動和觸控面板上的手勢。所述觸控傳感器可以不僅感測觸控或滑動動作的邊界，而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式，如拍攝模式或視頻模式時，前置攝像頭和/或後置攝像頭可以接收外部的多媒體數據。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在儲存器804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/ O介面812為處理組件802和外圍介面模組之間提供介面，上述外圍介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

傳感器組件814包括一個或多個傳感器，用於為電子設備800提供各個方面的狀態評估。例如，傳感器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，傳感器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，用戶與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。傳感器組件814可以包括接近傳感器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件814還可以包括光傳感器，如CMOS或CCD影像傳感器，用於在成像應用中使用。在一些實施例中，該傳感器組件814還可以包括加速度傳感器，陀螺儀傳感器，磁傳感器，壓力傳感器或溫度傳感器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關人員資訊。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於射頻識別（RFID）技術，紅外數據協會（IrDA）技術，超寬帶（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路（ASIC）、數位信號處理器（DSP）、數位信號處理設備（DSPD）、可編程邏輯裝置（PLD）、現場可編程門陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性計算機可讀儲存媒體，例如包括計算機程式指令的儲存器804，上述計算機程式指令可由電子設備800的處理器820執行以完成上述方法。

圖9是根據本公開實施例的一種電子設備1900的框圖。例如，電子設備1900可以被提供為一伺服器。參照圖9，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由儲存器1932所代表的儲存器資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。儲存器1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在儲存器1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性計算機可讀儲存媒體，例如包括計算機程式指令的儲存器1932，上述計算機程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本公開可以是系統、方法和/或計算機程式產品。計算機程式產品可以包括計算機可讀儲存媒體，其上載有用於使處理器實現本公開的各個方面的計算機可讀程式指令。

計算機可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。計算機可讀儲存媒體例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。計算機可讀儲存媒體的更具體的例子（非窮舉的列表）包括：便攜式計算機盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可擦式可編程唯讀記憶體（EPROM或閃存）、靜態隨機存取記憶體（SRAM）、便攜式壓縮盤唯讀記憶體（CD-ROM）、數位多功能碟（DVD）、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的計算機可讀儲存媒體不被解釋為瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電信號。

這裡所描述的計算機可讀程式指令可以從計算機可讀儲存媒體下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網和/或無線網下載到外部計算機或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關計算機和/或邊緣伺服器。每個計算/處理設備中的網路適配卡或者網路介面從網路接收計算機可讀程式指令，並轉發該計算機可讀程式指令，以供儲存在各個計算/處理設備中的計算機可讀儲存媒體中。

用於執行本公開操作的計算機程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置數據、或者以一種或多種編程語言的任意組合編寫的源代碼或目標代碼，所述編程語言包括面向對象的編程語言—諸如Smalltalk、C++等，以及常規的過程式編程語言—諸如“C”語言或類似的編程語言。計算機可讀程式指令可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟體包執行、部分在用戶計算機上部分在遠端計算機上執行、或者完全在遠端計算機或伺服器上執行。在涉及遠端計算機的情形中，遠端計算機可以通過任意種類的網路—包括區域網(LAN)或廣域網(WAN)—連接到用戶計算機，或者，可以連接到外部計算機（例如利用網際網路服務提供商來通過網際網路連接）。在一些實施例中，通過利用計算機可讀程式指令的狀態人員資訊來個性化定制電子電路，例如可編程邏輯電路、現場可編程門陣列（FPGA）或可編程邏輯陣列（PLA），該電子電路可以執行計算機可讀程式指令，從而實現本公開的各個方面。

這裡參照根據本公開實施例的方法、裝置（系統）和計算機程式產品的流程圖和/或框圖描述了本公開的各個方面。應當理解，流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合，都可以由計算機可讀程式指令實現。

這些計算機可讀程式指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器，從而生產出一種機器，使得這些指令在通過計算機或其它可編程數據處理裝置的處理器執行時，產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些計算機可讀程式指令儲存在計算機可讀儲存媒體中，這些指令使得計算機、可編程數據處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的計算機可讀媒體則包括一個製造品，其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把計算機可讀程式指令加載到計算機、其它可編程數據處理裝置、或其它設備上，使得在計算機、其它可編程數據處理裝置或其它設備上執行一系列操作步驟，以產生計算機實現的過程，從而使得在計算機、其它可編程數據處理裝置、或其它設備上執行的指令實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和框圖顯示了根據本公開的多個實施例的系統、方法和計算機程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或框圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與計算機指令的組合來實現。

以上已經描述了本公開的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

S11:獲取人臉影像 S12:利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，人臉關鍵點資訊集合包括人臉的第一關鍵點資訊以及至少一個人臉器官的第二關鍵點資訊 S121:通過第一網路分支對人臉進行檢測，得到第一檢測結果，第一檢測結果包括人臉的第一關鍵點資訊以及至少一個人臉器官的檢測框資訊 S122:基於第一檢測結果，通過至少一個第二網路分支對至少一個人臉器官進行檢測，得到第二檢測結果，第二檢測結果包括至少一個人臉器官的第二關鍵點資訊 S14:根據關鍵點標註以及人臉關鍵點資訊集合，確定目標神經網路的誤差損失 S15:根據誤差損失，對目標神經網路中的至少兩個神經網路分支的參數進行共同更新 20:關鍵點檢測裝置 21:影像獲取模組 22:關鍵點檢測模組 800:電子設備 802:處理組件 804:儲存器 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出（I/ O）介面 814:傳感器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:儲存器 1950:網路介面 1958:輸入輸出（I/O）介面

圖1繪示根據本公開一實施例的關鍵點檢測方法的流程圖。圖2繪示根據本公開一實施例的關鍵點檢測方法的流程圖。圖3繪示根據本公開一應用示例的關鍵點檢測方法示意圖。圖4繪示根據本公開一應用示例的關鍵點檢測方法示意圖。圖5繪示根據本公開一實施例的關鍵點檢測方法的流程圖。圖6繪示根據本公開一實施例的關鍵點檢測裝置的框圖。圖7繪示根據本公開一應用示例的關鍵點檢測方法示意圖。圖8繪示根據本公開實施例的一種電子設備的框圖。圖9繪示根據本公開實施例的一種電子設備的框圖。

S11:獲取人臉影像

S12:利用目標神經網路包括的至少兩個神經網路分支，對人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，人臉關鍵點資訊集合包括人臉的第一關鍵點資訊以及至少一個人臉器官的第二關鍵點資訊

Claims

一種關鍵點檢測方法，包括：獲取人臉影像；利用目標神經網路包括的至少兩個神經網路分支，對所述人臉影像中人臉以及至少一個人臉器官進行檢測，得到人臉關鍵點資訊集合，所述人臉關鍵點資訊集合包括所述人臉的第一關鍵點資訊以及所述至少一個人臉器官的第二關鍵點資訊。
如請求項1所述的關鍵點檢測方法，其中所述至少兩個神經網路分支包括用於檢測所述人臉的第一網路分支，以及，用於檢測所述至少一個人臉器官的至少一個第二網路分支；所述利用所述目標神經網路包括的所述至少兩個神經網路分支，對所述人臉影像中所述人臉以及所述至少一個人臉器官進行檢測，得到所述人臉關鍵點資訊集合，包括：通過所述第一網路分支對所述人臉進行檢測，得到第一檢測結果，所述第一檢測結果包括所述人臉的所述第一關鍵點資訊以及所述至少一個人臉器官的檢測框資訊；基於所述第一檢測結果，通過所述至少一個第二網路分支對所述至少一個人臉器官進行檢測，得到第二檢測結果，所述第二檢測結果包括所述至少一個人臉器官的所述第二關鍵點資訊。
如請求項2所述的關鍵點檢測方法，其中，所述基於所述第一檢測結果，通過所述至少一個第二網路分支對所述至少一個人臉器官進行檢測，得到所述第二檢測結果，包括：對於所述至少一個第二網路分支中的每一第二網路分支，利用所述第二網路分支對所述第二網路分支對應的所述人臉器官進行檢測，得到所述第二網路分支對應的所述人臉器官的所述第二檢測結果。
如請求項3所述的關鍵點檢測方法，其中，所述對所述第二網路分支對應的所述人臉器官進行檢測，得到所述第二網路分支對應的所述人臉器官的所述第二檢測結果，包括：從所述人臉影像中提取出與所述人臉器官的所述檢測框資訊匹配的人臉器官區域；提取所述人臉器官區域的第二特徵資訊；基於所述第二特徵資訊以及所述第一檢測結果，確定所述人臉器官的所述第二關鍵點資訊。
如請求項3所述的關鍵點檢測方法，其中，所述第一檢測結果還包括所述人臉影像的第一特徵資訊；其中，所述對所述第二網路分支對應的所述人臉器官進行檢測，得到所述第二網路分支對應的所述人臉器官的所述第二檢測結果，包括：從所述第一特徵資訊中提取出與所述人臉器官的所述檢測框資訊匹配的人臉器官區域的初始特徵資訊；對所述初始特徵資訊進行深層特徵提取，得到所述人臉器官區域的第二特徵資訊；基於所述第二特徵資訊以及所述第一檢測結果，確定所述人臉器官的所述第二關鍵點資訊。
如請求項4或5所述的關鍵點檢測方法，其中，所述基於所述第二特徵資訊以及所述第一檢測結果，確定所述人臉器官的所述第二關鍵點資訊，包括：將所述第二特徵資訊與所述第一特徵資訊和/或所述第一關鍵點資訊進行至少一次融合處理，得到融合特徵資訊；根據所述融合特徵資訊，得到所述第二關鍵點資訊。
如請求項2至6中任意一項所述的關鍵點檢測方法，其中，在所述基於所述第一檢測結果，通過所述至少一個第二網路分支對所述至少一個人臉器官進行檢測，得到所述第二檢測結果之前，還包括：對所述至少一個人臉器官的檢測框資訊進行增強處理，其中，所述增強處理包括以下各項中的至少一項：伸縮變換處理或平移變換處理。
如請求項1至7中任意一項所述的關鍵點檢測方法，還包括：獲取所述至少一個人臉器官的所述第二關鍵點資訊中符合預設精度的人臉器官的第二關鍵點；根據所述符合預設精度的人臉器官的所述第二關鍵點，對所述第一關鍵點資訊中與所述符合預設精度的人臉器官對應位置的所述人臉的第一關鍵點進行替換，得到更新的所述人臉的第一關鍵點資訊。
如請求項1至8中任意一項所述的關鍵點檢測方法，其中，所述目標神經網路還包括至少一個第三網路分支，所述至少一個第三網路分支用於根據所述第一關鍵點資訊進行人臉狀態的檢測。
如請求項1至9中任意一項所述的關鍵點檢測方法，還包括：根據所述人臉關鍵點資訊集合，對所述人臉影像所在的人臉影像幀序列中的所述人臉進行追蹤。
如請求項10所述的關鍵點檢測方法，還包括：利用所述人臉影像對所述人臉影像幀序列中所述人臉影像的下一幀進行校正。
如請求項1至11中任意一項所述的關鍵點檢測方法，其中，所述第一關鍵點資訊包括68至128個第一關鍵點; 所述第二關鍵點資訊包括以下各項中的至少一項：嘴部的關鍵點，數量為40至80個；左眼的關鍵點，數量為16至32個；右眼的關鍵點，數量為16至32個；左眉毛的關鍵點，數量為10至20個；右眉毛的關鍵點，數量為10至20個。
如請求項1至12中任意一項所述的關鍵點檢測方法，其中，所述人臉影像包括關鍵點標註；所述方法還包括：根據所述關鍵點標註以及所述人臉關鍵點資訊集合，確定所述目標神經網路的誤差損失；根據所述誤差損失，對所述目標神經網路中的所述至少兩個神經網路分支的參數進行共同更新。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器被配置為調用所述儲存器儲存的指令，以執行請求項1至13中任意一項所述的關鍵點檢測方法。
一種計算機可讀儲存媒體，其上儲存有計算機程式指令，所述計算機程式指令被處理器執行時實現請求項1至13中任意一項所述的關鍵點檢測方法。