TWI720598B

TWI720598B - 關鍵點檢測方法及裝置、電子設備和儲存介質

Info

Publication number: TWI720598B
Application number: TW108130497A
Authority: TW
Inventors: 楊昆霖; 田茂清; 伊帥
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2018-11-16
Filing date: 2019-08-26
Publication date: 2021-03-01
Also published as: CN113591755B; CN113569796B; CN113569797A; CN109614876B; SG11202003818YA; CN109614876A; KR102394354B1; CN113569796A; CN113569797B; JP2021508388A; KR20200065033A; JP6944051B2; CN113591755A; TW202020806A; CN113591754A; CN113591750A; CN113569798A; CN113569798B; WO2020098225A1; CN113591754B

Abstract

本公開關於一種關鍵點檢測方法及裝置、電子設備和儲存介質，所述方法包括：獲得針對輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度成倍數關係；利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，其中，所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同；利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，其中，所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同；對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。本公開能夠精確的提取關鍵點的位置。

Description

關鍵點檢測方法及裝置、電子設備和儲存介質

本公開關於電腦視覺技術領域，特別關於一種關鍵點檢測方法及裝置、電子設備和儲存介質。

人體關鍵點檢測是從人體圖像上檢測出關節或者五官等關鍵點的位置資訊，從而通過這些關鍵點的位置資訊來描述人體的姿態。

因為人體在圖像中有大有小，現有的技術通常可以採用神經網路來獲取圖像的多尺度特徵，用來最終預測人體關鍵點的位置。但是我們發現使用這種方式，還不能完全地挖掘和利用多尺度特徵，關鍵點的檢測精度較低。

本公開實施例提供了一種有效的提高關鍵點檢測精度的關鍵點檢測方法及裝置、電子設備和儲存介質。

根據本公開的第一方面，提供了一種關鍵點檢測方法，其包括：獲得針對輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度成倍數關係；利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，其中，所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同；利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，其中，所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同；對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。

在一些可能的實施方式中，所述獲得針對輸入圖像的多個尺度的第一特徵圖包括：將所述輸入圖像調整為預設規格的第一圖像；將所述第一圖像輸入至殘差神經網路，對第一圖像執行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。

在一些可能的實施方式中，所述正向處理包括第一卷積處理和第一線性插值處理，所述反向處理包括第二卷積處理和第二線性插值處理。

在一些可能的實施方式中，所述利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，包括：利用第一卷積核對第一特徵圖C₁...C_n中的第一特徵圖C_n進行卷積處理，獲得與第一特徵圖C_n對應的第二特徵圖F_n，其中n表示第一特徵圖的數量，以及n為大於1的整數；對所述第二特徵圖F_n執行線性插值處理獲得與第二特徵圖F_n對應的第一中間特徵圖

，其中第一中間特徵圖

的尺度與第一特徵圖C_n-1的尺度相同；利用第二卷積核對第一特徵圖C_n以外的各第一特徵圖C₁...C_n-1進行卷積處理，得到分別與第一特徵圖C₁...C_n-1一一對應的第二中間特徵圖

...

，其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同；基於所述第二特徵圖F_n以及各所述第二中間特徵圖

...

，得到第二特徵圖F₁...F_n-1以及第一中間特徵圖

...

，其中所述第二特徵圖F_i由所述第二中間特徵圖

與所述第一中間特徵圖

進行疊加處理得到，第一中間特徵圖

由對應的第二特徵圖F_i經線性插值得到，並且，所述第二中間特徵圖

與第一中間特徵圖

的尺度相同，其中，i為大於或者等於1且小於n的整數。

在一些可能的實施方式中，利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，包括：利用第三卷積核對第二特徵圖F₁...F_m中的第二特徵圖F₁進行卷積處理，獲得與第二特徵圖F₁對應的第三特徵圖R₁，其中m表示第二特徵圖的數量，以及m為大於1的整數；利用第四卷積核對第二特徵圖F₂...F_m進行卷積處理，分別得到對應的第三中間特徵圖

...

，其中，第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同；利用第五卷積核對第三特徵圖R₁進行卷積處理得到與第三特徵圖R₁對應的第四中間特徵圖

；利用各第三中間特徵圖

...

以及第四中間特徵圖

，得到第三特徵圖R ₂...R _m以及第四中間特徵圖

...

，其中，第三特徵圖R_j由第三中間特徵圖

與第四中間特徵圖

的疊加處理得到，第四中間特徵圖

由對應的第三特徵圖R _j-1通過第五卷積核卷積處理獲得，其中j為大於1且小於或者等於m。

在一些可能的實施方式中，所述對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置，包括：對各第三特徵圖進行特徵融合處理，得到第四特徵圖：基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。

在一些可能的實施方式中，所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖，包括：利用線性插值的方式，將各第三特徵圖調整為尺度相同的特徵圖；對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。

在一些可能的實施方式中，在所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖之前，還包括：將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理，分別得到更新後的第三特徵圖，各所述瓶頸區塊結構中包括不同數量的卷積模組，其中，所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖，所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。

在一些可能的實施方式中，所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖，包括：利用線性插值的方式，將各所述更新後的第三特徵圖以及所述第二組第三特徵圖，調整為尺度相同的特徵圖；對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。

在一些可能的實施方式中，所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置，包括：利用第五卷積核對所述第四特徵圖進行降維處理；利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。

在一些可能的實施方式中，所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置，包括：利用第五卷積核對所述第四特徵圖進行降維處理；利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理，得到提純後的特徵圖；利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。

在一些可能的實施方式中，所述方法還包括利用訓練圖像資料集訓練所述第一金字塔神經網路，其包括：利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理，得到所述訓練圖像資料集中各圖像對應的第二特徵圖；利用各第二特徵圖確定識別的關鍵點；根據第一損失函數得到所述關鍵點的第一損失；利用所述第一損失反向調節所述第一金字塔神經網路中的各卷積核，直至訓練次數達到設定的第一次數閾值。

在一些可能的實施方式中，所述方法還包括利用訓練圖像資料集訓練所述第二金字塔神經網路，其包括：利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理，得到所述訓練圖像資料集中各圖像對應的第三特徵圖；利用各第三特徵圖確定識別的關鍵點；根據第二損失函數得到識別的各關鍵點的第二損失；利用所述第二損失反向調節所述第二金字塔神經網路中卷積核，直至訓練次數達到設定的第二次數閾值；或者，利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核，直至訓練次數達到設定的第二次數閾值。

在一些可能的實施方式中，通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理，並且，在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前，所述方法還包括：利用訓練圖像資料集訓練所述特徵提取網路，其包括：利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理，並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點；根據第三損失函數得到各關鍵點的第三損失；利用所述第三損失值反向調節所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值；或者，利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數，以及所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值。

根據本公開的第二方面，提供了一種關鍵點檢測裝置，其包括：多尺度特徵獲取模組，其用於獲得針對輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度成倍數關係；正向處理模組，其用於利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，其中，所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同；反向處理模組，其用於利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，其中，所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同；關鍵點檢測模組，其用於對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。

在一些可能的實施方式中，所述多尺度特徵獲取模組還用於將所述輸入圖像調整為預設規格的第一圖像，並將所述第一圖像輸入至殘差神經網路，對第一圖像執行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。

在一些可能的實施方式中，所述正向處理模組還用於利用第一卷積核對第一特徵圖C₁...C_n中的第一特徵圖C_n進行卷積處理，獲得與第一特徵圖C_n對應的第二特徵圖F_n，其中n表示第一特徵圖的數量，以及n為大於1的整數；以及對所述第二特徵圖F_n執行線性插值處理獲得與第二特徵圖F_n對應的第一中間特徵圖

，其中第一中間特徵圖

的尺度與第一特徵圖C_n-1的尺度相同；以及利用第二卷積核對第一特徵圖C_n以外的各第一特徵圖C₁...C_n-1進行卷積處理，得到分別與第一特徵圖C₁...C_n-1一一對應的第二中間特徵圖

...

，其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同；並且基於所述第二特徵圖F_n以及各所述第二中間特徵圖

...

，得到第二特徵圖F₁...F_n-1以及第一中間特徵圖

...

，其中所述第二特徵圖F_i由所述第二中間特徵圖

與所述第一中間特徵圖

進行疊加處理得到，第一中間特徵圖

與第一中間特徵圖

的尺度相同，其中，i為大於或者等於1且小於n的整數。

在一些可能的實施方式中，所述反向處理模組還用於利用第三卷積核對第二特徵圖F₁...F_m中的第二特徵圖F₁進行卷積處理，獲得與第二特徵圖F₁對應的第三特徵圖R₁，其中m表示第二特徵圖的數量，以及m為大於1的整數；以及利用第四卷積核對第二特徵圖F₂...F_m進行卷積處理，分別得到對應的第三中間特徵圖

...

，其中，第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同；以及利用第五卷積核對第三特徵圖R₁進行卷積處理得到與第三特徵圖R₁對應的第四中間特徵圖

；並且利用各第三中間特徵圖

...

以及第四中間特徵圖

，得到第三特徵圖R ₂...R _m以及第四中間特徵圖

...

，其中，第三特徵圖R_j由第三中間特徵圖

與第四中間特徵圖

的疊加處理得到，第四中間特徵圖

在一些可能的實施方式中，所述關鍵點檢測模組還用於對各第三特徵圖進行特徵融合處理，得到第四特徵圖，並基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。

在一些可能的實施方式中，所述關鍵點檢測模組還用於利用線性插值的方式，將各第三特徵圖調整為尺度相同的特徵圖，並對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。

在一些可能的實施方式中，所述裝置還包括：優化模組，其用於將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理，分別得到更新後的第三特徵圖，各所述瓶頸區塊結構中包括不同數量的卷積模組，其中，所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖，所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。

在一些可能的實施方式中，所述關鍵點檢測模組還用於利用線性插值的方式，將各所述更新後的第三特徵圖以及所述第二組第三特徵圖，調整為尺度相同的特徵圖，並對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。

在一些可能的實施方式中，所述關鍵點檢測模組還用於利用第五卷積核對所述第四特徵圖進行降維處理，並利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。

在一些可能的實施方式中，所述關鍵點檢測模組還用於利用第五卷積核對所述第四特徵圖進行降維處理，利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理，得到提純後的特徵圖，並利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。

在一些可能的實施方式中，所述正向處理模組還用於利用訓練圖像資料集訓練所述第一金字塔神經網路，其包括：利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理，得到所述訓練圖像資料集中各圖像對應的第二特徵圖；利用各第二特徵圖確定識別的關鍵點；根據第一損失函數得到所述關鍵點的第一損失；利用所述第一損失反向調節所述第一金字塔神經網路中的各卷積核，直至訓練次數達到設定的第一次數閾值。

在一些可能的實施方式中，所述反向處理模組還用於利用訓練圖像資料集訓練所述第二金字塔神經網路，其包括：利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理，得到所述訓練圖像資料集中各圖像對應的第三特徵圖；利用各第三特徵圖確定識別的關鍵點；根據第二損失函數得到識別的各關鍵點的第二損失；利用所述第二損失反向調節所述第二金字塔神經網路中卷積核，直至訓練次數達到設定的第二次數閾值；或者，利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核，直至訓練次數達到設定的第二次數閾值。

在一些可能的實施方式中，所述關鍵點檢測模組還用於通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理，並且在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前，還利用訓練圖像資料集訓練所述特徵提取網路，其包括：利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理，並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點；根據第三損失函數得到各關鍵點的第三損失；利用所述第三損失值反向調節所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值；或者，利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數，以及所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值。

根據本公開的協力廠商面，提供了一種電子設備，其包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：執行第一方面中任意一項所述的方法。

根據本公開的第四方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現第一方面中任意一項所述的方法。

本公開實施例提出了一種利用雙向金字塔神經網路來執行關鍵點特徵檢測，其中不僅利用正向處理的方式得到多尺度特徵，同時還利用反向處理融合更多的特徵，從而能夠進一步提高關鍵點的檢測精度。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本公開。

根據下面參考附圖對示例性實施例的詳細說明，本公開的其它特徵及方面將變得清楚。

10‧‧‧多尺度特徵獲取模組

20‧‧‧正向處理模組

30‧‧‧反向處理模組

40‧‧‧關鍵點檢測模組

800‧‧‧電子設備

802‧‧‧處理組件

804‧‧‧記憶體

806‧‧‧電源組件

808‧‧‧多媒體組件

810‧‧‧音頻組件

812‧‧‧輸入/輸出介面

814‧‧‧感測器組件

816‧‧‧通信組件

820‧‧‧處理器

1900‧‧‧電子設備

1922‧‧‧處理組件

1926‧‧‧電源組件

1932‧‧‧記憶體

1950‧‧‧網路介面

1958‧‧‧輸入輸出介面

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本公開的實施例，並與說明書一起用於說明本公開的技術方案。

圖1示出根據本公開實施例的一種關鍵點檢測方法的流程圖；圖2示出根據本公開實施例的一種關鍵點檢測方法中步驟S100的流程圖；圖3示出本公開實施例的關鍵點檢測方法的另一流程圖；圖4示出根據本公開實施例的一種關鍵點檢測方法中的步驟S200的流程圖；圖5示出根據本公開實施例的關鍵點檢測方法中步驟S300的流程圖；圖6出根據本公開實施例的關鍵點檢測方法中步驟S400的流程圖；圖7示出根據本公開實施例的關鍵點檢測方法中步驟S401的流程圖；圖8示出根據本公開實施例的關鍵點檢測方法的另一流程圖；圖9示出根據本公開實施例的關鍵點檢測方法中步驟S402的流程圖；圖10示出根據本公開實施例的一種關鍵點檢測方法中的訓練第一金字塔神經網路的流程圖；圖11示出根據本公開實施例的一種關鍵點檢測方法中的訓練第二金字塔神經網路的流程圖；圖12示出根據本公開實施例的一種關鍵點檢測方法中的訓練特徵提取網路模型的流程圖；圖13示出根據本公開實施例的一種關鍵點檢測裝置的方塊圖；圖14示出根據本公開實施例的一種電子設備800的方塊圖；圖15示出根據本公開實施例的一種電子設備1900的方塊圖。

以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本公開，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本公開同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本公開的主旨。

本公開實施例提供了一種關鍵點檢測方法，該方法可以用於執行人體圖像的關鍵點檢測，其利用了兩個金字塔網路模型分別執行關鍵點的多尺度特徵的正向處理和反向處理，融合了更多的特徵資訊，能夠提高關鍵點位置檢測的精度。

圖1示出根據本公開實施例的一種關鍵點檢測方法的流程圖。其中，本公開實施例的關鍵點檢測方法可以包括：

S100：獲得針對輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度成倍數關係。

本公開實施例採用輸入圖像的多尺度特徵的融合的方式執行上述關鍵點的檢。首先可以獲取輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度不同，且各尺度之間存在倍數的關係。本公開實施例可以利用多尺度分析演算法得到輸入圖像的多個尺度的第一特徵圖，或者也可以通過能夠執行多尺度分析的神經網路模型獲得輸入圖像的多個尺度的第一特徵圖，本公開不作具體限定。

S200：利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，其中，所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同。

在本實施例中，正向處理可以包括第一卷積處理以及第一線性插值處理，通過第一金字塔神經網路的正向處理過程，可以得到與相應的第一特徵圖尺度相同的第二特徵圖，各第二特徵圖的進一步融合了輸入圖像的各特徵，並且得到的第二特徵圖與第一特徵圖的數量相同，且第二特徵圖與對應的第一特徵圖的尺度相同。例如，本公開實施例得到的第一特徵圖可以為C₁、C₂、C₃和C₄，對應的正向處理後得到的第二特徵圖可以為F₁、F₂、F₃和F₄。其中，在第一特徵圖C₁至C₄的尺度關係為C₁的尺度為C₂的尺度的2倍，C₂的尺度為C₃的尺度的二倍，以及C₃的尺度為C₄的二倍時，得到的第二特徵圖F₁至F₄中，F₁與C₁的尺度相同，F₂與C₂的尺度相同，F₃與C₃的尺度相同，以及F₄與C₄的尺度相同，並且第二特徵圖F₁的尺度為F₂的尺度的2倍，F₂的尺度為F₃的尺度的二倍，以及F₃的尺度為F₄的二倍。上述僅為第一特徵圖經過正向處理得到第二特徵圖的示例性說明，不作為本公開的具體限定。

S300：利用第二金字塔神經網路對各第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，所述反向處理包括第二卷積處理，其中，所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同。

在本實施例中，反向處理包括第二卷積處理以及第二線性插值處理，通過第二金字塔神經網路的反向處理過程，可以得到與相應的第二特徵圖尺度相同的第三特徵圖，且各第三特徵圖相對於第二特徵圖進一步融合了輸入圖像的特徵，並且得到的第三特徵圖與第二特徵圖的數量相同，且第三特徵圖與對應的第二特徵圖的尺度相同。例如，本公開實施例得到的第二特徵圖可以為F₁、F₂、F₃和F₄，對應的反向處理後得到的第三特徵圖可以為R₁、R₂、R₃和R₄。其中，在第二特徵圖F₁、F₂、F₃和F₄的尺度關係為F₁的尺度為F₂的尺度的2倍，F₂的尺度為F₃的尺度的二倍，以及F₃的尺度為F₄的二倍時，得到的第三特徵圖R₁至R₄中，R₁與F₁的尺度相同，R₂與F₂的尺度相同，R₃與F₃的尺度相同，以及R₄與F₄的尺度相同，並且第三特徵圖R₁的尺度為R₂的尺度的2倍，R₂的尺度為R₃的尺度的二倍，以及R₃的尺度為R₄的二倍。上述僅為第二特徵圖經反向處理得到第三特徵圖的示例性說明，不作為本公開的具體限定。

S400：對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。

本公開實施例中，在對各第一特徵圖經正向處理得到第二特徵圖，以及根據第二特徵圖的反向處理得到第三特徵圖後，即可以執行各第三特徵圖的特徵融合處理。例如本公開實施例可以利用對應的卷積處理的方式實現各第三特徵圖的特徵融合，以及在第三特徵圖的尺度不相同時還可以執行尺度的轉變，而後執行特徵圖的拼接，以及關鍵點的提取。

本公開實施例可以執行對輸入圖像的不同關鍵點的檢測，例如在輸入圖像為人物的圖像時，關鍵點可以為左右眼睛、鼻子、左右耳朵、左右肩膀、左右手肘、左右手腕、左右胯部、左右膝蓋、左右腳踝中的至少一種，或者在其他實施例中，輸入圖像也可以其他類型的圖像，在執行關鍵點檢測時，可以識別其他的關鍵點。因此，本公開實施例可以根據第三特徵圖的特徵融合結果，進一步執行關鍵點的檢測識別。

基於上述配置，本公開實施例可以通過雙向金字塔神經網路(第一金字塔神經網路和第二金字塔神經網路)分別基於第一特徵圖執行正向處理以及進一步的反向處理，能夠有效的提高輸入圖像的特徵融合度，進一步提高關鍵點的檢測精度。如上所示，本公開實施例可以首先獲取輸入圖像，該輸入圖像可以為任意的圖像類型，例如可以是人物圖像、風景圖像、動物圖像等等。對於不同類型的圖像，可以識別不同的關鍵點。例如，本公開實施例以人物圖像為例進行說明。首先可以通過步驟S100獲取輸入圖像在多個不同尺度下的第一特徵圖。

圖2示出根據本公開實施例的一種關鍵點檢測方法中步驟S100的流程圖。其中，獲得針對輸入圖像的不同尺度的第一特徵圖(步驟S100)可以包括：

S101：將所述輸入圖像調整為預設規格的第一圖像。

本公開實施例可以首先歸一化輸入圖像的尺寸規格，即可以首先將輸入圖像調整為預設規格的第一圖像，其中本公開實施例中預設規格可以為256pix＊192pix，pix為圖元值，在其他的實施例中，可以將輸入圖像統一轉換為其他規格的圖像，本公開實施例對此不進行具體限定。

S102：將所述第一圖像輸入至殘差神經網路，對第一圖像執行不同採樣頻率的降採樣處理得到不同尺度的第一特徵圖。

在得到預設規格的第一圖像之後，可以對該第一圖像執行多個採樣頻率的採樣處理。例如，本公開實施例可以通過將第一圖像輸入至殘差神經網路，通過殘差神經網路處理得到針對第一圖像的不同尺度的第一特徵圖。其中，可以利用不同的採樣頻率對第一圖像進行將採樣處理從而得到不同尺度的第一特徵圖。本公開實施例的採樣頻率可以為1/8、1/16、1/32等，但本公開實施例對此不進行限定。另外，本公開實施例中的特徵圖是指圖像的特徵矩陣，例如本公開實施例的特徵矩陣可以為三維矩陣，以及本公開實施例中所述的特徵圖的長度和寬度可以分別為對應的特徵矩陣在行方向和列方向上的維度。

通過步驟S100處理後得到的輸入圖像的多個不同尺度的第一特徵圖。並且通過控制降採樣的採樣頻率可以使得各第一特徵圖之間的尺度的關係為

且

，，其中，C_i表示各第一特徵圖，L(C_i)表示第一特徵圖C_i的長度，W(C_i)表示第一特徵圖C_i的寬度，k₁為大於或者等於1的整數，i為變數，且i的範圍為[2,n]，n為第一特徵圖的數量。即本公開實施例中的各第一特徵圖的長度和寬度之間的關係均為2的k₁次方倍。

圖3示出本公開實施例的關鍵點檢測方法的另一流程圖。其中，(a)部分示出本公開實施例的步驟S100的過程，通過步驟S100可以獲得四個第一特徵圖C₁、C₂、C₃和C₄，其中，第一特徵圖C₁的長度和寬度可以分別對應的為第一特徵圖C₂的長度和寬度的二倍，第二特徵圖C₂的長度和寬度可以分別對應的為第三特徵圖C₃的長度和寬度的二倍，以及第三特徵圖C₃的長度和寬度可以分別對應的為第四特徵圖C₄的長度和寬度的二倍。本公開實施例上述C₁和C₂之間、C₂和C₃之間，以及C₃和C₄之間的尺度倍數可以均相同，例如k₁取值為1。在其他的實施例中，k₁可以為不同的值，例如可以為，第一特徵圖C₁的長度和寬度可以分別對應的為第一特徵圖C₂的長度和寬度的二倍，第二特徵圖C₂的長度和寬度可以分別對應的為第三特徵圖C₃的長度和寬度的四倍，以及第三特徵圖C₃的長度和寬度可以分別對應的為第四特徵圖C₄的長度和寬度的八倍，但本公開實施例對此不進行限定。

在獲得輸入圖像的不同尺度的第一特徵圖之後，可以對通過步驟S200執行第一特徵圖的正向處理過程，得到融合了各第一特徵圖的特徵的多個不同尺度的第二特徵圖。

圖4示出根據本公開實施例的一種關鍵點檢測方法中的步驟S200的流程圖。其中，所述利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖(步驟S200)，包括：

S201：利用第一卷積核對第一特徵圖C₁...C_n中的第一特徵圖C_n進行卷積處理，獲得與第一特徵圖C_n對應的第二特徵圖F_n，其中，其中n表示第一特徵圖的數量，以及n為大於1的整數，並且第一特徵圖C_n的長度和寬度分別與第二特徵圖F_n的長度和寬度對應相同。

本公開實施例中的第一金字塔神經網路執行的正向處理可以包括第一卷積處理以及第一線性插值處理，也可以包括其他的處理過程，本公開對此不進行限定。

在一種可能的實施方式中，本公開實施例獲得的第一特徵圖可以為C₁...C_n，即n個第一特徵圖，且C_n可以為長度和寬度最小的特徵圖，即尺度最小的第一特徵圖。其中，首先可以利用第一金字塔神經網路對第一特徵圖C_n進行卷積處理，即利用第一卷積核對第一特徵圖C_n進行卷積處理，得到第二特徵圖F_n。該第二特徵圖F_n的長度和寬度均與第一特徵圖C_n的長度和寬度分別相同。其中，第一卷積核可以為3＊3的卷積核，或者也可以是其他類型的卷積核。

S202：對所述第二特徵圖F_n執行線性插值處理獲得與第二特徵圖F_n對應的第一中間特徵圖

，其中第一中間特徵圖

的尺度與第一特徵圖C_n-1的尺度相同；在得到第二特徵圖F_n之後，可以利用該第二特徵圖F_n獲得與其對應的第一中間特徵圖

，本公開實施例可以通過對第二特徵圖F_n執行線性插值處理獲得與第二特徵圖F_n對應的第一中間特徵圖

，其中，第一中間特徵圖

的尺度與第一特徵圖C_n-1的尺度相同，例如，在C_n-1的尺度為C_n的尺度的二倍時，第一中間特徵圖

的長度為第二特徵圖F_n的長度的二倍，以及第一中間特徵圖

的寬度為第二特徵圖F_n的寬度的二倍。

S203：利用第二卷積核對第一特徵圖C_n以外的各第一特徵圖C₁...C_n-1進行卷積處理，得到分別與第一特徵圖C₁...C_n-1一一對應的第二中間特徵圖

...

，其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同；同時，本公開實施例還可以獲得第一特徵圖C_n以外的各第一特徵圖C₁...C_n-1對應的第二中間特徵圖

...

，其中，可以利用第二卷積核分別對第一特徵圖C₁...C_n-1進行第二卷積處理，分別得到與各第一特徵圖C₁...C_n-1一一對應的第二中間特徵圖

...

，其中第二卷積核可以為1＊1的卷積核，但本公開對此不作具體限定。通過第二卷積處理得到的各第二中間特徵圖的尺度與對應的第一特徵圖的尺度分別相同。其中，本公開實施例可以按照第一特徵圖C₁...C_n-1的倒序，獲得各第一特徵圖C₁...C_n-1的第二中間特徵圖

...

。即，可以先獲得第一特徵圖C_n-1對應的第二中間圖

，而後獲得第一特徵圖C_n-2的對應的第二中間圖

，以此類推，直至獲得第一特徵圖C₁對應的第二中間特徵圖

。

S204：基於所述第二特徵圖F_n以及各所述第二中間特徵圖

...

，得到第二特徵圖F₁...F_n-1以及第一中間特徵圖

...

，其中與第一特徵圖C₁...C_n-1中的第一特徵圖C_i對應的第二特徵圖F_i由第二中間特徵圖

與第一中間特徵圖

進行疊加處理(加和處理)得到，並且第一中間特徵圖

與第以中間特徵圖

的尺度相同，其中，i為大於或者等於1且小於n的整數。

另外，在獲得各第二中間特徵圖的同時，或者獲得各第二中間特徵圖之後還可以對應的獲得第一中間特徵圖

以外的其他第一中間特徵圖

...

，本公開實施例中，與第一特徵圖C₁...C_n-1中的第一特徵圖C_i對應的第二特徵圖

，其中，第二中間特徵圖

的尺度(長度和寬度)分別與第一中間特徵圖

的尺度(長度和寬度)相等，並且第二中間特徵圖

的長度和寬度與第一特徵圖C_i的長度和寬度相同，因此得到的第二特徵圖F_i的長度和寬度分別為第一特徵圖C_i的長度和寬度。其中，i為大於或者等於1且小於n的整數。

具體的，本公開實施例依然可以採用倒序的處理方式獲得第二特徵圖F_n以外的各第二特徵圖F_i。即，本公開實施例可以首先獲得第一中間特徵圖F_n-1，其中，可以利用第一特徵圖C_n-1對應的第二中間圖

與第一中間特徵圖

進行疊加處理得到第二特徵圖F_n-1，其中，第二中間特徵圖

的長度和寬度分別與第一中間特徵圖

的長度和寬度相同，以及第二特徵圖F_n-1的長度和寬度為第二中間特徵圖

和

的長度和寬度。此時第二特徵圖F_n-1的長度和寬度分別為第二特徵圖F_n的長度和寬度的二倍(C_n-1的尺度為C_n的尺度的二倍)。進一步地，可以對第二特徵圖F_n-1進行線性插值處理，得到第一中間特徵圖

，使得

的尺度與C_n-1的尺度相同，繼而可以利用第一特徵圖C_n-2對應的第二中間圖

與第一中間特徵圖

進行疊加處理得到第二特徵圖F_n-2，其中，第二中間特徵圖

的長度和寬度分別與第一中間特徵圖

的長度和寬度相同，以及第二特徵圖F_n-2的長度和寬度為第二中間特徵圖

和

的長度和寬度。例如第二特徵圖 F_n-2的長度和寬度分別為第二特徵圖F_n-1的長度和寬度的二倍。以此類推，可以最終獲得第一中間特徵圖

，以及根據該第一中間特徵圖

與第一特徵圖

的疊加處理得到第二特徵圖F₁，F₁的長度和寬度分別為與C₁的長度和寬度的相同。從而得到各第二特徵圖，並滿足

及

，並且L(F_n)=L(C_n)，W(F_n)=W(C_n)。

例如，以上述四個第一特徵圖C₁、C₂、C₃和C₄為例進行說明。如圖3所示，步驟S200可以使用第一金字塔神經網路(Feature Pyramid Network--FPN)來獲得多尺度的第二特徵圖。其中，首先可以將C₄經過一個3＊3的第一卷積核計算得到一個新的特徵圖F₄(第二特徵圖)，F₄的長度和寬度的大小與C₄相同。對F₄進行雙線形插值的上採樣(upsample)操作，得到一個長和寬都放大兩倍的特徵圖，即第一中間特徵圖

。C₃經過一個1＊1的第二卷積核計算得到一個第二中間特徵圖

，

與

大小相同，兩個特徵圖相加，得到新的特徵圖F₃(第二特徵圖)，使得第二特徵圖F₃的長度和寬度分別為第二特徵圖F₄二倍。對F₃進行雙線形插值的上採樣(upsample)操作，得到一個長和寬都放大兩倍的特徵圖，即第一中間特徵圖

。C₂經過一個1＊1的第二卷積核計算得到一個第二中間特徵圖

，

與

大小相同，兩個特徵圖相加，得到新的特徵圖F₂(第二特徵圖)，使得第二特徵圖F₂的長度和寬度分別為第二特徵圖F₃二倍。對F₂進行雙線形插值的上採樣(upsample)操作，得到一個長和寬都放大兩倍的特徵圖，即第一中間特徵圖

。C₁經過一個 1＊1的第二卷積核計算得到一個第二中間特徵圖

，

與

大小相同，兩個特徵圖相加，得到新的特徵圖F₂(第二特徵圖)，使得第二特徵圖F₁的長度和寬度分別為第二特徵圖F₂二倍。經過FPN之後，同樣得到了四個不同尺度的第二特徵圖，分別記為F₁、F₂、F₃和F₄。並且F₁和F₂之間的長度和寬度的倍數與C₁和C₂之間的長度和寬度的倍數相同，以及F₂和F₃之間的長度和寬度的倍數與C₂和C₃之間的長度和寬度的倍數相同，F₃和F₄之間的長度和寬度的倍數與C₃和C₄之間的長度和寬度的倍數相同。

通過上述金字塔網路模型的正向處理之後，可以使得各第二特徵圖中融合更多的特徵，為了進一步提高特徵的提取精度，本公開實施例在步驟S200之後，還利用第二金字塔神經網路對各第二特徵圖執行反向處理。其中，反向處理可以包括第二卷積處理以及第二線性插值處理，同樣，也可以包括其他處理，本公開對此不進行具體限定。

圖5示出根據本公開實施例的關鍵點檢測方法中步驟S300的流程圖。其中，所述利用第二金字塔神經網路對各第二特徵圖進行反向處理得到不同尺度的第三特徵圖R _i(步驟S300)，可以包括：

S301：利用第三卷積核對F₁...F_m中的第二特徵圖F₁進行卷積處理，獲得與第二特徵圖F₁對應的第三特徵圖R₁，其中第三特徵圖R₁的長度和寬度分別與第一特徵圖C₁的長度和寬度對應相同，其中m表示第二特徵圖的數量，以及m為大於1的整數，此時m與第一特徵圖的數量n相同；在反向處理的過程中，可以首先從長度和寬度最大的第二特徵圖F₁進行反向處理，例如，可以通過第三卷積核對該第二特徵圖F₁進行卷積處理，得到長度和寬度都與F₁相同的第三中間特徵圖R₁。其中，第三卷積核可以為3＊3的卷積核，也可以是其他類型的卷積核，本領域技術領域可以根據不同的需求選擇所需的卷積核。

S302：利用第四卷積核對第二特徵圖F₂...F_m進行卷積處理，分別得到對應的第三中間特徵圖

...

，其中，第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同；在得到第三特徵圖R₁之後，可以利用第四卷積核對第二特徵圖F₁以外的各第二特徵圖F₂...F_m分別執行卷積處理，得到對應的第三中間特徵圖

...

。步驟S302中，可以將第二特徵圖F₁以外的第二特徵圖F₂...F_m通過第四卷積核做卷積處理，其中可以首先對F₂進行卷積處理得到對應的第三中間特徵圖

，繼而可以對F₃進行卷積處理得到對應的第三中間特徵圖

，以此類推，得到第二特徵圖F_m對應的第三中間特徵圖

。其中，本公開實施例中，各第三中間特徵圖

的長度和寬度可以為對應的第二特徵圖F_j的長度和寬度。

S303：利用第五卷積核對第三特徵圖R₁進行卷積處理得到與第三特徵圖R₁對應的第四中間特徵圖

；在得到第三特徵圖R₁之後，可以利用第四卷積核對第二特徵圖F₁以外的各第二特徵圖F₂...F_m分別執行卷積處理，得到對應的第三中間特徵圖

...

，繼而可以對F₃進行卷積處理得到對應的第三中間特徵圖

，以此類推，得到第二特徵圖F_m對應的第三中間特徵圖

。其中，本公開實施例中，各第三中間特徵圖

的長度和寬度可以為對應的第二特徵圖F_j的長度和寬度的一半。

S304：利用各第三中間特徵圖

...

以及第四中間特徵圖

，得到第三特徵圖R ₂...R _m，其中，第三特徵圖R_j由第三中間特徵圖

與第四中間特徵圖

的疊加處理得到，以及第四中間特徵圖

在執行步驟S301之後，或者執行S302之後，還可以利用第五卷積核對第三特徵圖R₁進行卷積處理得到第三特徵圖R₁對應的第四中間特徵圖

。其中，第四中間特徵圖

的長度和寬度為第二特徵圖F₂的長度和寬度。

另外，還可以利用步驟S302得到的第三中間特徵圖

以及步驟S303得到的第四中間特徵圖

，得到第三特徵圖R₁以外的第三特徵圖R ₂...R _m。其中，第三特徵圖R₁之外的各第三特徵圖R ₂...R _m由第三中間特徵圖

與第四中間特徵圖

的疊加處理得到。

具體的，步驟S304中，可以分別利用對應的第三中間特徵圖

與第四中間特徵圖

進行疊加處理得到第三特徵圖R₁之外的各第三特徵圖R _j。其中，可以首先利用第三中間特徵圖

與第四中間特徵圖

的加和結果獲得第三特徵圖R₂。而後，利用第五卷積核對R₂進行卷積處理得到第四中間特徵圖

，通過第三中間特徵圖

與第四中間特徵圖

之間的加和結果獲得第三特徵圖R₃。以此類推，可以進一步得到其餘第四中間特徵圖

...

，以及第三特徵圖R₄…R_m。

另外，本公開實施例中，獲得的各第四中間特徵圖

的長度和寬度分別與第二特徵圖F₂的長度和寬度相同。以及第四中間特徵圖

的長度和寬度分別與第四中間特徵圖

的長度和寬度相同。從而，得到的第三特徵圖R_j的長度和寬度分別為第二特徵圖F_i的長度和寬度，進一步的各第三特徵圖R₁…Rn的長度和寬度分別對應的與第一特徵圖C₁…C_n的長度和寬度相等。

下面舉例說明反向處理的過程。如圖3所示，接著利用第二特徵金字塔網路(Reverse Feature Pyramid Network--RFPN)來進一步優化多尺度特徵。第二特徵圖F₁經過一個3＊3的卷積核(第三卷積核)，得到一個新的特徵圖R₁(第四特徵圖)，R₁長和寬的大小與F₁相同。R₁經過一個卷積核為3＊3(第五卷積核)，步長(stride)為2的卷積計算得到一個新的特徵圖，記為

,

的長和寬均可以是R₁的一半。第二特徵圖F₂經過一個3＊3的卷積核(第四卷積核)計算得到一個新的特徵圖，記為

。

與

的大小相同，將

與

相加得到新的特徵圖R₂。對R₂和F₃重複R₁和F₂的操作，得到新的特徵圖R₃。對R₃和F₄重複R₁和F₂的操作，得到新的特徵圖R₄。經過RFPN之後，同樣得到了四個不同尺度的特徵圖，分別記為R₁、R₂、R₃和R₄。同樣的，R₁和R₂之間的長度和寬度的倍數與C₁和C₂之間的長度和寬度的倍數相同，以及R₂和R₃之間的長度和寬度的倍數與R₂和R₃之間的長度和寬度的倍數相同，R₃和R₄之間的長度和寬度的倍數與C₃和C₄之間的長度和寬度的倍數相同。

基於上述配置，即可以得到經第二集資他網路模型進行反向處理得到的第三特徵圖R₁…Rn，經過正向和反向處理兩個處理過程可以進一步提高圖像的融合的特徵，基於各第三特徵圖可以精確的識別特徵點。

在步驟S300之後，則可以根據各第三特徵圖R_i-的特徵融合結果，獲得輸入圖像的各關鍵點的位置。其中，圖6示出根據本公開實施例的關鍵點檢測方法中步驟S400的流程圖。其中，所述對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置(步驟S400)，可以包括：

S401：對各第三特徵圖進行特徵融合處理，得到第四特徵圖；本公開實施例中，在獲得各尺度的第三特徵圖R₁...R_n之後，可以對各第三特徵圖進行特徵融合，由於本公開實施例中各第三特徵圖的長度和寬度不同，因此可以將分別R₂…R_n進行線性插值處理，最終使得各第三特徵圖R₂…R_n的長度和寬度與第三特徵圖R₁的長度和寬度相同。繼而可以將處理後的第三特徵圖進行組合形成第四特徵圖。

S402：基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。

在獲得第四特徵圖之後，可以對第四特徵圖進行降維處理，例如可以通過卷積處理對第四特徵圖進行降維，並利用降維後的特徵圖識別輸入圖像的特徵點的位置。

圖7示出根據本公開實施例的關鍵點檢測方法中步驟S401的流程圖，其中，所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖(步驟S401)可以包括：

S4012：利用線性插值的方式，將各第三特徵圖調整為尺度相同的特徵圖；由於本公開實施例獲得的各第三特徵圖R₁...R_n的尺度不同，因此首先需要將各第三特徵圖調整為尺度相同的特徵圖，其中，本公開實施例可以對各第三特徵圖執行不同的線性插值處理使得各特徵圖的尺度相同，其中線性插值的倍數可以與各第三特徵圖之間的尺度倍數相關。

S4013：對線性插值處理後的各特徵圖進行連接得到所述第四特徵圖。

在得到尺度相同的各特徵圖後，可以將各特徵圖進行拼接組合得到第四特徵圖，例如本公開實施例的各插值處理後的特徵圖的長度和寬度均相同，可以將各特徵圖在高度方向上進行連接得到第四特徵圖，如，經過S4012處理後的各特徵圖可以表示為A、B、C和D，得到的第四特徵圖可以為

另外，步驟S401之前，本公開實施例為了對小尺度的特徵進行優化，可以將長度和寬度較小的第三特徵圖進一步的優化，可以對該部分特徵進行進一步的卷積處理。圖8示出根據本公開實施例的關鍵點檢測方法的另一流程圖，其中，在所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖之前，還可以包括S4011(請參考圖8)。

S4011：將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理，分別對應的得到更新後的第三特徵圖，各所述瓶頸區塊結構中包括不同數量的卷積模組；其中，所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖，所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。

如上所述，為了優化小尺度特徵圖內的特徵，可以對小尺度的特徵圖進一步卷積處理，其中，可以將第三特徵圖R₁…R_m分成兩組，其中第一組第三特徵圖的尺度小於第二組第三特徵圖的尺度。對應的，可以將第一組第三特徵圖內的各第三特徵圖分別輸入至不同的瓶頸區塊結構內，得到更新後的第三特徵圖，該瓶頸區塊結構內可以包括至少一個卷積模組，不同的瓶頸區塊結構中的卷積模組的數量可以不同，其中，經過瓶頸區塊結構卷積處理後得到的特徵圖的大小與輸入之前的第三特徵圖的大小相同。

其中，可以按照第三特徵圖的數量的預設比例值確定該第一組第三特徵圖。例如，預設比例可以為50%，即可以將各第三特徵圖中尺度較小的一半的第三特徵圖作為第一組第三特徵圖輸入至不同的瓶頸區塊結構中進行特徵優化處理。該預設比例可以也可以為其他的比例值，本公開對此不進行限定。或者，在另一些可能的實施例中，也可以按照尺度閾值確定該輸入至瓶頸區塊結構中的第一組第三特徵圖。小於該尺度閾值的特徵圖即確定需要輸入至瓶頸區塊結構中進行特徵優化處理。對於尺度閾值的確定可以根據各特徵圖的尺度進行確定，本公開實施例對此不進行具體限定。

另外，對於瓶頸區塊結構的選擇，本公開實施例不作具體限定，其中卷積模組的形式可以根據需求進行選擇。

S4012：利用線性插值的方式，將更新後的第三特徵圖以及第二組第三特徵圖，調整為尺度相同的特徵圖；在執行步驟S4011之後，可以將優化後的第一組第三特徵圖以及第二組第三特徵進行尺度歸一化，即將各特徵圖調整為尺寸相同的特徵圖。本公開實施例通過為各S4011優化後的第三特徵圖以及第二組第三特徵圖分別執行對應的線性插值處理，從而得到大小相同的特徵圖。

本公開實施例中，如圖3所示的(d)部分，為了對小尺度的特徵進行優化在R₂、R₃和R₄後接了不同個數的瓶頸區塊(bottleneck block)結構，在R₂後接一個bottleneck block後得倒新的特徵圖，記為

，在R₃後接兩個bottleneck block後得倒新的特徵圖，記為

，在R₄後接三個bottleneck block後得倒新的特徵圖，記為

。為了進行融合，我們需要將四個特徵圖R₁、

、

、

的的大小統一，所以對

進行雙線形插值的上採樣(upsample)操作放大2倍，得到特徵圖

，對

進行雙線形插值的上採樣(upsample)操作放大4倍，得到特徵圖

，對

進行雙線形插值的上採樣(upsample)操作放大8倍，得到特徵圖

。此時，R₁、

、

、

尺度相同。

S4013：對各尺度相同的特徵圖進行連接得到所述第四特徵圖。

步驟S4012之後，可以將尺度相同的特徵圖進行連接，例如將上述四個特徵圖連接(concat)得到新的特徵圖即為第四特徵圖，例如R₁、

、

、

四個特徵圖都是256維，得到的第四特徵圖即可以為1024維。

通過上述不同實施例中的配置可以得到相應的第四特徵圖，在獲得第四特徵圖之後，即可以根據第四特徵圖得到輸入圖像的關鍵點位置。其中，可以直接對第四特徵圖進行降維處理，利用降維處理後的特徵圖確定輸入圖像的關鍵點的位置。在另一些實施例中，還可以對降維後的特徵圖進行提純處理，進一步提高關鍵點的精度。

圖9示出根據本公開實施例的關鍵點檢測方法中步驟S402的流程圖，所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置，可以包括：

S4021：利用第五卷積核對所述第四特徵圖進行降維處理；本公開實施例中，執行降維處理的方式可以為卷積處理，即利用預設的卷積模組對第四特徵圖進行卷積處理，以實現第四特徵圖的降維，得到例如256維的特徵圖。

S4022：利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理，得到提純後的特徵圖；而後，可以進一步利用卷積塊注意力模組對降維處理後的第四特徵圖進行提純處理。其中卷積塊注意力模組可以為現有技術中的卷積塊注意力模組。例如本公開實施例的卷積塊注意力模組可以包括通道注意力單元以及重要度注意力單元。其中，可以首先將降維處理後的第四特徵圖輸入至通道注意力單元，其中首先可以對降維處理後的第四特徵圖進行基於高度和寬度的全域最大池化(global max pooling)以及全域平均池化(global average pooling)，而後分別將經全域最大池化得到的第一結果以及經全域平均池化得到的第二結果輸入至MLP(多層感知器)，並對經MLP處理後的兩個結果進行加和處理得到第三結果，對將第三結果經過啟動處理得到通道注意力特徵圖。

在得到通道注意力特徵圖之後，將該通道注意力特徵圖輸入至重要度注意力單元，首先可以對該通道注意力特徵圖輸入至基於通道的全域最大池化(global max pooling)以及全域平均池化(global average pooling)處理，分別得到第四結果和第五結果，再將第四結果和第五結果進行連接，而後對連接後的結果通過卷積處理進行降維，利用sigmoid函數對降維結果進行處理得到重要度注意力特徵圖，而後將重要度注意力特徵圖與通道注意力特徵圖相乘積，得到提純後的特徵圖。上述僅為本公開實施例對於卷積塊注意力模組的示例性說明，在其他實施例中，也可以採用其他的結構對降維後的第四特徵圖進行提純處理。

S4023：利用提純後的特徵圖確定輸入圖像的關鍵點的位置。

在獲得提純後特徵圖之後，可以利用該特徵圖獲取關鍵點的位置資訊，例如可以將該提純後的特徵圖輸入至3＊3的卷積模組，來預測輸入圖像中各關鍵點的位置資訊。其中，在輸入圖像為面部圖像時，預測的關鍵點可以為17個關鍵點的位置，比如可以包括對於左右眼睛、鼻子、左右耳朵、左右肩膀、左右手肘、左右手腕、左右胯部、左右膝蓋、左右腳踝的位置。在其他的實施例中，也可以獲取其他關鍵點的位置，本公開實施例對此不進行限定。

基於上述配置，即可以通過第一金字塔神經網路的正向處理以及第二金字塔神經網路的反向處理更充分的融合特徵，從而提高關鍵點的檢測精度。

在本公開實施例中，還可以執行對於第一金字塔神經網路以及第二金字塔神經網路的訓練，從而使得正向處理和反向處理滿足工作精度。其中，圖10示出根據本公開實施例的一種關鍵點檢測方法中的訓練第一金字塔神經網路的流程圖。其中，本公開實施例可以利用訓練圖像資料集訓練所述第一金字塔神經網路，其包括：

S501：利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理，得到所述訓練圖像資料集中各圖像對應的第二特徵圖；本公開實施例中，可以將訓練圖像資料集輸入至第一金字塔神經網路進行訓練。其中，訓練圖像資料集中可以包括多個圖像以及與圖像對應的關鍵點的真實位置。利用第一金字塔網路可以執行如上所述步驟S100和S200(多尺度第一特徵圖的提取以及正向處理)，得到各圖像的第二特徵圖。

S502：利用各第二特徵圖確定識別的關鍵點；在步驟S201之後，可以利用得到的第二特徵圖識別訓練圖像的關鍵點，獲得訓練圖像的各關鍵點的第一位置。

S503：根據第一損失函數得到所述關鍵點的第一損失；

S504：利用所述第一損失值反向調節所述第一金字塔神經網路中的各卷積核，直至訓練次數達到設定的第一次數閾值。

對應的，在得到各關鍵點的第一位置之後，可以得到該預測得到的第一位置對應的第一損失。在訓練的過程中，可以根據每次訓練得到的第一損失反向調節第一金字塔神經網路的參數，例如卷積核的參數，直到訓練次數達到第一次數閾值，該第一次數閾值可以根據需求進行設定，一般為大於120的數值，例如本公開實施例中第一次數閾值可以為140。

其中，第一位置對應的第一損失可以為將第一位置與真實位置之間的第一差值輸入至第一損失函數獲得的損失值，其中第一損失函數可以為對數損失函數。或者也可以是將第一位置和真實位置輸入至第一損失函數，獲得對應的第一損失。本公開實施例對此不進行限定。基於上述即可以實現第一金字塔神經網路的訓練過程，實現第一金字塔神經網路參數的優化。

另外，對應的，圖11示出根據本公開實施例的一種關鍵點檢測方法中的訓練第二金字塔神經網路的流程圖。其中，本公開實施例可以利用訓練圖像資料集訓練所述第二金字塔神經網路，其包括：

S601：利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理，得到所述訓練圖像資料集中各圖像對應的第三特徵圖；

S602：利用各第三特徵圖識別關鍵點；本公開實施例中，可以首先利用第一金字塔神經網路獲得訓練資料集中各圖像的第二特徵圖，而後通過第二金字塔神經網路對所述訓練圖像資料集中各圖像對應的第二特徵圖進行上述的反向處理，得到所述訓練圖像資料集中各圖像對應的第三特徵圖，而後利用第三特徵圖預測對應的圖像的關鍵點的第二位置。

S603：根據第二損失函數得到識別的關鍵點的第二損失；S604：利用所述第二損失反向調節所述第二金字塔神經網路中卷積核，直至訓練次數達到設定的第二次數閾值，或者利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核，直至訓練次數達到設定的第二次數閾值。

對應的，在得到各關鍵點的第二位置之後可以得到該預測得到的第二位置對應的第二損失。在訓練的過程中，可以根據每次訓練得到的第二損失反向調節第二金字塔神經網路的參數，例如卷積核的參數，直到訓練次數達到第二次數閾值，該第二次數閾值可以根據需求進行設定，一般為大於120的數值，例如本公開實施例中第二次數閾值可以為140。

其中，第二位置對應的第二損失可以為將第二位置與真實位置之間的第二差值輸入至第二損失函數獲得的損失值，其中第二損失函數可以為對數損失函數。或者也可以是將第二位置和真實位置輸入至第二損失函數，獲得對應的第二損失值。本公開實施例對此不進行限定。

在本公開的另一些實施例中，在訓練第二金字塔神經網路的同時，還可以同時進一步優化訓練第一金字塔神經網路，即本公開實施例中，步驟S604時，可以利用獲得的第二損失值同時反向調節第一金字塔神經網路中的卷積核的參數以及第二金字塔神經網路匯中的卷積核參數。從而實現整個網路模型的進一步優化。

基於上述即可以實現第二金字塔神經網路的訓練過程，實現第一金字塔神經網路的優化。

另外，在本公開實施例中，步驟S400可以通過特徵提取網路模型來實現，其中，本公開實施例還可以執行特徵提取網路模型的優化過程，其中，圖12示出根據本公開實施例的一種關鍵點檢測方法中的訓練特徵提取網路模型的流程圖，其中，利用訓練圖像資料集訓練所述特徵提取網路模型，可以包括： S701：利用特徵提取網路模型對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理，並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點；本公開實施例中，可以將與圖像訓練資料集對應的經第一金字塔神經網路正向處理以及經第二金字塔神經網路處理得到的第三特徵圖輸入至特徵提取網路模型，並通過特徵提取網路模型執行特徵融合，以及提純等處理得到訓練圖像資料集中的各圖像的關鍵點的第三位置。

S702：根據第三損失函數得到各關鍵點的第三損失；

S703：利用所述第三損失值反向調節所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值，或者利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數，以及所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值。

對應的在得到各關鍵點的第三位置之後可以得到該預測得到的第三位置對應的第三損失值。在訓練的過程中，可以根據每次訓練得到的第三損失反向調節特徵提取網路模型的參數，例如卷積核的參數，或者上述池化等過程的各參數，直到訓練次數達到第三次數閾值，該第三次數閾值可以根據需求進行設定，一般為大於120的數值，例如本公開實施例中第三次數閾值可以為140。

其中，第三位置對應的第三損失可以為將第三位置與真實位置之間的第三差值輸入至第一損失函數獲得的損失值，其中第三損失函數可以為對數損失函數。或者也可以是將第三位置和真實位置輸入至第三損失函數，獲得對應的第三損失值。本公開實施例對此不進行限定。

基於上述即可以實現特徵提取網路模型的訓練過程，實現特徵提取網路模型參數的優化。

在本公開的另一些實施例中，在訓練特徵提取網路的同時，還可以同時進一步優化訓練第一金字塔神經網路和第二金字塔神經網路，即本公開實施例中，步驟S703時，可以利用獲得的第三損失值同時反向調節第一金字塔神經網路中的卷積核的參數、第二金字塔神經網路匯中的卷積核參數，以及特徵提取網路模型的參數，從而實現整個網路模型的進一步優化。

綜上所述，本公開實施例提出了一種利用雙向金字塔網路模型來執行關鍵點特徵檢測，其中不僅利用正向處理的方式得到多尺度特徵，同時還利用反向處理融合更多的特徵，從而能夠進一步提高關鍵點的檢測精度。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

可以理解，本公開提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本公開不再贅述。

此外，本公開還提供了關鍵點檢測裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本公開提供的任一種關鍵點檢測方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖13示出根據本公開實施例的關鍵點檢測裝置的方塊圖，如圖13所示，所述關鍵點檢測裝置包括：多尺度特徵獲取模組10，其用於獲得針對輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度成倍數關係；正向處理模組20，其用於利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，其中，所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同；反向處理模組30，其用於利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，其中，所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同；關鍵點檢測模組40，其用於對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。

，其中第一中間特徵圖

...

...

，得到第二特徵圖F₁...F_n-1以及第一中間特徵圖

...

，其中所述第二特徵圖F_i由所述第二中間特徵圖

與所述第一中間特徵圖

進行疊加處理得到，第一中間特徵圖

與第一中間特徵圖

的尺度相同，其中，i為大於或者等於1且小於n的整數。

在一些可能的實施方式中，所述反向處理模組還用於利用第三卷積核對第二特徵圖F₁...F_m中的第二特徵圖 F₁進行卷積處理，獲得與第二特徵圖F₁對應的第三特徵圖R₁，其中m表示第二特徵圖的數量，以及m為大於1的整數；以及利用第四卷積核對第二特徵圖F₂...F_m進行卷積處理，分別得到對應的第三中間特徵圖

...

；並且利用各第三中間特徵圖

...

以及第四中間特徵圖

，得到第三特徵圖R ₂...R _m以及第四中間特徵圖

...

，其中，第三特徵圖R_j由第三中間特徵圖

與第四中間特徵圖

的疊加處理得到，第四中間特徵圖

在一些實施例中，本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本公開實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。

本公開實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為上述方法。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖14示出根據本公開實施例的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖14，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出(I/O)的介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，視頻等。記憶體804可以由任何類型的易失性或非易失性儲存裝置或者它們的組合實現，如靜態隨機存取記憶體(SRAM)，電可擦除可程式設計唯讀記憶體(EEPROM)，可擦除可程式設計唯讀記憶體(EPROM)，可程式設計唯讀記憶體(PROM)，唯讀記憶體(ROM)，磁記憶體，快閃記憶體，磁片或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風(MIC)，當電子設備800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/O介面812為處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，使用者與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通信組件816還包括近場通信(NFC)模組，以促進短程通信。例如，在NFC模組可基於射頻識別(RFID)技術，紅外資料協會(IrDA)技術，超寬頻(UWB)技術，藍牙(BT)技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖15示出根據本公開實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供為一伺服器。參照圖15，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電儲存裝置、磁儲存裝置、光儲存裝置、電磁儲存裝置、半導體儲存裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括：可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如，通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括物件導向的程式設計語言-諸如Smalltalk、C++等，以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到使用者電腦，或者，可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中，通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA)，該電子電路可以執行電腦可讀程式指令，從而實現本公開的各個方面。

這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的循序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本公開的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

圖1代表圖為流程圖，無元件符號說明。

Claims

一種關鍵點檢測方法，包括：獲得針對輸入圖像的多個尺度的第一特徵圖，各第一特徵圖的尺度成倍數關係；利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，其中，所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同；利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，其中，對各個所述第二特徵圖進行反向處理的順序與得到各個所述第二特徵圖的順序相反，所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同；對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。
根據請求項1所述的方法，所述獲得針對輸入圖像的多個尺度的第一特徵圖包括：將所述輸入圖像調整為預設規格的第一圖像；將所述第一圖像輸入至殘差神經網路，對第一圖像執行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。
根據請求項1所述的方法，所述正向處理包括第一卷積處理和第一線性插值處理，所述反向處理包括第二卷積處理和第二線性插值處理。
根據請求項1-3中任意一項所述的方法，所述利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖，包括：利用第一卷積核對第一特徵圖C₁...C_n中的第一特徵圖C_n進行卷積處理，獲得與第一特徵圖C_n對應的第二特徵圖F_n，其中n表示第一特徵圖的數量，以及n為大於1的整數；對所述第二特徵圖F_n執行線性插值處理獲得與第二特徵圖F_n對應的第一中間特徵圖
，其中第一中間特徵圖
的尺度與第一特徵圖C_n-1的尺度相同；利用第二卷積核對第一特徵圖C_n以外的各第一特徵圖C₁...C_n-1進行卷積處理，得到分別與第一特徵圖C₁...C_n-1一一對應的第二中間特徵圖
，其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同；基於所述第二特徵圖F_n以及各所述第二中間特徵圖
，得到第二特徵圖F₁...F_n-1以及第一中間特徵圖
，其中所述第二特徵圖F_i由所述第二中間特徵圖
與所述第一中間特徵圖
進行疊加處理得到，第一中間特徵圖
由對應的第二特徵圖F_i經線性插值得到，並且，所述第二中間特徵圖
與第一中間特徵圖
的尺度相同，其中，i為大於或者等於1且小於n的整數。
根據請求項1-3中任意一項所述的方法，利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖，包括：利用第三卷積核對第二特徵圖F₁...F_m中的第二特徵圖F₁進行卷積處理，獲得與第二特徵圖F₁對應的第三特徵圖R₁，其中m表示第二特徵圖的數量，以及m為大於1的整數；利用第四卷積核對第二特徵圖F₂...F_m進行卷積處理，分別得到對應的第三中間特徵圖
，其中，第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同；利用第五卷積核對第三特徵圖R₁進行卷積處理得到與第三特徵圖R₁對應的第四中間特徵圖
；利用各第三中間特徵圖
以及第四中間特徵圖
，得到第三特徵圖R ₂...R _m以及第四中間特徵圖
，其中，第三特徵圖R_j由第三中間特徵圖
與第四中間特徵圖
的疊加處理得到，第四中間特徵圖
由對應的第三特徵圖R _j-1通過第五卷積核卷積處理獲得，其中j為大於1且小於或者等於m。
根據請求項1-3中任意一項所述的方法，所述對各所述第三特徵圖進行特徵融合處理，並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置，包括：對各第三特徵圖進行特徵融合處理，得到第四特徵圖：基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。
根據請求項6所述的方法，所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖，包括：利用線性插值的方式，將各第三特徵圖調整為尺度相同的特徵圖；對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
根據請求項6所述的方法，在所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖之前，還包括：將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理，分別得到更新後的第三特徵圖，各所述瓶頸區塊結構中包括不同數量的卷積模組，其中，所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖，所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。
根據請求項8所述的方法，所述對各第三特徵圖進行特徵融合處理，得到第四特徵圖，包括：利用線性插值的方式，將各所述更新後的第三特徵圖以及所述第二組第三特徵圖，調整為尺度相同的特徵圖；對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
根據請求項6所述的方法，所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置，包括：利用第五卷積核對所述第四特徵圖進行降維處理；利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。
根據請求項6所述的方法，所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置，包括：利用第五卷積核對所述第四特徵圖進行降維處理；利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理，得到提純後的特徵圖；利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。
根據請求項1-3中任意一項所述的方法，所述方法還包括利用訓練圖像資料集訓練所述第一金字塔神經網路，其包括：利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理，得到所述訓練圖像資料集中各圖像對應的第二特徵圖；利用各第二特徵圖確定識別的關鍵點；根據第一損失函數得到所述關鍵點的第一損失；利用所述第一損失反向調節所述第一金字塔神經網路中的各卷積核，直至訓練次數達到設定的第一次數閾值。
根據請求項1-3中任意一項所述的方法，所述方法還包括利用訓練圖像資料集訓練所述第二金字塔神經網路，其包括：利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理，得到所述訓練圖像資料集中各圖像對應的第三特徵圖；利用各第三特徵圖確定識別的關鍵點；根據第二損失函數得到識別的各關鍵點的第二損失；利用所述第二損失反向調節所述第二金字塔神經網路中卷積核，直至訓練次數達到設定的第二次數閾值；或者，利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核，直至訓練次數達到設定的第二次數閾值。
根據請求項1-3中任意一項所述的方法，通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理，並且，在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前，所述方法還包括：利用訓練圖像資料集訓練所述特徵提取網路，其包括：利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理，並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點；根據第三損失函數得到各關鍵點的第三損失；利用所述第三損失值反向調節所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值；或者，利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數，以及所述特徵提取網路的參數，直至訓練次數達到設定的第三次數閾值。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：執行請求項1至14中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至14中任意一項所述的方法。