TWI779815B

TWI779815B - 基於知識蒸餾實現的具備臉部校正效果的臉部辨識網路模型

Info

Publication number: TWI779815B
Application number: TW110132723A
Authority: TW
Inventors: 陳建豪; 陳世澤
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2022-10-01
Also published as: TW202312014A; US20230070321A1; US11847821B2

Abstract

一種用於訓練一臉部辨識之深度學習網路的方法，該方法包含：使用一臉部座標偵測器對至少一擷取圖像進行臉部對齊處理，從而輸出至少一對齊圖像；將該至少一對齊圖像輸入一教師模型，以獲得一第一輸出向量；將該至少一擷取圖像輸入對應於該教師模型的一學生模型，以獲得一第二輸出向量；以及依據該第一輸出向量與該第二輸出向量，調整該學生模型的參數設定。

Description

基於知識蒸餾實現的具備臉部校正效果的臉部辨識網路模型

本發明係關於機器學習，尤指一種基於知識蒸餾技巧，從而實現具備臉部對齊效果的臉部辨識網路模型的訓練方法與相關裝置。

現今的臉部辨識演算法主要針對臉部圖像進行身分識別。為了讓臉部辨識的深度學習網路，盡量得到相同環境下的臉部圖像，一般會在臉部辨識網路模型之前，加上臉部座標偵測器(landmark detector)，此偵測器可基於臉部重要特徵(如：眼耳口鼻等)的座標，進行臉部對齊(face alignment)處理。如第1圖所示的架構，來源圖像會先經過臉部偵測器10，臉部偵測器10會從來源圖像中找出臉部圖形，並將其從來源圖像中擷取出來。接著，擷取出的臉部圖形會被輸入至臉部座標偵測器20，臉部座標偵測器20會對臉部圖形進行臉部對齊。其中，臉部座標偵測器20依據臉部重要特徵的座標，對臉部圖形進行平移、縮放、或者是二維/三維旋轉等幾何處理。經過臉部對齊處理後的圖像，才會被輸入臉部辨識網路模型30，進行臉部辨識。臉部對齊的目的在於避免圖形歪斜或比例錯誤等問題，對臉部辨識網路模型30造成負面影響，進而提升辨識正確率。然而，若要實現臉部座標偵測器20，則需要從系統中配置運算資源來進行：臉部五官座標的深度學習模型的運算、基於五官座標計算臉部圖形需要進行多少角度的旋轉、以及利用計算出的角度對圖像進行旋轉等操作。對於運算資源相對有限的嵌入式平台來說，額外加上模組來實現臉部對齊會讓系統的整體運算效率顯著降低。

有鑑於此，本發明的目的在於提供一種臉部辨識之深度學習網路模型的訓練方法。透過本發明的訓練方法，可以省略臉部辨識演算法中，對於臉部對齊處理的需求。其中，本發明採用知識蒸餾(Knowledge Distillation)，利用已經對齊處理後的臉部圖像，預先訓練一教師模型(teacher model)。接著，再利用已經訓練完成的教師模型以及未經對齊處理的臉部圖像，訓練一學生模型(student model)。由於採用未經臉部對齊處理的臉部圖像進行訓練，所以提升了學生模型對於角度歪斜或者是比例錯誤的臉部圖像的適應能力。後續在運用學生模型進行臉部辨識時，便可在省略習知架構中的臉部座標偵測器(landmark detector)前提下，實現同等良好的識別能力。

本發明之一實施例提供一種用於訓練一臉部辨識之深度學習網路的方法，該方法包含：使用一臉部座標偵測器(landmark detector)對至少一擷取圖像進行臉部對齊處理，從而輸出至少一對齊圖像；將該至少一對齊圖像輸入一教師模型，以獲得一第一輸出向量；將該至少一擷取圖像輸入對應於該教師模型的一學生模型，以獲得一第二輸出向量；以及依據該第一輸出向量與該第二輸出向量，調整該學生模型的參數設定。

本發明之一實施例提供一種用於訓練一臉部辨識之深度學習網路的裝置，該裝置包含：一儲存單元以及一處理單元。該儲存單元用以儲存一程式碼。該處理單元用以執行該程式碼，以至於該處理單元得以執行以下操作：對至少一擷取圖像進行臉部對齊處理，從而輸出至少一對齊圖像；將該至少一對齊圖像輸入一教師模型，以獲得一第一輸出向量；將該至少一擷取圖像輸入對應於該教師模型的一學生模型，以獲得一第二輸出向量；以及依據該第一輸出向量與該第二輸出向量，調整該學生模型的參數設定。

10、120:臉部偵測器

20、130:臉部座標偵測器

30:臉部辨識網路模型

110:教師模型

210:學生模型

140、145、240:輸出向量

150、250、260:損失函數

IMG_S:來源圖像

IMG_C:擷取圖像

IMG_A:對齊圖像

S310~S330:步驟

400:裝置

410:儲存單元

420:硬體處理單元

第1圖繪示習知臉部辨識之深度學習網路的簡略架構。

第2圖繪示在本發明實施例中如何運用經過臉部對齊處理後的圖像訓練教師模型。

第3圖繪示在本發明實施例中如何運用訓練完成的教師模型以及未經臉部對齊處理的圖像訓練學生模型。

第4圖繪示本發明實施例之訓練臉部辨識之深度學習網路的方法。

第5圖繪示本發明實施例之訓練臉部辨識之深度學習網路的裝置。

在以下內文中，描述了許多具體細節以提供閱讀者對本發明實施例的透徹理解。然而，本領域的技術人士將能理解，如何在缺少一個或多個具體細節的情況下，或者利用其他方法或元件或材料等來實現本發明。在其他情況下，眾所皆知的結構、材料或操作不會被示出或詳細描述，從而避免模糊本發明的核心概念。

說明書中提到的「一實施例」意味著該實施例所描述的特定特徵、結構或特性可能被包含於本發明的至少一個實施例中。因此，本說明書中各處出現的「在一實施例中」不一定意味著同一個實施例。此外，前述的特定特徵、結構或特性可以以任何合適的形式在一個或多個實施例中結合。

請參考第2圖與第3圖，該些圖示繪示本發明實施例如何利用知識蒸餾技巧，訓練用於進行臉部辨識的深度學習網路。其中，由本發明訓練後的臉部辨識的深度學習網路可以用於進行身分識別，其可根據一輸入臉部圖像產生一維的輸出向量，並且將該輸出向量與資料庫中所有已註冊的向量進行比對。當該輸出向量與某個已註冊向量之間的L2距離小於預設的臨界值時，便可認定該輸入臉部圖像相符於該已註冊向量所關聯的身分。

如第2圖所示，本發明實施例會先對教師模型(teacher model)110進行訓練。在訓練的過程中，一個或多個來源圖像IMG_S會被輸入至臉部偵測器120，臉部偵測器120會從來源圖像IMG_S中找到包含有人臉特徵的部分，將其擷取後，輸出擷取圖像IMG_C至臉部座標偵測器130。臉部座標偵測器130會識別擷取圖像IMG_C中，關於臉部的重要特徵(如：眼耳口鼻等)的座標，並且視需求進行臉部對齊。例如，當擷取圖像IMG_C中的臉部圖形存在角度歪斜或者比例不正確等問題時，臉部座標偵測器130會對擷取圖像IMG_C進行平移、縮放、或者是二維/三維旋轉等幾何處理。據此，臉部座標偵測器130將經過臉部對齊處理後的對齊圖像IMG_A輸入至教師模型110。當對齊圖像IMG_A輸入至教師模型110之後，教師模型110會產生一輸出向量140。輸出向量140會與相對應於來源圖像IMG_S的標籤(label)資訊(即，來源圖像IMG_S實質上所對應的身分類別)進行比較，從而產生一損失函數150(即，識別損失(identification loss))。而教師模型110的參數設定會根據當前的損失函數150而被調整，從而實現對教師模型110的訓練。在使用大量不同的來源圖像IMG_S訓練教師模型110，使得損失函數150低於一預定值後，便可完成教師模型110的訓練。接著，基於知識蒸餾(Knowledge Distillation)的技巧，從訓練完成的教師模型110提取出一個簡化的學生模型(student model)210。相較於教師模型110，學生模型210的結構較為精簡且運算複雜度低，對於系統整體運算資源的佔用比例也低。由於學生模型210係從教師模師110所蒸餾而出，其具有實質上近似教師模型110的識別能力。

請參考第3圖，該圖繪示本發明如何訓練學生模型。其中，臉部偵測器120擷取從一個或多個來源圖像IMG_S提取臉部圖形，從而產生擷取圖像IMG_C。擷取圖像IMG_C會在未經臉部對齊處理的情況下，直接被輸入至學生模型210。學生模型210會根據擷取圖像IMG_C產生一輸出向量240。與此同時，擷取圖像IMG_C也會經過臉部座標偵測器130的對齊處理後，產生對齊圖像IMG_A。而對齊圖像IMG_A則被輸入至教師模型110，從而產生相應的輸出向量145。基於輸出向量145與輸出向量240的差異(如：L2距離)，可獲得相應的損失函數250。根據損失函數250，可以調整學生模型210的參數設定。另一方面，輸出向量240還會與相關聯於來源圖像IMG_S的標籤資訊進行比較。基於兩者的差異(如：識別損失)，將產生另一個損失函數260。根據損失函數260，亦可以調整學生模型210的參數。透過損失函數250與260，可以實現對學生模型210的訓練。當使用大量不同的來源圖像IMG_S訓練學生模型210，使得損失函數250與260低於個別的預定值後，便可完成學生模型210的訓練。請注意，在訓練學生模型210的過程中，教師模型110僅作為推論(Inference only)，其參數設定在此期間不會被調整。

第4圖繪示了本發明實施例之訓練臉部辨識之深度學習網路的方法。如圖所示，本發明的訓練方法包含以下的簡化流程： S310：使用一臉部座標偵測器對至少一擷取圖像進行臉部對齊處理，從而輸出至少一對齊圖像；S320：將該至少一對齊圖像輸入一教師模型，以獲得一第一輸出向量；將該至少一擷取圖像輸入對應於該教師模型的一學生模型，以獲得一第二輸出向量；以及S330：依據該第一輸出向量與該第二輸出向量，調整該學生模型的參數設定。

由於上述步驟的原理以及具體細節已於先前實施例中詳細說明，故在此不進行重複描述。應當注意的是，上述的流程可能可以透過添加其他額外步驟或者是進行適當的變化與調整，更好地實現對臉部辨識網路模型的訓練，更進一步提升其識別能力。再者，前述本發明實施例中所有的操作，都可以透過第5圖所示的裝置400來實現。其中，裝置400中的儲存單元410可用於儲存程式碼、指令、變數或資料。而裝置400中的硬體處理單元420則可執行儲存單元410所儲存的程式碼與指令，並參考其中的變數或資料來執行前述實施例中所有的操作。

總結來說，本發明提供了一種臉部辨識之深度學習網路模型的訓練方法。透過本發明的訓練方法，可以省略臉部辨識演算法中，對於臉部對齊處理的需求。其中，本發明利用已經過臉部對齊處理的臉部圖像，預先訓練教師模型。接著，再利用已經訓練完成的教師模型以及未經臉部對齊處理的臉部圖像，訓練一學生模型。由於採用未經臉部對齊處理的臉部圖像進行訓練，因此提升了學生模型對於角度歪斜或者是比例錯誤的臉部圖像的適應能力。後續在學生模型進行臉部辨識時，便可在省略習知架構中的臉部座標偵測器的前提下，達成同樣良好的識別能力。如此一來，本發明有效地降低了臉部辨識網路模型對於系統運算資源的佔用比例。

本發明之實施例可使用硬體、軟體、韌體以及其相關結合來完成。藉由適當之一指令執行系統，可使用儲存於一記憶體中之軟體或韌體來實作本發明的實施例。就硬體而言，則是可應用下列任一技術或其相關結合來完成：具有可根據資料信號執行邏輯功能之邏輯閘的一個別運算邏輯、具有合適的組合邏輯閘之一特定應用積體電路(application specific integrated circuit,ASIC)、可程式閘陣列(programmable gate array,PGA)或一現場可程式閘陣列(field programmable gate array,FPGA)等。

說明書內的流程圖中的流程和方塊示出了基於本發明的各種實施例的系統、方法和電腦軟體產品所能實現的架構，功能和操作。在這方面，流程圖或功能方塊圖中的每個方塊可以代表程式碼的模組，區段或者是部分，其包括用於實現指定的邏輯功能的一個或多個可執行指令。另外，功能方塊圖以及/或流程圖中的每個方塊，以及方塊的組合，基本上可以由執行指定功能或動作的專用硬體系統來實現，或專用硬體和電腦程式指令的組合來實現。這些電腦程式指令還可以存儲在電腦可讀媒體中，該媒體可以使電腦或其他可編程數據處理裝置以特定方式工作，使得存儲在電腦可讀媒體中的指令，實現流程圖以及/或功能方塊圖中的方塊所指定的功能/動作。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

110:教師模型

120:臉部偵測器

130:臉部座標偵測器

145、240:輸出向量

250、260:損失函數

210:學生模型

IMG_S:來源圖像

IMG_C:擷取圖像

IMG_A:對齊圖像

Claims

一種用於訓練一硬體裝置上所運行之用於進行臉部辨識之一深度學習網路的方法，包含：使用該硬體裝置上所運行之一臉部座標偵測器(landmark detector)對至少一擷取圖像進行臉部對齊處理，從而輸出至少一對齊圖像；將該至少一對齊圖像輸入該硬體裝置上所運行之一教師模型，以獲得一第一輸出向量，其中，該臉部座標偵測器不屬於該教師模型；將該至少一擷取圖像輸入對應於該教師模型，且該硬體裝置上所運行之的該學生模型，以獲得一第二輸出向量，其中，該學生模型不包含有一臉部座標偵測模組，且在訓練完成後用於進行臉部辨識；以及依據該第一輸出向量與該第二輸出向量，調整該學生模型的參數設定。
如請求項1所述的方法，其中對該至少一擷取圖像進行臉部對齊處理的步驟包含：對該至少一擷取圖像進行二維/三維旋轉、縮放或平移處理，以獲得該至少一對齊圖像。
如請求項1所述的方法，另包含：使用一臉部偵測器從一來源圖像中擷取出該至少一擷取圖像。
如請求項1所述的方法，另包含：使用該臉部座標偵測器對複數個擷取圖像進行臉部對齊處理，從而輸出複數個對齊圖像；將該複數個對齊圖像輸入該教師模型，以獲得複數個第三輸出向量；分別計算該複數個第三輸出向量與關聯於該複數個擷取圖像的標籤(label)資訊之間的一第一損失函數；以及依據該第一損失函數，調整該教師模型的參數設定。
如請求項4所述的方法，其中將該至少一對齊圖像輸入該教師模型，以獲得該第一輸出向量的步驟包含：將該至少一對齊圖像輸入依據該第一損失函數調整後的該教師模型，以獲得該第一輸出向量。
如請求項1所述的方法，其中調整該學生模型的參數設定的步驟包含：計算該第一輸出向量與該第二輸出向量之間的一第二損失函數；以及依據該第二損失函數，調整該學生模型的參數設定。
如請求項1所述的方法，另包含：計算該第二輸出向量與關聯於該至少一擷取圖像的標籤資訊的一第三損失函數；以及依據該第三損失函數，調整該學生模型的參數設定。
一種用於訓練用於進行臉部辨識之一深度學習網路的裝置，包含：一儲存單元，用以儲存一程式碼；一處理單元，用以執行該程式碼，以至於該處理單元得以執行以下操作：運行一臉部偵測器以對至少一擷取圖像進行臉部對齊處理，從而輸出至少一對齊圖像；將該至少一對齊圖像輸入一教師模型，以獲得一第一輸出向量，其中，該臉部座標偵測器不屬於該教師模型；將該至少一擷取圖像輸入對應於該教師模型的一學生模型，以獲得一第二輸出向量，其中，該學生模型不包含有一臉部座標偵測模組，且在訓練完成後用於進行臉部辨識；以及依據該第一輸出向量與該第二輸出向量，調整該學生模型的參數設定。
如請求項8所述的裝置，其中該處理單元執行該程式碼，從而執行以下操作：對該至少一擷取圖像進行二維/三維旋轉、縮放或平移處理，以獲得該至少一對齊圖像。
如請求項8所述的裝置，其中該處理單元執行該程式碼，從而執行以下操作：對複數個擷取圖像進行臉部對齊處理，從而輸出複數個對齊圖像；將該複數個對齊圖像輸入該教師模型，以獲得複數個第三輸出向量；分別計算該複數個第三輸出向量與關聯於該複數個擷取圖像的標籤(label)資訊之間的一第一損失函數；以及依據該第一損失函數，調整該教師模型的參數設定。