TWI667621B

TWI667621B - 人臉辨識方法

Info

Publication number: TWI667621B
Application number: TW107112188A
Authority: TW
Inventors: 陳柏森
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2019-08-01
Also published as: US20190311186A1; US10922531B2; TW201944291A

Abstract

本案為一種人臉辨識方法，首先接收輸入影像。接收輸入影像後以第一卷積神經網路模型對輸入影像進行人臉辨識而產生至少一第一感興趣區塊，各第一感興趣區塊分別包含可疑影像，可疑影像的像素值在各第一感興趣區塊的像素值中佔的比例值大於可疑影像的像素值在輸入影像的像素值中佔的比例值。接著再以第二卷積神經網路模型對各第一感興趣區塊進行人臉辨識而產生至少一第二感興趣區塊，第二卷積神經網路模型的卷積運算層的數量少於第一卷積神經網路模型的卷積運算層的數量。最後於輸入影像顯示對應第二感興趣區塊位置的標示。

Description

人臉辨識方法

本發明實施例與影像辨識有關，特別是關於一種人臉辨識方法。

按，一般的人臉辨識方法主要區分為整體特徵方法已及局部特徵方法。整體特徵方法是直接將整張臉當作單一特徵來進行辨識；而局部特徵方法則是逐步找出臉上的局部特徵，例如眼睛、鼻子及嘴巴，接著再分別根據這些局部特徵進行辨識，最後再將各別局部特徵結果統合以得到辨識結果。

經過統計，局部特徵辨識方法相較於整體特徵辨識方法有更高的準確率。然而，當同一張人臉在不同背景、不同光線、角度或表情變化的差異下，將會顯著影響辨識準確率。此外，前述人臉辨識方法也難以達到即時偵測的效果。

本案揭露一種人臉辨識方法，包含接收輸入影像。接收輸入影像後以第一卷積神經網路模型對輸入影像進行人臉辨識而產生至少一第一感興趣區塊，各第一感興趣區塊分別包含可疑影像，可疑影像的像素值在各第一感興趣區塊的像素值中佔的比例值大於可疑影像的像素值在輸入影像的像素值中佔的比例值。接著再以第二卷積神經網路模型對各第一感興趣區塊進行人臉辨識而產生至少一第二感興趣區塊，第二卷積神經網路模型的卷積運算層的數量少於第一卷積神經網路模型的卷積運算層的數量。最後於輸入影像顯示對應第二感興趣區塊位置的標示。

請配合參閱圖1，為本發明人臉辨識方法之一實施例的步驟流程圖。主要是利用多階層的卷積神經網路模型(Convolutional Neural Network, CNN)之架構，透過至少兩個事先經過不同訓練的卷積神經網路模型對包含有人臉影像的輸入影像進行兩階段的影像辨識。不同的卷積神經網路模型的運算階層數不同。每一卷積神經網路模型都能進行特徵擷取及分類，且將上一層的輸出作為下一層的輸入。

於本發明人臉辨識方法之一實施例中包含兩階段，第一階段的影像辨識後輸出第一感興趣區塊R1。第二階段再對第一感興趣區塊R1辨識以輸出包含有人臉影像的第二感興趣區塊R2。藉此縮短各卷積神經網路模型的處理時間，提高影像辨識效率。

參閱圖1，圖1繪示之人臉辨識方法之一實施例是用以辨識輸入影像中的人臉影像，首先係接收輸入影像I(步驟S11)。

於此，配合參閱圖2，輸入影像I可以是圖片、照片、影片中之畫面或是直接連接影像擷取裝置(例如相機)所拍攝的影像。

繼續參閱圖1接收輸入影像I(步驟S11)後以第一卷積神經網路模型進行第一階段的辨識以產生感興趣區塊。感興趣區塊(region of interest, ROI)是影像辨識中用來標定追蹤物體的搜尋範圍，並且能將低度相關的區域及雜訊移除掉，而保留所欲偵測的特定區域。

具體地，參閱圖1至圖3，於此實施例中是以第一卷積神經網路模型對輸入影像進行人臉辨識而產生至少一第一感興趣區塊R1(步驟S12)，此步驟中，各第一感興趣區塊R1分別包含可疑影像S，可疑影像S的像素值在各第一感興趣區塊R1的像素值中佔的比例值大於可疑影像S的像素值在輸入影像I的像素值中佔的比例值。

進一步地，參閱圖3，第一感興趣區塊R1中的可疑影像S為疑似為人臉的影像。因此，具體地，以第一卷積神經網路模型進行人臉辨識而產生的第一感興趣區塊R1可能是包含有人臉的影像也可能是沒有包含人臉的影像。藉此先快速地挑選出可能包含有人臉影像之可疑影像S。具體地，本實施例經過測試後，以第一卷積神經網路模型進行人臉辨識產生的第一感興趣區塊R1包含有人臉影像的精準度高達85.6%。

接著同樣參閱圖1，產生第一感興趣區塊R1後接著再以第二卷積神經網路模型對各第一感興趣區塊R1進行人臉辨識而產生至少一第二感興趣區塊R2(步驟S13)，其中，第二卷積神經網路模型的卷積運算層的數量少於第一卷積神經網路模型的卷積運算層的數量。

於此實施例中，第一卷積神經網路模型產生的所有第一感興趣區塊R1皆輸入第二卷積神經網路模型進行辨識。由於第二卷積神經網路模型是對包含有可疑影像S的第一感興趣區塊R1進行辨識，第一感興趣區塊R1中的可疑影像S係由輸入影像I中提取而得，因此，在第一感興趣區塊R1中的可疑影像S所佔比例將大於在輸入影像I中的可疑影像S。如此一來，第二卷積神經網路模型便能更為快速地辨識第一感興趣區塊R1的可疑影像S是否包含人臉，並能據此產生確實包含有人臉的第二感興趣區塊R2。具體地，本實施例經過測試後，以第二卷積神經網路模型辨識產生的第二感興趣區塊R2包含有人臉影像的精準度則可以再提升至89.2%。

最後，配合參閱圖1及圖4，於輸入影像I上顯示對應第二感興趣區塊R2位置的標示M。值得說明的是，前述第一卷積神經網路模型產生的第一感興趣區塊R1及第二卷積神經網路模型產生的第二感興趣區塊R2為運算過程中的參數值而非顯示於輸入影像I上的實體影像。也就是說，第一感興趣區塊R1與第二感興趣區塊R2為輸入影像I中局部區域的座標範圍值。

因此，在此步驟中，係在第二卷積神經網路模型進行人臉辨識後產生第二感興趣區塊R2後，將標示M重疊於第二感興趣區塊R2的位置並顯示。也就是說，在此步驟中，標示M便能將對應運算後產生的參數值之位置顯示出。於此，標示出第二感興趣區塊R2的標示M型態可以是方框、圓框或其他醒目標示型態。基於此，本發明得以快速地準確提取標示出人臉影像。

進一步地，第一卷積神經網路模型與第二卷積神經網路模型是分別以不同的訓練資料訓練所後建立的卷積神經網路模型。具體地，在一實施例中，第一卷積神經網路模型的建立方式係先以第一圖像資料訓練，之後再建立第一卷積神經網路模型。

在一實施例中，第二卷積神經網路模型的建立方式係先以第二圖像資料訓練，之後再建立第二卷積神經網路模型。第一圖像資料及第二圖像資料都是包含有人臉影像的圖像資料。於此，第一圖像資料中包含有第一人臉影像，而第二圖像資料中包含有第二人臉影像。

進一步地，在建立第一卷積神經網路模型與第二卷積神經網路模型前所進行訓練的第一圖像資料與第二圖像資料的數量越多可以得到較佳的訓練效果。此外，第一圖像資料與第二圖像資料中的第一人臉影像以及第二人臉影像的條件越多樣化也可以得到更佳的訓練效果。第一人臉影像及第二人臉影像的不同條件例如是同一人的臉或不同人的臉在不同光影、角度、背景、光明亮程度、表情變化或是遮蔽程度下所拍攝。

進一步地，第一圖像資料具有第一像素值，而第一人臉影像具有第一待測像素值，第一待測像素值在第一像素值中所佔的比例值為第一待測影像比例值。第二圖像資料具有第二像素值，第二人臉影像具有第二待測像素值，第二待測像素值在第二像素值中所佔的比例值為第二待測影像比例值。於此，第一待測影像比例值與第二待測影像比例值不同。

於一實施例中，第一待測影像比例值小於第二待測影像比例值。具體而言，第一人臉影像於第一圖像資料中的像素值比例相當於如圖2所示第一感興趣區塊R1在輸入影像I中的像素值比例；而第二人臉影像於第二圖像資料中的像素值比例相當於如圖3所示第二感興趣區塊R2在第一感興趣區塊R1中的像素值比例。

更具體地，第一待測影像比例值大於等於0.1%，而第二待測影像比例值大於等於50%。也就是說，具體來看，建立第一卷積神經網路模型前進行訓練的第一圖像資料中的人臉在第一圖像資料中的比例可以極小，當然也不排除人臉比例在第一圖像資料中的比例為較大的人臉。也就是說，第一圖像資料可以是取景範圍大、景深程度深而可以盡可能地包含可能為人臉的圖像。藉此使得第一卷積神經網路模型可以辨識出輸入影像中較小的人臉。

進一步值得說明的是，由於第一待測影像比例值與第一卷積神經網路模型辨識影像後產生的第一感興趣區塊有關，利用第一待測影像比例值大於等於0.1%的實施態樣，可輕量化運算負擔，提升第一卷積神經網路模型的運算速度並影像辨識的準確率。

而建立第二卷積神經網路模型前進行訓練的第二圖像資料則是人臉在第二圖像資料中的佔比達50%以上的圖像。藉此使得第二卷積神經網路模型可以辨識出輸入第二卷積神經網路模型的影像中佔比一半以上的人臉，並且同時排除不包含人臉影像的影像。

進一步地，第一卷積神經網路模型係包含複數第一卷積運算層，第二卷積神經網路模型包含複數第二卷積運算層。具體地，於一實施例中，第一卷積運算層及第二卷積運算層可以是進一步地分別包含特徵提取層(feature extraction layer)以及特徵映射層(feature mapping layer)，特徵提取層的神經元的輸入與前一層的局部接受域相連，提取相關局部的特徵。特徵映射層由多個特徵映射而成，每個映射為一平面，相同特徵映射面上的神經元權值相同，第一卷積神經網路模型及第二卷積神經網路模型分別透過多個第一卷積運算層及第二卷積運算層進行特徵提取和映射來進行人臉辨識。

在此實施例中，第二卷積神經網路模型的卷積運算層的數量少於第一卷積神經網路模型的卷積運算層的數量。具體而言，於此實施例中，第一卷積神經網路模型的第一卷積運算層之運算參數量相較於傳統的卷積神經網路模型約能減少10%的運算參數量。而第二卷積神經網路模型的第二卷積運算層的運算參數量約為第一卷積運算層的運算參數量的20%。藉此，第一卷積神經網路模型及第二卷積神經網路模型的運算參數量被顯著降低而能提高運算效率。

具體地，本實施例之第一卷積神經網路模型具體針對1080P(1980 x1080 pixel size)的影像進行偵測運算。可以達到100FPS(Frame per Second，FPS)的執行速度，並且可以偵測到包含有20 x20 pixel size以上的第一感興趣區塊R1。

而第二卷積神經網路模型具體針對第一感興趣區R1塊進行偵測運算則可以達到相較於第一卷積神經網路模型更快的執行速度，本實施例具體實施可以達到500FPS的執行速度，且能辨識第一感興趣區塊中佔比達50%以上的影像並輸出第二感興趣區塊R2。

於此，第一卷積神經網路模型的輸出為第二卷積神經網路模型的輸入。此外，在第一卷積神經網路模型中的各第一卷積運算層之輸出亦可為後續另一第一卷積運算層的輸入。同理，在第二卷積神經網路模型中的各第二卷積運算層之輸出亦可為後續另一第二卷積運算層的輸入。藉此，縱使第一卷積神經網路模型的運算參數量減少，然而，第一卷積神經網路模型產生的所有第一感興趣區塊R1又再輸入第二卷積神經網路模型進行卷積運算，因此可以確實地提取出人臉影像，並節省卷積運算的時間。

進一步地，在一實施例中，在第一卷積神經網路模型中可以更包含第一池化運算層以進行池化(Pooling)運算。且第一池化運算層的池化運算可以是最大池化或平均池化。透過第一池化運算層的配置以降低參數量進而提高經過第一池化運算層池化運算後的運算速度。於此，第一池化運算層的數量沒有限制，第一池化運算層可以是穿插於兩個第一卷積運算層之間或是設置於另一第一池化運算層之後。在此同樣地，無論第一池化運算層是設置於兩個第一卷積運算層之間或是設置於另一第一池化運算層之後，各層的輸出可以作為另一層或後續層的輸入。藉此重覆池化運算的過程大幅減少運算參數量。

進一步地，在一實施例中，在第二卷積神經網路模型中可以更包含第二池化運算層以進行池化(Pooling)運算。且第二池化運算層的池化運算可以是最大池化或平均池化。透過第二池化運算層的配置以降低參數量進而提高經過第二池化運算層池化運算後的運算速度。於此，第二池化運算層的數量沒有限制，第二池化運算層可以是穿插於兩個第二卷積運算層之間或是設置於另一第二池化運算層之後。在此同樣地，無論第二池化運算層是設置於兩個第二卷積運算層之間或是設置於另一第二池化運算層之後，各層的輸出可以作為另一層或後續層的輸入。藉此重覆池化運算的過程大幅減少運算參數量。

本揭露之方法可以以程式碼的形態存在。程式碼可以包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他機器可讀取之儲存媒體(如電腦)，亦不限於外在形式之電腦程式產品。且例如當程式碼被機器，如電腦載入並且執行時，前述電腦即為參與本揭露之裝置。在其他實施中，程式碼也可以透過一些傳送媒體，如電線、電纜、光纖或是任何傳輸型態進行傳送。其中，當程式碼被機器(如電腦)接收、載入且執行時，此機器即為參與本揭露之裝置。當在一般用途影像處理器實作時，程式碼結合影像處理器提供一操作類似於應用特定邏輯電路之獨特裝置。

雖然本揭露已以一些實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露之精神及範圍內，當可作些許更動及潤飾。因此本發明之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。

I‧‧‧輸入影像

R1‧‧‧第一感興趣區塊

S‧‧‧可疑影像

R2‧‧‧第二感興趣區塊

M‧‧‧標示

步驟S11‧‧‧接收輸入影像

步驟S12‧‧‧以第一卷積神經網路模型對輸入影像進行人臉辨識而產生至少一第一感興趣區塊

步驟S13‧‧‧以第二卷積神經網路模型對各第一感興趣區塊進行人臉辨識而產生至少一第二感興趣區塊

步驟S14‧‧‧於輸入影像顯示對應第二感興趣區塊位置的標示

圖1為本發明人臉辨識方法之一實施例的步驟流程圖。圖2為本發明人臉辨識方法中輸入影像之一實施例的示意圖。圖3為本發明人臉辨識方法中第一感興趣區塊之一實施例的示意圖。圖4為本發明人臉辨識方法中於輸入影像顯示標示之一實施例的示意圖。

Claims

一種人臉辨識方法，由一電子裝置執行，該方法包含下列步驟：接收一輸入影像；以一第一卷積神經網路模型對該輸入影像進行人臉辨識而產生至少一第一感興趣區塊，各該第一感興趣區塊分別包含一可疑影像，該可疑影像的像素值在各該第一感興趣區塊的像素值中佔的比例值大於該可疑影像的像素值在該輸入影像的像素值中佔的比例值；以一第二卷積神經網路模型對各該第一感興趣區塊進行人臉辨識而產生至少一第二感興趣區塊，該第二卷積神經網路模型的卷積運算層的數量少於該第一卷積神經網路模型的卷積運算層的數量；以及於該輸入影像顯示對應該第二感興趣區塊位置的一標示。
如請求項1所述之人臉辨識方法，其中該可疑影像的像素值至少佔在該輸入影像的像素值中的0.1%。
如請求項1所述之人臉辨識方法，其中該可疑影像的像素值至少佔在該第一感興趣區塊的像素值的50%。
如請求項1所述之人臉辨識方法，其中該第一卷積神經網路模型係透過複數第一圖像資料訓練後建立，而該第二卷積神經網路模型係透過複數第二圖像資料訓練後建立，該複數第一圖像資料與該複數第二圖像資料不同。
如請求項4所述之人臉辨識方法，其中該複數第一圖像資料分別包含一第一人臉影像，該複數第二圖像資料分別包含一第二人臉影像，該複數第一圖像資料具有一第一像素值，該複數第二圖像資料具有一第二像素值，而該第一人臉影像具有一第一待測像素值，該第二人臉影像具有一第二待測像素值，該第一待測像素值在該第一像素值中所佔的一第一待測影像比例值與該第二待測像素值在該第二像素值中所佔的一第二待測影像比例值不同。
如請求項5所述之人臉辨識方法，其中該第一待測影像比例值小於該第二待測影像比例值。
如請求項6所述之人臉辨識方法，其中該第一待測像素值在該第一像素值中所佔的比例值大於等於0.1%，而該第二待測像素值在該第二像素值中所佔的比例值大於等於50%。
如請求項7所述之人臉辨識方法，其中該複數第一圖像資料及該複數第二圖像資料為在不同光影、角度、背景、光明亮程度、表情變化或是遮蔽程度下所拍攝之同一人臉或不同人臉影像。
如請求項1所述之人臉辨識方法，其中該輸入影像為一圖片或一影片的一畫面。
如請求項1所述之人臉辨識方法，其中該第一卷積神經網路模型包含複數第一卷積運算層，該第二卷積神經網路模型包含複數第二卷積運算層，各該第一卷積運算層之輸出為後續另一該第一卷積運算層的輸入，各該第二卷積運算層之輸出為後續另一該第二卷積運算層的輸入。
如請求項10所述之人臉辨識方法，其中該第二卷積神經網路模型的該第二卷積運算層的運算參數量為該第一卷積運算層的運算參數量的20%。
如請求項10所述之人臉辨識方法，其中該第一卷積運算層及該第二卷積運算層分別包含一特徵提取層，該特徵提取層的神經元的輸入與前一層的局部接受域相連以提取相關局部的特徵。
如請求項10所述之人臉辨識方法，其中該第一卷積運算層及該第二卷積運算層分別包含一特徵映射層，該特徵映射層由複數特徵映射而成，每個映射為一平面，各該平面上的神經元權值相同。
如請求項1所述之人臉辨識方法，其中該第一卷積神經網路模型更包含一第一池化運算層以進行池化運算，該第二卷積神經網路模型更包含一第二池化運算層以進行池化運算。