TWI484423B

TWI484423B - 臉部識別裝置及方法

Info

Publication number: TWI484423B
Application number: TW099128430A
Authority: TW
Inventors: Wei Zhang; Tong Zhang
Original assignee: Hewlett Packard Development Co
Priority date: 2009-09-25
Filing date: 2010-08-25
Publication date: 2015-05-11
Also published as: TW201112134A; WO2011037579A1; US20120170852A1

Description

臉部識別裝置及方法

發明領域

本發明係有關於臉部識別裝置及方法。

發明背景

臉部識別技術通常用來定位、識別或驗證出現在一圖像集中之圖像中之一個或多個人物。在一典型的臉部識別方法中，在該等圖像中檢測到臉部；標準化該等檢測到之臉部；自該等標準化的臉部擷取特徵；及根據該等擷取特徵與自一個或多個查詢圖像或參考圖像中之臉部擷取出之特徵的比較結果，識別或驗證出現在該等圖像中之人物的身分。對於準確顯示之臉部之正面圖像，很多自動臉部識別技術可達到中等程度的識別準確率。然而，當應用到其它臉部視角(或姿勢)及顯示不足或照明不足之臉部圖像時，此等技術通常無法達到可接受之識別準確率。

需要的是能夠檢測及識別在尺度、姿勢、照明度、表情及遮擋度上具有很大變化之臉部圖像之系統及方法。

發明概要

在一個層面中，本發明的特徵在於一方法，根據該方法，感興趣區遭檢測到在包含利用各個臉部器官標籤標記之各個臉部區域之各個圖像中。針對該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣的臉部區域描述器值之一各自臉部區域描述器向量。該等臉部器官標籤之數個標籤遭指定給針對數個空間相對應臉部區域而決定之該等臉部區域描述器向量之數個個別向量。對於該等臉部器官標籤之每一個，建立將遭指定以該臉部器官標籤之該等臉部區域描述器向量與該等臉部區域描述器向量之其它向量劃分開之一個別臉部器官檢測器。該等臉部器官檢測與規則有關，該等規則基於該等圖像中檢測到之感興趣區之間的空間關係及遭指定給該等臉部器官檢測器之該等個別臉部器官標籤來限定該等臉部器官檢測器之劃分結果。

在另一層面中，本發明的特徵在於一方法，根據該方法，感興趣區遭檢測到在一圖像中。對於該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣區的臉部區域描述器值之一各自臉部區域描述器向量。基於將各個臉部器官檢測器應用到該等臉部區域描述器向量，利用各個臉部器官標籤標記一第一組該等檢測到之感興趣區。該等臉部器官檢測器之每一個將該等臉部區域描述器向量劃分為對應於多個臉部器官標籤中之各別的一個之一類別之成員及非成員。確定一第二組該等檢測到之感興趣區。在此程序中，基於對該等已標記之感興趣區之間的空間關係施加條件之規則，自該第一組削減該等已標記之感興趣區中之一個或多個。

本發明的特徵還在於可操作以實施上述該等方法之裝置及使一電腦實施上述該等方法之儲存電腦可讀指令之電腦可讀媒體。

圖式簡單說明

第1圖是一圖像處理系統之一實施例之一方塊圖。

第2圖是建立一臉部器官檢測器之一方法之一實施例之一流程圖。

第3A圖是依據本發明之一實施例的利用各個臉部器官標籤標記之一圖像之示範性的一組臉部區域之一圖式。

第3B圖是依據本發明之一實施例的利用各個臉部器官標籤標記之一圖像之示範性的一組臉部區域之一圖式。

第4圖是檢測一圖像中之臉部器官區域之一實施例之一流程圖。

第5A圖是在一圖像中檢測到之示範性的一組感興趣區之一圖式。

第5B圖是在第5A圖中顯示之該圖像中檢測到之該等感興趣區之一子集之一圖式。

第6圖是構建一圖像中之一臉部區域之一空間錐體表示形式之一方法之一實施例之一流程圖。

第7圖是根據本發明之一實施例的分成一組不同空間塊之一圖像之一臉部區域之一圖式。

第8圖是匹配一對圖像之一程序之一實施例之一圖式。

第9圖是一圖像處理系統之一實施例之一圖式。

第10圖是一電腦系統之一實施例之一方塊圖。

較佳實施例之詳細說明

在以下描述中，同樣的參考數字用來表示同樣的元件。而且，該等圖式用來以一圖解方式說明示範性實施例之主要特徵。該等圖式並未打算繪示實際實施例之每一特徵及該等所繪示元件之相對尺寸，且該等圖式并不按照比例繪製。

I.用語之定義

「電腦」是根據暫時或永久地儲存在一電腦可讀媒體上之電腦可讀指令來處理資料之任一機器、裝置或設備。「電腦作業系統」是管理並協調任務執行及計算資源與硬體資源之共享之一電腦系統之一軟體組件。「軟體應用程式」(也稱為軟體、應用程式、電腦軟體、電腦應用程式、程式及電腦程式)是一電腦可解譯且執行以執行一個或多個特定任務之一組指令。「資料檔案」是持久地儲存由一軟體應用程式使用的資料之一資訊區塊。

如本文所用，用語“包括”指的是包括但不局限於。用語「基於」指的是至少部分基於。用語「數個...(ones)」指的是一特定群組之多個成員。

II.圖像處理系統之第一示範性實施例

本文中描述之該等實施例提供了能夠檢測及識別在尺度、姿勢、照明度、表情及遮擋度上具有很大變化之臉部圖像之系統及方法。

A.建立一臉部識別系統

第1圖顯示了一圖像處理系統10之一實施例，其包括感興趣區檢測器12、臉部區域描述器14及一分類建立器(或誘導器)16。操作時，圖像處理系統10處理一組訓練圖像18以產生能夠檢測圖像中之臉部器官之一組臉部器官檢測器20。

第2圖顯示了圖像處理系統10建立臉部器官檢測器20之一方法之一實施例。

根據第2圖之該方法，圖像處理系統10將感興趣區檢測器12應用到訓練圖像18以檢測訓練圖像18中之感興趣區(第2圖，方塊22)。訓練圖像18典型地各具有標定出現在訓練圖像18中之各個臉部器官f_i 之一個或多個手動標記之臉部區域。大體而言，各種不同感興趣區檢測器之任一個可用來檢測訓練圖像18中之感興趣區。在一些實施例中，感興趣區檢測器12是仿射不變感興趣區檢測器(例如，哈裡斯角檢測器、黑塞運動塊檢測器(hessian blob detector)、基於主曲率之區域檢測器及顯著區域檢測器)。

對於該等遭檢測之感興趣區之每一個，圖像處理系統10將臉部區域描述器14應用到該遭檢測之感興趣區以決定特徵化該遭檢測之感興趣區之臉部區域描述器值之一各自臉部區域描述器向量=(d₁ ,...,d_n )(第2圖，方塊24)。大體而言，各種不同局部描述器之任一個可用來擷取該等臉部區域描述器值，包括基於分佈之描述器、基於空間-頻率之描述器、差分描述器及廣義不變矩。在一些實施例中，局部描述器14包括一尺寸不變特徵轉換(SIFT)描述器及一個或多個紋理描述器(例如，一局部二元圖樣(LBP)描述器及一Gabor特徵描述器)。

圖像處理系統10將訓練圖像18中之該等臉部器官標籤之數個標籤分別指定給針對該等臉部區域之數個空間對應區域而決定之該等臉部區域描述器向量之數個個別向量(第2圖，方塊26)。在此程序中，感興趣區遭指定以有關於與該等感興趣區重疊之該臉部區域之該等標籤且每一區域描述器向量繼承指定給該有關感興趣區之該標籤。當一感興趣區之一中心靠近兩個手動標記臉部區域之邊界或者該感興趣區明顯地與兩個臉部區域重疊時，該感興趣區遭指定以兩個臉部器官標籤且與該感興趣區有關之該臉部區域描述器向量繼承兩個臉部器官標籤。

對於該等臉部器官標籤之每一個f_i ，該分類建立器16建立(訓練或誘導)該等臉部器官檢測器20之一各別檢測器，其將指定以臉部器官標籤f_i 之該等臉部區域描述器向量與該等臉部區域描述器向量之其他向量劃分開(第2圖，方塊28)。在此程序中，遭指定以該臉部器官標籤f_i 之該等臉部區域描述器向量用作正訓練樣本，而該等其它的臉部區域描述器向量用作負訓練樣本。用於臉部器官標籤f_i 之臉部器官檢測器20遭訓練以區分與。

圖像處理系統10將臉部器官檢測器20與限定規則30關聯，該限定規則30基於在圖像中檢測到之感興趣區之間的空間關係與指定給臉部器官檢測器20之該等個別臉部器官標籤，限定臉部器官檢測器20之劃分結果(第2圖，方塊32)。如下所說明，限定規則30典型地是手動編碼規則，其描述了根據各組感興趣區中之該等感興趣區之間的空間關係，利用臉部器官標籤之數個個別標籤來標記各組感興趣區的有利條件及不利條件。臉部器官檢測器20之該等劃分結果基於限定規則30遭評分，具有較低分數之該等劃分結果較可能遭摒除。

在一些實施例中，圖像處理系統10另外地將針對所有該等訓練圖像18決定之該等臉部區域描述器向量分成各個群集。各該群集由該等臉部區域描述器向量之一各別子集構成且利用一各自唯一群集標籤來標記。大體而言，利用各種向量量化方法之任一個，該等臉部區域描述器向量可遭劃分(或量化)為群集。在一些實施例中，該等臉部區域描述器向量按照以下劃分。自一組訓練圖像18擷取出大量臉部區域描述器向量之後，k均值群集法或階層式集群法可用來將此等向量分成M個群集(類型或階層)，其中M具有一特定整數值。每一群集之中心(例如，質心)稱為一「可見字」且該群集中心之一列表形成一「可見碼薄」，其用來在空間上為圖像對作匹配，如下所述。每一群集與構成該可見字之一各自唯一群集標記相關。在該空間匹配過程中，透過利用最相似(接近)可見字來標記針對要匹配之一對圖像(或圖像區域)而決定之每一臉部區域描述器向量，該每一臉部區域描述器向量遭「量化」，且只有利用相同可見字作標記之該等臉部區域描述器向量被視為匹配。

第3A圖與第3B圖顯示了訓練圖像33、35之範例。該等訓練圖像33、35各具有一個或多個手動標記矩形臉部器官區域34、36、38、40、42、44，它們標定出現在該等訓練圖像33、35中之各個臉部器官(例如，眼睛、嘴巴、鼻子等)。該等臉部器官區域34-44各與一各別臉部器官標記(例如，「眼睛」及「嘴巴」)有關。該等遭檢測之橢圓形感興趣區46-74遭指定以與相對之下與之具有明顯空間重疊之該等臉部器官區域34-44有關之該等臉部器官標記。例如，在第3A圖中顯示之該示範性實施例中，該等感興趣區46、48及50遭指定以與臉部器官區域34有關之臉部器官標記(例如，「左眼」)；該等感興趣區52、54及56遭指定以與臉部器官區域36有關之該臉部器官標記(例如，「右眼」)；及該等感興趣區51、53及55遭指定以與臉部器官區域38有關之該臉部器官標記(例如，「嘴巴」)。在第3B圖中顯示之該示範性實施例中，該等感興趣區58及60遭指定以與臉部器官區域40有關之臉部器官標記(例如，「左眼」)；該等感興趣區62、64及66遭指定以與臉部器官區域42有關之該臉部器官標記(例如，「右眼」)；及該等感興趣區68、70、72及74遭指定以與臉部器官區域44有關之該臉部器官標記(例如，「嘴巴」)。

在一些實施例中，圖像處理系統10包括臉部檢測器，其提供出現在該等訓練圖像18中之該等臉部之位置、大小及姿勢之一初步估計。大體而言，該臉部檢測器可利用決定該等訓練圖像18中之每一臉部之存在及位置之任一種臉部檢測程序。示範性臉部檢測方法包括但不局限於：基於特徵之臉部檢測方法、模板匹配臉部檢測方法、基於神經網路之臉部檢測方法及基於圖像之臉部檢測方法，該等方法根據一批已標記之臉部樣本訓練機器系統。一示範性的基於特徵之臉部檢測方法描述於(2001年7月13日)在加拿大溫哥華舉行之Statistical and Computation theories of Vision-Modeling,Learing,Computing,and Sampling之第二次國際研討會上Voila及Jones所著之“Robust Real-Time Object Detection”中。一示範性的基於神經網路之臉部檢測方法描述於IEEE Transactions on Pattern Analysis and Machine Intelligence第1期第20卷(1998年1月)中之Rowley等人所著之“Neural Network-Based Face Detection”中。

該臉部檢測器輸出一個或多個臉部區域參數值，包括該等臉部區域之位置、該等臉部區域之大小(即，尺寸)及該等臉部區域之大致姿勢(方位)。在第3A圖與第3B圖中顯示之該等示範性實施例中，該等臉部區域藉由界定出現在該等圖像33、35中之該等臉部區域之該等位置、大小及姿勢之各個橢圓形邊界80、82標定。該等臉部區域之該等姿勢由該等橢圓形之長軸及短軸之方位指定，該等橢圓形通常透過局部細化最初檢測到之圓形或矩形臉部區域而獲得。

圖像處理系統10基於該等臉部區域參數值標準化該等遭檢測之感興趣區之該等位置及大小(或尺度)，使得該限定規則30可應用到臉部器官檢測器20之該等劃分結果。例如，限定規則30典型地描述根據該等群組中之該等感興趣區之間的空間關係，利用臉部器官標記之數個個別標籤給各組感興趣區加標籤之條件。在一些實施例中，該等空間關係用模型展示臉部器官之間的相對角度及距離或者臉部器官與該臉部中心之間的距離。限定規則30典型地描述諸如眼睛、鼻子、嘴巴及面頰之主要臉部器官之間的最可能空間關係。一個示範性限定規則促進(promote，本段之第10行)劃分結果，在該等劃分結果中，在一標準臉部上，右眼最可能遭發現自左眼沿著0°角(水平)之一線移動該臉部區域寬度之一半之距離。另一示範性限定規則降低其中一已標記之眼睛區域與一已標記之嘴巴區域重疊之劃分結果之可能性。

B.識別圖像中之臉部

在識別圖像中之臉部中，圖像處理系統10利用臉部器官檢測器20及該等限定規則。

第4圖顯示了圖像處理系統10藉以檢測一圖像中之臉部器官的一實施例。

根據第4圖之該實施例，圖像處理系統10檢測該圖像中之感興趣區(第4圖，方塊90)。在此過程中，圖像處理系統10將感興趣區檢測器12應用到該圖像以檢測該圖像中之感興趣區。第5A圖顯示了在一圖像91中檢測到之一示範性群組之橢圓形感興趣區89。

對於各該檢測到之感興趣區，圖像處理系統10決定表現該檢測到之感興趣區之特徵之臉部器官描述器值之一各自臉部區域描述器向量(第4圖，方塊92)。在此過程中，圖像處理系統10將臉部區域描述器14應用到各該檢測到之感興趣區，以決定表現該檢測到之感興趣區之特徵之臉部區域描述器值之一各自的臉部區域描述器向量=(d₁ ,...,d_n )。

基於臉部器官檢測器20之數個個別檢測器應用到該等臉部區域描述器向量，圖像處理系統10利用各自的臉部器官標籤標記一第一組遭檢測到之感興趣區(第4圖，方塊94)。各該臉部器官檢測器20將該等臉部區域描述器向量分成對應於與臉部器官描述器20有關之該等臉部器官標籤之個別標籤之一種類之成員及非成員。該分類判決不嚴格要求一預測信賴度值。具有實值信賴度值之一示範性分類器是支援向量機，其在Data Mining and Knowledge Discovery第2(2)卷之第121-167頁(1998)中Christopher，J.C.B所著之“A tutorial on support vector machines for pattern recognition”中遭描述。

圖像處理系統10確定一第二組檢測到之感興趣區(第4圖，方塊96)。在此過程中，圖像處理系統10根據該限定規則30自該第一組削減一個或多個該等已標記感興趣區，這在該等已標記之感興趣區之間的空間關係上附加了條件。

在一些實施例中，圖像處理系統10將魯棒匹配演算法應用到該第一組已分類之臉部區域描述器向量以根據對應於該等已標記之臉部區域描述器向量之該等感興趣區之分類進一步削減及細化臉部區域描述器向量。該匹配演算法是包含以限定規則30編碼之該特定臉部領域知識之一霍夫轉換過程之一擴展。在此過程中，在該相應檢測到之感興趣區處之一組該等臉部區域描述器向量之每一實例票選出該臉部區域之一可能位置、範圍及姿勢。票選之可信度藉由兩種方法決定：(a)與由該等臉部器官檢測器產生之該等分類結果有關之信賴度值及(b)該等已分類之臉部區域描述器向量之該空間組態與限定規則30之一致性。例如，標記為一嘴巴之一臉部區域描述器向量不可能與標記為眼睛之一對臉部區域描述器向量在同一直線上，因此，無論該等檢測器如何有把握，對此組已標記之臉部區域描述器向量之票選將具有接近零之可信度。

圖像處理系統10基於具有主要選票之該組已標記之臉部區域描述器向量之該等空間位置來獲得該臉部區域之該位置、尺寸及姿勢之一最終估計。在此過程中，基於將該等空間位置尤其是該等已標記之臉部區域描述器向量之空間位置(例如，分別分類為左眼、右眼、嘴巴、嘴唇、面頰及/或鼻子之臉部區域描述器向量之該等中心之該等位置)作為輸入之一臉部區域模型，圖像處理系統10決定該臉部區域之該位置、尺寸及姿勢。在此過程中，圖像處理系統10調準(或記錄)該臉部區域，使得該人物之臉部可遭識別。對於每一檢測到之臉部區域，圖像處理系統10調準關於由包括該檢測到之臉部區域中之一些或所有部分的一臉部區域邊界標定之一各自臉部區域之該等擷取出之特徵。在一些實施例中，該臉部區域邊界對應於包括一檢測到之臉部之該等眼睛、鼻子、嘴巴但不包括整個前額或下巴或頭頂之一橢圓形。其它實施例可使用不同形狀之臉部區域邊界(例如，矩形)。

基於該臉部區域之該位置、尺寸及姿勢之最終估計，圖像處理系統10進一步精簡該等臉部區域描述器向量之分類。在此過程中，圖像處理系統10丟棄與符合該臉部區域之該最終估計之一標準化臉部區域中之臉部器官之該等位置之一模型不一致之該等已標記之臉部區域描述器向量中之任一個。例如，圖像處理系統10丟棄標記為位於該標準化臉部區域之下半部中之眼睛之感興趣區。如果在該精簡過程之後，沒有臉部器官標記遭指定給一臉部區域描述器向量，則臉部區域描述器向量以“丟失”表示。以此方式，該檢測過程可處理遭遮擋之臉部之識別。該精簡過程之輸出包括有關於與該圖像中之相應臉部器官對準(例如，標記一致)之感興趣區的“已清理”臉部區域描述器向量及界定該臉部區域之該最終估計之位置、尺寸及姿勢之參數。第5B圖顯示了已清理之該組在圖像91中檢測到之橢圓形感興趣區89及標定該臉部區域之該最終估計之位置、尺寸及姿勢之一臉部區域邊界98。該臉部區域之該位置、尺寸及姿勢之該最終估計遭期望比藉由該等臉部檢測器檢測之該最初區域準確得多。

第6圖顯示了一方法之一實施例，藉由該方法，圖像處理系統10自該等已清理之臉部區域描述器向量及該臉部區域之該最終估計構建表示在一圖像中遭檢測到之一臉部區域的一空間錐體。

根據第6圖之該方法，圖像處理系統10將該等臉部區域描述器向量劃分(或量化)為該等預先定義之臉部區域描述器向量群集類別之數個個別群集類別(第6圖，方塊100)。如上所述，此等群集之每一個與一各自唯一群集標記有關。此劃分過程係基於該等臉部區域描述器向量與該等臉部區域描述器群集類別之間的各自距離。大體而言，各種向量差測量可用來決定該等臉部區域描述器向量與該等群集類別之間的距離。在一些實施例中，該等距離對應於該等臉部區域描述器向量與該等群集中之該等臉部區域描述器向量之該等中心之間的一向量範數(例如，L2範數)。該等臉部區域描述器向量之每一個遭劃分為該等群集類別之最近(即，最短距離)一個。

圖像處理系統10將與該臉部區域描述器向量遭劃分為之該臉部區域描述器向量群集類別有關之該群集標記指定給各該臉部區域描述器向量(第6圖，方塊102)。

以多個層級之解析度，圖像處理系統10將臉部區域再分為不同的空間塊(第6圖，方塊104)。在一些實施例中，圖像處理系統10將該臉部區域再分為對數極座標空間塊。第7圖顯示了圖像91之一示範性實施例，其中由臉部區域邊界98標定之該臉部區域遭分成四個不同解析度層級下之一組對數極座標塊，每一解析度層級對應於不同的一組該等橢圓形邊界98、106、108及110。在其它實施例中，圖像處理系統10將該臉部區域分成矩形空間塊。

對於各該解析度層級，圖像處理系統10計算每一空間塊中之該等群集標籤之實例之各自總數以產生表示該指定圖像中之該臉部區域之一空間錐體(第6圖，方塊112)。換而言之，對於每一群集標籤，圖像處理系統10計算落在每一空間塊中之該等臉部區域描述器向量之總數以產生一各自的空間錐體直方圖。

基於該空間錐體與產生於包含一人物之臉部之一個或多個已知圖像之一個或多個預定空間錐體之比較結果，圖像處理系統10可操作以識別一指定圖像中之該人物之臉部。在此過程中，該圖像處理系統構建一錐體匹配核心，其對應於表示該指定圖像中之該臉部之該空間錐體表示與針對另一圖像而決定之該空間錐體之間的直方圖交叉區域之一加權和。一直方圖匹配發生於當該相同群集類別(即，具有相同群集標記)之臉部描述器向量位於同一空間塊中時。應用到該等直方圖交叉區域之該權重典型地隨著解析度層級提高(即，空間塊尺寸減小)而增大。在一些實施例中，圖像處理系統10利用在2006年IEEE Conference on Computer Vision and Pattern Recognition中S. Lazebnik、C.Schmid、J.Ponce所著之“Beyond bags of features: spatial pyramid matching for recognizing natural scene categories”中描述之該類型之一錐體匹配核心來比較該等空間錐體。

第8圖顯示了一程序之一實施例，藉由該程序，圖像處理系統10比較出現在一對圖像35、91中之兩個臉部區域98、114。圖像處理系統10將臉部區域98、114再分為不同的空間塊，如以上關於第6圖之方塊104所述。接著，圖像處理系統10決定臉部區域98、35之空間錐體表示形式116、118，如以上關於第6圖之方塊112所述。圖像處理系統10自空間錐體表示形式116、118之間的交叉區域的該加權和計算一錐體匹配核心120。錐體匹配核心120之計算值對應於臉部區域98、114之間的相似性測度122。在一些實施例中，圖像處理系統10透過將一臨限值應用到該相似度測度122而判定一對臉部區域是否匹配(即，為同一人物之臉部)且當該相似度測度122超出該臨限值時宣告匹配(第8圖，方塊124)。

III.一圖像處理系統之第二示範性實施例

第9圖顯示了圖像處理系統10之一實施例130，其包括感興趣區檢測器12、臉部區域檢測器14及分類建立器16。圖像處理系統130另外包括輔助區域檢測器132及一可取捨第二分類建立器136。

在操作中，圖像處理系統130處理訓練圖像18以產生能夠檢測圖像中之臉部器官之臉部器官檢測器20，如以上關於圖像處理系統10所述。圖像處理系統130還將輔助區域描述器應用到該等檢測到之感興趣區以決定一組輔助區域描述器向量132且自該等輔助區域描述器向量建立該組輔助區域檢測器136。應用輔助區域描述器132及建立輔助器官檢測器136之程序實質上相同於圖像處理系統10應用臉部區域描述器14及建立臉部器官檢測器20之程序；主要差異為輔助區域描述器132之性質，其等經裁剪以表現通常在背景區域(contextual region)中會發現的圖案，諸如眼眉、耳朵、前額、面頰及脖子，它們往往不隨時間及不同位置改變。

在此等實施例中，圖像處理系統130將感興趣區檢測器12應用到訓練圖像18中以檢測訓練圖像18中之感興趣區(參見第2圖，方塊22)。各訓練圖像18典型地具有標定出現在訓練圖像18中之各個臉部器官f_i 之一個或多個手動標記之臉部區域及標定出現在訓練圖像18中之各個輔助器官之一個或多個手動標記之輔助區域。大體而言，各種不同感興趣區檢測器之任一個可用來檢測訓練圖像18中之感興趣。在一些實施例中，感興趣區檢測器12為仿射不變感興趣區檢測器(例如，哈裡斯角檢測器、黑塞運動塊檢測器、基於主曲率之區域檢測器及顯著區域檢測器)。

對於該等檢測到之感興趣區之每一個，圖像處理系統130將臉部區域描述器14應用到該等檢測到之感興趣區以決定特徵化該等檢測到之感興趣區之臉部區域描述器值之一各自臉部區域描述器向量=(d₁ ,...,d_n )(參見第2圖，方塊24)。圖像處理系統130還將輔助(或背景)區域描述器14應用到該等檢測到之感興趣區之每一個以決定特徵化該等檢測到之感興趣區之輔助區域描述器值之一各自輔助區域描述器向量=(c₁ ,...,c₂ )。大體而言，各種不同局部描述器之任一個可用來擷取該等臉部區域描述器值及該等輔助區域描述器值，包括基於分佈之描述器、基於空間-頻率之描述器、差分描述器及廣義不變矩。在一些實施例中，輔助描述器132及臉部描述器14包括一尺寸不變特徵轉換(SIFT)描述器及一個或多個紋理描述器(例如，一局部二元圖樣(LBP)描述器及一Gabor特徵描述器)。該等輔助描述器還包括基於形狀之描述器。基於形狀之描述器之一示範性類型是一形狀背景(shape context)描述器，其利用一輔助區域形狀上之該等點相對於該形狀上之一指定點之該等坐標之一粗直方圖描述該形狀上之該等坐標之相對位置之一分佈。該形狀背景描述器之其它細節在IEEE Transaction on Pattern Analysis and Machine Intelligence 第24(4)卷第509-522頁(2002年)中Belongie. S.、Malik. J.及Puzicha. J.所著之“Shape matching and object recognition using shape contexts”中被給予描述。

圖像處理系統130將訓練圖像18中之該等臉部器官標籤之數個標籤指定給針對該等臉部區域之數個空間相應區域而決定之該等臉部區域描述器向量中之數個個別向量(參見第2圖，方塊26)。圖像處理系統130還將訓練圖像18中之該等輔助器官標籤之數個標籤指定給針對該等輔助區域之數個空間相應區域而決定之該等輔助區域描述器向量中之數個個別向量。在此程序中，感興趣區遭指定以有關於該等感興趣區與之重疊之該輔助區域之該等標籤且每一輔助區域描述器向量繼承指定給該有關感興趣區之標籤。當一感興趣區之中心接近於兩個手動標記之輔助區域之邊界或者該感興趣區明顯地與兩個輔助區域重疊時，該感興趣區遭指定以兩個輔助器官標籤且與該感興趣區有關之該輔助區域描述器向量繼承兩個輔助器官標籤。

對於該等臉部器官標籤f_i 之每一個，分類建立器16建立(訓練或誘導)該等臉部器官檢測器20中的一個別檢測器，其將指定以臉部器官標籤f_i 之該等臉部區域描述器向量與該等臉部區域描述器向量中之其他向量劃分開(第2圖，方塊28)。對於該等輔助器官標籤a_i 之每一個，分類建立器134建立(例如，訓練或誘導)該等輔助器官檢測器136中的一個別檢測器，其將指定以輔助器官標籤a_i 之該等臉部區域描述器向量與該等臉部區域描述器向量中之其他向量劃分開。在此程序中，遭指定以該輔助器官標籤a_i 之該等臉部區域描述器向量用作正訓練樣本，且該等其它的輔助區域描述器向量用作負訓練樣本。用於輔助器官標籤a_i 之輔助器官檢測器136遭訓練以區分與。

圖像處理系統130將臉部器官檢測器20與限定規則30關聯，限定規則30基於在圖像中檢測到之感興趣區之間的空間關係與遭指定給臉部器官檢測器20之該等個別臉部器官標籤來限定臉部器官檢測器20之劃分結果(參見第2圖，方塊32)。圖像處理系統130也將輔助器官檢測器136與輔助器官限定規則138關聯，輔助器官限定規則138基於在圖像中檢測到之感興趣區之間的空間關係與指定給輔助器官檢測器136之該等個別輔助器官標籤來限定輔助器官檢測器136之劃分結果。輔助器官限定規則138典型地是手動編碼規則，該等手動編碼規則描述根據各個感興趣區組中之該等感興趣區之間的空間關係，利用該等該輔助器官標籤中之數個個別標籤來標記各組感興趣區之有利及不利條件。輔助器官描述器136之該等劃分結果基於輔助器官限定規則138而遭評分，且具有較低分數之劃分結果更可能以類似於以上關於臉部器官限定規則30描述之該程序之一方式遭摒棄。

在一些實施例中，圖像處理系統130另外地將針對所有訓練圖像18而決定之該等輔助區域描述器向量劃分為各個群集。各該群集由該等輔助區域描述器向量之一各別子集構成且利用一各自的唯一群集標籤來標記。大體而言，利用各種向量量化方法之任一個，該等輔助區域描述器向量可遭劃分(或量化)為群集。在一些實施例中，該等輔助區域描述器向量如下劃分：自一組訓練圖像18擷取大量輔助區域描述器向量之後，k均值群集法或階層式集群法可用來將此等向量分成K個群集(類型或階層)，其中K具有一特定整數值。每一群集之中心(例如，質心)稱為一「可見字」且該群集中心之一列表形成一「可見碼薄」，其用來在空間上為圖像對作匹配，如下所述。每一群集與構成該可見字之一各自的唯一群集標記相關。在該空間匹配過程中，透過利用最相似(接近)可見字來標記針對要匹配之一對圖像(或圖像區域)而決定之每一輔助區域描述器向量，該每一輔助區域描述器向量遭「量化」，且在以上所述之該空間錐體匹配過程中，只有利用相同可見字標記之該等輔助區域描述器向量被視為匹配。

圖像處理系統130將輔助器官檢測器136與輔助器官限定規則138無縫地整合到以上關於圖像處理系統10所述之該臉部識別過程。該整合臉部識別過程利用輔助器官檢測器136分類針對每一圖像而決定之輔助區域描述器向量、利用輔助器官限定規則138精簡該組輔助區域描述器向量、對該組已清理之輔助區域描述器向量執行量化以建立輔助區域之一可見碼薄，及以與以上描述之圖像處理系統10利用臉部器官檢測器20及限定規則30識別臉部之相應方式直接相似之各個方式對該等輔助區域描述器向量之該可見碼薄表示執行空間錐體匹配。

IV.示範性操作環境

訓練圖像18之每一個(參見第1圖)可對應於任一類型之圖像，包括由一圖像感測器(例如，一數位視訊攝影機、一數位靜態圖像照相機或一光學掃描儀)擷取之一原始圖像(例如，一視訊關鍵影格、一靜態圖像或一掃描圖像)或者這樣一原始圖像之一處理(例如，子取樣、過濾、重新格式化、增強或者以其它方式調整的)型式。

圖像處理系統10(包括圖像處理系統130)之實施例可藉由一個或多個離散模組(或資料處理元件)實施，該一個或多個離散模組(或資料處理元件)不局限於任一特定硬體、韌體或軟體組態。在該等說明之實施例中，此等模組可實施於任何計算或資料處理環境中，包括在數位電子電路(例如，一特定應用積體電路，諸如一數位信號處理器(DSP))中或者電腦硬體、韌體、裝置驅動器或軟體中。在一些實施例中，該等模組之該等功能遭組合成一單一資料處理元件。在一些實施例中，該等模組之一個或多個之每一個之各自功能藉由多個資料處理元件之一各自組執行。

圖像處理系統10、130之該等模組可位於一單一裝置上或者它們可分佈在多個裝置上；如果分佈在多個裝置上，則此等模組及顯示器151可經由有線或無線連接彼此通訊或者它們可經由全球網路連接通訊(例如，經由網際網路通訊)。

在一些實施態樣中，由圖像處理系統10、130之該等實施例執行之用於實施該等方法之程序指令(例如，諸如電腦軟體之機器可讀程式碼)及圖像處理系統10、130之該等實施例產生之資料儲存在一個或多個機器可讀媒體中。例如，適於切實實施此等指令及資料之儲存裝置包括半導體記憶體裝置(諸如EPROM、EEPROM及快取記憶體裝置)及磁碟(諸如內部硬碟或可移動硬碟、磁光碟、DVD-ROM/RAM及CD-ROM/RAM)。

大體而言，圖像處理系統10、130之實施例可利用各種電子裝置之任一個來實施，包括桌上型電腦、工作站電腦及伺服器電腦。

第10圖顯示了可實施本文中所述之圖像處理系統10(包括圖像處理系統130)之該等實施例之任一個之一電腦系統140之一實施例。電腦系統140包括一處理單元142(CPU)、一系統記憶體144及將處理單元142耦接到電腦系統140之各個元件之一系統匯流排146。處理單元142典型地包括一個或多個處理器，該等處理器之每一個可以是各種市售處理器之任一個之形式。系統記憶體144典型地包括儲存包含用於電腦系統140之啟動常式之一基本輸入/輸出系統(BIOS)之一唯讀記憶體(ROM)及一隨機存取記憶體(RAM)。系統匯流排146可以是一記憶體匯流排、一周邊匯流排或一區域匯流排且可以與包括一PCI、VESA、微通道、ISA及EISA之各種匯流排協定之任一個相容。電腦系統140還包括一持久儲存記憶體148(例如，一硬驅動機、一軟碟機、一CD ROM驅動機、磁帶驅動機、快取記憶體驅動機及數位視訊光碟)，其連接至系統匯流排146且包含為資料、資料結構及電腦可執行指令提供非依電性或持久儲存之一個或多個電腦可讀媒體光碟。

一使用者可利用一個或多個輸入裝置150(例如，一鍵盤、一電腦滑鼠、一耳機、操縱桿及觸摸板)與電腦140互動(例如，輸入命令或資料)。資訊可經由顯示給一使用者之一使用者介面而展現在由一顯示器控制器154控制之顯示器151(例如，由一顯示監視器實施)上。電腦系統140還典型地包括周邊輸入裝置，例如揚聲器或一列印機。一個或多個遠程電腦可經由一網路介面卡(NIC)156連接至電腦系統140。

如第10圖中所示，系統記憶體144還儲存圖像處理系統10、一圖形驅動機158及包括輸入資料、處理資料及輸出資料之處理資訊160。在一些實施例中，圖像處理系統10與圖形驅動機158連接(例如，經由一微軟視窗作業系統之一DirectX組件)以在顯示器15上展示一使用者介面以管理及控制圖像處理系統10之操作。

V.結論

本文描述之該等實施例提供了能夠檢測及識別在尺寸、姿勢、照明度、表情及遮擋度上具有很大變化之臉部圖像之系統及方法。

其它實施例在申請專利範圍之範圍內。

10、130．．．圖像處理系統

12．．．感興趣區檢測器

14．．．臉部區域描述器、局部描述器、輔助(或上下文)區域描述器、臉部描述器

16．．．分類建立器(或誘導器)

18、33．．．訓練圖像

20．．．臉部器官檢測器

22、24、26、28、32、90、92、94、96、112、124、100、102、104．．．方塊

30．．．限定規則

34、36、38、40、42、44．．．手動標記矩形臉部器官區域

35．．．訓練圖像、臉部器官區域

46、48、50、51、52、53、54、55、56、58、60、66、68、70、72、74、89．．．橢圓形感興趣區

62、64．．．感興趣區

80、82、106、108、110．．．橢圓形邊界

91．．．圖像

98．．．臉部區域邊界、橢圓形邊界、臉部區域

114．．．臉部區域

116、118．．．空間錐體表示形式

120．．．錐體匹配核心

122．．．相似性測度

132．．．輔助區域檢測器、輔助區域描述器向量、輔助區域描述器、輔助描述器

134．．．分類建立器

136．．．可選擇第二分類建立器、輔助器官檢測器、輔助區域檢測器

138．．．輔助器官限定規則

140．．．電腦系統

142．．．處理單元

144．．．系統記憶體

146．．．系統匯流排

148．．．持久儲存記憶體

150．．．輸入裝置

151．．．顯示器

154．．．顯示器控制器

156．．．網路介面卡

158．．．圖形驅動機

160．．．處理資訊

第1圖是一圖像處理系統之一實施例之一方塊圖。

第8圖是匹配一對圖像之一程序之一實施例之一圖式。

第9圖是一圖像處理系統之一實施例之一圖式。

第10圖是一電腦系統之一實施例之一方塊圖。

22、24、26、28、32．．．方塊

Claims

一種臉部識別方法，其包含以下步驟：檢測各個圖像中之感興趣區，其中該等圖像包含利用各個臉部部分標籤標記之各個臉部區域；針對該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣區的臉部區域描述器值之一各自的臉部區域描述器向量；將該等臉部部分標籤中之數個標籤指定給針對該等臉部區域之數個空間相對應區域而決定之該等臉部區域描述器向量之數個個別向量；對於該等臉部部分標籤之每一個，建立將遭指定該臉部部分標籤之該等臉部區域描述器向量與該等臉部區域描述器向量中之其他向量劃分開之一個別臉部部分檢測器；及將該等臉部部分檢測器與規則關聯，該等規則基於在圖像中檢測到之感興趣區之間的空間關係及指定給該等臉部部分檢測器之該等個別臉部部分標籤，限定該等臉部部分檢測器之劃分結果；其中該決定、該指定、該建立及該關聯步驟藉由一電腦執行。
如申請專利範圍第1項所述之方法，其中該等規則之至少一個描述根據一指定群組中之感興趣區之間的一空間關係，利用該等臉部部分標籤之數個個別標籤來標記該指定群組中之該等感興趣區之條件。
如申請專利範圍第1項所述之方法，其中該等圖像包含在該等臉部區域外且利用各個輔助部分標籤標記之各個輔助區域，且其進一步包含以下步驟：對於該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣區之區域描述器值之一各自輔助區域描述器向量；將該等輔助部分標籤之數個標籤指定給針對該等輔助區域之數個空間相對應區域而決定之該等輔助區域描述器向量的數個個別向量；對於該等輔助部分標籤之每一個，建立將被指定該輔助部分標籤之該等輔助區域描述器向量與該等輔助區域描述器向量中之其他向量劃分開之一個別輔助部分檢測器；及將該等輔助部分檢測器與規則關聯，該等規則基於在圖像中檢測到之感興趣區之間的空間關係與指定給該等輔助部分檢測器之該等個別輔助部分標籤，限定該等輔助部分檢測器之劃分結果。
如申請專利範圍第3項所述之方法，其進一步包含以下步驟：利用該等臉部部分標籤及該等輔助部分標籤中之數個個別標籤標記在一給定圖像中檢測到之感興趣區，此係基於應用該等臉部部分檢測器到針對該等遭標記之感興趣區而決定之各個臉部區域描述器向量及進一步基於應用該等輔助部分檢測器到針對該等感興趣區而決定之各個輔助區域描述器向量；基於該等遭標記之感興趣區，確定該給定圖像中之一臉部區域；以多個解析度層級，將該臉部區域細分成不同的空間塊；對於該等解析度層級之每一個，計算每一空間塊中之該等臉部部分標籤之實例之各自總數；及自該等計算出之總數，建構該指定圖像中之該臉部區域之一空間錐體表示形式。
如申請專利範圍第1項所述之方法，其中該決定步驟包含以下步驟：將臉部區域描述器應用到該等檢測到之感興趣區以產生特徵化該等檢測到之感興趣區的臉部區域描述器值之一第一組臉部區域描述器向量；及將該第一組臉部區域描述器向量劃分為群集，其中該等群集之每一個由該第一組臉部區域描述器向量之一個別子集構成且利用一各自唯一的群集標籤來標記。
一種臉部識別方法，其包含以下步驟：檢測一圖像中之感興趣區；對於該等檢測到之感興趣區中之每一個，決定特徵化該檢測到之感興趣區的臉部區域描述器值之一各自臉部區域描述器向量；基於將各個臉部部分檢測器應用到該等臉部區域描述器向量，利用各個臉部部分標籤標記一第一組該等檢測到之感興趣區，其中該等臉部部分檢測器之每一個將該等臉部區域描述器向量劃分為對應於多個臉部部分標籤中之個別的一個之一類別之成員及非成員；及確定一第二組該等檢測到之感興趣區，其中該確定步驟包含基於對該等已標記之感興趣區之間的空間關係施加條件之規則，自該第一組削減該等已標記之感興趣區中之一個或多個；其中該檢測、該決定、該標記及該確定步驟由一電腦執行。
如申請專利範圍第6項所述之方法，其中該等規則之至少一個描述根據一給定群組之感興趣區之間的一空間關係，利用該等臉部部分標籤之數個個別標籤來標記該群組中之該等感興趣區之條件。
如申請專利範圍第7項所述之方法，其進一步包含識別滿足該等規則之個別群組之該等已標記之感興趣區，且基於該等已識別群組中之該等已標記之感興趣區之位置來決定參數值，該等參數值指定了定義該圖像中之一臉部區域之位置、尺寸及姿勢。
如申請專利範圍第8項所述之方法，其進一步包含基於該等臉部區域描述器向量與預先定義之臉部區域描述器向量群集類別之間的各自距離，將該等臉部區域描述器向量劃分為該等個別預先定義之臉部區域描述器向量群集類別，其中該等臉部區域描述器向量群集類別之每一個與一各自唯一群集標籤相關聯，且該等臉部區域描述器向量之每一個遭指定與該臉部區域描述器向量遭劃分之該臉部區域描述器向量群集類別關聯之該群集標籤。
如申請專利範圍第9項所述之方法，其進一步包含以下步驟：以多個解析度層級，將該臉部區域再分為不同的空間塊；及對於該等解析度層級之每一個，計算該每一空間塊中之該等唯一群集標籤之實例之各自總數以產生表示該給定圖像中之該臉部區域之一空間錐體。
如申請專利範圍第10項所述之方法，其進一步包含基於該空間錐體與自其它圖像產生之一個或多個預先定義之空間錐體之比較結果，識別該圖像中之一人物之臉部。
如申請專利範圍第6項所述之方法，其進一步包含以下步驟：對於該等檢測到之感興趣區之每一個，決定特徵化該等檢測到之感興趣區之輔助區域描述器值之一各自的輔助區域描述器向量；基於應用各個輔助部分檢測器到該等輔助區域描述器向量，利用各個輔助部分標籤標記一第三組該等檢測到之感興趣區，其中該等輔助部分檢測器之每一個將該等輔助區域描述器向量劃分成對應於該等輔助部分標籤中的一個別標籤的一類別之成員及非成員；確定一第四組該等檢測到之感興趣區，其中該第四組之該確定步驟包含基於對該第三組中之該等已標記之感興趣區之間的空間關係施加條件之規則，自該第三組削減該等已標記之感興趣區中之一個或多個。
一種臉部識別裝置，其包含：一電腦可讀媒體，其儲存電腦可讀指令；及耦接到該電腦可讀媒體之一處理器，其可操作以執行該等指令，且至少部分基於該等指令之該執行，可操作以執行包含下列動作之操作：檢測各個圖像中之感興趣區，其中該等圖像包含利用各個臉部部分標籤標記之各個臉部區域，對於該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣區之臉部區域描述器值之一各自臉部區域描述器向量，將該等臉部部分標籤之數個標籤指定給針對該等臉部區域之數個空間相應區域而決定之該等臉部區域描述器向量的數個個別向量，對於該等臉部部分標籤之每一個，建立將遭指定該臉部部分標籤之該等臉部區域描述器向量與該等臉部區域描述器向量中之其他向量劃分開之一個別臉部部分檢測器，及將該等臉部部分檢測器與規則關聯，該等規則基於在圖像中檢測到之、感興趣區之間的空間關係及指定給該等臉部部分檢測器之該等個別臉部部分標籤，限定該等臉部部分檢測器之劃分結果。
如申請專利範圍第13項所述之裝置，其中該等規則之至少一個描述根據一給定群組中之感興趣區之間的一空間關係，利用該等臉部部分標籤之數個個別標籤來標記該指定群組中之該等感興趣區之一條件。
如申請專利範圍第13項所述之裝置，其中在該決定步驟中，該處理器可操作以執行包含以下之操作：將臉部區域描述器應用到該等檢測到之感興趣區以產生特徵化該等檢測到之感興趣區之臉部區域描述器值之一第一組臉部區域描述器向量；及將該第一組臉部區域描述器向量劃分至群集，其中該等群集之每一個由該第一組臉部區域描述器向量之一個別子集構成且以一各自的唯一群集標籤標記。
一種包含有電腦可讀程式碼內嵌其中的電腦可讀媒體，該電腦可讀程式碼適於由一電腦執行以實施包含以下步驟之一方法：檢測各個圖像中之感興趣區，其中該等圖像包含利用各個臉部部分標籤標記之各個臉部區域；對於該等檢測到之感興趣區之每一個，決定特徵化該等檢測到之感興趣區的臉部區域描述器值之一各自的臉部區域描述器向量；將該等臉部部分標籤之數個標籤指定給針對該等臉部區域之數個空間相應區域而決定之該等臉部區域描述器向量之數個個別向量；對於該等臉部部分標籤之每一個，建立將遭指定該臉部部分標籤之該等臉部區域描述器向量與該等臉部區域描述器向量中之其他向量劃分開之一個別臉部部分檢測器；及將該等臉部部分檢測器與規則關聯，該等規則基於在圖像中檢測到之感興趣區之間的空間關係及指定給該等臉部部分檢測器之該等個別臉部部分標籤來限定該等臉部部分檢測器之劃分結果。
如申請專利範圍第16項所述之電腦可讀媒體，其中該等規則之至少一個描述根據一給定群組中之感興趣區之間的一空間關係，利用該等臉部部分標籤之數個個別標籤來標記該給定群組中之該等感興趣區之一條件。
如申請專利範圍第16項所述之電腦可讀媒體，其中該決定步驟包含以下步驟：將臉部區域描述器應用到該等檢測到之感興趣區以產生特徵化該等檢測到之感興趣區之臉部區域描述器值之一第一組臉部區域描述器向量；及將該第一組臉部區域描述器向量劃分為群集，其中該等群集中之每一個由該第一組臉部區域描述器向量之一個別子集構成且利用一各自的唯一群集標籤作標記。
一種臉部識別裝置，其包含：儲存電腦可讀指令之一電腦可讀媒體；及耦接到該電腦可讀媒體之一處理器，其可操作以執行指令，且至少部分地基於該等指令之該執行，可操作以執行包含以下之操作：檢測一圖像中之感興趣區；對於該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣區之臉部區域描述器值之一各自臉部區域描述器向量；基於應用各個臉部部分檢測器到該等臉部區域描述器向量，利用各個臉部部分標籤來標記一第一組該等檢測到之感興趣區，其中該等臉部部分檢測器之每一個將該等臉部區域描述器向量劃分為對應於多個臉部部分標籤中之一個別標籤的一類別之成員及非成員；及確定一第二組該等檢測到之感興趣區，其中該確定步驟包含基於對該等已標記之感興趣區之間的空間關係施加條件之規則，自該第一組削減該等已標記之感興趣區中之一個或多個。
一種包含有電腦可讀程式碼內嵌其中的電腦可讀媒體，該電腦可讀程式碼適於由一電腦執行以實施包含以下步驟之一方法：檢測一圖像中之感興趣區；對於該等檢測到之感興趣區之每一個，決定特徵化該檢測到之感興趣區之臉部區域描述器值之一各自臉部區域描述器向量；基於應用各個臉部部分檢測器到該等臉部區域描述器向量，利用各個臉部部分標籤來標記一第一組該等檢測到之感興趣區，其中該等臉部部分檢測器之每一個將該等臉部區域描述器向量劃分為對應於多個臉部部分標籤之一個別標籤之一類別之成員及非成員；及確定一第二組該等檢測到之感興趣區，其中該確定步驟包含基於對該等已標記之感興趣區之間的空間關係施加條件之規則，自該第一組削減該等已標記之感興趣區中之一個或多個。