TWI714318B

TWI714318B - 人臉辨識方法及裝置

Info

Publication number: TWI714318B
Application number: TW108138720A
Authority: TW
Inventors: 李金龍
Original assignee: 緯創資通股份有限公司
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-12-21
Also published as: CN112711974B; US20210124912A1; CN112711974A; TW202117601A; US11308732B2

Abstract

一種人臉辨識方法及裝置。所述方法適用於具有收音裝置及影像擷取裝置的電子裝置，且包括下列步驟：利用收音裝置偵測聲源的方向，以利用影像擷取裝置擷取此方向的影像；偵測並追蹤影像中的人臉，以根據追蹤結果給予人臉一影像識別；判斷此影像識別是否存在於人臉辨識的資料集中已辨識的多個群組識別；以及響應於影像識別不存在於資料集，擷取此人臉的特徵值，並與各個群組識別的人臉的特徵值比對，以根據比對結果，更新人臉所屬的群組識別。

Description

人臉辨識方法及裝置

本發明是有關於一種辨識方法及裝置，且特別是有關於一種人臉辨識方法及裝置。

近年來人臉辨識技術爆發性成長，技術趨近成熟，各大廠商不論是電腦設備廠商甚或是智慧手機廠商皆趨之若鶩，紛紛推出量產性產品並掛載相關人臉技術運用。但大部分的人臉技術應用可能以下幾項原因把真正的運算及特徵識別技術放在雲端服務上：1.為了求更高的準確度；2.保密人臉資料庫的核心技術；3.大部分裝置難以負擔如此大量的運算；4.為了更快速的回應等等，其原因種類繁多不一闡述。

然而，使用上述方法的行動裝置或是設備就必須具備連網功能，否則無法使用該功能。除此之外，使用雲端服還有資料被第三方竊取的資安風險，或者是人臉資訊被用做其他不可預期服務的問題存在。

本發明提供一種人臉辨識方法及裝置，藉由持續追蹤正在說話且被判定為人臉的物件，可增加人臉辨識的容錯率。

本發明實施例的人臉辨識方法，適用於具有收音裝置及影像擷取裝置的電子裝置。此方法包括下列步驟：利用收音裝置偵測聲源的方向，以利用影像擷取裝置擷取此方向的影像；偵測並追蹤影像中的人臉，以根據追蹤結果給予人臉一影像識別；判斷此影像識別是否存在於人臉辨識的資料集中已辨識的多個群組識別；以及響應於影像識別不存在於資料集，擷取此人臉的特徵值，並與各個群組識別的人臉的特徵值比對，以根據比對結果，更新人臉所屬的群組識別。

本發明實施例的人臉辨識裝置包括用以偵測聲源的收音裝置、用以擷取影像的影像擷取裝置及處理器。此處理器耦接收音裝置及影像擷取裝置，經配置以利用收音裝置偵測聲源的方向，以利用影像擷取裝置擷取此方向的影像；偵測並追蹤影像中的人臉，以根據追蹤結果給予人臉一影像識別；判斷此影像識別是否存在於人臉辨識的資料集中已辨識的多個群組識別；以及響應於影像識別不存在於資料集，擷取此人臉的特徵值，並與各個群組識別的人臉的特徵值比對，以根據比對結果，更新人臉所屬的群組識別。

10:人臉辨識裝置

12:收音裝置

14:影像擷取裝置

16:處理器

30:環景影像

32:區域

32A:影像

50:人臉

52:邊界框

A、B、C:使用者

S202~S210、S402~S410、S602~S610、S702~S708、S802~S808:步驟

圖1是依據本發明一實施例所繪示的人臉辨識裝置的方塊圖。

圖2是依照本發明一實施例所繪示的人臉辨識方法流程圖。

圖3是依照本發明一實施例所繪示的擷取聲源方向影像的範例。

圖4是依照本發明一實施例所繪示的物件追蹤方法的流程圖。

圖5是依照本發明一實施例所繪示的中心點追蹤法的範例。

圖6是依照本發明一實施例所繪示的物件追蹤方法的流程圖。

圖7是依照本發明一實施例所繪示的特徵值比對方法的流程圖。

圖8是依照本發明一實施例所繪示的人臉辨識方法的流程圖。

本發明實施例針對可控制的或者是侷限性較高的場所，例如會議室、教室等，利用麥克風陣列做方向定位，並擷取聲源方向的影像來進行人臉識別，藉此增加人臉識別的效率。本發明實施例進一步結合物件追蹤演算法追蹤人臉，藉由將重疊的人臉、離開影像的人臉進行反註冊/再註冊等處理，藉此增加容錯率。

圖1是依據本發明一實施例所繪示的人臉辨識裝置的方塊圖。請參考圖1，本實施例的人臉辨識裝置10例如是視訊會議設備、遠距教學設備，或是具備視訊會議或其他通訊功能的電腦、伺服器、工作站等計算裝置或手機、平板電腦等可攜裝置，在此不設限。人臉辨識裝置10包括收音裝置12、影像擷取裝置14及處理器16，其功能分述如下：收音裝置12例如為麥克風、指向性麥克風、麥克風陣列等可辨識聲源方向的裝置，其中麥克風的個數及位置可視實際需求自由配置，在此不設限。收音裝置12例如包括伺服馬達，其可依據所辨識聲源的方向，推動麥克風以改變其位置及/或角度，藉此轉向聲源方向以進行收音。

影像擷取裝置14例如是由鏡頭、光圈、快門、影像感測器等元件組成。其中，鏡頭包括多個光學透鏡，其例如是藉由步進馬達或音圈馬達等致動器驅動，以改變透鏡之間的相對位置，從而改變鏡頭的焦距。影像感測器例如是由電荷耦合元件(Charge Coupled Device，CCD)、互補性氧化金屬半導體(Complementary Metal-Oxide Semiconductor，CMOS)元件或其他種類的感光元件組成，其配置於鏡頭後方，而可感測入射鏡頭的光線強度以產生被攝物件的影像。在一實施例中，影像擷取裝置14例如是360度環景相機，其例如是由兩個視角為180度的廣角相機組成，而可拍攝人臉辨識裝置10周圍的360度環景影像。

處理器16例如是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。在本實施例中，處理器16耦接收音裝置12及影像擷取裝置14，用以存取並執行電腦程式，藉以實現本發明實施例的人臉辨識方法。

在一實施例中，人臉辨識裝置10更包括通訊裝置，此通訊裝置例如支援全球行動通信(Global System for Mobile Communication，GSM)系統、個人手持式電話系統(Personal Handy-phone System，PHS)、碼多重擷取(Code Division Multiple Access，CDMA)系統、全球互通微波存取(Worldwide Interoperability for Microwave Access，WiMAX)、無線相容認證(Wireless fidelity，Wi-Fi)、全球互通微波存取(Worldwide Interoperability for Microwave Access，WiMAX)或藍芽(Bluetooth)等無線通訊技術，而可提供人臉辨識裝置10與外部裝置建立無線連結，並進行視訊通話、視訊會議、遠距教學等通訊功能，在此不設限。

在一實施例中，上述的收音裝置12及影像擷取裝置14亦可獨立於人臉辨識裝置10外配置，而由處理器16藉由通用序列匯流排(Universal Serial Bus，USB)等連接介面或上述的通訊裝置，以有線或無線的方式接收由收音裝置12輸出的聲音訊號以及由影像擷取裝置14輸出的影像，在此不設限。

圖2是依照本發明一實施例所繪示的人臉辨識方法流程圖。請同時參照圖1與圖2，本實施例的方法適用於上述的人臉辨識裝置10，以下即搭配圖1中人臉辨識裝置10的各項元件，說明本實施例方法的詳細流程。

首先，在步驟S202中，由處理器16利用收音裝置12偵測一聲源的方向，以利用影像擷取裝置14擷取此方向的影像。在一實施例中，在使用收音裝置12偵測聲源之前，處理器16例如會執行收音裝置12的初始化，其中包括利用影像擷取裝置14拍攝人臉辨識裝置10周圍的環景影像，並辨識此環景影像中的人臉，從而將收音裝置12的偵測角度調整為指向所辨識人臉所在的方向。

舉例來說，圖3是依照本發明一實施例所繪示的擷取聲源方向影像的範例。請參照圖3，本實施例假設人臉辨識裝置10是放置於會議室的桌面上，用以提供會議室中的多個使用者A、B、C進行視訊會議。在一實施例中，人臉辨識裝置10利用影像擷取裝置14拍攝其周圍的環景影像30，並利用收音裝置12偵測聲源(例如正在說話的使用者B)方向，從而依據聲源方向裁切環景影像30中位於所偵測方向上的部分區域32的影像，作為用以進行人臉辨識的影像32A。在一實施例中，人臉辨識裝置10亦可先針對影像擷取裝置14所拍攝的環景影像30進行人臉辨識，據以將收音裝置12的偵測角度調整為指向所辨識人臉所在的方向，藉此可增加聲源偵測的效率及正確率。

需說明的是，在一實施例中，處理器16更進一步利用收音裝置12所偵測聲源的至少一項特徵來判斷所述聲源是否為人聲，所述特徵包括發聲時間間隔、連續發聲長度及發聲資料的收斂性等。詳言之，處理器16例如藉由判斷收音裝置12所偵測聲音訊號是否為空，來判斷是否有人發聲；藉由判斷收音裝置12所偵測聲音訊號中的發聲時間間隔來判斷是否為同一人說話(若時間間隔過長，則代表為不同人說話)；藉由判斷收音裝置12所偵測聲音訊號中的連續發聲長度，來判斷是否為有效的說話(若長度過短，則代表所偵測的聲音可能為咳嗽聲或其他聲音，並非說話聲)；藉由判斷收音裝置12所偵測聲音訊號中的發聲資料的收斂性，判斷收音裝置12的方向是否已轉向聲源的方向。舉例來說，若收音裝置12的原始收音方向為0度，而聲源的方向為180度，則收音裝置12的收音方向例如會以0度、90度、130度、175度、180度的方向逐步朝180度收斂，此收斂可由聲音訊號的資料收斂性來判斷是否完成。

回到圖2的流程，在步驟S204中，處理器16偵測並追蹤影像中的人臉，以根據追蹤結果給予此人臉一影像識別。詳言之，當偵測到影像中包括人臉時，處理器16例如會執行物件追蹤演算法，以對影像中各個人臉進行追蹤，並根據追蹤結果給予所追蹤人臉一個影像識別。

圖4是依照本發明一實施例所繪示的物件追蹤方法的流程圖。請參照圖4，本實施例說明圖2步驟S204的詳細流程。

在步驟S402中，由處理器16偵測影像中的人臉。在一實施例中，處理器16例如會計算可涵蓋人臉輪廓的最小矩形作為人臉的邊界框來定義人臉區域。

在步驟S404中，由處理器16計算所偵測的各個人臉的邊界框的中心點座標作為人臉位置。詳言之，處理器16例如會執行中心點追蹤法(CentroidTracker)，而以人臉邊界框的中心點座標作為人臉位置來進行人臉追蹤。以圖5為例，對於所偵測的人臉50，處理器16會計算可涵蓋人臉輪廓的最小矩形作為邊界框52，然後再計算此邊界框52的中心點座標(x,y)，而用以作為人臉50的位置。

在步驟S406中，由處理器16判斷目前所偵測的人臉位置與先前追蹤的多個人臉位置之間的最短距離是否大於預設距離。詳言之，先前追蹤的多個人臉位置中與目前所偵測的人臉位置距離最短的人臉位置可假定為目前所偵測人臉可能的先前位置，而根據這兩個人臉位置間的距離的長短，則可確認此人臉位置是否就是目前所偵測人臉的先前位置。所述人臉位置間的距離例如是歐式距離，但不限於此。

其中，響應於此最短距離大於預設距離，則代表兩個人臉位置之間的距離過長，並非代表同一人，且先前所追蹤的人臉已消失於目前所擷取的影像，此時將進入步驟S408，由處理器16對目前所偵測的人臉給予一個新影像識別，並將先前追蹤的人臉的影像識別進行反註冊，以進行後續的重新識別。反之，響應於此最短距離不大於預設距離，則代表兩個人臉位置所對應的人臉為同一人，此時將進入步驟S410，由處理器16以目前所計算的人臉位置更新先前追蹤的人臉位置。

需說明的是，在一實施例中，處理器16在步驟S406中判斷最短距離大於預設距離時，例如會判斷所追蹤的人臉已消失於所擷取的影像，並累計人臉消失的影像的幀數，而當所累計的人臉消失的影像的幀數大於預設幀數(例如5幀)時，才判斷所追蹤的人臉已離開，而將其影像識別反註冊。詳言之，在一實施例中，處理器16是根據所追蹤人臉連續未出現在影像中的時間(幀數)來決定是否進行該人臉的影像識別的反註冊。因此，反註冊的決定會與影片每秒包括多少幀，以及用以判定人臉消失的幀數(門檻值)有關。當這個門檻值愈小，人臉追蹤的精確度越高。此外，由於追蹤過程中不會進行任何辨識，因此當這個門檻值愈大，則愈有可能發生被冒用(例如他人突然出現在影像中的該位置)的機率。據此，在一實施例中，處理器16在準備對所追蹤人臉的影像識別進行反註冊時，會進一步判斷該人臉(中心點)的附近是否有其他人臉(距離小於預設距離)，並將所判斷的附近人臉一併強制進行反註冊，以避免兩張人臉快速靠近並重疊的情況下，僅依據歐式距離來判斷會有很大的機會發生識別交換(ID swap)的現象。

舉例來說，處理器16可根據前述計算的人臉位置，判斷影像中的人臉是否發生重疊，並在判定人臉重疊時，同時對兩個人臉進行反註冊及重新註冊，以避免重疊人臉因識別交換而造成識別錯誤。

詳言之，圖6是依照本發明一實施例所繪示的物件追蹤方法的流程圖。請參照圖6，本實施例說明圖2步驟S204的詳細流程。

在步驟S602中，由處理器16偵測影像中的人臉。在步驟S604中，由處理器16計算所偵測的各個人臉的邊界框的中心點座標作為人臉位置。其中，步驟S602~S604的實施方式與前述實施例的步驟S402~S404相同或相似，故在此不再贅述。

與前述實施例不同的是，本實施例假設步驟S604中偵測到的人臉為複數個。針對此情況，在步驟S606中，由處理器16計算影像中各個人臉的人臉位置之間的距離，並判斷所計算的距離是否小於預設距離。

響應於所計算的距離小於預設距離，則可判斷人臉發生重疊，此時將進入步驟S608，由處理器16將重疊的人臉的影像識別進行反註冊，並給予一個新影像識別，以進行後續的重新識別。反之，響應於所計算的距離不小於預設距離，則代表兩個人臉位置未重疊，此時將進入步驟S610，由處理器16維持目前人臉所屬的影像識別，以節省運算資源且避免識別交換的現象。詳言之，當影像中的兩個或多個人臉發生重疊時，處理器16會將重疊人臉的影像識別都進行反註冊，而反註冊後重新出現在影像中的人臉會被判定為一個新的人臉，因此會重新給予一個新影像識別。也就是說，有幾個人臉被反註冊，就會重新給予幾個新影像識別。

回到圖2的流程，在步驟S206中，處理器16判斷目前所偵測人臉的影像識別是否存在於人臉辨識的資料集中已辨識的多個群組識別。響應於所述判斷為已存在，則在步驟S208中，處理器16將目前所偵測人臉的群組識別更新為資料集中的群組識別。反之，響應於所述判斷為不存在，則在步驟S210中，由處理器16擷取人臉的特徵值，並與各個群組識別的人臉的特徵值比對，以根據比對結果，更新目前所偵測人臉所屬的群組識別。

詳言之，上述的人臉辨識的資料集可實作為一個特徵(embedding)與索引(index)的資料集，其格式例如包括(影像識別ImageId、群組識別ClusterId、特徵Embedding)三個欄位。當有一筆資料進來之後，處理器16會給予該資料一個暫時索引(例如100)，此索引可作為影像識別ImageId，此時該物件的索引為(100、空、空)。其中，若此物件是一個新的物件，資料集中並不會存在這個影像識別ImageId。因此，在一實施例中，處理器16例如會將目前所辨識人臉的群組識別ClusterId預設為影像識別ImageId(即，預設為100)，並使用此群組識別ClusterId在人臉辨識的資料集中搜尋是否已存在有相同的群組識別。響應於此群組識別ClusterId已存在，則代表目前所辨識的人臉與所搜尋到的群組識別所對應的人臉相同，而可直接更新目前人臉所屬的群組識別(即，將其群組識別確定為預設的影像識別)。反之，響應於此群組識別ClusterId不存在，則代表目前所辨識的人臉是新的物件，此時需再判斷目前所辨識人臉的特徵是否等同於資料集中的其他人臉。響應於找到等同的人臉，則可將該物件的索引改成(100、空、特徵資料)；否則，可確定為新的物件。藉此，可增加本實施例的人臉辨識方法的容錯率。

詳言之，針對影像識別不存在於資料集中的情況，本實施例藉由特徵值比對的方式，搜尋資料集中可能為同一人的群組識別，並用以更新目前所辨識人臉所屬的群組識別。

詳言之，圖7是依照本發明一實施例所繪示的特徵值比對方法的流程圖。請參照圖7，本實施例說明圖2步驟S210的詳細流程。

在步驟S702中，由處理器16執行相似度比對法，以計算所擷取人臉的特徵值與各個群組識別的人臉的特徵值之間的相似度。其中，處理器16例如會針對目前所辨識人臉與資料集中的人臉執行1對N或N對N比對法，以計算兩兩人臉之間的距離來作為其相似度，並取其中的最大相似度來判斷兩個人臉是否為相同。需說明的是，由於相似度比對法的執行需要耗費較高的運算資源，因此在一實施例中，處理器16例如會對影像擷取裝置所擷取的影像進行解析度縮減(downsize)或前置白化(prewhiten)等處理，使得所需處理影像的像素數目或資料減少，以增加處理效率。

舉例來說，以下表1列出針對影像0~4中任意兩張影像進行比對後所獲得的距離矩陣，其中的最大距離1.1637所對應的影像2、4即為最相似影像，而可用以作為判斷所對應人臉是否相同的依據。所述影像0~4例如是由影像擷取裝置14擷取的連續影像，在此不設限。

詳言之，在步驟S704，由處理器16判斷所計算的相似度中的最大相似度是否大於門檻值。其中，響應於所述最大相似度大於門檻值，可確定兩個人臉相同，因此在步驟S706，由處理器16將目前所辨識人臉所屬的群組識別更新為具有最大相似度的群組識別。反之，響應於所述最大相似度不大於門檻值，可確定兩個人臉不同，因此在步驟S708，由處理器16將目前所辨識人臉所屬的群組識別新增至資料集，以作為新的人臉。在一實施例中，可藉由調整上述門檻值的大小，決定人臉辨識的門檻(即，難易程度)。若門檻值愈高，則代表對於人臉相似度的要求愈高，而可獲得較準確的辨識結果。

需說明的是，在採用360度環景相機擷取影像的情況下，由於所擷取影像的解析度高(例如4K解析度)，對該影像的資料進行傳輸及處理(特徵值比對)所需的時間也較長。此外，採用麥克風陣列進行聲源偵測及人聲辨識時，也會因為角度收斂、人聲辨識困難等問題，造成處理延遲。因此，在一實施例中，處理器16例如會比對影像處理及人聲辨識完成的時間點，以確認是否有人正在說話，並據以決定是否進行接續動作(即，對所辨識人臉所屬的群組識別進行更新)。若影像處理及人聲辨識完成的時間點相差太多，則可判斷所述時間點獲得的影像與所述聲源不具有對應關係，因此影像和人聲之間的比對就沒有參考價值，此時處理器16將會放棄接續動作，以節省運算資源。

詳言之，圖8是依照本發明一實施例所繪示的人臉辨識方法的流程圖。請參照圖8，本實施例說明圖2步驟S210中，根據比對結果來更新人臉所屬群組識別的詳細流程。

在步驟S802中，由處理器16計算獲得影像的時間點與判斷聲源為人聲的時間點之間的時間差，並在步驟S804中，判斷所計算的時間差是否大於預設時間。所述預設時間的長度例如為1至2秒之間的任意值，在此不設限。

響應於所計算的時間差大於預設時間，則代表所辨識的人聲和所比對的人臉特徵值可能不是屬於同一個人，因此在步驟S806中，處理器16將判斷所述時間點獲得的影像與所述聲源不具有對應關係。而響應於所計算的時間差不大於預設時間，則代表所辨識的人聲和所比對的人臉特徵值屬於同一個人，而可確認比對結果為有效，由處理器16更新人臉所屬的群組識別。

綜上所述，本發明的人臉辨識方法及裝置藉由結合收音裝置及影像擷取裝置的偵測結果，可在單機不連網的情況下，正確擷取正在說話的人的影像，並藉由將重疊的人臉、離開影像的人臉進行反註冊/再註冊等處理，可解決人臉重疊、離開再進入所造成的識別交換(ID swap)問題，從而增加人臉辨識的容錯率。根據人臉辨識所擷取/裁切的影像則可經由視訊會議等通訊軟體傳送至另一端使用者，而實現視訊影像的遠端分享。

S202~S210:步驟

Claims

一種人臉辨識方法，適用於具有收音裝置及影像擷取裝置的電子裝置，所述方法包括下列步驟：利用所述收音裝置偵測一聲源的方向，以利用所述影像擷取裝置擷取所述方向的影像；偵測並追蹤所述影像中的人臉，以根據追蹤結果給予所述人臉一影像識別，其中包括：計算所偵測的各所述人臉的人臉位置，並判斷所述人臉位置與先前追蹤的多個人臉位置之間的最短距離是否大於預設距離；以及響應於所述最短距離大於所述預設距離，判斷所述人臉不等同於先前追蹤的人臉，而給予所述人臉一新影像識別，並反註冊先前追蹤的所述人臉的影像識別；判斷所述影像識別是否存在於人臉辨識的資料集中已辨識的多個群組識別；以及響應於所述影像識別不存在於所述資料集，擷取所述人臉的特徵值，並與各所述群組識別的人臉的特徵值比對，以根據比對結果，更新所述人臉所屬的群組識別。
如申請專利範圍第1項所述的人臉辨識方法，其中偵測並追蹤所述影像中的人臉的步驟包括：當偵測到所述影像中包括多個人臉時，利用物件追蹤演算法追蹤所述人臉，並判斷所述人臉是否重疊；以及響應於所述人臉重疊，反註冊重疊的所述人臉的所述影像識別，並重新給予所述人臉一新影像識別。
如申請專利範圍第2項所述的人臉辨識方法，其中利用物件追蹤演算法追蹤所述人臉，並判斷所述人臉是否重疊的步驟包括：計算所偵測的各所述人臉的邊界框的中心點座標作為人臉位置，並判斷各所述人臉的所述人臉位置之間的距離是否小於預設距離；以及響應於所述距離小於所述預設距離，判斷所述人臉重疊。
如申請專利範圍第1項所述的人臉辨識方法，其中偵測並追蹤所述影像中的人臉，以根據追蹤結果給予所述人臉所述影像識別臉的步驟更包括：判斷所追蹤的人臉消失於所擷取的所述影像的幀數是否超過預設幀數；以及響應於所述幀數大於所述預設幀數，判斷所追蹤的所述人臉已離開，而反註冊所追蹤的所述人臉的影像識別。
如申請專利範圍第1項所述的人臉辨識方法，其中所述影像擷取裝置為環景相機，而利用所述影像擷取裝置擷取所述方向的影像的步驟包括：利用所述影像擷取裝置拍攝所述電子裝置周圍的環景影像，並裁切所述環景影像中位於所述方向上的部分影像作為用以進行人臉辨識的影像。
如申請專利範圍第1項所述的人臉辨識方法，其中所述影像擷取裝置為環景相機，而在利用所述收音裝置偵測所述聲源的方向的步驟之前，所述方法更包括：利用所述影像擷取裝置拍攝所述電子裝置周圍的環景影像，並辨識所述環景影像中的人臉；以及調整所述收音裝置的偵測角度為指向所辨識的所述人臉所在的方向。
如申請專利範圍第1項所述的人臉辨識方法，其中擷取所述人臉的特徵值，並與各所述群組識別的人臉的特徵值比對，以根據比對結果，更新所述人臉所屬的群組識別的步驟包括：執行相似度比對法，以計算所擷取的所述人臉的特徵值與各所述群組識別的人臉的特徵值之間的相似度；判斷所計算的所述相似度中的最大相似度是否大於門檻值；響應於所述最大相似度不大於所述門檻值，將所述人臉所屬的群組識別新增至所述資料集；以及響應於所述最大相似度大於所述門檻值，將所述人臉所屬的群組識別更新為具有所述最大相似度的所述群組識別。
如申請專利範圍第1項所述的人臉辨識方法，其中利用所述收音裝置偵測所述聲源的方向，以利用所述影像擷取裝置擷取所述方向的所述影像的步驟更包括：利用所述收音裝置偵測所述聲源的至少一特徵，以判斷所述聲源是否為人聲，並在判斷為人聲時，利用所述影像擷取裝置擷取所述方向的所述影像，其中所述至少一特徵包括發聲時間間隔、連續發聲長度及發聲資料的收斂性。
如申請專利範圍第1項所述的人臉辨識方法，其中利用所述收音裝置偵測所述聲源的所述方向，以利用所述影像擷取裝置擷取所述方向的所述影像的步驟更包括：計算獲得所述影像的時間點與判斷所述聲源為人聲的時間點之間的時間差，並判斷所計算的所述時間差是否大於預設時間；以及響應於所述時間差大於所述預設時間，判斷所述時間點獲得的所述影像與所述聲源不具有對應關係。
一種人臉辨識裝置，包括：收音裝置，偵測聲源；影像擷取裝置，擷取影像；處理器，耦接所述收音裝置及所述影像擷取裝置，經配置以：利用所述收音裝置偵測一聲源的方向，以利用所述影像擷取裝置擷取所述方向的影像；偵測並追蹤所述影像中的人臉，以根據追蹤結果給予所述人臉一影像識別，其中包括計算所偵測的各所述人臉的人臉位置，並判斷所述人臉位置與先前追蹤的多個人臉位置之間的最短距離是否大於預設距離，而響應於所述最短距離大於所述預設距離，判斷所述人臉不等同於先前追蹤的人臉，而給予所述人臉一新影像識別，並反註冊先前追蹤的所述人臉的影像識別；判斷所述影像識別是否存在於人臉辨識的資料集中已辨識的多個群組識別；以及響應於所述影像識別不存在於所述資料集，擷取所述人臉的特徵值，並與各所述群組識別的人臉的特徵值比對，以根據比對結果，更新所述人臉所屬的群組識別。
如申請專利範圍第10項所述的人臉辨識裝置，其中當偵測到所述影像中包括多個人臉時，所述處理器包括利用物件追蹤演算法追蹤所述人臉，並判斷所述人臉是否重疊，而響應於所述人臉重疊，反註冊重疊的所述人臉的所述影像識別，並重新給予所述人臉一新影像識別。
如申請專利範圍第11項所述的人臉辨識裝置，其中所述處理器包括計算所偵測的各所述人臉的邊界框的中心點座標作為人臉位置，並判斷各所述人臉的所述人臉位置之間的距離是否小於預設距離，以及響應於所述距離小於所述預設距離，判斷所述人臉重疊。
如申請專利範圍第10項所述的人臉辨識裝置，其中所述處理器更判斷所追蹤的人臉消失於所擷取的所述影像的幀數是否超過預設幀數，而響應於所述幀數大於所述預設幀數，判斷所追蹤的所述人臉離開，而反註冊所追蹤的所述人臉的影像識別。
如申請專利範圍第10項所述的人臉辨識裝置，其中所述影像擷取裝置為環景相機，而所述處理器包括利用所述影像擷取裝置拍攝所述電子裝置周圍的環景影像，並裁切所述環景影像中位於所述方向上的部分影像作為用以進行人臉辨識的影像。
如申請專利範圍第10項所述的人臉辨識裝置，其中所述影像擷取裝置為環景相機，而所述處理器包括利用所述影像擷取裝置拍攝所述電子裝置周圍的環景影像，並辨識所述環景影像中的人臉，以及調整所述收音裝置的偵測角度為指向所辨識的所述人臉所在的方向。
如申請專利範圍第10項所述的人臉辨識裝置，其中所述處理器包括執行相似度比對法，以計算所擷取的所述人臉的特徵值與各所述群組識別的人臉的特徵值之間的相似度，並判斷所計算的所述相似度中的最大相似度是否大於門檻值，其中響應於所述最大相似度不大於所述門檻值，將所述人臉所屬的群組識別新增至所述資料集；而響應於所述最大相似度大於所述門檻值，將所述人臉所屬的群組識別更新為具有所述最大相似度的所述群組識別。
如申請專利範圍第10項所述的人臉辨識裝置，其中所述處理器更利用所述收音裝置偵測所述聲源的至少一特徵，以判斷所述聲源是否為人聲，並在判斷為人聲時，利用所述影像擷取裝置擷取所述方向的影像，其中所述至少一特徵包括發聲時間間隔、連續發聲長度及發聲資料的收斂性。
如申請專利範圍第10項所述的人臉辨識裝置，其中所述處理器包括獲得所述影像的時間點與判斷所述聲源為人聲的時間點之間的時間差，並判斷所計算的所述時間差是否大於預設時間，而響應於所述時間差大於所述預設時間，判斷所述時間點獲得的所述影像與所述聲源不具有對應關係。