TWI625680B

TWI625680B - 臉部表情辨識的方法及裝置

Info

Publication number: TWI625680B
Application number: TW106144166A
Authority: TW
Inventors: 康浩平; 吳佳樺; 楊耀欽; 高志忠
Original assignee: 財團法人工業技術研究院
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-06-01
Also published as: CN109934080A; US10445564B2; TW201928768A; US20190188458A1

Abstract

本揭露提出一種臉部表情辨識的方法，包括：辨識複數臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果；根據上述辨識結果取得每一表情種類與另一表情種類間之相似度；根據上述相似度將上述表情種類分為複數表情群組；訓練一第一辨識模型分類上述臉部圖像中的上述表情至上述表情群組；以及對每一上述表情群組分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為上述表情種類其中之一。

Description

臉部表情辨識的方法及裝置

本揭露一般涉及生物識別技術，且更加具體地說係有關於一種臉部表情辨識的方法及裝置。

在生活中，人們經常通過臉部表情來表達情緒。臉部表情是人們傳達其情緒及意圖最有力、自然且直接的方式。臉部可表達情緒甚至是表達自己的感受快於人們用語言表達。例如，使用不同的臉部區域(主要是嘴、眼睛和眉毛)可表達不同的情緒。

現今，臉部表情識別技術得到了廣泛的應用。例如，實體商店可以利用臉部表情識別技術來識別消費者瀏覽商品或廣告時的表情(例如，高興或噁心)，以取得消費者對於此商品或廣告的評價。

然而，目前的表情識別器通常依靠信號處理和模式識別技術將類別標籤分配給表情狀態，像是「生氣」、或「傷心」等等。此種方法面臨的主要挑戰為人類行為的表達是變動很大的且取決於許多因素。這些因素可能包括表達行為的背景和領域。因此，表情的分類表示和簡單的模式識別方案可能無法精確的辨識臉部表情。

需要一種臉部表情辨識的方法及裝置，以提升臉部表情辨識的精確度。

以下揭露的內容僅為示例性的，且不意指以任何方式加以限制。除所述說明方面、實施方式和特徵之外，透過參照附圖和下述具體實施方式，其他方面、實施方式和特徵也將顯而易見。即，以下揭露的內容被提供以介紹概念、重點、益處及本文所描述新穎且非顯而易見的技術優勢。所選擇，非所有的，實施例將進一步詳細描述如下。因此，以下揭露的內容並不意旨在所要求保護主題的必要特徵，也不意旨在決定所要求保護主題的範圍中使用。

本揭露提供一種臉部表情辨識的方法及裝置。

本揭露提出一種臉部表情辨識的方法，包括：辨識複數臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果；根據上述辨識結果計算每一表情種類與另一表情種類間之相似度；根據上述相似度將上述表情種類分為複數表情群組；訓練一第一辨識模型分類上述臉部圖像中的上述表情至上述表情群組；以及對每一上述表情群組分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為上述表情種類其中之一。

在一些實施例中，一第一表情種類與一第二表情種類之間的相似度係根據上述第一表情種類與上述第二表情種類之間的交叉熵(Cross Entropy)所取得。

在一些實施例中，上述相似度表示如下： S(p,q)=H(p,q)+H(q,p)

其中S(p,q)係為一表情種類p與一表情種類q之間的相似度，H(p,q)及H(q,p)係為上述表情種類p與上述表情種類q之間的一交叉熵，其中上述交叉熵H(p,q)表示如下：

其中TP _p代表在上述表情種類p的上述臉部圖像中表情被正確辨識為上述表情種類p之數量，FP _p,q代表在上述表情種類p的上述臉部圖像中表情被錯誤辨識為上述表情種類q之數量。

在一些實施例中，根據上述相似度將上述表情種類分為複數表情群組係包括：合併上述相似度最高的兩個表情種類為一表情群組；取得上述未合併的表情種類與上述表情群組彼此之間的相似度；以及合併上述相似度最高的未合併的表情種類與表情群組或合併上述相似度最高的兩個未合併的表情種類為另一表情群組。

在一些實施例中，根據上述相似度將上述表情種類分為複數表情群組係還包括：取得上述表情群組與上述另一表情群組彼此之間的相似度；以及合併相似度最高的上述表情群組與上述另一表情群組。

在一些實施例中，上述未合併的表情種類與上述表情群組之間的相似度係根據上述未合併的表情種類與上述表情群組之間的交叉熵所取得。

在一些實施例中，上述方法更包括：接收包括一臉部的一輸入圖像；以及使用上述第一辨識模型及上述第二辨識模型辨識上述輸入圖像中表情的表情種類。

在一些實施例中，上述表情種類包括生氣、噁心、害怕、中性無表情、高興、傷心及驚訝。

在一些實施例中，上述第一辨識模型及上述第二辨識模型係基於一卷積神經網路(Convolutional Neural Network，CNN)模型。

本揭露提出一種臉部表情辨識的裝置，包括：一或多個處理器；以及一或多個電腦儲存媒體，儲存電腦可讀取指令，其中上述處理器使用上述電腦儲存媒體以執行：辨識複數臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果；根據上述辨識結果計算每一表情種類與另一表情種類間之相似度；根據上述相似度將上述表情種類分為複數表情群組；訓練一第一辨識模型分類上述臉部圖像中的上述表情至上述表情群組；以及對每一上述表情群組分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為上述表情種類其中之一。

100‧‧‧臉部表情辨識系統

110‧‧‧識別裝置

112‧‧‧輸入裝置

114‧‧‧處理器

116‧‧‧CNN

118‧‧‧記憶體

1182‧‧‧程式

120‧‧‧網路

130‧‧‧電子裝置

200‧‧‧方法

S205、S210、S215、S220、S225‧‧‧步驟

300‧‧‧流程圖

S305、S310、S315、S320‧‧‧步驟

400‧‧‧卷積神經網路

402‧‧‧訓練輸入

404‧‧‧卷積層

406‧‧‧激活層

408‧‧‧池化層

410‧‧‧完全連接層

412‧‧‧輸出

500‧‧‧卷積神經網路

510‧‧‧第一辨識模型

600‧‧‧卷積神經網路

610A、610B‧‧‧第二辨識模型

800‧‧‧計算裝置

810‧‧‧匯流排

812‧‧‧記憶體

814‧‧‧處理器

816‧‧‧顯示元件

818‧‧‧I/O埠口

820‧‧‧I/O元件

822‧‧‧電源供應器

附圖被包括以提供本揭露進一步理解且被合併並組成本揭露的一部分。附圖係說明本揭露的實施例且連同描述一起用以解釋本揭露的原理。其可理解附圖不一定按比例描繪，一些元件可以超過在實際實施方式的大小來顯示，以清楚地說明本揭露的概念。

第1圖所示的識別裝置及電子裝置係一臉部表情辨識系統架構的示例。

第2圖係顯示根據本揭露一實施例所述之臉部表情辨識的方法之流程圖。

第3圖係顯示根據本揭露一實施例所述之識別裝置根據上述相似度將上述表情種類分為複數表情群組之流程圖。

第4圖係顯示根據本揭露一實施例之卷積神經網路。

第5圖係顯示根據本揭露一實施例之卷積神經網路訓練第一辨識模型的示意圖。

第6圖係顯示根據本揭露一實施例之卷積神經網路訓練第二辨識模型的示意圖。

第7A~7F圖係顯示根據本揭露一實施例之識別臉部圖像實驗數據的表格。

第8圖係顯示用以實現本發明實施例的示例性操作環境。

在下文中將參考附圖對本揭露的各方面進行更充分的描述。然而，本揭露可以具體化成許多不同形式且不應解釋為侷限於貫穿本揭露所呈現的任何特定結構或功能。相反地，提供這些方面將使得本揭露周全且完整，並且本揭露將給本領域技術人員充分地傳達本揭露的範圍。基於本文所教導的內容，本領域的技術人員應意識到，無論是單獨還是結合本揭露的任何其它方面實現本文所揭露的任何方面，本揭露的範圍旨在涵蓋本文中所揭露的任何方面。例如，可以使用本文所提出任意數量的裝置或者執行方法來實現。另外，除了本文所提出本揭露的多個方面之外，本揭露的範圍更旨在涵蓋使用其它結構、功能或結構和功能來實現的裝置或方法。應可理解，其可透過申請專利範圍的一或多個元件具體化本文所揭露的任何方面。

詞語「示例性」在本文中用於表示「用作示例、實例或說明」。本揭露的任何方面或本文描述為「示例性」的設計不一定被解釋為優選於或優於本揭露或設計的其他方面。此外，相同的數字在所有若干圖示中指示相同的元件，且除非在描述中另有指定，冠詞「一」和「上述」包含複數的參考。

可以理解，當元件被稱為被「連接」或「耦接」至另一元件時，該元件可被直接地連接到或耦接至另一元件或者可存在中間元件。相反地，當該元件被稱為被「直接連接」或「直接耦接」至到另一元件時，則不存在中間元件。用於描述元件之間的關係的其他詞語應以類似方式被解釋(例如，「在…之間」與「直接在…之間」、「相鄰」與「直接相鄰」等方式)。

第1圖係顯示根據本發明一實施例中臉部表情辨識系統100的示例性示意圖。臉部表情辨識系統100可包括連接至網路120的一識別裝置110及電子裝置130。

識別裝置110可包括輸入裝置112，其中，該輸入裝置112被配置為從各種來源接收輸入數據。舉例來說，計算裝置110可以從網路120接收圖像數據或接收電子裝置130所傳送之圖像。識別裝置110也可接收包括臉部的訓練圖像，並基於接收到的訓練圖像訓練被配置為識別臉部的識別器。

識別裝置110還包括處理器114、一卷積神經網路(Convolutional Neural Network，CNN)116及可以存儲程式1182的一記憶體118。此外，圖像可儲存在記憶體118中或是儲存在卷積神經網路116中。在一實施例中，卷積神經網路116可由處理器114所實現。在另一實施例中，識別裝置110可與本文所描述之外的其他組件、系統、子系統和/或裝置一起使用。

識別裝置110的類型範圍從小型手持裝置(例如，行動電話/可攜式電腦)到大型主機系統(例如大型電腦)。可攜式電腦的示例包括個人數位助理(PDA)、筆記型電腦等裝置。電子裝置130可使用網路120連接至計算裝置110。網路120可包括但不侷限於一或多個區域網(Local Area Network，LAN)和/或廣域網路(Wide Area Network，WAN)。

應可理解，第1圖所示的識別裝置110及電子裝置130係一臉部表情辨識系統100架構的示例。第1圖所示的每個元件可經由任何類型的計算裝置來實現，像是參考第8圖描述的計算裝置800，如第8圖所示。

第2圖係顯示根據本揭露一實施例所述之臉部表情辨識的方法200之流程圖。此方法可執行於如第1圖所示之識別裝置100的處理器中。

在流程開始之前，使用者可先輸入用於訓練的複數臉部圖像於識別裝置。在步驟S205中，識別裝置根據一平面式辨識模型辨識複數臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果，其中上述表情種類包括生氣(angry)、噁心(disgust)、害怕(fear)、中性無表情(neutral)、高興(happy)、傷心(sad)與驚訝(surprise)。如本文所使用的，術語「平面式辨識模型」係直接將訓練臉部圖像直接分為複數表情種類之一模型。

接著，在步驟S210中，識別裝置根據上述辨識結果計算每一表情種類與另一表情種類間之相似度，其中一第一表情種類與一第二表情種類之間的相似度係根據第一表情種類與第二表情種類之間的交叉熵(Cross Entropy)所取得。

更詳細地說明，一表情種類p與一表情種類q之間的相似度S(p,q)係可表示如下。

S(p,q)=H(p,q)+H(q,p)

其中H(p,q)及H(q,p)係為表情種類p與表情種類q之間的一交叉熵。交叉熵H(p,q)表示如下：

其中TP _p代表在表情種類p的臉部圖像中表情被正確辨識為表情種類p之數量，也就是辨識正確的圖像數量；FP _p,q代表在表情種類p的臉部圖像中表情被錯誤辨識為非表情種類p之數量，也就是辨識錯誤的圖像數量。在此一實施例中，相似度S(p,q)的數值越大則表示表情種類p與表情種類q越相似。

在步驟S215中，識別裝置根據上述相似度將上述表情種類分為複數表情群組。接著，在步驟S220中，識別裝置訓練一第一辨識模型分類上述臉部圖像中的上述表情至上述表情群組。在步驟S225中，識別裝置對每一上述表情群組分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為上述表情種類其中之一。

因此，透過第2圖中之方法200，識別裝置可訓練出一第一辨識模型及複數第二辨識模型，其中第二辨識模型的數量係對應表情群組的數量。當識別裝置接收包括一臉部的一輸入圖像時，識別裝置即可使用第一辨識模型及上述第二辨識模型辨識輸入圖像中表情的表情種類。

下方將詳細說明識別裝置如何在步驟S215中根據上述相似度將上述表情種類分為複數表情群組之流程。第3圖係顯示根據本揭露一實施例所述之識別裝置根據上述相似度將上述表情種類分為複數表情群組之流程圖300。

在步驟S305中，識別裝置根據在步驟S210中所取得之相似度合併相似度最高的兩個表情種類為一表情群組。接著，在步驟S310中，識別裝置判斷未合併表情種類的數量及表情群組的數量的一總和是否小於一預設值(例如，預設值為4)。當識別裝置判斷未合併表情種類的數量及表情群組的數量的總和小於預設值時(在步驟S310中的「是」)，結束此流程。

當識別裝置判斷未合併表情種類的數量及表情群組的數量的總和未小於預設值時(在步驟S310中的「否」)，在步驟S315中，識別裝置取得未合併表情種類與表情群組之間的相似度及表情群組間的相似度。而任一未合併表情種類與任一表情群組之間及表情群組間的相似度的計算，在本實施例中是先計算上述未合併表情種類與上述表情群組間及表情群組間的交叉熵後，再以加總的方式取得相似度。接著，在步驟S320中，識別裝置繼續合併相似度最高的兩個未合併表情種類、合併相似度最高的未合併的表情種類與表情群組或合併相似度最高的兩個表情群組為一新的表情群組。重複上述步驟S310、S315及S320，直至總和小於預設值為止。在另一實施例中，步驟S310中判斷條件也可以是判斷計算出的各相似度是否低於一預設門檻，在每一相似度皆低於預設門檻時則結束此流程，在並非每一相似度皆低於預設門檻時則繼續執行疊代運算。

在一實施例中，識別裝置在步驟S220中所訓練一第一辨識模型以及在步驟S225中所訓練第二辨識模型係基於一卷積神經網路(Convolutional Neural Network，CNN)模型。

須注意的是，如本文所使用的，術語「訓練」用於識別用於訓練辨識模型的對象。因此，訓練圖像是指用於訓練辨識模型的圖像。而且，訓練圖像可包括對應一目標圖像的分類。

舉例來說，第4圖係顯示根據本揭露一實施例之卷積神經網路400。

如圖所示，卷積神經網路400接受訓練輸入(Training Input)402(例如，臉部圖像或屬於一表情群組的臉部圖像)並且通過一連串應用層產生輸出(Output)412。特別地，卷積神經網路400利用多個卷積(Convolution)層404、多個激活(Rectified Linear，Re-Lu)層406、多個池化(Pooling)層408以及多個完全連接(Fully Connected)層410。利用這些層，卷積神經網路400產生輸出412。

換言之，這些層可以生成各種計算機視覺任務的模型，如圖像分類和檢測等。如第5圖所示，卷積神經網路500中的這些層可以幫助訓練一第一辨識模型510分類臉部圖像中的表情至複數表情群組(表情群組A、表情群組B、…、表情群組N)。類似地，如第6圖所示，卷積神經網路600中的這些層也可對每一表情群組(表情群組A、表情群組B、…、表情群組N)分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為其表情種類其中之一。舉例來說，第二辨識模型610A係被訓練用以分類表情群組A中之臉部圖像的表情為複數種表情種類之一，也就是分類為表情種類A₁、表情種類A₂、…或表情種類A_n。同理，第二辨識模型610B係被訓練用以分類表情群組B中之臉部圖像的表情為複數種表情種類之一，也就是表情種類B₁、表情種類B₂、…或表情種類B_n。

第7A~7F圖係顯示根據本揭露一實施例之識別臉部圖像實驗數據的表格，其依據蒐集到的臉部圖像作為訓練與測試資料，採用十摺交叉驗證來進行測試(10-fold cross validation)。蒐集到的臉部圖像數量為19367張，而用於測試的臉部圖像數量為1936張，並且識別裝置預設一預設值為4。

識別裝置根據一平面式辨識模型辨識測試臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果，如第7A圖中表格所示。第7A圖中表格中的數值係為在表情種類p的臉部圖像中表情被辨識為表情種類q之數量。

接著，辨識裝置可根據第7A圖中表格的辨識結果計算每一表情種類與另一表情種類間之交叉熵H(p,q)及H(q,p)，如第7B圖中表格所示。辨識裝置再根據第7B圖中表格計算每一表情種類與另一表情種類間之相似度S(p,q)。如第7C圖中表格所示，相似度最高的係為生氣(Anger)及噁心(Disgust)兩個表情種類，因此，辨識裝置將生氣及噁心兩個表情種類合併為一表情群組。第7D圖中之表格係顯示合併生氣及噁心兩個表情種類為一表情群組後每一表情種類及表情群組中測試臉部圖像的數量。

由於未合併表情種類的數量及表情群組的數量的總和係為6，辨識裝置判斷未小於預設值4，因此識別裝置再次根據平面式辨識模型取得每一未合併表情種類及表情群組彼此間之辨識結果。接著，辨識裝置根據上述辨識結果計算每一未合併表情種類與表情群組彼此間之交叉熵H(p,q)及H(q,p)，如第7E圖中表格所示。辨識裝置再根據第7E圖中表格計算每一未合併表情種類與表情群組彼此間之相似度S(p,q)，如第7F圖中表格所示。明顯地，相似度最高的係為包括生氣(Anger)及噁心(Disgust)兩個表情種類的表情群組及害怕(Fear)的表情種類。因此，辨識裝置會合併包括生氣(Anger)及噁心(Disgust)的表情群組及害怕(Fear)的表情種類為另一表情群組。

由於未合併表情種類的數量及表情群組的數量的總和係為5，辨識裝置判斷未小於預設值4，因此識別裝置再次執行上述流程，直到總和小於預設值4為此。後續流程亦如前所述，在此不再贅述。

如上所述，本揭露之臉部表情辨識的方法及裝置係使用交叉熵來計算表情種類之間的相似度，並訓練兩種不同的辨識模型於兩階段來辨識臉部圖像。在第一階段中的第一辨識模型係對相似的表情種類進行分組，避免具有較低相似度的表情種類間之辨識干擾。在第二階段中的第二辨識模型係對每一表情群組中的表情進行辨識，以集中訓練辨識這些相似度高表情的能力。

對於本發明已描述的實施例，下文描述了可以實現本發明實施例的示例性操作環境。具體參考第8圖，第8圖係顯示用以實現本發明實施例的示例性操作環境，一般可被視為計算裝置800。計算裝置800僅為一合適計算環境的一個示例，並不意圖暗示對本發明使用或功能範圍的任何限制。計算裝置800也不應被解釋為具有與所示元件任一或組合相關任何的依賴性或要求。

本發明可在電腦程式碼或機器可使用指令來執行本發明，指令可為程式模組的電腦可執行指令，其程式模組由電腦或其它機器，例如個人數位助理或其它可攜式裝置執行。一般而言，程式模組包括例程、程式、物件、元件、數據結構等，程式模組指的是執行特定任務或實現特定抽象數據類型的程式碼。本發明可在各種系統組態中實現，包括可攜式裝置、消費者電子產品、通用電腦、更專業的計算裝置等。本發明還可在分散式運算環境中實現，處理由通訊網路所連結的裝置。

參考第8圖。計算裝置800包括直接或間接耦接以下裝置的匯流排810、記憶體812、一或多個處理器814、一或多個顯示元件816、輸入/輸出(I/O)埠口818、輸入/輸出(I/O)元件820以及說明性電源供應器822。匯流排810表示可為一或多個匯流排之元件(例如，位址匯流排、數據匯流排或其組合)。雖然第8圖的各個方塊為簡要起見以線示出，實際上，各個元件的分界並不是具體的，例如，可將顯示裝置的呈現元件視為I/O元件；處理器可具有記憶體。

計算裝置800一般包括各種電腦可讀取媒體。電腦可讀取媒體可以是可被計算裝置800存取的任何可用媒體，該媒體同時包括易揮發性和非易揮發性媒體、可移動和不可移動媒體。舉例但不侷限於，電腦可讀取媒體可包括電腦儲存媒體和通訊媒體。電腦可讀取媒體同時包括在用於儲存像是電腦可讀取指令、資料結構、程式模組或其它數據之類資訊的任何方法或技術中實現的易揮發性性和非易揮發性媒體、可移動和不可移動媒體。電腦儲存媒體包括但不侷限於RAM、ROM、EEPROM、快閃記憶體或其它記憶體技術、CD-ROM、數位多功能光碟(DVD)或其它光碟儲存裝置、磁片、磁碟、磁片儲存裝置或其它磁儲存裝置，或可用於儲存所需的資訊並且可被計算裝置800存取的其它任何媒體。電腦儲存媒體本身不包括信號。

通訊媒體一般包含電腦可讀取指令、資料結構、程式模組或其它採用諸如載波或其他傳輸機制之類的模組化數據訊號形式的數據，並包括任何資訊傳遞媒體。術語「模組化數據訊號」係指具有一或多個特徵集合或以在訊號中編碼資訊之一方式更改的訊號。舉例但不侷限於，通訊媒體包括像是有線網路或直接有線連接的有線媒體及無線媒體，像是聲頻、射頻、紅外線以及其它無線媒體。上述媒體的組合包括在電腦可讀取媒體的範圍內。

記憶體812包括以易揮發性和非易揮發性記憶體形式的電腦儲存媒體。記憶體可為可移動、不移動或可以為這兩種的組合。示例性硬體裝置包括固態記憶體、硬碟驅動器、光碟驅動器等。計算裝置800包括一或多個處理器，其讀取來自像是記憶體812或I/O元件820各實體的數據。顯示元件816向使用者或其它裝置顯示數據指示。示例性顯示元件包括顯示裝置、揚聲器、列印元件、振動元件等。

I/O埠口818允許計算裝置800邏輯連接到包括I/O元件820的其它裝置，一些此種裝置為內建裝置。示例性元件包括麥克風、搖桿、遊戲台、碟形衛星訊號接收器、掃描器、印表機、無線裝置等。I/O元件820可提供一自然使用者介面，用於處理使用者生成的姿勢、聲音或其它生理輸入。在一些例子中，這些輸入可被傳送到一合適的網路元件以便進一步處理。NUI可實現語言識別、觸摸與手寫筆辨識、面部識別、生物識別、在螢幕上以及鄰近螢幕的姿勢識別、空中手勢、頭部及眼部追蹤以及與計算裝置800所顯示相關聯的觸摸識別的任意組合。計算裝置800可裝備有深度照相機，像是立體照相機系統、紅外線照相機系統、RGB照相機系統和這些系統的組合，以偵測與識別姿勢。另外，計算裝置800可以裝備有偵測運動的加速度計或陀螺儀。加速度計或陀螺儀的輸出可被提供給計算裝置800顯示以呈現沉浸式增強現實或虛擬實境。

此外，計算裝置800中之處理器814也可執行記憶體812中之程式及指令以呈現上述實施例所述之動作和步驟，或其它在說明書中內容之描述。

在此所揭露程序之任何具體順序或分層之步驟純為一舉例之方式。基於設計上之偏好，必須了解到程序上之任何具體順序或分層之步驟可在此文件所揭露的範圍內被重新安排。伴隨之方法權利要求以一示例順序呈現出各種步驟之元件，也因此不應被此所展示之特定順序或階層所限制。

申請專利範圍中用以修飾元件之「第一」、「第二」、「第三」等序數詞之使用本身未暗示任何優先權、優先次序、各元件之間之先後次序、或方法所執行之步驟之次序，而僅用作標識來區分具有相同名稱(具有不同序數詞)之不同元件。

雖然本揭露已以實施範例揭露如上，然其並非用以限定本案，任何熟悉此項技藝者，在不脫離本揭露之精神和範圍內，當可做些許更動與潤飾，因此本案之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種臉部表情辨識的方法，包括：辨識複數臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果；根據上述辨識結果計算每一表情種類與另一表情種類間之相似度；根據上述相似度將上述表情種類分為複數表情群組；訓練一第一辨識模型分類上述臉部圖像中的上述表情至上述表情群組；以及對每一上述表情群組分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為上述表情種類其中之一。
如申請專利範圍第1項所述之臉部表情辨識的方法，其中一第一表情種類與一第二表情種類之間的相似度係根據上述第一表情種類與上述第二表情種類之間的交叉熵(Cross Entropy)所取得。
如申請專利範圍第1項所述之臉部表情辨識的方法，其中上述相似度表示如下：S(p,q)=H(p,q)+H(q,p)其中S(p,q)係為一表情種類p與一表情種類q之間的相似度，H(p,q)及H(q,p)係為上述表情種類p與上述表情種類q之間的一交叉熵，其中上述交叉熵H(p,q)表示如下：其中TP _p代表在上述表情種類p的上述臉部圖像中表情被正確辨識為上述表情種類p之數量，FP _p,q代表在上述表情種類p的上述臉部圖像中表情被錯誤辨識為上述表情種類q之數量。
如申請專利範圍第1項所述之臉部表情辨識的方法，其中根據上述相似度將上述表情種類分為複數表情群組係包括：合併上述相似度最高的兩個表情種類為一表情群組；取得上述未合併的表情種類與上述表情群組彼此之間的相似度；以及合併上述相似度最高的未合併的表情種類與表情群組或合併上述相似度最高的兩個未合併的表情種類為另一表情群組。
如申請專利範圍第4項所述之臉部表情辨識的方法，其中根據上述相似度將上述表情種類分為複數表情群組係還包括：取得上述表情群組與上述另一表情群組彼此之間的相似度；以及合併相似度最高的上述表情群組與上述另一表情群組。
如申請專利範圍第4項所述之臉部表情辨識的方法，其中上述未合併的表情種類與上述表情群組之間的相似度係根據上述未合併的表情種類與上述表情群組之間的交叉熵所取得。
如申請專利範圍第4項所述之臉部表情辨識的方法，更包括：接收包括一臉部的一輸入圖像；以及使用上述第一辨識模型及上述第二辨識模型辨識上述輸入圖像中表情的表情種類。
如申請專利範圍第1項所述之臉部表情辨識的方法，其中上述表情種類包括生氣、噁心、害怕、中性無表情、高興、傷心及驚訝。
如申請專利範圍第1項所述之臉部表情辨識的方法，其中，上述第一辨識模型及上述第二辨識模型係基於一卷積神經網路(Convolutional Neural Network，CNN)模型。
一種臉部表情辨識的裝置，包括：一或多個處理器；以及一或多個電腦儲存媒體，儲存電腦可讀取指令，其中上述處理器使用上述電腦儲存媒體以執行：辨識複數臉部圖像中表情的表情種類，並取得每一表情種類與另一表情種類間之辨識結果；根據上述辨識結果計算每一表情種類與另一表情種類間之相似度；根據上述相似度將上述表情種類分為複數表情群組；訓練一第一辨識模型分類上述臉部圖像中的上述表情至上述表情群組；以及對每一上述表情群組分別訓練一第二辨識模型分類各自表情群組中之臉部圖像的表情為上述表情種類其中之一。
如申請專利範圍第10項所述之臉部表情辨識的裝置，其中一第一表情種類與一第二表情種類之間的相似度係根據上述第一表情種類與上述第二表情種類之間的交叉熵(Cross Entropy)所取得。
如申請專利範圍第10項所述之臉部表情辨識的裝置，其中上述相似度表示如下：S(p,q)=H(p,q)+H(q,p)其中S(p,q)係為一表情種類p與一表情種類q之間的相似度，H(p,q)及H(q,p)係為上述表情種類p與上述表情種類q之間的一交叉熵，其中上述交叉熵H(p,q)表示如下：其中TP _p代表在上述表情種類p的上述臉部圖像中表情被正確辨識為上述表情種類p之數量，FP _p,q代表在上述表情種類p的上述臉部圖像中表情被錯誤辨識為上述表情種類q之數量。
如申請專利範圍第10項所述之臉部表情辨識的裝置，其中上述處理器根據上述相似度將上述表情種類分為複數表情群組係包括：合併上述相似度最高的兩個表情種類為一表情群組；取得上述未合併的表情種類與上述表情群組彼此之間的相似度；以及合併上述相似度最高的未合併的表情種類與表情群組或合併上述相似度最高的兩個未合併的表情種類為另一表情群組。
如申請專利範圍第13項所述之臉部表情辨識的裝置，其中上述處理器根據上述相似度將上述表情種類分為複數表情群組係還包括：取得上述表情群組與上述另一表情群組彼此之間的相似度；以及合併相似度最高的上述表情群組與上述另一表情群組。
如申請專利範圍第13項所述之臉部表情辨識的裝置，其中上述未合併的表情種類與上述表情群組之間的相似度係根據上述未合併的表情種類與上述表情群組之間的交叉熵所取得。
如申請專利範圍第13項所述之臉部表情辨識的裝置，上述處理器更使用上述電腦儲存媒體以執行：接收包括一臉部的一輸入圖像；以及使用上述第一辨識模型及上述第二辨識模型辨識上述輸入圖像中表情的表情種類。
如申請專利範圍第10項所述之臉部表情辨識的裝置，其中上述表情種類包括生氣、噁心、害怕、中性無表情、高興、傷心及驚訝。
如申請專利範圍第10項所述之臉部表情辨識的裝置，其中，上述第一辨識模型及上述第二辨識模型係基於一卷積神經網路(Convolutional Neural Network，CNN)模型。