TW202040517A

TW202040517A - 產生模擬使用者的三維臉部模型的方法及裝置

Info

Publication number: TW202040517A
Application number: TW108117644A
Authority: TW
Inventors: 林鼎傑; 周世杰
Original assignee: 未來市股份有限公司
Priority date: 2019-04-21
Filing date: 2019-05-22
Publication date: 2020-11-01
Also published as: US10650564B1; CN111833236A; JP2020177620A; CN111833236B

Abstract

一種產生模擬使用者的三維臉部模型的方法，包含有：取得二維影像；對二維影像進行關鍵點偵測操作，以透過複數個關鍵點，取得第一臉部特徵；根據複數個關鍵點之間的相對距離，計算第一臉部特徵所屬的複數個特徵類別的複數個權重；對二維影像進行深度神經網路操作，以取得第二臉部特徵所屬的複數個紋理成份，以及對應複數個紋理成份的複數個概率，其中複數個紋理成份是由三維臉部網格表示；以及根據預設於計算裝置的三維臉部樣版、對應複數個特徵類別的複數個三維參數、複數個權重及複數個概率中具有最高概率的紋理成份，產生三維臉部模型。

Description

產生模擬使用者的三維臉部模型的方法及裝置

本發明涉及一種三維臉部幾何重建，尤指一種透過二維影像來產生模擬使用者的三維臉部模型的方法及裝置。

使用2D影像重建3D臉部模型是遊戲沉浸和模擬設計的持續挑戰。舉例來說，用戶希望透過在屏幕上看到自己的模擬使用者（avatar），藉以透過模擬使用者感受到身歷其境的體驗。為此，在3D臉部重建的領域發展出許多技術，目的是將自己的肖像置入到遊戲或模擬系統中。然而，現有的技術需要最少兩個影像和複雜計算來產生3D臉部模型。

許多使用單張圖像進行臉部重建的方法在過去已被提出。其中，基於實例的方法包含透過標準資料庫，構建出以低維參數表示的3D人臉模型，然後將參數模型擬合到2D圖像上。最著名的例子之一是應用卷積神經網路（convolutional neural network ，CNN）的3D形變模型（3D morphable model，3DMM）。3DMM由於其簡單性而成為一種普遍的參數化臉部模型，並且可作為更複雜的臉部重建的基礎。然而，這些方法不能生成具有個性特徵的臉部模型，並且只能用於特定條件下的臉部識別。此外，缺乏足夠的訓練數據是CNN技術的一個大問題，因此CNN技術僅能得到一個淺層殘餘網路。

單張圖像重建3D人臉模型的另一種方法是透過陰影形狀（shape from shading，SFS），其主要是利用陰影變化來恢復3D形狀的傳統電腦視覺技術。舉例來說，Kemelmacher-Shlizerman和Basri透過使用參考臉部形狀來估計其光照和反射參數，藉以從輸入臉部圖像中獲得深度資料。雖然這些現有方法能夠透過單張圖像產生高質量的3D人臉重建，但它們也具有局限性。

詳細來說，雖然3DMM方法簡單而有效，但是當目標臉部與資料庫中的臉部模型有很大的不同時，會產生非預期的結果。此外，由於低維模型的自由度有限，該方法通常無法重建出目標臉部上的精細幾何細節（例如皺紋）。另一方面，雖然基於SFS的方法能夠從輸入圖像的外觀捕獲精細的臉部細節。然而，SFS的方法需要幾何或亮度的運算。以解決重建目標臉部的模糊性問題，並且當輸入圖像未滿足預設情況時，目標臉部重建的結果可能會變得不精確。

因此，本發明的主要目的即在於提供一種產生模擬使用者的三維臉部模型的方法及裝置，以解決上述問題。

本發明揭露一種產生模擬使用者的三維臉部模型的方法，用於一計算裝置，該方法包含有：取得一二維影像；對該二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵；根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的複數個特徵類別的複數個權重，其中該複數個特徵類別預先定義於該計算裝置中；對該二維影像進行一深度神經網路操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應該複數個紋理成份的複數個概率，其中該複數個紋理成份是由一三維臉部網格表示，並預設於該計算裝置中；以及根據預設於該計算裝置的一三維臉部樣版、對應該複數個特徵類別的複數個三維參數、該複數個權重及該複數個概率中具有最高概率的該紋理成份，產生一三維臉部模型。

本發明另揭露一使用者模擬系統，包含有：一攝影機，用來取得一二維影像；一計算裝置或一雲端裝置，用來產生一模擬使用者的一三維臉部模型；其中該計算裝置或一雲端裝置包含有：一處理單元，用來執行一程式碼；一儲存單元，連接該處理單元，用來儲存該程式碼；其中該程式碼指示該處理單元執行以下步驟：取得一二維影像；對該二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵；根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的複數個特徵類別的複數個權重，其中該複數個特徵類別預先定義於該計算裝置中；對該二維影像進行一深度神經網路操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應該複數個紋理成份的複數個概率，其中該複數個紋理成份是由一三維臉部網格表示，並預設於該計算裝置中；以及根據預設於該計算裝置的一三維臉部樣版、對應該複數個特徵類別的複數個三維參數、該複數個權重及該複數個概率中具有最高概率的該紋理成份，產生一三維臉部模型。

本發明另揭露一計算裝置，用來產生模擬使用者的三維臉部模型，該計算裝置包含有：一處理單元，用來執行一程式碼；一儲存單元，連接該處理單元，用來儲存該程式碼；其中該程式碼指示該處理單元執行以下步驟：取得一二維影像；對該二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵；根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的複數個特徵類別的複數個權重，其中該複數個特徵類別預先定義於該計算裝置中；對該二維影像進行一深度神經網路操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應該複數個紋理成份的複數個概率，其中該複數個紋理成份是由一三維臉部網格表示，並預設於該計算裝置中；以及根據預設於該計算裝置的一三維臉部樣版、對應該複數個特徵類別的複數個三維參數、該複數個權重及該複數個概率中具有最高概率的該紋理成份，產生一三維臉部模型。

請參考第1圖，第1圖為本發明實施例一三維臉部模型產生裝置10的示意圖。三維臉部模型產生裝置10可為本地計算裝置或雲端裝置，並包含有一處理單元100、一儲存單元110以及一通訊介面單元120。處理單元100可為一微處理器或一特殊應用積體電路（application-specific integrated circuit，ASIC）。儲存單元110可為任一資料儲存裝置，用來儲存一程式碼214，並透過處理單元100讀取及執行程式碼114。舉例來說，儲存單元110可為用戶識別模組（subscriber identity module，SIM）、唯讀式記憶體（read-only memory，ROM）、隨機存取記憶體（random-access memory，RAM）、光碟唯讀記憶體（CD-ROMs）、磁帶（magnetic tapes）、軟碟（floppy disks）、光學資料儲存裝置（optical data storage devices）等等，而不限於此。通訊介面單元120可透過有線或無線通訊方式，用來與其他裝置（如攝影機及顯示裝置）交換訊號。換句話說，通訊介面單元120可從攝影機接收一二維影像，並將三維臉部模型產生裝置10產生的三維臉部模型傳送至顯示裝置。因此，顯示裝置能顯示模擬使用者的三維臉部模型，以增加虛擬實境（virtual reality，VR）遊戲的沉浸感。在一實施例中，攝影機、顯示裝置及作為本地計算裝置或雲端裝置的三維臉部模型產生裝置10可形成一使用者模擬系統。

請參考第2圖，其為本發明實施例一流程20的示意圖。流程20用於第1圖所示的三維臉部模型產生裝置10，用來根據單一個二維影像，產生三維臉部模型（如VR遊戲中的模擬使用者的表情）。流程20可編譯為程式碼114，並包含有以下步驟：

步驟200：取得二維影像。

步驟210：對二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵。

步驟220：根據複數個關鍵點之間的相對距離，計算對應第一臉部特徵所屬的複數個特徵類別的複數個權重，其中複數個特徵類別預先定義於三維臉部模型產生裝置10。

步驟230：對二維影像進行一深度神經網路（deep neural network，DNN）操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應複數個紋理成份的複數個概率，其中複數個紋理成份是採用三維臉部網格來表示，並預設於三維臉部模型產生裝置10。

步驟240：根據預設於三維臉部模型產生裝置10的三維臉部樣版、對應複數個特徵類別的複數個三維參數、複數個權重及複數個概率中具有最高概率的紋理成份，產生一三維臉部模型。

根據流程20，三維臉部模型產生裝置10透過通訊介面單元120，接收攝影機所擷取的2D影像、透過儲存單元110預先儲存的多張2D影像來取得2D影像，或從互聯網/網站的資料庫取得2D影像。接著，三維臉部模型產生裝置10根據在2D影像上的深度神經網路操作及關鍵點偵測操作，產生3D臉部模型。

詳細來說，三維臉部模型產生裝置10透過在2D影像上的關鍵點，擷取出臉部特徵，如臉型、眼睛，鼻子，眉毛及嘴巴等，藉以分辨出每個臉部特徵所屬的形狀類別（如臉型、眼型、鼻型、嘴型等）。在一實施例中，臉部特徵的形狀類別可預先定義在應用程式或軟體中。舉例來說，臉型可歸納成圓臉，方臉，長臉，心臉，鑽石臉或橢圓臉，但不限於此。值得注意的是，針對每個臉型類別/類型，設計人員利用3D參數來描述臉型的幾何形狀。換句話說，每個臉型類別/類型是透過3D參數來表示。3D參數在本文中可為關於下巴寬度和長度的曲線的一組參數，但不限於此。同理，眼睛，鼻子，眉毛及嘴巴等臉部特徵，也分別歸納為複數個類別/類型，並透過3D參數來描述。

舉例來說，三維臉部模型產生裝置10預設有六種類別的臉型，如圓形臉，方形臉，長形臉，心形臉，菱形臉或橢圓臉，並且這六種類別的臉型是透過3D參數T₁ ～T₆ 來描述。藉由人工智能（Artificial Intelligence，AI）/機器學習技術，三維臉部模型產生裝置10可以計算出由關鍵點所標示的臉型屬於六種類別臉型的概率，從而決定出權重W₁ ～W₆ 。三維臉部模型產生裝置10產生3D臉型的公式可表示為：

3D臉部模型＝S₀ +T₁ W₁ +T₂ W₂ …+T₆ W₆ ，其中S₀ 為預設的臉型樣版。

同理，經過上述方式，三維臉部模型產生裝置10可決定眼睛，鼻子，嘴巴和眉毛所屬每種類別的權重，以產生模擬使用者的完整且精確的3D臉部模型。

此外，三維臉部模型產生裝置10另使用深度神經網路操作，擷取出臉部特徵，因此2D影像上的臉部特徵除了透過形狀來表現，亦可透過紋理成份來表現，如唇色、眼袋、眉毛紋理、臉部毛髮紋理、頭髮顏色、髮型及可變形的特徵標的等。此外，深度神經網路操作可計算出臉部特徵所屬紋理成份的概率。換句話說，深度神經網路操作是用來判斷臉部特徵所屬的紋理成份是否出現。

在一實施例中，紋理成份是預先定義在應用程式或軟體中，並透過3D臉部網格來表示。簡單來說，針對每個紋理成份，程式設計者透過3D臉部網格來呈現在3D臉部樣板上的表面紋理，藉以根據紋理成份，產生模擬使用者的3D臉部模型。請參見第3～4圖，其為本發明實施例一紋理成份的示意圖。如第3圖所示，眉毛紋理是透過3D臉部網格來表示，並包含高拱眉毛、濃密眉毛、薄細眉毛、直軟眉毛。如第4圖所示，臉部毛髮紋理包括山羊鬍子、鬢角鬍子、鬚茬、絡腮鬍、長方形鬍鬚、山羊絡腮鬍、荷蘭式鬍和時髦型鬍子，其中每種臉部毛髮紋理皆對應至一種3D臉部網格。

此外，紋理成份亦可包含頭髮顏色，如黑色、棕色、金色及灰色；可變形目標包括尖鼻子、球根鼻子、翻鼻尖及鷹鉤鼻；髮型包含短、中、長及禿頭。

另外，根據臉部特徵所屬紋理成份的概率，三維臉部模型產生裝置10選擇具有最高概率的紋理成份來產生3D臉部模型。舉例來說，三維臉部模型產生裝置10預設眉毛有5種紋理成份，例如高拱形、濃密，薄、直、柔軟。經由深度神經網路操作，三維臉部模型產生裝置10獲得2D影像上的眉毛屬於高拱形紋理的概率為0.1、屬於濃密紋理為0.9，以及屬其他紋理的概率為0。因此，三維臉部模型產生裝置10會套用對應濃密紋理的3D臉部網格，在3D臉部樣板上，生成3D臉部模型。

同理，三維臉部模型產生裝置10可利用深度神經網路操作計算出的概率，來分別選擇可變形標的、唇色、頭髮顏色、髮型和鬍鬚的紋理成份，以產生具有完整臉部特徵的3D臉部模型（即包含臉部形狀和臉部紋理）。

在一實施例中，將深度神經網路操作應用於第5圖所示的2D影像上，以實現臉部紋理屬性的預測，其中深度神經網路操作輸出透過概率來指示紋理成份是否存在的標籤。例如，標籤label_1表示臉部紋理出現山羊鬍鬚的概率為0.8，而標籤label_2表示鬢角鬍子出現的概率為0.1。因此，三維臉部模型產生裝置10所產生的3D臉部模型上，會呈現山羊鬍鬚的臉部紋理。簡言之，如果有五種頭髮顏色，則深度神經網路操作會使用五種標籤來指示出現這五種頭髮顏色的概率。本發明實施例可以將相同的概念應用於可變形標的，髮型，唇色，眉毛，眼袋等，用來決定會在3D臉部模型上呈現的紋理成份。最後，三維臉部模型產生裝置10利用具有最高概率的的標籤所對應的紋理成份，產生如第6圖所示的3D臉部模型。

深度神經網路操作的詳細說明如下：

1. 準備訓練數據（標記有臉部特徵的影像）；

2. 定義損失函數（如二元交叉熵）；

3. 將訓練數據輸入網絡，並使用優化器調整網路參數，以最大限度地減少輸出損失功能；

4. 建立用於臉部紋理屬性預測的網路模型。

上述所有步驟，包含所建議的步驟，可透過硬體、韌體（即硬體裝置與電腦指令的組合，硬體裝置中的資料為唯讀軟體資料）或電子系統等方式實現。舉例來說，硬體可包含類比、數位及混合電路（即微電路、微晶片或矽晶片）。電子系統可包含系統單晶片（system on chip，SOC）、系統封裝（system in package，Sip）、電腦模組（computer on module，COM）及三維臉部模型產生裝置10。

綜上所述，本發明提供同時採用深度神經網路操作及關鍵點偵測操作的3D臉部重建技術。詳細來說，透過深度神經網路操作來獲得臉部紋理屬性預測，可以準確地判斷對應臉部特徵所屬的紋理成份的概率，從而建立高質量且逼真的3D臉部模型。因此，本發明與傳統方法相比，具有更高相似度的模擬使用者。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

10:三維臉部模型產生裝置 100:處理單元 110:儲存單元 120:通訊介面單 114:程式碼 20:流程 200～240:步驟

第1圖為本發明實施例一三維臉部模型產生裝置的示意圖。第2圖為本發明實施例一流程的示意圖。第3～4圖為本發明實施例一紋理成份的示意圖。第5圖為本發明實施例一二維影像的示意圖。第6圖為本發明實施例一三維臉部模型的示意圖。

20:流程

200~240:步驟

Claims

一種產生模擬使用者的三維臉部模型的方法，用於一計算裝置，該方法包含有：取得一二維影像；對該二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵；根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的複數個特徵類別的複數個權重，其中該複數個特徵類別預先定義於該計算裝置中；對該二維影像進行一深度神經網路（deep neural network，DNN）操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應該複數個紋理成份的複數個概率，其中該複數個紋理成份是由一三維臉部網格表示，並預設於該計算裝置中；以及根據預設於該計算裝置的一三維臉部樣版、對應該複數個特徵類別的複數個三維參數、該複數個權重及該複數個概率中具有最高概率的該紋理成份，產生一三維臉部模型。
如請求項1所述的方法，更包含有：根據該複數個關鍵點之間的相對距離，決定該複數個特徵類別中的至少一特徵類別。
如請求項2所述的方法，其中根據該複數個關鍵點之間的相對距離，決定該複數個特徵類別中的該至少一特徵類別的步驟包含有：根據該複數個關鍵點之間的相對距離，判斷該臉部特徵的一寬度及一長度，以取得該第一臉部特徵的一比例；以及根據該比例，決定該第一臉部特徵所屬的該至少一特徵類別。
如請求項1所述的方法，其中根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的該複數個特徵類別的該複數個權重的步驟包含有：根據該複數個關鍵點之間的相對距離，判斷該第一臉部特徵的一寬度及一長度，以取得該第一臉部特徵的一比例；以及根據該比例，計算對應該第一臉部特徵所屬的該複數個特徵類別的該複數個權重。
一使用者模擬系統，包含有：一攝影機，用來取得一二維影像；一計算裝置或一雲端裝置，用來產生一模擬使用者的一三維臉部模型；其中該計算裝置或一雲端裝置包含有：一處理單元，用來執行一程式碼；一儲存單元，連接該處理單元，用來儲存該程式碼；其中該程式碼指示該處理單元執行以下步驟：取得一二維影像；對該二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵；根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的複數個特徵類別的複數個權重，其中該複數個特徵類別預先定義於該計算裝置中；對該二維影像進行一深度神經網路（deep neural network，DNN）操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應該複數個紋理成份的複數個概率，其中該複數個紋理成份是由一三維臉部網格表示，並預設於該計算裝置中；以及根據預設於該計算裝置的一三維臉部樣版、對應該複數個特徵類別的複數個三維參數、該複數個權重及該複數個概率中具有最高概率的該紋理成份，產生一三維臉部模型。
如請求項5所述的使用者模擬系統，其中該程式碼更指示該處理單元執行以下步驟：根據該複數個關鍵點之間的相對距離，決定該複數個特徵類別中的至少一特徵類別。
如請求項6所述的使用者模擬系統，其中該程式碼更指示該處理單元執行以下步驟：根據該複數個關鍵點之間的相對距離，判斷該臉部特徵的一寬度及一長度，以取得該第一臉部特徵的一比例；以及根據該比例，決定該第一臉部特徵所屬的該至少一特徵類別。
如請求項5所述的使用者模擬系統，其中該程式碼更指示該處理單元執行以下步驟：根據該複數個關鍵點之間的相對距離，判斷該第一臉部特徵的一寬度及一長度，以取得該第一臉部特徵的一比例；以及根據該比例，計算對應該第一臉部特徵所屬的該複數個特徵類別的該複數個權重。
一計算裝置，用來產生模擬使用者的三維臉部模型，該計算裝置包含有：一處理單元，用來執行一程式碼；一儲存單元，連接該處理單元，用來儲存該程式碼；其中該程式碼指示該處理單元執行以下步驟：取得一二維影像；對該二維影像進行一關鍵點偵測操作，以透過複數個關鍵點，取得一第一臉部特徵；根據該複數個關鍵點之間的相對距離，計算對應該第一臉部特徵所屬的複數個特徵類別的複數個權重，其中該複數個特徵類別預先定義於該計算裝置中；對該二維影像進行一深度神經網路（deep neural network，DNN）操作，以取得一第二臉部特徵所屬的複數個紋理成份，以及對應該複數個紋理成份的複數個概率，其中該複數個紋理成份是由一三維臉部網格表示，並預設於該計算裝置中；以及根據預設於該計算裝置的一三維臉部樣版、對應該複數個特徵類別的複數個三維參數、該複數個權重及該複數個概率中具有最高概率的該紋理成份，產生一三維臉部模型。
如請求項9所述的計算裝置，其中該程式碼更指示該處理單元執行以下步驟：根據該複數個關鍵點之間的相對距離，決定該複數個特徵類別中的至少一特徵類別。
如請求項10所述的計算裝置，其中該程式碼更指示該處理單元執行以下步驟：根據該複數個關鍵點之間的相對距離，判斷該臉部特徵的一寬度及一長度，以取得該第一臉部特徵的一比例；以及根據該比例，決定該第一臉部特徵所屬的該至少一特徵類別。
如請求項9所述的計算裝置，其中該程式碼更指示該處理單元執行以下步驟：根據該複數個關鍵點之間的相對距離，判斷該第一臉部特徵的一寬度及一長度，以取得該第一臉部特徵的一比例；以及根據該比例，計算對應該第一臉部特徵所屬的該複數個特徵類別的該複數個權重。