TWI716938B

TWI716938B - 臉部表情建構方法、裝置及非暫態電腦可讀取紀錄媒體

Info

Publication number: TWI716938B
Application number: TW108125876A
Authority: TW
Inventors: 王士豪; 孫信慶; 林政憲; 楊宏毅
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-08-10
Filing date: 2019-07-22
Publication date: 2021-01-21
Also published as: US10885702B2; TW202009789A; US20200051326A1; CN110827394B; CN110827394A

Abstract

一種臉部表情建構方法，應用於臉部表情建構裝置中，包括：接收由二影像擷取模組擷取包含臉部表情之兩個二維影像；根據兩個二維影像進行深度學習運算，以產生視差圖；串接兩個二維影像以及視差圖為三通道特徵圖；藉由權重計算神經網路對三通道特徵圖進行計算，以產生複數個形狀融合權重；以及根據形狀融合權重建構三維臉部表情。

Description

臉部表情建構方法、裝置及非暫態電腦可讀取紀錄媒體

本發明是有關於三維影像技術，且特別是有關於一種臉部表情建構方法、裝置及非暫態電腦可讀取紀錄媒體。

捕捉並處理人類的幾何特徵、表情與動作，是在現代電腦動畫的技術核心。數位演員常藉由結合三維掃描與特徵擷取來創造。然而，現存的技術中的缺點是，無法準確的估測用以表現臉部表情細節的權重。

因此，如何設計一個新的臉部表情建構方法、裝置及非暫態電腦可讀取紀錄媒體，以解決上述的缺失，乃為此一業界亟待解決的問題。

本發明之目的在於提供一種臉部表情建構方法，應用於臉部表情建構裝置中，包括：接收由二影像擷取模組擷取包含臉部表情之兩個二維影像；根據兩個二維影像進行深度學習運算，以產生視差圖；串接(concatenate)兩個二維影像以及視差圖為三通道特徵圖(feature map)；藉由權重計算神經網路對三通道特徵圖進行計算，以產生複數個形狀融合(blend shape)權重；以及根據形狀融合權重建構三維臉部表情。

本發明之另一目的在於提供一種臉部表情建構裝置，包括：儲存模組以及處理模組。儲存模組配置以儲存複數電腦可執行指令。處理模組電性耦接於儲存模組，並配置以擷取並執行電腦可執行指令，以執行臉部表情建構方法。臉部表情建構方法包括：接收由二影像擷取模組擷取包含臉部表情之兩個二維影像；根據兩個二維影像進行深度學習運算，以產生視差圖；串接兩個二維影像以及視差圖為三通道特徵圖；藉由權重計算神經網路對三通道特徵圖進行計算，以產生複數個形狀融合權重；以及根據形狀融合權重建構三維臉部表情。

本發明之又一目的在於提供一種非暫態電腦可讀取紀錄媒體，配置以儲存應用程式以藉由臉部表情建構裝置執行臉部表情建構方法。臉部表情建構方法包括：接收由二影像擷取模組擷取包含臉部表情之兩個二維影像；根據兩個二維影像進行深度學習運算，以產生視差圖；串接兩個二維影像以及視差圖為三通道特徵圖；藉由權重計算神經網路對三通道特徵圖進行計算，以產生複數個形狀融合權重；以及根據形狀融合權重建構三維臉部表情。

本發明的臉部表情建構裝置及臉部表情建構方法不僅根據二維影像中臉部的二維位置資訊，亦根據臉部的深度資訊來產生形狀融合權重。臉部表情的建構將具有更高的精確度。

1‧‧‧臉部表情建構裝置

100、110‧‧‧影像擷取模組

120‧‧‧儲存模組

125‧‧‧電腦可執行指令

130‧‧‧處理模組

140‧‧‧紅外光發射模組

150‧‧‧臉部

200‧‧‧臉部表情建構方法

201-205‧‧‧步驟

3‧‧‧系統

300‧‧‧深度計算神經網路

310‧‧‧串接單元

320‧‧‧權重計算神經網路

DP‧‧‧視差圖

IM1、IM2‧‧‧二維影像

IR‧‧‧紅外光

TFP‧‧‧三通道特徵圖

WE‧‧‧形狀融合權重

第1圖為本發明一實施例中，一種臉部表情建構裝置的方塊圖；第2圖為本發明一實施例中，一種臉部表情建構方法的流程圖；以及第3圖為本發明一實施例中，根據臉部表情建構裝置的運作所實現的系統的方塊圖。

請參照本揭示內容的實施例，其中以下的範例將搭配圖式進行說明。在圖式及說明中所使用相同的元件符號，將指稱相同或類似的元件。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，當元件被描述為「連接」或「耦接」至另一元件時，其可為直接連接或耦接至另一元件，或是可能存在有中間的元件。相對的，當元件被描述為「直接連接」或「直接耦接」至另一元件時，將不會有中間的元件存在。更進一步地，「電性連接」或「連接」可更用以指稱兩個或多個元件間的交互操作以及互動。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，雖然「第一」、「第二」等用語可用以描述不同的元件，這些元件可不被這些用語所限制。這些用語僅用以區分不同的元件。舉例來說，第一元件亦可被改稱為第二元件，且類似地，第二元件亦可被改稱第一元件，而不會悖離實施例的範圍。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，「包含」、「包括」、「具有」、「含有」及類似的用語是被理解為開放性的，例如表示「包含，但不限於」。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，「及/或」的語句包含所列舉的一個或多個相關事物中的任何以及全部的組合。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，在以下的實施例的敘述中用以指稱方向的詞彙，例如「上」、「下」、「左」、「右」、「前」及「後」，是與圖式中的方向相關。因此，這樣指稱方向的詞彙是用以敘述，而非限制本揭示內容。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，除非另行定義，所有的用語(包含技術性或是科學性用語)具有任何本揭示內容所屬技術領域的通常知識者所普遍理解的相同意義。須更進一步了解的是，此些用語，例如定義於常用的字典者，除非特別定義，否則需解讀為具有與在相關的技術領域所使用的相同意義，而不能被廣泛地解讀。

請參照第1圖。第1圖為本發明一實施例中，一種臉部表情建構裝置1的方塊圖。臉部表情建構裝置1包含二影像擷取模組100及110、儲存模組120以及處理模組130。

於一實施例中，影像擷取模組100及110電性耦接於處理模組130。影像擷取模組100及110配置以擷取兩個二維影像IM1及IM2。更詳細地說，影像擷取模組100擷取二維影像IM1，影像擷取模組110擷取二維影像IM2。

於一實施例中，儲存模組120可為例如，但不限於光碟、隨機存取記憶體(random access memory；RAM)、唯讀記憶體(read only memory；ROM)、軟碟、硬碟或光學磁碟片。儲存模組120配置以儲存複數電腦可執行指令125。

處理模組130電性耦接於儲存模組120。於一實施例中，處理模組130配置以擷取並執行電腦可執行指令125，並據以執行臉部表情建構裝置1的功能。更詳細地說，處理模組130接收由影像擷取模組100及110擷取的二維影像IM1及IM2，以根據二維影像IM1及IM2進行臉部表情建構。

臉部表情建構裝置1的運作將進一步於以下的段落詳述。

請同時參照第2圖及第3圖。

第2圖為本發明一實施例中，一種臉部表情建構方法200的流程圖。臉部表情建構方法200可應用於例如第1 圖所繪示的臉部表情建構裝置1中，或由其他硬體元件如資料庫、一般處理器、計算機、伺服器、或其他具特定邏輯電路的獨特硬體裝置或具特定功能的設備來實作，如將程式碼和處理器/晶片整合成獨特硬體。更詳細地說，臉部表情建構方法200可使用電腦程式實現，以控制臉部表情建構裝置1的各元件。電腦程式可儲存於一非暫態電腦可讀取記錄媒體中，例如唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。

第3圖為本發明一實施例中，根據臉部表情建構裝置1的運作所實現的系統3的方塊圖。更詳細地說，當處理模組130執行電腦可執行指令125時，電腦可執行指令125運作為系統3的模組，以執行臉部表情建構方法200。系統3包含深度計算神經網路300、串接單元310以及權重計算神經網路320。

臉部表情建構方法200包含下列步驟(應瞭解到，在本實施方式中所提及的步驟，除特別敘明其順序者外，均可依實際需要調整其前後順序，甚至可同時或部分同時執行)。

於步驟201，使深度計算神經網路300接收由二影像擷取模組100及110擷取包含臉部表情之兩個二維影像IM1及IM2。

需注意的是，在第1圖中，影像擷取模組100及110是繪示為臉部表情建構裝置1的一部分。然而，在其他實施例中，影像擷取模組100及110並不必須為臉部表情建構裝置1的一部分。

更詳細地說，在一實施例中，處理模組130可自設置於臉部表情建構裝置1中的影像擷取模組100及110擷取二維影像IM1及IM2。於其他實施例中，處理模組130可接收例如儲存於儲存模組120中的二維影像IM1及IM2，或是利用有線或是無線網路存取遠端伺服器來接收二維影像IM1及IM2。其中，二維影像IM1及IM2是由臉部表情建構裝置1外的影像擷取模組100及110所擷取。

於一實施例中，第1圖所繪示的影像擷取模組100及110分別為一紅外光影像擷取模組。臉部表情建構裝置1可更包含紅外光發射模組140，以發射紅外光IR照射第1圖所示具有臉部表情的臉部150，以由影像擷取模組100及110擷取二維影像IM1及IM2。其中，於一實施例中，紅外光影像擷取模組所擷取的二維影像IM1及IM2是灰階影像。

於其他實施例中，影像擷取模組100及110可分別由採用色彩感光元件的影像擷取模組實現，以擷取彩色影像。本發明並不限於此。

於步驟202，深度計算神經網路300根據二維影像IM1及IM2進行深度學習運算，以產生視差圖DP。

於一實施例中，深度計算神經網路300為卷積神經網路(convolution neural network；CNN)，以對二維影像IM1及IM2進行卷積，產生包含臉部表情的深度資訊的視差圖DP。

於步驟203，串接單元310串接二維影像IM1及IM2以及視差圖DP為三通道特徵圖TFP。

於一實施例中，二維影像IM1及IM2以及視差圖DP各具有X×Y的維度。因此，在經過串接單元310串接二維影像IM1及IM2以及視差圖DP後，據以產生的三通道特徵圖TFP的維度將為X×Y×3。

於步驟204，藉由權重計算神經網路320對三通道特徵圖TFP進行計算，以產生複數個形狀融合權重WE。

於一實施例中，對於不同的臉部表情，臉部的不同區域由於不同的臉部肌肉各自的位移，而扮演不同的角色。因此，形狀融合權重WE是與不同的臉部區域相關，並可對應不同的臉部表情而有不同的權重值。

於一實施例中，權重計算神經網路320亦為卷積神經網路，以對於三通道特徵圖TFP進行卷積。因此，這樣的權重計算方式不僅考慮不同臉部區域的二維位置，也一併考慮臉部區域的深度資訊，以辨別不同臉部表情的更多細節。

權重計算神經網路320的結構可包含對應三通道特徵圖TFP之各層的多個輸入點、對應形狀融合權重WE的數目的多個輸出點，以及用以執行卷積的至少一個隱藏層。

需注意的是，形狀融合權重WE的數目可依實際需求而有不同的數目。

於步驟205，根據形狀融合權重WE建構三維臉部表情。

於一實施例中，三維臉部表情可由此建構並應用於虛擬化身上，例如一個使用者的圖像化身。

需注意的是，於一實施例中，處理模組130可計算形狀融合權重WE與複數預設權重間之誤差值，以評估形狀融合權重WE之準確度。其中，預設權重可為例如，但不限於使用者所決定的實際資料(ground truth value)。處理模組130可僅在誤差值小於一預設值時判定形狀融合權重WE與預設權重接近，並建構三維臉部表情。

於一實施例中，上述的誤差值為形狀融合權重WE與預設權重間之均方誤差(mean-square error)。

綜上所述，本發明的臉部表情建構裝置1及臉部表情建構方法200不僅根據二維影像IM1及IM2中臉部的二維位置資訊，亦根據臉部的深度資訊來產生形狀融合權重WE。臉部表情的建構將具有更高的精確度。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的原則之內所作的任何修改，等同替換和改進等均應包含本發明的保護範圍之內。

200‧‧‧臉部表情建構方法

201-205‧‧‧步驟

Claims

一種臉部表情建構方法，應用於一臉部表情建構裝置中，包括：接收由二影像擷取模組擷取包含一臉部表情之兩個二維影像；根據該兩個二維影像進行一深度學習運算，以產生一視差圖；串接(concatenate)該兩個二維影像以及該視差圖為一三通道特徵圖(feature map)；藉由一權重計算神經網路對該三通道特徵圖進行計算，以產生複數個形狀融合(blend shape)權重；以及根據該等形狀融合權重建構一三維臉部表情。
如請求項1所述的臉部表情建構方法，其中該權重計算神經網路為一卷積神經網路(convolution neural network；CNN)，配置以對該三通道特徵圖進行卷積，以產生該等形狀融合權重。
如請求項1所述的臉部表情建構方法，更包含：根據該二維影像由一深度計算神經網路進行該深度學習運算，以產生該視差圖，其中該深度計算神經網路為一卷積神經網路。
如請求項1所述的臉部表情建構方法，更包含：計算該等形狀融合權重與複數預設權重間之一誤差值，以評估該等形狀融合權重之一準確度。
如請求項4所述的臉部表情建構方法，其中該誤差值為該等形狀融合權重與該等預設權重間之一均方誤差(mean-square error)。
如請求項1所述的臉部表情建構方法，其中該二影像擷取模組分別為一紅外光影像擷取模組，該臉部表情建構方法更包含：使一紅外光發射模組照射一臉部，以由該二影像擷取模組擷取該兩個二維影像。
一種臉部表情建構裝置，包括：一儲存模組，配置以儲存複數電腦可執行指令；以及一處理模組，電性耦接於該儲存模組，並配置以擷取並執行該等電腦可執行指令，以執行一臉部表情建構方法，該臉部表情建構方法包括：接收由二影像擷取模組擷取包含一臉部表情之兩個二維影像；根據該兩個二維影像進行一深度學習運算，以產生一視差圖；串接該兩個二維影像以及該視差圖為一三通道特徵圖；藉由一權重計算神經網路對該三通道特徵圖進行計算，以產生複數個形狀融合權重；以及根據該等形狀融合權重建構一三維臉部表情。
如請求項7所述的臉部表情建構裝置，其中該權重計算神經網路為一卷積神經網路，配置以對該三通道特徵圖進行卷積，以產生該等形狀融合權重。
如請求項7所述的臉部表情建構裝置，該臉部表情建構方法更包含：根據該二維影像由一深度計算神經網路進行該深度學習運算，以產生該視差圖，其中該深度計算神經網路為一卷積神經網路。
一種非暫態電腦可讀取紀錄媒體，配置以儲存一應用程式以藉由一臉部表情建構裝置執行一臉部表情建構方法，該臉部表情建構方法包括：接收由二影像擷取模組擷取包含一臉部表情之兩個二維影像；根據該兩個二維影像進行一深度學習運算，以產生一視差圖；串接該兩個二維影像以及該視差圖為一三通道特徵圖；藉由一權重計算神經網路對該三通道特徵圖進行計算，以產生複數個形狀融合權重；以及根據該等形狀融合權重建構一三維臉部表情。