TWI398853B

TWI398853B - 人臉說話模擬系統及方法

Info

Publication number: TWI398853B
Application number: TW99114811A
Authority: TW
Inventors: Jhing Fa Wang; Po Yi Shih; Zong You Chen
Original assignee: Univ Nat Cheng Kung
Priority date: 2010-05-10
Filing date: 2010-05-10
Publication date: 2013-06-11
Also published as: TW201140558A

Description

人臉說話模擬系統及方法

本發明是有關於一種視訊通話系統及方法，且特別是有關於一種人臉說話模擬系統及方法。

近年來，隨著通訊技術的快速發展，通訊網路已遍及生活周遭，而通訊網路頻寬的增加則使得通訊裝置的功能由基本的語音通話、收發簡訊、電子郵件、瀏覽網頁，擴展到可同時傳輸語音及影像資料的視訊通話。

最近新發展出來的第三代(3G)行動通訊協定即支援視訊通話的功能，其提供了語音資料和非語音資料的進階服務，使用者只需透過支援此第三代行動通訊協定的通訊裝置撥打視訊電話，即可在進行語音通話的同時，透過配置在通訊裝置上的鏡頭擷取自身影像並傳送給對方，而實現視訊通話。

然而，由於視訊通話的資料傳輸量相當大，也需佔用較多的網路頻寬，在網路頻寬有限的情況下，視訊影像的解析度及傳輸速度將會受到影響，結果往往造成視訊影像不夠清晰、產生延遲或出現馬賽克的情況，進而影響視訊通話的品質。

因此，如何能夠在網路頻寬有限的情況下，提供高解析度的視訊影像，並解決影像延遲的問題，已然成為本領域技術的一大課題。

本發明提供一種人臉說話模擬系統，以對應於語者說話的嘴形圖片取代真人影像，可解決視訊通話中影像延遲的問題。

本發明提供一種人臉說話模擬方法，藉由分辨語音訊號中的語音特徵，並據以顯示對應的嘴形圖片，可模擬真人說話。

本發明提出一種人臉說話模擬系統，其包括語音特徵擷取模組、語音特徵分類模組、語音特徵儲存模組、語音辨識模組及人臉顯示模組。其中，語音特徵擷取模組係用以擷取樣本語音訊號中的多個語音特徵，並將各個語音特徵轉換為對應的特徵向量；語音特徵分類模組係用以將語音特徵對應的特徵向量分類為多個語音類別，並將兩兩語音類別的特徵向量導入支援向量機(Support vector machine，SVM)，以求取可區分兩兩語音類別之特徵向量的最佳分割超平面；語音特徵儲存模組係用以記錄各個語音類別對應的嘴形圖片、特徵向量，以及可區分兩兩語音類別之特徵向量的最佳分割超平面；語音辨識模組係用以將輸入語音訊號中各個語音特徵對應的特徵向量與最佳分割超平面比對，以判定此些特徵向量所屬的語音類別，其中所述的特徵向量係透過語音特徵擷取模組擷取及轉換；人臉顯示模組係用以顯示一人臉影像，並依據各個語音特徵所屬的語音類別，依序顯示對應的嘴形圖片於此人臉影像上，以模擬人臉說話。

在本發明之一實施例中，上述之語音特徵擷取模組包括前處理單元、自相關單元、線性預測單元及倒頻譜單元。其中，前處理單元係用以將語音訊號切分為多個音框，以對各個音框進行預強調處理並加入漢明窗；自相關單元係用以對前處理單元處理後的音框進行自相關運算，以取得這些音框的自相關矩陣；線性預測單元係利用線性預測方法求取自相關矩陣的多個線性預測係數(Linear Predictive Coefficient，LPC)；倒頻譜單元係用以對上述的線性預測係數進行倒頻譜運算，以獲得對應的多個特徵參數，而這些特徵參數即形成所述的特徵向量。上述的線性預測方法例如是Levinson-Durbin遞回演算法。

在本發明之一實施例中，上述之前處理單元更包括判斷所切分之音框中每一個音框的能量是否超過一個預設門檻值，其中若音框的能量超過預設門檻值，即對此音框進行預強調處理及加入漢明窗，並記錄此音框以供自相關單元進行自相關運算。

在本發明之一實施例中，上述之人臉說話模擬系統更包括圖片擷取模組及圖片分類模組。其中，圖片擷取模組係用以擷取各個語音分類所對應的多張嘴形圖片；圖片分類模組則用以計算這些語音分類中兩兩語音分類所對應之嘴形圖片的差異，據以對這些嘴形圖片進行分類。所述的差異例如是兩兩語音分類所對應之嘴形圖片中對應像素之像素值的絕對差值總和(Sum of Absolute Differences，SAD)。

在本發明之一實施例中，上述之嘴形圖片分類模組包括判斷兩兩語音分類所對應之嘴形圖片的差異是否低於一個門檻值，其中若此差異低於門檻值，則判斷這兩個語音分類的嘴形圖片相似，而使用同一張嘴形圖片做為這兩個語音分類的嘴形圖片。

在本發明之一實施例中，上述之語音辨識模組包括依照特徵向量位於各個最佳分割超平面兩邊的比例，判定這些特徵向量所屬的語音類別。

在本發明之一實施例中，上述之人臉顯示模組更包括計算所要顯示之相鄰語音特徵的特徵向量所佔之權重，並用以加乘相鄰語音特徵對應的嘴形圖片，以顯示混合嘴形圖片。

本發明提出一種人臉說話模擬方法，其包括訓練步驟及模擬步驟。其中，訓練步驟包括接收樣本語音訊號，並擷取此樣本語音訊號中的多個語音特徵，而將這些語音特徵轉換為對應的特徵向量。接著，將這些語音特徵對應的特徵向量分類為多個語音類別，然後將兩兩語音類別的特徵向量導入一個支援向量機，以求取可區分兩兩語音類別之特徵向量的最佳分割超平面。最後，記錄各個語音類別對應的嘴形圖片、特徵向量，以及可區分兩兩語音類別之特徵向量的最佳分割超平面的多個參數。另一方面，模擬步驟包括接收輸入語音訊號，並擷取此輸入語音訊號中的語音特徵，而將這些語音特徵轉換為對應的特徵向量。接著，將這些特徵向量與所記錄之最佳分割超平面比對，以判定這些特徵向量所屬的語音類別。最後，顯示一張人臉影像，並依據各個語音特徵所屬的語音類別，依序在此人臉影像上顯示對應的嘴形圖片，以模擬人臉說話。

在本發明之一實施例中，上述擷取樣本語音訊號中的語音特徵，並將語音特徵轉換為對應之特徵向量的步驟包括將此語音訊號為多個音框，以對各個音框進行預強調處理並加入漢明窗，接著對這些音框進行自相關運算，以取得這些音框的自相關矩陣，然後利用線性預測方法求取此自相關矩陣的多個線性預測係數，最後則對這些線性預測係數進行倒頻譜運算，以獲得對應的多個特徵參數，而這些特徵參數即形成特徵向量。上述的線性預測方法例如是Levinson-Durbin遞回演算法。

在本發明之一實施例中，上述的訓練步驟更包括判斷所切分之音框中每一個音框的能量是否超過一個預設門檻值，其中若音框的能量超過預設門檻值，即對此音框進行預強調處理及加入漢明窗，並記錄此音框以進行自相關運算。

在本發明之一實施例中，上述的訓練步驟更包括擷取各個語音分類所對應的多張嘴形圖片，並計算這些語音分類中兩兩語音分類所對應之嘴形圖片的差異，據以對這些嘴形圖片進行分類。

在本發明之一實施例中，上述計算兩兩語音分類所對應之嘴形圖片的差異，據以對嘴形圖片進行分類的步驟包括判斷兩兩語音分類所對應之嘴形圖片的差異是否低於一個門檻值，其中若此差異低於門檻值，則判斷這兩個語音分類的嘴形圖片相似，而使用同一張嘴形圖片做為這兩個語音分類的嘴形圖片。上述的差異例如是兩兩語音分類所對應之嘴形圖片中對應像素之像素值的絕對差值總和。

在本發明之一實施例中，上述將特徵向量與所記錄之最佳分割超平面比對，以判定特徵向量所屬的語音類別的步驟包括依照特徵向量位於各個最佳分割超平面兩邊的比例，判定這些特徵向量所屬的語音類別。

在本發明之一實施例中，上述依據各個語音特徵所屬的語音類別，依序在人臉影像上顯示對應的嘴形圖片的步驟包括計算所要顯示之相鄰語音特徵的特徵向量所佔之權重，用以加乘相鄰語音特徵對應的嘴形圖片，而顯示混合嘴形圖片。

基於上述，本發明之人臉說話模擬系統及方法係利用語音訊號中多種語音特徵的特徵向量訓練語音模型，而可用以分辨真人說話中多個語音特徵的類型，以顯示對應的嘴形圖片，可達到模擬真人說話的功效，並解決視訊通話中影像延遲的問題。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依照本發明一實施例所繪示之人臉說話模擬系統的方塊圖，圖3則是依照本發明一實施例所繪示之人臉說話模擬方法的流程圖。請同時參照圖1及圖3，本實施例的人臉說話模擬方法包括訓練步驟及模擬步驟兩部分，其中訓練步驟係訓練可區分不同語音特徵的語音模型，而模擬步驟則是利用訓練步驟所訓練的語音模型來區分輸入語音訊號中各個語音特徵的語音類別，據以顯示對應的嘴形圖片，而模擬人臉說話。

本實施例之模擬系統100包括語音特徵擷取模組110、語音特徵分類模組120、語音特徵儲存模組130、語音辨識模組140及人臉顯示模組150。其中，語音特徵擷取模組110、語音特徵分類模組120及語音特徵儲存模組130適用於上述的訓練步驟，而用以訓練語音模型；語音特徵擷取模組110、語音辨識模組140及人臉顯示模組150則適用於上述的模擬步驟，而用以模擬人臉說話。以下即搭配上述模擬系統100中的各個元件說明本實施例之人臉說話模擬方法的詳細步驟。

在訓練階段，首先提供樣本語音訊號至語音特徵擷取模組110，而由語音特徵擷取模組110擷取此樣本語音訊號中的多個語音特徵，並將這些語音特徵分別轉換為對應的特徵向量(步驟S302)。其中，所述的樣本語音訊號例如是由使用者所唸出的多個中文母音，而語音特徵擷取模組110即擷取語音訊號中對應於這些中文母音的語音特徵。

詳細地說，圖2是依照本發明一實施例所繪示之語音特徵擷取模組的方塊圖，圖4則是依照本發明一實施例所繪示之語音特徵擷取方法的流程圖。請參照圖2，本實施例係將上述的語音特徵擷取模組110再細分為前處理單元112、自相關單元114、線性預測單元116及倒頻譜單元118。以下即搭配上述語音特徵擷取模組110中的各個元件說明本實施例之語音特徵擷取方法的詳細步驟。

每當語音特徵擷取模組110接收到語音訊號(步驟S402)時，即由前處理單元112將其切分為多個音框(步驟S404)，並依序計算各個音框的能量(步驟S406)，而判斷這些音框的能量是否超過預設門檻值(步驟S408)。其中，若音框的能量超過預設門檻值，前處理單元112即判定此音框屬於有用的音框，此時前處理單元112除了將此音框儲存起來以進行後續的處理外，還會對此音框進行預強調處理及加入漢明窗(步驟S410)；反之，若音框的能量未超過預設門檻值，前處理單元112則會略過此音框(步驟S412)，而繼續處理下個音框(步驟S406)。

在經由前處理單元112的預強調處理及加入漢明窗之後，接著則由自相關單元114對處理後的音框進行自相關運算，以取得這些音框的自相關矩陣(步驟S414)。然後，由線性預測單元116利用線性預測方法來求取此自相關矩陣對應的線性預測係數(步驟S416)。所述的線性預測方法例如是Levinson-Durbin遞回演算法，而藉由此演算法的遞回來求解，即可得到一組線性預測係數。最後，由倒頻譜單元118對這些線性預測係數進行倒頻譜運算，以獲得對應的多個特徵參數，這些特徵參數即可集合形成特徵向量，以作為後續分類語音特徵的依據(步驟S418)。

回到圖3，在語音特徵擷取模組110取得各個語音特徵對應的特徵向量後，即將此資料輸入語音特徵分類模組120，而由語音特徵分類模組120將其分類為多個語音類別。其中，語音特徵分類模組120例如是將兩兩語音類別的特徵向量導入支援向量機(support vector machine，SVM)，以求取可區分兩兩語音類別之特徵向量的最佳分割超平面(optimal separating hyperplane，OSH)(步驟S304)。

舉例來說，假設目前有兩組特徵向量，其對應於不同的語音類別，若將每一個特徵向量均視為空間中的一個點，則可繪示出如圖5(a)所示的特徵向量分佈圖500。此分佈圖500中的圓形座標點510及方形座標點520即分別代表兩種語音類別的特徵向量，而分割線l、m、n則為可區分這兩類資料的分割線。需注意此分割線在高維度空間中不再是以直線的形式存在，而是以超平面(hyperplane)的形式存在，本實施例所繪示的直線僅為舉例說明。本實施例即求取一個可區別兩類資料的超平面(如圖5(b)所示的超平面p)，使得這個超平面到兩類資料的距離為最短，而此最短距離稱為邊距(margin)。

支援向量機的特性就是可以根據兩類資料的特徵向量，找出一個與兩類資料之距離為最短的超平面作為最佳分割超平面。本實施例在訓練語音模型時，就是將不同語音類別的特徵向量兩兩送入支援向量機，以求取最佳分割超平面。

在求取最佳分割超平面之後，接著則由語音特徵儲存模組130記錄各個語音類別對應的嘴形圖片、多個特徵向量，以及由語音特徵分類模組120所求出可區分兩兩語音類別之特徵向量的最佳分割超平面(步驟S306)，而完成語音模型的訓練步驟。

詳細地說，本實施例在訓練階段中，就會將特徵向量分門別類儲存好，以作為後續辨識語者的依據。舉例來說，若中文母音”ㄚ”的音檔有兩筆，其中音檔1包括100個音框的母音”ㄚ”，音檔2包括150個音框的母音”ㄚ”，則音檔1經過特徵擷取後有100個特徵向量，音檔2則有150個特徵向量。本實施例即將此母音”ㄚ"的250個特徵向量用來訓練語音模型。同理，任何一類的語音資料也都會先分門別類轉換成特徵向量並儲存好。

需注意的是，在人們發出中文母音”ㄛ”和”ㄡ”時，由於這兩個母音的音調相似，故在分類上很容易會導致辨識錯誤，例如在模擬多個音框的母音”ㄛ”時，錯將部分音框辨識為母音”ㄡ”，因此模擬母音”ㄛ”的嘴形圖片中會摻雜母音”ㄡ”的嘴形圖片，結果則導致模擬母音”ㄛ”的嘴形圖片會產生些許的顫動。

為了解決上述問題，本實施例之模擬系統500還可額外配置圖片擷取模組及圖片分類模組(未繪示)。藉由圖片擷取模組擷取各個語音分類所對應的嘴形圖片，並由圖片分類模組計算這些語音分類中兩兩語音分類所對應之嘴形圖片的差異，而對這些嘴形圖片進行分類。詳細地說，嘴形圖片分類模組例如會判斷兩兩語音分類所對應之嘴形圖片的差異是否低於門檻值。其中，若所此差異低於門檻值，則判斷這兩種語音分類的嘴形圖片相似，而使用同一張嘴形圖片來做為這兩種語音分類的嘴形圖片；反之，則使用各自的嘴形圖片。上述的差異例如是兩種語音分類所對應之嘴形圖片中對應像素之像素值的絕對差值總和(Sum of Absolute Differences，SAD)或其他可區分圖片差異的參數值，本實施例不限制其範圍。

舉例來說，圖6是依照本發明一實施例所繪示之嘴形圖片分類圖。請參照圖6，本實施例係針對一個語者唸出16個中文母音時的嘴形圖片，計算兩兩中文母音之嘴形圖片中對應像素之像素值的絕對差值總和。而藉由這些絕對差值總和的資料，即可判斷出哪些母音的嘴形圖片相類似。

圖7進一步繪示16個中文母音與其他中文母音之嘴形圖片的絕對差值總和分佈圖。由經驗值可知，正常用以區分嘴形圖片的門檻值大約分佈在5~10之間，因此本實施例即在5~10之間找一個最大且其中沒有絕對差值總和分佈的區間，而取此區間的中點作為判斷嘴形圖片是否相似的門檻值。

在完成上述的語音模型訓練之後，則可進行模擬步驟。圖8是依照本發明一實施例所繪示之人臉說話模擬方法的流程圖。請同時參照圖1及圖8，本實施例的模擬方法例如是接續在圖3所示的模擬方法之後，而利用其所訓練之語音模型進行人臉說話的模擬，其詳細步驟分述如下：

首先，由使用者將輸入語音訊號輸入語音特徵擷取模組110，而由語音特徵擷取模組110擷取此輸入語音訊號中的多個語音特徵，並將這些語音特徵分別轉換為對應的特徵向量(步驟S802)。其中，所述的輸入語音訊號例如是由使用者對著語音特徵擷取模組110說話而產生，而語音特徵擷取模組110即擷取語音訊號中對應於多個中文母音的語音特徵。

接著，語音辨識模組140即會將此輸入語音訊號中各個語音特徵對應的特徵向量與語音特徵儲存模組130中記錄的最佳分割超平面比對，以判定這些特徵向量所屬的語音類別(步驟S804)。其中，語音辨識模組140例如是依照這些特徵向量位於各個最佳分割超平面兩邊的比例，而判定這些特徵向量所屬的語音類別。

舉例來說，假設目前只有兩類語音資料，其中一類在最佳分割超平面的左邊，作為+1類；另一類在最佳分割超平面的右邊，作為-1類。本實施例即由語音特徵儲存模組130取出可區分這兩類語音資料的最佳分割超平面，然後將每個音框求取出來的特徵向量都與這個超平面做比對。其中，若特徵向量落在超平面的左邊，則標記為+1；反之，則標記為-1。在完成每個特徵向量的標記後，即可將此語音資料中所有音框的分數加總起來，而用以判斷此語音資料所述的類別。其中，若分數小於零，則可判定此語音資料屬於-1類；反之，則判定此語音資料屬於+1類，如此即可達到分類的效果。

最後，人臉顯示模組150例如是在電子裝置的螢幕上顯示一張人臉影像，並依據語音辨識模組140所辨識之各個語音特徵所屬的語音類別，依序在此人臉影像上顯示對應的嘴形圖片，以模擬人臉說話(步驟S806)。

需注意的是，為了增加嘴形圖片顯示的平順度，本實施例的人臉顯示模組150更包括在顯示嘴形圖片時，計算所要顯示之相鄰語音特徵的特徵向量所佔之權重，並將相鄰兩個語音特徵的權重加乘對應的嘴形圖片，而以混合嘴形圖片的形式作為語音特徵轉換期間的嘴形圖片顯示。

詳細地說，本實施例例如是藉由調整目的圖片(後一張嘴形圖片)之透明度來混合來源圖片(前一張嘴形圖片)與目的圖片之像素。其中，本實施例例如是採用Alpha Blending等圖片混合技術，在語音特徵的權重alpha=0時，將目的圖片完全透明化，以使顯示出來的圖片為來源圖片；在語音特徵的權重alpha=0.5時，將來源圖片與目的圖片之像素混合，使得顯示出來的圖片為來源圖片與目的圖片各占一半的混合圖片，而產生重疊的效果。利用上述方式改變來源圖片與目的圖片的權重(0~1)，即可達到將兩張相異圖片平滑化的需求。

綜上所述，本發明人臉說話模擬系統及方法係對即時輸入的語音訊號辨識其中的語音特徵，並根據預先訓練好的語音模型找出各個語音特徵對應的嘴形圖片以顯示於人臉影像中的嘴部區域，而達到模擬真人說話的功效。本發明技術只需使用低位元流的語音訊號即可模擬真人說話，而可解決傳統視訊通話中影像延遲的問題。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧人臉說話模擬系統

110‧‧‧語音特徵擷取模組

112‧‧‧前處理單元

114‧‧‧自相關單元

116‧‧‧線性預測單元

118‧‧‧倒頻譜單元

120‧‧‧語音特徵分類模組

130‧‧‧語音特徵儲存模組

140‧‧‧語音辨識模組

150‧‧‧人臉顯示模組

500‧‧‧特徵向量分佈圖

510‧‧‧圓形座標點

520‧‧‧方形座標點

S302~S306‧‧‧本發明一實施例之人臉說話模擬方法的步驟

S402~S418‧‧‧本發明一實施例之語音特徵擷取方法的步驟

S802~S806‧‧‧本發明一實施例之人臉說話模擬方法的步驟

圖1是依照本發明一實施例所繪示之人臉說話模擬系統的方塊圖。

圖2是依照本發明一實施例所繪示之語音特徵擷取模組的方塊圖。

圖3是依照本發明一實施例所繪示之人臉說話模擬方法的流程圖。

圖4是依照本發明一實施例所繪示之語音特徵擷取方法的流程圖。

圖5(a)及圖5(b)是依照本發明一實施例所繪示之特徵向量分佈圖。

圖6是依照本發明一實施例所繪示之嘴形圖片分類圖。

圖7是依照本發明一實施例所繪示之嘴形圖片的絕對差值總和分佈圖。

圖8是依照本發明一實施例所繪示之人臉說話模擬方法的流程圖。