TWI473080B

TWI473080B - The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals

Info

Publication number: TWI473080B
Application number: TW101112660A
Authority: TW
Original assignee: Nat Univ Chung Cheng
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2015-02-11
Also published as: US9123342B2; US20130268273A1; TW201342365A

Description

運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法

本發明係與性別與年齡之分類技術有關，特別是指一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法。

利用人類本身之生物特徵進行身份辨識的技術為近年發展的趨勢，相較於傳統上使用晶片卡或是密碼之身份認證方法，可能會有遺失晶片卡或是密碼被盜用的風險。傳統商業上利用指紋來辨識身份的方式，由於其裝置本身的解析度牽涉到辨識的正確率，且人員手指需與感測器接觸之距離問題以及衛生問題，因此仍有其使用上的限制。而利用電子裝置進行個人資料分析，例如情緒、性別、年齡之辨識將可提供較高之便利性以及更多的辨識選擇，也可降低遺失晶片卡或密碼被盜用的風險。

美國US 7,881,933 B2號專利，揭露了一種利用語音處理技術來將接收的語音信號進行年齡辨識的技術，該案揭露了一接收輸入語音信號到配置邏輯裝置的儀器，經過判斷並計算信心指數後輸出年齡偵測的結果。

美國US 5,953,701號專利，揭露了一種性別相關的語音辨識系統，其使用預處理器將語音信號轉換成聲學資料，並利用事先建立好存在記憶體中的電話狀態模式讓處理分析判斷相關之語音狀態模型，進而將性別辨識結果輸出。

由上可知，現有技術中已有針對語音處理技術進行年齡辨識與性別辨識的技術。然而，語音資訊多半會帶有說話者之情緒或激動程度，由於說話當下情緒狀況或激動程度的不同，其語音信號所代表之特質也有所不同，因此在進行分析時也隨著不同情緒的特質或激動的程度而使得辨識結果有所不同。目前而言，並未有使用語音信號中的情緒或激動程度資訊做為輔助，而將語音信號之情緒分類出來或激動程度分析出來，之後再進行年齡與性別辨識的技術。

本發明之主要目的在於提供一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其可使用語音信號中的情緒或激動程度資訊，來輔助對該語音信號進行年齡與性別的辨識。

為了達成前述目的，依據本發明所提供之一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，包含有下列步驟：A)將一語音信號分段成為複數語音片段；B)對前述複數語音片段中的第一個語音片段進行擷取，進而取得該語音片段的情緒特徵或激動程度二者中的至少一者；C)對該語音片段之情緒特徵或激動程度二者中的至少一者進行判斷，若判斷的對象為情緒特徵時，則判斷該情緒特徵是否與一特定情緒相同，若判斷的對象為激動程度時，則判斷該語音片段之激動程度是否大於或小於某一門檻值；若至少一者為是，則進入步驟D)；若沒有任何一者為是，則回到步驟B)並針對下一語音片段進行擷取；D)對該語音片段進行性別或年齡的特徵擷取，進而取得對應於性別或年齡的至少一特徵參數；以及E)依一性別或年齡辨識手段對該至少一特徵參數進行辨識，進而判斷出該語音片段之發話人的性別或年齡；接著針對下一語音片段進行步驟B)之動作。藉此，可使用語音信號中的情緒或激動程度資訊，來輔助對該語音信號進行年齡與性別的辨識。

為了詳細說明本發明之構造及特點所在，茲舉以下之較佳實施例並配合圖式說明如後，其中：如第一圖至第三圖所示，本發明一較佳實施例所提供之一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，主要具有下列步驟：

A)藉由一分段單元11，將一語音信號分段成為複數語音片段。

B)藉由一擷取單元13對前述複數語音片段中的第一個語音片段進行擷取，進而取得該語音片段的情緒特徵或激動程度二者中的至少一者，於本實施例中係以二者均取得為例；再藉由一第一分類器15進行一第一分類動作，藉以將該語音片段的情緒特徵及激動程度進行分類，而將情緒特徵分類為某一特定情緒，並將激動程度分類為高激動程度或低激動程度。其中該特定情緒係為正、負向情緒程度的表現，該激動程度則為情緒激動程度量化的表現。如第二圖所示，語音信號係分類為常見的六類情緒，即生氣、高興、驚訝、害怕、平靜以及悲傷。此外在第二圖中Y軸代表激動程度，X軸代表正、負向情緒的程度，不同的情緒心情可有不同的激動程度與正、負向情緒的表現。前述對情緒或激動程度之特徵擷取，取出之特徵係如表1所示。其中之頻譜質心(spectral Centroid，SC)、頻譜展延(spectral Spread，SS)、過零率(Zero Crossing Rate，ZCR)、期間(Duration)及基頻(Fundamental Frequency，F0)係詳述於步驟D)中。

C)藉由一判斷單元19來判斷該語音片段之情緒特徵是否與一特定情緒相同，並且判斷該語音片段之激動程度是否大於或小於某一門檻值；若其中一者或兩者的判斷結果為是，則進入步驟D)；若沒有任何一者為是，則回到步驟B)並針對下一語音片段進行擷取。

D)藉由一參數擷取單元21對該語音片段進行性別或年齡的特徵擷取，進而取得對應於性別或年齡的至少一特徵參數；再藉由一第二分類器23進行一第二分類動作，其係對該至少一特徵參數依時域或頻域來分類，進而分類為顯著或不顯著。其中，該至少一特徵參數在時域或頻域上是否顯著，是以是否大於一均值或標準差值來判斷，該均值或標準差值係指複數發話人樣本所對應之特徵參數之均值或標準差值。

於本實施例中，該至少一特徵參數係為頻譜質心(spectral Centroid，SC)、頻譜展延(spectral Spread，SS)、過零率(Zero Crossing Rate，ZCR)、期間(Duration)、快速傅立葉轉換(FFT Coefficients)、顫動(Jitter)以及基頻(Fundamental Frequency，F0)之中的一種。該至少一特徵參數為複數時，係分別為頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換、顫動以及基頻之中的一種而彼此不同。其中，過零率及期間屬時域，而頻譜質心、頻譜展延、快速傅立葉轉換、顫動以及基頻屬頻域。此外，頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換以及顫動係用以供辨識年齡；基頻與快速傅立葉轉換係用以供辨識性別。

頻譜質心，係經由傅立葉轉換後之頻譜的質量中心，各點的頻率乘上其功率函數總和與功率函數總和的比值，比值愈大，高頻音框所佔的比例愈高，其中p(k)為計算k點的功率運算，f(k)表示計算k點的傅立葉轉換運算，其計算式如下方式(1)所示。

頻譜展延，係計算語音片段中各音框頻率與頻譜質心的差，並將差值與功率相乘積，再除以功率函數的總和，其計算式如下方式(2)所示。

過零率，係指在每個音框中音訊通過零點的次數，一般而言雜訊及氣音的過零率均大於聲音，過零率之計算式如下方式(3)所示。其中Sgn()為符號函數，X(m)為已經切好音框之輸入信號。

期間，係指在時域上音節間說話速度的密度特性，也可視為計算相鄰間高能量音框間的時間間距。其中該音框能量若超過臨界值THR則視為高能量音框，臨界值THR之計算式如下方式(4)所示。其中A_max 為語音片段中能量最高的音框，A_min 為語音片段中能量最低的音框。

快速傅立葉轉換，係指語音訊號在各頻帶的能量分佈情形，其計算式如下方式(5)所示。其中j=0,1,...,n-1。

顫動，係指在語音信號上，相鄰兩音框時間差與所有加總的音框時間之比值，其計算式如下方式(6)所示。其中T為音框時間長短。

基頻，係用來反應出語音信號的音調高低，可以用來區別男性與女性的語音信號。

前述對年齡的特徵擷取，取出之特徵係如表2所示。

前述對性別的特徵擷取，取出之特徵係如表3所示。

E)依一性別或年齡辨識手段對該至少一特徵參數進行辨識，進而判斷出該語音片段之發話人的性別或年齡；接著針對下一語音片段進行步驟B)之動作。其中，該性別或年齡辨識手段係為採用在時域或頻域上屬於顯著的該至少一特徵參數，再依該至少一特徵參數判斷出該語音片段之發話人的性別或年齡。而當該至少一特徵參數為複數時，係組合該等特徵參數後再進行發話人的性別或年齡的判斷。

前述之步驟A)~步驟E)係在一電腦上執行。此外，由於分段單元11、擷取單元13、第一分類器15、判斷單元19、參數擷取單元21以及第二分類器23等元件均屬於在電腦上執行之程式，因此在第三圖中僅列出各元件及其對應之標號。

由於人類聲音在不同情緒情況下說話時，其聲音特質會隨著情緒有所不同，因此本發明可藉由上述步驟來運用語音信號中的情緒資訊做為輔助，來辨識出該語音信號的性別或年齡。

值得補充的一點是，在前述實施例中，步驟B)中擷取了情緒特徵及激動程度二者，而在步驟C)中係對情緒特徵及激動程度兩者分別進行了判斷。亦即，在步驟B)及C)係在情緒特徵及激動程度兩者都有的情況下所進行的擷取及判斷。

然而，情緒特徵及激動程度亦可只取其一，也就是說，可在步驟B)中僅擷取情緒特徵，而在步驟C)中僅針對情緒特徵進行判斷。或者，可在步驟B)中僅擷取激動程度，而在步驟C)中僅針對激動程度進行判斷。只取其一的方式同樣可以達到運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的功效，只是由於判斷的條件只有一種，因此在判斷的正確性上會較前述實施例略差些。

11．．．分段單元

13．．．擷取單元

15．．．第一分類器

19．．．判斷單元

21．．．參數擷取單元

23．．．第二分類器

第一圖係本發明一較佳實施例之流程圖。

第二圖係本發明一較佳實施例之情緒分類示意圖。

第三圖係本發明一較佳實施例之元件示意圖。

Claims

一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，包含有下列步驟：A)將一語音信號分段成為複數語音片段；B)對前述複數語音片段中的第一個語音片段進行擷取，進而取得該語音片段的情緒特徵或激動程度二者中的至少一者；C)對該語音片段之該情緒特徵或該激動程度二者中的至少一者進行判斷，若判斷的對象為該情緒特徵時，則判斷該情緒特徵是否與一特定情緒相同，若判斷的對象為該激動程度時，則判斷該語音片段之該激動程度是否大於或小於某一門檻值；若至少一者為是，則進入步驟D)；若沒有任何一者為是，則回到步驟B)並針對下一語音片段進行擷取；D)對該語音片段進行性別或年齡的特徵擷取，進而取得對應於該性別或該年齡的至少一特徵參數；以及E)依一性別或年齡辨識手段對該至少一特徵參數進行辨識，進而判斷出該語音片段之發話人的性別或年齡；接著針對下一語音片段進行步驟B)之動作。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟A)中，係藉由一分段單元來進行分段動作。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟B)中，在擷取動作進行後，更進行一第一分類動作，藉以將該語音片段的該情緒特徵或該激動程度二者中的至少一者進行分類，而將該情緒特徵分類為某一特定情緒或是將該激動程度分類為高激動程度或低激動程度。
依據申請專利範圍第3項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟B)中，係藉由一擷取單元來進行擷取，在分類時係藉由一第一分類器來進行分類。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟C)中，該特定情緒係為正、負向情緒程度的表現，該激動程度係為情緒激動程度量化的表現。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟C)中，係藉由一判斷單元來判斷該語音片段之該情緒特徵是否與該特定情緒相同，或是判斷該語音片段之該激動程度是否大於或小於該門檻值。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟D)中，在擷取出該至少一特徵參數後，更進行一第二分類動作，其係對該至少一特徵參數依時域或頻域來分類，進而分類為顯著或不顯著。
依據申請專利範圍第7項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟D)中，係藉由一參數擷取單元來取出該至少一特徵參數，在分類時係藉由一第二分類器來進行該第二分類動作。
依據申請專利範圍第7項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟E)中，該性別或年齡辨識手段係為採用在時域或頻域上屬於顯著的該至少一特徵參數，再依該至少一特徵參數判斷出該語音片段之發話人的性別或年齡。
依據申請專利範圍第9項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟E)中，該至少一特徵參數為複數時，係組合該等特徵參數後再進行發話人的性別或年齡的判斷。
依據申請專利範圍第7項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟D)中，該至少一特徵參數在時域或頻域上是否顯著，是以是否大於一均值或標準差值來判斷，該均值係指複數發話人樣本所對應之特徵參數之均值。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：於步驟D)中，該至少一特徵參數係為頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換、顫動以及基頻之中的一種；該至少一特徵參數為複數時，係分別為頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換、顫動以及基頻之中的一種而彼此不同。
依據申請專利範圍第12項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：頻譜質心、頻譜展延、快速傅立葉轉換、顫動以及基頻屬頻域，而過零率及期間屬時域。
依據申請專利範圍第12項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換以及顫動係用以供辨識年齡；基頻與快速傅立葉轉換係用以供辨識性別。
依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法，其中：步驟A)~步驟E)係在一電腦上執行。