TWI584269B - Unsupervised language conversion detection method - Google Patents

Unsupervised language conversion detection method Download PDF

Info

Publication number
TWI584269B
TWI584269B TW101124882A TW101124882A TWI584269B TW I584269 B TWI584269 B TW I584269B TW 101124882 A TW101124882 A TW 101124882A TW 101124882 A TW101124882 A TW 101124882A TW I584269 B TWI584269 B TW I584269B
Authority
TW
Taiwan
Prior art keywords
sound
window
speech
adjacent
sequence
Prior art date
Application number
TW101124882A
Other languages
English (en)
Other versions
TW201403586A (zh
Inventor
Jia Ching Wang
zhen yu Gu
Original Assignee
Univ Nat Central
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Central filed Critical Univ Nat Central
Priority to TW101124882A priority Critical patent/TWI584269B/zh
Publication of TW201403586A publication Critical patent/TW201403586A/zh
Application granted granted Critical
Publication of TWI584269B publication Critical patent/TWI584269B/zh

Links

Description

非監督式語者轉換偵測方法
本發明有關於一種語音轉換偵測之領域,特別有關於一種非監督式語者轉換偵測方法。
音訊分割可以分成兩部份,分別為語音分割及環境聲音分割,其目的是將聲音切成多個分段,而每一個分段都只包含單一語者或單一環境聲音。
語者聲音分段的方法可分成silence-based(寂靜基礎)、model selection-based(模式選擇基礎)及metric-based(測量基礎)。silence-based主要利用語者間的靜音段作為轉換點,但靜音的時間過短時則不易偵測。model selection-based係分別假設兩種建立模型的方式,一種是將整個分析音窗建立成單一模型,另一種則是將分析音窗分成左半部及右半部再分別建立個別的模型,然後測試何種方式所建立出的模型較適合表示分析音窗內的資料。metric-based則是分別建立分析音窗的左右兩邊的模型並測試左右兩邊的模型之間的相似度。上述的model selection-based及metric-based兩個方法主要都採用一般生成式模型,其缺點是需要較多的資料才能產生較準確的模型,但一般語者轉換偵測演算法中,為了可以偵測到語者快速轉換的情形,通常採用較短的分析音窗,所以可取得的資料量較少,因此無法訓練出較準確的模 型。
有鑒於上述問題,本發明之目的係提供一種非監督式語者轉換偵測方法,該方法將原本語者聲音之轉換點偵測的方式轉換成語者驗證的方式,利用語者驗證的方式驗證相鄰音窗是否為相同語者聲音來判斷是否有轉換點的存在,在驗證模型上,採用兩階段的偵測方式,第一階段先採用計算量較低的演算法找出可能的轉換點,第二階段再由支持向量機器去作確認,達到具有準確性的語者轉換偵測演算法。
本發明係提供一種非監督式語者轉換偵測方法,於一語者轉換偵測裝置中執行該方法之下列步驟:(a)將一語音訊號向量序列分成複數個音框向量序列;(b)將該等音框向量序列以一語音特徵演算法進行計算,以獲得複數個語音特徵向量序列,複數個音窗之每一者包含數個語音特徵向量序列;(c)以相鄰兩音窗包含之數個語音特徵向量序列建立複數個高斯模型函數,利用該等高斯模型函數來計算該數個語音特徵向量序列以獲得複數個機率值;(d)比較該等機率值以獲得之一比值,根據該比值與一第一門檻值,以判斷相鄰兩音窗間是否具有一轉換點;(e)將相鄰兩音窗中之一音窗包含之數個語音特徵向量序列與複數個非語者語音向量序列於一支持向量機器中進 行訓練,以獲得一超平面函數;(f)將相鄰兩音窗中之另一音窗包含之數個語音特徵向量序列利用該超平面函數進行計算,以獲得一音窗機率分數;以及(g)根據該音窗機率分數與一第二門檻值的大小關係,以再次判斷經判斷相鄰兩音窗間具有該轉換點是否為真。
為使熟習本發明所屬技術領域之一般技藝者能更進一步瞭解本發明,下文特列舉本發明之實施方式,並配合所附圖式,詳細說明本發明的構成內容及所欲達成之功效。
圖1為本發明之語者轉換偵測裝置之方塊圖。圖2為本發明之語音波形、音窗及音框之示意圖。在圖1中,語者轉換偵測裝置10包含有一語音前處理模組12、一向量轉換模組14、一轉換點偵測模組16及一語音分類器18。
語音前處理模組12接收語者說話的語音(如圖2上方的語音波形所示),而將所接收到之語音轉換成為語音檔案格式(諸如mp3、wav格式等)之一聲音檔。接著,語音前處理模組12例如使用Matlab軟體將語音檔之語音訊號進行取樣及量化,以獲得為數學形式之語音訊號向量序列。
向量轉換模組14接收由語音前處理模組12所傳送之語音訊號向量序列,向量轉換模組14將語音訊號向量序列分成數個如圖2所示之音框長度的音框向量序列。
向量轉換模組14將所有的音框向量序列以一語音特徵演算法進行計算,以獲得複數個語音特徵向量序列(如圖2所示),其中,該語音特徵演算法係採用梅爾倒頻譜(Mel frequency cepstral coefficient,MFCC)參數。設定數個音窗之每一者包含有數個語音特徵向量序列(如圖2所示之左音窗及右音窗等)。
轉換點偵測模組16以相鄰兩音窗(圖2中之左音窗及右音窗)包含之數個語音特徵向量序列建立複數個高斯模型函數。左音窗包含之數個語音特徵向量序列X L =[L 1,L 2,...L N ],L 1,L 2,...L N 為向量元素,左音窗包含之數個語音特徵向量序列X L 進行期望值運算以獲得左音窗包含之數個語音特徵向量序列X L 的平均值μ L 表示如下:μ L =E[X L ] (1)
轉換點偵測模組16計算左音窗包含之數個語音特徵向量序列X L 之共變異矩陣Σ L ,以公式(2)表示如下:Σ L =E[X L L ][X L L T ] (2)其中,T為矩陣轉置。
轉換點偵測模組16根據計算左音窗包含之數個語音特徵向量序列X L 所得到之平均值μ L 及共變異矩陣Σ L 建立左音窗包含之數個語音特徵向量序列X L 之高斯模型函數如下: 其中,x表示待測之向量元素,例如右音窗包含之數個語音 特徵向量序列X R =[R 1,R 2,...R N ]中的向量元素。
因此右音窗包含之數個語音特徵向量序列X R 的每一個向量元素R 1,R 2,...R N 代入公式(3)之對應左音窗之高斯模型函數中計算,以獲得右音窗包含之數個語音特徵向量序列X R 之機率值A。
如同上述公式(1)-(3)之方式,轉換點偵測模組16利用右音窗包含之數個語音特徵向量序列X R 的每一個向量元素R 1,R 2,...R N 建立右音窗包含之數個語音特徵向量序列X R 之高斯模型函數,如公式(4)所示: 並建立相鄰兩音窗包含之數個語音特徵向量序列X LR =[L 1,L 2,...L N ,R 1,R 2,...R N ]之高斯模型函數,如公式(5)所示:
轉換點偵測模組16將左音窗包含之數個語音特徵向量序列X L 的每一個向量元素代入公式(4)之對應右音窗之高斯模型函數中計算,以獲得左音窗包含之數個語音特徵向量序列X L 之機率值B,並將相鄰兩音窗包含之數個語音特徵向量序列X LR 的每一個向量元素L 1,L 2,...L N ,R 1,R 2,...R N 代入公式(5)之對應相鄰兩音窗之高斯模型函數中計算,以獲得相鄰兩音窗包含之數個語音特徵向量序列X LR 之機率值C。
轉換點偵測模組16利用廣義概似比例來判斷相鄰兩音窗是否具有語者之轉換點,如下列公式(6)所示:
轉換點偵測模組16比較對應相鄰兩音窗之機率值C與對應右音窗之機率值A乘上對應左音窗之機率值B的乘積而獲得一比值,當該比值大於或等於一門檻值S時,表示相鄰兩音窗間具有語者之轉換點,當該比值小於門檻值S時,表示相鄰兩音窗間不具有語者之轉換點。
在實施本發明之語者驗證(speaker verification)之方式,可採用習知支持向量機器(Support Vector Machine,SVM)之概念,在於判斷輸入語音是否為宣稱語者所發出時,於SVM先建立宣稱人的語者模型,然後再將其他非此宣稱人的語音於SVM中建立一個反模型(anti model)。在判斷輸入語音與宣稱語者的相似度時,則使用下列公式(7)之相似度比值來作判斷:
其中,λ 0表示宣稱的說話人模型,λ anti 表示反模型,o表示輸入的測試語音,θ表示門檻值,而p(o|λ 0)及p(o|λ anti )分別表示測試語音跟宣稱的說話人模型及反模型的相似度。若SVM判斷相似度比值大於或等於給定的門檻值θ,則SVM將輸入語音與宣稱語者視為同一語者。
圖3A及3B為本發明之語音分類器訓練資料及測試資料之示意圖。
相似於上述概念,在本實施例之偵測語者轉換中,是在測試對應相鄰兩音窗之語音特徵向量序列是否為同一語者,因此於語音分類器18中先將例如左音窗包含之數個語音特徵向量序列當成是宣稱語者建立語者模型(圖3A及3B之矩形圖樣),再來於語音分類器18中建立一個由多個語者(該等語者與宣稱語者為不同語者)所組成的模型當成反模型(在此稱為全體語音)(圖3A及3B之圓形圖樣),之後將宣稱者及全體語音當成例如為支持向量機器(SVM)之語音分類器18中的兩個類別進行訓練,並找出用以區分兩個類別之一超平面(Hyperplane)函數(圖3A及3B之直線)。
經訓練之語音分類器18所得到之超平面函數的參數包含支持向量序列x i 、比重值α i 、類別標籤(Class Index)y i 及超平面之引數b,由拉格朗日乘法(Lagrange Multiplier)演算法計算得到之比重值α i 0為支持向量序列x i 的比重,類別標籤y i 之數值為+1或-1。
在訓練好語音分類器18之後,再將右音窗包含之數個語音特徵向量序列(圖3A及3B之三角形圖樣)當成測試語音資料於語音分類器18中作分類。經分類之右音窗包含之數個語音特徵向量序列不與左音窗包含之數個語音特徵向量序列為同一類別(如圖3A所示,右音窗包含之數個語音特徵向量序列與左音窗包含之數個語音特徵向量序列各別在超平面的兩側)時,表示相鄰兩音窗間具有語者之轉換點,而經 分類之右音窗包含之數個語音特徵向量序列與左音窗包含之數個語音特徵向量序列為同一類別(如圖3B所示,右音窗包含之數個語音特徵向量序列與左音窗包含之數個語音特徵向量序列在超平面的同一側)時,表示相鄰兩音窗間不具有語者之轉換點。
圖4A至4D為本發明之機率分數概念之示意圖。在圖4A至4D中,為了將語音分類器18之分類結果轉換成機率分數(probability score),可以利用SVM模型驗證演算法來計算語音資料(即對應右音窗之語音特徵向量序列)屬於何種類別的程度,亦即語音資料與超平面之間相距的距離。
由於一般採用SVM分類器時,通常直接將測試用語音資料於語音分類器18中做分類,但此處為了由語音分類器18計算出機率分數來做語者驗證,因此需要知道語音資料於語音分類器18計算後的精確值D(x)(Decision value D(x)),可由公式(8)計算獲得精確值D(x)如下:D(x)=W T x+b (8)
其中,D(x)表示測試用語音資料x(即右音窗包含之數個語音特徵向量序列之向量元素)於語音分類器18計算後得到的數個精確值(精確值D(x)的數目與右音窗包含之語音特徵向量序列的數目相同),每一個精確值D(x)的數值表示每一個測試用語音資料x與超平面之距離(在圖4A至4D中,三角型圖樣與表示超平面之虛線之間以雙箭頭虛線表示的距 離),亦即表示每一個語音資料x接近語者模型或接近反模型的程度,T表示矩陣轉置,W表示超平面函數,以如下公式(9)表示:
其中,K(x i ,x)=<φ(x i ),φ(x)>為核函數(kernel function),φ(.)為映射函數。
由於要驗證兩個相鄰音窗的相似度,因此先將左音窗包含之數個語音特徵向量序列中的所有向量元素當成宣稱語者之語者模型作為語音分類器18中超平面左邊的-1類,而將全體語音的語音資料當成反模型作為語音分類器18中超平面右邊的+1類(如圖4A至4D所示),而測試語音資料時,則將右音窗包含之語音特徵向量序列的所有向量元素當成輸入之測試用語音資料而於語音分類器18中計算出數個機率分數(機率分數的數目與右音窗包含之語音特徵向量序列的數目相同)。機率分數表示屬於宣稱語者之語音資料接近超平面的程度,其可以藉由精確值D(x)作測量。
在本實施例中,希望語音資料之機率分數可以落在0~1之間,且落於超平面上之語音資料恰為0.5,表示語音資料各有一半的機率是屬於-1類或+1類的其中一類。為了使落在宣稱語者這一側的機率分數較高,所以語音資料落在-1類,則機率分數需大於0.5,反之,落在+1類上的機率分數 必須小於0.5,因此將公式(8)計算所得之數個精確值D(x)實施正規化(Normalize),而以公式(10)表示如下:
而要獲得測試用語音資料(右音窗包含之數個語音特徵向量序列)的數個機率分數,則於語音分類器18中利用公式(11)計算獲得: 其中,l(x)代表語音資料x的機率分數,其機率分數分佈之曲線如圖5為本發明之機率分數之曲線圖所示。在圖5中,橫軸為D(x)值,縱軸為對應到的機率分數。
接著,語音分類器18將計算所得之所有機率分數l(x)進行平均值運算,以獲得對應右音窗之一平均值機率分數。語音分類器18判斷測試用語音資料(即右音窗包含之數個語音特徵向量序列)的平均值機率分數是否大於或等於一轉換點門檻值,當平均值機率分數大於或等於轉換點門檻值時,表示利用廣義概似比例所判斷之相鄰兩音窗間具有語者之轉換點係為真,當平均值機率分數小於轉換點門檻值時,表示利用廣義概似比例所判斷之相鄰兩音窗間具有語者之轉換點係為否,亦即表示相鄰兩音窗間不具有語者之轉換點。
以下將說明本發明之非監督式語者轉換偵測方法的操作步驟,同時參考以上各圖式來進行說明。
圖6為本發明之非監督式語者轉換偵測方法之流程圖。在圖6中,由語音前處理模組12接收語者說話的語音(如圖2上方的語音波形所示),而將所接收到之語音轉換成為語音訊號(諸如mp3、wav格式等)之語音檔(步驟S20)。接著,由語音前處理模組12例如使用Matlab軟體以設定一取樣頻率及一量化位元數,根據取樣頻率對語音檔的語音訊號進行取樣,並根據量化位元數對經取樣的語音訊號進行量化,以獲得為數學形式之語音訊號向量序列(步驟S22)。
由語音前處理模組12將語音訊號向量序列傳送至向量轉換模組14,而向量轉換模組14將接收到的語音訊號向量序列分成數個音框向量序列(如圖2所示)(步驟S24)。
由向量轉換模組14將所有的音框向量序列以一語音特徵演算法進行計算,以獲得複數個語音特徵向量序列(如圖2所示),其中,該語音特徵演算法係採用梅爾倒頻譜參數(步驟S26)。設定數個音窗之每一者包含有數個語音特徵向量序列(如圖2所示之左音窗及右音窗等)。
由向量轉換模組14將所有的語音特徵向量序列傳送至轉換點偵測模組16,由轉換點偵測模組16以相鄰兩音窗(圖2中之左音窗及右音窗)包含之數個語音特徵向量序列來建立複數個高斯模型函數(如公式(3)至公式(5),並利用該等高斯模型函數來計算相鄰兩音窗包含之數個語音特徵向量序列以獲得複數個機率值(步驟S28)。
步驟S28進一步詳述如下。由轉換點偵測模組16將左音窗包含之數個語音特徵向量序列X L 以公式(1)進行期望值運算,以獲得左音窗包含之數個語音特徵向量序列X L 的平均值μ L 。由轉換點偵測模組16以公式(2)計算左音窗包含之數個語音特徵向量序列X L 之共變異矩陣Σ L 。由轉換點偵測模組16根據計算左音窗包含之數個語音特徵向量序列X L 所得到之平均值μ L 及共變異矩陣Σ L 來建立對應左音窗之公式(3)所表示的高斯模型函數。
如同上述公式(1)-(3)之方式,由轉換點偵測模組16利用右音窗包含之數個語音特徵向量序列X R 的每一個向量元素R 1,R 2,...R N 來建立對應右音窗之公式(4)所表示的高斯模型函數,並建立對應相鄰兩音窗之公式(5)所表示的高斯模型函數。
由轉換點偵測模組16將右音窗包含之數個語音特徵向量序列X R 的每一個向量元素R 1,R 2,...R N 代入公式(3)之高斯模型函數中計算,以獲得對應右音窗包含之數個語音特徵向量序列X R 之機率值A,由轉換點偵測模組16將左音窗包含之數個語音特徵向量序列X L 的每一個向量元素代入公式(4)之高斯模型函數中計算,以獲得對應左音窗包含之數個語音特徵向量序列X L 之機率值B,由轉換點偵測模組16將相鄰兩音窗包含之數個語音特徵向量序列X LR 的每一個向量元素L 1,L 2,...L N ,R 1,R 2,...R N 代入公式(5)之高斯模型函數中計算,以獲得 對應相鄰兩音窗包含之數個語音特徵向量序列X LR 之機率值C。
由轉換點偵測模組16利用公式(6)之廣義概似比例來判斷相鄰兩音窗是否具有語者之轉換點,亦即由轉換點偵測模組16比較機率值C與機率值A乘上機率值B的乘積而獲得一比值,當該比值大於或等於一門檻值S時,表示相鄰兩音窗間具有語者之轉換點,當該比值小於門檻值S時,表示相鄰兩音窗間不具有語者之轉換點(步驟S30)。
重複步驟S28及S30,由轉換點偵測模組16偵測圖2中所有相鄰兩音窗間是否具有語者之轉換點。
由轉換點偵測模組16將所有的語音特徵向量序列傳送至語音分類器18。語音分類器18對在步驟S30中判斷出具有語者之轉換點的相鄰兩音窗間再次判斷該轉換點是否為真。
於語音分類器18中將左音窗包含之數個語音特徵向量序列當成是宣稱語者以建立語者模型(圖3A及3B之矩形圖樣),接著於語音分類器18中建立一個由多個語者(該等語者與宣稱語者為不同語者)所組成的模型當成反模型(在此稱為全體語音)(圖3A及3B之圓形圖樣),之後將宣稱者及全體語音當成為支持向量機器(SVM)之語音分類器18中的兩個類別進行訓練,並找出用以區分兩個類別之公式(9)之超平面函數(圖3A及3B之直線)(步驟S32)。經訓練之語音分類器18所得到之超平面函數的參數包含支持向量序列 x i 、比重值α i 、類別標籤y i 及超平面之引數b。
在訓練好語音分類器18之後,語音分類器18將具有語者之轉換點之相鄰兩音窗中之右音窗包含之數個語音特徵向量序列利用該超平面函數進行計算,以獲得對應右音窗之數個機率分數(步驟S34)。
圖7為本發明之將對應音窗之語音特徵向量序列進行計算以獲得機率分數之流程圖。參照圖7進一步描述步驟S34之操作步驟。
將右音窗包含之數個語音特徵向量序列(圖3A及3B之三角形圖樣)當成測試用語音資料於語音分類器18中進行分類。經分類之右音窗包含之數個語音特徵向量序列不與左音窗包含之數個語音特徵向量序列為同一類別(如圖3A所示,包含右音窗之數個語音特徵向量序列與左音窗包含之數個語音特徵向量序列各別在超平面的兩側)時,表示相鄰兩音窗間具有語者之轉換點,而經分類之右音窗包含之數個語音特徵向量序列與左音窗包含之數個語音特徵向量序列為同一類別(如圖3B所示,右音窗包含之數個語音特徵向量序列與左音窗包含之數個語音特徵向量序列在超平面的同一側)時,表示相鄰兩音窗間不具有語者之轉換點。
於語音分類器18中利用公式(8)及公式(9)計算作為測試用語音資料之右音窗包含之數個語音特徵向量序列,以得到的數個精確值D(x)(步驟S40),其中精確值D(x)的數目與右音 窗包含之語音特徵向量序列的數目相同。每一個精確值D(x)的數值表示每一個測試用語音資料x與超平面之距離(在圖4A至4D中,三角型圖樣與表示超平面之虛線之間以雙箭頭虛線表示的距離)。
於語音分類器18中利用公式(10)將數個精確值D(x)實施正規化(步驟S42)。由於希望測試用語音資料之機率分數可以落在0~1之間,且落於超平面上之測試用語音資料恰為0.5,以表示語音資料各有一半的機率是屬於-1類或+1類的其中一類。為了使落在宣稱語者這一側的機率分數較高,所以語音資料落在-1類,則機率分數需大於0.5,反之,落在+1類上的機率分數必須小於0.5,因此於語音分類器18中利用公式(11)計算獲得測試用語音資料(右音窗包含之數個語音特徵向量序列)的數個機率分數l(x)(步驟S44),對應右音窗之機率分數l(x)分佈之曲線如圖5所示。
接著,由語音分類器18將計算所得之數個機率分數l(x)進行平均值運算,以獲得對應右音窗之一平均值機率分數。由語音分類器18判斷對應右音窗的平均值機率分數是否大於或等於一轉換點門檻值,當平均值機率分數大於或等於轉換點門檻值時,表示利用廣義概似比例所判斷之相鄰兩音窗間具有語者之轉換點係為真,當平均值機率分數小於轉換點門檻值時,表示利用廣義概似比例所判斷之相鄰兩音窗間具有語者之轉換點係為否,亦即表示相鄰兩音窗間不具有語者之 轉換點(步驟S36)。
重複步驟S32、S34、S36及步驟S40、S42、S44,由語音分類器18對所有具有語者之轉換點之相鄰兩音窗再次判斷利用廣義概似比例所判斷之相鄰兩音窗間具有語者之轉換點係為真或否。
本發明之目的係提供一種非監督式語者轉換偵測方法,其優點係將原本語者轉換點偵測的問題轉換成語者驗證的問題,利用語者驗證的方法驗證相鄰兩音窗間是否為相同語者來判斷是否有轉換點的存在,在驗證模型上,採用兩階段的偵測方式,第一階段先採用計算量較低的演算法找出可能的轉換點,第二階段再由支持向量機器去作確認,達到具有準確性的語者轉換偵測演算法。
雖然本發明已參照較佳具體例及舉例性附圖敘述如上,惟其應不被視為係限制性者。熟悉本技藝者對其形態及具體例之內容做各種修改、省略及變化,均不離開本發明之申請專利範圍之所主張範圍。
10‧‧‧語者轉換偵測裝置
12‧‧‧語音前處理模組
14‧‧‧向量轉換模組
16‧‧‧轉換點偵測模組
18‧‧‧語音分類器
圖1為本發明之語者轉換偵測裝置之方塊圖;圖2為本發明之語音波形、音窗及音框之示意圖;圖3A及3B為本發明之語音分類器訓練資料及測試資料之示意圖;圖4A至4D為本發明之機率分數概念之示意圖; 圖5為本發明之機率分數之曲線圖;圖6為本發明之非監督式語者轉換偵測方法之流程圖;以及圖7為本發明之將音窗包含之數個語音特徵向量序列進行計算以獲得機率分數之流程圖。

Claims (7)

  1. 一種非監督式語者轉換偵測方法,於一語者轉換偵測裝置中執行該方法之下列步驟:(a)將一語音訊號向量序列分成複數個音框向量序列;(b)將該等音框向量序列以一語音特徵演算法進行計算,以獲得複數個語音特徵向量序列,複數個音窗之每一者包含數個語音特徵向量序列;(c)以相鄰兩音窗包含之數個語音特徵向量序列建立複數個高斯模型函數,利用該等高斯模型函數來計算該數個語音特徵向量序列以獲得複數個機率值;(d)比較該等機率值以獲得之一比值,根據該比值與一第一門檻值的大小關係,以判斷相鄰兩音窗間是否具有一轉換點;(e)將該相鄰兩音窗中之一音窗包含之數個語音特徵向量序列與複數個非語者語音向量序列於一支持向量機器中進行訓練,以獲得一超平面函數;(f)將該相鄰兩音窗中之另一音窗包含之數個語音特徵向量序列利用該超平面函數進行計算,以獲得一音窗機率分數;以及(g)根據該音窗機率分數與一第二門檻值的大小關係,以再次判斷經判斷該相鄰兩音窗間具有該轉換點是否為真。
  2. 如申請專利範圍第1項之方法,其中,在步驟(a)之前 包含下列步驟:(h)將語者之語音轉換成一語音檔;以及(i)設定一取樣頻率及一量化位元數,根據該取樣頻率對該語音檔的語音訊號進行取樣,並根據該量化位元數對經取樣的語音訊號進行量化,以獲得該語音訊號向量序列。
  3. 如申請專利範圍第1項之方法,其中,在步驟(c)中包含下列步驟:(j)以該相鄰兩音窗包含之數個語音特徵向量序列建立一兩音窗高斯模型函數,以該相鄰兩音窗中之左音窗包含之數個語音特徵向量序列建立一左音窗高斯模型函數,以該相鄰兩音窗中之右音窗包含之數個語音特徵向量序列建立一右音窗高斯模型函數;以及(k)利用該兩音窗高斯模型函數來計算該相鄰兩音窗包含之數個語音特徵向量序列以獲得一兩音窗機率值,利用該左音窗高斯模型函數來計算該相鄰兩音窗中之右音窗包含之數個語音特徵向量序列以獲得一右音窗機率值,根據該右音窗高斯模型函數來計算該相鄰兩音窗中之左音窗包含之數個語音特徵向量序列以獲得一左音窗機率值。
  4. 如申請專利範圍第3項之方法,其中,在步驟(d)中,比較該兩音窗機率值與該右音窗機率值乘上該左音窗機率值之乘積以獲得之該比值,根據該比值與該第一門檻值的大小關係,以判斷該相鄰兩音窗間是否具有該轉換點。
  5. 如申請專利範圍第1項之方法,其中,在步驟(f)中包含下列步驟:(l)將具有該轉換點之該相鄰兩音窗中之另一音窗包含之數個語音特徵向量序列利用該超平面函數進行計算,以獲得複數個精準值;(m)將該等精準值進行正規化,以獲得在0至1之間之複數個機率分數;以及(n)將該等機率分數進行平均值計算,以獲得該音窗機率分數。
  6. 如申請專利範圍第1項之方法,其中,在步驟(b)中,該語音特徵演算法係採用梅爾倒頻譜參數。
  7. 如申請專利範圍第1項之方法,其中,在步驟(e)中,於步驟(d)中判斷出具有該轉換點之該相鄰兩音窗中之一音窗包含之數個語音特徵向量序列作為宣稱語者之語音資料,再將該數個語音特徵向量序列與作為非宣稱語者之語音資料之該等非語者語音向量序列於該支持向量機器中進行訓練,以獲得該超平面函數。
TW101124882A 2012-07-11 2012-07-11 Unsupervised language conversion detection method TWI584269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW101124882A TWI584269B (zh) 2012-07-11 2012-07-11 Unsupervised language conversion detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101124882A TWI584269B (zh) 2012-07-11 2012-07-11 Unsupervised language conversion detection method

Publications (2)

Publication Number Publication Date
TW201403586A TW201403586A (zh) 2014-01-16
TWI584269B true TWI584269B (zh) 2017-05-21

Family

ID=50345611

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101124882A TWI584269B (zh) 2012-07-11 2012-07-11 Unsupervised language conversion detection method

Country Status (1)

Country Link
TW (1) TWI584269B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206334A1 (en) * 2005-03-11 2006-09-14 Rohit Kapoor Time warping frames inside the vocoder by modifying the residual
US20100145697A1 (en) * 2004-07-06 2010-06-10 Iucf-Hyu Industry-University Cooperation Foundation Hanyang University Similar speaker recognition method and system using nonlinear analysis
TW201135716A (en) * 2010-04-14 2011-10-16 Univ Da Yeh Method and apparatus for processing audio feature

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145697A1 (en) * 2004-07-06 2010-06-10 Iucf-Hyu Industry-University Cooperation Foundation Hanyang University Similar speaker recognition method and system using nonlinear analysis
US20060206334A1 (en) * 2005-03-11 2006-09-14 Rohit Kapoor Time warping frames inside the vocoder by modifying the residual
TW201135716A (en) * 2010-04-14 2011-10-16 Univ Da Yeh Method and apparatus for processing audio feature

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Idiot’s guide to Support vector machines (SVMs) R. Berwick, Village Idiot SVMs: A New Generation of Learning Algorithms • Pre 1980: – Almost all learning ..., Cs ucf edu courses cap6412 fall2009 papers berwick2003 pdf book. http://ebook.habit1.org/download/5675 *

Also Published As

Publication number Publication date
TW201403586A (zh) 2014-01-16

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
Wu et al. A study on spoofing attack in state-of-the-art speaker verification: the telephone speech case
Tiwari MFCC and its applications in speaker recognition
US9865253B1 (en) Synthetic speech discrimination systems and methods
Wu et al. Voice conversion versus speaker verification: an overview
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
Van Segbroeck et al. Rapid language identification
Archana et al. Gender identification and performance analysis of speech signals
US7908142B2 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Wu et al. Mixture of factor analyzers using priors from non-parallel speech for voice conversion
Mohammed et al. Robust speaker verification by combining MFCC and entrocy in noisy conditions
Alex et al. Variational autoencoder for prosody‐based speaker recognition
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
Přibil et al. GMM-based evaluation of emotional style transformation in czech and slovak
TWI584269B (zh) Unsupervised language conversion detection method
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
Panda et al. Study of speaker recognition systems
RU2530314C1 (ru) Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
Kamble et al. Spontaneous emotion recognition for Marathi spoken words
Komlen et al. Text independent speaker recognition using LBG vector quantization
Renjith et al. Prosody based voice forgery detection using SVM