TWI386917B

TWI386917B - Find the same language of the same language and the method of grouping

Info

Publication number: TWI386917B
Application number: TW99121225A
Authority: TW
Original assignee: Tung Fang Inst Of Technology
Priority date: 2010-06-29
Filing date: 2010-06-29
Publication date: 2013-02-21
Also published as: TW201201196A

Description

尋找相同語者數位音訊而加以群聚之方法

　　一種尋找相同語者數位音訊而加以群聚之方法，係指利用相似度的比對，將數位音訊內之複數音訊區塊群聚成不同語者之音訊。

　　習用相同語者之數位音訊群聚之方法係利用比對不同音訊間各個音訊參數之距離，來判斷是否為相同語者之音訊，較常見的方法為metric-based，於該數位音訊中任取一音訊區塊，將該音訊區塊與其他音訊區塊作相似度比對，將兩個音訊區塊內各個音訊參數，利用metric-based計算出音訊參數間之距離，由於不同語者之音訊參數中，各個參數間之距離較遠，而相同語者之音訊參數中，各個參數間之距離較近，因此得以藉由metric-based計算出各個參數間的距離，來判斷二音訊區塊是否為相同語者之音訊。
　　藉由重複上述之方法，將該數位音訊中，各個相同語者之音訊區塊標上記號或者取出合併，而使該數位音訊群聚成不同語者之音訊區塊，而以下本說明書所指之群聚，係指將相同語者之音訊區塊作上記號或者取出，而使得該數位音訊分類成不同語者之聲音區塊。
　　該metric-based雖得以判斷兩音訊區塊是否為同一語者之音訊，然，由於該metric-based須計算各個音訊參數間之距離，使得偵測時所需時間較長，並且由於係計算各個音訊參數間之距離，係使得偵測時產生較大之誤差，而使得該metric-based用於語者群聚時，不僅花費時間長，正確性亦略有所不足。
　　本發明人於聲音學方面有著較高之造詣，且對聲音辨識與判斷具有高度樂誠與興趣，因此，對於上述習用技術之不足，開始著手思考解決之方法。

　　有鑑於先前之技術所產生之問題，本創作者認為應有一種得以改善之方法，經過多次設計、實驗與思考，終於得到一種尋找相同語者數位音訊而加以群聚之方法，藉以改善先前技術不足之處。
　　本發明係一種尋找相同語者數位音訊而加以群聚之方法，包括以下之步驟：
　　步驟(A)：取一數位音訊，該數位音訊係藉由複數音訊區塊排列而成，該複數音訊區塊係包括一第一音訊區塊；
　　步驟(B)：取該第一音訊區塊依序與其他音訊區塊利用一分類器作音訊相似度比對，而得一相似度值，設一相似度門檻值，將該相似度值高於該相似度門檻值之音訊區塊標記為一第一語者。
　　音訊區塊內係包括複數音訊參數，因此，本發明係利用相同語者之音訊參數相似度較高，來判斷該兩音訊區塊是否為同一語者之音訊區塊，首先，於該數位音訊中取一第一音訊區塊，將該第一音訊區塊與其他各個音訊區塊作相似度比對，該相似度比對係利用一分類機將該數位音訊內之各個音訊區塊分類成不同語者之音訊區塊，將比對後相似度值高於相似度門檻值之音訊區塊作上標記，藉此，將各個音訊區塊作分類，該分類器可為最近鄰居分類器、支援向量機、GMM、K-means等，可以將兩筆不同資料作區別、分類之機器。
　　故，本發明之較佳實施例，係利用一支援向量機，將該第一音訊區塊與其他各個音訊區塊作相似度比對，而得到一第一分類錯誤率與一第二分類錯誤率，設一分類錯誤率門檻值，當該第一分類錯誤率與該第二分類錯誤率均低於該分類錯誤率門檻值時，則判斷為同一語者之音訊區塊，將該數位音訊中各個相同之音訊區塊作標記，而使得該數位音訊分類成不同語者之音訊區塊。

　　以下文字說明，藉由圖式之輔助敘述，說明本發明之構造、特點以及實施例，俾使　貴審查人員對於本發明有更進一步之瞭解。
　　本發明係一種尋找相同語者數位音訊而加以群聚之方法，係藉由以下之步驟將一數位音訊中，各個音訊區塊間相似度值較高之音訊區塊標記為相同之音訊區塊。
　　請參閱第一圖配合第二圖所示，步驟(A)，取至少一第一語者與一第二語者之對話紀錄，將該對話紀錄藉由一類比數位轉換器轉換成一數位音訊(1)，該數位音訊(1)係由複數音訊區塊(11)排列連接而成，該複數音訊區塊(11)係包括一第一音訊區塊(111)與一第二音訊區塊(112)，該各個音訊區塊係代表一語者之音訊，如該第一音訊區塊(111)係代表該第一語者之音訊，且該複數音訊區塊(11)並非按照相鄰之音訊區塊為不同語者之音訊區塊做排列。
　　請參閱第一圖配合第二圖所示，步驟(B)，取該第一音訊區塊(111)，將該第一音訊區塊(111)與該第二音訊區塊(112)利用一分類器作相似度比對，而得一相似度值，由於相同語者之音訊參數較為接近，故較不易藉由分類器將該第一音訊區塊(111)與該第二音訊區塊(112)做分類，而使得相同語者之音訊區塊具有較高的相似度值，該分類器係為一種可將兩筆不同資料做分類處理之機器，該分類機亦可為一最近鄰居分類器、支援向量機、GMM、K-means等。
　　設一相似度門檻值，當該相似度值高於該相似度門檻值時，則判斷該第一音訊區塊(111)與該第二音訊區塊(112)為同一語者之音訊，將該第一音訊區塊(111)依序與其他音訊區塊作相似度比對後，再將各個判斷為同一語者之音訊區塊，做上標記，如經相似度比對後與該第一音訊區塊(111)為相同語者之音訊區塊，標記為第一語者。
　　請參閱第一圖配合第二圖所示，該步驟(B)，較佳實施例係為該分類機為該支援向量機，由於該第一音訊區塊(111)與該第二音訊區塊(112)係包括複數參數，由於該支援向量機之作動原理較為抽象，因此請參閱第三-A圖與第三-B圖，為該支援向量機之作動示意圖，利用該支援向量機可將由該複數音訊區塊中一第一音訊區塊參數(61)與該第二音訊區塊參數(62)作分類處理，而得一分類線(6)，再將該第一音訊區塊參數(61)與該第二音訊區塊參數(62)做分類處理之檢驗，若檢驗過程中發現，原本為第一音訊區塊參數(61)，經檢驗後為第二音訊區塊參數(62)，則產生一第一分類錯誤率，樣本音訊參數個數標記為A，該待鑑定音訊參數個數標記為B，該第一分類錯誤率計算公式為：；若檢驗過程中發現，原本為第二音訊區塊參數(62)，經檢驗後為第一音訊區塊參數(61)，則產生一第二分類錯誤率，該第二分類錯誤率計算公式係為：。
　　請參閱第三-A圖所示，由於不同語者之音訊參數較為不同，該支援向量機較容易找到該分類線(6)，將不同語者之音訊參數做分類，而使得該第一分類錯誤率與該第二分類錯誤率較低。由於相同語者之音訊參數較為接近，故經由該支援向量機作分類後，較不易找出該分類線(6)，而使得該第一分類錯誤率與該第二分類錯誤率較高。
　　請參閱第二圖所示，重複步驟(B)，直到該數位音訊中，該各個音訊區塊均做上標記而區分成不同語者之音訊。該步驟(B)之另一實施例為，該第一音訊區塊(111)與其他各個音訊區塊作相似度比對後，將比對後之結果與該第一音訊區塊(111)為同一語者之音訊區塊標上記號，由未標上記號之複數音訊區塊(11)中任取一音訊區塊，再與其餘之音訊區塊作相似度比對，直到各個音訊區塊均已標上記號為止，減少本發明進行相同語者之群聚時所需之時間。
　　請參閱第四圖所示，本發明之另一實施例係為於該步驟(A)之前更設一前置步驟，取一複數語者對話紀錄聲音源，利用一類比數位轉換器將該第一語者與該第二語者之語者對話紀錄聲音源轉換成該數位音訊(1)，該數位音訊(1)係包括複數音訊參數，設一第一偵測視窗(3)與一第二偵測視窗(4)，該第一偵測視窗(3)與該第二偵測視窗(4)係以分別偵測相同單位時間內之該數位音訊(1)，該第一偵測視窗(3)於該數位音訊(1)之起始時間開始偵測，該第二偵測視窗(4)鄰接該第一偵測視窗(3)開始偵測，而分別得一第一音訊參數與一第二音訊參數，利用該支援向量機將該第一音訊參數與該第二音訊參數做分類處理，而分別得該第三分類錯誤率與該第四分類錯誤率。
　　請參閱第四圖配合第一圖所示，設一第二分類錯誤率門檻值(0)，當該第三分類錯誤率與該第四分類錯誤率均低於該第二分類錯誤率門檻值(0)時，設一分界線(2)，該分界線(2)係以通過該第一偵測視窗(3)與該第二偵測視窗(4)相連接處，而使該數位音訊(1)分成二個該音訊區塊，利用該第一偵測視窗(3)與該第二偵測視窗(4)，一次移動一單位時間，依序對該數位音訊(1)做偵測，再利用該支援向量之找出該複數分界線(2)，使該數位音訊(1)分割成該複數音訊區塊(11)，且該各個相鄰之該音訊區塊係為不同語者之該音訊區塊，因此，本發明於進行步驟(B)時，得以減少偵測時所需之時間。
　　請參閱第一圖所示，承接上述實施例，由於任一該音訊區塊鄰接之該音訊區塊均為不同語者之音訊，故，藉由本創作之較佳實施例於步驟(B)，取該第一音訊區塊(111)，該第一音訊區塊(111)係以越過鄰接之該第二音訊區塊(112)而與其他該複數音訊區塊(11)進行訊號相似度比對，進而使本發明尋找相同語者之音訊區塊所需之時間降低。
　　綜上所述，本發明確實符合產業利用性，且未於申請前見於刊物或公開使用，亦未為公眾所知悉，且具有非顯而易知性，符合可專利之要件，爰依法提出專利申請。
　　惟上述之所陳，為本發明在產業上一較佳實施例，舉凡依本發明申請專利範圍所作之均等變化，皆屬本案訴求標的之範疇。

(0)‧‧‧第二分類錯誤率門檻值

(1)‧‧‧數位音訊

(11)‧‧‧複數音訊區塊

(111)‧‧‧第一音訊區塊

(112)‧‧‧第二音訊區塊

(2)‧‧‧分界線

(3)‧‧‧第一偵測視窗

(4)‧‧‧第二偵測視窗

(6)‧‧‧分類線

(61)‧‧‧第一音訊區塊參數

(62)‧‧‧第二音訊區塊參數

第一圖係本發明之數位音訊示意圖
第二圖係本發明之步驟流程圖
第三-A圖係支援向量機作動示意圖(一)
第三-B圖係支援向量機作動示意圖(二)
第四圖係本發明之另一實施例作動示意圖

(1)‧‧‧數位音訊

(11)‧‧‧複數音訊區塊

(111)‧‧‧第一音訊區塊

(112)‧‧‧第二音訊區塊

Claims

一種尋找相同語者數位音訊而加以群聚之方法，包括以下步驟：
(A)取一數位音訊，該數位音訊係藉由複數音訊區塊排列而成，該複數音訊區塊係包括一第一音訊區塊；
(B)取該第一音訊區塊依序與其他音訊區塊利用一分類器作音訊相似度比對，而得一相似度值，設一相似度門檻值，將該相似度值高於該相似度門檻值之音訊區塊標記為一第一語者。
如申請專利範圍第１項所述之尋找相同語者數位音訊而加以群聚之方法，其中該分類器為一支援向量機，一音訊區塊與其他音訊區塊作音訊相似度比對時，利用該支援向量機做分類處理，而產生二相似度值，分別為一第一分類錯誤率與一第二分類錯誤率，該相似度門檻值為一第一分類錯誤率門檻值，當該第一分類錯誤率與該第二分類錯誤率均高於該分類錯誤率門檻值時，則判定為相同語者之音訊區塊。
如申請專利範圍第１項所述之尋找相同語者數位音訊而加以群聚之方法，其中更設一前置步驟，該前置步驟取一複數語者對話紀錄聲音源，利用一類比數位轉換器將該複數語者對話紀錄聲音源轉換成一數位音訊，設一第一偵測視窗與一第二偵測視窗，該第一偵測視窗與該第二偵測視窗係以分別偵測相同單位時間內該數位音訊，該第一偵測視窗於該數位音訊之起始時間開始偵測，該第二偵測視窗鄰接該第一偵測視窗開始偵測，而分別得一第一音訊參數與一第二音訊參數，利用一支援向量機將該第一音訊參數與該第二音訊參數做分類處理，而分別得一第三分類錯誤率與一第四分類錯誤率，設一第二分類錯誤率門檻值，當該第三分類錯誤率與該第四分類錯誤率，均低於該第二分類錯誤率門檻值時，設一分界線，該分界線係以通過該第一偵測視窗與該第二偵測視窗相連接處，而使該數位音訊分成二該音訊區塊，利用該第一偵測視窗與該第二偵測視窗一次移動一單位時間，依序偵測該數位音訊，再利用支援向量機找出複數分界線，使該數位音訊分割成該複數音訊區塊。
如申請專利範圍第３項所述之尋找相同語者數位音訊而加以群聚之方法，其中該步驟(B)之音訊區塊係越過鄰接之音訊區塊而與其他音訊區塊進行相似度比對。