TWI224771B

TWI224771B - Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme

Info

Publication number: TWI224771B
Application number: TW092108216A
Authority: TW
Inventors: Yun-Wen Lee
Original assignee: Delta Electronics Inc
Priority date: 2003-04-10
Filing date: 2003-04-10
Publication date: 2004-12-01
Also published as: TW200421263A; US20040204942A1; US7761297B2

Description

1ZZ4//1 五、發明說明（1) 發明所屬之技術頷域 sn ί :明係有關於一種混合多國語言之語音辨識方法，裝置及種利用雙音模型實現混合多國語言之語音辨識先前技術 =於、I貝市场的全球化趨勢以及國際社會的互動增口 ’使得國人生活逐漸國際化。因此，在日常語言的表上，混合多國語t夕生、土 ,^ ^ 〇之表達方式成為不可避免的使用方式。

多專業領域的專有名詞，或者是外文人名、地名筹士二、、用翻#名詞適切地表達，以混合多國語言或多國窝二交叉使用之表達方式已成為日常語言的一部份。於語省識的f用中’將混合多國語言之語音加以辨識，使其成二具有元整意義之指令，g卩成為語音辨識中相當重要之工作。 : 見行混a夕國§吾$ (Mixed mul t i - 1 ingual)的語音辨

，方法以下列二者為主。其一係由多個各自獨立之單一語言語音辨識系統構成，於實際應用時，通常必須由使用者選擇欲進行辨識的語言種類，或者由電腦判斷輸入之語曰屬於何種語言’再指定一種語言的語音辨識系統進行辨識此方法於同一語音輸入中僅能使用一種語言，無法處理：同時包含多國語言的語音輸入。耗此方法包括多國語言之語音辨識系統，但若嚴格界定之，其並不屬於可辨識混合多國語言的語音辨識方法。

1224771 五、發明說明（2) 鍤幸ί:!、以一種語言來模擬其他的語言，也就是利用- 種主要άσ §的相似音央^ , 中文作他語言的發音。例如，選定，就利用中文的拼音來模擬其他語言的 ^ 乂央文中之DVD即利用中文拼音dii bn dii來近似 *方法雖可解決前述方法所無法處理之包含多國狂輸入問題’但由於採用近似模擬的方式曰ί法传到最佳的模擬效果，進而影響辨識的結果。如英更無法用中文拼音適切地模擬出來，因此辨識的、結果便會失真。在一 ί i ί以一組全球音標（gi〇ba 1 ph〇ne託）來標示所有 =二，再利用決策樹（decision tree)將所有標示曰進行分類辨識。此方法雖可避免前述方法辨識結 f 〇真的問題’但採用一組音標來標示所有語言，當字彙累2至相當程度時，各語種間互相干擾的情形便容易發生，”、、法達到預期的辨識效果。發明内容 •有鑑於此’本發明之一目的在於利用雙音模型 (di^h^ne model)的特性，除了跨語言（cr〇ss—的雙s模型外，其他的雙音模型都和單語辨識時相同，只能接到同一種語言，所以每一種語言的内部都採用該種語= ，拼：士組成。如此- *，不僅可完成-句話中同時包含語言的語音辨識，而且只有跨語言的部份以雙音模型連結至另一種語言，各語種間互相干擾的情形便得到有效第6頁〇678-9390TiF(N：);tereas.ptd 1224771

五、發明說明（3) 的控制。由於建置一完備之語音辨識系統，必須以大量語音庫進行訓練’本發明提出另一方法在於系統尚未訓練建置完成前，以獨立不同語言所個別訓練出來的雙音模型語音辨識系統來組合成一語音辨識系統，以解決語音辨識系統建置初期的實際困擾。為達成上述諸目的，本發明提供一種利用雙音模型實現合多國語言之語音辨識裝置，用以辨識混合多語之語音信號，並產生語音指令，包括語音建模器、語音搜尋器以及決策反應器。雙音模型係以混合語言的語音邊緣 (Phone boundary)作為建模依據。例如，「告訴我New

York的天氣」，其中’’我Νπ以及n k的即為混合語言的語音邊緣。語音建模器’其接收混合多語之語音信號，將混合多 3吾之语音號轉換為語音特徵參數（feature)，再將語音特徵參數轉換為語音模型資料。

語音搜尋器，其接收語音模型資料，並搜尋比對多語模型資料庫（multi-lingual models database)，產生分別對應於語音模型資料之候選資料組。每一候選資料組可具有多個候選語音模型資料及其對應之比較相似度 (1 ike 11 hood) ’根據詞彙連接機率，甚至在特定的用途時 (ID，地址…等）’可參考語音規則，決定詞彙可否連接等找出最佳的多個候選語音指令。多語模型資料庫包括混合多語字音對應資料以及混合

五、發明說明（4) 多語矯正模多語建模器模型產生器多語建模型資料庫多語音標序標序列對應對應之多語多語音標序應資料。資料係以多語構正得到多語模器包括。多語音查詢指令篩選組合語字音對 ΐ=:_υ。混合多語字音對應 ’而混合多語矯正模型係以建置而成。 :器接收多語查詢指令，並經過分析中之混合多語字音對應資料。多語建列對應器以及跨語言雙音模型產生器器，比對多語查詢指令以得到與多語音標序列。跨語言雙音模型產生器；1 列，得到多語模型資料庫中之混合多多語矯正模型產生器，化計算，得到混合多語矯正產生器以及矮正模型結合器接收多語查詢指令，參考單語種進行正規化計算，產生語言矯正模型對應於一種單收單一語言端正模型，進行中之混合多语橋正模型。接收多語查詢指令，經過正規模型，包括單一語言矯正模型。單一語言矯正模型產生器，一語言雙音模型庫，分為不同單一語言矯正模型，每一單一一語言。矯正模型結合器，接加權計算得到多語模型資料庫

決策反應器，其根據比較相似度以及決策規則組，由候選語音指令決定一最佳的語音指令，然後依語音指令可產生相對應之行動反應。其次’本發明提出一種利用雙音模型實現混合多國語吕之§吾音辨識方法，用以辨識混合多國語言之語音信號，並產生可辨識之語音指令。首先，將混合多國語言之語音

Ϊ224771 五、發明說明（5) i吉號轉換為語音輯撒1 模型資料。符徵參數，再將語音特徵參數轉換為語音型資2:候d:模2料庫：搜尋比對對應於語音模選語音模型資料’，而I母結候選資料組具有多個可能的候似度。 4而母一候選語音模型資料具有一比較相夕βσ模型資料庫包括混合多語字音對應資料以及、、日入多語矯正模型。，？人夕沒a * 于日訂愿貝料以及此合建琶而成，合i 1=7夕子9對應資料係以多語建模程序炉皮以成缺先比對多語查詢指令，以得到對應之多語音才示序列。然後，把吝古丑立押生做吏β細％ _ # S糕序列根據刖後音標根據發音學更料细的、、日人夕，可此加上一些捲舌，侯振音等，以得到是可以省略的。進行筛選組合時，係先固則音標尋求對應結果，若無法對應再固定右側左側音標尋求對應結果，得到上述混合多語字音、混合多語矯正模型係以多語矯正模型產生程序建置而成。首先！多語查詢指♦，參考單一語言雙音模型庫進行正規化計算，產生單一語言矯正模型，每一單一狂士模型對應於-種單一語言。接著’將單一語言矯型，進行加權計算得到上述混合多語矯正模型。最後，根據比較相似度以及決策規則組，由每一候資料組中決定結果語音模型資料，並將所得之妹果&立^ 型資料結合成語音指令，最後可再依語音指令‘生二^

Η 0678-9390TW(Nl); tereas. ptd 五、發明說明⑹ 之行動反應。實施方式請參照第1圖，第1圖係顯示本發明之功能方塊圖。本 ^ 捉出一種利用雙音模型實現混合多國語言之語音辨識 ^ ^ ’其用以辨識混合多語之語音信號100，並產生語音 :令116，包括語音建模器102、語音搜尋器106以及決策反應器11 2。語音建模器102，用以接收混合多語之語音信號100，立展合多語之語音信號10〇轉換為語音特徵參數，再將語 ❿ Q特徵參數轉換為語音模型資料1 0 4。，語音搜尋器106，接收語音模型資料104，並查詢多語 ^型資料庫108，搜尋比對對應於語音模型資料1〇4之候選 =料組’每一候選資料組可能有多個候選語音模型資料，母候選語音模型資料會具有一比較相似度。上述搜尋比對還可能參考語言及語法規則資料庫（Rules 〇r

Languages Models database)以及混多語指令字串（Mixed —lingual query commands strings)。語言及語法規則貝料庫主要係由某一特定領域或某一語言規則所組成，混多語指令字串以及多語字音對應字串亦為某一特定領域之常用字串，其作用均在於增加語法辨識能力，提昇 2識率（recognition rate)。語音搜尋器再根據詞彙連接機率或參考語音規則資料庫107決定詞彙可否連接等評估出最佳的多個候選語音指令11 〇。

1224771

決策反應器11 2，其根據比較相似度以及決策規則組 114 ,由候選語音指令11〇中決定一結果語音指令然後可再依“曰扣7產生行動反應。決策規則組11 4可以預設一信賴度Η檻（threshold)，以判斷結果是否為一可認知之指令，過濾可能辨認錯誤的指令，避免錯誤動作。或以無條，接受辨識結果等等規則來作為決策基準。行動反應可月匕疋發出浯音或燈號、提示使用者重新輸入或者進行遠端 (remote)控制等。、多語模型資料庫108包括混合多語字音對應資料以及混合多語橋正模型。混合多語字音對應資料以多語建模器事先建置完成，混合多語矯正模型以多語矯正模型產生器事先建置完成。請參照第2圖，第2圖係顯示本發明中建置混合多語字音對應資料之功能方塊圖。多語建模器包括多語音標序列對應器202以及跨語言雙音模型產生器2〇6。多語音標序列對應器202，可參考多語字彙字典，將多語查詢指令2〇〇經過比對，得到對應之多語音標序列。跨語言雙音模型產生器206，可參考跨語言資料表以及語法規則庫，筛選組合多語音標序列，得到多語模型資料庫中之混合多狂立應資料208。 ϋ 曰_ 跨語言雙音模型產生器2〇6於進行上述篩選組合時，係先固定左侧音標，於右側音標尋求對應結果，若無法應再固定右側音標，於左側音標尋求對應結果，得到上、,、混合多語字音對應資料。請參照第5圖，第5圖係顯示=

1224771 五、發明說明（8) 明所揭示之實施例中跨語言資料表之範例表示圖，圖中C 表示中文，e表示英文。如圖中第一列所示，如中文的2拼音於英文中便無法找出較佳的近似音，利用本發明所提出之雙音模型之方式可找到英文中的ch *th的近似候選雙音模型。如圖中第二列所示，如中文的ZC1拼音無法找出較佳的近似音，根據決策規則判定為不對應。如圖中第三列所示’如中文的i ng拼音必須以英文的丨h + ng組合才能完成，根據決策規則將其組合。 #凊參照第3圖’第3圖係顯示本發明中建置混合多語矯正杈型之功能方塊圖。多語矯正模型產生器32，接收多語查詢指令30，經過正規化計算，得到混合多語矯正模型 ^，時參照第4圖，第4圖係顯示本發明中建置混合多 5正模型之細部功能方塊圖。多語矯正模型產生器以包個單語言矯正模型產生器32 0、324、328以及矯正模51結合器332。單一語言矯正模型產生器32〇、…、 28，接收多語查詢指令3 〇，參考單一語言雙音模型庫 322、326、330，分為不同語種進行正規化、 ::言；正模型，每-單-語言矯正模型對應於-種單- ::權4 結合器332，接收單一語言矯正模型，進 Μ。權计具仵到多語模型資料庫中之混合多語矯正模型置一 ΐ二^立早一語言矯正模型產生器（甲語言）320參考型。單一1 ’產生甲語言矯正模孓早如吕矯正模型產生器（乙語言）324參考單一語言第12頁 0678-9390TlF(N：： tereas .ptd 五、發明說明（9) 雙音模型庫（乙語言）326，產生乙語言矯正模型。言矯正模型產生器（丙語言）328參考單一扭+ 早一扣 (丙語言則，產生丙語言端正模型皁再模型庫 (1) ’接收甲語言、乙語言、丙語言矯正模型，進行二權計算得到多語模型資料庫中之混合多語矯正模單一語言矯正模型產生器32()、324、328 ' (2)來進行正規化：用Α式 (1) (2) anti log P = log P-log Pc 如果所應用的語音辨識系統，係以的 :有 =::丨；：置完^系統本身就已經 ΐ:再統=:r:nr訓練而成二算產生混合多語緯正模型。：：=4用圖之△規3 孫以夕加…π η 、玉如果所應用的語音辨識系統，即以“單一訓練成的語音辨識系統所組成， 4圖之正規化加V計算又。曰楔型結合而成，就必須進行如第如圖而i用：第6圖之硬體架構實現本發明。模組618與語音辨識^吏轉用*前可透過網路模組616或連接埠求定義所需的辨識^進行連結。使用者可根據使用需 °規則’如地址、車牌或身份證字號等。

1224771 五、發明說明（ίο) β 使用者於使用時，可透過麥克風602或電話介面6〇4輸入查詢或指令，即語音信號輸入6〇〇。接著’由類比信號至數位信號轉換模組6 〇 6，將語音信號輸入600轉換為數位信號。而語音辨識系統的程式軟體置於唯讀記憶體6〇8、隨機存取記憶體610以及快閃記憶體612中，數位信號處理單元614可進行資料處理、資料^ 制與資料辨識等工作。其中，如果所欲儲存的資料為固定且變動性不大之資料，如網路協定、開機程式等可置於唯讀記憶體608中。如果所欲儲存的資料為變動性大且經常更新之資料，如各語言間之轉換表、語音機率模型等可置於快閃記憶體612中。數位信號處理單元614於執行時間，會將辨識系統載入隨機存取記憶體61〇中進行各項辨識分析。。最Μ後ϋ所得之結果透過數位信號至類比信號轉換模組，轉換為類比信號，由喇則24或電話介面_輸出。此外，也可經由網路模組616或連接槔模組 f對應之行減觸〇。而且系_式或=端料物庫 ^62〇可由網路模組616或連接埠模組618進行程式昇級與更 -之ii辨it明提出一種利用雙音模型實現混合多國語。之”口日辨識方法，用以辨識混合多國語言立並產生相對應之行動反應。請參照&二發明之執行流程圖。首先，將混合多二換為语音特徵參數，再將語音特徵參數轉換為語^資 1224771

料（步驟S700)。每一：J雙對應於語音模型資料之候選資料組，具有多個可能的候選雙音模型，而每語音指令1_中之搜尋比對= 指^字串^庫、51言及語法規則資料庫以及混多語查詢多語模型資料庫包括混合多語端正模型。混合多語字音建置而成，多語建模程序首先语查珣指令經過比對，得到與標序列。然後，分類多語音標言資料表以及語法規則庫，篩列’得到混合多語字音對應資多語橋正模型產生程序建置而首先將多語查詢指令，參考單化計算，產生單一語言矯正模對應於一種單一語言。接著，加權計算得到上述混合多語矯最後’根據比較相似度以雙音模型組中決定結果語音模得之結果語音模型資料結合成依語音指令產生相對應之行動多語字音對應資料以及混合對應資料係以多語建模程序可參考多語字彙字典，將多多語查詢指令對應之多語音序列進行分類，再參考跨語選組合已分類之多語音標序料。混合多語矯正模型係以成。多語矯正模型產生程序一語言雙音模型庫進行正規型，每一單一語言矯正模型將單一語言矯正模型，進行正模型。及決菜規則組，由每一候選型資料（步驟S704)，並將所 #音指令（步驟S706)，可再反應（步驟S708 )。

綜言之’本發明所揭示之裝置及方法，透過雙音模型

0678-9390TWF(Nl);tereas.ptd 第15頁 1224771 五、發明說明（12) 任ί現混合多國語言之語音辨識功能1以辨識混所欲達到之目的。二士 f 曰才曰令，達到本發明彙的情形下，⑺可具= 言交叉混合及累積大量字行技術所無法解決之問題“ t辨識成果，大幅改善現雖然本發明已以較佳眚限定本發明Hr ,:實例揭露如i，然复拍非田和範圍内，當可作此支二f在不脫離本發明之精神範圍當視後附之申ϋ!動與潤飾，因此本發：：精神申6月專利範圍所界定者為準。發明之保護 0678-9390TW(Nl); t-r^s. ?td 第16頁

第1圓係顯示本發第2圖係顯示本發功能方塊圖。第3圖係顯示本發方塊圖。第4圖係顯示本發功能方塊圖。明之功能方塊圖。明中建置混合多語字音對應資料之明中建置混合多語矯正模型之功能明中建置混合多語矯正模型之細部第5圖係顯示本發明之範例表示圖。第6圖係顯示本發明圖。第7圖係顯示本發明所揭示之實施例中跨語言資料表所揭示之實施例應用之功能示意之執行流程圖。符號說明 100 ~混合多語語音信號； 102 —語音建模器； 1〇4 106 —語音搜尋器·，了 1 0 8 —多語模型資料庫；丨j 〇語音模型資料；語音規則資料庫；最佳候選語音指令；決策規則組； 112 —決策反應器； I" 11 6 —語音指令及相對應動作·， 200 —多語杳詢指今· 20? 々丄尤夕一 ^曰7〜多語文音標序列對應器 206 —跨語言雙音模型產生器· 208 —混合多語字音對應資料； 3 0 —多語查令 32 多語矯正模型產生器；

0678-9390TWF(Nl);tereas.ptd 第17頁 1224771

圖式簡單説明 34 —單一語言雙音模型庫； 36 —混合多語矯正模型； 320 —單一語言矯正模型產生器（甲語言）； 322 —單一語言雙音模型庫（甲語言）； 324 —單一語言矯正模型產生器（乙語言）； 326 —單一語言雙音模型庫（乙語言）； 328 —單一語言矯正模型產生器（丙語言）； 330 —單一語言雙音模型庫（丙語言）； 332 —矯正模型結合器；60〇_語音信號輸入； 602 —麥克風； 604 —電話介面； 6 0 6 —類比/數位； 6 0 8 —唯讀記憶體； 61 〇 —隨機存取記憶體； 61 2 -快閃記憶體； 6 1 4 -數位信號處理單元; 61 6 —網路模組； 6 1 8 —連接埠模組； 6 2 0 —行動反應程式昇級； 6 2 2 —數位/類比； 6 2 4 —喇口八； 626 —電話介面； 628 —語音輸出。

Claims

1224771 六、申請專利範圍 "------- 瞢，1甘=種利用雙音模型實現混合多國語言之語音辨識裝乜、以辨識一混合多語之語音信號為一語音指令，包肱二語音建模器，用以接收上述混合多語之語音信號，二混合多語之語音信號轉換為複數語音特徵參數，再將上述=ί特徵參數轉換為複數語音模型資料；一語音搜尋器，其耦接於上述語音建模器，用以接收上述語音模型資料，並且搜尋比對分別對應於上述語音模型資料之複數候選資料組，每一候選資料組具有複數候選 ^曰模型負料’及其對應之比較相似度，並評估出最佳的複數候選語音指令；以及 > 一決策反應器’其耦接於上述語音搜尋器，由上述候選语音指令中決定對應於上述語音模型資料之複數結果語音模型資料，並將上述結果語音模型資料結合成一語音指令0 2·如申請專利範圍第1項所述之利用雙音模型實現混合多國語言之語音辨識装置，其中上述語音模型資料係為具有雙音模型之資料。

3 ·如申請專利範圍第1項所述之利用雙音模型實現混合多國語言之語音辨識裝置，其中上述語音搜尋器，係根據一多語模型資料庫進行搜尋比對。 4·如申請專利範圍第3項所述之利用雙音模型實現混合多國語言之語音辨識裝置，其中上述多語模型資料庫包括複數混合多語字音對應資料。

1224771 六、申請專利範圍 5.如申請專利範圍第4項所述之利用雙音模型實現混合多國語言之語音辨識裝置，其中更包括一多語建模器，用以產生上述混合多語字音對應資料，其包括：一多語音標序列對應器，將複數第一多語查詢指令經過比對，得到對應之複數多語音標序列；以及一跨语言雙音模型產生器’其輕接於上述多語音標序列對應器’用以篩選組合上述多語音標序列，以得到上述混合多語字音對應資料。

6·如申請專利範圍第3項所述之利用雙音模型實現混曰夕國语s之語音辨識裝置，其中上述多語模型資料庫包括複數混合多語矯正模型。、 7 ·如申請專利範圍第6項所述之利用雙音模型實現混合多^語言之語音辨識裝置，其中更包括一多語矯正模型產生器，用以產生上述混合多語矯正模型，其包括：夕至乂單一浯言續正模型產生器，用以接收複數第二 f語查詢指令，分別對應於複數既定語種進行正規化計算’產生複數單一語言矯正模型；以及二矯正模型結合器，其耦接於上述單一語言矯正模型產生器，用以接收上述單一語言矯正模型，進行加權計算得到上述混合多語矯正模型。如申凊專利範圍第1項所述之利用雙音模型實現混語語音辨識裝置，其中上述語音搜尋器，係根叩曰杈型貝料連接的順序以及一語音規則資料庫進

第20頁 1224771 六、申請專利範圍 9· 一種利用雙音模型實現混合多國語言之語音辨識方法，其用以辨識一混合多國語言之語音信號，包括下列驟： 7 將上述混合多國語言之語音信號轉換為複數語音特徵參數，再將上述語音特徵參數轉換為複數語音模型資料. 搜尋比對分別對應於上述語音模型資料之複數候選資料組，每一候選資料組具有複數候選語音模型資料，及^ 對應之比較相似度，並評估出最佳的複數候選語音指人了以及曰7 ’ 根據上述比較相似度，分別由上述候選資料組中決定對應於上述語音模型資料之複數結果語音模型資料，並^ 上述結果語音模型資料結合成一語音指令。 w ; 1 〇·如申請專利範圍第9項所述之利用雙音模型實合多國語言之語音辨識方法，其中上述語音模型 2 具有雙音模型之資料。貝针係為 11·如申請專利範圍第9項所述之利用雙音模合多國語言之語音辨識方法，其中上述雙音模型搜尋比Z 之步驟中，上述搜尋比對係根據一多語模型資料庫。 12·如申請專利範圍第n項所述之利用雙音型混合多國語言之語音辨識方法，Α中 /、歪貫現包括複數混合多語字音對應資料。貝τ叶準 13.如申請專利範圍第12項所述之利用混合多國語言之語音辨識方法，纟中二現序，用以產生上述混合多&丰立t 夕〜建模程、此口夕浯子曰對應貧料，包括下列步

0678-9390TWF(Nl);tereas.ptd 第21頁 1224771 六、申請專利範圍驟：將複數第一多語查詢指令經過比對，得到對應之複數多語音標序列；以及篩選組合上述多語音標序列，以得到上述混合多語字音對應資料。 14·如申請專利範圍第丨3項所述之利用雙音模型實現混合多國語言之語音辨識方法，其中上述篩選組合上述已分類之多語音標序列之步驟中，尚包括下列步驟：先固定左側音標，於右側音標尋求對應結果；

當無法對應時固定右側音標，於左側音標尋求對應結果；以及由對應結果得到上述混合多語字音對應資料。 1 5 ·如申請專利範圍第11項所述之利用雙音模型實現混合多國語言之語音辨識方法，其中上述多語模型資料庫包括複數混合多語矯正模型。 1 6 ·如申請專利範圍第丨5項所述之利用雙音模型實現混合多國語言之語音辨識方法，其中更包括一多語矯正模型產生程序’用以產生上述混合多語矯正模型，包括下列步驟：

接收複數第二多語查詢指令，分別對應於複數既定語種進行正規化計算，產生複數單〆語言墙正模型；以及將上述單一語言矯正模型進行加權計算，以得到上述混合多語矯正模型。 1 7 ·如申請專利範圍第9項所述之利用雙音模型實現混

1224771

0678-9390TWF(Nl);tereas.ptd 第23頁