TWI224771B - Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme - Google Patents

Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme Download PDF

Info

Publication number
TWI224771B
TWI224771B TW092108216A TW92108216A TWI224771B TW I224771 B TWI224771 B TW I224771B TW 092108216 A TW092108216 A TW 092108216A TW 92108216 A TW92108216 A TW 92108216A TW I224771 B TWI224771 B TW I224771B
Authority
TW
Taiwan
Prior art keywords
model
speech
mixed
multilingual
language
Prior art date
Application number
TW092108216A
Other languages
English (en)
Other versions
TW200421263A (en
Inventor
Yun-Wen Lee
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Priority to TW092108216A priority Critical patent/TWI224771B/zh
Priority to US10/779,764 priority patent/US7761297B2/en
Publication of TW200421263A publication Critical patent/TW200421263A/zh
Application granted granted Critical
Publication of TWI224771B publication Critical patent/TWI224771B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

1ZZ4//1 五、發明說明(1) 發明所屬之技術頷域 sn ί :明係有關於一種混合多國語言之語音辨識方法, 裝置及種利用雙音模型實現混合多國語言之語音辨識 先前技術 =於、I貝市场的全球化趨勢以及國際社會的互動增 口 ’使得國人生活逐漸國際化。因此,在日常語言的表 上,混合多國語t夕生、土 ,^ ^ 〇之表達方式成為不可避免的使用方式。
多專業領域的專有名詞,或者是外文人名、地名筹 士二、、用翻#名詞適切地表達,以混合多國語言或多國窝 二交叉使用之表達方式已成為日常語言的一部份。於語省 識的f用中’將混合多國語言之語音加以辨識,使其成 二具有元整意義之指令,g卩成為語音辨識中相當重要之工 作。 : 見行混a夕國§吾$ (Mixed mul t i - 1 ingual)的語音辨
,方法以下列二者為主。其一係由多個各自獨立之單一 語言語音辨識系統構成,於實際應用時,通常必須由使用 者選擇欲進行辨識的語言種類,或者由電腦判斷輸入之語 曰屬於何種語言’再指定一種語言的語音辨識系統進行辨 識此方法於同一語音輸入中僅能使用一種語言,無法處 理:同時包含多國語言的語音輸入。耗此方法包括多國 語言之語音辨識系統,但若嚴格界定之,其並不屬於可辨 識混合多國語言的語音辨識方法。
1224771 五、發明說明(2) 鍤幸ί:!、以一種語言來模擬其他的語言,也就是利用- 種主要άσ §的相似音央^ , 中文作他語言的發音。例如,選定 ,就利用中文的拼音來模擬其他語言的 ^ 乂央文中之DVD即利用中文拼音dii bn dii來近似 *方法雖可解決前述方法所無法處理之包含多國狂 輸入問題’但由於採用近似模擬的方式 曰ί法传到最佳的模擬效果,進而影響辨識的結果。如英 更無法用中文拼音適切地模擬出來,因此辨識的、 結果便會失真。 在一 ί i ί以一組全球音標(gi〇ba 1 ph〇ne託)來標示所有 =二,再利用決策樹(decision tree)將所有標示 曰進行分類辨識。此方法雖可避免前述方法辨識結 f 〇真的問題’但採用一組音標來標示所有語言,當字彙 累2至相當程度時,各語種間互相干擾的情形便容易發 生,”、、法達到預期的辨識效果。 發明内容 •有鑑於此’本發明之一目的在於利用雙音模型 (di^h^ne model)的特性,除了 跨語言(cr〇ss—的 雙s模型外,其他的雙音模型都和單語辨識時相同,只能 接到同一種語言,所以每一種語言的内部都採用該種語= ,拼:士組成。如此- *,不僅可完成-句話中同時包含 語言的語音辨識,而且只有跨語言的部份以雙音模型 連結至另一種語言,各語種間互相干擾的情形便得到有效 第6頁 〇678-9390TiF(N:);tereas.ptd 1224771
五、發明說明(3) 的控制。 由於建置一完備之語音辨識系統,必須以大量語音庫 進行訓練’本發明提出另一方法在於系統尚未訓練建置完 成前,以獨立不同語言所個別訓練出來的雙音模型語音辨 識系統來組合成一語音辨識系統,以解決語音辨識系統建 置初期的實際困擾。 為達成上述諸目的,本發明提供一種利用雙音模型實 現 合多國語言之語音辨識裝置,用以辨識混合多語之語 音信號,並產生語音指令,包括語音建模器、語音搜尋器 以及決策反應器。雙音模型係以混合語言的語音邊緣 (Phone boundary)作為建模依據。例如,「告訴我New
York的天氣」,其中’’我Νπ以及n k的即為混合語言的語音 邊緣。 語音建模器’其接收混合多語之語音信號,將混合多 3吾之语音號轉換為語音特徵參數(feature),再將語音 特徵參數轉換為語音模型資料。
語音搜尋器,其接收語音模型資料,並搜尋比對多語 模型資料庫(multi-lingual models database),產生分 別對應於語音模型資料之候選資料組。每一候選資料組可 具有多個候選語音模型資料及其對應之比較相似度 (1 ike 11 hood) ’根據詞彙連接機率,甚至在特定的用途時 (ID,地址…等)’可參考語音規則,決定詞彙可否連接等 找出最佳的多個候選語音指令。 多語模型資料庫包括混合多語字音對應資料以及混合
五、發明說明(4) 多語矯正模 多語建模器 模型產生器 多語建 模型資料庫 多語音標序 標序列對應 對應之多語 多語音標序 應資料。 資料係以 多語構正 得到多語 模器包括 。多語音 查詢指令 篩選組合 語字音對 ΐ=:_υ。混合多語字音對應 ’而混合多語矯正模型係以 建置而成。 :器接收多語查詢指令,並經過分析 中之混合多語字音對應資料。多語建 列對應器以及跨語言雙音模型產生器 器,比對多語查詢指令以得到與多語 音標序列。跨語言雙音模型產生器;1 列,得到多語模型資料庫中之混合多 多語矯正模型產生器, 化計算,得到混合多語矯正 產生器以及矮正模型結合器 接收多語查詢指令,參考單 語種進行正規化計算,產生 語言矯正模型對應於一種單 收單一語言端正模型,進行 中之混合多语橋正模型。 接收多語查詢指令,經過正規 模型,包括單一語言矯正模型 。單一語言矯正模型產生器, 一語言雙音模型庫,分為不同 單一語言矯正模型,每一單一 一語言。矯正模型結合器,接 加權計算得到多語模型資料庫
決策反應器,其根據比較相似度以及決策規則組,由 候選語音指令決定一最佳的語音指令,然後依語音指令可 產生相對應之行動反應。 其次’本發明提出一種利用雙音模型實現混合多國語 吕之§吾音辨識方法,用以辨識混合多國語言之語音信號, 並產生可辨識之語音指令。首先,將混合多國語言之語音
Ϊ224771 五、發明說明(5) i吉號轉換為語音輯撒1 模型資料。 符徵參數,再將語音特徵參數轉換為語音 型資2:候d:模2料庫:搜尋比對對應於語音模 選語音模型資料’,而I母結候選資料組具有多個可能的候 似度。 4而母一候選語音模型資料具有一比較相 夕βσ模型資料庫包括混合多語字音對應資料以及、、日入 多語矯正模型。,?人夕沒a * 于日訂愿貝料以及此合 建琶而成,合i 1=7夕子9對應資料係以多語建模程序 炉皮以成缺先比對多語查詢指令,以得到對應之多語音 才示序列。然後,把吝古丑立押生 做吏β細% _ # S糕序列根據刖後音標根據發音學 更料细的、、日人夕,可此加上一些捲舌,侯振音等,以得到 是可以省略的。進行筛選組合時,係先固 則音標尋求對應結果,若無法對應再固定右側 左側音標尋求對應結果,得到上述混合多語字音 、混合多語矯正模型係以多語矯正模型產生程序建置而 成。首先!多語查詢指♦,參考單一語言雙音模型庫進行 正規化計算,產生單一語言矯正模型,每一單一狂士 模型對應於-種單一語言。接著’將單一語言矯型, 進行加權計算得到上述混合多語矯正模型。 最後,根據比較相似度以及決策規則組,由每一候 資料組中決定結果語音模型資料,並將所得之妹果&立^ 型資料結合成語音指令,最後可再依語音指令‘生二^
Η 0678-9390TW(Nl); tereas. ptd 五、發明說明⑹ 之行動反應。 實施方式 請參照第1圖,第1圖係顯示本發明之功能方塊圖。本 ^ 捉出一種利用雙音模型實現混合多國語言之語音辨識 ^ ^ ’其用以辨識混合多語之語音信號100,並產生語音 :令116,包括語音建模器102、語音搜尋器106以及決策 反應器11 2。 語音建模器102,用以接收混合多語之語音信號100, 立展合多語之語音信號10〇轉換為語音特徵參數,再將語 ❿ Q特徵參數轉換為語音模型資料1 0 4。 ,語音搜尋器106,接收語音模型資料104,並查詢多語 ^型資料庫108,搜尋比對對應於語音模型資料1〇4之候選 =料組’每一候選資料組可能有多個候選語音模型資料, 母候選語音模型資料會具有一比較相似度。上述搜尋比 對還可能參考語言及語法規則資料庫(Rules 〇r
Languages Models database)以及混多語指令字串(Mixed —lingual query commands strings)。語言及語法 規則貝料庫主要係由某一特定領域或某一語言規則所組 成,混多語指令字串以及多語字音對應字串亦為某一特定 領域之常用字串,其作用均在於增加語法辨識能力,提昇 2識率(recognition rate)。語音搜尋器再根據詞彙連接 機率或參考語音規則資料庫107決定詞彙可否連接等評估 出最佳的多個候選語音指令11 〇。
1224771
決策反應器11 2,其根據比較相似度以及決策規則組 114 ,由候選語音指令11〇中決定一結果語音指令然後可 再依“曰扣7產生行動反應。決策規則組11 4可以預設一 信賴度Η檻(threshold),以判斷結果是否為一可認知之 指令,過濾可能辨認錯誤的指令,避免錯誤動作。或以無 條,接受辨識結果等等規則來作為決策基準。行動反應可 月匕疋發出浯音或燈號、提示使用者重新輸入或者進行遠端 (remote)控制等。 、多語模型資料庫108包括混合多語字音對應資料以及 混合多語橋正模型。混合多語字音對應資料以多語建模器 事先建置完成,混合多語矯正模型以多語矯正模型產生器 事先建置完成。 請參照第2圖,第2圖係顯示本發明中建置混合多語字 音對應資料之功能方塊圖。多語建模器包括多語音標序列 對應器202以及跨語言雙音模型產生器2〇6。多語音標序列 對應器202,可參考多語字彙字典,將多語查詢指令2〇〇經 過比對,得到對應之多語音標序列。跨語言雙音模型產生 器206,可參考跨語言資料表以及語法規則庫,筛選組合 多語音標序列,得到多語模型資料庫中之混合多狂立 應資料208。 ϋ 曰_ 跨語言雙音模型產生器2〇6於進行上述篩選組合時, 係先固定左侧音標,於右側音標尋求對應結果,若無法 應再固定右側音標,於左側音標尋求對應結果,得到上、,、 混合多語字音對應資料。請參照第5圖,第5圖係顯示=
1224771 五、發明說明(8) 明所揭示之實施例中跨語言資料表之範例表示圖,圖中C 表示中文,e表示英文。如圖中第一列所示,如中文的2拼 音於英文中便無法找出較佳的近似音,利用本發明所提出 之雙音模型之方式可找到英文中的ch *th的近似候選雙音 模型。如圖中第二列所示,如中文的ZC1拼音無法找出較 佳的近似音,根據決策規則判定為不對應。如圖中第三列 所示’如中文的i ng拼音必須以英文的丨h + ng組合才能完 成,根據決策規則將其組合。 #凊參照第3圖’第3圖係顯示本發明中建置混合多語矯 正杈型之功能方塊圖。多語矯正模型產生器32,接收多語 查詢指令30,經過正規化計算,得到混合多語矯正模型 ^,時參照第4圖,第4圖係顯示本發明中建置混合多 5正模型之細部功能方塊圖。多語矯正模型產生器以包 個單語言矯正模型產生器32 0、324、328以及矯正 模51結合器332。單一語言矯正模型產生器32〇、…、 28,接收多語查詢指令3 〇,參考單一語言雙音模型庫 322、326、330,分為不同語種進行正規化 、 ::言;正模型,每-單-語言矯正模型對應於-種單- ::權4 結合器332,接收單一語言矯正模型,進 Μ。權计具仵到多語模型資料庫中之混合多語矯正模型 置一 ΐ二^立早一語言矯正模型產生器(甲語言)320參考 型。單一1 ’產生甲語言矯正模 孓早如吕矯正模型產生器(乙語言)324參考單一語言 第12頁 0678-9390TlF(N: : tereas .ptd 五、發明說明(9) 雙音模型庫(乙語言)326,產生乙語言矯正模型。 言矯正模型產生器(丙語言)328參考單一扭+ 早一扣 (丙語言則,產生丙語言端正模型皁再模型庫 (1) ’接收甲語言、乙語言、丙語言矯正模型,進行二 權計算得到多語模型資料庫中之混合多語矯正模 單一語言矯正模型產生器32()、324、328 ' (2)來進行正規化: 用Α式 (1) (2) anti log P = log P-log Pc 如果所應用的語音辨識系統,係以 的 :有 =::丨;:置完^系統本身就已經 ΐ:再統=:r:nr訓練而成二 算產生混合多語緯正模型。::=4用圖之△規3 孫以夕加…π η 、玉如果所應用的語音辨識系統, 即以“單一訓練成的語音辨識系統所組成, 4圖之正規化加V計算又。曰楔型結合而成,就必須進行如第 如圖而i用:第6圖之硬體架構實現本發明。 模組618與語音辨識^吏轉用*前可透過網路模組616或連接埠 求定義所需的辨識^進行連結。使用者可根據使用需 °規則’如地址、車牌或身份證字號等。
1224771 五、發明說明(ίο) β 使用者於使用時,可透過麥克風602或電話介面6〇4輸入查 詢或指令,即語音信號輸入6〇〇。 接著’由類比信號至數位信號轉換模組6 〇 6,將語音 信號輸入600轉換為數位信號。而語音辨識系統的程式軟 體置於唯讀記憶體6〇8、隨機存取記憶體610以及快閃記憶 體612中,數位信號處理單元614可進行資料處理、資料^ 制與資料辨識等工作。其中,如果所欲儲存的資料為固定 且變動性不大之資料,如網路協定、開機程式等可置於唯 讀記憶體608中。如果所欲儲存的資料為變動性大且經常 更新之資料,如各語言間之轉換表、語音機率模型等可置 於快閃記憶體612中。數位信號處理單元614於執行時間, 會將辨識系統載入隨機存取記憶體61〇中進行各項辨識分 析。 。 最Μ後ϋ所得之結果透過數位信號至類比信號轉換模組 ,轉換為類比信號,由喇則24或電話介面_輸出。 此外,也可經由網路模組616或連接槔模組 f對應之行減觸〇。而且系_式或=端料物庫 ^62〇可由網路模組616或連接埠模組618進行程式昇級與更 -之ii辨it明提出一種利用雙音模型實現混合多國語 。之”口日辨識方法,用以辨識混合多國語言立 並產生相對應之行動反應。請參照&二 發明之執行流程圖。首先,將混合多二 換為语音特徵參數,再將語音特徵參數轉換為語^資 1224771
料(步驟S700)。 每一:J雙對應於語音模型資料之候選資料組, 具有多個可能的候選雙音模型,而每 語音指令1_中之搜尋比對= 指^字串^庫、51言及語法規則資料庫以及混多語查詢 多語模型資料庫包括混合 多語端正模型。混合多語字音 建置而成,多語建模程序首先 语查珣指令經過比對,得到與 標序列。然後,分類多語音標 言資料表以及語法規則庫,篩 列’得到混合多語字音對應資 多語橋正模型產生程序建置而 首先將多語查詢指令,參考單 化計算,產生單一語言矯正模 對應於一種單一語言。接著, 加權計算得到上述混合多語矯 最後’根據比較相似度以 雙音模型組中決定結果語音模 得之結果語音模型資料結合成 依語音指令產生相對應之行動 多語字音對應資料以及混合 對應資料係以多語建模程序 可參考多語字彙字典,將多 多語查詢指令對應之多語音 序列進行分類,再參考跨語 選組合已分類之多語音標序 料。混合多語矯正模型係以 成。多語矯正模型產生程序 一語言雙音模型庫進行正規 型,每一單一語言矯正模型 將單一語言矯正模型,進行 正模型。 及決菜規則組,由每一候選 型資料(步驟S704),並將所 #音指令(步驟S706),可再 反應(步驟S708 )。
綜言之’本發明所揭示之裝置及方法,透過雙音模型
0678-9390TWF(Nl);tereas.ptd 第15頁 1224771 五、發明說明(12) 任ί現混合多國語言之語音辨識功能1以辨識混 所欲達到之目的。二士 f 曰才曰令,達到本發明 彙的情形下,⑺可具= 言交叉混合及累積大量字 行技術所無法解決之問題“ t辨識成果,大幅改善現 雖然本發明已以較佳眚 限定本發明Hr ,:實例揭露如i,然复拍非田 和範圍内,當可作此 支二f在不脫離本發明之精神 範圍當視後附之申ϋ!動與潤飾,因此本發::精神 申6月專利範圍所界定者為準。發明之保護 0678-9390TW(Nl); t-r^s. ?td 第16頁
第1圓係顯示本發 第2圖係顯示本發 功能方塊圖。 第3圖係顯示本發 方塊圖。 第4圖係顯示本發 功能方塊圖。 明之功能方塊圖。 明中建置混合多語字音對應資料之 明中建置混合多語矯正模型之功能 明中建置混合多語矯正模型之細部 第5圖係顯示本發明 之範例表示圖。 第6圖係顯示本發明 圖。 第7圖係顯示本發明 所揭示之實施例中跨語言資料表 所揭示之實施例應用之功能示意 之執行流程圖。 符號說明 100 ~混合多語語音信號; 102 —語音建模器; 1〇4 106 —語音搜尋器·, 了 1 0 8 —多語模型資料庫;丨j 〇 語音模型資料; 語音規則資料庫; 最佳候選語音指令; 決策規則組; 112 —決策反應器; I" 11 6 —語音指令及相對應動作·, 200 —多語杳詢指今· 20? 々丄尤 夕一 ^曰7〜多語文音標序列對應器 206 —跨語言雙音模型產生器· 208 —混合多語字音對應資料; 3 0 —多語查 令 32 多語矯正模型產生器;
0678-9390TWF(Nl);tereas.ptd 第17頁 1224771
圖式簡單説明 34 —單一語言雙音模型庫; 36 —混合多語矯正模型; 320 —單一語言矯正模型產生器(甲語言); 322 —單一語言雙音模型庫(甲語言); 324 —單一語言矯正模型產生器(乙語言); 326 —單一語言雙音模型庫(乙語言); 328 —單一語言矯正模型產生器(丙語言); 330 —單一語言雙音模型庫(丙語言); 332 —矯正模型結合器;60〇_語音信號輸入; 602 —麥克風; 604 —電話介面; 6 0 6 —類比/數位; 6 0 8 —唯讀記憶體; 61 〇 —隨機存取記憶體; 61 2 -快閃記憶體; 6 1 4 -數位信號處理單元; 61 6 —網路模組; 6 1 8 —連接埠模組; 6 2 0 —行動反應程式昇級; 6 2 2 —數位/類比; 6 2 4 —喇口八; 626 —電話介面; 628 —語音輸出。

Claims (1)

1224771 六、申請專利範圍 "------- 瞢,1甘=種利用雙音模型實現混合多國語言之語音辨識裝 乜、以辨識一混合多語之語音信號為一語音指令,包 肱二語音建模器,用以接收上述混合多語之語音信號, 二混合多語之語音信號轉換為複數語音特徵參數,再 將上述=ί特徵參數轉換為複數語音模型資料; 一語音搜尋器,其耦接於上述語音建模器,用以接收 上述語音模型資料,並且搜尋比對分別對應於上述語音模 型資料之複數候選資料組,每一候選資料組具有複數候選 ^曰模型負料’及其對應之比較相似度,並評估出最佳的 複數候選語音指令;以及 > 一決策反應器’其耦接於上述語音搜尋器,由上述候 選语音指令中決定對應於上述語音模型資料之複數結果語 音模型資料,並將上述結果語音模型資料結合成一語音指 令0 2·如申請專利範圍第1項所述之利用雙音模型實現混 合多國語言之語音辨識装置,其中上述語音模型資料係為 具有雙音模型之資料。
3 ·如申請專利範圍第1項所述之利用雙音模型實現混 合多國語言之語音辨識裝置,其中上述語音搜尋器,係根 據一多語模型資料庫進行搜尋比對。 4·如申請專利範圍第3項所述之利用雙音模型實現混 合多國語言之語音辨識裝置,其中上述多語模型資料庫包 括複數混合多語字音對應資料。
1224771 六、申請專利範圍 5.如申請專利範圍第4項所述之利用雙音模型實現混 合多國語言之語音辨識裝置,其中更包括一多語建模器, 用以產生上述混合多語字音對應資料,其包括: 一多語音標序列對應器,將複數第一多語查詢指令經 過比對,得到對應之複數多語音標序列;以及 一跨语言雙音模型產生器’其輕接於上述多語音標序 列對應器’用以篩選組合上述多語音標序列,以得到上述 混合多語字音對應資料。
6·如申請專利範圍第3項所述之利用雙音模型實現混 曰夕國语s之語音辨識裝置,其中上述多語模型資料庫包 括複數混合多語矯正模型。 、 7 ·如申請專利範圍第6項所述之利用雙音模型實現混 合多^語言之語音辨識裝置,其中更包括一多語矯正模型 產生器,用以產生上述混合多語矯正模型,其包括: 夕 至乂 單一浯言續正模型產生器,用以接收複數第二 f語查詢指令,分別對應於複數既定語種進行正規化計 算’產生複數單一語言矯正模型;以及 二矯正模型結合器,其耦接於上述單一語言矯正模型 產生器,用以接收上述單一語言矯正模型,進行加權計算 得到上述混合多語矯正模型。 如申凊專利範圍第1項所述之利用雙音模型實現混 語語音辨識裝置,其中上述語音搜尋器,係根 叩曰杈型貝料連接的順序以及一語音規則資料庫進
第20頁 1224771 六、申請專利範圍 9· 一種利用雙音模型實現混合多國語言之語音辨識方 法,其用以辨識一混合多國語言之語音信號,包括下列 驟: 7 將上述混合多國語言之語音信號轉換為複數語音特徵 參數,再將上述語音特徵參數轉換為複數語音模型資料. 搜尋比對分別對應於上述語音模型資料之複數候選資 料組,每一候選資料組具有複數候選語音模型資料,及^ 對應之比較相似度,並評估出最佳的複數候選語音指人了 以及 曰7 ’ 根據上述比較相似度,分別由上述候選資料組中決定 對應於上述語音模型資料之複數結果語音模型資料,並^ 上述結果語音模型資料結合成一語音指令。 w ; 1 〇·如申請專利範圍第9項所述之利用雙音模型實 合多國語言之語音辨識方法,其中上述語音模型 2 具有雙音模型之資料。 貝针係為 11·如申請專利範圍第9項所述之利用雙音模 合多國語言之語音辨識方法,其中上述雙音模型搜尋比Z 之步驟中,上述搜尋比對係根據一多語模型資料庫。 12·如申請專利範圍第n項所述之利用雙音型 混合多國語言之語音辨識方法,Α中 /、歪貫現 包括複數混合多語字音對應資料。 貝τ叶準 13.如申請專利範圍第12項所述之利用 混合多國語言之語音辨識方法,纟中 二現 序,用以產生上述混合多&丰立t 夕〜建模程 、此口夕浯子曰對應貧料,包括下列步
0678-9390TWF(Nl);tereas.ptd 第21頁 1224771 六、申請專利範圍 驟: 將複數第一多語查詢指令經過比對,得到對應之複數 多語音標序列;以及 篩選組合上述多語音標序列,以得到上述混合多語字 音對應資料。 14·如申請專利範圍第丨3項所述之利用雙音模型實現 混合多國語言之語音辨識方法,其中上述篩選組合上述已 分類之多語音標序列之步驟中,尚包括下列步驟: 先固定左側音標,於右側音標尋求對應結果;
當無法對應時固定右側音標,於左側音標尋求對應結 果;以及 由對應結果得到上述混合多語字音對應資料。 1 5 ·如申請專利範圍第11項所述之利用雙音模型實現 混合多國語言之語音辨識方法,其中上述多語模型資料庫 包括複數混合多語矯正模型。 1 6 ·如申請專利範圍第丨5項所述之利用雙音模型實現 混合多國語言之語音辨識方法,其中更包括一多語矯正模 型產生程序’用以產生上述混合多語矯正模型,包括下列 步驟:
接收複數第二多語查詢指令,分別對應於複數既定語 種進行正規化計算,產生複數單〆語言墙正模型;以及 將上述單一語言矯正模型進行加權計算,以得到上述 混合多語矯正模型。 1 7 ·如申請專利範圍第9項所述之利用雙音模型實現混
1224771
0678-9390TWF(Nl);tereas.ptd 第23頁
TW092108216A 2003-04-10 2003-04-10 Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme TWI224771B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW092108216A TWI224771B (en) 2003-04-10 2003-04-10 Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US10/779,764 US7761297B2 (en) 2003-04-10 2004-02-18 System and method for multi-lingual speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW092108216A TWI224771B (en) 2003-04-10 2003-04-10 Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme

Publications (2)

Publication Number Publication Date
TW200421263A TW200421263A (en) 2004-10-16
TWI224771B true TWI224771B (en) 2004-12-01

Family

ID=33129457

Family Applications (1)

Application Number Title Priority Date Filing Date
TW092108216A TWI224771B (en) 2003-04-10 2003-04-10 Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme

Country Status (2)

Country Link
US (1) US7761297B2 (zh)
TW (1) TWI224771B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9691389B2 (en) 2014-03-18 2017-06-27 Industrial Technology Research Institute Spoken word generation method and system for speech recognition and computer readable medium thereof

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7406408B1 (en) * 2004-08-24 2008-07-29 The United States Of America As Represented By The Director, National Security Agency Method of recognizing phones in speech of any language
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
TWI372384B (en) 2007-11-21 2012-09-11 Ind Tech Res Inst Modifying method for speech model and modifying module thereof
US20090326945A1 (en) * 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8532989B2 (en) * 2009-09-03 2013-09-10 Honda Motor Co., Ltd. Command recognition device, command recognition method, and command recognition robot
DE112010005918B4 (de) * 2010-10-01 2016-12-22 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
TWI456491B (zh) * 2011-03-18 2014-10-11 Wistron Neweb Corp 介面電路及具有該介面電路的電子裝置
US9275635B1 (en) 2012-03-08 2016-03-01 Google Inc. Recognizing different versions of a language
US9129591B2 (en) 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
EP2736042A1 (en) 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US8768704B1 (en) 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
CN104681036B (zh) * 2014-11-20 2018-09-25 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN106326303B (zh) * 2015-06-30 2019-09-13 芋头科技(杭州)有限公司 一种口语语义解析系统及方法
CN105185375B (zh) * 2015-08-10 2019-03-08 联想(北京)有限公司 一种信息处理方法和电子设备
US9830384B2 (en) * 2015-10-29 2017-11-28 International Business Machines Corporation Foreign organization name matching
TWI579829B (zh) * 2015-11-30 2017-04-21 Chunghwa Telecom Co Ltd Multi - language speech recognition device and method thereof
CN105741831B (zh) * 2016-01-27 2019-07-16 广东外语外贸大学 一种基于语法分析的口语评测方法和系统
US10418026B2 (en) * 2016-07-15 2019-09-17 Comcast Cable Communications, Llc Dynamic language and command recognition
CN108510976B (zh) * 2017-02-24 2021-03-19 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
TWI731493B (zh) * 2019-12-02 2021-06-21 國立成功大學 多語語音辨識及主題語意分析方法與裝置
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN113592559B (zh) * 2021-08-03 2022-06-07 贝壳找房(北京)科技有限公司 口音识别模型建立方法、装置及存储介质和电子设备
US20230126052A1 (en) * 2021-10-27 2023-04-27 Soundhound, Inc. System and method for analysis of spoken natural language to detect promotion phrases for providing follow-up content
CN115132182B (zh) * 2022-05-24 2024-02-23 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
DE69607928T2 (de) * 1995-08-14 2000-10-05 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
EP1159734B1 (de) * 1999-03-08 2004-05-19 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
DE10040063A1 (de) * 2000-08-16 2002-02-28 Philips Corp Intellectual Pty Verfahren zur Zuordnung von Phonemen
US7295979B2 (en) * 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
DE60111329T2 (de) * 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9691389B2 (en) 2014-03-18 2017-06-27 Industrial Technology Research Institute Spoken word generation method and system for speech recognition and computer readable medium thereof

Also Published As

Publication number Publication date
TW200421263A (en) 2004-10-16
US20040204942A1 (en) 2004-10-14
US7761297B2 (en) 2010-07-20

Similar Documents

Publication Publication Date Title
TWI224771B (en) Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US10073843B1 (en) Method and apparatus for cross-lingual communication
TWI293455B (en) System and method for disambiguating phonetic input
US20080133245A1 (en) Methods for speech-to-speech translation
US20170199867A1 (en) Dialogue control system and dialogue control method
Sitaram et al. Speech synthesis of code-mixed text
JP2016218995A (ja) 機械翻訳方法、機械翻訳装置及びプログラム
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
JP4740837B2 (ja) 音声認識における統計的言語モデリング方法、システム及び記録媒体
CN104462071A (zh) 语音翻译设备和语音翻译方法
US11295730B1 (en) Using phonetic variants in a local context to improve natural language understanding
KR102372069B1 (ko) 언어학습을 위한 양국어 자유 대화 시스템 및 방법
US11907665B2 (en) Method and system for processing user inputs using natural language processing
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
Fung et al. Multilingual spoken language processing
CN113268981A (zh) 一种信息处理方法、装置及电子设备
CN114254649A (zh) 一种语言模型的训练方法、装置、存储介质及设备
CN111968646A (zh) 一种语音识别方法及装置
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
Sreeram et al. A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model.
CN1231888C (zh) 利用双音模型实现混合多国语言的语音辨识装置及方法
US11900072B1 (en) Quick lookup for speech translation

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees