TW546631B

TW546631B - Disambiguation language model

Info

Publication number: TW546631B
Application number: TW090132957A
Authority: TW
Inventors: Yun-Cheng Ju; Fileno A Alleva
Original assignee: Microsoft Corp
Priority date: 2001-01-31
Filing date: 2001-12-28
Publication date: 2003-08-11
Also published as: US7251600B2; US20050171761A1; US6934683B2; US20020128831A1; JP2002287787A

Description

546631 A7 B7 五 _I 經濟部智慧財產局員工消費合作社印製發明説明（）發明領域：本發明係關於語言模型，特別是關於建立並使用語言模型’在例如輸入語音資料以進行字元辨識的時候，使得模糊性達到最小。發明背景：準確的語音辨識（Speech recognition)需要一聽覺模型 (acoustic model)，以選出使用者當時所說的正確字。換句話說’假如一個語音辨識器必須選擇或決定到底使用者說出的是哪一個字（word)，而此時所有的字在說出時有相同的相似度’一般來說，在這樣的情況下，語言辨識器不會有令人滿意的表現。一個語言模型則提供了一個方法或裝置，用來指定在字彙（vocabulary)裡，哪一種字的順序是可能的。比較一般的說法是，語言模型提供了不同字的排列順序之相似度的資訊。語音辨識常常被認為是一種由上而下（t〇p-d〇wn)的語吕處理程序。事實上，有兩種常見的語言處理程序，包括 ,由上而下’與，由下而上，兩種。由上而下的語音處理程序從語言的最大單位開始辨識，例如句子。接著，將最大單位分類為較小的單位，例如詞彙（phrase)。接著，將此較小的單位再分為更小的單位，例如字（w〇rd)。相對地，從下而上的語言處理從字開始，並且從字往上建構更大的詞彙以及/或句子。兩種語言處理方式都可藉由語言模型得到加強。第4頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公楚) (請先閲讀背面之注意事項再填寫本頁) 裝· -訂· % 546631 A7 B7 五、發明説明（）一個常見用來歸類（classify)的技術為使用一個N圖語言模型（N-gram language model)。由於N圖語言模型可以利用大量資料來加以訓練，η-字依賴性能同時無接縫地容納語法（syntactic)及語意（semantic)的淺結構（shallow structure)。雖然N圖語言模型在一般的聽寫（dictation) 下，可以達成相當不錯的效果，但對於同音異義字 (homonyms)則可能出現明顯的錯誤。所謂的同音異義字是某一種？吾吕中的一個元素’例如字元或音節，其為發音相近，但具有不同拼字方式的兩個或更多元素中之一個。舉例來說，當一個使用者拼字時，由於若干字元發音相同時，語音辨識模組可能輸出錯誤的字。相似地，對不同的字元，如果發音相近，語音辨識模組亦可能輸出錯誤的字元，例如’ m'與’ η ’。此含糊性的問題在日文或中文之類的語言更是普遍’在這些語言中使用到大量的漢字撰寫系統。在這些語言中的字元是數量龐大而複雜的表意字元（ideograph)。藉由這些表意字元來表示聲音與意義。這些字元形成有限的音節。接著，由這些音節建立大量的同音異義字。這些同音異義字顯著地延長了聽寫（dictation) —份文件的時間。當錯誤的同音異義字必須被找出來，而把正確的同音異義字加進去時，這種問題格外明顯。因此，在話語中，對於代表不同意義的同音異義字與相似發音的語音，我們一直需要發展出新方法來將模糊性最小化。當技術進步及語音辨識應用在更多的領域時，就第5頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) .....厂二-:_裝： (請先閱讀背面之注意事項再填寫本頁) 訂· % 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明（）必須找到一個更精確的語言模型。發明目的及概述：語音辨識者一般使用例如N圖的語言模型，以改進準確性。本發明的第一個觀點（aspect)包括產生一語言模型。此語言模型在使用者指出一個或多個字元，如音節，以用在例如拼字的場合時格外有用。此語言模型幫助減少同音異義字的模糊性，以及減少不同字元彼此之間發音類似時的模糊性。此語言模型從一訓練文集（corpus)建立，且此訓練文集包含一個字串（character string)或一個單一字元（single character)、具有此字串的一個字詞（w〇rd phrase)或一個單一字（single word)，以及一個上下文提示 (context cue)。藉由使用一個字的列表（iist)或字典 (dictionary)，透過對每一個字詞形成一個子句（partial sentence)或字詞，我們能夠自動產生此文集。其中，此詞練文集包括此字詞、上下文提示以及此字詞的一個字争。在進一步的實施例中，一個詞彙（phrase)係由此字詞的每一個字元建立而成。本發明的另一個觀點是使用上述語言模型以辨識說話時字元的系統或模組。當一個字串與此關聯字詞中的上下文提示被說出時，此語音辨識模組確認此使用者係在拼字或是在指出字元。此時，此語音辨識模組將只輸出被指出的字元’而不輸出上下文提不或是關聯的字一。在一^固進一步的實施例中，此語音辨識模組對一個辨識出字元與第6頁本紙張尺度適用中國國家標準(CNS)A4規格(21〇X 297公釐) ^ ~- (請先閲讀背面之注意事項再填寫本頁) 裝· 、一=口經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明（）一個辨識出字詞進行比較，以確認指出此正確的字元。假如此辨識出字元並非在此辨識出字詞中，輸出之字元將是辨識出字詞中的字元。圖式簡單說明：第1圖為一語言處理系統的方塊圖。第2圖為一例示電腦環境的方塊圖。第3圖為一例示語音辨識系統的方塊圖。第4圖為本發明方法的流程圖。第5圖為實作第4圖方法的模組方塊圖。第6圖為一語音辨識模組以及非必要的字元確認模組之方塊圖。圖號對照說明： (請先閲讀背面之注意事項再填寫本頁) 裝· -、v'var 經濟部智慧財產局員工消費合作社印製 10 語言處理系統 100 語音辨識系統 104 類比/數位轉換器 105 訓練模組 106 特徵擷取模組 110 字典儲存模組 111 語言模型 112 聽覺模型（訊隆樹） 114 搜尋引擎 12 輸入 14 輸出 141 字詞表列 142 系統（裝置） 143 訓練文集 146 語言建立模組 16 語言模型 180 語音辨識模組 182 字串檢查模組 30 電腦 40 處理單元第7頁 % 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) 546631 A7 B7 五發明説明（ 41 系統匯流排 50 系統記憶體 51 唯讀記憶體 52 隨機存取記憶體 53 基本輸出輸入系統 54 作業系統 55 應用程式 56 其他程式模組 57 程式資料 60 不可移除非揮發性記憶體介面 61 硬碟機 64 作業系統 65 應用程式 66 其他程式模組 67 程式資料 70 可移除非揮發性記 71 磁碟機 72 磁碟片 75 光碟機 76 光碟片 80 使用者輸入介面 81 指向裝置 82 键盤 83 麥克風 84 顯示器 86 印表機 87 揚聲器 85 視訊介面 88 輸出週邊介面 90 網路介面 91 區域網路 92 調變解調器 93 廣域網路 94 遠端電腦 95 遠端應用程式面 :·:、：：、:·裝： (請先閲讀背面之注意事項再填寫本頁) 、一 Utx % 經濟部智慧財產局員工消費合作社印製發明謀細說明_· 第1圖以一般化的方式纟會示一語言處理系统 (language processing system)10。此語言處理系統 1〇接收一語言輸入1 2 ’並且處理此θ吾a輸入1 2以提供一語士輸第8頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) 546631 五 _ 經濟部智慧財產局員工消費合作社印製 A7 B7 發明説明（）出。舉例來說，語言處理系'统1〇可以被實施為一語音辨識系統或模組，以接收—使用者錄製或說出的語言輸入 12。此語言處理系統！〇處理口語語言（sp〇ken ^叫心^)， :且提供辨識出字以及/或字元作為輸出。一般來說，此語言處理系統10以文字（text)形式輸出。在處理的程序中，語音辨識系統或模組10可以存取一語言模型16,以決定到底使用者說出的是哪一個字，尤其疋哪-個同晉異義字或與該語言中發音相近的元素。此語言模型將-特別的語言，例如英語、中文、日文等進行編碼。在此具體實施例所描述中，此語言模型16可以是廣為人知的習知技術，例如N圖語言模型的統計語言模型、上下文免除文法（context-free grammar)，或是兩者之混合。本發明的一個廣義觀點是創設（create)或建立（build) 浯吕模型1 6的方法。另一褕廣義的觀點係於語音辨識中創設或建立語言模型1 6。在開始對本發明進行比較詳細的討論之前，對運作環境進行概要的說明應能提供理解上的幫助。對一個本發明传以實作的適合電脂^ ;承境（compUting environinent)20，第2 圖與相關的討論提供一個簡要而一般性的描述。此電腦環境20僅為一個適合的電腦環境，但不應該解釋為任何對本發明使用範圍或功能上的限制。同樣地，也不應把圖示中電腦環境2 0的元件或元件的組成，解讀為對此電腦環境20的任何依存或是需求的限制。在許多其他一般用途或特殊用途的電腦環境或電腦第9頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董) ......Γ :,:·裝- (請先閲讀背面之注意事項再填寫本頁) ，訂· 546631 A7

經濟部智慧財產局員工消費合作社印製五、發明説明（）配置下，本發明亦得以配合運作。可適合與本發明結合使用且較廣為人知的電腦系統、環境以及/或配置的例子包括仁不限制於，個人電腦、伺服電腦、手持或桌上裝置、多處理器系統、微處理器為基礎的系統、互動盒(set top box)、可程式消費電子裝置、網路電腦、迷你電腦 (minicomputer)、大型電腦（mainframe computer)、包含任何上述系統或裝置的分散式電腦環境，以及其他相似物。此外，本發明亦可用於電話系統（teleph〇ny吁❿⑷中。本發明可以透過一般電腦可執行的指令形式實作，例如程式模組，而由電腦執行。一般來說，程式模組會包括程序（routine)、程式（pr〇gram)、物件（〇bject)、元件 (component)、資料結構等達成特定工作或實作特定的抽象資料型態（abstract data type)。本發明亦可實作於分散式環境，此時經由通信網路（c〇mmunicati〇n netw〇rk)連接的遠场處理裝置來達成工作。在一個分散式電腦環境中，程式模組可能同時位於本端（local)與遠端（rem〇te)電腦儲存媒體。這些媒體包含記憶儲存裝置。以下將配合圖表描述由程式與模組達成的工作。對於習知技藝中人能將這些描述與圖表進行實作為處理器可執行的指令，其中這些指令可寫在各種形式電腦可讀取媒體上。請參看第2圖，此圖提供實作本發明的例示系統。此例示系統包括一個一般用途計算裝置（general purp〇se computing device)，其以電腦30形式出現。電腦3〇的元件可包括，但非限制於，一處理單元4〇、一系統記憶體第10頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) .....卜：k_:·裝.........訂..........% (請先閱讀背面之注意事項再填寫本頁) 546631 A7 B7 五、發明説明（） 5 0、以及連結多個不同的系統元件包括系統記憶體5 0至處理單元4 0的系統匯流排4 1。系統匯流排4 1可為任一種匯流排結構，包括記憶體匯流排或記憶體控制器、週邊匯流排，以及區域匯流排。並且此匯流排得各種不同的匯流排架構。在此舉例，而非限制，此匯流排架構包括工業標準架構（Industry Standard Architecture，ISA)匯流排、微通道（Micro Channel)匯流排、增益工業標準架構（Enhanced ISA，EISA)匯流排、視訊電子標準協會（Video Electronics Standards Association，VESA)區域匯流排，以及又稱為夾層匯流排（Mezzanine bus)的週邊元件内連接（Peripheral Component Interconnect，PCI)匯流排。一般來說，電腦30包括了各種不同的電腦可讀取媒體。此處所述的電腦可讀取媒體可為任何可由電腦30進行存取的媒體。這些電腦可讀取媒體包括揮發性（volatile media)與非揮發性媒體（nonvolatile media)、可移除與不可移除媒體（removable and non_removable media)。舉例來說，而非限制，電腦可讀取媒體可包含電腦儲存媒體 (computer storage media)及通訊媒體（communicati〇n media)。電腦儲存媒體也包括揮發性與非揮發性、可移除及不可移除媒體，而這些媒體可由任何資訊儲存技術的方法來實作，例如電腦可讀取指令（computer readable instruction)、資料結構、程式模組或其他資料。電腦儲存媒體包括’但非限制於’隨機謂取記憶體（ram)、唯讀記憶體（ROM)、電子式可清除程式化唯讀記憶體第11頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ......Γ·」：·裝： (請先閲讀背面之注意事項再填寫本頁) 訂· % 經濟部智慧財產局員工消費合作社印製 546631 Α7 __Β7 五、發明説明（ (EEPROM)、快閃記憶體（flash咖㈣⑺或其他記憶體技術、光碟片（CD-ROM)、數位多樣磁碟（DVD)或其他光學磁碟餘存體、卡式磁帶（magnetic cassette)、磁帶（则料⑷^ tape)或其他磁性儲存裝置，或其他任何媒體可儲存預定資訊，以供電腦30存取。典型的通訊媒體體現（emb〇dy) 了電腦可讀取的指令、資料結構、程式模組或其他資料，這些體現係在一調變資料信號，例如一載波或其他傳送機制下完成。並且，此通訊媒體包括任何形式的資訊傳送媒體。此處所述的‘調變資料信號，係指一個信號具有一個或多個特徵集合，或是以變化來進行資訊的編碼。舉例來說，而非限制，通訊媒體包括有線媒體（wired media)，例如有線網路或直接連接的連結（direct_wired c〇nneetiQn)，以及無線媒體（wireless media)，例如聽覺、FR、紅外線以及其他無線媒體。任何上述的結合應該亦包含在電腦可讀取媒體的範圍之中。系統記憶體50包括電腦儲存媒體，其形式可為揮發性以及/或非揮發性記憶體例如唯讀記憶體（R〇M)5 1以及 P現機碩取記憶體（RAM)52。通常存於唯讀記憶體51的基本輸出輸入系統（BIOS)53包括基本程序，以協助在電腦3〇的元件間傳送資訊，這些程序之例為開機時的動作。隨積存取記憶體52 —般包含資料以及/或程式模組，以直接供處理單元40存取以及/或在其上進行作業。舉例來說，但非限制’第2圖例示作業系統54、應用程式55、其他程式模組5 6、以及程式資料5 7。第12頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董） ......Γ _」：·裝： (請先閲讀背面之注意事項再填寫本頁} -、一經濟部智慧財產局員工消費合社印製經濟部智慧財產局員工消費合作社印製 546631 五、發明説明（) 電腦30亦可包括其他可移除/不可移除、揮發性/㈣ 2性電腦可讀取媒體。僅作為例子之用，第2圖例示一可頡取自或窝入到不可移除且非揮發性磁性媒體的硬碟機 O-d disk driver)61、一可讀取自或寫入到一可移除且非揮發性的磁碟72的磁碟機（magnetie disk d — n，以及 -可讀取自或寫入到一可移除且非揮發性的光碟％的光碟機75 ’光碟76的例子包括光碟片（CD_R⑽）或其他光學媒體。其他可用於此例示作業環境的可移除/不可移除、揮發性/非揮發性的電腦儲存媒體包括，但非限制於，卡式磁帶、快閃記憶體卡、數位多樣磁碟、數位视訊卡帶、固辑隨機讀取記憶體、固態唯讀記憶體，以及其他相似物。硬碟61通常經由如介面6〇的不可移除記憶體介面，以連結到系統匯流排41。磁碟機71及光碟機7卜㈣是經由: 介面70的可移除非揮發性記憶體介面，以連接到系統匯流排41。上述並且在第2圖例示的這些裝置以及關聯的電腦儲存媒m，提供了一個儲存體以儲存電腦指令、資料結構、程式模組以及其他電腦30使用的資料。在第2圖中，舉例來說，硬碟機61例示用來儲存作業系統64、應用程式 65、其他程式模組66，以及程式資料67。必須指出的是，這些元件可與作業系統54、應用程式55、其他程式模組 56,以及程式資料57相同或不同。作業系統M、應用程式65、其他程式模組66，以及程式資料67在此標示不同的號碼，以指出它們為不同的複製本。第13頁 :::、：：/:·裝.........訂.........% (請先閱讀背面之注意事項再填寫本頁) 546631 A7 B7 五、發明説明（）使用者可藉由輸入裝置’輸入命令及資訊到此電腦 3〇，這些輸入裝置之例子包括鍵盤82、麥克風83、以及指向裝置8 1，例如滑鼠、軌跡球或觸控板。其他輸入裝置 (未顯示）可包括搖桿、遊樂器板（game pad)、衛星碟 (satellite dish)、掃描器（scanner)，或其他相似物。這些以及其他輸入裝置常常藉由一使用者輸入介面8〇，以連接到理單元40，此使用者輸入介面80連結到系統匯流排。但是這些裝置也可透過其他介面及匯流排結構以進行連接’例如平行傳輸埠（parallel port)、遊戲埠（ganie p0rt)或通用序列匯流排（USB)。一個電腦顯示器84或其他型態的顯示器也連接到此系統匯流排，其連接係經由一介面，例如視訊介面85。除了顯示器，電腦也可包括其他週邊輸出裝置，例如揚聲器87及印表機86 ’其係經由一輸出週邊介面8 8連接。電腦3 0可在網路環境運作。此網路環境使用邏輯上的連接，連接到一個或多個遠端電腦’例如遠端電腦94。此遠端電腦94可為一個人電腦、手持裝置、伺服器、路由器（router)、網路電腦、相等級裝置（peer device)或其他一般網路節點，並且通常包括許多或全部上述關於電腦3 〇的元件。第2圖所繪示的邏輯上連接包括區域網路 (LAN)91以及廣域網路（WAN)93，但也可包括他網路。這些網路環境包括如辦公室常見的、企業範圍的電腦網路、内部網路（Intranet)，以及網際網路（Internet)。當使用區域網路環境，電腦3 0經由網路介面或介面第14頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董） ---裝·· (請先閲讀背面之注意事項再填寫本頁) -訂· % 經濟部智慧財產局員工消費合作社印製五經濟部智慧財產局員工消費合作社印製 546631 A7 B7 、發明說明（卡90連接到區域網路9 1。當使用在廣域網路環境中，兩腦30 —般包括一調變解調器（m〇dem)92或其他在廣域網路上建立通訊的裝置，這些廣域網路例如網際網路。内部或外部的調變解調器92，可經由使用者輸入介面8〇，或其他適當機制’以連接到系統匯流排4 1。在網路環境中相對於電腦30所繪示的程式模組，或其部分，可#存於遠端記憶儲存裝置。舉例來說，而非限制，第2圖將遠端應用程式95例示存於遠端電腦94。必須指出的是，此處所顯示的網路連接僅為例示之用，在電腦間其他建立通訊連接的裝置方法亦可以使用。一個語音辨識的例示實施例系統1 00緣示於第3圖。此語音辨識系統1 〇〇包括麥克風83、一個類比數位 Unal〇g-to-digital，a/d)轉換器 1〇4、一個訓練模組 1〇5、特徵掏取模組（feature extracti〇n module) 106、一字典错存模組（lexicon storage module) 1 1〇、伴隨訊隆樹（sen〇ne tree) 的一聽覺模型112、樹狀搜尋引擎114、語言模型16，以及一般用途語言模型1 1 i。必須指出的是，整個系統1〇〇，或邵分的語音辨識系統1 00，可實作於第2圖所繪示的環境中。舉例來說，在一個比較好的狀況下，麥克風83可經由一適當的介面，並經過此類比/數位轉換器1〇4，以提供作為電腦30的輸入。訓練模組} 〇5及特徵擷取模組i 〇6 可作為電腦30中的硬體模組，或是作為一軟體模組，而存於第2圖所揭露的任一個資訊儲存裝置中，而得由處理單元40或其他適當處理器存取。此外，字典儲存模組第15頁本紙張尺度適财關家群(CNS)A4規格(210X2^^17 ---裝 — (請先閲讀背面之注意事項再填寫本頁) -、\呑 % 546631 經部智慧財產局員工消費合 ί 社印製 A7 B7 五、發明説明（ no、聽覺模型"2 ’以及語言模型16及iu也在較理想的情況下，儲存於第2圖所示的任—記憶裳置中。更進一步，樹狀搜尋引擎114實作於處理單元4〇(其可包括一或多個處理器）’或亦可由用於電腦3〇的—特殊製造的語音辨識處理器來達成此樹狀搜尋引擎丨丨4。就此例示的實施例裡，在語音辨識的過程中，語音係由使用者對麥克風83發出的可聽見聲音信號（audibie speech signal)之形式，以作為系統1〇〇的輸入。麥克風μ 轉換此可聽見音信號成為一類比電子信號，而提供給類比 /數位轉換器104。此類比/數位轉換器1〇4轉換此類比語音信號為一序列的數位信號，此數位信號再提供給特徵擷取模組106。在一實施例中，此特徵擷取模組ι〇6為一慣用陣列處理器，而此慣用陣列處理器達成此數位信號的頻譜分析，並且此慣用陣列處理器對一頻譜（hequaa spectrum)的每一頻帶（frequency band)計算一強度值 (magnitude value)。在此實施例中，這些信號由此類比/數位轉換器104在一近於16KHz的取樣頻率下，提供給此特徵擷取模組106。特徵擴取模組1 06將自類比/數位轉換器丨〇4處得到的數位仏號切分為框（frame)，這些框包括多數個數位取樣。各個框具有近似於1〇個千分之一秒（millisec〇nd)的持續期間。這些框接著由特徵擷取模組丨〇6編碼為一特徵向量，以反映多數個頻帶的特殊特徵值（spe…“ characteristics)。在離散與半連續的隱藏馬可夫模型第16頁本紙張尺度適用中國國家標準(CNS)A4規格(21〇χ297公楚） ......r L·:·裝·· (請先閱讀背面之注意事項再填寫本頁) 、可 546631 A7 B7 五經濟部智慧財產局員工消費合作社印製發明説明（ (Hidden Markov Modeling)狀況下，此特徵擷取模組1〇6 也將特徵向量（feature vector)編碼為一個或多個的碼字 (code word)，其中此編碼係使用向量量化 quanUzation)技術以及由訓練資料所衍生的編碼簿“μ。 book)來達成。藉此，特徵擷取模組1〇6在其輸出位置對每一說出的發音，提供了特徵向量（feature vect〇r)或碼字 (code words)。此特徵擷取模組106以近於每1〇個千分之一秒一個特徵向量（或碼字）的速率，來提供特徵向量（或碼字）。接著’我們針對隱藏馬可夫模型，利用所分析的特定框的特徵向量（或碼字），以算出輸出機率分佈（〇加？加 probability distribution)。在後面執行威特比（Viterbi)解碼程序或類似的處理技術時，我們會用到這些機率分佈。在從特徵擷取模組106處接收到碼字時，樹狀搜尋引擎1 1 4存取存於聽覺模型1 1 2的資訊。模型i丨2儲存聽覺模型，例如隱藏馬可夫模型，而這些聽覺模型代表語音辨識系統統1〇〇偵測到的語音單元（speech unit)。在一個實施例中，此聽覺模型包括與隱藏馬可夫模型中每一馬可夫狀態關聯的訊隆樹（senone tree)。在一例示實施例中，此隱藏馬可夫模型代表音素（ph〇neine)。基於聽覺模型i 12 中的訊隆（Senone)，此樹狀搜尋引擎114最相似的音素，此音素係由特徵擷取模組1 06收到的特徵向量（或碼字）所代表之音素。也就是系統所接收到的使用者發聲。樹狀搜尋引擎1 1 4也存取存於模組11 〇的字典。由樹第17頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· -、\吾 546631 A7 B7 五、發明説明（）狀搜尋引擎1 1 4對聽覺模型丨丨2存取而接收的資訊，係用於搜尋字典儲存模組丨丨〇，以決定最接近代表從特徵擷取模組1 0 6處收到的碼字或特徵向量的字。同樣地，搜尋引擎1 1 4存取語言模型1 6及n丨。在一個實施例中，此語言模型16為一字N圖（word N_tram)，此字N圖係用於找出取接近的一個或多個字元，來代表此輸入語音。此輸入語音用來找出此一個或多個字元，並包含此字元、上下文提示（context cue)，以及一字詞（w〇rd phrase)。舉例來說，輸入浯音可為’N as in Nancy，，其中fN’（也可能是小寫）為我們所要的字元，’as in’為上下文提示，而，Nancy，為聯結到 ’Ν’的字詞，以便用來釐清或找出我們所要的字元。對於詞彙N as in Nancy’，語音辨識系統1 〇〇的輸出可能正好是 fN’。換句話說，在分析輸入語音資料的語音辨識系統1〇()，藉由認知輸入語音資料從屬於詞彙，N as in NanCy，，而確認了使用者係選擇要拼字。因此，此上下文提示及關聯字阔被輸出字串給省略掉。當需要的時候，搜尋引擎丨丨4可移除上下文提示及關聯字詞。必須指出的是，在一實施例中，此語言模型n丨為一 + N圖’此字n圖用於找出在一般聽寫用途下，輸入語音所代表最接近的字。舉例來說，當語音辨識系統丨〇〇實作為一聽寫系統，此語言模型1 1 1提供在一般聽寫情況下具有最近似字的指示（indication)。然而，當使用者使用具有上下文提示的詞彙，對於此相同詞彙而言，此語言模型j 6 第18頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· -、\呑經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明（) 的輸出將具有比語言模型1 1 1較高的值（v a 1 u e)。由語言模型1 6所得來的較高值可指示系統1 00使用者正利用上下又及字詞來指出字元。因此，對於具有上下文提示的輸入 4果’搜尋引擎1 1 4或語晋辨識系統1 〇〇的其他元件可省略此上下文提示及此字詞，而只輸出我們需要的字元。以下將對語言模型1 6的使用，提供進一步的討論。雖然此處描述的語音辨識系統1 00使用隱藏馬可夫模型及訊隆樹，必須指出的是，這只是一個例示用的實施例。對於習知技藝中人而言，語音辨識系統丨〇〇可採取許多不同的形式，只要有使用到於語言模型16的特徵，並且提供使用者所說出的文字作為輸出即已足夠。已廣泛週知的事情是，對一給定字序（W0rd sequence)，統計N圖語言模型對此字產出一機率估算，也就是給出此字史（word history)H。一個N圖語言模型只考慮在字史中（n_l)個先前的字，而由這些字影響接下來出現的字的機率。舉例來說，一個2圖（bi-gram或2-gram)語言模型考慮前一個字對後一個字的影響程度。因此，在一個N圖語言模型中，一個字發生的機率由下列式子表示： P(w/H) = P(w/wl, w2? ...5 w(n-l)) ⑴ 其中w為我們所關切的字； wl為字w先前n-Ι個位置的字； w2為字w先前n-2個位置的字；以及 w(n-l)為字w在字序中的前一個字。同樣地，一個字序的機率由每一個給定其字史的字的第19頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝 -訂· 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明（）機率相乘而決定出來。因此，一個字序（wl ·· .wm)的機率表為· m P(wl · · · wm) = n(P(wi20/Hi)) (2) Μ 此N圖模型係將N圖演算法運用於一文字訓練資料 (textual training data)的文集（corpus)而取得，此文集為詞彙、句子、句子片段（sentence fragments)、段落等等組成。舉例來說，一個N圖演算可使用習知的統計技術，例如飢茲（Katz)技術，或是二項式尾部分佈倒退（bin〇mial posterior distribution back off)技術。在使用這些技術時，此演算法估算一個字w(n)在字wl，w2，…，w(n-i)後面的機率。這些機率值共同集合已形成N圖語言模型。以下所要描述的本發明之若干觀點，可應用於建立一標準統計n 圖模型（standard statistical N-gram model)。本發明的第一個廣義的觀點例示於第4圖，作為—方法140供建立一語言模型，以提供一語言處理系統指出字元。也請參看第5圖，一個系統或裝置142包括具有指人的模組以貫作方法1 4 0。一般來說，對於—字詞表列中的每一個字詞，方法140包括聯結此字詞的一字串及字1至一上下文提示’此上下文提示供提示指出此字串的步驟 144。必須注意的是，此字串可包含一單一字元。相似地，一個字詞可包含一單一字。舉例來說，對於由一個字元組成的字串以及由一個字組成的字詞而言，步騾144係對字表列1 4 1中的每一個字，聯結此字的一字丁w 于兀至一上下文提示。一般來說，一上下文提示為某特定語言中的一字戈一第20頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公楚) ---—- _ .............•裝； (請先閲讀背面之注意事項再填寫本頁) 訂· 經濟部智慧財產局員工消費合作社印製 546631 五經濟部智慧財產局員工消費合作社印製發明説明（）字詞，且此字或此字詞係用來供說話者指 ^ 子同中的語言元素（language element)。在英文中的上 4「又把7F例子包括’as in’、f〇r example’、’as found in，、，】i. iiKe、such as丨等等。相近字或字詞亦可在其他語言中找到，例如日文中的（7)，以及中文中的’的，。在一個實施例中，步驟“A包括建立一字詞的文集143。每一字詞包括一字串、字詞及上下文提示。比較典型的情況是，當一個單一字元聯結到一個字時，雖然其他此字的其他字元也可被使用到，但此第一個字元被使用到。此類字詞的例子包括，N ^ h Nancy丨、丨P as in Paul丨及’Z as in Zebra’。在一個進一步的實施例中，當在一些語言，如中文，許多字只包括一個、二個或三個字元時，此字的另一個字元被連結到此字及上下文提示。此時，在一上下文提示中，將此字的每一個字元關聯到這個字將可能有所助益。如上所指出的，一個用來聯結所需要的字元到相對應字及上下文的簡單方法為，構成一個相同的字詞。因此，給定一字表列141時，對於所有需要的上下文提示，即可輕易地產生一個供訓練語言模型的字詞文集1 43。基於此文集143，語言模型16藉由一傳統建立模組 1 46而建立，例如Ν圖建立模組實作常見的技術來建立語言模型16。方塊148代表在方法140中建立語言模型16，其中此語言模型可包括，但非限制於，一 Ν圖語言模型、一上下文免除文法或其混合物。第21頁本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公釐) 丨·:、：_」：.·裝： (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 546631 A7 ---B7 發明説明（）在形成此語言模型的時候，此產出的詞彙可指定一適當的數值’而此數值產生一適當的機率值。在上面的例子中’說N as in Nancy’可能會更像是在說’N as in notch1。據此本發明的一個進一步的特徵可包括對此語言模型中每一個關聯字串及字詞，進行一機率分數（probability score)的碉整。此機率分數可在語言模型16建立時，透過人工進行碉整（manually adjust)。在另一個實施例中，此機率分數可藉由在此文集143内收集足夠數目的字詞，以對關聯的字元及字詞，產生此語言模型中適當的機率分此機率刀數也可為此字同使用相似度的函數。一般來說，有一些字詞，其用於指出一個或多個字元的用途上，較他竽詞更為頻繁。這些字詞可被指定，或在此語言模型中&供更面的機率分數。第6圖一般性地例示了一個語音辨識模組丨8〇以及語言模型1 6。此語音辨識模組丨8〇可為上述的形式，然而必眉扣出的疋，此語音辨識模組i 8 〇並不限制於作為語音辨識模組的實施例，而可為各種不同的形式。如上所述，此洁骨辨模組1 80接收代表語音輸入的資料，且存取此語言模型1 6以確認是否此輸入語音資料包括具有上下文提示的詞彙。在偵測到具有上下文提示的字詞時，此語音辨識模組180不輸出上下文提示及字詞，而僅輸出字元或字串，其中這些字元或字串係關聯於此上下文提示及字詞。換句話說，雖然語音辨識模組偵測語音資料所代表的完整詞彙，N as in Nancy，，此語音辨識模組只提供，N，作為輸第22頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公 (請先閲讀背面之注意事項再填寫本頁) 裝· 、\一一口 546631 A7

出。對於使用者選擇單獨指出 - 扯&/ 戈表達的一個或多個字儿的聽寫系統中’此種輸出方式特別有用。個子在此必須指出的是，上述 ^ ^ ^ 口 Ρ杈型16主要由關聯子串、网果及上下文提示構成。因此，此語言模型㈣於具有此種形式的輸入語言特別敏感。在第3圖的實施例中’-般用途的語言模型⑴可因此用於沒有特定字串、口司果及上下文提不型錢的*五立於 i 4的阳曰輸入。然而，必須指出的是’在另-個實施例中，如果需要的話，語言模型Μ與 1 1 1可以聯結起來。在接收到輸入語音資料並且存取到語言模型16，對於此輸入語音，語音辨識模組丨80決定一辨識出的字串及一辨識出的一字詞。在許多例子中，由於使用了語言模型 16 ’此辨識出的字串將會是正確的。然而，在一個進一步的實施例中，我們可加入一個字元檢查模組（character verification module)182，以更正至少若干語音辨識模組 1 80造成的錯誤。此字元檢查模組丨82可存取經語音辨識模組1 8 0確認此辨識出的字串及此辨識出的字詞，並且此字元檢查模組1 82比較此辨識出的字串與此辨識出的字詞。此字元檢查模組1 82尤其檢查辨識字串確實存於此辨識出的字詞。假如辨識出的字串部存於此辨識出的字詞，我們就可以知道已經發生一個很明顯的錯誤，雖然這個錯誤也許導源於使用者描述出錯誤的詞彙，例如as in Nancy，，亦或是此語音辨識模組180誤解了此辨識出的字串或辨識出的字詞。在一個實施例中，此字元檢查模組1 82 第23頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ·*··1·裝·- (請先閲讀背面之注意事項再填寫本頁) -訂· 經濟部智慧財產局員工消費合作社印製 546631

五、發明説明( 可假設錯誤大多+ 、出的字詞中存於辨識出的字串，並且因此，將辨識辨識出的字串串拿來替代此辨識出的字串。關於此固或多個字元來替代的動作，可基於比較此辨識出的字电… 、，、此辨識字詞中的字元在聽覺相似度的差異。因此，此一、子70私查模組1 8 2可存取附隨於單一字一勺:口曰之儲存資料。藉由使用存於此辨識出字詞的字 ^ ，於辨識出字词的字元與辨識出的字串，此字元檢查模、且U2對兩者間的儲存聽覺資料進行比較。最接近的字元接著作為輸出。對於習知技藝中人而言，此字元檢查模、、且1 82可加入於語音辨識模組1 80。然而，為了說明的目、匕冬元辨識模組1 8 2以分離的方式予以例示。隨然本發明已透過較佳實施例進行描述，習知技藝中人S知在不脫離本發明的精神與範圍下，所進行的任何形式及細邵的修改，仍將屬於本發明的範圍之中。 -----I -------裝---------訂 (請先閲讀背面之注意事項再填寫本頁) % 經濟部智慧財產局員工消費合作社印製第24頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐)

Claims

546631 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 六、申請專利範圍 1 · 一種建立一語言模型的方法，該語言模型供一語音辨識系統指出字元，該方法奚少包含· 對於一字詞表列中之每一字詞，聯結該字詞之一字串及該字詞至一上下文提示，該上下文提示指出該字串；建立一語言模型，該語言模型為該關聯字詞及該字串之一函數。 2·如申請專利範圍第1項所述之方法，其中該語言模型包含一統計語言模型。 3 ·如申請專利範圍第2項所述之方法，其中該語言模型包含一 N圖語言模型。 4 ·如申請專利範圍第2項所述之方法，其中該語言模型包含一上下文免除文法。 5.如申請專利範圍第1項所述之方法，其中上述之該聯結包含建立該關聯字串與該字詞之一文集及一上下文提示，並且其中上述之建立語言模型包含存取該文集。 6·如申請專利範圍第1項所述之方法，其中上述之聯結包含聯結每一字詞之一第一字元至該字詞。第25頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) .............馨裝-丨 (請先閱讀背面之注意事項再填寫本頁) -訂- ¾ 546631 ABCD 申請專利範圍 7. 如申請專利範圍第6項所述之方法，其中上述之聯結包 (請先閲讀背面之注意事項再填寫本頁) 含聯結至少一部份該字詞之另一字元至該對應字詞，該另一字元係該第一字元以外之一字元。 8. 如申請專利範圍第7項所述之方法，其中上述之聯結包含聯結至少一部份該字詞之每一字元至該對應字詞。 9. 如申請專利範圍第7項所述之方法，其中上述之聯結包含聯結每一字詞之每一字元至該對應字詞。 10. 如申請專利範圍第1項所述之方法，更包含對該語言模型中之每一聯結字元字串及字詞，調整一機率分數。 1 1.如申請專利範圍第1項所述之方法，其中上述之關聯包含形成一詞彙，該詞彙包含該字詞之該字元字串、該字詞，及該上下文提示。經濟部智慧財產局員工消費合作社印製 12.如申請專利範圍第11項所述之方法，其中該上下文提示與英大的’as in’相似。 1 3 .如申請專利範圍第1 1項所述之方法，其中該上下文提示包含中文的’的’。 14.如申請專利範圍第11項所述之方法，其中該上下文提第26頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) 546631 8 8 8 8 ABCD 、\\ 經濟部智慧財產局員工消費合作社印製申請專利範圍示包含日文的《。 1 5 ·如申請專利範圍第1項所述之方法，其中該字詞中的每一個為一單一字。 1 6.如申請專利範圍第1 5項所述之方法，其中該字串中的每一個為一單一字元。 1 7.如申請專利範圍第1項所述之方法，其中該字串中的每一個為一單一字元。 1 8. —種電腦可讀取媒體，該電腦可讀取媒體具有一指令，當該指令由一處理器執行時，該指令進行一認知說話時字元之方法，該方法包含：接收具有一字串之一輸入話語、具有一字串之一字詞及一上下文提示；輸出該字串作為一本文，其中該本文不包含該字詞及該上下文提示。 19.如申請專利範圍第18項所述之電腦可讀取媒體，更包含一指令用以：存取一語言模型，該語言模型表示多數詞彙，每一詞彙具有一字串、具有該字串之一字詞，以及一上下文提示。第27頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) Α8 Β8 C8 D8 546631 六、申請專利範圍 (請先閲讀背面之注意事項再填寫本頁} 2 0 ·如申請專利範園第1 9項所述之電腦可讀取媒體’其中該語言模型表示主要由/詞彙組成’ $亥巧彙主要由關聯字串、具有該字串的字詞及上下文提示構成。 2 1 ·如申請專利範圍第1 9項所述之電腦可讀取媒體，其中上述之該輸出該字串包含輸出該字串，以作為使用該語言模型認知該字串的函數。 22·如申請專利範圍第21項所述之電腦可讀取媒體，其中該語言模型包含一統計語言模型。 23 ·如申請專利範圍第22項所述之電腦可讀取媒體，其中該語言模型包含Ν圖語言模型。 24·如申請專利範圍第21項所述之電腦可讀取媒體，其中上述之輸出該字串包含輸出該字串，以僅作為該接收輸入語音資料的一 Ν圖之一函數。經濟部智慧財產局員工消費合作社印製 25.如申請專利範圍第21項所述之電腦可讀取媒體，其中輸出該字串包含輸出該字串，以作為一認知字串與一認知字詞為一比較之一函數。 2 6 ·如申請專利範圍第2 5項所述之電腦可讀取媒體，其中當該認知字串並未出現在該認知字詞時，輸出之該字串第28頁

546631 A B CD 申請專利範圍為一認知字詞之一字串。 27. 如申請專利範圍第21項所述之電腦可讀取媒體，其中該語言模型包含一上下文免除文法。 28. 如申請專利範圍第18項所述之電腦可讀取媒體，其中該字詞中的每一個為一單一字。 29. 如申請專利範圍第28項所述之電腦可讀取媒體，其中該字串中的每一個為一單一字元。 3 0.如申請專利範圍第18項所述之電腦可讀取媒體，其中該字串中的每一個為一單一字元。 31.—種電腦可讀取媒體，該電腦可讀取媒體具有一指令，當該指令由一處理器執行時，該指令進行一認知說話時字串之方法，該指令包含：一語言模型，該語言模型表示主要由關聯字串、具有該字串的字詞及上下文提示組成的詞彙組成；一認知模組，該認知模組供接收表示一輸入話語之一資料，存取該語言模型，以及輸出一使用者說出的一字串，其中該輸入話語包含具有該字_的一字詞以及一上下文提示。第29頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ......裝： (請先閱讀背面之注意事項再填寫本頁) -訂· # 經濟部智慧財產局員工消費合作社印製 546631 8 8 8 8 ABCD 六經濟部智慧財產局員工消費合作社印製申請專利範圍 3 2.如申請專利範圍第3 1項所述之電腦可讀取媒體，其中該認知模組僅輸出該字串。 3 3.如申請專利範圍第31項所述之電腦可讀取媒體，其中該語言模型包含一統計語言模型。 3 4.如申請專利範圍第31項所述之電腦可讀取媒體，其中該語言模型包含一 N圖語言模型。 3 5 .如申請專利範圍第3 1項所述之電腦可讀取媒體，其中該語言模型包含一上下文免除文法。 36.如申請專利範圍第3 1項所述之電腦可讀取媒體，其中該認知模組輸出該字串，以作為比較一認知字串與一認知字詞之一函數。 3 7.如申請專利範圍第36項所述之電腦可讀取媒體，其中當該認知字串未出現於該認知字詞，輸出之該字串為該認知字詞之一字串。 3 8.如申請專利範圍第31項所述之電腦可讀取媒體，其中該字詞中之每一個為一單一字。 39.如申請專利範圍第38項所述之電腦可讀取媒體，其中第30頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ......…•裝： (請先閲讀背面之注意事項再填寫本頁) -訂· A B CD 546631 六、申請專利範圍該字串中之每一個為一單一字元。 40.如申請專利範圍第31項所述之電腦可讀取媒體，其中該字串中之每一個為一單一字元。 ......:.:»:,i 裝： (請先閲讀背面之注意事項再填寫本頁) -、τ % 經濟部智慧財產局員工消費合作社印製第31頁本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公釐)