TW546631B - Disambiguation language model - Google Patents

Disambiguation language model Download PDF

Info

Publication number
TW546631B
TW546631B TW090132957A TW90132957A TW546631B TW 546631 B TW546631 B TW 546631B TW 090132957 A TW090132957 A TW 090132957A TW 90132957 A TW90132957 A TW 90132957A TW 546631 B TW546631 B TW 546631B
Authority
TW
Taiwan
Prior art keywords
word
patent application
scope
item
string
Prior art date
Application number
TW090132957A
Other languages
English (en)
Inventor
Yun-Cheng Ju
Fileno A Alleva
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Application granted granted Critical
Publication of TW546631B publication Critical patent/TW546631B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

546631 A7 B7 五 _I 經濟部智慧財產局員工消費合作社印製 發明説明() 發明領域: 本發明係關於語言模型,特別是關於建立並使用語言 模型’在例如輸入語音資料以進行字元辨識的時候,使得 模糊性達到最小。 發明背景: 準確的語音辨識(Speech recognition)需要一聽覺模型 (acoustic model),以選出使用者當時所說的正確字。換句 話說’假如一個語音辨識器必須選擇或決定到底使用者說 出的是哪一個字(word),而此時所有的字在說出時有相同 的相似度’一般來說,在這樣的情況下,語言辨識器不會 有令人滿意的表現。一個語言模型則提供了 一個方法或裝 置,用來指定在字彙(vocabulary)裡,哪一種字的順序是可 能的。比較一般的說法是,語言模型提供了不同字的排列 順序之相似度的資訊。 語音辨識常常被認為是一種由上而下(t〇p-d〇wn)的語 吕處理程序。事實上,有兩種常見的語言處理程序,包括 ,由上而下’與,由下而上,兩種。由上而下的語音處理程序從 語言的最大單位開始辨識,例如句子。接著,將最大單位 分類為較小的單位,例如詞彙(phrase)。接著,將此較小 的單位再分為更小的單位,例如字(w〇rd)。相對地,從下 而上的語言處理從字開始,並且從字往上建構更大的詞彙 以及/或句子。兩種語言處理方式都可藉由語言模型得到加 強。 第4頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公楚) (請先閲讀背面之注意事項再填寫本頁) 裝· -訂· % 546631 A7 B7 五、發明説明() 一個常見用來歸類(classify)的技術為使用一個N圖 語言模型(N-gram language model)。由於N圖語言模型可 以利用大量資料來加以訓練,η-字依賴性能同時無接縫地 容納語法(syntactic)及語意(semantic)的淺結構(shallow structure)。雖然N圖語言模型在一般的聽寫(dictation) 下,可以達成相當不錯的效果,但對於同音異義字 (homonyms)則可能出現明顯的錯誤。所謂的同音異義字是 某一種?吾吕中的一個元素’例如字元或音節,其為發音相 近,但具有不同拼字方式的兩個或更多元素中之一個。舉 例來說,當一個使用者拼字時,由於若干字元發音相同 時,語音辨識模組可能輸出錯誤的字。相似地,對不同的 字元,如果發音相近,語音辨識模組亦可能輸出錯誤的字 元,例如’ m'與’ η ’。 此含糊性的問題在日文或中文之類的語言更是普 遍’在這些語言中使用到大量的漢字撰寫系統。在這些語 言中的字元是數量龐大而複雜的表意字元(ideograph)。藉 由這些表意字元來表示聲音與意義。這些字元形成有限的 音節。接著,由這些音節建立大量的同音異義字。這些同 音異義字顯著地延長了聽寫(dictation) —份文件的時間。 當錯誤的同音異義字必須被找出來,而把正確的同音異義 字加進去時,這種問題格外明顯。 因此,在話語中,對於代表不同意義的同音異義字與 相似發音的語音,我們一直需要發展出新方法來將模糊性 最小化。當技術進步及語音辨識應用在更多的領域時,就 第5頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) .....厂二-:_裝: (請先閱讀背面之注意事項再填寫本頁) 訂· % 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明() 必須找到一個更精確的語言模型。 發明目的及概述: 語音辨識者一般使用例如N圖的語言模型,以改進準 確性。本發明的第一個觀點(aspect)包括產生一語言模 型。此語言模型在使用者指出一個或多個字元,如音節, 以用在例如拼字的場合時格外有用。此語言模型幫助減少 同音異義字的模糊性,以及減少不同字元彼此之間發音類 似時的模糊性。此語言模型從一訓練文集(corpus)建立, 且此訓練文集包含一個字串(character string)或一個單一 字元(single character)、具有此字串的一個字詞(w〇rd phrase)或一個單一字(single word),以及一個上下文提示 (context cue)。藉由使用一個字的列表(iist)或字典 (dictionary),透過對每一個字詞形成一個子句(partial sentence)或字詞,我們能夠自動產生此文集。其中,此詞 練文集包括此字詞、上下文提示以及此字詞的一個字争。 在進一步的實施例中,一個詞彙(phrase)係由此字詞的每 一個字元建立而成。 本發明的另一個觀點是使用上述語言模型以辨識說 話時字元的系統或模組。當一個字串與此關聯字詞中的上 下文提示被說出時,此語音辨識模組確認此使用者係在拼 字或是在指出字元。此時,此語音辨識模組將只輸出被指 出的字元’而不輸出上下文提不或是關聯的字一。在一^固 進一步的實施例中,此語音辨識模組對一個辨識出字元與 第6頁 本紙張尺度適用中國國家標準(CNS)A4規格(21〇X 297公釐) ^ ~- (請先閲讀背面之注意事項再填寫本頁) 裝· 、一=口 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明() 一個辨識出字詞進行比較,以確認指出此正確的字元。假 如此辨識出字元並非在此辨識出字詞中,輸出之字元將是 辨識出字詞中的字元。 圖式簡單說明: 第1圖為一語言處理系統的方塊圖。 第2圖為一例示電腦環境的方塊圖。 第3圖為一例示語音辨識系統的方塊圖。 第4圖為本發明方法的流程圖。 第5圖為實作第4圖方法的模組方塊圖。 第6圖為一語音辨識模組以及非必要的字元確認模組之方 塊圖。 圖號對照說明: (請先閲讀背面之注意事項再填寫本頁) 裝· -、v'var 經濟部智慧財產局員工消費合作社印製 10 語言處理系統 100 語音辨識系統 104 類比/數位轉換器 105 訓練模組 106 特徵擷取模組 110 字典儲存模組 111 語言模型 112 聽覺模型(訊隆樹) 114 搜尋引擎 12 輸入 14 輸出 141 字詞表列 142 系統(裝置) 143 訓練文集 146 語言建立模組 16 語言模型 180 語音辨識模組 182 字串檢查模組 30 電腦 40 處理單元 第7頁 % 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) 546631 A7 B7 五 發明説明( 41 系統匯流排 50 系統記憶體 51 唯讀記憶體 52 隨機存取記憶體 53 基本輸出輸入系統 54 作業系統 55 應用程式 56 其他程式模組 57 程式資料 60 不可移除非揮發性記憶體 介面 61 硬碟機 64 作業系統 65 應用程式 66 其他程式模組 67 程式資料 70 可移除非揮發性記 71 磁碟機 72 磁碟片 75 光碟機 76 光碟片 80 使用者輸入介面 81 指向裝置 82 键盤 83 麥克風 84 顯示器 86 印表機 87 揚聲器 85 視訊介面 88 輸出週邊介面 90 網路介面 91 區域網路 92 調變解調器 93 廣域網路 94 遠端電腦 95 遠端應用程式 面 :·:、::、:·裝: (請先閲讀背面之注意事項再填寫本頁) 、一 Utx % 經濟部智慧財產局員工消費合作社印製 發明謀細說明_· 第1圖以一般化的方式纟會示一語言處理系统 (language processing system)10。此語言處理系統 1〇 接收 一語言輸入1 2 ’並且處理此θ吾a輸入1 2以提供一語士輸 第8頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) 546631 五 _ 經濟部智慧財產局員工消費合作社印製 A7 B7 發明説明() 出。舉例來說,語言處理系'统1〇可以被實施為一語音辨 識系統或模組,以接收—使用者錄製或說出的語言輸入 12。此語言處理系統! 〇處理口語語言(sp〇ken ^叫心^), :且提供辨識出字以及/或字元作為輸出。一般來說,此語 言處理系統10以文字(text)形式輸出。 在處理的程序中,語音辨識系統或模組10可以存取 一語言模型16,以決定到底使用者說出的是哪一個字,尤 其疋哪-個同晉異義字或與該語言中發音相近的元素。此 語言模型將-特別的語言,例如英語、中文、日文等進行 編碼。在此具體實施例所描述中,此語言模型16可以是 廣為人知的習知技術,例如N圖語言模型的統計語言模 型、上下文免除文法(context-free grammar),或是兩者之 混合。本發明的一個廣義觀點是創設(create)或建立(build) 浯吕模型1 6的方法。另一褕廣義的觀點係於語音辨識中 創設或建立語言模型1 6。 在開始對本發明進行比較詳細的討論之前,對運作環 境進行概要的說明應能提供理解上的幫助。對一個本發明 传以實作的適合電脂^ ;承境(compUting environinent)20,第2 圖與相關的討論提供一個簡要而一般性的描述。此電腦環 境20僅為一個適合的電腦環境,但不應該解釋為任何對 本發明使用範圍或功能上的限制。同樣地,也不應把圖示 中電腦環境2 0的元件或元件的組成,解讀為對此電腦環 境20的任何依存或是需求的限制。 在許多其他一般用途或特殊用途的電腦環境或電腦 第9頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董) ......Γ :,:·裝- (請先閲讀背面之注意事項再填寫本頁) ,訂· 546631 A7
經濟部智慧財產局員工消費合作社印製 五、發明説明() 配置下,本發明亦得以配合運作。可適合與本發明結合使 用且較廣為人知的電腦系統、環境以及/或配置的例子包 括仁不限制於,個人電腦、伺服電腦、手持或桌上裝置、 多處理器系統、微處理器為基礎的系統、互動盒(set top box)、可程式消費電子裝置、網路電腦、迷你電腦 (minicomputer)、大型電腦(mainframe computer)、包含任 何上述系統或裝置的分散式電腦環境,以及其他相似物。 此外,本發明亦可用於電話系統(teleph〇ny吁❿⑷中。 本發明可以透過一般電腦可執行的指令形式實作,例 如程式模組,而由電腦執行。一般來說,程式模組會包括 程序(routine)、程式(pr〇gram)、物件(〇bject)、元件 (component)、資料結構等達成特定工作或實作特定的抽象 資料型態(abstract data type)。本發明亦可實作於分散式環 境,此時經由通信網路(c〇mmunicati〇n netw〇rk)連接的遠 场處理裝置來達成工作。在一個分散式電腦環境中,程式 模組可能同時位於本端(local)與遠端(rem〇te)電腦儲存媒 體。這些媒體包含記憶儲存裝置。以下將配合圖表描述由 程式與模組達成的工作。對於習知技藝中人能將這些描述 與圖表進行實作為處理器可執行的指令,其中這些指令可 寫在各種形式電腦可讀取媒體上。 請參看第2圖,此圖提供實作本發明的例示系統。此 例示系統包括一個一般用途計算裝置(general purp〇se computing device),其以電腦30形式出現。電腦3〇的元 件可包括,但非限制於,一處理單元4〇、一系統記憶體 第10頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) .....卜:k_:·裝.........訂..........% (請先閱讀背面之注意事項再填寫本頁) 546631 A7 B7 五、發明説明() 5 0、以及連結多個不同的系統元件包括系統記憶體5 0至 處理單元4 0的系統匯流排4 1。系統匯流排4 1可為任一種 匯流排結構,包括記憶體匯流排或記憶體控制器、週邊匯 流排,以及區域匯流排。並且此匯流排得各種不同的匯流 排架構。在此舉例,而非限制,此匯流排架構包括工業標 準架構(Industry Standard Architecture,ISA)匯流排、微通 道(Micro Channel)匯流排、增益工業標準架構(Enhanced ISA,EISA)匯流排、視訊電子標準協會(Video Electronics Standards Association,VESA)區域匯流排,以及又稱為夾 層匯流排(Mezzanine bus)的週邊元件内連接(Peripheral Component Interconnect,PCI)匯流排。 一般來說,電腦30包括了各種不同的電腦可讀取媒 體。此處所述的電腦可讀取媒體可為任何可由電腦30進 行存取的媒體。這些電腦可讀取媒體包括揮發性(volatile media)與非揮發性媒體(nonvolatile media)、可移除與不可 移除媒體(removable and non_removable media)。舉例來 說,而非限制,電腦可讀取媒體可包含電腦儲存媒體 (computer storage media)及通訊媒體(communicati〇n media)。電腦儲存媒體也包括揮發性與非揮發性、可移除 及不可移除媒體,而這些媒體可由任何資訊儲存技術的方 法來實作,例如電腦可讀取指令(computer readable instruction)、資料結構、程式模組或其他資料。電腦儲存 媒體包括’但非限制於’隨機謂取記憶體(ram)、唯讀記 憶體(ROM)、電子式可清除程式化唯讀記憶體 第11頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ......Γ·」:·裝: (請先閲讀背面之注意事項再填寫本頁) 訂· % 經濟部智慧財產局員工消費合作社印製 546631 Α7 __Β7 五、發明説明( (EEPROM)、快閃記憶體(flash咖㈣⑺或其他記憶體技 術、光碟片(CD-ROM)、數位多樣磁碟(DVD)或其他光學磁 碟餘存體、卡式磁帶(magnetic cassette)、磁帶(则料⑷^ tape)或其他磁性儲存裝置,或其他任何媒體可儲存預定資 訊,以供電腦30存取。典型的通訊媒體體現(emb〇dy) 了 電腦可讀取的指令、資料結構、程式模組或其他資料,這 些體現係在一調變資料信號,例如一載波或其他傳送機制 下完成。並且,此通訊媒體包括任何形式的資訊傳送媒 體。此處所述的‘調變資料信號,係指一個信號具有一個 或多個特徵集合,或是以變化來進行資訊的編碼。舉例來 說,而非限制,通訊媒體包括有線媒體(wired media),例 如有線網路或直接連接的連結(direct_wired c〇nneetiQn), 以及無線媒體(wireless media),例如聽覺、FR、紅外線以 及其他無線媒體。任何上述的結合應該亦包含在電腦可讀 取媒體的範圍之中。 系統記憶體50包括電腦儲存媒體,其形式可為揮發 性以及/或非揮發性記憶體例如唯讀記憶體(R〇M)5 1以及 P現機碩取記憶體(RAM)52。通常存於唯讀記憶體51的基本 輸出輸入系統(BIOS)53包括基本程序,以協助在電腦3〇 的元件間傳送資訊,這些程序之例為開機時的動作。隨積 存取記憶體52 —般包含資料以及/或程式模組,以直接供 處理單元40存取以及/或在其上進行作業。舉例來說,但 非限制’第2圖例示作業系統54、應用程式55、其他程 式模組5 6、以及程式資料5 7。 第12頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董) ......Γ _」:·裝: (請先閲讀背面之注意事項再填寫本頁} -、一 經 濟 部 智 慧 財 產 局 員 工 消 費 合 社 印 製 經濟部智慧財產局員工消費合作社印製 546631 五、發明説明() 電腦30亦可包括其他可移除/不可移除、揮發性/㈣ 2性電腦可讀取媒體。僅作為例子之用,第2圖例示一可 頡取自或窝入到不可移除且非揮發性磁性媒體的硬碟機 O-d disk driver)61、一可讀取自或寫入到一可移除且非 揮發性的磁碟72的磁碟機(magnetie disk d — n,以及 -可讀取自或寫入到一可移除且非揮發性的光碟%的光 碟機75 ’光碟76的例子包括光碟片(CD_R⑽)或其他光學 媒體。其他可用於此例示作業環境的可移除/不可移除、揮 發性/非揮發性的電腦儲存媒體包括,但非限制於,卡式磁 帶、快閃記憶體卡、數位多樣磁碟、數位视訊卡帶、固辑 隨機讀取記憶體、固態唯讀記憶體,以及其他相似物。硬 碟61通常經由如介面6〇的不可移除記憶體介面,以連結 到系統匯流排41。磁碟機71及光碟機7卜㈣是經由: 介面70的可移除非揮發性記憶體介面,以連接到系統匯 流排41。 上述並且在第2圖例示的這些裝置以及關聯的電腦儲 存媒m,提供了 一個儲存體以儲存電腦指令、資料結構、 程式模組以及其他電腦30使用的資料。在第2圖中,舉 例來說,硬碟機61例示用來儲存作業系統64、應用程式 65、其他程式模組66,以及程式資料67。必須指出的是, 這些元件可與作業系統54、應用程式55、其他程式模組 56,以及程式資料57相同或不同。作業系統M、應用程 式65、其他程式模組66,以及程式資料67在此標示不同 的號碼,以指出它們為不同的複製本。 第13頁 :::、::/:·裝.........訂.........% (請先閱讀背面之注意事項再填寫本頁) 546631 A7 B7 五、發明説明() 使用者可藉由輸入裝置’輸入命令及資訊到此電腦 3〇,這些輸入裝置之例子包括鍵盤82、麥克風83、以及 指向裝置8 1,例如滑鼠、軌跡球或觸控板。其他輸入裝置 (未顯示)可包括搖桿、遊樂器板(game pad)、衛星碟 (satellite dish)、掃描器(scanner),或其他相似物。這些以 及其他輸入裝置常常藉由一使用者輸入介面8〇,以連接到 理單元40,此使用者輸入介面80連結到系統匯流排。但 是這些裝置也可透過其他介面及匯流排結構以進行連 接’例如平行傳輸埠(parallel port)、遊戲埠(ganie p0rt)或 通用序列匯流排(USB)。一個電腦顯示器84或其他型態的 顯示器也連接到此系統匯流排,其連接係經由一介面,例 如視訊介面85。除了顯示器,電腦也可包括其他週邊輸出 裝置,例如揚聲器87及印表機86 ’其係經由一輸出週邊 介面8 8連接。 電腦3 0可在網路環境運作。此網路環境使用邏輯上 的連接,連接到一個或多個遠端電腦’例如遠端電腦94。 此遠端電腦94可為一個人電腦、手持裝置、伺服器、路 由器(router)、網路電腦、相等級裝置(peer device)或其他 一般網路節點,並且通常包括許多或全部上述關於電腦3 〇 的元件。第2圖所繪示的邏輯上連接包括區域網路 (LAN)91以及廣域網路(WAN)93,但也可包括他網路。這 些網路環境包括如辦公室常見的、企業範圍的電腦網路、 内部網路(Intranet),以及網際網路(Internet)。 當使用區域網路環境,電腦3 0經由網路介面或介面 第14頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董) ---裝·· (請先閲讀背面之注意事項再填寫本頁) -訂· % 經濟部智慧財產局員工消費合作社印製 五 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 、發明說明( 卡90連接到區域網路9 1。當使用在廣域網路環境中,兩 腦30 —般包括一調變解調器(m〇dem)92或其他在廣域網 路上建立通訊的裝置,這些廣域網路例如網際網路。内部 或外部的調變解調器92,可經由使用者輸入介面8〇,或 其他適當機制’以連接到系統匯流排4 1。在網路環境中 相對於電腦30所繪示的程式模組,或其部分,可#存於 遠端記憶儲存裝置。舉例來說,而非限制,第2圖將遠端 應用程式95例示存於遠端電腦94。必須指出的是,此處 所顯示的網路連接僅為例示之用,在電腦間其他建立通訊 連接的裝置方法亦可以使用。 一個語音辨識的例示實施例系統1 00緣示於第3圖。 此語音辨識系統1 〇〇包括麥克風83、一個類比數位 Unal〇g-to-digital,a/d)轉換器 1〇4、一個訓練模組 1〇5、 特徵掏取模組(feature extracti〇n module) 106、一字典错存 模組(lexicon storage module) 1 1〇、伴隨訊隆樹(sen〇ne tree) 的一聽覺模型112、樹狀搜尋引擎114、語言模型16,以 及一般用途語言模型1 1 i。必須指出的是,整個系統1〇〇, 或邵分的語音辨識系統1 00,可實作於第2圖所繪示的環 境中。舉例來說,在一個比較好的狀況下,麥克風83可 經由一適當的介面,並經過此類比/數位轉換器1〇4,以提 供作為電腦30的輸入。訓練模組} 〇5及特徵擷取模組i 〇6 可作為電腦30中的硬體模組,或是作為一軟體模組,而 存於第2圖所揭露的任一個資訊儲存裝置中,而得由處理 單元40或其他適當處理器存取。此外,字典儲存模組 第15頁 本紙張尺度適财關家群(CNS)A4規格(210X2^^17 ---裝 — (請先閲讀背面之注意事項再填寫本頁) -、\呑 % 546631 經 部 智 慧 財 產 局 員 工 消 費 合 ί 社 印 製 A7 B7 五、發明説明( no、聽覺模型"2 ’以及語言模型16及iu也在較理想 的情況下,儲存於第2圖所示的任—記憶裳置中。更進一 步,樹狀搜尋引擎114實作於處理單元4〇(其可包括一或 多個處理器)’或亦可由用於電腦3〇的—特殊製造的語音 辨識處理器來達成此樹狀搜尋引擎丨丨4。 就此例示的實施例裡,在語音辨識的過程中,語音係 由使用者對麥克風83發出的可聽見聲音信號(audibie speech signal)之形式,以作為系統1〇〇的輸入。麥克風μ 轉換此可聽見音信號成為一類比電子信號,而提供給類比 /數位轉換器104。此類比/數位轉換器1〇4轉換此類比語 音信號為一序列的數位信號,此數位信號再提供給特徵擷 取模組106。在一實施例中,此特徵擷取模組ι〇6為一慣 用陣列處理器,而此慣用陣列處理器達成此數位信號的頻 譜分析,並且此慣用陣列處理器對一頻譜(hequaa spectrum)的每一頻帶(frequency band)計算一強度值 (magnitude value)。在此實施例中,這些信號由此類比/數 位轉換器104在一近於16KHz的取樣頻率下,提供給此特 徵擷取模組106。 特徵擴取模組1 06將自類比/數位轉換器丨〇4處得到 的數位仏號切分為框(frame),這些框包括多數個數位取 樣。各個框具有近似於1〇個千分之一秒(millisec〇nd)的持 續期間。這些框接著由特徵擷取模組丨〇6編碼為一特徵向 量,以反映多數個頻帶的特殊特徵值(spe…“ characteristics)。在離散與半連續的隱藏馬可夫模型 第16頁 本紙張尺度適用中國國家標準(CNS)A4規格(21〇χ297公楚) ......r L·:·裝·· (請先閱讀背面之注意事項再填寫本頁) 、可 546631 A7 B7 五 經濟部智慧財產局員工消費合作社印製 發明説明( (Hidden Markov Modeling)狀況下,此特徵擷取模組1〇6 也將特徵向量(feature vector)編碼為一個或多個的碼字 (code word),其中此編碼係使用向量量化 quanUzation)技術以及由訓練資料所衍生的編碼簿“μ。 book)來達成。藉此,特徵擷取模組1〇6在其輸出位置對 每一說出的發音,提供了特徵向量(feature vect〇r)或碼字 (code words)。此特徵擷取模組106以近於每1〇個千分之 一秒一個特徵向量(或碼字)的速率,來提供特徵向量(或碼 字)。 接著’我們針對隱藏馬可夫模型,利用所分析的特定 框的特徵向量(或碼字),以算出輸出機率分佈(〇加?加 probability distribution)。在後面執行威特比(Viterbi)解碼 程序或類似的處理技術時,我們會用到這些機率分佈。 在從特徵擷取模組106處接收到碼字時,樹狀搜尋引 擎1 1 4存取存於聽覺模型1 1 2的資訊。模型i丨2儲存聽 覺模型,例如隱藏馬可夫模型,而這些聽覺模型代表語音 辨識系統統1〇〇偵測到的語音單元(speech unit)。在一個 實施例中,此聽覺模型包括與隱藏馬可夫模型中每一馬可 夫狀態關聯的訊隆樹(senone tree)。在一例示實施例中, 此隱藏馬可夫模型代表音素(ph〇neine)。基於聽覺模型i 12 中的訊隆(Senone),此樹狀搜尋引擎114最相似的音素, 此音素係由特徵擷取模組1 06收到的特徵向量(或碼字)所 代表之音素。也就是系統所接收到的使用者發聲。 樹狀搜尋引擎1 1 4也存取存於模組11 〇的字典。由樹 第17頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· -、\吾 546631 A7 B7 五、發明説明() 狀搜尋引擎1 1 4對聽覺模型丨丨2存取而接收的資訊,係用 於搜尋字典儲存模組丨丨〇,以決定最接近代表從特徵擷取 模組1 0 6處收到的碼字或特徵向量的字。同樣地,搜尋引 擎1 1 4存取語言模型1 6及n丨。在一個實施例中,此語言 模型16為一字N圖(word N_tram),此字N圖係用於找出 取接近的一個或多個字元,來代表此輸入語音。此輸入語 音用來找出此一個或多個字元,並包含此字元、上下文提 示(context cue),以及一字詞(w〇rd phrase)。舉例來說, 輸入浯音可為’N as in Nancy,,其中fN’(也可能是小寫)為我 們所要的字元,’as in’為上下文提示,而,Nancy,為聯結到 ’Ν’的字詞,以便用來釐清或找出我們所要的字元。對於詞 彙N as in Nancy’,語音辨識系統1 〇〇的輸出可能正好是 fN’。換句話說,在分析輸入語音資料的語音辨識系統1〇(), 藉由認知輸入語音資料從屬於詞彙,N as in NanCy,,而確 認了使用者係選擇要拼字。因此,此上下文提示及關聯字 阔被輸出字串給省略掉。當需要的時候,搜尋引擎丨丨4可 移除上下文提示及關聯字詞。 必須指出的是,在一實施例中,此語言模型n丨為一 + N圖’此字n圖用於找出在一般聽寫用途下,輸入語音 所代表最接近的字。舉例來說,當語音辨識系統丨〇〇實作 為一聽寫系統,此語言模型1 1 1提供在一般聽寫情況下具 有最近似字的指示(indication)。然而,當使用者使用具有 上下文提示的詞彙,對於此相同詞彙而言,此語言模型j 6 第18頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· -、\呑 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明() 的輸出將具有比語言模型1 1 1較高的值(v a 1 u e)。由語言模 型1 6所得來的較高值可指示系統1 00使用者正利用上下 又及字詞來指出字元。因此,對於具有上下文提示的輸入 4果’搜尋引擎1 1 4或語晋辨識系統1 〇 〇的其他元件可省 略此上下文提示及此字詞,而只輸出我們需要的字元。以 下將對語言模型1 6的使用,提供進一步的討論。 雖然此處描述的語音辨識系統1 00使用隱藏馬可夫模 型及訊隆樹,必須指出的是,這只是一個例示用的實施 例。對於習知技藝中人而言,語音辨識系統丨〇 〇可採取許 多不同的形式,只要有使用到於語言模型16的特徵,並 且提供使用者所說出的文字作為輸出即已足夠。 已廣泛週知的事情是,對一給定字序(W0rd sequence),統計N圖語言模型對此字產出一機率估算,也 就是給出此字史(word history)H。一個N圖語言模型只考 慮在字史中(n_l)個先前的字,而由這些字影響接下來出現 的字的機率。舉例來說,一個2圖(bi-gram或2-gram)語 言模型考慮前一個字對後一個字的影響程度。因此,在一 個N圖語言模型中,一個字發生的機率由下列式子表示: P(w/H) = P(w/wl, w2? ...5 w(n-l)) ⑴ 其中w為我們所關切的字; wl為字w先前n-Ι個位置的字; w2為字w先前n-2個位置的字;以及 w(n-l)為字w在字序中的前一個字。 同樣地,一個字序的機率由每一個給定其字史的字的 第19頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝 -訂· 經濟部智慧財產局員工消費合作社印製 546631 A7 B7 五、發明説明() 機率相乘而決定出來。因此,一個字序(wl ·· .wm)的機率表 為· m P(wl · · · wm) = n(P(wi20/Hi)) (2) Μ 此N圖模型係將N圖演算法運用於一文字訓練資料 (textual training data)的文集(corpus)而取得,此文集為詞 彙、句子、句子片段(sentence fragments)、段落等等組成。 舉例來說,一個N圖演算可使用習知的統計技術,例如飢 茲(Katz)技術,或是二項式尾部分佈倒退(bin〇mial posterior distribution back off)技術。在使用這些技術時, 此演算法估算一個字w(n)在字wl,w2,…,w(n-i)後面的 機率。這些機率值共同集合已形成N圖語言模型。以下所 要描述的本發明之若干觀點,可應用於建立一標準統計n 圖模型(standard statistical N-gram model)。 本發明的第一個廣義的觀點例示於第4圖,作為—方 法140供建立一語言模型,以提供一語言處理系統指出字 元。也請參看第5圖,一個系統或裝置142包括具有指人 的模組以貫作方法1 4 0。一般來說,對於—字詞表列中的 每一個字詞,方法140包括聯結此字詞的一字串及字1至 一上下文提示’此上下文提示供提示指出此字串的步驟 144。必須注意的是,此字串可包含一單一字元。相似地, 一個字詞可包含一單一字。舉例來說,對於由一個字元組 成的字串以及由一個字組成的字詞而言,步騾144係對字 表列1 4 1中的每一個字,聯結此字的一字 丁w 于兀至一上下文提 示。一般來說,一上下文提示為某特定語言中的一字戈一 第20頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公楚) ---—- _ .............•裝; (請先閲讀背面之注意事項再填寫本頁) 訂· 經濟部智慧財產局員工消費合作社印製 546631 五 經濟部智慧財產局員工消費合作社印製 發明説明() 字詞,且此字或此字詞係用來供說話者指 ^ 子同中的語 言元素(language element)。在英文中的上 4「又把7F例子包 括’as in’、f〇r example’、’as found in,、,】i. iiKe、such as丨 等等。相近字或字詞亦可在其他語言中找到,例如日文中 的(7),以及中文中的’的,。在一個實施例中,步驟“A包 括建立一字詞的文集143。每一字詞包括一字串、字詞及 上下文提示。比較典型的情況是,當一個單一字元聯結到 一個字時,雖然其他此字的其他字元也可被使用到,但此 第一個字元被使用到。此類字詞的例子包括,N ^ h Nancy丨、丨P as in Paul丨及’Z as in Zebra’。 在一個進一步的實施例中,當在一些語言,如中文, 許多字只包括一個、二個或三個字元時,此字的另一個字 元被連結到此字及上下文提示。此時,在一上下文提示 中,將此字的每一個字元關聯到這個字將可能有所助益。 如上所指出的,一個用來聯結所需要的字元到相對應字及 上下文的簡單方法為,構成一個相同的字詞。因此,給定 一字表列141時,對於所有需要的上下文提示,即可輕易 地產生一個供訓練語言模型的字詞文集1 43。 基於此文集143,語言模型16藉由一傳統建立模組 1 46而建立,例如Ν圖建立模組實作常見的技術來建立語 言模型16。方塊148代表在方法140中建立語言模型16, 其中此語言模型可包括,但非限制於,一 Ν圖語言模型、 一上下文免除文法或其混合物。 第21頁 本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公釐) 丨·:、:_」:.·裝: (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 546631 A7 ---B7 發明説明() 在形成此語言模型的時候,此產出的詞彙可指定一適 當的數值’而此數值產生一適當的機率值。在上面的例子 中’說N as in Nancy’可能會更像是在說’N as in notch1。 據此本發明的一個進一步的特徵可包括對此語言模型中 每一個關聯字串及字詞,進行一機率分數(probability score)的碉整。此機率分數可在語言模型16建立時,透 過人工進行碉整(manually adjust)。在另一個實施例中, 此機率分數可藉由在此文集143内收集足夠數目的字詞, 以對關聯的字元及字詞,產生此語言模型中適當的機率分 此機率刀數也可為此字同使用相似度的函數。一般來 說,有一些字詞,其用於指出一個或多個字元的用途上, 較他竽詞更為頻繁。這些字詞可被指定,或在此語言模型 中&供更面的機率分數。 第6圖一般性地例示了一個語音辨識模組丨8〇以及語 言模型1 6。此語音辨識模組丨8〇可為上述的形式,然而必 眉扣出的疋,此語音辨識模組i 8 〇並不限制於作為語音辨 識模組的實施例,而可為各種不同的形式。如上所述,此 洁骨辨模組1 80接收代表語音輸入的資料,且存取此語言 模型1 6以確認是否此輸入語音資料包括具有上下文提示 的詞彙。在偵測到具有上下文提示的字詞時,此語音辨識 模組180不輸出上下文提示及字詞,而僅輸出字元或字 串,其中這些字元或字串係關聯於此上下文提示及字詞。 換句話說,雖然語音辨識模組偵測語音資料所代表的完整 詞彙,N as in Nancy,,此語音辨識模組只提供,N,作為輸 第22頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公 (請先閲讀背面之注意事項再填寫本頁) 裝· 、\一一口 546631 A7
出。對於使用者選擇單獨指出 - 扯&/ 戈表達的一個或多個字 儿的聽寫系統中’此種輸出方式特別有用。 個子 在此必須指出的是,上述 ^ ^ ^ 口 Ρ杈型16主要由關聯 子串、网果及上下文提示構成。因此,此語言模型㈣ 於具有此種形式的輸入語言特別敏感。在第3圖的實施例 中’-般用途的語言模型⑴可因此用於沒有特定字串、 口司果及上下文提不型錢的*五立於 i 4的阳曰輸入。然而,必須指出的 是’在另-個實施例中,如果需要的話,語言模型Μ與 1 1 1可以聯結起來。 在接收到輸入語音資料並且存取到語言模型16,對於 此輸入語音,語音辨識模組丨80決定一辨識出的字串及一 辨識出的一字詞。在許多例子中,由於使用了語言模型 16 ’此辨識出的字串將會是正確的。然而,在一個進一步 的實施例中,我們可加入一個字元檢查模組(character verification module)182,以更正至少若干語音辨識模組 1 80造成的錯誤。此字元檢查模組丨82可存取經語音辨識 模組1 8 0確認此辨識出的字串及此辨識出的字詞,並且此 字元檢查模組1 82比較此辨識出的字串與此辨識出的字 詞。此字元檢查模組1 82尤其檢查辨識字串確實存於此辨 識出的字詞。假如辨識出的字串部存於此辨識出的字詞, 我們就可以知道已經發生一個很明顯的錯誤,雖然這個錯 誤也許導源於使用者描述出錯誤的詞彙,例如as in Nancy,,亦或是此語音辨識模組180誤解了此辨識出的字 串或辨識出的字詞。在一個實施例中,此字元檢查模組1 82 第23頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ·*··1·裝·- (請先閲讀背面之注意事項再填寫本頁) -訂· 經濟部智慧財產局員工消費合作社印製 546631
五、發明説明( 可假設錯誤大多+ 、 出的字詞中存於辨識出的字串,並且因此,將辨識 辨識出的字串串拿來替代此辨識出的字串。關於此 固或多個字元來替代的動作,可基於比 較此辨識出的字电… 、 ,、此辨識字詞中的字元在聽覺相似度 的差異。因此,此 一 、 子70私查模組1 8 2可存取附隨於單一字 一勺:口曰之儲存資料。藉由使用存於此辨識出字詞的字 ^ ,於辨識出字词的字元與辨識出的字串,此字元檢查 模、且U2對兩者間的儲存聽覺資料進行比較。最接近的字 元接著作為輸出。對於習知技藝中人而言,此字元檢查模 、、且1 82可加入於語音辨識模組1 80。然而,為了說明的目 、匕冬元辨識模組1 8 2以分離的方式予以例示。 隨然本發明已透過較佳實施例進行描述,習知技藝中 人S知在不脫離本發明的精神與範圍下,所進行的任何形 式及細邵的修改,仍將屬於本發明的範圍之中。 -----I -------裝---------訂 (請先閲讀背面之注意事項再填寫本頁) % 經濟部智慧財產局員工消費合作社印製 第24頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐)

Claims (1)

  1. 546631 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 六、申請專利範圍 1 · 一種建立一語言模型的方法,該語言模型供一語音辨識 系統指出字元,該方法奚少包含· 對於一字詞表列中之每一字詞,聯結該字詞之一字 串及該字詞至一上下文提示,該上下文提示指出該字 串; 建立一語言模型,該語言模型為該關聯字詞及該字 串之一函數。 2·如申請專利範圍第1項所述之方法,其中該語言模型包 含一統計語言模型。 3 ·如申請專利範圍第2項所述之方法,其中該語言模型包 含一 N圖語言模型。 4 ·如申請專利範圍第2項所述之方法,其中該語言模型包 含一上下文免除文法。 5.如申請專利範圍第1項所述之方法,其中上述之該聯結 包含建立該關聯字串與該字詞之一文集及一上下文提 示,並且其中上述之建立語言模型包含存取該文集。 6·如申請專利範圍第1項所述之方法,其中上述之聯結包 含聯結每一字詞之一第一字元至該字詞。 第25頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) .............馨裝-丨 (請先閱讀背面之注意事項再填寫本頁) -訂- ¾ 546631 ABCD 申請專利範圍 7. 如申請專利範圍第6項所述之方法,其中上述之聯結包 (請先閲讀背面之注意事項再填寫本頁) 含聯結至少一部份該字詞之另一字元至該對應字詞,該 另一字元係該第一字元以外之一字元。 8. 如申請專利範圍第7項所述之方法,其中上述之聯結包 含聯結至少一部份該字詞之每一字元至該對應字詞。 9. 如申請專利範圍第7項所述之方法,其中上述之聯結包 含聯結每一字詞之每一字元至該對應字詞。 10. 如申請專利範圍第1項所述之方法,更包含對該語言模 型中之每一聯結字元字串及字詞,調整一機率分數。 1 1.如申請專利範圍第1項所述之方法,其中上述之關聯包 含形成一詞彙,該詞彙包含該字詞之該字元字串、該字 詞,及該上下文提示。 經濟部智慧財產局員工消費合作社印製 12.如申請專利範圍第11項所述之方法,其中該上下文提 示與英大的’as in’相似。 1 3 .如申請專利範圍第1 1項所述之方法,其中該上下文提 示包含中文的’的’。 14.如申請專利範圍第11項所述之方法,其中該上下文提 第26頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) 546631 8 8 8 8 ABCD 、\\ 經濟部智慧財產局員工消費合作社印製 申請專利範圍 示包含日文的《。 1 5 ·如申請專利範圍第1項所述之方法,其中該字詞中的每 一個為一單一字。 1 6.如申請專利範圍第1 5項所述之方法,其中該字串中的 每一個為一單一字元。 1 7.如申請專利範圍第1項所述之方法,其中該字串中的每 一個為一單一字元。 1 8. —種電腦可讀取媒體,該電腦可讀取媒體具有一指令, 當該指令由一處理器執行時,該指令進行一認知說話時 字元之方法,該方法包含: 接收具有一字串之一輸入話語、具有一字串之一字 詞及一上下文提示; 輸出該字串作為一本文,其中該本文不包含該字詞 及該上下文提示。 19.如申請專利範圍第18項所述之電腦可讀取媒體,更包 含一指令用以: 存取一語言模型,該語言模型表示多數詞彙,每一 詞彙具有一字串、具有該字串之一字詞,以及一上下文 提示。 第27頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) Α8 Β8 C8 D8 546631 六、申請專利範圍 (請先閲讀背面之注意事項再填寫本頁} 2 0 ·如申請專利範園第1 9項所述之電腦可讀取媒體’其中 該語言模型表示主要由/詞彙組成’ $亥巧彙主要由關聯 字串、具有該字串的字詞及上下文提示構成。 2 1 ·如申請專利範圍第1 9項所述之電腦可讀取媒體,其中 上述之該輸出該字串包含輸出該字串,以作為使用該語 言模型認知該字串的函數。 22·如申請專利範圍第21項所述之電腦可讀取媒體,其中 該語言模型包含一統計語言模型。 23 ·如申請專利範圍第22項所述之電腦可讀取媒體,其中 該語言模型包含Ν圖語言模型。 24·如申請專利範圍第21項所述之電腦可讀取媒體,其中 上述之輸出該字串包含輸出該字串,以僅作為該接收輸 入語音資料的一 Ν圖之一函數。 經濟部智慧財產局員工消費合作社印製 25.如申請專利範圍第21項所述之電腦可讀取媒體,其中 輸出該字串包含輸出該字串,以作為一認知字串與一認 知字詞為一比較之一函數。 2 6 ·如申請專利範圍第2 5項所述之電腦可讀取媒體,其中 當該認知字串並未出現在該認知字詞時,輸出之該字串 第28頁
    546631 A B CD 申請專利範圍 為一認知字詞之一字串。 27. 如申請專利範圍第21項所述之電腦可讀取媒體,其中 該語言模型包含一上下文免除文法。 28. 如申請專利範圍第18項所述之電腦可讀取媒體,其中 該字詞中的每一個為一單一字。 29. 如申請專利範圍第28項所述之電腦可讀取媒體,其中 該字串中的每一個為一單一字元。 3 0.如申請專利範圍第18項所述之電腦可讀取媒體,其中 該字串中的每一個為一單一字元。 31.—種電腦可讀取媒體,該電腦可讀取媒體具有一指令, 當該指令由一處理器執行時,該指令進行一認知說話時 字串之方法,該指令包含: 一語言模型,該語言模型表示主要由關聯字串、具 有該字串的字詞及上下文提示組成的詞彙組成; 一認知模組,該認知模組供接收表示一輸入話語之 一資料,存取該語言模型,以及輸出一使用者說出的一 字串,其中該輸入話語包含具有該字_的一字詞以及一 上下文提示。 第29頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ......裝: (請先閱讀背面之注意事項再填寫本頁) -訂· # 經濟部智慧財產局員工消費合作社印製 546631 8 8 8 8 ABCD 六 經濟部智慧財產局員工消費合作社印製 申請專利範圍 3 2.如申請專利範圍第3 1項所述之電腦可讀取媒體,其中 該認知模組僅輸出該字串。 3 3.如申請專利範圍第31項所述之電腦可讀取媒體,其中 該語言模型包含一統計語言模型。 3 4.如申請專利範圍第31項所述之電腦可讀取媒體,其中 該語言模型包含一 N圖語言模型。 3 5 .如申請專利範圍第3 1項所述之電腦可讀取媒體,其中 該語言模型包含一上下文免除文法。 36.如申請專利範圍第3 1項所述之電腦可讀取媒體,其中 該認知模組輸出該字串,以作為比較一認知字串與一認 知字詞之一函數。 3 7.如申請專利範圍第36項所述之電腦可讀取媒體,其中 當該認知字串未出現於該認知字詞,輸出之該字串為該 認知字詞之一字串。 3 8.如申請專利範圍第31項所述之電腦可讀取媒體,其中 該字詞中之每一個為一單一字。 39.如申請專利範圍第38項所述之電腦可讀取媒體,其中 第30頁 本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ......…•裝: (請先閲讀背面之注意事項再填寫本頁) -訂· A B CD 546631 六、申請專利範圍 該字串中之每一個為一單一字元。 40.如申請專利範圍第31項所述之電腦可讀取媒體,其中 該字串中之每一個為一單一字元。 ......:.:»:,i 裝: (請先閲讀背面之注意事項再填寫本頁) -、τ % 經濟部智慧財產局員工消費合作社印製 第31頁 本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公釐)
TW090132957A 2001-01-31 2001-12-28 Disambiguation language model TW546631B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/773,242 US6934683B2 (en) 2001-01-31 2001-01-31 Disambiguation language model

Publications (1)

Publication Number Publication Date
TW546631B true TW546631B (en) 2003-08-11

Family

ID=25097632

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090132957A TW546631B (en) 2001-01-31 2001-12-28 Disambiguation language model

Country Status (3)

Country Link
US (2) US6934683B2 (zh)
JP (1) JP2002287787A (zh)
TW (1) TW546631B (zh)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US20020169597A1 (en) * 2001-03-12 2002-11-14 Fain Systems, Inc. Method and apparatus providing computer understanding and instructions from natural language
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
EP1554864B1 (en) * 2002-10-16 2012-11-21 Nuance Communications, Inc. Directory assistant method and apparatus
US7392182B2 (en) * 2002-12-18 2008-06-24 Harman International Industries, Inc. Speech recognition system
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
EP1733382A2 (en) * 2004-03-09 2006-12-20 Ashwin Rao System and method for computer recognition and interpretation of arbitrary spoken-characters
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7606708B2 (en) * 2005-02-01 2009-10-20 Samsung Electronics Co., Ltd. Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition
US20070180384A1 (en) * 2005-02-23 2007-08-02 Demetrio Aiello Method for selecting a list item and information or entertainment system, especially for motor vehicles
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US9165039B2 (en) * 2005-11-29 2015-10-20 Kang Jo Mgmt, Limited Liability Company Methods and systems for providing personalized contextual search results
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8346555B2 (en) 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8374862B2 (en) * 2006-08-30 2013-02-12 Research In Motion Limited Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US20080133243A1 (en) * 2006-12-01 2008-06-05 Chin Chuan Lin Portable device using speech recognition for searching festivals and the method thereof
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
US9071729B2 (en) 2007-01-09 2015-06-30 Cox Communications, Inc. Providing user communication
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US8789102B2 (en) 2007-01-23 2014-07-22 Cox Communications, Inc. Providing a customized user interface
US8806532B2 (en) 2007-01-23 2014-08-12 Cox Communications, Inc. Providing a user interface
US9135334B2 (en) 2007-01-23 2015-09-15 Cox Communications, Inc. Providing a social network
US8869191B2 (en) 2007-01-23 2014-10-21 Cox Communications, Inc. Providing a media guide including parental information
US8418204B2 (en) 2007-01-23 2013-04-09 Cox Communications, Inc. Providing a video user interface
US8175248B2 (en) * 2007-01-29 2012-05-08 Nuance Communications, Inc. Method and an apparatus to disambiguate requests
US8271003B1 (en) 2007-03-23 2012-09-18 Smith Micro Software, Inc Displaying visual representation of voice messages
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US7912503B2 (en) * 2007-07-16 2011-03-22 Microsoft Corporation Smart interface system for mobile communications devices
US8165633B2 (en) * 2007-07-16 2012-04-24 Microsoft Corporation Passive interface and software configuration for portable devices
US8086441B1 (en) * 2007-07-27 2011-12-27 Sonicwall, Inc. Efficient string search
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP5137588B2 (ja) * 2008-01-09 2013-02-06 三菱電機株式会社 言語モデル生成装置及び音声認識装置
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US9460708B2 (en) 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US8364487B2 (en) * 2008-10-21 2013-01-29 Microsoft Corporation Speech recognition system with display information
KR101537078B1 (ko) * 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
US8973049B2 (en) * 2009-12-04 2015-03-03 Cox Communications, Inc. Content recommendations
US8832749B2 (en) 2010-02-12 2014-09-09 Cox Communications, Inc. Personalizing TV content
US8364013B2 (en) 2010-08-26 2013-01-29 Cox Communications, Inc. Content bookmarking
US9167302B2 (en) 2010-08-26 2015-10-20 Cox Communications, Inc. Playlist bookmarking
US8789117B2 (en) 2010-08-26 2014-07-22 Cox Communications, Inc. Content library
US8239366B2 (en) * 2010-09-08 2012-08-07 Nuance Communications, Inc. Method and apparatus for processing spoken search queries
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US10658074B1 (en) 2011-04-11 2020-05-19 Zeus Data Solutions, Inc. Medical transcription with dynamic language models
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US9218339B2 (en) * 2011-11-29 2015-12-22 Educational Testing Service Computer-implemented systems and methods for content scoring of spoken responses
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US9128915B2 (en) * 2012-08-03 2015-09-08 Oracle International Corporation System and method for utilizing multiple encodings to identify similar language characters
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6828741B2 (ja) * 2016-05-16 2021-02-10 ソニー株式会社 情報処理装置
CN107422872B (zh) * 2016-05-24 2021-11-30 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US20180210872A1 (en) * 2017-01-23 2018-07-26 Microsoft Technology Licensing, Llc Input System Having a Communication Model
US10664656B2 (en) * 2018-06-20 2020-05-26 Vade Secure Inc. Methods, devices and systems for data augmentation to improve fraud detection

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
CN1120436C (zh) * 1997-09-19 2003-09-03 国际商业机器公司 用于识别孤立、非相关汉字的语音识别方法和系统
JP2001517815A (ja) * 1997-09-24 2001-10-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語認識上の類似発声識別方法及び装置
JPH11167393A (ja) * 1997-12-04 1999-06-22 Hitachi Eng & Service Co Ltd 音声認識装置および音声認識装置用辞書
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
GB2353887B (en) * 1999-09-04 2003-09-24 Ibm Speech recognition system
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors

Also Published As

Publication number Publication date
US7251600B2 (en) 2007-07-31
US20050171761A1 (en) 2005-08-04
US6934683B2 (en) 2005-08-23
US20020128831A1 (en) 2002-09-12
JP2002287787A (ja) 2002-10-04

Similar Documents

Publication Publication Date Title
TW546631B (en) Disambiguation language model
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
US8180640B2 (en) Grapheme-to-phoneme conversion using acoustic data
JP4818683B2 (ja) 言語モデルを作成する方法
US9978364B2 (en) Pronunciation accuracy in speech recognition
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
Anumanchipalli et al. Development of Indian language speech databases for large vocabulary speech recognition systems
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US6449589B1 (en) Elimination of left recursion from context-free grammars
Menacer et al. An enhanced automatic speech recognition system for Arabic
JP2003186494A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
Celin et al. A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Mohanty et al. Speaker identification using SVM during Oriya speech recognition
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
Nga et al. A Survey of Vietnamese Automatic Speech Recognition
JP2012255867A (ja) 音声認識装置
Veisi et al. Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees