TW462037B - Context dependent phoneme networks for encoding speech information - Google Patents

Context dependent phoneme networks for encoding speech information Download PDF

Info

Publication number
TW462037B
TW462037B TW087119918A TW87119918A TW462037B TW 462037 B TW462037 B TW 462037B TW 087119918 A TW087119918 A TW 087119918A TW 87119918 A TW87119918 A TW 87119918A TW 462037 B TW462037 B TW 462037B
Authority
TW
Taiwan
Prior art keywords
network
phoneme
application
context
vocabulary
Prior art date
Application number
TW087119918A
Other languages
English (en)
Inventor
Sreeram Balakrishnan
Stephen Austin
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Application granted granted Critical
Publication of TW462037B publication Critical patent/TW462037B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

4 6 203 7 五、發明說明(1) 1、 發明之領域 本發明通常係有關於電腦語音辨認。 2、 發明之背景 最近在電腦硬體和軟體之進步係已允許電腦語音辨認 (CSR )來跨越使闬上之限制界線。現在做為可有用於高 價位個人電腦之系統係可使用做為大量字彙、及連續語音 檢測。為了得到適當之操作性,此些系統係必需適應特定 使用者之聲音和使用環境3而且,此些系統係只能辨認從 某些字彙中抽出之單字並且經常被結合成特別之語言模 型,其係以捕捉不同之連續單字之相對機率。若無此些限 制,則係很難從CSR系統得到適當之操作性。 在大部分之CSR系統中,使用者和環境指定部分、或聲 音模型係經常被分開成字彙和語言模型。無論如何,因為 上述之限制,需要語音辨認之任何應周係必需對使用者/ 環境之指定之聲音模型與應用之指定之字彙和語言模型兩 者加以存取。 主要之障礙係對於許多不同之使周者需要存取各種不同 之應用之系統、可能以相互平行並且經常是在網際網路或 區域網路(LAN')上,要使CSR系統移動超越獨立檢測。理 由為:(a )每一應用將必需對每一使用者/環境保持分開 之聲音模型;或(b )每一使闬者係將需要為他們所希望 使用之每一應用予以維護不同組之字彙和語言模型。因為 聲音和語言模型之大小係針對一從中等至大型字彙之應闬 而言典型上皆需從數百萬位元到數千萬位元之等級,因此
苐4頁 4 6203 7 五、發明說明(2) 在情境(a )或(b )中1系統之資源均係很容易地被即克 月艮。 一種可能係可將在不同引擎上之聲音模型予以儲存至字 彙和語言模型,並且以經由區域網路(LAN )或網際網路 予以連結引擎。無論如何,巨大數量之網路交通係可被產 生來將數百萬資料之資料移至目標辨認器。 如此,存在於CSR系統上之需求係與應甩之字彙和語言 模型為無關而可不用犧牲相關於最後辨認精確度之操作 性。 3、 圖式之簡單說明 現在僅籍由例子來敘述本發明之理想實施例,並參考附 隨之圖式1其為: 圖1係敘述簡單之音素網路; 圖2係根據本發明之理想實施例來敘述等於圖1之三音網 路; 圖3係根據本發明之理想實施例來敘述做為圖2之三音網 路之編碼 > 圖4係根據本發明之理想實施例之整個系統之通常方塊 圖; 圖5係根據本發明之理想實施例之整個系統之詳細方塊 圖;及 圖6係根據本發明之理想實施例之圖5之詳細方境圖。 4、 較佳實施例之詳細說明 上下文相關音素網路(C D音素網路)係對以上之技銜思
苐5頁 4 6203 7 五、發明說明(3) 想上之問題提供一個解決之道。而·^以產生C D音素網路做 為編碼語音資訊之中間的步騍之方法和裝置係被敘述於 此。CD音素網路係導源於將語音辨認分成兩部分:係為使 用者之客戶與可連續地傾聽和編碼使周者之語音以做為CD 音素網路之特定環境;及可使周此些CD音素網路連同應用 之特定的字彙和語言模型來操作最後之辨認之一套應用。 C D音素網路係提供一方法可用來編碼從與第一次(即, 目標)應用之字彙和語言模型為無關之客戶之翰出:譬如 為可使用不需對起初被使用來產生CD音素網路之使闬者/ 環境音之特定之響模型做存取之此些CD音素網路之應用。 重要的是,不像簡單之音素網路,C D音素網路係以一可不 犧牲最後之以辨認精確度來看之操作性;及甚至可加強操 作性之方式來編碼語音貫訊。 有關於在此所提議之硬體,需要使闻者之知識及環境之 辨認方面係產生在使闬者所在地點。因而從使用者之對於 任何應用欲使自己所接受之投資達到槓桿作闬之看法,此 係具有有利之點。而從應罔發展者之觀點1此係免除了必 需維護使同者特定模型之頭痛問題,並能證明對於具有好 幾千個使用者之網際網路服務之提供者而言為非常有吸引 力。更進而,需要對較大語言模型和字彙做存取之辨認方 面,其結杲是硬碟空間之大容量,係產生在集中化之應 闬,因此,集中化應用之語言模型和字彙係以不需要下載 大的資料檔案即能自動地成為可應用。 在詳細地敛述CD音素網路之前,先將簡單之音素網珞敘
第6頁 4 6203 7 五、發明說明(4) 述為用倣語音辨認之中間階段係為有闬的。如圖1之所 示,音素網路係包含一組節點1、2、3及4 ;弧1 0、1 2、 Μ、1 6、1 8及1 9 °節點1、2、3及4係表示可能之音素之開 始和結束時間。而以11從節點” 2 來鏈結"至節點"3之弧 1 0、1 2、1 4、1 6、1 8及1 9,係以在時間上對應於"從"和" 至"之節點來表示特別音素之開始和結束。而關聯至每一 弧1 0、1 2、I 4、1 6、1 8及丨9係音素之點數2 Q或可能性。 簡單之音素網路之主要不完善之處和其為什麼未能使用 成在大多數語音辨認之中間階段係弧20和22為上下文無 關。換言之,在節點2 (t = 1 0 )與3 (t二3 5 )間之點數 2 2係無關於弧為被當成到達節點2或弧為從節點3取得。而 C D音素網路係以使弧之點數為與上下文相關來加以改正。 而弧之上下文係可被分成:”從上下文π ,係以被當成到達 "從節點11之路徑來決定;及"至上下文"係以被取自"至節 點11後之路徑來決定。 在更精巧之語音辨認網路中,Μ從"和"至"上下文係影響 關聯於特殊之弧的音素之點數。而上下文被使用之方式係 隨著系統的複雜程度而變化。在無上下文被使周之所在的 簡單之音素網路係位在頻譜之一端。在一個三音之網路 中,例如,當"至上下文11係關聯於取自11至節點"之第一弧 之音素時,"從上下文"係關聯於被當成到達”從節點"之最 後之弧的音素。甚至在更複雜之系統中,諸如五音網路, "從"和11至"上下文係包含被當成到達η從節點11和"至節點" 之路徑之最後兩個和最先兩個狐3
苐_7頁 4 6203 7 五、發明說明¢5) 為了確定一個弧之"從”和"至"上下文係符合關聯於弧之 點數的11從"和"至κ上下文,弧之n從"和N至"節點係也需要 被分開。而圖2係做為相等於圖1所示之簡單之音素網路之 三音之特定例子之此種分開之說明。在圖2之情形,節點 已被分開以便於進入任意節點(即,節點3a )之弧24和26 兩個係具有相同之音素標記(即,A Η ),並且來自任意節 點(即,節點3a )之弧28和30係具有相同之音素標記 (即,K )=而因為"從π和"至"音素上下文係應可唯一地 被指定,所以弧點數3 2和34係現在即可表示三音點數。例 如,在連結節點2 b至節點3 d之孤3 8之點數3 6係以Τ Η之左邊 上下文和G之右邊上下文來表示三音點數。 圖3係說明做為圖2中所示之三音網路之編碼。圖3係包 含關聯於時間之一串節點。對於每個節點,則具有包含源 自於那特殊之節點之所有的弧之一子串弧。關聯於每一弧 係音素標記、三音.點數及"至節點11 。因為三音網路係具有 使屬於每一弧之三音點數,所以它們可服務做輸入至任意 之縱橫字謎語音辨認器。然後音素網路產生器係可對具有 被給特殊之字彙和語言模型之最.佳點數之路徑來搜尋三音 網路。音素網路產生器並不需要具有任意使用者或環境特 定聲音模型或甚至可對原來語音做存取。所有需要用來解 碼在語音訊號中之單字之所有資訊係其本身被捕捉在三音 網路中。 參考圖4和圖5,根據本發明之理想實施例,此處所敘述 之資料記錄媒體40係在其上已經儲存指令和資料 > 當載入
462037 五、發明說明(6) 具有操作系統44之至少第一通闬目的微處理器42時,係引 起至少第一通罔目的微處理器42予以執行罔以產生CD音素 網路做為編碼語音資訊之中間步驟之方法。理想的是,第 一通用目的微處理器42係包含具有音素網路產生器48 (理 想為CD音素網路產生器)之操作系統44之第一部分46 ;及 具有至少第一應用52之操作系統44之第二部分50。 音素網路產生器4 8和第一應用5 2係與操作系統44並無相 關且為動態連結庫之工具。操作系統4 4之第一和第二部分 4 6和5 0,係也可形成在一單獨通用目的微處理器或另一電 腦上之單位搡作系統。另外,操作系統44之第二部分50係 可被儲存在第二通周目的微處理器72上,而與第一部分4 6 和第一通3目的微處理器4 2 .分開。 當操作系統44之第二部分50係分別至少具有第一和第二 應用5 2和5 8,而兩個應用5 2和5 8之每一個係分別可具有不 同之字彙6 0和6 2 ;及語言模型6 4和6 6。另外,第一和第二 隔 σ 土遂 ο 以 7 上 型可 模置 位 語之 通此 共彼 和係 8 2 6 L3 彙用 字應 通 一 共第 有和 享 8 4 tS;; 器 八刀生 係產 8 各 5 為 和網 2 素 5 r 周立日 應 連統 以 \糸 並作 離操 分’ on P ΚΓίΓΛ 地 c 5 士0 4 4 統 結系 連作 路操 罔座、 么'··玉\ 或地 結隔 丄-羞 、1、工 線可 無係 為6 ,分 接部 連 一 相第 之 係立日 8 , 4 器路 生網 產素 路音 周 D C 素一 立日之 , 4 5 上出 作輸 操之 在路 ο網 N)y-#-'小 離音 VC; D ^ C 相義 ο 定 5 / 分可 部有 二具 第生 之 > 座 對產 麦 各 以網 Λ丄京 做音 存收 儲接 被於 可合 上適 式係 各 2 5 在用 係應 4 1 5 一 出第 輸。 之入。 8 命 4 4. έτ5 器之出 生02翰 產用之 路應48 網一器 素第生 ii
ϋ
4 6 203 7 五、發明說明¢7) 參考圖6,音素網路產生器4 8係詳細地予以顯示具有: 微音器74,係連接至可輪流地連接至操作系統44之第一部 分46之輸入之類比數位轉換器74。具有音素之文字80之資 料記錄媒體40係也被連接至操作系統44之第一部分46之輸
入 J 操作系統44之第一部分46係與使闬者和環境特定聲音模 型為相關。操作系统44之第一部分46係包含很多以軟體形 成之元件。此些係含有:特色抽取元件7 6,係具有輸入和 輸出;及維特比(V 11 e r b 1 )解瑪器7 8 >係具有連接至特 色柚取元件76之輸出之輸入並具有連接至第二部分50之輸 入。另外,元件78 (維特比解碼器)係也是鮑姆-威爾斯 (Baum-Welsh )所建立之解碼器或元件60和62 (分別是特 色抽取和維特比解碼器)係也可以神經網路所建立之解碼 器來加以結合益替代。 操作系統44之第二部分50係與可獨立地選擇自操作系統 44之第一部分46之第一應闬為相關。操作系統44之第二部 分5 0係包含具有被耦合至維特比解碼器7 8之輸出8 2、8 4及 8 6之翰入之第一應闬5 2 =维特比解碼器7 8之輸出8 2 .、8 4及 86係分別為音素標記、點數和”從"節點至”節點對,它 們係定義CD音素網路之弧。第一應闬5 2係被耦合至字彙6 0 和語言模型6 4。電腦程式之形式之圖形使用者介面8 8係設 置成具有連接至第一應用52之輸入及具有耦合至顯示器90 之輸出。 在操作上,操作系統44之第一部分46係產生CD音素罔路
第10頁 462037 五、 發明說明(8) 罔 來 捕 捉使用 者 和 環 境特定 聲 音 悮 型 。 因 此 j 操 作系统4 4 之 第 — 部分4 6 係 以 可 連續地 適 應 於 使同 者 之 語 音 、環境及 〇〇 a 使 用之使 者 和 環境特 定 聲 音 模型 之 助 而 將粗糙之 語 音 轉 換至CD 音 素 網 路。模 型 係 可 在個 人 電 腦 上 、蜂巢式 無 線 電 話、呼 叫 οσ 或 任何其 他 合 適 之硬 體 配 置 件 上運轉。 操 作 系 統44之 第 一 部 分46係 從 語 音 訊號 來 抽 取 語 音辨認所 要 求 之 需要的 資 訊 > 將在字 彙 語 合模 型 、 及 使 闬者和環 境 無 相 關之格 式 之 需 要的資 訊 予 以 封包 並 予 以 傳 送需要的 =欠 貝 訊 至 操作系 統4 4 之 第二部 分5 0 Ό 然 後操作系 統44 之 第二部 分5 0 係 使用 合 適 之 搜 尋引擎裝 置 從CD 音素網 路 來 抽 取相關 於 使 第一 應. 闬 52 之 字彙6 0和 語 言 模 型64之 第 一 應 用52之 需 求 之 資訊 以 便 於 賴 取候選人 辨 認 之 結果並 傳 遞 候 選人辨 認 之 結 果至 第 一 應 用 5 2。此種 搜 尋 引 擎裝置 之 變 化 係可將 其 涵 蓋 範圍 想 像 為 從 偵測裝 置 形 成檔案 裝 置 SQL詢問裝置乃至於_ ;然Ί· 1 1 Γ詢問裝 置 〇 理 想 地,在 第 一 搜 尋引擎 中 堂 試 辨認 ( 即 1 操 作系統44 之 第 二 部分5 0 ) 之 後 ,而在 第 一 搜 尋引 擎 中 一 有 不滿意之 辨 認 ,CD音素 網 路 係 向前往 第 — 引 擎 100。 ;- 二引擎100係 接 連 ±th 揭取候 人 之 辨識結 不 並 傳 遞候 人 之 辨 識結果至 第 -—- 應 用52 ° 將 音 素 網路從 第 一 引 擎傳 送 至 第 二 搜尋引擎 之 執 行 以達到 正 確 率 之可信 水 .'ft 平 3 係可 將 其 加 以 延伸至任 音 數 目 之搜尋 引 擎 〇 分j 士 CJ , 假 若 目 前之 搜 尋 引 擎 之可信水 準 尚 未 超過預 定 之 臨 限,則 操 作 糸 統44 之 第 —- 部 分5 (3係可
第11頁 462037 五、發明說明(9) 建立來將CD音素網路傳送至一接連搜尋引擎=踭CD音素網 路從一搜尋引擎傳送至另一個係會繼續發生直至搜尋引擎 可產生超過相對於正確率之可信水準之預定之臨限之候選 人辨認結果。此外1操作系統4 4之第二部分係可同時地將 CD音素網路送至至少兩個搜尋引擎。至少兩個搜尋引擎之 正確率之可信水準係被比較且具有正確率之最高可信水準 係被選擇來操作第一應用5 2。 以適切的搜尋引擎裝置來結合適當之字彙和語言模型, 則發展者係可快速地語音化成為其應用=許多語言係可活 動成如膠般地闬來將裝置結合在一起,其係包含視窗培基 語言和超文件置標語言(HTML )。在HTML之情形裏,假若 裝置係設計做超文件鏈結、下拉選單、結合框及内文登錄 欄 > 則很容易即了解到幾乎任何之網頁係可使語音化。 根據本發明之理想的具體例之此項趨近,係可以比起三 音網路為多或少之上下文來延伸至網路。即將改變之所有 係為需要來確定對於每一弧之正確的"從和''至"上下文之 節點分開之程度。音素網路產生器4 8本身係不需要知道用 來決定每一弧點數之上下文之真正特性,因為闼路本身係 將加強可導引具有適於做為弧點數之上下文之"從"和〃至” 一狐之路徑之限制。
第12頁 462037 五、發明說明(ίο) 相應 文 下的 上數 之複 ¾或 模C 言 一 語第 和作 彙操 字於 之便 用以 應訊 }資 的的 數要 複需 或所 一網 第素 罔音 用 提 含 包 係 法 方 之 訊 資 音 吾 ν-ίρ 碼 編 為 做 之 靣 方1 另 之 明 發 係分 分部 部二 一 第 第之 之統 統系 系作 作操 操而 ’型 中模 其音 .聲 統定 系特 作境 操環 之和 分者 部周 兩使 有於 含關 供相
來 一取 第抽 之係 來分 分部 部二 一 第 第之 之統 統系 系作 作操 操’ 從中 擇其 選 ί 地用 立應 獨3 可的 於數 關複 相或 係C 文 下 上 之 型 模 言 語 和 彙 字 之 用。 應訊 3資 的的 數要 複需 或所 路 一網 闬音 使關 自相 翰素 包之音 係路收 置網接 裝素於 之音適 訊關及 資相; 音文器 語下生 碼上產 編義路 為定網 做可素 之有立日 面具之 方生路 一產網 另;關 有統相 尚系文 之作下 明操上 發:之 含出 使實 自的 來要 取需 抽所 並之 闬型 應模 十-口 的語 數和 複彙 或字 ί 之 1 用 第應 之 出的 翰數 之複 器或 生( 產一 路第 網用 第 和 器 生 產 路。 網聯 素關 音無 ,並 中統 其系 ,作 訊操 與 係 周 應 的 數 複 或 第 於 對 成 存 儲 被 可 上 式 。 格用 在應 係之 出後 翰以 之之 器闬 生應 產} 路的 網數 素複 音或 地 隔 遠被 可 係 闬 應 \—y 的 數。 複結 或連 C路一 罔 一 :一'· 第或 和結 器連 生線 產無 路以 網並-τ^1 立日離 分 明有本 發之, 當上用 加運 係
JnJ-4Γ X-K 7力7 闬點明 所所所 ,士在 述人制 欽之限 以藝被 加技便 來此此 地習因 般熟不 結為並 連會 -相就 例地 施快 實很 之係 定正 特修 與和 ^一5 而 面 方 廣 寬 其 在 P— ϋ life n
苐13頁 •4 6 203 7 五、發明說明(11) 示並敘述之指定之細節、代表之裝置及說明例上。不同之 更改、修正及變化係對於熟習前面敘述所啟發出之技藝之 人士而言為顯而易見的。而且,應可了解到本發明並不被 限制在前面所述,除了在根據所附上之申請專利範圍之精 神和觀點所做之所有如此之更改、修正及變化之外。
第14頁

Claims (1)

  1. 4 6203 以,多正桌號?mi g捕充 月 修正 \、申請專利範圍 1 、一種編碼語音資訊之方法,包含 使用適於使用者之聲音之聲音模型 中之語音在本地使用者位置產生上下文 作為語音辨認之中間步驟,其中 表以節點及狐表示之語音輸入, 表示之開始及結束時間之音素點 入以弧及節點表示,俾使語音輸 言模型,使用者及環境無關之中 將上下文相關音素網路傳輸 用者之應用程式,以致使遠端應用程式 選擇之字彙或語言模型在每一應用程式 使本地使用者位置不須執行語音辨認。 2、 如申請專利範圍第1項之方法,其 網路係與字彙和語言模型為無關。 3、 如申請專利範圍第1項之方 從音素 相關音 上下文相關音 每一孤代表一 網路產生器 素網路,以 素網路係代 具有以節點 致使語音輸 與字彙,語 數,音素網路 入被封裝成一 間格式;及 至一或多個遠離於本地使 使用一由應用程式 執行語音辨認,俾 法,更 在一第一應用上予以擷取需要來自使 和語言模型之上下文相關音素網路之資 應用。 4、一種編碼語音資訊之方法,包含 提供包含兩部分之操作系統,其中操 係與可連續適應於使用者之聲音之使用 音模型為相關;及操作系統之第二部分 統之第一部分無關地選擇之第一應用, 二部分係擷取從使用第一應用之字彙和 中上下文相關音素 包含= 用第一應用之字彙 訊以便於操作第一 作系統之第一部分 者和環境之特定聲 係相關於從操作系 其中操作系統之第 語言模型所需要之
    O:\56\56084.ptc 第1頁 2001.03.29.016 4 6203 案號 87119918 气· 3Ω0修正 懸 修正 六、申請專利範圍 資訊。 5、 如申請專利範圍第4項之方 部分係產生上下文相關音素網路 境之特定聲音模型並傳輸上下文 之第二部分。 6、 如申請專利範圍第4項之方 中第一應用和第二應用係包含不 型。 7、 如申請專利範圍第4項之方 用,其中第一應用和第二應用分 言模型。 8、 一種編碼語音資訊之方法 藉由使用者和環境之特定聲音 助而轉換語音至上下文相關音素 基於使用者和環境之特定聲音 續地接收上下文相關音素網路; 由語音訊號予以擷取做為語音 封裝在字彙、語言模型、及使 9、 一種編碼語音資訊之裝置, 操作系統; 產生具有定義上下文相關音素 下文相關音素網路音素網路之音 適於接收音素網路產生器之輸 一應用之字彙和語言模型之輸出 法,其中操作 ,以便於捕捉 相關音素網路 法,更包含第 同之字彙和不 法,更進而包 享共同之字彙 包含: 模型和音素語 網路; 模型和音素語 辨認之所需要 用者和環境之 係包含: 網路音素網路 素網路產生器 出之第一應用 予以擷取所需 系統之第一 使用者和環 至操作系統 二應用,其 同之語言模 含第二應 和共同之語 言模型之輔 言模型而連 之資訊;及 獨立格式。 之輸出之上 ;及 並從使用第 之資訊,其
    O:\56\56084.ptc 第2頁 2001.03. 29.017 462037 案號 8Ή19918 六、申請專利範圍 中音素網路產生器和 1 0、一種電腦可讀 料,被載入具有操作 處理器具有一作業系 用者位 文相關 在本地使 出之上下 相關音素網路致 之輸 下文 其中每一弧代表一具 點數,俾使語音輸入 適於接收音素網 使用者位置之應用程 和語言模型之輸出以 用者位置擷取資訊, 與操作系統無關* 1 1、如申請專利範 記錄媒體係包含具有 部分及具有存在其上 12、一種方法,包 產生上下文相關音 驟; 在第一搜尋引擎中 在第一搜尋引擎中 網路前進至第二搜尋 從第二搜尋引擎擷 V月3?修正 ΟΌ 第— 取之 系統 統以 置產 音素 使語 有以 被封 路產 式, 擷取 音素 應用 資料 之第 使第 生具 網路 音輸 節點 裝成 生器 並從 所需 網路 曰 修正 係與操 記錄媒 一通用 一通用 有定義 之音素 入以節 表示開 一中間 之輸出 使用複 之資訊 產生器 作系統無 體,包含 目的微處 目的微處 上下文相 網路產生 點及31之 始及結束 格式;及 之複數個 數個應用 ,俾使不 和複數個 關β 指令和資 理器,該微 理器包含: 關音素網路 器,其中上 形式表示, 時間之音素 遠離於本地 程式之字彙 須自本地使 應用程式係 記錄媒體,其t資料 素網路產生器之第一 第二部分。 圍第1 0項之資料 儲存在其上之音 之複數個應用之 含: 素網路以做為編碼語音資訊之中間步 嘗試辨認; 辨認不滿意之下,使上下文相關音素 引擎;及 取候選者之辨認結果。
    O:\56\56084.ptc 第3頁 2001.03.29.018
TW087119918A 1997-12-01 1998-12-01 Context dependent phoneme networks for encoding speech information TW462037B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/980,954 US6182038B1 (en) 1997-12-01 1997-12-01 Context dependent phoneme networks for encoding speech information

Publications (1)

Publication Number Publication Date
TW462037B true TW462037B (en) 2001-11-01

Family

ID=25527992

Family Applications (1)

Application Number Title Priority Date Filing Date
TW087119918A TW462037B (en) 1997-12-01 1998-12-01 Context dependent phoneme networks for encoding speech information

Country Status (9)

Country Link
US (1) US6182038B1 (zh)
EP (1) EP0954856B1 (zh)
AT (1) ATE237176T1 (zh)
AU (1) AU1465099A (zh)
DE (1) DE69813180T2 (zh)
FR (1) FR2773413B1 (zh)
GB (1) GB2331826B (zh)
TW (1) TW462037B (zh)
WO (1) WO1999028899A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE254328T1 (de) * 1998-03-09 2003-11-15 Lernout & Hauspie Speechprod Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US20020087313A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent speech model partitioning method and system
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7697673B2 (en) * 2003-11-17 2010-04-13 Apptera Inc. System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system
US20050163136A1 (en) * 2003-11-17 2005-07-28 Leo Chiu Multi-tenant self-service VXML portal
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
KR100901640B1 (ko) 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CA2839265A1 (en) * 2011-06-19 2012-12-27 Mmodal Ip Llc Speech recognition using context-aware recognition models
EP2721606A4 (en) 2011-06-19 2015-04-01 Mmodal Ip Llc DOCUMENT EXTENSION IN A DICTIONARY BASED DOCUMENT GENERATION WORKFLOW
HK1158011A2 (en) * 2012-02-03 2012-06-22 Gilkron Ltd An online procurement system for the provision of intellectually oriented services
WO2014028529A2 (en) 2012-08-13 2014-02-20 Mmodal Ip Llc Maintaining a discrete data representation that corresponds to information contained in free-form text
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
WO2015174061A1 (ja) * 2014-05-15 2015-11-19 日本電気株式会社 検索装置、方法、およびプログラムの記録媒体
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9721564B2 (en) 2014-07-31 2017-08-01 Rovi Guides, Inc. Systems and methods for performing ASR in the presence of heterographs
US9830321B2 (en) 2014-09-30 2017-11-28 Rovi Guides, Inc. Systems and methods for searching for a media asset
WO2016082133A1 (en) * 2014-11-26 2016-06-02 GM Global Technology Operations LLC Continuously variable transmission
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB224023A (en) 1923-08-23 1924-11-06 William Forber Improvements in surface finishing tools for white metal or the like
GB8908205D0 (en) 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
US5497319A (en) 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5651096A (en) 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system
US5754671A (en) 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management
DE69700472T2 (de) * 1996-05-03 2000-07-13 British Telecomm Automatische spracherkennung
US5867817A (en) 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer

Also Published As

Publication number Publication date
DE69813180T2 (de) 2003-10-23
GB2331826B (en) 2001-12-19
US6182038B1 (en) 2001-01-30
DE69813180D1 (de) 2003-05-15
EP0954856A1 (en) 1999-11-10
AU1465099A (en) 1999-06-16
EP0954856B1 (en) 2003-04-09
ATE237176T1 (de) 2003-04-15
FR2773413B1 (fr) 2000-05-19
FR2773413A1 (fr) 1999-07-09
GB2331826A (en) 1999-06-02
WO1999028899A1 (en) 1999-06-10
GB9826231D0 (en) 1999-01-20

Similar Documents

Publication Publication Date Title
TW462037B (en) Context dependent phoneme networks for encoding speech information
US11564090B1 (en) Audio verification
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
JP5149737B2 (ja) 自動会話システム、並びに会話シナリオ編集装置
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN108520741A (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
JP2020034895A (ja) 応答方法及び装置
KR20160030168A (ko) 음성 인식 방법, 장치 및 시스템
EP4030421A1 (en) Method for converting voice feature of voice
US11721324B2 (en) Providing high quality speech recognition
KR102147619B1 (ko) 전화 통화를 관리하는 방법 및 이러한 방법을 실행하는 인공지능 비서 시스템
Burke Speech processing for ip networks: Media resource control protocol (MRCP)
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
Lee et al. Voice access of global information for broad-band wireless: technologies of today and challenges of tomorrow
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning
Paul et al. A Continuous Speech Recognition System for Bangla Language
CN112487153B (zh) 歌词内容生成方法及其相应的装置、设备、介质
US20230026945A1 (en) Virtual Conversational Agent
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
US20230317057A1 (en) Assigning ssml tags to an audio corpus
Rekik et al. Visually Impaired Assistance with Arabic Speech Recognition on GPS
Thirion et al. The South African directory enquiries (SADE) name corpus
KR101002135B1 (ko) 음절 음성인식기의 음성인식결과 전달 방법

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees