TW462037B

TW462037B - Context dependent phoneme networks for encoding speech information

Info

Publication number: TW462037B
Application number: TW087119918A
Authority: TW
Inventors: Sreeram Balakrishnan; Stephen Austin
Original assignee: Motorola Inc
Priority date: 1997-12-01
Filing date: 1998-12-01
Publication date: 2001-11-01
Also published as: DE69813180T2; GB2331826B; US6182038B1; DE69813180D1; EP0954856A1; AU1465099A; EP0954856B1; ATE237176T1; FR2773413B1; FR2773413A1; GB2331826A; WO1999028899A1; GB9826231D0

Description

4 6 203 7 五、發明說明（1) 1、發明之領域本發明通常係有關於電腦語音辨認。 2、發明之背景最近在電腦硬體和軟體之進步係已允許電腦語音辨認 (CSR )來跨越使闬上之限制界線。現在做為可有用於高價位個人電腦之系統係可使用做為大量字彙、及連續語音檢測。為了得到適當之操作性，此些系統係必需適應特定使用者之聲音和使用環境3而且，此些系統係只能辨認從某些字彙中抽出之單字並且經常被結合成特別之語言模型，其係以捕捉不同之連續單字之相對機率。若無此些限制，則係很難從CSR系統得到適當之操作性。在大部分之CSR系統中，使用者和環境指定部分、或聲音模型係經常被分開成字彙和語言模型。無論如何，因為上述之限制，需要語音辨認之任何應周係必需對使用者/ 環境之指定之聲音模型與應用之指定之字彙和語言模型兩者加以存取。主要之障礙係對於許多不同之使周者需要存取各種不同之應用之系統、可能以相互平行並且經常是在網際網路或區域網路（LAN')上，要使CSR系統移動超越獨立檢測。理由為：(a )每一應用將必需對每一使用者/環境保持分開之聲音模型；或（b )每一使闬者係將需要為他們所希望使用之每一應用予以維護不同組之字彙和語言模型。因為聲音和語言模型之大小係針對一從中等至大型字彙之應闬而言典型上皆需從數百萬位元到數千萬位元之等級，因此

苐4頁 4 6203 7 五、發明說明（2) 在情境（a )或（b )中1系統之資源均係很容易地被即克月艮。一種可能係可將在不同引擎上之聲音模型予以儲存至字彙和語言模型，並且以經由區域網路（LAN )或網際網路予以連結引擎。無論如何，巨大數量之網路交通係可被產生來將數百萬資料之資料移至目標辨認器。如此，存在於CSR系統上之需求係與應甩之字彙和語言模型為無關而可不用犧牲相關於最後辨認精確度之操作性。 3、圖式之簡單說明現在僅籍由例子來敘述本發明之理想實施例，並參考附隨之圖式1其為：圖1係敘述簡單之音素網路；圖2係根據本發明之理想實施例來敘述等於圖1之三音網路；圖3係根據本發明之理想實施例來敘述做為圖2之三音網路之編碼 > 圖4係根據本發明之理想實施例之整個系統之通常方塊圖；圖5係根據本發明之理想實施例之整個系統之詳細方塊圖；及圖6係根據本發明之理想實施例之圖5之詳細方境圖。 4、較佳實施例之詳細說明上下文相關音素網路（C D音素網路）係對以上之技銜思

苐5頁 4 6203 7 五、發明說明（3) 想上之問題提供一個解決之道。而·^以產生C D音素網路做為編碼語音資訊之中間的步騍之方法和裝置係被敘述於此。CD音素網路係導源於將語音辨認分成兩部分：係為使用者之客戶與可連續地傾聽和編碼使周者之語音以做為CD 音素網路之特定環境；及可使周此些CD音素網路連同應用之特定的字彙和語言模型來操作最後之辨認之一套應用。 C D音素網路係提供一方法可用來編碼從與第一次（即，目標）應用之字彙和語言模型為無關之客戶之翰出：譬如為可使用不需對起初被使用來產生CD音素網路之使闬者/ 環境音之特定之響模型做存取之此些CD音素網路之應用。重要的是，不像簡單之音素網路，C D音素網路係以一可不犧牲最後之以辨認精確度來看之操作性；及甚至可加強操作性之方式來編碼語音貫訊。有關於在此所提議之硬體，需要使闻者之知識及環境之辨認方面係產生在使闬者所在地點。因而從使用者之對於任何應用欲使自己所接受之投資達到槓桿作闬之看法，此係具有有利之點。而從應罔發展者之觀點1此係免除了必需維護使同者特定模型之頭痛問題，並能證明對於具有好幾千個使用者之網際網路服務之提供者而言為非常有吸引力。更進而，需要對較大語言模型和字彙做存取之辨認方面，其結杲是硬碟空間之大容量，係產生在集中化之應闬，因此，集中化應用之語言模型和字彙係以不需要下載大的資料檔案即能自動地成為可應用。在詳細地敛述CD音素網路之前，先將簡單之音素網珞敘

第6頁 4 6203 7 五、發明說明（4) 述為用倣語音辨認之中間階段係為有闬的。如圖1之所示，音素網路係包含一組節點1、2、3及4 ;弧1 0、1 2、 Μ、1 6、1 8及1 9 °節點1、2、3及4係表示可能之音素之開始和結束時間。而以11從節點” 2 來鏈結"至節點"3之弧 1 0、1 2、1 4、1 6、1 8及1 9，係以在時間上對應於"從"和" 至"之節點來表示特別音素之開始和結束。而關聯至每一弧1 0、1 2、I 4、1 6、1 8及丨9係音素之點數2 Q或可能性。簡單之音素網路之主要不完善之處和其為什麼未能使用成在大多數語音辨認之中間階段係弧20和22為上下文無關。換言之，在節點2 (t = 1 0 )與3 (t二3 5 )間之點數 2 2係無關於弧為被當成到達節點2或弧為從節點3取得。而 C D音素網路係以使弧之點數為與上下文相關來加以改正。而弧之上下文係可被分成：”從上下文π ，係以被當成到達 "從節點11之路徑來決定；及"至上下文"係以被取自"至節點11後之路徑來決定。在更精巧之語音辨認網路中，Μ從"和"至"上下文係影響關聯於特殊之弧的音素之點數。而上下文被使用之方式係隨著系統的複雜程度而變化。在無上下文被使周之所在的簡單之音素網路係位在頻譜之一端。在一個三音之網路中，例如，當"至上下文11係關聯於取自11至節點"之第一弧之音素時，"從上下文"係關聯於被當成到達”從節點"之最後之弧的音素。甚至在更複雜之系統中，諸如五音網路， "從"和11至"上下文係包含被當成到達η從節點11和"至節點" 之路徑之最後兩個和最先兩個狐3

苐_7頁 4 6203 7 五、發明說明¢5) 為了確定一個弧之"從”和"至"上下文係符合關聯於弧之點數的11從"和"至κ上下文，弧之n從"和N至"節點係也需要被分開。而圖2係做為相等於圖1所示之簡單之音素網路之三音之特定例子之此種分開之說明。在圖2之情形，節點已被分開以便於進入任意節點（即，節點3a )之弧24和26 兩個係具有相同之音素標記（即，A Η )，並且來自任意節點（即，節點3a )之弧28和30係具有相同之音素標記 (即，K )=而因為"從π和"至"音素上下文係應可唯一地被指定，所以弧點數3 2和34係現在即可表示三音點數。例如，在連結節點2 b至節點3 d之孤3 8之點數3 6係以Τ Η之左邊上下文和G之右邊上下文來表示三音點數。圖3係說明做為圖2中所示之三音網路之編碼。圖3係包含關聯於時間之一串節點。對於每個節點，則具有包含源自於那特殊之節點之所有的弧之一子串弧。關聯於每一弧係音素標記、三音.點數及"至節點11 。因為三音網路係具有使屬於每一弧之三音點數，所以它們可服務做輸入至任意之縱橫字謎語音辨認器。然後音素網路產生器係可對具有被給特殊之字彙和語言模型之最.佳點數之路徑來搜尋三音網路。音素網路產生器並不需要具有任意使用者或環境特定聲音模型或甚至可對原來語音做存取。所有需要用來解碼在語音訊號中之單字之所有資訊係其本身被捕捉在三音網路中。參考圖4和圖5，根據本發明之理想實施例，此處所敘述之資料記錄媒體40係在其上已經儲存指令和資料 > 當載入

462037 五、發明說明（6) 具有操作系統44之至少第一通闬目的微處理器42時，係引起至少第一通罔目的微處理器42予以執行罔以產生CD音素網路做為編碼語音資訊之中間步驟之方法。理想的是，第一通用目的微處理器42係包含具有音素網路產生器48 (理想為CD音素網路產生器）之操作系統44之第一部分46 ;及具有至少第一應用52之操作系統44之第二部分50。音素網路產生器4 8和第一應用5 2係與操作系統44並無相關且為動態連結庫之工具。操作系統4 4之第一和第二部分 4 6和5 0，係也可形成在一單獨通用目的微處理器或另一電腦上之單位搡作系統。另外，操作系統44之第二部分50係可被儲存在第二通周目的微處理器72上，而與第一部分4 6 和第一通3目的微處理器4 2 .分開。當操作系統44之第二部分50係分別至少具有第一和第二應用5 2和5 8，而兩個應用5 2和5 8之每一個係分別可具有不同之字彙6 0和6 2 ;及語言模型6 4和6 6。另外，第一和第二隔 σ 土遂 ο 以 7 上型可模置位語之通此共彼和係 8 2 6 L3 彙用字應通一共第有和享 8 4 tS;；器八刀生係產 8 各 5 為和網 2 素 5 r 周立日應連統以 \糸並作離操分’ on P ΚΓίΓΛ 地 c 5 士0 4 4 統結系連作路操罔座、么'··玉\ 或地結隔丄-羞、1、工線可無係為6 ,分接部連一相第之係立日 8 , 4 器路生網產素路音周 D C 素一立日之 , 4 5 上出作輸操之在路 ο網 N)y-#-'小離音 VC; D ^ C 相義 ο 定 5 / 分可部有二具第生之 > 座對產麦各以網 Λ丄京做音存收儲接被於可合上適式係各 2 5 在用係應 4 1 5 一出第輸。之入。 8 命 4 4. έτ5 器之出生02翰產用之路應48 網一器素第生 ii

ϋ

4 6 203 7 五、發明說明¢7) 參考圖6，音素網路產生器4 8係詳細地予以顯示具有：微音器74，係連接至可輪流地連接至操作系統44之第一部分46之輸入之類比數位轉換器74。具有音素之文字80之資料記錄媒體40係也被連接至操作系統44之第一部分46之輸

入 J 操作系統44之第一部分46係與使闬者和環境特定聲音模型為相關。操作系统44之第一部分46係包含很多以軟體形成之元件。此些係含有：特色抽取元件7 6，係具有輸入和輸出；及維特比（V 11 e r b 1 )解瑪器7 8 >係具有連接至特色柚取元件76之輸出之輸入並具有連接至第二部分50之輸入。另外，元件78 (維特比解碼器）係也是鮑姆-威爾斯 (Baum-Welsh )所建立之解碼器或元件60和62 (分別是特色抽取和維特比解碼器）係也可以神經網路所建立之解碼器來加以結合益替代。操作系統44之第二部分50係與可獨立地選擇自操作系統 44之第一部分46之第一應闬為相關。操作系統44之第二部分5 0係包含具有被耦合至維特比解碼器7 8之輸出8 2、8 4及 8 6之翰入之第一應闬5 2 =维特比解碼器7 8之輸出8 2 .、8 4及 86係分別為音素標記、點數和”從"節點至”節點對，它們係定義CD音素網路之弧。第一應闬5 2係被耦合至字彙6 0 和語言模型6 4。電腦程式之形式之圖形使用者介面8 8係設置成具有連接至第一應用52之輸入及具有耦合至顯示器90 之輸出。在操作上，操作系統44之第一部分46係產生CD音素罔路

第10頁 462037 五、發明說明（8) 罔來捕捉使用者和環境特定聲音悮型。因此 j 操作系统4 4 之第 — 部分4 6 係以可連續地適應於使同者之語音、環境及〇〇 a 使用之使者和環境特定聲音模型之助而將粗糙之語音轉換至CD 音素網路。模型係可在個人電腦上、蜂巢式無線電話、呼叫 οσ 或任何其他合適之硬體配置件上運轉。操作系統44之第一部分46係從語音訊號來抽取語音辨認所要求之需要的資訊 > 將在字彙語合模型、及使闬者和環境無相關之格式之需要的資訊予以封包並予以傳送需要的 =欠貝訊至操作系統4 4 之第二部分5 0 Ό 然後操作系統44 之第二部分5 0 係使用合適之搜尋引擎裝置從CD 音素網路來抽取相關於使第一應. 闬 52 之字彙6 0和語言模型64之第一應用52之需求之資訊以便於賴取候選人辨認之結果並傳遞候選人辨認之結果至第一應用 5 2。此種搜尋引擎裝置之變化係可將其涵蓋範圍想像為從偵測裝置形成檔案裝置 SQL詢問裝置乃至於_ ;然Ί· 1 1 Γ詢問裝置〇理想地，在第一搜尋引擎中堂試辨認 ( 即 1 操作系統44 之第二部分5 0 ) 之後，而在第一搜尋引擎中一有不滿意之辨認，CD音素網路係向前往第 — 引擎 100。 ;- 二引擎100係接連 ±th 揭取候人之辨識結不並傳遞候人之辨識結果至第 -—- 應用52 ° 將音素網路從第一引擎傳送至第二搜尋引擎之執行以達到正確率之可信水 .'ft 平 3 係可將其加以延伸至任音數目之搜尋引擎〇分j 士 CJ ，假若目前之搜尋引擎之可信水準尚未超過預定之臨限，則操作糸統44 之第 —- 部分5 (3係可

第11頁 462037 五、發明說明（9) 建立來將CD音素網路傳送至一接連搜尋引擎=踭CD音素網路從一搜尋引擎傳送至另一個係會繼續發生直至搜尋引擎可產生超過相對於正確率之可信水準之預定之臨限之候選人辨認結果。此外1操作系統4 4之第二部分係可同時地將 CD音素網路送至至少兩個搜尋引擎。至少兩個搜尋引擎之正確率之可信水準係被比較且具有正確率之最高可信水準係被選擇來操作第一應用5 2。以適切的搜尋引擎裝置來結合適當之字彙和語言模型，則發展者係可快速地語音化成為其應用=許多語言係可活動成如膠般地闬來將裝置結合在一起，其係包含視窗培基語言和超文件置標語言（HTML )。在HTML之情形裏，假若裝置係設計做超文件鏈結、下拉選單、結合框及内文登錄欄 > 則很容易即了解到幾乎任何之網頁係可使語音化。根據本發明之理想的具體例之此項趨近，係可以比起三音網路為多或少之上下文來延伸至網路。即將改變之所有係為需要來確定對於每一弧之正確的"從和''至"上下文之節點分開之程度。音素網路產生器4 8本身係不需要知道用來決定每一弧點數之上下文之真正特性，因為闼路本身係將加強可導引具有適於做為弧點數之上下文之"從"和〃至” 一狐之路徑之限制。

第12頁 462037 五、發明說明（ίο) 相應文下的上數之複 ¾或模C 言一語第和作彙操字於之便用以應訊 }資的的數要複需或所一網第素罔音用提含包係法方之訊資音吾 ν-ίρ 碼編為做之靣方1 另之明發係分分部部二一第第之之統統系系作作操操而 ’型中模其音 .聲統定系特作境操環之和分者部周兩使有於含關供相

來一取第抽之係來分分部部二一第第之之統統系系作作操操’ 從中擇其選 ί 地用立應獨3 可的於數關複相或係C 文下上之型模言語和彙字之用。應訊 3資的的數要複需或所路一網闬音使關自相翰素包之音係路收置網接裝素於之音適訊關及資相；音文器語下生碼上產編義路為定網做可素之有立日面具之方生路一產網另；關有統相尚系文之作下明操上發：之含出使實自的來要取需抽所並之闬型應模十-口的語數和複彙或字 ί 之 1 用第應之出的翰數之複器或生( 產一路第網用第和器生產路。網聯素關音無 ,並中統其系，作訊操與係周應的數複或第於對成存儲被可上式。格用在應係之出後翰以之之器闬生應產} 路的網數素複音或地隔遠被可係闬應 \—y 的數。複結或連 C路一罔一：一'· 第或和結器連生線產無路以網並-τ^1 立日離分明有本發之，當上用加運係

JnJ-4Γ X-K 7力7 闬點明所所所 ,士在述人制欽之限以藝被加技便來此此地習因般熟不結為並連會 -相就例地施快實很之係定正特修與和 ^一5 而面方廣寬其在 P— ϋ life n

苐13頁 •4 6 203 7 五、發明說明（11) 示並敘述之指定之細節、代表之裝置及說明例上。不同之更改、修正及變化係對於熟習前面敘述所啟發出之技藝之人士而言為顯而易見的。而且，應可了解到本發明並不被限制在前面所述，除了在根據所附上之申請專利範圍之精神和觀點所做之所有如此之更改、修正及變化之外。

第14頁

Claims

4 6203 以，多正桌號?mi g捕充月修正 \、申請專利範圍 1 、一種編碼語音資訊之方法，包含使用適於使用者之聲音之聲音模型中之語音在本地使用者位置產生上下文作為語音辨認之中間步驟，其中表以節點及狐表示之語音輸入，表示之開始及結束時間之音素點入以弧及節點表示，俾使語音輸言模型，使用者及環境無關之中將上下文相關音素網路傳輸用者之應用程式，以致使遠端應用程式選擇之字彙或語言模型在每一應用程式使本地使用者位置不須執行語音辨認。 2、如申請專利範圍第1項之方法，其網路係與字彙和語言模型為無關。 3、如申請專利範圍第1項之方從音素相關音上下文相關音每一孤代表一網路產生器素網路，以素網路係代具有以節點致使語音輸與字彙，語數，音素網路入被封裝成一間格式；及至一或多個遠離於本地使使用一由應用程式執行語音辨認，俾法，更在一第一應用上予以擷取需要來自使和語言模型之上下文相關音素網路之資應用。 4、一種編碼語音資訊之方法，包含提供包含兩部分之操作系統，其中操係與可連續適應於使用者之聲音之使用音模型為相關；及操作系統之第二部分統之第一部分無關地選擇之第一應用，二部分係擷取從使用第一應用之字彙和中上下文相關音素包含= 用第一應用之字彙訊以便於操作第一作系統之第一部分者和環境之特定聲係相關於從操作系其中操作系統之第語言模型所需要之

O:\56\56084.ptc 第1頁 2001.03.29.016 4 6203 案號 87119918 气· 3Ω0修正懸修正六、申請專利範圍資訊。 5、如申請專利範圍第4項之方部分係產生上下文相關音素網路境之特定聲音模型並傳輸上下文之第二部分。 6、如申請專利範圍第4項之方中第一應用和第二應用係包含不型。 7、如申請專利範圍第4項之方用，其中第一應用和第二應用分言模型。 8、一種編碼語音資訊之方法藉由使用者和環境之特定聲音助而轉換語音至上下文相關音素基於使用者和環境之特定聲音續地接收上下文相關音素網路；由語音訊號予以擷取做為語音封裝在字彙、語言模型、及使 9、一種編碼語音資訊之裝置，操作系統；產生具有定義上下文相關音素下文相關音素網路音素網路之音適於接收音素網路產生器之輸一應用之字彙和語言模型之輸出法，其中操作，以便於捕捉相關音素網路法，更包含第同之字彙和不法，更進而包享共同之字彙包含：模型和音素語網路；模型和音素語辨認之所需要用者和環境之係包含：網路音素網路素網路產生器出之第一應用予以擷取所需系統之第一使用者和環至操作系統二應用，其同之語言模含第二應和共同之語言模型之輔言模型而連之資訊；及獨立格式。之輸出之上 ;及並從使用第之資訊，其

O:\56\56084.ptc 第2頁 2001.03. 29.017 462037 案號 8Ή19918 六、申請專利範圍中音素網路產生器和 1 0、一種電腦可讀料，被載入具有操作處理器具有一作業系用者位文相關在本地使出之上下相關音素網路致之輸下文其中每一弧代表一具點數，俾使語音輸入適於接收音素網使用者位置之應用程和語言模型之輸出以用者位置擷取資訊，與操作系統無關* 1 1、如申請專利範記錄媒體係包含具有部分及具有存在其上 12、一種方法，包產生上下文相關音驟；在第一搜尋引擎中在第一搜尋引擎中網路前進至第二搜尋從第二搜尋引擎擷 V月3?修正 ΟΌ 第— 取之系統統以置產音素使語有以被封路產式，擷取音素應用資料之第使第生具網路音輸節點裝成生器並從所需網路曰修正係與操記錄媒一通用一通用有定義之音素入以節表示開一中間之輸出使用複之資訊產生器作系統無體，包含目的微處目的微處上下文相網路產生點及31之始及結束格式；及之複數個數個應用，俾使不和複數個關β 指令和資理器，該微理器包含：關音素網路器，其中上形式表示，時間之音素遠離於本地程式之字彙須自本地使應用程式係記錄媒體，其t資料素網路產生器之第一第二部分。圍第1 0項之資料儲存在其上之音之複數個應用之含：素網路以做為編碼語音資訊之中間步嘗試辨認；辨認不滿意之下，使上下文相關音素引擎；及取候選者之辨認結果。

O:\56\56084.ptc 第3頁 2001.03.29.018