TW567465B

TW567465B - Configurable distributed speech recognition system

Info

Publication number: TW567465B
Application number: TW091119932A
Authority: TW
Inventors: Yin-Pin Yang; Po-Cheng Chen; Chien-Chieh Wang
Original assignee: Ind Tech Res Inst
Priority date: 2002-09-02
Filing date: 2002-09-02
Publication date: 2003-12-21
Also published as: US20040044522A1; US7302390B2

Description

567465 五、發明說明α) 5 - 1發明領域：本發明係關於辨認系統，特別一種關於語音辨認的可配置分散型語音辨認系統。 5 - 2發明背景：近年來，無線通訊產品的進步與發展無疑給予語音辨認界一個前景。主要原因是攜帶式無線裝置（Wireless Μ〇b i 1 e D e v i c e，WM D)雖然體型小機動性高，但是使用者的輸入方式及輸入速度卻受到限制。因此有其迫切需要去使用語音辨認技術。然而實現一個符合一般消費大眾期望的語音辨認器，除了需要強大的計算能力及記憶體資源外，還牽涉各種聲學、語音、文法等資料庫，才可能達成。因此將整個語音辨認器裝置在一個攜帶式無線裝置上，是不切實際的做法。針對上述問題，許多國際的語音辨認研究單位及無線通訊產品製造廠紛紛提出所謂的主從架構（861^61"-C 1 i ent)，將辨認處理所需要的資源分散在伺服器端 (Server side)及客戶端（Client side)。其中最具規模的是歐洲電信標準學會（ETSI，European Telecommunications Standards Institute) Aurora計畫丨J 提出的n分散式語音辨認n ( D i s t r i b u t e d S p e e c h

第5頁 567465 五、發明說明（2)

Recognition’ DSR)架構，第一圖為一習知的Aur〇ra分散式語音辨認架構。然而，分散式浯音辨認主要的發展目標是解決手機 (mobile phone)在語音入口（ V〇ice p〇rtal)系統上的低辨識率問題，但是對於一般的無線通訊裝置及其他語音辨認應用並沒有定義。因此無法用來解決所有無線通訊產品的語音辨認問題。目前使用手機向v〇ice p〇rtal系統要求服務時，常會因語音傳輸的錯誤而造成辨認率下降，主要原因是手機傳送的語音編碼是專為人類聽覺設計，傳輸le成的少Ϊ錯疾對人類影響很小，但對語音辨認器卻會造成極大傷害。而為解決上述問題，Aurora拾棄原本利用speech channel (語音通道）傳送語音編碼的方式，改採用err〇r protected data channel (錯誤保護資料通道）傳輸適合辨識的語音參數’並將計算分散在手機（c丨丨ent)及 Voice P〇rtal( Server)兩端。主要著眼於，既要能使用 Server上的資源’又希望傳輸上的err〇r^^語音辨認的傷害降至越低越好。 » 基本上’ Aurora分散式語音辨認基本架構將辨認器一分為二’ C 1 1 e n t端作抗噪音處理及抽取特徵，再將特徵壓縮’封包後利用error protected data channel傳送至

第6頁 567465

五、發明說明（3) erver端° Server端將妆如第一圖所示的Aurora分散到十封包後解壓再送入辨認器。前端處理100及後端處理1〇4式語音辨認架構，#中可分為 ^ ^ ^ υ 4 ° W端處理1 0 0於手機上完成

Cl ient端必需的運算處理，士热乂 σ Λ ^ Χ 、1Λη ^ 主要為抗噪音處理（noise reduction) I00a及擷取特徵處理（ extraction) lOOf。經由前端處理ι〇〇所產生的資料經過傳輸協定I 0 2，傳送至後端處理丨〇 4。後端處理I 〇 4則由伺服器端的一祠服器處理’主要是經由獨立語音辨識器1〇4ε 進行辨識後’再完成其目的處置作業l〇4e。其中，音素參

數模組I04b、字句模組I04c、文法模組i〇4d，則用以提供獨立語音辨識裔I 〇 4 a於辨識時所需的資料。然而，絕大部份的無線通訊行動裝置（Wireless Mobile Device)並沒有足夠的能力去完成於client端的運算，所以A u r 〇 r a分散式語音辨認架構並不適用於一般無線通訊行動裝置。因此一種能夠適用於一般無線通訊行動裝置的分散式語音辨認架構是需要的。並且可根據使用環境及行動通訊裝置做最佳的運算配置，而不先預設語音辨認系統 client — server的 δ己置 ° 5 - 3發明目的及概述：

第7頁 567465 五、發明說明（4) 鑒於上述之發明背景中，傳統的語音辨認系統所產生之諸多缺點，本發明提供一種可配置分散型語音辨認系統，用以克服傳統上所衍生的問題。本發明之主要目的為適用於各種的行動裝置，而不是侷限於行動電話。本發明之另一目的為適用於各種的無線網路，而不侷限於大型電信網路。本發明之另一目的為易於切換各種語音辨認服務。本發明之另一目的為可配置分散型語音辨認系統可對辨認資料自動作收集和分類。本發明之另一目的為可針對辨認率、傳輸的頻寬及伺服器端的負載，進行系統配置的最佳化。本發明之另一目的為本發明之可配置分散型語音辨認系統可對辨認結果自動進行分類。根據以上所述之目的，本發明提供一種可配置分散型語音辨認系統，且可應用於各種行動裝置及各種應用層面，而且提供一整合的平台。本發明亦可根據客戶端

第8頁 567465 五、發明說明（5) (c 1 i ent)裝置的計算、記憶、通訊能力，配置出適合該裝置的最佳化辨認。本發明之一種可配置分散型語音辨認系統，包含：可配置分散型語音辨認協定及可配置分散型語音辨認伺服器。其中’可配置分散型语音辨#忍協定用以規定客戶端語音行動裝置的語音資料及配置資料的傳送袼式，以形成一 ^ 息封包，而可配置分散型語音辨認伺服器，則用以接收來自客戶端语音行動裝置的信息封包’並根據配置資料進行 5吾音辨5忍參數的調整’並將語音辨〗忍後的結果傳回該客戶端語音行動裝置。

其中，可配置分散型語音辨認伺服器包含解析器、配置控制器、可配置分散型語音辨認引擎、歷史日諸、診斷工具組及可配置對話系統。解析器，用以解析並取得信息封包中的配置資料及語音資料。配置控制器，用以根據配置資料產生辨認調整參數。可配置分散型語音辨認引擎，用以辨識由該解析器傳來的該語音資料’並接受該配置控制器的配置。歷史日誌用以紀錄伺服器所產生的結果資料。診斷工具組可根據歷史日誌中的資料產生診斷參數，以調校可配置分散型語音辨認引擎。可配置對話系統根據辨認引擎的辨認結果，分析產生於對話中可能出現的字彙組，提供辨認引擎於下次辨認時增進辨識率及辨識速度。

第9頁 567465 五、發明說明（6) ----~η 5 - 4發明詳細說明：本發明的較佳貫施例會詳細描述如下。然而，除了 ▲羊細描述外’本發明還可以廣泛地施行在其他的實施例中，且本發明的範圍不受限定，其以之後的專利範圍為準。本發明之一種可配置分散型語音辨認系統，包含··可配置分散型語音辨認協定及可配置分散型語音辨認飼服器。其中，可配置分散型語音辨認協定用以規定客戶端言五; 行動裝置的语音賓料及配置資料的傳送格式，以形成一作息封包，而可配置分散型語音辨認伺服器，則用以接收^ ^ 自客戶端6吾θ彳亍動装置的彳5息封包’並根據配置資料進行語音辨認參數的調整，並將語音辨認後的結果傳回該客戶端語音行動裝置。其中，可配置分散型語音辨認伺服器包含解析器、配置控制器、可配置分散型語音辨認引擎、歷史日誌、診斷工具組及可配置對話系統。解析器，用以解析並取得信息対包中的配置資料及語音資料。配置控制器，用以根據配置資料產生辨認調整參數。可配置分散型語音辨認引擎，用以辨識由該解析器傳來的該語音資料，並接受該配置控 > 制器的配置。歷史日誌用以紀錄伺服器所產生的結果資料。診斷工具組可根據歷史日諸中的資料產生診斷參數，以調校玎配置/刀散型語音辨認引擎。可配置對話系統根據辨

第10頁 567465 五、發明說明（7) 認引擎的辨認結果，分析產生於對話中可能出現的字彙組，提供辨認引擎於下次辨認時增進辨識率及辨識速度。第二圖用以說明本發明之可配置分散型語音辨認系統的較佳實施系統架構圖，其中C-DSR Server 200 (Configurable Distributed Speech Recognition S e r v e r，可配置分散型語音辨認伺服器），用以處理經由 C-DSR Protocol 214( configurable distributed speech recognition protocol,可西己置分散型語音劳辛1:¾ 協定）傳送的資料。

C-DSR Protocol 214負責將Client端的資訊以一符合 C-DSR Protocol 214規格的信息（message)封包傳送至 C-DSR Server。信息封包中包含配置資料 (configuration data)及語音資料(speech data)等資訊。其中配置資料如S p e a k e r P r 〇 f i 1 e (說話者基本資料）、Acoustic Environment(聲音環境）、Channel Effects(通道效應）、Device Specification(裝置規

格）以及 S e r v i c e T y p e (服務類別）。然而，如果因為某些限制因素，以致於無法提供信息所要求的完整資訊内容，C-DSR Protocol 21 4亦允許Client端只提供部分資訊。C-DSR Protocol 21 4可將未處理的語音資料（Speech raw data)或是經處理或格式化過的特徵向量 (processed /formatted feature vectors)傳送至 C~DSR

567465 五、發明說明（8)

Server2 0 0進行語音辨認處理。上述的C-DSR Server 200中至少包含：解析器202 (Parser)，配置控制器 2 04 ( Configuration Controller204)，可配置對話系統 206( Configurable Dialog System, CDS )，歷史日誌 208( History Log， HL)，診斷工具組 210( Diagnostic Tool Sets, DTS)及 C-DSR引擎 212( C-DSR Engine, C-DSRE)，其中：

Parser 2 0 2解析取得經由C-DSR Protocol 214傳送到 C-DSR Server 2 0 0的信息（message)封包，然後將信息中所包含的配置資料送至配置控制器2 0 4。配置控制器2 0 4 收配置資料後，如果其中包含的配置資訊不完整，則由配置控制器2 04配置成完整的配置資料後，才交給c-DSR引擎 2 1 2處理。這樣做的原因是，雖然C 1 i e n t有完全操控C - D S R 引擎2 1 2的能力，但是在很多情況下，c 1 i ent並不想去逐一設定配置資料中所有的搁位（K e y - w 〇 r d)。比如說，

Cl i ent可以只設定一部份攔位值，其餘的配置控制器204 會依據已知的訊息填入適當的值。配置控制器2 0 4還有另一功能，它可根據目前系統及通訊的狀況，做為設定欄位值的參考依據，達成在通訊傳輸速度及辨識率要求的平衡與最佳化之目的。接下來，將語音資料送至C - D S R引擎2 1 2進行語音辨

第12頁 567465 五、發明說明（10) 診斷工具組2 1 0負責使用歷史日誌2 0 8中的資料製作冷斷報告（Diagnostic Reports)，這些報告是將歷史日^ 加以運算而得一些〇081?引擎212所需的調整參數。對（：一^ 0 3防丨擎212做調整，其目的是確保（：-08旧丨擎212是一個高效率的引擎。所謂高效率，指的是這引擎在提昇辨識率5 同時’亦兼顧記憶體與計算量（Computation Cost)的需求。這疋C-DSR弓丨擎21 2的特徵之一是將Memory、CPU Power、傳輸頻寬（Transmission Bandwidth)以及辨認率之間做最佳化的平衡。在本發明中，C-DSR引擎21 2是一個通則化 (g e n e r a 1 i z e d)的辨識引擎，且倶備適應性 (Adaptation)的功能。可以根據使用者的指令，調適語者資料、裝置參數等。適應性的能力則需要收集 Adaptation Data，因此C-DSR引擎21 2每次所輸入的參數配置及其對應的辨認結果，都會被自動分類且整理存放在一資料庫（即歷史日誌2 0 8)中。C-DSR引擎21 2將辨認結果回覆給客戶端透過C-DSR Protocol 214;同時也將結果複製給歷史日誌2 0 8。 C-DSR引擎21 2是被配置控制器2 0 4所配置來處理下列狀況：各種不同的說話者基本資料（Speaker Profiles)，

第14頁 567465 五、發明說明（11) 像是姓名/性別/年齡/腔調，（：-〇81?引擎212可以使用不同的參數設疋调整敢適合的聲音模型，而這些資料部分由診斷工具組2 1 0所取得。各種不同的聲音環境（Acoustic Environment) /通道效應（Channel Effects)，像辦公室/家中/街道/車上等，而這些資料部分亦由診斷工具組2 1 〇所取得。或是各種不同的服務類型（Service Types)。第三圖用以說明一客戶端（Client)的資料處理步驟。首先為配置設定3 0 0，其中此配置設定的資料可分別來自使用者部分及客戶端裝置部分。接下來為語音資料的輪入3 0 2，然後經由噪音抑制3〇4 ( noise reduction)，特徵擷取306( feature extraction)及語音/資料壓縮 3 0 8等處理，其中步驟3 〇 4，步驟3 〇 6，步驟3 〇 8可依客戶端裂置的不同而省略。然後將語音資料及配置資料編碼，成為一信息封包 3 1 0 ’並傳送至可配置分散型語音辨認伺服器3丨2。接下來等待可配置分散型語音辨認伺服器的回應3 1 4，然後解碼 (decode)所接收到的回應封包，並擷取回應之結果 316〇 567465 五、發明說明（12) 認系統，且可應用於各種行動裝置及各種應用層面，而且提供一整合的平台。本發明亦可根據客戶端（c 1 i e n t)裝置的計算、記憶、通訊能力，配置出適合該裝置的最佳化辨認。以上所述僅為本發明之較佳實施例而已，並非用以限定本發明之申請專利範圍；凡其它未脫離本發明所揭示之精神下所完成之等效改變或修飾，均應包含在下述之申請專利範圍内。

第16頁 567465 圖式簡單說明第一圖為一習知的Aurora D SR基本架構。第二圖用以說明本發明之可配置分散型語音辨認系統的較佳實施系統架構。第三圖用以說明一客戶端的資料處理步驟。主要部分之代表符號： 1 0 0前端處理 1 0 0 a抗噪音處理 1 0 0 b擷取特徵處理 10 2資料通道 1 0 4後端處理 1 0 4 a非特定語者語音辨識器 104b音素模型 104c字句模型 104d文法模型 104e處置作業 2 0 0可配置分散型語音辨認伺服器 2 0 2解析器 2 0 4配置控制器 2 0 6可配置對話系統 2 0 8歷史日諸 2 1 0診斷工具組

第17頁 567465 圖式簡單說明 2 1 2可配置分散型語音辨認引擎 2 1 4可配置分散型語音辨認協定 3 0 0〜3 1 8步驟流程方塊第18頁

Claims

567465 六、申請專利範圍 1 · 一種可配置分散型語音辨認系統，包含：一可配置分散型語音辨認協定，用以規定一客戶端裝置的語音資料及配置資料的傳送袼式，以形成一信息 (message)封包;及可配置分散型語音辨認伺服器，用以接收來自該客戶端裝置的該信息封包，該可配置分散型語音辨認伺服器根據忒配置資料進行語音辨認參數的調整，並將語音辨認處理後所產生的結果傳回該客戶端裝置。 2 ·如申請專利範圍第丨項所述之可配置分散型語音辨認系統，其中上述之客戶端裝置為一行動通訊裝置。 =·如申請專利範圍第丨項所述之可配置分散型語音辨認系 —其中上述之可配置分散型語音辨認伺服器包含：析為，用以解析該信息封包，以取得該配置資及該音資料；次制—配置控制器，用以處理該配置資料，並根據該配置 =二產生一辨認調整參數，該辨認調整參數用以於該可配二放型，音辨認系統於進行語音辨認時，根據該客戶端 ^的計异、記憶、通訊能力及頻寬配置該可配置分曰辨認伺服器的資源；可配置分散型語音辨認引擎，用以辨識由該解來的該語音資料，並接受該配置控制器的配置；° 一歷史日誌’用以紀錄該分散型語音辨認伺服器中所

第19頁 567465 六、申請專利範圍產生的歷史資料；及一診斷工具組，根據該歷史資料產生一診斷參數用以調校該可配置分散型語音辨認引擎。 4. 如申請專利範圍第1項所述之可配置分散型語音辨認系統，其中上述之分散型語音辨認伺服器更包含一可配置對話系統，該可配置對話系統根據該可配置分散型語音辨認引擎的辨認結果，分析產生於一對話中可能出現的字彙組，並供該可配置分散型語音辨認引擎於下次辨認時使用，以增進辨識率及辨識速度。 # 5. 如申請專利範圍第4項所述之可配置分散型語音辨認系統，其中上述之歷史日誌用以紀錄該配置控制器、該分散型語音辨認引擎以及該可配置對話系統所產生的結果。 6. 如申請專利範圍第1項所述之可配置分散型語音辨認系統，其中上述之配置資料，係選自於由一說話者聲音輪廓、聲音環境、通道效應、該客戶端裝置規格以及服務類別所組成的族群的一種配置資料。 7. —種可配置分散型語音辨認伺服器，包含：一解析器，用以接收並解析一信息封包，以取得該信息封包中所包含的一配置資料及一語音資料；一配置控制器，用以處理該配置資料，並根據該配置

第20頁 567465 六、申請專利範圍資料產生一辨認調整參數，該辨認調整參數用以於該可配置分散型語音辨認系統於進行語音辨認時，根據該客戶端裝置的計算、記憶、通訊能力及頻寬配置該可配置分散型語音辨認伺服器的資源；及一可配置分散型語音辨認引擎，用以辨識由該解析器傳來的該語音資料，並接受該配置控制器的配置。 8. 如申請專利範圍第7項所述之可配置分散型語音辨認伺服器，更包含一歷史日誌，用以紀錄該分散型語音辨認伺服器中所產生的歷史資料。 9. 如申請專利範圍第8項所述之可配置分散型語音辨認伺服器，更包含一診斷工具組，根據該歷史資料產生一診斷參數用以調校該可配置分散型語音辨認引擎。 1 0.如申請專利範圍第7項所述之可配置分散型語音辨認伺服器，更包含一可配置對話系統，該可配置對話系統根據該可配置分散型語音辨認引擎的辨認結果，分析產生於一對話中可能出現的字彙組，並供該可配置分散型語音辨認引擎於下次辨認時使用，以增進辨識率及辨識速度。 11.如申請專利範圍第7項所述之可配置分散型語音辨認伺服器，其中上述之信息封包係由一語音行動裝置所傳送出。

第21頁 567465 六、申請專利範圍 1 2.如申請專利範圍第1 1項所述之可配置分散型語音辨認伺服器，其中上述之配置資料，係選自於由一說話者聲音輪廓、聲音環境、通道效應、該語音行動裝置規格以及服務類別所組成的族群的一種配置資料。

第22頁