TW541516B

TW541516B - Distributed speech recognition using dynamically determined feature vector codebook size

Info

Publication number: TW541516B
Application number: TW90131854A
Authority: TW
Inventors: Yin-Pin Yang
Original assignee: Koninkl Philips Electronics Nv
Priority date: 2001-12-21
Filing date: 2001-12-21
Publication date: 2003-07-11

Description

541516 A7 B7 五、發明説明（i ) 發明領域本發明與分佈式語音識別（DSR)系統、裝置、方法及信號有關，其中語音識別特徵參數係從語音擷取並且在一前端或後端編碼，以及運載該等特徵參數的電磁信號被傳輸至一用以完成語音識別的前端或後端。在本發明的特定觀點中，本發明與分佈式語音識別有關，其中該前端被配備在一無線行動通信終端機中，而該後端則是經由通信網路提供。相關技藝說明如需運用於行動通信系統中的分佈式語音識別（DSR)相關資訊，請參考歐洲電信標準委員會（European Telecommunications Standards Institute ； ETSI) Aurora 專案 (請參考 http://www.etsi.org/technicalactiv/dsr.com)。預期電話架構語音識別服務、語音web瀏覽、以及經由攜帶型無線通信裝置之其他人機語音通信的需求將會迅速激增，並且在不久的未來，可能會因使用者經由此類的通信裝置與位於遠端的機器交談以擷取資訊、進行交易及娛樂用途而消耗大量的可用網路容量。 ETSI正在考慮適用於行動通信系統的DSR，這是因為與使用未_透過中間行動通道的語音信號相比，使用透過行動通道傳輸所獲取的語音信號之語音識別系統的效能會降級。例如，降級係由於聲碼器（vocoder)編碼低位元傳輸率語音及通道傳輸錯誤所致。DSR系統克服這些問題，其方式是相對於機器識別的語音（speech to be recognized ; 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 541516

STBRh排除人類感知語音通常可接受的語音編碼及傳輸錯二立亚且透過防錯誤保護通道傳送適用於此類自動識別# :曰:數化表不。|f上，語音識別器被分割成兩個苟 Ι,γ第—或前端部件’其位㈣以鮮特徵參數的制，行動口上’以及一第二或後端部件，其位於用以完成所擷取特徵參數之識別的網路上。、如同傳統語音識別器，語音識別器的第_部件將語調細 =成稱為「訊框」的時間間隔’並且針對每個訊框揭取特欲參數，以從語調產生特徵參數序列或陣列。針對語彙之每個可旎的字碼，語音識別器的第二部件將該特徵參數序列饋送至隱藏式Markov模型（Huiden Markov Model ; hmm)，每個字碼的每個HMM均事先被來自於同一說話者或不同Λ活者（如何應用於說話者非相依性）之不同語調的數個特徵參數樣本序列連串一起。針對每個受評估字碼， ΗΜΜ評估提供現行語調是受評估字碼的可能性。最後，語音識別器的第二部件選取最可能的字碼當作識別結果。雖然依據Aurora專案的DSR不採用向量量子化（vect〇r quaimzadon ; VQ)，但是通常已知從特徵參數構成向量資料，以及使用碼本壓縮此類的向量資料，例如，當透過通道傳送此—類資料時，其中每個向量均會被代表該向量的對應碼本索引取代。因此，會將向量時間序列轉換成索引序列或索引串。於接收端，會使用相同的碼本，以從索引序列或索引串退原向篁序列。碼本具有在適合的量子化向量空間中納入代表每個可能向量之索引所需的大小S z，並且本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 __B7 五、發明説明（3 ) 母個索引均疋错由區別碼本中索引所需的位元數量 B = l〇g2(Sz)來描述。本發明目的是平均上減少通信系統中因分佈式語音識別所消耗的容量，而不會顯著降級識別效能。本發明進一步目的是達成減少容量需求，其方式是依據特定對話聲或語彙大小，動態調整用以表示每個識別特徵向量或對應向量量子化碼本大小所需的位元數量。本發明的構想基礎為，離散及連續語音識別的預期最終識別率會隨語彙大小遞增而遞減，但是會隨每碼本索引的位元數量或相關碼本大小遞增而遞增。但是，語彙大小會因對5舌聲而顯著變化。因此，本發明能夠節省網路資源，同時維持充分預期的識別率，其方式是依據對話聲架構内可*出或識別的可能字碼或語調數量以動態調整每碼本索引或相關碼本大小的位元數量。在較佳做法中，完成位元傳輸率與預期識別率間之交換的方式是最佳化位元傳輸率與預期識別率之函數的權值 (metnc)，例如，使成本函數降至最低限度。碼本索引位元傳輸率的上限很容易決定，其方式是將每碼本索引除產生碼本索引的訊框時間間隔。因此，—一種根據本發明之於一近端編碼被識別語音 (speech to be recognized ; STBR)之語音編碼方法，以供一位於一遠端之機器完成字碼級識別，其相對於一介於該近端與該遠端間之具有一相關語彙大小（V)的對話聲，該方法包括：從所接收之被識別語音以逐訊框方式掏取識別特徵本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 五、發明説明l 向量，從複數個選擇項目中選取代表識別特徵向量之碼本索引中的位元數量，或選取一對應於該對話聲或相關語彙大小的相關碼本大小；從具有對應於所擷取識別特徵向量之相關大小的碼本項目選取索引；以及構成要傳輸至該遠端的信號，該等信號係從所選索引串導出。同樣地，一根據本發明之通信裝置包括一特徵向量擷取决策組塊、一用以從一碼本選取索引之編碼器以及一信號構成器，其中該決策組塊從數個選擇項目中選取每索引位元數量或一對應於對話聲或相關語彙大小的相關碼本大小。另外，根據本發明另一項觀點，被傳輸之該構成信號包括一每碼本索引位元數量或該相關碼本大小的指示。因此，一種位於一遠端之語音識別方法包括：接收信唬，該等信號係從一對應於從被識別語音擷取之逐訊框擷取之識別特徵向量之碼本中的項目選取之索引串導出，其中該等信號一每碼本索引位元數量或該相關碼本大小的指示；從所接收信號獲取該索引串；使用一具有該相關大小之碼本從該索引事獲取該等對應識別特徵向量；以及將該等識別特徵向量套用至一字碼級識別處理程序。另外，—一種根據本發明之電磁信號被組態，以致該電磁信號已經過編碼，其中第一資料係從對應於一碼本之項目的索引串導出，其中該等項目對應於從語音擷取的識別特徵向量；以及第二資料，用以指示每碼本索引位元數量或一相關碼本大小。本纸杀尺度適用中國國家標準(CNS) Α4規格(210X297公釐) 541516 A7 B7 五、發明説明（5 ) 只要詳讀下文中參考附圖解說的詳細說明，將可明白本發明的上述及其他目的、功能、及優點，其中：圖1顯示一種分佈式語音識別系統，其包括位於行動台之前端或近端語音識別階，以及經由網路基礎設施存取的遠端或後端語音識別階；圖2 A和2B分別顯示圖1所示之根據本發明之前端或近端 · 語音識別階及遠端或後端語音識別階；圖3 A和3 B分別顯示針對離散和連續語音識別，語音識別特徵向量之碼本大小（Sz)或碼本索引所需之位元數量（B)與識別率（RR)之間關係的形式；圖4顯示根據本發明，在預先決定範圍内尋找用以最佳化成本函數之碼本索引所需之位元數量（B)的流程圖；以及圖5顯示根據本發明之介於近端與遠端之間傳輸之信號中之整個時間的資料組織。本發明提出一種人機通訊協定，本發明人稱之為「無線語音通訊協定」（Wireless Speech Protocol ; WSP)，用以以有助於自動化語音識別而不是人類感知語音的方式壓縮要透過無線鏈結從近端傳輸至遠端的語音，並且於遠端自動識別。WSP採用分佈式語音識別（distributed speech recognition ; DSR)的觀念，其中語音識別器被分割成兩個部件，其中一部件位於近端，而另一部件位於遠端。請參考圖1，圖中顯示一種數位無線通信系統1 0，例如，行動通信全球定位系統（Global System for Mobile Communications ; GSM)、分時多向近接（Time Division 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 541516 A7 B7

Muldple Access ; TDMA)、分碼多向近接（c〇de⑴如时 Mixldple Access ; CDMA)、或針對通用行動電話系統 (Universal MobUe Telephone System ; UMTS)或第三代合夥專案（Third Generation Partnership Project ; 3G-PP)建議的系統，該系統包括複數個行動台，其中如圖所示的行動台 1 2包括如端或近端語音識別單元或階丨4。前端單元1 *實質上屬於傳統字碼識別器的一部份，其適用於離散語音（二，以在字碼之間短暫暫方式說話的語音）或自然或連續語音，該字碼識別器從行動台麥克風15輸入的語音擷取識別特徵向量。其達成方式是，在包括位信號處理器（Dsp)與微處理器的行動台12内的一般處理資源（圖中未顯示）執行r〇m架構軟體。通信系統10進一步包括具有不同地理涵蓋區域的複數個基地台，如圖所示的基地台16和18。基於解說用途，如圖所示的行動台1 2經由通信鏈結丨7與基地台i 6通信，雖然已知，當行動台12從基地台16的涵蓋區域移動至基地台“的涵蓋區域時，會經由與基地台16和18通信的基地台控制器 20執行交遞協調或操控，以促使行動台12建立與基地台18 之間的通信鏈結（圖中未顯示），並且切斷與基地台丨6之間的通信鏈」结1 7。起源於基地台12的資料（包括從前端單元14的輸出所導出的資料）係從行動台12傳達至基地台16(行動台目前與之通信中的基地台），並且還會行進至基地台控制器2〇，然後行進至網路控制器22，其中網路控制器係連接至各種網路， -10 - 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 541516 A7 B7 五、發明説明（7 ) 包括資料網路2 4及其他資源，例如，傳統舊式電話服務 (POTS) 20 ^從前端單元14的輸出所導出的資料透過無線鍵結1 7運載至基地台1 6，其方式是將資料多工處理成為資料通道、或通用封包無線電系統（General Packet Radio System ; GPRS)通道，或可透過短訊息服務（Short Message Service ; SMS)或類似通道傳送。資料網路24係耦合至應用程式伺服器2 8，該應用程式伺服器包括後端語音識別單元或階3 0。後端單元3 0實質上屬於傳統字碼識別器的一部份，其適用於離散語音或自然語音，用以在前端單元14 擷取的所擷取識別特徵向量上構成字組級識別，其通常使用隱藏式Markov模型（Hidden Markov Model ; HMM)。應用程式伺服器2 8可採用耦合至公用網際網路3 2的閘道器、路由器或代理伺服器（圖中未顯示）的形式或一致的動作。由於目前的對話聲（其中後端單元10完成自動化字組級識別的方式為，比較一組預先決定之可能被識別的語調，例如’字組清單），後端單元3 〇的語音識別結果促使從應用程式伺服器2 8獲取資料及/或語音，或藉由應用程式伺服器2 8 從可存取的資源（如公用網際網路3 2)獲取資料及/或語音，以經由資料網路2 4、網路控制器2 2、基地台控制器2 0及基地台1 6傳送至行動台1 2。例如’該資料可能是語音xml web網頁，用以定義目前對話聲中可能的語調及相關語彙大小Sz ’這些網站係供受語音控制型微瀏覽器34使用，或供藉由在前面提及之位於基地台12之處理資源上的尺〇1^架構軟體所實施的其他適合的前端用戶端使用。 ____- 11 · 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)- 541516

▲前端單元14與後端單元3〇之間分割的語音識別演算法可 =係以已知的Mel-Cepstrum演算法為基礎，其非常適用於月J而有低月厅、雜訊程度的情況，或是以其他演算法為基礎，其適用於當在汽車中使用行動電話時可能會遇到之更咼要求背景雜訊的情況。搜尋及評估適用於行動電話背景之分佈式語音識別的演算法均是前面提及之ETSI 專

裝案的工作項目。該專案目前的目標是4.8 kbits/sec。但是，本發明人相信，使用本發明可達成Aur〇ra目標位元傳輸率十分之一的平均位元傳輸率，其中會依據目前對話聲中的語彙大小來調節識別特徵向量空間的量子化，或調整編碼向量量子化碼本索引所需的位元數量。

有兩種主要類型的語音識別器，離散隱藏式Mark〇v模型 (HMM)和連續隱藏式Markov模型（HMM)，這兩種語音識別器使用不同的方式在特徵空間上「儲存」語音特性。就離月文HMM而$ ，已措由向量量子化（vq)達成被識別語音 (STBR)的逐訊框壓縮，其中一個訊框的碼本索引q值使用的位元數量B等於log2(Sz)，其中Sz是碼本大小。一般而言，VQ中的碼本大小Sz已針對語音識別工作最佳化，並且理論上減少每碼本索引q值的位元數量B會使識別率（RR)降級。但是一’藉由考慮識別率RR如何隨位元數量B遞減而遞減，可完成識別率RR與位元數量B之間的交換。圖3A和3B 分別顯示離散HMM和連續HMM中識別率RR與每碼本索引之位元數量B或碼本大小S z間的關係，其具有接收器運算子特性（Receiver Operator Characteristic ; ROC)本質中的單調 -12 - 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 541516 A7 B7 五、發明説明（9 ) 漸減的斜率。請注意，在離散HMM中，HMM串連所使用之每個q值的位元數量B與HMM評估時使用的位元數量相同（當識別時）。但是，圖3A係以串連所有HMM時使用的固定碼本大小S z (例如，2 5 6)為基礎，但是較小值調節碼本S z (例如， 12 8、64或3 2)係用於識別（HMM評估）。因此，需要簡易 -修改慣用的離散Η Μ Μ評估演算法，以適應這項差異。就連續Η Μ Μ而言，適用類似的觀念。雖然受連續η Μ Μ 中通常未使用V Q。圖3 Β係以串連階段過程中使用的連續 ΗΜΜ為基礎，但是VQ係用於識別階段。（請注意：一個訊框之VQ的輸出是向量。就一個語調而言，產生的向量序列或陣列可直接饋送至連續ΗΜΜ評估階）。在傳統語音識別工作中，每碼本索引之位元數量Β必需足夠大，才能針對所有可能的識別工作維持最佳識別率RR。但疋，^透過播線糸統傳輸V Q碼本索引時，應考慮到傳輸成本。殊線傳輸資源有限且非常昂貴，並且較低的每碼本索引位元數量會導致較低的傳輸位元傳輸率BR。因此，為了位元傳輸率BR與識別率RR之間的交換，會使用適當的權值（metric)，這是這兩項參數的函數。下列線_性成本函數被選為按減縮到最小所最佳化的權值 (metric)。

Cost = BR - w * RR* 其中’ W是整個語調之平均傳輸位元傳輸率（BR)與識別率 ⑽）之間的交換權值。在前面說明之逐時間壓縮碼本索引 —- ___-13 - 本紙張尺度通财顯家料(CNS)规格撕公董） ------- 541516 A7 B7 五、發明説明（1〇 ) 串（q-string)之前，平均位元傳輸率BR被計算為每碼本索引位元數量B除連續訊框開始之間的已知固定時間間隔。成本函數係以逐對話聲為基礎最佳化，即，即個別針對每個「對話聲」，而不是針對一連串不同對話聲的整個識別工作。顯而易見，附屬於每個對話聲的文法規則可大幅降減識別的複雜度，並且可相對降低位元傳輸率BR或減少 -每碼本索引位元數量B而不會影響RR太多，因此可降低成本。這可使用接收器運算子特性語言模型（Receiver Operator Characteristic Language Modeling ; ROC-LM)技術來完成。如需這項技術的說明，請參考ICSLP 96中Yin-Pm Yang 和 John Deller 著作的「Automated Evaluation of Language Models based on Receiver-Operator-Characteristics Analysis」文章。在ROC-LM中具有下列的公式： RR^f f(x\c) f f(y\w)dy dx 其中，f(x|c)是當將正確字組饋送至自己的字組範本（HMM) 時，字組級HMM評估結果的機率分佈式函數（p.d.f)(可能性），而f(y|w)是當將錯誤字組饋送至任何隨機挑選的字組範本（HMM)時，字組級HMM評估結果的p.d.f。|V|是假設這是字組識別器的語彙大小。當減少每碼本索引位元數量B時，即，碼本大小S z較小時，f(x|c)與f(y|w)之間的不明確會增加，因此，會降低識別率RR。 -14 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

裝訂

541516 A7 B7 11 五、發明説明（根據本發明前面的公武，p 土 1备 '已知浯彙大小丨VK即，已知對話聲和文法）’纟垂直軸上標繪識別率以，以及在水平轴上f 緣位元數量B(或對應的碼本大小Sz)。然後，針對離散㈣續語音識別分別提供圖3 A和圖3B。

裝接著考慮針對-個語調產生之碼本索引争（㈣mg)的逐時間壓縮。由於q-stnngh值的連續特性，所以可使用運行長度編瑪機制來降低位元傳輸率，其方式是加人額外的位兀，用以指示特定q值的運行長度。例如，如果用7位位元來描述每個q值（值範圍為從〇到127)，並且使用額外的3位位元來描述運行長度（範圍為從1到8)，則下面說明的1〇個^ 值串需要10*7位位元=70位位元： 1-1-9-9-9-9.5.5-5-127 這個值串可減少到下面的4個q值串，其需要4*(7 + 3) = 4〇位位元： 1[2]-9[4]-5[3]-127[1]

租/主思，在逐時間壓縮之後，一個q-string (或稱為語調）的整個平均位元傳輸率（B R)與B (這是每碼本索引q的位元數量）之間的關係為非線性。現在請參考圖2A，圖中所示的前端語音識別單元包括：組塊40，—用以將被識別語音（STBR)細分成訊框並擷取每個訊框的一組識別特徵參數；接著是碼本向量量子化組塊 42 ’用以將訊框的每組特徵參數轉換成特徵向量，並且輸入代表特徵向量的碼本索引q。基於相容於ETSI Aurora專案提供的分佈式語音識別（DSR)的目的，可根據如本文中「第 __ - 15 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 _ ______B7 五、發明説明（12 ) '~ " 一層」（” Layer 1 ”）指示的作業模式傳送特徵參數擷取組塊的輸出，而不需要任何介於中間的向量量子化，反之，根據本發明之使用節調碼本向量量子化的作業模式被標示為「第二層」（"Layer 2")。調節碼本組塊42使用的碼本大小32，或每碼本索引q的位疋數量B均是在決策組塊44中決定，以響應目前對話聲的語_ 彙大小IV卜並被傳達至組塊42。這項決策係以最佳化權值 (metnc)為基礎，這是預期平均位元傳輸率BR與預期識別率RR的函數，如上文所述。作出決策的方式為，計算整個 B值範圍的Cost (成本），例如，從4到丨0範圍内的B (相當於範圍從2、16至210=1〇24的碼本大小Sz)，並且找出產生最低Cost的最值B。這可依據圖4所示之流程圖迴圈完成。其中，先在步驟5 0將B值初始化成範圍内的最小值，即 4。然後，於步驟52，依據圖3A與3B中適用的圖式與前面的討論，從B值以及從語彙大小丨v丨計算目前對話聲的識別率RR。並且，於步驟52，從B值計算預期的平均位元傳輸率BR。如果無法取得介於預期位元傳輸率8尺與]6值之間的非線性關係，則可用位元傳輸率BR等於B值除訊框時間間隔的線性關係取代之，這是因為它構成實際位元傳輸率的上限。隨—著討論進度將會看到，由於圖2八所示之組塊46中的「逐時間」壓縮，實際位元傳輸率會從上限開始下降。然後，於步驟54，將Co st計算為識別率尺尺與位元傳輸率 B R的函數。於步驟56，如果計算得出的C〇st小於變數c〇st一ΜΑχ (這 -16 - 本紙張尺度適用中® S家料(CNS) Α4規格(2l〇x 297公釐) ------- 541516 A7 _______ B7 五、發明説明（13 ) 個變數被初始化成極大於使用B = 4計算得出之預測值的值），則會將變數Cost 一 MAX設定為等於計算得出的Cost，並且將變數B__opt設定為等於目前的b值。之後，於步驟 58 ’以壹為單位遞增B值，並且決定產生的b值是否大於或等於壹。如果「是」，則輸出B_opt的現行值，反之如果「’’no”」，則會迴圈回到步驟52，以使用新b值來計算識 -別率RR與位元傳輸率B R。顯而易見，迴圈繼續返回，直到使用B=10計算最後的Cost為止。組合組塊40與42可將STBR以逐訊框方式有效地壓縮或量子化成為碼本索引序列或碼本索引中，或「”q-string’’」。q-string被饋送至組塊4 6，用以執行前面提及的「逐時間」壓縮’以藉由（例如）運行長度編碼來去除q-string中不必要或重複的值。然後，於組塊48，q-stdng被封裝成通訊協定，其中整個時間的資料流被組織化，以至少指示每碼本索引B 的位元數量（B)，以及q-string的碼本索引q值（如果採用逐時間壓縮組塊46，則是運行長度累積的值）。圖5顯示示範性的資料組織，其中： ID:指示這是WSP通訊協定（根據本發明）；

Layer:指示層號碼。Layer = 2適用於WSP通訊協定，反之Layer —= 1適用於為相容於已知的Aurora專案DSR的目的’其中會傳送原始特徵參數，而不會傳送VQ ; qL :指示q_string長度； B:指示每q值的位元數量；以及 Q1，· ·，qL-i:q-string 值。 __ _ 17 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐） 541516 A7 B7

如圖2B所示，後端語音識別階30包括：用以接收及解封裝依據WSP通訊協定傳輸之資料的組塊6〇 ;用以將已解封裝之位元流解碼成q-string的組塊6 4 ;以及使用碼本大小 Sz = 2BW碼本反轉向量量子化（VQ)的組塊64，其中b是傳輸中標示之每q值的位元數量β，以獲取特徵參數集序列。最後’將特徵參數集序列輸入至連續ΗΜΜ評估組塊66，並且將評估輸出供應至進行識別決策的組塊68。顯而易見，現在已達成本發明的目的。儘管已特別詳細說明本發明，然而應知道，於本發明的預定精神與範疇内可作各種修改。應知道於解說隨附申請專利範圍中： a) 申請專利範圍中的「”包括”」並不排除使用其他的元件或步驟； b) 出現在元件之前的「”一個”」並不排除使用複數個此類的元件； Ο申請專利範圍中的參考符號並不限制其範疇；以及 d)數個「”裝置”」可能以相同項目之建置結構或功能之硬體或軟體表示。 ____- 18 - ----- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

Claims

541516 8 8 8 8 AB c D 六、申請專利範圍 1. 一種根據本發明之用以編碼被識別語音（speech t〇 be recognized ; STBR)之近端語音編碼方法，以供一位於一遠端之機器完成字組級識別，其相對於一介於該近端與該遠端間之具有一相關語彙大小（V)的對話聲，該方法包括：從所接收之被識別語音（STBR)以逐訊框方式擷取識別一特徵向量（f); 從複數個選擇項目中選取每碼本索引位元數量（B)，或選取一對應於該對話聲或一相關語彙大小（v)的相關碼本大小（S z); 從一具有對應於所擷取識別特徵向量（f)之相關大小（Sz) 的碼本項目選取索引（q);以及構成要傳輸至該遠端的信號’該等信號係從所選索引串（q-string)導出。 2·如申請專利範圍第1項之方法，其中完成選取位元數量 (B)或相關碼本大小（Sz)的方式為，實質上最佳化權值 (metnc)，這是所構成信號之位元傳輸率（BR)與考慮到該對話聲之該相關語彙大小（V)的預期識別率（RR)的函數 3·如申請專利範圍第1項之方法，其中被傳輸之構成信號包括一識別向量位元數量（B)或該相關碼本大小（Sz)的指示。 4.如申請專利範圍第2項之方法，其中被傳輸之構成信號包括一識別向量位元數量（B)或該相關碼本大小（s z)的指示。 -19 - 本紙張尺度適用中國國家標準(CNS) A4规格(210 X 297公釐) 541516

申請專利範圍 5·如申請專利範圍第1項之方法，其中構成信號包括一逐晗間壓縮該所選索引串（q-string)。 6.如申请專利範圍第2項之方法，其中構成信號包括一逐時間壓縮該所選索引串(q-stmig)。 7·如申請專利範圍第1項之方法，其中該方法係由一行動通訊裝置（M S)執行。 8. 如申請專利範圍第2項之方法，其中該方法係由一行動通訊裝置（M S)執行。 9. 一種用以接收近端被識別語音（t〇 be recognized ; STBR)以及用以與一位於一遠端之機器通信之通信裝置，該機器負責完成字組級識別，其相對於一介於該近端與該遠端之間之的對話聲，該裝置包括：一特徵向量擷取器（40)，用以從所接收之被識別語音 (STBR)以逐訊框方式擷取識別特徵向量（f); 一決策組塊（4 4 )，用以從複數個選擇項目中選取每碼本索引位元數量（B )，或選取一對應於該對話聲或一相關語彙大小（V)的相關碼本大小（Sz); 一編碼器（42)，用以從一具有對應於該所擷取識別特徵向量（f)之相關大小（SZ)之碼本的項目選取索引（q);以及 — 一信號構成器（46，48)，用以構成要傳輸至該遠端的信號，該等信號係從所選索引串（q-string)導出。 10. 如申睛專利範圍第8項之裝置，其中完成選取位元數量 (B)或相關碼本大小（sz)的方式為，實質上最佳化權值 -20 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 541516 8 8 8-A B CD 六、申請專利範圍 (metric)，這是所構成信號之位元傳輸率（BR)與考慮到該對話聲之該相關語彙大小（V)的預期識別率（RR)的函數 11.如申請專利範圍第9項之裝置，其中被傳輸之構成信號包括一識別向量位元數量（B)或該相關碼本大小（Sz)的指示0 12·如申請專利範圍第1〇項之裝置，其中被傳輸之構成信號一包括一識別向量位元數量（B)或該相關碼本大小（Sz)的指示。 13·如申請專利範圍第9項之裝置，其中構成信號包括一逐 b間壓Ifg該所選索引串（q_string)。 14·如申請專利範圍第1〇項之裝置，其中構成信號包括一逐 k間壓§亥所選索引串（string)。 15. —種5#音識別方法，包括：接收信號，該等信號係從一對應於從被識別語音（stbr) 擷取之逐訊框擷取之識別特徵向量（f)之碼本中的項目選取之索引串（q-string)導出，其中該等信號一每碼本索引位元數量（B)或該相關鴒本大小（S z)的指示；從所接收信號獲取該索引串（q-stnng); 使用一具有該相關大小（Sz)之碼本從該索引串（q-string) 獲取該·#對應識別特徵向量（f);以及將該等識別特徵向量（f)套用至一字碼級識別處理程序 (HMM) 〇 16·如申請專利範圍第15項之方法，該方法進一步包括依據該識別處理程序的結構採取動作。 -21 - 本纸張尺度適用中國國家橾準(CNS) A4規格(210X297公釐) 541516 8 8 8 8 A B c D ^、申請專利祀圍 17. —種電磁信號，編碼該電磁信號，其中第一資料係從對應於一碼本之項目的索引串（q)導出，其中該等項目對應於從語音擷取的識別特徵向量（f);以及第二資料係用以指示每識別特徵向量（f)位元數量（B)或一相關碼本大小 (Sz) 〇 -22 - 本木取^度逍用中國風务揉平洗格(210>C297公董絲♦々泰$