TW541516B - Distributed speech recognition using dynamically determined feature vector codebook size - Google Patents

Distributed speech recognition using dynamically determined feature vector codebook size Download PDF

Info

Publication number
TW541516B
TW541516B TW90131854A TW90131854A TW541516B TW 541516 B TW541516 B TW 541516B TW 90131854 A TW90131854 A TW 90131854A TW 90131854 A TW90131854 A TW 90131854A TW 541516 B TW541516 B TW 541516B
Authority
TW
Taiwan
Prior art keywords
codebook
size
string
recognition
bits
Prior art date
Application number
TW90131854A
Other languages
English (en)
Inventor
Yin-Pin Yang
Original Assignee
Koninkl Philips Electronics Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninkl Philips Electronics Nv filed Critical Koninkl Philips Electronics Nv
Priority to TW90131854A priority Critical patent/TW541516B/zh
Application granted granted Critical
Publication of TW541516B publication Critical patent/TW541516B/zh

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

541516 A7 B7 五、發明説明(i ) 發明領域 本發明與分佈式語音識別(DSR)系統、裝置、方法及信 號有關,其中語音識別特徵參數係從語音擷取並且在一前 端或後端編碼,以及運載該等特徵參數的電磁信號被傳輸 至一用以完成語音識別的前端或後端。在本發明的特定觀 點中,本發明與分佈式語音識別有關,其中該前端被配備 在一無線行動通信終端機中,而該後端則是經由通信網路 提供。 相關技藝說明 如需運用於行動通信系統中的分佈式語音識別(DSR)相 關資訊,請參考歐洲電信標準委員會(European Telecommunications Standards Institute ; ETSI) Aurora 專案 (請參考 http://www.etsi.org/technicalactiv/dsr.com)。 預期電話架構語音識別服務、語音web瀏覽、以及經由 攜帶型無線通信裝置之其他人機語音通信的需求將會迅速 激增,並且在不久的未來,可能會因使用者經由此類的通 信裝置與位於遠端的機器交談以擷取資訊、進行交易及娛 樂用途而消耗大量的可用網路容量。 ETSI正在考慮適用於行動通信系統的DSR,這是因為 與使用未_透過中間行動通道的語音信號相比,使用透過行 動通道傳輸所獲取的語音信號之語音識別系統的效能會降 級。例如,降級係由於聲碼器(vocoder)編碼低位元傳輸率 語音及通道傳輸錯誤所致。DSR系統克服這些問題,其方式 是相對於機器識別的語音(speech to be recognized ; 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 541516
STBRh排除人類感知語音通常可接受的語音編碼及傳輸錯 二立亚且透過防錯誤保護通道傳送適用於此類自動識別# :曰:數化表不。|f上,語音識別器被分割成兩個苟 Ι,γ第—或前端部件’其位㈣以鮮特徵參數的制 ,行動口上’以及一第二或後端部件,其位於用以完成 所擷取特徵參數之識別的網路上。 、如同傳統語音識別器,語音識別器的第_部件將語調細 =成稱為「訊框」的時間間隔’並且針對每個訊框揭取特 欲參數,以從語調產生特徵參數序列或陣列。針對語彙之 每個可旎的字碼,語音識別器的第二部件將該特徵參數序 列饋送至隱藏式Markov模型(Huiden Markov Model ; hmm),每個字碼的每個HMM均事先被來自於同一說話者 或不同Λ活者(如何應用於說話者非相依性)之不同語調的數 個特徵參數樣本序列連串一起。針對每個受評估字碼, ΗΜΜ評估提供現行語調是受評估字碼的可能性。最後,語 音識別器的第二部件選取最可能的字碼當作識別結果。 雖然依據Aurora專案的DSR不採用向量量子化(vect〇r quaimzadon ; VQ),但是通常已知從特徵參數構成向量資 料,以及使用碼本壓縮此類的向量資料,例如,當透過通 道傳送此—類資料時,其中每個向量均會被代表該向量的對 應碼本索引取代。因此,會將向量時間序列轉換成索引序 列或索引串。於接收端,會使用相同的碼本,以從索引序 列或索引串退原向篁序列。碼本具有在適合的量子化向量 空間中納入代表每個可能向量之索引所需的大小S z,並且 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 __B7 五、發明説明(3 ) 母個索引均疋错由區別碼本中索引所需的位元數量 B = l〇g2(Sz)來描述。 本發明目的是平均上減少通信系統中因分佈式語音識別 所消耗的容量,而不會顯著降級識別效能。本發明進一步 目的是達成減少容量需求,其方式是依據特定對話聲或語 彙大小,動態調整用以表示每個識別特徵向量或對應向量 量子化碼本大小所需的位元數量。 本發明的構想基礎為,離散及連續語音識別的預期最終 識別率會隨語彙大小遞增而遞減,但是會隨每碼本索引的 位元數量或相關碼本大小遞增而遞增。但是,語彙大小會 因對5舌聲而顯著變化。因此,本發明能夠節省網路資源, 同時維持充分預期的識別率,其方式是依據對話聲架構内 可*出或識別的可能字碼或語調數量以動態調整每碼本索 引或相關碼本大小的位元數量。 在較佳做法中,完成位元傳輸率與預期識別率間之交換 的方式是最佳化位元傳輸率與預期識別率之函數的權值 (metnc),例如,使成本函數降至最低限度。碼本索引位元 傳輸率的上限很容易決定,其方式是將每碼本索引除產生 碼本索引的訊框時間間隔。 因此,—一種根據本發明之於一近端編碼被識別語音 (speech to be recognized ; STBR)之語音編碼方法,以供一 位於一遠端之機器完成字碼級識別,其相對於一介於該近 端與該遠端間之具有一相關語彙大小(V)的對話聲,該方法 包括:從所接收之被識別語音以逐訊框方式掏取識別特徵 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 五、發明説明l 向量,從複數個選擇項目中選取代表識別特徵向量之碼本 索引中的位元數量,或選取一對應於該對話聲或相關語彙 大小的相關碼本大小;從具有對應於所擷取識別特徵向量 之相關大小的碼本項目選取索引;以及構成要傳輸至該遠 端的信號,該等信號係從所選索引串導出。 同樣地,一根據本發明之通信裝置包括一特徵向量擷取 决策組塊、一用以從一碼本選取索引之編碼器以及 一信號構成器,其中該決策組塊從數個選擇項目中選取每 索引位元數量或一對應於對話聲或相關語彙大小的相關碼 本大小。 另外,根據本發明另一項觀點,被傳輸之該構成信號包 括一每碼本索引位元數量或該相關碼本大小的指示。 因此,一種位於一遠端之語音識別方法包括:接收信 唬,該等信號係從一對應於從被識別語音擷取之逐訊框擷 取之識別特徵向量之碼本中的項目選取之索引串導出,其 中該等信號一每碼本索引位元數量或該相關碼本大小的指 示;從所接收信號獲取該索引串;使用一具有該相關大小 之碼本從該索引事獲取該等對應識別特徵向量;以及將該 等識別特徵向量套用至一字碼級識別處理程序。 另外,—一種根據本發明之電磁信號被組態,以致該電磁 信號已經過編碼,其中第一資料係從對應於一碼本之項目 的索引串導出,其中該等項目對應於從語音擷取的識別特 徵向量;以及第二資料,用以指示每碼本索引位元數量或 一相關碼本大小。 本纸杀尺度適用中國國家標準(CNS) Α4規格(210X297公釐) 541516 A7 B7 五、發明説明(5 ) 只要詳讀下文中參考附圖解說的詳細說明,將可明白本 發明的上述及其他目的、功能、及優點,其中: 圖1顯示一種分佈式語音識別系統,其包括位於行動台之 前端或近端語音識別階,以及經由網路基礎設施存取的遠 端或後端語音識別階; 圖2 A和2B分別顯示圖1所示之根據本發明之前端或近端 · 語音識別階及遠端或後端語音識別階; 圖3 A和3 B分別顯示針對離散和連續語音識別,語音識別 特徵向量之碼本大小(Sz)或碼本索引所需之位元數量(B)與 識別率(RR)之間關係的形式; 圖4顯示根據本發明,在預先決定範圍内尋找用以最佳化 成本函數之碼本索引所需之位元數量(B)的流程圖;以及 圖5顯示根據本發明之介於近端與遠端之間傳輸之信號中 之整個時間的資料組織。 本發明提出一種人機通訊協定,本發明人稱之為「無線 語音通訊協定」(Wireless Speech Protocol ; WSP),用以以 有助於自動化語音識別而不是人類感知語音的方式壓縮要 透過無線鏈結從近端傳輸至遠端的語音,並且於遠端自動 識別。WSP採用分佈式語音識別(distributed speech recognition ; DSR)的觀念,其中語音識別器被分割成兩個 部件,其中一部件位於近端,而另一部件位於遠端。 請參考圖1,圖中顯示一種數位無線通信系統1 0,例如, 行動通信全球定位系統(Global System for Mobile Communications ; GSM)、分時多向近接(Time Division 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 541516 A7 B7
Muldple Access ; TDMA)、分碼多向近接(c〇de⑴如时 Mixldple Access ; CDMA)、或針對通用行動電話系統 (Universal MobUe Telephone System ; UMTS)或第三代合夥 專案(Third Generation Partnership Project ; 3G-PP)建議的 系統,該系統包括複數個行動台,其中如圖所示的行動台 1 2包括如端或近端語音識別單元或階丨4。前端單元1 *實質 上屬於傳統字碼識別器的一部份,其適用於離散語音(二, 以在字碼之間短暫暫方式說話的語音)或自然或連續語音, 該字碼識別器從行動台麥克風15輸入的語音擷取識別特徵 向量。其達成方式是,在包括位信號處理器(Dsp)與微處理 器的行動台12内的一般處理資源(圖中未顯示)執行r〇m架 構軟體。 通信系統10進一步包括具有不同地理涵蓋區域的複數個 基地台,如圖所示的基地台16和18。基於解說用途,如圖 所示的行動台1 2經由通信鏈結丨7與基地台i 6通信,雖然已 知,當行動台12從基地台16的涵蓋區域移動至基地台“的 涵蓋區域時,會經由與基地台16和18通信的基地台控制器 20執行交遞協調或操控,以促使行動台12建立與基地台18 之間的通信鏈結(圖中未顯示),並且切斷與基地台丨6之間 的通信鏈」结1 7。 起源於基地台12的資料(包括從前端單元14的輸出所導出 的資料)係從行動台12傳達至基地台16(行動台目前與之通 信中的基地台),並且還會行進至基地台控制器2〇,然後行 進至網路控制器22,其中網路控制器係連接至各種網路, -10 - 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 541516 A7 B7 五、發明説明(7 ) 包括資料網路2 4及其他資源,例如,傳統舊式電話服務 (POTS) 20 ^從前端單元14的輸出所導出的資料透過無線鍵 結1 7運載至基地台1 6,其方式是將資料多工處理成為資料 通道、或通用封包無線電系統(General Packet Radio System ; GPRS)通道,或可透過短訊息服務(Short Message Service ; SMS)或類似通道傳送。資料網路24係耦合至應 用程式伺服器2 8,該應用程式伺服器包括後端語音識別單 元或階3 0。後端單元3 0實質上屬於傳統字碼識別器的一 部份,其適用於離散語音或自然語音,用以在前端單元14 擷取的所擷取識別特徵向量上構成字組級識別,其通常使 用隱藏式Markov模型(Hidden Markov Model ; HMM)。應用 程式伺服器2 8可採用耦合至公用網際網路3 2的閘道器、路 由器或代理伺服器(圖中未顯示)的形式或一致的動作。 由於目前的對話聲(其中後端單元10完成自動化字組級識 別的方式為,比較一組預先決定之可能被識別的語調,例 如’字組清單),後端單元3 〇的語音識別結果促使從應用程 式伺服器2 8獲取資料及/或語音,或藉由應用程式伺服器2 8 從可存取的資源(如公用網際網路3 2)獲取資料及/或語音, 以經由資料網路2 4、網路控制器2 2、基地台控制器2 0及基 地台1 6傳送至行動台1 2。例如’該資料可能是語音xml web網頁,用以定義目前對話聲中可能的語調及相關語彙大 小Sz ’這些網站係供受語音控制型微瀏覽器34使用,或供 藉由在前面提及之位於基地台12之處理資源上的尺〇1^架構 軟體所實施的其他適合的前端用戶端使用。 ____- 11 · 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)- 541516
▲前端單元14與後端單元3〇之間分割的語音識別演算法可 =係以已知的Mel-Cepstrum演算法為基礎,其非常適用於 月J而有低月厅、雜訊程度的情況,或是以其他演算法為基 礎,其適用於當在汽車中使用行動電話時可能會遇到之更 咼要求背景雜訊的情況。搜尋及評估適用於行動電話背景 之分佈式語音識別的演算法均是前面提及之ETSI 專
裝 案的工作項目。該專案目前的目標是4.8 kbits/sec。但是, 本發明人相信,使用本發明可達成Aur〇ra目標位元傳輸率十 分之一的平均位元傳輸率,其中會依據目前對話聲中的語 彙大小來調節識別特徵向量空間的量子化,或調整編碼向 量量子化碼本索引所需的位元數量。
有兩種主要類型的語音識別器,離散隱藏式Mark〇v模型 (HMM)和連續隱藏式Markov模型(HMM),這兩種語音識別 器使用不同的方式在特徵空間上「儲存」語音特性。就離 月文HMM而$ ,已措由向量量子化(vq)達成被識別語音 (STBR)的逐訊框壓縮,其中一個訊框的碼本索引q值使用 的位元數量B等於log2(Sz),其中Sz是碼本大小。一般而 言,VQ中的碼本大小Sz已針對語音識別工作最佳化,並且 理論上減少每碼本索引q值的位元數量B會使識別率(RR)降 級。但是一’藉由考慮識別率RR如何隨位元數量B遞減而遞 減,可完成識別率RR與位元數量B之間的交換。圖3A和3B 分別顯示離散HMM和連續HMM中識別率RR與每碼本索引 之位元數量B或碼本大小S z間的關係,其具有接收器運算子 特性(Receiver Operator Characteristic ; ROC)本質中的單調 -12 - 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 541516 A7 B7 五、發明説明(9 ) 漸減的斜率。 請注意,在離散HMM中,HMM串連所使用之每個q值的 位元數量B與HMM評估時使用的位元數量相同(當識別 時)。但是,圖3A係以串連所有HMM時使用的固定碼本大 小S z (例如,2 5 6)為基礎,但是較小值調節碼本S z (例如, 12 8、64或3 2)係用於識別(HMM評估)。因此,需要簡易 -修改慣用的離散Η Μ Μ評估演算法,以適應這項差異。 就連續Η Μ Μ而言,適用類似的觀念。雖然受連續η Μ Μ 中通常未使用V Q。圖3 Β係以串連階段過程中使用的連續 ΗΜΜ為基礎,但是VQ係用於識別階段。(請注意:一個訊 框之VQ的輸出是向量。就一個語調而言,產生的向量序列 或陣列可直接饋送至連續ΗΜΜ評估階)。 在傳統語音識別工作中,每碼本索引之位元數量Β必需足 夠大,才能針對所有可能的識別工作維持最佳識別率RR。 但疋,^透過播線糸統傳輸V Q碼本索引時,應考慮到傳輸 成本。殊線傳輸資源有限且非常昂貴,並且較低的每碼本 索引位元數量會導致較低的傳輸位元傳輸率BR。因此,為 了位元傳輸率BR與識別率RR之間的交換,會使用適當的權 值(metric),這是這兩項參數的函數。 下列線_性成本函數被選為按減縮到最小所最佳化的權值 (metric)。
Cost = BR - w * RR* 其中’ W是整個語調之平均傳輸位元傳輸率(BR)與識別率 ⑽)之間的交換權值。在前面說明之逐時間壓縮碼本索引 —- ___-13 - 本紙張尺度通财顯家料(CNS)规格撕公董) ------- 541516 A7 B7 五、發明説明(1〇 ) 串(q-string)之前,平均位元傳輸率BR被計算為每碼本索引 位元數量B除連續訊框開始之間的已知固定時間間隔。 成本函數係以逐對話聲為基礎最佳化,即,即個別針對 每個「對話聲」,而不是針對一連串不同對話聲的整個識 別工作。顯而易見,附屬於每個對話聲的文法規則可大幅 降減識別的複雜度,並且可相對降低位元傳輸率BR或減少 -每碼本索引位元數量B而不會影響RR太多,因此可降低成 本。這可使用接收器運算子特性語言模型(Receiver Operator Characteristic Language Modeling ; ROC-LM)技術 來完成。如需這項技術的說明,請參考ICSLP 96中Yin-Pm Yang 和 John Deller 著作的「Automated Evaluation of Language Models based on Receiver-Operator-Characteristics Analysis」文章。 在ROC-LM中具有下列的公式: RR^f f(x\c) f f(y\w)dy dx 其中,f(x|c)是當將正確字組饋送至自己的字組範本(HMM) 時,字組級HMM評估結果的機率分佈式函數(p.d.f)(可能 性),而f(y|w)是當將錯誤字組饋送至任何隨機挑選的字組 範本(HMM)時,字組級HMM評估結果的p.d.f。|V|是假設 這是字組識別器的語彙大小。 當減少每碼本索引位元數量B時,即,碼本大小S z較小 時,f(x|c)與f(y|w)之間的不明確會增加,因此,會降低識 別率RR。 -14 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
541516 A7 B7 11 五、發明説明( 根據本發明前面的公武,p 土 1备 '已知浯彙大小丨VK即,已知對話 聲和文法)’纟垂直軸上標繪識別率以,以及在水平轴上f 緣位元數量B(或對應的碼本大小Sz)。然後,針對離散㈣ 續語音識別分別提供圖3 A和圖3B。
裝 接著考慮針對-個語調產生之碼本索引争(㈣mg)的逐 時間壓縮。由於q-stnngh值的連續特性,所以可使用運行 長度編瑪機制來降低位元傳輸率,其方式是加人額外的位 兀,用以指示特定q值的運行長度。例如,如果用7位位元 來描述每個q值(值範圍為從〇到127),並且使用額外的3位 位元來描述運行長度(範圍為從1到8),則下面說明的1〇個^ 值串需要10*7位位元=70位位元: 1-1-9-9-9-9.5.5-5-127 這個值串可減少到下面的4個q值串,其需要4*(7 + 3) = 4〇位 位元: 1[2]-9[4]-5[3]-127[1]
租/主思,在逐時間壓縮之後,一個q-string (或稱為語調) 的整個平均位元傳輸率(B R)與B (這是每碼本索引q的位元 數量)之間的關係為非線性。 現在請參考圖2A,圖中所示的前端語音識別單元包括: 組塊40,—用以將被識別語音(STBR)細分成訊框並擷取每個 訊框的一組識別特徵參數;接著是碼本向量量子化組塊 42 ’用以將訊框的每組特徵參數轉換成特徵向量,並且輸 入代表特徵向量的碼本索引q。基於相容於ETSI Aurora專案 提供的分佈式語音識別(DSR)的目的,可根據如本文中「第 __ - 15 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 _ ______B7 五、發明説明(12 ) '~ " 一層」(” Layer 1 ”)指示的作業模式傳送特徵參數擷取組塊 的輸出,而不需要任何介於中間的向量量子化,反之,根 據本發明之使用節調碼本向量量子化的作業模式被標示為 「第二層」("Layer 2")。 調節碼本組塊42使用的碼本大小32,或每碼本索引q的位 疋數量B均是在決策組塊44中決定,以響應目前對話聲的語_ 彙大小IV卜並被傳達至組塊42。這項決策係以最佳化權值 (metnc)為基礎,這是預期平均位元傳輸率BR與預期識別 率RR的函數,如上文所述。作出決策的方式為,計算整個 B值範圍的Cost (成本),例如,從4到丨0範圍内的B (相當於 範圍從2、16至210=1〇24的碼本大小Sz),並且找出產生最 低Cost的最值B。這可依據圖4所示之流程圖迴圈完成。 其中,先在步驟5 0將B值初始化成範圍内的最小值,即 4。然後,於步驟52,依據圖3A與3B中適用的圖式與前面 的討論,從B值以及從語彙大小丨v丨計算目前對話聲的識別 率RR。並且,於步驟52,從B值計算預期的平均位元傳輸 率BR。如果無法取得介於預期位元傳輸率8尺與]6值之間的 非線性關係,則可用位元傳輸率BR等於B值除訊框時間間 隔的線性關係取代之,這是因為它構成實際位元傳輸率的 上限。隨—著討論進度將會看到,由於圖2八所示之組塊46中 的「逐時間」壓縮,實際位元傳輸率會從上限開始下降。 然後,於步驟54,將Co st計算為識別率尺尺與位元傳輸率 B R的函數。 於步驟56,如果計算得出的C〇st小於變數c〇st一ΜΑχ (這 -16 - 本紙張尺度適用中® S家料(CNS) Α4規格(2l〇x 297公釐) ------- 541516 A7 _______ B7 五、發明説明(13 ) 個變數被初始化成極大於使用B = 4計算得出之預測值的 值),則會將變數Cost 一 MAX設定為等於計算得出的Cost, 並且將變數B__opt設定為等於目前的b值。之後,於步驟 58 ’以壹為單位遞增B值,並且決定產生的b值是否大於或 等於壹。如果「是」,則輸出B_opt的現行值,反之如果 「’’no”」,則會迴圈回到步驟52,以使用新b值來計算識 -別率RR與位元傳輸率B R。顯而易見,迴圈繼續返回,直到 使用B=10計算最後的Cost為止。 組合組塊40與42可將STBR以逐訊框方式有效地壓縮或量 子化成為碼本索引序列或碼本索引中,或「”q-string’’」。q-string被饋送至組塊4 6,用以執行前面提及的「逐時間」壓 縮’以藉由(例如)運行長度編碼來去除q-string中不必要或 重複的值。然後,於組塊48,q-stdng被封裝成通訊協定, 其中整個時間的資料流被組織化,以至少指示每碼本索引B 的位元數量(B),以及q-string的碼本索引q值(如果採用逐 時間壓縮組塊46,則是運行長度累積的值)。圖5顯示示範 性的資料組織,其中: ID:指示這是WSP通訊協定(根據本發明);
Layer:指示層號碼。Layer = 2適用於WSP通訊協定,反 之Layer —= 1適用於為相容於已知的Aurora專案DSR的目 的’其中會傳送原始特徵參數,而不會傳送VQ ; qL :指示q_string長度; B:指示每q值的位元數量;以及 Q1,· ·,qL-i:q-string 值。 __ _ 17 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 B7
如圖2B所示,後端語音識別階30包括:用以接收及解封 裝依據WSP通訊協定傳輸之資料的組塊6〇 ;用以將已解封 裝之位元流解碼成q-string的組塊6 4 ;以及使用碼本大小 Sz = 2BW碼本反轉向量量子化(VQ)的組塊64,其中b是傳 輸中標示之每q值的位元數量β,以獲取特徵參數集序列。 最後’將特徵參數集序列輸入至連續ΗΜΜ評估組塊66,並 且將評估輸出供應至進行識別決策的組塊68。 顯而易見,現在已達成本發明的目的。儘管已特別詳細 說明本發明,然而應知道,於本發明的預定精神與範疇内 可作各種修改。應知道於解說隨附申請專利範圍中: a) 申請專利範圍中的「”包括”」並不排除使用其他的元件 或步驟; b) 出現在元件之前的「”一個”」並不排除使用複數個此類 的元件; Ο申請專利範圍中的參考符號並不限制其範疇;以及 d)數個「”裝置”」可能以相同項目之建置結構或功能之硬 體或軟體表示。 ____- 18 - ----- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

Claims (1)

  1. 541516 8 8 8 8 AB c D 六、申請專利範圍 1. 一種根據本發明之用以編碼被識別語音(speech t〇 be recognized ; STBR)之近端語音編碼方法,以供一位於一 遠端之機器完成字組級識別,其相對於一介於該近端與 該遠端間之具有一相關語彙大小(V)的對話聲,該方法包 括: 從所接收之被識別語音(STBR)以逐訊框方式擷取識別一 特徵向量(f); 從複數個選擇項目中選取每碼本索引位元數量(B),或 選取一對應於該對話聲或一相關語彙大小(v)的相關碼本 大小(S z); 從一具有對應於所擷取識別特徵向量(f)之相關大小(Sz) 的碼本項目選取索引(q);以及 構成要傳輸至該遠端的信號’該等信號係從所選索引 串(q-string)導出。 2·如申請專利範圍第1項之方法,其中完成選取位元數量 (B)或相關碼本大小(Sz)的方式為,實質上最佳化權值 (metnc),這是所構成信號之位元傳輸率(BR)與考慮到該 對話聲之該相關語彙大小(V)的預期識別率(RR)的函數 3·如申請專利範圍第1項之方法,其中被傳輸之構成信號 包括一識別向量位元數量(B)或該相關碼本大小(Sz)的指 示。 4.如申請專利範圍第2項之方法,其中被傳輸之構成信號 包括一識別向量位元數量(B)或該相關碼本大小(s z)的指 示。 -19 - 本紙張尺度適用中國國家標準(CNS) A4规格(210 X 297公釐) 541516
    申請專利範圍 5·如申請專利範圍第1項之方法,其中構成信號包括一逐 晗間壓縮該所選索引串(q-string)。 6.如申请專利範圍第2項之方法,其中構成信號包括一逐 時間壓縮該所選索引串(q-stmig)。 7·如申請專利範圍第1項之方法,其中該方法係由一行動 通訊裝置(M S)執行。 8. 如申請專利範圍第2項之方法,其中該方法係由一行動 通訊裝置(M S)執行。 9. 一種用以接收近端被識別語音(t〇 be recognized ; STBR)以及用以與一位於一遠端之機器通信之通信裝置, 該機器負責完成字組級識別,其相對於一介於該近端與 該遠端之間之的對話聲,該裝置包括: 一特徵向量擷取器(40),用以從所接收之被識別語音 (STBR)以逐訊框方式擷取識別特徵向量(f); 一決策組塊(4 4 ),用以從複數個選擇項目中選取每碼 本索引位元數量(B ),或選取一對應於該對話聲或一相關 語彙大小(V)的相關碼本大小(Sz); 一編碼器(42),用以從一具有對應於該所擷取識別特 徵向量(f)之相關大小(SZ)之碼本的項目選取索引(q);以 及 — 一信號構成器(46,48),用以構成要傳輸至該遠端的 信號,該等信號係從所選索引串(q-string)導出。 10. 如申睛專利範圍第8項之裝置,其中完成選取位元數量 (B)或相關碼本大小(sz)的方式為,實質上最佳化權值 -20 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 541516 8 8 8-A B CD 六、申請專利範圍 (metric),這是所構成信號之位元傳輸率(BR)與考慮到該 對話聲之該相關語彙大小(V)的預期識別率(RR)的函數 11.如申請專利範圍第9項之裝置,其中被傳輸之構成信號 包括一識別向量位元數量(B)或該相關碼本大小(Sz)的指 示0 12·如申請專利範圍第1〇項之裝置,其中被傳輸之構成信號一 包括一識別向量位元數量(B)或該相關碼本大小(Sz)的指 示。 13·如申請專利範圍第9項之裝置,其中構成信號包括一逐 b間壓Ifg該所選索引串(q_string)。 14·如申請專利範圍第1〇項之裝置,其中構成信號包括一逐 k間壓§亥所選索引串(string)。 15. —種5#音識別方法,包括: 接收信號,該等信號係從一對應於從被識別語音(stbr) 擷取之逐訊框擷取之識別特徵向量(f)之碼本中的項目選 取之索引串(q-string)導出,其中該等信號一每碼本索引 位元數量(B)或該相關鴒本大小(S z)的指示; 從所接收信號獲取該索引串(q-stnng); 使用一具有該相關大小(Sz)之碼本從該索引串(q-string) 獲取該·#對應識別特徵向量(f);以及 將該等識別特徵向量(f)套用至一字碼級識別處理程序 (HMM) 〇 16·如申請專利範圍第15項之方法,該方法進一步包括依據 該識別處理程序的結構採取動作。 -21 - 本纸張尺度適用中國國家橾準(CNS) A4規格(210X297公釐) 541516 8 8 8 8 A B c D ^、申請專利祀圍 17. —種電磁信號,編碼該電磁信號,其中第一資料係從對 應於一碼本之項目的索引串(q)導出,其中該等項目對應 於從語音擷取的識別特徵向量(f);以及第二資料係用以 指示每識別特徵向量(f)位元數量(B)或一相關碼本大小 (Sz) 〇 -22 - 本木取^度逍用中國風务揉平洗格(210>C297公董絲♦々泰$
TW90131854A 2001-12-21 2001-12-21 Distributed speech recognition using dynamically determined feature vector codebook size TW541516B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW90131854A TW541516B (en) 2001-12-21 2001-12-21 Distributed speech recognition using dynamically determined feature vector codebook size

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW90131854A TW541516B (en) 2001-12-21 2001-12-21 Distributed speech recognition using dynamically determined feature vector codebook size

Publications (1)

Publication Number Publication Date
TW541516B true TW541516B (en) 2003-07-11

Family

ID=29708210

Family Applications (1)

Application Number Title Priority Date Filing Date
TW90131854A TW541516B (en) 2001-12-21 2001-12-21 Distributed speech recognition using dynamically determined feature vector codebook size

Country Status (1)

Country Link
TW (1) TW541516B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI578307B (zh) * 2016-05-20 2017-04-11 Mitsubishi Electric Corp 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI578307B (zh) * 2016-05-20 2017-04-11 Mitsubishi Electric Corp 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法

Similar Documents

Publication Publication Date Title
US7219057B2 (en) Speech recognition method
KR100391287B1 (ko) 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화
Pearce Enabling new speech driven services for mobile devices: An overview of the ETSI standards activities for distributed speech recognition front-ends
KR100193196B1 (ko) 신호를 그룹 엔코딩하기 위한 방법 및 장치
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
CN1653521B (zh) 用于音频代码转换中的自适应码本音调滞后计算的方法
JP4842472B2 (ja) フレーム抹消条件下で予測音声コーダの性能を改良するためにデコーダからエンコーダにフィードバックを供給するための方法および装置
JP2001500344A (ja) タンデム型ボコーダの音質を改良する方法および装置
CN106463142A (zh) 话音简档管理和语音信号产生
KR20030076646A (ko) 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치
CA2557000A1 (en) Communication device, signal encoding/decoding method
CN107851441A (zh) 高频带目标信号控制
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
JP2001356792A (ja) 自動音声認識実行方法および装置
CN107851439A (zh) 在带宽变换周期期间的信号再使用
US6073094A (en) Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US20050143979A1 (en) Variable-frame speech coding/decoding apparatus and method
JP2003517157A (ja) 位相スペクトル情報をサブサンプリングする方法および装置
EP1020848A2 (en) Method for transmitting auxiliary information in a vocoder stream
US20040024589A1 (en) Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus
TW541516B (en) Distributed speech recognition using dynamically determined feature vector codebook size
US7536298B2 (en) Method of comfort noise generation for speech communication
US7542897B2 (en) Condensed voice buffering, transmission and playback
CN1212604C (zh) 基于可变速语音编码的语音合成器
JP3954288B2 (ja) 音声符号化信号変換装置

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees