TW541516B - Distributed speech recognition using dynamically determined feature vector codebook size - Google Patents
Distributed speech recognition using dynamically determined feature vector codebook size Download PDFInfo
- Publication number
- TW541516B TW541516B TW90131854A TW90131854A TW541516B TW 541516 B TW541516 B TW 541516B TW 90131854 A TW90131854 A TW 90131854A TW 90131854 A TW90131854 A TW 90131854A TW 541516 B TW541516 B TW 541516B
- Authority
- TW
- Taiwan
- Prior art keywords
- codebook
- size
- string
- recognition
- bits
- Prior art date
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
541516 A7 B7 五、發明説明(i ) 發明領域 本發明與分佈式語音識別(DSR)系統、裝置、方法及信 號有關,其中語音識別特徵參數係從語音擷取並且在一前 端或後端編碼,以及運載該等特徵參數的電磁信號被傳輸 至一用以完成語音識別的前端或後端。在本發明的特定觀 點中,本發明與分佈式語音識別有關,其中該前端被配備 在一無線行動通信終端機中,而該後端則是經由通信網路 提供。 相關技藝說明 如需運用於行動通信系統中的分佈式語音識別(DSR)相 關資訊,請參考歐洲電信標準委員會(European Telecommunications Standards Institute ; ETSI) Aurora 專案 (請參考 http://www.etsi.org/technicalactiv/dsr.com)。 預期電話架構語音識別服務、語音web瀏覽、以及經由 攜帶型無線通信裝置之其他人機語音通信的需求將會迅速 激增,並且在不久的未來,可能會因使用者經由此類的通 信裝置與位於遠端的機器交談以擷取資訊、進行交易及娛 樂用途而消耗大量的可用網路容量。 ETSI正在考慮適用於行動通信系統的DSR,這是因為 與使用未_透過中間行動通道的語音信號相比,使用透過行 動通道傳輸所獲取的語音信號之語音識別系統的效能會降 級。例如,降級係由於聲碼器(vocoder)編碼低位元傳輸率 語音及通道傳輸錯誤所致。DSR系統克服這些問題,其方式 是相對於機器識別的語音(speech to be recognized ; 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 541516
STBRh排除人類感知語音通常可接受的語音編碼及傳輸錯 二立亚且透過防錯誤保護通道傳送適用於此類自動識別# :曰:數化表不。|f上,語音識別器被分割成兩個苟 Ι,γ第—或前端部件’其位㈣以鮮特徵參數的制 ,行動口上’以及一第二或後端部件,其位於用以完成 所擷取特徵參數之識別的網路上。 、如同傳統語音識別器,語音識別器的第_部件將語調細 =成稱為「訊框」的時間間隔’並且針對每個訊框揭取特 欲參數,以從語調產生特徵參數序列或陣列。針對語彙之 每個可旎的字碼,語音識別器的第二部件將該特徵參數序 列饋送至隱藏式Markov模型(Huiden Markov Model ; hmm),每個字碼的每個HMM均事先被來自於同一說話者 或不同Λ活者(如何應用於說話者非相依性)之不同語調的數 個特徵參數樣本序列連串一起。針對每個受評估字碼, ΗΜΜ評估提供現行語調是受評估字碼的可能性。最後,語 音識別器的第二部件選取最可能的字碼當作識別結果。 雖然依據Aurora專案的DSR不採用向量量子化(vect〇r quaimzadon ; VQ),但是通常已知從特徵參數構成向量資 料,以及使用碼本壓縮此類的向量資料,例如,當透過通 道傳送此—類資料時,其中每個向量均會被代表該向量的對 應碼本索引取代。因此,會將向量時間序列轉換成索引序 列或索引串。於接收端,會使用相同的碼本,以從索引序 列或索引串退原向篁序列。碼本具有在適合的量子化向量 空間中納入代表每個可能向量之索引所需的大小S z,並且 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 __B7 五、發明説明(3 ) 母個索引均疋错由區別碼本中索引所需的位元數量 B = l〇g2(Sz)來描述。 本發明目的是平均上減少通信系統中因分佈式語音識別 所消耗的容量,而不會顯著降級識別效能。本發明進一步 目的是達成減少容量需求,其方式是依據特定對話聲或語 彙大小,動態調整用以表示每個識別特徵向量或對應向量 量子化碼本大小所需的位元數量。 本發明的構想基礎為,離散及連續語音識別的預期最終 識別率會隨語彙大小遞增而遞減,但是會隨每碼本索引的 位元數量或相關碼本大小遞增而遞增。但是,語彙大小會 因對5舌聲而顯著變化。因此,本發明能夠節省網路資源, 同時維持充分預期的識別率,其方式是依據對話聲架構内 可*出或識別的可能字碼或語調數量以動態調整每碼本索 引或相關碼本大小的位元數量。 在較佳做法中,完成位元傳輸率與預期識別率間之交換 的方式是最佳化位元傳輸率與預期識別率之函數的權值 (metnc),例如,使成本函數降至最低限度。碼本索引位元 傳輸率的上限很容易決定,其方式是將每碼本索引除產生 碼本索引的訊框時間間隔。 因此,—一種根據本發明之於一近端編碼被識別語音 (speech to be recognized ; STBR)之語音編碼方法,以供一 位於一遠端之機器完成字碼級識別,其相對於一介於該近 端與該遠端間之具有一相關語彙大小(V)的對話聲,該方法 包括:從所接收之被識別語音以逐訊框方式掏取識別特徵 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 五、發明説明l 向量,從複數個選擇項目中選取代表識別特徵向量之碼本 索引中的位元數量,或選取一對應於該對話聲或相關語彙 大小的相關碼本大小;從具有對應於所擷取識別特徵向量 之相關大小的碼本項目選取索引;以及構成要傳輸至該遠 端的信號,該等信號係從所選索引串導出。 同樣地,一根據本發明之通信裝置包括一特徵向量擷取 决策組塊、一用以從一碼本選取索引之編碼器以及 一信號構成器,其中該決策組塊從數個選擇項目中選取每 索引位元數量或一對應於對話聲或相關語彙大小的相關碼 本大小。 另外,根據本發明另一項觀點,被傳輸之該構成信號包 括一每碼本索引位元數量或該相關碼本大小的指示。 因此,一種位於一遠端之語音識別方法包括:接收信 唬,該等信號係從一對應於從被識別語音擷取之逐訊框擷 取之識別特徵向量之碼本中的項目選取之索引串導出,其 中該等信號一每碼本索引位元數量或該相關碼本大小的指 示;從所接收信號獲取該索引串;使用一具有該相關大小 之碼本從該索引事獲取該等對應識別特徵向量;以及將該 等識別特徵向量套用至一字碼級識別處理程序。 另外,—一種根據本發明之電磁信號被組態,以致該電磁 信號已經過編碼,其中第一資料係從對應於一碼本之項目 的索引串導出,其中該等項目對應於從語音擷取的識別特 徵向量;以及第二資料,用以指示每碼本索引位元數量或 一相關碼本大小。 本纸杀尺度適用中國國家標準(CNS) Α4規格(210X297公釐) 541516 A7 B7 五、發明説明(5 ) 只要詳讀下文中參考附圖解說的詳細說明,將可明白本 發明的上述及其他目的、功能、及優點,其中: 圖1顯示一種分佈式語音識別系統,其包括位於行動台之 前端或近端語音識別階,以及經由網路基礎設施存取的遠 端或後端語音識別階; 圖2 A和2B分別顯示圖1所示之根據本發明之前端或近端 · 語音識別階及遠端或後端語音識別階; 圖3 A和3 B分別顯示針對離散和連續語音識別,語音識別 特徵向量之碼本大小(Sz)或碼本索引所需之位元數量(B)與 識別率(RR)之間關係的形式; 圖4顯示根據本發明,在預先決定範圍内尋找用以最佳化 成本函數之碼本索引所需之位元數量(B)的流程圖;以及 圖5顯示根據本發明之介於近端與遠端之間傳輸之信號中 之整個時間的資料組織。 本發明提出一種人機通訊協定,本發明人稱之為「無線 語音通訊協定」(Wireless Speech Protocol ; WSP),用以以 有助於自動化語音識別而不是人類感知語音的方式壓縮要 透過無線鏈結從近端傳輸至遠端的語音,並且於遠端自動 識別。WSP採用分佈式語音識別(distributed speech recognition ; DSR)的觀念,其中語音識別器被分割成兩個 部件,其中一部件位於近端,而另一部件位於遠端。 請參考圖1,圖中顯示一種數位無線通信系統1 0,例如, 行動通信全球定位系統(Global System for Mobile Communications ; GSM)、分時多向近接(Time Division 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐) 541516 A7 B7
Muldple Access ; TDMA)、分碼多向近接(c〇de⑴如时 Mixldple Access ; CDMA)、或針對通用行動電話系統 (Universal MobUe Telephone System ; UMTS)或第三代合夥 專案(Third Generation Partnership Project ; 3G-PP)建議的 系統,該系統包括複數個行動台,其中如圖所示的行動台 1 2包括如端或近端語音識別單元或階丨4。前端單元1 *實質 上屬於傳統字碼識別器的一部份,其適用於離散語音(二, 以在字碼之間短暫暫方式說話的語音)或自然或連續語音, 該字碼識別器從行動台麥克風15輸入的語音擷取識別特徵 向量。其達成方式是,在包括位信號處理器(Dsp)與微處理 器的行動台12内的一般處理資源(圖中未顯示)執行r〇m架 構軟體。 通信系統10進一步包括具有不同地理涵蓋區域的複數個 基地台,如圖所示的基地台16和18。基於解說用途,如圖 所示的行動台1 2經由通信鏈結丨7與基地台i 6通信,雖然已 知,當行動台12從基地台16的涵蓋區域移動至基地台“的 涵蓋區域時,會經由與基地台16和18通信的基地台控制器 20執行交遞協調或操控,以促使行動台12建立與基地台18 之間的通信鏈結(圖中未顯示),並且切斷與基地台丨6之間 的通信鏈」结1 7。 起源於基地台12的資料(包括從前端單元14的輸出所導出 的資料)係從行動台12傳達至基地台16(行動台目前與之通 信中的基地台),並且還會行進至基地台控制器2〇,然後行 進至網路控制器22,其中網路控制器係連接至各種網路, -10 - 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 541516 A7 B7 五、發明説明(7 ) 包括資料網路2 4及其他資源,例如,傳統舊式電話服務 (POTS) 20 ^從前端單元14的輸出所導出的資料透過無線鍵 結1 7運載至基地台1 6,其方式是將資料多工處理成為資料 通道、或通用封包無線電系統(General Packet Radio System ; GPRS)通道,或可透過短訊息服務(Short Message Service ; SMS)或類似通道傳送。資料網路24係耦合至應 用程式伺服器2 8,該應用程式伺服器包括後端語音識別單 元或階3 0。後端單元3 0實質上屬於傳統字碼識別器的一 部份,其適用於離散語音或自然語音,用以在前端單元14 擷取的所擷取識別特徵向量上構成字組級識別,其通常使 用隱藏式Markov模型(Hidden Markov Model ; HMM)。應用 程式伺服器2 8可採用耦合至公用網際網路3 2的閘道器、路 由器或代理伺服器(圖中未顯示)的形式或一致的動作。 由於目前的對話聲(其中後端單元10完成自動化字組級識 別的方式為,比較一組預先決定之可能被識別的語調,例 如’字組清單),後端單元3 〇的語音識別結果促使從應用程 式伺服器2 8獲取資料及/或語音,或藉由應用程式伺服器2 8 從可存取的資源(如公用網際網路3 2)獲取資料及/或語音, 以經由資料網路2 4、網路控制器2 2、基地台控制器2 0及基 地台1 6傳送至行動台1 2。例如’該資料可能是語音xml web網頁,用以定義目前對話聲中可能的語調及相關語彙大 小Sz ’這些網站係供受語音控制型微瀏覽器34使用,或供 藉由在前面提及之位於基地台12之處理資源上的尺〇1^架構 軟體所實施的其他適合的前端用戶端使用。 ____- 11 · 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)- 541516
▲前端單元14與後端單元3〇之間分割的語音識別演算法可 =係以已知的Mel-Cepstrum演算法為基礎,其非常適用於 月J而有低月厅、雜訊程度的情況,或是以其他演算法為基 礎,其適用於當在汽車中使用行動電話時可能會遇到之更 咼要求背景雜訊的情況。搜尋及評估適用於行動電話背景 之分佈式語音識別的演算法均是前面提及之ETSI 專
裝 案的工作項目。該專案目前的目標是4.8 kbits/sec。但是, 本發明人相信,使用本發明可達成Aur〇ra目標位元傳輸率十 分之一的平均位元傳輸率,其中會依據目前對話聲中的語 彙大小來調節識別特徵向量空間的量子化,或調整編碼向 量量子化碼本索引所需的位元數量。
有兩種主要類型的語音識別器,離散隱藏式Mark〇v模型 (HMM)和連續隱藏式Markov模型(HMM),這兩種語音識別 器使用不同的方式在特徵空間上「儲存」語音特性。就離 月文HMM而$ ,已措由向量量子化(vq)達成被識別語音 (STBR)的逐訊框壓縮,其中一個訊框的碼本索引q值使用 的位元數量B等於log2(Sz),其中Sz是碼本大小。一般而 言,VQ中的碼本大小Sz已針對語音識別工作最佳化,並且 理論上減少每碼本索引q值的位元數量B會使識別率(RR)降 級。但是一’藉由考慮識別率RR如何隨位元數量B遞減而遞 減,可完成識別率RR與位元數量B之間的交換。圖3A和3B 分別顯示離散HMM和連續HMM中識別率RR與每碼本索引 之位元數量B或碼本大小S z間的關係,其具有接收器運算子 特性(Receiver Operator Characteristic ; ROC)本質中的單調 -12 - 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 541516 A7 B7 五、發明説明(9 ) 漸減的斜率。 請注意,在離散HMM中,HMM串連所使用之每個q值的 位元數量B與HMM評估時使用的位元數量相同(當識別 時)。但是,圖3A係以串連所有HMM時使用的固定碼本大 小S z (例如,2 5 6)為基礎,但是較小值調節碼本S z (例如, 12 8、64或3 2)係用於識別(HMM評估)。因此,需要簡易 -修改慣用的離散Η Μ Μ評估演算法,以適應這項差異。 就連續Η Μ Μ而言,適用類似的觀念。雖然受連續η Μ Μ 中通常未使用V Q。圖3 Β係以串連階段過程中使用的連續 ΗΜΜ為基礎,但是VQ係用於識別階段。(請注意:一個訊 框之VQ的輸出是向量。就一個語調而言,產生的向量序列 或陣列可直接饋送至連續ΗΜΜ評估階)。 在傳統語音識別工作中,每碼本索引之位元數量Β必需足 夠大,才能針對所有可能的識別工作維持最佳識別率RR。 但疋,^透過播線糸統傳輸V Q碼本索引時,應考慮到傳輸 成本。殊線傳輸資源有限且非常昂貴,並且較低的每碼本 索引位元數量會導致較低的傳輸位元傳輸率BR。因此,為 了位元傳輸率BR與識別率RR之間的交換,會使用適當的權 值(metric),這是這兩項參數的函數。 下列線_性成本函數被選為按減縮到最小所最佳化的權值 (metric)。
Cost = BR - w * RR* 其中’ W是整個語調之平均傳輸位元傳輸率(BR)與識別率 ⑽)之間的交換權值。在前面說明之逐時間壓縮碼本索引 —- ___-13 - 本紙張尺度通财顯家料(CNS)规格撕公董) ------- 541516 A7 B7 五、發明説明(1〇 ) 串(q-string)之前,平均位元傳輸率BR被計算為每碼本索引 位元數量B除連續訊框開始之間的已知固定時間間隔。 成本函數係以逐對話聲為基礎最佳化,即,即個別針對 每個「對話聲」,而不是針對一連串不同對話聲的整個識 別工作。顯而易見,附屬於每個對話聲的文法規則可大幅 降減識別的複雜度,並且可相對降低位元傳輸率BR或減少 -每碼本索引位元數量B而不會影響RR太多,因此可降低成 本。這可使用接收器運算子特性語言模型(Receiver Operator Characteristic Language Modeling ; ROC-LM)技術 來完成。如需這項技術的說明,請參考ICSLP 96中Yin-Pm Yang 和 John Deller 著作的「Automated Evaluation of Language Models based on Receiver-Operator-Characteristics Analysis」文章。 在ROC-LM中具有下列的公式: RR^f f(x\c) f f(y\w)dy dx 其中,f(x|c)是當將正確字組饋送至自己的字組範本(HMM) 時,字組級HMM評估結果的機率分佈式函數(p.d.f)(可能 性),而f(y|w)是當將錯誤字組饋送至任何隨機挑選的字組 範本(HMM)時,字組級HMM評估結果的p.d.f。|V|是假設 這是字組識別器的語彙大小。 當減少每碼本索引位元數量B時,即,碼本大小S z較小 時,f(x|c)與f(y|w)之間的不明確會增加,因此,會降低識 別率RR。 -14 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
541516 A7 B7 11 五、發明説明( 根據本發明前面的公武,p 土 1备 '已知浯彙大小丨VK即,已知對話 聲和文法)’纟垂直軸上標繪識別率以,以及在水平轴上f 緣位元數量B(或對應的碼本大小Sz)。然後,針對離散㈣ 續語音識別分別提供圖3 A和圖3B。
裝 接著考慮針對-個語調產生之碼本索引争(㈣mg)的逐 時間壓縮。由於q-stnngh值的連續特性,所以可使用運行 長度編瑪機制來降低位元傳輸率,其方式是加人額外的位 兀,用以指示特定q值的運行長度。例如,如果用7位位元 來描述每個q值(值範圍為從〇到127),並且使用額外的3位 位元來描述運行長度(範圍為從1到8),則下面說明的1〇個^ 值串需要10*7位位元=70位位元: 1-1-9-9-9-9.5.5-5-127 這個值串可減少到下面的4個q值串,其需要4*(7 + 3) = 4〇位 位元: 1[2]-9[4]-5[3]-127[1]
租/主思,在逐時間壓縮之後,一個q-string (或稱為語調) 的整個平均位元傳輸率(B R)與B (這是每碼本索引q的位元 數量)之間的關係為非線性。 現在請參考圖2A,圖中所示的前端語音識別單元包括: 組塊40,—用以將被識別語音(STBR)細分成訊框並擷取每個 訊框的一組識別特徵參數;接著是碼本向量量子化組塊 42 ’用以將訊框的每組特徵參數轉換成特徵向量,並且輸 入代表特徵向量的碼本索引q。基於相容於ETSI Aurora專案 提供的分佈式語音識別(DSR)的目的,可根據如本文中「第 __ - 15 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 _ ______B7 五、發明説明(12 ) '~ " 一層」(” Layer 1 ”)指示的作業模式傳送特徵參數擷取組塊 的輸出,而不需要任何介於中間的向量量子化,反之,根 據本發明之使用節調碼本向量量子化的作業模式被標示為 「第二層」("Layer 2")。 調節碼本組塊42使用的碼本大小32,或每碼本索引q的位 疋數量B均是在決策組塊44中決定,以響應目前對話聲的語_ 彙大小IV卜並被傳達至組塊42。這項決策係以最佳化權值 (metnc)為基礎,這是預期平均位元傳輸率BR與預期識別 率RR的函數,如上文所述。作出決策的方式為,計算整個 B值範圍的Cost (成本),例如,從4到丨0範圍内的B (相當於 範圍從2、16至210=1〇24的碼本大小Sz),並且找出產生最 低Cost的最值B。這可依據圖4所示之流程圖迴圈完成。 其中,先在步驟5 0將B值初始化成範圍内的最小值,即 4。然後,於步驟52,依據圖3A與3B中適用的圖式與前面 的討論,從B值以及從語彙大小丨v丨計算目前對話聲的識別 率RR。並且,於步驟52,從B值計算預期的平均位元傳輸 率BR。如果無法取得介於預期位元傳輸率8尺與]6值之間的 非線性關係,則可用位元傳輸率BR等於B值除訊框時間間 隔的線性關係取代之,這是因為它構成實際位元傳輸率的 上限。隨—著討論進度將會看到,由於圖2八所示之組塊46中 的「逐時間」壓縮,實際位元傳輸率會從上限開始下降。 然後,於步驟54,將Co st計算為識別率尺尺與位元傳輸率 B R的函數。 於步驟56,如果計算得出的C〇st小於變數c〇st一ΜΑχ (這 -16 - 本紙張尺度適用中® S家料(CNS) Α4規格(2l〇x 297公釐) ------- 541516 A7 _______ B7 五、發明説明(13 ) 個變數被初始化成極大於使用B = 4計算得出之預測值的 值),則會將變數Cost 一 MAX設定為等於計算得出的Cost, 並且將變數B__opt設定為等於目前的b值。之後,於步驟 58 ’以壹為單位遞增B值,並且決定產生的b值是否大於或 等於壹。如果「是」,則輸出B_opt的現行值,反之如果 「’’no”」,則會迴圈回到步驟52,以使用新b值來計算識 -別率RR與位元傳輸率B R。顯而易見,迴圈繼續返回,直到 使用B=10計算最後的Cost為止。 組合組塊40與42可將STBR以逐訊框方式有效地壓縮或量 子化成為碼本索引序列或碼本索引中,或「”q-string’’」。q-string被饋送至組塊4 6,用以執行前面提及的「逐時間」壓 縮’以藉由(例如)運行長度編碼來去除q-string中不必要或 重複的值。然後,於組塊48,q-stdng被封裝成通訊協定, 其中整個時間的資料流被組織化,以至少指示每碼本索引B 的位元數量(B),以及q-string的碼本索引q值(如果採用逐 時間壓縮組塊46,則是運行長度累積的值)。圖5顯示示範 性的資料組織,其中: ID:指示這是WSP通訊協定(根據本發明);
Layer:指示層號碼。Layer = 2適用於WSP通訊協定,反 之Layer —= 1適用於為相容於已知的Aurora專案DSR的目 的’其中會傳送原始特徵參數,而不會傳送VQ ; qL :指示q_string長度; B:指示每q值的位元數量;以及 Q1,· ·,qL-i:q-string 值。 __ _ 17 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 541516 A7 B7
如圖2B所示,後端語音識別階30包括:用以接收及解封 裝依據WSP通訊協定傳輸之資料的組塊6〇 ;用以將已解封 裝之位元流解碼成q-string的組塊6 4 ;以及使用碼本大小 Sz = 2BW碼本反轉向量量子化(VQ)的組塊64,其中b是傳 輸中標示之每q值的位元數量β,以獲取特徵參數集序列。 最後’將特徵參數集序列輸入至連續ΗΜΜ評估組塊66,並 且將評估輸出供應至進行識別決策的組塊68。 顯而易見,現在已達成本發明的目的。儘管已特別詳細 說明本發明,然而應知道,於本發明的預定精神與範疇内 可作各種修改。應知道於解說隨附申請專利範圍中: a) 申請專利範圍中的「”包括”」並不排除使用其他的元件 或步驟; b) 出現在元件之前的「”一個”」並不排除使用複數個此類 的元件; Ο申請專利範圍中的參考符號並不限制其範疇;以及 d)數個「”裝置”」可能以相同項目之建置結構或功能之硬 體或軟體表示。 ____- 18 - ----- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
Claims (1)
- 541516 8 8 8 8 AB c D 六、申請專利範圍 1. 一種根據本發明之用以編碼被識別語音(speech t〇 be recognized ; STBR)之近端語音編碼方法,以供一位於一 遠端之機器完成字組級識別,其相對於一介於該近端與 該遠端間之具有一相關語彙大小(V)的對話聲,該方法包 括: 從所接收之被識別語音(STBR)以逐訊框方式擷取識別一 特徵向量(f); 從複數個選擇項目中選取每碼本索引位元數量(B),或 選取一對應於該對話聲或一相關語彙大小(v)的相關碼本 大小(S z); 從一具有對應於所擷取識別特徵向量(f)之相關大小(Sz) 的碼本項目選取索引(q);以及 構成要傳輸至該遠端的信號’該等信號係從所選索引 串(q-string)導出。 2·如申請專利範圍第1項之方法,其中完成選取位元數量 (B)或相關碼本大小(Sz)的方式為,實質上最佳化權值 (metnc),這是所構成信號之位元傳輸率(BR)與考慮到該 對話聲之該相關語彙大小(V)的預期識別率(RR)的函數 3·如申請專利範圍第1項之方法,其中被傳輸之構成信號 包括一識別向量位元數量(B)或該相關碼本大小(Sz)的指 示。 4.如申請專利範圍第2項之方法,其中被傳輸之構成信號 包括一識別向量位元數量(B)或該相關碼本大小(s z)的指 示。 -19 - 本紙張尺度適用中國國家標準(CNS) A4规格(210 X 297公釐) 541516申請專利範圍 5·如申請專利範圍第1項之方法,其中構成信號包括一逐 晗間壓縮該所選索引串(q-string)。 6.如申请專利範圍第2項之方法,其中構成信號包括一逐 時間壓縮該所選索引串(q-stmig)。 7·如申請專利範圍第1項之方法,其中該方法係由一行動 通訊裝置(M S)執行。 8. 如申請專利範圍第2項之方法,其中該方法係由一行動 通訊裝置(M S)執行。 9. 一種用以接收近端被識別語音(t〇 be recognized ; STBR)以及用以與一位於一遠端之機器通信之通信裝置, 該機器負責完成字組級識別,其相對於一介於該近端與 該遠端之間之的對話聲,該裝置包括: 一特徵向量擷取器(40),用以從所接收之被識別語音 (STBR)以逐訊框方式擷取識別特徵向量(f); 一決策組塊(4 4 ),用以從複數個選擇項目中選取每碼 本索引位元數量(B ),或選取一對應於該對話聲或一相關 語彙大小(V)的相關碼本大小(Sz); 一編碼器(42),用以從一具有對應於該所擷取識別特 徵向量(f)之相關大小(SZ)之碼本的項目選取索引(q);以 及 — 一信號構成器(46,48),用以構成要傳輸至該遠端的 信號,該等信號係從所選索引串(q-string)導出。 10. 如申睛專利範圍第8項之裝置,其中完成選取位元數量 (B)或相關碼本大小(sz)的方式為,實質上最佳化權值 -20 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 541516 8 8 8-A B CD 六、申請專利範圍 (metric),這是所構成信號之位元傳輸率(BR)與考慮到該 對話聲之該相關語彙大小(V)的預期識別率(RR)的函數 11.如申請專利範圍第9項之裝置,其中被傳輸之構成信號 包括一識別向量位元數量(B)或該相關碼本大小(Sz)的指 示0 12·如申請專利範圍第1〇項之裝置,其中被傳輸之構成信號一 包括一識別向量位元數量(B)或該相關碼本大小(Sz)的指 示。 13·如申請專利範圍第9項之裝置,其中構成信號包括一逐 b間壓Ifg該所選索引串(q_string)。 14·如申請專利範圍第1〇項之裝置,其中構成信號包括一逐 k間壓§亥所選索引串(string)。 15. —種5#音識別方法,包括: 接收信號,該等信號係從一對應於從被識別語音(stbr) 擷取之逐訊框擷取之識別特徵向量(f)之碼本中的項目選 取之索引串(q-string)導出,其中該等信號一每碼本索引 位元數量(B)或該相關鴒本大小(S z)的指示; 從所接收信號獲取該索引串(q-stnng); 使用一具有該相關大小(Sz)之碼本從該索引串(q-string) 獲取該·#對應識別特徵向量(f);以及 將該等識別特徵向量(f)套用至一字碼級識別處理程序 (HMM) 〇 16·如申請專利範圍第15項之方法,該方法進一步包括依據 該識別處理程序的結構採取動作。 -21 - 本纸張尺度適用中國國家橾準(CNS) A4規格(210X297公釐) 541516 8 8 8 8 A B c D ^、申請專利祀圍 17. —種電磁信號,編碼該電磁信號,其中第一資料係從對 應於一碼本之項目的索引串(q)導出,其中該等項目對應 於從語音擷取的識別特徵向量(f);以及第二資料係用以 指示每識別特徵向量(f)位元數量(B)或一相關碼本大小 (Sz) 〇 -22 - 本木取^度逍用中國風务揉平洗格(210>C297公董絲♦々泰$
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW90131854A TW541516B (en) | 2001-12-21 | 2001-12-21 | Distributed speech recognition using dynamically determined feature vector codebook size |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW90131854A TW541516B (en) | 2001-12-21 | 2001-12-21 | Distributed speech recognition using dynamically determined feature vector codebook size |
Publications (1)
Publication Number | Publication Date |
---|---|
TW541516B true TW541516B (en) | 2003-07-11 |
Family
ID=29708210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW90131854A TW541516B (en) | 2001-12-21 | 2001-12-21 | Distributed speech recognition using dynamically determined feature vector codebook size |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW541516B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI578307B (zh) * | 2016-05-20 | 2017-04-11 | Mitsubishi Electric Corp | 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法 |
-
2001
- 2001-12-21 TW TW90131854A patent/TW541516B/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI578307B (zh) * | 2016-05-20 | 2017-04-11 | Mitsubishi Electric Corp | 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7219057B2 (en) | Speech recognition method | |
KR100391287B1 (ko) | 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 | |
Pearce | Enabling new speech driven services for mobile devices: An overview of the ETSI standards activities for distributed speech recognition front-ends | |
KR100193196B1 (ko) | 신호를 그룹 엔코딩하기 위한 방법 및 장치 | |
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
CN1653521B (zh) | 用于音频代码转换中的自适应码本音调滞后计算的方法 | |
JP4842472B2 (ja) | フレーム抹消条件下で予測音声コーダの性能を改良するためにデコーダからエンコーダにフィードバックを供給するための方法および装置 | |
JP2001500344A (ja) | タンデム型ボコーダの音質を改良する方法および装置 | |
CN106463142A (zh) | 话音简档管理和语音信号产生 | |
KR20030076646A (ko) | 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치 | |
CA2557000A1 (en) | Communication device, signal encoding/decoding method | |
CN107851441A (zh) | 高频带目标信号控制 | |
KR100752797B1 (ko) | 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치 | |
JP2001356792A (ja) | 自動音声認識実行方法および装置 | |
CN107851439A (zh) | 在带宽变换周期期间的信号再使用 | |
US6073094A (en) | Voice compression by phoneme recognition and communication of phoneme indexes and voice features | |
US20050143979A1 (en) | Variable-frame speech coding/decoding apparatus and method | |
JP2003517157A (ja) | 位相スペクトル情報をサブサンプリングする方法および装置 | |
EP1020848A2 (en) | Method for transmitting auxiliary information in a vocoder stream | |
US20040024589A1 (en) | Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus | |
TW541516B (en) | Distributed speech recognition using dynamically determined feature vector codebook size | |
US7536298B2 (en) | Method of comfort noise generation for speech communication | |
US7542897B2 (en) | Condensed voice buffering, transmission and playback | |
CN1212604C (zh) | 基于可变速语音编码的语音合成器 | |
JP3954288B2 (ja) | 音声符号化信号変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |