TW546633B - Distributed voice recognition system using acoustic feature vector modification - Google Patents
Distributed voice recognition system using acoustic feature vector modification Download PDFInfo
- Publication number
- TW546633B TW546633B TW091101575A TW91101575A TW546633B TW 546633 B TW546633 B TW 546633B TW 091101575 A TW091101575 A TW 091101575A TW 91101575 A TW91101575 A TW 91101575A TW 546633 B TW546633 B TW 546633B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound
- feature vector
- patent application
- model
- speaker
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 218
- 238000012986 modification Methods 0.000 title claims abstract description 30
- 230000004048 modification Effects 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 140
- 230000006978 adaptation Effects 0.000 claims abstract description 64
- 238000012937 correction Methods 0.000 claims description 81
- 238000000034 method Methods 0.000 claims description 46
- 238000004891 communication Methods 0.000 claims description 12
- 230000001755 vocal effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 239000002689 soil Substances 0.000 claims description 2
- 230000008439 repair process Effects 0.000 claims 3
- 238000011156 evaluation Methods 0.000 claims 2
- 229940037003 alum Drugs 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 claims 1
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 125000001475 halogen functional group Chemical group 0.000 claims 1
- 235000012054 meals Nutrition 0.000 claims 1
- 230000007935 neutral effect Effects 0.000 claims 1
- 230000000638 stimulation Effects 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000027455 binding Effects 0.000 description 6
- 238000009739 binding Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 1
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 150000001621 bismuth Chemical class 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 235000005607 chanvre indien Nutrition 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000011487 hemp Substances 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
- Devices For Executing Special Programs (AREA)
Description
546633 ‘ A7 ^ B7 五、發明説明(i ) 發明範疇 本發明是關於語音信號處理,更明確的說本發明是關於 / 、 一種用於使用聲音特徵向量修正之分佈式聲音辨識系統之 新的方法與裝置。 發明背景 聲音辨識是一種賦予電腦模擬的智慧以辨識使用者之聲 首的命令以使人機介面更人性化之最重要的技術。利用技 術將一聲音語音信號轉回語言訊息的系統是稱為聲音辨識 (VR)系統。圖1是一個基本的VR系統,其l含一預加重'過 濾器102,一聲音特徵擷取(AF泛)單元1CT4,與一型樣匹配引' 擎110。AFE單元104將一連串數位聲音樣本轉換成一組稱為 是聲音特徵向量之測量值(例如擷取頻率成分)。型樣匹配 引擎110匹配一連串之聲音特徵向量與包含在一 VR聲音模 型112的型樣,型樣匹配引擎通常是使用此領域中為吾人熟 知之Viterbi解碼技術,當從聲音模型112中辨識出一連串的 型樣時,會分析此一連串型樣以產生一想要的格式之輸 出,如對應於輸入話語之確認的語言文字的序列。 聲音模型112可以看成是一從各種不同的說話聲音與相關 統計分佈的資訊中所擷取之聲音特徵向量的資料庫,這些 聲音特徵向量的型樣是相當於很短的語音片段如音素,三 個單音以及整個單字模型。“訓練”是指收集一或多個說話 者之特定語音片段之語音或音節之樣本以產生聲音模型112 中之型樣的程序。“測試”是指使一連串從終端使用者之語 音樣本所擷取之聲音特徵向量與聲音模型112的内容產生關 ___ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 町
線 546633 A7
聯的程序:一已知系統的性能大 曰
的聲音與資料庫之内”互相關聯:度又決^終端使用者 取理想的狀況是終端使用I 話聲音捧徵向量,使得二 =':與_期間贼供說 最匹配。然而,由於:==r端使用者'的語音 、L 1 112通常必須表示大量之音五 晋片段的型樣,故通常會佔據大量的記憶體,此外,會; ::::=到所有訓練語音模型所需之所有可能。 tr 此,很多現有的統使用很多具 =表者的語晋㈣練語音模型,這些語音模型的 设計是對多數的使用者而言能有最佳的性能,但並非對任 -個單獨的使用者最佳化。在一個使用此一語音模型的 VR系統中’其辨識某—特定使用者之語音的能力將會比 -個使用對該特定使用者最佳化之聲音模型的vr系統要 差’對某些使用者而言,如具有嚴重外國口音的使用者, 使用-共用之聲音模型的VR $統之性能可能會很差,甚 至使得其無法有效的使用V R服務。 調適是一種減輕因為在訓練以及測試情況時不匹配所、造 成之辨識性能降低之有效的方法。調適方法是在測試程序 時修改VR聲音模型使得能夠與測試環境緊密的匹配,在 此領域中已經有很多為哥·人熟知之調適模式,如最大可能 線性回歸法與Bayesian調適法。 當語音辨識工作的複雜度增加時,欲在.一無線裝置上採 用完整的辨識系統也益形困難,因此,可以使用一位在中 央通訊中心之共用的聲音模型以提供聲音模型給所有的使 ------ --5- 本紙張尺度適用中國國豕標準(CNS) A4規格(210X 297公爱) 546633 A7 B7 五、 發明説明( 用者’該中央基地站也負責相當耗f計算能力之聲音的匹 配。在分佈式的VR系統中,聲音模型是由很多說話者所 共用,因此無法針對任何個別的說話者最佳化,也因此需 要- VR系統能夠在最小化所需之計算資源時又能提供對 多數個個別的使用者改進的性能。 發明概要 本文中所揭示之方法與裝置是使用在—新的以及改進的 分佈式聲音辨識系統中’其中在聲音辨識型㈣配前使用 與說話者有關的處理以轉換聲音特徵向量。與說話者有關 的處理是根據-具有依說話者變動之參數的轉換函數,或 -使用調適模型之中間型樣匹配程序的結果,或以上兩者 而執行的。與說話者有關的處理可以在—遠端的站台,一 通訊中心’或以上兩者的組合中執行。轉換聲音特徵向量 也可以在聲音辨識型樣匹配前使用與環境有關的處理予以 轉換’聲音特徵向量可以被修改成適應在運作中之舞立产 境的改變(環境噪音,4麥克風的頻率響應等)。幻=: 關的處理也可以在一遠端的站台 者的組合中執行。 本文中所使用之文字“示範的,,是指“當成—例子,奋 例’或圖例”。任何描述為―“示範的具體實施例”之且二 實施例不應解釋為比另一個具體實施例較佳或較有利一 圖式簡單說明 在看過以下之詳細的說明與其伴隨的圖式後,备 明所揭示之方法與裝置的特色,目的與優點有更‘楚的; 通訊中心,或以上兩 裝 訂 ^ t a a ^#^(CNsuIii(2i〇 x 297^) -6- 546633
解,其中相同的參考符號代表同樣的元件,其中: 圖1是一個基本的聲音辨識系統; 圖2是一根據一示範的具體實施例之分佈式的VR系統; 圖3疋一顯不一用以執行分佈式乂尺之方法的流程圖,其 中聲首特徵向量的修改以及特徵向量修改函數的選擇完全 是在一遠端工作站中執行; 圖4是一顯示一用以執行分佈式VR之方法的流程圖,其 中聲首特徵向量的修改以及特徵向量修改函數的選擇完全 是在一通訊中心中執行;及 圖5是一顯示一用以執行分佈式VR之方法的流程圖,其 中使用中央聲首模型以最佳化特徵向量修改函數或調適 模型。 本發明的詳細說明 在個柃^的聲首辨識器中,不論是在辨識時或是在訓 練時,大邵分的計算複雜性是集中在聲音辨識器的型樣匹 配子系統中。在無n㈣環境巾,聲音辨識器是實施成 分佈式系統以最小化聲音辨識應用程式所消耗的空中頻 ^;此外,分佈系統可以避免可能因聲音資料之損 害性的來源編碼所造成的性能的降低,這常常會發生在聲 音編碼器1。這樣的—個分佈式架構在美國專利案號 5,956,6财評細的說明’其標題為‘‘分佈式聲音辨識系統”, 並將權利指定給本發明的+讀 Μ > 1 j的又嚷人,並在本文中是引用為
装 訂
546633 A7 B7
五、發明説明 在一示範的無線通訊系統中,如一數位無線電話系統 使用者的聲音信號是經由一行動電話内或遠端工作站内之 麥克風接收的;該類比聲音信號接著是以數位的方式取樣 以產生一數位樣本串流,例如每秒⑻個8位元的語立腎 本。直接將語音樣本透過一無線頻道送出是很沒有效率 的’因此該資訊通常會在傳送前予以壓縮,聲音編碼器透 過種叫做聲首編碼的技術將語晋樣本的串流壓縮成广連 串資料量小很多的聲音編碼器封包,接著將較小的聲音編 碼為封包而非其所表示之語音樣本透過無線頻道送出,接 著聲音編碼器封包會由無線基地台接收並予以解碼以產生 一語音樣本的_流,然後透過揚聲器呈現給收聽者。 聲晋編碼器的一個主要的目的是儘可能的壓縮說話者的 語音樣本,而同時在解碼時保留讓收聽者能夠聽懂該語音 的能力。聲音編碼器的的演算法則通常是損害性的的壓縮 貭算法,因此解碼後的語音樣本並不能與原始編碼的樣本 70全一樣;再者,聲音編碼器的的演算法通常是最佳化成 即使一或更多的聲音編碼器封包在透過無線頻道傳輸時遺 失了’也能產生可理解的解碼語音,所以此最佳化更會導 致輸入到聲音編碼器之語音樣本與解碼後之語音樣本之間 的不匹配。由於編碼與解碼所造成之語音樣本的變更通常 會降低聲音辨識演算法則的性能,而降低的程度則會因不 同 < 聲音編碼器的演算法則而會有很大的不同。 上在‘ 683號專利中說明的—個系統中,遠端王作站執行聲 首特徵的搞取並透過無線頻遒送出聲音特徵向量而非聲音 546633
馬叩封g到基地站,由於耸骨特徵向量比聲音編碼器封 匕佔據車乂 /的頻览’因此其在透過相同的無線頻道傳輸時 可以附加保4避免通訊頻遒的錯誤(例如,使用前方錯誤 修正(FEC)技術)。當使用下文中說明之與說話者相關之特 徵向量修改函數更進一步最佳化特徵向量時,則可以實現 比‘683號專利中所說明之基本系統更加的能。、 圖2是一根據一示範的具體實施例之分佈式的vr系統, 聲音擷取(AFE)是發生在一遠端工作站2〇2,且聲音特 U向昼疋透過播線頻道206傳送給一基地台與v R通訊中 心2〇4。熟悉此技藝的人士將會了解此處所說明的技術可以 同樣的運用在一沒有使用到無線頻道的VR系統_ 在出示的具體實施例中,使用者的聲音信號經由麥克風 (MIC) 210被轉換成電氣信|虎’並經由一類比到數位的轉換 器(ADC)212轉換成數位語音樣本,接著利用一預加重(pE) 過濾态214 ’例如一衰減低頻信號成分之有限脈衝響應(fir) 過濾器,過濾數位樣本串流。 接著在AFE單兀216中分析過濾過的樣本。AFE單元216將 數位洱曰;^本轉換成聲晉特徵向量,在示範的具體實施例 中,AFE單元216對一連續數位樣本的片段執行一轉換 以產生一對應到不同頻率帶之信號強度的向量,在—示範 的具體實施例中,頻率帶依強度的規模會有不同的頻寬,i 在水強度規模下,各頻率帶的頻寬與頻率帶的中間頻率 有一定的關聯性,即較高頻率之頻率帶比較低頻率之頻率 V有較覓的頻1。強度規模在Rabiner,L.良與Juang, B. H.合著 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公董了 546633 A7
之 Fundamentals of Speech Recognition,,,Prentice Hall l993 一書中有所說明,且為本領域中的人士所熟知β .曰 在-示範的具體實施例中,每個聲音特徵向量都是每、 1定的時間間隔從-連串語音樣本中揭取出來的,在二 :範士的具體實施例中,這些時間間隔是重疊的,舉例來 說,聲骨特徵向量可能是每隔10毫秒從20亳秒間隔之語音 資料中擷取來的,如此,每兩個連續的間隔會共享一10 = 秒的片段。熟悉此技藝的人士會承認在不脫離本文所說5 之具體實施例的範圍内,時間間隔也可能是不重疊的或有 不固定的持續時間。 由AFE單元216所產生之每個聲音特徵向量(在圖2中標示 為X)會提供給一調適引擎224,該.引擎根據一調適龠型228 的内容執行型樣匹配以特徵化聲音特徵向量,根據型樣匹 配的結果,調適引擎224從記憶體227中之一組特徵向量修 改函數f()選擇一個並運用該函數以產生一修改過的聲音特 徵向量f ( X )。 、 此處所用到的X是用來描述一單一之修改過的聲,音特徵 向量或是一連串連續之修改過的聲音特徵向量。同樣的, f( X)是用來描述一單一之修改過的聲音特徵向量或是—連 串連續之修改過的聲音特徵向量。 在一示範的具體實施例中,如圖2所示,修改過的向量 f ( X)由一典線數據機218调變’透過·一無線頻道206傳送, 經由一通訊中心204内之無線數據機230解調,然後由—中 央VR引擎234執行與一中央聲音模型238的匹配。無線數據 機218,230以及無線頻遒206可以使用各種無線的介面包括 "10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝
,線 546633 五 發明説明( CDMA’TDMA,或是聰A;此外,無線數據機218,謝 以销不脫離具體實施例的範圍之其他類型之在非 逍上通訊的通訊介面取代,舉例來說,遠端工作站2ϋ 透過各種不同類型的通訊頻道,包括有線數據m ISDN ’ DSL ’乙太網路,式其吾e产< 線路,與通訊中心稿訊 在印刷電路板(PCB)上的 —在-不範的具體實施例中,向量修改函數f〇是針對 疋的使用者或說話者最佳化,並且是設計為當語音與由多 =共=之中央聲音模型継配時,使語音能夠正確被辨識 ::了能,最大化。在遠端工作㈣2之調適模物比中央 聲甘挺里238小很多,這使得能夠保持一份针對—特定的使 用者取佳化之獨立的調適模型228,還有,特徵向量修改函 數f()(用於-或多個說話者的參數是足夠小,故 在遠端工作站202之之記憶體227中。 ° 、^另-示範的具體實施财,另—組提供給跟環境有關 ^特徵向量修改函數之額外的參數也是錄存在記憶體^ 特徵向量修改函數的選擇與最佳化事 以:?王盤性的’因此通常是在每次呼叫時執行。一個 非常簡單之跟環境有關的特徵向量修改函數是施用 =益值k到各聲音特徵向量的各元素上以適應一嗜雜的環 向量修改函數f()可能有好幾種型式,例如,向量 數f〇可能是ΑΧ + b型式的—種遠交的.轉換,另外,向量^ 改幽數f()也可能是—組初始化並施用到—組連婧作 向量之有限脈衝響應(FIR)過攄器。其他型式之向量修改函丈 本錄尺I適财_冢鮮(CNS) A4&格(⑽㈣公幻 11 546633 A7
數f()對m技㈣人士而言是很容易理解的並且是 文所說明之具體實施例的範圍内。 、,-示範的具體實施例中,向量修改函數!()是根據—組 ,續聲晋特徵向量而選定的,舉例來說,調適引擎22何能 是運用ViteAi解碼技術或是麻解碼技術以決定聲音特徵: 量率流與調適模型228中之多樣的語音型樣間之關聯的程 度,一旦偵測A很高的關聯程度,則根據偵測到之型樣選 定-向量修改函數f()並施用到聲音特徵向量幸流中對應的 片段。此種方法需要調適引擎224儲存一系列的聲音特徵向 量並在選擇欲施用到各聲音#徵向量之函數f()之前執行該 系列跟調適模型228的型樣匹配,在一示㈣具體實施例 中,調適引擎維持一未經修改過之聲音特徵向量之有彈性 的緩衝器,並接著在傳送前施用選定的函數f()到彈性緩衝 器的内容,接著將彈性緩衝器的内容跟調適模型228中的型 樣匹配,並且產生一具有與彈性緩衝器的内容有最大的= 聯程度之型樣的最大關聯度量,再將此最大度量跟一或多 個臨界點比較,假如最大關聯超過一偵測的臨界點,則將 與最大關聯相關之型樣所對應之函數")施用到在緩衝器中 的聲音特徵向量並傳送出去。假如彈性緩衝器在最大關聯 超過偵測的臨界點之前就已經滿了,則緩衝器中的内容在 沒有修改或利用一預設的函數f()修正就會被傳送出去。 函數f()之與說話者有關的最佳化可以用好幾種方式完 成。在第一示範的具體貫施例中,一控制處理器監視使 用者語首與調適模型228在多個話語上的關聯程度,當控制 ___- 丨…丨丨.圓圓 ------12- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
線
546633 A7 B7 五、發明説明(1()) 處理器222判定函數f()的一個改變可以增進VR的性能時, 它會修改函數f〇的參數並儲存新的參數到記憶體227中, 或者,控制處理器222也可以直接修改調適模型228以增進 VR的性能。 如圖2中所示的,遠端工作站202還可以包含一獨立的VR 引擎220以及一遠端工作站聲音模型226。由於有限的記憶 體容量,在遠端工作站202中之遠端工作站聲音模型226, 如一無線電話,通常必須很小也因此受限於很少數量的句 子或晋素;在另,一方面,由於它是包含在一只有少數使用 者使用之遠端工作站内,因此遠端工作站聲音模型226可以 針對一或多個特定使用者最佳化以增進VR的性能,舉例 來說,像“ call”以及十個數字之語音型樣可以調整為適應無 線電話的擁有者。此一局部的遠端工作站聲音模型226能夠 讓一遠端工作站202在辨識一很小之單字的集合時有相當好 的V R性能。此外,遠端工作站聲音模型226能夠讓遠蟪工 作站202無須建立一與通訊中心204的無線連接即可完成V.R 的工作。 函數f ()的最佳化可以透過有監督的或無監督的學習實 行。有監督的學習通常是指訓練一使用者發出一預定的文 字或句子以正確的最佳化一遠端工作站聲音模型,因此由. 於V R系統已經具有事先輸入之文字與句子的知識,因此 在有監督的學習時並不需要執行VR以辨識預定的文字與 句子;有監督的學習通常被認為是產生一特定使用者之聲 音模型之最精確的方式。一個有監督的學習的例子如當一 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝
-13- 546633 A7 B7 五、發明説明(U ) 個使用者首先將十個數字的語音程式化到一遠端工作站202 之遠端工作站聲音模型226中時,由於遠端工作站202已經 事先具對應於所說數字之語音型樣的知識,因此遠端工作 站聲音模型226可以被調整為適應該特定使用者而較不會降 低VR的性能。 與有監督的學習不同的是,無監督的學習是VR系統不 具有事先輸入之語音型樣或文字的知識。由於會有發音匹 配到一不正確之語音型樣的風險,因此根據無監督的學習 之遠端工作站聲音模型在修正時一定要採取更保守的方 式,舉例來說,有很多已經說過的話語彼此間都很類似並 且跟聲音模型中的某一語音型樣很接近,假如所有那些已 經說過的話語可以正確的跟聲音模型中之該語音型樣匹 配,則可以將在聲音模型中之該語音型樣修改為更接近該 組彼此相類似的話語。然而,如果有很多說過的話語並沒 有對應到模型中之任一型樣,則修改任一型樣都會將降低 VR的性能,最佳的方式為,VR系統可以收集到使用者關 於說過之語音型樣之匹配結果的正確性,但是通常並無法 取得此一回饋。 不幸的是,有監督的學習對使用者而言是很繁冗的,.故 在實務上很難能夠產生一具有大量語音型樣之聲音模型; 然而,有監督的學習在最佳化一組向量修正函數f()時還是 很有用的,甚至在最佳化一調適模型228中之有限的語音型 樣時也是很有用的。因使用者之嚴重的口音所造成之語音 型樣上的差異就是一個需要應用有監督學習的例子,由於 _-14-__ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 546633 A7 B7 五、發明説明(12 ) 聲音特徵向量需要大幅度的修正以補償口音的差異,因此 很需要該修正的準確性。 無監督的學習也可以在最佳化並非造成VR誤差之直接 原因時用來最佳化某一特定使用者之向量修正函數f(),例 如,一向量修正函數f()為適應一具有較長發聲道或平均聲 調在先天上比補償口音所需之調整更全面性之使用者所需 的調整,此一全面性之向量修正的一些不準確性並不會造 成VR效能很大的影響。 一般而言,調適引擎224只使用小型之調適模型228以選 擇一向量修正函數f(),並非要執行完整的VR ;由於調適 模型228是小型的、,因此它也同樣不適合用來執行訓練的工 作以最佳化調適模型228或向量修正函數f()。看起來似乎 可以改善一說話者之聲音資料與調適模型228之匹配程度之 調適模型228或向量修正函數f()的調整,卻可能降低與較 大之中央聲音模型238的匹配程度,而又由於中央聲音模型 238才是真正用來執行VR的模型,因此該調整會變成一個 錯誤而非一最佳化。 在一示範的具體實施例中,遠端工作站202與通訊中心 204—起運作,利用無監督的學習以修正調適模型228或向 量修正函數f()。根據改進之與中央聲音模型238的匹配做 成是否修改調適模型228或向量修正函數f()的決策,舉例 來說,遠端工作站202可能送出多組聲音特徵向量給通訊中 心204,包括未修正的聲音特徵向量X以及修主·過的聲·音特 徵向量f(X);或者,遠端工作站202也可能送出修正過的聲 -15- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)
裝 訂
線 546633
曰特欲向里fl(x)與f2(x),其中f2()是一個嘗試性的,改 進的特徵向量修正函數。在另一具體實施例中,遠端工作 站搬送出X以及參數給特徵向量修正函數⑻與⑷。遠端 I 工=站202可以根據一固定的時間間隔送出多組決定是否送 出第二組資訊的決策給通訊中心2〇4。 在收到^组是否修改聲音特徵向量或特I向量修正函數 的參數《聲首特徵資訊後,通訊中心綱利用其自有的vR 一 平估t正過之聲首特徵向量與中央聲音模型238的 匹配私度,通訊中心204接著送回資訊給遠端工作站2〇2表 示該一改變是否t改進VR的性㉟,例如,通訊中心2〇4送 出各組聲音特徵向量之語音型樣關聯度量表給遠端工作站 202 ’ -組聲晋特徵向量之語音型樣關聯度量表指出一組聲 音特^向量與中央聲音模型⑽之内容的關聯程度。根據兩 .組向!的比較結果,遠端工作站202可以調整其調適模型 228或可以調整一或多個特徵向量修正函數"),遠端工作 站202可以指定使用任一組向量以供辨識文字時使用,或者 通心204可以根據關聯度量表選擇一組向量。在另一個 具體實施例中’遠端工作站观在接收到來自通訊中心綱 ^關驷度I表的結果後指出供VR使用的一組聲音特徵向 、在另-個具时施射,遠端工作㈣进用其本地的調 通^擎224與調適模型228以確認—特徵向量修正函數⑴, 並送出伴隨函數f()之未修正的聲音特徵向量χ給通訊中心 204’·通訊中心2〇4接著施用⑴到又上並利用修正過與未修 _____ / 本纸張尺度適财Β目家料.(CNS) Α4規格(細χ297公釐) j〈向量執行測試;通訊中心204接著將測試結果送回給遠 占202以致此返端工作站2〇2進行更準確之特徵向量 修正函數的調整。 ,在另一個具體實施例中,調適引擎224與調適模型228是 併入到通訊中心204而非在遠端工作站搬中。一個在通訊 L 204中之担制處理器232經由數據機細接收一未修改之 耳曰特鉍向里的串流並提供給在通訊中心2⑽之調適引擎與 周C模土根據此中間型樣匹配的結果,控制處理器232從 一儲存在通訊中心記憶體236之資料庫中選擇一個特徵向量 修正函數f()。在一個,示範的具體實施例中,通訊中心記憶 體观括多組對應到特定使用者之特徵向量修正函數 f() ’違些函數可以附加或取代上述之儲存在遠端工作站 202的特欲向里修正函數的資訊。通訊中心綱可以使用任 一型式<說話者識別資訊以確認特定之提供聲音資料以從 中心、取特U向里的說話者。舉例來說,用以選擇一組特徵 向里正函數之說話者識別資訊可能是在無線頻道%6另一 端之無線電話的行動識別號碼(MIN);或者,為了加強又R 服務使用者可以輸入一密碼以確認自己;此外,在一無線 私活通居期間可以根據語晋資料的測量結果調適並運用跟 垓境有關《特徵向量修正函數。在不脫離本文之具體實施 例的範圍内還有很多其他的方法可以用來選擇一組與說話 者有關之向!修正函數。 熟悉此技蟄的人士會承認在不脫離本文之具體實施例的 範圍内可以將在遠端工作站202中之多個型樣匹配引擎 本紙張尺度適用中國國家標準(CNS) A4規格(2l〇X297公羞) -17- 546633 A7 B7 五、發明説明(15 ) 220,224結合在一起,此外,在遠端工作站202中之不同的 聲音模型226,228也同樣的可以結合在一起,甚至,一或 多個型樣匹配引擎220,224可以併入到遠端工作站202之控 制處理器222中,還有,一或多個聲音模型226,228可以併 入到控制處理器232所使用之記憶體227中。 在通訊中心204中,如果有一調適引擎的話(沒有出示出 來),在不脫離本文之具體實施例的範圍内可以將該調適 引擎與中央語音型樣匹配引擎234結合;此外中央聲音模型 238也可以結合一調適模型(沒有出示出來);還有,假如在 •通訊中心204中不論是有、中央語音型樣匹配引擎234或調適 引擎(沒有出示出來),都可以併入到通訊中心204的控制處 理器232中;還有,假如在通訊中心204中不論是有中央聲 音模型.238或調適模型(沒有出示出來),都可以併入到通訊 中心204的控制處理器232中。 圖3顯示一用以執行分佈式VR之方法的流程圖,其中X 與f()的修正根據一遠端調適模型的收斂全部在一遠端工作 站202中執行。在步騾302中,遠端工作站202從麥克風之類 比聲音信號取樣以產生數位聲音樣本的率流;在步驟304 中、,過滤語音樣本,例如利用一前述之預加重過滤器;在 步驟306中,從過濾過之語音樣本中擷取一聲音特徵向量的 串流X,如前面說的,聲音—特徵向量可以從重疊或沒有重 疊之固定或變動之時間間隔的語音樣本擷取。 在步騾308中,遠端工作站202執行型樣匹配以決定聲音 特徵向量事流與包含在調適模型(如圖2之228)之多個樣本 __-18-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝 訂
線 546633
間的關聯程度。在步驟31〇中,.遠端工作站2〇2從調適模型 中遠擇與聲首特徵向量串流X最匹配的型後,所選擇的型 樣疋%為目標型樣’如前面所說的,X與目標型樣間的關 ~私度可以跟一偵測的臨界值比較,假如關聯的程度比偵 測的臨界值高’則遠端工作站202選擇一對應於該目標型樣 《特徵向量修改函數f(),假如關聯的程度比偵測的臨界值 低,則遠端工作站2〇2選擇一 f(x) = x之聲音特徵向量恆等 函數f (),或者選擇某些預設的函數f ()。在一個示範的具 骨豆只她例中,遠端工作站2〇2從一本地之對應到其本地調適 模土中不同型樣之特徵向量修改函數的資料庫中選擇一、特 徵向量函數f〇,接著在步騾312,遠端工作站2〇2施用所選 擇之特徵向量函數到聲音特徵向量串流X上以產生 f(x) 〇 在一個具體實施例中,遠端工作站202產生一指出x與目 標型樣間之關聯程度的關聯度量表,遠端工作站,202也會產 生一扣出f( X )與目標型樣間之關聯程度的關聯度量表。在 一個無監督‘學習,的例子中,在步驟314,遠端工作站202利 用此兩個關聯度量表以及過去的關聯度量表的值以決定是 , 否要修正一或多個特徵向量修改函數f〇·,假如在步驟314 決定要修正函數f(),則在步驟316修正函數以)。在另一個 具體實施射,修正過的函數f()會馬上在步驟训施用到x 上以形成一新的修正過的聲音特徵向量f(x)。在另一個具 體實施例中,步驟318會被忽略,且新的特徵向量修改函數 f ()不會生效直到一組後來的聲骨特徵向量X。 — __-19~ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) ----— - 546633 A7 B7 五、發明説明( 假如在步驟314或在步騾316與318後決定不修正函數f(), 則在步驟320由遠端工作站202透過無線頻道2〇6傳送現在的 f( X)給通訊中心204,接著在步驟322中由通訊中心204執行 V R型樣的匹配。 在另一個具體實施例中,通訊中心204在V R型樣匹配步 驟322期間產生語音型樣關聯度量表,並將這些度量表送回 給遠端工作站202以輔助函數f〇的最佳化。語音型樣關聯 度1表可以用好幾種方式格式化,舉例來說,通訊中心204 可傳回一聲首特徵向量修正誤差函數f E (),可以施用到 f(X)以產生一與中央聲音模型找到之型樣間正確的關聯 性。或者,通訊中心204可以只傳回一組對應於一目標型樣 或在中央聲晋模型中所找到之與f (χ)有最高關聯程度之型 樣的聲音特徵向量。或者,通訊中心2〇4可以傳回從用以選 擇目標型樣之硬決定或軟決定之Viterbi解碼方法所衍生出之 刀支度昼表。語首型樣關聯度量表還包括這些類型之資訊 的一個組合。此傳回的資訊接著由遠端工作站2〇2在最佳化 ㈡數f()時使用。在一個示範的具體實施例中,步驟gig之 重新產生f(X)會被省略,且遠端工作站2〇2在接收到來自通 訊中心204的回鳍後執行函數f()的修正(步驟314與316)。 圖4顯示一用以執行分佈式vR,之方法的流程圖,其中χ 與f ()的修改根據與一中央聲音模型的關聯性全部·在通訊,中 心204中執行。在步驟4〇2中,遠端工作站2的從麥克風之類 比聲音信號取樣以產生數位聲音樣本的串έ ;在步驟4〇4 中,過濾浯首樣本,例如利用一前述之預加重過濾器;在
五
^406中,,從過滤過之語音樣本中擴取—聲音特徵向量串 、L X ’如則面說的’聲音特徵向量可以從重叠或沒有重疊 <固定或變動之時間間隔的語音樣本擷取。 且 在v % 408中,运%工作站2〇2透過無線頻道2〇6發送未修 —正之聲音特徵向量幸流X。在步驟楊中,通訊中心2〇4執: '周通型樣匹配,如前所說明的,調適型樣匹配可以使用一 獨立之調適模型或使用一大型的中央聲音模型238。在步驟 化中’通訊中心2〇4從調適模型中選擇與聲音特徵向量串 流X最匹配的型樣’所選擇的型樣是稱為目標型樣,如前 面所說的,假如X與目標型樣览的關聯程度超過一臨界 值,則選擇對應於目標型樣的函數f(),否則選擇—預^ 函數f〇或空的f()。在步驟414中,施用所選擇之特徵向量 嚴正函數f()到聲音特徵向量串流x上以形成—修正過之聲 首特徵向量串流f(X)。 在-個示範的具體實施'例中,—特徵向量修正函射()是 從一存在於通訊中心綱之大型特徵向量修正函數的資料庫 〈子集合中選擇出來。可供選擇之特徵向量修正函數的予 集合是與說話者相關的,使得使用—中央聲音模型(如在 圖2之238)之型樣匹配在使用f(x)做為輸入時會比X更正 確。如.前面所說的,通訊中心2〇4可能會如何選擇一與說話 者相關之特徵向量修正函數的子集合的例子包括利用說話 者之無線電話的MIN或由說話者輸入—密碼。 在一個示範的具體實施例中’通訊中心2〇4產生表示乂虚 目標型樣間以及f (X)與目標型樣間之關聯性的關量 546633 A7 B7 五、發明説明(19 表’接著在步驟416通訊中心204利用這兩個關聯度量表以 及過去的關聯度量表的值以決定是否要修正一或多個特徵 向量修改函數f(),假如在步驟416決定要修正函數£(),則 在步驟418修正函數f()。在一個具體實施例中,修正過的 函數f()會馬上在步驟420施用到X上以形成一新的修正過的 聲音特徵向量f(X)。在另一個具體實施例中,步驟42〇會被 忽格’且新的特徵向量修改函數f ()不會生效直到一組後來 的聲音特徵向量X。 假如在步騾416或在步騾418與420後決定不修正函數f(), 則在步驟422由通訊中心204利用一中央聲音模型238執行v R 型樣的匹配。 圖5顯不一用以執行分佈式vr之方法的流程圖,其中使 用一在通訊中心204中之中央聲音模型以最佳化特徵向量修 改函數或碉適模型。在一個示範的具體實施例中,遠端工 作站202與通訊中心2〇4在需要時交換資訊並協力合作將特 徵―向量修改函數最佳化的正確性最大化。 ,在γ ·|λΪΑ 5〇2,返端工作站202從麥克風之類比聲音信號取 才水X產生數位聲首樣本的串流;在步驟$⑽中,過濾語音樣 本例如利用一前述之預加重過濾器;在步騾5〇6中,從過 滤過t語音樣本中㈣—聲音特徵向量串流Χ,如前面說 的,耸晉特徵向量可以從重疊或沒有重疊之固定或變動之 時間間隔的語音樣本擷取。 厂y ‘ 508中,遠端工作站202執行型樣匹配以決定聲音 特欲向!串流與包含在調適模型(如圖2之228)之多個樣本
546633
2關如私度。在步驟510中,遠端工作站202從調適模型 中=擇與耸首特徵向量串流X最匹配的型樣,所選擇的型 樣疋、為目標型樣,如前面所說的’假如X與目標型樣間 的關聯性超過-臨界值,則選擇—對應於該目標型樣之第 、特欲向量修改函數fi(),否則選擇一預設的函數[㈠或是 =的函數f()。遠端工作站,2〇2從一本地之對應到在本地調 適楱型中不同型樣之特徵向量修改函數的資料庫中選擇一 特敌向I函數f (),接著在步驟512,遠端工作站202施』所 堤擇之特徵向量函數f()到聲音特徵向量串流X上以產生f(X) 〇 — 與圖3以及圖4之方法不同的是,在步驟514,遠端工作 站202透過頻道206送出兩組聲音特徵向量以乂丨與以又)給通 Λ中心204。在步驟516中,通訊中心204利用f〗(X)當成輸入 執仃與中央聲晉模型之型樣匹配,根據此VR型樣匹配的 結果,通訊中心204確認一目標型樣或具有與f]( χ )最高關 聯程度之型樣的集合。在步驟518中,通訊中心204產生一 第一語骨型樣關聯度量表以表示fχ)與目標型樣間的關 耳外程度’並压生一弟一語首型樣關聯度量表以、表示X ) 與目標型樣間的關聯程度。 雖然兩組聲音特徵向量都用來跟中央聲音模型做型樣匹 配,但只有一組真正用於VR,因此,遠端工作站2〇2可以 在沒有不預期之性能降低的風險下評估一建議之特徵向量 修正函數的性能,還有,遠端,工作站202在最佳化f()時不 需要完全依賴其自己之小型,本地的調適模型。在另—個 _ 93 _ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝 訂
k 546633 A7 B7 五、發明説明(21 ) 具體實施例中,遠端工作站202也可以使用空的f2()函數, 使得f 2( X) = X,此方法可以讓遠端工作站202驗證有f ()時 以及沒有聲音特徵向量修正時VR的性能。 在步騾520中,通訊中心204透過無線頻道206將該兩個語 音型樣關聯度量表送回給遠端工作站202。在步騾522中, 遠端工作站202根據所接收到之語音型樣關聯度量表決定是 否要在步驟524修正fi()。在步騾522所決定之是否要修正 f!(X)可能是根據一組語音型樣關聯度量表,或者是根據 一系列與本地調適模型中相同語音型樣相關之語音型樣關 聯度量表。如前面所說的,語音型樣關聯度量表可能包括 以下的資訊如一聲音特徵向量修正誤差函數fE(),一組對 應於在中央聲音模型中所找到之與f(X)有最高關聯性之型 樣的聲音特徵向量,或一 Viterbi解碼分支度量表。 熟悉此技藝的人士將會承認以上所說明的技術可以同樣 的應用在任何類型的無線頻道206上,舉例來說,無線頻道 206(以及如前所說之數據機218,230)可Θ使用分碼多工近 接(CDMA)技術,類比蜂巢式,分時多工近接(TDMA),或 其他型式的無線頻道;或者,無線頻遒206也可能是一種非 無線電型式的頻道,包括但不限於光纖,紅外緣,以及乙 太網路頻道。在另一個具體實施例中,遠端工作站202和通 訊中心204是合併成一單一的系統,利用一中‘央聲音模型 238在VR測試前執行聲音特徵向量之與說話f有關的修 正,完全避免使用頻道206。 熟悉此技藝的人士會了解本發明所提到之資訊與信號可 _-24-__ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)
裝 訂
546633 A7
能是利用任何各種不同的科技 矛,钰噃 a η Ρ 7 貝訊,信號,位 、付號,舁日0片可能是以電壓,電流,電磁波,磁 粒子’光場或粒子,或任何它們的組合。 两, 、>熟悉此技藝的人士會了解在說明本發明所揭示之具一 時所用到之相關的各個邏輯方塊,模組,電路:、:: 异法則的步驟可以實施成一電子/ '、°、 包恥軟體,或它們 ’、’且否。為了清楚的顯示此一硬體與軟體的可交換性,以 上所說明之各個例示的元件’方塊圖,模組,電路,以及 步驟通常都是以其功能來描述,錄該功能是以硬體或軟 體來實施則取決於整體系統之特定的應用與設計限制。孰 悉此技藝的人士能夠對各特定的應用以不同的方式實施ς 上所說的功能,但是該實施的決定*應_域離 的範圍。 ' 在說明本發明所揭示之具體實施例時所用到之相關的各 個邏輯方塊,模組,電路可以由以下之元件實施或執行, 如一之用型處理器,一數位信號處理器(Dsp),一特定用 途積體電路(ASIC),一欄位可程式規劃閘择陣列(FpGA), 或其他可程式規劃之邏輯裝置,個別的閘極或電晶體邏 輯,個別的硬體元件,或任何這些設計來執行本文所說之 功能的組合。一泛用型處理器可能是一微處理器,但也可 以是任何傳統之處理器,控制器、微控制器,或狀態機。 一處理器也可以實施成一計算裝置的組合,例如,一 Dsp 與一极處理為’袓數個微處理器,一或多個微處理器纟士人 -25-
546633 A7 B7 五、 發明説明(23 ) 一 DSP核心,或任何其他類似的組態。 與本發明所揭示之具體實施例相關之方法與演算法則的 步驟可以直接以硬體具體實施之,或是以軟體模組實施而 由一處理器執行,或是以兩者的組合實施。軟體模組可能 是存在RAM記憶體,快閃記憶體,ROM記憶體,EPROM記 憶體,EEPROM記憶體,暫存器,硬碟,可移動式磁碟, CD-ROM,或任何在本領域中其他已知型式之儲存媒體。— 個示範性的儲存媒體是連結到處理器,使得處理器可以從 儲存媒體讀取資訊或寫入資訊到儲存媒體中;或者儲存媒 體也可以整合到處理器中,該處理器與儲存媒體可能存在 於一 ASIC中,而ASIC存在於遠端工作站中;或者,處理器 與儲存媒體可能是以個別的元件存在於一遠端工作站中。 以上關於本發明所揭示之具體實施例的說明是提供來使 熟悉此技藝的人士可以實施或利用本發明,對熟悉此技藝 的人士而言對這些具體實施例做不同程度的修改是很容易 且明顯的,且此處所定義之通有性的原理可以在不脫離本 發明的精神與範圍内應用到其他的具體實施例上,因此, 本發明並不受限於此處所揭示之具體實施例,而是跟本文 所揭示之原理或新的特點一致之最廣的範圍。 -26- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝
Claims (1)
- 546633 、申請專利範圍 丨種聲她一: 一包含聲音型樣資凱之調適模型;以及 一碉適引擎,用以執行聲音特 — 之型樣匹配以確認一選定之c樣資訊 2. 如申請專利範圍第!項之聲音辨識系統,立 進:步設定為施用選定.之特徵向量修正函數到聲::: 向量以產生一組修正過之聲音特徵向量。 耳3知 3. 如申請專利範圍第1項之聲音辨識系統,還包括一舞立 辨識引擎’用以匹配該組修正過之聲音特 ^ 晋模型。 』里只聲 4_如申請專利範圍第1項之聲音辨識系統,'還包括一㈣ =二用以評估較之特徵向量修正函數的性^根 據坪估的結果調整選定之特徵向量修正函數。. 5.如申請專利範圍第i項之聲音辨識系統,還包括一纪情 ―體,用以儲存至少—組對應於—組特徵向量修正函數的 參數,其中選定之特徵向量修正函數是該組特徵向量修 正函數中的一個成員。 . 6·如申請專利範圍第5項之聲音辨識系統,其中記憶體包 含超過-組對應於-組特徵向量修正函數的參數,且其 中各組參數皆對應到一特定的說話者。 如申請專利範圍第5項之聲音辨識线,其中記饞體包 含超過一組對應於一組特徵向量修正函數的#襄,且其 中,各組參數皆對應到一不同的聲音環境。、 一種聲音辨識系統,包括: 本紙張尺度適用中國國家標準(CNS) -27 - 546633 A8 B8Ύ 且參數皆對應到一特定的說話者。 •口申凊專利範圍第12項之聲音 _ 含超過一纽料_ 1 辨4系統,其中記憶體包 , 、、怎万;一組特徵向量修正函數的夂激, 口組參數皆對應到「不同的聲音環境。;〜、 15·一種遠社作,站裝置,包括:、 包含聲音型樣資訊之調適模、型;以及 之刑‘::丨擎’用以歡行聲晉特徵向量與聲音型樣資訊 選:樣:配以確認-選定之特徵向量修正函數,並施用 、…争徵向量修正函數到聲音特徵向量以 正過之聲音特徵向量。. .生 16. 如申6,專利範圍第】5項之遠端工作站裝置,還包括一控 制處理器,用以評估選定之特徵向量修正絲的性能^ 根據評估的結果調整選定之特徵向量修正函數。 17. 如申凊專利範圍第i 5項之遠端工作站裝置,還包括一記 憶體,用以儲存至少一組對應於一組特徵向量修正函數 的參數,其中選定之特徵向量修正函數是該組特徵向量 修正函數中的一個成員。 18·如申請專利範圍第17項之遠端工作站裝置,其中記憶體 包含超過一組對應於一組特徵向量修正函數的參數,且 其中各租參數皆對應到一特定的說話者。 19·如申請專利範圍第丨7項之遠端工作站裝置,,其中記憶體 包含超過广組對應於一組特徵向量修正函數的參數,且 其中各組參數皆對應到一不同的聲音環境。 20·如申請專利範圍第Γ 5項之遠端工作站裝置,還包括一通 -29- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 546633 六、申請專利範圍 ,介面’用來跟-通訊中心溝通修正過之聲音特徵向 21.—種聲音辨識通訊中心裝置,包括: 一用以接收聲音特徵向量之通訊介面,其中該聲音特 徵向量已利用-特徵向量修正,函數修正過; -包含聲晋型樣之聲音模型,其中該聲音模型沒 過一單一說話者的訓練;, ▲ 又 -聲音辨識引擎,用以匹配該組修正過之每音特徵 量與該聲音模型;以及 &制處理③’其根據匹配的結果許估特徵修正 數。 ^ 22· —種聲音辨識通訊中心裝置,包括: μ f ^介面’用以從至少—個遠端工作站·接收聲音特 徵向量以.及說話者的識別資訊; 、 憶體包:及與說話者有關之特徵向量修正函數之參數的 -調適引擎’用以執行聲音特徵向量與 型樣匹配,根據型樣匹配的結果與說話者的識:以 認:選定之與餘者_之特徵向量修正㈣,並= 話:有關之特徵向量修正函數到聲音待徵向量 產生组修正過的聲晉特徵向量。 23.如申請專利範圍第2 2項之聲音辨識通訊中 還包括-聲音辨識引擎,用以匹配該組修: …耳曰特徵向量與一中央聲音模型,其中該中央該 向 函 記 以 中 聲 “尺度適用中國國家標準(¾ Α4規格(21GX2贈Γ -30 - 546633 8 8 8 8 A B c D 六、申請專利範圍 .音模型沒有受過一單一說話者的訓練。 24. 如申請>利範圍第22項之聲音辨識通訊中心裝置,旧勺 括一中央聲音模型,其中該中央聲音模型沒有受過二包 -說話者的訓練,且其中該調適引擎更設定為執行該= 修正過之聲音特徵向量與該中央聲音模型的型樣匹f且 25. 如申請專利嚴圍第22項之聲音辨識通訊中心裝置, 括-聲音辨識引擎’用以匹配該組修:包 量與一中央聲音模型。. 耳曰#徵向 26. 知申請專利範圍第22項之聲音辨識通訊中心裝置,還勺 括-控制處、理器,用以評估選定之顧話者有關之= 向量修正函數的性能並根據,評估的結果調整選定之與= 話者有關之特徵向量.修正函數的參數。 又舁說 27·—種執行聲音辨識的方法,包括: 擷取聲音特徵向量;. 、 執行聲音特徵向量與一調適模型之調適型樣匹配; 根據調適型樣匹配的結果選擇一特徵向量修正函“· 施用選定之特徵向量修正函數到聲音特徵向量^出 一組修正過之聲音特徵向量;以及 . ’成 執行該組修正過之聲音特徵向量與一聲“ 辨識型樣匹配。 . 耳首 28. 如申請專利範圍第27項之方法,其中特徵向量修正 是從一組與說話者有關之特徵'向量修正函數中選擇Μ 29. 如申請專利範圍第28項之方法,還包括根據調適型樣 配的結果修正該組與說話者有關之特徵向量修正函數。 -31 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 54663330·如申請專利範圍第2 8項之方法,虹 樣匹配的妹果^ n έ ~ 匕括根據聲音辨識型 .數。。果修正錢與說時有狀特⑸量修正函 31·如申請‘專利範圍第27項之方法 數是針對一聲音環境。 、中及特欲向量修正函 议一種執行聲音辨識的方法,包括: 达端工作站,執行聲晉特徵向量與一土山 工作1内之調適模型的調適型樣匹配;、 返 在遠端工作站,從儲存在遠端工 •函數資訊中選擇一特徵 乍站〈特徵向量修正 向量修正函數是根據型樣匹配; -中、擇-特徵 在遠端工作站,、·施用選定之、特徵 特徵向量以形成一組如正過之音特:二正函數到聲音 心。 Θ待被向I到一通訊中 汉如申請專利'範圍第32項之方法, 數資訊是與說話者有闕的。4孩特徵向量修正函 34.如申請‘專利範譴第32項、之方法,I 35·如_請專利顧第3 2项之方法; 據接你ή、系七rK •匕括在^端工作站根 據接收自遇对心的資訊修正特徵、 36.如申請專利範—圍第32項之方法,/ 4正函數男矾。 行聲音辨識,其中執行聲音辨在遠端工作站執 特徵向量與-儲存在遠端工上;執行修…聲音 Λ nt模型之聲首辨識 ,_ 32 - i紙張尺度適财目时鮮(⑽)域格(2^^ 546633 申請專利範圍 型樣匹配。 37·如申請專利範圍第3 6項之方法,邊4上 、 逐包括在遠端工作站根 據聲首辨識型樣匹配的結果修正转 狩敘向量修正函數資 訊。 ’、 38·如申請專利範圍第3 2項之方法,且+ ,、中特徵向量修正函數 資訊是與環境有關的。 敬 39_ —種在一系統中執行聲音辨識的方 土山 们万去’孩系統包括至少 一运鈿工作站與一通訊中心,該方法包括 在遠端工作站擷取聲音特徵向量; 從遠端工作站送出聲音特徵向量給通,祗中、. 在通訊中心執行聲音特徵向量與—错存錢訊中心之 調適模型之調適型樣匹配; 在通訊中心從-儲存在通訊中心之中 徵向量修正函數,其中選擇—特早γ選揮特 $力剂w 特欲向I修正函數係根據 调通型樣匹配的結果; 在通訊中心施用選定之特徼A θ A旦 向I修正函數到聲音特徵 向1T以形成-組修正過之聲音特徵向量;以及 在通訊中心執行該組修正過之聲音特徵向量血 在通訊中心之聲音模型之聲音辨識型樣匹配。、 40.如申請專利範圍第39項之方法,還 -組與說話者有關乏特徵向量 =心選擇 函數中選擇的。 以者有關<特徵向量修正 41·如申請專利範圍第4〇項之 、这 去,遂包括根據調適型樣匹 -33 - 546633 A8 B8 C8 、申請專利範圍 ,配的結果修正見組與說話者有關之特徵向量修正函 42. 如申請專利範圍第4〇,之方法,還包括根據聲音刑 樣匹配的結果修正該組與說話者有關之特徵向量修= 數。 43. 如申請專利範圍第4〇项之方法,還包括從遠端工作站 出說話者識別資訊給通訊中心,其中選擇—組與說話者 有關之特徵向量修正函數係根據說話者識別資訊。 44·-種夺-系統中執行聲音卿識的方法,該系統包括至少 一遠端工作站與一通訊中心,該方法包括: 裝 在遠端工作站掏取未修正之聲音特徵向量; 在遠端工作站執行未修正之聲音特徵向量與一儲存在 遠端工作站内之調適模型的調適型樣匹配; 在运场工作站根據_適型樣匹配的結果選擇一與說 者有關之特徵向量修正函數; 在遠端,作站施用選定之與說話者有關之特徵向量修 f函數到聲音特徵向量以形成'组餐正過之聲音特徵向 量; 從遠端工作站送出修正過之聲音特徵向量給通 心; •,在通訊中心執行該組修正過之聲音特徵向量與-儲存 在通訊中心.之聲音模型之聲音辨識型樣匹配。 45•如申請專利範圍第·4 4項之方法,還包括根據調適型樣匹 配的結果修正綱定之與餘者㈣之特徵向量修 數0 本紙張尺歧财®目家標準(cns)A4規格(210Χ297公嫠 34- 546633 A8 B8 C8 D8 六、申請專利範園 46. 如申請專利範圍第4 4項之方法,還包括: 從遠端工作站送出未修正之聲音特徵向量給通訊中 •心; 在通訊中心利用修正過之聲音特徵向量與未修正之聲 音特徵向量分析該選定之與說話者有關之特徵向量修正 函數;以及 ' 在遠端工作站根據分析的結果修正該選定之與說話者 有關之特徵向暈修正函數。 » 47. 如申請專利範圍第4 4項之方法,還包括根據聲音辨識型 樣匹配的結果修正該組與說話者1有關之特徵向量修正函 數。 48. —種聲音辨識系統,包括: .. ’ 用以擷取聲音特徵向量之裝置; 用以執行聲音特徵向量與一調適模型之調適型樣匹配 . / 之裝置; 根據調適型樣匹配的結果選擇一特徵向量修正函數之 裝置; / 施用選定之特徵向量修正函數到聲音特徵向量以形成 一組修正過之聲音特徵向量之裝置;以及 用以執行該組修正過之聲音特徵向量與一聲音模型之 聲音辨識型樣匹配之裝置。 * ' * 49. 一種遠端工作站裝置,包括: 用以執行聲音特徵向量與一儲存在遠端工作站内之調 適模型的調'適型樣匹配之裝置; -35- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 546633 A BCD 申請專利範圍 從儲存在遠端工作站之特徵向量修正函數資訊中選擇 一特徵向量修正函數之裝置,其中選擇一特徵向量修正 函數係根據型樣匹配; 用以施用選定之特徵向量修正函數到聲音特徵向量以 形成一組修.正過之聲音特徵向量之袭置;以及 送出修正過之聲音特徵向量到一通訊中心之裝置。 -36- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/773,831 US7024359B2 (en) | 2001-01-31 | 2001-01-31 | Distributed voice recognition system using acoustic feature vector modification |
Publications (1)
Publication Number | Publication Date |
---|---|
TW546633B true TW546633B (en) | 2003-08-11 |
Family
ID=25099445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW091101575A TW546633B (en) | 2001-01-31 | 2002-01-30 | Distributed voice recognition system using acoustic feature vector modification |
Country Status (12)
Country | Link |
---|---|
US (1) | US7024359B2 (zh) |
EP (1) | EP1356453B1 (zh) |
JP (2) | JP4567290B2 (zh) |
KR (1) | KR100879410B1 (zh) |
CN (1) | CN1284133C (zh) |
AT (1) | ATE407420T1 (zh) |
AU (1) | AU2002235513A1 (zh) |
BR (1) | BR0206836A (zh) |
DE (1) | DE60228682D1 (zh) |
HK (1) | HK1062738A1 (zh) |
TW (1) | TW546633B (zh) |
WO (1) | WO2002065453A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996213B2 (en) | 2006-03-24 | 2011-08-09 | Yamaha Corporation | Method and apparatus for estimating degree of similarity between voices |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487494B2 (en) * | 2001-03-29 | 2002-11-26 | Wingcast, Llc | System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation |
US20020143611A1 (en) * | 2001-03-29 | 2002-10-03 | Gilad Odinak | Vehicle parking validation system and method |
US7406421B2 (en) | 2001-10-26 | 2008-07-29 | Intellisist Inc. | Systems and methods for reviewing informational content in a vehicle |
US20050065779A1 (en) * | 2001-03-29 | 2005-03-24 | Gilad Odinak | Comprehensive multiple feature telematics system |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
USRE46109E1 (en) | 2001-03-29 | 2016-08-16 | Lg Electronics Inc. | Vehicle navigation system and method |
US7236777B2 (en) | 2002-05-16 | 2007-06-26 | Intellisist, Inc. | System and method for dynamically configuring wireless network geographic coverage or service levels |
US7392191B2 (en) * | 2001-03-29 | 2008-06-24 | Intellisist, Inc. | Method and device to distinguish between voice conversation and automated speech recognition |
US8175886B2 (en) | 2001-03-29 | 2012-05-08 | Intellisist, Inc. | Determination of signal-processing approach based on signal destination characteristics |
CN1409527A (zh) * | 2001-09-13 | 2003-04-09 | 松下电器产业株式会社 | 终端器、服务器及语音辨识方法 |
GB2391679B (en) * | 2002-02-04 | 2004-03-24 | Zentian Ltd | Speech recognition circuit using parallel processors |
US8249880B2 (en) * | 2002-02-14 | 2012-08-21 | Intellisist, Inc. | Real-time display of system instructions |
US8239197B2 (en) * | 2002-03-28 | 2012-08-07 | Intellisist, Inc. | Efficient conversion of voice messages into text |
WO2003084196A1 (en) | 2002-03-28 | 2003-10-09 | Martin Dunsmuir | Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel |
TW567465B (en) * | 2002-09-02 | 2003-12-21 | Ind Tech Res Inst | Configurable distributed speech recognition system |
GB0226648D0 (en) * | 2002-11-15 | 2002-12-24 | Koninkl Philips Electronics Nv | Usage data harvesting |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
DE10353068A1 (de) * | 2003-11-13 | 2005-06-23 | Voice Trust Ag | Verfahren zur Authentifizierung eines Benutzers anhand dessen Stimmprofils |
US20050216266A1 (en) * | 2004-03-29 | 2005-09-29 | Yifan Gong | Incremental adjustment of state-dependent bias parameters for adaptive speech recognition |
US7720012B1 (en) | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
US20060095261A1 (en) * | 2004-10-30 | 2006-05-04 | Ibm Corporation | Voice packet identification based on celp compression parameters |
CN1811911B (zh) * | 2005-01-28 | 2010-06-23 | 北京捷通华声语音技术有限公司 | 自适应的语音变换处理方法 |
US7725316B2 (en) * | 2006-07-05 | 2010-05-25 | General Motors Llc | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
WO2008137616A1 (en) * | 2007-05-04 | 2008-11-13 | Nuance Communications, Inc. | Multi-class constrained maximum likelihood linear regression |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US8639510B1 (en) | 2007-12-24 | 2014-01-28 | Kai Yu | Acoustic scoring unit implemented on a single FPGA or ASIC |
US8352265B1 (en) | 2007-12-24 | 2013-01-08 | Edward Lin | Hardware implemented backend search engine for a high-rate speech recognition system |
US8463610B1 (en) | 2008-01-18 | 2013-06-11 | Patrick J. Bourke | Hardware-implemented scalable modular engine for low-power speech recognition |
KR101217525B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 비터비 디코더와 이를 이용한 음성 인식 방법 |
US9418662B2 (en) * | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
US8189925B2 (en) * | 2009-06-04 | 2012-05-29 | Microsoft Corporation | Geocoding by image matching |
US8554562B2 (en) * | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
EP2643832A4 (en) * | 2010-11-22 | 2016-10-12 | Listening Methods Llc | SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS |
US10229701B2 (en) | 2013-02-28 | 2019-03-12 | Nuance Communications, Inc. | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission |
WO2014133525A1 (en) * | 2013-02-28 | 2014-09-04 | Nuance Communication, Inc. | Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
US20170092278A1 (en) * | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
IL263655B2 (en) * | 2016-06-14 | 2023-03-01 | Netzer Omry | Automatic speech recognition |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
EP3719679B1 (en) * | 2019-04-03 | 2021-06-09 | Fondation de L'institut de Recherche Idiap | A method for protecting biometric templates, and a system and method for verifying a speaker´s identity |
US11545132B2 (en) | 2019-08-28 | 2023-01-03 | International Business Machines Corporation | Speech characterization using a synthesized reference audio signal |
CN118675505A (zh) | 2019-12-04 | 2024-09-20 | 谷歌有限责任公司 | 使用说话者相关语音模型的说话者感知 |
CN113345428B (zh) * | 2021-06-04 | 2023-08-04 | 北京华捷艾米科技有限公司 | 语音识别模型的匹配方法、装置、设备和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
JP2980382B2 (ja) * | 1990-12-19 | 1999-11-22 | 富士通株式会社 | 話者適応音声認識方法および装置 |
JPH06214596A (ja) * | 1993-01-14 | 1994-08-05 | Ricoh Co Ltd | 音声認識装置および話者適応化方法 |
JP3413861B2 (ja) * | 1993-01-18 | 2003-06-09 | ヤマハ株式会社 | 電子楽器の鍵盤装置 |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH07210190A (ja) | 1993-12-30 | 1995-08-11 | Internatl Business Mach Corp <Ibm> | 音声認識方法及びシステム |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3697748B2 (ja) | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
JP3001037B2 (ja) | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
WO1999021172A2 (en) * | 1997-10-20 | 1999-04-29 | Koninklijke Philips Electronics N.V. | Pattern recognition enrolment in a distributed system |
JP2000276188A (ja) * | 1999-03-24 | 2000-10-06 | Sony Corp | 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 |
JP3456444B2 (ja) * | 1999-05-10 | 2003-10-14 | 日本電気株式会社 | 音声判定装置及び方法並びに記録媒体 |
US6421641B1 (en) * | 1999-11-12 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for fast adaptation of a band-quantized speech decoding system |
-
2001
- 2001-01-31 US US09/773,831 patent/US7024359B2/en not_active Expired - Lifetime
-
2002
- 2002-01-30 AU AU2002235513A patent/AU2002235513A1/en not_active Abandoned
- 2002-01-30 KR KR1020037010130A patent/KR100879410B1/ko active IP Right Grant
- 2002-01-30 EP EP02702130A patent/EP1356453B1/en not_active Expired - Lifetime
- 2002-01-30 CN CNB028060687A patent/CN1284133C/zh not_active Expired - Lifetime
- 2002-01-30 DE DE60228682T patent/DE60228682D1/de not_active Expired - Lifetime
- 2002-01-30 TW TW091101575A patent/TW546633B/zh not_active IP Right Cessation
- 2002-01-30 BR BR0206836-2A patent/BR0206836A/pt unknown
- 2002-01-30 AT AT02702130T patent/ATE407420T1/de not_active IP Right Cessation
- 2002-01-30 WO PCT/US2002/003014 patent/WO2002065453A2/en active Application Filing
- 2002-01-30 JP JP2002565298A patent/JP4567290B2/ja not_active Expired - Lifetime
-
2004
- 2004-07-28 HK HK04105572A patent/HK1062738A1/xx not_active IP Right Cessation
-
2009
- 2009-01-14 JP JP2009006033A patent/JP4976432B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996213B2 (en) | 2006-03-24 | 2011-08-09 | Yamaha Corporation | Method and apparatus for estimating degree of similarity between voices |
Also Published As
Publication number | Publication date |
---|---|
CN1284133C (zh) | 2006-11-08 |
HK1062738A1 (en) | 2004-11-19 |
AU2002235513A1 (en) | 2002-08-28 |
EP1356453B1 (en) | 2008-09-03 |
CN1494712A (zh) | 2004-05-05 |
WO2002065453A2 (en) | 2002-08-22 |
KR100879410B1 (ko) | 2009-01-19 |
WO2002065453A3 (en) | 2002-10-24 |
KR20040062433A (ko) | 2004-07-07 |
DE60228682D1 (de) | 2008-10-16 |
JP4567290B2 (ja) | 2010-10-20 |
US7024359B2 (en) | 2006-04-04 |
US20020103639A1 (en) | 2002-08-01 |
ATE407420T1 (de) | 2008-09-15 |
JP4976432B2 (ja) | 2012-07-18 |
JP2009151318A (ja) | 2009-07-09 |
BR0206836A (pt) | 2006-01-17 |
JP2004536330A (ja) | 2004-12-02 |
EP1356453A2 (en) | 2003-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW546633B (en) | Distributed voice recognition system using acoustic feature vector modification | |
CN108922538B (zh) | 会议信息记录方法、装置、计算机设备及存储介质 | |
TW577043B (en) | Voice recognition system using implicit speaker adaptation | |
CN102254553B (zh) | 语音音节时长的自动归一化 | |
WO2018173293A1 (ja) | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 | |
TW580690B (en) | System and method for voice recognition in a distributed voice recognition system | |
CN1742321B (zh) | 韵律模仿合成方法和装置 | |
US20100076770A1 (en) | System and Method for Improving the Performance of Voice Biometrics | |
CN103903627A (zh) | 一种语音数据的传输方法及装置 | |
TW546632B (en) | System and method for efficient storage of voice recognition models | |
JP2000187496A (ja) | デジタル無線チャネル上の自動音声/話者認識 | |
CN109754779A (zh) | 可控情感语音合成方法、装置、电子设备及可读存储介质 | |
JP2001142488A (ja) | 音声認識通信システム | |
Hirsch | The influence of speech coding on recognition performance in telecommunication networks. | |
JP2002101203A (ja) | 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体 | |
US6044147A (en) | Telecommunications system | |
CN102160351B (zh) | 数字电信系统、用于管理这样的系统的程序产品和方法 | |
EP0883959B1 (en) | Apparatus and method of improving the qulality of speech signals transmitted over a telecommunications system | |
JP2019176412A (ja) | 通信処理装置、プログラム及び方法 | |
JP2002372985A (ja) | 音声認識装置 | |
Staroniewicz | Speaker recognition for VoIP transmission using Gaussian mixture models | |
JP2000151827A (ja) | 電話音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MK4A | Expiration of patent term of an invention patent |