TW546633B - Distributed voice recognition system using acoustic feature vector modification - Google Patents

Distributed voice recognition system using acoustic feature vector modification Download PDF

Info

Publication number
TW546633B
TW546633B TW091101575A TW91101575A TW546633B TW 546633 B TW546633 B TW 546633B TW 091101575 A TW091101575 A TW 091101575A TW 91101575 A TW91101575 A TW 91101575A TW 546633 B TW546633 B TW 546633B
Authority
TW
Taiwan
Prior art keywords
sound
feature vector
patent application
model
speaker
Prior art date
Application number
TW091101575A
Other languages
English (en)
Inventor
Chienchung Chang
Narenprana Malayath
Byron Yoshio Yafuso
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of TW546633B publication Critical patent/TW546633B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)
  • Devices For Executing Special Programs (AREA)

Description

546633 ‘ A7 ^ B7 五、發明説明(i ) 發明範疇 本發明是關於語音信號處理,更明確的說本發明是關於 / 、 一種用於使用聲音特徵向量修正之分佈式聲音辨識系統之 新的方法與裝置。 發明背景 聲音辨識是一種賦予電腦模擬的智慧以辨識使用者之聲 首的命令以使人機介面更人性化之最重要的技術。利用技 術將一聲音語音信號轉回語言訊息的系統是稱為聲音辨識 (VR)系統。圖1是一個基本的VR系統,其l含一預加重'過 濾器102,一聲音特徵擷取(AF泛)單元1CT4,與一型樣匹配引' 擎110。AFE單元104將一連串數位聲音樣本轉換成一組稱為 是聲音特徵向量之測量值(例如擷取頻率成分)。型樣匹配 引擎110匹配一連串之聲音特徵向量與包含在一 VR聲音模 型112的型樣,型樣匹配引擎通常是使用此領域中為吾人熟 知之Viterbi解碼技術,當從聲音模型112中辨識出一連串的 型樣時,會分析此一連串型樣以產生一想要的格式之輸 出,如對應於輸入話語之確認的語言文字的序列。 聲音模型112可以看成是一從各種不同的說話聲音與相關 統計分佈的資訊中所擷取之聲音特徵向量的資料庫,這些 聲音特徵向量的型樣是相當於很短的語音片段如音素,三 個單音以及整個單字模型。“訓練”是指收集一或多個說話 者之特定語音片段之語音或音節之樣本以產生聲音模型112 中之型樣的程序。“測試”是指使一連串從終端使用者之語 音樣本所擷取之聲音特徵向量與聲音模型112的内容產生關 ___ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 町
線 546633 A7
聯的程序:一已知系統的性能大 曰
的聲音與資料庫之内”互相關聯:度又決^終端使用者 取理想的狀況是終端使用I 話聲音捧徵向量,使得二 =':與_期間贼供說 最匹配。然而,由於:==r端使用者'的語音 、L 1 112通常必須表示大量之音五 晋片段的型樣,故通常會佔據大量的記憶體,此外,會; ::::=到所有訓練語音模型所需之所有可能。 tr 此,很多現有的統使用很多具 =表者的語晋㈣練語音模型,這些語音模型的 设計是對多數的使用者而言能有最佳的性能,但並非對任 -個單獨的使用者最佳化。在一個使用此一語音模型的 VR系統中’其辨識某—特定使用者之語音的能力將會比 -個使用對該特定使用者最佳化之聲音模型的vr系統要 差’對某些使用者而言,如具有嚴重外國口音的使用者, 使用-共用之聲音模型的VR $統之性能可能會很差,甚 至使得其無法有效的使用V R服務。 調適是一種減輕因為在訓練以及測試情況時不匹配所、造 成之辨識性能降低之有效的方法。調適方法是在測試程序 時修改VR聲音模型使得能夠與測試環境緊密的匹配,在 此領域中已經有很多為哥·人熟知之調適模式,如最大可能 線性回歸法與Bayesian調適法。 當語音辨識工作的複雜度增加時,欲在.一無線裝置上採 用完整的辨識系統也益形困難,因此,可以使用一位在中 央通訊中心之共用的聲音模型以提供聲音模型給所有的使 ------ --5- 本紙張尺度適用中國國豕標準(CNS) A4規格(210X 297公爱) 546633 A7 B7 五、 發明説明( 用者’該中央基地站也負責相當耗f計算能力之聲音的匹 配。在分佈式的VR系統中,聲音模型是由很多說話者所 共用,因此無法針對任何個別的說話者最佳化,也因此需 要- VR系統能夠在最小化所需之計算資源時又能提供對 多數個個別的使用者改進的性能。 發明概要 本文中所揭示之方法與裝置是使用在—新的以及改進的 分佈式聲音辨識系統中’其中在聲音辨識型㈣配前使用 與說話者有關的處理以轉換聲音特徵向量。與說話者有關 的處理是根據-具有依說話者變動之參數的轉換函數,或 -使用調適模型之中間型樣匹配程序的結果,或以上兩者 而執行的。與說話者有關的處理可以在—遠端的站台,一 通訊中心’或以上兩者的組合中執行。轉換聲音特徵向量 也可以在聲音辨識型樣匹配前使用與環境有關的處理予以 轉換’聲音特徵向量可以被修改成適應在運作中之舞立产 境的改變(環境噪音,4麥克風的頻率響應等)。幻=: 關的處理也可以在一遠端的站台 者的組合中執行。 本文中所使用之文字“示範的,,是指“當成—例子,奋 例’或圖例”。任何描述為―“示範的具體實施例”之且二 實施例不應解釋為比另一個具體實施例較佳或較有利一 圖式簡單說明 在看過以下之詳細的說明與其伴隨的圖式後,备 明所揭示之方法與裝置的特色,目的與優點有更‘楚的; 通訊中心,或以上兩 裝 訂 ^ t a a ^#^(CNsuIii(2i〇 x 297^) -6- 546633
解,其中相同的參考符號代表同樣的元件,其中: 圖1是一個基本的聲音辨識系統; 圖2是一根據一示範的具體實施例之分佈式的VR系統; 圖3疋一顯不一用以執行分佈式乂尺之方法的流程圖,其 中聲首特徵向量的修改以及特徵向量修改函數的選擇完全 是在一遠端工作站中執行; 圖4是一顯示一用以執行分佈式VR之方法的流程圖,其 中聲首特徵向量的修改以及特徵向量修改函數的選擇完全 是在一通訊中心中執行;及 圖5是一顯示一用以執行分佈式VR之方法的流程圖,其 中使用中央聲首模型以最佳化特徵向量修改函數或調適 模型。 本發明的詳細說明 在個柃^的聲首辨識器中,不論是在辨識時或是在訓 練時,大邵分的計算複雜性是集中在聲音辨識器的型樣匹 配子系統中。在無n㈣環境巾,聲音辨識器是實施成 分佈式系統以最小化聲音辨識應用程式所消耗的空中頻 ^;此外,分佈系統可以避免可能因聲音資料之損 害性的來源編碼所造成的性能的降低,這常常會發生在聲 音編碼器1。這樣的—個分佈式架構在美國專利案號 5,956,6财評細的說明’其標題為‘‘分佈式聲音辨識系統”, 並將權利指定給本發明的+讀 Μ > 1 j的又嚷人,並在本文中是引用為
装 訂
546633 A7 B7
五、發明説明 在一示範的無線通訊系統中,如一數位無線電話系統 使用者的聲音信號是經由一行動電話内或遠端工作站内之 麥克風接收的;該類比聲音信號接著是以數位的方式取樣 以產生一數位樣本串流,例如每秒⑻個8位元的語立腎 本。直接將語音樣本透過一無線頻道送出是很沒有效率 的’因此該資訊通常會在傳送前予以壓縮,聲音編碼器透 過種叫做聲首編碼的技術將語晋樣本的串流壓縮成广連 串資料量小很多的聲音編碼器封包,接著將較小的聲音編 碼為封包而非其所表示之語音樣本透過無線頻道送出,接 著聲音編碼器封包會由無線基地台接收並予以解碼以產生 一語音樣本的_流,然後透過揚聲器呈現給收聽者。 聲晋編碼器的一個主要的目的是儘可能的壓縮說話者的 語音樣本,而同時在解碼時保留讓收聽者能夠聽懂該語音 的能力。聲音編碼器的的演算法則通常是損害性的的壓縮 貭算法,因此解碼後的語音樣本並不能與原始編碼的樣本 70全一樣;再者,聲音編碼器的的演算法通常是最佳化成 即使一或更多的聲音編碼器封包在透過無線頻道傳輸時遺 失了’也能產生可理解的解碼語音,所以此最佳化更會導 致輸入到聲音編碼器之語音樣本與解碼後之語音樣本之間 的不匹配。由於編碼與解碼所造成之語音樣本的變更通常 會降低聲音辨識演算法則的性能,而降低的程度則會因不 同 < 聲音編碼器的演算法則而會有很大的不同。 上在‘ 683號專利中說明的—個系統中,遠端王作站執行聲 首特徵的搞取並透過無線頻遒送出聲音特徵向量而非聲音 546633
馬叩封g到基地站,由於耸骨特徵向量比聲音編碼器封 匕佔據車乂 /的頻览’因此其在透過相同的無線頻道傳輸時 可以附加保4避免通訊頻遒的錯誤(例如,使用前方錯誤 修正(FEC)技術)。當使用下文中說明之與說話者相關之特 徵向量修改函數更進一步最佳化特徵向量時,則可以實現 比‘683號專利中所說明之基本系統更加的能。、 圖2是一根據一示範的具體實施例之分佈式的vr系統, 聲音擷取(AFE)是發生在一遠端工作站2〇2,且聲音特 U向昼疋透過播線頻道206傳送給一基地台與v R通訊中 心2〇4。熟悉此技藝的人士將會了解此處所說明的技術可以 同樣的運用在一沒有使用到無線頻道的VR系統_ 在出示的具體實施例中,使用者的聲音信號經由麥克風 (MIC) 210被轉換成電氣信|虎’並經由一類比到數位的轉換 器(ADC)212轉換成數位語音樣本,接著利用一預加重(pE) 過濾态214 ’例如一衰減低頻信號成分之有限脈衝響應(fir) 過濾器,過濾數位樣本串流。 接著在AFE單兀216中分析過濾過的樣本。AFE單元216將 數位洱曰;^本轉換成聲晉特徵向量,在示範的具體實施例 中,AFE單元216對一連續數位樣本的片段執行一轉換 以產生一對應到不同頻率帶之信號強度的向量,在—示範 的具體實施例中,頻率帶依強度的規模會有不同的頻寬,i 在水強度規模下,各頻率帶的頻寬與頻率帶的中間頻率 有一定的關聯性,即較高頻率之頻率帶比較低頻率之頻率 V有較覓的頻1。強度規模在Rabiner,L.良與Juang, B. H.合著 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公董了 546633 A7
之 Fundamentals of Speech Recognition,,,Prentice Hall l993 一書中有所說明,且為本領域中的人士所熟知β .曰 在-示範的具體實施例中,每個聲音特徵向量都是每、 1定的時間間隔從-連串語音樣本中揭取出來的,在二 :範士的具體實施例中,這些時間間隔是重疊的,舉例來 說,聲骨特徵向量可能是每隔10毫秒從20亳秒間隔之語音 資料中擷取來的,如此,每兩個連續的間隔會共享一10 = 秒的片段。熟悉此技藝的人士會承認在不脫離本文所說5 之具體實施例的範圍内,時間間隔也可能是不重疊的或有 不固定的持續時間。 由AFE單元216所產生之每個聲音特徵向量(在圖2中標示 為X)會提供給一調適引擎224,該.引擎根據一調適龠型228 的内容執行型樣匹配以特徵化聲音特徵向量,根據型樣匹 配的結果,調適引擎224從記憶體227中之一組特徵向量修 改函數f()選擇一個並運用該函數以產生一修改過的聲音特 徵向量f ( X )。 、 此處所用到的X是用來描述一單一之修改過的聲,音特徵 向量或是一連串連續之修改過的聲音特徵向量。同樣的, f( X)是用來描述一單一之修改過的聲音特徵向量或是—連 串連續之修改過的聲音特徵向量。 在一示範的具體實施例中,如圖2所示,修改過的向量 f ( X)由一典線數據機218调變’透過·一無線頻道206傳送, 經由一通訊中心204内之無線數據機230解調,然後由—中 央VR引擎234執行與一中央聲音模型238的匹配。無線數據 機218,230以及無線頻遒206可以使用各種無線的介面包括 "10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
,線 546633 五 發明説明( CDMA’TDMA,或是聰A;此外,無線數據機218,謝 以销不脫離具體實施例的範圍之其他類型之在非 逍上通訊的通訊介面取代,舉例來說,遠端工作站2ϋ 透過各種不同類型的通訊頻道,包括有線數據m ISDN ’ DSL ’乙太網路,式其吾e产< 線路,與通訊中心稿訊 在印刷電路板(PCB)上的 —在-不範的具體實施例中,向量修改函數f〇是針對 疋的使用者或說話者最佳化,並且是設計為當語音與由多 =共=之中央聲音模型継配時,使語音能夠正確被辨識 ::了能,最大化。在遠端工作㈣2之調適模物比中央 聲甘挺里238小很多,這使得能夠保持一份针對—特定的使 用者取佳化之獨立的調適模型228,還有,特徵向量修改函 數f()(用於-或多個說話者的參數是足夠小,故 在遠端工作站202之之記憶體227中。 ° 、^另-示範的具體實施财,另—組提供給跟環境有關 ^特徵向量修改函數之額外的參數也是錄存在記憶體^ 特徵向量修改函數的選擇與最佳化事 以:?王盤性的’因此通常是在每次呼叫時執行。一個 非常簡單之跟環境有關的特徵向量修改函數是施用 =益值k到各聲音特徵向量的各元素上以適應一嗜雜的環 向量修改函數f()可能有好幾種型式,例如,向量 數f〇可能是ΑΧ + b型式的—種遠交的.轉換,另外,向量^ 改幽數f()也可能是—組初始化並施用到—組連婧作 向量之有限脈衝響應(FIR)過攄器。其他型式之向量修改函丈 本錄尺I適财_冢鮮(CNS) A4&格(⑽㈣公幻 11 546633 A7
數f()對m技㈣人士而言是很容易理解的並且是 文所說明之具體實施例的範圍内。 、,-示範的具體實施例中,向量修改函數!()是根據—組 ,續聲晋特徵向量而選定的,舉例來說,調適引擎22何能 是運用ViteAi解碼技術或是麻解碼技術以決定聲音特徵: 量率流與調適模型228中之多樣的語音型樣間之關聯的程 度,一旦偵測A很高的關聯程度,則根據偵測到之型樣選 定-向量修改函數f()並施用到聲音特徵向量幸流中對應的 片段。此種方法需要調適引擎224儲存一系列的聲音特徵向 量並在選擇欲施用到各聲音#徵向量之函數f()之前執行該 系列跟調適模型228的型樣匹配,在一示㈣具體實施例 中,調適引擎維持一未經修改過之聲音特徵向量之有彈性 的緩衝器,並接著在傳送前施用選定的函數f()到彈性緩衝 器的内容,接著將彈性緩衝器的内容跟調適模型228中的型 樣匹配,並且產生一具有與彈性緩衝器的内容有最大的= 聯程度之型樣的最大關聯度量,再將此最大度量跟一或多 個臨界點比較,假如最大關聯超過一偵測的臨界點,則將 與最大關聯相關之型樣所對應之函數")施用到在緩衝器中 的聲音特徵向量並傳送出去。假如彈性緩衝器在最大關聯 超過偵測的臨界點之前就已經滿了,則緩衝器中的内容在 沒有修改或利用一預設的函數f()修正就會被傳送出去。 函數f()之與說話者有關的最佳化可以用好幾種方式完 成。在第一示範的具體貫施例中,一控制處理器監視使 用者語首與調適模型228在多個話語上的關聯程度,當控制 ___- 丨…丨丨.圓圓 ------12- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
546633 A7 B7 五、發明説明(1()) 處理器222判定函數f()的一個改變可以增進VR的性能時, 它會修改函數f〇的參數並儲存新的參數到記憶體227中, 或者,控制處理器222也可以直接修改調適模型228以增進 VR的性能。 如圖2中所示的,遠端工作站202還可以包含一獨立的VR 引擎220以及一遠端工作站聲音模型226。由於有限的記憶 體容量,在遠端工作站202中之遠端工作站聲音模型226, 如一無線電話,通常必須很小也因此受限於很少數量的句 子或晋素;在另,一方面,由於它是包含在一只有少數使用 者使用之遠端工作站内,因此遠端工作站聲音模型226可以 針對一或多個特定使用者最佳化以增進VR的性能,舉例 來說,像“ call”以及十個數字之語音型樣可以調整為適應無 線電話的擁有者。此一局部的遠端工作站聲音模型226能夠 讓一遠端工作站202在辨識一很小之單字的集合時有相當好 的V R性能。此外,遠端工作站聲音模型226能夠讓遠蟪工 作站202無須建立一與通訊中心204的無線連接即可完成V.R 的工作。 函數f ()的最佳化可以透過有監督的或無監督的學習實 行。有監督的學習通常是指訓練一使用者發出一預定的文 字或句子以正確的最佳化一遠端工作站聲音模型,因此由. 於V R系統已經具有事先輸入之文字與句子的知識,因此 在有監督的學習時並不需要執行VR以辨識預定的文字與 句子;有監督的學習通常被認為是產生一特定使用者之聲 音模型之最精確的方式。一個有監督的學習的例子如當一 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
-13- 546633 A7 B7 五、發明説明(U ) 個使用者首先將十個數字的語音程式化到一遠端工作站202 之遠端工作站聲音模型226中時,由於遠端工作站202已經 事先具對應於所說數字之語音型樣的知識,因此遠端工作 站聲音模型226可以被調整為適應該特定使用者而較不會降 低VR的性能。 與有監督的學習不同的是,無監督的學習是VR系統不 具有事先輸入之語音型樣或文字的知識。由於會有發音匹 配到一不正確之語音型樣的風險,因此根據無監督的學習 之遠端工作站聲音模型在修正時一定要採取更保守的方 式,舉例來說,有很多已經說過的話語彼此間都很類似並 且跟聲音模型中的某一語音型樣很接近,假如所有那些已 經說過的話語可以正確的跟聲音模型中之該語音型樣匹 配,則可以將在聲音模型中之該語音型樣修改為更接近該 組彼此相類似的話語。然而,如果有很多說過的話語並沒 有對應到模型中之任一型樣,則修改任一型樣都會將降低 VR的性能,最佳的方式為,VR系統可以收集到使用者關 於說過之語音型樣之匹配結果的正確性,但是通常並無法 取得此一回饋。 不幸的是,有監督的學習對使用者而言是很繁冗的,.故 在實務上很難能夠產生一具有大量語音型樣之聲音模型; 然而,有監督的學習在最佳化一組向量修正函數f()時還是 很有用的,甚至在最佳化一調適模型228中之有限的語音型 樣時也是很有用的。因使用者之嚴重的口音所造成之語音 型樣上的差異就是一個需要應用有監督學習的例子,由於 _-14-__ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 546633 A7 B7 五、發明説明(12 ) 聲音特徵向量需要大幅度的修正以補償口音的差異,因此 很需要該修正的準確性。 無監督的學習也可以在最佳化並非造成VR誤差之直接 原因時用來最佳化某一特定使用者之向量修正函數f(),例 如,一向量修正函數f()為適應一具有較長發聲道或平均聲 調在先天上比補償口音所需之調整更全面性之使用者所需 的調整,此一全面性之向量修正的一些不準確性並不會造 成VR效能很大的影響。 一般而言,調適引擎224只使用小型之調適模型228以選 擇一向量修正函數f(),並非要執行完整的VR ;由於調適 模型228是小型的、,因此它也同樣不適合用來執行訓練的工 作以最佳化調適模型228或向量修正函數f()。看起來似乎 可以改善一說話者之聲音資料與調適模型228之匹配程度之 調適模型228或向量修正函數f()的調整,卻可能降低與較 大之中央聲音模型238的匹配程度,而又由於中央聲音模型 238才是真正用來執行VR的模型,因此該調整會變成一個 錯誤而非一最佳化。 在一示範的具體實施例中,遠端工作站202與通訊中心 204—起運作,利用無監督的學習以修正調適模型228或向 量修正函數f()。根據改進之與中央聲音模型238的匹配做 成是否修改調適模型228或向量修正函數f()的決策,舉例 來說,遠端工作站202可能送出多組聲音特徵向量給通訊中 心204,包括未修正的聲音特徵向量X以及修主·過的聲·音特 徵向量f(X);或者,遠端工作站202也可能送出修正過的聲 -15- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)
裝 訂
線 546633
曰特欲向里fl(x)與f2(x),其中f2()是一個嘗試性的,改 進的特徵向量修正函數。在另一具體實施例中,遠端工作 站搬送出X以及參數給特徵向量修正函數⑻與⑷。遠端 I 工=站202可以根據一固定的時間間隔送出多組決定是否送 出第二組資訊的決策給通訊中心2〇4。 在收到^组是否修改聲音特徵向量或特I向量修正函數 的參數《聲首特徵資訊後,通訊中心綱利用其自有的vR 一 平估t正過之聲首特徵向量與中央聲音模型238的 匹配私度,通訊中心204接著送回資訊給遠端工作站2〇2表 示該一改變是否t改進VR的性㉟,例如,通訊中心2〇4送 出各組聲音特徵向量之語音型樣關聯度量表給遠端工作站 202 ’ -組聲晋特徵向量之語音型樣關聯度量表指出一組聲 音特^向量與中央聲音模型⑽之内容的關聯程度。根據兩 .組向!的比較結果,遠端工作站202可以調整其調適模型 228或可以調整一或多個特徵向量修正函數"),遠端工作 站202可以指定使用任一組向量以供辨識文字時使用,或者 通心204可以根據關聯度量表選擇一組向量。在另一個 具體實施例中’遠端工作站观在接收到來自通訊中心綱 ^關驷度I表的結果後指出供VR使用的一組聲音特徵向 、在另-個具时施射,遠端工作㈣进用其本地的調 通^擎224與調適模型228以確認—特徵向量修正函數⑴, 並送出伴隨函數f()之未修正的聲音特徵向量χ給通訊中心 204’·通訊中心2〇4接著施用⑴到又上並利用修正過與未修 _____ / 本纸張尺度適财Β目家料.(CNS) Α4規格(細χ297公釐) j〈向量執行測試;通訊中心204接著將測試結果送回給遠 占202以致此返端工作站2〇2進行更準確之特徵向量 修正函數的調整。 ,在另一個具體實施例中,調適引擎224與調適模型228是 併入到通訊中心204而非在遠端工作站搬中。一個在通訊 L 204中之担制處理器232經由數據機細接收一未修改之 耳曰特鉍向里的串流並提供給在通訊中心2⑽之調適引擎與 周C模土根據此中間型樣匹配的結果,控制處理器232從 一儲存在通訊中心記憶體236之資料庫中選擇一個特徵向量 修正函數f()。在一個,示範的具體實施例中,通訊中心記憶 體观括多組對應到特定使用者之特徵向量修正函數 f() ’違些函數可以附加或取代上述之儲存在遠端工作站 202的特欲向里修正函數的資訊。通訊中心綱可以使用任 一型式<說話者識別資訊以確認特定之提供聲音資料以從 中心、取特U向里的說話者。舉例來說,用以選擇一組特徵 向里正函數之說話者識別資訊可能是在無線頻道%6另一 端之無線電話的行動識別號碼(MIN);或者,為了加強又R 服務使用者可以輸入一密碼以確認自己;此外,在一無線 私活通居期間可以根據語晋資料的測量結果調適並運用跟 垓境有關《特徵向量修正函數。在不脫離本文之具體實施 例的範圍内還有很多其他的方法可以用來選擇一組與說話 者有關之向!修正函數。 熟悉此技蟄的人士會承認在不脫離本文之具體實施例的 範圍内可以將在遠端工作站202中之多個型樣匹配引擎 本紙張尺度適用中國國家標準(CNS) A4規格(2l〇X297公羞) -17- 546633 A7 B7 五、發明説明(15 ) 220,224結合在一起,此外,在遠端工作站202中之不同的 聲音模型226,228也同樣的可以結合在一起,甚至,一或 多個型樣匹配引擎220,224可以併入到遠端工作站202之控 制處理器222中,還有,一或多個聲音模型226,228可以併 入到控制處理器232所使用之記憶體227中。 在通訊中心204中,如果有一調適引擎的話(沒有出示出 來),在不脫離本文之具體實施例的範圍内可以將該調適 引擎與中央語音型樣匹配引擎234結合;此外中央聲音模型 238也可以結合一調適模型(沒有出示出來);還有,假如在 •通訊中心204中不論是有、中央語音型樣匹配引擎234或調適 引擎(沒有出示出來),都可以併入到通訊中心204的控制處 理器232中;還有,假如在通訊中心204中不論是有中央聲 音模型.238或調適模型(沒有出示出來),都可以併入到通訊 中心204的控制處理器232中。 圖3顯示一用以執行分佈式VR之方法的流程圖,其中X 與f()的修正根據一遠端調適模型的收斂全部在一遠端工作 站202中執行。在步騾302中,遠端工作站202從麥克風之類 比聲音信號取樣以產生數位聲音樣本的率流;在步驟304 中、,過滤語音樣本,例如利用一前述之預加重過滤器;在 步驟306中,從過濾過之語音樣本中擷取一聲音特徵向量的 串流X,如前面說的,聲音—特徵向量可以從重疊或沒有重 疊之固定或變動之時間間隔的語音樣本擷取。 在步騾308中,遠端工作站202執行型樣匹配以決定聲音 特徵向量事流與包含在調適模型(如圖2之228)之多個樣本 __-18-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝 訂
線 546633
間的關聯程度。在步驟31〇中,.遠端工作站2〇2從調適模型 中遠擇與聲首特徵向量串流X最匹配的型後,所選擇的型 樣疋%為目標型樣’如前面所說的,X與目標型樣間的關 ~私度可以跟一偵測的臨界值比較,假如關聯的程度比偵 測的臨界值高’則遠端工作站202選擇一對應於該目標型樣 《特徵向量修改函數f(),假如關聯的程度比偵測的臨界值 低,則遠端工作站2〇2選擇一 f(x) = x之聲音特徵向量恆等 函數f (),或者選擇某些預設的函數f ()。在一個示範的具 骨豆只她例中,遠端工作站2〇2從一本地之對應到其本地調適 模土中不同型樣之特徵向量修改函數的資料庫中選擇一、特 徵向量函數f〇,接著在步騾312,遠端工作站2〇2施用所選 擇之特徵向量函數到聲音特徵向量串流X上以產生 f(x) 〇 在一個具體實施例中,遠端工作站202產生一指出x與目 標型樣間之關聯程度的關聯度量表,遠端工作站,202也會產 生一扣出f( X )與目標型樣間之關聯程度的關聯度量表。在 一個無監督‘學習,的例子中,在步驟314,遠端工作站202利 用此兩個關聯度量表以及過去的關聯度量表的值以決定是 , 否要修正一或多個特徵向量修改函數f〇·,假如在步驟314 決定要修正函數f(),則在步驟316修正函數以)。在另一個 具體實施射,修正過的函數f()會馬上在步驟训施用到x 上以形成一新的修正過的聲音特徵向量f(x)。在另一個具 體實施例中,步驟318會被忽略,且新的特徵向量修改函數 f ()不會生效直到一組後來的聲骨特徵向量X。 — __-19~ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) ----— - 546633 A7 B7 五、發明説明( 假如在步驟314或在步騾316與318後決定不修正函數f(), 則在步驟320由遠端工作站202透過無線頻道2〇6傳送現在的 f( X)給通訊中心204,接著在步驟322中由通訊中心204執行 V R型樣的匹配。 在另一個具體實施例中,通訊中心204在V R型樣匹配步 驟322期間產生語音型樣關聯度量表,並將這些度量表送回 給遠端工作站202以輔助函數f〇的最佳化。語音型樣關聯 度1表可以用好幾種方式格式化,舉例來說,通訊中心204 可傳回一聲首特徵向量修正誤差函數f E (),可以施用到 f(X)以產生一與中央聲音模型找到之型樣間正確的關聯 性。或者,通訊中心204可以只傳回一組對應於一目標型樣 或在中央聲晋模型中所找到之與f (χ)有最高關聯程度之型 樣的聲音特徵向量。或者,通訊中心2〇4可以傳回從用以選 擇目標型樣之硬決定或軟決定之Viterbi解碼方法所衍生出之 刀支度昼表。語首型樣關聯度量表還包括這些類型之資訊 的一個組合。此傳回的資訊接著由遠端工作站2〇2在最佳化 ㈡數f()時使用。在一個示範的具體實施例中,步驟gig之 重新產生f(X)會被省略,且遠端工作站2〇2在接收到來自通 訊中心204的回鳍後執行函數f()的修正(步驟314與316)。 圖4顯示一用以執行分佈式vR,之方法的流程圖,其中χ 與f ()的修改根據與一中央聲音模型的關聯性全部·在通訊,中 心204中執行。在步驟4〇2中,遠端工作站2的從麥克風之類 比聲音信號取樣以產生數位聲音樣本的串έ ;在步驟4〇4 中,過濾浯首樣本,例如利用一前述之預加重過濾器;在
^406中,,從過滤過之語音樣本中擴取—聲音特徵向量串 、L X ’如則面說的’聲音特徵向量可以從重叠或沒有重疊 <固定或變動之時間間隔的語音樣本擷取。 且 在v % 408中,运%工作站2〇2透過無線頻道2〇6發送未修 —正之聲音特徵向量幸流X。在步驟楊中,通訊中心2〇4執: '周通型樣匹配,如前所說明的,調適型樣匹配可以使用一 獨立之調適模型或使用一大型的中央聲音模型238。在步驟 化中’通訊中心2〇4從調適模型中選擇與聲音特徵向量串 流X最匹配的型樣’所選擇的型樣是稱為目標型樣,如前 面所說的,假如X與目標型樣览的關聯程度超過一臨界 值,則選擇對應於目標型樣的函數f(),否則選擇—預^ 函數f〇或空的f()。在步驟414中,施用所選擇之特徵向量 嚴正函數f()到聲音特徵向量串流x上以形成—修正過之聲 首特徵向量串流f(X)。 在-個示範的具體實施'例中,—特徵向量修正函射()是 從一存在於通訊中心綱之大型特徵向量修正函數的資料庫 〈子集合中選擇出來。可供選擇之特徵向量修正函數的予 集合是與說話者相關的,使得使用—中央聲音模型(如在 圖2之238)之型樣匹配在使用f(x)做為輸入時會比X更正 確。如.前面所說的,通訊中心2〇4可能會如何選擇一與說話 者相關之特徵向量修正函數的子集合的例子包括利用說話 者之無線電話的MIN或由說話者輸入—密碼。 在一個示範的具體實施例中’通訊中心2〇4產生表示乂虚 目標型樣間以及f (X)與目標型樣間之關聯性的關量 546633 A7 B7 五、發明説明(19 表’接著在步驟416通訊中心204利用這兩個關聯度量表以 及過去的關聯度量表的值以決定是否要修正一或多個特徵 向量修改函數f(),假如在步驟416決定要修正函數£(),則 在步驟418修正函數f()。在一個具體實施例中,修正過的 函數f()會馬上在步驟420施用到X上以形成一新的修正過的 聲音特徵向量f(X)。在另一個具體實施例中,步驟42〇會被 忽格’且新的特徵向量修改函數f ()不會生效直到一組後來 的聲音特徵向量X。 假如在步騾416或在步騾418與420後決定不修正函數f(), 則在步驟422由通訊中心204利用一中央聲音模型238執行v R 型樣的匹配。 圖5顯不一用以執行分佈式vr之方法的流程圖,其中使 用一在通訊中心204中之中央聲音模型以最佳化特徵向量修 改函數或碉適模型。在一個示範的具體實施例中,遠端工 作站202與通訊中心2〇4在需要時交換資訊並協力合作將特 徵―向量修改函數最佳化的正確性最大化。 ,在γ ·|λΪΑ 5〇2,返端工作站202從麥克風之類比聲音信號取 才水X產生數位聲首樣本的串流;在步驟$⑽中,過濾語音樣 本例如利用一前述之預加重過濾器;在步騾5〇6中,從過 滤過t語音樣本中㈣—聲音特徵向量串流Χ,如前面說 的,耸晉特徵向量可以從重疊或沒有重疊之固定或變動之 時間間隔的語音樣本擷取。 厂y ‘ 508中,遠端工作站202執行型樣匹配以決定聲音 特欲向!串流與包含在調適模型(如圖2之228)之多個樣本
546633
2關如私度。在步驟510中,遠端工作站202從調適模型 中=擇與耸首特徵向量串流X最匹配的型樣,所選擇的型 樣疋、為目標型樣,如前面所說的’假如X與目標型樣間 的關聯性超過-臨界值,則選擇—對應於該目標型樣之第 、特欲向量修改函數fi(),否則選擇一預設的函數[㈠或是 =的函數f()。遠端工作站,2〇2從一本地之對應到在本地調 適楱型中不同型樣之特徵向量修改函數的資料庫中選擇一 特敌向I函數f (),接著在步驟512,遠端工作站202施』所 堤擇之特徵向量函數f()到聲音特徵向量串流X上以產生f(X) 〇 — 與圖3以及圖4之方法不同的是,在步驟514,遠端工作 站202透過頻道206送出兩組聲音特徵向量以乂丨與以又)給通 Λ中心204。在步驟516中,通訊中心204利用f〗(X)當成輸入 執仃與中央聲晉模型之型樣匹配,根據此VR型樣匹配的 結果,通訊中心204確認一目標型樣或具有與f]( χ )最高關 聯程度之型樣的集合。在步驟518中,通訊中心204產生一 第一語骨型樣關聯度量表以表示fχ)與目標型樣間的關 耳外程度’並压生一弟一語首型樣關聯度量表以、表示X ) 與目標型樣間的關聯程度。 雖然兩組聲音特徵向量都用來跟中央聲音模型做型樣匹 配,但只有一組真正用於VR,因此,遠端工作站2〇2可以 在沒有不預期之性能降低的風險下評估一建議之特徵向量 修正函數的性能,還有,遠端,工作站202在最佳化f()時不 需要完全依賴其自己之小型,本地的調適模型。在另—個 _ 93 _ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝 訂
k 546633 A7 B7 五、發明説明(21 ) 具體實施例中,遠端工作站202也可以使用空的f2()函數, 使得f 2( X) = X,此方法可以讓遠端工作站202驗證有f ()時 以及沒有聲音特徵向量修正時VR的性能。 在步騾520中,通訊中心204透過無線頻道206將該兩個語 音型樣關聯度量表送回給遠端工作站202。在步騾522中, 遠端工作站202根據所接收到之語音型樣關聯度量表決定是 否要在步驟524修正fi()。在步騾522所決定之是否要修正 f!(X)可能是根據一組語音型樣關聯度量表,或者是根據 一系列與本地調適模型中相同語音型樣相關之語音型樣關 聯度量表。如前面所說的,語音型樣關聯度量表可能包括 以下的資訊如一聲音特徵向量修正誤差函數fE(),一組對 應於在中央聲音模型中所找到之與f(X)有最高關聯性之型 樣的聲音特徵向量,或一 Viterbi解碼分支度量表。 熟悉此技藝的人士將會承認以上所說明的技術可以同樣 的應用在任何類型的無線頻道206上,舉例來說,無線頻道 206(以及如前所說之數據機218,230)可Θ使用分碼多工近 接(CDMA)技術,類比蜂巢式,分時多工近接(TDMA),或 其他型式的無線頻道;或者,無線頻遒206也可能是一種非 無線電型式的頻道,包括但不限於光纖,紅外緣,以及乙 太網路頻道。在另一個具體實施例中,遠端工作站202和通 訊中心204是合併成一單一的系統,利用一中‘央聲音模型 238在VR測試前執行聲音特徵向量之與說話f有關的修 正,完全避免使用頻道206。 熟悉此技藝的人士會了解本發明所提到之資訊與信號可 _-24-__ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)
裝 訂
546633 A7
能是利用任何各種不同的科技 矛,钰噃 a η Ρ 7 貝訊,信號,位 、付號,舁日0片可能是以電壓,電流,電磁波,磁 粒子’光場或粒子,或任何它們的組合。 两, 、>熟悉此技藝的人士會了解在說明本發明所揭示之具一 時所用到之相關的各個邏輯方塊,模組,電路:、:: 异法則的步驟可以實施成一電子/ '、°、 包恥軟體,或它們 ’、’且否。為了清楚的顯示此一硬體與軟體的可交換性,以 上所說明之各個例示的元件’方塊圖,模組,電路,以及 步驟通常都是以其功能來描述,錄該功能是以硬體或軟 體來實施則取決於整體系統之特定的應用與設計限制。孰 悉此技藝的人士能夠對各特定的應用以不同的方式實施ς 上所說的功能,但是該實施的決定*應_域離 的範圍。 ' 在說明本發明所揭示之具體實施例時所用到之相關的各 個邏輯方塊,模組,電路可以由以下之元件實施或執行, 如一之用型處理器,一數位信號處理器(Dsp),一特定用 途積體電路(ASIC),一欄位可程式規劃閘择陣列(FpGA), 或其他可程式規劃之邏輯裝置,個別的閘極或電晶體邏 輯,個別的硬體元件,或任何這些設計來執行本文所說之 功能的組合。一泛用型處理器可能是一微處理器,但也可 以是任何傳統之處理器,控制器、微控制器,或狀態機。 一處理器也可以實施成一計算裝置的組合,例如,一 Dsp 與一极處理為’袓數個微處理器,一或多個微處理器纟士人 -25-
546633 A7 B7 五、 發明説明(23 ) 一 DSP核心,或任何其他類似的組態。 與本發明所揭示之具體實施例相關之方法與演算法則的 步驟可以直接以硬體具體實施之,或是以軟體模組實施而 由一處理器執行,或是以兩者的組合實施。軟體模組可能 是存在RAM記憶體,快閃記憶體,ROM記憶體,EPROM記 憶體,EEPROM記憶體,暫存器,硬碟,可移動式磁碟, CD-ROM,或任何在本領域中其他已知型式之儲存媒體。— 個示範性的儲存媒體是連結到處理器,使得處理器可以從 儲存媒體讀取資訊或寫入資訊到儲存媒體中;或者儲存媒 體也可以整合到處理器中,該處理器與儲存媒體可能存在 於一 ASIC中,而ASIC存在於遠端工作站中;或者,處理器 與儲存媒體可能是以個別的元件存在於一遠端工作站中。 以上關於本發明所揭示之具體實施例的說明是提供來使 熟悉此技藝的人士可以實施或利用本發明,對熟悉此技藝 的人士而言對這些具體實施例做不同程度的修改是很容易 且明顯的,且此處所定義之通有性的原理可以在不脫離本 發明的精神與範圍内應用到其他的具體實施例上,因此, 本發明並不受限於此處所揭示之具體實施例,而是跟本文 所揭示之原理或新的特點一致之最廣的範圍。 -26- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)

Claims (1)

  1. 546633 、申請專利範圍 丨種聲她一: 一包含聲音型樣資凱之調適模型;以及 一碉適引擎,用以執行聲音特 — 之型樣匹配以確認一選定之c樣資訊 2. 如申請專利範圍第!項之聲音辨識系統,立 進:步設定為施用選定.之特徵向量修正函數到聲::: 向量以產生一組修正過之聲音特徵向量。 耳3知 3. 如申請專利範圍第1項之聲音辨識系統,還包括一舞立 辨識引擎’用以匹配該組修正過之聲音特 ^ 晋模型。 』里只聲 4_如申請專利範圍第1項之聲音辨識系統,'還包括一㈣ =二用以評估較之特徵向量修正函數的性^根 據坪估的結果調整選定之特徵向量修正函數。. 5.如申請專利範圍第i項之聲音辨識系統,還包括一纪情 ―體,用以儲存至少—組對應於—組特徵向量修正函數的 參數,其中選定之特徵向量修正函數是該組特徵向量修 正函數中的一個成員。 . 6·如申請專利範圍第5項之聲音辨識系統,其中記憶體包 含超過-組對應於-組特徵向量修正函數的參數,且其 中各組參數皆對應到一特定的說話者。 如申請專利範圍第5項之聲音辨識线,其中記饞體包 含超過一組對應於一組特徵向量修正函數的#襄,且其 中,各組參數皆對應到一不同的聲音環境。、 一種聲音辨識系統,包括: 本紙張尺度適用中國國家標準(CNS) -27 - 546633 A8 B8
    Ύ 且參數皆對應到一特定的說話者。 •口申凊專利範圍第12項之聲音 _ 含超過一纽料_ 1 辨4系統,其中記憶體包 , 、、怎万;一組特徵向量修正函數的夂激, 口組參數皆對應到「不同的聲音環境。;〜、 15·一種遠社作,站裝置,包括:、 包含聲音型樣資訊之調適模、型;以及 之刑‘::丨擎’用以歡行聲晉特徵向量與聲音型樣資訊 選:樣:配以確認-選定之特徵向量修正函數,並施用 、…争徵向量修正函數到聲音特徵向量以 正過之聲音特徵向量。. .生 16. 如申6,專利範圍第】5項之遠端工作站裝置,還包括一控 制處理器,用以評估選定之特徵向量修正絲的性能^ 根據評估的結果調整選定之特徵向量修正函數。 17. 如申凊專利範圍第i 5項之遠端工作站裝置,還包括一記 憶體,用以儲存至少一組對應於一組特徵向量修正函數 的參數,其中選定之特徵向量修正函數是該組特徵向量 修正函數中的一個成員。 18·如申請專利範圍第17項之遠端工作站裝置,其中記憶體 包含超過一組對應於一組特徵向量修正函數的參數,且 其中各租參數皆對應到一特定的說話者。 19·如申請專利範圍第丨7項之遠端工作站裝置,,其中記憶體 包含超過广組對應於一組特徵向量修正函數的參數,且 其中各組參數皆對應到一不同的聲音環境。 20·如申請專利範圍第Γ 5項之遠端工作站裝置,還包括一通 -29- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 546633 六、申請專利範圍 ,介面’用來跟-通訊中心溝通修正過之聲音特徵向 21.—種聲音辨識通訊中心裝置,包括: 一用以接收聲音特徵向量之通訊介面,其中該聲音特 徵向量已利用-特徵向量修正,函數修正過; -包含聲晋型樣之聲音模型,其中該聲音模型沒 過一單一說話者的訓練;, ▲ 又 -聲音辨識引擎,用以匹配該組修正過之每音特徵 量與該聲音模型;以及 &制處理③’其根據匹配的結果許估特徵修正 數。 ^ 22· —種聲音辨識通訊中心裝置,包括: μ f ^介面’用以從至少—個遠端工作站·接收聲音特 徵向量以.及說話者的識別資訊; 、 憶體包:及與說話者有關之特徵向量修正函數之參數的 -調適引擎’用以執行聲音特徵向量與 型樣匹配,根據型樣匹配的結果與說話者的識:以 認:選定之與餘者_之特徵向量修正㈣,並= 話:有關之特徵向量修正函數到聲音待徵向量 產生组修正過的聲晉特徵向量。 23.如申請專利範圍第2 2項之聲音辨識通訊中 還包括-聲音辨識引擎,用以匹配該組修: …耳曰特徵向量與一中央聲音模型,其中該中央該 向 函 記 以 中 聲 “尺度適用中國國家標準(¾ Α4規格(21GX2贈Γ -30 - 546633 8 8 8 8 A B c D 六、申請專利範圍 .音模型沒有受過一單一說話者的訓練。 24. 如申請>利範圍第22項之聲音辨識通訊中心裝置,旧勺 括一中央聲音模型,其中該中央聲音模型沒有受過二包 -說話者的訓練,且其中該調適引擎更設定為執行該= 修正過之聲音特徵向量與該中央聲音模型的型樣匹f且 25. 如申請專利嚴圍第22項之聲音辨識通訊中心裝置, 括-聲音辨識引擎’用以匹配該組修:包 量與一中央聲音模型。. 耳曰#徵向 26. 知申請專利範圍第22項之聲音辨識通訊中心裝置,還勺 括-控制處、理器,用以評估選定之顧話者有關之= 向量修正函數的性能並根據,評估的結果調整選定之與= 話者有關之特徵向量.修正函數的參數。 又舁說 27·—種執行聲音辨識的方法,包括: 擷取聲音特徵向量;. 、 執行聲音特徵向量與一調適模型之調適型樣匹配; 根據調適型樣匹配的結果選擇一特徵向量修正函“· 施用選定之特徵向量修正函數到聲音特徵向量^出 一組修正過之聲音特徵向量;以及 . ’成 執行該組修正過之聲音特徵向量與一聲“ 辨識型樣匹配。 . 耳首 28. 如申請專利範圍第27項之方法,其中特徵向量修正 是從一組與說話者有關之特徵'向量修正函數中選擇Μ 29. 如申請專利範圍第28項之方法,還包括根據調適型樣 配的結果修正該組與說話者有關之特徵向量修正函數。 -31 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 546633
    30·如申請專利範圍第2 8項之方法,虹 樣匹配的妹果^ n έ ~ 匕括根據聲音辨識型 .數。。果修正錢與說時有狀特⑸量修正函 31·如申請‘專利範圍第27項之方法 數是針對一聲音環境。 、中及特欲向量修正函 议一種執行聲音辨識的方法,包括: 达端工作站,執行聲晉特徵向量與一土山 工作1内之調適模型的調適型樣匹配;、 返 在遠端工作站,從儲存在遠端工 •函數資訊中選擇一特徵 乍站〈特徵向量修正 向量修正函數是根據型樣匹配; -中、擇-特徵 在遠端工作站,、·施用選定之、特徵 特徵向量以形成一組如正過之音特:二正函數到聲音 心。 Θ待被向I到一通訊中 汉如申請專利'範圍第32項之方法, 數資訊是與說話者有闕的。4孩特徵向量修正函 34.如申請‘專利範譴第32項、之方法,I 35·如_請專利顧第3 2项之方法; 據接你ή、系七rK •匕括在^端工作站根 據接收自遇对心的資訊修正特徵、 36.如申請專利範—圍第32項之方法,/ 4正函數男矾。 行聲音辨識,其中執行聲音辨在遠端工作站執 特徵向量與-儲存在遠端工上;執行修…聲音 Λ nt模型之聲首辨識 ,_ 32 - i紙張尺度適财目时鮮(⑽)域格(2^^ 546633 申請專利範圍 型樣匹配。 37·如申請專利範圍第3 6項之方法,邊4上 、 逐包括在遠端工作站根 據聲首辨識型樣匹配的結果修正转 狩敘向量修正函數資 訊。 ’、 38·如申請專利範圍第3 2項之方法,且+ ,、中特徵向量修正函數 資訊是與環境有關的。 敬 39_ —種在一系統中執行聲音辨識的方 土山 们万去’孩系統包括至少 一运鈿工作站與一通訊中心,該方法包括 在遠端工作站擷取聲音特徵向量; 從遠端工作站送出聲音特徵向量給通,祗中、. 在通訊中心執行聲音特徵向量與—错存錢訊中心之 調適模型之調適型樣匹配; 在通訊中心從-儲存在通訊中心之中 徵向量修正函數,其中選擇—特早γ選揮特 $力剂w 特欲向I修正函數係根據 调通型樣匹配的結果; 在通訊中心施用選定之特徼A θ A旦 向I修正函數到聲音特徵 向1T以形成-組修正過之聲音特徵向量;以及 在通訊中心執行該組修正過之聲音特徵向量血 在通訊中心之聲音模型之聲音辨識型樣匹配。、 40.如申請專利範圍第39項之方法,還 -組與說話者有關乏特徵向量 =心選擇 函數中選擇的。 以者有關<特徵向量修正 41·如申請專利範圍第4〇項之 、这 去,遂包括根據調適型樣匹 -33 - 546633 A8 B8 C8 、申請專利範圍 ,配的結果修正見組與說話者有關之特徵向量修正函 42. 如申請專利範圍第4〇,之方法,還包括根據聲音刑 樣匹配的結果修正該組與說話者有關之特徵向量修= 數。 43. 如申請專利範圍第4〇项之方法,還包括從遠端工作站 出說話者識別資訊給通訊中心,其中選擇—組與說話者 有關之特徵向量修正函數係根據說話者識別資訊。 44·-種夺-系統中執行聲音卿識的方法,該系統包括至少 一遠端工作站與一通訊中心,該方法包括: 裝 在遠端工作站掏取未修正之聲音特徵向量; 在遠端工作站執行未修正之聲音特徵向量與一儲存在 遠端工作站内之調適模型的調適型樣匹配; 在运场工作站根據_適型樣匹配的結果選擇一與說 者有關之特徵向量修正函數; 在遠端,作站施用選定之與說話者有關之特徵向量修 f函數到聲音特徵向量以形成'组餐正過之聲音特徵向 量; 從遠端工作站送出修正過之聲音特徵向量給通 心; •,在通訊中心執行該組修正過之聲音特徵向量與-儲存 在通訊中心.之聲音模型之聲音辨識型樣匹配。 45•如申請專利範圍第·4 4項之方法,還包括根據調適型樣匹 配的結果修正綱定之與餘者㈣之特徵向量修 數0 本紙張尺歧财®目家標準(cns)A4規格(210Χ297公嫠 34- 546633 A8 B8 C8 D8 六、申請專利範園 46. 如申請專利範圍第4 4項之方法,還包括: 從遠端工作站送出未修正之聲音特徵向量給通訊中 •心; 在通訊中心利用修正過之聲音特徵向量與未修正之聲 音特徵向量分析該選定之與說話者有關之特徵向量修正 函數;以及 ' 在遠端工作站根據分析的結果修正該選定之與說話者 有關之特徵向暈修正函數。 » 47. 如申請專利範圍第4 4項之方法,還包括根據聲音辨識型 樣匹配的結果修正該組與說話者1有關之特徵向量修正函 數。 48. —種聲音辨識系統,包括: .. ’ 用以擷取聲音特徵向量之裝置; 用以執行聲音特徵向量與一調適模型之調適型樣匹配 . / 之裝置; 根據調適型樣匹配的結果選擇一特徵向量修正函數之 裝置; / 施用選定之特徵向量修正函數到聲音特徵向量以形成 一組修正過之聲音特徵向量之裝置;以及 用以執行該組修正過之聲音特徵向量與一聲音模型之 聲音辨識型樣匹配之裝置。 * ' * 49. 一種遠端工作站裝置,包括: 用以執行聲音特徵向量與一儲存在遠端工作站内之調 適模型的調'適型樣匹配之裝置; -35- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 546633 A BCD 申請專利範圍 從儲存在遠端工作站之特徵向量修正函數資訊中選擇 一特徵向量修正函數之裝置,其中選擇一特徵向量修正 函數係根據型樣匹配; 用以施用選定之特徵向量修正函數到聲音特徵向量以 形成一組修.正過之聲音特徵向量之袭置;以及 送出修正過之聲音特徵向量到一通訊中心之裝置。 -36- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
TW091101575A 2001-01-31 2002-01-30 Distributed voice recognition system using acoustic feature vector modification TW546633B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/773,831 US7024359B2 (en) 2001-01-31 2001-01-31 Distributed voice recognition system using acoustic feature vector modification

Publications (1)

Publication Number Publication Date
TW546633B true TW546633B (en) 2003-08-11

Family

ID=25099445

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091101575A TW546633B (en) 2001-01-31 2002-01-30 Distributed voice recognition system using acoustic feature vector modification

Country Status (12)

Country Link
US (1) US7024359B2 (zh)
EP (1) EP1356453B1 (zh)
JP (2) JP4567290B2 (zh)
KR (1) KR100879410B1 (zh)
CN (1) CN1284133C (zh)
AT (1) ATE407420T1 (zh)
AU (1) AU2002235513A1 (zh)
BR (1) BR0206836A (zh)
DE (1) DE60228682D1 (zh)
HK (1) HK1062738A1 (zh)
TW (1) TW546633B (zh)
WO (1) WO2002065453A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996213B2 (en) 2006-03-24 2011-08-09 Yamaha Corporation Method and apparatus for estimating degree of similarity between voices

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US7406421B2 (en) 2001-10-26 2008-07-29 Intellisist Inc. Systems and methods for reviewing informational content in a vehicle
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
USRE46109E1 (en) 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US7236777B2 (en) 2002-05-16 2007-06-26 Intellisist, Inc. System and method for dynamically configuring wireless network geographic coverage or service levels
US7392191B2 (en) * 2001-03-29 2008-06-24 Intellisist, Inc. Method and device to distinguish between voice conversation and automated speech recognition
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
CN1409527A (zh) * 2001-09-13 2003-04-09 松下电器产业株式会社 终端器、服务器及语音辨识方法
GB2391679B (en) * 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
US8249880B2 (en) * 2002-02-14 2012-08-21 Intellisist, Inc. Real-time display of system instructions
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
WO2003084196A1 (en) 2002-03-28 2003-10-09 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
TW567465B (en) * 2002-09-02 2003-12-21 Ind Tech Res Inst Configurable distributed speech recognition system
GB0226648D0 (en) * 2002-11-15 2002-12-24 Koninkl Philips Electronics Nv Usage data harvesting
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
DE10353068A1 (de) * 2003-11-13 2005-06-23 Voice Trust Ag Verfahren zur Authentifizierung eines Benutzers anhand dessen Stimmprofils
US20050216266A1 (en) * 2004-03-29 2005-09-29 Yifan Gong Incremental adjustment of state-dependent bias parameters for adaptive speech recognition
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
GB2418764B (en) * 2004-09-30 2008-04-09 Fluency Voice Technology Ltd Improving pattern recognition accuracy with distortions
US20060095261A1 (en) * 2004-10-30 2006-05-04 Ibm Corporation Voice packet identification based on celp compression parameters
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
WO2008137616A1 (en) * 2007-05-04 2008-11-13 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
KR101217525B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8189925B2 (en) * 2009-06-04 2012-05-29 Microsoft Corporation Geocoding by image matching
US8554562B2 (en) * 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
EP2643832A4 (en) * 2010-11-22 2016-10-12 Listening Methods Llc SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS
US10229701B2 (en) 2013-02-28 2019-03-12 Nuance Communications, Inc. Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
WO2014133525A1 (en) * 2013-02-28 2014-09-04 Nuance Communication, Inc. Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
IL263655B2 (en) * 2016-06-14 2023-03-01 Netzer Omry Automatic speech recognition
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
EP3719679B1 (en) * 2019-04-03 2021-06-09 Fondation de L'institut de Recherche Idiap A method for protecting biometric templates, and a system and method for verifying a speaker´s identity
US11545132B2 (en) 2019-08-28 2023-01-03 International Business Machines Corporation Speech characterization using a synthesized reference audio signal
CN118675505A (zh) 2019-12-04 2024-09-20 谷歌有限责任公司 使用说话者相关语音模型的说话者感知
CN113345428B (zh) * 2021-06-04 2023-08-04 北京华捷艾米科技有限公司 语音识别模型的匹配方法、装置、设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
JP2980382B2 (ja) * 1990-12-19 1999-11-22 富士通株式会社 話者適応音声認識方法および装置
JPH06214596A (ja) * 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
JP3413861B2 (ja) * 1993-01-18 2003-06-09 ヤマハ株式会社 電子楽器の鍵盤装置
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH07210190A (ja) 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3697748B2 (ja) 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
JP3001037B2 (ja) 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
WO1999021172A2 (en) * 1997-10-20 1999-04-29 Koninklijke Philips Electronics N.V. Pattern recognition enrolment in a distributed system
JP2000276188A (ja) * 1999-03-24 2000-10-06 Sony Corp 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
JP3456444B2 (ja) * 1999-05-10 2003-10-14 日本電気株式会社 音声判定装置及び方法並びに記録媒体
US6421641B1 (en) * 1999-11-12 2002-07-16 International Business Machines Corporation Methods and apparatus for fast adaptation of a band-quantized speech decoding system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996213B2 (en) 2006-03-24 2011-08-09 Yamaha Corporation Method and apparatus for estimating degree of similarity between voices

Also Published As

Publication number Publication date
CN1284133C (zh) 2006-11-08
HK1062738A1 (en) 2004-11-19
AU2002235513A1 (en) 2002-08-28
EP1356453B1 (en) 2008-09-03
CN1494712A (zh) 2004-05-05
WO2002065453A2 (en) 2002-08-22
KR100879410B1 (ko) 2009-01-19
WO2002065453A3 (en) 2002-10-24
KR20040062433A (ko) 2004-07-07
DE60228682D1 (de) 2008-10-16
JP4567290B2 (ja) 2010-10-20
US7024359B2 (en) 2006-04-04
US20020103639A1 (en) 2002-08-01
ATE407420T1 (de) 2008-09-15
JP4976432B2 (ja) 2012-07-18
JP2009151318A (ja) 2009-07-09
BR0206836A (pt) 2006-01-17
JP2004536330A (ja) 2004-12-02
EP1356453A2 (en) 2003-10-29

Similar Documents

Publication Publication Date Title
TW546633B (en) Distributed voice recognition system using acoustic feature vector modification
CN108922538B (zh) 会议信息记录方法、装置、计算机设备及存储介质
TW577043B (en) Voice recognition system using implicit speaker adaptation
CN102254553B (zh) 语音音节时长的自动归一化
WO2018173293A1 (ja) 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
TW580690B (en) System and method for voice recognition in a distributed voice recognition system
CN1742321B (zh) 韵律模仿合成方法和装置
US20100076770A1 (en) System and Method for Improving the Performance of Voice Biometrics
CN103903627A (zh) 一种语音数据的传输方法及装置
TW546632B (en) System and method for efficient storage of voice recognition models
JP2000187496A (ja) デジタル無線チャネル上の自動音声/話者認識
CN109754779A (zh) 可控情感语音合成方法、装置、电子设备及可读存储介质
JP2001142488A (ja) 音声認識通信システム
Hirsch The influence of speech coding on recognition performance in telecommunication networks.
JP2002101203A (ja) 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
US6044147A (en) Telecommunications system
CN102160351B (zh) 数字电信系统、用于管理这样的系统的程序产品和方法
EP0883959B1 (en) Apparatus and method of improving the qulality of speech signals transmitted over a telecommunications system
JP2019176412A (ja) 通信処理装置、プログラム及び方法
JP2002372985A (ja) 音声認識装置
Staroniewicz Speaker recognition for VoIP transmission using Gaussian mixture models
JP2000151827A (ja) 電話音声認識システム

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent