TW577043B - Voice recognition system using implicit speaker adaptation - Google Patents

Voice recognition system using implicit speaker adaptation Download PDF

Info

Publication number
TW577043B
TW577043B TW091105907A TW91105907A TW577043B TW 577043 B TW577043 B TW 577043B TW 091105907 A TW091105907 A TW 091105907A TW 91105907 A TW91105907 A TW 91105907A TW 577043 B TW577043 B TW 577043B
Authority
TW
Taiwan
Prior art keywords
speaker
acoustic model
matching
acoustic
independent
Prior art date
Application number
TW091105907A
Other languages
English (en)
Inventor
Narendranath Malayath
Chienchung Chang
Ning Bi
Andrew P Dejaco
Suhail Jalil
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of TW577043B publication Critical patent/TW577043B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephone Function (AREA)
  • Complex Calculations (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

577043 A7 __ B7____ 五、發明説明(1 ) 背景 發明領域 本發明是有關於語音訊號處理。更特別是,本發明是有 關於經由未監督訓練(unsupervised training)而達成改善效能 之新的聲音辨識方法及裝置。 發明背景 聲音辨識為賦予機器模擬智慧之最重要的技術之一,以 辨識使用者的聲音命令及使人機介面更加便利。使用恢復 來自聲學語音訊號之語言訊息的技術之系統稱為聲音辨識 (voice recognition,簡稱VR)系統。圖1顯示的是具有預先強 調(preemphasis)滤波器 102、聲學特徵選取(acoustic feature extraction,簡稱AFE)單元104、以及樣本匹配引擎110之基 本的VR系統。AFE單元104會將一連串的數位聲音樣本轉換 成稱為聲學特徵向量之一組測量值(例如,選取的頻率元件 )。樣本匹配引擎110會使一連事的聲學特徵向量與VR聲學 模型112中所包含的樣板匹配。VR樣本匹配引擎通常會使 用動態時間歪曲(Dynamic Time Warping,簡稱DTW)或隱藏 式馬克沃夫模型(Hidden Markov Model,簡稱HMM)技術。 DTW及HMM為此技術中所熟知的,並且詳細說明於1993年 ,由 Prentice Hall所出版之 Rabiner,L. R.及 Juang,Β· H.的「語 音辨識基礎」(FUNDAMENTALS OF SPEECH RECOGNITION) 。當一連串的聲學特徵匹配於聲學模型112中的樣板時,識 別的樣板會用來使輸出產生所希望的格式,如相對應於輸 入語音之一語音談話的識別序列。 -5 - 本紙張尺度適用中國國家揉準(CNS) A4規格(210 X 297公釐)
k 577043 A7 ________ B7 五、發明説明(2 1 如以上所楗到的,聲學模型U2通常為模型或DTW 模土 DTW聲學模型可視為相關於需要辨識的每一段談話 之隸的資料庫。一般而言,DTW樣板包含一序列的特徵 向量其已於相關談話的許多樣本上平均化。DTW樣本匹 配通常需要找出-種儲存的樣板,其到表示輸入語音的輸 入特欲向I序列义距離最小。基於聲學模型之用於中 的樣板包s相關語音語調的詳細統計說明。一般而言, HMM樣板會儲存一序列的平均向量、變異向量及一組轉變 機率。這些參數係用來說明語音單元的統計結果,並且會 從語音單元的許多樣本中評估出這些參數。hmm樣本匹配 通常需要產生模型中之每-種樣板的機率,其基於相關於 輸入語音之一系列的輸入特徵向量。具有最高機率的樣板 會選擇用來當作最適當的輸入語調。 「訓練」係有關於採集一個或更多說話者之特定語音片 段或音節的語音樣本之過程,以產生聲學模型112中的樣板 。聲學模型中的每一種樣板係相關於特定的談話或稱為聲 階(utterance class)的語音片段。在聲學模型中,可能有多種 樣板相關於相同的聲階。「測試」係有關於使聲學模型中 的樣板與自輸入語音選取的一序列特徵向量匹配之程序。 已知系統的效能係大大地取決於末端使用者的輸入語音與 資料庫的内容之間的匹配程度,因此會使經由訓練所^生 的參考樣板與用於VR測試的語音樣本匹配。 訓練之兩種一般的形式為監督訓練(supervised的比比幻及 未監督訓練。在監督訓練中,相關於每組訓練特徵向量的 -6- 577043
聲階已知為先驗,提供輸人語音的說話者時常會提供對應 於預定聲階之談話或語音片段的腳本。然 而產生的特徵向量會併人相關於正確聲階的聲學 之中。 在未監督訓練中’相關於—組训練特徵向量的聲階不是 已知為j驗。在一組訓練特徵向量可併入正確的聲學模担 樣板之前’必須正確地識別出聲階。在未監督.丨練巾,: ㈣練特徵向量之聲階的識別錯誤,會導致在錯誤的聲學 模型樣板中做修飾.這樣的錯誤通常會降低,而不是提昇 聲音辨識效能。為了避免這樣的錯誤,基於未監督訓練之 聲學模型的任何修飾通常必須非常謹慎地施行。一旦相當 確信已正確識別聲階,一組訓練特徵向量會併入聲學模= 。這種必要的謹慎會使得經由未監督訓練而建造sd聲學^ 型的過程非常緩慢。直到以此方式建造出SD聲學模型,大 部分的使用者可能不會接受這樣的VR效能。 最佳而言,在訓練及測試期間,末端使用者會提供語音 聲學特徵向量,以致於聲學模型112會與末端使用者的語音 非常匹配。適合單一說話者之個別的聲學模型也稱為說話 者相依(speaker dependent,簡稱SD)聲學模型。產生SD聲學 模型通常會要求末端使用者提供大量的監督訓練樣本。首 先’使用者必須提供很多不同聲階的訓練樣本。再者,為 了達成最佳的效能,末端使用者必須提供用於每種聲階之 代表不同可能的聲音環境之多種樣板。因為大部分的使用 者不此或不願意提供必要的輸入語音來產生SD聲學模刑, 本紙張尺度適用中國國家標準(CNS) A4規格(21〇x 297公釐)
装 訂
577043 A7 B7 五、發明説明(4 )
所以會訓練取代一般使用的聲學模型之許多存在的VR系統 ,使用許多「典型」說話者的語音。這樣的聲學模型稱為 說話者獨立(speaker independent,簡稱SI)聲學模型,並且設 計成對於廣泛範圍的使用者都具有最佳的效能。然而,SI 聲學模型對於任意單一的使用者不會最佳化。使用SI聲學 模型的VR系統與使用適合於使用者之SD聲學模型的VR系 統一樣’對於特定使用者的執行都不佳。對於一些使用者 而言,如具有濃厚外國口音的使用者,使用SI聲學模型的 VR系統之效能很差,以致於其一點也不能有效地使用VR的 月良務。 最佳而言,對於每一個個別的使用者會產生一種SD聲學 模型。如上所討論,使用監督訓練所建造的SD聲學模型是 不切實際的。但是使用未監督訓練來產生SD聲學模型會花 長的時間,在此期間,基於部分SD聲學模型的VR效能會非 常差。在使用未監督訓練來產生SD聲學模型之前及期間, 使VR系統的技術執行的相當好是需要的。 發明概要 在此所揭露的方法及裝置係針對使用說話者獨立(SI)及 說話者相依(SD)聲學模型的結合之創新的及改善的聲音辨 識(VR)系統。使用至少一種SI聲學模型與至少一種SD聲學 模型結合,以提供一種層級的語音辨識效能,其至少與純
粹的SI聲學模型之語音辨識效能相同。所揭露的混合SI/SD VR系統係連續使用未監督訓練,以更新一種或更多種SD聲 學模型中的聲學樣板。然後,混合VR系統會使用更新過的 -8 - 本紙張尺度適用中國國家橾準(CNS) A4規格(210 X 297公釐) 577043 A7 B7 _ 五、發明説明(5 ) SD聲學模型,單獨或結合至少一種SI聲學模型,用以在VR 測試期間,提供改善的VR效能。 在此使用字「示範性(exemplary)」,以表示「用來當作 一種範例(example)、例子(instance)或實例(illustration)」。 敘述為一「示範性具體實施例」之任何的具體實施例對於 另一具體實施例,不需要視為較佳或有助益的。 圖式簡單說明 從下文中參考附圖解說的詳細說明,將可更明白本發明 的特徵、目的及優點,整份圖式中相同的參考文字視為對 應的相同事物,其中: 圖1顯示的是基本的聲音辨識系統; 圖2顯示的是根據一示範性具體實施例之聲音辨識系統; 圖3顯示的是執行未監督訓練的方法。 圖4顯示的是產生用於未監督訓練的結合匹配分數之一 示範性方法。 圖5顯示的是執行使用說話者獨立(SI)及說話者相依(SD) 匹配分數的聲音辨識(測試)之流程圖; 圖6顯示的是從說話者獨立(SI)及說話者相依(SD)匹配分 數中產生結合匹配分數的一種方法;以及 發明詳細說明 圖2顯示的是如可於無線遠端台202中實施的混合聲音辨 識(VR)系統之一示範性具體實施例。在一示範性具體實施 例中,無線遠端台202係經由無線頻道(圖中未顯示)而與無 線通訊網路(圖中未顯示)做通訊。例如,遠端台202可以是 -9 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐.)
裝 訂
577043 A7 B7 五、發明説明(6 ) 與無線電話系統通訊的無線電話。熟習此項技術者將會了 解到,在此所敘述的技術可同樣應用於固定(不可攜帶)或 不需要無線頻道的VR系統。 在所顯示的具體實施例中,來自使用者的聲音訊號會轉 換成麥克風(microphone,簡稱MIC)210中的電子訊號,並且 會轉換成類比至數位轉換器(analog-to-digital converter,簡 稱ADC) 212中的數位語音樣本。然後,數位樣本流會使用 預先強調(preemphasis,簡稱PE)滤波器214〉慮波,例如有限 脈衝響應(finite impulse response,簡稱FIR);慮波器會使低頻 訊號成份哀減。 然後,濾波過的樣本會於聲學特徵選取(acoustic feature extraction,簡稱AFE)單元216中做分析。AFE單元216會將數 位聲音樣本轉換成聲學特徵向量。在一示範性具體實施例 中,AFE單元216會於連續數位樣本的片段上,執行傅立葉 轉換,以產生對應於不同頻率儲存格(bin)之訊號強度的向 量。在一示範性具體實施例中,頻率儲存格具有根據聲響 比例(bark scale)之變化的頻寬。在聲響比例中,每個頻率 儲存格的頻寬會與此儲存格的中心頻率產生關聯,致使較 高頻率儲存格具有比較低頻率儲存格更寬的頻帶。聲響比 例係敘述於1993年,由Prentice Hall所出版之Rabiner,L.R.及 Juang,B.H.的「語音辨識基礎」之中,並且為此技術中所熟 知0 在一示範性具體實施例中,每個聲學特徵向量係選自於 固定時間區間所採集之一連串的語音樣本。在一示範性具 -10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝 訂
k 577043 A7 B7 五、發明説明(7 ) 體貧施例中’這些時間區間會重叠。例如,聲學特徵可以 從每10毫秒開始之語音資料的20毫秒區間中得到,以致於 每二個連續區間會共有一個1 〇亳秒片段。熟習此項技術者 將會了解到的是’時間區間可取代為非重疊或具有非固定 持續時間,而不達反在此所敘述之具體實施例的範圍。 藉由AFE單元216所產生的聲學特徵向量會送到vr引擎 220,其會執行樣本匹配,以使基於一種或更多種聲學模型 230、232、以及234的内容之聲學特徵向量特徵化。 在圖2之示範性具體實施例中,三種聲學模型係顯示為 :說話者相依(SI)隱藏式馬克沃夫模型(HMM)模型230、說 話者獨互動態時間歪曲(DTW)模型232、以及說話者相依 (SD)聲學模型234。熟習此項技術者將會了解到的是,31聲 學模型的不同結合可用於另一種具體實施例中。例如,遠 端台202可能只包括SIHMM聲學模型230及SD聲學模型234 , 而忽略SIDTW聲學模型232。另一種為,遠端台202可能包括 單一 SIHMM聲學模型230、SD聲學模型234及兩種不同的 SIDTW聲學模型232。除此之外,熟習此項技術者將會了解 到的是’ SD聲學模型234可能為HMM型式或DTW型式或這 兩種的結合。在一示範性具體實施例中,SD聲學模型234為 DTW聲學模型。 如上所述,VR引擎220係執行樣本匹配,以決定聲學特 徵向量與一種或更多種聲學模型230、232、以及234的内容 之間的匹配程度。在一示範性具體實施例中,VR引擎220 會產生基於聲學特徵向量與在聲學模型230、232、以及234 -11 - 本紙伕尺度適用中國國家操準(CNS) A4規格(210X297公釐) 577043 A7 B7 五、發明説明(8 ) 之每一種中的不同聲學樣板匹配的匹配分數。例如,VR引 擎220會產生基於一組聲學特徵向量與在SIHMM聲學模型 230中的多種HMM樣板匹配的HMM匹配分數。同樣地,VR 引擎220會產生基於聲學特徵向量與在SIDTW聲學模型232中 的多種DTW樣板匹配的DTW匹配分數。VR引擎220會產生基 於聲學特徵向量與在SD聲學模型234中的樣板匹配的匹配分 數。 如上所述,在聲學模型中的每一種樣板係相關於聲階。 在一示範性具體實施例中,VR引擎220會將相關於相同聲 階的樣板之分數結合,以產生結合的匹配分數,其係用於 未監督訓練中。例如,VR引擎220會結合從互相關聯的一 輸入組之聲學特徵向量獲得之SIHMM及SIDTW分數,以產 生結合的SI分數。基於結合的匹配分數,VR引擎220會決定 是否將輸入組之聲學特徵向量儲存為SD聲學模型234中的 SD樣板。在一示範性具體實施例中,執行更新SD聲學模型 234的未監督訓練係使用獨有的SI匹配分數。這樣可避免可 能在其他方面,起因於將推斷出的SD聲學模型234來用於本 身的未監督訓練所產生的附加錯誤。執行此未監督訓練的 一種示範性方法詳細說明如下。 除了未監督訓練之外,在測試期間,VR引擎220會使用 各種不同的聲學模型(230,232,234)。在一示範性具體實 施例中,VR引擎220會從聲學模型( 230,232,234)中得到 匹配分數,並且會產生用於每種聲階之結合的匹配分數。 結合的匹配分數會用來選擇與輸入語音最佳匹配之聲階。 -12- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
線 577043 A7 B7 五、發明説明(9 ) 當需要辨識整個談話或詞組時,VR引擎220會把連續的聲 階聚集在一起。然後,VR引擎220會提供關於辨識過的談 話或詞組之資訊到控制處理器222,其使用此資訊來決定語 音資訊或命令之合適的回應。例如,回應於辨識過的談話 或詞組,控制處理器222會經由顯示器或其他的使用者介面 而提供回授給使用者。在另一個例子中,控制處理器222會 經由無線數據機(modem) 218及天線224而傳送訊息至無線網 路(圖中未顯示),開始打行動電話到相關於已說出名字且 已完全辨識的個人之目的地電話號碼。 無線數據機218可以經由包括CDMA、TDMA、或FDM A 之多種的無線頻道型式的任何一種來傳送訊號。除此之外 ,無線數據機218可以不達反已敘述的具體實施例之範圍之 能於非無線頻道上傳輸的通訊介面型式取代。例如,遠端 台202可經由包括地線(land-line)數據機、T1/E1、ISDN、DSL 、乙太網路,或甚至印刷電路板(printed circuit board,簡稱 PCB)上的走線(trace)之多種型式的通訊頻道之任何一種來 傳送訊號資訊。 圖3顯示的是執行未監督訓練之一示範性方法的流程圖 。在步驟302,類比語音資料會於類比至數位轉換器(ADC) 中取樣(圖2中的212)。然後,數位樣本流在步驟304,會使 用預先強調(PE)濾波器(圖2中的214)來濾波。在步驟306, 在聲學特徵選取(AFE)單元(圖2中的216)中,會從濾波過的 樣本中選取聲學特徵向量。VR引擎(圖2中的220)會接收來 自AFE單元216的輸入聲學特徵向量,並且會對SI聲學模型 -13- 本紙張尺度逋用中國國家搮準(CNS) A4規格(210X297公釐)
裝 訂
k 577043 A7 _ _ B7 五、發明説明(10 ) (圖2中的230及232)的内容執行輸入聲學特徵向量的樣本匹 配。在步驟308,VR引擎220會從樣本匹配的結果中產生匹 配分數。VR引擎220會藉由匹配具有SIHMM聲學模型230的 輸入聲學特徵向量而產生SIHMM匹配分數,並且會藉由匹 配具有SIDTW聲學模型232的輸入聲學特徵向量而產生 SIDTW匹配分數。在SIHMM及SIDTW聲學模型(230及232)中 的每種聲學樣板係與特定的聲階相關。在步驟310,會結合 SIHMM及SIDTW分數,以組成結合匹配分數。 圖4顯示的是產生用於未監督訓練的結合匹配分數。在 所顯示之示範性具體實施例中,用於特定聲階的說話者獨 立結合匹配分數SC0MB__SI為根據如所顯示的EQN.1之權重和 ,其中: SIHMMT為用於目標聲階的SIHMM匹配分數; SIHMMnt為用於相關於非目標聲階(為目標聲階之外的一 種聲階)之SIHMM聲學模型中的樣板之下一個最佳匹配分 數; SIHMMG為用於「無用(garbage)」聲階的SIHMM匹配分數; SIDTWt為用於目標聲階的SIDTW匹配分數; SIDTWnt為用於相關於非目標聲階之SIDTW聲學模型中的 樣板之下一個最佳匹配分數;以及 SIDTWg為用於「無用」聲階的SIDTW匹配分數。 各種不同的個別匹配分數SIHMMn& SIDTWn可視為表示出 一連串的輸入聲學特徵向量與聲學模型中的樣板之間的距 離值。在輸入聲學特徵向量與樣板之間的距離愈大,匹配 -14- 紙伕尺度適用中國國家棣準(CNS) A4規格(210 X 297公釐) ~ 裝 訂
五、
發明説明(W 分數愈大。在樣板與輸人聲學特 產生非常低的匹配分數“ I《間的匹配會 量與相關於不同聲階的/將一連宰的輸入聲學特徵向 個匹配分數,二:Γ板比較而產生幾乎相同的兩 階。 JVR系統會不能辨識哪—個為「正確」聲 SIHMMg及 SIDTWg為用於「 如奶认A m # 、 ”、、用」采隖的Sl〇TW匹配分數。 相關於然用聲階的樣板 有對應於特定的雙…, ,為,用樣板’並且沒 H…組。由於這個原因,其與全部的 輸入語音同樣沒有關 ^ ^ 1 外。拌用匹配分數可用來當作VR系統 :的一種雜訊層測量。-般而言,在聲階可確信地辨識之 則’一連串的輸入聲學特徵向量與相關於目標聲階的樣板 〈匹配應該比相關於無用樣板的匹配具有更佳的程度。 *在VR系統可確信,識聲階為「正確」聲階之前,輸入 聲學特徵向量與相關於此聲階的樣板之匹配,應該比相關 於無用樣板或相關於其他聲階的樣板之匹配具有更高的程 度。從多種聲學模型中產生的結合匹配分數比只基於一種 聲學模型的匹配分數可在聲階之間’做更確信的辨識。在 一·^ $(L性具體實施例中,VR#、統係使用這樣的結合匹配分 數,以決定是否取代具有從新組的輸入聲學特徵向量中得 到的一個輸入聲學特徵向量之SD聲學模型中的樣板(圖2中 的 234)。 會選擇權重因子(Wl…w6),以提供全部聲學環境之最佳 的訓練效能。在一示範性具體實施例中,權重因子 (Wi.·· WO為用於全部聲階的常數。換句話說,用來產生用 -15 577043 A7 B7 _ 五、發明説明(12 ) 於第一目標聲階的結合匹配分數之Wn與用來產生用於另一 種目標聲階的結合匹配分數之wn值是相同的。在另一種具 體實施例中,權重因子會基於目標聲階而變化。圖4中所 顯示之其他方式的結合對於熟習此項技術者將是顯然可知 的,並且視為在此所敘述之具體實施例的範圍内。例如, 也可以使用超過六個或少於六個的權重輸入。另一種顯然 可知的變化將會產生基於一種型式的聲學模型之結合匹配 分數。例如,結合匹配分數可基於SIHMMT、SIHMMNT、以 及SIHMMG而產生。或者,結合匹配分數可基於SIDTWt、 SIDTWnt、以及 SIDTWG* 產生。 在一示範性具體實施例中,Wi及W4為負數,而Sc〇MB 之 較大(或較小之負的)值係表示在目標聲階與一連串的輸入 聲學特徵向量之間的匹配(較小距離)具有較大的程度。熟 習此項技術者將會顯然可知,權重因子的符號可輕易地重 新安排,以致於對應於較小值的匹配具有較大的程度,而 不會達反所揭露的具體實施例之範圍。 回到圖3,在步驟310,會產生用於相關於HMM及DTW聲 學模型( 230及232)中的樣板之聲階的結合匹配分數。在一 示範性具體實施例中,只會產生用於相關於最佳n SIHMM 匹配分數的聲階及用於相關於最佳m SIDTW匹配分數的聲 階之結合匹配分數。這種限制可適合用來節省計算資源, 即使當產生個別的匹配分數時,會消耗非常大量的計算電 源。例如,如果n = m = 3,會產生用於相關於頂端三個 SIHMM的聲階及相關於頂端三個SIDTW匹配分數的聲階之 -16- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
線 577043 A7 B7 ___ 五、發明説明(13 ) 結合匹配分數。取決於相關於頂端三個SIHMM匹配分數的 聲階與相關於頂端三個SIDTW匹配分數的聲階是否相同, 這種方法將會產生三種到六種不同的結合匹配分數。 在步驟3 12,遠端台202會將結合匹配分數與以相對應的 樣板(相關於相同的聲階)儲存於SD聲學模型中的結合匹配 分數做比較。如果新的一連串的輸入聲學特徵向量比用於 相同聲階之儲存於SD模型中之較舊樣板之一連_的輸入聲 學特徵向量具有較大的匹配程度,則會從新的一連串的輸 入聲學特徵向量中產生新的SD樣板。在一具體實施例中, 其中SD聲學模型為DTW聲學模型,一連串的輸入聲學特徵 向量本身會產生新的SD樣板。然後,較舊的樣板會以新的 樣板取代,並且相關於新的樣板之結合匹配分數會儲存於 SD聲學模型中,以在未來的比較中使用。 在另一種具體實施例中,未監督訓練係用來更新說話者 相依隱藏式馬克沃夫模型(SDHMM)聲學模型中的一種或更 多種的樣板。SDHMM聲學模型可用來取代SDDTW模型或除 了 SD聲學模型234内的SDDTW聲學模型。 在一示範性具體實施例中,在步驟312的比較也包括將未 來新的SD樣板與常數訓練臨界值(threshold)的結合匹配分數 做比較。即使還沒有任何樣板為了特定聲階儲存於SD聲學 模型之中,新樣板將不會儲存於SD聲學模型之中,除非其 具有的結合匹配分數比訓練臨界值更佳(表示較大的匹配程 度)。 在另一種具體實施例中,在已取代SD聲學模型中的任一 -17- 本紙張尺度逋用中國國家標準(CNS) A4規格(210 X 297公釐) 裝 訂
線 A7 B7 五、發明説明(14 ) 種樣板之前,預設的SD聲學模型係具有來自SI聲學模型的 樣板。這樣的初始值可提供另一種方法,以確定使用犯聲 學模型的VR效能與只使用SI聲學模型的vr效能至少開始時 是一樣好的。當愈來愈多之SD聲學模型中的樣板已更新, 使用SD聲學模型的VR效能將會超越只使用SI聲學模型的VR 效能。 在另一種具體實施例中,VR系統允許使用者執行監督訓 練。使用者必須在執行這樣的監督訓練之前,將VR系統放 入監督訓練模式之中。在監督訓練期間,VR系統具有一種 正確聲階的先驗知識。如果輸入語音的結合匹配分數比此 ’ 1¾先如所儲存之SD樣板的結合匹配分數更佳,則會使用 輸入浯音來組成一種取代SD樣板。在另一種具體實施例中 ,VR系統允許使用者在監督訓練期間,強制取代存在的sd 樣板。 SD聲學模型可設計成對於單一聲階,具有多種(兩種或 更多種)樣板的空間。在一示範性具體實施例中,對於每種 聲階,SD聲學模型中會儲存兩種樣板。因此,在步驟3丨2的 比較,對於相同的聲階需要將以新樣板所得到的匹配分數 與以SD聲學模型中的兩種樣板所得到的匹配分數做比較。 如果新樣板比SD聲學模型中的任一種舊樣板具有更佳的匹 配刀數,則在步驟3 14,具有最差匹配分數的SD聲學模型樣 板會以新樣板來取代。如果新樣板的匹配分數並沒有比任 種舊樣板更佳,則會跳過步驟3 14。此外,在步驟3 12, 以新樣板所得到的匹配分數會與匹配分數臨界做比較。所 -18 -
577043
'直到新樣板具有比儲存於SD聲學模型中的臨界更佳之 匹配刀數’在其用來覆寫SD聲學模型的先前内容之前,新 篆板a /、I界值做比較。顯然可知的變化,如根據結合匹 配刀數及只比較新匹配分數與最低匹配分數之以排序順序 所儲存的SD聲學模型樣板,可預期及視為在此所揭露的具 也貫施例之範圍内。對於每種聲階,儲存於聲學模型中之 樣板的數目之顯然可知的變化也可以預期。例如,SD聲學 換型對於每種聲階,可包含超過兩種樣板,或者對於不同 聲階’可包含不同數目的樣板。 圖5顯示的是執行使用“及SD聲學模型的結合之vr測試 之示範性方法的流程圖。步驟3〇2、304、306、以及308與圖 3中所敘述的相同。示範性方法在步騾51〇係不同於圖3中 所顯示的方法。在步驟51〇,VR引擎22〇會產生基於輸入聲 學特徵向量與SD聲學模型中的樣板之比較的sd匹配分數。 在一示範性具體實施例中,所產生的SD匹配分數只會用於 相關於最佳n SIHMM匹配分數及最佳m SIDTW匹配分數之 聲階。在一示範性具體實施例中,n = m = 3。取決於兩組聲 階之間的重疊程度,這將會導致產生用於三種到六種聲階 的SD匹配分數。如上所討論的,對於單一聲階,sd聲學模
型可包含多種樣板。在步驟512,VR引擎220會產生用於VR 測試之混合結合匹配分數。在一示範性具體實施例中,這 些混合結合匹配分數係基於個別的SI及個別的SD匹配分數 。在步驟5 14,會選擇具有最佳結合匹配分數之談話或話語 ’並且會與測試臨界值做比較。如果一種聲階的結合匹配 -19 - 本紙張尺度逋用中國國家標準(CNS) A4規格(210 X 297公釐) 577043 A7 B7 五、發明説明(16 ) 分數超過此測試臨界,才會視為辨識到此種聲階。在一示 範性具體實施例中,用來產生訓練的結合分數之權重 [W!…W6](如圖4所顯示)係與用來產生測試的結合分數之 權重值[1…W6](如圖6所顯示)相同,但是訓練臨界值與 測試臨界並不相同。 圖6顯示的是執行步驟512而產生的混合結合匹配分數。 所顯示之示範性具體實施例之運作係與圖4所顯示的結合 相同,除了權重因子W4係用於DTWT,來取代SIDTWT,以 及權重因子W5係用於DTWnt,來取代SIDTWnt之外。DTWT ( 用於目標聲階的動態時間歪曲匹配分數)係選自相關於目標 聲階之最佳的SIDTW及SDDTW分數。同樣地,DTWnt (用於 非目標聲階的動態時間歪曲匹配分數)係選自相關於非目標 聲階之最佳的SIDTW及SDDTW分數。 用於特定聲階的SI/SD混合分數SC0MB_H為根據如所顯示之 EQN.2 之權重和,其中 SIHMMT、SIHMMNT、SIHMMG、以及 SIDTWg與EQN.1相同。特別而言,在EQN.2中: SIHMMT為用於目標聲階的SIHMM匹配分數; SIHMMNT為用於相關於非目標聲階(為目標聲階之外的一種 聲階)之SIHMM聲學模型中的樣板之下一個最佳匹配分數; SIHMMG為用於「無用」聲階的SIHMM匹配分數; DTWt為對應於目標聲階之用於SI及SD樣板之最佳DTW匹 配分數; DTWnt為對應於非目標聲階之用於SI及SD樣板之最佳 DTW匹配分數;以及 -20- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝 訂
線 577043 A7 B7 五、發明説明(17 ) SIDTWG為用於「無用」聲階的SIDTW匹配分數。 因此,SI/SD混合分數SC0MB_H為個別的SI及SD匹配分數 之結合。所產生的結合匹配分數不完全依賴SI或SD聲學模 型。如果匹配分數SIDTWT比任何的SDDTWt分數更佳,則 會從較佳的SIDTWT分數中計算SI/SD混合分數。同樣地, 如果匹配分數SDDTWT比任何的SIDTWT更佳,則會從較佳 的SDDTWt分數中計算SI/SD混合分數。因此,如果SD聲學 模型中的樣板產生差的匹配分數,VR系統仍然會基於 SI/SD混合分數的SI部分而辨識出輸入語音。這種差的SD匹 配分數可能有多種原因,包括在訓練及測試期間,聲學環 境之間的差異,或者也許是用於訓練的輸入品質很差。 在另一種具體實施例中,SI分數的權重與SD分數比較起 來係非常的小,或者甚至可以完全忽視。例如,DTWT係選 自相關於目標聲階之最佳的SDDTW分數,而忽視用於目標 聲階的SIDTW分數。再者,DTWnt可選自相關於非目標聲 階之最佳的SIDTW或SDDTW分數,來取代使用兩組的分數。 雖然所敘述之示範性具體實施例係只使用說話者相依模 型化的SDDTW聲學模型,但是在此所敘述的混合方法同樣 可應用到使用SDHMM聲學模型的VR系統或甚至SDDTW及 SDHMM聲學模型的結合。例如,藉由修改圖6所顯示的方 法,權重因子I可用於選自最佳的SIHMMT及SDHMMT之匹 配分數。權重因子W2可用於選自最佳的SIHMMNT及 SDHMMNT之匹配分數。
因此,在此所揭露的為使用si及SD聲學模型的結合之VR -21 - 本紙張尺度適用中國國家操準(CNS) A4規格(210X297公釐) 裝 訂
577043 A7 B7五、發明説明(18 ) 方法及裝置,用以改善在未監督訓練及測試期間的V R效 能。熟習此項技術者將會了解到的是,資訊及訊號可使用 任何變化的不同科技及技術來表示。例如,以上全部敘述 會提及到的資料、指令、命令、資訊、訊號、位元、符號 、以及晶片可藉由電壓、電流、電磁波、磁場或粒子、光 學場或微粒、或者是其任何的結合來表示。再者,雖然具 體實施例主要是就動態時間歪曲(DTW)或隱藏式馬克沃夫 模型(HMM)聲學模型的方面來做說明,但是所敘述的技術 可應用於如神經網路聲學模型之其他型式的聲學模型。 熟習者將會進一步了解到,配合在此揭露的具體實施例 而敘述的各種顯示的邏輯方塊、模組、電路、以及演算法 步驟可以電子硬體、電腦軟體、或兩者的結合來實施。為 了清楚表示硬體及軟體的可交換性,就其功能而言,各種 顯示的元件、方塊、模組、電路、以及步騾已敘述如上。 這樣的功能是否以硬體或軟體來實施係取決於加諸於全部 系統的特定應用及設計限制。熟習的技術者對於每種特定 的應用,可以變化的方式來實施所敘述的功能,但是這樣 的實施決定應該不能解釋為產生達反本發明的範圍。 配合在此揭露的具體實施例而敘述的各種顯示的邏輯方 塊、模組、以及電路可以一般用途的處理器、數位訊號處 理器(digital signal processor,簡稱DSP)、特定應用積體電路 (application specific integrated circuit,簡稱 ASIC)、場域可程 式閘極陣列(field programmable gate array,簡稱 FPGA)或其 他可程式的邏輯裝置、分離閘或電晶體邏輯、分離硬體元 -22- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
k 577043 A7 B7 五、發明説明(19 ) 件、或其設計用來執行功能的任意結合來實施或執行。一 般用途的處理器可以是微處理器,但是另一方面,處理器 可以是任何傳統的處理器、控制器、微控制器、或狀態機 器。處理器也可以實施為計算裝置的結合,例如,DSP及 微處理器、多個微處理器、結合DSP核心之一個或更多個 微處理器、或者是這樣配置之結合。 配合在此揭露的具體實施例而敘述的方法或演算法之步 驟可直接以硬體、以藉由處理器來執行的軟體模組、或以 兩者的結合來具體實施。軟體模組可存在於RAM記憶體、 快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶 體、暫存器、硬碟、可抽取磁碟、CD-ROM、或在此技術中 所熟知之任何其他型式的儲存媒體。一種示範性儲存媒體 係耦接至處理器,以致於處理器可自儲存媒體中讀取資訊 ,以及寫入資訊到儲存媒體。在另一方面,可整合儲存媒 體到處理器。處理器及儲存媒體可存在於ASIC中。在另一 方面,處理器及儲存媒體可存在於使用者終端中,當作分 離元件。 揭露的具體實施例之先前的說明係用以使熟習此項技術 的任何人能實施或使用本發明。這些具體實施例的各種修 改對於熟習此項技術者,將能立即顯然可知,並且在此所 定義的通則可應用於其他的具體實施例,而不達反本發明 的精神或範圍。因此,本發明並不是意圖限制在此所顯示 的具體實施例,而是使本發明的之最廣的範圍與在此所揭 露的原理及新穎性符合。 -23- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)

Claims (1)

  1. Α8 Β8 C8 D8 十s I鄕10〇7號專利申請案 …一一·…史土 έ:請蓴利範圍替換本(92年10月) 六、申請專利範圍 1. 一種聲音辨識裝置,包括: 一說話者獨立聲學模型; 一說話者相依聲學模型; 一聲音辨識引擎;以及 一電腦可讀媒體,用以具體實施執行未監督聲音辨 識訓練及測試的一方法,該方法包括執行具有該說話者 獨立聲學模型的内容之輸入語音的樣本匹配,以產生說 話者獨立樣本匹配分數、將說話者獨立樣本匹配分數與 相關於儲存於該說話者相依聲學模型中的樣板之分數做 比較、以及基於該比較的結果而更新該說話者相依聲學 模型中的至少一樣板。 2 .如申請專利範圍第1項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少一隱藏式馬克沃夫模型(ΗΜΜ)聲 學模型。 3 ·如申請專利範圍第1項之聲音辨識裝置,其中該說話者獨 立聲學模型包括至少一動態時間歪曲(DTW)聲學模型。 4 .如申請專利範圍第1項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少一隱藏式馬克沃夫模型(ΗΜΜ)聲 學模型及至少一動態時間歪曲(DTW)聲學模型。 5 .如申請專利範圍第1項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少一無用樣板,其中該比較包括比 較該至少一無用樣板的輸入語音。 6 .如申請專利範圍第1項之聲音辨識裝置,其中該說話者相 O:\77\77378-921002.DOC - 1 · 本紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐) 六、申請專利範圍 依聲學模型包括至少一動態時間歪曲(DTW)聲學模型。 7. —種聲音辨識裝置,包括: 一說話者獨立聲學模型; 一說話者相依聲學模型; 一聲音辨識引擎;以及 一電腦可讀媒體,用以具體實施執行未監督聲音辨 識訓練及測試的一方法’該方法包括執行具有該說話者 獨立聲學模型的内容之一第一輸入語音片段之樣本匹配 ,以產生說話者獨立樣本匹配分數;將說話者獨立樣本 匹配分數與相關於儲存於該說話者相依聲學模型中的樣 本之分數做比較;基於該比較的結果而更新該說話者相 依聲學模型中的至少一樣板;配置該聲音辨識引擎,用 以將一第二輸入語音片段與該說話者獨立聲學模型及該 說話者相依聲學模型的内容做比較,以產生至少一結合 的說話者相依及說話者獨立匹配分數;以及識別具有最 佳結合的說話者相依及說話者獨立匹配分數的一聲階。 8 .如申請專利範圍第7項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少一隱藏式馬克沃夫模型(HMM)聲 學模型。 9 .如申請專利範圍第7項之聲音辨識裝置,其中該說話者獨 立聲學模型包括至少一動態時間歪曲(DTW)聲學模型。 10.如申請專利範圍第7項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少一隱藏式馬克沃夫模型(HMM)聲 O:\77\77378-921002.DOC - 2 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 六、申請專利範圍 學杈型及至少一動態時間歪曲(DTW)聲學模型。 11·如申請專利範圍第7項之聲音辨識裝置,其中該說話者相 依聲學模型包括至少一動態時間歪曲(DTW)聲學模型。 12·—種聲音辨識裝置,包括·· 土 一說洁者獨立聲學模型; 一說洁者相依聲學模型;以及 一聲音辨識引擎,用以執行具有該說話者獨立聲學 棱型的内容之輸入語音的樣本匹配,以產生說話者獨立 樣本匹配分數’以及用以執行具有該說話者相依聲學= 型的内容之輸人語音的樣本匹配,以產生說話者相依樣 本匹配分數,以及用以產生基㈣些說話者獨立樣本匹 配分數及該些說話者相依樣本匹配分數之複數個聲階結 合匹配分數。 13. 如申請專利範圍第丨2項之聲音辨識裝置,其中該說咭 者獨立聲學模型包括至少-隱藏式馬克沃夫模型_M) 聲學模型。 14. 如申請專利範圍第12項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少一動態時間歪曲(dtw)聲學模型 15. 如申請專利範圍第12項之聲音辨識裝置,其中該說話者 獨立聲學模型包括至少-隱藏式馬克沃夫模型(hmm)聲 學模型及至少一動態時間歪曲(DTW)聲學模型。 16. 如申請專利範圍第12項之聲音辨識裝置,其中該說話 O:\77\77378-921002.DOC -3 - 六、申請專利範圍 者相依聲學模型包括至少一動態時間歪曲(DTW)聲學 模型。 17. —種執行聲音辨識的方法,包括: 執行具有至少一說話者獨立聲學樣板之一第一輸入語 音片段的樣本匹配,以產生至少一輸入樣本匹配分數; 將該至少一輸入樣本匹配分數與相關於一儲存聲學 樣板的一儲存分數做比較;以及 基於該比較的結果而取代該儲存聲學樣板。 18. 如申請專利範圍第17項之方法,其中該執行樣本匹配進 一步包括: 執行具有至少一 HMM樣板之該第一输入語音片段的 隱藏式馬克沃夫模型(HMM)樣板樣本匹配,以產生至少 一 HMM匹配分數; 執行具有至少一 DTW樣板之該第一輸入語音片段的 動態時間歪曲(DTW)樣本匹配,以產生至少一 DTW匹配 分數;以及 執行該至少一 HMM匹配分數及該至少一 DTW匹配分 數之至少一權重和,以產生該至少一輸入樣本匹配分數。 19. 如申請專利範圍第17項之方法,進一步包括: 執行具有至少一說話者獨立聲學樣板之一第二輸入 語音片段的樣本匹配,以產生至少一說話者獨立匹配分 數; 執行具有該儲存聲學樣板之該第二輸入語音片段的 O:\77\77378-921002.DOC - 4 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 樣本匹配,以產生一 有相依匹配分數;以及 將孩至少一說話者 配分數結合,以產生至少數與該說話者相依匹 y 、結合匹配分數。 2〇·如申請專利範圍第19項之 ,JL ^ Εη ^ ^ 、 去,進一步包括識別一聲階 肩於取佳的至少'结合匹配分數。 21· 一種執行聲音辨識的方法,包括: 執行具有至少一說話者獨立聲學樣板之立 片段的樣本匹配,以產 輸入 ^ 玍至^ 一說話者獨立匹配分數· 的:IT: —說話者相依聲學樣板之該輸入語音片段 將^以產生至少—說話者相依匹配分數;以及 將孩至少-說話者獨立匹配分數與該至少 2/目依匹配分數結合’以產生至少-結合匹配分數。 •種執行聲音辨識的方法,包括· 型將-组輸入聲學特徵向量與在一說話者獨立聲學模 样太 樣板做比較,以產生—說話者獨立 =配分數’其中該說話者獨立樣板係相關於-第一 刑:該组輸入聲學特徵向量與在一說話者相依聲學模 土的至少—說話者相依樣板做比較,以產生—說話 分數,其中該說話者相依樣㈣相關於該 將該說話者獨立樣本匹配分數與該說話者相依樣本 匹配分數結合,以產生一結合樣本匹配分數=樣本 O:\77\77378-921002.DOC -5- A BCD 5ΊΊ胸、 六、申請專利範圍 將該結合樣本匹配分數與相關於一第二聲階之至少 一其他的結合樣本匹配分數做比較。 23. —種執行聲音辨識的裝置,包括: 執行具有至少一說話者獨立聲學樣板之一第一輸入 語音片段的樣本匹配,以產生至少一輸入樣本匹配分數 之裝置; 將該至少一輸入樣本匹配分數與相關於一儲存聲學 樣板的一儲存分數做比較之裝置;以及 基於該比較的結果而取代該儲存聲學樣板之裝置。 24. —種執行聲音辨識的裝置,包括: 執行具有至少一說話者獨立聲學樣板之一輸入語音 片段的樣本匹配,以產生至少一說話者獨立匹配分數之 裝置; 執行具有一說話者相依聲學樣板之該輸入語音片段 的樣本匹配,以產生至少一說話者相依匹配分數之裝置 ;以及 將該至少一說話者獨立匹配分數與該至少一說話者 相依匹配分數結合,以產生至少一結合匹配分數之裝置。 O:\77\77378-921002.DOC - 6 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐)
TW091105907A 2001-03-28 2002-03-26 Voice recognition system using implicit speaker adaptation TW577043B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/821,606 US20020143540A1 (en) 2001-03-28 2001-03-28 Voice recognition system using implicit speaker adaptation

Publications (1)

Publication Number Publication Date
TW577043B true TW577043B (en) 2004-02-21

Family

ID=25233818

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091105907A TW577043B (en) 2001-03-28 2002-03-26 Voice recognition system using implicit speaker adaptation

Country Status (13)

Country Link
US (1) US20020143540A1 (zh)
EP (3) EP1850324B1 (zh)
JP (5) JP2004530155A (zh)
KR (6) KR100933108B1 (zh)
CN (3) CN101221759B (zh)
AT (3) ATE443316T1 (zh)
AU (1) AU2002255863A1 (zh)
DE (2) DE60233763D1 (zh)
DK (1) DK1374223T3 (zh)
ES (3) ES2330857T3 (zh)
HK (2) HK1092269A1 (zh)
TW (1) TW577043B (zh)
WO (1) WO2002080142A2 (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7440894B2 (en) 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
WO2007105409A1 (ja) * 2006-02-27 2007-09-20 Nec Corporation 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
EP2019985B1 (en) * 2006-05-12 2018-04-04 Nuance Communications Austria GmbH Method for changing over from a first adaptive data processing version to a second adaptive data processing version
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US7552871B2 (en) * 2006-12-19 2009-06-30 Nordic Id Oy Method for collecting data fast in inventory systems and wireless apparatus thereto
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
TWI566107B (zh) * 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US20170011406A1 (en) * 2015-02-10 2017-01-12 NXT-ID, Inc. Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
WO2017034536A1 (en) * 2015-08-24 2017-03-02 Ford Global Technologies, Llc Dynamic acoustic model for vehicle
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018195185A1 (en) * 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
EP3424046B1 (en) * 2017-05-12 2020-07-08 Apple Inc. User-specific acoustic models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN111243606B (zh) * 2017-05-12 2023-07-21 苹果公司 用户特定的声学模型
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896673B1 (en) 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
KR102135182B1 (ko) 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR102263973B1 (ko) 2019-04-05 2021-06-11 주식회사 솔루게이트 인공지능 기반 일정관리 시스템
US11238847B2 (en) * 2019-12-04 2022-02-01 Google Llc Speaker awareness using speaker dependent speech model(s)

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045298A (ja) * 1983-08-22 1985-03-11 富士通株式会社 単語音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
DE3819178A1 (de) 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
JPH01309099A (ja) * 1987-06-04 1989-12-13 Ricoh Co Ltd 音声応答装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH02232696A (ja) * 1989-03-06 1990-09-14 Toshiba Corp 音声認識装置
JP2989231B2 (ja) * 1989-10-05 1999-12-13 株式会社リコー 音声認識装置
JPH04280299A (ja) * 1991-03-08 1992-10-06 Ricoh Co Ltd 音声認識装置
JPH05188991A (ja) * 1992-01-16 1993-07-30 Oki Electric Ind Co Ltd 音声認識装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
CN1160450A (zh) * 1994-09-07 1997-09-24 摩托罗拉公司 从连续语音中识别讲话声音的系统及其应用方法
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
JP3865924B2 (ja) * 1998-03-26 2007-01-10 松下電器産業株式会社 音声認識装置
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
JP2000137495A (ja) * 1998-10-30 2000-05-16 Toshiba Corp 音声認識装置および音声認識方法
DE69829187T2 (de) * 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation

Also Published As

Publication number Publication date
EP1850324B1 (en) 2011-09-21
DK1374223T3 (da) 2007-10-08
EP1628289A3 (en) 2006-03-01
KR20070106809A (ko) 2007-11-05
US20020143540A1 (en) 2002-10-03
CN1531722B (zh) 2011-07-27
KR100933109B1 (ko) 2009-12-21
KR100933108B1 (ko) 2009-12-21
HK1117260A1 (en) 2009-01-09
KR20090106628A (ko) 2009-10-09
JP4546555B2 (ja) 2010-09-15
DE60222249T2 (de) 2008-06-12
JP2008077099A (ja) 2008-04-03
AU2002255863A1 (en) 2002-10-15
KR100933107B1 (ko) 2009-12-21
ATE525719T1 (de) 2011-10-15
JP4546512B2 (ja) 2010-09-15
EP1850324A1 (en) 2007-10-31
KR20090106630A (ko) 2009-10-09
ATE372573T1 (de) 2007-09-15
ES2371094T3 (es) 2011-12-27
DE60233763D1 (de) 2009-10-29
CN101221759B (zh) 2015-04-22
KR20030085584A (ko) 2003-11-05
JP2004530155A (ja) 2004-09-30
KR101031717B1 (ko) 2011-04-29
EP1628289A2 (en) 2006-02-22
JP2013152475A (ja) 2013-08-08
JP2008203876A (ja) 2008-09-04
WO2002080142A3 (en) 2003-03-13
EP1374223B1 (en) 2007-09-05
ATE443316T1 (de) 2009-10-15
CN101221758A (zh) 2008-07-16
KR101031660B1 (ko) 2011-04-29
EP1628289B1 (en) 2009-09-16
ES2330857T3 (es) 2009-12-16
DE60222249D1 (de) 2007-10-18
JP2010211221A (ja) 2010-09-24
CN101221759A (zh) 2008-07-16
KR20090106625A (ko) 2009-10-09
WO2002080142A2 (en) 2002-10-10
ES2288549T3 (es) 2008-01-16
CN1531722A (zh) 2004-09-22
HK1092269A1 (en) 2007-02-02
KR20070106808A (ko) 2007-11-05
KR101031744B1 (ko) 2011-04-29
EP1374223A2 (en) 2004-01-02

Similar Documents

Publication Publication Date Title
TW577043B (en) Voice recognition system using implicit speaker adaptation
CN102723080B (zh) 一种语音识别测试系统及方法
CN108766441B (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
TW557443B (en) Method and apparatus for voice recognition
TW323364B (zh)
JPH07502834A (ja) 音声制御通信装置および処理方法
JP3969908B2 (ja) 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
CN104427125A (zh) 一种接听来电的方法及移动终端
JP5105682B2 (ja) 基準変換手段を伴なう音声認識装置
JPH04324499A (ja) 音声認識装置
Rodríguez et al. Using adaptive filter to increase automatic speech recognition rate in a digit corpus
JPH10289092A (ja) 情報処理システムおよび情報管理方法
JP2004061609A (ja) 音声認識方法及び音声認識装置
JPH0477795A (ja) 音声認識装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees