TW452758B

TW452758B - Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques

Info

Publication number: TW452758B
Application number: TW088115209A
Authority: TW
Inventors: Roland Kuhn; Patrick Nguyen; Jean-Claude Jungqua
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 1998-09-04
Filing date: 1999-11-09
Publication date: 2001-09-01
Also published as: CN1178202C; EP0984429B1; DE69916951T2; EP0984429A3; CN1253353A; US6343267B1; EP0984429A2; DE69916951D1; JP2000081893A

Description

4 52 75 :) Α7

五、發明說明（i ) jg關申請案之交叉來考 (請先間讀背面之注意事項再填寫本頁) 本案為美國專利申請案第09/070,208號名稱「基於特徵聲音之說話者與環境適應」及美國專利申請案笫 7〇’〇54號名稱「於特徵聲音空間找出適應說話者模式之最大可能性方法」之部分連續案β 發明皆景及概怵 — 概略而言本發明係關於語音辨織，特別係關於說話者適應，藉此語音辨識模式之參數經修改而更加可辨識新說話者的語音。语曰辨識系統可為說話者相依性或說話者獨立性。說話者相依系統經過受訓例如給予大量該個體發出的字詞（於本例稱作「訓練資料」）而瞭解該個體的話意。說話者相依系統對其被受訓的個體極為準確但對其它人則否。說話者獨立系統设計成可由任何使用該應用程式語言的個趙使用：典型係接受許多人的資料訓練。說話者獨立系統對非於訓練資料中個體進行辨識時，錯誤率約為可婉美的說話者相依系統對其受訓說話者進行辨識時錯誤率之2至3倍〇經濟部智慧財產局員工消費合作社印數嘗試改良性能，多種語音辨識系統包括進行說話者適應性的設施’如此語音辨識系統可於使用中調整而降低錯誤率。基本上有三種說話者適應辦法述於目前技術參考文獻。包括： (1)說話者規格化（也稱作「轉換」）一新說話者之特徵向量產生的數位化信號觀察值被轉換而更為類似參考說話本紙張尺度遶用中國囤家標準（CNS)A4規格（210 β 297公釐）經濟部智慧財產局員工消費合作社印絮 A7 B7 五、發明說明（2 ) 者的觀察值’說話者相依系統係對該參考說話者受訓。某些•情況下轉換為反向*參考樣式轉成極為近似新說話者資料。 (2) 說話者叢集--新說話者觀察值用來選擇訓練說話者叢集；各叢集關聯一完整隱藏式馬可夫（Mark〇v)模式 (HMMs)集合，該模式僅對本叢集之說話者訓練。一旦選用不適合說話者的叢集’則僅使用得自此叢集的進行辨識。 (3) 模式適應性--某些HMM參數經更新而反應適應資料之各方面。兩大最普及的模式適應技術為最大後估計 (MAP)及最大可能線性迴歸（MLLR)。雖然各適應技術證實皆有益，但皆有若干缺點。一般而言，較有效的適應技術需要較有意義的運算資源，同時也需對各說話者作大量訓練努力。本發明帶來一種全新技術，使用該技術進行珲踔壹專度化及說話者與環境適應。該技術可使最初為說話者獨立的辨識系統快速對新說話者及新聲音環境達到一種性能水平趨近於說話者相依系統，而無需大量各個新說話者訓練資料。發明人將此種技術稱作「特徵聲音適應」。發明人發現特徵聲音適應可應用於多個不同方面如後文透過若干特定實例舉例說明。通常特徵聲音適應包括維度縮減，其可大為改良說每者與環境適應時的速度及效率。維度縮減稱作高維度空間映射至低維度空間：可使用多鞴不門姑俗水& J尺用夕樘不同技術來執行維度縮減 ---------^--------- (請先閱讀背面之江意事項再填寫本！)

52 52 經濟部智慧財產局員工消費合作社印Μ Α7 Β7 五、發明說明（3 ) 。包括主要成分分析（PCA)，線性甄別因數分析（Lda)，因數分析（FA)，單數數值分解（SVD)及其·它可應用基於方差縮減標準的轉變。不似參考文獻使用的其它適應技術，發明人之特徵聲音適應技術應用維度縮減至完整說話者模式集合俾便找出跨據說話者模式空間之基本向量β舉例言之，一個大型說話者模式集合於離線步驟使用維度縮減分析獲得特徵向量集合，發明人稱作「特徵聲音向量」或「特徵聲音」。離線步驟相當運算密集，但僅須進行一次。隨後每次使用該語音辨識系統時對得自新說話者的適應性資料進行運算廉價作業，來獲得特徵聲音跨據空間之一向量。此新向量獲知新说話者的適應模式。本發明之部分效果係來自於辨識系統適應的訓練說話者與新個別說話者集合之特徵聲音表示式。換言之於維度縮減步驟期間發展出的特徵空間代表全部訓練說話者之集合語音軌跡。界定η維空間之個別特徵向量各自含有不同資訊’例如可表示成有序表單或陣列成員。使用本發明之運算負荷大減，原因在於特徵向量為正交，許可隨後運算藉由解除計算機可相當容易計算的線性方程式集合而進行。將新說話者置於特徵空間可藉由多種不同方式達成。雖然單純幾何投射可用來將新說話者置於特徵空間，但發明人開發一種改良技術，發明人將其稱作最大可能性特徵语音分解（MLED)用以將新向量置於特徵聲音跨據空間内 I *裝· ·------訂---------線 (請先閲讀背面之注意事項再填寫本頁)

經濟部智慧財產局員工消贄合作社印知衣 A7 -------B7_____ __ 五、發明說明（4 ) 部。最大可能性技術涉及基於新說話者之觀察資料，同時也基於隱藏式馬可夫模式如何建構的知識’建構一機率函數。使用此機率函數，藉由導出以及找到局部最大值獲得最大可能性向量。如此最大可能性向量由相干性侷限於特徵聲音跨據的空間内部’且為新說話者獲得可利用的輸入語音資料空間内部的良好代表。發明人之特徵聲音適應技術於使用良好準確說話者相依模式集合作為維度縮減基準時，獲得優異結果。因此根據本發明之一方面可使用輔助適應技術於維度縮減之前獲知且提升說話者相依模式。此種技術包括最大值A後估計 (MAP)及其它基於轉換的技術例如最大可能性線性迴歸 (MLLR)。根據本發明之另一方面，特徵聲音適應技術被應用於開發一種初適應模式，隨後此模式使用輔助適應技術例如前述者進一步改良。經常藉由首先應用MLED技術然後應用輔助適應技術之一可得最佳結果。至目前為止討論的特徵聲音適應技術涉及維度縮減應用於訓練說話者集合。本發明之又另—方面涉及應用維度縮減至轉換矩陣集合，該矩陣係來自於基於轉換適應技術例如MLLR。此種辦法中，各訓練說話者用於由說話者獨立模式（例如使用MLLR)估計一組轉換矩陣集合。各訓練說話者之轉換矩陣集合隨後被向量化（轉成高維度監控向量）。維度縮減技術隨後應用於監控向量集合，獲得發明、稱作-特徵轉換向量..或，特徵轉換的低維度特徵向 ---------訂--------- (請先Μ讀背面之注惠事項再填寫本頁) A7 --B7 五、發明說明（5 ) 量集合》為了快速適應新的說話者，系統假定新說話者的轉換矩陣係位在特徵轉換跨據的小空間，隨後應用該轉換至說話者獨立模式。維度縮減跳至特徵空間獲得顯著彈性及運算經濟性。例如發明人發現統計處理技術可應用於低維度特徵空間。因此根據本發明之另一方面，統計方法例如拜葉新估計可於特徵空間進行作為定位新說話者位於空間何處的較佳方式。先前知識（例如得自訓練說話者）有關說話者空間何區較為緻密或較為稀疏，用來進一步確定新說話者於特徵空間所在位置的估值。就實用上言之，此處所述特徵聲音適應技術許可基於極短且可能不完全的訓練課程而許可建構強勁適應模式β 此等技術使其適用於無法取得大量適應資料的說話者與環境適應用途。例如該技術於語音致能互動行銷系統效果良好，於該處新說話者藉電話對系統遨遊急速作響應，系統隨著說話者遨遊通過系統下定單而自動適應新的說話者" 為求更明白瞭解本發明，本發明之目的及優點可參照後文說明書及附圖。圃犬之簡單說明第1圖說明可用於瞭解本發明之隱藏式馬可夫模式 (ΗΜΜ)範例；第2圖為資料流程圓說明如何由複數訓練說話者建構特徵空間；本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (猜先閱讀背面之注意If項再填寫本頁> 裝- — — — — — * - ----II---I I . 經濟部智慧財產局員工消費合作社印髮 A7 經濟部智慧財產局員工消費合作社印製五、發明說明（6 ) 第3圊為資料流程圖說明如何使用根據本發明之特徵聲音建構適應模式：第4圖為特徵空間之簡化（二度空間）說明圖，且比較投射作業與本發明之MLED最大可能性作業；第5圖為資料結構圖說明根據本發明得自新說話者的觀察資料如何經由特徵空間轉成適應模式；第6圖為流程圖說明本發明之最大可能性特徵空間適應過程；第7圖為資料流程圖說明基於轉換矩陣界定特徵空間之維度縮減方法；第8圖為圖解方塊圖可用於瞭解拜葉新估計技術；以及第9圖為資料流程圖摘述說明書中使用之多種特徵聲音適應技術。 ϋ具體例之銳afi 為求更明白瞭解本發明之說話者適應技術，對語音辨識系統有基本瞭解將有幫助。大半今日的語音辨識器係採用隱藏式馬可夫模式（HMM)來表示語音。隱藏式馬可夫模式為—種涉及狀態圖之模式化辦法t任何語音單.位（例如句 '字、小字、音素等)可使用該模式含括的全部知識源模式化。HMM表示-種未知過程，可於分立間隔產生察的輸出結果·輸出為若干有限字母成員(對應於語 :早位之預先界定集合）。料模式稱作「隱藏式，原因為產生可觀察輸出之狀態順序未知之故 -------------裝--------訂--------- (請先閱讀背面之注意事項再填寫本頁)

經濟部智慧財產局員工消費合作社印製如第1圈所示，HMM 10以一組狀態集合說明（srs2...s5) ’該等向量界定某些成對狀態間的過渡，如第1圖箭號說明及一組機率資料集合。特別隱藏式馬可夫模式包括一過渡向量關聯過渡機率12集合，及於各態觀察得輸出關聯的輸出機率14集合。模式以規則分開的分立間隔時間由一態循序轉成另一態。於時脈時間，模式可由目前態轉成過渡向量可能存在的任一態。如所示，過渡可由指定態返回其本身。過渡機率表示當模式被定時時由一態過渡至另一態的可能性。如此如第1圖所示，各過渡本身連結機率值（〇至1 間）。離開任何態的全部機率和等於1。供說明用，一範例過渡機率值集合列舉於過渡機率表12。須瞭解於具體實施例中’此等值係由訓練資料產生’但規定離開任何態之全部機率和等於1。每次進行過渡’該模式可視為發射或輸出字母中之— 員。第1圖所示具體例中，可假定基於一音素的語音單位。如此輸出機率表14識別符號對應於標準英文所見的若干音素。字母中之何者於每次過渡時發射隨訓練期習得之輸出機率值或函數決定。如此輸出表示一觀察順序（基於訓練資料），字母中之各成員具有某種發射機率。於模式化語音時，常見實務係以連續向量處理輸出而非以分立字母符號順序處理輸出。要求輸出機率表示為連續機率函數而非單一數值。如此HMM常係基於機率函數包含一或多個高斯分布。當使用複數高斯函數時典型共同本紙張尺度適用中國國家標準（CNS)A4規格（210x297公釐） - -- - - - ---- - Ί - ----* ---II - II f請先閱讀背面之注意事項再填寫本頁) 11 經濟部智慧財產局員工消費合作社印製

AT — --------- -- B7 五、發明說明（8 ) 加成混合而界定-複雜機率分布，如16說明。無論以單一高斯函數或高斯函數之混合形式表示，機率分布可以複數參數說明。類似過渡機率值（表⑵，此等輸出機率參數包含浮點數，參數㈣識別基於得自訓練說話者之觀資料典型用於表示機率密度函數（_之參數。如圊1方程式舉例說明，於高斯函數16，待模式化的向量觀察值0之機率密度函數為各混合成分的混合係數乘以高斯密度N之迭代和，此處高斯密度具有平均向量〜及^ 差矩陣U〆系由構想（cepstrai)或濾波存庫係數語音參數^ 而得。 ' 隱藏式馬可夫模式辨識器的執行細節依用途不同可有寬廣變化。第1囷所示HMM之例僅供說明如何建構隱藏式馬可夫模式，而非意圖囿限本發明之範圍^就此方面而言 ’隱藏式馬可夫模式構想可有多種變化。由後文說明將完整瞭解’本發明之特徵聲音適應技術方便調整適應以各種不同隱藏式馬可夫模式變化工作，以及用於基於其它參數的語音模式化系統。聲音空問建構特徵空間來表示複數訓練說話者的過程舉例說明於第2圖。說明中假設τ個訓練說話者2〇提供建構特徵空間的訓練資料22本體。較佳有合理大量說話者（約！ 0〇至2〇〇) 提供訓練資料。然後訓練資料用於如24說明訓練說話者相依（SD)模式„於步驟24對每個說話者建構一模式，各個模式，代表辨識系統須瞭解的完整聲音單位存庫，.' 根攄如上第 w请&度遇用*關家標準(CNS;A4規格（2!〇>297公发：褒--------訂-------- (請先閱讀背面之注意事項再填寫本頁)

經濟部智慧財產局員工消費合作社印製五、發明說明（9 ) 1圖之說明，各模式有一HMM集合，各聲音單位有一個 HMM。於第2圖說明於26。當訓練集合表示準確說話者相依模式時可得優異結果。但若有所需，說話者相依模式可使用輔助適應技術提升。此種技術包括最大A後估計（MAP)及其它基於轉換辦法，例如最大可能性線性回歸（MLLR)=此種選擇性輔助適應處理舉例說明於第2圖之27。藉此方式提升說話者相依模式於建構大詞彙用途時為特佳，此處對指定說話者每個春數之訓練資料量可極低。於Τ個說話者的訓練資料皆已用於訓練個別說話者相依模式後，於28建構一集合Τ個監控向量《如此對丁位說話者個別有一個監控向量30»各說話者的監控向量包含對應該說話者之隱藏式馬可夫模式至少部分參數18的有序參數表單（典型為浮點數）。對應聲音單位之參數含括於特定說話者的監控向量。參數可以任何方便順序組織。該順序並無特殊限制；但一旦採用某種順序則對全部τ位說辞者皆須遵循該順序。有序隱藏式馬可夫模式參數連鎖並置形成監控向量。監控向量將含括何種ΗΜΜ參數的選擇係取決於可利用的處理次幂。發明人發現由高斯平均建構監控向量可獲得'良好結果。若可取得較大處理次幂，則監控向量也可含括其它ΗΜΜ參數例如過渡機率（表12，第丨圖）或協方差矩陣參气（參數18，第1圖）。當然若隱藏式馬可夫模式產生分立輸出（與機率密度相反）’則此等輸出值可用於包含監控向本紙張又度剌中國國家標準（CNS)A4規格（210 497公笼） --Ϊ It -----111 ------訂· I I I I I (請先閱讀背面之注意事項再填寫本頁) 13 A? B7 經濟部智慧財產局員工消費合作社印製五、發明說明（量於對各訓練說話者已經建構監控向量後，於步驟32進行維度缩減。維度縮減係藉將高維度空間映射至低雉度空間執行。多種不同技術可用以執行維度縮減。包秸主要成分分析（PCA)，線性甄別分析（LDA)，因數分析（FA)，獨立成分分析（ICA)，單一值分解（SVD)及其它可應用基於方差縮減標準的轉換。特別可用於執行本發明之維度縮減技術類別定義如後。考慮s吾音辨識用之得自說話者相依模式之一組T個訓練監控向量集合。設各監控向量具有維度v;則將每個監控向量表7F為X=[xl，X2，…，xV]AT(一個v<<1向量考慮線性轉換Μ可應用至監控向量（亦即應用至維度v的任何向量) 獲得任何新的維度E向量（E係小於或等於τ，τ為訓練監控向量數目）；各個轉換後的向量標示為W=[wl，W2, wE] T。Μ參數值係以某種方式由丁個訓練監控向量集合計算而得。如此發明人具有線性轉換W = M*X。“具有維度e*v 及w具有維度…，此處Ε^τ;對—組了個訓練監控向量集合而言Μ為常數。若干維度縮減技術可用於由一組丁個訓練監控向量集合算出線性轉換Μ、範例包括主成分分析，獨立成分分析，線性㈣分析，因數分析及單值分解。本發 4 w T U任一種此類方法f而 4僅酬方法)執行而找出特例之常數線性轉換M，此 ,輸入向量為衍生自說話者相依模式之訓練監控及参·紙張尺度適用中_國家標灌 d!VS)A4 規格 --------------裝--------訂------線 (請先閱讀背面之注意事項再填寫本頁) 14 45275 經濟部智慧財產局員工消費合作社印製 Α7 Β7 五、發明說明（11) 此處Μ用以進行前述技術。對τ個監控向量進行維度縮減獲得τ特徵向量，如於34 。如此若使用120位訓練說話者之系統將產生12〇個特徵向量。此等特徵向量定義發明人所謂的特徵聲音空間或特徵 k空間。組成特徵聲音空間的特徵向量含有不同資訊；各自表示可區別不同說話者的—個不同維。原先訓練集合的各個監控向量可表示為特徵向量線性組合β特徵向量係以其於模式化資料的重要性排序：第一特徵向量比第二者重要，第二者又比第三者重要等等。發明人使用此種技術實驗顯示第一特徵向量顯然係對應於男性_女性維度。雖然於步驟32產生最大Τ個特徵向量，但實際上可拋棄其中數個特徵向量僅保持最前Ν個特徵向量。如此於步驟36 ’發明人選擇性提取出τ個特徵向量中之ν個而於38 構成較少參數之特徵空間。可拋棄較高階特徵向量，原因為其典型含有甄別各說話者較不重要的資訊。將特徵聲音空間減少至少於訓練說話者總數，獲得相干性資料壓縮，其有助於使用有限記憶體及處理器資源來建構實用系統。執行通應一旦已經建構特徵聲音空間，則容易完成說話者規格化，說話者適應或環境適應。雖然建構特徵聲音略微運算密集且典型係離線進行，但調整適應是一種比較簡單的運算作業可於新說話者使用系統中進行。參照第3圖，新說話者40的語音用於步驟42訓練說話者相依模式建構ημμ 本紙張尺度適用中國國家標準（CNS)A4規格（210x297公釐> — — — — —----I---· Ί I I I I I 訂· I — 11 — — — - I I J 1 (請先閱讀背面之注意事項再填寫本頁) 15

經濟部智慧財產局員Η消費合作社印製五、發明說明（12) 集合44(各聲音單位有一個HMMp說話者相依模式可以監控模訓練，此處訓練系統事先已知訓練語音内容：或說話者相依模式可以未監控模訓練，此處語音辨識系統使用說話者獨立模式來決定適應語音内容。對新說話者受訓的說話者相依模式通常辨識能力相當不足，至少最初係不足。但雖言如此，模式可用於建構監控向量。監控向量於步驟46建構，使監控向量（間控向量48) 約束限於落入先前由訓練說話者形成的特徵聲音空間38 ^ jbl控向量48係以所加諸的約束建構，故用於辨識的hmm 模式須為包含特徵聲音空間38之特徵聲音線性組合。說話者相依模式44用來估計構成新說話者適應模式之係數線性集合。如此於步驟5〇，基於監控向量48建構新的 HMM集合來產生適應模式52。若有所需’可於54進行選擇性迭代處理來由適應模式52建構新的監控向量，隨後建構另一HMM集合，由其中可建構又一適應模式。第4圖以二維空間舉例說明新說話者語音模式約束於特徵空間3 8内部的處理過程。如前述，特徵空間為一種多維空間其階數等於透過維度縮減產生的特徵向量數目。第4圖僅說明二維俾簡化說明，但須瞭解特徵空間38 典型具有比二更高階。新說話者以資料點60圖解顯示。資料點6〇對應第3圖所不監控向量48。注意於60之新說話者係在特徵空間38外側=如前文討論‘適應程序涉及找出特徵空間的一點其代表新說話者的良好適應模式，適應模式係基於新說話者輸 —--^-nir—I—^mf —,"丨··· 卜巧張尺度適网由國國家標準（CNS)A l規格（210 >. ?9Γ^Γ)^ —~*--- ---------------------訂--------- <請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製發明說明（I3) 入語音，但也侷限於特徵空間3 8 β 一種將新說話者置於特徵空間的簡單技術係使用線62 明之簡單投射作業。投射作業找出特徵空間内部僅可能最接近特徵空間外側對應新說話者輸入語音之一點的該點。如此單純投射可將於點64的新說話者置於特徵空間38内部。發現此等點實際皆為監控向量，由此等監控向量可建構一 ΗΜΜ集合。投射作業為比較粗略技術，無法保證特徵空間内部該點對新說話者為最適當。此外，投射作業要求新說話者監控向量含有表示該說話者整個ΗΜΜ集合的完整資料集合。此種要求產生顯然實用限制。當使用投射侷限一新說話者於特徵空間時’該說話者須供給足量輸入語音，故全部語音單位皆呈現於資料。例如若隱藏式馬可夫模式設計成表不英文語言中的全部音素’則訓練說話者於使用簡單投射技術之前必須供給全部音素例。於許多應用方面此項限制不合實際。最大可能性牯糌聲音分解（MLED)枯电本發明之最大可能性技術可解決兩項前述簡單投射缺點。本發明之最大可能性技術找出特徵空間38内部之一點 66,該點表示對應隱藏式馬可夫模式集合中具有新說話者供給語音最大機率的監控向量。供舉例說明目的，最大可能性處理於第4圖以線68舉例說明。而單純投射作業將全部監控向量成員視為重要性相等，最大可能性技術係基於來自實際適應資料的機率’如此本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐> I n n n n «_1 I I 一 t kt n- n 1· ,d---- <請先閱讀背*之注意事項再填寫本頁) 17 經濟部智慧財產局員工消費合作社印製新量 A7 B7 五、發明說明（u) 將資訊含量較大的資料加權較重。不似單純投射技術，即使新說話者未供應完整訓練資料集合（亦即不含某些聲音單位的資料）最大可能性技術仍可良好工作。實際上’最大可能性技術考慮建構監控向量的内容，亦即得自涉及機率的隱藏式馬可夫模式，某些模式比其它模式更可能產生新說话者供給的輸入語音。就實用效果而言，最大可能性技術將選擇特徵空間内部的監控向量，該監控向量最符合新說話者的輸入語音’ 而與實際可利用的輸入語音量多寡無關。供舉例說明之用，假設新說話者為年輕阿拉巴馬州女性居民。當接收到該說=說出的少數音節時，最大可能性技術選擇特徵空間 ..其表示全σ卩符合該說話者特有的阿拉巴馬州女性口音的全部音素（即使尚未呈現於輸入語音）。第5圖顯示最大可能性技術的工作方式。得自新說話者的輸入語音用於建構監控向量7〇。如前文說明，監控向量包含-對應構想係數等的語音參數連鎖並置表單。於說明例中，此等參數為浮點數，表示提取自隱藏式馬可夫模式集合而對應新說話者的高斯平均。其它ημμ參數也有中’Η_平均一點表示，例如72。當以資料完控向量％含有各ΗΜΜ平均之浮點數，對應立素：式表示的各個聲音單位。供說明目的，此處假設 s，、a之參數存在，但什，iy “之參數^存在。 :徵空間38由特徵向量74,76及78集合表示。對應 …心貧料的監控向量70於特徵空間可將各特徵向規楮（.2卟f ΪΗ I--. --- I ---—II I I ·11111 J - I (請先閱讀背面之注意事項再填寫本頁)

經濟部智慧財產局員工消費合作杜印製五、發明說明（15) 乘以對應特徵值表示，標示為Wi，W2 ... Wn。特徵值最初未知。最大可能性技術對未知的特徵值找出其數值。容後詳述’此等數值係經由尋找最佳表示特徵空間内部新說話者的最適當解而選定。特徵值乘以特徵空間38的對應特徵向量且將所得乘積加總後’產生適應模式80。雖然輸入語音之監控向量（監控向量70)可能遺失某些參數值（例如“iy”參數）但表示調整適應模式的監控向董80可以該等值完整導出。此乃本發明之一大效益。此外監控向量80之值表示最適當解，換言之於特徵空間具有代表該新說話者的最大可能性。各特徵值W!，W2…Wn可視為包含一最大可能性向量’此處稱作最大可能性向量。第5圏圖解說明向量於82 。如圖顯示’最大可能性向量82包含特徵值集合识,，W2… Wn〇使用最大可能性技術執行調整適應程序顯示於第6圓。得自新說話者的語音包含觀察資料用來建構一HMM集合，如於100所示。然後該HMM集合102用於建構一監控向量’示於104。如舉例說明，監控向量丨06包含提取自hmm 模式102之HMM參數之連鎖並置表單。使用監控向量106，於1〇8建構機率函數Q。本較佳具體例採用一種機率函數，其表示對預先界定的HMM模式集合102產生觀察資料的機率。若該函數不僅包含機率項 P，同時也包含該項演算法l〇g p，則隨後機率函數Q的操縱變得更為容易。本紙張尺度適用中國國家標準（CNS>A4規格（210 X 297公楚） 19 ^ I I ϊ —-Γ ailltlItt^A f 1 酵 — ^ I I ·1111 — _ ^^^ (請先閱讀背面之注意ί項再填寫本頁★ A7 A7 化 λ 五、發明說明（16) 然後機率函數經由取相對於各特徵值n w的機率函料數而於㈣UQ最大化。例如若特徵空間且"有維度1⑽’則此系統計算機率函數⑽⑽個導數集合個別至零，並對各個w求解，雖然似乎為大量運算，但比較習知MAP或MLLR技術所須執行的數千次典型運算遠較少。如此所#Ws集合表示識別特徵空間對應最大可能性點之該點所需特徵值。如此Ws集合包含特徵空間之一最大可能性向量。就此方面而言，各特徵向量(第5圖特徵向 S74，76及78)定義正交向量或座標集合，特徵值乘以該等向量或座標而定義侷限於特徵空間内部—點。最大可能性向量於112表示用以建構對應特*空間最適當點（第頓點66)之監控向量114。然後監控向量114於步驟116用以建構新說話者的適應模式118。本發明之最大可能性架構内容中，發明人希望對模式 A之觀察值0-〇】 ·，.〇Τ的可能性最大化。可藉迭代最大輔助函數Q(參見下文進行），此處久為目前迭代模式，Λ 為估計模式。獲得： -------------. -------訂--------- {請先閱讀背面之泫意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 Q(入= [p(o，e|?〇i〇g Ρ(〇，θ 丨λ) 至於初步近似估計，發明人希望僅就該平均作最大化 :當機率Ρ以ΗΜΜ集合提供時，獲得此處： Q( λ.λ const — 20 4 52 75 ' A7 ______B7___ 五、發明說明（l7) h(〇,,m，s) = (〇t -pm(s))TCm<s>-l(〇( -μ^)) 且設： ---------I---裝. 1 (請先Μ讀背面之注意事項再填寫本頁) 〇t 為於時間t之特徵向量

Cm(xH 為態s混合高斯m之方差倒數 Λβ(χ) 為態s，混合成分m之適應平均估值 7 m(x)(t) 為P(使用混合高斯m/λ ,ot) 假設新說話者HMM之高斯平均係位在特徵空間。設此空間由平均監控向量ί j跨據，而j=l...E， Ι"μι(Ι)α) I r^i(，)(j) - *μ„ωω iMS)<sl)(j). 此處β m(X)⑴表示於監控向量（特徵模式)j之態中混合高斯m之平均向量。則需： μ = Σ^^ί 經濟部智慧財產局員工消費合作社印製 Η /ij為正交，Wj為發明人說話者模式之特徵值。此處假定新說話者可模式化為說話者觀察之資料庫的線性組合 °則 21 本紙張尺度遶用中國國家標準（CNS)A4規格<210 Χ 297公釐） Α7 Β7 〇, :1…E. 五、發明說明（18) 其中S為；ί之態，m為Μ之混合高斯由於需將Q最大化，故僅須設定

SQ dw^ (注意因特徵向量為正交故i9_=0，) dwe 如此獲得 S'-^SJS·

m5)(t)h(ors)},e = l...E. 計算前述導數獲得： s m t m tS)-1〇.+tw^mU)T(j)Cm(sMim，s>(e) . > 由此找出線性方程式集合 S ttt t jsl 翌·整徵空間找到說_M者模式後之輔肋摘廄前述特徵聲音適應技術對新說話者開發出適應模式。若有所需此模式可使用輔助適應技術進一步改良來進一步精製適應模式。適當輔助適應技術包括最大A後估計（MAp) 及基於轉換辦法例如最大可能性線性回歸。至今為止發明人於實驗發現經常最佳結果係經由首先應用 MLED技術然後應用舉例說明之輔助適應技術之一獲得。特徵聲音技術嘗試估計特徵聲音空間的新說話者位置但除非新說話者亦為訓練說話者’否則新說話者不可能恰位於此-f空間。若新說話者接近特徵聲音空間的估計位 -------------裝.----- -- 訂--------- {請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員Η消費合作社印" -22 ·· 8 5275

五、發明說明（19 經濟部智慧財產局員工消費合作社印製置則特徵聲音技術效果良好，但實際並非經常如此。如此單獨使用特徵聲音技術無法獲得新說話者的「真正」模式特徵聲音技術無法表示新說話者的獨特現象（換言之未見於訓練說話者）。特徵聲音技術之優點為快速提供新說話者的合理估計模式。匕方面，MAP及其它基於轉換辦法如MLLR相當可找出新說活者的「真正」模式；但若始於說話者獨立模式（尋常辦法）則緩慢才達到該目的^ MLED或若干其它特徵聲音技術，接著為輔助處理例如MAp或其它基於轉換辦法如MLLR可獲得最佳結果：快速對新說話者估計合理良好模式’接著收歛至「真正」模式。 1_用維度縮減至藉拖拓P半基於轉換之輔助適應技術如MLLR也提供維度縮減原料°此種情況下’特徵聲音適應係對維度縮減的轉換矩陣進行’而非對維度縮減的模式參數進行。至目前為止提供的實例中，說話者模式用於建構監控向量’然後監控向量之維度縮減產生特徵空間《根據本發明之一方面之替代技術中，訓練說話者資料係透過轉換過程處理’所得轉換矩陣隨後用來產生特徵空間. 供舉例說明之用參照第7圖，其中丁位說話者於130供給訓練資料132，然後訓練資料由基於轉換之適應技術如 MLLR運算來估計轉換矩陣，每個說話者有一矩陣，如示於134。如此產生轉換矩陣％集合，每一個說話者有一個矩陣’如136舉例說明。轉換矩陣應用於表示各說話者的本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 23 -------------裳， ---I ---訂---------線 (請先閱讀背面之注意事項再填寫本頁) A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（20) 說話者模式137。然後轉換矩陣集合用於步驟138建構T個監控向量14G 。監控向量可以類似先前實例說話者模式參數連鎖並置方式，藉由連鎖並置轉換矩陣參數建構。然後於步驟142進行維度縮減，獲得T個「特徵轉換」向量之特徵空間144 。若有所需，該處理可選擇性提取出T個特徵轉換子 ’如示於146。獲得Ν個特徵轉換之特徵空間148。為了快速適應新說話者，系統假定新說話者的適當轉換Wi係位在特徵轉換跨據的子空間。系統使用單純投射或其它技術例如前述MLED技術估計特徵轉換的適當線性組合。如此對新說話者獲得一特徵轉換向量，隨後方便應用於說話者獨立模式俾便獲得新說話者的適應模式。空間内部使用拜蕓新仕重f 藉維度縮減處理後之得自訓練說話者的資料界定特徵空間之馬特斯（metes)及邊界。典型訓練說話者本身未均句分布於特徵空間=反而有機率分布，特徵空間的某一區 ~密度稀疏而其它區密度稍密。只要機率分布係來自於訓練祝話者’如此為訓練後已知，則拜葉新估計可優異地用於特徵空間。拜葉新估計考慮先前機率分布（以訓練說話者的機率分布）及新說話者的資料規祭值。正式假定說話者模式λ之先前機率分布gU )。針新對新說活者獲得觀察值Ο 、拜葉新估計嘗試找出可使如下關係式最大化的又： L(0/ λ )*g( λ } 換言之發明人使用先前已知(由訓練說話者推 ------------- | '语必度遇甲由®國家標.Λ. 規格 -----—--訂·-------- <請先閱讀背面之注ΐ事項再填寫本頁) 24 1 52 75 8 A7 ___ 五、發明說明（21 ) 說話者空間何區較緊密或較稀疏來精製估值，亦即新說話者於該空間所在位置的λ「帽」： Λλ 。如此拜葉新估計涉及攙混先前機率分布與新觀察得之資料，此處對新估值尋求最大機率。有多種不同方式可於特徵聲音空間進行拜葉新估計。以下呈現若干方式，但此項討論絕非限制性。 —種技術使用前述MLED技術估計特徵聲音空間的新說話者’此處w為如下方程式定義之特徵空間的權值向量 -------------裝-「 <請先閱讀背面之注意事項再填寫本頁) w L(0 |λ)*Α + τΙ xv + L(0 |X)*b 訂 λ 上式中’ Aw=b為解除獲得MLED估值的方程式 3為新說話者模式的初估值（例如說話者獨立模式），v為得自先前對數第一導數之向量，及Γ為時間因數。時問因數r雖著時間的經過模式化說話者的變異度，時間越長則特定特徵維度改變越大，於該維度之先前值需加上較大加權< 經濟部智慧財產局員工消費合作社印製及第另一種結合先前值及進行拜葉新估計於特徵聲音空間之方式係使用此種資料投射於低維度特徵空間，來估計高維度資料之高斯密度。若x為由ω類別所得觀察向量， Ε為經由選擇對得自ω之訓練資料進行維度縮減導出的一Κ特徵向量獲得的特徵空間，則獲得如下方程式： Λ Ρ(χ I Ω) = ΡΕ(χ I Ω)*ρ-(χ I Ω) 本紙張足度適用中國國家標準（CNS>A4現格（210 κ 297公爱） 25 A7 A7 經濟部智慧財產局消費合杜印 Μ 五、發明說明（22 ) 上式中特徵空間£之單-高斯密度以下項表示： ρε(χ/Ω) 雙重空間亦即特徵聲音办布以下項表示：I』的正父空間之單-高斯分 Ρε(χ I Ω) 二項可僅個投㈣為Ε及餘數，” 量集合佑計。外β料向考慮先前值之單純近似方式係假定各個特徵維度袓略獨立。然後各維度破劃分為少數叢集，各叢集有單— 輸出分布及先前機率（由訓練說話者計算而得）。則適^ 及基於新❹相觀察值，於各維輯擇最可能的〔此種辦法相當可用於訓練資料之可信度高，而新料之可信度遠較低之案例。々貝另外，訓練a兑洁者可結集成為特徵聲音空間的有限數目輸出分布’各有一個先前機率。則適應係經配新觀察值嶋組成。此項技術對先前資資料加更大加權。 ^圖於射歧音”的基本拜葉辛估計技 ^ 8圖，訓練㈣產生模式i，舉例說明於⑼。此寻模式對應特徵空間152。此等模式於特徵空間之分布不均勾，有些緊密區及有些分布稀疏區… 圖形式圖解說明。此等模式λ具有機率分布圖解說明於丨54 '亦由機牟函數g( λ )說明於1 56。新說話者⑽提供觀察資料〔），圖解顯示於⑹機率 MK t 綱 φ 關雜.¾ i:cxs)77ilJ· (^ίί- :?97 ： --------------裝--------訂------VI-線 (請先閱讀背面之注意事項再填寫本頁} 26 4 52 7b A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（23) 分布156及觀察〇於拜葉新方程式164相乘，乘積用來尋找新說話者可使拜葉新方程式164最大化的模式λ。注意方程式164包含第一項其係與提供模式λ參數之觀察〇機率有關；及第二項係與原先訓練資料機率分布有關。如此第一項表示新說話者，而第二項表示先前資料D 環境洎鹿雖然至目前為止以說話者適應技術描述本發明，但該技術也方便擴展至環境適應。許多語音辨識系統對環境條件相當敏感’例如麥克風位置，室内聲音，背景雜音以及音頻信號頻道品質。特徵向量恰如同用於模式化不同說話者般，也可用於模式化不同說話環境β 大多數例中，希望配合說話者適應及環境適應兩種需求。為達此項目的，單純須確保訓練說話者係於寬廣多變的環境記錄。為了獲得良好性能，訓練說話者數目及保有特徵聲音數目必須大於於安靜環境之特徵聲音適應所需β 其它方面之處理程序係如前述。為了建構適應環境而非適應說話者的說話者獨立系統 ’可使用前述技術之略微修改技術。首先訓練Ε個說話者獨立模式，此處Ε為訓練資料之不同環境數目。各該ε模式對同一環境内的許多說話者受訓。理想上Ε個不同記錄環境應儘可能多樣化。然後如述術進行特徵聲音處理程序。此種情況下，特徵聲音向量表示各環境間之變異。如此第一特徵向量可能非如說話者適應例般，可能或可能非表示男女維度。本紙張尺度適用中國國家標準（CNS)A4規格（210x297公釐） 27 -----------—ί裝* V------訂！---線 ί請先閱讀背面之注意事項再填寫本頁} 經濟部智慧財產局員工消費合作社印製 A7 B7_____ 五、發明說明（24) _呈現特徵聲音技術摘| 本發明之特徵聲音適應技術可於多種不同方面探勘。可單獨或合併其它適應技術使用。第9圖摘述特徵聲音適應技術之若干可能用途與實務。參照第9圖，訓練說話者2〇〇提供用來產生說話者模式2〇4之初集合的模式建構者2〇2。於此點採行若干不同辦法。如206之舉例說明，對說話者模式2〇4可執行維度縮減來產生特徵空間208。另外說話者模式204可使用輔助適應處理21〇精製而產生經過精製或提升的模式212集合.如前示，輔助適應處理可執行MAP估計或其它基於轉換的辦法wMLLR。然後維度縮減206應用於經過提升的模式，獲得基於訓練說話者200之提升模式之一特徵空間2〇8。新說后者例如新g兒活者2 14的適應係藉適應過程2 16執仃，適應過程藉前述任一種技術將新說話者置於特徵空間 208 =較佳具體例使用最大可能性技術mled來將新說話者置於特徵空間。如前文討論，特徵空間内部之各向量係對應於一說話者模式。如此將新說話者214置於特徵空間可獲得特徵空間之向1： ’代表新說話者之適應模 <。第9圖巾適應模式示於21 8。若有所需，新說話者214置於特徵空間内部可藉拜葉新估二增進，如220戶斤示。拜葉新估計使用對訓練說話者· 之先❹識有.關說話者空間之何區分布緊密或分布稀 '园國家標单（CNS)Al規格 ^-----I-----------^ <請先閱讀背面之注意事項再填寫本頁) 28 45275 , Α7 Β7 經濟部智慧財產局員工消費合作社印製五、發明說明（25) 此項知識用來精製將新說話者置於空間何處的估值。於產生適應模式218後，可進行輔助適應處理222產生更為精製的適應模式，說明於224。輔助適應處理222採用 MAP估計或若干基於轉形辦法如MLLR。使用辅助適應處理222結合適應處理216獲得雙重優點：適應處理216快速到達適應模式對新說話者的估值；適應處理222精製該估值而找出最佳適應模式。至目前為止本摘要討論維度縮減步驟須對說話者模式 204執行。回憶維度縮減處理涉及使用適當模式參數例如隱藏式馬可夫模式參數對各訓練說話者形成一連鎖並置監控向量。但維度縮減非僅限於說話者模式。維度縮減也可應用使用其它說話者適應技術如210所示之輔助適應處理產生的轉換矩陣。如此，第9圖也說明維度縮減技術之替代用途。輔助適應處理210產生轉換矩陣作為運算副產品。轉換矩陣於第9圖說明於226。例如輔助適應處理210可為基於轉換運算如MLLR，其由說話者獨立（SI)模式產生一轉換矩陣集合Wi。然後各訓練說話者之轉換矩陣集合被向量化，例如藉連鎖並置向量化獲得高維監控向量。然後於228進行維度縮減獲得對應一「特徵轉換」向量集合的特徵空間230 〇為了適應新說話者例如說話者232，適應處理234假定新說話者的適當轉換％係位在特徵轉換跨據的子空間（特徵空間230)。例如已經使用MLED方法估計特徵轉換的適本紙張尺度適用中國國家標準（CNS)A4規格（210 x 297公釐） 29 -------------I , Ί I III— ·11111111 --I I (請先閱讀背面之注意事項再填寫本頁) A； ______B7______ 五、發明說明（26) 當線性組合，然後系統應用所得轉換％至說話者獨立模式 '獲得新說話者的適應模式236。重新參考第9圖，記住第9圖摘述本說明書它處使用的多種不同特徵聲音適應技術。如此第9圖之說明意圖僅顯示此等技術於上下文之用途。根據本發明之特定實務可使用部分但非全部此處說明之方法。此外第9圖絕非限制性。如隨附之申請專利範圍涵蓋之本發明範圍也包括多種其它組合。雖然已經就本較佳具體例摇述本發明，但須瞭解本發明可配合適應用於多種不同用途。如此先前實例僅供教示本發明之構想而絕非囿限本發明之範圍。 -------------裳--------訂-------ί線 <請先Ϊ3讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作，社印製 30 本紙張由囤國家標准（CN^規格（2】0 ,ϋΓΤϊ 45276 A7

五、發明說明（27) 元件標號對照經濟部智慧財產局員工消費合作杜印製 10，..隱藏式馬可夫模式 64-6…點 12·，·過渡機率表 68..·線 14__·輸出機率表 70…監控向量 16’**高斯函數 72…隱藏式馬可夫模式裝置 18·.·參數表 74-8…特徵向董 20··.訓練說話者 8〇…適應模式 22·..訓練資料 100...最大可能性向量 24·8.·.步驟 1〇2…隱藏式馬可夫模式 30.·.監控向量 104-6··.監控向量 32.，.步驟 10 8…機率函數 34··.特徵向量 110…步驟 36·..步驟 112..·最大可能性向量 3 8 · ·特徵聲音空間 114…監控向量 4〇…新說話者 116...步驟 42…步驟 118…適應模式 44…說話者相依模式 130…訓練說話者 46...步雜 132…訓練資料 48…監控向量 134-6...步驟 50.··步驟 137…說话者相依模式 52...適應模式 138...步驟 54...迭代處理 140…訓練監控向量 60...資料點 142...步驟 -----------裝.·------訂---------線 (請先閱讀背面之沒意事項再填寫本頁) 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 31 經濟部智慧財產局員Η消費合作社印製 A7 ___B7 五、發明說明（28) 62...線 144…特徵空間 146...步驟 210…輔助適應處理 148...特徵空間 212...提升模式 150...模式 λ 214…新說話者 152...特徵空間 216...適應處理 154...機率分布 218...精製適應模式 156...機率函數 220…拜葉新估計 160...新說話者 222...輔助適應處理 162...步騾 224...精製適應模式 164...拜葉新方程式 226...過渡矩陣 200…訓練說話者 228...維度縮減 202...模式建構者 230…特徵向量 204…說話者相依模式 2 3 2...說話者 206...維度縮減 2 3 4...適應處理 208...特徵向量 236...適應模式 -------------^4 --------訂 *-------- (請先閱讀背面之注意事項再填寫本頁) .：Μ氏張尺度適用巾國S家標虚（CNS)A·!規格GW，公髮： 32

Claims

A8 B8 C8 D8 六、申請專利範圍 L 一種執行說話者適應或規格化之方法，該方法包含下列步驟： -----*--·--艮 — , .. (請先閲讀背面之注意事項再填寫本頁) 建構一特徵空間來表示複數訓練說話者，建構方式係對該訓練說話者提供一模式集合，以及對該模式集合執行維度縮減而產生定義該特徵空間之基本向量集合；產生一適應模式，使用得自一新說話者的輸入語音訓練該適應模式，同時使用該基本向量集合約束適應模式，因而適應後之模式係於該特徵空間内部。 2.如申請專利範圍第丨項之方法，其甲該維度縮減係經由連鎖並置提取自該模式集合之複數模式參數，以及經由對該等模式參數執行線性轉換進行。 3·如申請專利範圍第1項之方法，其中該維度縮減係藉選自下列組群之一種轉換方法進行包含：主要成分分析，線性甄別分析，因數分析，獨立成分分析及單值分線經濟部智慧財產局員工消費合作社印製 4·如申清專利範圍第1項之方法，其中該等訓練說話者模式定義複數模式參數，及建構特徵空間步驟包含連鎖並置複數訓練說話者模式參數而建構一監控向量集合，以及對該等監控向量進行線行維度縮減轉換，因而產生基本向量。 5.如申請專利範圍第4項之方法，其中各該訓練說話者之才莫式係對應於一不同語音單位集合，及其中各監控向量係對應於以預定順序篩選之語音單位之模式參數連

τ 經濟部智慧財/1局員工消費合作社印製 A8 Β8ce D8 申請專利範圍鎖並置。 6. 如申請專利範圍第4項之方法，其中該等模式參數為構想（cepstral)係數。 7. 如申請專利範圍萆1項之方法’其申該執行維度縮減步騍產生一基本向量集合而其數目係等於訓練說話者數目D 8. 如申請專利範圍第丨項之方法，其中該執行維度縮減步雜產生有序基本向量表單，及其中該建構一特徵空間之步驟包括拋棄該有序表單之預定部分來減少特徵空間之階數。 9. 如申請專利範"圍第1項之方法，其中該約束說話者相依模式之步鄉係藉投射輸入語音於特徵空間進行β 10· 一種執行說話者適應或規格化之方法，該方法包含下列步驟：建構一特徵空間來表示複數訓練說話者，建構方式係對該訓練說話者提供一模式集合，以及對該模式集合執行維度縮減而產生定義該特徵空間之基本向量集合；產生一適應模式，使用得自新說話者的輸入語音找出定義該適應模式之特徵空間之最大可能性向量，故適應模式位於該特徵空間内部。 11如申請專利範圍㈣項之m中該產生—最大可能性向量之步驟包含：定義—機率函數.表示對預定模式集合產生覲察 1---------1-__ (請先W讀背面之注意事項再填寫本頁) *-° 線 34 4 5275 Α8 Β6 C8 D8 經濟部智慧財產局員工消費合作社印製六、申請專利範圍資料機率’其中該輸入語音供給觀察資料；以及將機率函數最大化來找出最大可能性向量。 12’如申請專利範圍第10項之方法，其中該適應模式係經由最大可能性向量係數乘以基本向量而由最大可能性向量導出。 13. 如申請專利範圍第12項之方法，其中該最大化步驟之執行方式為：將最大可能性向量以特徵值變數集合表示；就該特徵值變數取機率函數之第一導數；以及當第一導數等於0時，解出特徵變數之對應值。 14. 一種執行說話者適應或規格化之方法，包含下列步驟：將複數訓練說話者以一說話者模式集合表示，該等模式定義複數參數；藉由調整該模式之至少部分參數定義一經過提升的說話者模式集合來提升該說話者模式；建構一特徵空間來表示複數訓練說者，建構方式係經由對該提升模式集合進行維度縮減而產生定義該特徵空間之一基本向量集合；產生一適應模式，使用得自新說話者之輸入語音訓練該適應模式，同時使用基本向量集合來約束適應模式，使適應模式位於特徵空間内部。 15. 如申請專利範圍第14項之方法，其中該提升步驟係使用最大後估計進行。 16. 如申請專利範圍第14項之方法’其中該提升步驟係使本紙張尺度適用中困國家標準（CNS ) Α4洗格（210Χ297公簸） I ^--------裝—-----訂-----—線 (請先Μ讀背面之注意事項再填寫本頁) 35 ABCD 經濟部智慧財£局員工消費合作社印製六、申請專利範圍用基於轉換之估計處理進行D 1 7.如申請專利範圍第14項之方法，其中該提升步驟係使用最大可能性線性回歸估計進行。 18. 如申請專利範圍第14項之方法，其中該產生適應模式之步驟包含使用得自新說話者的輸入語音產生一最大可能性向量且訓練該適應祺式，同時使用該基本向量集合及最大可能性向量來約束適應模式，使適應模式位於該特徵空間内部。 19. 一種執行說話者適應或規格化之方法，該方法包含下列步錄： - 建構一特徵空間來表示複數訓練說話者，建構方式係對該訓練說話者提供一模式集合，以及對該模式集合執行維度縮減而產生定義該特徵空間之基本向量集合：產生一適應模式，使用得自一新說話者的輸入語音訓練該適應模式，同時使用該基本向量集合約束適應模式，因而適應後之模式係於該特徵空間内部；以及提升該適應模式，係經由由適應模式提取模式參數，且基於得自新說話者之輸入語音調整其中至少若干參數。 … 20. 如申請專利範圍第19項之方法，其中該提升步驟係使用最大後估計進行。 21如申請專利範圍第19項之方法其中該提升步驟係使 (請先閲讀背面之注意事項再填寫本頁) ---裝. 訂線 36 2 ό 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 申請專利範圍用基於轉換之估計處理進行β A如申請專利範圍第19項之方法，其中該提升步驟係使用最大可能性線性回歸估計進行。如申4專利範圍第19項之方法，其中該產生適應模式之步驟包含使用得自新說話者的輸入語音產生一最大可能f生向量且訓練該適應模式’同時使用該基本向量集合及最大可能性向量來約束適應模式，使適應模式位於該特徵空間内部。 24. 如申請專利範圍第23項之方法，用最大後估計進行》 25. 如申請專利範圍第23項之方法，用基於轉換之估計處理進行。 26. 如申請專利範圍第23項之方法，用最大可能性線性$歸估計進行 27-種執行說話者適應或規格化之方法，包含下列步驟表示複數訓練說話者作為轉換矩陣第一集合連一模式’對該模式應用轉換矩陣；建構一特徵空間來表示複數訓練說話者，係經對第一轉換矩陣集合進行維度縮減而差r生定義該特徵空間之一基本向量集合；使用得自新說話者的輸入語音同時使用基本向量集合產生一轉換矩陣第二集合，而約束轉換矩陣第二集合使第二集合係位於特徵空間内部。 28.如申請專利範圍第27項之方法’其中該提升步驟係使其中該提升步驟係使其中該提升步驟係使其中該提升步驟係使同由 I . ,--^1 {請先閱讀背面之注意事項再填寫本頁) 訂線本紙張尺度逍用中®國家揉準（CNS ) Μ規格（21〇χ297公董） 37 A8 B8 C8 D8 申請專利範圍請 I 先I 聞 I 讀背I 面 | 之1 I j 事I 項ί 再填f 本〒頁用最大可能性線性回歸估計進行d 29.如申請專利範圍第27項之方法，其進_步包含向量化各該第一轉換矩陣集合而界定一監控向量集合，以及對該等監控向量進行維度縮減來定義特徵空間。 3〇.如申請專利範圍第27項之方法，其進一步包含使用得自新說話者之輸入語音產±第二轉換矩陣集合因而^ 生一最大可能性向量Μ吏用該最大可能性向量來決定於特徵空間内部位置。 31.—種執行說話者適應或規格化之方法，該方法包含下列步驟：訂建構一特徵空間來表示複數訓練說話者，建構方式係對該訓練說話者提供一模式集合，以及對該模式集合執行維度縮減而產生定義該特徵空間之基本向量集合；產生一適應模式，使用得自一新說話者的輸入語音訓練該適應模式，同時使用該基本向量集合約束適應模式，因而適應後之模式係於該特徵空間内部，經濟部智1財d局員工消費合作社印製其中忒第一模式界定一第一機率分布’及該輸入語音定義觀察資料’其中該適應模式之產生可使觀察資料與第一機率分布的乘積最大化。 3 2.如申請專利範圍第3 1項之方法，其進一步包含應用一可杬度因數至第一機率分布及第二機率分布來反映出分布提供之資訊可信度如何隨時間的經過而改變。本紙張尺度適用中國圃家標準（CNS ) A4^格（2i〇x297公釐 38