TW452758B - Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques - Google Patents

Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques Download PDF

Info

Publication number
TW452758B
TW452758B TW088115209A TW88115209A TW452758B TW 452758 B TW452758 B TW 452758B TW 088115209 A TW088115209 A TW 088115209A TW 88115209 A TW88115209 A TW 88115209A TW 452758 B TW452758 B TW 452758B
Authority
TW
Taiwan
Prior art keywords
speaker
feature space
adaptation
vector
mode
Prior art date
Application number
TW088115209A
Other languages
English (en)
Inventor
Roland Kuhn
Patrick Nguyen
Jean-Claude Jungqua
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Application granted granted Critical
Publication of TW452758B publication Critical patent/TW452758B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Stereophonic System (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

4 52 75 :) Α7
五、發明說明(i ) jg關申請案之交叉來考 (請先間讀背面之注意事項再填寫本頁) 本案為美國專利申請案第09/070,208號名稱「基於特 徵聲音之說話者與環境適應」及美國專利申請案笫 7〇’〇54號名稱「於特徵聲音空間找出適應說話者模式之最 大可能性方法」之部分連續案β 發明皆景及概怵 — 概略而言本發明係關於語音辨織,特別係關於說話者 適應,藉此語音辨識模式之參數經修改而更加可辨識新說 話者的語音。 语曰辨識系統可為說話者相依性或說話者獨立性。說 話者相依系統經過受訓例如給予大量該個體發出的字詞( 於本例稱作「訓練資料」)而瞭解該個體的話意。說話者 相依系統對其被受訓的個體極為準確但對其它人則否。說 話者獨立系統设計成可由任何使用該應用程式語言的個趙 使用:典型係接受許多人的資料訓練。說話者獨立系統對 非於訓練資料中個體進行辨識時,錯誤率約為可婉美的說 話者相依系統對其受訓說話者進行辨識時錯誤率之2至3倍 〇 經濟部智慧財產局員工消費合作社印數 嘗試改良性能,多種語音辨識系統包括進行說話者適 應性的設施’如此語音辨識系統可於使用中調整而降低錯 誤率。基本上有三種說話者適應辦法述於目前技術參考文 獻。包括: (1)說話者規格化(也稱作「轉換」)一新說話者之特徵 向量產生的數位化信號觀察值被轉換而更為類似參考說話 本紙張尺度遶用中國囤家標準(CNS)A4規格(210 β 297公釐) 經濟部智慧財產局員工消費合作社印絮 A7 B7 五、發明說明(2 ) 者的觀察值’說話者相依系統係對該參考說話者受訓。某 些•情況下轉換為反向*參考樣式轉成極為近似新說話者資 料。 (2) 說話者叢集--新說話者觀察值用來選擇訓練說話者 叢集;各叢集關聯一完整隱藏式馬可夫(Mark〇v)模式 (HMMs)集合,該模式僅對本叢集之說話者訓練。一旦選 用不適合說話者的叢集’則僅使用得自此叢集的進 行辨識。 (3) 模式適應性--某些HMM參數經更新而反應適應資 料之各方面。兩大最普及的模式適應技術為最大後估計 (MAP)及最大可能線性迴歸(MLLR)。 雖然各適應技術證實皆有益,但皆有若干缺點。一般 而言,較有效的適應技術需要較有意義的運算資源,同時 也需對各說話者作大量訓練努力。 本發明帶來一種全新技術,使用該技術進行珲踔壹專 度化及說話者與環境適應。該技術可使最初為說話者獨立 的辨識系統快速對新說話者及新聲音環境達到一種性能水 平趨近於說話者相依系統,而無需大量各個新說話者訓練 資料。發明人將此種技術稱作「特徵聲音適應」。發明人 發現特徵聲音適應可應用於多個不同方面如後文透過若干 特定實例舉例說明。 通常特徵聲音適應包括維度縮減,其可大為改良說每 者與環境適應時的速度及效率。維度縮減稱作高維度空間 映射至低維度空間:可使用多鞴不門姑俗水& J尺用夕樘不同技術來執行維度縮減 ---------^--------- (請先閱讀背面之江意事項再填寫本!)
52 52 經濟部智慧財產局員工消費合作社印Μ Α7 Β7 五、發明說明(3 ) 。包括主要成分分析(PCA),線性甄別因數分析(Lda), 因數分析(FA),單數數值分解(SVD)及其·它可應用基於方 差縮減標準的轉變。 不似參考文獻使用的其它適應技術,發明人之特徵聲 音適應技術應用維度縮減至完整說話者模式集合俾便找出 跨據說話者模式空間之基本向量β舉例言之,一個大型說 話者模式集合於離線步驟使用維度縮減分析獲得特徵向量 集合,發明人稱作「特徵聲音向量」或「特徵聲音」。離 線步驟相當運算密集,但僅須進行一次。隨後每次使用該 語音辨識系統時對得自新說話者的適應性資料進行運算廉 價作業,來獲得特徵聲音跨據空間之一向量。此新向量獲 知新说話者的適應模式。 本發明之部分效果係來自於辨識系統適應的訓練說話 者與新個別說話者集合之特徵聲音表示式。換言之於維度 縮減步驟期間發展出的特徵空間代表全部訓練說話者之集 合語音軌跡。界定η維空間之個別特徵向量各自含有不同 資訊’例如可表示成有序表單或陣列成員。 使用本發明之運算負荷大減,原因在於特徵向量為正 交,許可隨後運算藉由解除計算機可相當容易計算的線性 方程式集合而進行。 將新說話者置於特徵空間可藉由多種不同方式達成。 雖然單純幾何投射可用來將新說話者置於特徵空間,但發 明人開發一種改良技術,發明人將其稱作最大可能性特徵 语音分解(MLED)用以將新向量置於特徵聲音跨據空間内 I *裝· ·------訂---------線 (請先閲讀背面之注意事項再填寫本頁)
經濟部智慧財產局員工消贄合作社印知衣 A7 -------B7_____ __ 五、發明說明(4 ) 部。最大可能性技術涉及基於新說話者之觀察資料,同時 也基於隱藏式馬可夫模式如何建構的知識’建構一機率函 數。使用此機率函數,藉由導出以及找到局部最大值獲得 最大可能性向量。如此最大可能性向量由相干性侷限於特 徵聲音跨據的空間内部’且為新說話者獲得可利用的輸入 語音資料空間内部的良好代表。 發明人之特徵聲音適應技術於使用良好準確說話者相 依模式集合作為維度縮減基準時,獲得優異結果。因此根 據本發明之一方面可使用輔助適應技術於維度縮減之前獲 知且提升說話者相依模式。此種技術包括最大值A後估計 (MAP)及其它基於轉換的技術例如最大可能性線性迴歸 (MLLR)。 根據本發明之另一方面,特徵聲音適應技術被應用於 開發一種初適應模式,隨後此模式使用輔助適應技術例如 前述者進一步改良。經常藉由首先應用MLED技術然後應 用輔助適應技術之一可得最佳結果。 至目前為止討論的特徵聲音適應技術涉及維度縮減應 用於訓練說話者集合。本發明之又另—方面涉及應用維度 縮減至轉換矩陣集合,該矩陣係來自於基於轉換適應技術 例如MLLR。此種辦法中,各訓練說話者用於由說話者獨 立模式(例如使用MLLR)估計一組轉換矩陣集合。各訓練 說話者之轉換矩陣集合隨後被向量化(轉成高維度監控向 量)。維度縮減技術隨後應用於監控向量集合,獲得發明 、稱作-特徵轉換向量..或,特徵轉換的低維度特徵向 ---------訂--------- (請先Μ讀背面之注惠事項再填寫本頁) A7 --B7 五、發明說明(5 ) 量集合》 為了快速適應新的說話者,系統假定新說話者的轉換 矩陣係位在特徵轉換跨據的小空間,隨後應用該轉換至說 話者獨立模式。 維度縮減跳至特徵空間獲得顯著彈性及運算經濟性。 例如發明人發現統計處理技術可應用於低維度特徵空間。 因此根據本發明之另一方面,統計方法例如拜葉新估計可 於特徵空間進行作為定位新說話者位於空間何處的較佳方 式。先前知識(例如得自訓練說話者)有關說話者空間何區 較為緻密或較為稀疏,用來進一步確定新說話者於特徵空 間所在位置的估值。 就實用上言之,此處所述特徵聲音適應技術許可基於 極短且可能不完全的訓練課程而許可建構強勁適應模式β 此等技術使其適用於無法取得大量適應資料的說話者與環 境適應用途。例如該技術於語音致能互動行銷系統效果良 好,於該處新說話者藉電話對系統遨遊急速作響應,系統 隨著說話者遨遊通過系統下定單而自動適應新的說話者" 為求更明白瞭解本發明,本發明之目的及優點可參照 後文說明書及附圖。 圃犬之簡單說明 第1圖說明可用於瞭解本發明之隱藏式馬可夫模式 (ΗΜΜ)範例; 第2圖為資料流程圓說明如何由複數訓練說話者建構 特徵空間; 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (猜先閱讀背面之注意If項再填寫本頁> 裝- — — — — — * - ----II---I I . 經濟部智慧財產局員工消費合作社印髮 A7 經濟部智慧財產局員工消費合作社印製 五、發明說明(6 ) 第3圊為資料流程圖說明如何使用根據本發明之特徵 聲音建構適應模式: 第4圖為特徵空間之簡化(二度空間)說明圖,且比較 投射作業與本發明之MLED最大可能性作業; 第5圖為資料結構圖說明根據本發明得自新說話者的 觀察資料如何經由特徵空間轉成適應模式; 第6圖為流程圖說明本發明之最大可能性特徵空間適 應過程; 第7圖為資料流程圖說明基於轉換矩陣界定特徵空間 之維度縮減方法; 第8圖為圖解方塊圖可用於瞭解拜葉新估計技術;以 及 第9圖為資料流程圖摘述說明書中使用之多種特徵聲 音適應技術。 ϋ具體例之銳afi 為求更明白瞭解本發明之說話者適應技術,對語音辨 識系統有基本瞭解將有幫助。大半今日的語音辨識器係採 用隱藏式馬可夫模式(HMM)來表示語音。隱藏式馬可夫 模式為—種涉及狀態圖之模式化辦法t任何語音單.位(例 如句 '字、小字、音素等)可使用該模式含括的全部知識 源模式化。HMM表示-種未知過程,可於分立間隔產生 察的輸出結果·輸出為若干有限字母成員(對應於語 :早位之預先界定集合)。料模式稱作「隱藏式,原因 為產生可觀察輸出之狀態順序未知之故 -------------裝--------訂--------- (請先閱讀背面之注意事項再填寫本頁)
經濟部智慧財產局員工消費合作社印製 如第1圈所示,HMM 10以一組狀態集合說明(srs2...s5) ’該等向量界定某些成對狀態間的過渡,如第1圖箭號說 明及一組機率資料集合。特別隱藏式馬可夫模式包括一過 渡向量關聯過渡機率12集合,及於各態觀察得輸出關聯的 輸出機率14集合。模式以規則分開的分立間隔時間由一態 循序轉成另一態。於時脈時間,模式可由目前態轉成過渡 向量可能存在的任一態。如所示,過渡可由指定態返回其 本身。 過渡機率表示當模式被定時時由一態過渡至另一態的 可能性。如此如第1圖所示,各過渡本身連結機率值(〇至1 間)。離開任何態的全部機率和等於1。供說明用,一範例 過渡機率值集合列舉於過渡機率表12。須瞭解於具體實施 例中’此等值係由訓練資料產生’但規定離開任何態之全 部機率和等於1。 每次進行過渡’該模式可視為發射或輸出字母中之— 員。第1圖所示具體例中,可假定基於一音素的語音單位 。如此輸出機率表14識別符號對應於標準英文所見的若干 音素。字母中之何者於每次過渡時發射隨訓練期習得之輸 出機率值或函數決定。如此輸出表示一觀察順序(基於訓 練資料),字母中之各成員具有某種發射機率。 於模式化語音時,常見實務係以連續向量處理輸出而 非以分立字母符號順序處理輸出。要求輸出機率表示為連 續機率函數而非單一數值。如此HMM常係基於機率函數 包含一或多個高斯分布。當使用複數高斯函數時典型共同 本紙張尺度適用中國國家標準(CNS)A4規格(210x297公釐) - -- - - - ---- - Ί - ----* ---II - II f請先閱讀背面之注意事項再填寫本頁) 11 經濟部智慧財產局員工消費合作社印製
AT — --------- -- B7 五、發明說明(8 ) 加成混合而界定-複雜機率分布,如16說明。 無論以單一高斯函數或高斯函數之混合形式表示,機 率分布可以複數參數說明。類似過渡機率值(表⑵,此等 輸出機率參數包含浮點數,參數㈣識別基於得自訓練說 話者之觀資料典型用於表示機率密度函數(_之參數。 如圊1方程式舉例說明,於高斯函數16,待模式化的向量 觀察值0之機率密度函數為各混合成分的混合係數乘以高 斯密度N之迭代和,此處高斯密度具有平均向量〜及^ 差矩陣U〆系由構想(cepstrai)或濾波存庫係數語音參數^ 而得。 ' 隱藏式馬可夫模式辨識器的執行細節依用途不同可有 寬廣變化。第1囷所示HMM之例僅供說明如何建構隱藏式 馬可夫模式,而非意圖囿限本發明之範圍^就此方面而言 ’隱藏式馬可夫模式構想可有多種變化。由後文說明將完 整瞭解’本發明之特徵聲音適應技術方便調整適應以各種 不同隱藏式馬可夫模式變化工作,以及用於基於其它參數 的語音模式化系統。 聲音空問 建構特徵空間來表示複數訓練說話者的過程舉例說明 於第2圖。說明中假設τ個訓練說話者2〇提供建構特徵空 間的訓練資料22本體。較佳有合理大量說話者(約! 0〇至2〇〇) 提供訓練資料。然後訓練資料用於如24說明訓練說話者相 依(SD)模式„於步驟24對每個說話者建構一模式,各個模 式,代表辨識系統須瞭解的完整聲音單位存庫,.' 根攄如上第 w请&度遇用*關家標準(CNS;A4規格(2!〇>297公发: 褒--------訂-------- (請先閱讀背面之注意事項再填寫本頁)
經濟部智慧財產局員工消費合作社印製 五、發明說明(9 ) 1圖之說明,各模式有一HMM集合,各聲音單位有一個 HMM。於第2圖說明於26。 當訓練集合表示準確說話者相依模式時可得優異結果 。但若有所需,說話者相依模式可使用輔助適應技術提升 。此種技術包括最大A後估計(MAP)及其它基於轉換辦法 ,例如最大可能性線性回歸(MLLR)=此種選擇性輔助適 應處理舉例說明於第2圖之27。藉此方式提升說話者相依 模式於建構大詞彙用途時為特佳,此處對指定說話者每個 春數之訓練資料量可極低。 於Τ個說話者的訓練資料皆已用於訓練個別說話者相 依模式後,於28建構一集合Τ個監控向量《如此對丁位說 話者個別有一個監控向量30»各說話者的監控向量包含對 應該說話者之隱藏式馬可夫模式至少部分參數18的有序參 數表單(典型為浮點數)。對應聲音單位之參數含括於特定 說話者的監控向量。參數可以任何方便順序組織。該順序 並無特殊限制;但一旦採用某種順序則對全部τ位說辞者 皆須遵循該順序。 有序隱藏式馬可夫模式參數連鎖並置形成監控向量。 監控向量將含括何種ΗΜΜ參數的選擇係取決於可利用的 處理次幂。發明人發現由高斯平均建構監控向量可獲得'良 好結果。若可取得較大處理次幂,則監控向量也可含括其 它ΗΜΜ參數例如過渡機率(表12,第丨圖)或協方差矩陣參 气(參數18,第1圖)。當然若隱藏式馬可夫模式產生分立 輸出(與機率密度相反)’則此等輸出值可用於包含監控向 本紙張又度剌中國國家標準(CNS)A4規格(210 497公笼) --Ϊ It -----111 ------訂· I I I I I (請先閱讀背面之注意事項再填寫本頁) 13 A? B7 經濟部智慧財產局員工消費合作社印製 五、發明說明( 量 於對各訓練說話者已經建構監控向量後,於步驟32進 行維度缩減。維度縮減係藉將高維度空間映射至低雉度空 間執行。多種不同技術可用以執行維度縮減。包秸主要成 分分析(PCA),線性甄別分析(LDA),因數分析(FA),獨 立成分分析(ICA),單一值分解(SVD)及其它可應用基於 方差縮減標準的轉換。 特別可用於執行本發明之維度縮減技術類別定義如後 。考慮s吾音辨識用之得自說話者相依模式之一組T個訓練 監控向量集合。設各監控向量具有維度v;則將每個監控 向量表7F為X=[xl,X2,…,xV]AT(一個v<<1向量考慮線 性轉換Μ可應用至監控向量(亦即應用至維度v的任何向量) 獲得任何新的維度E向量(E係小於或等於τ,τ為訓練監控 向量數目);各個轉換後的向量標示為W=[wl,W2, wE] T。Μ參數值係以某種方式由丁個訓練監控向量集合 計算而得。 如此發明人具有線性轉換W = M*X。“具有維度e*v 及w具有維度…,此處Ε^τ;對—組了個訓練監控向量 集合而言Μ為常數。若干維度縮減技術可用於由一組丁個 訓練監控向量集合算出線性轉換Μ、 範例包括主成分分析,獨立成分分析,線性㈣分析 ,因數分析及單值分解。本發 4 w T U任一種此類方法f而 4僅酬方法)執行而找出特例之常數線性轉換M,此 ,輸入向量為衍生自說話者相依模式之訓練監控及 参·紙張尺度適用中_國家標灌 d!VS)A4 規格 --------------裝--------訂------線 (請先閱讀背面之注意事項再填寫本頁) 14 45275 經濟部智慧財產局員工消費合作社印製 Α7 Β7 五、發明說明(11) 此處Μ用以進行前述技術。 對τ個監控向量進行維度縮減獲得τ特徵向量,如於34 。如此若使用120位訓練說話者之系統將產生12〇個特徵向 量。此等特徵向量定義發明人所謂的特徵聲音空間或特徵 k空間。 組成特徵聲音空間的特徵向量含有不同資訊;各自表 示可區別不同說話者的—個不同維。原先訓練集合的各個 監控向量可表示為特徵向量線性組合β特徵向量係以其於 模式化資料的重要性排序:第一特徵向量比第二者重要, 第二者又比第三者重要等等。發明人使用此種技術實驗顯 示第一特徵向量顯然係對應於男性_女性維度。 雖然於步驟32產生最大Τ個特徵向量,但實際上可拋 棄其中數個特徵向量僅保持最前Ν個特徵向量。如此於步 驟36 ’發明人選擇性提取出τ個特徵向量中之ν個而於38 構成較少參數之特徵空間。可拋棄較高階特徵向量,原因 為其典型含有甄別各說話者較不重要的資訊。將特徵聲音 空間減少至少於訓練說話者總數,獲得相干性資料壓縮, 其有助於使用有限記憶體及處理器資源來建構實用系統。 執行通應 一旦已經建構特徵聲音空間,則容易完成說話者規格 化,說話者適應或環境適應。雖然建構特徵聲音略微運算 密集且典型係離線進行,但調整適應是一種比較簡單的運 算作業可於新說話者使用系統中進行。參照第3圖,新說 話者40的語音用於步驟42訓練說話者相依模式建構ημμ 本紙張尺度適用中國國家標準(CNS)A4規格(210x297公釐> — — — — —----I---· Ί I I I I I 訂· I — 11 — — — - I I J 1 (請先閱讀背面之注意事項再填寫本頁) 15
經濟部智慧財產局員Η消費合作社印製 五、發明說明(12) 集合44(各聲音單位有一個HMMp說話者相依模式可以 監控模訓練,此處訓練系統事先已知訓練語音内容:或說 話者相依模式可以未監控模訓練,此處語音辨識系統使用 說話者獨立模式來決定適應語音内容。 對新說話者受訓的說話者相依模式通常辨識能力相當 不足,至少最初係不足。但雖言如此,模式可用於建構監 控向量。監控向量於步驟46建構,使監控向量(間控向量48) 約束限於落入先前由訓練說話者形成的特徵聲音空間38 ^ jbl控向量48係以所加諸的約束建構,故用於辨識的hmm 模式須為包含特徵聲音空間38之特徵聲音線性組合。 說話者相依模式44用來估計構成新說話者適應模式之 係數線性集合。如此於步驟5〇,基於監控向量48建構新的 HMM集合來產生適應模式52。若有所需’可於54進行選 擇性迭代處理來由適應模式52建構新的監控向量,隨後建 構另一HMM集合,由其中可建構又一適應模式。 第4圖以二維空間舉例說明新說話者語音模式約束於 特徵空間3 8内部的處理過程。如前述,特徵空間為一種多 維空間其階數等於透過維度縮減產生的特徵向量數目。 第4圖僅說明二維俾簡化說明,但須瞭解特徵空間38 典型具有比二更高階。 新說話者以資料點60圖解顯示。資料點6〇對應第3圖 所不監控向量48。注意於60之新說話者係在特徵空間38外 側=如前文討論‘適應程序涉及找出特徵空間的一點其代 表新說話者的良好適應模式,適應模式係基於新說話者輸 —--^-nir—I—^mf —,"丨··· 卜巧張尺度適网由國國家標準(CNS)A l規格(210 >. ?9Γ^Γ)^ —~*--- ---------------------訂--------- <請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 發明說明(I3) 入語音,但也侷限於特徵空間3 8 β 一種將新說話者置於特徵空間的簡單技術係使用線62 明之簡單投射作業。投射作業找出特徵空間内部僅可能 最接近特徵空間外側對應新說話者輸入語音之一點的該點 。如此單純投射可將於點64的新說話者置於特徵空間38内 部。發現此等點實際皆為監控向量,由此等監控向量可建 構一 ΗΜΜ集合。 投射作業為比較粗略技術,無法保證特徵空間内部該 點對新說話者為最適當。此外,投射作業要求新說話者監 控向量含有表示該說話者整個ΗΜΜ集合的完整資料集合 。此種要求產生顯然實用限制。當使用投射侷限一新說話 者於特徵空間時’該說話者須供給足量輸入語音,故全部 語音單位皆呈現於資料。例如若隱藏式馬可夫模式設計成 表不英文語言中的全部音素’則訓練說話者於使用簡單投 射技術之前必須供給全部音素例。於許多應用方面此項限 制不合實際。 最大可能性牯糌聲音分解(MLED)枯电 本發明之最大可能性技術可解決兩項前述簡單投射缺 點。本發明之最大可能性技術找出特徵空間38内部之一點 66,該點表示對應隱藏式馬可夫模式集合中具有新說話者 供給語音最大機率的監控向量。供舉例說明目的,最大可 能性處理於第4圖以線68舉例說明。 而單純投射作業將全部監控向量成員視為重要性相等 ,最大可能性技術係基於來自實際適應資料的機率’如此 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐> I n n n n «_1 I I 一 t kt n- n 1· ,d---- <請先閱讀背*之注意事項再填寫本頁) 17 經濟部智慧財產局員工消費合作社印製 新 量 A7 B7 五、發明說明(u) 將資訊含量較大的資料加權較重。不似單純投射技術,即 使新說話者未供應完整訓練資料集合(亦即不含某些聲音 單位的資料)最大可能性技術仍可良好工作。實際上’最 大可能性技術考慮建構監控向量的内容,亦即得自涉及機 率的隱藏式馬可夫模式,某些模式比其它模式更可能產生 新說话者供給的輸入語音。 就實用效果而言,最大可能性技術將選擇特徵空間内 部的監控向量,該監控向量最符合新說話者的輸入語音’ 而與實際可利用的輸入語音量多寡無關。供舉例說明之用 ,假設新說話者為年輕阿拉巴馬州女性居民。當接收到該 說=說出的少數音節時,最大可能性技術選擇特徵空間 ..其表示全σ卩符合該說話者特有的阿拉巴馬州女性 口音的全部音素(即使尚未呈現於輸入語音)。 第5圖顯示最大可能性技術的工作方式。得自新說話 者的輸入語音用於建構監控向量7〇。如前文說明,監控向 量包含-對應構想係數等的語音參數連鎖並置表單。於說 明例中,此等參數為浮點數,表示提取自隱藏式馬可夫模 式集合而對應新說話者的高斯平均。其它ημμ參數也有 中’Η_平均一點表示,例如72。當以資料完 控向量%含有各ΗΜΜ平均之浮點數,對應 立素:式表示的各個聲音單位。供說明目的,此處假設 s,、a之參數存在,但什,iy “之參數^存在。 :徵空間38由特徵向量74,76及78集合表示。對應 …心貧料的監控向量70於特徵空間可將各特徵向 規楮(.2卟f ΪΗ I--. --- I ---—II I I ·11111 J - I (請先閱讀背面之注意事項再填寫本頁)
經濟部智慧財產局員工消費合作杜印製 五、發明說明(15) 乘以對應特徵值表示,標示為Wi,W2 ... Wn。特徵值最 初未知。最大可能性技術對未知的特徵值找出其數值。容 後詳述’此等數值係經由尋找最佳表示特徵空間内部新說 話者的最適當解而選定。 特徵值乘以特徵空間38的對應特徵向量且將所得乘積 加總後’產生適應模式80。雖然輸入語音之監控向量(監 控向量70)可能遺失某些參數值(例如“iy”參數)但表示調整 適應模式的監控向董80可以該等值完整導出。此乃本發明 之一大效益。此外監控向量80之值表示最適當解,換言之 於特徵空間具有代表該新說話者的最大可能性。 各特徵值W!,W2…Wn可視為包含一最大可能性向 量’此處稱作最大可能性向量。第5圏圖解說明向量於82 。如圖顯示’最大可能性向量82包含特徵值集合识,,W2… Wn〇 使用最大可能性技術執行調整適應程序顯示於第6圓 。得自新說話者的語音包含觀察資料用來建構一HMM集 合,如於100所示。然後該HMM集合102用於建構一監控 向量’示於104。如舉例說明,監控向量丨06包含提取自hmm 模式102之HMM參數之連鎖並置表單。 使用監控向量106,於1〇8建構機率函數Q。本較佳具 體例採用一種機率函數,其表示對預先界定的HMM模式 集合102產生觀察資料的機率。若該函數不僅包含機率項 P,同時也包含該項演算法l〇g p,則隨後機率函數Q的操 縱變得更為容易。 本紙張尺度適用中國國家標準(CNS>A4規格(210 X 297公楚) 19 ^ I I ϊ —-Γ ailltlItt^A f 1 酵 — ^ I I ·1111 — _ ^^^ (請先閱讀背面之注意ί項再填寫本頁★ A7 A7 化 λ 五、發明說明(16) 然後機率函數經由取相對於各特徵值n w的 機率函料數而於㈣UQ最大化。例如若特徵空間且"有 維度1⑽’則此系統計算機率函數⑽⑽個導數集合個別 至零,並對各個w求解,雖然似乎為大量運算,但比較習 知MAP或MLLR技術所須執行的數千次典型運算遠較少。 如此所#Ws集合表示識別特徵空間對應最大可能性 點之該點所需特徵值。如此Ws集合包含特徵空間之一最 大可能性向量。就此方面而言,各特徵向量(第5圖特徵向 S74,76及78)定義正交向量或座標集合,特徵值乘以該 等向量或座標而定義侷限於特徵空間内部—點。最大可能 性向量於112表示用以建構對應特*空間最適當點(第頓 點66)之監控向量114。然後監控向量114於步驟116用以建 構新說話者的適應模式118。 本發明之最大可能性架構内容中,發明人希望對模式 A之觀察值0-〇】 ·,.〇Τ的可能性最大化。可藉迭代最大 輔助函數Q(參見下文進行),此處久為目前迭代模式,Λ 為估計模式。獲得: -------------. -------訂--------- {請先閱讀背面之泫意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 Q(入= [p(o,e|?〇i〇g Ρ(〇,θ 丨λ) 至於初步近似估計,發明人希望僅就該平均作最大化 :當機率Ρ以ΗΜΜ集合提供時,獲得 此處: Q( λ.λ const — 20 4 52 75 ' A7 ______B7___ 五、發明說明(l7) h(〇,,m,s) = (〇t -pm(s))TCm<s>-l(〇( -μ^)) 且設: ---------I---裝. 1 (請先Μ讀背面之注意事項再填寫本頁) 〇t 為於時間t之特徵向量
Cm(xH 為態s混合高斯m之方差倒數 Λβ(χ) 為態s,混合成分m之適應平均估值 7 m(x)(t) 為P(使用混合高斯m/λ ,ot) 假設新說話者HMM之高斯平均係位在特徵空間。設 此空間由平均監控向量ί j跨據,而j=l...E, Ι"μι(Ι)α) I r^i(,)(j) - *μ„ωω iMS)<sl)(j). 此處β m(X)⑴表示於監控向量(特徵模式)j之態中混合 高斯m之平均向量。 則需: μ = Σ^^ί 經濟部智慧財產局員工消費合作社印製 Η /ij為正交,Wj為發明人說話者模式之特徵值。此處 假定新說話者可模式化為說話者觀察之資料庫的線性組合 °則 21 本紙張尺度遶用中國國家標準(CNS)A4規格<210 Χ 297公釐) Α7 Β7 〇, :1…E. 五、發明說明(18) 其中S為;ί之態,m為Μ之混合高斯 由於需將Q最大化,故僅須設定
SQ dw^ (注意因特徵向量為正交故i9_=0,) dwe 如此獲得 S'-^SJS·
m5)(t)h(ors)},e = l...E. 計算前述導數獲得: s m t m tS)-1〇.+tw^mU)T(j)Cm(sMim,s>(e) . > 由此找出線性方程式集合 S ttt t jsl 翌·整徵空間找到說_M者模式後之輔肋摘廄 前述特徵聲音適應技術對新說話者開發出適應模式。 若有所需此模式可使用輔助適應技術進一步改良來進一步 精製適應模式。適當輔助適應技術包括最大A後估計(MAp) 及基於轉換辦法例如最大可能性線性回歸。至今 為止發明人於實驗發現經常最佳結果係經由首先應用 MLED技術然後應用舉例說明之輔助適應技術之一獲得。 特徵聲音技術嘗試估計特徵聲音空間的新說話者位置 但除非新說話者亦為訓練說話者’否則新說話者不可能 恰位於此-f空間。若新說話者接近特徵聲音空間的估計位 -------------裝.----- -- 訂--------- {請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員Η消費合作社印" -22 ·· 8 5275
五、發明說明(19 經濟部智慧財產局員工消費合作社印製 置則特徵聲音技術效果良好,但實際並非經常如此。如此 單獨使用特徵聲音技術無法獲得新說話者的「真正」模式 特徵聲音技術無法表示新說話者的獨特現象(換言之未 見於訓練說話者)。特徵聲音技術之優點為快速提供新說 話者的合理估計模式。 匕方面,MAP及其它基於轉換辦法如MLLR相當可找 出新說活者的「真正」模式;但若始於說話者獨立模式( 尋常辦法)則緩慢才達到該目的^ MLED或若干其它特徵 聲音技術,接著為輔助處理例如MAp或其它基於轉換辦 法如MLLR可獲得最佳結果:快速對新說話者估計合理良 好模式’接著收歛至「真正」模式。 1_用維度縮減至藉拖拓P半 基於轉換之輔助適應技術如MLLR也提供維度縮減原 料°此種情況下’特徵聲音適應係對維度縮減的轉換矩陣 進行’而非對維度縮減的模式參數進行。 至目前為止提供的實例中,說話者模式用於建構監控 向量’然後監控向量之維度縮減產生特徵空間《根據本發 明之一方面之替代技術中,訓練說話者資料係透過轉換過 程處理’所得轉換矩陣隨後用來產生特徵空間. 供舉例說明之用參照第7圖,其中丁位說話者於130供 給訓練資料132,然後訓練資料由基於轉換之適應技術如 MLLR運算來估計轉換矩陣,每個說話者有一矩陣,如示 於134。如此產生轉換矩陣%集合,每一個說話者有一個 矩陣’如136舉例說明。轉換矩陣應用於表示各說話者的 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 23 -------------裳, ---I ---訂---------線 (請先閱讀背面之注意事項再填寫本頁) A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(20) 說話者模式137。 然後轉換矩陣集合用於步驟138建構T個監控向量14G 。監控向量可以類似先前實例說話者模式參數連鎖並置方 式,藉由連鎖並置轉換矩陣參數建構。然後於步驟142進 行維度縮減,獲得T個「特徵轉換」向量之特徵空間144 。若有所需,該處理可選擇性提取出T個特徵轉換子 ’如示於146。獲得Ν個特徵轉換之特徵空間148。 為了快速適應新說話者,系統假定新說話者的適當轉 換Wi係位在特徵轉換跨據的子空間。系統使用單純投射 或其它技術例如前述MLED技術估計特徵轉換的適當線性 組合。如此對新說話者獲得一特徵轉換向量,隨後方便應 用於說話者獨立模式俾便獲得新說話者的適應模式。 空間内部使用拜蕓新仕重f 藉維度縮減處理後之得自訓練說話者的資料界定特徵 空間之馬特斯(metes)及邊界。典型訓練說話者本身未均 句分布於特徵空間=反而有機率分布,特徵空間的某一區 ~密度稀疏而其它區密度稍密。只要機率分布係來自於訓練 祝話者’如此為訓練後已知,則拜葉新估計可優異地用於 特徵空間。拜葉新估計考慮先前機率分布(以訓練說話 者的機率分布)及新說話者的資料 規祭值。正式假定說話 者模式λ之先前機率分布gU )。針新 對新說活者獲得觀察值Ο 、拜葉新估計嘗試找出可使如下關係式最大化的又: L(0/ λ )*g( λ } 換言之發明人使用先前已知(由訓練說話者推 ------------- | '语必度遇甲由®國家標.Λ. 規格 -----—--訂·-------- <請先閱讀背面之注ΐ事項再填寫本頁) 24 1 52 75 8 A7 ___ 五、發明說明(21 ) 說話者空間何區較緊密或較稀疏來精製估值,亦即新說話 者於該空間所在位置的λ「帽」: Λλ 。如此拜葉新估計涉及攙混先前機率分布與新觀察得 之資料,此處對新估值尋求最大機率。 有多種不同方式可於特徵聲音空間進行拜葉新估計。 以下呈現若干方式,但此項討論絕非限制性。 —種技術使用前述MLED技術估計特徵聲音空間的新 說話者’此處w為如下方程式定義之特徵空間的權值向量 -------------裝-「 <請先閱讀背面之注意事項再填寫本頁) w L(0 |λ)*Α + τΙ xv + L(0 |X)*b 訂 λ 上式中’ Aw=b為解除獲得MLED估值的方程式 3為新說話者模式的初估值(例如說話者獨立模式),v為 得自先前對數第一導數之向量,及Γ為時間因數。時問因 數r雖著時間的經過模式化說話者的變異度,時間越長則 特定特徵維度改變越大,於該維度之先前值需加上較大加 權< 經濟部智慧財產局員工消費合作社印製 及 第 另一種結合先前值及進行拜葉新估計於特徵聲音空間 之方式係使用此種資料投射於低維度特徵空間,來估計高 維度資料之高斯密度。若x為由ω類別所得觀察向量, Ε為經由選擇對得自ω之訓練資料進行維度縮減導出的 一Κ特徵向量獲得的特徵空間,則獲得如下方程式: Λ Ρ(χ I Ω) = ΡΕ(χ I Ω)*ρ-(χ I Ω) 本紙張足度適用中國國家標準(CNS>A4現格(210 κ 297公爱) 25 A7 A7 經 濟 部 智 慧 財 產 局 消 費 合 杜 印 Μ 五、發明說明(22 ) 上式中特徵空間£之單-高斯密度以下項表示: ρε(χ/Ω) 雙重空間亦即特徵聲音办 布以下項表示:I』的正父空間之單-高斯分 Ρε(χ I Ω) 二項可僅個投㈣為Ε及餘數,” 量集合佑計。 外β料向 考慮先前值之單純近似方式係假定各個特徵維度袓略 獨立。然後各維度破劃分為少數叢集,各叢集有單— 輸出分布及先前機率(由訓練說話者計算而得)。則適^ 及基於新❹相觀察值,於各維輯擇最可能的〔 此種辦法相當可用於訓練資料之可信度高,而新 料之可信度遠較低之案例。 々貝 另外,訓練a兑洁者可結集成為特徵聲音空間的有限數 目輸出分布’各有一個先前機率。則適應係經 配新觀察值嶋組成。此項技術對先前資 資料加更大加權。 ^圖於射歧音”的基本拜葉辛估計技 ^ 8圖,訓練㈣產生模式i,舉例說明於⑼。 此寻模式對應特徵空間152。此等模式於特徵空間之分布 不均勾,有些緊密區及有些分布稀疏區… 圖形式圖解說明。此等模式λ具有機率分布圖解說明於丨54 '亦由機牟函數g( λ )說明於1 56。 新說話者⑽提供觀察資料〔),圖解顯示於⑹機率 MK t 綱 φ 關雜.¾ i:cxs)77ilJ· (^ίί- :?97 : --------------裝--------訂------VI-線 (請先閱讀背面之注意事項再填寫本頁} 26 4 52 7b A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(23) 分布156及觀察〇於拜葉新方程式164相乘,乘積用來尋找 新說話者可使拜葉新方程式164最大化的模式λ。注意方 程式164包含第一項其係與提供模式λ參數之觀察〇機率 有關;及第二項係與原先訓練資料機率分布有關。如此第 一項表示新說話者,而第二項表示先前資料D 環境洎鹿 雖然至目前為止以說話者適應技術描述本發明,但該 技術也方便擴展至環境適應。許多語音辨識系統對環境條 件相當敏感’例如麥克風位置,室内聲音,背景雜音以及 音頻信號頻道品質。特徵向量恰如同用於模式化不同說話 者般,也可用於模式化不同說話環境β 大多數例中,希望配合說話者適應及環境適應兩種需 求。為達此項目的,單純須確保訓練說話者係於寬廣多變 的環境記錄。為了獲得良好性能,訓練說話者數目及保有 特徵聲音數目必須大於於安靜環境之特徵聲音適應所需β 其它方面之處理程序係如前述。 為了建構適應環境而非適應說話者的說話者獨立系統 ’可使用前述技術之略微修改技術。首先訓練Ε個說話者 獨立模式,此處Ε為訓練資料之不同環境數目。各該ε模 式對同一環境内的許多說話者受訓。理想上Ε個不同記錄 環境應儘可能多樣化。然後如述術進行特徵聲音處理程序 。此種情況下,特徵聲音向量表示各環境間之變異。如此 第一特徵向量可能非如說話者適應例般,可能或可能非表 示男女維度。 本紙張尺度適用中國國家標準(CNS)A4規格(210x297公釐) 27 -----------—ί裝* V------訂!---線 ί請先閱讀背面之注意事項再填寫本頁} 經濟部智慧財產局員工消費合作社印製 A7 B7_____ 五、發明說明(24) _呈現特徵聲音技術摘| 本發明之特徵聲音適應技術可於多種不同方面探勘。 可單獨或合併其它適應技術使用。第9圖摘述特徵聲音適 應技術之若干可能用途與實務。參照第9圖,訓練說話者2〇〇 提供用來產生說話者模式2〇4之初集合的模式建構者2〇2。 於此點採行若干不同辦法。 如206之舉例說明,對說話者模式2〇4可執行維度縮減 來產生特徵空間208。 另外說話者模式204可使用輔助適應處理21〇精製而產 生經過精製或提升的模式212集合.如前示,輔助適應處 理可執行MAP估計或其它基於轉換的辦法wMLLR。然後 維度縮減206應用於經過提升的模式,獲得基於訓練說話 者200之提升模式之一特徵空間2〇8。 新說后者例如新g兒活者2 14的適應係藉適應過程2 16執 仃,適應過程藉前述任一種技術將新說話者置於特徵空間 208 =較佳具體例使用最大可能性技術mled來將新說話 者置於特徵空間。 如前文討論,特徵空間内部之各向量係對應於一說話 者模式。如此將新說話者214置於特徵空間可獲得特徵空 間之向1: ’代表新說話者之適應模 <。第9圖巾適應模式 示於21 8。 若有所需,新說話者214置於特徵空間内部可藉拜葉 新估二增進,如220戶斤示。拜葉新估計使用對訓練說話者· 之先❹識有.關說話者空間之何區分布緊密或分布稀 '园國家標单(CNS)Al規格 ^-----I-----------^ <請先閱讀背面之注意事項再填寫本頁) 28 45275 , Α7 Β7 經濟部智慧財產局員工消費合作社印製 五、發明說明(25) 此項知識用來精製將新說話者置於空間何處的估值。 於產生適應模式218後,可進行輔助適應處理222產生 更為精製的適應模式,說明於224。輔助適應處理222採用 MAP估計或若干基於轉形辦法如MLLR。使用辅助適應處 理222結合適應處理216獲得雙重優點:適應處理216快速 到達適應模式對新說話者的估值;適應處理222精製該估 值而找出最佳適應模式。 至目前為止本摘要討論維度縮減步驟須對說話者模式 204執行。回憶維度縮減處理涉及使用適當模式參數例如 隱藏式馬可夫模式參數對各訓練說話者形成一連鎖並置監 控向量。但維度縮減非僅限於說話者模式。維度縮減也可 應用使用其它說話者適應技術如210所示之輔助適應處理 產生的轉換矩陣。 如此,第9圖也說明維度縮減技術之替代用途。輔助 適應處理210產生轉換矩陣作為運算副產品。轉換矩陣於 第9圖說明於226。例如輔助適應處理210可為基於轉換運 算如MLLR,其由說話者獨立(SI)模式產生一轉換矩陣集 合Wi。然後各訓練說話者之轉換矩陣集合被向量化,例 如藉連鎖並置向量化獲得高維監控向量。然後於228進行 維度縮減獲得對應一「特徵轉換」向量集合的特徵空間230 〇 為了適應新說話者例如說話者232,適應處理234假定 新說話者的適當轉換%係位在特徵轉換跨據的子空間(特 徵空間230)。例如已經使用MLED方法估計特徵轉換的適 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公釐) 29 -------------I , Ί I III— ·11111111 --I I (請先閱讀背面之注意事項再填寫本頁) A; ______B7______ 五、發明說明(26) 當線性組合,然後系統應用所得轉換%至說話者獨立模 式 '獲得新說話者的適應模式236。 重新參考第9圖,記住第9圖摘述本說明書它處使用的 多種不同特徵聲音適應技術。如此第9圖之說明意圖僅顯 示此等技術於上下文之用途。根據本發明之特定實務可使 用部分但非全部此處說明之方法。此外第9圖絕非限制性 。如隨附之申請專利範圍涵蓋之本發明範圍也包括多種其 它組合。 雖然已經就本較佳具體例摇述本發明,但須瞭解本發 明可配合適應用於多種不同用途。如此先前實例僅供教示 本發明之構想而絕非囿限本發明之範圍。 -------------裳--------訂-------ί線 <請先Ϊ3讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作,社印製 30 本紙張由囤國家標准(CN^規格(2】0 ,ϋΓΤϊ 45276 A7
五、發明說明(27) 元件標號對照 經濟部智慧財產局員工消費合作杜印製 10,..隱藏式馬可夫模式 64-6…點 12·,·過渡機率表 68..·線 14__·輸出機率表 70…監控向量 16’**高斯函數 72…隱藏式馬可夫模式裝置 18·.·參數表 74-8…特徵向董 20··.訓練說話者 8〇…適應模式 22·..訓練資料 100...最大可能性向量 24·8.·.步驟 1〇2…隱藏式馬可夫模式 30.·.監控向量 104-6··.監控向量 32.,.步驟 10 8…機率函數 34··.特徵向量 110…步驟 36·..步驟 112..·最大可能性向量 3 8 · ·特徵聲音空間 114…監控向量 4〇…新說話者 116...步驟 42…步驟 118…適應模式 44…說話者相依模式 130…訓練說話者 46...步雜 132…訓練資料 48…監控向量 134-6...步驟 50.··步驟 137…說话者相依模式 52...適應模式 138...步驟 54...迭代處理 140…訓練監控向量 60...資料點 142...步驟 -----------裝.·------訂---------線 (請先閱讀背面之沒意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 31 經濟部智慧財產局員Η消費合作社印製 A7 ___B7 五、發明說明(28) 62...線 144…特徵空間 146...步驟 210…輔助適應處理 148...特徵空間 212...提升模式 150...模式 λ 214…新說話者 152...特徵空間 216...適應處理 154...機率分布 218...精製適應模式 156...機率函數 220…拜葉新估計 160...新說話者 222...輔助適應處理 162...步騾 224...精製適應模式 164...拜葉新方程式 226...過渡矩陣 200…訓練說話者 228...維度縮減 202...模式建構者 230…特徵向量 204…說話者相依模式 2 3 2...說話者 206...維度縮減 2 3 4...適應處理 208...特徵向量 236...適應模式 -------------^4 --------訂 *-------- (請先閱讀背面之注意事項再填寫本頁) .:Μ氏張尺度適用巾國S家標虚(CNS)A·!規格GW,公髮: 32

Claims (1)

  1. A8 B8 C8 D8 六、申請專利範圍 L 一種執行說話者適應或規格化之方法,該方法包含下 列步驟: -----*--·--艮 — , .. (請先閲讀背面之注意事項再填寫本頁) 建構一特徵空間來表示複數訓練說話者,建構方 式係對該訓練說話者提供一模式集合,以及對該模式 集合執行維度縮減而產生定義該特徵空間之基本向量 集合; 產生一適應模式,使用得自一新說話者的輸入語 音訓練該適應模式,同時使用該基本向量集合約束適 應模式,因而適應後之模式係於該特徵空間内部。 2.如申請專利範圍第丨項之方法,其甲該維度縮減係經由 連鎖並置提取自該模式集合之複數模式參數,以及經 由對該等模式參數執行線性轉換進行。 3·如申請專利範圍第1項之方法,其中該維度縮減係藉選 自下列組群之一種轉換方法進行包含:主要成分分析 ,線性甄別分析,因數分析,獨立成分分析及單值分 線 經濟部智慧財產局員工消費合作社印製 4·如申清專利範圍第1項之方法,其中該等訓練說話者模 式定義複數模式參數,及建構特徵空間步驟包含連鎖 並置複數訓練說話者模式參數而建構一監控向量集合 ,以及對該等監控向量進行線行維度縮減轉換,因而 產生基本向量。 5.如申請專利範圍第4項之方法,其中各該訓練說話者之 才莫式係對應於一不同語音單位集合,及其中各監控向 量係對應於以預定順序篩選之語音單位之模式參數連
    τ 經濟部智慧財/1局員工消費合作社印製 A8 Β8ce D8 申請專利範圍 鎖並置。 6. 如申請專利範圍第4項之方法,其中該等模式參數為構 想(cepstral)係數。 7. 如申請專利範圍萆1項之方法’其申該執行維度縮減步 騍產生一基本向量集合而其數目係等於訓練說話者數 目D 8. 如申請專利範圍第丨項之方法,其中該執行維度縮減步 雜產生有序基本向量表單,及其中該建構一特徵空間 之步驟包括拋棄該有序表單之預定部分來減少特徵空 間之階數。 9. 如申請專利範"圍第1項之方法,其中該約束說話者相依 模式之步鄉係藉投射輸入語音於特徵空間進行β 10· 一種執行說話者適應或規格化之方法,該方法包含下 列步驟: 建構一特徵空間來表示複數訓練說話者,建構方 式係對該訓練說話者提供一模式集合,以及對該模式 集合執行維度縮減而產生定義該特徵空間之基本向量 集合; 產生一適應模式,使用得自新說話者的輸入語音 找出定義該適應模式之特徵空間之最大可能性向量, 故適應模式位於該特徵空間内部。 11如申請專利範圍㈣項之m中該產生—最大可 能性向量之步驟包含: 定義—機率函數.表示對預定模式集合產生覲察 1---------1-__ (請先W讀背面之注意事項再填寫本頁) *-° 線 34 4 5275 Α8 Β6 C8 D8 經濟部智慧財產局員工消費合作社印製 六、申請專利範圍 資料機率’其中該輸入語音供給觀察資料;以及 將機率函數最大化來找出最大可能性向量。 12’如申請專利範圍第10項之方法,其中該適應模式係經 由最大可能性向量係數乘以基本向量而由最大可能性 向量導出。 13. 如申請專利範圍第12項之方法,其中該最大化步驟之 執行方式為: 將最大可能性向量以特徵值變數集合表示; 就該特徵值變數取機率函數之第一導數;以及 當第一導數等於0時,解出特徵變數之對應值。 14. 一種執行說話者適應或規格化之方法,包含下列步驟: 將複數訓練說話者以一說話者模式集合表示,該 等模式定義複數參數; 藉由調整該模式之至少部分參數定義一經過提升 的說話者模式集合來提升該說話者模式; 建構一特徵空間來表示複數訓練說者,建構方 式係經由對該提升模式集合進行維度縮減而產生定義 該特徵空間之一基本向量集合; 產生一適應模式,使用得自新說話者之輸入語音 訓練該適應模式,同時使用基本向量集合來約束適應 模式,使適應模式位於特徵空間内部。 15. 如申請專利範圍第14項之方法,其中該提升步驟係使 用最大後估計進行。 16. 如申請專利範圍第14項之方法’其中該提升步驟係使 本紙張尺度適用中困國家標準(CNS ) Α4洗格(210Χ297公簸) I ^--------裝—-----訂-----—線 (請先Μ讀背面之注意事項再填寫本頁) 35 ABCD 經濟部智慧財£局員工消費合作社印製 六、申請專利範圍 用基於轉換之估計處理進行D 1 7.如申請專利範圍第14項之方法,其中該提升步驟係使 用最大可能性線性回歸估計進行。 18. 如申請專利範圍第14項之方法,其中該產生適應模式 之步驟包含使用得自新說話者的輸入語音產生一最大 可能性向量且訓練該適應祺式,同時使用該基本向量 集合及最大可能性向量來約束適應模式,使適應模式 位於該特徵空間内部。 19. 一種執行說話者適應或規格化之方法,該方法包含下 列步錄: - 建構一特徵空間來表示複數訓練說話者,建構方 式係對該訓練說話者提供一模式集合,以及對該模式 集合執行維度縮減而產生定義該特徵空間之基本向量 集合: 產生一適應模式,使用得自一新說話者的輸入語 音訓練該適應模式,同時使用該基本向量集合約束適 應模式,因而適應後之模式係於該特徵空間内部;以 及 提升該適應模式,係經由由適應模式提取模式參 數,且基於得自新說話者之輸入語音調整其中至少若 干參數。 … 20. 如申請專利範圍第19項之方法,其中該提升步驟係使 用最大後估計進行。 21如申請專利範圍第19項之方法其中該提升步驟係使 (請先閲讀背面之注意事項再填寫本頁) ---裝. 訂 線 36 2 ό 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 申請專利範圍 用基於轉換之估計處理進行β A如申請專利範圍第19項之方法,其中該提升步驟係使 用最大可能性線性回歸估計進行。 如申4專利範圍第19項之方法,其中該產生適應模式 之步驟包含使用得自新說話者的輸入語音產生一最大 可能f生向量且訓練該適應模式’同時使用該基本向量 集合及最大可能性向量來約束適應模式,使適應模式 位於該特徵空間内部。 24. 如申請專利範圍第23項之方法, 用最大後估計進行》 25. 如申請專利範圍第23項之方法, 用基於轉換之估計處理進行。 26. 如申請專利範圍第23項之方法, 用最大可能性線性$歸估計進行 27-種執行說話者適應或規格化之方法,包含下列步驟 表示複數訓練說話者作為轉換矩陣第一集合連 一模式’對該模式應用轉換矩陣; 建構一特徵空間來表示複數訓練說話者,係經 對第一轉換矩陣集合進行維度縮減而差r生定義該特徵 空間之一基本向量集合; 使用得自新說話者的輸入語音同時使用基本向量 集合產生一轉換矩陣第二集合,而約束轉換矩陣第二 集合使第二集合係位於特徵空間内部。 28.如申請專利範圍第27項之方法’其中該提升步驟係使 其中該提升步驟係使 其中該提升步驟係使 其中該提升步驟係使 同 由 I . ,--^1 {請先閱讀背面之注意事項再填寫本頁) 訂 線 本紙張尺度逍用中®國家揉準(CNS ) Μ規格(21〇χ297公董) 37 A8 B8 C8 D8 申請專利範圍 請 I 先I 聞 I 讀 背I 面 | 之1 I j 事I 項ί 再 填f 本〒 頁 用最大可能性線性回歸估計進行d 29.如申請專利範圍第27項之方法,其進_步包含向量化 各該第一轉換矩陣集合而界定一監控向量集合,以及 對該等監控向量進行維度縮減來定義特徵空間。 3〇.如申請專利範圍第27項之方法,其進一步包含使用得 自新說話者之輸入語音產±第二轉換矩陣集合因而^ 生一最大可能性向量Μ吏用該最大可能性向量來決定 於特徵空間内部位置。 31.—種執行說話者適應或規格化之方法,該方法包含下 列步驟: 訂 建構一特徵空間來表示複數訓練說話者,建構方 式係對該訓練說話者提供一模式集合,以及對該模式 集合執行維度縮減而產生定義該特徵空間之基本向量 集合; 產生一適應模式,使用得自一新說話者的輸入語 音訓練該適應模式,同時使用該基本向量集合約束適 應模式,因而適應後之模式係於該特徵空間内部, 經濟部智1財d局員工消費合作社印製 其中忒第一模式界定一第一機率分布’及該輸入 語音定義觀察資料’其中該適應模式之產生可使觀察 資料與第一機率分布的乘積最大化。 3 2.如申請專利範圍第3 1項之方法,其進一步包含應用一 可杬度因數至第一機率分布及第二機率分布來反映出 分布提供之資訊可信度如何隨時間的經過而改變。 本紙張尺度適用中國圃家標準(CNS ) A4^格(2i〇x297公釐 38
TW088115209A 1998-09-04 1999-11-09 Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques TW452758B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/148,753 US6343267B1 (en) 1998-04-30 1998-09-04 Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques

Publications (1)

Publication Number Publication Date
TW452758B true TW452758B (en) 2001-09-01

Family

ID=22527202

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088115209A TW452758B (en) 1998-09-04 1999-11-09 Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques

Country Status (6)

Country Link
US (1) US6343267B1 (zh)
EP (1) EP0984429B1 (zh)
JP (1) JP2000081893A (zh)
CN (1) CN1178202C (zh)
DE (1) DE69916951T2 (zh)
TW (1) TW452758B (zh)

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
JP2002539483A (ja) * 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト 音声信号の特徴記述子を求める方法
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6868381B1 (en) * 1999-12-21 2005-03-15 Nortel Networks Limited Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
JP5105682B2 (ja) * 2000-02-25 2012-12-26 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 基準変換手段を伴なう音声認識装置
CN1426382A (zh) 2000-03-14 2003-06-25 詹姆斯·哈迪研究有限公司 含低密度添加剂的纤维水泥建筑材料
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
AR032925A1 (es) 2001-03-02 2003-12-03 James Hardie Int Finance Bv Un producto compuesto.
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7050969B2 (en) * 2001-11-27 2006-05-23 Mitsubishi Electric Research Laboratories, Inc. Distributed speech recognition with codec parameters
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7472062B2 (en) * 2002-01-04 2008-12-30 International Business Machines Corporation Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US20030195751A1 (en) * 2002-04-10 2003-10-16 Mitsubishi Electric Research Laboratories, Inc. Distributed automatic speech recognition with persistent user parameters
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
US20040122672A1 (en) * 2002-12-18 2004-06-24 Jean-Francois Bonastre Gaussian model-based dynamic time warping system and method for speech processing
US7165026B2 (en) * 2003-03-31 2007-01-16 Microsoft Corporation Method of noise estimation using incremental bayes learning
US7516157B2 (en) * 2003-05-08 2009-04-07 Microsoft Corporation Relational directory
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
US20080208581A1 (en) * 2003-12-05 2008-08-28 Queensland University Of Technology Model Adaptation System and Method for Speaker Recognition
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
GB2414328A (en) * 2004-05-17 2005-11-23 Mitsubishi Electric Inf Tech Discrimination transforms applied to frequency domain derived feature vectors
US7496509B2 (en) * 2004-05-28 2009-02-24 International Business Machines Corporation Methods and apparatus for statistical biometric model migration
US7567903B1 (en) 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US20060242016A1 (en) * 2005-01-14 2006-10-26 Tremor Media Llc Dynamic advertisement system and method
US20070049367A1 (en) * 2005-08-23 2007-03-01 Way Out World, Llc Methods for game augmented interactive marketing
US20070050242A1 (en) * 2005-08-23 2007-03-01 Way Out World, Llc Solo-unit system and methods for game augmented interactive marketing
US20070050243A1 (en) * 2005-08-23 2007-03-01 Way Out World, Llc Multi-unit system and methods for game augmented interactive marketing
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
WO2007056344A2 (en) * 2005-11-07 2007-05-18 Scanscout, Inc. Techiques for model optimization for statistical pattern recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
AU2008296072A1 (en) * 2007-09-07 2009-03-12 Bionovo, Inc. Estrogenic extracts of Astragalus membranaceus Fisch.Bge.Var.mongolicus Bge. of the Leguminosae Family and uses thereof
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8209927B2 (en) 2007-12-20 2012-07-03 James Hardie Technology Limited Structural fiber cement building materials
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8775416B2 (en) * 2008-01-09 2014-07-08 Yahoo!Inc. Adapting a context-independent relevance function for identifying relevant search results
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090259551A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for inserting advertisements from multiple ad servers via a master component
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110093783A1 (en) * 2009-10-16 2011-04-21 Charles Parra Method and system for linking media components
US8374867B2 (en) * 2009-11-13 2013-02-12 At&T Intellectual Property I, L.P. System and method for standardized speech recognition infrastructure
CA2781299A1 (en) * 2009-11-20 2012-05-03 Tadashi Yonezaki Methods and apparatus for optimizing advertisement allocation
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US9008329B1 (en) * 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9117444B2 (en) * 2012-05-29 2015-08-25 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
NZ730641A (en) * 2012-08-24 2018-08-31 Interactive Intelligence Inc Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
GB2510200B (en) * 2013-01-29 2017-05-10 Toshiba Res Europe Ltd A computer generated head
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
WO2015127117A1 (en) 2014-02-19 2015-08-27 Nant Holdings Ip, Llc Invariant-based dimensional reduction of object recognition features, systems and methods
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3553775B1 (en) * 2018-04-12 2020-11-25 Spotify AB Voice-based authentication
CN109887484B (zh) * 2019-02-22 2023-08-04 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN113505801B (zh) * 2021-09-13 2021-11-30 拓小拓科技(天津)有限公司 一种用于超维计算的图像编码方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903035A (en) 1983-12-20 1990-02-20 Bsh Electronics, Ltd. Electrical signal separating device having isolating and matching circuitry
US4718088A (en) 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
JPS62231993A (ja) 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4817156A (en) 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JP2733955B2 (ja) 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5127055A (en) 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH0636156B2 (ja) 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
DE3931638A1 (de) 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
JP3014177B2 (ja) 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
US5280562A (en) * 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
DE69322894T2 (de) 1992-03-02 1999-07-29 At & T Corp., New York, N.Y. Lernverfahren und Gerät zur Spracherkennung
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5473728A (en) 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5664059A (en) 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
JPH075892A (ja) 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
WO1995009416A1 (en) 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JP2692581B2 (ja) 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
US5793891A (en) 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5806029A (en) 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JP2871561B2 (ja) 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US5787394A (en) 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US5778342A (en) 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5895447A (en) 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
JP3302266B2 (ja) 1996-07-23 2002-07-15 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
CN1144172C (zh) 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques

Also Published As

Publication number Publication date
CN1178202C (zh) 2004-12-01
EP0984429B1 (en) 2004-05-06
DE69916951T2 (de) 2005-06-23
EP0984429A3 (en) 2000-11-22
CN1253353A (zh) 2000-05-17
US6343267B1 (en) 2002-01-29
EP0984429A2 (en) 2000-03-08
DE69916951D1 (de) 2004-06-09
JP2000081893A (ja) 2000-03-21

Similar Documents

Publication Publication Date Title
TW452758B (en) Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
JP6906067B2 (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
US6141644A (en) Speaker verification and speaker identification based on eigenvoices
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
Huo et al. On-line adaptive learning of the continuous density hidden Markov model based on approximate recursive Bayes estimate
TW493160B (en) Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
WO2018159612A1 (ja) 声質変換装置、声質変換方法およびプログラム
JP2011186351A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2002149185A (ja) 複数の学習用話者を表現する固有空間の決定方法
US10311888B2 (en) Voice quality conversion device, voice quality conversion method and program
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Ault et al. On speech recognition algorithms
JPWO2018051945A1 (ja) 音声処理装置、音声処理方法、およびプログラム
Omar et al. Training Universal Background Models for Speaker Recognition.
TW436758B (en) Speaker and environment adaptation based on eigenvoices including maximum likelihood method
Lung Improved wavelet feature extraction using kernel analysis for text independent speaker recognition
CN113421573B (zh) 身份识别模型训练方法、身份识别方法及装置
JP2002132286A (ja) 音声認識方法
Indumathi et al. Speaker identification using bagging techniques
TW200935399A (en) Chinese-speech phonologic transformation system and method thereof
Tivarekar et al. Species recognition using audio processing algorithm
Kumar Feature normalisation for robust speech recognition
Cui et al. Robust speaker adaptation by weighted model averaging based on the minimum description length criterion
CN118038847A (zh) 一种提升智能外呼意向的方法、设备、介质及产品
Kim et al. Rapid online adaptation based on transformation space model evolution

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees