TW526467B - Speech recognition system - Google Patents

Speech recognition system Download PDF

Info

Publication number
TW526467B
TW526467B TW089126992A TW89126992A TW526467B TW 526467 B TW526467 B TW 526467B TW 089126992 A TW089126992 A TW 089126992A TW 89126992 A TW89126992 A TW 89126992A TW 526467 B TW526467 B TW 526467B
Authority
TW
Taiwan
Prior art keywords
pitch
contour
sound
speech
speech recognition
Prior art date
Application number
TW089126992A
Other languages
English (en)
Inventor
Chang-Han Huang
Frank Seide
Original Assignee
Koninkl Philips Electronics Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninkl Philips Electronics Nv filed Critical Koninkl Philips Electronics Nv
Application granted granted Critical
Publication of TW526467B publication Critical patent/TW526467B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

526467 A7 B7 五、發明説明(1 ) 本發明涉及音調語言,像是中國語的自動辨識。 語音辨識系統,譬如大量詞彙的連續語音辨識系統,一 般都是使用聲學/語音模型及語言模型來辨識語音輸入型態 。在辨識語音信號之前,該信號須先接受頻譜及/或時間的 分析以計算出特徵代表向量(觀察向量,0V)。典型地,先 將語音信號數位化(譬如,以6.67仟赫的頻率加以取樣)及預 處理(譬如施以預強調)。然後將連續的、相當於譬如,20 或3 2毫秒的樣本集合成音框。音框與音框間部份重疊,譬 如,重疊10(音框為20毫秒者)或16毫秒(音框為16毫秒者) 。通常先使用線性預測編碼(LPC)頻譜分析法計算出每一個 音框的特徵代表向量(觀察向量)。該特徵向量可能擁有譬 如,24,32或63個分量。然後使用聲學模型來預估一給定 字串中其一系列觀察向量的機率。對大量詞彙的系統而言 ,欲完成此動作,通常是將該等向量與一堆的語音辨識單 元加以比對。一個語音辨識單元是一列的聲參考。譬如, 一整個字成甚至一堆字都可以由一個語音辨識單元來代表 。同時也會使用到語言型的次字單元(像是單音,雙音或音 節)以及衍生單元(像是fenen或fenon)。對次字型的系統而 言,字模型中會有一部辭典,描述著與字彙有關的系列次 字單元,另外還有次字模型,描述所涉入語音辨識單元的 聲參考系列。該等(次)字模型一般都是以隱藏馬可夫模型 (HMM)為基礎的,HMM廣泛地巧以統計地模型語音信號。 將該等觀察向量與所有的語音辨識單元系列作比對,提供 出該向量與各個單元的符合相似度。若使用的是次字單元 -4- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 A7 B7 五、發明説明(2 ) ,那麼次字單元的系列就僅限於該辭典中。語言模型更進 一步地為比對設下條件以便所開發出之路徑可為那些相當 於語言模型所確立的適當系列之字系列。結合聲學模型與 語言模型的結果,就產生出辨識句子。 現存的語音辨識系統絕大部份是針對西方語言所開發的 ,傢是英語或德語。因為西方語型的字音調並不會影響字 義,所以反應在基音輪廓中的音調,在作聲學理解時會將 之視為雜訊,不予理會。該特徵向量及聲學模型並不包含 音調資訊。但對所謂的音調語言,像是中文而言,音調資 訊卻會影響字義。語彙的音調發音在中文字的正確發音上 扮演了 一部份的角色,且反映在聲證據,像是基音輪廓上 。舉個例子,全世界使用最多的語言-中國語就具有五種不 同的音調(在音節基音輪廓内之原型音),通常可區分為”高 π(平基本頻率F〇輪廓)”上升”(上升F〇輪廓),”低上升”(低 輪廓,平坦的或下降又升起的),”下降"(下降輪廓,可能 是從低F〇),以及”中性”(中性的,可能是小的,從低F〇之 短下降輪廓)。在連續的語音中,該低上升音調可以視之為 ••低”音。以不同音調發音的相同音節,通常具有完全不同 的意義。直覺性地,中國語之音調模型乃是根據一項事實 所建立的,此事實是,人們可以直接地從音聲基頻的型態 ,辨識出中文字的語彙音調。 是故,在發展高精確音調語言語音辨識器時,我們希望 將語彙音調資訊作為知識源之一。為整合語音模型,我們 希望能決定出適當的特徵,併入現存的聲學模型或額外的 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝 訂
526467 年月日 /Λγ .,疒 象L[ 補充 A7
裝 訂
'。另外一個缺點是,平滑濾波器_的平滑係數(臨界值)其變 動性疋非常強的。除此之外,此種類型的音調模型其架構 相當的複雜,以致無法使用在即時性的,大量詞彙的專用 音調模型中。已知使用基音(基頻Fq)或落後基音作為音調 特徵向量的-個分^音調特徵向量典型地w基 第-(亦可選擇性地包含第二)導出音。在多通料系二中 ’通_含有能量及期間資訊。對於基音的量測已研發 十年。,基本的基音檢測演算法(PDA)都有一個共同的二 題’那就是會發生多重/次多重的總基音錯誤。這種錯養会 使基音輪摩變形。在中國語音調模型所使用的古典方法; ,是將語音信號加以分析以判定其為音聲或非音聲信號。 預處理前製端必須在不引人多重/次多重基音錯誤的情^下 ,估算出具可靠性的基音。大冑份都是藉由微調多重基音 錯誤及次多重基音錯誤間之臨界值,或是在可能的基音二 動上加上區域的限制,來完成上述的不引入錯誤之可1性 基音的估算。典型地,可透過平科如,中㈣波器^先 可對:理基音範圍及移動的知識,將語音信號内的相似度 予以最大化以可強健地對抗多重/次多重基音錯誤,使基音 的預估得以改善。每-個已辨識的字或音節的語彙音調二 是以隨機HMM獨立地予以解碼。此方法有許多的缺點。語 囊音調僅存於中文字的音聲段中,所以我們希望能抽取Z 浯音音聲段們基音輪廓。然而,要在一段段語音中判斷出 何者為音聲,何者為非音聲,眾所週知是非常困難的。在 預處理的前製階段中,是無法可靠地判定出音聲/非音聲段 -6 - 526467
A7 B7 五、發明説明(4 ) 系統中;此類系統現今主要是執行在個人電腦中。為克服 多重/次多重基音錯誤的問題,除了運用基音輪廓的連續特 性之知識外,還使用了動態寫程式(DP)技術。不過,DP之 發言型之本質使其無法使用在線上的系統。 改良對語音信號之音調特徵的抽取,是本發明之目標。 為適於音調語言語音自動辨識之語音特徵向量,定義其分 量(而非基音),是本發明之另一目標。 為改良音調特徵之抽取,演算法之改進如下: -基音抽取技術之兩步驟法: -低解析度時,判定基音輪廓,最好是在頻域中判定 -高解析度微調時,最好是在時域中,將分析窗中準週期 信號内的已規一化相關予以最大化來判定,其中該分析 窗内含不止一個完全基音區間。 -低解析度基音輪廓的判定,最好是包含: -根據語音信號内的相似度量測來決定基音資訊,最好 是根據頻域中之總次諧波來決定 -使用動態寫程式(DP)法來消除多重及次多重基音 錯誤。 該動態寫程式最好是包含; -增進效率用之調適主刪剪, -用以保証最大延遲之固定長度部份回溯,以及 -橋接非音聲及靜音區段。 這些改良可以單獨或综合使用於_傳統的技術中。 為改良特徵向量,該語音特徵向量應包含可代表與該特 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 _1,......—J_B7_ 五、發明説明(5 ) 徵向量有關之語音段其預估音聲程度之分量。在較佳之具 体實施例中,該特徵向量還包含代表該音聲預估程度之第 一或第二導數之分量。在一具體實施例中,該特徵向量包 含代表該音段之預估基音之第一或第二導數之分量。在一 具體實施例中,該特徵向量包含一代表該音段基音之分量 。最好是減去該平均鄰近基音將該基音正規化以去除說話 者及片語的影響。正規化時最好是以音聲的程度為加權因 數。令人激賞的是,向量分量可以包含自己本身所涉入的 參數或任何合適的參數量測,像是對數。 應注意的是也已使用了簡化的中國語音調模型。在此種 模型中,因為音聲/非音聲的判定不具可靠性,所以會從音 聲至非音聲段以内插/外插法來產生擬基音。音聲程度這項 知識並無法實際使用。但我們並不希望忽略音聲程度這項 知識,這是因為音聲程度是一個肯定會改良辨識品質之知 識源。譬如,音聲段中之基音移動相當的緩慢(1%/1 ms) ,但在音聲-非音聲段或非音聲-音聲段中之基音移動卻跳動 得非常快速。本發明之系統就是要探查音聲程度這項知識。 參考說明附圖所示之具體實施例,本發明之這些及其他 面向將益發顯明。 圖1說明抽取音調特徵的三階段; 圖2是量測基音的流程圖; 圖3是具回溯及調適刪剪之動態_寫程式之流程圖; 圖4是音聲程度及基音輪廓例;_ 圖5是將F〇輪廓分解成語彙音調效應,片語語調效應及隨 -8- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 A7 B7 五、發明説明(6 ) 機雜訊效應之流程圖; 圖6A及B說明加權濾波器的使用; 圖7顯示對自相關之第二階退化的處置; 圖8之方塊圖說明了非音聲語音段中特徵向量之處置; 圖9之方塊圖說明了本發明具体實施例之強健音調特徵抽 取器;及 圖1 0顯示相應之流程圖; 圖式元件符號說明 110 周期性量測 120 連續性限制 130 得到特徵 210 低通濾波器 220 分段 230 快速傅力葉轉換 240 平滑化 250 内插 260 次譜波加總 270轉移分數 280 周期性資訊 310 先置回溯 320 調適刪減 330 基音粗估 340精準基音選擇 350 内含不止一基音周期之分猗窗 360 精細基音&相關的輪廓 510 軟性加權退化 -9- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 526467 A7 V B7 五、發明説明(7 ) 520 中文語音韻律的片語語調修改 530 以加權退化分解F 0降語調 540 粗略語調特徵 810 以加權退化分解F 0降語調 905 用於中文之特徵選取 910 周期資訊處理 915 相似量測 920 選取基音資訊 925 粗略F 0 /最大相似選取 930 次諧波加總 935 低解析度F 0之先置回溯 940精細搜尋基音 945 粗略語調資訊處理 950 片語語調修改 955 以加權退化分解F 0降語調 960產生屬於語音-非語音聲段之虛擬特徵 本發明之語音處理系統可以用傳統的硬體施行。舉個例 子,一個語音辨識系統可以施行在電腦,像是個人電腦上 ,透過麥克風接收所輸入之語音,再利用傳統的音效卡將 語音數位化。其他所有的處理步驟則都是以軟體程序的形 式由中央處理器來執行。特別是,語音可以透過電話連接 譬如,使用傳統的電腦中之數據機加以接收。也可以使用 專門的硬體譬如,以數位信號處理器為主所建構的硬體來 執行語音處理。因為語音辨識系-統已廣為人知,所以此處 僅針對就與本發明相關的部份作詳細地說明。說明主要是 -10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
針對中國語。習於此藝人士可輕易地將此處所示之技術修 改成適於其他的音調語言。 圖1說明了從語音信號s(n)之觀察向量5(t)中抽取音調特 徵之三個獨立的處理階段。本發明在此三個階段中均提供 出改良。最好是將所有改良組合使用。不過,它們也可以 獨亙地使用於某一個階段,而其他的階段則仍使用傳統的 技術。第一階段是週期性的量測(基音)(110)。為達到此目 的,輸進來之語音信號s(n)必須被分割成重疊的音框,每 個音框取好是平移1 〇毫秒。對於每一個在時間t之音框,均 為頻率範圍f判定出一個量測^£,t),以表達該信號在頻 率f之週期程度。就如以下會有們詳細說明,最好是使用次 諧波加總演算法(SHS)來判定p(f,t)。第二階段引入連續 性限制(120)以增加強健性。它的輸出是一列原始的基音特 徵,量,其是由實際的基音預估f〇(t)及相對應的音聲程度 v(F〇(t),t)(最好是使用正規化之短時距自相關來作為音 4私度之度量)。最好是使用以下會有詳細說明之動態程式 (DP)法來施行該連續性限制。第三階段,標示為叩八丁,執 行的是後處理及規一化之動作,最後得到一列實際的向量 o(t)之晋調特徵(13〇)。以下為詳細的說明。 週期性之量測 圖2顯示判定基音資訊之較佳方法之流程圖。所接收之 語音信號可能是類比的形式。考是如此,可以使用類比/ 數位轉換器將該語音信號轉換成取樣的數位信號。人類 聲帶物理振動範圍中可能的基頻Fg之基音資訊,即是由該 -11 - 本紙張尺度適$中國國家標準(CNS) A4規格(21(}X297公爱) 52_ 卜…廣丨 I v: …t_______ A7 ------ B7 五、發明説明(9 )〜 ' *---— 數位化之語音信號中抽取出來的。接著,量測週期性。 大部份的基音檢測演算法都是以在所預期的F 〇範圍中將 像p(f,t)這樣的量測予以最大化為基礎所做出|的。在時 域中,此種度量典型地是以信號的自相關函數hi 或距離量測(似AMDF)為基礎的。本發明所使用的t是次諧 波加總(SHS)演算法,此演算法乃是操作在頻域中,提 供次諧波加總來作為度量。該數位的取樣語音信號會被 送往強健音調特徵抽取前端,取樣的語音信號在此前端 中首先最好是接受截止頻率小於125〇赫玆之低通處理。若 疋簡易的施行,則此低通濾波器(21〇)可以用移動平均fir濾 波器來做。接著,將信號分段(22〇)成數個在寬度上相同, 在時間上有重疊之分析閘。將每一個分析閘均乘上(,,架窗 ”)所謂的漢明視窗(或等效視窗),漢明視窗通常為語音分 析的核心部份。該分析窗必須内含至少一個完整的基音週 期。基音週期τ的合理範圍為: 2.86毫秒= 0.00286秒=1/350S τ S 1/50 = 0.020秒=20 亳秒 因此,視窗的長度最好至少2 〇毫秒。 然後计算出分析閘(亦稱之為音段或音框)中已取樣語音 k號的代表,最好是使用快速傅立葉轉換(FFT) ( 23〇),以 產生出頻譜。接著將該頻譜加以平方,產生出功率頻譜。 最好疋可以加強振幅頻譜的學值以增加其強健性。接著最 好是用三角核心(使用係數為丨/4—,1/2,1/4之低通滤波器 較有利)法將該功率頻譜平滑化(240),產生出平滑化之振幅 頻譜。接下來,最好是在該已核心平滑化之振幅頻譜上施 -12- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 A7 B7 五、發明説明(10 ) 以I解析度點的三次仿樣内插(250)(為了能快速地找到正確 的路徑,處在低頻解析度時,最好每八度不要超過1 6個等 距點)。最好是取頻率對數刻度的反正切函數以在已仿樣内 插的功率頻譜上執行聲敏度的補償: 邓 〇g2/) = 0.5+恤-丨(3.0*!〇心刀 π 為了人聲帶物理振動的可能.基頻F〇範圍,接著要施以次諧 波加總(260)以產生基音資訊。 ^]>v/P(log2〇^)) W< 1250), 1,2,···,//峨 wk = (c)*-1, where k^\ P(log2(f)) = C(log2(f))*A(log2(f)),其中C(log2(f))是由 S(log2(f))而來之仿樣内插,從FFT而來之功率頻譜,c是 雜訊補償因數。最有利的是,對麥克風輸入而言,c = 0.84 ;對電話輸入而言,c = 0.87 ; f是基音(以赫茲為單位),50 $£$ 350。19 88 年元月號之厂八(:〇1^.3〇(^八111.,0· Hermes所寫之π以次諧波加總法來量測基音’’中有SHS演算法 的詳細說明,在此納為參考。此處僅對S HS作摘要性地描 述。以St(n)代表輸進來之已漢明視窗語音信號的第t音框 ,以St(f)表其傅立葉轉換。在觀念性上,將St(n)投影在 週期為f之函數次空間上之能量Ef予以計算出來,可以判定 出基頻: -13- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝
526467 τ Α7 .......................’i Β7 五、發明説明(”) ' - 以及以f最大化。在Hermes所說明的真實SHS法中,引入了 各種使結果更精鍊的作法,包括取代使用了峰值加強振幅 頻缙丨st| ’以可表現聲音系統敏感度之濾波器w(f)來予 以加權’以及以權數hi加權強調較低階的次諧波,藉由快 速傅互葉轉換’内插以及於對數刻度上執行重疊來有效地 予以實現,得到如下之公式: Ρ(/,〇 = ί>Λ,;("/)|·,/)) Λ·1 在此式中’ Ν代表的是諧波的數號。 連續性的限制 有一個直覺性地預估基音的式子·· ^(t) = argmaXfp(f, t)。不過’由於音框間缺乏連續性的限制,所以很容易發 生所明多重及次多重基音錯誤的情形,此現象最常見到於 受廣頻通道雜訊影響的電話本体中。根據本發明,動態寫 程式的原則就是使用在引入連續性(於語音的音聲段中)。 如此’基音就不是在獨立隔絕的情況下被預估,而是在考 量其隔壁音框的情況下全面性地估算,藉以使路徑錯誤達 到最小。根據語音音聲段中基免連續性的特徵,基音僅在 很有限的範圍内變動(大約是每毫秒1 % 。可以利用此資訊 來避免多重/次多重基音錯誤。使用動態寫程式法就可確保 -14- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 五 、發明説明( 12 預估基骨時所跟隨的是正確的路徑。應了解的是,在語音 的音聲-非音聲段中的基音變動是繞富有戲劇性的。此外T 在給定的路徑邊界上之全搜尋法是非常耗時的(由於其不必 要的長處理延遲),這使得以即時性的系統來實施針對高音 調品質的基音追尋,幾乎是不可能的。這些缺點是可 服的’以下有更詳細地說明。 動態窝程式 、下之A式可將連績性限制包含在基音檢測中: ^0 Ο .X) = arg max 2] p(F0 (/), t\aF F〇(L.r) ,.| (抓(卜i) 0) 裝 其中af〗I q的用意在於遏止基音的快速變化。藉著將F 〇加以 量化,以動態窝程式(DP)法可以解決此準則。 訂 許多系統在靜音及非音聲區域中的基音值是設為〇的。這 導致一個問題:在音聲/非音聲邊界處具有零變異值及未定 的導值。將基音朝向平均值指數衰減,是已知的作為^ 區域間"橋樑"的方法。DP提供了作為非音聲及靜音區域^ 橋樑的有效方法。其引出了音節基音輪廊(位於主母立的立 節中)的”外插”,在時間上退回到其初始的常數。已:現: 現象可為辨識器提供額外的有用資訊。 ^ 部份回溯 根據公式(1),在決定基音輪廓之前需要先處理發女 個τ音框,這使得其不適於線上操作。本發明會執㈣ς 回湖,冗全地利用到DP的路徑合併性質。在語音辨識期門 本紙張尺度適用中國國豕標準(CNS) A4規格(210X297公爱) -15- ’以維比解碼是已知的回溯技術。在此不多做說明。最好 是使用固足長度之部份回溯以保証最大延遲:在每一個音 框t ’均決定出區域的最佳路徑並回溯ατ!個音框。若AT! 足夠大’那麼因此而決定出之基音穿〇(t-ATi)可期待它是可 靠的。實驗顯示,可以將延遲限制在大約15〇亳秒;這種延 遲已經小到使用者無法察覺。 主刪剪 在上述之形式中,路徑重組佔去了中央處理器的大部份 時間。為減輕中央處理器的負擔,要使用主刪剪。語音辨 識的主刪男方式已為人所熟知,在此不做全盤性地說明。 對於每一個音框,只有保證能導致全面最佳化之路徑子集 合,才會受到考慮。分數sc(t)符合下述條件之路徑才會加 以散佈(scopt( τ )=在時間r的區域最佳分數): sc(t)-scopt(t-AT2) <臨界值 scopt(t)-scopt(t.AT2) 因為效率是最主要的考量,所以必須在不傷害品質的情 況下,儘可能地刪剪。在該動態寫程式步驟中,即使是在 音聲-非音聲語音段中使用了動態寫程式技術,預估的=音 仍然存在著動態性的變動。這是因為純靜音區域中不具= 週期性的資訊(280) ··所有可能的基音值其相似度都是二 的。理論上在此時是沒有必要做刪剪的。—、 7 刀~方面,在,純 的語音區域中卻又有許多的週期性資訊(28〇),在多重/次多 A7
,確基晋上有許多峰值的基音分佈。此時將一些累積分 2常的路徑加以刪剪是受歡迎的。刪剪的準則最好也能 於、目^響考慮進去。若在句子—開始時有超過大約1 · 0 一'、停b部如那麼取好應該不要執行刪剪動作。實驗顯 不I:將該等其累冑‘至今,之累積分數小於累積‘至今 取问累積分數之99 9%之路徑加以刪剪,將會導致失去 曰勺正崔路線。另一方面’若所冊ί剪的路徑是該等‘從 〇·5秒至纟之累積分數小於‘從〇 5秒至今,之最高累積 分數<99.9%之路徑,則將可保住正確的路線,且可較全 搜尋法節省96.6%的迴圈時間。 降低解析度 裝 訂 各仏重組的數目正比於D ρ頻率解析度的平方。降低D ρ 中頻率,的解析度可以使速度明顯地加快。解析度的最低 艮大、t是每八度5 〇個量化步騾。低於此,該D ρ路徑就會變 得不正確。已經發現,若每一個音框均於,粗估路徑 附近中接受基音預估^⑴的微調’那麼該最低限可再進一 步地降低。取好是於量化步驟Q(t)t較高解析度處,從該 低解析度路徑v(f,t)予以最大化來做到。即: ^〇(0 = argmaX/eQ(〇v(/>〇 圖3是本發明以調適刪剪法將的先置,區域相似度予 以最大化之較佳法的流程圖。摘要為下列的步騾: -計算語音之音聲段中所有可能基音移動的轉移分數(27〇)。
526467 A7
•18- 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 526467 年月
无A7 -------------------- β 7五Τ發明ΐθ月(16 ) " 接下來計算出最大次諧波總和的共同值,以及‘至今,( 從語音信號一開始至該共同的音框)所累積的路徑分數。該 ‘至今’累積路徑分數可以使用下列的循環公式計算出來 ••所累積的分數[j][音框_ U +基音移動[kHj]*現在的 SHS[k][音框]; 基音抽取只發生在那些轉移機率分數大於(最好是)06的 基骨移動上。轉移機率分數小於或等於0.6之路徑延伸則跳 過去。調適刪剪(320)最好是以累積過去〇 5秒之累積路徑分 數為基礎。此標記為參考累積分數。該調適路徑延伸所使 用(決定準則最好是用在延伸路徑僅發生在那些轉移分數 大於0.6之基音移動上。轉移機率分數小於或等於〇6之路 徑延伸則跳過去。另外一種做法則是以音聲的程度為基礎 來做調適刪剪(320)。根據本發明專利範圍第6項之方法,其 中孩調適刪剪使用了以音聲程度為基礎之決定準則: -若譬如,過去〇 5秒内之累積路徑分數小於過去相同時 間内所累積之最大累積路徑分數的99 9%,以及在現時 甘框中存在非常多的週期性資訊,以公式表達則是為: 若(累積分數[j ][音框-i ] _參考累積分數)小於9 9 9 %之( 最大累積分數[音框-1 ]—參考累積分數),以及在現時音 框中存在非常多的週期性資訊(28〇)(譬如,現時Shs[jj [ 音框]-現時最大SHS[音框]之80.0%)則在路徑上進行梦 集地刪剪。 -右在現時音框中擁有少量含糊的基音資訊,則將先前路 技延伸至現在最有可能之最大及最小基音移動,則可在 裝 訂
線 -19- 本紙張尺度適用中國國豕標準(CNS) A#規格(2夢挪公爱) 進的刪13 °若在現時音框中存在較少的週 =:貝訊,則發生鬆教的刪剪。這是因為句子的一開頭 ,,巴大邵份是由靜音所構成’因此所累積的路徑分數太小 以致無法進行密集的刪剪,這與音聲_非音聲段句子的一 開頭是有所不㈣。在靜音多的情財,現時音框中所 =的基音資訊乃是少而含糊的。將先前路徑延伸至現 刪=有可K取大及最小基音移動,即可做出鬆散性的 2預估正確的基音而在穩定概估基音的鄰音中執行高解析 又,細緻的基音(360)搜尋,其是在相關分佈圖上執行三次 仿Ϊ内插。此可在不需付出精確度的代價下,顯著地降低 1。先置調適刪剪回潮中之現用狀態。在該高頻解析(為了高 基音品質)處之高解析度,細緻基音搜尋所使用的手法是, =内含不止-個完全基音週期之分析窗㈣中準週期信號 =:見-化相關予以最大化。内定的視窗長度為該最大完 全基音週期的兩倍。 FA50赫兹,基音週期$1/5〇 = 〇〇2〇秒,視窗長度 0.020秒=4 0亳秒 使用孩FG之先置調適刪剪回溯法的好處在於,其幾乎不 必再受許多以拾學規則為礎之基音檢測演算法其所必須忍 受的多重或次多重基音錯誤。實驗顯示’相較於該試探拾 辛規則,音賴誤率(TER)及文?錯誤率(CER)均顯著的下 降。另外’因為其先置了0.20秒且以基音資訊為基礎(不論 本纸張尺度適用中國國豕標準(CNS) A4規格(210X297公釐) -20- 526467 A7
裝 訂 線
526467 五 16.734% 4.185%
發明説明(19 臨界值: 基音估算的相應相關 全部錯誤率··相關臨界 值上之條件 SHS及PDT間預估的次( 多重)基音錯誤機率 旎I及其導數也可取用為音調特徵,但因為這些成份已 表現於頻譜特徵向量中,所以此處並不將它們列入考慮。 音凋特徵被足義為兩個部份。第一個部份是擴及鄰音框 之降音調F0輪廓之第二階加權退化之退化係數,其具有之 視ά尺寸與相當於信號週期性程度之加權與音節的平均長 度有關。第二個部份則處理信號的週期性程度,其乃自相 ,輪廓之第二階退化的退化係數,具有之視窗尺寸則與相 S於先置回溯(310)程序所預估之基音其倒數之落後相關與 音節的平均長度有關。 長時距基音之規一化 使基音作為音調特徵事實上會降低辨識的效能。為如此 的原因是,基音輪廓是下列各項重疊而成的: a )說話者之基本基音, b) 句子階層的韻律, c) 真實的音調,以及 d) 隨機的變異。 -22- 本紙張尺跋財g S家標準(CNS)械格(21() χ撕公爱)
526467
雖然(C)是我們想要的資訊,(d)由HMM負責處理,及 (b )與骨_辨識無關,但它們的變異超過了第一及第三音調 間之差異。 此說明於圖4,此例是一個基音輪廓,其代表的是863女 性測試集中所說的第151句。由於句子的韻律,此句中之第 及第二音調的基音位準變得無法區分。此句中,片語成 份撐開了 5 0赫茲的範圍,而成人說話者之基音卻可能在1〇〇 至300赫茲的範圍。圖4們上端是基音輪廓,其中虚線標示 出(預估的)片語成份。粗線則標示出音聲程度大於〇6之區 域。圖4之下半部則顯示出相應的音聲程度。 已提出對對數基音施加,’ cepstral平均相減”,以得到與陽 性典關的基音輪廓。雖然此有效地移除了與說話者⑷的相 關性,但片語的效應(b)卻不算在内。 本發明藉由將片語語調效應及隨機效應予以去除,保持 住存在於信號中之語彙音調效應。對中文而言,語彙音調 效應代表中文音節内所確立的語彙音調發音。片語語調代 表的則疋存在於多音節中文字基音輪廓中之音調效應。是 故’本發明藉由減去說話者效應及片語效應,將該預估的
A 基音F〇(t)規一化。該片語語調效應被界定為音聲Fq輪廓的 長時距趨勢,此可由鄰t中ΐ〇(ί)之移動平均來近似。最好 使用的是加權的移動平均,且此加權應與信號的週期性程 度相關。在重疊假設之下,該片語語調效應會從令0(t)輪廓 中被去除。實驗已證實了這一點。式子為 -23-
本紙張尺錢财H S家標準(CNS) A4規格(210X 297公E 526467 A7 B7
Γ«—Δ?3 + r).w(F0(/ + r),/ + r) K^〇(^ + r),/ + r) (2) 此式的簡化形式,該移動平均被估算為w(f ; t),是一 個直覺性的移動平均。最好是計算加權的移動平均,=中 該加權最好是代表音聲的程度(w(f ; t)==x/(f ; 。將焦 點放在清晰的音聲區域,後者之平均值會使預估有些許的 改良。大約1.0秒的視窗,可使該加權移動平均濾波器有最 佳的效能。 圖5是將F 〇輪廓分解成音調效應、片語效應及隨機效應之 較佳方法的流程圖。其包含: -計算語音信號的規一化相關,其時間落後乃相應於由先 置回溯程序所預估出之基音的倒數。 -使用針對整個鄰音框之移動平均或中間濾波器,將該規 一化相關之輪廓平滑化(具與音節之平均長度有關之視 W尺寸)。 該移動平均濾波器最好是: γ-平滑(〇 = (1*)^-5) + 2*7(14) + 3*7〇3) + 4*丫〇2) + 53^〇 1) + 5*y(t) + 5*y(t +1) + 4*y(t + 2) + 3 *y(t + 3) + 2*y(t + 4) + l*y(t + 5))/30 -針對整個鄰音框計算自相關之第二階退化的係數(具與音 軎P之平均長度有關之視窗尺寸)。 -24-
最好疋使用針對n個(η = 1 1)音框之最少平均準則來計算 :平滑自相關的退化係數^。,Τι,Τ2。為了執行的效 ^,可跳過此操作,以平滑化之相關係數取代 的是常數料料.· 使用 2η+ 1 〇 n(n + l)(2n + l) ) 3 Ο η(η + 1)(2η + 1) 〇 3 , n(n + l)(2n + l) 〇 η(η + 1)(2η + 1)(3η2+3卜1) 另外一種作法,針對η個(η= η)音框之加權最少平均準則 來计算F〇輪廓的退化係數,其資料矩陣是加權的函數。 /*—Π /«-π i雒細η η 2 ν·^-Λ η 3 Σ^1 /«·/! /> 、 Σβ /=-π η .3 Σν /β-Π η 4 其中權數是: ^r〇t/>〇Ay -根據鄰音框之自相關第二階退化之退化係數的常數項來 計算F〇輪廓的退化加權(具與—音節之平均長度有關之視 窗尺寸)。最好是根據以下的準則來計算退化權數: -若該自相關退化係數之常數項大於〇.4〇,則將此音 -25- 526467 ..-4- ::., - ‘·... ϊ 1 A7 ___1_ .....㈣LC'丨 B7_ 五、發明説明(23 ) 框t之退化權數設定為近似於1.0, -右该自相關退化係數之常數項T 0,t小於〇 · 1 Q,則將此音 框t之退化權數設定為近似於〇 . 〇, β若是其他的情沉,則將此音框t之退化權數設定為該自 相關退化係數之常數項。對於該已加權的退化及已加 權的長時距移動平均濾波器則最妤是使用以下的權數: Γΐ,/0/>0.4"
Yoj
Uro^o.i, -以長時距加權-移動·平均或中間濾波器來計算中國語語 音韻律的片語語調分量(520)。最好是,該視窗尺寸與片 之平均長度有關’權數則是與F 〇輪廓的退化權數有關 。最好是將該用以抽取片語語調效應之長時距加權-移 動-平均濾波器之視窗長度設定在大約〇 8〇至丨〇〇秒的範 圍。 •藉由從鄰晋框之片語語調效應中扣減,來計算降音調基 音輪廓之第二階加權退化的係數(所具之視窗尺寸與音節 的平均長度有關)。 i 乂上所說月的,我們以非時變加權移動平均(M a )濾波器 及F〇輪廓的加權(將母音強調出來)最少平方,將該F〇輪廓 为解成^彙音調效應、片語語調效應以及隨機效應。因為 語彙音調效應僅存在於中文音節的音聲段中,所以引入鄰 -26-
526467 A7 B7 五、發明説明(24 ) 音框(其視窗尺寸與音節的平均長度及權數有關,而該權數 則視週期性的程度而定)的加權退化(360),可解決音聲-非 音聲段語意含糊的現象。 圖6A是句子F〇輪廓的最少平方。圖6B是相同的句子在 施用了帶有加權最少平方(WLS)之加權移動平均(WMA)濾 波器後之輪廓。該片語語調效應乃是由WMA濾波器來預估 。音調效應則相當於F〇輪廓的WLS其常數項減去該片語語 調效應。下表說明出該片語語調效應是可以忽略的。 (LTN先置,LTN後置) TER/TER 縮減 CER/CER 縮減 (0 >0) 22 94% 12 23% (40,40) 20 51% 12 07% (50,50) 20 19% 12 12% (60 , 60) 20 35% 12 05% (回溯延遲=20,相關平滑半徑=5,音框寬度= 0.032) (語彙模型:音調preme/訓練核心-終結) (片語三圖LM) 實驗決定出WMA濾波器的最佳效能大約是1.0秒(如上表 所示),在大部份的情況中,此可對稱地涵蓋上升及下降音 調。 下二表說明了負面非對稱對TER(音調錯誤率)的影響。這 也就是為什麼WMA不僅僅是F〇的規一化因數,也是片語規 一化因數的原因。 -27· 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 五、發明説明(25 ) (LTN先置,LTN後置) TER/TER 縮減 CER/CER 縮減 (50,50) 20 19% 12 12% (25 , 25) 21 29% 12 08% (25 , 75) 21 57% 12 07% (25 , 50) 21 09% 12.19% (回溯延遲=20,相關平滑半徑=5,音框寬度二0.032) (語彙模型:音調preme/訓練核心-終結) (片語三圖LM)_ (LTN先置,LTN後置) TER/TER 縮減 CER/CER 縮減 (50,50) 23 54%(1691)(基礎線) 12 60%(905)(基礎線) (25 , 25) 25 27%(1816)( + 7.33%) 12 57%(903)(-0.22%) (25,75) 25 12%(1805)( + 6.67%) 12 75%(916)(+1.22%) (25,50) 24 41%(1754)( + 3.66%) 12 72%(914)( + 0.99%) (回溯延遲=20,相關平滑半徑=5,音框寬度= 0.032) (語彙模型:音調preme/訓練核心-終結) (片語三圖LM) 抽取音聲路徑移動的時間性質 使用自相關的第二階退化裝置,可從語音信號中抽取出 音聲資訊。若自相關第二階退化的常數項大於所給定的臨 界值,例如0.4,則將此音框之退化權數設定為1 . 0。若自 相關第二階退化的常數項小於所給定的臨界值,例如〇 . 1〇 ,則將此音框之退化權數設定為-0.0。除此二情況之外,均 將此音框之退化權數設定成該自相關第二階退化的常數項 。這些權數會被用在上述降語調F 〇輪廓的第二階加權退化 -28- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
(30)以及中國焐語骨韻律片語語調分量之長時距加權_ ^動平i句或中間滤波器上。這些降語調F 〇輪廊的第二階加 化之權數被设計成強調/去強調該基音輪廓之音聲/非 曰聲奴,以便將半音聲子音之音聲基音輪廓保存住。此機 制的好處在於,縱令語音的分段有些微的偏差,這些具有 F〇輪廓 < 先置調適刪剪回溯以充作線上預處理前端之信號 的權數,將可為子音基音輪廊保存母音的基音輪廊。此音 凋特徵足母音-保存特性,有能力保護模型參數使其免於因 語音分段錯誤而導致預估偏差。 、圖7之况私圖,是使用本發明之自相關第二階退化的較佳 法使用具相應於該先置調適刪剪F 〇之回溯輸出之導數之 ^後之自相關第二階退化,可從語音信號中抽取出週期性 資訊。首先使用基音動態時捲(PDT)技術來處理所抽取之 基音資料,以得到平滑化(幾近無多重基音錯誤)之基音輪 廓,然後施以第二階加權最少平均,以便抽取基音輪廓之 資料三此資料乃以退化係數代表之。常數退化係數乃用之 以計算在分解F〇輪廓時(如圖5所示)所需的權數。第一及第 二退化係數則用之以降低音調錯誤率。視窗的最佳設定值 大約是110毫秒,此長度小於正常說話速度下一個音節的長 度。 產生挺特徵向量 圖8是本發明擬特徵向量產生器之較實施法的流程圖。應 根據最大化區域相似度分數之準則,為語音的非音聲段產 生擬特徵向量以避免HMM中之模型參數的預估不致於有所 偏差。欲做到此,首先須計算出退化視窗内退化權數的和 •29- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467
裝 訂
若權數和小於預足臨界值(譬如,〇 25),則以該依最少平 方準則所產生出之擬特徵,取代該已一規一化之特徵(完全 回AfT至退產生情況,等於加權的退化)。 對於芫全靜音的區域,先置回溯中之區域最小路徑會製 造用以預估基晋之隨機值。在假設鄰音枢之先前規一化特 徵分佈均等及該規一化特徵之機率分佈具對稱性的情況下 ,此種降音調FG之估值及它的導數均具有零平均值·。變異 最小可確保HMM型音聲模型其每一個狀態的機牽分佈均不 退化。因為在音聲及非音聲區域間很難以毫秒為單位劃一 條清楚的線,所以音聲_非音聲區中所使用的是等加權退化 ,以便將音聲段中之可追蹤基音及靜音區域中之隨機基音 均予以平滑化。 音調分量 就如以上所說明的,在較佳具體實施例中,該音調分量 被足義為區域性的(最好是)1 10亳秒之降音調基音輪廓的加 權退化,以避免將内相位基音輪廓做進模型内,而該110毫 秒乃小於一個音節的長度(事實上,大約是一個母音的平均 長度)。這些區域退化中之權數被設計為強調/去強調基音 輪廓的音聲/非音聲段,以保存子音的音聲基音輪廓(初始 /preme)。此機構的主要好處在於,縱令語音的分段有些微 的錯誤(其不會將小量的非音聲視為音聲),這些權數:會 將母音(終結/toneme)保存,而將之視為初始/preme。在此 方法中,隨機模型的隨機性累積在訓練程序及稍後的辨識 -30- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) ------- 526467 Α7 ^ —j Β7 五、發明説明(28 ) 程序中。另外,它也允許針對初始/ preme的模擬分數以避 免因語音分段錯誤所導致對音調辨識的傷害。 實驗的設立 該等實驗已使用飛利浦的大量詞彙連續語音辨識系統來 加以執行,此辨識系統乃一 HMM型系統,其使用簡單通道 規一化用之具第一導數,句子型平均相減(CMS)之標準 MFCC特徵以及具密度確定對角共異矩陣之高斯混合密度。 實驗使用了三種不同的中國語連續語音語料,MAT語料庫( 電話,台灣中國語)、非公開個人電腦專用資料庫(麥克風 ,台灣中國語)以及1998大陸中文863標竿之資料庫。MAT 及個人電腦命令資料庫所使用的是說話者-無關系統。863 所使用的是分離的模型,分別針對每一性別予以訓練,而 解碼時該性別則已知。標準863語言模型訓練語料庫(人民 日報1993-4)内含該測試集。是故,該系統己經”知道”全部 的測試句,不能反映出真實生活命令狀況。為獲得真實的 效能圖像,該LM訓練集已因將所有的480測試句移除而”乾 淨”。下表摘要了該語料庫的特性。 -31 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467
A7 B7 五、發明説明(29 ) MAT 個人電腦命令 863 訓練 測試 訓練 測試 訓練 測試 型式 #說話者 721 26 241 20 2x83 未提供 #發言 28896 259 27606 200 92948 2x240 #音節/發言 5.66 14.2 30.1 35.5 12.1 12.6 TPP 3.37 3.54 3.50 辭典大小 42038 一 42038 56064 CPPbi 121.8 _麵 63.6 53.4 CPPtn 麵 106.1 51.1 觸細 41.3 CPPtri,内部 •麵 細 _麵 -- 14.4
裝 訂 個人數位助理器的存取通常相關於細緻及總基音錯誤。 因為我們假設基本現存的演算法均已額外的微調過且目光 焦點乃集中在語音辨識的整合上,所以該系統已取代以針 對音調錯誤率(TER)來最佳化。除最後一個表外,其他所 有的表均顯示有TER。TER乃是在音調-音節解碼時量測, 每一個音節均會提供該解碼器下列有關音節之資訊: -開始及結束音框(強迫排列而得), -基音節確認(無音調,從測試庫中得來),以及 -此特定音節所屬之音調集 - 並非所有我們五個語彙音調均可與所有的中文音節組合 。困惑音調已被定義成數個可能的音調。 -32- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 B7 五、發明説明(30 ) 下列實驗表的第一行顯示出實驗Id(Dl,D2,T1,等等 ),意圖快速地確認其他各表中之相同實驗。 即時/線上DP操作 第一個實驗討論的是使用動態寫程式法的好處。下表顯 示MAT及PCD在使用DP後其TER降低了 10-15%。只有非 常乾淨的863語料庫才不需要D P。因為真實世界命令系統 還需要處理雜訊的問題,所以為確保其強健性,D P仍是非 常的有用。
Id 基音抽取器 MAT PC 863 增益 D1 僅有SHS 32.0% 21.4% 24.0% b/1 D2 SHS + DP 27.0% 19.2% 24.3% 8.4% 第二組實驗要探討的是部份回溯的好處。直覺性地,接 合一個音節所需的資訊大約2 0 - 2 5個音框。但下表顯示1 0 個音框就足以使基音輪廓穩定。若保守一些,可選擇1 5個 音框。
Id 回溯長度 MAT PC 863 損失 D2 全句 27.0% 19.2% 24.3% B/1 ΤΙ 20音框(200毫秒) 28.3% 19.7% 24.4% 2.8% Τ2 15音框(150毫秒) 28.0% 20.0% 24.3% 2.9% Τ3 10音框(100毫秒) 28.5% 19.6% 24.2% 2.6% 若致力於縮減搜尋,下表顯示不同刪剪臨界之主刪剪用 之路徑重組(語料庫平均)數。音-調錯誤率增加最少的情況 下可縮減9 3 % ( P 3 )。保守一些,則可選擇P 2。 -33- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂 526467 A7 B7 五 發明説明( 31
Id 臨界 重組 MAT -—--- PC 863 損失 T2 0 28.0% 20.0% 24.3% 0% P1 0.99 681 28.4% 21.0% 23.9% 1.5% P2 0.999 413 29.0% 20.2% 24.4% 1.7% P3 0.9999 305 28.6% 20.2% 24.7% 1.4% 個 可使路徑重組數大量縮減之方式,但此法會導致一些退化( 下表中之實驗R丨)。在D P後微調基音,可減輕退化程度 (R2)
Id 量化 重組 MAT PC 863 損失 P2 48 413 29.0% 20.2% 24.4% B/l R1 16 99 28.7% 21.8% 25.6% 3.9% R2 16,調整 99 29.4% 20.8% 24.5% 1.5% 實驗已證實本發明之特徵向量較先前改善。此測試開始 於傳統的特徵向量〇(〇 = ($0(〇 ;△€(〇)。下表顯示所有 的效能全源自於△&(〇。將i^t)切掉影響甚小(F2);而若 只使用它則會導致效能劇烈下降5 2 % (F 3 )。取對數則無顯 著的影響(F 4 )
Id 音調特徵 MAT PC ! FI F〇(t) ; AF〇(t) 37.1% 28.2% : F2 僅有/^。⑴ 37.3-% 28.8% F3 僅有&⑴ 48.7% 49.8% F4 Logf“t);l〇gZ\f“t) 36.5% 28.3%
-34- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 B7 五 、發安 下; t) = 1 的視 1秒因 Η兑明(32 ) 良則顯示規一化的影響,將平均之鄰基音(權數w(f, ,公式(2 ))可去除說話者及片語效應。呈列三種不同 窗寬度(分別是0.6秒,1.0秒及1.4秒之移動平均),該 具有較小的邊限而最佳。 Id 規一化 MAT PC 863 增益 F1 無 37.1% 28.2% 29.9% B/l N1 移動平均0.6秒 33.0% 25.7% 29,1% 6.8% N2 移動平均1.0秒 32.1% 25.9% 29.1% 8.0% , N3 移動平均1.4秒 32.2% 26.5% 29.6% 6.8% A 下表將規一化的l〇gF〇(t)與1 .0秒之移動平均視窗作比較 以規一化句子平均。MAT及863語料庫均是由短言所構成, 帶有些許的片語效應。所以,對MAT而言,以句子為基礎 之規一化執行所提出的方法即可。另一方面863而言之性別 偏差,性別型模型中已將之考量在内,所以沒有改進。P C 命令語料庫具長言及強的片語效應,所以無法觀察到改進。 Id 規一化 MAT PC 863 增益 F4 36.5% 28.3% 29.8% B/l N4 移動平均1.0秒 33.3% 24.8% 28.7% 8.3% N5 句子平均 33.2% 28.6% 30.1% 2.4% 下4 風所4 ^顯示使用2階導數△△?〇(〇所產生的影響。使用麥克 导到的9 %改善最多。 Id △ △F〇(t) MAT PC - 863 增益 N2 否 32.1% 25.9% 29.1% B/l F5 是 30.7% 22.9% 25.9% 9.0% -35- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝
526467 亂 A7 B7 五、發明説明( 33 下表顯示出使用音聲v(f; t)作為特歡,會有4.5%的增 益’以間易的平滑化來降低雜訊,可更進一步地將增益調 至 6.4% ° Id 音聲特徵 MAT pp 863 增益 F5 無 30.7% 22 9% 25.9% b/1 VI 原 v (f ; t) — 29.9% 20.8% 25.5% 4.5% V2 平滑之V(f ; 0 29.1% 20.1% 24.8% 6.4% r I尺川u τ凋首耸炙導數,可更進一步使增益達到6 ·丄 ,但使用二階導數卻無法得到更進一步地縮減。如下表 % 所示 T7 · Id 音聲特徵 MAT PC 863 增益 V2 平滑之v(f ; 〇 29.1% 20.1% 24.8% 6.4% V3 平滑之v(f ; t),加 上1階導數 27.0% 19.5% 23.5% 6.1% V4 平滑之v(f ; t),加 上1階及2階導數 27.7% 19.7% 23.7% 4.5%
Id 規一化 V3 無加權 N6 加權 MAT 27.0%
PC 863 . 增益 19.5% 23.5% 19.0% 23.0% 6.1% 人採取上述所有的最佳化步驟,再加上使用特徵向5二從 驗F1至N6),相較於啟始向量^ $ 均徽可獲28·«的改善。()(心。⑴)’平 -36 526467
五、發明説明(34 ) 組合語言模型 實驗結果也確定了一件事,那就是最佳化的音調錯誤率 還會使整體的系統效能成為最佳狀態。為展現這個事實, 已使用片語型辨識辭典及片語-二元接續/三元接續語言模 型。針對所選的設置,量測已整合系統之字元錯誤率 (CER)。為了完整性及相容性,下表之後兩行顯示内含測 試集所得之結果(’’系統效能測試”)_
Id 音調特徵 MAT PC 863 增益 -一兀接績 細 無音調模型 42.4% 18.9% 11.6% b/1 F1 F〇(t) ; AF〇(t) 38.6% 14.5% 9.5% 17.0% N2 + F〇(t)規一化 36.4% 13.7% 9.1% 19.5% F5 + AAF〇(t) 35.0% 13.3% 8.6% 24.3% V3 +音聲特徵 34.4% 12.6% 8.3% 26.9% N6 +加權 34.2% 12.9% 8.1% 27.3% 三元接續 痛 無音調模型 40.4% 16.4% 10.4% b/1 N6 最佳音調模型 33.1% 12.0% 7.3% 25.0% 8 6 3標竿:三元接續,L Μ訓練内測試組 無音調模型 晒 細 3.8% b/1 Ν6 最佳音調模型 - 3.4% 10.6% -37- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
:果確互了道及CER間的對應性。再者,從音 仵到的整體㈣C則改善在平均接續)上 = 別㈣篇,在電話語音上增益最小(193%),對兩麥3 :料庫則超過30%。對三元接續而言,増益僅些微 :小、:因為二兀接續僅能從語言的上下言才可消除雙 義,廷就疋為什麼其需要模型幫助的原因。(終極情 863標竿LM_LM訓練内測試集_大部份的音調可從内言中: 確地予以去除,音調模型幫助了 1〇·6%)。 摘要 用以建構線上,強健音調特徵(540)抽取的重要性在於使 用連續音聲相音框的料巾之接合,區域們㈣的資訊 本發明去除了直接從連續時間音框處之邊限週期性資訊 來判定音調特徵;取而代之的是,將基頻的分侔處理成音 聲的程度。 、該線上,強健特徵抽取(905)之不同特徵,其亦可結合傳 統的技術(示於圖8圖9之區塊圖的組合),以流程圖的形式 顯示相同的資訊。重要的特徵有: -判定語音信號内的量度以抽取基音資訊(92〇),最好是以 次諧波加總(930)為基礎, -基頻的線上先置調適刪剪回溯(935),其中該調適刪剪乃 最好是以0.50秒之前的音聲及接合資訊程度為基礎, -去除片語音碉(950),其界定為音聲Fq輪廓的長期趨勢。 此效應可以一加權移動平均F Q輪廓,加權數則最好是與 該信號之週期性程度(91〇)有關, -38- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 B7 五、發明説明(36 ) -某時間音框的F〇輪廓之第二階加權去音調第二階加權退 化之平均,其中最大視窗長度相當於一個音節的長度, 所具之權數則相關於信號的週期性程度(910), -某時間音框範圍之自相關的第二階退化,其中最大視窗 長度相當於一個音節的長度,所具之時間落後則相當於 該由先置回溯程序(310)所估算出之基音的倒數,以及 -產生屬於語音音聲-非音聲段之擬特徵向量(960)。非音聲 語音則可根據最少平方準則(落回去產生狀況,等加權退 化)來產生擬特徵向量。 -39- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

Claims (1)

  1. 526467 91· 9, 一 9 A BCD 六、申請專利範圍 1 . 一種語音辨識系統,用以辨識時序輸入信號,輸入信號 所代表的是音調語言之說話語音;該系統包含: 一輸入,用以接收語音信號; 一語音分析次系統,用以將一段段輸入信號表示為觀 察特徵向量; 一單位匹配次系統,用以將該觀察特徵向量與已訓練 語音辨識單位清單比對,每一個單位均至少以一參考特 徵向量代表;其中該特徵向量所包含之分量,乃得自於 該參考特徵向量所代表之語音段的音聲預估程度; 該語音分析次系統係用以估計一聲段之聲音等級及在 表示聲段之觀察特徵向量中包含一得自聲段的聲音預估 等級之組成部分。 2. 如申請專利範圍第1項之語音辨識系統,其中該所得到 之分量代表的是該語音段之音聲預估程度。 3. 如申請專利範圍第1項之語音辨識系統,其中該所得到 之分量代表的是該語音段音聲預估程度之導數。 4. 如申請專利範圍第1,2或3項之語音辨識系統,其中該 預估的音聲程度接受平滑化。 5. 如申請專利範圍第1項之語音辨識系統,其中該音聲程 度是預估基音輪廓之短時自相關的量度。 6. 如申請專利範圍第5項之語音辨識系統,其中該量度乃 由該自相關輪廓之退化係數所形成。 7. 如申請專利範圍第1項之語音辨識系統,其中該特徵向 量包含一分量,代表該語音段之預估基音的導數。 -40- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 申請專利範圍 8 ·如申,專利|已圍第5或7項之語音辨識系統,其中該預 基音乃藉由將代表該語音段之預估基音 ς 調效應予以去除而得^ 语 9.如中請專利範圍第8項之語音辨識系統,其中該片言“五 调效應乃以該預估基音輪廊之加權移動平均來表現。η Γ〇.如申請專利範圍第9項之語音辨識系統,其中該加 動平均之權數代表該音段中之音聲程度。 多 11. 如申請專利範圍第i項之語音辨識系統,其中,若 徵向量代表的為非音聲段’則特徵向量以虛擬特徵向θ 取代。 I 12. 如中請專利範圍第η項之語音辨識系統,尤中若 基音輪廓之退化權數之總和是在退化視窗範圍中= 段視為非音聲。 W 5 13·如申請專利範圍第n項之語音辨識系統,並中嗲 向量包含根據最少平方準則所產生之擬特徵、。4特徵 -41 -
TW089126992A 1999-11-11 2000-12-16 Speech recognition system TW526467B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP99203766 1999-11-11

Publications (1)

Publication Number Publication Date
TW526467B true TW526467B (en) 2003-04-01

Family

ID=8240851

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089126992A TW526467B (en) 1999-11-11 2000-12-16 Speech recognition system

Country Status (7)

Country Link
US (1) US6829578B1 (zh)
EP (1) EP1145225A1 (zh)
JP (1) JP2003514260A (zh)
KR (1) KR20010089811A (zh)
CN (1) CN1160699C (zh)
TW (1) TW526467B (zh)
WO (1) WO2001035389A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8588427B2 (en) 2007-09-26 2013-11-19 Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8983834B2 (en) 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
TWI765261B (zh) * 2019-10-22 2022-05-21 英屬開曼群島商意騰科技股份有限公司 語音事件偵測裝置及方法
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US6959278B1 (en) * 2001-04-05 2005-10-25 Verizon Corporate Services Group Inc. Systems and methods for implementing segmentation in speech recognition systems
US7366712B2 (en) 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
KR100435578B1 (ko) * 2001-08-28 2004-06-10 컬쳐콤. 테크놀로지(마카오) 리미티드 음성 인식 방법 및 시스템
US20050055199A1 (en) * 2001-10-19 2005-03-10 Intel Corporation Method and apparatus to provide a hierarchical index for a language model data structure
US6721699B2 (en) * 2001-11-12 2004-04-13 Intel Corporation Method and system of Chinese speech pitch extraction
US7062444B2 (en) 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
TWI225640B (en) * 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
CN1763844B (zh) * 2004-10-18 2010-05-05 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
US8010358B2 (en) 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8346546B2 (en) * 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
US20080243492A1 (en) * 2006-09-07 2008-10-02 Yamaha Corporation Voice-scrambling-signal creation method and apparatus, and computer-readable storage medium therefor
US20080167862A1 (en) * 2007-01-09 2008-07-10 Melodis Corporation Pitch Dependent Speech Recognition Engine
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
JP5282737B2 (ja) * 2007-08-22 2013-09-04 日本電気株式会社 音声認識装置および音声認識方法
ATE523780T1 (de) * 2008-05-20 2011-09-15 Siemens Ag Verfahren zum bestimmen und bewerten von wirbelstromanzeigen, insbesondere von rissen, in einem prüfgegenstand aus einem elektrisch leitfähigen material
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
CN103035252B (zh) * 2011-09-30 2015-04-29 西门子公司 中文语音信号处理方法、装置及助听设备
CN103366737B (zh) * 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US8725498B1 (en) * 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2015026690A1 (en) * 2013-08-19 2015-02-26 Med-El Elektromedizinische Geraete Gmbh Auditory prosthesis stimulation rate as a multiple of intrinsic oscillation
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN103714824B (zh) * 2013-12-12 2017-06-16 小米科技有限责任公司 一种音频处理方法、装置及终端设备
US10733979B2 (en) 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
CN107331387A (zh) * 2017-06-29 2017-11-07 上海青声网络科技有限公司 一种汉字语音片段的确定方法及装置
CN109920406B (zh) * 2019-03-28 2021-12-03 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN111128130B (zh) * 2019-12-31 2022-11-29 秒针信息技术有限公司 语音数据处理方法和装置及电子装置
CN112349267B (zh) * 2020-10-28 2023-03-21 天津大学 基于注意力机制特征的合成语音检测方法
CN112562646B (zh) * 2020-12-09 2024-08-02 江苏科技大学 一种机器人语音识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US5806031A (en) * 1996-04-25 1998-09-08 Motorola Method and recognizer for recognizing tonal acoustic sound signals
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9691404B2 (en) 2004-03-01 2017-06-27 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US10403297B2 (en) 2004-03-01 2019-09-03 Dolby Laboratories Licensing Corporation Methods and apparatus for adjusting a level of an audio signal
US9697842B1 (en) 2004-03-01 2017-07-04 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
TWI484478B (zh) * 2004-03-01 2015-05-11 Dolby Lab Licensing Corp 用以解碼代表n個音訊聲道之m個經編碼音訊聲道的方法、用以解碼之裝置及電腦程式
US9311922B2 (en) 2004-03-01 2016-04-12 Dolby Laboratories Licensing Corporation Method, apparatus, and storage medium for decoding encoded audio channels
US9454969B2 (en) 2004-03-01 2016-09-27 Dolby Laboratories Licensing Corporation Multichannel audio coding
US9520135B2 (en) 2004-03-01 2016-12-13 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US9640188B2 (en) 2004-03-01 2017-05-02 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US9672839B1 (en) 2004-03-01 2017-06-06 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US9704499B1 (en) 2004-03-01 2017-07-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US8983834B2 (en) 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
US11308969B2 (en) 2004-03-01 2022-04-19 Dolby Laboratories Licensing Corporation Methods and apparatus for reconstructing audio signals with decorrelation and differentially coded parameters
US9691405B1 (en) 2004-03-01 2017-06-27 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US9715882B2 (en) 2004-03-01 2017-07-25 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US9779745B2 (en) 2004-03-01 2017-10-03 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US10269364B2 (en) 2004-03-01 2019-04-23 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques
US10796706B2 (en) 2004-03-01 2020-10-06 Dolby Laboratories Licensing Corporation Methods and apparatus for reconstructing audio signals with decorrelation and differentially coded parameters
US10460740B2 (en) 2004-03-01 2019-10-29 Dolby Laboratories Licensing Corporation Methods and apparatus for adjusting a level of an audio signal
TWI426502B (zh) * 2007-09-26 2014-02-11 Fraunhofer Ges Forschung 用於獲得提取環境信號的加權係數的裝置和方法中的用於提取環境信號的裝置和方法以及電腦程式
US8588427B2 (en) 2007-09-26 2013-11-19 Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
TWI765261B (zh) * 2019-10-22 2022-05-21 英屬開曼群島商意騰科技股份有限公司 語音事件偵測裝置及方法
US11594244B2 (en) 2019-10-22 2023-02-28 British Cayman Islands Intelligo Technology Inc. Apparatus and method for voice event detection
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Also Published As

Publication number Publication date
JP2003514260A (ja) 2003-04-15
EP1145225A1 (en) 2001-10-17
KR20010089811A (ko) 2001-10-08
WO2001035389A1 (en) 2001-05-17
US6829578B1 (en) 2004-12-07
CN1343350A (zh) 2002-04-03
CN1160699C (zh) 2004-08-04

Similar Documents

Publication Publication Date Title
TW526467B (en) Speech recognition system
Trivedi et al. Speech to text and text to speech recognition systems-Areview
US8036899B2 (en) Speech affect editing systems
Hanique et al. Informal speech processes can be categorical in nature, even if they affect many different words
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
Bartelds et al. A new acoustic-based pronunciation distance measure
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
TWI467566B (zh) 多語言語音合成方法
Mary et al. Automatic syllabification of speech signal using short time energy and vowel onset points
Adi et al. Automatic measurement of vowel duration via structured prediction
Kipyatkova et al. Modeling of Pronunciation, Language and Nonverbal Units at Conversational Russian Speech Recognition.
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Sovilj-Nikic et al. Tree-based phone duration modelling of the Serbian language
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka
Thangarajan Speech Recognition for agglutinative languages
Kane Tools for analysing the voice
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy
Reddy et al. Automatic pitch accent contour transcription for Indian languages
JP3883318B2 (ja) 音声素片作成方法及び装置
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Darekar et al. Improving emotion detection with speech by enhanced approach
Jones et al. An integrated dialect analysis tool using phonetics and acoustics
Benzeguiba et al. Automatic speech recognition and intrinsic speech variation
Sharma Implementation of ZCR and STE techniques for the detection of the voiced and unvoiced signals in Continuous Punjabi Speech
JP2010256765A (ja) ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees