TW526467B

TW526467B - Speech recognition system

Info

Publication number: TW526467B
Application number: TW089126992A
Authority: TW
Inventors: Chang-Han Huang; Frank Seide
Original assignee: Koninkl Philips Electronics Nv
Priority date: 1999-11-11
Filing date: 2000-12-16
Publication date: 2003-04-01
Also published as: JP2003514260A; EP1145225A1; KR20010089811A; WO2001035389A1; US6829578B1; CN1343350A; CN1160699C

Description

526467 A7 B7 五、發明説明（1 ) 本發明涉及音調語言，像是中國語的自動辨識。語音辨識系統，譬如大量詞彙的連續語音辨識系統，一般都是使用聲學/語音模型及語言模型來辨識語音輸入型態。在辨識語音信號之前，該信號須先接受頻譜及/或時間的分析以計算出特徵代表向量（觀察向量，0V)。典型地，先將語音信號數位化（譬如，以6.67仟赫的頻率加以取樣）及預處理（譬如施以預強調）。然後將連續的、相當於譬如，20 或3 2毫秒的樣本集合成音框。音框與音框間部份重疊，譬如，重疊10(音框為20毫秒者）或16毫秒（音框為16毫秒者）。通常先使用線性預測編碼（LPC)頻譜分析法計算出每一個音框的特徵代表向量（觀察向量）。該特徵向量可能擁有譬如，24，32或63個分量。然後使用聲學模型來預估一給定字串中其一系列觀察向量的機率。對大量詞彙的系統而言，欲完成此動作，通常是將該等向量與一堆的語音辨識單元加以比對。一個語音辨識單元是一列的聲參考。譬如，一整個字成甚至一堆字都可以由一個語音辨識單元來代表。同時也會使用到語言型的次字單元（像是單音，雙音或音節）以及衍生單元（像是fenen或fenon)。對次字型的系統而言，字模型中會有一部辭典，描述著與字彙有關的系列次字單元，另外還有次字模型，描述所涉入語音辨識單元的聲參考系列。該等（次）字模型一般都是以隱藏馬可夫模型 (HMM)為基礎的，HMM廣泛地巧以統計地模型語音信號。將該等觀察向量與所有的語音辨識單元系列作比對，提供出該向量與各個單元的符合相似度。若使用的是次字單元 -4- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐） 526467 A7 B7 五、發明説明（2 ) ，那麼次字單元的系列就僅限於該辭典中。語言模型更進一步地為比對設下條件以便所開發出之路徑可為那些相當於語言模型所確立的適當系列之字系列。結合聲學模型與語言模型的結果，就產生出辨識句子。現存的語音辨識系統絕大部份是針對西方語言所開發的，傢是英語或德語。因為西方語型的字音調並不會影響字義，所以反應在基音輪廓中的音調，在作聲學理解時會將之視為雜訊，不予理會。該特徵向量及聲學模型並不包含音調資訊。但對所謂的音調語言，像是中文而言，音調資訊卻會影響字義。語彙的音調發音在中文字的正確發音上扮演了一部份的角色，且反映在聲證據，像是基音輪廓上。舉個例子，全世界使用最多的語言-中國語就具有五種不同的音調（在音節基音輪廓内之原型音），通常可區分為”高 π(平基本頻率F〇輪廓）”上升”（上升F〇輪廓），”低上升”（低輪廓，平坦的或下降又升起的），”下降"（下降輪廓，可能是從低F〇)，以及”中性”（中性的，可能是小的，從低F〇之短下降輪廓）。在連續的語音中，該低上升音調可以視之為 ••低”音。以不同音調發音的相同音節，通常具有完全不同的意義。直覺性地，中國語之音調模型乃是根據一項事實所建立的，此事實是，人們可以直接地從音聲基頻的型態，辨識出中文字的語彙音調。是故，在發展高精確音調語言語音辨識器時，我們希望將語彙音調資訊作為知識源之一。為整合語音模型，我們希望能決定出適當的特徵，併入現存的聲學模型或額外的本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐）裝訂

526467 年月日 /Λγ .，疒象L[ 補充 A7

裝訂

'。另外一個缺點是，平滑濾波器_的平滑係數（臨界值）其變動性疋非常強的。除此之外，此種類型的音調模型其架構相當的複雜，以致無法使用在即時性的，大量詞彙的專用音調模型中。已知使用基音（基頻Fq)或落後基音作為音調特徵向量的-個分^音調特徵向量典型地w基第-(亦可選擇性地包含第二）導出音。在多通料系二中 ’通_含有能量及期間資訊。對於基音的量測已研發十年。，基本的基音檢測演算法(PDA)都有一個共同的二題’那就是會發生多重/次多重的總基音錯誤。這種錯養会使基音輪摩變形。在中國語音調模型所使用的古典方法; ，是將語音信號加以分析以判定其為音聲或非音聲信號。預處理前製端必須在不引人多重/次多重基音錯誤的情^下，估算出具可靠性的基音。大冑份都是藉由微調多重基音錯誤及次多重基音錯誤間之臨界值，或是在可能的基音二動上加上區域的限制，來完成上述的不引入錯誤之可1性基音的估算。典型地，可透過平科如，中㈣波器^先可對：理基音範圍及移動的知識，將語音信號内的相似度予以最大化以可強健地對抗多重/次多重基音錯誤，使基音的預估得以改善。每-個已辨識的字或音節的語彙音調二是以隨機HMM獨立地予以解碼。此方法有許多的缺點。語囊音調僅存於中文字的音聲段中，所以我們希望能抽取Z 浯音音聲段們基音輪廓。然而，要在一段段語音中判斷出何者為音聲，何者為非音聲，眾所週知是非常困難的。在預處理的前製階段中，是無法可靠地判定出音聲/非音聲段 -6 - 526467

A7 B7 五、發明説明（4 ) 系統中；此類系統現今主要是執行在個人電腦中。為克服多重/次多重基音錯誤的問題，除了運用基音輪廓的連續特性之知識外，還使用了動態寫程式（DP)技術。不過，DP之發言型之本質使其無法使用在線上的系統。改良對語音信號之音調特徵的抽取，是本發明之目標。為適於音調語言語音自動辨識之語音特徵向量，定義其分量（而非基音），是本發明之另一目標。為改良音調特徵之抽取，演算法之改進如下： -基音抽取技術之兩步驟法： -低解析度時，判定基音輪廓，最好是在頻域中判定 -高解析度微調時，最好是在時域中，將分析窗中準週期信號内的已規一化相關予以最大化來判定，其中該分析窗内含不止一個完全基音區間。 -低解析度基音輪廓的判定，最好是包含： -根據語音信號内的相似度量測來決定基音資訊，最好是根據頻域中之總次諧波來決定 -使用動態寫程式（DP)法來消除多重及次多重基音錯誤。該動態寫程式最好是包含； -增進效率用之調適主刪剪， -用以保証最大延遲之固定長度部份回溯，以及 -橋接非音聲及靜音區段。這些改良可以單獨或综合使用於_傳統的技術中。為改良特徵向量，該語音特徵向量應包含可代表與該特本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 _1,......—J_B7_ 五、發明説明（5 ) 徵向量有關之語音段其預估音聲程度之分量。在較佳之具体實施例中，該特徵向量還包含代表該音聲預估程度之第一或第二導數之分量。在一具體實施例中，該特徵向量包含代表該音段之預估基音之第一或第二導數之分量。在一具體實施例中，該特徵向量包含一代表該音段基音之分量。最好是減去該平均鄰近基音將該基音正規化以去除說話者及片語的影響。正規化時最好是以音聲的程度為加權因數。令人激賞的是，向量分量可以包含自己本身所涉入的參數或任何合適的參數量測，像是對數。應注意的是也已使用了簡化的中國語音調模型。在此種模型中，因為音聲/非音聲的判定不具可靠性，所以會從音聲至非音聲段以内插/外插法來產生擬基音。音聲程度這項知識並無法實際使用。但我們並不希望忽略音聲程度這項知識，這是因為音聲程度是一個肯定會改良辨識品質之知識源。譬如，音聲段中之基音移動相當的緩慢（1%/1 ms) ，但在音聲-非音聲段或非音聲-音聲段中之基音移動卻跳動得非常快速。本發明之系統就是要探查音聲程度這項知識。參考說明附圖所示之具體實施例，本發明之這些及其他面向將益發顯明。圖1說明抽取音調特徵的三階段；圖2是量測基音的流程圖；圖3是具回溯及調適刪剪之動態_寫程式之流程圖；圖4是音聲程度及基音輪廓例；_ 圖5是將F〇輪廓分解成語彙音調效應，片語語調效應及隨 -8- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 A7 B7 五、發明説明（6 ) 機雜訊效應之流程圖；圖6A及B說明加權濾波器的使用；圖7顯示對自相關之第二階退化的處置；圖8之方塊圖說明了非音聲語音段中特徵向量之處置；圖9之方塊圖說明了本發明具体實施例之強健音調特徵抽取器；及圖1 0顯示相應之流程圖；圖式元件符號說明 110 周期性量測 120 連續性限制 130 得到特徵 210 低通濾波器 220 分段 230 快速傅力葉轉換 240 平滑化 250 内插 260 次譜波加總 270轉移分數 280 周期性資訊 310 先置回溯 320 調適刪減 330 基音粗估 340精準基音選擇 350 内含不止一基音周期之分猗窗 360 精細基音&相關的輪廓 510 軟性加權退化 -9- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 526467 A7 V B7 五、發明説明（7 ) 520 中文語音韻律的片語語調修改 530 以加權退化分解F 0降語調 540 粗略語調特徵 810 以加權退化分解F 0降語調 905 用於中文之特徵選取 910 周期資訊處理 915 相似量測 920 選取基音資訊 925 粗略F 0 /最大相似選取 930 次諧波加總 935 低解析度F 0之先置回溯 940精細搜尋基音 945 粗略語調資訊處理 950 片語語調修改 955 以加權退化分解F 0降語調 960產生屬於語音-非語音聲段之虛擬特徵本發明之語音處理系統可以用傳統的硬體施行。舉個例子，一個語音辨識系統可以施行在電腦，像是個人電腦上，透過麥克風接收所輸入之語音，再利用傳統的音效卡將語音數位化。其他所有的處理步驟則都是以軟體程序的形式由中央處理器來執行。特別是，語音可以透過電話連接譬如，使用傳統的電腦中之數據機加以接收。也可以使用專門的硬體譬如，以數位信號處理器為主所建構的硬體來執行語音處理。因為語音辨識系-統已廣為人知，所以此處僅針對就與本發明相關的部份作詳細地說明。說明主要是 -10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

針對中國語。習於此藝人士可輕易地將此處所示之技術修改成適於其他的音調語言。圖1說明了從語音信號s(n)之觀察向量5(t)中抽取音調特徵之三個獨立的處理階段。本發明在此三個階段中均提供出改良。最好是將所有改良組合使用。不過，它們也可以獨亙地使用於某一個階段，而其他的階段則仍使用傳統的技術。第一階段是週期性的量測（基音）（110)。為達到此目的，輸進來之語音信號s(n)必須被分割成重疊的音框，每個音框取好是平移1 〇毫秒。對於每一個在時間t之音框，均為頻率範圍f判定出一個量測^£，t)，以表達該信號在頻率f之週期程度。就如以下會有們詳細說明，最好是使用次諧波加總演算法（SHS)來判定p(f，t)。第二階段引入連續性限制（120)以增加強健性。它的輸出是一列原始的基音特徵，量，其是由實際的基音預估f〇(t)及相對應的音聲程度 v(F〇(t)，t)(最好是使用正規化之短時距自相關來作為音 4私度之度量）。最好是使用以下會有詳細說明之動態程式 (DP)法來施行該連續性限制。第三階段，標示為叩八丁，執行的是後處理及規一化之動作，最後得到一列實際的向量 o(t)之晋調特徵（13〇)。以下為詳細的說明。週期性之量測圖2顯示判定基音資訊之較佳方法之流程圖。所接收之語音信號可能是類比的形式。考是如此，可以使用類比/ 數位轉換器將該語音信號轉換成取樣的數位信號。人類聲帶物理振動範圍中可能的基頻Fg之基音資訊，即是由該 -11 - 本紙張尺度適$中國國家標準(CNS) A4規格(21(}X297公爱) 52_ 卜…廣丨 I v： …t_______ A7 ------ B7 五、發明説明（9 )〜 ' *---— 數位化之語音信號中抽取出來的。接著，量測週期性。大部份的基音檢測演算法都是以在所預期的F 〇範圍中將像p(f，t)這樣的量測予以最大化為基礎所做出|的。在時域中，此種度量典型地是以信號的自相關函數hi 或距離量測（似AMDF)為基礎的。本發明所使用的t是次諧波加總（SHS)演算法，此演算法乃是操作在頻域中，提供次諧波加總來作為度量。該數位的取樣語音信號會被送往強健音調特徵抽取前端，取樣的語音信號在此前端中首先最好是接受截止頻率小於125〇赫玆之低通處理。若疋簡易的施行，則此低通濾波器（21〇)可以用移動平均fir濾波器來做。接著，將信號分段（22〇)成數個在寬度上相同，在時間上有重疊之分析閘。將每一個分析閘均乘上（，,架窗 ”）所謂的漢明視窗（或等效視窗），漢明視窗通常為語音分析的核心部份。該分析窗必須内含至少一個完整的基音週期。基音週期τ的合理範圍為： 2.86毫秒= 0.00286秒=1/350S τ S 1/50 = 0.020秒=20 亳秒因此，視窗的長度最好至少2 〇毫秒。然後计算出分析閘（亦稱之為音段或音框）中已取樣語音 k號的代表，最好是使用快速傅立葉轉換（FFT) ( 23〇)，以產生出頻譜。接著將該頻譜加以平方，產生出功率頻譜。最好疋可以加強振幅頻譜的學值以增加其強健性。接著最好是用三角核心（使用係數為丨/4—，1/2，1/4之低通滤波器較有利）法將該功率頻譜平滑化（240)，產生出平滑化之振幅頻譜。接下來，最好是在該已核心平滑化之振幅頻譜上施 -12- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 A7 B7 五、發明説明（10 ) 以I解析度點的三次仿樣内插（250)(為了能快速地找到正確的路徑，處在低頻解析度時，最好每八度不要超過1 6個等距點）。最好是取頻率對數刻度的反正切函數以在已仿樣内插的功率頻譜上執行聲敏度的補償：邓〇g2/) = 0.5+恤-丨(3.0*!〇心刀 π 為了人聲帶物理振動的可能.基頻F〇範圍，接著要施以次諧波加總（260)以產生基音資訊。 ^]>v/P(log2〇^)) W< 1250), 1,2,···，//峨 wk = (c)*-1, where k^\ P(log2(f)) = C(log2(f))*A(log2(f))，其中C(log2(f))是由 S(log2(f))而來之仿樣内插，從FFT而來之功率頻譜，c是雜訊補償因數。最有利的是，對麥克風輸入而言，c = 0.84 ;對電話輸入而言，c = 0.87 ; f是基音（以赫茲為單位），50 $£$ 350。19 88 年元月號之厂八(：〇1^.3〇(^八111.，0· Hermes所寫之π以次諧波加總法來量測基音’’中有SHS演算法的詳細說明，在此納為參考。此處僅對S HS作摘要性地描述。以St(n)代表輸進來之已漢明視窗語音信號的第t音框，以St(f)表其傅立葉轉換。在觀念性上，將St(n)投影在週期為f之函數次空間上之能量Ef予以計算出來，可以判定出基頻： -13- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）裝

526467 τ Α7 .......................’i Β7 五、發明説明（”) ' - 以及以f最大化。在Hermes所說明的真實SHS法中，引入了各種使結果更精鍊的作法，包括取代使用了峰值加強振幅頻缙丨st| ’以可表現聲音系統敏感度之濾波器w(f)來予以加權’以及以權數hi加權強調較低階的次諧波，藉由快速傅互葉轉換’内插以及於對數刻度上執行重疊來有效地予以實現，得到如下之公式： Ρ(/，〇 = ί>Λ，;("/)|·，/)) Λ·1 在此式中’ Ν代表的是諧波的數號。連續性的限制有一個直覺性地預估基音的式子·· ^(t) = argmaXfp(f， t)。不過’由於音框間缺乏連續性的限制，所以很容易發生所明多重及次多重基音錯誤的情形，此現象最常見到於受廣頻通道雜訊影響的電話本体中。根據本發明，動態寫程式的原則就是使用在引入連續性（於語音的音聲段中）。如此’基音就不是在獨立隔絕的情況下被預估，而是在考量其隔壁音框的情況下全面性地估算，藉以使路徑錯誤達到最小。根據語音音聲段中基免連續性的特徵，基音僅在很有限的範圍内變動（大約是每毫秒1 % 。可以利用此資訊來避免多重/次多重基音錯誤。使用動態寫程式法就可確保 -14- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐） 526467 五、發明説明（ 12 預估基骨時所跟隨的是正確的路徑。應了解的是，在語音的音聲-非音聲段中的基音變動是繞富有戲劇性的。此外T 在給定的路徑邊界上之全搜尋法是非常耗時的（由於其不必要的長處理延遲），這使得以即時性的系統來實施針對高音調品質的基音追尋，幾乎是不可能的。這些缺點是可服的’以下有更詳細地說明。動態窝程式、下之A式可將連績性限制包含在基音檢測中： ^0 Ο .X) = arg max 2] p(F0 (/), t\aF F〇(L.r) ,.| (抓(卜i) 0) 裝其中af〗I q的用意在於遏止基音的快速變化。藉著將F 〇加以量化，以動態窝程式（DP)法可以解決此準則。訂許多系統在靜音及非音聲區域中的基音值是設為〇的。這導致一個問題：在音聲/非音聲邊界處具有零變異值及未定的導值。將基音朝向平均值指數衰減，是已知的作為^ 區域間"橋樑"的方法。DP提供了作為非音聲及靜音區域^ 橋樑的有效方法。其引出了音節基音輪廊（位於主母立的立節中)的”外插”，在時間上退回到其初始的常數。已：現：現象可為辨識器提供額外的有用資訊。 ^ 部份回溯根據公式（1)，在決定基音輪廓之前需要先處理發女個τ音框，這使得其不適於線上操作。本發明會執㈣ς 回湖，冗全地利用到DP的路徑合併性質。在語音辨識期門本紙張尺度適用中國國豕標準(CNS) A4規格(210X297公爱) -15- ’以維比解碼是已知的回溯技術。在此不多做說明。最好是使用固足長度之部份回溯以保証最大延遲：在每一個音框t ’均決定出區域的最佳路徑並回溯ατ!個音框。若AT! 足夠大’那麼因此而決定出之基音穿〇(t-ATi)可期待它是可靠的。實驗顯示，可以將延遲限制在大約15〇亳秒；這種延遲已經小到使用者無法察覺。主刪剪在上述之形式中，路徑重組佔去了中央處理器的大部份時間。為減輕中央處理器的負擔，要使用主刪剪。語音辨識的主刪男方式已為人所熟知，在此不做全盤性地說明。對於每一個音框，只有保證能導致全面最佳化之路徑子集合，才會受到考慮。分數sc(t)符合下述條件之路徑才會加以散佈（scopt( τ )=在時間r的區域最佳分數）： sc(t)-scopt(t-AT2) <臨界值 scopt(t)-scopt(t.AT2) 因為效率是最主要的考量，所以必須在不傷害品質的情況下，儘可能地刪剪。在該動態寫程式步驟中，即使是在音聲-非音聲語音段中使用了動態寫程式技術，預估的=音仍然存在著動態性的變動。這是因為純靜音區域中不具= 週期性的資訊（280) ··所有可能的基音值其相似度都是二的。理論上在此時是沒有必要做刪剪的。—、 7 刀~方面，在，純的語音區域中卻又有許多的週期性資訊（28〇)，在多重/次多 A7

，確基晋上有許多峰值的基音分佈。此時將一些累積分 2常的路徑加以刪剪是受歡迎的。刪剪的準則最好也能於、目^響考慮進去。若在句子—開始時有超過大約1 · 0 一'、停b部如那麼取好應該不要執行刪剪動作。實驗顯不I:將該等其累冑‘至今，之累積分數小於累積‘至今取问累積分數之99 9%之路徑加以刪剪，將會導致失去曰勺正崔路線。另一方面’若所冊ί剪的路徑是該等‘從〇·5秒至纟之累積分數小於‘從〇 5秒至今，之最高累積分數<99.9%之路徑，則將可保住正確的路線，且可較全搜尋法節省96.6%的迴圈時間。降低解析度裝訂各仏重組的數目正比於D ρ頻率解析度的平方。降低D ρ 中頻率，的解析度可以使速度明顯地加快。解析度的最低艮大、t是每八度5 〇個量化步騾。低於此，該D ρ路徑就會變得不正確。已經發現，若每一個音框均於，粗估路徑附近中接受基音預估^⑴的微調’那麼該最低限可再進一步地降低。取好是於量化步驟Q(t)t較高解析度處，從該低解析度路徑v(f，t)予以最大化來做到。即： ^〇(0 = argmaX/eQ(〇v(/>〇圖3是本發明以調適刪剪法將的先置，區域相似度予以最大化之較佳法的流程圖。摘要為下列的步騾： -計算語音之音聲段中所有可能基音移動的轉移分數（27〇)。

526467 A7

•18- 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 526467 年月

无A7 -------------------- β 7五Τ發明ΐθ月（16 ) " 接下來計算出最大次諧波總和的共同值，以及‘至今，（從語音信號一開始至該共同的音框）所累積的路徑分數。該 ‘至今’累積路徑分數可以使用下列的循環公式計算出來 ••所累積的分數[j][音框_ U +基音移動[kHj]*現在的 SHS[k][音框]; 基音抽取只發生在那些轉移機率分數大於（最好是）06的基骨移動上。轉移機率分數小於或等於0.6之路徑延伸則跳過去。調適刪剪（320)最好是以累積過去〇 5秒之累積路徑分數為基礎。此標記為參考累積分數。該調適路徑延伸所使用（決定準則最好是用在延伸路徑僅發生在那些轉移分數大於0.6之基音移動上。轉移機率分數小於或等於〇6之路徑延伸則跳過去。另外一種做法則是以音聲的程度為基礎來做調適刪剪（320)。根據本發明專利範圍第6項之方法，其中孩調適刪剪使用了以音聲程度為基礎之決定準則： -若譬如，過去〇 5秒内之累積路徑分數小於過去相同時間内所累積之最大累積路徑分數的99 9%，以及在現時甘框中存在非常多的週期性資訊，以公式表達則是為：若（累積分數[j ][音框-i ] _參考累積分數）小於9 9 9 %之（最大累積分數[音框-1 ]—參考累積分數），以及在現時音框中存在非常多的週期性資訊（28〇)(譬如，現時Shs[jj [ 音框]-現時最大SHS[音框]之80.0%)則在路徑上進行梦集地刪剪。 -右在現時音框中擁有少量含糊的基音資訊，則將先前路技延伸至現在最有可能之最大及最小基音移動，則可在裝訂

線 -19- 本紙張尺度適用中國國豕標準(CNS) A#規格(2夢挪公爱）進的刪13 °若在現時音框中存在較少的週 =:貝訊，則發生鬆教的刪剪。這是因為句子的一開頭，，巴大邵份是由靜音所構成’因此所累積的路徑分數太小以致無法進行密集的刪剪，這與音聲_非音聲段句子的一開頭是有所不㈣。在靜音多的情財，現時音框中所 =的基音資訊乃是少而含糊的。將先前路徑延伸至現刪=有可K取大及最小基音移動，即可做出鬆散性的 2預估正確的基音而在穩定概估基音的鄰音中執行高解析又，細緻的基音（360)搜尋，其是在相關分佈圖上執行三次仿Ϊ内插。此可在不需付出精確度的代價下，顯著地降低 1。先置調適刪剪回潮中之現用狀態。在該高頻解析(為了高基音品質)處之高解析度，細緻基音搜尋所使用的手法是， =内含不止-個完全基音週期之分析窗㈣中準週期信號 =:見-化相關予以最大化。内定的視窗長度為該最大完全基音週期的兩倍。 FA50赫兹，基音週期$1/5〇 = 〇〇2〇秒，視窗長度 0.020秒=4 0亳秒使用孩FG之先置調適刪剪回溯法的好處在於，其幾乎不必再受許多以拾學規則為礎之基音檢測演算法其所必須忍受的多重或次多重基音錯誤。實驗顯示’相較於該試探拾辛規則，音賴誤率（TER)及文？錯誤率（CER)均顯著的下降。另外’因為其先置了0.20秒且以基音資訊為基礎(不論本纸張尺度適用中國國豕標準(CNS) A4規格(210X297公釐) -20- 526467 A7

裝訂線

526467 五 16.734% 4.185%

發明説明（19 臨界值：基音估算的相應相關全部錯誤率··相關臨界值上之條件 SHS及PDT間預估的次（多重）基音錯誤機率旎I及其導數也可取用為音調特徵，但因為這些成份已表現於頻譜特徵向量中，所以此處並不將它們列入考慮。音凋特徵被足義為兩個部份。第一個部份是擴及鄰音框之降音調F0輪廓之第二階加權退化之退化係數，其具有之視ά尺寸與相當於信號週期性程度之加權與音節的平均長度有關。第二個部份則處理信號的週期性程度，其乃自相，輪廓之第二階退化的退化係數，具有之視窗尺寸則與相 S於先置回溯（310)程序所預估之基音其倒數之落後相關與音節的平均長度有關。長時距基音之規一化使基音作為音調特徵事實上會降低辨識的效能。為如此的原因是，基音輪廓是下列各項重疊而成的： a )說話者之基本基音， b) 句子階層的韻律， c) 真實的音調，以及 d) 隨機的變異。 -22- 本紙張尺跋財g S家標準(CNS)械格(21() χ撕公爱)

526467

雖然（C)是我們想要的資訊，（d)由HMM負責處理，及 (b )與骨_辨識無關，但它們的變異超過了第一及第三音調間之差異。此說明於圖4，此例是一個基音輪廓，其代表的是863女性測試集中所說的第151句。由於句子的韻律，此句中之第及第二音調的基音位準變得無法區分。此句中，片語成份撐開了 5 0赫茲的範圍，而成人說話者之基音卻可能在1〇〇至300赫茲的範圍。圖4們上端是基音輪廓，其中虚線標示出（預估的）片語成份。粗線則標示出音聲程度大於〇6之區域。圖4之下半部則顯示出相應的音聲程度。已提出對對數基音施加，’ cepstral平均相減”，以得到與陽性典關的基音輪廓。雖然此有效地移除了與說話者⑷的相關性，但片語的效應（b)卻不算在内。本發明藉由將片語語調效應及隨機效應予以去除，保持住存在於信號中之語彙音調效應。對中文而言，語彙音調效應代表中文音節内所確立的語彙音調發音。片語語調代表的則疋存在於多音節中文字基音輪廓中之音調效應。是故’本發明藉由減去說話者效應及片語效應，將該預估的

A 基音F〇(t)規一化。該片語語調效應被界定為音聲Fq輪廓的長時距趨勢，此可由鄰t中ΐ〇(ί)之移動平均來近似。最好使用的是加權的移動平均，且此加權應與信號的週期性程度相關。在重疊假設之下，該片語語調效應會從令0(t)輪廓中被去除。實驗已證實了這一點。式子為 -23-

本紙張尺錢财H S家標準(CNS) A4規格(210X 297公E 526467 A7 B7

Γ«—Δ?3 + r).w(F0(/ + r),/ + r) K^〇(^ + r),/ + r) (2) 此式的簡化形式，該移動平均被估算為w(f ; t)，是一個直覺性的移動平均。最好是計算加權的移動平均，=中該加權最好是代表音聲的程度（w(f ; t)==x/(f ; 。將焦點放在清晰的音聲區域，後者之平均值會使預估有些許的改良。大約1.0秒的視窗，可使該加權移動平均濾波器有最佳的效能。圖5是將F 〇輪廓分解成音調效應、片語效應及隨機效應之較佳方法的流程圖。其包含： -計算語音信號的規一化相關，其時間落後乃相應於由先置回溯程序所預估出之基音的倒數。 -使用針對整個鄰音框之移動平均或中間濾波器，將該規一化相關之輪廓平滑化（具與音節之平均長度有關之視 W尺寸）。該移動平均濾波器最好是： γ-平滑（〇 = (1*)^-5) + 2*7(14) + 3*7〇3) + 4*丫〇2) + 53^〇 1) + 5*y(t) + 5*y(t +1) + 4*y(t + 2) + 3 *y(t + 3) + 2*y(t + 4) + l*y(t + 5))/30 -針對整個鄰音框計算自相關之第二階退化的係數（具與音軎P之平均長度有關之視窗尺寸）。 -24-

最好疋使用針對n個（η = 1 1)音框之最少平均準則來計算 :平滑自相關的退化係數^。，Τι，Τ2。為了執行的效 ^，可跳過此操作，以平滑化之相關係數取代的是常數料料.· 使用 2η+ 1 〇 n(n + l)(2n + l) ) 3 Ο η(η + 1)(2η + 1) 〇 3 ， n(n + l)(2n + l) 〇 η(η + 1)(2η + 1)(3η2+3卜1) 另外一種作法，針對η個（η= η)音框之加權最少平均準則來计算F〇輪廓的退化係數，其資料矩陣是加權的函數。 /*—Π /«-π i雒細η η 2 ν·^-Λ η 3 Σ^1 /«·/! /> 、 Σβ /=-π η .3 Σν /β-Π η 4 其中權數是： ^r〇t/>〇Ay -根據鄰音框之自相關第二階退化之退化係數的常數項來計算F〇輪廓的退化加權（具與—音節之平均長度有關之視窗尺寸）。最好是根據以下的準則來計算退化權數： -若該自相關退化係數之常數項大於〇.4〇，則將此音 -25- 526467 ..-4- ::.， - ‘·... ϊ 1 A7 ___1_ .....㈣LC'丨 B7_ 五、發明説明（23 ) 框t之退化權數設定為近似於1.0， -右该自相關退化係數之常數項T 0，t小於〇 · 1 Q，則將此音框t之退化權數設定為近似於〇 . 〇， β若是其他的情沉，則將此音框t之退化權數設定為該自相關退化係數之常數項。對於該已加權的退化及已加權的長時距移動平均濾波器則最妤是使用以下的權數： Γΐ,/0/>0.4"

Yoj

Uro^o.i, -以長時距加權-移動·平均或中間濾波器來計算中國語語音韻律的片語語調分量（520)。最好是，該視窗尺寸與片之平均長度有關’權數則是與F 〇輪廓的退化權數有關。最好是將該用以抽取片語語調效應之長時距加權-移動-平均濾波器之視窗長度設定在大約〇 8〇至丨〇〇秒的範圍。 •藉由從鄰晋框之片語語調效應中扣減，來計算降音調基音輪廓之第二階加權退化的係數（所具之視窗尺寸與音節的平均長度有關）。 i 乂上所說月的，我們以非時變加權移動平均（M a )濾波器及F〇輪廓的加權（將母音強調出來）最少平方，將該F〇輪廓为解成^彙音調效應、片語語調效應以及隨機效應。因為語彙音調效應僅存在於中文音節的音聲段中，所以引入鄰 -26-

526467 A7 B7 五、發明説明（24 ) 音框（其視窗尺寸與音節的平均長度及權數有關，而該權數則視週期性的程度而定）的加權退化（360)，可解決音聲-非音聲段語意含糊的現象。圖6A是句子F〇輪廓的最少平方。圖6B是相同的句子在施用了帶有加權最少平方（WLS)之加權移動平均（WMA)濾波器後之輪廓。該片語語調效應乃是由WMA濾波器來預估。音調效應則相當於F〇輪廓的WLS其常數項減去該片語語調效應。下表說明出該片語語調效應是可以忽略的。 (LTN先置，LTN後置） TER/TER 縮減 CER/CER 縮減 (0 >0) 22 94% 12 23% (40，40) 20 51% 12 07% (50，50) 20 19% 12 12% (60 ， 60) 20 35% 12 05% (回溯延遲=20，相關平滑半徑=5，音框寬度= 0.032) (語彙模型：音調preme/訓練核心-終結） (片語三圖LM) 實驗決定出WMA濾波器的最佳效能大約是1.0秒（如上表所示），在大部份的情況中，此可對稱地涵蓋上升及下降音調。下二表說明了負面非對稱對TER(音調錯誤率）的影響。這也就是為什麼WMA不僅僅是F〇的規一化因數，也是片語規一化因數的原因。 -27· 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）五、發明説明（25 ) (LTN先置，LTN後置） TER/TER 縮減 CER/CER 縮減 (50，50) 20 19% 12 12% (25 ， 25) 21 29% 12 08% (25 ， 75) 21 57% 12 07% (25 ， 50) 21 09% 12.19% (回溯延遲=20，相關平滑半徑=5，音框寬度二0.032) (語彙模型：音調preme/訓練核心-終結） (片語三圖LM)_ (LTN先置，LTN後置） TER/TER 縮減 CER/CER 縮減 (50，50) 23 54%(1691)(基礎線） 12 60%(905)(基礎線） (25 ， 25) 25 27%(1816)( + 7.33%) 12 57%(903)(-0.22%) (25，75) 25 12%(1805)( + 6.67%) 12 75%(916)(+1.22%) (25，50) 24 41%(1754)( + 3.66%) 12 72%(914)( + 0.99%) (回溯延遲=20，相關平滑半徑=5，音框寬度= 0.032) (語彙模型：音調preme/訓練核心-終結） (片語三圖LM) 抽取音聲路徑移動的時間性質使用自相關的第二階退化裝置，可從語音信號中抽取出音聲資訊。若自相關第二階退化的常數項大於所給定的臨界值，例如0.4，則將此音框之退化權數設定為1 . 0。若自相關第二階退化的常數項小於所給定的臨界值，例如〇 . 1〇，則將此音框之退化權數設定為-0.0。除此二情況之外，均將此音框之退化權數設定成該自相關第二階退化的常數項。這些權數會被用在上述降語調F 〇輪廓的第二階加權退化 -28- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）

(30)以及中國焐語骨韻律片語語調分量之長時距加權_ ^動平i句或中間滤波器上。這些降語調F 〇輪廊的第二階加化之權數被设計成強調/去強調該基音輪廓之音聲/非曰聲奴，以便將半音聲子音之音聲基音輪廓保存住。此機制的好處在於，縱令語音的分段有些微的偏差，這些具有 F〇輪廓 < 先置調適刪剪回溯以充作線上預處理前端之信號的權數，將可為子音基音輪廊保存母音的基音輪廊。此音凋特徵足母音-保存特性，有能力保護模型參數使其免於因語音分段錯誤而導致預估偏差。、圖7之况私圖，是使用本發明之自相關第二階退化的較佳法使用具相應於該先置調適刪剪F 〇之回溯輸出之導數之 ^後之自相關第二階退化，可從語音信號中抽取出週期性資訊。首先使用基音動態時捲（PDT)技術來處理所抽取之基音資料，以得到平滑化（幾近無多重基音錯誤）之基音輪廓，然後施以第二階加權最少平均，以便抽取基音輪廓之資料三此資料乃以退化係數代表之。常數退化係數乃用之以計算在分解F〇輪廓時（如圖5所示）所需的權數。第一及第二退化係數則用之以降低音調錯誤率。視窗的最佳設定值大約是110毫秒，此長度小於正常說話速度下一個音節的長度。產生挺特徵向量圖8是本發明擬特徵向量產生器之較實施法的流程圖。應根據最大化區域相似度分數之準則，為語音的非音聲段產生擬特徵向量以避免HMM中之模型參數的預估不致於有所偏差。欲做到此，首先須計算出退化視窗内退化權數的和 •29- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467

裝訂

若權數和小於預足臨界值（譬如，〇 25)，則以該依最少平方準則所產生出之擬特徵，取代該已一規一化之特徵（完全回AfT至退產生情況，等於加權的退化）。對於芫全靜音的區域，先置回溯中之區域最小路徑會製造用以預估基晋之隨機值。在假設鄰音枢之先前規一化特徵分佈均等及該規一化特徵之機率分佈具對稱性的情況下，此種降音調FG之估值及它的導數均具有零平均值·。變異最小可確保HMM型音聲模型其每一個狀態的機牽分佈均不退化。因為在音聲及非音聲區域間很難以毫秒為單位劃一條清楚的線，所以音聲_非音聲區中所使用的是等加權退化，以便將音聲段中之可追蹤基音及靜音區域中之隨機基音均予以平滑化。音調分量就如以上所說明的，在較佳具體實施例中，該音調分量被足義為區域性的（最好是）1 10亳秒之降音調基音輪廓的加權退化，以避免將内相位基音輪廓做進模型内，而該110毫秒乃小於一個音節的長度（事實上，大約是一個母音的平均長度）。這些區域退化中之權數被設計為強調/去強調基音輪廓的音聲/非音聲段，以保存子音的音聲基音輪廓（初始 /preme)。此機構的主要好處在於，縱令語音的分段有些微的錯誤（其不會將小量的非音聲視為音聲），這些權數:會將母音（終結/toneme)保存，而將之視為初始/preme。在此方法中，隨機模型的隨機性累積在訓練程序及稍後的辨識 -30- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) ------- 526467 Α7 ^ —j Β7 五、發明説明（28 ) 程序中。另外，它也允許針對初始/ preme的模擬分數以避免因語音分段錯誤所導致對音調辨識的傷害。實驗的設立該等實驗已使用飛利浦的大量詞彙連續語音辨識系統來加以執行，此辨識系統乃一 HMM型系統，其使用簡單通道規一化用之具第一導數，句子型平均相減（CMS)之標準 MFCC特徵以及具密度確定對角共異矩陣之高斯混合密度。實驗使用了三種不同的中國語連續語音語料，MAT語料庫（電話，台灣中國語）、非公開個人電腦專用資料庫（麥克風，台灣中國語）以及1998大陸中文863標竿之資料庫。MAT 及個人電腦命令資料庫所使用的是說話者-無關系統。863 所使用的是分離的模型，分別針對每一性別予以訓練，而解碼時該性別則已知。標準863語言模型訓練語料庫（人民日報1993-4)内含該測試集。是故，該系統己經”知道”全部的測試句，不能反映出真實生活命令狀況。為獲得真實的效能圖像，該LM訓練集已因將所有的480測試句移除而”乾淨”。下表摘要了該語料庫的特性。 -31 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐） 526467

A7 B7 五、發明説明（29 ) MAT 個人電腦命令 863 訓練測試訓練測試訓練測試型式 #說話者 721 26 241 20 2x83 未提供 #發言 28896 259 27606 200 92948 2x240 #音節/發言 5.66 14.2 30.1 35.5 12.1 12.6 TPP 3.37 3.54 3.50 辭典大小 42038 一 42038 56064 CPPbi 121.8 _麵 63.6 53.4 CPPtn 麵 106.1 51.1 觸細 41.3 CPPtri，内部 •麵細 _麵 -- 14.4

裝訂個人數位助理器的存取通常相關於細緻及總基音錯誤。因為我們假設基本現存的演算法均已額外的微調過且目光焦點乃集中在語音辨識的整合上，所以該系統已取代以針對音調錯誤率（TER)來最佳化。除最後一個表外，其他所有的表均顯示有TER。TER乃是在音調-音節解碼時量測，每一個音節均會提供該解碼器下列有關音節之資訊： -開始及結束音框（強迫排列而得）， -基音節確認（無音調，從測試庫中得來），以及 -此特定音節所屬之音調集 - 並非所有我們五個語彙音調均可與所有的中文音節組合。困惑音調已被定義成數個可能的音調。 -32- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 B7 五、發明説明（30 ) 下列實驗表的第一行顯示出實驗Id(Dl，D2，T1，等等 )，意圖快速地確認其他各表中之相同實驗。即時/線上DP操作第一個實驗討論的是使用動態寫程式法的好處。下表顯示MAT及PCD在使用DP後其TER降低了 10-15%。只有非常乾淨的863語料庫才不需要D P。因為真實世界命令系統還需要處理雜訊的問題，所以為確保其強健性，D P仍是非常的有用。

Id 基音抽取器 MAT PC 863 增益 D1 僅有SHS 32.0% 21.4% 24.0% b/1 D2 SHS + DP 27.0% 19.2% 24.3% 8.4% 第二組實驗要探討的是部份回溯的好處。直覺性地，接合一個音節所需的資訊大約2 0 - 2 5個音框。但下表顯示1 0 個音框就足以使基音輪廓穩定。若保守一些，可選擇1 5個音框。

Id 回溯長度 MAT PC 863 損失 D2 全句 27.0% 19.2% 24.3% B/1 ΤΙ 20音框(200毫秒） 28.3% 19.7% 24.4% 2.8% Τ2 15音框（150毫秒） 28.0% 20.0% 24.3% 2.9% Τ3 10音框（100毫秒） 28.5% 19.6% 24.2% 2.6% 若致力於縮減搜尋，下表顯示不同刪剪臨界之主刪剪用之路徑重組（語料庫平均）數。音-調錯誤率增加最少的情況下可縮減9 3 % ( P 3 )。保守一些，則可選擇P 2。 -33- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

裝訂 526467 A7 B7 五發明説明（ 31

Id 臨界重組 MAT -—--- PC 863 損失 T2 0 28.0% 20.0% 24.3% 0% P1 0.99 681 28.4% 21.0% 23.9% 1.5% P2 0.999 413 29.0% 20.2% 24.4% 1.7% P3 0.9999 305 28.6% 20.2% 24.7% 1.4% 個可使路徑重組數大量縮減之方式，但此法會導致一些退化（下表中之實驗R丨）。在D P後微調基音，可減輕退化程度 (R2)

Id 量化重組 MAT PC 863 損失 P2 48 413 29.0% 20.2% 24.4% B/l R1 16 99 28.7% 21.8% 25.6% 3.9% R2 16，調整 99 29.4% 20.8% 24.5% 1.5% 實驗已證實本發明之特徵向量較先前改善。此測試開始於傳統的特徵向量〇(〇 = ($0(〇 ;△€(〇)。下表顯示所有的效能全源自於△&(〇。將i^t)切掉影響甚小（F2);而若只使用它則會導致效能劇烈下降5 2 % (F 3 )。取對數則無顯著的影響（F 4 )

Id 音調特徵 MAT PC ! FI F〇(t) ； AF〇(t) 37.1% 28.2% : F2 僅有/^。⑴ 37.3-% 28.8% F3 僅有&⑴ 48.7% 49.8% F4 Logf“t);l〇gZ\f“t) 36.5% 28.3%

-34- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐） 526467 A7 B7 五、發安下； t) = 1 的視 1秒因 Η兑明（32 ) 良則顯示規一化的影響，將平均之鄰基音（權數w(f，，公式（2 ))可去除說話者及片語效應。呈列三種不同窗寬度（分別是0.6秒，1.0秒及1.4秒之移動平均），該具有較小的邊限而最佳。 Id 規一化 MAT PC 863 增益 F1 無 37.1% 28.2% 29.9% B/l N1 移動平均0.6秒 33.0% 25.7% 29,1% 6.8% N2 移動平均1.0秒 32.1% 25.9% 29.1% 8.0% , N3 移動平均1.4秒 32.2% 26.5% 29.6% 6.8% A 下表將規一化的l〇gF〇(t)與1 .0秒之移動平均視窗作比較以規一化句子平均。MAT及863語料庫均是由短言所構成，帶有些許的片語效應。所以，對MAT而言，以句子為基礎之規一化執行所提出的方法即可。另一方面863而言之性別偏差，性別型模型中已將之考量在内，所以沒有改進。P C 命令語料庫具長言及強的片語效應，所以無法觀察到改進。 Id 規一化 MAT PC 863 增益 F4 36.5% 28.3% 29.8% B/l N4 移動平均1.0秒 33.3% 24.8% 28.7% 8.3% N5 句子平均 33.2% 28.6% 30.1% 2.4% 下4 風所4 ^顯示使用2階導數△△?〇(〇所產生的影響。使用麥克导到的9 %改善最多。 Id △ △F〇(t) MAT PC - 863 增益 N2 否 32.1% 25.9% 29.1% B/l F5 是 30.7% 22.9% 25.9% 9.0% -35- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝

526467 亂 A7 B7 五、發明説明（ 33 下表顯示出使用音聲v(f; t)作為特歡，會有4.5%的增益’以間易的平滑化來降低雜訊，可更進一步地將增益調至 6.4% ° Id 音聲特徵 MAT pp 863 增益 F5 無 30.7% 22 9% 25.9% b/1 VI 原 v (f ; t) — 29.9% 20.8% 25.5% 4.5% V2 平滑之V(f ; 0 29.1% 20.1% 24.8% 6.4% r I尺川u τ凋首耸炙導數，可更進一步使增益達到6 ·丄，但使用二階導數卻無法得到更進一步地縮減。如下表 % 所示 T7 · Id 音聲特徵 MAT PC 863 增益 V2 平滑之v(f ; 〇 29.1% 20.1% 24.8% 6.4% V3 平滑之v(f ; t)，加上1階導數 27.0% 19.5% 23.5% 6.1% V4 平滑之v(f ; t)，加上1階及2階導數 27.7% 19.7% 23.7% 4.5%

Id 規一化 V3 無加權 N6 加權 MAT 27.0%

PC 863 . 增益 19.5% 23.5% 19.0% 23.0% 6.1% 人採取上述所有的最佳化步驟，再加上使用特徵向5二從驗F1至N6)，相較於啟始向量^ $ 均徽可獲28·«的改善。（）（心。⑴）’平 -36 526467

五、發明説明（34 ) 組合語言模型實驗結果也確定了一件事，那就是最佳化的音調錯誤率還會使整體的系統效能成為最佳狀態。為展現這個事實，已使用片語型辨識辭典及片語-二元接續/三元接續語言模型。針對所選的設置，量測已整合系統之字元錯誤率 (CER)。為了完整性及相容性，下表之後兩行顯示内含測試集所得之結果（’’系統效能測試”)_

Id 音調特徵 MAT PC 863 增益 -一兀接績細無音調模型 42.4% 18.9% 11.6% b/1 F1 F〇(t) ； AF〇(t) 38.6% 14.5% 9.5% 17.0% N2 + F〇(t)規一化 36.4% 13.7% 9.1% 19.5% F5 + AAF〇(t) 35.0% 13.3% 8.6% 24.3% V3 +音聲特徵 34.4% 12.6% 8.3% 26.9% N6 +加權 34.2% 12.9% 8.1% 27.3% 三元接續痛無音調模型 40.4% 16.4% 10.4% b/1 N6 最佳音調模型 33.1% 12.0% 7.3% 25.0% 8 6 3標竿：三元接續，L Μ訓練内測試組無音調模型晒細 3.8% b/1 Ν6 最佳音調模型 - 3.4% 10.6% -37- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)

:果確互了道及CER間的對應性。再者，從音仵到的整體㈣C則改善在平均接續）上 = 別㈣篇，在電話語音上增益最小（193%)，對兩麥3 :料庫則超過30%。對三元接續而言，増益僅些微 :小、:因為二兀接續僅能從語言的上下言才可消除雙義，廷就疋為什麼其需要模型幫助的原因。（終極情 863標竿LM_LM訓練内測試集_大部份的音調可從内言中：確地予以去除，音調模型幫助了 1〇·6%)。摘要用以建構線上，強健音調特徵(540)抽取的重要性在於使用連續音聲相音框的料巾之接合，區域們㈣的資訊本發明去除了直接從連續時間音框處之邊限週期性資訊來判定音調特徵；取而代之的是，將基頻的分侔處理成音聲的程度。、該線上，強健特徵抽取（905)之不同特徵，其亦可結合傳統的技術（示於圖8圖9之區塊圖的組合），以流程圖的形式顯示相同的資訊。重要的特徵有： -判定語音信號内的量度以抽取基音資訊（92〇)，最好是以次諧波加總（930)為基礎， -基頻的線上先置調適刪剪回溯（935)，其中該調適刪剪乃最好是以0.50秒之前的音聲及接合資訊程度為基礎， -去除片語音碉（950)，其界定為音聲Fq輪廓的長期趨勢。此效應可以一加權移動平均F Q輪廓，加權數則最好是與該信號之週期性程度（91〇)有關， -38- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 526467 A7 B7 五、發明説明（36 ) -某時間音框的F〇輪廓之第二階加權去音調第二階加權退化之平均，其中最大視窗長度相當於一個音節的長度，所具之權數則相關於信號的週期性程度（910)， -某時間音框範圍之自相關的第二階退化，其中最大視窗長度相當於一個音節的長度，所具之時間落後則相當於該由先置回溯程序（310)所估算出之基音的倒數，以及 -產生屬於語音音聲-非音聲段之擬特徵向量（960)。非音聲語音則可根據最少平方準則（落回去產生狀況，等加權退化）來產生擬特徵向量。 -39- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）

Claims

526467 91· 9, 一 9 A BCD 六、申請專利範圍 1 . 一種語音辨識系統，用以辨識時序輸入信號，輸入信號所代表的是音調語言之說話語音；該系統包含：一輸入，用以接收語音信號；一語音分析次系統，用以將一段段輸入信號表示為觀察特徵向量；一單位匹配次系統，用以將該觀察特徵向量與已訓練語音辨識單位清單比對，每一個單位均至少以一參考特徵向量代表；其中該特徵向量所包含之分量，乃得自於該參考特徵向量所代表之語音段的音聲預估程度；該語音分析次系統係用以估計一聲段之聲音等級及在表示聲段之觀察特徵向量中包含一得自聲段的聲音預估等級之組成部分。 2. 如申請專利範圍第1項之語音辨識系統，其中該所得到之分量代表的是該語音段之音聲預估程度。 3. 如申請專利範圍第1項之語音辨識系統，其中該所得到之分量代表的是該語音段音聲預估程度之導數。 4. 如申請專利範圍第1，2或3項之語音辨識系統，其中該預估的音聲程度接受平滑化。 5. 如申請專利範圍第1項之語音辨識系統，其中該音聲程度是預估基音輪廓之短時自相關的量度。 6. 如申請專利範圍第5項之語音辨識系統，其中該量度乃由該自相關輪廓之退化係數所形成。 7. 如申請專利範圍第1項之語音辨識系統，其中該特徵向量包含一分量，代表該語音段之預估基音的導數。 -40- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 526467 申請專利範圍 8 ·如申，專利|已圍第5或7項之語音辨識系統，其中該預基音乃藉由將代表該語音段之預估基音 ς 調效應予以去除而得^ 语 9.如中請專利範圍第8項之語音辨識系統，其中該片言“五调效應乃以該預估基音輪廊之加權移動平均來表現。η Γ〇.如申請專利範圍第9項之語音辨識系統，其中該加動平均之權數代表該音段中之音聲程度。多 11. 如申請專利範圍第i項之語音辨識系統，其中，若徵向量代表的為非音聲段’則特徵向量以虛擬特徵向θ 取代。 I 12. 如中請專利範圍第η項之語音辨識系統，尤中若基音輪廓之退化權數之總和是在退化視窗範圍中= 段視為非音聲。 W 5 13·如申請專利範圍第n項之語音辨識系統，並中嗲向量包含根據最少平方準則所產生之擬特徵、。4特徵 -41 -