TWI238378B

TWI238378B - A method for tracking a pitch signal

Info

Publication number: TWI238378B
Application number: TW092133677A
Authority: TW
Inventors: Dan Chazan
Original assignee: Ibm
Priority date: 2002-12-27
Filing date: 2003-12-01
Publication date: 2005-08-21
Also published as: CN1729508A; CN100578611C; JP4336316B2; EP1579423B1; WO2004059616A1; KR20050085166A; EP1579423A1; US7251597B2; KR100920625B1; US20040128124A1; JP2006512604A; TW200428356A; AU2003282317A1

Description

1238378 五、發明說明（1) 一、【發明所屬之技術領域】 P i t ch)訊號之音高追此發明係關於用來平滑音高蹤領域。二、【先前技術】音高探測器具有很廣大的應用範圍，例如，語音壓縮 (編碼）、語音合成，如從語音辨識特徵而來的語音重建，以及其他的應用。目前已有許多不同的間距探測器技術，例如： Y. Medan， E. Yaur， D Chazan， Super Resolution of pitch Determination for Speech Signals， IEEE ASSP vol 2 9 pp 4 0- 48，1991. 音高探測器嘗試在尋找某些偶然的音高的整數倍或是可整除的分數倍。通常這樣做的理由是由於音高或是兩個聲音間的快速轉變，以及存在有會毁損頻譜之正常結構之刺耳的或是嘶啞的聲音。而這種毁損所造成的結果就是額外的頻譜線的生成。這些頻譜的頻率通常是音高頻率一半的整數倍，但是1 / 3或是1 / 4亦有可能發生。當錯過了這種額外的頻譜線，音高頻率的複數倍就會被發現。當它們的數目計算錯誤的時候，小部分的音高頻率就會被偵測到。以應用在語音壓縮上來說，使用特定破損的音高訊號

4IBM03119TW.ptd 第6頁 1238378 五、發明說明（2) 將使降低的效能更明顯。相應於此產生了這樣的技術需求，用以在偵測到的音高訊號中平滑化受到破損的音高值。相關的技術包括：

Robust pitch estimation using an event based adaptive Gaussian derivative filter Shah， A·; Ranachandran， R.P.; Lewis， M.A. Circuits and Systems, 2002. ISCAS 2002. IEEE International Symposium on， 2002. PAsge(s): 11-843-11-846 vol· 2.其目的在充滿雜音的語音中尋找音高。三、【發明内容】本發明為一個音高訊號之音訊追蹤的方法，其方法包含： (i)接收一個由一連續音高值所組成之偵測到的音高訊號，而且在偵測到的訊號中對每一個目前音高值，都會至少執行至少下列（i i)到（iv)步驟： (i i)從鄰近的音南訊號中’建構至少一個由一致的 (consistent)音高訊號所組成的子序列（sub-sequence); (i i i)計算上述的至少一個由一致的音高訊號所組成的子序列之顯著值（significance)，並挑選一個子序列

4IBM03119TW.ptd 第7頁 1238378 五、發明說明（3) 或是含有最高顯著值之由一致的音高訊號所組成的子序列的集合； (iv)如果目前的音高訊號並與含有最高顯著值之子序列不一致時，將目前音高訊號的值降低或是乘以一個大於1的整數值的方式來將訊號平滑化，以便於將目前音高值與具有最高顯著值之音高訊號的子序列一致化。本發明更進一步提供一追蹤音高訊號之方法，該方法包括： (i)接收一個由連續音高值所組成的被偵測到的音高訊號，而且在偵測到的訊號中，以及任何整數倍數以及整數倍倒數的音高訊號中，此處之整數，小於一預設值，對每一個目前音高值，都會至少執行至少下列（i i)到 (i i i)步驟： (i i)從鄰近的音高訊號中，建構至少一個由一致的音高訊號所組成的子序列；如果偵測到的音高訊號並與子序列不一致時，將音高訊號的降低以或是乘以一個大於1 的整數值，以便於與子序列一致化。 (i i i)計算上述的至少一個由一致的音高訊號所組成的子序列之顯著值，並挑選一個含有最高顯著值的子序列，藉此將目前的音高訊號平滑化。本發明進一步提供一個用以追蹤音高訊號之系統，該系統包含：

4IBM03119TW.ptd 第8頁 1238378 高音的到測的成組所值高音續自c il 由收接於 4)用 Γν 5i) 說明C 發訊的C 到的測面偵下在少且至 ’行 }執 r e少 V i 至 e C 會 e r都 ( ，器值收高接音之前號目訊個 X)/ .1 每對C 中到

V 驟步的致 1 由個 1 少至構建中 f 訊高音的近鄰從成組所訊高音致一由個 - 少 •- > 至列彳，的ί算 U計組所i) 號ii 訊C 高音之 ii 著著顯顯的高列最序有子含的是 η g • 1 s 由或列序子合個集一之選成挑組並號，訊 \ly e 高 C η 立曰 a C的 • 1 f致序子值著顯高最有含與並 !# 訊高音的前 •, 目 }果 η ο如 • 1 t C V 6 i IX 1 ( ο c 以乘是或低降值b^ 的ί α 號ί化訊Μ致高Κ 一立日；列前Μ序 ί式Η 將.的方：用號，fL 值t 時t高 k數」致整音二值不α著列於顯大個高最有含與於以本發明再進一步提供一個追蹤用以音高訊號之系統，該系統包含： (i)用於接收由連續音高值所組成的偵測到的音高訊號的接收器，而且在偵測到的訊號中，以及任何整數倍數以及整數倍倒數的音高訊號中，（此處整數小於一預設值），對每一個目前的音高值，都會至少執行至少下列 (i i)到（i i i)步驟： (i i)從鄰近的音高訊號中，建構至少一個由一致的音高訊號所組成的子序列；如果偵測到的音高訊號並與所

4IBM03119TW.ptd 第9頁 1238378 五、發明說明（5) 謂的子序列不一致時，將音高訊號的值降低或是乘以一個大於1的整數值，以便於與子序列一致化。 (i i i)計算上述的至少一個由一致的音高訊號所組成的子序列的顯著值，並挑選一個具有最高顯著值的子序列，藉此將目前的音高訊號平滑化。本發明提供一個電腦產品，該產品之程式碼用來執行音高訊號之追蹤，該電腦產品包含：用來接收一個由連續音高值所組成的偵測到的音高訊號的接收器，而且在偵測到的訊號中，對每一個目前音高值，都會至少執行至少下列（i)到（i i i)步驟： (i)從鄰近·的音高訊號中建構至少一個由一致的音高訊號所組成的子序列； (i i)計算至少一個由一致的音高訊號所組成的子序列之顯著值，並挑選一個子序列或是具有最高顯著值音高訊號的一致子序列的集合。 (i i i)如果目前的音高訊號並與具有最高顯著值子序列不一致時，將目前音高訊號的值降低或是乘以一個大於1的整數值的方式來將訊號平滑化，以便於與具有最高顯著值音高訊號的子序列一致化。本發明進一步提供一個電腦產品，該產品之程式碼用來執行音高訊號之追蹤，包含： (i)用來接收一個由連續音高值所組成的偵測到的

4IBM03119TW.ptd 第10頁 1238378 五、發明說明（6) 音高訊號的接收器，而且對於在偵測到的訊號中的每一個目前音高值，以及任何整數倍數以及整數倍倒數的音高訊號中，（此處之整數小於一預設值），都會至少執行至少下面的（i i)到（i i i)步驟： (i i)從鄰近的音高訊號中，建構至少一個由一致的音高訊號所組成的子序列；如果偵測到的音高訊號並與所謂的子序列不一致時，將音高訊號的值降低或是乘以一個大於1的整數值，以便與子序列一致化。 (i i i)計算上述至少一個由一致的音高訊號所組成的子序列的顯著值，並挑選一個含有最高顯著值的子序列，藉此將目前的音高訊號平滑化。四、【實施方式】首先由附圖 1開始，在圖中顯示了一個依照本發明實施例的音高追蹤系統的廣義區塊圖。如圖所示，未經處理的語音訊號透過輸入裝置來接收，如麥克風1 2，然後餵入 (在轉換成為數位訊號之後）處理器中（在使用者個人電腦1 4與相關的儲存裝置1 6中的），處理器本身執行適當的由軟體實現的工具來做音高偵測（在附圖1中並無明確地顯示）。除了音高訊號之外，音高偵測器也可能會產生框架能量（frame energy)。框架能量是某種在音高被計算的框架内的訊號強度的度量以及某種音高的品質的度量，是一種

4IBM03119TW.ptd 第11頁 1238378 五、發明說明（7) 可以達到使用偵測到的音訊頻率描述訊號為一週期性的訊號的程度（d e g r e e )。接著，這裡被偵測到的音高訊號以及可能之適合的能量或是程度就被提供給音訊追蹤模組（在附圖1中並無明確顯示）來將音高訊號平滑化 (S m ο 〇 t h i n g)。以下將會有更詳盡的說明。以語音壓縮來說，接著語音訊號被就其本身而言之語音編碼演算法 (例如：spectral編碼）所限制，然後再將經過編碼的訊號透過網路1 8遠端傳送。當然，本發明並不只是局限在圖1中特定的架構以及/ 或者實作，以及/或者應用程式（語音編碼），而其他的變異也相對應的應用，其皆為必須的以及適當的。以非限制的方式來舉例，可以在分散式的環境下來實作，而不只限於在一個獨立式的個人電腦的環境α 後述簡短的關於音高訊號特徵的概觀，將有助於瞭解依照本發明中各種不同的實施例之音高訊號追蹤的結構及運作。因此，假設聲帶產生頻率隨著時間改變的刺激，一連串正確（真）的音高值總是連續的。例如，連續的值都彼此很接近。考慮一個被偵測到的音高訊號，正常地包含正確的以及受到破損的音高值（m a r r e d p i t c h )。設ρ 1與ρ 2為兩音高值，（如：在圖2中，在音高訊號20内的21與

4IBM03119TW.ptd 第12頁 1238378 五、發明說明（8) 2 2)。如果pi (如21)是正確的音高值，而p2是一個受到破損的音高訊號（如22)，而且p2的強度為正確的音高值的m倍（即平滑化過的音高值，如2 3，相當於的受到破損的音高訊號值22)。正確的m值可以由情況最為平滑的序列{ p 1，p 2 / m }而得到。平滑的測量可以用典型但並非必要地由下面測量音高間的距離的公式而得到：

D ( pl 5 p2) = I ( pi-p2) / ( pi+p2) I 這表示p2/m (代表平滑的音高值，如2 3)盡可能地以上述的距離測量公式來測量而與p 1相近。相似地如果p 2 (即受到破損的音高值）是正確音高值（即相當於平滑的音高值）的整數（m)分之一，則m便會使{ p 1，p 2 * m }的序列内盡可能的平滑。在後述的情況中，p2 (即受到破損的音高值）為正確音高值的整數分之一，在圖2中並無說明。本發明之音高追蹤演算法的目標是在偵測到的音高訊號中決定哪些是正確的值以及哪些是受到破損的值（即它們會是真[平滑的]音高值的整數倍數或是整數分之一）。此演算法更進一步地將受到破損的音高值加以平滑化，以至於可以在任何可能的情況下得到平滑的音高訊號。在所有的實施例中，此演算法係即時快速地運作 (On-the-fly)，並且要在一規定的延遲内，完成。因此在

4IBM03119TW.ptd 第13頁 1238378 五、發明說明（9) 每了瞬間音高值的倍數（或是分數）之計算都必須要基於先W的音高值’以及最多Tf uture&的未來音高值，此處 T f u t u r e是一個允許的延遲。因此對於一實施例，問題可以定性如下：給定Tpast個以前的音高值以及Tfuture個將來的音高值，欲找出一整數使得目前的值與過去以及未來之正確音咼值最為前後一致的。要注意的是在所有的實施例中’未來的與過去的值都已考慮在内（會引起延遲）。此延遲（T f u t ur e)可以被設定為〇，亦指僅考慮過去的值0 為了偵測什麼才是正確的值（即真音高值），以下一個基本的假設，即音高偵測器找到正確值的可能性比到正確值的倍數或是分數的機會大。當序列内所有的值彼此都在某一小量的係數（f act〇r)的差別之内，此連串 <的音咼訊號可以視為是一致的。因此，在一個一致的序列' 的兩連續的真音高訊號p 1，p 2定義為擁有此羼性（以下於係數屬性）：factor > pl/p2 > l/factor<>此係數的值曰應該能反應出在兩真音1¾訊號之間所能允許的最大改變在一個具體實施例中，對多數的測試來說我們選擇丨.2 此係數的值。要注意的是通常此係數的範圍會在1 · 〇到> ( 之間。 ·1 依知一具體貫施例’原本的（即被偵測到的）音高值的序列，被依照某一演算法以上述的論點（即遵守係數屬

1238378 五、發明說明（ίο) 性）而分割成多個一致的子序列。基於上述的假設，一個音高偵測器找到正確值的可能性比找到正確值的倍數（或是分數）的機會大，在此區間内的將會有比不正確的音高值（倍數或是分數）還要多的正確的音高值。在此區間内包含了 d個未來的點以及相關的過去的點。因此，含有真音高值的子序列通常會比其他子序列顯著值更高（稱為較多的能量）。因此，依照此一具體實施例，選擇真音高值的標準為：使用由顯著值最高的子序列演譯而來的真音高值，便有可能找到使目前音高訊號值，與此子序列内的真音高訊號值最為一致（接近）的倍數或是倒數的整數值。在以下一具體實施例中，將有更仔細的說明。在此具體實現中，嘗試在允許的時間區間内（通常從Tpast個過去的音高訊號延展到Tfuture個未來音高訊號，後者是依照可接受的延遲所決定的），去符合目前的音高訊號值來與顯著值最高的的子序列群組作一致化。為了要能一致，所有子序列的終端點，都必須要在相去不超過係數（Factor)的範圍内。擁有最高顯著值分數（如最高能量）的子序列群，會被選擇來與目前音高訊號相符。要注意的是在一序列内的音高訊號值構成了一條路徑（有時被稱為是軌跡線）。如讀者所知，在此具體實施例中，每一個音高訊號都與一個能量有關，以及相對應的路徑能量也利用與每一個音高訊號值相對應的框能量相加在一起的方式計算出來，以及，

4IBM03119TW.ptd 第15頁 1238378 ------ 五、發明說明（11) 顯著值最高的一致的子序列群組會被選取出來。裡能此 &量〆詞被寬鬆地用來表示框加链芏佶…f ^ ^ 更不框架顯者值得任何度量。因 /些帶有極低能量的框架，> % H八 f L ^ 木也吕午疋含有报大量的雜士π ,以致在這些框架内所計曾φ水μ立> 士 y τ π出來的音咼有报大的可能性是錯誤的。然@，亦值得注意上述情況只有在極低的能量時才會發生。如此，依照具體實施例，某個框架的計算能量的低能量，反而會是比能量本身還要好的顯測再中 , 值值它高高將音。音，前數的後目分來}在是未列找或與序尋數的子即倍去個。數過多化整於或滑的基C平的，列值列例序高序施子音子 {貫的前的體量目致具能將一本大來持照最用維按有}以取們可選C最記住，將注意力放在依照本發明的具體實施例的圖 3。圖3的圖解說明決定音高子序列的流程圖。以及圖4中描述本發明實施例的連續框架之音高值的圖表用來識別音高的子序列。在圖3的具體實施例中，計算出一致的音高子序列們使得每一子序列都包含彼此間的差異都在係數範圍之内的連續音高值，即factor >pl/p2> Ι/factor。對於並非連續但是由單一的時間單位間隔之音高值p 1與p2來說，存在有一大於係數（factor)的係數值Lfactor，使得 Lfactor > pl/p2 > sub-Ι/Lfactor。一個所有音高值都

4IBM03119TW.ptd 第 16 頁 1238378 五、發明說明（12) 欵子序列。依照本發個具體連續的音高。每〜序列可能包含符合Lfactoi^條件的非一致的子序列稱為實施例，一個 >[固於與目前瞬間最靠"高值的一致子序列都含有一個相對的值（被稱為尾立t的時間瞬間在搜尋真音高值的子序列 q鬲值）。這個程序是由滑的音高值。任何$本的音高值開始，然後輸出是一組平之前的Tpast個以及$間點Tcur的平滑音面值與在此時間點關。因此，參照圖在此時間點之後的Tfuture個音高值有以後面所細述的';，假設框架1到6之中所有的音高值都高值之中，音高追，，過。如圖4所示，在已處理的音高值，（即音高偵測’算法發現框架1，2，5，6為真音框架做平滑處理。相° 、測到的真值因此不需要對這些 42，43)被音高追蹤救地，框架3及4中的音高值（分別為一個乘數的方法平典几為受到汙損的音高，且透過除去注意的是，直觀上為相應的平滑值（42’，43，）。要組合成一個一致的序=滑值（42’）與（43，）與其相鄰值高值相靠近，且沒有彳F各依照每一個音高值與其鄰近的音 (44，True Pi :〜速的變動的概念在真音高值到破損的音高值（42,—

Pi ten)間急迷的變動較為明顯）。 u 因此，處理好前六個立古 7 U1)之音高值（Tcur)以曰:值之後，則處理目前的框架 J 乂決定它是真值或是受到破損

4IBM03119TW.ptd 第17頁

1238378 五、發明説明f13) ^ 的，若是受到汙捐的等一下要做平滑化的處理。假設最多允許有雨個未來點即 Tfuture = 2 (delay = 2)，與六個過去點（即允許TPas t = 6 )。這意味著子序列由框架=1 ( 4 5)到樞架=9 ( 46)的區間搜尋。在這個例子中，Tmax為5 ’表示過長的子序列中隶运的尾音南值不應該在框架=2之別。值得注意的是這個例子的 T p a s t，T f u t u r e，T m a X的值是為瞭解說的目的而選，合在一起並沒有什麼意義。

因此’在圖3的步驟3 1中，此演算法搜尋一段最長相鄰的共扼（ad jacent)音高值 p[ j ]的子序列集合使得 (A) j 屬於[Tcurrent-Tpast， Tcurrent+Tfuture]區間； (B) 對每個子序列的所有音高值，都滿足facto:r > p[ j + 1]/p[j]> 1/factor。

值得注意的是這裡的搜尋著重於那些被偵測到且非平滑值。（即考量音高值42，43而非42,，43,）。如圖4所示，顯不出三段一致的子序列。由音高值5 〇，5丨所組成的子序列4 7 ;由音高值4 2 ’ 4 3所組成的子序列4 8 ;由音高值 4 5 ’ 4 4所組成的子序列4 9。注思為了便於辨識，子序列$ 7 到4 9在圖示中有些許向下平移。 5 1在係數值之内 1. 2 8 )，且框架 4 注意子序列4 7，它顯示音高值 5 〇 (假設，舉例來說係數值（factor)=

1238378 五、發明說明（14) ^---- (43)的音高值並非子序列47的一個成員。這θ 架4(43)的音高值比框架5(5〇)的音高值還大得多^因為框何狀況下，比值Ρ(框架=4)/ρ(框架=5)超過所允，且在任 (factor)值。子序列48，49也是以同樣的方°的係數所有的子序列，其尾音高值（例如，子序列49^/、定。對列48的4 3 ;子序列47的51 )的時間點最為接近目前4 ;子序的尾音高值，是在目前時間點的Tmax (在這個之時間點 Tmax = 5 )之内。予中’ 需注意此處沒有顯示更進一步的子序列，

8跟9(52跟46)的音高值看來，並沒有遵守之扩為從框架係數標準，因此不能處在相同的子序列。。在所討論的序列包含一個成員的情況下，考慮兩個額外的:=常的子 —個包括框架8(52)的音高值’第二個則包序列’第音高值。化木9 ( 4 6 )的既已決定子序列，最高的顯著值就已選好驟34)。需注意的是後述之修正過的實施例（圖^的步用步驟3 2與3 3。 ^逃如何使

回復到之前的那個實施例中，各個透過計算其累計的能量所決定。例如，斟—」的顯著性：構成的音高值的能量總計為其子序能；了子序列) score) 。 J 幻此里數（energy

1238378 五、發明說明（15) 假設圖4的例子中，目前的音高值剛好在那裡子序列，有最高的能量數 % Μ架7的音高tf昝 _ ^ 了這目的，（舟騮q c' ----------〜个中，4 |目前的音高值剛好在那裡。一二刀取向的能量數，的框架7的音高計算—個整.，、，了廷目的，（步驟35)替目、‘ 序列（47)的尾音高值（5數值，使其最接近所選定的則 I平滑化音高值（53)與他相:鄰顯遵從係數限制的 s-a-vis)。的曰同值（51，52)面姐叫野面注意若框架7原始的立古真，值’相斟受到7值是」3 (音高偵測器較易傷音南值是否遵循係數的=:曰=而言），馬上就要測被排除。特而且計算乘數的那個+ 測到真音高值’相斟受到破m r (音高伯測器較易. 音南值是否遵循係數的;寺=曰：而言）’馬上就要測被排除。特性，而且計算乘數的那個：當完成框架”的瞀 ^ (5 2或框架=8 )，&丄开馬上跟著計算下一個音g # 如此一個接著一個進行。 9回值試此 |驟將被排除近（前音子序割成序列有最的。同的回到圖3的步酿n / 乂驟32與33,在修正過的實施例中 close) π子序高符合這一群仏〜旧//b Γ ，于序列是群列是以尾音高伯代表性的子序列。更特別的是，這些一群一群的（米來分類的，然後以在係數範圍之内切的能量計算而3 2) a,各群的能量透過加總各自的子大總合能量的=’、並形成一代表子序列（步驟3 3 )。帶-^ ^ ^ ^ ^ ΐ ί ； ja ^ 尾值的芈於枯/匕群中各個子序列的不尾值的千均值h而得（步驟34)。要注意其中的平均列的情況下，子序列是群集在—起且目

4IBM03119TW.ptd 第20頁 1238378 五、發明說明（16) 值只是舉例而已，也可能透過選擇最接近Tcur時間區間的音高值來決定等等各種方法都有可能。最後，目前的音高值乘上或除以某一整數值，使得其接近計算得到的音高值 (步驟3 5 )。回到圖4來舉例，若對尾音高值分類（步驟 32)，結果是子序列49的尾音高值44，子序列47的尾音高值 5 1以及（未來只含有音高5 2的子序列的）尾音高值 5 2，都非常接近，且被歸類為相同的群組。另一個群則由子序列 48所構成。附帶的，對未來的子序列而言，此尾音高實際上就是頭音高（head pitch)。即在子序列中的第一個值最接近目前音高。為了方便，π尾音高值f’表示過去子序列的尾音高值以及將來子序列的頭音高值。回到圖4的例子，每個群組的代表子序列來決定顯著值（透過計算本實施例中全部的能量）（步驟3 3 )。自然地，由子序列 4 7，4 9，5 2组成的群組勝過其他群組。 (因為這三個子序列的累計能量大於子序列 48 )。再來，計算代表性的尾音高值，透過平均不同的尾音高值 44、 5 1與5 2，得到尾音高值的平均值（步驟3 4 )，然後如果有必要，以之前所述的方式（步驟3 5 )針對代表性的音高值平滑化目前的音高值。因此，根據已描述的部分，已經提供了一個產生一致

4IBM03119TW.ptd 第21頁 1238378 五、發明說明（17) 音高的子序列，並且從中選出顯著值最高的子序列的機制。顯著值可以透過計算能量決定，或由音高值的品質量測決定（即量測訊號可以所偵測到的音高頻率來描述為週期訊號的程度），或兩者一起考量。也可以依所需適當地使用其他係數附加或取代於上述決定顯著值之方式中。在一個具體實施例子中，如果某些音高值可能比其他的音高值較不正確，可以將能量（單獨或整合其他參數）納入計算顯著值因素中。例如，那些具有非常低能量的框架，可能與那些有高能量的框架較不相關。同樣的，那些音高偵測器在其音高模式中所評定為較差的頻譜模擬的框架，亦不應列入計算。受此影響，除了使用能量，亦可使用訊號符合特定音高的週期性程度來量測。這使得通常每個框架會增加一個零到一的數值，且這個數值會對能量有倍數的影響。而在其他具體實施例子中，一個一致的序列將由區間内所有的音高值彼此前後一致來構成，這個區間内的某些音高值可透過乘除一些整數係數來標準化成前後一致的音高值。這些具體例子參照圖4與圖5的描述。因此，在步驟（6 1 )中，選定目前的音高的一個整數倍或倒數倍。在圖4的例子中，再一次假設框架 7的音高值正在被評估中（已經處理好音高值1到6 )，然後，首先，選取4 1作為樣本值（即此整數值為1 )。接著，（步驟6 2 )從

4IBM03119TW.ptd 第22頁 1238378 五、發明說明（18) 目前的音高值（乘數為一）’開始找出一個子序列，且將相鄰的音南值乘以乘數或除數以標準化至目前的音高值，這使得最後的音高值會在目前的音高值的俜數”F t ” 内（因其相對於41顯現快速的變動），因此，一個稱整數乘數被用來計算產生在參昭音古二 %、、曰阿值4 1係數範圍内的音高值55。此乘數係數（此例為2)與剛剛被計算的音高值55 相關連。以同樣的方法，序列往前與往後在可允許的。 pcurrent-Tpast，TcUrrent + Tfuture]區間擴展，使得每個被計算的音高值都在其相鄰的音高值的某個係數之間。完成子序列的計算後，其顯著值就決定了，例如音高值的個數與乘數1相連結（即在子序列中音高值的個數保持不，，不被標準化動作所影響）❺在步驟6 3，做了個目前 :2的最佳顯著值比較，且若從目前的框架產生更好的顯 :盔’u!!馬上取代之前的最佳顯著值。這樣就能紀錄到目丽為止最佳的路徑。的立ί ^驟6 1到63以產生其他的子序列，再從框架7 框二问7的立這次取倒數2 (回想之前第—個子序列，

以2、)，框,曰=1雍二乘數係數…因此’使用倒數”除架6而言、，i; 高值* 53 (圖”。現在，對框 ΐ :乘= 框架6(51)的音高值落在係數之 /、數為1。類似地，第二個子序列往前與往後在

1238378 五、發明說明（19) [Tcurrent —Tpast， Tcurr en t+ T f u t ur e ]區間内擴展。第二個子序列的顯著值也以同樣的方法計算，例如與乘係數有關之音面成貝的個數為一。注意從之前的具體實施例中，子序列都沒有部分重疊 (4 9、4 8與4 7 )，在此實施例中，子序列部分重疊意味著所有的子序列從Tpast擴展到· Tfuture。力7同从木：^的方法’其他的子序列由倒數乘數3 (相對於框 ^ 7的=高值）所構成，然後另一個是乘數2，另一個是到/ί有\允許的整數乘數與倒數乘數都耗盡為止且^以顧菩、 S 。主意每個子序列的顯著值都已計算，做的i找出：：：：：臝家都紀錄在每個步驟中。剩下要高顯著值分數（疋列的最後赢家（步驟65)，即擁有最畏接吉…數（Slgnif icance score)的那個子岸取的的ί i ^子序列中的目前音高值（框架=7)，已粑摅。在的的采數係數平滑處理過。根據相應列中’與其目前音高值家的子序值。個真曰冋值而非受到破損的音高 # 個。=架，重複這流程，1接著值以能量猫只施例做些不同的修正，例: -者值係數與音H顯著值係數 $將顯著 m Ϊ值

1238378 〜----- 五、發明說明（20) (weighted value)來決定。注意在其他實施例中，若考慮連續性的關係，子序列也可跳過一個單一的零音高點，並允許一個較大的係數。例如’平常所使用的正規係數是丨· 28，及較大的係數 1.4^ 使用較大的係數是因為它較最差的情況正確，最差的情況會跳過兩個步驟。連續跳過兩次丨· 2 8就不太可能是個正常合適的音高。需注意的是各種變化的替代方案與修正亦可能被實 Μ。例如’以上述第一個實施例而言，可加入下述的一個額外步驟：在音高軌跡包含大於係間[T c u r r e n t - T p a s t，的音高值集合都被分類内連續點之間的距離不大於係數的跳躍切割開子集合之中，且不會落要在上述的演算法加入切割成幾個子集合，這分開來。並選出最大能音高執跡是那些在選定在區發生集合會被一個能需高值跳躍量的數的跳躍（jump)的情況下，若成幾個子集合，使得在每個子會超過係數，但這些子集合間來’各音高執跡都必須落在某在其他的子集合中。因此，可額外的步驟。把已排序好的音些子集合彼此間以大於係數的量的子集合。演算法唯一要考的子集合内的值。

4IBM03119TW.ptd

1238378 五、發明說明（21) 可以瞭解到的是，本發明的系統可以是適於程式化的電腦。同樣的，本發明考量到執行此發明方法的電腦其程式的可讀性。本發明更進一步考量到一機器可讀取的記憶體明白地具體化一可被本發明之方法所執行之機器指令的程式。

4IBM03119TW.ptd 第26頁 1238378 圖式簡單說明五、【圖示簡單說明】為了瞭解以及知悉本發明及其實際施行方式，較佳實施例將以例示但非限制之方式描述，並參考以下之伴隨的圖示：圖1為一區塊圖，顯示一個使用音高平滑演算法的系統，其演算法根據本發明的一個實施例；圖2說明一連續.框架的音高值取樣；附圖3說明一依照本發明的具體實施例的音高追蹤流程圖；圖4說明一依照本發明的實施例的之連續框架的音高取樣值，並且標明音高值的子序列，以及圖5說明一依照本發明的實施例的音高追蹤流程圖。圖示元件符號說明 1 0音高追蹤系統 1 4個人電腦 1 8網路 21音高值 4 1框架7的音高值 4 2 ’平滑值 4 3 ’平滑值 4 5框架7的音高值 4 7子序列 4 9子序列 12麥克風 1 6儲存裝置 2 0音高訊號 22音高值 4 2破損的音兩值 43音高值 44真音高值 4 6框架9的音高值 4 8子序列 5 0框架5的音南值

4IBM03119TW.ptd 第27頁 1238378 圖式簡單說明 5 1框架6的音高值 5 2框架8的音高值 5 3音高值 5 5音高值 inniiii 第28頁 4IBM03119TW.ptd

Claims

1238378 六、申請專利範圍 1 · 一種用來追蹤音高訊號的方法，該方法包含： (i )接收一由連續音高值所構成之被偵測音高訊號，並對於該被彳貞測訊號中的每一目前音高值（current pi tch value)，執行至少一個後述的（i i )至（i v)步驟： (ii)從鄰近的音高值中，建構至少一個由一致音高值（consistent pitch values)所組成的子序列（sub-sequence )； (i i i )計算上述的至少一子序列的顯著值 (significance)，並挑選一個子序列或是含有最高顯著值一致的子序列的一集合（collection); (iv)如果該目前音高值與含有最高顯著值的該子序列不一致時，經由降低或是乘以一個大於1的整數值的方式將遠目别音面值平滑化，以使該目前音高值與含有最高顯著值的該子序列一致。

4IBM03119TW.ptd 第29頁 1238378 六、申請專利範圍音高值屬於一個子序列。 3 ·如申請專利範圍第1項所述之方法，其中步驟（i丨）進一步包含了：至少一個子序列，該子序列由上述與該音高值一致的該子序列中取出，該音高值係於音高[Tcurrent， Tf uture + Tcurrent ]範圍内被計算出，此Tcurrent是該目前音高值，並且Tfuture是D未來的音高值；並且其中在該子序列之中連續的每兩個音高值是係數分離的，此處係數小於1.5且大於1，且其中落於範圍[Tcurrent， Tfuture + Tcurrent]中的每一音高值屬於一個子序列。 4 ·如申請專利範圍第2項所述之方法，其中步驟（i i )進一步包含：至少一個子序列，該子序列由上述與該音高值一致的該子序列中取出，該音高值係於音高[T c u r r e n t， Tfuture + Tcurrent]範圍内被計算出，此Tcurrent是該目前的音高值並且Tfuture是D未來的音高值；並且其中在該子序列之中連續的每兩個音高值是係數分離的，此處係數小於1 · 5且大於1，且其中落於範圍[Tcurrent， Tfuture + Tcurrent]中的每一音高值屬於一個子序列。 5 ·如申請專利範圍第2項所述之方法，其中該係數等於 1.28。

4IBM03119TW.ptd 第30頁 1238378 六、申請專利範圍 6 .如申請專利範圍第3項所述之方法，其中該係數等於 1.28。 7 .如申請專利範圍第4項所述之方法，其中該係數等於 1.28。 8.根據申請專利範圍第1項所述之方法，其中在一子序列中的每一音高值，結合一能量值及規定在步驟（i i i )中根據該子序列之一能量的顯著值，後者是該子序列之該音高值的該能量值的一函數。 9 .如申請專利範圍第8項所述之方法，其中該子序列的該能量是上述該子序列的該音南值之該能量值的總和。 1 0 .如申請專利範圍第1項所述之方法，其中每一子序列有一尾部音高值，且其中該步驟（i V )包含：經由降低或是乘以一個大於1的整數值的方式將該目前音高值平滑化音高，以使該目前音高值與最大顯著值的該子序列的該尾部音高值一致。 1 1.如申請專利範圍第1項所述之方法，其中步驟（i i i )進一步包含：分類該子序列的尾部音高值和根據該分類過的尾部音

4IBM03119TW.ptd 第31頁 1238378 I、申請專利範圍 ^_ 同值聚集該子序列音高，使得封閉 tail Pitch value)的子序列位於同_；/高值（close 顯著值之計算中包含：計算在每—固群組，且其中該顯著值，並且選擇具有最大顯著值的;^中的所有子序列的 1步驟（i V)進一步包含，假如當前的立▲個群組；且其中 |組中最大顯著值的上述的子序列，二=值不符合在一個群 | 1的整數來修飾當前的音高值，以便"除以或者乘以大於 i的上述的群組一致。於達到與最大顯著值 ^2 ·如申請專利範圍第丨丨項所述之方法，一 1著值群紕中之該子序列的該尾部音t 、其中在該最高顯 1一平均尾部音高值，其中在該步罈7iv)^t平均值，產生右目Μ音高值不符合該平均尾部立古丨或者乘以大於1的整數來修飾當前的音古门’則藉^ J 务低 I與該平均尾部音高值一致。日以便於達到 13三如申請專利範圍第11項所述之方法，其中一子序列中 =每一音高值，係與一能量值結合且如步驟（i i i)中所規定該顯著值係根據該子序列之該能量而定，後者是該子序 I列的邊音南值的該能量值的〆系數。 1 4 ·如申清專利範圍第1 3項戶斤述之方法’此處该子序列的該能量是該子序列的該音高值的該能量值的總和。

4IBM03119TW.ptd 第32頁 1238378 六、申請專利範圍一步包含了：至少一個子序列選自落在[Tcurrent， Tfuture十 Tcu r r e ni ]範圍内之一致該音高值所組成之該子序列中，此處Tcurrent是目前音高值並且Tfuture是D未來的音高值；並且其中在該子序列之中連續的每兩個音高值是係數分離的，此處係數小於1 · 5大於1，且其中落於範圍 [Tcurrent， Tfuture + Tcurrent]中的每一音高值屬於一個子序列。 1 8 ·如申請專利範圍第1 6項所述之方法，其中步驟（i i)進一步包含：至少一個子序列選自落在[Tcurrent， Tf uture +Tcurrent ]範圍内之一致該音高值所組成之該子序列中，此Tcurrent是目前音高值並且Tfuture是D未來的音高值；並且其中在該子序列之中連續的每兩個音高值是係數分離的，此處係數小於1 · 5大於1，且落於範圍 Tfuture - Tcurrent的每一音高值屬於一個子序列。 1 9 ·如申請專利範圍第1 6項所述之方法，其中該係數等於 1.28。 ' 2 0 ·如申請專利範圍第1 7項所述之方法，其中該係數等於 1.28。、

4IBM03119TW.ptd 第34頁

1238378 六、申請專利範圍 . 2 1 ·如申請專利範圍第1 7項所述之方法’其中該係數等於 1.28。 2 2·如申請專利範圍第15項所述之方法，其中該的顯著值係依照不限於經過前述除法或乘法產生之該子序列中該音高值的該數目。 2 3 ·〆種用來追縱音南訊號的系統，該系統包含· 用於接收一個由連續音高值所構成的被偵測音高訊號的接收器，並對在被偵測訊號中的每一目前音高值，至少執行下列步驟（i i )至（i v ): (i i )從W近的音局訊就中，建構至少^一個由一致音高訊號所組成的子序列； (i i i )計算上述的至少一子序列的顯著值，並挑選一個子序列或是含有最南顯著值一致的子序列的一集合； (i v )如果该目如音南值與含有最高顯著值子序列不一致時，經由降低或是乘以一個大於1的整數值的方式將該目前音高值平滑化，以使該目前音高值與含有最高顯著值的該子序列一致化。 2 4. —種用來追縱音南訊號的系統’該系統包含：用以接收一個由連續音高值所組成之被偵測音高訊號之接收器，且在該被偵測訊號中以及任何一整數倍數與該整數倍倒數的該被偵測音高訊號中，此處該整數小於一預

4IBM03119TW.ptd 第35頁