TWI238378B - A method for tracking a pitch signal - Google Patents

A method for tracking a pitch signal Download PDF

Info

Publication number
TWI238378B
TWI238378B TW092133677A TW92133677A TWI238378B TW I238378 B TWI238378 B TW I238378B TW 092133677 A TW092133677 A TW 092133677A TW 92133677 A TW92133677 A TW 92133677A TW I238378 B TWI238378 B TW I238378B
Authority
TW
Taiwan
Prior art keywords
value
pitch
subsequence
scope
patent application
Prior art date
Application number
TW092133677A
Other languages
English (en)
Other versions
TW200428356A (en
Inventor
Dan Chazan
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200428356A publication Critical patent/TW200428356A/zh
Application granted granted Critical
Publication of TWI238378B publication Critical patent/TWI238378B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Description

1238378 五、發明說明(1) 一、【發明所屬之技術領域】 P i t ch)訊號之音高追 此發明係關於用來平滑音高 蹤領域。 二、【先前技術】 音高探測器具有很廣大的應用範圍,例如,語音壓縮 (編碼)、語音合成,如從語音辨識特徵而來的語音重 建,以及其他的應用。 目前已有許多不同的間距探測器技術,例如: Y. Medan, E. Yaur, D Chazan, Super Resolution of pitch Determination for Speech Signals, IEEE ASSP vol 2 9 pp 4 0- 48,1991. 音高探測器嘗試在尋找某些偶然的音高的整數倍或是 可整除的分數倍。通常這樣做的理由是由於音高或是兩個 聲音間的快速轉變,以及存在有會毁損頻譜之正常結構之 刺耳的或是嘶啞的聲音。而這種毁損所造成的結果就是額 外的頻譜線的生成。這些頻譜的頻率通常是音高頻率一半 的整數倍,但是1 / 3或是1 / 4亦有可能發生。當錯過了這種 額外的頻譜線,音高頻率的複數倍就會被發現。當它們的 數目計算錯誤的時候,小部分的音高頻率就會被偵測到。 以應用在語音壓縮上來說,使用特定破損的音高訊號
4IBM03119TW.ptd 第6頁 1238378 五、發明說明(2) 將使降低的效能更明顯。 相應於此產生了這樣的技術需求,用以在偵測到的音 高訊號中平滑化受到破損的音高值。 相關的技術包括:
Robust pitch estimation using an event based adaptive Gaussian derivative filter Shah, A·; Ranachandran, R.P.; Lewis, M.A. Circuits and Systems, 2002. ISCAS 2002. IEEE International Symposium on, 2002. PAsge(s): 11-843-11-846 vol· 2.其目的在充滿雜音的語音中尋找音高。 三、【發明内容】 本發明為一個音高訊號之音訊追蹤的方法,其方法包 含: (i)接收一個由一連續音高值所組成之偵測到的音 高訊號,而且在偵測到的訊號中對每一個目前音高值,都 會至少執行至少下列(i i)到(iv)步驟: (i i)從鄰近的音南訊號中’建構至少一個由一致的 (consistent)音高訊號所組成的子序列(sub-sequence); (i i i)計算上述的至少一個由一致的音高訊號所組 成的子序列之顯著值(significance),並挑選一個子序列
4IBM03119TW.ptd 第7頁 1238378 五、發明說明(3) 或是含有最高顯著值之由一致的音高訊號所組成的子序列 的集合; (iv)如果目前的音高訊號並與含有最高顯著值之子 序列不一致時,將目前音高訊號的值降低或是乘以一個大 於1的整數值的方式來將訊號平滑化,以便於將目前音高 值與具有最高顯著值之音高訊號的子序列一致化。 本發明更進一步提供一追蹤音高訊號之方法,該方法 包括: (i)接收一個由連續音高值所組成的被偵測到的音 高訊號,而且在偵測到的訊號中,以及任何整數倍數以及 整數倍倒數的音高訊號中,此處之整數,小於一預設值, 對每一個目前音高值,都會至少執行至少下列(i i)到 (i i i)步驟: (i i)從鄰近的音高訊號中,建構至少一個由一致的 音高訊號所組成的子序列;如果偵測到的音高訊號並與子 序列不一致時,將音高訊號的降低以或是乘以一個大於1 的整數值,以便於與子序列一致化。 (i i i)計算上述的至少一個由一致的音高訊號所組 成的子序列之顯著值,並挑選一個含有最高顯著值的子序 列,藉此將目前的音高訊號平滑化。 本發明進一步提供一個用以追蹤音高訊號之系統,該 系統包含:
4IBM03119TW.ptd 第8頁 1238378 高 音 的 到 測 的 成 組 所 值 高 音 續 自c il 由 收 接 於 4)用 Γν 5i) 說 明C 發 訊 的C 到的 測面 偵下 在少 且至 ’行 }執 r e少 V i 至 e C 會 e r都 ( , 器值 收高 接音 之前 號目 訊個 X)/ .1 每 對C 中到
V 驟 步 的 致 1 由 個 1 少 至 構 建 中 f 訊 高 音 的 近 鄰 從 成 組 所 訊 高 音 致 一 由 個 - 少 •- > 至 列彳 ,的ί算 U計 組 所i) 號ii 訊C 高 音 之 ii 著著 顯顯 的高 列最 序有 子含 的是 η g • 1 s 由 或 列 序 子合 個集 一之 選成 挑組 並號 ,訊 \ly e 高 C η 立曰 a C的 • 1 f致 序 子 值 著 顯 高 最 有 含 與 並 !# 訊 高 音 的 前 •, 目 }果 η ο如 • 1 t C V 6 i IX 1 ( ο c 以 乘 是 或 低 降 值b^ 的ί α 號ί化 訊Μ致 高Κ 一 立日;列 前Μ序 ί式Η 將.的 方: 用 號 ,fL 值t 時t高 k數」 致整音 二值 不α著 列於顯 大 個 高 最 有 含 與 於 以 本發明再進一步提供一個追蹤用以音高訊號之系統, 該系統包含: (i)用於接收由連續音高值所組成的偵測到的音高 訊號的接收器,而且在偵測到的訊號中,以及任何整數倍 數以及整數倍倒數的音高訊號中,(此處整數小於一預設 值),對每一個目前的音高值,都會至少執行至少下列 (i i)到(i i i)步驟: (i i)從鄰近的音高訊號中,建構至少一個由一致的 音高訊號所組成的子序列;如果偵測到的音高訊號並與所
4IBM03119TW.ptd 第9頁 1238378 五、發明說明(5) 謂的子序列不一致時,將音高訊號的值降低或是乘以一個 大於1的整數值,以便於與子序列一致化。 (i i i)計算上述的至少一個由一致的音高訊號所組 成的子序列的顯著值,並挑選一個具有最高顯著值的子序 列,藉此將目前的音高訊號平滑化。 本發明提供一個電腦產品,該產品之程式碼用來執行 音高訊號之追蹤,該電腦產品包含: 用來接收一個由連續音高值所組成的偵測到的音高訊 號的接收器,而且在偵測到的訊號中,對每一個目前音高 值,都會至少執行至少下列(i)到(i i i)步驟: (i)從鄰近·的音高訊號中建構至少一個由一致的音 高訊號所組成的子序列; (i i)計算至少一個由一致的音高訊號所組成的子序 列之顯著值,並挑選一個子序列或是具有最高顯著值音高 訊號的一致子序列的集合。 (i i i)如果目前的音高訊號並與具有最高顯著值子 序列不一致時,將目前音高訊號的值降低或是乘以一個大 於1的整數值的方式來將訊號平滑化,以便於與具有最高 顯著值音高訊號的子序列一致化。 本發明進一步提供一個電腦產品,該產品之程式碼用 來執行音高訊號之追蹤,包含: (i)用來接收一個由連續音高值所組成的偵測到的
4IBM03119TW.ptd 第10頁 1238378 五、發明說明(6) 音高訊號的接收器,而且對於在偵測到的訊號中的每一個 目前音高值,以及任何整數倍數以及整數倍倒數的音高訊 號中,(此處之整數小於一預設值),都會至少執行至少下 面的(i i)到(i i i)步驟: (i i)從鄰近的音高訊號中,建構至少一個由一致的 音高訊號所組成的子序列;如果偵測到的音高訊號並與所 謂的子序列不一致時,將音高訊號的值降低或是乘以一個 大於1的整數值,以便與子序列一致化。 (i i i)計算上述至少一個由一致的音高訊號所組成 的子序列的顯著值,並挑選一個含有最高顯著值的子序 列,藉此將目前的音高訊號平滑化。 四、【實施方式】 首先由附圖 1開始,在圖中顯示了一個依照本發明實 施例的音高追蹤系統的廣義區塊圖。如圖所示,未經處理 的語音訊號透過輸入裝置來接收,如麥克風1 2,然後餵入 (在轉換成為數位訊號之後)處理器中(在使用者個人電 腦1 4與相關的儲存裝置1 6中的),處理器本身執行適當的 由軟體實現的工具來做音高偵測(在附圖1中並無明確地 顯示)。 除了音高訊號之外,音高偵測器也可能會產生框架能 量(frame energy)。框架能量是某種在音高被計算的框架 内的訊號強度的度量以及某種音高的品質的度量,是一種
4IBM03119TW.ptd 第11頁 1238378 五、發明說明(7) 可以達到使用偵測到的音訊頻率描述訊號為一週期性的訊 號的程度(d e g r e e )。接著,這裡被偵測到的音高訊號以及 可能之適合的能量或是程度就被提供給音訊追蹤模組(在 附圖1中並無明確顯示)來將音高訊號平滑化 (S m ο 〇 t h i n g)。以下將會有更詳盡的說明。以語音壓縮 來說,接著語音訊號被就其本身而言之語音編碼演算法 (例如:spectral編碼)所限制,然後再將經過編碼的訊 號透過網路1 8遠端傳送。 當然,本發明並不只是局限在圖1中特定的架構以及/ 或者實作,以及/或者應用程式(語音編碼),而其他的 變異也相對應的應用,其皆為必須的以及適當的。以非限 制的方式來舉例,可以在分散式的環境下來實作,而不只 限於在一個獨立式的個人電腦的環境α 後述簡短的關於音高訊號特徵的概觀,將有助於瞭解 依照本發明中各種不同的實施例之音高訊號追蹤的結構及 運作。 因此,假設聲帶產生頻率隨著時間改變的刺激,一連 串正確(真)的音高值總是連續的。例如,連續的值都彼 此很接近。考慮一個被偵測到的音高訊號,正常地包含正 確的以及受到破損的音高值(m a r r e d p i t c h )。設ρ 1與ρ 2為 兩音高值,(如:在圖2中,在音高訊號20内的21與
4IBM03119TW.ptd 第12頁 1238378 五、發明說明(8) 2 2)。如果pi (如21)是正確的音高值,而p2是一個受到 破損的音高訊號(如22),而且p2的強度為正確的音高值 的m倍(即平滑化過的音高值,如2 3,相當於的受到破損 的音高訊號值22)。正確的m值可以由情況最為平滑的序 列{ p 1,p 2 / m }而得到。平滑的測量可以用典型但並非必要 地由下面測量音高間的距離的公式而得到:
D ( pl 5 p2) = I ( pi-p2) / ( pi+p2) I 這表示p2/m (代表平滑的音高值,如2 3)盡可能地以 上述的距離測量公式來測量而與p 1相近。相似地如果p 2 (即受到破損的音高值)是正確音高值(即相當於平滑的 音高值)的整數(m)分之一,則m便會使{ p 1,p 2 * m }的序 列内盡可能的平滑。在後述的情況中,p2 (即受到破損的 音高值)為正確音高值的整數分之一,在圖2中並無說 明。 本發明之音高追蹤演算法的目標是在偵測到的音高訊 號中決定哪些是正確的值以及哪些是受到破損的值(即它 們會是真[平滑的]音高值的整數倍數或是整數分之一)。 此演算法更進一步地將受到破損的音高值加以平滑化,以 至於可以在任何可能的情況下得到平滑的音高訊號。 在所有的實施例中,此演算法係即時快速地運作 (On-the-fly),並且要在一規定的延遲内,完成。因此在
4IBM03119TW.ptd 第13頁 1238378 五、發明說明(9) 每了瞬間音高值的倍數(或是分數)之計算都必須要基於 先W的音高值’以及最多Tf uture&的未來音高值,此處 T f u t u r e是一個允許的延遲。因此對於一實施例,問題可 以定性如下:給定Tpast個以前的音高值以及Tfuture個將 來的音高值,欲找出一整數使得目前的值與過去以及未來 之正確音咼值最為前後一致的。要注意的是在所有的實施 例中’未來的與過去的值都已考慮在内(會引起延遲)。 此延遲(T f u t ur e)可以被設定為〇,亦指僅考慮過去的 值0 為了偵測什麼才是正確的值(即真音高值),以下 一個基本的假設,即音高偵測器找到正確值的可能性比 到正確值的倍數或是分數的機會大。當序列内所有的值彼 此都在某一小量的係數(f act〇r)的差別之内,此連串 <的 音咼訊號可以視為是一致的。因此,在一個一致的序列' 的兩連續的真音高訊號p 1,p 2定義為擁有此羼性(以下於 係數屬性):factor > pl/p2 > l/factor<>此係數的值曰 應該能反應出在兩真音1¾訊號之間所能允許的最大改變 在一個具體實施例中,對多數的測試來說我們選擇丨.2 此係數的值。要注意的是通常此係數的範圍會在1 · 〇到> ( 之間。 ·1 依知一具體貫施例’原本的(即被偵測到的)音高值 的序列,被依照某一演算法以上述的論點(即遵守係數屬
1238378 五、發明說明(ίο) 性)而分割成多個一致的子序列。基於上述的假設,一個 音高偵測器找到正確值的可能性比找到正確值的倍數(或 是分數)的機會大,在此區間内的將會有比不正確的音高 值(倍數或是分數)還要多的正確的音高值。在此區間内 包含了 d個未來的點以及相關的過去的點。因此,含有真 音高值的子序列通常會比其他子序列顯著值更高(稱為較 多的能量)。 因此,依照此一具體實施例,選擇真音高值的標準 為:使用由顯著值最高的子序列演譯而來的真音高值,便 有可能找到使目前音高訊號值,與此子序列内的真音高訊 號值最為一致(接近)的倍數或是倒數的整數值。在以下 一具體實施例中,將有更仔細的說明。在此具體實現中, 嘗試在允許的時間區間内(通常從Tpast個過去的音高訊 號延展到Tfuture個未來音高訊號,後者是依照可接受的 延遲所決定的),去符合目前的音高訊號值來與顯著值最 高的的子序列群組作一致化。為了要能一致,所有子序列 的終端點,都必須要在相去不超過係數(Factor)的範圍 内。擁有最高顯著值分數(如最高能量)的子序列群,會 被選擇來與目前音高訊號相符。要注意的是在一序列内的 音高訊號值構成了一條路徑(有時被稱為是軌跡線)。如 讀者所知,在此具體實施例中,每一個音高訊號都與一個 能量有關,以及相對應的路徑能量也利用與每一個音高訊 號值相對應的框能量相加在一起的方式計算出來,以及,
4IBM03119TW.ptd 第15頁 1238378 ------ 五、發明說明(11) 顯著值最高的一致的子序列群組會被選取出來。 裡能 此 &量〆詞被寬鬆地用來表示框加链芏佶…f ^ ^ 更 不框架顯者值得任何度量。因 /些帶有極低能量的框架,> % H八 f L ^ 木 也吕午疋含有报大量的雜 士π ,以致在這些框架内所計曾φ水μ立> 士 y τ π出來的音咼有报大的可能性 是錯誤的。然@,亦值得注意上述情況只有在極低的能量 時才會發生。如此,依照具體實施例,某個框架的計算能 量的低能量,反而會是比能量本身還要好的顯測 再 中 , 值 值它高 高將音。 音,前數 的後目分 來}在是 未列找或 與序尋數 的子即倍 去個。數 過多化整 於或滑的 基C平的 ,列值列 例序高序 施子音子 {貫的前的 體量目致 具能將一 本大來持 照最用維 按有}以 取們可 選C最 記住,將注意力放在依照本發明的具體實施例的圖 3。圖3的圖解說明決定音高子序列的流程圖。以及圖4中 描述本發明實施例的連續框架之音高值的圖表用來識別音 高的子序列。 在圖3的具體實施例中,計算出一致的音高子序列們 使得每一子序列都包含彼此間的差異都在係數範圍之内的 連續音高值,即factor >pl/p2> Ι/factor。對於並非 連續但是由單一的時間單位間隔之音高值p 1與p2來說,存 在有一大於係數(factor)的係數值Lfactor,使得 Lfactor > pl/p2 > sub-Ι/Lfactor。一個所有音高值都
4IBM03119TW.ptd 第 16 頁 1238378 五、發明說明(12) 欵子序列。依照本發 個具體 連續的音高。每〜序列可能包含符合Lfactoi^條件的非 一致的子序列稱為 實施例,一個 >[固 於與目前瞬間最靠"高值的一致子序列都含有一個相對 的值(被稱為尾立t的時間瞬間在搜尋真音高值的子序列 q鬲值)。 這個程序是由 滑的音高值。任何$本的音高值開始,然後輸出是一組平 之前的Tpast個以及$間點Tcur的平滑音面值與在此時間點 關。因此,參照圖在此時間點之後的Tfuture個音高值有 以後面所細述的';,假設框架1到6之中所有的音高值都 高值之中,音高追,,過。如圖4所示,在已處理的音 高值,(即音高偵測’算法發現框架1,2,5,6為真音 框架做平滑處理。相° 、測到的真值因此不需要對這些 42,43)被音高追蹤救地,框架3及4中的音高值(分別為 一個乘數的方法平典几為受到汙損的音高,且透過除去 注意的是,直觀上為相應的平滑值(42’,43,)。要 組合成一個一致的序=滑值(42’)與(43,)與其相鄰值 高值相靠近,且沒有彳F各依照每一個音高值與其鄰近的音 (44,True Pi :〜速的變動的概念在真音高值 到破損的音高值(42,—
Pi ten)間急迷的變動較為明顯)。 u 因此,處理好前六個立古 7 U1)之音高值(Tcur)以曰:值之後,則處理目前的框架 J 乂決定它是真值或是受到破損
4IBM03119TW.ptd 第17頁
1238378 五、發明説明f13) ^ 的,若是受到汙捐的等一下要做平滑化的處理。假設最多 允許有雨個未來點即 Tfuture = 2 (delay = 2),與六個過去 點(即允許TPas t = 6 )。這意味著子序列由框架=1 ( 4 5)到 樞架=9 ( 46)的區間搜尋。在這個例子中,Tmax為5 ’表 示過長的子序列中隶运的尾音南值不應該在框架=2之別。 值得注意的是這個例子的 T p a s t,T f u t u r e,T m a X的值是 為瞭解說的目的而選,合在一起並沒有什麼意義。
因此’在圖3的步驟3 1中,此演算法搜尋一段最長相 鄰的共扼(ad jacent)音高值 p[ j ]的子序列集合使得 (A) j 屬於[Tcurrent-Tpast, Tcurrent+Tfuture]區 間; (B) 對每個子序列的所有音高值,都滿足facto:r > p[ j + 1]/p[j]> 1/factor。
值得注意的是這裡的搜尋著重於那些被偵測到且非平 滑值。(即考量音高值42,43而非42,,43,)。如圖4所 示,顯不出三段一致的子序列。由音高值5 〇,5丨所組成的 子序列4 7 ;由音高值4 2 ’ 4 3所組成的子序列4 8 ;由音高值 4 5 ’ 4 4所組成的子序列4 9。注思為了便於辨識,子序列$ 7 到4 9在圖示中有些許向下平移。 5 1在係數值之内 1. 2 8 ),且框架 4 注意子序列4 7,它顯示音高值 5 〇 (假設,舉例來說係數值(factor)=
1238378 五、發明說明(14) ^---- (43)的音高值並非子序列47的一個成員。這θ 架4(43)的音高值比框架5(5〇)的音高值還大得多^因為框 何狀況下,比值Ρ(框架=4)/ρ(框架=5)超過所允,且在任 (factor)值。子序列48,49也是以同樣的方°的係數 所有的子序列,其尾音高值(例如,子序列49^/、定。對 列48的4 3 ;子序列47的51 )的時間點最為接近目前4 ;子序 的尾音高值,是在目前時間點的Tmax (在這個之時間點 Tmax = 5 )之内。 予中’ 需注意此處沒有顯示更進一步的子序列,
8跟9(52跟46)的音高值看來,並沒有遵守之扩為從框架 係數標準,因此不能處在相同的子序列。。在所討論的 序列包含一個成員的情況下,考慮兩個額外的:=常的子 —個包括框架8(52)的音高值’第二個則包 序列’第 音高值。 化木9 ( 4 6 )的 既已決定子序列,最高的顯著值就已選好 驟34)。需注意的是後述之修正過的實施例(圖^的步 用步驟3 2與3 3。 ^逃如何使
回復到之前的那個實施例中,各個 透過計算其累計的能量所決定。例如,斟—」的顯著性: 構成的音高值的能量總計為其子序能;了子序列) score) 。 J 幻此里數(energy
1238378 五、發明說明(15) 假設圖4的例子中, 目前的音高值剛好在那裡子序列,有最高的能量數 % Μ架7的音高tf昝 _ ^ 了這目的,(舟騮q c' ----------〜个中,4 |目前的音高值剛好在那裡。一二刀取向的能量數, 的框架7的音高計算—個整.,、,了廷目的,(步驟35)替目、‘ 序列(47)的尾音高值(5數值,使其最接近所選定的則 I平滑化音高值(53)與他相:鄰顯遵從係數限制的 s-a-vis)。 的曰同值(51,52)面姐 叫野面 注意若框架7原始的立古 真,值’相斟受到7值是」3 (音高偵測器較易傷 音南值是否遵循係數的=:曰=而言),馬上就要測 被排除。 特 而且計算乘數的那個+ 測到真音高值’相斟受到破m r (音高伯測器較易. 音南值是否遵循係數的;寺=曰:而言)’馬上就要測 被排除。 特性,而且計算乘數的那個: 當完成框架”的瞀 ^ (5 2或框架=8 ),&丄开 馬上跟著計算下一個音g # 如此一個接著一個進行。 9回值 試此 |驟將被排除 近( 前音 子序 割成 序列 有最 的。 同的 回到圖3的步酿n / 乂驟32與33,在 修正過的實施例中 close) π子序 高符合這一群仏〜旧//b Γ ,于序列是群 列是以尾音高伯代表性的子序列。更特別的是,這些 一群一群的(米來分類的,然後以在係數範圍之内切 的能量計算而3 2) a,各群的能量透過加總各自的子 大總合能量的=’、並形成一代表子序列(步驟3 3 )。帶-^ ^ ^ ^ ^ ΐ ί ; ja ^ 尾值的芈於枯/匕群中各個子序列的不 尾值的千均值h而得(步驟34)。要注意其中的平均 列的情況下,子序列是群集在—起且目
4IBM03119TW.ptd 第20頁 1238378 五、發明說明(16) 值只是舉例而已,也可能透過選擇最接近Tcur時間區間的 音高值來決定等等各種方法都有可能。最後,目前的音高 值乘上或除以某一整數值,使得其接近計算得到的音高值 (步驟3 5 )。回到圖4來舉例,若對尾音高值分類(步驟 32),結果是子序列49的尾音高值44,子序列47的尾音高 值 5 1以及(未來只含有音高5 2的子序列的)尾音高值 5 2,都非常接近,且被歸類為相同的群組。另一個群則由 子序列 48所構成。 附帶的,對未來的子序列而言,此尾音高實際上就是 頭音高(head pitch)。即在子序列中的第一個值最接近目 前音高。為了方便,π尾音高值f’表示過去子序列的尾音高 值以及將來子序列的頭音高值。 回到圖4的例子,每個群組的代表子序列來決定顯著 值(透過計算本實施例中全部的能量)(步驟3 3 )。自然 地,由子序列 4 7,4 9,5 2组成的群組勝過其他群組。 (因為這三個子序列的累計能量大於子序列 48 )。再來, 計算代表性的尾音高值,透過平均不同的尾音高值 44、 5 1與5 2,得到尾音高值的平均值(步驟3 4 ),然後如果有 必要,以之前所述的方式(步驟3 5 )針對代表性的音高值 平滑化目前的音高值。 因此,根據已描述的部分,已經提供了 一個產生一致
4IBM03119TW.ptd 第21頁 1238378 五、發明說明(17) 音高的子序列,並且從中選出顯著值最高的子序列的機 制。顯著值可以透過計算能量決定,或由音高值的品質量 測決定(即量測訊號可以所偵測到的音高頻率來描述為週 期訊號的程度),或兩者一起考量。也可以依所需適當地 使用其他係數附加或取代於上述決定顯著值之方式中。在 一個具體實施例子中,如果某些音高值可能比其他的音高 值較不正確,可以將能量(單獨或整合其他參數)納入計 算顯著值因素中。例如,那些具有非常低能量的框架,可 能與那些有高能量的框架較不相關。同樣的,那些音高偵 測器在其音高模式中所評定為較差的頻譜模擬的框架,亦 不應列入計算。受此影響,除了使用能量,亦可使用訊號 符合特定音高的週期性程度來量測。這使得通常每個框架 會增加一個零到一的數值,且這個數值會對能量有倍數的 影響。 而在其他具體實施例子中,一個一致的序列將由區間 内所有的音高值彼此前後一致來構成,這個區間内的某些 音高值可透過乘除一些整數係數來標準化成前後一致的音 高值。這些具體例子參照圖4與圖5的描述。 因此,在步驟(6 1 )中,選定目前的音高的一個整數倍 或倒數倍。在圖4的例子中,再一次假設框架 7的音高值 正在被評估中(已經處理好音高值1到6 ),然後,首先, 選取4 1作為樣本值(即此整數值為1 )。接著,(步驟6 2 )從
4IBM03119TW.ptd 第22頁 1238378 五、發明說明(18) 目前的音高值(乘數為一)’開始找出一個子序列,且將相 鄰的音南值乘以乘數或除數以標準化至目前的音高值,這 使得最後的音高值會在目前的音高值的俜數”F t ” 内(因其相對於41顯現快速的變動),因此,一個稱 整數乘數被用來計算產生在參昭音古二 %、、曰阿值4 1係數範圍内的音 高值55。此乘數係數(此例為2)與剛剛被計算的音高值55 相關連。以同樣的方法,序列往前與往後在可允許的。 pcurrent-Tpast,TcUrrent + Tfuture]區間擴展,使得 每個被計算的音高值都在其相鄰的音高值的某個係數之 間。完成子序列的計算後,其顯著值就決定了 ,例如音高 值的個數與乘數1相連結(即在子序列中音高值的個數保持 不,,不被標準化動作所影響)❺在步驟6 3,做了個目前 :2的最佳顯著值比較,且若從目前的框架產生更好的顯 :盔’u!!馬上取代之前的最佳顯著值。這樣就能紀錄到目 丽為止最佳的路徑。 的立ί ^驟6 1到63以產生其他的子序列,再從框架7 框二问7的立這次取倒數2 (回想之前第—個子序列,
以2、),框,曰=1雍二乘數係數…因此’使用倒數”除 架6而言、,i; 高值* 53 (圖”。現在,對框 ΐ :乘= 框架6(51)的音高值落在係數之 /、數為1。類似地,第二個子序列往前與往後在
1238378 五、發明說明(19) [Tcurrent —Tpast, Tcurr en t+ T f u t ur e ]區間内擴展。第二 個子序列的顯著值也以同樣的方法計算,例如與乘係數有 關之音面成貝的個數為一。 注意從之前的具體實施例中,子序列都沒有部分重疊 (4 9、4 8與4 7 ),在此實施例中,子序列部分重疊意味著所 有的子序列從Tpast擴展到· Tfuture。 力7同从木:^的方法’其他的子序列由倒數乘數3 (相對於框 ^ 7的=高值)所構成,然後另一個是乘數2,另一個是 到/ί有\允許的整數乘數與倒數乘數都耗盡為止 且^以顧菩、 S 。主意每個子序列的顯著值都已計算, 做的i找出:::::臝家都紀錄在每個步驟中。剩下要 高顯著值分數(疋 列的最後赢家(步驟65),即擁有最 畏接吉…數(Slgnif icance score)的那個子岸 取 的的ί i ^子序列中的目前音高值(框架=7),已粑摅。在 的的采數係數平滑處理過。 根據相應 列中’與其目前音高值 家的子序 值。 個真曰冋值而非受到破損的音高 # 個。=架,重複這流程,1接著 值以能量猫 只施例做些不同的修正,例: -者值係數與音H顯著值係數 $將顯著 m Ϊ值
1238378 〜----- 五、發明說明(20) (weighted value)來決定。 注意在其他實施例中,若考慮連續性的關係,子序列 也可跳過一個單一的零音高點,並允許一個較大的係數。 例如’平常所使用的正規係數是丨· 28,及較大的係數 1.4^ 使用較大的係數是因為它較最差的情況正確,最差的情況 會跳過兩個步驟。連續跳過兩次丨· 2 8就不太可能是個正常 合適的音高。 需注意的是各種變化的替代方案與修正亦可能被實 Μ。例如’以上述第一個實施例而言,可加入下述的一個 額外步驟: 在音高軌跡包含大於係 間[T c u r r e n t - T p a s t, 的音高值集合都被分類 内連續點之間的距離不 大於係數的跳躍切割開 子集合之中,且不會落 要在上述的演算法加入 切割成幾個子集合,這 分開來。並選出最大能 音高執跡是那些在選定 在區 發生 集合 會被 一個 能需 高值 跳躍 量的 數的跳躍(jump)的情況下,若 成幾個子集合,使得在每個子 會超過係數,但這些子集合間 來’各音高執跡都必須落在某 在其他的子集合中。因此,可 額外的步驟。把已排序好的音 些子集合彼此間以大於係數的 量的子集合。演算法唯一要考 的子集合内的值。
4IBM03119TW.ptd
1238378 五、發明說明(21) 可以瞭解到的是,本發明的系統可以是適於程式化的 電腦。同樣的,本發明考量到執行此發明方法的電腦其程 式的可讀性。本發明更進一步考量到一機器可讀取的記憶 體明白地具體化一可被本發明之方法所執行之機器指令的 程式。
4IBM03119TW.ptd 第26頁 1238378 圖式簡單說明 五、【圖示簡單說明】 為了瞭解以及知悉本發明及其實際施行方式,較佳實 施例將以例示但非限制之方式描述,並參考以下之伴隨的 圖示: 圖1為一區塊圖,顯示一個使用音高平滑演算法的系統, 其演算法根據本發明的一個實施例; 圖2說明一連續.框架的音高值取樣; 附圖3說明一依照本發明的具體實施例的音高追蹤流程 圖; 圖4說明一依照本發明的實施例的之連續框架的音高取樣 值,並且標明音高值的子序列,以及 圖5說明一依照本發明的實施例的音高追蹤流程圖。 圖示元件符號說明 1 0音高追蹤系統 1 4個人電腦 1 8網路 21音高值 4 1框架7的音高值 4 2 ’平滑值 4 3 ’平滑值 4 5框架7的音高值 4 7子序列 4 9子序列 12麥克風 1 6儲存裝置 2 0音高訊號 22音高值 4 2破損的音兩值 43音高值 44真音高值 4 6框架9的音高值 4 8子序列 5 0框架5的音南值
4IBM03119TW.ptd 第27頁 1238378 圖式簡單說明 5 1框架6的音高值 5 2框架8的音高值 5 3音高值 5 5音高值 inniiii 第28頁 4IBM03119TW.ptd

Claims (1)

1238378 六、申請專利範圍 1 · 一種用來追蹤音高訊號的方法,該方法包含: (i )接收一由連續音高值所構成之被偵測音高訊號, 並對於該被彳貞測訊號中的每一目前音高值(current pi tch value),執行至少一個後述的(i i )至(i v)步驟: (ii)從鄰近的音高值中,建構至少一個由一致音高 值(consistent pitch values)所組成的子序列(sub-sequence ); (i i i )計算上述的至少一子序列的顯著值 (significance),並挑選一個子序列或是含有最高顯著 值一致的子序列的一集合(collection); (iv)如果該目前音高值與含有最高顯著值的該子序 列不一致時,經由降低或是乘以一個大於1的整數值的方 式將遠目别音面值平滑化,以使該目前音高值與含有最高 顯著值的該子序列一致。
4IBM03119TW.ptd 第29頁 1238378 六、申請專利範圍 音高值屬於一個子序列。 3 ·如申請專利範圍第1項所述之方法,其中步驟(i丨)進一 步包含了: 至少一個子序列,該子序列由上述與該音高值一致的 該子序列中取出,該音高值係於音高[Tcurrent, Tf uture + Tcurrent ]範圍内被計算出,此Tcurrent是該 目前音高值,並且Tfuture是D未來的音高值;並且其中在 該子序列之中連續的每兩個音高值是係數分離的,此處係 數小於1.5且大於1,且其中落於範圍[Tcurrent, Tfuture + Tcurrent]中的每一音高值屬於一個子序列。 4 ·如申請專利範圍第2項所述之方法,其中步驟(i i )進一 步包含: 至少一個子序列,該子序列由上述與該音高值一致的 該子序列中取出,該音高值係於音高[T c u r r e n t, Tfuture + Tcurrent]範圍内被計算出,此Tcurrent是該 目前的音高值並且Tfuture是D未來的音高值;並且其中在 該子序列之中連續的每兩個音高值是係數分離的,此處係 數小於1 · 5且大於1,且其中落於範圍[Tcurrent, Tfuture + Tcurrent]中的每一音高值屬於一個子序列。 5 ·如申請專利範圍第2項所述之方法,其中該係數等於 1.28。
4IBM03119TW.ptd 第30頁 1238378 六、申請專利範圍 6 .如申請專利範圍第3項所述之方法,其中該係數等於 1.28。 7 .如申請專利範圍第4項所述之方法,其中該係數等於 1.28。 8.根據申請專利範圍第1項所述之方法,其中在一子序列 中的每一音高值,結合一能量值及規定在步驟(i i i )中根 據該子序列之一能量的顯著值,後者是該子序列之該音高 值的該能量值的一函數。 9 .如申請專利範圍第8項所述之方法,其中該子序列的該 能量是上述該子序列的該音南值之該能量值的總和。 1 0 .如申請專利範圍第1項所述之方法,其中每一子序列有 一尾部音高值,且其中該步驟(i V )包含: 經由降低或是乘以一個大於1的整數值的方式將該目 前音高值平滑化音高,以使該目前音高值與最大顯著值的 該子序列的該尾部音高值一致。 1 1.如申請專利範圍第1項所述之方法,其中步驟(i i i )進 一步包含: 分類該子序列的尾部音高值和根據該分類過的尾部音
4IBM03119TW.ptd 第31頁 1238378 I、申請專利範圍 ^_ 同值聚集該子序列音高,使得封閉 tail Pitch value)的子序列位於同_;/高值(close 顯著值之計算中包含:計算在每—固群組,且其中該 顯著值,並且選擇具有最大顯著值的;^中的所有子序列的 1步驟(i V)進一步包含,假如當前的立▲個群組;且其中 |組中最大顯著值的上述的子序列,二=值不符合在一個群 | 1的整數來修飾當前的音高值,以便"除以或者乘以大於 i的上述的群組一致。 於達到與最大顯著值 ^2 ·如申請專利範圍第丨丨項所述之方法, 一 1著值群紕中之該子序列的該尾部音t 、其中在該最高顯 1一平均尾部音高值,其中在該步罈7iv)^t平均值,產生 右目Μ音高值不符合該平均尾部立古 丨或者乘以大於1的整數來修飾當前的音古门’則藉^ J 务低 I與該平均尾部音高值一致。 日以便於達到 13三如申請專利範圍第11項所述之方法,其中一子序列中 =每一音高值,係與一能量值結合且如步驟(i i i)中所規 定該顯著值係根據該子序列之該能量而定,後者是該子序 I列的邊音南值的該能量值的〆系數。 1 4 ·如申清專利範圍第1 3項戶斤述之方法’此處该子序列的 該能量是該子序列的該音高值的該能量值的總和。
4IBM03119TW.ptd 第32頁 1238378 六、申請專利範圍 一步包含了: 至少一個子序列選自落在[Tcurrent, Tfuture十 Tcu r r e ni ]範圍内之一致該音高值所組成之該子序列中, 此處Tcurrent是目前音高值並且Tfuture是D未來的音高 值;並且其中在該子序列之中連續的每兩個音高值是係數 分離的,此處係數小於1 · 5大於1,且其中落於範圍 [Tcurrent, Tfuture + Tcurrent]中的每一音高值屬於 一個子序列。 1 8 ·如申請專利範圍第1 6項所述之方法,其中步驟(i i)進 一步包含: 至少一個子序列選自落在[Tcurrent, Tf uture +Tcurrent ]範圍内之一致該音高值所組成之該子 序列中,此Tcurrent是目前音高值並且Tfuture是D未來的 音高值;並且其中在該子序列之中連續的每兩個音高值是 係數分離的,此處係數小於1 · 5大於1,且落於範圍 Tfuture - Tcurrent的每一音高值屬於一個子序列。 1 9 ·如申請專利範圍第1 6項所述之方法,其中該係數等於 1.28。 ' 2 0 ·如申請專利範圍第1 7項所述之方法,其中該係數等於 1.28。 、
4IBM03119TW.ptd 第34頁
1238378 六、申請專利範圍 . 2 1 ·如申請專利範圍第1 7項所述之方法’其中該係數等於 1.28。 2 2·如申請專利範圍第15項所述之方法,其中該的顯著值 係依照不限於經過前述除法或乘法產生之該子序列中該音 高值的該數目。 2 3 ·〆種用來追縱音南訊號的系統,該系統包含· 用於接收一個由連續音高值所構成的被偵測音高訊號的接 收器,並對在被偵測訊號中的每一目前音高值,至少執行 下列步驟(i i )至(i v ): (i i )從W近的音局訊就中,建構至少^一個由一致音 高訊號所組成的子序列; (i i i )計算上述的至少一子序列的顯著值,並挑選一 個子序列或是含有最南顯著值一致的子序列的一集合; (i v )如果该目如音南值與含有最高顯著值子序列不一 致時,經由降低或是乘以一個大於1的整數值的方式將該 目前音高值平滑化,以使該目前音高值與含有最高顯著值 的該子序列一致化。 2 4. —種用來追縱音南訊號的系統’該系統包含: 用以接收一個由連續音高值所組成之被偵測音高訊號 之接收器,且在該被偵測訊號中以及任何一整數倍數與該 整數倍倒數的該被偵測音高訊號中,此處該整數小於一預
4IBM03119TW.ptd 第35頁
TW092133677A 2002-12-27 2003-12-01 A method for tracking a pitch signal TWI238378B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/331,451 US7251597B2 (en) 2002-12-27 2002-12-27 Method for tracking a pitch signal

Publications (2)

Publication Number Publication Date
TW200428356A TW200428356A (en) 2004-12-16
TWI238378B true TWI238378B (en) 2005-08-21

Family

ID=32654736

Family Applications (1)

Application Number Title Priority Date Filing Date
TW092133677A TWI238378B (en) 2002-12-27 2003-12-01 A method for tracking a pitch signal

Country Status (8)

Country Link
US (1) US7251597B2 (zh)
EP (1) EP1579423B1 (zh)
JP (1) JP4336316B2 (zh)
KR (1) KR100920625B1 (zh)
CN (1) CN100578611C (zh)
AU (1) AU2003282317A1 (zh)
TW (1) TWI238378B (zh)
WO (1) WO2004059616A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI643183B (zh) * 2017-09-22 2018-12-01 財團法人鞋類暨運動休閒科技研發中心 Scale recognition module

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
CN103714824B (zh) * 2013-12-12 2017-06-16 小米科技有限责任公司 一种音频处理方法、装置及终端设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3978287A (en) * 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5864795A (en) * 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI643183B (zh) * 2017-09-22 2018-12-01 財團法人鞋類暨運動休閒科技研發中心 Scale recognition module

Also Published As

Publication number Publication date
CN1729508A (zh) 2006-02-01
CN100578611C (zh) 2010-01-06
JP4336316B2 (ja) 2009-09-30
EP1579423B1 (en) 2012-05-23
WO2004059616A1 (en) 2004-07-15
KR20050085166A (ko) 2005-08-29
EP1579423A1 (en) 2005-09-28
US7251597B2 (en) 2007-07-31
KR100920625B1 (ko) 2009-10-08
US20040128124A1 (en) 2004-07-01
JP2006512604A (ja) 2006-04-13
TW200428356A (en) 2004-12-16
AU2003282317A1 (en) 2004-07-22

Similar Documents

Publication Publication Date Title
US9418643B2 (en) Audio signal analysis
US9280961B2 (en) Audio signal analysis for downbeats
US7659471B2 (en) System and method for music data repetition functionality
US20150094835A1 (en) Audio analysis apparatus
US20160027420A1 (en) Evaluation of beats, chords and downbeats from a musical audio signal
CN104978962A (zh) 哼唱检索方法及系统
KR20060032401A (ko) 신호의 피치를 평가하는 방법 및 장치
US20040167775A1 (en) Computational effectiveness enhancement of frequency domain pitch estimators
US8494668B2 (en) Sound signal processing apparatus and method
US20120020484A1 (en) Audio Signal Quality Prediction
US20200152162A1 (en) Musical analysis method, music analysis device, and program
GB2522644A (en) Audio signal analysis
TWI238378B (en) A method for tracking a pitch signal
Wang et al. Pattern discovery from audio recordings by variable markov oracle: A music information dynamics approach
CN111986698A (zh) 音频片段的匹配方法、装置、计算机可读介质及电子设备
Holzapfel et al. Rhythmic similarity in traditional Turkish music
US11308181B2 (en) Determination method and determination apparatus
US20080017017A1 (en) Method and Apparatus for Melody Representation and Matching for Music Retrieval
Tang et al. Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant.
Kotropoulos et al. l1-graph based music structure analysis
Pishdadian et al. On the transcription of monophonic melodies in an instance-based pitch classification scenario
RU2773876C2 (ru) Способ извлечения биг-битовой информации из долей музыкального такта, носитель данных и терминал
KR101079743B1 (ko) 멜로디 라인의 특성에 기반한 멜로디 피치 후보들로부터의 멜로디 라인 결정 방법
Burred et al. Mirex-2010 single-label and multi-label classification tasks: ircamclassification09 submission
JP5366658B2 (ja) 系列データ照合方法、系列データ照合装置、プログラムおよび記憶媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees