TWI426501B

TWI426501B - 旋律辨識方法與其裝置

Info

Publication number: TWI426501B
Application number: TW099141179A
Authority: TW
Inventors: Wen Nan Wang; Jyh Shing Jang; Tzu Chun Yeh; Chung Che Wang; Hsin Wen You; Cheng Yu Hsu
Original assignee: Inst Information Industry
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2014-02-11
Also published as: US8742243B2; CN102479509A; US20120132056A1; TW201222526A

Description

旋律辨識方法與其裝置

本發明係有關於旋律辨識。

傳統上，旋律辨識方法的辨識基礎為音高與該音高之總長度。目前旋律辨識技術先建立包含多首曲目的音高資訊的旋律資料庫，當使用者哼唱一段旋律之後，擷取該旋律的音高資訊，例如音高與音高的總長度等，然後與旋律資料庫作比對，藉以提供可能的對應曲目。

一些習知的旋律辨識方法除了比對上述音高資訊之外，同時也利用額外輸入的歌曲文字資訊或歌詞來輔助辨識。然而，當使用者哼唱輸入不標準時，旋律與旋律資料庫的比對極容易發生誤差而使旋律辨識的成功辨識率無法提升，尤其在使用者哼唱旋律五音不全時。

有鑑於此，本發明之實施例提供一種旋律辨識方法，其根據輸入旋律的清晰度並利用二階段的比對以更精確且更有效率地辨識旋律。該旋律辨識方法包括：輸入一旋律；取得該旋律的音高追蹤資訊；取得該旋律的節拍資訊；由該音高追蹤資訊判斷該旋律的一清晰度；若該清晰度大於一預設門檻值，先進行一第一比對，以從一資料庫中篩選出第一批候選歌曲；再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；以及根據該等第二批候選歌曲決定至少一最後候選歌曲。

本發明之實施例更提供一種旋律辨識裝置，包括：一接收器，其接收一旋律；一處理器，其取得該旋律的音高追蹤資訊與節拍資訊，並藉由該音高追蹤資訊判斷該旋律的一清晰度；以及一比對器，其根據該清晰度進行該旋律與一資料庫的比對；其中若該清晰度大於一預設門檻值，該比對器先進行一第一比對，以從該資料庫中篩選出第一批候選歌曲；該比對器再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；其中該比對器根據該等第二批候選歌曲決定至少一最後候選歌曲。

本發明之實施例還提供一種電腦程式產品，用以被一電子裝置載入以執行一旋律辨識方法，該電腦程式產品包括：第一程式碼，用以接收輸入的一旋律；第二程式碼，用以取得該旋律的音高追蹤資訊；第三程式碼，用以取得該旋律的節拍資訊；第四程式碼，用以從該音高追蹤資訊判斷該旋律的一清晰度；第五程式碼，用以當該清晰度大於一預設門檻值時，先進行一第一比對，以從一資料庫中篩選出第一批候選歌曲；再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；以及第六程式碼，用以根據該等第二批候選歌曲決定至少一最後候選歌曲。

以下說明為本發明的實施例。其目的是要舉例說明本發明一般性的原則，不應視為本發明之限制，本發明之範圍當以申請專利範圍所界定者為準。

目前旋律辨識多用音高與音高總長度等音高資訊來辨識。然而歌曲的節拍也是重要的特徵，若兩首歌曲的音調相近但是節拍不同，則兩首歌曲很有可能是完全不相同的，因此，若能結合音高資訊與節拍資訊就可以更有效地辨識旋律；此外，更由於使用者哼唱旋律五音不全(輸入不標準)時，所導致的成功辨識率降低的問題，能得到有效的解決方案。

第1A圖所示為根據本發明一實施例的旋律辨識流程圖。步驟S100為輸入旋律，在一實施例中，可藉由使用者對著麥克風哼唱一旋律。使用者對麥克風所哼唱的旋律需要經過合適的取樣以將此旋律數位化成數位音訊(Audio Signal)檔案。

步驟S120，取得該旋律的音高追蹤資訊，例如對上述的輸入旋律進行音高追蹤(Pitch tracking)以取得音高追蹤資訊。音高追蹤的相關技術將於後再述。

步驟S122，取得該旋律的節拍資訊，例如對上述的輸入旋律進行拍點偵測(Onset detection)以取得節拍資訊。拍點偵測的相關技術將於後再述。

步驟S130，由該音高追蹤資訊判斷該旋律的一清晰度，例如，將音高追蹤資訊正規化(Normalize)之後所得之值作為清晰度，清晰度的相關技術將於後再述。

步驟S150，若該清晰度大於一預設門檻值，先進行一第一比對，以從一資料庫中篩選出第一批候選歌曲。第一比對可以是音高向量比對。本實施例雖以音高向量比對作為舉例說明，但第一比對並不限於音高向量比對。音高向量比對的相關技術將於後再述。

步驟S160，進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲。第二比對係指相異於第一比對的另一種比對方式。例如當第一比對是音高向量比對時，第二比對可為節拍比對，但第二比對並不限於節拍比對。節拍比對的相關技術將於後再述。

步驟S170，根據該等第二批候選歌曲決定至少一最後候選歌曲。例如，輸出TOP 10首候選歌曲以供使用者參考。

第1B圖所示為根據本發明另一實施例的旋律辨識流程圖。其中步驟和第1A圖中步驟相同者，以相同標號進行標示。

步驟S100為輸入旋律。

步驟S110為對輸入的旋律進行前置處理，前置處理為一般音訊處理時所需要的預處理，包括端點偵測(end-point detection)、預強調(pre-emphasis)、音框切割(frame partitioning)等。端點偵測用來判斷音訊中哪些區段是有聲段、哪些是無聲段或背景雜訊；預強調用來補償高頻部分的訊號數位化後所造成的失真；音框切割為將音訊檔案每間隔一固定時間切割成一個又一個的音框，相鄰音框之間可以重疊。

輸入旋律前置處理完成後，步驟S120和步驟S122分別對前置處理過的輸入旋律進行音高追蹤(Pitch tracking)與拍點偵測(Onset detection)，以取得輸入旋律的音高追蹤資訊和節拍資訊。在一些實施例中，可利用自相關函數(Auto-Correlation Function,ACF)進行音高追蹤，音框s中某個時間點t的自相關函數值計算如下：

其中s(i)表示音框s在第i個時間點的值，n表示音框中取樣點的總數(i=0到i=n-1)。s(i)與s(i+t)作內積時，若s(i)與s(i+t)越相近，則得到的內積值越大，因此，找出ACF(t)極大值的位置就可以得到音訊的週期，進而求出音訊的頻率與音高。

在另一些實施例中，可利用平均差異量函數(Average Magnitude Difference Function,AMDF)進行音高追蹤，音框s中某個時間點t的平均差異量函數值計算如下：

平均差異量函數與自相關函數相似，只是AMDF(t)計算s(i)與s(i-t)相減之後的絕對值，若s(i)與s(i-t)越相近，則AMDF(t)越小，因此，找出AMDF(t)極小值的位置就可以得到音訊的週期，進而求出音訊的頻率與音高。

綜上所述，音高追蹤利用自相關函數或平均差異量函數取得輸入旋律的音高追蹤資訊(自相關函數值或平均差異量函數值)，再根據音高追蹤資訊取得各音框的音高值，並將之轉換成一個音高向量，音高向量即是一連串音高值所組合的向量。

步驟S122為拍點偵測，在一實施例中，步驟S122利用相位偏移(Phase deviation)來偵測拍點，並紀錄其時間點以供計算節拍資訊。在另一實施例中，步驟S122利用光譜通量(Spectral flux)來偵測拍點，並紀錄其時間點以供計算節拍資訊。

步驟S130由該音高追蹤資訊判斷該旋律的一清晰度(Clarity)，清晰度可以是為音高追蹤資訊正規化(Normalize)之後所得之值，以自相關函數舉例而言，清晰度計算方式如下：

如上述計算方式，清晰度之值將限制在[1,-1]之間，清晰度越高則代表此音框的週期性越佳，也就是求出的音高值準確性越高。當各音框的清晰度所構成的清晰度曲線為穩定平滑時，代表其較有可能為哼或唱的旋律；若清晰度曲線上下跳動時，則表示其可能為氣音或是無聲波段。

步驟S140根據清晰度決定二階段比對中，先進行第一比對比對還是先進行第二比對。在一實施例中，若清晰度大於一預設門檻值，代表使用者哼唱輸入的資訊完整，則採用音高向量比對即可獲得良好的準確度，因此先進行第一比對再進行第二比對。也就是說先進行步驟S150的音高向量比對再進行步驟S160的節拍比對。若清晰度小於上述預設門檻值，代表使用者哼唱輸入的資訊雜亂或五音不全，則採用節拍比對的結果準確度較高，因此先進行第二比對，再進行第一比對。也就是說先進行步驟S152的節拍比對再進行S162的音高向量比對。其中上述預設門檻值係根據經驗與實驗結果來設定與調整。

在一實施例中，設定預設門檻值為250個音框中至少201個音框的清晰度大於0.5，因此若一旋律的250個音框內有50個音框的清晰度小於0.5，則代表上述旋律的哼唱輸入資訊雜亂，因此先進行步驟S152的節拍比對再進行S162的音高向量比對。

在一實施例中，經過步驟S150與S152的第一階段比對後，根據第一階段比對結果先決定第一批候選歌曲(步驟S152則為第三批候選歌曲)，例如TOP 100首候選歌曲，然後步驟S160與S162的第二階段比對再從第一批候選歌曲中篩選出第二批候選歌曲(步驟S162則為從第三批候選歌曲篩選出第四批候選歌曲)，例如從上述TOP 100首候選歌曲中決定TOP 10首候選歌曲。

舉例而言，第一比對根據比對結果計算一資料庫中每首歌曲的第一評估分數，按照每首歌曲的第一評估分數的高低選擇出TOP 100首候選歌曲，然後第二比對根據比對結果計算TOP 100首候選歌曲的第二評估分數，然後按照每首TOP 100首候選歌曲的第二評估分數高低選擇出TOP 10首候選歌曲推薦給使用者，最後結合第一評估分數和第二評估分數計算出TOP 10首候選歌曲的評估分數以供使用者參考，其中評估分數為第一評估分數與第二評估分數根據一權重比例所組成。若清晰度大於預設門檻值則權重比例偏重於第一評估分數，若清晰度小於預設門檻值則權重比例偏重於第二評估分數，評估分數越高代表與輸入旋律的匹配度越高。

步驟S150和S162的音高向量比對使用步驟S120所產生的輸入旋律的音高向量與資料庫中所有歌曲的音高向量資料作比對，其中資料庫中所有歌曲的音高向量資料儲存於音高語料庫。在一實施例中，音高向量比對使用線性伸縮(Linear scaling)演算法，其利用內插法將使用者輸入旋律的音高向量進行線性拉長或壓縮，舉例而言，伸縮比例可以從0.5到20，跳距為0.1，因此共可得到16個版本的音高向量，然後再將此16個伸縮版本的音高向量與資料庫中的每首歌曲進行比對，因而得到每首歌曲與輸入旋律的16個距離值，其中的最小值即為輸入旋律和每首歌曲的距離並換算成第一評估分數，距離越小則第一評估分數越高。輸入旋律的音高向量與資料庫中某歌曲的音高向量距離越小，則代表該歌曲與輸入旋律越相似。在另一實施例中，音高向量比對也可使用動態時間扭曲(Dynamic Time Warping)演算法。

步驟S152和S160的節拍比對使用步驟S122所產生的輸入旋律的節拍資訊與資料庫中所有歌曲的節拍資料作比對，其中資料庫中所有歌曲的節拍資料儲存於節拍資料庫。節拍比對將輸入旋律與節拍資料庫中的節拍資料轉換成拍點內部區間(Inter Onset Interval,IOI)，並作一般化處理。接著再將輸入旋律的拍點內部區間與節拍資料庫中所有節拍資料的拍點內部區間一一使用以動態規劃為基礎的方法作比對，求得距離後並換算成第二評估分數，距離越小第二評估分數越高，也就是節拍越相似。在另一實施例中，節拍比對也可使用EMD(Earth Mover’s Distance)演算法。

經過二階段比對後，步驟S170根據第二批候選歌曲(或第四批候選歌曲)決定至少一最後候選歌曲，例如從第二批候選歌曲(或第四批候選歌曲)中選擇比對結果最相似的歌曲作為一最後候選歌曲，或者選擇比對結果最相似的前三首歌曲作為最後候選歌，亦或者是輸出TOP 10首候選歌曲以及TOP 10首候選歌曲的評估分數以供使用者參考。

另外，在步驟S132當中可利用步驟S122拍點偵測所得到的輸入旋律節拍資訊，透過互動裝置預定的燈光閃爍或動作，配合輸入旋律節拍資訊一邊播放使用者的聲音，進行互動播放，其中互動裝置可為電子公仔、虛擬寵物、機器人等。

除此之外，本發明的一實施例還包括訓練過程，其事先準備音高語料庫與節拍資料庫，其中音高語料庫紀錄資料庫中每首歌曲的音高向量資料，而節拍資料庫紀錄資料庫中每首歌曲的節拍資料。

第2圖所示為根據本發明一實施例的旋律辨識裝置20，其中接收器200接收一輸入旋律，接收器200可為麥克風等裝置。接收器200將輸入旋律傳送給處理器210，處理器210取得該旋律的音高追蹤資訊與節拍資訊，並藉由該音高追蹤資訊判斷該旋律的一清晰度。

處理器210包括清晰度模組212、音高追蹤模組214以及拍點偵測模組216，其中音高追蹤模組214利用自相關函數或平均差異量函數取得輸入旋律的音高追蹤資訊(自相關函數值或平均差異量函數值)，再根據音高追蹤資訊取得各音框的音高值，並將之轉換成一個音高向量，音高向量即是一連串音高值所組合的向量。拍點偵測模組216利用相位偏移或光譜通量來偵測拍點，並紀錄其時間點以供計算節拍資訊。清晰度模組212將音高追蹤資訊正規化之後得到清晰度並傳送清晰度至比對器220。

比對器220根據清晰度進行輸入旋律與資料庫230的比對；其中若清晰度大於預設門檻值，比對器230的音高向量比對模組232先進行音高向量比對，以從資料庫230中篩選出例如TOP 100首候選歌曲，然後節拍比對模組234再進行節拍比對，以從TOP 100首候選歌曲中篩選出例如TOP 10首候選歌曲。若清晰度小於該預設門檻值，比對器230的節拍比對模組234先進行節拍比對，以從資料庫230中篩選出例如TOP 100首候選歌曲，然後音高向量比對模組232再進行音高向量比對，以從TOP 100首候選歌曲中篩選出例如TOP 10首候選歌曲。顯示裝置240顯示篩選出的TOP 10首候選歌曲。

其中音高向量比對係比對輸入旋律的音高向量與資料庫230中所有歌曲的音高向量資料，其中資料庫中所有歌曲的音高向量資料儲存於音高語料庫232。節拍比對係比對輸入旋律的節拍資訊與資料庫230中所有歌曲的節拍資料，其中資料庫中所有歌曲的節拍資料儲存於節拍資料庫234。

旋律辨識裝置20更包括一互動裝置250，其根據輸入旋律的節拍資訊透過預定之燈光閃爍與動作做出對應節拍資訊的互動撥放，其中互動裝置可為電子公仔、虛擬寵物、機器人等。

本發明之實施例更提供一種電腦程式產品，用以被一電子裝置載入以執行一旋律辨識方法，該電腦程式產品包括：第一程式碼，用以接收輸入的一旋律；第二程式碼，用以取得該旋律的音高追蹤資訊；第三程式碼，用以取得該旋律的節拍資訊；第四程式碼，用以從該音高追蹤資訊判斷該旋律的一清晰度；第五程式碼，用以當該清晰度大於一預設門檻值時，先進行一第一比對，以從一資料庫中篩選出第一批候選歌曲；再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；以及第六程式碼，用以根據該等第二批候選歌曲決定至少一最後候選歌曲。

在一實施例中，該電腦程式產品更包括：第七程式碼，用以當該清晰度小於該預設門檻值時，先進行該第二比對，以從該資料庫中篩選出第三批候選歌曲；再進行該第一比對，以從該等第三批候選歌曲中篩選出第四批候選歌曲；以及第八程式碼，用以根據該等第四批候選歌曲決定至少一最後候選歌曲。

S100、S110、......S170．．．步驟

20．．．旋律辨識裝置

200．．．接收器

210．．．處理器

212．．．清晰度模組

214．．．音高追蹤模組

216．．．拍點偵測模組

220．．．比對器

222．．．音高向量比對模組

224．．．節拍比對模組

230．．．資料庫

232．．．音高語料庫

234．．．節拍資料庫

240．．．顯示裝置

250．．．互動裝置

第1A圖所示為根據本發明一實施例的旋律辨識流程圖；

第1B圖所示為根據本發明另一實施例的旋律辨識流程圖；

第2圖所示為根據本發明一實施例的旋律辨識裝置示意圖。

S100、S110、......S170．．．步驟

Claims

一種旋律辨識方法，包括：輸入一旋律；取得該旋律的音高追蹤資訊；取得該旋律的節拍資訊；由該音高追蹤資訊判斷該旋律的一清晰度；若該清晰度大於一預設門檻值，先進行一第一比對，以從一資料庫中篩選出第一批候選歌曲，再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；以及根據該等第二批候選歌曲決定至少一最後候選歌曲。
如申請專利範圍第1項所述之旋律辨識方法，更包括：若該清晰度小於該預設門檻值，先進行該第二比對，以從該資料庫中篩選出第三批候選歌曲，再進行該第一比對，以從該等第三批候選歌曲中篩選出第四批候選歌曲；以及根據該等第四批候選歌曲決定至少一最後候選歌曲。
如申請專利範圍第2項所述之旋律辨識方法，其中該第一比對為音高向量比對，該第二比對為節拍比對。
如申請專利範圍第3項所述之旋律辨識方法，更包括：進行該旋律的前置處理；其中該前置處理包括偵測該旋律的端點、預強調處理以及切割該旋律的音框。
如申請專利範圍第4項所述之旋律辨識方法，更包括：使用自相關函數或平均差異量函數取得前置處理過的該旋律的各個音框的該音高追蹤資訊，從該音高追蹤資訊取得各個音框的音高值，並將各個音框的該音高值轉換為該旋律的音高向量。
如申請專利範圍第4項所述之旋律辨識方法，更包括：使用相位偏移偵測該旋律的拍點以取得該旋律的該節拍資訊。
如申請專利範圍第4項所述之旋律辨識方法，更包括：使用光譜通量偵測該旋律的拍點以取得該旋律的該節拍資訊。
如申請專利範圍第5項所述之旋律辨識方法，其中該音高向量比對使用線性伸縮將該旋律的該音高向量與一音高語料庫的所有音高向量資料作比對。
如申請專利範圍第3項所述之旋律辨識方法，其中該節拍比對使用以動態規劃為基礎的一演算法將該旋律的該節拍資訊與一節拍資料庫的所有節拍資料作比對，該節拍資料庫紀錄該資料庫中每首歌曲的節拍資訊。
如申請專利範圍第8項所述之旋律辨識方法，其中該音高語料庫紀錄該資料庫中每首歌曲的音高向量。
如申請專利範圍第5項所述之旋律辨識方法，其中該清晰度為該音高追蹤資訊正規化後之值，且該清晰度越高代表該音高值越準確。
如申請專利範圍第1項所述之旋律辨識方法，更包括：根據該第一比對產生一第一評估分數；根據該第二比對產生一第二評估分數；根據該第一評估分數與該第二評估分數產生該至少一最後候選歌曲中每首歌曲的一評估分數；其中該評估分數為該第一評估分數與該第二評估分數根據一權重比例所組成，若該清晰度大於該預設門檻值則該權重比例偏重該第一評估分數，若該清晰度小於該預設門檻值則該權重比例偏重該第二評估分數，該評估分數越高與該旋律的匹配度越高。
一種旋律辨識裝置，包括：一接收器，其接收一旋律；一處理器，其取得該旋律的音高追蹤資訊與節拍資訊，並藉由該音高追蹤資訊判斷該旋律的一清晰度；以及一比對器，其根據該清晰度進行該旋律與一資料庫的比對；其中若該清晰度大於一預設門檻值，該比對器先進行一第一比對，以從該資料庫中篩選出第一批候選歌曲；該比對器再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；其中該比對器根據該等第二批候選歌曲決定至少一最後候選歌曲。
如申請專利範圍第13項所述之旋律辨識裝置，其中若該清晰度小於該預設門檻值，該比對器先進行該第二比對，以從該資料庫中篩選出第三批候選歌曲，再進行該第一比對，以從該等第三批候選歌曲中篩選出第四批候選歌曲，然後根據該等第四批候選歌曲決定至少一最後候選歌曲。
如申請專利範圍第14項所述之旋律辨識裝置，其中該第一比對為音高向量比對，該第二比對為節拍比對。
如申請專利範圍第13項所述之旋律辨識裝置，更包括：一顯示裝置，其顯示該至少一最後候選歌曲。
如申請專利範圍第16項所述之旋律辨識裝置，更包括：一互動裝置，其根據該旋律的該節拍資訊透過預定之燈光閃爍與動作做出對應該節拍資訊的互動播放。
一種電腦程式產品，用以被一電子裝置載入以執行一旋律辨識方法，該電腦程式產品包括：第一程式碼，用以接收輸入的一旋律；第二程式碼，用以取得該旋律的音高追蹤資訊；第三程式碼，用以取得該旋律的節拍資訊；第四程式碼，用以從該音高追蹤資訊判斷該旋律的一清晰度；第五程式碼，用以當該清晰度大於一預設門檻值時，先進行一第一比對，以從一資料庫中篩選出第一批候選歌曲；再進行一第二比對，以從該等第一批候選歌曲中篩選出第二批候選歌曲；以及第六程式碼，用以根據該等第二批候選歌曲決定至少一最後候選歌曲。
如申請專利範圍第18項所述之電腦程式產品，更包括：第七程式碼，用以當該清晰度小於該預設門檻值時，先進行該第二比對，以從該資料庫中篩選出第三批候選歌曲；再進行該第一比對，以從該等第三批候選歌曲中篩選出第四批候選歌曲；以及第八程式碼，用以根據該等第四批候選歌曲決定至少一最後候選歌曲。