TWI410958B - 用於處理音訊信號之方法與裝置及相關軟體程式 - Google Patents
用於處理音訊信號之方法與裝置及相關軟體程式 Download PDFInfo
- Publication number
- TWI410958B TWI410958B TW96112730A TW96112730A TWI410958B TW I410958 B TWI410958 B TW I410958B TW 96112730 A TW96112730 A TW 96112730A TW 96112730 A TW96112730 A TW 96112730A TW I410958 B TWI410958 B TW I410958B
- Authority
- TW
- Taiwan
- Prior art keywords
- chromatogram
- tonal
- audio signal
- value
- component
- Prior art date
Links
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
本發明係關於為了分析信號(例如輸入音訊或播放和絃之音調調號)之諧波屬性而進行的在一聲譜中相關音調分量之選擇。
為了依據一預定標記集來分類音訊內容而評估該音訊內容之演算法的開發正獲得越來越多的關注。此等標記可係音樂的類型、音樂的狀態以及音樂釋放的時段等等。此等演算法係基於從音訊內容中檢索特徵,藉由基於此等特徵可將內容進行分類之一訓練模型對該等音訊內容加以處理。用於此目的擷取之特徵需顯示有意義之資訊,該資訊致能模型執行其任務。特徵可係低級特徵(例如平均功率),但亦可擷取更高級特徵(例如基於心理聲學洞察的此類特徵(例如,響度、粗糙度等等))。
在其他方面,本發明係關於與音訊之音調內容相關之特徵。音樂之一幾乎普遍之分量表現為音調分量,該等音調分量可承載旋律、諧波以及音調資訊。此旋律、諧波及音調資訊之分析係較複雜,因為藉由一樂器產生的每個單一音符在音訊信號中導致複雜的音調分量。通常,此等分量係具有頻率之「諧波」列,該等頻率係實質上該音符之基頻之整數倍。當嘗試從一特定時間播放的音符之一集體中檢索旋律、諧波或音調資訊時,可發現音調分量與該等音符之基頻相一致,該等音符播放時加上一音調分量範圍,即所謂泛音(overtone),其為該等基頻之整數倍。在此一組音調分量中,在基頻分量與該等基頻之倍數之分量之間加以區別係比較困難。事實上,一特定音符之基頻分量可與另一音符之一泛音相一致。作為該等泛音存在之結果,幾乎每個音符名稱(A、A#、B、C等)可在手頭的頻譜中找到。此使得檢索音訊信號之關於旋律、諧波及音調屬性變得相當困難。
音高之一典型表現(基頻之感知)係關於其色度,西方音樂八度音(A、A-sharp等)中之音高名稱。八度音中存在12種不同的色度值,並且可將任何音高指派給此等色度值之一,該等色度值通常對應於該音符之基頻。在其他方面,本發明識別一特定音符或一音符集屬於何種色度,因為藉由播放該等特定音符(即,色度)來決定音樂之諧波及音調意義。由於與每個音符相關聯之泛音,需要一方法解開該諧波並識別僅哪些對於識別該(等)色度係重要的。
已完成關於直接操作脈衝編碼調變(PCM)資料的某些研究。依據由C.A.Harte及M.B.Sandler,於2005年5月在巴賽隆納舉行的第118界音響工程協會會議上提交的論文6412「Automatic Chord Identification Using a Quantised Chromagram,」(下文稱為「Harte及Sandler」),將一稱為色譜圖擷取之方法用於音樂中和弦之自動識別。依據Harte及Sandler,一恒定Q值濾波器組係用於獲得一頻譜表徵,從該頻譜表徵中選取峰值。對於每個峰值,決定音符
名稱,並且將所有具有一對應音符名稱的峰值之振幅相加,從而導致一色譜圖,該色譜圖指示進行評估之頻譜中每個音符之傳播程度。
此方法之一限制係,對於播放的一單一音符,一較大諧波範圍將產生峰值,而該等峰值累積至色譜圖中。對於C音符,較高諧波將指向以下音符(C、G、C、E、G、A#、C、D、E、F#、G、G#)。尤其係,較高諧波緊密群集,並且涵蓋與該基頻音符沒有顯著諧波關係的音符。當累積至色譜圖中,此等較高諧波可模糊意欲從該色譜圖中讀取之資訊,例如,用於歌曲之和弦識別或用於歌曲之音調之擷取。
依據S.Pauws於2004年在巴賽隆納舉行的第5界音樂資訊檢索國際會議提出的「Musical Key Extraction for Audio,」(下文中稱為「Pauws」),基於輸入資料之較短分段之快速傅立葉轉換(FFT)表徵來擷取色譜圖。墊零以及頻譜分格之間之內插將譜域解析度增強至足以從頻譜中擷取諧波分量之頻率之一等級。將某些加權應用至一分量以將更多重點放在低頻率分量上。但是,以較高的諧波可模糊意欲從該色譜圖中讀取之資訊之方式來累積色譜圖。
為了克服以下問題,即音調分量之量測將通常係基頻與此等基頻之倍數之一混合,依據本發明,使用聽覺遮罩,從而通過其他聲音分量之遮罩影響,降低特定聲音分量之感知相關性。
感知研究已顯示特定分量(例如,分音(partials)或泛音)係聽不見,其歸因於附近分音之遮罩影響。在諧波音調複雜之情況下,基頻及最前面的少數諧波可每個個別地「被聽出」,其歸因於低頻率下之高聽覺頻率解析度。但是,無法聽出較高諧波(上述色度擷取問題之來源),歸因於高頻率下較差的聽覺頻率解析度以及作為一遮罩信號(masker)之其他音調分量之存在。因此,一處理聽覺之遮罩模型可較好地用來消除不需要的高頻分量並提升色度擷取能力。
如上所述,相關音調分量之傳統選擇之一顯著問題係,音訊中存在之每個音符創建一較高諧波範圍,該等較高諧波可解釋為播放時分離的音符。在其他方面,本發明基於遮罩標準移除較高諧波,使得僅餘留最前面的少數之諧波。藉由將此等餘留之分量轉換成一色譜圖,從而獲得音訊之一分段之本質諧波結構的一強有力表徵,例如,其可允許一音樂片段之音調調號之準確決定。
如圖1所示,在方塊102中,一選擇單元執行音調分量選擇之功能。更特定言之,參考2000年7月/8月M.Desainte-Catherine及S.Marchand編寫的「High-precision Fourier analysis of sounds using signal derivatives,」一修定版本(J.Audio Eng.Soc.)中第48卷中編號7/8的第654至667頁(下文稱為「M.Desainte-Catherine及Marchand」),從音訊信號之一分段(說明為輸入信號x)中選擇音調分量並忽略非音調分量。應瞭解可藉由其他方法、器件或系統替換Desainte-Catherine以及Marchand選擇方案來選擇音調分量。
在方塊104中,一遮罩單元基於遮罩丟棄音調分量。更特定言之,將此等個別聽不見的音調分量移除。個別分量之可聽度係基於聽覺遮罩。
在方塊106中,一標記單元使用一音符值標記餘留的音調分量。即,將每個分量之頻率翻譯成一音符值。應瞭解音符值不受限於一個八度音。
在方塊108中,一映射單元基於音符值將音調分量映射至一單一八度音。此操作導致「色度」值。
在方塊110中,一累積單元將色度值累積至一直方圖或色譜圖中。藉由創建用於計算一特定色度值發生次數的一直方圖,或藉由將每色度值之振幅值整合至一色譜圖中,累積橫跨所有分量並橫跨大量分段之該等色度值。直方圖與色譜圖係與該輸入信號(資訊已累積於該輸入信號)中一特定時間間隔相關聯。
在方塊112中,一評估單元使用一原型或參考色譜圖,執行該色譜圖之任務依賴評估。依據該任務,可創建原型色譜圖並將其與評估中自音訊中擷取的色譜圖相比較。當執行音調擷取時,可藉由使用(例如)Krumhansl,C.L.,1990年紐約牛津大學出版社出版的Oxford Psychological Series編號17的音高的認知原理(Cognitive Foundations of Musical Pitch)(下文稱為「Krumhansl」)中之音調設定檔來在(例如)Pauws中加以使用音調設定檔。藉由將此等音調設定檔與針對評估中之一特定音樂片段擷取的平均色譜圖相比較,可決定此片段之音調。比較可藉由使用一相關函數來加以完成。依據手頭的任務可使用各種其他色譜圖之處理方法。
應注意的係,基於遮罩丟棄分量後,僅餘留感知地相關音調分量。當考量一單一音符時,將僅餘留基頻分量及最前面的少數泛音。通常,較高泛音作為個別分量將無法聽見,此乃因若干分量落在一聽覺濾波器中,而遮罩模型通常將指示對此等分量加以遮罩。此情形可不會發生,例如,當與鄰近分量相比,該等較高泛音之一具有一非常高振幅時。在此情況下,該分量將不會受遮罩。此係需要之效應,原因係該分量將以一具有音樂意義的分離分量突顯。當播放多個音符時將會發生類似效應。該等音符之一之基頻可與其他音符中之一音符之一泛音相一致。與鄰近分量相比,僅當此基頻分量具有充足的振幅時,基於遮罩丟棄分量後其將存在。此亦係一所需效應,因為,僅在此情況下,該分量將可聽見並具有音樂意義。另外,雜訊分量將易於導致一非常緊密之群集頻譜,其中個別分量通常藉由鄰近分量加以遮罩,以及,結果係,此等分量亦將藉由遮罩加以丟棄。此亦係需要的,原因係雜訊分量對音樂中的諧波資訊沒有任何作用。
基於遮罩丟棄分量後,除了基音調分量之外泛音仍然得以餘留。結果係,進一步評估步驟將不能夠直接確定音樂片段中播放的此等音符,並無法從此等音符獲得進一步的資訊。但是,存在之此等泛音僅係最前面的少數泛音,該等泛音仍然具有與基音一有意義的諧波關係。
以下代表範例係用於從評估中之音訊信號中擷取音調之任務。
使用兩個信號作為演算法之輸入:輸入信號x(n)
;以及該輸入信號之前向差分y(n)
=x(n
+1)
-x(n)
。選擇該兩個信號之對應分段並使用漢寧窗進行加窗操作。然後,使用快速傅立葉轉換將此等信號轉換至頻域,分別導致複合信號:X(f)
與Y(f)
。
該信號X(f)
係用於選擇峰值,例如,具有局部最大絕對值之頻譜值。僅對正的頻率部分進行峰值之選擇。因為該等峰值僅可定位於快速傅立葉轉換(FFT)頻譜之分格值處,而獲得一相對粗糙的譜域解析度,所以其無法充分滿足本發明之目的。因此,例如,依據Harte及Sandler,應用以下步驟:對於在頻譜中發現的每個峰值,計算以下比率:,其中N
係段長,並且其中E(f)
表示位置f
處發現峰值之一更準確的頻率估計。應用另一步驟來說明以下事實,Harte及Sandler之方法係僅適用於具有微分之連續信號,並不適合具有前向差分或後向差分之離散信號。此缺點可藉由使用一補償來加以克服:
使用此更準確之用於頻率F之評估,產生一音調分量集,其具有頻率參數(F)
及振幅參數(A)
。
應注意此頻率評估僅代表一可能的具體實施例。用於評估頻率之其他方法為熟悉此項技術人士所熟知。
基於以上評估之頻率及振幅參數,使用一遮罩模型丟棄實質上聽不見的分量。藉由使用具有與等效矩形頻寬(ERB)尺度相等頻寬之一交疊頻率帶集,以及藉由整合落於每個帶內的音調分量之所有能量,建立一激發模式(excitation pattern)。然後,將每個帶內累積的能量橫跨鄰近帶加以平滑以獲得一遮罩之頻譜分離之形式。對於每個分量,決定此分量之能量是否為此帶中量測之總體能量之至少一特定百分比(例如50%)。若分量之能量係小於此標準,則假設其實質上加以遮罩,將不再進一步加以考慮。
應注意,提供此遮罩模型以獲得一非常計算有效的遮罩效應(欲在音訊中觀察)之第一階評估。可使用更高級及準確之方法。
將以上獲得之準確頻率評估轉換為其表示之音符值,例如,分量係4th
八度音中之一A。對於此目的,將頻率轉換為一對數尺度並以適當的方式量子化。可應用一額外的全域倍頻來克服可能的完整音樂片段之走音。
所有的音符值折疊至一單一八度音中。從而,結果的色度值將僅指示音符係A或A#,而不管八度音放置。
藉由加入對應於A、A#、B等之所有振幅來累積該等色度值。因此,將獲得12個累積的色度值,其類似每個色度值之相對優勢。此等12個值將稱為色譜圖。該色譜圖可橫跨一訊框中之所有分量來加以累積,但較佳地亦可橫跨連續訊框範圍。
焦點任務係擷取音調資訊。如上述,可使用一類比方式(如Pauws方式)獲得用於Krumhansl之資料之一音調設定檔。評估中用於摘錄之音調擷取係用於查詢觀察之色譜圖如何需要偏移,以獲得原型(參考)色譜圖與觀察之色譜圖之間最佳相關性。
此等任務依賴評估僅係如何使用該色譜圖中包含之資訊之範例。可使用其他方法或演算法。
依據本發明之另一具體實施例,為了克服高能分量過強作用於色譜圖之問題,將頻譜分量映射至一八度音之前,將壓縮轉換應用至該等頻譜分量。以此方式,具有一較低振幅之分量相對較強地作用於該色譜圖。依據本發明之此具體實施例,已發現藉由一因數4之粗略之錯誤率得以降低(例如,從92%之正確音調分類至關於經典資料庫之98%)。
在圖2中,提供一方塊圖用於本發明之此具體實施例。在方塊202中,在選擇單元中從一音訊(x)之一輸入分段中選擇音調分量。對於每個分量,存在一頻率值以及一線性振幅值。然後,在方塊204中,在一壓縮轉換單元中將一壓縮轉換應用至線性振幅值。然後,在方塊206中,在標記單元中決定每個頻率之音符值。該音符值指示音符名稱(例如C、C#、D、D#等)以及該音符放置的八度音。在方塊208中,在映射單元中將所有的音符振幅值轉換至一八度音,並在方塊210中,在累積單元中將所有轉換的振幅值相加。結果係,獲得一12值之色譜圖。然後,在方塊212中,在評估單元中,使用該色譜圖評估該輸入分段之一些屬性(例如音調)。
以下公式提供一壓縮轉換(dB尺度之大約的響度之人體感知):y
=20log10 x
其中x係經轉換的輸入振幅,而y係轉換輸出。通常,對振幅執行此轉換,該等振幅僅在將頻譜映射至一八度音間隔上之前由整個頻譜之頻譜峰值而獲得。
應瞭解在上述說明中每個處理單元可在硬體、軟體或其組合中加以實施。各處理單元可基於至少一處理器或可程式控制器進行實施。另外,組合中之所有處理單元可基於至少一處理器或可程式控制器加以實施。
雖然,已結合各種圖式之較佳具體實施例說明本發明,應瞭解在不背離本發明之情況下,可使用用於執行本發明之相同功能之其他類似具體實施例,或可對說明之具體實施例加以修改和添加。因此,本發明不應限於任何單一具體實施例,而是可依據隨附申請專利範圍之範疇加以建構。
102...選擇單元
104...遮罩單元
106...標記單元
108...映射單元
110...累積單元
112...評估單元
202...選擇單元
204...壓縮轉換單元
206...標記單元
208...映射單元
210...累積單元
212...評估單元
圖1顯示依據本發明之一具體實施例之一系統的一方塊圖;以及圖2顯示依據本發明之另一具體實施例之一系統的一方塊圖。
102...選擇單元
104...遮罩單元
106...標記單元
108...映射單元
110...累積單元
112...評估單元
Claims (15)
- 一種用於處理音訊信號的方法,其包含:從該音訊信號中選擇音調分量(tonal component);將一遮罩應用至該選擇之音調分量以丟棄(discard)至少一個音調分量;決定丟棄後餘留之音調分量的音符值;將該等音符值映射至一單一八度音(octave)以獲得色度(chroma)值;將該等色度值累積至一色譜圖中;以及評估該色譜圖。
- 如請求項1之方法,其中藉由將該音訊信號轉換至一頻域中來選擇該等音調分量,該等音調分量之每一者係藉由一頻率值及一振幅值加以表示。
- 如請求項2之方法,其中基於響度之人體感知將該振幅值進行壓縮轉換。
- 如請求項1之方法,其中基於一臨界值應用該遮罩來丟棄實質上聽不見的音調分量。
- 如請求項1之方法,其中藉由將該色譜圖與一參考色譜圖相比較來評估該色譜圖以從該音訊信號中擷取音調資訊。
- 一種用於處理一音訊信號的裝置,其包含:一選擇單元,其用於從該音訊信號中選擇音調分量;一遮罩單元,其用於將一遮罩應用至該選擇之音調分量以丟棄至少一個音調分量; 一標記單元,其用於決定丟棄後餘留之該等音調分量的音符值;一映射單元,其用於將該等音符值映射至一單一八度音以獲得色度值;一累積單元,其用於將該等色度值累積至一色譜圖中;以及一評估單元,其用於評估該色譜圖。
- 如請求項6之裝置,其中藉由將該音訊信號轉換至一頻域中來選擇該等音調分量,該等音調分量之每一者係藉由一頻率值及一振幅值來加以表示。
- 如請求項7之裝置,其進一步包含一壓縮轉換單元,該壓縮轉換單元用於基於響度之人體感知來壓縮轉換該振幅值。
- 如請求項6之裝置,其中基於一臨界值應用該遮罩來丟棄實質上聽不見的音調分量。
- 如請求項6之裝置,其中藉由將該色譜圖與一參考色譜圖相比較來評估該色譜圖以從該音訊信號中擷取音調資訊。
- 一種嵌入於一電腦可讀取媒體中之軟體程式,其藉由一處理器來加以執行以運行以下操作,其包含:從音訊信號中選擇音調分量;將一遮罩應用至該選擇之音調分量以丟棄至少一個音調分量;決定丟棄後餘留之該等音調分量之音符值; 將該等音符值映射至一單一八度音以獲得色度值;將該等色度值累積至一色譜圖中;以及評估該色譜圖。
- 如請求項11之程式,其中藉由將該音訊信號轉換至一頻域中來選擇該等音調分量,該等音調分量之每一者係藉由一頻率值及一振幅值來加以表示。
- 如請求項12之程式,其中基於響度之人體感知來壓縮轉換該振幅值。
- 如請求項11之程式,其中基於一臨界值應用該遮罩來丟棄實質上聽不見的音調分量。
- 如請求項11之程式,其中藉由將該色譜圖與一參考色譜圖相比較來評估該色譜圖以從該音訊信號中擷取音調資訊。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US79239006P | 2006-04-14 | 2006-04-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200746041A TW200746041A (en) | 2007-12-16 |
TWI410958B true TWI410958B (zh) | 2013-10-01 |
Family
ID=49771655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW96112730A TWI410958B (zh) | 2006-04-14 | 2007-04-11 | 用於處理音訊信號之方法與裝置及相關軟體程式 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI410958B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002025631A1 (en) * | 2000-09-21 | 2002-03-28 | Royal College Of Art | Apparatus for acoustically improving an environment |
WO2003090209A1 (en) * | 2002-04-22 | 2003-10-30 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
-
2007
- 2007-04-11 TW TW96112730A patent/TWI410958B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002025631A1 (en) * | 2000-09-21 | 2002-03-28 | Royal College Of Art | Apparatus for acoustically improving an environment |
WO2003090209A1 (en) * | 2002-04-22 | 2003-10-30 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
Also Published As
Publication number | Publication date |
---|---|
TW200746041A (en) | 2007-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7910819B2 (en) | Selection of tonal components in an audio spectrum for harmonic and key analysis | |
JP4763965B2 (ja) | オーディオ信号の聴覚的イベントへの分割 | |
JP5295433B2 (ja) | 複雑さがスケーラブルな知覚的テンポ推定 | |
Peeters et al. | The timbre toolbox: Extracting audio descriptors from musical signals | |
RU2418321C2 (ru) | Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала | |
JP4272050B2 (ja) | オーディトリーイベントに基づく特徴付けを使ったオーディオの比較 | |
US10134409B2 (en) | Segmenting audio signals into auditory events | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
US9313593B2 (en) | Ranking representative segments in media data | |
US8865993B2 (en) | Musical composition processing system for processing musical composition for energy level and related methods | |
Shah et al. | Chroma feature extraction | |
TWI410958B (zh) | 用於處理音訊信號之方法與裝置及相關軟體程式 | |
Fenton et al. | Hybrid Multiresolution Analysis of “Punch” in Musical Signals | |
Nunes et al. | A database of partial tracks for evaluation of sinusoidal models | |
Brosbol et al. | Calculating articulation in solo music performances | |
Korycki | Authenticity investigation of digital audio recorded as MP3 files | |
MX2008004572A (en) | Neural network classifier for seperating audio sources from a monophonic audio signal |