TWI440018B

TWI440018B - 具有頻譜修改功能之響度測量技術

Info

Publication number: TWI440018B
Application number: TW097122852A
Authority: TW
Inventors: Alan Jeffrey Seefeldt
Original assignee: Dolby Lab Licensing Corp
Priority date: 2007-06-19
Filing date: 2008-06-19
Publication date: 2014-06-01
Also published as: RU2434310C2; IL200585A; IL200585A0; KR101106948B1; BRPI0808965B1; MX2009009942A; WO2008156774A1; EP2162879A1; HK1141622A1; RU2009135056A; US20100067709A1; CN101681618A; US8213624B2; JP2010521706A; BRPI0808965A2; DK2162879T3; AU2008266847A1; CA2679953C; TW200912893A; PL2162879T3

Description

具有頻譜修改功能之響度測量技術

發明領域

本發明與音頻信號處理有關。特別地，本發明與測量音頻信號的知覺響度有關，透過將一音頻信號的一頻譜表示修改為一參考頻譜形狀的一函數，藉此該音頻信號的頻譜表示更加接近地符合該參考頻譜形狀，以及計算該視訊信號的修改的頻譜表示的知覺響度。

參考及透過參考併入

有助於更好地理解本發明的層面的某些用於客觀地測量知覺(心理聲學)響度的技術在Alan Jeffrey Seefeldt等人的標題為"Method, Apparatus and Computer Program for Calculating aud Adjusting the Perceived Loudness of an Audio Signal"且於2004年12月23日公開的已公開國際專利申請案WO 2004/111994 A2，以及在由此產生的於2007年4月26日公開的美國專利申請案US 2007/0092089，以及在Alan Seefeldt等人於2004年10月28日在三藩市所作的美國音響工程師協會會議報告第6236號之"A New Objective Measure of Perceived Loudness"中被描述。該WO 2004/111994 A2以及US 2007/0092089申請案以及該報告於此整體併入參考。

發明背景

存在許多用於客觀地測量音頻信號的知覺響度的方法。方法的例子包括A-、B-及C-加權功率(weighted power)測量以及響度的心理聲學模型，諸如在"Acoustics-Method for calculating loudness level," ISO 532 (1975)以及該WO 2004/111994 A2以及US 2007/0092089申請案中所描述。加權功率測量透過以下步驟操作：擷取一輸入音頻信號、施加一已知濾波器，而後平均已濾波信號在一預定時間長度中的功率，其中該濾波器突出知覺較敏感的頻率，而削弱知覺較不敏感的頻率。心理聲學方法通常是較複雜的，目的是更好地模仿人耳的工作。這些心理聲學方法將信號分成模仿頻率回應和耳朵的敏感性的頻帶，然後運用及整合這些頻帶，同時考慮心理聲學現象，諸如頻率及時間遮蔽，以及響度隨信號強度變化的非線性知覺。所有這些方法的目的是得到與音頻信號的主觀感受緊密匹配的一數值量值。

發明者已發現，對於某些類型的音頻信號來說，所述的客觀響度測量已不能與主觀感受精確地匹配。在該WO 2004/111994 A2以及US 2007/0092089申請案中，這種問題信號被描述為“窄頻帶”，意思是絕大多數的信號能量集中在可聽頻譜的一個或若干個小部分中。在該等申請案中，一種用來處理這些信號的方法與一傳統響度知覺(loudness perception)心理聲學模型的修改有關地進行揭露，該模型併入了兩個響度函數的成長：一個是對於“寬頻帶”信號及第二個是對於“窄頻帶”信號。該WO 2004/111994 A2以及US 2007/0092089申請案基於對信號的“窄頻帶”的測量描述了這兩個函數間的一內插法。

儘管這樣一種內插方法就主觀感受來說沒有改善客觀響度測量的性能，但是發明者自此已開發出一種可供替代的響度知覺心理聲學模型，於是他相信能夠以一種更好的方式解釋和解決在對“窄頻帶”問題信號的客觀響度測量與主觀響度測量之間的差異。將這樣一種可供選擇的模型應用於響度的客觀測量構成本發明的一個層面。

圖式簡單說明

第1圖顯示本發明的層面的一簡化概要方塊圖；第2A、B及C圖以一概念化方式顯示根據本發明的層面的一個將頻譜修改應用到主要包含低音頻率的一理想化音頻頻譜的例子；第3A、B及C圖以一概念化方式顯示根據本發明的層面的一個將頻譜修改應用到類似於一參考頻譜的一理想化音頻頻譜的例子；第4圖顯示一組用於為一心理聲學響度模型計算激勵信號的臨界頻帶濾波器響應；第5圖顯示ISO 226的等響度曲線圖。水平標度是以赫茲(Hertz)為單位的頻率(以10為低的對數)，以及垂直標度是以分貝為單位的聲壓位準；第6圖是比較來自一未被修改的心理聲學模型的客觀響度測量與一音頻記錄資料庫的主觀響度測量的圖；第7圖是比較來自一使用本發明的層面的心理聲學模型的客觀響度測量與同一音頻記錄資料庫的主觀響度測量的圖。

發明概要

根據本發明的層面，一種用於測量一音頻信號的知覺響度的方法包含獲取該音頻信號的一頻譜表示，將該頻譜表示修改為一參考頻譜形狀的一函數，藉此該音頻信號的該頻譜表示更加接近地符合一參考頻譜形狀，以及計算該音頻信號的該已修改頻譜表示的知覺響度。將該頻譜表示修改為一參考頻譜形狀的一函數包括最小化該頻譜表示與該參考頻譜形狀之差的函數，以及根據該最小化設定該參考頻譜形狀的一位準。最小化該差函數可最小化該頻譜表示與該參考頻譜形狀之差的加權平均。最小化該差函數可進一步包括施加一偏差(offset)來改變該頻譜表示與該參考頻譜形狀之間的差異。該偏差可以是一固定的偏差。將頻譜表示修改為一參考頻譜形狀的函數可進一步包括擷取音頻信號的頻譜表示的最大位準與該設定位準的(level-set)參考頻譜形狀的最大位準。該音頻信號的頻譜表示可以是一激勵信號，其接近內耳基底膜的能量分佈。

根據本發明的另一些層面，一種測量一音頻信號的知覺響度的方法包含獲取該音頻信號的一表示，比較該音頻信號的該表示與一參考表示以決定該音頻信號的該表示是如何與該參考表示緊密地匹配，修改該音頻信號的該表示的至少一部分以使由此產生的該音頻信號的已修改的表示與該參考表示更緊密地匹配，以及從該音頻信號的該已修改的表示決定該音頻信號的一知覺響度。修改該音頻信號的該表示的至少一部分可包括相對於該音頻信號的該表示的位準調整該參考表示的位準。該參考表示的位準可被調整以最小化該參考表示的位準與該音頻信號的表示的位準之差的函數。修改該音頻信號的該表示的至少一部分可包括提高部分音頻信號的位準。

根據本發明的又一些層面，一種用於決定一音頻信號的知覺響度的方法包含獲取該音頻信號的一表示，比較該音頻信號表示的頻譜形狀與一參考頻譜形狀，調整該參考頻譜形狀的位準以與該音頻信號表示的頻譜形狀相匹配，藉此減小了該音頻信號表示的頻譜形狀與該參考頻譜形狀間的差，透過提高該音頻信號表示的部分頻譜形狀形成該音頻信號表示的已修改頻譜形狀以進一步改善該音頻信號表示的頻譜形狀與該參考頻譜形狀之間的匹配度，以及基於該音頻信號表示的該已修改頻譜形狀決定該音頻信號的知覺響度。該調整可包括最小化該音頻信號表示的頻譜形狀與該參考頻譜形狀之差的函數，並且根據該最小化設定該參考頻譜形狀的一位準。最小化該差函數可最小化該音頻信號表示的頻譜形狀與該參考頻譜形狀之差的加權平均。最小化該差函數可進一步包括施加一偏差來改變該音頻信號表示的頻譜形狀與該參考頻譜形狀之間的差異。該偏差可以是一固定的偏差。將該頻譜表示修改為一參考頻譜形狀的一函數可進一步包括擷取該音頻信號的頻譜表示的最大位準與該設定位準的參考頻譜形狀的最大位準。

根據本發明的再一些層面及另一些層面，該音頻信號表示可以是一激勵信號，其接近內耳基底膜的能量分佈。

本發明的其他層面包括執行任何上述方法的裝置及儲存在一電腦可讀媒體上且用於使電腦執行任何上述方法的電腦程式。

較佳實施例之詳細說明

在一般意義上，所有早先提到的客觀響度測量(加權功率測量及心理聲學模型)可被視為橫跨頻率整合音頻信號的一些頻譜表示。在加權功率測量的情況下，該頻譜是與所選加權濾波器的功率譜相乘的信號的功率譜。在心理聲學模型的情況下，該頻譜可以是一系列連續臨界頻帶中的功率的非線性函數。正如前面提到，已發現這些對響度的客觀測量為擁有如前所述“窄頻帶”之頻譜的音頻信號提供降低了的性能。

與其將這些信號視為窄頻帶，發明者已基於這些信號與普通聲音的平均頻譜形狀不同的前提開發了一種更簡單且更直觀的說明。可能會認為在日常生活中所遇到的大多數聲音，特別是講話擁有與一平均“預期”頻譜形狀偏離不太明顯的一頻譜形狀。該平均頻譜形狀隨著在最低與最高可聽頻率之間被帶通的頻率的增加呈現普遍下降。當評估擁有與如此一平均頻譜形狀明顯偏離之頻譜的聲音的響度時，正是本發明的發明者假設一人認知地“填充”頻譜中那些缺乏預期能量的區域到某一位準。然後透過橫跨頻率整合包括一被認知“填充”頻譜部分的一已修改頻譜而不是實際信號頻譜，響度的總體感受被獲得。例如，如果一人正在收聽一段僅用低音吉他演奏的音樂，則這個人一般會期望其他的樂器最終會加入到該低音中來填寫該頻譜。與其僅從其頻譜判斷低音提琴獨奏的總響度，本發明的發明者相信響度的總知覺的一部分歸因於預計會伴隨該低音而卻丟失了的頻率。類比可用心理聲學中熟知的“基本頻率遺漏”效應繪製。如果一人聽到簡諧相關的級數單音，但是該級數的基本頻率不存在，則這個人仍將感覺該級數仿佛具有與該缺少基音的頻率相對應的音調。

根據本發明的層面，以上所假設的主觀現象被整合到對知覺響度的客觀測量中。第1圖將本發明的層面的概述描述為其施加到已經提到的任一客觀測量(即加權功率模型和心理聲學模型兩者)中。作為第一步，一音頻信號x可被轉換到與所使用的特定客觀響度測量相稱的一頻譜表示X。一固定參考頻譜Y代表以上所討論的假設的平均預期頻譜形狀。參考頻譜可被預先計算，例如透過平均一普通聲音代表資料庫的頻譜。作為下一步，一參考頻譜Y可與該信號頻譜X“匹配”來產生一設定位準的參考頻譜Y_M 。匹配的意思是Y_M 產生作為Y的位準標度，因此已匹配參考頻譜Y_M 的位準與X對準，該對準是X與Y_M 橫跨頻率間的位準差的函數。該位準對準可包括最小化X與Y_M 橫跨頻率間的加權或未加權差。這種加權可以以任何多種方式來定義，只要所選擇的該方法可使頻譜X與參考頻譜Y偏離最多的那些部分被最重地加權。信號頻譜X的最“不平常”部分以這種方式與Y_M 最接近地對準。接下來透過根據一修改準則修改X接近該匹配參考頻譜Y_M ，一已修改信號頻譜X_C 被產生。正如以下將詳細描述的，該修改可採取只選擇X與Y_M 橫跨頻率的最大值的形式，這模擬以上所討論的認知“填充”。最後，已修改的信號頻譜X_C 可根據所選擇的客觀響度測量(即一些類型的橫跨頻率的整合)來處理以產生一客觀響度值L。

第2A-C圖及第3A-C圖分別描述了兩個不同的原始信號頻譜X的已修改信號頻譜X_C 的計算例子。在第2A圖中，由實現所表示的原始信號頻譜X在低音頻率中包含其絕大多數的能量。與由虛線表示的所述參考頻譜Y相比較，信號頻譜X的形狀被認為是“不平常的”。在第2A圖中，該參考頻譜最初被顯示在高於信號頻譜X的一任意開始位準(上面的虛線)處。然後參考頻譜Y的位準可被降低以與信號頻譜X相匹配，以產生一匹配參考頻譜Y_M (下面的虛線)。當與參考頻譜相比較時，可能會注意到Y_M 與X的低音頻率最接近地匹配，這可被認為是信號頻譜的“不平常”部分。在第2B圖中，使信號頻譜X的那些降落到匹配參考頻譜Y_M 以下的部分等於Y_M ，藉此模仿該認知“填充”過程。在第2C圖中，看到由虛線表示的已修改的信號頻譜X_C 等於X與Y_M 橫跨頻率的最大值的結果。在這種情況下，頻譜修改的應用已將一顯著數量的能量加入到原始信號在較高頻率的頻譜中。因此，由該已修改的信號頻譜X_C 計算所得的響度將大於由原始信號頻譜X計算所得的響度，這是所期望的結果。

在第3A-C圖中，信號頻譜X在形狀上類似於參考頻譜Y。因此，匹配參考頻譜Y_M 可能會在所有頻率降落到信號頻譜X以下，以及已修改信號頻譜X_C 可能等於原始信號頻譜X。在該例子中，該修改無論如何都不會影響隨後的響度測量。對於絕大多數的信號來說，它們的頻譜足夠接近已修改的頻譜，如在第3A-C圖中所示，藉此沒有施加修改，因此響度計算沒有發生改變。較佳地，僅如在第2A-C圖中的“不平常的”頻譜被修改。

在該WO 2004/111994 A2以及US 2007/0092089申請案中，Seefeldt等人在除其他事項之外還揭露了基於一心理聲學模型的知覺響度的客觀測量。本發明的較佳實施例可將所述的頻譜修改施加到這樣一個心理聲學模型。該模型在沒有修改的情況下首先被重新檢查，然後修改施加的詳情被呈現。

心理聲學模型首先從一音頻信號x[n]計算一激勵信號E[b,t]，在時塊t中及在臨界頻帶b處，該激勵信號接近能量沿內耳基底膜的分佈。該激勵如下可從音頻信號的短時離散傅立葉轉換(STDFT)計算而得：

其中X[k,t]代表x[n]在時塊t及頻框k的STDFT，其中k是轉換中的頻框指數，T[k]代表透過外耳和中耳類比音頻轉換的濾波器的頻率回應，以及C_b [k]代表基底膜在與臨界頻帶b相對應的一位置處的頻率回應。第4圖描述一組合適的臨界頻帶濾波器回應，其中四十個頻帶沿著等效矩形頻寬(ERB)的分頻法被不均勻地隔開，該分頻法是由Moore and Glasberg定義的(B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness,"journal of the Audio Engineering Society 之1997年4月第45卷第4期的第224-240頁)。每一濾波器形狀透過一返回指數函數(rounded exponential funciton)來描述，以及頻帶使用1 ERB的間隔分佈。最後，可有利地選擇(1)中的平滑時間常數λb與人在頻帶b中的響度知覺的整合時間成比例。

使用諸如在第5圖中所述的那些等響度曲線圖(equal loudness countour)，其中在各個頻帶的激勵被轉換成將在1kHz產生相同響度的一激勵位準。而後橫跨頻率和時間分佈的特定響度、知覺響度的量值透過一壓縮非線性從已轉換激勵E_1kHz [b,t]來計算。一個這樣的適合計算特定響度N[b,t]的函數由以下方程式給出：

其中TQ_1kHz 是在1kHz的安靜時候的臨界值，以及常數β和α被選擇以匹配對1kHz單音的響度成長的主觀感受。儘管一β值0.24以及一α值0.045已被發現是合適的，但是那些值不是必要的。最後，由宋(sone)單元表示的總響度L[t]透過橫跨頻帶計算特定響度的總和來計算：

在該心理聲學模型中，在計算總響度之前存在著音頻的兩個中間頻譜表示：激勵E[b,t]以及特定響度N[b,t]。對於本發明來說，頻譜修改可被施加到兩者中的任一個，但是要將修改施加到激勵，而不是特定響度簡化計算。這是因為激勵橫跨頻率的形狀對於音頻信號的總的位準來說是不變的。這由頻譜在不同位準保持同一形狀的方式來反映，如在第2A-C圖及第3A-C圖中所示。由於方程式(2)中的非線性，這並不是特定響度的情況。因此，於此給定的例子將頻譜修改施加到一激勵頻譜表示。

繼續頻譜修改到激勵的施加，假設存在一固定參考激勵Y[b]。實際上，Y[b]可透過平均從包含大量語音信號的一聲音資料庫計算而得的激勵來產生。參考激勵頻譜Y[b]的來源對於本發明來說不是關鍵的。在施加修改中，以信號激勵E[b,t]以及參考激勵Y[b]的分貝表示來操作是有益的。

EdB [b,t ]=10₁₀ log(E [b,t ])　　　(4a)

YdB [b ]=10log₁₀ (Y [b ])　　　(4b)

作為第一步，分貝參考激勵YdB[b]可與分貝信號激勵EdB[b,t]匹配來產生匹配的分貝參考激勵YdB_M [b]，其中YdB_M [b]表示作為參考激勵的標度(或者是使用dB時的附加偏差)：YdB _M [b ]=YdB [b ]+Δ_M 　　　(5)

匹配偏差Δ_M 被計算作為EdB[b,t]與YdB[b]之間的差的函數Δ[b]: Δ[b ]=EdB [b,t ]-YdB [b ]　　　(6)

來自該差激勵Δ[b]的一加權W[b]被計算作為被正規化以具有一最小值零然後被增加到一冪γ的差激勵：

實際上，設定γ=2運作良好，然而該值並不必要，以及可使用其他的加權或根本就不使用加權(即γ=1)。然後匹配偏差Δ_M 被計算作為差激勵Δ[b]的加權平均加上一容限偏差Δ_Tol ：

當方程式(7)中的加權大於1時，會使信號激勵EdB[b,t]中與參考激勵YdB[b]最不相同的那些部分對匹配偏差Δ_M 貢獻最大。當施加修改發生時，容限偏差Δ_Tol 影響“填充”的量。實際上，設定Δ_Tol =-12dB運作良好，透過施加修改導致絕大多數的音頻頻譜未被修改。(在第3A-C圖中，正是該Δ_Tol 負值使匹配參考頻譜完全地降到信號頻譜以下而不是與之相稱，因此導致沒有對信號頻譜進行調整。)

一旦匹配參考激勵既已被計算，則修改被施加以透過擷取EdB[b,t]與YdB_M [b]橫跨頻帶的最大值產生已修改的信號激勵：EdB _C [b,t ]=max{EdB [b,t ],YdB _M [b ]}　　　(9)

然後已修改激勵的分貝表示被轉換回線性表示：

然後在根據該心理聲學模型計算響度的剩餘步驟(即如在方程式2及3中給定的計算特定響度以及橫跨頻帶計算特定響度的總和)中，該已修改信號激勵E_C [b,t]取代原始信號激勵E[b,t]。

為了論證該所揭露的發明的實用性，第6及7圖分別描述了顯示未修改及已修改心理聲學模型是如何預知一音頻記錄資料庫在主觀上所擁有的響度的資料。對於該資料庫中的每一測試記錄來說，受試者被請求調整音量以與一些固定參考記錄的響度相匹配。對於每一測試記錄來說，受試者可即刻地在測試記錄與參考記錄之間來回切換來判斷響度差異。對於每一受試者來說，最後被調整的音量再次以分貝為單位為每一測試記錄儲存，然後這些增益在許多受試者中被平均，以為每一測試記錄產生一主觀響度量值。而後未修改及已修改心理聲學模型都被用來為該資料庫中的每一記錄產生一客觀響度量值，然後這些客觀量值與第6及7圖中的主觀量值相比較。在這兩個圖式中，水平軸代表以dB為單位的主觀量值，垂直軸代表以dB為單位的客觀量值。圖式中的每一點代表資料庫中的一記錄，如果客觀量值與主觀量值較佳地匹配，則每一點將恰好落在對角線上。

對於第6圖中的未修改心理聲學模型，注意到大多數的資料點落在靠近對角線的地方，但是有相當數量的離群值(outlier)存在該線上方。這些離群值代表以前所計論的問題信號，以及該未修改的心理聲學模型與平均主觀評比法比較認為它們太安靜。對於整個資料庫來說，客觀與主觀量值之間的平均絕對誤差(AAE)是2.12dB，這個值相當低，但是最大絕對誤差達到相當高的10.2dB。

第7圖描述相同的該已修改心理聲學模型資料。在這裡，絕大多數的資料點較第6圖中的那些資料點而言沒有被改變，除了使離群值與其他點相符地群聚在對角線的周圍。與未修改心理聲學模型相比較，AAE在某種程度上被減小到1.43dB，以及MAE被顯著地減小到4dB。所揭露的在先前遠離對角線的信號上進行頻譜修改的好處顯而易見。

實施

儘管在原理上本發明可在類比或數位域(或一些這兩個域的組合)中被實施，然而在本發明的可實施實施例中，音頻信號由資料方塊中的樣本表示，處理在數位域中被實現。

本發明可在硬體或軟體或者兩者的組合(例如可規劃邏輯陣列)中被實施。除非明確指明，否則所包括作為本發明的一部分的演算法及程式在本質上不與任何特定的電腦或其他裝置相關。特別地，各種通用機器可與根據於此教示所書寫的程式一起使用，或者其可更加方便地構建更專用的裝置(例如整合電路)，以執行所需要的方法步驟。因此，本發明可在一或多電腦程式中被實施，該程式可在一或多個可規劃電腦系統上執行，每一系統包含至少一處理器、至少一資料儲存系統(包括易失性和非易失性記憶體和/或儲存元件)、至少一輸入裝置或埠，以及至少一輸出裝置或埠。程式碼被施加到輸入資料來執行於此所述的功能以及產生輸出資訊。輸出資訊以已知的方式被施加到一或多個輸出裝置。

每一該程式可以以任何期望的電腦語言(包括機器、組合或高階程序、邏輯或物件導向的程式設計語言)來實施以與一電腦系統通訊。在任何情況下，語言都可以是一編譯或解譯語言。

每一該電腦程式被較佳地儲存在或被下載到可被一通用或專用可規劃電腦讀取的一儲存媒體或裝置上(例如固態記憶體或媒體或磁性媒體或光學媒體))，用於在電腦系統讀取該儲存媒體或裝置時組配及操作電腦執行於此所述的程序。該發明系統也可被認為是被實施為用一電腦程式組配的一電腦可讀儲存媒體，其中如此組配該儲存媒體以使電腦系統以一特定或預定方式操作來執行於此所述的功能。本發明的一些實施例已經被描述。然而，將理解的是，在不脫離本發明的精神和範圍前提下的多種修改可被實現。例如，於此所述的一些步驟可以是順序獨立的，因此可以以不同於該所述順序的順序執行。

x‧‧‧音頻信號

X‧‧‧信號頻譜

Y‧‧‧參考頻譜

X_C ‧‧‧已修改信號頻譜

Y_M ‧‧‧已匹配參考頻譜

L‧‧‧客觀響度值

k‧‧‧頻框指數