TWI464735B

TWI464735B - 利用聽覺場景分析及頻譜偏斜度進行之音訊處理技術

Info

Publication number: TWI464735B
Application number: TW097126643A
Authority: TW
Inventors: Michael John Smithers; Alan Jeffrey Seefeldt
Original assignee: Dolby Lab Licensing Corp
Priority date: 2007-07-13
Filing date: 2008-07-14
Publication date: 2014-12-11
Also published as: TW200915301A; JP2010534030A; US20100198378A1; ATE535906T1; CN101790758A; CN101790758B; EP2168122A1; RU2438197C2; WO2009011827A1; BRPI0813723B1; US8396574B2; RU2010105052A; EP2168122B1; ES2377719T3; JP5192544B2; BRPI0813723A2

Description

利用聽覺場景分析及頻譜偏斜度進行之音訊處理技術

發明領域

本發明一般是關於音訊處理，且尤其是關於聽覺場景分析及頻譜偏斜度。

參考文獻且併入為參考

以下文件之全部內容以參照方式被併入本文。

Crockett與Seefeldt的專利合作條約下的國際申請案S.N.PCT/US2007/008313，名稱為“Controlling Dynamic Gain Parameters of Audio using Auditory Scene Analysis and Specific－Loudness－Based Detection of Auditory Events”，Brett Graham Crockett與Alan Jeffrey Seefeldt為發明人，於2007年3月30日提出申請，其代理人備申號為DOL186 PCT(因為此申請案還未公開，一複本作為附件且形成此申請案之一整體部分。)； Seefeldt等人的專利合作條約下的國際申請案S.N.PCT/US 2004/016964，名稱為“Method,Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal”，Alan Jeffrey Seefeldt等人為發明人，於2004年5月27日提出申請，其代理人備申號為DOL119 PCT，且於2004年12月23日公開為WO 2004/111994 A2； Seefeldt的專利合作條約下的國際申請案S.N.PCT/US2005/038579，名稱為”Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”，Alan Jeffrey Seefeldt為發明人，於2005年10月25日提出申請，其代理人備申號為DOL15202 PCT，且於2006年5月4日公開為WO 2006/047600；Crockett的美國專利申請案S.N.10/474,387，名稱為“High Quality Time－Scaling and Pitch－Scaling of Audio Signals”，Brett Graham Crockett為發明人，於2003年10月10日提出申請，其代理人備申號為DOL07503，且於2004年6月24日公開為US 2004/0122662 A1；Crockett等人的美國專利申請案S.N.10/478,398，名稱為“Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events”，Brett G.Crockett等人為發明人，於2003年11月20日提出申請，其代理人備申號為DOL09201，且於2004年7月29日公開為US 2004/0148159 A1；Crockett的美國專利申請案S.N.10/478,538，名稱為”Segmenting Audio Signals Into Auditory Events”，Brett G.Crockett為發明人，於2003年11月20日提出申請，其代理人備申號為DOL098，且於2004年8月26日公開為2004/0165730 A1；Crockett等人的美國專利申請案S.N.10/478,397，名稱為“Comparing Audio Using Characterizations Based on Auditory Events”，Brett G.Crockett等人為發明人，於2003年11月20日提出申請，其代理人備申號為DOL092，且於2004年9月2日公開為US 2004/0172240 A1； Smithers的專利合作條約下的國際申請案S.N.PCT/US 05/24630，名稱為“Method for Combining Audio Signals Using Auditory Scene Analysis”，Michael John Srnithers為發明人，於2005年7月13日提出申請，其代理人備申號為DOL148 PCT，且於2006年3月9日公開為WO 2006/026161；Crockett,B.and Smithers,M.的“A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis”，音訊工程協會會議論文6416，第118次會議，巴賽隆納，2005年5月28－31日；Crockett,B.的“High Quality Multichannel Time Scaling and Pitch－Shifting using Auditory Scene Analysis”，音訊工程協會會議論文5948，紐約，2003年10月；以及Seefeldt等人的“A New Objective Measure of Perceived Loudness”，音訊工程協會會議論文6236，三藩市，2004年10月28日。

發明背景 聽覺事件以及聽覺事件檢測

將聲音分為被感知為個別且相異的單元或片段有時被稱為“聽覺事件分析”或“聽覺場景分析”(“ASA”)。該等片段有時被稱為“聽覺事件”或“音訊事件”。Albert S.Bregman的“Auditory Scene Analysis－－The Perceptual Organization of Sound”(Massachusetts Institute of Technology，1991年，第四次印刷，2001年，第二MIT出版平裝版本)廣泛地討論了聽覺場景分析。除此之外，Bhadkamkar等人的序號為6,002,776的美國專利(1999年12月14日)引用追溯到1976年的公開案為“與透過聽覺場景分析進行聲音分離相關的先前技術”。然而，Bhadkamkar等人不鼓勵實際使用聽覺場景分析，認為：“雖然從做為人類聽覺處理的模型之科學觀點來看是令人感興趣的，但是包含聽覺場景分析的技術目前需要太大量計算且太專業化，而不被認為是用於聲音分離之實際技術，直到作出基本進展。”

Crockett及Crocket等人在以上列出的各個專利申請案及論文中識別聽覺事件。該等文件教示了藉由檢測頻譜成分(以頻率為函數的幅值)關於時間的一變化將一音訊信號分為聽覺事件(每個聽覺事件傾向於被感覺為個別且相異的)。這例如可藉由以下步驟被執行：藉由計算音訊信號之連續的時間區塊之頻譜內容，比較連續的時間區塊之間的頻譜內容，且將一聽覺事件邊界識別為頻譜內容之差值超過一臨界值的區塊之間的邊界。可選擇的方式是，除了關於時間之頻譜成分改變外，關於時間的幅值變化可被計算或代替之。

該等聽覺事件邊界標記器一般被配置為一時間控制信號，從而一般在0至1的範圍表示事件邊界之強度。此外，此控制信號往往被濾波，使得保持事件邊界強度，且該等事件邊界之間的時間間隔被計算為之前的事件邊界之衰減值。接著被濾波的聽覺事件強度藉由其他音訊處理方法使用，包括自動增益控制及動態範圍控制。

音訊之動態處理

自動增益控制(AGC)及動態範圍控制(DRC)之技術是眾所周知的且一般用於許多音訊信號路徑。就抽象觀念而言，這兩個技術都測量一音訊信號之位準，且接著將該信號進行增益修改一數量，該數量是已量測的位準之一函數。在一線性的1：1動態處理系統中，輸入音訊未被處理，且輸出音訊信號理想地匹配輸入音訊信號。另外，假設一自動地測量輸入信號且利用該測量值控制輸出信號的音訊動態處理系統。若輸入信號之位準上升6dB且被處理的輸出的信號之位準只上升3dB，則輸出信號已關於輸入信號被壓縮一2：1之比率。

在Crockett及Seefeldt中，聽覺場景分析藉由最小化聽覺事件邊界之間的增益之變化，且將許多增益變化限於一事件邊界之鄰近，而改良AGC及DRC方法之效能。其藉由修改動態處理釋放行為而這樣做。這樣，聽覺事件聽起來是一致且自然的。

一鋼琴上彈奏的音符是一例子。利用習知的AGC或DRC方法，施加給音訊信號的增益在每個音符之尾部期間增加，從而使每個音符不自然地增強。利用聽覺場景分析，AGC或DRC增益在每個符號內保持恆定且只在檢測出一聽覺事件邊界的每個符號開始時改變。隨著每個音符之尾部漸漸消失，產生的增益調整音訊信號聽起來是自然的。

聽覺場景分析之典型的實施態樣(如以上的參考案中)故意位準不變的。即，其檢測出聽覺事件邊界，而與絕對信號位準無關。雖然位準不變用於許多應用，但是一些聽覺場景分析受益於一些位準相依性。

此一情形是在Crockett與Seefeldt中描述的方法。此處，AGC及DRC之ASA控制防止聽覺事件邊界之間的大的增益變化。然而，較長期的增益變化對於一些類型的音訊信號可能仍是不被期望的。當一音訊信號從一較大聲進入一較輕聲部分時，被限制只在接近事件邊界改變的AGC或DRC增益可能允許處理的音訊信號之位準在輕聲部分不期望且不自然地上升。此情形經常發生在零星的對話與輕聲的背景聲音交替的影片中。因為輕聲的背景音訊信號也包含聽覺事件，所以AGC或DRC增益在接近該等事件邊界時改變，且整個音訊信號位準上升。

僅透過音訊信號位準、功率或響度之一測量對聽覺事件之重要性加權是不被期望的。在許多情形中，信號測量與絕對再現位準之間的關係未知。理想上，獨立於音訊信號之絕對位準而區別或檢測感知上較輕聲的信號之一測量是有用的。

此處，“感知上較輕聲”不是指相對於一客觀響度測量較輕聲(如Seefeldt等人與Seefeldt中的)，而是基於內容之被期望的響度較輕聲。例如，人類經驗指出低語是一輕聲的聲音。若一動態處理系統測量此是輕聲的，從而又增加AGC增益以達成某一標稱輸出響度或位準，則產生的被增益調整的低語應比從經驗上所能得知的大聲。

發明揭發

本文教示的是一種用於控制一音訊信號內的聽覺事件之響度的方法及裝置。在一實施例中，該方法包括以下步驟：利用頻譜內的偏斜度對該等聽覺事件(一聽覺事件具有一頻譜及一響度)加權；以及利用該等權重控制該等聽覺事件之響度。本發明之各個實施例如下：該加權與該等頻譜內的偏斜度之測量成比例；該偏斜度之測量是被平滑化的偏斜度之一測量；該加權對於該音訊信號之幅值是不敏感的；該加權對於功率是不敏感的；該加權對於響度是不敏感的；信號測量與絕對再現位準之間的任何關係在加權時是未知的；該加權包括利用該等頻譜內的偏斜度，對聽覺事件邊界重要性加權；以及在該音訊信號之感覺較輕聲的片段期間減少AGC或DRC處理位準之增強，相較於不執行所主張的加權之方法。

在其他實施例中，本發明是一種包含用於執行如以上方法中的任何一者之電腦程式的電腦可讀記憶體。

在其他實施例中，本發明是一種電腦系統，包括一CPU、以上提到的記憶體中的一者以及一可通訊地耦接該CPU與該記憶體的匯流排。

在另一實施例中，本發明是一種音訊信號處理器，包括：一頻譜偏斜度計算器，用於計算一音訊信號內的頻譜偏斜度；一聽覺事件識別器，用於利用該被計算出的頻譜偏斜度識別且加權該音訊信號內的聽覺事件；一參數修改器，用於修改用以控制該音訊信號內的聽覺事件之響度的參數；以及一控制器，用於控制該音訊信號內的聽覺事件之該響度。

在另一實施例中，本發明是一種用於控制一音訊信號內的聽覺事件之響度的方法，包括以下步驟：計算一音訊信號之連續的聽覺事件之頻譜的偏斜度之測量；基於偏斜度之該等測量產生該等聽覺事件之權重；自該等權重導出一控制信號；以及利用該控制信號控制該等聽覺事件之該響度。

本發明之各個特徵以及其較佳實施例可透過參照以下討論及附圖被較佳地理解，其中類似的參考符號表示類似的元件。

圖式簡單說明

第1圖描述了一種用於執行分析聽覺場景及控制動態增益參數的兩Crockett及Seefeldt方法的裝置；第2圖描述了依據本發明之一實施例的用於識別聽覺事件且計算用於修改該等聽覺事件的偏斜度之一音訊處理器，它們本身用於修改該等動態參數處理參數；第3圖是依據本發明之一實施例的將聽覺事件用於控制一動態範圍控制器(DRC)之一數位實施態樣內的釋放時間之一系列圖表；第4圖是依據本發明之一實施例的適用於作為一傳輸濾波器的一線性濾波器之一理想的特性響應；以及第5圖顯示了一組近似於以ERB刻度的關鍵頻帶之理想聽覺濾波器特性響應。

用以實施本方法之最佳模式

第1圖描述了一用於依據Crockett與Seefeldt分析聽覺場景且控制動態增益參數的裝置1。該裝置包括一聽覺事件識別器10、一可取捨聽覺事件特性識別器11以及一動態參數修改器12。該聽覺事件識別器10接收音訊為輸入，且產生一輸入給該動態參數修改器12(以及一輸入給該聽覺事件特性識別器11，若存在)。該動態參數修改器12接收該聽覺事件識別器10(以及聽覺時間特性識別器11，若存在)之輸出且產生一輸出。

該聽覺事件識別器10分析頻譜且自該等結果識別用以控制動態增益參數的可感知音訊事件之位置。可選擇的方式是，該聽覺事件識別符10將該音訊轉換到一可感知的響度域(可提供比第一方法較心理聲學相關的資訊)，且在可感知的響度域內識別用以控制該等動態增益參數的聽覺事件之位置(在此選擇中，該音訊處理知道絕對聲音再現位準。)

該動態參數修改器12基於該聽覺事件識別器10(以及聽覺事件特性識別器11，若存在)之輸出修改該等動態參數。

在兩個選擇中，一數位音訊信號x [n ]被分為區塊，且對於每個區塊t，D [t ]表示目前區塊與前一區塊之間的頻譜差值。

對於第一選擇，D [t ]是目前區塊t 與前一區塊t －1之正規化對數頻譜係數(以dB為單位)之間的差值之大小的總和，對於所有頻譜係數。在此選擇中，D [t ]正比於以頻譜的絕對差值(本身以dB為單位)。對於第二選擇，D [t ]是目前區塊t 與前一區塊t －1之正規化特定響度係數之間的差值之大小的總和，對於所有特定響度係數。在此選擇中，D [t ]正比於以特定響度的絕對差值(以宋為單位)。

在這兩個選擇中，若D [t ]超過一臨界值D _min ，則一事件被認為已發生。該事件可具有一在0與1之間的強度，基於D [t ]減去D _min 對D _max 與D _min 之間的差值之比率。該強度A [t ]可被計算為：

最大及最小限制值對於每個選擇是不同的，由於它們不同的單位。然而，來自兩者的結果是一在0至1之範圍內的事件強度。其他選擇可計算一事件強度，但是方程式(1)中表示的選擇本身已在一些領域自我證明，包括控制動態處理。相較於一個二元事件決策，將一強度(正比於與該事件相關的頻譜變化之量)指定給聽覺事件允許對動態處理進行較大的控制。較大的增益變化在較強的事件期間是可被接受的，且方程式(1)中的信號允許此可變控制。

信號A [t ]是一脈衝信號，具有發生在一事件邊界之位置上的一脈衝。為了控制釋放時間之目的，可進一步對該信號A [t ]進行平滑處理，使得其在檢測到一事件邊界之後平滑地衰減到零。被平滑化的事件控制信號可依據以下方程式自A [t ]計算出：

此處，α_event 控制事件控制信號之衰減時間。

第3圖是描述了依據一實施例的本發明之操作及結果的一連串圖表。第3圖內的“b)”描述了第3圖中的“a)”之對應的音訊信號之事件控制信號，其中平滑器之半衰減時間被設定為250ms。該音訊信號包含對話之三個叢發，與輕聲的背景營火爆裂聲交錯。該事件控制信號顯示了對話及背景聲音內的許多聽覺事件。

在第3圖中，“c)”顯示了在事件控制信號被用以改變該DRC增益平滑化之釋放時間常數之情形下的DRC增益信號。如Crocket與Seefeldt描述的，當控制信號等於1時，該釋放平滑係數沒有被影響，且該被平滑化的增益依據時間常數之值變化。當該控制信號等於零時，該被平滑化的增益被阻止改變。當該控制信號在0與1時，該被平滑化的增益被允許改變－但是以與該控制信號成正比的一減小的速率。

在第3圖之“c)”中，由於在背景中檢測到的事件之數目，DRC增益在輕聲的背景聲音期間上升。在第3圖之“d)”中產生的被DRC修改的音訊信號在對話之叢發之間具有背景雜訊之可聽見且不被期望的增強。

為了在輕聲的背景聲音期間降低增益變化，本發明之一實施例使用音訊信號頻譜之非對稱性的一測量修改或加權該聽覺強度A [t ]。本發明之一實施例計算該音訊信號之激發的頻譜偏斜度。

偏斜度是一機率分佈之非對稱性的一統計測量。關於平均值對稱的一分佈具有零偏斜度。大部分或大量集中在平均值以上以及具有趨向低於平均值的一長尾部之一分佈具有一負偏斜度。集中在平均值之下且具有趨向高於該平均值的一長尾部之一分佈具有一正偏斜度。一典型的音訊信號之大小或功率頻譜具有正偏斜度。即，該頻譜內的能量之大部分集中在該頻譜較低處，且該頻譜具有朝向該頻譜之上部的一長尾部。

第2圖描述了依據本發明之一實施例的一音訊處理器2。該音訊處理器2包括第1圖之該動態參數修改器12及該可取捨聽覺事件特性識別器11以及一聽覺事件識別器20及一偏斜度計算器21。該偏斜度計算器21及聽覺事件識別器20都接收音訊信號13，且該偏斜度計算器21產生輸入給該聽覺事件識別器20。除此之外，該聽覺事件識別器20、聽覺事件特性識別器11以及動態參數修改器12如同與第1圖中的其等對應者被連接。

在第2圖中，該偏斜度計算器21自該音訊信號13之一頻譜表示計算偏斜度，且該聽覺事件識別器20自相同的頻譜表示計算聽覺場景分析。該音訊信號13可被分組為M個樣本之百分之五十的重疊區塊，且該離散傅利葉轉換可被計算如下：

其中M＝2*N個樣本且x [n ,t ]表示一樣本區塊。該轉換之區塊大小被假設與用於計算聽覺事件信號的區塊大小相同。然而，並不一定要是此情形。在存在不同的區塊速率之情形下，一區塊速率上的信號可被內插或速率轉換到與另一區塊速率上的信號相同的時標。

近似於時間區塊t期間的能量沿著在關鍵頻帶b上的內耳之基底膜之分佈的激發信號E [b ,t ]被計算出：

其中T [k ]表示模擬音訊穿過外耳及中耳之傳輸的一濾波器之頻率響應，且C _b [k ]表示在對應關鍵頻帶b的一位置上的基底膜之頻率響應。

第4圖描述了一適合的傳輸濾波器之頻率響應T [k ]。第5圖描述了一組適合的關鍵頻帶濾波器響應，對應C _b [k ]，其中40個頻帶沿著Moore及Glasberg等效矩形帶寬(ERB)刻度均勻地隔開，對於一48kHz之樣本率以及M＝2048之轉換大小。一圓指數函數描述了每個濾波器形狀，且1個ERB分隔該等頻帶。

若該等聽覺事件邊界按照Crocket及Seefeldt自特定響度頻譜計算出，則該激發信號E [b ,t ]已作為特定響度計算之部分存在。

最後，該頻譜偏斜度自該激發信號E [b ,t ]計算為：

其中μ 是該激發之算術平均值：

且σ是該激發信號之方差：

方程式(5)之偏斜度信號SK [t ]大大地波動，且需要對其平滑化以避免當修改該事件控制信號及接著的動態處理參數時的人工因素。一實施例使用一具有一衰減常數α_SK 的單極平滑器，該衰減常數α_SK 具有一大約6.5 ms之半衰減時間：SK '[t ]＝α_SK SK '[t －1]＋(1－α_SK )SK [t ] (8)

將偏斜度分別限制到最大值SK_max 及最小值SK_min 可能是有用的。一被限制的偏斜度SK "[t ]可被計算為：

該偏斜度信號SK "[t ]之低值(接近0.0的值)一般對應特性上較輕聲的信號，而高偏斜度值(接近1.0的值)一般對應特性上較大聲的信號。在第3圖中，“e)”圖顯示了對應第3圖的“a)”中的音訊信號之偏斜度信號。該偏斜度對於較大聲的對話叢發是高的且對於背景聲音是低的。

該偏斜度信號SK "[t ]傳給第2圖之聽覺事件識別器20，該聽覺事件識別器20將該頻譜差值測量D [t ]加權為：D _SK [t ]＝SK "[t ]D [t ] (8)

該被偏斜度修改的聽覺強度信號A _SK [t ]以與方程式(1)中A [t ]之方式相同的方式被計算：

該被偏斜度修改的聽覺強度信號以與方程式(2)中的A [t ]之方式相同的方式被平滑化：

在第3圖中，“f)”，描述了第3圖之“a)”中的對應音訊信號之被偏斜度修改的事件控制信號。當對應較大聲對話的事件仍存在時，較少的聽覺事件出現在背景聲音期間。

在第3圖中，“g)”顯示了被偏斜度修改的事件控制DRC信號。由於在背景聲音中具有較少的聽覺事件，所以DRC增益保持相當固定且只對於較大聲的對話部分移動。第3圖中的“h)”顯示了產生的被DRC修改的音訊信號。

該被DRC修改的音訊信號在背景聲音期間不具有位準之任何不被期望的增強。

該偏斜度信號SK "[t ]對於感覺較大聲的信號有時變低。對於該等大聲的信號，頻譜差值測量D [t ]之值足夠大，使得即使在透過方程式8中的偏斜度信號SK "[t ]加權之後，該被加權的頻譜差值測量D _SK [t ]一般仍足夠大以指示一聽覺事件邊界。該事件控制信號未受到不利影響。

1‧‧‧裝置

2‧‧‧音訊處理器

10‧‧‧聽覺事件識別器

11‧‧‧可取捨聽覺事件特性識別器

12‧‧‧動態參數修改器

13‧‧‧音訊信號

20‧‧‧聽覺事件識別器

21‧‧‧偏斜度計算器