TWI397903B

TWI397903B - 編碼音訊之節約音量測量技術

Info

Publication number: TWI397903B
Application number: TW095109828A
Authority: TW
Inventors: Brett Graham Crockett; Michael John Smithers; Alan Jeffrey Seefeldt
Original assignee: Dolby Lab Licensing Corp
Priority date: 2005-04-13
Filing date: 2006-03-22
Publication date: 2013-06-01
Also published as: ATE527834T1; HK1113452A1; IL186046A; BRPI0610441B1; JP5219800B2; US8239050B2; WO2006113047A1; KR101265669B1; JP2008536192A; CN100589657C; ES2373741T3; EP1878307B1; CA2604796C; AU2006237476A1; CN101161033A; BRPI0610441A2; MY147462A; TW200641797A; US20090067644A1; MX2007012735A

Description

編碼音訊之節約音量測量技術

發明領域

本發明是關於一種音訊信號處理的技術。尤其是關於低位元率編碼的音訊之客觀音量測量的節約計算方法，該等編碼音訊如利用Dolby Digital(AC－3)、Dolby Digital Plus或Dolby E編碼的音訊。“Dolby”、“Dolby Digital”、“Dolby Digital Plus”和“Dolby E”是Dolby Laboratories Licensing公司的商標。本發明一方面還可用於其他類型的音訊編碼。

發明背景

Dolby Digital編碼的細節在以下參考文獻中被闡明：ATSC Standard A52/A：Digital Audio Compression Standard(AC－3),Revision A, Advanced Television Systems Committee,2001年8月20日。此A/52A文獻可在以下的全球資訊網上找到：http：//www.atsc.org/standard.html .

Craig C.Todd等人的“Flexible Perceptual Coding for Audio Transmission and Storage”,Audio Engineering Society 第96次會議，1994年2月26日，pp.3796；Steve Vernon的“Design and Implementation of AC－3 Coders”，IEEE Trans.Consumer Electronics ，1995年8月No.3 Vol.41。

Mark Davis的“The AC－3 Multichannel Coder”，Audio Engineering Society第95次AES會議，pp.3774，1993年10月。

Bosi等人的“High Quality,Low－Rate Audio Transform Coding for Transmission and Multimedia Applications”，Audio Engineering Society第93次AES會議，pp.3365，1992年10月。

美國專利5,583,962；5,632,005；5,633,981；5,727,119；5,909,664和6,021,386。

Dolby Digital Plus編碼的細節在以下文獻中被闡明：“Introduction to Dolby Digital Plus,an Enhancement to the Dolby Digital Coding System”，第117次AES會議的AES會議文件pp.6196，2004年10月28日。

Dolby E編碼的細節在以下文獻中被闡明：“Efficient Bit Allocation,Quantization and Coding in an Audio Distribution System”，第107次AES會議的AES會議文件pp.5068，1999年8月，以及“Professional Audio Coder Optimized for Use with Video”，第107次AES會議的AES會議文件pp.5033，1999年8月。

包括Dolby編碼器、MPEG編碼器和其他編碼器的多種感知(perceptual)編碼器之概述在以下文獻中被闡明：Karlheinz Brandenburg和Marina Bosi的“Overview of MPEG Audio：Current and Future Standards for Low－Bit－Rate Audio Coding”，J.Audio Eng.Soc.,1997年1月/2月No.1/2,Vol.45。

上述所有參考文獻每一個的全部內容都在此處被併入參考。

存在很多方法用於客觀測量音訊信號被感知(perceived)的音量。該等方法的範例包括音量的加權(weighted)功率測量(如LeqA、LeqB、LeqC)和心理聲學式測量(psychoacoustic-based measure)如“聲學-用於計算音量位準的方法(Acoustics-Method for Calculating Loudness Level)”ISO 532(1975)。藉由應用一加強較可感知之敏感頻率而不加強較少可感知的敏感頻率的預設濾波器，然後隨著預設的時間長短平均經濾波之信號的功率，加權功率音量測量處理輸入音訊信號。心理聲學方法通常更複雜且目的是更好地模擬(model)人耳的工作。其可被實現，藉由分離音訊信號為模仿(mimic)頻率響應和耳朵敏感度的頻帶，然後處理且整合該等頻帶，當考慮心理聲學現象如頻率和時間掩蔽(masking)以及隨著信號強度改變之非線性感知的音量時。所有客觀音量測量方法的目的是獲得音量的數值測量，該數值接近符合一音訊信號的主觀感知音量。

感知編碼或低位元率音訊編碼一般被用於可有效儲存、傳輸以及傳送的資料壓縮音訊信號中，如廣播數位電視和音樂的線上網路販賣的應用。藉由轉換音訊信號為一資訊空間(space)(在該空間中被心理聲學掩蔽的冗餘和信號成分可被容易丟棄)，感知編碼實現其效率。餘下的資訊被壓縮(pack)進一流(stream)或數位資訊文檔中。通常，測量由低位元率編碼音訊代表的音訊音量需要解碼音訊回到時域(time domain)(如PCM)，其在計算上是精深的(intensive)。一些低位元率感知編碼的信號包含對音量測量方法有用的資訊，從而節省完全解碼音訊的計算成本。 Dolby Digital(AC-3)、Dolby Digital Plus和Dolby E在該等音訊編碼系統之中。

Dolby Digital、Dolby Digital Plus和Dolby E低位元率感知音訊編碼器分離音訊信號為重疊、視窗化的時段(或音訊編碼塊)，其等被轉換為頻域表示。頻譜係數的頻域表示被一指數記法(exponential notation)表達，該指數記法包含指數和有關的尾數(mantissa)組。指數(以比例因數(scale factor)的方式運行)被壓縮(pack)進編碼的音訊流。尾數代表被指數正規化之後的頻譜係數。然後指數通過聽力的一感知模型且被用於量化且壓縮(pack)尾數為被編碼的音訊流。在解碼之後，指數從編碼的音訊流中被解壓縮(unpack)且然後經過相同的感知模型以決定如何解壓縮尾數。然後尾數被解壓縮，與指數組合以產生音訊的頻域表示，該音訊然後被解碼且被轉換回時域表示。

因為很多音量測量包括功率和功率頻譜計算，所以藉由僅部分解碼低位元率編碼音訊和傳遞部分被解碼之資訊(如功率頻譜)到音量測量，可實現計算上的節省。無論何時需要測量音量但不解碼音訊，本發明都是有用的。其利用以下事實，音量測量可使用音訊的一近似形式，該近似值通常不適合收聽。本發明一方面是識別音訊的粗略(coarse)表示，其在很多音訊編碼系統中沒有完全解碼位元流的情況下可得，可提供在測量音訊之音量中有用的音訊頻譜之近似值。在Dolby Digital、Dolby Digital Plus和Dolby E音訊編碼中，指數提供音訊之功率頻譜的一近似值。類似地，在某些其他編碼系統中，比例因數、頻譜包絡(spectral envelope)和線性預示(predictive)係數可提供音訊之功率頻譜的一近似值。當以下本發明的摘要和描述被閱讀和理解時，本發明的這些和其他方面以及優點將被更好地理解。

本發明提供低位元率編碼音訊之感知音量的計算節約測量。藉由僅部分解碼音訊資料(material)且傳遞被部分解碼之資訊給音量測量，其可被實現。該方法利用被部分解碼之音訊資訊的特定屬性，如Dolby Digital、Dolby Digital Plus和Dolby E音訊編碼中的指數。

本發明的第一方面，測量在一包括資料的位元流中被編碼的音訊音量(其中在沒有完全解碼音訊的情況下，音訊之功率頻譜的近似值可被獲得)，藉由在沒有完全解碼音訊的情況下從位元流獲得音訊之功率頻譜的近似值，且根據該音訊之功率頻譜的近似值決定音訊的一近似音量。

在本發明的另一方面中，資料可包括音訊的粗略表示和有關的音訊精細(finer)表示，在此情形下，音訊之功率頻譜的近似值可從音訊的粗略表示中獲得。

在本發明一更進一步的方面中，在一位元流中被編碼的音訊可以是具有複數個頻率子頻帶的子頻帶編碼的音訊，每一子頻帶具有一比例因數和與之有關的樣本資料，且其中，音訊的粗略表示包含比例因數而有關的音訊精細表示包含與每一比例因數有關的樣本資料。

仍在本發明一更進一步的方面中，每一子頻帶的比例因數和樣本資料可由指數記法代表子頻帶中的頻譜係數，其中，比例因數包含一指數而有關的樣本資料包含尾數。

仍在本發明一更進一步的方面中，在一位元流中編碼的音訊可以是線性預示編碼的音訊，其中，音訊的粗略表示包含線性預示係數，而音訊的精細表示包含與線性預示係數有關的激勵(excitation)資訊。

仍在本發明一更進一步的方面中，音訊的粗略表示可包含至少一頻譜包絡，而音訊的精細表示可包含與至少一頻譜包絡有關的頻譜成分。

仍在本發明一更進一步的方面中，根據音訊之功率頻譜的近似值決定音訊的一近似音量可包括應用一加權的功率音量測量。加權的功率音量測量可使用一濾波器，該濾波器不加強較少可感知的頻率且隨著時間平均經濾波之音訊的功率。

仍在本發明一更進一步的方面中，根據音訊之功率頻譜的近似值決定音訊的一近似音量可包括應用一心理聲學音量測量。心理聲學音量測量可利用人耳的一模型決定在複數個頻帶(類似於人耳的臨界(critical)頻帶)之每一個頻帶中的特定音量。在一子頻帶編碼器環境中，子頻帶可類似於人耳的臨界頻帶且心理聲學音量測量可利用人耳的一模型以決定在每一子頻帶中的特定音量。

本發明的層面包括實行上述功能的方法、實行該等功能的裝置、實行該等方法的設備以及儲存在一電腦可讀媒體上的一電腦程式，該程式使得電腦執行可實現上述功能的方法。

發明概要

一種方法，用於測量在一包括資料的位元流中編碼之音訊的音量，其中在沒有完全解碼音訊的情況下，該音訊之功率頻譜的一近似值可被獲得，該種方法包含以下步驟：在沒有完全解碼該音訊的情況下，從該位元流獲得該音訊之功率頻譜的近似值，以及根據該音訊之功率頻譜的近似值決定該音訊的一近似音量。

圖式簡單說明

第1圖顯示用於測量低位元率編碼音訊之音量的一般安排的示意性功能方塊圖。

第2圖顯示Dolby Digital、Dolby Digital Plus和Dolby E解碼器的一般化示意性功能方塊圖。

第3a圖和第3b圖顯示兩個一般安排的示意性功能方塊圖，該等兩個安排用於分別利用加權功率和心理聲學式測量計算一客觀的音量測量。

第4圖顯示用於當測量第3a圖之安排範例的音量時的普遍頻率加權。

第5圖是顯示一更加節約的一般安排的示意性功能方塊圖，該安排用於測量依據本發明方面之編碼音訊的音量。

第6a圖和第6b圖是用於測量音量之更節約安排的示意性功能方塊圖，該音量包含在依據本發明方面之第3a圖和第3b圖之範例中顯示的音量安排。

較佳實施例之詳細說明

本發明一方面的好處是低位元率編碼音訊的音量測量不需要完全解碼音訊為PCM，解碼包括浪費的(expensive)解碼處理步驟如位元分配、反量化(de-quantization)、反轉換等。本發明大大減少處理需求(計算的費用(overhead))。當想要一音量測量而不需要解碼音訊時，此方法是有益的。

本發明各方面是有用的，例如，在以下揭露的環境中：(1)Smithers等人在審理中的美國非臨時專利申請案第11/373,577號及公開號第20060002572號，在2004年7月1日提出申請，在2006年1月5日公開，名為“Method for Correcting Metadata Affecting the Playback Loudness and Dynamic Range of Audio Information”(2)Brett Graham Crockett的美國專利臨時申請案第60/671,361號，在2005年4月13日申請，名為“Audio Metadata Verification”，以及(3)在音量測量表現中以及在一廣播儲存或傳輸鏈(chain)中的校正，其中，存取(access)解碼音訊不是必要及想要的。

本發明一方面提供的處理節省還幫助使得在大量低位元率資料壓縮的音訊信號上即時執行音量測量和元資料(metadata)校正(如改變一個DIALNORM參數為校正值)變得可能。通常，很多低位元率編碼的音訊信號被多工化且以MPEG傳送流被傳送。本發明一方面之音量測量使得在大量被壓縮之音訊信號上即時進行音量測量更加可行，當與需要完全解碼被壓縮之音訊信號為PCM以執行音量測量相比時。

第1圖顯示用於測量編碼音訊之音量的先前技術配置100。編碼的數位音訊資料或資訊101(如已被低位元率編碼的音訊)被一解碼器或解碼函數102(“解碼(Decode)”)解碼為如一個PCM音訊信號103。此信號然後被應用到產生一被測量之音量值105的音量測量器或測量方法或演算法104(“測量音量(Measure Loudness)”)。

第2圖顯示一解碼102之先前技術之結構性或功能性方塊圖200。其顯示的結構或功能是Dolby Digital、Dolby Digital Plus和Dolby E解碼器的代表。編碼音訊資料101的圖框被輸入到一資料解壓縮器或解壓縮函數202(“圖框同步，誤差檢測&圖框解除格式(Frame Sync,Error Detection & Frame Deformatting)”)，該資料解壓縮器或解壓縮函數202解壓縮被輸入之資料為指數資料203、尾數資料204以及其他混雜的(miscellaneous)位元分配資訊207。指數資料203被一設備或函數205(“對數功率頻譜(Log Power Spectrum)”)轉換為一對數功率頻譜206，且此對數功率頻譜被一個位元分配器或位元分配函數208(“位元分配(Bit Allocation)”)使用以計算信號209，該信號209是每一被量化之尾數以位元形式的長度。然後尾數被一設備或函數210(“反量化尾數(De-Quantize Mantissas)”)反量化且與指數組合以提供輸出211，且被一反向濾波器組(inverse filterbank)設備或函數212(“反向濾波器組(Inverse Filterbank)”)轉換回時域。反向濾波器組212還重疊且加總目前反向濾波器組之結果的一部分與先前反向濾波器組之結果(及時(in time))以產生被解碼的音訊信號103。在實際的解碼器實現中，位元分配、反量化尾數和反向濾波器組設備或函數需要大量的計算資源。解碼過程的更多細節在上述參考中可被發現。

第3a圖和第3b圖顯示用於客觀測量一音訊信號之音量的先前技術之安排。其等代表測量音量104(第1圖中)的變化。儘管第3a圖和第3b圖分別顯示兩類一般的客觀音量測量技術的範例，但特定的客觀測量技術的選擇對本發明來說並不是關鍵的(critical)，且其他客觀的音量測量技術可被使用。

第3a圖顯示一般用於音量測量中的加權功率測量300之範例。一音訊信號103經過一加權濾波器或濾波函數302(“加權濾波器(Weighting Filter)”)，該加權濾波器或濾波函數302被設計成加強較可感知的敏感頻率，而不加強較少可感知的敏感頻率。經濾波之信號303的功率305被一設備或函數304(“功率(Power)”)計算且隨著一限定時間被一設備或函數306(“平均(Average)”)平均，以產生一音量值105。許多不同標準的加權濾波器特性存在且一些普遍性範例被顯示在第4圖中。在實際中，第3a圖之安排的修改形式經常被使用，例如，其中一種修改形式為阻止無聲時期(time periods of silence)被包括在平均中。

心理聲學式技術通常也被用於測量音量。第3b圖顯示該種心理聲學式配置的一示範性先前技術之配置310。一音訊信號103被一傳輸濾波器或濾波函數312(“傳輸濾波器 (Transmission Filter)”)濾除，該傳輸濾波器或濾波函數312代表外耳和中耳之頻率改變大小的響應。然後經濾波之信號313被一聽覺濾波器組(auditory filterbank)或濾波器組函數314(“聽覺濾波器組(Auditory Filterbank)”)分離為等同或比聽覺臨界頻帶(auditory critical bands)窄的頻帶315。藉由執行一快速傅立葉轉換(fast Fourier transform，FFT)(例如，藉由一離散頻率轉換(discrete frequency transform，DFT)實現)且然後分組(group)線性間隔之頻帶(linearly spaced bands)為近似耳朵之臨界頻帶的頻帶(如以ERB或Bark比例)，其可被實現。另外，對於每一ERB或Bark頻帶其可被一個單一帶通濾波器實現。然後每一頻帶被一設備或函數316(“激勵(Excitation)”)轉換為一激勵信號317，該激勵信號317代表人耳在頻帶內受到的刺激(stimuli)或激勵量(excitation)。然後對於每一頻帶319被感知的音量或特定的音量從激勵中被一設備或函數318(“特定音量(Specific Loudness)”)計算，且橫跨所有頻帶的特定音量被一求和器或求和函數320(“求和(Sum)”)求和，以產生一單一音量測量105。求和過程考慮到多種感知影響，如頻率掩蔽。在該等感知方法的實際實現中，大量計算資源是被需要用於傳輸濾波器和聽覺濾波器組。

第5圖顯示本發明一方面的方塊圖500。一編碼的數位音訊信號101被一設備或函數502(“部分解碼(Partial Decode)”)部分解碼，且音量從部分解碼之資訊503中被一設備或函數504(“測量音量(Measure Loudness)”)測量。根據部分解碼如何被執行，產生的音量測量505可能非常類似(但不完全相同)於從完全解碼之音訊信號103(第1圖中所示)中計算出的音量測量105。在本發明方面之Dolby Digital、Dolby Digital Plus和Dolby E實現的文獻中，部分解碼可包括省略一解碼器(如第2圖中的範例)的位元分配、反量化尾數和反向濾波器組設備或函數。

第6a圖和第6b圖顯示第5圖之一般安排的兩個示範性實現。儘管兩個範例都使用相同的部分解碼502函數或設備，但每一範例可具有不同的測量音量504函數或設備-在第6a圖之範例600中的測量音量504函數或設備是類似於第3a圖之範例中的，且在第6b圖之範例610中的是類似於第3b圖之範例中的。在兩個範例中，部分解碼502從編碼之音訊流中僅選取指數203，且轉換該等指數為一功率頻譜206。此選取可被如第2圖之範例中的一設備或函數202(“圖框同步，誤差檢測&圖框解除格式(Frame Sync,Error Detection & Frame De-Formatting)”)執行且此轉換可被如第2圖之範例中的一設備或函數205(“對數功率頻譜(Log Power Spectrum)”)執行。此處不需要像第2圖之解碼範例中所顯示的完全解碼需要執行反量化尾數、執行位元分配以及執行一反向濾波器組。

第6a圖之範例包括一測量音量504，其是第3a圖之音量測量器或音量測量函數的一修改形式。在此範例中，一修改過的加權濾波被用在頻域中，藉由透過一加權濾波器或加權濾波函數601(“修改過的加權濾波器(Modified Weighting Filter)”)增加或減少每一頻帶中的功率值。相反的，第3a圖之範例在時域中使用加權濾波。儘管其在頻域中操作，但修改過的加權濾波器以相同於第3a圖之時域加權濾波器的方式影響音訊。濾波器601相對於第3a圖的濾波器302被“修改”，在某種意義上，其以對數振幅值執行而不是以線性值執行，且其以非線性執行而非以線性頻率比例執行。然後頻率加權的功率頻譜602被轉換為線性功率且被一設備或函數603(“轉換、求和&平均(Convert,Sum & Average)”)應用如以下的方程式5橫跨頻率求和且橫跨時間求平均。輸出是一客觀音量值505。

第6b圖的範例包括一測量音量504，其可以是第3b圖之音量測量器或音量測量函數的一被修改的形式。在此範例中，藉由增加或減少在每一頻帶中的對數功率值，一修改過的傳輸濾波器或濾波函數611(“修改過的傳輸濾波器(Modified Transmission Filter)”)被直接用在頻域中。相反的，第3b圖之範例在時域中執行加權濾波。儘管其在頻域中操作，但修改過的傳輸濾波器以相同於第3b圖之時域傳輸濾波器的方式影響音訊。一修改過的聽覺濾波器組或濾波器組函數613(“修改過的聽覺濾波器組(Modified Auditory Filterbank)”)接受線性頻帶間隔的對數功率頻譜為輸入，且分離或組合這些線性間隔的頻帶為一臨界頻帶間隔(critical-band-spaced)(如ERB或Bark頻帶)的濾波器組輸出315。修改過的聽覺濾波器組613還為之後的激勵設備或函數316(“激勵(Excitation)”)轉換對數域(log-domain)功率信號為一線性信號。修改過的聽覺濾波器組613相對於第3b圖之聽覺濾波器組314被“修改”，其中其在對數振幅值上執行而不是在線性值上執行，且轉換此等對數振幅值為線性值。另外，將頻帶分組為ERB或Bark頻帶可在修改過的聽覺濾波器組613中被執行而不在修改過的傳輸濾波器611中執行。第6b圖之範例還包括對於每一頻帶的一特定音量(Specific Loudness)318和一求和(Sum)320，如第3b圖之範例中所示的。

對於第6a圖和第6b圖中所示的安排，大量計算的節省被實現，因為解碼不需要位元分配、尾數反量化和一反向濾波器組。然而，對於第6a圖和第6b圖的安排，因而產生的客觀音量測量並不與從完全解碼音訊中計算的測量完全相同。這是因為一些音訊資訊被丟棄且從而用於測量的音訊資訊是不完全的。當本發明方面被應用到Dolby Digital、Dolby Digital Plus或Dolby E時，尾數資訊被丟棄且僅粗略量化的指數值被保留。對於Dolby Digital和Dolby Digital Plus，該等值被量化為6 dB的增值(increments)，而對於Dolby E，其等被量化為3 dB的增值。在Dolby E中較小的量化步階(step)產生較精細的量化指數值且因此產生較精確的功率頻譜估計。

感知編碼器通常被設計成改變重疊時間段的長度(也稱為區塊大小)，連同音訊信號的某些特性。例如，Dolby Digital使用兩個區塊大小-一主要用於穩定音訊信號的512個樣本(samples)的較長區塊和一用於較暫態音訊信號的 256個樣本的較短區塊。結果是頻帶數目和相對應的對數功率頻譜值206的數目隨區塊(block by block)改變。當區塊大小是512個樣本時，有256個頻帶，而當區塊大小是256個樣本時，有128個頻帶。

有很多方式使第6a圖和第6b圖中被提出的方法可處理不同的區塊大小，且每一方式導致一類似的結果音量測量。例如，藉由組合或平均多個較小區塊為較大區塊且從較小數目頻帶延展(spread)功率橫跨較大數目的頻帶，對數功率頻譜205可被修改以在一恆定區塊率下總是輸出恆定數量的頻帶。另外，測量音量可接受改變的區塊大小且據此調整其等的濾波、激勵、特定音量、平均和求和過程，例如，藉由調整時間常數。

加權功率測量範例

如本發明方面的一範例，一加權功率音量測量方法的一高度節約形式可使用Dolby Digital位元流和加權功率音量測量LeqA。在此高度節約的範例中，僅有包含在一Dolby Digital位元流中的量化指數被用於音訊信號頻譜的估計以執行音量測量。其避免執行位元分配的額外計算需求，以重新產生尾數資訊，其另外僅提供信號頻譜的稍微較精確估計。

如第5圖和第6a圖之範例中所述，Dolby Digital位元流被部分解碼以重新產生且選取對數功率頻譜(從包含在位元流中的量化指數資料計算出)。藉由視窗化512個連續的、50%重疊的PCM音訊樣本且執行一個MDCT轉換，產生 256個MDCT係數被用於產生低位元率編碼的音訊流，Dolby Digital執行低位元率音訊編碼。在第5圖和第6a圖中執行的部分解碼解壓縮(unpack)指數資料E(k) 且轉換被解壓縮之資料為256個量化的對數功率頻譜值P(k) ，其等形成音訊信號的一粗略頻譜表示。對數功率頻譜值P(k) 以dB為單位。該轉換如下：其中N =256，代表在一個Dolby Digital位元流中對於每一區塊轉換係數的數目。為了在計算音量的加權功率測量中使用對數功率頻譜，利用一適當的音量曲線(如第4圖中所示的A-、B-或C-加權曲線之一)對數功率頻譜被加權。在此情形下，LeqA功率測量已被計算且因此A-加權曲線是適當的。藉由將對數功率頻譜值P(k) 加上離散的A-加權頻率值AW(k) (也以dB為單位)，對數功率頻譜值P(k) 被加權，如下：

藉由對離散頻率fdiscrete 計算A-加權增益值，離散的A-加權頻率值AW(k) 被產生，其中，其中，且其中對於Dolby Digital，取樣頻率Fs通常等於48kHz。然後每一組加權對數功率頻譜值PW(k) 從dB被轉換為線性功率且被求和以產生512個PCM音訊樣本的A-加權功率估計PPOW ，如下：

如前所述，每一Dolby Digital位元流包含由視窗化50%重疊的512個PCM樣本且執行MDCT轉換產生的連續轉換(transforms)。因此，藉由平均在Dolby Digital位元流中橫跨所有轉換的功率值，在一Dolby Digital位元流中低位元率編碼之音訊的總A-加權功率的近似值P _TOT 可被計算，如下：其中M 等於包含在Dolby Digital位元流中轉換的總數。然後平均功率被轉換為dB單位，如下：L _A =10．log₁₀ (P _TOT )-C (7)其中C是在編碼Dolby Digital位元流期間，由於在轉換過程中執行位準改變的一恆定偏移(offset)。

心理聲學測量範例

如本發明方面的另一範例，一加權功率音量測量方法的高度節約形式可使用Dolby Digital位元流和一心理聲學音量測量。在此高度節約的範例中，如先前的範例，僅有包含在Dolby Digital位元流中的量化指數被用於音訊信號頻譜的估計，以執行音量測量。在其他範例中，其避免執行位元分配以重新產生尾數資訊的額外計算需求，另外僅提供稍微較精確的信號頻譜估計。

Seefeldt等人的國際專利申請案PCT/US2004/016964，在2004年5月27日提出申請，於2004年12月23日以WO 2004/111994 A2公開，該申請案指定(designate)美國，該申請案揭露在其他事項之中的基於一心理聲學模型的可感知音量之客觀測量。該申請案的全部在此處被併入參考。由部分解碼Dolby Digital位元流推出的對數功率頻譜值P(k) 可視為一技術的輸入，如在該國際申請案中以及其他類似的心理聲學測量中，而不是最初的PCM音訊。此種安排被顯示在第6b圖的範例中。從該PCT申請案中借用措辭和符號，近似沿著內耳之基膜(basilar membrane)在臨界頻帶b 的能量分佈的激勵信號E(b) 可近似對數功率頻譜值，如下：其中T(k) 代表傳輸濾波器的頻率響應，Hb(k) 代表在對應於臨界頻帶b 的位置上之基膜的頻率響應，兩個響應都在對應於轉換箱(transform bin)k 的頻率上被取樣。下一步，在Dolby Digital位元流中對應於所有轉換的激勵被平均以產生一總的激勵：

利用等響曲線(equal loudness contour)，在每一頻帶的總激勵被轉換為在1kHz產生相同音量的一激勵位準。然後特定音量(橫跨頻率分佈的感知音量測量)從被轉換的激勵(b )中被計算出，經過一壓縮的(compressive)非線性：其中TQ1kHz 是在1kHz時的安靜的(quiet)臨界(threshold)，常數G 和α被選擇以匹配產生自描述音量增長的心理聲學實驗的資料。最後，藉由對橫跨頻帶的特定音量求和，以宋(sone)單位代表的總音量L 被計算出：

出於調整音訊信號的目的，可能會希望計算一匹配增益GMatch ，當與音訊信號相乘時，使得被調整之音訊音量等於由被描述之心理聲學技術所測量的一些參考音量LREF 。因為心理聲學測量包括特定音量計算中的非線性，所以對於GMatch 一閉合形式解(closed form solution)不存在。取代的是，在該PCT申請案中描述之交互技術可被使用，其中，匹配增益的平方被調整且與總激勵(b )相乘，直到對應的總音量L 相對於參考音量LREF 在臨界(threshold)差異之內。然後音訊音量相對於參考以dB被表達為：

其他感知音訊編碼

本發明的層面並不限於Dolby Digital、Dolby Digital Plus和Dolby E編碼系統。利用某些其他編碼系統編碼的音訊信號也有益於本發明，在該等系統中，音訊之功率頻譜的近似值被如比例因數、頻譜包絡和線性預示係數提供，其等可以在沒有完全解碼位元流的情況下從編碼之位元流中被恢復(recover)以產生音訊。

在從Dolby Digital指數中計算功率的誤差

Dolby Digital指數E(k) 代表MDCT頻譜係數之對數的粗略量化。當使用該等值作為一粗略功率頻譜時，存在很多誤差源。

首先，在Dolby Digital中，當比較產生自指數(見上述的方程式1)的功率頻譜值與從MDCT係數中直接計算出的功率值時，量化過程本身導致大約2.7dB的平均誤差。該平均誤差(實驗決定出的)可被合併進上述方程式7中的恆定偏移C 。

其次，在某些信號條件下(如暫態)，指數值被橫跨頻率分組(在上述A/52A文獻中被稱為“D25”和“D45”模式)。此橫跨頻率的分組引起平均指數誤差是較難預料的，且較難去計算合併進方程式7的常數C 。實際上，由於此種分組產生的誤差因為以下兩種原因可被忽視：(1)分組很少被使用且(2)分組使用的信號特性導致的測量平均誤差類似於非平均的情形。

實現

本發明可以在硬體或軟體或二者的組合(如可程式化的邏輯陣列)中被實現。除非另外指定，包括在本發明部分中的演算法或過程不固有地(inherently)與特殊電腦或其他設備有關。尤其是，多種一般用途的機械可與根據此處所教示而寫成的程式一起使用，或其可更方便建立更專門的設備(如積體電路)，以執行要求的方法步驟。因此，本發明可在一個或多個電腦程式中被實現，該等程式在一個或多個可程式化的電腦系統上執行，每一該等電腦系統包含至少一個處理器、至少一個資料儲存系統(包括依電性和非依電性記憶體和(/或)儲存元件)、至少一個輸入設備或埠以及至少一個輸出設備或埠。程式碼被用於輸入資料以執行此處描述之函數且產生輸出資訊。輸出資訊以已知的方式被應用於一個或多個輸出設備。

每一該等程式可以以任何想要的電腦語言(包括機械的、組合的或高階程序的、邏輯的或物件導向程式語言)被實現以與一電腦系統通訊。在任何情形下，該等語言可以是一被編譯過的或被解譯的語言。

需要理解的是，在示範性圖式中顯示的一些步驟或函數執行多個子步驟且還可以多個步驟或函數被顯示，而不是以一個步驟或函數。還需要理解的是，除了顯示在多個圖式中的，在此處多個範例中顯示和描述的多種設備、函數、步驟和過程可被顯示為組合的或個別的方式。例如，當由電腦軟體指令序列實現時，示範性圖式的多個函數和步驟可被執行在合適的數位信號處理硬體中的多線程(multithreaded)軟體指令序列實現，在此情形中，顯示在圖式之範例中的多種設備和函數可對應於軟體指令的部分。

每一該種電腦程式被較佳地儲存在或下載到一可由一個一般或特定用途之可程式化電腦讀取的儲存媒體或設備(如固態記憶體或媒體、磁或光媒體)，用於當儲存媒體或設備被電腦系統讀取以執行此處描述的程序時，配置或操作電腦。本發明的系統還可被認為以配置有一電腦程式的一電腦可讀儲存媒體實現，其中該儲存媒體如此被配置使得一電腦系統以一特定或預設方式操作，以執行此處描述的函數。

本發明的很多實施例已被描述。然而，需要理解的是多種修改仍沒有脫離本發明的精神和範圍。例如，此處描述的一些步驟可以是順序獨立的，從而可以以不同於描述的順序被執行。

101‧‧‧編碼的數位音訊信號

202‧‧‧圖框同步，誤差檢測&圖框解除格式

203‧‧‧指數資料

205‧‧‧對數功率頻譜設備或對數功率頻譜函數

315‧‧‧濾波器組輸出

316‧‧‧激勵設備或激勵函數

318‧‧‧特定音量設備或函數

320‧‧‧求和器或求和函數

500‧‧‧方塊圖

502‧‧‧部分解碼設備或函數

503‧‧‧解碼之資訊

504‧‧‧測量音量設備或函數

505‧‧‧音量測量

600、610‧‧‧方塊圖

601‧‧‧修改過的加權濾波器或加權濾波函數

602‧‧‧功率頻譜

603‧‧‧轉換、求和&平均設備或函數

611‧‧‧修改過的傳輸濾波器或濾波函數

613‧‧‧修改過的聽覺濾波器組或濾波器組函數

101．．．編碼的數位音訊信號

500．．．方塊圖

502．．．部分解碼設備或函數

503．．．解碼之資訊

504．．．測量音量設備或函數

505．．．音量測量

Claims

一種用於測量編碼成一位元流之音訊音量之方法，該位元流包括可在沒有完全解碼該音訊的情況下推導出該音訊之一功率頻譜的一近似值之資料，該資料包括該音訊的粗略表示以及相關聯的該音訊的較精細表示，該粗略表示係從包含比例因數、頻譜包絡、以及線性預示編碼的一群組中選出，該方法包含以下步驟：在沒有完全解碼該音訊的情況下，自該位元流之該音訊的該粗略表示推導出該音訊之該功率頻譜的該近似值，以及響應於該音訊之該功率頻譜之該近似值來判定該音訊音量之一近似值。
如申請專利範圍第1項所述之方法，其中編碼成一位元流之該音訊係具有多數個頻率子頻帶之子頻帶編碼音訊，每一子頻帶具有一比例因數和相關聯的樣本資料，且其中該音訊的粗略表示包含比例因數，而相關聯的該音訊的較精細表示包含與每一比例因數相關聯的樣本資料。
如申請專利範圍第2項所述之方法，其中每一子頻帶的比例因數和樣本資料由指數記法代表在該子頻帶中的頻譜系數，其中該比例因數包含一指數，而該有關的樣本資料包含尾數。
如申請專利範圍第1項到第3項中任一項所述之方法，其中該位元流係一AC-3編碼位元流。
如申請專利範圍第1項所述之方法，其中該編碼成一位元流的該音訊是線性預示編碼音訊，其中該音訊的粗略表示包含線性預示係數，而該音訊的較精細表示包含與該等線性預示係數有關的激勵資訊。
如申請專利範圍第1項所述之方法，其中該音訊的粗略表示包含至少一頻譜包絡，而該音訊的較精細表示包含與該至少一頻譜包絡相關聯的頻譜成分。
如申請專利範圍第1項到第3項中任一項所述之方法，其中響應於該音訊之該功率頻譜之該近似值來判定該音訊之一近似音量包括利用一加權功率音量測量。
如申請專利範圍第7項所述之方法，其中該加權功率音量測量使用一濾波器，該濾波器不加強較少可感知的頻率且隨著時間平均經濾波之音訊的功率。
如申請專利範圍第1項到第3項中任一項所述之方法，其中響應於該音訊之該功率頻譜的該近似值來判定該音訊之一近似音量包括利用一心理聲學音量測量。
如申請專利範圍第9項所述之方法，其中該心理聲學音量測量使用人耳的一模型以決定在類似於人耳臨界頻帶之複數個頻帶的每一個頻帶中的特定音量。
如申請專利範圍第2或3項中任一項所述之方法，其中響應於該音訊之該功率頻譜的該近似值來判定該音訊之一近似音量包括利用一心理聲學音量測量，且其中該等子頻帶類似於人耳的臨界頻帶且該心理聲學音量測量使用人耳的一模型以決定在每一該等子頻帶中的特定音量。
一種用於測量編碼成一位元流之音訊音量之裝置，該位元流包括可在沒有完全解碼該音訊的情況下推導出該音訊之一功率頻譜的一近似值之資料，該資料包括該音訊的粗略表示以及相關聯的該音訊的較精細表示，該粗略表示係從包含比例因數、頻譜包絡、以及線性預示編碼的一群組中選出，該裝置包含：推導裝置，其在沒有完全解碼該音訊的情況下自該位元流之該音訊的該粗略表示推導出該音訊之該功率頻譜的該近似值，以及判定裝置，其響應於該音訊之該功率頻譜之該近似值來判定該音訊音量之一近似值。
如申請專利範圍第12項所述之裝置，其中編碼成一位元流之該音訊係具有多數個頻率子頻帶之子頻帶編碼音訊，每一子頻帶具有一比例因數和相關聯的樣本資料，且其中該音訊的粗略表示包含比例因數，而相關聯的該音訊的較精細表示包含與每一比例因數相關聯的樣本資料。
如申請專利範圍第13項所述之裝置，其中每一子頻帶的比例因數和樣本資料由指數記法代表在該子頻帶中的頻譜系數，其中該比例因數包含一指數，而該有關的樣本資料包含尾數。
如申請專利範圍第12項到第14項中任一項所述之裝置，其中該位元流係一AC-3編碼位元流。
如申請專利範圍第12項所述之裝置，其中該編碼成一位元流的該音訊是線性預示編碼音訊，其中該音訊的粗略表示包含線性預示係數，而該音訊的較精細表示包含與該等線性預示係數有關的激勵資訊。
如申請專利範圍第12項所述之裝置，其中該音訊的粗略表示包含至少一頻譜包絡，而該音訊的較精細表示包含與該至少一頻譜包絡相關聯的頻譜成分。
如申請專利範圍第12項到第14項中任一項所述之裝置，其中響應於該音訊之該功率頻譜之該近似值來判定該音訊之該近似音量的該判定裝置包括施用一加權功率音量測量的施用裝置。
如申請專利範圍第18項所述之裝置，其中該加權功率音量測量使用一濾波器，該濾波器不加強較少可感知的頻率且隨著時間平均經濾波之音訊的功率。
如申請專利範圍第12項到第14項中任一項所述之裝置，其中響應於該音訊之該功率頻譜的該近似值來判定該音訊之該近似音量的該判定裝置包括應用一心理聲學音量測量之一應用裝置。
如申請專利範圍第20項所述之裝置，其中該心理聲學音量測量使用人耳的一模型以決定在類似於人耳臨界頻帶之複數個頻帶的每一個頻帶中的特定音量。
如申請專利範圍第13或14項中任一項所述之裝置，其中響應於該音訊之該功率頻譜的該近似值來判定該音訊之一近似音量包括利用一心理聲學音量測量，且其中該等子頻帶類似於人耳的臨界頻帶且該心理聲學音量測量使用人耳的一模型以決定在每一該等子頻帶中的特定音量。
一種適應於執行如申請專利範圍第1項到第11項中任一項所述之方法的裝置。
一種儲存在一電腦可讀式媒體之電腦程式，其可造成一電腦執行如申請專利範圍第1項到第11項中任一項所述之方法。