TWI600273B

TWI600273B - 即時調整音訊訊號之響度的系統與方法

Info

Publication number: TWI600273B
Application number: TW102112956A
Authority: TW
Inventors: 約翰崔斯
Original assignee: Ｄｔｓ股份有限公司
Priority date: 2012-04-12
Filing date: 2013-04-12
Publication date: 2017-09-21
Also published as: TW201347404A; WO2013154823A3; US9559656B2; US9312829B2; WO2013154823A2; US20130272543A1; US20130272542A1

Description

即時調整音訊訊號之響度的系統與方法

本發明是有關於一種音訊訊號的調整系統及其方法，且特別是有關於一種即時調整音訊訊號的響度的系統及其方法。

一個由許多電視觀眾提出的抱怨，是播放節目和廣告的音量的改變以及不同頻道做切換時的音量也不同。類似的音量變化劇烈的情況也發生在其他裝置上，例如，可攜式影音播放器(Portable audio players)、音訊影音接收器(Audio/video receiver)、個人電腦(Personal computer)和車用通訊系統(Vehicle audio system)。一個解決此問題的方法是自動增益控制(Automatic gain control；AGC)。一個典型的自動增益控制的運作是藉由切割音訊訊號較高的振幅然後提高音訊訊號較低的振幅來反應音量的改變，而且，無論響度尖峰發生在哪個頻率範圍都可以運作。

當AGC作用時，不必要的改變和不自然的音效會以抽氣的波動(Pumping fluctuations)和呼吸的波動(Breathing fluctuations)的形式常常被觀眾聽到。抽氣的波動是因為當響度突然增加，例如一個大聲的動作場面，低音調(Bass tone)消失時而發生。呼吸的波動是因為當低位準的喃喃聲被拉高而經過一個安靜的通道時而發生。不巧的是，這些蠻力式的音量變化調整方法，並未考量人耳如何實際去察覺音量的變化。

在一些特定實施例中，調整音訊訊號的響度(loudness of an audio signal)的方法包括接收音訊訊號和將前述音訊訊號分割到多個訊框(frames)。前述方法包括對前述訊框中的單一訊框，藉由一或多個處理器(processor)對前述訊框中多個取樣的區塊(blocks of samples)測量多個初始響度值(initial loudness values)，以產生多個初始響度值。前述方法也可包括計算至少前述訊框中至少部分的初始響度值的加權平均，來對前述訊框產生調整過響度值。前述加權平均的多個權重可以至少部分地基於前述初始響度值的新舊程度(recency)以及前述初始響度值的變異數(variation)中的一項或兩項來做選擇。前述方法可更包括至少部分地基於調整過響度值來調整前述音訊訊號的響度。

在多個實施例中，調整音訊訊號的響度的系統可包括響度分析模組(Loudness analysis module)，前述響度分析模組包括一個或多個處理器。前述響度分析模組可存取音訊訊號的訊框，前述訊框包括音訊訊號的多個取樣(samples)以及對前述訊框中多個取樣的視窗測量多個響度值，以產生多個響度值。響度分析模組可更包括計算至少部分前述響度值的加權平均，以產生調整過響度值。加權平均的多個權重可至少部分地基於下列一個或多個來選擇：前述響度值的時間以及前述響度值的偏差。調整音訊訊號的響度的系統也可包括一動態控制模組，前述動態控制模組配置為至少部分地基於前述調整過響度值來調整前述音訊訊號的響度。

在某些實施例中，一調整音訊訊號的響度的方法可包括取樣音訊訊號以產生多個取樣的區塊、對前述音訊訊號中多個取樣的區塊測量多個初始響度值以產生多個初始響度值，以及至少部分地基於前述初始響度值而計算被應用到前述音訊訊號上的多個增益值。前述方法也可包括計算前述初始響度值的加權平均或前述增益值的加權平均。加權平均的多個權重可至少部分地基於前述初始響度值的新舊程度和變異數或前述增益值中一項或兩項來做選擇。前述方法可更包括至少部分地基於前述計算的增益值和加權平均來調整前述音訊訊號的響度。

前述發明的揭露內容、特定觀點、優點和新穎的特色的目的已於此描述。值得了解的是，並非所有優點皆可根據任何前述發明的特定的實施例來實現。因此，前述揭露內容於此可能以一方式被實施或執行，前述方式達到一或多個於此傳授的優點而未必達前其他於此傳授的優點。

100‧‧‧廣播系統

110‧‧‧CBS

111‧‧‧ESPN

112‧‧‧HBO

120‧‧‧廣播頭端

130‧‧‧區域頭端

131‧‧‧區域頭端

132‧‧‧區域頭端

140‧‧‧客戶

141‧‧‧客戶

142‧‧‧客戶

143‧‧‧客戶

144‧‧‧客戶

145‧‧‧客戶

200A‧‧‧音訊處理系統

200B‧‧‧音訊處理系統

210‧‧‧音訊輸入訊號

215‧‧‧成框模組

220‧‧‧響度分析模組

225‧‧‧知覺資訊內容估計模組

230‧‧‧動態控制模組

235‧‧‧混波器

238‧‧‧限制器模組

240‧‧‧音訊輸出訊號

300‧‧‧響度判定系統

305‧‧‧音訊輸入訊號

310‧‧‧K型濾波器

311‧‧‧擱架式濾波器

311’‧‧‧脈衝響應示意圖

312‧‧‧RLB濾波器

312’‧‧‧脈衝響應示意圖

315‧‧‧通道

320‧‧‧功率計算器模組

325‧‧‧方均值

330‧‧‧加權係數

340‧‧‧加總

345‧‧‧初始量測響度

350‧‧‧初始響度計算器

360‧‧‧適應性閘控模組

365‧‧‧閘控量測響度

400‧‧‧程序

402‧‧‧區塊

404‧‧‧區塊

406‧‧‧區塊

408‧‧‧區塊

410‧‧‧區塊

412‧‧‧區塊

414‧‧‧區塊

420‧‧‧圖表

423‧‧‧視窗

424‧‧‧視窗

425‧‧‧視窗

426‧‧‧視窗

430‧‧‧圖表

432‧‧‧加權方案

434‧‧‧加權方案

500‧‧‧圖表

510‧‧‧區域

600‧‧‧圖表

602‧‧‧曲線

604‧‧‧曲線

606‧‧‧曲線

608‧‧‧曲線

610‧‧‧區域

612‧‧‧點

614‧‧‧點

710‧‧‧傅立葉轉換模組

720‧‧‧頻帶分割模組

721‧‧‧臨界頻帶

722‧‧‧臨界頻帶

723‧‧‧臨界頻帶

724‧‧‧臨界頻帶

730‧‧‧調變頻譜相關性模組

800‧‧‧濾波器組

802‧‧‧帶通濾波器

於圖示中，相同的參考標號可能被重複使用以指出多個參考元素間的相應性。所提供之圖式用於描述本發明的多個實施例，但不限定本發明的範圍。

圖1繪示一個廣播系統的實施例。

圖2A繪示一個即時調整音訊訊號的響度的系統的實施例。

圖2B繪示另一個即時調整音訊訊號的響度的系統的實施例。

圖3A繪示一個即時判定音訊訊號的響度的系統的實施例。

圖3B繪示一個頻率加權濾波器的實施例。

圖3C-3D繪示一個在圖3B的濾波器的頻率響應的例子。

圖4A繪示一個即時測量音訊訊號的響度的程序的實施例。

圖4B繪示一個圖表顯示音訊訊號間部分重疊片段的例子。

圖4C繪示一個圖表顯示多個加權音訊訊號的示範例子。

圖5繪示一個圖表顯示多個音訊訊號的加權的示範例子。

圖6繪示一個圖表顯示即時判定多個音訊訊號的響度的例子。

圖7A繪示一個即時決定多個音訊訊號的資訊內容的系統的實施例。

圖7B繪示一組近似於人耳所使用之濾波器的聽覺濾波器的頻率響應的例子。

簡述

現有的法規，例如，商業廣告響度減災法(Commercial advertisement loudness mitigation；CALM Act)，要求廣播(Broadcast)和有線電視台(Cable television stations)採用工業技術標準(Industry technology standard)，以確保廣告不會比一般電視節目大聲。一些音量控制系統試圖考慮音訊訊號的響度到決定如何變化增益值當中。響度可以是聽覺系統(Auditory system)的一種屬性，前述聽覺系統可以允許在從安靜到大聲的規模(scale)上對聲音的分類。響度可以dB為單位或其他單位(例如封(phon))來被測量。

音訊或影音的節目，例如電視節目(Television programming)、網路串流媒體(Internet streaming)等等藉由內容提供者(Content provider)提供或串流到廣播中心(可以被當作廣播頭端(Broadcast head end))。一些節目可能是現場轉播，而且，前述節目是廣播給觀眾即時收看。其他的節目雖然不是現場直播，仍被串流到前述廣播中心，而且可以在廣播中心被即時處理。雖然，節目可以用任意的形式被提供，例如，未壓縮(uncompressed)或壓縮(compressed)和未壓縮混合使用的節目，通常是壓縮過的節目被提供。前述節目可包括廣告，而且，為了符合前述規定，前述廣告的響度可能需要被調整。即時進行響度的調整，而無需先存取整部節目(例如，電視節目的整部影集、整部新聞廣播、或整部電影等等)是較方便的。

本揭露內容描述一些即時調整音訊訊號的響度的系統以及方法。前述系統以及方法利用到的技術包括基於各種準則執行響度測量的加權以更精確追蹤多個暫態響度尖峰(Transient loudness spikes)。額外的技術可包括當在動態範圍上減少前述響度的影響是可行時，增加音訊訊號的適應性分析視窗的大小。此外，這些技術可包含，適應性地放棄所選擇的多個響度測量以達到減少可能在響度調整上代表靜音的雜訊以及多個低位準訊號(Low-level signals)的影響。此外，用來偵測音訊訊號的資訊內容的技術也可以被利用以致能資訊承載(Information-bearing)部分的響度調整。

有利的是，在某些實施例中，應用一個或多個前述技術可以維持或試圖維持對音訊訊號的多個響度調整的透明度(transparency)，並且同時保留對響度改變快速地反應的能力。透明度和知覺上差異的程度或量測量有關，前述差異是介於原始音訊訊號和調整過響度的音訊訊號之間。較高的透明度能夠反映一個情況，即音訊訊號和原始音訊訊號聽起來是沒有區別的。在一些實施例中，應用一個或多個前述的技術特徵也可以減少響度調整在音訊訊號的動態範圍上的影響。

除了具有其普通的含義，前述術語“即時(Real time)”、“即時處理(Real time processing)”等等可以指除了檔案式處理(File-based processing)之外任何處理的形式。檔案式(Filed-based) 的處理，在前述響度調整情況中，可以代表一次對完整音訊檔案或音訊節目執行響度處理。例如，透過計算一個完整節目的總體(overall)響度並且對應地調整響度。另一個例子，檔案式的處理，可以指離線(offline)執行的響度處理，例如隨選視訊(Video on demand；VOD)處理以及隨選音訊和視訊(Audio and video on demand；AVOD)處理等等的情況中。前述術語“即時”、“即時處理”等等，可以但並非一定是指，處理執行時沒有聽眾可察覺到的延遲。此外，這些術語並不一定推伸至現場播放的節目，而更為任何可以被廣播的節目並因此即時地對響度做調整，包括已被儲存為檔案的節目。

響度調整系統範例

參考圖1所示之廣播系統100的實施例。如圖所示，一個或多個內容提供者110、111和112，傳送電視節目到廣播頭端120。在一些實施例中，廣播頭端120可以是一個設施，並且在電視系統中，接收電視訊號以及將所接收的訊號作處理和分配。前述處理可以包括從內容提供者接收到編碼過(encoded)和/或壓縮過(compressed)的內容重新編碼(recoding)、聚合(aggregating)或結合(combining)前述內容以分配訊號下送以及插播多個廣告等等。廣播頭端120可以在沒有使用者介入下自動的操作，或者由使用者介入操作。經由廣播頭端120所處理的內容，可以被分配給一個或多個區域頭端(Regional head end)130、131和132。區域頭端可以更進一步對前述內容執行處理，包括插播以特定區域或地區為目標的廣告。如圖所繪示，前述區域頭端分配最後的節目到一個或多個客戶140-145。前述廣播頭端120和/或多個區域頭端130-132可能包括一個或多個處理裝置，例如，多個接收器(receivers)和/或多個伺服器(servers)。

在一些實施例中，廣播頭端120以即時、近似即時或類似的方式廣播節目。例如，前述廣播頭端120在操作節目前，可能沒有對完整節目進行存取，而是替代地，當從內容提供者接收節目時播放前述節目。如前述的，在節目被處理前即儲存(storing)或緩衝(buffering)完整節目(例如數位檔案)，是可以被視為檔案式操作。藉由區域頭端所執行的處理，可以為檔案式處理、即時式處理或檔案式與即時式的混合處理。

參考圖2A，是顯示即時調整音訊訊號的響度的音訊處理系統200A的實施例。音訊處理系統200A可實現在任何處理和/或重新產生音訊的機器，例如，頭端裝置(例如，接收器、伺服器、電腦和其他類似的裝置等等)或使用者裝置(User device)(例如電腦、機上盒(Set top box)、電視、攜帶型影音播放器(Portable audio player)、耳機、音訊影像接收器(Audio/video receiver；A/V receiver)、車輛語音系統(Vehicle audio system)和其他類似裝置等等)。雖然在一些實施例中，音訊處理系統200A是實現在廣播頭端120，然而音訊處理系統200A可以實現在一個區域頭端130-132或任何其它處理和/或重新產生音訊的機器。有利的是，在某些實施例中，音訊處理系統200A藉由調整音訊輸入訊號210的響度，來試圖維持其響度在一定的位準。例如，當一廣告開始播放時，音訊處理系統200A會試圖維持電視音訊在一定響度。音訊處理系統200A可利用即時的方式來執行前述功能。

如圖2A所示，音訊處理系統200A接收音訊輸入訊號210。音訊輸入訊號210可以包括一個或多個頻道。舉例而言，兩個頻道如立體聲聲道(Stereo channel)、5.1、6.1或7.1環繞聲道(Surround sound channel)，或矩陣編碼的通道(Matrix encoded channels)如圈形環繞聲編碼通道(Circle surround encoded channels)或類似的。音訊輸入訊號210可以是一個電氣訊號或類似的以表示一個真正的、實體的聲音，例如，音樂、聲音、效果音(effects)或者相關的組合等等。

響度分析模組(Loudness analysis module)220可包括硬體和/或軟體以用於即時的判定或估計音訊輸入訊號210的響度。在某些實施例中，響度分析模組220應用一個或多個如下提到的響度估計的技術標準：進階電視標準委員會(Advanced Television Systems Committee；ATSC)，Inc的ATSC A/85、國際電信聯盟(International Telecommunications Union；ITU)的ITU BS.1770-1和國際電信聯盟ITU BS.1770-1-2。ATSC A/85、ITU-R BS.1770-1和ITU-R BS.1770-1-2，前述標準的全文是以引用方式併入本文中並且構成了本說明書的一部分。例如，國際電信聯盟無線電部門(International Telecommunications Union Radiocommunication Sector；ITU-R)提供的BS.1770-1和BS.1770-2標準中，公開了在音訊訊號持續的期間，透過積分(或在離散時域中進行加總)音訊訊號在音訊訊號通道中經加權的功率來決定音訊訊號的響度，並且還有其他可應用於響度分析模組220的技術。

動態控制模組(Dynamic control module)230可包括用於比較前述響度分析模組220所提供的估計響度以及參考值或目標響度位準(Target loudness level)的硬體和/或軟體。目標響度位準可以當作音訊處理系統200A的內部參考。例如，前述目標位準可以是全範圍的響度(例如，0dB)，因此調整響度到此位準可維持音訊輸出訊號240的動態範圍。在另一個實施例中，前述目標位準可以是位於頭端的操作者(operator)或使用者選擇的任何位準。如果估計響度和目標響度位準不同，動態控制模組230會判定介於估計響度和目標響度位準的位準差異。動態控制模組230可更利用此差異來調整應用至音訊輸入訊號210的增益值。音訊處理系統200A輸出音訊輸出訊號240，而前述音訊輸出訊號240的響度已調整過。音訊輸出訊號240會被分配到區域頭端130-132(在這個案例，音訊處理系統200A是以廣播頭端120來實現)，或音訊輸出訊號240會被直接分配到客戶端(在這個案例，音訊處理系統200A是以區域頭端130-132來實現)。

藉由混波器(mixer)235執行樣本循序處理(Sample by sample)，動態控制模組230可以應用前述響度位準的差異(例如，反映為增益)到音訊輸入訊號210。例如，動態控制模組230可以計算響度位準的逆乘法元素(Multiplicative inverse)來測量增益值並應用增益值到音訊輸入訊號210中。在某些實施例中，提供一個以上音訊輸入時，動態控制模組230可以利用一個以上的混波器235，以應用前述位準差到一個以上的通道。在某些實施例中，為了避免震動(jarring)的響度轉換，動態控制模組230會平滑(smoothing)介於音訊輸入訊號210的樣本之間或多個取樣的區塊之間的轉換。在其它實施例中，前述平滑是藉由加權響度值來執行，其詳述於下。因此，前述混波器235可能輸出或試圖輸出音訊輸出訊號240，而音訊輸出訊號240具有一固定的平均響度位準(Constant average loudness level)或是一實質上固定的平均響度位準。在其它實施例中，音訊輸出訊號240的響度位準可能不是固定的，但可能仍有比音訊輸入訊號210更小的變動幅度。因此，在某些實施例中，音訊處理系統200A會將音訊輸入訊號210轉換為音訊輸出訊號240，而音訊輸出訊號240比音訊輸入訊號210有較低的可變動響度位準。

在一些實施例中，預先處理模組(Pre-processing module，未繪示)可能包括在音訊處理系統200A裡面。預先處理模組可以被配置以接收音訊輸入訊號210。預先處理模組可能包括硬體和/或軟體，用於聚集音訊輸入訊號210的通道(或每個通道)的能量資訊。預先處理模組可更被配置去檢查通道的雜訊(noise)特性。在一個實施例中，使用能量資訊和/或雜訊特性，預先處理模組可以決定至少一個主要通道以藉由響度分析模組220對響度進行分析。更一般的說，預先處理模組可能選擇音訊輸入訊號210的通道的子集合以進行響度分析。在某些實施例中，使用較少的通道(少於全部的通道)去決定響度可以減少計算響度所使用的資源。

圖2B繪示另一個即時調整音訊訊號的響度的音訊處理系統200B的實施例。音訊處理系統200B可被實現在任何處理和/或重新產生音訊的機器，例如頭端裝置(例如，接收器、伺服器、電腦和其他類似的裝置等等)或使用者裝置(例如，電腦、機上盒(Set top box)、電視、攜帶型影音播放器(Portable audio player)、耳機、音訊影像接收器(Audio/video receiver；A/V receiver)、車輛語音系統(Vehicle audio system)和其他類似裝置等等)。雖然在一些實施例中，音訊處理系統200B是藉由廣播頭端120實現，但音訊處理系統200B也可以藉由區域頭端130-132或任何其它處理和/或重新產生音訊的機器實現。有利的是，在某些實施例中，音訊處理系統200B調整音訊輸入訊號210的響度來維持或試圖維持前述響度在一定的位準。例如，當廣告開始廣播時，音訊處理系統200B會試圖維持電視音訊於一定的響度。音訊處理系統200B會用即時的方式來執行前述的功能。

如上所述，前述音訊處理系統200A接收音訊輸入訊號210。此外，如上所述，預先處理模組(未顯示)可包括在一些實施例中。動態控制模組230可以包括硬體和/或軟體，用來比較響度分析模組220所提供的閘控量測響度(Gated measured loudness)365和參考響度位準。參考響度位準可以當作音訊處理系統200B的內部參考。例如，前述參考位準可以被頭端操作器設定，例如為-24dB、-20dB或0dB(或全範圍(Full scale)的響度，使得調整響度到此位準可以來維持音訊輸出訊號240的動態範圍)，或其他適合的值。如果估計響度和參考響度位準不同，動態控制模組230會判定估計響度和參考位準的位準差。動態控制模組230可更使用位準的差異來調整被應用到前述音訊輸入訊號210的增益。

動態控制模組230可以提供前述判定的增益或位準差給限制器模組(Limiter module)238。限制器模組238，藉由減少應用在音訊輸入訊號210的計算增益值以防止或減少音訊輸入訊號210的截波，使得經增益調整的訊號的峰值可以低於截波臨界值(Clipping threshold)。音訊處理系統200B輸出音訊輸出訊號240，而音訊輸出訊號240的響度已調整過。音訊輸出訊號240會被分配到多個區域頭端130-132(在這個案例，音訊處理系統200B是以廣播頭端120來實現)，或音訊輸出訊號240會被直接分配到客戶端(在這個案例，前述音訊處理系統200B是以區域頭端130-132來實現)。在混波器235執行樣本循序處理的基礎上，限制器模組238可以應用響度位準差(例如，反映前述增益)到音訊輸入訊號210。在某些實施例中，當有一個以上的音訊輸入的通道時，限制器模組238可以利用一個以上的混波器235，以便應用位準差到一個以上的通道。

在某些實施例中，為了避免震動的響度轉換，動態控制模組230和/或限制器模組238會平滑介於音訊輸入訊號210的多個取樣的區塊或樣本之間的轉換。在其它實施例中，前述平滑程序是藉由加權響度值而實現，具體描述請參照後述。因此，混波器235會輸出或試圖輸出具有固定平均響度位準或實質上具有固定平均位準響度的音訊輸出訊號240。在其它實施例中，音訊輸出訊號240的響度位準可能不是固定的，但仍比音訊輸入訊號210的響度具有更小的變動幅度。因此，在某些實施例中，前述音訊處理系統200B可以轉換前述音訊輸入訊號210為音訊輸出訊號240，且前述音訊輸出訊號240比前述音訊輸入訊號210有較小變動的響度位準。

成框模組(Framing module)215可包括硬體和/或軟體，用於即時處理以緩衝音訊輸入訊號210的片段。在一些實施例中，音訊輸入訊號210是電視節目的串流或網路串流等等，而且成框模組215可緩衝電視節目的片段。前述片段可包括多個取樣。在某些實施例中，雖然不同的訊框長度，例如少於12秒或超過12秒，比方說20秒、30秒、45秒或60秒等等可以被利用，但訊框的長度為12秒或約12秒。在一些實施例中，訊框的長度可以如下面描述般進行調整或變化。

響度分析模組220可以包括硬體和/或軟體，以即時判定和估計前述音訊輸入訊號210的響度。在某些實施例中，響度分析模組220實現一個或多個提供於ITU-R BS.1770-2標準中的響度估計技術。參考圖3A，在一些實施例中，響度分析模組220包括用於即時判定音訊訊號的響度的系統300。如圖所繪示，響度判定系統300可操作在已成框的音訊輸入訊號210中的多個通道305，例如，左聲道(Left channel；L)、右聲道(Right channel；R)、中心通道(Center channel；C)、左環繞聲道(Left surround；LS)以及右環繞聲道(Right surround；RS)。在其它實施例中，響度判定系統300可以操作在更少或更多數量的通道和/或不同於那些如圖3A所繪示的通道。

響度判定系統300應用音訊輸入訊號305的濾波器310。如圖所繪示，濾波器310可以被應用到已成框的音訊輸入訊號210的每個通道305。在某些實施例中，如圖3B所繪示，前述濾波器310執行音訊輸入訊號305的二級式(Two-stage)頻率加權。第一級濾波器311可解釋將人頭塑造為固體球形時的音效效果。第一級濾波器311的脈衝響應311'示於圖3C。如圖所繪示，在一個實施例中，第一級濾波器311是一個擱架式濾波器(SHELVING FILTER)或等化器，並配置用來提升較高的頻率(例如，提供高頻增強)。 ITU-R BS.1770-1-2標準(2011年03月的版本)的第4頁已提供前述第一級濾波器311的係數。參考圖3B，第二級濾波器312應用修改過的低頻B-加權的加權曲線(Revised low-frequency B-weighting weighting curve；RLB加權曲線)。第二級RLB加權濾波器312的脈衝響應312'示於圖3D。如圖所繪示，在一個實施例中，前述第二級濾波器312是高通濾波器。ITU-R BS.1770-1-2標準(2011年03月的版本)的第5頁已提供第二級濾波器312的係數。

參考圖3A，已經濾波的通道315可以被提供給功率計算器模組320，而功率計算器模組320會計算出已濾波的輸入訊號的方均值325或平均功率。在某些實施例中，功率計算器模組320是按照下列的方程式或者方程式的變化型計算方均值：

其中，N是音訊輸入訊號210的持續時間或時間間隔(例如，在一個訊框中的取樣數量)。響度判定系統300會經由訊框的長度(前述長度可以藉由時間間隔N測得)並根據下列方程式或方程式的變化型(至少部分地包括對數的版本)來計算初始量測響度345：

其中G_i是用於通道的多個加權係數330。因此，初始量測響度345可以透過加總340方均值325後以及(選擇性的)利用常數值(-0.691)調整總合。在一個實施例中，加權係數330可以由下列參數來選擇：G_L=1.0(0dB)、G_R=1.0(0dB)、G_C=1.0(0dB)、G_LS=1.41(或1.41~1.5dB)和G_RS=1.41(或1.41~1.5dB)。其它適合用作加權係數330的值也可以被使用。在一個實施例中，初始量測響度345可以使用單位“LKFS”來表示，其代表響度、K-加權以及相關於全範圍(Loudness,k-weighted,relative to full scale；LKFS)。如果方程式(2)有使用到對數運算來求和，響度可以用dB表示。例如，如果頻率為1kHz且為0dB的全範圍正弦波被用來當作音訊輸入210，則它的響度相當於-3.01LKFS。然而，在一些實施例中，響度不需要用分貝來表示。

在一些實施例中，為了計算前述閘控量測響度365，響度判定系統300可以劃分或分割音訊輸入訊號210的每個訊框到一組重疊的視窗或區塊中。在一個實施例中，前述視窗可以是等長的(雖然這不是必需的)，而重疊的部分可以是75%。如圖4B所繪示的，是根據一個實施例顯示音訊訊號的重疊視窗的圖表420。視窗423、424、425和426重疊的長度為75%或約75%。在另一個實施例中，可以使用不同的重疊比例，例如10%、25%、50%或其它比例等等。在一個實施例中，視窗423、424、425和426的持續時間為400毫秒或近似400毫秒到最近的取樣。在另一個實施例中，不同的持續時間可以被選擇，例如，100毫秒、150毫秒、200毫秒和其他等等。前述視窗的持續時間和/或重疊的選擇可以取決於音訊輸入訊號210的取樣頻率。例如，對於取樣頻率為48kHz的音訊輸入訊號210，400毫秒是一個適合的視窗長度。如下面提到的，在某些實施例中，濾波310和功率計算320的運作可以執行在重疊的視窗中。換句話說，響度判定系統300會對每個重疊視窗判定初始量測響度345。在某些實施例中，如前面提到的，音訊輸入訊號210的訊框也會重疊(overlapping)，使得音訊輸入訊號210的多個滑動訊框(Sliding frame)得以被分析。

功率計算模組(Power calculator module)320可以根據下列方程式計算每個重疊視窗的方均值：

其中，Z_ij是音訊輸入訊號210中的第i個通道的第j個時間間隔(或訊框)的方均值，步階(step)等於(1-重疊比例)，N_g是在子訊框的持續時間(例如，取樣的數量)，而j是從一組值範圍為[0、1、2、…、(N-N_g)/(N_g*step)]之中來選。第j個子訊框的初始量測響度345可以根據下列的方程式或類似的方程式來計算：

適應性閘控

圖3A的適應性閘控模組360執行初始量測響度345的適應性或動態閘控處理。在某些實施例中，適應性閘控模組360採用二級式(Two-stage)的處理流程。圖4A繪示即時決定響度的程序400，而前述程序400可以藉由適應性閘控模組360來執行。參考圖4A，在區塊402中，音訊輸入訊號210的訊框被劃分或分割為多個視窗。在區塊404中，程序400測量或計算在訊框中的每個視窗的瞬時響度L_Wk。在一個實施例中，這些計算可以利用方程式(2)和/或方程式(4)被執行。在一個實施例中，使用持續時間為400毫秒、重疊部分為75%的視窗，並且每100毫秒計算一個新的響度值L_Wk。在區塊406中，執行適應性閘控的第一級，其中每個視窗的響度會與響度臨界值比較。響度臨界值可以被選來反映並丟棄可能是安靜和/或低位準雜訊的週期的響度值。在一個實施例中，響度臨界值可以被選為-70dB(或-70LKFS)，或約-70dB。在其它實施例中，可能會使用不同的響度臨界值，例如，-80dB或小於-80dB，-65dB、小於-65dB或大於-65dB等等。適應性閘控的第一級可以被視為絕對臨界值，因為對於大多數或所有的視窗而言，響度臨界值可能是相同的。

在區塊406中，程序400丟棄(例如，不包括從進一步的程序)響度低於響度臨界值的視窗。前述丟棄行為之所以被執行，是因為這些視窗可能包含無法被聽眾分辨的音訊資訊，而且前述音訊週期不應在計算音訊輸入訊號210的響度時被考量進去。在區塊408中，程序400決定音訊輸入訊號210的訊框的平均響度。在一個實施例中，程序400利用下面的方程式或類似的方程式決定平均響度：

其中，M是訊框中重疊視窗的數量，而L_Wk是第k個視窗的量測響度。

在某些實施例中，適應性閘控的第二級參與執行適應性或動態相對閘控操作(前述操作可以是訊號相依)。有利的是，適應性相對閘控可估計至少部分暫態事件，而暫態事件可以反映音訊輸入訊號210的響度突然的、非常大的變化。例如，在音訊訊號中，一個響亮的部分(如爆炸)或相反的部分可能會緊接有一個較為安靜的部分(如耳語)。另一個例子是，一段廣告可能被插播至音訊串流之中，而且廣告的相對響度可能大於串流音訊內容的響度。音訊處理系統200A和/或200B需要去追蹤暫態事件(例如，從響度高到響度低的狀態)，並且在調整音訊輸入訊號的響度時，把前述暫態事件造成的響度差異考量進去。其中一個原因是，這樣做可以提供更大的透明度和維持前述訊號的動態範圍。

另一個使用適應性相對閘控的原因是，在音訊訊號的即時處理期間，音訊處理系統200A和/或200B可以不用存取完整的音訊節目(例如，完整電視節目或完整廣告等等)。代替的，前述處理是執行於音訊串流的片段，而且前述片段可能包括具有不同響度值的音訊內容，例如，電視節目的一部份和廣告的一部份。如果完整的音訊串流可以獲得，對每一個不同的部分而言，利用靜態響度校正技術(Static loudness correction techniques，例如檔案式調整)來測量那些被結合或組合的內容的響度，是可以被分開執行的。例如，根據ITU BS.1770-2中所描述，閘控響度L_KG可以利用臨界值而被決定，並且前述臨界值是藉由從多個大於絕對臨界值(例如-70LKFS)的響度量測值中減去一個常數(例如，10LKFS)所獲得。然而，當靜態校正技術應用在即時處理時，可能會判定出不準確的響度值。將響度校正建立在不正確的響度值上會不利地影響音訊輸入訊號210的響度校正。

利用適應性相對閘控的另一個原因是可以維持音訊處理系統200A和/或200B合適的響應性(responsiveness)。雖然一般而言是希望去執行響度調整時以讓安靜的期間不對調整造成實質上的影響，但對音訊處理系統200A和/或200B而言，對響度的變化 (如從高響度到低響度的狀態)快速地反應並且對應地調整響度也是有利的。例如，在一個高響度的廣告之後，若一個相對安靜的部分的開頭被隨即播放時，音訊處理系統200A和/或200B會辨識到響度突然的變化，然後藉由調整(例如，提高響度)音訊輸入訊號210的響度來快速反應。

程序400在區塊410和區塊412中執行適應性閘控。在一個實施例的區塊410中，程序可以從最後測得的閘控量測響度365來動態決定目前訊框(例如，在區塊408中所計算的訊框)的平均響度值的偏差，較大的偏差可能表示有暫態事件的發生，而程序400可能需要去迅速的反應。前述偏差可以透過下面的方程式或類似的方程式來測量：

其中，L_Wk是多個訊框中的多個視窗的響度(在區塊404中被測量)，是目前訊框的平均響度值，C₁是一個常數(例如，10dB或其它適合的值)，而且△是介於瞬間響度值(例如，在區塊404中計算)和先前所決定的閘控量測響度值L_GMR(例如，對一個緊接在前的訊框進行決定)之間的一個累計差異。在一些實施例中，前述累計差異△被下界(Lower bound)和/或上界(Upper bound)所限制。例如，前述下界可以是0(因此設定適應性閘控的上界範圍至常數C₁)或其它適合且小於或大於0的值(例如，-10、-5、-1、1、2、5或10等等)。另一個例子，前述上界可以是-40dB或其他適合且小於或大於-40dB的值(例如，-20dB、-25dB、-30dB、-35dB、45dB、-50dB或-55dB等等)。因此，在一個實施例中，響度輸出和適應相對閘控之間的差異可以規範在約-10dB(例如，根據前述BS1770-2規範)到約-40dB(不同於前述BS1770-2規範)之間。其它範圍也是可能的。在某些實施例中，前述偏差可利用下面的方程式或類似的方程式而可以被決定：

其中是目前訊框的平均響度值，C₁是一個常數(例如，10dB或其它適合的值)，而且，△是介於平均響度值和先前所決定的閘控測量響度L_MGR(例如，對緊接在前的訊框進行決定)之間的累積差異。方程式(7)的偏差(deviation)△可以如前述所限制。在一個實施例中，方程式(6)和/或方程式(7)的偏差△可以分別表示介於瞬間響度和先前所決定的閘控量測響度365之間的差異或介於平均響度值和先前所決定的的閘控量測響度365之間的差異，而不需要去累積差異。在初始化時，先前所決定的閘控量測響度365可以被設定為合適初始值，例如，平均響度值(例如，在區塊408中計算)。

在一些實施例中，偏差△是介於瞬間響度值L_Wk(例如，在區塊404中決定)和目前訊框的平均響度值(或是，先前的訊框，像是緊接在前的訊框)之間的累積差異。偏差△可以如前述般被限制。在一個實施例中，偏差△可以表示為沒有累積的差異。

在區塊412中，程序400從訊框的計算中丟棄多個視窗，其中該些視窗的響度(例如，在區塊404中計算)是低於在區塊410中所決定之訊框的適應性相對閘控響度。前述視窗可能包含無法由聽眾分辨的音訊資訊(例如，安靜和/或雜訊的期間)，而且，當計算音訊輸入訊號210的響度時，前述的音訊期間不應該被考慮進去。

在一些實施例中，適應性閘控的第二級沒有被執行。代替的，在區塊406中未被丟棄的響度值會在區塊414中被利用以計算加權平均。在某些實施例中，適應性閘控的第一級和第二級沒有被執行。代替的，在區塊404中對每個視窗所測量的多個響度值會在區塊414中被利用以計算加權平均。

加權響度值

在區塊414中，程序400決定訊框(或是，一視窗或是一視窗的部分等等)的閘控量測響度365。在一些實施例中，程序400對多個視窗中計算多個響度值的加權平均值，而前述視窗並未在區塊406和區塊412計算中被排除。在一個實施例中，程序400執行時間的加權(例如，基於一個視窗和/或多個視窗中取樣的新舊程度進行加權)。當音訊訊號的視窗被重疊時的情況下，時間的加權可能根據上述並且如圖4B所繪示而被執行。不同形式的加權可以被利用。圖4C為顯示了兩個範例加權方案432和434的圖示430。如圖所繪示，加權方案432是非線性的(non-linear)，而且漸進地分配較大的權重(非線性地計算)給時序上較新的取樣和/或視窗。加權方案432例如是利用下面的方程式或類似的方程式來計算權重：W _Tk=α ^k (8)

其中，α是一個常數，而且，k是取樣指標(Sample index)(在一個視窗中)和/或視窗指標(Window index)。α的值可以被選擇以致於可以在較新的多個取樣和/或視窗上放置合適的增強(emphasis)。在一個實施例中，前述α的值可以被選擇為大於1的值(來強調較新和較舊的多個視窗和/或取樣的對比)。在另一個實施例中，α可以被選擇為小於1的值(來減少強調較新和較舊的多個視窗和/或取樣的對比)。

如圖所繪示，加權方案434是線性的(linear)，而且，漸進地分配較大的權重(線性地計算)給較新的取樣和/或視窗。加權方案434可以例如是利用下面的方程式或類似的方程式，來計算前述權重：W _Tk=C ₂ k+C ₃ (9)

其中C₂和C₃是常數，而且，k是取樣(在視窗中)和/或視窗指標。在一個實施例中，線434的斜率會被改變(例如，藉由選擇合適的C₂的值)，以達到放置合適的增強在較新的多個取樣和/或視窗上。線性和非線性加權的組合可以被使用在一些實施例中。

在某些實施例中，程序400基於從訊框的平均響度值(例如，在區塊408中所計算)所得到的響度值(例如，在區塊404中所計算)的偏差，以執行前述的加權。前述的加權對在快速地反應暫態事件(Transient event)可能是有利的。例如，程序400可以利用下列方程式或類似的方程式來計算權重：

其中β是一個常數、L_K是第k個視窗的量測響度(和/或在視窗中的取樣)以及是訊框的(非加權的)平均響度值。在一個實施例中，β值可被選擇為大於1的值(來強調較近與較舊的多個視窗和/或取樣的對比)。在另一個實施例中，β值可選為小於1的值(來減少較新和較舊的多個視窗和/或取樣的對比)。當從平均響度沒有得到偏差時，根據方程式(10)所計算之權重的值是1。然而，從平均響度值得到較大偏差時，所計算之權重的值也會增加。前述視窗(或取樣)可能對應至暫態事件，而且藉由方程式(10)在閘控量測響度365的計算中從而增強權重。

在一些實施例中，方程式(8)的α值和/或方程式(10)的β值可以基於音訊輸入訊號210的統計值而被調整。統計值，例如，可以藉由音訊輸入訊號210的響度的變異數(例如，藉由標準差所量測或變異數的係數)而被反映。音訊輸入訊號210的響度的變異數可以利用訊框中多個視窗的決定響度(例如，在區塊404中所測量)而被測量。例如，下面標準差的公式或類似的公式可以被利用去估計前述變異數：

其中M是在訊框中重疊視窗的數量、L_Wk是視窗的響度以及是訊框的平均響度值(例如，在區塊408中所計算)。

在一些實施例中，如果訊號的一部份被決定為具有相對恒定或靜態的響度(例如，訊框的響度的變異數被決定是低於一個臨界值)，α和/或β的值會被減少以降低或衰減響度調整的靈敏度，以使響度調整達到對響度的改變上有較慢的反應。另一方面，如果訊號的一部份被決定為有相對動態的響度(例如，訊框的響度的變異數被決定是高於一個臨界值)，則前述α和/或β的值會被增加以增加響度調整的靈敏度，並使響度調整達到對響度的改變上有較快的反應。

在一些實施例中，α和/或β的值可以被改變從5000左右的預設值(提供對動態變化的迅速反應)到217左右(提供較靜態的調整)。在其它實施例中，其他適合的上界和下界可以被使用。例如，如果α和β的值被設定為1，則響度值的加權平均是算術平均值。在一些實施例中，前述α和β的值也可能小於1。在某些實施例中，不同的上界和/或下界可以使用在α和β的值。在一些實施例中，α和β的值可以不同的方式被改變(例如，不同的減少和/或增加的速率)。在一些實施例中，當訊框的響度的變異數被決定是超過前述臨界值時，α和/或β的值會重新設定到預設值(例如，5000)。有利的是，重設動作可確保或試圖確保暫態事件有被音訊處理系統200A和/或200B所知悉。

減少α和/或β的值，可使得音訊處理系統200A和/或200B執行模擬使用靜態響度校正技術或其它應用於較少變動之響度位準的技術的分析。對於具有實質上恆定響度的音訊輸入訊號210的部分，例如某部分的音樂，前述的方法是可行的。減少α和/或β的值可以在前述情形中維持音訊輸入訊號210的透明度。

圖5根據實施例繪示一個圖表500以顯示加權多個音訊訊號的例子。x軸反映時間(單位：秒)，而y軸反映權重的值(例如，W_Mk)。區域510(對應於圖6中區域610的部份)繪示針對暫態事件，例如是音訊輸入訊號210的響度突然且快速地減少，而得到的多個權重。如圖表500所繪示，權重值是對應地增加以解決暫態事件。

參考圖4，在一些實施例中，程序400同時利用前述加權方案以及反映於方程式(9)和方程式(10)的加權方案。

圖6根據實施例繪示一個圖表600顯示即時判定多個音訊訊號的響度的例子。x軸反映時間(單位：秒)，而y軸反映響度的強度(單位：dB)。圖表600描繪音訊輸入訊號210的多個訊框(例如，具有12秒的持續時間)的處理。曲線602代表訊框中多個視窗的瞬間響度L_Wk(在區塊404中測量)。曲線604代表訊框的閘控量測響度(在區塊414中測量)。曲線606代表多個訊框的平均響度值(在區塊408中測量)。曲線608代表適應性相對閘控功能(在區塊410中所決定)。

如圖6所示，曲線604(反映訊框的閘控量測響度)可以密切地追踪音訊輸入訊號210的實際響度，而音訊輸入訊號210的實際響度被反映在曲線602。相反的，在實際響度經歷變化劇烈的區域中，曲線606(可能在一個實施例中，反映現有的響度校正技術)不會密切地追踪音訊輸入訊號210的實際響度。如區域610所示，例如，當前述曲線604更密切地追蹤實際響度時，曲線606卻很顯著地偏離實際響度一大段差距。

在一些實施例中，曲線604密切地追蹤音訊輸入訊號210的實際響度是因為曲線608(用以反映在區塊410中所決定的適應性相對閘控功能)解決迅速改變的實際響度。如圖所繪示，例如，在區域610中具有暫態事件，而暫態事件例如是音訊輸入訊號210的響度突然、快速地減少。暫態事件藉由曲線602從點612的位置(響度在-10dB以上)降低至點614(響度低於-50dB)的位置所反映。前述響度下降發生在很短的一段時間中，而且可能表示電視節目中一個安靜部分的開始。如圖6所示的範例案例，響度在下降至點614後隨之增加，而這可能表示暫態事件的結束。因為曲線608所代表的適應性相對閘控功能通常是低於曲線602，暫態事件藉由程序400所解決。然而，現有的響度判定技術，通常其閘的值是基於以曲線606減去一個常數(例如，-10dB)，因而可能會忽略暫態事件。換句話說，前述靜態響度測量技術(例如，檔案式調整)可能會在響度計算時丟棄暫態事件。因此，經響度調整後的音訊輸入訊號210的透明度會受到不利影響。

適應性訊框長度

在一些實施例中，訊框的持續時間或長度可以藉由音訊處理系統200A和/或200B(例如，代替調整前述方程式(8)中的α 值和方程式(10)的β值)而被改變。例如，訊框的持續時間可以基於音訊輸入訊號210的響度的變異數(例如，藉由前述標準差或變異數的係數所測量)而被調整。音訊輸入訊號210的響度的變異數可以利用訊框中視窗的決定響度而被測量(在區塊404中測量)。例如，公式(11)可以被使用於估計變異數。

在一些實施例中，如果訊框中的響度的變異數被決定是低於一臨界值時，訊框的長度會被增加。換句話說，相對小的響度的變異數可能反映藉由訊框所涵蓋之音訊輸入訊號210部分的響度是相對靜態的。訊框長度的極限可以被設定為例如是48秒或其它適合的值。

增加訊框的持續時間(或擴大前述訊框)可能改善處理效能以及節省存儲空間。此外，增加訊框的持續時間會導致音訊處理系統200A和/或200B執行類似使用靜態響度校正技術的分析。換句話說，當訊框被擴大時，響度調整應用實質上的靜態響度校正。這也許能用在音訊輸入訊號210具有實質上恆定響度的部分，例如，音樂的某些部份。擴大訊框可以在前述的狀況中維持音訊輸入訊號210的透明度。

在某些實施例中，當訊框中的響度的變異數被決定是超過臨界值時，訊框的長度會被減少。訊框長度減少的速度(例如，減少步輻)和訊框長度增加的速度(例如，增加步輻)會有所不同。例如，減少的步幅和增加的步幅相比，差距可能到50倍或其它適合的值。在一些實施例中，當訊框的響度的變異數被決定是高於臨界值時，訊框的長度會被重新設定到初始訊框長度(例如，12秒)。有利的是，前述重設動作可能確保或試圖確保暫態事件由音訊處理系統200A和/或200B所知悉。

知覺資訊內容估計

參考圖2B，知覺資訊內容估計模組(Perceptual information content module)225可決定或估計音訊輸入訊號210(例如，一訊框、一視窗、部分視窗、部分訊框、多數個訊框和多數個視窗等等)的一部分所包含之知覺資訊的數量。知覺資訊內容估計模組225可以估計音訊輸入訊號210的部分中的資訊內容。基於所估計的資訊內容，知覺資訊內容估計模組225可以決定有關於調整音訊輸入訊號210的部分響度的權重，前述權重W_Pk使用在後續提到的公式(12)中。在一個實施例中，如果資訊內容被決定是低於一資訊內容臨界值時，音訊處理系統200B和/或200A可能不會處理前述音訊輸入訊號210的部分。有利的是，在某些實施例中，估計資訊內容可改善系統效能。

例如，音訊輸入訊號210的一部份(例如，訊框)可能包括雜訊，例如，隨機雜訊(Random noise)、背景雜訊(Backgroud noise)或類似的等等，而且知覺資訊內容估計模組225可能決定音訊輸入訊號210的該部份中僅包含一點點或完全不具有資訊內容。在前述情況下，當有前述聽眾無法分辨時，音訊處理系統200B和/或200A會執行一點點或完全不執行響度調整(例如，對視窗或完整訊框設定權重W_Pk為零)。在另一個例子中，知覺資訊內容估計模組225會判定音訊輸入訊號210的一部份包括實質上的資訊量(例如，該部分可能是音樂或演講)。在前述情況下，權重可能會被設定以使前述音訊輸入訊號210的一部份被合適地加強，進而達到響度調整的目的(例如，對於視窗或完整訊框，設定權重W_Pk為一個較大的值)。例如，權重可以和被決定的資訊內容以及資訊內容臨界值之間的差異成比例。例如，音訊訊號具有較多資訊內容的部份可以被分配較大的權重。

圖7A繪示知覺資訊內容估計模組225的一實施例。傅立葉轉換模組(Fourier transform module)710將音訊輸入訊號210的一部分轉換到頻域(Frequency domain)。例如，傅立葉轉換模組710可以對音訊輸入訊號210的一部份執行快速傅立葉轉換(Fast fourier transform；FFT)。對音訊輸入訊號210的該部份而言，任何合適的持續時間，例如是100毫秒、150毫秒或200毫秒等等皆可以被使用。經頻域轉換的音訊輸入部份是藉由模組720進行頻帶分割(band partitioning)。在一個實施例中，頻帶分割模組(Band partitioning module)720藉由模仿人耳聽覺響應的濾波器組對經轉換的音訊輸入執行臨界頻帶分割(Critical band partioning)。例如，頻帶分割模組720會利用重疊和非線性間距的帶通濾波器(Non-linear spaced bandpass filter)(例如，對數化間隔帶通濾波器(Logarithmically-spaced bandpass filter))。如圖7B繪示之濾波器組800的例子，其中繪示的是一組重疊和非線性間距的多個帶通濾波器802。如圖7B顯示，多個濾波器的中心頻率是具有非線性的間距，並且當頻率增加時，間距也會增加。其他適合的濾波器組也可以被使用，例如，珈瑪調似濾波器(Gammatone approximation filter)，前述濾波器被揭露於美國專利公開號2009/0161883，標題為“SYSTEM FOR ADJUSTING PERCEIVED LOUDNESS OF AUDIO SIGNALS,”，前述專利申請日是2008年12月19日，而濾波器在此藉由其原始文件而被搭配地視為參考。

參考圖7A，頻帶分割模組720輸出音訊輸入訊號210的一部份的臨界頻帶資訊(例如，規模)721、722、723和724。臨界頻帶可以是音訊輸入訊號210中經頻域轉換的部分，再經過帶通濾波的成份。臨界頻帶721到724是以遞增的順序被描繪(例如，和臨界頻帶721相比，臨界頻帶724具有較高的階度或覆蓋範圍更大的頻寬)以及臨界頻帶所包括的資訊可以根據時間來排序(例如，在臨界頻帶721的第二取樣可能對應至跟隨在第一取樣之後的音訊訊號取樣)。利用頻帶分割模組720產生適當的臨界頻帶數量，例如，介於20和25之間的頻帶數量、介於15和30之間的頻帶數量或一些其它適合的頻帶數量。由頻帶分割模組720覆蓋的頻率範圍可以是，例如介於20Hz和20kHz之間或一些子集中，前述子集至少覆蓋人類聽覺系統的聽覺範圍的一部分。

臨界頻帶資訊被輸入到調變頻譜相關性模組(Modulation spectrum correlation module)730中，而調變頻譜相關性模組730計算臨界頻帶資訊的相關性(correlation)。在一個實施例中，調變頻譜相關性模組730計算一些或所有臨界頻帶(例如，每個臨界頻帶)對一些或所有其他臨界頻帶的互相關(Cross correlation)。例如，當25個臨界頻帶被使用時，調變頻譜相關性模組730可以計算25×25(即625)個互相關值。在另一個實施例中，調變頻譜相關性模組730可以計算不同編號的互相關值，也就是不計算每個頻帶的自相關性(autocorrelation)(例如，當使用25個臨界頻帶，計算600個互相關值)。調變頻譜相關性模組730可以分析互相關值的相似性。在一個實施例中，一個相當大的相似程度可能表示聽覺輸入訊號210的部分中，至少一些以及潛在性相當高的資訊內容。例如，如果聽覺輸入訊號210的一部分被決定為具有相當大的相似程度，則此一部分可能在由頻帶分割模組720所覆蓋的一些或全部頻帶中具有資訊。這可能表示部分的訊號帶有音訊資訊(例如，音樂或演說等等)。另一方面，非常小或低的相似程度，可能表示聽覺輸入訊號210的一部分有少的資訊內容。例如，如果聽覺輸入訊號210的一部分被決定為具有相當小的相似程度，其可能表示前述部分是雜訊(例如，隨機雜訊如白雜訊(White noise)，且前述雜訊容易有恆定的頻譜密度(Spectral density))。

基於相關性分析，調變頻譜相關性模組730可以決定音訊輸入訊號210一部份的資訊內容。在一個實施例中，調變頻譜相關性模組730可以應用非線性函數來決定相關性，以決定或計算資訊係數(Information coefficient)(例如，權重值)。在另一個實施例中，線性函數可以被使用。資訊係數較佳的是資訊內容的量測值(例如，介於0和1之間)。在另一個實施例中，資訊係數可以是指示資訊內容存在與否的一個二進制的值(例如，0表示很少或根本沒有的資訊內容，1則表示存在資訊內容)。

在一個實施例中，資訊係數可以對應到資訊內容權重W_Pk。參考圖4A，程序400可以如同後續敘述一般地使用由知覺資訊內容估計區塊225所決定的權重W_Pk。參考圖3A，訊框的閘控量測響度365可以藉由程序400在區塊414中利用下列方程式或類似的方程式而決定(假設前述權重被正規化為1)：其中，N是訊框中多個視窗或區塊的數量、α是一個時間加權的係數(如上所述)、β是基於響度值的偏差的係數(如上所述)、W_Pi是基於知覺內容的權重、L_i表示第i個視窗或區塊(例如，L_Wi是在區塊404中計算)的響度以及代表訊框的平均響度值(例如，在區塊408中計算)。在一實施例中，使用400毫秒且重疊率為75%的多個視窗，則每隔100毫秒可計算出一個新的響度值。在某些實施例中，N表示訊框中重疊視窗的數量(例如，4個視窗)，視窗的重疊數量(例如，當400毫秒視窗，且重疊率為75%時，每四個視窗會相互重疊到)等等。在一些實施例中，指標k(使用在一些前述方程式)可用來代替指標i。在多種實施例中，可以對應於一個視窗的平均響度值。

附加實施例

雖然在此描述的主要關於電視廣播，在此描述的系統和方法的特色，可以實現在其他廣播和串流媒體的方案中。例如，前述系統和方法可以被使用於調整無線電廣播音訊訊號的響度，而廣播節目往往有多個廣告穿插。此外，前述系統和方法可以被使用於調整經由網路(如電腦網路(Internet))進行串流或廣播的音訊訊號的響度。

雖然在此描述的主要是關於即時處理，在此描述的系統和方法的特色，可以被使用於檔案式處理。例如，前述系統和方法可以被使用以一次性地調整完整的音訊檔案或音訊節目的響度。作為另一個例子，前述系統和方法可以被使用於在VOD處理、AVOD處理或在類似的期間中調整響度。

雖然在此描述的主要是關於直接使用響度值來執行前述響度調整，前述系統和方法於此描述可以被使用於在不同的領域中執行響度調整。例如，多個增益值可以被決定(例如，基於響度值，如計算響度值的乘積倒數)，以及在加權平均中的加權上使用任何前述的加權技術，而不是直接加權所計算的初始響度值。

結論

根據前述實施例、某些行為、事件或前述演算法的任何的功能於此描述可以執行在不同順序、可能一併被增加、合併或省去(例如，並非所有描述過的動作或事件皆是實踐前述演算法所必需的)。此外，在某些實施例中，動作或事件可能被同時執行，例如，透過多執行緒處理(Multi-threaded processing)、中斷處理 (Interrupt processing)、多個處理器(multiple processor)或多個處理器核心(multiple processor cores)，而不是按順序執行動作或事件。

藉由與揭露於此的實施例作連結而被描述之各種繪示的邏輯區塊、模組以及演算法步驟是可能以電子硬體、電腦軟體或兩者的組合而被實現。為了清楚地說明此硬體和軟體的可互換性，各種說明性元件、區塊、模組和步驟，在前面已從它們功能的角度來描述。不論這些功能是基於前述特定的應用或設計加在整個系統的限制而以硬體或軟體實現。前述的功能可針對每一特定應用以不同的方式來實現，但此類實施決策不應被解釋而導致於與本揭露內容的範圍有所偏離。

由與揭露於此的實施例作連結而被描述之各種繪示的邏輯區塊和模組是可藉由機器而被實現或被執行，例如，通用處理器(General purpose processor)、數位訊號處理器(Digital signal processor；DSP)、應用特定積體電路(Application specific integrated circuit；ASIC)、場可編程閘陣列(Field programmable gate array；FPGA)、其它可編程邏輯裝置(Programmable logic device)、離散閘(Discrete gate)、電晶體邏輯(Transistor logic)、離散硬件元件(Discrete hardware components)或任何關於設計去執行前述功能的組合。通用處理器可能是微處理器(Microprocessor)，但在替代方案中，前述處理器(Processor)可能是處理器、控制器(Controller)、微控制器(Microcontroller)、狀態機(state machine)、前述裝置的組合或類似的裝置。處理器也可以由計算裝置的組合而被實現，例如，DSP與微處理器的組合、多個微處理器、一個或多個微處理器與DSP核心的接合或者任何其它此類配置。

由與揭露於此的實施例作連結而被描述之方法或演算法的多個步驟是可直接實施於硬體、於處理器執行的軟體模組或於前述兩者的組合。軟體模組可能常駐在隨機存取記憶體(Random access memory；RAM)、快閃記憶體(Flash memory)、唯讀記憶體(Read only memory；ROM)、可抹除可程式唯讀記憶體(Erasable Programmable Read only memory；EPROM)、電子式可抹除可程式化唯讀記憶體(Electrically erasable programmable read only memory；EEPROM)、暫存器(Register)、硬碟(Hard disk)、隨身碟(Removable disk)、唯讀記憶光碟(Compact Disc Read-Only Memory；CD-ROM)或本領域中已知的任何其它形式的儲存媒體。示範儲存媒體可被耦合到處理器，使得處理器能夠從儲存媒體讀取訊息，以及將訊息寫入到儲存媒體中。在替代方案中，儲存媒體可整合到處理器裡。處理器和儲存媒體可能常駐在ASIC中。 ASIC可常駐在用戶終端。在替代方案中，前述處理器和存儲媒體可常駐在用戶終端中作為離散元件(Discrete components)。

在此使用的條件語言，例如其中包括，“可以(can)”、“可以(could)”、“可能(might)”、“可能(may)”、“例如(e.g.)”或類似的，除非另有明確表示，或以其他方式在本文中使用，一般意在傳達某些實施例中所包括，而其它實施例中不包括的某些特徵，元素和/或狀態。因此，這樣的條件語言一般並非是暗示那些特徵、元件和/或狀態對一個或多個實施而言是一定必須的，或者是暗示一個或多個實施例中必須包括邏輯以作決策而決定是否這些特徵、元素和/或狀態被包括或被執行在任何特定的實施例中，不論是否帶有或不帶有作者輸入或提示。

雖然藉由應用至前述實施例，前述具新穎性的特徵已被展示、描述以及指出於前述描述中，所描述的裝置或演算法在形式上或細節上的所做的省略、替換以及改變並沒有脫離此揭露的精神。作為辨識，描述於此發明的某些實施例可能是以不完全提供所有前述特徵和效果的形式來實施，如某些特徵可以在其他實施例中分別地使用或實踐。某些在此揭露的發明範圍是以後面的申請專利範圍為準，而非基於前面的描述。在申請專利範圍的等效範圍以及意義之內的所有改變，都應該被包括在申請專利範圍內。