TWI440018B - 具有頻譜修改功能之響度測量技術 - Google Patents
具有頻譜修改功能之響度測量技術 Download PDFInfo
- Publication number
- TWI440018B TWI440018B TW097122852A TW97122852A TWI440018B TW I440018 B TWI440018 B TW I440018B TW 097122852 A TW097122852 A TW 097122852A TW 97122852 A TW97122852 A TW 97122852A TW I440018 B TWI440018 B TW I440018B
- Authority
- TW
- Taiwan
- Prior art keywords
- spectrum
- level
- audio signal
- spectral representation
- reference spectrum
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims description 87
- 238000005259 measurement Methods 0.000 title description 24
- 238000012986 modification Methods 0.000 title description 23
- 230000004048 modification Effects 0.000 title description 23
- 238000001228 spectrum Methods 0.000 claims description 114
- 230000005236 sound signal Effects 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 28
- 230000005284 excitation Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 210000002469 basement membrane Anatomy 0.000 claims description 4
- 210000003027 ear inner Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 19
- 230000008447 perception Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000000695 excitation spectrum Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical group O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本發明與音頻信號處理有關。特別地,本發明與測量音頻信號的知覺響度有關,透過將一音頻信號的一頻譜表示修改為一參考頻譜形狀的一函數,藉此該音頻信號的頻譜表示更加接近地符合該參考頻譜形狀,以及計算該視訊信號的修改的頻譜表示的知覺響度。
有助於更好地理解本發明的層面的某些用於客觀地測量知覺(心理聲學)響度的技術在Alan Jeffrey Seefeldt等人的標題為"Method, Apparatus and Computer Program for Calculating aud Adjusting the Perceived Loudness of an Audio Signal"且於2004年12月23日公開的已公開國際專利申請案WO 2004/111994 A2,以及在由此產生的於2007年4月26日公開的美國專利申請案US 2007/0092089,以及在Alan Seefeldt等人於2004年10月28日在三藩市所作的美國音響工程師協會會議報告第6236號之"A New Objective Measure of Perceived Loudness"中被描述。該WO 2004/111994 A2以及US 2007/0092089申請案以及該報告於此整體併入參考。
存在許多用於客觀地測量音頻信號的知覺響度的方
法。方法的例子包括A-、B-及C-加權功率(weighted power)測量以及響度的心理聲學模型,諸如在"Acoustics-Method for calculating loudness level," ISO 532 (1975)以及該WO 2004/111994 A2以及US 2007/0092089申請案中所描述。加權功率測量透過以下步驟操作:擷取一輸入音頻信號、施加一已知濾波器,而後平均已濾波信號在一預定時間長度中的功率,其中該濾波器突出知覺較敏感的頻率,而削弱知覺較不敏感的頻率。心理聲學方法通常是較複雜的,目的是更好地模仿人耳的工作。這些心理聲學方法將信號分成模仿頻率回應和耳朵的敏感性的頻帶,然後運用及整合這些頻帶,同時考慮心理聲學現象,諸如頻率及時間遮蔽,以及響度隨信號強度變化的非線性知覺。所有這些方法的目的是得到與音頻信號的主觀感受緊密匹配的一數值量值。
發明者已發現,對於某些類型的音頻信號來說,所述的客觀響度測量已不能與主觀感受精確地匹配。在該WO 2004/111994 A2以及US 2007/0092089申請案中,這種問題信號被描述為“窄頻帶”,意思是絕大多數的信號能量集中在可聽頻譜的一個或若干個小部分中。在該等申請案中,一種用來處理這些信號的方法與一傳統響度知覺(loudness perception)心理聲學模型的修改有關地進行揭露,該模型併入了兩個響度函數的成長:一個是對於“寬頻帶”信號及第二個是對於“窄頻帶”信號。該WO 2004/111994 A2以及US 2007/0092089申請案基於對信號的“窄頻帶”的測量描述了
這兩個函數間的一內插法。
儘管這樣一種內插方法就主觀感受來說沒有改善客觀響度測量的性能,但是發明者自此已開發出一種可供替代的響度知覺心理聲學模型,於是他相信能夠以一種更好的方式解釋和解決在對“窄頻帶”問題信號的客觀響度測量與主觀響度測量之間的差異。將這樣一種可供選擇的模型應用於響度的客觀測量構成本發明的一個層面。
第1圖顯示本發明的層面的一簡化概要方塊圖;第2A、B及C圖以一概念化方式顯示根據本發明的層面的一個將頻譜修改應用到主要包含低音頻率的一理想化音頻頻譜的例子;第3A、B及C圖以一概念化方式顯示根據本發明的層面的一個將頻譜修改應用到類似於一參考頻譜的一理想化音頻頻譜的例子;第4圖顯示一組用於為一心理聲學響度模型計算激勵信號的臨界頻帶濾波器響應;第5圖顯示ISO 226的等響度曲線圖。水平標度是以赫茲(Hertz)為單位的頻率(以10為低的對數),以及垂直標度是以分貝為單位的聲壓位準;第6圖是比較來自一未被修改的心理聲學模型的客觀響度測量與一音頻記錄資料庫的主觀響度測量的圖;第7圖是比較來自一使用本發明的層面的心理聲學模型的客觀響度測量與同一音頻記錄資料庫的主觀響度測量
的圖。
根據本發明的層面,一種用於測量一音頻信號的知覺響度的方法包含獲取該音頻信號的一頻譜表示,將該頻譜表示修改為一參考頻譜形狀的一函數,藉此該音頻信號的該頻譜表示更加接近地符合一參考頻譜形狀,以及計算該音頻信號的該已修改頻譜表示的知覺響度。將該頻譜表示修改為一參考頻譜形狀的一函數包括最小化該頻譜表示與該參考頻譜形狀之差的函數,以及根據該最小化設定該參考頻譜形狀的一位準。最小化該差函數可最小化該頻譜表示與該參考頻譜形狀之差的加權平均。最小化該差函數可進一步包括施加一偏差(offset)來改變該頻譜表示與該參考頻譜形狀之間的差異。該偏差可以是一固定的偏差。將頻譜表示修改為一參考頻譜形狀的函數可進一步包括擷取音頻信號的頻譜表示的最大位準與該設定位準的(level-set)參考頻譜形狀的最大位準。該音頻信號的頻譜表示可以是一激勵信號,其接近內耳基底膜的能量分佈。
根據本發明的另一些層面,一種測量一音頻信號的知覺響度的方法包含獲取該音頻信號的一表示,比較該音頻信號的該表示與一參考表示以決定該音頻信號的該表示是如何與該參考表示緊密地匹配,修改該音頻信號的該表示的至少一部分以使由此產生的該音頻信號的已修改的表示與該參考表示更緊密地匹配,以及從該音頻信號的該已修
改的表示決定該音頻信號的一知覺響度。修改該音頻信號的該表示的至少一部分可包括相對於該音頻信號的該表示的位準調整該參考表示的位準。該參考表示的位準可被調整以最小化該參考表示的位準與該音頻信號的表示的位準之差的函數。修改該音頻信號的該表示的至少一部分可包括提高部分音頻信號的位準。
根據本發明的又一些層面,一種用於決定一音頻信號的知覺響度的方法包含獲取該音頻信號的一表示,比較該音頻信號表示的頻譜形狀與一參考頻譜形狀,調整該參考頻譜形狀的位準以與該音頻信號表示的頻譜形狀相匹配,藉此減小了該音頻信號表示的頻譜形狀與該參考頻譜形狀間的差,透過提高該音頻信號表示的部分頻譜形狀形成該音頻信號表示的已修改頻譜形狀以進一步改善該音頻信號表示的頻譜形狀與該參考頻譜形狀之間的匹配度,以及基於該音頻信號表示的該已修改頻譜形狀決定該音頻信號的知覺響度。該調整可包括最小化該音頻信號表示的頻譜形狀與該參考頻譜形狀之差的函數,並且根據該最小化設定該參考頻譜形狀的一位準。最小化該差函數可最小化該音頻信號表示的頻譜形狀與該參考頻譜形狀之差的加權平均。最小化該差函數可進一步包括施加一偏差來改變該音頻信號表示的頻譜形狀與該參考頻譜形狀之間的差異。該偏差可以是一固定的偏差。將該頻譜表示修改為一參考頻譜形狀的一函數可進一步包括擷取該音頻信號的頻譜表示的最大位準與該設定位準的參考頻譜形狀的最大位準。
根據本發明的再一些層面及另一些層面,該音頻信號表示可以是一激勵信號,其接近內耳基底膜的能量分佈。
本發明的其他層面包括執行任何上述方法的裝置及儲存在一電腦可讀媒體上且用於使電腦執行任何上述方法的電腦程式。
在一般意義上,所有早先提到的客觀響度測量(加權功率測量及心理聲學模型)可被視為橫跨頻率整合音頻信號的一些頻譜表示。在加權功率測量的情況下,該頻譜是與所選加權濾波器的功率譜相乘的信號的功率譜。在心理聲學模型的情況下,該頻譜可以是一系列連續臨界頻帶中的功率的非線性函數。正如前面提到,已發現這些對響度的客觀測量為擁有如前所述“窄頻帶”之頻譜的音頻信號提供降低了的性能。
與其將這些信號視為窄頻帶,發明者已基於這些信號與普通聲音的平均頻譜形狀不同的前提開發了一種更簡單且更直觀的說明。可能會認為在日常生活中所遇到的大多數聲音,特別是講話擁有與一平均“預期”頻譜形狀偏離不太明顯的一頻譜形狀。該平均頻譜形狀隨著在最低與最高可聽頻率之間被帶通的頻率的增加呈現普遍下降。當評估擁有與如此一平均頻譜形狀明顯偏離之頻譜的聲音的響度時,正是本發明的發明者假設一人認知地“填充”頻譜中那些缺乏預期能量的區域到某一位準。然後透過橫跨頻率整
合包括一被認知“填充”頻譜部分的一已修改頻譜而不是實際信號頻譜,響度的總體感受被獲得。例如,如果一人正在收聽一段僅用低音吉他演奏的音樂,則這個人一般會期望其他的樂器最終會加入到該低音中來填寫該頻譜。與其僅從其頻譜判斷低音提琴獨奏的總響度,本發明的發明者相信響度的總知覺的一部分歸因於預計會伴隨該低音而卻丟失了的頻率。類比可用心理聲學中熟知的“基本頻率遺漏”效應繪製。如果一人聽到簡諧相關的級數單音,但是該級數的基本頻率不存在,則這個人仍將感覺該級數仿佛具有與該缺少基音的頻率相對應的音調。
根據本發明的層面,以上所假設的主觀現象被整合到對知覺響度的客觀測量中。第1圖將本發明的層面的概述描述為其施加到已經提到的任一客觀測量(即加權功率模型和心理聲學模型兩者)中。作為第一步,一音頻信號x可被轉換到與所使用的特定客觀響度測量相稱的一頻譜表示X。一固定參考頻譜Y代表以上所討論的假設的平均預期頻譜形狀。參考頻譜可被預先計算,例如透過平均一普通聲音代表資料庫的頻譜。作為下一步,一參考頻譜Y可與該信號頻譜X“匹配”來產生一設定位準的參考頻譜YM
。匹配的意思是YM
產生作為Y的位準標度,因此已匹配參考頻譜YM
的位準與X對準,該對準是X與YM
橫跨頻率間的位準差的函數。該位準對準可包括最小化X與YM
橫跨頻率間的加權或未加權差。這種加權可以以任何多種方式來定義,只要所選擇的該方法可使頻譜X與參考頻譜Y偏離最多的那
些部分被最重地加權。信號頻譜X的最“不平常”部分以這種方式與YM
最接近地對準。接下來透過根據一修改準則修改X接近該匹配參考頻譜YM
,一已修改信號頻譜XC
被產生。正如以下將詳細描述的,該修改可採取只選擇X與YM
橫跨頻率的最大值的形式,這模擬以上所討論的認知“填充”。最後,已修改的信號頻譜XC
可根據所選擇的客觀響度測量(即一些類型的橫跨頻率的整合)來處理以產生一客觀響度值L。
第2A-C圖及第3A-C圖分別描述了兩個不同的原始信號頻譜X的已修改信號頻譜XC
的計算例子。在第2A圖中,由實現所表示的原始信號頻譜X在低音頻率中包含其絕大多數的能量。與由虛線表示的所述參考頻譜Y相比較,信號頻譜X的形狀被認為是“不平常的”。在第2A圖中,該參考頻譜最初被顯示在高於信號頻譜X的一任意開始位準(上面的虛線)處。然後參考頻譜Y的位準可被降低以與信號頻譜X相匹配,以產生一匹配參考頻譜YM
(下面的虛線)。當與參考頻譜相比較時,可能會注意到YM
與X的低音頻率最接近地匹配,這可被認為是信號頻譜的“不平常”部分。在第2B圖中,使信號頻譜X的那些降落到匹配參考頻譜YM
以下的部分等於YM
,藉此模仿該認知“填充”過程。在第2C圖中,看到由虛線表示的已修改的信號頻譜XC
等於X與YM
橫跨頻率的最大值的結果。在這種情況下,頻譜修改的應用已將一顯著數量的能量加入到原始信號在較高頻率的頻譜中。因此,由該已修改的信號頻譜XC
計算所得的響度將大於由
原始信號頻譜X計算所得的響度,這是所期望的結果。
在第3A-C圖中,信號頻譜X在形狀上類似於參考頻譜Y。因此,匹配參考頻譜YM
可能會在所有頻率降落到信號頻譜X以下,以及已修改信號頻譜XC
可能等於原始信號頻譜X。在該例子中,該修改無論如何都不會影響隨後的響度測量。對於絕大多數的信號來說,它們的頻譜足夠接近已修改的頻譜,如在第3A-C圖中所示,藉此沒有施加修改,因此響度計算沒有發生改變。較佳地,僅如在第2A-C圖中的“不平常的”頻譜被修改。
在該WO 2004/111994 A2以及US 2007/0092089申請案中,Seefeldt等人在除其他事項之外還揭露了基於一心理聲學模型的知覺響度的客觀測量。本發明的較佳實施例可將所述的頻譜修改施加到這樣一個心理聲學模型。該模型在沒有修改的情況下首先被重新檢查,然後修改施加的詳情被呈現。
心理聲學模型首先從一音頻信號x[n]計算一激勵信號E[b,t],在時塊t中及在臨界頻帶b處,該激勵信號接近能量沿內耳基底膜的分佈。該激勵如下可從音頻信號的短時離散傅立葉轉換(STDFT)計算而得:
其中X[k,t]代表x[n]在時塊t及頻框k的STDFT,其中k是轉換中的頻框指數,T[k]代表透過外耳和中耳類比音頻轉換的濾波器的頻率回應,以及Cb
[k]代表基底膜在與臨界頻帶b相對應的一位置處的頻率回應。第4圖描述一組合適的
臨界頻帶濾波器回應,其中四十個頻帶沿著等效矩形頻寬(ERB)的分頻法被不均勻地隔開,該分頻法是由Moore and Glasberg定義的(B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness,"journal of the Audio Engineering Society
之1997年4月第45卷第4期的第224-240頁)。每一濾波器形狀透過一返回指數函數(rounded exponential funciton)來描述,以及頻帶使用1 ERB的間隔分佈。最後,可有利地選擇(1)中的平滑時間常數λb與人在頻帶b中的響度知覺的整合時間成比例。
使用諸如在第5圖中所述的那些等響度曲線圖(equal loudness countour),其中在各個頻帶的激勵被轉換成將在1kHz產生相同響度的一激勵位準。而後橫跨頻率和時間分佈的特定響度、知覺響度的量值透過一壓縮非線性從已轉換激勵E1kHz
[b,t]來計算。一個這樣的適合計算特定響度N[b,t]的函數由以下方程式給出:
其中TQ1kHz
是在1kHz的安靜時候的臨界值,以及常數β和α被選擇以匹配對1kHz單音的響度成長的主觀感受。儘管一β值0.24以及一α值0.045已被發現是合適的,但是那些值不是必要的。最後,由宋(sone)單元表示的總響度L[t]透過橫跨頻帶計算特定響度的總和來計算:
在該心理聲學模型中,在計算總響度之前存在著音頻的兩個中間頻譜表示:激勵E[b,t]以及特定響度N[b,t]。對於本發明來說,頻譜修改可被施加到兩者中的任一個,但是要將修改施加到激勵,而不是特定響度簡化計算。這是因為激勵橫跨頻率的形狀對於音頻信號的總的位準來說是不變的。這由頻譜在不同位準保持同一形狀的方式來反映,如在第2A-C圖及第3A-C圖中所示。由於方程式(2)中的非線性,這並不是特定響度的情況。因此,於此給定的例子將頻譜修改施加到一激勵頻譜表示。
繼續頻譜修改到激勵的施加,假設存在一固定參考激勵Y[b]。實際上,Y[b]可透過平均從包含大量語音信號的一聲音資料庫計算而得的激勵來產生。參考激勵頻譜Y[b]的來源對於本發明來說不是關鍵的。在施加修改中,以信號激勵E[b,t]以及參考激勵Y[b]的分貝表示來操作是有益的。
EdB
[b,t
]=1010
log(E
[b,t
]) (4a)
YdB
[b
]=10log10
(Y
[b
]) (4b)
作為第一步,分貝參考激勵YdB[b]可與分貝信號激勵EdB[b,t]匹配來產生匹配的分貝參考激勵YdBM
[b],其中YdBM
[b]表示作為參考激勵的標度(或者是使用dB時的附加偏差):YdB M
[b
]=YdB
[b
]+Δ M
(5)
匹配偏差ΔM
被計算作為EdB[b,t]與YdB[b]之間的差的函數Δ[b]:
Δ[b
]=EdB
[b,t
]-YdB
[b
] (6)
來自該差激勵Δ[b]的一加權W[b]被計算作為被正規化以具有一最小值零然後被增加到一冪γ的差激勵:
實際上,設定γ=2運作良好,然而該值並不必要,以及可使用其他的加權或根本就不使用加權(即γ=1)。然後匹配偏差ΔM
被計算作為差激勵Δ[b]的加權平均加上一容限偏差ΔTol
:
當方程式(7)中的加權大於1時,會使信號激勵EdB[b,t]中與參考激勵YdB[b]最不相同的那些部分對匹配偏差ΔM
貢獻最大。當施加修改發生時,容限偏差ΔTol
影響“填充”的量。實際上,設定ΔTol
=-12dB運作良好,透過施加修改導致絕大多數的音頻頻譜未被修改。(在第3A-C圖中,正是該ΔTol
負值使匹配參考頻譜完全地降到信號頻譜以下而不是與之相稱,因此導致沒有對信號頻譜進行調整。)
一旦匹配參考激勵既已被計算,則修改被施加以透過擷取EdB[b,t]與YdBM
[b]橫跨頻帶的最大值產生已修改的信號激勵:EdB C
[b,t
]=max{EdB
[b,t
],YdB M
[b
]} (9)
然後已修改激勵的分貝表示被轉換回線性表示:
然後在根據該心理聲學模型計算響度的剩餘步驟(即如在方程式2及3中給定的計算特定響度以及橫跨頻帶計算特定響度的總和)中,該已修改信號激勵EC
[b,t]取代原始信號激勵E[b,t]。
為了論證該所揭露的發明的實用性,第6及7圖分別描述了顯示未修改及已修改心理聲學模型是如何預知一音頻記錄資料庫在主觀上所擁有的響度的資料。對於該資料庫中的每一測試記錄來說,受試者被請求調整音量以與一些固定參考記錄的響度相匹配。對於每一測試記錄來說,受試者可即刻地在測試記錄與參考記錄之間來回切換來判斷響度差異。對於每一受試者來說,最後被調整的音量再次以分貝為單位為每一測試記錄儲存,然後這些增益在許多受試者中被平均,以為每一測試記錄產生一主觀響度量值。而後未修改及已修改心理聲學模型都被用來為該資料庫中的每一記錄產生一客觀響度量值,然後這些客觀量值與第6及7圖中的主觀量值相比較。在這兩個圖式中,水平軸代表以dB為單位的主觀量值,垂直軸代表以dB為單位的客觀量值。圖式中的每一點代表資料庫中的一記錄,如果客觀量值與主觀量值較佳地匹配,則每一點將恰好落在對角線上。
對於第6圖中的未修改心理聲學模型,注意到大多數的資料點落在靠近對角線的地方,但是有相當數量的離群值(outlier)存在該線上方。這些離群值代表以前所計論的問題信號,以及該未修改的心理聲學模型與平均主觀評比法比
較認為它們太安靜。對於整個資料庫來說,客觀與主觀量值之間的平均絕對誤差(AAE)是2.12dB,這個值相當低,但是最大絕對誤差達到相當高的10.2dB。
第7圖描述相同的該已修改心理聲學模型資料。在這裡,絕大多數的資料點較第6圖中的那些資料點而言沒有被改變,除了使離群值與其他點相符地群聚在對角線的周圍。與未修改心理聲學模型相比較,AAE在某種程度上被減小到1.43dB,以及MAE被顯著地減小到4dB。所揭露的在先前遠離對角線的信號上進行頻譜修改的好處顯而易見。
儘管在原理上本發明可在類比或數位域(或一些這兩個域的組合)中被實施,然而在本發明的可實施實施例中,音頻信號由資料方塊中的樣本表示,處理在數位域中被實現。
本發明可在硬體或軟體或者兩者的組合(例如可規劃邏輯陣列)中被實施。除非明確指明,否則所包括作為本發明的一部分的演算法及程式在本質上不與任何特定的電腦或其他裝置相關。特別地,各種通用機器可與根據於此教示所書寫的程式一起使用,或者其可更加方便地構建更專用的裝置(例如整合電路),以執行所需要的方法步驟。因此,本發明可在一或多電腦程式中被實施,該程式可在一或多個可規劃電腦系統上執行,每一系統包含至少一處理器、至少一資料儲存系統(包括易失性和非易失性記憶體和/或儲存元件)、至少一輸入裝置或埠,以及至少一輸出裝置
或埠。程式碼被施加到輸入資料來執行於此所述的功能以及產生輸出資訊。輸出資訊以已知的方式被施加到一或多個輸出裝置。
每一該程式可以以任何期望的電腦語言(包括機器、組合或高階程序、邏輯或物件導向的程式設計語言)來實施以與一電腦系統通訊。在任何情況下,語言都可以是一編譯或解譯語言。
每一該電腦程式被較佳地儲存在或被下載到可被一通用或專用可規劃電腦讀取的一儲存媒體或裝置上(例如固態記憶體或媒體或磁性媒體或光學媒體)),用於在電腦系統讀取該儲存媒體或裝置時組配及操作電腦執行於此所述的程序。該發明系統也可被認為是被實施為用一電腦程式組配的一電腦可讀儲存媒體,其中如此組配該儲存媒體以使電腦系統以一特定或預定方式操作來執行於此所述的功能。本發明的一些實施例已經被描述。然而,將理解的是,在不脫離本發明的精神和範圍前提下的多種修改可被實現。例如,於此所述的一些步驟可以是順序獨立的,因此可以以不同於該所述順序的順序執行。
x‧‧‧音頻信號
X‧‧‧信號頻譜
Y‧‧‧參考頻譜
XC
‧‧‧已修改信號頻譜
YM
‧‧‧已匹配參考頻譜
L‧‧‧客觀響度值
k‧‧‧頻框指數
第1圖顯示本發明的層面的一簡化概要方塊圖;第2A、B及C圖以一概念化方式顯示根據本發明的層面的一個將頻譜修改應用到主要包含低音頻率的一理想化音頻頻譜的例子;第3A、B及C圖以一概念化方式顯示根據本發明的層面
的一個將頻譜修改應用到類似於一參考頻譜的一理想化音頻頻譜的例子;第4圖顯示一組用於為一心理聲學響度模型計算激勵信號的臨界頻帶濾波器響應;第5圖顯示ISO 226的等響度曲線圖。水平標度是以赫茲(Hertz)為單位的頻率(以10為低的對數),以及垂直標度是以分貝為單位的聲壓位準;第6圖是比較來自一未被修改的心理聲學模型的客觀響度測量與一音頻記錄資料庫的主觀響度測量的圖;第7圖是比較來自一使用本發明的層面的心理聲學模型的客觀響度測量與同一音頻記錄資料庫的主觀響度測量的圖。
x‧‧‧音頻信號
X‧‧‧信號頻譜
Y‧‧‧參考頻譜
XC
‧‧‧已修改信號頻譜
YM
‧‧‧已匹配參考頻譜
L‧‧‧客觀響度值
Claims (9)
- 一種用以測量一音頻信號的知覺響度的方法,其包含以下步驟:獲取該音頻信號的一頻譜表示X,將一參考頻譜Y的位準與該頻譜表示X之位準相匹配,以產生一經設定位準之參考頻譜YM ,其中YM 為Y之位準調整,使得經匹配之該參考頻譜之位準與該頻譜表示X之位準對齊,該位準調整係X和Y之間於頻率區間之位準差異之函數,該位準差異經計算以作為於X和Y之間於頻率區間之該差異之一加權平均之一函數,與該參考頻譜Y偏離最多之該頻譜表示X的那部分係比其他部分作更多之加權,及當該頻譜表示X與該經設定位準之參考頻譜YM 係彼此落在一容限偏差△Tol 內時,處理該頻譜表示X以產生該音頻信號的該知覺響度之一量值,當該頻譜表示X與該經設定位準之參考頻譜YM 彼此並未落在一容限偏差△Tol 內時,藉由擷取該音頻信號的該頻譜表示的位準與該經設定位準之參考頻譜YM 的最大者,來修改該頻譜表示X以產生一經修改之頻譜表示XC ,其比該頻譜表示X更接近符合該經設定位準之參考頻譜YM ,以及處理該經修改之頻譜表示XC 以產生該音頻信號的該知覺響度之一量值。
- 如申請專利範圍第1項之方法,其中該音頻信號的該頻 譜表示是一激勵信號,其接近內耳基底膜的能量分佈。
- 如申請專利範圍第1項之方法,其中該參考頻譜Y代表一假設的平均預期頻譜形狀。
- 如申請專利範圍第3項之方法,其中該參考頻譜Y係藉由平均普通聲音之代表資料庫的頻譜來預先計算。
- 如申請專利範圍第1項之方法,其中該參考頻譜Y是被固定的。
- 一種用以測量一音頻信號的知覺響度的裝置,其包含多個構件,該等構件適於執行如申請專利範圍第1項所述之方法之步驟。
- 一種用以測量一音頻信號的知覺響度的方法,其包含以下步驟:獲取該音頻信號的一頻譜表示X,將一參考頻譜Y的位準與該頻譜表示X之位準相匹配,以產生一經設定位準之參考頻譜YM ,其中YM 為Y之位準調整,使得經匹配之該參考頻譜之位準與該頻譜表示X之位準對齊,該位準調整係X和Y之間於頻率區間之位準差異之函數,及當該頻譜表示X與該經設定位準之參考頻譜YM 係彼此落在一容限偏差△Tol 內時,處理該頻譜表示X以產生該音頻信號的該知覺響度之一量值,當該頻譜表示X與該經設定位準之參考頻譜YM 彼此並未落在一容限偏差△Tol 內時,藉由擷取該音頻信號的該頻譜表示的位準與該經設定位準之參考頻譜YM 的 最大者,來修改該頻譜表示X以產生一經修改之頻譜表示XC ,其比該頻譜表示X更接近符合該經設定位準之參考頻譜YM ,以及處理該經修改之頻譜表示XC 以產生該音頻信號的該知覺響度之一量值。
- 一種用以測量一音頻信號的知覺響度的方法,其包含以下步驟:獲取該音頻信號的一頻譜表示X,將一參考頻譜Y的位準與該頻譜表示X之位準相匹配,以產生一經設定位準之參考頻譜YM ,其中YM 為Y之位準調整,使得經匹配之該參考頻譜之位準與該頻譜表示X之位準對齊,該位準調整係X和Y之間於頻率區間之位準差異之函數,該位準差異經計算以作為於X和Y之間於頻率區間之該差異之一加權平均或未加權平均之一函數,及當該頻譜表示X與該經設定位準之參考頻譜YM 係彼此落在一容限偏差△Tol 內時,處理該頻譜表示X以產生該音頻信號的該知覺響度之一量值,當該頻譜表示X與該經設定位準之參考頻譜YM 彼此並未落在一容限偏差△Tol 內時,藉由擷取該音頻信號的該頻譜表示的位準與該經設定位準之參考頻譜YM 的最大者,來修改該頻譜表示X以產生一經修改之頻譜表示XC ,其比該頻譜表示X更接近符合該經設定位準之參考頻譜YM ,以及 處理該經修改之頻譜表示XC 以產生該音頻信號的該知覺響度之一量值。
- 一種非暫時性電腦可讀儲存媒體,其以電腦程式編碼於其中,該電腦程式用於使一電腦執行如申請專利範圍第1、2、5、7、和8項之任一項所述之方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US93635607P | 2007-06-19 | 2007-06-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200912893A TW200912893A (en) | 2009-03-16 |
TWI440018B true TWI440018B (zh) | 2014-06-01 |
Family
ID=39739933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW097122852A TWI440018B (zh) | 2007-06-19 | 2008-06-19 | 具有頻譜修改功能之響度測量技術 |
Country Status (18)
Country | Link |
---|---|
US (1) | US8213624B2 (zh) |
EP (1) | EP2162879B1 (zh) |
JP (1) | JP2010521706A (zh) |
KR (1) | KR101106948B1 (zh) |
CN (1) | CN101681618B (zh) |
AU (1) | AU2008266847B2 (zh) |
BR (1) | BRPI0808965B1 (zh) |
CA (1) | CA2679953C (zh) |
DK (1) | DK2162879T3 (zh) |
HK (1) | HK1141622A1 (zh) |
IL (1) | IL200585A (zh) |
MX (1) | MX2009009942A (zh) |
MY (1) | MY144152A (zh) |
PL (1) | PL2162879T3 (zh) |
RU (1) | RU2434310C2 (zh) |
TW (1) | TWI440018B (zh) |
UA (1) | UA95341C2 (zh) |
WO (1) | WO2008156774A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9154102B2 (en) | 2010-03-10 | 2015-10-06 | Dolby Laboratories Licensing Corporation | System for combining loudness measurements in a single playback mode |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2005299410B2 (en) | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
DE602007011594D1 (de) | 2006-04-27 | 2011-02-10 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
JP4940308B2 (ja) | 2006-10-20 | 2012-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | リセットを用いるオーディオダイナミクス処理 |
US8396574B2 (en) | 2007-07-13 | 2013-03-12 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
CN102017402B (zh) | 2007-12-21 | 2015-01-07 | Dts有限责任公司 | 用于调节音频信号的感知响度的系统 |
US8761415B2 (en) | 2009-04-30 | 2014-06-24 | Dolby Laboratories Corporation | Controlling the loudness of an audio signal in response to spectral localization |
JPWO2010131470A1 (ja) * | 2009-05-14 | 2012-11-01 | シャープ株式会社 | ゲイン制御装置及びゲイン制御方法、音声出力装置 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
WO2012078142A1 (en) * | 2010-12-07 | 2012-06-14 | Empire Technology Development Llc | Audio fingerprint differences for end-to-end quality of experience measurement |
US8965756B2 (en) * | 2011-03-14 | 2015-02-24 | Adobe Systems Incorporated | Automatic equalization of coloration in speech recordings |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
EP2837094B1 (en) | 2012-04-12 | 2016-03-30 | Dolby Laboratories Licensing Corporation | System and method for leveling loudness variation in an audio signal |
US9391575B1 (en) * | 2013-12-13 | 2016-07-12 | Amazon Technologies, Inc. | Adaptive loudness control |
US9503803B2 (en) | 2014-03-26 | 2016-11-22 | Bose Corporation | Collaboratively processing audio between headset and source to mask distracting noise |
CN105100787B (zh) * | 2014-05-20 | 2017-06-30 | 南京视威电子科技股份有限公司 | 响度显示装置及显示方法 |
US10842418B2 (en) | 2014-09-29 | 2020-11-24 | Starkey Laboratories, Inc. | Method and apparatus for tinnitus evaluation with test sound automatically adjusted for loudness |
EP3518236B8 (en) | 2014-10-10 | 2022-05-25 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
US9590580B1 (en) | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
DE102015217565A1 (de) * | 2015-09-15 | 2017-03-16 | Ford Global Technologies, Llc | Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen |
CN106792346A (zh) * | 2016-11-14 | 2017-05-31 | 广东小天才科技有限公司 | 一种教学视频中的音频调整方法及装置 |
CN110191396B (zh) * | 2019-05-24 | 2022-05-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、终端及计算机可读存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2808475A (en) * | 1954-10-05 | 1957-10-01 | Bell Telephone Labor Inc | Loudness indicator |
US4953112A (en) | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
US5274711A (en) * | 1989-11-14 | 1993-12-28 | Rutledge Janet C | Apparatus and method for modifying a speech waveform to compensate for recruitment of loudness |
GB2272615A (en) | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
US5812969A (en) * | 1995-04-06 | 1998-09-22 | Adaptec, Inc. | Process for balancing the loudness of digitally sampled audio waveforms |
FR2762467B1 (fr) * | 1997-04-16 | 1999-07-02 | France Telecom | Procede d'annulation d'echo acoustique multi-voies et annuleur d'echo acoustique multi-voies |
JP3448586B2 (ja) * | 2000-08-29 | 2003-09-22 | 独立行政法人産業技術総合研究所 | 聴覚障害を考慮した音の測定方法およびシステム |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
DE10308483A1 (de) * | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
US7089176B2 (en) * | 2003-03-27 | 2006-08-08 | Motorola, Inc. | Method and system for increasing audio perceptual tone alerts |
KR101164937B1 (ko) | 2003-05-28 | 2012-07-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 |
US20050113147A1 (en) * | 2003-11-26 | 2005-05-26 | Vanepps Daniel J.Jr. | Methods, electronic devices, and computer program products for generating an alert signal based on a sound metric for a noise signal |
US7574010B2 (en) * | 2004-05-28 | 2009-08-11 | Research In Motion Limited | System and method for adjusting an audio signal |
CN1981433A (zh) * | 2004-06-30 | 2007-06-13 | 皇家飞利浦电子股份有限公司 | 自动调整音频信号的音量的方法和系统 |
RU2279759C2 (ru) | 2004-07-07 | 2006-07-10 | Гарри Романович Аванесян | Психоакустический процессор |
AU2005299410B2 (en) | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
EP1816891A1 (en) * | 2004-11-10 | 2007-08-08 | Hiroshi Sekiguchi | Sound electronic circuit and method for adjusting sound level thereof |
JP2006333396A (ja) * | 2005-05-30 | 2006-12-07 | Victor Co Of Japan Ltd | 音声信号拡声装置 |
US8566086B2 (en) * | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
JP2008176695A (ja) | 2007-01-22 | 2008-07-31 | Nec Corp | サーバ、これを用いた質問回答システム、端末、サーバの動作方法、及びその動作プログラム |
-
2008
- 2008-06-18 EP EP08768564.0A patent/EP2162879B1/en active Active
- 2008-06-18 MY MYPI20093743A patent/MY144152A/en unknown
- 2008-06-18 DK DK08768564.0T patent/DK2162879T3/da active
- 2008-06-18 BR BRPI0808965-5A patent/BRPI0808965B1/pt active IP Right Grant
- 2008-06-18 WO PCT/US2008/007570 patent/WO2008156774A1/en active Application Filing
- 2008-06-18 MX MX2009009942A patent/MX2009009942A/es active IP Right Grant
- 2008-06-18 US US12/531,692 patent/US8213624B2/en active Active
- 2008-06-18 CA CA2679953A patent/CA2679953C/en active Active
- 2008-06-18 JP JP2009553658A patent/JP2010521706A/ja active Pending
- 2008-06-18 RU RU2009135056/09A patent/RU2434310C2/ru active
- 2008-06-18 KR KR1020097019501A patent/KR101106948B1/ko active IP Right Grant
- 2008-06-18 PL PL08768564T patent/PL2162879T3/pl unknown
- 2008-06-18 CN CN200880008969.6A patent/CN101681618B/zh active Active
- 2008-06-18 UA UAA200909595A patent/UA95341C2/ru unknown
- 2008-06-18 AU AU2008266847A patent/AU2008266847B2/en active Active
- 2008-06-19 TW TW097122852A patent/TWI440018B/zh active
-
2009
- 2009-08-25 IL IL200585A patent/IL200585A/en active IP Right Grant
-
2010
- 2010-08-18 HK HK10107878.0A patent/HK1141622A1/xx unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9154102B2 (en) | 2010-03-10 | 2015-10-06 | Dolby Laboratories Licensing Corporation | System for combining loudness measurements in a single playback mode |
Also Published As
Publication number | Publication date |
---|---|
RU2434310C2 (ru) | 2011-11-20 |
IL200585A (en) | 2013-07-31 |
IL200585A0 (en) | 2010-05-17 |
KR101106948B1 (ko) | 2012-01-20 |
BRPI0808965B1 (pt) | 2020-03-03 |
MX2009009942A (es) | 2009-09-24 |
WO2008156774A1 (en) | 2008-12-24 |
EP2162879A1 (en) | 2010-03-17 |
HK1141622A1 (en) | 2010-11-12 |
RU2009135056A (ru) | 2011-03-27 |
US20100067709A1 (en) | 2010-03-18 |
CN101681618A (zh) | 2010-03-24 |
US8213624B2 (en) | 2012-07-03 |
JP2010521706A (ja) | 2010-06-24 |
BRPI0808965A2 (pt) | 2014-08-26 |
DK2162879T3 (da) | 2013-07-22 |
AU2008266847A1 (en) | 2008-12-24 |
CA2679953C (en) | 2014-01-21 |
TW200912893A (en) | 2009-03-16 |
PL2162879T3 (pl) | 2013-09-30 |
KR20100013308A (ko) | 2010-02-09 |
EP2162879B1 (en) | 2013-06-05 |
CA2679953A1 (en) | 2008-12-24 |
AU2008266847B2 (en) | 2011-06-02 |
MY144152A (en) | 2011-08-15 |
UA95341C2 (ru) | 2011-07-25 |
CN101681618B (zh) | 2015-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI440018B (zh) | 具有頻譜修改功能之響度測量技術 | |
JP5632532B2 (ja) | 入力オーディオ信号の修正装置及び修正方法 | |
EP1629463B1 (en) | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal | |
NO20180266A1 (no) | Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon | |
US8761415B2 (en) | Controlling the loudness of an audio signal in response to spectral localization | |
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
US20140316773A1 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal | |
Huber | Objective assessment of audio quality using an auditory processing model | |
US8175282B2 (en) | Method of evaluating perception intensity of an audio signal and a method of controlling an input audio signal on the basis of the evaluation | |
EP1835487B1 (en) | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |