TWI420512B - 用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式 - Google Patents

用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式 Download PDF

Info

Publication number
TWI420512B
TWI420512B TW099110718A TW99110718A TWI420512B TW I420512 B TWI420512 B TW I420512B TW 099110718 A TW099110718 A TW 099110718A TW 99110718 A TW99110718 A TW 99110718A TW I420512 B TWI420512 B TW I420512B
Authority
TW
Taiwan
Prior art keywords
phase
smoothed
phase value
upmix
value
Prior art date
Application number
TW099110718A
Other languages
English (en)
Other versions
TW201118860A (en
Inventor
Matthias Neusinger
Julien Robilliard
Johannes Hilpert
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201118860A publication Critical patent/TW201118860A/zh
Application granted granted Critical
Publication of TWI420512B publication Critical patent/TWI420512B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式 技術領域
依據本發明的實施例有關於一種用以對一向下混合音訊信號進行向上混合之裝置、方法及電腦程式。
依據本發明的一些實施例有關於參數多通道音訊編碼的一適應性相位參數平滑化方式。
發明背景
下面將說明本發明的背景。參數音訊編碼領域中的新近發展發表了將一多通道音訊(例如,5.1)信號聯合編碼成一(或一個以上)向下混合通道外加一旁側資訊串流之技術。這些技術被稱為雙耳線索編碼(Binaural Cue Coding)、參數立體聲、及MPEG環繞等等。
一些出版物說明了所謂的「雙耳線索編碼」參數多通道編碼方法,例如見參考文獻[1][2][3][4][5]。
「參數立體聲」是一供基於一傳輸單通道信號外加參數旁側資訊的兩通道立體聲信號之參數編碼的相關技術,例如見參考文獻[6][7]。
「MPEG環繞」是參數多通道編碼的一ISO標準,例如見參考文獻[8]。
上面提及的技術是基於將一壓縮形式之人類空間聽覺相關感知線索以及相關聯的單聲道或立體聲向下混合信號傳輸至接收器。典型的線索可以是通道間級差(ILD)、通道間相關或相干(ICC)、以及通道間時間差(ITD)、通道間相位差(IPD)、及總相位差(OPD)。
這些參數在一些情況中以一適配於人類聽覺解析度之頻率與時間解析度來被傳輸。
對該傳輸而言,該等參數典型地被量化(或在一些情況中甚至必須被量化),其中經常(尤其是對低位元率情境)使用一相當粗略的量化。
時間上的更新間隔由編碼器視信號特性決定。這就是說,並非對向下混合信號的每一樣本都傳輸參數。換言之,在一些情況中,說明上面提及線索之參數的一傳輸率(或傳輸頻率,或更新率)可小於音訊樣本(或諸組音訊樣本)的一傳輸率(或傳輸頻率,或更新率)。
代之傳輸通道間相位差(IPD)及總相位差(OPD),僅傳輸通道間相位差(IPD)並估計解碼器中總相位差(OPD)也是可能的。
由於解碼器在一些情況中可能必須以一無隙方式隨時間將參數連續應用於例如每一樣本(或音訊樣本),中間參數可能需要在解碼器端被取得,典型地是藉由過去與目前參數集之間的內插。
然而,一些習知內插方法導致不良的音訊品質。
下面參考第7圖將說明一通用雙耳線索編碼。第7圖繪示一雙耳線索編碼傳輸系統800之一方塊系統圖,該雙耳線索編碼傳輸系統800包含一雙耳線索編碼編碼器810及一雙耳線索編碼解碼器820。雙耳線索編碼編碼器810可例如接收複數音訊信號812a、812b及812c。進一步地,雙耳線索編碼編碼器810被組態成利用一向下混合器814來對音訊輸入信號812a-812c進行向下混合以獲得一向下混合信號816,該向下混合信號816例如可以是一合量信號且可被用“AS”或“X”標示。進一步地,雙耳線索編碼編碼器810被組態成利用一分析器818來分析音訊輸入信號812a-812c以獲得旁側資訊信號819(“SI”)。合量信號816及旁側資訊信號819自雙耳線索編碼編碼器810被傳輸至雙耳線索編碼解碼器820。雙耳線索編碼解碼器820可被組態成基於合量信號816及通道間線索824合成一多通道音訊輸出信號,該多通道音訊輸入信號例如包含音訊通道y1、y2,...yN。為此目的,雙耳線索編碼解碼器820可包含一雙耳線索編碼合成器822,該雙耳線索編碼合成器822接收合量信號816及通道間線索824並提供音訊信號y1、y2,...yN。
雙耳線索編碼解碼器820進一步包含一旁側資訊處理器826,該旁側資訊處理器826被組態成接收旁側資訊819及可取捨地接收一使用者輸入827。該旁側資訊處理器826被組態成基於旁側資訊819及可取捨的使用者輸入827來提供通道間線索824。
總之,音訊輸入信號被分析且向下混合。合量信號與旁側資訊被傳輸至解碼器。通道間線索是由旁側資訊及本地使用者輸入而被產生。雙耳線索編碼合成產生多通道音訊輸出信號。
至於詳情請參考C. Faller與F. Baumgarte所著文章“Binaural Cue Coding Part II: Schemes and applications,"(出版於:2003年11月第11卷語音與音訊處理的IEEE學報)。
然而,已得知的是,如果旁側資訊被粗略量化或解析度不足,許多習知雙耳線索編碼解碼器提供降級品質的多通道輸出音訊信號。
鑑於此問題,需要一將一向下混合音訊信號向上混合成一向上混合的音訊信號的改進概念,這在當描述向上混合信號不同通道之間的一相位關係之旁側資訊以相對低解析度被量化時減少了聽覺印象的降級。
發明概要
依據本發明的一實施例建立一種用以將描述一或一個以上向下混合音訊通道之一向下混合音訊信號向上混合成描述複數向上混合音訊通道之一向上混合音訊信號的裝置。該裝置包含一向上混合器,該向上混合器被組態成應用時變向上混合參數來對向下混合信號進行向上混合以便獲得向上混合音訊信號。該時變向上混合參數包含時變平滑化相位值。該裝置進一步包含一參數決定器,該參數決定器被組態成基於一量化的向上混合參數輸入資訊來獲得一或一個以上時間平滑化的向上混合參數以被該向上混合器使用。該參數決定器被組態成利用一相位改變限制演算法來將前一平滑化的相位值之一縮放版本與一輸入相位資訊之一縮放版本相組合以基於該前一平滑化相位值及該輸入相位資訊來決定一目前平滑化相位值。
依據本發明的此一實施例是基於下述發現:向上混合信號中的可聞失真可藉由利用一相位改變限制演算法來將前一平滑化的相位值之一縮放版本與一輸入相位資訊之一縮放版本相組合來減少或甚至避免,因為結合一相位改變限制演算法考慮前一平滑化的相位值允許將平滑化相位值的不連續性保持適度地小。後續平滑化相位值之間(例如,前一平滑化相位值與目前平滑化相位值)不連續性的減小相應地有助於避免(或保持足夠小)一後續相位值(例如,前一平滑化相位值與目前平滑化相位值)被應用之一音訊信號的數部分之間的一過渡的可聞頻率變化。
綜上所述,本發明建立參數多通道音訊編碼之適應性相位處理的一種一般性概念。依據本發明的實施例藉由減少由粗略量化或快速改變相位參數而引起之輸出信號中的失真取代其他技術。
在一較佳實施例中,參數決定器被組態成將前一平滑化相位值之縮放版本與輸入相位資訊之縮放版本相組合,使得目前平滑化相位值在一第一角度區域與一第二角度區域中之一較小角度區域中,其中第一角度區域以一數學正方向自前一平滑化相位值定義之一第一開始方向延伸至相位輸入資訊定義之一第一結束方向,及其中第二角度區域以一數學正方向自輸入相位資訊定義之一第二開始方向延伸至前一平滑化相位值定義之一第二結束方向。因此,在本發明的一些實施例中,由相位值的一遞迴(無限脈衝響應型)平滑化而引入之一相位變化被保持得盡可能小。因此,可聞失真被保持得盡可能小。舉例而言,裝置可被組態成確保該目前平滑化相位值被設置於兩角度範圍中之一較小角度範圍中,其中該兩角度範圍中的一第一個涵蓋大於180°及其中該等角度範圍中的一第二個涵蓋小於180°,及其中該兩角度範圍一起涵蓋360°。因此,相位改變限制演算法確保了前一平滑化相位值與目前平滑化相位值之間的相位差小於180°,且較佳地甚至小於90°。這有助於保持可聞失真盡可能小。
在一較佳實施例中,參數決定器被組態成依賴於相位輸入資訊與前一平滑化相位值之間的一差自複數不同組合規則中選擇一組合規則,並利用選定的組合規則來決定該目前平滑化的相位值。因此,可實現的是選擇一適當的組合規則,這確保了前一平滑化相位值與目前平滑化相位值之間的相位改變小於一預定門檻值、或更概括而言足夠地小或盡可能小。因此,本發明裝置勝過類似具有一固定組合規則之類似裝置。
在一較佳實施例中,參數決定器被組態成如果相位輸入資訊與前一平滑化相位值之間的一差在-π與+π的一範圍內則選擇一基本組合規則,否則選擇一或一個以上不同的相位適應組合規則。基本組合規則無需一恒定被加數而定義一相位輸入資訊之縮放版本與前一平滑化相位值之縮放版本的線性組合。該一或一個以上的相位適應組合規則定義了一計入輸入相位資訊之縮放版本與前一平滑化相位值之縮放版本的恒定相位適應被加數之線性組合。因此,前一平滑化相位值與輸入相位資訊之一有利且易於實施的線性組合可被執行,及其中如果前一平滑化相位值與輸入相位資訊之差取一相對大的值(大於π或小於-π),一額外的被加數能被可選擇應用。因此,前一平滑化相位值與輸入相位資訊之間差異大之問題情況可用特定適宜的相位適應組合規則而被處理,該特定適宜的相位適應組合規則允許保持後續平滑化相位值之間的相位改變足夠小。
在一較佳實施例中,該參數決定器包含一平滑化控制器,其中如果該平滑化相位量與該相對應輸入相位量之間的一差大於一預定門檻值,該平滑化控制器被組態成選擇性禁用一相位值平滑化功能。因此,如果該輸入相位資訊上有一大的改變,該相位值平滑化功能可被禁用。典型地,輸入相位資訊的極大改變表示的是,確實期望執行一非平滑化相位改變,因為該輸入相位資訊之相當大的改變(顯著大於一量化步驟)通常有關於一音訊信號內的特定聲音事件。因此,在大部分情況下改進聽覺印象之對該等相位值的一平滑化在此特定情況中是有害的。因此,該聽覺印象甚至可藉由選擇性禁用該相位值平滑化功能來改進。
在一較佳實施例中,該平滑化控制器被組態成評估兩平滑化相位值之間的一差作為該平滑化相位量並評估對應於該兩平滑化相位值之兩輸入相位值之間的一差來作為該相對應輸入相位量。已得知的是,在一些情況中,與一多通道音訊信號的不同(向上混合)通道相關聯之相位值之間的一差是決定該等相位值平滑化功能應該被啟用抑或禁用上一有意義的量。
在一較佳實施例中,向上混合器被組態成,如果一平滑化功能(或一相位值平滑化功能)被啟用則對於一指定時間部分應用由不同平滑化相位值定義之不同時間平滑化的相位旋轉來獲得具有一通道間相位差之向上混合音訊通道的信號,且如果該平滑化功能(或該相位值平滑化功能)被禁用則應用由不同非平滑化相位值定義之時間上非平滑化的相位旋轉來獲得具有一通道間相位差之不同向上混合音訊通道的信號。在此情況中,該參數決定器包含一平滑化控制器,該平滑化控制器被組態成,如果用來獲得不同向上混合音訊通道的信號之平滑化相位值之間的一差與由該向上混合器接收或由該向上混合器自一接收資訊獲得之一非平滑化通道間相位差值的差超過一預定門檻值,則選擇性啟用或禁用該相位值平滑化功能。已得知的是,如果一通道間相位差值被評估為啟用與停用該相位值平滑化功能的準則,該相位值平滑化功能的一選擇性停用就提高聽覺印象而言是特別有用的。
在一較佳實施例中,參數決定器被組態成依賴於一平滑化相位值與一相對應輸入相位值之間的一目前差來調整濾波器時間常數以決定平滑化相位值的一序列。藉由調整該濾波器時間常數可實現的是,非常大的輸入相位值改變獲得一足夠小的安定時間(settling time),而對輸入相位值之低或中等改變保持充分良好的平滑化特性。此功能帶來了特別的好處,因為輸入相位值之一相當小的(或至多中等規模的)改變通常是由一量化粒度引起。換言之,由一量化粒度引起之輸入相位值的一逐步改變可造成一有效的平滑化操作。在這一情況中,平滑化功能特別有利,其中一相對長濾波器時間常數帶來好的結果。相比之下,顯著大於一量化步驟之輸入相位值的一很大改變典型地對應於相位值之一期望的大改變。在此情況中,一相對短濾波器時間常數帶來好的結果。因此,藉由依賴於一平滑化相位值與一相對應輸入相位值之間的一目前差來調整該濾波器時間常數可達到的是,該輸入相位值之有意大改變造成平滑化相位值的快速改變,而取一量化步驟的規模之該輸入相位值的相對小的改變造成平滑化相位值之一相對慢且平滑化的過渡。因此,對期望相位值的有意、大改變及對期望相位值的小改變(然而其可由一量化步驟引起該輸入相位值的一改變)皆達到一良好的聽覺印象。
在一較佳實施例中,參數決定器被組態成依賴於一平滑化通道間相位差,其由與向上混合音訊信號之不同通道相關聯的兩平滑化相位值之間的差來定義,與一非平滑化通道間相位差,其由一非平滑化通道間相位差資訊來定義,之間的差來調整一濾波器時間常數以決定平滑化相位值的一序列。已得知的是,選擇性調整該濾波器時間常數之構想可結合該等通道間相位差的一處理而被有利使用。
在一較佳實施例中,用以向上混合的裝置被組態成依賴於一自一音訊位元串流擷取之資訊選擇性啟用或禁用一相位值平滑化功能。已得知的是,聽覺印象之一改進可藉 由在一音訊編碼器的控制下提供選擇性啟用或禁用一音訊解碼器內的一相位值平滑化功能的可能性而被獲得。
依據本發明的一實施例建立一種實施上面所討論用以將一向下混合音訊信號向上混合成一向上混合音訊信號之裝置的功能的方法。該方法基於如上所討論裝置的相同構想。
此外,依據本發明的實施例建立一種用以執行該方法的電腦程式。
實施例之詳細說明 1.依據第1圖的實施例
第1圖依據本發明之一實施例繪示一用以對一向下混合音訊信號進行向上混合之裝置100的一方塊系統圖。裝置100被組態成接收一描述一或一個以上向下混合音訊通道之向下混合音訊信號110並且提供一描述複數向上混合音訊通道之向上混合音訊信號120。裝置100包含一向上混合器130,該向上混合器130被組態成應用時變向上混合參數來對向下混合音訊信號進行向上混合以便獲得向上混合的音訊信號120。裝置100也包含一參數決定器140,該參數決定器140被組態成接收量化的向上混合參數輸入資訊142。參數決定器140被組態成基於量化的向上混合參數輸入資訊142來獲得一或一個以上時間平滑化向上混合參數144以供向上混合器130使用。
參數決定器140被組態成利用一相位改變限制演算法146將前一平滑化相位值之一縮放版本與被包括於量化的向上混合參數輸入資訊142中之一輸入相位資訊142a之一縮放版本相組合以基於該前一平滑化相位值與該輸入相位資訊142來決定一目前平滑化相位值144a。該目前平滑化相位值144a被包括於時變平滑化向上混合參數144中。
下面將說明有關裝置100的功能的一些細節。向下混合音訊信號110例如以一序列的複數值組的形式被輸入至向 上混合器130中,該複數值表示時頻域(描述在由此處未說明之編碼器決定的一更新速率之下的重疊與非重疊頻帶或頻率子帶)中的向下混合音訊信號。向上混合器130被組態成依賴於時變平滑化向上混合參數來將向下樣本音訊信號110之多個通道線性組合及/或將向下樣本音訊信號110之一通道與一輔助信號(例如,解相關信號)線性組合(其中該輔助信號可自向下樣本音訊信號110之同一音訊通道、自向下樣本音訊信號110之一或一個以上的其它音訊通道、或自向下樣本音訊信號110之音訊通道的一組合獲得)。因此,時變平滑化向上混合參數144可被向上混合器130使用以基於向下混合音訊信號110決定在產生向上混合音訊信號120(或其一通道)中所使用的量級縮放及/或一相位旋轉(或時間延遲)。
參數決定器140典型地被組態成以一等於(或在一些情況中高於)量化的向上混合參數輸入資訊142所描述之旁側資訊的更新速率來提供時變平滑化向上混合參數144。參數決定器140可被組態成避免(或至少減小)由量化的向上混合參數輸入資訊142的一粗略(位元率節省)量化而引起的失真。為此目的,參數決定器140可對例如描述通道間相位差之相位資訊應用一平滑化。此對被包括於量化向上混合參數輸入資訊142中之輸入相位資訊142a的平滑化是利用一相位改變限制演算法143而執行,使得會造成可聞失真之相位的大且突然的改變被避免(或至少被限制為一可容忍的程度)。
該平滑化較佳地藉由將前一平滑化相位值與輸入相位資訊142a的一值相結合而被執行,使得一目前平滑化的相位值依賴於該前一平滑化相位值與輸入相位資訊142a的目前值。如此,一特定的平滑化過渡可利用平滑化演算法的一簡單結構而被獲得。換言之,一有限脈衝響應平滑化的缺點可藉由提供一考慮到該前一平滑化相位值的無限脈衝響應型而被避免。
可取捨地,參數決定器140可包含一額外的內插功能,如果量化的向上混合參數輸入資訊142以相對長時間間隔(例如,每組向下混合音訊信號110的頻譜值不到一次)被傳輸,此內插功能是有利的。
總之,裝置100允許基於量化的向上混合參數輸入資訊142提供時變平滑化相位值144a,使得時變平滑化相位值144a極適於利用向上混合器130自向下混合音訊信號導出向上混合音訊信號120。
利用上面討論構想來提供平滑化相位值144減小(或甚至消除)可聞失真,其中一前一平滑化相位值之考慮與一相位改變限制結合。因此,獲得向上混合音訊信號120的一良好聽覺效果。
2.依據第2圖的實施例 2.1.第2圖實施例的概觀
參考第2a與2b圖將說明有關一用以對一音訊信號進行向上混合之裝置的結構與操作之進一步的細節。第2a與2b圖依據本發明之另一實施例繪示一用以對一向下混合音訊信號進行混合之裝置200的一詳細方塊系統圖。
裝置200可被視作一用以基於一向下混合音訊信號210及一旁側資訊SI產生一多通道(例如,5.1)音訊信號之解碼器。裝置200實施已針對裝置100而說明的功能。
裝置200可例如服務於解碼一依據一所謂的「雙耳線索編碼」、一所謂的「參數立體聲」或一所謂的「MPEG環繞」而編碼之多通道音訊信號。自然地,裝置200可類似地被用於依據其它利用空間線索的系統來對多通道音訊信號進行向上混合。
為簡明起見,裝置200被說明,該裝置200對一單一通道向下混合音訊信號執行一向上混合成為一兩通道信號。然而,這裡說明的構想易於擴展至向下混合音訊信號包含一個以上通道的情況,且也易於擴展至向上混合音訊信號包含兩個以上通道的情況。
2.2.第2圖實施例的輸入信號與輸入時序
裝置200被組態成接收向下混合音訊信號210及旁側資訊212。此外,裝置200被組態成提供一包含例如多個通道的向上混合音訊信號214。
向下混合音訊信號210例如可以是由一編碼器(例如,第7圖所示的BCC編碼器810)產生的一合量信號。向下混合音訊信號210可舉例而言以一複數值頻率分解的形式例如被表示於一時頻域中。例如,音訊信號之複數頻率子帶(可以重疊或非重疊)的音訊內容可用相對應的複數值表示。對於一指定頻帶,向下混合音訊信號可由描述後續(重疊與非重疊)時間間隔考慮中的頻率子帶中的音訊內容之複數值序列來表示。後續時間間隔的後續複數值可在裝置100(其可以是一多通道音訊信號解碼器的部分)或一耦接至裝置100之額外裝置中例如利用一濾波器組(例如,QMF濾波器組)、一快速傅立葉變換或其他同等物而被獲得。然而,本文所予以描述的向下混合音訊信號210的表示型態通常不等同於用於自一多通道音訊信號編碼器傳輸至一多通道音訊信號解碼器或裝置100之向下混合信號的表示型態。因此,向下混合音訊信號210可由複數值組或向量的一序列來表示。
下面假定,向下混合音訊信號210之後續時間間隔被用一整數值指數k標示。亦假定的是,裝置200在向下混合音訊信號210的每一間隔k及每一通道接收一組複數值或複數值向量。因此,一樣本(複數值組或向量)在時間指數k描述的每一音訊樣本更新間隔被接收。
換言之,向下混合音訊信號210之音訊樣本(“AS”)被裝置210接收使得一單一音訊樣本AS與每一音訊樣本更新間隔k相關聯。
裝置200進一步接收一描述向上混合參數的旁側資訊。例如,旁側資訊212可描述下列向上混合參數中之一或一個以上者:通道間級差(ILD)、通道間相關(或相干)(ICC)、通道間時間差(ITD)、通道間相位差(IPD)、及總相位差(OPD)。典型地,旁側資訊212包含ILD參數及參數ICC、ITD、IPD、OPD中之至少一者。然而,為了節省頻寬,在一些實施例中旁側資訊212在向下混合音訊信號210之音訊樣本更新間隔k的每倍數僅朝裝置200傳輸或被裝置200接收一次(或旁側資訊之一單一組的傳輸可在時間上涵蓋複數音訊樣本更新間隔k)。因此,在一些情況中,複數音訊樣本更新間隔k僅有一組旁側資訊參數。然而,在其它情況中,每一音訊樣本更新間隔k可有一組旁側資訊。
旁側資訊更新的間隔以指數n標示,其中僅為簡單起見,下面將假定,用整數值指數k標示之向下混合音訊信號210的後續時間間隔等於旁側資訊SI 212的更新時間間隔,使得保持關係k=n。然而,如果向下混合音訊信號210的複數後續時間間隔k僅執行一次旁側資訊SI 212更新,一內插可於例如後續輸入相位資訊值αn 或後續平滑化相位值之間被執行。
舉例而言,旁側資訊能以音訊樣本更新間隔k=4、k=8及k=16被傳輸至裝置200(或被其接收)。對比之下,沒有旁側資訊212可在該等音訊樣本更新間隔之間被傳輸至裝置200(或被其接收)。因此,旁側資訊212的更新間隔可隨時間變化,因為編碼器可例如僅在當需要時(例如,當解碼器認識到旁側資訊的改變大於一預定值時)才決定提供一旁側資訊更新。舉例而言,裝置200在音訊樣本更新間隔k=4接收的旁側資訊可與音訊樣本更新間隔k=3、4、5相關聯。類似地,裝置200在音訊樣本更新間隔k=8接收的旁側資訊可與音訊樣本更新間隔k=6、7、8、9、10相關聯,等等。然而,一不同關聯自然是可能的且旁側資訊的更新間隔自然地也可大於或小於所討論的間隔。
2.3.第2圖實施例的輸出信號與輸出時序
然而,裝置200在一複數值頻率組成中用來提供向上混合音訊信號。舉例而言,裝置200可被組態成提供向上混合音訊信號214使得該向上混合音訊信號包含與向下混合音訊信號210相同的音訊樣本更新間隔或音訊信號更新率。換言之,對向下混合音訊信號210的每一樣本(或音訊樣本更新間隔k),在一些實施例中產生向上混合音訊信號214的一樣本。
2.4.向上混合
下面將詳細說明對於每一音訊樣本間隔k如何獲得被用於對向下混合音訊信號210進行向上混合之向上混合參數的一更新,即便在一些實施例中解碼器輸入旁側資訊212僅可以較大更新間隔被更新。下面,將說明對一單一子頻帶的處理,但是此構想可自然地被擴展至多個子頻帶。
裝置200可包含一向上混合器230為一關鍵組件,該向上混合器230被組態成作為一複數值線性組合器而運作。向上混合器230被組態成接收與音訊樣本更新間隔k相關聯之向下混合音訊信號210(例如,表示某一頻帶)的一樣本x(t)或x(k)。信號x(t)或x(k)有時也標示為「乾信號」。另外,向上混合器230被組態成接收表示向下混合音訊信號的一解相關版本之樣本q(t)或q(k)。
進一步地,裝置200包含一解相關器(例如,一延遲器或反射器)240,該解相關器240被組態成接收向下混合音訊信號的樣本x(k)並基於此向下混合音訊信號的樣本x(k)提供向下混合音訊信號(用x(k)表示)之一解相關版本的樣本q(k)。向下混合音訊信號(樣本x(k))之該解相關版本(樣本q(k))可被標示為「濕信號」。
向上混合器230包含例如一矩陣向量乘法器232,該矩陣向量乘法器232被組態成執行「乾信號(用x(k)表示)」與「濕信號(用q(k)表示)」的一實數值(或在一些情況中,複數值)線性組合以獲得一第一向上混合通道信號(用樣本y1 (k)表示)與一第二向上混合通道信號(用樣本y2 (k)表示)。矩陣向量乘法器232可例如被組態成執行下列矩陣向量乘法來獲得向上混合通道信號的樣本y1 (k)與y2 (k):
矩陣向量乘法器232或複數值線性組合器230可進一步包含一相位調整器233,該相位調整器233被組態成調整表示向上混合通道信號之樣本y1 (k)與y2 (k)的相位。舉例而言,相位調整器233可被組態成獲得相位調整的第一向上混合通道信號,該相位調整的第一向上混合通道信號依據
以樣本(k)表示,並獲得相位調整的第二向上混合通道信號,該相位調整的第二向上混合通道信號依據
以樣本(k)表示。
因此,向上混合音訊信號214,其樣本被用(k)與(k)表示,是由複數值線性組合器230基於乾信號與濕信號利用時變向上混合參數而被獲得。時變平滑化相位值被用於決定向上混合音訊信號(k)與(k)的相位(或通道間相位差)。舉例而言,相位調整器232可被組態成應用時變平滑化相位值。然而,可選擇地,時變平滑化相位值可能已被矩陣向量乘法器232使用(或甚至在矩陣H 之項的產生中)。在此情況中,相位調整器233整個可被忽略。
2.5向上混合參數的更新
如由上述方程式可見,期望更新每一音訊樣本更新間隔k的向上混合參數矩陣H (k)與向上混合通道相位值α1 (k)、α2 (k)。更新每一音訊樣本更新間隔k的向上混合參數矩陣導致該向上混合參數矩陣始終良好適應實際聲學環境之優點。因為向上混合參數矩陣的改變分佈於多個音訊樣本更新間隔,即使旁側資訊212在音訊樣本的每倍數更新間隔k僅被更新一次,更新每一音訊樣本更新間隔k的向上混合參數矩陣也允許保持後續音訊樣本間隔k之間之向上混合參數矩陣H (或其項)的逐步改變小。再者,期望平滑化由對旁側資訊SI 212的一量化而引起之向上混合參數矩陣H 的任何改變。類似地,期望充分頻繁地更新向上混合通道相位值α1 (k)與α2 (k),以便至少在一連續音訊信號期間避免該等向上混合通道相位值的逐步改變。再者,期望時間平滑化該等向上混合通道相位值以便減小或避免可能由旁側資訊SI 212的一量化而引起的失真。
裝置200包含一旁側資訊處理單元250,該旁側資訊處理單元250被組態成基於旁側資訊212提供時變向上混合參數262,例如,矩陣H (k)的項Hij (k)與向上混合通道相位值α1 (k)、α2 (k)。旁側資訊處理單元250例如被組態成對每一音訊樣本更新間隔k提供一更新的向上混合參數組,即使旁側資訊212在音訊樣本的每倍數更新間隔k僅被更新一次。然而,在一些實施例中旁側資訊處理250可被組態成較不經常,例如旁側資訊SI 212的每一更新僅提供一次時變平滑化向上混合參數的更新組。
旁側資訊處理單元250包含一向上混合參數輸入資訊決定器252,該向上混合參數輸入資訊決定器252被組態成接收旁側資訊212並基於此旁側資訊212而獲得一或一個以上的向上混合參數(例如,向上混合參數之量值的一序列254及向上混合參數之相位值的一序列256),該(等)向上混合參數可被視作一向上混合參數輸入資訊(包含例如,一輸入量級資訊254及一輸入相位資訊256)。舉例而言,向上混合參數輸入資訊決定器252可組合複數線索(例如,ILD、ICC、ITD、IPD、OPD)來獲得向上混合參數輸入資訊254、256或可個別地評估該等線索中之一或一個以上的線索。向上混合參數輸入資訊決定器252被組態成以輸入量值(也標示為輸入量級資訊)的一序列254及輸入相位值(也標示為輸入相位資訊)的一單獨序列256的形式來描述向上混合參數。輸入相位值之序列256的元素可被視作一輸入相位資訊αn 。序列254之輸入量值可例如代表一複數的絕對值,及序列256的輸入相位值可例如代表該複數的一角度值(或相位值)(例如相對一實部虛部正交座標系中的一實部軸而被量測)。
因此,向上混合參數輸入資訊決定器252可提供向上混合參數之輸入量值的序列254及向上混合參數之輸入相位值的序列256。向上混合參數輸入資訊決定器252可被組態成自一組旁側資訊獲得一整組向上混合參數(例如,一整組的矩陣H 之矩陣元素及一整組的相位值α1 、α2 )。一整組旁側資訊212與一組輸入向上混合參數254、256之間有一關聯。因此,向上混合參數輸入資訊決定器252可被組態成在每一向上混合參數更新間隔,亦即在每次更新該組旁側資訊,即更新序列254、256的輸入向上混合參數一次。
旁側資訊處理單元進一步包含一參數平滑器(有時也被簡單標示為「參數決定器」)260,該參數平滑器260將在下面詳細說明。參數平滑器260被組態成接收向上混合參數(或矩陣元素)之(實數值)輸入量值的序列254與向上混合參數(或矩陣元素)之(實數值)輸入相位值的序列256,向上混合參數(或矩陣元素)之(實數值)輸入相位值的序列256可被視作一輸入相位資訊αn 。此外,參數平滑器被組態成基於對序列254與序列256的一平滑化來提供時變平滑化向上混合參數262的一序列。
參數平滑器260包含一量值平滑器270與一相位值平滑器272。
量值平滑器被組態成接收序列254並基於序列254提供向上混合參數(或一矩陣之矩陣元素)之平滑化量值的一序列274。量值平滑器270可例如被組態成執行一量值平滑化,這將在下面詳細討論。
類似地,相位值平滑器272可被組態成接收序列256並基於序列256提供向上混合參數(或矩陣值)之時變平滑化相位值的一序列276。相位值平滑器272可例如被組態成執行一平滑化演算法,這將在下面被詳細討論。
在一些實施例中,量值平滑器270及相位值平滑化被組態成單獨或獨立地執行量值平滑化及相位值平滑化。因此,序列254之量值並不影響相位值平滑化,且序列256之相位值並不影響量值平滑化。然而,假定的是,量值平滑器270與相位值平滑器272以一時間同步方式運作使得序列274、276包含向上混合參數對應成對的平滑化量值與平滑化相位值。
通常,參數平滑器260個別作用於不同的向上混合參數或矩陣元素。因此,參數平滑器260可針對每一向上混合參數(出自複數向上混合參數)或矩陣H 的矩陣元素接收量值的一序列254。類似地,參數平滑器260可接收輸入相位值αn 的一序列256供每一向上混合音訊通道的相位調整。
2.6有關參數平滑化的細節
下面將說明有關本發明之一實施例的細節,該實施例減小了在一解碼器中由量化IPD/OPD及/或估計OPD而導致的相位處理失真。為了簡明起見,下面說明僅限為一自一至二通道的向上混合,並不限制可應用相同技術之一自m至n通道之向上混合的一般情況。
解碼器例如自一至兩通道的向上混合程序由稱為乾信號的向下混合信號x(也用x(k)標示)及稱為濕信號之向下混合信號q(也用q(k)標示)的一解相關版本構成之一向量與一向上混合矩陣H 的一矩陣乘法而完成。濕信號q已藉由饋送向下混合信號x通過一解相關濾波器240而被產生。向上混合信號y是一包含輸出之第一及第二通道(例如,輸出之y1 (k)與y2 (k))。所有信號x、q、y可以一複數值頻率分解(例如,時頻域表示型態)。
此矩陣操作是針對每一頻帶的所有子頻帶樣本(或至少針對一些頻帶的一些子頻帶樣本)而被執行(例如,單獨地)。例如,矩陣操作可依據下列方程式而執行:
向上混合矩陣H 的係數是由空間線索而獲得,典型地ILD與ICC,造成基本上對於每一通道基於ICC執行一乾與濕信號混合之實數值矩陣元素,並依ILD決定調整兩輸出通道的輸出層級。
對於空間線索(例如,ILD、ICC、ITD、IPD及/或OPD)的傳輸,期望在編碼器中量化一些或所有類型的參數。特別地對於低位元率情形,經常期望(或甚至必需)利用一相當粗略的量化來減小傳輸資料數量。然而,對於某些類型的信號,一粗略量化可導致可聞失真。為了減小這些失真,一平滑化操作可被應用於向上混合矩陣H 的元素來平滑導致失真之相鄰量化器步驟之間的過渡。
該平滑化例如可由對矩陣元素的一簡單低通濾波來執行:
此平滑化例如可由量值平滑器270來執行,其中目前輸入量級資訊H n (例如,由向上混合參數輸入資訊決定器252提供及用254標示)可與前一平滑化量值(或量級矩陣)相組合以便獲得一目前平滑化的量值(或量級矩陣)
因為平滑化可對信號部分有一負面影響,其中空間參數快速改變,平滑化可由自編碼器傳輸之額外的旁側資訊來控制。
下面將詳細說明相位值的應用與決定。如果IPD及/或OPD被使用,一額外的相移可被應用於輸出信號(例如,樣本y1 (k)與y2 (k)定義的信號)。IPD描述兩通道(例如,由樣本(k)定義的相位調整第一向上混合通道信號與樣本(k)定義的相位調整第二向上混合通道信號)之間的相位差而OPD描述一通道與向下混合之間的一相位差。
下面參考第3圖將簡要闡述IPD與OPD的定義,第3圖繪示向下混合信號與複數通道信號之間相位關係的一概要圖。現在參考第3圖,向下混合信號(或其一頻譜係數)的一相位由一第一指標310表示。一相位調整的第一向上混合通道信號(或其一頻譜係數(k))之一相位被一第二指標320表示。向下混合信號(或其一頻譜值或係數)與相位調整的第一向上混合通道信號(或其一頻譜係數)之間的一相位差用OPD1來標示。一相位調整的第二向上混合通道信號(或其一頻譜係數(k))由一第三指標表示。向下混合信號(或其該頻譜係數)與相位調整的第二向上混合通道信號(或其該頻譜係數)之間的一相位差用OPD2來標示。該相位調整的第一向上混合通道信號(或其一頻譜係數)與該相位調整的第二向上混合通道信號(或其一頻譜係數)之間的一相位差用IPD標示。
為重建原始信號的相位屬性(基於乾信號提供具有適當相位之相位調整的第一向上混合通道信號與相位調整的第二向上混合通道信號),應知曉此兩通道的OPD。往往,IPD連同一OPD一起傳輸(第二OPD接著可由此計算)。為減少傳輸資料量,與傳輸的ILD及IPD一同利用被包含於向下混合信號中的相位資訊,在解碼器中僅傳輸IPD並估計OPD也是可能的。此處理可例如由向上混合參數輸入資訊決定器252來執行。
解碼器(例如,裝置200)中的相位重建是依據下列方程式由輸出子頻帶信號(例如,由頻譜係數y1 (k)、y2 (k)所描述的信號)的一複數旋轉而被執行:
在上面方程式中,角度α1 與α2 等於兩通道的OPD(或,例如,平滑化的OPD)。
如上所述,參數(例如,ILD參數及/或ICC參數)的粗略量化可導致可聞失真,這也適用於IPD與OPD的量化。如上所述的平滑化操作被應用於向上混合矩陣H n 的元素,它僅減少由ILD與ICC的量化而引起的失真,而這些由相位參數的量化而引起的失真並不受影響。
此外,額外的失真可由上述被應用於每一輸出通道之時變相位旋轉而引入。已得知的是,如果相移角度α1 與α2 隨時間快速波動,應用的旋轉角度可導致瞬時信號頻率的短漏失或一改變。
這兩問題可藉由將上述平滑化方法之一修改版本應用於角度α1 與α2 而顯著減少。因為在此情況中,平滑化濾波器被應用於環繞每個2π的角度,透過一所謂的展開(unwrapping)來修改平滑化濾波器是較佳的。因此,依據下列演算法來計算一平滑化相位值,該演算法通常規定對一相位改變的一限制:
下面參考第4a、4b、5a及5b圖將簡要說明上述演算法的功能。參考上述用於計算目前平滑化相位值的方程式或演算法,可以看出的是,如果,值αn之一差小於或等於π(上述方程式的「不然」情況),目前平滑化相位值是由一加權線性組合被獲得而無需目前輸入相位資訊αn 與前一平滑化相位值的一額外被加數。假定δ是零與一之間決定(或表示)平滑化過程的一時間常數之一參數,目前平滑化相位值將在值αn之間。舉例而言,如果δ=0.5,的值是αn之間的平均值(算術平均值)。
然而,如果αn之差大於π,滿足上述方程式的第一種情況(列)。在此情況中,目前平滑化相位值是由αn的一線性組合而被獲得,計入一常數相位修改項-2πδ。因此,可實現保持有一十分小的差。此情況的一範例在第4a圖中繪示,其中相位被一第一指標410繪示,相位αn 被一第二指標412繪示及相位被一第三指標414繪示。
第4b圖繪示針對不同值與αn 的相同情況。同樣,相位值、αn由指標450、452、454繪示。
同樣,之間的角度差被保持十分小。在兩種情況中,相位值定義的方向是兩角度區域中的較小者,其中兩角度區域中的第一個將藉由將指標410、450以一數學正(逆時針)方向朝指標412、452旋轉而被覆蓋,及其中該第二角度區域將藉由將指標412、452以一數學正(逆時針)方向朝指標410、450旋轉而被覆蓋。
然而,如果得知相位值αn之間的差小於-π,利用上述方程式的第二種情況(列)來獲得的值。相位值是透過αn的一線性組合而被獲得,具有一常數相位適應項-2πδ。在第5a及5b圖中說明此種αn -小於-π情況的範例。
總之,相位值平滑器272可被組態成依賴於值αn之差來選擇不同的相位值計算規則(可以是線性組合規則)。
2.7平滑化構想的可取捨擴展
下面將討論上面所討論相位值平滑化構想的一些可取捨擴展。至於其他參數(例如,ILD、ICC、ITD),在旋轉角度而要一快速改變之處可能有信號,例如,如果原始信號(例如一編碼器處理的一信號)的IPD快速改變。對於此類信號,相位值平滑器272執行的平滑化將(在一些情況中)對輸出品質有一負面影響且不應該被應用於此類情況中。為了避免由頻帶編碼器針對每一信號處理控制平滑化所需要之可能的位元率開銷,在解碼器中(例如,在裝置200中)可利用一適應性平滑化控制(例如,利用一平滑化控制器而被實施):生成的IPD(亦即兩平滑化角度之差,例如,角度α1 (k)與α2 (k))被計算且與傳輸的IPD(例如,輸入相位資訊αn 描述的一通道間相位差)比較。如果一差大於某一門檻值,平滑化可被禁用且未處理的角度(例如,由輸入相位資訊描述且由向上混合參數輸入資訊決定器提供的角度αn )可被(例如,相位調整器233)利用,或者低通濾波的角度(例如,相位值平滑器272提供的平滑化相位值)可被(例如,相位調整器233)應用於輸出信號。
在一(可取捨的)高階版本中,相位值平滑器272應用的演算法可利用一可變化濾波器時間常數而被擴展,該可變化濾波器時間常數是基於目前處理與未處理IPD之差而被修改。舉例而言,參數δ的值(其決定濾波器時間常數)可依賴於目前平滑化相位值與目前輸入相位值αn 之一差或依賴於前一平滑化相位值與目前輸入相位值αn 之一差而被調整。
此外在一些實施例中,在某些適應性平滑化控制無法提供最佳結果的關鍵信號情況下,一單一位元能(可取捨地)被傳輸於位元串流(表示向下混合音訊信號210及旁側資訊212)中以完全啟用或禁用編碼器對所有頻帶的平滑化。
3.結論
綜上所述,參數化多通道音訊編碼之適應性相位處理的一般性概念已被描述。依據當前發明的實施例藉由減小由對相位參數的粗略量化或快速改變而引起之輸出信號中的失真取代其他技術。
4.方法
依據本發明的一實施例包含一種將一描述一或一個以上的向下混合音訊通道之向下混合音訊信號向上混合成一描述複數向上混合音訊通道之向上混合音訊信號的方法。第6圖繪示此一方法的一流程圖,其整體用700來標示。
方法700包含一步驟710:利用一相位改變限制演算法將前一平滑化相位值之一縮放版本與一目前相位輸入資訊之一縮放版本相組合以基於該前一平滑化相位值與該輸入相位資訊來決定一目前平滑化的相位值。
方法700也包含一步驟720:應用時變向上混合參數來對一向下混合音訊信號進行向上混合以便獲得一向上混合的音訊信號,其中該時變向上混合參數包含時間平滑化的相位值。
自然地,方法700可由本文就發明裝置而予以描述的特徵與功能當中之任一來補充。
5.實施選替方案
雖然在一裝置的脈絡中已說明了一些層面,但是清楚的是,這些層面也表示對相對應方法的一說明,其中一區塊或一裝置對應於一方法步驟或一方法步驟的一特徵。類似地,在一方法步驟的脈絡中所說明的層面也表示對一相對應區塊或項目或一相對應裝置的特徵之一說明,一些或所有方法步驟可由(或利用)一硬體裝置來執行,例如,一微處理器、一可程式化電腦或一電子電路。在一些實施例中,某一或一個以上的最重要方法步驟可由此一裝置來執行。
視某些實施需求而定,本發明的實施例可在硬體或軟體中實施。利用一儲存有電子可讀取控制信號之數位儲存媒體,例如一軟碟、一DVD、一藍光、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快閃記憶體可執行該實施,它們與一可程式化電腦系統合作(或能夠合作)使得各自的方法被執行。因此,該數位儲存媒體可以是電腦可讀取的。
依據本發明的一些實施例包含一具有電子可讀取控制信號的資料載體,該資料載體能夠與一可程式化電腦系統合作使得本文所予以描述之方法當中之一方法被執行。
大體上,本發明之實施例可作為一具有一程式碼的電腦程式產品而被實施,當該電腦程式產品運行於一電腦上時,該程式碼可操作用於執行該等方法當中之一方法。該程式碼例如被儲存於一機器可讀取載體上。
其它實施例包含儲存於一機器可讀取媒體上、用於執行本文所予以描述之該等方法當中之一方法的電腦程式。
換言之,發明方法的一實施例因而是一電腦程式,具有一當該電腦程式運行於一電腦上時用以執行本文所予以描述之該等方法當中之一方法的程式碼。
發明方法的一進一步實施例因而是一資料載體(或一數位儲存媒體或一電腦可讀取媒體),其包含上面記錄用以執行本文所予以描述之該等方法當中之一方法的電腦程式。
發明方法的一進一步實施例因而是一資料串流或一信號序列,表示用於執行本文所予以描述之該等方法當中之一方法的電腦程式。該資料串流或該信號序列可例如被組態成經由一資料通訊連接例如經由網際網路來被傳遞。
一進一步的實施例包含一上面安裝有用以執行本文所予以描述之該等方法當中之一方法的電腦。
在一些實施例中,一可程式化邏輯裝置(例如,一欄位可程式化閘陣列)可被用來執行本文所予以描述之該等方法的一些或所有功能。在一些實施例中,一欄位可程式化閘陣列可與一微處理器合作以便執行本文所予以描述之該等方法當中之一方法。大體上,該等方法較佳地被任一硬體裝置執行。
上述實施例僅僅是為了說明本發明的原理。明白的是,對本文所予以描述之安排與細節的修改或改變對其他熟於此技者而言將是顯而易見的。因而意圖僅受後附的申請專利範圍之範圍限制而不受藉本文實施例的說明與闡述所呈現之特定細節限制。
參考文獻
[1] C. Faller and F. Baumgarte,"Efficient representation of spatial audio using perceptual parameterization",IEEE WASPAA,Mohonk,NY,October 2001
[2] F. Baumgarte and C. Faller,"Estimation of auditory spatial cues for binaural cue coding",ICASSP,Orlando,FL,May 2002
[3] C. Faller and F. Baumgarte,"Binaural cue coding: a novel and efficient representation of spatial audio," ICASSP,Orlando,FL,May 2002
[4] C. Faller and F. Baumgarte,"Binaural cue coding applied to audio compression with flexible rendering",AES 113th Convention,Los Angeles,Preprint 5686,October 2002
[5] C. Faller and F. Baumgarte,"Binaural Cue Coding-Part II: Schemes and applications," IEEE Trans,on Speech and Audio Proc.,vol. 11,no. 6,Nov. 2003
[6] J. Breebaart,S. van de Par,A. Kohlrausch,E. Schuijers,"High-Quality Parametric Spatial Audio Coding at Low Bitrates",AES 116th Convention,Berlin,Preprint 6072,May 2004
[7] E. Schuijers,J. Breebaart,H. Purnhagen,J. Engdegard,"Low Complexity Parametric Stereo Coding",AES 116th Convention,Berlin,Preprint 6073,May 2004
[8] ISO/IEC JTC 1/SC 29/WG 11,23003-1,MPEG Surround
[9] J. Blauert,Spatial Hearing: The Psychophysics of Human Sound Localization,The MIT Press,Cambridge,MA,revised edition 1997
100、200...裝置
110、210...向下混合音訊信號
120、214...向上混合的音訊信號
130、230...向上混合器
140...參數決定器
142...量化的向上混合參數輸入資訊
143、146...相位改變限制演算法
144...時變平滑化向上混合參數
144a...目前平滑化的相位值、時變平滑化相位值
212...旁側資訊
232...矩陣向量乘法器
233...相位調整器
240...解相關濾波器、解相關器
250...旁側資訊處理單元
252...向上混合參數輸入資訊決定器
254...輸入量級資訊
256...輸入相位資訊
260...參數平滑器
262...時變向上混合參數
270...量值平滑器
272...相位值平滑器
274...向上混合參數之平滑化量值序列
276...向上混合參數之時變平滑化相位值序列
310、410...第一指標
320、412...第二指標
330、414...第三指標
450、452、454...指標
700...方法
710、720...步驟
800...雙耳線索編碼傳輸系統
810...雙耳線索編碼編碼器
812a、812b、812c...音訊信號、音訊輸入信號
814...向下混合器
816...向下混合信號
818...分析器
819...旁側資訊信號
820...雙耳線索編碼解碼器
822...雙耳線索編碼合成器
824...通道間線索
826...旁側資訊處理器
827...使用者輸入
第1圖依據本發明之一實施例繪示一用以對一向下混合音訊信號進行向上混合之裝置的一方塊系統圖;
第2a及2b圖依據本發明之另一實施例繪示一用以對一向下混合音訊信號進行向上混合之裝置的一方塊系統圖;
第3圖繪示總相位差OPD1、OPD2與一通道間相位差IPD的一概要圖;
第4a及4b圖繪示該相位改變限制演算法的一第一種情況之相位關係的圖示;
第5a及5b圖繪示對該相位改變限制演算法的一第二種情況之相位關係的圖示;
第6圖依據本發明之一實施例繪示一用以將一向下混合音訊信號向上混合成一向上混合音訊信號之方法的一流程圖;
第7圖繪示一表示一通用雙耳線索編碼方案的方塊系統圖。
100...裝置
110...向下混合音訊信號
120...向上混合的音訊信號
130...向上混合器
140...參數決定器
142...量化的向上混合參數輸入資訊
143、146...相位改變限制演算法
144...時變平滑化向上混合參數
144a...目前平滑化的相位值、時變平滑化相位值

Claims (13)

  1. 一種用以將一描述一或多個向下混合音訊通道之向下混合音訊信號向上混合成一描述複數向上混合音訊通道之向上混合音訊信號的裝置,該裝置包含:一向上混合器,其組配來應用時變向上混合參數來對該向下混合音訊信號進行向上混合以便獲得該向上混合音訊信號,其中該等時變向上混合參數包含時變平滑化相位值;一參數決定器,其中該參數決定器係組配來基於一量化的向上混合參數輸入資訊獲得一或多個時間平滑化向上混合參數以供該向上混合器使用,其中該參數決定器係組配來利用一相位改變限制演算法將一先前平滑化相位值()之一縮放版本((1-δ))與一輸入相位資訊(αn )之一縮放版本(δαn )組合以基於該先前平滑化相位值與該輸入相位資訊決定一目前平滑化相位值()。
  2. 如申請專利範圍第1項所述之裝置,其中該參數決定器係組配來將該先前平滑化相位值()之該縮放版本((1-δ))與該輸入相位資訊(αn )之該縮放版本(δαn )組合,使得該目前平滑化相位值()在一第一角度區域與一第二角度區域當中之一較小角度區域中,其中該第一角度區域以一數學正方向自該先前平滑化相位值()所定義之一第一開始方向延伸至該輸入相位資訊(αn )所定義之一第一結束方向,且其中該第二角度區域以一數 學正方向自該輸入相位資訊(αn )所定義之一第二開始方向延伸至該先前平滑化相位值()所定義之一第二結束方向。
  3. 如申請專利範圍第1項所述之裝置,其中該參數決定器係組配來取決於該輸入相位資訊(αn )與該先前平滑化相位值()之間的一差(αn -)自複數不同組合規則中選擇一組合規則,並利用該選定的組合規則來決定該目前平滑化相位值()。
  4. 如申請專利範圍第3項所述之裝置,其中該參數決定器係組配成如果該輸入相位資訊(αn )與該先前平滑化相位值()之差在-π與+π之間的一範圍中則選擇一基本相位組合規則,否則選擇一或多個不同的相位適應組合規則;其中該基本相位組合規則定義一沒有一常數被加數的該輸入相位資訊之該縮放版本(δαn )與該先前平滑化相位值之該縮放版本((1-δ))的線性組合;及其中該一或多個相位適應組合規則定義一計入一常數相位適應被加數(+π,-π)的該輸入相位資訊之該縮放版本與該先前平滑化相位值之該縮放版本的線性組合。
  5. 如申請專利範圍第1項所述之裝置,其中該參數決定器係組配來依據下列方程式獲得一目前平滑化相位值 其中標示該先前平滑化相位值;αn 標示該輸入相位資訊;“mod”標示一模(MODULO-)運算符;及δ標示一平滑化參數,該平滑化參數的一值在零與一之間的一間隔中,不含該間隔之邊界。
  6. 如申請專利範圍第1項所述之裝置,其中該參數決定器包含一平滑化控制器,其中該平滑化控制器係組配成如果一平滑化相位量()與一相對應輸入相位量(αn )之一差大於一預定門檻值則選擇性地停用一相位值平滑化功能。
  7. 如申請專利範圍第6項所述之裝置,其中該平滑化控制器係組配來評估兩平滑化相位值(α1 、α2 )之間的一差作為該平滑化相位量,並評估對應於該兩平滑化相位值(α1 、α2 )之兩輸入相位值之間的一差作為該相對應輸入相位量。
  8. 如申請專利範圍第1項所述之裝置,其中該向上混合器係組配成,如果一平滑化功能被啟用,則針對一指定時間部分應用由不同平滑化相位值(α1 、α2 )所定義之不同時間上平滑化的相位旋轉(α1 、α2 )來獲得具有一通道間相位差之不同的向上混合音訊通道的信號((k ),(k )), 及如果該平滑化功能被停用,則應用由不同非平滑化相位值所定義之時間上非平滑化的相位旋轉來獲得具有一通道間相位差之該等不同向上混合音訊通道的信號;其中該參數決定器包含一平滑化控制器;及其中該平滑化控制器係組配成,如果被應用於獲得該等不同向上混合音訊通道的該等信號((k ),(k ))之該等平滑化相位值(α1、α2)之間的一差,與由該裝置所接收或由該裝置自一已接收資訊所獲得之一非平滑化通道間相位差值,相差超過一預定門檻值,則選擇性停用一相位值平滑化功能。
  9. 如申請專利範圍第1項所述之裝置,其中該參數決定器係組配來取決於一平滑化相位值()與一相對應輸入相位值(αn )之間的一目前差調整一濾波器時間常數(δ)以供決定平滑化相位值()的一序列。
  10. 如申請專利範圍第1項所述之裝置,其中該參數決定器係組配來取決於一平滑化通道間相位差,其由相關於該等向上混合音訊信號之不同通道的兩個平滑化相位值(α1 、α2 )之間的一差所定義,與一非平滑化通道間相位差,其由一非平滑化通道間相位差資訊所定義,二者之間的一差調整一濾波器時間常數(δ)以供決定平滑化相位值()的一序列。
  11. 如申請專利範圍第1項所述之裝置,其中該用於向上混合的裝置係組配來取決於一自一音訊位元流擷取之資訊選擇性啟用或停用一相位值平滑化功能。
  12. 一種用以將一描述一或多個向下混合音訊通道之向下混合音訊信號向上混合成一描述複數向上混合音訊通道之向上混合音訊信號的方法,該方法包含下列步驟:利用一相位改變限制演算法將一先前平滑化相位值之一縮放版本與一目前相位輸入資訊之一縮放版本組合,以基於該先前平滑化相位值與該輸入相位資訊決定一目前時間上平滑化相位值;及應用時變向上混合參數對一向下混合音訊信號進行向上混合以獲得一向上混合音訊信號,其中該等時變向上混合參數包含時間上平滑化相位值。
  13. 一種電腦程式,當該電腦程式運行於一電腦上時用以執行如申請專利範圍第12項所述之方法。
TW099110718A 2009-04-08 2010-04-07 用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式 TWI420512B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US16760709P 2009-04-08 2009-04-08

Publications (2)

Publication Number Publication Date
TW201118860A TW201118860A (en) 2011-06-01
TWI420512B true TWI420512B (zh) 2013-12-21

Family

ID=42335156

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099110718A TWI420512B (zh) 2009-04-08 2010-04-07 用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式

Country Status (20)

Country Link
US (6) US9053700B2 (zh)
EP (2) EP2405425B1 (zh)
JP (1) JP5358691B2 (zh)
KR (1) KR101356972B1 (zh)
CN (2) CN103325374B (zh)
AR (1) AR076238A1 (zh)
AU (1) AU2010233863B2 (zh)
BR (1) BRPI1004215B1 (zh)
CA (1) CA2746524C (zh)
CO (1) CO6501150A2 (zh)
ES (2) ES2452569T3 (zh)
HK (2) HK1163915A1 (zh)
MX (1) MX2011006248A (zh)
MY (1) MY160545A (zh)
PL (2) PL2394268T3 (zh)
RU (1) RU2550525C2 (zh)
SG (1) SG174117A1 (zh)
TW (1) TWI420512B (zh)
WO (1) WO2010115850A1 (zh)
ZA (1) ZA201103703B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
WO2011039668A1 (en) * 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
CN103403800B (zh) * 2011-02-02 2015-06-24 瑞典爱立信有限公司 确定多声道音频信号的声道间时间差
ITTO20120067A1 (it) * 2012-01-26 2013-07-27 Inst Rundfunktechnik Gmbh Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal.
CN103460283B (zh) 2012-04-05 2015-04-29 华为技术有限公司 确定多信道音频信号的编码参数的方法及多信道音频编码器
RU2608447C1 (ru) 2013-01-29 2017-01-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN105612766B (zh) * 2013-07-22 2018-07-27 弗劳恩霍夫应用研究促进协会 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、以及计算机可读介质
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830334A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
WO2015038578A2 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation System aspects of an audio codec
WO2015036350A1 (en) * 2013-09-12 2015-03-19 Dolby International Ab Audio decoding system and audio encoding system
EP2854133A1 (en) 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
WO2015059153A1 (en) * 2013-10-21 2015-04-30 Dolby International Ab Parametric reconstruction of audio signals
SG11201602628TA (en) * 2013-10-21 2016-05-30 Dolby Int Ab Decorrelator structure for parametric reconstruction of audio signals
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN107004421B (zh) 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
EP3314835B1 (en) 2015-06-26 2020-04-08 Kandou Labs S.A. High speed communications system
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
ES2938244T3 (es) * 2016-11-08 2023-04-05 Fraunhofer Ges Forschung Aparato y procedimiento para codificar o decodificar una señal multicanal usando una ganancia lateral y una ganancia residual
MX2019005214A (es) * 2016-11-08 2019-06-24 Fraunhofer Ges Forschung Mezclador y metodo para mezclar al menos dos canales y codificador multicanal y decodificador multicanal.
US10366695B2 (en) 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
KR102498475B1 (ko) 2017-12-28 2023-02-09 칸도우 랩스 에스에이 동기식으로 스위칭된 다중 입력 복조 비교기
JP7381483B2 (ja) * 2018-04-04 2023-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 自然な空間多様性をシミュレートするための動的オーディオアップミキサのパラメータ
CN108770120B (zh) * 2018-05-25 2021-03-23 上海乘讯信息科技有限公司 一种智能通道状态灯
EP3671741A1 (en) 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
EP3726730B1 (en) * 2019-04-17 2021-08-25 Goodix Technology (HK) Company Limited Peak current limiter
CN110491366B (zh) * 2019-07-02 2021-11-09 招联消费金融有限公司 音频平滑处理方法、装置、计算机设备和存储介质
AU2021357364B2 (en) * 2020-10-09 2024-06-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
KR20230084251A (ko) * 2020-10-09 2023-06-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 변환을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US11533576B2 (en) * 2021-03-29 2022-12-20 Cae Inc. Method and system for limiting spatial interference fluctuations between audio signals

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US20050228648A1 (en) * 2002-04-22 2005-10-13 Ari Heikkinen Method and device for obtaining parameters for parametric speech coding of frames

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
EP1395982B1 (en) 2001-04-09 2006-04-19 Koninklijke Philips Electronics N.V. Adpcm speech coding system with phase-smearing and phase-desmearing filters
US8340302B2 (en) 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
EP1984913A4 (en) 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
CN101379552B (zh) * 2006-02-07 2013-06-19 Lg电子株式会社 用于编码/解码信号的装置和方法
RU2343563C1 (ru) * 2007-05-21 2009-01-10 Федеральное государственное унитарное предприятие "ПЕНЗЕНСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ ИНСТИТУТ" (ФГУП "ПНИЭИ") Способ передачи и приема закодированной речи
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
KR101108060B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8346379B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
WO2010036062A2 (en) 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228648A1 (en) * 2002-04-22 2005-10-13 Ari Heikkinen Method and device for obtaining parameters for parametric speech coding of frames
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding

Also Published As

Publication number Publication date
RU2011123124A (ru) 2012-12-20
PL2405425T3 (pl) 2014-12-31
BRPI1004215A2 (pt) 2016-12-06
EP2394268A1 (en) 2011-12-14
US20200168233A1 (en) 2020-05-28
ZA201103703B (en) 2012-02-29
CO6501150A2 (es) 2012-08-15
JP2012512438A (ja) 2012-05-31
CN103325374B (zh) 2017-06-06
ES2511390T3 (es) 2014-10-22
AR076238A1 (es) 2011-05-26
MX2011006248A (es) 2011-07-20
CN102257563A (zh) 2011-11-23
PL2394268T3 (pl) 2014-06-30
HK1163915A1 (en) 2012-09-14
MY160545A (en) 2017-03-15
US11430453B2 (en) 2022-08-30
KR101356972B1 (ko) 2014-02-05
EP2405425A1 (en) 2012-01-11
US20150131801A1 (en) 2015-05-14
WO2010115850A1 (en) 2010-10-14
EP2405425B1 (en) 2014-07-23
AU2010233863A1 (en) 2010-10-14
ES2452569T3 (es) 2014-04-02
US20180358026A1 (en) 2018-12-13
SG174117A1 (en) 2011-10-28
EP2394268B1 (en) 2014-01-08
US20110255714A1 (en) 2011-10-20
KR20110095339A (ko) 2011-08-24
JP5358691B2 (ja) 2013-12-04
TW201118860A (en) 2011-06-01
BRPI1004215B1 (pt) 2021-08-17
RU2550525C2 (ru) 2015-05-10
CA2746524A1 (en) 2010-10-14
CA2746524C (en) 2015-03-03
AU2010233863B2 (en) 2013-09-26
US20220358939A1 (en) 2022-11-10
US9734832B2 (en) 2017-08-15
CN102257563B (zh) 2013-09-25
US10056087B2 (en) 2018-08-21
US20170301356A1 (en) 2017-10-19
CN103325374A (zh) 2013-09-25
US9053700B2 (en) 2015-06-09
HK1166174A1 (zh) 2012-10-19
US10580418B2 (en) 2020-03-03

Similar Documents

Publication Publication Date Title
TWI420512B (zh) 用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式
JP6633707B2 (ja) デコーダシステム及び復号方法
KR101290486B1 (ko) 다운믹스 오디오 신호를 업믹싱하는 장치, 방법 및 컴퓨터 프로그램
CN113544774A (zh) 降混器及降混方法