TWI529704B - 用以基於下混信號表示型態針對上混信號表示型態之供應來提供一或多個經調整參數之裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、使用物件相關參數資訊之方法與電腦程式 - Google Patents

用以基於下混信號表示型態針對上混信號表示型態之供應來提供一或多個經調整參數之裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、使用物件相關參數資訊之方法與電腦程式 Download PDF

Info

Publication number
TWI529704B
TWI529704B TW099113479A TW99113479A TWI529704B TW I529704 B TWI529704 B TW I529704B TW 099113479 A TW099113479 A TW 099113479A TW 99113479 A TW99113479 A TW 99113479A TW I529704 B TWI529704 B TW I529704B
Authority
TW
Taiwan
Prior art keywords
rendering
parameter
parameters
signal
information
Prior art date
Application number
TW099113479A
Other languages
English (en)
Other versions
TW201104674A (en
Inventor
喬根 希瑞
安卓斯 霍勒利爾
雷尼德 泰倫堤夫
索爾斯特 卡斯特納
寇尼利亞 費曲
席克 普瑞哈根
喬納斯 艾德加德
法拉寇 瑞德霸曲
Original Assignee
弗勞恩霍夫爾協會
杜比國際公司
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 杜比國際公司, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW201104674A publication Critical patent/TW201104674A/zh
Application granted granted Critical
Publication of TWI529704B publication Critical patent/TWI529704B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

用以基於下混信號表示型態針對上混信號表示型態之供應來提供一或多個經調整參數之裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、使用物件相關參數資訊之方法與電腦程式 發明領域
依據本發明的實施例係有關於一種用以基於一下混信號表示型態及一物件相關參數資訊針對一上混信號表示型態之供應來提供一或多個經調整參數之裝置。
依據本發明的另一實施例係有關於一音訊信號解碼器。
依據本發明的另一實施例係有關於一音訊信號轉碼器。
依據本發明的更進一步實施例係有關於一用以提供一或多個經調整參數之方法。
依據本發明的更進一步實施例係有關於一種基於一下混信號表示型態、一物件相關參數資訊及一期望渲染資訊來提供複數上混音訊通道作為一上混信號表示型態之方法。
依據本發明的又一實施例係有關於一種基於一下混信號表示型態、一物件相關參數資訊及一期望渲染資訊來提供一下混信號表示型態及一通道相關參數資訊作為一上混信號表示型態之方法。
依據本發明的更進一步實施例係有關於一音訊信號編碼器、一種用以提供一編碼音訊信號表示型態之方法及一音訊位元串流。
依據本發明之更進一步實施例係有關於相對應的電腦程式。
依據本發明之更進一步實施例係有關於針對避免失真的音訊信號處理之方法、裝置及電腦程式。
發明背景
在習知音訊處理、音訊傳輸與音訊儲存技藝中,愈益期望處理多通道內容以便提高聽覺印象。多通道音訊內容的使用為使用者帶來顯著的改進。舉例而言,獲得一3維聽覺印象,其在娛樂應用中提高使用者的滿意度。然而,多通道音訊內容在例如電話會議應用之專業環境中也是有用的,因為揚聲器可懂度可藉由使用一多通道音訊播放來提高。
然而,亦期望在音訊品質與位元率要求間有一良好折衷以避免由多通道應用導致的一過度資源載入。
最近,已提出了針對包含多個音訊物件之音訊場景的位元率有效傳輸及/或儲存的參數技術,例如,雙耳線索編碼(類型I)(參見,例如參考文獻[BCC])、聯合源編碼(參見,例如參考文獻[JSC])、及MPEG空間音訊物件編碼(SAOC)(參見,例如參考文獻[SAOC1]、[SAOC2])。
這些技術旨在感知地重建期望的輸出音訊場景而非用一波形匹配。
第8圖繪示這一系統的一系統概觀(這裡:MPEG SAOC)。在第8圖中繪示的MPEG SAOC系統800包含一SAOC編碼器810及一SAOC解碼器820。SAOC編碼器810接收複數物件信號x1至xn,它們可被表示為例如時域信號或時間-頻率-域信號(例如,為一傅立葉類型轉換之一組轉換係數的形式,或為QMF子頻帶信號的形式)。SAOC編碼器810典型地也接收下混係數d1至dn,它們與物件信號x1至xn相關聯。諸組下混係數可分別用於下混信號的每一通道。SAOC編碼器810典型地被組態成藉由依據相關聯的下混係數d1至dn組合物件信號x1至xn來獲得下混信號的一通道。典型地,下混通道比物件信號x1至xn少。為了在SAOC解碼器820端(至少近似)容許分離(或分開處理)物件信號,SAOC編碼器810提供一或多個下混信號(表示為下混通道)812及一旁側資訊814。旁側資訊814說明物件信號x1至xN的特性以便容許一解碼器端特定物件處理。
SAOC解碼器820被組態成接收該一或多個下混信號812及旁側資訊814。再者,SAOC解碼器820典型地被組態成接收說明一期望的渲染設置之一使用者互動資訊及/或一使用者控制資訊822。舉例而言,使用者互動資訊/使用者控制資訊822可說明一揚聲器設置及提供物件信號x1至xN之物件的期望空間佈局。
SAOC解碼器820被組態成提供例如複數解碼上混通道信號。上混通道信號可例如與一多揚聲器渲染安排之個別揚聲器相關聯。SAOC解碼器820可例如包含一物件分離器820a,該物件分離器820a被組態成基於一或多個下混信號812及旁側資訊814來至少近似重建物件信號x1至xN,藉此獲得重建物件信號820b。然而,重建物件信號820b可能略偏離原始物件信號x1至xN,舉例而言,因為旁側資訊814由於位元流限制不太夠進行完美重建。SAOC解碼器820可進一步包含一混合器820c,該混合器820c可被組態成接收重建物件信號820b及使用者互動資訊/使用者控制資訊822並基於它們來提供上混通道信號。混合器820可被組態成使用使用者互動資訊/使用者控制資訊822來判定個別重建物件信號820b對上混通道信號的貢獻。使用者互動資訊/使用者控制資訊822可例如包含渲染參數(也被表示為渲染係數),該等渲染參數判定個別重建物件信號822對上混通道信號的貢獻。
然而,應該注意的是,在許多實施例中,在單一步驟中執行用第8圖中物件分離器820a指示的物件分離與用第8圖中混合器820c指示的混合。為實現此目的,可計算說明一或多個下混信號812到上混通道信號上的一直接映射之總參數。這些參數可基於旁側資訊及使用者互動資訊/使用者控制資訊820來計算。
現在參考第9a、9b及9c圖,將說明不同的用以基於一下混信號表示型態及物件相關旁側資訊來獲得一上混信號表示型態之裝置。第9a圖繪示一包含一SAOC解碼器920之MPEG SAOC系統900的一方塊示意圖。SAOC解碼器920包含作為分離功能區塊的一物件解碼器922及一混合器/渲染器926。物件解碼器922依賴於下混信號表示型態(例如,為在時域或時間-頻率-域中表示的一或多個下混信號的形式)及物件相關旁側資訊(例如,為物件元資料的形式)提供複數重建物件信號924。混合器/渲染器924接收與N個物件相關聯的重建物件信號924並基於它們提供一或多個上混通道信號928。在SAOC解碼器920中,物件信號924的擷取與混合/渲染分開執行,這允許將物件解碼功能與混合/渲染功能分離但帶來一相當高的計算複雜度。
現在參考第9b圖,將簡要討論另一MPEG SAOC系統930,該MPEG SAOC系統930包含一SAOC解碼器950。SAOC解碼器950依賴於一下混信號表示型態(例如,為一或多個下混信號的形式)及一物件相關旁側資訊(例如,為物件元資料的形式)提供複數上混通道信號958。SAOC解碼器950包含一組合的物件解碼器與混合器/渲染器,該組合的物件解碼器與混合器/渲染器被組態成在一聯合混合處理中獲得上混通道信號958而無需將物件解碼與混合/渲染分開,其中該聯合上混過程的參數是取決於物件相關旁側資訊與渲染資訊。聯合上混過程也取決於被視為物件相關旁側資訊的一部分之下混資訊。
綜上所述,可在一個一步驟過程或一個兩步驟過程中執行提供上混通道信號928、958。
現在參考第9c圖,將說明一MEPG SAOC系統960。SAOC系統960包含一SAOC至MPEG環繞轉碼器而非一SAOC解碼器。
SAOC至MPEG環繞轉碼器包含一旁側資訊轉碼器982,該旁側資訊轉碼器982被組態成接收物件相關旁側資訊(例如,為物件元資料的形式)及可取捨地關於一或多個下混信號的資訊及渲染資訊。旁側資訊轉碼器也被組態成基於一接收資料來提供一MPEG環繞旁側資訊(例如,為一MPEG環繞位元串流的形式)。因此,旁側資訊轉碼器982被組態成在計入渲染資訊及可取捨地有關一或多個下混信號內容的資訊之情況下將自物件編碼器出來的一物件相關(參數)旁側資訊轉換成一通道相關(參數)旁側資訊。
可取捨地,SAOC至MPEG環繞轉碼器980可被組態成操控例如下混信號表示型態所描述的一或多個下混信號以獲得一經操控的下混信號表示型態988。然而,下混信號操控器986可被省略使得SAOC至MPEG環繞轉碼器980之輸出下混信號表示型態988與SAOC至MPEG環繞轉碼器之輸入下混信號表示型態相同。舉例而言,如果通道相關MPEG環繞旁側資訊984基於SAOC至MPEG環繞轉碼器980之輸入下混信號表示型態可能不能提供一期望的聽覺印象(這在一些渲染群集(rendering constellation)中可能如此),則可使用下混信號操控器986。
因此,SAOC至MPEG環繞轉碼器980提供下混信號表示型態988及MPEG環繞位元串流984使得複數上混通道信號可使用一接收MPEG環繞位元串流984與下混信號表示型態988的MPEG環繞解碼器來產生,該複數上混通道信號依據輸入至SAOC至MPEG環繞轉碼器980的渲染資訊來表示音訊物件。
綜上所述,可使用解碼SAOC編碼音訊信號的不同構想。在一些情況中,一SAOC解碼器被使用,該SAOC解碼器依賴於下混信號表示型態及物件相關參數旁側資訊來提供上混通道信號(例如,上混通道信號928、958)。在第9a與9b圖中可見此構想的範例。可選擇地,SAOC編碼音訊資訊可被轉碼以獲得一下混信號表示型態(例如,一下混信號表示型態988)及一通道相關旁側資訊(例如,通道相關MPEG環繞位元串流984,),它們可被一MPEG環繞解碼器使用以提供期望的上混通道信號。
在MPEG SAOC系統800中(此一系統概觀在第8圖中給出),一般處理是以一頻率選擇方式來完成且在每一頻帶內可被如下說明:
‧ 作為SAOC編碼器處理的一部分,N個輸入音訊物件信號x1至xN被下混。對於一單聲道下混,用d1至dN來表示下混係數。此外,SAOC編碼器810擷取說明輸入音訊物件的特性之旁側資訊814。對於MPEG SAOC,彼此間物件功率的關係是此一旁側資訊的最基本形式。
‧ (數)下混信號812及旁側資訊814被傳輸及/或儲存。為此目的,下混音訊信號可使用習知的感知音訊編碼器來壓縮,諸如MPEG-1層II或III(也稱為“.mp3”)、MPEG高階音訊編碼(AAC)、或任一其它音訊編碼器。
‧ 在接收端,SAOC解碼器820感知地嘗試使用經傳輸的旁側資訊814(當然還有一或多個下混信號812)來恢復原始物件信號(「物件分離」)。這些近似物件信號(也表示為重建物件信號820b)接著使用一渲染矩陣被混合成一用M個音訊輸出通道表示(例如可用上混通道信號表示)的目標場景。對於一單聲道輸出,用r1至rN指定渲染矩陣係數。
‧ 實際上,很少執行物件信號的分離,因為分離步驟(用物件分離器820a指示)與混合步驟(用混合器820c指示)被組合成一單一轉碼步驟,這通常極大地降低計算複雜度。
已發現這一方案在傳輸位元率(僅需傳輸幾個下混通道外加一些旁側資訊來代替N個離散物件音訊信號或一離散系統)與計算複雜度(處理複雜度主要有關於輸出通道數目而非音訊物件數目)方面都極其有效。對接收端上的使用者的進一步好處包括自由選擇對他/她的選擇(單聲道、立體聲、環繞、虛擬化耳機播放等等)的一渲染設置與使用者互動性特徵:渲染矩陣,及因而,輸出場景可由使用者隨意願、個人偏好或其它準則來互動地設置及改變。舉例而言,可以將一群組的通話器一起置於一空間區域來與其它剩餘通話器最大的區別開。此互動性透過提供一解碼器使用者介面來實現:對於每一傳輸聲音物件,其相對層級及(對於非單聲道渲染)渲染的空間位置可被調整。這可隨使用者改變相關聯圖形使用者介面(GUI)滑動塊的位置而即時發生(例如,物件層級=+5dB,物件位置=-30deg)。
然而,已發現的是,針對上混信號表示型態(例如,上混通道信號)的供應之解碼器端參數選擇在一些情況中帶來可聞降級。
鑑於此情況,本發明的目標是建立一種在提供一上混信號表示型態(例如,為上混通道信號的形式)時容許減小或甚至避免可聞失真的構想。
發明概要
此問題由一種如申請專利範圍第1項所述之用以基於一下混信號表示型態及一物件相關參數資訊針對一上混信號表示型態之一供應來提供一或多個經調整的參數之裝置、一種如申請專利範圍第24項所述之音訊信號解碼器、一種如申請專利範圍第25項所述之音訊信號轉碼器、一種如申請專利範圍第26、27、28項所述之方法、一種如申請專利範圍第29項所述之音訊信號編碼器、一種如申請專利範圍第31項所述之方法、一種如申請專利範圍第32項所述之音訊位元串流及一種如申請專利範圍第34項所述之電腦程式來解決。
依據本發明的一實施例產生一種用以基於一下混信號表示型態及一物件相關參數資訊針對一上混信號表示型態之一供應來提供一或多個經調整的參數之裝置。該裝置包含一參數調整器(例如,一渲染係數調整器),該參數調整器被組態成接收一或多個輸入參數(例如,一渲染係數或一期望渲染矩陣之一說明)並基於該一或多個輸入參數提供一或多個經調整的參數。該參數調整器被組態成依賴於該一或多個輸入參數及該物件相關參數資訊(例如,依賴於一或多個下混係數、及/或一或多個物件層級差值、及/或一或多個物件間相關性值)來提供該一或多個經調整參數,使得由使用非最佳參數引起的上混信號表示型態之一失真至少針對偏離最佳參數超過一預定偏差之輸入參數而減小。
依據本發明的此實施例是根據此想法:由不適當選擇輸入參數引起的音訊信號失真可藉由針對上混信號表示型態之供應提供經調整參數來減小,及藉由計入物件相關參數資訊能以良好準確度來執行經調整參數的供應。已發現的是,使用物件相關參數資訊容許獲得可能由使用輸入參數而引起之可聞失真的一估計測度,這相應地容許提供適於將可聞失真保持在一預定範圍內或較輸入參數適於減小可聞失真之經調整參數。物件相關資訊說明例如音訊物件特性及/或給出有關編碼器端物件處理的資訊。
因此,藉由提供一或多個經調整參數,由使用不適當參數(例如,不適當渲染係數)導致之不期望及往往惱人的音訊信號失真可被減小或甚至避免,其中在參數調整時計入物件相關參數資訊有助於藉由考慮可聞失真的一相對可靠估計來確保有效減小及/或限制音訊信號失真。
在一較佳實施例中,該裝置被組態成接收期望渲染參數作為輸入參數,該等期望渲染參數描述上混信號表示型態說明的一或多個通道中複數音訊物件信號的一期望強度縮放。在此情況中,參數調整器被組態成依賴於該一或多個期望渲染參數提供一或多個實際渲染參數。已發現的是,選擇不適當渲染參數帶來使用此類不適當選擇的渲染參數而獲得之一上混信號表示型態的一顯著(及往往可聞)降級。再者,已發現的是,渲染參數可依賴於物件相關參數資訊被有效調整,因為物件相關參數資訊考慮到對由渲染參數(可由輸入參數來定義)的一指定選擇而引入之失真的一估計。
在一較佳實施例中,參數調整器被組態成依賴於物件相關參數資訊及一說明音訊物件信號對下混信號表示型態的一貢獻之下混資訊來獲得一或多個渲染參數限制值,使得一失真度量處在渲染參數值遵從渲染參數限制值所定義的限制之一預定範圍內。在此情況中,參數調整器被組態成依賴於期望渲染參數及該一或多個渲染參數限制值來獲得實際渲染參數,使得實際渲染參數遵從渲染參數限制值所定義的限制。計算渲染參數限制值組成一計算上簡單且可靠的機制以依據一失真度量確保可聞失真在一可容許的範圍內。
在一較佳實施例中,參數調整器被組態成獲得該一或多個渲染參數限制值使得在使用一遵從該一或多個渲染參數限制值的渲染參數而渲染之複數物件信號的一渲染疊加中一物件信號的一相對貢獻與一下混信號中物件信號的一相對貢獻的差異不超過一預定差。已發現的是,若物件信號之一渲染疊加中一物件信號的貢獻類似於一下混信號中物件信號的一貢獻,則失真典型地足夠小,而該等相對貢獻的一強烈差異典型地帶來可聞失真。這是由於此事實:一物件信號(相對)層級較之下混信號表示型態中物件信號(相對)層級的一強烈改變往往帶來人工因素,因為往往不可能以理想方式分離不同音訊物件的物件信號。因此,已發現調整渲染參數帶來良好結果,藉此透過選擇渲染參數,物件信號的相對貢獻僅被適度改變。
在另一實施例中,參數調整器被組態成獲得該一或多個渲染參數限制值使得一失真測度處在一預定範圍內,該失真測度說明一由下混信號表示型態說明的下混信號與使用該一或多個遵從該一或多個渲染參數限制值之渲染參數而渲染的渲染信號間的相干性。已發現的是,對構成參數調整器的輸入參數之期望渲染參數的選擇應該使得在下混信號表示型態說明之下混信號與渲染信號間維持一足夠「類似性」,因為若非如此上混過程中獲得可聞失真的風險十分高。
在又一較佳實施例中,參數調整器被組態成計算一期望渲染參數(可構成參數調整器的輸入參數)之平方與一最佳渲染參數(可例如被定義為一最小化一失真度量的渲染參數)之平方間的一線性組合以獲得實際渲染參數(可被裝置輸出為經調整參數)。在此情況中,參數調整器被組態成依賴於一預定門檻參數T及失真度量來決定期望渲染參數與最佳渲染參數對線性組合的一貢獻,其中失真度量說明一使用該一或多個期望渲染參數而非最佳渲染參數以基於下混信號表示型態來獲得上混信號表示型態而引起之失真。此構想容許將失真減小至一可接受的測度,同時仍維持期望渲染參數的一足夠影響。依據此構想,計入限制可聞失真的一期望程度可找到最佳渲染參數與期望渲染參數間的一合理良好折衷。
在一較佳實施例中,參數調整器被組態成依賴於對感知降級的一計算測度來提供一或多個經調整參數,使得由使用非最佳參數引起且用感知降級之計算測度表示之上混信號表示型態的一感知評估失真受限制。以此方式,可實現參數可依據聽覺印象來調整,藉此避免一不可接受之欠佳聽覺印象,同時在依一使用者的期望來調整參數上仍提供足夠的靈活性。
在一較佳實施例中,參數調整器被組態成接收一說明一或多個原始物件信號的性質之物件性質資訊,該一或多個原始物件信號構成下混信號表示型態說明之一下混信號的基礎。在此情況中,參數調整器被組態成考慮物件性質資訊來提供經調整參數使得上混信號表示型態相對被包括於上混信號表示型態中之物件信號的性質方面的一失真至少針對偏離最佳參數超過一預定偏差之輸入參數而減小。依據本發明的此實施例是根據此發現:該一或多個原始物件信號的性質可被用來評估是否輸入參數合適或應該被調整,因為期望提供上混信號使得上混信號的特性有關於該一或多個原始物件信號的特性,因為若非如此在許多情況下感知印象會明顯降級。
在一較佳實施例中,參數調整器被組態成接收並考慮一物件信號音調資訊作為一物件性質資訊以便提供該一或多個經調整參數。已發現的是,物件信號的音調是一對感知印象有明顯影響的量,及應該避免選擇明顯改變音調印象的參數以便擁有一良好聽覺印象。
在一較佳實施例中,參數調整器被組態成依賴於接收的物件信號音調資訊及一接收的物件功率資訊來估計一理想渲染上混信號的音調。在此情況中,參數調整器被組態成提供該一或多個經調整參數,以當相比於估計音調與使用輸入參數而獲得之一上混信號的音調間的差時減小估計音調與使用該一或多個經調整參數而獲得之一上混信號的音調間的差,或使估計音調與使用該一或多個經調整參數而獲得之一上混信號的音調間的差保持在一預定範圍內。使用此構想,能以高計算效率獲得聽覺印象降級的一測度,該測度允許適當調整渲染參數。
在一較佳實施例中,參數調整器被組態成執行輸入參數的一時間與頻率變化調整。因此,可僅在此類調整實際上帶來聽覺印象的改進或避免聽覺印象的一明顯降級之時間間隔或頻率區域執行輸入參數的調整來獲得經調整參數。
還在另一較佳實施例中,參數調整器被組態成亦考慮提供該一或多個經調整參數之下混信號表示型態。計入下混信號表示型態,可獲得聽覺印象可能的失真的一更加精確估計。
在一較佳實施例中,參數調整器被組態成獲得一總失真測度,其為說明複數人工因素類型之失真測度的一組合。在此情況中,參數調整器被組態成獲得總失真測度使得總失真測度是由使用一或多個輸入渲染參數而非最佳渲染參數以基於下混信號表示型態來獲得上混信號表示型態而引起之失真的一測度。藉由組合說明複數人工因素類型的複數失真測度,建立一調整聽覺印象的良好控制機制。
依據本發明的另一實施例產生一種用以基於一下混信號表示型態、一物件相關參數資訊及一期望渲染資訊來提供複數上混音訊通道作為一上混信號表示型態之音訊信號解碼器。該音訊信號解碼器包含一上混器,該上混器被組態成基於該下混信號表示型態並依賴於物件相關參數資訊及一實際渲染資訊來獲得上混音訊通道,該實際渲染資訊說明由物件相關參數資訊說明之音訊物件之複數物件信號至上混音訊通道的一分配。該音訊信號解碼器亦包含一種用以提供如上討論一或多個經調整參數之裝置。用以提供一或多個經調整參數的裝置被組態成接收期望渲染資訊作為該一或多個輸入參數並提供該一或多個經調整參數作為實際渲染資訊。用以提供一或多個經調整參數的裝置亦被組態成提供該一或多個經調整參數使得由使用偏離最佳渲染參數之實際渲染參數而引起之上混音訊通道的失真至少針對偏離最佳渲染參數超過一預定偏差之期望渲染參數被減小。
在一音訊信號解碼器中使用用以提供該一或多個經調整參數之裝置容許避免產生由用不當選擇期望渲染資訊執行音訊解碼而引起之強烈可聞失真。
依據本發明的一實施例產生一種用以基於一下混信號表示型態、一物件相關參數資訊及一期望渲染資訊提供一通道相關參數資訊作為一上混信號表示型態之音訊信號轉碼器。該音訊信號轉碼器包含一旁側資訊轉碼器,該旁側資訊轉碼器被組態成基於下混信號表示型態並依賴於物件相關參數資訊及一實際渲染資訊來獲得通道相關參數資訊,該實際渲染資訊說明由物件相關參數資訊說明之音訊物件之複數物件信號至上混音訊通道的一分配。該音訊信號解碼器亦包含一種用以提供如上討論一或多個經調整參數之裝置。用以提供一或多個經調整參數的裝置被組態成接收期望渲染資訊作為該一或多個輸入參數並提供該一或多個經調整參數作為實際渲染資訊。再者,用以提供該一或多個經調整參數的裝置被組態成提供該一或多個經調整參數使得由使用偏離最佳渲染參數之實際渲染參數引起、由通道相關參數資訊(結合下混信號資訊)表示之上混音訊通道的失真至少針對偏離最佳渲染參數超過一預定偏差之期望渲染參數減小。已發現的是,提供經調整參數的構想也十分適於結合一音訊信號轉碼器使用。
依據本發明的進一步實施例產生一種用以提供一或多個經調整參數的方法,一種解碼一音訊信號之方法及一種轉碼一音訊信號之方法。該等方法是以與如上所討論裝置相同的關鍵想法為基礎。
依據本發明的另一實施例產生一種用以基於複數物件信號來提供一下混信號表示型態及一物件相關參數資訊之音訊信號編碼器。該音訊編碼器包含一下混器,該下混器被組態成依賴於與物件信號相關聯的下混係數來提供一或多個下混信號,使得該一或多個下混信號包含複數物件信號的一疊加。該音訊編碼器也包含一旁側資訊提供器,該旁側資訊提供器被組態成提供一說明物件信號的層級差與相關性特性之物件間關係旁側資訊與一說明個別物件信號的一或多個個別性質之個別物件旁側資訊。已發現的是,一音訊信號編碼器提供一物件間關係旁側資訊與一個別物件旁側資訊容許有效減小或甚至避免一多通道音訊信號解碼器端的可聞失真。物件間關係旁側資訊被用於在解碼器端分離物件信號,個別物件旁側資訊可被用於決定是否物件信號的個別特性在解碼器端被維持,這指示失真在可接受容許度內。
在一較佳實施例中,旁側資訊提供器被組態成提供個別物件旁側資訊使得個別物件旁側資訊說明個別物件的音調。已發現的是,個別物件的音調是一心裡聲學上重要的量,其容許失真的一解碼器端限制。
依據本發明的一實施例產生一種用以編碼一音訊信號之方法。
依據本發明的另一實施例產生一種以一編碼形式表示複數(音訊)物件信號之音訊位元串流。該音訊位元串流包含一表示一或多個下混信號之下混信號表示型態,其中至少一下混信號包含複數(音訊)物件信號的一疊加。該音訊位元串流也包含一說明物件信號的層級差與相關性特性之物件間關係旁側資訊與一說明個別物件信號的一或多個個別性質之個別物件旁側資訊。如上所述,這一音訊位元串流使多通道音訊信號的一重建成為可能,其中可識別並減小或甚至消除由不當設置渲染參數引起的可聞失真。
依據本發明之進一步的實施例產生一種用以實施上面所討論方法的電腦程式。
圖式簡單說明
參考附圖隨後將說明依據本發明的實施例,其中:第1圖繪示一用以基於一下混信號表示型態及一物件相關參數資訊針對一上混信號表示型態之供應來提供一或多個經調整參數之裝置的一方塊示意圖;第2圖依據本發明之一實施例繪示一MPEG SAOC系統的一方塊示意圖;第3圖依據本發明之另一實施例繪示一MPEG SAOC系統的一方塊示意圖;第4圖繪示物件信號對一下混信號及對一混合信號之一貢獻的一示意表示型態;第5a圖依據本發明之一實施例繪示一基於單聲道下混的SAOC至MPEG環繞轉碼器的一方塊示意圖;第5b圖依據本發明之一實施例繪示一基於立體聲下混的SAOC至MPEG環繞轉碼器的一方塊示意圖;第6圖依據本發明之一實施例繪示一音訊信號編碼器的一方塊示意圖;第7圖依據本發明之一實施例繪示一音訊位元串流之一示意表示型態;第8圖繪示一參考MPEG SAOC系統的一方塊示意圖;第9a圖繪示一使用一分離的解碼器及混合器之參考SAOC系統的一方塊示意圖;第9b圖繪示一使用一整合的解碼器及混合器之參考SAOC系統的一方塊示意圖;第9c圖繪示一使用一SAOC至MPEG轉碼器之參考SAOC系統的一方塊示意圖。
較佳實施例之詳細說明 1.依據第1圖用以提供一或多個經調整參數之裝置
下面參考第1圖將說明一用以基於一下混信號表示型態及一物件相關參數資訊針對一上混信號表示型態之供應來提供一或多個經調整參數之裝置100。第1圖繪示這一裝置100的一方塊示意圖,該裝置100被組態成接收一或多個輸入參數110。輸入參數110可例如是期望渲染參數。裝置100亦被組態成基於輸入參數110提供一或多個經調整參數120。經調整參數可例如是經調整渲染參數。裝置100進一步被組態成接收一物件相關參數資訊130。該物件相關參數資訊130可例如是描述複數物件之一物件層級差資訊及/或一物件間相關資訊。裝置100包含一參數調整器140,該參數調整器140被組態成接收該一或多個輸入參數110並基於該一或多個輸入參數110來提供該一或多個經調整參數120。參數調整器140被組態成依賴於該一或多個輸入參數110及物件相關參數資訊130來提供該一或多個經調整參數120,使得至少針對偏離最佳參數超過一預定偏差之輸入參數110,減小在一用以基於一下混信號表示型態及物件相關參數資訊130提供一上混信號表示型態之裝置中由使用非最佳參數(例如,該一或多個輸入參數110)而引起的一上混信號表示型態的失真。
因此,裝置100接收該一或多個輸入參數110並基於它們提供該一或多個經調整參數120。在提供該一或多個經調整參數120時,若該一或多個輸入參數110被用以基於一下混信號表示型態及物件相關參數資訊130來控制一上混信號表示型態之一供應,則裝置100明確地或隱性地判定是否不改變使用該一或多個輸入參數110將導致無法接受的高失真。因此,經調整參數120典型地比該一或多個輸入參數110較適於調整這一提供上混信號表示型態的裝置,至少在該一或多個輸入參數110以一不利方式被選擇時。
因此,裝置100典型地改善一上混信號表示型態的感知印象,該上混信號表示型態由一上混信號表示型態提供器依賴於該一或多個經調整參數120來提供。使用物件相關參數資訊來調整該一或多個輸入參數以獲得該一或多個經調整參數已被發現帶來良好結果,因為若該一或多個經調整參數120對應於物件相關參數資訊130則上混信號表示型態的品質通常良好,而違反與物件相關參數資訊130的期望關係之參數典型地造成可聞失真。物件相關參數資訊可例如包含下混參數,該等下混參數說明物件信號(來自複數音訊物件)對該一或多個下混信號的一貢獻。物件相關參數資訊也能可選擇地或額外地包含說明物件信號的特性之物件層級差及/或物件間相關參數。已發現的是,說明物件信號的一編碼器端處理之參數與說明音訊物件自身特性之參數都可被視作有用資訊供參數調整器120使用。然而,其它物件相關參數資訊130可被裝置100可選擇或額外地使用。
然而,應該注意的是,參數調整器140可使用額外資訊以便提供基於該一或多個輸入參數110來提供該一或多個經調整參數120。舉例而言,參數調整器140能可取捨地評估下混係數、一或多個下混信號或任一額外資訊以甚至改進該一或多個經調整參數120的供應。
2.依據第2圖的系統
下面將詳細說明第2圖的MPEG SAOC系統200。
為了提供對MPEG SAOC系統200的一良好理解,將給出對期望系統規格及設計考慮的一概述。隨後,將給出系統的一結構概述。此外,將討論複數SAOC失真度量,及將說明針對一失真限制之這些SAOC失真的應用。此外,將討論系統200的進一步延伸。
2.1系統設計考慮
如上討論,針對包含多個音訊物件之音訊場景的位元率有效傳輸/儲存之參數技術典型地在傳輸位元率與計算複雜度方面是有效的。對此系統使用者在接收端上的進一步好處包括自由選擇對他/她的選擇(單聲道、立體聲、環繞、虛擬化耳機播放、等等)的一渲染設置與使用者互動性特徵:渲染矩陣,及因而,輸出場景可隨意願、個人偏好或其它準則來互動地設置及改變。舉例而言,可以將一群組的通話器一起置於一空間區域來與其它剩餘通話器最大的區別開。此互動性透過提供一解碼器使用者介面來實現:對於每一傳輸聲音物件,其相對層級及(對於非單聲道渲染)渲染的空間位置可被調整。這可隨使用者改變相關聯圖形使用者介面(GUI)滑動塊的位置而即時發生(例如,物件層級=+5dB,物件位置=-30deg)。然而,已發現的是,由於使用下混分離/混合式參數方法,渲染音訊輸出的主觀品質取決於渲染參數設置。已發現的是,相對物件層級上的改變對最後音訊品質的影響多於空間渲染位置上的改變(「再平移」)。也已發現的是,相對參數的極端設置(例如,+20dB)甚至可導致無法接受的輸出品質。雖然這只是違反一些構成此方案基礎之感知假定的結果,但對於商業產品而言仍無法接受依使用者介面上的設置而產生不良的聲音及人工因素。因此,依據本發明的實施例類似例如系統200處理此避免無法接受降級問題,而不管使用者介面的設置(該使用者介面設置可被視作「輸入參數」)。
下面將討論有關避免SAOC失真方法的一些細節。本文所呈現之SAOC失真限制的方法是以下列構想為基礎:
‧ 突出的SAOC失真因不當選擇渲染係數(可被視作輸入參數)而出現。此選擇通常由使用者以一互動方式來作出(例如,經由互動式應用程式的一即時圖形使用者介面(GUI))。因此,引入一額外的處理步驟,該步驟修改使用者提供的渲染係數(例如,根據某些計算限制它們)並將這些經修改係數用於SAOC渲染引擎。舉例而言,使用者提供的渲染係數可被視作輸入參數,及SAOC渲染引擎之經修改係數可被視作經修改參數。
‧ 為控制產生的SAOC音訊輸出之過度降級,期望開發感知降級的一計算測度(也被指定為失真測度DM)。已發現的是,此失真測度應該滿足某準則:
○ 該失真測度應易於從SAOC解碼引擎的內部參數中計算出。舉例而言,期望無需額外濾波器組計算來獲得失真測度。
○ 該失真測度值應該與主觀感知聲音品質(感知降級)相關,亦即符合心裡聲學的基本原理。為此目的,可較佳地以一頻率選擇方式來完成失真測度的計算,因為其通常自感知音訊編碼及處理知曉。
已發現的是,眾多SAOC失真測度可被定義及計算。然而,已發現的是,SAOC失真測度應該較佳地考慮某些基本因素以便對一渲染SAOC品質做出一正確評估及因而往往(但不一定)具有某些共性:
‧ 它們考慮下混係數。這些下混係數判定該一或多個下混信號中每一音訊物件的相對混合部分。作為一背景資訊,應該指出的是,已發現出現的SAOC失真取決於下混係數與渲染係數間的關係:如果渲染係數定義的相對物件貢獻實質上不同於下混中的相對物件貢獻,則SAOC解碼引擎(使用經調整參數)必須對下混信號執行相當大的調整來將其轉換為渲染輸出。已發現這導致SAOC失真。
‧ 它們考慮渲染係數。這些渲染係數判定每一音訊物件對該一或多個渲染輸出信號中之每一者的相對輸出強度。作為一背景資訊,應該指出的是,已發現出現SAOC失真也取決於彼此間物件功率的關係。如果在某一時間點的一物件具有比其它物件高得多的功率(及如果此物件的下混係數不是很小的話),則此物件支配下混並被很好地在渲染輸出信號中重現。相比之下,弱物件在下混時僅被很弱地表示及因而在沒有顯著失真的情況下無法被提至高輸出層級。
‧ 它們考慮每一物件相對於另一物件的(相對)物件功率/層級。此資訊被描述為例如一SAOC物件層級差(OLD)。作為一背景資訊,應該指出的是,已發現出現SAOC失真進一步取決於個別物件信號的性質。例如,將渲染輸出中具有音調性質的一物件提升到較大層級(而其它物件可能更多為具有類似雜訊性質的)將導致相當大的感知失真。
‧ 除此之外,可考慮其它有關原始物件信號性質之資訊。這些資訊接著可被SAOC編碼器作為SAOC旁側資訊的一部分來傳輸。舉例而言,有關每一物件項的音調或噪度之資訊可作為SAOC旁側資訊的一部分被傳輸且被用於達到限制失真之目的。
2.2系統概述
根據上述考慮,現在將給出對MPEG SAOC系統200的一概述以很好地理解本發明。應該指出的是,依據第2圖的SAOC系統200是依據第8圖的MPEG SAOC系統800的一延伸形態,藉此上述討論亦適用。再者,應該指出的是,MPEG SAOC系統200可依據第9a、9b及9c圖中繪示的實施態樣備選900、930、960來修改,其中物件編碼器對應於SAOC編碼器,其中使用者互動資訊/使用者控制資訊822對應於渲染控制資訊/渲染係數。
此外,MPEG SAOC系統100的SAOC解碼器可用分離式物件解碼器與混合器/渲染器安排920來替換、用整合式物件解碼器與混合器/渲染器安排930或SAOC至MPEG環繞轉碼器980來替換。
現在參考第2圖,可見的是,MPEG SAOC系統200包含一SAOC編碼器210,該SAOC編碼器210被組態成接收與自1至N編號的複數物件相關聯之複數物件信號x1至xN。該SAOC編碼器210亦被組態成接收(或者獲得)下混係數d1至dN。舉例而言,SAOC編碼器210可針對其提供的下混信號212的每一通道獲得一組下混係數d1至dN。SAOC編碼器210可例如被組態成獲得物件信號x1至xN的一加權組合以獲得一下混信號,其中各該物件信號x1至xN用與其相關聯的下混係數d1至dN來加權。SAOC編碼器210亦被組態成獲得說明不同物件信號間的一關係之物件間關係資訊。舉例而言,物件間關係資訊可包含例如為OLD參數形式之物件層級差資訊與例如為IOC參數形式之物件間相關資訊。因此,SAOC編碼器200接著被組態成提供一或多個下混信號212,該一或多個下混信號212中的每一個包含一或多個物件信號的一加權組合,該一或多個物件信號依據一組與各自下混信號(或多通道下混信號212的一通道)相關聯之下混參數來加權。SAOC編碼器210亦被組態成提供旁側資訊214,其中旁側資訊214包含物件間關係資訊(例如,為物件層級差參數與物件間相關參數的形式)。旁側資訊214也包含一下混參數資訊,例如,為下混增益參數與下混通道層級差參數的形式。旁側資訊214可進一步包含一可表示個別物件性質之可取捨物件性質旁側資訊。下面將討論有關可取捨物件性質旁側資訊之細節。
MPEG SAOC系統200也包含一SAOC解碼器220,該SAOC解碼器220可包含SAOC解碼器820的功能。因此,SAOC解碼器220接收一或多個下混信號212及旁側資訊214以及經修改(或「經調整」,或「實際的」)渲染係數222並基於它們提供一或多個上混通道信號
MPEG SAOC系統200也包含一用以依賴於一或多個輸入參數,即說明一渲染控制資訊或渲染係數242之輸入參數來提供一或多個經修改(或「經調整」,或「實際的」)參數,即經修改渲染係數222之裝置240。裝置240被組態成亦接收至少旁側資訊214的一部分。舉例而言,裝置240被組態成接收說明物件功率(例如,物件信號x1至xN的功率)的參數214a。舉例而言,參數214a可包含物件層級差參數(也表示為OLD)。裝置240也較佳地接收說明下混係數之旁側資訊214的參數214b。舉例而言,參數214b說明下混係數d1至dN。可取捨地,裝置240可進一步接收組成一個別物件性質旁側資訊之額外參數214c。
裝置240大體上被組態成基於輸入渲染係數242(可例如自一使用者介面接收,或可例如依賴於使用者輸入來計算或作為預設資訊被提供)來提供經修改渲染係數222,使得由SAOC解碼器220使用非最佳渲染參數而引起之上混信號表示型態的一失真被減小。換言之,經修改渲染係數222是輸入渲染係數242的一修改版本,其中依賴於參數214a、214b來作出改變使得上混通道信號 1 N(形成上混信號表示型態)中所有可聞失真被減小或被限制。
用以提供該一或多個經調整參數242的裝置240可例如包含一渲染係數調整器250,該渲染係數調整器250接收輸入渲染係數242並基於它們提供經修改渲染係數222。為此目的,渲染係數調整器250可接收一說明由使用輸入渲染係數242而引起的失真之失真測度252。失真測度252可例如由失真計算器260依賴於參數214a、214b及輸入渲染係數242來提供。
然而,渲染係數調整器250與失真計算器260的功能也可被整合於一單一功能單元中,使得在沒有顯式計算一失真測度252的情況下提供經修改的渲染係數222。當然,可應用減小或限制失真測度的隱式機制。
關於MPEG SAOC系統200的功能,應該指出的是,以上混通道信號 1 N形式輸出之上混信號表示型態以良好感知品質被產生,因為藉由修改或調整渲染係數避免了可聞失真,該等可聞失真係由參考系統800中不當選擇使用者互動資訊/使用者控制資訊822而引起。修改或調整由裝置240執行使得感知印象的嚴重降級被避免,或使得較之輸入渲染係數242被SAOC解碼器220直接使用(沒有修改或調整)之一情況時感知印象的降級至少被減小
下面將簡要概述本發明構想的功能。在指定一失真測度(DM)的情況下,可藉由計算指定信號的失真測度值並修改SAOC解碼演算法(限制實際使用的渲染係數212)使得失真測度值不超過某一門檻值來避免音訊輸出中的過度失真。依據此構想的一系統200在第2圖中被繪示並在上面已被較詳細闡述。
關於系統200,可做下列論述:
‧ 期望渲染係數242由使用者或另一介面輸入。
‧ 在被應用於SAOC解碼引擎220之前,渲染係數242被一渲染係數調整器250修改,該渲染係數調整器250使用一失真計算器260提供的一或多個經計算失真測度252。
‧ 失真計算器260評估出自旁側資訊214(例如,相關物件功率/OLD、下混係數及可取捨地物件信號性質資訊)的資訊(例如,參數214a、214b)。此外,它是基於期望渲染係數輸入242。
在一較佳實施例中,裝置240被組態成根據一失真測度來修改渲染係數。較佳地,使用例如頻率選擇權重以一頻率選擇方式調整渲染係數。
渲染係數的修改可以此訊框(例如,一目前訊框)為基礎、或渲染係數不僅可在逐訊框基礎上隨時間被調整,而且還隨時間被處理/控制(例如,隨時間被平滑化),其中如針對一動態範圍壓縮器/限制器可能可應用不同的起音/衰減時間常數。
在一些實施例中,失真測度可以是頻率選擇的。
在一些實施例中,失真測度可考慮下列一或多個特性:
‧ 每一物件的功率/能量/層級
‧ 下混係數
‧ 渲染係數;及/或
‧ 額外物件性質旁側資訊,如果適用的話
在一些實施例中,失真測度可以每物件為基礎來計算並組合達成一總失真。
在一些實施例中,一額外物件性質旁側資訊214c能可取捨地被評估。額外物件性質旁側資訊214c可在一增強型SAOC編碼器中擷取,例如,SAOC編碼器210。額外物件性質旁側資訊可被例如植入一增強型SAOC位元串流中,該增強型SAOC位元串流將參考第7圖被說明。再者,額外物件性質旁側資訊可被一增強型SAOC解碼器用於失真限制。
在一特殊情況中,噪度/音調可被用作額外物件性質旁側資訊所說明的物件性質。在此情況中,噪度/音調比之其它物件參數(例如,OLD)能以粗略得多的頻率解析度來傳輸以保存於旁側資訊上。在一極端情況中,噪度/音調物件性質旁側資訊能以每物件僅一資訊來傳輸(例如,如寬頻特性)。
2.3 SAOC失真度量
下面將說明複數不同失真測度,該複數不同失真測度可例如使用失真計算器260而獲得。在下面2.4節將討論應用這些失真測度來限制渲染係數的細節。
換言之,此節概述數個失真測度。這些失真測度可個別使用或例如藉由將個別失真度量值加權相加而可被組合形成一複合、更複雜失真度量。應該注意的是,這裡詞語「失真測度」與「失真度量」表示類似的量且在大部分情況中不需要區分。
下面將說明複數失真度量,該複數失真度量可被失真計算器260評估且可被渲染係數調整器250使用以便基於輸入渲染係數242獲得經修改渲染係數222。
2.3.1失真測度#1
下面將說明一第一失真測度(也表示為失真測度#1)。
為了構想簡單易懂,將考慮一N-1-1SAOC系統(例如,一單聲道下混信號(212)及一單一上混通道(信號))。N個輸入音訊物件被下混成一單聲道信號並被渲染成一單聲道輸出。如第8圖中指定,用d1..dN表示下混係數及用r1..rN表示渲染係數。在下面公式中,為了簡單明瞭已省略時間指數。同樣地,已去掉頻率指數,要注意的是,方程式有關於子頻帶信號。在下面的一些方程式中,小寫字母表示係數或信號,及大寫字母表示可從方程式的脈絡中看出之相對應的功率。此外,應該注意的是,信號有時用相對應時間-頻率-域而非時域係數表示。
假定,物件#m(聽覺物件指數m)是受關注的一物件,例如最主要物件,其相對層級被增加且因而限制總聲音品質。那麼理想的期望輸出信號(上混通道信號)由
指定。這裡,第一項是受關注物件對輸出信號的期望貢獻,而第二項表示所有其它物件的貢獻(「干擾」)。
然而,事實上,由於要經過下混處理,所以輸出信號由
指定,亦即下混信號隨後被一轉碼係數t縮放,該轉碼係數t對應於一MPEG環繞解碼器中的“m2”矩陣。同樣地,這可被分為一第一項(物件信號對輸出信號的實際貢獻)與一第二項(其它物件信號的實際「干擾」)。這裡,SAOC系統(例如,SAOC解碼器220及可取捨地還有裝置240)動態地決定轉碼係數t,使得實際渲染輸出信號的功率匹配於理想信號的功率:
藉由計算物件#m的理想功率貢獻與其實際功率貢獻間的關係可定義一失真測度(DM):
這裡,表示最終渲染信號的功率,及是下混信號的功率。要指出的是,在一實際實施中,X i 值可用作為SAOC旁側資訊214的一部分被傳輸之相對應物件層級差(OLDi)值來直接替換。
為更好解釋dm1,其定義可再用公式表示如下:
實際上,這意為失真度量是理想渲染(輸出)信號中對下混(輸入)信號中相對物件功率貢獻的比。這與以下發現相配:SAOC方案在其不必以大因數來改變相對物件功率時效果最佳。
增加dm1值指示降低聲音物件#m的聲音品質。已發現的是,若所有渲染係數被縮放一公共因數,或若所有下混係數被同樣地縮放,則dm1值仍是常數。此外,亦發現的是,增加物件#m的渲染係數(增加其相對層級)導致失真增加。dm1值可如下理解:
‧ 值1指示物件#m的理想品質;
‧ 增加dm1值使其大於1指示降低品質;
‧ 小於1的dm1值不進一步提高物件#m的品質。
因此,聲音場景品質的一總測度(亦即,所有物件的品質)可如下計算:
在此方程式中,w(m)指示物件#m的一加權因數,該加權因數有關於音訊場景內特定物件的顯著性與敏感性。如一範例,w(m)接著可依物件功率/響度來選擇w(m)=(r m 2 X m ) α ,其中α可典型地被選為0.25來粗略仿真此物件的心理聲學響度增長。此外,w(m)可計入音調與遮蔽現象。可選擇地,w(m)可被設為1,這有助於計算DM1
2.3.2失真測度#2
自方程式(4)開始可建構一選替失真測度來形成一雜訊遮蔽比(NMR)式的一感知測度,亦即計算雜訊/干擾與遮蔽門檻間的關係:
在此方程式中,msr是取決於其音調之總音訊信號的遮蔽對信號比。dm2值增加指示聲音物件#m的失真較高。再者,若所有渲染係數被縮放一公共因數,或若所有下混係數被同樣地縮放,則dm2值仍是常數。dm2的值範圍可如下理解:
‧ 值0指示物件#m的理想品質;
‧ 增加dm2值使其大於1指示漸進可聞降級;
‧ 小於1的dm2值指示物件#m無法區分的品質。
因此,聲音場景品質的一總測度(亦即,所有物件的品質)可如下計算:
同樣,w(m)指示物件#m的一加權因數,該加權因數有關於音訊場景內特定物件的顯著性/層級/響度,通常選為w(m)=(r m 2 X m ) α,其中α=0.25。
方程式(6)的失真測度計算作為功率差的失真(這對應於一「具有頻譜差的NMR」量測)。可選擇地,失真可在一波形基礎上來計算,這導致如下包括一額外混合乘積項之測度:
2.3.3失真測度#3
一第三失真測度被提出,該第三失真測度說明下混信號與渲染信號間的相干性。較高相干性造成主觀主觀聲音品質。此外,若IOC資料在SAOC解碼器出現,可計入輸入音訊物件的相關性。
由SAOC參數(例如,參數214a,其可包含物件層級差參數及物件間相關參數)可決定物件共變異數的一模型
為計算失真測度,組合一包含渲染及下混係數的矩陣M(M可被理解為N-1-2 SAOC系統的一渲染矩陣)
下混與渲染信號間的變異數C則為
一失真測度DM3被定義為
DM3的值可如下理解:
‧ 值在範圍[0..1]內且指示下混與渲染信號間的相干性。
‧ 值0指示理想品質。
‧ 增加DM3值指示降低品質。
2.3.4失真測度#4 2.3.4.1概述
此方法打算使用目標渲染能量(UPMIX)與最佳下混能量(自指定下混DMX而計算)間的平均加權比作為一失真測度。
詳情也請參考第4圖,第4圖繪示下混(DMX)、最佳下混能量(DMX_opt)及目標渲染能量(UPMIX)的一圖形表示型態。
2.3.4.2命名
ch={1,2,...,N ch } 上混通道指數
dx={1,2} 下混通道指數
ob={1,2,...,N ob } 音訊物件指數
pb={1,2,...,N pb } 參數頻帶指數
r ch,ob,pb =r(ch,ob,pb) 針對通道ch、音訊物件ob及參數頻帶pb的渲染矩陣
d dx,ob,pb =d(dx,ob,pb) 針對下混通道dx、音訊物件ob及參數頻帶pb的下混矩陣
w ob,pb =w(ob,pb) 加權因數,其表示針對參數頻帶pb之音訊物件ob的顯著性/層級/響度
NRG pb =NRG(pb) 針對頻帶pb具有最高能量之音訊物件的絕對物件能量
OLD ob,pb =OLD(ob,pb) 物件層級差,其說明一音訊物件ob與針對相對應頻帶pb具有最高能量之物件間的強度差
=IOC(ob i ,ob j ,pb) 物件間相關性,其說明音訊物件之兩通道間的相關性。
2.3.4.3演算法
下面將簡要說明一用以獲得失真測度#4之演算法的步驟:‧ 計算上混與下混相對能量:
‧ 正規化能量,使
‧ 建構每一上混通道與頻帶的最佳下混
藉由解線性方程式的超定系統滿足下列條件:計算乘法常數α ch , ob , pb 、β ch , ob , pb
‧ 計算失真測度:
2.3.4.4失真控制
失真控制是藉由依賴於失真測度DM4限制一或多個渲染係數來實現。
可指出的是,(i)測度僅對於立體聲下混情況是相關的,及(ii)對於#dx=1及#ch=1的情況,其可簡化為DM1。
2.3.4.5性質
下面將簡要概述用以計算失真測度#4之構想的性質。此構想
‧ 假定理想轉碼
‧ 可處理立體聲下混;及
‧ 容許對一多通道渲染進行一般化。
2.3.5失真測度#5
轉碼係數t的一選替計算被提出。它可被理解為t的一延伸且造成轉碼矩陣T,該轉碼矩陣T以包含物件間相干(IOC)且同時將目前度量DM#1與DM#2延伸至立體聲下混與多通道上混為特徵。目前實施轉碼係數t考慮實際渲染輸出信號的功率與理想渲染信號的功率的匹配,亦即
共變異數矩陣E的併入產生了t的一經修改公式,即轉碼矩陣T,其也考慮物件間相干。由SAOC參數214計算出E的元素為
轉碼矩陣表示下混至渲染輸出信號的轉換使得TDx Rx。其透過使均方誤差最小化而獲得,產生
T=RED *(DED *)-1
其中H=RED *h ij =
V=DED *v ij =
dm1形式的失真測度可現在對於物件m的每一下混/渲染組合(n,k)由
指定。單獨考慮左與右下混通道的dm1(m)得出
可假定的是,兩下混/上混路徑中的較佳者是有關於渲染輸出的品質,因而測度對應於最小值,亦即
dm 5(m,k)=min[dm L ,dm R ]。
用指數k指定之所有輸出通道的一總測度可被計算為
所有物件的總測度可由來獲得,其中同前述
對於dm 2,t至T的一類似延伸是可能的。
2.3.6失真測度#6
下面將說明一第六失真測度。
令ei(t)為物件信號#i的平方Hilbert包絡及Pi為物件信號#i的功率(典型地都在一子頻帶內),則音調/類似雜訊的一測度N可由對Hilbert包絡的一正規化變異數估計來獲得,如
可選擇地,同樣Hilbert包絡差信號的功率/變異數可替代Hilbert包絡本身的變異數使用。在任一情況中,該測度說明包絡波動隨時間的強度。
此音調/類似雜訊測度N可針對理想渲染信號混合與實際SAOC渲染聲音混合二者來決定及一失真測度可由該兩者間的差來計算,例如:
DM6=|N理想-N實際|β
其中β是一參數(例如,β=2)。
2.3.7針對參考場景與SAOC渲染場景計算源信號影像的能量
為計算用於失真測度之參考場景與SAOC渲染場景中源影像的物件能量,對於SAOC渲染場景我們必須計入轉碼矩陣T,如其在「失真量測5」中所執行的那樣,而對於參考場景與渲染場景二者還要計入源信號的相關性。
注意:大寫的信號的符號在這裡反映信號的矩陣符號,而非前面章節中的信號能量
對於一任意源xm,所有源xi中xm的信號部分可被如下計算:將所有源信號xi分成一相關於受關注物件xm的信號部分x i m 與一不相關於xm的部分x i m 。這可由xm至所有信號xi上的子空間投射來完成,亦即x i =x i m +x i m 。相關部分由
指定。
2.3.7.1由參考場景y中源的影像來計算
其中Y=RXX=X m +X m ,對於所有渲染通道,源xm的影像可透過=RX m 計算,其中
可由下式計算
因此,參考場景中源影像的能量將為:
2.3.7.2由SAOC渲染場景中源的影像來計算
這可用與相同的方式來完成。其中T為轉碼矩陣及D為下混矩陣,對於渲染場景中的所有通道將為:
使用
因此,參考場景中源影像的能量將為:
2.3.7.3計算失真測度
針對每一物件m及輸出渲染通道k,dm1形式的失真測度可被計算為
其中如前述w(m)=
2.3.8物件信號性質
下面將說明物件信號性質的一範例,其可被例如裝置250或人工因素減小方塊320使用以便獲得一失真測度。
在SAOC處理中,數個音訊物件信號被下混成一下混信號,該下混信號接著被用於產生最終渲染輸出。如果一音調物件信號與具有相等信號功率的一更似雜訊第二物件信號相混合,結果將為似雜訊。這同樣適用於如果第二物件信號具有一較高功率的情況。僅當第二物件信號具有實質上小於第一物件信號的一功率時,結果才為音調。以相同方式,渲染SAOC輸出信號的音調/類似雜訊主要由下混信號的音調/類似雜訊決定,而與所應用的渲染係數無關。為了取得良好的主觀輸出品質,實際渲染信號的音調/類似雜訊也應該接近於理想渲染信號的音調/類似雜訊。為了在失真測度中使用此構想,必需將有關每一物件的音調/類似雜訊之資訊作為位元串流的一部分傳輸。理想渲染輸出的音調/類似雜訊N接著可在SAOC解碼器中作為每一物件Ni之音調/類似雜訊及其物件功率Pi的一函數來估計,亦即
N=f(N1,P1,N2,P2,N3,P3,...)
並與實際渲染輸出信號的音調/類似雜訊比較以便計算一失真測度。如一範例,可使用下列函數f():
其將物件音調/類似雜訊值及物件功率組合成一估計混合信號的音調/類似雜訊值之單一輸出。參數α可被選為優化一指定音調/類似雜訊測度之估計程序的精度(例如,α=2)。一基於音調/類似雜訊之適當失真度量在2.3.6節以失真測度#6予以說明。
2.4失真限制方案 2.4.1失真限制方案的概述
下面將給出複數失真限制方案的一簡短概述。如上討論,渲染係數調整器250接收輸入渲染係數242並基於輸入渲染係數242提供一經修改渲染係數222供SAOC解碼器220使用。
提供經修改渲染係數的不同構想可被區分,其中該等構想在一些實施例中可被組合。依據第一構想,依賴於旁側資訊214的一或多個參數(亦即,依賴於物件相關參數資訊214)在一第一步驟可獲得一或多個渲染參數限制值。之後,依賴於期望渲染參數242及該一或多個渲染參數限制值獲得實際「(經修改或經調整)」渲染係數222,使得實際渲染參數遵從渲染參數限制值所定義的限制。因此,此類超出渲染參數限制值的渲染參數被調整(修改)成遵從渲染參數限制值。此第一構想易於實施但有時可導致使用者滿意度略微降低,因為若使用者定義的期望渲染參數242超出渲染參數限制值就不予考慮使用者對期望渲染參數242的選擇。
依據一第二構想,參數調整器計算介於一期望渲染參數之平方與一最佳渲染參數之平方間的一線性組合以獲得實際渲染參數。在此情況中,參數調整器被組態成依賴於一預定門檻值參數與一失真度量(如上所述)來判定期望渲染參數與最佳渲染參數對線性組合的一貢獻。
此外,失真測度(失真度量)是否使用物件間關係性質及/或個別物件性質來計算是可區分的。在一些實施例中,僅評估物件間關係性質而不予考慮個別物件性質(僅有關於一單一物件)。在一些其它實施例中,僅考慮個別物件性質而不予考慮物件間關係性質。然而,在一些實施例中,評估物件間關係性質與個別物件性質之一組合。
基於前面考慮,及亦基於上面對不同失真測度的討論,如下面子節概述者,將定義一些限制失真的方案。這些限制失真的方案可被渲染係數調整器250應用以便依賴於輸入渲染係數242來獲得經修改渲染係數。
2.4.2失真限制方案#1
在子節2.3.1,藉由計算物件#m之理想功率貢獻與其實際功率貢獻間的關係(方程式4)來定義一簡單失真測度:
在此方程式中,在SAOC渲染器控制下的僅有變數為在轉碼過程中使用的渲染係數。因此如果產生的失真度量不應超過某一門檻值T,則這施加一條件於對應渲染矩陣係數上:
為了為所有找出一解,,可設定一組線性方程式Ax=b,其中
其中
A的第一個N列自方程式(6.1.a)直接獲得。此外,加入一限制使得新(受限制的)渲染係數的能量等於使用者指定係數的能量。進而獲得(可視作渲染參數限制值)的一解,為:
x=(A T A) -1 A T b
以此開始,一第一過分簡單失真限制方案可被看做如下:與在渲染矩陣係數242自使用者介面被提供至SAOC解碼器時使用它們不同),物件#m之有效使用的渲染係數rm’222在被用於SAOC解碼過程之前在每訊框的基礎上被(例如,渲染係數調整器240)修改/限制:
要指出的是,限制過程取決於每一特定訊框中個別物件能量。此方法簡單且具有下列較小的缺點:
‧ 不考慮相對物件響度與感知遮蔽;及
‧ 僅獲得提升一特定物件的效果,但未獲得減小物件增益的效果。這可透過亦對dm值規定一下界來處理。
2.4.3限制方案#2 2.4.3.1限制方案概述
此節說明一考慮下列層面的限制函數:
‧ 失真測度受一限制門檻制約,
‧ 受限制渲染矩陣的推導是基於限制函數與其到初始渲染矩陣的距離。
此限制函數(或限制方案)可例如由渲染係數調整器250結合失真計算器260來執行。
失真測度是渲染矩陣的一函數,使得
‧ 一初始渲染矩陣(例如由輸入渲染係數242說明)產生一初始失真測度,
‧ 最佳失真測度產生一最佳渲染矩陣,但此最佳渲染矩陣到初始渲染矩陣的距離可能不是最佳的,
‧ 失真測度與一渲染矩陣到初始渲染矩陣的距離成線性反比,
‧ 對於某一門檻,透過在初始與最佳工作點間內插(例如,線性內插)來獲得受限制渲染係數(例如,由經調整或修改渲染係數222說明)。
此外,每一工作點中渲染信號的功率可被假定近似常量,使得
限制方案#2可結合不同失真測度使用,如將在下面討論者。
2.4.3.2失真測度#1的限制
對於每一參數頻帶,一受關注物件之失真測度dm1(m)被定義為
當將dm1(m)設為其最佳值,亦即dm 1, opt (m)=1時,產生最佳渲染矩陣
因此,最佳渲染矩陣值可藉由使用一方程式系統來獲得,其中被用替換。
在dm1(m)的預定門檻為T的條件下,限制渲染矩陣由
指定。
2.4.3.3失真測度#2a的限制
有時也被簡要表示為“dm 2(m)”之失真測度dm 2 a (m)被定義為,對於物件m及每一參數頻帶
對於一特定參數頻帶pb,遮蔽對信號比msr(pb)是渲染信號之功率的一函數
失真測度的最佳值是零,亦即dm 2 a , opt (m)=0。這對應於一不引入任何誤差的完美轉碼過程。因此,最佳渲染矩陣產生
其中dm 2 a (m)=T,經修改渲染係數222說明之受限制渲染矩度變為
2.4.3.4失真測度#2b的限制
有時也簡要表示為dm 2'(m)之失真測度dm 2 b (m)也可被裝置240使用來依賴於輸入渲染係數242獲得受限制渲染矩陣,該受限制渲染矩陣可由經修改渲染係數222說明。
2.4.3.5失真測度#4的限制
失真測度dm 4(m)針對物件m及每一參數頻帶被定義為
且其最佳值為dm 4, opt (m)=0。因此,最佳與受限制渲染矩陣導致
因此,裝置240可依賴於輸入渲染係數242以及還依賴於失真測度252來提供經修改渲染係數22,失真測度252可等於第四失真測度dm 4(m)。
2.4.4限制方案#3
對應於公式(6.1.a),物件m的受限制渲染係數可針對失真測度#3如下計算。縮寫式
一個二次方程式被建立
其(正)解為
因此,裝置240可包含渲染參數限制值,且可依據該渲染參數限制值來限制經調整(或修改)渲染係數222。
2.4.5進一步可取捨改進
上述被裝置240個別或組合執行的用以限制渲染係數222之構想可被進一步改進。舉例而言,可執行對M通道渲染的一般化。為此目的,渲染係數的平方/冪之和可被使用來取代一單一渲染係數。
此外,可執行對一立體聲下混的一般化。為此目的,下混係數的平方/冪之和可被使用來取代一單一下混係數。
在一些實施例中,失真度量可在頻率中組合成一用於降級控制之單一失真度量。可選擇地,在一些情況中對於每一頻帶獨立進行失真控制可能更好(且更簡單)。
不同構想可被用於實際上進行失真控制。舉例而言,一或多個渲染係數可被限制。可選擇地或額外地,(例如,一MPEG環繞解碼的)一m2矩陣係數可受限制。可選擇地或額外地,一相對物件增益可受限制。
3.依據第3圖的實施例
下面參考第3圖將說明一SAOC解碼器的另一實施例。為了便於理解,將首先給出基本考慮的一簡要討論。一「空間音訊物件編碼」(SAOC)系統(類似於標準化為ISO/IEC 23003-2者)的輸出可顯出取決於音訊物件性質及渲染矩陣與下混矩陣間的關係的人工因素。為討論此問題,這裡在不失一般性的情況下考慮其中下混矩陣與渲染矩陣具有相同尺寸之情況。即使下混場景與渲染場景中的通道數不同,相對應的考慮也適用。
已發現的是,一般地,當渲染矩陣變得明顯與下混矩陣不同時人工因素的風險增加了。不同類型的人工因素可被區分:
1.渲染矩陣,亦即「有效」渲染矩陣不同於輸入至SAOC解碼器的期望渲染矩陣(一物件之實際上實現的衰減或增益與在渲染矩陣中指定的不同)的缺點。這典型地是由物件在某些參數頻帶中重疊造成的結果。
2.一物件之音色之不期望的及甚至可能時變的改變。此假影特別嚴重。當1.中所提及的「洩露」僅局部出現在一單一參數頻帶時,此人工因素尤其嚴重。。
3.SAOC解碼器中由時間與頻率變化信號處理引起的人工因素,像調變物件信號、音樂聲調、調變雜訊。
已發現的是,最小化所有類型的人工因素是期望的。
一處理此問題且最小化人工因素的一般化方法是在期望渲染矩陣被送至SAOC解碼器之前對其進行一時間頻率變化後處理。此方法在第3圖中繪示。
第3圖繪示一SAOC解碼器安排300的一方塊示意圖。SAOC解碼器也可被簡要表示為一音訊信號解碼器。音訊信號解碼器300包含一SAOC解碼器核心310,該SAOC解碼器核心310被組態成接收一下混信號表示型態312及一SAOC位元串流並基於它們提供一渲染場景的一說明316,例如為複數上混音訊通道之一表示型態的形式。
音訊信號解碼器300也包含一人工因素減小方塊320,該人工因素減小方塊320可例如被提供為一用以依賴於一或多個輸入參數來提供一或多個經調整參數之裝置的形式。人工因素減小方塊320被組態成接收有關一期望渲染矩陣的資訊322。該資訊322可例如採用複數期望渲染參數的形式,該複數期望渲染參數可形成人工因素減小方塊的輸入參數。人工因素減小方塊320進一步被組態成接收下混信號表示型態312與SAOC位元串流314,其中SAOC位元串流314可攜載一物件相關參數資訊。人工因素減小方塊320進一步被組態成依賴於有關期望渲染矩陣之資訊322來提供一經修改渲染矩陣324(例如,為複數經調整渲染參數的形式)。
因此,SAOC解碼器核心310可被組態成依賴於下混信號表示型態312、SAOC位元串流314及經修改渲染矩陣324來提供渲染場景之表示型態316。
下面將提供音訊信號解碼器之功能的一些細節。已發現的是,為了評估由SAOC系統針對一指定期望渲染矩陣之潛在受限分離能力引起的人工因素風險,期望計入下混信號(由下混信號表示型態312說明)與SAOC位元串流314。有了此資訊在手,例如藉由修改渲染矩陣來試圖緩解這些人工因素是可能的。這由人工因素減小方塊320來執行。高級緩解策略計入SAOC系統之時間及頻率選擇性的限制(重疊)與感知效果兩者,亦即它們應該嘗試使渲染信號聽起來類似於期望輸出信號同時具有盡可能少的可聞人工因素。
在第3圖所示音訊信號解碼器300中使用之人工因素減小的一較佳方法是基於一總失真測度,該總失真測度是評估上面列出的不同類型人工因素之失真測度的一加權組合。這些權重決定上面列出的不同類型人工因素間的一適當折衷。應該指出的是,這些不同類型人工因素的權重可取決於使用SAOC系統的應用。
換言之,人工因素減小方塊320可被組態成獲得針對複數類型人工因素的失真測度。舉例而言,人工因素減小方塊320可應用上面討論之失真測度dm1至dm6中的一些失真測度。可選擇地或額外地,人工因素減小方塊320可使用如此節所述之說明其他類型人工因素之進一步的失真測度。再者,人工因素減小方塊可被組態成使用上面已討論(例如,2.4.2、2.4.3及2.4.4節中)的一或多個失真限制方案或與之相當的人工因素限制方案基於期望渲染矩陣322來獲得經修改渲染矩陣324。
4.依據第5a及5b圖的音訊信號轉碼器 4.1依據第5a圖的音訊信號轉碼器
應該注意的是,上面所述構想可應用於一音訊信號解碼器與一音訊信號轉碼器中。參考第2及3圖,已結合音訊信號解碼器來說明了此構想。下面將結合音訊信號轉碼器來簡要討論本發明構想的使用。
關於此問題,應該指出的是,已參考第9a、9b及9c圖討論了音訊信號解碼器與音訊信號轉碼器的類似性,藉此對第9a、9b及9c圖所作闡述適用於本發明構想。
第5圖繪示一音訊信號轉碼器500結合一MPEG環繞解碼器510之一方塊示意圖。如可見,可以是一SAOC至MEPG環繞轉碼器之音訊信號轉碼器500被組態成接收一SAOC位元串流520並基於它們在不影響(或修改)一下混信號表示型態524的情況下提供一MPEG環繞位元串流522。音訊信號轉碼器500包含一SAOC剖析方塊530,該SAOC剖析方塊530被組態成接收SAOC位元串流520並自SAOC位元串流530擷取期望的SAOC參數。音訊信號轉碼器500也包含一場景渲染引擎540,該場景渲染引擎540被組態成接收由SAOC剖析方塊530提供的SAOC參數及一渲染矩陣資訊542,該渲染矩陣資訊542可被視作一實際渲染(矩陣)資訊且可例如以複數經調整(或修改)渲染參數的形式來表示。場景渲染引擎540被組態成依賴於該等SAOC參數及渲染矩陣542來提供MPEG環繞位元串流522。為此目的,場景渲染引擎540被組態成計算MPEG環繞位元串流參數522,該等MPEG環繞位元串流參數522為通道相關參數(也稱為參數資訊)。因此,場景渲染引擎540被組態成依賴於實際渲染矩陣542將組成一物件相關參數資訊之SAOC位元串流520的參數轉換(「或轉碼」)成組成一通道相關參數資訊之MPEG環繞位元串流的參數。
音訊信號轉碼器500也包含一渲染矩陣產生方塊550,該渲染矩陣產生方塊550被組態成接收一有關一期望渲染矩陣之資訊,例如其為一有關一播放組態之資訊552及一有關物件位置之資訊554的形式。可選擇地,渲染矩陣產生方塊550可接收有關期望渲染參數(例如,渲染矩陣項)的資訊。渲染矩陣產生方塊亦被組態成接收SAOC位元串流520(或至少由SAOC位元串流520表示之物件相關參數資訊的一子集)。渲染矩陣產生方塊550亦被組態成基於接收到的資訊提供實際(經調整或修改)渲染矩陣542。在此程度上,渲染矩陣產生方塊550可接替裝置100或裝置240的功能。
MEPG環繞解碼器510典型地被組態成基於下混信號資訊524及場景渲染引擎540提供的MPEG環繞串流522來獲得複數上混通道信號。
總之,音訊信號轉碼器500被組態成提供MPEG環繞位元串流522使得MPEG環繞位元串流522容許基於下混信號表示型態524提供一上混信號信號表示型態,其中該上混信號表示型態實際上由MPEG環繞解碼器510提供。渲染矩陣產生方塊550調整場景渲染引擎540使用的渲染矩陣542使得MPEG環繞解碼器510產生的上混信號表示型態不包含一不可接受的可聞失真。
4.2依據第5b圖的音訊信號轉碼器
第5b圖繪示一音訊信號轉碼器560及一MPEG環繞解碼器510的另一安排。應該指出的是,第5b圖的安排非常類似於第5a圖的安排,因而用相同的參數數字來表示相同的裝置與信號。音訊信號轉碼器560與音訊信號轉碼器500的不同之處在於音訊信號轉碼器560包含一下混轉碼器570,該下混轉碼器570被組態成接收輸入下混表示型態524並提供一饋送至MPEG環繞解碼器510之經修改下混表示型態574。修改下混信號表示型態是為了在期望音訊結果的限定上獲得更多靈活性。這是因為MPEG環繞位元串流522無法表示MPEG環繞解碼器510之輸入信號到MPEG環繞解碼器510所輸出之上混通道信號的一些映射。因此,使用下混轉碼器570修改下混信號表示型態可帶來一增加的靈活性。
再者,渲染矩陣產生方塊550可接替裝置100或裝置240的功能,藉此確保MPEG環繞解碼器510提供之上混信號表示型態中的可聞失真被保持得足夠小。
5.依據第6圖的音訊信號編碼器
下面參考第6圖將說明一音訊信號編碼器600,第6圖繪示這一音訊信號編碼器的一方塊示意圖。音訊信號編碼器600被組態成接收複數物件信號612a、612N(也用x1至xN表示)並基於它們提供一下混信號表示型態614及一物件相關參數資訊616。音訊信號編碼器600包含一下混器620,該下混器620被組態成依賴與物件信號相關聯之下混係數d1至dN來提供一或多個下混信號(這組成下混信號表示型態614),使得該一或多個下混信號包含複數物件信號的一疊加。音訊信號編碼器600也包含一旁側資訊提供器630,該旁側資訊提供器630被組態成提供一說明兩或兩個以上物件信號612a至612N的層級差或相關性特性之物件間關係旁側資訊。旁側資訊提供器630亦被組態成提供一說明個別物件信號的一或多個個別性質之個別物件旁側資訊。
音訊信號編碼器600因而提供物件相關參數資訊616使得物件相關參數資訊包含一物件間關係旁側資訊與個別物件旁側資訊。
已發現的是,此一說明物件信號間的關係與單一物件信號的個別特性之物件相關參數資訊容許如上討論在一音訊信號解碼器中提供一多通道音訊信號。物件間關係旁側資訊可被接收物件相關參數資訊616之音訊信號解碼器使用以便自下混信號表示型態中至少近似地擷取個別物件信號。亦被包括於物件相關參數資訊614內之個別物件旁側資訊可被音訊信號解碼器用於驗證上混過程是否帶來太強的信號失真,使得上混參數(例如,渲染參數)需要被調整。
較佳地,旁側資訊提供器630被組態成提供個別物件旁側資訊使得個別物件旁側資訊說明個別物件信號的一音調。已發現的是,一音調資訊可被用作一評估上混過程是否帶來明顯失真的可靠準則。
還應該注意的是,音訊信號編碼器600可由本文就音訊信號編碼器所討論的任一特徵或功能來補充,及下混信號表示型態614與物件相關參數資訊616可由音訊信號編碼器600來提供使得它們包含就本發明音訊信號編碼器所討論的特性。
6.依據第7圖的音訊位元串流
依據本發明的實施例產生一音訊位元串流700,該音訊位元串流700的一示意表示型態在第7圖中繪示。該音訊位元串流以一編碼形式表示複數物件信號。
音訊位元串流700包含一表示一或多個下混信號之下混信號表示型態710,其中該等下混信號當中之至少一下混信號包含複數物件信號的一疊加。音訊位元串流700亦包含一說明物件信號的層級差及相關性特性之物件間關係旁側資訊720。音訊位元串流亦包含一說明個別物件信號(這形成下混信號表示型態710的基礎)的一或多個個別性質之個別物件旁側資訊730。
物件間關係旁側資訊及個別物件資訊可被整體視為一物件相關參數旁側資訊。
在一較佳實施例中,個別物件旁側資訊說明個別物件信號的音調。
自然地,音訊位元串流如本文所討論典型地由一音訊信號編碼器來提供且如本文所討論由一音訊信號解碼器來評估。音訊位元串流可包含針對音訊信號編碼器與音訊信號解碼器所討論的特性。因此,如本文所討論,音訊位元串流700可十分適於使用一音訊信號解碼器來提供一多通道音訊信號。
7.結論
依據本發明的實施例提供用以減小或避免上述失真問題的解決方案,上述失真問題源自單一、原始物件信號無法由少數傳輸下混信號完美重建。因而有更多解決此問題的簡單方案被應用:
‧ 一過分簡單方法將是將相對物件增益的範圍限制為例如+/-12dB。若如此,則大物件增益設置可導致可聞降級(範例:將一物件提高20dB而將其他物件層級保留在0dB),然而,這不是無法避免的:如一範例,將所有相對物件層級提高相同因數產生一未受損的系統輸出。
‧ 一更詳盡觀點將是著眼於相對物件層級的差。對於渲染兩音訊物件而言,兩相對物件層級的差確實提供了應對渲染輸出中可能出現的降級的一手段,然而,不清楚的是,此想法如何推廣至兩個以上渲染音訊物件。
鑑於此情況,依據本發明的實施例提供處理此問題且進而防止一不令人滿意的使用者體驗之裝置。一些實施例依據本發明可帶來甚至比前節中所討論者更詳盡的解決方案。
因此,即使一使用者提供不當的渲染參數,使用本發明也可獲得一良好的聽覺印象。
一般而言,如上所述,依據本發明的實施例有關於用以編碼一音訊信號或用以解碼一編碼音訊信號之一裝置、一方法或一電腦程式、或有關於一編碼音訊信號(例如,為一音訊位元串流的形式)。
8.實施選替方案
雖然在一裝置的脈絡中已說明了一些層面,但顯然這些層面也表示對相對應方法的一說明,其中一區塊或一裝置對應於一方法步驟或一方法步驟的一特徵。類似地,在一方法步驟的脈絡中所說明的層面也表示對一相對應裝置的一相對應區塊或項目或特徵之一說明,一些或所有方法步驟可由(或使用)一硬體裝置來執行,例如,微處理器、可程式化電腦或電子電路。在一些實施例中,某一或多個最重要方法步驟可由這一裝置來執行。
發明的編碼音訊信號或音訊位元串流可被儲存於一數位儲存媒體上或能以一傳輸媒介傳輸,諸如無線傳輸媒介或諸如網際網路之有線傳輸媒介。
視某些實施需求而定,本發明的實施例可在硬體或軟體中實施。使用一儲存有電子可讀取控制信號之數位儲存媒體,例如軟碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體可執行該實施,它們與一可程式化電腦系統合作(或能夠合作)使得各自的方法被執行。因此,該數位儲存媒體可以是電腦可讀取的。
依據本發明的一些實施例包含一具有電子可讀取控制信號的資料載體,該資料載體能夠與一可程式化電腦系統合作使得本文所予以描述之方法當中之一方法被執行。
大體上,本發明之實施例可作為一具有一程式碼的電腦程式產品而被實施,當該電腦程式產品運行於一電腦上時,該程式碼可操作用於執行該等方法當中之一方法。該程式碼例如被儲存於一機器可讀取載體上。
其它實施例包含儲存於一機器可讀取媒體上、用於執行本文所予以描述之該等方法當中之一方法的電腦程式。
換言之,發明方法的一實施例因而是一電腦程式,具有一當該電腦程式運行於一電腦上時用以執行本文所予以描述之該等方法當中之一方法的程式碼。
發明方法的一進一步實施例因而是一資料載體(或一數位儲存媒體或一電腦可讀取媒體),其包含記錄於其上用以執行本文所予以描述之該等方法當中之一方法的電腦程式。
發明方法的一進一步實施例因而是一資料串流或一信號序列,表示用於執行本文所予以描述之該等方法當中之一方法的電腦程式。該資料串流或該信號序列可例如被組態成經由一資料通訊連接(例如經由網際網路)來被傳遞。
一進一步的實施例包含一處理裝置,例如一電腦,或一可程式化邏輯裝置,其被組態成或適於執行本文所予以描述之該等方法當中之一方法。
一進一步的實施例包含一上面安裝有用以執行本文所予以描述之該等方法當中之一方法的電腦程式之電腦。
在一些實施例中,一可程式化邏輯裝置(例如,一現場可程式化閘陣列)可被用來執行本文所予以描述之該等方法的一些或所有功能。在一些實施例中,一現場可程式化閘陣列可與一微處理器合作以便執行本文所予以描述之該等方法當中之一方法。大體上,該等方法較佳地被任一硬體裝置執行。
上述實施例僅僅是為了說明本發明的原理。要明白的是,對本文所予以描述之安排與細節的修改或改變對其他熟於此技者而言將是顯而易見的。因而,意圖是僅受後附的申請專利範圍之範圍限制而不受以本文實施例的說明與闡述方式呈現之特定細節限制。
參考文獻
[BCC] C. Faller and F. Baumgarte,“Binaural Cue Coding-Part II: Schemes and applications,”IEEE Trans. on Speech and Audio Proc.,vol. 11,no. 6,Nov. 2003
[JSC] C. Faller,“Parametric Joint-Coding of Audio Sources”,120th AES Convention,Paris,2006,Preprint 6752
[SAOC1] J. Herre,S. Disch,J. Hilpert,O. Hellmuth:“From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio”,22nd Regional UK AES Conference,Cambridge,UK,April 2007
[SAOC2] J. Engdegrd,B. Resch,C. Falch,O. Hellmuth,J. Hilpert,A. Hlzer,L. Terentiev,J. Breebaart,J. Koppens,E. Schuijers and W. Oomen:“Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding”,124th AES Convention,Amsterdam 2008,Preprint 7377
100...裝置
110...輸入參數
120...經調整參數
130...物件相關參數資訊
140...參數調整器
200...MPEG SAOC系統
210...SAOC編碼器
212...下混信號
214...旁側資訊
214a、214b...參數
214c...物件性質旁側資訊、額外參數
220...SAOC解碼器
222...經修改渲染係數
240...裝置
242...渲染控制資訊、輸入渲染係數
250...渲染係數調整器
252...失真量測
260...失真計算器
300...SAOC解碼器、音訊信號解碼器
310...SAOC解碼器核心
312...下混信號表示型態
314...SAOC位元串流
316...渲染場景表示型態、渲染場景說明
320...人工因素減小
322...期望渲染矩陣
500...音訊信號轉碼器
510...MPEG環繞解碼器
520...SAOC位元串流
522...MPEG環繞位元串流
524...下混信號表示型態
530...SAOC剖析
540...場景渲染引擎
542...渲染矩陣資訊、渲染矩陣
550...渲染矩陣產生
552...播放組態資訊
554...物件位置資訊
560...音訊信號轉碼器
570...下混轉碼器
574...經修改下混信號表示型態
600...音訊信號編碼器
612a~612N...物件信號
614...下混信號表示型態
616...物件相關參數資訊
620...下混器
630...旁側資訊提供器
700...音訊位元串流
710...下混信號表示型態
720...物件間關係旁側資訊
730...個別物件旁側資訊
800、900、930、960...MPEG SAOC系統
810...SAOC編碼器
820、920、950...SAOC解碼器
820a...物件分離器
820b、924...經重建物件信號
820c...混合器
822...使用者互動資訊/使用者控制資訊
922...物件解碼器
926...混合器、渲染器
928、958...上混通道信號
980...SAOC至MPEG環繞轉碼器
982...旁側資訊轉碼器
984...MPEG環繞旁側資訊、MPEG環繞位元串流
986...下混信號操控器
988...下混信號表示型態
參考附圖隨後將說明依據本發明的實施例,其中:
第1圖繪示一用以基於一下混信號表示型態及一物件相關參數資訊針對一上混信號表示型態之供應來提供一或多個經調整參數之裝置的一方塊示意圖;
第2圖依據本發明之一實施例繪示一MPEG SAOC系統的一方塊示意圖;
第3圖依據本發明之另一實施例繪示一MPEG SAOC系統的一方塊示意圖;
第4圖繪示物件信號對一下混信號及對一混合信號之一貢獻的一示意表示型態;
第5a圖依據本發明之一實施例繪示一基於單聲道下混的SAOC至MPEG環繞轉碼器的一方塊示意圖;
第5b圖依據本發明之一實施例繪示一基於立體聲下混的SAOC至MPEG環繞轉碼器的一方塊示意圖;
第6圖依據本發明之一實施例繪示一音訊信號編碼器的一方塊示意圖;
第7圖依據本發明之一實施例繪示一音訊位元串流之一示意表示型態;
第8圖繪示一參考MPEG SAOC系統的一方塊示意圖;
第9a圖繪示一使用一分離的解碼器及混合器之參考SAOC系統的一方塊示意圖;
第9b圖繪示一使用一整合的解碼器及混合器之參考SAOC系統的一方塊示意圖;
第9c圖繪示一使用一SAOC至MPEG轉碼器之參考SAOC系統的一方塊示意圖。
100...裝置
110...輸入參數
120...經調整參數
130...物件相關參數資訊
140...參數調整器

Claims (28)

  1. 一種用以基於下混信號表示型態及物件相關參數資訊針對上混信號表示型態()之供應來提供一或多個經調整參數之裝置,該裝置包含:一參數調整器,其被組配成接收一或多個輸入參數並基於該一或多個輸入參數提供一或多個經調整參數,其中該參數調整器被組配成取決於該一或多個輸入參數及該物件相關參數資訊,來提供該一或多個經調整參數,使得由使用非最佳參數而引起之該上混信號表示型態的一失真至少針對偏離最佳參數超過一預定偏差之輸入參數被減小;其中該裝置被組配成接收一或多個期望渲染參數來作為該等輸入參數,該一或多個期望渲染參數說明該上混信號表示型態()所說明的一或多個音訊通道中之複數音訊物件信號(x1至xN)的一期望強度縮放;及其中該參數調整器被組配成取決於該一或多個期望渲染參數並且取決於該物件相關參數資訊中包含的一或多個下混參數,來提供一或多個實際渲染參數。
  2. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成取決於該物件相關參數資訊及一說明該等音訊物件信號(x1至xN)對該下混信號表示型態的一貢獻之一下混資訊(di),來獲得一或多個渲染參數限制值(),使得一失真度量(dm1(m)、dm2(m)、dm5(m)、dm6(m)、 DM1、DM2、DM3、DM4、DM5、DM6)在渲染參數值遵從該等渲染參數限制值所定義的限制之一預定範圍內,及其中該參數調整器被組配成取決於該等期望渲染參數及該一或多個渲染參數限制值來獲得該等實際渲染參數,使得該等實際渲染參數遵從該等渲染參數限制值所定義的該等限制。
  3. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成獲得該一或多個渲染參數限制值(),使得使用一或多個遵從該一或多個渲染參數限制值的渲染參數,而渲染之複數物件信號的一渲染疊加中之一物件信號(x1至xN)的一相對貢獻與一下混信號中該物件信號的一相對貢獻的差異不超過一預定差。
  4. 如申請專利範圍第3項所述之裝置,其中該參數調整器被組配成決定一或多個渲染參數值rm,使得對於一物件指數m指定的一或多個音訊物件,方程式:被滿足,其中rm表示渲染參數值,該渲染參數值說明一具有物件指數m的音訊物件之一物件信號對該上混信號的一指定通道()的一貢獻,其中dm表示一下混參數,該下混參數說明一下混信號中具有指數m的該物件之該物件信號(x1至xN)的一貢 獻,及其中Xi表示具有物件指數m的該音訊物件的一能量測度,該能量測度由該物件相關參數資訊來決定。
  5. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成獲得該一或多個渲染參數限制值(),使得一失真測度(DM3)在一預定範圍內,該失真測度(DM3)說明由該下混信號表示型態所說明的一下混信號與使用一或多個遵從該一或多個渲染參數限制值()之渲染參數而渲染的一渲染信號間的相干性。
  6. 如申請專利範圍第5項所述之裝置,其中該參數調整器被組配成獲得該一或多個渲染參數限制值為,使得該失真測度 取一預定值,其中C被定義為 其中 是一包含一第一列渲染參數r1至rn與一第二列下混參數d1至dn之矩陣,該第二列下混參數d1至dn說明該等音訊物件信號對該下混信號表示型態的一貢獻; 其中E是使用該物件相關參數資訊之參數(OLD、IOC)獲得的一物件共變異數矩陣,及其中"*"表示一複共軛運算符。
  7. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成計算一期望渲染參數的平方與一最佳渲染參數(ropt,m)的平方間的一線性組合,以獲得該實際渲染參數,其中該參數調整器被組配成取決於一預定門檻參數及一失真度量(dm1、dm2、dm3、dm4、dm5、dm6),來判定該期望渲染參數與該最佳渲染參數(ropt,m)對該線性組合的一貢獻,其中該失真度量說明一由使用該一或多個期望渲染參數而非該等最佳渲染參數(ropt,m)以基於該下混信號表示型態來獲得該上混信號表示型態而引起之失真。
  8. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成評估方程式: 以便獲得實際渲染參數rlim,m,該實際渲染參數rlim,m說明一具有物件指數m的物件之一物件信號對該上混信號之一指定通道的一貢獻,其中T表示一預定失真門檻參數,其中dmx(m)表示一與該期望渲染參數rm相關聯的失真度量,該期望渲染參數rm說明一具有物件指數m的 音訊物件之一物件信號對該上混信號之一指定通道的一期望貢獻;其中ropt,m表示一最佳渲染參數,該最佳渲染參數說明該具有物件指數m的音訊物件之一物件信號對該上混信號之該指定通道的一最佳貢獻。
  9. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成獲得該失真度量,使得該失真度量取決於依據該等期望渲染參數而渲染之複數物件信號之一渲染疊加中一指定物件信號之一相對貢獻、與一包含該指定物件信號之下混信號中該指定物件信號之一相對貢獻間的一關係。
  10. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成獲得該失真度量(dm1),使得該失真度量取決於依據該等期望渲染參數而渲染之複數物件信號之一渲染疊加中一指定物件信號(x1至xN)之一相對貢獻、與一包含該指定物件信號(x1至xN)之下混信號中該指定物件信號(x1至xN)之一相對貢獻間的比例。
  11. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成依據以下來計算該失真度量dmx(m): 其中rm與ri分別表示與具有物件指數m及i的音訊物件相關聯之期望渲染參數; 其中dm與di表示下混參數,該等下混參數分別說明具有物件指數m及i的音訊物件之物件信號對該下混信號表示型態之一下混信號的一貢獻;其中Nob表示一考慮的音訊物件數目;其中Xi表示與具有物件指數i之該等音訊物件之該等物件信號相關聯的能量測度。
  12. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成獲得該失真度量(dm2),使得該失真度量取決於依據該等期望渲染參數而渲染之複數物件信號之一渲染疊加中一指定物件信號(x1至xN)之一相對貢獻、與一包含該指定物件信號(x1至xN)之下混信號中該指定物件信號(x1至xN)之一相對貢獻間的差。
  13. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成計算該失真度量(dm2),使得該失真度量取決於一遮蔽對信號比(msr),藉此若該遮蔽對信號比增加,該失真度量(dm2)就減小,表明一失真較小。
  14. 如申請專利範圍第7項所述之裝置,其中該參數調整器被組配成計算該失真度量,依據: 其中rm與ri分別表示與具有物件指數m及i的音訊物件相關聯之期望渲染參數;其中dm與di表示下混參數,該等下混參數分別說明具有物件指數m及i的音訊物件之物件信號對該下混信號表示型態之一下混信號的一貢獻;其中N表示一考慮的音訊物件數目;其中Xi與Xm分別表示與具有物件指數i及m之該等音訊物件之該等物件信號相關聯的能量測度;及其中msr定義一遮蔽對信號比。
  15. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成取決於感知降級的一計算測度來提供該一或多個經調整參數,使得由使用非最佳參數而引起且用感知降級之該計算測度表示之該上混信號表示型態的一感知評估失真被限制。
  16. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成接收一個別物件性質資訊,該個別物件性質資訊說明一或多個構成該下混信號表示型態說明之一下混信號的基礎的原始物件信號的該等個別性質;及其中該參數調整器被組配成考慮該個別物件性質資訊,並提供該等經調整參數,使得相對於一理想渲染 上混信號表示型態,該上混信號表示型態的一失真至少針對偏離最佳參數超過一預定偏差之輸入參數被減小。
  17. 如申請專利範圍第16項所述之裝置,其中該參數調整器被組配成接收並考慮一物件信號音調資訊作為一個別物件性質資訊,以便提供該一或多個經調整參數。
  18. 如申請專利範圍第17項所述之裝置,其中該參數調整器被組配成取決於該接收物件信號音調資訊與該接收物件功率資訊(OLP,P)來估計一理想渲染上混信號的一音調(N);及其中該參數調整器被組配成提供該一或多個經調整參數,以在比較於該估計音調與使用該一或多個輸入參數而獲得之一上混信號之一音調間的差時,減小該估計音調與使用該一或多個經調整參數而獲得之一上混信號之該音調間的差,或使該估計音調與使用該一或多個經調整參數而獲得之一上混信號之一音調間的差保持在一預定範圍內。
  19. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成執行該等輸入參數的一時間及頻率變化調整。
  20. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成在提供該一或多個經調整參數方面亦考慮該下混信號表示型態。
  21. 如申請專利範圍第1項所述之裝置,其中該參數調整器被組配成獲得一總失真測度,該總失真測度是說明複數人工因素類型之失真測度的一加權組合; 其中該參數調整器被組配成獲得該總失真測度,使得該總失真測度是由使用一或多個該等輸入渲染參數而非最佳渲染參數來基於該下混信號表示型態來獲得該上混信號表示型態而引起之失真的一測度。
  22. 如申請專利範圍第21項所述之裝置,其中該參數調整器被組配成組合下列該等失真測度當中的至少兩失真測度以便獲得該總失真測度:●一說明一音訊物件之音色的一寄生改變之測度;●一說明與一音訊物件相關聯之一物件信號的一寄生調變之測度;●一說明一寄生樂音的存在之測度;●一說明一寄生調變雜訊的存在之測度。
  23. 一種用以基於下混信號表示型態、物件相關參數資訊及期望渲染資訊來提供複數個上混音訊通道()作為上混信號表示型態之音訊信號解碼器,該音訊信號解碼器包含:一上混器,其被組配成基於該下混信號表示型態並取決於該物件相關參數資訊及一實際渲染資訊來獲得該上混音訊通道(),該實際渲染資訊說明由該物件相關參數資訊說明之音訊物件之複數物件信號至該等上混音訊通道的一分配;及一如申請專利範圍第1項所述用以提供一或多個經調整參數之裝置,其中該用以提供一或多個經調整參數的裝置被組配成接收該期望渲染資訊作為該一或多個 輸入參數,並將該一或多個經調整參數提供為實際渲染資訊;及其中該用以提供該一或多個經調整參數的裝置被組配成提供該一或多個經調整參數使得由使用偏離最佳渲染參數(ropt,m)的該等實際渲染參數而引起之該等上混音訊通道()的失真,至少針對偏離該等最佳渲染參數(ropt,m)超過一預定偏差之多個期望渲染參數(ri)被減小。
  24. 一種用以基於下混信號表示型態、物件相關參數資訊及期望渲染資訊來提供通道相關參數資訊作為上混信號表示型態之音訊信號轉碼器,該音訊信號轉碼器包含:一旁側資訊轉碼器,其被組配成基於該下混信號表示型態並取決於該物件相關參數資訊及一實際渲染資訊來獲得該通道相關參數資訊,該實際渲染資訊說明由該物件相關參數資訊說明之音訊物件的複數物件信號至該通道相關參數資訊說明之上混音訊通道的一分配;及一個如申請專利範圍第1項所述用以提供一或多個經調整參數之裝置,其中該用以提供一或多個經調整參數的裝置被組配成接收該期望渲染資訊作為該一或多個輸入參數並提供該一或多個經調整參數作為該實際渲染資訊;及其中該用以提供該一或多個經調整參數的裝置被組配成提供該一或多個經調整參數,使得由使用偏離最 佳渲染參數的實際渲染參數而引起之該等上混音訊通道的失真,至少針對偏離該等最佳渲染參數超過一預定偏差之期望渲染參數被減小。
  25. 一種用以基於下混信號表示型態及物件相關參數資訊針對上混信號表示型態之供應來提供一或多個經調整參數之方法,該方法包含下列步驟:接收一或多個輸入參數並基於該一或多個輸入參數來提供一或多個經調整參數,其中該一或多個經調整參數是取決於該一或多個輸入參數及該物件相關參數資訊而提供,使得由使用非最佳參數而引起之該上混信號表示型態的一失真,至少針對偏離最佳參數超過一預定偏差之輸入參數被減小;其中期望渲染參數被接收來作為該等輸入參數,該等期望渲染參數說明由該上混信號表示型態所說明的一或多個音訊通道中之複數音訊物件信號的一期望強度縮放;以及其中一或多個實際渲染參數係取決於一或多個期望渲染參數並且取決於該物件相關參數資訊中包含的一或多個下混參數來提供。
  26. 一種用以基於下混信號表示型態、物件相關參數資訊及期望渲染資訊來提供複數上混音訊通道作為上混信號表示型態之方法,該方法包含下列步驟:如申請專利範圍第25項所述,提供一或多個經調整參數,其中該期望渲染資訊被接收為該一或多個輸入參 數及其中該一或多個經調整參數被提供為一實際渲染資訊,及其中該一或多個經調整參數被提供,使得由使用偏離最佳渲染參數的該等實際渲染參數而引起之該等上混音訊通道的失真,至少針對偏離該等最佳渲染參數超過一預定偏差之期望渲染參數被減小;以及基於該下混信號表示型態並取決於該物件相關參數資訊及該實際渲染資訊,來獲得該等上混音訊通道,該實際渲染資訊說明由該物件相關參數資訊說明之音訊物件之複數物件信號至該等上混音訊通道的一分配。
  27. 一種用以基於下混信號表示型態、物件相關參數資訊及期望渲染資訊來提供通道相關參數資訊作為上混信號表示型態之方法,該方法包含下列步驟:如申請專利範圍第25項所述,提供一或多個經調整參數,其中該期望渲染資訊被接收為該一或多個輸入參數及其中該一或多個經調整參數被提供為一實際渲染資訊,及其中該一或多個經調整參數被提供,使得由使用偏離最佳渲染參數的該等實際渲染參數而引起之該等上混音訊通道的失真,至少針對偏離該等最佳渲染參數超過一預定偏差之期望渲染參數被減小;及基於該下混信號表示型態並取決於該物件相關參數資訊及該實際渲染資訊,來獲得說明該等上混音訊通道的該通道相關參數資訊,該實際渲染資訊說明由該物件相關參數資訊說明之音訊物件之複數物件信號至上混音訊通道的一分配,該等上混音訊通道由該通道相關 參數資訊說明。
  28. 一種用以執行如申請專利範圍第25、26或27項所述之方法當中之一方法的電腦程式。
TW099113479A 2009-04-28 2010-04-28 用以基於下混信號表示型態針對上混信號表示型態之供應來提供一或多個經調整參數之裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、使用物件相關參數資訊之方法與電腦程式 TWI529704B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US17345609P 2009-04-28 2009-04-28

Publications (2)

Publication Number Publication Date
TW201104674A TW201104674A (en) 2011-02-01
TWI529704B true TWI529704B (zh) 2016-04-11

Family

ID=42272162

Family Applications (2)

Application Number Title Priority Date Filing Date
TW103126579A TWI560706B (en) 2009-04-28 2010-04-28 Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and co
TW099113479A TWI529704B (zh) 2009-04-28 2010-04-28 用以基於下混信號表示型態針對上混信號表示型態之供應來提供一或多個經調整參數之裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、使用物件相關參數資訊之方法與電腦程式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW103126579A TWI560706B (en) 2009-04-28 2010-04-28 Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and co

Country Status (19)

Country Link
US (2) US8731950B2 (zh)
EP (2) EP2816555B1 (zh)
JP (2) JP5554830B2 (zh)
KR (1) KR101431889B1 (zh)
CN (1) CN102576532B (zh)
AR (1) AR076434A1 (zh)
AU (1) AU2010243635B2 (zh)
BR (1) BRPI1007777A2 (zh)
CA (2) CA2760515C (zh)
ES (2) ES2521715T3 (zh)
HK (2) HK1173551A1 (zh)
MX (1) MX2011011399A (zh)
MY (1) MY157169A (zh)
PL (2) PL2816555T3 (zh)
RU (1) RU2573738C2 (zh)
SG (1) SG175392A1 (zh)
TW (2) TWI560706B (zh)
WO (1) WO2010125104A1 (zh)
ZA (1) ZA201107895B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101341536B1 (ko) 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN116390017A (zh) 2010-03-23 2023-07-04 杜比实验室特许公司 音频再现方法和声音再现系统
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
ITTO20120067A1 (it) * 2012-01-26 2013-07-27 Inst Rundfunktechnik Gmbh Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal.
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN107403624B (zh) 2012-05-18 2021-02-12 杜比实验室特许公司 用于音频信号的动态范围调整及控制的方法和设备
MX350690B (es) * 2012-08-03 2017-09-13 Fraunhofer Ges Forschung Método y descodificador para un concepto paramétrico de codificación de objeto de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal.
ES2595220T3 (es) * 2012-08-10 2016-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y métodos para adaptar información de audio a codificación de objeto de audio espacial
WO2014043476A1 (en) * 2012-09-14 2014-03-20 Dolby Laboratories Licensing Corporation Multi-channel audio content analysis based upmix detection
RU2627102C2 (ru) * 2013-01-29 2017-08-03 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
WO2014187990A1 (en) * 2013-05-24 2014-11-27 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN105393304B (zh) * 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
WO2014187986A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
JP6192813B2 (ja) * 2013-05-24 2017-09-06 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
EP3014901B1 (en) 2013-06-28 2017-08-23 Dolby Laboratories Licensing Corporation Improved rendering of audio objects using discontinuous rendering-matrix updates
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
CN105531759B (zh) 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
WO2015105748A1 (en) 2014-01-09 2015-07-16 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
TWI662543B (zh) * 2014-03-24 2019-06-11 瑞典商杜比國際公司 應用動態範圍壓縮之方法和設備以及一種非暫態電腦可讀取儲存媒體
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
JP6564068B2 (ja) 2015-02-02 2019-08-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を処理するための装置および方法
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
JP6467561B1 (ja) * 2016-01-26 2019-02-13 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的な量子化
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10891962B2 (en) * 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002307884A1 (en) * 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN101223821B (zh) * 2005-07-15 2011-12-07 松下电器产业株式会社 音频解码器
JP5507844B2 (ja) * 2005-10-20 2014-05-28 エルジー エレクトロニクス インコーポレイティド マルチチャンネルオーディオ信号の符号化及び復号化方法とその装置
US20090028344A1 (en) * 2006-01-19 2009-01-29 Lg Electronics Inc. Method and Apparatus for Processing a Media Signal
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
JP5281575B2 (ja) * 2006-09-18 2013-09-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオオブジェクトのエンコード及びデコード
JP5238706B2 (ja) * 2006-09-29 2013-07-17 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
WO2008084427A2 (en) * 2007-01-10 2008-07-17 Koninklijke Philips Electronics N.V. Audio decoder
KR20090122221A (ko) * 2007-02-13 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
TWI443647B (zh) * 2007-02-14 2014-07-01 Lg Electronics Inc 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
MX2010004220A (es) * 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101137360B1 (ko) * 2009-01-28 2012-04-19 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
RU2577199C2 (ru) * 2009-10-20 2016-03-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерная программа и битовый поток, использующий передачу сигналов с контролем искажения
WO2011061174A1 (en) 2009-11-20 2011-05-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter

Also Published As

Publication number Publication date
EP2425427A1 (en) 2012-03-07
AU2010243635B2 (en) 2014-03-27
AR076434A1 (es) 2011-06-08
US20140229187A1 (en) 2014-08-14
CN102576532A (zh) 2012-07-11
HK1205340A1 (zh) 2015-12-11
ES2572083T3 (es) 2016-05-30
MY157169A (en) 2016-05-13
JP2014206747A (ja) 2014-10-30
US8731950B2 (en) 2014-05-20
EP2425427B1 (en) 2014-09-10
AU2010243635A1 (en) 2011-12-22
CA2852503C (en) 2017-10-03
PL2816555T3 (pl) 2016-10-31
CA2852503A1 (en) 2010-11-04
WO2010125104A1 (en) 2010-11-04
US9786285B2 (en) 2017-10-10
TW201443885A (zh) 2014-11-16
ZA201107895B (en) 2012-08-29
HK1173551A1 (zh) 2013-05-16
RU2011145866A (ru) 2013-05-27
KR20120018778A (ko) 2012-03-05
RU2573738C2 (ru) 2016-01-27
MX2011011399A (es) 2012-06-27
SG175392A1 (en) 2011-12-29
TW201104674A (en) 2011-02-01
PL2425427T3 (pl) 2015-02-27
BRPI1007777A2 (pt) 2017-02-14
CN102576532B (zh) 2015-11-25
EP2816555A1 (en) 2014-12-24
ES2521715T3 (es) 2014-11-13
CA2760515C (en) 2015-06-02
TWI560706B (en) 2016-12-01
US20120143613A1 (en) 2012-06-07
EP2816555B1 (en) 2016-03-23
JP5554830B2 (ja) 2014-07-23
KR101431889B1 (ko) 2014-08-27
CA2760515A1 (en) 2010-11-04
JP2012525600A (ja) 2012-10-22

Similar Documents

Publication Publication Date Title
TWI529704B (zh) 用以基於下混信號表示型態針對上混信號表示型態之供應來提供一或多個經調整參數之裝置、音訊信號解碼器、音訊信號轉碼器、音訊信號編碼器、音訊位元串流、使用物件相關參數資訊之方法與電腦程式
US11688407B2 (en) Decoder, encoder, and method for informed loudness estimation in object-based audio coding systems
JP5645951B2 (ja) ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
TWI566234B (zh) 使用殘餘訊號式調整去相關訊號之貢獻的多聲道音頻解碼器、多聲道音頻編碼器、方法及電腦程式
KR101391110B1 (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
TWI431611B (zh) 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流
KR101426625B1 (ko) 평균값을 이용하여 다운믹스 신호 표현 및 이 다운믹스 신호 표현과 관련된 파라메트릭 보조 정보에 기초한 업믹스 신호 표현을 제공하기 위해 하나 이상의 조정된 파라미터를 제공하는 장치, 방법 및 컴퓨터 프로그램
TW201118860A (en) Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing