TWI441165B

TWI441165B - 用以基於下混信號表示型態而提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號之位元串流之裝置、方法、電腦程式及利用線性組合參數表示多聲道音訊信號之位元串流

Info

Publication number: TWI441165B
Application number: TW099139952A
Authority: TW
Inventors: Jonas Engdegard; Heiko Purnhagen; Juergen Herre; Cornelia Falch; Oliver Hellmuth; Leonid Terentiev
Original assignee: Fraunhofer Ges Forschung; Dolby Int Ab
Priority date: 2009-11-20
Filing date: 2010-11-19
Publication date: 2014-06-11
Also published as: US8571877B2; JP2013511738A; EP2489038A1; US20120259643A1; AU2010321013B2; CN102714038B; MY154641A; PL2489038T3; EP2489038B1; ES2569779T3; KR20120084314A; KR101414737B1; CA2781310A1; MX2012005781A; BR112012012097B1; AU2010321013A1; TW201131553A; CN102714038A; BR112012012097A2; CA2781310C

Description

用以基於下混信號表示型態而提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號之位元串流之裝置、方法、電腦程式及利用線性組合參數表示多聲道音訊信號之位元串流

技術領域

依據發明的實施例係有關於一種用以基於一音訊內容的一位元串流表示型態中所包括的一下混信號表示型態及一物件相關參數資訊，且依一使用者指定呈現矩陣來提供一上混信號表示型態之裝置。

依據發明的其它實施例係有關於一種用以提供表示多聲道音訊信號的位元串流之裝置。

依據發明的其它實施例係有關於一種用以基於音訊內容的一位元串流表示型態中所包括的一下混信號表示型態及一物件相關參數資訊，且依一使用者指定呈現矩陣來提供一上混信號表示型態之方法。

依據發明的其它實施例係有關於一種用以提供表示多聲道音訊信號的位元串流之方法。

依據發明的其它實施例係有關於一種用以執行該等方法中的一方法之電腦程式。

依據發明的其它實施例係有關於一種表示多聲道音訊信號之位元串流。

發明背景

在音訊處理、音訊傳輸與音訊儲存技藝中，愈益期望處理多聲道內容以便提高聽覺印象。多聲道音訊內容的使用為使用者帶來顯著的改進。舉例而言，可獲得一3維聽覺印象，其在娛樂應用中提高使用者的滿意度。然而，多聲道音訊內容在例如電話會議應用之專業環境中也是有用的，因為揚聲器可懂度可藉由使用一多聲道音訊播放來提高。

然而，亦期望在音訊品質與位元率要求間有一良好折衷以避免低成本或專業多聲道應用中的過度資源消耗。

最近，已提出了針對包含多個音訊物件之音訊場景的位元率有效率傳輸及/或儲存的參數技術。例如，已提出在例如參考文獻[1]中描述的雙耳線索編碼、在例如參考文獻[2]中描述之音訊源的參數聯合編碼。此外，已提出在例如參考文獻[3]及[4]中描述的MPEG空間音訊物件編碼(SAOC)。MPEG空間音訊物件編碼目前正在標準化當中，且在未預先公開的參考文獻[5])中描述。

這些技術旨在感知地重建期望的輸出音訊場景而非用一波形匹配。

然而，結合接收側的使用者互動性，若執行極度物件呈現，此類技術可導致輸出音訊信號的低音訊品質。這在例如參考文獻[6]中描述。

下面將描述此類系統，且需要注意的是，基本概念亦適用於發明實施例。

第8圖繪示此一系統(這裡：MPEG SAOC)的一系統概述。在第8圖中繪示的MPEG SAOC系統800包含一SAOC編碼器810及一SAOC解碼器820。SAOC編碼器810接收多個物件信號x₁至x_n，它們可被表示為例如時域信號或時間-頻率- 域信號(例如，為一傅立葉類型轉換之一組轉換係數的形式，或為QMF子頻帶信號的形式)。SAOC編碼器810典型地也接收下混係數d₁至d_n，它們與物件信號x₁至x_n相關聯。獨立的諸組下混係數可用於下混信號的每一聲道。SAOC編碼器810典型地組配來，藉由依據相關聯的下混係數d₁至d_n組合物件信號x₁至x_n來獲得下混信號的一聲道。通常，下混聲道比物件信號x₁至x_n少。為了在SAOC解碼器820側(至少近似)容許分離(或分開處理)物件信號，SAOC編碼器810提供一或多個下混信號(標示為下混聲道)812及一旁側資訊814。旁側資訊814描述物件信號x₁至x_N的特性以便容許一解碼器側特定物件處理。

SAOC解碼器820組配來接收該一或多個下混信號812及旁側資訊814二者。再者，SAOC解碼器820典型地組配來接收描述一期望的呈現設置之一使用者互動資訊及/或一使用者控制資訊822。舉例而言，使用者互動資訊/使用者控制資訊822可描述一揚聲器設置及提供物件信號x₁至x_N之物件的期望空間布局。

SAOC解碼器820組配來提供例如多個解碼上混聲道信號至。上混聲道信號可例如與一多揚聲器呈現安排之個別揚聲器相關聯。SAOC解碼器820可例如包含一物件分離器820a，該物件分離器820a組配來基於一或多個下混信號812及旁側資訊814來至少近似重建物件信號x₁至x_N，藉此獲得重建物件信號820b。然而，重建物件信號820b可能略偏離原始物件信號x₁至x_N，例如，因為旁側資訊814由於位元流限制而不太夠進行完美重建。SAOC解碼器820可進一步包含一混合器820c，該混合器820c可組配來接收重建物件信號820b及使用者互動資訊/使用者控制資訊822並基於它們來提供上混聲道信號至。混合器820可組配來使用使用者互動資訊/使用者控制資訊822來判定個別重建物件信號820b對上混聲道信號至的貢獻。使用者互動資訊/使用者控制資訊822可例如包含呈現參數(也被表示為呈現係數)，該等呈現參數判定個別重建物件信號822對上混聲道信號至的貢獻。

然而，應注意的是，在許多實施例中，在單一步驟中執行用第8圖中物件分離器820a指出的物件分離與用第8圖中混合器820c指出的混合。為實現此目的，可計算描述一或多個下混信號812到上混聲道信號至上的一直接映射之總參數。這些參數可基於旁側資訊及使用者互動資訊/使用者控制資訊820來計算。

現在參考第9a、9b及9c圖，將描述用以基於一下混信號表示型態及物件相關旁側資訊來獲得一上混信號表示型態之不同裝置。第9a圖繪示包含一SAOC解碼器920之一MPEG SAOC系統900的一方塊示意圖。SAOC解碼器920包含作為分離功能區塊的一物件解碼器922及一混合器/呈現器926。物件解碼器922依下混信號表示型態(例如，為在時域或時間-頻率-域中表示的一或多個下混信號的形式)及物件相關旁側資訊(例如，為物件元資料的形式)來提供多個重建物件信號924。混合器/呈現器924接收與N個物件相關聯的重建物件信號924並基於它們提供一或多個上混聲道信號928。在SAOC解碼器920中，物件信號924的擷取與混合/呈現分開執行，這允許將物件解碼功能與混合/呈現功能分離但帶來一相當高的計算複雜度。

現在參考第9b圖，將簡要討論另一MPEG SAOC系統930，該MPEG SAOC系統930包含一SAOC解碼器950。SAOC解碼器950依一下混信號表示型態(例如，為一或多個下混信號的形式)及一物件相關旁側資訊(例如，為物件元資料的形式)提供多個上混聲道信號958。SAOC解碼器950包含一組合的物件解碼器與混合器/呈現器，其組配來在一聯合混合過程中獲得上混聲道信號958而無需將物件解碼與混合/呈現分開，其中該聯合上混過程的參數是取決於物件相關旁側資訊與呈現資訊。聯合上混過程也取決於被視為物件相關旁側資訊的一部分之下混資訊。

綜上所述，可在一個一步驟過程或一個兩步驟過程中執行提供上混聲道信號928、958。

現在參考第9c圖，將描述一MEPG SAOC系統960。SAOC系統960包含一SAOC至MPEG環繞轉碼器而非一SAOC解碼器。

SAOC至MPEG環繞轉碼器包含一旁側資訊轉碼器982，其組配來接收物件相關旁側資訊(例如，為物件元資料的形式)及可取捨地關於一或多個下混信號的資訊及呈現資訊。旁側資訊轉碼器亦組配來基於一接收資料來提供一MPEG環繞旁側資訊(例如，為一MPEG環繞位元串流的形式)。因此，旁側資訊轉碼器982組配來，在計入呈現資訊及可取捨地有關一或多個下混信號內容的資訊之情況下將自物件編碼器出來的一物件相關(參數)旁側資訊轉換成一聲道相關(參數)旁側資訊。

可取捨地，SAOC至MPEG環繞轉碼器980可組配來操控例如由下混信號表示型態所描述的一或多個下混信號以獲得一經操控的下混信號表示型態988。然而，下混信號操控器986可省略，使得SAOC至MPEG環繞轉碼器980之輸出下混信號表示型態988與SAOC至MPEG環繞轉碼器之輸入下混信號表示型態相同。下混信號操控器986在例如聲道相關MPEG環繞旁側資訊984基於SAOC至MPEG環繞轉碼器980之輸入下混信號表示型態可能不能提供一期望的聽覺印象時可使用，這在一些呈現群集(rendering constellation)中可能如此。

因此，SAOC至MPEG環繞轉碼器980提供下混信號表示型態988及MPEG環繞位元串流984，使得依據輸入至SAOC至MPEG環繞轉碼器980的呈現資訊來表示音訊物件之多個上混聲道信號可使用接收MPEG環繞位元串流984與下混信號表示型態988的一MPEG環繞解碼器來產生。

綜上所述，可使用用以解碼SAOC編碼音訊信號的不同概念。在某些情況中，使用一SAOC解碼器，該SAOC解碼器依下混信號表示型態及物件相關參數旁側資訊來提供上混聲道信號(例如，上混聲道信號928、958)。在第9a與9b圖中可見到此概念的範例。可選擇地，SAOC編碼音訊資訊可被轉碼以獲得一下混信號表示型態(例如，一下混信號表示型態988)及一聲道相關旁側資訊(例如，聲道相關MPEG環繞位元串流984，)，它們可為一MPEG環繞解碼器使用來提供期望的上混聲道信號。

在第8圖中給出一系統概述之MPEG SAOC系統800中，一般處理是以一頻率選擇方式來完成且在每一頻帶內可描述如下：

●作為SAOC編碼器處理的一部分，下混N個輸入音訊物件信號x₁至x_N。對於一單聲道下混，用d₁至d_N來表示下混係數。此外，SAOC編碼器810擷取描述輸入音訊物件的特性之旁側資訊814。對於MPEG SAOC，彼此間物件功率的關係是此一旁側資訊的最基本形式。

●傳輸及/或儲存(數)下混信號812及旁側資訊814。為此目的，下混音訊信號可使用習知的感知音訊編碼器來壓縮，諸如MPEG-1層II或III(也稱為“.mp3”)、MPEG高階音訊編碼(AAC)、或任一其它音訊編碼器。

●在接收端，SAOC解碼器820感知地嘗試使用經傳輸的旁側資訊814(當然還有一或多個下混信號812)來恢復原始物件信號(「物件分離」)。這些近似物件信號(也標示為重建物件信號820b)接著使用一呈現矩陣混合成用M個音訊輸出聲道表示(例如可用上混聲道信號至表示)的一目標場景。

●實際上，物件信號的分離很少執行(或甚至從不執行)，因為分離步驟(用物件分離器820a指出)與混合步驟(用混合器820c指出)組合成一單一轉碼步驟，這通常極大地降低了計算複雜度。

已發現此一方案在傳輸位元率(僅需傳輸幾個下混聲道外加一些旁側資訊來代替N個物件音訊信號)與計算複雜度(處理複雜度主要有關於輸出聲道數目而非音訊物件數目)方面都極其有效率。對接收端使用者而言的進一步好處包括自由選擇他/她選擇的一呈現設置(單聲道、立體聲、環繞、虛擬化耳機播放、等等)與使用者互動性特徵：呈現矩陣，及因而，輸出場景可由使用者隨意願、個人偏好或其它準則來互動地設置及改變。舉例而言，將一群組的通話器一起置於一空間區域來與其它剩餘通話器最大的區別開是可能的。此互動性透過提供一解碼器使用者介面來實現：對於每一傳輸聲音物件，其相對層級及(對於非單聲道呈現)呈現的空間位置可被調整。這可隨使用者改變相關聯圖形使用者介面(GUI)滑動塊的位置而即時發生(例如，物件層級=+5dB，物件位置=-30deg)。

然而，已發現的是，用以提供上混信號表示型態(例如，上混聲道信號至)之參數的解碼器側選擇在某些情況中帶來可聞降級。

鑑於此情況，本發明的目的是產生一種在提供一上混信號表示型態(例如，為上混聲道信號至的形式)時容許減小或甚至避免可聞失真之概念。

發明概要

依據發明的一實施例產生一種用以基於一音訊內容的一位元串流表示型態中所包括的一下混信號表示型態及一物件相關參數資訊並依一使用者指定呈現矩陣來提供一上混信號表示型態之裝置，該裝置包含一失真限制器，其組配來依一線性組合參數使用一使用者指定呈現矩陣與一目標呈現矩陣的一線性組合來獲得一經修改呈現矩陣。該裝置亦包含一信號處理器，其組配來使用該經修改呈現矩陣、基於該下混信號表示型態及該物件相關參數資訊來獲得上混信號表示型態。該裝置組配來評估表示該線性組合參數的一位元串流元素以便獲得該線性組合參數。

依據發明的此實施例是基於下列核心思想：藉由依自音訊內容的位元串流表示型態中所擷取的一線性組合參數來執行一使用者指定呈現矩陣與目標呈現矩陣的一線性組合能以低計算複雜度減小或甚至避免上混信號表示型態的可聞失真，因為一線性組合可有效率執行，及因為要求任務-決定線性組合參數的執行可在音訊信號編碼器側執行，其中在音訊信號編碼器側通常比在音訊信號解碼器(用以提供一上混信號表示型態的裝置)側有更多可用的計算能力。

因此，上面討論的概念允許獲得一經修改呈現矩陣，其甚至對使用者指定呈現矩陣的不當選擇也會造成減小的可聞失真而不對用以提供一上混信號表示型態的的裝置增加任何顯著的複雜度。特別地，在與沒有一失真限制器的一裝置比較時，其甚至可不必修改信號處理器，因為經修改呈現矩陣算作信號處理器的一輸入量且僅僅替換使用者指定呈現矩陣。此外，發明概念帶來一音訊信號編碼器可依據在編碼器側指定的要求藉由僅設定音訊內容的位元串流表示型態中所包括的線性組合參數而調整在音訊信號解碼器側應用的失真限制方案的優點。因此，音訊信號編碼器藉由適當地選擇線性組合參數可逐漸提供相對為解碼器的使用者選擇呈現矩陣或多或少的自由。這允許音訊信號解碼器適應使用者對一指定服務的期望，因為對於一些服務，一使用者可能期望一最高品質(這暗示降低使用者隨意調整呈現矩陣的可能)，而對於其他服務，使用者通常會期望最大自由度(這暗示增加使用者指定呈現矩陣對線性組合結果的影響)。

綜上所述，發明概念以有一簡單實施的可能性、不用修改信號處理器而兼有對於可攜式音訊解碼器特別重要之解碼器側的高計算效率，且亦提供對一音訊信號編碼器的高度控制，其對完成使用者對不同類型音訊服務的期望可能是重要的。

在一較佳實施例中，失真限制器組配來獲得該目標呈現矩陣使得該目標呈現矩陣是一無失真目標呈現矩陣。這帶來具有此一播放情形的可能性：沒有失真或至少幾乎沒有任何失真由對呈現矩陣的選擇而引起。此外，已發現的是，在一些情況中能以一很簡單方式來執行對一無失真目標呈現矩陣的計算。此外，已發現的是，介於一使用者指定呈現矩陣與一無失真目標呈現矩陣之間的一呈現矩陣通常引起一良好聽覺印象。

在一較佳實施例中，失真限制器組配來獲得目標呈現矩陣使得目標呈現矩陣是一下混類似目標呈現矩陣。已發現的是，一下混類似目標呈現矩陣的使用帶來一很低或甚至最小失真程度。此外，此一下混類似目標呈現矩陣能以很低的計算付出來獲得，因為下混類似目標呈現矩陣可藉由用一公共比例因數縮放下混矩陣的項並加入一些額外零項來獲得。

在一較佳實施例中，失真限制器組配來使用一能量正規化純量縮放一延伸下混矩陣，以獲得目標呈現矩陣，其中延伸下混矩陣是一下混矩陣的一延伸形態(該下混矩陣的一或多列描述多個音訊物件信號對該下混信號表示型態的一或多個聲道的貢獻)，該下混矩陣以零元素的列延伸使得該延伸下混矩陣的列數等於由該使用者指定呈現矩陣所描述的一呈現群集。因而，延伸下混矩陣係利用將下混矩陣的值複製到延伸下混矩陣、添加零矩陣項、及所有矩陣元素與相同能量正規化純量的純量相乘來獲得。所有這些操作可很有效率地執行，使得即使在一很簡單音訊解碼器中也可快速獲得目標呈現矩陣。

在一較佳實施例中，失真限制器組配來獲得目標呈現矩陣，使得該目標呈現矩陣是一盡力目標呈現矩陣。儘管此方法在計算上比使用一下混類似目標呈現矩陣稍微更苛求，但使用一盡力目標呈現矩陣提供了對一使用者期望呈現情形的更好考量。使用盡力目標呈現矩陣，在不引入失真或顯著失真的情況下盡可能決定目標呈現矩陣時計入期望呈現矩陣的一使用者定義。特別地，盡力目標呈現矩陣計入使用者對多個揚聲器(或上混信號表示型態的聲道)的期望響度。因此，在使用盡力目標呈現矩陣時可產生一改進聽覺印象。

在一較佳實施例中，失真限制器組配來獲得目標呈現矩陣，使得目標呈現矩陣取決於一下混矩陣及使用者指定呈現矩陣。因此，目標呈現矩陣相對接近於使用者期望但仍提供一實質上無失真的音訊呈現。因而，線性組合參數決定使用者期望呈現的近似量與可聞失真的最小量之間的一折衷，其中考量使用者指定呈現矩陣來計算目標呈現矩陣，在即使線性組合參數指出目標呈現矩陣應支配線性組合時也提供對使用者期望的良好滿意度。

在一較佳實施例中，失真限制器組配來，計算包含用以提供一上混信號表示型態之裝置的多個輸出音訊聲道的聲道個別能量正規化值之一矩陣，使得裝置之一指定輸出音訊聲道的一能量正規化值至少近似地描述，多個音訊物件的使用者指定呈現矩陣中與指定輸出音訊聲道相關聯的能量呈現值的總和，與多個音訊物件的能量下混值的總和之間的一比率。因此，在某種程度上可滿足使用者對裝置之不同輸出聲道的響度的期望。

在此情況中，失真限制器組配來使用一相關聯的聲道個別能量正規化值來縮放一組下混值，以獲得目標呈現矩陣之與指定輸出聲道相關聯的一組呈現值。因此，一指定音訊物件對裝置的一輸出聲道的相對貢獻與該指定音訊物件對下混信號表示型態的相對貢獻相同，這允許大體上避免由修改音訊物件的相對貢獻而引起的可聞失真。因此，裝置的各輸出聲道大體上未失真。然而，即使哪裡放置哪一音訊物件及/或如何改變音訊物件彼此間的相對強度的細節不被考量(至少在某種程度上)，也計入使用者對多個揚聲器(或上混信號表示型態的聲道)的響度分佈的期望，以便避免由對音訊物件的過分驟然分離或對音訊物件的相對強度的過分修改而可能引起的失真。

因而，即使下混信號表示型態可包含較少聲道，評估多個音訊物件的使用者指定呈現矩陣中與一指定輸出聲道相關聯的能量呈現值(例如，量級呈現值的平方)的總和，與多個音訊物件的能量下混值的總和之間的一比率，允許考量所有輸出音訊聲道，同時避免由音訊物件的重新分佈或由不同音訊物件的相對響度的過分改變而引起的失真。

在一較佳實施例中，失真限制器組配來依使用者指定呈現矩陣及一下混矩陣來計算，描述用以提供一上混信號表示型態之裝置的多個輸出音訊聲道之一聲道個別能量正規化的一矩陣。在此情況中，失真限制器組配來應用描述該聲道個別能量正規化的該矩陣，以獲得該目標呈現矩陣之與該裝置的一指定輸出音訊聲道相關聯的一組呈現係數，作為與該下混信號表示型態的不同聲道相關聯之諸組下混值(亦即，描述一縮放的值，該縮放應用於不同音訊物件的音訊信號以獲得下混信號的一聲道)的一線性組合。使用此概念，即使下混信號表示型態包含一個以上的音訊聲道也可獲得十分適於期望使用者指定呈現矩陣的一目標呈現矩陣，同時仍大體上避免失真。已發現的是，形成諸組下混值的一線性組合引起通常僅導致小可聞失真的一組呈現係數。然而，已發現的是，使用此一獲取目標呈現矩陣的方法來估計使用者期望是可能的。

在一較佳實施例中，失真限制器組配來，由音訊內容的位元串流表示型態讀表示線性組合參數的一指數值，並使用一參數量化表來將該指數值映射至線性組合參數。已發現的是，這是用以獲取線性組合參數的一計算上特別有效的概念。亦已發現的是，此方法在與執行複雜計算而非對一個1維映射表的評估之其它可能概念相比時帶來使用者滿意度與計算複雜度間的一較好折衷。

在一較佳實施例中，量化表描述一非一致量化，其中線性組合參數的較小值用相對較高解析度來量化，該線性組合參數的較小值描述使用者指定呈現矩陣到經修改呈現矩陣的一較強貢獻，及線性組合參數的較大值用相對較低解析度來量化，該線性組合參數的較大值描述使用者指定呈現矩陣到經修改呈現矩陣的一較小貢獻。已發現的是，在許多情況中，僅呈現矩陣的極限設定帶來顯著可聞失真。因此，已發現的是，對線性組合參數的一輕微調整在使用者指定呈現矩陣對目標呈現矩陣有一較強貢獻的區域中進行是更重要的，以便獲得一設定，其允許在實現一使用者呈現期望與最小可聞失真間的一最佳折衷。

在一較佳實施例中，裝置組配來評估描述一失真限制模式的一位元串流元素。在此情況中，失真限制器較佳地組配來選擇性獲得目標呈現矩陣使得目標呈現矩陣是一下混類似目標呈現矩陣，或使得目標呈現矩陣是一盡力目標呈現矩陣。已發現的是，對於大量不同音訊件，此一可切換概念提供用以獲得在實現一使用者呈現期望與最小可聞失真間的一良好折衷的有效可行性。此概念亦允許一音訊信號編碼器對解碼器側的實際呈現的良好控制。因此，可滿足對各種各樣不同音訊五福的需要。

依據發明的另一實施例產生一種用以提供表示一個多聲道音訊信號的一位元串流之裝置。

該裝置包含一下混器，其組配來提供基於多個音訊物件信號來提供一下混信號。裝置亦包含一旁側資訊提供器，其組配來提供，描述音訊物件信號及下混參數的特性之一物件相關參數旁側資訊，及描述一使用者指定呈現矩陣與一目標呈現矩陣對一經修改呈現矩陣的貢獻之一線性組合參數。用以提供一位元串流的裝置亦包含一位元串流格式器，其組配來提供包含下混信號及物件相關參數旁側資訊及線性組合參數的一表示型態之一位元串流。

用以提供表示一多聲道音訊信號的一位元串流之裝置十分適於與上面討論用以提供一上混信號表示型態的裝置合作。用以提供表示一多聲道音訊信號的一位元串流之裝置允許依其對音訊物件信號的認識來提供線性組合參數。因此，音訊編碼器(亦即，用以提供表示一多聲道音訊信號的一位元串流之裝置)可對由評估線性組合參數之一音訊解碼器(亦即，上面討論的用以提供一上混信號表示型態之裝置)所提供的呈現品質有強烈影響。用以提供表示一多聲道音訊信號的位元串流之裝置對呈現結果有很高層級的控制，這在許多不同情形中提供一改進的使用者滿意度。因此，確實是一服務提供器的音訊編碼器使用線性組合參數來提供指導，不論使用者冒可聞失真的風險是否應被允許使用極限呈現。因而，藉由使用上述音訊編碼器可避免使用者失望以及相對應的不利經濟後果。

依據發明的另一實施例產生一種用以基於一音訊內容的一位元串流表示型態中所包括的一下混信號表示型態及一物件相關參數資訊並依一使用者指定呈現矩陣來提供一上混信號表示型態之方法，該方法是基於與上述裝置相同的核心思想。

依據發明的另一方法產生一種用以提供表示一個多聲道音訊信號的位元串流之方法，該方法是基於與如上述裝置相同的觀測結果。

依據發明的另一實施例產生一種用以執行上面方法之電腦程式。

依據發明的另一實施例產生一種表示一個多聲道音訊信號之位元串流，該位元串流包含，使多個音訊物件的音訊信號組合之一下混信號的一表示型態，及描述該等音訊物件的特性之一物件相關參數資訊。該位元串流亦包含一現象組合參數，其描述一使用者指定呈現矩陣及一目標呈現矩陣對一經修改呈現矩陣的貢獻之一線性組合參數。該位元串流允許音訊信號編碼器側對解碼器側呈現參數的某種程度控制。

圖式簡單說明

依據發明的實施例將隨後參考附圖描述，其中：第1a圖繪示依據發明的一實施例之用以提供一上混信號表示型態之一裝置的一方塊示意圖；第1b圖繪示依據發明的一實施例之用以提供表示一多聲道音訊信號的一位元串流之一裝置的一方塊示意圖；第2圖繪示依據發明的另一實施例之用提提供一上混信號表示型態之一裝置的一方塊示意圖；第3a圖繪示依據發明的一實施例之表示一多聲道音訊信號之一位元串流的一示意表示型態；第3b圖繪示依據發明的一實施例之一SAOC特定組態資訊的一詳細句法表示型態；第3c圖繪示依據發明的一實施例之一SAOC訊框資訊的一詳細句法表示型態；第3d圖繪示在一SAOC位元串流內可使用之一位元串流元素“bsDcuMode”中一失真控制模式的編碼的一示意表示型態；第3e圖繪示一位元串流指數idx與一線性組合參數 “DcuParam[idx]”的值間的關聯的一表格表示型態，其在一SAOC位元串流中可用來編碼一線性組合資訊。

第4圖繪示依據發明的另一實施例之用以提供一上混信號表示型態之一裝置的一方塊示意圖；第5a圖繪示依據發明的一實施例之一SAOC特定組態資訊的一句法表示型態；第5b圖繪示一位元串流指數idx與一線性組合參數Param[idx]間的關聯的一表格表示型態，其在一SAOC位元串流中可用來編碼該線性組合參數；第6a圖繪示描述收聽試驗條件的一表格；第6b圖繪示描述收聽試驗的音訊項之一表格；第6c圖繪示描述針對一立體聲至立體聲SAOC解碼情形的測試下混/呈現條件之一表格；第7圖繪示針對一立體聲至立體聲SAOC情形之失真控制單元(DCU)收聽試驗結果的一圖形表示型態；第8圖繪示一參考MPEG SAOC系統的一方塊示意圖；第9a圖繪示使用一分離的解碼器及混合器之一參考SAOC系統的一方塊示意圖；第9b圖繪示使用一整合的解碼器及混合器之一參考SAOC系統的一方塊示意圖；第9c圖繪示使用一SAOC至MPEG轉碼器之一參考SAOC系統的一方塊示意圖。

實施例之詳細說明 1.依據第1a圖之用以提供一上混信號表示型態之裝置

第1圖繪示依據發明的一實施例之用以提供一上混信號表示型態之一裝置的一方塊示意圖。

裝置100組配來接收一下混信號表示型態110及一物件相關參數資訊112。裝置100亦組配來接收一線性組合參數114。下混信號表示型態110、物件相關參數資訊112及線性組合參數114均被包括於音訊內容的一位元串流表示型態中。例如，線性組合參數114由該位元串流表示型態的一位元串流元素描述。裝置100亦組配來接收一呈現資訊120，其定義一使用者指定呈現矩陣。

裝置100組配來提供一上混信號表示型態，例如，個別聲道信號或一MPEG環繞下混信號以及一MPEG環繞旁側資訊。

裝置100包含一失真限制器140，其組配來依例如可用g _DCU標示的一線性組合參數146使用一使用者指定呈現矩陣144(其由呈現資訊20直接或間接描述)與一目標呈現矩陣的一線性組合來獲得經修改呈現矩陣142。

裝置100可例如組配來評估表示線性組合參數146的一位元串流114以便獲得線性組合參數。

裝置100亦包含一信號處理器148，其組配來使用經修改呈現矩陣142基於下混信號表示型態110及物件相關參數資訊112獲得上混信號表示型態130。

因此，裝置100能夠，例如使用一SAOC信號處理器148或任一其它物件相關信號處理器148來提供具有良好呈現品質的上混信號表示型態。經修改呈現矩陣142由失真限制器140改寫使得在大部分或所有情況中實現具有十分小失真的足夠好聽覺印象。經修改呈現矩陣通常“介於”使用者指定(期望)呈現矩陣與目標呈現矩陣“之間”，其中經修改呈現矩陣與使用者指定呈現矩陣及與目標呈現矩陣間的類似程度由線性組合參數決定，線性組合參數因而允許調整一可實現呈現品質及/或上混信號表示型態130的一最大失真層級。

信號處理器148例如可以是一SAOC信號處理器。因此，信號處理器148可組配來評估物件相關參數資訊112以獲得描述由下混信號表示型態110以一下混形式所表示之音訊物件的特性之參數。此外，信號處理器148可獲得(例如，接收)描述下混程序的參數，該下混程序在提供音訊內容的位元串流表示型態之一音訊編碼器側使用以便藉由組合多個音訊物件的音訊物件信號來獲取下混信號表示型態110。因而，信號處理器148可例如評估一物件層級差資訊OLD，其描述針對一指定音訊訊框與一或多個頻帶之多個音訊物件間的層級差，及一物件間互相關資訊IOC，其描述針對一指定音訊訊框與針對一或多個頻帶之多個對音訊物件的音訊信號的互相關。此外，信號處理148亦可評估描述一下混的一下混資訊DMG、DCLD，該下混在例如以一或多個下混增益參數DMG及一或多個下混聲道層級差參數DCLD的形式提供音訊內容的位元串流表示型態之一音訊編碼器側執行。

此外，信號處理器148接收經修改呈現矩陣142，其指出上混信號表示型態130中的哪一音訊聲道應包含不同音訊物件的一音訊內容。因此，信號處理器148組配來使用其對音訊物件的認識(自OLD資訊及IOC資訊獲得)以及其對下混過程的認識(自DMG資訊及DCLD資訊獲得)來判定不同音訊物件對下混信號表示型態110的貢獻。此外，信號處理器提供上混信號表示型態使得經修改呈現矩陣142被考量。

因此，信號處理器148履行SAOC解碼器的功能，其中下混信號表示型態110取代一或多個下混信號812，其中物件相關參數資訊112取代旁側資訊814，及其中經修改呈現矩陣142取代使用者互動/控制資訊822。聲道信號至發揮上混信號表示型態130的作用。因此，參考對SAOC解碼器820的說明。

類似地，信號處理器148可發揮解碼器/混合器920的作用，其中下混信號表示型態110發揮一或多個下混信號的作用，其中物件相關參數資訊112發揮物件元資料的作用，及其中經修改呈現矩陣142發揮輸入至混合器/呈現器926之呈現資訊的作用，及其中聲道信號928發揮上混信號表示型態130的作用。

可選擇地，信號處理器148可執行整合解碼器及混合器950的功能，其中下混信號表示型態110可發揮一或多個下混信號的作用，其中物件相關參數資訊112可發揮物件元資料的作用，其中經修改呈現矩陣142可發揮輸入至物件解碼器外加混合器/呈現器950之呈現資訊的作用，及其中聲道信號958可發揮上混信號表示型態130的作用。

可選擇地，信號處理器可執行SAOC至MPEG環繞轉碼器980的功能，其中下混信號表示型態110可發揮一或多個下混信號的作用，其中物件相關參數資訊112可發揮物件元資料的作用，其中經修改呈現矩陣142可發揮呈現資訊的作用，及其中一或多個下混信號988連同MPEG環繞位元串流984可發揮上混信號表示型態130的作用。

因此，欲求信號處理器148的功能的詳情，參考對SAOC解碼器820、分離的解碼器與混合器920、整合的解碼器與混合器950、及SAOC至MPEG環繞轉碼器980的說明。亦參考例如有關信號處理器148的功能之文件[3]及[4]，其中在依據發明的實施例中，經修改呈現矩陣142而非使用者指定呈現矩陣120發揮輸入呈現資訊的作用。

有關失真限制器140的功能的進一步詳情將在下面描述。

2.依據第1b圖之用以提供表示一多聲道音訊信號之一位元串流的裝置

第1b圖繪示用以提供表示一多聲道音訊信號之一位元串流的一裝置150的一方塊示意圖。

裝置150組配來接收多個音訊物件信號160a至160N。裝置150進一步組配來提供表示由音訊物件信號160a至160N描述的多聲道音訊信號之位元串流170。

裝置150包含一下混器180，其組配來基於多個音訊物件信號160a至160N來提供一下混信號182。裝置150亦包含一旁側資訊提供器184，其組配來提供一物件相關參數旁側資訊186，物件相關參數旁側資訊186描述音訊物件信號160a至160N與下混器180所使用下混參數的特性。旁側資訊提供器184亦組配來提供一線性組合參數188，其描述一(期望)使用者指定呈現矩陣及一目標(低失真)呈現矩陣對一經修改呈現矩陣的期望貢獻。

物件相關參數旁側資訊186可例如包含一物件層級差資訊(OLD)，其描述音訊物件信號160a至160N的物件層級差(例如，按逐頻帶方式)。物件相關參數旁側資訊亦可包含一物件間互相關資訊(IOC)，其描述音訊物件信號160a至160N間的互相關。此外，物件相關參數旁側資訊可描述下混增益(例如，按逐物件方式)，其中下混增益值由下混器180使用以便獲得使音訊物件信號160a至160N組合的下混信號182。物件相關參數旁側資訊186可包含一下混聲道層級差資訊(DCLD)，其描述下混信號182之多個聲道的下混層級間的差(例如，如果下混信號182是一個多聲道信號)。

線性組合參數188可例如為0與1間的一數值，描述僅使用一使用者指定下混矩陣(例如，對於一參數值0)、僅使用一目標呈現矩陣(例如，對於一參數值1)或介於這些極限間之使用者指定呈現矩陣與目標呈現矩陣的任一指定組合(例如，對於0與1間的參數值)。

裝置150亦包含一位元串流格式器190，其組配來提供位元串流170使得該位元串流包含下混信號182、物件相關參數旁側資訊186及線性組合參數188的一表示型態。

因此，裝置150執行依據第8圖之SAOC編碼器810或依據第9a-9c圖之物件編碼器的功能。音訊物件信號160a至160N與例如由SAOC編碼器810接收的物件信號x₁至x_n等效。下混信號182可例如與一或多個下混信號812等效。物件相關參數旁側資訊186可例如與旁側資訊814或物件元資料等效。然而，除了該1聲道下混信號或多聲道下混信號182及該物件相關參數旁側資訊186之外，位元串流170亦可編碼線性組合參數188。

因此，可視為一音訊編碼器之裝置150藉由適當地設定線性組合參數188對失真限制器140所執行之失真控制方案的解碼器側處理有影響，使得裝置150預期由接收位元串流170之一音訊解碼器(例如，一裝置100)提供足夠的呈現品質。

例如，旁側資訊提供器184可依自裝置150的一可取捨使用者介面接收的一品質要求資訊來設定線性組合參數。可選擇地或此外，旁側資訊提供器184亦可計入音訊物件信號160a至160N，與下混器180之下混參數的特性。例如，裝置150可評估在一或多個最差情況使用者指定呈現矩陣的假設下在一音訊解碼器獲得的失真度，且可調整線性組合參數188使得在考慮此線性組合參數的情況下預期由音訊信號解碼器獲得的一呈現品質被旁側資訊提供器184仍視為是充足的。例如，如果旁側資訊提供器184發現一上混信號表示型態的一音訊品質即使在有極限使用者指定呈現設定的情況下也不嚴重降級，裝置150可將線性組合參數188設為，允許對經修改呈現矩陣有一強使用者影響(使用者指定呈現矩陣的影響)之一值。例如，在音訊物件信號160a至160N十分類似時可能是此種情況。相比之下，如果旁側資訊提供器184發現極限呈現設定會導致強可聞失真的話，旁側資訊提供器184可將線性組合參數188設為允許對使用者(或使用者指定呈現矩陣)有一相對小影響的一值。例如，在音訊物件信號160a至160N顯著不同時可能是此種情況，使得在音訊解碼器側清楚分離音訊物件是困難的(或與可聞失真有關)。

這裡應指出的是，裝置150可使用用以設定僅在裝置150側可用而在一音訊解碼器側(例如，裝置100)不可用的線性組合參數188之認識，諸如舉例而言，經由一使用者介面輸入至裝置150的一期望呈現品質資訊，或關於由音訊物件信號160a至160N所表示之獨立音訊物件的詳細認識。

因此，旁側資訊提供器184能以一很有意義的方式來提供線性組合參數188。

3.依據第2圖之具有失真控制單元(DCU)的SAOC系統 3.1 SAOC解碼器結構

下面將參考第2圖描述由一失真控制單元(DCU處理)所執行的一處理，第2圖繪示一SAOC系統200的一方塊示意圖。具體而言，第2圖繪示在總SAOC系統內的失真控制單元DCU。

參考第2圖，SAOC解碼器200組配來接收一下混信號表示型態210，其例如表示一個1聲道下混信號或一個2聲道下混信號，或甚至一個具有兩個以上聲道的下混信號。SAOC解碼器200組配來接收一SAOC位元串流212，其包含一物件相關參數旁側資訊，諸如舉例而言，一物件層級差資訊OLD、一物件間互相關資訊IOC、一下混增益資訊DMG、及可取捨地一下混聲道層級差資訊DCLD。SAOC解碼器200亦組配來獲得一線性組合參數214，其亦用g _DCU標示。

通常，下混信號表示型態210、SAOC位元串流212及線性組合參數214被包括於一音訊內容的一位元串流表示型態中。

SAOC解碼器200亦組配來例如自一使用者介面接收一呈現矩陣輸入220。例如，SAOC解碼器200可接收為一矩陣M _ren的形式之一呈現矩陣輸入220，其定義多個N _obj音訊物件對(上混表示型態的)1、2或甚至更多輸出音訊信號聲道的(使用者指定、期望)貢獻。呈現矩陣M _ren可例如為來自一使用者介面的輸入，其中該使用者介面可將一期望呈現設置之表示型態的一不同使用者指定形式轉化成呈現矩陣M _ren的參數。例如，使用者介面可使用某一映射而將為層級滑動值及一音訊物件位置資訊的形式之一輸入轉化成一使用者指定呈現矩陣M _ren。

這裡應注意的是，在本說明中，定義一參數時欄的指數’及定義一處理頻帶的指數'''有時為了清楚起見而省略。但是，應牢記的是，對於具有指數1的多個後續參數時欄及對於具有頻帶指數m的多個頻帶，可個別地執行處理。

SAOC解碼器200亦包含一失真控制單元DCU 240，其組配來接收使用者指定呈現矩陣M _ren、SAOC位元串流資訊212的至少一部分(如將在下面詳細描述)及線性組合參數214。失真控制單元240提供經修改呈現矩陣M _ren,lim。

音訊解碼器200亦包含一SAOC解碼/轉碼單元248，其可視為一信號處理器，且其接收下混信號表示型態210、SAOC位元串流212及經修改呈現矩陣M _ren,lim。SAOC解碼/轉碼單元248提供一或多個輸出聲道的一表示型態230，其可視為一上混信號表示型態。一或多個輸出聲道的表示型態230例如可採用個別音訊信號聲道之一頻域表示型態、一參數多聲道表示型態之個別音訊聲道的一時域表示型態的形式。例如，上混信號表示型態230可採用一MPEG環繞表示型態的形式，其包含一MPEG環繞下混信號及一MPEG環繞旁側資訊。

應注意的是，SAOC解碼/轉碼單元248可包含與一信號處理器148相同的功能，且可與SAOC解碼器820、分離的編碼器及混合器920、整合的解碼器及混合器950、及SAOC至MPEG環繞轉碼器980等效。

3.2對SAOC解碼器操作的介紹

下面將給出對SAOC解碼器200之操作的一簡要介紹。

在總的SAOC系統中，失真控制單元(DCU)被包含於呈現介面(例如，使用者指定呈現矩陣、或可獲取使用者指定呈現矩陣之資訊被輸入的一使用者介面)與實際SAOC解碼/轉碼單元之間的SAOC解碼器/轉碼器處理鏈中。

失真控制單元240使用來自呈現介面的資訊(例如，經由呈現介面或使用者介面而直接或間接輸入的使用者指定呈現矩陣輸入)及SAOC資料(例如，來自SAOC位元串流212的資料)提供一經修改呈現矩陣M _ren,lim。欲求更多詳情，參考第2圖。經修改呈現矩陣M _ren,lim可由反映實際有效呈現設定之應用(例如，SAOC解碼/轉碼單元248)存取。

基於由具有元素的(使用者指定)呈現矩陣所表示的使用者指定呈現情形，DCU藉由產生包含受限呈現係數之一經修改矩陣來防止極限呈現設定，受限呈現係數將為SAOC呈現引擎使用。對於SAOC的所有操作模式，最終(DCU處理的)呈現係數將依據下式來計算：

亦標示為一線性組合參數之參數g _DCU [0,1]用來定義自使用者定義呈現矩陣向無失真目標矩陣轉變的程度。

參數g _DCU依據下式獲自於位元串流元素“bsDcuParam”：g _DCU=DcuParam[bsDcuParam]。

因此，依線性組合參數g _DCU形成使用者指定呈現矩陣M _ren與無失真目標矩陣間的一線性組合。線性組合參數g _DCU獲自於一位元串流元素，使得需要的該線性組合參數g _DCU沒有困難計算(至少在解碼器側)。此外，自包括下混信號表示型態210、SAOC位元串流212及表示線性組合參數的位元串流元素之位元串流獲取線性組合參數g _DCU給一音訊信號編碼器一機會來部分控制在SAOC解碼器側執行的失真控制機制。

無失真目標矩陣有適合不同應用的兩可能形態。其由位元串流元素“bsDcuMode”控制：

●(“bsDcuMode=0)：“下混類似(downmix-similar)”呈現，其中對應於能量正規化下混矩陣。

●(“bsDcuMode=1)：“盡力(best effort)”呈現，其中定義為下混與使用者指定呈現矩陣二者的一函數。

總之，有稱為“下混類似”呈現與“盡力”呈現的兩種失真控制模式，它們可依據位元串流元素“bsDcuMode而選擇。這兩種模式在它們的目標呈現矩陣的計算方式上有所不同。下面將詳細描述在“下混類似”呈現與“盡力”呈現兩種模式下有關目標呈現矩陣的計算的詳情。

3.3“下混類似”呈現 3.3.1 介紹

“下混類似”呈現方法在下混是藝術高品質的一重要參照的情況中通常可使用。“下混類似”呈現矩陣如下計算：其中表示一能量正規化純量(對於每一參數欄1)及是以零元素的列延伸之下混矩陣D ^l使得的列的數目及順序與的群集對應。

例如，在SAOC立體聲至多聲道轉碼模式中，N _MPS=6。因而，尺寸為N _MPS×N(其中，N描繪輸入音訊物件的數目)，及其表示前左及右輸出聲道的列等於D ^l(或D ^l的相對應列)。

為促進理解上面內容，應考量下面對呈現矩陣及下混矩陣的定義。

應用於輸入音訊物件S的(經修改)呈現矩陣M _ren,lim決定目標呈現輸出，如Y=M _ren,lim S。具有元素m _i,j的(經修改)呈現矩陣M _ren,lim將所有輸入物件i(亦即，具有物件指數i的輸入物件)映射至期望輸出聲道j(亦即，具有聲道指數j的輸出聲道)。

(經修改)呈現矩陣M _ren,lim由下式給出，對於5.1輸出組態，，對於立體聲輸出組態， M _ren,lim=(m _0,C...m _N-1,_C)對於輸出組態。

相同尺度通常亦應用於使用者指定呈現矩陣M _ren及目標呈現矩陣M _ren,tar.

應用於輸入音訊物件S(在一音訊解碼器中)的下混矩陣D決定下混信號，如X=DS。

對於立體聲下混情況，由DMG及DCLD參數獲得具有元素d _i,j(i=0,1；j=0,...,N-1)尺寸為2×N的下混矩陣D(亦用D ^l標示，以繪示一可能的時間依賴性)，如。

對於單聲道下混情況，由DMG參數獲得具有元素d _i,j(i=0；j=0,...,N-1)尺寸為1×N的下混矩陣D，如。

下混參數DMG及DCLD係自SAOC位元串流212獲得。

3.3.2 針對所有解碼/轉碼SAOC模式之能量正規化純量的計算

對於所有解碼/轉碼SAOC模式，使用下列方程式計算能量正規化純量：

3.4“盡力”呈現 3.4.1 介紹

“盡力”呈現方法通常在在目標呈現是一重要參照的情況中使用。

“盡力”呈現矩陣描述一目標呈現矩陣，其取決於下混及呈現資訊。能量正規化由尺寸為N _MPS×M的一矩陣表示，因而它對每一輸出聲道提供個別值。這需要對在下面概述之不同SAOC操作模式不同地計算。“盡力”呈現矩陣如下計算，對於下面的SAOC模式“x-1-1/2/5/b”,“x-2-1/b”,，對於下面的SAOC模式“x-2-2/5”。

這裡D ^l是下混矩陣及表示能量正規化矩陣。

上面方程式中的平方根運算符標示一按元素平方根形成。

下面將詳細描述對值的計算，值在一SAOC單聲道至單聲道解碼模式中是一能量正規化純量及在其它解碼模式或轉碼模式中是一能量正規化矩陣。

3.4.2 SAOC單聲道至單聲道(“x-1-1”)解碼模式

對於一單聲道下混信號被解碼以獲得一單聲道輸出信號(作為一上混信號表示型態)之(“x-1-1”)SAOC模式，能量正規化純量使用下面方程式來計算

3.4.3 SAOC單聲道至立體聲(“x-1-2”)解碼模式

對於一單聲道下混信號被解碼以獲得一立體聲(2聲道)輸出(作為一上混信號表示型態)之(“x-1-2”)SAOC模式，尺寸為2×1的能量正規化矩陣使用下面方程式來計算

3.4.4 SAOC單聲道至雙耳(“x-1-b”)解碼模式

對於一單聲道下混信號被解碼以獲得一雙耳呈現輸出信號(作為一上混信號表示型態)之“x-1-b”SAOC模式，尺寸為2×1的能量正規化矩陣使用下面方程式來計算

元素包含(或取自)目標雙耳呈現矩陣A ^l,m。

3.4.5 SAOC立體聲至單聲道(“x-2-1”)解碼模式

對於一個兩聲道(立體聲)下混信號被解碼以獲得一個一聲道(單聲道)輸出信號(作為一上混信號表示型態)之(“x-2-1”)SAOC模式，尺寸為2×1的能量正規化矩陣使用下面方程式來計算其中是尺寸為1×N的單聲道呈現矩陣。

3.4.6 SAOC立體聲至立體聲(“x-2-2”)解碼模式

對於一立體聲下混信號被解碼以獲得一立體聲輸出信號(作為一上混信號表示型態)之(“x-2-2”)SAOC模式，尺寸為2×2的能量正規化矩陣使用下面方程式來計算其中是尺寸為2×N的立體聲呈現矩陣。

3.4.7 SAOC立體聲至雙耳(“x-2-b”)解碼模式

對於一立體聲下混信號被解碼以獲得一雙耳呈現輸出信號(作為一上混信號表示型態)之(“x-2-b”)SAOC模式，尺寸為2×2的能量正規化矩陣使用下列方程式來計算其中A ^l,m是尺寸為2×N的雙耳呈現矩陣。

3.4.8 SAOC立體聲至多聲道(“x-1-5”)轉碼模式

對於一立體聲下混信號被轉碼以獲得一個5聲道或6聲道輸出信號(作為一上混信號表示型態)之(“x-1-5”)SAOC模式，尺寸為N _MPS×1的能量正規化矩陣使用下面方程式來計算

3.4.9 SAOC立體聲至多聲道(“x-2-5”)轉碼模式

對於一立體聲下混信號被轉碼以獲得一個5聲道或6聲道輸出信號(作為一上混信號表示型態)之(“x-2-5”)SAOC模式，尺寸為N _MPS×2的能量正規化矩陣使用下面方程式來計算

3.4.10 J ^l的計算

為避免在計算3.4.5、3.4.6、3.4.7、及3.4.9中的J ^l=(D ^l(D ^l)^*)^-1項時遇到的數值問題，在一些實施例中修改J ^l。首先計算J ^l的特徵值，解det(J-λ _1,2 I)=0。

特徵值以降λ ₁ λ ₂序排列，及對應於最大特徵值的特徵向量依據上面方程式來計算。確保位於正x平面上(第一元素必須為正)。第二特徵向量由第一特徵向量旋轉90度而獲得。

3.4.11 針對增強音訊物件(EAO)的失真控制單元(DCU)應用

下面將描述有關失真控制單元的應用之一些可取捨延伸，其可在依據發明的一些實施例中實施。

對於解碼殘餘編碼資料及因而支援對EAO的處理之SAOC解碼器，提供對允許利用藉由使用EAO而提供的增強音訊品質之DCU的一第二參數化可以是有意義的。這可藉由解碼及使用可選擇的一第二組DCU參數(亦即，bsDcuMode及bsDcuParam2)來實現，第二組DCU參數作為包含殘餘資料(亦即，SAOCExtensionConfigData()及SAOCExtensionFrameData())之資料結構的一部分來額外傳輸。一應用在其解碼殘餘編碼資料及在嚴格的EAO模式中操作時可利用此第二參數組，嚴格的EAO模式由唯有EAO可隨意修改而所有非EAO只能經受一單一常見修改之條件定義。具體而言，此嚴格的EAO模式需要滿足下列兩條件：下混矩陣及呈現矩陣具有相同的尺度(暗指，呈現聲道數目等於下混聲道數目)。

應用僅對各常規物件(亦即，非EAO)使用呈現係數，該各常規物件以一常見比例因數有關於它們相對應的下混係數。

4. 依據第3a圖的位元串流

下面將參考第3a圖描述表示一個多聲道音訊信號的一位元串流，第3a圖繪示此一位元串流300的一圖形表示型態。

位元串流300包含一下混信號表示型態302，其是使多個音訊物件的音訊信號組合之一下混信號的一表示型態(例如，一編碼表示型態)。位元串流300亦包含一物件相關參數旁側資訊304，其描述音訊物件的特性，及通常亦描述在一音訊編碼器中執行之一下混的特性。物件相關參數資訊304較佳地包含一物件層級差資訊OLD、一物件相關互相關資訊IOC、一下混增益資訊DMG及一下混聲道層級差資訊DCLD。位元串流300亦包含一線性組合參數306，其描述一使用者指定呈現矩陣及一目標呈現矩陣對一經修改呈現矩陣的期望貢獻(以由一音訊信號解碼器應用)。

下面將參考第3b及3c圖描述有關此位元串流300的進一步可取捨詳情，位元串流300可由裝置150作為位元串流170提供，及可輸入裝置100中以獲得下混信號表示型態110、物件相關參數資訊112及線性組合參數140，或輸入至200中以獲得下混資訊210、SAOC位元串流資訊212及線性組合參數214。

5. 位元串流句法詳情 5.1 SAOC特定組態句法

第3b圖繪示一SAOC特定組態資訊的一詳細句法表示型態。

依據第3b圖的SAOC特定組態310例如可以是依據第3a圖的位元串流300的一標頭的一部分。

SAOC特定組態例如可包含一取樣頻率組態，其描述由一SAOC解碼器所應用的一取樣頻率。SAOC特定組態亦包含一低延遲模式組態，其描述應使用信號處理器148或 SAOC解碼/轉碼單元248的一低延遲模式抑或一高延遲模式。SAOC特定組態亦包含一頻率解析度組態，其描述由信號處理器148或由SAOC解碼/轉碼單元248所使用的一頻率解析度。此外，SAOC特定組態可包含一訊框長度組態，其描述由信號處理器148或由SAOC解碼/轉碼單元248所使用之音訊訊框的長度。再者，SAOC特定組態通常包含一物件數目組態，其描述由信號處理器148或由SAOC解碼/轉碼單元248所處理的音訊物件的數目。物件數目組態亦描述物件相關參數資訊112或SAOC位元串流212中所包括的物件相關參數數目。SAOC特定組態可包含一物件關係組態，其標示具有一常見物件相關參數資訊的物件。SAOC特定組態亦可包含一絕對能量傳輸組態，其指出一絕對能量資訊是否自一音訊編碼器傳輸至一音訊解碼器。SAOC特定組態資訊亦可包含一下混聲道數目組態，其指出是否僅有一下混聲道、是否有兩下混聲道、或是否可取捨地有兩個以上的下混聲道。此外，SAOC特定組態在一些實施例中可包含額外組態資訊。

SAOC特定組態亦可包含後處理下混增益組態資訊“bsPdgFlag”，其定義是否傳輸一可取捨後處理的一後處理下混增益。

SAOC特定組態亦包含一旗標“bsDcuFlag”(其例如可以是一個1位元旗標)，其定義位元串流中是否傳輸值“bsDcuMode”及“bsDcuParam”。如果此旗標“bsDcuFlag”取值“1”，標為“bsDcuMandatory”的另一旗標及一旗標 “bsDcuDynamic”被包括於SAOC特定組態310中。旗標“bsDcuMandatory”描述失真控制是否必須由一音訊解碼器應用。如果旗標“bsDcuMandatory”等於1，則使用如在位元串流中傳輸的參數“bsDcuMode”及“bsDcuParam”必須應用失真控制單元。如果旗標“bsDcuMandatory”等於0，則在位元串流中傳輸的失真控制單元參數“bsDcuMode”及“bsDcuParam”僅是推薦值及亦可使用其他失真控制單元設定。

換言之，一音訊編碼器可啟用旗標“bsDcuMandatory”以便迫使在一標準相容音訊解碼器中使用失真控制機制，及可停用該旗標以便將是否應用失真控制單元之決策留給音訊解碼器作出，及若應用，該等參數用於失真控制單元。

旗標“bsDcuDynamic”啟用值“bsDcuMode”及“bsDcuParam”的一動態信令。如果旗標“bsDcuDynamic”停用，參數“bsDcuMode”及“bsDcuParam”被包括於SAOC特定組態中，不然，參數“bsDcuMode”及“bsDcuParam”被包括於SAOC訊框中，或至少被包括於一些SAOC訊框中，如將隨後討論。因此，一音訊信號編碼器可在一次信令(每條音訊，其包含一單一SAOC特定組態及通常多個SAOC訊框)與一些或所有SAOC訊框中諸參數的動態傳輸之間切換。

參數“bsDcuMode”依據第3d圖的表來定義失真控制單元(DCU)的無失真目標矩陣類型。

參數“bsDcuParam”依據第3e圖的表來定義失真控制單元(DCU)演算法的參數值。換言之，4位元參數“bsDcuParam” 定義一指數值idx，其可由一音訊信號解碼器映射至一線性組合值g _DCU(亦用“DcuParam[ind]”或“DcuParam[idx]”標示)。因而，參數“bsDcuParam”以一量化方式表示線性組合參數。

如在第3b圖可見，如果旗標“bsDcuFlag”取指出不傳輸失真控制單元參數之值“0”，參數“bsDcuMandatory”、“bsDcuDynamic”、“bsDcuMode”及“bsDcuParam”設為一預設值“0”。

SAOC特定組態亦可取捨地包含一或多個位元組對齊位元“ByteAlign()”以將SAOC特定組態引至一期望長度。

此外，SAOC特定組態能可取捨地包含一SAOC延伸組態“SAOCExtensionConfig()”，其包含額外組態參數。然而，額外組態參數在本發明中是不相關的，使得這裡因簡潔起見而省略討論。

5.2 SAOC訊框句法

下面將參考第3c圖描述一SAOC訊框的句法。

SAOC訊框“SAOCFrame”通常包含如前討論的編碼物件層級差值OLD，其可針對多個頻帶(“逐頻帶”)及多個音訊物件(每音訊物件)包括於SAOC訊框資料中。

SAOC訊框亦可取捨地包含編碼絕對能量值NRG，其可針對多個頻帶(逐頻帶)包括進來。

SAOC訊框亦可包含編碼物件間互相關值IOC，其針對多個音訊物件組合包括於SAOC訊框資料中。IOC通常以逐頻帶方式包括進來。

SAOC訊框亦包含編碼下混增益值DMG，其中每SAOC訊框每音訊物件通常有一下混增益值。

SAOC訊框亦可取捨地包含編碼下混聲道層級差DCLD，其中每音訊物件及每SAOC訊框通常有一下混聲道層級差值。

再者，SAOC訊框通常可取捨地包含編碼後處理下混增益值PDG。

此外，一SAOC訊框在一些情況中亦可包含，一或多個失真控制參數。如果包括於SAOC特定組態部分中的旗標“bsDcuFlag”等於“1”，指出在位元串流中使用失真控制單元資訊，及如果SAOC特定組態中的旗標“bsDcuDynamic”亦取值“1”，指出使用一動態(逐訊框)失真控制單元資訊，失真控制資訊被包括於SAOC訊框中但有條件是SAOC訊框是一所謂的“獨立”SAOC訊框，其中旗標“bsIndependencyFlag”是活動的或旗標“bsDcuDynamicUpdate”是活動的。

這裡應注意的是，如果旗標“bsIndependencyFlag”是不活動的，旗標“bsDcuDynamicUpdate”僅被包括於SAOC訊框中，及旗標“bsDcuDynamicUpdate”定義是否更新值“bsDcuMode”及“bsDcuParam”。更確切的說，“bsDcuDynamicUpdate”==1意思是，在目前訊框中更新值“bsDcuMode”及“bsDcuParam”，而“bsDcuDynamicUpdate”==0意思是，保留前面所傳輸的值。

因此，如果啟動失真控制單元參數的傳輸及亦啟動失真控制單元資料的動態傳輸及啟動旗標 “bsDcuDynamicUpdate”，上面已闡述的參數“bsDcuMode”及“bsDcuParam”被包括於SAOC訊框中。此外，如果SAOC訊框是一“獨立”SAOC訊框、啟動失真控制單元資料的傳輸且啟動失真控制單元資料的動態傳輸，參數“bsDcuMode”及“bsDcuParam”亦被包括於SAOC訊框中。

SAOC訊框亦可取捨地包含填充資料“byteAlign()”以將SAOC訊框填充至一期望長度。

可取捨地，SAOC訊框可包含標示為“SAOCExt或ExtensionFrame()”的額外資訊。然而，此可取捨額外SAOC訊框資訊在本發明中是不相關的，及為了簡潔因而這裡將不討論。

關於完整性，應指出的是，旗標“bsIndependencyFlag”指出是否目前SAOC訊框的無損失編碼是獨立於前一SAOC訊框而執行，亦即，是否目前SAOC訊框可在沒有對前一SAOC訊框的認識的情況下編碼。

6. 依據第4圖的SAOC解碼器/轉碼器

下面將描述用於SAOC中的失真控制之呈現係數限制方案的進一步實施例。

6.1 概述

第4圖繪示依據發明的一實施例之一音訊解碼器400的一方塊示意圖。

音訊解碼器400組配來接收一接收下混信號410、一SAOC位元串流412、一線性組合參數414(亦用^Λ標示)，及一呈現矩陣資訊420(亦用R標示)。音訊解碼器400組配來接收一上混信號表示型態，例如為多個輸出聲道130a至130M的形式。音訊解碼器400包含一失真控制單元440(亦用DCU標示)，其接收SAOC位元串流412之SAOC位元串流資訊的至少一部分、線性組合參數414及呈現矩陣資訊420。失真控制單元提供一經修改資訊R _lim，其可以是一經修改呈現矩陣資訊。

音訊解碼器400亦包含一SAOC解碼器及/或SAOC轉碼器448，其接收下混信號410、SAOC位元串流412及經修改呈現資訊R _lim並基於它們提供輸出聲道130a至130M。

下面將詳細討論使用依據本發明之一或多個呈現係數限制方案之音訊解碼器400的功能。

一般的SAOC處理以一時間/頻率選擇方式來實施且可描述如下。SAOC編碼器(例如，SAOC編碼器150)擷取數個輸入音訊物件信號的心理聲學特性(例如，物件功率關係及互相關)並接著將它們下混成一組合單聲道或立體聲聲道(例如，下混信號182或下混信號410)。此下混信號及擷取的旁側資訊(例如，物件相關參數旁側資訊或SAOC位元串流資訊412)係使用習知感知音訊編碼器以壓縮格式來傳輸(儲存)。在接收端，SAOC解碼器418使用傳輸旁側資訊412來感知上嘗試恢復原始物件信號(例如，分離的下混物件)。這些近似物件信號接著使用一呈現矩陣混合成一目標場景。如R或R _lim之呈現矩陣例由指定用於每一傳輸音訊物件及上混設置揚聲器的呈現係數(RC)組成。

事實上，物件信號的分離很少或甚至從不執行，因為分離及混合在一單一組合處理步驟中執行，這大大降低計算複雜度。此方案在傳輸位元率(僅需要傳輸一或兩下混聲道182、410外加一些旁側資訊186、188、412、414來代替若干個別物件音訊信號)及計算複雜度(處理複雜度主要有關於輸出聲道數目而非音訊物件數目)方面都極為有效。SAOC解碼器將物件增益及其它旁側資訊直接轉換(在一參數層面上)成轉碼係數(TC)，其應用於下混信號182、414以產生呈現輸出音訊場景的相對應信號130a至130M(或進一步解碼操作的預處理下混信號，亦即多聲道MPEG環繞呈現)。

呈現輸出場景的主觀上感知音訊品質可藉由應用如在[6]中所述的一失真控制單元DCU(例如，一呈現矩陣修改單元)來改進。此改進能以接受對目標呈現設定的適度動態修改為代價來實現。修改呈現資訊可時間及頻率變化地完成，這在特定情況下可導致不自然的聲色及/或時間波動人工因素。

在總的SAOC系統中，DCU能以簡單方式併入於SAOC解碼器/轉碼器處理鏈中。即，藉由控制RC、R而置於SAOC的前端，見第4圖。

6.2 基本假設

間接控制方法的基本假設考慮失真層級與下混中RC與它們相對應物件層級的偏差之間的關係。這是基於此觀測結果：RC相對其它物件對一特定物件所應用的特定降低/升高越多，SAOC解碼器/轉碼器所執行的對傳輸下混信號的積極修改就越多。換言之：彼此間的“物件增益”值偏差越高，出現不可接受失真的機會就越高(假定相同的下混係數)。

6.3 受限呈現係數的計算

基於由尺寸為N _ch×N _ob(亦即，列對應於輸出聲道130a至130M，行對應於輸入音訊物件)的矩陣R的係數(RC)所表示之使用者指定呈現情形，DCU藉由產生包含受限呈現係數的一經修改矩陣R _lim來防止極限呈現設定，受限呈現係數事實上由SAOC呈現引擎448使用。不失一般性，在後續說明中，RC被假定為頻率不變的以簡化符號。對於SAOC的所有操作模式，受限呈現係數可如下獲取：

這意味著，藉由包含交叉衰減參數Λ[0,1](亦標示為一線性組合參數)，可實現(使用者指定)呈現矩陣R朝一目標矩陣的混合。換言之，受限矩陣R _lim表示呈現矩陣R與一目標矩陣的一線性組合。一方面，目標呈現矩陣可以是具有一正規化因數的下混矩陣(亦即，下混聲道送至轉碼器448)或是導致一靜態轉碼矩陣之另一靜態矩陣。此“下混類似呈現”儘管完全不論初始呈現係數，但確保目標呈現矩陣不引入任何SAOC處理人工因素及因而表示音訊品質方面的一最佳呈現點。

然而，如果一應用需要一特定呈現情形或他的/她的初始呈現設置的一使用者設定高值(特別地，例如一或多個物件的空間位置)，下混類似呈現無法充當目標點。另一方面，在計入下混及初始呈現係數(例如，使用者指定呈現矩陣)時，此一點可解釋為“盡力呈現”。此對目標呈現矩陣的第二定義的目的是以一最可能方式來保留指定呈現情形(例如，由使用者指定呈現矩陣定義)，但同時保持由於一最小層級上的過度物件操控而引起的可聞降級。

6.4 下混類似呈現 6.4.1 介紹

尺寸為N _dmx×N _ob的下混矩陣D由編碼器(例如，音訊編碼器150)決定且包含有關輸入物件如何被線性組合於傳輸至解碼器的下混信號中之資訊。例如，對於一單聲道下混信號，D減至一單一列向量，及在立體聲情況中N _dmx=2。

“下混類似呈現”矩陣R _DS如下計算

其中N _DS表示能量正規化純量，及D _R為以是零元素的列延伸的下混矩陣，使得D _R的列的數目及順序對應於R的群集。例如，在SAOC立體聲至多聲道轉碼模式(x-2-5)中，N _dmx=2及N _ch=6。因此，D _R尺寸為N _ch×N _ob及其表示前左及右輸出聲道的列等於D。

6.4.2 所有解碼/轉碼SAOC模式

對於所有解碼/轉碼SAOC模式，能量正規化純量N _DS可使用下列方程式來計算其中運算符trace(X)暗指矩陣X的所有斜對角元素的和。(*)暗指複共軛轉置運算符。

6.5 盡力呈現 6.5.1 介紹

盡力呈現方法描述取決於下混及呈現資訊的一目標呈現矩陣。能量正規化由尺寸為N _ch×N _dmx的一矩陣N _BE表示，因此，其對每一輸出聲道(假設有一個以上的輸出聲道)提供個別值。這需要對在後續部分中概述之不同SAOC操作模式不同地計算N _BE。

“盡力呈現”矩陣如下計算其中D是下混矩陣及N _BE表示能量正規化矩陣。

6.5.2 SAOC單聲道至單聲道(“x-1-1”)解碼模式

對於(“x-1-1”)SAOC解碼模式，能量正規化純量N _BE可使用下列方程式計算

6.5.3 SAOC單聲道至立體聲(“x-1-2”)解碼模式

對於(“x-1-2”)SAOC解碼模式，尺寸為2×1的能量正規化矩陣N _BE可使用下列方程式計算

6.5.4 SAOC單聲道至雙耳(“x-1-b”)解碼模式

對於(“x-1-b”)SAOC模式，尺寸為2×1的能量正規化矩陣可使用下列方程式來計算

應進一步注意的是，這裡r₁及r₂考量/包含雙耳HRTF參數資訊。

亦應注意的是，對於上面的所有3方程式，必須取N _BE的平方根，亦即

(參見前面說明)。

6.5.5 SAOC立體聲至單聲道(“x-2-1”)解碼模式

對於(“x-2-1”)SAOC模式，尺寸為1×2的能量正規化矩陣N _BE可使用下列方程式來計算N _BE=R ₁ D ^*(DD ^*)^-1，其中尺寸為1×N _ob的單聲道呈現矩陣R ₁如下定義

6.5.6 SAOC立體聲至立體聲(“x-2-2”)解碼模式

對於(“x-2-2”)SAOC模式，尺寸為2×2的能量正規化矩陣N _BE可使用下列方程式來計算N _BE=R ₂ D ^*(DD ^*)^-1

其中尺寸為2×N _ob的單聲道呈現矩陣R ₂如下定義

6.5.7 SAOC單聲道至雙耳(“x-2-b”)解碼模式

對於(“x-2-b”)SAOC模式，尺寸為2×2的能量正規化矩陣N _BE可使用下列方程式來計算N _BE=R ₂ D ^*(DD ^*)^-1，其中尺寸為2×N _ob的雙耳呈現矩陣R ₂如下定義

應進一步注意的是，這裡r_1,n及r_2,n考量/包含雙耳HRTF參數資訊。

6.5.8 SAOC單聲道至多聲道(“x-1-5”)轉碼模式

對於“x-1-5”SAOC模式，尺寸為N _ch×1的能量正規化矩陣N _BE可使用下列方程式來計算

再次，推薦或甚至在某些情況中需要取每一元素的平方根。

6.5.9 SAOC立體聲至多聲道(“x-2-5”)轉碼模式

對於(“x-2-5”)SAOC模式，尺寸為N _ch×2的能量正規化矩陣N _BE可使用下列方程式來計算N _BE=RD ^*(DD ^*)^-1。

6.5.10 (DD^*)^-1的計算

對於項(DD^*)^-1的計算，可應用正則化方法來防止不適定矩陣結果。

6.6 呈現係數限制方法的控制 6.6.1 位元串流句法的範例

下面將參考第5a圖描述一SAOC特定組態的句法表示型態。SAOC特定組態“SAOCSpecificConfig()”包含習知SAOC組態資訊。再者，SAOC特定組態包含一DCU特定添加內容，其將在下面更詳細描述。SAOC特定組態亦包含一或多個填充位元“ByteAlign()”，其可用來調整SAOC特定組態的長度。此外，SAOC特定組態能可取捨地包含一SAOC延伸組態，其包含進一步的組態參數。

依據第5a圖之位元串流句法元素“SAOCSpecificConfig()”的DCU特定添加內容510是所提出DCU方案的位元串流信令的一範例。這有關於在依據參考文獻[8]之起草SAOC標準的子條款“5.1 payloads for SAOC”中所描述之句法。

下面將給出一些參數的定義。

“bsDcuFlag”定義DCU的設定是否由SAOC編碼器或解碼器/轉碼器決定。更準確而言，“bsDcuFlag”=1意味著，由SAOC編碼器在SAOCSpecificConfig()中指定的值“bsDcuMode”及“bsDcuParam”被應用於DCU，而bsDcuFlag”=0意味著，變數“bsDcuMode”及“bsDcuParam”(由預設值初始化)可由SAOC解碼器/轉碼器應用或使用者來進一步修改。

“bsDcuMode”定義DCU的模式。更準確而言，“bsDcuMode”=0意味著由DCU應用“下混類似”呈現模式，而“bsDcuMode”=1意味著由DCU演算法應用“盡力”呈現模式。

“bsDcuParam”定義DCU演算法的混合參數值，其中第5b圖的表繪示“bsDcuParam”參數的一量化表。

可能的“bsDcuParam”值在此範例中是具有用4位元表示的16項之一表的一部分。當然，可使用任一更大或更小的表格。值間的間隔可以是對數上的以便對應於按分貝計的最大物件分離。但值亦可以是線性隔開的，或對數的與線性的一混合組合，或任何其它種類的尺度。

位元串流中的“bsDcuMode”參數使得在編碼器側可能選擇針對情況的一最佳DCU演算法。這可能會非常有用，因為一些應用或內容可能自“下混類似”呈現模式受益，而其它可能自“盡力”呈現模式受益。

通常，“下混類似”呈現模式會是，向後/向前相容性是重要的及下混具有需要保留的重要藝術品質之應用的期望方法。另一方面，“盡力”呈現模式在不是此情況的情況中會有更好性能。

有關本發明的這些DCU參數當然可以在SAOC位元串流的任何其它部分中傳送。一可選擇位置會是使用“SAOCExtensionConfig()”容器，其中可使用某一延伸ID。此兩部分可位於SAOC標頭中，確保最小資料率開銷。

另一替代方案是在酬載資料(亦即，SAOCFrame())中傳送DCU資料。這會允許時變信令(例如，信號適應性控制)。

一靈活方法是定義DCU資料之針對標頭(亦即，靜態信令)與酬載資料(亦即，動態信令)二者的位元串流信令。則一SAOC編碼器自由選擇兩信令方法中的一方法。

6.7 處理策略

在DCU設定(例如，DCU模式“bsDcuMode”及混合參數設定“bsDcuParam”)由SAOC編碼器明確指定的情況(例如，“bsDcuFlag”=1)中，SAOC解碼器/轉碼器將這些值直接應用於DCU。如果DCU設定不明確指定(例如，“bsDcuFlag”=0)，SAOC解碼器/轉碼器使用預設值並允許SAOC解碼器/轉碼器應用或使用者來修改它們。第一量化指數(例如，idx=0)可用來禁用DCU。可選擇地，DCU預設值(“bsDcuParam”)可為“0”亦即禁用DCU，或“1”亦即完全限制。

7. 性能評估 7.1 收聽試驗設計

已進行一主觀收聽試驗來評估所提出DCM概念的感知性能並將其與常規SAOC RMM解碼/轉碼處理的結果比較。較之其他收聽試驗，此測試的任務是考量極限呈現情況(“獨奏物件”、“不發音物件”)中關於兩品質層面的最佳可能再現品質：

1.實現呈現目標(目標物件的良好降低/升高)

2.總場景聲音品質(考量失真、人工因素、非自然性...)

請注意，一未經修改SAOC處理可實現層面#1但不實現層面#2，而僅使用傳輸下混信號可實現層面#2但不實現層面#1。

進行收聽試驗，向聽眾僅呈現真實選擇亦即僅有在解碼器側作為一信號真正可用的材料。因而，所呈現的信號是常規DCU未處理)SAOC解碼器的輸出信號，證明SAOC及SAOC/DCU輸出的基準性能。此外，與下混信號對應的輕微呈現情況在收聽試驗中呈現。

第6a圖的表描述收聽試驗條件。

由於所提出的DCU使用常規SAOC資料及下混來操作且不依賴殘餘資訊，沒有核心編碼器應用於相對應的SAOC下混信號。

7.2 收聽試驗項

下述項以及極限與臨界呈現已被選定用於始於CfP收聽試驗材料的目前收聽試驗。

第6b圖的表描述收聽試驗的音訊項。

7.3 下混及呈現設定

在第6c圖的表中描述的呈現物件增益已應用於所考量的上混情形。

7.4 收聽試驗指令

主觀收聽試驗在一聲學上隔離的收聽房間內進行，該房間被設計成允許高品質收聽。使用耳機(帶有Lake-People D/A轉換器及STAX SRM監視器的STAX SR lambda pro)來進行播放。

測試方法符合在空間音訊驗證測試中使用的程序，類似於用以對適度品質音訊[2]進行主觀評估之“Multiple Stimulus with Hidden Reference and Anchors”(MUSHRA)方法。測試方法已如上所述來修改以便評估所提出DCU的感知性能。聽眾受指示來遵守下列收聽試驗指令：“應用情形：設想你是一互動音樂重混音系統的使用者，該互動音樂重混音系統允許你對音樂材料作出專用重混音。系統提供混合桌面樣式滑動塊以供每一儀器改變其層級、空間位置、等等。由於系統的本質，一些極限聲音混合可導致降低總聲音品質的失真。另一方面，具有類似儀器層級的聲音混合傾向於產生更好的聲音品質。

此測試的目的是評估不同處理演算法，該等不同處理演算法有關它們對聲音修改強度與聲音品質的影響。

在此測試中沒有“參照信號”！取代其的是，下面給出對期望聲音混合的說明：對於每一音訊項，請：

- 首先讀對你作為一系統使用者想實現之期望聲音混合的說明

項“BlackCoffee”：聲音混合中的輕柔銅管樂部分

項“VoiceOverMusic”：輕柔背景音樂

項“Audition”：強人聲音及輕柔音樂

項“LovePop”：聲音混合中的輕柔弦樂部分

- 接著使用一共同等級來對信號評級以描述以下兩者

- 實現期望聲音混合的呈現目標

- 總場景聲音品質(考慮失真、人工因素、非自然性、空間失真、...)

總共8聽眾參與所執行測試中的每一測試。所有主體可視為有經驗聽眾。對每一測試項及對每一聽眾，自動地隨機化測試條件。主觀響應在範圍為0至100的尺度上由一基於電腦的收聽試驗程式來記錄，其中五區間以與MUSHRA尺度相同的方式來標記。允許待測試項間的一瞬時切換。

7.3 收聽試驗結果

在第7圖的圖形表示型態中所示的圖繪示每項對所有聽眾而言的平均分，及所有評估項加之相關聯95%信賴區間的統計均值。

基於進行的收聽試驗的結果可作出如下觀測結果：對於所進行的收聽試驗，所獲得MUSHRA分數證實，所提出的DCU功能在總統計均值的意義上較常規SAOC RM系統提供顯著更好性能。人們應注意的是，由常規SAOC解碼器所產生的所有項的品質(在所考量極限呈現條件下顯出強音訊人工因素)被評為與下混相同呈現設定的品質一樣低的等級，其根本無法滿足期望呈現情形。因此，可以得出結論，所提出的DCU方法對所有考量的收聽試驗情形都引起對主觀信號品質的相當大的改進。

8. 結論

綜上討論，已描述用於SAOC中的失真控制之呈現係數限制方案。依據發明的實施例可結合用於對包含多個音訊物件之音訊場景的位元率有效率傳輸/儲存之參數技術來使用，其最近已提出(例如，參見參考文獻[1]、[2]、[3]、[4]及[5])。

結合接收側的使用者互動性，在執行極限物件呈現時，此類技術習知上(在不使用發明呈現係數限制方案的情況下)可造成輸出信號的低品質(例如，參見參考文獻[6])。

本說明書關注空間音訊物件編碼(SAOC)，空間音訊物件編碼(SAOC)提供用以一使用者介面的手段來選擇期望播放設置(例如，單聲道、立體聲、5.1、等等)，及藉由依據個人偏好或其它準則控制呈現矩陣來對期望輸出呈現場景進行互動即時修改。然而，發明通常亦可適於參數技術。

由於下混/分離/基於混合的參數方法，呈現音訊輸出的主觀品質取決於呈現參數設定。選擇使用者選擇的呈現設定之自由必然伴有使用者選擇不適當物件呈現選項的風險，諸如總聲音場景中一物件的極限增益操控。

對於一商品，因使用者介面上的任何設定而產生欠佳聲音品質及/或音訊人工因素必定是不可接受的。為了控制所產生SAOC音訊輸出的過度惡化，已描述數個計算測度，它們是基於計算呈現場景的感知品質的一測度，並視此測度(及可取捨地，其它資訊)而定來修改實際所應用的呈現係數(參見，例如，參考文獻[6])之構想。

本文件描述用於保障呈現SAOC場景的主觀聲音品質之可選擇構想，在該等可選擇構想中，所有處理完全在SAOC解碼器/轉碼器中實施，而不涉及對呈現聲音場景的感知音訊品質的複雜測度的明確計算。

這些構想因而可在SAOC解碼器/轉碼器框架中以一結構上簡單且極其有效的方式來實施。所提出的失真控制單元(DCU)演算法旨在限制SAOC解碼器的輸入參數，即呈現係數。

綜上所述，依據發明的實施例產生如上所述的一種音訊編碼器、一種音訊解碼器、一種編碼方法、一種解碼方法、及用以編碼或解碼的電腦程式、或編碼的音訊信號。

9. 實施選替方案

雖然在一裝置的脈絡中已描述了一些層面，但顯然這些層面也表示對相對應方法的說明，其中一區塊或一裝置對應於一方法步驟或一方法步驟的一特徵。類似地，在一方法步驟的脈絡中所描述的層面也表示對一相對應裝置的一相對應區塊或項目或特徵之說明，一些或所有方法步驟可由(或使用)一硬體裝置來執行，如舉例而言，微處理器、可程式化電腦或電子電路。在一些實施例中，某一或多個最重要方法步驟可由此一裝置來執行。

發明的編碼音訊信號可被儲存於一數位儲存媒體上或能以一傳輸媒介傳輸，諸如無線傳輸媒介或諸如網際網路之有線傳輸媒介。

視某些實施需求而定，發明實施例可在硬體或軟體中實施。使用儲存有電子可讀取控制信號之一數位儲存媒體，例如軟碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體可執行該實施，該等電子可讀取控制信號與一可程式化電腦系統合作(或能夠合作)使得各自的方法被執行。因此，該數位儲存媒體可以是電腦可讀取的。

依據本發明的一些實施例包含具有電子可讀取控制信號的一資料載體，該等電子可讀取控制信號能夠與一可程式化電腦系統合作使得本文所予以描述之方法當中之一方法被執行。

大體上，本發明之實施例可作為具有一程式碼的一電腦程式產品而被實施，當該電腦程式產品運行於一電腦上時，該程式碼可操作用於執行該等方法當中之一方法。該程式碼可例如被儲存於一機器可讀取載體上。

其它實施例包含儲存於一機器可讀取媒體上、用於執行本文所予以描述之該等方法當中之一方法的電腦程式。

換言之，發明方法的一實施例因而是一電腦程式，具有當該電腦程式運行於一電腦上時用以執行本文所予以描述之該等方法當中之一方法的一程式碼。

發明方法的一進一步實施例因而是一資料載體(或一數位儲存媒體或一電腦可讀取媒體)，其包含記錄於其上用以執行本文所予以描述之該等方法當中之一方法的電腦程式。資料載體、數位儲存媒體或記錄媒體通常是有形的及/或非過渡的。

發明方法的一進一步實施例因而是一資料串流或一信號序列，表示用於執行本文所予以描述之該等方法當中之一方法的電腦程式。該資料串流或該信號序列可例如被組配來經由一資料通訊連接(例如經由網際網路)來被傳遞。

一進一步的實施例包含一處理裝置，例如一電腦，或一可程式化邏輯裝置，其被組配來或適於執行本文所予以描述之該等方法當中之一方法。

一進一步的實施例包含上面安裝有用以執行本文所予以描述之該等方法當中之一方法的一電腦程式之電腦。

在一些實施例中，一可程式化邏輯裝置(例如，一現場可程式化閘陣列)可被用來執行本文所予以描述之該等方法的一些或所有功能。在一些實施例中，一現場可程式化閘陣列可與一微處理器合作以便執行本文所予以描述之該等方法當中之一方法。大體上，該等方法較佳地被任一硬體裝置執行。

上述實施例僅僅是為了說明本發明的原理。要明白的是，對本文所予以描述之安排與細節的修改或改變對其他熟於此技者而言將是顯而易見的。因而，屬圖是僅受後附的申請專利範圍之範圍限制而不受以本文實施例的說明與闡述方式呈現之特定細節限制。

參考文獻

[1] C. Faller and F. Baumgarte, "Binaural Cue Coding-Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[2] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752.

[3] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[4] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.

[5] ISO/IEC, "MPEG audio technologies-Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.

[6] US patent application 61/173,456, METHODS, APPARATUS, AND COMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNAL PROCESSING

[7] EBU Technical recommendation: "MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality", Doc. B/AIM022, October 1999.

[8] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N10843, “Study on ISO/IEC 23003-2:200x Spatial Audio Object Coding (SAOC)”, 89th MPEG Meeting, London, UK, July 2009

100、150‧‧‧裝置

110、302‧‧‧下混信號表示型態

112、304‧‧‧物件相關參數資訊

114‧‧‧線性組合參數、位元串流元素

120‧‧‧呈現資訊

130、230‧‧‧上混信號表示型態

130a~130M‧‧‧輸出聲道

140‧‧‧失真限制器

142‧‧‧經修改呈現矩陣

144‧‧‧使用者指定呈現矩陣

146、188、214、306、414‧‧‧線性組合參數

148‧‧‧信號處理器

160a~160N‧‧‧音訊物件信號

170、300‧‧‧位元串流

180‧‧‧下混器

182‧‧‧下混信號

184‧‧‧旁側資訊提供器

186‧‧‧物件相關參數旁側資訊

190‧‧‧位元串流格式器

199‧‧‧可取捨使用者介面

200‧‧‧SAOC系統、SAOC解碼器

210‧‧‧下混信號表示型態

212‧‧‧SAOC位元串流、SAOC 位元串流資訊

220‧‧‧呈現矩陣輸入

240、440‧‧‧失真控制單元

248‧‧‧SAOC解碼/轉碼單元

310‧‧‧SAOC特定組態

400‧‧‧音訊解碼器

410‧‧‧下混信號

412‧‧‧SAOC位元串流

420‧‧‧呈現矩陣資訊

448‧‧‧SAOC解碼器、SAOC轉碼器

510‧‧‧DCU特定添加內容

800、900、930、960‧‧‧MPEG SAOC系統

810、910‧‧‧SAOC編碼器

812‧‧‧下混信號

814、914‧‧‧旁側資訊

820、920、950‧‧‧SAOC解碼器

820a‧‧‧物件分離器

820b、924‧‧‧經重建物件信號

820c‧‧‧混合器

822‧‧‧使用者互動資訊/使用者控制資訊

922‧‧‧物件解碼器

926‧‧‧混合器、呈現器

928、958‧‧‧上混聲道信號

980‧‧‧SAOC至MPEG環繞轉碼器

982‧‧‧旁側資訊轉碼器

984‧‧‧MPEG環繞旁側資訊、MPEG環繞位元串流

986‧‧‧下混信號操控器

988‧‧‧下混信號表示型態

第1a圖繪示依據發明的一實施例之用以提供一上混信號表示型態之一裝置的一方塊示意圖；第1b圖繪示依據發明的一實施例之用以提供表示一多聲道音訊信號的一位元串流之一裝置的一方塊示意圖；第2圖繪示依據發明的另一實施例之用提提供一上混信號表示型態之一裝置的一方塊示意圖；第3a圖繪示依據發明的一實施例之表示一多聲道音訊信號之一位元串流的一示意表示型態；第3b圖繪示依據發明的一實施例之一SAOC特定組態資訊的一詳細句法表示型態；第3c圖繪示依據發明的一實施例之一SAOC訊框資訊的一詳細句法表示型態；第3d圖繪示在一SAOC位元串流內可使用之一位元串流元素“bsDcuMode”中一失真控制模式的編碼的一示意表示型態；第3e圖繪示一位元串流指數idx與一線性組合參數“DcuParam[idx]”的值間的關聯的一表格表示型態，其在一SAOC位元串流中可用來編碼一線性組合資訊。

100‧‧‧裝置

110‧‧‧下混信號表示型態

112‧‧‧物件相關參數資訊

114‧‧‧線性組合參數、位元串流元素

120‧‧‧呈現資訊

130‧‧‧上混信號表示型態

140‧‧‧失真限制器

142‧‧‧經修改呈現矩陣

144‧‧‧使用者指定呈現矩陣

146‧‧‧線性組合參數

148‧‧‧信號處理器

Claims

一種用以基於一音訊內容的一位元串流表示型態中所包括的一下混信號表示型態及一物件相關參數資訊並依一使用者指定呈現矩陣來提供一上混信號表示型態之裝置，該裝置包含：一失真限制器，其組配來依一線性組合參數使用一使用者指定呈現矩陣與一目標呈現矩陣的一線性組合來獲得一經修改呈現矩陣；及一信號處理器，其組配來使用該經修改呈現矩陣、基於該下混信號表示型態及該物件相關參數資訊來獲得上混信號表示型態；其中該裝置組配來評估表示該線性組合參數的一位元串流元素以便獲得該線性組合參數。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來獲得該目標呈現矩陣使得該目標呈現矩陣是一無失真目標呈現矩陣。
如申請專利範圍第1項或第2項所述之裝置，其中該失真限制器組配來依據下式來獲得該經修改呈現矩陣：其中g_DCU標示該線性組合參數，其的一值在一區間[0,1]中；其中標示該使用者指定呈現矩陣；及其中標示該目標呈現矩陣。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來獲得該目標呈現矩陣使得該目標呈現矩陣是一下混類似目標呈現矩陣。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來使用一能量正規化純量縮放一延伸下混矩陣，以獲得該目標呈現矩陣，其中該延伸下混矩陣是一下混矩陣的一延伸形態，該下混矩陣的一或多列描述多個音訊物件信號對該下混信號表示型態的一或多個聲道的貢獻，該延伸下混矩陣以零元素的列延伸使得該延伸下混矩陣的列數等於由該使用者指定呈現矩陣所描述的一呈現群集。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來獲得該目標呈現矩陣，使得該目標呈現矩陣是一盡力目標呈現矩陣。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來獲得該目標呈現矩陣，使得該目標呈現矩陣取決於一下混矩陣及該使用者指定呈現矩陣。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來計算包含用以提供一上混信號表示型態之該裝置的多個輸出音訊聲道的聲道個別能量正規化值之一矩陣，使得該裝置之一指定輸出音訊聲道的一能量正規化值至少近似地描述，多個音訊物件的該使用者指定呈現矩陣中與該指定輸出音訊聲道相關聯的能量呈現值的總和，與該多個音訊物件的能量下混值的總和之間的一比率；其中該失真限制器組配來使用聲道個別能量正規化值來縮放一組下混值，以獲得該目標呈現矩陣之與該指定輸出聲道相關聯的一組呈現值。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來依據下式來計算包含用於多個輸出音訊聲道的聲道個別能量正規化值之一矩陣：針對該裝置之一個1聲道下混信號表示型態及一個2聲道輸出信號的情況，依據；或針對該裝置之一個1聲道下混信號表示型態及一個雙耳呈現輸出信號的情況，依據；或針對該裝置之一個1聲道下混信號表示型態及一個N _MPS聲道輸出信號的情況；依據其中標示該使用者指定呈現矩陣的呈現係數，描述具有物件指數j的一音訊物件對該裝置的一第一輸出音訊輸出聲道的一期望貢獻；其中標示該使用者指定呈現矩陣的呈現係數，描述具有物件指數j的一音訊物件對該裝置的一第二輸出音訊輸出聲道的一期望貢獻；其中及標示該使用者指定呈現矩陣的該呈現係數，描述具有物件指數j的一音訊物件對該裝置的一第一及第二輸出音訊聲道的一期望貢獻，並計入參數HRTF資訊；其中標示一下混係數，描述具有一物件指數j的一音訊物件對該下混信號表示型態的一貢獻；及其中ε標示用以避免用零除的一添加常數；及其中該失真限制器組配來依據下式計算該目標呈現矩陣：其中D ^l標示包含該下混係數d_j的一下混矩陣。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來依該使用者指定呈現矩陣及一下混矩陣來計算描述用於該裝置的多個輸出音訊聲道之一聲道個別能量正規化的一矩陣；及其中該失真限制器組配來應用描述該聲道個別能量正規化的該矩陣，以獲得該目標呈現矩陣之與該裝置的一指定輸出音訊聲道相關聯的一組呈現係數，作為與該下混信號表示型態的不同聲道相關聯之諸組下混值的一線性組合。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來針對該裝置的一個2聲道下混信號表示型態及一個多聲道輸出音訊信號之情況，依據下式計算描述多個輸出音訊聲道的該聲道個別能量正規化之一矩陣：其中標示描述多個音訊物件信號對該裝置的該多個聲道輸出音訊信號的使用者指定、期望貢獻之該使用者指定呈現矩陣，其中D ^l標示描述多個音訊物件信號對該下混信號表示型態的貢獻之一下混矩陣；其中J ^l=(D ^l(D ^l)^*)^-1；及其中該失真限制器組配來依據下式來計算該目標呈現矩陣：
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來針對該裝置的一個2聲道下混信號表示型態及一個1聲道輸出音訊信號之情況，依據或針對該裝置的一個2聲道下混信號表示型態及一個雙耳呈現輸出音訊信號之情況，依據來計算一矩陣；其中標示描述多個音訊物件信號對該裝置的該輸出信號的使用者指定期望貢獻之該使用者指定呈現矩陣；其中D ^l標示描述多個音訊物件信號對該下混信號表示型態的貢獻之一下混矩陣；其中A ^l,m表示基於該使用者指定呈現矩陣及一標頭相關轉換函數的參數之一雙耳呈現矩陣。
如申請專利範圍第1項所述之裝置，其中該失真限制器組配來依據下式來計算一能量正規化純量其中標示該使用者指定呈現矩陣的一呈現係數，描述具有物件指數j的一音訊物件對該裝置的一輸出音訊聲道的一期望貢獻；其中d _j標示一下混係數，描述具有物件指數j的一音訊物件對該下混信號表示型態的一貢獻；及其中ε標示用以避免用零除的一添加常數。
如申請專利範圍第1項所述之裝置，其中該裝置組配來由該音訊內容的該位元串流表示型態讀表示該線性組合參數的一指數值(idx)，並使用一參數量化表來將該指數值映射至該線性組合參數。
如申請專利範圍第14項所述之裝置，其中該量化表描述一非一致量化，其中該線性組合參數的較小值用較高解析度來量化，該線性組合參數的較小值描述該使用者指定呈現矩陣到該經修改呈現矩陣的一較強貢獻。
如申請專利範圍第1項所述之裝置，其中該裝置組配來評估描述一失真限制模式的一位元串流元素(bsDcuMode)，及其中該失真限制器組配來選擇性獲得該目標呈現矩陣使得該目標呈現矩陣是一下混類似目標呈現矩陣，或使得該目標呈現矩陣是一盡力目標呈現矩陣。
一種用以提供表示一個多聲道音訊信號的一位元串流之裝置，該裝置包含：一下混器，其組配來基於多個音訊物件信號來提供一下混信號；一旁側資訊提供器，其組配來提供描述該等音訊物件信號及下混參數的特性之一物件相關參數旁側資訊，及描述一使用者指定呈現矩陣與一目標呈現矩陣對一經修改呈現矩陣的期望貢獻之一線性組合參數，該經修改呈現矩陣將由一裝置所使用基於該位元串流來提供一上混信號表示型態的；及一位元串流格式器，其組配來提供包含該下混信號、該物件相關參數旁側資訊及該線性組合參數的一表示型態之一位元串流。
一種用以基於一音訊內容的一位元串流表示型態中所包括的一下混信號表示型態及一物件相關參數資訊並依一使用者指定呈現矩陣來提供一上混信號表示型態之方法，該方法包含以下步驟：評估表示一線性組合參數的一位元串流元素，以便獲得該線性組合參數；使用一使用者指定呈現矩陣及一目標呈現矩陣、依該線性組合參數來獲得一經修改呈現矩陣；及使用該經修改呈現矩陣、基於該下混信號表示型態及該物件相關參數資訊來獲得該上混信號表示型態。
一種用以提供表示一個多聲道音訊信號的位元串流之方法，該方法包含以下步驟：基於多個音訊物件信號來提供一下混信號；提供描述該等音訊物件信號及下混參數的特性之一物件相關參數旁側資訊，及描述一使用者指定呈現矩陣與一目標呈現矩陣對一經修改呈現矩陣的期望貢獻之一線性組合參數；及提供包含該下混信號、該物件相關參數旁側資訊及該線性組合參數的一表示型態之一位元串流。
一種在一電腦上運行時用以執行如申請專利範圍第18或19項所述之一方法之電腦程式。
一種攜載表示一個多聲道音訊信號之位元串流之數位儲存媒體，該位元串流包含：一下混信號的一表示型態，該下混信號的該表示型態組合多個音訊物件的音訊信號；一物件相關參數資訊，其描述該等音訊物件的特性；及一線性組合參數，其描述一使用者指定呈現矩陣及一目標呈現矩陣對一經修改呈現矩陣的期望貢獻。