TWI544479B

TWI544479B - 音訊解碼器、音訊編碼器、用以基於已編碼表示型態提供至少四音訊聲道信號的方法、用以基於至少四音訊聲道信號提供已編碼表示型態的方法、及使用頻寬擴展的電腦程式

Info

Publication number: TWI544479B
Application number: TW103124925A
Authority: TW
Inventors: 薩沙迪克; 克里斯汀厄泰爾; 克里斯汀赫姆瑞區; 喬漢娜希爾波特; 安德烈斯霍瑟; 亞琴昆茲
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-07-22
Filing date: 2014-07-21
Publication date: 2016-08-01
Also published as: US20210233543A1; PT3022734T; EP2830051A3; US9940938B2; US11488610B2; WO2015010926A1; EP3022734A1; CN111128205A; CN111105805A; MX357667B; US20240029744A1; AU2014295282B2; CN111128206A; KR101823278B1; ES2649194T3; EP2830052A1; CN105580073A; TWI550598B; US11657826B2; JP6346278B2

Description

音訊解碼器、音訊編碼器、用以基於已編碼表示型態提供至少四音訊聲道信號的方法、用以基於至少四音訊聲道信號提供已編碼表示型態的方法、及使用頻寬擴展的電腦程式

發明領域

根據本發明之一實施例創造一種用以基於已編碼表示型態提供至少四頻寬擴展聲道信號的音訊解碼器。

根據本發明之另一實施例創造一種用以基於至少四音訊聲道信號提供已編碼表示型態的音訊編碼器。

根據本發明之另一實施例創造一種用以基於已編碼表示型態提供至少四音訊聲道信號的方法。

根據本發明之另一實施例創造一種用以基於至少四音訊聲道信號提供已編碼表示型態的方法。

根據本發明之另一實施例創造一種用以執行該等方法之一的電腦程式。

一般而言，根據本發明之實施例係關於n個聲道的聯合編碼。

發明背景

近年來，對音訊內容之儲存及傳輸之需求一直在穩定地增加。此外，對音訊內容之儲存及傳輸之品質要求亦一直在穩定地增加。因此，已增強用於音訊內容之編碼及解碼的概念。例如，已開發了所謂的「先進音訊編碼」(AAC)，該「先進音訊編碼」描述於例如國際標準ISO/IEC 13818-7：2003中。此外，已創建一些空間延伸，類似例如所謂的「MPEG環繞聲」--描述於例如國際標準ISO/IEC 23003-1：2007中的概念。此外，用於音訊信號之空間資訊的編碼及解碼之額外改良描述於國際標準ISO/IEC 23003-2：2010中，該國際標準涉及所謂的空間音訊物件編碼(SAOC)。

此外，提供在良好編碼效率的情況下編碼一般音訊信號及語言信號兩者且處理多聲道音訊信號之可能性的靈活音訊編碼/解碼概念定義於國際標準ISO/IEC 23003-3：2012中，該國際標準描述所謂的「統一語音及音訊編碼」(USAC)概念。

在MPEG USAC[1]中，使用具有帶限殘餘信號或全頻帶殘餘信號之複雜預測、MPS 2-1-1或統一立體聲來執行兩個聲道之聯合立體聲編碼。

MPEG環繞聲[2]階層式地組合OTT框及TTT框以用於具有或無殘餘信號之傳輸的多聲道音訊之聯合編碼。

然而，希望提供用於三維音訊場景之有效編碼及解碼的甚至更先進的概念。

發明概要

根據本發明之一實施例創造一種用以基於已編碼表示型態提供至少四頻寬擴展的聲道信號的音訊解碼器。該音訊編碼器經組配來使用(第一)多聲道解碼，基於第一降混信號及第二降混信號之聯合編碼表示型態來提供第一降混信號及第二降混信號。該音訊解碼器經組配來使用(第二)多聲道解碼，基於該第一降混信號來提供至少第一音訊聲道信號及第二音訊聲道信號，且使用(第三)多聲道解碼，基於該第二降混信號來提供至少第三音訊聲道信號及第四音訊聲道信號。該音訊解碼器經組配來基於該第一音訊聲道信號及該第三音訊聲道信號執行多聲道頻寬擴展，以獲得第一頻寬擴展的聲道信號及第三頻寬擴展的聲道信號。此外，該音訊解碼器經組配來基於該第二音訊聲道信號及該第四音訊聲道信號執行多聲道頻寬擴展，以獲得第二頻寬擴展的聲道信號及第四頻寬擴展的聲道信號。

根據本發明之此實施例係基於如下發現：若將在音訊解碼器之第二階段中基於不同降混信號獲得的音訊聲道信號使用於多聲道頻寬擴展中，則可在階層式音訊解碼器中獲得尤其良好的頻寬擴展結果，其中該等不同降混信號在音訊解碼器之第一階段中得自聯合編碼表示型態。已發現，若與音訊場景之知覺上尤其重要的位置相關聯的降混信號在階層式音訊解碼器之第一階段中經分離，同時對於聽覺印象並非如此重要的空間位置在階層式音訊解碼器之第二階段中經分離，則可獲得尤其良好的音訊品質。此外，已發現，與音訊場景之不同知覺上重要的位置(例如，音訊場景之位置，其中來自該等位置之信號之間的關係為知覺上重要的)相關聯的音訊聲道信號應在多聲道頻寬擴展中經聯合處理，因為多聲道頻寬擴展可因此考慮來自此等聽覺重要位置的信號之間的相依性及差異。此係藉由基於第一音訊聲道信號(其在階層式音訊解碼器之第二階段中得自第一降混信號)且基於第三音訊聲道信號(其在階層式音訊解碼器之第二階段中得自第二降混信號)來執行多聲道頻寬擴展，以獲得兩個頻寬擴展的聲道信號(亦即，第一頻寬擴展的聲道信號及第三頻寬擴展的聲道信號)來達成。因此，(聯合)多聲道頻寬擴展係基於在階層式多聲道解碼器之第二階段中得自不同降混信號的音訊聲道信號來執行，使得第一音訊聲道信號與第三音訊聲道信號之間的關係類似於(或由下者決定)第一降混信號與第二降混信號之間的關係。因而，多聲道頻寬擴展可使用此關係(例如，第一音訊聲道信號與第三音訊聲道信號之間的關係)，該關係大體上由使用多聲道解碼進行的自第一降混信號及第二降混信號之聯合編碼表示型態得出第一降混信號及第二降混信號來決定，此舉在音訊解碼器之第一階段中執行。因此，多聲道頻寬擴展可利用此關係，該關係可在階層式音訊解碼器之第一階段中以良好的準確度加以重現，使得達成尤其良好的聽覺印象。

在一較佳實施例中，該第一降混信號及該第二降混信號與音訊場景之不同水平位置(或方位角位置)相關聯。已發現，不同水平音訊位置(或方位角位置)之間的區別為尤其相關的，因為人類聽覺系統對於不同水平位置尤其敏感。因此，在階層式音訊解碼器之第一階段中在與音訊場景之不同水平位置相關聯的降混信號之間進行分離為有利的，因為階層式音訊解碼器之第一階段中的處理通常比後續階段中的處理更精確。此外，因此，在(第一)多聲道頻寬擴展中聯合使用的第一音訊聲道信號及第三音訊聲道信號與音訊場景之不同水平位置相關聯(因為在階層式音訊解碼器之第二階段中，第一音訊聲道信號得自第一降混信號，且第三音訊聲道信號得自第二降混信號)，從而允許(第一)多聲道頻寬擴展極其適於區分不同水平位置的人類能力。類似地，基於第二音訊聲道信號及第四音訊聲道信號執行的(第二)多聲道頻寬擴展對與音訊場景之不同水平位置相關聯的音訊聲道信號進行操作，使得(第二)多聲道頻寬擴展亦可極其適於與音訊場景之不同水平位置相關聯的音訊聲道信號之間的心理聲學重要的關係。因此，尤其良好的聽覺印象可得以達成。

在一較佳實施例中，該第一降混信號與音訊場景之左側相關聯，且該第二降混信號與該音訊場景之右側相關聯。因此，該第一音訊聲道信號通常亦與該音訊場景之左側相關聯，且該第三音訊聲道信號與該音訊場景之右側相關聯，使得該(第一)多聲道頻寬擴展對來自該音訊場景之不同側的音訊聲道信號進行操作(較佳地聯合操作)，且可因此極其適於人類左/右知覺。此亦適用於(第二)多聲道頻寬擴展，該(第二)多聲道頻寬擴展基於該第二音訊聲道信號及該第四音訊聲道信號操作。

在一較佳實施例中，該第一音訊聲道信號及該第二音訊聲道信號與音訊場景之垂直相鄰的位置相關聯。類似地，該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之垂直相鄰的位置相關聯。已發現，在該階層式音訊解碼器之第二階段中在與音訊場景之垂直相鄰的位置相關聯的音訊聲道信號之間進行分離為有利的。此外，已發現，音訊聲道信號通常不會藉由在與垂直相鄰的位置相關聯的音訊聲道信號之間進行分離而嚴重降級，使得至多聲道頻寬擴展的輸入信號仍極其適用於多聲道頻寬擴展(例如，立體聲頻寬擴展)。

在一較佳實施例中，該第一音訊聲道信號及該第三音訊聲道信號與音訊場景之第一共用水平面(或第一共用高度)但該音訊場景之不同水平位置(或方位角位置)相關聯，且該第二音訊聲道信號及該第四音訊聲道信號與音訊場景之第二共用水平面(或第二共用高度)但該音訊場景之不同水平位置(或方位角位置)相關聯。在此狀況下，該第一共用水平面(或高度)不同於該第二共用水平面(或高度)。已發現，多聲道頻寬擴展可基於與相同水平面(或高度)相關聯的兩個音訊聲道信號執行成具有尤其良好的品質結果。

在一較佳實施例中，該第一音訊聲道信號及該第二音訊聲道信號與該音訊場景之第一共用垂直面(或共用方位角位置)但該音訊場景之不同垂直位置(或高度)相關聯。類似地，該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之第二共用垂直面(或共用方位角位置)但該音訊場景之不同垂直位置(或高度)相關聯。在此狀況下，該第一共用垂直面(或方位角位置)較佳地不同於該第二共用垂直面(或方位角位置)。已發現，與共用垂直面(或方位角位置)相關聯的音訊聲道信號之分裂(或分離)可使用該階層式音訊解碼器之第二階段執行成具有良好結果，而與不同垂直面(或方位角位置)相關聯的音訊聲道信號之間的分離(或分裂)可使用該階層式音訊解碼器之第一階段執行成具有良好的品質結果。

在一較佳實施例中，該第一音訊聲道信號及該第二音訊聲道信號與音訊場景之左側相關聯，且該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之右側相關聯。此類組態考慮到尤其良好的多聲道頻寬擴展，該多聲道頻寬擴展使用與左側相關聯的音訊聲道信號與與右側相關聯的音訊聲道信號之間的關係，且因此極其適於區分來自左側的聲音與來自右側的聲音的人類能力。

在一較佳實施例中，該第一音訊聲道信號及該第三音訊聲道信號與該音訊場景之下部分相關聯，且該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之上部分相關聯。已發現，該等音訊聲道信號之此類空間配置帶來尤其良好的聽覺結果。

在一較佳實施例中，該音訊解碼器經組配來在使用多聲道解碼基於該第一降混信號及該第二降混信號之聯合編碼表示型態來提供該第一降混信號及該第二降混信號時執行水平分裂。已發現，在該階層式音訊解碼器之第一階段中執行水平分裂導致尤其良好的聽覺印象，因為在該階層式音訊解碼器之第一階段中執行的處理相較於在該階層式音訊解碼器之第二階段中執行的處理通常可執行成具有更高效能。此外，在該音訊解碼器之第一階段中執行水平分裂導致良好的聽覺印象，因為相較於音訊物件之垂直位置，人類聽覺系統對於音訊物件之水平位置更敏感。

在一較佳實施例中，該音訊解碼器經組配來在使用該多聲道解碼基於該第一降混信號來提供至少該第一音訊聲道信號及該第二音訊聲道信號時執行垂直分裂。類似地，該音訊解碼器較佳地經組配來在使用該多聲道解碼基於該第二降混信號來提供至少該第三音訊聲道信號及該第四音訊聲道信號時執行垂直分裂。已發現，在該階層式解碼器之第二階段中執行垂直分裂帶來良好的聽覺印象，因為人類聽覺系統對音訊源(或音訊物件)之垂直位置並非尤其敏感。

在一較佳實施例中，該音訊解碼器經組配來基於該第一音訊聲道信號及該第三音訊聲道信號執行立體聲頻寬擴展，以獲得該第一頻寬擴展的聲道信號及該第三頻寬擴展的聲道信號，其中該第一音訊聲道信號及該第三音訊聲道信號表示第一左/右聲道對。類似地，該音訊解碼器經組配來基於該第二音訊聲道信號及該第四音訊聲道信號執行立體聲頻寬擴展，以獲得該第二頻寬擴展的聲道信號及該第四頻寬擴展的聲道信號，其中該第二音訊聲道信號及該第四音訊聲道信號表示第二左/右聲道對。已發現，立體聲頻寬擴展導致尤其良好的聽覺印象，因為該立體聲頻寬擴展可考慮左立體聲聲道與右立體聲聲道之間的關係且取決於此關係而執行該頻寬擴展。

在一較佳實施例中，該音訊解碼器經組配來使用基於預測的多聲道解碼，基於該第一降混信號及該第二降混信號之聯合編碼表示型態來提供該第一降混信號及該第二降混信號。已發現，基於預測的多聲道解碼在該階層式音訊解碼器之第一階段中的使用帶來位元率與品質之間的良好折衷。已發現，預測之使用導致該第一降混信號與該第二降混信號之間的差異的良好重建，該重建對於音訊物件之左/右區別為重要的。

例如，音訊解碼器可組配來估計預測參數，該預測參數描述使用先前訊框之信號分量得出的信號分量對當前訊框之降混信號之提供的貢獻。因此，可基於包括於已編碼表示型態中的參數來調整使用先前訊框之信號分量得出的信號分量之貢獻強度。

例如，基於預測的多聲道解碼在MDCT域中為操作性的，使得該基於預測的多聲道解碼可極其適於且易於與音訊解碼階段介接，該音訊解碼階段將輸入信號提供至得出該第一降混信號及該第二降混信號的該多聲道解碼。較佳但並非必要地，該基於預測的多聲道解碼可為USAC複雜立體聲預測，該USAC複雜立體聲預測有助於音訊解碼器之實施。

在一較佳實施例中，該音訊解碼器經組配來使用殘餘信號輔助的多聲道解碼，基於該第一降混信號及該第二降混信號之聯合編碼表示型態來提供該第一降混信號及該第二降混信號。殘餘信號輔助的多聲道解碼之使用考慮到該第一降混信號及該第二降混信號之尤其精確的重建，此狀況又基於音訊聲道信號且因此基於頻寬擴展的聲道信號改良左右位置知覺。

在一較佳實施例中，該音訊解碼器經組配來使用基於參數的多聲道解碼，基於該第一降混信號來提供至少該第一音訊聲道信號及該第二音訊聲道信號。此外，該音訊解碼器經組配來使用基於參數的多聲道解碼，基於該第二降混信號來提供至少該第三音訊聲道信號及該第四音訊聲道信號。已發現，基於參數的多聲道解碼之使用極其適用於該階層式音訊解碼器之第二階段。已發現，基於參數的多聲道解碼帶來音訊品質與位元率之間的良好折衷。儘管基於參數的多聲道解碼之重建品質通常不及基於預測的(且可能為殘餘信號輔助)多聲道解碼之重建品質，但已發現，基於參數的多聲道解碼之使用通常為足夠的，因為人類聽覺系統對音訊物件之垂直位置(或高度)並非尤其敏感的，該垂直位置(或高度)較佳由該第一音訊聲道信號與該第二音訊聲道信號之間或該第三音訊聲道信號與該第四音訊聲道信號之間的分佈(或分離)決定。

在一較佳實施例中，該基於參數的多聲道解碼經組配來估計描述兩個聲道之間的所需相關性(或協變性)及/或兩個聲道之間的階差的一或多個參數，以便基於個別降混信號來提供兩個或兩個以上音訊聲道信號。已發現，描述例如兩個聲道之間的所需相關性及/或兩個聲道之間的階差的此等參數之使用極其適用於第一音訊聲道與第二音訊聲道之信號(該等信號通常與音訊場景之不同垂直位置相關聯)之間的分裂(或分離)，且極其適用於該第三音訊聲道信號與該第四音訊聲道信號(該等信號亦通常與不同垂直位置相關聯)之間的分裂(或分離)。

例如，該基於參數的多聲道解碼在QMF域中可為操作性的。因此，該基於參數的多聲道解碼可極其適於且易於與該多聲道頻寬擴展介接，該多聲道頻寬擴展較佳但並非必要地亦可在QMF域中操作。

例如，該基於參數的多聲道解碼可為MPEG環繞聲2-1-2解碼或統一立體聲解碼。此類編碼概念之使用可有助於實施，因為此等解碼概念可能已存在於舊有音訊解碼器中。

在一較佳實施例中，該音訊解碼器經組配來使用殘餘信號輔助的多聲道解碼，基於該第一降混信號來提供至少該第一音訊聲道信號及該第二音訊聲道信號。此外，該音訊解碼器可經組配來使用基於殘餘信號輔助的多聲道解碼，基於該第二降混信號來提供至少該第三音訊聲道信號及該第四音訊聲道信號。藉由使用殘餘信號輔助的多聲道解碼，甚至可改良音訊品質，因為該第一音訊聲道信號與該第二音訊信號之間的分離及/或該第三音訊聲道信號與該第四音訊聲道信號之間的分離可經執行成具有尤其高的品質。

在一較佳實施例中，該音訊解碼器可組配來使用多聲道解碼，基於第一殘餘信號及第二殘餘信號之聯合編碼表示型態來提供該第一殘餘信號及該第二殘餘信號，該第一殘餘信號用來提供至少該第一音訊聲道信號及該第二音訊聲道信號，該第二殘餘信號用來提供至少該第三音訊聲道信號及該第四音訊聲道信號。因此，用於階層式解碼之概念可擴展至提供兩個殘餘信號，該兩個殘餘信號之一者用以提供該第一音訊聲道信號及該第二音訊聲道信號(但該殘餘信號通常不用以提供該第三音訊聲道信號及該第四音訊聲道信號)，且該等兩個殘餘信號之另一者用以提供該第三音訊聲道信號及該第四音訊聲道信號(但較佳不用以提供該第一音訊聲道信號及該第二音訊聲道信號)。

在一較佳實施例中，該第一殘餘信號及該第二殘餘信號可與音訊場景之不同水平位置(或方位角位置)相關聯。因此，可在該階層式音訊解碼器之第一階段中執行的該第一殘餘信號及該第二殘餘信號之提供可執行水平分裂(或分離)，其中已發現，可在該階層式音訊解碼器之第一階段中執行尤其良好的水平分裂(或分離)(當相較於該階層式音訊解碼器之第二階段中執行的處理時)。因此，對於人類收聽者尤其重要的水平分離在該階層式音訊解碼之第一階段中執行，該水平分離提供尤其良好的重現，使得可達成良好的聽覺印象。

在一較佳實施例中，該第一殘餘信號與音訊場景之左側相關聯，且該第二殘餘信號與該音訊場景之右側相關聯，此狀況符合人類位置敏感性。

根據本發明之一實施例創造一種用以基於至少四音訊聲道信號來提供已編碼表示型態的音訊編碼器。該音訊編碼器經組配來基於第一音訊聲道信號及第三音訊聲道信號獲得共用頻寬擴展參數之第一集合。該音訊編碼器亦組配來基於第二音訊聲道信號及第四音訊聲道信號獲得共用頻寬擴展參數之第二集合。該音訊編碼器經組配來使用多聲道編碼來聯合編碼至少該第一音訊聲道信號及該第二音訊聲道信號，以獲得第一降混信號，且使用多聲道編碼來聯合編碼至少該第三音訊聲道信號及該第四音訊聲道信號，以獲得第二降混信號。此外，該音訊編碼器經組配來使用多聲道編碼來聯合編碼該第一降混信號及該第二降混信號，以獲得該等降混信號之已編碼表示型態。

此實施例係基於如下觀念：共用頻寬擴展參數之第一集合應基於由僅在該階層式音訊編碼器之第二階段中聯合編碼的不同降混信號表示的音訊聲道信號來獲得。與以上所述音訊解碼器並行，僅在該階層式音訊解碼之第二階段中組合的音訊聲道信號之間的關係可在音訊解碼器之側以尤其高的準確度重現。因此，已發現，僅在該階層式編碼器之第二階段中有效組合的兩個音訊信號極其適用於獲得共用頻寬擴展參數之集合，因為多聲道頻寬擴展可最佳地施加至音訊聲道信號，該等音訊聲道信號之間的關係可在音訊解碼器之側得以很好地重建。因此，已發現，就可達成的音訊品質而言，當相較於自在該階層式音訊編碼器之第一階段中組合的此類音訊聲道信號獲得共用頻寬擴展參數之集合時，較佳的是，自僅在該階層式音訊編碼器之第二階段中組合的此類音訊聲道信號得出共用頻寬擴展參數之集合。然而，亦已發現，最佳音訊品質可藉由在該等音訊聲道信號於該階層式音訊編碼器之第一階段中聯合編碼之前自該等音訊聲道信號得出共用頻寬擴展參數之集合來獲得。

在一較佳實施例中，該第一降混信號及該第二降混信號與音訊場景之不同水平位置(或方位角位置)相關聯。此概念係基於如下觀念：若與不同水平位置相關聯的信號僅在該階層式音訊編碼器之第二階段中經聯合編碼，則可達成最佳聽覺印象。

在一較佳實施例中，該第一降混信號與音訊場景之左側相關聯，且該第二降混信號與該音訊場景之右側相關聯。因而，與該音訊場景之不同側相關聯的此類多聲道信號用來提供共用頻寬擴展參數之集合。因此，共用頻寬擴展參數之集合極其適於區分不同側處的音訊源的人類能力。

在一較佳實施例中，該第一音訊聲道信號及該第二音訊聲道信號與音訊場景之垂直相鄰的位置相關聯。此外，該第三音訊聲道信號及該第四音訊聲道信號亦與該音訊場景之垂直相鄰的位置相關聯。已發現，若與音訊場景之垂直相鄰的位置相關聯的音訊聲道信號在該階層編碼器之第一階段中經聯合編碼，同時較佳地自不與垂直相鄰的位置相關聯(但與不同水平位置或不同方位角位置相關聯)的音訊聲道信號得出共用頻寬擴展參數之集合，則可獲得良好的聽覺印象。

在一較佳實施例中，該第一音訊聲道信號及該第三音訊聲道信號與音訊場景之第一共用水平面(或第一共用高度)但該音訊場景之不同水平位置(或方位角位置)相關聯，且該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之第二共用水平面(或第二共用高度)但該音訊場景之不同水平位置(或方位角位置)相關聯，其中該第一水平面不同於該第二水平面。已發現，可使用該等音訊聲道信號之此空間關聯來達成尤其良好的音訊編碼結果(且因此，音訊解碼結果)。

在一較佳實施例中，該第一音訊聲道信號及該第二音訊聲道信號與該音訊場景之第一垂直面(或第一方位角位置)但該音訊場景之不同垂直位置(或不同高度)相關聯。此外，該第三音訊聲道信號及該第四音訊聲道信號較佳地與該音訊場景之第二垂直面(或第二方位角位置)但該音訊場景之不同垂直位置(或不同高度)相關聯，其中該第一共用垂直面不同於該第二共用垂直面。已發現，該等音訊聲道信號之此空間關聯導致較好的音訊編碼品質。

在一較佳實施例中，該第一音訊聲道信號及該第二音訊聲道信號與該音訊場景之左側相關聯，且該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之右側相關聯。因此，可在解碼通常為位元率有效的同時達成良好的聽覺印象。

在一較佳實施例中，該第一音訊聲道信號及該第三音訊聲道信號與該音訊場景之下部分相關聯，且該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之上部分相關聯。此佈置亦有助於獲得具有良好聽覺印象的有效音訊編碼。

在一較佳實施例中，該音訊編碼器經組配來在使用多聲道編碼基於該第一降混信號及該第二降混信號提供該等降混信號之已編碼表示型態時執行水平組合。與關於音訊解碼器進行的以上說明並行，已發現，若在該音訊編碼器之第二階段中執行水平組合(當相較於該音訊編碼器之第一階段時)，則可獲得尤其良好的聽覺印象，因為音訊物件之水平位置對於收聽者具有尤其高的關聯性，且因為該階層式音訊編碼器之第二階段通常對應於以上所述階層式音訊解碼器之第一階段。

在一較佳實施例中，該音訊編碼器經組配來在使用多聲道解碼基於該第一音訊聲道信號及該第二音訊聲道信號提供該第一降混信號時執行垂直組合。此外，該音訊解碼器較佳地經組配來在基於該第三音訊聲道信號及該第四音訊聲道信號提供該第二降混信號時執行垂直組合。因此，在該音訊編碼器之第一階段中執行垂直組合。此為有利的，因為音訊物件之垂直位置對於人類收聽者通常不如該音訊物件之水平位置重要，使得由該階層式編碼(且因此，階層式解碼)引起的重現之降級可保持合理地小。

在一較佳實施例中，該音訊編碼器經組配來使用基於預測的多聲道編碼，基於該第一降混信號及該第二降混信號來提供該第一降混信號及該第二降混信號之聯合編碼表示型態。已發現，此類基於預測的多聲道編碼極其適用於在該階層式編碼器之第二階段中執行的聯合編碼。參考以上關於音訊解碼器的說明，該說明亦以並行方式應用於此狀況。

在一較佳實施例中，使用該基於預測的多聲道編碼來提供預測參數，該預測參數描述使用先前訊框之信號分量得出的信號分量對當前訊框之降混信號之提供的貢獻。因此，可在該音訊編碼器之此側達成良好的信號重建，該音訊編碼器可應用此預測參數，該預測參數描述使用先前訊框之信號分量得出的信號分量對當前訊框之降混信號之提供的貢獻。

在一較佳實施例中，該基於預測的多聲道編碼在 MDCT域中為操作性的。因此，該基於預測的多聲道編碼極其適於該基於預測的多聲道編碼之輸出信號(例如，共用降混信號)的最終編碼，其中此最終編碼通常在MDCT域中執行，以使區塊效應(blocking artifact)保持合理地小。

在一較佳實施例中，該基於預測的多聲道編碼為 USAC複雜立體聲預測編碼。USAC複雜立體聲預測編碼之使用有助於實施，因為現有硬體及/或程式碼可容易地重新使用來實施該階層式音訊編碼器。

在一較佳實施例中，該音訊編碼器經組配來使用殘餘信號輔助的多聲道編碼，基於該第一降混信號及該第二降混信號來提供該第一降混信號及該第二降混信號之聯合編碼表示型態。因此，可在音訊解碼器之側達成尤其良好的重現品質。

在一較佳實施例中，該音訊編碼器經組配來使用基於參數的多聲道編碼，基於該第一音訊聲道信號及該第二音訊聲道信號來提供該第一降混信號。此外，該音訊編碼器經組配來使用基於參數的多聲道編碼，基於該第三音訊聲道信號及該第四音訊聲道信號來驅動該第二降混信號。已發現，基於參數的多聲道編碼之使用在應用於該階層式音訊編碼器之第一階段中時提供了重現品質與位元率之間的良好折衷。

在一較佳實施例中，該基於參數的多聲道編碼經組配來提供描述兩個聲道之間的所需相關性及/或兩個聲道之間的階差的一或多個參數。因此，具有適度位元率的有效編碼在不使音訊品質顯著降級的情況下為可能的。

在一較佳實施例中，該基於參數的多聲道編碼在QMF域中為操作性的，此狀況極其適於可對音訊聲道信號執行的預處理。

在一較佳實施例中，該基於參數的多聲道編碼為 MPEG環繞聲2-1-2編碼或統一立體聲編碼。此類編碼概念之使用可顯著減少實施努力。

在一較佳實施例中，該音訊編碼器經組配來使用殘餘信號輔助的多聲道編碼，基於該第一音訊聲道信號及該第二音訊聲道信號來提供該第一降混信號。此外，該音訊編碼器可組配來使用殘餘信號輔助的多聲道編碼，基於該第三音訊聲道信號及該第四音訊聲道信號來提供該第二降混信號。因此，可能獲得甚至更佳的音訊品質。

在一較佳實施例中，該音訊編碼器經組配來使用多聲道編碼提供第一殘餘信號及第二殘餘信號之聯合編碼表示型態，該第一殘餘信號係在聯合編碼至少該第一音訊聲道信號及該第二音訊聲道信號時獲得，該第二殘餘信號係在聯合編碼至少該第三音訊聲道信號及該第四音訊聲道信號時獲得。已發現，該階層式編碼概念甚至可適用於在該階層式音訊編碼之第一階段中提供的殘餘信號。藉由使用該等殘餘信號之聯合編碼，可利用音訊聲道信號之間的相依性(或相關性)，因為此等相依性(或相關性)通常亦反映在該等殘餘信號中。

在一較佳實施例中，該第一殘餘信號及該第二殘餘信號與音訊場景之不同水平位置(或方位角位置)相關聯。因此，該等殘餘信號之間的相依性可在該階層式編碼之第二階段中以良好的精確度加以編碼。此考慮到不同水平位置(或方位角位置)之間的相依性(或相關性)在音訊解碼器之側在具有良好的聽覺印象的情況下的重現。

在一較佳實施例中，該第一殘餘信號與音訊場景之左側相關聯，且該第二殘餘信號與該音訊場景之右側相關聯。因此，與不同水平位置(或方位角位置)相關聯的該第一殘餘信號及該第二殘餘信號之聯合編碼在該音訊編碼器之第二階段中予以執行，此舉考慮到在該音訊解碼器之側的高品質重現。

根據本發明之一較佳實施例創造一種用以基於已編碼表示型態來提供至少四音訊聲道信號的方法。該方法包含：使用(第一)多聲道解碼，基於第一降混信號及第二降混信號之聯合編碼表示型態來提供第一降混信號及第二降混信號。該方法亦包含：使用(第二)多聲道解碼，基於該第一降混信號來提供至少第一音訊聲道信號及第二音訊聲道信號；以及使用(第三)多聲道解碼，基於該第二降混信號來提供至少第三音訊聲道信號及第四音訊聲道信號。該方法亦包含：基於該第一音訊聲道信號及該第三音訊聲道信號來執行(第一)多聲道頻寬擴展，以獲得第一頻寬擴展的聲道信號及第三頻寬擴展的聲道信號。該方法亦包含：基於該第二音訊聲道信號及該第四音訊聲道信號來執行(第二)多聲道頻寬擴展，以獲得第二頻寬擴展的聲道信號及第四頻寬擴展的聲道信號。此方法係基於與以上所述音訊解碼器相同的考慮。

根據本發明之一較佳實施例創造一種用以基於至少四音訊聲道信號來提供已編碼表示型態的方法。該方法包含：基於第一音訊聲道信號及第三音訊聲道信號獲得共用頻寬擴展參數之第一集合。該方法亦包含：基於第二音訊聲道信號及第四音訊聲道信號獲得共用頻寬擴展參數之第二集合。該方法進一步包含：使用多聲道編碼來聯合編碼至少該第一音訊聲道信號及該第二音訊聲道信號，以獲得第一降混信號；以及使用多聲道編碼來聯合編碼至少該第三音訊聲道信號及該第四音訊聲道信號，以獲得第二降混信號。該方法進一步包含：使用多聲道編碼來聯合編碼該第一降混信號及該第二降混信號，以獲得該等降混信號之已編碼表示型態。此方法係基於與以上所述音訊編碼器相同的考慮。

根據本發明之其他實施例創造用以執行本文提及之方法的電腦程式。

100‧‧‧音訊編碼器/音訊信號編碼器

110、410‧‧‧第一音訊聲道信號/音訊聲道信號

112、412‧‧‧第二音訊聲道信號/音訊聲道信號

114、414‧‧‧第三音訊聲道信號/音訊聲道信號

116、416‧‧‧第四音訊聲道信號/音訊聲道信號

120、212、532、632、1232、1342‧‧‧第一降混信號

122、214、534、634、1242、1344‧‧‧第二降混信號

130‧‧‧殘餘信號之聯合編碼表示形態

140‧‧‧殘餘信號輔助的多聲道編碼器/殘餘信號輔助的多聲道編碼

142、232、332‧‧‧第一殘餘信號/殘餘信號

150‧‧‧殘餘信號輔助的多道編碼器

152、234、334‧‧‧第二殘餘信號/殘餘信號

160‧‧‧多聲道編碼器

200‧‧‧音訊解碼器/音訊信號解碼器

210、682‧‧‧第一殘餘信號及第二殘餘信號之聯合編碼表示形態

220、320、542、642、1372‧‧‧第一音訊聲道信號

222、322、544、644、1374‧‧‧第二音訊聲道信號

224、324、556、656、1382‧‧‧第三音訊聲道信號

226、326、558、658、1384‧‧‧第四音訊聲道信號

230、330、370、630‧‧‧多聲道解碼器

240‧‧‧(第一)殘餘信號輔助的多聲道解碼器

250‧‧‧(第二)殘餘信號輔助的多聲道解碼器

300、500、1300‧‧‧音訊解碼器

310、1252、1262、1332、1352、2254、2264‧‧‧聯合編碼表示形態

312、452‧‧‧第一降混信號/降混信號

314、462‧‧‧第二降混信號/降混信號

340‧‧‧(第一)殘餘信號輔助的多聲道解碼/殘餘信號輔助的多聲道解碼器/多聲道解碼器

342‧‧‧參數

350‧‧‧(第二)殘餘信號輔助的多聲道解碼/殘餘信號輔助的多聲道解碼器

360‧‧‧第一降混信號及第二降混信號之聯合編碼表示形態/聯合編碼表示形態

400、1200‧‧‧音訊編碼器

420‧‧‧降混信號之聯合編碼表示形態

422‧‧‧第一集合

424‧‧‧第二集合

430‧‧‧第一頻寬擴展參數擷取器

440‧‧‧第二頻寬擴展參數擷取器

450‧‧‧(第一)多聲道編碼器

460‧‧‧(第二)多聲道編碼器

470‧‧‧(第三)多聲道編碼器

510、610‧‧‧第一降混信號及第二降混信號之聯合編碼表示形態

520、1320‧‧‧第一頻寬擴展的聲道信號

522、1322‧‧‧第二頻寬擴展的聲道信號

524、1324‧‧‧第三頻寬擴展的聲道信號

526、1326‧‧‧第四頻寬擴展的聲道信號

530‧‧‧(第一)多聲道解碼器/(第一)多聲道解碼

540‧‧‧(第二)多聲道解碼器

550‧‧‧(第三)多聲道解碼器

560、660‧‧‧(第一)多聲道頻寬擴展

570、670‧‧‧(第二)多聲道頻寬擴展

600‧‧‧音訊解碼器/階層式音訊解碼器

620‧‧‧第一頻寬擴展的信號/第一頻寬擴展的聲道信號

622‧‧‧第二頻寬擴展的信號/第二頻寬擴展的聲道信號

624‧‧‧第三頻寬擴展的信號/第三頻寬擴展的聲道信號

626‧‧‧第四頻寬擴展的信號/第四頻寬擴展的聲道信號

640、650、680‧‧‧多聲道解碼器/多聲道解碼

684、1234、1362‧‧‧第一殘餘信號

686、1244、1364‧‧‧第二殘餘信號

700、800、900、1000‧‧‧方法

710~730、810~830、910~950、1010~1050‧‧‧步驟

1100‧‧‧音訊編碼器/編碼器

1110‧‧‧左下聲道信號

1112‧‧‧左上聲道信號

1114‧‧‧右下聲道信號

1116‧‧‧右上聲道信號

1120‧‧‧第一多聲道音訊編碼器(或編碼)/MPEG環繞聲2-1-2或統一立體聲

1122‧‧‧左降混信號/降混信號

1124‧‧‧左殘餘信號/帶限殘餘信號或全頻帶殘餘信號

1130‧‧‧第二多聲道編碼器(或編碼)/第二多聲道音訊編碼器/MPEG環繞聲2-1-2或統一立體聲

1132‧‧‧右降混信號/降混信號

1134‧‧‧右殘餘信號/帶限殘餘信號或全頻帶殘餘信號

1140‧‧‧編碼器

1142‧‧‧心理聲學模型資訊/心理模型資訊

1144‧‧‧聲道對元件(CPE)「降混」

1210‧‧‧第一聲道信號

1212‧‧‧第二聲道信號

1214‧‧‧第三聲道信號

1216‧‧‧第四聲道信號

1220‧‧‧位元串流/第一聲道對元件位元串流

1222‧‧‧位元串流/第二聲道對元件位元串流

1230‧‧‧第一多聲道編碼器/多聲道編碼器/第一多聲道音訊編碼器

1236、1246、1336、1356‧‧‧MPEG環繞聲酬載

1240‧‧‧第二多聲道編碼器/多聲道編碼器/第二多聲道音訊編碼器

1250‧‧‧第一立體聲編碼/第一複雜預測立體聲編碼

1254、1264、1334、1354、2252、2262‧‧‧複雜預測酬載

1260‧‧‧第二立體聲編碼/複雜預測立體聲編碼/第二複雜預測立體聲編碼

1270‧‧‧心理聲學模型

1280‧‧‧第一編碼器及多工器/第一編碼及多工

1290‧‧‧第二編碼及多工

1310‧‧‧第一位元串流/位元串流

1312‧‧‧第二位元串流/位元串流

1330‧‧‧第一位元串流解碼

1338‧‧‧頻譜頻寬複製酬載

1340‧‧‧第一複雜預測立體聲解碼

1350‧‧‧第二位元串流解碼

1358‧‧‧頻譜頻寬複製位元負載

1360‧‧‧第二複雜預測立體聲解碼

1370‧‧‧第一MPEG環繞聲型多聲道解碼

1380‧‧‧第二MPEG環繞聲型多聲道解碼

1390‧‧‧第一立體聲頻譜頻寬複製

1394‧‧‧第二立體聲頻譜頻寬複製

1500‧‧‧3D音訊編碼器/編碼器/音訊編碼器

1510‧‧‧選擇性的預渲染器/混合器

1512、1516、1622‧‧‧聲道信號

1514、1518、1626‧‧‧物件信號

1520‧‧‧物件信號/物件

1530‧‧‧USAC編碼器/核心編解碼器

1532、1610‧‧‧已編碼表示形態/3D音訊位元串流

1540‧‧‧SAOC編碼器

1542、1628‧‧‧SAOC傳送聲道

1544‧‧‧SAOC旁資訊

1550‧‧‧物件元資料編碼器

1552‧‧‧物件元資料

1554‧‧‧編碼物件元資料/壓縮物件元資料cOAM

1600‧‧‧音訊解碼器/SAOC解碼器

1612‧‧‧多聲道揚聲器信號

1614‧‧‧耳機信號

1616、1712‧‧‧揚聲器信號

1620‧‧‧USAC解碼器/核心編解碼器

1624‧‧‧預渲染物件信號

1630‧‧‧SAOC旁資訊/參數資訊

1632‧‧‧壓縮物件元資料資訊/壓縮物件元資料cOAM

1640‧‧‧物件渲染器

1642、1662‧‧‧渲染物件信號

1644‧‧‧物件元資料資訊

1650‧‧‧物件元資料解碼器

1660‧‧‧SAOC解碼器

1670‧‧‧混合器

1672‧‧‧混合聲道信號

1680‧‧‧雙耳渲染/雙耳渲染器模組

1690‧‧‧格式轉換/揚聲器渲染器

1692、1734‧‧‧重現佈局資訊

1700‧‧‧格式轉換器

1710‧‧‧混合器輸出信號

1720‧‧‧降混處理

1730‧‧‧降混組配器

1732‧‧‧混合器輸出佈局資訊

2010‧‧‧USAC核心解碼器

2012‧‧‧降混信號

2020‧‧‧MPS(MPEG環繞聲)解碼器

2232‧‧‧第一MPS酬載/MPS酬載

2234‧‧‧左聲道MPEG環繞聲降混信號

2236‧‧‧左聲道MPEG環繞聲殘餘信號

2240‧‧‧第二MPEG環繞聲型(MPS 2-1-2或統一立體聲)多聲道編碼器

2242‧‧‧第一MPS酬載/MPS酬載

2244‧‧‧右聲道MPEG環繞聲降混信號

2246‧‧‧右聲道MPEG環繞聲殘餘信號

2250‧‧‧第一複雜預測立體聲編碼

2260‧‧‧第二複雜預測立體聲編碼

2270‧‧‧第一位元串流編碼

2280‧‧‧第二位元串流編碼

隨後將參考隨附諸圖來描述根據本發明之實施例，在該等圖中：圖1展示出根據本發明之一實施例的音訊編碼器的方塊示意圖；圖2展示出根據本發明之一實施例的音訊解碼器的方塊示意圖；圖3展示出根據本發明之另一實施例的音訊解碼器的方塊示意圖；圖4展示出根據本發明之一實施例的音訊編碼器的方塊示意圖；圖5展示出根據本發明之一實施例的音訊解碼器的方塊示意圖；圖6展示出根據本發明之另一實施例的音訊解碼器的方塊示意圖；圖7展示出根據本發明之一實施例的用於基於至少四音訊聲道信號來提供已編碼表示形態之方法的流程圖；圖8展示出根據本發明之一實施例的用於基於已編碼表示形態來提供至少四音訊聲道信號之方法的流程圖；圖9展示出根據本發明之一實施例的用於基於至少四音訊聲道信號來提供已編碼表示形態之方法的流程圖；以及圖10展示出根據本發明之一實施例的用於基於已編碼表示形態來提供至少四音訊聲道信號之方法的流程圖；圖11展示出根據本發明之一實施例的音訊編碼器的方塊示意圖；圖12展示出根據本發明之另一實施例的音訊編碼器的方塊示意圖；圖13展示根據本發明之一實施例的音訊解碼器的方塊示意圖；圖14a展示出位元串流的語法表示形態，該語法表示形態可與根據圖13之音訊編碼器一起使用；圖14b展示出參數qceIndex之不同的值的表格表示形態；圖15展示出可使用根據本發明之概念的3D音訊編碼器的方塊示意圖；圖16展示出可使用根據本發明之概念的3D音訊解碼器的方塊示意圖；以及圖17展示出格式轉換器的方塊示意圖。

圖18展示出根據本發明之一實施例的四聲道元件(QCE)之拓撲結構的圖解表示形態；圖19展示出根據本發明之一實施例的音訊解碼器的方塊示意圖；圖20展示出根據本發明之一實施例的QCE解碼器的詳細方塊示意圖；以及圖21展示出根據本發明之一實施例的四聲道編碼器的詳細方塊示意圖。

較佳實施例之詳細說明

1.根據圖1的音訊編碼器

圖1展示出音訊編碼器的方塊示意圖，該音訊編碼器全部以100指定。音訊編碼器100經組配來基於至少四音訊聲道信號提供已編碼表示形態。音訊編碼器100經組配來接收第一音訊聲道信號110、第二音訊聲道信號112、第三音訊聲道信號114及第四音訊聲道信號116。此外，音訊編碼器100經組配來提供第一降混信號120及第二降混信號122之已編碼表示形態，以及殘餘信號之聯合編碼表示形態130。音訊編碼器100包含殘餘信號輔助的多聲道編碼器 140，該殘餘信號輔助的多聲道編碼器經組配來使用殘餘信號輔助的多聲道編碼來聯合編碼第一音訊聲道信號110及第二音訊聲道信號112，以獲得第一降混信號120及第一殘餘信號142。音訊信號編碼器100亦包含殘餘信號輔助的多道編碼器150，該殘餘信號輔助的多道編碼器經組配來使用殘餘信號輔助的多聲道編碼聯合編碼至少第三音訊聲道信號114及第四音訊聲道信號116，以獲得第二降混信號122及第二殘餘信號152。音訊解碼器100亦包含多聲道編碼器160，該多聲道編碼器經組配來使用多聲道編碼聯合編碼第一殘餘信號142及第二殘餘信號152，以獲得殘餘信號142、152之聯合編碼表示形態130。

關於音訊編碼器100之功能性，應注意音訊編碼器100執行階層式編碼，其中使用殘餘信號輔助的多聲道編碼140聯合編碼第一音訊聲道信號110及第二音訊聲道信號112，其中提供第一降混信號120及第一殘餘信號142兩者。第一殘餘信號142可例如描述第一音訊聲道信號110與第二音訊聲道信號112之間的差異，且/或可描述無法由第一降混信號120及選擇性的參數表示之一些或任何信號特徵，該等選擇性的參數可由殘餘信號輔助的多聲道編碼器140提供。換言之，第一殘餘信號142可為考慮到可基於第一降混信號120及任何可能的參數獲得的解碼結果之精化的殘餘信號，該等任何可能的參數可由殘餘信號輔助的多聲道編碼器140提供。例如，在與僅高階信號特性(類似例如，相關性特性、協方差特性、階差特性，等等)的重建相比時，第一殘餘信號142可至少考慮到在音訊解碼器之側第一音訊聲道信號110及第二音訊聲道信號112之部分波形重建。類似地，殘餘信號輔助的多道編碼器150基於第三音訊聲道信號114及第四音訊聲道信號116提供第二降混信號122及第二殘餘信號152兩者，使得第二殘餘信號考慮到在音訊解碼器之側第三音訊聲道信號114及第四音訊聲道信號116之信號重建之精化。第二殘餘信號152可因此充當與第一殘餘信號142相同的功能性。然而，若音訊聲道信號110、112、114、116包含一些相關性，則第一殘餘信號142及第二殘餘信號152通常亦在某種程度上相關。因此，使用多聲道編碼器160進行的第一殘餘信號142及第二殘餘信號152之聯合編碼通常包含高效率，因為相關信號之多聲道編碼通常藉由利用相依性而減少位元率。因此，第一殘餘信號142及第二殘餘信號152可以良好的精確度編碼，同時保持殘餘信號之聯合編碼表示形態130之位元率合理地小。

簡而言之，根據圖1的實施例提供階層式多聲道編碼，其中可藉由使用殘餘信號輔助的多聲道編碼器140、150達成良好的重現品質，且其中位元率需求可藉由聯合編碼第一殘餘信號142及第二殘餘信號152保持適度。

音訊編碼器100之進一步選擇性改良為可能的。將參考圖4、圖11及圖12描述此等改良中之一些。然而，應注意，音訊編碼器100亦可調適成與本文所述音訊解碼器並行，其中音訊編碼器之功能性通常與音訊解碼器之功能性相反。

2.根據圖2的音訊解碼器

圖2展示出音訊解碼器的方塊示意圖，該音訊解碼器全部以200指定。

音訊解碼器200經組配來接收已編碼表示形態，該已編碼表示形態包含第一殘餘信號及第二殘餘信號之聯合編碼表示形態210。音訊解碼器200亦接收第一降混信號212及第二降混信號214之表示形態。音訊解碼器200經組配來提供第一音訊聲道信號220、第二音訊聲道信號222、第三音訊聲道信號224及第四音訊聲道信號226。

音訊解碼器200包含多聲道解碼器230，該多聲道解碼器經組配來基於第一殘餘信號232及第二殘餘信號234之聯合編碼表示形態210提供第一殘餘信號232及第二殘餘信號234。音訊解碼器200亦包含(第一)殘餘信號輔助的多聲道解碼器240，該殘餘信號輔助的多聲道解碼器經組配來使用多聲道解碼，基於第一降混信號212及第一殘餘信號232來提供第一音訊聲道信號220及第二音訊聲道信號222。音訊解碼器200亦包含(第二)殘餘信號輔助的多聲道解碼器250，該殘餘信號輔助的多聲道解碼器經組配來基於第二降混信號214及第二殘餘信號234提供第三音訊聲道信號224及第四音訊聲道信號226。

關於音訊解碼器200之功能性，應注意，音訊信號解碼器200基於(第一)共用殘餘信號輔助的多聲道解碼240來提供第一音訊聲道信號220及第二音訊聲道信號222，其中多聲道解碼之解碼品質由第一殘餘信號232提高 (在與非殘餘信號輔助的解碼相比時)。換言之，第一降混信號212提供關於第一音訊聲道信號220及第二音訊聲道信號222之「粗略」資訊，其中，例如，第一音訊聲道信號220與第二音訊聲道信號222之間的差異可由(選擇性的)參數且由第一殘餘信號232描述，該等(選擇性的)參數可由殘餘信號輔助的多聲道解碼器240接收。因此，第一殘餘信號232可例如考慮到第一音訊聲道信號220及第二音訊聲道信號222之部分波形重建。

類似地，(第二)殘餘信號輔助的多聲道解碼器250基於第二降混信號214提供第三音訊聲道信號224及第四音訊聲道信號226，其中第二降混信號214可例如「粗略地」描述第三音訊聲道信號224及第四音訊聲道信號226。此外，第三音訊聲道信號224與第四音訊聲道信號226之間的差異可例如由(選擇性的)參數且由第二殘餘信號234描述，該等(選擇性的)參數可由(第二)殘餘信號輔助的多聲道解碼器250接收。因此，第二殘餘信號234之估計可例如考慮到第三音訊聲道信號224及第四音訊聲道信號226之部分波形重建。因此，第二殘餘信號234可考慮到第三音訊聲道信號224及第四音訊聲道信號226之重建品質的增強。

然而，第一殘餘信號232及第二殘餘信號234得自第一殘餘信號及第二殘餘信號之聯合編碼表示形態210。由多聲道解碼器230執行的此多聲道解碼考慮到高解碼效率，因為第一音訊聲道信號220、第二音訊聲道信號222、第三音訊聲道信號224及第四音訊聲道信號226通常類似或「相關」。因此，第一殘餘信號232及第二殘餘信號234通常亦類似或「相關」，此狀況可藉由使用多聲道解碼自聯合編碼表示形態210得出第一殘餘信號232及第二殘餘信號234來利用。

因此，有可能藉由基於殘餘信號232、234之聯合編碼表示形態210解碼該等殘餘信號，且藉由將殘餘信號中每一個用於兩個或兩個以上音訊聲道信號之解碼來獲得具有適度位元率的高解碼品質。

總之，音訊解碼器200藉由提供高品質音訊聲道信號220、222、224、226來考慮到高編碼效率。

應注意，隨後將參考圖3、圖5、圖6及圖13來描述可選擇性地實施於音訊解碼器200中之額外特徵及功能性。然而，應注意，音訊編碼器200可在無任何額外修改的情況下包含以上提及之優點。

3.根據圖3的音訊解碼器

圖3展示出根據本發明之另一實施例的音訊解碼器的方塊示意圖。圖3的音訊解碼器全部以300指定。音訊解碼器300類似於根據圖2的音訊解碼器200，使得以上解釋亦適用。然而，音訊解碼器300在與音訊解碼器200相比時補充有額外特徵及功能性，如下文中將解釋。

音訊解碼器300經組配來接收第一殘餘信號及第二殘餘信號之聯合編碼表示形態310。此外，音訊解碼器300經組配來接收第一降混信號及第二降混信號之聯合編碼表示形態360。此外，音訊解碼器300經組配來提供第一音訊聲道信號320、第二音訊聲道信號322、第三音訊聲道信號324及第四音訊聲道信號326。音訊解碼器300包含多聲道解碼器330，該多聲道解碼器經組配來接收第一殘餘信號及第二殘餘信號之聯合編碼表示形態310，且基於該聯合編碼表示形態提供第一殘餘信號332及第二殘餘信號334。音訊解碼器300亦包含(第一)殘餘信號輔助的多聲道解碼340，該(第一)殘餘信號輔助的多聲道解碼接收第一殘餘信號332及第一降混信號312，且提供第一音訊聲道信號320及第二音訊聲道信號322。音訊解碼器300亦包含(第二)殘餘信號輔助的多聲道解碼350，該殘餘信號輔助的多聲道解碼經組配來接收第二殘餘信號334及第二降混信號314，且提供第三音訊聲道信號324及第四音訊聲道信號326。

音訊解碼器300亦包含另一多聲道解碼器370，該另一多聲道解碼器經組配來接收第一降混信號及第二降混信號之聯合編碼表示形態360，且基於該聯合編碼表示形態提供第一降混信號312及第二降混信號314。

在下文中，將描述音訊解碼器300之一些進一步特定細節。然而，應注意，實際的音訊解碼器無需實施所有此等額外特徵及功能性之組合。實情為，下文中所述之特徵及功能性可單獨地增添至音訊解碼器200(或任何其他音訊解碼器)，以逐步改良音訊解碼器200(或任何其他音訊解碼器)。

在一較佳實施例中，音訊解碼器300接收第一殘餘信號及第二殘餘信號之聯合編碼表示形態310，其中此聯合編碼表示形態310可包含第一殘餘信號332及第二殘餘信號334之降混信號，以及第一殘餘信號332及第二殘餘信號334之共用殘餘信號。另外，聯合編碼表示形態310可例如包含一或多個預測參數。因此，多聲道解碼器330可為基於預測的殘餘信號輔助的多聲道解碼器。例如，多聲道解碼器330可為如例如國際標準ISO/IEC 23003-3：2012之「複雜立體聲預測」部分中所述的USAC複雜立體聲預測。例如，多聲道解碼器330可經組配來估計預測參數，該預測參數描述使用先前訊框之信號分量得出的信號分量對當前訊框之第一殘餘信號332及第二殘餘信號334之提供的貢獻。此外，多聲道解碼器330可經組配來以第一符號施加共用殘餘信號(該共用殘餘信號包括在聯合編碼表示形態310中)，以獲得第一殘餘信號332，且以與第一符號相反的第二符號施加共用殘餘信號(該共用殘餘信號包括在聯合編碼表示形態310中)，以獲得第二殘餘信號334。因而，共用殘餘信號可至少部分描述第一殘餘信號332與第二殘餘信號334之間的差異。然而，多聲道解碼器330可估計全部包括在聯合編碼表示形態310中之降混信號、共用殘餘信號及一或多個預測參數，以獲得第一殘餘信號332及第二殘餘信號334，如以上引用的國際標準ISO/IEC 23003-3：2012中所述。此外，應注意，第一殘餘信號332可與第一水平位置(或方位角位置)(例如，左水平位置)相關聯，且第二殘餘信號334可與音訊場景之第二水平位置(或方位角位置)(例如右水平位置)相關聯。

第一降混信號及第二降混信號之聯合編碼表示形態360較佳地包含第一降混信號及第二降混信號之降混信號、第一降混信號及第二降混信號之共用殘餘信號及一或多個預測參數。換言之，存在第一降混信號312及第二降混信號314降混成的「共用」降混信號，且存在可至少部分描述第一降混信號312與第二降混信號314之間的差異的「共用」殘餘信號。多聲道解碼器370較佳地為基於預測的殘餘信號輔助的多聲道解碼器，例如，USAC複雜立體聲預測解碼器。換言之，提供第一降混信號312及第二降混信號314之多聲道解碼器370可實質上與提供第一殘餘信號332及第二殘餘信號334之多聲道解碼器330相同，使得以上解釋及參考文獻亦適用。此外，應注意，第一降混信號312較佳地與音訊場景之第一水平位置或方位角位置(例如，左水平位置或方位角位置)相關聯，且第二降混信號314較佳地與音訊場景之第二水平位置或方位角位置(例如，右水平位置或方位角位置)相關聯。因此，第一降混信號312及第一殘餘信號332可與相同的第一水平位置或方位角位置(例如，左水平位置)相關聯，且第二降混信號314及第二殘餘信號334可與相同的第二水平位置或方位角位置(例如，右水平位置)相關聯。因此，多聲道解碼器370及多聲道解碼器330兩者可執行水平分裂(或水平分離或水平分佈)。

殘餘信號輔助的多聲道解碼器340可較佳地為基於參數的，且可因此接收描述兩個聲道之間(例如，第一音訊聲道信號320與第二音訊聲道信號322之間)的所需相關性及/或該兩個聲道之間的階差之一或多個參數342。例如，殘餘信號輔助的多聲道解碼340可基於具有殘餘信號擴展之MPEG環繞聲編碼(如例如ISO/IEC 23003-1：2007中所述)，或「統一立體聲解碼」解碼器(如例如ISO/IEC 23003-3，第7.11章(解碼器)及附錄B.21(編碼器之描述及術語「統一立體聲」之定義)中所述)。因此，殘餘信號輔助的多聲道解碼器340可提供第一音訊聲道信號320及第二音訊聲道信號322，其中第一音訊聲道信號320及第二音訊聲道信號322與音訊場景之垂直相鄰的位置相關聯。例如，第一音訊聲道信號可與音訊場景之左下位置相關聯，且第二音訊聲道信號可與音訊場景之左上位置相關聯(使得第一音訊聲道信號320及第二音訊聲道信號322例如與音訊場景之相同的水平位置或方位角位置，或與相隔不超過30度的方位角位置相關聯)。換言之，殘餘信號輔助的多聲道解碼器340可執行垂直分裂(或分佈，或分離)。

殘餘信號輔助的多聲道解碼器350之功能性可與殘餘信號輔助的多聲道解碼器340之功能性相同，其中第三音訊聲道信號可例如與音訊場景之右下位置相關聯，且其中第四音訊聲道信號可例如與音訊場景之右上位置相關聯。換言之，第三音訊聲道信號及第四音訊聲道信號可與音訊場景之垂直相鄰的位置相關聯，且可與音訊場景之相同的水平位置或方位角位置相關聯，其中殘餘信號輔助的多聲道解碼器350執行垂直分裂(或分離，或分佈)。

總而言之，根據圖3的音訊解碼器300執行階層式音訊解碼，其中在第一階段(多聲道解碼器330、多聲道解碼器370)中執行左右分裂，且其中在第二階段(殘餘信號輔助的多聲道解碼器340、350)中執行上下分裂。此外，不僅殘餘信號332、334亦使用聯合編碼表示形態310予以編碼，而且降混信號312、314亦經編碼(聯合編碼表示形態360)。因而，不同聲道之間的相關性經利用於降混信號312、314之編碼(及解碼)及殘餘信號332、334之編碼(及解碼)兩者。因此，達成高編碼效率，且亦利用信號之間的相關性。

4.根據圖4的音訊編碼器

圖4展示出根據本發明之另一實施例的音訊編碼器的方塊示意圖。根據圖4的音訊編碼器全部以400指定。音訊編碼器400經組配來接收四個音訊聲道信號，亦即第一音訊聲道信號410、第二音訊聲道信號412、第三音訊聲道信號414及第四音訊聲道信號416。此外，音訊編碼器400經組配來基於音訊聲道信號410、412、414及416提供已編碼表示形態，其中該已編碼表示形態包含兩個降混信號之聯合編碼表示形態420，以及共用頻寬擴展參數之第一集合422及共用頻寬擴展參數之第二集合424之已編碼表示形態。音訊編碼器400包含第一頻寬擴展參數擷取器430，該第一頻寬擴展參數擷取器經組配來基於第一音訊聲道信號410及第三音訊聲道信號414獲得共用頻寬擷取參數之第一集合422。音訊編碼器400亦包含第二頻寬擴展參數擷取器440，該第二頻寬擴展參數擷取器經組配來基於第二音訊聲道信號412及第四音訊聲道信號416獲得共用頻寬擴展參數之第二集合424。

此外，音訊編碼器400包含(第一)多聲道編碼器 450，該(第一)多聲道編碼器經組配來使用多聲道編碼聯合編碼至少第一音訊聲道信號410及第二音訊聲道信號412，以獲得第一降混信號452。此外，音訊編碼器400亦包含(第二)多聲道編碼器460，該(第二)多聲道編碼器經組配來使用多聲道編碼聯合編碼至少第三音訊聲道信號414及第四音訊聲道信號416，以獲得第二降混信號462。此外，音訊編碼器400亦包含(第三)多聲道編碼器470，該(第三)多聲道編碼器經組配來使用多聲道編碼聯合編碼第一降混信號452及第二降混信號462，以獲得該等降混信號之聯合編碼表示形態420。

關於音訊編碼器400之功能性，應注意，音訊編碼器400執行階層式多聲道編碼，其中第一音訊聲道信號410及第二音訊聲道信號412在第一階段中組合，且其中第三音訊聲道信號414及第四音訊聲道信號416亦在第一階段中組合，以藉此獲得第一降混信號452及第二降混信號462。第一降混信號452及第二降混信號462然後在第二階段中經聯合編碼。然而，應注意，第一頻寬擴展參數擷取器430基於音訊聲道信號410、414提供共用頻寬擷取參數之第一集合422，該等音訊聲道信號在階層式多聲道編碼之第一階段中由不同的多聲道編碼器450、460處置。類似地，第二頻寬擴展參數擷取器440基於不同的音訊聲道信號412、416來提供共用頻寬擷取參數之第二集合424，該等不同的音訊聲道信號在第一處理階段中由不同的多聲道編碼器450、460處置。此特定的處理順序帶來該等組422、424頻寬擴展參數係基於僅在階層式編碼之第二階段中(亦即，在多聲道編碼器470中)組合之聲道的優點。此為有利的，因為在階層式編碼之第一階段中組合此類音訊聲道為合意的，該等音訊聲道之關係關於聲源位置知覺並非極其相關的。實情為，第一降混信號與第二降混信號之間的關係主要決定聲源位置知覺為值得推薦的，因為相較於個別音訊聲道信號410、412、414、416之間的關係，可更好地維持第一降混信號452與第二降混信號462之間的關係。不同而言，已發現合意的是，共用頻寬擴展參數之第一集合422係基於促成降混信號452、462之差異的兩個音訊聲道(音訊聲道信號)，且共用頻寬擴展參數之第二集合424係基於亦促成降混信號452、462之差異的音訊聲道信號412、416來提供，此舉由階層式多聲道編碼中之音訊聲道信號之以上所述處理達到。因此，當與第一降混信號452與第二降混信號462之間的聲道關係相比時，共用頻寬擴展參數之第一集合422係基於類似的聲道關係，其中該第一降混信號與第二降混信號之間的聲道關係通常控制在音訊解碼器之側產生的空間印象。因此，頻寬擴展參數之第一集合422的提供以及頻寬擴展參數之第二集合424的提供極其適於在音訊解碼器之側產生的空間聽覺印象。

5.根據圖5的音訊解碼器

圖5展示出根據本發明之另一實施例的音訊解碼器的方塊示意圖。根據圖5的音訊解碼器全部以500指定。

音訊解碼器500經組配來接收第一降混信號及第二降混信號之聯合編碼表示形態510。此外，音訊解碼器500經組配來提供第一頻寬擴展的聲道信號520、第二頻寬擴展的聲道信號522、第三頻寬擴展的聲道信號524及第四頻寬擴展的聲道信號526。

音訊解碼器500包含(第一)多聲道解碼器530，該 (第一)多聲道解碼器經組配來使用多聲道解碼，基於第一降混信號及第二降混信號之聯合編碼表示形態510來提供第一降混信號532及第二降混信號534。音訊解碼器500亦包含(第二)多聲道解碼器540，該(第二)多聲道解碼器經組配來使用多聲道解碼，基於第一降混信號532來提供至少第一音訊聲道信號542及第二音訊聲道信號544。音訊解碼器500亦包含(第三)多聲道解碼器550，該(第三)多聲道解碼器經組配來使用多聲道解碼，基於第二降混信號544來提供至少第三音訊聲道信號556及第四音訊聲道信號558。此外，音訊解碼器500包含(第一)多聲道頻寬擴展560，該(第一)多聲道頻寬擴展經組配來基於第一音訊聲道信號542及第三音訊聲道信號556執行多聲道頻寬擴展，以獲得第一頻寬擴展的聲道信號520及第三頻寬擴展的聲道信號524。此外，音訊解碼器包含(第二)多聲道頻寬擴展570，該(第二)多聲道頻寬擴展經組配來基於第二音訊聲道信號544及第四音訊聲道信號558執行多聲道頻寬擴展，以獲得第二頻寬擴展的聲道信號522及第四頻寬擴展的聲道信號526。

關於音訊解碼器500之功能性，應注意，音訊解碼器500執行階層式多聲道解碼，其中第一降混信號532與第二降混信號534之間的分裂在階層式解碼之第一階段中執行，且其中第一音訊聲道信號542及第二音訊聲道信號544在階層式解碼之第二階段中得自第一降混信號532，且其中第三音訊聲道信號556及第四音訊聲道信號558在階層式解碼之第二階段中得自第二降混信號550。然而，第一多聲道頻寬擴展560及第二多聲道頻寬擴展570兩者各自接收得自第一降混信號532之一個音訊聲道信號，及得自第二降混信號534之一個音訊聲道信號。因為較佳的聲道分離通常由(第一)多聲道解碼530達成，此舉執行為階層式多聲道解碼之第一階段，所以當與階層式解碼之第二階段相比時，可看出每一多聲道頻寬擴展560、570接收很好地分離的輸入信號(因為該等輸入信號源自很好地聲道分離的第一降混信號532及第二降混信號534)。因而，多聲道頻寬擴展560、570可考慮立體聲特性，該等立體聲特性對於聽覺印象為重要的，且該等立體聲特性由第一降混信號532與第二降混信號534之間的關係很好地表示，且該多聲道頻寬擴展可因此提供良好的聽覺印象。

換言之，多聲道頻寬擴展階段560、570中每一個自(第二階段)多聲道解碼器540、550兩者接收輸入信號的音訊解碼器之「交叉」結構考慮到良好的多聲道頻寬擴展，此舉考慮聲道之間的立體聲關係。

然而，應注意，音訊解碼器500可由本文關於根據圖2、圖3、根據6及圖13的音訊解碼器所述之特徵及功能性中之任一個補充，其中有可能將個別特徵引入音訊解碼器500中以逐步改良音訊解碼器之效能。

6.根據圖6的音訊解碼器

圖6展示出根據本發明之另一實施例的音訊解碼器的方塊示意圖。根據圖6的音訊解碼器全部以600指定。根據圖6的音訊解碼器600類似於根據圖5的音訊解碼器500，使得以上解釋亦適用。然而，音訊解碼器600已由亦可單獨地或以組合方式引入至音訊解碼器500中以用於改良的一些特徵及功能補充。

音訊解碼器600經組配來接收第一降混信號及第二降混信號之聯合編碼表示形態610，且提供第一頻寬擴展的信號620、第二頻寬擴展的信號622、第三頻寬擴展的信號624及第四頻寬擴展的信號626。音訊解碼器600包含多聲道解碼器630，該多聲道解碼器經組配來接收第一降混信號及第二降混信號之聯合編碼表示形態610，且基於該聯合編碼表示形態來提供第一降混信號632及第二降混信號634。音訊解碼器600進一步包含多聲道解碼器640，該多聲道解碼器經組配來接收第一降混信號632，且基於該第一降混信號來提供第一音訊聲道信號542及第二音訊聲道信號544。音訊解碼器600亦包含多聲道解碼器650，該多聲道解碼器經組配來接收第二降混信號634，且提供第三音訊聲道信號656及第四音訊聲道信號658。音訊解碼器600亦包含(第一)多聲道頻寬擴展660，該(第一)多聲道頻寬擴展經組配來接收第一音訊聲道信號642及第三音訊聲道信號656，且基於該第一音訊聲道信號及該第一音訊聲道信號來提供第一頻寬擴展的聲道信號620及第三頻寬擴展的聲道信號624。又，(第二)多聲道頻寬擴展670接收第二音訊聲道信號644及第四音訊聲道信號658，且基於該第二音訊聲道信號及該第四音訊聲道信號來提供第二頻寬擴展的聲道信號622及第四頻寬擴展的聲道信號626。

音訊解碼器600亦包含又一多聲道解碼器680，該又一多聲道解碼器經組配來接收第一殘餘信號及第二殘餘信號之聯合編碼表示形態682，且該又一多聲道解碼器基於該聯合編碼表示形態來提供用於由多聲道解碼器640使用的第一殘餘信號684及用於由多聲道解碼器650使用的第二殘餘信號686。

多聲道解碼器630較佳地為基於預測的殘餘信號輔助的多聲道解碼器。例如，多聲道解碼器630可實質上與以上所述多聲道解碼器370相同。例如，多聲道解碼器630可為USAC複雜立體聲預測解碼器，如以上所提及，且如以上引用之USAC標準中所述。因此，第一降混信號及第二降混信號之聯合編碼表示形態610可例如包含第一降混信號及第二降混信號之(共用)降混信號、第一降混信號及第二降混信號之(共用)殘餘信號，及一或多個預測參數，該一或多個預測參數由多聲道解碼器630估計。

此外，應注意，第一降混信號632可例如與音訊場景之第一水平位置或方位角位置(例如，左水平位置)相關聯，且第二降混信號634可例如與音訊場景之第二水平位置或方位角位置(例如，右水平位置)相關聯。

此外，多聲道解碼器680可例如為基於預測的殘餘信號相關聯的多聲道解碼器。多聲道解碼器680可實質上與以上所述多聲道解碼器330相同。例如，多聲道解碼器680可為USAC複雜立體聲預測解碼器，如以上所提及。因此，第一殘餘信號及第二殘餘信號之聯合編碼表示形態682可包含第一殘餘信號及第二殘餘信號之(共用)降混信號、第一殘餘信號及第二殘餘信號之(共用)殘餘信號，及一或多個預測參數，該一或多個預測參數由多聲道解碼器680估計。此外，應注意，第一殘餘信號684可與音訊場景之第一水平位置或方位角位置(例如，左水平位置)相關聯，且第二殘餘信號686可與音訊場景之第二水平位置或方位角位置(例如，右水平位置)相關聯。

多聲道解碼器640可例如為類似例如MPEG環繞聲多聲道解碼的基於參數的多聲道解碼，如以上所述且如引用的標準中所述。然而，在存在(選擇性的)多聲道解碼器680及(選擇性的)第一殘餘信號684的情況下，多聲道解碼器640可為類似例如統一立體聲解碼器的基於參數的殘餘信號輔助的多聲道解碼器。因而，多聲道解碼器640可實質上與以上所述多聲道解碼器340相同，且多聲道解碼器640可例如接收以上所述參數342。

類似地，多聲道解碼器650可實質上與多聲道解碼器640相同。因此，多聲道解碼器650可例如為基於參數的，且可選擇性地為殘餘信號輔助的(在存在選擇性的多聲道解碼器680的情況下)。

此外，應注意，第一音訊聲道信號642及第二音訊聲道信號644較佳地與音訊場景之垂直鄰接的空間位置相關聯。例如，第一音訊聲道信號642與音訊場景之左下位置相關聯，且第二音訊聲道信號644與音訊場景之左上位置相關聯。因此，多聲道解碼器640執行由第一降混信號632(且，選擇性地，由第一殘餘信號684)描述的音訊內容之垂直分裂(或分離，或分佈)。類似地，第三音訊聲道信號656及第四音訊聲道信號658與音訊場景之垂直鄰接的位置相關聯，且較佳地與音訊場景之相同水平位置或方位角位置相關聯。例如，第三音訊聲道信號656較佳地與音訊場景之右下位置相關聯，且第四音訊聲道信號658較佳地與音訊場景之右上位置相關聯。因而，多聲道解碼器650執行由第二降混信號634(且，選擇性地，由第二殘餘信號686)描述的音訊內容之垂直分裂(或分離，或分佈)。

然而，第一多聲道頻寬擴展660接收第一音訊聲道信號642及第三音訊聲道656，該第一音訊聲道信號及該第三音訊聲道與音訊場景之左下位置及右下位置相關聯。因此，第一多聲道頻寬擴展660基於與音訊場景之相同水平面(例如，下水平面)或高度及音訊場景之不同側(左/右)相關聯的兩個音訊聲道信號來執行多聲道頻寬擴展。因此，當執行頻寬擴展時，多聲道頻寬擴展可考慮立體聲特性(例如，人類立體聲知覺)。類似地，第二多聲道頻寬擴展670 亦可考慮立體聲特性，因為第二多聲道頻寬擴展對音訊場景之相同水平面(例如，上水平面)或高度但在不同水平位置(不同側)(左/右)處的音訊聲道信號操作。

總之，階層式音訊解碼器600包含一結構，其中左/右分裂(或分離，或分佈)於第一階段(多聲道解碼630、680)中執行，其中垂直分裂(分離或分佈)於第二階段(多聲道解碼640、650)中執行，且其中多聲道頻寬擴展對一對左/右信號操作(多聲道頻寬擴展660、670)。解碼路徑之此「交叉」允許可在階層式音訊解碼器之第一處理階段中執行對於聽覺印象尤其重要(例如，比上/下分裂更重要)的左/右分離，且亦可對一對左右音訊聲道信號執行多聲道頻寬擴展，此舉又導致尤其良好的聽覺印象。上/下分裂係作為左右分離與多聲道頻寬擴展之間的中間階段來執行，該中間階段允許得出四個音訊聲道信號(或頻寬擴展的聲道信號)而不顯著地降級聽覺印象。

7.根據圖7的方法

圖7展示出用於基於至少四音訊聲道信號來提供已編碼表示形態的方法700的流程圖。

方法700包含使用殘餘信號輔助的多聲道編碼來聯合編碼710至少第一音訊聲道信號及第二音訊聲道信號，以獲得第一降混信號及第一殘餘信號。方法亦包含使用殘餘信號輔助的多聲道編碼來聯合編碼720至少第三音訊聲道信號及第四音訊聲道信號，以獲得第二降混信號及第二殘餘信號。方法進一步包含使用多聲道編碼來聯合編碼730第一殘餘信號及第二殘餘信號，以獲得殘餘信號之已編碼表示形態。然而，應注意，方法700可由本文關於音訊編碼器及音訊解碼器所述之特徵及功能性中之任一個補充。

8.根據圖8的方法

圖8展示出用於基於已編碼表示形態來提供至少四音訊聲道信號的方法800的流程圖。

方法800包含使用多聲道解碼，基於第一殘餘信號及第二殘餘信號之聯合編碼表示形態來提供810第一殘餘信號及第二殘餘信號。方法800亦包含使用殘餘信號輔助的多聲道解碼，基於第一降混信號及第一殘餘信號來提供820第一音訊聲道信號及第二音訊聲道信號。方法亦包含使用殘餘信號輔助的多聲道解碼，基於第二降混信號及第二殘餘信號來提供830第三音訊聲道信號及第四音訊聲道信號。

此外，應注意，方法800可由本文關於音訊解碼器及音訊編碼器所述之特徵及功能性中之任一個補充。

9.根據圖9的方法

圖9展示出用於基於至少四音訊聲道信號來提供已編碼表示形態的方法900的流程圖。

方法900包含基於第一音訊聲道信號及第三音訊聲道信號來獲得910共用頻寬擴展參數之第一集合。方法900亦包含基於第二音訊聲道信號及第四音訊聲道信號來獲得920共用頻寬擴展參數之第二集合。方法亦包含使用多聲道編碼來聯合編碼至少第一音訊聲道信號及第二音訊聲道信號，以獲得第一降混信號，且使用多聲道編碼來聯合編碼940至少第三音訊聲道信號及第四音訊聲道信號，以獲得第二降混信號。方法亦包含使用多聲道編碼來聯合編碼950第一降混信號及第二降混信號，以獲得該等降混信號之已編碼表示形態。

應注意，不包含特定互相相依性的方法900之步驟中之一些可以任意順序或並行地執行。此外，應注意，方法900可由本文關於音訊編碼器及音訊解碼器所述之特徵及功能性中之任一個補充。

10.根據圖10的方法

圖10展示出用於基於已編碼表示形態來提供至少四音訊聲道信號的方法1000的流程圖。

方法1000包含：使用多聲道解碼，基於第一降混信號及第二降混信號之聯合編碼表示形態來提供1010第一降混信號及第二降混信號；使用多聲道解碼，基於第一降混信號來提供1020至少第一音訊聲道信號及第二音訊聲道信號；使用多聲道解碼，基於第二降混信號來提供1030至少第三音訊聲道信號及第四音訊聲道信號；基於第一音訊聲道信號及第三音訊聲道信號來執行1040多聲道頻寬擴展，以獲得第一頻寬擴展的聲道信號及第三頻寬擴展的聲道信號；以及基於第二音訊聲道信號及第四音訊聲道信號來執行1050多聲道頻寬擴展，以獲得第二頻寬擴展的聲道信號及第四頻寬擴展的聲道信號。

應注意，方法1000之步驟中之一些可並行地或以不同的順序執行。此外，應注意，方法1000可由本文關於音訊編碼器及音訊解碼器所述之特徵及功能性中之任一個補充。

11.根據圖11、圖12及圖13的實施例

在下文中，將描述根據本發明之一些額外實施例及下層考慮。

圖11展示出根據本發明之一實施例的音訊編碼器1100的方塊示意圖。音訊編碼器1100經組配來接收左下聲道信號1110、左上聲道信號1112、右下聲道信號1114及右上聲道信號1116。

音訊編碼器1100包含第一多聲道音訊編碼器(或編碼)1120，該第一多聲道音訊編碼器(或編碼)為MPEG環繞聲2-1-2音訊編碼器(或編碼)或統一立體聲音訊編碼器(或編碼)，且該第一多聲道音訊編碼器(或編碼)接收左下聲道信號1110及左上聲道信號1112。第一多聲道音訊編碼器1120提供左降混信號1122及(選擇性地)左殘餘信號1124。此外，音訊編碼器1100包含第二多聲道編碼器(或編碼)1130，該第二多聲道編碼器(或編碼)為MPEG環繞聲2-1-2編碼器(或編碼)或統一立體聲編碼器(或編碼)，該該第二多聲道編碼器(或編碼)接收右下聲道信號1114及右上聲道信號1116。第二多聲道音訊編碼器1130提供右降混信號1132及(選擇性地)右殘餘信號1134。音訊編碼器1100亦包含立體聲編碼器(或編碼)1140，該立體聲編碼器(或編碼)接收左降混信號1122 及右降混信號1132。此外，為複雜預測立體聲編碼的第一立體聲編碼1140自心理聲學模型接收心理聲學模型資訊1142。例如，心理模型資訊1142可描述不同的頻帶或頻率子頻帶、心理聲學掩蔽效應等之心理聲學相關性。立體聲編碼1140提供聲道對元件(CPE)「降混」，該聲道對元件(CPE)「降混」以1144指定且該聲道對元件(CPE)「降混」以聯合編碼形式描述左降混信號1122及右降混信號1132。此外，音訊編碼器1100選擇性地包含第二立體聲編碼器(或編碼)1150，該第二立體聲編碼器(或編碼)經組配來接收選擇性的左殘餘信號1124及選擇性的右殘餘信號1134，以及心理聲學模型資訊1142。為複雜預測立體聲編碼的第二立體聲編碼1150經組配來提供聲道對元件(CPE)「殘餘」，該聲道對元件(CPE)「殘餘」以聯合編碼形式表示左殘餘信號1124及右殘餘信號1134。

編碼器1100(以及本文所述其他音訊編碼器)係基於藉由階層式地組合可利用的USAC立體聲工具來利用水平信號相依性及垂直信號相依性的觀念(亦即，在USAC編碼中可利用的編碼概念)。使用具有帶限殘餘信號或全頻帶殘餘信號(以1124及1134指定)之MPEG環繞聲2-1-2或統一立體聲(以1120及1130指定)來組合垂直相鄰的聲道對。每一垂直聲道對之輸出為降混信號1122、1132，且對於統一立體聲為殘餘信號1124、1134。為了滿足對雙耳無掩蔽的知覺要求，藉由使用MDCT域中之複雜預測(編碼器1140)來水平地組合且聯合編碼降混信號1122、1132兩者，此舉包括左右編碼及中側編碼之可能性。相同的方法可應用於水平組合的殘餘信號1124、1134。此概念在圖11中例示出。

參考圖11解釋的階層式結構可藉由賦能於兩個立體聲工具(例如，兩個USAC立體聲工具)及在兩者之間重新選擇聲道來達成。因而，無額外的預處理/後處理步驟為必要的，且用於工具的酬載之傳輸的位元串流語法保持不變(例如，在與USAC標準相比時大體上不變)。此觀念導致圖12中所示的編碼器結構。

圖12展示出根據本發明之一實施例的音訊編碼器1200的方塊示意圖。音訊編碼器1200經組配來接收第一聲道信號1210、第二聲道信號1212、第三聲道信號1214及第四聲道信號1216。音訊編碼器1200經組配來提供用於第一聲道對元件之位元串流1220及用於第二聲道對元件之位元串流1222。

音訊編碼器1200包含第一多聲道編碼器1230，該第一多聲道編碼器為MPEG環繞聲2-1-2編碼器或統一立體聲編碼器，且該第一多聲道編碼器接收第一聲道信號1210及第二聲道信號1212。此外，第一多聲道編碼器1230提供第一降混信號1232、MPEG環繞聲酬載1236及(選擇性地)第一殘餘信號1234。音訊編碼器1200亦包含第二多聲道編碼器1240，該第二多聲道編碼器為MPEG環繞聲2-1-2編碼器或統一立體聲編碼器，且該第二多聲道編碼器接收第三聲道信號1214及第四聲道信號1216。第二多聲道編碼器1240提供第一降混信號1242、MPEG環繞聲酬載1246及(選擇性地)第二殘餘信號1244。

音訊編碼器1200亦包含第一立體聲編碼1250，該第一立體聲編碼為複雜預測立體聲編碼。第一立體聲編碼1250接收第一降混信號1232及第二降混信號1242。第一立體聲編碼1250提供第一降混信號1232及第二降混信號1242之聯合編碼表示形態1252，其中聯合編碼表示形態1252可包含(第一降混信號1232及第二降混信號1242之)(共用)降混信號以及(第一降混信號1232及第二降混信號1242之)共用殘餘信號的表示形態。此外，(第一)複雜預測立體聲編碼1250提供複雜預測酬載1254，該複雜預測酬載通常包含一或多個複雜預測係數。此外，音訊編碼器1200亦包含第二立體聲編碼1260，該第二立體聲編碼為複雜預測立體聲編碼。第二立體聲編碼1260接收第一殘餘信號1234及第二殘餘信號1244(或零輸入值，若不存在由多聲道編碼器1230、1240提供的殘餘信號)。第二立體聲編碼1260提供第一殘餘信號1234及第二殘餘信號1244之聯合編碼表示形態1262，該聯合編碼表示形態可例如包含(第一殘餘信號1234及第二殘餘信號1244之)(共用)降混信號及(第一殘餘信號1234及第二殘餘信號1244之)共用殘餘信號。此外，複雜預測立體聲編碼1260提供複雜預測酬載1264，該複雜預測酬載通常包含一或多個預測係數。

此外，音訊編碼器1200包含心理聲學模型1270，該心理聲學模型提供控制第一複雜預測立體聲編碼1250及第二複雜預測立體聲編碼1260的資訊。例如，由心理聲學模型1270提供的資訊可描述哪些頻帶或頻格具有高心理聲學相關性且應以高精度編碼。然而，應注意，由心理聲學模型1270提供的資訊之使用為選擇性的。

此外，音訊編碼器1200包含第一編碼器及多工器 1280，該第一編碼器及多工器自第一複雜預測立體聲編碼1250接收聯合編碼表示形態1252，自第一複雜預測立體聲編碼1250接收複雜預測酬載1254且自第一多聲道音訊編碼器1230接收MPEG環繞聲酬載1236。此外，第一編碼及多工1280可自心理聲學模型1270接收資訊，該資訊描述例如哪個編碼精確度應該應用於哪些頻帶或頻率子頻帶，考慮心理聲學掩蔽效應等。因此，第一編碼及多工1280提供第一聲道對元件位元串流1220。

此外，音訊編碼器1200包含第二編碼及多工 1290，該第二編碼及多工經組配來接收由第二複雜預測立體聲編碼1260提供的聯合編碼表示形態1262、由第二複雜預測立體聲編碼1260提供的複雜預測酬載1264及由第二多聲道音訊編碼器1240提供的MPEG環繞聲酬載1246。此外，第二編碼及多工1290可自心理聲學模型1270接收資訊。因此，第二編碼及多工1290提供第二聲道對元件位元串流1222。

關於音訊編碼器1200之功能性，參考以上解釋，且亦參考關於根據圖2、圖3、圖5及圖6的音訊編碼器之解釋。

此外，應注意，此概念可擴展至將多個MPEG環繞聲頻格使用於水平相關的聲道、垂直相關的聲道或其他幾何相關的聲道之聯合編碼以及將降混信號及殘餘信號組合成複雜預測立體聲對，考慮其幾何學性質及知覺性質。此導致一般化的解碼器結構。

在下文中，將描述四聲道元件之實行方案。在三維音訊編碼系統中，使用用以形成四聲道元件(QCE)的四個聲道之階層式組合。QCE由兩個USAC聲道對元件(CPE)組成(或提供兩個USAC聲道對元件，或接收兩個USAC聲道對元件)。使用MPS 2-1-2或統一立體聲來組合垂直聲道對。在第一聲道對元件CPE中聯合密碼降混聲道。若應用殘餘編碼，則在第二聲道對元件CPE中聯合編碼殘餘信號，否則將第二CPE中之信號設定為零。兩個聲道對元件CPE將複雜預測用於聯合立體聲編碼，包括左右編碼及中側編碼之可能性。為保留信號之高頻率部分的知覺立體聲性質，在SBR之施加之前，藉由額外的重新選擇步驟將立體聲SBR(頻譜頻寬複製)施加於左上/右上聲道對與左下/右下通路對之間。

將參考圖13描述可能的解碼器結構，圖13展示出根據本發明之一實施例的音訊解碼器的方塊示意圖。音訊解碼器1300經組配來接收表示第一聲道對元件的第一位元串流1310及表示第二聲道對元件的第二位元串流1312。然而，第一位元串流1310及第二位元串流1312可包括在共用整體位元串流中。

音訊解碼器1300經組配來提供：第一頻寬擴展的聲道信號1320，其可例如表示音訊場景之左下位置；第二頻寬擴展的聲道信號1322，其可例如表示音訊場景之左上位置；第三頻寬擴展的聲道信號1324，其可例如與音訊場景之右下位置相關聯；以及第四頻寬擴展的聲道信號1326，其可例如與音訊場景之右上位置相關聯。

音訊解碼器1300包含第一位元串流解碼1330，該第一位元串流解碼經組配來接收用於第一聲道對元件之位元串流1310，且基於該位元串流來提供兩個降混信號之聯合編碼表示形態、複雜預測酬載1334、MPEG環繞聲酬載1336及頻譜頻寬複製酬載1338。音訊解碼器1300亦包含第一複雜預測立體聲解碼1340，該第一複雜預測立體聲解碼經組配來接收聯合編碼表示形態1332及複雜預測酬載1334，且基於該聯合編碼表示形態及該複雜預測酬載來提供第一降混信號1342及第二降混信號1344。類似地，音訊解碼器1300包含第二位元串流解碼1350，該第二位元串流解碼經組配來接收用於第二聲道元件之位元串流1312，且基於該位元串流來提供兩個殘餘信號之聯合編碼表示形態1352、複雜預測酬載1354、MPEG環繞聲酬載1356及頻譜頻寬複製位元負載1358。音訊解碼器亦包含第二複雜預測立體聲解碼1360，該第二複雜預測立體聲解碼基於聯合編碼表示形態1352及複雜預測酬載1354來提供第一殘餘信號1362及第二殘餘信號1364。

此外，音訊解碼器1300包含第一MPEG環繞聲型多聲道解碼1370，該第一MPEG環繞聲型多聲道解碼為 MPEG環繞聲2-1-2解碼或統一立體聲解碼。第一MPEG環繞聲型多聲道解碼1370接收第一降混信號1342、第一殘餘信號1362(選擇性的)及MPEG環繞聲酬載1336，且基於該第一降混信號、該第一殘餘信號及該MPEG環繞聲酬載來提供第一音訊聲道信號1372及第二音訊聲道信號1374。音訊解碼器1300亦包含第二MPEG環繞聲型多聲道解碼1380，該第二MPEG環繞聲型多聲道解碼為MPEG環繞聲2-1-2多聲道解碼或統一立體聲多聲道解碼。第二MPEG環繞聲型多聲道解碼1380接收第二降混信號1344及第二殘餘信號1364(選擇性的)，以及MPEG環繞聲酬載1356，且基於該第二降混信號、該第二殘餘信號及及MPEG環繞聲酬載來提供第三音訊聲道信號1382及第四音訊聲道信號1384。音訊解碼器1300亦包含第一立體聲頻譜頻寬複製1390，該第一立體聲頻譜頻寬複製經組配來接收第一音訊聲道信號1372及第三音訊聲道信號1382，以及頻譜頻寬複製酬載1338，且基於該第一音訊聲道信號、該第三音訊聲道信號及該頻譜頻寬複製酬載來提供第一頻寬擴展的聲道信號1320及第三頻寬擴展的聲道信號1324。此外，音訊解碼器包含第二立體聲頻譜頻寬複製1394，該第二立體聲頻譜頻寬複製經組配來接收第二音訊聲道信號1374及第四音訊聲道信號1384，以及頻譜頻寬複製酬載1358，且基於該第二音訊聲道信號、該第四音訊聲道信號及該頻譜頻寬複製酬載來提供第二頻寬擴展的聲道信號1322及第四頻寬擴展的聲道信號1326。

關於音訊解碼器1300之功能性，參考以上論述，且亦參考根據圖2、圖3、圖5及圖6的音訊解碼器之論述。

在下文中，將參考圖14a及圖14b來描述可用於本文所述音訊編碼/解碼的位元串流之實例。應注意，位元串流可例如為統一語音及音訊編碼(USAC)中使用的位元串流之擴展，該統一語音及音訊編碼(USAC)描述於以上提及的標準(ISO/IEC 23003-3：2012)中。例如，對於舊有聲道對元件(亦即，對於根據USAC標準的聲道對元件)可傳輸MPEG環繞聲酬載1236、1246、1336、1356及複雜預測酬載1254、1264、1334、1354。對於信號傳輸四聲道元件QCE之使用，USAC聲道對組態可擴展兩個位元，如圖14a中所示。換言之，以「qceIndex」指定的兩個位元可經增添至USAC位元串流元件「UsacChannelPairElementConfig()」。由位元「qceindex」表示的參數之意義可例如如圖14b之表格中所示地定義。

例如，形成QCE的兩個聲道對元件可作為連續元件傳輸，首先含有降混聲道及用於第一MPS框之MPS酬載的CPE，其次含有殘餘信號(或用於MPS 2-1-2編碼之零音訊信號)及用於第二MPS框之MPS酬載的CPE。

換言之，當與用於傳輸四聲道元件QCE之習知USAC位元串流相比時，僅存在小信號傳輸負擔。

然而，自然亦可使用不同的位元串流格式。

12.編碼/解碼環境

在下文中，將描述可應用根據本發明的概念的音訊編碼/解碼環境。

可使用根據本發明之概念的3D音訊編解碼器系統係基於用於聲道及物件信號之解碼的MPEG-D USAC編解碼器。為提高編碼大量物件之效率，已調適MPEG SAOC技術。三個類型的渲染器執行將物件渲染至聲道、將聲道渲染至耳機或將聲道渲染至不同揚聲器設置的任務。當明確地傳輸或使用SAOC參數化編碼物件信號時，對應的物件元資料資訊經壓縮且多工傳輸為3D音訊位元串流。

圖15展示出此音訊編碼器的方塊示意圖，且圖16 展示出此音訊解碼器的方塊示意圖。換言之，圖15及圖16展示出3D音訊系統的不同演算法方塊。

現參考圖15，圖15展示出3D音訊編碼器1500的方塊示意圖，將解釋一些細節。編碼器1500包含選擇性的預渲染器/混合器1510，該選擇性的預渲染器/混合器接收一或多個聲道信號1512及一或多個物件信號1514，且基於該一或多個聲道信號及該一或多個物件信號來提供一或多個聲道信號1516及一或多個物件信號1518、1520。音訊編碼器亦包含USAC編碼器1530及(選擇性地)SAOC編碼器1540。SAOC編碼器1540經組配來基於提供至SAOC編碼器的一或多個物件1520來提供一或多個SAOC傳送聲道1542及SAOC旁資訊1544。此外，USAC編碼器1530經組配來自預渲染器/混合器接收包含聲道及預渲染物件的聲道信號1516，自預渲染器/混合器接收一或多個物件信號1518且接收一或多個SAOC傳送聲道1542及SAOC旁資訊1544，且基於上述各者來提供已編碼表示形態1532。此外，音訊編碼器1500亦包含物件元資料編碼器1550，該物件元資料編碼器經組配來接收物件元資料1552(該物件元資料可由預渲染器/混合器1510估計)且編碼物件元資料以獲得編碼物件元資料1554。編碼元資料亦由USAC編碼器1530接收，且用來提供已編碼表示形態1532。

以下將描述關於音訊編碼器1500之個別組件的一些細節。

再參考圖16，將描述音訊解碼器1600。音訊解碼器1600經組配來接收已編碼表示形態1610，且基於該已編碼表示形態來提供多聲道揚聲器信號1612、耳機信號1614及/或以替代格式(例如，以5.1格式)的揚聲器信號1616。

音訊解碼器1600包含USAC解碼器1620，且基於已編碼表示形態1610來提供一或多個聲道信號1622、一或多個預渲染物件信號1624、一或多個物件信號1626、一或多個SAOC傳送聲道1628、SAOC旁資訊1630及壓縮物件元資料資訊1632。音訊解碼器1600亦包含物件渲染器1640，該物件渲染器經組配來基於物件信號1626及物件元資料資訊1644來提供一或多個渲染物件信號1642，其中物件元資料資訊1644係由物件元資料解碼器1650基於壓縮物件元資料資訊1632提供。音訊解碼器1600亦包含(選擇性地)SAOC解碼器1660，該SAOC解碼器經組配來接收SAOC傳送聲道1628及SAOC旁資訊1630，且基於該SAOC傳送聲道及該SAOC旁資訊來提供一或多個渲染物件信號1662。音訊解碼器1600亦包含混合器1670，該混合器經組配來接收聲道信號1622、預渲染物件信號1624、渲染物件信號1642及渲染物件信號1662，且基於上述各者來提供多個混合聲道信號1672，該等多個混合聲道信號可例如構成多聲道揚聲器信號1612。音訊解碼器1600可例如亦包含雙耳渲染1680，該雙耳渲染經組配來接收混合聲道信號1672且基於該等混合聲道信號來提供耳機信號1614。此外，音訊解碼器1600可包含格式轉換1690，該格式轉換經組配來接收混合聲道信號1672及重現佈局資訊1692，且基於該等混合聲道信號及該重現佈局資訊來為替代性揚聲器設置提供揚聲器信號1616。

在下文中，將描述關於音訊編碼器1500及音訊解碼器1600之組件的一些細節。

預渲染器/混合器

預渲染器/混合器1510可選擇性地用以在編碼之前將聲道加物件輸入場景轉換成聲道場景。在功能上，該預渲染器/混合器可與以下所述物件渲染器/混合器相同。物件之預渲染可例如確保在基本上獨立於同時有效的物件信號之數目的編碼器輸入處的確知信號熵。在物件之預渲染中，無需物件元資料傳輸。謹慎的物件信號經渲染至編碼器經組配來使用的聲道佈局。用於每一聲道之物件之權重係自相關聯的物件元資料(OAM)1552獲得。

USAC核心編解碼器

用於揚聲器聲道信號、謹慎的物件信號、物件降混信號及預渲染信號之核心編解碼器1530、1620係基於 MPEG-D USAC技術。該核心編解碼器藉由基於輸入的聲道及物件指配之幾何學資訊及語義資訊創建聲道及物件映射資訊來處置大量信號之編碼。此映射資訊描述輸入聲道及物件如何映射至USAC聲道元件(CPE、SCE、LFE)及對應的資訊如何傳輸至解碼器。如SAOC資料或物件元資料之所有額外酬載已通過擴展元件且已在編碼器速率控制中予以考慮。

物件之編碼可能以不同的方式，取決於對渲染器之速率/失真要求及交互性要求。以下物件編碼變體為可能的：

1. 預渲染物件：在編碼之前將物件信號預渲染且混合成22.2聲道信號。後續編碼鏈參見22.2聲道信號。

2. 謹慎的物件波形式：將物件作為單音波形式供應至編碼器。除聲道信號外，編碼器使用單聲道元件SCE來傳遞物件。解碼物件在接收器側經渲染且混合。壓縮物件元資料資訊沿側傳輸至接收器/渲染器。

3. 參數物件波形式：物件性質及其彼此的關係藉由SAOC參數描述。物件信號之降混以USAC編碼。參數資訊沿側傳輸。取決於物件之數目及整體資料速率而選擇降混聲道之數目。壓縮物件元資料資訊傳輸至SAOC渲染器。

SAOC

用於物件信號之SAOC編碼器1540及SAOC解碼器1660係基於MPEG SAOC技術。系統能夠基於較小數目之傳輸聲道及額外參數資料(物件階差OLD、互相物件相關性 IOC、降混增益DMG)來重建、修改且渲染許多音訊物件。額外參數資料顯示比單獨傳輸所有物件所需的顯著降低的資料速率，使得編碼極其有效。SAOC編碼器將如單音波形之物件/聲道信號作為輸入，且輸出參數資訊(該參數資訊經分封至3D音訊位元串流1532、1610中)及SAOC傳送聲道(該等SAOC傳送聲道使用單聲道元件予以編碼且經傳輸)。

SAOC解碼器1600自解碼SAOC傳送聲道1628及參數資訊1630重建物件/聲道信號，且基於重現佈局、解壓物件元資料資訊且選擇性地基於使用者互動資訊來產生輸出音訊場景。

物件元資料編解碼器

對於每一物件，指定物件在3D空間中之幾何位置及容積的相關聯元資料藉由物件性質在時間及空間上的量化有效地編碼。壓縮物件元資料cOAM 1554、1632作為旁資訊傳輸至接收器。

物件渲染器/混合器

物件渲染器利用壓縮物件元資料來根據給定重現格式產生物件波形。每一物件根據其元資料渲染至某些輸出聲道。此方塊之輸出起因於部分結果之和。若基於聲道的內容及謹慎的物件/參數物件經解碼，則基於聲道的波形及渲染物件波形在輸出所得波形之前(或在將該等所得波形饋送至如雙耳渲染器或揚聲器渲染器模組的後處理器模組之前)經混合。

雙耳渲染器

雙耳渲染器模組1680產生多聲道音訊材料之雙耳降混，使得每一輸入聲道皆由虛擬聲源表示。在QMF域中按訊框執行處理。雙耳化係基於量測的雙耳空間脈衝響應。

揚聲器渲染器/格式轉換

揚聲器渲染器1690在傳輸的聲道組態與所需重現格式之間轉換。該揚聲器渲染器因此在下文中被稱為「格式轉換器」。格式轉換器執行至較低數目的輸出聲道之轉換，亦即，該格式轉換器創建降混。系統自動產生用於輸入格式及輸出格式之給定組合的最佳化降混矩陣，且在降混處理中應用此等矩陣。格式轉換器考慮到標準揚聲器組態且考慮到具有非標準揚聲器位置的隨機組態。

圖17展示出格式轉換器的方塊示意圖。如可看出，格式轉換器1700接收混合器輸出信號1710，例如，混合聲道信號1672，且提供揚聲器信號1712，例如，揚聲器信號1616。格式轉換器包含QMF域中的降混處理1720及降混組配器1730，其中降混組配器基於混合器輸出佈局資訊1732及重現佈局資訊1734來提供用於降混處理1720的組態資訊。

此外，應注意，以上所述概念，例如音訊編碼器100、音訊解碼器200或300、音訊編碼器400、音訊解碼器500或600、方法700、800、900或1000、音訊編碼器1100或1200及音訊解碼器1300可使用於音訊編碼器1500內及/或音訊解碼器1600內。例如，先前提及的音訊編碼器/解碼器可用於與不同空間位置相關聯的聲道信號之編碼或解碼。

13.替代性實施例

在下文中，將描述一些額外實施例。

現參考圖18至圖21，將解釋根據本發明之額外實施例。

應注意，所謂的「四聲道元件」(QCE)可被視為音訊解碼器之工具，該音訊解碼器可用於例如解碼三維音訊內容。

換言之，四聲道元件(QCE)為用於水平分佈及垂直分佈聲道之更有效編碼的四個聲道之聯合編碼的方法。QCE由兩個連續CPE組成，且藉由階層式地組合水平方向上具有複雜立體聲預測工具之可能性且在垂直方向上具有基於MPEG環繞聲的立體聲工具之可能性的聯合立體聲工具來形成。此藉由賦能於兩個立體聲工具及在施加工具之間調換輸出聲道來達成。立體聲SBR在水平方向上執行來保留高頻率的左右關係。

圖18展示出QCE的拓撲結構。應注意，圖18之QCE極其類似於圖11之QCE，使得參考以上解釋。然而，應注意，在圖18之QCE中，在執行複雜立體聲預測時並非必須使用心理聲學模型(然而，此使用選擇性地為自然可能的)。此外，可看出，第一立體聲頻譜頻寬複製(立體聲SBR)係基於左下聲道及右下聲道來執行，且第二立體聲頻譜頻寬複製(立體聲SBR)係基於左上聲道及右上聲道來執行。

在下文中，將提供一些術語及定義，該等術語及定義可應用於一些實施例中。

資料元件qceIndex指示CPE之QCE模式。關於位元串流變數qceIndex之意義，參考圖14b。應注意，qceIndex描述UsacChannelPairElement()類型的兩個後續元件是否被當作四聲道元件(QCE)。在圖14b中給出不同的QCE模式。qceIndex對於形成一個QCE之兩個後續元件應相同。

在下文中，將定義一些幫助元件，該等幫助元件可使用於根據本發明之一些實施中：cplx_out_dmx_L[]複雜預測立體聲解碼之後的第一CPE之第一聲道

cplx_out_dmx_R[]複雜預測立體聲解碼之後的第一CPE之第二聲道

cplx_out_res_L[]複雜預測立體聲解碼之後的第二CPE(若qceIndex=1，則零)

cplx_out_res_R[]複雜預測立體聲解碼之後的第二CPE之第二聲道(若qceIndex=1，則零)

mps_out_L_1[]第一MPS框之第一輸出聲道

mps_out_L_2[]第一MPS框之第二輸出聲道

mps_out_R_1[]第二MPS框之第一輸出聲道

mps_out_R_2[]第二MPS框之第二輸出聲道

sbr_out_L_1[]第一立體聲SBR框之第一輸出聲道

sbr_out_R_1[]第一立體聲SBR框之第二輸出聲道

sbr_out_L_2[]第二立體聲SBR框之第一輸出聲道

sbr_out_R_2[]第二立體聲SBR框之第二輸出聲道

在下文中，將解釋在根據本發明之一實施例中執行的解碼處理。

UsacChannelPairElementConfig()中的語法元件(或位元串流元件，或資料元件)qceIndex指示CPE是否屬於QCE且是否使用殘餘編碼。在qceIndex不等於0的情況下，當前CPE與其後續元件一起形成QCE，該後續元件應為具有相同qceIndex的CPE。立體聲SBR始終用於QCE，因而語法項stereoConfigIndex應為3且bsStereoSbr應為1。

在qceIndex==1的情況下，僅用於MPEG環繞聲及SBR的酬載且無相關音訊信號資料含於第二CPE中，且語法元件bsResidualCoding設定為0。

第二CPE中殘餘信號的存在係由qceIndex==2指示。在此情況下，語法元件bsResidualCoding設定為1。

然而，亦可使用一些不同的且可能簡化的信號傳輸方案。

如ISO/IEC 23003-3第7.7小節中所述地執行具有複雜立體聲預測之可能性的聯合立體聲的解碼。第一CPE之所得輸出為MPS降混信號cplx_out_dmx_L[]及cplx_out_dmx_R[]。若使用殘餘編碼(亦即，qceIndex==2)，則第二CPE之輸出為MPS殘餘信號cplx_out_res_L[]、cplx_out_res_R[]，若無殘餘信號已傳輸(亦即，qceIndex==1)，則插入零信號。

在施加MPEG環繞聲解碼之前，調換第一元件(cplx_out_dmx_R[])之第二聲道及第二元件 (cplx_out_res_L[])之第一聲道。

如ISO/IEC 23003-3第7.11小節中所述地執行 MPEG環繞聲之解碼。若使用殘餘編碼，然而在一些實施例中與習知MPEG環繞聲解碼相比可修改解碼。如ISO/IEC 23003-3第7.11.2.7小節(圖23)中所定義的使用SBR的無殘餘MPEG環繞聲之解碼經修改，以使立體聲SBR亦用於bsResidualCoding==1，從而導致圖19中所示的解碼器示意圖。圖19展示出用於bsResidualCoding==0且bsStereoSbr==1的音訊編碼器的方塊示意圖。

如圖19中可看出，USAC核心解碼器2010將降混信號(DMX)2012提供至MPS(MPEG環繞聲)解碼器2020，該MPS(MPEG環繞聲)解碼器提供第一解碼音訊信號2022及第二解碼音訊信號2024。立體聲SBR解碼器2030接收第一解碼音訊信號2022及第二解碼音訊信號2024，且基於該第一解碼音訊信號及該第二解碼音訊信號來提供左頻寬擴展的音訊信號2032及右頻寬擴展的音訊信號2034。

在施加立體聲SBR之前，第一元件 (mps_out_L_2[])之第二聲道及第二元件(mps_out_R_1[])之第一聲道經調換以允許左右立體聲SBR。在立體聲SBR之施加之後，第一元件(sbr_out_R_1[])之第二輸出聲道及第二元件(sbr_out_L_2[])之第一聲道再次經調換，以復原輸入聲道順序。

在圖20中例示出QCE解碼器結構，圖20展示出 QCE解碼器示意圖。

應注意，圖20之方塊示意圖極其類似於圖13之方塊示意圖，使得亦參考以上解釋。此外，應注意，在圖20中已增添一些信號標示，其中參考本部分中的定義。此外，展示聲道的最終重新選擇，該最終重新選擇係在立體聲SBR之後執行。

圖21展示出根據本發明之一實施例的四聲道編碼器2200的方塊示意圖。換言之，在圖21中例示出可被視為核心編碼器工具的四聲道編碼器(四聲道元件)。

四聲道編碼器2200包含第一立體聲SBR 2210，該第一立體聲SBR接收第一左聲道輸入信號2212及第二左聲道輸入信號2214，且該第一立體聲SBR基於該第一左聲道輸入信號及該第二左聲道輸入信號來提供第一SBR酬載2215、第一左聲道SBR輸出信號2216及第一右聲道SBR輸出信號2218。此外，四聲道編碼器2200包含第二立體聲SBR，該第二立體聲SBR接收第二左聲道輸入信號2222及第二右聲道輸入信號2224，且該第二立體聲SBR基於該第二左聲道輸入信號及該第二右聲道輸入信號來提供第一SBR酬載2225、第一左聲道SBR輸出信號2226及第一右聲道SBR輸出信號2228。

四聲道編碼器2200包含第一MPEG環繞聲型 (MPS 2-1-2或統一立體聲)多聲道編碼器2230，該第一MPEG環繞聲型(MPS 2-1-2或統一立體聲)多聲道編碼器接收第一左聲道SBR輸出信號2216及第二左聲道SBR輸出信號2226，且該第一MPEG環繞聲型(MPS 2-1-2或統一立體聲) 多聲道編碼器基於該第一左聲道SBR輸出信號及該第二左聲道SBR輸出信號來提供第一MPS酬載2232、左聲道MPEG環繞聲降混信號2234及(選擇性地)左聲道MPEG環繞聲殘餘信號2236。四聲道編碼器2200亦包含第二MPEG環繞聲型(MPS 2-1-2或統一立體聲)多聲道編碼器2240，該第二MPEG環繞聲型(MPS 2-1-2或統一立體聲)多聲道編碼器接收第一右聲道SBR輸出信號2218及第二右聲道SBR輸出信號2228，且該第二MPEG環繞聲型(MPS 2-1-2或統一立體聲)多聲道編碼器基於該第一右聲道SBR輸出信號及該第二右聲道SBR輸出信號來提供第一MPS酬載2242、右聲道MPEG環繞聲降混信號2244及(選擇性地)右聲道MPEG環繞聲殘餘信號2246。

四聲道編碼器2200包含第一複雜預測立體聲編碼2250，該第一複雜預測立體聲編碼接收左聲道MPEG環繞聲降混信號2234及右聲道MPEG環繞聲降混信號2244，且該第一複雜預測立體聲編碼基於該左聲道MPEG環繞聲降混信號及該右聲道MPEG環繞聲降混信號來提供複雜預測酬載2252以及左聲道MPEG環繞聲降混信號2234及右聲道MPEG環繞聲降混信號2244之聯合編碼表示形態2254。四聲道編碼器2200包含第二複雜預測立體聲編碼2260，該第二複雜預測立體聲編碼接收左聲道MPEG環繞聲殘餘信號2236及右聲道MPEG環繞聲殘餘信號2246，該第二複雜預測立體聲編碼基於該左聲道MPEG環繞聲殘餘信號及該右聲道MPEG環繞聲殘餘信號來提供複雜預測酬載2262以及左聲道MPEG環繞聲降混信號2236及右聲道MPEG環繞聲降混信號2246之聯合編碼表示形態2264。

四聲道編碼器亦包含第一位元串流編碼2270，該第一位元串流編碼接收聯合編碼表示形態2254、複雜預測酬載2252、MPS酬載2232及SBR酬載2215，且基於以上各者來提供表示第一聲道對元件的位元串流部分。四聲道編碼器亦包含第二位元串流編碼2280，該第二位元串流編碼接收聯合編碼表示形態2264、複雜預測酬載2262、MPS酬載2242及SBR酬載2225，且基於以上各者來提供表示第一聲道對元件的位元串流部分。

14.實行方案替選方案

雖然在設備的上下文中已描述一些態樣，但是明顯地，此等態樣亦表示對應的方法之描述，其中方塊或裝置對應於方法步驟或方法步驟之特徵。類似地，在方法步驟之上下文中所述的態樣亦表示對應的設備之對應的方塊或項或特徵之描述。方法步驟中之一些或全部可由(使用)硬體設備來執行，該硬體設備如例如微處理器、可規劃電腦或電子電路。在一些實施例中，最重要的方法步驟中之某一或多個可由此設備來執行。

發明性編碼音訊信號可儲存在數位儲存媒體上，或可經由諸如無線傳輸媒體或有線傳輸媒體的傳輸媒體傳輸，該傳輸媒體諸如網際網路。

取決於某些實施要求，本發明之實施例可實施於硬體中或軟體中。實行方案可使用數位儲存媒體來執行，該數位儲存媒體例如軟碟片、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，該數位儲存媒體上儲存有電子可讀的控制信號，該等電子可讀的控制信號與可規劃電腦系統合作(或能夠與可規劃電腦系統合作)，使得執行個別方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明的一些實施例包含具有電子可讀的控制信號的資料載體，該等電子可讀的控制信號能夠與可規劃電腦系統合作，使得執行本文所述方法之一。

通常，本發明之實施例可實行為具有程式碼的電腦程式產品，當電腦程式產品在電腦上執行時，該程式碼為操作性的，以用於執行方法之一。程式碼可例如儲存在機器可讀載體上。

其他實施例包含用於執行本文所述方法之一的電腦程式，該電腦程式儲存在機器可讀載體上。

換言之，發明性方法之一實施例因此為電腦程式，該電腦程式具有電腦程式在電腦上執行時用於執行本文所述方法之一的程式碼。

發明性方法之另一實施例因此為資料載體(或數位儲存媒體，或電腦可讀媒體)，該資料載體包含記錄在該資料載體上的用於執行本文所述方法之一的電腦程式。資料載體、數位儲存媒體或記錄媒體通常為有形的且/或非暫時性的。

發明性方法之又一實施例因此為表示用於執行本文所述方法之一的電腦程式的資料串流或信號序列。資料串流或信號序列可例如經組配來經由資料通訊連接(例如經由網際網路)傳遞。

另一實施例包括處理構件，例如電腦或可規劃邏輯裝置，該處理構件經組配或經調適來執行本文所述方法之一。

另一實施例包含電腦，該電腦上安裝有用於執行本文所述方法之一的電腦程式。

根據本發明之又一實施例包含設備或系統，該設備或系統經組來將用於執行本文所述方法之一的電腦程式傳遞(例如，電子地或光學地)至接收器。接收器可例如為電腦、行動裝置、記憶體裝置等。設備或系統可例如包含用於將電腦程式傳遞至接收器的檔案伺服器。

在一些實施例中，可規劃邏輯裝置(例如場可規劃閘陣列)可用來執行本文所述方法之功能性中之一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作，以便執行本文所述方法之一。通常，方法較佳地由任何硬體設備執行。

以上所述實施例對於本發明之原理僅為例示性的。將理解，熟習此項技術者將顯而易見本文所述佈置及細節之修改及變化。因此，意圖為僅受即將出現的專利請求項之範疇且不受藉由本文實施例之描述及解釋呈現的特定細節限制。

15.結論

在下文中，將提供一些結論。

根據本發明之實施例係基於為說明垂直分佈的聲道與水平分佈的聲道之間的信號相依性，四個聲道可藉由階層式地組合聯合立體聲編碼工具來聯合編碼的考慮。例如，使用具有帶限殘餘編碼或全頻帶殘餘編碼之MPS 2-1-2及/或統一立體聲來組合垂直聲道對。為了滿足對雙耳無掩蔽的知覺要求，輸出降混例如藉由複雜預測在MDCT域中的使用來聯合編碼，此舉包括左右編碼及中側編碼之可能性。若殘餘信號存在，則使用相同方法來水平地組合該等殘餘信號。

此外，應注意，根據本發明之實施例克服先前技術之缺點中之一些或全部。根據本發明之實施例適於3D音訊情境，其中揚聲器聲道分佈在若干高度的層中，從而導致水平聲道對及垂直聲道對。已發現，如USAC中定義的僅兩個聲道之聯合編碼不足以考慮聲道之間的空間關係及知覺關係。然而，此問題由根據本發明之實施例克服。

此外，在額外預處理/後處理步驟中施加習知MPEG環繞聲，使得在無聯合立體聲編碼之可能性的情況下單獨傳輸殘餘信號，例如，以探索左基礎音殘餘信號與右基礎音殘餘信號之間的相依性。相反，根據本發明之實施例考慮到藉由利用此類相依性進行的有效編碼/解碼。

總之，根據本發明之實施例創造如本文所述用於編碼及解碼的設備、方法或電腦程式。

參考文獻：

[1] ISO/IEC 23003-3: 2012-資訊技術-MPEG音訊技術，第3部分：統一語音及音訊編碼；

[2] ISO/IEC 23003-1: 2007-資訊技術-MPEG音訊技術，第1部分：MPEG環繞聲

500‧‧‧音訊解碼器

510‧‧‧第一降混信號及第二降混信號之聯合編碼表示形態

520‧‧‧第一頻寬擴展的聲道信號

522‧‧‧第二頻寬擴展的聲道信號

524‧‧‧第三頻寬擴展的聲道信號

526‧‧‧第四頻寬擴展的聲道信號

530‧‧‧(第一)多聲道解碼器/(第一)多聲道解碼

532‧‧‧第一降混信號

534‧‧‧第二降混信號

540‧‧‧(第二)多聲道解碼器

542‧‧‧第一音訊聲道信號

544‧‧‧第二音訊聲道信號

550‧‧‧(第三)多聲道解碼器

556‧‧‧第三音訊聲道信號

558‧‧‧第四音訊聲道信號

560‧‧‧(第一)多聲道頻寬擴展

570‧‧‧(第二)多聲道頻寬擴展

Claims

一種音訊解碼器，其用以基於一已編碼表示型態來提供至少四頻寬擴展的聲道信號，其中該音訊解碼器經組配來使用一多聲道解碼，基於一第一降混信號及一第二降混信號之一聯合編碼表示型態來提供該第一降混信號及該第二降混信號；其中該音訊解碼器經組配來使用一多聲道解碼，基於該第一降混信號來提供至少一第一音訊聲道信號及一第二音訊聲道信號；其中該音訊解碼器經組配來使用一多聲道解碼，基於該第二降混信號來提供至少一第三音訊聲道信號及一第四音訊聲道信號；其中該音訊解碼器經組配來基於該第一音訊聲道信號及該第三音訊聲道信號執行一第一聯合多聲道頻寬擴展，以獲得一第一頻寬擴展的聲道信號及一第三頻寬擴展的聲道信號，其中該第一聯合多聲道頻寬擴展使用了該第一音訊聲道信號與該第三音訊聲道信號間之關係；且其中該音訊解碼器經組配來基於該第二音訊聲道信號及該第四音訊聲道信號執行一第二聯合多聲道頻寬擴展，以獲得一第二頻寬擴展的聲道信號及一第四頻寬擴展的聲道信號。
如請求項1之音訊解碼器，其中該第一降混信號及該第二降混信號與一音訊場景之不同水平位置或方位角位置相關聯。
如請求項1之音訊解碼器，其中該第一降混信號與一音訊場景之一左側相關聯，且其中該第二降混信號與該音訊場景之一右側相關聯。
如請求項1之音訊解碼器，其中該第一音訊聲道信號及該第二音訊聲道信號與一音訊場景之垂直相鄰的位置相關聯，且其中該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之垂直相鄰的位置相關聯。
如請求項1之音訊解碼器，其中該第一音訊聲道信號及該第三音訊聲道信號與一音訊場景之一第一共用水平面或一第一共用高度但該音訊場景之不同水平位置或方位角位置相關聯，其中該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之一第二共用水平面或一第二共用高度但該音訊場景之不同水平位置或方位角位置相關聯，其中該第一共用水平面或該第一共用高度不同於該第二共用水平面或該第二共用高度。
如請求項5之音訊解碼器，其中該第一音訊聲道信號及該第二音訊聲道信號與該音訊場景之一第一共用垂直面或一第一共用方位角位置但該音訊場景之不同垂直位置或高度相關聯，且其中該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之一第二共用垂直面或一第二共用方位角位置但該音訊場景之不同垂直位置或高度相關聯，其中該第一共用垂直面或第一方位角位置不同於該第二共用垂直面或第二方位角位置。
如請求項1之音訊解碼器，其中該第一音訊聲道信號及該第二音訊聲道信號與一音訊場景之一左側相關聯，且其中該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之一右側相關聯。
如請求項1之音訊解碼器，其中該第一音訊聲道信號及該第三音訊聲道信號與一音訊場景之一下部分相關聯，且其中該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之一上部分相關聯。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來在使用該多聲道解碼基於該第一降混信號及該第二降混信號之聯合編碼表示型態來提供該第一降混信號及該第二降混信號時執行一水平分裂。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來在使用該多聲道解碼基於該第一降混信號來提供至少該第一音訊聲道信號及該第二音訊聲道信號時執行一垂直分裂；且其中該音訊解碼器經組配來在使用該多聲道解碼基於該第二降混信號來提供至少該第三音訊聲道信號及該第四音訊聲道信號時執行一垂直分裂。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來基於該第一音訊聲道信號及該第三音訊聲道信號執行一立體聲頻寬擴展，以獲得該第一頻寬擴展的聲道信號及該第三頻寬擴展的聲道信號，其中該第一音訊聲道信號及該第三音訊聲道信號表示一第一左/右聲道對；且其中該音訊解碼器經組配來基於該第二音訊聲道信號及該第四音訊聲道信號執行一立體聲頻寬擴展，以獲得該第二頻寬擴展的聲道信號及該第四頻寬擴展的聲道信號，其中該第二音訊聲道信號及該第四音訊聲道信號表示一第二左/右聲道對。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來使用一基於預測的多聲道解碼，基於該第一降混信號及該第二降混信號之一聯合編碼表示型態來提供該第一降混信號及該第二降混信號。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來使用一殘餘信號輔助的多聲道解碼，基於該第一降混信號及該第二降混信號之一聯合編碼表示型態來提供該第一降混信號及該第二降混信號。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來使用一基於參數的多聲道解碼，基於該第一降混信號來提供至少該第一音訊聲道信號及該第二音訊聲道信號；其中該音訊解碼器經組配來使用一基於參數的多聲道解碼，基於該第二降混信號來提供至少該第三音訊聲道信號及該第四音訊聲道信號。
如請求項14之音訊解碼器，其中該基於參數的多聲道解碼經組配來估計描述兩個聲道之間的一所需相關性及/或兩個聲道之間的階差的一或多個參數，以便基於一個別降混信號來提供該兩個或兩個以上音訊聲道信號。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來使用一殘餘信號輔助的多聲道解碼，基於該第一降混信號來提供至少該第一音訊聲道信號及該第二音訊聲道信號；且其中該音訊解碼器經組配來使用一殘餘信號輔助的多聲道解碼，基於該第二降混信號來提供至少該第三音訊聲道信號及該第四音訊聲道信號。
如請求項1之音訊解碼器，其中該音訊解碼器經組配來使用一多聲道解碼，基於一第一殘餘信號及一第二殘餘信號之一聯合編碼表示型態來提供該第一殘餘信號及該第二殘餘信號，該第一殘餘信號用來提供至少該第一音訊聲道信號及該第二音訊聲道信號，該第二殘餘信號用來提供至少該第三音訊聲道信號及該第四音訊聲道信號。
如請求項17之音訊解碼器，其中該第一殘餘信號及該第二殘餘信號與一音訊場景之不同水平位置或方位角位置相關聯。
如請求項17之音訊解碼器，其中該第一殘餘信號與一音訊場景之一左側相關聯，且其中該第二殘餘信號與該音訊場景之一右側相關聯。
一種音訊編碼器，其用以基於至少四音訊聲道信號來提供一已編碼表示型態，其中該音訊編碼器經組配來基於一第一音訊聲道信號及一第三音訊聲道信號獲得共用頻寬擴展參數之一第一集合；其中該音訊編碼器經組配來基於一第二音訊聲道信號及一第四音訊聲道信號獲得共用頻寬擴展參數之一第二集合；其中該音訊編碼器經組配來使用一多聲道編碼來聯合編碼至少該第一音訊聲道信號及該第二音訊聲道信號，以獲得一第一降混信號；其中該音訊編碼器經組配來使用一多聲道編碼來聯合編碼至少該第三音訊聲道信號及該第四音訊聲道信號，以獲得一第二降混信號；且其中該音訊編碼器經組配來使用一多聲道編碼來聯合編碼該第一降混信號及該第二降混信號，以獲得該等降混信號之一已編碼表示型態。
如請求項20之音訊編碼器，其中該第一降混信號及該第二降混信號與一音訊場景之不同水平位置或方位角位置相關聯。
如請求項20之音訊編碼器，其中該第一降混信號與一音訊場景之一左側相關聯，且其中該第二降混信號與該音訊場景之一右側相關聯。
如請求項20之音訊編碼器，其中該第一音訊聲道信號及該第二音訊聲道信號與一音訊場景之垂直相鄰的位置相關聯，且其中該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之垂直相鄰的位置相關聯。
如請求項20之音訊編碼器，其中該第一音訊聲道信號及該第三音訊聲道信號與一音訊場景之一第一共用水平面或一第一高度但該音訊場景之不同水平位置或方位角位置相關聯，其中該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之一第二共用水平面或一第二高度但該音訊場景之不同水平位置或方位角位置相關聯，其中該第一共用水平面或該第一高度不同於該第二共用水平面或該第二高度。
如請求項24之音訊編碼器，其中該第一音訊聲道信號及該第二音訊聲道信號與該音訊場景之一第一共用垂直面或一第一方位角位置但該音訊場景之不同垂直位置或高度相關聯，且其中該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之一第二共用垂直面或一第二方位角位置但該音訊場景之不同垂直位置或高度相關聯，其中該第一共用垂直面或該第一方位角位置不同於該第二共用垂直面或該第二方位角位置。
如請求項20之音訊編碼器，其中該第一音訊聲道信號及該第二音訊聲道信號與一音訊場景之一左側相關聯，且其中該第三音訊聲道信號及該第四音訊聲道信號與該音訊場景之一右側相關聯。
如請求項20之音訊編碼器，其中該第一音訊聲道信號及該第三音訊聲道信號與一音訊場景之一下部分相關聯，且其中該第二音訊聲道信號及該第四音訊聲道信號與該音訊場景之一上部分相關聯。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來在使用該多聲道編碼基於該第一降混信號及該第二降混信號來提供該等降混信號之已編碼表示型態時執行一水平組合。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來在使用該多聲道編碼基於該第一音訊聲道信號及該第二音訊聲道信號來提供該第一降混信號時執行一垂直組合；且其中該音訊編碼器經組配來在使用該多聲道編碼基於該第三音訊聲道信號及該第四音訊聲道信號來提供該第二降混信號時執行一垂直組合。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來使用一基於預測的多聲道編碼，基於該第一降混信號及該第二降混信號來提供該第一降混信號及該第二降混信號之聯合編碼表示型態。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來使用一殘餘信號輔助的多聲道編碼，基於該第一降混信號及該第二降混信號來提供該第一降混信號及該第二降混信號之該聯合編碼表示型態。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來使用一基於參數的多聲道編碼，基於該第一音訊聲道信號及該第二音訊聲道信號來提供該第一降混信號；且其中該音訊編碼器經組配來使用一基於參數的多聲道編碼，基於該第三音訊聲道信號及該第四音訊聲道信號來提供該第二降混信號。
如請求項32之音訊編碼器，其中該基於參數的多聲道編碼經組配來提供描述兩個聲道之間的一所需相關性及/或兩個聲道之間的階差的一或多個參數。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來使用一殘餘信號輔助的多聲道編碼，基於該第一音訊聲道信號及該第二音訊聲道信號來提供該第一降混信號；且其中該音訊編碼器經組配來使用一殘餘信號輔助的多聲道編碼，基於該第三音訊聲道信號及該第四音訊聲道信號來提供該第二降混信號。
如請求項20之音訊編碼器，其中該音訊編碼器經組配來使用一多聲道編碼提供一第一殘餘信號及一第二殘餘信號之一聯合編碼表示型態，該第一殘餘信號係在聯合編碼至少該第一音訊聲道信號及該第二音訊聲道信號時獲得，該第二殘餘信號係在聯合編碼至少該第三音訊聲道信號及該第四音訊聲道信號時獲得。
如請求項35之音訊編碼器，其中該第一殘餘信號及該第二殘餘信號與一音訊場景之不同水平位置或方位角位置相關聯。
如請求項35之音訊編碼器，其中該第一殘餘信號與一音訊場景之一左側相關聯，且其中該第二殘餘信號與該音訊場景之一右側相關聯。
一種用以基於一已編碼表示型態來提供至少四音訊聲道信號的方法，其中該方法包含：使用一多聲道解碼，基於一第一降混信號及一第二降混信號之一聯合編碼表示型態來提供該第一降混信號及該第二降混信號；使用一多聲道解碼，基於該第一降混信號來提供至少一第一音訊聲道信號及一第二音訊聲道信號；使用一多聲道解碼，基於該第二降混信號來提供至少一第三音訊聲道信號及一第四音訊聲道信號；基於該第一音訊聲道信號及該第三音訊聲道信號來執行一多聲道頻寬擴展，以獲得一第一頻寬擴展的聲道信號及一第三頻寬擴展的聲道信號；以及基於該第二音訊聲道信號及該第四音訊聲道信號來執行一多聲道頻寬擴展，以獲得一第二頻寬擴展的聲道信號及一第四頻寬擴展的聲道信號。
一種用以基於至少四音訊聲道信號來提供一已編碼表示型態的方法，該方法包含：基於一第一音訊聲道信號及一第三音訊聲道信號獲得共用頻寬擴展參數之一第一集合；基於一第二音訊聲道信號及一第四音訊聲道信號獲得共用頻寬擴展參數之一第二集合；使用一多聲道編碼來聯合編碼至少該第一音訊聲道信號及該第二音訊聲道信號，以獲得一第一降混信號；使用一多聲道編碼來聯合編碼至少該第三音訊聲道信號及該第四音訊聲道信號，以獲得一第二降混信號；以及使用一多聲道編碼來聯合編碼該第一降混信號及該第二降混信號，以獲得該等降混信號之一已編碼表示型態。
一種電腦程式，當該電腦程式在一電腦上執行時，該電腦程式用以執行如請求項38或39之方法。