TWI395204B

TWI395204B - 一種使用下混合的音頻編碼的音頻解碼器、音頻物件編碼器、多音頻物件編碼方法、用於對多音頻物件信號進行解碼的方法，以及執行這些方法的具有程式碼的程式

Info

Publication number: TWI395204B
Application number: TW097140089A
Authority: TW
Inventors: Hellmuth Oliver; Hilpert Johannes; Terentiev Leonid; Falch Cornelia; Hoelzer Andreas; Herre Juergen
Original assignee: Fraunhofer Ges Forschung
Priority date: 2007-10-17
Filing date: 2008-10-17
Publication date: 2013-05-01
Also published as: KR20120004546A; KR101290394B1; CN101849257A; RU2452043C2; MX2010004220A; WO2009049896A1; CA2702986C; BRPI0816557B1; US8538766B2; JP5883561B2; EP2082396A1; CN101821799B; TW200926147A; CN101849257B; CA2702986A1; KR101244545B1; WO2009049896A8; WO2009049895A1; BRPI0816557A2; JP2011501823A

Description

一種使用下混合的音頻編碼的音頻解碼器、音頻物件編碼器、多音頻物件編碼方法、用於對多音頻物件信號進行解碼的方法，以及執行這些方法的具有程式碼的程式

本發明涉及使用信號下混合(down-mixing)的音頻編碼。

已經提出了許多音頻編碼演算法，以對一聲道(即單聲道)音頻信號的音頻資料進行有效的編碼和壓縮。利用心理聲學，可以對音頻採樣進行適當地縮放、量化或甚至將其設置為零，以從例如PCM編碼的音頻信號中去除不相關性。並執行冗餘刪除。

進一步地，利用了身歷聲音頻信號中的左和右聲道之間的相似性，以對身歷聲音頻信號進行有效的編碼/壓縮。

然而，即將來臨的應用對音頻編碼演算法提出了更多要求。例如，在電話會議、電腦遊戲、音樂表演等中，必須並行傳送部分或甚至完全不相關的若干音頻信號。為了使用於對這些音頻信號進行編碼的必要位元率保持足夠低，以與低位元率傳送應用相容，近來已經提出了將多個輸入音頻信號下混合為下混合信號(如身歷聲或甚至單聲道下混合信號)的音頻編解碼器。例如，MPEG環繞標準以該標準所規定的方式，將輸入聲道下混合為下混合信號。下混合是使用所謂的OTT^-1 和TTT^-1 盒(box)予以實現的，OTT^-1 和TTT^-1 盒分別將兩個信號下混合為一個信號和將三個信號下混合為兩個信號。為了對四個以上的信號進行下混合，使用這些盒的分級結構。除了單聲道下混合信號之外，每個OTT^-1 盒輸出兩個輸入聲道之間的聲道聲級差、以及表示兩個輸入聲道之間的相干或互相關的聲道間相干/互相關參數。在MPEG環繞資料流程中，這些參數與MPEG環繞編碼器的下混合信號一起輸出。類似地，每個TTT^-1 盒發送聲道預測係數，該聲道預測係數使得能夠從所產生的身歷聲下混合信號恢復3個輸入聲道。在MPEG環繞資料流程中，還將該聲道預測係數作為輔助資訊來傳送。MPEG環繞解碼器使用所傳送的輔助資訊對下混合信號進行上混合，並恢復輸入至MPEG環繞編碼器的原始聲道。

然而，不幸的是，MPEG環繞不能滿足許多應用所提出的全部要求。例如，MPEG環繞解碼器專門用於對MPEG環繞編碼器的下混合信號進行上混合，以將MPEG環繞編碼器的輸入聲道恢復原樣。換言之，MPEG環繞資料流程專門用於通過使用已用於編碼的揚聲器配置來進行重播。

然而，根據一些暗示，如果可以在解碼器側改變揚聲器配置將是十分有利的。

為了滿足後者的需要，目前已設計了空間音頻物件編碼(SAOC)標準。每個聲道被視為單獨的物件，並將所有物件下混合為下混合信號。然而，此外，各獨立物件也可以包括獨立聲源，如樂器或聲樂音帶。然而，與MPEG環繞解碼器不同，SAOC解碼器能夠自由地對下混合信號進行單獨的上混合，以將各獨立物件重放至任何揚聲器配置。為了使SAOC解碼器能夠恢復已被編碼為SAOC資料流程的各獨立對象，在SAOC位元流中，將物件聲級差，以及針對一起形成身歷聲(或多聲道)信號的物件的物件間互相關參數作為輔助資訊。此外，向SAOC解碼器/變碼器提供了啓示各獨立物件如何被下混合為下混合信號的資訊。因此，在解碼器側，可以恢復各獨立SAOC聲道，並利用由用戶控制的呈現資訊來將這些信號呈現至任何揚聲器配置。

然而，雖然SAOC編解碼器被設計用於單獨地處理音頻物件，但是一些應用的要求甚至更高。例如，卡拉OK應用要求背景音頻信號與前景音頻信號的完全分離。反之，在獨唱(solo)模式下，必須將前景物件與背景物件分離。然而，由於同等地對待各獨立音頻物件，因此不可能分別從下混合信號中完全去除背景物件或前景物件。

因此，本發明的目的是，提供一種使用音頻信號的下混合的音頻編解碼器，以更好地在例如卡拉OK/獨唱模式應用中分離各獨立物件。

這個目的是通過申請專利範圍第1項所述的音頻解碼器、申請專利範圍第18項所述的音頻編碼器、申請專利範圍第20項所述的解碼方法、申請專利範圍第21項所述的編碼方法、以及申請專利範圍第23項所述的多音頻物件信號來實現的。

參照附圖，更詳細地描述本申請的優選實施例。

在以下更具體地描述本發明的實施例之前，為了更容易理解以下更詳細地概述的具體實施例，先對SAOC編解碼器和SAOC位元流中傳送的SAOC參數加以介紹。

第一圖示出了SAOC編碼器10和SAOC解碼器12的總體配置。SAOC編碼器10接收N個物件(即音頻信號14₁ 至14_N )作為輸入。具體地，編碼器10包括下混合器16，下混合器16接收音頻信號14₁ 至14_N ，並將其下混合為下混合信號18。在第一圖中，將下混合信號示例性地示為身歷聲下混合信號。然而，單聲道下混合信號也是可能的。

將身歷聲下混合信號18的聲道表示為L0和R0，在單聲道下混合的情況下，聲道僅表示為L0。為了使SAOC解碼器12能夠恢復各獨立物件14₁ 至14_N ，下混合器16向SAOC解碼器12提供了包括SAOC參數的輔助資訊，該SAOC參數包括：物件聲級差(OLD)、物件間互相關參數(IOC)、下混合增益值(DMG)、和下混合聲道聲級差(DCLD)。包括SAOC參數以及下混合信號18的輔助資訊20形成了SAOC解碼器12所接收的SAOC輸出資料流程。

SAOC解碼器12包括上混合器22，上混合器22接收下混合信號18以及輔助資訊20，以恢復音頻信號14₁ 至14_N ，並將其呈現至任何用戶選擇的聲道集合24₁ 至24_M ，其中，輸入至SAOC解碼器12的呈現資訊26規定了呈現方式。

音頻信號14₁ 至14_N 可以在任何編碼域(例如時域或頻譜域)被輸入下混合器16。在音頻信號14₁ 至14_N 在時域被饋入下混合器16的情況下(如經PCM編碼)，下混合器16就使用濾波器組(如混合QMF組，即一組具有針對最低頻帶的奈奎斯特濾波器擴展，以提高其中的頻率解析度的複指數調製濾波器)，以特定濾波器組解析度將信號轉移至頻譜域，在頻域域中，在與不同頻譜部分相關的若干子帶中表示音頻信號。如果音頻信號14₁ 至14_N 已經是下混合器16所期望的表示形式，則下混合器16不必執行頻譜分解。

第二圖示出了剛剛提及的頻域中的音頻信號，可以看到，音頻信號被表示為多個子帶信號。子帶信號30₁ 至30_P 分別由小框32所表示的子帶值的序列構成。可以看到，子帶信號30₁ 至30_P 的子帶值32在時間上相互同步，使得對於各個連續的濾波器組時隙34，每個子帶30₁ 至30_P 包括正好一個子帶值32。如頻率軸36所示，子帶信號30₁ 至30_P 與不同的頻率區域相關聯，如時間軸38所示，濾波器組時隙34在時間上連續排列。

如上所述，下混合器16根據輸入音頻信號14₁ 至14_N 來計算SAOC參數。下混合器16以某一時間/頻率解析度執行該計算，所述時間/頻率解析度與由濾波器組時隙34和子帶分解所確定的原始時間/頻率解析度相比，可以降低某一特定量，該特定量是通過相應的語法元素bsFrameLength和bsFreqRes在輔助資訊20中以信號告知給解碼器側的。例如，若干由連續濾波器組時隙34構成的組可以形成幀40。換言之，可以將音頻信號劃分成例如在時間上重疊或在時間上緊鄰的幀。在這種情況下，bsFrameLength可以定義參數時隙41(即在SAOC幀40中用以計算SAOC參數(如OLD和IOC)的時間單元)的數目，bsFreqRes可以定義對其計算SAOC參數的處理頻帶的數目。通過這種方式，每個幀被劃分為第二圖中以虛線42進行示例的時間/頻率片(time/frequency tile)。

下混合器16根據以下公式來計算SAOC參數。具體地，下混合器16針對每個物件i計算物件聲級差：

其中，求和以及索引n和k分別遍曆所有濾波器組時隙34，以及屬於特定時間/頻率片42的所有濾波器組子帶30。因此，對音頻信號或物件i的所有子帶值x-_i 的能量進行求和，並將求和結果對所有物件或音頻信號中能量值最大的片進行歸一化。

此外，SAOC下混合器16能夠計算不同輸入物件14₁ 至14_N 對的對應時間/頻率片的相似性度量。儘管SAOC下混合器16可以計算所有輸入物件14₁ 至14_N 對之間的相似性度量，但是，下混合器16也可以抑制對相似性度量的信號告知，或限制對形成公共身歷聲聲道的左或右聲道的音頻物件14₁ 至14_N 的相似性度量的計算。不管怎樣，將該相似性度量稱為物件間互相關參數IOC_i,j 。按以下公式進行計算：

其中，索引n和k再次遍曆屬於特定時間/頻率片42的所有子帶值，i和j表示音頻物件14₁ 至14_N 的特定對。

下混合器16通過使用應用於每個物件14₁ 至14_N 的增益因數，對對象14₁ 至14_N 進行下混合。也就是說，對物件i應用增益因數D_i ，然後將所有這樣加權的物件14₁ 至14_N 求和，以獲得單聲道下混合信號。在第一圖進行示例的身歷聲下混合信號的情況下，對物件i應用增益因數D_1,i ，然後將所有這樣增益放大的物件求和，以獲得左下混合聲道L0，對物件i應用增益因數D_2,i ，然後將所有這樣增益放大的物件求和以獲得右下混合聲道R0。

通過下混合增益DMG-_i (在身歷聲下混合信號的情況下，通過下混合聲道聲級差DCLD_i )將該下混合規則以信號告知給解碼器側。

根據以下公式來計算下混合增益：

DMG _i =20log₁₀ (D _i +ε)，(單聲道下混合)，

，(身歷聲下混合)，

其中ε是很小的數，如10^-9 。

對於DCLD_s 適用以下公式：

在正常模式下，下混合器16根據以下對應公式來產生下混合信號

對於單聲道下混合：

或對於身歷聲下混合：

因此，在上述公式中，參數OLD和IOC是音頻信號的函數，參數DMG和DCLD是D的函數。順帶一提的是，注意D可以隨時間變化。

因此，在正常模式下，下混合器16無側重地對所有物件14₁ 至14_N 進行混合，即均等地對待所有物件14₁ 至14_N- 。

上混合器22執行下混合器過程的逆過程，並在一計算步驟，即

中實現由矩陣A所表示的“呈現資訊”，其中矩陣E是參數OLD和IOC的函數。

換言之，在正常模式下，不將物件14₁ 至14_N 分類為BGO(即背景對象)或FGO(即前景物件)。由呈現矩陣A來提供關於應在上混合器22的輸出表示哪個物件的資訊。例如，如果具有索引1的物件是身歷聲背景物件的左聲道，具有索引2的物件是其右聲道，具有索引3的物件是前景物件，則呈現矩陣A可以是：

以產生卡拉OK類型的輸出信號。

然而，如上所述，通過使用SAOC編解碼器的這種正常模式來傳送BGO和FGO無法實現令人滿意的結果。

第三圖和第四圖描述了本發明的實施例，該實施例克服了剛剛描述的不足。這些圖中所描述的解碼器和編碼器及其相關功能可以表示第一圖的SAOC編解碼器可切換至的附加模式，如“增強模式”。以下將介紹後一可能性的示例。

第三圖示出了解碼器50。解碼器50包括用於計算預測係數的裝置52和用於對下混合信號進行上混合的裝置54。

第三圖的音頻解碼器50專門用於對多音頻物件信號進行解碼，所述多音頻物件信號中編碼有第一類型音頻信號和第二類型音頻信號。第一類型音頻信號和第二類型音頻信號可以分別是單聲道或身歷聲音頻信號。例如，第一類型音頻信號是背景物件而第二類型音頻信號是前景物件。也就是說，第三圖和第四圖的實施例未必局限於卡拉OK/獨唱模式應用。相反，第三圖的解碼器和第四圖的編碼器可以有利地用於別處。

多音頻物件信號由下混合信號56和輔助資訊58組成。輔助資訊58包括聲級資訊60，例如用於以第一預定時間/頻率解析度(例如時間/頻率解析度42)來描述第一類型音頻信號和第二類型音頻信號的頻譜能量。具體地，聲級資訊60可以包括：針對每物件和時間/頻率片的歸一化頻譜能量標量值。該歸一化可以與在相應時間/頻率片中第一和第二類型音頻信號中的最高頻譜能量值相關。後一可能性產生了用於表示聲級資訊的OLD，這裏也稱為聲級差資訊。雖然以下的實施例使用OLD，但是，儘管這裏沒有明確說明，但實施例可以使用其他歸一化的頻譜能量表示。

輔助資訊58也包括殘差信號62，殘差信號62以第二預定時間/頻率解析度指定了殘差聲級值，該第二預定時間/頻率解析度可以等於或不同於第一預定時間/頻率解析度。

用於計算預測係數的裝置52被配置為，基於聲級資訊60來計算預測係數。此外，裝置52還可以基於還包含於輔助資訊58中的互相關資訊來計算預測係數。甚至，裝置52還可以使用輔助資訊58中包括的時變下混合規則資訊來計算預測係數。裝置52所計算的預測係數對於根據下混合聲道56恢復或上混合原始音頻物件或音頻信號是必要的。

相應地，用於上混合的裝置54被配置為，基於從裝置52接收的預測係數64和殘差信號62來對下混合信號56進行上混合。通過使用殘差62，解碼器50能夠更好地抑制從一種類型的音頻信號到另一種類型的音頻信號的串擾(cross talk)。除了殘差信號62之外，裝置54可以使用時變下混合規則來對下混合信號進行上混合。此外，用於上混合的裝置54可以使用用戶輸入66，以決定在輸出68端實際輸出由下混合信號56恢復的音頻信號中的哪一個或以何種程度輸出。作為第一極端情況，用戶輸入66可以指示裝置54僅輸出與第一類型音頻信號近似的第一上混合信號。根據第二極端情況，相反地，裝置54僅輸出與第二類型音頻信號近似的第二上混合信號。折衷情況也是可能的，根據折衷情況，在輸出68呈現兩種上混合信號的混合。

第四圖示出了適於產生由第三圖的解碼器解碼的多音頻物件信號的音頻編碼器的實施例。第四圖的編碼器由參考標記80指示，該編碼器可以包括用於在要編碼的音頻信號84不在頻譜域中的情況下進行頻譜分解的裝置82。在音頻信號84中，依次存在至少一個第一類型音頻信號和至少一個第二類型音頻信號。用於頻譜分解的裝置82被配置為，在頻譜上將每個這些信號84分解為例如如第二圖所示的表示。也就是說，用於頻譜分解的裝置82以預定時間/音頻解析度對音頻信號84進行頻譜分解。裝置82可以包括濾波器組，如混合QMF組。

音頻編碼器80還包括：用於計算聲級資訊的裝置86、用於下混合的裝置88、用於計算預測係數的裝置90、以及用於設置殘差信號的裝置92。此外，音頻編碼器80可以包括用於計算互相關資訊的裝置，即裝置94。裝置86根據由裝置82可選地輸出的音頻信號，計算以第一預定時間/頻率解析度描述第一類型音頻信號和第二類型音頻信號的聲級的聲級資訊。類似地，裝置88對音頻信號進行下混合。因此，裝置88輸出下混合信號56。裝置86也輸出聲級資訊60。用於計算預測係數的裝置90的操作與裝置52類似。即裝置90根據聲級資訊60來計算預測係數，並將預測係數64輸出至裝置92。裝置92接著基於下混合信號56、預測係數64、和第二預定時間/頻率解析度下的原始音頻信號來設置殘差信號62，使得基於預測係數64和殘差信號62對下混合信號56進行的上混合產生與第一類型音頻信號近似的第一上混合音頻信號和與第二類型音頻信號近似的第二上混合音頻信號，所述近似與不使用所述殘差信號62的情況相比有所改進。

輔助資訊58包括殘差信號62和聲級資訊60，輔助資訊58與下混合信號56一起形成了第三圖解碼器所要解碼的多音頻物件信號。

如第四圖所示，與第三圖的描述類似，裝置90可以另外使用裝置94輸出的互相關資訊和/或裝置88輸出的時變下混合規則來計算預測係數64。此外，用於設置殘差信號62的裝置92可以另外地使用裝置88輸出的時變下混合規則來適當地設置殘差信號62。

還應注意，第一類型音頻信號可以是單聲道或身歷聲音頻信號。對於第二類似的音頻信號也是如此。在輔助資訊中，可以以與用於計算例如聲級資訊的參數時間/頻率解析度相同的時間/頻率解析度，或可以使用不同的時間/頻率解析度，來以信號告知殘差信號62。此外，可以將殘差信號的信號告知限於以信號告知了其聲級資訊的時間/頻率片42所占的頻譜範圍的子部分。例如，可以在輔助資訊58中，使用語法元素bsResidualBands和bsResidualFramesPerSAOCFrame來指示以信號告知殘差信號所使用的時間/頻率解析度。這兩個語法元素可以定義與形成片42的子劃分不同的另一個將幀劃分為時間/頻率片的子劃分。

順帶一提的是，注意，殘差信號62可以也可以不反映由潛在使用的核心編碼器96所導致的資訊損失，音頻編碼器80可選地使用該核心編碼器96來對下混合信號56進行編碼。如第四圖所示，裝置92可以基於可由核心編碼器96的輸出或由輸入至核心編碼器96’的版本進行重構的下混合信號版本來執行殘差信號62的設置。類似地，音頻解碼器50可以包括核心解碼器98，以對下混合信號56進行解碼或解壓縮。

在多音頻物件信號中，將用於殘差信號62的時間/頻率解析度設置為與用於計算聲級資訊60的時間/頻率解析度不同的時間/頻率解析度的能力使得能夠實現音頻品質和多音頻物件信號的壓縮比之間的良好折衷。無論如何，殘差信號62使得能夠更好地根據用戶輸入66抑制要在輸出68輸出的第一和第二上混合信號中一音頻信號到另一音頻信號的串擾。

根據以下實施例，顯而易見，在對多於一個前景物件或第二類型音頻信號進行編碼的情況下，可以在輔助資訊中傳送兩個以上的殘差信號62。輔助資訊可以允許單獨決定是否針對特定的第二類型音頻信號傳送殘差信號62。因此，殘差信號62的數目可以從一變化，最多為第二類型音頻信號的數目。

在第三圖的音頻解碼器中，用於計算的裝置54可以被配置為，基於聲級資訊(OLD)來計算由預測係數組成的預測係數矩陣C，裝置56可以被配置為，根據可由以下公式表示的計算，根據下混合信號d產生第一上混合信號S₁ 和/或第二上混合信號S₂ ：

其中，根據d的聲道數目，“1”表示標量或單位矩陣，D^-1 是由下混合規則唯一確定的矩陣，第一類型音頻信號和第二類型音頻信號是根據該下混合規則被下混合為下混合信號的，輔助資訊中也包括了該下混合規則，H是獨立於d但依賴於殘差信號的項。

如以上所述以及以下要進一步描述的那樣，在輔助資訊中，下混合規則可以隨時間變化和/或可在頻譜上變化。如果第一類型音頻信號是具有第一(L)和第二輸入聲道(R)的身歷聲音頻信號，則聲級資訊可以例如以時間/頻率解析度42分別描述了第一輸入聲道(L)、第二輸入聲道(R)、以及第二類型音頻信號的歸一化頻譜能量。

上述計算(用於上混合的裝置56根據該計算來進行上混合)甚至可表示為：

其中是與L近似的第一上混合信號的第一聲道，是與R近似的第一上混合信號的第二聲道，“1”在d為單聲道的情況下是標量，在d為身歷聲的情況下是2×2單位矩陣。如果下混合信號56是具有第一(L0)和第二輸出聲道(R0)的身歷聲音頻信號，用於上混合的裝置56可以根據可由以下公式表示的計算來進行上混合：

就依賴於殘差信號res的項H而言，用於上混合的裝置56可以根據可由以下公式表示的計算來進行上混合：

多音頻物件信號甚至可以包括多個第二類型音頻信號，對每個第二類型音頻信號，輔助資訊可以包括一個殘差信號。在輔助資訊中可以存在殘差解析度參數，該參數定義了頻譜範圍，輔助資訊中在該頻譜範圍上傳送殘差信號。它甚至可以定義頻譜範圍的下限和上限。

此外，多音頻物件信號也可以包括空間呈現資訊，用於在空間上將第一類型音頻信號呈現至預定揚聲器配置。換言之，第一類型音頻信號可以是被下混合至身歷聲的多聲道(多於兩個聲道)MPEG環繞信號。

以下，將描述的實施例利用了上述殘差信號信號通知。然而，注意術語“物件”通常用於雙重意義。有時，物件表示單獨的單聲道音頻信號。因此，身歷聲物件可以具有形成身歷聲信號的一個聲道的單聲道音頻信號。然而，在其他情況下，身歷聲物件實際上可以表示兩個物件，即關於身歷聲物件的右聲道的物件和關於左聲道的另一個物件。根據上下文，其實際意義將是顯而易見的。

在描述下一實施例之前，首先其動力是2007年被選為參考模型0(RM0)的SAOC標準的基準技術的不足。RM0允許以搖動位置和放大/衰減的形式單獨操作多個聲音物件。在“卡拉OK”類型的應用環境中表示了一種特殊場景。在這種情況下：

_● 單聲道、身歷聲、或環繞背景情景(以下稱為背景物件BGO)從特定SAOC物件集合傳遞而來，背景物件BGO可以無改變地進行再現，即通過具有未改變聲級的相同的輸出聲道再現每個輸入聲道信號，以及

_● 有改變地再現感興趣的特定物件(以下稱為前景物件FGO)(通常是主唱)(典型地，FGO位於聲階的中部，可以將其消音，即嚴重衰減來允許跟唱)。

從主觀評價過程可以看到，並且從其下的技術原理可以預期到，物件位置的操作產生高品質的結果，而物件聲級的操作一般地更加具有挑戰性。典型地，附加的信號放大/衰減越強，潛在的雜訊越多。就此而言，由於需要對FGO進行極端(理想地：完全)衰減，因此，卡拉OK場景的要求極高。

對偶的使用情形是僅再現FGO而不再現背景/MBO的能力，以下稱為獨唱模式。

然而，應注意，如果包括了環繞背景情景，則被稱為多聲道背景物件(MBO)。第五圖中示出的如下對於MBO的處理：

_● 使用常規5-2-5MPEG環繞樹(surround tree)102來對MBO進行編碼。這導致產生身歷聲MBO下混合信號104和MBO MPS輔助資訊流106。

_● 接著，下級SAOC編碼器108將MBO下混合信號編碼為身歷聲物件(即兩物件聲級差加聲道間相關)以及所述(或多個)FGO 110。這導致產生公共的下混合信號112和SAOC輔助資訊流114。

在變碼器116中，對下混合信號112進行預處理，將SAOC和MPS輔助資訊流106、114轉換為單個MPS輸出側資訊流118。目前，這是以不連續的方式發生的，即或者僅支持完全抑制FGO或僅支持完全抑制MBO。

最終，由MPEG環繞解碼器122來呈現所產生的下混合信號120和MPS輔助資訊118。

在第五圖中，將MBO下混合信號104和可控物件信號110組合為單個身歷聲下混合信號112。可控物件110對下混合信號的這種“污染”導致難以恢復去除了可控物件110的、具有足夠高音頻品質的卡拉OK版本。以下的建議旨在解決這一問題。

假定一個FGO(例如一個主唱)，以下第六圖的實施例所使用的關鍵事實在於，SAOC下混合信號是BGO和FGO信號的組合，即對3個音頻信號進行下混合並通過2個下混合聲道來傳送。理想地，這些信號應當在變碼器中再次分離，以產生純淨的卡拉OK信號(即去除FGO信號)，或產生純淨的獨唱信號(即去除BGO信號)。根據第六圖的實施例，這是通過使用SAOC編碼器108中的“2至3”(TTT)編碼器元件124(正如在MPEG環繞規範中那樣被稱為TTT^-1 )，在SAOC編碼器中將BGO和FGO組合為單個SAOC下混合信號來實現的。這裏FGO饋送了TTT^-1 盒124的“中央”信號輸入，BGO 104饋送了“左/右”TTT^-1 輸入L.R.。然後，變碼器116通過使用TTT解碼器元件126(正如在MPEG環繞中那樣被稱為TTT)來產生BGO 104的近似，即“左/右”TTT輸出L、R承載BGO的近似，而“中央”TTT輸出C承載FGO 110的近似。

當將第六圖的實施例與第三圖和第四圖中的編碼器和解碼器的實施例進行比較時，參考標記104與音頻信號84中的第一類型音頻信號相對應，MPS編碼器102包括裝置82；參考標記110與音頻信號84中的第二類型音頻信號相對應，TTT^-1 盒124承擔了裝置88至92的功能職責，SAOC編碼器108實現了裝置86和94的功能；參考標記112與參考標記56相對應；參考標記114與輔助資訊58減去殘差信號62相對應：TTT盒126承擔了裝置52和54的功能職責，其中裝置54也包括混合盒128的功能。最後，信號120與在輸出68輸出的信號相對應。此外，應注意，第六圖還示出了用於將下混合信號112從SAOC編碼器108傳送至SAOC變碼器116的核心編碼器/解碼器路徑131。該核心編碼器/解碼器路徑131與可選的核心編碼器96和核心解碼器98相對應。如第六圖所示，該核心編碼器/解碼器路徑131也可以對從編碼器108傳送至變碼器116的輔助資訊進行編碼/壓縮。

根據以下描述，引入第六圖的TTT盒所產生的優點將變得顯而易見。例如，通過：

_● 簡單地將“左/右”TTT輸出L.R.饋入MPS下混合信號120(並將所傳送的MBO MPS位元流106傳遞至流118)，最終的MPS解碼器僅再現MBO。這與卡拉OK模式相對應。

_● 簡單地將“中央”TTT輸出C.饋入左和右MPS下混合信號120(並產生微小的MPS位元流118，將FGO 110呈現在期望的位置並呈現為期望的聲級)，最終的MPS解碼器122僅再現FGO 110。這與獨唱模式相對應。

_● 在SAOC變碼器的“混合”盒128中執行對3個輸出信號L.R.C.的處理。

與第五圖相比，第六圖的處理結構提供了多種特別的優點：

_● 該框架提供了背景(MBO)100和FGO信號110的純淨的結構分離。

_● TTT元件126的結構嘗試基於波形近可能好地重構3個信號L.R.C.。因此，最終的MPS輸出信號130不僅由下混合信號的能量加權(和解相關)形成，也由於TTT處理而在波形上更為接近。

_● 與MPEG環繞TTT盒126一起產生的是使用殘差編碼來增強重構精度的可能性。按照這種方式，由於TTT^-1 124輸出的、並由用於上混合的TTT盒所使用的殘差信號132的殘差帶寬和殘差位元率增大，因此可以實現重構品質的顯著增強。理想地(即，在殘差編碼和下混合信號的編碼中量化無限細化)，可以消除背景(MBO)和FGO信號之間的干擾。

第六圖的處理結構具有多種特性：

_● 雙重卡拉OK/獨唱模式：第六圖的方法通過使用相同的技術裝置，提供了卡拉OK和獨唱的功能。也就是，重用(reuse)了例如SAOC參數。

_● 可改進性：通過控制TTT盒中使用的殘差編碼的信息量，可以根據需要來改進卡拉OK/獨唱信號的品質。例如，可以使用參數bsResidualSamplingFrequencyIndex、bsResidualBands以及bsResidualFramesPerSAOCFrame。

_● 下混合中FGO的定位：當使用如MPEG環繞規範中指定的TTT盒時，總是將FGO混入左右下混合聲道之間的中央位置。為了實現更靈活的定位，採用了一般化TTT編碼盒，其遵照相同的原理，但是允許非對稱地定位與“中央”輸入/輸出相關的信號。

_● 多FGO ：在所述的配置中，描述了僅使用一個FGO(這可以與最主要的應用情況相對應)。然而，通過使用以下措施之一或其組合，所提出的概念也能夠提供多個FGO：

_○ 分組FGO ：與第六圖所示的類似，與TTT盒的中央輸入/輸出連接的信號實際上可以是若干FGO信號之和而不僅是單個FGO信號。在多聲道輸出信號130中，可以對這些FGO進行獨立的定位/控制(然而，當以相同的方式對其進行縮放/定位時，能夠實現最大的品質優勢)。它們在身歷聲下混合信號112中共用公共位置，並且只有一個殘差信號132。不管怎樣，都可以消除背景(MBO)與可控物件之間的干擾(儘管不是可控物件間的干擾)。

_○ 級聯FGO ：通過擴展第六圖，可以克服關於下混合信號112中公共FGO位置的限制。通過對所述TTT結構進行多級級聯(每個級與一個FGO相對應並產生殘差編碼流)，可以提供多個FGO。按照這種方式，理想地，也可以消除每個FGO之間的干擾。當然，這種選項需要比使用分組FGO方法更高的位元率。稍後將對示例予以描述。

_● SAOC輔助資訊：在MPEG環繞中，與TTT盒相關的輔助資訊是聲道預測係數(CPC)對。相反，SAOC參數化和MBO/卡拉OK場景傳送每個物件信號的物件能量，以及MBO下混合的兩個聲道之間的信號間相關(即“身歷聲物件”的參數化)。為了最小化相對於不帶增強型卡拉OK/獨唱模式的情況的參數化變化的數目，從而最小化位元流格式的改變，可以根據下混合信號(MBO下混合和FGO)的能量和MBO下混合身歷聲物件的信號間相關來計算CPC。因此，不需要改變或增加所傳送的參數化，並且可以從所傳送的SAOC變碼器116中的SAOC參數化來計算CPC。按照這種方式，當忽略殘差數據時，也可以使用常規模式的解碼器(不帶殘差編碼)來對使用增強型卡拉OK/獨唱模式的位元流進行解碼。

概括而言，第六圖的實施例旨在對特定的選定物件(或不帶這些物件的情景)進行增強型再現，並以以下方式，使用身歷聲下混合擴展當前的SAOC編碼方法：

_● 在正常模式下，對每個物件信號，使用其在下混合矩陣中的條目來對其進行加權(分別針對其對左右下混合聲道的貢獻)。然後，對所有對左右下混合聲道的加權貢獻進行求和，來形成左和右下混合聲道。

_● 對於增強型卡拉OK/獨唱性能，即在增強模式下，將所有物件貢獻分為形成前景物件(FGO)的物件貢獻集合和剩餘物件貢獻(BGO)。對FGO貢獻求和形成單聲道下混合信號，對剩餘背景貢獻求和形成身歷聲下混合，使用一般化TTT編碼器元件對兩者進行求和以形成公共的SAOC身歷聲下混合。

因此，使用“TTT求和”(當需要時可以級聯)代替了常規的求和。

為了強調SAOC編碼器的正常模式和增強模式之間的剛剛提及的差別，參見第七圖A和第七圖B，其中第七圖A關於正常模式，而第七圖B關於增強模式。可以看到，在正常模式下，SAOC編碼器108使用前述DMX參數D_ij 來加權物件j，並將加權後的對象j添加至SAOC聲道i(即L0或R0)。在第六圖的增強模式的情況下，僅需要DMX參數向量D_i ，即DMX參數D_i 指示了如何形成FGO 110的加權和，從而獲得TTT^-1 盒124的中央聲道C，並且DMX參數D_i 指示TTT^-1 盒如何將中央信號C分別分配給左MBO聲道和右MBO聲道，從而分別獲得L_DMX 或R_DMX 。

問題在於，對於非波形保持編解碼器(HE-AAC/SBR)，根據第六圖的處理不能很好地工作。該問題的解決方案可以是一種針對HE-AAC和高頻的基於能量的一般化TTT模式。稍後，將描述解決該問題的實施例。

用於具有級聯TTT的可能的位元流格式如下：

以下是需要能夠在被認為是“常規解碼模式”的情況下，被跳過的向SAOC位元流執行的添加：

對於複雜度和記憶體要求，可以作出以下說明。從之前的說明可以看到，通過在編碼器和解碼器/變碼器中分別添加概念元件級(即一般化的TTT^-1 和TTT編碼器元件)來實現第六圖的增強型卡拉OK/獨唱模式。兩個元件在複雜度方面與常規的“居中”TTT對應物相同(系數值的改變不影響複雜度)。對於所設想的主要應用(一個FGO作為主唱)，單個TTT就足夠了。

通過觀察整個MPEG環繞解碼器的結構(對於相關身歷聲下混合的情況(5-2-5配置)，由一個TTT元件和2個OTT元件組成)，可以理解該附加結構與MPEG環繞系統的複雜度的關係。這已表明，所添加的功能在計算複雜度和記憶體消耗方面帶來了適度的代價(注意，使用殘差編碼的概念元件在平均意義上不比作為替代的包括解相關器在內的對應物更為複雜)。

第六圖對MPEG SAOC參考模型的擴展為特殊的獨唱或消音/卡拉OK類型的應用提供了音頻品質的改進。再次應注意的是，與第五圖、第六圖和第七圖相對應的描述所指的MBO是背景情景或BGO，一般地，MBO不局限於這種類型的物件，而也可以是單聲道或身歷聲物件。

主觀評價過程解釋了在卡拉OK或獨唱應用的輸出信號的音頻品質方面的改進。評價條件是：

_● RM0

_● 增強模式(res 0)(=不使用殘差編碼)

_● 增強模式(res 6)(=在最低的6個混合QMF頻帶使用殘差編碼)

_● 增強模式(res 12)(=在最低的12個混合QMF頻帶使用殘差編碼)

_● 增強模式(res 24)(=在最低的24個混合QMF頻帶使用殘差編碼)

_● 隱藏參考

_● 較低的參考(3.5kHz頻帶受限版本的參考)

如果使用時不採用殘差編碼，則所提出的增強模式的位元率類似於RM0。所有其他增強模式對每6個殘差編碼頻帶需要約10kbit/s。

第八圖A示出了對10個收聽主體進行的消音/卡拉OK測試結果。所提出的方案的平均MUSHRA分數總是高於RM0，並隨每級附加殘差編碼逐級增加。對於具有6個或更多頻帶殘差編碼的模式，可以清晰地觀察到相對RM0的性能在統計上的明顯改進。

第八圖B中對9個主體的獨唱測試的結果示出了所提出的方案的類似優點。當添加越來越多的殘差編碼時，平均MUSHRA分數明顯增加。不使用和使用24個頻帶的殘差編碼的增強模式之間的增益幾乎為MUSHRA的50分。

總體上，對於卡拉OK應用，可以比RM0高約10kbit/s的位元率實現良好的品質。當在RM0的最高位元率之上添加約40kbit/s時，可以實現優秀的品質。在給定最大固定位元率的實際應用場景中，所提出的增強模式很好地支援用“無用位元率”來進行殘差編碼，直到達到允許的最大位元率。因此，實現了盡可能好的總體音頻品質。由於更智慧地使用殘差位元率的緣故，對所提出的實驗結果的進一步改進是可能的：雖然所介紹的設置從直流到特定上界頻率始終使用殘差編碼，但是，增強型實現可以僅將位元用在與用於分離FGO和背景物件相關的頻率範圍上。

在之前的描述中，已經描述了針對卡拉OK型應用的SAOC技術的增強。以下將介紹用於MPEG SAOC的多聲道FGO音頻情景處理的增強型卡拉OK/獨唱模式的應用的另外的詳細實施例。

與有所改變(alteration)地進行再現的FGO相反，必須無改變地再現MBO信號，即通過相同的輸出聲道，以未改變的聲級再現每個輸入聲道信號。

由此，已提出了由MPEG環繞編碼器執行的對MBO信號的預處理，該預處理產生身歷聲下混合信號，用作要輸入至隨後的卡拉OK/獨唱模式處理級的(身歷聲)背景物件(BGO)，所述處理級包括：SAOC編碼器、MBO變碼器、和MPS解碼器。第九圖再次示出了總體結構圖。

可以看到，根據卡拉OK/獨唱模式編碼器結構，輸入物件被分為身歷聲背景物件(BGO)104和前景物件(FGO)110。

儘管在RM0中，由SAOC編碼器/變碼器系統來執行對這些應用場景的處理，但是，第六圖的增強還利用了MPEG環繞結構的基本構成模組。當需要對特定音頻物件進行較強的增大/衰減時，在編碼器中集成3至2(TTT^-1 )模組並在變碼器中集成對應的2至3(TTT)互補模組改進了性能。擴展結構的兩個主要特性是：

-由於利用了殘差信號，實現了更好的(與RM0相比)信號分離，

-通過一般化被表示為TTT^-1 盒中央輸入(即FGO)的信號的混合規則，對該信號進行靈活定位。

由於TTT構成模組的直接實現涉及編碼器側的3個輸入信號，因此，第六圖集中關注對作為如第十圖所示的(下混合)單聲道信號的FGO的處理。也已經說明了對多聲道FGO信號的處理，但是，在以下章節中將對其進行更詳細地解釋。

從第十圖可以看到，在第六圖的增強模式中，將所有FGO的組合饋入TTT^-1 盒的中央聲道。

在如第六圖和第十圖的FGO單聲道下混合的情況下，編碼器側的TTT^-1 盒的配置包括：被饋送至中央輸入的FGO、和提供左右輸入的BGO。以下公式給出了基本的對稱矩陣：

該公式提供了下混合(L0R0)^T 和信號F0：

通過該線性系統獲得的第三信號被丟棄，但可以在集成了兩個預測係數c₁ 和c₂ -(CPC)的變碼器側，根據以下公式來對其進行重構：

。

在變碼器中的逆過程由以下公式給出：

參數m ₁ 和m ₂ 對應於：

m ₁ =cos(μ)以及m ₂ =sin(μ)

μ負責搖動FGO在公共TTT下混合(L0 R0)^T 中的位置。可以使用所傳送的SAOC參數(即所有輸入音頻物件的物件音級差(OLD)和BGO下混合(MBO)信號的物件間相關(IOC))來估計變碼器側的TTT上混合單元所需的預測係數c₁ 和c₂ -。假定FGO和BGO信號統計獨立，對CPC估計，以下關係成立：

變數P _Lo 、P _Ro 、P _LoRo 、P _LoFo 和P _RoFo 可以按如下方式進行估計，其中參數OLD_L ，OLD_R 和IOC_LR 與BGO相對應，OLD_F 是FGO參數：

P _LoRo =IOC _LR +m ₁ m ₂ OLD _F

P _LoFo =m ₁ (OLD _L -OLD _F )+m ₂ IOC _LR

P _RoFo =m ₂ (OLD _R -OLD _F )+m ₁ IOC _LR

此外，可以在位元流內傳送的殘差信號132表示了CPC的推導所引入的誤差，因此：

在某些應用場景中，對所有FGO中的單個單聲道下混合進行限制是不合適的，因此需要克服該問題。例如，可以將FGO劃分為在所傳送的身歷聲下混合中位於不同位置和/或具有獨立衰減的兩個以上獨立的組。因此，第十一圖所示的級聯結構暗示了兩個以上連續的TTT^-1 元件，在編碼器側產生了所有FGO組F₁ 、F₂ 的逐步的下混合，直至獲得所需的身歷聲下混合112為止。每個(或至少一些)TTT^-1 盒124a、b(第十一圖中每個TTT^-1 盒)設置與TTT^-1 盒124a、b的各級分別對應的殘差信號132a、132b。相反，變碼器通過使用各順序應用的TTT盒126a、126b(如有可能，集成對應的CPC和殘差信號)來執行順序上混合。FGO處理的順序是由編碼器指定的，在變碼器側必須考慮。

以下描述第十一圖所示的兩級級聯所涉及的詳細的數學原理。

為了簡化說明又不失一般性，以下的解釋基於如第十一圖所示的由兩個TTT元件組成的級聯。兩個對稱矩陣與FGO單聲道下混合類似，但是必須恰當地應用於各自的信號：

這裏，兩個CPC集合產生了以下信號重構：

以及。

逆過程可表示為：

兩級級聯的一種特殊情況包括一身歷聲FGO，其左和右聲道被適當地求和為BGO的對應聲道，使μ₁ =0，：

對於這種特別的搖動風格，通過忽略物件間相關(OLD _LR =0)，兩個CPC集合的估計可簡化為：

其中，OLD _FL 和OLD _FR 分別表示左右FGO信號的OLD。

一般的N級級聯情況是指依照以下公式的多聲道FGO下混合：

其中，每一級確定其自身的CPC和殘差信號的特徵。

在變碼器側，逆級聯步驟由以下公式給出：

為了消除保持TTT元件的順序的必要性，通過將N個矩陣重新排列為單一對稱TTN矩陣的方式，可以將級聯結構容易地轉換為等效的平行結構，從而產生一般的TTN矩陣：

其中，矩陣的前兩行表示要發送的身歷聲下混合。另一方面，術語TTN(2至N)指變碼器側的上混合處理。

使用這種描述，進行了特定搖動的身歷聲FGO的特殊情況將矩陣簡化為：

相應地，該單元可以被稱為2至4元件或TTF。

也可以產生重用SAOC身歷聲預處理模組的TTF結構。

對於N=4的限制，對現有SAOC系統的某些部分進行重用的2至4(TTF)結構的實現成為可能。以下段落中將描述該處理。

SAOC標準文本描述了針對“身歷聲至身歷聲代碼轉換模式”的身歷聲下混合預處理。準確地說，根據以下公式，由輸入身歷聲信號X以及解相關信號X_d 來計算輸出身歷聲信號Y：

Y =G _Mod X+P ₂ X _d

解相關分量X_d 是原始呈現信號中已在編碼過程中被丟棄掉的部分的合成表示。根據第十二圖，使用合適的針對特定頻率範圍的由編碼器產生的殘差信號132來替換該解相關信號。

命名按如下方式定義：

_● D是2×N下混合矩陣

_● A是2×N呈現矩陣

_● E是輸入物件S的N×N協方差模型

_● G_Mod (與第十二圖中的G相對應)是預測2×2上混合矩陣

注意，G_Mod 是D、A和E的函數。

為了計算殘差信號X_Res ，必須在編碼器中模仿解碼器處理，即確定G_Mod 。一般地，場景A是未知的，但是，在卡拉OK場景的特殊情況下(例如具有一個身歷聲背景和一個身歷聲前景物件，N=4)，假定：

這意味著僅呈現BGO。

為了估計前景物件，從下混合信號X中減去重構的背景物件。在“混合”處理模組中執行該最終呈現。以下將介紹具體的細節。

呈現矩陣A被設置為：

其中，假定頭2列表示FGO的兩個聲道，後2列表示BGO的兩個聲道。

根據以下公式來計算BGO和FGO的身歷聲輸出。

Y_BGO =G_Mod X+X_Res

由於下混合權值矩陣D被定義為：

D=(D_FGO |D_BGO )

其中

以及

因此，FGO物件可以被設置為：

作為示例，對於下混合矩陣

將其簡化為：

Y_FGO =X-Y_BGO

X_Res 是按上述方式得到的殘差信號。請注意，未添加解相關信號。

最終輸出Y由下式給出：

上述實施例也可以適用於使用單聲道FGO來替代身歷聲FGO的情況。在這種情況下，根據以下內容來改變處理。

呈現矩陣A被設置為：

其中，假定第一列表示單聲道FGO，隨後的列表表示BGO的兩個聲道。

根據以下公式來計算BGO和FGO的身歷聲輸出。

Y_FGO =G_Mod X+X_Res

由於下混合權值矩陣D被定義為：

D=(D_FGO |D_BGO )

其中

以及

因此，BGO物件可以被設置為：

作為示例，對於下混合矩陣

將其簡化為：

X_Res 是按上述方式獲得的殘差信號。請注意，未添加解相關信號。

最終輸出Y由以下公式給出：

對於5個以上FGO物件的處理，可以通過重組剛剛描述的處理步驟的並行級來擴展上述實施例。

以上剛剛描述的實施例提供了針對多聲道FGO音頻情景的情況的增強型卡拉OK/獨唱模式的詳細描述。這樣的一般化旨在擴大卡拉OK應用場景的種類，對於卡拉OK應用場景，可以通過應用增強型卡拉OK/獨唱模式來進一步改進MPEG SAOC參考模型的聲音品質。這種改進是通過將一般NTT結構引入SAOC編碼器的下混合部分，並將相應的對應物引入SAOCtoMPS變碼器來實現的。殘差信號的使用提高了品質結果。

第十三圖A至H示出了根據本發明的實施例的SAOC側資訊位元流的可能語法。

在描述了與SAOC編解碼器的增強模式相關的一些實施例之後，應注意，這些實施例中的一些涉及輸入至SAOC編碼器的音頻輸入不僅包含常規單聲道或身歷聲聲源，而且包含多聲道物件的應用場景。第五圖至第七圖B顯式地描述了這一點。這樣的多聲道背景物件MBO可以被看作包括較大且通常數目未知的聲源的複雜聲音情景，對於該情景不需要可控呈現功能。個別地，SAOC編碼器/解碼器架構不能有效處理這些音頻源。因此，可以考慮擴展SAOC架構的概念，以處理這些複雜輸入信號(即MBO聲道)以及典型的SAOC音頻物件。因此，在剛剛提及的第五圖至第七圖B的實施例中，考慮將MPEG環繞編碼器包含於SAOC編碼器，如將SAOC編碼器108和MPS編碼器100圈住的虛線所示。所產生的下混合104用作輸入SAOC編碼器108的身歷聲輸入物件，以可控SAOC物件110一起產生要發送至變碼器側的組合身歷聲下混合112。在參數域中，將MPS位元流106和SAOC位元流104饋入SAOC變碼器116，SAOC變碼器116根據特定的MBO應用場景，為MPEG環繞解碼器122提供合適的MPS位元流118。使用呈現資訊或呈現矩陣並採用一些下混合預處理來執行該任務，採用下混合預處理是為了將下混合信號112變換為用於MPS解碼器122的下混合信號120。

以下描述用於增強型卡拉OK/獨唱模式的另一個實施例。該實施例允許對多個音頻物件，在其聲級放大/衰減方面執行獨立操作，而不會明顯降低結果聲音品質。一種特殊的“卡拉OK類型”應用場景需要完全抑制指定物件(通常是主唱，以下稱為前景物件FGO)，同時保持背景聲音情景的感知品質不受損害。它同時需要單獨再現特定FGO信號而不再現靜態背景音頻情景(以下稱為背景物件BGO)的能力，該背景物件不需要搖動方面的用戶可控性。這種場景被稱為“獨唱”模式。一種典型的應用情況包含身歷聲BGO和多達4個FGO信號，例如，這4個FGO信號可以表示兩個獨立的身歷聲物件。

根據本實施例和第十四圖，增強型卡拉OK/獨唱模式變碼器150使用“2至N”(TTN)或“1至N”(OTN)元件152，TTN和OTN元件152均表示從MPEG環繞規範獲知的TTT盒的一般化和增強型修改。合適元件的選擇取決於所傳送的下混合聲道的數目，即TTN盒專門用於身歷聲下混合信號，而OTN盒適用單聲道下混合信號。在SAOC編碼器中，對應的TTN^-1 或OTN^-1 盒將BGO和FGO信號組合為公共的SAOC身歷聲或單聲道下混合112，並產生位元流114。任一元件，即TTN或OTN 152支援下混合信號112中所有獨立FGO的任意預定義定位。在變碼器側，TTN或OTN盒152僅使用SAOC輔助資訊114，並可選地結合殘差信號，根據下混合112恢復BGO 154或FGO信號156的任何組合(取決於從外部應用的工作模式158)。使用所恢復的音頻物件154/156和呈現資訊160來產生MPEG環繞位元流162和對應的經預處理的下混合信號164。混合單元166對下混合信號112執行處理，以獲得MPS輸入下混合164，MPS變碼器168負責將SAOC參數114轉換為SAOC參數162。TTN/OTN盒152和混合單元166一起執行與第三圖的裝置52和54相對應的增強型卡拉OK/獨唱模式處理170，其中，裝置54包括混合單元的功能。

可以與上述相同的方式來對待MBO，即使用MPEG環繞編碼器對其進行預處理，產生單聲道或身歷聲下混合信號，用作要輸入至隨後的增強型SAOC編碼器的BGO。在這種情況下，變碼器必須與SAOC位元流相鄰的附加MPEG環繞位元流一起提供。

接下來解釋由TTN(OTN)元件執行的計算。以第一預定時間/頻率解析度42表達的TTN/OTN矩陣M是兩個矩陣的積：

M=D^-1 C

其中，D^-1 包括下混合資訊，C含有每個FGO聲道的聲道預測係數(CPC)。C由裝置52和盒152分別計算，裝置54和盒152分別計算D^-1 ，並將其與C一起應用於SAOC下混合。根據以下公式來執行該計算：

對於TTN元件，即身歷聲下混合：

對於OTN元件，及單聲道下混合：

從所傳送的SAOC參數(即OLD、IOC、DMG和DCLD)導出CPC。對於一個特定FGO聲道j，可以使用以下公式來估計CPC：

參數OLD_L 、OLD_R 和IOC_LR 與BGO相對應，其餘是FGO值。

係數m_j 和n_j 表示針對右和左下混合聲道的每個FGO j的下混合值，並由下混合增益DMG和下混合聲道聲級差DCLD導出：

對於OTN元件，第二CPC值c_j2 的計算是多餘的。

為了重構兩個物件組BGO和FGO，下混合矩陣D的求逆利用了下混合資訊，所述下混合矩陣D被擴展為進一步規定信號F0₁ 至F0_N 的線性組合，即：

以下，闡述編碼器側的下混合：

在TTN^-1 元件中，擴展下混合矩陣為：

TTN/OTN元件的輸出對身歷聲BGO和身歷聲下混合產生：

在BGO和/或下混合為單聲道信號的情況下，線性方程組相應地發生改變。

殘差信號res_i 與FGO物件i相對應，如果沒有被SAOC流傳送(例如由於其位於殘差頻率範圍之外，或以信號告知完全沒有對FGO物件i傳送殘差信號)，則res_i 被推定為零。是與FGO對象i近似的重構/上混合信號。在計算之後，可以將通過合成濾波器組，以獲得FGO對象i的時域(如PCM編碼)版本。應回顧到，L0和R0表示SAOC下混合信號的聲道，並能夠以比基本索引(n,k)的參數解析度更高的時間/頻率解析度加以使用/進行信號告知。和是與BGO對象的左和右聲道近似的重構/上混合信號。它可以與MPS輔助位元流一起呈現在原始數目的聲道上。

根據一實施例，在能量模式下使用以下TTN矩陣。

基於能量的編碼/解碼過程被設計用於對下混合信號進行非波形保持編碼。因此，針對對應能量模型的TTN上混合矩陣不依賴於具體波形，而是僅描述了輸入音頻物件的相對能量分佈。根據以下公式，從對應OLD獲得該矩陣M_Energy 的元素：

對身歷聲BGO：

以及對於單聲道BGO：

使得TTN元件的輸出分別產生：

相應地，對於單聲道下混合，基於能量的上混合矩陣M_Energy 變為：

對身歷聲BGO：

以及對於單聲道BGO：

使得OTN元件的輸出分別產生：

因此，根據剛剛提及的實施例，在編碼器側將所有物件(Obj₁ ...Obj_N )分別分類為BGO和FGO。BGO可以是單聲道(L)或身歷聲對象。BGO下混合為下混合信號是固定的。對於FGO，其數目在理論上是不受限的。然而，對於多數應用，總計4個FGO物件似乎就足夠了。單聲道和身歷聲物件的任何組合都是可行的。通過參數m_i (對左/單聲道下混合信號進行加權)和n_i (對右下混合信號進行加權)，FGO下混合在時間上和頻率上均可變。由此，下混合信號可以是單聲道(L0)或身歷聲。

依舊不向解碼器/變碼器發送信號(F0₁ ...F0_N )^T 。反之，在解碼器側通過上述CPC來預測該信號。

由此，再次注意，解碼器設置甚至可以丟棄殘差信號res。在這種情況下，解碼器(例如裝置52)根據以下公式，僅基於CPC來預測虛信號：

身歷聲下混合：

單聲道下混合：

然後，例如由裝置54通過編碼器的4種可能線性組合之一的逆運算來獲得BGO和/或FGO，

其中D^-1 依然是參數DMG和DCLD的函數。

因此，總而言之，殘差忽略TTN(OTN)盒152計算兩個剛剛提及的計算步驟，

注意，當D為二次型時，可以直接獲得D的逆。在非二次型矩陣D的情況下，D的逆應為偽逆，即pinv(D)=D*(DD*)^-1 或pinv(D)=(D*D)^-1 D*。在任一種情況下，D的逆存在。

最後，第十五圖示出了如何在輔助資訊中設置用於傳送殘差數據的資料量的另一可能。根據該語法，輔助資訊包括bsResidualSamplingFrequencyIndex，即表格的索引，所述表格將例如頻率解析度與該索引相關聯。可選地，可以推定該解析度為預定解析度，如濾波器組的解析度或參數解析度。此外，輔助資訊包括bsResidualFramesPerSAOCFrame，後者定義了傳送殘差資訊所使用的時間解析度。輔助資訊還包括BsNumGroupsFGO，表示FGO的數目。對於每個FGO，傳送了語法元素bsResidualPresent，後者表示對於相應的FGO，是否傳送了殘差信號。如果存在，bsResidualBands表示傳送殘差值的頻譜帶的數目。

根據實際實現方式的不同，可以以硬體或軟體來實現本發明的編碼/解碼方法。因此，本發明也涉及電腦程式，所述電腦程式可以存儲在諸如CD、盤或任何其他資料載體等電腦可讀介質上。因此，本發明還是一種具有程式碼的電腦程式，當在電腦上執行所述程式碼時，執行結合上述附圖描述的本發明的編碼方法或本發明的解碼方法。

10‧‧‧編碼器

12‧‧‧解碼器/變碼器

14₁ 至14_N ‧‧‧音頻信號

16‧‧‧下混合器

18‧‧‧下混合信號

20‧‧‧輔助資訊

22‧‧‧上混合器

24₁ 至24_M ‧‧‧聲道集合

26‧‧‧呈現資訊

30₁ 至30_P ‧‧‧子帶信號

32‧‧‧子帶值

34‧‧‧濾波器組時隙

36‧‧‧頻率軸

38‧‧‧時間軸

40．．．幀

41．．．參數時隙

42．．．時間/頻率解析度

50．．．解碼器

52．．．用於計算預測係數的裝置

54．．．用於對下混合信號進行上混合的裝置

56．．．下混合信號

58．．．輔助資訊

60．．．聲級資訊

62．．．殘差信號

64．．．預測係數

66．．．用戶輸入

68．．．輸出

80．．．音頻編碼器

82．．．用於頻譜分解的裝置

84．．．音頻信號

86．．．用於計算聲級資訊的裝置

88．．．用於下混合的裝置

90．．．用於計算預測係數的裝置

92．．．用於設置殘差信號的裝置

94．．．用於計算互相關資訊的裝置

96．．．核心編碼器

98．．．核心解碼器

100．．．編碼器

102．．．環繞樹

104．．．下混合信號

106．．．輔助資訊流

108．．．編碼器

110．．．可控物件

112．．．下混合信號

114．．．輔助資訊流

116．．．變碼器

118．．．輸出側資訊流

120．．．下混合信號

122．．．環繞解碼器

124a、124b．．．編碼器元件

126a、126b．．．解碼器元件

128．．．混合盒

130．．．輸出信號

131．．．核心編碼器/解碼器路徑

132a、132b．．．殘差信號

150．．．變碼器

152．．．盒

154、156．．．音頻物件

158．．．工作模式

160．．．呈現資訊

162．．．環繞位元流

164．．．下混合信號

166．．．混合單元

168．．．變碼器

170．．．增強型卡拉OK/獨唱模式處理

第一圖示出了可以在其中實現本發明的實施例的SAOC編碼器/解碼器配置的框圖；

第二圖示出了單聲道音頻信號的頻譜表示的示意和說明圖；

第三圖示出了根據本發明的實施例的音頻解碼器的框圖；

第四圖示出了根據本發明的實施例的音頻編碼器的框圖；

第五圖示出了作為對比實施例的用於卡拉OK/獨唱模式應用的音頻編碼器/解碼器配置的框圖；

第六圖示出了根據一實施例的用於卡拉OK/獨唱模式應用的音頻編碼器/解碼器配置的框圖；

第七圖A示出了根據對比實施例的用於卡拉OK/獨唱模式應用的音頻編碼器的框圖；

第七圖B示出了根據一實施例的用於卡拉OK/獨唱模式應用的音頻編碼器的框圖；

第八圖A和B示出了品質測量結果圖；

第九圖示出了供對比用的用於卡拉OK/獨唱模式應用的音頻編碼器/解碼器配置的框圖；

第十圖示出了根據一實施例的用於卡拉OK/獨唱模式應用的音頻編碼器/解碼器配置的框圖；

第十一圖示出了根據另一實施例的用於卡拉OK/獨唱模式應用的音頻編碼器/解碼器配置的框圖；

第十二圖示出了根據另一實施例的用於卡拉OK/獨唱模式應用的音頻編碼器/解碼器配置的框圖；第十三圖A至H示出了反映根據本發明一實施例的用於SAOC位元流的可能語法的表格；第十四圖示出了根據一實施例的用於卡拉OK/獨唱模式應用的音頻解碼器的框圖；以及第十五圖示出了反映用於以信號告知傳送殘差信號所耗費的資料量的可能語法的表格。