TW201519216A

TW201519216A - 實現３ｄ音源內容之saoc降混合之裝置及其方法

Info

Publication number: TW201519216A
Application number: TW103124956A
Authority: TW
Inventors: Sascha Disch; Harald Fuchs; Oliver Hellmuth; Jurgen Herre; Adrian Murtaza; Falko Ridderbusch; Leon Terentiv; Jouni Paulus
Original assignee: Fraunhofer Ges Forschung; Univ Friedrich Alexander Er
Priority date: 2013-07-22
Filing date: 2014-07-21
Publication date: 2015-05-16
Also published as: CN112839296A; PL3025335T3; EP3025335B1; CA2918869C; CN112839296B; KR101774796B1; BR112016001244B1; EP2830048A1; MX355589B; CA2918869A1; BR112016001244A2; CN105593929A; CN105593930A; KR101852951B1; US20160142846A1; US11330386B2; TW201519217A; PL3025333T3; SG11201600396QA; TWI560701B

Abstract

本發明揭露一種裝置，用以產生一個或多個音源輸出聲道，其中該裝置包含：一參數處理器(110)，用以計算輸出聲道混合資訊，以及一降混合處理器(120)，用以產生該一個或多個音源輸出聲道，其中該降混合處理器(120)係設置用以接收包含一個或多個音源傳輸聲道之一音源傳輸訊號，其中兩個或多個音源物件訊號被混合在該音源傳輸訊號裡，且其中該一個或多個音源傳輸聲道之數量小於該兩個或多個音源物件訊號之數量，其中該音源傳輸訊號取決於一第一混合規則以及一第二混合規則，其中該第一混合規則係指出如何混合該兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中該第二混合規則係指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該參數處理器(110)被設置用以接收在該第二混合規則上之資訊，其中在該第二混合規則上之該資訊指出如何混合該複數個預混合訊號，使得該一個或多個音源傳輸聲道被獲得，其中根據一音源物件數量、一預混合聲道數量以及在該第二混合規則上之該資訊，該參數處理器(110)被設置用以計算該輸出聲道混合資訊，該音源物件數量係指出該兩個或多個音源物件訊號之該數量，該預混合聲道數量指出該複數個預混合聲道之該數量，以及其中該降混合處理器(120)係設置用以從該音源傳輸訊號產生該一個或多個音源輸出聲道，該音源傳輸訊號係取決於該輸出聲道混合資訊。

Description

實現3D音源內容之SAOC降混合之裝置及其方法

本發明是有關於音源編碼/解碼，特別是有關於空間音源編碼以及空間音源物件編碼，以及更特別的是有關於一種實現三維音源內容之SAOC降混合之裝置及其方法，以及有關於一種三維音源內容之高效率解碼該SAOC降混合之裝置及其方法。

空間音源編碼工具係此技術領域中所熟知，例如，在環繞MPEG標準中已有標準化規範。空間音源編碼從原始輸入聲道開始，例如在再現方案中依照其位置而識別的五個或是七個聲道，即左聲道、中間聲道、右聲道、左環繞聲道、右環繞聲道以及低頻增強聲道。空間音源編碼器通常從原始聲道衍生出至少一降混聲道，以及另外衍生出關於空間線索的參數數據，例如在聲道相干數值中的聲道間等級差異、聲道間相位差異、聲道間時間差異等等。至少一降混聲道係與指示空間線索的參數化輔助資訊一起傳送到空間音源解碼器。空間音源解碼器係解碼降混聲道以及相關聯的參數數據，最後取得與原始輸入聲道近似版本的輸出聲道。聲道在輸出端方案之設置通常為固定，例如，5.1聲道格式或7.1聲道格式等等。

此種以聲道為主的音源格式係廣泛使用於儲存或是傳送多聲道音源內容，而每一個聲道係有關於在給定位置上的一特定揚聲器。這些種類格式的忠實再現，需要一揚聲器設備，其揚聲器係放置在與音源訊號生產期間揚聲器使用相同的位置。增加揚聲器數量可改進真實三維虛擬實境音場，但是執行此要求是越來越困難，尤其是在家庭環境中，像是客廳。

可用以物件為基礎的方法來克服對特殊揚聲器設備的需求，在以物件為基礎的方法中揚聲器訊號係特別針對播放方案來轉譯。

例如，空間音源物件編碼工具係此技術領域中所熟知且在MPEG SAOC標準中已成標準。相比於空間音源編碼從原始聲道開始，空間音源物件編碼係從非自動專為特定轉譯再現方案的音源物件開始。另外，音源物件在再現場景中的位置為可變化，且可由使用者藉由將特定的轉譯資訊輸入至空間音源物件編碼解碼器來決定。另外，轉譯資訊，即在再現方案中特定音源物件待放置的位置資訊，係以額外的輔助資訊或是元數據來傳送。為了獲得特定的數據壓縮，係由一SAOC編碼器來編碼音源物件之數量，SAOC編碼器係根據特定的降混合資訊來降混合物件以從輸入物件計算至少一運輸聲道。此外，SAOC編碼器係計算參數化側資訊，其代表物件間線索，例如物件位準差異(OLD)、物件相干數值等等。當在空間音源編碼(SAC)中，物件間參數數據係針對個別時間平鋪(time tiles)/頻率平鋪(frequency tiles)來計算，即，針對音源訊號之特定訊框，例如，1024或是2048個取樣值，28、20、14或是10等等，係考慮頻帶使得對於每一訊框以及每一頻帶皆存在參數數據。作為一舉例，當一音源片具有20個訊框且當每一訊框係細分成28個頻帶，則時間/頻率平鋪之數量係為560。

在以物件為基礎的方法中，以分離式音源物件來描述音場。此需要物件元數據，其描述在3D空間中每一個音源之時變位置。

在先前技術中，第一數據編碼編碼概念為空間聲音描述交換格式(SpatDIF)，而音頻場景描述格式目前尚在發展中[M1]。音頻場景描述格式係為以物件為主的聲音場景交換格式，其並沒有提供任何壓縮物件軌跡的方法。SpatDIF將以文字為主的開放性聲音控制(OSC)格式使用於物件元數據的結構[M2]。然而，一個簡單以文字為主的表現並非為物件軌跡的經壓縮傳輸的選項。

在先前技術中，另一個元數據概念為音源場景描述格式(ASDF)[M3]，其和一種以文字為基礎的解決方案具有相同的缺點。此數據係藉由同步多媒體集成語言(SMIL)之延伸所建構，該同步多媒體集成語言(SMIL)為可延伸標記式語言(XML)[M4,M5]之子集合。

在先前技術中的另一個元數據技術為場景的音源二進制格式(AudioBIFS)，二進制格式MPEG-4標準的一部分[M6,M7]，其高度有關於虛擬實境建模語言(VRML)，其已開發應用於音源虛擬3D場景以及虛擬實境[M8]。複雜的AudioBIFS標準使用場景圖以指定物件移動的路徑。AudioBIFS主要的缺點在於並非設計用於即時作業系統，其會使即時作業系統延遲並且需要隨機讀取數據流。此外，物件位置的編碼不運用受限的聽者的定位能力。在音源虛擬場景中的聽者有固定位置時，則物件數據可量化成較低的位元數值[M9]。因此，應用於AudioBIFS的物件元數據的編碼對於數據壓縮是無效率的。

本發明之目的在於提供對降混合音源內容之改善概念，本發明之目的是根據專利保護範圍第1項之一裝置、專利保護範圍第9項之一裝置、專利保護範圍第12項之一系統、專利保護範圍第13項之一方法、專利保護範圍第14項之一方法以及專利保護範圍第15項之一電腦程式來進行解決。

根據實施方案，提供了高效率的傳輸的實現方式以及對三維音源內容進行解碼降混的實施方式。

本發明提供一種用於產生一個或多個音源輸出聲道的裝置，所述裝置包含一參數處理器及一降混合處理器，此參數處理器用以計算輸出聲道混合資訊，而降混合處理器用以產生所述一個或多個音源輸出聲道，所述降混合處理器被設置用以接收包含一個或多個音源傳輸聲道之一音源傳輸訊號，其中兩個或多個音源物件訊號被混合在所述音源傳輸訊號裡，且其中所述一個或多個音源傳輸聲道之數量係小於所述兩個或多個音源物件訊號之數量。所述音源傳輸訊號係取決於一第一混合規則以及一第二混合規則，所述第一混合規則係指出如何混合所述兩個或多個音源物件訊號以獲得複數個預混合聲道。此外，所述第二混合規則係指出如何混合所述複數個預混合聲道以獲得所述音源傳輸訊號之一個或多個音源傳輸聲道。所述參數處理器被設置用以接收在所述第二混合規則上之資訊，其中在所述第二混合規則上之資訊指出如何混合所述複數個預混合訊號，使得所述一個或多個音源傳輸聲道被獲得，此外，根據一音源物件數量、一預混合聲道數量以及在所述第二混合規則上之資訊，所述參數處理器被設置用以計算所述輸出聲道混合資訊，所述音源物件數量指出所述兩個或多個音源物件訊號之數量，所述預混合聲道數量指出所述複數個預混合聲道之數量，所述降混合處理器被設置用以從所述音源傳輸訊號產生一個或多個音源輸出聲道，所述音源傳輸訊號係取決於所述輸出聲道混合資訊。

此外，本發明係提供一種裝置，其用以產生包含一個或多個音源傳輸聲道之一音源傳輸訊號，所述裝置包含一物件混合器用以產生所述音源傳輸訊號，此音源傳輸訊號包含來自於所述兩個或更多音源物件訊號之一個或更多音源傳輸聲道，使得所述兩個或更多音源物件訊號被混合在音源傳輸訊號裡，且其中所述一個或多個音源傳輸聲道之數量係小於所述兩個或多個音源物件訊號之數量，且一輸出介面用以輸出所述音源傳輸訊號。根據一第一混合規則以及一第二混合規則，所述物件混合器被設置用以產生所述音源傳輸訊號之一個或多個音源傳輸聲道，其中所述第一混合規則指出如何混合所述兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中所述第二混合規則指出如何混合複數個預混合聲道以獲得所述音源傳輸訊號之一個或多個音源傳輸聲道。所述第一混合規則取決於一音源物件數量以及一預混合聲道數量，所述音源物件數量指出所述兩個或多個音源物件訊號之數量，所述預混合聲道數量指出所述複數個預混合聲道之數量，且其中所述第二混合規則取決於所述預混合聲道數量。所述輸出介面被設置用以輸出在所述第二混合規則上之資訊。

此外，本發明係提供一種系統，此系統包含一用以產生如上所述之一音源傳輸訊號的裝置，以及一用以產生如上所述之一個或多個音源輸出聲道的裝置。用以產生一個或多個音源輸出聲道的裝置係被設置用以接收所述音源傳輸訊號以及在第二混合規則上之資訊，所述第二混合規則係來自於所述裝置且用於產生一音源傳輸訊號。此外，根據第二混合規則上之資訊，用以產生一個或多個音源輸出聲道的裝置係被設置用以產生來自音源傳輸訊號之一個或多個音源輸出聲道，此外，本發明係提供一種用於產生一個或多個音源輸出聲道的方法。此方法包含：

- 接收包含一個或多個音源傳輸聲道之一音源傳輸訊號，其中兩個或多個音源物件訊號被混合在所述音源傳輸訊號裡，且其中所述一個或多個音源傳輸聲道之數量小於所述兩個或多個音源物件訊號之數量，其中所述音源傳輸訊號係取決於一第一混合規則以及一第二混合規則，其中所述第一混合規則指出如何混合所述兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中所述第二混合規則指出如何混合複數個預混合聲道以獲得所述音源傳輸訊號之一個或多個音源傳輸聲道。

- 接收在所述第二混合規則上之資訊，其中在所述第二混合規則上之資訊係指出如何混合所述複數個預混合訊號，使得所述一個或多個音源傳輸聲道被獲得。

- 根據一音源物件數量、一預混合聲道數量以及在所述第二混合規則上之資訊，計算所述輸出聲道混合資訊，所述音源物件數量指出所述兩個或多個音源物件訊號之數量，所述預混合聲道數量指出所述複數個預混合聲道之數量。以及：

- 根據所述輸出聲道混合資訊，從所述音源傳輸訊號產生一個或多個音源輸出聲道。

此外，本發明係提供一種方法，其係用以產生包含一個或多個音源傳輸聲道之一音源傳輸訊號，此方法包含：

- 產生所述音源傳輸訊號，此音源傳輸訊號係包含來自於兩個或多個音源物件訊號之一個或多個音源傳輸聲道。

- 輸出所述音源傳輸訊號，以及：

- 輸出在所述第二混合規則上之資訊。

產生所述音源傳輸訊號，使得兩個或更多音源物件訊號被混合在所述音源傳輸訊號裡，此音源傳輸訊號包含來自於所述兩個或更多音源物件訊號之所述一個或更多音源傳輸聲道，其中所述一個或多個音源傳輸聲道之數量小於所述兩個或多個音源物件訊號之數量。根據一第一混合規則以及一第二混合規則，產生所述音源傳輸訊號之一個或多個音源傳輸聲道係被進行，其中所述第一混合規則指出如何混合所述兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中所述第二混合規則指出如何混合複數個預混合聲道以獲得所述音源傳輸訊號之一個或多個音源傳輸聲道。所述第一混合規則取決於一音源物件數量以及一預混合聲道數量，所述音源物件數量指出所述兩個或多個音源物件訊號之數量，所述預混合聲道數量指出所述複數個預混合聲道之數量，所述第二混合規則取決於所述預混合聲道數量。

此外，本發明提供一種電腦程式，其係用以實作如上述之方法並執行於一電腦上或一訊號處理器上。

101‧‧‧音源輸入數據

110‧‧‧參數處理器、參數化處理器

1100‧‧‧輸入介面、輸入界面

120‧‧‧降混合處理器、音源聲道產生器

1200‧‧‧物件處理器、處理器

1205‧‧‧輸出聲道、聲道、高聲道格式

1210‧‧‧物件轉譯器

1220‧‧‧混合器

1300‧‧‧核心解碼器、USAC解碼器、CPE、SCE、QCE

1400‧‧‧數據元解壓縮器、OAM解碼器、元數據解壓縮器

1600‧‧‧模式控制器

1700‧‧‧後置處理器、後處理器

1710‧‧‧雙耳轉譯器、二進制轉譯器

1720‧‧‧格式轉換器

1727‧‧‧快捷

1730‧‧‧輸出、直接輸出、輸出界面

1800‧‧‧SAOC解碼器、方塊、空間音源物件編碼解碼器

1810‧‧‧VBAP、向量基準波幅泛移級、VBAP級

200‧‧‧混合器、預轉譯器/混合器、區塊

210‧‧‧物件混合器

220‧‧‧輸出介面

300‧‧‧USAC編碼器、核心編碼器、編碼器

310‧‧‧用以產生一音源傳輸訊號之裝置、裝置、用於產生一音源傳輸訊號的裝置

320‧‧‧用以產生一個或多個音源輸出聲道之裝置、裝置、用以產生一個或多個音源輸出聲道的裝置

400‧‧‧數據元壓縮器、OAM編碼器、元數據壓縮器、區塊、原點

410‧‧‧位置

415‧‧‧直線

420‧‧‧OAM解碼器

500‧‧‧輸出介面、USAC編碼器、輸出界面、原點

501‧‧‧音源輸入數據、數據

510‧‧‧位置、第一音源物件

511、512、513、514‧‧‧揚聲器

520‧‧‧位置、第二音源物件

600‧‧‧模式控制器

800‧‧‧SAOC編碼器

900‧‧‧連接

CH‧‧‧音源聲道

OBJ‧‧‧音源物件

P‧‧‧第一矩陣

Q‧‧‧第二矩陣

第1圖係根據一實施例以顯示一裝置用以產生一個或多個音源輸出聲道。

第2圖係根據一實施例以顯示一裝置用以產生包含一個或多個音源傳輸聲道之一音源傳輸訊號。

第3圖係根據一實施例以顯示一系統。

第4圖係顯示一三維音源編碼器之一第一實施例。

第5圖係顯示一三維音源解碼器之一第一實施例。

第6圖係顯示一三維音源編碼器之一第二實施例。

第7圖係顯示一三維音源解碼器之一第二實施例。

第8圖係顯示一三維音源編碼器之一第三實施例。

第9圖係顯示一三維音源解碼器之一第三實施例。

第10圖係顯示由方位角、仰角和半徑所表示原點之一音源物件在三維空間中的位置。

第11圖係顯示音源物件之位置以及由音源聲道產生器設定之一揚聲器方案。

在詳盡描述本發明之較佳實施例之前，先描述一新穎的三維音源編解碼器系統。

在習知技藝中，並不存在一彈性化的技術以結合一方面之聲道編碼以及另一方面之物件編碼，以獲得在低位元速率中可接受的音源品質。

此限制可被此新的三維音源編解碼器系統所克服。

在詳盡描述本發明之較佳實施例之前，先描述此新的三維音源編解碼器系統。

第4圖係繪示根據本發明之一實施例之3D音源編碼器。3D音源編碼器係用以編碼音源輸入數據101以取得音源輸入數據501。3D音源編碼器包含一輸入界面，該輸入界面係用以接收CH所指示的複數個音源聲道以及OBJ所指示的複數個音源物件。此外，第4圖所繪示的輸入界面1100額外地接收與複數個音源物件OBJ中的至少一個相關的元數據。此外，3D音源編碼器包含一混合器200，該混合器200係用以混合複數個物件以及複數個聲道以取得複數個預混合的聲道，其中每個預混合的聲道包含一聲道的音源數據以及至少一物件的音源數據。

此外，3D音源編碼器包含一核心編碼器300以及一元數據壓縮器400，其中核心編碼器300係用以核心編碼其輸入數據，元數據壓縮器400係用以壓縮與複數個音源物件中的至少一個相關的元數據。

此外，3D音源編碼器可包含一模式控制器600，其在複數個操作模式中的其中一個下係控制混合器，核心編碼器及/或一輸出界面500，其中核心編碼器在第一模式係用以編碼複數個音源聲道以及藉由輸入界面1100接收而不受混合器影響(亦即不藉由混合器200混合)的複數個音源物件。然而，在第二模式下混合器200是活躍的，核心編碼器編碼複數個混合的聲道，亦即區塊200所產生的輸出。在後者的情況下，較佳地，不要再編碼任何物件數據。相反地，指示複數個音源物件位置的元數據已被使用於混合器200，以將複數個物件轉譯於元數據所指示的複數個聲道上。換句話說，混合器200使用與複數個音源物件相關的元數據以預轉譯複數個音源物件，接著，所預轉譯的複數個音源物件與聲道混和以取得在混合器輸出上的混合聲道。在此實施例中，可以不必傳輸任何物件，也可將音源物件施加於經壓縮元數據並作為區塊400的輸出。然而，如果並非輸入界面1100的所有物件皆被混合而僅有特定數量的物件被混合，則僅維持沒有被混合的物件以及相關聯的元數據仍分別被傳送到編碼器300或元數據壓縮器400。

第6圖係繪示3D音源編碼器之另一實施例。圖中的3D音源編碼器更包含一SAOC編碼器800，該SAOC編碼器800用於從空間音源物件編碼器輸入數據中產生至少一運輸聲道以及參數化數據。如第6圖所繪示，空間音源物件編碼器的輸入數據係為尚未經由預轉譯器/混合器處理的物件。另外，當獨立聲道/物件編碼在第一模式下是活躍時，則預轉譯器/混合器被旁通略過，所有的物件被輸入到SAOC編碼器800所編碼的輸入界面1100。

此外，如第6圖所繪示，較佳地，核心編碼器300被實現作為USAC編碼器，亦即作為MPEG-USAC標準(USAC=聯合語音以及音源編碼)中所定義以及規範的編碼器。針對獨立數據型態，描繪於第6圖中的3D音源編碼器的所有輸出，即MPEG H數據流或3D音源數據流，係為具有容器狀結構的一MPEG 4數據流。此外，元數據被指示作為“OAM”數據，第4圖中的元數據壓縮器400對應於OAM編碼器400，以取得輸入到USAC編碼器300內的經壓縮OAM數據，如第6圖所繪示，USAC編碼器300更包含輸出界面，用於取得具有編碼聲道/物件數據以及經壓縮OAM數據的MP4輸出數據流。

第8圖係繪示3D音源編碼器之另一實施例。相對於第6圖，SAOC編碼器可用於使用SAOC編碼演算法以進行另一編碼，在預轉譯器/混合器200上所提供的複數個聲道於此模式下不會活躍，或者，SAOC編碼器用於SAOC編碼加入物件的複數個預轉譯聲道。因此，在第8圖中的SAOC編碼器800可在三種不同類型的輸入數據上操作，亦即複數個聲道不具有任何預處理物件、複數個聲道以及複數個預轉譯物件，或是複數個獨立物件。此外，較佳地，在第8圖中提供另一OAM解碼器420，以使SAOC編碼器800用於處理在編碼器側上與其相同的數據，亦即失真壓縮所取得的數據，而非原始的OAM數據。

在第8圖中，3D音源編碼器可在多個獨立模式下操作。

除了在第4圖的上下文中所描述的第一模式以及第二模式下外，在第8圖中的3D音源編碼器可額外地在第三模式下操作，當預轉譯/混合器200沒有活躍時，核心編碼器在第三模式下從複數個獨立物件中產生至少一運輸聲道。另外或額外地，當對應於第4圖中的混合器200的預轉譯/混合器200未活耀，SAOC編碼器在第三模式下從複數個原始訊號中產生至少一個另外的或額外的運輸聲道。

最後，當3D音源編碼器使用於第四模式時，SAOC編碼器800可對加入預轉譯/混合器所產生的複數個預轉譯物件的複數個聲道進行編碼。因此，在第四模式下，由於複數個聲道以及複數個物件完整地被傳送到複數個獨立的SAOC運輸聲道內，最低的位元率應用將提供良好的品質，並與第3圖以及第5圖中所指示的側編碼資訊相關聯而作為“SAOC-SI”，另外，在第四模式下，不會有任何的經壓縮元數據被傳送。

第5圖係繪示根據本發明之一實施例之3D音源解碼器。3D音源解碼器接收編碼音源數據作為一輸入，亦即第4圖的數據501。

3D音源解碼器包含一元數據解壓縮器1400、一核心解碼器1300、一處理器1200、一模式控制器1600以及一後處理器1700。

具體地，3D音源解碼器係用以解碼編碼音源數據，輸入界面係用以接收包含複數個編碼聲道以及複數個編碼物件的編碼音源數據，在一特定的模式下，經壓縮元數據係與複數個物件相關聯。

此外，核心解碼器1300係用以解碼複數個編碼聲道以及複數個編碼物件，額外地，元數據解壓縮器係用以解壓縮經壓縮元數據。

此外，物件處理器1200係用以使用解壓縮元數據處理核心解碼器1300所產生的複數個解碼物件，以取得包含物件數據以及複數個解碼聲道的一預定數量的複數個輸出聲道，該輸出聲道在1205上被指示並接著被輸入到後處理器1700內。後處理器1700係用以將一定數量的輸出聲道1205轉換成一特定輸出格式，該特定輸出格式可以為二進制輸出格式或揚聲器輸出格式，例如5.1以及7.1等輸出格式。

較佳地，3D音源解碼器包含一模式控制器1600，該模式控制器1600係用以分析編碼數據以檢測一模式指示。因此，模式控制器1600係連接到第5圖內的輸入界面1100。然而，模式控制器在此並非為必要的。相反地，可調式音源解碼器可藉由任何其他種類的控制數據進行預設，例如使用者輸入或任何其他控制。較佳地，在第5圖中的3D音源解碼器係藉由模式控制器1600進行控制，並用以旁通任何物件處理器並將複數個解碼聲道饋入後處理器1700。當第二模式應用於3D音源編碼器時，即第4圖的3D音源編碼器在第二模式下操作時，則僅有預轉譯聲道被接收。另外，當第一模式應用於3D音源編碼器在時，亦即當3D音源編碼器已執行獨立的聲道/物件編碼時，物件處理器1200不會被旁通，而複數個解碼聲道以及複數個解碼物件與元數據解壓縮器1400產生的解壓縮元數據一同被饋入到物件處理器1200。

較佳地，應用第一模式或第二模式的指示係被包含於解碼音源數據，模式控制器1600分析解碼數據以檢測一模式指示。當模式指示表示編碼音源數據包含複數個編碼聲道以及複數個編碼物件時，使用第一模式；而當模式指示表示編碼音源數據不包含任何音源物件(亦即僅包含由第4圖中的3D音源解碼器取得的複數個預轉譯聲道)時，使用第二模式。

第7圖係繪示相對於第5圖的3D音源編碼器的一實施例，第7圖的實施例係對應於第6圖的3D音源編碼器。除了在第5圖中3D音源編碼器的實施方式之外，在第7圖中的3D音源編碼器包含一SAOC解碼器1800。此外，第5圖的物件處理器1200被實施作為一獨立的物件轉譯器1210以及混合器1220，物件轉譯器1210的功能也可藉由SAOC解碼器1800根據不同的模式來實施。

此外，後處理器1700可被實施作為一二進制轉譯器1710或一格式轉換器1720。另外，也可實施第5圖的數據1205的直接輸出，如1730所繪示。因此，為了具有可變性，較佳的是使用較多數量(例如22.2或32)的聲道執行解碼器內的處理，如果需要一較小的格式，再接著進行後處理。然而，當一開始就清楚知道僅需要小格式(例如5.1格式)，較佳地，如第9圖的快捷1727所繪示，可施加跨越SAOC解碼器及/或USAC解碼器的一特別控制，以避免不必要的升混合操作以及隨後的降混合操作。

在本發明的較佳實施例中，物件處理器1200包含SAOC解碼器1800，該SAOC解碼器1800係用以解碼核心解碼器所輸出的至少一運輸聲道以及相關聯的參數化數據，並使用解碼元數據以取得複數個轉譯音源物件。為此，OAM輸出被連接至方塊1800。

此外，物件處理器1200係用以轉譯核心解碼器所輸出的複數個解碼物件，其並未被編碼於複數個SAOC運輸聲道，而是獨立編碼於物件轉譯器1210所指示的複數個典型單一聲道元件。此外，解碼器包含相對應於輸出1730的一輸出界面，用於將混合器之一輸出輸出到複數個揚聲器。

在另一實施例中，物件處理器1200包含一空間音源物件編碼解碼器1800，用於解碼至少一運輸聲道以及相關聯的參數化側邊資訊，其代表複數個編碼音源訊號或複數個編碼音源聲道，其中空間音源物件編碼解碼器係用以將相關聯的參數化資訊以及解壓縮元數據轉碼到經轉碼之參數化側邊資訊，以使能夠直接地轉譯輸出格式，例如在SAOC的早期版本所定義的示例。後處理器1700係用以使用複數個解碼運輸聲道以及經轉碼的參數化側邊資訊，以計算輸出格式的複數個音源聲道。後處理器所執行的處理可相似於MPEG環繞處理或可以為任何其他的處理，例如BCC處理等。

在另一實施例中，物件處理器1200包含一空間音源物件編碼解碼器1800，用於使用複數個解碼(藉由核心解碼器)運輸聲道以及參數化側邊資訊，針對輸出格式直接升混合以及轉譯。

此外，重要的是，第5圖的物件處理器1200更包含混合器1220，當存在複數個預轉譯物件與複數個聲道的混合時(亦即當第4圖的混合器200活躍時)，混合器1220直接地接收USAC解碼器1300所輸出的數據並作為一輸入。此外，混合器1220從執行物件轉譯的物件轉譯器接收沒有經SAOC解碼的數據。此外，混合器接收SAOC解碼器輸出數據，亦即複數個SAOC轉譯的物件。

混合器1220係連接到輸出界面1730、二進制轉譯器1710 以及格式轉換器1720。二進制轉譯器1710係用以使用頭部相關的轉換函數或雙耳空間脈衝響應(BRIR)，以將複數個輸出聲道轉譯成兩個二進制聲道。格式轉換器1720係用以將複數個輸出聲道轉換成一輸出格式，該輸出格式具有數量少於混合器的複數個輸出聲道1205的聲道，格式轉換器1720需要再現佈局上的資訊，例如5.1揚聲器等。

第9圖中的3D音源解碼器不同於第7圖中的3D音源解碼器，不同之處在於其SAOC解碼器不僅能產生複數個轉譯物件，也能產生複數個轉譯聲道，在此情況下，3D音源解碼器已被使用於第8圖中，且在複數個聲道/預轉譯物件以及SAOC編碼器800輸入界面之間的連接900為活躍的。

此外，向量基準波幅泛移(VBAP)級1810係用以從SAOC解碼器接收在再現佈局上的資訊，並將轉譯矩陣輸出到SAOC解碼器，以使SAOC解碼器在終端能以1205(亦即32個揚聲器)的高聲道格式來提供複數個轉譯聲道，而不需混合器的任何額外的操作。

較佳地，VBAP方塊係接收經解壓縮OAM數據以衍生複數個轉譯矩陣。更普遍的，較佳的是需要再現布局以及複數個輸入訊號應被轉譯到再現布局之位置的幾何資訊。幾何輸入數據可以為複數個物件或聲道位置資訊的OAM數據，其中複數個聲道已使用SAOC傳送。

然而，如果僅需要一特定的輸出界面，則VBAP級1810已經針對例如5.1輸出而提供所需要的轉譯矩陣。SAOC解碼器1800係執行來自SAOC運輸聲道、相關聯的參數數據以及解壓縮元數據的直接轉譯，而不須混合器1220之互相作用下直接轉譯成所需要的輸出格式。然而，當多個模式之間採用特定的混合時，即幾個聲道係SAOC編碼但非所有聲道皆為SAOC編碼；或是幾個物件係SAOC編碼但非所有物件皆SAOC編碼；或是僅特定數量的具有聲道之前轉譯物件係SAOC解碼而剩餘聲道不以SAOC處理，然後混合器將從個別輸入部分，即直接來自核心解碼器1300、物件轉譯器1210以及SAOC解碼器1800的數據放在一起。

在三維音源中，一方位角角度、一仰角角度以及一半徑是用於定義一音源物件之位置，此外，可傳送對於一音源物件之一增益。

方位角角度、仰角角度以及半徑明確地定義從一起點在一三維空間裡之一音源物件的位置，其示意圖可參考第10圖。

第10圖係顯示由方位角、仰角和半徑所表示原點400之一音源物件在三維空間(三維)中的位置410。

所述方位角角度定義，例如，在xy平面裡的一角度(所述平面係由x軸及y軸所定義)。所述仰角角度定義，例如，在xz平面裡的一角度(所述平面係由x軸及z軸所定義)。藉由定義此方位角角度及仰角角度，直線415係穿過所述原點400且所述音源物件之位置410能夠被定義。藉由更進一步的定義所述半徑，能夠定義所述音源物件的精確位置410。

在一實施例裡，所述方位角角度被定義為範圍：-180°<方位角180°所述仰角角度被定義為範圍：-90°<elevation90°，且所述半徑可以，例如，被定義在公尺[m](大於或等於0公尺)。被所述方位角、仰角以及角度描述的範圍能被分開至兩個半球：左半球(0°<方位角180°)以及右半球(-180°<方位角0°)，或上半球(0°<仰角90°)以及下半球(-90°<仰角0°)。

在另一實施例裡，舉例來說，可被假設為在一xyz座標系統裡所述音源物件位置之所有x數值係大於或等於0，所述方位角角度可被定義為範圍：-90°方位角90°，所述仰角角度可被定義為範圍：-90°仰角90°，以及所述半徑可以，例如，被定義為公尺[m]。

舉例來說，根據一個或多個音源物件訊號以及所述再建元數據資訊數值，所述降混合處理器120可以，例如，被設置用來產生一個或多個音源聲道，其中所述再建元數據資訊數值可以，例如，指示所述音源物件之位置。

在一實施例裡，元數據資訊數值可以，例如，指示所述方位角角度可被定義為範圍：-180°<方位角180°，所述仰角角度被定義為範圍：-90°<elevation90°，且所述半徑可以，例如，被定義公尺[m](大於或等於0公尺)。

第11圖係顯示音源物件之位置以及由所述音源聲道產生器設定之一揚聲器方案。圖中繪示xyz座標系統之原點500，此外，一第一音源物件之位置510以及一第二音源物件之位置520係被繪示的。此外，第11圖繪示一情節，其中所述音源聲道產生器120對四個揚聲器產生四音源聲道。音源聲道產生器120假設此四個揚聲器511、512、513以及514係放置於如第11圖所示之位置。

在第11圖裡，所述第一音源物件是座落於靠近揚聲器511及512位置之一位置510，且其係遠離揚聲器513及514。因此，所述音源聲道產生器120可以產生所述四音源聲道，使得第一音源物件510可以被揚聲器511和512重建，但無法被揚聲器513和514所重建。

在其他實施例中，音源聲道產生器120可以產生所述四音源聲道，使得第一音源物件510可以被揚聲器511和512以一高水平重建，且其可以被揚聲器513和514以一低水平所重建。

此外，所述第二音源物件是座落於靠近揚聲器513及514位置之一位置520，且其係遠離揚聲器511及512，因此，所述音源聲道產生器120可以產生所述四音源聲道，使得第二音源物件520可以被揚聲器513和514重建，但無法被揚聲器511和512所重建。

在其他實施例中，降混合處理器120可以產生所述四音源聲道，使得第二音源物件520可以被揚聲器513和514以一高水平重建，且其可以被揚聲器511和512以一低水平所重建。

在替代的實施例中，只有兩個元數據資訊數值是被用於指定一音源物件之位置。例如，只有方位角及半徑可以被指定，例如，當假設所有的音源物件被置放在一單一平面裡時。

在更進一步的其他實施例裡，對於每一音源物件，只有一元數據訊號的單一元數據資訊數值是被編碼且被傳送以作為位置資訊。舉例來說，只有一方位角角度可以被指定成針對一音源物件的位置資訊(如，可以假設所有音源物件被置放在相同平面裡且距離一中心點擁有相同的距離，因此可以被假定為具有相同的半徑)。所述方位角資訊可以，例如，充分的確定一音源物件是座落於靠近一左揚聲器且遠離一右揚聲器。在此情況下，所述音源聲道產生器120可以產生一個或多個音源聲道，使得所述音源物件被左揚聲器，而非右揚聲器所再現。

舉例來說，向量基底幅度平移可以被用來決定一音源物件訊號在每一音源輸出聲道裡的權重(請見[VBAP])。相對於VBAP，其假設一音源物件訊號被指定到一虛擬來源，且其更進一步的假設一音源輸出聲道是一揚聲器之一聲道。

在實施例中，更進一步的，一元數據訊號之一元數據資訊數值可以指定對每一音源物件指定一音量，例如，以分貝[dB]表示。

例如，在第11圖裡，一第一增益數值可高於一第二增益數值，此第一增益數值可以由一元數據資訊數值來指定，且元數據資訊數值是針對座落在位置510的第一音源物件，此第二增益數值可以由另外的元數據資訊數值來指定，且此另外的元數據資訊數值是針對座落在位置520的第二音源物件。在此情況下，揚聲器511及512可以以一水平來再現所述第一音源物件，且此水平係高於揚聲器513及514之用來再現所述第二音源物件之水平。

根據SAOC技術，一SAOC編碼器係接收複數個音源物件訊號X，並採用一降混合矩陣D以降混合此複數個音源物件訊號X，以獲得包含一個或多個音源傳輸聲道之一音源傳輸訊號Y。公式Y=DX可以被採用所述SAOC編碼器傳送音源傳輸訊號Y以及在降混合矩陣D上之資訊(如，所述降混合矩陣D之係數)至所述SAOC解碼器。此外，所述SAOC編碼器傳送在一協方差矩陣E上之資訊(如，所述協方差矩陣E之係數)至所述SAOC解碼器。

在解碼器端，所述音源物件訊號X可以被再建並用以採用所述公式而獲得再建音源物件。

其中G為一參數化來源估算矩陣，G=E D ^H(D E D ^H)^-1。

然後，一個或多個音源輸出聲道Z可以應用在所述再建音源物件上的一轉譯矩陣R而產生，其係根據以下公式：

從所述音源傳輸訊號產生所述一個或多個音源輸出聲道Z，其能夠在一單一步驟採用矩陣U並根據以下公式而進行：Z=UY，其中U=RG。

所述轉譯矩陣R的每一列是有關於將被產生之音源輸出聲道之其中之一，在轉譯矩陣R裡的其中一列的每一係數係決定在所述音源輸出聲道裡的再建音源物件訊號之其中之一的權重，到所述轉譯矩陣R所相關之列。

例如，所述轉譯矩陣R可以取決於每一音源物件訊號傳送到元數據資訊裡的SAOC解碼器之位置資訊。例如，一音源物件訊號擁有靠近一假定或實際揚聲器位置之一位置，如，可以在所述揚聲器之音源輸出聲道裡具有高於一音源物件訊號之一權重，此位置係遠離所述揚聲器(見第5圖)舉例來說，向量基底幅度平移可以被用來決定一音源物件訊號在每一音源輸出聲道裡的權重(請見[VBAP])。相對於VBAP，其假設一音源物件訊號被指定到一虛擬來源，且其更進一步的假設一音源輸出聲道是一揚聲器之一聲道。

在第6圖及第8圖中，係繪示一SAOC編碼器800。所述SAOC編碼器800係用於參數化地編碼多個輸入物件/聲道，其係藉由降混合此多個輸入物件/聲道至較小數量之傳輸聲道並擷取必要的輔助資訊，其中此輔助資訊係崁入在所述三維音源位元串流裡。

降混合成一較小數量的傳輸聲道可以針對每一輸入訊號以及降混聲道來使用降混合係數來完成(如，採用一降混合矩陣)。

在習知技藝裡處理音源物件訊號的係為MPEG SAOC系統，此系統之一主要特點為中間降混合訊號(或根據第6圖及第8圖之SAOC傳輸聲道)能夠使用遺留的裝置來監聽，此裝置係無能力解碼所述SAOC資訊。此加強了欲被使用之降混合係數上的限制，且此降混合係數通常由內文創造者所提供。

所述三維音源編解碼器系统係有目的的去使用SAOC技術來增加編碼一大量物件或聲道之效率，降混合一大量數量的物件成一小量數量的傳輸聲道節省了位元速率。

第2圖係繪示根據一實施例之用以產生包含一個或多個音源傳輸聲道之一音源傳輸訊號的裝置。

所述裝置包含一物件混合器用以產生所述音源傳輸訊號，此音源傳輸訊號包含來自於所述兩個或更多音源物件訊號之一個或更多音源傳輸聲道，使得所述兩個或更多音源物件訊號被混合在音源傳輸訊號裡，且其中所述一個或多個音源傳輸聲道之數量小於所述兩個或多個音源物件訊號之數量。

此外，此裝置包含一輸出介面220以輸出所述音源傳輸訊號，根據一第一混合規則以及一第二混合規則，所述物件混合器210被設置用以產生所述音源傳輸訊號之一個或多個音源傳輸聲道，其中所述第一混合規則係指出如何混合所述兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中所述第二混合規則係指出如何混合複數個預混合聲道以獲得所述音源傳輸訊號之一個或多個音源傳輸聲道。所述第一混合規則取決於一音源物件數量以及一預混合聲道數量，所述音源物件數量指出所述兩個或多個音源物件訊號之數量，所述預混合聲道數量指出所述複數個預混合聲道之數量，且其中所述第二混合規則取決於所述預混合聲道數量。所述輸出介面220被設置用以輸出在所述第二混合規則上之資訊。

第1圖係繪示根據一實施例之用以產生一個或多個音源輸出聲道的裝置。所述裝置包含一參數處理器110以及一降混合處理器120，此參數處理器110用以計算輸出聲道混合資訊，而降混合處理器120用以產生所述一個或多個音源輸出聲道。所述降混合處理器120被設置用以接收包含一個或多個音源傳輸聲道之一音源傳輸訊號，其中兩個或多個音源物件訊號被混合在所述音源傳輸訊號裡，且其中所述一個或多個音源傳輸聲道之數量小於所述兩個或多個音源物件訊號之數量。所述音源傳輸訊號取決於一第一混合規則以及一第二混合規則，所述第一混合規則指出如何混合所述兩個或多個音源物件訊號以獲得複數個預混合聲道。此外，所述第二混合規則指出如何混合所述複數個預混合聲道以獲得所述音源傳輸訊號之一個或多個音源傳輸聲道。所述參數處理器110被設置用以接收在所述第二混合規則上之資訊，其中在所述第二混合規則上之資訊指出如何混合所述複數個預混合訊號，使得所述一個或多個音源傳輸聲道被獲得，根據一音源物件數量、一預混合聲道數量以及在所述第二混合規則上之資訊，所述參數處理器110被設置用以計算所述輸出聲道混合資訊，所述音源物件數量指出所述兩個或多個音源物件訊號之數量，所述預混合聲道數量指出所述複數個預混合聲道之數量。所述降混合處理器120被設置用以從所述音源傳輸訊號產生一個或多個音源輸出聲道，所述音源傳輸訊號係取決於所述輸出聲道混合資訊。

根據一實施方式，所述裝置可以，如被設置為接收該音源物件數量以及該預混合聲道數量之其中至少一個。

在另一實施方式中，根據所述音源物件數量以及所述預混合聲道數量，所述參數處理器110可用於決定在所述第一混合規則上之資訊，使得在所述第一混合規則之資訊指出如何混合所述兩個或多個音源物件訊號以獲得所述複數個預混合聲道。在此實施例中，根據在所述第一混合規則上之資訊以及在所述第二混合規則上之資訊，所述參數處理器110係可以，如被設置用以計算該輸出聲道混合資訊。

根據一實施例，按照所述音源物件數量以及所述預混合聲道數量，所述參數處理器110可用以確定一第一矩陣P之複數個係數以作為在所述第一混合規則上之資訊，其中所述第一矩陣P係指出如何混合所述複數個預混合聲道以獲得所述音源傳輸訊號之所述一個或多個音源傳輸聲道。在此實施例中，所述參數處理器110可用以接收一第二矩陣P之複數個係數以作為在所述第二混合規則上之資訊，其中所述第二矩陣Q係指出如何混合所述複數個預混合聲道以獲得所述音源傳輸訊號之所述一個或多個音源傳輸聲道。在此實施例之所述參數處理器110可用以計算取決於所述第一矩陣P以及所述第二矩陣Q之所述輸出聲道混合資訊。

Y=DX，實施方式是基於發現當降混合所述兩個或多個音源物件訊號X，以藉由根據以下公式而採用降混合矩陣D來獲得在所述編碼端上之一音源傳輸訊號Y， Y=DX，D=QP。然後降混合矩陣D能夠根據以下公式劃分到兩個較小的矩陣P及Q裡。

因此，所述第一矩陣P按照以下公式從所述音源物件訊號X到所述複數個預混合聲道X_pre來實現混合：X _pre =PX

所述第二矩陣Q按照以下公式從所述複數個預混合聲道Xpre到所述音源傳輸訊號Y之一個或多個音源傳輸聲道來實現所述混合：Y=Q X _pre

根據此實施方式，在第二混合規則上之資訊，如在第二混合矩陣Q之所述係數上，係被傳送到解碼器。

而第一混合矩陣P之係數則不被傳送到解碼器，取代的是，所述解碼器接收音源物件訊號之所述數量上之資訊以及預混合聲道之所述數量上之資訊。從此資訊，此解碼器能夠再建所述第一混合矩陣P。例如，當混合第一數量的N_objects個音源物件訊號至第二數量的Npre個預混合聲道，所述編碼器及解碼器以同樣方式決定所述混合矩陣P。

第3圖係根據一實施例以顯示一系統。此系統包含一裝置310用以產生如上所參考到第2圖之一音源傳輸訊號，以及參考到第1圖之用以產生一個或多個音源輸出聲道的裝置320。

用以產生一個或多個音源輸出聲道的裝置320係用以接收所述音源傳輸訊號以及在第二混合規則上之資訊，所述第二混合規則係來自於用於產生一音源傳輸訊號的裝置310。此外，根據第二混合規則上之資訊，用以產生一個或多個音源輸出聲道的裝置係用以從音源傳輸訊號產生一個或多個音源輸出聲道。

舉例來說，所述參數處理器110可以，如用以接收一元數據，所述元數據包含針對每一所述兩個或多個音源物件訊號之位置資訊，並根據每一所述兩個或更多音源物件訊號之位置資訊來決定所述第一降混合規則上之資訊，如採用垂直基礎幅度平移。如，所述編碼器可以存取每一兩個或多個音源物件訊號之位置資訊，也可以採用垂直基礎幅度平移來決定在預混合聲道裡所述音源物件訊號之權重，而在解碼器也利用相同的方式來決定在第一矩陣P的係數(如，編碼器以及解碼器可以在假想揚聲器之相同位置，且這些揚聲器被指定到N_pre個預混合聲道)。

藉由接收所述第二矩陣Q的係數以及決定第一矩陣P，此解碼器可以根據D=QP來決定降混合矩陣D。

在一實施方式中，所述參數處理器110可以，例如用來接收協方差資訊，如一協方差矩陣E之係數(如，從所述裝置用於產生音源傳輸訊號)，以指出對於每一兩個或多個音源物件訊號之一物件水平差異，可能地，亦指出在所述音源物件訊號中之一以及音源物件訊號中之另一個之間的一個或多個物件間相關性。

在此實施方式中，根據音源物件數量、所述預混合聲道數量、在所第二混合規則上之資訊以及所述協方差資訊，所述參數處理器110可設置來計算輸出聲道混合資訊。

例如，使用所述協方差矩陣E，所述音源物件訊號X可以被再建，以採用所述公式而獲得再建音源物件。

其中G為一參數化來源估算矩陣，G=E D ^H(D E D ^H)^-1。

然後，根據以下公式，一個或多個音源輸出聲道Z可以應用在所述再建音源物件上的一轉譯矩陣R而產生：

根據以下公式，從所述音源傳輸訊號產生所述一個或多個音源輸出聲道Z，其能夠在一單一步驟採用矩陣U：Z=UY，其中S=UG此矩陣S為一範例，來針對由所述參數處理器110決定一輸出聲道混合資訊。

舉例來說，如上所解釋，轉譯矩陣R之每一列可以相關聯於將被產生之音源輸出聲道的其中之一。在轉譯矩陣R裡的其中一列的每一係數係決定在所述音源輸出聲道裡的再建音源物件訊號之其中之一的權重，到所述轉譯矩R陣所相關之列。

根據一實施方式，根據所述音源物件數量、所述預混合聲道數量、第二混合規則上之資訊以及轉譯資訊(如轉譯矩陣R)，所述參數化處理器110可用來接收包含針對每一兩個或多個音源物件訊號之位置資訊的元數據資訊，也可用來決定轉譯資訊，如按照每一所述兩個或多個音源物件訊號之位置資訊，在轉譯矩陣R之係數，也可用來計算所述輸出聲道混合資訊(如上述之矩陣S)。

如此，所述轉譯矩陣R可以，舉例來說，取決於每一音源物件訊號傳送到元數據資訊裡的SAOC解碼器之位置資訊。如，一音源物件訊號擁有靠近一假定或實際揚聲器位置之一位置，如，可以在所述揚聲器之音源輸出聲道裡具有高於一音源物件訊號之一權重，此位置係遠離所述揚聲器(見第5圖)。舉例來說，向量基底幅度平移可以被用來決定一音源物件訊號在每一音源輸出聲道裡的權重(請見[VBAP])。相對於VBAP，其假設一音源物件訊號被指定到一虛擬來源，且其更進一步的假設一音源輸出聲道是一揚聲器之一聲道。所述轉譯矩陣R的相關係數可根據如此一權重來被設定(此係數係被指定給考慮過音源輸出聲道以及音源物件訊號)。例如，權重本身可以是在轉譯矩陣R裡所述相關係數之數值。

在下文中將詳盡描述，實施方式來實現空間降混合以用於以物件為基礎的訊號。

以下符號及定義係用來進行參考使用N _Objects 輸入音源物件訊號之數量

N _Channels 輸入聲道之數量

N 輸入訊號之數量，N可以相等於N _Objects，N _Channels，或者是兩者之和(N _Objects+N _Channels)

N _DmxCh 降混合(已處理的)聲道之數量

N _pre 預混合聲道之數量

X 包含所述兩個或多個音源輸入訊號之輸入音源訊號，其大小為N x N_Samples

Y 降混合音源訊號(所述音源傳輸訊號)，其大小為N_DmxCh x N_Samples，定義為Y=DX

DMG 用於每一輸入訊號、降混聲道以及參數集合之降混合增益資料

D _DMG 是保持去量化之所述三維空間矩陣，且針對每一輸入訊號、降混聲道以及參數集合以映射DMG資料。

不失一般性，為了改善公式之可讀性，對所有引進的變數所表示的時間和頻率相依均被省略。

若是沒有限制指定於所述輸入訊號(聲道或物件)，所述降混合係數針對輸入聲道訊號以及輸入物件訊號係以相同方式來計算。符號N係使用來表示輸入訊號之數量。

有些實施方式可以，如，被設計用於以不同聲道訊號的方式來降混合物件訊號，其係透過物件元數據裡可得的空間資料來進行導引。

此降混合可以被分為兩步驟：

- 在第一步驟，所述物件被預轉譯給具有最高數量揚聲器之再現設計(如，N_pre=22由22.2配置所給定)，如，可以被採用所述第一矩陣P。

- 在一第二步驟中，所獲得的N_pre預轉譯訊號被降混合至可用傳輸聲道的數量(N_DmxCh)(如，根據一正交降混合分布演算法)。如，可以被採用所述第二矩陣Q。

然而，在部份實施方式中，此降混合可以在單一步驟裡被完成，如，藉由採用的矩陣D並根據公式：D=QP，並藉由應用Y=DX與D=QP。

特別是，所提出概念的更進一步優點為，如在所述音源情境裡，在相同空間位置被轉譯的所述輸入物件訊號係在相同的傳輸聲道裡被一起降混合。所以，在解碼器端，可獲得所述轉譯訊號之一較佳分割，在最後再現情境裡可防止音源物件之分割被混合回去在一起。

根據特定的較佳實施例，所述降混合可以被描述成為一矩陣乘法，其藉由：X _pre =PX以及Y=QX _pre其中P的大小(N_pre x N_Objects)以及Q的大小(N_DmxCh x N_pre)可以被計算如下所述。

在P裡的所述混合係數是從物件訊號元數據所建構(半徑、增益、方位角以及仰角角度)，此物件訊號元數據係使用一平移演算法(如，向量基礎幅度平移)，此平移演算法應該相同於在解碼器端用來建構輸出聲道的平移演算法。

在編碼器端被給定在Q中的混合係數是用於N_pre個輸入訊號以及N_DmxCh個可用傳輸聲道。

為了減少計算複雜度，此兩步驟降混合可以藉由計算最後降混合增益而簡化為一步驟，如：D=QP然後藉由下式給定降混合訊號：Y=DX

在P中的所述混合係數將不在位元串流中被傳送。取代的是，所述混合係數在解碼器端使用相同的平移演算法而被重建。因此，所述位元速度可藉由僅送出Q中的混合係數而減少。特別是，當在P裡的混合係數係通常為時間變異數，且當P不被傳送時，一較高的位元速率減少能夠被達成。

在下文中，依據一實施方式，係考慮所述位元串流句法。

為了訊號化所使用的降混合方法以及聲道之數量Npre，以提取在第一步驟裡之物件，所述MPEG SAOC位元串流句法被擴大為使用4個位元：

bsNumPremixedChannels

在MPEG SAOC的上下文裡，其可以藉由下列的修改而被完成：bsSaocDmxMethod：指出所述降混合矩陣如何裡建構

SAOC3DSpecificConfig()之文句：訊號化

bsNumSaocDmxChanneIs 定義用於以聲道為基礎之內容之降混聲道之數量，如果在降混合中不存在任何聲道，bsNumSaocDmxChannels則設定成0

bsNumSaocChannels 定義用於傳送SAOC三維參數之輸入聲道之數量。若是bsNumSaocChannels等於0，則在降混合裡不存在任何聲道

bsNumSaocDmxObjects 定義用於以物件為基礎之內容之降混聲道之數量，如果在降混合中不存在任何物件，則設定bsNumSaocDmxObjects成0

bsNumPremixedChannels 定義用於輸入音源物件之預混合聲道之數量，若是bsSaocDmxMethod等於15，則實際數量的預混合聲道之則直接藉由bsNumPremixedChannels的數值來被訊號化，根據先前的表格，在其他情況下設定bsNumPremixedChannels。

根據一實施例，應用於輸入音源訊號的降混合矩陣係決定所述降混合訊號為：X=DS

所述降混合矩陣的大小可以由以下式子而取得：D=D _dmx D _premix

按照處理模式，所述矩陣D _dmx以及矩陣D _premix具有相異的大小。

從所述DMG參數所獲得的所述矩陣D _dmx可表示為：

此處，所述去量化降混合參數可由下式取得：DMG _i,j=D _DMG(i,j,l)

在直接模式的情況下，沒有預混合被使用到，所述矩陣D _premix具有N×N之大小，且此矩陣可由下式表示：D _premix =I，所述矩陣D _dmx具有N _dmx×N之大小，且其是從DMG參數所獲得。

在預混合模式的情況下，所述矩陣具有大小，且此矩陣可由下式表示：

其中從所述物件轉譯者，大小為N _premix×N _obj的所述預混合矩陣A係被接收以作為SAOC三維解碼器之輸入。

所述矩陣具有D _dmx之大小N _premix×N _obj，且其是從DMG參數所獲得。

雖然一些態樣已經在裝置之內容中描述，清楚的是這些態樣亦代表相對應的方法之描述，而方塊或是裝置係對應方法步驟或是方法步驟之特徵。同樣地，在方法步驟之內容中描述的態樣亦代表相對應的方塊或是項目或是相對應裝置之特徵的描述。

本發明的解壓縮訊號可儲存在數位儲存媒體上或是可傳送至傳送媒體上(例如無線傳送媒體)或是有線傳送媒體(例如網際網路)。

取決於特定的執行需求，本發明的實施例可在硬體或是在軟體上實現。此實現可使用性，數位儲存媒體，例如儲存有電子可讀取控制訊號的軟碟、DVD、CD、ROM、PROM-EPROM、EEPROM或是FLASH記憶體其能與一可程式化電腦系統合作(或是能夠配合)以執行上述方法。

根據本發明之一些實施例包含具有電子可讀取控制訊號的非暫態數據載體，其能夠與可程式化電腦系統配合，以執行上述方法中的其中一個。

通常，本發明之實施例可實現為一具有程式碼的電腦程式產品，當此電腦程式產品在一電腦上執行時此程式碼係操作以執行上述方法中的其中一個。例如此程式碼可儲存在機器可讀取載體上。

其他實施例包含用以執行上述方法中的其中一個的電腦程式，其儲存在機器可讀取載體上。

換句話說，因此發明的方法之實施例係為具有當此電腦程式在電腦上執行時，能執行上述方法中的其中一個的程式碼的電腦程式。

因此，本發明的方法之另一實施例數據載體(或是數位儲存媒體或是電腦可讀取媒體)包含紀錄用以執行上述方法中的其中一個的電腦程式。

因此，本發明之方法之另一實施例係為一數據流或是一串訊號，其代表用於執行上述方法中的其中一個的電腦程式。例如數據流或是此串訊號可配置經由數據通訊連接傳輸，例如透過網際網路。

另一實施例包含一處理裝置例如電腦，或是可程式化邏輯裝置，用以或是採用執行上述方法中的其中一個。

另一實施例包含一安裝有用於執行上述方法中的其中一個之電腦程式的電腦。

在一些實施例中，可程式化邏輯裝置(例如場效可程式化閘極陣列)可用以執行上述方法之一些或是全部功能。在一些實施例中，為了執行上述方法中的其中一個，場效可程式化閘極陣列可配合微處理器。通常，此方法可藉由任何硬體裝置較佳執行。

上述實施例係僅為本發明原理之說明。應理解的是在較佳實施例之詳細說明中所提出之具體實施例僅用以方便說明本發明之技術內容，而非將本發明狹義地限制於上述實施例，在不超出本發明之精神及以下申請專利範圍之情況，所做之種種變化實施，皆屬於本發明之範圍。

參考文獻：

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[VBAP] Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”; J. Audio Eng. Soc., Level 45, Issue 6, pp. 456-466, June 1997.

[M1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.

[M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.

[M3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.

[M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.

[M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.

[M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.

[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004.

[M8] Web3D, "International Standard ISO/IEC 14772-1：1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.

[M9] Sporer, T. (2012), "Codierung räumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.

110‧‧‧參數處理器

120‧‧‧降混合處理器

Claims

一種裝置，用以產生一個或多個音源輸出聲道，其中該裝置包含：一參數處理器(110)，用以計算輸出聲道混合資訊，以及一降混合處理器(120)，用以產生該一個或多個音源輸出聲道，\其中該降混合處理器(120)係設置用以接收包含一個或多個音源傳輸聲道之一音源傳輸訊號，其中兩個或多個音源物件訊號被混合在該音源傳輸訊號裡，且其中該一個或多個音源傳輸聲道之數量小於該兩個或多個音源物件訊號之數量，其中該音源傳輸訊號取決於一第一混合規則以及一第二混合規則，其中該第一混合規則係指出如何混合該兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中該第二混合規則係指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該參數處理器(110)被設置用以接收在該第二混合規則上之資訊，其中在該第二混合規則上之該資訊指出如何混合該複數個預混合訊號，使得該一個或多個音源傳輸聲道被獲得，其中根據一音源物件數量、一預混合聲道數量以及在該第二混合規則上之該資訊，該參數處理器(110)被設置用以計算該輸出聲道混合資訊，該音源物件數量係指出該兩個或多個音源物件訊號之該數量，該預混合聲道數量指出該複數個預混合聲道之該數量，以及其中該降混合處理器(120)係設置用以從該音源傳輸訊號產生該一個或多個音源輸出聲道，該音源傳輸訊號係取決於該輸出聲道混合資訊。
如申請專利範圍第1項所述之裝置，其中該裝置係設置用以接收該音源物件數量以及該預混合聲道數量之其中至少一個。
如申請專利範圍第1項所述之裝置，其中根據該音源物件數量以及該預混合聲道數量，該參數處理器(110)被設置用以確定在該第一混合規則上之資訊，使得在該第一混合規則之該資訊指出如何混合該兩個或多個音源物件訊號以獲得該複數個預混合聲道，以及其中根據在該第一混合規則上之該資訊以及在該第二混合規則上之該資訊，該參數處理器(110)係被設置用以計算該輸出聲道混合資訊。
如申請專利範圍第3項所述之裝置，其中根據該音源物件數量以及該預混合聲道數量，該參數處理器(110)被設置用以確定一第一矩陣(P)之複數個係數以作為在該第一混合規則上之該資訊，其中該第一矩陣(P)係指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該參數處理器(110)被設置用以接收一第二矩陣(Q)之複數個係數以作為在該第二混合規則上之該資訊，其中該第二矩陣(Q)係指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，以及其中該參數處理器(110)被設置用以計算取決於該第一矩陣(P)以及該第二矩陣(Q)之該輸出聲道混合資訊。
如申請專利範圍第1項所述之裝置，其中該參數處理器(110)係設置用以接收一元數據，該元數據包含針對每一該兩個或多個音源物件訊號之位置資訊，其中根據每一該兩個或多個音源物件訊號之該位置資訊，該參數處理器(110)被設置用以確定在該第一降混合規則上之該資訊。
如申請專利範圍第5項所述之裝置，其中該參數處理器(110)係根據每一該兩個或多個音源物件訊號之該位置資訊，以確定一轉譯資訊，以及其中根據該音源物件數量、該預混合聲道數量、在該第二混合規則上之該資訊以及該轉譯資訊，該參數處理器(110)被設置用以計算該輸出聲道混合資訊。
如申請專利範圍第1項所述之裝置，其中該參數處理器(110)被設置用以接收一協方差資訊，該協方差資訊指出針對每一該兩個或多個音源物件訊號之一物件水平差異，以及其中根據該音源物件數量、該預混合聲道數量、在該第二混合規則上之該資訊以及該協方差資訊，該參數處理器(110)被設置用以計算該輸出聲道混合資訊。
如申請專利範圍第7項所述之裝置，其中該協方差資訊更指出在該兩個或多個音源物件訊號之其中之一及另一個之間的至少一物件間相關性，以及其中根據該音源物件數量、該預混合聲道數量、在該第二混合規則上之該資訊、每一該兩個或多個音源物件訊號之該物件水平差異以及在該兩個或多個音源物件訊號之其中之一及另一個之間的該至少一物件間相關性，該參數處理器(110)被設置用以計算該輸出聲道混合資訊。一種用以產生包含一個或多個音源傳輸聲道之一音源傳輸訊號的裝置，其中該裝置包含：一物件混合器(210)用以產生該音源傳輸訊號，該音源傳輸訊號包含來自於兩個或多個音源物件訊號之該一個或多個音源傳輸聲道，使得該兩個或多個音源物件訊號被混合在該音源傳輸訊號裡，且其中該一個或多個音源傳輸聲道之該數量小於該兩個或多個音源物件訊號之該數量，以及一輸出介面(220)用以輸出該音源傳輸訊號，其中根據一第一混合規則以及一第二混合規則，該物件混合器(210)被設置用以產生該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該第一混合規則指出如何混合該兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中該第二混合規則指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該第一混合規則取決於一音源物件數量以及一預混合聲道數量，該音源物件數量指出該兩個或多個音源物件訊號之該數量，該預混合聲道數量指出該複數個預混合聲道之該數量，且其中該第二混合規則取決於該預混合聲道數量，以及其中該輸出介面(220)被設置用以輸出在該第二混合規則上之資訊。
如申請專利範圍第9項所述之裝置，其中根據一第一矩陣(P)及一第二矩陣(Q)，該物件混合器(210)被設置用以產生該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該第一矩陣(P)係指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，以及該第二矩陣(Q)指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，以及其中該參數處理器(110)被設置用以輸出該第二矩陣(Q)之複數個係數以作為在該第二混合規則上之該資訊。
如申請專利範圍第9項所述之裝置，其中該物件混合器(210)被設置針對每一該兩個或多個音源物件訊號以接收位置資訊，以及其中根據每一該兩個或多個音源物件訊號之該位置資訊，該物件混合器(210)被設置用以確定在該第一混合規則。
一種系統，包含：根據如申請專利範圍第9項至第11項之其中之任一項用以產生一音源傳輸訊號之一裝置(310)，以及根據如申請專利範圍第1項至第8項之其中之任一項用以產生一個或多個音源輸出聲道之一裝置(320)，其中如申請專利範圍第1項至第8項之其中之任一項之該裝置(320)係被設置用以接收從如申請專利範圍第9項至第11項之其中之一之該裝置(310)之該音源傳輸訊號及在該第二混合規則上之資訊，以及其中根據在該第二混合規則上之該資訊，如申請專利範圍第1項至第8項之其中之任一項之該裝置(320)被設置用以該音源傳輸訊號產生該一個或多個音源輸出聲道。
一種用以產生一個或多個音源輸出聲道的方法，其中該方法包含：接收包含一個或多個音源傳輸聲道之一音源傳輸訊號，其中兩個或多個音源物件訊號被混合在該音源傳輸訊號裡，且其中該一個或多個音源傳輸聲道之數量小於該兩個或多個音源物件訊號之數量，其中該音源傳輸訊號取決於一第一混合規則以及一第二混合規則，其中該第一混合規則指出如何混合該兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中該第二混合規則指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，接收在該第二混合規則上之資訊，其中在該第二混合規則上之該資訊指出如何混合該複數個預混合訊號，使得該一個或多個音源傳輸聲道被獲得，根據一音源物件數量、一預混合聲道數量以及在該第二混合規則上之資訊，計算該輸出聲道混合資訊，該音源物件數量指出該兩個或多個音源物件訊號之該數量，該預混合聲道數量指出該複數個預混合聲道之該數量，以及根據該輸出聲道混合資訊，從該音源傳輸訊號產生一個或多個音源輸出聲道。
一種產生包含一個或多個音源傳輸聲道之一音源傳輸訊號之方法，其中該方法包含：產生該音源傳輸訊號，該音源傳輸訊號包含來自於兩個或多個音源物件訊號之該一個或多個音源傳輸聲道，輸出該音源傳輸訊號，以及輸出在該第二混合規則上之資訊，其中產生該音源傳輸訊號係被進行，使得兩個或更多音源物件訊號被混合在該音源傳輸訊號裡，該音源傳輸訊號包含來自於該兩個或更多音源物件訊號之該一個或更多音源傳輸聲道，其中該一個或多個音源傳輸聲道之該數量小於該兩個或多個音源物件訊號之該數量，以及其中根據一第一混合規則以及一第二混合規則，產生該音源傳輸訊號之該一個或多個音源傳輸聲道係被進行，其中該第一混合規則指出如何混合該兩個或多個音源物件訊號以獲得複數個預混合聲道，且其中該第二混合規則指出如何混合該複數個預混合聲道以獲得該音源傳輸訊號之該一個或多個音源傳輸聲道，其中該第一混合規則取決於一音源物件數量以及一預混合聲道數量，該音源物件數量指出該兩個或多個音源物件訊號之該數量，該預混合聲道數量指出該複數個預混合聲道之該數量，且其中該第二混合規則取決於該預混合聲道數量。
一種電腦程式，當該電腦程式被執行於一電腦上或一訊號處理器上時，該電腦程式係用實作如申請專利範圍第13項或第14項所述之方法。