TWI545562B

TWI545562B - 用於提升3d音訊被導引降混性能之裝置、系統及方法

Info

Publication number: TWI545562B
Application number: TW102133018A
Authority: TW
Inventors: 艾尼爾鮑桑; 史蒂芬斯奇艾能; 哈拉德福克斯; 米歇爾卡瑞茲; 鮑耐德吉爾; 瑟巴斯丹史切爾
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2012-09-12
Filing date: 2013-09-12
Publication date: 2016-08-11
Also published as: MY181365A; US20190287540A1; TW201411606A; CA2884525A1; US10347259B2; MX343564B; CN104782145B; AU2013314299A1; US20150199973A1; US9653084B2; JP5917777B2; CA2884525C; ES2610223T3; MX2015003195A; BR122021021503B1; AR092540A1; WO2014041067A1; US10950246B2; US20170249946A1; HK1212537A1

Description

用於提升3D音訊被導引降混性能之裝置、系統及方法

本發明係關於一種音頻訊號處理，特別關於一種裝置及方法能以提升降混(downmix)效果，特別是提升3D音訊之被導引降混性能。

多個擴音器常被使用來達到音效的空間再生。當環場音效再生(如5.1系統)被限制於單一平面時，新的頻道格式同著升級的擴音器已被納入3D音頻再生的領域。

需要再生於擴音器之訊號之前習慣直接對應於特定的擴音器，並可以離散或參數的方式儲存及傳送。可以說，對於這種格式而言，該等訊號係對應於一音效再生系統，該系統已清楚定義擴音器之數量及位置。據此，在傳送或儲存一音頻訊號之前，就需要對該再生格式有一定的了解。

然而，已有一些例外是不在這原則中。例如，多頻道音頻訊號(例如5個環場音效頻道或5.1環場音效頻道)必需被降混以符合雙頻道之立體擴音器的設定，因此也就存在一些規則以將5環場頻道再生於具有雙擴音器之立體聲系統。

此外，當立體聲頻道被引入時，就需要一規則以藉由單一單聲道擴音器再生成兩立體聲頻道的音頻資訊。

既然格式的數量以及需要設定擴音器位置的機會越來越多，就使得在傳送或儲存之前考慮再生系統之擴音器設定是顯得更為不可能。據此，就有需要調整進入系統之音頻訊號合而使其適合於實際情形的擴音器設定。

有不同的方法可將環場音效降混至雙頻道立體聲。ITU降混仍是廣泛使用的技術，其係使用時域降混及靜態降混係數(static downmix coefficients)(參考文獻[5])。其他時域降混技術-部分使用動態降混調整係數-係應用於矩陣環場技術之編碼器(encoders of matrix surround techniques)(參考文獻[6]、[7])。

在參考文獻[3]中，直接音源係混合於降混至雙頻道立體全景(stereo panorama)之後頻道，且其可能由於遮罩(masking)而無法被分別出來。

在空間音頻編碼(spatial audio coding)技術發展的過程中，具有頻率選擇性(frequency-selective)之降混演算法係被使用作為編碼器之一部分(參考文獻[8]、[9])。特別的是，當將能量等化(energy equalization)應用於產出之聲音頻道時，可降低聲音彩色化(sound colorization)並維持音源定位的平衡及穩定性。能量等化也應用於其他降混系統中(參考文獻[9]、[10]、[12])。

在後頻道只包含環境音效(如彈回音效)的情況中，環境影響(如彈回音效、寬敞影響)可在ITU降混技術中得到解決(參考文獻[5])，ITU降混技術係淢弱多頻道訊號之後頻道。若後頻道也包含直接音效(direct sound)，那這樣的減弱是不合適的，因為後頻道的直接部分也會在降混中被減弱。因此，就需要一種更有效率的環境減弱演算法。

音訊編解碼器(如AC-3、HE-AAC)係可在音訊串流上傳送所謂的元資料(metadata)，其中包含可達到從5聲道到2聲道(立體聲)之降混的頻降混係數。在產生之立體聲訊號中，被選擇聲道的數量(如中間、後頻道)係藉由傳送的增益值來控制。雖然這些係數為時間變異係數，但其通常可在一程式之一項目之期間內維持常數。

應用於Logic7矩陣系統中的解係引進一訊號調適方法，其係在只有後頻道被完全認定為環境因素的情況下才會減弱後頻道，這可以藉由比較前頻道與後頻道的功率而達到。此方法有一假設，即當後頻道只包含環境因素時，其功率較前頻道小。並且當前頻道的功率相較於後頻道越大時，後頻道在降混的過程中被減少的功率越多。上述假設在一些環場產出(surround productions)，特別是帶著標準內容(classical content)的情況下可為真，但對於其他訊號則為否。

因此，如何提供一種音訊處理之更進步的概念實為當前一重要課題。

本發明之一目的在於提供音訊處理之更進步的概念，其係藉由依據申請專利範圍第1項之一種裝置、申請專利範圍第13項之一種系統、申請專利範圍第14項之一種方法以及申請專利範圍第15項之一種電腦程式而達到。

本發明係揭露一種裝置，其係從至少三個音訊輸入頻道產生至少二音訊輸出頻道。裝置包含一接收介面，其係接收該等音訊輸入頻道及側邊資訊(side information)。裝置更包含一降混器，其係依據側邊資訊以將該等音訊輸入頻道降混而得到該等音訊輸出頻道。音訊輸出頻道的數量係小於音訊輸入頻道之數量。側邊資訊係指該等音訊輸入頻道之至少其中之一之特徵，或指記錄於音訊輸入頻道內之音波之特徵，或指發出上述音波之音源之特徵。

在實施例中，側邊資訊係與音訊一同傳送，以導引格式轉換之程序，該格式轉換係從輸入之音訊格式轉換為再生系統之格式。

在一實施例中，降混器可依據側邊資訊並藉由調整至少二音訊輸入頻道以得到一組調整音訊頻道，並可藉由將各調整音訊頻道進行組合而得到音訊輸出頻道。

在一實施例中，降混器可例如依據側邊資訊並藉由調整各音訊輸入頻道以得到一組調整音訊頻道，並可藉由將各調整音訊頻道進行組合而得到音訊輸出頻道。

在一實施例中，降混器可例如藉由依據一音訊輸入頻道並依據側邊資訊而決定一權重並藉由將該權重應用於該音訊輸入頻道而產生各調整音訊頻道以產生各音訊輸出頻道。

在一實施例中，側邊資訊可指各音訊輸入頻道之環境因素的量。降混器可依據上述之環境因素的量來降混該等音訊輸入頻道以得到該等音訊輸出頻道。

在一實施例中，側邊資訊可指各音訊輸入頻道之一擴散性(diffuseness)或一方向性(directivity)。降混器可依據各音訊輸入頻道之擴散性或方向性而降混該等音訊輸入頻道以得到該等音訊輸出頻道。

在一實施例中，側邊資訊可指聲音到達的方向。降混器可依據聲音之到達方向來降混該等音訊輸入頻道以得到該等音訊輸出頻道。

在一實施例中，各音訊輸出頻道可為一擴音器頻道以操縱一擴音器。

在一實施例中，裝置可將各音訊輸出頻道饋送至一組擴音器之其中一擴音器。降混器可依據一第一組之假想擴音器位置之各假想擴音器位置以及依據一第二組之實際擴音器位置之各實際擴音器位置來降混該等音訊輸入頻道以得到該等音訊輸出頻道。第二組實際擴音器位置之各實際擴音器位置可指一組擴音器之一擴音器之位置。

在一實施例中，各音訊輸入頻道可被指定至第一組假想擴音器位置之一假想擴音器位置。各音訊輸出頻道可被指定至第二組實際擴音器位置之一實際擴音器位置。降混器可依據至少二音訊輸入頻道、該等音訊輸入頻道之假想擴音器位置以及音訊輸出頻道之實際擴音器位置而產生各音訊輸出頻道。

在一實施例中，各音訊輸入頻道包含至少三個音訊物體之其中一音訊物體之一音訊。側邊資訊包含各音訊物體之一音訊物體位置，其係指該音訊物體之一位置。降混器係依據各音訊物體之音訊物體位置來降混該等音訊輸入頻道而得到該等音訊輸出頻道。

在一實施例中，降混器係依據側邊資訊來降混至少四音訊輸入頻道而得到至少三音訊輸出頻道。

此外，本發明係揭露一種系統，其係包含一編碼器以對至少三個未處理之音訊頻道進行編碼而得到至少三個已編碼音訊頻道，並且可將額外資訊編碼在該等未處理音訊頻道上而得到一側邊資訊。此外，系統包含上述之一裝置以接收該等已編碼音訊頻道作為至少三個音訊輸入頻道，並可接收側邊資訊，並可依據側邊資訊而從該等音訊輸入頻道產生至少二個音訊輸出頻道。

另外，本發明係揭露一種方法，其係從至少三個音訊輸入頻道產生至少二個音訊輸出頻道。此方法包含：接收至少三個音訊輸入頻道及側邊資訊；以及依據側邊資訊來降混該等音訊輸入頻道以得到該等音訊輸出頻道。

音訊輸出頻道之數量係小於音訊輸入頻道。音訊輸入頻道包含一音源所發出之聲音之一記錄，且側邊資訊係指該聲音之一特徵或該音源之一特徵。

此外，本發明係揭露一種電腦程式，當其在一電腦或一訊號處理器上執行時，會執行上述之方法。

100‧‧‧裝置

110‧‧‧接收介面

120‧‧‧降混器

511、512、513、514、515、611‧‧‧假想擴音器位置

521、522、523、621、622、623、624‧‧‧實際擴音器位置

532、631‧‧‧虛擬位置

810‧‧‧編碼器

AIC₁、AIC₂、AIC₃、AIC₄、L₁、LS₁、R₁、RS₁‧‧‧音訊輸入頻道/輸入頻道

AOC₁、AOC₂、AOC₃、C₂、L₂、R₂‧‧‧音訊輸出頻道/輸出頻道

g_1,1、g_1,2、g_1,3、g_1,4、g_2,1、g_2,2、g_2,3、g_2,4、g_3,1、g_3,2、g_3,3、g_3,4‧‧‧權重

MAC_1,1、MAC_1,2、MAC_1,3、MAC_1,4、MAC_2,1、MAC_2,2、MAC_2,3、MAC_2,4、MAC_3,1、MAC_3,2、MAC_3,3、MAC_3,4‧‧‧調整音訊頻道

以下為本發明之實施例，其帶來更詳細的敘述並同著參考的圖式，如下：圖1為本發明一實施例之一裝置的示意圖，其係降混至少三個音訊輸入頻道以得到至少二個音訊輸出頻道。

圖2為本發明一實施例之一降混器的示意圖。

圖3為本發明一實施例的示意圖，其中各音訊輸出頻道係依據各音訊輸入頻道而產生。

圖4為本發明另一實施例的示意圖，其中各音訊輸出頻道係依據音訊輸入頻道之其中之二而產生。

圖5為被傳送之空間表現訊號(spatial representation signals)映射至實際擴音器位置的示意圖。

圖6為升高之空間訊號映射至其他升高位置的示意圖。

圖7為一訊號源對應不同擴音器位置的示意圖。

圖8為本發明一實施例之一系統的示意圖。

圖9為本發明一實施例之另一系統的示意圖。

以下將參照相關圖式，說明依本發明較佳實施例之一種提升3D音訊被導引降混性能之裝置及方法，其中相同的元件將以相同的參照符號加以說明。

圖1係顯示一種裝置100，其係從至少三個音訊輸入頻道產生至少二個音訊輸出頻道。

裝置100包含一接收介面110，其係接收音訊輸入頻道以及側邊資訊。

裝置100更包含一降混器120，其係依據側邊資訊降混音訊輸入頻道以得到音訊輸出頻道。

音訊輸出頻道之數量係小於音訊輸入頻之數量。側邊資訊係指該等音訊輸入頻道之至少其中之一之特徵，或指記錄於音訊輸入頻道內之音波之特徵，或指發出上述音波之音源之特徵。

圖2為本發明一實施例之一降混器120的示意圖。

圖7為一訊號源對應不同擴音器位置的示意圖。其中的轉移方程式(transfer functions)可依據角度(方位角與仰角)，例如指一聲波的到達方向，可依據一距離，例如從一音源至一記錄麥克風的距離，及/或可依據一擴散性。上述之參數可例如為頻率相依(frequency-dependent)者。

相比於盲降混技術，例如未被導引之降混技術(unguided downmixing approaches)，本實施例之控制資料或描述資訊可同著音訊被傳送，以在訊號鏈的接收端影響降混程序。這種側邊資訊可在訊號鏈的傳送端/編碼端被計算或是從使用者輸入而被提供。側邊資訊可例如在一位元流(bitstream)中被傳送(例如與一已編碼音訊形成多工)。

在一實施例中，降混器120可依據側邊資訊降混至少四個音訊輸入頻道而得到至少三個音訊輸出頻道。

在一實施例中，降混器120可降混七個音訊輸入頻道而得到至少三個音訊輸出頻道。在一實施例中，降混器120可降混九個音訊輸入頻道而得到至少三個音訊輸出頻道。在一實施例中，降混器120可降混二十四個頻道而得到至少三個音訊輸出頻道。

在一實施例中，降混器120可降混至少七個音訊輸入頻道而得到五個音訊輸出頻道，例如得到五聲道環場系統之五個音訊頻道。在一實施例中，降混器120可降混至少七個音訊輸入頻道而得到六個音訊輸出頻道，例如得到5.1環場系統之六個音訊頻道。

在一實施例中，降混器可藉由依據側邊資訊調整至少二音訊輸入頻道以得到一組調整音訊頻道，並可藉由將各調整音訊頻道進行組合而得到音訊輸出頻道。

在一實施例中，降混器可例如藉由依據側邊資訊調整各音訊輸入頻道以得到一組調整音訊頻道，並可藉由將各調整音訊頻道進行組合而得到音訊輸出頻道。

在一實施例中，降混器120可例如藉由依據一音訊輸入頻道及側邊資訊而決定一權重並藉由將該權重應用於該音訊輸入頻道而產生各調整音訊頻道以產生各音訊輸出頻道。

圖3為本發明一實施例的示意圖，其中各音訊輸出頻道AOC₁、AOC₂、AOC₃係對應各音訊輸入頻道AIC₁、AIC₂、AIC₃、AIC₄。

以下以第一音訊輸出頻道AOC₁為例來作說明。

降混器120係依據音訊輸入頻道及側邊資訊來決定各音訊輸入頻道AIC₁、AIC₂、AIC₃、AIC₄之一權重g_1,1、g_1,2、g_1,3、g_1,4。另外，降混器120係將各權重g_1,1、g_1,2、g_1,3、g_1,4應用至其對應的音訊輸入頻道AIC₁、AIC₂、AIC₃、AIC₄。

舉例來說，降混器可藉由使音訊輸入頻道之各時域取樣乘上權重而將權重應用至其對應的音訊輸入頻道(當音訊輸入頻道由一時域表現的情況下)。或者，降混器可藉由使音訊輸入頻道之各光譜值乘上權重而將權重應用至其對應的音訊輸入頻道(當音訊輸入頻道由一光譜域、頻域或時間-頻率域表現的情況下)。從權重g_1,1、g_1,2、g_1,3、g_1,4而得到的調整音訊頻道MAC_1,1、MAC_1,2、MAC_1,3、MAC_1,4可再被組合，例如相加而得到例如音訊輸出頻道AOC₁。

第二音訊輸出頻道AOC₂可以相同的方式產生。其中，決定權重g_2,1、g_2,2、g_2,3、g_2,4，再將各權重應用至對應的音訊輸入頻道AIC₁、AIC₂、AIC₃、AIC₄，然後再結合產生之調整音訊頻道MAC_2,1、MAC_2,2、MAC_2,3、MAC_2,4，如此就能得到第二音訊輸出頻道AOC₂。

類似的，第三音訊輸出頻道AOC₃可以如此產生。其中，決定權重g_3,1、g_3,2、g_3,3、g_3,4，再將各權重應用至對應的音訊輸入頻道AIC₁、AIC₂、AIC₃、AIC₄，然後再結合產生之調整音訊頻道MAC_3,1、MAC_3,2、MAC_3,3、MAC_3,4，如此就能得到第三音訊輸出頻道AOC₃。

圖4為本發明另一實施例，其中各音訊輸出頻道並非藉由調整所有的音訊輸入頻道而產生，而是藉由僅調整二音訊輸入頻道並藉由組合此二音訊輸入頻道而產生。

舉例來說，在圖4中，四個頻道被接收而作為音訊輸入頻道(LS₁為左環場輸入頻道(left surround input channel)、L₁為左輸入頻道(left input channel)、R₁為右輸入頻道(right input channel)、RS₁為右環場輸入頻道(right surround input channel))，並且三個音訊輸出頻道可藉由降混音訊輸入頻道而被產生(L₂為左輸出頻道(left output channel)、R₂為右輸出頻道(right output channel)、C₂為中間輸出頻道(center output channel))。

在圖4中，左輸出頻道L₂係依據左環場輸入頻道LS₁及左輸入頻道L₁而產生。為達此目的，降混器120係依據側邊資訊而為左環場輸入頻道LS₁產生一權重g_1,1，並且依據側邊資訊而為左輸入頻道L₁產生一權重g_1,2，並且將各權重施加於對應的音訊輸入頻道以得到左輸出頻道L₂。

此外，中間輸出頻道C₂係依據右輸入頻道R₁及左輸入頻道L₁而產生。為達此目的，降混器120係依據側邊資訊而為左輸入頻道L₁產生一權重g_2,2，並且依據側邊資訊而為右輸入頻道R₁產生一權重g_2,3，並且將各權重施加於對應的音訊輸入頻道以得到中間輸出頻道C₂。

此外，右輸出頻道R₂係依據右輸入頻道R₁及右環場輸入頻道RS₁而產生。為達此目的，降混器120係依據側邊資訊而為右輸入頻道R₁產生一權重g_3,3，並且依據側邊資訊而為右環場輸入頻道RS₁產生一權重 g_3,4，並且將各權重施加於對應的音訊輸入頻道以得到右輸出頻道R₂。

本發明之實施例係由下列發現而發想。

本發明係提供降混係數作為在位元流中的元資料。

本發明係藉由具頻率選擇性的降混係數、額外頻道(如原頻道配置之音訊頻道，如高度資訊)、及或使用於目標頻道配置之額外格式而獲得提升。換言之，3D音訊格式之降混矩陣應該藉由輸入格式之額外頻道，特別是藉由3D音訊格式之高度頻道(height channel)而得到擴展。論到額外格式，許多輸出格式應該被3D音訊所支持。在5.0或5.1訊號的情況下，降混只能對立體聲或單音(也許可能)產生影響，當頻道配置包含大量的頻道時，需要考慮到數個輸出格式係彼此相關。當配置為22.2頻道時，這些頻道可能為單音(mono)、立體聲、5.1、7.1等等。

然而，這些擴展係數之傳輸的期望位元率係大幅增加。對於特定的格式來說，定義額外降混係數並且用現有降混元資料(請參照給MPEG的7.1提案，輸出文件N12980)結合它們是合理的。

在3D音訊的領域中，頻道配置在傳送端與接收端之期望組合是有很多的，並且資料量也超過能接受的位元率。然而，冗餘縮減編碼(例如霍夫曼編碼(huffman coding))可將資料量縮減至可接受的量。

此外，如上所述之降混係數可具有參數化的特徵。

然而，期望位元率在這種方法下仍然是大幅增加的。

根據上述可知，擴展已建立的方法是不實際的，理由之一為資料率會變得不成比例的高。

一個通用之時間域的降混可由下列方程式來敘述：y_n(t)=c_nm．x_m(t)

其中，y(t)為一降混的輸出訊號，x(t)為輸入訊號，n為音訊輸入頻道之索引，m輸出頻道之索引。mth輸入頻道之於nth輸出頻道之降混係數係對應於cnm。以一個已知例子為例，5頻道訊號與2頻道立體聲訊號之降混可由下表示：L'(t)=L(t)+c _C．C(t)+c _R．LS(t)

R'(t)=R(t)+c _C．C(t)+c _R．RS(t)

降混係數係為靜態並被應用至音訊的每一取樣(sample)。它們可作為元資料而被增加至音訊位元流中。「具頻率選擇性之降混係數」(frequency-selective downmix coefficients)這詞係關涉特定頻帶所使用個別降混係數的可能性。在結合時間變異係數的情況下，解碼端的降混可從編碼端作控制。這樣，一個音訊框(audio frame)之降混敘述會變成：y_n(k,s)=c_nm(k)．x_m(k,s)

其中，k為頻帶(如混合正交鏡像濾波頻帶(hybrid QMF band))，s為一混合正交鏡像濾波頻帶之子取樣(subsamples)。

如上所述，這些係數的傳輸會導致高位元率。

本發明之實施例係使用描述性的側邊資訊。降混器120係依據此側邊資訊來降混至少三個音訊輸入頻道以得到至少二個音訊輸出頻道。

對音訊頻道、音訊頻道之組合或音訊物體之描述性資訊可提升降混程序之效能，這是由於音訊的特徵已被考慮進去。

上述之側邊資訊係指該等音訊輸入頻道之至少其中之一之特徵，或指記錄於音訊輸入頻道內之音波之特徵，或指發出上述音波之音源之特徵。

舉例來說，側邊資訊可為下列參數之至少一：

●乾/濕比例

●環境因素的量

●擴散性

●方向性

●音源寬度

●音源距離

●到達方向

上述參數之定義係由習知技藝者所熟知，亦可在一些文獻(如參考文獻[1]-[24])中找到，例如參考文獻[15]、[16]、[17]、[18]、[19]及、[14]所揭露之環境因素量的定義，於此就不再贅述。另外，習知技藝者所皆知，乾/濕比例的定義可從直接/環境(direct/ambience)而得到。擴散性及方向性亦於參考文獻[21]中說明，且其亦為習知技藝者所皆知。

上述參數係提供作為側邊資訊以導引降混程序，例如從M個輸入頻道產生N個輸出頻道，其中N小於M。

上述參數不一定要為常數，其或可隨時間變化(即為時間變異參數)。

一般而言，側邊資訊可包含一些在具頻率選擇性之方法中為可用的參數。

已傳送之側邊資訊的應用可執行於解碼端的後處理/呈現。參數與其權重的評估係依據目標頻道配置以及呈現端的特徵。

上述之參數可有關於頻道、頻道組或物體。

在降混器120實行降混的過程中，這些參數可使用於一降混程序以決定一頻道或物體之權重。

舉例來說，假如一高度頻道排外性地包含回響及或反射，它可能會在降混中對音質產生不良的影響。在此情況下，它在降混之音訊頻道中的分量應該要下降。在控制降混的情況下，環境量參數之一高值會導致此頻道有低降混係數。反過來說，假如高度頻道包含直接訊號，則它應會被反射至音訊頻道之一大範圍並因此導致高降混係數(具有較高的權重)。

舉例來說，一個3D音訊產出之高度頻道可包含直接分量以及反射與回響以為了封包的目的。假如這些高度頻道與水平面(horizontal plan)之頻道混合，反射與回響將會造成不佳的混合效果，同時直接分量之前景音訊內容應會全部被降混。

此資訊可使用來調整降混係數(較合適者為具頻率選擇性之方法)。上述者可適用於如上所述之所有參數。頻率選擇性可使降混達到較佳的控制。

舉例來說，施加於一音訊輸入頻道以得到一調整音訊頻道之權重可依據各別的側邊資訊來決定。

舉例來說，假如不是背景頻道(如一環場系統之左環場頻道或右環場頻道)，而是前景頻道(如一環場系統之左、中間或右聲道)被用作為音訊輸出頻道，則下列為真：

●假如側邊資訊指出一音訊輸入頻道之環境因素的量為高，則此音訊輸入頻道具有一小權重以產生前景音訊輸出頻道。藉此，從該音訊輸入頻道產生之調整音訊頻道對於產生各別音訊輸出頻道上只佔了些許的影響。

●假如側邊資訊指出一音訊輸入頻道之環境因素的量為低，則此音訊輸入頻道具有一較大權重以產生前景音訊輸出頻道。藉此，從該音訊輸入頻道產生之調整音訊頻道對於產生各別音訊輸出頻道上佔了相對大的影響。

舉例來說，側邊資訊可包含一參數，其定義各音訊輸入頻道之一環境因素量，例如，各音訊輸入頻道可包含環境訊號分量及或直接訊號分量。在一情況下，一音訊輸入頻道之環境因素量可設為一實數a_i，其中i係指一音訊輸入頻道，a_i的範圍可例如為0a_i 1。當a_i=0時可指音訊輸入頻道不包含任何環境訊號分量，a_i=1可指音訊輸入頻道只包含環境訊號分量。一般而言，一音訊輸入頻道之一環境因素量可例如指在該音訊輸入頻道內之環境訊號分量的量。

請參照圖3，在一實施例中，環境訊號分量總是多餘的。降混器120可依據下列公式來決定圖3中的權重。

g_c,i=(1-a_i)/4其中c{1,2,3}；i{1,2,3,4}；0a_i 1

在此實施例中，各音訊輸出頻道具有相同的權重。

然而，在其他實施例中，相較於其他音訊輸出頻道，一些音訊輸出頻道對於環境因素的接受度可更高。例如，在圖3中，第一音訊輸出頻道AOC₁與第三音訊輸出頻道AOC₃可被視為相較於第二音訊輸出頻道AOC₂更為可接受環境因素。這樣，降混器120可依據下列公式來決定圖3中的權重。

g_1,i=(1-(a_i/2))/4其中i{1,2,3,4}；0a_i 1

g_2,i=(1-a_i)/4其中i{1,2,3,4}；0a_i 1

g_3,i=(1-(a_i/2))/4其中i{1,2,3,4}；0a_i 1

在此實施例中，至少二個音訊輸出頻道具有不同的權重。

圖4中的權重可由圖3之實施例之原則來得到，如下： g_1,1=(1-a_i)/2；g_1,2=(1-a_i)/2；g_2,2=(1-a_i)/2； g_2,3=(1-a_i)/2；g_3,3=(1-a_i)/2；g_3,4=(1-a_i)/2；需注意者，圖3及圖4之權重gci可由其他合適的方法來決定，於此不予限制。

在另一實施例中，側邊資訊可指各音訊輸入頻道之一擴散性(diffuseness)或一方向性(directivity)。降混器可依據各音訊輸入頻道之擴散性或方向性而降混該等音訊輸入頻道以得到該等音訊輸出頻道。

在此實施例中，側邊資訊可例如包含一參數，其定義各音訊輸入頻道之擴散性。例如，各音訊輸入頻道可包含擴散訊號分量及或直接訊號分量。在一情況下，音訊輸入頻道之擴散性可設為一實數d_i，其中i係指一音訊輸入頻道，d_i的範圍可例如為0d_i 1。當d_i=0時可指音訊輸入頻道不包含任何擴散訊號分量，d_i=1可指音訊輸入頻道只包含擴散訊號分量。一般而言，一音訊輸入頻道之一擴散性可例如指在該音訊輸入頻道內之擴散訊號分量的量。

如此，在圖3中之權重g_c,i可例如決定如下：g_c,i=(1-d_i)/4其中c{1,2,3}；i{1,2,3,4}；0d_i 1

或是如下：g_1,i=(1-(d_i/2))/4其中i{1,2,3,4}；0d_i 1

g_2,i=(1-d_i)/4其中i{1,2,3,4}；0d_i 1

g_3,i=(1-(d_i/2))/4其中i{1,2,3,4}；0d_i 1

或者由其他合適的方法來決定。

或者，側邊資訊可例如包含一參數，其定義各音訊輸入頻道之方向性。例如，音訊輸入頻道之方向性可設為一實數dir_i，其中i係指一音訊輸入頻道，dir_i的範圍可例如為0dir_i 1。當dir_i=0時可指音訊輸入頻道之訊號分量具有一低方向性，dir_i=1可指音訊輸入頻道之訊號分量具有一高方向性。

如此，在圖3中之權重g_c,i可例如決定如下：g_c,i=dir_i/4其中c{1,2,3}；i{1,2,3,4}；0dir_i 1

或是如下：g_1,i=0,125+dir_i/8其中i{1,2,3,4}；0dir_i 1

g_2,i=dir_i/4其中i{1,2,3,4}；0dir_i 1

g_3,i=0,125+dir_i/8其中i{1,2,3,4}；0dir_i 1

或者由其他合適的方法來決定。

在另一實施例中，側邊資訊可指聲音之一到達方向。降混器可依據聲音之到達方向來降混該等音訊輸入頻道以得到該等音訊輸出頻道。

舉例來說，被一音訊輸入頻道所記錄之一音波之到達方向可設為一角度φ_i，其中i係指一音訊輸入頻道，φ_i的範圍可例如為0°φ_i<360°。當音波之聲音分量之到達方向接近90°時，其具有一高權重，當音波之聲音分量之到達方向接近270°時，其具有一低權重或者在音訊輸出訊號上沒有任何權重。如此，圖3之權重g_c,i可決定如下：g_c,i=(1+sin φ_i)/8其中c{1,2,3}；i{1,2,3,4}；0°φ_i<360°

當音訊輸出頻道AOC₁與AOC₃被視為相較於音訊輸出頻道AOC₂更為可接受到達方向為270°時，權重g_c,i可決定如下： g_1,i=(1.5+(sin φ_i)/2)/8 wherein i{1,2,3,4}；0°φ_i<360°

g_2,i=(1+sin φ_i)/8 wherein i{1,2,3,4}；0°φ_i<360°

g_3,i=(1.5+(sin φ_i)/2)/8 wherein i{1,2,3,4}；0°φ_i<360°

或者由其他合適的方法決定。

為達到藉由使用描述性側邊資訊來對不同的擴音器設定實現音訊的再生，可以使用下面至少一個參數：

●到達方向(水平與垂直)

●聽者的不同

●來源的寬度(如擴散性)

特別是在物件導向的3D音訊中，這些參數可被使用以控制一物體至目標格式之擴音器的映射(mapping)。

另外，這些參數例如可用於一具頻率選擇性之方法。

擴散性之值的範圍：點音源-平面波-全向性到達波。需注意者，擴散性可能不同於環境因素(例如迷幻電影中不知來自何處之聲音)。

在一實施例中，裝置100可將各音訊輸出頻道饋送至一組擴音器之其中一擴音器。降混器120可依據一第一組之假想擴音器位置(至少三個)之各假想擴音器位置以及依據一第二組之實際擴音器位置(至少二個)之各實際擴音器位置來降混該等音訊輸入頻道以得到該等音訊輸出頻道。第二組實際擴音器位置之各實際擴音器位置可指一組擴音器之一擴音器之位置。

舉例來說，一音訊輸入頻道可被指定至一假想擴音器位置。另外，一第一音訊輸出頻道係為位於一第一實際擴音器位置之一第一擴音器而產生，一第二音訊輸出頻道係為位於一第二實際擴音器位置之一第二擴音器而產生。假如第一實際擴音器位置與假想擴音器位置之距離小於第二實際擴音器位置與假想擴音器位置之距離，則音訊輸入頻道對第一音訊輸出頻道的影響大於對第二音訊輸出頻道的影響。

舉例來說，一第一權重與一第二權重可被產生。第一權重可依據一第一實際擴音器位置與假想擴音器位置之距離，第二權重可依據一第二實際擴音器位置與假想擴音器位置之距離。第一權重大於第二權重。為產生第一音訊輸出頻道，第一權重可被施加於音訊輸入頻道以產生一第一調整音訊頻道。為產生第二音訊輸出頻道，第二權重可被施加於音訊輸入頻道以產生一第二調整音訊頻道。更多的調整音訊頻道可用同樣原則產生以為了其他音訊輸出頻道及或其他音訊輸入頻道。各音訊輸出頻道可藉由組合其調整音訊頻道而產生。

圖5為被傳送之空間表現訊號(spatial representation signals)映射至實際擴音器位置的示意圖。假想擴音器位置511、512、513、514、515屬於第一組假想擴音器位置。實際擴音器位置521、522、523屬於第二組實際擴音器位置。

舉例來說，位於一假想擴音器位置512之一假想擴音器之一音訊輸入頻道對位於一第一實際擴音器位置521之一第一實際擴音器之一第一音訊輸出訊號以及對位於一第二實際擴音器位置522之一第二實際擴音器之一第二音訊輸出訊號之影響程度在於，假想擴音器位置512(或其虛擬位置532)分別與第一實際擴音器位置521及第二實際擴音器位置522之距離的關係。當假想擴音器位置越靠近實際擴音器位置時，音訊輸入頻道對於對應的音訊輸出頻道之影響就越大。

在圖5中，f係指位於假想擴音器位置512之擴音器之一音訊輸入頻道，g₁係指位於第一實際擴音器位置521之第一實際擴音器之一第一音訊輸出頻道，g₂係指位於第二實際擴音器位置522之第二實際擴音器之一第二音訊輸出頻道，α係指一方位角，β係指一仰角。其中，方位角α與仰角β例如為從一實際擴音器位置到一假想擴音器位置之方向或者反之亦可。

在一實施例中，各音訊輸入頻道可被指定於一第一組假想擴音器位置之一假想擴音器位置。例如，當一音訊輸入頻道將藉由位於一假想擴音器位置之一擴音器進行回放時，此音訊輸入頻道係被指定於該假想擴音器位置。各音訊輸出頻道可被指定於第二組實際擴音器位置之一實際擴音器位置。例如，當一音訊輸出頻道將藉由位於一實際擴音器位置之一擴音器進行回放時，此音訊輸出頻道係被指定於該實際擴音器位置。降混器可依據該等音訊輸入頻道之至少二、依據上述各音訊輸入頻道之假想擴音器位置、並依據音訊輸出頻道之實際擴音器位置而產生各音訊輸出頻道。

圖6為升高之空間訊號映射至其他升高位置的示意圖。被傳送之空間訊號(頻道)係為對應於一升高擴音器平面之擴音器的頻道，或是對應於一未升高擴音器平面之擴音器的頻道。假如所有真實擴音器皆設置於單一擴音器平面(未升高擴音器平面)，則位於升高擴音器平面之擴音器之頻道係需要被饋入未升高擴音器平面之擴音器。

為達此目的，側邊資訊包含位於升高擴音器平面之一擴音器之假想擴音器位置611之資訊。在未升高擴音器平面上之一對應的虛擬位置631係藉由降混器來決定，並且藉由調整假想升高擴音器之音訊輸入頻道而產生之調整音訊頻道係依據實際可用擴音器之實際擴音器位置621、622、623、624來產生。

頻率選擇性可被使用來使降混得到更佳的控制。在環境因素量的例子中，一個高度頻道可包含空間分量以及直接分量。具有不同特性之頻率分量可據此而得到特徵。

在一實施例中，各音訊輸入頻道包含至少三個音訊物體之其中一音訊物體之一音訊。側邊資訊對各音訊物體而言係包含一音訊物體位置，其係指該音訊物體之一位置。降混器係依據各音訊物體之音訊物體位置來降混該等音訊輸入頻道而得到該等音訊輸出頻道。

舉例來說，第一音訊輸入頻道包含一第一音訊物體之一音訊。一第一擴音器可設置於一第一實際擴音器位置。一第二擴音器可設置於一第二實際擴音器位置。其中，第一實際擴音器位置與第一音訊物體之位置之距離係小於第二實際擴音器位置與第一音訊物體之位置之距離。這樣，第一擴音器之一第一音訊輸出頻道以及第二擴音器之一第二音訊輸出頻道即可被產生，以致第一音訊物體之音訊對第一音訊輸出頻道的影響大於對第二音訊輸出頻道的影響。

舉例來說，一第一權重與一第二權重可被產生。第一權重可依據第一實際擴音器位置與第一音訊物體之位置之距離。第二權重可依據第二實際擴音器位置與第二音訊物體之位置之距離。第一權重大於第二權重。為產生第一音訊輸出頻道，第一權重可施加於第一音訊物體之音訊以產生一第一調整音訊頻道。為產生第二音訊輸出頻道，第二權重可施加於第一音訊物體之音訊以產生一第二調整音訊頻道。更多的調整音訊頻道可以類似的原則來產生以為了其他的音訊輸出頻道及或其他音訊物體。各音訊輸出頻道可藉由組合其調整音訊頻道而產生。

圖8為本發明一實施例之一系統的示意圖。

系統包含一編碼器810，其係對至少三個未處理音訊頻道進行編碼而得到至少三個已編碼音訊頻道，並且可將額外資訊編碼在至少三個未處理音訊頻道上而得到側邊資訊。

此外，系統包含上述實施例之其中一裝置100以接收至少三個已編碼音訊頻道作為至少三個音訊輸入頻道，並可接收側邊資訊，並可依據側邊資訊而從至少三個音訊輸入頻道產生至少二個音訊輸出頻道。

圖9為本發明另一實施例之一系統的示意圖。其中，導引資訊即為側邊資訊。編碼器810係進行編碼而產生M個已編碼音訊頻道，該等已編碼音訊頻道被饋入裝置100(以降混器表示)以產生至少二音訊輸出頻道。於此，N個音訊輸出頻道係藉由對M個已編碼音訊頻道進行降混而產生。在一實施例中，N<M。

雖然很多特徵已在裝置的敘述中被揭露了，但清楚的是，這些特徵也是對應方法的特徵，其中例如裝置之一方塊或元件係與一方法步驟或該方法步驟之特徵相互對應。同樣地，在方法的敘述中所揭露之特徵亦可代表裝置之對應方塊或元件之特徵。

本發明之分解訊號可儲存於一數位儲存媒體上或可在一傳輸介面上傳送，傳輸介面例如為一無線傳輸介面或一有線傳輸介面，例如網際網路。

本發明之實施例可依據實際需求而由硬體、軟體或其組合而實現。上述實現可例如使用一數位儲存媒體，如一軟碟、DVD、CD、唯讀記憶體(ROM)、可編程只讀存儲器(PROM)、可擦拭可規劃式唯讀記憶體(EPROM)、電子抹除式可複寫唯讀記憶體(EEPROM)、或快閃記憶體，其具有電子可讀控制訊號儲存於內，當與一可編程電腦合作時，可執行對應的方法。

本發明之一些實施例包含非暫態資料載體(non-transitory data carrier)，其具有電子可讀控制訊號，當與一可編程電腦合作時，可執行本發明之方法。

本發明之實施例可實現為一電腦程式產品及一程式碼，當電腦程式產品執行於一電腦時，該程式碼可執行本發明之一方法。程式碼可例如儲存於一機械可讀載體上。

其他實施例包含電腦程式，該電腦程式係可執行本發明之一方法並儲存於一機械可讀載體上。

換言之，在本發明之一實施例中，一電腦程式具有一程式碼，當在一電腦上執行時，電腦程式可執行方法。

在一實施例中，一資料載體(一數位儲存媒體或一電腦可讀媒體等等)包含電腦程式以執行方法。

在一實施例中，一資料流或一訊號串係可代表電腦程式以執行方法。上述資料流或訊號串可例如經由資料傳輸連接(例如網際網路)來傳送。

一實施例包含一處理手段，例如一電腦或一可編程邏輯裝置，其係可執行方法。

一實施例包含一電腦，其具有一電腦程式以執行方法。

在一些實施例中，一可編程邏輯裝置(例如一現場可程式化閘陣列(FPGA))可使用來執行本發明之方法之至少一功能性。在一些實施例中，一現場可程式化閘陣列可與一微處理器合作以執行本發明之方法。本發明之方法可藉由任何硬體裝置來執行。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

參考文獻

[1] J.M. Eargle: Stereo/Mono Disc Compatibility: A Survey of the Problems, 35th AES Convention, October 1968

[2] P. Schreiber: Four Channels and Compatibility, J. Audio Eng. Soc., Vol. 19, Issue 4, April 1971 (2)

[3] D. Griesinger: Surround from stereo,Workshop #12, 115th AES Convention, 2003

[4] E. C, Cherry (1953): Some experiments on the recognition of speech, with one and with two ears, Journal of the Acoustical Society of America 25, 975979

[5] ITU-R Recommendation BS.775-1 Multi-channel Stereophonic Sound System with or without Accompanying Picture, International Telecommunications Union, Geneva, Switzerland, 1992-1994

[6] D. Griesinger: Progress in 5-2-5 Matrix Systems, 103rd AES Convention, September 1997

[7] J. Hull: Surround sound past, present, and future, Dolby Laboratories, 1999, www.dolby.com/tech/

[8] C. Faller, F. Baumgarte: Binaural Cue Coding Applied to Stereo and Multi -Channel Audio Compression, 112th AES Convention, Munich 2002

[9] C. Faller, F. Baumgarte: Binaural Cue Coding Part II: Schemes and Applications, IEEE Trans. Speech and Audio Proc., vol. 11, no. 6, pp. 520-531, Nov. 2003

[10] J. Breebaart, J. Herre, C. Faller, J. Rdn, F. Myburg, S. Disch, H. Purnhagen, G. Hotho, M. Neusinger, K. Kjrling, W. Oomen: MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status, 119^th AES Convention, October 2005.

[11] ISO/IEC 14496-3, Chapter 4.5.1.2.2

[12] B. Runow, J. Deigmöller: Optimierter Stereo - Downmix von 5.1-Mehrkanalproduktionen (An optimized Stereo Downmix of a multichannel audio production), 25. Tonmeistertagung - VDT international convention, November 2008

[13] J. Thompson, A. Warner, B. Sm ith: An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions, 127 AES Convention, October 2009

[14] C. Faller: Multiple-Loudspeaker Playback of Stereo Signals. JAES Volume 54 Issue 11 pp. 1051 -1064; November 2006

[15] AVENDANO, Carlos u. JOT, Jean-Marc: Ambience Extraction and Synthesis from Stereo Signals for Multi-Channel Audio Mix-Up. In: Proc.or IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP), May 2002

[16] US 7,412,380 B1: Ambience extraction and modification for enhancement and upmix of audio signals

[17] US 7,567,845 B1: Ambience generation for stereo signals

[18] US 2009/0092258 A1: CORRELATION-BASED METHOD FOR AMBIENCE EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS

[19] US 2010/0030563 A1: Uhle, Walther, Herre, Hellmuth, Janssen: APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNAL FROM AN AUDIO SIGNAL, APPARATUS AND METHOD FOR DERIVING A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIO SIGNAL AND COMPUTER PROGRAM

[20] J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S.Disch, K. Kjörling, E. Schuijers, J. Hilpert, and F. Myburg, The Reference Model Architecture for MPEG Spatial Audio Coding, presented at the 118th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 53, pp. 693, 694 (2005 July/Aug.), convention paper 6447

[21] Ville Pulkki: Spatial Sound Reproduction with Directional Audio Coding. JAES Volume 55 Issue 6 pp. 503-516; June 2007

[22] ETSI TS 101 154, Chapter C

[23] MPEG-4 downmix metadata

[24] DVB downmix metadata

100‧‧‧裝置

110‧‧‧接收介面

120‧‧‧降混器

Claims

一種用於提升3D音訊被導引降混性能之裝置(100)，係從至少三音訊輸入頻道產生至少二音訊輸出頻道，該裝置(100)包含：一接收介面(110)，係接收該等音訊輸入頻道與一側邊資訊；以及一降混器(120)，係依據該側邊資訊使用各音訊輸入頻道之一權重以降混該等音訊輸入頻道以得到該等音訊輸出頻道，其中，該等音訊輸出頻道之數量小於該等音訊輸入頻道之數量，其中，該側邊資訊係指該等音訊輸入頻道之至少其中之一之一特徵，或指記錄於該音訊輸入頻道內之至少一音波之一特徵，或指發出該音波之至少一音源之一特徵，其中，該降混器依據該側邊資訊決定各音訊輸入頻道之該權重，其中，該裝置將各音訊輸出頻道饋送至一組擴音器之一擴音器，其中，該降混器依據一第一組之至少三個假想擴音器位置之各假想擴音器位置以及依據一第二組之至少二個實際擴音器位置之各實際擴音器位置來降混該等音訊輸入頻道以得到該等音訊輸出頻道，其中，該第二組實際擴音器位置之各實際擴音器位置係指一組擴音器之一擴音器的位置，其中，各該音訊輸入頻道係被指定至該第一組假想擴音器位置之一假想擴音器位置，其中，各該音訊輸出頻道係被指定至該第二組實際擴音器位置之一實際擴音器位置，其中，該降混器係依據至少二音訊輸入頻道、該等音訊輸入頻道之假想擴音器位置以及該音訊輸出頻道之實際擴音器位置而產生各該音訊輸出頻道，其中，該側邊資訊係指各該音訊輸入頻道之環境因素的量，其中，該降混器係依據該環境因素的量來降混該等音訊輸入頻道以得到該等音訊輸出頻道。
如申請專利範圍第1項所述之裝置(100)，其中該降混器(120)係依據側邊資訊並藉由調整至少二音訊輸入頻道以得到一組調整音訊頻道，並藉由將各調整音訊頻道進行組合而得到該音訊輸出頻道。
如申請專利範圍第2項所述之裝置(100)，其中該降混器(120)係依據該側邊資訊並藉由調整各該音訊輸入頻道以得到一組調整音訊頻道，並藉由將各該調整音訊頻道進行組合而得到該音訊輸出頻道。
如申請專利範圍第2項所述之裝置(100)，其中該降混器(120)係藉由依據一音訊輸入頻道並依據側邊資訊而決定該權重並藉由將該權重應用於該音訊輸入頻道而產生各該調整音訊頻道以產生各該音訊輸出頻道。
如申請專利範圍第1項所述之裝置(100)，其中該側邊資訊係指各音訊輸入頻道之一擴散性或一方向性，並且其中，該降混器(120)係依據各音訊輸入頻道之擴散性或方向性而降混該等音訊輸入頻道以得到該等音訊輸出頻道。
如申請專利範圍第1項所述之裝置(100)，其中該側邊資訊係指聲音之一到達方向，並且其中，該降混器(120)係依據聲音之該到達方向來降混該等音訊輸入頻道以得到該等音訊輸出頻道。
如申請專利範圍第1項所述之裝置(100)，其中該降混器(120)係依據側邊資訊來降混至少四音訊輸入頻道而得到至少三音訊輸出頻道。
一種用於提升3D音訊被導引降混性能之系統，包含：一編碼器(810)，其係對至少三個未處理音訊頻道進行編碼而得到至少三個已編碼音訊頻道，並且將額外資訊編碼在該等未處理音訊頻道上而得到一側邊資訊；以及上述任一裝置(100)，其係接收該等已編碼音訊頻道作為至少三個音訊輸入頻道，並可接收側邊資訊，並可依據側邊資訊而從該等音訊輸入頻道產生至少二個音訊輸出頻道。
一種用於提升3D音訊被導引降混性能之方法，其係從至少三個音訊輸入頻道產生至少二個音訊輸出頻道，該方法包含：接收該等音訊輸入頻道及一測邊資訊；以及依據該側邊資訊使用各音訊輸入頻道之一權重來降混該等音訊輸入頻道以得到該等音訊輸出頻道，其中，該等音訊輸出頻道之數量係小於該等音訊輸入頻道之數量，且其中，該側邊資訊係指該等音訊輸入頻道之至少一之一特徵，或指記錄於該等音訊輸入頻道內之至少一音波之一特徵，或指發出該音波之至少一音源之一特徵，其中，各音訊輸入頻道之該權重是依據該側邊資訊而被決定，其中，各音訊輸出頻道被饋送至一組擴音器之一擴音器，其中，該等音訊輸入頻道依據一第一組之至少三個假想擴音器位置之各假想擴音器位置以及依據一第二組之至少二個實際擴音器位置之各實際擴音器位置被降混以得到該等音訊輸出頻道，其中，該第二組實際擴音器位置之各實際擴音器位置係指一組擴音器之一擴音器的位置，其中，各該音訊輸入頻道係被指定至該第一組假想擴音器位置之一假想擴音器位置，其中，各該音訊輸出頻道係被指定至該第二組實際擴音器位置之一實際擴音器位置，其中，各該音訊輸出頻道是依據至少二音訊輸入頻道、該等音訊輸入頻道之假想擴音器位置以及該音訊輸出頻道之實際擴音器位置而被產生，其中，該測邊資訊係指各該音訊輸入頻道之環境因素的量，其中，該降混器係依據該環境因素的量來降混該等音訊輸入頻道以得到該等音訊輸出頻道。
一種電腦程式，當其在一電腦或一訊號處理器上執行時，係執行申請專利範圍第9項之方法。