TW201503112A

TW201503112A - 使用物件特定之時間／頻率解析度以自混合信號分離音訊物件之技術

Info

Publication number: TW201503112A
Application number: TW103116692A
Authority: TW
Inventors: Sascha Disch; Jouni Paulus; Thorsten Kastner
Original assignee: Fraunhofer Ges Forschung; Univ Friedrich Alexander Er
Priority date: 2013-05-13
Filing date: 2014-05-12
Publication date: 2015-01-16
Also published as: MX353859B; CN105378832B; HK1222253A1; JP2016524721A; MY176556A; US10089990B2; KR101785187B1; AU2017208310C1; BR112015028121B1; RU2015153218A; ZA201509007B; CA2910506A1; AU2017208310B2; AU2014267408B2; EP2997572A1; SG11201509327XA; MX2015015690A; KR20160009631A; AU2014267408A1; TWI566237B

Abstract

本發明提出一種用於解碼由一降混信號X及旁資訊PSI組成之一多物件音訊信號的音訊解碼器。該旁資訊包含用於一時間/頻率區R(tR,fR)中之一音訊物件si的物件特定之旁資訊PSIi，及指示用於該時間/頻率區R(tR,fR)中之該音訊物件si之該物件特定之旁資訊的一物件特定之時間/頻率解析度TFRh之物件特定之時間/頻率解析度資訊TFRIi。該音訊解碼器包含一物件特定之時間/頻率解析度判定器，該物件特定之時間/頻率解析度判定器經組配來自用於該音訊物件si之該旁資訊PSI判定該物件特定之時間/頻率解析度資訊TFRIi。該音訊解碼器進一步包含物件分離器，該物件分離器經組配成使用與該物件特定之時間/頻率解析度TFRIi一致的該物件特定之旁資訊來自該降混信號X分離該音訊物件si。本發明亦描述一種用於解碼或編碼之對應的編碼器及對應的方法。

Description

使用物件特定之時間/頻率解析度以自混合信號分離音訊物件之技術

發明領域

本發明係關於音訊信號處理，且具體而言係關於用於使用音訊物件適應性單獨時間-頻率解析度之音訊物件編碼之解碼器、編碼器、系統、方法及電腦程式。

根據本發明之實施例係關於用於解碼由降混信號及物件相關之參數旁資訊(PSI)組成之多物件音訊信號之音訊解碼器。根據本發明之進一步實施例係關於用於依賴於降混信號表示法及物件相關之PSI來提供升混信號表示法之音訊解碼器。本發明之進一步實施例係關於用於解碼由降混信號及相關之PSI組成之多物件音訊信號之方法。根據本發明之進一步實施例係關於用於依賴於降混信號表示法及物件相關之PSI來提供升混信號表示法之方法。

本發明之進一步實施例係關於用於將多個音訊物件信號編碼成降混信號及PSI之音訊編碼器。本發明之進一步實施例係關於用於將多個音訊物件信號編碼成降混信號及PSI之方法。

根據本發明之進一步實施例係關於對應於用於解碼、編碼及/或提供升混信號之方法之電腦程式。

本發明之進一步實施例係關於用於信號混合調處之音訊物件適應性單獨時間-頻率解析度切換。

發明背景

在現代數位音訊系統中，在接收機側上允許所傳輸內容之音訊物件相關之修改為主要趨勢。此等修改包括音訊信號之選定部分之增益修改及/或在經由空間分散式揚聲器進行的多通道回放之情況下專屬音訊物件之空間重新定位。此可藉由將音訊內容之不同部分單獨傳遞至不同揚聲器來達成。

換言之，在音訊處理、音訊傳輸及音訊儲存之技術中，愈來愈希望允許物件導向音訊內容回放上之使用者交互作用，且亦需要利用多通道回放之延伸的可能性來單獨渲染音訊內容或音訊內容之部分，以便改良聽覺印象。藉由此舉，多通道音訊內容之使用為使用者帶來顯著的改良。例如，可獲得三維聽覺印象，該三維聽覺印象帶來改良之使用者對娛樂應用之滿意度。然而，多通道音訊內容在專業環境中亦有用，例如在電話會議應用中，因為通話器可懂度可藉由使用多通道音訊回放來改良。另一可能的應用將為收聽器提供音樂片段以單獨調整不同部分(亦稱為「音訊物件」)或軌道(諸如聲零件或不同樂器)之回放階及/或空間位置。使用者可出於個人品味之原因、為了自音樂片段較容易地轉錄一或多個部分、教育目的、伴唱機、排演等而執行此調整。

例如以脈衝代碼調變(PCM)資料或甚至壓縮音訊格式之形式之所有數位多通道或多物件音訊內容之直接離散傳輸需要極高的位元率。然而，亦希望以位元率有效的方式傳輸且儲存音訊資料。因此，吾人願意接受音訊品質與位元率要求之間的合理取捨，以便避免由多通道/多物件應用產生之過度資源負載。

近來，在音訊編碼領域中，用於多通道/多物件音訊信號之位元率有效的傳輸/儲存之參數技術已由例如動態影像專家群(MPEG)及其他人介紹。一實例為作為通道導向方法之MPEG環場(MPS)[MPS、BCC]，或作為物件導向方法之MPEG空間音訊物件編碼(SAOC)[JSC、SAOC、SAOC1、SAOC2]。另一物件導向方法稱為「告知源分離」[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。此等技術以基於通道/物件之降混及描述所傳輸/儲存之音訊場景及/或音訊場景中之音訊源物件之額外旁資訊來重建所要的輸出音訊場景或所要的音訊源物件為目的。

此類系統中之通道/物件相關之旁資訊之估計及應用係以時間-頻率選擇性方式來進行。因此，此類系統使用諸如離散傅立葉轉換(DFT)、短時傅立葉轉換(STFT)或類似正交鏡相濾波器(QMF)組之濾波器組等之時間-頻率轉換。使用MPEG SAOC之實例，在圖1中描繪此類系統之基本原理。

在STFT之情況下，時間維度係藉由時間區塊編號表示，且頻譜維度係藉由頻譜係數(「頻格」)編號擷取。在QMF之情況下，時間維度係藉由時槽編號表示，且頻譜維度係藉由子頻帶編號擷取。若QMF之頻譜解析度由第二濾波器級之後續應用改良，則整個濾波器組稱為混合式QMF，且精細解析度子頻帶被稱為混合式子頻帶。

如以上已提及，在SAOC中，一般處理係以時間-頻率選擇性方式執行且在每一頻帶內可描述如下：

‧使用由元素d_1,1...d_N,P組成之降混矩陣作為編碼器處理之部分而將N個輸入音訊物件信號s₁...s_N降混至P個通道x₁...x_P。另外，編碼器擷取描述輸入音訊物件之特性之旁資訊(旁資訊估計器(SIE)模組)。對於MPEG SAOC，物件功率關於彼此之關係為此旁資訊之最基本形式。

‧傳輸/儲存降混信號及旁資訊。為此，可例如使用諸如MPEG-1/2 Layer II或III(aka.mp3)、MPEG-2/4進階音訊編碼(AAC)等之熟知的知覺音訊編碼器來壓縮降混音訊信號。

‧在接收端上，解碼器在概念上試圖使用所傳輸之旁資訊來自(解碼)降混信號復原原始物件信號(「物件分離」)。然後使用由圖1中之係數r_1,1...r_N,M描述之渲染矩陣將此等近似物件信號...混合成由M個音訊輸出通道...表示之目標場景。所要的目標場景在極端情況下可為出自混合物之僅一個源信號之渲染(源分離情景)，並且亦可為由所傳輸物件組成之任何其他任意的聲響場景。

以時間-頻率為基礎之系統可利用具有靜態時間解析度及頻率解析度之時間-頻率(t/f)轉換。選取某一固定的t/f解析度柵格通常涉及時間解析度與頻率解析度之間的取捨。

固定t/f解析度之效應可在音訊信號混合物中之典型物件信號之實例上得到證明。例如，音調聲音之頻譜展示具有一基本頻率及若干泛音之調和相關之結構。此類信號之能量集中在某些頻率區處。對於此類信號，所利用之t/f表示法之高頻率解析度對於自信號混合物分離窄頻帶音調頻譜區為有益的。相反，類似鼓聲音之暫態信號通常具有相異的時間結構：大量的能量僅在短時段內存在，且遍佈於大範圍之頻率上。對於此等信號，所利用之t/f表示法之高時間解析度對於自信號混合物分離暫態信號部分為有利的。

發明概要

當分別在編碼器側處或在解碼器側處產生且/或估計物件特定之旁資訊時，將希望考慮不同類型之音訊物件關於其在時間-頻率域中之表示法的不同需求。

此期望及/或進一步期望係藉由用於解碼多物件音訊信號之音訊解碼器、藉由用於將多個音訊物件信號編碼成降混信號及旁資訊之音訊編碼器、藉由用於解碼多物件音訊信號之方法、藉由用於編碼多個音訊物件信號之方法或藉由對應的電腦程式來解決，如由獨立申請專利範圍所定義。

根據至少一些實施例，提供用於解碼多物件信號之音訊解碼器。多物件音訊信號由降混信號及旁資訊組成。旁資訊包含用於至少一時間/頻率區中之至少一音訊物件的物件特定之旁資訊。旁資訊進一步包含指示用於至少一時間/頻率區中之至少一音訊物件之物件特定之旁資訊的物件特定之時間/頻率解析度之物件特定之時間/頻率解析度資訊。音訊解碼器包含物件特定之時間/頻率解析度判定器，該物件特定之時間/頻率解析度判定器經組配來自用於至少一音訊物件之旁資訊判定物件特定之時間/頻率解析度資訊。音訊解碼器進一步包含物件分離器，該物件分離器經組配成使用與物件特定之時間/頻率解析度一致的物件特定之旁資訊自降混信號分離至少一音訊物件。

進一步實施例提供用於將多個音訊物件編碼成降混信號及旁資訊之音訊編碼器。音訊編碼器包含時間至頻率變壓器，該時間至頻率變壓器經組配來使用第一時間/頻率解析度將該等多個音訊物件至少轉換成第一多個對應的變換，且使用第二時間/頻率解析度將該等多個音訊物件轉換成第二多個對應的變換。音訊編碼器進一步包含旁資訊判定器，該旁資訊判定器經組配來判定用於該等第一多個對應的變換之至少一第一旁資訊及用於該等第二多個對應的變換之一第二旁資訊。第一旁資訊及第二旁資訊指示該等多個音訊物件在時間/頻率區中彼此分別在第一時間/頻率解析度及第二時間/頻率解析度中之關係。音訊編碼器亦包含旁資訊選擇器，該旁資訊選擇器經組配來基於適合性準則自至少該第一旁資訊及第二旁資訊為該等多個音訊物件中之至少一音訊物件選擇一個物件特定之旁資訊。適合性準則指示至少該第一時間/頻率解析度或該第二時間/頻率解析度對於在時間/頻率域中表示音訊物件之適合性。選定之物件特定之旁資訊經插入由音訊編碼器輸出之旁資訊中。

本發明之進一步實施例提供用於解碼由降混信號及旁資訊組成之多物件音訊信號之方法。旁資訊包含用於至少一時間/頻率區中之至少一音訊物件的物件特定之旁資訊，且物件特定之時間/頻率解析度資訊指示用於至少一時間/頻率區中之至少一音訊物件之物件特定之旁資訊的物件特定之時間/頻率解析度。方法包含自用於至少一音訊物件之旁資訊判定物件特定之時間/頻率解析度資訊。方法進一步包含使用與物件特定之時間/頻率解析度一致的物件特定之旁資訊自降混信號分離至少一音訊物件。

本發明之進一步實施例提供用於將多個音訊物件編碼成降混信號及旁資訊之方法。方法包含使用第一時間/頻率解析度將該等多個音訊物件至少轉換成第一多個對應的變換，且使用第二時間/頻率解析度將該等多個音訊物件轉換成第二多個對應的變換。方法進一步包含判定用於該等第一多個對應的變換之至少一第一旁資訊及用於該等第二多個對應的變換之一第二旁資訊。第一旁資訊及第二旁資訊指示該等多個音訊物件在時間/頻率區中彼此分別在第一時間/頻率解析度及第二時間/頻率解析度中之關係。方法進一步包含基於適合性準則自至少該第一旁資訊及第二旁資訊為該等多個音訊物件中之至少一音訊物件選擇一個物件特定之旁資訊。適合性準則指示至少該第一時間/頻率解析度或該第二時間/頻率解析度對於在時間/頻率域中表示音訊物件之適合性。物件特定之旁資訊經插入由音訊編碼器輸出之旁資訊中。

若所利用之t/f表示法與將自混合物分離之音訊物件之時間及/或頻譜特性不匹配，則音訊物件分離之效能通常下降。不充分的效能可導致分離之物件之間的串音。該串音經感知為前回聲或後回聲、音色修改，或在人類語音之情況下經感知為所謂的含糊其詞。本發明之實施例提供若干替代性t/f表示法，當在編碼器側判定旁資訊時或當在解碼器側使用旁資訊時，可自該等替代性t/f表示法為給定音訊物件及給定時間/頻率區選擇最適合的t/f表示法。與技術現況相比，此提供用於音訊物件之分離之改良之分離效能及所渲染輸出信號之改良之主觀品質。

與用於編碼/解碼空間音訊物件之其他方案相比，旁資訊之量可大體上相同或稍微較高。根據本發明之實施例，旁資訊係以有效方式使用，因為其係以考慮到給定音訊物件關於其時間結構及頻譜結構之物件特定之性質的物件特定之方式予以應用。換言之，旁資訊之t/f表示法適合於各種音訊物件。

10‧‧‧SAOC編碼器/編碼器

12‧‧‧SAOC解碼器

16‧‧‧降混器/SAOC降混器

17‧‧‧旁資訊估計器/旁資訊擷取器/SAOC旁資訊擷取器

18‧‧‧降混信號

20‧‧‧旁資訊

26‧‧‧渲染資訊

30₁~30_K‧‧‧子頻帶信號/子頻帶

32‧‧‧小框/子頻帶值

34‧‧‧連序濾波器組時槽/濾波器組時槽/所有時間指數

36‧‧‧頻率軸

38‧‧‧時間軸

41‧‧‧SAOC訊框

42‧‧‧虛線/時間/頻率小區域

52‧‧‧時間-頻率變壓器

54‧‧‧旁資訊計算及選擇模組(SI-CS)

55-1~55-K‧‧‧旁資訊判定器

56‧‧‧旁資訊選擇器(SI-AS)

110‧‧‧物件特定之時間/頻率解析度判定器/t/f表示法發信號模組

112‧‧‧選擇器

115‧‧‧信號時間/頻率轉換單元/降混信號時間/頻率變壓器

120、120₁~120_H、121‧‧‧物件分離器

130‧‧‧t/f解析度轉換器

132‧‧‧逆變焦變壓器

140‧‧‧矩陣

150‧‧‧渲染器

1302、1304、1402~1406‧‧‧步驟

s₁~s_N‧‧‧輸入音訊物件信號/音訊信號/物件/輸入物件/音訊物件

‧‧‧估計分離的音訊物件

‧‧‧估計分離的音訊物件/矩陣元素

‧‧‧音訊輸出通道/通道

s_1,1(t,f)~s_N,1(t,f)‧‧‧第一多個對應的變換

s_1,2(t,f)~s_N,2(t,f)‧‧‧第二多個對應的變換

R(t_R,f_R)‧‧‧時間/頻率區/t/f區

R(t_R-1,f_R)‧‧‧時間/頻率區

TFRI₁~TFRI_N‧‧‧物件特定之時間/頻率解析度資訊

PSI‧‧‧旁資訊

TFR₁‧‧‧第一時間/頻率解析度

接著將參照隨附圖式描述根據本發明之實施例，在隨附圖式中：圖1展示SAOC系統之概念性概觀的示意性方塊圖；圖2展示單通道音訊信號之時間-頻譜表示法的示意性及例示性圖表；圖3展示SAOC編碼器內之旁資訊之時間-頻率選擇性計算的示意性方塊圖；圖4示意性地示出根據一些實施例之增強型旁資訊估計器的原理；圖5示意性地示出由不同的t/f表示法表示之t/f區R(t_R,f_R)；圖6為根據實施例之旁資訊計算及選擇模組的示意性方塊圖；圖7示意性地示出包含增強型(虛擬)物件分離(EOS)模組之SAOC解碼；圖8展示增強型物件分離模組(EOS-模組)的示意性方塊圖；圖9為根據實施例之音訊解碼器的示意性方塊圖；圖10為根據相對簡單的實施例之音訊解碼器的示意性方塊圖，該音訊解碼器解碼H個替代性t/f表示法且隨後選擇物件特定之一個；圖11示意性地示出以不同的t/f表示法表示之t/f區R(t_R,f_R)及t/f區內之估計協方差矩陣E之判定的所得結果；圖12示意性地示出用於使用變焦轉換以便在變焦時間/頻率表示法中執行音訊物件分離的音訊物件分離之概念；圖13展示用於使用相關聯旁資訊解碼降混信號之方法的示意性流程圖；以及圖14展示用於將多個音訊物件編碼成降混信號及相關聯旁資訊之方法的示意性流程圖。

較佳實施例之詳細說明

圖1展示SAOC編碼器10及SAOC解碼器12之一般佈置。SAOC編碼器10接收N個物件(亦即，音訊信號s₁至s_N)作為輸入。具體而言，編碼器10包含降混器16，該降混器接收音訊信號s₁至s_N且將其降混成降混信號18。或者，可在外部提供降混(「藝術降混」)，且系統估計額外旁資訊以使所提供之降混匹配所計算之降混。在圖1中，降混信號係展示為P通道信號。因此，任何單聲道(P=1)、立體聲(P=2)或多通道(P>=2)降混信號組態為可想像的。

在立體聲降混之情況下，降混信號18之通道表示為L0及R0，在單聲道降混之情況下，通道簡單地表示為L0。為了賦能於SAOC解碼器12恢復單獨的物件s₁至s_N，旁資訊估計器17向SAOC解碼器12提供包括SAOC參數之旁資訊。例如，在立體聲降混之情況下，SAOC參數包含物件階差(OLD)、物件間交叉相關參數(IOC)、降混增益值(DMG)及降混通道階差(DCLD)。包括SAOC參數之旁資訊20連同降混信號18一起形成由SAOC解碼器12接收之SAOC輸出資料串流。

SAOC解碼器12包含升混器，該升混器接收降混信號18以及旁資訊20，以便恢復音訊信號s₁及s_N且將音訊信號s₁及s_N渲染至任何使用者選定組之通道至上，其中渲染係由輸入至SAOC解碼器12中之渲染資訊26來規定。

音訊信號s₁至s_N可在任何編碼域中(諸如，在時間域或頻譜域中)輸入至編碼器10中。在音訊信號s₁至s_N係在時間域中饋進至編碼器10中(諸如PCM編碼)之情況下，編碼器10可使用濾波器組(諸如混合式QMF組)，以便將信號傳送至頻譜域中，其中在特定濾波器組解析度處音訊信號在與不同頻譜部分相關聯之若干子頻帶中予以表示。若音訊信號s₁至s_N已處於編碼器10所期望之表示法中，則該編碼器不必執行頻譜分解。

圖2展示在剛剛提及之頻譜域中之音訊信號。如可看出，音訊信號係表示為多個子頻帶信號。每一子頻帶信號30₁至30_K皆由子頻帶值之序列組成，該等子頻帶值由小框32指示。如可看出，子頻帶信號30₁至30_K之子頻帶值32在時間上彼此同步化，使得對於連序濾波器組時槽34中每一者，每一子頻帶30₁至30_K皆包含確切的一個子頻帶值32。如由頻率軸36所示，子頻帶信號30₁至30_K與不同的頻率區相關聯，且如由時間軸38所示，濾波器組時槽34在時間上連序地佈置。

如以上所概述，旁資訊擷取器17自輸入音訊信號s₁至s_N計算SAOC參數。根據當前實施之SAOC標準，編碼器10在可相對於如由濾波器組時槽34及子頻帶分解判定之原始時間/頻率解析度降低了某一量之時間/頻率解析度中執行此計算，其中此某一量在旁資訊20內發信號至解碼器側。連序濾波器組時槽34之群組可形成SAOC訊框41。又，SAOC訊框41內之參數頻帶之數目在旁資訊20內經傳達。因此，時間/頻率域被分為在圖2中由虛線42例示之時間/頻率小區域。在圖2中，參數頻帶以相同方式分散在各種描繪之SAOC訊框41中，使得獲得時間/頻率小區域之規則佈置。然而，通常，參數頻帶可隨著一個SAOC訊框41與後續SAOC訊框之不同而不同，取決於在個別SAOC訊框41中對頻譜解析度之不同需求。此外，SAOC訊框41之長度亦可不同。因此，時間/頻率小區域之佈置可為不規則的。然而，特定SAOC訊框41內之時間/頻率小區域通常具有相同持續時間，且在時間方向上對準，亦即，該SAOC訊框41中之所有t/f小區域在給定SAOC訊框41之開始處開始，且在該SAOC訊框41之終點處結束。

旁資訊擷取器17根據以下公式計算SAOC參數。具體而言，旁資訊擷取器17將用於每一物件i之物件階差計算為：其中求和以及指數n及k分別遍歷所有時間指數34及所有頻譜指數30，該等所有頻譜指數屬於對於SAOC訊框(或處理時槽)由指數l參考且對於參數頻帶藉由指數m參考之某一時間/頻率小區域42。藉此，將音訊信號或物件i之所有子頻帶值x_i之能量相加且關於所有物件或音訊信號之中的彼小區域之最高能量值規格化。

此外，SAOC旁資訊擷取器17能夠計算多對不同的輸入物件s₁至s_N之對應的時間/頻率小區域之相似性量測。雖然SAOC降混器16可計算所有該等對輸入物件s₁至s_N之間的相似性量測，但是降混器16亦可抑制相似性量測之發信號或將相似性量測之計算限制於形成共用立體聲通道之左通道或右通道的音訊物件s₁至s_N。在任何情況下，相似性量測被稱為物件間交叉相關參數。計算如下：其中指數n及k亦遍歷屬於某一時間/頻率小區域42之所有子頻帶值，且i及j表示某一對音訊物件s₁至s_N。

降混器16藉由施加至每一物件s₁至s_N之增益因數之使用來降混物件s₁至s_N。亦即，將增益因數D_i施加至物件i，然後將所有如此加權之物件s₁至s_N相加以獲得單聲道降混信號，若P=1，則在圖1中例示此狀況。在若P=2則在圖1中描繪之雙通道降混信號之另一示例性情況下，將增益因數D_1,i施加至物件i，然後對所有如此增益放大之物件求和以便獲得左降混通道L0，且將增益因數D_2,i施加至物件i，然後對如此增益放大之物件求和以便獲得右降混通道R0。在多通道降混(P>=2)之情況下將應用與以上類似之處理。

此降混時效藉由降混增益DMG_i且在立體聲降混信號之情況下藉由降混通道階差DCLD_i發信號至解碼器側。

降混增益係根據以下公式計算：DMG _i=20log₁₀(D _i+ε)，(單聲道降混)，，(立體聲降混)，其中ε為諸如10^-9之小數目。

對於DCLD_s，以下公式適用：

在正常模式中，降混器16分別根據以下公式產生降混信號：對於單聲道降混，

或者對於立體聲降混

因此，在以上提及之公式中，參數OLD及IOC為音訊信號之函數，且參數DMG及DCLD為D之函數。順便一提，請注意，D在時間上可不同。

因此，在正常模式中，降混器16在無偏好的情況下混合所有物件s₁至s_N，亦即，其中等同地處置所有物件s₁至s_N。

在解碼器側處，升混器在一個計算步驟中執行降混程序之逆及由矩陣R(在文獻中有時亦稱為A)表示之「渲染資訊」26之實施，亦即，在雙通道降混之情況下其中矩陣E為參數OLD及IOC之函數。矩陣E為音訊物件s₁至s_N之估計協方差矩陣。在當前SAOC實施中，估計協方差矩陣E之計算通常在SAOC參數之頻譜/時間解析度中(亦即，對於每一(l,m))執行，使得可將估計協方差矩陣撰寫為E ^l,m。估計協方差矩陣E ^l,m具有大小N x N，其中其係數定義為

因此，矩陣E ^l,m在的情況下沿其對角線具有物件階差，亦即，對於i=j，，因為對於i=j，且。在其對角線以外，估計協方差矩陣E具有分別表示以物件間交叉相關量測加權之物件i及j之物件階差的幾何平均數之矩陣係數。

圖3顯示作為SAOC編碼器10之部分之旁資訊估計器(SIE)之實例上的實施之一可能的原理。SAOC編碼器10包含混合器16及旁資訊估計器SIE。SIE在概念上由兩個模組組成：一個模組用以計算每一信號之以短時為基礎之t/f表示法(例如，STFT或QMF)。所計算之短時t/f表示法經饋進至第二模組，t/f選擇性旁資訊估計模組(t/f-SIE)。t/f-SIE計算用於每一t/f小區域之旁資訊。在當前SAOC實施中，時間/頻率轉換對於所有音訊物件s₁至s_N為固定且相同的。此外，在對於所有音訊物件相同且對於所有音訊物件s₁至s_N具有相同的時間/頻率解析度之SAOC訊框上判定SAOC參數，因此在一些情況下不顧對精細時間解析度之物件特定之需求或在其它情況下對精細頻譜解析度之物件特定之需求。

現在描述當前SAOC概念之一些限制：為了使與旁資訊相關聯之資料之量保持相對小，對於跨越對應於音訊物件之輸入信號之若干時槽及若干(混合式)子頻帶的時間/頻率區，以較佳粗略的方式判定用於不同音訊物件之旁資訊。如以上所述，若所利用之t/f表示法不適於將要自每一處理區塊(亦即，t/f區或t/f小區域)中之混合信號(降混信號)分離之物件信號之時間或頻譜特性，則在解碼器側處觀察之分離效能可為次最佳的。在相同時間/頻率分塊上判定且施加用於音訊物件之音調部分及音訊物件之暫態部分之旁資訊，而不不考慮當前物件特性。此通常導致用於主要音調音訊物件部分之旁資訊在稍微過於粗略之頻譜解析度處經判定，且亦導致用於主要暫態音訊物件部分之旁資訊在稍微過於粗略之時間解析度處經判定。類似地，在解碼器中施加此不適應的旁資訊導致次最佳的物件分離結果，該等次最佳的物件分離結果受以例如頻譜粗糙度及/或可聞前回聲及後回聲之形式之物件串音損害。

對於在解碼器側改良分離效能，將希望賦能於解碼器或用於解碼之對應的方法單獨調適用於根據將要分離之所要的目標信號之特性來處理解碼器輸入信號(「旁資訊及降混」)的t/f表示法。對於每一目標信號(物件)，例如出自給定組之可利用的表示法單獨選擇最適合的t/f表示法以用於處理及分離。解碼器藉此由旁資訊驅動，該旁資訊發信號將在給定時間跨度及給定頻譜區處用於每一單獨物件之t/f表示法。此資訊係在編碼器處予以計算且除在SAOC內已傳輸之旁資訊之外亦經傳達。

‧本發明係關於用以計算由資訊富集之旁資訊之編碼器處之增強型旁資訊估計器(E-SIE)，該資訊指示對於物件信號中每一者最適合的單獨t/f表示法。

‧本發明進一步係關於接收端處之(虛擬)增強型物件分離器(E-OS)。E-OS開拓額外資訊，該額外資訊發信號隨後用於每一物件之估計的實際t/f表示法。

E-SIE可包含兩個模組。一個模組為每一物件信號計算直至H個t/f表示法，該等t/f表示法在時間及頻譜解析度上不同且滿足以下要求：時間/頻率區R(t_R,f_R)可經定義，使得此等區內之信號內容可由H個t/f表示法中任一者描述。圖5在H個t/f表示法之實例上示出此概念，且展示由兩個不同t/f表示法表示之t/f區R(t_R,f_R)。t/f區R(t_R,f_R)內之信號內容可以高頻譜解析度但低時間解析度(t/f表示法#1)、以高時間解析度但低頻譜解析度(t/f表示法#2)或以時間解析度及頻譜解析度之一些其他組合(t/f表示法#H)表示。可能的t/f表示法之數目不受限制。

因此，提供用於將多個音訊物件信號s_i編碼成降混信號X及旁資訊PSI之音訊編碼器。音訊編碼器包含在圖4中示意性地示出之增強型旁資訊估計器E-SIE。增強型旁資訊估計器E-SIE包含時間-頻率變壓器52，該時間-頻率變壓器經組配成使用至少一第一時間/頻率解析度TFR₁來將該等多個音訊物件信號s_i至少轉換成第一多個對應的轉換信號s_1,1(t,f)...s_N,1(t,f)(第一時間/頻率離散化)，且使用第二時間/頻率解析度TFR₂來將該等多個音訊物件信號si轉換成第二多個對應的變換s_1,2(t,f)...s_N,2(t,f)(第二時間/頻率離散化)。在一些實施例中，時間-頻率變壓器52可經組配成使用多於兩個時間/頻率解析度TFR₁至TFR_H。增強型旁資訊估計器(E-SIE)進一步包含旁資訊計算及選擇模組(SI-CS)54。旁資訊計算及選擇模組包含(參看圖6)一旁資訊判定器(t/f-SIE)或多個旁資訊判定器55-1...55-H，該旁資訊判定器或該等多個旁資訊判定器經組配來判定用於該等第一多個對應的變換s_1,1(t,f)...s_N,1(t,f)之至少一第一旁資訊及用於該等第二多個對應的變換s_1,2(t,f)...s_N,2(t,f)之一第二旁資訊，該第一旁資訊及該第二旁資訊指示該等多個音訊物件信號s_i在時間/頻率區R(t_R,f_R)中彼此分別在第一時間/頻率解析度TFR₁及第二時間/頻率解析度TFR₂中之關係。該等多個音訊信號s_i彼此之關係可例如涉及不同頻帶中之音訊信號之相對能量及/或音訊信號之間的相關度。旁資訊計算及選擇模組54進一步包含旁資訊選擇器(SI-AS)56，該旁資訊選擇器經組配來基於適合性準則自至少該第一旁資訊及第二旁資訊為每一音訊物件信號s_i選擇一個物件特定之旁資訊，該適合性準則指示至少該第一時間/頻率解析度或該第二時間/頻率解析度對於在時間/頻率域中表示音訊物件信號s_i之適合性。物件特定之旁資訊然後經插入由音訊編碼器輸出之旁資訊PSI中。

請注意，t/f平面至t/f區R(t_R,f_R)之分組可不必等距地間隔，如圖5指示。分組為區R(t_R,f_R)可例如為不均勻的，以經知覺上調適。分組亦可順應現有音訊物件編碼方案，諸如SAOC，以賦能於具有增強型物件估計能力之反向相容編碼方案。

t/f解析度之調適不僅限於指定用於不同物件之不同參數分塊，而且SAOC方案所基於之轉換(亦即，通常由在用於SAOC處理之技術現況系統中使用之共用時間/頻率解析度所呈現的)亦可經修改以較佳地適應單獨目標物件。此例如在需要相較於由SAOC方案所基於之共用轉換提供之較高的頻譜解析度時尤其有用。在MPEG SAOC之示例性情況下，原始解析度限於(混合式)QMF組之(共用)解析度。藉由本發明之處理，有可能增加頻譜解析度，但是作為取捨，時間解析度中之一些在處理中丟失。此使用施加於第一濾波器組之輸出上之所謂的(頻譜)變焦轉換來實現。概念上，多個連序濾波器組輸出樣本經處置作為時域信號，且將第二轉換施加於該等輸出樣本以獲得對應的多個頻譜樣本(具有僅一個時間槽)。變焦轉換可基於濾波器組(類似於MPEG SAOC中之混合式濾波器級)，或諸如DFT或複雜修正型離散餘弦轉換(CMDCT)之以區塊為基礎之轉換。以類似方式，亦可能以頻譜解析度為代價而增加時間解析度(時間變焦轉換)：(混合式)QMF組之若干濾波器之多個並行輸出經抽樣作為頻域信號，且將第二轉換施加於該等並行輸出以獲得對應的多個時間樣本(其中僅一個大頻譜頻帶覆蓋若干濾波器之頻譜範圍)。

對於每一物件，將H個t/f表示法連同混合參數一起饋進至第二模組(旁資訊計算及選擇模組SI-CS)中。SI-CS模組針對物件信號中每一者判定在解碼器處H個t/f表示法中之哪些應用於哪一t/f區R(t_R,f_R)以估計物件信號。圖6詳述SI-CS模組之原理。

對於H個不同的t/f表示法中每一者，計算對應的旁資訊(SI)。例如，可利用SAOC內之t/f-SIE模組。所計算之H個旁資訊資料經饋進至旁資訊評估及選擇模組(SI-AS)。對於每一物件信號，SI-AS模組判定用於每一t/f區之最適當的t/f表示法，以用於自信號混合物估計物件信號。

除常見的混合場景參數之外，SI-AS對於每一物件信號且對於每一t/f區輸出代表單獨選定之t/f表示法之旁資訊。亦可輸出表示對應的t/f表示法之額外參數。

呈現用於選擇用於每一物件信號之最適合的t/f表示法之兩種方法：

1.基於源估計之SI-AS：使用基於得到用於每一物件信號之H個源估計之H個t/f表示法所計算之旁資訊資料，自信號混合物估計每一物件信號。對於每一物件，藉由源估計效能量測針對H個t/f表示法中每一者評估每一t/f區R(t_R,f_R)內之估計品質。用於此量測之簡單實例為所達成之信號失真比(SDR)。亦可利用更精密的知覺量測。請注意，可僅基於如在SAOC內定義之參數旁資訊在沒有原始物件信號或信號混合物之知識的情況下有效地實現SDR。以下將描述用於以SAOC為基礎之物件估計之情況的SDR之參數估計之概念。對於每一t/f區R(t_R,f_R)，選擇得到最高SDR之t/f表示法，以用於旁資訊估計及傳輸，且用於在解碼器側處估計物件信號。

2.基於分析H個t/f表示法之SI-AS：獨立地對於每一物件，判定H個物件信號表示法中每一者之稀疏性。不同而言，評估不同的表示法中每一者內之物件信號之能量如何很好地集中於少許值上或遍佈於所有值上。選擇最稀疏地表示物件信號之t/f表示法。可例如使用表徵信號表示法之平坦度或尖峰度之量測來評估信號表示法之稀疏性。頻譜平坦度量測(SFM)、波頂因數(CF)及L0範數為此類量測之實例。根據此實施例，適合性準則可基於給定音訊物件之至少該第一時間/頻率表示法及該第二時間/頻率表示法(及可能進一步的時間/頻率表示法)之稀疏性。旁資訊選擇器(SI-AS)經組配來在至少該第一旁資訊及第二旁資訊之中選擇對應於最稀疏地表示音訊物件信號s_i之時間/頻率表示法的旁資訊。

現在描述用於以SAOC為基礎之物件估計之情況的SDR之參數估計。

符號：

S N個原始音訊物件信號之矩陣

X M個混合信號之矩陣

降混矩陣

X=DS 降混場景之計算

S_est N個估計音訊物件信號之矩陣

在SAOC內，使用以下公式自混合信號概念上估計物件信號：S _est=ED ^*(DED ^*)^-1 X其中E=SS*

以DS代替X給出：S _est=ED ^*(DED ^*)^-1 DS=TS

估計物件信號中之原始物件信號部分之能量可計算為：

然後可藉由以下公式計算估計信號中之失真項：E _dist=diag(E)-E _est，其中diag(E)表示含有原始物件信號之能量之對角線矩陣。然後可藉由使diag(E)與E _dist相關來計算SDR。對於以相對於某一t/f區R(t_R,f_R)內之目標源能量之方式估計SDR，在區R(t_R,f_R)中之每一處理的t/f小區域上執行失真能量計算，且在t/f區R(t_R,f_R)內之所有t/f小區域上累積目標能量及失真能量。

因此，適合性準則可基於源估計。在此情況下，旁資訊選擇器(SI-AS)56可進一步包含源估計器，該源估計器經組配成使用降混信號X及至少該第一資訊及該第二資訊來估計多個音訊物件信號s_i中之至少一選定之音訊物件信號，該第一資訊及該第二資訊分別對應於第一時間/頻率解析度TFR₁及第二時間/頻率解析度TFR₂。源估計器因此提供至少一第一估計音訊物件信號s_i,estim1及第二估計音訊物件信號s_i,estim2(可能達H個估計音訊物件信號s_{i,estim H})。旁資訊選擇器56亦包含品質鑒定器，該品質鑒定器經組配來評估至少該第一估計音訊物件信號s_i,estim1及該第二估計音訊物件信號s_i,estim2之品質。此外，品質鑒定器可經組配成基於作為源估計效能量測之信號失真率SDR來評估至少該第一估計音訊物件信號s_i,estim1及該第二估計音訊物件信號s_i,estim2之品質，信號失真率SDR係僅基於旁資訊PSI(具體而言估計協方差矩陣E _est)而判定。

根據一些實施例之音訊編碼器可進一步包含降混信號處理器，該降混信號處理器經組配來將降混信號X轉換成在時間/頻率域中抽樣至多個時槽及多個(混合式)子頻帶中之表示法。時間/頻率區R(t_R,f_R)可在降混信號X之至少兩個樣本上延伸。經指定以用於至少一音訊物件之物件特定之時間/頻率解析度TFR_h可比時間/頻率區R(t_R,f_R)更精細。如以上所提及，關於時間/頻率表示法之不判定性原理，可以時間解析度為代價而增加信號之頻譜解析度，或反之亦然。雖然自音訊編碼器發送至音訊解碼器之降混信號通常在解碼器中由具有固定的預定時間/頻率解析度之時間-頻率轉換予以分析，但是音訊解碼器仍可將預期時間/頻率區R(t_R,f_R)內之已分析降混信號物件單獨地轉換成另一時間/頻率解析度，該另一時間/頻率解析度更適合於自降混信號擷取給定音訊物件s_i。降混信號在解碼器處之此轉換在此文件中被稱為變焦轉換。變焦轉換可為時間變焦轉換或頻譜變焦轉換。

減少旁資訊之量

原則上，在本發明之系統的簡單實施例中，當藉由自達H個t/f表示法選取來執行解碼器側處之分離時，必須針對每一物件且針對每一t/f區R(t_R,f_R)傳輸用於達H個t/f表示法之旁資訊。可在無知覺品質之顯著損失的情況下急劇地減少此大量資料。對於每一物件，對於每一t/f區R(t_R,f_R)傳輸以下資訊為足夠的：

‧全域地/粗略地描述t/f區R(t_R,f_R)中之音訊物件之信號內容的一個參數，例如，區R(t_R,f_R)中之物件之平均信號能量。

‧音訊物件之精細結構之描述。此描述係自單獨t/f表示法獲得，該單獨t/f表示法經選擇以用於最佳地自混合物估計音訊物件。請注意，可藉由參數化粗略信號表示法與精細結構之間的差異來有效地描述關於精細結構之資訊。

‧指示將用於估計音訊物件之t/f表示法的資訊信號。

在解碼器處，可如以下針對每一t/f區R(t_R,f_R)所述來執行自解碼器處之混合物估計所要的音訊物件。

‧計算如由用於此音訊物件之額外旁資訊指示之單獨t/f表示法。

‧對於分離所要的音訊物件，使用對應的(精細結構)物件信號資訊。

‧對於所有剩餘音訊物件，亦即，必須經抑制的干擾音訊物件，若資訊對於選定之t/f表示法為可利用的，則使用精細結構物件信號資訊。否則，使用粗略信號描述。另一選項將可利用的精細結構物件信號資訊使用於特定剩餘音訊物件，且藉由例如平均t/f區R(t_R,f_R)之子區中之可利用的精細結構音訊物件信號資訊來近似選定之t/f表示法：以此方式，t/f解析度不如選定之t/f表示法一般精細，但仍比粗略t/f表示法更精細。

具有增強型音訊物件估計之SAOC解碼器

圖7示意性地示出包含增強型(虛擬)物件分離(E-OS)模組之SAOC解碼，且在包含(虛擬)增強型物件分離器(E-OS)之改良SAOC解碼器之此實例上形象化原理。以信號混合物連同增強型參數旁資訊(E-PSI)一起饋進SAOC解碼器。E-PSI包含關於音訊物件之資訊、混合參數及額外資訊。藉由此額外旁資訊，其經發信號至虛擬E-OS，該t/f表示法應用於每一物件s₁...s_N且用於每一t/f區R(t_R,f_R)。對於給定t/f區R(t_R,f_R)，物件分離器使用在旁資訊中針對每一物件發信號之單獨t/f表示法來估計物件中之每一者。

圖8詳述E-OS模組之概念。對於給定t/f區R(t_R,f_R)，用以在P個降混信號上計算之單獨t/f表示法#h藉由t/f表示法發信號模組110發信號至多個t/f轉換模組。(虛擬)物件分離器120在概念上試圖基於由額外旁資訊指示之t/f轉換#h來估計源s_n。若針對所指示t/f轉換#h傳輸，則(虛擬)物件分離器開拓關於物件之精細結構之資訊，且否則使用源信號之所傳輸粗略描述。請注意，針對每一t/f區R(t_R,f_R)將計算之不同t/f表示法之最大可能的數目為H。多時間/頻率轉換模組可經組配來執行P個降混信號之以上提及之變焦轉換。

圖9展示用於解碼由降混信號X及旁資訊PSI組成之多物件音訊信號之音訊解碼器的示意性方塊圖。旁資訊PSI包含用於至少一時間/頻率區R(t_R,f_R)中之至少一音訊物件si的物件特定之旁資訊PSI_i，其中i=1...N。旁資訊PSI亦包含物件特定之時間/頻率解析度資訊TFRI_i，其中i=1...NTF。變數NTF指示提供物件特定之時間/頻率解析度資訊所針對之音訊物件之數目，且NTF N。物件特定之時間/頻率解析度資訊TFRI_i亦可被稱為物件特定之時間/頻率表示法資訊。具體而言，「時間/頻率解析度」一詞不應被理解為必須意味時間/頻率域之均勻離散化，而亦可涉及t/f小區域內或越過全頻帶頻譜之所有t/f小區域之不均勻離散化。通常且較佳地，時間/頻率解析度經選取，使得給定t/f小區域之兩個維度之一具有精細解析度，且另一維度具有低解析度，例如，對於暫態信號，時間維度具有精細解析度，且頻譜解析度為粗略的，而對於穩態信號，頻譜解析度為精細的，且時間維度具有粗略解析度。時間/頻率解析度資訊TFRI_i指示用於至少一時間/頻率區R(t_R,f_R)中之至少一音訊物件s_i之物件特定之旁資訊PSI_i的物件特定之時間/頻率解析度TFR_h(h=1...H)。音訊解碼器包含物件特定之時間/頻率解析度判定器110，該物件特定之時間/頻率解析度判定器經組配來自用於至少一音訊物件s_i之旁資訊PSI判定物件特定之時間/頻率解析度資訊TFRI_i。音訊解碼器進一步包含物件分離器120，該物件分離器經組配成使用與物件特定之時間/頻率解析度TFR_i一致的物件特定之旁資訊PSI_i自降混信號X分離至少一音訊物件s_i。此意味物件特定之旁資訊PSI_i具有由物件特定之時間/頻率解析度資訊TFRI_i指定之物件特定之時間/頻率解析度TFR_i，且當由物件分離器120執行物件分離時，考慮到此物件特定之時間/頻率解析度。

物件特定之旁資訊(PSI_i)可包含用於至少一時間/頻率區R(t_R,f_R)中之至少一音訊物件s_i之精細結構物件特定之旁資訊。精細結構物件特定之旁資訊可為描述階(例如，音訊物件之信號能量、信號功率、振幅等)如何在時間/頻率區R(t_R,f_R)內變化之精細結構階資訊。精細結構物件特定之旁資訊可分別為音訊物件i及j之物件間相關資訊。此處，精細結構物件特定之旁資訊係根據物件特定之時間/頻率解析度TFR_i使用精細結構時槽η及精細結構(混合式)子頻帶κ在時間/頻率柵格上予以定義。以下將在圖12之上下文中描述此主題。目前，可區別至少三個基本情況：

a)物件特定之時間/頻率解析度TFR_i對應於QMF時槽及(混合式)子頻帶之粒度。在此情況下，η=n且κ=k。

b)物件特定之時間/頻率解析度資訊TFRI_i指示必須在時間/頻率區R(t_R,f_R)或其一部分內執行頻譜變焦轉換。在此情況下，將每一(混合式)子頻帶k細分為兩個或兩個以上精細結構(混合式)子頻帶κ_k、κ_k+1，...，使得增加頻譜解析度。換言之，精細結構(混合式)子頻帶κ_k、κ_k+1，...為原始(混合式)子頻帶之分數。在交換中，時間解析度由於時間/頻率不判定性而減少。因此，精細結構時槽η包含時槽n、n+1，...中之兩個或兩個以上。

c)物件特定之時間/頻率解析度資訊TFRI_i指示必須在時間/頻率區R(t_R,f_R)或其一部分內執行時間變焦轉換。在此情況下，將每一時槽n細分為兩個或兩個以上精細結構時槽η_n、η_n+1，...，使得增加時間解析度。換言之，精細結構時槽η_n、η_n+1，...為時槽n之分數。在交換中，頻譜解析度由於時間/頻率不判定性而減少。因此，精細結構(混合式)子頻帶κ包含(混合式)子頻帶k、k+1，...中之兩個或兩個以上。

旁資訊可進一步包含粗略的物件特定之旁資訊OLD_i、IOC_i,j及/或用於所考慮時間/頻率區R(t_R,f_R)中之至少一音訊物件s_i之絕對能量階NRG_i。粗略的物件特定之旁資訊OLD_i、IOC_i,j及/或NRG_i在至少一時間/頻率區R(t_R,f_R)內為常數。

圖10展示音訊解碼器之示意性方塊圖，該音訊解碼器經組配來接收且處理用於一個時間/頻率小區域R(t_R,f_R)內之所有H個t/f表示法中之所有N個音訊物件之旁資訊。取決於音訊物件之數目N及t/f表示法之數目H，每一t/f區R(t_R,f_R)經傳輸或儲存之旁資訊之量可變得相當大，使得圖10中所示之概念更可能用於具有少量音訊物件及不同t/f表示法之情境。又，圖10中示出之實例提供對將不同的物件特定之t/f表示法用於不同的音訊物件之原理中之一些之頓悟。

簡言之，根據圖10中所示之實施例，針對感興趣的所有H個t/f表示法判定且傳輸/儲存整組參數(具體而言OLD及IOC)。另外，旁資訊針對每一音訊物件指示應在哪一特定t/f表示法中擷取/合成此音訊物件。在音訊解碼器中，執行所有t/f表示法h中之物件重建。然後自已使用針對音訊物件及感興趣之小區域在旁資訊中發信號之特定t/f解析度產生的彼等物件特定之小區域或t/f區在時間或頻率上組譯最終音訊物件。

將降混信號X提供至多個物件分離器120₁至120_H。物件分離器120₁至120_H中每一者經組配來執行用於一個特定t/f表示法之分離任務。為此，每一物件分離器120₁至120_H進一步接收特定t/f表示法中之N個不同的音訊物件s₁至s_N之旁資訊，物件分離器與該特定t/f表示法相關聯。請注意，圖10僅展示多個H個物件分離器以用於例示性目的。在替代性實施例中，每一t/f區R(t_R,f_R)H個分離任務可由較少的物件分離器或甚至由單個物件分離器執行。根據進一步可能的實施例，分離任務可在多用途處理器上或在多核心處理器上作為不同執行緒來執行。分離任務中之一些在計算上比其它分離任務更密集，取決於對應的t/f表示法有多精細。對於每一t/f區R(t_R,f_R)，將N x H個組之旁資訊提供至音訊解碼器。

物件分離器120₁至120_H提供N x H個估計分離的音訊物件，該等估計分離的音訊物件可經饋進至任選的t/f解析度轉換器130，以便使估計分離的音訊物件成為共用t/f表示法，若此並非已經如此。通常，共用t/f解析度或表示法可為濾波器組或音訊信號之一般處理所基於之轉換之真實t/f解析度，亦即，在MPEG SAOC之情況下，共用解析度為QMF時槽及(混合式)子頻帶之粒度。出於例示性目的，可假定將估計音訊物件暫時儲存在矩陣140中。在實際實施中，可立即丟棄或起初甚至不計算稍後將不使用之估計分離的音訊物件。矩陣140之每一列皆包含相同音訊物件之H個不同的估計，亦即，基於H個不同的t/f表示法所判定之估計分離的音訊物件。以柵格示意性地表示矩陣140之中間部分。每一矩陣元素對應於估計分離的音訊物件之音訊信號。換言之，每一矩陣元素皆包含目標t/f區R(t_R,f_R)內之多個時槽/子頻帶樣本(例如，圖11之實例中之7個時槽x3個子頻帶=21個時槽/子頻帶樣本)。

音訊解碼器進一步經組配來對於不同音訊物件且對於當前t/f區R(t_R,f_R)接收物件特定之時間/頻率解析度資訊TFRI₁至TFRI_N。對於每一音訊物件i，物件特定之時間 /頻率解析度資訊TFRI_i指示估計分離的音訊物件中之哪些應用來近似地再現原始音訊物件。物件特定之時間/頻率解析度資訊通常已由編碼器判定，且作為旁資訊之部分經提供至解碼器。在圖10中，矩陣140中之虛線框及十字指示已選擇t/f表示法中之哪些以用於每一音訊物件。選擇係藉由選擇器112來進行，該選擇器接收物件特定之時間/頻率解析度資訊TFRI₁...TFRI_N。

選擇器112輸出可經進一步處理之N個選定之音訊物件信號。例如，可將N個選定之音訊物件信號提供至渲染器150，該渲染器經組配來將選定之音訊物件信號渲染成可利用的揚聲器設置，例如，立體聲或或5.1揚聲器設置。為此，渲染器150可接收預置渲染資訊及/或使用者渲染資訊，該預置渲染資訊及/或使用者渲染資訊描述應如何將估計分離的音訊物件之音訊信號分散至可利用的揚聲器。渲染器150為任選的，且可直接使用並處理在選擇器112之輸出處之估計分離的音訊物件。在替代性實施例中，可將渲染器150設定為極端設置，諸如「獨唱模式」或「伴唱機模式」。在獨唱模式中，單個估計音訊物件經選擇來渲染成輸出信號。在伴唱機模式中，除一個以外的所有估計音訊物件經選擇以渲染成輸出信號。通常，不渲染領唱部分，但渲染伴奏部分。兩個模式在分離效能方面皆為高要求的，因為甚至極少的串音亦為可感知的。

圖11示意性地示出可如何組織用於音訊物件i之精細結構旁資訊及粗略旁資訊。圖11之上部分示出根據時槽(在文獻且具體而言音訊編碼相關之ISO/IEC標準中通常由指數n指示)及(混合式)子頻帶(在文獻中通常由指數k識別)抽樣之時間/頻率域之一部分。時間/頻率域亦分為不同的時間/頻率區(由圖11中之粗虛線圖解地指示)。通常，一個t/f區包含若干時槽/子頻帶樣本。一個t/f區R(t_R,f_R)應充當用於其他t/f區之代表性實例。示範性考慮之t/f區R(t_R,f_R)在七個時槽n至n+6及三個(混合式)子頻帶k至k+2上延伸，且因此包含21個時槽/子頻帶樣本。吾人現假定兩個不同的音訊物件i及j。音訊物件i可具有t/f區R(t_R,f_R)內之大體上音調特性，而音訊物件j可具有t/f區R(t_R,f_R)內之大體上暫態特性。為了更適當地表示音訊物件i及j之此等不同的特性，可針對音訊物件i在頻譜方向上且針對音訊物件j在時間方向上進一步細分t/f區R(t_R,f_R)。請注意，t/f區不一定相同或均勻地分散在t/f域中，但大小、位置及分佈可根據音訊物件之需要來調適。不同而言，在時間/頻率域中將降混信號X抽樣至多個時槽及多個(混合式)子頻帶中。時間/頻率區R(t_R,f_R)可在降混信號X之至少兩個樣本上延伸。物件特定之時間/頻率解析度TFR_h比時間/頻率區R(t_R,f_R)更精細。

當在音訊編碼器側處判定用於音訊物件i之旁資訊時，音訊編碼器分析t/f區R(t_R,f_R)內之音訊物件i且判定粗略旁資訊及精細結構旁資訊。粗略旁資訊可為物件階差OLD_i、物件間協方差IOC_i,j及/或絕對能量階NRG_i，如尤其在SAOC標準ISO/IEC 23003-2中所定義。粗略旁資訊係基於t/f區予以定義，且在使用此種旁資訊時通常提供反向相容性。用於物件i之精細結構物件特定之旁資訊提供指示音訊物件i之能量如何分配在三個頻譜子區之中的三個進一步值。在所示情況下，三個頻譜子區中每一者對應於一個(混合式)子頻帶，但其他分佈亦為可能的。甚至可以設想使得一個頻譜子區小於另一頻譜子區，以便具有在較小頻譜子頻帶中可利用之尤其精細的頻譜解析度。以類似方式，可將相同t/f區R(t_R,f_R)細分為若干時間子區，以用於更適當地表示t/f區R(t_R,f_R)中之音訊物件j之內容。

精細結構物件特定之旁資訊可描述粗略的物件特定之旁資訊(例如，OLD_i、IOC_i,j及/或NRG_i)與至少一音訊物件s_i之間的差異。

圖11之下半部分示出估計協方差矩陣E由於用於音訊物件i及j之精細結構旁資訊而在t/f區R(t_R,f_R)上變化。在物件分離任務中使用之其他矩陣或值在t/f區R(t_R,f_R)內亦可經受變化。協方差矩陣E之變化(及其他矩陣或值之可能的變化)必須由物件分離器120考慮。在所示情況下，針對t/f區R(t_R,f_R)之每一時槽/子頻帶樣本判定不同的協方差矩陣E。在音訊物件中之僅一個具有與其(例如，物件i)相關聯之精細頻譜結構的情況下，協方差矩陣E將為三個頻譜子區中每一者內之常數(此處：三個(混合式)子頻帶中每一者內之常數，但通常其他頻譜子區亦為可能的)。

物件分離器120可經組配來根據以下公式判定具有至少一音訊物件s_i及至少一另一音訊物件s_j之元素之估計協方差矩陣E ^n,k：

其中為用於時槽n及(混合式)子頻帶k之音訊物件i及j之估計協方差；及為用於時槽n及(混合式)子頻帶k之音訊物件i及j之物件特定之旁資訊；分別為用於時槽n及(混合式)子頻帶k之音訊物件i及j之物件間相關資訊。

及中之至少一者分別根據由物件特定之時間/頻率解析度資訊TFRI_i、TFRI_j指示之用於音訊物件i或j之物件特定之時間/頻率解析度TFR_h在時間/頻率區R(t_R,f_R)內變化。物件分離器120可進一步經組配成以以上所述方式使用估計協方差矩陣E ^n,k來自降混信號X分離至少一音訊物件s_i。

當例如使用後續變焦轉換使頻譜解析度或時間解析度自下層轉換之解析度增加時，必須採用以上所述方法之替選方案。在此情況下，物件協方差矩陣之估計需要在變焦域中予以進行，且物件重建亦在變焦域中發生。重建結果然後可經逆轉換回原始轉換(例如(混合式)QMF)之域，且小區域至最終重建中之交錯在此域中發生。原則上，計算以與其在除額外轉換之外利用不同參數分塊之情況下相同的方式操作。

圖12示意性地示出經由頻譜軸中之變焦之實例進行的變焦轉換、變焦域中之處理及逆變焦轉換。吾人考慮由時槽n及(混合式)子頻帶k定義定義之t/f解析度處之時間/頻率區R(t_R,f_R)中之降混。在圖12中所示之實例中，時間-頻率區R(t_R,f_R)跨越四個時槽n至n+3及一個子頻帶k。變焦轉換可由信號時間/頻率轉換單元115執行。變焦轉換可為時間變焦轉換或如圖12所示為頻譜變焦轉換。頻譜變焦轉換可藉由DFT、STFT、以QMF為基礎之分析濾波器組等執行。時間變焦轉換可藉由逆DFT、逆STFT、以逆QMF為基礎之合成濾波器組等執行。在圖12之實例中，將降混信號X自由時槽n及(混合式)子頻帶k定義之降混信號時間/頻率表示法轉換成跨越僅一個物件特定之時槽η但四個物件特定之(混合式)子頻帶κ至κ+3之頻譜變焦t/f表示法。因此，時間/頻率區R(t_R,f_R)內之降混信號之頻譜解析度已經以時間解析度為代價而增加因數4。

處理由物件分離器121在物件特定之時間/頻率解析度TFR_h處執行，該物件分離器亦接收物件特定之時間/頻率解析度TFR_h中之音訊物件中之至少一者之旁資訊。在圖12之實例中，音訊物件i係由時間/頻率區R(t_R,f_R)中之旁資訊定義，該時間/頻率區匹配物件特定之時間/頻率解析度TFR_h，亦即，一個物件特定之時槽η及四個物件特定之(混合式)子頻帶η至η+3。出於例示性目的，在圖12中亦示意性地示出兩個進一步音訊物件i+1及i+2。音訊物件i+1係由具有降混信號之時間/頻率解析度之旁資訊定義。音訊物件i+2係由具有時間/頻率區R(t_R,f_R)中之兩個物件特定之時槽及兩個物件特定之(混合式)子頻帶之解析度的旁資訊定義。對於音訊物件i+1，物件分離器121可考慮時間/頻率區R(t_R,f_R)內之粗略旁資訊。對於音訊物件i+2，物件分離器121可考慮如由兩個不同影線指示之時間/頻率區R(t_R,f_R)內之兩個頻譜平均值。在一般情況下，若用於對應的音訊物件之旁資訊在當前由物件分離器121處理之精確的物件特定之時間/頻率解析度TFR_h中不可利用，但在時間維度及/或頻譜維度上比時間/頻率區R(t_R,f_R)更細緻地離散化，則可由物件分離器121考慮多個頻譜平均值及/或多個時間平均值。以此方式，物件分離器121受益於比粗略旁資訊(例如，OLD、IOC及/或NRG)更較細地離散化之物件特定之旁資訊之可利用性，即使未必如當前由物件分離器121處理之物件特定之時間/頻率解析度TFR_h一般精細。

物件分離器121在物件特定之時間/頻率解析度(變焦t/f解析度)處輸出用於時間/頻率區R(t_R,f_R)之至少一擷取音訊物件。至少一擷取音訊物件然後由逆變焦變壓器132予以逆變焦轉換，以在降混信號之時間/頻率解析度處或在另一所要的時間/頻率解析度處獲得R(t_R,f_R)中之擷取音訊物件，R(t_R,f_R)中之擷取音訊物件然後與其他時間/頻率區(例如R(t_R-1,f_R-1)、R(t_R-1,f_R)...R(t_R+1,f_R+1))中之擷取音訊物件組合，以便組譯擷取音訊物件。

根據對應的實施例，音訊解碼器可包含降混信號時間/頻率變壓器115，該降混信號時間/頻率變壓器經組配來將時間/頻率區R(t_R,f_R)內之降混信號X自降混信號時間/頻率解析度轉換成至少一音訊物件s_i之至少該物件特定之時間/頻率解析度TFR_h，以獲得重新轉換之降混信號X^η,κ。降混信號時間/頻率解析度與降混時槽n及降混(混合式)子頻帶k相關。物件特定之時間/頻率解析度TFR_h與物件特定之時槽η及物件特定之(混合式)子頻帶κ相關。物件特定之時槽η可相較於降混時間/頻率解析度之降混時槽n較精細或較粗略。同樣地，物件特定之(混合式)子頻帶κ可相較於降混時間/頻率解析度之降混(混合式)子頻帶較精細或較粗略。如以上關於時間/頻率表示法之不判定性原理所解釋，可以時間解析度為代價而增加信號之頻譜解析度，且反之亦然。音訊解碼器可進一步包含逆時間/頻率變壓器132，該逆時間/頻率變壓器經組配來將時間/頻率區R(t_R,f_R)內之至少一音訊物件s_i自物件特定之時間/頻率解析度TFR_h轉換回降混信號時間/頻率解析度。物件分離器121經組配來在物件特定之時間/頻率解析度TFR_h處自降混信號X分離至少一音訊物件s_i。

在變焦域中，針對物件特定之時槽η及物件特定之(混合式)子頻帶κ定義估計協方差矩陣E ^η,κ。用於至少一音訊物件s_i及至少一進一步音訊物件s_j之估計協方差矩陣之元素的以上提及之公式在變焦域中可表達為：其中為用於物件特定之時槽η及物件特定之(混合式)子頻帶κ之音訊物件i及j之估計協方差；及為用於物件特定之時槽η及物件特定之(混合式)子頻帶κ之音訊物件i及j之物件特定之旁資訊；分別為用於物件特定之時槽η及物件特定之(混合式)子頻帶κ之音訊物件i及j之物件間相關資訊。

如以上所解釋，進一步音訊物件j可能並未由具有音訊物件i之物件特定之時間/頻率解析度TFR_h之旁資訊定義，使得參數及在物件特定之時間/頻率解析度TFR_h處可能不可利用或可能不可判定。在此情況下，R(t_R,f_R)中之音訊物件j之粗略旁資訊或時間平均值或頻譜平均值可用來近似時間/頻率區R(t_R,f_R)中或時間/頻率區之子區中之參數及。

亦，在編碼器側處，通常應考慮精細結構旁資訊。在根據實施例之音訊編碼器中，旁資訊判定器(t/f-SIE)55-1...55-H進一步經組配來提供精細結構物件特定之旁資訊或及粗略的物件特定之旁資訊OLD_i作為第一旁資訊及第二旁資訊中之至少一者之一部分。粗略的物件特定之旁資訊OLD_i在至少一時間/頻率區R(t_R,f_R)內為常數。精細結構物件特定之旁資訊可描述粗略的物件特定之旁資訊OLD_i與至少一音訊物件s_i之間的差異。物件間相關IOC_i,j及，以及其他參數旁資訊可以類似方式經處理。

圖13展示用於解碼由降混信號X及旁資訊PSI組成之多物件音訊信號之方法的示意性流程圖。旁資訊包含用於至少一時間/頻率區R(t_R,f_R)中之至少一音訊物件s_i的物件特定之旁資訊PSI_i，及指示用於至少一時間/頻率區R(t_R,f_R)中之至少一音訊物件s_i之物件特定之旁資訊的物件特定之時間/頻率解析度TFR_h之物件特定之時間/頻率解析度資訊TFRI_i。方法包含自用於至少一音訊物件s_i之旁資訊PSI判定物件特定之時間/頻率解析度資訊TFRI_i之步驟1302。方法進一步包含使用與物件特定之時間/頻率解析度TFRI_i一致的物件特定之旁資訊自降混信號X分離至少一音訊物件s_i之步驟1304。

圖14展示根據進一步實施例之用於將多個音訊物件信號s_i編碼成降混信號X及旁資訊PSI之方法的示意性流程圖。音訊編碼器包含在步驟1402處將該等多個音訊物件信號s_i至少轉換成第一多個對應的變換s_1,1(t,f)...s_N,1(t,f)。第一時間/頻率解析度TFR₁用以此目的。亦使用第二時間/頻率離散化TFR₂將該等多個音訊物件信號s_i至少轉換成第二多個對應的變換s_1,2(t,f)...s_N,2(t,f)。在步驟1404處，判定用於第一多個對應的變換s_1,1(t,f)...s_N,1(t,f)之至少一第一旁資訊及用於第二多個對應的變換s_1,2(t,f)...s_N,2(t,f)之一第二旁資訊。第一旁資訊及第二旁資訊指示該等多個音訊物件信號s_i在時間/頻率區R(t_R,f_R)中彼此分別在第一時間/頻率解析度TFR₁及第二時間/頻率解析度TFR₂中之關係。方法亦包含基於適合性準則自至少該第一旁資訊及第二旁資訊為每一音訊物件信號s_i選擇一個物件特定之旁資訊之步驟1406，該適合性準則指示至少該第一時間/頻率解析度或該第二時間/頻率解析度對於在時間/頻率域中表示音訊物件信號s_i之適合性，該物件特定之旁資訊經插入由音訊編碼器輸出之旁資訊PSI中。

與SAOC之反向相容性

提出之解決方案可能甚至以完全解碼器相容的方式有利地改良知覺音訊品質。藉由將t/f區R(t_R,f_R)定義為與技術現況SAOC內之t/f分組一致，現有標準的SAOC解碼器可解碼PSI之反向相容部分且在粗略t/f解析度階上產生物件之重建。若增添之資訊由增強型SAOC解碼器使用，則顯著地改良重建之知覺品質。對於每一音訊物件，此額外旁資訊包含應將單獨t/f表示法用於估計物件之資訊，以及基於選定之t/f表示法之物件精細結構之描述。

另外，若增強型SAOC解碼器正在有限資源上運轉，則可忽略增強，且仍可僅需要低計算複雜性而獲得基本品質重建。

本發明之處理的應用領域

物件特定之t/f表示法之概念及其相關聯之發信號至解碼器可應用於任何SAOC方案上。該概念可與任何當前音訊格式以及未來音訊格式組合。概念允許藉由用於音訊物件之參數估計的單獨t/f解析度之音訊物件適應性選取進行的SAOC應用中之增強型知覺音訊物件估計。

儘管在設備之上下文中已描述了一些態樣，但清楚的是，此等態樣亦表示對應方法之描述，其中一區塊或裝置對應於一方法步驟或一方法步驟之一特徵。類似地，方法步驟之上下文中所描述之態樣亦表示對應設備之對應區塊或項目或特徵的描述。一些或所有方法步驟可由(或使用)硬體設備來執行，例如微處理器、可規劃電腦或電子電路。在一些實施例中，一些單個方法步驟或多個方法步驟可由此設備執行。

本發明之編碼音訊信號可儲存在數位儲存媒體上或可在諸如如網際網路之無線傳輸媒體或有線傳輸媒體的傳輸媒體上傳輸。

取決於某些實施要求，本發明之實施例可在硬體中或軟體中實施。可使用上面儲存有電子可讀控制信號之數位儲存媒體(例如，軟磁碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行該實施方案，該數位儲存媒體與可規劃電腦系統協作(或能夠與之協作)，使得執行個別的方法。因此，數位儲存媒體可為電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號的資料載體，其能夠與可規劃電腦系統協作，使得執行本文所述方法中之一者。

通常，本發明之實施例可實施為具有程式代碼之電腦程式產品，當該電腦程式產品在電腦上運行時，該程式代碼操作以用於執行該等方法中之一者。該程式代碼可例如儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上之用於執行本文所述方法中之一者的電腦程式。

換言之，本發明之方法的實施例因此為具有程式代碼之電腦程式，當該電腦程式在電腦上運行時，該程式代碼用於執行本文所述之方法中的一者。

本發明之方法的另一實施例因此為資料載體(或數位儲存媒體，或電腦可讀媒體)，其上面記錄有用於執行本文所述方法中之一者的電腦程式。該資料載體、該數位儲存媒體或該所記錄媒體通常為有形且/或非暫時的。

本發明之方法的另一實施例因此為表示用於執行本文所述方法中之一者的電腦程式的資料串流或信號序列。該資料串流或信號序列可例如經組配來經由資料通信連接(例如經由網際網路)傳送。

另一實施例包含一種處理構件，例如電腦或可規劃邏輯裝置，其經組配來或適於執行本文所述方法中的一者。

另一實施例包含一種電腦，其上面安裝有用於執行本文所述方法中之一者的電腦程式。

在一些實施例中，一種可規劃邏輯裝置(例如，現場可規劃門陣列)可用以執行本文所述方法之功能性中的一些或全部。在一些實施例中，現場可規劃門陣列可與微處理器協作，以便執行本文所述方法中之一者。通常，該等方法較佳由任何硬體設備執行。

上文所述之實施例僅例示本發明之原理。將理解，熟習此項技術者將明白本文所述之佈置及細節之修改及變化。因此，意欲僅受以下專利申請範圍之範疇限制且不受藉由本文實施例之描述及解釋呈現之特定細節限制。

參考文獻：

[MPS] ISO/IEC 23003-1:2007，MPEG-D(MPEG音訊技術)，第1部分：MPEG環場，2007。

[BCC] C. Faller及F. Baumgarte，「Binaural Cue Coding-Part II: Schemes and applica-tions」，IEEE Trans. on Speech and Audio Proc.，第11卷，第6期，2003年11月

[JSC] C. Faller，「Parametric Joint-Coding of Audio Sources」，120th AES Convention，巴黎，2006

[SAOC1] J. Herre、S. Disch、J. Hilpert、O. Hellmuth：「From SAC To SAOC-Re-cent Developments in Parametric Coding of Spatial Audio」，22nd Regional UK AES Conference，英國劍橋，2007年4月

[SAOC2] J. Engdegård、B. Resch、C. Falch、O. Hellmuth、J. Hilpert、A. Holzer、L. Terentiev、J. Breebaart、J. Koppens、E. Schuijers及W. Oomen：「Spatial Audio Ob-ject Coding (SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding」，124th AES Convention，阿姆斯特丹，2008

[SAOC] ISO/IEC, 「MPEG audio technologies-Part 2: Spatial Audio Object Coding (SAOC)」, ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.

[ISS1] M. Parvaix及L. Girin：「lnformed Source Separation of underdetermined instan-taneous Stereo Mixtures using Source Index Embedding」，IEEE ICASSP，2010

[ISS2] M. Parvaix、L. Girin、J.-M. Brassier：「A watermarking-based method for in-formed source separation of audio signals with a single sensor」，IEEE Transactions on Audio, Speech and Language Processing，2010

[ISS3] A. Liutkus及J. Pinel及R. Badeau及L. Girin以及G. Richard：「Informed source separation through spectrogram coding and data embedding」，Signal Processing Journal，2011

[ISS4] A. Ozerov、A. Liutkus、R. Badeau、G. Richard：「Informed source separation: source coding meets source separation」，IEEE Workshop on Applications of Signal Processing to Audio and Acoustics，2011

[ISS5] Shuhua Zhang及Laurent Girin：「An Informed Source Separation System for Speech Signals」，INTERSPEECH，2011

[ISS6] L. Girin及J. Pinel：「Informed Audio Source Separation from Compressed Lin-ear Stereo Mixtures」，AES 42nd International Conference: Semantic Audio，2011

120‧‧‧物件分離器

‧‧‧估計分離的音訊物件

Claims

一種用於解碼由一降混信號(X)及旁資訊(PSI)組成之一多物件音訊信號之音訊解碼器，該旁資訊包含用於至少一時間/頻率區(R(t_R,f_R))中之至少一音訊物件(s_i)的物件特定之旁資訊(PSI_i)，及指示用於該至少一時間/頻率區(R(t_R,f_R))中之該至少一音訊物件(s_i)之該物件特定之旁資訊的一物件特定之時間/頻率解析度(TFR_h)之物件特定之時間/頻率解析度資訊(TFRI_i)，該音訊解碼器包含：一物件特定之時間/頻率解析度判定器，其經組配來自用於該至少一音訊物件(s_i)之該旁資訊(PSI)判定該物件特定之時間/頻率解析度資訊(TFRI_i)；以及一物件分離器，其經組配來使用與該物件特定之時間/頻率解析度(TFRI_i)一致的該物件特定之旁資訊自該降混信號(X)分離該至少一音訊物件(s_i)。
如請求項1之音訊解碼器，其中該物件特定之旁資訊為用於該至少一時間/頻率區(R(t_R,f_R))中之該至少一音訊物件(s_i)之一精細結構物件特定之旁資訊(、)，且其中該旁資訊(PSI)進一步包含用於該至少一時間/頻率區(R(t_R,f_R))中之該至少一音訊物件(s_i)之粗略的物件特定之旁資訊，該粗略的物件特定之旁資訊在該至少一時間/頻率區(R(t_R,f_R))內為常數。
如請求項1之音訊解碼器，其中該精細結構物件特定之旁資訊()描述該粗略的物件特定之旁資訊與該至少一音訊物件(s_i)之間的一差異。
如請求項1之音訊解碼器，其中該降混信號(X)在時間/頻率域中抽樣至多個時槽及多個(混合式)子頻帶中，其中該時間/頻率區(R(t_R,f_R))在該降混信號(X)之至少兩個樣本上延伸，且其中該物件特定之時間/頻率解析度(TFR_h)在兩個維度中之至少一者上比該時間/頻率區(R(t_R,f_R))更精細。
如請求項1之音訊解碼器，其中該物件分離器(120)經組配來根據以下公式判定該至少一音訊物件(s_i)及至少另一音訊物件(s_j)之具有元素之一估計協方差矩陣(E ^η,κ)：其中為用於精細結構時槽η及精細結構(混合式)子頻帶κ之音訊物件i及j之該估計協方差；及為用於精細結構時槽η及精細結構(混合式)子頻帶κ之該等音訊物件i及j之該物件特定之旁資訊；分別為用於精細結構時槽η及精細結構(混合式)子頻帶κ之該等音訊物件i及j之一物件間相關資訊；其中及中之至少一者根據由該物件特定之時間/頻率解析度資訊(TFRI_i、TFRI_j)指示的用於該等音訊物件i及j之該物件特定之時間/頻率解析度 (TFR_h)在該時間/頻率區(R(t_R,f_R))內變化，且其中該物件分離器進一步經組配來使用該估計協方差矩陣(E ^η,κ)自該降混信號(X)分離該至少一音訊物件(s_i)。
如請求項1之音訊解碼器，其進一步包含：一降混信號時間/頻率變壓器，其經組配來將該時間/頻率區(R(t_R,f_R))內之該降混信號(X)自一降混信號時間/頻率解析度轉換成該至少一音訊物件(s_i)之至少該物件特定之時間/頻率解析度(TFR_h)，以獲得一重新轉換之降混信號(X^η,κ)；一逆時間/頻率變壓器，其經組配來將該時間/頻率區(R(t_R,f_R))內之該至少一音訊物件(s_i)自該物件特定之時間/頻率解析度(TFR_h)時間/頻率轉換回一共用t/f解析度或該降混信號時間/頻率解析度；其中該物件分離器經組配來在該物件特定之時間/頻率解析度(TFR_h)處自該降混信號(X)分離該至少一音訊物件(s_i)。
一種用於將多個音訊物件(s_i)編碼成一降混信號(X)及旁資訊(PSI)之音訊編碼器，該音訊編碼器包含：一時間至頻率變壓器，其經組配來使用一第一時間/頻率解析度(TFR₁)將該等多個音訊物件(s_i)至少轉換成第一多個對應的變換(s_1,1(t,f)、...s_N,1(t,f))，且使用一第二時間/頻率解析度(TFR2)將該等多個音訊物件(s_i)轉換成第二多個對應的變換(s_1,2(t,f)、...s_N,2(t,f))；一旁資訊判定器(t/f-SIE)，其經組配來判定用於該等第一多個對應的變換(s_1,1(t,f)...s_N,1(t,f))之至少一第一旁資訊及用於該等第二多個對應的變換((s_1,2(t,f)...s_N,2(t,f))之一第二旁資訊，該第一旁資訊及該第二旁資訊指示該等多個音訊物件(s_i)在一時間/頻率區(R(t_R,f_R))中彼此分別在該第一時間/頻率解析度(TFR₁)及該第二時間/頻率解析度(TFR₂)中之一關係；以及一旁資訊選擇器(SI-AS)，其經組配來基於一適合性準則自至少該第一旁資訊及該第二旁資訊為該等多個音訊物件中之至少一音訊物件(s_i)選擇一個物件特定之旁資訊，該適合性準則指示至少該第一時間/頻率解析度或該第二時間/頻率解析度對於在該時間/頻率域中表示該音訊物件(s_i)之一適合性，該物件特定之旁資訊經插入由該音訊編碼器輸出之該旁資訊(PSI)中。
如請求項7之音訊編碼器，其中該適合性準則係基於一源估計，且其中該旁資訊選擇器(SI-AS)包含：一源估計器，其經組配成使用該降混信號(X)及分別對應於該第一時間/頻率解析度(TFR₁)及該第二時間/頻率解析度(TFR₂)之至少該第一資訊及該第二資訊來估計該等多個音訊物件(s_i)中之至少一選定之音訊物件，該源估計器因此提供至少一第一估計音訊物件(s_i,estim1)及一第二估計音訊物件(s_i,estim2)；一品質鑒定器，其經組配來評估至少該第一估計音訊物件(s_i,estim1)及該第二估計音訊物件(s_i,estim2)之一品質。
如請求項8之音訊編碼器，其中該品質鑒定器經組配成基於作為一源估計效能量測之一信號失真率(SDR)來評估至少該第一估計音訊物件(s_i,estim1)及該第二估計音訊物件(s_i,estim2)之該品質，該信號失真率(SDR)係僅基於該旁資訊(PSI)而判定。
如請求項7之音訊編碼器，其中用於該等多個音訊物件之中的該至少一音訊物件(s_i)之該適合性準則係基於根據至少該第一時間/頻率解析度(TFR₁)及該第二時間/頻率解析度(TFR₂)之該至少一音訊物件之多於一個t/f解析度表示法的稀疏性程度，且其中該旁資訊選擇器(SI-AS)經組配來在至少該第一旁資訊及該第二旁資訊之中選擇與該至少一音訊物件(s_i)之最稀疏的t/f表示法相關聯之該旁資訊。
如請求項7之音訊編碼器，其中該旁資訊判定器(t/f-SIE)進一步經組配來提供精細結構物件特定之旁資訊()及粗略的物件特定之旁資訊，以作為該第一旁資訊及該第二旁資訊中之至少一者之一部分，該粗略的物件特定之旁資訊在該至少一時間/頻率區(R(t_R,f_R))之內為常數。
如請求項11之音訊編碼器，其中該精細結構物件特定之旁資訊()描述該粗略的物件特定之旁資訊與該至少一音訊物件(s_i)之間的一差異。
如請求項7之音訊編碼器，其進一步包含一降混信號處理器，該降混信號處理器經組配來將該降混信號(X)轉換成在該時間/頻率域中抽樣至多個時槽及多個(混合式)子頻帶中之一表示法，其中該時間/頻率區(R(t_R,f_R))在該降混信號(X)之至少兩個樣本上延伸，且其中經指定以用於至少一音訊物件之一物件特定之時間/頻率解析度(TFR_h)在兩個維度中之至少一者上比該時間/頻率區(R(t_R,f_R))更精細。
一種用於解碼由一降混信號(X)及旁資訊(PSI)組成之一多物件音訊信號的方法，該旁資訊包含用於至少一時間/頻率區(R(t_R,f_R))中之至少一音訊物件(s_i)的物件特定之旁資訊(PSI_i)，及指示用於該至少一時間/頻率區(R(t_R,f_R))中之該至少一音訊物件(s_i)之該物件特定之旁資訊的一物件特定之時間/頻率解析度(TFR_h)之物件特定之時間/頻率解析度資訊(TFRI_i)，該方法包含：自用於該至少一音訊物件(s_i)之該旁資訊(PSI)判定該物件特定之時間/頻率解析度資訊(TFRI_i)；以及使用與該物件特定之時間/頻率解析度(TFRI_i)一致的該物件特定之旁資訊自該降混信號(X)分離該至少一音訊物件(s_i)。
一種用於將多個音訊物件(s_i)編碼成一降混信號(X)及旁資訊(PSI)之方法，該方法包含：使用一第一時間/頻率解析度(TFR₁)將該等多個音訊物件(s_i)至少轉換成一第一多個對應的變換(s_1,1(t,f)...s_N,1(t,f))且使用一第二時間/頻率解析度(TFR₂)將該等多個音訊物件(s_i)轉換成第二多個對應的變換 ((s_1,2(t,f)...s_N,2(t,f))；判定用於該等第一多個對應的變換(s_1,1(t,f)...s_N,1(t,f))之至少一第一旁資訊及用於該等第二多個對應的變換(s_1,2(t,f)...s_N,2(t,f))之一第二旁資訊，該第一旁資訊及該第二旁資訊指示該等多個音訊物件(s_i)在一時間/頻率區(R(t_R,f_R))中彼此分別在該第一時間/頻率解析度(TFR₁)及該第二時間/頻率解析度(TFR₂)中之一關係；以及基於一適合性準則自至少該第一旁資訊及該第二旁資訊為該等多個音訊物件中之至少一音訊物件(s_i)選擇物件特定之旁資訊，該適合性準則指示至少該第一時間/頻率解析度或該第二時間/頻率解析度對於在該時間/頻率域中表示該音訊物件(s_i)之一適合性，該物件特定之旁資訊經插入由該音訊編碼器輸出之該旁資訊(PSI)中。
一種用於解碼由一降混信號(X)及旁資訊(PSI)組成之一多物件音訊信號之音訊解碼器，該旁資訊包含用於至少一時間/頻率區(R(t_R,f_R))中之至少一音訊物件(s_i)的物件特定之旁資訊(PSI_i)，及指示用於該至少一時間/頻率區(R(t_R,f_R))中之該至少一音訊物件(s_i)之該物件特定之旁資訊的一物件特定之時間/頻率解析度(TFR_h)之物件特定之時間/頻率解析度資訊(TFRI_i)，該音訊解碼器包含：一物件特定之時間/頻率解析度判定器，其經組配來自用於該至少一音訊物件(s_i)之該旁資訊(PSI)判定該物件特定之時間/頻率解析度資訊(TFRI_i)；以及一物件分離器，其經組配成使用與該物件特定之時間/頻率解析度(TFRI_i)一致的該物件特定之旁資訊自該降混信號(X)分離該至少一音訊物件(s_i)，其中用於該降混信號內之至少一其他音訊物件(s_j)的物件特定之旁資訊具有一不同的物件特定之時間/頻率解析度(TFR)。
一種用於解碼由一降混信號(X)及旁資訊(PSI)組成之一多物件音訊信號的方法，該旁資訊包含用於至少一時間/頻率區(R(t_R,f_R))中之至少一音訊物件(s_i)的物件特定之旁資訊(PSI_i)，及指示用於該至少一時間/頻率區(R(t_R,f_R))中之該至少一音訊物件(s_i)之該物件特定之旁資訊的一物件特定之時間/頻率解析度(TFR_h)之物件特定之時間/頻率解析度資訊(TFRI_i)，該方法包含：自用於該至少一音訊物件(s_i)之該旁資訊(PSI)判定該物件特定之時間/頻率解析度資訊(TFRI_i)；以及使用與該物件特定之時間/頻率解析度(TFRI_i)一致的該物件特定之旁資訊自該降混信號(X)分離該至少一音訊物件(s_i)，其中用於該降混信號內之至少一其他音訊物件(s_j)的物件特定之旁資訊具有一不同的物件特定之時間/頻率解析度(TFR)。
一種電腦程式，當該電腦程式在一電腦上運行時，其用於執行如請求項14、15或17之方法。