TWI322630B

TWI322630B - Device and method for generating an encoded stereo signal of an audio piece or audio datastream,and a computer program for generation an encoded stereo signal

Info

Publication number: TWI322630B
Application number: TW095106978A
Authority: TW
Inventors: Jan Plogsties; Harald Mundt; Harald Popp
Original assignee: Fraunhofer Ges Forschung
Priority date: 2005-03-04
Filing date: 2006-03-02
Publication date: 2010-03-21
Also published as: KR20070100838A; CA2599969A1; EP1854334B1; US20070297616A1; DE502006006444D1; US8553895B2; ATE461591T1; MY140741A; DE102005010057A1; RU2376726C2; IL185452A0; IL185452A; EP2094031A3; AU2006222285B2; KR100928311B1; MX2007010636A; AU2006222285A1; BRPI0608036B1; NO339958B1; NO20075004L

Description

1322630 九、發明說明：【發明所屬之技術領域】本案係關於多聲道音訊技術’特別是關於與耳機技術相關的多聲道音訊應用。【先前技術】國際專利申請WO 99/49574及WO 99/14983揭露了用以驅動一對相對設置之耳機揚聲器的音訊訊號處理技術， ' 使得一使用者能夠經由兩只耳機獲得音訊場景的空間感覺 ® ，其並不只是一立體聲表現，更是一多聲道表現《因此，該收聽者將經由他或她的耳機獲得一音訊片段的一·空間感覺’而該音訊片段在最佳狀況下係等於他或她的空間感覺 '，此時該使用者應坐在配置了諸如一 5.1聲道系統的-重 •製房間之中。爲了這個目的’對於每個耳機揚聲器來說，如第2圖所示之多聲道音訊片段或多聲道音訊資料流的每個聲道係被供應至一分離的濾波器，於是原本在一起但經過個別濾波後的聲道會被加總，如後所述。 • 在第2圖的左側有多聲道輸入20，其係共同表現該音訊片段或該音訊資料流的一多聲道表現，這樣一種場景係以圖例方式繪製於第10圖中，第10圖顯示一重製空間2 00 ，在該重製空間200中配置了一所謂的5.1聲道系統，該 5.1聲道系統包括一中央揚聲器2〇1、一左前揚聲器202、一右前揚聲器203、一左後揚聲器204以及一右後揚聲器205 。一 5.1聲道系統包括一額外的重低音揚聲器（subwoofer)206 ，其通常係被當作低頻增益聲道。在該重製空間200的所 1322630 謂"甜蜜點”上，存在著一收聽者207，其戴著包括—左耳機揚聲器209及一右耳機揚聲器210的一耳機208» 第2圖所不之處理手段的形成，係藉由—濾波器對該多聲道輸入20的每—聲道1、2、3進行濾波，以描述第10圖中由該揚聲器至該左揚聲器209的該聲音聲道，並且係額外地藉由一濾波器HiR對相同聲道進行濾波以表現由五個揚聲器其中之一至該耳機208的該右耳或該左耳揚聲器210的聲音。舉例來說，如果第2圖的聲道1是第10圖中該揚聲器 202所發射的該右前聲道，該濾波器HiL便代表由一虛線 212所指示的該聲道，而該濾波器HiR則係代表由一虛線 213所指示的該聲道。以第1〇圖中由一虛線214所指示爲例’該左耳機揚聲器209不只是接收該直接的聲音，還接收該重製空間的一邊緣上的早期反射、以及當然也會接收表現爲一擴散殘響（diffuse reverberation)的延後反射。這樣一種濾波器表現係繪製於第11圖中，特別是，第 11圖顯示一濾波器（諸如第2圖的濾波器H1L)的一脈衝響應，第Η圖中以線212所繪製的直接或原始聲音係由該濾波器起始的一峰値來代表，而第10圖中由214以例示方式所繪製的早期反射則係由第1 1圖中具有數個（離散的）小峰値的一中央區域所重製，該擴散殘響一般不再針對個別峰値進行解析，這是因爲該揚聲器202的該聲音原則上係被任意地、頻繁地反射，其中該能量當然會隨著每次反射及 -6- 1322630 額外的傳播距離而減少，如同所繪製之後段部份能量’其係爲第11圖所提到的"擴散殘響’1。第2圖所示之每個濾波器因此便會包括一濾響應，其約略具有第11圖所繪製之圖示曲線。很個別的濾波器脈衝響應將取決於該重製空間、該的位置、該重製空間中可能的衰減因素（例如現場是該重製空間中的家倶所導致）、以及理想情況下器201〜206的特性。事實是所有揚聲器的訊號會疊加於該收聽者中’如第2圖的加法器22、23所示，因此，每個一對應的濾波器針對該左耳所濾波，接著只要加給該左耳之該等濾波器所輸出的該等訊號，以獲給該左耳L的該耳機輸出訊號。以此類推，加法署該右耳或第10圖之該右耳機揚聲器210所進行的爲了藉由疊加由該右耳的一對應的濾波器所濾波聲器訊號而獲得該右耳的該耳機輸出訊號。作爲肇因的事實是，除了該直接聲音之外，早期反射以及特別是一擴散殘響，其對於該空間具有特別高的重要性，爲了要讓聲調（tone)聽起來虛假（synthetic)或是”怪異（awkwrad)"、而是要提一種讓他或她覺得實際上如同坐在具有音聲特性之中的感受’因此會將個別的濾波器21之脈衝響全部納入考慮，具有兩個濾波器的該多聲道表現別多聲道的旋積（convolution)已產生了大量的計中的減少波器脈衝明顯地，等揚聲器的人員或個別揚聲 207的耳聲道會被總被指定得被指定 I 2 3針對一加法係的所有揚也存在著感覺來說不會過於供收聽者的音樂廳應的長度的每個個算工作。 1322630 而，這種特別的價格因素會因爲數量龐大而在經濟上變得非常受關注。【發明內容】本案的目的爲提供一種高效能的訊號處理槪念，其可達成簡易重製裝置上的一多聲道品質耳機重製。上述目的可藉由申請專利範圍第1項之用於產生已編碼立體聲訊號的裝置、或申請專利範圍第11項之用於產生已編碼立體聲訊號的方法、或申請專利範圍第12項之電腦程式而達成。本發明係基於發現高品質及具吸引力的多聲道耳機聲音可藉由提供一音訊片段或音訊資料流的一多聲道表現（諸如一音訊片段的一 5.1表現）至一硬體播放器之外的耳機訊號處理（諸如具有一闻計算功率之提供者的一電腦）而適用於所有可用的播放器（諸如CD播放器或硬體播放器）。然而，根據本案發明，一耳機訊號處理的結果不只是被播放而是被供應至一傳統的音訊立體聲編碼器，該音訊立體聲編碼器可自該左耳機聲道及該右耳機聲道產生一已編碼立體聲訊號。如同任何其他不包括一多聲道表現的已編碼立體聲訊號’該已編碼立體聲訊號接著會被供應至硬體播放器或諸如一 CD型態的一CD播放器，該重製或再播放裝置接著將提供該使用者一耳機多聲道聲音，該耳機多聲道聲音係不具必須被加入到已存在裝置的任何額外資源或手段。創造性在於，該耳機訊號處理的結果---亦即該左耳機訊號及該 -9-

丄322630 I 右耳機訊號---不會如同先前技術般在一耳機中被重製，而是被編碼以及輸出成爲一已編碼立體聲資料。這種輸出可以是儲存、傳輸等類似之物，這種具有已編碼立體聲資料的一檔案接著便可很容易地被供給至設計用於立體聲重製的任何重製裝置，而無須該使用者在其所有的裝置上執行任何改變。由該耳機訊號處理產生一已編碼立體聲訊號的這種發明槪念因此可使得多聲道表現提供給該使用者一更加改善且更爲真實的品質，其可應用於所有簡易且廣泛使用、特別是在未來會更爲人所廣泛使用的硬體播放器中。在本案發明的一較佳實施例中，該起點係爲一已編碼多聲道表現亦即一參數表現，其係包括一個或一般爲兩個基本聲道，並額外包括參數資料，基於該基本聲道及該參數資料來產生該多聲道表現之該等多聲道的參數資料。由於應用於多聲道解碼較佳爲一基於頻域的方法，因此該耳機訊號處理根據本案便可藉由一脈衝響應來旋積 (convoluting)該時間訊號而無須執行於時域中，而是藉由該濾波器傳輸功能利用操作執行於頻域中。此舉可允許在該耳機訊號處理之前的一再轉換被儲存起來’且特別的優勢在於隨後的立體聲編碼器亦操作於該頻域中時，健得該耳機立體聲訊號之尙未進入該時域的該立體聲編碼不用進入該時域即可產生，由該多聲道表現至該已編碼立體聲訊號的該處理係在無須該時域參與或是藉由至少一減少數量之轉換的情況之下能夠令人關注，其並

-10- 1322630 非僅係關於計算時間效率，還可限制品質損耗，這是因爲更少的處理階段將更少的失真（arte fact)引入該音訊訊號。特別是在執行考慮到一心理音響學遮蔽門檻値之量化之以方塊爲基礎的方法中，對於該立體聲編碼器較適合者，很重要的是盡可能地防止前後出現的編碼失真。在本案發明的一特別較佳實施例中，具有一個或較佳者爲兩個基本聲道的一BCC表現係被當作爲一多聲道表現，由於該BCC方法係操作於該頻域，因此在合成之後該等多聲道便不會如同通常於一 BCC解碼器中所進行般被轉換至該時域；取而代之的是，方塊形態之該等多聲道的該頻譜表現被使用並受到該耳機訊號處理的控制。爲此，該等濾波器的轉換函數---亦即該等脈衝響應的該傅立葉轉換便被使用而藉由該等濾波器轉換函數以執行該等多聲道之該頻譜表現的一加乘。當該等濾波器的該等脈衝響應及時地大於該BCC解碼器之該輸出上的頻譜元件的一方塊時，便最好需要一方塊取向的濾波器處理，其中該等濾波器的該等脈衝響應是分離於該時域中、且被一個方塊一個方塊地被轉換以便接著能執行對應的頻譜加權，這種頻譜加權係如同例如WO 94/0 1 933號案件所述般測量所需。【實施方式】第1圖係爲本案用於產生一音訊片段或—音訊資料流之一已編碼立體聲訊號的裝置的原理方塊電路圖。該立體聲訊號包括爲一未編碼型態的一未編碼第一立體聲通道 l〇a以及一未編碼第二立體聲通道l〇b，其係產生來自該音 -11- 1322630 訊片段或該音訊資料流的一多聲道表現，其中該多聲道表現包括位於超過兩個多聲道上的資訊。如將於其後所述的 ’該多聲道表現可以爲一未編碼或一已編碼型態，如果該多聲道表現可以爲一未編碼型態，它將包括三或多個多聲道，在一較佳應用場景中，該多聲道表現包括五個聲道以及一個重低音聲道。然而，如果該多聲道表現爲一已編碼型態，此已編碼型態一般將包括一或數個基本聲道以及用於合成來自該一或兩個基本聲道之該三或多個多聲道的參數，因此一多聲道解碼器π係爲用於提供來自該多聲道表現之超過兩個多聲道的裝置的一例。然而，如果該多聲道表現已經處於一未編碼型態---亦即例如處於5 + 1 P C Μ聲道的型態，則該提供裝置便會對應於裝置’12的一輸入端，該裝置12係用於執行耳機訊號處理以產生具有該未編碼第一立體聲通道 l〇a及該未編碼第二立體聲通道l〇b的該未編碼立體聲訊號。較佳者，用於執行耳機訊號處理的該裝置12的形成係用以評估該多聲道表現的該等多聲道，每一聲道的評估係藉由該第一立體聲通道的一第一濾波器功能及該第二立體聲通道的一第二濾波器功能達成，並且加總個別的已評估的多聲道以獲得該未編碼第一立體聲通道以及該未編碼第二立體聲通道，如第2圖所示。用於執行耳機訊號處理之該裝置12的下游係爲一立體聲解碼器13，該立體聲解碼器13的形成可對該第一未編碼立體聲通道l〇a及該第二未

-12-

1322630 編碼立體聲通道10b進行編碼而在該立體聲編碼器輸出14上獲得該已編碼立體聲訊號，該立體聲編招 —資料率遞減使得用於傳輸該已編碼立體聲訊號戶; 資料率小於用於傳輸該未編碼立體聲訊號所需之一根據本案發明’所達成的槪念係允許經由簡易諸如硬體播放器）供應一多聲道聲調（其亦係指"環g 體聲耳機。某些聲道的總和亦可以形成簡易的耳機訊號得該立體聲資料的該等輸出聲道’以更爲複雜的作的改善方法可依序獲得一改善的重製品質。需要注意的是，本發明槪念允許用於多聲道用於執行該耳機訊號處理的高度計算步驟無須執放器本身而是執行於外部，此一發明槪念的結果編碼立體聲檔案，其可爲一MP3檔案、一AAC HE-AAC檔案或是某些其他的立體聲檔案。在其他實施例中，該多聲道解碼、耳機訊號體聲編碼可以執行在不同的裝置上，這是因爲個該輸出資料及輸入資料係分別地輕易進出、並且方式被產生以及被儲存。接著，請參考第7圖，其爲本案一較佳實施ί 該多聲道解碼器11包括一濾波器組或是FFT函數得該多聲道表現產生於該頻域中。特別是，個別3 產生係作爲每個聲道之頻譜値的方塊，創造性在ί 1 3之一 ^器執行 f需之一 -資料率播放器（ i")至立 ,理以獲算法運 :碼以及於該播 :爲一已 .案、一理及立方塊的一標準丨，其中其可使聲道的，該耳 1322630 機訊號處理並非係利用該等濾波器脈衝響應藉由旋積該暫時聲道而執行於該時域中，而是藉由該濾波器脈衝響應的一頻譜表現來執行該等多聲道之該頻域表現的一乘法。一未編碼立體聲訊號的達成係位於該耳機訊號處理的該輸出上，然而其並非位於該時域中，而是包括一左及一右立體聲聲道，其中提供這種立體聲聲道作爲一連串頻譜値的方塊，每個頻譜値的方塊代表該立體聲通道的一短期頻譜。在第8圖所示的實施例中，該耳機訊號處理方塊12在該輸入側被供應時域或是頻域資料，在該輸出側上，該等未編碼立體聲通道係產生於該頻域中；亦即同樣作爲一連串的頻譜値，基於一轉換的一立體聲編碼器…-亦即其擁有頻譜値但無在該耳機訊號處理12以及該立體聲編碼器13 之間所需的一頻率/時間轉換以及一後續頻率/時間轉換，在此情形下其係作爲該立體聲編碼器13爲較佳。在該輸出側上’該立體聲編碼器13接著輸出具有該已編碼立體聲訊號的一檔案’該檔案係與旁側資訊分離、並包括已編碼型態的頻譜値。在本案發明的一較佳實施例中，一連續頻域處理的執行路徑係從第1圖之方塊11的該輸出上的該多聲道表現至第1圖之該裝置之該輸出14上的該已編碼立體聲檔案，其不具有至該時域的一轉換’可能的話，至該頻域的再轉換是必須發生的。當一MP3編碼器或是—AAC編碼器被用作該立體聲編碼器’其較佳者係將該耳機訊號處理方塊之 -14- 1322630 該輸出上的傅立葉頻譜轉換爲一MDCT頻譜，本案發明便可以確保該耳機訊號處理方塊中該積/評估所需、一精確型態的該相位資訊係被轉以這樣一種相位修正方式而運作的該M DC T表轉換成爲該MDCT頻譜，其相對於一正常MP3 —正常AAC編碼器來說並非爲該立體聲編碼器第9圖係爲一較佳立體聲編碼器的一常用，該立體聲編碼器在其輸入側上包括一聯合 (joint stereo module)15，該模組15之較佳者可方式決定是否一共同立體聲編碼（諸如以一中ΐ 爲型態）可提供一相較於該左及右聲道之一分的編碼增益，該聯合立體聲模組15的形成更可立體聲編碼，其中（特別是具有較高頻率的）一編碼提供一相當的編碼增益但不會造成聽覺失立體聲模組15的該輸出接下來係使用其他不少測量（redundancy-reducing measures)(諸如：雜訊取代…等）以進行處理，以便後續供應其結器16，該量化器16係使用一心理音響學遮蔽成該等頻譜値的一量化。此處該量化器步驟大使得藉由量化所引入的該雜訊保持在低於該心蔽門檻値，使得在不引入可聽見之失真性量化成一資料率減少。該量化器16的下游具有一;* ’用以執行該等量化頻譜値的無損耗熵編碼，器的該輸出具有與該等熵編碼頻譜値分離的該因此，根據等聲道之旋換成爲並非現：亦即被編碼器或是 ί所需。方塊電路圖立體聲模組以一適應性岛/旁側編碼離處理更高執行一強度強度立體聲真。該聯合同的冗位減 TNS濾波、果至一量化門檻値以達小的選擇可理音響學遮的扭曲下達商編碼器1 7 在該烟編碼已編碼立體 -15- 1322630 聲訊號’該已編碼立體聲訊號包括用於解碼所需的旁側資訊。接著，參考第3圖至第6圖以說明該多聲道解碼器之較佳實施方式以及較佳之多聲道。有數種技術可用以減少傳輸一多聲道音訊訊號所需的資料量’這些技術亦稱爲聯合立體聲技術，爲了這個目的 ’請參考第3圖，其顯示一聯合立體聲裝置60，該裝置也可以是實施該強度立體聲（IS)技術或是該雙聲道提示編碼技術（BCC)的一裝置’這樣一種裝置—般係接收至少兩個聲道CHI、CH2........ CHn作爲輸入訊號並輸出一單一載波聲道以及參數多聲道資訊，該參數資料之定義可使得一原始聲道（CHI、CH2........ C Η η)的一近似被計算於一解碼器之中》一般說來’該載波聲道將包括子頻帶取樣、頻譜係數、時域取樣等等，其可提供該下層訊號的一相對好的表現 ’而該參數資料不包括這些取樣或頻譜係數、但包括用於控制某一重建演算法的控制參數（諸如藉由乘法、時間平移、頻率平移…等），該參數多聲道資訊因此包括該訊號或該相關聲道的一相對粗略的表現。以數量來表現，一載波聲道所需之資料的數量係位於60至70kbits/s的範圍內，而一聲道之參數旁側資訊所需的資料量則係位於1 . 5至2.5 kbits/sec的範圍內，需要注意的是前述數量係適用於壓縮資料。一非壓縮CD聲道當然需要大約十倍的資料率，參數資料的一例係爲習知的比例因數（scale factor)、強度立 1322630 體聲資訊或是BCC參數，如後所述之。該強度立體聲編碼技術係如J. Herre，K.H. Brandenburg， D. Lederer 於 1 994 年 02 月在 Amsterdam 以 AES Preprint 3799所出版之"Intensity Stereo Coding"中所述β —般來說，強度立體聲的槪念係基於應用於兩個立體聲效果音訊聲道的一主軸轉換。如果大部份的資料點係集中於該第一主軸，便可以在編碼發生之前藉由將兩個訊號皆旋轉某一角度而達成一編碼增益，然而，其並非可永遠應用於實際立體聲效果的重製技術。因此，這種技術可修改爲將該第二正交因素排除於傳輸至該位元流之外，是故，應用於該左及右聲道之該重建訊號包括相同傳輸訊號的不同加權及比例的版本。不過，該等重建訊號雖具不同振幅，但其相位資訊卻是相同的，然而，兩個原始音訊聲道的能量時間封包皆係藉由一般以一頻率選擇方式進行運作的選擇式比例運作而被保持住，此舉對應於人類在高頻處的聲音聽覺，其中主要的空間資訊係由該能量封包所決定。除此之外，在實際配置中，該傳輸訊號（亦即該載波聲道）係由該左聲道及該右聲道的總和訊號、而不是由旋轉兩個因素所產生。此外’此種處理（即產生強度立體聲參數以執行該比例運作）係以一頻率選擇方式（即獨立於每個比例因素帶）針對每個編碼器頻率劃分而執行。較佳者，兩個聲道係結合以形成一結合或"載波"聲道，以及除了該結合聲道之外的該強度立體聲資訊’該強度立體聲資訊取決於該第一聲道的能量、該第二聲道的能量或該結合聲道的能量 1322630 該 BCC 技術係如 T. Faller，F. Baumgarte，於 2002 年 05 月在 Munich 以 AES Convention Paper 5574 所出版之 "Binaural Cue Coding applied to stereo and multichannel audio compression"中所述。在BCC編碼中，多個音訊輸入聲道會使用一 DFT式轉換利用重疊窗而被轉換成一頻譜表現，所產生之頻譜被分成非重疊部份，其中每個重疊部份具有一索引，每個劃分具有與該相等右角帶寬（ERB)成正比的一帶寬（bandwidth) ’該內部聲道準位差（ICLD)及該內部聲道時間差（IC TD)係依據每個劃分及每個訊框k而決定，該IC L D及該IC T D會被量化及編碼以致最後到達作爲旁側資訊的一 BCC位元流。該內部聲道準位差及該內部聲道時間差的供給係依據一參考聲道有關的每個聲道，然後，根據取決於待處理之訊號的特定劃分的預定公式來計算該等參數。在該解碼器側’該解碼器一般接收一單聲道訊號以及該BCC位元流’該單聲道訊號被轉換至該頻域且被輸入至亦接收已解碼的IC LD及ICTD値的一空間合成方塊，在該空間合成方塊中’該BCC參數（ICLD及ICTD)係被使用以執行該單聲道訊號的一加權操作，藉以合成該多聲道訊號，其中該多聲道訊號係在一頻率/時間轉換之後，表現該原始多聲道音訊訊號之—重建。在BCC的倩況下’該聯合立體聲模組60的運作可輸出該聲道旁側資訊使得該參數式聲道資料被量化並被編碼

-18- 1322630

I 成ICLD或ICTD參數，其中該等原始聲道之一被使用作爲用於針對該聲道旁側資訊進行編碼的一參考聲道。一般來說，該載波訊號係由該等參與原始聲道的總和所形成。上述的技術當然僅提供用於一解碼器的一單聲道表現，該解碼器僅能夠處理該載波聲道、但無法處理用於產生超過一個輸入聲道之一或數個近似的參數性資料。 ' 該BCC技術亦已陳述於美國專利公開號US 2003/ • 02 1 9 1 3 0 Al、U S 2003/002644 1 A1 以及 US 2003/003 5553 A1中，此外，亦可參考T. Faller及F. Baumgarte於2003 年 11 月出版在 IEEE Trans· On Audio and Speech Proc·， V o 1. 11，No. 6 的專門刊物"Binaural Cue Coding. Part II : Schemes and Applications" e 接著，請參閱第4圖至第6圖，其更爲詳細地以圖示方式說明用於音訊編碼的一典型BCC。

第5圖顯示用於編碼/傳輸多聲道音訊訊號的一BCC ♦ 的圖示架構。位於一 BCC編碼器112的一輸入110上的該多聲道音訊輸入訊號係在一所謂的縮混（downmix)方塊114 中被縮混。藉由此實施例，位於該輸入110上的該原始多右。這一 1 道由生，聲藉產號央係而訊中14號繞 111訊環及塊道道以方聲聲道混單 5 聲縮一 1 繞該爲的環，總道右中加聲一例其前、施將左道實法一聲佳加有繞較易具環該簡爲左的一係一明的。號、發道號訊道案聲訊道聲本個和聲前在 5 總 -19- 1322630 • .· 其他的縮混架構已於習用技術中爲人所知，因此藉由使用一多聲道輸入訊號，便可以獲得具有一單聲道的一縮混聲道。該單聲道被輸出在一總和訊號線115上，由該BCC分析方塊11 ό所獲得的旁側資訊被輸出在一旁側資訊線n 7 上。內部聲道準位差（ICLD)及內部聲道時間差（ICtd)係在該BCC分析方塊中被計算，如前所述。現在，該BCC分析方塊116亦能夠計算該等內部聲道關聯値（ice値），該總和訊號及該旁側資訊係以一量化及已編碼型式被傳輸至一 BCC解碼器120，該BCC解碼器將該所傳輸之總和訊號劃分於多個子頻帶並執行縮放、延遲及更進一步的處理步驟以提供待輸出之該等多聲道音訊聲道的該等子頻帶，此種處理之執行使得位於該輸出121上的一重建多聲道訊號的該ICLD、LCTD及ICC參數（提示）係對稱於該BCC編碼器 112中該輸入110上之該原始多聲道訊號的該對應提示。爲了這個目的，該BCC解碼器120包括一 BCC合成方塊 1 22以及一旁側資訊處理方塊1 2 3。接著，請參閱第6圖，其以圖示方式說明該BCC合成方塊122的內部設定。線115上的該總和訊號被供應至一時間/頻率轉換單元或是瀘波器組FB125。在方塊125的輸出上，具有N個子頻帶訊號或是（在一極端情形下）一組頻譜係數，此時該音訊濾波器組1 2 5執行一 1 ·· 1轉換，亦即，由N個時域樣本點產生N個頻譜係數的一轉換。 -20- 1322630 該BCC合成方塊122更包括一延遲級126、一準位修正級127、一關聯處理級128以及一反向濾波器組級IFB129 。在級129的該輸出上，在一5聲道環繞系統之情形下具有五個聲道的該重建多聲道音訊訊號可以被輸出至一組揚聲器124，如第5圖或是第4圖所示。該輸入訊號sn被該元件125轉換至該頻域或該濾波器組域，由該元件125所輸出的該訊號被複製以獲得相同訊號的數種版本，如該複製節點130所繪製般。該原始訊號的版本數目等於該輸出訊號中輸出聲道的數目。然後，該節點130上該原始訊號的每個版本係受到某一延遲ch'dz .....di、…dN的控制，該等延遲參數係由第5圖之該旁側資訊處理方塊123所計算，且當該等延遲參數被第5圖之該BCC分析方塊116所計算時可從該內部聲道時間差中被導出。同樣可應用於該乘法參數ai、a2、…' aj、…、aN，其亦係當被該BCC分析方塊116計算時、由該旁側資訊處理方塊123基於該內部聲道準位差而進行計算所得。由該BCC分析方塊116所計算的該等ICC參數被使用以控制方塊1 2 8的功能，使得在該延遲以及準位操作訊號之間的某些關聯出現於方塊128的輸出上，此處需要注意的是，126、127、128各級的次序可以不同於第6圖所示之次序。在該音訊訊號的一訊框取向處理中需要注意的是，該 BCC分析亦可執行訊框取向---亦即一暫時變數，此外還需 -21- 1322630 注意的是更可獲得一頻率取向BCC分析，其可由第6圖之該濾波器組分配所看出，這代表每個頻帶皆可獲得該等 BCC參數，其亦代表了在該音訊濾波器組125失去了將該輸入訊號變成諸如32個帶通訊號之情況下時，該BCC分析方塊可獲得一組BCC參數供32個頻帶中的每個之用。當然，第5圖之該BCC分析合成方塊122(第6圖爲其更爲 ' 詳細之繪製圖）亦執行也是基於所提到例示之32個頻帶的 - —重建。

• 接著，將參考第4圖以說明用於決定個別BCC參數的 —場景。一般來說，該等ICLD、ICTD以及ICC參數係在聲道對之間被定義。然而，較佳者是，該等IC LD及ICTD ' 參數係在一參考聲道以及每個其他的聲道之間被定義，其 • 係繪製於第4A圖中。 ICC參數亦可以不同方式進行定義。一般來說，ICC 參數可以在位於所有可能的聲道對之間的該編碼器所決定 ’如第4B圖所繪製般。已存在的構想是在任何時刻於兩個 ® 最強大的聲道之間僅計算該等ICC參數，如第4C圖所示 ’其顯示在任何時刻下、位於聲道1及2之間的一 ICC參數被計算以及在另一時刻下、位於聲道1及5之間的一 ICC 參數被計算的例子。該解碼器接著合成位於該解碼器中最強大聲道之間的該內部聲道關聯，並使用某種嘗試錯誤方 &以計算並合成剩餘聲道對的內部聲道統一性。關於諸如基於所傳輸ICLD參數的該等乘法參數a|、 aN 的計算，請參閱 AES Convention Paper No. 5 574。該等

-22- 1322630 ICLD參數表現一原始多聲道訊號的—能量分配。在不喪失普遍性的情況下，如第4A圖所示’較佳者係採用表現該個別聲道及該左前聲道之間該能量差的4個ICLD參數，在該旁側資訊處理方塊122中，該等乘法參數ai.....aN係由該等ICLD參數所導出，其可使得所有重建輸出聲道的總能量相等（或是與所傳輸之該總和訊號的能量成正比）。在第7圖所示的實施例中，略去了由第6圖之該反向濾波器組IFB 129所獲得的該頻率/時間轉換，取而代之的，位於這些反向濾波器組之輸入上的個別聲道的該頻譜表現則被使用並被供應至第7圖的該耳機訊號處理裝置，以便在不具有一額外頻率/時間轉換的情形下利用每個多聲道之個別的兩個濾波器以執行個別多聲道的評估。關於發生於頻域中的一完全處理，需要注意的是在此情形下，該多聲道解碼器（亦即例如第6圖之該濾波器組 125)以及該立體聲編碼器應該具有相同的時間/頻率解析度◊此外，較佳者係使用一個或相同的濾波器組，這對於整個處理僅需要單一的濾波器組來說特別有優勢，如第i 圖所示。在此情形下，其結果爲一特別有效率的處理，這是因爲該多聲道解碼器及該立體聲編碼器中的該等轉換不再需要被計算的緣故。在本案發明槪念中，該輸入資料及輸出資料較佳者係因此分別藉由轉換/濾波器組而在該頻域中被編碼，並且在心理音響學指導方針下使用遮蔽效應而被編碼，其中特別是在該解碼器中，應該具有該等訊號的一頻譜表現，其例

-23- 1322630 爲諸如MP3檔案、AAC檔案、或AC3檔案。然而，該輸入資料及輸出資料亦可分別藉由形成該總和及差額而被編碼’如所謂矩陣處理所述，其例爲諸如Dolby ProLogic、 Logic7或是Circle Surround»特別是，該多聲道表現的資料更可以藉由參數式方法（諸如在MP3環繞之下的情形）而被編碼，其中此方法係以該BCC技術爲基礎。取決於環境，本案的產生方法亦可在硬體或軟體之中實施’其可在一數位儲存媒體之上實施，特別是在具有可藉由電子方式加以讀取之控制訊號的一光碟或CD之上，其可與一程式化電腦系統同時運作以實行該方法。一般來說，本案亦可位於一電腦程式產品中，該電腦程式產品具有一程式編碼，該程式編碼係儲存於一機器可讀式載具之上，該機器可讀式載具係當該電腦程式產品執行於一電腦上時可用以執行本案發明。換句話說，本案亦可實現爲一種電腦程式，其具有一程式碼，該程式碼係當該電腦程式運作於一電腦上時用以執行該方法。【圖式簡單說明】本案較佳實施例藉由所附圖示而進行詳細說明，其中 « 第1圖係爲本案用於產生一已編碼立體聲訊號之裝置的方塊電路圖；第2圖係爲第1圖之耳機訊號處理之實施的詳細示意 I «=» I · 圖，第3圖係爲習用用於產生聲道資料及參數多聲道資訊

-24- 1322630 之聯合立體聲編碼器的示意圖；第4圖係爲用於決定BCC編碼/解碼之ICLD、ICTD及 ICC參數的示意圖；第5圖係爲一 BCC編碼/解碼鍊路的方塊圖；第6圖係爲第5圖之BCC合成方塊之配置的方塊圖；第7圖係爲一多聲道解碼器與該耳機訊號處理之間無須任何轉換至時域之串聯的示意圖；第8圖係爲該耳機訊號處理與一立體聲編碼器之間無須任何轉換至時域之串聯的示意圖；第9圖係爲一較佳立體聲編碼器的原理方塊圖；第10圖係爲用於決定第2圖之濾波器函數的一重製場景的原理示意圖；以及第11圖係爲根據第10圖所決定之濾波器之一預期脈衝響應的原理示意圖。【主要元件符號說明】

1，2, 3 聲道 10a 未編碼第一立體聲聲道 10b 未編碼第二體聲聲道 11 多聲道解碼器 12 耳機訊處理方塊 13 體聲編碼器 14 輸出 15 聯合 — 體聲模組 16 量化器 17 熵編碼器 -25- 1322630

20 多聲道輸入 2 1 濾波器 22 加法器 23 加法器 60 聯合體聲模組 110 輸入 112 BCC 編碼器 114 縮混方塊 115 總和訊線 116 BCC 分析方塊 117 旁側資訊線 120 BCC 解碼器 12 1 輸出 122 BCC 合成方塊 123 旁側資訊處理方塊 124 揚聲器 125 濾波器組 127 準位修正級 128 關聯處理級 129 輸出級 130 複雜節點 200 重製空間 20 1 中央揚聲器 202 左 _1_Z_ 刖揚聲器 -26 1322630 203 右 V 刖揚聲器 204 左後揚聲器 205 右後揚聲器 206 重低音揚聲器 207 收聽者 208 耳機 209 左耳機揚聲器 2 10 右耳機揚聲器 2 12 虛線 2 13 虛線 2 14 虛線 220 多聲道播放器 222 虛擬聲處理 224 線 226 線 ❿ -27-

Claims

1322630 述j2j)f正替換頁丨修正本第95106978號「用於產生音訊片段或音訊資料流之已編碼立體聲訊號的裝置及方法，以及產生已編碼立體聲訊號之電腦程式」專利案 (2009年12月24曰修正）十、申請專利範圍： 1. 一種用於產生音訊片段或音訊資料流之已編碼立體聲訊號的裝置，該已編碼立體聲訊號具有來自該音訊片段或該音訊資料流之一多聲道表現的一第一立體聲聲道及一第二立體聲聲道，該多聲道表現包括兩個以上多聲道上的資訊，包括：提供手段（Π)，用以提供來自該多聲道表現的兩個以上多聲道；執行手段（1 2)，用以執行耳機訊號處理以產生伴有一未編碼第一立體聲聲道（10 a)及一未編碼第二立體聲聲道（l〇b)的一未編碼立體聲訊號，該執行（12)步驟包含：藉由應用於該第一立體聲聲道的一第一濾波器功能 (Ηα)以及藉由應用於該第二立體聲聲道的一第二濾波器功能（HiR)來評估每一多聲道，以產生應用於每一多聲道的一第一已評估聲道以及一第二已評估聲道，其中該第一濾波器功能（Η^)係源自於用以重製該多聲道的一揚聲器的一虛擬位置以及一聆聽者的一虛擬第一耳朵位置，該第二濾波器功能係源自於該揚聲器的一虛擬位置以及該聆聽者的一虛擬第二耳朵位置，該聆聽者的該兩個虛擬耳朵位置相異； 1322630 98年修正替換頁修正本相加（2 2)該已評估之第一聲道以獲得該未編碼第一立體聲聲道（l〇a):以及相加（2 3)該已評估之第二聲道以獲得該未編碼第二立體聲聲道（l〇b);以及立體聲編碼器（13)，用以對該未編碼第一立體聲聲道（l〇a)及該未編碼第二立體聲聲道（l〇b)編碼以獲得該已編碼立體聲訊號（14)，該立體聲編碼器的形成使得用以發送該已編碼立體聲訊號所需的一資料率小於用以發送該未編碼立體聲訊號所需的一資料率；其中該提供手段（1 1)係形成爲於該輸出側上提供應用於每個多聲道的一方塊取向的頻域表現；以及其中該執行手段（12)係形成爲藉由該第一及第二濾波器功能的一頻域表現來評估該方塊取向頻域表現。 2. 如申請專利範圍第1項之裝置，其中該執行手段（12)的形成係利用該第一濾波器功能（Hi L)考量直接聲音、多個反射及擴散殘響，該第二濾波器功能（Hi R)考量直接聲音、多個反射及擴散殘響。 3. 如申請專利範圍第2項之裝置，其中該第一及該第二濾波器功能係對應一濾波器脈衝響應，該濾波器脈衝響應包含：在小時間値處之一峰値，其表示該直接聲音；在中間時間値處之若干小峰値，其表示該等反射；以及一連續區域，其不再分成個別峰値且表示該擴散殘響。 4. 如申請專利範圍第1項之裝置：其中該多聲道表現包括一或數個基本聲道以及用以 -2- 年月日修正替換頁 m 1? 9 4 修正本由一或數個基本聲道計算該多聲道的參數資訊；且其中該提供手段（11)係形成爲由該一或數個基本聲道以及該參數資訊計算該至少三個多聲道。 5. 如申請專利範圍第1項之裝置：其中該執行手段（12)係形成爲提供該未編碼第一立體聲聲道及該未編碼第二立體聲聲道的一方塊取向頻域表現；且其中該立體聲編碼器（13)係爲一以轉換爲基礎的編碼器’且其形成係處理該未編碼第一立體聲聲道及該未編碼第—··Η·體聲聲道的該方塊取向頻域表現，而不需要由該頻域表現轉換成一時間表現。 6. 如申請專利範圍第1項之裝置：其中該立體聲編碼器（13)係形成爲執行該第一及第二立體聲聲道的一共同立體聲編碼（15)。 7 .如申請專利範圍第1項之裝置：其中該立體聲編碼器（13)係形成爲使用一心理音響學遮蔽門檻値而量化（16)頻譜値的一方塊，並對其進行熵編碼（I7)以獲得該已編碼立體聲訊號。 8 ·如申請專利範圍第1項之裝置：其中該提供手段（11)係形成爲一 BCC解碼器。 9.如申請專利範圍第1項之裝置：其中該提供手段（11)係形成爲包含具有數個輸出的一濾波器組的一多聲道解碼器；其中該執行手段（12)係形成爲藉由該第一及第二濾 1322630 #12月24日修正替换頁修正本波器功能來評估該濾波器組輸出上的訊號；且其中該立體聲編碼器（13)係形成爲量化（16)該頻域中的該未編碼第一立體聲聲道以及該頻域中的該未編碼第二立體聲聲道，並對其進行熵編碼（17)以獲得該已編碼立體聲訊號。 10.—種用於產生音訊片段或音訊資料流之已編碼立體聲訊號的方法，該已編碼立體聲訊號係具有來自該音訊片段或該音訊資料流之一多聲道表現的一第一立體聲聲道及一第二立體聲聲道，該多聲道表現係包括兩個以上多聲道上的資訊，包括步驟如下：提供（11)來自該多聲道表現的兩個以上多聲道：執行（12)耳機訊號處理以產生伴有一未編碼第一立體聲聲道（10 a)及一未編碼第二立體聲聲道（10 b)的一未編碼立體聲訊號，該執行（12)之步驟包含：藉由應用於該第一立體聲聲道的一第一濾波器功能 (Ηα)以及藉由應用於該第二立體聲聲道的一第二濾波器功能（H,R)來評估每一多聲道，以產生應用於每一多聲道的一第一已評估聲道以及一第二已評估聲道，其中該第 —濾波器功能（Ha)係源自於用以重製該多聲道的一揚聲器的一虛擬位置以及一玲聽者的一虛擬第一耳朵位置，該第二濾波器功能係源自於該揚聲器的一虛擬位置以及該聆聽者的一虛擬第二耳朵位置，該聆聽者的該兩個虛擬耳朵位置相異；相加（2 2)該已評估之第一聲道以獲得該未編碼第一 3 -4- 1322630 修正本 —2 4日修正替換頁 • 立體聲聲道（10a);以及相加（23)該已評估之第二聲道以獲得該未編碼第二立體聲聲道（l〇b);以及對該未編碼第一立體聲聲道（10a)及該未編碼第二立體聲聲道（l〇b)進行立體聲編碼（1 3)以獲得該已編碼立體聲訊號（14)，該立體聲編碼步驟的實施使得用以發送該已編碼立體聲訊號所需的一資料率小於用以發送該未編碼 ' 立體聲訊號所需的一資料率； ^ 其中該提供（11)之步驟係形成爲於該輸出側上提供應用於每個多聲道的一方塊取向的頻域表現：以及其中該執行（12)之步驟係形成爲藉由該第—及第二爐波器功能的一頻域表現來評估該方塊取向頻域表現。 11.—種產生已編碼立體聲訊號之電腦程式，當該電腦程式於一電腦上運作時’該電腦程式所具有的程式碼係用以執行申請專利範圍第10項之用於產生已編碼立體聲訊號的方法。