TWI396188B

TWI396188B - 依聆聽事件之函數控制空間音訊編碼參數的技術

Info

Publication number: TWI396188B
Application number: TW095126004A
Authority: TW
Inventors: Alan Jeffrey Seefeldt; Mark Stuart Vinton
Original assignee: Dolby Lab Licensing Corp
Priority date: 2005-08-02
Filing date: 2006-07-17
Publication date: 2013-05-11
Also published as: CN101410889B; WO2007016107A3; KR20080031366A; KR101256555B1; MY165339A; HK1128545A1; JP5189979B2; US20090222272A1; CN101410889A; JP2009503615A; EP2296142A2; WO2007016107A2; EP1941498A2; EP2296142A3; TW200713201A

Description

依聆聽事件之函數控制空間音訊編碼參數的技術

發明領域

本發明係有關音訊編碼方法及裝置，其中一編碼器將多個音訊聲道下混至較少數音訊聲道；以及一個或多個參數描述該等音訊聲道間之期望的空間關係；以及全部或部分參數係依聆聽事件之函數而產生。本發明亦係關於音訊方法及裝置，其中一聆聽事件之函數，多個音訊聲道上混至較多音訊聲道。本發明亦係關於實作此等方法或控制此等方法之電腦程式。

空間編碼

若干有限位元率數位音訊編碼技術分析一輸入多聲道信號來導出一「下混」組合信號(含有比輸入信號更少聲道之信號)以及含有原先音場之參數模型之邊帶資訊。例如可藉失真的及/或實際的位元率減少編碼而編碼之邊帶資訊(「邊鏈」)及組合信號係發射至一解碼器，其施加適當失真解碼及/或實際解碼；以及然後施加參數模型至解碼的組合信號，俾便輔助該組合信號「上混」至較大數目的聲道，其重新形成原先音場的近似值。此種「空間」編碼系統或「參數」編碼系統之主要目的係再度形成具有極有限量的資料之一多聲道音場；如此對用來模擬原先音場的參數模型造成限制。此種空間編碼系統之細節含於多個文件，包括後文於標題「藉引用方式併入此處」下方所引述的文件。

此種空間編碼系統典型係採用參數來模型化原先音場，諸如聲道間之振幅差或位準差(「ILD」)、聲道間之時間差或相位差(「IPD」)及聲道間之交叉交互關係(「ICC」)。典型地，此等參數係對各個被編碼的聲道之多個頻譜頻帶估計，且隨著時間的經過而動態估計。

於典型先前技術N：M：N空間編碼系統中，其中M＝1，多聲道輸入信號使用重疊DFT(離散頻率轉換)而被轉成頻域。然後DFT頻譜被再分割成為近似耳朵的關鍵頻帶之頻帶。聲道間振幅差、聲道間時間或相位差、及聲道間交互關係之估值對各個頻帶運算出。此等估值用來將原先輸入聲道下混入單聲組合信號或二聲道立體聲組合信號。組合信號連同所估計之空間傳輸被送至解碼器，於該處，組合信號使用相同重疊DFT和關鍵聲帶間隔來轉換成為頻域。然後空間參數施加至其相對應的頻帶，來形成原先多聲道信號之近似值。

聆聽事件和聆聽事件檢測

聲音被分割成為察覺為分開且離散的多個單位或節段偶爾稱作為「聆聽事件分析」或「聆聽景象分析」(「ASA」)；而該等節段偶爾稱作為「聆聽事件」或「音訊事件」。聆聽景象分析之徹底討論述於Albert S.Bregman之書籍「聆聽景象分析－聲音之知覺組織」，麻省技術學會，1991年，第四次印刷，2001年，第二MIT出版社平裝版。此外，Bhadkamkar等人之美國專利第6,002,776號，1999年12月14日引用之公開文獻日期倒回1976年「有關藉聆聽景象分析聲音分開之相關先前技術工作」。但Bhadkamkar等人之專利案不鼓勵實際上使用聆聽景象分析，歸結結論「技術涉及聆聽景象分析，雖然由科學觀點作為人類聆聽處理模型令人感興趣，但目前仍然需要太多運算且太過特化，至達成基礎進展之前無法視為分開聲音的實用技術」。

一種識別聆聽事件之有用方式係由Crockett及Crockett等人列舉於後文於標題「以引用方式併入」下方所列舉之各個專利申請案及報告。根據該等文件，一音訊信號(或於一多聲道信號中之聲道)個別經由相對於時間檢測頻譜組成(振幅依頻率之函數)之變化，被劃分成為多個聆聽事件，各個聆聽事件被察覺為分開且離散。其進行方式例如係經由計算音訊信號之接續時間區塊的頻譜內容；計算音訊信號之接續時間區塊間之頻譜內容差異；以及當此種接續時間區塊間之頻譜差異超過臨界值時，將依聆聽事件邊界識別為二接續時間區塊間的邊界。除了頻譜組成相對於時間之變化之外，另外或此外可計算振幅相對於時間之變化。

於其最小運算需求實作中，經由分析整個頻帶(全頻寬音訊)，或實質上整個頻帶(於實際實作中，常採用於頻譜末端的頻帶限制濾波)；以及對最響亮的音訊信號成分給予最大權值，處理程序將音訊劃分成為時間節段。此種辦法係利用心理聲學現象，其中於較小的時間規度(20毫秒及以下)時，於一給定時間，耳朵容易聚焦於單一聆聽事件上。如此暗示雖然於同一個時間可能發生多個事件，但一個成分於知覺上變成最突顯，且可被個別處理，彷彿其為唯一發生的事件般。利用此種效果，也允許聆聽事件的檢測隨著處理的音訊的複合度而縮放。舉例言之，若欲處理的輸入音訊信號為獨奏樂器，則被識別的音訊事件可能為該樂器所奏出的個別音符。同理，對輸入語音信號而言，語言的個別成分，例如母音和子音可被識別為個別的音訊元素。隨著音訊的複合度的增高，諸如有打鼓的音樂或多種樂器和語音，聆聽事件檢測係識別在任何給定的瞬間「最突顯的」(亦即最大聲的)音訊元素。

以較高運算複合度為代價，處理程序也可考慮於離散頻率子頻帶(固定式或動態判定、或固定式與動態二者判定的子頻帶中)相對於時間而言的頻譜組成變化，而非全頻寬的頻譜組成變化。此項替代辦法係考慮於不同頻率子頻帶中多於一個音訊串流，而非假設於任何特定時間只察覺單一串流。

聆聽事件的檢測可經由將時域音訊波形劃分成為多個時間區間或時間區段，然後使用濾波器排組或時間－頻率轉換例如FFT，來將各個區段的資料轉成頻域。各個區段的頻譜內容的振幅可被規度化，來消除或減少振幅變化的影響。各種所得頻域表現型態提供於該特定區塊的音訊的頻譜內容的指示。連續區塊的頻譜內容經比較，取出大於臨界值的變化，來指示一種聆聽事件的時間起點或時間終點。

較佳，頻域資料經過規度化，容後詳述。頻域資料需要規度化的程度可提供振幅指示。但若此種規度化程度超過預定臨界值，則也可用來指示事件邊界。由頻譜變化所得的、以及由振幅變化所得的事件起點和終點可一起OR運算，因而識別由任一型變化所得事件邊界。

雖然於該Crockett及Crockett等人申請案和報告中說明技術特別可用於本發明之態樣，但其它識別聆聽事件和事件邊界的技術也可用於本發明之態樣。

發明概要

根據本發明之一個態樣，一種音訊編碼器接收多個輸入音訊聲道，且產生一個或多個音訊輸出聲道以及一個或多個參數來描述從該等一個或多個音訊輸出聲道可能導出的多個音訊聲道中期望的空間關係。檢測於多個音訊輸入聲道中之一或多個聲道中，信號特性相對於時間之變化；於多個音訊輸入聲道中之一個或多個聲道中，信號特性相對於時間之變化被識別為聆聽事件邊界，讓連續兩個邊界間的聆聽事件組成於該聲道或該等聲道中之一聆聽事件。響應於聆聽事件及/或與該聆聽事件邊界相關聯的信號特性之變化程度，至少部分產生該等一個或多個參數中之若干參數。典型地，聆聽事件為傾向於被察覺為分開且離散的音訊節段。信號特性的一種有用測量方式，包括測量音訊頻譜內容，例如於所引述的Crockett及Crockett等人文件。至少部分響應於一或多個聆聽事件的存在或不存在，可產生一或多個參數的全部或部分。聆聽事件邊界可被識別為信號特性相對於時間之變化超過臨界值。另外，至少部分響應於與該聆聽事件邊界之信號特性變化度之連續測量值，可產生該等一個或多個參數之全部或部分。雖然，原則上，本發明之態樣可於類比域及/或數位域實作，但實際實作係於數位域，其中各個音訊信號係由資料區塊中的樣本來表示。於該種情況下，信號特性可為於一區塊內部之音訊的頻譜內容，信號特性相對於時間之變化的檢測可為不同區塊之音訊之頻譜內容變化的檢測，聆聽事件的時間起點邊界和終點邊界各自係重合一資料區塊的邊界。

根據本發明之另一態樣，一種音訊處理器接收多個輸入聲道，且產生比輸入聲道數目更大的音訊輸出聲道數目，該處理器係藉由檢測於多個音訊輸入聲道中之一或多個聲道中，信號特性相對於時間之變化，識別於多個音訊輸入聲道中之該等一個或多個聲道中，信號特性相對於時間之變化作為聆聽事件邊界，其中二連續邊界間之一音訊節段組成該聲道或該等聲道中之一聆聽事件，且至少部分響應於聆聽事件及/或與該聆聽事件邊界相關聯之信號特性之變化程度來產生該音訊輸出聲道。典型地，聆聽事件為傾向於被察覺為分開且離散的音訊節段。信號特性的一種有用測量方式，包括測量音訊頻譜內容，例如於所引述的Crockett及Crockett等人文件。至少部分響應於一或多個聆聽事件的存在或不存在，可產生一或多個參數的全部或部分。聆聽事件邊界可被識別為信號特性相對於時間之變化超過臨界值。另外，至少部分響應於與該聆聽事件邊界之信號特性變化度之連續測量值，可產生該等一個或多個參數之全部或部分。雖然，原則上，本發明之態樣可於類比域及/或數位域實作，但實際實作係於數位域，其中各個音訊信號係由資料區塊中的樣本來表示。於該種情況下，信號特性可為於一區塊內部之音訊的頻譜內容，信號特性相對於時間之變化的檢測可為不同區塊之音訊之頻譜內容變化的檢測，聆聽事件的時間起點邊界和終點邊界各自係重合一資料區塊的邊界。

若干本發明之態樣於此處係於包括其它發明態樣之空間編碼環境作說明。此等其它發明係說明於此處識別之本申請案擁有者杜比實驗室特許公司(Dolby Laboratories Licensing Corporation)的多個審查中之美國專利申請案和國際申請案。

圖式簡單說明

第1圖為功能方塊圖，顯示於空間編碼系統之一編碼器實例，其中該編碼器接收期望藉一解碼器於空間編碼系統中再生之一N－聲道信號。

第2圖為功能方塊圖，顯示於空間編碼系統之一編碼器實例，其中該編碼器接收期望藉一解碼器於空間編碼系統中再生之一N－聲道信號，也接收由該編碼器發送至一解碼器之M－聲道組合信號。

第3圖為功能方塊圖，顯示於空間編碼系統之一編碼器實例，其中該空間編碼器為盲目上混配置之一部分。

第4圖為功能方塊圖，顯示可用於第1－3圖中之任一圖之編碼器的空間編碼系統中之一解碼器。

第5圖為單端盲目上混配置之功能方塊圖。

第6圖顯示具體實施本發明之態樣之一種空間編碼系統中有用的STDFT分析及合成窗之實例。

第7圖信號之時域振幅相對於時間(樣本數)之作圖集合，首二圖顯示於DFT處理方塊內部之假說二聲道信號。第三圖顯示將二聲道信號下混至一單一聲道組合信號的效果；第四圖顯示使用SWF處理，用於第二聲道之上混的信號。

較佳實施例之詳細說明

其中可實施本發明之態樣之空間編碼器的若干實例顯示於第1、2及3圖。通常空間編碼器的操作係取N個原先音訊信號或聲道，將其下混成為含有M信號或聲道(此處M<N)之一組合信號。典型地N＝6(5.1音訊)，M＝1或2。同時，從原先多聲道信號中，擷取出於多個聲道間或多個聲道中描述知覺突顯的空間隱含指令之低資料率邊鏈信號。然後組合信號以既有的音訊編碼器如MPEG－2/4 AAC編碼器編碼，且以空間邊鏈資訊封包。於解碼器，組合信號經過解碼，未經封包的邊鏈資訊用來將組合信號上混成為原先多聲道信號之近似值。另外，解碼器可能忽略邊鏈資訊，而單純輸出組合信號。

於多個晚近技術報告(例如後文引述之技術報告)以及MPEG標準委員會中提議的空間編碼系統，典型地採用參數來模型化原先音場，諸如聲道間位準差(ILD)、聲道間相位差(IPD)、及聲道間交叉交互關係(ICC)。通常此等參數係對各個欲編碼的聲道之多個頻帶估計，且隨著時間的經過動態估計。本發明之多個態樣包括運算此等參數中之一或多個參數之新穎技術。為了描述本發明之態樣之有用環境，本文件包括將上混信號解除交互關係方式之說明，包括解除交互關係濾波器，以及包括保有原先多聲道信號之精密時間結構之技術。此處說明之本發明之態樣的另一種有用的環境係於空間編碼器中，結合適當解碼器操作來執行「盲目」上混(只響應於音訊信號操作之上混，而無任何輔助控制信號)來將音訊材料從二聲道內容直接轉換成為可與空間解碼系統可相容的材料。此種有用的環境之若干態樣為杜比實驗室特許公司之其它美國專利申請案及國際專利申請案之主旨，以引用方式併入此處。

寫碼器綜論

可採用本發明之態樣之空間編碼器之若干實例顯示於第1、2及3圖。於第1圖之編碼器實例中，N－聲道原先信號(例如於PCM格式之數位音訊)藉裝置或功能(「時間至頻率」)2，利用適當時間至頻率轉換例如眾所周知的短時間離散富利葉轉換(STDFT)而轉變成為頻域。典型地，轉換之操作讓一或多個頻倉被分組成為近似耳朵臨界頻帶的頻帶。聲道間振幅差或位準差(「ILD」)、聲道間時間差或相位差(「IPD」)及聲道間交互關係(「ICC」)之估值俗稱為「空間參數」係藉裝置或函數(裝置空間連帶資訊)4而對各個頻帶運算。容後詳述，聆聽景象分析器或分析函數(聆聽景象分析)6也接收N－聲道原先信號，且有關由裝置或函數4之空間參數的產生，如本說明書它處之說明。聆聽景象分析6也可採用於N－聲道原先信號中的任一種聲道組合。雖然係分開顯示以方便說明，但裝置或函數4及6可為單一裝置或函數。若與N－聲道原先信號相對應之M－聲道組合信號尚未存在(M<N)，則於下混器中或下混函數(「下混」)8中，空間參數可用來將N－聲道原先信號下混入M－聲道組合信號。然後M－聲道組合信號利用適當頻率對時間轉換(其為裝置或函數2之相反)而藉裝置或函數(「頻率至時間」)10反向轉回時域。來自於裝置或函數4之空間參數及於時域之M－聲道組合信號隨後被格式化成為適當形式，例如於裝置或函數(「格式」)12中，串列位元串流或並列位元串流可包括失真的及/或實際的位元減少解碼。來自於格式12之輸出形式對本發明而言並無特殊限制。

於本文件之全文中，相同參考號碼用於裝置及函數，其結構上可相同，或可發揮相同功能。當一裝置或函數之功能結構類似，但例如可為有額外輸入等些微差異時，改變的但類似的裝置或函數用撇號標示(例如「4’」)。也須瞭解各個方塊圖為功能方塊圖，其中具體實施該功能之函數或裝置係分開顯示，但實際實施例也可將一種或全部功能組合於單一函數或裝置。舉例言之，編碼器之具體實施例，例如第1圖之實例可根據電腦程式操作而藉數位信號處理器實作，其中部分電腦程式實作各項功能。也參考後文標題「實作」下方。

另外，如第2圖所示，若N－聲道原先信號和相關的M－聲道組合信號(例如各自為PCM數位音訊之多重聲道)可利用作為編碼器之輸入，則該等信號可以相同的時間子頻率轉換2(顯示為兩個區塊以清晰表示)同時處理，N－聲道原先信號之空間參數可相對於M－聲道組合信號之空間參數藉裝置或函數(裝置空間邊帶資訊)4’運算，4’可相似於第1圖之裝置或函數4，但接收兩組輸入信號。若無法利用N－聲道原先信號集合，則可利用的M－聲道組合信號位於時域(圖中未顯示)上混來產生「N－聲道原先信號」，各個多聲道信號分別提供一組輸入予第1圖實例中之時間至頻率裝置或函數2。於第1圖編碼器或第2圖之替代例二者中，M－聲道組合信號和空間參數隨後藉裝置或函數(「格式」)12而編碼成為適當形式，如第1圖之實例。如同第1圖之編碼器實例，格式12之輸出形式對本發明而言並無特殊限制。容後詳述，聆聽景象分析器或分析函數(「聆聽景象分析」)6’接收N－聲道原先信號和M－聲道組合信號，且影響由裝置或函數4’產生空間參數，如本說明書之它處說明。雖然分開顯示來方便說明，但裝置或函數4’及6’可為單一裝置或函數。聆聽景象分析6’可採用N－聲道原先信號與M－聲道組合信號的組合。

可採用本發明之態樣之編碼器之又一實例為可特徵化成為空間寫碼編碼器，來使用適當解碼器用於執行「盲目」上混。此種編碼器係揭示於共同審查中之國際專利申請案PCT/US2006/020882，申請人Seefeldt等人，申請日2006年5月26日，名稱「具邊帶資訊之聲道重新組配」，該案全文以引用方式併入此處。此處第1圖和第2圖之空間寫碼編碼器係採用既有的N－聲道空間影像來產生空間寫碼參數。但於多種情況下，空間寫碼應用用途音訊內容提供者有豐富的立體內容，但缺乏原先多聲道內容。解決此項問題之一種方式係於空間寫碼前，透過使用盲目上混系統，將既有的二聲道立體內容轉換成為多聲道(例如5.1聲道)內容來解決問題。如前文說明，盲目上混系統使用只可用於原先二聲道立體信號的資訊來合成一多聲道信號。多種此等上混系統為市面上可得，例如杜比原邏輯(Pro Logic)II(「杜比」、「原邏輯」及「原邏輯II」為杜比實驗室特許公司之註冊商標)。當與空間寫碼編碼器組合時，藉下混盲目上混信號，如此處實例所述之第1圖編碼器中，可於編碼器產生組合信號；或可利用既有二聲道立體信號，如此處所示第2圖之編碼器實例。

至於替代例，可使用如第3圖之實例所述之空間編碼器來作為盲目上混器之一部分。此種編碼器使用既有空間寫碼參數，來從一二聲道立體信號，直接合成具有期望之多聲道空間影像之參數模型，而無需產生中間上混信號。結果所得編碼信號係可與既有之空間解碼器相容(解碼器可利用邊帶資訊來產生期望的盲目上混，或可忽略邊帶資訊，來對聆聽者提供原先二聲道立體信號)。

於第3圖之編碼器實例中，利用適當時間至頻率轉換，例如於其它編碼器實例的眾所周知的短時間離散富利葉轉換(STDFT)，M－聲道原先信號(例如於PCM格式之數位音訊之多重聲道)藉裝置或函數(「時間至頻率」)2而被轉換成為頻域，讓一個或多個頻率倉被分組成為近似耳朵的臨界頻帶，頻帶藉一裝置或函數(「呈空間邊帶資訊導出上混資訊」)4”，對各個頻帶運算空間參數。容後詳述，聆聽景象分析器或分析函數(「聆聽景象分析」)6”也接收M－聲道原先信號，且影響藉裝置或函數4”的空間參數的產生，如本說明書之它處的說明。雖然分開顯示來輔助說明，但裝置或函數4”及6”可為單一裝置或函數。得自裝置或函數4”之空間參數及M－聲道組合信號(仍然於時域)隨後可於裝置或函數(「格式」)12被格式化成為適當形式，例如串列或並列位元串流形式，可包括失真及/或實際位元減少編碼。如同於第1圖和第2圖之編碼器實例，格式12之輸出形式對本發明而言不具關鍵重要性。第3圖之編碼器之進一步實例於後文說明於標題「盲目上混」下方。

第4圖所示的空間解碼器接收來自於編碼器(諸如第1圖、第2圖或第3圖之編碼器之組合信號和空間參數)。位元串流藉裝置或函數(「解格式」)22解碼來連同空間參數邊帶資訊而產生M－聲道組合信號。組合信號藉裝置或函數(「時間至頻率」)24轉換成為頻域，此處解碼的空間參數藉裝置或函數(「應用空間邊帶資訊」)26而施加至其相對應之頻帶，來產生於頻域之N－聲道原先信號。此種由較少數聲道產生較大聲道數目為上混(裝置或函數26也可被特徵化為「上混器」)。最後頻率至時間轉換(「頻率至時間」)28(第1、2及3圖之時間至頻率裝置或函數2之相反)施加來產生N－聲道原先信號之近似值(若編碼器屬於第1圖和第2圖之實例顯示之類型)或第3圖之M－聲道原先信號之上混之近似值。

本發明之其它態樣係有關「孤立」或「單端」處理器，其係依聆聽景象分析來執行上混。本發明之此等態樣於後文參照第5圖之實例作說明。

於提供本發明之態樣之進一步細節及其環境中，於本文件全文之其餘部分，使用下列標示符號：x為原先N聲道信號；y為M聲道組合信號(M＝1或2)；z為只使用ILD參數及IPD參數而由y上混的N聲道信號；為原先信號x於施加解交互關係至z後之最終估值；x_i 、y_i 、z_i 及為信號x、y、z及之聲道i；X_i [k,t]、Y_i [k,t]、Z_i [k,t]、及為於頻倉k及時間區塊t時聲道x_i 、y_i 、z_i 及之STDFT。

主動下混而產生組合信號y係根據如下方程式，基於每一頻帶為基準，而於頻域進行：

此處kb_b 為頻帶b之下倉指標，ke_b 為頻帶b之上倉指標，D_I _J [b,t]為組合信號之聲道i相對於原先多聲道信號之聲道j之複合下混係數。

上混信號z係以類似方式於頻域由組合y運算：

此處U_i _j [b,t]為上混信號之聲道i相對於組合信號聲道j之上混係數。ILD參數和IPD參數分別藉上混係數之振幅和相位求出： ILD _ij [b ,t ]＝|U _ij [b ,t ]| (3a)IPD _ij [b ,t ]＝∠U _ij [b ,t ] (3b)

藉施加解交互關係至上混的信號z而導出最終信號估值。採用之特定解交互關聯技術對本發明而言並無特殊限制。一種技術說明於Breebaart之國際專利公告案WO 03/090206 A1，名稱「信號合成」，公告日期2003年10月30日。取而代之，可基於原先信號x之特性而選用另兩項技術之一。第一技術利用ICC測量值來調變解交互關聯程度，說明於Seefeldt等人之國際專利公告案WO 2006/026452，公告日期2006年3月9日，名稱「於空間音訊編碼中之多重頻帶解交互關聯。第二技術說明於Vinton等人之國際專利公告案WO 2006/026161，公告日期2006年3月9日，名稱「使用頻域溫納(Wiener)濾波之空間音訊編碼之時間封包成形」，該案施加頻譜溫納濾波至Z_i [k,t]，俾恢復於估值中x之各聲道的原先時間封包。

寫碼器參數

此處說明若干有關ILD、IPD、ICC、及「SWF」空間參數之運算及應用之細節。若採用前述Vinton等人之專利申請案之解交互關聯技術，則空間編碼器也可產生適當「SWF」(「空間溫納濾波」)參數。前三個參數共通者為於原先多聲道信號x之各個頻帶中其與時間改變協方差矩陣估值之相依性。NxN協方差矩陣R[b,t]係估算為於跨x之各聲道，各頻帶中於頻譜係數間之點積(「點積」也稱作為純量積，取兩個向量而回送一個純量之二元運算)。為了跨時間穩定此估值，係使用單純洩露積分器(低通濾波器)平順化，如下示：此處R_i _j [b,t]為R[b,t]之第i列和第j行之元素，表示於時間區塊t於頻帶b中x之第i聲道與第j聲道間之協方差，以及λ為平順化時間常數。

ILD及IPD

考慮於產生原先信號x之主動下混y，然後將下混y上混入原先信號x之估值z之內容中，ILD及IPD參數之運算。於後文討論中，假設參數係對子頻帶b及時間區塊t作運算；為了方便解說，頻帶指標來時間指標並未外顯顯示。此外，採用下混/上混處理程序之向量表現型態。首先考慮於組合信號之聲道數目為M＝1的情況，然後考慮M＝2的情況。

M＝1系統

將子聲道b中之原先N聲道信號表示為Nx1複合隨機向量x，此原先向量之估值z透過下混和上混的過程運算如後：z＝ud ^T x, (5) 此處d為Nx1複合下混向量及u為Nx1複合上混向量。顯示最小化基於x間的均方差的向量d及u表示為：此處v_m _a _x 為與R的最大特徵值亦即x之協方差矩陣相對應之特徵向量。雖然就最小平方而言為最佳，但此解可能導入無法接受的知覺缺陷。特別，此解傾向於當最小化誤差時，「零出」原先信號的較低位準聲道。目標係產生知覺上令人滿意的下混信號及上混信號，較佳解為其中下混信號含有若干固定量之個別原先信號聲道，此處各個上混聲道之功率係調整為等於原先信號聲道的功率。但此外，發現利用最小平方解的相位可用來於下混前旋轉個別聲道，俾最小化聲道間的任何抵消。同理，施加最小平方相位於上混，用來恢復聲道間的原先相位關係。此種較佳解的下混向量可表示為：

此處為例如可含有標準ITU下混係數之固定的下混向量。向量∠v _max 係等於複合特徵向量V_m _a _x 之相位，運算元a．b表示兩個向量之元素乘元素的乘法。純量α為規度化項，運算讓下混信號之功率係等於原先信號聲道之功率藉固定下混向量加權之和，可計算如後：此處表示向量的第i個元素，R_i _j 表示於協方差矩陣R之第i列和第j行。使用特徵向量V_m _a _x 呈現一個問題，只有獨特至複合純量乘數。為了讓特徵向量變獨特，對最突顯聲道g相對應的元素加限制為具有零相位，此處最突顯聲道定義為具有最大能量的聲道：

上混向量u可以類似d之方式表示：

固定的上混向量之各個元素選擇為規度化向量β之各個元素經運算讓上混信號之各聲道功率係等於原先信號的相對應聲道的功率：

ILD參數及IPD參數係以上混向量u的振幅和相位表示： ILD _i 1[b ,t ]＝|u ₁ | (13a)IPD _i 1[b ,t ]＝∠u ₁ (13b)

M＝2系統

可對M＝2的情況寫出類似(1)的矩陣方程式：此處2聲道下混信號係與有左聲道和右聲道的立體對相對應，而聲道具有相對應之下混向量和上混向量。此等向量可以類似M＝1系統之向量表示：

用於5.1聲道原先信號，固定的下混向量可設定為等於標準ITU下混係數(假設聲道順序為L、C、R、Ls、Rs、LFE)：

具有逐一元素限制相對應的固定上混向量表示為

為了維持於二聲道立體下混信號中的原先信號影像的外貌，發現原先信號的左聲道和右聲道的向量不應旋轉，而其它聲道(特別為中聲道)的向量須以其下混入左聲道和右聲道之等量旋轉。經由運算一通用下混相位旋轉作為與左聲道相關聯之協方差矩陣元素與右聲道相關聯元素間的加權和之角度可達成此項目的：此處l及r為與左聲道和右聲道相對應之原先信號向量x的指標。以(10)列舉的下混向量，視需要，如上表示式獲得θ_L _R _l ＝θ_L _R _r ＝0。最後，於(9a－d)之規度化參數係如同對M＝1系統的(4)及(7)運算。ILD參數和IPD參數表示為： ILD _i 1[b ,t ]＝|u _Li | (20a)ILD _i 2[b ,t ]＝|u _Ri | (20b)IPD _i 1[b ,t ]＝∠u _Li (20c)IPD _i 2[b ,t ]＝∠u _Ri (20d)

但以(12)之固定上混向量，其中若干參數經常性為零，而無需呈邊帶資訊外顯發射。

解交互關聯技術

施加ILD參數和IPD參數至組合信號y，恢復上混信號z中的原先信號x之聲道間位準和相位關係。雖然此等關係表示原先空間影像之有意義的知覺隱含指令，但上混的信號z之聲道仍然維持有高度交互關係，原因在於其每一聲道係從組合信號y的相等少數聲道(1或2)而導出。結果，z之空間影像比較原先信號x空間影像瓦解。因此期望修改信號z，讓聲道間的交互關係更加近似原先信號x的交互關係。說明可達成此項目標的兩種技術。第一技術利用ICC測量值來控制施加於z之各聲道的解交互關聯程度。第二技術頻譜溫納濾波(SWF)技術經由濾波於頻率領域的信號z來恢復x之各聲道的原先時間封包。

ICC

原先信號之規度化聲道間交互關聯矩陣C[b,t]可由其協方差矩陣R[b,t]計算如後：

於第i列及第j行的C[b,t]元素測量信號x之聲道i與j間之規度化交互關係。理想上可能修改z，讓其交互關係矩陣等於C[b,t]。但因邊鏈資料率的限制，可能反而選擇修改z，讓每個聲道於參考聲道間的交互關係約略係等於C[b,t]中的相對應元素來作為近似值。參考值係選用作為方程式9中定義的主聲道g。發送作為邊帶資訊的ICC參數隨後設定為等於與交互關聯矩陣C[b,t]之列g： ICC _i [b ,t ]＝C _gi [b ,t ]. (22)

於解碼器，ICC參數用來依據邊帶控制信號z與解交互關聯信號之線性組合：

經由以獨特LTI解交互關聯濾波器濾波信號z的各個聲道，而產生解交互關聯信號：

濾波器h_i 係設計為z與之全部聲道皆約略彼此解交互關聯：

給定(17)以及(19)的條件，連同所述假設：z聲道高度交互關聯，可顯示最終上混信號之主控聲道與全部其它聲道間之交互關係表示為此乃期望的效果。

於國際專利公告案WO 03/090206 A1(如本文它處引述)中，解交互關聯技術呈現用於參數立體編碼系統，其中由一單一組合信號合成二聲道立體信號。如此只需要單一解交互關聯濾波器。所提示之濾波器為頻率改變延遲，其中隨著頻率的增加，延遲係由某個最大延遲線性減至零。比較固定延遲，當濾波信號加至未經濾波信號時，此種濾波具有提供顯著解交互關聯的期望性質，而不會導入可察覺的回音，如(17)載明。此外，頻率改變延遲於頻譜中導入凹口，其間隔係隨著頻率的增加而增加。如此被知覺為比較從固定延遲所得之線性間隔梳狀濾波所得的聲音更自然的聲音。

於該WO 03/090206 A1文件中，與所提示之濾波相關聯的唯一可調協參數為其長度。於所引述的Seefeldt等人之國際專利公告案WO 2006/026452揭示之發明態樣介紹用於N所需解交互關聯濾波器各自之更具彈性的頻率變化延遲。各濾波器的脈衝響應被載明為有限長度正弦順序，於該順序的持續時間，及瞬間頻率由π單調地降至零：

此處W_i (t)為單調下降的瞬間頻率函數，為瞬間頻率之第一倒數， Φ _i (t ) 為由瞬間頻率之整數所給定的瞬間相位，L_i 為濾波器長度。乘數項要求讓h_i [n]頻率響應跨全部頻率為約略平坦，計算增益G_i 讓

載明的脈衝響應具有唧伯(chirp)狀的順序形式，結果使用此種濾波器濾波音訊信號偶爾將導致於變遷位置的可聽聞的「唧伯聲」切線。經由增加一雜訊相至濾波響應的瞬間相位可減少此種效應：

讓此雜訊順序N_i [n]係等於白高斯雜訊，具有變因(亦即π之小分量)足夠讓脈衝響應聲音更像雜訊而非更像唧伯，而由W_i (t)所載明的頻率與延遲間的期望關係仍然大半維持。(23)中的濾波器有三個自由參數：W_i (t)、L_i 、及N_i [n]。經由選擇此等參數跨N濾波器充分彼此相異，可滿足(19)中期望的解交互關聯條件。

解交互關聯信號可經由於時域中透過捲積產生，但更有效的實作可以z轉換係數來進行通過乘法的濾波：

此處H_i [k]係等於h_i [n]之DFT。嚴格言之，此種轉換係數的乘法係與時域中的圓捲積相對應，但藉由適當選擇STDFT分析及合成窗及解交互關聯濾波器長度，該運算係等於普通捲積。第6圖顯示適當分析/合成窗對。窗設計有75%重疊，分析窗於主瓣之後含有顯著零－填補區，俾便於施加解交互關聯濾波時防止原亂真信號。只要各個解交互關聯濾波器的長度選擇為小於或等於此種零－填補區之長度(第6圖中以L_m _a _x 表示)，則方程式30之乘法係與時域中的普通捲積相對應。除了於分析窗主瓣之後的零－填補之外，較小量先導零填補也用來處理與跨多個頻帶之ILD、IPD、及ICC參數變化所相關聯的任何非因果捲積洩露。

頻譜溫納濾波

前一章節顯示原先信號之聲道間交互關係如何經由使用ICC參數來以聲道至聲道且區塊至區塊為基礎，控制解交互關聯程度而於估值中恢復。對大部分信號而言，如此的效果極佳；但對某些信號諸如掌聲而言，恢復原先信號個別聲道的精密時間結構需要來重新形成所感知的原先音場的擴散。精密結構通常於下混的過程中被破壞，由於採用STDFT躍遷大小和轉換長度，偶爾施加ILD、IPD及ICC參數不足以恢復精密時間結構。Vinton等人所引述的國際專利公告案WO 2006/026161中描述的SWF技術可有利地替代基於ICC的技術來用於此種特殊問題狀況。標示為頻譜溫納濾波(SWF)的新穎方法，利用時間頻率的雙重性：於頻域的捲積係等於於時域的乘法。頻譜溫納濾波施加FIR濾波至空間解碼器的輸出聲道各自的頻譜，因而修改輸出聲道的時間封包，來更加匹配原先信號的時間封包。此項技術係類似於MPEG－2/4 AAC所採用的時間雜訊成形(TNS)演繹法則，原因在於其係透過頻域的捲積來修改時間封包。但SWF演繹法則不似TNS，SWF演繹法則為單調，只施加解碼器。此外，SWF演繹法則設計濾波器，來調整信號的時間封包而非編碼雜訊，因而導致不同的濾波設計限制。空間編碼器必須於頻域設計FIR濾波器，其表示重新應用原先時間封包於解碼器所需時域的乘法變化。此項濾波問題可配方為最小平方問題，俗稱為溫納濾波設計。但不似溫納濾波器的習知應用(設計且應用於時域)，此處提示的濾波程序係設計來應用於頻域。

頻域最小平方濾波設計問題定義如後：計算一組濾波係數a_i [k,t]，其可最小化X_i [k,t]與Z_i [k,t]之經濾波版本間的誤差：此處E為頻譜倉k的預期運算元，L為所設計的濾波器長度。注意X_i [k,t]及Z_i [k,t]為複合值，如此a_i [k,t]也為複合值。方程式31可使用矩陣表示式重新表示：此處X _k ＝[X _i [k ,t ]], 及A ^T ＝[a _i [0,t ]a _i [1,t ]…a _i [L －1,t ]].

經由相對於各個濾波係數，將(32)之空間導數設定為零，單純顯示對最小化問題的解為：此處於編碼器，最佳SWF係數係根據(33)對原先信號的各個聲道運算，且發送作為空間邊帶資訊。於解碼器，施加係數至上混的頻譜Z_i [k,t]來產生最終估值：第7圖驗證SWF處理之效能；前二作圖顯示於一DFT處理區塊內部的假說二聲道信號。將二聲道組合成為單一聲道組合的結果顯示於第三作圖，第三作圖中顯然下混處理程序已經根除於第二「最大」作圖中的信號之精細時間結構。第四作圖顯示於空間解碼器施加SWF處理對第二上混聲道的影響。如所預期，原先第二聲道的估值的精細時間結構已經被置換。若第二聲道已經上混，而未使用SWF處理，則時間封包將變成平坦，類似第三作圖所顯示的組合信號。

盲目上混

第1圖和第2圖實例之空間編碼器，考慮估計既有N聲道(通常為5.1)信號的空間影像之參數模型，讓此影像的近似值可由含有少於N聲道的相關組合信號合成。但如前文說明，於多種情況下，內容提供器短缺原先的5.1內容。解決此項問題之道係首先於空間編碼之前，透過使用盲目上混系統，來將既有二聲道立體內容轉換成為5.1。此種盲目上混系統使用只於原先二聲道立體信號本身可用的資訊來合成5.1信號。多個此種上混系統於市面上可得，例如杜比原邏輯II。當與空間編碼系統組合時，如同第1圖，經由下混盲目上混的信號，可於編碼器產生組合信號；或如同第2圖可利用既有的二聲道立體信號。

於替代例中，如所引述的Seefeldt等人之共同審查中的國際專利申請案PCT/US2006/020882陳述，空間編碼器係用作為盲目上混器的一部分。此種經過修改的編碼器使用既有的空間編碼參數，來從二聲道立體信號直接合成期望的5.1空間影像之參數模型，而無需產生中間盲目的上混信號。大致上如前文說明，第3圖顯示此種經修改的編碼器。

然後所得編碼信號係與既有的空間解碼器可相容。解碼器利用邊帶資訊來產生期望的盲目上混，或邊帶資訊可被忽略而對聆聽者提供以原先的二聲道立體信號。

前述空間編碼參數(ILD、IPD及ICC)可用來根據下述實例形成二聲道立體信號之5.1盲目上混。本實例只考慮由左和右立體對來合成三個環繞聲道，但該技術也可擴充來合成一中心聲道及LFE(低頻效應)聲道。本技術係基於下述構想：立體信號的左聲道和右聲道彼此交互關係的頻譜部分係與記錄時的周圍環境相對應，必須操控為環繞聲道。左聲道和右聲道交互關聯的頻譜部分係與直接聲音相對應，而必須留在於前方左聲道和右聲道。

至於第一步驟，對原先二聲道立體信號y的各個頻帶計算2x2協方差矩陣Q[b,t]。此矩陣的各個元素可以先前說明的R[b,t]之相同遞歸方式更新：

其次，由Q[b,t]算出左聲道與右聲道間之規度化的交互關係ρ：

使用ILD參數，左聲道和右聲道藉與ρ成比例的數量而被操控為左和右環繞聲道。若ρ＝0，則左聲道和右聲道被操控為完全環繞。若ρ＝1，則左聲道和右聲道保持完全於前方。此外，環繞聲道的ICC參數設定為等於零，故此等聲道接收完全解交互關聯，俾便形成更加擴散的空間影像。用來達成此種5.1盲目上混的整個空間參數集合列舉於下表：聲道1(左)： ILD ₁₁ [b ,t ]＝ρ [b ,t ]ILD ₁₂ [b ,t ]＝0IPD ₁₁ [b ,t ]＝IPD ₁₂ [b ,t ]＝0ICC ₁ [b ,t ]＝1

聲道2(中)： ILD ₂₁ [b ,t ]＝ILD ₂₂ [b ,t ]＝IPD ₂₁ [b ,t ]＝IPD ₂₂ [b ,t ]＝0ICC ₂ [b ,t ]＝1

聲道3(右)： ILD ₃₁ [b ,t ]＝0ILD ₃₂ [b ,t ]＝ρ [b ,t ]IPD ₃₁ [b ,t ]＝IPD ₃₂ [b ,t ]＝0ICC ₃ [b ,t ]＝1

聲道4(左環繞)： ILD ₄₂ [b ,t ]＝0IPD ₄₁ [b ,t ]＝IPD ₄₂ [b ,t ]＝0ICC ₄ [b ,t ]＝0

聲道5(右環繞)： ILD ₅₁ [b ,t ]＝0 IPD ₅₁ [b ,t ]＝IPD ₃₂ [b ,t ]＝0ICC ₅ [b ,t ]＝0

聲道6(LFE)： ILD ₆₁ [b ,t ]＝ILD ₆₂ [b ,t ]＝IPD ₆₁ [b ,t ]＝IPD ₆₂ [b ,t ]＝0ICC ₆ [b ,t ]＝1

前述簡單系統合成極為壓迫的環繞效果，但利用相同空間參數的更複雜的盲目上混技術亦屬可能。特定上混技術的使用對本發明而言並無特殊限制。

替代結合空間編碼器和解碼器操作，所述盲目上混系統另外可以單端方式被操作。換言之，可同時導出且應用空間參數來從一多聲道立體信號(諸如二聲道立體信號)直接合成一上混的信號。此種組態可用於消費者裝置，諸如影音接收器，例如可由雷射光碟來播放顯著量的舊式二聲道立體內容。消費者於回放時可能期望將此種內容直接轉成為多聲道信號。第5圖顯示於此種單端模式中之一種盲目上混器的實例。

於第5圖之盲目上混器實例中，M聲道原先信號(例如於PCM格式之數位音訊的多聲道)藉一裝置或函數(「時間至頻率」)2，利用適當時間至頻率轉換而轉換成為頻域，諸如於先前編碼器實例的眾所周知的短時間離散富利葉轉換(STDFT)，讓一或多個頻差被分組成近似於耳朵臨界頻帶的頻帶。呈空間參數形式的上混資訊係藉裝置或函數(「導出上混資訊」)4”(該裝置或函數係與第3圖之「導出上混資訊作為空間邊帶資訊4」相對應)對各頻帶運算。如前文說明，聆聽景象分析器或分析函數(聆聽景象分析4”也接收M聲道原先信號，且如本說明書它處所述，藉裝置或函數4”來影響上混資訊的產生。雖然分開顯示來方便說明，但裝置或函數4”及6”可為單一裝置或函數。來自於裝置或函數4”之上混資訊隨後施加至M－聲道原先信號之頻域版本的相對應頻帶，藉裝置或函數(「施加上混資訊」)26來於頻域產生N－聲道上混信號。此種由較少數聲道產生較大量聲道為上混(裝置或函數26也可稱作為「上混器」)。最後，施加頻率對時間轉換(「頻率對時間」)28(時間對頻率裝置或函數2之顛倒)施加來產生N－聲道上混信號，該信號組成盲目上混信號。雖然於第5圖之實例中，上混資訊係呈空間參數形式，但於孤立上混器裝置或函數之此種上混資訊至少部分響應於聆聽事件及/或與該聆聽事件邊界相關聯之信號特性的變化程度來產生音訊輸出聲道，此種上混資訊無需呈空間參數形式。

有聆聽事件之參數控制

如前文說明，用於N：M：N空間編碼及盲目上混二者之ILD、IPD及ICC參數係依據每一頻帶之協方差矩陣之時間變化估值而決定：於N：M：N空間編碼之情況下為R[b,t]，而於二聲道立體盲目上混的情況為Q[b,t]。須小心從相對應之方程式4及36選擇相關的平順化參數λ，讓寫碼器參數可夠快速改變來捕捉期望之空間影像的時間改變態樣，但寫碼器參數不會太過快速改變而導入合成空間影像的可聽聞的不穩定。特別成問題者為於其中M＝1的N：M：N系統中與IPD相關聯之主要參考聲道g的選擇；以及對M＝1系統及M＝2系統之ICC參數的選擇。即使跨時間區塊，協方差估值顯著平順化，但若數個聲道含有類似的能量，則主聲道可能依不同區塊而有快速起伏波動。如此導致快速改變中的IPD參數和ICC參數，造成合成信號中可聽聞的缺陷。

此項問題之解決之道係指於聆聽事件的邊界更新主聲道g。藉此，於各個事件的持續時間，編碼參數維持相當穩定，維持各事件的知覺完好。音訊頻譜形狀的改變用來檢測聆聽事件邊界。於編碼器中，於各個時間區塊t，於各聲道i之聆聽事件邊界強度係以目前區塊與前一區塊的規度化對數頻譜幅度間之絕對值差之和計算：此處若於任何聲道i，事件強度S_i [t]係大於某個固定臨界值Ts，則主聲道g係根據方程式9更新。否則，主聲道保有其來自於前一時間區塊之值。

前述技術僅為基於聆聽事件的「硬性決策」之一個實例。聆聽事件經檢測或未經檢測，更新主聲道的判定係基於此種二元檢測。聆聽事件也可以「軟性決策」方式使用。舉例言之，事件強度S_i [t]可用來連續改變參數λ，用於平順化協方差矩陣R[b,t]或Q[b,t]。若S_i [t]為大，則出現強力事件，矩陣須以極少平順化更新，俾便快速獲得與強力事件相關聯的音訊之新的統計數字。若S_i [t]為小，則音訊係於一事件內部且相當穩定；因此協方差矩陣須更加平順化。基於此種原理計算最小值(最小平順化)與最大值(最大平順化)間之λ之一種方法表示為：

實作

本發明可於硬體或軟體實作，或於二者之組合(例如可規劃邏輯陣列)實作。除非另行載明，否則含括作為本發明之一部分之演繹法則並未與任何特定電腦或其它裝置相關。特別，各種通用機器可用於根據此處教示所寫成的程式，或可更方便組成更加特化的裝置(例如積體電路)來執行所要求的方法步驟。如此本發明可於一或多個可規劃電腦系統上執行的一或多個電腦程式實作，該可規劃電腦系統各自包含至少一個處理器、至少一個資料儲存系統(包括依電性及非依電性記憶體元件及/或儲存元件)、至少一個輸入裝置或輸入埠、以及至少一個輸出裝置或輸出埠。程式碼施加至輸入資料，來執行此處所述的功能，且產生輸出資訊。輸出資訊係以已知方式而應用至一個或多個輸出裝置。

此種程式各自可以任一種期望的電腦語言(包括機器語言、組合語言或高階程序、邏輯或物件導向規劃語言)實作來與一電腦系統通訊。總而言之，該語言可為編譯或解譯的語言。

各個此種電腦程式較佳係儲存至或下載至可藉一般或通用可規劃電腦讀取的儲存媒體或裝置(例如固態記憶體或媒體、或磁性媒體或光學媒體)用來當該儲存媒體或裝置係藉電腦系統讀取時組配或操作該電腦來執行此處所述之程序。本發明系統也考慮為可以電腦可讀取儲存媒體實作，以電腦程式組配，此處，如此組配之儲存媒體造成電腦系統以特定且預定方式操作來發揮此處所述之功能。

已經說明多個本發明之實施例。雖言如此，須瞭解可未悖離本發明之精髓及範圍做出多項修改。例如此處所述之若干步驟可能與順序獨立無關，因此可以此處所述之不同順序來執行。

併述於此以供參考

下列專利案、專利申請案及公告案個別其全文係以引用方式併入此處。

空間編碼及參數編碼

公告的國際專利申請案WO 2005/086139 A1，公告日期2005年9月15日。

公告的國際專利申請案WO 2006/026452 A1，公告日期2006年3月9日。

Seefeldt等人之國際申請案PCT/US2006/020882，申請日2006年5月26日，名稱「有邊帶資訊之聲道重新組配」。

美國公告的專利申請案US 2003/0026441，公告日期2003年2月6日。

美國公告的專利申請案US 2003/0035553，公告日期2003年2月20日。

美國公告的專利申請案US 2003/0219130(Baumgarte&Faller)，公告日期2003年11月7日。

音訊工程學會報告5852，2003年3月。

公告的國際專利申請案WO 03/090207，公告日期2003年10月30日。

公告的國際專利申請案WO 03/090208，公告日期2003年10月30日。

公告的國際專利申請案WO 03/007656，公告日期2003年1月22日。

公告的國際專利申請案WO 03/090206，公告日期2003年10月30日。

美國專利申請公告案US 2003/0236583 A1，Baumgarte等人，公告日期2003年12月25日。

「兩耳隱含指令編碼施加至立體和多聲道音訊壓縮」，作者Faller等人，音訊工程學會會議報告5574，第112屆會議，慕尼黑，2002年5月。

「為何兩耳隱含指令編碼優於強度立體編碼」，作者Baumgarte等人，音訊工程學會會議報告5575，第112屆會議，慕尼黑，2002年5月。

「兩耳隱含指令編碼體系之設計與評估」，作者Baumgarte等人，音訊工程學會會議報告5706，第113屆會議，洛杉磯，2002年10月。

「使用感官參數化之空間音訊的有效表現型態」，作者Faller等人，信號處理應用於音訊及聲學之IEEE工作坊，2001年，紐約紐帕茲，2001年10月，199－202頁。

「用於兩耳隱含訊息編碼之聆聽空間隱含訊息之估測」，作者Baumgarte等人，Proc.ICASSP 2002，佛羅里達州奧蘭多2002年5月，II－1801－1804頁。

「兩耳隱含指令編碼：空間音訊的新穎有效表現型態」，作者Faller等人，Proc.ICASSP 2002，佛羅里達州奧蘭多2002年5月，II－1841－II－1844頁。

「於低bitrates之高品質參數空間音訊編碼」，作者Breebaart等人，音訊工程學會會議報告6072，第116屆會議，柏林，2004年5月。

「使用有等化混合之可縮放兩耳隱含指令編碼來增強音訊寫碼器」，作者Breebaart等人，音訊工程學會會議報告6060，第116屆會議，柏林，2004年5月。

「低複雜度參數立體編碼」，作者Schuijers等人，音訊工程學會會議報告6073，第116屆會議，柏林，2004年5月。

「於參數立體編碼之合成環境」，作者Engdegard等人，音訊工程學會會議報告6074，第116屆會議，柏林，2004年5月。

檢測與使用聆聽事件

美國公告的專利申請案US 2004/0122662 A1，公告日期2004年6月24日。

美國公告的專利申請案US 2004/0148159 A1，公告日期2004年7月29日。

美國公告的專利申請案US 2004/0165730 A1，公告日期2004年8月26日。

美國公告的專利申請案US 2004/0172240 A1，公告日期2004年9月2日。

公告的國際專利申請案WO 2006/019719，公告日期2006年2月23日。

「基於聆聽景象分析之音訊特徵化與識別方法」，作者Brett Crockett及Michael Smithers，音訊工程學會會議報告6416，第118屆會議，巴塞隆納，2005年5月28－31日。

「使用聆聽景象分析之高品質多聲道時間縮放與間距位移」，作者Brett Crockett，音訊工程學會會議報告5948，紐約，2003年10月。

解交互相關

國際專利公告案WO 03/090206 A1，申請人Breebaart，名稱「信號合成」，公告日期2003年10月30日。

國際專利公告案WO 2006/026161，公告日期2006年3月9日。

國際專利公告案WO 2006/026452，公告日期2006年3月9日。

MPEG－2/4 AAC

ISO/IEC JTC1/SC29，「資訊技術極低bitrate影音編碼」，ISO/IEC IS－14496(第三部分，音訊)，1996年。

1)ISO/IEC 13818－7，「MPEG－2先進音訊編碼，AAC」，國際標準，1997年；M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,及Y.Oikawa：「ISO/IEC MPEG－2先進音訊編碼」，第101屆AES會議議事錄，1996年；M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,及Y.Oikawa：「ISO/IEC MPEG－2先進音訊編碼」，AES期刊，第45卷，第10期，1997年10月789－814頁；Karlheinz Brandenburg：「MP3及AAC說明」，AES第17屆高品質音訊編碼國際會議議事錄，義大利佛羅倫斯，1999年；以及G.A.Soulodre等人：「業界現況二聲道音訊編碼譯碼器之主觀評估」J.Audio Eng.Soc.，第46卷，第3期，164－177頁，1998年3月。

2．．．裝置或函數、時間至頻率、時域至頻域

4、4’．．．裝置或函數、導出空間邊帶資訊

4”．．．裝置或函數、導出上混資訊作為空間邊帶資訊

6、6’、6”．．．裝置或函數、聆聽景象分析

8．．．裝置或函數、下混

10．．．裝置或函數、頻率至時間

12．．．裝置或函數、格式

22．．．裝置或函數、解格式

24．．．裝置或函數、時間至頻率

26．．．裝置或函數、施加空間邊帶資訊

28．．．裝置或函數、頻率至時間

第5圖為單端盲目上混配置之功能方塊圖。

2．．．裝置或函數、時間至頻率、時域至頻域

4．．．裝置或函數、導出空間邊帶資訊

6．．．裝置或函數、聆聽景象分析

8．．．裝置或函數、下混

10．．．裝置或函數、頻率至時間

12．．．裝置或函數、格式

Claims

一種音訊處理方法，其中一處理器接收多個輸入聲道，且產生大於輸入聲道數目之多個音訊輸出聲道，包含下列動作：於多個音訊輸入聲道中之一者或多者，檢測頻譜形狀關於時間的變化，於該等多個音訊輸入聲道中之一或多者，識別在音訊信號中之一連續串列的聆聽事件邊界，其中每個超過一臨界值之頻譜形狀關於時間的變化會定義出一邊界，其中每一個聆聽事件係相鄰邊界間之一音訊節段，該音訊節段係傾向於被感知為分開且獨立的，每一個邊界表示先前事件的結束以及下一個事件的開始，以致使一連續串列的聆聽事件被獲得，以及至少部分響應於多個聆聽事件及/或與該等聆聽事件邊界相關聯之頻譜形狀的變化程度，來產生該等音訊輸出聲道。
如申請專利範圍第1項之方法，其中該等音訊輸出聲道係響應於聆聽事件邊界而藉由只在該等聆聽事件邊界上更新編碼參數來產生。
如申請專利範圍第1或2項方法，其中各個音訊聲道係由資料區塊內部的樣本來表示。
如申請專利範圍第3項之方法，其中該頻譜形狀為於一區塊中之音訊的頻譜形狀。
如申請專利範圍第4項之方法，其中該檢測頻譜形狀關於時間之變化為檢測逐一區塊之音訊之頻譜形狀的變化。
如申請專利範圍第5項之方法，其中聆聽事件之時間起點邊界和終點邊界各自係與一資料區塊之邊界重合。
一種裝置，其包含有適合執行如申請專利範圍第1至6項中任一項之方法之構件。
一種儲存於一電腦可讀取媒體之電腦程式，其係用來讓一電腦控制如申請專利範圍第7項之裝置以執行如申請專利範圍第1至6項中任一項之方法。
一種儲存於一電腦可讀取媒體之電腦程式，當其在一電腦上運作時，執行如申請專利範圍第1-6項中任一項之方法。
一種音訊處理器，其中該處理器係被適配來接收多個輸入聲道，且產生大於輸入聲道數目之多個音訊輸出聲道，其包含：一檢測構件，其用以在多個音訊輸入聲道中之一者或多者檢測頻譜形狀關於時間的變化，一識別構件，其用以在該等多個音訊輸入聲道中之一或多者識別在音訊信號中之一連續串列的聆聽事件邊界，其中每個超過一臨界值之頻譜形狀關於時間的變化會定義出一邊界，其中每一個聆聽事件係為相鄰邊界間之一音訊節段，該音訊節段傾向於被感知為分開且獨立的，每一個邊界表示先前事件的結束以及下一個事件的開始，以致使一連續串列的聆聽事件被獲得，以及一產生構件，其用以至少部分響應於該聆聽事件及/或與該聆聽事件邊界相關聯之頻譜形狀的變化程度，來產生該等音訊輸出聲道。
如申請專利範圍第10項之音訊處理器，其中該檢測構件為一檢測器、該識別構件為相同的該檢測器以及該產生構件為一上混器。