TWI444990B

TWI444990B - 用以利用複數預測來處理多聲道音訊信號之音訊編碼器、音訊解碼器及相關方法

Info

Publication number: TWI444990B
Application number: TW100110751A
Authority: TW
Inventors: Heiko Purnhagen; Pontus Carlsson; Lars Villemoes; Julien Robilliard; Matthias Neusinger; Christian Helmrich; Johannes Hilpert; Nikolaus Rettelbach; Sascha Disch; Bernd Edler
Original assignee: Fraunhofer Ges Forschung; Dolby Int Ab
Priority date: 2010-04-09
Filing date: 2011-03-29
Publication date: 2014-07-11
Also published as: WO2011124473A1; EP2947652B1; TW201205557A; PL2947653T3; EP2947656A1; EP2947657A1; CA2804907A1; KR20130014561A; EP2947655A1; EP2947654B1; MX2012011603A; MY160467A; PL2947657T3; RU2012147587A; SG184815A1; HK1180823A1; ES2701456T3; EP2947655B1; PL2947654T3; CN103098126A

Description

用以利用複數預測來處理多聲道音訊信號之音訊編碼器、音訊解碼器及相關方法

本發明係有關於具有二或多個聲道信號之多聲道信號之音訊處理及特別係有關於多聲道音訊處理。

於多聲道處理或立體處理領域中已知施加所謂中間/側邊立體編碼。就此構想而言，左或第一音訊聲道信號及右或第二音訊聲道信號之組合係經形成來獲得中間或單聲道信號M。此外，左或第一聲道信號與右或第二聲道信號間之差異係形成而獲得側邊信號S。當左信號與右信號彼此相當類似時，因側邊信號將變得相當小，此一中間/側邊編碼方法結果導致顯著編碼增益。典型地，當欲量化/熵編碼之數值範圍變小時，量化器/熵編碼器範圍之編碼增益將變高。如此，針對PCM或基於霍夫曼(Huffman)或算術熵編碼器，當側邊信號變小時編碼增益增高。但存在有某些情況，其中中間/側邊編碼將不會導致編碼增益。當二聲道之信號彼此相移例如相移達90度時可能發生此種情況。然後，中間信號及側邊信號可在相當類似的範圍，因此使用熵編碼器之中間信號及側邊信號之編碼將不致於導致編碼增益，及甚至導致位元率增高。因此，可施加頻率選擇性中間/側邊編碼來解除致動頻帶的中間/側邊編碼，此處例如有關原先左信號，側邊信號不會變小至某個程度。

雖然側邊信號將變零，但當左信號及右信號變相同時，結果導致因側邊信號的消除而獲得最大編碼增益；就波形形狀而言，當中間信號時側邊信號相同時情況再度變不同，但兩個信號間的唯一差異為其總幅值。此種情況下，當額外地假設側邊信號不具相對於中間信號的相移時，側邊信號顯著增高；但另一方面，相當於其數值範圍，中間信號並未減低。當此種情況發生在某個頻帶時，因缺乏編碼增益，故再度解除致動中間/側邊編碼。中間/側邊編碼可以頻率選擇性地施加或另外可於時域施加。

存在有其它多聲道編碼技術，其並未仰賴波形辦法作為中間/側邊編碼，反而係仰賴基於某些雙耳線索之參數處理。此等技術以「雙耳線索編碼」、「參數立體編碼」或「MPEG環繞編碼」等名稱為人已知。此處對多頻帶計算某些線索。此等線索包含聲道間位階差異、聲道間相干性測量值、聲道間時間差異及/或聲道間相角差異。此等辦法始於假設收聽者所感覺的多聲道印象並非必然仰賴二聲道的波形細節，反而係仰賴準確頻率選擇性地提供的線索或聲道間資訊。如此表示，於呈現(rendering)機器，須小心地準確地反映線索，但波形不具決定性重要性。

於解碼器必須施加解除相關性處理來形成彼此解除相關的立體信號之情況下，此種辦法特別複雜，但全部此等聲道皆係從一個且同一個混聲道而導算出。依據其實際實現而定，用於此項目的之解除相關器為複雜，且特別在暫態信號部分之情況下可能導入假影(artifacts)。此外，與波形編碼相反，參數編碼辦法為失真編碼辦法，其無可避免地導致資訊的失真，不僅係由典型量化所導入，同時也係由注意雙耳線索而非特定波形所導入。此一辦法導致極低位元率，但也可能包括品質損害。

統一語音及音訊編碼(USAC)之晚近發展顯示於第7a圖。核心解碼器700在輸入端701執行編碼立體信號之解碼操作，其可為中間/側邊編碼。核心解碼器於線702輸出一中間信號，及於線703輸出一側邊或殘差信號。二信號係藉QMF濾波器組704及705而變換成QMF域。然後，施加MPEG環繞解碼器706來產生左聲道信號707及右聲道信號708。此等低帶信號隨後導入頻帶複製(SBR)解碼器709，其在線710及711產生寬帶左及右信號，然後藉QMF合成濾波器組712、713變換成時域而獲得寬帶左及右信號L、R。

第7b圖顯示MPEG環繞解碼器706執行中間/側邊編碼的情況。另外，MPEG環繞解碼器706執行基於雙耳線索參數解碼用以從單一單聲核心解碼器信號產生立體信號。當然，MPEG環繞解碼器706也使用參數資訊，諸如聲道間位準差、聲道間相干性測量值或其它此等聲道間參數資訊，而產生多個低帶輸出信號來輸入SBR解碼器區塊709。

當MPEG環繞解碼器706執行第7b圖例示說明之中間/側邊編碼時，可施加實際增益因數g，及DMX/RES及L/R分別為表現在複合混成QMF域之下混/殘差及左/右信號。

比較用作為基準的立體聲解碼器，使用區塊706與區塊709之組合只造成運算複雜度的小量增加，原因在於信號之複合QMF表示型態已經可資利用作為SBR解碼器之一部分。但於非SBR組態，與USAC之脈絡相反，基於QMF之立體聲編碼將導致運算複雜度的顯著增高，原因在於所需QMF濾波器組於本實例將要求64帶分析濾波器組及64帶合成濾波器組。只為了立體聲編碼目的而增加此等濾波器組。

但於目前正在發展中的MPEG USAC系統，也存在有高位元率之編碼模式，此處典型地並未使用SBR。

本發明之目的係提供一種改良式音訊處理構想，該構想一方面獲得高編碼增益，及另一方面導致良好音訊品質及/或減低運算複雜度。

此一目的係藉由如申請專利範圍第1項之音訊解碼器、如申請專利範圍第15項之音訊編碼器、如申請專利範圍第21項之音訊解碼方法、如申請專利範圍第22項之音訊編碼方法、如申請專利範圍第23項之電腦程式、或如申請專利範圍第24項之編碼多聲道音訊信號而予達成。

本發明仰賴發現藉由使用第一組合信號預測第二組合信號，可顯著加強高品質波形編碼辦法之編碼增益，此處二組合信號係使用組合規則諸如中間/側邊組合規則而從原先聲道信號而導算出。業已發現此一預測資訊係藉於音訊編碼器之預測器而計算，因而滿足最佳化目標，而只招致小量額外管理資料量，但導致側邊信號要求的位元率之顯著減低而未喪失任何音訊品質，原因在於雖言如此，本發明之預測係為基於波形之編碼辦法而非基於參數之立體聲或多聲道編碼辦法。為了減低運算複雜度，較佳係執行頻域編碼，此處預測資訊係以頻帶選擇性方式而從頻域輸入資料導算出。用以將時域表示型態變換成頻域表示型態之變換演繹法則較佳為臨界取樣法，諸如修改離散餘弦變換(MDCT)或修改離散正弦變換(MDST)，其與複合變換之差異在於只計算實際值或只計算虛擬值，而在複合變換係計算頻譜之實際值及複合值，結果導致兩倍過取樣。

較佳係使用基於混頻導入及抵消之變換。更明確言之，MDCT屬於此種變換，由於藉解碼器端之重疊-加法-處理所得眾所周知之時域混頻抵消(TDAC)性質，MDCT允許隨後區塊間之交叉衰減而未帶來任何額外管理資料量。

較佳，傳送至解碼器且在解碼器使用的編碼器中計算得之預測資訊包含一虛擬部分，其可優異地以0度至360度間之任意選定量而反映二音訊聲道間之相角差。當只施加實際值變換或一般而言，施加只提供實際頻譜或提供虛擬頻譜的變換時，運算複雜度顯著減低。為了運用此種虛擬預測資訊，其係指示左信號之某一帶與右信號之相應帶間之相移，實際至虛擬變換器或依變換之具體實現而定，虛擬至實際變換器係設置於解碼器來從相對於原先組合信號之相角旋轉的第一組合信號而算出預測殘差信號。然後此一相角旋轉預測殘差信號可與位元串流中傳送的預測殘差信號組合而再生一側邊信號，其最終可組合中間信號來獲得在某一帶之解碼左聲道及在此一帶之解碼右聲道。

為了提升音訊品質，當預測殘差信號係在編碼器計算器時，應用在解碼器端的相同實際至虛擬變換器或虛擬至實際變換器也可在編碼器端具體實施。

本發明之優點在於比較具有相同位元率或相同音訊品質之系統，提供改良式音訊品質及減低的位元率。

此外，獲得可以高位元率用在MPEG USAC系統之統一立體聲編碼之運算效率的相關優點，此處典型地未使用SBR。替代在複合混成QMF域處理信號，此等辦法係在立體聲變換編碼器之特有MDCT域實現基於殘差之預測立體聲編碼。

依據本發明之此一構面，本發明包含一種在MDCT域藉複合預測而產生立體聲信號之裝置或方法，其中該複合預測係運用實際至複合變換而在MDCT域進行，此處此一立體聲信號可為編碼器端之編碼立體聲信號，或另外當用以產生立體聲信號之裝置或方法係施加在解碼器端時可為解碼/傳輸立體聲信號。

第1圖顯示用以解碼於輸入線道所得之編碼多聲道音訊信號之音訊解碼器。該編碼多聲道音訊信號包含使用用以組合表示該多聲道音訊信號之第一聲道信號及第二聲道信號的組合規則所產生之編碼第一組合信號、編碼預測殘差信號及預測資訊。該編碼多聲道信號可為具有呈複合形式之三個成分之資料串流諸如位元串流。額外側邊資訊可含括於線道100上的編碼多聲道信號。該信號輸入一輸入介面102。輸入介面102可實施為一資料串流解多工器，其於線道輸出編碼第一組合信號104、於線道輸出編碼殘差信號106及於線道輸出預測資訊108。較佳，該預測資訊為具有不等於零之實際部分及/或異於零之虛擬部分之一因數。編碼組合信號及編碼殘差信號係輸入信號解碼器110用來將該第一組合信號解碼而獲得於線道上之解碼第一組合信號112。此外，信號解碼器110係組配來解碼該編碼殘差信號而於線道獲得解碼殘差信號114。依據於音訊編碼器端之編碼處理而定，信號解碼器可包含一熵解碼器諸如霍夫曼解碼器、算術解碼器或任何其它熵解碼器及一接續連結的解量化階段用來執行匹配於相關音訊編碼器之量化器操作的解量化操作。於線道上的信號112及114係輸入解碼器計算器115，其輸出於線道之第一聲道信號117及於線道之第二聲道信號118，此處此二信號為立體聲信號或多聲道音訊信號中之二聲道。例如當多聲道音訊信號包含五聲道時，該二信號為得自多聲道音訊信號之二聲道。為了完全編碼此種具有五聲道之多聲道音訊信號，可應用第1圖所示之兩個解碼器，此處第一解碼器處理左聲道及右聲道，第二解碼器處理左環繞聲道及右環繞聲道，及第三單聲解碼器用來執行該中心聲道的單聲編碼。但也可應用其它群組或波形編碼器與參數編碼器的組合。另一種產生多於二聲道之預測方案之替代方式係同時處理三個(或多個)信號，亦即使用二預測係數而從第一信號及第二信號預測第三組合信號，及其類似MPEG環繞之「二對三」模組。

解碼器計算器116係組配來使用解碼殘差信號114、預測資訊108及解碼第一組合信號112而計算具有解碼第一聲道信號117及解碼第二聲道信號118之解碼多聲道信號。特別，解碼器計算器116係組配來以一種方式操作使得解碼第一聲道信號及解碼第二聲道信號為輸入一相應的編碼器之多聲道信號之第一聲道信號及第二聲道信號的至少近似值，當產生第一組合信號及預測殘差信號時，該等信號係藉組合規則而組合。尤其，於線道之預測資訊108包含異於零之實際值部分及/或異於零之虛擬部分。

解碼器計算器116可以不同方式實施。第一實施例顯示於第4a圖。本實施例包含預測器1160、組合信號計算器1161及組合器1162。預測器接收解碼第一組合信號112及預測資訊108及輸出預測信號1163。更明確言之，預測器1160係組配來將預測資訊108施加至解碼第一組合信號112或從該解碼第一組合信號所導出之一信號。用來導算施加預測資訊108之信號的導算規則可為實際至虛擬變換，或同理，虛擬至實際變換或加權操作，或依據實施例而定，相移操作或加權/相移組合操作。預測信號1163係連同解碼殘差信號一起輸入組合信號計算器1161來計算解碼第二組合信號1165。信號112及解碼第二組合信號1165皆輸入組合器1162，組合器組合解碼第一組合信號及第二組合信號來獲得具有在輸出線道上之解碼第一聲道信號及解碼第二聲道信號分別為輸出線1166及1167之解碼多聲道音訊信號。另外，解碼計算器係實施為矩陣計算器1168，其接收解碼第一組合信號或信號M、解碼殘差信號或信號D及預測資訊α108做為輸入信號。矩陣計算器1168將顯示於1169之變換矩陣施加至信號M、D來獲得輸出信號L、R，此處L為解碼第一聲道信號及R為解碼第二聲道信號。第4b圖之標示法類似具有左聲道L及右聲道R之立體標示法。此種標示法已經應用使得更容易瞭解，但熟諳技藝人士顯然易知信號L、R可為具有多於二聲道信號之多聲道信號中的兩個聲道信號之任一種組合。矩陣操作1169將第4a圖之區塊1160、1161及1162之操作統一成一種「單擊」矩陣計算，輸入第4a圖電路之輸入信號及來自第4a圖電路之輸出信號係與輸入矩陣計算器1168之輸入信號或來自矩陣計算器1168之輸出信號相同。

第4c圖顯示第4a圖藉組合器1162所施加之反組合規則實例。特別，組合規則係類似於眾所周知之中間/側邊編碼之解碼器側邊組合規則，此處L=M+S，及R=M-S。須瞭解由第4c圖之反組合規則所使用的信號S為由組合信號計算器所計算的信號，亦即線道上預測信號1163與線道上解碼殘差信號114之組合。須瞭解於本說明書中，線道上之信號偶爾係以線道上之元件符號命名，或偶爾係以該線道所屬的元件符號本身指示。因此，標示法為具有某個信號之線道係指示該信號本身。一線道可為呈有線實施例之實體線道。但於運算實施例中，實體線道並不存在，反而由該線道所表示之信號係從一個計算模組傳送至另一個計算模組。

第2圖顯示用以編碼具有二或多個聲道信號之多聲道音訊信號200之音訊編碼器，此處第一聲道信號係顯示於201及第二信號係顯示於202。兩個信號輸入編碼器計算器203，用以使用第一聲道信號201及第二聲道信號202及預測資訊206來計算第一組合信號204及預測殘差信號205，使得預測殘差信號205當組合從第一組合信號204及預測資訊206導算得之一預測信號時，獲得第二組合信號，此處該第一組合信號及第二組合信號係使用組合規則而從第一聲道信號201及第二聲道信號202導算出。

預測資訊係藉最佳化器207產生，最佳化器207係用以計算預測資訊206使得預測殘差信號滿足最佳目標208。第一組合信號204及殘差信號205係輸入信號編碼器209，用以編碼第一組合信號204而獲得編碼第一組合信號201及用以編碼殘差信號205而獲得編碼殘差信號211。二編碼信號210、211係輸入一輸出介面212，用來將該編碼第一組合信號210與編碼預測殘差信號211及預測資訊206組合而獲得編碼多聲道信號213，其係類似輸入第1圖所示音訊解碼器之輸入介面102之編碼多聲道信號100。

依據實施例而定，最佳化器207接收第一聲道信號201及第二聲道信號202，或如線道214及215所示，接收從第3a圖之組合器2031所導算出之第一組合信號214及第二組合信號215，容後詳述。

較佳的最佳化目標係顯示於第2圖，其中該編碼增益係最大化，亦即儘可能地減低位元率。於此種最佳化目標中，殘差信號D係相對於α而最小化。換言之，如此表示預測資訊α經選擇使得||S-αM||² 。如此獲得第2圖所示之α解。信號S、M係以逐一區塊方式給定，且為較佳譜域信號，此處||...||表示幅角之2-常模，及此處<...>表示尋常點積。當第一聲道信號201及第二聲道信號202係輸入最佳化器207時，最佳化器必須應用組合規則，此處組合規則實例顯示於第3c圖。但當第一組合信號214及第二組合信號215係輸入最佳化器207時，此時最佳化器207無需實施組合規則本身。

其它最佳化目標可能與知覺品質有關。最佳化目標可為獲得最大知覺品質。然後，最佳化器要求來自知覺模型之額外資訊。最佳化目標之其它實施例可能有關獲得最小值或固定位元率。然後，最佳化器207可實施來執行量化/熵編碼操作而針對某個α值測定要求的位元率，使得該α可設定來滿足諸如最小位元率或另外，固定位元率之要求。最佳化目標之其它實施例可能與編碼器或解碼器資源之最小使用率有關。於實施此種最佳化目標之情況下，針對某個最佳化所要求的資源資訊可在最佳化器207取得。此外，此等最佳化目標或其它最佳化目標而組合可應用來獲得計算預測資訊206之最佳化器207。

第2圖之編碼器計算器203可以不同方式實施，此處第一具體實施例係顯示於第3a圖，其中於組合器2031執行明確的組合規則。另一個具體實施例係顯示於第3b圖，此處使用矩陣計算器2039。第3a圖之組合器2031係實施來執行第3c圖所示組合規則，此乃眾所周知之中間/側邊編碼規則實例，此處施加0.5之加權因素至全部分支。但依據實施例而定也可實施其它加權因素或絲毫也無加權因素。此外，須注意可應用其它組合規則，諸如其它線性組合規則或非線性組合規則，只要存在有相應的反組合規則其可應用至第4a圖所示解碼器組合器1162即可，該解碼器組合器應用於編碼器所應用之組合規則相反的組合規則。由於本發明預測可使用任何可逆預測規則，原因在於對波形的影響係藉該預測而平衡，亦即任何誤差皆含括於所傳送的殘差信號，原因在於藉最佳化器207組合編碼器計算器203所執行的預測操作為波形保留性處理程序。

組合器2031輸出第一組合信號204及第二組合信號2032。第一組合信號輸入預測器2033，及第二組合信號2032輸入殘差計算器2034。預測器2033計算預測信號2035，該信號組合第二組合信號2032而最終獲得殘差信號205。更明確言之，組合器2031係經組配來以兩種不同方式組合多聲道音訊之二聲道信號201及202而獲得第一組合信號204及第二組合信號2032，此處該兩種不同方式係舉例說明於第3c圖之具體實施例。預測器2033係經組配用來將預測資訊施加至第一組合信號204或從該第一組合信號所導出之一信號而獲得預測信號2035。從該組合信號所導出之信號可藉任何非線性運算或線性運算而導算出，此處以實際至虛擬變換/虛擬至實際變換為佳，其可利用執行某些數值之加權加法的線性濾波器諸如FIR濾波器實施。

第3a圖之殘差計算器2034可執行減法運算，故預測信號從第二組合信號扣除。但於殘差計算器的其它運算亦屬可能。對應地，第4a圖之組合信號計算器1161可執行加法運算，此處解碼殘差信號114及預測信號1163加總來獲得第二組合信號1165。

第5a圖顯示音訊編碼器之較佳實施例。比較第3a圖所示音訊編碼器，第一聲道信號201為時域第一聲道信號55a之頻譜表示型態。對應地，第二聲道信號202為時域聲道信號55b之頻譜表示型態。針對第一聲道信號係藉時/頻變換器50及針對第二聲道信號係藉時/頻變換器51進行。較佳地，但非必要，頻譜變換器50、51係實施為實際值變換器。變換演繹法則可為離散餘弦變換，FFT變換，此處只使用實際部分、MDCT或任何其它提供實際值譜值之變換。另外，二變換可實施為虛擬變換，諸如DST、MDST或FFT，此處只使用虛擬部分而拋棄實際部分。只提供虛擬值之任何其它變換也可使用。使用純粹實際值變換或純粹虛擬變換之一個目的為運算複雜度，原因在於針對各個譜值，只須處理單一值諸如幅值或實際部分，或另外相角或虛擬部分。與完全複合變換諸如FFT相反，針對各譜線必須處理實際部分及虛擬部分，增高運算複雜度達至少2之因數。此處使用實際值變換之另一項理由為此種變換通常係臨界取樣，因此提供信號量化及熵編碼之適當(及常用於)(於「MP3」、AAC、或類似音訊編碼系統實施的標準「知覺音訊編碼」範例)。

第5a圖額外顯示殘差計算器2034為加法器，在其「加」輸入端接收側邊資訊及在其「減」輸入端接收由預測器2033所輸出的預測信號。此外，第5a圖顯示預測控制資訊從最佳化器前傳至多工器212之情況，多工器212輸出表示編碼多聲道音訊信號之多工化位元串流。更明確言之，執行預測操作，使得從中間信號預測側邊信號，如第5a圖右側之方程式所示。

較佳，預測器控制資訊206為第3b圖右側所示因數。於一實施例中其中該預測控制資訊只包含實際部分，諸如複合值α之實際部分或複合值α之幅值，此處此一部分係對應於異於零之因數，當該中間信號及側邊信號由於其波形結構而彼此相似但具有不同幅值時，可獲得顯著編碼增益。

但當預測控制資訊只包含一第二部分，該第二部分可為複合值因數之虛擬部分或複合值因數之相角，此處該虛擬部分或相角資訊係異於零時，針對彼此相移達異於0度或180度之信號，該等信號除了相移之外，具有相似的波形特性及相似的幅值關係，本發明達成顯著編碼增益。

較佳預測控制資訊為複合值。然後，針對幅值不同且為相移之信號可獲得顯著編碼增益。於其中時/頻變換提供複合頻譜之情況下，操作2034可為複合操作，其中預測控制資訊之實際部分係施加至複合頻譜M之實際部分，及複合預測資訊之虛擬部分係施加至複合頻譜之虛擬部分。然後於加法器2034，此種預測操作之結果為預測實際頻譜及預測虛擬頻譜，及預測實際頻譜將從側邊信號S(逐帶)之實際頻譜扣除，及預測虛擬頻譜將從S頻譜之虛擬部分扣除來獲得複合殘差頻譜D。

時域信號L及R為實際值信號，但頻域信號可為實際值或複合值。當頻域信號為實際值時，變換為實際值變換。當頻域信號為複合值時，變換為複合值變換。如此表示時至頻變換之輸入信號及頻至時變換之輸出信號為實際值，而頻域信號可為例如複合值QMF-域信號。

第5b圖顯示對應於第5a圖所示音訊編碼器之音訊解碼器。相對於第1圖音訊解碼器之類似元件具有類似的元件符號。

第5a圖中藉位元串流多工器102輸出之位元串流係輸入第5b圖之位元串流解多工器102。位元串流解多工器102將該位元串流解多工化成為下混信號M及殘差信號D。下混信號M係輸入解量化器110a。殘差信號D係輸入解量化器110b。此外，位元串流解多工器102將得自該位元串流之預測器控制資訊108解多工化且將其輸入預測器1160。預測器1160輸出預測側邊信號α‧M，及組合器1161將解量化器110b輸出的殘差信號與預測側邊信號組合來最終獲得重建側邊信號S。然後信號輸入組合器1162，如第4c圖就中間/側邊編碼所示，組合器1162例如執行和/差處理。更明確言之，區塊1162執行(反)中間/側邊解碼來獲得左聲道之頻域表示型態及右聲道之頻域表示型態。然後頻域表示型態藉相應的頻/時變換器52及53變換成時域表示型態。

依據系統實施例，頻/時變換器52、53於頻域表示型態為實際值表示型態時屬於實際值頻/時變換器，或當頻域表示型態為複合值表示型態時屬於複合值頻/時變換器。

但為了提高效率，於另一個實施例中，第6a圖針對編碼器及第6b圖針對解碼器執行實際值變換為佳。實際值變換50及51係藉MDCT實施。此外，預測資訊係計算為具有實際部分及虛擬部分之複合值。由於二頻譜M、S皆為實際值頻譜，因此由於不存在有頻譜之虛擬部分，設置實際至虛擬變換器2070其計算得自信號M之實際值頻譜的估算得之虛擬頻譜600。此種實際至虛擬變換器2070為最佳化器207之一部分，藉區塊2070估算的虛擬頻譜600係連同實際頻譜M輸入α最佳化器階段2071來計算預測資訊206，現在其具有2073指示之實際值因數及2074指示之虛擬因數。但根據本實施例，第一組合信號M之實際值頻譜乘以實際部分α_R 2073來獲得預測信號，然後該預測信號從實際值側邊頻譜扣除。此外，虛擬頻譜600乘以2074所示虛擬部分α_I 來獲得另一個預測信號，此處此一預測信號從2034b所示之實際值側邊頻譜扣除。然後，預測殘差信號D係於量化器209b量化，而M之實際值頻譜係於區塊209a量化/編碼。此外，較佳係在量化器/熵編碼器2072編碼預測資訊α而獲得編碼複合α值，該值係前傳至第5a圖之位元串流多工器212(舉例)，及其最終係輸入位元串流做為預測資訊。

有關針對α之量化/編碼(Q/C)模組2072之位置，發現乘法器2073及2074較佳係使用確切相同的(量化)α，該α也將用於解碼器。如此，可將2072直接移動至2071之輸出端，或可考慮α之量化已經考慮在2071的最佳化處理程序。

雖然可在編碼器端計算複合頻譜，由於全部資訊皆可取得，較佳係在編碼器在區塊2070執行實際至複合變換，因而產生有關第6b圖所示解碼器的類似情況。解碼器接收第一組合信號之實際值編碼頻譜及編碼殘差信號之實際值頻譜表示型態。此外，於108獲得編碼複合預測資訊，及於區塊65執行熵解碼及解量化來獲得1160b所示實際部分α_R 及1160c所示虛擬部分α_I 。藉加權元件1160b及1160c輸出的中間信號加至該已解碼且已解除量化之預測殘差信號。特定言之，頻譜值輸入加權器1160c，此處該複合預測因數之虛擬部分係用作為加權因數，藉實際至虛擬變換器1160a而從實際值頻譜M導算出，其較佳係以得自第6a圖有關編碼器端之區塊2070的相同方式實施。於解碼器端，無法取得中間信號或側邊信號之複合值表示型態，其係與編碼器端相反。理由為由於位元率及複雜度原因，只有編碼實際值頻譜已經從編碼器傳送至解碼器。

第6a圖之實際至虛擬變換器1160a或相應的區塊2070可如WO 2004/013839 A1或WO 2008/014853 A1或美國專利案第6,980,933號之公告實施。另外，可應用技藝界已知之任何其它實施例，較佳實施例係討論於第10a、10b圖之脈絡。

更明確言之，如第10a圖所示，實際至虛擬變換器1160a包含頻譜框選擇器1000連結至虛擬頻譜計算器1001。頻譜框選擇器1000於輸入端1002接收目前框i之指示，及依據實施例而定，於控制輸入端1003接收控制資訊。例如當線道1002上的指示指示欲計算目前框i之虛擬頻譜時，及當控制資訊1003指示只有目前框欲用於該項計算時，頻譜框選擇器1000只選擇目前框i且將此一資訊前傳至虛擬頻譜計算器。然後，虛擬頻譜計算器只使用目前框i之譜線來進行位在目前框(區塊1008)之譜線的加權組合，該等譜線就頻率而言係接近或環繞如第10b圖於1004顯示欲計算的虛擬線之目前譜線k。但當頻譜框選擇器1000接收控制資訊1003指示前一框i-1及後一框i+1也欲用來計算虛擬頻譜時，虛擬頻譜計算器額外從框i-1及i+1接收數值，及於對應框執行譜線之加權組合，如針對框i-1於1005及針對框i+1於1006舉例說明。加權運算的結果係藉區塊1007之加權組合加以組合而最終獲得框f_i 之虛擬線k，及然後於元件1160c乘以預測資訊之虛擬部分來獲得此一譜線之預測信號，然後該譜線加至針對解碼器在加法器1161b中之中間信號的對應譜線。於編碼器中，執行相同運算，但在元件2034b進行減法。

須注意控制資訊1003額外指示使用比2周圍框更多的框，或例如只使用目前框及恰一個或多個先前框，但未使用「未來」框來減少系統性延遲。

此外，發現第10b圖所示逐一階段加權組合，其中於第一操作，得自一框的譜線經組合，及隨後由此等逐框組合操作所得結果本身組合，也可以其它順序進行。其它順序表示於第一步驟，得自控制資訊103所指示的多個相鄰框之目前頻率k之譜線係藉加權組合加以組合。此種加權組合例如係對譜線k、k-1、k-2、k+1、k+2等進行，取決於欲用來估算虛擬譜線之相鄰譜線數目。然後由此等「逐時間」組合所得結果接受在「頻率方向」之加權組合來最終獲得框f_i 之虛擬線k。權值較佳係設定為-1至+1間之值，及權值可以直捷正向FIR或IIR濾波器組合實施，該組合係執行來自不同頻率及不同框的譜線或譜信號之線性組合。

如第6a及6b圖所示，較佳變換演繹法則為MDCT變換演繹法則，其係於第6a圖之元件50及51之正向施加，及在頻域操作組合器1162的組合運算之後，於元件52、53於反向施加。

第8a圖顯示區塊50或51之進一步細節實施例。更明確言之，一系列時域音訊信號係輸入分析開窗器500，其使用分析窗執行開窗操作，特別以逐框方式但使用50%之跨輻或重疊執行此項操作。分析開窗器之結果亦即一串列開窗樣本框係輸入MDCT變換區塊501，其輸出該串列實際值MDCT框，此處此等框係受混頻影響。舉例言之，分析開窗器施加具有2048樣本長度之分析窗。然後，MDCT變換區塊501輸出具有1024實際譜線或MDCT值之MDCT譜。較佳，分析開窗器500及/或MDCT變換器501可藉窗長度或變換長度控制502控制，因此例如針對信號中之暫態部分，窗長度/變換長度縮短來獲得較佳編碼結果。

第8b圖顯示於區塊52及53進行之反MDCT操作。舉例言之，區塊52包含用來執行逐框反MDCT變換之一區塊520。例如當MDCT值之一框具有1024個值時，此種MDCT反變換之輸出具有2048換頻影響時間樣本。此種框供給合成開窗器521，其將合成窗施加至此一2048樣本框。然後開窗框前傳至重疊/加法處理器522，其例如施加二接續框間之50%重疊，然後執行逐樣本加法，使得2048樣本區塊最終導致1024個不含混頻輸出信號的新樣本。再度，較佳使用例如於523指示的編碼多聲道信號之側邊資訊中傳送資訊來施加窗/變換長度控制。

α預測值可對MDCT譜之各個個別譜線計算。但發現並非必要，藉由執行預測資訊之逐帶計算可節省相當大量側邊資訊。換言之，第9圖所示頻譜變換器50例如為第8a圖內文所討論之MDCT處理器，頻譜變換器50提供第9b圖所示具有某些譜線的高頻率解析度頻譜。此種高頻率解析度頻譜係由譜線選擇器90使用來提供包含某些頻帶B1、B2、B3、...、BN之低頻率解析度頻譜。此種低頻率解析度頻譜前傳至最佳化器207用來計算預測資訊，因此並未針對各譜線計算預測資訊，只針對各帶計算預測資訊。為了達成此項目的，最佳化器207接收每個頻帶之譜線，始於假設相同α值用於該頻帶的全部譜線而計算最佳化操作。(或是：-具有遞增頻寬之濾波器組；-或各自具有至少二譜線之等尺寸頻帶。)

較佳，頻帶係以心理聲學方式成形，使得如第9b圖所示，頻帶之帶寬從較低頻增高至較高頻。另外，但做為增加帶寬實施例並不佳，也可使用相等大小頻帶，此處各頻帶具有至少2或典型地更多諸如至少30頻線。針對各頻帶只計算單一個 α。典型地，對1024譜線頻譜而言，計算少於30複合α值(例如22)，及較佳多於5 α值。Bi隨頻率而增加。針對具有少於1024譜線(例如128譜線)之頻譜，較佳，較少頻帶(例如6)用於α。

為了計算α值，並非必然需要高解析度MDCT頻譜。另外，具有類似於計算α值要求的解析度之頻率解析度之濾波器組也可使用。當欲實施頻率增高之頻帶時，此種濾波器組應具有可變帶寬。但當從低頻至高頻的恆定帶寬為足夠時，可使用具有等寬子帶的傳統濾波器組。

依據實施例而定，可顛倒第3b或4b圖所指示之α值符號。但為了維持符合一致，要求此種符號的顛倒用在編碼器端同時也用在解碼器端。比較第6a圖，第5a圖顯示編碼器之一般化視圖，此處項目2033為藉預測器控制資訊206所控制之預測器，預測器控制資訊206係於項目207測定且係嵌入位元串流中做為側邊資訊。替代第6a圖用在區塊50、51之MDCT，一般性時/頻變換如此處討論係用在第5a圖。如前文摘述，第6a圖為對應於第6b圖之解碼器處理程序的編碼器處理程序，此處L表示左聲道信號，R表示右聲道信號，M表示中間信號或下混信號，S表示側邊信號及D表示殘差信號。另外，L也稱作第一聲道信號201，R也稱作第二聲道信號202，M也稱作第一組合信號204及S也稱作第二組合信號2032。

較佳，於編碼器之模組2070及解碼器之模組1160a須確切匹配來確保正確波形編碼。如此較佳應用至下述情況，其中此等模組使用某些近似形式例如截頭濾波器，或當只利用1或2而非三個MDCT框時，以及線道60之目前MDCT框、線道61之前一個MDCT框及線道62之下一個MDCT框。

此外，較佳第6a圖編碼器之模組2070使用非量化MDCT頻譜M做為輸入信號，但解碼器之實際至虛擬(R2I)模組1160a只具有量化MDCT頻譜可用作為輸入信號。另外，也可使用一個實施例，其中編碼器使用量化MDCT係數做為輸入模組2070之輸入信號。但使用非量化MDCT頻譜做為模組2070之輸入信號從知覺觀點視之為較佳辦法。

隨後將以進一步細節討論本發明之實施例之若干面相。

標準參數立體編碼仰賴過取樣複合(混成) QMF域允許時間-及頻率-可變知覺激勵信號處理而未導入混頻假影的能力。但於下混/殘差編碼(如用於此處考慮之高位元率)之情況下，所得統一立體聲編碼器係用作為波形編碼器。如此允許於臨界取樣域，諸如MDCT域之運算，原因在於波形編碼辦法確保充分良好地保有MDCT-IMDCT處理鏈之混頻抵銷性質。

但為了探討改良編碼效率，於利用複合值預測係數α具有聲道間時間-或相角差的立體聲信號之情況下，要求下混信號DMX之複合值頻率表現型態做為複合值上混矩陣之輸入信號。除了DMX信號之MDCT變換之外，藉由使用MDST變換可達成此項目的。MDST頻譜可從MDCT頻譜運算(確切或做為近似值)。

此外，上混矩陣之參數化可藉傳送複合預測係數α替代MPS參數加以簡化。因此只傳送二參數(α之實際部分及虛擬部分)而非三個傳輸(ICC、CLD、及IPD)。此種情況為可能原因在於下混/殘差編碼情況下MPS參數化之冗餘。MPS參數化包括有關於解碼器中欲相加的解相關相對量資訊(亦即RES信號與DMX信號間之能比)，當實際DMX及RES信號傳送時此一資訊變成冗餘。

由於相同理由故，前述上混矩陣所示的增益因數g於下混/殘差編碼情況下為過時。因此，利用複合預測針對下混/殘差編碼之上混矩陣為現在：

比較第4b圖之方程式1169，此一方程式中α的符號顛倒及DMX=M及RES=D。因此就第4b圖而言為替代實施例/標示法。

兩個選項可用來計算編碼器中之預測殘差信號。一個選項係使用下混之量化MDCT頻譜值。如此導致與M/S編碼相同的量化誤差分布，原因在於編碼器及解碼器使用相同值來產生預測。另一選項係使用非量化MDCT頻譜值。如此暗示編碼器及解碼器未使用相同資料來產生預測，允許依據信號的瞬間遮蔽性質進行編碼誤差的空間重新分布而犧牲編碼增益之略微減低。

較佳係利用如所討論的三個相鄰MDCT框之二維FIR濾波而在頻域直接運算MDST譜。後者可視為「實際至虛擬」(R2I)變換。MDST之頻域運算之複雜度可以不同方式減少，表示只計算MDST譜之近似值：

‧　限制FIR濾波器分接頭數目。

‧　只從目前MDCT框估算MDST。

‧　從目前及前一個MDCT框估算MDST。

只要相同近似值用在編碼器及解碼器，波形編碼性質不受影響。但此種MDST譜之近似值可能導致藉複合預測所達成的編碼增益減低。

若潛在MDCT編碼器支援窗形狀切換，則用來運算MDST譜之二維FIR濾波器係數必須調整適應實際窗形狀。施加至目前框的MDCT譜之濾波器係數係取決於完整窗，亦即對每個窗類型及對每個窗變遷要求一係數集合。施加至前一框/下一框的MDCT譜之濾波係數只取決於半量重疊目前框之窗，亦即對各個窗類型只要求一係數集合(變遷無須額外係數)。

若潛在MDCT編碼器使用變換長度切換，包括在近似值的前一及/或下一MDCT框變成環繞不同變換長度間之變遷變得更複雜。由於目前及前一/下一框之MDCT係數數目不同，此種情況下二維濾波更為複雜。為了避免運算複雜度及結構複雜度的升高，前一/下一框可於變換長度變遷從濾波排除，而犧牲對個別框之近似值準確度減低。

此外，特別必須小心MDST譜之最低部分及最高部分(接近DC及fs/2)，此處比較所要求的環繞MDCT係數，只有更少量環繞MDCT係數可用於FIR濾波。此處濾波程序必須調整適應來正確運算MDST譜。其進行方式可藉針對遺漏係數進行MDCT譜之對稱性擴延(依據時間離散信號譜之週期性)，或據此而調整適應濾波係數。此等特殊情況的處理當然可簡化但犧牲MDST譜邊界附近的準確度減低。

在解碼器從所傳送的MDCT譜運算確切MDST譜，增加解碼器延遲達一框(此處假設為1024樣本)。

藉由使用MDST譜之近似值，其不要求下一框的MDCT譜做為輸入信號，可避免額外延遲。

以下分項表單摘述基於MDCT之統一立體聲編碼優於基於QMF之統一立體聲編碼之優點：

‧　運算複雜度只有小量增加(當未使用SBR時)。

‧　若MDCT譜未經量化，則擴充規模至完好重建。注意對基於QMF之統一立體聲編碼而言情況並非如此。

‧　M/S編碼及強度立體聲編碼的自然擴延。

‧　更清晰架構而簡化編碼器微調，原因在於可緊密耦合立體聲信號處理及量化/編碼。注意在基於QMF之統一立體聲編碼中，MPEG環繞框及MDCT框並未對齊，及定標因數帶並未匹配參數帶。

‧　立體聲參數的有效編碼，原因在於只須傳送兩個參數(複合α)，而非如同MPEG環繞(ICC、CLD、IPD)之三個參數。

‧　若MDST譜運算為近似值(而未使用下一框)，則無額外解碼器延遲。

實施例之重要性質摘述如下：

a) MDST譜係從目前、前一、及下一MDCT譜，利用二維FIR濾波運算。藉由減少FIR濾波器分接頭數目及/或所使用的MDCT框數目，對MDST運算(近似值)之不同複雜度/品質折衷變成可能。特別，若在傳送或變換長度切換期間由於框遺失而無法利用相鄰框，則該特定框從MDST估算中排除。用於變換長度切換之情況，該排除係在位元串流中傳訊。

b)　只傳送兩個參數，亦即複合預測係數α之實際部分及虛擬部分，而非傳送ICC、CLD及IPD。α之實際部分及虛擬部分係各自獨立處理，限於範圍[-3.0,3.0]，及以0.1之一階大小量化。若某個參數(α之實際部分或虛擬部分)無法用在一給定框，則此係在位元串流傳訊，而未傳送不相關的參數。參數為時差編碼或頻差編碼，及最後使用定標因數碼簿而做霍夫曼編碼。每隔一個定標因數頻帶更新預測係數，結果導致類似MPEG環繞之頻率解析度之一種頻率解析度。此種量化及編碼方案對在具有96 kb/s之目標位元率的典型組態內部之立體聲側邊資訊，導致約2 kb/s之平均位元率。

較佳額外或替代實施例細節包含：

c)　針對α之兩個參數，可選擇基於每框基礎或每串流基礎之無差異(PCM)或差異(DPCM)編碼，藉位元串流中之相應的位元傳訊。針對DPCM編碼，時差編碼或頻差編碼為可能。再度可使用1-位元旗標傳訊。

d)　替代重複使用預先界定的碼簿諸如AAC定標因數碼簿，也可利用專用不可變或信號適應性碼簿來編碼α參數值，或可利用固定長度(例如4位元)無符號或2-互補碼字組。

e) α參數值之範圍及參數量化階大小可任意選擇及針對所使用的信號特性加以最佳化。

f)　作用的α參數帶之頻譜數目及/或時間寬度可任意選擇及針對該給定的信號參數而最佳化。更明確言之，帶組態可以每框基礎或每串流基礎傳訊。

g)　除了如上a)所摘述之機制之外，或替代該機制，可利用位元串流中的每框位元明確地傳訊，只使用目前框之MDCT譜來運算MDST譜近似值，亦即並未考慮相鄰MDCT框。

實施例係有關用在MDCT域之統一立體聲編碼的本發明系統。甚至在較高位元率(此處未使用SBR)，允許利用MPEG USAG系統之統一立體聲編碼之優點，而未顯著增高基於QMF辦法所造成的運算複雜度顯著增高。

以下二表單摘述前文敘述之較佳組態面相，其另外可彼此交錯使用或在其它面相之外額外使用：

1a)一般構想：從中間MDCT及MDST做側邊MDCT之複合預測；

1b)使用一或多個框(3-框導入延遲)在頻域從MDCT(「R2I」)計算/求近似值MDST；

1c)濾波器的截頭9甚至低抵1-框2-分截頭，亦即[-1 0 1])來減低運算複雜度；

1d)DC及fs/2之適當處理；

1e)窗形狀切換之適當處理；

1f)若具有不同變換尺寸則未使用前一/下一框；

1g)基於編碼器之未經量化或已量化MDCT係數進行預測；

2a)直接量化及編碼複合預測係數之實際部分及虛擬部分(亦即無MPEG環繞參數化)；

2b)對此使用統一量化器(階大小例如0.1)；

2c)對預測係數使用適當頻率解析度(例如每2定標因數帶使用1係數)；

2d)於全部預測係數皆為實際之情況下傳訊價廉；

2e)每框有明確位元來強制1-框R2I操作。

一個實施例中，編碼器額外包含：一頻譜變換器(50,51)，其係用來將二聲道信號之時域表示型態變換成對該二聲道信號具有子帶信號之二聲道信號之頻譜表示型態，其中該組合器(2031)、預測器(2033)及殘差信號計算器(2034)係經組配來分開處理各個子帶信號，因此針對多個子帶獲得第一組合信號及殘差信號，其中輸出介面(212)係經組配來用於針對子帶而組合編碼第一組合信號及編碼殘差信號。

雖然已經就裝置脈絡描述若干面相，但顯然此等面相也表示相應方法之描述，此處一區塊或一裝置係對應一方法步驟或一方法步驟之特徵。同理，於方法步驟之脈絡所描述之各面相也表示對應裝置之相應區塊或項目或結構特徵的描述。

於本發明之實施例中，應用窗形狀切換之適當處理。考慮第10a圖時，窗形狀資訊109可輸入虛擬頻譜計算器1001。更明確言之，執行實際值頻譜諸如MDCT譜(諸如第6a圖元件2070或第6b圖元件1160a)之實際至虛擬變換的虛擬頻譜計算器可實施為FIR濾波器或IIR濾波器。此種實際至虛擬模組1001中的FIR係數或IIR係數係取決於目前框左半及右半的窗形狀。針對正弦窗或KBD(凱塞貝索導向)窗，此種窗形狀可為不同，假設給定之窗序列組態，則窗形狀可為長窗、起始窗、中止窗、及中止-起始窗、或短窗。實際至虛擬模組可包含二維FIR濾波器，此處一維為時間維度，此處二接續MDCT框係輸入FIR濾波器，及第二維為頻率維度，此處輸入一框之頻率係數。

下表列舉針對窗左半及右半之不同窗形狀及不同實施例，一目前窗序列之不同MDST濾波係數。

此外，當前一個框用來從MDCT譜計算MDST譜時，窗形狀資訊109提供前一框的窗形狀資訊。針對前一框之相對應MDST濾波係數係給定於下表。

表B-前一框之MDST濾波參數

如此依據窗形狀資訊109而定，第10a圖之虛擬頻譜計算器1001藉施加不同濾波係數集合加以調適。

用在解碼器端之窗形狀資訊係在編碼器端計算，且連同編碼器輸出信號一起做為側邊資訊傳送。於解碼器端，窗形狀資訊109係藉位元串流解多工器(例如第5b圖之實例102)而從位元串流中抽取及提供給如第10a圖所示之虛擬頻譜計算器1001。

當窗形狀資訊109傳訊前一框具有不同變換尺寸時，較佳前一框並未用來從實際值頻譜計算虛擬頻譜。當經由解譯窗形狀資訊109發現下一框具有不同變換尺寸時亦為真。然後，下一框並未用來從實際值頻譜計算虛擬頻譜。於此種情況下例如當前一框具有與目前框不同的變換尺寸時，及下一框比較目前框再度具有不同變換尺寸時，只有目前框，亦即目前窗之頻譜值係用來估算虛擬頻譜。

編碼器之預測係基於未經量化或量化頻率係數，諸如MDCT係數。當例如利用第3a圖之元件2033進行預測係基於未經量化資料時，殘差計算器2034較佳也對未經量化資料操作，殘差計算器輸出信號亦即殘差信號205係在熵編碼之前量化及傳送至解碼器。但於另一實施例，較佳預測係基於量化MDCT係數。此時量化可在第3a圖之組合器2031之前進行，使得第一量化聲道及第二量化聲道為殘差信號的計算基礎。另外，量化也可在組合器2031之後進行，因此第一組合信號及第二組合信號係以未經量化形式計算且在殘差信號計算之前量化。再度，另外，預測器2033可在未經量化域操作，及預測信號2035係在輸入殘差計算器之前量化。然後也輸入殘差計算器2034之第二組合信號2032也在殘差計算器計算第6a圖之殘差信號070之前經量化，該量化可在第3a圖之預測器2033內部實施，針對解碼器端可利用的相同量化資料操作。然後可保證在編碼器估算用來進行殘差信號計算的MDST頻譜係恰為在解碼器端用來進行反預測，亦即用來從殘差信號計算側邊信號的MDST頻譜相同。為了達成此項目的，第一組合信號諸如第6a圖在譜線204上之信號M係在輸入區塊2070之前經量化。然後，MDST譜使用目前框之量化MDCT譜計算，及依據控制資訊而定，前一框或下一框之量化MDCT譜係輸入多工器2074，第6a圖之多工器2074之輸出信號再度為未經量化之頻譜。此種未經量化之頻譜將從輸入加法器2034b的頻譜中扣除，且最終將在量化器209b量化。

一個實施例中，每個預測帶之複合預測係數之實際部分及顯影部分係直接經量化及編碼，亦即例如不含MPEG環繞參數化。量化可使用例如0.1之階大小利用一致量化器進行。如此表示未施加任何對數量化階大小等，但可施加任何線性階大小。一個實施例中，複合預測係數之實際部分及虛擬部分之數值範圍係從-3至3，表示60量化階或取決於實施細節而定，61量化階係用在複合預測係數之實際部分及虛擬部分。

較佳第6a圖之多工器2073所施加之實際部分及第6a圖所施加之虛擬部分2074係在施加之前經量化，因此再度，解碼器端用來預測之相同值係用在編碼器端。如此保證除了所導入的量化誤差之外，預測殘差信號涵蓋當未經量化預測係數施加在編碼器端，而量化預測係數施加在解碼器端時可能出現的任何誤差。較佳量化係以下述方式施加，因此在編碼器端及解碼器端可利用相同情況及相同信號。因此，較佳係使用與施加之量化器209a的相同量化來將實際至虛擬計算器2070之輸入信號加以量化。此外，較佳係量化預測係數α之實際部分及虛擬部分來在項目2073及項目2074進行乘法。量化係與施加在量化器2072之量化相同。此外，第6a圖藉區塊2031輸出的側邊信號也可在加法器2034a及2034b之前量化。但，在加法之後藉量化器209b進行量化不成問題，此處藉加法器進行的加法係施加在未經量化側邊信號。

本發明之又一實施例中，當全部預測係數皆為實際時，應用廉價傳訊。可能為下述情況，對某框全部預測係數皆為實際，亦即對音訊信號之相同部分計算為實際。當完整中間信號及完整側邊信號並未彼此相移或只有小量相移時可能出現此種情況。為了節省位元，以單一實際指示器指示。然後，預測係數之虛擬部分無需在位元串流中以碼字組表示零值來傳訊。於解碼器端，位元串流解碼器介面諸如位元串流解多工器將解譯此實際指示器，然後搜尋碼字組之虛擬部分，但將假設在該位元串流相對應區段的全部位元為實際值預測係數位元。此外，當接收到指示該框內預測係數之全部虛擬部分為零時，預測器2033無需計算MDST譜，或通常為得自實際值MDCT譜之虛擬譜。如此，第6b圖解碼器之元件1160將被解除致動，將使用施加於第6b圖之多工器1160b的實際值預測係數來進行反預測。對編碼器端亦為真，此處元件2070將被解除致動，將只使用多工器2073進行預測。此種側邊資訊較佳係用作為每框之額外位元。解碼器將逐框讀取此一位元來判定實際至虛擬變換器1160a是否將對一框為可作用。如此，設此種資訊由於針對一框更有效率傳訊預測係數之全部虛擬部分為零，結果導致位元串流大小縮小，及此外，針對此種框提供解碼器複雜度減低，在由電池供電的行動裝置所實現的此種處理器將即刻導致電池耗電量的減低。

依據本發明之較佳實施例，複合立體聲預測為聲道間具有位階差及/或相角差的成對聲道有效率編碼之工具。使用複合值參數α，左聲道及右聲道透過下示矩陣重建。dmx_Im 表示與下混聲道dmx_Re 之MDCT相對應的MDST。

如上方程式為另一表示型態，其就α之實際部分及虛擬部分為分裂，且表示預測/組合之組合式操作方程式，其中預測信號S並非必要計算。

下列資料元件較佳係用在此種工具：

cplx_pred_all 　0：若干頻帶使用L/R編碼，如藉cplx_pred_used[]傳訊

1：全部頻帶使用複合立體聲預測

cplx_pred_used[g][sfb] 　每一框群組g及定標因數帶sfb的1-位元旗標(從預測帶對映後)指示

0：未使用複合預測，使用L/R編碼

1：使用複合預測

complex_coef 　0：對全部預測帶α_Im =0

1：對全部預測帶傳送α_Im

use_prev_frame 　0：只使用目前框用在MDST估算

1：使用目前框及前一框用在MDST估算

delta_code_time 　0：預測係數之頻差編碼

1：預測係數之時差編碼

hcod_alpha_q_re 　α_Re 之霍夫曼碼

hcod_alpha_q_im 　α_Im 之霍夫曼碼

此等資料元素係在編碼器計算及輸入立體聲或多聲道音訊信號之側邊資訊。各元素係在解碼器端藉側邊資訊抽取器而從側邊資訊抽取，及用來控制解碼器計算器執行相對應動作。

複合立體聲預測要求成對目前聲道之下混MDCT譜，於complex_coef==1之情況下，成對目前聲道之下混MDST譜之估值，亦即MDCT譜之虛擬對應部分。下混MDST估值係從目前框的MDCT下混信號估算，及於use_prev_frame==1之情況下，前一框的MDCT下混信號。窗群組g及群組窗b之前一框的MDCT下混信號係得自該框經重建的左頻譜及右頻譜。

於下混MDST估值之運算中，使用偶數值MDCT變換長度，其係取決於window_sequence，及filter_coefs及filter_coefs_prev，其為含有濾波器核心之陣列及其係依據先前各表而導算出。

針對全部預測係數，與前一(時間上或頻率上)值之差係使用霍夫曼碼簿編碼。對cplx_pred_used=0之預測帶並未傳送預測係數。

反量化預測係數alpha_re及alpha_im係藉下式給定

alpha_re=alpha_q_re*0.1

alpha_im=alpha_q_im*0.1

須強調本發明不僅適用於立體聲信號，亦即只有二聲道的多聲道信號，同時也適用於具有三或更多聲道之多聲道信號諸如5.1或7.1信號之兩個聲道。

本發明編碼音訊信號可儲存在數位儲存媒體，或可在傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路上傳送。

依據某些實現要求而定，本發明之實施例可在硬體或軟體實現。此項實現可使用其上儲存有電子可讀取控制信號之數位儲存媒體例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體，其與可規劃電腦系統協力合作(或可協力合作)因而執行個別方法實現。

依據本發明之若干實施例包含具有電子可讀取控制信號之非暫態或有形具體資料載體，其可與可規劃電腦系統協力合作，因而執行此處所述方法中之一者。

通常本發明實施例可實現為具有程式碼之電腦系統產品，當該電腦程式產品在電腦上跑時，該程式碼可操作用來執行該等方法中之一者。程式碼例如可儲存在機器可讀取載體上。

其它實施例包含儲存在機器可讀取載體上用來執行此處所述方法中之一者之電腦程式。

換言之，因此，本發明之一實施例為一種電腦程式，其具有程式碼當該電腦程式在電腦上跑時，該程式碼可用來執行此處所述方法中之一者。

因此，本發明方法之又一實施例為一種資料載體(或數位儲存媒體或電腦可讀取媒體)包含其上紀錄有用來執行此處所述方法中之一者的電腦程式。

因此本發明方法之又一實施例為一種表示用來執行此處所述方法中之一者的電腦程式之資料串流或信號序列。該資料串流或信號序列例如可組配來透過資料通訊連結例如透過網際網路傳送。

又一實施例包含一種處理裝置例如電腦或可程式邏輯裝置，其係組配來或調適來執行此處所述方法裝置一者。

又一實施例包含一種電腦，其上安裝有用來執行此處所述方法中之一者之電腦程式。

於若干實施例中，一種可規劃邏輯元件(例如場可規劃閘陣列)可用來執行此處所述方法功能之部分或全部。

於若干實施例中，場可規劃閘陣列可與微處理器協力合作來執行此處所述方法裝置一者。大致上，該等方法較佳係藉任一種硬體裝置執行。

前述實施例僅供舉例說明本發明之原理。須瞭解此處所述配置及細節之修改及變化為熟諳技藝人士顯然易知。因此意圖僅受隨附之申請專利範圍所限，而非受限於用來描述及解說此處實施例而呈現之特定細節。

50、51‧‧‧時/頻變換器

52、53‧‧‧頻/時變換器

55a、55b‧‧‧時域聲道信號

90‧‧‧頻譜線選擇器

100‧‧‧輸入線

102‧‧‧輸入介面、位元串流解多工器

104、210‧‧‧編碼第一組合信號

106、211‧‧‧編碼殘差信號

108‧‧‧線

109‧‧‧窗形狀資訊

110‧‧‧信號解碼器

110a、110b‧‧‧輸入解量化器

112‧‧‧解碼第一組合信號

114‧‧‧解碼殘差信號

116‧‧‧解碼器計算器

117、201‧‧‧第一聲道信號

118、202‧‧‧第二聲道信號

200‧‧‧多聲道音訊信號

203‧‧‧編碼器計算器

204、214‧‧‧第一組合信號

205‧‧‧預測殘差信號

206‧‧‧預測資訊、預測器控制資訊

207‧‧‧最佳化器

208‧‧‧最佳化目標

209‧‧‧信號編碼器

209a‧‧‧下混量化器

209b‧‧‧殘差量化器

212‧‧‧輸出介面、多工器

213‧‧‧編碼多聲道信號

215‧‧‧第二組合信號

500‧‧‧分析開窗器

501‧‧‧MDCT變換器

502、523‧‧‧窗長度/變換長度控制

520‧‧‧區塊

521‧‧‧合成開窗器

522‧‧‧重疊/加法處理器

600‧‧‧虛擬頻譜

700‧‧‧核心解碼器

701‧‧‧輸入端

702、703、710、711‧‧‧線

704、705‧‧‧QMF濾波器組

706‧‧‧MPEG環繞解碼器

707‧‧‧左聲道信號

708‧‧‧右聲道信號

709‧‧‧頻帶複製(SBR)解碼器

712、713‧‧‧QMF合成濾波器組

1000‧‧‧頻譜框選擇器

1001‧‧‧虛擬頻譜計算器

1002‧‧‧輸入端

1003‧‧‧控制資訊

1004、1005、1006、1007、1008‧‧‧區塊

1160‧‧‧預測器

1160a‧‧‧實際至虛擬變換器

1160b‧‧‧實際部分

1160c‧‧‧虛擬部分

1161‧‧‧組合信號計算器

1162‧‧‧組合器

1163‧‧‧預測信號

1165‧‧‧解碼第二組合信號

1166、1167‧‧‧輸出線

1168‧‧‧矩陣計算器

1169‧‧‧變換矩陣、矩陣操作

2031‧‧‧組合器

2032‧‧‧第二組合信號

2033‧‧‧預測器

2034‧‧‧殘差計算器、加法器

2034a、2034b‧‧‧加法器

2035‧‧‧預測信號

2039‧‧‧矩陣計算器

2070‧‧‧實際至虛擬變換器

2071‧‧‧α最佳化器階段

2072‧‧‧量化器/熵編碼器、量化/編碼(Q/C)模組

2073‧‧‧實際值因數、實際部分、乘法器

2074‧‧‧虛擬因數、虛擬部分、乘法器

後文將就附圖討論本發明之較佳實施例，附圖中：第1圖為音訊解碼器之一較佳實施例之略圖；第2圖為音訊編碼器之一較佳實施例之方塊圖；第3a圖例示說明第2圖之編碼器計算器之一實施例(音訊編碼器端)；第3b圖例示說明第2圖之編碼器計算器之另一實施例(音訊編碼器端)；第3c圖例示說明欲應用在編碼器端之中間/側邊組合規則；第4a圖例示說明第1圖之解碼器計算器之一實施例(音訊解碼器端)；第4b圖例示說明呈矩陣計算器形式之解碼器計算器之另一實施例(音訊解碼器端)；第4c圖例示說明第3c圖例示說明之組合規則相應的中間/側邊反組合規則；第5a圖例示說明於頻域操作之音訊編碼器之一實施例(編碼器端)，其較佳為實際值頻域；第5b圖例示說明於頻域操作之音訊解碼器之一實施例(解碼器端)；第6a圖例示說明於MDCT域操作及使用實際至虛擬變換之音訊編碼器之另一實施例(編碼器端)；第6b圖例示說明於MDCT域操作及使用實際至虛擬變換之音訊解碼器(解碼器端)；第7a圖例示說明運用立體聲解碼器及接續連結的SBR解碼器之音訊後處理器；第7b圖例示說明中間/側邊上混矩陣；第8a圖例示說明第6a圖之MDCT區塊之細節視圖；第8b圖例示說明第6b圖之MDCT^-1 區塊之細節視圖；第9a圖例示說明就MDCT輸出信號以減低的解析度操作之最佳化器之一實施例；第9b圖例示說明其中計算預測資訊之MDCT頻譜及相應減低的解析度頻帶之一表示型態；第10a圖例示說明第6a圖或第6b圖之實際至虛擬變換器之一實施例；及第10b圖例示說明第10a圖之虛擬頻譜計算器之可能實施例。

200．．．音訊編碼器

201．．．第一聲道

202．．．第二聲道

203．．．編碼器計算器

204．．．組合信號

205．．．殘差信號

206．．．預測資訊

207．．．最佳化器

208．．．最佳化目標

209．．．信號編碼器

210．．．第一編碼組合信號

211．．．編碼殘差信號

212．．．輸出介面

213．．．編碼多聲道信號

214．．．第一組合信號

215．．．第二組合信號

Claims

一種用以解碼一編碼多聲道音訊信號之音訊解碼器，該編碼多聲道音訊信號包含基於用以組合一多聲道音訊信號之一第一聲道音訊信號及一第二聲道音訊信號的組合規則所產生之一編碼第一組合信號、一編碼預測殘差信號、及預測資訊，該音訊解碼器包含：一信號解碼器，其係用以解碼該編碼第一組合信號而獲得一解碼第一組合信號，及用以解碼該編碼預測殘差信號而獲得一解碼殘差信號；及一解碼器計算器，其係用以使用該解碼殘差信號、該預測資訊及該解碼第一組合信號，而計算具有一解碼第一聲道信號及一解碼第二聲道信號之一解碼多聲道信號，使得該解碼第一聲道信號及解碼第二聲道信號為該多聲道信號之第一聲道信號及第二聲道信號之至少近似值，其中該預測資訊包含異於零之一實際數值部分及/或異於零之一虛擬部分。
如申請專利範圍第1項之音訊解碼器，其中該解碼器計算器包含：一預測器，其係用以施加該預測資訊至該解碼第一組合信號，或施加至從該解碼第一組合信號所導算出之一信號而獲得一預測信號；一組合信號計算器，其係用以藉由組合該解碼殘差信號與該預測資訊而計算一第二組合信號；及一組合器，其係用以將該解碼第一組合信號與該第二組合信號組合來獲得具有該解碼第一聲道信號及解碼第二聲道信號之一解碼多聲道音訊信號。
如申請專利範圍第1項之音訊解碼器，其中該編碼第一組合信號及編碼殘差信號已經使用一混頻產生時-頻變換而產生，其中該解碼器進一步包含：一頻-時變換器，其係用以運用匹配該時-頻變換演繹法則之一頻-時變換演繹法則而產生一時域第一聲道信號及一時域第二聲道信號；一重疊/加法處理器，其係用以針對該時域第一聲道信號及時域第二聲道信號進行一重疊-加法處理而獲得一無混頻之第一時域信號及一無混頻之第二時域信號。
如申請專利範圍第1項之音訊解碼器，其中該預測資訊包含異於零之一實際因數，其中該預測器係經組配來將該解碼第一組合信號乘以該實際因數而獲得該預測信號之一第一部分，及其中該組合信號計算器係經組配來線性組合該解碼殘差信號與該預測信號之第一部分。
如申請專利範圍第1項之音訊解碼器，其中該預測資訊包含異於零之一虛擬因數，及其中該預測器係經組配來運用該解碼第一組合信號之一實際部分而估算該解碼第一組合信號之一虛擬部分，其中該預測器係經組配來將該解碼第一組合信號之虛擬部分乘以該預測資訊之虛擬因數而獲得該預測信號之一第二部分；及其中該組合信號計算器係經組配來線性組合該預測信號之第一部分及該預測信號之第二部分與該解碼殘差信號而獲得一第二組合信號。
如申請專利範圍第1項之音訊解碼器，其中該編碼或解碼第一組合信號及該編碼或解碼預測殘差信號各自包含一第一多個子帶信號，其中該預測資訊包含一第二多個預測資訊參數，該第二多個係小於該第一多個，其中該預測器係經組配來施加相同預測參數至該解碼第一組合信號的至少兩個不同子帶信號，其中該解碼器計算器或該組合信號計算器或該組合器係經組配來執行逐一子帶處理；及其中該音訊解碼器進一步包含一合成濾波器組，其係用以將解碼第一組合信號之子帶信號與解碼第二組合信號之子帶信號組合而獲得一時域第一解碼信號及一時域第二解碼信號。
如申請專利範圍第2項之音訊解碼器，其中該預測器係經組配來使用一線性濾波器過濾至少兩個時間-接續框，此處該二時間-接續框中之一者係在該第一組合信號之一目前框之前或之後，而獲得該第一組合信號之一目前框之估算得的虛擬部分。
如申請專利範圍第2項之音訊解碼器，其中該解碼第一組合信號包含一串列實際值信號框，及其中該預測器係經組配來只使用該目前實際值信號框，或使用該目前實際值信號框與只有一或多個先行的或只有一或多個隨後的實際值信號框，或使用該目前實際值信號框與一或多個先行的實際值信號框或一或多個隨後的實際值信號框而估算該目前信號框之一虛擬部分。
如申請專利範圍第2項之音訊解碼器，其中該預測器係經組配來接收窗形狀資訊，及使用不同濾波係數用以計算一虛擬頻譜，此處該等不同濾波係數係取決於由窗形狀資訊所指示之不同窗形狀。
如申請專利範圍第7、8或9項之音訊解碼器，其中該解碼第一組合信號係與藉含括於該編碼多聲道信號中之一變換長度指示器所指示的不同變換長度相關聯，及其中該預測器係經組配來只使用該第一組合信號之具有相同的相關聯變換長度之一或多個框而估算針對該第一組合信號之一目前框之虛擬部分。
如申請專利範圍第2項之音訊解碼器，其中該預測器係經組配來使用該解碼第一組合信號的多個頻率上相鄰之子帶而估算該第一組合信號之虛擬部分，及其中於低頻或高頻之情況下，該第一組合信號之目前框之頻率對稱性擴延係用於低於或等於零的頻率或高於或等於目前框所植基的取樣頻率之半的頻率相關聯之子帶，或其中含括於該預測器之一濾波器的濾波係數針對遺漏子帶係設定為與非遺漏子帶不同值。
如申請專利範圍第1項之音訊解碼器，其中該預測資訊係以一量化及熵編碼表示型態而含括於該編碼多聲道信號，其中該音訊解碼器進一步包含用於熵解碼或解除量化之一預測資訊解碼器而獲得由該預測器所使用之一解碼預測資訊，或其中該編碼多聲道音訊信號包含一資料單元，其於第一狀態指示該預測器係欲使用時間上在該解碼第一組合信號之一目前框之前或之後的至少一個框，及其於第二狀態指示該預測器係欲使用該解碼第一組合信號之只有單一框用於針對該解碼第一組合信號之目前框之一虛擬部分的估算，及其中該預測器係經組配來用以感測該資料單元之一狀態及用以據此而操作。
如申請專利範圍第1項之音訊解碼器，其中該預測資訊包含時間循序的或頻率相鄰的複合值間之差的碼字組，及其中該音訊解碼器係經組配來執行一熵解碼步驟及一接續差解碼步驟而獲得時間循序的量化複合預測值或針對相鄰頻帶之複合預測值。
如申請專利範圍第1項之音訊解碼器，其中該編碼多聲道信號包含一實際指示器，其係指示針對該編碼多聲道信號之一框的全部預測係數皆為實際值，作為側邊資訊，其中該音訊解碼器係經組配來從該編碼多聲道音訊信號抽取該實際指示器，及其中該解碼器計算器係經組配來不計算一框之虛擬信號，針對該框，該實際指示器只指示實際值的預測係數。
一種用以編碼具有二或多個聲道信號之多聲道音訊信號之音訊編碼器，包含：一編碼器計算器，其係用以運用一第一聲道信號及一第二聲道信號及預測資訊來計算一第一組合信號及一預測殘差信號，使得該預測殘差信號當與從該第一組合信號所導算出之一預測信號或從該第一組合信號及預測資訊所導算出之一信號組合時，結果導致一第二組合信號，該第一組合信號及第二組合信號係使用一組合規則而可從該第一聲道信號及第二聲道信號所導算出；一最佳化器，其係用以計算該預測資訊，使得該預測殘差信號滿足一最佳化目標；一信號編碼器，其係用以編碼該第一組合信號及該預測殘差信號而獲得一編碼第一組合信號及一編碼預測殘差信號；及一輸出介面，其係用以組合該編碼第一組合信號、該編碼預測殘差信號及該預測資訊而獲得一編碼多聲道音訊信號。
如申請專利範圍第15項之音訊編碼器，其中該編碼器計算器包含：一組合器，其係用來以兩種不同方式組合該第一聲道信號及第二聲道信號而獲得該第一組合信號及第二組合信號；一預測器，其係用以施加該預測資訊至該第一組合信號或從該第一組合信號所導算出之一信號而獲得一預測信號；及一殘差信號計算器，其係用以藉由組合該預測信號與第二組合信號而計算該預測殘差信號。
如申請專利範圍第16項之音訊編碼器，其中該預測器包含一量化器，其係用以量化該第一聲道信號、第二聲道信號、第一組合信號或第二組合信號而獲得一或多個量化信號，及其中該預測器係經組配來使用量化信號而計算該預測殘差信號。
如申請專利範圍第15至17項中任一項之音訊編碼器，其中該第一聲道信號為一信號區塊之頻譜表示型態；其中該第二聲道信號為一信號區塊之頻譜表示型態；其中該頻譜表示型態係或為純粹實際頻譜表示型態或為純粹虛擬頻譜表示型態，其中該量化器係經組配來計算該預測資訊為異於零之實際值因數及/或為異於零之虛擬因數，及其中該編碼器計算器係經組配來計算該第一組合信號及預測殘差信號，使得該預測信號係運用該實際值因數而從該純粹實際頻譜表示型態或純粹虛擬頻譜表示型態所導算出。
如申請專利範圍第15項之音訊編碼器，其中該第一聲道信號為一信號區塊之頻譜表示型態；其中該第二聲道信號為一信號區塊之頻譜表示型態；其中該頻譜表示型態係或為純粹實際頻譜表示型態或為純粹虛擬頻譜表示型態，其中該量化器係經組配來計算該預測資訊為異於零之實際值因數及/或為異於零之虛擬因數，及其中該編碼器計算器包含一實際至虛擬變換器或一虛擬至實際變換器，其係用以從該第一組合信號而導算出一變換頻譜表示型態，及其中該編碼器計算器係經組配來計算該第一組合信號及第一殘差信號，使得該預測信號係運用該虛擬因數而從該變換頻譜所導算出。
如申請專利範圍第15項之音訊編碼器，其中一預測器係經組配來將該第一組合信號乘以該預測資訊之一實際部分而獲得該預測信號之一第一部分；用以使用該第一組合信號來估算該第一組合信號之一虛擬部分；用以將該第一組合信號之虛擬部分乘以該預測資訊之一虛擬部分而獲得該預測信號之一第二部分；及其中一殘差計算器係經組配來線性組合該預測信號之第一部分信號或該預測信號之第二部分信號與該第二組合信號而獲得該預測殘差信號。
一種用以解碼一編碼多聲道音訊信號之方法，該編碼多聲道音訊信號包含基於用以組合一多聲道音訊信號之一第一聲道音訊信號及一第二聲道音訊信號的組合規則所產生之一編碼第一組合信號、一編碼預測殘差信號、及預測資訊，該方法包含下列步驟：解碼該編碼第一組合信號而獲得一解碼第一組合信號，及用以解碼該編碼預測殘差信號而獲得一解碼殘差信號；及使用該解碼殘差信號、該預測資訊及該解碼第一組合信號，而計算具有一解碼第一聲道信號及一解碼第二聲道信號之一解碼多聲道信號，使得該解碼第一聲道信號及解碼第二聲道信號為該多聲道信號之第一聲道信號及第二聲道信號之至少近似值，其中該預測資訊包含異於零之一實際數值部分及/或異於零之一虛擬部分。
一種用以編碼具有二或多個聲道信號之多聲道音訊信號之方法，該方法包含下列步驟：運用一第一聲道信號及一第二聲道信號及預測資訊來計算一第一組合信號，使得一預測殘差信號當與從該第一組合信號所導算出之一預測信號或從該第一組合信號及預測資訊所導算出之一信號組合時，結果導致一第二組合信號，該第一組合信號及第二組合信號係使用一組合規則而可從該第一聲道信號及第二聲道信號所導算出；計算該預測資訊，使得該預測殘差信號滿足一最佳化目標；編碼該第一組合信號及該預測殘差信號而獲得一編碼第一組合信號及一編碼預測殘差信號；及組合該編碼第一組合信號、該編碼預測殘差信號及該預測資訊而獲得一編碼多聲道音訊信號。
一種電腦程式，其係用以於在一電腦或一處理器上執行時，執行如申請專利範圍第21項之方法或如申請專利範圍第22項之方法。
一種編碼多聲道音訊信號，其係包含基於用以組合一多聲道音訊信號之一第一聲道音訊信號及一第二聲道音訊信號的組合規則所產生之一編碼第一組合信號、一編碼預測殘差信號、及預測資訊。