TW201701271A - 解碼已編碼之音頻訊號之解碼器及編碼音頻訊號之編碼器 - Google Patents

解碼已編碼之音頻訊號之解碼器及編碼音頻訊號之編碼器 Download PDF

Info

Publication number
TW201701271A
TW201701271A TW105105525A TW105105525A TW201701271A TW 201701271 A TW201701271 A TW 201701271A TW 105105525 A TW105105525 A TW 105105525A TW 105105525 A TW105105525 A TW 105105525A TW 201701271 A TW201701271 A TW 201701271A
Authority
TW
Taiwan
Prior art keywords
conversion
core
channel
signal
time
Prior art date
Application number
TW105105525A
Other languages
English (en)
Other versions
TWI590233B (zh
Inventor
Christian Helmrich
Bernd Edler
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V
Friedrich-Alexander-Universitaet Erlangen-Nuernberg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V, Friedrich-Alexander-Universitaet Erlangen-Nuernberg filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V
Publication of TW201701271A publication Critical patent/TW201701271A/zh
Application granted granted Critical
Publication of TWI590233B publication Critical patent/TWI590233B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一種用於解碼一已編碼音頻訊號4之解碼器2,解碼器包括一適應性頻譜時間轉換器6以及一重疊相加處理器8,適應性頻譜時間轉換器用於利用一頻率到時間轉換方式,轉換頻譜值4’的連續塊到時間值10的連續塊,此外,自適應頻譜時間轉換器6係接收一控制資訊12,並對應該控制資訊12於一第一組轉換核心與一第二組轉換核心之間切換,第一組轉換核心包括一個以上之轉換核心,其在該核心的側邊具有不同的對稱,第二組轉換核心包括一個以上之轉換核心,其在該核心的側邊具有相同的對稱。再者,重疊相加處理器8用於重疊和相加時間值10的連續塊以獲得解碼音頻值14,其可以是一解碼音頻訊號。

Description

解碼已編碼之音頻訊號之解碼器及編碼音頻訊號之編碼器
本發明關於一種解碼已編碼之音頻訊號之解碼器及編碼音頻訊號之編碼器,實施例顯示一種用於音頻編碼之訊號適應性轉換核心切換之方法及裝置,換言之,本發明係關於音頻編碼,特別關於利用重疊轉換方式進行之感知音頻編碼,例如利用修飾離散餘弦轉換法(modified discrete cosine transform,MDCT)(文獻[1])。
所有現代的感知音頻編解碼器,包括MP3、Opus(使用CELT法)、該HE-AAC系列、以及最新的MPEG-H的3D音頻與3GPP增強語音服務(EVS)編解碼器,皆採用修飾離散餘弦轉換法來進行頻譜域量化及一個以上之聲道波形的編碼。這種合成版本的重疊轉換是利用一個長度-M頻譜規範,如下式所示: 其中,M=N/2,且N是時間窗的長度。在窗口後,時間輸出x i,n 與前一次時間輸出x i-1,n 可利用重疊與相加法(overlap-and-add,OLA)合併;C可以是一個大於0或小於等於1的固定參數,例如為2/N。
雖然上述式(1)之MDCT非常適用於在不同的位元率下進行任意多聲道的高品質音頻編碼,但仍有兩種情況下,編碼品質可能功虧一簣,包括:
●具有一定基本頻率之高度諧波訊號,其係通過MDCT進行採樣,因此每個諧波由多個MDCT音來表示,這導致在頻譜域的次優能量壓縮,即低編碼增益。
●具有在多聲道之MDCT音之間,大致90度的相位偏移的立體聲訊號,其無法應用於傳統M/S立體聲基準的聯合聲道編碼。更複雜的立體聲編碼涉及聲道間相位差(IPD)的編碼,其可以例如使用HE-AAC的參數立體聲或MPEG環繞來實現,但這樣的工具在一個單獨的濾波器組域,將增加操作的複雜性。
一些科學論文和文章曾提及MDCT或類似MDST操作,有時用不同的命名,如“重疊正交轉換(LOT)”、“擴展重疊轉換(ELT)”或“調製重疊轉換(MLT)”。只有文獻[4]中同時提到了幾個不同的重疊轉換,但其仍無法克服對MDCT的上述缺點。
因此,需要尋求一種改良的方法。
本發明之目的係提供一種處理音頻訊號的改良方法,且上述目的可以被本發明之申請專利範圍的獨立項解決。
本發明是基於研究而產生,此研究發現變換核心的訊號自適應改變或替換可以克服上述各種MDCT編碼的問題,根據實施例,本發明解決涉及通過統一MDCT編碼原理以包括其他三個類似的變換方式的傳統變換編碼方法,來解決上述兩個問題。延用上述合成式(1),本發明的概括式應定義為:
須注意者,式(1)中的常數1/2被常數k 0取代,而cos(...)函數亦被cs(...)函數取代,其中k 0與cs(...)皆選擇訊號自適應且情況自適應。
根據實施例,本發明針對MDCT編碼範例的修改可以適應於每一幀基礎上的即時輸入特性,使得例如先前描述的問題或情況得到解決。
本發明之實施例顯示一種解碼已編碼之音頻訊號的解碼器,其包括一個適應性頻譜-時間轉換器,用於轉換頻譜值的連續塊到時間值的連續塊,例如可利用頻率-時間轉換;該解碼器還包括一個重疊相加處理器,用於重疊和相加時間值的連續塊以獲得解碼音頻值;其更設置一自適應頻 譜-時間轉換器以接收控制資訊,並對應所述控制資訊於第一組轉換核心與第二組轉換核心之間切換,第一組轉換核心包括一個以上之轉換核心,其在核心的側邊具有不同的對稱,第二組轉換核心包括一個以上之轉換核心,其在核心的側邊具有相同的對稱;第一組轉換核心可以包括一個以上之轉換核心,其在核心的左側具有奇數對稱且在核心的右側具有偶數對稱,反之亦然,例如逆MDCT-IV或逆MDST-IV轉換核心;第二組轉換核心可以包括轉換核心,其在核心的兩側同時具有奇數對稱或偶數對稱,例如逆MDCT-II或逆MDST-II轉換核心。轉換核心類型II和IV將在後續進行更詳細地說明。
因此,對於具有節距至少接近等於變換的頻率分辨率的整數倍的高度諧波訊號,其可能頻域之轉換音的頻寬,相較於利用典型的MDCT來進行編碼訊號,使用第二組變換核心的一個變換核心,例如MDCT-II或MDST-II,來進行編碼訊號是比較有好處的。換言之,使用MDCT-II或MDST-II其中之一來編碼變換的頻率分辨率的整數倍的高度諧波訊號,比利用MDCT-IV進行轉換更有利。
其他實施例顯示一種解碼器,其係用以解碼多聲道訊號,例如立體聲訊號。舉例而言,對於立體聲訊號,中/側立體聲(M/S-stereo)處理通常優於傳統的左/右立體聲(L/R-stereo)處理。然而,如果這兩個訊號具有90°或270°的相移,則這種方法無法適用或至少是低劣的。根據實施例,較佳是利用基於MDST-IV編碼來對兩個聲道其中之一進行編碼,並仍然採用典型的MDCT-IV編碼來編碼另一個聲道,由於此會補償音頻聲道的90°或270°相移,所以會導致這兩個聲道之間有90°的相移。
其他實施例顯示一種編碼器,其用於編碼音頻訊號,編碼器包括一個自適應時間頻譜轉換器,用於將時間值的重疊塊轉換成頻譜值的連續塊。所述編碼器還包括一個控制器,用於控制時間頻譜轉換器切換於第一組變換核心與第二組變換核心之間。因此,該自適應時間頻譜轉換器接收一控制資訊,並對應於控制資訊於第一組轉換核心與第二組轉換核心之間切換,第一組轉換核心包括一個以上之轉換核心,其在核心的側邊具有不同的對稱,第二組轉換核心包括一個以上之轉換核心,其在核心的側邊具有相同的對稱;編碼器可相對於音頻訊號的分析而應用不同的變換核 心,因此,編碼器可應用已經描述於該解碼器的變換核心,根據實施例,編碼器應用MDCT或MDST運算,而解碼器應用其相關的逆運算,即IMDCT或IMDST變換。不同的變換核心將詳細於後。
在另一實施例中,編碼器包括一輸出介面,用於針對當前幀產生具有一控制資訊之一已編碼音頻訊號,其中控制資訊係指示用於生成當前幀之變換核心的對稱。輸出介面可以生成用於該解碼器之控制資訊,其能夠使用正確的轉換核心來解碼已編碼的音頻訊號,換句話說,解碼器必須應用與編碼器所使用的變換核心對應之逆變換核心,來解碼每個幀和聲道音頻訊號。這個資訊可以被存儲在控制資訊中,並可例如利用已編碼音頻訊號的一幀的控制資料段從編碼器傳輸到解碼器。
2‧‧‧解碼器
4‧‧‧音頻訊號
4’、4a’、4b’、4"、4a'''、4b'''、40a''''、40b''''‧‧‧頻譜值
6‧‧‧自適應頻譜時間變換器
7‧‧‧合成窗口
8‧‧‧重疊相加處理器
10‧‧‧時間值
12、12'、12a、12b‧‧‧控制資訊
14‧‧‧解碼音頻值
16‧‧‧位元流多工分解器
18‧‧‧頻譜解碼器
20‧‧‧映射器
22‧‧‧編碼器
24‧‧‧音頻訊號
26‧‧‧自適應時間頻譜轉換器
28‧‧‧控制器
30、30a、30b‧‧‧時間值
30'、30"‧‧‧塊
32‧‧‧輸出介面
34a‧‧‧IMDCT-IV
34b‧‧‧IMDCT-II
34c‧‧‧IMDST-IV
34d‧‧‧IMDST-II
35‧‧‧對稱軸
36a、36b、36c、36d、36e‧‧‧幀
38a、38b、38c‧‧‧線
40‧‧‧多聲道處理器
40a'''、40b'''‧‧‧已編碼聲道
42‧‧‧多聲道處理器
46‧‧‧編碼處理器
50、51‧‧‧時間/頻率轉換器、頻譜轉換器
52、53‧‧‧頻率/時間轉換器
55a‧‧‧時域第一聲道訊號
55b‧‧‧時域第二聲道訊號
102‧‧‧位元流解多工器
110a、110b‧‧‧逆量化器
114‧‧‧殘留訊號、線
116‧‧‧解碼器計算器
170‧‧‧重疊範圍
191、192、193、194‧‧‧塊
201‧‧‧窗口器
201‧‧‧第一聲道訊號
202‧‧‧第二聲道訊號、折疊器、窗口函數
203‧‧‧編碼器計算器、時間頻率轉換器、方塊
204‧‧‧第一組合訊號
205‧‧‧預測殘留訊號、殘留訊號
206‧‧‧預測資訊
207‧‧‧優化器
208‧‧‧最優化靶
209‧‧‧訊號編碼器
209a‧‧‧塊
209b‧‧‧量化器
210‧‧‧第一組合訊號、編碼訊號
211‧‧‧殘留訊號、編碼訊號、調節器
212‧‧‧輸出介面、位元流多工器、頻率時間轉換器
213‧‧‧折疊器、多聲道訊號
214‧‧‧窗口器、線、第一組合訊號
215‧‧‧線、第二組合訊號、塊
600‧‧‧虛部頻譜
1160‧‧‧塊、預測器
1160a‧‧‧實數到虛數變換器
1160b、1160c‧‧‧加權元件
1161‧‧‧塊、組合訊號計算器
1162‧‧‧塊、解碼器組合器、組合器
1163‧‧‧預測訊號、線
1165‧‧‧第二組合訊號
1166、1167‧‧‧線
1168‧‧‧矩陣計算器
1169‧‧‧矩陣運算
1500、1600‧‧‧方法
1505、1510、1515、1605、1610、1615‧‧‧步驟
2031‧‧‧組合器
2032‧‧‧第二組合訊號
2033‧‧‧預測器
2034‧‧‧剩餘計算器、加法器
2034b‧‧‧實值側頻譜
2035‧‧‧預測訊號
2039‧‧‧矩陣計算器
2070‧‧‧實部至虛部轉換器
2071‧‧‧優化器平台
2072‧‧‧量化/熵編碼器
2073‧‧‧實部係數、乘法器
2074‧‧‧虛部係數、乘法器
D‧‧‧殘留訊號、複合殘餘頻譜
S、M、L、R‧‧‧訊號
以下將參考附圖依序討論本發明的實施例,其中:圖1顯示用於解碼一已編碼音頻訊號之解碼器的方塊示意圖;圖2顯示一實施例之解碼器中的訊號流的方塊示意圖;圖3顯示一實施例之用於編碼音頻訊號之編碼器的方塊示意圖;圖4a顯示利用一示例性MDCT編碼器取得頻譜值之連續方塊示意圖;圖4b顯示輸入至一示例性MDCT編碼器之時域訊號的示意圖;圖5a顯示依據一實施例之示例性MDCT編碼器的方塊示意圖;圖5a顯示依據一實施例之示例性MDCT解碼器的方塊示意圖;圖6顯示四種敘述之重疊變換的隱式折疊性和對稱性;圖7顯示使用範例之二實施例,其中訊號自適應轉換核心切換係在允許完全重構下應用於從一幀至下一幀的轉換核心;圖8顯示用於解碼一多聲道音頻訊號之解碼器的方塊示意圖;圖9顯示一實施例之編碼器(如圖3所示)的方塊示意圖,其係延伸至多聲道處理;圖10顯示一實施例之音頻解碼器的方塊示意圖,其係用於編碼具有兩個以上聲道訊號之多聲道音頻訊號;圖11a顯示一實施例之編碼器演算子的方塊示意圖; 圖11b顯示一實施例之另一編碼器演算子的方塊示意圖;圖11c顯示一實施例中,在一結合子中將一第一聲道與一第二聲道結合之示例性結合規則的示意圖;圖12a顯示一實施例之解碼器演算子的方塊示意圖;圖12b顯示一實施例之矩陣演算子的方塊示意圖;圖12c顯示一實施例中,與圖11c所示之結合規則相對之示例性逆結合規則的示意圖;圖13a顯示一實施例之音頻編碼器之一示例的方塊示意圖;圖13b顯示對應於圖13a所示之音頻編碼器的一實施例之音頻解碼器的方塊示意圖;圖14a顯示一實施例之音頻編碼器之另一示例的方塊示意圖;圖14b顯示對應於圖14a所示之音頻編碼器的一實施例之音頻解碼器的方塊示意圖;圖15顯示一種解碼已編碼音頻訊號之方法的方塊示意圖;以及圖16顯示一種編碼音頻訊號之方法的方塊示意圖。
以下將詳細說明本發明之實施例,各圖式中相同的元件將以相同的參照符號加以說明。
圖1顯示一解碼器2的方塊示意圖,其係用於解碼已編碼的音頻訊號4。解碼器包括一自適應頻譜時間變換器6以及一重疊相加處理器8,自適應頻譜時間轉換器轉換頻譜值4’的連續塊到時間值10的連續塊,其可例如通過頻率時間變換進行。此外,自適應頻譜時間轉換器6接收一控制資訊12,並對應於控制資訊於第一組轉換核心與第二組轉換核心之間切換,第一組轉換核心包括一個以上之轉換核心,其在核心的側邊具有不同的對稱,第二組轉換核心包括一個以上之轉換核心,其在核心的側邊具有相同的對稱。此外,重疊相加處理器8重疊並相加時間值10的連續塊以獲得解碼音頻值14,其可以是一個解碼音頻訊號。
根據實施例,控制資訊12可包括當前位元,其指示用於當前幀之當前對稱,其中若當前位元指出當前對稱與前一幀的對稱相同時,自適 應頻譜時間轉換器6不會從第一組切換到第二組,換句話說,如果例如控制資訊12表示前一幀使用第一組的變換核心,且如果當前幀與前一幀具有相同的對稱性,例如若當前幀與前一幀的當前位元具有相同的狀態下,則採用第一組變換核心,也就是說,自適應頻譜時間轉換器不會從第一組變換核心切換到第二組變換核心。在其他狀況中,其係維持在第二組或是不從第二組切換到第一組,表示當前幀的當前對稱之當前位元表示使用一個不同的對稱性於進行之幀;換句話說,如果當前和先前對稱相同,且前一幀是使用第二組之變換核心進行編碼,則當前幀使用第二組之逆變換核心進行解碼。
此外,如果顯示當前幀之當前對稱的當前位元指示在進行之幀中使用不同的對稱,則自適應頻譜時間轉換器6可用以從第一組切換到第二組;更具體地說,當顯示當前幀之當前對稱的當前位元指示在前一幀中使用不同的對稱時,自適應頻譜時間轉換器6可用以將第一組切換到第二組。此外,當顯示當前幀之當前對稱的當前位元指示在前一幀中使用相同的對稱時,自適應頻譜時間轉換器6可以從第二組切換到第一組;更具體地說,如果當前幀與前一幀包含相同的對稱性,且前一幀是使用第二組變換核心作為其變換核心,則當前幀可以使用第一組變換核心作為其變換核心以進行解碼。控制資訊12可從已編碼音頻訊號4衍生出,或是通過單獨的傳輸聲道或載波訊號接收到,這將在下面加以詳細說明。而且,表示當前幀之當前對稱的當前位元可以是變換核心的右側的對稱性。
普林森和布拉德利在1986年發表的文章[文獻2]中描述採用一個三角函數(可以是餘弦函數或正弦函數)的兩個重疊變換,第一個重疊變換在文章中被稱為“基於DCT的”,其可以使用式(2)並設定cs()=cos()、且k 0=0,第二個重疊變換在文章中被稱為“基於DST的”,其可以使用式(2)並設定cs()=sin()、且k 0=1。由於它們各自分別與經常使用於圖像編碼的DCT-II和DST-II相似,所以這些通式(2)的具體例子可在本文件中分別視為“MDCT II型”和“MDST II型”變換。普林森和布拉德利繼續將其研究發表於1987年的論文[文獻3]中,他們提出式(2)的通案,其中cs()=cos()、且k 0=0.5,這如同式(1)所示,並通稱為“MDCT”。為了清楚說明並基於其與DCT-IV的關係,這種變換應該被稱為“MDCT IV型”於此。細心的讀 者將已經確定了剩餘的一種可能的組合,被稱為“MDST IV型”,是基於該DST-IV,其係採用式(2),其中cs()=sin()、且k 0=0.5。以下實施例將說明何時及如何於四個變換之間切換訊號自適應。
在此必須定義某些規則,以規定如何達成在四種不同的變換核心之間進行本發明的切換,藉以保留實現完美重構屬性(在沒有頻譜量化或其他引入的失真的情況下,分析並合成變換後,進行輸入訊號的相同重建),如[1-3]所示。為此,利用根據式(2)之合成變換的對稱擴展屬性是非常有用的,如圖6所示。
●MDCT-IV顯示其左側為偶對稱而其右側為奇對稱;合成訊號在此變換的訊號折疊中於其左側進行反轉。
●MDST-IV顯示其左側為奇對稱而其右側為偶對稱;合成訊號在此變換的訊號折疊中於其右側進行反轉。
●MDCT-II顯示其左側為奇對稱且其右側為奇對稱;合成訊號在此變換的訊號折疊中於其任一側皆未進行反轉。
●MDST-II顯示其左側為偶對稱且其右側為偶對稱;合成訊號在此變換的訊號折疊中於其兩側皆進行反轉。
此外,兩個實施例說明在解碼器中獲得控制資訊12。控制資訊可以包括例如k0的數值以及cs(),以便指定上述四個變換其中之一,因此,自適應頻譜時間轉換器可從已編碼音頻訊號讀取前一幀的控制資訊,並且從已編碼音頻訊號中讀取接續於前一幀的當前幀的控制資訊,其係為當前幀的控制資料區段。可選擇地,自適應頻譜時間轉換器6可從當前幀的控制資料區段讀出控制資訊12,並從前一幀的控制資料區段中取得前一幀的控制資訊,或是從用於前一幀的解碼器設定中取得前一幀的控制資訊,換言之,控制資訊可直接從當前幀的控制資料區段(如表頭)中獲得,或是從前一幀的解碼器設置中獲得。
以下將描述在一較佳實施例中,控制資訊的編碼器和解碼器之間變換,本節介紹如何將側邊資訊(即控制資訊)在編碼位元流中訊號化, 並以強化方式(例如對抗幀流失)進行推導並應用適當的變換核心。
根據一個較佳實施例中,本發明可以整合於MPEG-D USAC(延伸HE-AAC)或MPEG-H 3D音頻編解碼器,所確定的側資訊可以在所謂fd_channel_stream元件中傳送,其可用於每個頻域(FD)聲道和幀。更具體地,可(由一個編碼器)寫入一位元currAliasingSymmetry標誌,並在scale_factor_data()位元流之前或之後(由一個解碼器)讀出,如果給定的幀是一個獨立的幀,即indepFlag=1,則寫入並讀出另一個位元prevAliasingSymmetry,這確保了左側和右側對稱,並且因此即使在前幀於位元流傳輸中丟失,解碼器仍然可以利用應用於所述幀和聲道之最終變換核心進行辨識(並正常解碼);如果該幀不是一個獨立的幀,則不寫入和讀取prevAliasingSymmetry,但設定為等於先前幀中保存的值currAliasingSymmetry。根據另一實施例,可以使用不同的位元或標誌以指示該控制資訊(即側資訊)。
接著,對於cs()與k 0的值可分別並從標誌currAliasingSymmetry和prevAliasingSymmetry衍生,如表1所示,其中currAliasingSymmetry可縮寫為symm i ,而prevAliasingSymmetry可縮寫為symm i-1,換句話說,symm i 是在索引i中為當前幀的控制資訊,而和symm i-1是在索引i-1中為前一幀的控制資訊。表1顯示出解碼器側決策矩陣,其依據藉由傳輸及/或其他方式衍生所得之關於對稱的側資訊,來決定k 0與cs(...)的值。因此,自適應頻譜時間轉換器可依據表1應用變換核心。
最後,一旦cs()與k 0已在解碼器確定,可以利用適當的核心並 應用式(2)實現給定的幀與聲道的逆變換,在該合成變換之前和之後,解碼器可在本領域的狀態進行正常操作,並同樣相對於窗口。
圖2顯示根據一個實施例之解碼器中的訊號流的示意圖,其中實線表示的訊號,虛線表示側資訊,i表示幀索引,xi表示幀時間訊號輸出。位元流多工分解器16接收的頻譜值4'的連續塊和控制資訊12。在一實施例中,頻譜值4'的連續塊和控制資訊12被多工成一個共同訊號,其中所述位元流多工分解器係用以從共同訊號推導頻譜值的連續塊和控制資訊,頻譜值的連續塊可以進一步被輸入到頻譜解碼器18。此外,當前幀的控制資訊12與前一幀的控制資訊12'被輸入到映射器20,以應用在表1中所示之映射。在部份實施例中,前一幀的控制資訊12'可以從已編碼音頻訊號中導出,即頻譜值的前一個塊,或者使用應用於前一幀之解碼器的設定。包含參數cs和k 0的頻譜值4"和已處理的控制資訊12'的頻譜解碼連續塊被輸入到逆核心自適應重疊變換器,它可以是如圖1所示之自適應頻譜時間轉換器6。輸出可以是時間值10的連續塊,其可以任選地使用合成窗口7進行處理,例如可在輸入到重疊相加處理器8以執行重疊相加演算法推導出已解碼音頻值14之前進行處理,以便克服時間值的連續塊的邊界的不連續。映射器20和自適應頻譜時間變換器6可進一步移動到所述音頻訊號的解碼的另一個位置,因此,這些塊的位置是唯一的考量。此外,控制資訊可以使用相應的編碼器進行計算,其一個實施例可如圖3所述。
圖3顯示根據一個實施例之用於編碼音頻訊號的編碼器的示意圖。編碼器包括一自適應時間頻譜轉換器26和一控制器28,自適應時間頻譜轉換器26轉換時間值30的重疊塊,其例如包括塊30'和30",以形成頻譜值4'的連續塊。此外,自適應時間頻譜轉換器26接收一控制資訊12a,並對應控制資訊切換於第一組轉換核心與第二組轉換核心之間切換,第一組轉換核心包括一個以上之轉換核心,其在核心的側邊具有不同的對稱,第二組轉換核心包括一個以上之轉換核心,其在核心的側邊具有相同的對稱。此外,控制器係用以控制時間頻譜轉換器切換於第一組變換核心與第二組變換核心之間。可選擇地,編碼器22可包括一輸出介面32,用於產生已編碼音頻訊號,其具有針對當前幀之控制資訊12,以指示用於生成當前幀的變換核心的對稱,當前幀可以是頻譜值的連續塊的當前塊;輸出介面 可以包括當前幀的控制資料區段,具有用於當前幀和前一幀的對稱資訊,其中當前幀是一獨立幀,或是若當前幀是一非獨立幀時,在當前幀的控制資料區段中僅包括當前幀的對稱資訊,但未包括前一幀的對稱資訊。獨立幀例如包括一個獨立幀表頭,其係確保可以在沒有先前幀的資訊下進行當前幀的讀取;非獨立幀例如發生在具有可變位元率切換的音頻文件,因此非獨立幀幀必須在具有一個或多個先前幀的資訊的情況下才能進行讀取。
所述控制器可用以分析所述音頻訊號24,例如相對於以至少接近變換之頻率分辨率的整數倍的基頻。因此,控制器可以派生控制資訊12其係提供給自適應時間頻譜轉換器26,並選擇性提供給輸出介面32,控制資訊12可以指定第一組變換核心或第二組變換核心為適當的變換核心;第一組轉換核心可以包括一個以上之轉換核心,其在核心的左側具有奇數對稱且在核心的右側具有偶數對稱,反之亦然;第二組轉換核心可以包括一個以上之轉換核心,其在核心的兩側具有偶數對稱,或是在核心的兩側具有奇數對稱。換句話說,第一組變換核心可包括MDCT-IV變換核心或MDST-IV變換核心,或是第二組變換核心可包括MDCT-II變換核心或MDST-II變換核心。為進行已編碼音頻訊號的解碼,解碼器可應用與編碼器之變換核心相反之對應逆變換核心,因此,解碼器的第一組變換核心可包括逆MDCT-IV變換核心或逆MDST-IV變換核心,或是其第二組變換核心可包括逆MDCT-II變換核心或逆MDST-II變換核心。
換句話說,控制資訊12可包括當前位元,其指示用於當前幀的當前對稱。此外,若當前位指示在前一幀中使用相同的對稱,則自適應頻譜時間變換器6可以不從第一組變換核心切換到第二組變換核心,並且若當前位指示在前一幀中使用不相的對稱,則所述自適應頻譜時間轉換器可以從第一組變換核心切換到第二組變換核心。
此外,若當前位元指示前一幀使用不同的對稱,則自適應頻譜時間轉換器6可不從第二組變換核心切換到所述第一組變換核心,並且若當前位元指示前一幀使用相同的對稱,則自適應頻譜時間轉換器可從第二組變換核心切換到第一組變換核心。
接著,參考圖4a和4b以便在編碼器或分析側,或是在解碼器或合成側說明時間部分和塊的關係。
圖4b顯示第0時間部分至第三時間部分的示意圖,其中這些連續時間部分的每個時間部分具有一定的重疊範圍170,基於這些時間部分,表示連續塊的重疊時間部分的塊可參照如圖5a的處理方式而產生,其中圖5a顯示混疊導入變換操作的分析側。
特別是,圖4b顯示時域訊號,圖4b適用於分析側,其係被應用分析窗口之一窗口器201進行加窗,因此,為了獲得第0時間部分,例如,該窗口器應用分析窗口於2048個樣本,具體如樣本1至樣本2048,因此,N等於1024且一窗口具有一個2N個樣本之長度,這此係例如為2048。然後,窗口器進行另一個分析操作,但不是以第2049個樣本作為第一個樣本塊,而是以第1025個樣本作為第一個樣本塊,以獲得第一時間部分。因此,第一重疊範圍170具有1024個樣本的長度,而有50%的重疊。此過程可重複應用於第二級第三時間部分,且這些時間部分皆有重疊以取得一定的重疊範圍170。
須注意者,上述的重疊不一定必須是50%的重疊,其可以是高於和低於50%的重疊,並且甚至有可能是一個多層重疊,即多於兩個窗口的重疊,使得時域音頻訊號的樣本雖然沒有達到兩個窗口而只有達到頻譜值的連續塊,但可以讓後續樣本達到甚至多於兩個頻譜值的窗口/塊;另一方面,熟悉本領域技術者還理解,可以存在其他的窗口形狀,可應用於如圖5a所示之窗口器201,其具有0部分及/或具有統一值的部分。對於具有統一值的部分,這些部分通常與先前或後續窗口的0部分重疊,因此,設在一具有統一值之窗口的恆定部分的一特定音頻樣本,僅會達到單一塊的頻譜值。
然後,如圖4b所示之窗口化時間部分被轉發到折疊器202以執行折疊操作,這種折疊操作可以例如執行一折疊,使得在折疊器202之輸出,僅具有N個樣本之樣本值的塊存在。然後,在折疊器202進行折疊操作以後,使用一時間頻率轉換器,例如為DCT-IV轉換器,將在輸入的每個塊的N個樣本,在時間頻率轉換器203的輸出轉換到N個頻譜值。
因此,圖4a顯示在方塊203的輸出端獲得的連續塊的頻譜值,其具體地示出第一塊191具有相關聯之第一修飾值,如圖1a和1b的102所示,以及第二塊192具有相關聯之第二飾值,如圖1a和1b的106所。 當然,該序列具有更多塊193或194,其在第二塊之前或甚至在第一塊之前。變換如圖4b所示之窗口化第一時間部分可以是利用如圖5a所示之時間頻率轉換器203來進行如圖4b所示之窗口化第二時間部分而獲得,因此,在連續塊的頻譜值中,於時間上相鄰之兩個塊的頻譜值表示一重疊範圍,其覆蓋該第一時間部分及第二時間部分。
接著,參照圖5b說明編碼器一合成側或解碼器側處理的結果,或如圖5a的一個分析側處理。如圖5a所示之頻率轉換器203所輸出的頻譜值連續塊,輸入至調節器211。如前所述,頻譜值的各塊具有N個頻譜值,其係如圖4a至5b所示的例子,須注意者,其係與式(1)和式(2)不同,在此使用M;每個塊都有相關的修正值,如圖1a和1b所示之102和104。然後,在一個典型的IMDCT操作或冗餘還原合成變換中,進行頻率時間轉換器212、用以折疊之折疊器213提供合成窗口之窗口器214及如塊215所示之重疊/加法操作等操作,以便在重疊範圍取得時域訊號。相同的,在這個例子中,每塊有2N個值,因此,在各重疊和相加操作之後,可以獲得N個新的無混疊時域樣本,其中修改值102及104是不隨時間或頻率改變。然而,如果這些值可隨時間和頻率改變,則塊215的輸出訊號是不混疊的,但這個問題可以在如圖1b和1a所述之第一和第二態樣中解決,如在本說明書中其它圖中說明。
以下將說明利用圖5a及圖5b的方塊進行之程序。
所述之程序係參考MDCT,但其他混疊導入變換亦可以利用類似和類比的方式進行處理。作為重疊變換,與其它傅立葉相關變換相比,MDCT是有點不尋常,其具有一半的輸出作為輸入(而不是相同量),尤其是,其係為一個線性函數F:R2N →R N (其中R表示實數集)。2N個實數x0、...、x2N-1可根據以下公式變換成N個實數X0、...、XN-1: (在此轉換之前的正規化係數,於此統一為任意的公約,且在不同處理之間是不同的,只有MDCT和IMDCT的正規化的乘積受到約束。)
逆MDCT被稱為IMDCT,因為有不同數目的輸入和輸出,乍一看它似乎是對MDCT不應該是可逆的,然而,完美可逆性是通過將時間相鄰重疊塊的重疊IMDCT來達成,可導致誤差而取消,並可取得原始資料,這種技術被稱為時域混疊消除(TDAC)。
該IMDCT變換N個實數X0、...、XN-1成為2N個實數y0、...、y2N-1,此變換係依據下列公式: (例如DCT-IV,其係為一正交變換,此逆向轉換具有與正向變換相同的形式。)
具有一般窗口正常化之窗口化MDCT的情況下(見下文),在IMDCT之前的正常化係數應乘以2(即,成為2/N)。
在典型的訊號壓縮應用中,變換特性可進一步利用窗口函數wn(n=0、...、2N-1)改善,其係在上述MDCT和IMDCT公式中分別乘以xn和yn,以便解決在所述n=0和2N邊界的不連續性,並使得在那些點時函數可以平滑至零,(即,對MDCT之前和IMDCT後的資料分別有一個窗口)。原則上,x和y可具有不同的窗口函數,從一個塊到下一個塊時,窗口函數亦可改變(特別是在不同大小之資料塊進行組合的情況),但為了簡單起見僅考慮一般情況,其係採用相等大小塊的相同窗口函數。
用於對稱窗口wn=w2N-1-n,只要w滿足Princen-Bradley的條件,則變換保持可逆(即,TDAC程序): 可使用各種窗口函數,產生被稱為調變重疊變換的窗口可由下式表示 其係用於MP3與MPEG-2 AAC,且 用於Vorbis格式。AC-3使用Kaiser-Bessel衍生(KBD)窗口,MPEG-4 AAC也可以使用KBD窗。
須注意者,應用到MDCT之窗口與應用於某些其它類型的訊號分析的窗口不同,因為它們必須滿足Princen-Bradley的條件,此不同的原因之一是因為MDCT窗口被應用兩次,其分別用於MDCT(分析)和IMDCT(合成)。
如可通過定義的檢查可以看出,對於偶數N,MDCT實質上等同於一個的DCT-IV,其中輸入由N/2移位,且兩個N塊的資料可一次轉換。通過更仔細地研究這個公式,可以很容易地得出像TDAC這種重要的屬性。
為了定義與DCT-IV的精確關係,必須認識到DCT-IV相當於交替偶/奇邊界條件(即對稱條件):即在其左邊界(約n=-1/2)為偶,在其右邊界(大約n=N-1/2)為奇,依此類推(而不是週期性邊界作為用於DFT)。其可依據以下
因此,如果其輸入是一個長度為N的矩陣x,可以想見延伸此矩陣到(x、-xR、-x、xR、...)等,其中,xR表示xr具有反向階。
考慮具有2N個輸入和N個輸出的MDCT,其中,可將所述輸入分為四個塊(a、b、c、d),每個大小為N/2。如果這些書入向右側移動N/2(在MDCT定義中,可從的+N/2移動),則(b、c、d)延伸經過N個DCT-IV之輸入的一端,因此必須根據上述的邊界條件將其“折“回。
因此,MDCT的2N個輸入(a、b、c、d)是完全等同於DCT-IV的N個輸入:(-cR-d、a-bR),其中R表示如上之逆轉。
此為如圖5a之窗口函數202的示例,其中a是部分204b,而b是部分205a,c是部分205b,d是部分206a。
(以這種方式,任何計算DCT-IV的演算法可以平常地應用到MDCT)。
同樣地,上述IMDCT函數恰恰是DCT-IV的1/2(這是它自己的逆變換),其中輸出被延伸(經由邊界條件)至長度2N,並移回左邊N/2,此逆DCT-IV將簡單地從上述得到輸入(-cR-d,a-bR)。當這是通過邊界條件延伸並偏移,可獲得:IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2.
因此該IMDCT輸出的一半為多餘的,其係為b-aR=-(a-bR)R,並且其最後兩個參數亦相同。如果將輸入整合成更大的塊A、B,其大小為N,其中A=(a,b)且B=(c,d),則可簡化如下:IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
現在人們可以了解TDAC是如何工作的。假設計算的MDCT為時間相鄰是50%重疊,2N個塊(B,C),則接著將產生IMDCT,類似於上述(B-BR,C+CR))/2,當這是與先前IMDCT添加而導致重疊一半,反轉項目取消並可以簡單得到B,以恢復原始的資料。
“時間域混疊消除”一詞的起源現在很清楚。延伸超過邏輯DCT-IV邊界的輸入資料的使用使資料以相同的方式混疊(相對於擴展對稱性),該頻率超出奈奎斯特頻率來降低頻率,所不同的是這混疊出現在時域中,而不是在頻域:在此不能區分的a與bR在MDCT的(a,b,c,d)的比例,或等同地,得到IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2的結果,當加入時,c-dR等等的組合恰恰是告知結束組合的標誌。
對於奇數N(它們在實際中很少使用),N/2不是整數所以MDCT不是簡單的DCT-IV的移位置換。在這種情況下,可額外移動半個樣本,其表示MDCT/IMDCT變得等效於DCT-III/II,且其分析類似於以上所述。
我們已經看到上面的2N個輸入的MDCT(a,b,c,d)是相當於N個輸入的DCT-IV(-cR-d,a-bR),將DCT-IV是用在右側邊界為奇數的函數,因此右側邊界附近的值接近0。如果輸入訊號是平順的情況下,是這種情況:最右邊的a與bR的組合為在輸入序列(a,b,c,d)是連續的,因此它們的差是小的。讓我們來看看在間隔中間:如果重寫上述表達式為(-cR-d,a-bR)=(-d,a)-(b,c)R,第二項(b,c)R,可得到在中間的平滑過渡。 然而,在第一項(-d,a)中,可能有不連續,其中右端為-d可對應左側為a。因此,可以利用窗口函數將邊界附近的部件的輸入序列(a,b,c,d)朝0減少。
如上所述,TDAC屬性可在原始的MDCT得到證實,顯示出在其重疊一半加入時間相鄰塊的IMDCT可恢復原始資料,窗口化MDCT的這種逆屬性的推導只是稍微複雜一些。
考慮從上面的2N個輸入(A,B)與(B,C)的兩個重疊的連續組,得到塊A,B,C的大小為N,由此回推,若將(A,B)與(B,C)輸入到MDCT、IMDCT,並加入其重疊一半,可以得到原始資料(B+B R )/2+(B-B R )/2=B
現在,人們假設將MDCT的輸入和IMDCT的輸出與長度2N的窗口函數相乘,如上述,若使用一對稱窗口函數,其具有(W,W R )的格式,其中W是一個長度為N的矢量,R表示與先前相反,則然後Princen-Bradley的條件可以寫為W 2+=(1,1,...),與平方與相加係以元素進行。
因此,於此並非實行MDCT(A,B),而是利用窗口函數實行所有的乘法MDCT(WA,W R B),其係以元素進行。最後-N個的一半變為:W R .(W R B+(W R B) R )=W R .(W R B+WB R )=WR 2B+WW R B R (注意,一個不再具有由1/2相乘,因為IMDCT正常化不同於在窗口化例子的係數為2)
相同地,(B,C)的窗口化MDCT與IMDCT可在前N個的一半得到:W.(WB-W R B R )=W 2 B-WW R B R
當將這些半個加在一起,可以恢復原有的資料,因此當兩個交疊窗口半部滿足Princen-Bradley的條件時,可以重建窗口切換的內容。在此,混疊消除可以利用如上所述的方式處理,對於有多重疊之變換,可能需要兩個以上的分支,以使用所有參與增益值。
先前已經描述了MDCT的對稱性或邊界條件,或更具體地說,是MDCT-IV的對稱性或邊界條件,此描述也適用於本說明書中的其他變換核心,即MDCT-II、MDST-II和MDST-IV,然而,須注意者,仍然必須考慮不同變換核心的對稱或其它邊界條件。
圖6顯示四個所述重疊變換的隱式折疊性和對稱性(即邊界條件),此變換是由式(2)衍生,其係對四個變換中的每個進行第一合成基本函數的方式產生,IMDCT-IV 34a、IMDCT-II 34b、IMDST-IV 34c和IMDST-II 34d可從振幅時間的範例概略圖中得到。圖6清楚地表明於對稱軸35(即折疊點)的變換核心之偶對稱和奇對稱,其係在變換核心之間,如上所述。
時域混疊消除(TDAC)屬性指出,當OLA(overlap-and-add)處理期間,奇偶對稱擴展總結,這種混疊會被取消。換句話說,一具有奇數右側對稱變換之後應接著具有偶數左側對稱變換,反之亦然,以便進行TDAC。因此,我們可以說
●在(逆)MDCT-IV之後應接著(逆)MDCT-IV或(逆)MDST-II。
●在(逆)MDST-IV之後應接著(逆)MDST-IV或(逆)MDCT-II。
●在(逆)MDCT-II之後應接著(逆)MDCT-IV或(逆)MDST-II。
●在(逆)MDST-II之後應接著(逆)MDST-IV或(逆)MDCT-II。
圖7a與圖7b顯示兩個實施例的使用範例,其中訊號自適應變換核心切換係應用於從一幀到下一幀的變換核心,同時允許完美重建。換句話說,上面所說的兩種可能的序列變換序列在圖7舉例說明。其中,實線(如線38c)表示變換窗口,虛線38a表示變換窗口的左側混疊對稱,虛線38b表示變換窗口的右側混疊對稱。此外,對稱峰表示偶對稱,而對稱谷表示奇對稱。在圖7a中,幀i 36a和幀i+1 36b是MDCT-IV變換核心,其中幀i+2 36c使用MDST-I作為過渡,以便在幀i+3 36d使用MDCT-II變換核心。幀i+4 36e再次使用MDST-II(例如在MDST-IV之前),或是在幀i+5再次使用MDCT-II,圖7a未示。然而,圖7a清楚地表明,虛線38a和虛線38b可補償後續變換核心。換句話說,因虛線的和等於0,總結當前幀的左側混疊對稱性與前一幀的右側混疊對稱性導致了完美的時間域混疊消除(TDAC),該左右側混疊對稱性(或邊界條件)係關於折疊特性,如圖5a和圖5b所述,因此MDCT結果可以產生輸出,其包括從包括2N個樣本之輸入中的N個樣本。
圖7b是與圖7A相似,只能用不同序列的變換核心對應幀i到幀i+4,其中幀I 36a使用MDCT-IV,幀i+1 36b採用了MDST-II作為過渡到使用於幀i+2 36c的MDST-IV,幀i+3採用了MDCT-II變換核心,以便從幀i+3 36d的MDST-IV變換核心過渡到幀i+4 36e的MDCT-IV變換核心。
相關決策矩陣的變換序列係詳列於表1中。
實施例還顯示,如何應用該自適應變換核心切換,可以有利地在音頻編解碼器,如HE-AAC,中應用,以便減少甚至避免在開頭提到的兩個問題。下面將由傳統的MDCT進行次優編碼的高次諧波訊號的解決方式。到MDCT-II或MDST-II的自適應轉變可以由編碼器基於例如輸入訊號的基頻來執行。更具體地,當輸入訊號的間距是完全或非常接近變換(即一個在特定頻域中的帶寬變換音)之頻率分辨率的整數倍,MDCT-II或MDST-II可用於受影響的幀和聲道。然而,從MDCT-Ⅳ到MDCT-II直接過渡的變換核心是不可能的,或者至少不保證時域混疊消除(TDAC),因此,在此狀況下應該利用MDCT-II作為過渡;相反地,從MDST-II到傳統MDCT-IV的過渡(即切換回傳統MDCT編碼),最好是在其中間插入MDCT-II。
到目前為止,已經說明了對於單一音頻訊號的自適應變換核心開關,它增強了高度諧波音頻訊號的編碼,此外,它也可以容易地適用於多通道訊號,例如立體聲訊號。於此,自適應變換核心切換也是有利的,如果例如多聲道訊號的兩個以上之聲道彼此具有大約±90°的相移。
對於多聲道音頻處理,可適當使用一個音頻通道的MDCT-IV編碼和第二音頻通道的MDST-IV編碼,特別是如果兩個音頻通道具有編碼前大致±90度的相移,這個概念是有利的。因為相比時,MDCT-IV和MDST-IV應用90度的相移於一音頻訊號,在音頻訊號的兩個通道之間提供±90度的相移可在編碼後補償,即利用MDCT-IV的餘弦基函數和MDST-IV的正弦基函數之間的90度相位差的方式轉換成一個0或180度相移,因此,使用例如M/S立體聲編碼,音頻訊號的兩個通道可以編碼為中間訊號,其中,只有最小剩餘資訊需要在側訊號進行編碼,以便於上述轉換的情況下變成0度相移,反之亦然(在中間訊號的最小資訊),在轉換成為一個180度相移的情況下,從而實現最大通道壓實。與仍使用無損編碼方案之音頻聲道的 經典的MDCT-IV編碼相比,這可實現高達50%的頻寬減少。此外,它可以被認為是使用MDCT立體聲編碼結合的複合立體聲預測。這兩種方法可計算、編碼並從音頻訊號的兩個聲道傳送殘留訊號。此外,利用複雜的預測來計算預測參數,以便編碼音頻訊號,其中所述解碼器使用所發送的參數來對音頻訊號進行解碼。然而,使用例如MDCT-IV和MDST-IV的M/S編碼來編碼兩個音頻通道,已經詳述如前,僅需傳送關於所使用的編碼方案(MDCT-II、MDST-II、MDCT-IV或MDST-IV)的資訊,以便解碼器應用相關的編碼方案。由於複雜的立體聲預測參數應使用相對較高的分辨率進行量化,關於所使用的編碼方案的資訊可以例如被編碼至4位元,因為理論上,第一和第二聲道各別可以使用四個不同的編碼方案其中之一,結果可以有16個不同的可能狀態。
因此,圖8顯示一個解碼多聲道音頻訊號的解碼器2的示意圖,相比於圖1的解碼器,解碼器2還包括一個多聲道處理器40,用於接收頻譜值4a'''和4b'''的塊,其分別表示第一和第二多聲道,並依據聯合多聲道處理技術來處理所接收到的塊,以獲得頻譜值4a'''和4b'''的已處理塊,作為第一多聲道和第二多聲道,其中所述自適應頻譜時間處理器係使用控制資訊12a來處理第一多聲道的已處理塊4a''',並使用控制資訊12b來處理第二多聲道的已處理塊4b'''。多聲道處理器40可以應用,例如一左/右立體聲處理或中/側立體聲處理,或是多聲道處理器可應用複雜預測,其使用具有代表第一和第二多聲道之頻譜值的塊相關聯的複雜預測控制資訊。因此,多聲道處理器可以包括一固定預設或例如從控制資訊得到一個資訊,其係指示使用哪個處理方式來編碼音頻訊號。除了在控制資訊的單獨位元或字元,多聲道處理器可以例如獲得由本控制資訊中具有或缺少之多聲道處理參數,來取得資訊。換言之,多聲道處理器40可以應用在編碼器中執行的多聲道處理的逆操作,以恢復所述多聲道訊號的獨立聲道。進一步,多聲道處理技術如圖10至14所述。此外,參考符號被適應於多聲道處理,其中由字母“a”延伸的參考符號指示第一多聲道,由字母“b”延伸的參考符號指示第二多聲道,而且,多聲道不局限於兩個聲道,或立體聲處理,其亦可以通過延伸的兩個聲道的描繪處理被應用到三個或更多個聲道。
根據實施例,解碼器的多聲道處理器可以根據聯合多聲道處理 技術來處理接收到的塊。此外,所接收到的塊可以包括表示第一多聲道和第二多聲道的已編碼之殘留訊號。此外,多聲道處理器可用以利用所述殘留訊號計算第一多聲道訊號與第二多聲道訊號,以及另一編碼訊號。換句話說,殘留訊號可以是M/S的已編碼音頻訊號的側訊號,或當例如使用複雜的立體聲預測時,所述音頻訊號的一個聲道和該聲道之預設值之間的殘留,其係基於該音頻訊號的另一信道的預測。因此,多聲道處理器可轉換M/S或複雜的預測音頻訊號劃分成如L/R的音頻訊號用於進一步處理,例如使用逆變換核心。因此,當使用複雜的預測時,多聲道處理器可以使用殘留訊號和進一步編碼的音頻訊號,其可以是M/S編碼的音頻訊號的中間訊號或所述音頻訊號的一個(如MDCT編碼)聲道。
圖9顯示圖3的編碼器22,其延伸到多聲道處理。儘管圖中預見控制資訊12被包括在已編碼音頻訊號4,該控制資訊12亦可以使用例如一個單獨的控制資訊聲道進行傳輸。多聲道編碼器的控制器28可分析音頻訊號之時間值30a與30b的重疊塊,音頻訊號具有第一聲道和第二聲道,以確定第一聲道的一個幀的變換核心和相應的第二個聲道的一個幀的變換核心。因此,控制器可嘗試變換核心的每一組合以導出例如M/S編碼或複雜的預測變換的殘留訊號(以M/S編碼的側訊號)最小化的變換核心。最小殘留訊號是例如與剩餘的殘留訊號相比具有最低能量的殘留訊號,與量化更大的訊號相比,若可使用較少位元來量化較小訊號,對於殘留訊號的進一步量化是有利的。此外,控制器28可判斷用於第一聲道的第一控制資訊12a和用於第二聲道的第二控制資訊12b,其係被輸入到自適應時間頻譜轉換器26,適用於前面描述的變換核心的其中之一,因此,時間頻譜轉換器26可以被配置為處理一多聲道訊號的第一聲道和第二聲道。而且,多聲道編碼器還可以包括多聲道處理器42,用於處理第一聲道和第二聲道之頻譜值4a’和4b’的連續塊,其係利用聯合多聲道處理技術,例如,左/右立體聲編碼、中/側立體聲編碼或複雜的預測,以獲得頻譜值40a''''和40b''''的已處理塊。該編碼器還可以包括一個編碼處理器46,用於處理頻譜值之連續塊以獲得已編碼聲道40a'''和40b'''。編碼處理器可以使用例如損音頻壓縮或無損音頻壓縮方案來編碼音頻訊號,例如用於譜線、熵編碼、Huffman編碼、聲道編碼、塊碼或卷積碼例如標量量化,或應用前向糾錯和自動重 複請求。此外,有損音頻壓縮可指使用基於心理聲學模型的量化。
根據進一步的實施方案中,頻譜值的第一處理塊代表聯合多聲道處理技術的一第一編碼表示,頻譜值的第二處理塊代表聯合多聲道處理技術的一第二編碼表示。因此,編碼處理器46可以被配置成利用量化和熵編碼處理第一已處理塊,以形成第一編碼表示,並利用量化和熵編碼處理第二已處理塊,以形成第二編碼表示。第一編碼表示和第二編碼表示可以是表示編碼音頻訊號之位元流的形式。換句話說,第一處理塊可以包括M/S已編碼音頻訊號的中間訊號,或使用複雜的立體聲預測的編碼音頻訊號之一(例如MDCT)編碼聲道。此外,第二處理塊可以包括參數或複雜的預測或M/S編碼音頻訊號的側訊號的殘留訊號。
圖10顯示用於編碼具有兩個以上聲道訊號之多聲道音頻訊號200的音頻編碼器,其中第一聲道訊號以201表示,第二聲道訊號以202表示,這兩個訊號輸入到一編碼器計算器203,以利用所述第一信道訊號201和第二聲道訊號202及預測資訊206計算第一組合訊號204和預測殘留訊號205,當從第一組合訊號204所導出的預測訊號與預測資訊206結合,可產生第二組合訊號,其中所述第一組合訊號和第二組合訊號可使用一組合規則,從所述第一聲道訊號201和第二聲道訊號202推導而得。
由優化器207生成的預測資訊,其係用以計算預測資訊206,因此預測殘留訊號滿足最優化靶208,第一組合訊號204和殘留訊號205可輸入到一個訊號編碼器209,用於編碼所述第一組合訊號204以獲得已編碼第一組合訊號210,並用於編碼殘留訊號205以獲得已編碼殘留訊號211。接著,這兩個編碼訊號210及211被輸入到一個輸出介面212,用以結合已編碼第一組合訊號210與已編碼預測殘留組合訊號211和預測資訊206,以獲得已編碼多聲道訊號213。
根據不同的實施方式,優化器207接收所述第一聲道訊號201和第二聲道訊號202,或者依據線214和215所示,接收從如圖11a所示之組合器2031產生之第一組合訊號214和第二組合訊號215,組合器2031將在稍後討論。
圖10顯示一個優化目標,其中編碼增益被最大化,即位元率盡可能地降低,在這種優化目標,殘留訊號D相對於α被最小化,換句話說, 這意味著該預測資訊α被選擇,使得∥S-αM∥2最小化,這可以得到如圖110所示之α的解答,其中,訊號S與M是以逐塊的方式給出,且是頻譜域訊號,這裡的符號∥...∥指參數的2規範,其中<...>如常顯示了點積。當第一聲道訊號201和第二聲道訊號202被輸入到優化器207,那麼優化器必須應用該組合規則,其中一示例性組合規則係如圖11c所示。然而,當第一組合訊號214和第二組合訊號215被輸入到優化器207,那麼優化器207本身不需要實現此組合規則。
其它的優化目標可以涉及感知品質。一個優化目標可以是獲得最大的感知品質,然後,優化器將需要從感知模型取得附加資訊。優化目標的其他實施方式可以涉及獲得最小或固定的位元率。然後,優化器207可用來執行量化/熵編碼操作,以便判斷對某些α值必要的位元率,因此α可以設為滿足要求,如最小位元率,或者,一固定的位元率。優化目標的其他實現可以涉及到編碼器或解碼器的資源的最小使用量。未達上述優化目標,對於一定的優化的必要資源資訊將在優化器207另外提供,這些優化目標或其它優化目標的組合可以應用於控制優化器207,其係計算該預測資訊206。
如圖10所示之編碼器計算器203能夠以不同的方式實現,圖11a顯示一示例性第一實施,圖11b則顯示另一示例性實施,其係使用一矩陣計算器2039;如圖11b所示之組合器2031可用來執行如圖11c所示,其係為示例性的公知中/側編碼規則,其中加權因子為0.5,其係應用於所有分支。然而,在此亦可以使用其它的加權因子或不須任何加權因子,都可以據以實施。此外,這是應當注意,其他組合的規則,如其它線性組合的規則或非線性組合規則,亦可以應用,只要存在一個相應的逆組合規則,可應用於圖12所示的解碼器組合器1162,其適用的組合規則是與編碼器所應用的組合規則相反。由於聯合立體聲預測,任何可逆預測規則皆可以使用,由於經由預測,其在波形的影響是“平衡”的,即在所發送的殘留訊號中包含一錯誤,由優化器207並配合編碼器計算器203執行的預測操作,係為一個波形節約過程。
組合器2031輸出第一組合訊號204和第二組合訊號2032,第一組合訊號被輸入到一預測器2033,第二組合訊號2032被輸入到剩餘計算器 2034,預測器2033計算一預測訊號2035,其與所述第二組合訊號2032組合,最終得到殘留訊號205。特別是,組合器2031被配置用於組合多聲道音頻訊號的兩個聲道訊號201與202,其可依據兩個不同的方式進行,以獲得第一組合訊號204和第二組合訊號2032,其中兩個不同的方式係如圖11c的示範性實施例所述。預測器2033被配置用於提供所述預測資訊到第一組合訊號204或從第一組合訊號導出的訊號,以獲得預測訊號2035。從組合訊號導出的訊號可以通過任何非線性或線性操作衍生而得,其中較佳使用一個實部到虛部變換/虛部到實部轉換,可以使用一個線性濾波器,例如FIR濾波器執行特定值的加權加法來實現。
如圖11a所示之剩餘計算器2034可以執行減法操作,以使預測訊號2035從第二組合訊號中減去。但是,剩餘計算器亦可能進行其它操作。與此相對應,如圖12a所示之組合訊號計算器1161可以執行加法運算,其中解碼後的殘留訊號114和預測訊號1163相加,以獲得第二組合訊號1165。
解碼器計算器116可以用不同的方式來實現。圖12a顯示第一種實現方式,該實現方式包括一預測器1160、一組合訊號計算器1161以及一組合器1162,預測器接收已解碼之第一組合訊號112和預測資訊108,並輸出一預測訊號1163。具體地,預測器1160被配置用於提供該預測資訊108到已解碼之第一組合訊號112或從已解碼之第一組合訊號導出的訊號。用於導出該訊號道施加預測資訊108的推導規則,可以是實部到虛部變換,或同樣,一個虛部到實部變換或加權操作,或者根據不同的實施方式中,相移操作或組合的加權/相位移位操作。預測訊號1163連同解碼的殘留訊號被輸入到組合訊號計算器1161,以計算已解碼之第二組合訊號1165,訊號112和1165均輸入到組合器1162,它結合了解碼的第一組合訊號與第二組合訊號以獲得已解碼的多聲道音頻訊號,其係在輸出線1166和1167上具有所述解碼第一聲道訊號和解碼第二聲道訊號。另外,解碼器計算器可以實現為矩陣計算器1168,其係接收已解碼第一組合訊號或訊號M、已解碼的殘留訊號或訊號D、以及預測資訊108,以作為輸入。矩陣計算器1168適用所示的訊號M、D之變換矩陣1169,以獲得輸出訊號L、R,其中L是已解碼第一聲道訊號,而R是已解碼的第二聲道訊號。圖12b的符號顯示具有左聲道L和右聲道R的立體聲符號。這種表示法是為了提供更容易 理解被應用於立體聲符號,但很明顯對本領域技術人員而言,訊號L、R可以是任意組合在具有多於兩個聲道的訊號的多聲道訊號中的兩個聲道訊號。矩陣運算1169結合圖12a的塊1160、1161和1162的操作,形成一種“單次”矩陣計算,而進入圖12a之電路的輸入和來自圖12a之電路的輸出,與進入矩陣計算器1168的輸入和來自矩陣計算器1168的輸出是分別相同的。
圖12C示出了用於通過組合器1162在圖施加逆組合規則的例子。12A。具體地講,組合規則類似於公知的中/側編碼解碼器側合成規則,其中L=M+S,並且R=M-S。應該理解的是,訊號S所使用的逆圖中的組合規則。圖12C是通過組合訊號計算器計算的訊號,即預測訊號線1163和線114的解碼後的殘差訊號應該理解的是,在本說明書中,在線路的訊號有時通過參考命名為組合對於線或標記有時由標號本身,它們已被歸因於線表示。因此,該表示法是這樣的,具有一定訊號的線路被表示訊號本身。線路可以是硬連線實現一條物理線路。在計算機化的實施,然而,一個物理行不存在,而是由線表示的訊號從一個計算模塊傳送到另一個計算模塊。
圖13a顯示音頻編碼器的實施方案。與如圖11a所述之音頻編碼器相比,所述第一聲道訊號201是一時域第一聲道訊號55a的頻譜表示;相應地,第二聲道訊號202是一時域第二聲道訊號55b的頻譜表示。從時間域變換到頻譜表示的轉換可由第一聲道訊號之一時間/頻率轉換器50,以及第二聲道訊號之一時間/頻率轉換器51進行。有利的是,但不一定是,頻譜轉換器50、51被實現為實值轉換器。轉換演算法可以是離散餘弦變換、僅用於實部的FFT變換、MDCT或其它可提供實值頻譜值的變換。另外,這兩種變換能夠實現為一虛部的變換,諸如DST、MDST或僅用於虛部並捨棄實部的FFT,亦可以使用其他僅用於虛部的變換。使用單純用於實部或虛部的變換的一個目的是計算複雜性的考量,因為對於每個頻譜值,只有一個單一的值需要處理,如幅值或實部,或者是相位或虛部。在對比一個充分複合變換如FFT,兩個值,即每個譜線的實部和虛部,將必須被處理,因此其計算複雜性至少提供一定倍數,如2倍以上。在此使用實部變換的另一個原因是因為這樣的變換序列通常極其簡單,即使在間變換重疊 的狀況下亦然,因此提供了用於訊號量化和熵編碼的適用(和常用)域(用於MP3、AAC或類似的音頻編碼系統的標準“感知音頻編碼)。
圖13a還顯示剩餘計算器2034可作為加法器,其“正”輸入端接收側訊號,且其“負”輸入端接收由預測器2033輸出的預測訊號。此外,圖13a顯示預測器控制資訊從優化器轉發到輸出多工位元流之多工轉換器212,其表示該已編碼多聲道音頻訊號。具體地說,預測操作以這樣的方式進行,以便從中間訊號預測出側訊號,如圖13a右側的方程式表示。
預測器控制資訊206是如圖11b右側所示的一個因素。在一個實施例中,該預測控制資訊只包括一個實部,如一個複數α的實部或複數α的振幅,其中該部分對應於非零的一個因子,當其波形的結構使得中間訊號和側訊號是彼此相似但有不同的幅度,可以獲得一顯著的編碼增益。
然而,當該預測控制資訊僅包含第二部分,其可以是複數因子的虛部或複數係數,或是複數因子的相位資訊,其中虛部或相位資訊非為零,本發明可以達到訊號的顯著編碼增益,其相位互相移位,但其移位非為0度或180度,並且除了相移還具有相似波形的特性和類似的振幅關係。
預測控制資訊是複數,然後,針對不同振幅與不同相移的訊號可以獲得一個顯著編碼增益。在時間/頻率轉換提供複雜頻譜的情況中,操作2034將是一個複雜的操作,其中的預測器控制資訊的實部被施加到複雜頻譜M的實部,而複雜預測資訊的虛部被施加到複雜頻譜的虛部。然後,在加法器2034中,該預測運算的結果是一預測實部頻譜和一預測虛部頻譜,將預測實部頻譜從側訊號S(逐頻帶)的實部頻譜中減去,並且將預測虛部頻譜從側訊號S的頻譜的虛部中減去,以獲得複合殘餘頻譜D.時域訊號L和R是實值訊號,但頻域訊號可以是實值或複值。當時頻域訊號是實值時,該變換是一個實數值變換;當頻域訊號是複值時,則該變換是複數值變換。這意味著,輸入到時間頻率和頻率時間變換的輸出是實值,而頻域訊號可以例如是複值QMF域訊號。
圖13b顯示對應於圖13a所示之音頻編碼器的音頻解碼器。
由如圖13a所示之位元流多工器212輸出的位元流可輸入到如圖13b所示之位元流解多工器102。位元流解多工器102將位元流解多工成降混訊號M和殘留訊號D,降混訊號M輸入到逆量化器110a中,殘留訊 號D被輸入到逆量化器110b中。此外,位元流解多工器102將位元流之預測控制資訊108解多工,並將其輸入預測器1160,預測器1160輸出預測側訊號α~M,而結合器1161透過逆量化器110b結合殘留訊號與預測側訊號,最終可獲得重構的側訊號S。接著,將側訊號輸入到結合器1162,其係例如執行一個和/差處理,如圖12c所示的中/側編碼。具體地,塊1162執行(逆)中/側解碼,以獲得左聲道和右聲道的頻域表示,然後由頻率/時間轉換器52和53將相應的頻域表示轉換成時域表示。
依據系統的實現,當在頻域表示是實值表示時,頻率/時間轉換器52、53是實值頻率/時間轉換器,當頻域表示是一個複值表示時,複值頻率/時間轉換器。
然而,為了提高效率,最好可以執行另一實施例的實值變換,其編碼器係如圖14a所示,解碼器係如圖14b所示,實數值變換50和51由MDCT實現,即MDCT-IV,在本發明其亦可以是MDCT-II或MDST-II或MDST-IV。此外,該預測資訊被計算為具有實部和虛部的複值。因為這兩個光譜的M、S是實值頻譜,因此頻譜的沒有虛部存在,所以提供了一種實部至虛部轉換器2070,用以從訊號M的實值頻譜計算的預估虛部頻譜600,實部至虛部轉換器2070是優化器207的一部分,並且從塊2070預估出的預估虛部頻譜600連同實部頻譜M可輸入至α優化器平台2071,以便計算預測資訊206,其現在具有實部係數2073與虛部係數2074。在本實施例中,第一組合訊號M的實值頻譜與實部αR 2073相乘以獲得預測訊號,然後從實值側頻譜中減去預測訊號。此外,虛部頻譜600與虛部aI 2074相乘,以得到進一步的預測訊號,然後從實值側頻譜2034b中減去該預測訊號。然後,將預測殘留訊號D在量化器209b中量化,而M的實值頻譜在塊209a中進行量化/編碼。此外,較佳是在量化/熵編碼器2072進行量化和編碼預測資訊α的動作,以獲得轉發給如圖13a之位元流多工器212的編碼複雜α值,例如,其最終輸入到位元流中作為預測資訊。
關於該量化/編碼(Q/C)模組2072為α的位置,須注意者,乘法器2073和2074使用完全相同的(量化的)α,其亦同時應用於解碼器中。因此,可以直接移動2072至2071的輸出,或者可以考慮α的量化已在2071的優化過程中進行。
雖然可以在編碼器側計算複雜頻譜,因為所有的資訊皆可用,有利於在編碼器的塊2070進行實數到複數變換,以便產生與圖14b所示之解碼器相似的條件。解碼器接收第一組合訊號的實值編碼頻譜和編碼殘留訊號的實值頻譜表示。此外,在108獲得編碼複雜預測資訊,並且在塊65執行熵解碼與反量化,以獲得實部αR 1160b和虛部αI 1160c。由加權元件1160b和1160c輸出的中間訊號被添加到解碼和去量化預測殘留訊號。特別地,頻譜值輸入到加權器1160c,其中所述複雜預測因子的虛部被用作加權係數,其係由實數到虛數變換器1160a從實值頻譜M中導出,這是與如圖14a相關之編碼器側的塊2070相同的實施方式。在解碼器側,中間訊號或側訊號的複數值表示是不可行的,這是相對於編碼器側,其原因在於,基於位元率和複雜性的原因,只有編碼實值頻譜從編碼器傳送到解碼器。
實數到虛數變換器1160a或如圖14a所示之相應塊2070的實施係揭露於專利號WO2004/013839 A1或WO2008/014853 A1或美國專利號6,980,933,另外,本領域已知的任何其它實施方式亦可以應用。
實施方案還表明,該自適應變換核心切換如何有利地應用在音頻編解碼器,如HE-AAC,以盡量減少甚至避免於“習知技術”部分中提到的兩個問題。以下將利用大致90度的聲道間相移來處理立體聲訊號。於此,基於MDST-TV編碼的切換可以在兩個聲道之一被使用,而老式的MDCT-IV編碼可以在其他聲道被使用。或者,MDCT-II編碼可以用在一個聲道,而MDST-II編碼在其他聲道。鑑於餘弦和正弦函數是彼此90度相移的變數(cos(x)=sin(x+π/2)),輸入聲道頻譜之間的對應相移可以利用這種方式被轉換成0度或180度相移,它可以通過傳統的M/S基準聯合立體聲編碼進行非常有效地編碼。如前面的情況下通過經典的MDCT進行次優編碼的高度諧波訊號,中間過渡轉換可能是有利於受影響的聲道。
在這兩種情況下,對於高度諧波訊號和立體聲訊號以大致90°的聲道間相移,編碼器選擇4個核心其中之一進行每次變換(也參見圖7)。應用本發明的變換核心切換的各個解碼器可以使用相同的核心,因此可以正確地重構訊號。為了使這樣的解碼器知道對給定的幀使用哪些變換核心中的一個或多個逆變換,描述變換核心選擇或左、右側對稱選擇的側資訊應通過相應的編碼器至少針對每個幀傳輸一次,下一節將描述整合到(即 修正成)MPEG-H3D音頻編解碼器的情況。
進一步實施例涉及音頻編碼,特別涉及通過重疊變換的方式低速率感知音頻編碼,如修正離散餘弦變換(MDCT)。本實施例關於常規通過一般的MDCT編碼原則的變換編碼的兩個具體問題,其他三個變換亦有類似問題。實施例還顯示這四個變換核心之間的訊號和內容自適應切換中的每個編碼聲道或幀,或分別為每個在每個編碼聲道或幀的變換。對應側資訊之相對解碼器之核心選擇的訊號,可以利用編碼位元流進行發送。
圖15顯示一種解碼已編碼音頻訊號的方法1500的示意方塊圖,該方法1500包括一步驟1505,轉換頻譜值的連續塊成時間值的重疊連續塊;一步驟1510,重疊和相加時間值的連續塊,以獲得解碼音頻值;以及一步驟1515,接收控制資訊並對應於該控制資訊切換於第一組變換核心與第二組變換核心之間,第一組變換核心包括在核心側邊具有不同對稱的一個以上之核心,第二組變換核心包括在核心側邊具有相同對稱的一個以上之核心。
圖16表示一種編碼音頻訊號的方法1600的示意圖,該方法1600包括一步驟1605,變換時間值的重疊塊成頻譜值的連續塊;一步驟1610,控制時間頻譜變換以切換於第一組變換核心與第二組變換核心之間;以及一步驟1615,接收控制資訊並對應於該控制資訊及變換而切換於第一組變換核心與第二組變換核心之間,第一組變換核心包括在核心側邊具有不同對稱的一個以上之核心,第二組變換核心包括在核心側邊具有相同對稱的一個以上之核心。
但是應該理解的是,在本說明書中,在線路的訊號有時用參考符號的線路表示,有時是由參考符號本身表示,因此,具有一定訊號的線路即表示訊號本身。線路可以是由實體線路的硬體方式實現,然而在計算機化的實施方式,可以不採用實體線路,而是由線路表示的訊號從一個計算模組傳送到另一個計算模組。
雖然本發明已經藉由方塊示意圖之上下文進行描述,其中該等方塊代表實際或邏輯硬體元件,但是本發明亦可藉由一電腦實現方法而被實現。在後面的例子中,該等方法代表對應的方法步驟,其中這些步驟係支持由對應邏輯或實體硬體方塊所執行之功能性。
雖然一些方法係藉由一裝置之上下文來進行描述,但是清楚地,這些方法亦代表對應方法之一描述,其中一方塊或裝置係對應一方法步驟或一方法步驟之一特徵。類似地,由一方法步驟之上下文所描述的方法亦代表一對應裝置之一對應方塊、項目或特徵之一描述。部皆或全部的方法步驟可藉由(或使用)一硬體裝置而被執行,例如一微處理器、一可編程電腦或一電子電路。在一些實施例中,最重要的方法步驟之某個或多個可藉由這樣的裝置來執行。
本發明之被傳送或被編碼的訊號可被儲存於一數位儲存媒介上或可被傳送在一傳輸媒介上,例如一無線傳輸媒介或一有線傳輸媒介,例如網路。
依據某些實現需求,本發明之實施例可以硬體或軟體實現。該實現可藉由使用一數位儲存媒介而執行,例如一軟碟、一DVD、一藍光、一CD、一唯讀記憶體、一可編程唯讀記憶體、可消除可編程唯讀記憶體、一電子式可消除可編程唯讀記憶體或一快閃記憶體,其具有電子式可讀控制訊號儲存於其上,並可與一可編程電腦系統合作(或能夠合作),使得各別方法可被執行。如此,數位儲存媒介可為電腦可讀。
本發明之一些實施例係包含具有電子式可讀控制訊號之一資料戴體,其係能夠與一可編程電腦系統合作,使得本發明之該些方法之其中之一可被執行。
一般而言,本發明之實施例可被實現如同一電腦程式產品連同一程式碼,當電腦程式產品執行於一電腦上時,該程式碼係可執行該些方法之一。程式碼可例如被儲存於一機械可讀載體上。
其他實施例係包含電腦程式,其係為了執行本發明之方法之其中之一並儲存於一機械可讀載體。
換言之,本發明之方法之一實施例係因此為具有一程式碼之一電腦程式,以為了當電腦程式執行於一電腦時,其係執行本發明方法之一。
本發明之方法之另一實施例係因此為一資料載體(或一非暫態儲存媒介例如一數位儲存媒介或一電腦可讀媒介),其係包含,記錄於其上,為執行本發明方法之一之電腦程式。資料載體、數位儲存媒介或被記錄媒介係為典型地具體及/或非暫態。
本發明方法之另一實施例係因此為一資料流或一訊號序列(sequence of signals),其係代表用以執行本發明方法之一之電腦程式。資料流或訊號序列可例如經由一資料通訊連接而被傳送,例如經由網路。
另一實施例包含一處理手段,例如一電腦或一可編程邏輯裝置,可被配置或被適應於執行本發明方法之其中之一。
另一實施例係包含一電腦,其係具有電腦程式安裝於其上用以執行本發明方法之一。
本發明另一實施例係包含一裝置或一系統,其係可傳移(例如以電子式或光學式)用以執行本發明方法之一之一電腦程式到一接收器。 該接收器可例如為一電腦、一行動裝置、一記憶體裝置等等。裝置或系統可例如包含一檔案伺服器用以傳送電腦程式至接收器。
在一些實施例中,一可編程邏輯裝置(例如一現場可編程邏輯閘陣列)可被使用來執行本發明方法之部分或全部的功能性。在一些實施例中,一現場可編程邏輯閘陣列可與一微處理器合作以執行本發明方法之一。一般而言,該些方法較佳係藉由任何硬體裝置來執行。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
參考文獻
[1] H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
[2] J. P. Princen and A. B. Bradley, “Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation,” IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
[3] J. P. Princen, A. W. Johnson, and A. B. Bradley, “Subband/transform coding using filter bank design based on time domain aliasing cancellation,” in IEEE ICASSP, vol. 12, 1987.
[4] H. S. Malvar, “Lapped Transforms for Efficient Transform/Subband Coding,” IEEE Trans. Acoustics, Speech, and Signal Proc., 1990.
[5] http://en.wikipedia.org/wiki/Modified discrete cosine transform
2‧‧‧解碼器
4‧‧‧音頻訊號
4’‧‧‧頻譜值
6‧‧‧自適應頻譜時間變換器
8‧‧‧重疊相加處理器
10‧‧‧時間值
12‧‧‧控制資訊
14‧‧‧解碼音頻值

Claims (27)

  1. 一種解碼器(2),用以解碼一已編碼之音頻訊號(4),該解碼器包括:一適應性頻譜時間轉換器(6),用於轉換頻譜值(4’,4”)的連續塊到時間值(10)的連續塊;以及一重疊相加處理器(8),用於重疊和相加該時間值的連續塊以獲得解碼音頻值(14);其中,該自適應頻譜時間轉換器(6)係用以接收一控制資訊(12),並對應該控制資訊於一第一組轉換核心與一第二組轉換核心之間切換,該第一組轉換核心包括一個以上之轉換核心,其在該核心的側邊具有不同的對稱,該第二組轉換核心包括一個以上之轉換核心,其在該核心的側邊具有相同的對稱。
  2. 如申請專利範圍第1項所述之解碼器(2),其中該第一組轉換核心包括一個以上之轉換核心,其在該核心的左側具有奇數對稱且在該核心的右側具有偶數對稱,反之亦然;或該第二組轉換核心包括一個以上之轉換核心,其在該核心的兩側同時具有奇數對稱或偶數對稱。
  3. 如申請專利範圍第1項所述之解碼器(2),其中該第一組轉換核心包括一逆MDCT-IV轉換核心或一逆MDST-IV轉換核心;或該第二組轉換核心包括一逆MDCT-II轉換核心或一逆MDST-II轉換核心。
  4. 如申請專利範圍第1項所述之解碼器(2),其中該第一組轉換核心與該第二組轉換核心係依據下式: 其中,該第一組轉換核心的至少一轉換核心係基於以下參數:cs( )=cos( )且k0=0.5,或 cs( )=sin( )且k0=0.5,或其中,該第二組轉換核心的至少一轉換核心係基於以下參數:cs( )=cos( )且k0=0;或cs( )=sin( )且k0=1,其中,xi,n係為一時域輸出,C係為一固定參數,N係為一時間窗口長度,spec係為針對一塊具有M值得頻譜值,M係等於N/2,i係為一時間塊索引,k係為一表示頻譜值之頻譜索引,n係為表示一塊i之一時間值得一時間索引,以及no表示為0或整數之固定參數。
  5. 如申請專利範圍第1項所述之解碼器(2),其中控制資訊(12)包括一當前位元以表示對一當前幀的一當前對稱;以及其中,當該當前位元表示與前一幀使用相同對稱時,該自適應頻譜時間轉換器(6)係用以不從該第一組切換至該第二組;以及其中,當該當前位元表示與前一幀使用不同對稱時,該自適應頻譜時間轉換器(6)係用以從該第一組切換至該第二組。
  6. 如申請專利範圍第1項所述之解碼器(2),其中,當一當前位元表示一當前幀之一當前對稱與前一幀使用相同對稱時,該自適應頻譜時間轉換器(6)係用以從該第二組切換至該第一組;以及其中,當該當前位元表示該當前幀之一當前對稱與前一幀使用不同對稱時,該自適應頻譜時間轉換器(6)係用以不從該第一組切換至該第二組。
  7. 如申請專利範圍第1項所述之解碼器(2),其中,該自適應頻譜時間轉換器(6)係用以從該已編碼音頻訊號(4)中讀取 前一幀之該控制資訊(12),並從該已編碼音頻訊號中的該當前幀之一控制資料區段中讀取接著該前一幀之該當前幀的一控制資料(12);以及其中,該自適應頻譜時間轉換器(6)係用以從該當前幀之該控制資料區段中讀取該控制資訊(12),並從該前一幀之一控制資料區段中或從用於該前一幀之一解碼器設定中取得該前一幀之該控制資料(12)。
  8. 如申請專利範圍第1項所述之解碼器(2),其中,該自適應頻譜時間轉換器(6)係用以依據下表提供變換核心: 其中,symm i 是在索引i中為該當前幀的該控制資訊,而symm i-1是在索引i-1中為該前一幀的該控制資訊。
  9. 如申請專利範圍第1項所述之解碼器(2),更包含一多聲道處理器(40),用於接收頻譜值的塊,其分別表示一第一多聲道和一第二多聲道,並依據一聯合多聲道處理技術來處理所接收到的塊,以獲得頻譜值的已處理塊,作為該第一多聲道和該第二多聲道,其中該自適應頻譜時間處理器(6)係用以使用該第一多聲道之控制資訊來處理該第一多聲道的該已處理塊,並使用該第二多聲道之控制資訊來處理該第二多聲道的該已處理塊。
  10. 如申請專利範圍第9項所述之解碼器(2),其中該多聲道處理器係用以 應用複雜預測,其使用具有代表該第一多聲道和該第二多聲道之該頻譜值的塊相關聯的一複雜預測控制資訊。
  11. 如申請專利範圍第9項所述之解碼器(2),其中該多聲道處理器係用以依據該聯合多聲道處理技術來處理所接收到的塊,其中該所接收到的塊包括該第一多聲道之一表示之一和該第二多聲道之一表示的已編碼殘留訊號,其中該多聲道處理器係用以利用該殘留訊號與另一已編碼訊號來計算該第一多聲道訊號與該第二多聲道訊號。
  12. 一種編碼器(22),用於編碼一音頻訊號(24),包括:一自適應時間頻譜轉換器,用以轉換時間值(30)的重疊塊,以形成頻譜值(4’,4”)的連續塊;以及一控制器(28),用以控制該自適應時間頻譜轉換器切換於一第一組轉換核心與一第二組轉換核心之間;其中,該自適應時間頻譜轉換器係用以接收一控制資訊(12),並對應該控制資訊切換於該第一組轉換核心與該第二組轉換核心之間,該第一組轉換核心包括一個以上之轉換核心,其在核心的側邊具有不同的對稱,該第二組轉換核心包括一個以上之轉換核心,其在核心的側邊具有相同的對稱。
  13. 如申請專利範圍第12項所述之編碼器(22),更包括一輸出介面(32),用於產生一已編碼音頻訊號,其具有針對一當前幀之一控制資訊(12),以指示用於生成該當前幀的該變換核心的一對稱。
  14. 如申請專利範圍第13項所述之編碼器(22),其中當該當前幀是一獨立幀時,該輸出介面(32)更用以將具有用於該當前幀和該前一幀的一對稱資訊包含於該當前幀之一控制資料區段,或是當該當前幀是一非獨立幀時,在該當前幀的該控制資料區段中僅包括該當前幀的對稱資料, 但未包括該前一幀的對稱資料。獨立幀例如包括一個獨立幀表頭,其係確保可以在沒有先前幀的資訊下進行當前幀的讀取;非獨立幀例如發生在具有可變位元率切換的音頻文件,因此非獨立幀幀必須在具有一個或多個先前幀的資訊的情況下才能進行讀取。
  15. 如申請專利範圍第12項所述之編碼器(22),其中該第一組轉換核心包括一個以上之轉換核心,其在該核心的左側具有奇數對稱且在該核心的右側具有偶數對稱,反之亦然;或該第二組轉換核心包括一個以上之轉換核心,其在該核心的兩側同時具有奇數對稱或偶數對稱。
  16. 如申請專利範圍第12項所述之編碼器(22),其中該第一組轉換核心包括一MDCT-IV轉換核心或一MDST-IV轉換核心;或該第二組轉換核心包括一MDCT-II轉換核心或一MDST-II轉換核心。
  17. 如申請專利範圍第12項所述之編碼器(22),其中該控制器(28)係設置,以便在一MDCT-IV之後接著一MDCT-IV或一MDST-II,或是在一MDST-IV之後接著一MDST-IV或一MDCT-II,或是在一MDCT-II之後接著一MDCT-IV或一MDST-II,或是在一MDST-II之後接著一MDST-IV或一MDCT-II。
  18. 如申請專利範圍第12項所述之編碼器(22),其中該控制器(28)係用以分析時間值(30)之重疊塊,其具有一第一聲道與一第二聲道,以便判斷用於該第一聲道之一幀以及用於該第二聲道之一對應幀的該轉換核心。
  19. 如申請專利範圍第12項所述之編碼器(22),其中該自適應時間頻譜轉換器(26)適用於處理一多聲道訊號的一第一聲道和一第二聲道,且其中該編碼器(22)更包括一多聲道處理器(40),用於利用一聯合多聲道處理技術處理該第一聲道和該第二聲道之頻譜值的連續塊,以獲得頻譜值 的已處理塊,以及一編碼處理器(46),用於處理頻譜值之該連續塊,以獲得已編碼聲道。
  20. 如申請專利範圍第12項所述之編碼器(22),其中頻譜值的該第一處理塊代表該聯合多聲道處理技術的一第一編碼表示,頻譜值的該第二處理塊代表該聯合多聲道處理技術的一第二編碼表示,其中,該編碼處理器(46)被配置成利用量化和熵編碼處理該第一已處理塊,以形成該第一編碼表示,且該編碼處理器(46)被配置成利用量化和熵編碼處理該第二已處理塊,以形成該第二編碼表示,該編碼處理器(46)被配置成利用該第一編碼表示和該第二編碼表示來形成該編碼音頻訊號之一位元流。
  21. 一種用以解碼一已編碼之音頻訊號(4)的方法(1500),包括:轉換頻譜值的連續塊到時間值的連續塊;重疊和相加該時間值的連續塊以獲得解碼音頻值;以及接收一控制資訊,並對應該控制資訊於一第一組轉換核心與一第二組轉換核心之間切換,該第一組轉換核心包括一個以上之轉換核心,其在該核心的側邊具有不同的對稱,該第二組轉換核心包括一個以上之轉換核心,其在該核心的側邊具有相同的對稱。
  22. 一種用於編碼一音頻訊號之方法(1600),包括:轉換時間值的重疊塊,以形成頻譜值的連續塊;控制切換於一第一組轉換核心與一第二組轉換核心之間;以及接收一控制資訊,並對應該控制資訊切換於該第一組轉換核心與該第二組轉換核心之間,該第一組轉換核心包括一個以上之轉換核心,其在核心的側邊具有不同的對稱,該第二組轉換核心包括一個以上之轉換核心,其在核心的側邊具有相同的對稱。
  23. 一種電腦程式,當執行於一電腦或一處理器時,其係執行申請專利範圍第21項或第22項之方法。
  24. 一種如申請專利範圍第1項之裝置,其中多聲處理表示到一聯合立體聲處理或一聯合處理兩個以上之聲道,其中一多聲道訊號具有兩個或兩個以上之聲道。
  25. 一種如申請專利範圍第12項之裝置,其中多聲處理表示到一聯合立體聲處理或一聯合處理兩個以上之聲道,其中一多聲道訊號具有兩個或兩個以上之聲道。
  26. 一種如申請專利範圍第21項之方法,其中多聲處理表示到一聯合立體聲處理或一聯合處理兩個以上之聲道,其中一多聲道訊號具有兩個或兩個以上之聲道。
  27. 一種如申請專利範圍第22項之方法,其中多聲處理表示到一聯合立體聲處理或一聯合處理兩個以上之聲道,其中一多聲道訊號具有兩個或兩個以上之聲道。
TW105105525A 2015-03-09 2016-02-24 解碼器及其解碼方法、編碼器及其編碼方法、電腦程式 TWI590233B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15158236 2015-03-09
EP15172542.1A EP3067889A1 (en) 2015-03-09 2015-06-17 Method and apparatus for signal-adaptive transform kernel switching in audio coding

Publications (2)

Publication Number Publication Date
TW201701271A true TW201701271A (zh) 2017-01-01
TWI590233B TWI590233B (zh) 2017-07-01

Family

ID=52692422

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105105525A TWI590233B (zh) 2015-03-09 2016-02-24 解碼器及其解碼方法、編碼器及其編碼方法、電腦程式

Country Status (15)

Country Link
US (5) US10236008B2 (zh)
EP (3) EP3067889A1 (zh)
JP (3) JP6728209B2 (zh)
KR (1) KR102101266B1 (zh)
CN (2) CN112786061B (zh)
AR (1) AR103859A1 (zh)
AU (1) AU2016231239B2 (zh)
CA (1) CA2978821C (zh)
ES (1) ES2950286T3 (zh)
MX (1) MX2017011185A (zh)
PL (1) PL3268962T3 (zh)
RU (1) RU2691231C2 (zh)
SG (1) SG11201707347PA (zh)
TW (1) TWI590233B (zh)
WO (1) WO2016142376A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI720530B (zh) * 2018-07-04 2021-03-01 弗勞恩霍夫爾協會 使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112019009315A2 (pt) * 2016-11-08 2019-07-30 Fraunhofer Ges Forschung aparelho e método para mixagem de redução ou mixagem de aumento de um sinal de múltiplos canais com o uso de compensação de fase
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
KR20200000649A (ko) 2018-06-25 2020-01-03 네이버 주식회사 오디오 병렬 트랜스코딩을 위한 방법 및 시스템
CN110660400B (zh) 2018-06-29 2022-07-12 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
CN110830884B (zh) * 2018-08-08 2021-06-25 瑞昱半导体股份有限公司 音频处理方法与音频均衡器
KR102470429B1 (ko) * 2019-03-14 2022-11-23 붐클라우드 360 인코포레이티드 우선순위에 의한 공간 인식 다중 대역 압축 시스템
US11032644B2 (en) * 2019-10-10 2021-06-08 Boomcloud 360, Inc. Subband spatial and crosstalk processing using spectrally orthogonal audio components
CN110855673B (zh) * 2019-11-15 2021-08-24 成都威爱新经济技术研究院有限公司 一种复杂多媒体数据传输及处理方法
KR20220018271A (ko) * 2020-08-06 2022-02-15 라인플러스 주식회사 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
US20240120941A1 (en) * 2021-02-18 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Encoding and decoding complex data
CN113314130B (zh) * 2021-05-07 2022-05-13 武汉大学 一种基于频谱搬移的音频对象编解码方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
FR2680924B1 (fr) 1991-09-03 1997-06-06 France Telecom Procede de filtrage adapte d'un signal transforme en sous-bandes, et dispositif de filtrage correspondant.
JP2642546B2 (ja) * 1991-10-15 1997-08-20 沖電気工業株式会社 視覚特性の算出方法
US5890106A (en) 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
US6199039B1 (en) * 1998-08-03 2001-03-06 National Science Council Synthesis subband filter in MPEG-II audio decoding
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6496795B1 (en) 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US7006699B2 (en) * 2002-03-27 2006-02-28 Microsoft Corporation System and method for progressively transforming and coding digital data
US20030187528A1 (en) 2002-04-02 2003-10-02 Ke-Chiang Chu Efficient implementation of audio special effects
DE10234130B3 (de) 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
CN100492492C (zh) 2002-09-19 2009-05-27 松下电器产业株式会社 音频解码设备和方法
RU2374703C2 (ru) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US20050265445A1 (en) * 2004-06-01 2005-12-01 Jun Xin Transcoding videos based on different transformation kernels
CN101025919B (zh) * 2006-02-22 2011-04-20 上海奇码数字信息有限公司 音频解码中的合成子带滤波方法和合成子带滤波器
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
RU2451998C2 (ru) * 2007-09-19 2012-05-27 Квэлкомм Инкорпорейтед Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
WO2009100021A2 (en) * 2008-02-01 2009-08-13 Lehigh University Bilinear algorithms and vlsi implementations of forward and inverse mdct with applications to mp3 audio
MY181247A (en) 2008-07-11 2020-12-21 Frauenhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
JP5597968B2 (ja) 2009-07-01 2014-10-01 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
DK2556504T3 (en) * 2010-04-09 2019-02-25 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Encoding
AU2011240239B2 (en) * 2010-04-13 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
WO2012039920A1 (en) * 2010-09-22 2012-03-29 Dolby Laboratories Licensing Corporation Efficient implementation of phase shift filtering for decorrelation and other applications in an audio coding system
WO2013107602A1 (en) 2012-01-20 2013-07-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
GB2509055B (en) 2012-12-11 2016-03-23 Gurulogic Microsystems Oy Encoder and method
JP6089878B2 (ja) * 2013-03-28 2017-03-08 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI720530B (zh) * 2018-07-04 2021-03-01 弗勞恩霍夫爾協會 使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法

Also Published As

Publication number Publication date
RU2691231C2 (ru) 2019-06-11
JP7126328B2 (ja) 2022-08-26
JP2022174061A (ja) 2022-11-22
JP2020184083A (ja) 2020-11-12
JP2018511826A (ja) 2018-04-26
US20200372923A1 (en) 2020-11-26
CN112786061B (zh) 2024-05-07
ES2950286T3 (es) 2023-10-06
US11854559B2 (en) 2023-12-26
EP4235656A3 (en) 2023-10-11
CA2978821A1 (en) 2016-09-15
US20170365266A1 (en) 2017-12-21
US10706864B2 (en) 2020-07-07
US10236008B2 (en) 2019-03-19
US20220238125A1 (en) 2022-07-28
EP3268962C0 (en) 2023-06-14
AR103859A1 (es) 2017-06-07
JP6728209B2 (ja) 2020-07-22
WO2016142376A1 (en) 2016-09-15
TWI590233B (zh) 2017-07-01
CN107592938B (zh) 2021-02-02
SG11201707347PA (en) 2017-10-30
US20240096336A1 (en) 2024-03-21
RU2017134619A (ru) 2019-04-04
MX2017011185A (es) 2018-03-28
US20190172473A1 (en) 2019-06-06
CA2978821C (en) 2020-08-18
CN107592938A (zh) 2018-01-16
KR102101266B1 (ko) 2020-05-15
BR112017019179A2 (pt) 2018-04-24
AU2016231239A1 (en) 2017-09-28
US11335354B2 (en) 2022-05-17
RU2017134619A3 (zh) 2019-04-04
AU2016231239B2 (en) 2019-01-17
EP3067889A1 (en) 2016-09-14
CN112786061A (zh) 2021-05-11
EP4235656A2 (en) 2023-08-30
EP3268962A1 (en) 2018-01-17
KR20170133378A (ko) 2017-12-05
EP3268962B1 (en) 2023-06-14
PL3268962T3 (pl) 2023-10-23

Similar Documents

Publication Publication Date Title
TWI590233B (zh) 解碼器及其解碼方法、編碼器及其編碼方法、電腦程式
US11881225B2 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CA2804907C (en) Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
TWI466106B (zh) 音訊或視訊編碼器、音訊或視訊解碼器及用以利用可變預測方向來處理多頻道音訊或視訊信號的相關方法
BR112017019179B1 (pt) Decodificador para decodificar um sinal de áudio codificado e codificador para codificar um sinal de áudio
WO2013146895A1 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体