TWI634548B - 用以在多聲道編碼中施以立體聲充填之裝置及方法 - Google Patents

用以在多聲道編碼中施以立體聲充填之裝置及方法 Download PDF

Info

Publication number
TWI634548B
TWI634548B TW106104736A TW106104736A TWI634548B TW I634548 B TWI634548 B TW I634548B TW 106104736 A TW106104736 A TW 106104736A TW 106104736 A TW106104736 A TW 106104736A TW I634548 B TWI634548 B TW I634548B
Authority
TW
Taiwan
Prior art keywords
channel
channels
decoded
pair
processed
Prior art date
Application number
TW106104736A
Other languages
English (en)
Other versions
TW201740368A (zh
Inventor
薩斯洽 迪克
克里斯汀 赫姆瑞區
尼可拉斯 瑞德貝曲
佛羅瑞恩 夏赫
理查 富格
費德瑞克 納吉爾
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201740368A publication Critical patent/TW201740368A/zh
Application granted granted Critical
Publication of TWI634548B publication Critical patent/TWI634548B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

提出用於解碼一目前時框之一經編碼之多聲道信號以獲得三或多個目前音訊輸出聲道的一設備。一多聲道處理器係適用以取決於第一多聲道參數而自三或多個經解碼聲道選擇兩個經解碼聲道。再者,該多聲道處理器係適用以基於該等經選取之聲道生成一第一組二或多個經處理聲道。一雜訊充填模組係適用以針對該等經選取之聲道中之至少一者,識別一或多個頻帶,於其內部全部頻譜線皆被量化至零,及取決於邊帶資訊,使用已經解碼之三或多個先前音訊輸出聲道之一適當子集而生成一混合聲道,及以使用該混合聲道之頻譜線生成的雜訊充填於其內部全部頻譜線皆被量化至零的頻帶之頻譜線。

Description

用以在多聲道編碼中施以立體聲充填之裝置及方法
本發明係有關於音訊信號寫碼,及特別,係有關於用以在多聲道編碼中施以立體聲充填之裝置及方法。
音訊編碼為處理有關探勘音訊信號中之冗餘及不相干性的壓縮領域。
於MPEG USAC中(例如,參考[3]),二聲道的聯合立體聲編碼係使用複合預測、MPS 2-1-2或使用頻帶受限制或全頻帶殘差信號之統一立體聲進行。MPEG環繞(例如,參考[4])階層式組合一對二(OTT)及二對三(TTT)框用於有或無殘差信號之發射的多聲道音訊之聯合編碼。
於MPEG-H中,四聲道元件階層式施以MPS 2-1-2立體聲框接著複合預測/MS立體聲框建立固定4x4重新混合樹(例如,參考[1])。
AC4(例如,參考[6])介紹新穎3-、4-及5- 聲道元件其允許透過發射混合矩陣重新混合經發射之聲道及隨後聯合立體聲編碼資訊。又復,先前公開文獻提示使用正交變換例如KLT(Karhunen-Loève變換)用於加強多聲道音訊編碼(例如,參考[7])。
舉例言之,於3D音訊脈絡中,揚聲器聲道分布於數個高度層,結果導致水平及垂直聲道對。如於USAC中定義,只聯合編碼二聲道不足以考慮聲道間之空間與知覺關係。MPEG環繞係於額外前-/後-處理步驟中施加,殘差信號係個別發射而沒有聯合立體聲編碼的可能,例如,探勘左及右垂直殘差信號間之相依性。於AC-4中介紹專用N-聲道元件其允許聯合編碼參數之有效編碼,但未能用於通俗揚聲器配置具有更多聲道,如針對新穎沈浸式回放情境(7.1+4、22.2)提示者。MPEG-H四聲道元件也受限於只有4聲道及無法動態地應用至任意聲道,反而只有經預先組配的固定數目之聲道。
MPEG-H多聲道編碼工具允許產生離散編碼立體聲框,亦即聯合編碼聲道對的任意樹,參考[2]。
音訊信號編碼中常見的問題係因量化,例如頻譜量化所致。量化可能導致頻譜孔。舉例言之,於一特定頻帶中的全部頻譜值因量化結果在編碼器端上可被設定為零。舉例言之,此等頻譜線之確切值在量化之前可以相當低及然後量化可導致一種情況,於該處例如,於一特定頻帶中的全部頻譜線之頻譜值已被設定為零。當解碼時,在解碼器端上如此可能導致非期望的頻譜孔。
近代頻域語音/音訊編碼系統諸如IETF之Opus/Celt編解碼器[9]、MPEG-4(HE-)AAC[10]、或特別MPEG-D xHE-AAC(USAC)[11]提供取決於信號的時間穩定性,使用一個長變換-長區塊-或八個循序短變換-短區塊-來編碼音訊框之手段。此外,用於低位元率編碼,此等方案提供使用相同聲道的假隨機雜訊或低頻係數來重建一聲道的頻率係數之工具。於xHE-AAC中,此等工具分別稱作雜訊充填及頻帶複製。
然而,對於極為調性或暫態的立體聲輸入,單獨雜訊充填及/或頻帶複製限制了於極低位元率可達成的編碼品質,大半原因在於二聲道有太多頻譜係數須被明確地發射故。
MPEG-H立體聲充填為參數工具,其仰賴使用先前時框的縮混以改良於頻域中由量化引起的頻譜孔之充填。類似雜訊充填,立體聲充填直接在MPEG-H核心編碼器之MDCT域中操作,參考[1]、[5]、[8]。
然而於MPEG-H中使用MPEG環繞及立體聲充填受限於固定聲道對元件,因而無法探勘時變聲道間相依性。
於MPEG-H中之多聲道編碼工具(MCT)允許適應各種聲道間相依性,但因於典型操作組態中使用單一聲道元件,故不允許立體聲充填。先前技術未曾揭示感官上優化方式以於時變任意聯合編碼聲道對之情況下生成先前時框的縮混。使用雜訊充填作為立體聲充填的替代 組合MCT以充填頻譜孔將導致雜訊假影,特別對調性信號尤為如此。
本發明之目的係提出改良的音訊編碼構想。本發明之目的係藉依據請求項1之用於解碼之設備、藉依據請求項15之用於編碼之設備、藉依據請求項18之用於解碼之方法、藉依據請求項19之用於編碼之方法、藉依據請求項20之電腦程式及藉依據請求項21之經編碼之多聲道信號而予解決。
提出一種用於解碼一目前時框之一目前經編碼之多聲道信號以獲得三或多個目前音訊輸出聲道之設備。一多聲道處理器係適用以取決於第一多聲道參數自該集合之三或多個經解碼聲道選擇兩個經解碼聲道。再者,該多聲道處理器係適用以基於該經選取聲道生成一第一組之二或多個經處理聲道。一雜訊充填模組係適用以針對該經選取聲道中之至少一者,識別於其內部全部頻譜線皆被量化至零的一或多個頻帶,及用以取決於該邊帶資訊,使用已被解碼的該等三或多個先前音訊輸出聲道之一適當子集而生成一混合聲道,及用以使用該混合聲道之頻譜線所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的該等一或多個頻帶之該等頻譜線。
依據實施例,提出一種用於解碼一先前時框之一先前經編碼之多聲道信號以獲得三或多個先前音訊 輸出聲道及用於解碼一目前時框之一目前經編碼之多聲道信號以獲得三或多個目前音訊輸出聲道之設備。
該設備包含一介面、一聲道解碼器、用於生成該等三或多個目前音訊輸出聲道的一多聲道處理器、及一雜訊充填模組。
該介面係適用以接收該目前經編碼之多聲道信號,及用以接收包含第一多聲道參數之邊帶資訊。
該聲道解碼器係適用以解碼該目前時框之該目前經編碼之多聲道信號以獲得該目前時框之一集合之三或多個經解碼聲道。
該多聲道處理器係適用以取決於該等第一多聲道參數而自該集合之三或多個經解碼聲道選擇一第一經選取對之兩個經解碼聲道。
再者,該多聲道處理器係適用以基於該第一經選取對之兩個經解碼聲道生成一第一組之二或多個經處理聲道以獲得一已更新集合之三或多個經解碼聲道。
在該多聲道處理器基於該第一經選取對之兩個經解碼聲道生成該第一對之二或多個經處理聲道之前,該雜訊充填模組係適用以針對該第一經選取對之兩個經解碼聲道中之該等二聲道中之至少一者,識別於其內部全部頻譜線皆被量化至零的一或多個頻帶,及用以使用二或多個,但非全部該等三或多個先前音訊輸出聲道生成一混合聲道,及用以使用該混合聲道之頻譜線所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的該等一或多 個頻帶之該等頻譜線,其中該雜訊充填模組係適用以選擇該等二或多個先前音訊輸出聲道其係使用於取決於該邊帶資訊而自該等三或多個先前音訊輸出聲道生成該混合聲道。
由載明如何生成及充填雜訊的雜訊充填模組可採用的實施例之特定構想係稱作立體聲充填。
再者,提出一種用於編碼具有至少三個聲道之一多聲道信號之設備。
該設備包含一迭代處理器係適用以於一第一迭代步驟中,計算各對之該等至少三個聲道間之聲道間相關性值,用以於該第一迭代步驟中,選擇具有一最高值或具有高於一臨界值之一值的一對,及用以使用一多聲道處理操作處理該經選取對以推衍用於該經選取對之初始多聲道參數及推衍第一經處理聲道。
該迭代處理器係適用以於一第二迭代步驟中使用該等經處理聲道中之至少一者進行該計算、該選擇及該處理以推衍進一步多聲道參數及第二經處理聲道。
再者,該設備包含一聲道編碼器係適用以編碼藉該迭代處理器進行一迭代處理所得的聲道以獲得經編碼聲道。
又復,該設備包含一輸出介面係適用以生成具有該經編碼聲道、該等初始多聲道參數及該等進一步多聲道參數的一經編碼多聲道信號,且具有一資訊指示一用於解碼之設備是否須以基於先前已經藉該用於解碼之設 備解碼的先前已解碼音訊輸出聲道所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
再者,提出一種用於解碼一先前時框之一先前經編碼之多聲道信號以獲得三或多個先前音訊輸出聲道及用於解碼一目前時框之一目前經編碼之多聲道信號以獲得三或多個目前音訊輸出聲道之方法。該方法包含:
-接收該目前經編碼之多聲道信號,及接收包含第一多聲道參數之邊帶資訊。
-解碼該目前時框之該目前經編碼之多聲道信號以獲得該目前時框之一集合之三或多個經解碼聲道。
-取決於該等第一多聲道參數而自該集合之三或多個經解碼聲道選擇一第一經選取對之兩個經解碼聲道。
-基於該第一經選取對之兩個經解碼聲道生成一第一組之二或多個經處理聲道以獲得一已更新集合之三或多個經解碼聲道。
在該第一對之二或多個經處理聲道係基於該第一經選取對之兩個經解碼聲道生成之前,進行下列步驟:
-針對該第一經選取對之兩個經解碼聲道中之該等二聲道中之至少一者,識別於其內部全部頻譜線皆被量化至零的一或多個頻帶,及使用二或多個,但非全部該等三或多個先前音訊輸出聲道生成一混合聲道,及使 用該混合聲道之頻譜線所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的該等一或多個頻帶之該等頻譜線,其中選擇該等二或多個先前音訊輸出聲道其係被使用於取決於該邊帶資訊而自該等三或多個先前音訊輸出聲道生成該混合聲道。
又復,提出一種用於編碼具有至少三個聲道之一多聲道信號之方法。該方法包含:
-於一第一迭代步驟中,計算各對之該等至少三個聲道間之聲道間相關性值,於該第一迭代步驟中,選擇具有一最高值或具有高於一臨界值之一值的一對,及使用一多聲道處理操作處理該經選取對以推衍用於該經選取對之初始多聲道參數及推衍第一經處理聲道。
-於一第二迭代步驟中使用該等經處理聲道中之至少一者進行該計算、該選擇及該處理以推衍進一步多聲道參數及第二經處理聲道。
-編碼藉該迭代處理器進行一迭代處理所得的聲道以獲得經編碼聲道。及:
-生成具有該經編碼聲道、該等初始多聲道參數及該等進一步多聲道參數的一經編碼多聲道信號,且具有一資訊指示一用於解碼之設備是否須以基於先前已經藉該用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
再者,提出電腦程式,其中該等電腦程式 中之各者係經組配以當在一電腦或信號處理器上執行時用於實施前述方法,使得前述方法中之各者係藉該等電腦程式中之一者實施。
又復,提出一種經編碼之多聲道信號。該經編碼之多聲道信號包含經編碼聲道及多聲道參數及資訊指示一用於解碼之設備是否須以,於先前已藉該用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的頻譜資料,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
10‧‧‧解碼器
12、12’‧‧‧比例因數帶識別符
14‧‧‧解量化器
16、16’‧‧‧雜訊充填器
18‧‧‧反變換器
20‧‧‧頻譜線擷取器
22‧‧‧比例因數擷取器
24、24’‧‧‧聲道間預測器、複合立體聲預測器
26、26’‧‧‧中間-側邊(MS)解碼器
28a-b、28a’-b’‧‧‧反時間雜訊塑形(TNS)濾波工具
30、31、31’‧‧‧縮混提供器、邊界內資料串流
32、72‧‧‧輸出
34‧‧‧其它元件部分
40、42‧‧‧頻譜圖
44、44a-d‧‧‧時框
46、48‧‧‧頻譜
50、50a-f‧‧‧比例因數帶
52‧‧‧開始頻率
54‧‧‧固有雜訊
56‧‧‧聲道間雜訊充填
58‧‧‧複合預測、聲道間預測
60‧‧‧頻譜共同定位部分
70‧‧‧解碼部分
74‧‧‧延遲元件
76‧‧‧先前時框之縮混
90、100‧‧‧編碼器、用於編碼之設備
92‧‧‧變換器
96‧‧‧聲道域部分
98‧‧‧量化器
101‧‧‧多聲道信號
102‧‧‧迭代處理器
104‧‧‧聲道編碼器
106‧‧‧輸出介面
107‧‧‧經編碼多聲道信號
110-116‧‧‧處理框、立體聲工具、立體聲框、多聲道處理操作
120_1~3‧‧‧單聲框、單聲編碼器、單聲工具
200、201‧‧‧解碼器、用於解碼之設備
202‧‧‧聲道解碼器
204‧‧‧多聲道處理器
206_1~3‧‧‧單聲解碼器
208、210‧‧‧處理框
212‧‧‧輸入介面
220‧‧‧雜訊充填模組
300、400‧‧‧方法
302-308、402、404‧‧‧步驟
C‧‧‧中置聲道
CH1-3、CH1’-3’、Ch1-3、 Ch1’-3’‧‧‧聲道
D1-3‧‧‧經解碼聲道
E1-3、E1’-4’‧‧‧經編碼聲道
I1-2‧‧‧輸入信號
L‧‧‧左聲道
LFE‧‧‧低頻效應聲道
Ls‧‧‧左環繞聲道
MCH_PAR1-2‧‧‧多聲道參數
O1-6‧‧‧輸出信號
P1-8、P1’-4’、P1*-P4*‧‧‧經處理聲道
R‧‧‧右聲道
Rs‧‧‧右環繞聲道
S1-S4‧‧‧s-參數
下文中,將參照圖式以進一步細節描述本發明之實施例,附圖中:圖1a顯示依據一實施例一用於解碼之設備;圖1b顯示依據另一實施例一用於解碼之設備;圖2顯示依據本申請案之一實施例之一參數頻域解碼器的方塊圖;圖3顯示一示意圖,例示形成多聲道音訊信號之聲道的頻譜圖的頻譜序列以容易瞭解圖2之解碼器的描述;圖4顯示一示意圖,例示圖3中顯示的頻譜圖中之目前頻譜以求改善對圖2之描述的瞭解;圖5a及5b顯示依據替代實施例一參數頻域音訊解碼器的方塊圖,據此先前時框之縮混被使用作為聲道間雜訊充填的基礎;圖6顯示依據一實施例一參數頻域音訊編碼器的方塊 圖;圖7顯示依據一實施例用於編碼具有至少三個聲道之一多聲道信號之設備的示意方塊圖;圖8顯示依據一實施例用於編碼具有至少三個聲道之一多聲道信號之設備的示意方塊圖;圖9顯示依據一實施例一立體聲框的示意方塊圖;圖10顯示依據一實施例用於解碼具有經編碼聲道及至少兩個多聲道參數之一經編碼之多聲道信號之設備的示意方塊圖;圖11顯示依據一實施例用於編碼具有至少三個聲道之一多聲道信號之一方法的流程圖;圖12顯示依據一實施例用於解碼具有經編碼聲道及至少兩個多聲道參數之一經編碼之多聲道信號之設備的流程圖;圖13顯示依據一實施例的一系統;圖14顯示依據一實施例於情境(a)中於情境中針對第一時框組合聲道的生成,及於情境(b)中針對接續於第一時框之後的第二時框組合聲道的生成;及圖15顯示依據實施例用於多聲道參數之一檢索方案。
於後文描述中藉相等的或相當的元件符號標示相等的或相當的元件或具有相等的或相當的功能之元件。
於後文描述中,陳述多數細節以供更加徹底地解釋本發明之實施例。然而,熟諳技藝人士顯然易知可無此等特定細節而實施本發明之實施例。於其它情況下,眾所周知之結構及裝置係以方塊圖形式顯示而非以細節顯示以免遮掩了本發明之實施例。此外,除非特別地另行註明,否則後文描述之不同實施例的特徵可彼此組合。
在描述圖1a用於解碼之設備201之前,首先,描述用於多聲道音訊編碼之雜訊充填。於實施例中,圖1a之雜訊充填模組220例如可經組配以進行就用於多聲道音訊編碼之雜訊充填描述的下述技術中之一或多者。
圖2顯示依據本申請案之一實施例之一頻域音訊解碼器。解碼器概略使用元件符號10指示及包含比例因數帶識別符12、解量化器14、雜訊充填器16及反變換器18以及頻譜線擷取器20及比例因數擷取器22。由解碼器10可包含的選擇性進一步元件涵蓋複合立體聲預測器24、中間-側邊(MS)解碼器26及反時間雜訊塑形(TNS)濾波工具28,其二具體例證28a及28b顯示於圖2。此外,縮混提供器使用元件符號30經顯示及以進一步細節摘述如下。
圖2之頻域音訊解碼器10為支援雜訊充填的參數解碼器,據此使用該比例因數帶之比例因數作為控制雜訊充填入該比例因數帶的位準之手段,某個零量化比例因數帶經以雜訊充填。除此之外,圖2之解碼器10表示經組配以自輸入資料串流30重建多聲道音訊信號的多聲 道音訊解碼器。然而,圖2集中在解碼器10之元件涉及將多聲道音訊信號中之一者重建編碼入資料串流30,及在輸出32輸出此(輸出)聲道。元件符號34指示解碼器10可包含進一步元件或可包含有些管線操作控制負責重建多聲道音訊信號之其它聲道,其中後文描述指示解碼器10在輸出32關注的聲道之重建如何與其它聲道的解碼互動。
由資料串流30表示的多聲道音訊信號可包括二或多個聲道。於後文中,本申請案之實施例的描述集中在立體聲情況於該處多聲道音訊信號只包含二聲道,但原則上後文描述之實施例關於多聲道音訊信號及包含多於二聲道的其編碼方便在替代實施例上移轉。
從如下圖2之描述將進一步變成更為彰顯,圖2之解碼器10為變換解碼器。換言之,依據解碼器10之潛在編碼技術,聲道係以變換域諸如使用聲道之重疊變換編碼。再者,取決於音訊信號之產生者,有不同的時間相位於其間音訊信號之聲道大半表示相同音訊內容,只藉其間之微小或決定性變化而偏離彼此,諸如不同的振幅及/或相位以便表示一音訊場景,於該處該等聲道間之差異使得音訊場景之音訊源能相對於與多聲道音訊信號之輸出聲道相關聯的虛擬揚聲器位置虛擬定位。然而,於若干其它時相,音訊信號之不同聲道可能或多或少彼此不相關且甚至,例如表示全然不同的音訊源。
為了考慮音訊信號之聲道間之可能的時變關係,圖2之解碼器10潛在的音訊編解碼器允許不同量測 之時變使用以探勘聲道間冗餘。舉例言之,MS編碼允許呈表示立體聲音訊信號之左及右聲道間之就此切換,或呈分別地表示左及右聲道的縮混及其對半差的一對中間(M)及側邊(S)聲道。換言之,有連續地-就頻譜時間意義而言-藉資料串流30發射的二聲道之頻譜圖,但此等(發射)聲道之意義可分別地於時間上及相對於輸出聲道而改變。
複合立體聲預測-另一種聲道間冗餘探勘工具-使其能,於頻域中,使用一個聲道的頻譜上共同定位線來預測另一聲道的頻域係數或頻譜線。有關此點之進一步細節容後詳述。
為了輔助後文圖2之描述及其中顯示的組件之瞭解,圖3針對由資料串流30表示之立體聲音訊信號之釋例案例,顯示有關二聲道之頻譜線之樣本值如何可被編碼入資料串流30因而由圖2之解碼器10處理。更特別,雖然圖3之上半描繪立體聲音訊信號之第一聲道的頻譜圖40,但圖3之下半例示立體聲音訊信號之另一聲道的頻譜圖42。再度,值得注意者為頻譜圖40及42之「意義」可隨著時間之推移而改變,原因在於例如MS編碼域與非MS編碼域間之時變切換故。於第一情況下,頻譜圖40及42分別地有關M及S聲道,而於後述情況下頻譜圖40及42係有關左及右聲道。MS編碼域與非MS編碼域間之切換可於資料串流30中傳訊。
圖3顯示於時變頻時解析度頻譜圖40及42可被編碼入資料串流30。舉例言之,(發射)聲道兩者可以, 時間排齊方式,細分成使用大括號44指示的一序列框,其可彼此等長及毗連而不重疊。恰如前述,頻譜圖40及42於資料串流30中表示之頻譜解析度可隨著時間之推移而改變。初步,假設針對頻譜圖40及42之頻時解析度改變於時間上相等,但此簡化的延伸也可行,容後詳述。頻時解析度的改變,例如,以時框44為單位於資料串流30中傳訊。換言之,頻時解析度以時框44為單位改變。頻譜圖40及42之頻時解析度中的改變係藉切換使用來描述於各個時框44內部的頻譜圖40及42之變換長度及變換之數目而予達成。於圖3之釋例中,時框44a及44b舉例說明其中一個長變換已經使用來取樣其中的音訊信號之聲道的時框,因而導致最高頻譜解析度,針對每個聲道之此等時框中之各者具有一個頻譜線樣本值。於圖3中,頻譜線之樣本值係使用框內的小十字指示,而該等框又轉而排列成列及成行,且將表示頻時網格,各列對應一條頻譜線及各行對應時框44之對應涉及形成頻譜圖40及42的最短變換的子區間。更特別,圖3針對時框44d例示,例如,一時框可交錯地接受較短長度的連續變換,藉此針對此等時框諸如時框44d,結果導致數個時間上隨後的縮小頻譜解析度之頻譜。針對時框44d釋例使用八個短變換,結果導致於彼此隔開的頻譜線,於該時框42d內部的頻譜圖40及42之頻時取樣因而只有每隔八條頻譜線充填,但有一樣本值用於使用來變換時框44d的較短長度之八個變換窗或變換中之各者。為了用於例示目的,於圖3中顯示針對一時框其它數目之變換 亦可行,諸如使用二變換其變換長度例如,為針對時框44a及44b的長變換之變換長度之半,因而導致頻時網格或頻譜圖40及42之取樣於該處針對每第二頻譜線獲得兩個頻譜線樣本值,其中一者有關首變換,另一者有關尾變換。
於其中時框被細分的用於變換之變換窗係使用重疊窗狀線例示於圖3中之各個頻譜圖下方。時間重疊例如係用於時域混疊抵消(TDAC)目的。
雖然後文描述之實施例也可以另一方式實施,但圖3例示針對個別時框44在不同頻時解析度間之切換係以一種方式進行使得針對各個時框44,針對頻譜圖40及頻譜圖42導致圖3中由小十字指示的頻譜線值數目相等,差異只在於該等線頻時取樣對應個別時框44的個別頻時拼貼塊的方式,時間上跨據個別時框44之時間,及頻譜上跨據自零頻率至最大頻率fmax
使用圖3中之箭頭,圖3就時框44d例示藉由將一個聲道之一個時框內部屬於相同頻譜線但短變換窗的頻譜線樣本值,適當地分布至該時框內部之未被占用的(空白)頻譜線上直到該相同時框之下一個被占用的頻譜線,針對全部時框44可獲得相似的頻譜。此種所得頻譜於後文中稱作「交插頻譜」。於交插一個聲道之一個時框的n個變換中,舉例言之,在頻譜上隨後的頻譜線之該等n個短變換之n個頻譜上共同定位之頻譜線值之集合接續其後之前,該等n個短變換之n個頻譜上共同定位之頻譜線值彼此接續。交插之中間形式也可行:替代交插一個時間之全 部頻譜線係數,只交插一時框44d的短變換之一適當子集的頻譜線係數將可行。總而言之,每當討論對應頻譜圖40及42的二聲道之時框之頻譜時,此等頻譜可指交插者或非交插者。
為了透過發送到解碼器10的資料串流30有效地編碼表示頻譜圖40及42的頻譜線係數,其係經量化。為了頻時地控制量化雜訊,量化階大小係透過於某個頻時網格中設定的比例因數控制。特別,於各個頻譜圖之該序列之頻譜各自內部,頻譜線被分組成頻譜上連續非重疊比例因數群組。圖4顯示頻譜圖40之頻譜46在左半,及頻譜圖42之同時頻譜48。如圖顯示,頻譜46及48沿頻譜軸f被細分成比例因數帶,因而將頻譜線分組成非重疊群組。比例因數帶於圖4中使用大括號50例示。為求簡明,假設比例因數帶間之邊界在頻譜46及48間重合,但非必要為此種情況。
換言之,藉由於資料串流30中編碼,頻譜圖40及42各自被細分成頻譜之時間序列及此等頻譜中之各者於頻譜上被細分成比例因數帶,及針對各個比例因數帶資料串流30編碼或傳遞有關對應個別比例因數帶之一比例因數的資訊。落入個別比例因數帶50內部之頻譜線係數係使用個別比例因數加以量化,或至於考慮解碼器10,可使用該對應比例因數帶之該比例因數解量化。
在再度改回圖2及其描述之前,於後文中須假設經特別處理的聲道,亦即,其解碼涉及圖2之解碼 器的該等特定元件但34除外,為頻譜圖40之發射聲道,如前文已述,其可表示左及右聲道、M聲道或S聲道中之一者,假設編碼成資料串流30的多聲道音訊信號為立體聲音訊信號。
雖然頻譜線擷取器20係經組配以擷取頻譜線資料,亦即,來自資料串流30針對時框44的頻譜線係數,但比例因數擷取器22係經組配以針對各個時框44擷取對應比例因數。為了達成此目的,擷取器20及22可使用熵解碼。依據一實施例,比例因數擷取器22係經組配以使用脈絡適應熵解碼自資料串流30循序地擷取例如圖4中之頻譜46的比例因數,亦即比例因數帶50的比例因數。循序解碼的排序可按照於比例因數帶中例如,自低頻至高頻界定的頻譜順序。比例因數擷取器22可使用脈絡適應熵解碼及可取決於目前被擷取的比例因數之頻譜鄰近地區中已被擷取的比例因數,諸如取決於緊鄰前一個比例因數帶的比例因數而判定針對各個比例因數之脈絡。另外,比例因數擷取器22當基於先前已解碼比例因數中之任一者諸如緊鄰前一者而預測目前被解碼的比例因數時諸如,例如,使用差分解碼可自資料串流30預測地解碼比例因數。值得注意地,此種比例因數擷取方法為就屬於由零量化頻譜線排他地充填的,或藉其中之至少一者係被量化至非零值的頻譜線充填的一比例因數帶的一比例因數而言為不可知。屬於只由零量化頻譜線充填的一比例因數帶的一比例因數可作為以下兩者,作為其可能屬於其中之至少一者係被量化至 非零值的頻譜線充填的一比例因數帶的一隨後已解碼比例因數之預測基礎,且可基於其可能屬於其中之至少一者係被量化至非零值的頻譜線充填的一比例因數帶的一先前已解碼比例因數加以預測。
只為求完整,注意頻譜線擷取器20擷取頻譜線係數,藉此比例因數帶50同樣地使用,例如,熵編碼及/或預測編碼充填。熵編碼可基於目前被解碼之頻譜線係數之頻時鄰近地區中已被擷取的比例因數使用脈絡適應,及同理,預測可以是頻譜預測、時間預測、或頻時預測,而基於在其頻時鄰近地區中先前已解碼之頻譜線係數預測一目前被解碼之頻譜線係數。為了提高編碼效率,頻譜線擷取器20可經組配以多元組進行頻譜線或線係數的解碼,其沿頻率軸收集或分組頻譜線。
如此,於頻譜線擷取器20的輸出頻譜線係數諸如,例如,以頻譜諸如頻譜46為單位提供收集例如一對應時框的全部頻譜線係數,或另外收集一對應時框的某些短變換之全部頻譜線係數。於比例因數擷取器22之輸出,轉而輸出個別頻譜之對應比例因數。
比例因數帶識別符12以及解量化器14具有耦合至頻譜線擷取器20之輸出的頻譜線輸入,及解量化器14及雜訊充填器16具有耦合至比例因數擷取器22之輸出的比例因數輸入。比例因數帶識別符12係經組配以識別在一目前頻譜46內部的所謂零量化比例因數帶,亦即,於其內部全部頻譜線經量化至零的比例因數帶,諸如圖4中 之比例因數帶50c,及該頻譜之其餘比例因數帶於其內部至少一條頻譜線經量化至非零。特別,於圖4中頻譜線係數係使用圖4中之影線區指示。自該圖中可見於頻譜46中,全部比例因數帶具有至少一個頻譜線,但比例因數帶50b除外,其頻譜線係數經量化至非零值。稍後顯然易知零量化比例因數帶諸如50d形成聲道間雜訊充填的主旨,容後詳述。在繼續描述之前,注意比例因數帶識別符12可將其識別只限於比例因數帶50之一適當子集,諸如限於高於某個開始頻率52的比例因數帶。於圖4中,如此將識別程序限於比例因數帶50d、50e及50f。
比例因數帶識別符12通知雜訊充填器16在該等比例因數帶上為零量化比例因數帶。解量化器14使用與輸入頻譜46相關聯的比例因數因而根據相關聯比例因數,亦即,與比例因數帶50相關聯的比例因數,解量化、或縮放頻譜46之頻譜線的頻譜線係數。特別,解量化器14使用與個別比例因數帶相關聯的比例因數而解量化及縮放落入於個別比例因數帶內部之頻譜線係數。圖4須解譯為顯示頻譜線之解量化結果。
雜訊充填器16獲得有關零量化比例因數帶的資訊,其形成如下雜訊充填的主旨,解量化頻譜以及被識別為零量化比例因數帶的至少該等比例因數帶之比例因數及針對目前時框得自資料串流30之信號化揭示針對目前時框是否欲進行聲道間雜訊充填。
如下釋例中描述的聲道間雜訊充填方法實 際上涉及兩型雜訊充填,亦即固有雜訊54的插入有關於全部頻譜線已被量化至零,而與其可能與任何零量化比例因數帶的成員關係獨立無關,及實際聲道間雜訊充填程序。雖然此種組合容後詳述,但須強調依據替代實施例可刪除固有雜訊的插入。再者,有關目前時框相關的及得自資料串流30的雜訊充填啟動及關閉之信號化可只與聲道間雜訊充填有關,或可一起控制兩種雜訊充填的組合。
至於固有雜訊插入,雜訊充填器16可如下操作。特別,雜訊充填器16可採用人工雜訊產生諸如假亂數產生器或若干其它隨機來源以便充填頻譜線,其頻譜線係數為零。如此插入於零量化頻譜線之固有雜訊54的位準可根據資料串流30內部用於目前時框或目前頻譜46的明確傳訊設定。固有雜訊54的「位準」可使用例如均方根(RMS)或能量量測測定。
如此固有雜訊插入表示針對已被識別為零量化之該等比例因數帶諸如圖4中之比例因數帶50d的一種預充填。其也影響超出零量化之其它比例因數帶,但後者進一步接受如下聲道間雜訊充填。容後詳述,聲道間雜訊充填方法係用以充填零量化比例因數帶直到透過個別零量化比例因數帶之比例因數控制的位準。後者可被直接使用於此項目的,原因在於個別零量化比例因數帶之全部頻譜線皆被量化至零故。儘管如此,資料串流30可含有參數的額外信號化,用於各時框或各頻譜46,其常見施加至對應時框或頻譜46的全部零量化比例因數帶之比例因數,且 當藉雜訊充填器16施加至零量化比例因數帶之比例因數上時,結果導致針對個別零量化比例因數帶為個別的充填位準。換言之,雜訊充填器16可使用相同修改功能而修改頻譜46之各零量化比例因數帶,零量化比例因數帶之比例因數使用含在資料串流30中之恰如前述參數用於目前時框之該頻譜46因而獲得,就能量或RMS量測的個別零量化比例因數帶之填充目標位準,例如,高達該位準聲道間雜訊充填方法將以(選擇性地)額外雜訊(除了固有雜訊54之外)充填個別零量化比例因數帶。
特別,為了進行聲道間雜訊充填56,雜訊充填器16以已經大半或全部解碼狀態,獲得另一聲道的頻譜48之頻譜上共同定位部分,及拷貝頻譜48之所得部分進入零量化比例因數帶至其中此部分係頻譜上共同定位,經縮放使得在該零量化比例因數帶內部的所得總雜訊位準-經由於個別比例因數帶之頻譜線上積分推衍-等於得自零量化比例因數帶之比例因數之前述充填目標位準。藉此方式,充填入個別零量化比例因數帶中之雜訊的調性比較人工產生的雜訊諸如構成固有雜訊54的基礎者改良,也優於自相同頻譜46內部極低頻譜線的不受控的頻譜拷貝/複製。
為求甚至更精確,雜訊充填器16針對目前帶諸如50d,定位頻譜共同定位部分於另一聲道的頻譜48內部,以恰如前述方式取決於零量化比例因數帶50d之比例因數而縮放其頻譜線,選擇性地,該方式涉及針對目前時框或頻譜46含於資料串流30中之若干額外偏位或雜訊 因數參數,使得其結果充填個別零量化比例因數帶50d高達如由零量化比例因數帶50d之比例因數界定的期望位準。於本實施例中,如此表示充填係相對於固有雜訊54以加成方式完成。
依據一簡化實施例,所得經雜訊充填的頻譜46將直接輸入反變換器18的輸入內,因而針對頻譜46之頻譜線係數所屬各個變換窗,獲得個別聲道音訊時間信號的一時域部分,於其上(未顯示於圖2中)重疊加法可組合此等時域部分。換言之,若頻譜46為非交插頻譜,其頻譜線係數只屬於一個變換,則反變換器18接受該變換因而導致一個時域部分及其前端及尾端將接受重疊加法,具有藉反變換先前及隨後反變換獲得的先前及隨後時域部分,因而實現例如時域混疊抵消。然而,若頻譜46具有已交插入其中的多於一個連續變換之頻譜線係數,則反變換器18將接受分開的反變換因而獲得每個反變換一個時域部分,及根據其中界定的時間排序,此等時域部分將接受其間的重疊加法,以及相對於其它頻譜或時框之先前及隨後時域部分的重疊加法。
然而,為求完整,須注意可在經雜訊充填的頻譜上進行進一步處理。如於圖2中顯示,反TNS濾波器可進行反TNS濾波至經雜訊充填的頻譜上。換言之,透過目前時框或頻譜46的TNS濾波係數受控,至目前為止獲得的頻譜係沿頻譜方向接受線性濾波。
有或無反TNS濾波,然後複合立體聲預測 器24將頻譜視為聲道間預測之預測殘差處理。更明確言之,聲道間預測器24可使用另一聲道的頻譜共同定位部分以預測頻譜46或其比例因數帶50的至少一個子集。複合預測法係於圖4中以比例因數帶50b相關虛線框58例示。換言之,資料串流30可含有聲道間預測參數,例如控制哪個比例因數帶50須被聲道間預測及哪個不應以此種方式被預測。又復,資料串流30中之聲道間預測參數可進一步包含藉聲道間預測器24施加之複合聲道間預測因數因而獲得聲道間預測結果。此等因數可針對各比例因數帶、或另外各組一或多個比例因數帶個別含於資料串流30內,對此聲道間預測經啟用或傳訊而欲於資料串流30中被啟用。
如於圖4中指示,聲道間預測之來源可以是另一聲道的頻譜48。為求更精簡,聲道間預測之來源可以是頻譜48之頻譜共同定位部分,共同定位至欲被聲道間預測的比例因數帶50b,藉其虛擬部分之估計延伸。虛擬部分之估計可基於頻譜48之頻譜共同定位部分60進行,及/或可使用先前時框的已解碼聲道的縮混,亦即,緊接前一個頻譜46所屬目前已解碼時框的該時框。實際上,聲道間預測器24加至欲被聲道間預測的比例因數帶諸如圖4中之比例因數帶50b,恰如前述獲得預測信號。
如於先前描述中已知,頻譜46所屬聲道可以是MS編碼聲道,或可以是揚聲器相關聲道,諸如立體聲音訊信號之左或右聲道。據此,選擇性地MS解碼器26將選擇性地聲道間預測頻譜46接受MS解碼,在於每頻譜 線或頻譜46,MS解碼器26使用對應頻譜48之另一聲道的頻譜上對應頻譜線進行加或減。舉例言之,雖然未顯示於圖2中,但如於圖4中顯示,頻譜48已經以類似前文就頻譜46所屬聲道描述之方式藉解碼器10之部分34獲得,及於進行MS解碼中,MS解碼模組26將頻譜46及48接受逐頻譜線加法或逐頻譜線減法,而頻譜46及48兩者係在與處理線內部之相同階段,表示兩者已如前述藉聲道間預測獲得,或兩者已藉雜訊充填或反TNS濾波獲得。
須注意選擇性地,MS解碼可以通用考慮全頻譜46之方式進行,或例如以比例因數帶50為單位藉資料串流30個別啟用。換言之,諸如,例如,個別地針對頻譜圖40及/或42之頻譜46及/或48之比例因數帶,MS解碼例如可以時框或某個更精細的頻時解析度為單位使用資料串流30中之個別信號化而切換開關,其中假設二聲道的比例因數帶之相同邊界經界定。
如於圖2中例示,藉反TNS濾波器28之反TNS濾波也可於任何聲道間處理諸如聲道間預測58或藉MS解碼器26之MS解碼之後進行。在聲道間處理之前或之下游的效能可固定或可透過資料串流30中之各個時框的個別信號化進行或於某個其它粒度位準進行。每當進行反TNS濾波,存在於目前頻譜46之資料串流的個別TNS濾波係數控制TNS濾波,亦即線性預測濾波沿頻譜方向進行因而線性濾波頻譜輸入個別反TNS濾波模組28a及/或28b。
如此,到達反變換器18之輸入的頻譜46可 已接受恰如前述的進一步處理。再度,須瞭解前文描述並非表示全部此等選擇性工具是否將同時存在。此等工具可部分地或集合地存在於解碼器10中。
總而言之,在反變換器的輸入之所得頻譜表示聲道之輸出信號的最終重建及形成目前時框之前述縮混的基礎,如就複合預測58之描述,作為用於欲被解碼的下個時框之潛在虛擬部分估計的基礎。其可進一步作為另一聲道的聲道間預測的最終重建,而非圖2相關的元件但34除外。
藉由組合此最終頻譜46與頻譜48之個別最終版本,藉縮混提供器31形成個別縮混。後述實體亦即頻譜48之個別最終版本,形成用於預測器24中之複合聲道間預測的基礎。
圖5顯示圖2相關之替代例,只要聲道間雜訊充填之基礎係由先前時框的頻譜共同定位頻譜線之縮混表示,使得使用複合聲道間預測之選擇性情況中,此種複合聲道間預測之來源被使用兩次,作為聲道間雜訊充填之來源以及複合聲道間預測中虛擬部分估計的來源。圖5顯示一解碼器10包括與頻譜46所屬第一聲道之解碼有關部分70,以及前述其它部分34之內部結構,其涉及包含頻譜48之其它聲道的解碼。相同元件符號使用於一方面部分70的內部元件及另一方面34的內部元件。如圖可知,其組成為相同。於輸出32,立體聲音訊信號之一個聲道被輸出,及在第二解碼器部分34之反變換器18的輸出獲得立體聲 音訊信號之另一(輸出)聲道,而此輸出係由元件符號74指示。再度,上述實施例容易移轉到使用多於二聲道的情況。
縮混提供器31係由兩部分70及34共同使用及接收頻譜圖40及42之時間共同定位頻譜48及46,因而藉由以逐一頻譜線基礎加總此等頻譜,可能藉將於各頻譜線之該和除以被縮混的聲道數目,亦即以圖5為例為2,而生成平均來基於其上形成縮混。在縮混提供器31的輸出,藉此辦法獲得先前時框之縮混。須注意就此面向而言,以先前時框在頻譜圖40及42中之任一者含有多於一個頻譜為例,針對於該種情況下縮混提供器31如何操作存在有不同的可能。舉例言之,於該種情況下縮混提供器31可使用目前時框之尾變換的頻譜,或可使用交插頻譜圖40及42之目前時框的全部頻譜線係數的結果。於圖5中顯示為連結至縮混提供器31的輸出之延遲元件74,顯示如此於縮混提供器31的輸出提供的縮混形成先前時框76的縮混(參考圖4有關分別聲道間雜訊充填56及複合預測58)。如此,延遲元件74之輸出一方面連結至解碼器部分34及70的聲道間預測器24之輸入,及另一方面連結至解碼器部分70及34之雜訊充填器16之輸入。
換言之,當於圖2中,雜訊充填器16接收另一聲道的該目前時框之最終重建時間共同定位頻譜48作為聲道間雜訊充填的基礎,於圖5中基於如由縮混提供器31提供的先前時框之縮混,取而代之進行聲道間雜訊充填。於其中進行聲道間雜訊充填之方式維持相同。換言之, 以圖2為例,聲道間雜訊充填器16自另一聲道的目前時框之頻譜的個別頻譜獲取頻譜共同定位部分,及以圖5為例,自先前時框獲得大半或完全解碼的最終頻譜表示先前時框的縮混,及根據如由個別比例因數帶之比例因數決定的目標雜訊位準縮放,將相同「來源」部分加至欲被雜訊充填的比例因數帶,諸如圖4中之50d內部的頻譜線。
總結如上描述於音訊解碼器中聲道間雜訊充填之實施例的討論,熟諳技藝之讀者顯然易知,在將獲取得的「來源」頻譜之頻譜上或時間共同定位部分加至「目標」比例因數帶之頻譜線之前,某個前處理可施加至「來源」頻譜線而不會偏離聲道間充填的一般構想。特別,可能有利地施加濾波操作諸如,例如,頻譜平坦化、或傾斜去除,至欲加至「目標」比例因數帶,諸如圖4中之50d的「來源」區之頻譜線,以便改良聲道間雜訊充填方法之音訊品質。同理,及作為大半(而非完全)經解碼頻譜之一釋例,前述「來源」部分可得自尚未曾藉可用的反(亦即,合成)TNS濾波器濾波的頻譜。
如此,如上實施例係有關於聲道間雜訊充填之構想。於後文中,描述以上聲道間雜訊充填之構想如何可以半回溯兼容方式被建構入現有編解碼器,亦即xHE-AAC。特別,後文中描述較佳實施例之較佳實施方式,根據該方式立體聲充填工具以半回溯兼容之傳訊方式被建構入以xHE-AAC為基礎的音訊編解碼器。藉由使用後文詳細說明之實施方式,用於某些立體聲信號,於以 MPEG-D xHE-AAC為基礎的音訊編解碼器中於二聲道中之任一者的變換係數之立體聲充填為可行,藉此改良某些音訊信號之編碼品質,特別於低位元率尤為如此。立體聲充填工具以半回溯兼容方式傳訊使得舊式xHE-AAC解碼器可剖析及解碼位元串流而無顯著音訊錯誤或漏失。如前文已述,若音訊編碼器可使用二立體聲聲道的先前已解碼/已量化係數之組合來重建目前已解碼聲道中之任一者的零量化(非發射)係數,則可達成較佳總品質。因此於音訊編碼器中,尤其xHE-AAC或以其為基礎的編碼器中,除了頻帶複製(自低-至高-頻聲道係數)及雜訊充填(自未經校正的假隨機來源)外期望允許此種立體聲充填(自前一個至本聲道係數)。
為了允許帶有立體聲充填之已編碼位元串流欲藉舊式xHE-AAC解碼器讀取及剖析,期望的立體聲充填工具須以半回溯兼容方式使用:其存在不應造成舊式解碼器停止-或甚至不開始-解碼。藉xHE-AAC基礎架構之位元串流的可讀取性也可輔助市場採納。
為了達成在xHE-AAC或其潛在衍生情境中針對立體聲充填工具的半回溯兼容性之前述期望,如下實施方式涉及立體聲充填之功能以及透過在資料串流中實際上有關雜訊充填的語法傳訊之能力。立體聲充填工具將按照前文描述工作。在具有常見窗組態之聲道對中,當立體聲充填工具被啟用時,作為雜訊充填的替代方案(或如文描述,除此之外),零量化比例因數帶之一係數係藉二聲道 中之任一者,較佳地右聲道,中的先前時框的係數之和或差重建。立體聲充填類似雜訊充填進行。傳訊將透過xHE-AAC的雜訊充填傳訊完成。立體聲充填係利用8-位元雜訊充填邊帶資訊傳遞。此點為可行的原因在於MPEG-D USAC標準[3]陳述全部8個位元經發射,即便欲施加的雜訊位準為零亦復如此。於該種情況下,若干雜訊充填位元可再度使用於立體聲充填工具。
有關藉舊式xHE-AAC解碼器之位元串流剖析及回放的半回溯兼容性經確保如後述。立體聲充填係透過零之雜訊位準(亦即,前三個雜訊充填位元皆具有零值)接著五個非零位元(其傳統上表示雜訊偏位)含有立體聲充填工具之邊帶資訊以及漏失雜訊位準加以傳訊。因若3-位元雜訊位準為零,則舊式xHE-AAC解碼器忽略不計5-位元雜訊偏位之值,故立體聲充填工具傳訊的存在只對舊式解碼器中的雜訊充填有影響:雜訊充填被關閉的原因在於前三個位元為零,而解碼操作之其餘部分如預期般運轉。特別,不進行立體聲充填的原因在於其操作類似雜訊充填方法,該方法被停用。因此,舊式解碼器仍然提供經加強之資料串流30「得體的」解碼,原因在於當到達具有立體聲充填被啟用的一時框時,其無需靜音輸出信號或甚至捨棄解碼。當然,然而無法提供經立體聲充填的線路係數之正確的預期的重建,結果導致比較藉能夠適當地處理新立體聲充填工具的適當解碼器進行解碼於受影響時框的品質低劣。儘管如此,假設立體聲充填工具係如預期使用, 亦即,只在低位元率之立體聲輸入使用,則通過xHE-AAC解碼器的品質應比若受影響時框因靜音故漏失或導致其它明顯回放錯誤更佳。
於後文中,呈現詳細說明有關立體聲充填工具如何建立入xHE-AAC編解碼器作為延伸。
當建立成標準時,立體聲充填工具可被描述如後。特別,此種立體聲充填(SF)工具將表示MPEG-H 3D-音訊之頻域(FD)部分中之新工具。與前文討論符合一致,類似根據[3]中描述的標準之章節7.2使用雜訊充填已能夠達成者,此種立體聲充填工具之目標將為於低位元率MDCT頻譜係數之參數重建。然而,不似雜訊充填,其採用假隨機雜訊源用於產生任何FD聲道之MDCT頻譜值,SF將也可用來使用先前時框的左及右MDCT頻譜之縮混而重建一聯合編碼立體聲聲道對之右聲道之MDCT值。依據如下陳述的實施方式,立體聲充填利用可藉舊式MPEG-D USAC解碼器正確地剖析的雜訊充填邊帶資訊而半回溯兼容地傳訊。
工具之描述如下。當於聯合立體聲頻域時框中立體聲充填為作用態時,右(第二)聲道之空白(亦即,完全零量化的)比例因數帶,諸如50d,的MDCT係數由先前時框(若頻域)的對應經解碼之左及右聲道的MDCT係數之和或差置換。若舊式雜訊充填對第二聲道為作用態,則假隨機值也加至各係數。然後各比例因數帶之所得係數經縮放使得各帶之係數均方根(RMS)匹配藉該帶之比例因 數發射之值。參考[3]中的標準之章節7.3。
對於在MPEG-D USAC標準中新立體聲充填工具之使用可有若干操作限制。舉例言之,SF工具可只在常見頻域聲道對,亦即,發射具有common_window==1的StereoCoreToolInfo()的聲道對元件之右頻域聲道使用。此外,因半回溯兼容傳訊故,SF工具只有當語法容器UsacCoreConfig()中之noiseFilling==1時才可使用。若該對中之任一聲道係在LPD core_mode模式,則可不使用SF工具,即便右聲道係在頻域模式亦復如此。
下列術語及定義使用於後文中以便更清楚地描述如於[3]中描述的標準之延伸。
更明確言之,考慮資料元件,新介紹下列資料元件:
stereo_filling 二進制旗標指示SF是否利用於目前時框及聲道
又,介紹新輔助元件:
noise_offset 雜訊充填偏位以修正零量化帶的比例因數(章節7.2)
noise_level 雜訊充填位準表示加入頻譜雜訊之幅值(章節7.2)
downmix_prev[] 先前時框的左及右聲道之縮混(亦即,和或差)
sf_index[g][sfb] 用於窗群組g及帶sfb的比例因數指 數(亦即,經發射的整數)
該項標準之解碼程序將以下述方式延伸。特別,具有立體聲充填工具被啟用的聯合-立體聲編碼頻域聲道之解碼係以三個循序步驟執行如下:
首先,進行stereo_filling旗標之解碼。
stereo_filling並非表示獨立位元串流元件反而係衍生自UsacChannelPairElement()中的雜訊充填元件,noise_offset及noise_level,及StereoCoreToolInfo()中的common_window旗標。若noiseFilling==0或common_window==0或目前聲道為該元件中之左(第一)聲道,則stereo_filling為0,及立體聲充填處理結束。否則,if((noiseFilling!=0)&&(common_window!=0)&&(noise_level==0))(stereo_filling=(noise_offset & 16)/16; noise_level=(noise_offset & 14)/2; noise_offset=(noise_offset & 1)* 16; } else{ stereo_filling=0; }
換言之,若noise_level==0,則noise_offset含有stereo_filling旗標接著4位元之雜訊充填資料,其然後經重排。因為此項操作變更noise_level及noise_offset之值,故須在章節7.2之雜訊充填處理之前進行。再者,如上假碼不在UsacChannelPairElement()或任何其它元件的左(第一)聲道執行。
然後,進行downmix_prev之計算。
downmix_prev[],使用於立體聲充填的頻譜縮混,係 與使用於複合立體聲預測(章節7.7.2.3)中的MDST頻譜估計的dmx_re_prev[]相同。如此表示
●若進行縮混的時框及元件之聲道中之任一者-亦即,在目前解碼時框之前的時框-使用core_mode==1(LPD)或聲道使用不等變換長度(split_transform==1或只有一個聲道中區塊切換至window_sequence==EIGHT_SHORT_SEQUENCE)或usacIndependencyFlag==1,則downmix_prev[]的全部係數須為零。
●若於目前元件中聲道的變換長度自最後改變成目前時框(亦即,split_transform==1之前為split_transform==0,或window_sequence==EIGHT_SHORT_SEQUENCE之前為window_sequence!==EIGHT_SHORT_SEQUENCE,或分別反之亦然),則downmix_prev[]的全部係數須為零。
●若變換分裂施加於前一或目前時框的聲道,則downmix_prev[]表示逐行交插頻譜縮混。參考變換分裂工具之細節。
●若複合立體聲預測不利用於目前時框及元件,則pred_dir等於0。
結果,前一縮混針對兩個工具只需計算一次,複雜度減低。於章節7.7.2中downmix_prev[]與 dmx_re_prev[]間之唯一差異在於當目前不使用複合立體聲預測時,或當其為作用態但use_prev_frame==0時。於該種情況下,downmix_prev[]根據章節7.7.2.3計算用於立體聲充填解碼,即便dmx_re_prev[]不需用於複合立體聲預測解碼及因而為未定義的/零亦復如此。
其後,將進行空白比例因數帶之立體聲充填。
若stereo_filling==1,則在max_sfb_ste下方的全部初始空白比例因數帶sfb[],亦即,其中全部MDCT線皆被量化為零的全部帶中之雜訊充填處理之後進行如下程序。首先,給定sfb[]及downmix_prev[]中之對應線之能量透過線平方和計算。然後,給定sfbWidth含有每sfb[]之線之數目,if(energy[sfb]<sfbWidth[sfb]){/* noise level isn’t maximum,or band starts below noise-fill region */ facDmx=sqrt((sfbWidth[sfb]-energy[sfb])/energy_dmx[sfb]); factor=0.0; /* if the previous downmix isn’t empty,add the scaled downmix lines such that band reaches unity energy */ for(index=swb_offset[sfb];index<swb_offset[sfb+1];index++){spectrum[window][index]+=downmix_prev[window][index]* facDmx; factor+=spectrum[window][index]* spectrum[window][index]; } if((factor!=sfbWidth[sfb])&&(factor>0)){/* unity energy isn’t reached,so modify band */ factor=sqrt(sfbWidth[sfb]/(factor+1e-8)); for(index=swb_offset[sfb];index<swb_offset[sfb+1];index++)(spectrum[window][index]*=factor; } } }
用於各個群組窗之頻譜。然後比例因數施加至如於章節7.3所得頻譜上。空白帶之比例因數係類似 常規比例因數般處理。
以上xHE-AAC標準之延伸的替代方案將係使用暗示半回溯兼容傳訊方法。
如上於xHE-AAC代碼架構中之實施方式描述一種辦法,其根據圖2採用位元串流中之一個位元來傳訊涵括於stereo_filling中之新立體聲充填工具的使用至解碼器。更明確言之,此種傳訊(稱作明示的半回溯兼容傳訊)允許如下舊式位元串流資料-此處為雜訊充填邊帶資訊-與SF傳訊獨立無關地使用:於本實施例中,雜訊充填資料並不取決於立體聲充填資訊,及反之亦然。舉例言之,由全零組成的雜訊充填資料(noise_level=noise_offset=0)可被發射,而stereo_filling可傳訊任何可能值(為二進制旗標,0或1)。
假使不要求舊式與本發明位元串流資料間之嚴格獨立及本發明信號為二進制決定,則可避免傳訊位元之明確發射,及該二進制決定可藉稱作暗示半回溯兼容傳訊的存在或不存在而予傳訊。再度舉如上實施例為釋例,立體聲充填之使用可藉單純採用新傳訊發射:若noise_level為零,及同時,noise_offset為非零,則stereo_filling旗標設定等於1。若noise_level及noise_offset兩者為非零,則stereo_filling等於0。此種暗示信號對舊式雜訊充填信號之相依性出現在當noise_level及noise_offset兩者皆為零時。於此種情況下,未知是否使用舊式或新立體聲充填暗示傳訊。為了避 免此種歧異含混,stereo_filling之值須預先定義。於本釋例中,若雜訊充填資料包含全零則適合定義stereo_filling=0,原因在於當雜訊充填不適用於一時框時此乃舊式編碼器而無立體聲充填能力信號。
於暗示性半回溯兼容傳訊之情況下,仍然有待解決的問題為如何傳訊stereo_filling==1及同時沒有雜訊充填。如圖解說,雜訊充填資料必須非全部為零,及若請求零之雜訊幅值,則noise_level((noise_offset & 14)/2如前述)須等於0。如此只留下noise_offset((noise_offset & 1)*16如前述)大於0作為解。但當施加比例因數時於立體聲充填之情況下,考慮noise_offset,即便noise_level為零亦復如此。幸運地,編碼器可補償下述事實,藉由變更受影響的比例因數零的noise_offset不可被發射,使得當位元串流寫入時,其含有偏移值其於解碼器中透過noise_offset被撤消。如此允許如上實施例中該暗示傳訊犧牲比例因數資料速率的潛在增高。因此,於前文描述之假碼中的立體聲充填之傳訊,使用具有2位元(4值)而非1位元的經儲存的立體聲充填傳訊位元來發射noise_offset可改變如下:if((noiseFilling)&&(common_window)&&(noise_level==0)&&(noise_offset>0)){ stereo_filling=1; noise_level=(noise_offset & 28)/4; noise_offset=(noise_offset & 3)* 8; } else{ stereo_filling=0; }
為求完整,圖6顯示依據本申請案之一實施例的一參數音訊編碼器。首先,大致使用元件符號90指示的圖6之編碼器包括一變換器92用以進行在圖2之輸出32重建的音訊信號之原先未失真版本的變換。如就圖3描述,重疊變換可用於不同變換長度間之切換其具有以時框44為單位的對應變換窗。不同變換長度及對應變換窗係使用元件符號104例示於圖3。以類似圖2之方式,圖6注意力集中在負責多聲道音訊信號之編碼一個聲道的編碼器90部分,而解碼器90的另一聲道域部分大致於圖6中使用元件符號96指示。
於變換器92之輸出,頻譜線及比例因數係未經量化及實質上尚無編碼損耗出現。由變換器92輸出的頻譜圖輸入量化器98,其係經組配以設定及使用比例因數帶之初步比例因數,逐一頻譜量化由變換器92輸出的頻譜圖之頻譜線。換言之,於量化器98之輸出,結果導致初步比例因數及對應頻譜線係數,及一串列之雜訊充填器16’、選擇性的反TNS濾波器28a’、聲道間預測器24’、MS解碼器26’及反TNS濾波器28b’循序連結因而給圖6之編碼器90提供以在縮混提供器的輸入(參考圖2)在解碼器端所獲得的目前頻譜之重建後的終版本。以於使用先前時框的縮混而形成聲道間雜訊的版本中使用聲道間預測24’及/或使用聲道間雜訊充填為例,編碼器90也包含縮混提供器31’因而形成多聲道音訊信號之該等聲道的頻譜之重建後的終版本。當然,為了節省運算,替代終版 本,該等聲道的該頻譜之原先未量化版本可由縮混提供器31’用於縮混的形成。
編碼器90可使用可用的頻譜之重建後的終版本上之資訊以便使用虛擬部分估計進行時框間頻譜預測諸如前述可能的進行聲道間預測版本,及/或以便進行在一速率控制回路中之速率控制,亦即,以便決定藉編碼器90最終編碼入資料串流30中的可能參數係以速率/失真最佳化意義設定。
舉例言之,於編碼器90之此種預測回路及/或速率控制回路中設定的一個此種參數,對藉識別符12’識別的各個零量化比例因數帶,為個別比例因數帶之比例因數其只由量化器98初步設定。於編碼器90之預測回路及/或速率控制回路中,零量化比例因數帶之比例因數係以某種心理聲學或速率/失真最佳化意義設定因而如前述,判定連同也由該資料串流針對對應時框傳遞的選擇性修正參數至解碼器端的前述目標雜訊位準。須注意此種比例因數可只使用其所屬頻譜(亦即,「目標」頻譜,如前述)及聲道的頻譜線計算,或另外,可使用「目標」聲道頻譜之頻譜線及此外,得自縮混提供器31’來自先前時框(亦即,「來源」頻譜,如前述)的另一聲道頻譜或縮混頻譜之頻譜線兩者決定。特別為了穩定化目標雜訊位準及減少於其上施加聲道間雜訊充填的已解碼音訊聲道中的時間位準起伏波動,目標比例因數可使用「目標」比例因數帶中之頻譜線的能量度量,與對應「來源」區中之共同定位頻譜 線的能量度量間之關係計算。最後,如前記,此「來源」區可起源於另一聲道或先前時框的縮混之經重建的終版本,或若欲減低編碼器複雜度,可起源於該另一聲道的原先未經量化版本或先前時框的原先未經量化版本之縮混。
於後文中,解釋依據實施例之多聲道編碼及多聲道解碼。於實施例中,圖1a之用於解碼之設備201之多聲道處理器204例如可經組配以進行以下就雜訊多聲道解碼描述的技術中之一或多者。
然而,首先,在描述多聲道解碼之前,參考圖7至圖9解釋依據實施例之多聲道編碼及然後,參考圖10及圖12解釋多聲道解碼。
現在,參考圖7至圖9及圖11解釋依據實施例之多聲道編碼:
圖7顯示具有至少三聲道CH1至CH3之用於編碼多聲道信號101之設備(編碼器)100的示意方塊圖。
設備100包含迭代處理器102、聲道編碼器104及輸出介面106。
迭代處理器102係經組配以,於第一迭代步驟中,計算各對至少三聲道CH1至CH3間的聲道間相關性值,以於第一迭代步驟中,用於選取具有最高值或具有高於臨界值之值的一對,及用於使用多聲道處理操作處理該經選取對以推衍用於該經選取對的多聲道參數MCH_PAR1及推衍第一經處理聲道P1及P2。於後文中, 此種經處理聲道P1及此種經處理聲道P2分別也可稱作組合聲道P1及組合聲道P2。又,迭代處理器102係經組配以於第二迭代步驟中使用經處理聲道P1及P2中之至少一者進行計算、選擇及處理以推衍多聲道參數MCH_PAR2及第二經處理聲道P3及P4。
舉例言之,如於圖7中指示,迭代處理器102可於第一迭代步驟中計算第一對至少三聲道CH1至CH3間的聲道間相關性值,該第一對包含第一聲道CH1及第二聲道CH2,第二對至少三聲道CH1至CH3間的聲道間相關性值,該第二對包含第二聲道CH2及第三聲道CH3,及第三對至少三聲道CH1至CH3間的聲道間相關性值,該第三對包含第一聲道CH1及第三聲道CH3。
於圖7中假設於第一迭代步驟中包含第一聲道CH1及第三聲道CH3的該第三對包含最高聲道間相關性值,使得迭代處理器102於第一迭代步驟中選擇具有最高聲道間相關性值之第三對及使用多聲道處理操作處理該選取對,亦即第三對,以推衍用於該經選取對的多聲道參數MCH_PAR1及推衍第一經處理聲道P1及P2。
又,迭代處理器102可經組配以,於第二迭代步驟中,計算各對至少三聲道CH1至CH3與經處理聲道P1及P2間的聲道間相關性值,用以於第二迭代步驟中,選擇一對具有最高聲道間相關性值或具有高於臨界值之值。藉此,迭代處理器102可經組配以於第二迭代步驟 中(或於任何進一步迭代步驟中)不選擇第一迭代步驟的選取對。
參考圖7中顯示之釋例,迭代處理器102可進一步計算由第一聲道CH1及第一經處理聲道P1組成的第四對聲道間之聲道間相關性值、由第一聲道CH1及第二經處理聲道P2組成的第五對間之聲道間相關性值、由第二聲道CH2及第一經處理聲道P1組成的第六對間之聲道間相關性值、由第二聲道CH2及第二經處理聲道P2組成的第七對間之聲道間相關性值、由第三聲道CH3及第一經處理聲道P1組成的第八對間之聲道間相關性值、由第三聲道CH3及第二經處理聲道P2組成的第九對間之聲道間相關性值、及由第一聲道CH1及第二經處理聲道P2組成的第十對間之聲道間相關性值。
於圖7中,假設於第二迭代步驟中由第二聲道CH2及第一經處理聲道P1組成的第六對包含最高聲道間相關性值,使得迭代處理器102於第二迭代步驟中選擇第六對及使用多聲道處理操作處理經選取對,亦即第六對,以推衍用於該經選取對的多聲道參數MCH_PAR2及推衍第二經處理聲道P3及P4。
當一對之位準差係小於臨界值時,該臨界值小於40分貝(dB)、25dB、12dB或小於6dB,迭代處理器102可經組配以只選擇該對。因而,25分貝或40分貝之臨界值對應3度或0.5度之旋轉角。
迭代處理器102可經組配以計算標準化整數相關值,其中當整數相關值係大於例如,0.2或較佳地0.3時,迭代處理器102可經組配以選擇一對。
又,迭代處理器102可提供自多聲道處理所得聲道給聲道編碼器104。舉例言之,參考圖7,迭代處理器102可提供於第二迭代步驟中進行多聲道處理器所得第三經處理聲道P3及第四經處理聲道P4及於第一迭代步驟中進行多聲道處理器所得第二經處理聲道P2給聲道編碼器104。藉此,迭代處理器102可經提供不再於隨後迭代步驟中(進一步)處理的該等經處理聲道給聲道編碼器104。如於圖7中顯示,第一經處理聲道P1不提供給聲道編碼器104,原因在於其於第二迭代步驟中進一步處理故。
聲道編碼器104可經組配以編碼由迭代處理器102進行迭代處理(或多聲道處理)所得的聲道P2至P4以獲得經編碼聲道E1至E3。
舉例言之,聲道編碼器104可經組配以使用單聲編碼器(或單聲框,或單聲工具)120_1至120_3用於編碼自迭代處理(或多聲道處理)所得的聲道P2至P4。單聲框可經組配以編碼聲道使得用於編碼具有較少能量(或較小幅值)的聲道比較用於編碼具有較多能量(或較高幅值)的聲道要求更少位元。單聲框120_1至120_3可以是例如以變換為基礎之音訊編碼器。又,聲道編碼器104可經組配以使用立體聲編碼器(例如,參數立體聲編碼器, 或損耗立體聲編碼器)用於編碼自迭代處理(或多聲道處理)所得的聲道P2至P4。
輸出介面106可經組配以產生及編碼具有經編碼聲道E1至E3及多聲道參數MCH_PAR1及MCH_PAR2的經編碼多聲道信號107。
舉例言之,輸出介面106可經組配以產生經編碼多聲道信號107為串列信號或串列位元串流,及使得在多聲道參數MCH_PAR1之前多聲道參數MCH_PAR2係在經編碼信號107中。如此,其實施例將於後文參考圖10描述的解碼器,將在多聲道參數MCH_PAR1之前接收多聲道參數MCH_PAR2。
於圖7中,迭代處理器102釋例地進行兩次多聲道處理操作,一次多聲道處理操作於第一迭代步驟中及一次多聲道處理操作於第二迭代步驟中。當然,迭代處理器102也能於隨後迭代步驟中進行進一步多聲道處理操作。藉此,迭代處理器102可經組配以進行迭代步驟直至達到迭代結束準則為止。迭代結束準則可以是迭代步驟之最大數目等於或高於多聲道信號101之聲道總數達2,或其中迭代結束準則為,當聲道間相關性值值不具有大於臨界值之值時,臨界值較佳地為大於0.2或臨界值較佳地為0.3。於進一步實施例中,迭代結束準則可以是迭代步驟之最大數目等於或高於多聲道信號101之聲道總數,或其中迭代結束準則為,當聲道間相關性值值不具有大於臨 界值之值時,臨界值較佳地為大於0.2或臨界值較佳地為0.3。
為了例示目的,於第一迭代步驟及第二迭代步驟中由迭代處理器102進行的多聲道處理操作藉處理框110及112釋例地例示於圖7。處理框110及112可於硬體或軟體實施。處理框110及112例如可以是立體聲框。
因此,聲道間信號相依性可藉階層式施加已知之聯合立體聲編碼工具探勘。與先前MPEG辦法相反地,欲處理之信號對不藉固定信號路徑(例如,立體聲編碼樹)預先決定反而可動態改變以適應輸入信號特性。實際立體聲框之輸入可以是(1)未經處理聲道,諸如聲道CH1至CH3,(2)前一個立體聲框之輸出,諸如經處理信號P1至P4,或(3)未經處理聲道與前一個立體聲框之輸出的組合聲道。
立體聲框110及112內部之處理可以是以預測為基礎(例如USAC中之複合預測框)或以KLT/PCA為基礎(於編碼器中輸入聲道經旋轉(例如,透過2x2旋轉矩陣)而最大化能量壓縮,亦即,信號能量集中至一個聲道,於解碼器中已旋轉信號將被重新變換至原先輸入信號方向)。
於編碼器100之一可能實施方式中,(1)編碼器計算每一聲道對間之聲道間相關性及自輸入信號中選出一個合宜信號對及施加立體聲工具至被選取的聲道;(2)編碼器重新計算全部聲道(未經處理聲道以及經處理之 中間輸出聲道)間之聲道間相關性及自輸入信號中選出一個合宜信號對及施加立體聲工具至被選取的聲道;及(3)編碼器重複步驟(2)直到全部聲道間相關性係低於臨界值或是否施加變換之最大數目為止。
如前述,欲藉編碼器100,或更明確言之迭代處理器102,處理的信號對未藉固定信號路徑(例如,立體聲編碼樹)預先決定,反而可動態改變以適應輸入信號特性。藉此,編碼器100(或迭代處理器102)可經組配以取決於多聲道(輸入)信號101之至少三個聲道CH1至CH3建構立體聲樹。換言之,編碼器100(或迭代處理器102)可經組配以基於聲道間相關性建立立體聲樹(例如,藉由於第一迭代步驟中,計算各對至少三聲道CH1至CH3間的聲道間相關性值,以於第一迭代步驟中,用於選取具有最高值或具有高於臨界值之值的一對,及藉由於第二迭代步驟中,計算各對至少三聲道間的聲道間相關性值,以於第二迭代步驟中,用於選取具有最高值或具有高於臨界值之值的一對)。依據一步驟辦法,相關性矩陣可於可能經處理的先前迭代中,針對含有全部聲道之相關性的可能各次迭代計算。
如上指示,迭代處理器102可經組配以於第一迭代步驟中針對經選取對推衍多聲道參數MCH_PAR1及於第二迭代步驟中針對經選取對推衍多聲道參數MCH_PAR2。多聲道參數MCH_PAR1可包含識別(或傳訊)於第一迭代步驟中選取的該聲道對之第一聲道 對識別符(或索引),其中該多聲道參數MCH_PAR2可包含識別(或傳訊)於第二迭代步驟中選取的該聲道對之第二聲道對識別符(或索引)。
於後文中,描述輸入信號之有效檢索。舉例言之,取決於聲道的總數,聲道對可使用針對各對的獨特索引被有效地傳訊。舉例言之,用於六聲道之聲道對檢索可如下表顯示:
舉例言之,於上表中索引5可傳訊由第一聲道及第二聲道組成之該對。同理,索引6可傳訊由第一聲道及第三聲道組成之該對。
針對n聲道可能的聲道對索引之總數可計算為:numPairs=numChannels*(numChannels-1)/2
因此,用於傳訊一個聲道對需要的位元之數目達:numBits=floor(log2(numPairs-1))+1
又復,編碼器100可使用聲道遮罩。多聲道工具的組態可含有一聲道遮罩指示該工具針對哪些聲道為作用態。如此,LFE(LFE=低頻效應/加強聲道)可自聲道對檢索去除,允許更有效編碼。例如用於11.1配置,如此將聲道對索引之數目從12 * 11/2=66減至11*10/2=55,允許以6位元而非7位元傳訊。此機制也可被使用來排除意圖為單聲物件的聲道(多語言聲軌)。聲道遮罩(channelMask)之解碼上,可生成聲道對映(channelMap)以允許聲道對索引重新對映至解碼器聲道。
再者,迭代處理器102可經組配以,針對第一時框,推衍多個經選取對指示,其中該輸出介面106可經組配以針對第二時框,在第一時框之後包括一保持指標入多聲道信號107內,指示第二時框具有與第一時框相等多數個經選取對指示。
保持指標或保持樹旗標可被使用來傳訊未發射新樹,但應使用最末立體聲樹。如此可使用來避免聲道相關性質長時間維持靜態時相同立體聲樹組態被多重發射。
圖8顯示立體聲框110、112之示意方塊圖。立體聲框110、112包含針對第一輸入信號I1及第二輸入信號I2之輸入,及針對第一輸出信號O1及第二輸出信號O2之輸出。如於圖8中指示,輸出信號O1及O2自輸入信號I1及I2之相依性可藉s-參數S1至S4描述。
迭代處理器102可使用(或包含)立體聲框110、112以在輸入聲道及/或經處理聲道上進行多聲道處理操作以推衍(進一步)經處理聲道。舉例言之,迭代處理器102可經組配以使用通用的以預測為基礎或以KLT(Karhunen-Loève變換)為基礎之旋轉立體聲框110、112。
通用編碼器(或編碼器端立體聲框)可經組配以編碼輸入信號I1及I2以基於方程式獲得輸出信號O1及O2:
通用解碼器(或解碼器端立體聲框)可經組配以解碼輸入信號I1及I2以基於方程式獲得輸出信號O1及O2:
以預測為基礎之編碼器(或編碼器端立體聲框)可經組配以編碼輸入信號I1及I2以基於方程式獲得輸出信號O1及O2:
其中p為預測係數。
以預測為基礎之解碼器(或解碼器端立體聲框)可經組配以解碼輸入信號I1及I2以基於方程式獲得輸出信號O1及O2:
以KLT為基礎之旋轉編碼器(或編碼器端立體聲框)可經組配以編碼輸入信號I1及I2以基於方程式獲得輸出信號O1及O2:
以KLT為基礎之旋轉解碼器(或解碼器端立體聲框)可經組配以解碼輸入信號I1及I2以基於方程式獲得輸出信號O1及O2:
於下文中,描述針對以KLT為基礎之旋轉的旋轉角α之計算。
針對以KLT為基礎之旋轉的旋轉角α可定義為:
cxy為非標準化相關性矩陣的分錄,其中c11、c22為聲道能量。
此點可使用atan2函數實施以許可區別分子中之負相關性與分母中之負能量差:alpha=0.5*atan2(2*correlation[ch1][ch2],(correlation[ch1][ch1]-correlation[ch2][ch2]));
又,迭代處理器102可經組配以使用包含多個帶的各聲道之一時框計算聲道間相關性因而獲得針對多個帶的聲道間相關性,其中迭代處理器102可經組配以針對多個帶中之各者進行多聲道處理因而自多個帶中之各者獲得多聲道參數。
因此,迭代處理器102可經組配以於多聲道處理中計算立體聲參數,其中迭代處理器102可經組配以只於帶中進行多聲道處理,其中立體聲參數係高於由立體聲量化器(例如,以KLT為基礎之旋轉編碼器)界定的量化至零臨界值。立體聲參數例如,可以是MS開/關或旋轉角或預測係數)。
舉例言之,迭代處理器102可經組配以於多聲道處理中計算旋轉角,其中迭代處理器102可經組配以只於帶中進行旋轉處理,其中旋轉角係高於由旋轉角量 化器(例如,以KLT為基礎之旋轉編碼器)界定的量化至零臨界值。
如此,編碼器100(或輸出介面106)可經組配以發射變換/旋轉資訊為用於完整頻譜(全帶框)的一個參數或為用於頻譜之部分的多頻譜相依性參數。
編碼器100可經組配以基於下表而生成位元串流107:
圖9顯示依據一實施例迭代處理器102之示意方塊圖。於圖9中顯示的實施例中,多聲道信號101為具有六聲道的5.1聲道信號:左聲道L、右聲道R、左環繞聲道Ls、右環繞聲道Rs、中置聲道C及低頻特效聲道LFE。
如於圖9中指示,LFE聲道係不藉迭代處理器102處理。可能成為此種情況的原因在於LFE聲道與另五個聲道L、R、Ls、Rs、及C間之聲道間相關性值小,或原因在於聲道遮罩指示不處理LFE聲道,其將於後文中假設。
於第一迭代步驟中,迭代處理器102計算各對五個聲道L、R、Ls、Rs、及C間之聲道間相關性值,用於第一迭代步驟中,選擇具有最高值或具有高於臨界值之值的一對。於圖9中假設左聲道L及右聲道R具有最高 值,使得迭代處理器102使用立體聲框(或立體聲工具)110,其進行多聲道操作處理操作,處理左聲道L及右聲道R以推衍第一及第二經處理聲道P1及P2。
於第二迭代步驟中,迭代處理器102計算各對五個聲道L、R、Ls、Rs、及C與經處理聲道P1及P2間之聲道間相關性值,用於第二迭代步驟中,選擇具有最高值或具有高於臨界值之值的一對。於圖9中假設左環繞聲道Ls及右環繞聲道Rs具有最高值,使得迭代處理器102使用立體聲框(或立體聲工具)112處理左環繞聲道Ls及右環繞聲道Rs,以推衍第三及第四經處理聲道P3及P4。
於第三迭代步驟中,迭代處理器102計算各對五個聲道L、R、Ls、Rs、及C與經處理聲道P1至P4間之聲道間相關性值,用於第三迭代步驟中,選擇具有最高值或具有高於臨界值之值的一對。於圖9中假設第一經處理聲道P1及第三經處理聲道P3具有最高值,使得迭代處理器102使用立體聲框(或立體聲工具)114處理第一經處理聲道P1及第三經處理聲道P3,以推衍第五及第六經處理聲道P5及P6。
於第四迭代步驟中,迭代處理器102計算各對五個聲道L、R、Ls、Rs、及C與經處理聲道P1至P6間之聲道間相關性值,用於第四迭代步驟中,選擇具有最高值或具有高於臨界值之值的一對。於圖9中假設第五經處理聲道P5及中置聲道C具有最高值,使得迭代處理器102使用立體聲框(或立體聲工具)115處理第五經處理 聲道P5及中置聲道C,以推衍第七及第八經處理聲道P7及P8。
立體聲框110至116可以是MS立體聲框,亦即中間/側邊立體聲框經組配以提供中間聲道及側邊聲道。中間聲道可以是立體聲框之輸入聲道之和,其中該側邊聲道可以是立體聲框之輸入聲道之差。又,立體聲框110及116可以是旋轉框或立體聲預測框。
於圖9中,第一經處理聲道P1、第三經處理聲道P3及第五經處理聲道P5可以是中間聲道,其中該第二經處理聲道P2、第四經處理聲道P4及第六經處理聲道P6可以是側邊聲道。
又,如於圖9中指示,迭代處理器102可經組配以,於第二迭代步驟中,及若屬適宜,於任何進一步迭代步驟中使用輸入聲道L、R、Ls、Rs、及C及(只有)經處理聲道之中間聲道P1、P3及P5進行計算、選擇及處理。換言之,迭代處理器102可經組配以,於第二迭代步驟中,及若屬適宜,於任何進一步迭代步驟中不使用經處理聲道之側邊聲道P1、P3及P5進行計算、選擇及處理。
圖11顯示用於編碼具有至少三個聲道的多聲道信號之一方法300的流程圖。方法300包含一步驟302於第一迭代步驟中,計算各對至少三個聲道間之聲道間相關性值,於第一迭代步驟中,選擇一對具有最高值或具有高於臨界值之值,及使用多聲道處理操作處理該經選取對以推衍用於該經選取對之多聲道參數MCH_PAR1及 推衍第一經處理聲道;一步驟304於第二迭代步驟中,使用經處理聲道中之至少一者進行計算、選擇及處理以推衍多聲道參數MCH_PAR2及第二經處理聲道;一步驟306編碼藉迭代處理器進行迭代處理所得的聲道以獲得經編碼聲道;一步驟308生成經編碼之多聲道信號具有經編碼聲道及第一及多聲道參數MCH_PAR2。
於下文中,解釋多聲道解碼。
圖10顯示用於解碼具有經編碼聲道E1至E3及至少兩個多聲道參數MCH_PAR1及MCH_PAR2的經編碼多聲道信號107的一設備(解碼器)200的示意方塊圖。
設備200包含聲道解碼器202及多聲道處理器204。
聲道解碼器202係經組配以解碼經編碼聲道E1至E3以獲得於D1至D3的經解碼聲道。
舉例言之,聲道解碼器202可包含至少三個單聲解碼器(或單聲框,或單聲工具)206_1至206_3,其中單聲解碼器206_1至206_3中之各者可經組配以解碼至少三個經編碼聲道E1至E3中之一者,以獲得個別經解碼聲道E1至E3。單聲解碼器206_1至206_3例如,可以是以變換為基礎之音訊解碼器。
多聲道處理器204係經組配用於使用由多聲道參數MCH_PAR2識別的第二對經解碼聲道及使用多聲道參數MCH_PAR2進行多聲道處理以獲得經處理聲 道,及用於使用由多聲道參數MCH_PAR1識別的第一對聲道及使用多聲道參數MCH_PAR1進行進一步多聲道處理,於該處該第一對聲道包含至少一個經處理聲道。
舉例言之如於圖10中指示,多聲道參數MCH_PAR2可指示(或傳訊)第二對經解碼聲道包含第一經解碼聲道D1及第兩個經解碼聲道D2。如此,多聲道處理器204使用由第一經解碼聲道D1及第兩個經解碼聲道D2組成的第二對經解碼聲道(藉多聲道參數MCH_PAR2識別)及使用多聲道參數MCH_PAR2進行多聲道處理,以獲得經處理聲道P1*及P2*。多聲道參數MCH_PAR1可指示第一對經解碼聲道包含第一經處理聲道P1*及第三經解碼聲道D3。如此,多聲道處理器204使用由第一經處理聲道P1*及第三經解碼聲道D3組成的第一對經解碼聲道(藉多聲道參數MCH_PAR1識別)及使用多聲道參數MCH_PAR1進行進一步多聲道處理,以獲得經處理聲道P3*及P4*。
又復,多聲道處理器204可提供第三經處理聲道P3*作為第一聲道CH1,第四經處理聲道P4*作為第三聲道CH3,及第二經處理聲道P2*作為第一聲道CH2。
假設圖10中顯示的解碼器200自圖7中顯示的編碼器100接收經編碼多聲道信號107,解碼器200的第一經解碼聲道D1可等於編碼器100的第三經處理聲道P3,其中解碼器200的第兩個經解碼聲道D2可等於編 碼器100的第四經處理聲道P4,及其中解碼器200的第三經解碼聲道D3可等於編碼器100的第二經處理聲道P2。又,解碼器200的第一經處理聲道P1可等於編碼器100的第一經處理聲道P1。
又,經編碼多聲道信號107可以是串列信號,其中該多聲道參數MCH_PAR2係在多聲道參數MCH_PAR1之前,於解碼器200接收。於該種情況下,多聲道處理器204可經組配以一排序處理經解碼之聲道,於其中該等多聲道參數MCH_PAR1及MCH_PAR2係由解碼器接收。於圖10顯示的釋例中,在多聲道參數MCH_PAR1之前,解碼器接收多聲道參數MCH_PAR2,及如此在使用由多聲道參數MCH_PAR1識別的第一對經解碼之聲道(包含第一經處理聲道P1*及第三經解碼聲道D3)進行多聲道處理之前使用由多聲道參數MCH_PAR2識別的第二對經解碼之聲道(包含第一及第兩個經解碼聲道D1及D2)進行多聲道處理。
於圖10中,多聲道處理器204釋例地進行兩次多聲道處理操作。為了例示目的,由多聲道處理器204進行的多聲道處理操作於圖10中由處理框208及210例示。處理框208及210可於硬體或軟體實施。處理框208及210可以是例如前文參考編碼器100討論的立體聲框,諸如通用解碼器(或解碼器端立體聲框)、以預測為基礎的解碼器(或解碼器端立體聲框)、或以KLT為基礎的旋轉解碼器(或解碼器端立體聲框)。
舉例言之,編碼器100可使用以KLT為基礎的旋轉解碼器(或解碼器端立體聲框)。於該種情況下,編碼器100可推衍多聲道參數MCH_PAR1及MCH_PAR2使得多聲道參數MCH_PAR1及MCH_PAR2包含旋轉角。旋轉角可差分編碼。因此,解碼器200之多聲道處理器204可包含用於差分解碼該等經差分編碼之旋轉角的差分解碼器。
設備200可進一步包含輸入介面212經組配以接收及處理經編碼多聲道信號107,以提供經編碼聲道E1至E3給聲道解碼器202及多聲道參數MCH_PAR1及MCH_PAR2給多聲道處理器204。
如前文已述,保持指標(或保持樹旗標)可被使用來傳訊未發射新樹,但應使用最末立體聲樹。如此可使用來避免聲道相關性質長時間維持靜態時相同立體聲樹組態被多重發射。
因此,當針對第一時框,經編碼多聲道信號107包含多聲道參數MCH_PAR1及MCH_PAR2,及在第一時框之後,針對第二時框包含保持指標時,多聲道處理器204可經組配以對如同於第一時框中使用的相同第二對或相同第一對聲道於第二時框中進行多聲道處理或進一步多聲道處理。
多聲道處理及進一步多聲道處理可包含使用立體聲參數的立體聲處理,其中針對經解碼聲道D1至D3之個別比例因數帶或群組比例因數帶,第一立體聲參 數係涵括於多聲道參數MCH_PAR1及第二立體聲參數係涵括於多聲道參數MCH_PAR2。因此,第一立體聲參數及第二立體聲參數可屬相同類型,諸如旋轉角或預測係數。當然,第一立體聲參數及第二立體聲參數可屬不同類型。例如,第一立體聲參數可以是旋轉角,其中該第二立體聲參數可以是預測係數或反之亦然。
又,多聲道參數MCH_PAR1及MCH_PAR2可包含多聲道處理遮罩指示哪些比例因數帶係經多聲道處理及哪些比例因數帶係不經多聲道處理。藉此,多聲道處理器204可經組配以於由多聲道處理遮罩指示的比例因數帶中不進行多聲道處理。
多聲道參數MCH_PAR1及MCH_PAR2可各自包括一聲道對識別符(或索引),其中該多聲道處理器204可經組配以使用經預先界定的解碼規則或於經編碼之多聲道信號中指示的解碼規則而解碼該聲道對識別符(或索引)。
舉例言之,如前文就編碼器100之描述,取決於聲道之總數,聲道對可使用針對各對的一獨特索引而有效地傳訊。
又,解碼規則可以是霍夫曼解碼規則,其中該多聲道處理器204可經組配以進行聲道對識別符之霍夫曼解碼。
經編碼多聲道信號107可進一步包含多聲道處理容差指標指示只有一小組經解碼之聲道,對其許可 多聲道處理,及指示對其不許可多聲道處理的至少一個經解碼之聲道。藉此,多聲道處理器204可經組配以針對該至少一個經解碼之聲道不進行任何多聲道處理,如由多聲道處理容差指標指示對該聲道不許可多聲道處理。
舉例言之,當多聲道信號為5.1聲道信號時,多聲道處理容差指標可指示多聲道處理只許可用於5聲道,亦即,右R、左L、右環繞Rs、左環繞LS及中置C,其中該多聲道處理係不許可用於LFE聲道。
用於解碼程序(聲道對索引之解碼)可使用如下c-代碼。因此,針對全部聲道對,需要具有作用態KLT處理的聲道數目(nChannels)以及目前時框的聲道對數目(numPairs)。
為了解碼用於非逐帶角的預測係數可使用如下c-代碼。
為了解碼用於非逐帶KLT角的預測係數可使用如下c-代碼。
為了避免不同平台上三角函數之浮點差,須使用用於將角指數直接轉換成sin/cos的下列詢查表:
為了多聲道編碼之解碼如下c-代碼可使用於以KLT旋轉為基礎的辦法。
為了逐帶處理可使用如下c-代碼。
為了KLT旋轉應用可使用如下c-代碼。
圖12顯示用於解碼具有經編碼聲道及至少兩個多聲道參數MCH_PAR1、MCH_PAR2的一經編碼之多聲道信號之一方法400的流程圖。方法400包含一步驟402解碼經編碼聲道以獲得經解碼之聲道;及一步驟404使用由多聲道參數MCH_PAR2識別的第二對經解碼之聲道及使用多聲道參數MCH_PAR2進行多聲道處理以獲得經處理聲道,及使用由多聲道參數MCH_PAR1識別的第一對聲道及使用多聲道參數MCH_PAR1進行進一步多聲道處理,其中該第一對聲道包含至少一個經處理聲道。
於後文中,解釋依據實施例於多聲道編碼中之立體聲充填:
如已摘述,頻譜量化之非期望效果可以是量化可能導致頻譜孔。舉例言之,因量化結果於一特定頻帶中之全部頻譜值在編碼器端上可被設定為零。舉例言 之,於量化之前此等頻譜線之確切值可以相當低及然後量化可導致一種情況,於該處例如,在一特定頻帶內部的全部頻譜線之頻譜值已被設定為零。在解碼器端上,當解碼時,如此可能導致非期望的頻譜孔。
於MPEG-H中之多聲道編碼工具(MCT)允許適應不同的聲道相依性,但因於典型操作組態中單一聲道元件的使用故,不允許立體聲充填。
如於圖14中可知,多聲道編碼工具組合以階層方式編碼的三個或以上的聲道。然而,當編碼因時框而異時,多聲道編碼工具(MCT)如何組合不同聲道的方式取決於聲道的目前信號性質。
舉例言之,於圖14中,情境(a),為了生成第一經編碼之音訊信號時框,多聲道編碼工具(MCT)可組合第一聲道Ch1及第二聲道CH2來獲得第一組合聲道(經處理聲道)P1及第二組合聲道P2。然後,多聲道編碼工具(MCT)可組合第一組合聲道P1及第三聲道CH3來獲得第三組合聲道P3及第四組合聲道P4。然後多聲道編碼工具(MCT)可編碼第二組合聲道P2、第三組合聲道P3及第四組合聲道P4以生成第一時框。
然後,舉例言之,於圖14中,情境(b),為了生成在第一經編碼之音訊信號時框之第二經編碼之音訊信號時框(時間上),多聲道編碼工具(MCT)可組合第一聲道CH1’及第三聲道CH3’以獲得第一組合聲道P1’及第二組合聲道P2’。然後,多聲道編碼工具(MCT)可組合第 一組合聲道P1’及第二聲道CH2以獲得第三組合聲道P3’及第四組合聲道P4’。然後多聲道編碼工具(MCT)可編碼第二組合聲道P2’、第三組合聲道P3’及第四組合聲道P4’以生成第二時框。
如從圖14可知,於圖14(a)之情境中已經生成第一時框之第二、第三及第四組合聲道之方式與於圖14(b)之情境中已經生成第二時框之第二、第三及第四組合聲道之方式分別地有顯著差異,原因在於已經使用不同聲道組合以生成分別地個別組合聲道P2、P3及P4及P2’、P3’、P4’。
尤其,本發明之實施例植基於下列發現:
如於圖7及圖14中可知,組合聲道P3、P4及P2(或圖14情境(b)中之P2’、P3’及P4’)饋進聲道編碼器104內。尤其,聲道編碼器104例如可進行量化,使得聲道P2、P3及P4之頻譜值因量化故可被設定為零。頻譜上鄰近的頻譜樣本可被編碼為頻帶,其中各頻帶可包含一定數目之頻譜樣本。
頻帶之頻譜樣本之數目針對不同頻帶可以不同。舉例言之,較低頻率範圍以內的頻帶可以例如包含比於較高頻率範圍中之頻帶,其例如可包含16頻譜樣本,更少的頻譜樣本(例如,4頻譜樣本)。舉例言之,巴克(Bark)尺規標準帶可界定使用的頻帶。
當一頻帶的全部頻譜樣本在量化之後已設定為零時,可能出現特別非期望的情況。若可能出現此種 情況,則依據本發明建議進行立體聲充填。再者,本發明係基於發現須生成至少而非只有(假-)隨機雜訊。
替代或除外加上(假-)隨機雜訊,依據本發明之實施例。例如於圖14情境(b)中,聲道P4’的一頻帶的全部頻譜值已設定為零,以聲道P3’相同或類似方式已生成的組合聲道將為用於充填已量化為零的頻帶中之雜訊的極其適當基礎。
然而,依據本發明之實施例,較佳地不使用目前時框之/目前時間點之P3’組合聲道的頻譜值作為充填P4’組合聲道的頻帶之基礎,其只包含零的頻譜值,原因在於組合聲道P3’以及組合聲道P4’兩者已基於聲道P1’及P2’生成,及因而使用目前時間點之P3’組合聲道將只導致汰選。
例如,若P3’為P1’及P2’的中間聲道(例如,P3’=0.5*(P1’+P2’))及P4’若為P1’及P2’的側邊聲道(例如,P4’=0.5*(P1’-P2’)),則例如將P3’之頻譜值導入P4’之頻帶內部將只導致汰選。
取而代之,以使用前一時間點的聲道用於生成用以充填目前P4’組合聲道中之頻譜孔的頻譜值將為較佳。依據本發明之發現,對應目前時框之P3’組合聲道的先前時框的聲道的組合將為用於生成用以充填P4’之頻譜孔的頻譜樣本的期望基礎。
然而,針對先前時框於圖10(a)之情境中生成的組合聲道P3並不對應目前時框的組合聲道P3’,原 因在於先前時框的組合聲道P3已經以與目前時框的組合聲道P3’不同之方式生成。
依據本發明之實施例之發現,P3’組合聲道之估計將基於解碼器端的先前時框的重建聲道生成。
圖10(a)例示一編碼器情境於該處聲道CH1、CH2及CH3係藉生成E1、E2及E3而針對先前時框編碼。解碼器接收聲道E1、E2及E3及重建已編碼的聲道CH1、CH2及CH3。可能已出現某些編碼損耗,但估計CH1、CH2及CH3的已生成聲道CH1*、CH2*及CH3*將相當類似原先聲道CH1、CH2及CH3,使得CH1*CH1;CH2*CH2及CH3*CH3。依據實施例,解碼器將針對先前時框生成的聲道CH1*、CH2*及CH3*維持於緩衝器內以將其使用於目前時框的雜訊充填。
現在將以進一步細節描述圖1a,其例示依據實施例用於解碼之設備201:
圖1a之設備201係適用於解碼先前時框的先前經編碼之多聲道信號以獲得三或多個先前音訊輸出聲道,且係經組配以解碼目前時框之目前經編碼多聲道信號107以獲得三或多個先前音訊輸出聲道。
該設備包含介面212、聲道解碼器202、用以生成三或多個先前音訊輸出聲道CH1、CH2、CH3的多聲道處理器204、及雜訊充填模組220。
介面212適用以接收目前經編碼多聲道信號107,及用以接收包含第一多聲道參數MCH_PAR2的邊帶資訊。
聲道解碼器202適用以解碼目前時框之目前經編碼多聲道信號以獲得一集合之目前時框的三或多個經解碼聲道D1、D2、D3。
多聲道處理器204適用以取決於第一多聲道參數MCH_PAR2而自該集合之三或多個經解碼聲道D1、D2、D3選擇第一經選取對之兩個經解碼聲道D1、D2。
舉個釋例此點於圖1a中以饋進(選擇性)處理框208的兩個聲道D1、D2例示。
再者,多聲道處理器204適用以基於該第一經選取對之兩個經解碼聲道D1、D2生成第一組二或多個經處理聲道P1*、P2*而獲得三或多個經解碼聲道D3、P1*、P2*之已更新集合。
於該釋例中,於該處兩個聲道D1及D2饋進(選擇性)框208,二經處理聲道P1*及P2*係自兩個經選取聲道D1及D2生成。然後三或多個經解碼聲道之已更新集合包含已留下未經修正的聲道D3及進一步包含已自D1及D2生成的P1*及P2*。
在多聲道處理器204基於第一經選取的成對兩個經解碼聲道D1、D2生成第一對二或多個經處理聲道P1*、P2*之前,雜訊充填模組220適用以識別該第一 經選取的成對兩個經解碼聲道D1、D2之二聲道中之至少一者,一或多個頻帶,於其內部全部頻譜線皆量化為零,及用以使用三或多個先前音訊輸出聲道中之二或多者,但非全部生成一混合聲道,及用以使用混合聲道之頻譜線生成的雜訊,充填一或多個頻帶之頻譜線,於其內部全部頻譜線皆被量化為零,其中雜訊充填模組220適用以選擇二或多個先前音訊輸出聲道,其係用以取決於邊帶資訊而自三或多個先前音訊輸出聲道生成混合聲道。
如此,雜訊充填模組220分析是否有頻帶只有為零的頻譜值,及又復以所生成的雜訊充填所發現的空白頻帶。舉例言之,頻帶可例如有4或8或16頻譜線及當一頻帶的全部已量化至零時雜訊充填模組220充填所生成的雜訊。
由雜訊充填模組220採用的載明如何生成及充填雜訊的實施例之特殊構想被稱作為立體聲充填。
於圖1a之實施例中,雜訊充填模組220與多聲道處理器204互動。舉例言之,於一實施例中,例如當雜訊充填模組想藉處理框處理二聲道時,其將此等聲道饋進雜訊充填模組220,及雜訊充填模組220檢查頻帶是否已被量化為零,及若經檢測得即充填此等頻帶。
於藉圖1b例示之其它實施例中,雜訊充填模組220與聲道解碼器202互動。舉例言之,當聲道解碼器已解碼經編碼之多聲道信號以獲得三或多個經解碼聲道D1、D2及D3時,雜訊充填模組例如可檢查頻帶是否 已被量化為零,及例如若經檢測得即充填此等頻帶。於此一實施例中,多聲道處理器204可確保在藉充填雜訊之前全部頻譜孔皆已被關閉。
於進一步實施例中(未顯示於圖中),雜訊充填模組220可與聲道解碼器及多聲道處理器兩者互動。舉例言之,當聲道解碼器202生成經解碼聲道D1、D2及D3時,恰在聲道解碼器202已生成頻帶之後,雜訊充填模組220可已檢查頻帶是否已被量化為零,但當多聲道處理器204真正處理此等聲道時,可只生成雜訊及充填個別頻帶。
舉例言之,計算廉價操作可將隨機雜訊插入已被量化為零的頻帶中之任一者,但唯若其真正由多聲道處理器204處理,雜訊充填模組才可充填自先前生成的音訊輸出聲道生成的雜訊。然而,於此等實施例中,在插入隨機雜訊之前,對頻譜孔是否存在的檢測須在插入隨機雜訊之前進行,及該資訊須維持於記憶體中,原因在於在插入隨機雜訊之後,因已插入隨機雜訊故個別頻帶具有非零的頻譜值。
於實施例中,除了基於先前音訊輸出聲道生成的雜訊之外,隨機雜訊被插入已被量化至零的頻帶內。
於若干實施例中,介面212例如可適用以接收目前經編碼多聲道信號107,及接收包含第一多聲道參數MCH_PAR2及第二多聲道參數MCH_PAR1的邊帶資訊。
多聲道處理器204例如可適用以取決於第二多聲道參數MCH_PAR1而自三或多個經解碼聲道D3、P1*、P2*之已更新集合選擇第二經選取對之兩個經解碼聲道P1*、D3,其中該第二經選取對之兩個經解碼聲道(P1*、D3)之至少一個聲道P1*為第一對二或多個經處理聲道P1*、P2*中之一個聲道,及
多聲道處理器204例如可適用以基於第二經選取對之兩個經解碼聲道P1*、D3而生成第二組二或多個經處理聲道P3*、P4*以進一步更新三或多個經解碼之聲道的已更新集合。
此一實施例之一釋例可見於圖1a及1b,於該處處理框210接收聲道D3及經處理聲道P1*及處理之以獲得經處理聲道P3*、P4*,使得尚未藉處理框210及所生成的P3*、P4*修正的進一步經更新的三個經解碼之聲道之集合包含P2*。
處理框208及210已於圖1a及圖1b中標記為選擇性。此點顯示雖然可能使用處理框208及210以實施多聲道處理器204,但針對如何確切地實施多聲道處理器204存在有各種其它可能性。舉例言之,替代使用不同處理框208、210用於二(或多)個聲道的各個不同處理,可重複使用相同處理框,或多聲道處理器204可實施二聲道的處理而絲毫也未使用處理框208、210(作為多聲道處理器204之子集)。
依據一進一步實施例,多聲道處理器204例如可適用於經由基於第一經選取對之兩個經解碼聲道D1、D2生成第一組恰兩個經處理聲道P1*、P2*而生成第一組兩個經處理聲道P1*、P2*。多聲道處理器204可例如適用以藉第一組恰兩個經處理聲道P1*、P2*置換於該集合之三或多個經解碼聲道D1、D2、D3中之該第一經選取對之兩個經解碼聲道D1、D2而獲得三或多個經解碼聲道D3、P1*、P2*之已更新集合。多聲道處理器204可例如適用以基於該第二經選取對之兩個經解碼聲道P1*、D3生成第二組恰兩個經處理聲道P3*、P4*而生成第二組二或多個經處理聲道P3*、P4*。又復,多聲道處理器204可例如適用以藉第二組恰兩個經處理聲道P3*、P4*置換於該集合之三或多個經解碼聲道D3、P1*、P2*中之該第二經選取對之兩個經解碼聲道P1*、D3而進一步更新三或多個經解碼聲道之該已更新集合。
因此於此一實施例中,自該等兩個經選取聲道(例如,處理框208或210之兩個輸入信號)生成恰兩個經處理聲道及此等恰兩個經處理聲道置換於該集合之三或多個經解碼聲道中之經選取聲道。舉例言之,多聲道處理器204之處理框208藉P1*及P2*置換經選取聲道D1及D2。
然而,於其它實施例中,上混可於用於解碼之設備201中進行,及自兩個經選取聲道可生成多於二 經處理聲道,或並非全部經選取聲道可自經解碼之聲道之已更新集合刪除。
進一步議題係如何生成混合聲道其係使用來生成藉雜訊充填模組220生成的雜訊。
依據若干實施例,雜訊充填模組220可例如適用以使用三或多個先前音訊輸出聲道中之恰兩者作為該等三或多個先前音訊輸出聲道中之二或多者而生成混合聲道;其中該雜訊充填模組220可例如適用以取決於邊帶資訊而自該等三或多個先前音訊輸出聲道選擇恰兩個先前音訊輸出聲道。
使用該等三或多個先前音訊輸出聲道中之只有兩者輔助減低計算混合聲道的運算複雜度。
然而,於其它實施例中,該等先前音訊輸出聲道中之多於兩個聲道係使用於生成一混合聲道,但考慮的先前音訊輸出聲道之數目係小於該等三或多個先前音訊輸出聲道之總數。
於實施例中,於該處只考慮先前音訊輸出聲道中之二者,混合聲道例如可計算如下:於一實施例中,雜訊充填模組220係適用以根據下式使用恰兩個先前音訊輸出聲道而生成混合聲道 或根據下式
其中D ch 為混合聲道;其中為該等恰兩個先前音訊輸出聲道中之第一者;其中為該等恰兩個先前音訊輸出聲 道中之第二者,其係與該等恰兩個先前音訊輸出聲道中之第一者不同,及其中d為實數正純量。
於典型情況下,中間聲道可以是合宜混合聲道。此種辦法計算混合聲道為被考慮的該等兩個先前音訊輸出聲道之中間聲道。
然而,於有些情況下,當施以 時可能出現混合聲道接近零,例如當時。則例如可 較佳使用作為混合信號。如此,則使用側邊 聲道(用於非在同相位輸入信號)。
根據替代辦法,雜訊充填模組220係適用以根據下式使用恰兩個先前音訊輸出聲道而生成混合聲道 或根據下式
其中為混合聲道;其中為該等恰兩個先前音訊輸出聲道中之第一者;其中為該等恰兩個先前音訊輸出聲道中之第二者,其係與該等恰兩個先前音訊輸出聲道中之第一者不同,及其中α為旋轉角。
此種辦法藉由進行被考慮的該等兩個先前音訊輸出聲道之旋轉而計算混合聲道。
旋轉角α例如可以於如下範圍:-90度<α<90度。
於一實施例中,旋轉角例如可以於如下範圍:30度<α<60度。
再度,於典型情況下,聲道 可以是合宜混合聲道。此種辦法計 算混合聲道為被考慮的該等兩個先前音訊輸出聲道之中間聲道。
然而,於有些情況下,當施以 時可能出現混合聲道接近零,例如 當時。則例如可較佳使用 作為混合信號。
依據特定實施例,邊帶資訊例如可以是目前邊帶資訊被分派於目前時框,其中該介面212可例如適用以接收被分派於先前時框的先前邊帶資訊,其中該先前邊帶資訊包含一先前角;其中該介面212可例如適用以接收包含目前角的目前邊帶資訊,及其中該雜訊充填模組220可例如適用以使用該目前邊帶資訊之目前角作為旋轉角α,且係適用以不使用該先前邊帶資訊之先前角作為旋轉角α。
如此,於此一實施例中,即便混合聲道係基於先前音訊輸出聲道計算,但於邊帶資訊中發射的目前角仍被使用為旋轉角而非先前接收的旋轉角,但混合聲道係基於根據先前時框已生成的先前音訊輸出聲道計算。
本發明之若干實施例的另一面向係有關於比例因數。
頻帶可以是例如比例因數帶。
依據若干實施例,在多聲道處理器204基於該第一經選取對之兩個經解碼聲道(D1、D2)生成該第一對二或多個經處理聲道P1*、P2*之前,該雜訊充填模組(220)可例如適用以針對該第一經選取對之兩個經解碼聲道D1、D2中之二聲道中之至少一者,識別一或多個比例因數帶為於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶,及可例如適用以使用該等二或多個,但非全部三或多個先前音訊輸出聲道而生成混合聲道,及取決於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶中之各者的一比例因數,以使用使用混合聲道之頻譜線生成的雜訊充填於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶的頻譜線。
於此等實施例中,一比例因數例如可被分派至比例因數帶中之各者,及當使用混合聲道生成雜訊時考慮比例因數。
於一特定實施例中,接收介面212例如可經組配以該等一或多個比例因數帶中之各者的比例因數,及該等一或多個比例因數帶中之各者的比例因數指示在量化之前該比例因數帶之頻譜線之能量。雜訊充填模組220可例如適用以生成該等一或多個比例因數帶中之各者的雜訊,於其內部全部頻譜線皆被量化至零,使得在將該雜訊加入該等頻帶中之一者之後,頻譜線之能量對應於由針對該比例因數帶之比例因數指示的能量。
舉例言之,混合聲道可指示用於針對其中須插入雜訊的比例因數帶之4頻譜線之頻譜線,及此等頻譜線例如可以是0.2;0.3;0.5;0.1。
混合聲道之該比例因數帶之能量例如可被計算如下:(0.2)2+(0.3)2+(0.5)2+(0.1)2=0.39
然而,其中雜訊須被充填的用於該聲道的該比例因數帶之比例因數可以例如只是0.0039。
衰減因數例如可被計算如下:
如此,於如上釋例中,
於一實施例中,須被使用作為雜訊的該混合聲道之比例因數帶之各頻譜線被乘以衰減因數:如此,如上釋例的比例因數帶之4頻譜線中之各者被乘以衰減因數及導致衰減頻譜值:0.2.0.01=0.002
0.3.0.01=0.003
0.5.0.01=0.005
0.1.0.01=0.001
然後此等衰減頻譜值例如可被插入雜訊須被充填的用於該聲道的該比例因數帶內。
藉由以其對應的對數運算置換如上運算,例如藉加法置換乘法等,如上釋例同等適用於對數值。
再者,除了以上提供特定實施例之描述之外,雜訊充填模組220之其它實施例適用參照圖2至圖6描述的一個、數個或全部構想。
本發明之實施例的另一面向係有關於下述問題,基於哪個資訊得自先前音訊輸出聲道的聲道被選用於生成混合聲道以獲得欲被插入的雜訊。
依據一實施例,依據雜訊充填模組220之設備可例如適用以取決於第一多聲道參數MCH_PAR2而自該等三或多個先前音訊輸出聲道選擇恰兩個先前音訊輸出聲道。
如此,於此一實施例中,操縱哪些聲道欲被選用於處理的該等第一多聲道參數確實也操縱哪些先前音訊輸出聲道欲被使用以生成混合聲道用來產生欲被插入的雜訊。
於一實施例中,第一多聲道參數MCH_PAR2例如可指示得自該集合三或多個經解碼之聲道之兩個經解碼之聲道D1、D2;及多聲道處理器204適用以藉選擇由第一多聲道參數MCH_PAR2指示的該等兩個經解碼之聲道D1、D2而自該集合三或多個經解碼之聲道D1、D2、D3中選擇該第一經選取對之兩個經解碼聲道D1、D2。再者,第二多聲道參數MCH_PAR1例如可指示得自該集合三或多個經解碼之聲道之兩個經解碼之聲道 P1*、D3。多聲道處理器204可例如適用以藉選擇由第二多聲道參數MCH_PAR1指示的該等兩個經解碼之聲道P1*、D3而自該已更新集合之三或多個經解碼之聲道D3、P1*、P2*中選擇該第一經選取對之兩個經解碼聲道P1*、D3。
如此,於此一實施例中,被選用於第一處理的例如圖1a或圖1b中之處理框208的處理的聲道不僅取決於第一多聲道參數MCH_PAR2。此外,此等兩個經選取聲道係明確地載明於第一多聲道參數MCH_PAR2。
同理,於此一實施例中,被選用於第二處理的例如圖1a或圖1b中之處理框210的處理的聲道不僅取決於第二多聲道參數MCH_PAR1。此外,此等兩個經選取聲道係明確地載明於第二多聲道參數MCH_PAR1。
本發明之實施例介紹用於多聲道參數之複雜的檢索方案其係參考圖15解釋。
圖15(a)顯示在編碼器端上五個聲道之編碼,亦即聲道左、右、中置、左環繞及右環繞。圖15(b)顯示經編碼聲道E0、E1、E2、E3、E4之解碼以重建聲道左、右、中置、左環繞及右環繞。
假設一索引被分派給五個聲道左、右、中置、左環繞及右環繞中之各者,亦即
於圖15(a)中,在編碼器端上,進行的第一操作可以是例如於處理框192中聲道0(左)與聲道3(左環繞)混合以獲得二經處理聲道。可假設該等經處理聲道中之一者為中間聲道及另一聲道為側邊信號。然而,也可適用形成二經處理聲道的其它構想,例如,藉進行旋轉操作而決定二經處理聲道。
現在,該等兩個生成的經處理聲道獲得與用於處理的該等聲道之索引相同的索引。換言之,該等經處理聲道中之第一者具有索引0及該等經處理聲道中之第二者具有索引3。經決定用於本處理之多聲道參數可以是例如(0;3)。
在編碼器端上進行的第二操作可以是例如於處理框194中聲道1(右)與聲道4(右環繞)混合以獲得兩個進一步經處理之聲道。再度,該等兩個進一步生成的經處理聲道獲得與用於處理的該等聲道之索引相同的索引。換言之,該等經處理聲道中之第一者具有索引1及該等經處理聲道中之第二者具有索引4。經決定用於本處理之多聲道參數可以是例如(1;4)。
在編碼器端上進行的第三操作可以是例如於處理框196中經處理聲道0與經處理聲道1混合以獲得另二經處理之聲道。再度,該等兩個生成的經處理聲道獲 得與用於處理的該等聲道之索引相同的索引。換言之,該等經處理聲道中之第一者具有索引0及該等經處理聲道中之第二者具有索引1。經決定用於本處理之多聲道參數可以是例如(0;1)。
經編碼聲道E0、E1、E2、E3、E4係藉其索引區別,換言之,E0具有索引0,E1具有索引1,E2具有索引2等。
在編碼器端上的三次操作導致三個多聲道參數:(0;3)、(1;4)、(0;1)。
因用於解碼之設備須以反向順序進行編碼器操作,故當被發射至用於解碼之設備時多聲道參數之排序例如可以顛倒,導致多聲道參數:(0;1)、(1;4)、(0;3)。
針對用於解碼之設備,(0;1)可稱作第一多聲道參數,(1;4)可稱作第二多聲道參數,及(0;3)可稱作第三多聲道參數。
於圖15(b)顯示的解碼器端上,自接收第一多聲道參數(0;1),用於解碼之設備獲得結論作為在解碼器端上的第一處理操作,聲道0(E0)及1(E1)須經處理。此項處理係於圖15(b)之框296進行。生成的經處理聲道兩者皆繼承來自已用來生成其之該等聲道E0及E1的索引,及因而生成的經處理聲道也具有索引0及1。
自接收第二多聲道參數(1;4),用於解碼之設備獲得結論作為在解碼器端上的第二處理操作,經處理聲道1及聲道4(E4)須經處理。此項處理係於圖15(b)之框294進行。生成的經處理聲道兩者皆繼承來自已用來生成其之該等聲道1及4的索引,及因而生成的經處理聲道也具有索引1及4。
自接收第三多聲道參數(0;3),用於解碼之設備獲得結論作為在解碼器端上的第三處理操作,經處理聲道0及聲道3(E3)須經處理。此項處理係於圖15(b)之框292進行。生成的經處理聲道兩者皆繼承來自已用來生成其之該等聲道0及3的索引,及因而生成的經處理聲道也具有索引0及3。
由於用於解碼之設備之處理結果,聲道左(索引0)、右(索引1)、中置(索引2)、左環繞(索引3)及右環繞(索引4)經重建。
假設在解碼器端,因量化故,於某個比例因數帶內部之全部聲道E1值(索引1)已被量化至零。當用於解碼之設備想要進行框296內之處理時,期望雜訊充填聲道1(聲道E1)。
如已摘述,實施例現在使用兩個先前音訊輸出信號用於雜訊充填聲道1之頻譜孔。
於特定實施例中,若需進行操作的聲道具有已被量化至零的比例因數帶,則二先前音訊輸出聲道係被使用於生成雜訊,該雜訊具有與須進行處理的二聲道相 同的索引數字。於該釋例中,若聲道1之頻譜孔係在處理框296中處理之前經檢測,則具有索引0(先前左聲道)及具有索引1(先前右聲道)的先前音訊輸出聲道係被使用以生成雜訊來充填解碼器端上聲道1之頻譜孔。
因索引係由處理所得的經處理聲道一致地繼承故,若先前音訊輸出聲道將為目前音訊輸出聲道,則可假設先前輸出聲道將扮演用以生成參與解碼器端之實際處理的聲道之角色。如此,可達成已被量化至零的比例因數帶之良好估計。
依據實施例該設備可例如適用以自一集合之識別符分派一識別符至該等三或多個先前音訊輸出聲道中之各個先前音訊輸出聲道,使得該等三或多個先前音訊輸出聲道中之各個先前音訊輸出聲道被分派以該集合之識別符中之恰一個識別符,及使得該集合之識別符中之各個識別符被分派給該等三或多個先前音訊輸出聲道中之恰一個先前音訊輸出聲道。再者,該設備可例如適用以自該集合之識別符分派一識別符至該集合之三或多個經解碼聲道中之各個聲道,使得該集合之三或多個經解碼聲道中之各個聲道被分派以該集合之識別符中之恰一個識別符,及使得該集合之識別符中之各個識別符被分派給該集合之三或多個經解碼聲道中之恰一個聲道。
又復,該第一多聲道參數MCH_PAR2例如可指示該集合之三或多個識別符中之第一對兩個識別符。多聲道處理器204可例如適用以藉由選擇兩個經解碼 聲道D1、D2被分派至該第一對之兩個識別符中之兩個識別符而自該集合之三或多個經解碼聲道D1、D2、D3選擇該第一經選取對之兩個經解碼聲道D1、D2。
該設備可例如適用以分派該第一對之兩個識別符中之該等兩個識別符中之第一者至該第一組恰兩個經處理聲道P1*、P2*中之第一經處理聲道。再者,該設備可例如適用以分派該第一對之兩個識別符中之該等兩個識別符中之第二者至該第一組恰兩個經處理聲道P1*、P2*中之第二經處理聲道。
該集合之識別符例如可以是一集合之索引,例如一集合之非負整數(例如,一集合包含識別符0;1;2;3及4)。
於特定實施例中,該第二多聲道參數MCH_PAR1例如可指示該集合之三或多個識別符中之第二對兩個識別符。多聲道處理器204可例如適用以藉由選擇兩個經解碼聲道(D3、P1*)被分派至該第二對之兩個識別符中之兩個識別符而自該已更新集合之三或多個經解碼聲道D3、P1*、P2*選擇該第二經選取對之兩個經解碼聲道P1*、D3。再者,該設備可例如適用以分派該第二對之兩個識別符中之該等兩個識別符中之第一者至該第二組恰兩個經處理聲道P3*、P4*中之第一經處理聲道。再者,該設備可例如適用以分派該第二對之兩個識別符中之該等兩個識別符中之第二者至該第二組恰兩個經處理聲道P3*、P4*中之第二經處理聲道。
於特定實施例中,該第一多聲道參數MCH_PAR2例如可指示該集合之三或多個識別符中之第一對兩個識別符。雜訊充填模組220可例如適用以藉由選擇二先前音訊輸出聲道被分派至該第一對之兩個識別符中之兩個識別符而自該等三或多個先前音訊輸出聲道中選擇恰兩個先前音訊輸出聲道。
如前摘述,圖7例示依據一實施例用於編碼具有至少三個聲道(CH1:CH3)之多聲道信號101的一設備100。
該設備包含一迭代處理器102適用以於第一迭代步驟中,計算各對之至少三個聲道(CH1:CH3)間之聲道間相關性值,用以於第一迭代步驟中,選出一對具有最高值或具有高於臨界值之值,及用以使用多聲道處理操作110、112處理經選取對而推衍用於該經選取對的初始多聲道參數MCH_PAR1及推衍第一經處理聲道P1、P2。
迭代處理器102係適用以於第二迭代步驟中使用經處理聲道P1中之至少一者進行計算、選擇及處理而推衍進一步多聲道參數MCH_PAR2及第二經處理聲道P3、P4。
再者,該設備包含一聲道編碼器適用以編碼藉迭代處理器104進行迭代處理所得的聲道(P2:P4)以獲得經編碼聲道(E1:E3)。
又復,該設備包含一輸出介面106適用以生成具有經編碼聲道(E1:E3)、初始多聲道參數及進一步 多聲道參數MCH_PAR1、MCH_PAR2之經編碼多聲道信號107。
又復,該設備包含一輸出介面106適用以生成經編碼多聲道信號107以包含一資訊指示用於解碼之設備是否須,以基於先前已藉用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
如此,該用於編碼之設備能夠傳訊用於解碼之設備是否須,以基於先前已藉用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
依據一實施例,初始多聲道參數及進一步多聲道參數MCH_PAR1、MCH_PAR2中之各者指示恰二聲道,恰二聲道中之各一者為經編碼聲道(E1:E3)中之一者或為第一或第二經處理聲道P1、P2、P3、P4中之一者或為至少三個聲道(CH1:CH3)中之一者。
輸出介面106可例如適用以生成經編碼多聲道信號107,使得指示用於解碼之設備是否須充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線的資訊,包含資訊其針對初始多聲道參數及進一步多聲道參數MCH_PAR1、MCH_PAR2中之各一者指示,針對由初始多聲道參數及進一步多聲道參數MCH_PAR1、MCH_PAR2中之該一者指示的恰二聲道中之至少一個聲道,該用於解碼之設備是否須,以基於先前已藉用於解碼 之設備解碼的先前已解碼音訊輸出聲道所生成的頻譜資料,充填該至少一個聲道的一或多個頻帶之頻譜線,於其內部全部頻譜線皆被量化至零。
進一步後文中,描述特定實施例於該處此種資訊係使用hasstereoFilling[pair]值發射,其指示於目前經處理之MCT聲道對中是否須施以立體聲充填。
圖13例示依據實施例之一系統。
該系統包含如前述用於編碼之設備100,及依據前述實施例中之一者的用於解碼之設備201。
用於解碼之設備201係經組配以自用於編碼之設備100接收,由用於編碼之設備100生成的經編碼多聲道信號107。
又復,提供經編碼多聲道信號107。
經編碼多聲道信號包含-經編碼聲道(E1:E3),及-多聲道參數MCH_PAR1、MCH_PAR2,及-資訊其指示用於解碼之一設備是否須,以基於先前已藉用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的頻譜資料,充填一或多個頻帶之頻譜線,於其內部全部頻譜線皆被量化至零。
依據一實施例,經編碼之多聲道信號可例如包含二或多個多聲道參數作為多聲道參數MCH_PAR1、MCH_PAR2。
該等二或多個多聲道參數MCH_PAR1、MCH_PAR2中之各者可例如,指示恰二聲道,該等恰二聲道中之各一者為經編碼聲道(E1:E3)中之一者或為多數經處理聲道P1、P2、P3、P4中之一者或為至少三個原先(例如,未經處理)聲道(CH1:CH3)中之一者。
指示用於解碼之設備是否須充填一或多個頻帶之頻譜線的資訊,於其內部全部頻譜線皆被量化至零,可例如包含資訊其針對二或多個多聲道參數MCH_PAR1、MCH_PAR2中之各一者指示,針對由該等二或多個多聲道參數中之該一者指示的恰二聲道中之至少一個聲道,該用於解碼之設備是否須,以基於先前已藉用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的頻譜資料,充填該至少一個聲道的一或多個頻帶之頻譜線,於其內部全部頻譜線皆被量化至零。
如已摘述,進一步如下,描述特定實施例於該處此種資訊係使用hasStereoFilling[pair]值發射,其指示於目前經處理之MCT聲道對中是否須施以立體聲充填。
後文中,將以進一步細節描述通用構想及特定實施例。
實施例針對具有使用任意立體聲樹之彈性的參數低位元率編碼模式實現了立體聲充填與MCT之組合。
聲道間信號相依性係藉階層式施以已知之聯合立體聲編碼工具加以探勘。用於較低位元率,實施例延伸MCT至使用離散立體聲編碼框與立體聲充填框的組合。如此,半參數編碼可施加於例如具有相似內容的聲道亦即具有最高相關性的聲道對,而不同聲道可獨立編碼或透過非參數表示型態編碼。因此,MCT位元串流語法係經擴延至能夠傳訊是否允許立體聲充填及其為作用態時。
實施例實現用於任意立體聲充填對的先前縮混之生成
立體聲充填仰賴使用先前時框的縮混以改良於頻域中藉量化引起的頻譜孔之充填。然而,於與MCT組合中,該集合之聯合編碼立體聲對現在允許為時變。結果,兩個聯合編碼之聲道於先前時框中,亦即當樹組態改變時可能不曾被聯合編碼。
為了評估先前縮混,先前已解碼輸出聲道經儲存及以反立體聲操作處理。針對一給定立體聲框,此點係使用對應經處理之立體聲框的聲道索引的目前時框及先前時框的已解碼輸出聲道之參數完成。
若先前輸出聲道信號不可得,例如因獨立時框(未考慮先前時框資料而能夠被解碼的時框)或變換長度改變故,則對應聲道之先前聲道緩衝器係設定為零。如此,只要先前聲道信號中之至少一者為可得,則非零先前縮混仍可被計算。
若MCT係經組配以使用以預測為基礎之立體聲框,則先前縮混係以如針對立體聲充填對載明的反 MS操作計算,較佳地基於預測方向旗標(於MPEG-H語法中之pred_dir)使用如下二方程式中之一者。
於該處d為任意實數及正純量。
若MCT係經組配以使用以旋轉為基礎之立體聲框,則先前縮混係使用具有抵消旋轉角的旋轉計算。
如此,針對一旋轉給定為:
反旋轉係計算為:
為先前輸出聲道的期望先前縮混。
實施例實現立體聲充填應用於MCT。
立體聲充填應用於單一立體聲框係描述於[1]、[5]。
至於單一立體聲框,立體聲充填係施加至一給定MCT聲道對之第二聲道。
尤其,立體聲充填組合MCT之差為如下:MCT樹組態係藉每時框一個傳訊位元延伸而能夠傳訊於目前時框中是否允許立體聲充填。
於較佳實施例中,若於目前時框中允許立體聲充填,則用於立體聲框中啟用立體聲充填的一個額外 位元係針對各個立體聲框發射。此乃較佳實施例原因在於其允許編碼器端控制於其上方框須具有於解碼器施加的立體聲充填。
於第二實施例中,若於目前時框中允許立體聲充填,則於全部立體聲框中允許立體聲充填及無額外位元被發射給各個個別立體聲框。於此種情況下,個別MCT框中立體聲充填之選擇性施加係藉解碼器控制。
進一步構想及細節實施例描述於後文中:實施例改良低位元率多聲道操作點的品質。
於經頻域(FD)編碼之聲道對元件(CPE)中MPEG-H 3D音訊標準允許立體聲充填工具,描述於[1]之子條款5.5.5.4.9中,使用於感官上改良由編碼器中極為粗糙量化所造成的頻譜孔之充填。此項工具顯示為尤其針對以中位元率及低位元率編碼的二聲道立體聲特別有利。
[2]之章節7中描述的多聲道編碼工具(MCT),其賦能以每時框為基礎的聯合編碼聲道對之彈性信號適應性定義以探勘於多聲道配置中之時變聲道間相依性。當使用於多聲道配置之有效動態聯合編碼時,於該處各個聲道駐在其個別單一聲道元件(SCE)中,MCT的價值為特別顯著,原因在於不似傳統CPE+SCE(+LFE)組態必須事先建立,MCT允許逐一時框聯合聲道編碼被串級及/或重新組配。
使用CPE編碼多聲道環繞聲音目前有下述缺點,只於CPE中才可利用的聯合立體聲工具-預測性M/S編碼及立體聲充填-無法被探勘,其於中及低位元率特別不利。MCT可作為M/S工具的替代,但立體聲充填工具之替代目前不可得。
藉以個別傳訊位元擴充MCT位元串流語法及藉將立體聲充填之應用普及化至任意聲道對,實施例允許也於MCT的聲道對內部使用立體聲充填工具而與其聲道元件類型無關。
若干實施例例如可於MCT實現立體聲充填之傳訊如下:於CPE中,立體聲充填工具的使用係在針對第二聲道的FD雜訊充填資訊內部傳訊,如於[1]之子條款5.5.5.4.9.4中描述。當運用MCT時,每個聲道可能為「第二聲道」(因交叉元件聲道對的可能故)。因而提示利用每個經MCT編碼聲道對一額外位元而明確地傳訊立體聲充填。當立體聲充填不採用於一特定MCT「樹」之任何聲道對案例時,為了避免需要此種額外位元,於MultichannelCodingFrame()[2]中MCTSignalingType元件的兩個目前保留分錄被利用來傳訊前述聲道對一額外位元的存在。
詳細說明提供如下。
若干實施例例如可實現先前縮混之計算如下: 於CPE中之立體聲充填藉加入先前時框的縮混之個別MDCT係數而充填第二聲道之某些個「空白」比例因數帶,根據對應帶發射的比例因數縮放(否則為不使用原因在於該等帶完全被量化至零故)。使用目標聲道的比例因數帶控制的,加權加法處理方法可同樣採用於MCT之脈絡。然而,立體聲充填之來源頻譜,亦即,先前時框的縮混,須以與CPE內部不同的方式計算,特別因MCT「樹」組態可以時變。
於MCT中,先前縮混可使用目前時框的MCT參數用於該給定聯合聲道對而自最末時框的已解碼輸出聲道(其係儲存於MCT解碼之後)推衍得。針對一對施用以預測M/S為基礎之聯合編碼,取決於目前時框的方向指標,如同於CPE立體聲充填,先前縮混等於適當聲道頻譜的和或差。針對使用以Karhunen-Loève旋轉為基礎之聯合編碼的立體聲對,先前縮混表示使用目前時框的旋轉角計算的反旋轉。再度,詳細說明提供如下。
複雜度評比顯示於MCT中之立體聲充填,為中-及低-位元率工具,當於低/中及高位元率上方測量時並不預期提高最惡劣情況複雜度。再者,使用立體聲充填典型地與更多頻譜係數被量化至零重合,藉此減低以脈絡為基礎之算術解碼器的對數複雜度。假設於N-聲道環繞組態中使用至多N/3立體聲充填聲道及每次執行立體聲充填0.2額外WMOPS,當編碼器取樣率為48kHz及IGF工具只高於12kHz操作時尖峰複雜度對5.1聲道只增加 0.4 WMOPS及對11.1聲道只增加0.8 WMOPS。如此達總解碼器複雜度之小於2%。
實施MultichannelCodingFrame()元件之實施例如下:
依據若干實施例,於MCT中之立體聲充填實施如下: 類似於聲道對元件中用於IGF之立體聲充填,描述於[1]之子條款5.5.5.4.9中,於多聲道編碼工具(MCT)中之立體聲充填使用先前時框的輸出頻譜的縮混於及高於雜訊充填起始頻率充填「空白」比例因數帶(其完全量化至零)。
當立體聲充填於MCT聯合聲道對(於表AMD4.4中hasStereoFilling[pair]≠0)為作用態時,該對的第二聲道之雜訊充填區中之全部「空白」比例因數帶(亦即,於或高於noiseFillingStartOffset開始)係使用先前時框之對應輸出頻譜的縮混(於MCT施加之後)被充填至特定目標能量。此點係於FD雜訊充填之後(參考子條款7.2於ISO/IEC 23003-3:2012)及於比例因數及MCT聯合立體聲施加之前。於已完成的MCT處理之後全部輸出頻譜係儲存用於次一個時框中的潛在立體聲充填。
操作限制例如可以是若第二聲道為相同,則於第二聲道之空白帶中之立體聲充填演算法的串級執行(hasStereoFilling[pair]≠0)不支援具有hasStereoFilling[pair]≠0的任何如下MCT立體聲對。於聲道對元件中,根據[1]之子條款5.5.5.4.9於第二(殘差)聲道中之作用態IGF立體聲充填優先優於-及因而去能-於相同時框的相同聲道中之MCT立體聲充填的任何隨後施用。
術語及定義例如可以是定義如下: hasStereoFilling[pair] 指示於目前經處理的MCT聲道對之立體聲充填的使用
ch1,ch2 於目前經處理的MCT聲道對中之聲道的索引
spectral_data[][] 於目前經處理的MCT聲道對中之聲道的頻譜係數
spectral_data_prev[][] 於先前時框中在已完成的MCT處理之後的輸出頻譜
downmix_prev[][] 具有由目前經處理的MCT聲道對給定的索引之先前時框的輸出聲道之估計縮混
num_swb 比例因數帶之總數,參考ISO/IEC 23003-3,子條款6.2.9.4
ccfl coreCoderFrameLength,變換長度,參考ISO/IEC 23003-3,子條款6.1
noiseFillingStartOffset 雜訊充填開始線,根據ISO/IEC 23003-3,表109中之ccfl上定義
igf_WhiteningLevel 於IGF中之頻譜白化,參考ISO/IEC 23008-3,子條款5.5.5.4.7
seed[] 由randomSign()使用的雜訊充填種子,參考ISO/IEC 23003-3,子條款7.2。
針對若干特定實施例,解碼處理例如可描述如下:MCT立體聲充填係使用四次連續操作進行,容後詳述:
步驟1:用於立體聲充填演算法之第二聲道的頻譜之準備
若針對給定MCT聲道對之立體聲充填指標,hasStereoFilling[pair],等於零則不使用立體聲充填及不執行下列步驟。否則,若先前施加至該對的第二聲道頻譜,spectral_data[ch2],則撤消比例因數施加。
步驟2:針對給定MCT聲道對之先前縮混頻譜的生成
先前縮混係自施加MCT處理之後儲存的先前時框的輸出信號spectral_data_prev[][]估計。若先前輸出聲道信號為不可得,例如,因獨立時框(indepFlag>0)、變換長度改變或core_mode==1故,則對應聲道的先前聲道緩衝器須設定為零。
用於預測立體聲對,亦即MCTSignalingType==0,先前縮混係自先前輸出聲道計算為於[1]之子條款5.5.5.4.9.4之步驟2中界定的downmix_prev[][],藉此spectrum[window][]以spectral_data[][window]表示。
用於旋轉立體聲對,亦即MCTSignalingType==1,先前縮混係藉反相於[2]之子條款5.5.X.3.7.1而自先前輸出聲道計算。
使用先前時框之L=spectral_data_prev[ch1][],R=spectral_data_prev[ch2][],dmx=downmix_prev[]及使用目前時框及MCT對的aldx、nSamples。
步驟3:於第二聲道之空白帶中立體聲充填演算法之執行
如同[1]之子條款5.5.5.4.9.4之步驟3中立體聲充填施加於MCT對的第二聲道,藉此spectrum[window]係以spectral_data[ch2][window]表示及max_sfb_ste係由num_swb給定。
步驟4:雜訊充填種子之比例因數施加及適應性同步化
如同於[1]之子條款5.5.5.4.9.4之步驟3之後,比例因數係施加至如同於ISO/IEC 23003-3之7.3所得頻譜上,空白帶之比例因數係類似常規比例因數處理。假使未界定比例因數,例如因其位置高於max_sfb,其值須等於零。若使用IGF,於第二聲道的拼貼塊中之任一者中的igf_WhiteningLevel等於2,及二聲道不採用 8-短變換,則在執行decode_mct()之前於MCT對中二聲道的頻譜能量係於自noiseFillingStartOffset至索引ccfl/2-1之範圍中計算。若計算得第一聲道之能量係大於第二聲道之能量的八倍以上,第二聲道的seed[ch2]係設定為等於第一聲道的seed[ch1]。
雖然已經於設備的脈絡中描述若干面向,但顯然此等面向也表示對應方法之描述,於該處一方塊或裝置對應於一方法步驟或一方法步驟之特徵。同理,於一方法步驟之脈絡中描述的面向也表示對應設備之對應區塊或項目或特徵的描述。部分或全部方法步驟可由(或使用)硬體設備執行,例如微處理器、可規劃電腦或電子電路。於若干實施例中,最重要的方法步驟中之一或多者可由此種設備執行。
取決於某些實施方式要求,本發明之實施例可於硬體或於軟體或至少部分地於硬體或至少部分地於軟體實施。該實施方式可使用數位儲存媒體進行,例如,軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,具有電子可讀取控制信號儲存其上,其與可規劃電腦系統協作(或能夠協作)使得進行個別方法。因此,數位儲存媒體可以是電腦可讀取。
依據本發明之若干實施例包含具有電子可讀取控制信號的一資料載體,其能與可規劃電腦系統協作使得進行於本文中描述的方法中之一者。
一般而言,本發明之實施例可實施為具有程式碼的一電腦程式產品,當該電腦程式產品於電腦上跑時該程式碼可操作用於執行該等方法中之一者。該程式碼例如可儲存於機器可讀取載體上。
其它實施例包含儲存於一機器可讀取載體上用於進行於本文中描述的方法中之一者的電腦程式。
換言之,因此,本發明之實施例為具有程式碼的一電腦程式,當該電腦程式產品於電腦上跑時該程式碼可用於進行於本文中描述的方法中之一者。
因此,本發明方法之又一實施例為一資料載體(或數位儲存媒體、或電腦可讀取媒體)包含電腦程式紀錄其上用於進行於本文中描述的方法中之一者。資料載體、數位儲存媒體或紀錄媒體典型地為可觸摸及/或非暫態。
因此,本發明方法之又一實施例為一資料串流或一串列之信號表示用於進行於本文中描述的方法中之一者的電腦程式。該資料串流或該串列之信號可例如經組配以透過資料通訊連結,例如透過網際網路移轉。
又一實施例包含經組配以或適用於進行於本文中描述的方法中之一者的一處理構件,例如電腦、或可程式化邏輯裝置。
又一實施例包含一電腦具有用於進行於本文中描述的方法中之一者的電腦程式安裝其上。
依據本發明之又一實施例包含一設備或一系統經組配以移轉(例如,電子式或光學式)用於進行於本文中描述的方法中之一者的電腦程式至接收器。接收器例如可以是電腦、行動裝置、記憶體裝置等。設備或系統例如可包含用於移轉電腦程式至接收器的檔案伺服器。
於若干實施例中,可程式化邏輯裝置(例如,現場可程式閘陣列)可使用以進行於本文中描述的方法之部分或全部功能。於若干實施例中,現場可程式閘陣列可與微處理器協作以進行於本文中描述的方法中之一者。一般而言,該等方法較佳藉任何硬體設備進行。
於本文中描述的設備可使用硬體設備,或使用電腦,或使用硬體設備與電腦的組合實施。
於本文中描述的方法可使用硬體設備,或使用電腦,或使用硬體設備與電腦的組合實施。
前述實施例僅用於例示本發明之原理。須瞭解於本文中描述的配置及細節之修正及變化將為熟諳技藝人士顯然易知。因此,意圖審查中之申請專利範圍之範圍所限而不由藉本文中實施例的描述及解釋呈現的特定細節所限。
參考文獻
[1] ISO/IEC international standard 23008-3:2015, “Information technology - High efficiency coding and media deliverly in heterogeneous environments - Part 3: 3D audio,” March 2015
[2] ISO/IEC amendment 23008-3:2015/PDAM3, “Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Amendment 3: MPEG-H 3D Audio Phase 2,” July 2015
[3] International Organization for Standardization, ISO/IEC 23003-3:2012, “Information Technology - MPEG audio - Part 3: Unified speech and audio coding,” Geneva, Jan. 2012
[4] ISO/IEC 23003-1:2007 - Information technology - MPEG audio technologies Part 1: MPEG Surround
[5] C. R. Helmrich, A. Niedermeier, S. Bayer, B. Edler, “Low-Complexity Semi-Parametric Joint-Stereo Audio Transform Coding,” in Proc. EUSIPCO, Nice, September 2015
[6] ETSI TS 103 190 V1.1.1 (2014-04) - Digital Audio Compression (AC-4) Standard
[7] Yang, Dai and Ai, Hongmei and Kyriakakis, Chris and Kuo, C.-C. Jay, 2001: Adaptive Karhunen-Loeve Transform for Enhanced Multichannel Audio Coding, http://ict.usc.edu/pubs/Adaptive%20Karhunen-Loeve%20Transform%20for %20Enhanced%20Multichannel%20Audio%20Coding.pdf
[8] European Patent Application, Publication EP 2 830 060 A1: “Noise filling in multichannel audio coding”, published on 28 January 2015
[9] Internet Engineering Task Force (IETF), RFC 6716, “Definition of the Opus Audio Codec,” Int. Standard, Sep. 2012. Available online at: http://tools.ietf.org/html/rfc6716
[10] International Organization for Standardization, ISO/IEC 14496-3:2009, “Information Technoiogy - Coding of audio-visual objects - Part 3: Audio,” Geneva, Switzerland, Aug. 2009
[11] M. Neuendorf at al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132nd AES Convention, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013

Claims (22)

  1. 一種用於解碼先前時框之先前經編碼之多聲道信號以獲得三或多個先前音訊輸出聲道及用於解碼目前時框之目前經編碼之多聲道信號以獲得三或多個目前音訊輸出聲道之設備,其中該設備包含一介面、一聲道解碼器、用於生成該等三或多個目前音訊輸出聲道的一多聲道處理器、及一雜訊充填模組,其中該介面係適用以接收該目前經編碼之多聲道信號,及用以接收包含第一多聲道參數之邊帶資訊,其中該聲道解碼器係適用以解碼該目前時框之該目前經編碼之多聲道信號,以獲得該目前時框之一集合之三或多個經解碼聲道,其中該多聲道處理器係適用以取決於該等第一多聲道參數而自該集合之三或多個經解碼聲道選擇一第一經選取對之兩個經解碼聲道,其中該多聲道處理器係適用以基於該第一經選取對之兩個經解碼聲道生成一第一組之二或多個經處理聲道以獲得一已更新集合之三或多個經解碼聲道,其中在該多聲道處理器基於該第一經選取對之兩個經解碼聲道生成該第一對之二或多個經處理聲道之前,該雜訊充填模組係適用以針對該第一經選取對之兩個經解碼聲道中之該等二聲道中之至少一者,識別於其內部全部頻譜線皆被量化至零的一或多個頻帶,及用以使用二或多個,但非全部該等三或多個先前音訊輸出聲道生成一混合聲道,及用以使用該混合聲道之頻譜線所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的該等一或多個頻帶之該等頻譜線,其中該雜訊充填模組係適用以選擇該等二或多個先前音訊輸出聲道其係使用於取決於該邊帶資訊而自該等三或多個先前音訊輸出聲道生成該混合聲道。
  2. 如請求項1之設備,其中該雜訊充填模組係適用以使用該等三或多個先前音訊輸出聲道中之恰兩個先前音訊輸出聲道作為該等三或多個先前音訊輸出聲道中之該等二或多者而生成該混合聲道;其中該雜訊充填模組係適用以取決於該邊帶資訊而自該等三或多個先前音訊輸出聲道中選擇該等恰兩個先前音訊輸出聲道。
  3. 如請求項2之設備,其中該雜訊充填模組係適用以基於該式
    Figure TWI634548B_C0001
    或基於該式
    Figure TWI634548B_C0002
    使用恰兩個先前音訊輸出聲道生成該混合聲道,其中D ch 為該混合聲道,其中
    Figure TWI634548B_C0003
    為該等恰兩個先前音訊輸出聲道中之一第一者,其中
    Figure TWI634548B_C0004
    為該等恰兩個先前音訊輸出聲道中之一第二者,其係與該等恰兩個先前音訊輸出聲道中之該第一者不同,及其中d為一實數正純量。
  4. 如請求項2之設備,其中該雜訊充填模組係適用以基於該式
    Figure TWI634548B_C0005
    或基於該式
    Figure TWI634548B_C0006
    使用恰兩個先前音訊輸出聲道生成該混合聲道,其中
    Figure TWI634548B_C0007
    為該混合聲道,其中
    Figure TWI634548B_C0008
    為該等恰兩個先前音訊輸出聲道中之一第一者,其中
    Figure TWI634548B_C0009
    為該等恰兩個先前音訊輸出聲道中之一第二者,其係與該等恰兩個先前音訊輸出聲道中之該第一者不同,及其中α為一旋轉角。
  5. 如請求項4之設備,其中該邊帶資訊為被分派至該目前時框之目前邊帶資訊,其中該介面係適用以接收被分派至該先前時框之先前邊帶資訊,其中該先前邊帶資訊包含一先前角,其中該介面係適用以接收包含一目前角之該目前邊帶資訊,及其中該雜訊充填模組係適用以使用該目前邊帶資訊之該目前角作為旋轉角,及係適用以不使用該先前邊帶資訊之該先前角作為旋轉角。
  6. 如請求項2之設備,其中該雜訊充填模組係適用以取決於該等第一多聲道參數而自該等三或多個先前音訊輸出聲道中選擇該等恰兩個先前音訊輸出聲道。
  7. 如請求項2之設備,其中該介面係適用以接收該目前經編碼之多聲道信號,及用以接收包含該等第一多聲道參數及第二多聲道參數的該邊帶資訊,其中該多聲道處理器係適用以取決於該等第二多聲道參數而自該已更新集合之三或多個經解碼聲道中選擇一第二經選取對之兩個經解碼聲道,該第二經選取對之兩個經解碼聲道之至少一個聲道為該第一對之二或多個經處理聲道之一個聲道,及其中該多聲道處理器係適用以基於該第二經選取對之兩個經解碼聲道生成一第二組之二或多個經處理聲道以進一步更新該已更新集合之三或多個經解碼聲道。
  8. 如請求項7之設備,其中該多聲道處理器係適用以藉由基於該第一經選取對之兩個經解碼聲道生成一第一組之恰兩個經處理聲道而生成該第一組之二或多個經處理聲道;其中該多聲道處理器係適用以藉該第一組之恰兩個經處理聲道置換於該集合之三或多個經解碼聲道中之該第一經選取對之兩個經解碼聲道而獲得該已更新集合之三或多個經解碼聲道;其中該多聲道處理器係適用以藉由基於該第二經選取對之兩個經解碼聲道生成一第二組之恰兩個經處理聲道而生成該第二組之二或多個經處理聲道,及其中該多聲道處理器係適用以藉該第二組之恰兩個經處理聲道置換於該已更新集合之三或多個經解碼聲道中之該第二經選取對之兩個經解碼聲道而進一步更新該已更新集合之三或多個經解碼聲道。
  9. 如請求項8之設備,其中該等第一多聲道參數指示自該集合之三或多個經解碼聲道之兩個經解碼聲道;其中該多聲道處理器係適用以藉選擇由該等第一多聲道參數指示的該等兩個經解碼聲道而自該集合之三或多個經解碼聲道選擇該第一經選取對之兩個經解碼聲道;其中該等第二多聲道參數指示自該已更新集合之三或多個經解碼聲道之兩個經解碼聲道;其中該多聲道處理器係適用以藉選擇由該等第二多聲道參數指示的該等兩個經解碼聲道而自該已更新集合之三或多個經解碼聲道選擇該第二經選取對之兩個經解碼聲道。
  10. 如請求項9之設備,其中該設備係適用以分派自一集合之識別符的一識別符至該等三或多個先前音訊輸出聲道之各個先前音訊輸出聲道,使得該等三或多個先前音訊輸出聲道之各個先前音訊輸出聲道係被分派至該集合之識別符之恰一個識別符,及使得該集合之識別符之各個識別符係被分派至該等三或多個先前音訊輸出聲道之恰一個先前音訊輸出聲道,其中該設備係適用以分派自該集合之識別符的一識別符至該集合之該等三或多個經解碼聲道之各個聲道,使得該集合之該等三或多個經解碼聲道之各個聲道係被分派至該集合之識別符之恰一個識別符,及使得該集合之識別符之各個識別符係被分派至該集合之該等三或多個經解碼聲道之恰一個聲道,其中該等第一多聲道參數指示該集合之該等三或多個識別符的一第一對之兩個識別符,其中該多聲道處理器係適用以藉選擇被分派至該第一對之兩個識別符之該等兩個識別符的該等兩個經解碼聲道而自該集合之三或多個經解碼聲道選擇該第一經選取對之兩個經解碼聲道;其中該設備係適用以分派該第一對之兩個識別符之該等兩個識別符中之一第一者至該第一組之恰兩個經處理聲道之一第一經處理聲道,及其中該設備係適用以分派該第一對之兩個識別符之該等兩個識別符中之一第二者至該第一組之恰兩個經處理聲道之一第二經處理聲道。
  11. 如請求項10之設備,其中該等第二多聲道參數指示該集合之該等三或多個識別符的一第二對之兩個識別符,其中該多聲道處理器係適用以藉選擇被分派至該第二對之兩個識別符之該等兩個識別符的該等兩個經解碼聲道而自該已更新集合之三或多個經解碼聲道選擇該第二經選取對之兩個經解碼聲道;其中該設備係適用以分派該第二對之兩個識別符之該等兩個識別符中之一第一者至該第二組之恰兩個經處理聲道之一第一經處理聲道,及其中該設備係適用以分派該第二對之兩個識別符之該等兩個識別符中之一第二者至該第二組之恰兩個經處理聲道之一第二經處理聲道。
  12. 如請求項10之設備,其中該等第一多聲道參數指示該集合之該等三或多個識別符的該第一對之兩個識別符,及其中該雜訊充填模組係適用以藉選擇被分派至該第一對之兩個識別符之該等兩個識別符的該等兩個先前音訊輸出聲道而自該等三或多個先前音訊輸出聲道選擇該等恰兩個先前音訊輸出聲道。
  13. 如請求項1之設備,其中,在該多聲道處理器基於該第一經選取對之兩個經解碼聲道生成該第一對之二或多個經處理聲道之前,該雜訊充填模組係適用以針對該第一經選取對之兩個經解碼聲道中之該等兩個聲道中之至少一者,識別一或多個比例因數帶為於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶,及用以使用該等二或多個,但非全部該等三或多個先前音訊輸出聲道而生成該混合聲道,及取決於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶中之各者的一比例因數,以使用使用該混合聲道之該等頻譜線生成的雜訊充填於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶的該等頻譜線。
  14. 如請求項13之設備,其中該接收介面係經組配以接收該等一或多個比例因數帶之各者的該比例因數,及其中該等一或多個比例因數帶之各者的該比例因數指示在量化前該比例因數帶之該等頻譜線之一能量,及其中該雜訊充填模組係適用以針對於其內部全部頻譜線皆被量化至零的該等一或多個比例因數帶中之各者生成該雜訊,使得於將該雜訊加入該等頻帶中之一者之後該等頻譜線之一能量對應於由針對該比例因數帶之該比例因數指示的該能量。
  15. 一種用於編碼具有至少三個聲道之一多聲道信號之設備,其中該設備包含:一迭代處理器係適用以於一第一迭代步驟中,計算各對之該等至少三個聲道間之聲道間相關性值,用以於該第一迭代步驟中,選擇具有一最高值或具有高於一臨界值之一值的一對,及用以使用一多聲道處理操作處理該經選取對以推衍用於該經選取對之初始多聲道參數及推衍第一經處理聲道,其中該迭代處理器係適用以於一第二迭代步驟中使用該等經處理聲道中之至少一者進行該計算、該選擇及該處理以推衍進一步多聲道參數及第二經處理聲道;一聲道編碼器係適用以編碼藉該迭代處理器進行一迭代處理所得的聲道以獲得經編碼聲道;及一輸出介面係適用以生成具有該經編碼聲道、該等初始多聲道參數及該等進一步多聲道參數的一經編碼多聲道信號,且具有一資訊指示一用於解碼之設備是否須以基於先前已經藉該用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
  16. 如請求項15之設備,其中該等初始多聲道參數及該等進一步多聲道參數中之各者指示恰兩個聲道,該等恰兩個聲道中之各一者為該等經編碼聲道中之一者或為該等第一或第二經處理聲道中之一者或為該等至少三個聲道中之一者,及其中該輸出介面係適用以生成該經編碼多聲道信號,使得指示一用於解碼之設備是否須充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線的該資訊,包含資訊其針對該等初始及該等多聲道參數中之各一者指示,針對由該等初始及該等進一步多聲道參數中之該一者指示的該等恰二聲道中之至少一個聲道,該用於解碼之設備是否須,以基於先前已藉用於解碼之設備解碼的該等先前已解碼音訊輸出聲道所生成的該頻譜資料,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
  17. 一種用於編碼多聲道信號及用於解碼經編碼的多聲道信號之系統,其中該系統包含:如請求項15之一用於編碼之設備,及如請求項1之一用於解碼之設備,其中該用於解碼之設備係經組配以自該用於編碼之設備,接收由該用於編碼之設備產生的該經編碼多聲道信號。
  18. 一種用於解碼一先前時框之一先前經編碼之多聲道信號以獲得三或多個先前音訊輸出聲道及用於解碼一目前時框之一目前經編碼之多聲道信號以獲得三或多個目前音訊輸出聲道之方法,其中該方法包含:接收該目前經編碼之多聲道信號,及接收包含第一多聲道參數之邊帶資訊;解碼該目前時框之該目前經編碼之多聲道信號以獲得該目前時框之一集合之三或多個經解碼聲道;取決於該等第一多聲道參數而自該集合之三或多個經解碼聲道選擇一第一經選取對之兩個經解碼聲道;基於該第一經選取對之兩個經解碼聲道生成一第一組之二或多個經處理聲道以獲得一已更新集合之三或多個經解碼聲道;其中在該第一對之二或多個經處理聲道係基於該第一經選取對之兩個經解碼聲道生成之前,進行下列步驟:針對該第一經選取對之兩個經解碼聲道中之該等二聲道中之至少一者,識別於其內部全部頻譜線皆被量化至零的一或多個頻帶,及使用二或多個,但非全部該等三或多個先前音訊輸出聲道生成一混合聲道,及使用該混合聲道之頻譜線所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的該等一或多個頻帶之該等頻譜線,其中選擇該等二或多個先前音訊輸出聲道其係被使用於取決於該邊帶資訊而自該等三或多個先前音訊輸出聲道生成該混合聲道。
  19. 一種用於編碼具有至少三個聲道之多聲道信號之方法,其中該方法包含:於一第一迭代步驟中,計算各對之該等至少三個聲道間之聲道間相關性值,於該第一迭代步驟中,選擇具有一最高值或具有高於一臨界值之一值的一對,及使用一多聲道處理操作處理該經選取對以推衍用於該經選取對之初始多聲道參數及推衍第一經處理聲道;於一第二迭代步驟中使用該等經處理聲道中之至少一者進行該計算、該選擇及該處理以推衍進一步多聲道參數及第二經處理聲道;編碼藉該迭代處理器進行一迭代處理所得的聲道以獲得經編碼聲道;及生成具有該經編碼聲道、該等初始多聲道參數及該等進一步多聲道參數的一經編碼多聲道信號,且具有一資訊指示一用於解碼之設備是否須以基於先前已經藉該用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的雜訊,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
  20. 一種電腦程式,其當在一電腦或信號處理器上執行時用於實施如請求項18或19之方法。
  21. 一種包含經編碼之多聲道信號的電腦可讀取媒體,其包含:經編碼聲道,多聲道參數;及資訊指示一用於解碼之設備是否須以,於先前已藉該用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的頻譜資料,充填於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
  22. 如請求項21之包含經編碼之多聲道信號的電腦可讀取媒體,其包含:其中該經編碼之多聲道信號包含二或多個多聲道參數作為該等多聲道參數,其中該等二或多個多聲道參數中之各者指示恰二聲道,該等恰二聲道中之各一者為該等經編碼聲道中之一者或為多數經處理聲道中之一者或為至少三個原先聲道中之一者,及其中該資訊指示一用於解碼之設備是否須充填其內全部頻譜線皆被量化至零的一或多個頻帶之頻譜線,包含資訊,其指示針對該等二或多個多聲道參數中之各一者,是否針對該等恰二聲道中之至少一者其係藉該等二或多個多聲道參數中之該一者指示,該用於解碼之設備是否須以,於先前已藉該用於解碼之設備解碼的先前已解碼音訊輸出聲道所生成的頻譜資料,充填該至少一個聲道之,於其內部全部頻譜線皆被量化至零的一或多個頻帶之頻譜線。
TW106104736A 2016-02-17 2017-02-14 用以在多聲道編碼中施以立體聲充填之裝置及方法 TWI634548B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16156209.5A EP3208800A1 (en) 2016-02-17 2016-02-17 Apparatus and method for stereo filing in multichannel coding
??16156209.5 2016-02-17

Publications (2)

Publication Number Publication Date
TW201740368A TW201740368A (zh) 2017-11-16
TWI634548B true TWI634548B (zh) 2018-09-01

Family

ID=55361430

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104736A TWI634548B (zh) 2016-02-17 2017-02-14 用以在多聲道編碼中施以立體聲充填之裝置及方法

Country Status (19)

Country Link
US (3) US10733999B2 (zh)
EP (3) EP3208800A1 (zh)
JP (3) JP6735053B2 (zh)
KR (1) KR102241915B1 (zh)
CN (6) CN117059110A (zh)
AR (1) AR107617A1 (zh)
AU (1) AU2017221080B2 (zh)
BR (6) BR112018016898A2 (zh)
CA (1) CA3014339C (zh)
ES (1) ES2773795T3 (zh)
MX (3) MX2018009942A (zh)
MY (1) MY194946A (zh)
PL (1) PL3417452T3 (zh)
PT (1) PT3417452T (zh)
RU (1) RU2710949C1 (zh)
SG (1) SG11201806955QA (zh)
TW (1) TWI634548B (zh)
WO (1) WO2017140666A1 (zh)
ZA (1) ZA201805498B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI782268B (zh) * 2019-04-04 2022-11-01 弗勞恩霍夫爾協會 用於在參數多通道操作和單獨通道操作之間切換的多通道音訊編碼器、解碼器、方法和電腦程式

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037750B2 (en) * 2016-02-17 2018-07-31 RMXHTZ, Inc. Systems and methods for analyzing components of audio tracks
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
EP3497944A1 (en) * 2016-10-31 2019-06-19 Google LLC Projection-based audio coding
CN110892478A (zh) * 2017-04-28 2020-03-17 Dts公司 音频编解码器窗口和变换实现
US10553224B2 (en) * 2017-10-03 2020-02-04 Dolby Laboratories Licensing Corporation Method and system for inter-channel coding
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
BR112020021832A2 (pt) 2018-04-25 2021-02-23 Dolby International Ab integração de técnicas de reconstrução de alta frequência
KR102474146B1 (ko) * 2018-04-25 2022-12-06 돌비 인터네셔널 에이비 후처리 지연을 저감시킨 고주파 재구성 기술의 통합
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
BR112020017338A2 (pt) 2018-07-02 2021-03-02 Dolby Laboratories Licensing Corporation métodos e dispositivos para codificar e/ou decodificar sinais de áudio imersivos
TWI750565B (zh) * 2020-01-15 2021-12-21 原相科技股份有限公司 真無線多聲道揚聲裝置及其多音源發聲之方法
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置
CN114023338A (zh) * 2020-07-17 2022-02-08 华为技术有限公司 多声道音频信号的编码方法和装置
TWI744036B (zh) 2020-10-14 2021-10-21 緯創資通股份有限公司 聲音辨識模型訓練方法及系統與電腦可讀取媒體
CN113242546B (zh) * 2021-06-25 2023-04-21 南京中感微电子有限公司 音频转发方法、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
EP2830060A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
WO2015010998A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
KR101450940B1 (ko) * 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
US7820321B2 (en) 2008-07-07 2010-10-26 Enervault Corporation Redox flow battery system for distributed energy storage
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
KR101518532B1 (ko) 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
EP2182513B1 (en) * 2008-11-04 2013-03-20 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
GEP20146081B (en) 2009-12-07 2014-04-25 Dolby Laboratories Licensing Corp Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
RU2648595C2 (ru) * 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
EP3014609B1 (en) * 2013-06-27 2017-09-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
TWI634547B (zh) * 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
EP2830060A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
WO2015010998A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jurgen Herre, et al., "MPEG-H 3D Audio—The New Standard for Coding of Immersive Spatial Audio", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 9, NO. 5, AUGUST 2015. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI782268B (zh) * 2019-04-04 2022-11-01 弗勞恩霍夫爾協會 用於在參數多通道操作和單獨通道操作之間切換的多通道音訊編碼器、解碼器、方法和電腦程式

Also Published As

Publication number Publication date
EP3208800A1 (en) 2017-08-23
AR107617A1 (es) 2018-05-16
WO2017140666A1 (en) 2017-08-24
BR112018016898A2 (pt) 2018-12-26
CN117153171A (zh) 2023-12-01
JP2019509511A (ja) 2019-04-04
PL3417452T3 (pl) 2020-06-29
TW201740368A (zh) 2017-11-16
AU2017221080B2 (en) 2020-02-27
CN109074810A (zh) 2018-12-21
MX2021009735A (es) 2021-09-08
CN117059110A (zh) 2023-11-14
EP3629326A1 (en) 2020-04-01
US11727944B2 (en) 2023-08-15
JP7122076B2 (ja) 2022-08-19
KR102241915B1 (ko) 2021-04-19
KR20180136440A (ko) 2018-12-24
SG11201806955QA (en) 2018-09-27
CA3014339C (en) 2021-01-26
US20200357418A1 (en) 2020-11-12
US10733999B2 (en) 2020-08-04
BR122023025322A2 (pt) 2024-02-27
ZA201805498B (en) 2019-08-28
MX2021009732A (es) 2021-09-08
JP2022160597A (ja) 2022-10-19
CA3014339A1 (en) 2017-08-24
EP3417452A1 (en) 2018-12-26
CN117116272A (zh) 2023-11-24
CN117059108A (zh) 2023-11-14
US20230377586A1 (en) 2023-11-23
MY194946A (en) 2022-12-27
CN117059109A (zh) 2023-11-14
CN109074810B (zh) 2023-08-18
ES2773795T3 (es) 2020-07-14
JP2020173474A (ja) 2020-10-22
MX2018009942A (es) 2018-11-09
BR122023025319A2 (pt) 2024-02-27
BR122023025309A2 (pt) 2024-02-27
JP6735053B2 (ja) 2020-08-05
US20190005969A1 (en) 2019-01-03
PT3417452T (pt) 2020-03-27
EP3417452B1 (en) 2019-12-25
BR122023025314A2 (pt) 2024-02-27
BR122023025300A2 (pt) 2024-02-27
AU2017221080A1 (en) 2018-10-04
RU2710949C1 (ru) 2020-01-14

Similar Documents

Publication Publication Date Title
TWI634548B (zh) 用以在多聲道編碼中施以立體聲充填之裝置及方法
KR101391110B1 (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
RU2609097C2 (ru) Устройство и способы для адаптации аудиоинформации при пространственном кодировании аудиообъектов
KR101660004B1 (ko) 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법
CN112151049B (zh) 解码器、编码器、产生音频输出信号的方法及编码方法