TWI669704B - 用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備、系統及方法、以及相關電腦程式 - Google Patents

用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備、系統及方法、以及相關電腦程式 Download PDF

Info

Publication number
TWI669704B
TWI669704B TW106102400A TW106102400A TWI669704B TW I669704 B TWI669704 B TW I669704B TW 106102400 A TW106102400 A TW 106102400A TW 106102400 A TW106102400 A TW 106102400A TW I669704 B TWI669704 B TW I669704B
Authority
TW
Taiwan
Prior art keywords
channel
audio signal
frequency band
signal
encoding
Prior art date
Application number
TW106102400A
Other languages
English (en)
Other versions
TW201732780A (zh
Inventor
艾曼紐 拉斐里
馬可斯 史奈爾
史蒂芬 多伊拉
渥爾夫剛 賈格斯
馬汀 迪茲
克里斯汀 赫姆瑞區
葛倫 馬可維希
依萊尼 弗托波勞
馬庫斯 穆爾特斯
史蒂芬 拜爾
古拉米 福契斯
喬根 希瑞
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201732780A publication Critical patent/TW201732780A/zh
Application granted granted Critical
Publication of TWI669704B publication Critical patent/TWI669704B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

提出一種用於編碼包含二或多個聲道之一音訊輸入信號的一第一聲道及一第二聲道以獲得一經編碼的音訊信號的設備。該設備包含一標準化器,其經組配以取決於該音訊輸入信號之該第一聲道及取決於該音訊輸入信號之該第二聲道來決定用於該音訊輸入信號之一標準化值,其中該標準化器係經組配以取決於該標準化值而藉由修改該音訊輸入信號之該第一聲道及該第二聲道中之至少一者來決定一已標準化之音訊信號的一第一聲道及一第二聲道。再者,該設備包含一編碼單元經組配以編碼該經處理的音訊信號以獲得該經編碼的音訊信號。

Description

用於具有具改良式中間/側邊決定之全域ILD的MDCT M/S立體聲之設備、系統及方法、以及相關電腦程式
本發明係有關於音訊信號編碼及音訊信號解碼,及特別係有關於用於具有具改良式中間/側邊決定之全域ILD的MDCT M/S立體聲之設備及方法。
於以MDCT為基礎的編碼器(MDCT=改進的離散餘弦變換)中之逐頻帶M/S處理(M/S=中間/側邊)為用於立體聲處理的已知有效方法。但如此用於汰選信號不足,要求額外處理,諸如中間與側邊聲道間之複合預測或夾角寫碼。
於[1]、[2]、[3]及[4]中,描述於開窗及變換反標準化(非白化)信號上的M/S處理。
於[7]中,描述中間與側邊聲道間之預測。於[7]中,揭示編碼器其基於二音訊聲道的組合而編碼一音訊信號。音訊編碼器獲得一組合信號為中間信號,及進一步獲得自該中間信號衍生的一預測殘差信號為一預測側邊信號。第一組合信號及預測殘差信號經編碼及連同預測資訊寫入資料串流。再者,[7]揭示一顯示器其使用預測殘差信號、第一組合信號及預測資訊產生已解碼的第一及第二音訊聲道。
於[5]中,描述在各個頻帶上分開標準化之後施加M/S立體聲耦合。更明確言之,[5]係指歐帕斯(Opus)編解碼器。歐帕斯編碼中間信號及側邊信號為標準化信號m=M/||M||及s=S/||S||。為了自m及s回復M及S,編碼角θ s=arctan(||S||/||M||)。N為頻帶大小及a為m及s可用的位元總數,針對m之優化配置為amid=(a-(N-1)log2 tanθs)/2。
於已知辦法中(例如,於[2]及[4]中),複雜速率/失真迴路組合其中欲變換的頻帶聲道決定(例如,使用M/S,其也可接著自[7]計算M至S預測殘差)以便減少聲道間之關聯。此種複雜結構具有高運算成本。分開感官模型與速率迴路(如於[6a]、[6b]及[13]中)顯著地簡化了系統。
又,於各個頻帶中之預測係數或角的寫碼要求大量位元(例如,於[5]及[7])。
於[1]、[3]及[5]中,於全頻譜只進行單一 決定以決定全頻譜是否須M/S或L/R寫碼。
若存在有雙耳位準差(ILD),換言之,若聲道經汰選,則M/S寫碼無效。
如前文摘述,已知於以MDCT為基礎的寫碼器中逐頻帶M/S處理乃用於立體聲處理的有效方法。M/S處理寫碼增益自針對不相關聲道的0%變化至針對單聲道或針對π/2聲道間之相位差的50%。因立體聲揭露及反揭露故(參考[1]),要緊地須有穩健的M/S決定。
於[2]中,當左與右間之遮蔽臨界值變化少於2分貝時,各個頻帶選擇M/S寫碼作為寫碼方法。
於[1]中,M/S決定係基於針對聲道的M/S寫碼及針對L/R寫碼(L/R=左/右)的估計得的位元消耗。針對M/S寫碼及針對L/R寫碼的位元率要求係使用感官熵(PE)而自頻譜及自遮蔽臨界值估計。針對左及右聲道計算遮蔽臨界值。針對中間聲道及針對側邊聲道的遮蔽臨界值假設為左及右臨界值中之最小值。
再者,[1]描述如何推衍欲編碼的個別聲道之寫碼臨界值。特別,針對左及右聲道的寫碼臨界值係由針對此等聲道的個別感官模型計算。於[1]中,針對M聲道及S聲道的寫碼臨界值係選擇相等,且係推衍為左及右寫碼臨界值中之最小值。
再者,[1]描述L/R寫碼與M/S寫碼間之決定使得達成良好寫碼效能。特別,使用臨界值針對L/R編碼及M/S編碼估計感官熵。
於[1]及[2]中以及於[3]及[4]中,在開窗及經變換的非標準化(非白化)信號上進行M/S處理,及M/S決定係基於遮蔽臨界值及感官熵估值。
於[5]中,左聲道及右聲道之能係經明確編碼,寫碼角保有差分信號之能。於[5]中假設M/S寫碼為安全,即便L/R寫碼更有效亦復如此。依據[5],L/R寫碼只選用於聲道間之關聯不夠強時。
又復,於各頻帶中之預測係數或角的寫碼要求顯著的位元數(例如,參考[5]及[7])。
因此高度期望針對音訊編碼及音訊解碼提供改良的構想。
本發明之目的係提出音訊信號編碼、音訊信號處理及音訊信號解碼的改良構想。本發明之目的係藉請求項1之音訊解碼器,藉請求項23之設備,藉請求項37之方法,藉請求項38之方法,及藉請求項39之電腦程式解決。
依據一實施例,提出一種用於編碼包含二或多個聲道之一音訊輸入信號的一第一聲道及一第二聲道以獲得一經編碼的音訊信號的設備。
該用於編碼的設備包含一標準化器,其經組配以取決於該音訊輸入信號之該第一聲道及取決於該音訊輸入信號之該第二聲道來決定用於該音訊輸入信號之一標準化值,其中該標準化器係經組配以取決於該標準化值 而藉由修改該音訊輸入信號之該第一聲道及該第二聲道中之至少一者來決定一已標準化之音訊信號的一第一聲道及一第二聲道。
再者,該用於編碼的設備包含一編碼單元經組配以產生具有一第一聲道及一第二聲道的一經處理的音訊信號,使得該經處理的音訊信號之該第一聲道的一或多個頻帶為該已標準化之音訊信號之該第一聲道的一或多個頻帶,使得該經處理的音訊信號之該第二聲道的一或多個頻帶為該已標準化之音訊信號之該第二聲道的一或多個頻帶,使得,取決於該已標準化之音訊信號之該第一聲道的一頻帶及取決於該已標準化之音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第一聲道的至少一個頻帶為一中間信號的一頻帶,及使得,取決於該已標準化之音訊信號之該第一聲道的一頻帶及取決於該已標準化之音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第二聲道的至少一個頻帶為一側邊信號的一頻帶。該編碼單元係經組配以編碼該經處理的音訊信號以獲得該經編碼的音訊信號。
再者,提出一種用於解碼包含一第一聲道及一第二聲道的一經編碼的音訊信號以獲得包含二或多個聲道之一經解碼的音訊信號之一第一聲道及一第二聲道的設備。
該用於解碼的設備包含一解碼單元經組配以,針對多個頻帶中之各個頻帶,決定該經編碼的音訊信 號之該第一聲道的該頻帶及該經編碼的音訊信號之該第二聲道的該頻帶係使用雙-單編碼或使用中間-側邊編碼加以編碼。
若使用該雙-單編碼,則該解碼單元係經組配以使用該經編碼的音訊信號之該第一聲道的該頻帶作為一中間音訊信號之一第一聲道的一頻帶及係經組配以使用該經編碼的音訊信號之該第二聲道的該頻帶作為該中間音訊信號之一第二聲道的一頻帶。
再者,若使用該中間-側邊編碼,則該解碼單元係經組配以基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第一聲道的一頻帶,及基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第二聲道的一頻帶。
又復,該用於解碼的設備包含一反標準化器,其經組配以取決於一反標準化值而修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者以獲得該經解碼的音訊信號之該第一聲道及該第二聲道。
再者提出一種用於編碼包含二或多個聲道之一音訊輸入信號的一第一聲道及一第二聲道以獲得一經編碼的音訊信號的方法。該方法包含:
-取決於該音訊輸入信號的該第一聲道及取決於該音訊輸入信號的該第二聲道針對該音訊輸入信號決定一標準 化值。
-取決於該標準化值,藉修改該音訊輸入信號的該第一聲道及該第二聲道中之至少一者而決定一已標準化之音訊信號的一第一聲道及一第二聲道。
-產生具有一第一聲道及一第二聲道之一經處理的音訊信號,使得該經處理的音訊信號之該第一聲道的一或多個頻帶為該已標準化之音訊信號之該第一聲道的一或多個頻帶,使得該經處理的音訊信號之該第二聲道的一或多個頻帶為該已標準化之音訊信號之該第二聲道的一或多個頻帶,使得,取決於該已標準化之音訊信號之該第一聲道的一頻帶及取決於該已標準化之音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第一聲道的至少一個頻帶為一中間信號的一頻帶,及使得,取決於該已標準化之音訊信號之該第一聲道的一頻帶及取決於該已標準化之音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第二聲道的至少一個頻帶為一側邊信號的一頻帶,及編碼該經處理的音訊信號以獲得該經編碼的音訊信號。
又復,提出一種用於解碼包含一第一聲道及一第二聲道的一經編碼的音訊信號以獲得包含二或多個聲道之一經解碼的音訊信號之一第一聲道及一第二聲道的方法。該方法包含:
-針對多個頻帶中之各個頻帶,決定該經編碼的音訊信號之該第一聲道的該頻帶及該經編碼的音訊信號之該第二聲道的該頻帶是否使用雙-單編碼或使用中間-側邊編碼加 以編碼。
-若使用該雙-單編碼,則使用該經編碼的音訊信號之該第一聲道的該頻帶作為一中間音訊信號之一第一聲道的一頻帶及使用該經編碼的音訊信號之該第二聲道的該頻帶作為該中間音訊信號之一第二聲道的一頻帶。
-若使用該中間-側邊編碼,則基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第一聲道的一頻帶,及基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第二聲道的一頻帶。以及:
-取決於一反標準化值,修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者以獲得一經解碼的音訊信號之該第一聲道及該第二聲道。
再者,提出電腦程式,其中該等電腦程式中之各者係經組配以當在電腦或信號處理器上執行時實施前述方法中之一者。
依據實施例,提供能夠使用最小側邊資訊處理汰選信號的新穎構想。
依據若干實施例,具有速率迴路的FDNS(FDNS=頻域雜訊塑形)係如[6a]及[6b]中描述組合如於[8]中描述的頻譜波封變形使用。於若干實施例中,使用在FDNS-白化頻譜上的單一ILD參數接著逐頻帶決定M/S寫碼或L/R寫碼是否用於寫碼。於若干實施例中,M/S 決定係基於估計得的位元節約。於若干實施例中,經逐頻帶M/S處理的聲道中之位元率分配例如可取決於能源。
若干實施例提供在白化頻譜上施加單一全域ILD,接著以有效M/S決定機制及以控制一個單一全域增益的速率迴路的逐頻帶M/S處理之組合。
若干實施例採用例如基於[6a]或[6b]的帶有速率迴路的FDNS組合例如基於[8]的頻譜波封變形。此等實施例提供用於分開量化雜訊之感官塑形與速率迴路之有效率的且極有效方式。在FDNS-白化頻譜上使用單一ILD參數允許判定是否有如前文描述的M/S處理的優點之簡單有效方式。白化頻譜及去除ILD允許有效M/S處理。與已知辦法相反地,針對所描述系統寫碼單一全域ILD即足,及因而達成位元節約。
依據實施例,M/S處理係基於感官白化信號完成。實施例決定寫碼臨界值,且以最佳方式決定一決定,當處理感官白化信號及ILD補償信號時是否採用L/R寫碼或M/S寫碼。
再者,依據實施例,提出一種新穎位元率估算。
與[1]-[5]相反地,於實施例中,感官模型係與速率迴路分開,如於[6a]、[6b]及[13]。
即便M/S決定如[1]中提示的係基於估計得的位元率,但與[1]相反地,M/S寫碼及L/R寫碼的位元率要求之差異並非取決於由感官模型決定的遮蔽臨界值。 取而代之,位元率要求係由使用的無損耗熵寫碼器決定。換言之:替代自原先信號的感官熵推衍位元率要求,位元率要求係自感官白化信號的熵推衍。
與[1]-[5]相反地,於實施例中,M/S決定係基於感官白化信號決定,及獲得要求位元率之較佳估值。為了達成該目的,可施加如於[6a]或[6b]中描述的算術寫碼器位元消耗估計。無需明確地考慮遮蔽臨界值。
於[1]中,中間及側邊聲道之遮蔽臨界值係假設為左及右遮蔽臨界值之最小值。頻譜雜訊塑形係在中間及側邊聲道上進行,及例如可基於此等遮蔽臨界值。
依據實施例,頻譜雜訊塑形例如可在左及右聲道上進行,及於此等實施例中,感官波封可恰施加至估計處。
又復,實施例係基於發現若存在有ILD,亦即若聲道經汰選,則M/S寫碼無效。為了避免此點,實施例在感官白化頻譜上使用單一ILD參數。
依據若干實施例,提出具有感官白化信號的M/S決定之新穎構想。
依據若干實施例,編解碼器使用非屬傳統音訊編解碼器的一部分之新穎構想,例如於[1]中描述。
依據若干實施例,例如類似使用於語音寫碼器之方式,感官白化信號係用於進一步寫碼。
此種辦法具有數種優點,例如編解碼器架構簡化,達成雜訊塑形特性及遮蔽臨界值的精簡表示型 態,例如作為LPC係數。再者,變換及語音編解碼器架構經統一,因而使其能音訊/語音組合寫碼。
若干實施例採用全域ILD參數以有效地寫碼經汰選的來源。
於實施例中,編解碼器採用頻域雜訊塑形(FDNS)以感官上白化具有速率迴路的信號,如[6a]及[6b]中描述組合如於[8]中描述的頻譜波封變形。於此等實施例中,編解碼器可例如進一步使用在FDNS-白化頻譜上的單一ILD參數接著逐頻帶M/S相較於L/R決定。逐頻帶M/S決定例如可基於當以L/R及以M/S模式寫碼時於各頻帶中估計得的位元率。選用具有最低要求位元的模式。在經逐頻帶M/S處理的聲道中之位元率分配係基於能源。
若干實施例使用針對熵寫碼器的根據頻帶估計得的位元數,在感官白化且經ILD補償的頻譜上施加逐頻帶M/S決定。
於若干實施例中,例如,如於[6a]或[6b]中描述的帶有速率迴路的FDNS組合如於[8]中描述的頻譜波封變形。如此提供分開量化雜訊之感官塑形與速率迴路之有效率的且極有效方式。在FDNS-白化頻譜上使用單一ILD參數允許判定是否有如前文描述的M/S處理的優點之簡單有效方式。白化頻譜及去除ILD允許有效M/S處理。與已知辦法相反地,針對所描述系統寫碼單一全域ILD即足,及因而達成位元節約。
實施例當處理感官白化且經ILD補償的信 號時修改於[1]中提出的構想。特別,實施例採用針對L、R、M及S的等效全域增益其連同FDNS形成寫碼臨界值。全域增益可自SNR估計或自若干其它構想推衍。
提示的逐頻帶M/S決定精確地估計使用算術寫碼器寫碼各個頻帶需要的位元數目。此點為可能原因在於M/S決定係在白化頻譜上完成及直接接著量化。無需實驗搜尋臨界值。
102、115、215、235‧‧‧變換單元
105、106‧‧‧前處理單元
110‧‧‧標準化器
118‧‧‧頻域前處理器
120‧‧‧編碼單元
170、180、270、280、310‧‧‧設備
210‧‧‧解碼單元
212、230‧‧‧後處理單元、後處理器
220‧‧‧反標準化器
於後文中,本發明之實施例參考附圖以進一步細節描述,附圖中:圖1a例示依據一實施例用於編碼的設備,圖1b例示依據另一實施例用於編碼的設備,其中該設備進一步包含一變換單元及一前處理單元,圖1c例示依據又一實施例用於編碼的設備,其中該設備進一步包含一變換單元,圖1d例示依據又一實施例用於編碼的設備,其中該設備進一步包含一前處理單元及一變換單元,圖1e例示依據又一實施例用於編碼的設備,其中該設備更進一步包含一頻域前處理器,圖1f例示依據一實施例用於編碼包含四或多個聲道的一音訊輸入信號的四個聲道以獲得經編碼的音訊信號之系統,圖2a例示依據一實施例用於解碼的設備,圖2b例示依據另一實施例用於解碼的設備進一步包含 一變換單元及一後處理單元,圖2c例示依據另一實施例用於解碼的設備,其中該用於解碼的設備更進一步包含一變換單元,圖2d例示依據另一實施例用於解碼的設備,其中該用於解碼的設備更進一步包含一後處理單元,圖2e例示依據又一實施例用於解碼的設備,其中該設備更進一步包含一頻域後處理器,圖2f例示依據一實施例用於解碼包含四或多個聲道的一經編碼的音訊信號以獲得經解碼的音訊信號的四個聲道之系統,圖3例示依據一實施例之一系統,圖4例示依據又一實施例用於編碼的設備,圖5例示依據一實施例用於編碼的設備中之立體聲處理模組,圖6例示依據另一實施例用於解碼的設備,圖7例示依據一實施例用於逐頻帶M/S決定的一位元率之計算,圖8例示依據一實施例一立體聲模式決定,圖9例示依據實施例一編碼器端的立體聲處理,其採用立體聲填充,圖10例示依據實施例一解碼器端的立體聲處理,其採用立體聲填充,圖11例示依據若干特定實施例在一解碼器端上一側邊信號的立體聲填充, 圖12例示依據實施例一編碼器端的立體聲處理,其不採用立體聲填充,及圖13例示依據實施例一解碼器端的立體聲處理,其不採用立體聲填充。
圖1a例示依據一實施例用於編碼包含二或多個聲道之音訊輸入信號的第一聲道及第二聲道以獲得經編碼的音訊信號之設備。
設備包含一標準化器110,經組配以取決於音訊輸入信號的第一聲道及取決於音訊輸入信號的第二聲道而決定用於該音訊輸入信號的標準化值。標準化器110係經組配以取決於該標準化值而藉修改一音訊輸入信號的一第一聲道及一第二聲道中之至少一者來決定已標準化之音訊信號的第一聲道及第二聲道。
舉例言之,於一實施例中,標準化器110例如可經組配以取決於音訊輸入信號的第一聲道及第二聲道之多個頻帶而決定用於該音訊輸入信號的標準化值;標準化器110例如可經組配以取決於該標準化值而藉修改音訊輸入信號的第一聲道及第二聲道中之至少一者之多個頻帶來決定已標準化之音訊信號的第一聲道及第二聲道。
或者舉例言之,標準化器110例如可經組配以取決於時域中表示的音訊輸入信號的第一聲道及取決於時域中表示的音訊輸入信號的第二聲道而決定用於該音 訊輸入信號的標準化值。再者,標準化器110係經組配以取決於該標準化值而藉修改於時域中表示的音訊輸入信號的第一聲道及第二聲道中之至少一者來決定已標準化之音訊信號的第一聲道及第二聲道。該設備進一步包含一變換單元(未顯示於圖1a中),係經組配以將已標準化之音訊信號自時域變換至頻域,使得已標準化之音訊信號係於頻域中表示。變換單元係經組配以將於頻域中表示的已標準化之音訊信號饋入編碼單元120。舉例言之,音訊輸入信號例如可以是自LPC濾波(LPC=線性預測編碼)時域音訊信號的二聲道所得的時域殘差信號。
再者,設備包含編碼單元120,經組配以產生具有第一聲道及第二聲道之經處理的音訊信號,使得該經處理的音訊信號之第一聲道的一或多個頻帶為該已標準化的音訊信號之第一聲道的一或多個頻帶;使得該經處理的音訊信號之第二聲道的一或多個頻帶為該已標準化的音訊信號之第二聲道的一或多個頻帶;使得,取決於已標準化之音訊信號的第一聲道的一頻帶及取決於已標準化之音訊信號的第二聲道的一頻帶,該經處理的音訊信號之第一聲道的至少一個頻帶為一中間信號的一頻帶;及使得,取決於已標準化之音訊信號的第一聲道的一頻帶及取決於已標準化之音訊信號的第二聲道的一頻帶,該經處理的音訊信號之第二聲道的至少一個頻帶為一側邊信號的一頻帶。編碼單元120係經組配以編碼經處理的音訊信號以獲得經編碼的音訊信號。
於一個實例中,編碼單元120例如可經組配以取決於已標準化之音訊信號的第一聲道的多頻帶及取決於已標準化之音訊信號的第二聲道的多頻帶而在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間作選擇。
於此實施例中,若選取全-中間-側邊編碼模式,則編碼單元120例如可經組配以自已標準化之音訊信號的第一聲道及第二聲道產生一中間信號作為一中間-側邊信號的一第一聲道,自已標準化之音訊信號的第一聲道及第二聲道產生一側邊信號作為一中間-側邊信號的一第二聲道,及編碼該中間-側邊信號以獲得該經編碼的音訊信號。
依據此一實施例,若選取全-雙-單編碼模式,則編碼單元120例如可經組配以編碼該已標準化之音訊信號以獲得該經編碼的音訊信號。
再者,依據此一實施例,若選取逐頻帶編碼模式,則編碼單元120例如可經組配以產生經處理的音訊信號,使得該經處理的音訊信號之第一聲道的一或多個頻帶為該已標準化的音訊信號之第一聲道的一或多個頻帶;使得該經處理的音訊信號之第二聲道的一或多個頻帶為該已標準化的音訊信號之第二聲道的一或多個頻帶;使得,取決於已標準化之音訊信號的第一聲道的一頻帶及取決於已標準化之音訊信號的第二聲道的一頻帶,該經處理的音訊信號之第一聲道的至少一個頻帶為一中間信號的一 頻帶;及使得,取決於已標準化之音訊信號的第一聲道的一頻帶及取決於已標準化之音訊信號的第二聲道的一頻帶,該經處理的音訊信號之第二聲道的至少一個頻帶為一側邊信號的一頻帶,其中編碼單元120例如可經組配以編碼經處理的音訊信號以獲得經編碼的音訊信號。
依據一實施例,音訊輸入信號例如可以是恰包含二聲道的音訊立體聲信號。舉例言之,音訊輸入信號的第一聲道例如可以是音訊立體聲信號的左聲道,及音訊輸入信號的第二聲道例如可以是音訊立體聲信號的右聲道。
於一實施例中,若選取逐頻帶編碼模式,則編碼單元120例如可經組配以,針對該經處理的音訊信號之多個頻帶中之各個頻帶,決定是否採用中間-側邊編碼或是否採用雙-單編碼。
若針對該頻帶採用中間-側邊編碼,則編碼單元120例如可經組配以,基於該已標準化之音訊信號之第一聲道的該頻帶及基於該已標準化之音訊信號之第二聲道的該頻帶,產生該經處理的音訊信號之第一聲道的該頻帶作為一中間信號的一頻帶。編碼單元120例如可經組配以,基於該已標準化之音訊信號之第一聲道的該頻帶及基於該已標準化之音訊信號之第二聲道的該頻帶,產生該經處理的音訊信號之第二聲道的該頻帶作為一側邊信號的一頻帶。
若針對該頻帶採用雙-單編碼,則編碼單元 120例如可經組配以使用已標準化之音訊信號之第一聲道的該頻帶作為經處理的音訊信號之第一聲道的該頻帶,及例如可經組配以使用已標準化之音訊信號之第二聲道的該頻帶作為經處理的音訊信號之第二聲道的該頻帶。或者編碼單元120例如可經組配以使用已標準化之音訊信號之第二聲道的該頻帶作為經處理的音訊信號之第一聲道的該頻帶,及例如可經組配以使用已標準化之音訊信號之第一聲道的該頻帶作為經處理的音訊信號之第二聲道的該頻帶。
依據一實施例,編碼單元120例如可經組配以,藉由決定一第一估值估計當採用全-中間-側邊編碼模式時用於編碼所需一第一位元數目,藉由決定一第二估值估計當採用全-雙-單編碼模式時用於編碼所需一第二位元數目,藉由決定一第三估值估計當例如可採用逐頻帶編碼模式時用於編碼所需一第三位元數目,及藉由在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間選擇在第一估值及第二估值及第三估值間具有最小位元數目的該編碼模式,而在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間作選擇。
於一實施例中,編碼單元120例如可經組配以根據下式估計第三估值bBW,估計當採用逐頻帶編碼模式時用於編碼所需第三位元數目: 其中nBands為已標準化之音訊信號的頻帶數目,其中 為用於編碼中間信號之第i頻帶及用於編碼側邊信號 之第i頻帶所需位元數目的一估值,及其中為用於編碼第一信號之第i頻帶及用於編碼第二信號之第i頻帶所需位元數目的一估值。
於實施例中,例如可採用用於在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間作選擇的一客觀品質度量。
依據一實施例,編碼單元120例如可經組配以,藉由決定一第一估值估計當以全-中間-側邊編碼模式編碼時節約的一第一位元數目,藉由決定一第二估值估計當以全-雙-單編碼模式編碼時節約的一第二位元數目,藉由決定一第三估值估計當以逐頻帶編碼模式編碼時節約的一第三位元數目,及藉由在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間選擇在第一估值及第二估值及第三估值間具有節約的最大位元數目的該編碼模式,而在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間作選擇。
於另一實施例中,編碼單元120例如可經組配以,藉由估計當採用全-中間-側邊編碼模式時出現的一第一信號對雜訊比,藉由估計當採用全-雙-單編碼模式時出現的一第二信號對雜訊比,藉由估計當採用逐頻帶編碼模式時出現的一第三信號對雜訊比,及藉由在全-中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間選擇在第一信號對雜訊比及第二信號對雜訊比及第三信號對雜訊比間具有最大信號對雜訊比的該編碼模式,而在全- 中間-側邊編碼模式及全-雙-單編碼模式及逐頻帶編碼模式間作選擇。
於一實施例中,標準化器110例如可經組配以取決於音訊輸入信號之第一聲道的一能源及取決於音訊輸入信號之第二聲道的一能而決定用於該音訊輸入信號的標準化值。
依據一實施例,音訊輸入信號例如可以頻域表示。標準化器110例如可經組配以取決於音訊輸入信號之第一聲道的多個頻帶及取決於音訊輸入信號之第二聲道的多個頻帶而決定用於該音訊輸入信號的標準化值。再者,標準化器110例如可經組配以,藉由取決於標準化值,修改音訊輸入信號的第一聲道及第二聲道中之至少一者的多個頻帶而決定已標準化之音訊信號。
於一實施例中,標準化器110例如可經組配以基於下式決定標準化值:
其中MDCT L,k 為音訊輸入信號的第一聲道之MDCT頻譜的第k係數,及MDCT R,k 為音訊輸入信號的第二聲道之MDCT頻譜的第k係數。標準化器110例如可經組配以藉量 化ILD而決定標準化值。
依據由圖1b例示的一實施例,用於編碼的設備例如可進一步包含一變換單元102及一前處理單元105。變換單元102例如可經組配以自時域變換一時域音訊信號至頻域以獲得已變換之音訊信號。前處理單元105例如可經組配以藉由在該已變換之音訊信號上施加一編碼器端頻域雜訊塑形操作而產生音訊輸入信號的第一聲道及第二聲道。
於一特定實施例中,前處理單元105例如可經組配以,在該已變換之音訊信號上施加一編碼器端頻域雜訊塑形操作之前,藉由在該已變換之音訊信號上施加一編碼器端時間雜訊塑形操作而產生音訊輸入信號的第一聲道及第二聲道。
圖1c例示依據又一實施例,用於編碼的設備進一步包含一變換單元115。標準化器110例如可經組配以取決於以時域表示的音訊輸入信號的第一聲道及取決於以時域表示的音訊輸入信號的第二聲道而針對該音訊輸入信號決定一標準化值。再者,標準化器110例如可經組配以取決於標準化值而藉由修改以時域表示的音訊輸入信號的第一聲道及第二聲道中之至少一者來決定已標準化之音訊信號的第一聲道及第二聲道。變換單元115例如可經組配以將已標準化之音訊信號自時域變換至頻域,使得已標準化之音訊信號係以頻域表示。再者,變換單元115例如可經組配以將以頻域表示的已標準化之音訊信號饋入編碼 單元120。
圖1d例示依據又一實施例用於編碼的設備,其中該設備進一步包含一前處理單元106,經組配以接收包含第一聲道及第二聲道的時域音訊信號。前處理單元106例如可經組配以施加濾波於時域音訊信號的第一聲道上其產生一第一感官上白化頻譜以獲得以時域表示的音訊輸入信號的第一聲道。再者,前處理單元106例如可經組配以施加濾波於時域音訊信號的第二聲道上其產生一第二感官上白化頻譜以獲得以時域表示的音訊輸入信號的第二聲道。
於一實施例中,由圖1e例示,變換單元115例如可經組配以將已標準化之音訊信號自時域變換至頻域以獲得一已變換之音訊信號。於圖1e之該實施例中,設備又復包含頻域前處理器118,經組配以在已變換之音訊信號上進行編碼器端時間雜訊塑形以獲得以頻域表示的已標準化之音訊信號。
依據一實施例,編碼單元120例如可經組配以藉由施加編碼器端立體聲智能間隙填充至已標準化之音訊信號上或至經處理的音訊信號上而獲得經編碼的音訊信號。
於另一實施例中,由圖1f例示,提出一種用於編碼包含四或多個聲道的一音訊輸入信號的四個聲道以獲得經編碼的音訊信號之系統。系統包含依據前述實施例中之一者,一第一設備170用於編碼音訊輸入信號的該 等四或多個聲道之第一聲道及第二聲道以獲得經編碼的音訊信號的第一聲道及第二聲道。再者,系統包含依據前述實施例中之一者,一第二設備180用於編碼音訊輸入信號的該等四或多個聲道之第三聲道及第四聲道以獲得經編碼的音訊信號的第三聲道及第四聲道。
圖2a例示依據一實施例,用於解碼包含第一聲道及第二聲道的一經編碼的音訊信號以獲得一經解碼的音訊信號的設備。
用於解碼之設備包含一解碼單元210,經組配以,針對多個頻帶中之各個頻帶,決定經編碼的音訊信號之第一聲道的該頻帶及經編碼的音訊信號之第二聲道的該頻帶是否使用雙-單編碼或使用中間-側邊編碼加以編碼。
若使用雙-單編碼,則解碼單元210係經組配以使用經編碼的音訊信號之第一聲道的該頻帶作為中間音訊信號之第一聲道的頻帶且係經組配以使用經編碼的音訊信號之第二聲道的該頻帶作為中間音訊信號之第二聲道的頻帶。
再者,若使用中間-側邊編碼,則解碼單元210係經組配以,基於經編碼的音訊信號之第一聲道的該頻帶及基於經編碼的音訊信號之第二聲道的該頻帶以產生中間音訊信號之第一聲道的一頻帶,及基於經編碼的音訊信號之第一聲道的該頻帶及基於經編碼的音訊信號之第二聲道的該頻帶以產生中間音訊信號之第二聲道的一頻帶。
又復,用於解碼的設備包含一反標準化器220經組配以取決於一反標準化值而修改中間音訊信號之第一聲道及第二聲道中之至少一者以獲得經解碼的音訊信號之第一聲道及第二聲道。
於一實施例中,解碼單元210例如可經組配以決定經編碼的音訊信號是否以全-中間-側邊編碼模式或以全-雙-單編碼模式或以逐頻帶編碼模式編碼。
再者,於此一實施例中,若決定經編碼的音訊信號係以全-中間-側邊編碼模式編碼,則解碼單元210例如可經組配以自經編碼的音訊信號之第一聲道及自第二聲道產生中間音訊信號之第一聲道,及自經編碼的音訊信號之第一聲道及自第二聲道產生中間音訊信號之第二聲道。
依據此一實施例,若決定經編碼的音訊信號係以全-雙-單編碼模式編碼,則解碼單元210例如可經組配以使用經編碼的音訊信號之第一聲道作為中間音訊信號之第一聲道,及使用經編碼的音訊信號之第二聲道作為中間音訊信號之第二聲道。
又復,於此一實施例中,若決定經編碼的音訊信號係以逐頻帶編碼模式編碼,則解碼單元210例如可經組配以-針對多個頻帶中之各個頻帶,決定經編碼的音訊信號之第一聲道的該頻帶及經編碼的音訊信號之第二聲道的該頻帶是否使用雙-單編碼或使用中間-側邊編碼加以編碼, -若使用雙-單編碼,則使用經編碼的音訊信號之第一聲道的該頻帶作為中間音訊信號之第一聲道的一頻帶,及使用經編碼的音訊信號之第二聲道的該頻帶作為中間音訊信號之第二聲道的一頻帶,-若使用中間-側邊編碼,則基於經編碼的音訊信號之第一聲道的該頻帶及基於經編碼的音訊信號之第二聲道的該頻帶以產生中間音訊信號之第一聲道的一頻帶,及基於經編碼的音訊信號之第一聲道的該頻帶及基於經編碼的音訊信號之第二聲道的該頻帶以產生中間音訊信號之第二聲道的一頻帶。
舉例言之,於全-中間-側邊編碼模式中,該式:L=(M+S)/sqrt(2),及R=(M-S)/sqrt(2)
例如可經施加以獲得中間音訊信號之第一聲道L及獲得中間音訊信號之第二聲道R,M為經編碼的音訊信號之第一聲道及S為經編碼的音訊信號之第二聲道。
依據一實施例,經解碼的音訊信號例如可以是恰包含二聲道的音訊立體聲信號。舉例言之,經解碼的音訊信號之第一聲道例如可以是音訊立體聲信號的左聲道,及經解碼的音訊信號之第二聲道例如可以是音訊立體聲信號的右聲道。
依據一實施例,反標準化器220例如可經組配以取決於反標準化值而修改中間音訊信號的第一聲道 及第二聲道中之至少一者之多個頻帶以獲得經解碼之音訊信號的第一聲道及第二聲道。
於圖2b顯示的另一實施例中,反標準化器220例如可經組配以取決於反標準化值而修改中間音訊信號的第一聲道及第二聲道中之至少一者之多個頻帶以獲得反標準化音訊信號。於此一實施例中,該設備例如可又復包含一後處理單元230及一變換單元235。後處理單元230例如可經組配以在反標準化音訊信號上進行解碼器端時間雜訊塑形及解碼器端頻域雜訊塑形中之至少一者以獲得一經後處理的音訊信號。變換單元235例如可經組配以將該經後處理的音訊信號自一頻域變換成一時域以獲得經解碼的音訊信號之第一聲道及第二聲道。
依據圖2c例示的一實施例,該設備進一步包含一變換單元215可經組配以將該中間音訊信號自一頻域變換成一時域。反標準化器220例如可經組配以取決於反標準化值而修改以時域表示的中間音訊信號的第一聲道及第二聲道中之至少一者以獲得經解碼的音訊信號之第一聲道及第二聲道。
於類似實施例中,由圖2d例示,變換單元215可經組配以將該中間音訊信號自一頻域變換成一時域。反標準化器220例如可經組配以取決於反標準化值而修改以時域表示的中間音訊信號的第一聲道及第二聲道中之至少一者以獲得一反標準化音訊信號。該設備進一步包含一變換單元235,其例如可經組配以處理為感官上白化 音訊信號的反標準化音訊信號,以獲得經解碼的音訊信號之第一聲道及第二聲道。
依據另一實施例,由圖2e例示,該設備又復包含一頻域後處理器212經組配以在中間音訊信號上進行解碼器端時間雜訊塑形。於此一實施例中,變換單元215係經組配以,在中間音訊信號上已經進行解碼器端時間雜訊塑形之後,將該中間音訊信號自頻域變換成時域。
於另一實施例中,解碼單元210例如可經組配以在經編碼的音訊信號上施加解碼器端立體聲智能間隙填充。
再者,如於圖2f中例示,提出一種用於解碼包含四或多個聲道的一經編碼的音訊信號以獲得經解碼的音訊信號的四個聲道之系統。系統包含依據前述實施例中之一者一第一設備270用於解碼經編碼的音訊信號的該等四或多個聲道之第一聲道及第二聲道以獲得經解碼的音訊信號的第一聲道及第二聲道。再者,系統包含依據前述實施例中之一者一第二設備280用於解碼經編碼的音訊信號的該等四或多個聲道之第三聲道及第四聲道以獲得經解碼的音訊信號的第三聲道及第四聲道。
圖3例示依據一實施例,用於自一音訊輸入信號產生一經編碼的音訊信號及用於自經編碼的音訊信號產生一經解碼的音訊信號之系統。
該系統包含依據前述實施例中之一者用於編碼之設備310,其中該用於編碼之設備310係經組配以自音訊輸入信號產生經編碼的音訊信號。
再者,該系統包含如前文描述的用於解碼之設備320。用於解碼之設備320係經組配以自經編碼的音訊信號產生經解碼的音訊信號。
同理,提出用於自音訊輸入信號產生經編碼的音訊信號及用於自經編碼的音訊信號產生經解碼的音訊信號之系統。該系統包含依據圖1f之實施例的系統,其中依據圖1f之實施例的該系統係經組配以自音訊輸入信號產生經編碼的音訊信號,及依據圖2f之實施例的系統,其中依據圖2f之實施例的該系統係經組配以自經編碼的音訊信號產生經解碼的音訊信號。
於後文中,描述較佳實施例。
圖4例示依據另一實施例用於編碼的設備。例示依據一特定實施例的前處理單元105及變換單元102等。變換單元102係經組配以進行將音訊輸入信號自時域變換至頻域,及變換單元係經組配以在音訊輸入信號上進行編碼器端時間雜訊塑形及編碼器端頻域雜訊塑形等。
再者,圖5例示依據一實施例於用於編碼的設備中之立體聲處理模組。圖5例示一標準化器110及一編碼單元120。
又復,圖6例示依據另一實施例用於解碼的設備。圖6例示依據一特定實施例的一後處理單元230。後處理單元230係經組配以自反標準化器220獲得一經處理的音訊信號,及後處理單元230係經組配以在經處理的音訊信號進行解碼器端時間雜訊塑形及解碼器端頻域雜訊塑形中之至少一者等。
時域暫態檢測器(TD TD)、視窗、MDCT、MDST及OLA例如可如於[6a]或[6b]中之描述進行。MDCT及MDST形成調變複合重複變換(MCLT),分開進行MDCT及MDST係與進行MCLT等效;「MCLT至MDCT」表示只取MCLT的MDCT部分及捨棄MDST(參考[12])。
於左及右聲道中選擇不同的視窗長度例如可在該框中強制雙單編碼。
時間雜訊塑形(TNS)例如可類似[6a]或[6b]中之描述完成。
頻域雜訊塑形(FDNS)及FDNS參數的計算例如可類似[8]中描述之程序。一個差異例如可以是針對其中TNS為非作用態的時框,FDNS參數係自MCLT頻譜計算。於其中TNS為作用態的時框中,MDST例如可自MDCT估計。
FDNS也可以於時域中的感官頻譜白化置換(例如,於[13]中描述)。
立體聲處理包含全域ILD處理、逐頻帶M/S處理、聲道間之位元率分佈。
單一全域ILD計算為
其中MDCT L,k 為左聲道中MDCT頻譜的第k係數,及MDCT R,k 為右聲道中MDCT頻譜的第k係數。全域ILD一致地量化:
ILD range =1≪ILD bits
其中ILD bits 為用於寫碼全域ILD的位元數目。係儲存於位元串流。
<<為位元移位操作及藉由插入0位元而向左移位位元達ILD bits
換言之:
則聲道的能比為:
ratio ILD >1則右聲道隨定規,否則 左聲道隨ratio ILD 定規。如此有效地表示較響亮的聲道係經定規。
若使用於時域中的感官頻譜白化(例如,於[13]中描述),則在時間至頻域的變換之前(亦即在MDCT之前),單一全域ILD也可於時域中計算及施加。或者另外,感官頻譜白化可接著時間至頻域的變換,接著於頻域中之單一全域ILD。另外,感官頻譜白化可在時間至頻域的變換之前於時域中計算,及在時間至頻域的變換之後於頻域中施加。
中間MDCT M,k 及側邊MDCT S,k 聲道係使用左 聲道MDCT L,k 及右聲道MDCT R,k MDCT R,k )及形成。頻譜 被分割成頻帶,及針對各個頻帶決定是否使用左、右、中間或側邊聲道。
全域增益G est 係在包含串級左及右聲道的信號上估計。因而與[6b]及[6a]不同。例如可使用如[6b]的或[6a]的章節5.3.3.2.8.1.1「全域增益估計器」中描述,增益的第一估值,例如,假設自定標量化每位元每樣本6分貝(dB)之SNR增益。
估計得的增益可乘以一常數以獲得終G est 的低估或高估。然後,於左、右、中間及側邊聲道中之信號使用G est 量化,亦即量化階級大小為1/G est
然後,已量化信號使用算術寫碼器、霍夫曼寫碼器、或任何其它熵寫碼器寫碼,以便獲得所需位元數目。舉例言之,可使用[6b]的或[6a]的章節5.3.3.2.8.1.3-章節5.3.3.2.8.1.7中描述的以情境為基礎的算術寫碼器。因立體聲寫碼之後將跑速率迴路(例如,[6b]中或[6a]中之5.3.3.2.8.1.2),故所需位元之估計即足。
舉個實例,針對各個量化聲道,用於以情境為基礎的算術寫碼所需位元數目係如[6b]的或[6a]的章節5.3.3.2.8.1.3-章節5.3.3.2.8.1.7中描述者估計。
依據一實施例,針對各個量化聲道(左、右、中間或側邊)的位元估值係基於如下代碼實例測定:
其中spectrum係設定指向欲被寫碼的量化頻譜,start_line係設定為0,end_line係設定為頻譜長度,lastnz係設定為頻譜之最末非零元件的指數,ctx 係設定為0,及於14位元固定點標記法(16384=1<<14)中機率係設定1。
如所摘述,可採用如上代碼實例,例如,以針對左聲道、右聲道、中間聲道及側邊聲道中之至少一者獲得位元估值。
若干實施例採用如於[6b]及[6a]中描述的算術寫碼器。進一步細節例如可參考[6b]之章節5.3.3.2.8「算術寫碼器」。
針對「全雙單」估計得的位元數目(b LR )則等於右及左聲道要求的位元和。
針對「全M/S」估計得的位元數目(b MS )則等於中間及側邊聲道要求的位元和。
於一替代實施例中,其為如上代碼實例的替代例,下式:
例如可採用來計算針對「全雙單」估計的位元數目(b LR )。
再者,於一替代實施例中,其為如上代碼實例的替代例,下式:
例如可採用來計算針對「全M/S」估計的位元數目(b MS )。
針對具有邊界[lb t ,ub i ]的各個頻帶i,檢查多少個位元將使用來以L/R()及以M/S()模式寫碼於頻帶中之量化信號。換言之,針對各個頻帶i對L/R模式進行逐頻帶位元估計:,其導致針對頻帶i以L/R模式逐頻帶位元估計,及針對各個頻帶i對M/S模式進行逐頻帶位元估計,其導致針對頻帶i以M/S模式逐頻帶位元估計:
具有較少位元的模式被選用於該頻帶。用於算術寫碼所需位元數目係如[6b]的或[6a]的章節5.3.3.2.8.1.3-章節5.3.3.2.8.1.7中描述者估計。於「逐頻帶M/S」模式中寫碼頻譜要求的位元總數(b BW )係等於min(,)之和:
「逐頻帶M/S」模式需要額外nBands用於各個頻帶中發訊,無論使用L/R或M/S寫碼皆係如此。「逐頻帶M/S」、「全雙單」及「全M/S」間之選擇例如可於位元串流寫碼為立體聲模式,及然後,比較「逐頻帶M/S」,「全雙單」及「全M/S」無需額外位元用於發訊。
用於以情境為基礎的算術寫碼器,bLR計算中使用的不等於bBW計算中使用的,bMS計算中使用的不等於bBW計算中使用的,原因在於取決於針對前一個的情境選擇,其中j<i。bLR可計算為左及右聲道的位元和,及bMS 可計算為中間及側邊聲道的位元和,於該處針對各個聲道的位元可使用代碼實例context_based_arithmetic_coder_estimate_bandwise計算,於該處start_line係設定為0,及end_line係設定為lastnz。
於替代實施例中,其為如上代碼實例的替代例,下式:
例如可探用來計算用於「全雙單」的估計位元數目(b LR )及可使用於各頻帶L/R寫碼中發訊。
再者,於替代實施例中,其為如上代碼實例的替代例,下式:
例如可採用來計算用於「全M/S」的估計位元數目(b MS )及可使用於各頻帶M/S寫碼中發訊。
於若干實施例中,首先,例如可估計增益G,及例如可估計量化階級大小,預期針對於此有足夠位元寫碼於L/R聲道。
後文中,提出實施例描述如何決定逐頻帶位元估計的不同方式,例如,描述依據特定實施例如何決定
如已摘述,依據一特定實施例,針對各個量化聲道,估計用於算術寫碼要求的位元數目,如[6b]的章節5.3.3.2.8.1.7「位元消耗估計」或[6a]的相似章節中描述者估計。
依據一實施例,逐頻帶位元估計係使用針對每個i計算中之各者的context_based_arithmetic_coder_estimate決定,藉設定start_line為lb i ,end_line為ub i ,lastnz為spectrum的最末非零元件的指數。
四個情境(ctxL、ctxR、ctxM、ctxM)及四個機率(pL、pR、pM、pM)經啟動及然後反複更新。
在估計之始(針對i=0),各個情境(ctxL、ctxR、ctxM、ctxM)係設定為0,及於14位元固定點標記法(16384=1<<14)中各個機率(pL、pR、pM、pM)係設定1。
係計算為之和,於該處係使用context_based_arithmetic_coder_estimate決定,藉設定spectrum指向欲被寫碼的量化左頻譜,ctx設定為ctxL,及機率設定為pL,及係使用context_based_arithmetic_coder_estimate決定,藉設定spectrum指向欲被寫碼的量化右頻譜,ctx設定為ctxR,及機率設定為pR
係計算為之和,於該處 係使用 context_based_arithmetic_coder_estimate決定,藉設定spectrum指向欲被寫碼的量化中間頻譜,ctx設定為ctxM,及機率設定為pM,及係使用context_based_arithmetic_coder_estimate決定,藉設定spectrum指向欲被寫碼的量化側邊頻譜,ctx設定為ctxS,及機率設定為pS
<,則ctxL設定為ctxM,ctxR設定為ctxS,pL設定為pM,pR設定為pS
,則ctxM設定為ctxL,ctxS設定為ctxR,pM設定為pL,pS設定為pR。於替代實施例中,逐頻帶位元估計獲得如下:頻譜被分割成頻帶,及針對各個頻帶,決定是否應完成M/S處理。針對其中使用M/S的全部頻帶,MDCT L,k MDCT R,k 係以MDCT M,k =0.5(MDCT L,k +MDCT R,k )及MDCT S,k =0.5(MDCT L,k -MDCT R,k )置換。
逐頻帶M/S相較於L/R決定例如可基於以M/S處理節約的位元估值:
其中NRG R,i 為右聲道第i頻帶中之能,NRG L,i 為左聲道第i頻帶中之能,NRG M,i 為中間聲道第i頻帶中之能,NRG S,i 為側邊聲道第i頻帶中之能,及nlines i 為於第i頻帶中之頻譜係數的數目。中間聲道為左及右聲道之和,側邊聲道為左及右聲道之差。
bitsSaved i 係以用於第i頻帶的估計位元數目限制:
圖7例示依據一實施例計算用於逐頻帶M/S決定之位元率。
特別,於圖7中,描繪用於計算b RW 之方法。為了減低複雜度,直到頻帶i-1的用於寫碼頻譜的算術寫碼器情境經節約且再度用於頻帶i
須注意用於以情境為基礎的算術寫碼器,取決於算術寫碼器情境,其係取決於全部頻帶j<i中的M/S相較於L/R選擇,例如前文描述。
圖8例示依據一實施例一立體聲模式決定。
若選擇「全雙單」,則完整頻譜包含MDCT L,k MDCT R,k 。若選擇「全M/S」,則完整頻譜包含MDCT M,k MDCT S,k 。若選擇「逐頻帶M/S」,則該頻譜之若干頻帶包含MDCT L,k MDCT R,k ,而其它頻帶包含MDCT M,k MDCT S,k
立體聲模式係於位元串流中寫碼。於「逐頻帶M/S」模式中,全部逐頻帶M/S決定皆係於位元串流中寫碼。
立體聲處理之後,二聲道中之頻譜係數係標示為MDCT LM,k MDCT RS,k 。取決於立體聲模式及逐頻帶M/S決定,MDCT LM,k 等於M/S頻帶中之MDCT M,k 或等於L/R頻帶中之MDCT L,k MDCT RS,k 等於M/S頻帶中之MDCT S,k 或等於L/R頻帶中之MDCT R,k 。包含MDCT LM,k 的頻譜例如可稱作聯合寫碼聲道0(聯合聲道0)或例如可稱作第一聲道,及包含MDCT RS,k 的頻譜例如可稱作聯合寫碼聲道1(聯合聲道1)或例如可稱作第二聲道。
位元率分割比係使用經立體聲處理的聲道之能計算:
位元率分割比係一致地量化:
rsplit range =1≪rsplit bits
於該處rsplit bits 為寫碼位元率分割比使用的位元數 目。若r split <>則針對減 少。若r split ><則針對增 加。係儲存於位元串流。
聲道間之位元率分配為:
bits RS =(totalBitsAvailable-stereoBits)-bits LM
此外,藉由檢查bits LM -sideBits LM >minBitsbits RS -sideBits RS >minBits而確定於各個聲道中有足夠位元用於熵寫碼器,於該處minBits為熵寫碼器要求的最低位元數目。若沒有足夠位元用於熵寫碼器,則被加/減1直到bits LM -sideBits LM >minBitsbits RS -sideBits RS >minBits滿足為止。
量化、雜訊填充及熵編碼,包括速率迴路係如[6b]或[6a]中之5.3.3「以MDCT為基礎的TCX」的5.3.3.2「通用編碼程序」中描述。速率迴路可使用估得的G est 加以優化。功率頻譜P(MCLT之振幅)係如於[6a]或[6b]中之描述使用於量化及智能間隙填充(IGF)中之調性/雜訊措施。因白化及逐頻帶M/S經處理的MDCT頻譜係使用於功率頻譜,故相同FDNS及M/S處理係在MDST頻譜上完成。基於較響亮聲道的全域ILD之相同定標係如對MDCT進行般,針對MDST完成。針對其中TNS為作用態之框,用於功率頻譜計算的MDST頻譜係自白化及M/S經處理的MDCT頻譜估計:Pk=MMDCTk 2+(MDCTk+1-MDCTk-1)2
如[6b]或[6a]中之6.2.2「以MDCT為基礎的TCX」中描述,解碼程序始於聯合寫碼聲道頻譜的解碼及反量化,接著雜訊填充。配置給各個聲道的位元數目係基於在該位元串流中寫碼的視窗長度、立體聲模式、及位元率分割比決定。配置給各個聲道的位元數目須在完全解碼位元串流之前為已知。
於智能間隙填充(IGF)區塊中,於頻譜之某個範圍內,稱作目標拼貼塊,被量化為零的線係以來自頻譜之不同範圍,稱作來源拼貼塊的經處理內容填充。因逐頻帶立體聲處理故,立體聲表示型態(亦即L/R或M/S)針對來源拼貼塊及目標拼貼塊可能不同。為了確保品質良好,若來源拼貼塊的表示型態與目標拼貼塊的表示型態不同,則來源拼貼塊經處理以在解碼器中之間隙填充之前變換成目標拼貼塊的表示型態。本程序已描述於[9]。與[6a]及[6b]相反地,IGF本身施加於白化頻域而非原先頻域。與已知之立體聲編解碼器相反地(例如,[9]),IGF施加於白化ILD補償頻域。
基於立體聲模式及逐頻帶M/S決定,左及右聲道係自聯合寫碼聲道建構: MDCT R,k =
ratio ILD >1則右聲道以ratio ILD 定標,否 則左聲道以定標。
針對可能發生被0除的各個情況,將一個小ε加至分母。
用於中間位元率,例如,48kbps,以MDCT為基礎的寫碼例如可能導致頻譜量化太粗糙而不匹配位元消耗目標。其造成參數寫碼的需要,其與以逐一框基礎調整的在相同頻譜區中的離散寫碼組合,提高了可信度。
於後文中,描述採用立體聲填充的該等實施例之若干面向。須注意針對前述實施例,無需採用採用立體聲填充。故前述實施例中只有部分採用立體聲填充。前述實施例之其它實施例絲毫也未採用立體聲填充。
於MPEG-H頻域立體聲中之立體聲頻率填充例如係描述於[11]。於[11]中,藉由探勘以定標因數形式(例如,於AAC中)自編碼器發送的頻帶能,達到各個頻帶的目標能。若施加頻域雜訊塑形(FDNS)及藉使用線狀頻譜頻率(LSF)寫碼頻譜波封(參考[6a]、[6b]、[8]),不可能只針對某些頻譜頻帶(頻帶)改變定標,如於[11]中描述自立體聲填充演算法要求。
首先,提供若干背景資訊。
當採用中間/側邊寫碼時,可能以不同方式編碼側邊信號。
依據第一組實施例,側邊信號S係以中間信號M之相同方式編碼。進行量化,但未進行進一步步驟以減低所需位元率。一般而言,此種辦法的目標針對允許在解碼器端上的側邊信號S之相當精密重建,但另一方面,要求大量位元用於編碼。
依據第二組實施例,基於M信號,自原先側邊信號S產生殘差側邊信號Sres。於一實施例中,殘差側邊信號例如可根據下式計算:Sres=S-g.M。
其它實施例例如可採用針對殘差側邊信號的其它定義。
殘差信號Sres經量化及連同參數g一起發射到解碼器。藉由量化殘差信號Sres,替代原先側邊信號S,一般而言,更多頻譜值量化至零。比較量化原先側邊信號S,通常此點節約用於編碼及發射需要的位元量。
於第二組實施例之此等實施例之部分中,決定用於完整頻譜的單一參數g及發射至解碼器。於第二組實施例之其它實施例中,頻譜之多個頻率頻帶/頻帶中之各者例如可包含二或多個頻譜值,及針對頻率頻帶/頻帶中之各者決定參數g及發射至解碼器。
圖12例示依據第一或第二組實施例一編碼器端的立體聲處理,其未採用立體聲填充。
圖13例示依據第一或第二組實施例一解碼器端的立體聲處理,其未採用立體聲填充。
依據第三組實施例,採用立體聲填充。於若干此等實施例中,在解碼器端上,針對某個時間點t的側邊信號S係自緊接前一個時間點t-1的中間信號產生。
在解碼器端上,自緊接前一個時間點t-1的中間信號產生針對某個時間點t的側邊信號S例如可根據下式進行;S(t)=hb.M(t-1)。
在編碼器端上,針對多個頻譜之頻帶的各個頻帶決定參數hb。在決定參數hb之後,編碼器發射參數hb至解碼器。於若干實施例中,側邊信號S本身的或其殘差的頻譜值不發射至解碼器。此種辦法的目標針對節約要求的位元數目。
於第三組實施例之若干其它實施例中,至少針對該等頻帶其中側邊信號比中間信號更響亮,該等頻帶之側邊信號的頻譜值係經明確地編碼及發送至解碼器。
依據第四組實施例,側邊信號S之該等頻帶中之部分係藉明確地編碼原先側邊信號S(參考第一組實施例)或殘差側邊信號Sres編碼,而用於其它頻帶採用立體聲填充。此種辦法組合第一或第二組實施例與第三組實施例,其採用立體聲填充。舉例言之,較低頻帶例如可藉量化原先側邊信號S或殘差側邊信號Sres編碼,而用於其它頻帶例如可採用立體聲填充。
圖9例示依據第三或第四組實施例一編碼器端的立體聲處理,其採用立體聲填充。
圖10例示依據第三或第四組實施例一解碼器端的立體聲處理,其採用立體聲填充。
前述實施例中確實採用立體聲填充者例如可採用如於MPEG-H中描述的立體聲填充,參考MPEG-H頻域立體聲(例如,參考[11])。
採用立體聲填充的若干實施例例如可施加於[11]中描述的立體聲填充演算法至系統上,於該處頻譜波封寫碼為LSF組合雜訊填充。寫碼頻譜波封例如可以是如於[6a]、[6b]、[8]中描述予以實施。雜訊填充例如可以是如於[6a]及[6b]中描述予以實施。
於若干特定實施例中,立體聲填充處理包括立體聲填充參數計算例如可於頻率區內部於M/S頻帶進行,例如,自低頻諸如0.08Fs(Fs=取樣頻率)至例如高頻,例如,IGF交越頻率。
舉例言之,針對比低頻(例如,0.08Fs)更低的頻率部分,原先側邊信號S或自原先側邊信號S推衍的殘差側邊信號例如可經量化及發射至解碼器。針對大於高頻(例如,IGF交越頻率)的頻率部分,例如可進行智能間隙填充(IGF)。
更特別,於若干實施例中,針對在完全量化至零的立體聲填充範圍內的該等頻帶(例如,0.08倍取樣頻率至高達IGF交越頻率)的側邊聲道(第二聲道)例如可使用得自前一框的白化MDCT頻譜縮混的「副本拷貝(copy-over)」填充(IGF=智能間隙填充)。取決於自編碼 器發送的校正因數,「副本拷貝」例如可施加至雜訊填充及據此定標。於其它實施例中,低頻可具有與0.08Fs的不同值。
替代0.08Fs,於若干實施例中,低頻例如可以是0至0.50Fs範圍之值。於特定實施例中,低頻可以是0.01Fs至0.50Fs範圍之值。例如,低頻可以是0.12Fs或0.20Fs或0.25Fs
於其它實施例中,除了或替代採用智能間隙填充之外,針對大於高頻之頻率,例如可進行雜訊填充。
於進一步實施例中,無高頻及針對大於低頻的各個頻率部分進行立體聲填充。
於更進一步實施例中,無低頻及針對自最低頻帶至高頻的頻率部分進行立體聲填充。
於更進一步實施例中,無低頻且無高頻及針對全頻譜進行立體聲填充。
後文中,描述採用立體聲填充的特定實施例。
特別,依據特定實施例描述具有校正因數的立體聲填充。具有校正因數的立體聲填充例如可採用於圖9(編碼器端)及圖10(解碼器端)的立體聲填充處理區塊之實施例。
於後文中,-Dmx R 例如可表示白化MDCT頻譜的中間信號,-S R 例如可表示白化MDCT頻譜的側邊信號, -Dmx i 例如可表示白化MDST頻譜的中間信號,-S i 例如可表示白化MDST頻譜的側邊信號,-prevDmx R 例如可表示延遲一個時框的白化MDCT頻譜的中間信號,及-prevDmx i 例如可表示延遲一個時框的白化MDST頻譜的中間信號。
當立體聲決定針對全部頻帶為M/S(全M/S)或針對全部立體聲填充頻帶為M/S(逐頻帶M/S)時可施加立體聲填充編碼。
當決定施加全雙-單時,迴避立體聲填充。再者,當針對部分頻帶(頻率頻帶)選擇L/R寫碼時,針對此等頻帶也迴避立體聲填充。
現在,考慮採用立體聲填充之特定實施例。於區塊內部處理例如可進行如下:針對落入於始於低頻(例如,0.08Fs(Fs=取樣頻率))至高頻(例如,IGF交越頻率)的頻率區內部的頻帶(fb):-側邊信號S R 的殘差Res R 例如根據下式計算:Res R =S R -a R Dmx R -a i Dmx i
於該處a R 為複合預測係數的實數部分及a i 為虛擬部分(參考[10])。
側邊信號S i 的殘差Res i 例如根據下式計算:Res i =S i =S R -a R Dmx R -a i Dmx i
-殘差Res的及前一框縮混(中間信號)prevDmx的能,例如複合值能經計算:
於上式中:為加總Res R 之頻帶fb以內的全部頻譜值之平方。
為加總Res i 之頻帶fb以內的全部頻譜值之平方。
為加總prevDmx R 之頻帶fb以內的全部頻譜值之平方。
為加總prevDmx i 之頻帶fb以內的全部頻譜值之平方。
-自此等計算得的能(ERes fb ,EprevDmx fb ),計算立體聲填充校正因數及作為邊帶資訊發送給解碼器:correction_factor fb =ERes fb /(EprevDmx fb +ε)
於一實施例中,ε=0。於其它實施例中,例如0.1>ε>0,例如以避免被0除。
-例如,針對各個頻帶,對此採用立體聲填充,取決於計算得之立體聲填充校正因數例如可計算逐頻帶定標因數。導入藉定標因數對輸出中間及側邊(殘差)信號之逐頻 帶定標以便補償能源損耗,原因在於沒有反複合預測操作以自解碼器端上的殘差重建側邊信號(a R =a i =0)。
於一特定實施例中,逐頻帶定標因數例如可根據下式計算:
於該處EDmx fb 為目前框縮混的(例如,複合)能(其例如可如前述計算)。
於若干實施例中,於立體聲處理區塊中之立體聲填充處理之後而在量化之前,若針對等效頻帶縮混(中間)比殘差(側邊)響亮,則落入於立體聲填充頻率範圍以內的殘差倉例如可設定為零: >臨界值
因此,較多位元耗用在編碼殘差的縮混及低頻倉,改良了總體品質。
於替代實施例中,殘差(側邊)的全部位元例如可設定為零。此等替代實施例例如可基於假設大半情況下,縮混比殘差更響亮。
圖11例示依據解碼器端上的若干特定實施例一側邊信號的立體聲填充。
解碼、反量化、及雜訊填充之後,立體聲填充施加至側邊聲道上。針對立體聲填充範圍內的被量化至零的頻帶,若雜訊填充後之頻帶能未達目標能,則例如可施加自最末框的白化MDCT頻譜縮混的「副本拷貝」(參考圖11)。每個頻帶的目標能係自編碼器被發送為參數的立體聲校正因數計算,例如根據下式。
ET fb =correction_factor fb EprevDmx fb
解碼器端上的側邊信號的產生(其例如可被稱作先前縮混「副本拷貝」)例如根據下式進行:S i =N i +facDmx fb prevDmx i ,i [fb,fb+1],於該處i表示頻帶fb以內的頻率倉(頻譜值),N為雜訊經填充的頻譜,及facDmx fb 為施加於先前縮混上的因數,其係取決於自編碼器發送的立體聲填充校正因數。
於特定實施例中,facDmx fb 例如可針對各個頻帶fb計算為:
於該處EN fb 為於頻帶fb中之雜訊經填充的頻譜能,及EprevDmx fb 為個別先前框縮混能。
於編碼器端上,替代實施例未將MDST頻譜(或MDCT頻譜)列入考慮。於該等實施例中,編碼器端上的處理例如調整如下:針對落入始於低頻(例如,0.08Fs(Fs=取樣頻率))至高頻(例如,IGF交越頻率)的頻帶(fb):
-側邊信號S R 之殘差Res例如根據下式計算:Res=S R -a R Dmx R -a i Dmx i ,於該處a R 為(例如,真實)預測係數。
-殘差Res之能及先前框縮混(中間信號)prevDmx之能計算為:
-從此等計算得之能,(ERes fb ,EprevDmx fb ),算出立體聲填充校正因數及發送為邊帶資訊給解碼器:scaling_factor fb =ERes fb /(EprevDmx fb +ε)。
於一實施例中,ε=0。於其它實施例中,例如0.1>ε>0,例如以避免被0除。
-例如,針對各個頻帶,對此採用立體聲填充,取決於計算得之立體聲填充校正因數例如可計算逐頻帶定標因數。
於一特定實施例中,逐頻帶定標因數例如可根據下式計算:
於該處EDmx fb 為目前框縮混能(其例如可如前述計算)。
-於若干實施例中,於立體聲處理區塊中之立體聲填充處理之後而在量化之前,若針對等效頻帶縮混(中間)比殘差(側邊)響亮,則落入於立體聲填充頻率範圍以內的殘差倉例如可設定為零: >臨界值
因此,較多位元耗用在編碼殘差的縮混及低頻倉,改良了總體品質。
於替代實施例中,殘差(側邊)的全部位元例如可設定為零。此等替代實施例例如可基於假設大半情況下,縮混比殘差更響亮。
依據該等實施例中之若干者,例如可提供手段以於有FDNS的系統中施加立體聲填充,於該處頻譜波封使用LSF寫碼(或相似寫碼,於該處不可能於單一頻帶中獨立地改變定標)。
依據該等實施例中之若干者,例如可提供手段以於系統施加立體聲填充而無複合/真實預測。
實施例中之若干者例如可採用參數立體聲填充,表示自編碼器發送明確參數(立體聲填充校正因數)至解碼器,以控制白化左及右MDCT頻譜的立體聲填充(例如,帶有前一框的縮混)。
更加概略言之:於該等實施例中之若干者中,圖1a-圖1e的編碼單元120例如可經組配以產生經處理的音訊信號,使得該經處理的音訊信號之第一聲道的至少一個頻帶為該中間信號之該頻帶,及使得該經處理的音訊信號之第二聲道的至少一個頻帶為該側邊信號之該頻帶。為了獲得經編碼的音訊信號,編碼單元120例如可經組配以藉由針對該側邊信號之該頻帶決定一校正因數而編碼該側邊信號之該頻帶。編碼單元120例如可經組配以取決於一殘差及取決於對應該中間信號之該頻帶的一先前中間信號之一頻帶而針對該側邊信號之該頻帶決定該校正因數,其中該先前中間信號於時間上在該中間信號之前。再者,編碼單元120例如可經組配以取決於該側邊信號之該頻帶,及取決於該中間信號之該頻帶而決定殘差。
依據該等實施例中之若干者,編碼單元120例如可經組配以根據下式針對該側邊信號之該頻帶決定該校正因數 correction_factor fb =ERes fb /(EprevDmx fb +ε)
其中correction_factor fb 指示針對該側邊信號之該頻帶之該校正因數,其中Eres fb 指示取決於該殘差之一頻帶之能的殘差能,其對應該中間信號之該頻帶,其中EprevDmx fb 指示取決於該先前中間信號之該頻帶之能的先前能,及其中ε=0,或其中0.1>ε>0。
於該等實施例中之若干者中,該殘差例如可根據下式定義Res R =S R -a R Dmx R -a i Dmx i ,其中Res R 為該殘差,其中S R 為該側邊信號,其中a R 為一(例如,真實)係數(例如,預測係數),其中Dmx R 為該中間信號,其中該編碼單元(120)係經組配以根據下式決定該殘差能
依據該等實施例中之若干者,該殘差係根據下式定義Res R =S R -a R Dmx R -a i Dmx i ,其中Res R 為該殘差,其中S R 為該側邊信號,其中a R 為一複合(預測)係數的實數部分,及其中a i 為該複合(預測)係數的虛擬部分,其中Dmx R 為該中間信號,其中Dmx i 為取決於該已標準化之音訊信號之第一聲道及取決於該已標準化之音訊信號之第二聲道的另一中間信號,其中取決於該已標準化之音訊信號之第一聲道及取決於該已標準化 之音訊信號之第二聲道的另一側邊信號S i 的另一殘差係根據下式定義Res i =S i =S R -a R Dmx R -a i Dmx i ,其中該編碼單元120例如可經組配以根據下式決定該殘差能
其中該編碼單元120係經組配以取決於該殘差之該頻帶的該能,其對應該中間信號之該頻帶,及取決於該另一殘差之一頻帶的一能,其對應該中間信號之該頻帶,而決定該先前能。
於該等實施例中之若干者中,圖2a-圖2e的解碼單元210例如可經組配以,針對該等多個頻帶中之各個頻帶,決定經編碼的音訊信號之第一聲道的該頻帶及經編碼的音訊信號之第二聲道的該頻帶是否使用雙-單編碼或使用中間-側邊編碼。再者,解碼單元210例如可經組配以藉由重建第二聲道之該頻帶而獲得經編碼的音訊信號之第二聲道的該頻帶。若使用中間-側邊編碼,則經編碼的音訊信號之第一聲道的該頻帶為中間信號之一頻帶,及經編碼的音訊信號之第二聲道的該頻帶為側邊信號之頻帶。再者,若使用中間-側邊編碼,則解碼單元210例如可經組配以取決於用於側邊信號之該頻帶的一校正因數及取決於對應該中間信號之該頻帶的一先前中間信號之一頻 帶,重建側邊信號之該頻帶,其中該先前中間信號時間上係在該中間信號之先。
依據該等實施例中之若干者,若使用中間-側邊編碼,則解碼單元210例如可經組配以,藉由根據下式重建側邊信號之該頻帶的頻譜值,而重建側邊信號之該頻帶S i =N i +facDmx fb prevDmx i ,i [fb,fb+1],其中S i 指示側邊信號之該頻帶的頻譜值,其中prevDmx i 指示該先前中間信號之頻帶的頻譜值,其中N i 指示雜訊經填充之頻譜的頻譜值,其中facDmx fb 係根據下式定義
其中correction_factor fb 為用於側邊信號之該頻帶的校正因數,其中EN fb 為雜訊經填充之頻譜的能,其中EprevDmx fb 指示該先前中間信號之該頻帶的能,及其中ε=0,或其中0.1>ε>0。
於該等實施例中之若干者中,殘差例如可於解碼器自複合立體聲預測演算法推衍,而於解碼器端沒有立體聲預測(真實或複合)。
依據該等實施例中之若干者,於編碼器端頻譜的能源校正定標例如可使用來補償於解碼器端沒有反預測處理。
雖然於設備之脈絡中已經描述某些面向,但顯然此等面向也表示對應方法之描述,於該處一區塊或一裝置對應一方法步驟或一方法步驟之一特徵。類似地,於一方法步驟之脈絡中描述的面向也表示對應區塊或項目或對應設備之特徵的描述。該等方法步驟中之部分或全部可藉(或使用)硬體設備例如,微處理器、可規劃電腦或電子電路執行。於若干實施例中,最重要方法步驟中之一或多者可藉此種設備執行。
取決於某些實施例要求,本發明之實施例可於硬體或於軟體實施,或至少部分地於硬體或至少部分地於軟體實施。該實施可使用數位儲存媒體進行,例如,軟碟、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM、或快閃記憶體,其上儲存有可電子讀取控制信號,其與可規劃電腦系統協力(或能協力)使其能進行個別方法。因此,數位儲存媒體可以是電腦可讀取。
依據本發明之若干實施例包含一資料載體具有可電子讀取控制信號,其能與可規劃電腦系統協力使其能進行本文中描述的該等方法中之一者。
通常,本發明之實施例可實施為帶有程式碼電腦程式產品,當該電腦程式產品在電腦上跑時,該程式碼可操作以進行該等方法中之一者。程式碼例如可儲存於機器可讀取載體上。
其它實施例包含儲存於機器可讀取載體上用於進行本文中描述的該等方法中之一者的電腦程式。
換言之,因而本發明方法之一實施例為具有一程式碼的一電腦程式,當該電腦程式在電腦上跑時用於進行本文中描述的該等方法中之一者。
因而本發明方法之又一實施例為一資料載體(或數位儲存媒體,或電腦可讀取媒體)包含紀錄於其上的用於進行本文中描述的該等方法中之一者之電腦程式。資料載體、或數位儲存媒體或紀錄媒體典型地為有形的及/或非暫態。
因而本發明方法之又一實施例為表示用於進行本文中描述的該等方法中之一者的電腦程式之一資料串流或一序列之信號。該資料串流或序列之信號例如可經組配以透過資料通訊連結,例如透過網際網路移轉。
又一實施例包含經組配以或適用於進行本文中描述的該等方法中之一者的一處理構件,例如電腦或可程式化邏輯裝置。
又一實施例包含其上安裝有用於進行本文中描述的該等方法中之一者的電腦程式之一電腦。
依據本發明之又一實施例包含經組配以移轉(例如,電子式或光學式)用於進行本文中描述的該等方法中之一者的電腦程式至一接收器的一設備。該接收器例如可以是電腦、行動裝置、記憶體裝置等。設備或系統例如可包含用於移轉電腦程式至接收器的一檔案伺服器。
於若干實施例中,可使用一可程式化邏輯裝置(例如,現場可程式閘陣列)以進行本文中描述的該等 方法的功能中之部分或全部。於若干實施例中,現場可程式閘陣列可與微處理器協力以進行本文中描述的該等方法中之一者。一般而言,該等方法較佳地係藉任何硬體設備進行。
本文描述的設備可使用硬體設備,使用電腦,或使用硬體設備與電腦的組合實施。
本文描述的方法可使用硬體設備,使用電腦,或使用硬體設備與電腦的組合實施。
前述實施例僅供例示本發明之原理。須瞭解本文描述的排列及細節之修改及變化將為熟諳技藝人士顯然易知。因此,意圖僅受審查中之申請專利範圍各項之範圍所限,而非受藉由本文實施例之描述及解釋所呈現的特定細節所限。
參考文獻
[1]J. Herre, E. Eberlein and K. Brandenburg, "Combined Stereo Coding," in 93rd AES Convention, San Francisco, 1992.
[2]J. D. Johnston and A. J. Ferreira, "Sum-difference stereo transform coding," in Proc. ICASSP, 1992.
[3]ISO/IEC 11172-3, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 3: Audio, 1993.
[4]ISO/IEC 13818-7, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC), 2003.
[5]J.-M. Valin, G. Maxwell, T. B. Terriberry and K. Vos, "High-Quality, Low-Delay Music Coding in the Opus Codec," in Proc. AES 135th Convention, New York, 2013.
[6a]3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, V 12.5.0, Dezember 2015.
[6b]3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, V 13.3.0, September 2016.
[7]H. Purnhagen, P. Carlsson, L. Villemoes, J. Robilliard, M. Neusinger, C. Helmrich, J. Hilpert, N. Rettelbach, S. Disch and B. Edler, "Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction". US Patent 8,655,670 B2, 18 February 2014.
[8]G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, "Linear prediction based coding scheme using spectral domain noise shaping". European Patent 2676266 B1, 14 February 2011.
[9]S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, "Audio Encoder, Audio Decoder and Related Methods Using Two-Channel Processing Within an Intelligent Gap Filling Framework". International Patent PCT/EP2014/065106, 15 07 2014.
[10]C. Helmrich, P. Carlsson, S. Disch, B. Edler, J. Hilpert, M. Neusinger, H. Purnhagen, N. Rettelbach, J. Robilliard and L. Villemoes, "Efficient Transform Coding Of Two-channcl Audio Signals By Means Of Complex-valued Stereo Prediction," in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, Prague, 2011.
[11]C. R. Helmrich, A. Niedermeier, S. Bayer and B. Edler, "Low-complexity semi-parametric joint-stereo audio transform coding," in Signal Processing Conference (EUSIPCO), 2015 23rd European, 2015.
[12]H. Malvar, “A Modulated Complex Lapped Transform and its Applications to Audio Processing” in Acoustics, Speech, and Signal Processing (ICASSP), 1999. Proceedings., 1999 IEEE International Conference on, Phoenix, AZ, 1999.
[13]B. Edler and G. Schuller, "Audio coding using a psychoacoustic pre- and post-filter," Acoustics, Speech, and Signal Processing, 2000. ICASSP '00.

Claims (39)

  1. 一種用於編碼包含二或多個聲道之一音訊輸入信號的一第一聲道及一第二聲道以獲得一經編碼的音訊信號的設備,其中該設備包含:一標準化器經組配以取決於該音訊輸入信號之該第一聲道及取決於該音訊輸入信號之該第二聲道來決定用於該音訊輸入信號之一標準化值,其中該標準化器係經組配以藉由修改該音訊輸入信號之該第一聲道及該第二聲道中之至少一者來決定一已修改音訊信號的一第一聲道及一第二聲道,其中該標準化器係經組配以使用該標準化值來修改該音訊輸入信號之該第一聲道及該第二聲道中之至少一者,而獲得該已修改音訊信號的該第一聲道及該第二聲道一編碼單元經組配以產生具有一第一聲道及一第二聲道的一經處理的音訊信號,使得該經處理的音訊信號之該第一聲道的一或多個頻帶為該已修改音訊信號之該第一聲道的一或多個頻帶,使得該經處理的音訊信號之該第二聲道的一或多個頻帶為該已修改音訊信號之該第二聲道的一或多個頻帶,使得,取決於該已修改音訊信號之該第一聲道的一頻帶及取決於該已修改音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第一聲道的至少一個頻帶為一中間信號的一頻帶,及使得,取決於該已修改音訊信號之該第一聲道的一頻帶及取決於該已修改音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第二聲道的至少一個頻帶為一側邊信號的一頻帶,其中該編碼單元係經組配以編碼該經處理的音訊信號以獲得該經編碼的音訊信號。
  2. 如請求項1之設備,其中該編碼單元係經組配以取決於該已修改音訊信號之一第一聲道的多個頻帶及取決於該已修改音訊信號之一第二聲道的多個頻帶而在一全-中間-側邊編碼模式及一全-雙-單編碼模式及一逐頻帶編碼模式間作選擇,其中該編碼單元係經組配以,若係選取該全-中間-側邊編碼模式,則自該已修改音訊信號的該第一聲道及自該第二聲道產生一中間信號作為一中間-側邊信號之一第一聲道,自該已修改音訊信號的該第一聲道及自該第二聲道產生一側邊信號作為一中間-側邊信號之一第二聲道,及編碼該中間-側邊信號以獲得該經編碼的音訊信號,其中該編碼單元係經組配以,若係選取該全-雙-單編碼模式,則編碼該已修改音訊信號以獲得該經編碼的音訊信號,及其中該編碼單元係經組配以,若係選取該逐頻帶編碼模式,則產生該經處理的音訊信號,使得該經處理的音訊信號之該第一聲道的一或多個頻帶為該已修改音訊信號之該第一聲道的一或多個頻帶,使得該經處理的音訊信號之該第二聲道的一或多個頻帶為該已修改音訊信號之該第二聲道的一或多個頻帶,使得取決於該已修改音訊信號的該第一聲道的一頻帶及取決於該已修改音訊信號的該第二聲道的一頻帶,該經處理的音訊信號之該第一聲道的至少一個頻帶為一中間信號的一頻帶,及使得取決於該已修改音訊信號的該第一聲道的一頻帶及取決於該已修改音訊信號的該第二聲道的一頻帶,該經處理的音訊信號之該第二聲道的至少一個頻帶為一側邊信號的一頻帶,其中該編碼單元係經組配以編碼該經處理的音訊信號以獲得該經編碼的音訊信號。
  3. 如請求項2之設備,其中該編碼單元係經組配以,若係選取該逐頻帶編碼模式,則針對該經處理的音訊信號之多個頻帶中之各個頻帶判定是否採用中間-側邊編碼或是否採用雙-單編碼,其中若針對該頻帶採用中間-側邊編碼,則該編碼單元係經組配以,基於該已修改音訊信號之該第一聲道的該頻帶及基於該已修改音訊信號之該第二聲道的該頻帶,產生該經處理的音訊信號之該第一聲道的該頻帶作為一中間信號之一頻帶,及該編碼單元係經組配以,基於該已修改音訊信號之該第一聲道的該頻帶及基於該已修改音訊信號之該第二聲道的該頻帶,產生該經處理的音訊信號之該第二聲道的該頻帶作為一側邊信號之一頻帶,及其中若針對該頻帶採用雙-單編碼,該編碼單元係經組配以使用該已修改音訊信號之該第一聲道的該頻帶作為該經處理之音訊信號之該第一聲道的該頻帶,及係經組配以使用該已修改音訊信號之該第二聲道的該頻帶作為該經處理之音訊信號之該第二聲道的該頻帶,或該編碼單元係經組配以使用該已修改音訊信號之該第二聲道的該頻帶作為該經處理之音訊信號之該第一聲道的該頻帶,及係經組配以使用該已修改音訊信號之該第一聲道的該頻帶作為該經處理之音訊信號之該第二聲道的該頻帶。
  4. 如請求項2之設備,其中該編碼單元係經組配以,藉由決定當採用該全-中間-側邊編碼模式時估計用於編碼所需一第一位元數目的一第一估值,藉由決定當採用該全-雙-單編碼模式時估計用於編碼所需一第二位元數目的一第二估值,藉由決定當採用該逐頻帶編碼模式時估計用於編碼所需一第三位元數目的一第三估值,及藉由在該全-中間-側邊編碼模式及該全-雙-單編碼模式及該逐頻帶編碼模式中選擇在該第一估值及該第二估值及該第三估值中具有一最小位元數目的該編碼模式,而在該全-中間-側邊編碼模式及該全-雙-單編碼模式及該逐頻帶編碼模式間作選擇。
  5. 如請求項4之設備,其中該編碼單元係經組配以根據該下式估計該第三估值b BW ,估計當採用該逐頻帶編碼模式時用於編碼所需該第三位元數目:
    Figure TWI669704B_C0001
    其中nBands為該已修改音訊信號的一頻帶數目,其中
    Figure TWI669704B_C0002
    為用於編碼該中間信號之一第i頻帶及用於編碼該側邊信號之該第i頻帶所需一位元數目的一估值,及其中
    Figure TWI669704B_C0003
    為用於編碼該第一信號之一第i頻帶及用於編碼該第二信號之該第i頻帶所需一位元數目的一估值。
  6. 如請求項2之設備,其中該編碼單元係經組配以,藉由決定當以該全-中間-側邊編碼模式編碼時估計節約的一第一位元數目的一第一估值,藉由決定當以該全-雙-單編碼模式編碼時估計節約的一第二位元數目的一第二估值,藉由決定當以該逐頻帶編碼模式編碼時估計節約的一第三位元數目的一第三估值,及藉由在該全-中間-側邊編碼模式及該全-雙-單編碼模式及該逐頻帶編碼模式中選擇在該第一估值及該第二估值及該第三估值中具有一最大位元數目的該編碼模式,而在該全-中間-側邊編碼模式及該全-雙-單編碼模式及該逐頻帶編碼模式間作選擇。
  7. 如請求項2之設備,其中該編碼單元係經組配以,藉由估計當採用該全-中間-側邊編碼模式時出現的一第一信號對雜訊比,藉由估計當採用該全-雙-單編碼模式時出現的一第二信號對雜訊比,藉由估計當採用該逐頻帶編碼模式時出現的一第三信號對雜訊比,及藉由在該全-中間-側邊編碼模式及該全-雙-單編碼模式及該逐頻帶編碼模式中選擇在該第一信號對雜訊比及該第二信號對雜訊比及該第三信號對雜訊比中具有一最大信號對雜訊比的該編碼模式,而在該全-中間-側邊編碼模式及該全-雙-單編碼模式及該逐頻帶編碼模式間作選擇。
  8. 如請求項1之設備,其中該編碼單元係經組配以產生該經處理的音訊信號,使得該經處理的音訊信號之該第一聲道的該至少一個頻帶為該中間信號之該頻帶,及使得該經處理的音訊信號之該第二聲道的該至少一個頻帶為該側邊信號之該頻帶,其中為了獲得該經編碼的音訊信號,該編碼單元係經組配以藉由決定用於該側邊信號之該頻帶的一校正因數而編碼該側邊信號之該頻帶,其中該編碼單元係經組配以取決於一一先前中間信號之一頻帶,其對應該中間信號之該頻帶,而決定用於該側邊信號之該頻帶的該校正因數,其中該先前中間信號於時間上在該中間信號之先。
  9. 如請求項8之設備,其中該編碼單元係經組配以根據下式決定用於該側邊信號之該頻帶的該校正因數:correction_factor fb =ERes fb /(EprevDmx fb +ε),其中correction_factor fb 指示針對該側邊信號之該頻帶之該校正因數,其中ERes fb 指示取決於該殘差之一頻帶之一能的一殘差能,其對應該中間信號之該頻帶,其中EprevDmx fb 指示取決於該先前中間信號之該頻帶之一能的一先前能,及其中ε=0,或其中0.1>ε>0。
  10. 如請求項8之設備,其中該殘差係根據下式定義Res R =S R -a R Dmx R -a i Dmx i ,其中Res R 為該殘差,其中S R 為該側邊信號,其中a R 為一係數,其中Dmx R 為該中間信號,其中該編碼單元係經組配以根據下式決定該殘差能
    Figure TWI669704B_C0004
  11. 如請求項8之設備,其中該殘差係根據下式定義Res R =S R -a R Dmx R -a i Dmx i ,其中Res R 為該殘差,其中S R 為該側邊信號,其中a R 為一複合係數的一實數部分,及其中a i 為該複合係數的一虛擬部分,其中Dmx R 為該中間信號,其中Dmx i 為取決於該已修改音訊信號之該第一聲道及取決於該已修改音訊信號之該第二聲道的另一中間信號,其中取決於該已修改音訊信號之該第一聲道及取決於該已修改音訊信號之該第二聲道的另一側邊信號S i 的另一殘差係根據下式定義Res i =S i =S R -a R Dmx R -a i Dmx i ,其中該編碼單元係經組配以根據下式決定該殘差能
    Figure TWI669704B_C0005
    其中該編碼單元係經組配以取決於該殘差之該頻帶的該能,其對應該中間信號之該頻帶,及取決於該另一殘差之一頻帶的一能,其對應該中間信號之該頻帶,而決定該先前能。
  12. 如請求項1之設備,其中該標準化器係經組配以取決於該音訊輸入信號之該第一聲道的一能及取決於該音訊輸入信號之該第二聲道的一能而決定用於該音訊輸入信號之該標準化值。
  13. 如請求項1之設備,其中該音訊輸入信號係於一頻域表示,其中該標準化器係經組配以取決於該音訊輸入信號之該第一聲道的多個頻帶及取決於該音訊輸入信號之該第二聲道的多個頻帶而決定用於該音訊輸入信號之該標準化值,及其中該標準化器係經組配以取決於該標準化值,藉由修改該音訊輸入信號的該第一聲道及該第二聲道中之至少一者的該等多個頻帶而決定用於該已修改音訊信號。
  14. 如請求項13之設備,其中該標準化器係經組配以基於下式決定該標準化值:
    Figure TWI669704B_C0006
    其中MDCT L,k 為該音訊輸入信號之該第一聲道的一MDCT頻譜之一第k個係數,及MDCT R,k 為該音訊輸入信號之該第二聲道的該MDCT頻譜之該第k個係數,及其中該標準化器係經組配以藉量化ILD而決定該標準化值。
  15. 如請求項13之設備,其中該用於編碼之該設備進一步包含一變換單元及一前處理單元,其中該變換單元係經組配以將一時域音訊信號自一時域變換至一頻域以獲得一已變換之音訊信號,其中該前處理單元係經組配以藉於該已變換之音訊信號上施加一編碼器端頻域雜訊塑形操作而產生該音訊輸入信號的該第一聲道及該第二聲道。
  16. 如請求項15之設備,其中該前處理單元係經組配以在該已變換之音訊信號上施加該編碼器端頻域雜訊塑形操作之前,藉在該已變換之音訊信號上施加一編碼器端時間雜訊塑形操作而產生該音訊輸入信號的該第一聲道及該第二聲道。
  17. 如請求項1之設備,其中該標準化器係經組配以取決於一時域中表示的該音訊輸入信號之該第一聲道及取決於該時域中表示的該音訊輸入信號之該第二聲道而決定用於該音訊輸入信號之一標準化值,其中該標準化器係經組配以取決於該標準化值而藉修改於該時域中表示的該音訊輸入信號之該第一聲道及該第二聲道來決定該已修改音訊信號的該第一聲道及該第二聲道,其中該設備進一步包含一變換單元經組配以將該已修改音訊信號自該時域變換至一頻域使得該已修改音訊信號係於該頻域中表示,及其中該變換單元係經組配以於該頻域中表示的該已修改音訊信號饋入該編碼單元。
  18. 如請求項17之設備,其中該設備進一步包含一前處理單元經組配以接收包含一第一聲道及一第二聲道的一時域音訊信號,其中該前處理單元係經組配以在該時域音訊信號之該第一聲道上施加一濾波器其產生一第一感官白化頻譜以獲得於該時域中表示的該音訊輸入信號的該第一聲道,及其中該前處理單元係經組配以在該時域音訊信號之該第二聲道上施加一濾波器其產生一第二感官白化頻譜以獲得於該時域中表示的該音訊輸入信號的該第二聲道。
  19. 如請求項17之設備,其中該變換單元係經組配以將該已修改音訊信號自該時域變換至該頻域以獲得一已變換之音訊信號,其中該設備更進一步包含一頻域頻域前處理器經組配以在該已變換之音訊信號上進行編碼器端時間雜訊塑形以獲得於該頻域中表示的該已修改音訊信號。
  20. 如請求項1之設備,其中該編碼單元係經組配以藉在該已修改音訊信號上或在該經處理的音訊信號上施加編碼器端立體聲智能間隙填補而獲得該經編碼的音訊信號。
  21. 如請求項1之設備,其中該音訊輸入信號為恰包含兩個聲道之一音訊立體聲信號。
  22. 一種用於編碼包含四或多個聲道之一音訊輸入信號的四個聲道以獲得一經編碼的音訊信號的系統,其中該系統包含:如請求項1之一第一設備,用於編碼該音訊輸入信號之該等四或多個聲道中之一第一聲道及一第二聲道以獲得該經編碼的音訊信號的一第一聲道及一第二聲道,及如請求項1之一第二設備,用於編碼該音訊輸入信號之該等四或多個聲道中之一第三聲道及一第四聲道以獲得該經編碼的音訊信號的一第三聲道及一第四聲道。
  23. 一種用於解碼包含一第一聲道及一第二聲道的一經編碼的音訊信號以獲得包含二或多個聲道之一經解碼的音訊信號之一第一聲道及一第二聲道的設備,其中該設備包含一解碼單元經組配以,針對多個頻帶中之各個頻帶,決定該經編碼的音訊信號之該第一聲道的該頻帶及該經編碼的音訊信號之該第二聲道的該頻帶係使用雙-單編碼或使用中間-側邊編碼加以編碼,其中若使用該雙-單編碼,則該解碼單元係經組配以使用該經編碼的音訊信號之該第一聲道的該頻帶作為一中間音訊信號之一第一聲道的一頻帶及係經組配以使用該經編碼的音訊信號之該第二聲道的該頻帶作為該中間音訊信號之一第二聲道的一頻帶,其中若使用該中間-側邊編碼,則該解碼單元係經組配以基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第一聲道的一頻帶,及基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第二聲道的一頻帶,及其中該設備包含一反標準化器經組配以取決於一反標準化值而修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者以獲得該經解碼的音訊信號之該第一聲道及該第二聲道。
  24. 如請求項23之設備,其中該解碼單元係經組配以決定該經編碼的音訊信號是否以一全-中間-側邊編碼模式或以一全-雙-單編碼模式或以一逐頻帶編碼模式編碼,其中,若判定該經編碼的音訊信號是以該全-中間-側邊編碼模式編碼,則該解碼單元係經組配以自該經編碼的音訊信號之該第一聲道及自該第二聲道產生該中間音訊信號的該第一聲道,及自該經編碼的音訊信號之該第一聲道及自該第二聲道產生該中間音訊信號的該第二聲道,其中,若判定該經編碼的音訊信號是以該全-雙-單編碼模式編碼,則該解碼單元係經組配以使用該經編碼的音訊信號之該第一聲道作為該中間音訊信號之該第一聲道,及使用該經編碼的音訊信號之該第二聲道作為該中間音訊信號之該第二聲道,及其中,若判定該經編碼的音訊信號係以該逐頻帶編碼模式編碼,則該解碼單元係經組配以,針對多個頻帶中之各個頻帶,決定該經編碼的音訊信號之該第一聲道的該頻帶及該經編碼的音訊信號之該第二聲道的該頻帶是否使用該雙-單編碼或使用該中間-側邊編碼,若係使用該雙-單編碼,則使用該經編碼的音訊信號之該第一聲道的該頻帶作為該中間音訊信號之該第一聲道的一頻帶及使用該經編碼的音訊信號之該第二聲道的該頻帶作為該中間音訊信號之該第二聲道的一頻帶若係使用該中間-側邊編碼,則基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第一聲道的一頻帶,及基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第二聲道的一頻帶。
  25. 如請求項23之設備,其中該解碼單元係經組配以針對該等多個頻帶中之各個頻帶,決定該經編碼的音訊信號之該第一聲道的該頻帶及該經編碼的音訊信號之該第二聲道的該頻帶是否使用雙-單編碼或使用中間-側邊編碼,其中該解碼單元係經組配以藉重建該第二聲道的該頻帶而獲得該經編碼的音訊信號之該第二聲道的該頻帶,其中,若係使用該中間-側邊編碼,則該經編碼的音訊信號之該第一聲道的該頻帶為一中間信號的一頻帶,及該經編碼的音訊信號之該第二聲道的該頻帶為一側邊信號的一頻帶,其中,若係使用該中間-側邊編碼,則該解碼單元係經組配以取決於用於該側邊信號之該頻帶的一校正因數及取決於一先前中間信號的一頻帶,其對應該中間信號的該頻帶,而重建該側邊聲道的該頻帶,其中該先前中間信號時間上係在該中間信號之先。
  26. 如請求項25之設備,其中,若係使用該中間-側邊編碼,則該解碼單元係經組配以根據下式藉重建該側邊信號之該頻帶的頻譜值而重建該側邊聲道的該頻帶S i =N i +facDmx fb prevDmx i ,i
    Figure TWI669704B_C0007
    [fb,fb+1],其中S i 指示該側邊信號之該頻帶的該等頻譜值,其中prevDmx i 指示該先前中間信號之該頻帶的頻譜值,其中N i 指示一雜訊經填充之頻譜的頻譜值,其中facDmx fb 係根據下式定義
    Figure TWI669704B_C0008
    其中correction_factor fb 為用於該側邊信號之該頻帶的該校正因數,其中EN fb 為該雜訊經填充之頻譜的一能,其中EprevDmx fb 為該先前中間信號之該頻帶的一能,及其中ε=0,或其中0.1>ε>0。
  27. 如請求項23之設備,其中該反標準化器係經組配以取決於該反標準化值而修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者的該等多個頻帶以獲得該經解碼的音訊信號之該第一聲道及該第二聲道。
  28. 如請求項23之設備,其中該反標準化器係經組配以取決於該反標準化值而修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者的該等多個頻帶以獲得一未修改音訊信號,其中該設備更進一步包含一後處理單元及一變換單元,及其中該後處理單元係經組配以在該未修改音訊信號上進行解碼器端時間雜訊塑形及解碼器端頻域雜訊塑形中之至少一者以獲得一經後處理的音訊信號,其中該變換單元係經組配以將該經後處理的音訊信號自一頻域變換至一時域以獲得該經解碼的音訊信號之該第一聲道及該第二聲道。
  29. 如請求項23之設備,其中該設備進一步包含一變換單元經組配以將該中間音訊信號自一頻域變換至一時域,其中該反標準化器係經組配以取決於該反標準化值而修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者以獲得該經解碼的音訊信號之該第一聲道及該第二聲道。
  30. 如請求項23之設備,其中該設備進一步包含一變換單元經組配以將該中間音訊信號自一頻域變換至一時域,其中該反標準化器係經組配以取決於該反標準化值而修改於一時域中表示的該中間音訊信號之該第一聲道及該第二聲道中之至少一者以獲得一未修改音訊信號,其中該設備進一步包含一後處理單元經組配以處理該未修改音訊信號,為一感官白化音訊信號,以獲得該經解碼的音訊信號之該第一聲道及該第二聲道。
  31. 如請求項29之設備,其中該設備更進一步包含一頻域後處理器經組配以於該中間音訊信號上進行解碼器端時間雜訊塑形,其中該變換單元係經組配以在該中間音訊信號上已經進行解碼器端時間雜訊塑形之後,將該中間音訊信號自該頻域變換至該時域。
  32. 如請求項23之設備,其中該解碼單元係經組配以於該經編碼的音訊信號上施加解碼器端立體聲智能間隙填充。
  33. 如請求項23之設備,其中該經解碼的音訊信號為恰包含兩個聲道之一音訊立體聲信號。
  34. 一種用於解碼包含四或多個聲道的一經編碼的音訊信號以獲得包含四或多個聲道之一經解碼的音訊信號之四個聲道的系統,其中該系統包含:如請求項23之一第一設備用於解碼該經編碼的音訊信號之該等四或多個聲道中之一第一聲道及一第二聲道以獲得該經解碼的音訊信號之一第一聲道及一第二聲道,及如請求項23之一第二設備用於解碼該經編碼的音訊信號之該等四或多個聲道中之一第三聲道及一第四聲道以獲得該經解碼的音訊信號之一第三聲道及一第四聲道。
  35. 一種用於自一音訊輸入信號產生一經編碼的音訊信號及用於自該經編碼的音訊信號產生一經解碼的音訊信號之系統,其包含:如請求項1之一設備,其中如請求項1之該設備係經組配以自該音訊輸入信號產生該經編碼的音訊信號,及如請求項23之一設備,其中如請求項23之該設備係經組配以自該經編碼的音訊信號產生該經解碼的音訊信號。
  36. 一種用於自一音訊輸入信號產生一經編碼的音訊信號及用於自該經編碼的音訊信號產生一經解碼的音訊信號之系統,其包含:如請求項22之一系統,其中如請求項22之該系統係經組配以自該音訊輸入信號產生該經編碼的音訊信號,及如請求項34之一系統,其中如請求項34之該系統係經組配以自該經編碼的音訊信號產生該經解碼的音訊信號。
  37. 一種用於編碼包含二或多個聲道之一音訊輸入信號的一第一聲道及一第二聲道以獲得一經編碼的音訊信號的方法,其中該方法包含:取決於該音訊輸入信號的該第一聲道及取決於該音訊輸入信號的該第二聲道針對該音訊輸入信號決定一標準化值,取決於該標準化值,藉修改該音訊輸入信號的該第一聲道及該第二聲道中之至少一者而決定一已修改音訊信號的一第一聲道及一第二聲道,其中該標準化值係用以修改該音訊輸入信號的該第一聲道及該第二聲道中之至少一者,來獲得該已修改音訊信號的該第一聲道及該第二聲道,產生具有一第一聲道及一第二聲道之一經處理的音訊信號,使得該經處理的音訊信號之該第一聲道的一或多個頻帶為該已修改音訊信號之該第一聲道的一或多個頻帶,使得該經處理的音訊信號之該第二聲道的一或多個頻帶為該已修改音訊信號之該第二聲道的一或多個頻帶,使得,取決於該已修改音訊信號之該第一聲道的一頻帶及取決於該已修改音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第一聲道的至少一個頻帶為一中間信號的一頻帶,及使得,取決於該已修改音訊信號之該第一聲道的一頻帶及取決於該已修改音訊信號之該第二聲道的一頻帶,該經處理的音訊信號之該第二聲道的至少一個頻帶為一側邊信號的一頻帶,及編碼該經處理的音訊信號以獲得該經編碼的音訊信號。
  38. 一種用於解碼包含一第一聲道及一第二聲道的一經編碼的音訊信號以獲得包含二或多個聲道之一經解碼的音訊信號之一第一聲道及一第二聲道的方法,其中該方法包含:針對多個頻帶中之各個頻帶,決定該經編碼的音訊信號之該第一聲道的該頻帶及該經編碼的音訊信號之該第二聲道的該頻帶是否使用雙-單編碼或使用中間-側邊編碼加以編碼,若使用該雙-單編碼,則使用該經編碼的音訊信號之該第一聲道的該頻帶作為一中間音訊信號之一第一聲道的一頻帶及使用該經編碼的音訊信號之該第二聲道的該頻帶作為該中間音訊信號之一第二聲道的一頻帶,若使用該中間-側邊編碼,則基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第一聲道的一頻帶,及基於該經編碼的音訊信號之該第一聲道的該頻帶及基於該經編碼的音訊信號之該第二聲道的該頻帶而產生該中間音訊信號之該第二聲道的一頻帶,及取決於一反標準化值,修改該中間音訊信號之該第一聲道及該第二聲道中之至少一者以獲得一經解碼的音訊信號之該第一聲道及該第二聲道。
  39. 一種當在一電腦或信號處理器上執行時用於實施如請求項37或38之方法的電腦程式。
TW106102400A 2016-01-22 2017-01-23 用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備、系統及方法、以及相關電腦程式 TWI669704B (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
??16152457.4 2016-01-22
EP16152454 2016-01-22
EP16152457 2016-01-22
??16152454.1 2016-01-22
EP16199895 2016-11-21
??16199895.0 2016-11-21
PCT/EP2017/051177 WO2017125544A1 (en) 2016-01-22 2017-01-20 Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
??PCT/EP2017/051177 2017-01-20

Publications (2)

Publication Number Publication Date
TW201732780A TW201732780A (zh) 2017-09-16
TWI669704B true TWI669704B (zh) 2019-08-21

Family

ID=57860879

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106102400A TWI669704B (zh) 2016-01-22 2017-01-23 用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備、系統及方法、以及相關電腦程式

Country Status (17)

Country Link
US (2) US11842742B2 (zh)
EP (2) EP4123645A1 (zh)
JP (3) JP6864378B2 (zh)
KR (1) KR102230668B1 (zh)
CN (2) CN117542365A (zh)
AU (1) AU2017208561B2 (zh)
CA (1) CA3011883C (zh)
ES (1) ES2932053T3 (zh)
FI (1) FI3405950T3 (zh)
MX (1) MX2018008886A (zh)
MY (1) MY188905A (zh)
PL (1) PL3405950T3 (zh)
RU (1) RU2713613C1 (zh)
SG (1) SG11201806256SA (zh)
TW (1) TWI669704B (zh)
WO (1) WO2017125544A1 (zh)
ZA (1) ZA201804866B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
MX2020014077A (es) * 2018-07-04 2021-03-09 Fraunhofer Ges Forschung Codificador multise?al, decodificador multise?al, y metodos relacionados que utilizan blanqueado de se?al o post procesamiento de se?al.
CN113348507A (zh) 2019-01-13 2021-09-03 华为技术有限公司 高分辨率音频编解码
US11527252B2 (en) 2019-08-30 2022-12-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. MDCT M/S stereo
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201517023A (zh) * 2013-07-22 2015-05-01 弗勞恩霍夫爾協會 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3435674B2 (ja) * 1994-05-06 2003-08-11 日本電信電話株式会社 信号の符号化方法と復号方法及びそれを使った符号器及び復号器
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
DE19959156C2 (de) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
EP1723639B1 (en) 2004-03-12 2007-11-14 Nokia Corporation Synthesizing a mono audio signal based on an encoded multichannel audio signal
US8041042B2 (en) * 2006-11-30 2011-10-18 Nokia Corporation Method, system, apparatus and computer program product for stereo coding
MY146431A (en) 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
JP5302980B2 (ja) 2008-03-04 2013-10-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の入力データストリームのミキシングのための装置
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
CA3045686C (en) * 2010-04-09 2020-07-14 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
DE102010014599A1 (de) 2010-04-09 2010-11-18 Continental Automotive Gmbh Luftmassenmesser
EP2676266B1 (en) * 2011-02-14 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping
EP3244405B1 (en) * 2011-03-04 2019-06-19 Telefonaktiebolaget LM Ericsson (publ) Audio decoder with post-quantization gain correction
US8654984B2 (en) * 2011-04-26 2014-02-18 Skype Processing stereophonic audio signals
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
US9883308B2 (en) * 2014-07-01 2018-01-30 Electronics And Telecommunications Research Institute Multichannel audio signal processing method and device
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201517023A (zh) * 2013-07-22 2015-05-01 弗勞恩霍夫爾協會 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法

Also Published As

Publication number Publication date
CN109074812A (zh) 2018-12-21
MY188905A (en) 2022-01-13
US20240071395A1 (en) 2024-02-29
FI3405950T3 (fi) 2022-12-15
CA3011883A1 (en) 2017-07-27
JP2023109851A (ja) 2023-08-08
ZA201804866B (en) 2019-04-24
EP3405950B1 (en) 2022-09-28
PL3405950T3 (pl) 2023-01-30
AU2017208561A1 (en) 2018-08-09
JP2019506633A (ja) 2019-03-07
EP4123645A1 (en) 2023-01-25
MX2018008886A (es) 2018-11-09
AU2017208561B2 (en) 2020-04-16
US20180330740A1 (en) 2018-11-15
JP7280306B2 (ja) 2023-05-23
US11842742B2 (en) 2023-12-12
CA3011883C (en) 2020-10-27
KR102230668B1 (ko) 2021-03-22
CN117542365A (zh) 2024-02-09
BR112018014813A2 (pt) 2018-12-18
SG11201806256SA (en) 2018-08-30
WO2017125544A1 (en) 2017-07-27
CN109074812B (zh) 2023-11-17
EP3405950A1 (en) 2018-11-28
ES2932053T3 (es) 2023-01-09
KR20180103102A (ko) 2018-09-18
JP2021119383A (ja) 2021-08-12
TW201732780A (zh) 2017-09-16
RU2713613C1 (ru) 2020-02-05
JP6864378B2 (ja) 2021-04-28

Similar Documents

Publication Publication Date Title
TWI669704B (zh) 用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備、系統及方法、以及相關電腦程式
RU2763374C2 (ru) Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
JP6641018B2 (ja) チャネル間時間差を推定する装置及び方法
JP6196249B2 (ja) 複数のチャネルを有するオーディオ信号を符号化する装置と方法
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
US20210104249A1 (en) Multisignal Audio Coding Using Signal Whitening As Processing
TWI714046B (zh) 用於估計聲道間時間差的裝置、方法或計算機程式
KR20150110708A (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
EP4229628A1 (en) Method and device for audio band-width detection and audio band-width switching in an audio codec
WO2024051955A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2021155460A1 (en) Switching between stereo coding modes in a multichannel sound codec