TW201732784A - 用以增強暫態處理之後置處理器、前置處理器、音訊編碼器、音訊解碼器及相關方法 - Google Patents

用以增強暫態處理之後置處理器、前置處理器、音訊編碼器、音訊解碼器及相關方法 Download PDF

Info

Publication number
TW201732784A
TW201732784A TW106105242A TW106105242A TW201732784A TW 201732784 A TW201732784 A TW 201732784A TW 106105242 A TW106105242 A TW 106105242A TW 106105242 A TW106105242 A TW 106105242A TW 201732784 A TW201732784 A TW 201732784A
Authority
TW
Taiwan
Prior art keywords
block
audio
high frequency
gain
frequency band
Prior art date
Application number
TW106105242A
Other languages
English (en)
Other versions
TWI618053B (zh
Inventor
佛羅瑞 吉西多
薩斯洽 迪斯曲
喬根 希瑞
亞歷山大 艾達米
法蘭茲 瑞泰爾休柏
Original Assignee
弗勞恩霍夫爾協會
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW201732784A publication Critical patent/TW201732784A/zh
Application granted granted Critical
Publication of TWI618053B publication Critical patent/TWI618053B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)

Abstract

本發明提供一種用於對具有一時變高頻增益資訊作為旁側資訊之一音訊信號進行後處理的音訊後置處理器,其包含:一頻帶提取器,其用於提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶;一高頻帶處理器,其用於根據該時變高頻增益資訊執行該高頻頻帶之一時變修改以獲得一經處理高頻頻帶;以及一組合器,其用於組合該經處理高頻頻帶與該低頻頻帶。此外,說明一種前置處理器。

Description

用以增強暫態處理之後置處理器、前置處理器、音訊編碼器、音訊解碼器及相關方法
發明領域 本發明係關於音訊處理,且特定言之,係關於音訊預處理及音訊後處理上下文中的音訊處理。
發明背景前回聲:時間遮蔽問題 基於典型濾波器組之感知寫碼器(如MP3或AAC)主要經設計以利用同時遮蔽之感知效應,但亦必須處理遮蔽現象之時間態樣:雜訊在遮蔽信號出現之前及之後(前遮蔽及後遮蔽現象)被短時間遮蔽。觀察到後遮蔽比前遮蔽持續更長時間段(視遮蔽器之位準及持續時間而定,大約10.0至50.0 ms,而非0.5至2.0ms)。
因此,遮蔽之時間態樣導致對感知寫碼方案之額外要求:為了達成感知透明之寫碼品質,量化雜訊亦必須不超過時間相依遮蔽臨限值。
實務上,此要求對感知寫碼器而言不容易達成,此係因為將頻譜信號分解用於量化及寫碼暗示:此域中所引入之量化誤差將在藉由合成濾波器組之重建構之後在時間上散開(時間/頻率不確定性原理)。堆疊於常用濾波器組設計(例如,1024線MDCT),此意謂量化雜訊可以CD取樣速率經多於40毫秒之時段散開。此會在待寫碼之信號僅在分析濾波器組窗口之部分中含有強烈信號分量時(亦即對於暫態信號)產生問題。詳言之,量化雜訊係在信號起始之前散開,且在極端情況下甚至可能在特定時間間隔期間在位準上超過原始信號分量。關鍵衝擊信號之熟知實例為響板錄音,其中在解碼量化之後,雜訊分量在原始信號之「攻擊」之前的某一時間散開。此群集傳統上被稱為「前回聲現象」[Joh92b]。
歸因於人類聽覺系統之性質,此等「前回聲」僅在無大量寫碼雜訊在信號起始之前存在長於大約2.0ms時被遮蔽。否則,寫碼雜訊將作為前回聲偽訊(亦即,信號開始前的類短雜訊事件)感覺到。為了避免此等偽訊,必須小心地維持量化雜訊之適當時間特性,以使得量化雜訊將仍然滿足時間遮蔽之條件。此時間雜訊整形問題傳統上使得對於暫態信號(如響板、鐘琴、三角鐵等)難以在低位元速率下達成良好的感知信號品質。類鼓掌信號:極其關鍵類別之信號
雖然先前提及之暫態信號可在感知編解音訊碼器中觸發前回聲,但該等觸發前和聲展現單一獨立攻擊,亦即存在某一最小時間,直至下一個攻擊出現。因此,感知寫碼器具有一些時間自處理最後攻擊恢復,且可(例如)再次收集備用位元以解決下一個攻擊(參見如下所述之「位元儲集器(bit reservoir)」)。與此相比,鼓掌觀眾之聲音由密集隔開之拍手之穩定串流組成,該等拍手中之每一者為其自身之暫態事件。圖11展示立體聲鼓掌信號之高頻時間包絡之說明。如可見,後續拍手事件之間的平均時間明顯地低於10ms。
出於此原因,鼓掌及類鼓掌信號(如雨滴或爆裂煙火)構成極其難以在由許多實況記錄共用同時對信號寫碼的一類。此情況在將參數方法用於兩個或更多個通道之聯合寫碼時亦成立[Hot08]。寫碼暫態信號之傳統方法
已建議一組技術以便避免經編碼/經解碼信號中之前回聲偽訊:前回聲控制及位元儲集器
一個方法為增大用於首先覆蓋暫態信號部分之濾波器組窗口之頻譜係數的寫碼精度(所謂的「前回聲控制」,[MPEG1])。由於此使用於寫碼此等訊框之必需位元之量顯著增大,但此方法不能應用於恆定位元速率寫碼器中。在一定程度上,位元速率需求之局部變化能夠藉由使用位元儲集器([Bra87]、[MPEG1])來解釋。此技術准許使用在寫碼稍早訊框期間已保留之位元來處置位元速率中之峰值需要,同時平均位元速率仍然保持恆定。適應性窗口切換
用於許多感知音訊寫碼器中之不同策略為如藉由Edler[Edl89]引入之適應性窗口切換。此技術使濾波器組窗口之大小適應輸入信號之特性。儘管固定信號部分將使用長窗口長度來寫碼,但短窗口用以對信號之暫態部分寫碼。以此方式,峰值位元需求可顯著減小,此係因為需要高寫碼精度之區域在時間上受限。前回聲在持續時間上藉由較短變換大小隱式地限制。時間雜訊整形(Temporal Noise Shaping ,TNS)
時間雜訊整形(TNS)係在[Her96]中引入,且藉由在頻譜域中沿著頻率方向將開環預測性寫碼應用於時間區塊來達成量化雜訊之時間整形。增益修改( 增益控制)
避免量化雜訊之時間分散的另一方法為在計算信號之頻譜分解及寫碼之前將動態增益修改(增益控制程序)應用於信號。
此方法之原理在圖12中說明。輸入信號之動態係在其編碼之前根據增益修改(乘法預處理)減小。以此方式,信號中之「峰值」在編碼之前經衰減。增益修改之參數係在位元串流中傳輸。使用此資訊,持續在解碼器側上反轉,亦即,在解碼之後,另一增益修改恢復原始信號動態。
[Lin93] 建議增益控制至感知音訊寫碼器之加法,其中增益修改係對時域信號(且因此對整體信號頻譜)執行。 頻率相依增益修改/控制之前已使用,在許多例項中:
基於濾波器之增益控制: 在Vaupel之論文[Vau91]中,Vaupel注意到完全頻帶增益控制沒有良好地作用。為了達成頻率相依增益控制,其建議在增益特性上能夠進行動態控制的壓縮器與擴展器濾波器對。此方案展示於圖13a及圖13b中。
濾波器之頻率回應之變化展示於圖13b中。
混合式濾波器組情況下之增益控制( 說明於圖14 中) 在MPEG-2進階音訊寫碼[Bos96]方案之SSR分佈中,增益控制在混合式濾波器組結構內使用。第一濾波器組級(PQF)將輸入信號拆分成寬度相等之四個頻帶。接著,增益偵測器及增益修改器執行增益控制編碼器處理。最後,作為第二級,具有減小大小(256替代1024)的四個單獨MDCT濾波器組進一步拆分所得信號且產生用於後續寫碼之頻譜分量。
導引包絡整形(Guided envelope shaping ,GES )為MPEG圍繞中所含之工具,其傳輸通道個別時間包絡參數且恢復解碼器側上之時間包封。請注意,與HREP處理相比,編碼器側上不存在包絡平坦化,以便維持降混之回溯相容性。MPEG圍繞中用以執行包絡整形之另一工具為子頻帶時間處理(STP)。此處,低階LPC濾波器係在音訊信號之QMF濾波器組表示內應用。
相關先前技術記載於專利公開案WO 2006/045373 A1、WO 2006/045371 A1、WO2007/042108 A1,WO 2006/108543 A1或WO 2007/110101 A1中。參考 [Bos96] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa: "MPEG-2 Advanced Audio Coding", 101st AES Convention, Los Angeles 1996 [Bra87] K. Brandenburg: "OCF - A New Coding Algorithm for High Quality Sound Signals", Proc. IEEE ICASSP, 1987 [Joh92b] J. D. Johnston, K. Brandenburg: "Wideband Coding Perceptual Considerations for Speech and Music", in S. Furui and M. M. Sondhi, editors: "Advances in Speech Signal Processing", Marcel Dekker, New York, 1992 [Edl89] B. Edler: "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, Vol. 43, pp. 252-256, 1989 [Her96] J. Herre, J. D. Johnston: "Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)", 101st AES Convention, Los Angeles 1996, Preprint 4384 [Hot08] Gerard Hotho, Steven van de Par, and Jeroen Breebaart: "Multichannel coding of applause signals", EURASIP Journal of Advances in Signal Processing, Hindawi, January 2008, doi: 10.1155/2008/531693 [Lin93] M. Link: "An Attack Processing of Audio Signals for Optimizing the Temporal Characteristics of a Low Bit-Rate Audio Coding System", 95th AES convention, New York 1993, Preprint 3696 [MPEG1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO 11172-3 "Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s" [Vau91] T. Vaupel: "Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der 'Time Domain Aliasing Cancellation (TDAC)' und einer Signalkompandierung im Zeitbereich", PhD Thesis, Universität-Gesamthochschule Duisburg, Germany, 1991
位元儲集器可幫助處置對感知寫碼器中之位元速率的峰值需要,且藉此改良暫態信號之感知品質。然而,實務上,位元儲集器之大小必須不現實地巨大,以便避免非常暫態性質之寫碼輸入信號(無其他注意事項)時的偽訊。
適應性窗口切換限制信號之暫態部分之位元需求且將經過限制暫態的前回聲縮小成短變換區塊。適應性窗口切換之限制係由其潛時及重複時間給定:兩個短區塊序列之間的最快可能周轉循環需要至少三個區塊(「短」→「停止」→「開始」→「短」,對於512至1024個樣本之典型區塊大小為大約30.0至60.0ms),此對於特定類型的包括鼓掌之輸入信號而言過長。因此,類鼓掌信號之量化雜訊之時間分散僅可藉由永久地選擇短窗口大小來避免,此通常引起寫碼器之源寫碼效率的減小。
TNS執行編碼器中之時間平坦化及解碼器中之時間整形。原則上,任意精細之時間解析度係可能的。然而,實務上,效能受寫碼器濾波器組之時間頻疊(通常MDCT,亦即具有50%重疊之重疊區塊變換)限制。因此,經整形寫碼雜訊亦以成鏡像方式出現在合成濾波器組之輸出端處。
寬頻增益控制技術遭受缺乏頻譜解析度。然而,為了針對許多信號良好地執行,重要的是,增益修改處理能夠在音訊頻譜之不同部分中獨立地應用,此係因為暫態事件常常僅在頻譜之部分中佔優勢(實務上,難以寫碼之事件幾乎始終存在於頻譜之高頻部分中)。有效地,在輸入信號在編碼器中之頻譜分解之前應用輸入信號之動態乘法修改等效於濾波器組之分析窗口的動態修改。視增益修改函數之形狀而定,分析濾波器之頻率回應係根據複合窗口函數進行更改。然而,不希望加寬濾波器組之低頻濾波器通道之頻率回應,此係因為此使與關鍵頻寬標度之失配增大。
使用混合式濾波器組之增益控制具有增加之計算複雜度的缺點,此係因為第一級之濾波器組必須達成相當大選擇性,以便避免在藉由第二濾波器組級進行之稍後拆分之後的頻疊變形。又,針對48kHz之取樣速率,增益控制頻帶之間的交叉頻率經固定至奈奎斯頻率之四分之一,亦即為6、12及18kHz。對於大部分信號,6kHz下之第一交叉對良好效能而言過高。
已知半參數多通道寫碼解決方案中所含之包絡整形技術(如MPEG圍繞(STP, GES)),以經由輸出信號或其部分在解碼器中之時間再整形來改良暫態之感知品質。然而,此等技術並不執行編碼器之前的時間平化。因此,暫態信號仍然以其原始短時間動態進入編碼器且對編碼器位元預算強加高位元速率需求。
發明概要 另一方面,本發明之一目標為提供音訊預處理、音訊後處理或音訊編碼或音訊解碼之經改良概念。
此目標藉由請求項1之音訊後置處理器、請求項32之音訊前置處理器、請求項53之音訊編碼設備、請求項55之音訊解碼設備、請求項57的後處理方法、請求項58之預處理方法、請求項59之編碼方法、請求項60之音訊解碼方法或請求項61之電腦程式來達成。
本發明之一第一態樣為一種用於對具有一時變高頻增益資訊作為旁側資訊之一音訊信號進行後處理的音訊後置處理器,其包含:一頻帶提取器,其用於提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶;一高頻帶處理器,其用於根據該時變高頻增益資訊執行該高頻帶之一時變修改以獲得一經處理高頻頻帶;以及一組合器,其用於組合該經處理高頻頻帶與該低頻頻帶。
本發明之一第二態樣為一種用於預處理一音訊信號的音訊前置處理器,其包含:一信號分析器,其用於分析該音訊信號以判定一時變高頻增益資訊;一頻帶提取器,其用於提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶;一高頻帶處理器,其用於根據該時變高頻增益資訊執行該高頻帶之一時變修改以獲得一經處理高頻頻帶;一組合器,其用於組合該經處理高頻頻帶與該低頻頻帶以獲得一經預處理的音訊信號;以及一輸出介面,其用於產生包含該經預處理的音訊信號及作為旁側資訊之該時變高頻增益資訊的一輸出信號。
本發明之一第三態樣為一種用於編碼一音訊信號的音訊編碼設備,其包含:第一態樣之音訊前置處理器,其經組配以產生具有該時變高頻增益資訊作為旁側資訊的該輸出信號;一核心編碼器,其用於產生一經核心編碼信號及核心旁側資訊;以及一輸出介面,其用於產生包含該經核心編碼信號、該核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼信號。
本發明之一第四態樣為一種音訊解碼設備,其包含:一輸入介面,其用於接收包含經核心編碼信號、核心旁側資訊以及作為額外旁側資訊之時變高頻增益資訊的一經編碼音訊信號;一核心解碼器,其用於使用該核心旁側資訊來解碼該經核心編碼信號以獲得一經解碼核心信號;以及一後置處理器,其用於根據上文之第二態樣使用該時變高頻增益資訊對該經解碼核心信號進行後處理。
本發明之一第五態樣為一種對具有一時變高頻增益資訊作為旁側資訊之一音訊信號進行後處理的方法,其包含:提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶;根據該時變高頻增益資訊執行該高頻帶之一時變修改以獲得一經處理高頻頻帶;以及組合該經處理高頻頻帶與該低頻頻帶。
本發明之一第六態樣為一種預處理一音訊信號的方法,其包含:分析該音訊信號以判定一時變高頻增益資訊;提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶;根據該時變高頻增益資訊執行該高頻帶之一時變修改以獲得一經處理高頻頻帶;組合該經處理高頻頻帶與該低頻頻帶以獲得一經預處理的音訊信號;以及產生包含該經預處理的音訊信號及作為旁側資訊之該時變高頻增益資訊的一輸出信號。
本發明之一第七態樣為一種編碼一音訊信號的方法,其包含:第六態樣之音訊預處理的方法,其經組配以產生具有該時變高頻增益資訊作為旁側資訊的該輸出信號;產生一經核心編碼信號及核心旁側資訊;以及產生包含該經核心編碼信號、該核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼信號。
本發明之一第八態樣為一種音訊解碼方法,其包含:接收包含一經核心編碼信號、核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼音訊信號;使用該核心旁側資訊來解碼該經核心編碼信號以獲得一經解碼核心信號;以及根據第五態樣使用該時變高頻增益資訊來後處理該經解碼核心信號。
本發明之一第九態樣係關於一種電腦程式或一種上面儲存於電腦程式之非暫時性儲存媒體,該電腦程式於一電腦或一處理器上運行執行根據以上第五態樣、第六態樣、第七態樣或第八態樣之方法中的任一者。
本發明提供一頻帶選擇性高頻處理,諸如前置處理器中之選擇性衰減或後置處理器中之選擇性放大,以便選擇性地編碼某一類別之信號,諸如具有用於高頻帶之時變高頻增益資訊的暫態信號。因此,經預處理的信號為具有呈簡單時變高頻增益資訊形式之額外旁側資訊的信號及信號本身,使得某一類別之信號(諸如暫態信號)在經預處理的信號中不再出現或僅較小程度地出現。在音訊後處理中,原始信號形狀係藉由根據作為旁側資訊的與音訊信號相關聯之時變高頻增益資訊執行高頻頻帶之時變乘法來恢復,使得,在最後(亦即,在由預處理、寫碼、解碼以及後處理組成的鏈之後),收聽者未感知與原始信號之實質差異,且特定言之,未感知具有降低的暫態性質之信號,儘管內部核心編碼器/核心解碼器區塊(其中處理對於編碼器處理器已導致一方面減小量之必需位元及另一方面增加之音訊品質的較小暫態信號之位置),此係因為難以編碼類別之信號已在編碼器實際開始其任務之前自信號移除。然而,難以編碼信號部分之此移除並不導致降低的音訊品質,此係因為此等信號部分係在解碼器操作之後藉由音訊後處理重建。
在較佳實施例中,前置處理器亦放大與平均背景位準相比略微安靜之部分,且後置處理器使該等部分衰減。此額外處理有可能對個別強烈攻擊及連續暫態事件之間的部分兩者有用。
隨後,概述較佳實施例之特定優點。
高解析度包絡處理(High Resolution Envelope Processing,HREP)為用於主要由許多密集暫態事件(諸如鼓掌、雨滴聲等)組成之信號之經改良寫碼的工具。在編碼器側,該工具在實際感知音訊編碼解碼之前充當具有高時間解析度的前置處理器,藉由分析輸入信號、使暫態時間之高頻部分衰減且因此在時間上平坦化以及產生少量旁側資訊(針對立體聲信號,1至4 kbps)。在解碼器側,該工具充當音訊編碼解碼之後的後置處理器,藉由強化且因此在時間上整形暫態時間之高頻部分、利用在編碼期間所產生之旁側資訊。應用HREP之益處加倍:HREP藉由減少輸入信號之短時間動態而放鬆強加於編碼器之位元速率需求;另外,HREP確保解碼器之(上)混頻階段中之恰當包絡復原,此在參數性多通道寫碼技術已應用於編碼解碼內的情況下更加重要。
此外,本發明係有利的,因為本發明藉由使用適當的信號處理方法(例如,一方面預處理,或另一方面後處理)來增強類鼓掌信號之寫碼效能。
本發明之另一優點為,發明性高解析度包絡處理(HREP) (亦即,音訊預處理或音訊後處理) 藉由執行編碼器之前的預平坦化或解碼器之後的對應反平坦化來解決先前技術問題。
隨後,概述針對HREP信號處理的本發明之實施例之特性及新穎特徵,且描述特有優點。
HREP處理藉由濾波器拆分之僅兩個頻帶中之音訊信號。此使得處理簡單且具有低計算及結構複雜度。僅處理高頻帶,低頻帶以未修改方式通過。
此等頻帶係藉由輸入信號之低通濾波導出以計算第一頻帶。高通(第二)頻帶係藉由自輸入信號減去低通分量而簡單導出。以此方式,僅一個濾波器必須明確地計算(而非兩個),此使複雜度降低。替代地,經高通濾波之信號能夠明確地計算,且低通分量可作為輸入信號與高通信號之間的差而導出。
為了支援低複雜度後置處理器實施,以下限制係可能的 · 作用中HREP通道/物件之限制 · 對非顯然之最大傳輸增益因素g(k)之限制(0dB之顯然增益因數減輕對於相關聯DFT/IDFT對之需要) · 有效率拆分基數2疏鬆拓樸中DFT/iDFT計算。
在一實施例中,編碼器或與核心編碼器相關聯之音訊前置處理器經組配以限制HREP 同時在作用中的通道或物件之最大數目,或解碼器或與核心解碼器相關聯之音訊後置處理器經組配以僅對HREP同時在作用中的最大數目個通道或物件執行後處理。針對作用中通道或物件之限制的較佳數目為16且甚至更佳為8。
在又一實施例中,HREP編碼器或與核心編碼器相關聯之音訊前置處理器經組配以將輸出限制至非不重要增益因數之最大值,或解碼器或與核心解碼器相關聯之音訊後置處理器經組配以使得值「1」之不重要增益因數並不計算DFT/iDFT對,而使無變化(經開窗)時域信號通過。對每個訊框及通道或物件,針對非不重要增益因數之限制的較佳數目為24且甚至更佳為16。
在又一實施例中,HREP編碼器或與核心編碼器相關聯之音訊前置處理器經組配以計算有效拆分基數2疏鬆拓樸中之DFT/iDFT,或解碼器或與核心解碼器相關聯之音訊後置處理器經組配以亦計算有效拆分基數2疏鬆拓樸中之DFT/iDFT。
HREP低通濾波器能夠藉由使用疏鬆FFT演算法來有效地實施。給出自N=8點時間抽取基數2 FFT拓樸開始之一實例,其中僅X(0)及X(1)係進一步處理所需的;因此,E(2)及E(3)以及O(2)及O(3)並不需要;接下來,設想兩個N/2點DFT各自經進一步細分成兩個N/4點DFT及後續蝶形。現在,吾人可以如圖15中所說明之類似方式重複上述省略。
與基於混合式濾波器組之增益控制方案(其中處理頻帶交叉頻率藉由第一濾波器組級來指示,且實際上與奈奎斯頻率之兩個分數之冪相關聯)相比,HREP之拆分頻率能夠/可以藉由調適濾波器來自由地調整。此實現對信號特性及音質要求之最佳適應。
與基於混合式濾波器組之增益控制方案相比,不需要長濾波器以分離處理頻帶,以便避免第二濾波器組級之後的頻疊問題。此情況係可能的,此係因為HREP為獨立之前置/後置處理器,其不一定必須用臨界取樣濾波器組進行操作。
與其他增益控制方案相比,HREP動態地適應信號之區域統計資料(計算輸入高頻背景能量包絡之雙側滑動平均值)。此將輸入信號之動態減少至其原始大小之某一分數(所謂的α因數)。此實現方案之「溫和」操作,不會由於與音訊編解碼器之不當相互作用而引入偽訊。
與其他增益控制方案相比,HREP能夠補償由低位元速率音訊編解碼器引起的動態中之額外損失,此操作藉由將損失模型化為「丟失某一分數之能量動態」(所謂的β因數)及恢復此損失。
HREP前置/後置處理器對係在量化不存在之情況下(亦即,無編碼解碼器之情況下)(接近)完美地重建構。
以達成此操作,後置處理器視高頻幅度加權因數而將適應性斜率用於拆分濾波器,且藉由在時域中應用一校正因數而校正在恢復應用於重疊T/F變換之時變頻譜權重時出現的內插誤差。
HREP實施可含有所謂的後設增益控制(MGC),其寬限地控制由HREP處理提供的感知效應之強度,且可避免處理非鼓掌信號時之偽訊。因此,該實施緩解外部輸入信號分類之準確度要求以控制HREP之應用。
鼓掌分類結果至MGC及HREP設定之映射。
HREP為獨立的前置/後置處理器,其涵蓋所有其他寫碼器組件,包括頻寬擴展及參數空間寫碼工具。
HREP經由高頻時間包絡之預平坦化來放鬆對低位元速率音訊寫碼器之要求。有效地,較少短區塊將在寫碼器中經觸發,且將需要較少作用中TNS濾波器。
HREP藉由減少經處理通道之間的由於有限時間空間線索解析度通常發生之串擾而亦改良參數性多通道寫碼。 編碼解碼器拓樸:與TNS/TTS、IGF以及立體聲填充之相互作用 位元串流格式:HREP發信
較佳實施例之詳細說明 圖1說明用於對具有時變高頻增益資訊104作為圖3a中所說明之旁側資訊106之音訊信號102進行後處理的音訊後置處理器100之較佳實施例。該音訊後置處理器包含用於提取音訊信號102之高頻頻帶112及音訊信號102之低頻頻帶114的頻帶提取器110。此外,根據此實施例之音訊後置處理器包含高頻帶處理器120,該高頻帶處理器用於根據時變高頻增益資訊104執行高頻頻帶112之時變修改以獲得經處理高頻頻帶122。此外,該音訊後置處理器包含組合器130,該組合器用於組合經處理高頻頻帶122與低頻頻帶114。
較佳地,高頻帶處理器120根據用於此特定頻帶之時變高頻增益資訊執行高頻頻帶之選擇性放大。此操作用以消除或重建構原始高頻頻帶,此係因為對應高頻頻帶在隨後將描述之音訊前置處理器(諸如,圖7之音訊前置處理器)中之前已衰減。
特定言之,在該實施例中,向頻帶提取器110在其輸入端提供如自具有相關聯旁側資訊之音訊信號提取的音訊信號102。此外,頻帶提取器之輸出端連接至組合器之輸入端。此外,組合器之第二輸入端連接至高頻帶處理器120之輸出端以將經處理高頻頻帶122饋入至組合器130中。此外,頻帶提取器110之另一輸出端連接至高頻帶處理器120之一輸入端。此外,高頻帶處理器另外具有用於接收時變高頻增益資訊之一控制輸入端,如圖1中所說明。
圖2說明頻帶提取器110之一較佳實施。特定言之,頻帶提取器110包含低通濾波器111,該低通濾波器在其輸出端處傳遞低頻頻帶114。此外,高頻頻帶112係藉由自音訊信號102 (亦即,已輸入至低通濾波器111中之音訊信號)減去低頻頻帶114而產生。然而,減法器113能夠在通常的實際逐樣本減法之前執行某種預處理,如相對於圖4中之音訊信號開窗器121或圖5a中之對應區塊121將展示。因此,如圖2中所說明,頻帶提取器110可包含低通濾波器111及隨後連接之減法器113,亦即,減法器113使一輸入端連接至低通濾波器111之輸出端且使另一輸入端連接至低通濾波器111之輸入端。
然而,替代地,頻帶提取器110亦可藉由實際上使用高通濾波器及藉由自音訊信號減去高通輸出信號或高頻頻帶從而得到低頻頻帶來實施。或,替代地,頻帶提取器能夠在無任何減法器之情況下(亦即,藉由關於例如兩通道濾波器組的低通濾波器與高通濾波器之組合)實施。較佳地,圖1 (或圖2)之頻帶提取器110經實施以提取僅兩個頻帶,亦即,單一低頻頻帶及單一高頻頻帶,而此等頻帶一起橫跨音訊信號之全部頻率範圍。
較佳地,由頻帶提取器110提取之低頻頻帶的截止或角隅頻率介於音訊信號之最大頻率的1/8與1/3之間,且較佳等於音訊信號之最大頻率的1/6。
圖3a說明成區塊300、301、302、303之序列的具有有用資訊之音訊信號102的示意性表示,其中,出於說明原因,區塊301被視為取樣值之第一區塊,且區塊302被視為音訊信號之取樣值之稍後第二區塊。區塊300在時間上先於第一區塊301且區塊303在時間上在區塊302之後,且第一區塊301及第二區塊302在時間上彼此鄰近。此外,如圖3a中之106處所說明,每一區塊具有與之相關聯的旁側資訊106,其包含用於第一區塊301之第一增益資訊311且包含用於第二區塊之第二增益資訊312。
圖3b說明頻帶提取器110 (及高頻帶處理器120及組合器130)在重疊區塊中之處理。因此,用於計算第一區塊301之窗口313與用於提取第二區塊302之窗口314重疊,且兩個窗口313及314在重疊範圍321內重疊。
雖然圖3a及圖3b中之標度概述每一區塊之長度為窗口之長度之大小的一半,但情形亦可不同,亦即,每一區塊之長度的大小與用於將對應區塊開窗之窗口相同。實際上,此係圖4或特定言之針對後置處理器之圖5a或針對前置處理器之圖9c中所說明的此等後續較佳實施例之較佳實施。
因而,重疊範圍321之長度為一窗口之大小的一半,對應於取樣值之區塊之大小或長度的一半。
特定言之,時變高頻增益資訊係針對音訊信號102之取樣值之區塊300至303之序列而提供,使得取樣值之第一區塊301具有與之相關聯的第一增益資訊311且音訊信號之取樣值之稍後第二區塊302具有不同的第二增益資訊312,其中頻帶提取器110經組配以自取樣值之第一區塊301提取第一低頻頻帶及第一高頻頻帶且自取樣值之第二區塊302提取第二低頻頻帶及第二高頻頻帶。此外,高頻帶處理器120經組配以使用第一增益資訊311來修改第一高頻頻帶以獲得第一經處理高頻頻帶且使用第二增益資訊312來修改第二高頻頻帶以獲得第二經處理高頻頻帶。此外,組合器130接著經組配以組合第一低頻頻帶與第一經處理高頻頻帶以獲得第一組合區塊且組合第二低頻頻帶與第二經處理高頻頻帶以獲得第二組合區塊。
如圖3c中所說明,頻帶提取器110、高頻帶處理器120及組合器130經組配以對圖3b中所說明之重疊區塊進行操作。此外,音訊後置處理器100此外包含重疊加法器140,其用於藉由在區塊重疊範圍321中將第一區塊301之音訊樣本與第二區塊302之音訊樣本相加來計算經後處理的部分。較佳地,重疊加法器140經組配用於使用減小或淡出函數對第一區塊之第二半的音訊樣本加權及用於使用淡入或增加函數對第一區塊之後的第二區塊之第一半加權。淡出函數及淡入函數可為對於淡入函數單調增加且對於淡出函數單調減小的線性或非線性之函數。
在重疊加法器140之輸出端處,存在如例如圖3a中所說明的經後處理的音訊信號之樣本之序列,但現在不具有任何旁側資訊,此係因為旁側資訊已由音訊後置處理器100「消耗」。
圖4說明圖1中所說明之音訊後置處理器之頻帶提取器110,或替代地,圖7之音訊前置處理器200之頻帶提取器210的較佳實施。圖1之頻帶提取器110或圖7之頻帶提取器210兩者能夠以相同方式實施,如圖4中所說明或如針對後置處理器之圖5a或針對前置處理器之圖9c中所說明。在一實施例中,音訊後置處理器包含具有用於使用分析窗口來產生音訊信號之取樣值之區塊之序列的分析開窗器115作為特定特徵的頻帶提取器,其中該等區塊時間重疊達重疊範圍321,如圖3b中所說明。此外,頻帶提取器110包含DFT處理器116,其用於執行用於產生頻譜值之區塊之序列的離散傅立葉變換。因此,取樣值之每一個別區塊經轉換成作為頻譜值之區塊的頻譜表示。因此,相同數目個頻譜值區塊產生,如同該等區塊為取樣值之區塊。
DFT處理器116具有連接至低通整形器117之輸入端的輸出端。低通整形器117實際上執行低通濾波動作,且低通整形器117之輸出端連接至DFT反處理器118以用於產生低通時域取樣值之區塊之序列。最後,合成開窗器119設置於DFT反處理器之輸出端處以用於使用合成窗口將低通時域取樣值之區塊之序列開窗。合成開窗器119之輸出為時域低通信號。因此,區塊115至119對應於圖2之「低通濾波器」區塊111,且區塊121及113對應於圖2之「減法器」113。因此,在圖4中所說明之實施例中,頻帶提取器進一步包含音訊信號開窗器121,其用於使用分析窗口及合成窗口將音訊信號102開窗以獲得音訊信號值之經開窗區塊之序列。特定言之,音訊信號開窗器121係與分析開窗器115及/或合成開窗器119同步,使得由合成開窗器119輸出的低通時域取樣值之區塊之序列與由區塊121輸出的音訊信號值之經開窗區塊之序列(其為完全頻帶信號)時間同步。
然而,完全頻帶信號現在使用音訊信號開窗器121進行開窗,且因此,逐樣本減法係由圖4中之逐樣本減法器113執行以最終獲得高通信號。因此,高通信號在區塊序列中另外可獲得,此係因為逐樣本減法113已針對每一區塊執行。
此外,高頻帶處理器120經組配以將修改應用於如由圖3c中之區塊110產生的高通時域取樣值之區塊之序列的每一區塊之每一樣本。較佳地,針對區塊之樣本的修改取決於此外先前區塊之資訊及此外當前區塊之資訊,或替代或另外地,此外當前區塊之資訊,且此外下一個區塊之資訊。特定言之且較佳地,修改係藉由圖5a之乘法器125進行,且修改之前為內插校正區塊124。如圖5a中所說明,內插校正在之前增益值g[k-1]、g[k]及此外當前區塊後的下一個區塊之因數g[k+1]之間進行。
此外,如所陳述,乘法器125係由增益補償區塊126控制,該增益補償區塊一方面由beta_factor 500且另一方面由用於當前區塊之增益因數g[k] 104來控制。特定言之beta_factor用以計算由乘法器125施加的實際修改,經指示為來自與當前區塊相關聯之增益因數g[k]的1/gc[k]。
因此,beta_factor解釋暫態之額外衰減,其藉由此beta_factor近似地模型化,其中暫態事件之此額外衰減係在圖5a中所說明之後置處理器之前操作的編碼器或解碼器之副作用。
預處理及後處理係藉由將輸入信號拆分成低通(LP)部分及高通(HP)部分而施加。此拆分能夠藉由以下操作實現:a)使用FFT計算LP部分或HP部分;b)使用零相位FIR濾波器計算LP部分或HP部分;或c)使用在兩個方向上所應用之IIR濾波器(達成零相位)計算LP部分或HP部分。給定LP部分或HP部分,另一部分能夠藉由時域中之簡單減法來獲得。時間相依純量增益經施加至HP部分,HP部分經添加回至LP部分以形成經預處理或後經處理的輸出。使用FFT 將信號拆分成LP 部分及HP 部分( 圖5a 、圖9c)
在建議實施中,FFT用以計算LP部分。令FFT變換大小為,特定言之,。輸入信號經拆分成大小為之區塊,該等區塊半重疊,從而產生輸入區塊,其中為區塊索引且為區塊中之樣本位置。窗口經應用(115, 215)於,特定言之正弦窗口,其定義為且在亦應用FFT (116, 216)之後,獲得複數係數
在編碼器側(圖9c) (217a)上,為了獲得LP部分,施加與處理形狀之逐元素乘法(217a),該處理形狀由以下各者組成:
參數表示低通區塊之FFT線的寬度,且參數表示轉變區域之FFT線的寬度。建議處理形狀之形狀係線性的,然而,可使用任何任意形狀。
LP區塊係藉由再次應用IFFT (218)及開窗(219)而獲得為
以上等式對於圖9c之編碼器/前置處理器有效。對於解碼器或後置處理器,使用適應性處理形狀rs[f]替代ps[f]。
HP區塊接著藉由時域中之簡單減法(113、213)而獲得
輸出區塊藉由將純量增益應用於HP區塊而獲得為(225) (230)
輸出區塊最後使用重疊加法與先前輸出區塊組合,從而形成經預處理的輸出信號額外最終樣本為,其中
所有處理係針對每一輸入通道單獨進行,每一輸入通道藉由來索引。後處理側上之適應性重建構形狀( 圖5a)
在解碼器側上,為了得到轉變區域中之完美重建構,必須使用轉變區域中之適應性重建構形狀(117b)來替代編碼器側所使用之處理形狀(217b),視處理形狀
在LP區域中,兩者為一,在HP區域中,兩者為零,該兩者僅在轉變區域中不同。此外,當使,則吾人得到
適應性重建構形狀能夠藉由保證轉變區域中之FFT線之量值在後處理之後恢復來演繹,從而給出如下關係
該處理類似於預處理側,使用替代 ,其中且輸出區塊係使用純量增益之倒數計算為(125)後處理側上之內插校正(124) ( 圖5a)
輸出區塊之第一半對最終經預處理的輸出之貢獻係藉由給出,其中。因此,歸因於開窗及重疊加法操作,預處理側上所應用之增益隱含地經內插。HP區塊中之每一FFT線之量值在時域中經有效地乘以純量因數
類似地,在後處理側上,HP區域中之每一FFT線之量值在時域中有效地乘以因數
為了達成完美重建構,兩個先前項之乘積, (其表示HP區域中之每一FFT線的位置處之總時域增益)應在輸出區塊之第一半中正規化為
之值可簡化且重寫為
輸出區塊之第二半對最終經預處理的輸出之貢獻係藉由給出,且內插校正可基於增益而寫入為
輸出區塊之第二半之更新值係藉由下式給出預處理側上之增益計算( 圖9c)
在預處理側,區塊之HP部分(假設含有暫態事件)係使用純量增益進行調整,以便使該部分更類似於其鄰近區塊中之背景。區塊之HP部分之能量將由表示,且區塊之相鄰區塊中之HP背景的平均能量將由表示。
控制調整之量的參數經定義為
之值經量化且削減至extendedGainRange組態選項之選擇值所允許之範圍,以產生增益索引
用於處理之值係量化值,在解碼器側定義為
為0時,增益具有值,因此不進行調整,且當為1時,增益具有值,因此,經調整能量將變得與背景之平均能量一致。以上關係可寫為, 指示經調整能量圍繞背景之對應平均能量之變化以因數減小。在建議系統中,使用,因此,每一區塊之HP能量圍繞背景之對應平均能量之變化減小至原來的25%。後處理側上之增益補償(126) ( 圖5a)
核心編碼器及解碼器引入暫態事件之額外衰減,此藉由視核心編碼器組態及訊框之信號特性使用參數引入額外衰減步驟而近似地模型化為指示:在通過核心編碼器及解碼器之後,經解碼能量圍繞背景之對應平均能量之變化以額外因數進一步減小。
僅使用以及,有可能將解碼器側處之之估計值計算為
參數經量化為betaFactorIdx[sig]且針對每一訊框作為旁側資訊傳輸。補償增益可使用計算為 後設增益控制(Meta Gain Control ,MGC)
現場音樂會等之鼓掌信號通常不僅含有手掌拍打聲音,並且含有人群喊叫、顯著低語以及觀眾之跺腳聲。常常,演出者在鼓掌期間發出聲明,或樂器(操縱)聲音與持久鼓掌重疊。此處,時間包絡整形之現有方法(如STP或GES)在干擾聲音之恰好瞬時啟動之情況下可削弱此等非鼓掌分量。因此,信號分類器保證此等信號期間之撤銷啟動。HREP提供所謂的後設增益控制(MGC)之特徵。MGC用以寬限地放鬆HREP處理之感知效應,從而避免非常準確的輸入信號分類之必要性。利用MGC,與氛圍及所有種類之干擾聲音混合的鼓掌能夠在不引入非所需假像之情況下加以處置。
如之前所論述,較佳實施例另外具有控制參數807,或替代地具有在圖5a中以500指示之控制參數beta_factor。替代地或另外,如之前所論述的個別因數α或β可作為額外旁側資訊來傳輸,但較佳具有由一方面β及另一方面α組成之單一控制參數,其中β為0與1之間的參數且取決於核心編碼器組態且亦可視情況取決於信號特性,且另外,因數α判定每一區塊之高頻部分部件圍繞背景之對應平均能量之變化,且α亦為0與1之間的參數。若一個訊框中之暫態之數目極小,如1至2,則TNS較佳可潛在地保留該等暫態,且結果,訊框的經由編碼器及解碼器之額外衰減可減小。因此,進階編碼器可相應地略微減小beta_factor以防止過度放大。
換言之,MGC當前使用類機率參數(如g' = g ^ p)來修改所計算之增益g (此處由g_float[k]表示),其在將增益量化之前將該等增益擠壓至1。beta_factor參數為用以控制經量化增益之擴展的額外機制,然而,當前實施使用基於核心編碼器組態(諸如位元速率)之固定值。
Beta_factor係藉由β x (1-α)/α判定且較佳在編碼器側進行計算且加以量化,且除時變高頻增益資訊g[k]外,經量化beta_factor索引betaFactorIdx作為每個訊框之旁側資訊傳輸一次。
特定言之,額外控制參數807 (諸如β或beta_factor 500)具有低於時變高頻增益資訊之時間解析度的時間解析度,或額外控制參數甚至針對特定核心編碼器組態或音訊片段固定。
較佳地,高頻帶處理器、頻帶提取器以及組合器在重疊區塊中操作,其中使用在區塊長度之40%與60%之間的重疊範圍且較佳50%重疊範圍321。
在其他實施例中或在相同實施例中,區塊長度在0.8 ms與5.0 ms之間。
此外,較佳地或另外,由高頻帶處理器120執行之修改為根據g[k]在時域中應用於區塊之每一樣本之時間相依乘法因數,另外根據控制參數500且另外符合如在圖5a之區塊124之上下文中所論述的內插校正。
此外,低頻頻帶之截止或角隅頻率在音訊信號之最大頻率的1/8與1/3之間且較佳等於音訊信號之最大頻率之1/6。
此外,較佳實施例中的由圖5a之117b及117a組成之低通整形器經組配以應用於取決於對應區塊之時變高頻增益資訊的整形函數rs[f]。之前已論述整形函數rs[f]之較佳實施,但亦可使用替代函數。
此外,較佳地,整形函數rs[f]另外取決於音訊前置處理器200中所使用之整形函數ps[f],音訊前置處理器用於使用對應區塊之時變高頻增益資訊來修改或衰減音訊信號之高頻頻帶。之前已關於圖5a論述rs[f]與ps[f]之特定相依性,但亦可使用其他相依性。
此外,如之前關於圖5a之區塊124所論述,針對區塊之樣本之修改另外取決於針對某一樣本所應用之開窗因數,如之前例如關於取決於窗口函數w[j]且甚至更佳來自窗口因數之平方w[j]的校正因數所論述之分析窗口函數或合成窗口函數所定義。
如之前所陳述,特定言之關於圖3b,由頻帶提取器、組合器以及高頻帶處理器執行之處理係在重疊區塊中執行,使得稍早區塊之稍後部分與在時間上鄰近稍早區塊的稍後區塊之稍早部分來源於音訊信號之相同音訊樣本,亦即,處理係在重疊範圍321內使用該重疊範圍執行。重疊區塊313及314之此重疊範圍321等於稍早區塊的二分之一,且稍後區塊就樣本值之數目而言具有與稍早區塊相同之長度,且後置處理器另外包含用於執行重疊加法運算之重疊加法器140,如圖3c中所說明。
特定言之,頻帶提取器110經組配以將在拆分濾波器之停止範圍與通過範圍之間的拆分濾波器111之斜率應用於音訊樣本之區塊,其中此斜率取決於樣本之區塊的時變高頻增益資訊。較佳斜率係相對於取決於如之前所定義且如圖5a之上下文中所論述之增益資訊g[k]之斜率rs[f]給出,但其他相依性亦可為有用的。
一般而言,高頻增益資訊較佳具有當前區塊k之增益值g[k],其中與斜率針對較低增益值之增加相比,斜率針對較高增益值增加更強。
圖6a說明圖3之旁側資訊106之更詳細表示。特定言之,該旁側資訊包含增益索引601、增益精度資訊602、增益補償資訊603及補償精度資訊604之序列。
較佳地,音訊後置處理器包含旁側資訊提取器610,其用於自具有旁側資訊之音訊信號提取音訊信號102及旁側資訊106,且旁側資訊經轉遞至旁側資訊解碼器620,該旁側資訊解碼器基於對應增益精度資訊及對應補償精度資訊而產生且計算經解碼增益621及/或經解碼增益補償值622。
特定言之,精度資訊判定不同值之數目,其中與指示增益值可具有的較少數目個值之較低增益精度資訊相比,高增益精度資訊定義增益索引可具有的較多數目個值。
因此,與指示用於傳遞增益資訊的較少數目個位元的較低增益精度資訊相比,高精度增益資訊可指示用於傳遞增益索引的較多數目個位元。針對增益量化,高精度資訊可指示4個位元(用於增益資訊之16個值),且較低增益資訊僅可為3個位元(8個值)。因此,增益精度資訊可(例如)為指示為「extendedGainRange」之簡單旗標。在後一情況中,組態旗標extendedGainRange並不指示準確度或精度資訊,而是指示增益是否具有正常範圍或延伸範圍。延伸範圍含有正常範圍中之所有值,且另外含有使用正常範圍可能的較小及較大值。在某些實施例中能夠使用之延伸範圍潛在地允許針對強暫態事件應用更劇烈之預處理,此可另外削減正常範圍。
類似地,對於β因數精度,亦即,對於增益補償精度資訊,亦可使用旗標,該旗標概述beta_factor索引是否使用3個位元或4個位元,且此旗標可被稱為extendedBetaFactorPrecision。
較佳地,FFT處理器116經組配以執行逐區塊離散傅立葉變換(具有N個取樣值之區塊長度),以獲得低於N/2複數頻譜值之數目的頻譜值之數目,此藉由執行疏鬆離散傅立葉變換演算法來進行,其中針對最大頻率以上之頻譜值之分支的計算經跳過,且頻帶提取器經組配以藉由使用至多轉變開始頻率範圍之頻譜值及藉由對轉變頻率範圍內之頻譜值加權來計算低頻頻帶信號,其中轉變頻率範圍僅延伸直至最大頻率或小於最大頻率之頻率。
此程序在例如圖15 (其中某些蝶形操作經說明)中進行說明。給出自N=8 點時間抽取基數2 FFT拓樸開始之一實例,其中僅X(0)及X(1)係進一步處理所需的;因此,E(2)及E(3)以及O(2)及O(3)並不需要。接下來,設想兩個N/2點DFT各自經進一步細分成兩個N/4點DFT及後續蝶形。現在,吾人可以如圖15中所說明之類似方式重複上述省略。
隨後,關於圖7更詳細地論述音訊前置處理器200。
音訊前置處理器200包含信號分析器260,其用於分析音訊信號202以判定時變高頻增益資訊204。
另外,音訊前置處理器200包含頻帶提取器210,其用於提取音訊信號202之高頻頻帶212及音訊信號202之低頻頻帶214。此外,提供高頻帶處理器220,其用於根據時變高頻增益資訊204執行高頻頻帶212之時變修改以獲得經處理高頻頻帶222。
音訊前置處理器200另外包含組合器230,其用於組合經處理高頻頻帶222與低頻頻帶214以獲得經預處理的音訊信號232。另外,提供輸出介面250,其用於產生包含經預處理的音訊信號232及時變高頻增益資訊204的輸出信號252,作為對應於圖3之上下文中所論述之旁側資訊106之旁側資訊206。
較佳地,信號分析器260經組配以分析音訊信號以判定音訊信號的第一時間區塊301中之第一特性(如圖8a之區塊801中所說明)及第二時間區塊302中之第二特性(如圖8a之區塊802中所說明),第二特性比第一特性更暫態。
此外,分析器260經組配以判定用於第一特性之第一增益資訊311及用於第二特性之第二增益資訊312,如圖8a中之區塊803處所說明。接著,高頻帶處理器220經組配以使根據第二增益資訊的第二時間區塊302之高頻帶部分比根據第一增益資訊的第一時間區塊301之高頻帶部分衰減更強,如圖8a之區塊804中所說明。
此外,信號分析器260經組配以針對一或多個時間區塊之高頻帶之背景能量計算背景量測,該一或多個時間區塊相鄰、在時間上置放於當前時間區塊之前或置放於當前時間區塊之後或在當前時間區塊之前及之後置放或包括當前時間區塊或不包括當前時間區塊,如圖8b之區塊805中所說明。此外,如區塊808中所說明,計算針對當前區塊之高頻帶的能量量測,且如區塊809中所概述,使用一方面背景量測及另一方面能量量測來計算增益因數。因此,區塊809之結果係以圖8b中之810說明之增益因數。
較佳地,信號分析器260經組配以基於在g_float之前所說明之等式來計算增益因數810,但亦可執行其他計算方法。
此外,參數α影響該增益因數,使得每一區塊之能量圍繞背景之對應平均能量的變化減小至少50%且較佳減小75%。因此,每一區塊之高通能量圍繞背景之對應平均能量的變化較佳借助於因數α減小至原來的25%。
此外,後設增益控制區塊/功能性806經組配以產生控制因數p。在一實施例中,MGC區塊806使用統計偵測方法用於識別潛在暫態。對於每一區塊(具有例如128個樣本),後設增益控制區塊/功能性產生在0與1之間的類機率「置信」因數p。將應用於區塊之最終增益為g' = g ^ p,其中g為原始增益。當p為零時,g' = 1,因此,不施加應用,且當p為一時,g' = g,施加完全處理強度。
MGC 806用以在預處理期間在量化之前將增益擠壓至1,以將處理之強度控制在不改變與完全效應之間。參數beta_factor (其為參數β之經改良參數化)用以在後處理期間在反量化之後擴展增益,且一個可能性為使用由位元速率定義的針對每一編碼器組態之固定值。
在一實施例中,參數α固定在0.75。因此,因數a 係平均背景周圍之能量變化之減小,且該因數在MPEG-H實施中固定至75%。圖8b中之控制因數p充當類機率「置信」因數p。
如圖8c中所說明,信號分析器經組配以對增益資訊值之原始序列進行量化及削減,以獲得時變高頻增益資訊作為經量化值之序列,且高頻帶處理器220經組配以根據經量化值之序列而非根據未量化值來執行高頻帶之時變修改。
此外,輸出介面250經組配以將經量化值之序列引入旁側資訊206中作為時變高頻增益資訊204,如圖8c中以區塊814所說明。
此外,音訊前置處理器200經組配以判定815另外增益補償值,其描述由隨後連接之編碼器或解碼器引入的能量變化之損失,且另外,音訊前置處理器200將此另外增益補償資訊量化816且將此經量化之另外增益補償資訊引入817至旁側資訊中,且另外,信號分析器較佳經組配以在判定時變高頻增益資訊時應用後設增益控制,以根據額外控制資料807逐漸減小或逐漸增強高頻帶處理器對音訊信號之影響。
較佳地,音訊前置處理器200之頻帶提取器210如圖4中或圖9c中所說明更詳細地實施。因此,頻帶提取器210經組配以使用低通濾波器裝置111提取低頻頻帶且藉由以與先前關於後置處理器裝置已論述之方式完全相同的方式自音訊信號減去113低頻頻帶而提取高頻頻帶。
此外,頻帶提取器210、高頻帶處理器220以及組合器230經組配以在重疊區塊中操作。組合器230另外包含一重疊加法器,其用於藉由將區塊重疊範圍中的第一區塊之音訊樣本及第二區塊之音訊樣本相加來計算經後處理部分。因此,與圖7之組合器230相關聯之重疊加法器可與圖3c中所說明之後置處理器的重疊加法器(以參考數字130表示)以相同方式實施。
在一實施例中,對於音訊前置處理器,重疊範圍320在區塊長度之40%與區塊長度之60%之間。在其他實施例中,區塊長度在0.8 ms與5.0 ms之間,及/或由高頻帶處理器220執行之修改為在時域中應用於區塊之每一樣本的乘法因數,使得完全預處理之結果為具有減小暫態性質之信號。
在又一實施例中,低頻頻帶之截止或角隅頻率在音訊信號202之最大頻率範圍之1/8與1/3之間且較佳等於音訊信號之最大頻率之1/6。
如例如圖9c中所說明且如關於圖4中的後置處理器亦已論述,頻帶提取器210包含分析開窗器215,其用於使用一分析窗口產生音訊信號之取樣值之區塊的序列,其中此等區塊時間重疊,如圖3b中以321所說明。此外,提供用於產生頻譜值之區塊之序列的離散傅立葉變換處理器216,且亦提供隨後連接之低通整形器217a、217b,以用於對頻譜值之每一區塊整形以獲得頻譜值之低通整形區塊之序列。此外,提供用於產生時域取樣值之區塊之序列的離散傅里葉反變換處理器218,且合成開窗器219連接至離散傅里葉反變換處理器218之輸出端,以用於使用合成窗口對低通時域取樣值之區塊之序列開窗。
較佳地,由區塊217a、217b組成之低通整形器藉由乘以個別FFT線來應用低通形狀[f],如乘法器217a所說明。如先前關於圖9c所指示地計算低通形狀ps[f]。
另外,音訊信號本身(亦即,完全頻帶音訊信號)亦使用音訊信號開窗器221進行開窗,以獲得音訊信號值之經開窗區塊之序列,其中此音訊信號開窗器221與分析開窗器215及/或合成開窗器219同步,使得低通時域取樣值之區塊之序列與音訊信號值之窗口區塊之序列同步。
此外,圖7之分析器260經組配以另外提供控制參數807 (用以將預處理強度控制在無與完全效應之間)及500 (亦即,beta_factor)以作為另一旁側資訊,其中高頻帶處理器220經組配以在亦考慮額外控制參數807時應用修改,其中beta_factor參數之時間解析度低於時變高頻增益資訊之時間解析度,或額外控制參數針對特定音訊片段固定。如之前所提及,來自MGC之類機率控制參數用以在量化之前將增益擠壓至1,且該參數並未作為旁側資訊明確地傳輸。
此外,組合器230經組配以執行低通時域取樣值之區塊之序列與高通時域取樣值之經修改(亦即,經處理)區塊之序列的對應區塊之逐樣本加法,以獲得組合信號值之區塊之序列,如圖3c中針對後置處理器側所說明。
圖9a說明用於編碼音訊信號之音訊編碼設備,其包含如之前所論述的音訊前置處理器200,該音訊前置處理器經組配以產生具有時變高頻增益資訊作為旁側資訊之輸出信號252。此外,提供核心編碼器900,以用於產生經核心編碼信號902及核心旁側資訊904。另外,音訊編碼設備包含輸出介面910,其用於產生包含經核心編碼信號902、核心旁側資訊904以及作為額外旁側資訊106之時變高頻增益資訊的經編碼信號912。
較佳地,音訊前置處理器200單獨地執行每一通道或每一物件之預處理,如圖10a中所說明。在此情況下,音訊信號為多通道或多物件信號。在圖5c中所說明之又一實施例中,音訊前置處理器200單獨地執行每一SAOC輸送通道或每一高階立體混響(High Order Ambisonics,HOA)輸送通道之預處理,如圖10a中所說明。在此情況下,音訊信號為空間音訊物件輸送通道或高階立體混響輸送通道。
與之相比,核心編碼器900經組配以對經預處理的通道232應用聯合多通道編碼器處理或聯合多物件編碼器處理或編碼器間隙填充或編碼器頻寬擴展處理。
因此,通常,經核心編碼信號902具有的通道比引入至聯合多通道/多物件核心編碼器900中的少,此係因為核心編碼器900通常包含一種降混操作。
音訊解碼設備係在圖9b中說明。音訊解碼設備具有音訊輸入介面920,其用於接收包含經核心編碼信號902、核心旁側資訊904以及作為額外旁側資訊106之時變高頻增益資訊104的經編碼音訊信號912。此外,音訊解碼設備包含核心解碼器930,其用於使用核心旁側資訊904解碼經核心編碼信號902以獲得經解碼核心信號102。另外,音訊解碼設備具有後置處理器100,其用於使用時變高頻增益資訊104對經解碼核心信號102進行後處理。
較佳地,且如圖10b中所說明,核心解碼器930經組配以應用多通道解碼器處理或多物件解碼器處理或頻寬擴展解碼器處理或間隙填充解碼器處理,以用於產生多通道信號102之經解碼通道或多物件信號102之經解碼物件。因此,換言之,聯合解碼器處理器930通常包含幾種上混,以便自經編碼音訊信號902中之較少數目個通道產生較多數目個個別物件/通道。此等個別通道/物件係由音訊後置處理器100使用針對每一通道或每一物件之個別時變高頻增益資訊(如圖10b中以104所說明)輸入至通道個別後處理中。通道個別後置處理器100輸出經後處理的通道,該等經後處理的通道可輸出至數位/類比轉換器及隨後連接之揚聲器或可輸出至某種進一步處理或儲存器或用於處理音訊物件或音訊通道之任何其他合適程序。
圖10c說明類似於在圖9a或9b中已說明之情形的情形,亦即,包含連接至用於產生位元串流之編碼器900之高解析度包絡處理前置處理器100的完全鏈,且位元串流係由解碼器930來解碼,且解碼器輸出由高解析度包絡處理器後置處理器100進行後處理以產生最終輸出信號。
圖16及圖17a至圖17h說明5.1通道揚聲器收聽(128 kbps)之收聽測試結果。另外,提供中等(48 kbps)及高(128 kbps)品質下之立體聲頭戴式耳機收聽的結果。圖16概括收聽測試設置。該等結果在圖17a至圖17h說明。
在圖17a中,感知品質在「良好」至「優異」範圍中。應注意,類鼓掌信號在範圍「良好」中之最低評分項目中。
圖17b說明所有鼓掌項目展現顯著改良,而針對非鼓掌項目,未觀察到感知品質之顯著改變。項目中無一者明顯地降級。
關於圖17c及圖17d,概述了絕對感知品質在「良好」範圍中。總體而言,在差異上,存在七個點之顯著增益。個別品質增益範圍在4個點與9點之間,全部為顯著的。
在圖17e中,測試集之所有信號為鼓掌信號。感知品質在「一般」至「良好」範圍中。一貫地,「HREP」條件得分高於「NOHREP」條件。在圖17f,可看到,對於除一以外的所有項目,「HREP」得分明顯地優於「NOHREP」。觀察到範圍在3個點至17個點之改良。總體而言,存在12個點之顯著平均增益。項目中無一者明顯地降級。
關於圖17g及圖17h,可看到,在絕對分數中,所有信號得分在範圍「優異」中。在差異分數中,可以看出,即使感知品質接近透明,但對於八個信號中的六個信號,存在總體三個至九個點之顯著改良,總計五個MUSHRA點之平均值。項目中無一者明顯地降級。
該等結果清楚地展示,較佳實施例之HREP技術對於廣泛範圍之位元率/絕對品質中的類鼓掌信號之寫碼具有相當大功績。此外,展示出對非鼓掌信號不存在任何削弱。HREP為用於主要由許多密集暫態事件(諸如鼓掌、雨聲等)構成之信號之經改良感知寫碼的工具。應用HREP之益處係加倍的:HREP藉由減少輸入信號之短時動態來放鬆強加於編碼器之位元速率需求;另外,HREP確保解碼器之(向上)混頻階段中之恰當包絡修復,此在參數性多通道寫碼技術已在編碼解碼器中應用之情況下更加重要。主觀試驗已展示約12個MUSHRA點(藉由HREP處理,在48 kbps立體聲下)及7個MUSHRA點(在128 kbps 5.1通道下)之改良。
隨後,參看圖5b,該圖說明MPEG-H 3D音訊編碼器/解碼器架構內的一方面後處理或另一方面預處理之實施。具體言之,圖5b將HREP後置處理器100說明為實施於MPEG-H 3D音訊解碼器內。具體言之,本發明之後置處理器在圖5b中以100來指示。
可看到的是,HREP解碼器連接至以550說明之3D音訊核心解碼器之輸出端。另外,在上部部分中的元件550與區塊100之間,說明了MPEG圍繞元件,其通常執行自區塊560之輸入端處之基礎通道的MPEG圍繞實施之上混以在區塊560之輸出端處獲得更多輸出通道。
此外,圖5b說明除音訊核心部分外的其他元件。在音訊呈現部分中,此等元件為一方面用於通道且另一方面用於物件之drc_1 570。此外,提供形成體轉換區塊580、物件呈現器590、物件後設資料解碼器592、SAOC 3D解碼器594以及高階立體混響(HOA)解碼器596。
所有此等元件饋入重新取樣器582,且重新取樣器將其輸出資料饋入至混頻器584中。混頻器將其輸出通道轉送至揚聲器饋入586或頭戴式耳機饋入588中,該等饋入表示「鏈終點」中之元件且表示在混頻器584輸出端之後的額外後處理。
圖5c說明音訊後置處理器(HREP)在MPEG-H 3D音訊解碼器之架構中的另一較佳嵌入。與圖5b相比,HREP處理亦應用於SAOC輸送通道及/或HOA輸送通道。圖5c中之其他功能性類似於圖5b中之彼等功能性。
應注意,與頻帶提取器相關之所附請求項同樣適用於音訊後置處理器及音訊前置處理器中之頻帶提取器,即使當請求項僅針對後置處理器或前置處理器中之一者中的後置處理器提供時。上述情況對於高頻帶處理器及組合器有效。
特定參考附錄及附錄A中所說明之其他實施例。
雖然已就若干實施例描述了本發明,但存在屬於本發明之範疇的更改、置換及等效物。亦應注意,存在實施本發明之方法及組成的許多替代性方式。因此,意欲將以下所附申請專利範圍解釋為包括如屬於本發明之真實精神及範疇的所有此等更改、置換及等效物。
儘管已在設備之上下文中描述一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述的態樣亦表示對應區塊或項目或對應設備之特徵的描述。可由(或使用)硬體設備(類似於(例如)微處理器、可規劃電腦或電子電路)來執行方法步驟中之一些或全部。在一些實施例中,最重要之方法步驟中的某一者或多者可由此設備執行。
本發明經編碼音訊信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可在硬體或軟體中實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該電子可讀控制信號與可規劃電腦系統協作(或能夠協作),使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包括具有電子可讀控制信號之資料載體,其能夠與可規劃電腦系統協作,使得執行本文中所描述方法中之一者。
一般而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品在電腦上運行時,程式碼操作性地用於進行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。
換言之,因此,本發明方法之實施例為電腦程式,其具有用於在電腦程式運行於電腦上時執行本文中所描述之方法中之一者的程式碼。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非瞬變的。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中之一者的電腦程式之資料流或信號序列。資料流或信號序列可(例如)經組態以經由資料通訊連接(例如,經由網際網路)而傳遞。
另一實施例包含處理構件,例如,經組態以或經調適以執行本文中所描述之方法中之一者的電腦或可規劃邏輯裝置。
另一實施例包含上面安裝有用於執行本文中所描述之方法中之一者的電腦程式之電腦。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的設備或系統。接收器可(例如)為電腦、行動裝置、記憶體裝置或類似者。設備或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。一般而言,該等方法較佳由任何硬體設備執行。
本文中所描述之設備可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來實施。
本文中所描述之方法可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來執行。
上文所描述之實施例僅僅說明本發明之原理。應理解,對本文中所描述之配置及細節的修改及變化將對熟習此項技術者顯而易見。因此,意圖為僅受到接下來之申請專利範圍之範疇限制,而不受到藉由本文中之實施例之描述解釋所呈現的特定細節限制。附錄 MPEG-H 3D 音訊中之HREP 之另一實施例的描述
高解析度包絡處理(HREP)為用於主要由許多密集暫態事件(諸如鼓掌、雨滴聲等)組成之信號之經改良寫碼的工具。此等信號傳統上非常難以針對MPEG音訊編碼解碼進行寫碼,特別在低位元率下。主觀試驗已展示約12個MUSHRA點(藉由HREP處理,在48 kbps立體聲下)之改良。 執行概要
HREP工具提供針對含有密集地隔開之暫態事件的信號(諸如鼓掌信號)的經改良寫碼效能,此係因為暫態事件係實況記錄之重要部分。類似地,雨滴聲或其他聲音(如煙火)可展示此等特性。不幸地,此類別之聲音對現有音訊編碼解碼器帶來困難,尤其當以低位元率及/或利用參數性寫碼工具進行寫碼時。
圖10c描繪裝備HREP之編碼解碼器中之信號流。在編碼器側,工具作為預處理器起作用,其針對高頻率在時間上展平信號,同時產生少量旁側資訊(針對立體聲信號,1至4 kbps)。在解碼器側,工具作為後置處理器起作用,其針對高頻率在時間上將信號整形,從而利用旁側資訊。應用HREP之益處加倍:HREP藉由減少輸入信號之短時動態來放鬆強加於編碼器之位元速率需求;另外,HREP確保解碼器之(向上)混頻階段中之恰當包絡修復,此在參數性多通道寫碼技術已在編碼解碼器中應用之情況下更加重要。
圖10c:裝備HREP之編碼解碼器中之信號流之概述。
HREP工具對所有輸入通道組態(單聲道、立體聲、包括3D之多通道)且亦對音訊物件起作用。
在核心實驗中,吾人呈現MUSHRA收聽測試結果,該等結果展示用於寫碼鼓掌信號之HREP的功績。針對以下測試情況表明感知品質之顯著改良 · 對於128kbit/s下之5.1通道,7個MUSHRA點之平均改良 · 對於立體聲48kbit/s,12個MUSHRA點之平均改良 · 對於立體聲128kbit/s,5個MUSHRA點之平均改良
例示性地,經由使用完全熟知的MPEG圍繞測試集來評估5.1ch信號之感知品質,吾人證明非鼓掌信號之品質並未由HREP削弱。HREP 之詳細描述
圖10c描繪裝備HREP之編碼解碼器中之信號流。在編碼器側,該工具在實際感知音訊編碼解碼之前充當具有高時間解析度的前置處理器,藉由分析輸入信號、使暫態時間之高頻部分衰減且因此在時間上平坦化以及產生少量旁側資訊(針對立體聲信號,1至4 kbps)。鼓掌分類器可導引是否啟動HREP之編碼器決策。在解碼器側,該工具充當音訊編碼解碼之後的後置處理器,藉由強化且因此在時間上整形暫態時間之高頻部分、利用在編碼期間所產生之旁側資訊。
圖9c:編碼器中之詳細HREP信號流。
圖9c顯示編碼器內之HREP處理器內部的信號流。預處理係藉由將輸入信號拆分成低通(LP)部分及高通(HP)部分而應用。此處理係藉由使用FFT計算LP部分來實現,給定LP部分,HP部分係藉由時域中之減法而獲得。將時間相依純量增益應用於HP部分,將HP部分添加回至LP部分以產生經預處理的輸出。
旁側資訊包含低通(LP)形狀資訊及在HREP分析區塊(未描繪)內估計出的純量增益。HREP分析區塊可含有能夠寬限地減輕HREP處理對信號內容(「非鼓掌信號」)之影響的額外機構,其中HREP並非完全可適用。因此,對鼓掌偵測準確度之要求被顯著放鬆。
圖5a:解碼器中之詳細HREP信號流。
解碼器側處理係在圖5a中概述。關於HP形狀資訊之旁側資訊及純量增益係自位元串流(未描繪)剖析且應用於信號,從而類似於解碼器後處理,其與編碼器預處理相反。後處理係藉由再次將信號拆分成低通(LP)部分及高通(HP)部分而應用。此處理係藉由使用FFT計算LP部分來實現,給定LP部分,HP部分係藉由時域中之減法而獲得。取決於所傳輸之旁側資訊的純量增益經應用於HP部分,HP部分被添加回至LP部分以產生經預處理的輸出。
所有HREP旁側資訊係在擴展有效負載中發信且回溯相容地嵌入MPEG-H 3D音訊位元串流內。規範本文
必需之WD改變、建議之位元串流語法、語義以及解碼過程之詳細描述可在文件之附錄A中發現以作為不同文字(diff-text)。複雜度
HREP處理之計算複雜度係藉由實施信號之LP/HP拆分之DFT/IDFT對的計算來控制。對於包含1024個時域值之每一音訊訊框,必須計算16對的128點實值DFT/IDFT。
為了包括至低複雜度(LC)分佈中,吾人提出以下限制於 · 作用中HREP通道/物件之限制 · 對非顯然之最大傳輸增益因素g(k)之限制(0dB之顯然增益因數減輕對於相關聯DFT/IDFT對之需要) · 有效率拆分基數2疏鬆拓樸中DFT/iDFT計算功績證據 收聽測試
作為功績證據,將針對5.1通道揚聲器收聽(128kbps)呈現收聽測試結果。另外,提供中等(48 kbps)及高(128 kbps)品質下之立體聲頭戴式耳機收聽的結果。圖16概括收聽測試設置。
圖16 — 收聽測試概述。結果 128kbps 5.1ch
圖式展示128kbps 5.1ch測試之絕對MUSHRA分數。感知品質在「良好」至「優異」範圍中。應注意,類鼓掌信號在範圍「良好」中之最低評分項目中。
圖17a:128kbps 5.1ch測試之絕對MUSHRA分數。
圖17b描繪128kbps 5.1ch測試之差異MUSHRA分數。所有鼓掌項目展現顯著改良,而針對非鼓掌項目,未觀察到感知品質之顯著改變。項目中無一者明顯地降級。
圖17b:128kbps 5.1ch測試之差異MUSHRA分數。
圖17c描繪測試集中所含之所有鼓掌項目之絕對MUSHRA分數,且圖17d描繪測試集中所含之所有鼓掌項目之差異MUSHRA分數。絕對感知品質在「良好」範圍中。總體而言,在差異上,存在7個點之顯著增益。個別品質增益範圍在4個點與9點之間,全部為顯著的。
圖17c:128kbps 5.1ch測試鼓掌信號之絕對MUSHRA分數。
圖17d:128kbps 5.1ch測試鼓掌信號之差異MUSHRA分數。48kbps 立體聲
圖17e展示48kbps立體聲測試之絕對MUSHRA分數。此處,集合之所有信號為鼓掌信號。感知品質在「一般」至「良好」範圍中。一貫地,「hrep」條件得分高於「nohrep」條件。圖17f描繪差異MUSHRA分數。對於除一以外的所有項目,「hrep」得分明顯地優於「nohrep」。觀察到範圍在3個點至17個點之改良。總體而言,存在12個點之顯著平均增益。項目中無一者明顯地降級。
圖17e:48kbps立體聲測試之絕對MUSHRA分數。
圖17f:48kbps立體聲測試之差異MUSHRA分數。128kbps 立體聲
圖17g及圖17h分別地展示128kbps立體聲測試之絕對及差異MUSHRA分數。在絕對分數中,所有信號得分在範圍「優異」中。在差異分數中,可以看出,即使感知品質接近透明,但對於8個信號中的6個信號,存在3個至9個點之顯著改良,總體總計5個MUSHRA點之平均值。項目中無一者明顯地降級。
圖17g:128kbps立體聲測試之絕對MUSHRA分數。
圖17h:128kbps立體聲測試之差異MUSHRA分數。
該等結果清楚地展示,CE建議之HREP技術對於廣泛範圍之位元率/絕對品質中的類鼓掌信號之寫碼具有相當大功績。此外,經證明對非鼓掌信號不存在任何削弱。結論
HREP為用於主要由許多密集暫態事件(諸如鼓掌、雨滴聲等)組成之信號之經改良感知寫碼的工具。應用HREP之益處加倍:HREP藉由減少輸入信號之短時動態來放鬆強加於編碼器之位元速率需求;另外,HREP確保解碼器之(向上)混頻階段中之恰當包絡修復,此在參數性多通道寫碼技術已在編碼解碼器中應用之情況下更加重要。主觀試驗已展示約12個MUSHRA點(藉由HREP處理,在48 kbps立體聲下)及7個MUSHRA點(在128 kbps 5.1ch下)之改良。附錄A MPEG-H 3D 音訊內的HREP 之較佳實施例
隨後,給出關於ISO/IEC 23008-3:2015及ISO/IEC 23008-3:2015/EAM3文件的HREP所需之改變的資料修改。在節10.2 中將以下句子添加至表1 :「MPEG-H 3DA 功能區塊及內部處理域。fs,core 表示核心解碼器輸出取樣速率,fs,out 表示解碼器輸出取樣速率。」:
表1 — MPEG-H 3DA 功能區塊及內部處理域。fs,core 表示核心解碼器輸出取樣速率,fs,out 表示解碼器輸出取樣速率。 在節5.2.2.3 中將以下情況添加至表13 :「mpegh3daExtElementConfig() 之語法」: 表13 - mpegh3daExtElementConfig() 之語法 在節5.3.4 中將以下值定義添加至表50 :「usacExtElementType 之值」: 表50 - usacExtElementType 之值 在節5.3.4 中將以下解釋添加至表51 :「用於擴展有效負載解碼之資料區塊的解釋」: 表51 - 用於擴展有效負載解碼之資料區塊的解釋 在5.2.2 結束後添加新的子條款且添加下表: 5.2.2.X 擴展元素組態 表2 — HREPConfig() 之語法 在5.2.2.3 結束後添加下表: 表3 — HREPFrame() 之語法 幫助函數HREP_decode_ac_data(gain_count、signal_count)描述使用以下USAC低層級算術寫碼函數將增益值讀取至陣列gainIdx中: arith_decode(*ari_state, cum_freq, cfl), arith_start_decoding(*ari_state),
arith_done_decoding(*ari_state) 引入兩個額外幫助函數, ari_decode_bit_with_prob(*ari_state, count_0, count_total), 其利用解碼一個位元,及 ari_decode_bit(*ari_state),
其利用解碼一個位元而無需模型化。 ari_decode_bit_with_prob(*ari_state, count_0, count_total) { prob_scale = 1 << 14; tbl[0] = probScale - (count_0 * prob_scale) / count_total; tbl[1] = 0; res = arith_decode(ari_state, tbl, 2); return res; } ari_decode_bit(*ari_state) { prob_scale = 1 << 14; tbl[0] = prob_scale >> 1; tbl[1] = 0; res = arith_decode(ari_state, tbl, 2); return res; } HREP_decode_ac_data(gain_count, signal_count) { cnt_mask[2] = {1, 1}; cnt_sign[2] = {1, 1}; cnt_neg[2] = {1, 1}; cnt_pos[2] = {1, 1}; arith_start_decoding(&ari_state); for (pos = 0; pos < gain_count; pos++) { for (sig = 0; sig < signal_count; sig++) { if (!isHREPActive[sig]) { continue; } mask_bit = ari_decode_bit_with_prob(&ari_state, cnt_mask[0], cnt_mask[0] + cnt_mask[1]); cnt_mask[mask_bit]++; if (mask_bit) { sign_bit = ari_decode_bit_with_prob(&ari_state, cnt_sign[0], cnt_sign[0] + cnt_sign[1]); cnt_sign[sign_bit] += 2; if (sign_bit) { large_bit = ari_decode_bit_with_prob(&ari_state, cnt_neg[0], cnt_neg[0] + cnt_neg[1]); cnt_neg[large_bit] += 2; last_bit = ari_decode_bit(&ari_state); gainIdx[pos][sig] = -2 * large_bit - 2 + last_bit; } else { large_bit = ari_decode_bit_with_prob(&ari_state, cnt_pos[0], cnt_pos[0] + cnt_pos[1]); cnt_pos[large_bit] += 2; if (large_bit) { gainIdx[pos][sig] = 3; } else { last_bit = ari_decode_bit(&ari_state); gainIdx[pos][sig] = 2 - last_bit; } } } else { gainIdx[pos][sig] = 0; } if (extendedGainRange) { prob_scale = 1 << 14; esc_cnt = prob_scale / 5; tbl_esc[5] = {prob_scale - esc_cnt, prob_scale - 2 * esc_cnt, prob_scale - 3 * esc_cnt, prob_scale - 4 * esc_cnt, 0}; sym = gainIdx[pos][sig]; if (sym <= -4) { esc = arith_decode(ari_state, tbl_esc, 5); sym = -4 - esc; } else if (sym >= 3) { esc = arith_decode(ari_state, tbl_esc, 5); sym = 3 + esc; } gainIdx[pos][sig] = sym; } gainIdx[pos][sig] += GAIN_INDEX_0dB; } } arith_done_decoding(&ari_state); }在子條款5.5 結束後添加以下新的子條款「5.5.X 高解析度包絡處理(HREP) 工具」: 5.5.X 高解析度包絡處理(HREP) 工具 5.5.X.1 工具描述
HREP工具提供針對含有密集地隔開之暫態事件的信號(諸如鼓掌信號)的經改良寫碼效能,此係因為暫態事件係實況記錄之重要部分。類似地,雨滴聲或其他聲音(如煙火)可展示此等特性。不幸地,此類別之聲音對現有音訊編碼解碼器帶來困難,尤其當以低位元率及/或利用參數性寫碼工具進行寫碼時。
圖5b或圖5c描繪裝備HREP之編碼解碼器中之信號流。在編碼器側,工具作為預處理器起作用,其針對高頻率在時間上展平信號,同時產生少量旁側資訊(針對立體聲信號,1至4 kbps)。在解碼器側,工具作為後置處理器起作用,其針對高頻率在時間上將信號整形,從而利用旁側資訊。應用HREP之益處加倍:HREP藉由減少輸入信號之短時動態來放鬆強加於編碼器之位元速率需求;另外,HREP確保解碼器之(向上)混頻階段中之恰當包絡修復,此在參數性多通道寫碼技術已在編碼解碼器中應用之情況下更加重要。HREP工具對所有輸入通道組態(單聲道、立體聲、包括3D之多通道)且亦對音訊物件起作用。5.5.X.2 資料及幫助元素
current_signal_group current_signal_group參數係基於Signals3d()語法元素及mpegh3daDecoderConfig()語法元素。
signal_type 當前信號群組之類型,用以區分通道信號與物件、HOA及SAOC信號。
signal_count 當前信號群組中之信號之數目。
channel_layout 在當前信號群組具有通道信號之情況下,該參數含有用於每一通道之揚聲器的性質,用以識別LFE揚聲器。
extendedGainRange 指示增益索引是否使用3個位元(8個值)或4個位元(16個值),藉由nBitsGain計算。
extendedBetaFactorPrecision 指示β因數索引是否使用3個位元或4個位元,藉由nBitsBeta計算。
isHREPActive[sig] 指示工具對於當前信號群組中索引sig之信號是否有效。
lastFFTLine[sig] 使用FFT實施之低通程序中所使用的最後非零線之位置。
transitionWidthLines[sig] 使用FFT實施之低通程序中所使用的轉變區域之線之寬度。
defaultBetaFactorIdx[sig] 預設β因數索引,用以修改增益補償程序中之增益。
outputFrameLength 使用原始取樣頻率的每個訊框之樣本之等效數目,如USAC標準中所定義。
gain_count 一個訊框中的每個信號之增益之數目。
useRawCoding 指示增益索引是各自使用nBitsGain經寫碼原始,或使用算術寫碼經寫碼。
gainIdx[pos][sig] 增益索引,對應於當前信號群組中之位置sig上的信號之位置pos上的區塊。若extendedGainRange = 0,則可能值在範圍{0, …, 7}中,且若extendedGainRange = 1,則可能值在範圍{0, …, 15}中。
GAIN_INDEX_0dB 對應於0 dB之增益索引偏移,在extendedGainRange = 0之情況下使用值4,且在extendedGainRange = 1之情況下使用值8。該等增益索引係藉由將GAIN_INDEX_0dB加至其原始有正負號資料範圍而作為無符號值傳輸。
all_zero 指示當前信號之一個訊框中之所有增益索引是否具有值GAIN_INDEX_0dB。
useDefaultBetaFactorIdx 指示當前信號之β因數索引是否具有由defaultBetaFactor[sig]指定之預設值。
betaFactorIdx[sig] β因數索引,用以修改增益補償程序中之增益。5.5.X.2.1 對低複雜度分佈之限制
若所有信號群組中總計之信號之總數目至多為6,則不存在限制。
否則,若信號之總數目(其中HREP有效)藉由HREPConfig()中之HREPActive[sig]語法元素指示,且總計所有信號群組至多為4,則不存在進一步限制。
否則,信號之總數目(其中HREP有效)藉由HREPConfig()中之HREPActive[sig]語法元素指示,且總計所有信號群組應限於至多為8。
另外,對於每一訊框,對於信號(其中HREP有效)及所有信號群組所計數的不同於GAIN_INDEX_0dB之增益索引之總數目應至多為。對於具有等於GAIN_INDEX_0dB之增益索引之區塊,FFT、內插校正以及IFFT應當跳過。在此情況下,輸入區塊應與正弦窗口之平方相乘且直接用於重疊加法程序中。5.5.X.3 解碼過程 5.5.X.3.1 概述
在語法元素mpegh3daExtElementConfig()中,欄位usacExtElementPayloadFrag 在ID_EXT_ELE_HREP元件之情況下應為零。HREP工具僅可適用於類型SignalGroupTypeChannels及SignalGroupTypeObject之信號群組,如Signals3d()語法元素中之SignalGroupType[grp]所定義。因此,ID_EXT_ELE_HREP元素應僅對於類型SignalGroupTypeChannels及SignalGroupTypeObject之信號群組存在。
區塊大小及所使用的對應FFT大小為
整體處理係對當前信號群組中之每一信號獨立地進行。因此,為了簡化記法,僅針對位置sig上之一個信號描述解碼過程。圖5a :解碼側處的高解析度包絡處理(HREP) 工具之方塊圖 5.5.X.3.2 經量化β 因數之解碼
之值而定,應使用用於將β因數索引轉換至β因數的以下查找表。 tab_beta_factor_dequant_coarse[8] = { 0.000f, 0.035f, 0.070f, 0.120f, 0.170f, 0.220f, 0.270f, 0.320f } tab_beta_factor_dequant_precise[16] = { 0.000f, 0.035f, 0.070f, 0.095f, 0.120f, 0.145f, 0.170f, 0.195f, 0.220f, 0.245f, 0.270f, 0.295f, 0.320f, 0.345f, 0.370f, 0.395f } 若extendedBetaFactorPrecision = 0,則轉換將計算為 beta_factor = tab_beta_factor_dequant_coarse[betaFactorIndex[sig]] 若extendedBetaFactorPrecision = 1,則轉換將計算為 beta_factor = tab_beta_factor_dequant_precise[betaFactorIndex[sig]]5.5.X.3.3 經量化增益之解碼
一個訊框經處理為各由個樣本組成之區塊,該等區塊半重疊。用於每一區塊之純量增益係基於之值導出。 5.5.X.3.4 LP 部分及HP 部分之計算
輸入信號經拆分成大小為之區塊,該等區塊半重疊,從而產生輸入區塊,其中為區塊索引且為區塊中之樣本位置。窗口將應用於,特別為正弦窗口,定義為且在亦應用FFT之後,複數係數將獲得為
在編碼器側,為了獲得LP部分,吾人將應用與處理形狀之逐元素乘法,處理形狀由下式組成:
參數表示低通區域之FFT線之寬度,且參數表示轉變區塊之FET線之寬度。 在解碼器側,為了在轉變區域中得到完美重建構,必須使用轉變區域中之適應性重建構形狀,來替代編碼器側處所使用之處理形狀,視處理形狀
LP區塊係藉由再次應用IFFT及開窗而獲得為
HP區塊接著藉由時域中之簡單減法而獲得為
5.5.X.3.5 內插校正之計算
在編碼器側上應用於位置上之區塊的增益由於開窗及重疊加法操作而隱式地經內插。為了達成轉變區域以上之HP部分中的完美重建構,需要內插修正係數為
5.5.X.3.6 經補償增益之計算
核心編碼器及解碼器引入暫態事件之額外衰減,其藉由使用先前計算出之將增益調整如下來補償 5.5.X.3.7 輸出信號之計算
基於,輸出區塊之值將計算為
最終,輸出信號將使用重疊加法使用輸出區塊計算為 5.5.X.4 編碼器描述 ( 資訊性 ) 圖9c:編碼側處的高解析度包絡處理(HREP)工具之方塊圖5.5.X.4.1 增益及β 因數之計算
在預處理側,區塊之HP部分(假定含有暫態事件)係使用純量增益進行調整,以便使該部分在相鄰區塊中更類似於背景。區塊之HP部分之能量將由表示,且區塊之相鄰者中的HP背景之平均能量將由表示。
吾人定義參數,其將調整量控制為
之值經量化且剪切至extendedGainRange組態選項之選定值所允許的範圍,以產生增益索引
用於處理之值為經量化值,其在解碼器側定義為
為0時,增益具有值,因此不進行調整,且當為1時,增益具有值,因此經調整能量變得與背景之平均能量一致。吾人可將以上關係重寫為從而指示經調整能量圍繞背景之對應平均能量的變化以因數減小。在建議系統中,使用,因此每一區塊之HP能量圍繞背景之對應平均能量的變化減小至原來的25%。
核心編碼器及解碼器引入暫態事件之額外衰減,此藉由視核心編碼器組態及訊框之信號特性使用參數引入額外衰減步驟而近似地模型化為從而指示,在通過核心編碼器及解碼器之後,經解碼能量圍繞背景之對應平均能量的變化以額外因數進一步減小。 使用僅以及,有可能在解碼器側將之估計計算為
針對每一訊框,參數經量化為betaFactorIdx[sig]且作為旁側資訊而傳輸。經補償增益可使用計算為 5.5.X.4.2 LP 部分及HP 部分之計算
處理等同於稍早所定義的解碼器側處之對應處理,惟以下除外:在LP區塊之計算中,使用處理形狀,以替代適應性重建構形狀,LP區塊藉由再次應用IFFT及開窗而獲得為
5.5.X.4.3 輸出信號之計算
基於,輸出區塊之值經計算為
等同於解碼器側,輸出信號係使用重疊加法使用輸出區塊計算為 5.5.X.4.4 使用算術寫碼之增益編碼
幫助函數HREP_encode_ac_data(gain_count, signal_count)使用以下USAC低層級算術寫碼函數來描述來自陣列gainIdx之增益值之寫入: arith_encode(*ari_state, symbol, cum_freq), arith_encoder_open(*ari_state), arith_encoder_flush(*ari_state). 引入兩個額外幫助函數, ari_encode_bit_with_prob(*ari_state, bit_value, count_0, count_total), 其利用編碼一個位元bit_value,及 ari_encode_bit(*ari_state, bit_value), 其利用編碼一個位元bit_value而無需模型化。 ari_encode_bit_with_prob(*ari_state, bit_value, count_0, count_total) { prob_scale = 1 << 14; tbl[0] = prob_scale - (count_0 * prob_scale) / count_total; tbl[1] = 0; arith_encode(ari_state, bit_value, tbl); } ari_encode_bit(*ari_state, bit_value) { prob_scale = 1 << 14; tbl[0] = prob_scale >> 1; tbl[1] = 0; ari_encode(ari_state, bit_value, tbl); } HREP_encode_ac_data(gain_count, signal_count) { cnt_mask[2] = {1, 1}; cnt_sign[2] = {1, 1}; cnt_neg[2] = {1, 1}; cnt_pos[2] = {1, 1}; arith_encoder_open(&ari_state); for (pos = 0; pos < gain_count; pos++) { for (sig = 0; sig < signal_count; sig++) { if (!isHREPActive[sig]) { continue; } sym = gainIdx[pos][sig] - GAIN_INDEX_0dB; if (extendedGainRange) { sym_ori = sym; sym = max(min(sym_ori, GAIN_INDEX_0dB / 2 - 1), -GAIN_INDEX_0dB / 2); } mask_bit = (sym != 0); arith_encode_bit_with_prob(ari_state, mask_bit, cnt_mask[0], cnt_mask[0] + cnt_mask[1]); cnt_mask[mask_bit]++; if (mask_bit) { sign_bit = (sym < 0); arith_encode_bit_with_prob(ari_state, sign_bit, cnt_sign[0], cnt_sign[0] + cnt_sign[1]); cnt_sign[sign_bit] += 2; if (sign_bit) { large_bit = (sym < -2); arith_encode_bit_with_prob(ari_state, large_bit, cnt_neg[0], cnt_neg[0] + cnt_neg[1]); cnt_neg[large_bit] += 2; last_bit = sym & 1; arith_encode_bit(ari_state, last_bit); } else { large_bit = (sym > 2); arith_encode_bit_with_prob(ari_state, large_bit, cnt_pos[0], cnt_pos[0] + cnt_pos[1]); cnt_pos[large_bit] += 2; if (large_bit == 0) { last_bit = sym & 1; ari_encode_bit(ari_state, last_bit); } } } if (extendedGainRange) { prob_scale = 1 << 14; esc_cnt = prob_scale / 5; tbl_esc[5] = {prob_scale - esc_cnt, prob_scale - 2 * esc_cnt, prob_scale - 3 * esc_cnt, prob_scale - 4 * esc_cnt, 0}; if (sym_ori <= -4) { esc = -4 - sym_ori; arith_encode(ari_state, esc, tbl_esc); } else if (sym_ori >= 3) { esc = sym_ori - 3; arith_encode(ari_state, esc, tbl_esc); } } } arith_encode_flush(ari_state); }
100‧‧‧音訊後置處理器 102、202‧‧‧音訊信號 104、204‧‧‧時變高頻增益資訊 106、206‧‧‧旁側資訊 110、210‧‧‧頻帶提取器 111‧‧‧低通濾波器 112、212‧‧‧高頻頻帶 113‧‧‧減法器 114、214‧‧‧低頻頻帶 115、215‧‧‧分析窗口化器 116、216‧‧‧離散傅立葉變換處理器 117、117a、117b、217a、217b‧‧‧低通整形器 118、218‧‧‧反離散傅立葉變換處理器 119、219‧‧‧合成窗口化器 120、220‧‧‧高頻帶處理器 121、221‧‧‧音訊信號窗口化器 122、222‧‧‧經處理高頻頻帶 124‧‧‧內插校正區塊 125‧‧‧乘法器 126‧‧‧增益補償區塊 130、230‧‧‧組合器 140‧‧‧重疊加法器 200‧‧‧音訊前置處理器 232‧‧‧經預處理音訊信號 250、910‧‧‧輸出介面 252‧‧‧輸出信號 260‧‧‧信號分析器 300、301、302、303‧‧‧音訊信號之取樣值之區塊 311‧‧‧第一增益資訊 312‧‧‧第二增益資訊 313、314‧‧‧窗口/重疊區塊(用於計算第一區塊重疊) 321‧‧‧重疊範圍 500‧‧‧額外控制參數 550‧‧‧3D音訊核心解碼器 560、801、802、803、804、805、808、809、815、816、817‧‧‧區塊 570‧‧‧drc_1 580‧‧‧格式轉換區塊 582‧‧‧重新取樣器 584‧‧‧混頻器 586‧‧‧揚聲器饋入 588‧‧‧頭戴式耳機饋入 590‧‧‧物件呈現器 592‧‧‧物件後設資料解碼器 594‧‧‧SAOC 3D解碼器 596‧‧‧高階立體混響(HOA)解碼器 601‧‧‧增益索引 602‧‧‧增益精度資訊 603‧‧‧增益補償資訊 604‧‧‧補償精度資訊 610‧‧‧旁側資訊提取器 620‧‧‧旁側資訊解碼器 621‧‧‧經解碼增益 622‧‧‧經解碼增益補償值 806‧‧‧後設增益控制區塊 807‧‧‧控制參數 810‧‧‧增益因數 900‧‧‧核心編碼器 902‧‧‧經核心編碼之信號 904‧‧‧核心旁側資訊 912‧‧‧經編碼信號 920‧‧‧音訊輸入介面 930‧‧‧核心解碼器
隨後在隨附圖式之上下文中描述本發明之較佳實施例,其中: 圖1說明根據一實施例的一音訊後置處理器; 圖2說明圖1之頻帶提取器之一較佳實施; 圖3a為具有時變高頻增益資訊作為旁側資訊之音訊信號的示意性表示; 圖3b為關於具有重疊區域之重疊區塊的由頻帶提取器、高頻帶處理器或組合器進行之處理的示意性表示; 圖3c說明具有重疊加法器之音訊後置處理器; 圖4說明圖1之頻帶提取器之一較佳實施; 圖5a說明音訊後置處理器之另一較佳實施; 圖5b說明音訊後置處理器(HREP)在MPEG-H 3D音訊解碼器之架構中的較佳嵌入; 圖5c說明音訊後置處理器(HREP)在MPEG-H 3D音訊解碼器之架構中的另一較佳嵌入; 圖6a說明含有對應位置資訊之旁側資訊的較佳實施例; 圖6b說明用於音訊後置處理器的與旁側資訊解碼器組合之旁側資訊提取器; 圖7說明根據一較佳實施例之一音訊前置處理器; 圖8a說明由音訊前置處理器執行之步驟的流程圖; 圖8b說明由音訊前置處理器之信號分析器執行之步驟的流程圖; 圖8c說明由音訊前置處理器之信號分析器、高頻帶處理器以及輸出介面執行之程序的流程圖; 圖8d說明由圖7之音訊前置處理器執行之程序; 圖9a說明根據一實施例的具有音訊前置處理器之音訊編碼設備; 圖9b說明包含音訊後置處理器之音訊解碼設備; 圖9c說明音訊前置處理器之一較佳實施; 圖10a說明具有多通道/多物件功能性之音訊編碼設備; 圖10b說明具有多通道/多物件功能性之音訊解碼設備; 圖10c說明前置處理器及後置處理器至編碼/解碼鏈中之嵌入的另一實施; 圖11說明立體聲鼓掌信號之高頻時間包絡; 圖12說明增益修改處理之功能性; 圖13a說明基於濾波器之增益控制處理; 圖13b說明針對圖13a之對應濾波器的不同濾波器功能性; 圖14說明混合式濾波器組情況下之增益控制; 圖15說明疏鬆數位傅里葉變換實施之實施; 圖16說明收聽測試概述; 圖17a說明針對128 kbps 5.1ch測試之絕對MUSHRA分數; 圖17b說明針對128 kbps 5.1ch測試之不同MUSHRA分數; 圖17c說明針對128 kbps 5.1ch測試鼓掌信號之絕對MUSHRA分數; 圖17d說明針對128 kbps 5.1ch測試鼓掌信號之不同MUSHRA分數; 圖17e說明針對48 kbps立體聲測試之絕對MUSHRA分數; 圖17f說明針對48 kbps立體聲測試之不同MUSHRA分數; 圖17g說明針對128 kbps立體聲測試之絕對MUSHRA分數;且 圖17h說明針對128 kbps立體聲測試之不同MUSHRA分數。
100‧‧‧音訊後置處理器
102‧‧‧音訊信號
104‧‧‧時變高頻增益資訊
110‧‧‧頻帶提取器
112‧‧‧高頻頻帶
114‧‧‧低頻頻帶
120‧‧‧高頻帶處理器
122‧‧‧經處理高頻頻帶
130‧‧‧組合器

Claims (61)

  1. 一種用於對具有一時變高頻增益資訊作為旁側資訊之一音訊信號進行後處理的音訊後置處理器,其包含: 一頻帶提取器,其用於提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶; 一高頻帶處理器,其用於根據該時變高頻增益資訊執行該高頻頻帶之一時變放大以獲得一經處理高頻頻帶; 一組合器,其用於組合該經處理高頻頻帶與該低頻頻帶。
  2. 如請求項1之音訊後置處理器,其中該頻帶提取器經組配以使用一低通濾波器裝置來提取該低頻頻帶,且藉由自該音訊信號減去該低頻頻帶來提取該高頻頻帶。
  3. 如請求項1或2之音訊後置處理器,其中該時變高頻增益資訊係針對該音訊信號之取樣值之區塊之一序列提供,使得取樣值之一第一區塊具有與之相關聯之一第一增益資訊,且該音訊信號之取樣值之一第二稍後區塊具有一不同的第二增益資訊,其中該頻帶提取器經組配以自取樣值之該第一區塊提取一第一低頻頻帶及一第一高頻頻帶且自取樣值之該第二區塊提取一第二低頻頻帶及一第二高頻頻帶,且 其中該高頻帶處理器經組配以使用該第一增益資訊來修改該第一高頻頻帶以獲得一第一經處理高頻頻帶且使用該第二增益資訊來修改該第二高頻頻帶以獲得一第二經處理高頻頻帶,且 其中該組合器經組配以組合該第一低頻頻帶與該第一經處理高頻頻帶以獲得一第一組合區塊,且組合該第二低頻頻帶與該第二經處理高頻頻帶以獲得一第二組合區塊。
  4. 如前述請求項中任一項之音訊後置處理器, 其中該頻帶提取器及該高頻帶處理器以及該組合器經組配以在重疊區塊中操作,且 其中該音訊後置處理器進一步包含一重疊加法器,該重疊加法器用於藉由在一區塊重疊範圍中將一第一區塊之音訊樣本與一第二區塊之音訊樣本相加來計算一經後處理的部分。
  5. 如前述請求項中任一項之音訊後置處理器,其中該頻帶提取器包含: 一分析開窗器,其用於使用一分析窗口產生該音訊信號之取樣值的區塊之一序列,其中該等區塊時間重疊; 一離散傅立葉變換處理器,其用於產生頻譜值之區塊之一序列; 一低通整形器,其用於整形頻譜值之每一區塊以獲得頻譜值之經低通整形區塊之一序列; 一離散傅立葉反變換處理器,其用於產生低通時域取樣值之區塊之一序列;以及 一合成開窗器,其用於使用一合成窗口將低通時域取樣值之區塊之該序列開窗。
  6. 如請求項5之音訊後置處理器,其中該頻帶提取器進一步包含: 一音訊信號開窗器,其用於使用該分析窗口及該合成窗口將該音訊信號開窗以獲得音訊信號值之經開窗區塊之一序列,其中該音訊信號開窗器與該開窗器同步,使得低通時域取樣值之區塊之該序列與音訊信號值之經開窗區塊之該序列同步。
  7. 如請求項5或6之音訊後置處理器, 其中該頻帶提取器經組配以執行低通時域值之區塊之該序列自來源於該音訊信號的區塊之一對應序列之一逐樣本減法,以獲得高通時域取樣值之區塊之一序列。
  8. 如請求項7之音訊後置處理器, 其中該高頻帶處理器經組配以將該修改應用於高通時域取樣值之區塊之該序列的每一區塊之每一樣本, 其中對於一區塊之一樣本的該修改取決於 一先前區塊之一增益資訊及當前區塊之一增益資訊,或 該當前區塊之一增益資訊及下一個區塊之一增益資訊。
  9. 如請求項1至7中任一項之音訊後置處理器,其中該音訊信號包含一額外控制參數作為一另外旁側資訊,其中該高頻帶處理器經組配以在亦考慮該額外控制參數時應用該修改,其中該額外控制參數之一時間解析度低於該時變高頻增益資訊之一時間解析度,或該額外控制參數針對一特定音訊片段為固定的。
  10. 如請求項8之音訊後置處理器, 其中該組合器經組配以執行低通時域取樣值之區塊之該序列與高通時域取樣值之經放大區塊之該序列的對應區塊之一逐樣本加法,以獲得組合信號值之區塊之一序列。
  11. 如請求項10之音訊後置處理器,其進一步包含: 一重疊加法處理器,其用於藉由在一區塊重疊範圍中將組合信號值之該序列的一第一區塊之音訊樣本與鄰近於該第一區塊的一相鄰第二區塊之音訊樣本相加來計算一經後處理的音訊信號部分。
  12. 如前述請求項中任一項之音訊後置處理器, 其中該頻帶提取器、該高頻帶處理器以及該組合器在重疊區塊中操作,其中一重疊範圍係在一區塊長度之40%與一區塊長度之60%之間,或 其中一區塊長度係在0.8毫秒與5毫秒之間,或 其中由該高頻帶處理器執行之該修改為在一時域中應用於一區塊之每一樣本之一乘法因數,或 其中該低頻頻帶之一截止或角隅頻率係在該音訊信號之一最大頻率的1/8與1/3之間且較佳等於該音訊信號之該最大頻率的1/6。
  13. 如請求項5之音訊後置處理器, 其中該低通整形器經組配以視一對應區塊之該時變高頻增益資訊而應用一整形函數。
  14. 如請求項13之音訊後置處理器, 其中該整形函數另外取決於一音訊前置處理器中所使用之一整形函數,其用於使用一對應區塊之該時變高頻增益資訊來修改或衰減該音訊信號之一高頻頻帶。
  15. 如請求項8之音訊後置處理器, 其中針對一區塊之一樣本的該修改另外取決於如由該分析窗口函數或該合成窗口函數所定義的應用於一特定樣本之一開窗因數。
  16. 如前述請求項中任一項之音訊後置處理器,其中該頻帶提取器、該高頻帶處理器以及該組合器經組配以將來源於該音訊信號之區塊之序列處理為重疊區塊,使得一稍早區塊之一稍後部分來源於該音訊信號之與一稍後區塊之在時間上鄰近該稍早區塊之一稍早部分相同的音訊樣本。
  17. 如請求項16之音訊後置處理器,其中該等重疊區塊之一重疊範圍等於該稍早區塊的二分之一,且其中該稍後區塊就樣本值之一數目而言具有與該稍早區塊相同之長度,且其中該後置處理器另外包含用於執行該重疊加法運算之一重疊加法器。
  18. 如請求項16或17之音訊後置處理器,其中該頻帶提取器經組配以將一拆分濾波器的在該拆分濾波器之一停止範圍與一通過範圍之間的一斜率應用於音訊樣本之一區塊,其中該斜率取決於樣本之該區塊的該時變高頻增益資訊。
  19. 如請求項18之音訊後置處理器, 其中該高頻增益資訊包含增益值,其中與該斜率針對一較低增益值之一增加相比,該斜率針對一較高增益值增加得更強。
  20. 如請求項17至19中任一項之音訊後置處理器, 其中該拆分濾波器之該斜率係基於以下等式定義:其中rs[f]為該拆分濾波器之該斜率,其中ps[f]為在產生該音訊信號時所使用的拆分濾波器之一斜率,其中g[k]為來源於該時變高頻增益資訊之一增益因數,其中f為一頻率索引且其中k為一區塊索引。
  21. 如請求項16至20中任一項之音訊後置處理器, 其中該高頻增益資訊包含用於鄰近區塊之增益值,其中該高頻帶處理器經組配以視用於該等鄰近區塊之該等增益值且視用於對應樣本之窗口因數而計算用於每一樣本之一校正因數。
  22. 如請求項21之音訊後置處理器,其中該高頻帶處理器經組配以基於以下等式操作: 其中corr[j]為用於具有一索引j之一樣本的一校正因數,其中g[k-1]為用於一先前區塊之一增益因數,其中g[k]為一增益因數一當前區塊,其中w[j]為用於具有一樣本索引j之一樣本的一窗口函數因數,其中N為一區塊的以樣本計之長度,且其中g[k+1]為用於該稍後區塊之該增益因數,其中k為該區塊索引,且其中來自該等以上等式的上部等式係針對一輸出區塊k之一前半部分,且其中該等以上等式的下部等式係針對該輸出區塊k之一後半部分。
  23. 如請求項17至22中任一項之音訊後置處理器, 其中該高頻帶處理器經組配以另外補償藉由在由該音訊後置處理器進行之一處理之前所執行的一處理引入至該音訊信號中的暫態事件之一衰減。
  24. 如請求項23之音訊後置處理器, 其中該高頻帶處理器經組配以基於以下等式操作:其中gc[k]為用於具有一區塊索引k之一區塊的該經補償增益,其中g[k]為如藉由作為該旁側資訊包括之該時變高頻增益資訊所指示的一未經補償增益,且其中beta_factor為包括於該旁側資訊內之一額外控制參數值。
  25. 如請求項22及24中任一項之音訊後置處理器,其中該高頻帶處理器經組配以基於以下等式計算該經處理高頻帶:其中phpb[k][i]指示針對一區塊k及一樣本值i之該經處理高頻帶,其中gc[k]為該經補償增益,其中corr[i]為一校正因數,其中k為一區塊索引,其中i為一取樣值索引,且其中hpb[k][i]為針對一區塊及一取樣值i之該高頻帶,且其中N為一區塊的以樣本計之長度。
  26. 如請求項25之音訊後置處理器, 其中該組合器經組配以將該組合區塊計算為 ob[k][i] = lpb[k][i] + phpb[k][i], 其中lpb[k][i]為針對一區塊k及一樣本索引i之該低頻頻帶。
  27. 如請求項16至26中任一項之音訊後置處理器,其進一步包含基於以下等式操作之一重疊加法器: 其中o[]為針對來源於k及j之一樣本索引的一經後處理的音訊輸出信號之一樣本之一值,其中k為一區塊值,N為一區塊的以樣本計之該長度,j為一區塊內之一取樣索引,且ob[]指示針對稍早區塊索引k-1、當前區塊索引k或一稍後區塊索引k+1的一組合區塊。
  28. 如請求項1至27中任一項之音訊後置處理器,其中該時變高頻增益資訊包含增益索引之一序列及增益延伸範圍資訊,或其中該旁側資訊另外包含一增益補償資訊及一增益補償精度資訊, 其中該音訊後置處理器包含 一解碼器,其用於視該增益精度資訊而解碼該等增益索引,以獲得一第一精度資訊之一第一數目個不同值的一經解碼增益或一第二精度資訊之一第二數目個不同值的一經解碼增益,該第二數目大於該第一數目,或 一解碼器,其用於視該補償精度資訊而解碼該等增益補償索引,以獲得一第一補償精度資訊之一第一數目個不同值的一經解碼增益補償值或一第二不同補償精度資訊之一第二不同數目個值的一經解碼增益補償值,該第一數目大於該第二數目。
  29. 如請求項28之音訊後置處理器, 其中該解碼器經組配以計算用於一區塊之一增益因數:其中g[k]為用於具有一區塊索引k之一區塊的該增益因數,其中gainIdx[k][sig]為包括於作為該時變高頻增益資訊之該旁側資訊中的一經量化值,且其中GAIN_INDEX_0dB為對應於0 dB之一增益索引偏移,其在該增益精度資訊具有一第一狀態時具有一第一值且在該增益精度資訊具有一第二狀態時具有第二不同值。
  30. 如前述請求項中任一項之音訊後置處理器, 其中該頻帶提取器經組配以藉由執行一疏鬆離散傅立葉變換演算法而以N個取樣值之一區塊長度執行一逐區塊離散傅立葉變換,以獲得低於N/2複合頻譜值之一數目的一數目個頻譜值,在該疏鬆離散傅立葉變換演算法中,高於一最大頻率之頻譜值的分支之計算經跳過,且 其中該頻帶提取器經組配以藉由使用至多一轉變開始頻率範圍之該等頻譜值及藉由對該轉變開始頻率範圍內之頻譜值加權來計算該低頻頻帶信號,其中該轉變開始頻率範圍僅延伸直至該最大頻率或小於該最大頻率之一頻率。
  31. 如請求項1至30中任一項之音訊後置處理器, 經組配以:僅對用於該高頻頻帶之該時變放大的旁側資訊可獲得的一最大數目個通道或物件執行一後處理,且不對該高頻頻帶之該時變放大的任何旁側資訊不可獲得針對的一數目個通道或物件執行任何後處理,或 其中該頻帶提取器經組配以不執行任何頻帶提取或針對用於該高頻頻帶之該時變放大的不重要增益因素不計算一離散傅立葉變換及反離散傅立葉變換對,且使與該等不重要增益因素相關聯的一無變化或經開窗之時域信號通過。
  32. 一種用於預處理一音訊信號之音訊前置處理器,其包含: 一信號分析器,其用於分析該音訊信號以判定一時變高頻增益資訊; 一頻帶提取器,其用於提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶; 一高頻帶處理器,其用於根據該時變高頻增益資訊執行該高頻頻帶之一時變修改以獲得一經處理高頻頻帶; 一組合器,其用於組合該經處理高頻頻帶與該低頻頻帶以獲得一經預處理的音訊信號;以及 一輸出介面,其用於產生包含該經預處理的音訊信號及作為旁側資訊的該時變高頻增益資訊之一輸出信號。
  33. 如請求項32之音訊前置處理器, 其中該信號分析器經組配以分析該音訊信號以判定該音訊信號的一第一時間區塊中之一第一特性及該音訊信號之一第二時間區塊中之一第二特性,該第二特性與該第一特性相比更具暫態或與該第一特性相比為一較大高頻能量位準, 其中該信號分析器經組配以判定用於該第一特性之一第一增益資訊及用於該第二特性之一第二增益資訊,且 其中該高頻帶處理器經組配以將一乘法因數應用於比根據該第一增益資訊的該第一時間區塊之該高頻帶部分強的根據該第二增益資訊的該第二時間區塊之該高頻帶部分。
  34. 如請求項32至33中任一項之音訊前置處理器,其中該信號分析器經組配: 以計算針對時間上相鄰之一或多個時間區塊之該高頻帶之一背景能量的背景量測,該一或多個時間區塊置放於當前時間區塊之前,或置放於該當前時間區塊之後,或在該當前時間區塊之前及之後置放,或包括該當前時間區塊或不包括該當前時間區塊; 以計算針對該當前區塊之一高頻帶的一能量量測;且 以使用該背景量測及該能量量測來計算一增益因數。
  35. 如請求項33之音訊前置處理器,其中該信號分析器經組配以基於以下等式計算該增益因數:其中gfloat 為一未量化增益因數,其中k為一區塊索引,其中α為一變化影響因數,其中hp_bg_e[k]為一區塊k之該高頻背景能量,其中hp_e[k]為該高頻區塊之該能量,其中T_quiet為一安靜臨限值,且其中該因數α及該安靜臨限值係預定的或可由額外控制參數控制。
  36. 如請求項32至35中任一項之音訊前置處理器,其中該信號分析器及該高頻帶處理器經組配以計算該時變高頻增益資訊且應用該時變高頻增益資訊,使得每一區塊之一能量圍繞一背景之一對應平均能量的一變化減小至少50%且較佳減小75%。
  37. 如請求項32至36中任一項之音訊前置處理器, 其中該信號分析器經組配以對增益資訊值之一原始序列進行量化及削減,以獲得該時變高頻增益資訊作為經量化值之一序列, 其中該高頻帶處理器經組配以根據經量化值之該序列來執行該高頻帶之該時變修改,且 其中該輸出介面經組配以將經量化值之該序列引入至該旁側資訊中作為該時變高頻增益資訊。
  38. 如請求項32至37中任一項之音訊前置處理器,其中該音訊前置處理器經組配 以判定一另外增益補償值,其描述由一隨後連接之編碼器或解碼器引入的一能量變化之一損失,以及 以量化該另外增益補償資訊,且 其中該輸出介面經組配以將該經量化之另外增益補償資訊引入至該旁側資訊中。
  39. 如請求項32至38中任一項之音訊前置處理器,其中該信號分析器經組配以應用控制該計算出的時變高頻增益資訊之該另外修改的後設增益控制,以根據另外來源於該音訊信號之額外控制資料逐漸減小或逐漸增強該高頻帶處理器對該音訊信號之一影響,或 其中該信號分析器經組配以影響在基於以下等式計算該增益資訊時的一因數α,其中增大α產生一較強影響且減小α產生一較低影響,其中gfloat 為一未量化增益因數,其中k為一區塊索引,其中hp_bg_e[k]為一區塊k之該高頻背景能量,其中hp_e[k]為該高頻區塊之能量,其中T_quiet為一安靜臨限值,且其中該因數α及該安靜臨限值係預定的或可由額外控制參數控制。
  40. 如請求項32至39中任一項之音訊前置處理器,其中該頻帶提取器經組配以使用一低通濾波器裝置來提取該低頻頻帶且藉由自該音訊信號減去該低頻頻帶來提取該高頻頻帶。
  41. 如請求項32至40中任一項之音訊前置處理器, 其中該時變高頻增益資訊係針對該音訊信號之取樣值之區塊之一序列提供,使得取樣值之一第一區塊具有與之相關聯之一第一增益資訊且該音訊信號之樣本值之一第二稍後區塊具有一不同的第二增益資訊,其中該頻帶提取器經組配以自取樣值之該第一區塊提取一第一低頻頻帶及一第一高頻頻帶且自取樣值之該第二區塊提取一第二低頻頻帶及一第二高頻頻帶,且 其中該高頻帶處理器經組配以使用該第一增益資訊來修改該第一高頻頻帶以獲得一第一經處理高頻頻帶且使用該第二增益資訊來修改該第二高頻頻帶以獲得一第二經處理高頻頻帶,且 其中該組合器經組配以組合該第一低頻頻帶與該第一經處理高頻頻帶以獲得一第一組合區塊且組合該第二低頻頻帶與該第二經處理高頻頻帶以獲得一第二組合區塊。
  42. 如請求項32至41中任一項之音訊前置處理器, 其中該頻帶提取器及該高頻帶處理器以及該組合器經組配以在重疊區塊中操作,且 其中該組合器進一步包含一重疊加法器,其用於藉由在一區塊重疊範圍中將一第一區塊之音訊樣本與一第二區塊之音訊樣本相加來計算一經後處理部分,或 其中該頻帶提取器、該高頻帶處理器以及該組合器在重疊區塊中操作,其中一重疊範圍係在一區塊長度之40%與一區塊長度之60%之間,或 其中一區塊長度係在0.8毫秒與5毫秒之間,或 其中藉由該高頻帶處理器執行之該修改為在一時域中應用於一區塊之每一樣本之一衰減,或 其中該低頻頻帶之一截止或角隅頻率係在該音訊信號之一最大頻率的1/8與1/3之間且較佳等於該音訊信號之該最大頻率之1/6。
  43. 如請求項32至42中任一項之音訊前置處理器,其中該頻帶提取器包含: 一分析開窗器,其用於使用一分析窗口產生該音訊信號之取樣值之區塊之一序列,其中該等區塊時間重疊; 一離散傅立葉變換處理器,其用於產生頻譜值之區塊之一序列; 一低通整形器,其用於整形頻譜值之每一區塊以獲得頻譜值之經低通整形區塊之一序列; 一離散傅立葉反變換處理器,其用於產生低通時域取樣值之區塊之一序列;以及 一合成開窗器,其用於使用一合成窗口將低通時域取樣值之區塊之該序列開窗。
  44. 如請求項43之音訊前置處理器,其中該低通整形器經組配以基於以下等式而操作:其中ps[f]指示將由該低通整形器針對一頻率值f應用的該整形之整形因數,其中f為一頻率值,其中tr_size為判定一轉變區域之頻譜線之寬度的一值,其中一lp_size指示無該轉變區域情況下的一低通部分之一大小,其中N指示用於一區塊之取樣值之一數目。
  45. 如請求項43或44中任一項之音訊前置處理器,其中該區塊提取器進一步包含: 一音訊信號開窗器,其用於使用該分析窗口及該合成窗口將該音訊信號開窗以獲得音訊信號值之經開窗區塊之一序列,其中該音訊信號開窗器與該開窗器同步,使得低通時域取樣值之區塊之該序列與音訊信號值之經開窗區塊之該序列同步。
  46. 如請求項43至45中任一項之音訊前置處理器, 其中該頻帶提取器經組配以執行低通時域值之區塊之該序列自來源於該音訊信號的區塊之一對應序列之一逐樣本減法,以獲得高通時域取樣值之區塊之一序列。
  47. 如請求項32至46中任一項之音訊前置處理器,其中該分析器另外提供藉由後設增益控制計算出之一控制參數,其中該高頻帶處理器經組配以在亦考慮該控制參數時應用該修改。
  48. 如請求項43至47中任一項之音訊前置處理器, 其中該組合器經組配以執行低通時域取樣值之區塊之該序列及高通時域取樣值之經修改區塊之該序列的對應區塊之一逐樣本加法,以獲得組合信號值之區塊之一序列。
  49. 如請求項48之音訊前置處理器,其進一步包含: 一重疊加法處理器,其用於藉由在一區塊重疊範圍中將組合信號值之該序列的一第一區塊之音訊樣本與鄰近於該第一區塊的一相鄰第二區塊之音訊樣本相加來計算一經預處理的音訊信號部分。
  50. 如請求項32至49中任一項之音訊前置處理器,其中 其中該頻帶提取器、該高頻帶處理器以及該組合器在重疊區塊中操作,其中一重疊範圍係在一區塊長度之40%與一區塊長度之60%之間,或 其中一區塊長度係在0.8毫秒與5毫秒之間,或 其中由該高頻帶處理器執行之該修改為在時域中應用於一區塊之每一樣本之一乘法因數。
  51. 如請求項32至50中任一項之音訊前置處理器, 其中該等重疊區塊之一重疊範圍等於該稍早區塊的二分之一,且其中該稍後區塊就樣本值之一數目而言與該稍早區塊具有相同長度,且其中該組合器包含及用於執行該重疊加法運算之重疊加法器。
  52. 如請求項32至51中任一項之音訊後置處理器, 其經組配以僅對一最大數目個通道或物件執行一預處理以產生用於該最大數目個通道或物件的該旁側資訊,且不對該旁側資訊未產生針對的一數目個通道或物件執行任何預處理,或 其中該頻帶提取器經組配以不執行任何頻帶提取或針對用於由該信號分析器判定之該時變高頻增益資訊的不重要增益因素不計算一離散傅立葉變換及反離散傅立葉變換對,且使與該等不重要增益因素相關聯的一無變化或經開窗之時域信號通過。
  53. 一種用於編碼一音訊信號之音訊編碼設備,其包含: 如請求項32至52中任一項之音訊前置處理器,其經組配以產生具有時變高頻增益資訊作為旁側資訊的輸出信號; 一核心編碼器,其用於產生一經核心編碼信號及核心旁側資訊;以及 一輸出介面,其用於產生包含該經核心編碼信號、該核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼信號。
  54. 如請求項53之音訊編碼設備,其中該音訊信號為一多通道或多物件信號,其中該音訊前置處理器經組配以單獨地預處理每一通道或每一物件,且其中該核心編碼器經組配以對該等經預處理的通道應用一聯合多通道編碼器處理或一聯合多物件編碼器處理或一編碼器帶隙填充或一編碼器頻寬擴展處理。
  55. 一種音訊解碼設備,其包含: 一輸入介面,其用於接收包含一經核心編碼信號、核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼音訊信號; 一核心解碼器,其用於使用該核心旁側資訊來解碼該經核心編碼信號以獲得一經解碼核心信號;以及 如請求項1至31中任一項之一後置處理器,其用於使用該時變高頻增益資訊對該經解碼核心信號進行後處理。
  56. 如請求項55之音訊解碼器設備, 其中該核心解碼器經組配以應用一多通道解碼器處理或一多物件解碼器處理或一頻寬擴展解碼器處理或一間隙填充解碼器處理,以用於產生一多通道信號之經解碼通道或一多物件信號之經解碼物件,且 其中該後置處理器經組配以使用針對每一通道或每一物件之該個別時變高頻增益資訊個別地對每一通道或每一物件應用該後處理。
  57. 一種對具有一時變高頻增益資訊作為旁側資訊之一音訊信號進行後處理的方法,其包含: 提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶; 根據該時變高頻增益資訊執行該高頻帶之一時變修改以獲得一經處理高頻頻帶;以及 組合該經處理高頻頻帶與該低頻頻帶。
  58. 一種預處理一音訊信號之方法,其包含: 分析該音訊信號以判定一時變高頻增益資訊; 提取該音訊信號之一高頻頻帶及該音訊信號之一低頻頻帶; 根據該時變高頻增益資訊執行該高頻頻帶之一時變修改以獲得一經處理高頻頻帶; 組合該經處理高頻頻帶與該低頻頻帶以獲得一經預處理之音訊信號;以及 產生包含該經預處理的音訊信號及作為旁側資訊之該時變高頻增益資訊的一輸出信號。
  59. 一種編碼一音訊信號之方法,其包含: 如請求項58之音訊預處理方法,其經組配以產生具有時變高頻增益資訊作為旁側資訊的輸出信號; 產生一經核心編碼信號及核心旁側資訊;以及 產生包含該經核心編碼信號、該核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼信號。
  60. 一種音訊解碼方法,其包含: 接收包含一經核心編碼信號、核心旁側資訊以及作為額外旁側資訊之該時變高頻增益資訊的一經編碼音訊信號; 使用該核心旁側資訊來解碼該經核心編碼信號以獲得一經解碼核心信號;以及 如請求項55之方法,使用該時變高頻增益資訊對該經解碼疼痛信號進行後處理。
  61. 一種電腦程式,其於在一電腦或一處理器上運行時執行如請求項57、58、59、60之方法中之任一者。
TW106105242A 2016-02-17 2017-02-17 用於增強暫態處理之音訊後置處理器、前置處理器、編碼設備、解碼設備及相關方法與電腦程式 TWI618053B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP16156200 2016-02-17
??16156200.4 2016-02-17
PCT/EP2017/053068 WO2017140600A1 (en) 2016-02-17 2017-02-10 Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
??PCT/EP2017/053068 2017-02-10

Publications (2)

Publication Number Publication Date
TW201732784A true TW201732784A (zh) 2017-09-16
TWI618053B TWI618053B (zh) 2018-03-11

Family

ID=55361427

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106105242A TWI618053B (zh) 2016-02-17 2017-02-17 用於增強暫態處理之音訊後置處理器、前置處理器、編碼設備、解碼設備及相關方法與電腦程式

Country Status (18)

Country Link
US (3) US10720170B2 (zh)
EP (2) EP3417544B1 (zh)
JP (2) JP6603414B2 (zh)
KR (1) KR102067044B1 (zh)
CN (1) CN107925388B (zh)
AR (1) AR107662A1 (zh)
AU (1) AU2017219696B2 (zh)
BR (1) BR112017024480A2 (zh)
CA (1) CA2985019C (zh)
ES (1) ES2771200T3 (zh)
MX (1) MX371223B (zh)
MY (1) MY191093A (zh)
PL (1) PL3417544T3 (zh)
PT (1) PT3417544T (zh)
RU (1) RU2685024C1 (zh)
TW (1) TWI618053B (zh)
WO (1) WO2017140600A1 (zh)
ZA (1) ZA201707336B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
RU2685024C1 (ru) * 2016-02-17 2019-04-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Постпроцессор, препроцессор, аудиокодер, аудиодекодер и соответствующие способы для улучшения обработки транзиентов
US10559315B2 (en) * 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
EP3841572A1 (en) 2018-08-21 2021-06-30 Dolby International AB Coding dense transient events with companding
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
US11032644B2 (en) 2019-10-10 2021-06-08 Boomcloud 360, Inc. Subband spatial and crosstalk processing using spectrally orthogonal audio components
WO2021126155A1 (en) 2019-12-16 2021-06-24 Google Llc Amplitude-independent window sizes in audio encoding
CN111916090B (zh) * 2020-08-17 2024-03-05 北京百瑞互联技术股份有限公司 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备
TWI772930B (zh) * 2020-10-21 2022-08-01 美商音美得股份有限公司 適合即時應用之分析濾波器組及其運算程序、基於分析濾波器組之信號處理系統及程序
WO2022097242A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097240A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
US11837244B2 (en) 2021-03-29 2023-12-05 Invictumtech Inc. Analysis filter bank and computing procedure thereof, analysis filter bank based signal processing system and procedure suitable for real-time applications
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN118038877A (zh) * 2022-11-01 2024-05-14 抖音视界有限公司 一种音频信号的编码、解码方法及装置
CN115866487B (zh) * 2022-12-30 2023-08-11 广州市韵强电子有限公司 一种基于均衡放大的音响功放方法及系统

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE413573B (sv) * 1977-10-07 1980-06-02 Transcale Ab Elektronisk apparat
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
GB2293734B (en) * 1994-09-20 1997-04-09 Ricoh Kk Method for compression using reversible embedded wavelets
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4281131B2 (ja) * 1998-10-22 2009-06-17 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
JP3870193B2 (ja) * 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
US7801383B2 (en) * 2004-05-15 2010-09-21 Microsoft Corporation Embedded scalar quantizers with arbitrary dead-zone ratios
KR100636145B1 (ko) * 2004-06-04 2006-10-18 삼성전자주식회사 확장된 고해상도 오디오 신호 부호화 및 복호화 장치
WO2006028209A1 (ja) * 2004-09-10 2006-03-16 Ntn Corporation 回転速度検出装置付き車輪用軸受装置
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
EP1839297B1 (en) * 2005-01-11 2018-11-14 Koninklijke Philips N.V. Scalable encoding/decoding of audio signals
NZ562182A (en) 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
CN101138274B (zh) 2005-04-15 2011-07-06 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP4876574B2 (ja) * 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
BRPI0621499B1 (pt) 2006-03-28 2022-04-12 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Método melhorado para formatação de sinal em reconstrução de áudio de canais múltiplos
US7899192B2 (en) * 2006-04-22 2011-03-01 Oxford J Craig Method for dynamically adjusting the spectral content of an audio signal
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
CN101485094B (zh) * 2006-07-14 2012-05-30 安凯(广州)软件技术有限公司 最大熵意义下后向兼容多通道音频编码与解码方法和系统
US8126721B2 (en) * 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
WO2008108082A1 (ja) 2007-03-02 2008-09-12 Panasonic Corporation 音声復号装置および音声復号方法
PL2304719T3 (pl) * 2008-07-11 2017-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, sposoby dostarczania strumienia audio oraz program komputerowy
AU2009267531B2 (en) * 2008-07-11 2013-01-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for decoding an encoded audio signal
WO2010044439A1 (ja) * 2008-10-17 2010-04-22 シャープ株式会社 音声信号調整装置及び音声信号調整方法
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
RU2596033C2 (ru) * 2010-03-09 2016-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере
US8793126B2 (en) * 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN101964189B (zh) 2010-04-28 2012-08-08 华为技术有限公司 语音频信号切换方法及装置
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2012111767A1 (ja) * 2011-02-18 2012-08-23 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、及び音声符号化プログラム
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
JP6014259B2 (ja) * 2012-08-01 2016-10-25 ドルビー ラボラトリーズ ライセンシング コーポレイション ノイズ削減利得の百分位数フィルタリング
BR112015018022B1 (pt) * 2013-01-29 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para processar um sinal codificado e codificador e método para gerar um sinal codificado
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
RU2712814C2 (ru) * 2013-04-05 2020-01-31 Долби Лабораторис Лайсэнзин Корпорейшн Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
RU2685024C1 (ru) * 2016-02-17 2019-04-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Постпроцессор, препроцессор, аудиокодер, аудиодекодер и соответствующие способы для улучшения обработки транзиентов

Also Published As

Publication number Publication date
US11094331B2 (en) 2021-08-17
BR112017024480A2 (pt) 2018-07-24
ZA201707336B (en) 2019-02-27
PT3417544T (pt) 2020-03-02
JP2019500641A (ja) 2019-01-10
MY191093A (en) 2022-05-30
CN107925388A (zh) 2018-04-17
US10720170B2 (en) 2020-07-21
CA2985019A1 (en) 2017-08-24
TWI618053B (zh) 2018-03-11
JP2020024440A (ja) 2020-02-13
KR102067044B1 (ko) 2020-01-17
AR107662A1 (es) 2018-05-23
US20200090670A1 (en) 2020-03-19
JP7007344B2 (ja) 2022-01-24
PL3417544T3 (pl) 2020-06-29
EP3417544B1 (en) 2019-12-04
WO2017140600A1 (en) 2017-08-24
CA2985019C (en) 2022-05-03
EP3627507A1 (en) 2020-03-25
US20180190303A1 (en) 2018-07-05
MX2017014734A (es) 2018-06-28
RU2685024C1 (ru) 2019-04-16
MX371223B (es) 2020-01-09
AU2017219696B2 (en) 2018-11-08
ES2771200T3 (es) 2020-07-06
AU2017219696A1 (en) 2017-11-16
EP3417544A1 (en) 2018-12-26
KR20180016417A (ko) 2018-02-14
JP6603414B2 (ja) 2019-11-06
US20200402520A1 (en) 2020-12-24
CN107925388B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
TWI618053B (zh) 用於增強暫態處理之音訊後置處理器、前置處理器、編碼設備、解碼設備及相關方法與電腦程式
JP7135132B2 (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
CA2589623C (en) Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering
AU2014295296B2 (en) Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
TWI695370B (zh) 用以解碼經編碼多聲道信號之裝置、方法及電腦程式
Ghido et al. Coding of fine granular audio signals using High Resolution Envelope Processing (HREP)
KR20100035128A (ko) 오디오 신호 처리 방법 및 장치
AU2012205170B2 (en) Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering