TW202211208A - 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法 - Google Patents

對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法 Download PDF

Info

Publication number
TW202211208A
TW202211208A TW110125042A TW110125042A TW202211208A TW 202211208 A TW202211208 A TW 202211208A TW 110125042 A TW110125042 A TW 110125042A TW 110125042 A TW110125042 A TW 110125042A TW 202211208 A TW202211208 A TW 202211208A
Authority
TW
Taiwan
Prior art keywords
scale
scale parameters
parameters
channel
group
Prior art date
Application number
TW110125042A
Other languages
English (en)
Other versions
TWI793666B (zh
Inventor
艾曼紐 拉斐里
戈蘭 馬爾科維奇
簡 弗雷德里克 基恩
弗朗茲 羅伊特胡伯
史蒂芬 多伊拉
依萊尼 弗托波勞
Original Assignee
弗勞恩霍夫爾協會
愛爾朗根 紐倫堡 弗里德里希 亞歷山大大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 愛爾朗根 紐倫堡 弗里德里希 亞歷山大大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW202211208A publication Critical patent/TW202211208A/zh
Application granted granted Critical
Publication of TWI793666B publication Critical patent/TWI793666B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

一種音頻解碼器,用於對編碼音頻信號進行解碼,該編碼音頻信號包含多頻道音頻數據,該多頻道音頻數據包含用於二個或多個音頻頻道的數據,以及關於多個聯合編碼比例參數的資訊,其包括:一比例參數解碼器(220),用於對多個聯合編碼比例參數的資訊進行解碼,以獲得一解碼音頻信號的一第一頻道的一第一組的多個比例參數,以及該解碼音頻信號的一第二頻道的一第二組的多個比例參數;及一信號處理器(210),用於將該第一組的多個比例參數應用於從該多頻道音頻數據導出的一第一頻道表示,以及將該第二組的多個比例參數應用於從該多頻道音頻數據導出的一第二頻道表示,以獲得該解碼音頻信號的該第一頻道及該第二頻道;其中該等多個聯合編碼比例參數包含關於一第一組的多個聯合編碼比例參數的資訊以及關於一第二組的多個聯合編碼比例參數的資訊;該比例參數解碼器(220)配置為使用一第一組合規則來組合該第一組的一聯合編碼比例參數以及該第二組的一聯合編碼比例參數,以獲得該第一組的多個比例參數的一比例參數,並且使用不同於該第一組合規則的一第二組合規則來獲得該第二組的多個比例參數的一比例參數。

Description

對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法
本發明涉及音頻信號處理(audio signal processing),例如控制器區域網路(controller area network, CAN),應用於修正離散餘弦變換(MDCT)立體聲處理,例如綜合視覺增強系統(integrated visual augmentation system, IVAS)。
此外,本發明可以應用於立體頻譜噪聲整形參數(stereo spectral noise shaping parameters)的聯合編碼。
頻譜噪聲整形在頻域中對量化噪聲進行整形,使得人耳對量化噪聲的感知最小,因此,解碼輸出信號的感知品質可以最大化。
頻譜噪聲整形是大多數最先進的基於變換的音頻編解碼器中使用的技術。
高級音頻編碼 (advanced audio coding, AAC)
在方法 [1] [2] 中,MDCT 頻譜被劃分為多個非均勻比例因子頻帶(scale factor band)。例如,在 48kHz 時,MDCT有1024 個係數,被劃分為49個比例因子頻帶。在每個頻帶中,比例因子(scale factor)用於縮放該頻帶的 MDCT 係數。然後使用具有恆定階段的比例量化器(scalar quantizer)來量化縮放後的 MDCT 係數。在解碼器側,在每個頻帶中執行逆縮放,對比例量化器引入的量化噪聲進行整形。
49 個比例因子作為旁側資訊(side-information)被編碼到位元流(bitstream)中。由於比例因子的數量相對較多且所需的精度較高,因此通常需要大量的多個位元來對比例因子進行編碼。這在低位元率(bitrate)及/或低延遲時會成為問題。
基於MDCT的變換編碼激勵(transform coder excitation, TCX)
在基於MDCT的TCX中,MPEG-D USAC [3] 和 3GPP EVS [4] 標準中使用的基於變換的音頻編解碼器,在基於 LPC 的感知濾波器的幫助下執行頻譜噪聲整形,類似於最近基於ACELP的語音編解碼器(例如 AMR-WB)中使用的感知濾波器。
在這種方法中,首先在預加重輸入信號上估計一組 16 個線性預測係數 (LPC)。然後對 LPC 進行加權和量化。在 64 個均勻間隔的頻帶中計算加權和量化的 LPC 的頻率響應。然後使用計算出的頻率響應在每個頻帶中縮放 MDCT 係數。縮放後的 MDCT 係數然後使用比例量化器進行量化,其階段由全局增益(global gain)控制。在解碼器中,每 64 個頻帶執行一次逆縮放,對比例量化器引入的量化噪聲進行整形。
這種方法比 AAC 方法有明顯的優勢:它只需要編碼 16 個 (LPC) + 1 個(全局增益)參數作為旁側資訊(與 AAC 中的 49 個參數相反)。此外,通過採用 LSF 表示和向量量化器,可以採用少量的多個位元有效地編碼 16 個 LPC。因此,基於 MDCT 的 TCX 方法與 AAC 方法一樣需要更少的旁側資訊位元,這可以在低位元率和/或低延遲下產生顯著差異。
改進的基於 MDCT 的 TCX(心理聲學 LPC)
一個改進的基於 MDCT 的 TCX 系統發表在 [5] 中。在這種新方法中,自我相關性(用於估計 LPC)不再在時域中執行,而是在 MDCT 域中使用 MDCT 係數能量的逆變換來計算。這允許通過簡單地將 MDCT 係數分組到 64 個非均勻頻帶併計算每個頻帶的能量來使用非均勻頻率比例。還降低了計算自我相關性所需的複雜性。
新頻譜噪聲整形(New Spectral Noise Shaping, SNS)
在 [6] 中描述並在低複雜度通信編解碼器 (LC3 / LC3plus) 中實現的改進的頻譜噪聲整形技術中,透過在編碼器側使用更多比例因子進行縮放,並將編碼器側的縮放參數下取樣為第二組 16 個縮放參數(SNS 參數),可以獲得低位元率而不會顯著降低品質。因此,一方面獲得了低位元率旁側資訊,但另一方面由於精細縮放而獲得了音頻信號頻譜的高品質頻譜處理。
立體線性預測 (SLP)
在[7]中描述的論文中,一組線性預測係數的計算不僅考慮了幀間預測(inter-frame prediction),還考慮了從一個頻道到另一個頻道的預測。然後使用與單頻道(single channel, LP) 類似的技術對計算的二維繫數集進行量化和編碼,但沒有考慮論文上下文中殘差的量化。然而,所描述的實現具有高延遲和顯著的複雜性,因此,它相當不適合需要低延遲的實時應用,例如 用於通信系統。
如 [8] 中描述的基於 MDCT 的系統的立體聲系統中,執行離散 L R 頻道信號的預處理,以便使用頻域噪聲整形將頻譜縮放到“刷白域(whitened domain)”。然後,執行聯合立體處理以最佳方式對刷白頻譜進行量化和編碼。
之前描述的頻譜噪聲整形技術的比例參數(scale parameter)針對每個頻道獨立量化編碼。這導致需要通過位元流向解碼器發送雙倍位元率的旁側資訊。
本發明的一個目的是提供一種改進的或更有效的編碼/解碼概念。
該目的通過請求項1的音頻解碼器、請求項17的音頻編碼器、請求項35的解碼方法、請求項36的編碼方法或請求項37的電腦程式來實現。
本發明基於以下內容發現:對於L、R信號或通常多頻道信號的兩個或更多頻道相關的情況可以獲得位元率的節省。在這種情況下,兩個頻道的提取參數相當相似。因此,應用了參數的聯合量化編碼,這導致位元率的顯著節省。這種位元率節省可以用於幾個不同的方向。一個方向可以是將節省的位元率用於核心信號的編碼,從而提高立體聲或多頻道信號的整體感知品質。另一個方向是在核心信號的編碼以及因此整體感知品質沒有提高,而是保持相同品質的情況下達到較低的整體位元率。
在較佳實施例中,根據第一方面,一音頻解碼器包括一比例參數計算器,用於從該多頻道音頻信號的一第一頻道的一第一組的多個比例參數以及從該多頻道音頻信號的一第二頻道的一第二組的多個比例參數來計算一第一組的多個聯合編碼比例參數以及一第二組的多個聯合編碼比例參數,該音頻解碼器另包括一信號處理器,用於將該第一組的多個比例參數應用於該多頻道音頻信號的該第一頻道,以及用於將該第二組的多個比例參數應用於該多頻道音頻信號的該第二頻道,該信號處理器另外從分別通過應用第一組的多個比例參數和第二組的多個比例參數獲得的第一頻道數據和第二頻道數據導出多頻道音頻數據。該音頻解碼器另包括一編碼信號形成器,用於使用該多頻道音頻數據和關於該第一組的多個聯合編碼比例參數的資訊和關於該第二組的多個聯合編碼比例參數的資訊,以獲得一編碼多頻道音頻信號。
較佳地,該比例參數計算器配置為自適應的,因而對於多頻道音頻信號的每一幀或子幀,確定是聯合編碼比例參數還是單獨編碼比例參數。在另一實施例中,確定基於所考慮的多頻道音頻信號的多個頻道之間的相似度分析。具體地,通過計算聯合編碼參數的能量,特別是來自第一組和第二組聯合編碼的比例參數的一組比例參數的能量來進行相似度分析。具體地,該比例參數計算器將第一組計算為對應的第一組和第二組比例參數之間的和,並將第二組計算為第一組和第二組對應的比例參數之間的差。特別地,第二組以及較佳地表示差異的比例參數被用於相似度度量的確定,以便決定是對比例參數進行聯合編碼還是對比例參數進行單獨編碼。這種情況可以通過立體聲或多聲道標誌來表示。
此外,較佳地使用二階段量化過程來具體量化比例參數。以第一階段向量量化器對多個比例參數或通常的音頻資訊項目進行量化,以確定該第一階段向量量化結果,並確定與該第一階段向量量化結果相對應的多個中間量化項目。此外,該量化器包括一剩餘項目(residual item)確定器,用於從多個中間量化項目和多個音頻資訊項目計算多個剩餘項目。此外,提供一第二階段向量量化器,用於對多個剩餘項目進行量化,以獲得一第二階段向量量化結果,其中,改第一階段向量量化結果和該第二階段向量量化結果共同表示多個音頻資訊項目的量化表示,在一個實施例中,這些音頻資訊項目是多個比例參數。特別地,該等多個音頻資訊項目可以是聯合編碼的多個比例參數或單獨編碼的多個比例參數。此外,其他音頻資訊項目可以是對向量量化有用的任何音頻資訊項目。特別地,除了作為特定音頻資訊項目的多個比例參數或多個比例因子之外,對向量量化有用的其他音頻資訊項目為頻譜值,例如MDCT或FFT線。甚至可以向量量化的其他音頻資訊項目是時域音頻值,例如音頻取樣值或時域音頻樣本組或譜域頻率線組或 LPC 數據或其他包絡數據,無論是頻譜還是時間包絡數據表示。
在一個較佳實施方式中,該剩餘項目確定器為每個剩餘項目計算對應的音頻資訊項目之間的差值,例如一比例參數和相應的一中間量化項目,例如量化的一比例參數或比例因子。此外,該剩餘項目確定器配置為針對每個剩餘項目放大或加權對應的音頻資訊項目和對應的中間量化項目之間的差,使得多個剩餘項目大於對應的差值,或者在計算放大項目之間的差值以獲得剩餘項目之前,對多個音頻資訊項目和/或多個中間量化項目進行放大或加權。透過這個過程,可以對量化誤差進行有用的控制。特別地,當第二組的音頻資訊項目例如不同的比例參數非常小時,通常是這種情況,當第一頻道和第二頻道彼此相關從而確定聯合量化時,剩餘項目通常很小。因此,當剩餘項目被放大時,與未執行放大的情況相比,量化的結果將包括更多未被量化為0的值。 因此,編碼器或量化旁側的放大可能是有用的。
當如在另一個較佳實施例中那樣執行聯合編碼的第二組的多個比例參數,例如差異的多個比例參數,的量化時,尤其如此。由於這些旁側多多個比例參數無論如何都很小,因此可能出現這樣的情況,即在沒有放大的情況下,大多數不同的比例參數無論如何都被量化為0。因此,為了避免這種可能導致立體聲印象損失並因此導致心理聲學質量損失的情況,執行放大使得只有少量或幾乎沒有旁側比例參數被量化為0。當然,這會減少位元率的節省。 然而,由於這個事實,量化的剩餘數據項目無論如何都只是很小的,即導致表示小值的量化索引並且位元率增加不會太高,因為小值的量化索引比更高值的量化索引更有效地編碼。這甚至可以通過額外執行熵編碼操作來增強,該熵編碼操作相對於位元率比更高的量化索引更偏向於小量化索引。
在另一個較佳實施例中,該第一階段向量量化器是具有一特定密碼本的向量量化器,該第二階段向量量化器是代數向量量化器,其產生密碼本編號、基礎密碼本中的向量索引和沃羅諾(Voronoi)索引作為量化索引。較佳地,向量量化器和代數向量量化器都配置為執行分層向量量化,其中兩個量化器具有相同的分層過程。此外,第一階段和第二階段向量量化器的配置方式使得第一階段向量量化結果的位元數量和精度大於第二階段向量量化結果的位元數量或精度,因此,第一階段向量量化結果的位元數量或精度不同於第二階段向量量化結果的位元數量或精度。在其他實施例中,第一階段向量量化器具有固定位元率,而且第二階段向量量化器具有可變位元率。 因此,一般而言,第一階段和第二階段向量量化器的特性彼此不同。
在根據第一方面的用於對編碼的音頻信號進行解碼的音頻解碼器的較佳實施例中,該音頻解碼器包括用於解碼關於聯合編碼的多個比例參數的資訊的比例參數解碼器。此外,該音頻解碼器有一信號處理器,其中,該比例參數解碼器配置為使用不同的組合規則組合第一組的聯合編碼的比例參數和第二組的聯合編碼的比例參數,以獲得第一組的比例參數的多個比例參數和第二組的比例參數的多個比例參數,然後由該信號處理器使用。
根據本發明的另一方面,提供一種音頻去量化器,包括一第一階段向量去量化器、一第二階段向量去量化器和一組合器,用於組合由該第一階段向量去量化器獲得的多個中間量化資訊項目和由第二階段向量去量化器獲得的多個剩餘項目,以獲得去量化的多個音頻資訊項目。
聯合比例參數編碼的第一方面可以與二階段向量量化相關的第二方面相結合。另一方面,二階段向量量化的方面可以應用於單獨編碼的比例參數,例如左聲道和右聲道的比例參數,或者可以作為另一種音頻信號項目應用於中間比例參數。因此,可以獨立於第一方面或與第一方面一起應用二階段向量量化的第二方面。
接下來,總結本發明的較佳實施例。
在使用基於變換(MDCT)編碼的立體聲系統中,從介紹部分中描述的用於在編碼器側執行頻域噪聲整形的任何技術中提取的比例參數需要進行量化和編碼,以作為旁側資訊包含在位元流中。然後在解碼器側,比例參數被解碼並用於縮放每個頻道的頻譜,以最小感知的方式對量化噪聲進行整形。
二個頻道的頻譜噪聲整形參數的獨立編碼:可以應用左及右。
取決於兩個頻道之間的相關程度,頻譜噪聲整形比例參數獨立地或聯合地自適應地編碼。總之:
• 計算縮放參數的中間(Mid)/旁側(Side)表示。
• 計算旁側參數的能量。
• 根據指示二個信號之間相關程度的能量,對參數進行編碼:
獨立 :像目前的方法一樣,用於每個頻道,例如二階段向量量化(vector quantization, VQ)。
聯合
。中間向量使用例如編碼。二階段向量量化。旁側向量使用較粗的量化方案進行編碼,例如透過假設第一階段VQ輸出包括零量化值並僅應用第二階段量化,例如代數向量量化器(algebraic vector quantizer, AVQ)。
。額外的一位元用於表示量化的邊向量是否為零。
• 額外的一位元用於表示二頻道是聯合編碼還是獨立編碼而被發送到解碼器。
在圖 24 中,顯示基於 MDCT 立體聲的編碼器實現,如 [8] 中詳細描述的那樣。在[8] 中描述的立體聲系統的一個重要部分是對“刷白(whitened)”頻譜執行立體聲處理。因此,每個頻道都經過預處理,其中對於每一幀,在開窗(windowing)後,時域方塊(time domain block)被轉換為 MDCT 域,然後根據信號特性在頻譜噪聲整形(Spectral Noise Shaping, SNS)之前或之後自適應地應用時間噪聲整形(Temporal Noise Shaping, TNS)。在頻譜噪聲整形之後,執行聯合立體聲處理,即自適應頻帶式M-S、L/R 決策,以有效的方式對刷白的頻譜係數進行量化和編碼。作為下一步,立體聲智能間隙填充 (Intelligent Gap Filling, IGF)分析完成,並將相應的資訊位元寫入位元流。最後,對處理後的係數進行量化和編碼。 添加了與圖1中類似的圖式標記。比例因子的計算和處理發生在圖 24 中的二個 TNS方塊之間的方塊SNS 中。方塊窗口(block window)說明了開窗操作(windowing operation)。方塊MCLT 代表修改後的複重疊變換。方塊 MDCT 代表改進的離散餘弦變換。方塊功率頻譜代表功率頻譜的計算。方塊切換決策代表對輸入信號的分析,以確定用於開窗的方塊長度。方塊TNS代表時間噪聲整形,此功能在方塊SNS中的頻譜縮放之前或之後執行。
在 [7] 中描述的 MDCT 立體聲編解碼器實現中,在編碼器側執行離散 L-R 頻道的預處理,以便使用頻域噪聲整形將頻譜縮放到“刷白域(whitened domain)”。然後,執行聯合立體處理以最佳方式對刷白頻譜進行量化和編碼。
在解碼器側,如圖 25 所示和 [8] 中所述,編碼信號被解碼並執行逆量化(inverse quantization)和逆立體聲(inverse stereo)處理。然後,每個頻道的頻譜通過從位元流中檢索到的頻譜噪聲整形參數“去刷白(de-whitened)”。添加了與圖1中類似的圖式標記。比例因子的解碼和處理發生在圖25中的方塊220中。圖中所示的方塊與圖24中編碼器中的方塊有關,通常執行相應的逆運算(inverse operations)。“窗口及OLA”方塊執行合成開窗操作和隨後的重疊和相加操作,以獲得時域輸出信號L 和 R。
在[8]中的系統中應用的頻域噪聲整形(frequency-domain noise shaping, FDNS) 在這裡被替換為 [6] 中描述的 SNS。SNS的處理路徑方塊圖分別如圖1和圖2的編碼器和解碼器方塊圖所示。
較佳地,可以透過在編碼器旁側以更高數量的比例因子進行縮放,並且透過在編碼器旁側將比例參數下取樣為第二組比例參數或比例因子來獲得低位元率而沒有實質性的品質損失。隨後透過輸出界面編碼和傳輸或儲存的第二組中的比例參數低於比例參數的第一數量。因此,一方面獲得了精細的比例縮放,另一方面在編碼器側獲得了低位元率。
在解碼器側,傳輸的少量比例因子由比例因子解碼器解碼以獲得第一組的比例因子,其中第一組中的比例因子或比例參數的數量大於第二組中的比例因子或比例參數的數量,然後,再次在頻譜處理器內的解碼器側執行使用更多比例參數的精細縮放以獲得精細縮放的頻譜表示。
因此,一方面獲得了低位元率,另一方面獲得了音頻信號頻譜的高品質頻譜處理。
在較佳實施例中完成的頻譜噪聲整形僅使用非常低的位元率來實現。因此,即使在基於低位元率變換的音頻編解碼器中,這種頻譜噪聲整形也可以成為必不可少的工具。頻譜噪聲整形在頻域中對量化噪聲進行整形,使得人耳感知到的量化噪聲最小,因此,解碼輸出信號的感知質量可以最大化。
較佳實施例依賴於從與幅度相關的度量計算的頻譜參數,例如頻譜表示的能量。特別地,計算頻帶能量或通常頻帶幅度相關的度量作為比例參數的基礎,其中用於計算頻帶幅度相關度量的帶寬從較低頻帶增加到較高頻帶,以盡可能接近人類聽力的特徵。較佳地,根據已知的巴氏量尺(Bark scale)將頻譜表示劃分為多個頻帶。
在進一步的實施例中,線性域比例參數被計算並且特別是針對具有大量比例參數的第一組的比例參數計算的,並且該大量的比例參數被轉換為類對數域。類日誌域(log-like domain)通常是一個域,其中小值被擴展,高值被壓縮。然後,比例參數的下取樣或抽取操作在類對數域中完成,該對數域可以是以 10 為底的對數域,或以 2 為底的對數域,出於實現目的,後者是首選。然後在類對數域中計算第二組的比例因子,並且較佳地,執行第二組的比例因子的向量量化,其中比例因子在類對數域中。因此,向量量化的結果表示類對數域比例參數。例如,第二組的比例因子或比例參數的比例因子數量是第一組的比例因子數量的一半,或者甚至三分之一或更佳地,四分之一。然後,將第二組的比例參數中量化的少量的比例參數帶入位元流,接著從編碼器側傳輸到解碼器側或作為編碼音頻信號與也已使用這些參數處理過的量化頻譜一起儲存。其中該處理還涉及使用全局增益進行量化。然而,較佳地,編碼器再次從這些量化的類對數域的第二組的比例因子導出一組線性域比例因子,即第三組的比例因子,而且第三組的比例因子中的比例因子的數量大於第二數量,並且較佳地甚至等於第一組的比例因子中的多個比例因子的第一數量。然後,在編碼器側,這些內插的比例因子用於處理頻譜表示,其中處理過的頻譜表示最終被量化,並以任何方式進行熵編碼,例如通過霍夫曼編碼(Huffman-encoding)、算術編碼(arithmetic encoding)或基於向量量化編碼(vector-quantization-based encoding)等。
在接收具有少量頻譜參數的編碼信號以及頻譜表示的編碼表示的解碼器中,將少量的比例參數內插到大量的比例參數,即獲得第一組的比例參數,其中第二組的比例因子或比例參數的多個比例因子的比例參數的數量小於第一組的比例參數的數量,即比例因子/參數解碼器計算的集合。然後,位於用於對編碼的音頻信號進行解碼的裝置內的頻譜處理器使用該第一組的比例參數來處理經解碼的頻譜表示,以獲得經縮放的頻譜表示。然後用於轉換縮放頻譜表示的轉換器操作以最終獲得較佳地在時域中的解碼音頻信號。
進一步的實施例產生下面說明的附加優點。在較佳實施例中,在類似於[6]或[8]或[1]中使用的比例因子的16個比例參數的幫助下執行頻譜噪聲整形。這些參數是在編碼器中通過首先計算 64 個非均勻頻帶中的 MDCT 頻譜的能量獲得的(類似於現有技術 3 的 64 個非均勻頻帶),然後通過對 64 個能量進行一些處理(平滑、預加重、本底噪聲、對數轉換),將 64 個處理後的能量向下取樣 4 倍,以獲得 16 個參數,這些參數最終被歸一化和縮放。然後使用向量量化(使用與現有技術 2/3 中使用的向量量化類似的向量量化)來量化這 16 個參數。然後內插量化參數以獲得64個內插比例參數。接著使用這 64 個比例參數直接在 64 個非均勻頻帶中對 MDCT 頻譜進行整形。 類似於現有技術2和3,縮放的MDCT係數然後使用具有由全局增益控制的階段的比例量化器進行量化。
在另一個實施例中,兩個組之一的聯合編碼的比例參數的資訊,例如第二組,較佳地與旁側比例參數相關不包括量化索引或其他量化位元,而只有如標誌或單個位元之類的資訊指示對於音頻信號的一部分或幀,第二組的比例參數都為零。該資訊由編碼器透過分析或透過其他方式確定,並被解碼器用於基於該資訊合成第二組的比例參數,例如透過為音頻信號的時間部分或幀產生零比例參數,或者被解碼器用於僅使用第一組的聯合編碼的比例參數來計算第一組和第二組比例參數。
在另一實施例中,僅使用二階段量化器的第二量化階段來量化第二組的聯合編碼的比例參數,該第二量化階段較佳地是可變速率量化階段。在這種情況下,假設第一階段的量化值全部為零,因此只有第二階段有效。在更進一步的實施例中,僅應用二階段量化器的第一量化階段,其較佳地是固定速率量化階段,並且對於音頻信號的時間部分或幀根本不使用第二階段。這種情況對應於一種情況,其中假設所有剩餘項目為零或小於第二量化階段的最小或第一量化階段。
圖8顯示用於解碼包括多頻道音頻數據的編碼音頻信號的音頻解碼器,所述多頻道音頻數據包括用於二個或更多個音頻頻道的數據以及關於聯合編碼的比例參數的資訊。該解碼器包括一比例參數解碼器220和信號處理器210、212、230,在圖8a中作為單一個項目顯示。該比例參數解碼器220接收關於聯合編碼的第一組和第二組的比例參數的資訊,其中較佳地,第一組的比例參數是中間比例參數,而第二組的比例參數是旁側比例參數。較佳地,該信號處理器接收多頻道音頻數據的第一頻道表示和多頻道音頻數據的第二頻道表示,並且將第一組的比例參數應用於從多頻道音頻數據導出的第一頻道表示 並且將第二組的比例參數應用於從多頻道音頻數據導出的第二頻道表示,用以在圖8a的方塊210、212、230的輸出處獲得解碼音頻信號的第一頻道和第二頻道。較佳地,聯合編碼的比例參數包括關於第一組的聯合編碼的比例參數,例如中間比例參數,的資訊以及關於第二組的聯合編碼的比例參數,例如旁側比例參數,的資訊。此外,該比例參數解碼器220配置為使用一第一組合規則將第一組的聯合編碼的比例參數和第二組的聯合編碼的比例參數組合,以獲得第一組的比例參數的多個比例參數,並且使用不同於該第一組合規則的一第二組合規則組合第一組和第二組的相同的二個聯合編碼的比例參數,以獲得第二組的比例參數的多個比例參數。因此,該比例參數解碼器220應用二種不同的組合規則。
在一個較佳實施例中,二個不同組合規則一方面是加法(plus)或增加(addition)組合規則,另一方面是減法(subtraction)或相別(difference)組合規則。然而,在其他實施例中,該第一組合規則可以是乘法組合規則,而該第二組合規則可以是商數或除法組合規則。因此,取決於第一組和第二組的比例參數或第一組和第二組的比例參數的相應比例參數的表示,所有其他組合規則對也是有用的。
圖8b顯示用於對包括二個或更多頻道的多頻道音頻信號進行編碼的對應音頻編碼器。該音頻編碼器包括一比例參數計算器140、一信號處理器120和編碼信號形成器1480、1500。該比例參數計算器140配置為由多頻道音頻信號的第一頻道的第一組的比例參數以及由多頻道音頻信號的第二頻道的第二組的比例參數來計算第一組的聯合編碼比例參數和第二組的聯合編碼比例參數。此外,該信號處理器配置為將第一組的比例參數應用於多頻道音頻信號的第一頻道,並且將第二組的比例參數應用於多頻道音頻信號的第二頻道,用於導出編碼的多頻道音頻數據。多頻道音頻數據是從縮放後的第一頻道和第二頻道導出的,並且多頻道音頻數據與關於第一組和第二組的聯合編碼的比例參數的資訊一起被編碼信號形成器1480、1500使用,用以在圖8b中的方塊1500的輸出處獲得編碼的多頻道音頻信號。
圖1顯示圖8a的解碼器的進一步實現。特別地,位元流(bitstream)被輸入到該信號處理器210中,該信號處理器210通常與智能間隙填充過程(IGF過程)和縮放或刷白頻道的逆立體聲處理一起執行熵解碼和逆量化。方塊210的輸出被左右縮放或刷白解碼,或者通常是多頻道信號的幾個解碼頻道。位元流包括在單獨編碼的情況下用於左及右比例參數的旁側資訊位元以及用於縮放聯合編碼的比例參數的旁側資訊位元,如圖 1 中的 M、S 比例參數所示。該數據被引入比例參數或比例因子解碼器220,其在其輸出處產生解碼的左比例因子和解碼的右比例因子,然後應用於形狀頻譜方塊212、230,最終獲得左和右的較佳的修正離散餘弦變換(MDCT) 頻譜,然後可以使用某個逆 MDCT 操作將其轉換為時域。
相應的編碼器側實現如圖 2 所示。圖2從具有左、右聲道的MDCT頻譜開始,輸入頻譜整形器120a,該頻譜整形器120a的輸出是輸入至一處理器120b,例如進行立體聲處理、智能間隙 編碼器側的填充操作以及相應的量化和(熵)編碼操作。因此,方塊120a、120b一起代表圖8b的信號處理器120。此外,為了計算在方塊計算 SNS(頻譜噪聲整形)比例因子 120b 中執行的比例因子,還提供了 MDST 頻譜,並且將 MDST 頻譜與 MDCT 頻譜一起轉發到一功率頻譜計算器 110a,或者,該功率頻譜計算器110a可以直接對輸入信號進行操作,而無需MDCT或MDST頻譜過程。例如,另一種方法是從 DFT 操作而不是 MDCT 和 MDST 操作計算功率頻譜。此外,比例因子由圖2中顯示為比例因子的方塊量化編碼的比例參數計算器140來計算。特別地,方塊140根據第一和第二頻道之間的相似度輸出用於左和右的單獨編碼比例因子,或用於M和S的聯合編碼比例因子。這在圖 2 中方塊 140 的右側進行了說明。因此,在該實現中,方塊 110b 計算左和右的比例因子,然後方塊 140 確定是否單獨編碼,即,左右的比例因子的編碼比聯合編碼的比例因子的編碼更好或更差, M 和 S 比例因子透過二種不同的組合規則從單獨的比例因子得出,例如一方面是加法,另一方面是減法。
方塊140的結果是L、R或M、S的旁側資訊位元,它們與方塊120b的結果一起被引入到圖2所示的輸出位元流中。
圖3a顯示圖2或圖8b的編碼器的較佳實施方式。第一頻道被輸入到確定第一頻道的單獨比例參數的方塊1100a中,即,頻道 L。此外,第二頻道被輸入到方塊1100b 中,該方塊確定第二頻道,即 R的單獨比例參數。然後,左聲道的比例參數和右聲道的比例參數被第一頻道的一下取樣器130a和第二聲道的一下取樣器130b相應下取樣。結果為左頻道的下取樣參數(downsampled parameter, DL)和右頻道的下取樣參數(downsampled parameter, DR)。
然後,這些數據 DL 和 DR 都被輸入到一聯合比例參數確定器 1200。該聯合比例參數確定器1200產生第一組的聯合編碼比例參數,例如mid或M比例參數,以及第二組的聯合編碼比例參數,例如side或S比例參數。二組都被輸入到相應的向量量化器140a、140b中,以獲得量化值,然後在最終的一熵編碼器140c中進行編碼並獲得關於聯合編碼的比例參數的資訊。
該熵編碼器140c可實現為利用一維或一維或多維的霍夫曼碼表(Huffman code table)來執行算術熵編碼算法或熵編碼算法。
編碼器的另一種實現方式如圖 3b 所示,其中不使用單獨的比例參數執行下取樣,例如使用左和右,如圖 3a 中的 130a、130b 所示。相反地,改變聯合比例參數確定器以及隨後由相應下取樣器130a、130b進行的下取樣的操作順序。使用圖3a或圖3b的實施方式取決於特定的實施方式,其中圖3a的實施方式是較佳的,由於該聯合比例參數確定器1200已經對下取樣比例參數執行,即,與圖3b中的情況相比,該比例參數計算器140執行的二個不同組合規則通常在較少數量的輸入上執行。
圖4a顯示用於解碼具有多頻道音頻數據的編碼音頻信號的解碼器的實現,該多頻道音頻數據包括用於二個或更多個音頻頻道的數據和關於聯合編碼的比例參數的資訊。然而,圖4a中的解碼器僅是圖8a的整個解碼器的一部分,因為圖4a中僅顯示信號處理器的一部分,特別是相應的頻道定標器212a、212b。關於該比例參數解碼器220,該元件包括熵解碼器2200,其反轉由圖3a中的對應方塊140c執行的過程。此外,熵解碼器輸出量化的聯合編碼比例參數,例如量化的 M比例參數和量化的 S比例參數。相應的比例參數的組被輸入至去量化器 2202 和 2204 ,以獲得 M 和 S 的去量化值。這些去量化的值然後被輸入到單獨的比例參數確定器2206中,該比例參數確定器2206輸出左右的比例參數,即,單獨的比例參數。這些對應的比例參數被輸入到內插器222a、222b中以獲得左(IL)的內插比例參數和右(IR)的內插比例參數。這二個數據分別輸入到頻道定標器212a、212b。此外,例如,在由圖1中的方塊210完成的整個過程之後,頻道定標器相應地接收第一頻道表示。相應地,該頻道定標器212b還獲得其對應的第二頻道表示作為圖1中的方塊210的輸出。然後,進行最終的頻道定標或“形狀頻譜(shape spectrum)”,如圖 1 中命名的那樣,以獲得左側和右側的形狀頻譜頻道,如圖 1 中的“MDCT 頻譜”所示。然後,可以執行240a、240b所示的每個頻道的最終頻域到時域轉換,以便最終獲得多頻道音頻信號在時域表示中的解碼的第一頻道和解碼的第二頻道。
特別地,圖4a的左側部分所示的比例參數解碼器220可以被包括在如圖1所示的或如圖4a共同顯示的音頻解碼器中,但是也可以被包括在編碼器內作為本機解碼器,如將關於圖5顯示的,圖5明確地顯示在比例參數編碼器140的輸出處的局部比例參數解碼器220。
圖4b顯示另一種實施方式,其中,關於圖4a,交換用於確定單獨比例參數的內插和比例參數確定的順序。特別地,使用圖4b的內插器222a、222b對聯合編碼的比例參數M和S進行內插,並且內插的聯合編碼的比例參數,例如IM和IS被輸入到單獨的比例參數確定器2206中。然後,方塊2206的輸出是上取樣的比例參數,即,例如圖21中所示的64個頻帶中的每一個的比例參數。
圖5顯示圖8b、圖2或圖3a、圖3b的編碼器的進一步較佳實施方式。第一頻道和第二頻道都被引入到可選的時域到頻域轉換器中,例如圖 5 的 100a、100b。由方塊100a、100b輸出的頻譜表示被輸入到頻道定標器120a中,該頻道定標器單獨縮放左聲道和右聲道的頻譜表示。因此,該頻道定標器120a執行圖2的120a中所示的形狀譜操作。頻道定標器的輸出被輸入到圖5的頻道處理器120b中,而且方塊120b的處理過的頻道輸出被輸入到編碼信號形成器1480、1500中,以獲得編碼音頻信號。
此外,為了確定單獨或聯合編碼的比例參數,提供一相似度計算器1400,其直接在時域中接收該第一頻道和該第二頻道作為輸入。或者,該相似度計算器可以在時域到頻域轉換器100a、100b的輸出端接收第一頻道和第二頻道,即頻譜表示。
儘管將參照圖 6 概述兩個頻道之間的相似度是基於第二組聯合編碼的比例參數,即基於旁側比例參數計算的,需要注意的是,這種相似度也可以直接基於時域或譜域頻道計算,而無需顯式計算聯合編碼的比例參數。或者,也可以基於第一組的聯合編碼的比例參數,即基於中間比例參數來確定相似度。具體地,當旁側比例參數的能量低於閾值時,則確定可以進行聯合編碼。類似地,也可以測量幀中的中間比例參數的能量,例如,當中間比例參數的能量大於另一個閾值時,可以確定聯合編碼。因此,可以實現用於確定第一頻道和第二頻道之間的相似度的許多不同方式,以便決定比例參數的聯合編碼還是比例參數的單獨編碼。然而,要提到的是,對比例參數的聯合或單獨編碼的確定不一定與對頻道的聯合立體聲編碼的確定相同,即,二個頻道是使用中間/旁側表示聯合編碼還是分別在 L、R 表示中編碼。比例參數聯合編碼的確定獨立於實際頻道的立體聲處理的確定,因為在圖2中的方塊120b中執行的任何類型的立體聲處理的確定是在使用中間和旁側的比例因子對頻譜進行縮放或整形之後和後續進行的。特別地,如圖2所示,方塊140可以確定聯合編碼。因此,如圖2中指向方塊140的箭頭所示,M和S的比例因子可以出現在該方塊內。在圖5的編碼器內應用局部比例參數解碼器220的情況下,那麼實際使用的用於塑造頻譜的比例參數,雖然是左側的比例參數和右側的比例參數,但仍然是從中間和旁側的編碼和解碼比例參數中導出的。
關於圖5,提供了一模式決定器1402。該模式決定器1402接收該相似度計算器1400的輸出,並且當頻道不夠相似時決定對比例參數進行單獨編碼。然而,當確定頻道相似時,由方塊1402確定比例參數的聯合編碼,而且該資訊,無論是應用比例參數的單獨編碼還是變化聯合編碼,由圖5中所示的相應旁側資訊或標誌1403用信號發送,其從方塊1402提供給編碼信號形成器1480、1500。此外,該編碼器包括比例參數編碼器140,其接收用於第一頻道的比例參數和用於第二頻道的比例參數,並且在該模式決定器1402的控制下單獨地或聯合地編碼比例參數。在一個實施例中,該比例參數編碼器140可以輸出如虛線所示的第一和第二頻道的比例參數,使得該頻道定標器120a使用對應的第一和第二頻道比例參數執行縮放。然而,較佳地在編碼器內應用局部比例參數解碼器220,使得頻道縮放與局部編碼和解碼的比例參數一起發生,從而將去量化的比例參數應用於編碼器中的頻道縮放。這具有以下優點:至少在用於頻道縮放(channel scaling)或頻譜整形(spectrum shaping)的所用比例參數方面,在編碼器和解碼器中的頻道定標器內發生完全相同的情況。
圖6顯示關於音頻編碼器的本發明的另一個較佳實施例。提供MDCT頻譜計算器100,其例如可以是應用MDCT算法的時域到頻域轉換器。此外,如圖2所示提供了功率頻譜計算器110a。單獨的比例參數由相應的計算器1100計算,並且為了計算聯合編碼的比例參數,加法方塊1200a和減法方塊1200b。然後,為了確定相似度,使用旁側參數,即第二組的聯合編碼的比例參數,對每幀進行能量計算。在方塊1406中,執行與閾值的比較並且該方塊類似於圖5的幀的模式決定器1402輸出對應幀的模式標誌或立體聲標誌。此外,該資訊被提供給在當前幀中執行單獨或聯合編碼的可控編碼器。為此,可控編碼器140接收由方塊1100計算的比例參數,即單獨的比例參數,並且另外接收聯合編碼的比例參數,即由方塊1200a和1200b確定的比例參數。
當方塊140確定幀的所有旁側參數被量化為0時,方塊140較佳地為該幀產生零標誌。當第一和第二頻道彼此非常接近,而且頻道之間的差異以及比例因子之間的差異會出現這種結果,使得這些差異小於由包含在框方塊140 中的量化器應用的最低量化閾值。方塊140輸出關於對應幀的聯合編碼或單獨編碼的比例參數的資訊。
圖9a顯示用於量化多個音頻資訊項目的音頻量化器。該音頻量化器包括第一階段向量量化器141、143,用於量化多個音頻資訊項目,例如比例因子或比例參數或頻譜值等,以確定一第一階段向量量化結果146。另外,方塊141、143產生與該第一階段向量量化結果相對應的多個中間量化項目。該中間量化項目例如是與第一階段結果相關聯的值。當第一階段結果識別具有例如 16 個特定(量化)值的某個密碼本時,則該中間量化項目是與作為該第一階段結果 146 的密碼本向量索引相關聯的 16 個值。輸入到該第一階段向量量化器141、143的中間量化項目和音頻資訊項目被輸入到剩餘項目確定器,用於從多個中間量化項目和多個音頻資訊項目計算多個剩餘項目。這是例如通過計算原始項目和量化項目之間的每個項目的差異來完成。剩餘項目被輸入到一第二階段向量量化器145,用於對多個剩餘項目進行量化,以獲得一第二階段向量量化結果。然後,方塊141、143輸出處的第一階段向量量化結果和方塊145輸出處的第二階段向量量化結果一起表示多個音頻資訊項目的量化表示,其由可選的編碼信號形成器1480、1500編碼,該編碼信號形成器輸出量化的音頻資訊項目,在較佳實施例中,這些資訊項目不僅被量化而且被附加地進行熵編碼。
相應的音頻去量化器如圖 9b 所示。該音頻去量化器包括一第一階段向量去量化器2220,用於對包括在量化的多個音頻資訊項目中的第一階段量化結果進行解量化,以獲得多個中間量化的音頻資訊項目。進一步地,提供一第二階段向量去量化器2260,用於對量化後的多個音頻資訊項目中包含的第二階段向量量化結果進行去量化,以得到多個剩餘項目。來自方塊2220的中間項目和來自方塊2260的剩餘項目由一組合器2240組合,用於組合多個中間量化音頻項目和多個剩餘項目,以獲得去量化的多個音頻資訊項目。
圖7a顯示圖9a的第一階段向量量化器141、143的較佳實施方式。在步驟701中,對比例參數的第一子集進行向量量化,以獲得第一量化索引。在步驟702中,執行比例參數的第二子集的向量量化,以獲得第二量化索引。此外,取決於實施方式,如方塊703中所示,執行比例參數的第三子集的向量量化,以獲得作為可選索引的第三量化索引。當存在分層量化時應用圖 7a 中的過程。 例如,音頻輸入信號被分成 64 個頻帶,如圖 21 所示。這 64 個頻帶被下取樣到 16 個頻帶/比例因子,因此整個頻帶被 16 個比例因子覆蓋。這16個比例因子由第一階段向量量化器141、143以圖7a所示的分層模式量化。通過對原始64個比例因子進行下取樣而獲得的圖21的16個比例因子中的前8個比例因子由步驟701向量量化,因此代表比例參數的第一子集。8個較高頻帶的其餘8個比例參數代表在步驟702中比例量化的比例參數的第二子集。取決於實現,整組比例參數或音頻資訊項目的分離不一定必須在恰好兩個子集中進行,也可以在三個子集中或者甚至更多子集中進行。
獨立於執行多少次分割,每個級別的索引一起代表第一階段的結果。如關於圖14所討論的,這些索引可以通過圖14中的索引組合器組合以具有單個第一階段索引。或者,第一階段結果可以由第一索引、第二索引和潛在的第三索引以及可能更多的未組合但按原樣進行熵編碼的索引組成。
除了形成第一階段結果的相應索引之外,步驟701、702、703還提供在方塊704中使用的中間比例參數,用於計算幀的剩餘比例參數。因此,例如由圖9a的方塊142執行的步驟705產生剩餘比例參數,然後由步驟705執行的(代數)向量量化處理這些剩餘比例參數,以產生第二階段結果。這樣,分別針對單獨的比例參數L、單獨的比例參數R和第一組的聯合比例參數M產生了第一階段結果和第二階段結果。然而,如圖7b所示,第二組的聯合編碼比例參數或旁側比例參數的(代數)向量量化僅由步驟706執行,該步驟在與步驟705相同的較佳實施方式中,並且由方塊142再次執行 圖 9a。
在進一步的實施例中,關於較佳地與旁側比例參數相關的二個組之一(例如第二組)的聯合編碼的比例參數的資訊不包括量化索引或其他量化位元,但是只有諸如標誌或單個位元之類的資訊指示對於音頻信號的一部分或幀,第二組的比例參數都為零或者都處於某個值,例如小值。該資訊由編碼器通過分析或通過其他方式確定,並被解碼器用於基於該資訊合成第二組的比例參數,例如通過為音頻信號的時間部分或幀產生零比例參數,或通過產生某些值比例參數,或通過產生小的隨機比例參數,例如小於最小或第一量化階段,或者被解碼器用於僅使用第一組的聯合編碼的比例參數來計算第一和第二組的比例參數。因此,代替執行圖7a中的階段705,僅將第二組的聯合編碼比例參數的全零標誌寫入作為第二階段結果。在這種情況下,方塊704中的計算也可以省略,並且可以由用於決定是否激活和發送全零標誌的決定器代替。該決定器可以通過用戶輸入來控制,該用戶輸入指示一起跳過S參數的編碼或位元率資訊,或者可以實際執行剩餘項目的分析。因此,對於具有全零位的幀,比例參數解碼器不執行任何組合,但是僅使用第一組的聯合編碼的比例參數例如通過將第一組的編碼比例參數除以二,或通過使用另一個預定值加權來計算第二組的比例參數。
在另一實施例中,僅使用二階段量化器的第二量化階段來量化第二組的聯合編碼的比例參數,該第二量化階段較佳地是可變速率量化器階段。在這種情況下,假設第一階段的量化值全部為零,因此只有第二階段有效。這種情況如圖 7b 所示。
在又一實施例中,僅應用第一量化階段,例如圖7a中的二階段量化器的701、702、703,其較佳地是固定速率量化階段,而第二階段705根本不用於音頻信號的時間部分或幀。這種情況對應於一種情況,其中假設所有剩餘項目為零或小於第二量化階段的最小或第一量化階段。然後,在圖7b中,項目706將對應於圖7a的項目701、702、703,而且項目704也可以被省略並且可以被用於判定僅使用或不使用第一階段量化的決定器代替。該決定器可以由用戶輸入或位元率資訊控制,或者可以實際執行剩餘項目的分析,以確定剩餘項目足夠小,以便由單一階段量化的第二組的聯合編碼比例參數的精度就足夠了。
在圖14中另外顯示的本發明的較佳實施方式中,代數向量量化器145另外執行分層計算,並且較佳地執行與向量量化器執行的相同的分層操作。因此,剩餘值目的子集相對於頻帶數量對應於比例參數的子集。對於具有二個分割級的情況,即對於圖21的前8個下取樣頻帶,代數向量量化器145產生一第一階段結果。此外,代數向量量化器145為上8個下取樣的比例因子或比例參數或通常的音頻資訊項目產生一第二階段結果。
較佳地,代數向量量化器145實現為參考文獻(4)中提到的ETSI TS 126 445 V13.2.0(2016-08)的5.2.3.1.6.9節中定義的代數向量量化器,其中,對應的分割多速率點陣向量量化的結果為每8項的密碼本編號、基礎密碼本中的向量索引和8維的沃羅諾(Voronoi)索引。然而,在只有單一個密碼本的情況下,可以避免密碼本編號,只需要基礎密碼本中的向量索引和對應的n維Voronoi索引就足夠了。因此,對於代數向量量化結果的每個級別的項目a、項目b以及項目c或僅項目b和項目c的這些項目代表第二階段量化結果。
隨後,參考圖10,其顯示根據本發明的第一或第二方面或根據這二個方面的與圖7a、7b的編碼或圖14的編碼匹配的對應解碼操作。
在圖10的步驟2221中,檢索量化的中間比例因子,即第二組聯合編碼的比例因子。這是在圖5的立體聲模式標誌或項目1403指示真值時完成的。然後,執行第一階段解碼2223和第二階段解碼2261,以便重新執行由圖14的編碼器,具體地,通過關於圖14描述的或關於圖7a描述的代數向量量化器145。在步驟2225中,假設旁側比例因子都為0。在步驟2261中,通過0標誌值檢查該幀是否確實出現了非零量化比例因子。如果0標誌值指示幀存在非零旁側比例因子,則使用第二階段解碼2261或僅執行圖7b的方塊706來檢索和解碼量化的旁側比例因子。在方塊2207中,聯合編碼的比例參數被變換回單獨編碼的比例參數,以便然後輸出量化的左和右比例參數,這些參數然後可以用於解碼器中的頻譜的逆縮放。
當立體聲模式標誌值指示值為零或當確定在幀內使用了單獨的編碼時,然後僅對左右比例因子執行第一階段解碼2223和第二階段解碼2261,並且由於左右比例因子已經在單獨編碼的表示中,所以不需要如方塊2207的任何變換。在編碼器端進行立體聲處理之前,對縮放頻譜所需的 SNS 比例因子進行高效編碼和解碼的過程,下面描述解碼器側的逆立體聲處理之後,以帶有註釋的示例性偽代碼顯示本發明的較佳實施方式。
比例因子的聯合量化和編碼Compute side from the Mscale factors of each channel snsland snsrand compute the total energy of side ener_side. ener_side=0; for (i = 0; i < M; i++) { side[i] = snsl[i] - snsr[i]; ener_side = ener_side + side[i]^2; }If ener_sideis lower than a certain threshold, the two signals are highly   correlated and coding should be done jointly else independently. if (ener_side < threshold )code scale factors jointly {Signal MS coding to bitstream Compute mid from the Mscale factors of each channel snsland snsR for (i = 0; i < M; i++) { mid[i] = (snsl[i] + snsr[i]) * 0.5f; }Quantize mid with first stage vector quantization (VQ), function returns the index of the stochastic codebook indexl_1 and the intermediate quantized mid parameters mid_q. indexl_1 = sns_1st_cod( mid, mid_q );Quantize mid with second stage algebraic vector quantization (AVQ), function returns indices of split dimensions and the final quantized mid mid_q. indexl_2 = sns_2st_cod( mid, mid_q );Quantize side – assume coarse quantization and set all “quantized” parameters to zero. for ( i = 0; i < M; i++ ) { side_q[i] = 0.f; }Quantize side with second stage algebraic vector quantization (AVQ),   function returns indices of split dimensions and the final quantized side side_q. indexr_2 = sns_2st_cod( side, side_q);Detect whether quantized scale factors are zero, if so signal it to the    bitstream with a bit if ( flag_zero ) {send signal bit to bitstream }Transform quantized scale factors back to L – R representation for (i = 0; i < M; i++) { snsl_q[i] = mid_q[i] + side_q[i] * 0.5f; snsr_q[i] = mid_q[i] - side_q[i] * 0.5f; } } elsecode scale factors independently {Signal LR coding to bitstream Quantize left channel scale factors with first stage vector quantization (VQ), function returns the index of the  stochastic codebook indexl_1 and the quantized snsl parameters snsl_q indexl_1 = sns_1st_cod( snsl, snsl_q );Quantize left channel scale factors with second stage algebraic vector quantization (AVQ),  function returns indices of split dimensions and the final quantized snsl snsl_q indexl_2 = sns_2st_cod( snsl, snsl_q );Quantize right channel scale factors with firs stage vector quantization (VQ), function returns the index of the  stochastic codebook indexr_1 and the quantized snsr parameters snsr_q indexr_1 = sns_1st_cod( snsr, snsr_q );Quantize right channel scale factors with second stage algebraic vector quantization (AVQ), function returns indices of split dimensions and the final quantized snsr snsr_q indexr_2 = sns_2st_cod( snsr, snsr_q ); }Output quantized SNS scale factors snsl_qand snsr_qto perform the scaling of  the spectrum.
任何類型的量化,例如可以使用均勻或非均勻比例量化和熵或算術編碼來表示參數。在所描述的實現中,從算法描述中可以看出,實現了一個二階段向量量化方案:
• 第一階段:二個分割(每個 8 維),每個 5 位,因此用 10 位編碼。
• 第二階段:代數向量量化(algebraic vector quantization, AVQ),再次通過剩餘的縮放進行二分割,其中密碼本索引是熵編碼的,因此使用可變位元率。
由於高度相關頻道的旁側信號可以被認為很小,因此使用例如縮小規模的第二階段 AVQ 僅足以表示相應的 SNS 參數。透過跳過這些信號的第一階段 VQ,可以實現 SNS 參數編碼的顯著複雜性和位元節省。
下面給出了每個量化階段的偽代碼描述。 第一階段採用二分割向量量化,每個分割使用 5 位: codebook index = sns_1st_cod( input   : sns parameters vector to quantize output  : sns_q quantized sns scale parameter ) {split vector of coefficients to half j0 = 0; j1 = M / 2;initialize minimum distance dist_min = 1.0e30f;pointer to memory location of stored codebooks p = sns_vq_cdbk1; index0 = 0;Split Vector Quantization Use 5-bit representation 32=2^5 to find the optimal index with the minimum   distance for ( i = 0; i < 32; i++ ) { dist = 0.0; for ( j = j0; j < j1; j++ ) {get difference of sns parameters with each one of the 8-dimensional   quantized vectors, that are sequentially stored in memory. temp = sns[j] - *p++;calculate distance dist = dist + temp * temp; }return index of codebook with minimum distance if ( dist < dist_min ) { dist_min = dist; index0 = i; } }Having found the optimal index of the vector get quantized values of the M/2 first SNS scale factors from codebook Point to the address in memory to the selected codebook p = &sns_vq_cdbk1[index0 * ( M / 2 )]; for ( j = j0; j < j1; j++ ) { snsq[j] = *p++;Increment pointer by one }Repeat the procedure for the second split of the vector j0 = M / 2; j1 = M; dist_min = 1.0e30f; p = sns_vq_cdbk2; index1 = 0; for ( i = 0; i < 32; i++ ) { dist = 0.0; for ( j = j0; j < j1; j++ ) { temp = sns[j] - *p_dico++; dist += temp * temp; } if ( dist < dist_min ) { dist_min = dist; index1 = i; } }Get the quantized values for the remaining factors from codebook p = &sns_vq_cdbk2[index1 * ( M / 2 )]; for ( j = j0; j < j1; j++ ) { snsq[j] = *p++; }Final index is the sum of the indices from first split + seconds split multiplied with the factor of 2^5=32. Therefore, only one index needs to be multiplexed in the bitstream index = index0 + ( index1 << 5 ); return index; }
第二階段代數向量量化: sns_2st_cod( input sns,normalized vector to quantize input/output snsq, i:1st stage   o:1st+2nd stage output index[], ) { scale = 1.0 / 2.5;Compute residual from first-stage quantization and scale residual for finer quantization for ( i = 0; i < M; i++ ) { x[i] = ( sns[i] - snsq[i] ) / scale; }Quantize residual using AVQ (Algebraic code vector) used in EVS for the second-stage quantization of the LPC coefficients [4]. Where x is the residual, xq is the quantized residual returned from the function, 2 marks the 2-split process and indx is an array that contains the indices of the codebooks for each split AVQ_cod_lpc( x, xq, indx, 2 );Refine the quantized SNS scale factors by adding the quantized residual   concluding the second stage of quantization for ( i = 0; i < M; i++ ) { snsq[i] = snsq[i] + scale * xq[i]; } }
編碼過程輸出的索引最終打包到位元流中並發送到解碼器。
上面公開的第二階段的 AVQ 程序最好按照 EVS 中概述的方式實施,參考基於MDCT的TCX 章節中的高速 LPC(子條款 5.3.3.2.1.3)。5.3.3.2.1.3.4 代數向量量化器具體說明了使用的第二階段代數向量量化器,用於量化細化的代數 VQ 在 5.2.3.1.6.9 節中描述。在一實施例中,對於每個索引,具有用於基礎密碼本索引的一組密碼字和用於Voronoi索引的一組密碼字,並且所有這些都是熵編碼的並且因此具有可變位元率。因此,每個子帶j中AVQ的參數由密碼本編號、基礎密碼本中的向量索引和n維(如8維)Voronoi索引組成。
解碼比例因子
在解碼器端,從位元流中提取索引並用於解碼和導出比例因子的量化值。下面給出了該過程的偽代碼示例。
二階段解碼的過程在下面的偽代碼中詳細描述。Read bit signaling stereo coding from bitstream if ( stereo_mode is true ) {Read indices to retrieve quantized mid scale factors. First stage decoding, input indexl_1 and return quantized mid, mid_q sns_1st_dec( indexl_1, mid_q );Second stage decoding, input indeces indexl_2 and return final quantized mid _q sns_2st_dec( mid_q, indexl_2 );Assume quantized side scale factors are zero after first stage for (i=0; i<M; i++) { side_q[i] = 0.f; }If it is signaled in bitsream that side scale factors are non-zero do second stage decoding if ( flag_zero is false ) {Input second-stage indices indexr_2 and return quantized side , side_q sns_2st_dec( side_q, indexr_2 ); }Transform mid-side SNS quantized scale factors to L-R for (i = 0; i < M; i++) { SNS_Ql[i] = mid_q[i] + side_q[i] * 0.5f; SNS_Qr[i] = mid_q[i] - side_q[i] * 0.5f; } } else {Two stage decoding to retrieve the L-R SNS quantized scale factors First stage decoding L sns_1st_dec( indexl_1, SNS_Ql );Second stage decoding L sns_2st_dec( SNS_Ql, indexl );First stage decoding R sns_1st_dec( *indexr++, SNS_Qr );Second stage decoding R [1] sns_2st_dec( SNS_Qr, indexr ); }Return quantized scale factors for each channel to scale the decoded spectrum }
二階段解碼的過程在下面的偽代碼中詳細描述。 sns_1st_dec( input: index,codebook index output snsq, quantized sns ) {To retrieve index0 and index1 representing the indices for each split from index the inverse operation need to be done: index0= index%32;where % represents the remainder from dividing with 32 index1=index/32;Pointer to first codebook for the first half of quantized SNS parameteres p = &sns_vq_cdbk1[( index0 ) * ( M / 2 )];Retrieve vector of quantized values sequentially stored in memory for ( i = 0; i < M / 2; i++ ) { snsq[i] = *p++; }Pointer to second codebook to retrieve the second half of SNS parameters p = &sns_vq_cdbk2[( index1 ) * ( M / 2 )];Retrieve vector of quantized values sequentially stored in memory for ( i = M / 2; i < M; i++ ) { snsq[i] = *p++; } }
從第一階段檢索的量化 SNS 比例因子通過在第二階段解碼剩餘值來細化。該過程在下面的偽代碼中給出: sns_2st_dec( input/output snsq,i:1st stage   o:1st+2nd stage input indx,i: index[] (4 bits per words) ) { float scale = 1.0 / 2.5;Derive from indices indxthe quantized M residuals xq, from the 2-split AVQ decoding function. AVQ_dec_lpc( indx, xq, 2 );Reconstruct the final quantized SNS parameters by adding the scaled residuals for ( i = 0; i < M; i++ ) { snsq[i] = snsq[i] + scale * (float) xq[i]; } }
關於編碼器端剩餘值的縮放或放大/加權,以及解碼器端的縮放或衰減/加權,加權因子不是針對每個值或分割單獨計算的,而是使用單個加權或少量不同的加權(作為避免複雜性的近似值)來縮放所有參數。這種縮放是決定權衡的一個因素,例如粗量化(更多量化為零)位元率節省和量化精度(具有相應的頻譜失真),而且可以在編碼器中預先確定,使得該預定值不必傳輸到解碼器而是可以在解碼器中固定設置或初始化以節省傳輸位元。因此,剩餘值的更高縮放將需要更多位元但具有最小的頻譜失真,而減小縮放將節省額外位元,並且如果頻譜失真保持在可接受的範圍內,則這可以作為額外位元率節省的手段。
較佳實施例的優點
• 當二個頻道相關且 SNS 參數聯合編碼時,可節省大量位元。
下面顯示了在上一節中描述的系統中實現的每幀節省位元數量的示例:
。獨立(Independent):平均 88.1 位元。
。新獨立(New-independent):平均 72.0 位元。
。新聯合(New-joint):平均 52.1 位元。
其中
。“獨立”是 [8] 中描述的 MDCT 立體聲實現,使用 SNS [6] 進行 FDNS 編碼,僅使用 2 級 VQ 獨立地對兩個頻道進行編碼。
•第一階段:8 位訓練密碼本(16 維)。
•第二階段:用因子4(可變位元率)縮放的剩餘的 AVQ。
。“新獨立”是指本發明的先前描述的實施例,其中兩個頻道的相關性不夠高並且它們被單獨編碼,使用如上所述的新的 VQ 2階段方法,並且剩餘值以減小的2.5因子縮放。
。“新聯合”指的是聯合編碼的情況(也如上所述),其中在第二階段,剩餘值再次以 2.5 的縮減因子進行縮放。
所提出的方法的另一個優點是計算複雜度的節省。如 [6] 所示,由於估計 LPC 所需的自相關計算,新的 SNS 在計算複雜度方面更加優化 [5] 中描述的基於 LPC 的 FDNS。因此,當將使用改進的基於 LPC 的 FDNS [5] 的 [8] 中基於 MDCT 的立體聲系統的計算複雜性與新的 SNS [6] 取代基於 LPC 的方法的實現進行比較時,可以節省大約 6 WMOPS,32 kHz 取樣率。
此外,第一階段採用 VQ 的新二階段量化和第二階段採用縮小規模的 AVQ 進一步降低了計算複雜度。對於上一節中描述的實施例,計算複雜度進一步降低了大約 1 WMOPS 在 32 kHz 取樣率下,權衡可接受的頻譜失真。
較佳實施例或方面的概述
1.頻譜噪聲整形參數的聯合編碼,其中計算參數的中間(mid)/旁側(side)表示,使用量化和熵編碼對mid進行編碼,使用較粗的量化方案對side進行編碼。
2.根據頻道相關性或相干性自適應地確定噪聲整形參數是應該獨立編碼還是聯合編碼。
3. 發送信令位元(Signaling bit)以確定參數是獨立編碼還是聯合編碼。
4、基於MDCT立體實現的應用:
• 用旁側係數為零的信令位元。
• 使用SNS。
• 功率頻譜用於計算 SNS。
• 在第一階段使用 2 個 5 位元的分割。
• 調整第二階段AVQ 剩餘的縮放比例可以進一步減少第二階段量化的位元數量。
圖 23 說明了與當前現有技術實現(上面描述為“獨立”)一致的兩個頻道的位元數量比較,根據本發明的第二方面的新的獨立實施和根據本發明的第一方面的新的聯合實施。圖 23 說明了一個直方圖,其中縱軸表示出現頻率,而橫軸說明用於對兩個頻道的參數進行編碼的總位元的數量的區間。
接著,說明了進一步的較佳實施例,其中特別強調每個音頻頻道的比例因子的計算,並且另外特別強調比例參數的下取樣和上取樣的特定應用,如圖 3a、圖 3b 所示,在計算聯合編碼的比例參數之前或之後應用。
圖11顯示用於編碼音頻信號160的裝置。音頻信號160較佳地在時域中可用,儘管如預測域或任何其他域之類的音頻信號的其他表示原則上也是有用的。該裝置包括一轉換器100、一比例因子計算器110、一頻譜處理器120、一下取樣器130、一比例因子編碼器140和一輸出界面150。該轉換器100配置為將該音頻信號160轉換成頻譜表示。該比例因子計算器110配置為根據頻譜表示計算第一組的比例參數或比例因子。另一個頻道在方塊120被接收,並且來自其他頻道的比例參數被方塊140接收。
在整個說明書中,使用用語“比例因子(scale factor)”或“比例參數(scale parameter)”是為了指代相同的參數或值,即在一些處理之後用於對某種頻譜值進行加權的值或參數。這種加權,當在線性域中執行時,實際上是一個帶有比例因子的乘法運算。然而,當在對數域中進行加權時,那麼具有比例因子的加權操作是通過實際的加法或減法運算來完成的。因此,在本申請的用語中,比例縮放不僅意味著乘法或除法,而且還意味著取決於特定域的加法或減法,或者通常意味著每個運算,例如,通過該運算對頻譜值進行加權或使用比例因子或比例參數進行修改。
該下取樣器130用於對第一組的比例參數進行下取樣,以獲得第二組的比例參數,其中第二組的比例參數中的多個比例參數的第二數量小於該第一組的比例參數的多個比例參數的第一數量。這也在圖 11 中的方塊中進行概述,指出第二個數量低於第一個數量。如圖11所示,比例因子編碼器配置為產生第二組的比例因子的編碼表示,並且該編碼表示被轉發到該輸出界面150。由於第二組的比例因子具有比第一組的比例因子少的比例因子的事實,與情況相比,用於傳輸或儲存第二組的比例因子的編碼表示的位元率較低,其中將不會執行在該下取樣器 130 中執行的比例因子的下取樣。
此外,該頻譜處理器120配置為使用第三組的比例參數處理由圖11中的轉換器100輸出的頻譜表示,其具有第三數量的比例因子大於第二數量的比例因子的第三組的比例參數或比例因子,其中,該頻譜處理器120配置為為了頻譜處理的目的使用已經通過線171從方塊110獲得的第一組的比例因子。或者,該頻譜處理器120配置為使用第二組的比例因子作為下取樣器130的輸出來計算第三組的比例因子,如線172所示。在進一步的實現中,該頻譜處理器120使用由比例因子/參數編碼器140輸出的編碼表示來計算第三組比例因子,如圖11中的線173所示。較佳地,該頻譜處理器120不使用第一組的比例因子,而是使用由下取樣器計算的第二組的比例因子,或者甚至較佳地使用編碼表示,或者,一般地,量化的第二組的比例因子,然後執行插值(interpolation)操作以對量化的第二組的頻譜參數進行插值,以獲得由於插值操作而具有更多比例參數的第三組的比例參數。
因此,由方塊140輸出的第二組的比例因子的編碼表示或者包括用於較佳地使用的比例參數密碼本的密碼本索引或一組對應的密碼本索引。在其他實施例中,編碼表示包括獲得的量化比例因子的量化比例參數,當密碼本索引或密碼本索引集或通常編碼表示被輸入到解碼器旁側向量解碼器或任何其他解碼器時。
較佳地,該頻譜處理器120使用在解碼器側也可用的同一組的比例因子,即,使用量化的第二組的比例參數以及插值操作來最終獲得第三組的比例因子。
在較佳實施例中,第三組的比例因子中的多個比例因子的第三數量等於多個比例因子的第一數量。然而,較少數量的比例因子也是有用的。示例性地,例如,可以在方塊110中導出64個比例因子,然後可以將64個比例因子下取樣到16個比例因子用於傳輸。然後,可以在頻譜處理器120中不一定對64個比例因子執行插值,而是對32個比例因子執行插值。或者,可以根據情況對更高的數量進行插值,例如超過 64 個比例因子,只要在編碼輸出信號170中傳輸的比例因子的數量小於在方塊110中計算的或在圖11的方塊120中計算和使用的比例因子的數量。
較佳地,比例因子計算器110配置為執行圖12所示的若干操作。這些操作指的是每個頻帶的幅度相關度量的計算 111,其中一個頻道的頻譜表示被輸入到方塊 111。另一個頻道的計算將以類似的方式進行。較佳地,每個頻帶幅度相關度量是每個頻帶能量,但也可以使用其他幅度相關度量,例如,每個頻帶幅度的強度總和或對應於能量的平方幅度的總和。然而,除了用於計算每個頻帶能量的 2 的冪之外,還可以使用其他冪,例如 3 的冪,以反映信號的響度,甚至可以使用不同於整數的冪,例如 1.5 的冪或 2.5 也可用於計算每個頻帶的幅度相關度量。甚至可以使用小於 1.0 的冪,只要確保這些冪處理的值是正值即可。
由比例因子計算器執行的進一步操作可以是帶間平滑 112。這種帶間(inter-band)平滑較佳用於平滑可能出現於由步驟 111 獲得的幅度相關度量向量中的可能不穩定性。如果不進行這種平滑處理,這些不穩定性將在稍後轉換為對數域時被放大,如 115 所示,尤其是在能量接近 0 的頻譜值中。然而,在其他實施例中,不執行帶間平滑。
由該比例因子計算器110執行的進一步較佳操作是預加重操作113。該預加重操作具有與之前關於現有技術討論的基於MDCT的TCX處理的基於LPC的感知濾波器中使用的預加重操作類似的目的。該過程增加了低頻中整形頻譜的幅度,從而導致低頻中的量化噪聲降低。
然而,根據實現,預加重操作-作為其他特定操作-不一定必須執行。
另一個可選的處理操作是本底噪聲添加處理 114。該程序透過限制波谷中成形頻譜的幅度放大,改善了包含非常高頻譜動態的信號(例如鍾琴(Glockenspiel))的品質,這具有減少峰值中的量化噪聲的間接效果,代價是增加了谷值中的量化噪聲,其中由於人耳的掩蔽特性,例如絕對收聽閾值、預掩蔽、後掩蔽或一般掩蔽閾值(表明通常情況下,在頻率上與高音量音調相對接近的相當低的音量音調根本無法察覺,即,被完全屏蔽或僅被人的聽覺機制粗略感知),量化噪聲無論如何是不可察覺的,因此可以相當粗略地量化該頻譜貢獻。
然而,本底噪聲添加操作114不是必須執行的。
此外,方塊115指示類對數域轉換。較佳地,在類對數域中執行圖12中的方塊111、112、113、114之一的輸出的變換。類似日誌的域是這樣一種域,其中擴展接近 0 的值並壓縮高值。較佳地,日誌域(log domain)是以2為基的域,但也可以使用其他日誌域。但是,以 2 為基的對數域更適合在定點信號處理器上實現。
該比例因子計算器110的輸出是第一組的比例因子。
如圖12所示,方塊112到115中的每一個都可以被橋接,即,例如,方塊111的輸出可能已經是第一組的比例因子。 然而,所有的處理操作,尤其是類對數域轉換都是較佳的。因此,例如,甚至可以通過僅執行步驟111和115而無需步驟112至114中的過程來實現比例因子計算器。在方塊115的輸出處,獲得了一個頻道(例如L)的一組比例參數,並且也可以通過類似的計算獲得另一頻道(例如R)的一組比例參數。
因此,比例因子計算器配置為執行圖12中所示的一個或二個或多個過程,如連接幾個方塊的輸入/輸出線所指示的。
圖13再次顯示圖11的下取樣器130對於單個頻道的較佳實施方式。另一個頻道的數據以類似的方式計算。較佳地,在步驟131中進行低通濾波或者一般地具有特定窗口w(k)的濾波,然後對濾波結果進行下取樣/抽取操作。由於低通濾波131和在較佳實施例中的下取樣/抽取操作132都是算術運算,所以濾波131和下取樣132可以在單個操作內執行,如稍後將概述的。較佳地,以執行第一組的比例參數的各個比例參數的組之間的重疊的方式執行下取樣/抽取操作。較佳地,在二個抽取的計算參數之間執行濾波操作中的一個比例因子的重疊。因此,步驟131在抽取之前對比例參數的向量執行低通濾波器。該低通濾波器具有與心理聲學模型中使用的擴展函數類似的效果。它減少了峰值處的量化噪聲,代價是增加了峰值周圍的量化噪聲,在那裡它無論如何相對於峰值處的量化噪聲至少在更高程度上被感知屏蔽。
此外,下取樣器附加地執行平均值去除133和附加的縮放步驟134。然而,低通濾波操作131、平均值去除步驟133和縮放步驟134只是可選步驟。因此,圖13中所示或圖11中所示的下取樣器可被實施為僅執行步驟132或執行圖13中所示的兩個步驟,例如步驟132和步驟131、133和134之一。或者,下取樣器可以執行圖13所示的四個步驟中的所有四個步驟或僅三個步驟,只要執行下取樣/抽取操作132即可。
如圖 13 所示,由下取樣器執行的圖 13 中的音頻操作在類對數域中執行,以獲得更好的結果。
圖15顯示頻譜處理器的較佳實施方式。被包括在圖11的編碼器內的頻譜處理器120包括內插器121,該內插器121接收每個頻道的量化的第二組的比例參數或替代地為一組聯合編碼的比例參數接收量化的第二組的比例參數,並為一組聯合編碼的比例參數輸出一個頻道的第三組比例參數,其中第三數量大於第二數量並且較佳地等於第一數量。此外,該頻譜處理器包括線性域轉換器120。然後,在方塊123中一方面使用線性標度參數並且另一方面使用由轉換器100獲得的頻譜表示來執行頻譜整形。較佳地,執行隨後的時間噪聲整形操作,即對頻率的預測,以便在方塊124的輸出處獲得頻譜殘差值,同時如箭頭129所示將TNS邊資訊轉發到輸出界面。
最後,頻譜處理器125、120b具有配置為接收用於整個頻譜表示即整個幀的單個全局增益的標量量化器/編碼器、以及立體聲處理功能和IGF處理功能中的至少一個等等。較佳地,根據某些位元率考慮來導出全局增益(global gain)。因此,全局增益設置為使得由方塊125、120b生成的頻譜表示的編碼表示滿足某些要求,例如位元率要求、品質要求或兩者。全局增益可以迭代計算,或者可以根據情況在前饋測量中計算。 通常,全局增益與量化器一起使用,高全局增益通常導致較粗的量化,而低全局增益導致較精細的量化。因此,換句話說,當獲得固定量化器時,高全局增益導致更高的量化階段,而低全局增益導致更小的量化階段。然而,其他量化器也可以與全局增益功能一起使用,例如具有針對高值的某種壓縮功能的量化器,即某種非線性壓縮功能,以便例如更高的值是比較低的值更壓縮。當全局增益與對應於對數域中的加法的線性域中的量化之前的值相乘時,全局增益與量化粗糙度之間的上述相關性是有效的。然而,如果通過線性域中的除法或對數域中的減法應用全局增益,則依賴性是相反的。當“全局增益”表示反值時也是如此。
隨後,給出關於圖11至圖15描述的各個過程的較佳實施方式。
較佳實施例的詳細分步說明
編碼器:
• 步驟 1:每個頻帶的能量 (111)
每個頻帶
Figure 02_image001
的能量計算如下:
Figure 02_image003
X(k) 是 MDCT 係數,
Figure 02_image005
=64 是頻帶數,Ind(n) 是頻帶索引。這些頻帶是不均勻的,並遵循感知相關的巴氏量尺(低頻較小,高頻較大)。
• 步驟 2:平滑 (112)
每頻帶的能量
Figure 02_image007
使用
Figure 02_image009
備註:此步驟主要用於平滑向量
Figure 02_image007
中可能出現的不穩定性。如果不平滑,這些不穩定性在轉換為對數域時會被放大(參見步驟 5),尤其是在能量接近 0 的谷中。
• 步驟3:預加重 (113)
每個頻帶的平滑能量
Figure 02_image011
然後使用
Figure 02_image013
使用
Figure 02_image015
控制預加重傾斜並取決於取樣頻率。 例如,在 16kHz 時為 18,在 48kHz 時為 30。本步驟中使用的預加重與現有技術2的基於LPC的感知濾波器中使用的預加重相同,它增加了低頻中整形頻譜的幅度,從而減少了低頻中的量化噪聲。
• 步驟4:本底噪聲 (114)
使用 -40dB 的本底噪聲添加到
Figure 02_image017
Figure 02_image019
底噪由下式計算
Figure 02_image021
該步驟提高了包含非常高的頻譜動態的信號(例如鍾琴)的品質,通過限制谷中成形頻譜的幅度放大,這具有減少峰值中的量化噪聲的間接效果,代價是增加了谷中的量化噪聲,無論如何都無法察覺。
• 步驟 5:對數 (115)
然後使用執行到對數域的轉換
Figure 02_image023
• 步驟 6:下取樣(131、132)
然後使用因子 4 對向量
Figure 02_image025
進行下取樣
Figure 02_image027
Figure 02_image029
此步驟在抽取之前對向量
Figure 02_image025
應用低通濾波器(w(k))。這種低通濾波器與心理聲學模型中使用的擴散函數具有類似的效果:它減少了峰值處的量化噪聲,但代價是增加了峰值周圍的量化噪聲,在那裡它無論如何都被感知屏蔽了。
• 步驟 7:均值去除和縮放 (133, 134)
去除均值並按 0.85 倍縮放比例後得到最終比例因子
Figure 02_image031
由於編解碼器具有額外的全局增益,因此可以在不丟失任何資訊的情況下去除平均值。去除平均值還允許更有效的向量量化。0.85 的縮放比例略微壓縮了噪聲整形曲線的幅度。它具有與步驟 6 中提到的擴展函數類似的感知效果:減少峰值處的量化噪聲並增加谷值處的量化噪聲。
• 步驟 8:量化(141、142)
比例因子使用向量量化進行量化,產生索引,然後將其打包到位元流中並發送到解碼器,以及量化的比例因子
Figure 02_image033
• 步驟 9:插值(121、122)
量化的比例因子
Figure 02_image035
使用內插
Figure 02_image037
並變回使用線性域
Figure 02_image039
插值用於獲得平滑的噪聲整形曲線,從而避免相鄰頻帶之間的任何大幅幅度跳躍。
•步驟 10:頻譜整形(123)
SNS 比例因子
Figure 02_image041
分別應用於每個頻帶的 MDCT 頻率線,以產生整形頻譜
Figure 02_image043
Figure 02_image045
圖18顯示用於解碼編碼音頻信號250(編碼為L、R或M、S的立體聲信號)的裝置的較佳實施方式,所述編碼音頻信號包括關於編碼頻譜表示的資訊和關於第二組的比例參數的編碼表示的資訊(單獨的聯合編碼)。解碼器包括一輸入界面200、一頻譜解碼器210(例如執行IGF處理或逆立體聲處理或去量化處理)、一比例因子/參數解碼器220、一頻譜處理器230(例如用於R、L)和一轉換器240(例如對於 R、L)。該輸入界面200配置為接收編碼音頻信號250,提取被轉發到該頻譜解碼器210的編碼頻譜表示,以及提取被轉發到該比例因子解碼器220的第二組的比例因子的編碼表示。此外,該頻譜解碼器210配置為對編碼的頻譜表示進行解碼,以獲得轉發到該頻譜處理器230的解碼的頻譜表示。該比例因子解碼器220配置為對編碼的第二組的比例參數進行解碼,以獲得轉發到該頻譜處理器230的第一組的比例參數。第一組的比例因子的多個比例因子或比例參數的數量大於第二組的的比例因子或比例參數的數量。該頻譜處理器230配置為使用第一組的比例參數來處理解碼的頻譜表示,以獲得縮放的頻譜表示。縮放後的頻譜表示然後由該轉換器240轉換以最終獲得作為立體聲信號或具有多於二個頻道的多頻道信號的解碼音頻信號260。
較佳地,該比例因子解碼器220配置為以與關於圖11的頻譜處理器120已經討論的關於第三組的比例因子或比例參數的計算基本相同的方式操作,如結合方塊所討論的 141或142,特別是關於圖15的方塊121、122。特別地,比例因子解碼器配置為執行與之前關於步驟9所討論的基本相同的內插和變換迴線性域的過程。因此,如圖19所示,該比例因子解碼器220配置為將解碼器密碼本221應用於表示編碼比例參數表示的每幀一個或多個索引。然後,在方塊 222 中執行內插,該內插與已經針對圖 15 中的方塊 121 討論的內插基本相同。然後,使用線性域轉換器223,其基本上與關於圖15所討論的線性域轉換器122相同。然而,在其他實施方式中,方塊221、222、223可以與關於編碼器側的對應塊所討論的不同的操作。
此外,圖18或19所示的頻譜解碼器210包括去量化器/解碼器塊,其接收編碼頻譜作為輸入並輸出去量化頻譜,這較佳地使用全局增益去量化,全局增益在以編碼形式的編碼音頻信號內另外從編碼器側傳輸到解碼器側。方塊210還可以執行IGF處理或逆立體聲處理,例如MS解碼。例如,去量化器/解碼器210可以包括算術或霍夫曼(Huffman)解碼器功能,其接收某種代碼作為輸入並輸出表示頻譜值的量化索引。然後,這些量化索引與全局增益一起輸入到去量化器中,並且輸出是去量化的頻譜值,然後可以在 TNS 解碼器處理方塊 211 中進行 TNS 處理,例如對頻率的逆預測,然而,是可選的。特別地,TNS解碼器處理方塊另外接收由圖15的方塊124產生的TNS旁側資訊,如線129所示。TNS解碼器處理步驟211的輸出被輸入到一頻譜整形方塊212中,該頻譜整形方塊212使用單獨的比例因子為每個頻道單獨操作,其中由比例因子解碼器計算的第一組的比例因子應用於解碼後的頻譜表示,視情況而定,可以或不能進行 TNS 處理,輸出是每個頻道的縮放後的頻譜表示,然後輸入到圖18的轉換器240。
隨後討論解碼器的優選實施例的進一步過程。
解碼器:
• 步驟1:量化 (221)
從位元流中讀取在編碼器步驟8中產生的向量量化器索引,並且用於解碼量化的比例因子
Figure 02_image035
• 步驟 2:插值 (222, 223)
與編碼器步驟 9 相同。
• 步驟3:頻譜整形 (212)
SNS比例因子
Figure 02_image041
分別應用於每個頻帶的量化 MDCT 頻率線,以生成解碼頻譜
Figure 02_image047
,如下面的代碼所示。
Figure 02_image049
圖 16 和圖 17 說明了一般的編碼器/解碼器設置,其中圖 16 表示沒有 TNS 處理的實現,而圖 17 說明了包括 TNS 處理的實現。當指示相同的圖式標記時,圖16和圖17中所示的類似功能對應於其他圖中的類似功能。特別地,如圖16所示,輸入信號160例如立體聲信號或多頻道信號被輸入到變換級110,隨後進行頻譜處理120。特別地,頻譜處理由由圖式標記123、110、130、140指示的SNS編碼器反映,指示方塊SNS編碼器實現由這些圖式標記指示的功能。在 SNS 編碼器方塊之後,執行量化編碼操作 120b、125,並將編碼信號輸入到位元流中,如圖 16 中的 180 所示。位元流180然後出現在解碼器側並且在由參考數字210說明的逆量化和解碼之後,執行圖18的塊210、220、230所示的SNS解碼器操作,以便最終在逆變換240之後獲得解碼輸出信號260。
圖17顯示與圖16類似的表示,但它表明,較佳地,在編碼器側的SNS處理之後執行TNS處理,並且相應地,對於解碼器側的處理順序,TNS處理211在SNS處理212之前執行。
較佳地,使用頻譜噪聲整形(SNS)和量化/編碼(參見下面的方塊)之間的附加工具TNS。TNS(時間噪聲整形)也對量化噪聲進行整形,但也會進行時域整形(與 SNS 的頻域整形相反)。TNS 對於包含尖銳攻擊的信號和語音信號很有用。
TNS 通常應用在轉換和 SNS 之間(例如在 AAC 中)。然而,較佳地,在成形頻譜上應用TNS。 這避免了在低位元率下操作編解碼器時 TNS 解碼器產生的一些偽影。
圖20顯示在編碼器側由方塊100獲得的頻譜係數或頻譜線的較佳細分為頻帶。特別地,表明較低頻帶比較高頻帶具有更少數量的譜線。
特別地,圖20中的x軸對應於頻帶的索引並圖示了64個頻帶的較佳實施例,而y軸對應於圖示了一幀中的320個譜係數的譜線的索引。特別地,圖20示例性地示出了取樣頻率為32kHz的超寬頻帶(SWB)情況的情況。
對於寬頻帶情況,關於各個頻帶的情況是,一幀產生 160 條譜線,取樣頻率為 16 kHz,因此對於這二種情況,一幀的時間長度為 10 毫秒。
圖21顯示關於在圖11的下取樣器130中執行的較佳下取樣或如圖18的比例因子解碼器220中執行的或如圖19的方塊222中所示的相應上取樣或內插的更多細節。
沿著 x 軸,給出了頻帶 0 到 63 的索引。 特別是,有 64 個頻帶從 0 到 63。
對應於scfQ(i)的 16 個下取樣點1100被示為垂直線。特別地,圖21顯示了如何執行一定的尺度參數分組以最終獲得下取樣點1100。示例性地,四個頻帶的第一個塊由 (0, 1, 2, 3) 組成,並且這個第一方塊的中點位於 1.5 處,由項目 1100 指示,沿 x 軸的索引為 1.5。
相應地,四個頻帶的第二方塊為(4, 5, 6, 7),第二方塊的中點為5.5。
窗口1110對應於關於之前描述的步驟6下取樣討論的窗口w(k)。可以看出,這些窗口以下取樣點為中心,並且如前所述,每一側都有一個方塊的重疊。
圖19的內插步驟222從16個下取樣點恢復64個頻帶。這在圖21中通過計算任何線1120的位置作為在特定線1120周圍的在1100處指示的兩個下取樣點的函數來看到。以下示例舉例說明。
第二頻帶的位置計算為其周圍兩條垂直線(1.5 和 5.5)的函數:2=1.5+1/8x(5.5-1.5)。
相應地,作為圍繞它的二條垂直線1100(1.5和5.5)的函數的第三條帶的位置:3=1.5+3/8x(5.5-1.5)。
對前二個頻帶和後二個頻帶執行特定程序。對於這些頻帶,無法執行插值,因為在 0 到 63 的範圍之外不存在垂直線或對應於垂直線 1100 的值。因此,為了解決這個問題,如關於步驟9所描述的那樣執行外推:如之前針對一方面為二個頻帶0、1以及另一方面為62和63所概述的內插。
接下來,一方面討論圖11的轉換器100和另一方面圖18的轉換器240的較佳實施方式。
特別地,圖22a圖示了用於指示在轉換器100內的編碼器側執行幀的時間表。圖22b顯示圖11的轉換器100在編碼器側的較佳實施方式,並且圖22c圖示了在解碼器側的轉換器240的較佳實施方式。
編碼器側的轉換器100較佳地被實施為執行具有重疊幀的成幀,例如50%重疊,使得幀2與幀1重疊並且幀3與幀2和幀4重疊。然而,也可以執行其他重疊或非重疊處理,但較佳地與MDCT算法一起執行50%重疊。為此,轉換器100包括一分析窗口101和隨後連接的頻譜轉換器102,用於執行FFT處理、MDCT處理或任何其他類型的時間到頻譜轉換處理,以獲得與作為圖11中轉換器100之後的方塊的輸入的一系列頻譜表示相對應的幀序列。
相應地,縮放的頻譜表示被輸入到圖18的轉換器240中。特別地,轉換器包括一時間轉換器241,其實現逆FFT運算、逆MDCT運算或對應的頻譜-時間轉換運算。輸出被插入到一合成窗口242中,並且該合成窗口242的輸出被輸入到一重疊相加處理器243中以執行重疊相加操作以最終獲得解碼音頻信號。具體地,方塊243中的重疊相加處理,例如在幀3的後半部分和幀4的前半部分的對應樣本之間進行逐個樣本的相加。從而獲得如圖22a中的項目1200所示的第3幀和第4幀之間重疊的音頻取樣值。以逐個樣本的方式進行類似的重疊相加操作,以獲得解碼的音頻輸出信號的剩餘音頻取樣值。
這裡要提到的是,之前討論的所有替代方案或方面以及由以下請求項中的獨立請求項定義的所有方面都可以單獨使用,即,除了預期的替代方案、目標或獨立請求項外,沒有任何其他替代方案或目標。然而,在其他實施例中,二個或更多個替代方案或方面或獨立請求項可以彼此組合,並且在其他實施方案中,所有方面或替代方案和所有獨立請求項可以彼此組合。
儘管以上描述了更多方面,但所附請求項指示二個不同方面,即音頻解碼器、音頻編碼器和使用多頻道音頻信號的頻道的比例參數的聯合編碼的相關方法,或音頻量化器、 音頻去量化器或相關方法。視情況而定,這二個方面可以組合或單獨使用,並且根據這些方面的發明可應用於不同於上述特定應用的音頻處理的其他應用。
此外,參考說明第一方面的附加圖式3a、3b、4a、4b、5、6、8a、8b以及說明第二方面的圖式9a、9b。圖7a、7b顯示應用於第一方面的第二方面。
本發明編碼的信號可以儲存在數位儲存介質或非暫時性儲存介質上,或者可以在如無線傳輸介質或諸如網路的有線傳輸介質之類的傳輸介質上傳輸。
儘管已經在設備的上下文中描述了一些方面,但很明顯,這些方面也代表了相應方法的描述,其中方塊或裝置對應於方法步驟或方法步驟的特徵。類似地,在方法步驟的上下文中描述的方面也表示相應裝置的相應方塊或項目或特徵的描述。
根據某些實施要求,本發明的實施例可以以硬體或軟體來實施。該實施可以使用數位儲存媒體來執行,例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,具有儲存在其上的電子可讀控制信號,其與可編程電腦系統協作(或能夠合作)以執行相應的方法。
根據本發明的一些實施例包括具有電子可讀控制信號的數據載體,該控制信號能夠與可編程電腦系統協作,從而執行本文所述的方法之一。
通常,本發明的實施例可以實現為具有程式代碼的電腦程式產品,當電腦程式產品在電腦上運行時,程式代碼可操作用於執行方法之一。 程式代碼可以例如儲存在機器可讀載體上。
其他實施例包括用於執行本文描述的方法之一的電腦程式,其儲存在機器可讀載體或非暫時性存儲介質上。
換句話說,本發明方法的實施例因此是具有程式代碼的電腦程式,當該電腦程式在電腦上運作時,該程式代碼用於執行這裡描述的方法之一。
因此,本發明方法的另一實施例是數據載體(或數位儲存介質,或電腦可讀介質),其上記錄有用於執行本文所述方法之一的電腦程式。
因此,本發明方法的另一實施例是數據流或信號序列,其表示用於執行這裡描述的方法之一的電腦程式。數據流或信號序列可以例如配置為經由數據通信連接、例如經由網路來傳輸。
另一個實施例包括一處理裝置,例如電腦或可編程邏輯設備,其配置為或適合於執行這裡描述的方法之一。
另一實施例包括其上安裝有用於執行本文所述方法之一的電腦程式的電腦。
在一些實施例中,可編程邏輯器件(例如現場可編程閘陣列)可用於執行本文所述方法的一些或全部功能。在一些實施例中,現場可編程閘陣列可與微處理器協作以執行本文所述的方法之一。 通常,這些方法優選地由任何硬體設備執行。
上述實施例僅用於說明本發明的原理。應當理解,對本領域技術人員而言,這裡描述的佈置和細節的修改和變化將是顯而易見的。因此,其意圖是僅受限於即將到來的專利請求項的範圍,而不是受限於通過本文實施例的描述和解釋呈現的具體細節。
隨後,總結了進一步的實施例/示例:
1. 一種音頻量化器,用於量化多個音頻資訊項目,該音頻量化器包括:
一第一階段向量量化器(141, 143),用於量化該等多個音頻資訊項目以確定一第一階段向量量化結果以及與該第一階段向量量化結果對應的多個中間量化項目;
一剩餘項目確定器(142),用於從該等多個中間量化項目和該等多個音頻資訊項目計算多個剩餘項目;以及
一第二階段向量量化器(145),用於量化該等多個剩餘項目以獲得一第二階段向量量化結果,其中該第一階段向量量化結果和該第二階段向量量化結果是該等多個音頻資訊項目的一量化表示。
2. 如示例1所述之音頻量化器,其中該剩餘項目確定器(142)配置為對於每個剩餘項目計算對應的一音頻資訊項目和對應的一中間量化項目之間的差值。
3. 如示例1或2所述之音頻量化器,其中該剩餘項目確定器(142)配置為對於每個剩餘項目放大或加權對應的一音頻資訊項目和對應的一中間量化項目之間的差值,使得該等多個剩餘項目大於對應的差值,或者在計算多個放大項目之間的差值之前,對該等多個音頻資訊項目及/或該等多個中間量化項目進行放大或加權,以獲得該等剩餘項目。
4. 如上述示例任一項所述之音頻量化器,
其中該剩餘項目確定器(142)配置為將該等多個中間量化項目和該等多個音頻資訊項目之間的對應差值除以小於1的一預定因數,或者將該等多個中間量化項目和該等音頻資訊項目的對應差值乘以大於1的一預定因數。
5. 如上述示例任一項所述之音頻量化器,
其中該第一階段向量量化器(141, 143)配置為以一第一量化精度來執行量化,該第二階段向量量化器(145)配置為以一第二量化精度來執行量化,而且該第二量化精度低於或高於該第一量化精度,或者
該第一階段向量量化器(141, 143)配置為執行一固定速率量化,該第二階段向量量化器(145)配置為執行一可變速率量化。
6. 如上述示例任一項所述之音頻量化器,其中該第一階段向量量化器(141, 143)配置為使用一第一階段密碼本,該第一階段密碼本具有一第一數量的多個條目,該第二階段向量量化器(145)配置為使用一第二階段密碼本,該第二階段密碼本具有一第二數量的多個條目,而且該第二數量的多個條目低於或高於該第一數量的多個條目。
7. 如上述示例任一項所述之音頻量化器,
其中該音頻資訊項目是一音頻訊號的一幀的多個尺度參數,可用於在一時域中縮放一音頻訊號的多個時域音頻樣本,或者可用於在一頻域中縮放一音頻訊號的多個頻域音頻樣本,每個尺度參數可用於縮放至少二個時域音頻樣本或頻域音頻樣本,其中該幀包括一第一數量的多個尺度參數;
該第一階段向量量化器(141, 143)配置為將該第一數量的多個尺度參數分割成兩組或更多組尺度參數,而且該第一階段向量量化器(141, 143)配置為對每組尺度參數確定一量化索引,以獲得表示第一量化結果的多個量化索引。
8. 如示例7所述之音頻量化器,其中該第一階段向量量化器(141, 143)配置為將第一組的一第一量化索引和第二組的一第二量化索引組合而得到單一個索引作為該第一量化結果。
9. 如示例8所述之音頻量化器,
其中該第一階段向量量化器(141, 143)配置為將第一索引和第二索引中的一個乘以與第一索引和第二索引的位元對應的數量,而且將相乘索引和非相乘索引相加,以獲得單一個索引。
10. 如上述示例任一項所述之音頻量化器,
其中該第二階段向量量化器(145)是一代數向量量化器,每個索引包括一基本密碼本索引以及一沃羅諾擴展索引。
11. 如上述示例任一項所述之音頻量化器,
其中該第一階段向量量化器(141, 143)配置為執行多個音頻資訊項目的一第一分割;
該第二階段向量量化器(145)配置為執行多個剩餘項目的一第二分割;
該第一分割產生一第一數量的多個音頻資訊項目的子集,該第二分割產生一第二數量的多個剩餘項目的子集,該第一數量的子集等於該第二數量的子集。
12. 如上述示例任一項所述之音頻量化器,
其中該第一階段向量量化器配置為從一第一密碼本搜索而輸出一第一索引,該第一索引具有一第一數量的多個位元;
該第二階段向量量化器配置為對一第二碼本搜索而輸出一第二索引,該第二索引具有一第二數量的多個位元,該第二數量的多個位元低於或高於該第一數量的多個位元。
13. 如示例12所述之音頻量化器,
其中該第一數量的多個位元是4及7之間的一數量的多個位元,而且該第二數量的多個位元是3及6之間的一數量的多個位元。
14. 如上述示例任一項所述之音頻量化器,
其中對於多頻道音頻訊號的一第一幀,該等多個音頻資訊項目包括用於該多頻道音頻訊號的一第一頻道的第一組的多個尺度參數,以及用於該多頻道音頻訊號的一第二頻道的第二組的多個尺度參數;
該音頻量化器配置為將該第一階段向量量化器和該第二階段向量量化器應用於該第一幀的第一組的多個尺度參數和第二組的多個尺度參數;
對於該多頻道音頻訊號的一第二幀,該等音頻資訊項目包括第三組的多個中間尺度參數和第四組的多個旁側尺度參數;及
該音頻量化器配置為將該第一階段向量量化器和該第二階段向量量化器應用於第三組的多個中間尺度參數,以及將該第二階段向量量化器應用於第四組的多個旁側尺度參數,而不將該該第一階段向量量化器(141, 143)應用於第四組的多個旁側尺度參數。
15. 如示例14所述之音頻量化器,
其中該剩餘項目確定器(142)配置為對該第二幀放大或加權該第四組的多個旁側尺度參數,以及該第二階段向量量化器(145)配置為處理該多頻道音頻訊號的第二幀的多個旁側尺度參數的放大或加權。
16. 一種音頻去量化器,用於對量化的多個音頻資訊項目去量化,該音頻去量化器包括:
一第一階段向量去量化器(2220),用於對包含在量化的多個音頻資訊項目中的一第一階段向量量化結果進行去量化,以獲得多個中間量化項目;
一第二階段向量去量化器(2260),用於對包含在量化的多個音頻資訊項目中的一第二階段向量量化結果進行去量化,以獲得多個剩餘項目;以及
一組合器(2240),用於組合該等多個中間量化項目和多個剩餘項目,以獲得去量化的多個音頻資訊項目。
17. 如示例16所述之音頻去量化器,其中該組合器(2240)配置為對每個去量化資訊項目計算對應的一中間量化項目和對應的一剩餘項目之間的總和。
18. 如示例16或17所述之音頻去量化器,
其中該組合器(2240)配置為對多個剩餘項目進行衰減或加權,使得在執行衰減之前衰減的剩餘項目低於相應的剩餘項目;
該組合器(2240)配置為將衰減的剩餘項目添加到相應的中間量化項目;或者
該組合器(2240)配置為在執行組合之前使用低於1的衰減或加權來衰減多個剩餘項目或多個聯合編碼尺度參數,其中組合是使用衰減的剩餘值來進行;及/或
加權或衰減值用於將尺度參數乘以加權或放大值,其中加權值在0.1及0.9之間,或在0.2及0.6之間,或在0.25和0.4之間;及/或
相同的衰減或加權值用於多個剩餘項目的所有尺度參數或任何聯合編碼尺度參數。
19. 如示例18所述之音頻去量化器,其中該組合器(2240)配置為將對應的剩餘項目乘以小於1的一加權因數,或將對應的剩餘項目除以大於1的一加權因數。
20. 如上述示例16-19任一項所述之音頻去量化器,
其中該第一階段向量去量化器配置為以一第一精度來執行去量化;
該第二階段向量去量化器配置為以一第二精度來執行去量化,該第二精度低於或高於該第一精度。
21. 如上述示例16-20任一項所述之音頻去量化器,
其中該第一階段向量去量化器配置為使用一第一階段密碼本,該第一階段密碼本具有一第一數量的多個條目,該第二階段向量去量化器配置為使用一第二階段密碼本,該第二階段密碼本具有一第二數量的多個條目,而且該第二數量的多個條目低於或高於該第一數量的多個條目;或
該第一階段向量去量化器配置為對一第一密碼本搜索而接收一第一索引,該第一索引具有一第一數量的多個位元;
該第二階段向量去量化器(2260)配置為對一第二密碼本搜索而接收一第二索引,該第二索引具有一第二數量的多個位元,該第二數量的多個位元低於或高於該第一數量的多個位元,或者該第一數量的多個位元是4及7之間的一數量的多個位元,而且該第二數量的多個位元是3及6之間的一數量的多個位元。
22. 如上述示例16-21任一項所述之音頻去量化器,
其中去量化的多個音頻資訊項目是一音頻訊號的一幀的多個尺度參數,可用於在一時域中縮放一音頻訊號的多個時域音頻樣本,或者可用於在一頻域中縮放一音頻訊號的多個頻域音頻樣本,其中每個尺度參數可用於縮放至少二個時域音頻樣本或頻域音頻樣本,該幀包括一第一數量的多個尺度參數;
該第一階段向量去量化器配置為根據該第一階段向量量化結果的二個或多個結果索引來確定一第一組的多個尺度參數和一第二組的多個尺度參數,以及
該第一階段向量去量化器(2220)或該組合器(2240)用於將該第一組的多個尺度參數以及該第二組的多個尺度參數組合成一個向量,以得到第一數量的多個中間量化尺度參數。
23. 如示例22所述之音頻去量化器,
其中該第一階段向量去量化器(2220)配置為檢索單一個組合索引作為第一階段去量化結果,並處理單一個組合索引以獲得二個或多個結果索引。
24. 如示例23所述之音頻去量化器,
其中該第一階段向量去量化器配置為通過確定除法的餘數來檢索第一結果索引,並且通過確定除法的整數結果來檢索第二結果索引。
25. 如上述示例16-24任一項所述之音頻去量化器,其中該第二階段向量去量化器(2260)是代數向量去量化器,每個索引包括一基本密碼本索引以及一沃羅諾擴展索引。
26. 如上述示例16-25任一項所述之音頻去量化器,
其中該第一階段向量去量化器(2220)或該組合器(2240)配置為將來自一音頻訊號的一幀中的一量化分割的一第一組尺度參數和一第二組尺度參數放在一起;
該第二階段向量去量化器(2260)配置為將來自多個剩餘參數的分裂的一第一組剩餘參數和一第二組剩餘參數放在一起;以及
由該第一階段向量去量化器所尋址的一數量的多個分裂以及由該第二階段向量去量化器(2260)尋址的另一數量的多個分裂是相同的。
27. 如上述示例16-26任一項所述之音頻去量化器,
其中該第一階段向量去量化器(2220)配置為使用一第一索引,該第一索引具有一第一數量的多個位元,以產生該等多個中間量化項目,以及
該第二階段向量去量化器(2260)配置為使用一第二索引,該第二索引具有一第二數量的多個位元,以獲得該等多個剩餘項目,其中該第二數量的多個位元低於或高於該第一數量的多個位元。
28. 如示例27所述之音頻去量化器,其中該第一數量的多個位元在4至7之間,該第二數量的多個位元在3至6之間。
29. 如上述示例16-28任一項所述之音頻去量化器,
其中對於多頻道音頻訊號的一第一幀,量化的多個音頻資訊項目包括用於多頻道音頻訊號的一第一頻道的第一組的多個尺度參數以及用於多頻道音頻訊號的一第二頻道的第二組的多個尺度參數;
該音頻去量化器配置為將該第一階段向量去量化器(2220)和該第二階段向量去量化器(2260)應用於該第一幀的第一組的多個尺度參數和第二的多個尺度參數;
對於該多頻道音頻訊號的一第二幀,量化的多個音頻資訊項目包括的第三組的多個中間尺度參數以及第四組的多個旁側尺度參數;以及
該音頻去量化器配置為將該第一階段向量去量化器(2220)和該第二階段向量去量化器(2260)應用於該第三組的多個中間尺度參數,以及將該第二階段向量去量化器(2260)應用於該第四組多個旁側尺度參數,並且不將該第一階段向量去量化器(2220)應用在該第四組的多個旁側尺度參數。
30. 如示例29所述之音頻去量化器,
其中該組合器(2240)配置為在進一步使用或進一步處理該第四組的多個旁側參數之前,對該第二幀衰減該第四組的多個旁側尺度參數。
31. 一種量化多個音頻資訊項目的方法,該方法包括:
將第一階段向量量化多個音頻資訊項目,以確定一第一階段向量量化結果以及與該第一階段向量量化結果對應的多個中間量化項目;
從該等多個中間量化項目以及該等多個音頻資訊項目計算多個剩餘項目;以及
將第二階段向量量化該等多個剩餘項目,以獲得一第二階段向量量化結果,其中該第一階段向量量化結果以及該第二階段向量量化結果是多個音頻資訊項目的一量化表示。
32. 一種對量化的多個音頻資訊項目去量化的方法,該方法包括:
將第一階段向量對量化後的多個音頻資訊項目中包含的一第一階段向量量化結果進行去量化,以得到多個中間量化項目;
將第二階段向量對量化後的多個音頻資訊項目中包含的一第二階段向量量化結果進行去量化,以得到多個剩餘項目;以及
組合該等多個中間量化項目以及多個剩餘項目,以獲得去量化的多個音頻資訊項目。
33. 一種電腦程式,當在一電腦或一處理器上運行時,用於執行如示例31或示例32所述的方法。
參考文献
[1] ISO/IEC 11172-3,資訊技術(Information technology) - 以高達約 1.5 Mbit/s 的速度為數位儲存媒體編碼運動圖像和相關音頻(Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s) - 第 3 部分:音頻,1993。
[2] ISO/IEC 13818-7,資訊技術 - 運動圖像和相關音頻信息的通用編碼(Generic coding of moving pictures and associated audio information) - 第 7 部分:高級音頻編碼 (AAC),2003。
[3] ISO/IEC 23003-3; 資訊技術 - MPEG 音頻技術(MPEG audio technologies) - 第 3 部分:統一語音和音頻編碼(Unified speech and audio coding)。
[4] 3GPP TS 26.445,增強型語音服務 (EVS) 編解碼器; 詳細算法描述(Detailed algorithmic description)。
[5] G. Markovic、G. Fuchs、N. Rettelbach、C. Helmrich 和 B. Schubert,“使用頻譜域噪聲SHAPNG 的基於線性預測的編碼方案”。 專利 US 9,595,262 B2,2017 年 3 月 14 日。
[6] E. Ravelli、M. Schnell、C. Benndorf、M. Lutzky 和 M. Dietz,“使用比例參數的下取樣或插值對音頻信號進行編碼和解碼的裝置和方法”。WO 公開 WO 2019091904 A1,2018 年 5 月 11 日。
[7] A. Biswas,使用線性預測技術在感知立體聲音頻編碼方面取得進展,埃因霍溫:埃因霍溫技術大學,2017 年。
[8] G. Markovic、E. Ravelli、M. Schnell、S. Döhla、W. Jaegars、M. Dietz、C. Heimrich、E. Fotopoulou、M. Multrus、S. Bayer、G. Fuchs 和 J. Herre,“設備具有改進的中/側決策的全局 ILD 的 MDCT M/S 立體聲和方法“.WO專利 WO2017EP5117。
220:比例參數解碼器 210、212、230:信號處理器 140:比例參數計算器 120:信號處理器 1480、1500:編碼信號形成器 120a:頻譜整形器 120b:處理器 110a:功率頻譜計算器 130a、130b:下取樣器 1200:聯合比例參數確定器 140a、140b:向量量化器 140c:熵編碼器 212a、212b:頻道定標器 2200:熵解碼器 2202、2204:去量化器 2206:比例參數確定器 222a、222b:內插器 1400:相似度計算器 100a、100b:頻域轉換器 1402:模式決定器 100:MDCT頻譜計算器 1100:計算器 1200a:加法方塊 1200b:減法方塊 141、143:第一階段向量量化器 146:第一階段向量量化結果 145:第二階段向量量化器 2220:第一階段向量去量化器 2260:第二階段向量去量化器 2240:組合器 100:轉換器 110:比例因子計算器 120:頻譜處理器 130:下取樣器 140:比例因子/參數編碼器 150:輸出界面 160:音頻信號 171、172:線 121:內插器 200:輸入界面 210:頻譜解碼器 220:比例因子/參數解碼器 230:頻譜處理器 240:轉換器 250:編碼音頻信號 260:解碼音頻信號 221:解碼器密碼本 122、223:線性域轉換器 129:線 212:頻譜整形方塊 1110:窗口 101:分析窗口 102:頻譜轉換器 241:時間轉換器 242:合成窗口 243:重疊相加處理器
本發明的較佳實施例隨後參照圖式進行討論,其中: 圖1是說明根據第一方面的解碼器。 圖2顯示根據第一方面的編碼器。 圖3a顯示根據第一方面的另一個編碼器。 圖3b顯示根據第一方面的編碼器的另一實施方式。 圖4a顯示根據第一方面的解碼器的另一實施例。 圖4b顯示解碼器的另一實施例。 圖5顯示編碼器的另一實施例。 圖6顯示編碼器的另一實施例。 圖7a顯示根據第一或第二方面的向量量化器的較佳實施方式。 圖7b顯示根據第一或第二方面的另一量化器。 圖8a顯示根據本發明第一方面的解碼器。 圖8b顯示根據本發明第一方面的編碼器。 圖9a顯示根據本發明第二方面的編碼器。 圖9b顯示根據本發明第二方面的解碼器。 圖10顯示根據第一或第二方面的解碼器的較佳實施方式。 圖11是音頻信號編碼裝置的方塊圖。 圖12是圖1的比例因子計算器的較佳實施方式的示意圖。 圖13是圖1的下取樣器的較佳實施方式的示意圖。 圖14是圖4的比例因子編碼器的示意圖。 圖15是圖1的頻譜處理器的示意圖。 圖16顯示一方面是編碼器而另一方面是實現頻譜噪聲整形(spectral noise shaping, SNS)的解碼器的一般表示。 圖17顯示一方面編碼器側和另一方面解碼器側的更詳細表示,其中時間噪聲整形(temporal noise shaping, TNS)與頻譜噪聲整形(SNS)一起實施。 圖18顯示對編碼後的音頻信號進行解碼的裝置的方塊圖。 圖19顯示圖8的比例因子解碼器、頻譜處理器和頻譜解碼器的細節的示意圖。 圖20顯示將頻譜細分為64個頻帶。 圖21顯示一方面是下取樣操作,另一方面是插值操作的示意圖。 圖22a顯示具有重疊幀的時域音頻信號。 圖22b顯示圖1的轉換器的實施方式。 圖22c顯示圖8的轉換器的示意圖。 圖23顯示比較不同發明過程的直方圖。 圖24顯示編碼器的實施例。 圖25顯示解碼器的實施例。
220:比例參數解碼器
210、212、230:信號處理器

Claims (37)

  1. 一種音頻解碼器,用於對編碼音頻信號進行解碼,該編碼音頻信號包含多頻道音頻數據,該多頻道音頻數據包含用於二個或多個音頻頻道的數據,以及關於多個聯合編碼比例參數的資訊,該音頻解碼器包括: 一比例參數解碼器(220),用於對多個聯合編碼比例參數的資訊進行解碼,以獲得一解碼音頻信號的一第一頻道的一第一組的多個比例參數,以及該解碼音頻信號的一第二頻道的一第二組的多個比例參數;以及 一信號處理器(210、212、230),用於將該第一組的多個比例參數應用於從該多頻道音頻數據導出的一第一頻道表示,以及將該第二組的多個比例參數應用於從該多頻道音頻數據導出的一第二頻道表示,以獲得該解碼音頻信號的該第一頻道及該第二頻道; 其中該等多個聯合編碼比例參數包含關於一第一組的多個聯合編碼比例參數的資訊以及關於一第二組的多個聯合編碼比例參數的資訊; 該比例參數解碼器(220)配置為使用一第一組合規則來組合該第一組的一聯合編碼比例參數以及該第二組的一聯合編碼比例參數,以獲得該第一組的多個比例參數的一比例參數,並且使用不同於該第一組合規則的一第二組合規則來獲得該第二組的多個比例參數的一比例參數。
  2. 如請求項1所述之音頻解碼器,其中該第一組的多個聯合編碼比例參數包含多個中間比例參數,該第二組的多個聯合編碼比例參數包含多個旁側比例參數,而且該比例參數解碼器(220)配置為在該第一組合規則中使用加法,以及在該第二組合規則中使用減法。
  3. 如請求項1或2所述之音頻解碼器,其中該編碼音頻信號依照一幀序列來組織,一第一幀包含該多頻道音頻數據以及關於多個聯合編碼比例參數的資訊,而且一第二幀包含單獨編碼比例參數的資訊;以及 該比例參數解碼器(220)配置為檢測該第二幀包含單獨編碼比例參數的資訊,以及計算該第一組的多個比例參數和該第二組的多個比例參數。
  4. 如請求項3所述之音頻解碼器,其中該第一幀和第二幀均包含一狀態旁側資訊,該狀態旁側資訊在一第一狀態指示該第一幀包含關於該多個聯合編碼比例參數的資訊以及在一第二狀態指示該第二幀包含單獨編碼比例參數的資訊;以及 該比例參數解碼器(220)配置為讀取該取第二幀的狀態旁側資訊,根據讀取的狀態旁側資訊檢測該第二幀包含單獨編碼比例參數的資訊,或讀取該第一幀的狀態邊資訊,並且使用讀取的狀態旁側資訊檢測該第一幀包含關於該等多個聯合編碼比例參數的資訊。
  5. 如上述請求項任一項所述之音頻解碼器,其中該信號處理器(210、212、230)配置為解碼該多頻道音頻數據以導出該第一頻道表示和該第二頻道表示,該第一頻道表示和該第二頻道表示是具有頻譜取樣值的頻譜域表示;以及 該信號處理器(210、212、230)配置為將該第一組及該第二組的每個比例參數應用到對應的多個頻譜取樣值,以獲得該第一頻道的一整形頻譜表示和該第二頻道的一整形頻譜表示。
  6. 如請求項5所述之音頻解碼器,其中該信號處理器(210、212、230)配置為將該第一頻道的整形頻譜表示和該第二頻道的整形頻譜表示轉換為時域,以獲得該解碼音頻信號的該第一頻道的一時域表示以及該第二頻道的一時域表示。
  7. 如上述請求項任一項所述之音頻解碼器,其中該第一頻道表示包含一第一數量的多個頻帶,其中該第一組的多個比例參數包含一第二數量的多個比例參數,該第二數量低於第一數量;以及 該信號處理器(210、212、230)配置為內插該第二數量的多個比例參數,以獲得大於或等於該第一數量的多個頻帶的一數量的多個內插比例參數,而且該信號處理器(210、212、230)配置為使用該等多個內插比例參數來縮放比例該第一頻道表示;或者 該第一頻道表示包含該第一數量的多個頻帶,其中關於該第一組的多個聯合編碼比例參數的資訊包括一第二數量的多個聯合編碼比例參數,該第二數量低於該第一數量; 該比例參數解碼器(220)配置為內插該第二數量的多個聯合編碼比例參數,以獲得大於或等於該第一數量的多個頻帶的一數量的多個內插聯合編碼比例參數;以及 該比例參數解碼器(220)配置為處理該等多個內插聯合編碼比例參數,以確定該第一組的多個比例參數以及該第二組的多個比例參數。
  8. 如上述請求項任一項所述之音頻解碼器,其中該編碼音頻信號依照一幀序列來組織,其中關於該第二組的多個聯合編碼比例參數的資訊包括在一特定幀中的一零旁側資訊,其中該比例參數解碼器(220)配置為檢測該零旁側資訊,以確定該特定幀的第二組的多個聯合編碼比例參數都為零;以及 該比例參數解碼器(220)配置為僅從該第一組的多個聯合編碼比例參數中導出該第一組的多個比例參數以及該第二組的多個比例參數的多個比例參數,或者在組合該第一組的聯合編碼比例參數和該第二組的聯合編碼比例參數時,設置為零值或小於一噪聲閾值的值。
  9. 如上述請求項任一項所述之音頻解碼器,其中該比例參數解碼器(220)配置為: 使用一第一去量化模式對關於該第一組的多個聯合編碼比例參數的資訊進行去量化;以及 使用一第二去量化模式對關於該第二組的多個聯合編碼比例參數的資訊進行去量化,該第二去量化模式不同於該第一去量化模式。
  10. 如請求項9所述之音頻解碼器,其中該比例參數解碼器(220)配置為使用該第二去量化模式,該第二去量化模式與該第一去量化模式相比具有更低或更高量化精度。
  11. 如請求項9或10所述之音頻解碼器,其中該比例參數解碼器(220)配置為使用一第一去量化階段(2220)和一第二去量化階段(2260)以及一組合器(2240)作為該第一去量化模式,該組合器(2240)接收該第一去量化階段(2220)的結果和第二去量化階段(2260)的結果作為輸入;以及 使用該第一去量化模式的第二去量化階段(2220)作為該第二去量化模式接收關於該第二組的多個聯合編碼比例參數的資訊作為一輸入。
  12. 如請求項11所述之音頻解碼器,其中該第一去量化階段(2220)是向量去量化階段,而且該第二去量化階段(2260)是代數向量去量化階段,或者該第一去量化階段(2220)是固定速率去量化階段,而且該第二去量化階段(2260)是可變速率去量化階段。
  13. 如請求項11或12所述之音頻解碼器,其中該第一組的多個聯合編碼比例參數的資訊包括對於該編碼音頻信號的一幀的二個或多個索引,關於該第二組的多個聯合編碼比例參數的資訊包括單個索引或更少數量的索引或與該第一組中相同數量的索引;以及 該比例參數解碼器(220)配置為在該第一去量化階段(2220)中,例如,對於二個或更多索引中的每個索引,確定該第一組的多個中間聯合編碼比例參數,該比例參數解碼器(220)配置為在該第二去量化階段(2260)計算該第一組的剩餘的多個聯合編碼比例參數,例如,來自該第一組的多個聯合編碼比例參數的資訊的單個或更低或相同數量的索引,並且由該組合器(2240)從該第一組的多個中間聯合編碼比例參數以及該第一組的剩餘的多個聯合編碼比例參數中計算出該第一組的多個聯合編碼比例參數。
  14. 如請求項11-13任一項所述之音頻解碼器,其中該第一去量化階段(2220)包括使用具有一第一數量的多個條目的一第一密碼本的索引或使用表示一第一精度的索引,該第二去量化階段(2260)包括使用具有一第二數量的多個條目的一第二密碼本的索引或使用表示一第二精度的索引,而且該第二數量低於或高於該第一數量,或該第二精度低於或高於該第一精度。
  15. 如上述請求項任一項所述之音頻解碼器,其中該第二組的多個聯合編碼比例參數的資訊指示該第二組的多個聯合編碼比例參數對於該編碼音頻信號的一幀都為零或處於一特定值,而且該比例參數解碼器(220)配置為在使用該第一規則或該第二規則的組合中,使用一聯合編碼比例參數為零或處於該特定值或合成的一聯合編碼比例參數;或者 對於包括全零或特定值的資訊的幀,該比例參數解碼器(220)配置為僅使用該第一組的多個聯合編碼比例參數而不進行一組合操作來確定該第二組的多個比例參數。
  16. 如請求項9或10所述之音頻解碼器,其中該比例參數解碼器(220)配置為使用該第一去量化階段(2220)和該第二去量化階段(2260)以及該組合器(2240)作為該第一去量化模式,該組合器(2240)接收該第一去量化階段(2220)的結果和該第二去量化階段(2260)的結果作為一輸入,並且使用該第一去量化模式的第一去量化階段(2220)作為該第二去量化模式。
  17. 一種音頻編碼器,用於對多頻道音頻信號進行編碼,該多頻道音頻信號包含二個或多個頻道,該音頻編碼器包括: 一比例參數計算器(140),用於從該多頻道音頻信號的一第一頻道的一第一組的多個比例參數以及從該多頻道音頻信號的一第二頻道的一第二組的多個比例參數來計算一第一組的多個聯合編碼比例參數以及一第二組的多個聯合編碼比例參數; 一信號處理器(120),用於將該第一組的多個比例參數應用於該多頻道音頻信號的該第一頻道,以及用於將該第二組的多個比例參數應用於該多頻道音頻信號的該第二頻道,並且用於導出多頻道音頻數據;以及 一編碼信號形成器(1480、1500),用於使用該多頻道音頻數據和關於該第一組的多個聯合編碼比例參數的資訊和關於該第二組的多個聯合編碼比例參數的資訊,以獲得一編碼多頻道音頻信號。
  18. 如請求項17所述之音頻編碼器,其中該信號處理器(120)在應用中配置為: 對該第一組的多個聯合編碼比例參數和該第二組的多個聯合編碼比例參數進行編碼,以獲得該第一組的多個聯合編碼比例參數的資訊和該第二組的多個聯合編碼比例參數的資訊; 對該第一組的多個聯合編碼比例參數的資訊及該第二組的多個聯合編碼比例參數的資訊進行本機解碼;及 使用本機解碼的該第一組的多個比例參數對該第一頻道縮放比例,並且使用本地解碼的該第二組的多個比例參數對該第二頻道縮放比例;或者 該信號處理器(120)在應用中配置為: 量化該第一組的多個聯合編碼比例參數和該第二組的多個聯合編碼比例參數,以獲得量化的第一組的多個聯合編碼比例參數和量化的第二組的多個聯合編碼比例參數; 對量化的第一組的多個聯合編碼比例參數和量化的第二組的多個聯合編碼比例參數進行本地解碼,以獲得本地解碼的第一組比例參數和本地解碼的第二組比例參數;以及 使用本地解碼的第一組比例參數對該第一頻道縮放比例,並且使用本地解碼的第二組比例參數對該第二頻道縮放比例。
  19. 如請求項17或18所述之音頻編碼器,其中該比例參數計算器(140)配置為使用一第一組合規則來組合該第一組的多個比例參數的一比例參數和該第二組的多個比例參數的一比例參數,以獲得該第一組的多個聯合編碼比例參數的一聯合編碼比例參數,以及使用不同於該第一組合規則的一第二組合規則來獲得該第二組的多個聯合編碼比例參數的一聯合編碼比例參數。
  20. 如請求項19所述之音頻編碼器,其中該第一組的多個聯合編碼比例參數包含多個中間比例參數,而且該第二組的多個聯合編碼比例參數包含多個旁側比例參數,該比例參數計算器(140)配置為在該第一組合規則中使用加法,以及在該第二組合規則中使用減法。
  21. 如請求項17-20任一項所述之音頻編碼器,其中該比例參數計算器配置為處理該多頻道音頻信號的幀序列,該比例參數計算器(140)配置為: 計算幀序列的一第一幀的第一組的多個聯合編碼比例參數和第二組的多個聯合編碼比例參數;以及 分析幀序列的一第二幀以確定該第二幀的一單獨編碼模式; 其中該編碼信號形成器(1480、1500)配置為將一狀態旁側資訊引入到一編碼音頻信號中,該編碼音頻信號指示用於該第二幀的單獨編碼模式或用於該第一幀的一聯合編碼模式,以及關於該第二幀的第一組和第二組的單獨編碼比例參數的資訊。
  22. 如請求項17-21任一項所述之音頻編碼器,其中該比例參數計算器(140)配置為: 計算該第一頻道的第一組的多個比例參數和該第二頻道的第二組的多個比例參數; 對該第一組的多個比例參數和該第二組的多個比例參數進行下取樣,以獲得下取樣後的第一組和下取樣後的第二組;以及 使用不同的組合規則從下取樣的第一組和下取樣的第二組來組合一比例參數,以獲得該第一組的一聯合編碼比例參數和該第二組的一聯合編碼的比例參數;或者 該比例參數計算器(140)配置為: 計算該第一頻道的第一組的多個比例參數和該第二頻道的第二組的多個比例參數; 使用不同的組合規則來組合自該第一組的一比例參數和自該第二組的一比例參數,以獲得該第一組的一聯合編碼比例參數和該第二組的一聯合編碼比例參數,以及 對該第一組的多個聯合編碼比例參數進行下取樣,以獲得下取樣的第一組的多個聯合編碼比例參數,而且對該第二組的多個聯合編碼比例參數進行下取樣,以獲得下取樣的第二組的多個聯合編碼比例參數; 下取樣的第一組和下取樣的第二組分別表示該第一組的多個聯合編碼比例參數的資訊和該第二組的多個聯合編碼比例參數的資訊。
  23. 如請求項21或22所述之音頻編碼器,其中該比例參數計算器(140)配置用於計算該第一頻道和該第二頻道在該第二幀中的相似度,以及在計算的相似度與一閾值處於一第一關係的情況下,確定該單獨編碼模式,或者在計算的相似度與該閾值處於不同的一第二關係的情況下確定該聯合編碼模式。
  24. 如請求項23所述之音頻編碼器,其中該比例參數計算器(140)配置為: 為該第二幀計算每個頻帶的第一組的比例參數和第二組的比例參數之間的差值; 處理該第二幀的每個差值,以便去除多個負信號,以獲得該第二幀的處理差異; 組合該處理差異以獲得一相似度度量; 將該相似度度量與該閾值進行比較;以及 當該相似度度量大於該閾值時決定支持該單獨編碼模式,或者當該相似度度量低於該閾值時決定支持該聯合編碼模式。
  25. 如請求項17-24任一項所述之音頻編碼器,其中該信號處理器(120)配置為: 使用一第一階段量化函數(141, 143)來量化該第一組的多個聯合編碼比例參數,以獲得一個或多個第一量化索引來作為一第一階段結果,並且獲得中間的第一組的多個聯合編碼比例參數; 從該第一組的多個聯合編碼比例參數和中間的第一組的多個聯合編碼比例參數計算(142)剩餘的第一組的多個聯合編碼比例參數;以及 使用一第二階段量化函數(145)量化殘餘的第一組的多個聯合編碼比例參數,以獲得一個或多個量化索引來作為一第二階段結果。
  26. 如請求項17-25任一項所述之音頻編碼器,其中該信號處理器(120)配置為使用單一階段量化函數來量化該第二組的多個聯合編碼比例參數,以獲得一個或多個量化索引來作為單一階段結果;或者 該信號處理器(120)配置為至少使用一第一階段量化函數和一第二階段量化函數來量化該第一組的多個聯合編碼比例參數,而且該信號處理器(120)配置為使用單一階段量化函數來量化該第二組的多個聯合編碼比例參數,其中單一階段量化函數選自該第一階段量化函數和該第二階段量化函數。
  27. 如請求項21-26任一項所述之音頻編碼器,其中該比例參數計算器(140)配置為: 使用一第一階段量化函數(141, 143)來量化該第一組的多個比例參數,以獲得一個或多個第一量化索引來作為一第一階段結果,並獲得中間的第一組的多個比例參數; 從該第一組的多個比例參數和中間的第一組的多個比例參數計算(142)剩餘的第一組的多個比例參數;以及 使用一第二階段量化函數(145)量化剩餘的第一組的多個比例參數,以獲得一個或多個量化索引來作為一第二階段結果;或者 該比例參數計算器(140)配置為: 使用一第一階段量化函數(141、143)量化該第二組的多個比例參數,以獲得一個或多個第一量化索引來作為一第一階段結果,並獲得中間的第二組的多個比例參數; 從該第二組的多個比例參數和中間的第二組的多個比例參數計算(142)剩餘的第二組的多個比例參數;以及 使用一第二階段量化函數(145)量化剩餘的第二組的多個比例參數,以獲得一個或多個量化索引來作為一第二階段結果。
  28. 如請求項25或27所述之音頻編碼器,其中在執行向量量化之前,該第二階段量化函數(145)使用小於1的放大值或加權值來增加剩餘的第一組的多個聯合編碼比例參數或剩餘的第一組或第二組比例參數,其中使用增加的剩餘值來執行向量量化;及/或 例如放大值或加權值用於將比例參數除以放大值或加權值,其中加權值較佳地在0.1和0.9之間,或更較佳地在0.2和0.6之間或者甚至更佳地在0.25和0.4之間;及/或 其中相同的放大值被用於剩餘的第一組的多個聯合編碼比例參數或剩餘的第一組或第二組的多個比例參數的所有比例參數。
  29. 如請求項25-28所述之音頻編碼器,其中該第一階段量化函數(141、143)包括至少一密碼本,該密碼本具有一第一數量的多個條目,該等多個條目對應一個或多個量化索引的一第一尺寸; 該第二階段量化函數(145)或單一階段量化函數包括至少一密碼本,該密碼本具有一第二數量的多個條目,該等多個條目對應一個或多個量化索引的一第二尺寸;以及 該第一數量大於或小於該第二數量或該第一尺寸大於或小於該第二尺寸;或者 該第一階段量化函數(141、143)是固定速率量化函數,而且該第二階段量化函數(145)是可變速率量化函數。
  30. 如請求項15-29所述之音頻編碼器,其中該比例參數計算器(140)配置為: 接收該第一頻道的一第一修正離散餘弦變換(MDCT)表示和該第二頻道的一第二修正離散餘弦變換(MDCT)表示; 接收該第一頻道的一第一修正離散正弦變換(MDST)表示和該第二頻道的一第二修正離散正弦變換(MDST)表示; 根據該第一 MDCT 表示和該第一 MDST 表示計算該第一頻道的一第一功率頻譜,以及根據該第二 MDCT 表示和該第二 MDST 表示計算一第二頻道的一第二功率頻譜;以及 從該第一功率頻譜計算該第一頻道的第一組的多個比例參數,並且從該第二功率頻譜計算該第二頻道的第二組的多個比例參數。
  31. 如請求項30所述之音頻編碼器,其中該信號處理器(120)配置為使用從該第一組的多個比例參數導出的資訊來對該第一MDCT表示縮放比例,並且使用從該第二組的多個比例參數導出的資訊來對該第二MDCT表示縮放比例。
  32. 如請求項17-31所述之音頻編碼器,其中該信號處理器(120)配置為使用一聯合多頻道處理進一步處理縮放比例的第一頻道表示和縮放比例的第二頻道表示,以導出該多頻道音頻信號的多頻道處理表示,可選地使用一頻譜頻帶複製處理或一智能間隙填充處理或一頻帶增強處理來進行進一步處理,以及對該多頻道音頻信號的多個頻道的一表示進行量化和編碼,以獲得該多頻道音頻數據。
  33. 如請求項17-34所述之音頻編碼器,其中該音頻編碼器配置為針對該多頻道音頻信號的一幀來確定關於該第二組的多個聯合編碼比例參數的資訊,作為全零或全特定值的資訊,其指示幀的所有聯合編碼比例參數的相同值或零值,而且該編碼信號形成器(1480、1500)配置為使用全零或全特地值的資訊來獲得編碼的多頻道音頻信號。
  34. 如請求項17-34所述之音頻編碼器,其中該比例參數計算器(140)配置為: 用於計算一第一幀的該第一組的多個聯合編碼比例參數和該第二組的多個聯合編碼比例參數; 用於計算一第二幀的該第一組的多個聯合編碼比例參數; 在第二幀中,該等多個聯合編碼比例參數沒有被計算或編碼;以及 該編碼信號形成器(1480、1500)配置為使用一標誌來作為關於該第二組的多個聯合編碼比例參數的資訊,其表示在該第二幀中,編碼的多頻道音頻信號中不包括第二組的任何聯合編碼比例參數。
  35. 一種對編碼音頻信號進行解碼的方法,該編碼音頻信號包含多頻道音頻數據以及關於多個聯合編碼比例參數的資訊,該多頻道音頻數據包含用於二個或多個音頻頻道的數據,該方法包括: 對該等多個聯合編碼比例參數的資訊進行解碼,以獲得一解碼音頻信號的一第一頻道的第一組的多個比例參數以及該解碼音頻信號的一第二頻道的一第二組的多個比例參數;及 將該第一組的多個比例參數應用於從該多頻道音頻數據導出的一第一頻道表示,並且將該第二組的多個比例參數應用於從該多頻道音頻數據導出的一第二頻道表示,獲得該解碼音頻信號的該第一頻道和該第二頻道; 該等多個聯合編碼比例參數包括關於該第一組的多個聯合編碼比例參數的資訊和關於該第二組的多個聯合編碼比例參數的資訊,以及 解碼包括使用一第一組合規則來組合該第一組的一聯合編碼比例參數和該第二組的一聯合編碼比例參數,以獲得該第一組的多個比例參數的一比例參數,並且使用不同於該第一組合規則的一第二組合規則來獲得該第二組的多個比例參數的一比例參數。
  36. 一種對多頻道音頻信號進行編碼的方法,該多頻道音頻信號包含二個或多個頻道,該方法包括: 從該多頻道音頻信號的一第一頻道的一第一組的多個比例參數和從該多頻道音頻信號的一第二頻道的一第二組的多個比例參數來計算一第一組的多個聯合編碼比例參數以及一第二組的多個聯合編碼比例參數; 將該第一組的多個比例參數應用於該多頻道音頻信號的該第一頻道,以及將該第二組的多個比例參數應用於該多頻道音頻信號的該第二頻道,並且導出多頻道音頻數據;以及 使用該多頻道音頻數據和關於該第一組的多個聯合編碼比例參數的資訊和關於該第二組的多個聯合編碼比例參數的資訊,以獲得一編碼多頻道音頻信號。
  37. 一種電腦程式,當在一電腦或一處理器上運行時,用於執行如請求項31或請求項32所述的方法。
TW110125042A 2020-07-07 2021-07-07 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式 TWI793666B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20184555 2020-07-07
EP20184555.9 2020-07-07

Publications (2)

Publication Number Publication Date
TW202211208A true TW202211208A (zh) 2022-03-16
TWI793666B TWI793666B (zh) 2023-02-21

Family

ID=71661617

Family Applications (2)

Application Number Title Priority Date Filing Date
TW110125042A TWI793666B (zh) 2020-07-07 2021-07-07 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式
TW110125041A TWI841856B (zh) 2020-07-07 2021-07-07 音頻量化器和音頻去量化器及相關方法以及電腦程式

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW110125041A TWI841856B (zh) 2020-07-07 2021-07-07 音頻量化器和音頻去量化器及相關方法以及電腦程式

Country Status (12)

Country Link
US (2) US20230133513A1 (zh)
EP (3) EP4179531B1 (zh)
JP (2) JP2023532808A (zh)
KR (2) KR20230043876A (zh)
CN (2) CN115843378A (zh)
AU (2) AU2021303726B2 (zh)
BR (2) BR112023000223A2 (zh)
CA (2) CA3184222A1 (zh)
MX (2) MX2023000340A (zh)
TW (2) TWI793666B (zh)
WO (2) WO2022008448A1 (zh)
ZA (2) ZA202213859B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2623516A (en) * 2022-10-17 2024-04-24 Nokia Technologies Oy Parametric spatial audio encoding
WO2024175187A1 (en) * 2023-02-21 2024-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder for encoding a multi-channel audio signal

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
CN103477387B (zh) 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
JP2020134463A (ja) 2019-02-25 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 測距装置、測距方法、並びにプログラム

Also Published As

Publication number Publication date
JP2023532808A (ja) 2023-07-31
ZA202213859B (en) 2023-10-25
ZA202300267B (en) 2024-01-31
US20230197090A1 (en) 2023-06-22
TWI793666B (zh) 2023-02-21
EP4179531A1 (en) 2023-05-17
BR112023000223A2 (pt) 2023-01-31
CA3184522A1 (en) 2022-01-13
WO2022008448A1 (en) 2022-01-13
US20230133513A1 (en) 2023-05-04
WO2022008454A1 (en) 2022-01-13
EP4179529A1 (en) 2023-05-17
EP4447044A2 (en) 2024-10-16
BR112022026703A2 (pt) 2023-01-24
KR20230066547A (ko) 2023-05-16
TW202209303A (zh) 2022-03-01
EP4447044A3 (en) 2024-10-23
EP4179531B1 (en) 2024-08-21
TWI841856B (zh) 2024-05-11
CN116114016A (zh) 2023-05-12
MX2023000341A (es) 2023-03-14
KR20230043876A (ko) 2023-03-31
MX2023000340A (es) 2023-02-09
CA3184222A1 (en) 2022-01-13
AU2021306852B2 (en) 2024-05-23
JP2023532809A (ja) 2023-07-31
AU2021303726A1 (en) 2023-02-09
CN115843378A (zh) 2023-03-24
AU2021306852A1 (en) 2023-02-02
AU2021303726B2 (en) 2024-06-20

Similar Documents

Publication Publication Date Title
JP7280306B2 (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
JP7073491B2 (ja) スケールパラメータのダウンサンプリングまたは補間を使用してオーディオ信号をエンコードおよびデコードするための装置および方法
JP7401625B2 (ja) 広帯域フィルタによって生成される補充信号を使用して、エンコードされたマルチチャネル信号をエンコードまたはデコードするための装置
US20230197090A1 (en) Audio quantizer and audio dequantizer and related methods
RU2807462C1 (ru) Устройство квантования аудиоданных, устройство деквантования аудиоданных и соответствующие способы
RU2809981C1 (ru) Аудиодекодер, аудиокодер и связанные способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала