TWI407432B - 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體 - Google Patents

用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體 Download PDF

Info

Publication number
TWI407432B
TWI407432B TW097140565A TW97140565A TWI407432B TW I407432 B TWI407432 B TW I407432B TW 097140565 A TW097140565 A TW 097140565A TW 97140565 A TW97140565 A TW 97140565A TW I407432 B TWI407432 B TW I407432B
Authority
TW
Taiwan
Prior art keywords
spectral
signal
spectral lines
converted
original audio
Prior art date
Application number
TW097140565A
Other languages
English (en)
Other versions
TW200935402A (en
Inventor
Yuriy Reznik
Naveen B Srinivasamurhty
Ravi Kiran Chivukula
Pengjun Huang
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW200935402A publication Critical patent/TW200935402A/zh
Application granted granted Critical
Publication of TWI407432B publication Critical patent/TWI407432B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體
以下描述大體係關於編碼器及解碼器,且詳言之,係關於一種作為可縮放的語言及音頻編解碼器之一部分而對經改良之離散餘弦轉換(MDCT)頻譜進行編碼的有效方式。
本專利申請案主張2007年10月22日申請之標題為「Low-Complexity Technique for Encoding/Decoding of Quantized MDCT Spectrum in Scalable Speech+Audio Codecs」之美國臨時申請案第60/981,814號的優先權,該美國臨時申請案讓渡予其受讓人且藉此以引用之方式明確地併入本文中。
音頻編碼之一目標為將音頻信號壓縮成所要有限資訊量,同時儘可能地保持原始聲音品質。在編碼過程中,將時域中之音頻信號轉換成頻域。
知覺音頻編碼技術(諸如,MPEG層3(MP3)、MPEG-2及MPEG-4)利用人耳之信號遮蔽性質,以便減少資料量。藉由如此進行,以使量化雜訊由佔優勢之總信號遮蔽(亦即,其保持為不可聞的)的方式而將量化雜訊分配至頻帶。可觀的儲存尺寸之減少是可能伴隨著很少或無可察覺之音頻品質的損失。知覺音頻編碼技術通常為可縮放的且產生具有一基本或核心層及至少一增強層的分層位元流。此允許位元速率可縮放性,亦即,在解碼器側處以不同音頻品質位準進行解碼或在網路中藉由訊務整形或調節來減少位元速率。
碼激勵線性預測(CELP)為廣泛地用於語言解碼的一類演算法,包括代數CELP(ACELP)、鬆馳CELP(RCELP)、低延遲(LD-CELP)及向量和激勵線性預測(VSELP)。CELP所掩蓋之一原理被稱作合成式分析(Analysis-by-Synthesis,AbS)且意謂藉由在封閉迴路中知覺地最佳化經解碼(合成)信號來執行編碼(分析)。理論上,將藉由嘗試所有可能位元結合且選擇產生最佳音效之經解碼信號的位元結合來產生最佳CELP流。此實務上出於以下兩個原因而為明顯不可能的:實施將為非常複雜的,且「最佳音效」選擇準則必然包含人類收聽者。為了使用有限計算資源來達成即時編碼,使用知覺加權函數而將CELP搜尋分解成較小的更易管理的順序搜尋。通常,編碼包括(a)計算及/或量化(通常作為線頻譜對)輸入音頻信號之線性預測編碼係數、(b)使用碼簿來搜尋最佳匹配以產生經編碼信號、(c)產生為經編碼信號與真實輸入信號之間的差異的誤差信號,及(d)在一或多個層中對此誤差信號進行進一步編碼(通常在MDCT頻譜中)以改良經重建或經合成信號之品質。
許多不同技術可用於基於CELP演算法來實施語言及音頻編解碼器。在此等技術中之一些中,產生誤差信號,誤差信號隨後經轉換(通常使用DCT、MDCT或類似轉換)及經編碼以進一步改良經編碼信號之品質。然而,歸因於許多行動器件及網路之處理及頻寬限制,此MDCT頻譜編碼之有效實施為所需的,以減少經儲存或傳輸之資訊的大小。
下文呈現對一或多個實施例之簡化概述,以便提供對一些實施例之基本理解。此概述不為對所有所涵蓋實施例之廣泛綜述,且既不意欲識別所有實施例之關鍵或臨界元素,亦不意欲描繪任何或所有實施例之範疇。其唯一目的為以簡化形式來呈現一或多個實施例之一些概念以作為稍後呈現之更詳細描述的序部。
提供一種用於以可縮放的語言及音頻壓縮演算法而對MDCT(或類似基於轉換的)頻譜進行編碼/解碼的有效技術。此技術利用知覺量化MDCT頻譜之稀疏性質來界定碼之結構,其包括描述非零頻譜線在經編碼頻帶中之位置的元素,且使用結合的列舉技術來計算此元素。
在一實例中,提供一種用於在可縮放的語言及音頻編解碼器中對MDCT頻譜進行編碼之方法。對轉換頻譜之此編碼可藉由編碼器硬體、編碼軟體及/或兩者之結合來執行,且可在處理器、處理電路及/或機器可讀媒體中加以體現。自基於碼激勵線性預測(CELP)之編碼層獲得殘餘信號,其中殘餘信號為原始音頻信號與原始音頻信號之經重建型式之間的差異。可藉由以下各者來獲得原始音頻信號之經重建型式:(a)合成來自基於CELP之編碼層的原始音頻信號之經編碼型式以獲得經合成信號、(b)重新強調經合成信號,及/或(c)對經重新強調信號進行上取樣以獲得原始音頻信號之經重建型式。
在離散餘弦轉換(DCT)型轉換層處轉換殘餘信號以獲得具有複數個頻譜線之相應轉換頻譜。DCT型轉換層可為經改良之離散餘弦轉換(MDCT)層,且轉換頻譜為MDCT頻譜。
使用結合的位置編碼技術而對轉換頻譜頻譜線進行編碼。對轉換頻譜頻譜線的編碼可包括基於針對非零頻譜線位置而使用結合的位置編碼技術來表示頻譜線位置而對選定頻譜線子集之位置進行編碼。在一些實施中,可在編碼之前撤消頻譜線集合以減少頻譜線之數目。在另一實例中,結合的位置編碼技術可包括針對選定頻譜線子集而產生詞典式索引,其中每一詞典式索引表示複數個表示選定頻譜線子集之位置的可能二進位串中之一者。詞典式索引可以比二進位串之長度少的位元的二進位串來表示頻譜線。
在另一實例中,結合的位置編碼技術可包括產生表示頻譜線在二進位串內之位置的索引,頻譜線之位置係基於結合的公式來編碼:
其中n 為二進位串之長度,k 為待編碼之選定頻譜線的數目,且w j 表示二進位串之個別位元。
在一些實施中,可將複數個頻譜線分裂成複數個子頻帶,且可將連續子頻帶群組成區域。可對選自用於區域中之子頻帶中之每一者的複數個頻譜線的主脈衝進行編碼,其中區域中之選定頻譜線子集排除用於子頻帶中之每一者的主脈衝。另外,可基於針對非零頻譜線位置而使用結合的位置編碼技術來表示頻譜線位置而對選定頻譜線子集在區域內之位置進行編碼。區域中之選定頻譜線子集可排除用於子頻帶中之每一者的主脈衝。對轉換頻譜頻譜線的編碼可包括基於選定頻譜線子集的位置而產生等於區域中之所有位置的長度之所有可能二進位串的陣列。區域可重疊,且每一區域可包括複數個連續子頻帶。
在另一實例中,提供一種用於在可縮放的語言及音頻編解碼器中對轉換頻譜進行解碼之方法。對轉換頻譜之此解碼可藉由解碼器硬體、解碼軟體及/或兩者之結合來執行,且可在處理器、處理電路及/或機器可讀媒體中加以體現。獲得表示殘餘信號之複數個轉換頻譜頻譜線之索引,其中殘餘信號為原始音頻信號與來自基於碼激勵線性預測(CELP)之編碼層的原始音頻信號之經重建型式之間的差異。索引可以比二進位串之長度少的位元的二進位串來表示非零頻譜線。在一實例中,所獲得之索引可表示頻譜線在二進位串內之位置,頻譜線之位置係基於結合的公式來編碼:
其中n 為二進位串之長度,k 為待編碼之選定頻譜線的數目,且w j 表示二進位串之個別位元。
藉由使用以對複數個轉換頻譜頻譜線進行編碼之結合的位置編碼技術反向而對索引進行解碼。在反向離散餘弦轉換(IDCT)型反向轉換層處使用經解碼之複數個轉換頻譜頻譜線來合成殘餘信號之型式。合成殘餘信號之型式可包括將反向DCT型轉換應用於轉換頻譜頻譜線以產生殘餘信號之時域型式。對轉換頻譜頻譜線進行解碼可包括基於針對非零頻譜線位置而使用結合的位置編碼技術來表示頻譜線位置而對選定頻譜線子集之位置進行解碼。DCT型反向轉換層可為反向之經改良之離散餘弦轉換(IMDCT)層,且轉換頻譜為MDCT頻譜。
另外,可接收對原始音頻信號進行編碼之經CELP編碼信號。可對經CELP編碼信號進行解碼以產生經解碼信號。可將經解碼信號與殘餘信號之經合成型式結合以獲得原始音頻信號之(較高保真度)經重建型式。
在結合圖式採取時,各種特徵、性能及優勢可自下文所陳述之詳細描述變得顯而易見,在圖式中,相似參考字元始終相應地進行識別。
現參看圖式來描述各種實施例,其中相似參考數字始終用以指代相似元件。在以下描述中,為瞭解釋之目的,陳述許多特,定細節,以便提供對一或多個實施例之透徹理解。然而,可顯見,可在無此等特定細節之情況下實踐此(此等)實施例。在其他情況下,以方塊圖之形式來展示熟知結構及器件,以便促進描述一或多個實施例。
綜述
在用於對音頻信號進行編碼/解碼之可縮放的編解碼器(其中使用多個編碼層以對音頻信號進行迭代地編碼)中,經改良之離散餘弦轉換可用於一或多個編碼層中,其中音頻信號殘差經轉換(例如,經轉換成MDCT域)以供編碼。在MDCT域中,可將頻譜線訊框劃分成子頻帶,且界定重疊子頻帶之區域。對於區域中之每一子頻帶,可選擇主脈衝(亦即,子頻帶中之最強頻譜線或頻譜線群)。可使用整數而對主脈衝之位置進行編碼以表示其在其子頻帶中之每一者內的位置。主脈衝中之每一者的振幅/量值可經獨立地編碼。另外,選擇區域中排除已經選擇之主脈衝的複數個(例如,四個)子脈衝(例如,剩餘頻譜線)。基於選定子脈衝在區域內之總體位置而對其進行編碼。可使用結合的位置編碼技術而對此等子脈衝之位置進行編碼以產生可以比區域之總長度少的位元來表示的詞典式索引。藉由以此方式來表示主脈衝及子脈衝,可使用相對少量之位元而對其進行編碼以供儲存及/或傳輸。
通信系統
圖1為說明可實施一或多個編碼特徵之通信系統的方塊圖。編碼器102接收傳入之輸入音頻信號104且產生經編碼音頻信號106。可經由傳輸頻道(例如,無線或有線)而將經編碼音頻信號106傳輸至解碼器108。解碼器108試圖基於經編碼音頻信號106來重建輸入音頻信號104以產生經重建輸出音頻信號110。為了說明之目的,編碼器102可對傳輸器器件操作,而解碼器器件可對接收器件操作。然而,應清楚,任何此等器件可包括編碼器及解碼器兩者。
圖2為說明根據一實例的可經組態以執行有效音頻編碼之傳輸器件202的方塊圖。輸入音頻信號204係由麥克風206捕獲、由放大器208放大且由A/D變換器210變換成數位信號,數位信號發送至語言編碼模組212。語言編碼模組212經組態以對輸入信號執行多層(經縮放)編碼,其中至少一此層涉及在MDCT頻譜中對殘差(誤差信號)進行編碼。如結合圖4、圖5、圖6、圖7、圖8、圖9及圖10所解釋,語言編碼模組212可執行編碼。來自語言編碼模組212之輸出信號可發送至執行頻道解碼的傳輸路徑編碼模組214,且所得輸出信號發送至調變電路216且經調變以便經由D/A變換器218及RF放大器220而發送至天線222以供傳輸經編碼音頻信號224。
圖3為說明根據一實例的可經組態以執行有效音頻解碼之接收器件302的方塊圖。經編碼音頻信號304由天線306接收且由RF放大器308放大且經由A/D變換器310而發送至解調變電路312,使得經解調變信號供應至傳輸路徑解碼模組314。來自傳輸路徑解碼模組314之輸出信號發送至經組態以對輸入信號執行多層(經縮放)解碼的語言解碼模組316,其中至少一此層涉及在IMDCT頻譜中對殘差(誤差信號)進行解碼。如結合圖11、圖12及圖13所解釋,語言解碼模組316可執行信號解碼。來自語言解碼模組316之輸出信號發送至D/A變換器318。來自D/A變換器318之類比語言信號經由放大器320而發送至揚聲器322以提供經重建輸出音頻信號324。
可縮放的音頻編解碼器架構
可將編碼器102(圖1)、解碼器108(圖1)、語言/音頻編碼模組212(圖2)及/或語言/音頻解碼模組316(圖3)實施為可縮放的音頻編解碼器。此可縮放的音頻編解碼器可經實施以向易出錯之電信頻道提供高效能之寬頻語言編碼,其具有高品質之經輸送之經編碼窄頻語言信號或寬頻音頻/音樂信號。用以達成可縮放的音頻編解碼器之一方法為提供迭代編碼層,其中來自一層之誤差信號(殘差)係在後續層中被編碼以進一步改良先前層中所編碼之音頻信號。例如,碼簿激勵線性預測(CELP)係基於線性預測編碼之概念,其中具有不同激勵信號之碼簿係維持於編碼器及解碼器上。編碼器找出最合適之激勵信號且將其相應索引(來自固定、代數及/或調適性碼簿)發送至接著使用其來再生信號(基於碼簿)的解碼器。編碼器藉由對音頻信號進行編碼且接著對音頻信號進行解碼來執行合成式分析以產生經重建或經合成音頻信號。編碼器接著找出使誤差信號(亦即,原始音頻信號與經重建或經合成音頻信號之間的差異)之能量最小化的參數。可藉由使用更多或更少編碼層來調整輸出位元速率以滿足頻道需求及所要音頻品質。此可縮放的音頻編解碼器可包括若干層,其中可廢除較高層位元流而不影響較低層之解碼。
使用此多層架構的現有可縮放的編解碼器之實例包括ITU-T推薦G.729.1及新興ITU-T標準,代碼名稱為G.EV-VBR。舉例而言,可將嵌入式可變位元速率(EV-VBR)編解碼器實施為多個層L1(核心層)至LX(其中X為最高延伸層之數目)。此編解碼器可接受以16kHz所取樣之寬頻(WB)信號及以8kHz所取樣之窄頻(NB)信號兩者。類似地,編解碼器輸出可為寬頻或窄頻的。
編解碼器(例如,EV-VBR編解碼器)之層結構的實例展示於表1中,其包含五個層;被稱作L1(核心層)至L5(最高延伸層)。較低之兩個層(L1及L2)可基於碼激勵線性預測(CELP)演算法。核心層L1可得自可變多速率寬頻(VMR-WB)語言編碼演算法且可包含針對不同輸入信號而最佳化的若干編碼模式。亦即,核心層L1可對輸入信號進行分類以更佳地使音頻信號模型化。基於調適性碼簿及固定代數碼簿,藉由增強或延伸層L2而對來自核心層L1之編碼誤差(殘差)進行編碼。可使用經改良之離散餘弦轉換(MDCT)藉由較高層(L3-L5)而在轉換域中對來自層L2之誤差信號(殘差)進行進一步編碼。可在層L3中發送旁側資訊以增強訊框抹除隱蔽(FEC)。
核心層L1編解碼器實質上為基於CELP之編解碼器,且可與許多熟知窄頻或寬頻聲碼器中之一者相容,諸如,調適性多速率(AMR)、AMR寬頻(AMR-WB)、可變多速率寬頻(VMR-WB)、增強型可變速率編解碼器(EVRC)或EVR寬頻(EVRC-WB)編解碼器。
可縮放的編解碼器中之層2可使用碼簿來進一步使來自核心層L1之知覺加權編碼誤差(殘差)最小化。為了增強編解碼器訊框抹除隱蔽(FEC),可計算旁側資訊且在後續層L3中傳輸旁側資訊。與核心層編碼模式無關,旁側資訊可包括信號分類。
假定:對於寬頻輸出,基於經改良之離散餘弦轉換(MDCT)或類似轉換類型來使用重疊相加轉換編碼而對在層L2編碼之後的加權誤差信號進行編碼。亦即,對於經編碼層L3、L4及/或L5,可在MDCT頻譜中對信號進行編碼。因此,提供在MDCT頻譜中對信號進行編碼之有效方式。
編碼器實例
圖4為根據一實例之可縮放的編碼器402的方塊圖。在編碼之前的預處理階段中,輸入信號404經高通濾波406以抑制不當之低頻率分量以產生經濾波輸入信號SHP (n)。舉例而言,高通濾波器406可具有對於寬頻輸入信號之25Hz截止及對於窄頻輸入信號之100Hz。接著藉由再取樣模組408而對經濾波輸入信號SHP (n)進行再取樣以產生經再取樣輸入信號S12.8 (n)。舉例而言,原始輸入信號404可以16kHz被取樣且經再取樣至12.8kHz,12.8kHz可為用於層L1及/或L2編碼之內部頻率。預強調模組410接著應用第一階高通濾波器以強調經再取樣輸入信號S12.8 (n)的較高頻率(且使低頻率衰減)。所得信號接著傳遞至編碼器/解碼器模組412,編碼器/解碼器模組412可基於一基於碼激勵線性預測(CELP)之演算法來執行層L1及/或L2編碼,其中語言信號由通過表示頻譜包絡之線性預測(LP)合成濾波器的激勵信號模型化。可針對每一知覺臨界頻帶而計算信號能量且將其用作層L1及L2編碼之一部分。另外,經編碼之編碼器/解碼器模組412亦可合成(重建)輸入信號之一型式。亦即,在編碼器/解碼器模組412對輸入信號進行編碼之後,編碼器/解碼器模組412對其進行解碼,且去強調模組416及再取樣模組418再造輸入信號404之型式(n )。藉由採用原始信號SHP (n)與經再造信號(n )之間的差異420來產生殘餘信號x 2 (n )(亦即,x 2 (n )=SHP (n)-(n ))。殘餘信號x 2 (n )接著由加權模組424知覺地加權且由MDCT模組428轉換成MDCT頻譜或域以產生殘餘信號X 2 (k )。接著將殘餘信號X 2 (k )提供至結合的頻譜編碼器432,結合的頻譜編碼器432對殘餘信號X 2 (k )進行編碼以針對層L3、L4及/或L5而產生經編碼參數。在一實例中,結合的頻譜編碼器432產生表示殘餘信號X 2 (k )中之非零頻譜線(脈衝)之索引。舉例而言,索引可表示複數個表示非零頻譜線之位置的可能二進位串中之一者。歸因於結合的技術,索引可以比二進位串之長度少的位元的二進位串來表示非零頻譜線。
來自層L1至L5之參數接著可用作輸出位元流436且隨後可用以在解碼器處重建或合成原始輸入信號404之一型式。
層1-分類編碼: 核心層L1可在編碼器/解碼器模組412處被實施且可使用信號分類及四個相異編碼模式來改良編碼效能。在一實例中,可針對每一訊框之不同編碼而考慮的此等四個相異信號類別可包括:(1)用於無聲語言訊框之無聲編碼(UC)、(2)針對具有平滑間距演進之擬週期性區段而最佳化的有聲編碼(VC)、(3)用於在訊框抹除之情況下經設計成使誤差傳播最小化的有聲開始之後的訊框的轉變模式(TC),及(4)用於其他訊框之通用編碼(GC)。在無聲編碼(UC)中,不使用調適性碼簿,且激勵係選自高斯碼簿。利用有聲編碼(VC)模式而對擬週期性區段進行編碼。藉由平滑間距演進來調節有聲編碼選擇。有聲編碼模式可使用ACELP技術。在轉變編碼(TC)訊框中,利用固定碼簿來替換含有第一間距週期之聲門脈衝之子訊框中的調適性碼簿。
在核心層L1中,可使用基於CELP之範例藉由通過表示頻譜包絡之線性預測(LP)合成濾波器的激勵信號來使信號模型化。對於通用及有聲編碼模式,可在導抗頻譜頻率(ISF)域中使用安全網方法及多級向量量化(MSVQ)來量化LP濾波器。藉由間距追蹤演算法來執行開放迴路(OL)間距分析以確保平滑間距輪廓。然而,為了增強間距估計之強健性,可比較兩個併發間距演進輪廓且選擇產生較平滑輪廓之軌跡。
估計兩個LPC參數集合且在多數模式中使用20ms分析窗而每訊框地對其進行編碼,一集合用於訊框末尾且一集合用於中間訊框。利用內插分裂VQ而對中間訊框ISF進行編碼,其中針對每一ISF子群而找出一線性內插係數,使得經估計ISF與經內插量化ISF之間的差異最小化。在一實例中,為了量化LP係數之ISF表示,可並行地搜尋兩個碼簿集合(對應於弱及強預測)以找出使經估計頻譜包絡之失真最小化的預測器及碼簿項。此安全網方法之主要原因為在訊框抹除與頻譜包絡快速地演進之區段一致時減少誤差傳播。為了提供額外誤差強健性,有時將弱預測器設定至零,此導致無預測之量化。在量化失真足夠地接近於具有預測之量化失真時,或在量化失真足夠地小以提供明顯編碼時,可始終選擇不具有預測之路徑。另外,在強烈預測碼簿搜尋中,選擇次最佳碼向量(若此不影響清晰頻道效能,而是預期在存在訊框抹除時減少誤差傳播)。在無預測之情況下進一步系統地量化UC及TC訊框之ISF。對於UC訊框,即使無預測,足夠位元亦可用於允許非常良好之頻譜量化。認為TC訊框對於待使用之預測的訊框抹除過於敏感,儘管清晰頻道效能存在潛在減少。
對於窄頻(NB)信號,使用在非量化最佳增益之情況下所產生的L2激勵來執行間距估計。此方法跨越層而移除增益量化之效應且改良間距滯後估計。對於寬頻(WB)信號,使用標準間距估計(具有量化增益之L1激勵)。
層2-增強編碼: 在層L2中,編碼器/解碼器模組412可再次使用代數碼簿而對來自核心層L1之量化誤差進行編碼。在L2層中,編碼器進一步修改調適性碼簿以不僅包括過去之L1貢獻,而且包括過去之L2貢獻。調適性間距滯後在L1及L2中為相同的,以在層之間維持時間同步。對應於L1及L2之調適性及代數碼簿增益接著經重新最佳化以使知覺加權編碼誤差最小化。相對於L1中已經量化之增益來預測地向量量化經更新之L1增益及L2增益。CELP層(L1及L2)可以內部(例如,12.8kHz)取樣速率而操作。來自層L2之輸出因此包括0-6.4kHz頻帶中所編碼之經合成信號。對於寬頻輸出,AMR-WB頻寬延伸可用以產生失去之6.4-7kHz頻寬。
層3-訊框抹除隱蔽: 為了在訊框抹除條件(FEC)中增強效能,訊框誤差隱蔽模組414可自編碼器/解碼器模組412獲得旁側資訊且使用其來產生層L3參數。旁側資訊可包括對於所有編碼模式之類別資訊。亦可傳輸先前訊框頻譜包絡資訊以用於核心層轉變編碼。對於其他核心層編碼模式,亦可發送經合成信號之相位資訊及間距同步能量。
層3、4、5-轉按編碼: 可在層L3、L4及L5中使用MDCT或具有重疊相加結構之類似轉換來量化由層L2中之第二級CELP編碼引起的殘餘信號X 2 (k )。亦即,來自先前層之殘餘或「誤差」信號由後續層用以產生其參數(其設法有效地表示此誤差以供傳輸至解碼器)。
可藉由使用若干技術來量化MDCT係數。在一些情況下,使用可縮放的代數向量量化來量化MDCT係數。可每隔20毫秒(ms)地計算MDCT,且在8維度區塊中量化其頻譜系數。應用得自原始信號之頻譜的音頻清除器(MDCT域雜訊整形濾波器)。在層L3中傳輸整體增益。另外,很少位元用於高頻率補償。剩餘層L3位元用於MDCT係數之量化。使用層L4及L5位元,使得以層L4及L5位準而獨立地使效能最大化。
在一些實施中,可針對語言及音樂佔優勢之音頻內容而不同地量化MDCT係數。語言內容與音樂內容之間的辨別係基於藉由比較L2加權合成MDCT分量與相應輸入信號分量而進行的CELP模型效率之評估。對於語言佔優勢之內容,可縮放的代數向量量化(AVQ)在L3及L4中與在8維度區塊中所量化之頻譜系數一起使用。在L3中傳輸整體增益,且少許位元用於高頻率補償。剩餘L3及L4位元用於MDCT係數之量化。量化方法為多速率晶格VQ(MRLVQ)。已使用新穎的基於多位準排列之演算法來減少索引化程序之複雜性及記憶體成本。以下列若干步驟來進行秩計算:第一,將輸入向量分解成符號向量及絕對值向量。第二,將絕對值向量進一步分解成若干位準。最高位準向量為原始絕對值向量。藉由自上部位準向量移除最頻繁元素來獲得每一下部位準向量。基於排列及結合函數而使每一下部位準向量之與其上部位準向量有關的位置參數索引化。最後,將所有下部位準之索引與符號組成輸出索引。
對於音樂佔優勢之內容,可在層L3中使用頻帶選擇性形狀增益向量量化(形狀增益VQ),且可將額外脈衝位置向量量化器應用於層L4。在層L3中,首先,可藉由計算MDCT係數之能量來執行頻帶選擇。接著,使用多脈衝碼簿來量化選定頻帶中之MDCT係數。使用向量量化器來量化MDCT係數之子頻帶增益。對於層L4,可使用脈衝定位技術而對整個頻寬進行編碼。在語言模型歸因於音頻源模型失配而產生不想要之雜訊的情況下,L2層輸出之某些頻率可衰減以允許更主動地對MDCT係數進行編碼。此係以封閉迴路方式藉由經由層L4而使輸入信號之MDCT與經編碼音頻信號之MDCT之間的平方誤差最小化來進行。所應用之衰減量可高達6dB,其可藉由使用2個或更少位元來傳送。層L5可使用額外脈衝位置編碼技術。
MDCT頻譜之編碼
因為層L3、L4及L5在MDCT頻譜(例如,表示先前層之殘差的MDCT係數)中執行編碼,故需要使此MDCT頻譜編碼為有效的。因此,提供MDCT頻譜編碼之有效方法。
對此過程之輸入為在CELP核心(層L1及/或L2)之後誤差信號(殘差)之完整MDCT頻譜或在先前層之後的殘餘MDCT頻譜。亦即,在層L3處,接收完整MDCT頻譜且對其進行部分地編碼。接著,在層L4處,對層L3處之經編碼信號之殘餘MDCT頻譜進行編碼。可針對層L5及其他後續層而重複此過程。
圖5為說明可在編碼器之較高層處實施之實例MDCT頻譜編碼過程的方塊圖。編碼器502自先前層獲得殘餘信號504的MDCT頻譜。此殘餘信號504可為原始信號與原始信號之經重建型式(例如,自原始信號之經編碼型式所重建)之間的差異。可量化殘餘信號之MDCT係數以針對給定音頻訊框而產生頻譜線。
在一實例中,子頻帶/區域選擇器508可將殘餘信號504劃分成複數個(例如,17個)均一子頻帶。舉例而言,給定三百二十個(320個)頻譜線之音頻訊框,可撤消最初及最後之二十四個(24個)點(頻譜線),且可將剩餘之兩百七十二個(272個)頻譜線劃分成各自具有十六個(16個)頻譜線之十七個(17個)子頻帶。應理解,在各種實施中,可使用不同數目之子頻帶,可被撤消的最初及最後之點的數目可變化,及/或每子頻帶或訊框可被分裂之頻譜線的數目亦可變化。
圖6為說明可如何選擇音頻訊框602及將其劃分成區域及子頻帶以促進對MDCT頻譜之編碼之一實例的圖解。根據此實例,可界定由複數個(例如,5個)連續或鄰接子頻帶604組成的複數個(例如,8個)區域(例如,一區域可覆蓋5個子頻帶*16個頻譜線/子頻帶=80個頻譜線)。複數個區域606可經配置以與每一相鄰區域重疊且覆蓋整個頻寬(例如,7kHz)。可產生用於編碼之區域資訊。
一旦選擇區域,便藉由形狀量化器510及增益量化器512使用形狀增益量化來量化區域中之MDCT頻譜,在形狀增益量化中順序地量化目標向量之形狀(與位置定位及符號同義)及增益。整形可包含形成對應於每子頻帶之一主脈衝及複數個子脈衝的頻譜線之位置定位、符號,連同主脈衝及子脈衝之量值。在圖6所說明之實例中,區域606內之八十個(80個)頻譜線可由每區域5個主脈衝(5個連續子頻帶604a、604b、604c、604d及604e中之每一者一個主脈衝)及4個額外子脈衝組成的形狀向量表示。亦即,對於每一子頻帶604,選擇一主脈衝(亦即,彼子頻帶中之16個頻譜線內之最強脈衝)。另外,對於每一區域606,選擇額外4個子脈衝(亦即,80個頻譜線內其次最強之頻譜線脈衝)。如圖6所說明,在一實例中,可利用50個位元而對主脈衝及子脈衝位置與符號之結合進行編碼,其中:
20個位元用於5個主脈衝(每子頻帶一個主脈衝)之索引;
5個位元用於5個主脈衝之符號;
21個位元用於80個頻譜線區域內任何地方之4個子脈衝的索引;
4個位元用於4個子脈衝之符號。
每一主脈衝可使用4個位元(例如,由4個位元所表示之數字0-16)而藉由其在16個頻譜線之子頻帶內之位置來表示。因此,對於區域中之五個(5個)主脈衝,此總共採用20個位元。每一主脈衝及/或子脈衝之符號可由一個位元表示(例如,0或1用於正或負)。可使用結合的位置編碼技術(使用二項式係數來表示每一選定子脈衝之位置)而對區域內之四個(4個)選定子脈衝中之每一者的位置進行編碼以產生詞典式索引,使得用以表示區域內之四個子脈衝之位置的位元總數小於區域之長度。
應注意,額外位元可用於對主脈衝及/或子脈衝之振幅及/或量值進行編碼。在一些實施中,可使用兩個位元而對脈衝振幅/量值進行編碼(亦即,00-無脈衝、01-子脈衝,及/或10-主脈衝)。在形狀量化之後,對經計算之子頻帶增益執行增益量化。由於區域含有5個子頻帶,故針對區域而獲得可使用10個位元進行向量量化之5個增益。向量量化利用切換式預測機制。應注意,可獲得(藉由自原始輸入殘餘信號504減去514量化殘餘信號Squant )可用作下一編碼層之輸入的輸出殘餘信號516。
圖7說明用於以有效方式而對音頻訊框進行編碼的通用方法。可自複數個連續或鄰接子頻帶界定N個頻譜線之區域702,其中每一子頻帶704具有L個頻譜線。區域702及/或子頻帶704可用於音頻訊框之殘餘信號。
對於每一子頻帶,選擇一主脈衝(706)。例如,選擇子頻帶之L個頻譜線內之最強脈衝作為彼子頻帶之主脈衝。可選擇最強脈衝作為子頻帶內具有最大振幅或量值的脈衝。舉例而言,針對子頻帶A 704a而選擇第一主脈衝PA ,針對子頻帶B 704b而選擇第二主脈衝PB ,且針對子頻帶704中之每一者而如此進行。應注意,由於區域702具有N個頻譜線,故區域702內每一頻譜線的位置可藉由ci(對於1iN)來表示。在一實例中,第一主脈衝PA 可處於位置c3 ,第二主脈衝PB 可處於位置c24 ,第三主脈衝PC 可處於位置c41 ,第四主脈衝PD 可處於位置c59 ,第五主脈衝PE 可處於位置c79 。可藉由使用整數而對此等主脈衝進行編碼以表示其在其相應子頻帶內之位置。因此,對於L=16個頻譜線,可藉由使用四個(4個)位元來表示每一主脈衝之位置。
自區域中之剩餘頻譜線或脈衝產生串w(708)。為了產生串,自串w移除選定主脈衝,且剩餘脈衝w1 …wN-p 保留於串中(其中p為區域中主脈衝之數目)。應注意,串可藉由零「0」及「1」來表示,其中「0」表示無脈衝存在於特定位置處且「1」表示脈衝存在於特定位置處。
基於脈衝強度而自串w選擇複數個子脈衝(710)。例如,可基於強度(振幅/量值)來選擇四個(4個)子脈衝S1 、S2 、S3 及S4 (亦即,選擇串w中所保留之最強的4個脈衝)。在一實例中,第一子脈衝S1 可處於位置w20 ,第二子脈衝S2 可處於位置w29 ,第三子脈衝S3 可處於位置w51 ,且第四子脈衝S4 可處於位置w69 。接著基於二項式係數使用詞典式索引而對每一選定子脈衝之位置進行編碼(712),使得詞典式索引i(w)係基於選定子脈衝位置之結合,i(w)=w20 +w29 +w51 +w69
圖8為說明可對MDCT音頻訊框中之脈衝進行有效地編碼之編碼器的方塊圖。編碼器802可包括子頻帶產生器804,子頻帶產生器804將所接收MDCT頻譜音頻訊框801劃分成具有複數個頻譜線之多個頻帶。區域產生器806接著產生複數個重疊區域,其中每一區域由複數個鄰接子頻帶組成。主脈衝選擇器808接著自區域中之每一子頻帶選擇一主脈衝。主脈衝可為子頻帶內具有最大振幅/量值的脈衝(一或多個頻譜線或點)。區域中每一子頻帶之選定主脈衝接著由符號編碼器810、位置編碼器812、增益編碼器814及振幅編碼器816編碼以針對每一主脈衝而產生相應經編碼位元。類似地,子脈衝選擇器809接著自整個區域選擇複數個(例如,4個)子脈衝(亦即,不認為子脈衝係屬於哪一子頻帶)。可自區域中之剩餘脈衝(亦即,排除已經選擇之主脈衝)選擇子頻帶內具有最大振幅/量值的子脈衝。區域之選定子脈衝接著由符號編碼器818、位置編碼器820、增益編碼器822及振幅編碼器824編碼以針對子脈衝而產生相應經編碼位元。位置編碼器820可經組態以執行結合的位置編碼技術以產生詞典式索引,詞典式索引減少用以對子脈衝之位置進行編碼之位元的總大小。詳言之,在將對整個區域中之僅少許脈衝進行編碼的情況下,將少許子脈衝表示為詞典式索引比表示區域之總長度要有效。
圖9為說明用於針對訊框而獲得形狀向量之方法的流程圖。如早先所指示,形狀向量由5個主脈衝及4個子脈衝(頻譜線)組成,其位置定位(在80個線之區域內)及符號將藉由使用最少可能數目之位元來傳送。
對於此實例,進行關於主脈衝及子脈衝之特性的若干假定。第一,假定主脈衝之量值高於子脈衝之量值,且比率可為預設常數(例如,0.8)。此意謂所提議之量化技術可將以下三個可能重建位準(量值)中之一者指派至每一子頻帶中之MDCT頻譜:零(0)、子脈衝位準(例如,0.8)及主脈衝位準(例如,1)。第二,假定每一16個點(16個頻譜線)之子頻帶正好具有一個主脈衝(具有專用增益,其亦每子頻帶一次地被傳輸)。因此,針對區域中之每一子頻帶而存在一主脈衝。第三,可將剩餘之四個(4個)(或更少)子脈衝注入於80個線之區域中之任一子頻帶中,但其不應置換選定主脈衝中之任一者。子脈衝可表示用以表示子頻帶中之頻譜線的位元之最大數目。例如,子頻帶中之四個(4個)子脈衝可表示任一子頻帶中之16個頻譜線,因此,用以表示子頻帶中之16個頻譜線的位元之最大數目為4。
基於上文之描述,可得到用於脈衝之編碼方法,如下。將一訊框(具有複數個頻譜線)劃分成複數個子頻帶(902)。可界定複數個重疊區域,其中每一區域包括複數個連續/鄰接子頻帶(904)。基於脈衝振幅/量值而在區域中之每一子頻帶中選擇一主脈衝(906)。對每一選定主脈衝之位置索引進行編碼(908)。在一實例中,因為主脈衝可落入具有16個頻譜線之子頻帶內之任何地方,故其位置可由4個位元(例如,0...15中之整數值)表示。類似地,可對每一主脈衝之符號、振幅及/或增益進行編碼(910)。符號可由1個位元(1或0)表示。因為主脈衝之每一索引將採用4個位元,故除了用於每一主脈衝之增益及振幅編碼之位元以外,可使用20個位元來表示五個主脈衝索引(例如,5個子頻帶)且使用5個位元來表示主脈衝之符號。
對於子脈衝之編碼,自來自區域中之剩餘脈衝的選定複數個子脈衝創造二進位串,其中移除選定主脈衝(912)。「選定複數個子脈衝」可為來自剩餘脈衝的具有最大量值/振幅的某數目k之脈衝。又,對於具有80個頻譜線之區域,若移除所有5個主脈衝,則此留下80-5=75個子脈衝位置待考慮。因此,可創造由以下各者組成的75個位元之二進位串w:
0:指示無子脈衝
1:指示一選定子脈衝存在於一位置中。
接著計算具有複數個(k個)非零位元之所有可能二進位串之集合之此二進位串w的詞典式索引(914)。亦可對每一選定子脈衝之符號、振幅及/或增益進行編碼(916)。
產生詞典式索引
可基於二項式係數而使用結合的位置編碼技術來產生表示選定子脈衝之詞典式索引。舉例而言,可計算具有k個非零位元的長度n之所有可能個二進位串之集合的二進位串w(串w中之每一非零位元指示待編碼之脈衝的位置)。在一實例中,可使用以下結合的公式來產生一索引,該索引對二進位串w內之所有k個脈衝之位置進行編碼:
其中n 為二進位串之長度(例如,n=75),k 為選定子脈衝之數目(例如,k=4),w j 表示二進位串w之個別位元,且假定,對於所有k >n 。對於k=4且n=75之實例,由所有可能子脈衝向量之索引所佔據的值之總範圍因此將為:
因此,此可被表示為log2 128582620.294...個位元。使用最接近之整數將導致21個位元的使用。應注意,此小於二進位串之75個位元或80位元區域中所保留之位元。
自串產生詞典式索引之實例
根據一實例,可基於二項式係數來計算表示選定子脈衝之位置的二進位串之詞典式索引,在一可能實施中,可預計算二項式係數且將其儲存於三角形陣列(帕斯卡三角形)中,如下:
因此,可針對表示二進位串w之各種位置處的複數個子脈衝(例如,二進位「1」)的二進位串w而計算二項式係數。
藉由使用此二項式係數陣列,可實施詞典式索引(i)之計算,如下:
實例編碼方法
圖10為說明用於在可縮放的語言及音頻編解碼器中對轉換頻譜進行編碼之方法的方塊圖。自基於碼激勵線性預測(CELP)之編碼層獲得殘餘信號,其中殘餘信號為原始音頻信號與原始音頻信號之經重建型式之間的差異(1002)。可藉由以下各者來獲得原始音頻信號之經重建型式:(a)合成來自基於CELP之編碼層的原始音頻信號之經編碼型式以獲得經合成信號、(b)重新強調經合成信號,及/或(c)對經重新強調信號進行上取樣以獲得原始音頻信號之經重建型式。
在離散餘弦轉換(DCT)型轉換層處轉換殘餘信號以獲得具有複數個頻譜線之相應轉換頻譜(1004)。DCT型轉換層可為經改良之離散餘弦轉換(MDCT)層,且轉換頻譜為MDCT頻譜。
使用結合的位置編碼技術而對轉換頻譜頻譜線進行編碼(1006)。對轉換頻譜頻譜線的編碼可包括基於針對非零頻譜線位置而使用結合的位置編碼技術來表示頻譜線位置而對選定頻譜線子集之位置進行編碼。在一些實施中,可在編碼之前撤消頻譜線集合以減少頻譜線之數目。在另一實例中,結合的位置編碼技術可包括針對選定頻譜線子集而產生詞典式索引,其中每一詞典式索引表示複數個表示選定頻譜線子集之位置的可能二進位串中之一者。詞典式索引可以比二進位串之長度少的位元的二進位串來表示頻譜線。
在另一實例中,結合的位置編碼技術可包括產生表示頻譜線在二進位串內之位置的索引,頻譜線之位置係基於結合的公式來編碼:
其中n 為二進位串之長度,k 為待編碼之選定頻譜線的數目,且w j 表示二進位串之個別位元。
在一實例中,可將複數個頻譜線分裂成複數個子頻帶,且可將連續子頻帶群組成區域。可對選自用於區域中之子頻帶中之每一者的複數個頻譜線的主脈衝進行編碼,其中區域中之選定頻譜線子集排除用於子頻帶中之每一者的主脈衝。另外,可基於針對非零頻譜線位置而使用結合的位置編碼技術來表示頻譜線位置而對選定頻譜線子集在區域內之位置進行編碼。區域中之選定頻譜線子集可排除用於子頻帶中之每一者的主脈衝。對轉換頻譜頻譜線的編碼可包括基於選定頻譜線子集的位置而產生等於區域中之所有位置的長度之所有可能二進位串的陣列。區域可重疊,且每一區域可包括複數個連續子頻帶。
對詞典式索引進行解碼以合成經編碼脈衝的過程僅為針對編碼而描述之操作的反向。
MDCT頻譜之解碼
圖11為說明解碼器之實例的方塊圖。在每一音頻訊框(例如,20毫秒訊框)中,解碼器1102可接收含有一或多個層之資訊的輸入位元流1104。所接收層可在自層1直至層5之範圍內,其可對應於8千位元/秒至32千位元/秒之位元速率。此意謂解碼器操作係藉由在每一訊框中所接收之位元(層)的數目來調節。在此實例中,假定輸出信號1132為WB,且在解碼器1102處已正確地接收到所有層。首先藉由解碼器模組1106而對核心層(層1)及ACELP增強層(層2)進行解碼,且執行信號合成。經合成信號接著由去強調模組1108去強調且由再取樣模組1110再取樣至16kHz以產生信號(n )。後處理模組進一步處理信號(n )以產生層1或層2之經合成信號(n )。
接著藉由結合的頻譜解碼器模組1116而對較高層(層3、4、5)進行解碼以獲得MDCT頻譜信號(k )。藉由反向MDCT模組1120來反向轉換MDCT頻譜信號(k ),且將所得信號(n )添加至層1及2之知覺加權經合成信號(n )。接著藉由整形模組1122來應用時間雜訊整形。接著將與當前訊框重疊之先前訊框的加權經合成信號(n )添加至合成。接著應用反向知覺加權1124以復原經合成WB信號。最後,對經復原信號應用間距後濾波器1126,接著為高通濾波器1128。後濾波器1126利用由MDCT之重疊相加合成(層3、4、5)所引入的額外解碼器延遲。其以最佳方式來結合兩個間距後濾波器信號。一者為藉由利用額外解碼器延遲而產生的層1或層2解碼器輸出之高品質間距後濾波器信號(n )。另一者為較高層(層3、4、5)合成信號之低延遲間距後濾波器信號(n )。接著藉由雜訊閘1130而輸出經濾波之經合成信號(n )。
圖12為說明可對MDCT頻譜音頻訊框之脈衝進行有效地解碼之解碼器的方塊圖。接收複數個經編碼輸入位元,其包括音頻訊框之MDCT頻譜中之主脈衝及/或子脈衝的符號、位置、振幅及/或增益。藉由主脈衝解碼器而對用於一或多個主脈衝之位元進行解碼,主脈衝解碼器可包括符號解碼器1210、位置解碼器1212、增益解碼器1214及/或振幅解碼器1216。主脈衝合成器1208接著使用經解碼資訊來重建一或多個主脈衝。同樣地,可在子脈衝解碼器處對用於一或多個子脈衝之位元進行解碼,子脈衝解碼器包括符號解碼器1218、位置解碼器1220、增益解碼器1222及/或振幅解碼器1224。應注意,可基於結合的位置編碼技術使用詞典式索引而對子脈衝之位置進行編碼。因此,位置解碼器1220可為結合的頻譜解碼器。子脈衝合成器1209接著使用經解碼資訊來重建一或多個子脈衝。區域再產生器1206接著基於子脈衝而再產生複數個重疊區域,其中每一區域由複數個鄰接子頻帶組成。子頻帶再產生器1204接著使用主脈衝及/或子脈衝來再產生子頻帶,從而導致音頻訊框1201之經重建MDCT頻譜。
自詞典式索引產生串之實例
為了對表示子脈衝之位置的所接收詞典式索引進行解碼,可執行反向過程以基於給定詞典式索引來獲得序列或二進位串。此反向過程之一實例可被實施如下:
在僅具有很少位元集合(例如,k=4時)之長序列(例如,n=75時)的情況下,可進一步修改此常式以使其更實用。例如,代替搜尋遍及位元序列,可傳遞非零位元之索引以供編碼,使得index()函數變成:
應注意,僅使用二項式陣列之最初4行。因此,僅使用記憶體之75*4=300個字以將其儲存。在一實例中,解碼過程可藉由以下演算法來完成:
此為具有n次迭代之展開迴路,其中在每一步驟處僅使用查找及比較。
實例編碼方法
圖13為說明用於在可縮放的語言及音頻編解碼器中對轉換頻譜進行解碼之方法的方塊圖。獲得表示殘餘信號之複數個轉換頻譜頻譜線之索引,其中殘餘信號為原始音頻信號與來自基於碼激勵線性預測(CELP)之編碼層的原始音頻信號之經重建型式之間的差異(1302)。索引可以比二進位串之長度少的位元的二進位串來表示非零頻譜線。在一實例中,所獲得之索引可表示頻譜線在二進位串內之位置,頻譜線之位置係基於結合的公式來編碼:
其中n為二進位串之長度,k為待編碼之選定頻譜線的數目,且wj 表示二進位串之個別位元。
藉由使用以對複數個轉換頻譜頻譜線進行編碼之結合的位置編碼技術反向而對索引進行解碼(1304)。在反向離散餘弦轉換(IDCT)型反向轉換層處使用經解碼之複數個轉換頻譜頻譜線來合成殘餘信號之型式(1306)。合成殘餘信號之型式可包括將反向DCT型轉換應用於轉換頻譜頻譜線以產生殘餘信號之時域型式。對轉換頻譜頻譜線進行解碼可包括基於針對非零頻譜線位置而使用結合的位置編碼技術來表示頻譜線位置而對選定頻譜線子集之位置進行解碼。DCT型反向轉換層可為反向之經改良之離散餘弦轉換(IMDCT)層,且轉換頻譜為MDCT頻譜。
另外,可接收對原始音頻信號進行編碼之經CELP編碼信號(1308)。可對經CELP編碼信號進行解碼以產生經解碼信號(1310)。可將經解碼信號與殘餘信號之經合成型式結合以獲得原始音頻信號之(較高保真度)經重建型式(1312)。
本文所描述之各種說明性邏輯區塊、模組及電路以及演算法步驟可被實施或執行為電子硬體、軟體或兩者之結合。為了清楚地說明硬體與軟體之此可互換性,已在上文大體按照功能性而描述各種說明性組件、區塊、模組、電路及步驟。此功能性是被實施為硬體還是軟體取決於特定應用及強加於整個系統上之設計約束。應注意,可將組態描述為被描繪為流程框圖、流程圖、結構圖或方塊圖的過程。雖然流程框圖可將操作描述為順序過程,但操作中之許多者可被並行地或併發地執行。另外,可重排操作之次序。過程在其操作完成時終止。過程可對應於方法、函數、程序、子常式、子程式,等等。當過程對應於函數時,其終止對應於函數返回至調用函數或主函數。
在以硬體來實施時,各種實例可使用通用處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列信號(FPGA)或其他可程式化邏輯器件、離散閘或電晶體邏輯、離散硬體組件,或其經設計以執行本文中所描述之功能的任何結合。通用處理器可為微處理器,但在替代例中,處理器可為任何習知處理器、控制器、微控制器或狀態機。處理器亦可被實施為計算器件之結合,例如,DSP與微處理器之結合、複數個微處理器、結合DSP核心之一或多個微處理器,或任何其他此組態。
在以軟體來實施時,各種實例可使用韌體、中間體或微碼。用以執行必要任務之程式碼或碼段可儲存於諸如儲存媒體或其他儲存器之電腦可讀媒體中。處理器可執行必要任務。碼段可表示程序、函數、子程式、程式、常式、子常式、模組、套裝軟體、類別,或指令、資料結構或程式敘述之任何結合。可藉由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而將一碼段耦接至另一碼段或硬體電路。可經由包括記憶體共用、訊息傳遞、符記傳遞、網路傳輸等等之任何合適手段來傳遞、轉發或傳輸資訊、引數、參數、資料等等。
如本申請案中所使用,術語「組件」、「模組」、「系統」及其類似者意欲指代電腦相關實體:硬體、韌體、硬體與軟體之結合、軟體或執行中之軟體。舉例而言,組件可為(但不限於)在處理器上執行之過程、處理器、物件、可執行體、執行線緒、程式及/或電腦。藉由說明,在計算器件上執行之應用程式及計算器件兩者均可為組件。一或多個組件可駐存於過程及/或執行線緒內,且一組件可區域化於一電腦上及/或分散於兩個或兩個以上電腦之間。另外,此等組件可由儲存有各種資料結構的各種電腦可讀媒體執行。該等組件可(諸如)根據具有一或多個資料封包之信號(例如,來自與區域系統、分散式系統中之另一組件互動及/或藉由該信號跨越諸如網際網路之網路而與其他系統互動之一組件的資料)藉由區域及/或遠端過程而通信。
在本文中之一或多個實例中,所描述之功能可以硬體、軟體、韌體或其任何結合來實施。若以軟體來實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體而傳輸。電腦可讀媒體包括電腦儲存媒體及通信媒體兩者,通信媒體包括促進將電腦程式自一位置轉移至另一位置之任何媒體。儲存媒體可為可由電腦存取之任何可用媒體。藉由實例而非限制,此等電腦可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器件、磁碟儲存器件或其他磁性儲存器件,或可用以載運或儲存呈指令或資料結構之形式之所要程式碼且可由電腦存取的任一其他媒體。又,適當地將任何連接稱為電腦可讀媒體。舉例而言,若使用同軸電纜、光纖電纜、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術而自網站、伺服器或其他遠端源傳輸軟體,則同軸電纜、光纖電纜、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之界定中。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位化通用光碟(DVD)、軟性磁碟及藍光(blu-ray)光碟,其中磁碟通常以磁性方式來再生資料,而光碟使用雷射以光學方式來再生資料。以上之結合亦應包括於電腦可讀媒體之範疇內。軟體可包含單一指令或許多指令,且可在若干不同碼段上、在不同程式當中及跨越多個儲存媒體而分散。例示性儲存媒體可耦接至處理器,使得處理器可自儲存媒體讀取資訊及將資訊寫入至儲存媒體。在替代例中,儲存媒體可與處理器成整體。
本文中所揭示之方法包含一或多個步驟或動作以用於達成所描述之方法。在不脫離申請專利範圍之範疇的情況下,方法步驟及/或動作可彼此互換。換言之,除非所描述之實施例之恰當操作需要特定步驟或動作次序,否則在不脫離申請專利範圍之範疇的情況下,可修改特定步驟及/或動作次序及/或使用。
圖1、圖2、圖3、圖4、圖5、圖6、圖7、圖8、圖9、圖10、圖11、圖12及/或圖13所說明之組件、步驟及/或功能中之一或多者可經重排及/或結合成單一組件、步驟或功能或以若干組件、步驟或功能來體現。亦可添加額外元件、組件、步驟及/或功能。圖1、圖2、圖3、圖4、圖5、圖8、圖11及圖12所說明之裝置、器件及/或組件可經組態或調適以執行圖6至圖7及圖10至圖13所描述之方法、特徵或步驟中之一或多者。可以軟體及/或嵌入式硬體來有效地實施本文所述之演算法。
應注意,前述組態僅為實例且不被視為限制申請專利範圍。對組態之描述意欲為說明性的且不限制申請專利範圍之範疇。如此,本發明之教示可易於應用於其他類型之裝置,且許多替代、修改及變化對於熟習此項技術者而言將為顯而易見的。
102...編碼器
104...輸入音頻信號
106...經編碼音頻信號
108...解碼器
110...經重建輸出音頻信號
202...傳輸器件
204...輸入音頻信號
206...麥克風
208...放大器
210...A/D變換器
212...語言編碼模組
214...傳輸路徑編碼模組
216...調變電路
218...D/A變換器
220...RF放大器
222...天線
224...經編碼音頻信號
302...接收器件
304...經編碼音頻信號
306...天線
308...RF放大器
310...A/D變換器
312...解調變電路
314...傳輸路徑解碼模組
316...語言解碼模組
318...D/A變換器
320...放大器
322...揚聲器
324...經重建輸出音頻信號
402...可縮放的編碼器
404...原始輸入信號
406...高通濾波器
408...再取樣模組
410...預強調模組
412...編碼器/解碼器模組
414...訊框誤差隱蔽模組
416...去強調模組
418...再取樣模組
420...原始信號SHP (n)與經再造信號(n )之間的差異
424...加權模組
428...MDCT模組
432...結合的頻譜編碼器
436...輸出位元流
502...編碼器
504...殘餘信號
508...子頻帶/區域選擇器
510...形狀量化器
512...增益量化器
516...輸出殘餘信號
602...音頻訊框
604a、604b、604c、604d、604e、604n...子頻帶
606a、606b、606k...區域
702...區域
704a、704b、704c、704d、704e...子頻帶
801...MDCT頻譜音頻訊框
802...編碼器
804...子頻帶產生器
806...區域產生器
808...主脈衝選擇器
809...子脈衝選擇器
810...符號編碼器
812...位置編碼器
814...增益編碼器
816...振幅編碼器
818...符號編碼器
820...位置編碼器
822...增益編碼器
824...振幅編碼器
1102...解碼器
1104...輸入位元流
1106...解碼器模組
1108...去強調模組
1110...再取樣模組
1116...結合的頻譜解碼器模組
1120...反向MDCT模組
1122...整形模組
1126...間距後濾波器
1130...雜訊
1132...輸出信號
1201...音頻訊框
1204...子頻帶再產生器
1206...區域再產生器
1208...主脈衝合成器
1209...子脈衝合成器
1210...符號解碼器
1212...位置解碼器
1214...增益解碼器
1216...振幅解碼器
1218...符號解碼器
1220...位置解碼器
1222...增益解碼器
1224...振幅解碼器
L1、L2、L3、L4、L5...層
PA ...第一主脈衝
PB ...第二主脈衝
PC ...第三主脈衝
PD ...第四主脈衝
PE ...第五主脈衝
S1 ...第一子脈衝
S2 ...第二子脈衝
S3 ...第三子脈衝
S4 ...第四子脈衝
S12 .8 (n)...經再取樣輸入信號
SHP (n)...經濾波輸入信號
Squant ...量化殘餘信號
(n )...低延遲間距後濾波器信號
(n )...經再造信號
(n )...信號
(n )...經濾波之經合成信號
(n )...知覺加權經合成信號
x 2 (n )...殘餘信號
X 2 (k )...殘餘信號
(k )...MDCT頻譜信號
(n )...經反向轉換之MDCT頻譜信號
圖1為說明可實施一或多個編碼特徵之通信系統的方塊圖。
圖2為說明根據一實例的可經組態以執行有效音頻編碼之傳輸器件的方塊圖。
圖3為說明根據一實例的可經組態以執行有效音頻解碼之接收器件的方塊圖。
圖4為根據一實例之可縮放的編碼器的方塊圖。
圖5為說明可由編碼器實施之MDCT頻譜編碼過程的方塊圖。
圖6為說明可如何選擇訊框及將其劃分成區域及子頻帶以促進對MDCT頻譜之編碼之一實例的圖解。
圖7說明用於以有效方式而對音頻訊框進行編碼的通用方法。
圖8為說明可對MDCT音頻訊框中之脈衝進行有效地編碼之編碼器的方塊圖。
圖9為說明用於針對訊框而獲得形狀向量之方法的流程圖。
圖10為說明用於在可縮放的語言及音頻編解碼器中對轉換頻譜進行編碼之方法的方塊圖。
圖11為說明解碼器之實例的方塊圖。
圖12為說明用於在可縮放的語言及音頻編解碼器中對轉換頻譜進行編碼之方法的方塊圖。
圖13為說明用於在可縮放的語言及音頻編解碼器中對轉換頻譜進行解碼之方法的方塊圖。
801...MDCT頻譜音頻訊框
802...編碼器
804...子頻帶產生器
806...區域產生器
808...主脈衝選擇器
809...子脈衝選擇器
810...符號編碼器
812...位置編碼器
814...增益編碼器
816...振幅編碼器
818...符號編碼器
820...位置編碼器
822...增益編碼器
824...振幅編碼器

Claims (40)

  1. 一種用於在一可縮放的語言及音頻編解碼器中進行編碼之方法,其包含:自一基於碼激勵線性預測(CELP)之編碼層獲得一殘餘信號,其中該殘餘信號為一原始音頻信號與該原始音頻信號之一經重建型式之間的一差異;在一離散餘弦轉換(DCT)型轉換層處轉換該殘餘信號以獲得一具有複數個頻譜線之相應轉換頻譜;及使用一結合的位置編碼技術而對該些轉換頻譜頻譜線進行編碼。
  2. 如請求項1之方法,其中該DCT型轉換層為一經改良之離散餘弦轉換(MDCT)層,且該轉換頻譜為一MDCT頻譜。
  3. 如請求項1之方法,其中對該些轉換頻譜頻譜線之編碼包括:基於針對非零頻譜線位置而使用該結合的位置編碼技術來表示頻譜線位置而對一選定頻譜線子集之位置進行編碼。
  4. 如請求項1之方法,其進一步包含:將該複數個頻譜線分裂成複數個子頻帶;及將連續子頻帶群組成複數個區域。
  5. 如請求項4之方法,其進一步包含:對選自該些區域中之該些子頻帶中之每一者的複數個頻譜線的一主脈衝進行編碼。
  6. 如請求項4之方法,其進一步包含: 基於針對非零頻譜線位置而使用該結合的位置編碼技術來表示頻譜線位置而對一選定頻譜線子集在該複數個區域中之一區域內之位置進行編碼;其中對該些轉換頻譜頻譜線之編碼包括基於該選定頻譜線子集的該些位置而產生等於該區域中之所有位置的長度之所有可能二進位串的一陣列。
  7. 如請求項4之方法,其中該些區域為重疊的且每一該些區域包括複數個連續子頻帶。
  8. 如請求項1之方法,其中該結合的位置編碼技術包括:針對一選定頻譜線子集而產生複數個詞典式索引,其中每一該些詞典式索引表示複數個表示該選定頻譜線子集之該些位置的可能二進位串中之一者。
  9. 如請求項8之方法,其中每一該複數個詞典式索引以比該二進位串之長度少的位元的一二進位串來表示非零頻譜線。
  10. 如請求項1之方法,其中該結合的位置編碼技術包括:產生一表示頻譜線在一二進位串內之位置的索引,該些頻譜線之該些位置係基於一結合的公式來編碼: 其中n 為該二進位串之長度,k 為待編碼之選定頻譜線的數目,且w j 表示該二進位串之個別位元。
  11. 如請求項1之方法,其進一步包含:在編碼之前撤消一頻譜線集合以減少頻譜線之數目。
  12. 如請求項1之方法,其中該原始音頻信號之該經重建型式係藉由以下各者而獲得:合成來自該基於CELP之編碼層的該原始音頻信號之一經編碼型式以獲得一經合成信號;重新強調該經合成信號;及對該經重新強調信號進行上取樣以獲得該原始音頻信號之該經重建型式。
  13. 一種可縮放的語言及音頻編碼器器件,其包含:一離散餘弦轉換(DCT)型轉換層模組,其經調適以:自一基於碼激勵線性預測(CELP)之編碼層模組獲得一殘餘信號,其中該殘餘信號為一原始音頻信號與該原始音頻信號之一經重建型式之間的一差異;及轉換該殘餘信號以獲得一具有複數個頻譜線之相應轉換頻譜;及一結合的頻譜編碼器,其經調適以使用一結合的位置編碼技術而對該些轉換頻譜頻譜線進行編碼。
  14. 如請求項13之器件,其中該DCT型轉換層模組為一經改良之離散餘弦轉換(MDCT)層模組,且該轉換頻譜為一MDCT頻譜。
  15. 如請求項13之器件,其中對該些轉換頻譜頻譜線之編碼包括:基於針對非零頻譜線位置而使用該結合的位置編碼技術來表示頻譜線位置而對一選定頻譜線子集之位置進行編碼。
  16. 如請求項13之器件,其進一步包含:一子頻帶產生器,其經調適以將該複數個頻譜線分裂成複數個子頻帶;及一區域產生器,其經調適以將連續子頻帶群組成複數個區域。
  17. 如請求項16之器件,其進一步包含:一主脈衝編碼器,其經調適以對選自該些區域中之該些子頻帶中之每一者的複數個頻譜線的一主脈衝進行編碼。
  18. 如請求項16之器件,其進一步包含:一子脈衝編碼器,其經調適以基於針對非零頻譜線位置而使用該結合的位置編碼技術來表示頻譜線位置而對一選定頻譜線子集在該複數個區域中之一區域內之位置進行編碼;其中對該些轉換頻譜頻譜線之編碼包括基於該選定頻譜線子集的該些位置而產生等於該區域中之所有位置的長度之所有可能二進位串的一陣列。
  19. 如請求項16之器件,其中該些區域為重疊的且每一該些區域包括複數個連續子頻帶。
  20. 如請求項13之器件,其中該結合的位置編碼技術包括:針對一選定頻譜線子集而產生一詞典式索引,其中每一詞典式索引表示複數個表示該選定頻譜線子集之該些位置的可能二進位串中之一者。
  21. 如請求項20之器件,其中每一該些詞典式索引以比該二 進位串之長度少的位元的一二進位串來表示非零頻譜線。
  22. 如請求項13之器件,其中該結合的頻譜編碼器經調適以產生一表示頻譜線在一二進位串內之位置的索引,該些頻譜線之該些位置係基於一結合的公式來編碼: 其中n 為該二進位串之長度,k 為待編碼之選定頻譜線的數目,且w j 表示該二進位串之個別位元。
  23. 如請求項13之器件,其中該原始音頻信號之該經重建型式係藉由以下各者而獲得:合成來自該基於CELP之編碼層的該原始音頻信號之一經編碼型式以獲得一經合成信號;重新強調該經合成信號;及對該經重新強調信號進行上取樣以獲得該原始音頻信號之該經重建型式。
  24. 一種可縮放的語言及音頻編碼器器件,其包含:用於自一基於碼激勵線性預測(CELP)之編碼層獲得一殘餘信號的構件,其中該殘餘信號為一原始音頻信號與該原始音頻信號之一經重建型式之間的一差異;用於在一離散餘弦轉換(DCT)型轉換層處轉換該殘餘信號以獲得一具有複數個頻譜線之相應轉換頻譜的構件;及用於使用一結合的位置編碼技術而對該些轉換頻譜頻 譜線進行編碼的構件。
  25. 一種包括一可縮放的語言及音頻編碼電路之處理器,其經調適以:自一基於碼激勵線性預測(CELP)之編碼層獲得一殘餘信號,其中該殘餘信號為一原始音頻信號與該原始音頻信號之一經重建型式之間的一差異;在一離散餘弦轉換(DCT)型轉換層處轉換該殘餘信號以獲得一具有複數個頻譜線之相應轉換頻譜;及使用一結合的位置編碼技術而對該些轉換頻譜頻譜線進行編碼。
  26. 一種包含針對可縮放的語言及音頻編碼而操作之指令之機器可讀媒體,該些指令在由一或多個處理器執行時使該些處理器:自一基於碼激勵線性預測(CELP)之編碼層獲得一殘餘信號,其中該殘餘信號為一原始音頻信號與該原始音頻信號之一經重建型式之間的一差異;在一離散餘弦轉換(DCT)型轉換層處轉換該殘餘信號以獲得一具有複數個頻譜線之相應轉換頻譜;及使用一結合的位置編碼技術而對該些轉換頻譜頻譜線進行編碼。
  27. 一種用於可縮放的語言及音頻解碼之方法,其包含:獲得一表示一殘餘信號之複數個轉換頻譜頻譜線之索引,其中該殘餘信號為一原始音頻信號與來自一基於碼激勵線性預測(CELP)之編碼層的該原始音頻信號之一經 重建型式之間的一差異;藉由使用以對該複數個轉換頻譜頻譜線進行編碼之一結合的位置編碼技術反向而對該索引進行解碼;及在一反向離散餘弦轉換(IDCT)型反向轉換層處使用該經解碼之複數個轉換頻譜頻譜線來合成該殘餘信號之一型式。
  28. 如請求項27之方法,其進一步包含:接收對該原始音頻信號進行編碼之一經CELP編碼信號;對該經CELP編碼信號進行解碼以產生一經解碼信號;及將該經解碼信號與該殘餘信號之該經合成型式結合以獲得該原始音頻信號之一經重建型式。
  29. 如請求項27之方法,其中合成該殘餘信號之一型式包括:將一反向DCT型轉換應用於該些轉換頻譜頻譜線以產生該殘餘信號之一時域型式。
  30. 如請求項27之方法,其中對該些轉換頻譜頻譜線之解碼包括:基於針對非零頻譜線位置而使用該結合的位置編碼技術來表示頻譜線位置而對一選定頻譜線子集之位置進行解碼。
  31. 如請求項27之方法,其中該索引以比該二進位串之長度少的位元的一二進位串來表示非零頻譜線。
  32. 如請求項27之方法,其中該IDCT型反向轉換層為一反向 之經改良之離散餘弦轉換(IMDCT)層,且該轉換頻譜為一MDCT頻譜。
  33. 如請求項27之方法,其中該所獲得之索引表示頻譜線在一二進位串內之位置,該些頻譜線之該些位置係基於一結合的公式來編碼: 其中n 為該二進位串之長度,k 為待編碼之選定頻譜線的數目,且w j 表示該二進位串之個別位元。
  34. 一種可縮放的語言及音頻解碼器器件,其包含:一結合的頻譜解碼器,其經調適以:獲得一表示一殘餘信號之複數個轉換頻譜頻譜線之索引,其中該殘餘信號為一原始音頻信號與來自一基於碼激勵線性預測(CELP)之編碼層的該原始音頻信號之一經重建型式之間的一差異;藉由使用以對該複數個轉換頻譜頻譜線進行編碼之一結合的位置編碼技術反向而對該索引進行解碼;及一反向離散餘弦轉換(IDCT)型反向轉換層模組,其經調適以使用該經解碼之複數個轉換頻譜頻譜線來合成該殘餘信號之一型式。
  35. 如請求項34之器件,其進一步包含:一CELP解碼器,其經調適以:接收對該原始音頻信號進行編碼之一經CELP編碼信號; 對該經CELP編碼信號進行解碼以產生一經解碼信號;及將該經解碼信號與該殘餘信號之該經合成型式結合以獲得該原始音頻信號之一經重建型式。
  36. 如請求項34之器件,其中合成該殘餘信號之一型式,該(IDCT)型反向轉換層模組經調適以將一反向DCT型轉換應用於該些轉換頻譜頻譜線以產生該殘餘信號之一時域型式。
  37. 如請求項34之器件,其中該索引以比該二進位串之長度少的位元的一二進位串來表示非零頻譜線。
  38. 一種可縮放的語言及音頻解碼器器件,其包含:用於獲得一表示一殘餘信號之複數個轉換頻譜頻譜線之索引的構件,其中該殘餘信號為一原始音頻信號與來自一基於碼激勵線性預測(CELP)之編碼層的該原始音頻信號之一經重建型式之間的一差異;用於藉由使用以對該複數個轉換頻譜頻譜線進行編碼之一結合的位置編碼技術反向而對該索引進行解碼的構件;及用於在一反向離散餘弦轉換(IDCT)型反向轉換層處使用該經解碼之複數個轉換頻譜頻譜線來合成該殘餘信號之一型式的構件。
  39. 一種包括一可縮放的語言及音頻解碼電路之處理器,其經調適以:獲得一表示一殘餘信號之複數個轉換頻譜頻譜線之索 引,其中該殘餘信號為一原始音頻信號與來自一基於碼激勵線性預測(CELP)之編碼層的該原始音頻信號之一經重建型式之間的一差異;藉由使用以對該複數個轉換頻譜頻譜線進行編碼之一結合的位置編碼技術反向而對該索引進行解碼;及在一反向離散餘弦轉換(IDCT)型反向轉換層處使用該經解碼之複數個轉換頻譜頻譜線來合成該殘餘信號之一型式。
  40. 一種包含針對可縮放的語言及音頻解碼而操作之指令之機器可讀媒體,該些指令在由一或多個處理器執行時使該些處理器:獲得一表示一殘餘信號之複數個轉換頻譜頻譜線之索引,其中該殘餘信號為一原始音頻信號與來自一基於碼激勵線性預測(CELP)之編碼層的該原始音頻信號之一經重建型式之間的一差異;藉由使用以對該複數個轉換頻譜頻譜線進行編碼之一結合的位置編碼技術反向而對該索引進行解碼;及在一反向離散餘弦轉換(IDCT)型反向轉換層處使用該經解碼之複數個轉換頻譜頻譜線來合成該殘餘信號之一型式。
TW097140565A 2007-10-22 2008-10-22 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體 TWI407432B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US98181407P 2007-10-22 2007-10-22
US12/255,604 US8527265B2 (en) 2007-10-22 2008-10-21 Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs

Publications (2)

Publication Number Publication Date
TW200935402A TW200935402A (en) 2009-08-16
TWI407432B true TWI407432B (zh) 2013-09-01

Family

ID=40210550

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097140565A TWI407432B (zh) 2007-10-22 2008-10-22 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體

Country Status (13)

Country Link
US (1) US8527265B2 (zh)
EP (1) EP2255358B1 (zh)
JP (2) JP2011501828A (zh)
KR (1) KR20100085994A (zh)
CN (2) CN102968998A (zh)
AU (1) AU2008316860B2 (zh)
BR (1) BRPI0818405A2 (zh)
CA (1) CA2701281A1 (zh)
IL (1) IL205131A0 (zh)
MX (1) MX2010004282A (zh)
RU (1) RU2459282C2 (zh)
TW (1) TWI407432B (zh)
WO (1) WO2009055493A1 (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
ES2817906T3 (es) 2007-04-29 2021-04-08 Huawei Tech Co Ltd Método de codificación de impulsos de las señales de excitación
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
US9009037B2 (en) * 2009-10-14 2015-04-14 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therefor
JP5245014B2 (ja) 2009-10-20 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 領域に依存した算術符号化マッピングルールを使用した、オーディオ符号器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および、コンピュータプログラム
US9153242B2 (en) * 2009-11-13 2015-10-06 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus, and related methods that use plural coding layers
WO2011062535A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for loudness and sharpness compensation in audio codecs
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
KR101339057B1 (ko) * 2010-01-12 2013-12-10 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 정보 인코딩과 디코딩 방법, 및 이전에 디코딩된 스펙트럼 값들의 놈에 기초하여 콘텍스트 서브구역 값을 획득하는 컴퓨터 프로그램
CN102870155B (zh) 2010-01-15 2014-09-03 Lg电子株式会社 处理音频信号的方法和装置
EP2357649B1 (en) * 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio
CN102299760B (zh) 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器
WO2012005210A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、装置、プログラムおよび記録媒体
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US8879634B2 (en) 2010-08-13 2014-11-04 Qualcomm Incorporated Coding blocks of data using one-to-one codes
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012157932A2 (en) 2011-05-13 2012-11-22 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
JP5969614B2 (ja) 2011-09-28 2016-08-17 エルジー エレクトロニクス インコーポレイティド 音声信号符号化方法及び音声信号復号方法
EP2733699B1 (en) * 2011-10-07 2017-09-06 Panasonic Intellectual Property Corporation of America Scalable audio encoding device and scalable audio encoding method
US8924203B2 (en) 2011-10-28 2014-12-30 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
BR112013026452B1 (pt) * 2012-01-20 2021-02-17 Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V. aparelho e método para codificação e decodificação de áudio empregando substituição sinusoidal
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
KR101714278B1 (ko) * 2012-07-12 2017-03-08 노키아 테크놀로지스 오와이 벡터 양자화
EP2720222A1 (en) 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
MX355630B (es) * 2012-11-05 2018-04-25 Panasonic Ip Corp America Dispositivo de codificacion de voz audio, dispositivo de decodificacion de voz audio, metodo de codificacion de voz audio y metodo de decodificacion de voz audio.
PL3451334T3 (pl) 2013-01-29 2020-12-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja wypełniania szumem
WO2014118136A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
PL3098811T3 (pl) 2013-02-13 2019-04-30 Ericsson Telefon Ab L M Ukrywanie błędu ramki
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
ES2666899T3 (es) 2013-03-26 2018-05-08 Dolby Laboratories Licensing Corporation Codificación de contenido de vídeo perceptualmente-cuantizado en codificación VDR multicapa
JP6482540B2 (ja) 2013-06-21 2019-03-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
ES2671006T3 (es) * 2013-06-21 2018-06-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Reconstrucción de una trama de voz
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
JP6243540B2 (ja) 2013-09-16 2017-12-06 サムスン エレクトロニクス カンパニー リミテッド スペクトル符号化方法及びスペクトル復号化方法
US10388293B2 (en) 2013-09-16 2019-08-20 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
PT3058567T (pt) * 2013-10-18 2017-07-27 ERICSSON TELEFON AB L M (publ) Codificação de posições de picos espectrais
CA2925734C (en) * 2013-10-18 2018-07-10 Guillaume Fuchs Coding of spectral coefficients of a spectrum of an audio signal
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
ES2805744T3 (es) 2013-10-31 2021-02-15 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
PL3336841T3 (pl) 2013-10-31 2020-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem maskowania błędów modyfikującego sygnał pobudzenia w dziedzinie czasu
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
WO2015122752A1 (ko) 2014-02-17 2015-08-20 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CN106233112B (zh) * 2014-02-17 2019-06-28 三星电子株式会社 信号编码方法和设备以及信号解码方法和设备
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
EP3132443B1 (en) 2014-04-17 2018-12-26 VoiceAge Corporation Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
KR20170037970A (ko) 2014-07-28 2017-04-05 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2016091893A1 (en) * 2014-12-09 2016-06-16 Dolby International Ab Mdct-domain error concealment
US10504525B2 (en) * 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
WO2019056107A1 (en) 2017-09-20 2019-03-28 Voiceage Corporation METHOD AND DEVICE FOR ALLOCATING A BINARY BUDGET BETWEEN SUB-FRAMES IN A CELP CODEC
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347623B (en) * 1995-08-31 1998-12-11 Nippon Steel Corp Digital data encoding device and method therefor
US5970443A (en) * 1996-09-24 1999-10-19 Yamaha Corporation Audio encoding and decoding system realizing vector quantization using code book in communication system
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
TW490980B (en) * 1999-09-24 2002-06-11 Sony Electronics Inc Classified adaptive error recovery method and apparatus
US20030220783A1 (en) * 2002-03-12 2003-11-27 Sebastian Streich Efficiency improvements in scalable audio coding
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100335611B1 (ko) 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
CN100583241C (zh) * 2003-04-30 2010-01-20 松下电器产业株式会社 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
JP4445328B2 (ja) 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
BRPI0515551A (pt) 2004-09-17 2008-07-29 Matsushita Electric Ind Co Ltd aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de comunicação e método de codificação de áudio
JP5036317B2 (ja) 2004-10-28 2012-09-26 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP4887279B2 (ja) 2005-02-01 2012-02-29 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
WO2007105586A1 (ja) 2006-03-10 2007-09-20 Matsushita Electric Industrial Co., Ltd. 符号化装置および符号化方法
US8711925B2 (en) * 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347623B (en) * 1995-08-31 1998-12-11 Nippon Steel Corp Digital data encoding device and method therefor
US5970443A (en) * 1996-09-24 1999-10-19 Yamaha Corporation Audio encoding and decoding system realizing vector quantization using code book in communication system
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
TW490980B (en) * 1999-09-24 2002-06-11 Sony Electronics Inc Classified adaptive error recovery method and apparatus
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US20030220783A1 (en) * 2002-03-12 2003-11-27 Sebastian Streich Efficiency improvements in scalable audio coding

Also Published As

Publication number Publication date
EP2255358A1 (en) 2010-12-01
CN101836251B (zh) 2012-12-12
AU2008316860A1 (en) 2009-04-30
CA2701281A1 (en) 2009-04-30
WO2009055493A1 (en) 2009-04-30
AU2008316860B2 (en) 2011-06-16
JP2011501828A (ja) 2011-01-13
BRPI0818405A2 (pt) 2016-10-11
RU2010120678A (ru) 2011-11-27
MX2010004282A (es) 2010-05-05
CN101836251A (zh) 2010-09-15
TW200935402A (en) 2009-08-16
JP2013178539A (ja) 2013-09-09
IL205131A0 (en) 2010-11-30
KR20100085994A (ko) 2010-07-29
US20090234644A1 (en) 2009-09-17
US8527265B2 (en) 2013-09-03
EP2255358B1 (en) 2013-07-03
CN102968998A (zh) 2013-03-13
RU2459282C2 (ru) 2012-08-20

Similar Documents

Publication Publication Date Title
TWI407432B (zh) 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體
US8515767B2 (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
KR101508819B1 (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
Ragot et al. Itu-t g. 729.1: An 8-32 kbit/s scalable coder interoperable with g. 729 for wideband telephony and voice over ip
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
MX2011000362A (es) Esquema de codificacion/decodificacion de audio a baja velocidad binaria y conmutadores en cascada.
Ganesh et al. A survey of various effective Codec implementation methods with different real time applications

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees