TWI751584B - 具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式 - Google Patents

具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式 Download PDF

Info

Publication number
TWI751584B
TWI751584B TW109120247A TW109120247A TWI751584B TW I751584 B TWI751584 B TW I751584B TW 109120247 A TW109120247 A TW 109120247A TW 109120247 A TW109120247 A TW 109120247A TW I751584 B TWI751584 B TW I751584B
Authority
TW
Taiwan
Prior art keywords
frame
audio data
audio
value
optimized
Prior art date
Application number
TW109120247A
Other languages
English (en)
Other versions
TW202101428A (zh
Inventor
珍恩 布特
馬可斯 史奈爾
史蒂芬 多希拉
柏哈德 吉瑞爾
馬汀 迪茲
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202101428A publication Critical patent/TW202101428A/zh
Application granted granted Critical
Publication of TWI751584B publication Critical patent/TWI751584B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本文提供一種用於編碼音訊輸入資料之音訊編碼器,其包含:一預處理器,其用於預處理該音訊輸入資料以獲得待寫碼之音訊資料;一寫碼器處理器,用於寫碼該待寫碼之音訊資料;及一控制器,其用於控制該寫碼器處理器,使得取決於該待寫碼之音訊資料之一第一訊框的一第一信號特性,待由該寫碼器處理器針對該第一訊框寫碼之該音訊資料之音訊資料項的數目與一第二訊框之一第二信號特性相比減少,且用於針對該第一訊框寫碼該減少數目的音訊資料項之一第一數目個資訊單元與用於該第二訊框之一第二數目個資訊單元相比增強得更多。

Description

具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式 發明領域
本發明係有關於音訊信號處理,且特定言之,係有關於應用信號相依數及精度控制之音訊編碼器/解碼器。
發明背景
現代基於變換之音訊寫碼器將一系列心理聲學促動處理應用於音訊段(訊框)之頻譜表示以獲得殘餘頻譜。量化此殘餘頻譜,且使用熵寫碼來編碼係數。
在此方法中,通常經由全局增益控制之量化步長大小對熵寫碼器之位元消耗具有直接影響,且需要以使得滿足通常有限且往往固定之位元預算的方式而選定。由於熵寫碼器,且特定言之算術寫碼器之位元消耗在編碼之前並不確切已知,所以計算最佳全局增益可能僅在量化及編碼之閉合迴路迭代中進行。然而,在某些複雜度約束下,如算術編碼具有明顯計算複雜度,此為不可行的。
如可見於3GPP EVS編解碼器中之最先進的寫碼器因此通常以用於導出第一全局增益估計之位元消耗估計器為特徵,該位元消耗估計器通常依殘餘信號之功率譜操作。取決於複雜度約束,此可後接速率迴路以優化第一估計。單獨或結合極有限校正能力使用此估計降低複雜度,而且降低準確度從而導致位元消耗之明顯低估或高估。
位元消耗之高估在第一編碼級之後導致過量位元。最先進的編碼器使用此等過量位元來在被稱作殘餘寫碼之第二寫碼級中優化編碼係數之量化。殘餘寫碼根本上不同於第一編碼級,此係由於其作用於位元粒度且因此並未併入有任何熵寫碼。另外,殘餘寫碼通常僅在具有不等於零之經量化值的頻率下應用,從而保留並不進一步改良之盲區。
另一方面,位元消耗之低估必然導致頻譜係數之部分損失,通常最高頻率。在最先進的編碼器中,藉由在解碼器處應用雜訊替換來減輕此效應,雜訊替換係基於假設高頻內容通常為有雜訊的。
在此設置中,顯而易見的係,需要在第一編碼步驟中編碼儘可能多的信號,該第一編碼步驟使用熵寫碼且因此比殘餘寫碼步驟更有效。因此,吾人想要選擇具有儘可能地接近於可用位元預算之位元估計的全局增益。雖然基於功率譜之估計器適用於大部分音訊內容,但其可導致高音調信號之問題,其中該第一級估計係主要基於濾波器組之頻率分解的不相關旁瓣,而重要分量歸因於位元消耗之低估而丟失。
發明概要
本發明之目標為提供一種用於音訊編碼或解碼之改良概念,儘管如此,該改良概念亦為有效的且獲得良好音訊品質。
此目標藉由技術方案1之音訊編碼器、技術方案33之編碼音訊輸 入資料的方法及技術方案35之音訊解碼器、技術方案41之解碼經編碼音訊資料的方法或技術方案42之電腦程式來達成。
本發明係基於以下發現:為了尤其關於一方面位元率及另一方面音訊品質提高效率,關於由心理聲學考慮給定之典型情形的信號相依改變為必需的。當預期平均結果時,典型心理聲學模型或心理聲學考慮平均地針對所有信號類別,亦即,針對所有音訊信號訊框而無關於其信號特性,以低位元率產生良好音訊品質。然而,已發現,對於特定信號類別或用於具有特定信號特性之信號,諸如幾乎音調信號,簡單心理聲學模型或編碼器之直接心理聲學控制僅相對於音訊品質(當位元率保持恆定時)或相對於位元率(當音訊品質保持恆定時)產生次最佳結果。
因此,為了解決典型心理聲學考慮之此缺點,在音訊編碼器的上下文中,本發明提供:用於預處理音訊輸入資料以獲得待編碼之音訊資料的預處理器;及用於寫碼待寫碼之音訊資料的寫碼器處理器;用於控制寫碼器處理器之控制器,其方式為使得取決於訊框之特定信號特性,待由寫碼器處理器寫碼之音訊資料的音訊資料項之數目與藉由最先進的心理聲學考慮獲得之典型簡單結果相比減少。另外,以信號相依方式完成音訊資料項之數目的此減少,以使得對於具有特定第一信號特性之訊框,該數目與具有不同於第一訊框之信號特性的另一信號特性的另一訊框相比減少得更多。儘管音訊資料項之數目的此減少可被視為絕對數之減少或相對數目之減少,但此並非決定性的。然而,特徵在於藉由音訊資料項之數目的既定減少而「保存」之資訊單元並非簡單地丟失,而係用於更精確地寫碼剩餘數目個資料項,亦即,並未藉由音訊資料項之數目的既定減少而消除的資料項。
根據本發明,用於控制寫碼器處理器之控制器以一種方式操作,該方式使得取決於待寫碼之音訊資料之第一訊框的第一信號特性,待由寫碼器 處理器針對第一訊框寫碼之該音訊資料之音訊資料項的數目與第二訊框之第二信號特性相比減少,且同時,用於針對第一訊框寫碼減少數目個音訊資料項的第一數目個資訊單元與第二訊框之第二數目個資訊單元相比增強得更多。
在一較佳實施例中,以一種方式完成減少,該方式使得對於更多音調信號訊框,執行大量減少,且同時,個別線之位元的數目與音調較低,亦即更具雜訊之訊框相比增強得更多。此處,數目並未以此較高程度減少,且對應地,用於編碼較低音調音訊資料項之資訊單元之數目並未增大如此多。
本發明提供一種框架,其中,以信號相依方式,或多或少地違反了通常提供之心理聲學考慮。然而,另一方面,此違反並未被視為在普通編碼器中,其中心理聲學之違反例如在緊急情形中進行,諸如為了維持所要位元率將較高頻率部分設定為零之情形。實際上,根據本發明,普通心理聲學考慮之此違反無關於任何緊急情形而進行,且「經保存」資訊單元應用於進一步優化「留存之」音訊資料項。
在較佳實施例中,使用兩級寫碼器處理器,其具有例如諸如算術編碼器之熵編碼器或諸如霍夫曼寫碼器之可變長度編碼器作為初始寫碼級。第二寫碼級充當優化級,且此第二編碼器通常在較佳實施例中實施為殘餘寫碼器或在位元粒度上操作之位元寫碼器,其可例如藉由在資訊單元之第一值的情況下加上特定經定義偏移或在資訊單元之相反值的情況下減去偏移而實施。在一實施例中,此優化寫碼器較佳地實施為在第一位元值之情況下加上偏移且在第二位元值之情況下減去偏移的殘餘寫碼器。在一較佳實施例中,音訊資料項之數目的減少產生可用位元在典型固定訊框速率情形中之分佈以使得初始寫碼級接收比優化寫碼級更低之位元預算的方式發生改變的情形。迄今為止,範例為初始寫碼級接收儘可能高之位元預算而與信號特性無關,此係因為認為諸如算術寫碼級之初始寫碼級具有最高效率,且因此,自熵之觀點來看,比殘餘寫碼級更佳 地寫碼。然而,根據本發明,移除了此範例,此係因為已發現對於特定信號,諸如具有較高音調之信號,諸如算術寫碼器之熵寫碼器的效率並不與藉由諸如位元寫碼器之隨後連接之殘餘寫碼器獲得的效率一樣高。然而,雖然熵寫碼級平均而言對於音訊信號為高效的,但本發明現藉由並不觀察平均值但以信號相依方式減少初始寫碼級且較佳地音調信號部分之位元預算來解決此問題。
在一較佳實施例中,基於輸入資料之信號特性的自初始寫碼級至優化寫碼級之位元預算移位以一種方式進行,該方式使得至少兩個優化資訊單元可用於至少一個且較佳地50%且甚至更佳地資料項之數目的減少中留存之所有音訊資料項。另外,已發現,用於在編碼器側上計算此等優化資訊單元且在解碼器側上應用此等優化資訊單元之特別高效的程序為迭代程序,其中,在諸如自低頻至高頻之特定次序中,依次地消耗來自用於優化寫碼級之位元預算的剩餘位元。取決於留存音訊資料項之數目且取決於優化寫碼級之資訊單元的數目,迭代之數目可明顯地大於二,且已發現,對於強音調信號訊框,迭代之數目可為四、五或甚至更高。
在一較佳實施例中,以間接方式進行控制器對控制值之判定,亦即,無需信號特性之顯式判定。為此目的,基於經操縱輸入資料來計算控制值,其中此經操縱輸入資料為例如待量化之輸入資料或自待量化之資料導出的與振幅有關之資料。儘管寫碼器處理器之控制值係基於經操縱資料而判定,但實際量化/編碼在無此操縱的情況下執行。以此方式,藉由以信號相依方式判定用於操縱之操縱值而獲得信號相依程序,其中在無特定信號特性之明確知識的情況下,此操縱或多或少地影響音訊資料項之數目的所得減少。
在另一實施中,可應用直接模式,其中特定信號特性經直接估計,且取決於此信號分析之結果,執行資料項之數目的特定減少以便獲得留存資料項之更高精度。
在又一實施中,可出於減少音訊資料項的目的應用單獨程序。在單獨程序中,藉助於受通常心理聲學驅動量化器控制控制的量化且基於輸入音訊信號來獲得特定數目個資料項,已量化之音訊資料項相對於其數目減少,且較佳地,此減少係藉由相對於其振幅、其能量或其功率消除最小音訊資料項而完成。同樣,對減少之控制可藉由直接/顯式信號特性判定或藉由間接或非顯式信號控制而獲得。
在另一較佳實施例中,應用整合程序,其中可變量化器受控制以執行單個量化,但基於經操縱資料,同時,其中非操縱資料經量化。使用信號相依操縱資料來計算諸如全局增益之量化器控制值,而無此操縱之資料經量化,且使用所有可用資訊單元來寫碼量化結果,使得在兩級寫碼的情況下,保留優化寫碼級之通常大量資訊單元。
實施例提供一種高音調內容之品質損失之問題的解決方案,該解決方案係基於對用於估計熵寫碼器之位元消耗之功率譜的修改。雖然此修改增大了高音調內容之位元預算估計,但利用實際上無變化之平坦殘餘頻譜保持共同音訊內容之估計的信號自適應雜訊基準加法器存在此修改。此修改之影響為雙重的。第一,其使濾波器組雜訊及諧波分量之不相關旁瓣量化成零,該等諧波分量由雜訊基準覆蓋。第二,其使位元自第一編碼級移位至殘餘寫碼級。雖然此移位對於大部分信號為不合乎需要的,但對於高音調信號為完全有效的,此係因為位元用於提高諧波分量之量化準確度。此意謂移位用於以低有效性寫碼位元,該等位元通常遵循均勻分佈且因此完全有效地編碼有二進位表示。另外,程序為計算上便宜的,使得其為用於解決前述問題之極有效工具。
10:預處理器
11:音訊輸入資料
12,35,404,807:線
13:開窗器
14:頻譜轉換器
15,50:寫碼器處理器
20,60,200,814:控制器
21:控制器輸出資訊,全局增益,線
22:控制預處理器,區塊
23:操縱值計算器,區塊
24:組合器
25:全局增益計算器
26:搜尋器,區塊
27,28,29,806,812,901,902,903,904,911,912:區塊
30:位元串流寫入器
40:位元串流讀取器
51,151:初始寫碼級
52,152:優化寫碼級
70:後處理器
71:頻譜處理器
72:時間轉換器
73:重疊相加級
80:經解碼音訊資料
150:音訊資料項減少器
155:加權器
157:量化器核心
201:分析器
300,302,304,306,307,308,309,310,312,314,800,802,804,808,810,818:步驟
305,805:起始偏移
316:第一迭代優化位元
318:第二迭代優化位元
320:第三迭代優化位元
400,402:位元
隨後關於隨附圖式揭示本發明之較佳實施例,其中:圖1 為音訊編碼器之實施例; 圖2 說明圖1之寫碼器處理器的較佳實施;圖3 說明優化寫碼級之較佳實施;圖4a 說明具有迭代優化位元之第一或第二訊框的例示性訊框語法;圖4b 說明如可變量化器之音訊資料項減少器的較佳實施;圖5 說明具有頻譜預處理器之音訊編碼器的較佳實施;圖6 說明具有時間後處理器之音訊解碼器的較佳實施例;圖7 說明圖6之音訊解碼器之寫碼器處理器的實施;圖8 說明圖7之優化解碼級之較佳實施;圖9 說明用於控制值計算的間接模式之實施;圖10 說明圖9之操縱值計算器之較佳實施;圖11 說明直接模式控制值計算;圖12 說明單獨的音訊資料項減少之實施;且圖13 說明整合式音訊資料項減少之實施。
較佳實施例之詳細說明
圖1說明用於編碼音訊輸入資料11之音訊編碼器。音訊編碼器包含預處理器10、寫碼器處理器15及控制器20。預處理器10預處理音訊輸入資料11以便獲得項12處所說明之每訊框音訊資料或待寫碼之音訊資料。待寫碼之音訊資料經輸入至寫碼器處理器15中以用於寫碼待寫碼之音訊資料,且寫碼器處理器輸出經編碼音訊資料。關於其輸入,控制器20經連接至預處理器之每訊框音訊資料,但替代地,控制器亦可經連接以接收音訊輸入資料而無需任何預處理。控制器經組配以取決於訊框中之信號而減少每訊框之音訊資料項的數目,且同時,控制器取決於訊框中之信號針對減少數目個音訊資料項增加資訊單元,或較佳地,位元的數目。控制器經組配以用於控制寫碼器處理器15,使得取決 於待寫碼之音訊資料之第一訊框的第一信號特性,待由寫碼器處理器針對第一訊框寫碼之音訊資料之音訊資料項的數目與第二訊框之第二信號特性相比減少,且用於針對第一訊框寫碼減少數目個音訊資料項的多個資訊單元與第二訊框之第二數目個資訊單元相比增強得更多。
圖2說明寫碼器處理器的較佳實施。寫碼器處理器包含初始寫碼級151及優化寫碼級152。在一實施中,初始寫碼級包含熵編碼器,如算術或霍夫曼(Huffman)編碼器。在另一實施例中,優化寫碼級152包含在位元或資訊單元粒度上操作之位元編碼器或殘餘編碼器。另外,關於音訊資料項之數目的減少的功能性在圖2中藉由音訊資料項減少器150體現,該音訊資料項減少器150可例如在圖13中所說明之整合式減少模式中實施為可變量化器,或替代地,如單獨減少模式902中所說明實施為在已量化音訊資料項上操作的獨立元件,且在又一非所說明實施例中,音訊資料項減少器亦可藉由將非量化元素設定成零或藉由以特定加權數加權待消除之資料項而在此類非量化元素上操作,使得此類音訊資料項經量化成零,且因此,在隨後連接之量化器中經消除。圖2之音訊資料項減少器150可在單獨減少程序中在非量化或經量化資料元素上操作,或可如圖13整合式減少模式中所說明由特定地受信號相依控制值控制之可變量化器實施。
圖1之控制器20經組配以減少針對第一訊框由初始寫碼級151編碼之音訊資料項的數目,且初始寫碼級151經組配以使用第一訊框初始數目個資訊單元來寫碼第一訊框之減少數目個音訊資料項,且初始數目個資訊單元之經計算位元/單元由如圖2中所說明之區塊151輸出,項151。
另外,優化寫碼級152經組配以將第一訊框剩餘數目個資訊單元用於第一訊框之減少數目個音訊資料項的優化寫碼,且第一訊框初始數目個資訊單元添加至第一訊框剩餘數目個資訊單元產生第一訊框之預定數目個資訊單 元。特定言之,優化寫碼級152輸出第一訊框剩餘數目個位元及第二訊框剩餘數目個位元,且對於至少一個或較佳地至少50%或甚至更佳地所有非零音訊資料項,亦即經受住音訊資料項之減少且最初由初始寫碼級151寫碼之音訊資料項而言,確實存在至少兩個優化位元。
較佳地,第一訊框之資訊單元的預定數目等於第二訊框之資訊單元的預定數目或相當接近於第二訊框之資訊單元的預定數目,使得獲得音訊編碼器之恆定或實質上恆定的位元率操作。
如圖2中所說明,音訊資料項減少器150以信號相依方式將音訊資料項減少至低於心理聲學驅動數。因此,對於第一信號特性,數目相比於心理聲學驅動數僅略微減少,且舉例而言,在具有第二信號特性之訊框中,數目顯著地減少至低於心理聲學驅動數。並且,較佳地,音訊資料項減少器以最小振幅/功率/能量來消除資料項,且此操作較佳地經由在整合模式中獲得的間接選擇執行,其中藉由將特定音訊資料項量化成零來進行音訊資料項之減少。在一實施例中,初始寫碼級僅編碼尚未量化成零之音訊資料項,且優化寫碼級152僅優化已由初始寫碼級處理之音訊資料項,亦即,尚未由圖2之音訊資料項減少器150量化成零的音訊資料項。
在一較佳實施例中,優化寫碼級經組配以在至少兩個依序執行之迭代中將第一訊框剩餘數目個資訊單元迭代地指派給第一訊框之減少數目個音訊資料項。特定言之,計算用於至少兩個依序執行之迭代的經指派資訊單元之值,且將用於至少兩個依序執行之迭代的資訊單元的計算值以預定次序引入至經編碼輸出訊框中。特定言之,優化寫碼級經組配以在第一迭代中以自音訊資料項之低頻資訊至音訊資料項之高頻資訊的次序依序指派第一訊框之減少數目個音訊資料項之各音訊資料項的資訊單元。特定言之,音訊資料項可為藉由時間/頻譜轉換獲得之個別頻譜值。替代地,音訊資料項可為通常在頻譜中彼此鄰接之 兩個或更多個頻譜線的元組。接著,自具有低頻資訊之特定起始值至具有最高頻率資訊之特定結束值進行位元值之計算,且在又一迭代中,執行相同程序,亦即,再一次執行自低頻譜資訊值/元組至高頻譜資訊值/元組之處理。特定言之,優化寫碼級152經組配以檢查已指派資訊單元的數目是否低於小於資訊單元之第一訊框初始數目的第一訊框之資訊單元的預定數目,且優化寫碼級亦經組配以在否定檢查結果的情況下停止第二迭代,或在肯定檢查結果的情況下執行多個其他迭代,直至獲得否定檢查結果為止,其中其他迭代的數目為1、2……較佳地,迭代的最大數目由兩位數限定,諸如在10至30之間的值,且較佳地20個迭代。在一替代性實施例中,若首先計數非零頻譜線,且相應地針對各迭代或針對整個程序調整殘餘位元的數目,則可省略對最大數目個迭代的檢查。因此,當存在例如20個留存頻譜元組及50個殘餘位元時,在編碼器或解碼器中之程序期間無任何檢查的情況下,吾人可判定迭代的數目為三,且在第三迭代中,優化位元將被計算或在用於前十個頻譜線/元組之位元串流中為可用的。因此,此替代例在迭代處理期間並不要求檢查,此係因為關於非零或留存音訊項之數目的資訊在編碼器或解碼器中之初始階段的處理之後為已知的。
圖3說明由圖2之優化寫碼級152執行之迭代程序的較佳實施,該迭代程序能夠實現是因為與其他程序對比,歸因於用於特定訊框之音訊資料項的對應減少,用於訊框之優化位元的數目針對此特定訊框已明顯增大。
在步驟300中,判定留存音訊資料項。此判定可藉由在已由圖2之初始寫碼級151處理之音訊資料項上操作而自動執行。在步驟302中,程序的開始在諸如具有最低頻譜資訊之音訊資料項的預定義音訊資料處進行。在步驟304中,計算預定義序列中之各音訊資料項的位元值,其中此預定義序列為例如自低頻譜值/元組至高頻譜值/元組之序列。使用起始偏移305及優化位元仍可用之在控制中314來進行步驟304中之計算。在項316處,輸出第一迭代優化資訊 單元,亦即,指示各留存音訊資料項之一個位元的位元模式,其中該位元指示偏移,亦即起始偏移305,是將加上還是將減去,或替代地,該起始偏移是將加上還是不加上。
在步驟306中,以預定規則減少偏移。此預定規則可例如為偏移減半,亦即,新偏移為原始偏移的一半。然而,亦可應用與0.5加權不同之其他偏移減少規則。
在步驟308中,再次計算預定義序列中之各項的位元值,但現在處於第二迭代中。隨著輸入至第二迭代中,在307處所說明之第一迭代之後的經優化項得以輸入。因此,對於步驟314中之計算,由第一迭代優化資訊單元表示之優化已應用,且在如步驟314中所指示優化位元仍可用的先決條件下,在318處計算並輸出第二迭代優化資訊單元。
在步驟310中,藉由準備好用於第三迭代之預定規則來再次減少偏移,且第三迭代再一次依賴於309處所說明之第二迭代之後的經優化項且再次在如314處所指示優化位元仍可用的先決條件下,在320處計算並輸出第三迭代優化資訊單元。
圖4a說明具有用於第一訊框或第二訊框之資訊單元或位元的例示性訊框語法。訊框之位元資料之一部分由初始數目個位元,亦即項400,構成。另外,第一迭代優化位元316、第二迭代優化位元318及第三迭代優化位元320亦包括於訊框中。特定言之,根據訊框語法,解碼器處於適當位置以識別訊框之哪些位元為初始數目個位元,哪些位元為第一、第二或第三迭代改進位元316、318、320,且訊框中之哪些位元為任何其他位元402,舉例而言,可例如亦包括全局增益(global gain;gg)之經編碼表示的此任何旁側資訊例如可直接由控制器200計算或可例如藉助於控制器輸出資訊21受控制器影響。在區段316、318、320內,給定個別資訊單元之特定序列。此序列為較佳地,使得位元序列中之位 元應用於待解碼之最初經解碼音訊資料項。由於相對於位元率要求,此序列對於明確地傳信關於第一、第二及第三迭代優化位元之任何內容並非有用的,所以區塊316、318、320中之個別位元的次序應與留存音訊資料項之對應次序相同。鑒於該情況,較佳為在如圖3中所說明之編碼器側上及如圖8中所說明之解碼器側上使用相同迭代程序。並不需要至少在區塊316至320中傳信任何特定位元分配或位元關聯。
另外,一方面初始數目個位元及另一方面剩餘數目個位元的數目僅為例示性的。通常地,通常編碼諸如頻譜值或頻譜值之元組的音訊資料項之最高有效位元部分的初始數目個位元大於表示「留存」音訊資料項之最低有效部分的迭代優化位元。另外,初始數目個位元400通常藉助於熵寫碼器或算術編碼器判定,但迭代優化位元係使用在資訊單元粒度上操作之殘餘或位元編碼器來判定。儘管優化寫碼級大概並不執行任何熵寫碼,但儘管如此,音訊資料項之最低有效位元部分的編碼由優化寫碼級更有效地進行,此係因為吾人可假定諸如頻譜值之音訊資料項的最低有效位元部分平均地分佈,且因此,具有可變長度碼或算術寫碼以及特定上下文之任何熵寫碼並不引入任何額外優勢,而相反地甚至會引入額外負擔。
換言之,對於音訊資料項之最低有效位元部分,使用算術寫碼器應比使用位元編碼器效率更低,此係因為位元編碼器對於特定上下文並不要求任何位元率。如由控制器引起之音訊資料項的既定減少不僅會提高主要頻譜線或線元組之精度,而且另外出於優化由算術或可變長度碼表示之此等音訊資料項的MSB部分的目的而提供高效編碼操作。
鑒於此情況,藉由一方面初始寫碼級151及另一方面優化寫碼級152藉助於如圖2中所說明之圖1的寫碼器處理器15之實施獲得若干及例如以下優勢。
提議高效兩級寫碼方案,包含第一熵寫碼級及基於單個位元(非熵)編碼之第二殘餘寫碼級。
方案採用低複雜度全局增益估計器,該全局增益估計器併入有用於第一寫碼級之以信號自適應雜訊基準加法器為特徵的基於能量之位元消耗估計器。
雜訊基準加法器實際上針對高音調信號將位元自第一編碼級傳送至第二編碼級,同時使對其他信號類型之估計無變化。自熵寫碼級至非熵寫碼級之此位元移位對於高音調信號為充分有效的。
圖4b說明可變量化器之較佳實施,該可變量化器可例如經實施以較佳地在關於圖13所說明之整合式減少模式中執行音訊資料項減少。為此目的,可變量化器包含接收在線12處所說明之待寫碼(非操縱)音訊資料的加權器155。此資料亦輸入至控制器20中,且控制器經組配以計算全局增益21,但基於如輸入至加權器155中的非操縱資料,且使用信號相依操縱。全局增益21在加權器155中應用,且加權器之輸出經輸入至依賴於固定量化步長之量化器核心157中。代表音訊資料項減少器150之可變量化器經實施為受控加權器,其中使用全局增益(gg)21及隨後連接之固定量化步長量化器核心157進行控制。然而,亦可執行其他實施,諸如具有受控制器20輸出值控制之可變量化步長的量化器核心。
圖5說明音訊編碼器之較佳實施,且特定言之,說明圖1之預處理器10的特定實施。較佳地,預處理器包含開窗器13,該開窗器13自音訊輸入資料11產生使用特定分析窗加窗之時域音訊資料的訊框,該特定分析窗可例如為餘弦窗。時域音訊資料之訊框輸入至頻譜轉換器14中,該頻譜轉換器14可經實施以執行修改型離散餘弦變換(modified discrete cosine transform;MDCT)或諸如FFT或MDST的任何其他變換或任何其他時間-頻譜轉換。較佳地,開窗器以特定提前控制操作,使得進行重疊訊框產生。在50%重疊的情況下,開窗器之 先驗值為由開窗器13應用之分析窗之大小的一半。將由頻譜轉換器輸出之頻譜值的(非量化)訊框輸入至頻譜處理器15中,該頻譜處理器15經實施以執行幾種頻譜處理,諸如執行時間雜訊塑形操作、頻譜雜訊塑形操作或諸如頻譜白化操作之任何其他操作,藉由該等頻譜處理,由頻譜處理器產生之經修改頻譜值具有比在由頻譜處理器15處理之前的頻譜值之頻譜包絡線更平坦的頻譜包絡線。待寫碼之音訊資料(每訊框)經由線12轉發至寫碼器處理器15中及控制器20中,其中控制器20經由線21將控制資訊提供至寫碼器處理器15。寫碼器處理器將其資料輸出至例如實施為位元串流多工器之位元串流寫入器30,且經編碼訊框在線35上輸出。
關於解碼器側處理,參考圖6。藉由區塊30輸出之位元串流可例如在某種儲存或傳輸之後直接輸入至位元串流讀取器40中。當然,可根據諸如DECT協定或藍芽協定或任何其他無線傳輸協定之無線傳輸協定在編碼器與解碼器之間執行諸如傳輸處理之任何其他處理。將輸入至圖6中所展示之音訊解碼器中的資料輸入至位元串流讀取器40中。位元串流讀取器40讀取資料並將資料轉發至受控制器60控制之寫碼器處理器50。特定言之,位元串流讀取器接收經編碼資料,其中經編碼音訊資料針對訊框包含訊框初始數目個資訊單元及訊框剩餘數目個資訊單元。寫碼器處理器50處理經編碼音訊資料,且寫碼器處理器50包含如圖7中所說明之在用於初始解碼級的項51處及在用於優化解碼級之項52處的初始解碼級及優化解碼級,該初始解碼級及優化解碼級皆受控制器60控制。控制器60經組配以控制優化解碼級52以在優化如由圖7之初始解碼級51輸出之最初經解碼資料項時將剩餘數目個資訊單元中之至少兩個資訊單元用於優化同一個最初經解碼資料項。另外,控制器60經組配以控制寫碼器處理器,以使得初始解碼級使用訊框初始數目個資訊單元來在圖7中之線連接區塊51及52處獲得最初經解碼資料項,其中較佳地,控制器60如由進入圖6或 圖7之區塊60中的輸入線指示自位元串流讀取器40接收對一方面訊框初始數目個資訊單元及訊框初始剩餘數目個資訊單元的指示。後處理器70處理經優化音訊資料項以在後處理器70之輸出處獲得經解碼音訊資料80。
在對應於圖5之音訊編碼器的音訊解碼器之較佳實施中,後處理器70包含頻譜處理器71作為輸入級,該頻譜處理器71執行反向時間雜訊塑形操作,或反向頻譜雜訊塑形操作或反向頻譜白化操作,或減少由圖5之頻譜處理器15應用之某種處理的任何其他操作。將頻譜處理器之輸出輸入至時間轉換器72中,該時間轉換器72用以執行自譜域至時域之轉換,且較佳地,時間轉換器72與圖5之頻譜轉換器14匹配。將時間轉換器72之輸出輸入至重疊相加級73中,該重疊相加級73針對諸如至少兩個重疊訊框之多個重疊訊框執行重疊/相加操作,以便獲得經解碼音訊資料80。較佳地,重疊相加級73將合成窗應用於時間轉換器72之輸出,其中此合成窗與由分析開窗器13應用之分析窗匹配。另外,藉由區塊73執行之重疊操作與藉由圖5之開窗器13執行之區塊推進操作匹配。
如圖4a中所說明,訊框剩餘數目個資訊單元包含用於預定次序下之至少兩個依序迭代的資訊單元316、318、320之計算值,其中在圖4a實施例中,說明甚至三個迭代。另外,控制器60經組配以控制優化解碼級52以針對第一迭代將諸如區塊316之計算值用於根據預定次序之第一迭代,且針對第二迭代將來自區塊318之計算值用於按預定次序之第二迭代。
隨後,關於圖8說明在控制器60的控制下之優化解碼級的較佳實施。在步驟800中,控制器或圖7之優化解碼級52判定待優化之音訊資料項。此等音訊資料項通常為由圖7之區塊51輸出之所有音訊資料項。如步驟802中所指示,執行在諸如最低頻譜資訊之預定義音訊資料項處之起始。使用起始偏移805,針對預定義序列中之每一項應用804自位元串流或自控制器16接收到之 第一迭代優化資訊單元,例如,圖4a之區塊316中的資料,其中該預定義序列自低頻譜值/頻譜元組/頻譜資訊延伸至高頻譜值/頻譜元組/頻譜資訊。結果為如線807所說明之第一迭代之後的經優化音訊資料項。在步驟808中,應用預定義序列中之每一項的位元值,其中位元值來自如818處所說明之第二迭代優化資訊單元,且此等位元係取決於特定實施而自位元串流讀取器或控制器60接收到。步驟808之結果為第二迭代之後的經優化項。同樣,在步驟810中,根據在區塊806中已應用之預定偏移減少規則來減少偏移。利用減少之偏移,使用例如自位元串流或自控制器60接收到的第三迭代優化資訊單元來如812處所說明應用預定義序列中之每一項的位元值。在圖4a之項320處將第三迭代優化資訊單元寫入位元串流中。區塊812中之程序的結果為如821處所指示的第三迭代之後的經優化項。
此程序繼續直至包括於訊框之位元串流中之所有迭代優化位元經處理為止。此藉由控制器60經由控制線814檢查,該控制線814較佳地針對每一迭代但至少針對在區塊808、812中經處理之第二及第三迭代控制優化位元的剩餘可用性。在每一迭代中,控制器60控制優化解碼級以檢查已讀取資訊單元之數目是否低於訊框之訊框剩餘資訊單元中的資訊單元之數目,從而在否定檢查結果的情況下停止第二迭代,或在肯定檢查結果的情況下,執行多個其他迭代直至獲得否定檢查結果為止。其他迭代的數目為至少一。歸因於類似程序在圖3的上下文中論述之編碼器側上及如圖8中所概述之解碼器側上的應用,任何特定傳信並非必需的。實際上,多重迭代優化處理以高效方式進行而無需任何特定負擔。在一替代性實施例中,若首先計數非零頻譜線,且相應地針對各迭代調整殘餘位元的數目,則可省略對最大數目個迭代的檢查。
在較佳實施中,優化解碼級52經組配以在訊框剩餘數目個資訊單元中之讀取資訊資料單元具有第一值時將偏移加至最初經解碼資料項,且在訊 框剩餘數目個資訊單元中之讀取資訊資料單元具有第二值時自最初經解碼項減去偏移。對於第一迭代,此偏移為圖8之起始偏移805。在如圖8中之808處所說明的第二迭代中,在訊框剩餘數目個資訊單元中之讀取資訊資料單元具有第一值時,將如由區塊806產生之經減少偏移用於使經減少或第二偏移加至第一迭代的結果,且在訊框剩餘數目個資訊單元中之讀取資訊資料單元具有第二值時,將該經減少偏移用於自第一迭代之結果減去第二偏移。一般而言,第二偏移低於第一偏移,且較佳地,第二偏移在第一偏移之0.4倍至0.6倍之間且最佳地為第一偏移之0.5倍。
在使用圖9中所說明之間接模式的本發明之較佳實施中,任何顯式信號特性判定並非必需的。實際上,較佳地使用圖9中所說明之實施例來計算操縱值。對於間接模式,控制器20如圖9中所指示的實施。特定言之,控制器包含控制預處理器22、操縱值計算器23、組合器24及全局增益計算器25,該全局增益計算器25在最後計算實施為圖4b中所說明之可變量化器的圖2之音訊資料項減少器150之全局增益。特定言之,控制器20經組配以分析第一訊框之音訊資料來針對第一訊框判定可變量化器之第一控制值,且分析第二訊框之音訊資料以針對第二訊框判定可變量化器之第二控制值,第二控制值與第一控制值不同。藉由操縱值計算器23執行對訊框之音訊資料的分析。控制器20經組配以執行第一訊框之音訊資料的操縱。在此操作中,並不存在圖9中所說明之控制預處理器20,因此,區塊22之旁路管線為主動的。
然而,當操縱並未執行於第一訊框或第二訊框之音訊資料,但施加至自第一訊框或第二訊框之音訊資料導出的與振幅有關之值時,存在控制預處理器22且並不存在旁路管線。實際操縱由組合器24執行,該組合器24組合自區塊23輸出之操縱值與自特定訊框之音訊資料導出的與振幅有關之值。在組合器24之輸出處,確實存在經操縱(較佳地能量)資料,且基於此等經操縱資料, 全局增益計算器25計算404處指示之全局增益或至少全局增益的控制值。全局增益計算器25必須施加關於頻譜之所允許位元預算的限制,使得獲得訊框所允許之特定資料速率或特定數目個資訊單元。
在圖11處所說明之直接模式中,控制器20包含用於每訊框信號特性判定之分析器201,且分析器208輸出例如諸如音調資訊之定量信號特性資訊,且使用此較佳定量資料來控制控制值計算器202。一種用於計算訊框之音調的程序用來計算訊框之譜平度(spectral flatness measure;SFM)。任何其他音調判定程序或任何其他信號特性判定程序可藉由區塊201執行,且將執行自特定信號特性值至特定控制值之轉換以便獲得訊框之音訊資料項之數目的預期減少。用於圖11之直接模式的控制值計算器202之輸出可為至寫碼器處理器,諸如至可變量化器,或替代地至初始寫碼級之控制值。當控制值給定至可變量化器時,執行整合式減少模式,而當控制值給定至初始寫碼級時,執行單獨減少。單獨減少之另一實施應移除或特定地影響在實際量化之前存在的選定非量化音訊資料項,使得藉助於特定量化器,此受影響音訊資料項經量化成零,且因此,出於熵寫碼及後續優化寫碼之目的經消除。
儘管圖9之間接模式已連同整合式減少經展示,亦即,全局增益計算器25經組配以計算可變全局增益,但由組合器24輸出之經操縱資料亦可用以直接控制初始寫碼級以移除諸如最小經量化資料項之任何特定經量化音訊資料項,或替代地,控制值亦可經發送至未說明之音訊資料影響級,該音訊資料影響級在使用已在而無任何資料操縱的情況下經判定的可變量化控制值的實際量化之前影響音訊資料,且因此,通常遵守心理聲學規則,然而,本發明的程序有意違反該等心理聲學規則。
如圖11中對於直接模式所說明,控制器經組配以將第一音調特性判定為第一信號特性且將第二音調特性判定為第二信號特性,其方式為使得在 第一音調特性之情況下的優化寫碼級之位元預算與在第二音調特性之情況下的優化寫碼級之位元預算相比增大,其中第一音調特性指示比第二音調特性更大的音調。
本發明並不產生通常藉由應用較大全局增益獲得之較粗糙量化。實際上,基於信號相依操縱資料之全局增益的此計算僅產生自接收較小位元預算之初始寫碼級至接收較高位元預算之優化解碼級的位元預算移位,但此位元預算移位係以信號相依方式進行且對於越高音調信號部分越大。
較佳地,圖9之控制預處理器22計算與振幅有關之值作為自音訊資料之一或多個音訊值導出的複數個功率值。特定言之,其為藉助於組合器24使用相同操縱值之加法而操縱的此等功率值,且已由操縱值計算器23判定之相同操縱值與訊框之複數個功率值中的所有功率值組合。
替代地,如由旁路管線指示,將藉由區塊23計算之操縱值的同一量值獲得但較佳地具有隨機符號的值,及/或藉由略微不同術語自同一量值(但較佳地具有隨機符號)之減法而獲得的值或複雜操縱值,或更一般而言,作為樣本自使用操縱值之所計算複雜或真實量值縮放的特定正規化機率分佈獲得之值加至包括於訊框中之複數個音訊值中的所有音訊值。藉由控制預處理器22執行之程序,諸如計算功率譜及降低取樣,可包括在全局增益計算器25內。因此,較佳地,將雜訊基準直接加至頻譜音訊值或替代地加至自每訊框音訊資料導出的與振幅有關之值,亦即,控制預處理器22之輸出。較佳地,控制器預處理器計算對應於使用等於2之指數值取冪的經降低取樣功率譜。然而,替代地,可使用高於1之不同指數值。例示性地,等於3之指數值應表示響度而非功率。但,亦可使用諸如更小或更大指數值之其他指數值。
在圖10中所說明之較佳實施中,操縱值計算器23包含用於搜尋訊框中之最大頻譜值的搜尋器26及計算由圖10之項27指示的信號獨立貢獻中 的至少一者或用於如圖10之區塊28所說明計算每訊框一或多個矩之計算器。基本上,存在區塊26或區塊28以便對訊框之操縱值提供信號相依影響。特定言之,搜尋器26經組配以搜尋複數個音訊資料項或與振幅有關之值的最大值或搜尋對應訊框的複數個經降低取樣之音訊資料或複數個經降低取樣的與振幅有關之值的最大值。使用區塊26、27及28之輸出藉由區塊29進行實際計算,其中區塊26、28實際上表示信號分析。
較佳地,藉助於實際編碼器會話之位元率、訊框持續時間或實際編碼器會話之取樣頻率來判定信號獨立貢獻。另外,用於計算每訊框一或多個矩之計算器28經組配以計算自至少訊框內之音訊資料或經降低取樣音訊資料的量值之第一總和、訊框內之音訊資料或經降低取樣音訊資料的量值乘以與各量值相關聯之索引的第二總和以及第二總和與第一總和之商導出的信號相依加權值。
在藉由圖9之全局增益計算器25執行之較佳實施中,取決於能量值及實際控制值之候選值計算各能量值的所要位元估計。累積能量值之所要位元估計及控制值之候選值,且檢查控制值之候選值的累積位元估計是否滿足如例如圖9中所說明之所允許位元消耗準則,如引入至全局增益計算器25中之頻譜的位元預算。倘若並不滿足所允許位元消耗準則,則修改控制值之候選值,且重複對所要位元估計之計算、所要位元率之累積及用於控制值之經修改候選值的所允許位元消耗準則之實現的檢查。一旦發現此最佳控制值,即在圖9之線404處輸出此值。
隨後,說明較佳實施例。
編碼器之詳細描述(例如圖5)
記法
吾人藉由f s 表示以赫茲(Hz)為單位之潛在取樣頻率,藉由N ms 表示 以毫秒為單位之潛在訊框持續時間,且藉由br表示以位元每秒為單位之潛在位元率。
殘餘頻譜之導出(例如預處理器10)
實施例依真實殘餘頻譜X f (k),k=0...N-1操作,該真實殘餘頻譜通常藉由如MDCT之時間至頻率變換導出,繼之以如用以移除時間結構之時間雜訊塑形(TNS)及用以移除頻譜結構之頻譜雜訊塑形(SNS)的心理聲學促動修改。因此,對於具有緩慢改變之頻譜包絡線的音訊內容,殘餘頻譜X f (k)之包絡線為平坦的。
全局增益估計(例如圖9)
經由以下藉由全局增益g glob 控制頻譜之量化
Figure 109120247-A0305-02-0023-1
在以因子4降低取樣之後自功率譜X(k)2導出初始全局增益估計(圖9之項22),PX lpp (k)=X f (4k)2+X f (4k+1)2+X f (4k+2)2+X f (4k+3)2及藉由以下給定之信號自適應雜訊基準N(X f )
Figure 109120247-A0305-02-0023-2
。(例如圖9之項23)
參數regBits取決於位元率、訊框持續時間及取樣頻率,且計算為
Figure 109120247-A0305-02-0023-3
(例如圖10之項27)
具有如下表中所指定之C(N ms ,f s )。
Figure 109120247-A0305-02-0023-4
參數lowBits取決於殘餘頻譜之絕對值的質心且計算為
Figure 109120247-A0305-02-0023-43
,(例如圖10之項28)
其中
Figure 109120247-A0305-02-0024-7
Figure 109120247-A0305-02-0024-8
為絕對頻譜之矩。
自值E(k)=10 log10(PX lp (k)+N(X f )+2-31)
Figure 109120247-A0305-02-0024-6
之形式估計全局增益,(例如圖9之組合器24的輸出)
其中gg off 為位元率及取樣頻率相依偏移。
應注意,在計算功率譜之前,將雜訊基準術語N(X f )加至PX lp (k)提供將對應雜訊基準加至殘餘頻譜X f (k)的預期結果,例如,將術語0.5
Figure 109120247-A0305-02-0024-39
N(X f )無規地加至各頻譜線或減去該術語。
可能已例如在3GPP EVS編解碼器(3GPP TS 26.445,章節5.3.3.2.8.1)中找到基於純功率譜之估計。在實施例中,完成雜訊基準N(X f )之添加。雜訊基準以兩種方式為信號自適應的。
第一,其以最大振幅X f 縮放。因此,對平坦頻譜之能量的影響極小,其中所有振幅均接近於最大振幅。但對於高音調信號,其中殘餘頻譜亦以頻譜及多個強峰之擴展為特徵,總能量明顯增大,其增大如下文概述之全局增益計算的位元估計。
第二,若頻譜呈現低質心,則雜訊基準以參數lowBits降低。在此 情況下,主要為低頻內容,由此高頻分量之損失很可能並不與高音調內容一樣關鍵。
藉由如下文C程式碼中所概述之低複雜度對分搜尋來執行(例如圖9之區塊25)全局增益的實際估計,其中
Figure 109120247-A0305-02-0025-41
表示用於編碼頻譜之位元預算。考慮用於階段1編碼之算術編碼器中的上下文相依性,(變數tmp中累積之)位元消耗估計係基於能量值E(k)。
Figure 109120247-A0305-02-0025-10
Figure 109120247-A0305-02-0026-11
殘餘寫碼(例如圖3)
殘餘寫碼使用在經量化頻譜X q (k)之算術編碼之後可用的過量位元。使B表示過量位元的數目,且使K表示經編碼非零係數X q (k)的數目。另外,使k i ,i=1...K表示此等非零係數自最低頻率至最高頻率之列舉。係數之殘餘位元b i (j)k i (取值0及1)經計算以便最小化誤差
Figure 109120247-A0305-02-0026-13
此可以測試以下是否成立之迭代方式完成
Figure 109120247-A0305-02-0027-15
若(1)為真,則係數k i 之第n殘餘位元b i (n)經設定為0,否則,其經設定為1。藉由計算各k i 之第一殘餘位元且接著第二位元等等進行殘餘位元之計算,直至所有殘餘位元耗盡,或進行了最大數目n max 個迭代為止。此保留係數X q (k i )之
Figure 109120247-A0305-02-0027-14
個殘餘位元。此殘餘寫碼方案改良在每非零係數耗費至多一個位元的3GPP EVS編解碼器中應用之殘餘寫碼方案。
藉由以下偽碼說明具有n max =20之殘餘位元的計算,其中gg表示全局增益:
Figure 109120247-A0305-02-0027-16
Figure 109120247-A0305-02-0028-17
解碼器之描述(例如圖6)
在解碼器處,藉由熵解碼獲得經熵編碼頻譜
Figure 109120247-A0305-02-0028-40
。殘餘位元用於如以下偽碼所表明優化此頻譜(亦參見例如圖8)。
Figure 109120247-A0305-02-0028-18
Figure 109120247-A0305-02-0029-19
藉由以下給定經解碼殘餘頻譜
Figure 109120247-A0305-02-0029-20
結論:提議高效兩級寫碼方案,包含第一熵寫碼級及基於單個位元(非熵)編碼之第二殘餘寫碼級。
方案採用低複雜度全局增益估計器,該全局增益估計器併入有用 於第一寫碼級之以信號自適應雜訊基準加法器為特徵的基於能量之位元消耗估計器。
雜訊基準加法器實際上針對高音調信號將位元自第一編碼級傳送至第二編碼級,同時使對其他信號類型之估計無變化。認為自熵寫碼級至非熵寫碼級之此位元移位對於高音調信號為充分有效的。
圖12說明用於使用獨立減少以信號相依方式減少音訊資料項的數目的程序。在步驟901中,使用如自信號資料計算之諸如全局增益的非操縱資訊執行量化而無需任何操縱。為此目的,需要音訊資料項之(總)位元預算,且在區塊901之輸出處,獲得經量化資料項。在區塊902中,藉由基於信號相依控制值消除較佳地最小音訊資料項之(受控制)量來減少音訊資料項的數目。在區塊902之輸出處,獲得減少數目個資料項,且在區塊903中,應用初始寫碼級,且在歸因於受控制減少而保留的殘餘位元之位元預算的情況下,如904中所說明應用優化寫碼級。
除圖12中之程序以外,亦可在實際量化之前使用全局增益值或通常已使用非操縱音訊資料判定之特定量化器步長來執行減少區塊902。因此,音訊資料項之此減少亦可藉由將特定較佳地較小值設定成零或藉由用加權因子加權特定值而在非量化域中執行,最後,產生經量化成零之值。在獨立減少實施中,在執行對特定量化之控制的情況下執行一方面顯式量化步長及另一方面顯式減少步驟而無需任何資料操縱。
與其相反,圖13說明根據本發明之實施例的整合式減少模式。在區塊911中,藉由控制器20判定經操縱資訊,諸如圖9之區塊25之輸出處所說明的全局增益。在區塊912中,使用經操縱全局增益或通常在區塊911中計算之經操縱資訊來執行非操縱音訊資料之量化。在區塊912之量化程序之輸出處,獲得在區塊903中最初寫碼且在區塊904中優化寫碼之減少數目個音訊資料項。 歸因於音訊資料項之信號相依減少,保留用於至少單個完整迭代及用於第二迭代的至少一部分且較佳地用於甚至多於兩個迭代的殘餘位元。根據本發明且以信號相依方式執行位元預算自初始寫碼級至優化寫碼級之移位。
本發明可至少以四種不同模式實施。作為操縱之實例,可以直接模式利用顯式信號特性判定或以間接模式而無需顯式信號特性判定但利用信號相依雜訊基準至音訊資料或至經導出音訊資料之添加來進行控制值之判定。同時,以整合方式或以單獨方式進行音訊資料項之減少。亦可執行間接判定及整合式減少或控制值之間接產生及單獨減少。另外,亦可執行直接判定以及整合式減少及控制值之直接判定以及單獨減少。出於低效率的目的,控制值之間接判定以及音訊資料項之整合式減少為較佳的。
此處應提及,可個別地使用如之前所論述的所有替代方案或態樣及如以下申請專利範圍中之獨立請求項所定義的所有態樣,即,不具有除預期替代方案、物件或獨立請求項外的任何其他替代方案或物件。然而,在其他實施例中,該等替代方案或該等態樣或該等獨立請求項中的兩者或多於兩者可彼此組合,且在其他實施例中,所有態樣或替代方案及所有獨立請求項可彼此組合。
本發明之經編碼音訊信號可儲存於數位儲存媒體或非暫時性儲存媒體上,或可在傳輸媒體(諸如無線傳輸媒體或有線傳輸媒體,諸如網際網路)上傳輸。
儘管已在設備之上下文中描述一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述的態樣亦表示對應設備之對應區塊或項目或特徵的描述。
取決於某些實施要求,本發明之實施例可在硬體或軟體中實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、CD、ROM、 PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該電子可讀控制信號與可規劃電腦系統協作(或能夠協作),使得執行各別方法。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,其能夠與可規劃電腦系統協作,使得執行本文中所描述之方法中的一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品執行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含用於執行本文中描述的方法中之一者之電腦程式,其儲存於機器可讀載體或非暫時性儲存媒體上。
換言之,因此,發明方法之實施例為具有當電腦程式運行於電腦上時,用於執行本文中所描述之方法中的一者的程式碼之電腦程式。
因此,本發明方法之另一實施例係資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料流或信號序列可例如經組配以經由資料通訊連接而傳送,例如經由網際網路。
另一實施例包含處理構件,例如經組配或經調適以執行本文中所描述之方法中的一者的電腦或可規劃邏輯裝置。
另一實施例包含電腦,該電腦具有安裝於其上之用於執行本文中所描述的方法中之一者的電腦程式。
在一些實施例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中,場可程式化閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。一般而 言,該等方法較佳由任何硬體設備執行。
上述實施例僅說明本發明之原理。應理解,對本文中所描述之組配及細節的修改及變化將對熟習此項技術者顯而易見。因此,意圖為僅受到接下來之申請專利範圍之範疇限制,而不受到藉由本文中之實施例之描述解釋所呈現的特定細節限制。
10:預處理器
11:音訊輸入資料
12:線
15:寫碼器處理器
20:控制器
21:控制器輸出資訊

Claims (42)

  1. 一種用於編碼音訊輸入資料之音訊編碼器,其包含:一預處理器,其用於預處理該音訊輸入資料以獲得待寫碼之音訊資料;一寫碼器處理器,其用於寫碼該待寫碼之音訊資料;及一控制器,其用於控制該寫碼器處理器,使得取決於該待寫碼之音訊資料之一第一訊框的一第一信號特性,待由該寫碼器處理器針對該第一訊框寫碼之該音訊資料之音訊資料項的一數目與一第二訊框之一第二信號特性相比減少,且用於針對該第一訊框寫碼減少數目個音訊資料項的一第一數目個資訊單元與用於該第二訊框之一第二數目個資訊單元相比增強得更多。
  2. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一初始寫碼級及一優化寫碼級,其中該控制器經組配以減少針對該第一訊框由該初始寫碼級編碼之音訊資料項的該數目,其中該初始寫碼級經組配以使用一第一訊框初始數目個資訊單元來寫碼該第一訊框之減少數目個音訊資料項,且其中該優化寫碼階段經組配以將一第一訊框剩餘數目個資訊單元用於該第一訊框之減少數目個音訊資料項的一優化寫碼,其中該第一訊框初始數目個資訊單元添加至該第一訊框剩餘數目個資訊單元產生該第一訊框之一預定數目個資訊單元。
  3. 如請求項2之音訊編碼器,其中該控制器經組配以將針對該第二訊框由該初始寫碼級編碼之音訊資料項的該數目減少至與該第一訊框相比音訊資料項之一更大數目,其中該初始寫碼級經組配以使用一第二訊框初始數目個資訊單元來寫碼該第二訊框之減少數目個音訊資料項,資訊單元之該第二訊框初始數目高於資訊 單元之該第一訊框初始數目,且其中該優化寫碼級經組配以將一第二訊框剩餘數目個資訊單元用於該第二訊框之減少數目個音訊資料項的一優化寫碼,其中該第二訊框初始數目個資訊單元添加至該第二訊框剩餘數目個資訊單元產生該第一訊框之該預定數目個資訊單元。
  4. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一初始寫碼級及一優化寫碼級,其中該初始寫碼級經組配以使用一第一訊框初始數目個資訊單元來寫碼該第一訊框之減少數目個音訊資料項,其中該優化寫碼階段經組配以將一第一訊框剩餘數目個資訊單元用於該第一訊框之減少數目個音訊資料項的一優化寫碼,其中該第一訊框初始數目個資訊單元添加至該第一訊框剩餘數目個資訊單元產生該第一訊框之一預定數目個資訊單元,且其中該控制器經組配以控制該寫碼器處理器,使得該優化寫碼級使用至少兩個資訊單元執行該第一訊框之減少數目個音訊資料項中之至少一者的一優化寫碼,或使得該優化寫碼級使用各音訊資料項之至少兩個資訊單元執行多於50百分比之減少數目個音訊資料項的一優化寫碼,或其中該控制器經組配以控制該寫碼器處理器,使得該優化寫碼級使用少於兩個資訊單元執行該第二訊框之所有音訊資料項的一優化寫碼,或使得該優化寫碼級使用各音訊資料項之至少兩個資訊單元執行少於50百分比之減少數目個音訊資料項的一優化寫碼。
  5. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一初始寫碼級及一優化寫碼級,其中該初始寫碼級經組配以使用一第一訊框初始數目個資訊單元來寫碼該 第一訊框之減少數目個音訊資料項,其中該優化寫碼級經組配以將一第一訊框剩餘數目個資訊單元用於該第一訊框之減少數目個音訊資料項的一優化寫碼,其中該優化寫碼級經組配以在至少兩個依序執行之迭代中將該第一訊框剩餘數目個資訊單元迭代地指派至減少數目個音訊資料項,從而計算該至少兩個依序執行之迭代之經指派資訊單元的值,並且以一預定次序將用於該至少兩個依序執行之迭代的該等資訊單元的計算值引入至一經編碼輸出訊框中。
  6. 如請求項5之音訊編碼器,其中該優化寫碼級經組配以在一第一迭代中按自該音訊資料項之一低頻資訊至該音訊資料項之一高頻資訊的一次序依序計算該第一訊框之減少數目個音訊資料項中之各音訊資料項的一資訊單元,其中該優化寫碼級經組配以在一第二迭代中按自該音訊資料項之一低頻資訊至該音訊資料項之一高頻資訊的一次序依序計算該第一訊框之減少數目個音訊資料項中之各音訊資料項的一資訊單元,且其中該優化寫碼級經組配以檢查已指派資訊單元之一數目是否低於小於資訊單元之該第一訊框初始數目的該第一訊框之資訊單元的一預定數目,且在一否定檢查結果的情況下停止該第二迭代,或在一肯定檢查結果的情況下執行多個其他迭代,直至獲得一否定檢查結果為止,其他迭代之數目為至少一,或其中該優化寫碼級經組配以對非零音訊項之一數目進行計數,且自非零音訊項之該數目及小於資訊單元之該第一訊框初始數目的該第一訊框之資訊單元的一預定數目判定迭代之數目。
  7. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一初始寫碼級及一優化寫碼級,其中該初始寫碼級經組配以使用一第一訊框初始數目個資訊單元來寫碼該 第一訊框之減少數目個音訊資料項中之各音訊資料項的多個最高有效資訊單元,該數目高於一,且其中該優化寫碼級經組配以將一第一訊框剩餘數目個資訊單元用於編碼該第一訊框之減少數目個音訊資料項中之各音訊資料項的多個最低有效資訊單元,該數目比該第一訊框之減少數目個音訊資料項中之至少一個音訊資料項大一。
  8. 如請求項1之音訊編碼器,其中該第一信號特性為一第一音調值,其中該第二信號特性為一第二音調值,且其中該第一音調值指示比該第二音調值更高之一音調,且其中該控制器經組配以將第一訊框之音訊資料項的數目減小至小於該第二訊框之音訊資料項的該數目之一第一數目,且將用於寫碼該第一訊框之減少數目個音訊資料項中之各音訊資料項的資訊單元的一平均數目增加至大於用於寫碼該第二訊框之減少數目個音訊資料項中之各音訊資料項的資訊單元之一平均數目。
  9. 如請求項1之音訊編碼器,其中該寫碼器處理器包含:一可變量化器,其用於量化該第一訊框之該音訊資料以獲得該第一訊框之經量化音訊資料,且用於量化該第二訊框之該音訊資料以獲得該第二訊框之經量化音訊資料;一初始寫碼級,其用於寫碼該第一訊框或該第二訊框之該經量化音訊資料;一優化寫碼級,其用於編碼該第一訊框及該第二訊框之殘餘資料;其中該控制器經組配以用於分析該第一訊框之該音訊資料來針對該第一訊框判定該可變量化器之一第一控制值,且用於分析該第二訊框之該音訊資料以針對該第二訊框判定該可變量化器之一第二控制值,該第二控制值與該第一控制值不同,且 其中該控制器經組配以取決於用於判定該第一控制值或該第二控制值之該音訊資料而執行對該第一訊框或該第二訊框之該音訊資料或自該第一訊框或該第二訊框之該音訊資料導出的與振幅有關之值的一操縱,且其中該可變量化器經組配以量化該第一訊框或該第二訊框之該音訊資料而無需該操縱。
  10. 如請求項1之音訊編碼器,其中該寫碼器處理器包含:一可變量化器,其用於量化該第一訊框之該音訊資料以獲得該第一訊框之經量化音訊資料,且用於量化該第二訊框之該音訊資料以獲得該第二訊框之經量化音訊資料;一初始寫碼級,其用於寫碼該第一訊框或該第二訊框之該經量化音訊資料;一優化寫碼級,其用於編碼該第一訊框及該第二訊框之殘餘資料;其中該控制器經組配以用於針對該初始寫碼級或針對該第一訊框之一音訊資料項減少器分析該第一訊框之該音訊資料以判定該可變量化器之一第一控制值,且用於針對該初始寫碼級或針對該第二訊框之一音訊資料項減少器分析該第二訊框之該音訊資料以判定該可變量化器之一第二控制值,該第二控制值與該第一控制值不同,且其中該控制器經組配以將一第一音調特性判定為該第一信號特性以判定該第一控制值,且將一第二音調特性判定為該第二信號特性以判定該第二控制值,使得在一第一音調特性之情況下的該優化寫碼級之一位元預算與在一第二音調特性之情況下的該優化寫碼級之該位元預算相比增大,其中該第一音調特性指示比該第二音調特性更大的一音調。
  11. 如請求項9之音訊編碼器,其中該初始寫碼級為用於熵寫碼之一熵寫碼級,或該優化寫碼級用於編碼該第一訊框及該第二訊框之殘餘資料的一殘餘或二進位寫碼級。
  12. 如請求項9之音訊編碼器, 其中該控制器經組配以判定該第一或第二控制值,使得用於該初始寫碼級之資訊單元的一第一預算低於或等於一預定義值,且其中該控制器經組配以使用資訊單元之該第一預算及該第一或第二訊框之最大數目個資訊單元或該預定義值來導出用於該優化寫碼級之資訊單元的一第二預算。
  13. 如請求項9之音訊編碼器,其中該控制器經組配以計算該等與振幅有關之值作為自該音訊資料之一或多個音訊值導出的複數個功率值,且使用一相同操縱值至該複數個功率值中之所有功率值的一相加來操縱該等功率值,或其中該控制器經組配以無規地將一相同操縱值加至包括於該訊框中之複數個音訊值中的所有音訊值或自該複數個音訊值中之所有音訊值減去該相同操縱值,或加上或減去藉由該操縱值之同一量值獲得但較佳地具有隨機符號之值,或加上或減去藉由略微不同之術語自同一量值之一減法而獲得的值,加上或減去作為樣本自使用該操縱值之所計算複雜或真實量值縮放的一正規化機率分佈獲得之值,或其中該控制器經組配以使用利用一指數值的該第一或第二訊框之該音訊資料或該第一或第二訊框之經降低取樣音訊資料的一取冪來計算該等與振幅有關之值,該指數值大於1。
  14. 如請求項9之音訊編碼器,其中該控制器經組配以使用該複數個音訊資料的一最大值或該等與振幅有關之值或使用複數個經降低取樣音訊資料的一最大值或該第一或第二訊框之複數個經降低取樣的與振幅有關之值來計算用於該操縱之一操縱值。
  15. 如請求項9之音訊編碼器,其中該控制器經組配以另外使用 一信號獨立加權值來計算用於該操縱之一操縱值,該信號獨立加權值取決於該第一或第二訊框之一位元率、一訊框持續時間及一取樣頻率中之至少一者。
  16. 如請求項9之音訊編碼器,其中該控制器經組配以使用自該訊框內之該音訊資料或該經降低取樣音訊資料的量值之一第一總和、該訊框內之該音訊資料或該經降低取樣音訊資料的量值乘以與各量值相關聯之一索引的一第二總和以及該第二總和與該第一總和之商中的至少一者導出的一信號相依加權值來計算用於該操縱之一操縱值。
  17. 如請求項9之音訊編碼器,其中該控制器經組配以基於以下方程式計算用於該操縱之該操縱值:
    Figure 109120247-A0305-02-0041-37
    其中k為一頻率索引,其中Xf(k)為在量化之前用於該頻率索引k之一音訊資料值,其中max為最大函數,其中regBits為一第一信號獨立加權值,且其中lowBits為一第二信號相依加權值。
  18. 如請求項1之音訊編碼器,其中該預處理器進一步包含:一時間頻率轉換器,其用於將時域音訊資料轉換成該訊框之頻譜值;及一頻譜處理器,其用於計算具有比該等頻譜值之一頻譜包絡線更平坦之一頻譜包絡線的經修改頻譜值,其中該經修改頻譜值表示待由該寫碼器處理器編碼之該第一訊框或該第二訊框之該音訊資料。
  19. 如請求項18之音訊編碼器,其中該頻譜處理器經組配以執行一時間雜訊塑形操作、一頻譜雜訊塑形操作及一頻譜白化操作中之至少一者。
  20. 如請求項9之音訊編碼器,其中該控制器經組配以使用複數個能量值作為該訊框之該等振幅有關之值來計算該控制值,其中各能量值係自一功率值導出而作為一振幅有關之值及用於該操縱之一信號相依操縱值。
  21. 如請求項20之音訊編碼器,其中該控制器經組配以 取決於該能量值及該控制值之一候選值計算各能量值之一所要位元估計,累積該能量值之該等所要位元估計及該控制值之該候選值,檢查該控制值之該候選值的一累積位元估計是否滿足一所允許位元消耗準則,及倘若並不滿足該所允許位元消耗準則,則修改該控制值之該候選值,且重複對該所要位元估計之計算、所要位元率之累積及檢查,直至發現該控制值之一經修改候選值的該所允許位元消耗準則之一實現為止。
  22. 如請求項20之音訊編碼器,其中該控制器經組配以基於以下方程式計算該複數個能量值:E(k)=10 log10(PX lp (k)+N(X f )+2-31)其中E(k)為一索引k之一能量值,其中PX lp (k)為如該振幅有關之值的一索引k之一功率值,且其中N(X f )為該信號相依操縱值。
  23. 如請求項9之音訊編碼器,其中該控制器經組配以基於對各經操縱音訊資料值或經操縱之與振幅有關之值所要的累積資訊單元之一估計來計算該第一或第二控制值。
  24. 如請求項9之音訊編碼器,其中該控制器經組配以進行操縱,其方式為使得歸因於該操縱,用於該初始寫碼級之一位元預算增大或用於該優化寫碼級之一位元預算減小。
  25. 如請求項9之音訊編碼器,其中該控制器經組配以進行操縱,其方式為使得一操縱導致具有一第一音調之一信號的該殘餘寫碼級之一位元預算與具有一第二音調之一信號相比更高,其中該第二音調低於該第一音調。
  26. 如請求項9之音訊編碼器,其中該控制器經組配以進行操縱,其方式為使得該音訊資料之一能量相對 於待由該可變量化器量化之該音訊資料的該能量增加,用於該初始寫碼級之一位元預算係根據該能量而計算。
  27. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一可變量化器,該可變量化器用於量化該第一訊框之該音訊資料以獲得該第一訊框之經量化音訊資料,且用於量化該第二訊框之該音訊資料以獲得該第二訊框之經量化音訊資料,其中該控制器經組配以計算該第一訊框或該第二訊框之一全局增益,且其中該可變量化器包含:用於以該全局增益進行加權之一加權器;及具有一固定量化步長之一量化器核心。
  28. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一初始寫碼級及一優化寫碼級,其中該優化寫碼級經組配以用於在複數個迭代中計算經量化音訊值之優化位元,其中,在各迭代中,一優化位元指示一不同量,或其中一較低迭代中之一優化位元指示比一較高迭代中之一優化位元更高的一量,或其中該量為一分數,其為由該控制值指示之一量化器步長的一部分。
  29. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一優化寫碼級,其中該優化寫碼級經組配以執行具有至少兩個迭代之一迭代處理,檢查在由一全局增益加權時加至該第二迭代之一第二量或自該第二量減去的一經量化音訊值或該量化音訊值以及與一第一迭代中之該經量化音訊值的一優化位元相關聯之一潛在第一量是大於還是小於一非量化音訊值,及取決於該檢查之一結果設定該第二迭代之一優化位元。
  30. 如請求項1之音訊編碼器,其中該寫碼器處理器包含一可變 量化器及一優化寫碼級,其中該優化寫碼級經組配以僅針對並未由該可變量化器量化成零之音訊值計算一優化位元。
  31. 如請求項1之音訊編碼器,其中該控制器經組配以在一較低頻率下減小對具有一質心之該音訊資料之一操縱的一影響,且其中該寫碼器處理器之一初始寫碼級經組配以在判定用於該第一訊框或該第二訊框之一位元預算並不足以用於編碼該訊框之該經量化音訊資料的情況下自該音訊資料移除高頻頻譜值。
  32. 如請求項1之音訊編碼器,其中該控制器經組配以個別地使用該第一訊框或該第二訊框之經操縱頻譜能量值作為該第一訊框或該第二訊框之經操縱的與振幅有關之值來執行各訊框之一對分搜尋。
  33. 一種編碼音訊輸入資料之方法,其包含:預處理該音訊輸入資料以獲得待寫碼之音訊資料;寫碼該待寫碼之音訊資料;及控制該寫碼,使得取決於該待寫碼之音訊資料之一第一訊框的一第一信號特性,待針對該第一訊框寫碼之該音訊資料之音訊資料項的一數目與一第二訊框之一第二信號特性相比減少,且用於針對該第一訊框寫碼減少數目個音訊資料項的一第一數目個資訊單元與用於該第二訊框之一第二數目個資訊單元相比增強得更多。
  34. 如請求項33之方法,其中寫碼包含:可變地量化一訊框之音訊資料以獲得經量化音訊資料;熵寫碼該訊框之該經量化音訊資料;及編碼該訊框之殘餘資料; 其中控制包含判定用於可變地量化之一控制值,判定包含:分析該第一訊框或該第二訊框之該音訊資料;及取決於用於判定該控制值之該音訊資料而執行對該第一訊框或該第二訊框之該音訊資料或自該第一訊框或該第二訊框之該音訊資料導出的與振幅有關之值的一操縱,其中可變地量化對該訊框之該音訊資料進行量化而無需該操縱,或其中控制包含判定該音訊資料之一第一或第二音調特性且判定該控制值,使得在該第一音調特性之情況下的用於該殘餘寫碼之一位元預算與在該第二音調特性之情況下的用於該殘餘寫碼級之該位元預算相比增大,其中該第一音調特性指示比該第二音調特性更大的一音調。
  35. 一種用於解碼經編碼音訊資料之音訊解碼器,該經編碼音訊資料針對一訊框包含一訊框初始數目個資訊單元及一訊框剩餘數目個資訊單元,該音訊解碼器包含:一寫碼器處理器,其用於處理該經編碼音訊資料,該寫碼器處理器包含一初始解碼級及一優化解碼級;及一控制器,其用於控制該寫碼器處理器,使得該初始解碼級使用該訊框初始數目個資訊單元來獲得最初經解碼資料項,且該優化解碼級使用該訊框剩餘數目個資訊單元,其中該控制器經組配以控制該優化解碼級以在優化該最初經解碼資料項時,將該剩餘數目個資訊單元中之至少兩個資訊單元用於優化同一個最初經解碼資料項;且一後處理器,其用於後處理經優化音訊資料項以獲得經解碼音訊資料。
  36. 如請求項35之音訊解碼器,其中該訊框剩餘數目個資訊單元包含用於一預定次序下之至少兩個依序迭代的資訊單元之計算值,其中該控制器經組配以控制該優化解碼級以針對一第一迭代將該等計算值 用於根據該預定次序之該第一迭代,且針對一第二迭代將該等計算值用於按預定次序之該第二迭代。
  37. 如請求項35之音訊解碼器,其中該優化解碼級經組配以在一第一迭代中按自該最初經解碼音訊資料項之一低頻資訊至該最初經解碼音訊資料項之一高頻資訊的一次序自該訊框剩餘數目個資訊單元依序讀取及應用該訊框之各最初經解碼音訊資料項的一資訊單元,其中該優化解碼級經組配以在一第二迭代中按自該最初經解碼音訊資料項之一低頻資訊至該最初經解碼音訊資料項之一高頻資訊的一次序,自該訊框剩餘數目個資訊單元依序讀取及應用該訊框之各最初經解碼音訊資料項的一資訊單元,且其中該控制器經組配以控制該優化解碼級,從而檢查已讀取資訊單元之一數目是否低於該訊框之該等訊框剩餘資訊單元中的資訊單元之該數目,以在一否定檢查結果之情況下停止該第二迭代,或在一肯定檢查結果之情況下,執行多個其他迭代,直至獲得一否定檢查結果為止,其他迭代之數目為至少一,或其中該優化解碼級經組配以對非零音訊項之一數目進行計數,且自非零音訊項之該數目及該訊框之該等訊框剩餘資訊單元判定迭代之數目。
  38. 如請求項35之音訊解碼器,其中該優化解碼級經組配以在該訊框剩餘數目個資訊單元中之一讀取資訊資料單元具有一第一值時,將一偏移加至該最初經解碼資料項,且在該訊框剩餘數目個資訊單元中之該讀取資訊資料單元具有一第二值時,自該最初經解碼資料項減去一偏移。
  39. 如請求項35之音訊解碼器,其中該控制器經組配以控制該優化解碼級執行多個至少兩個迭代,其中該優化解碼級經組配以在一第一迭代中,在該訊框剩餘數目個資訊單元中之一讀取資訊資料單元具有一第一值時將一第一偏移加至該最初經解碼資料項,且在該訊框剩餘數目個資訊單元中之該讀取 資訊資料單元具有一第二值時自該最初經解碼資料項減去一第一偏移,其中該優化解碼級經組配以在一第二迭代中在該訊框剩餘數目個資訊單元中之一讀取資訊資料單元具有一第一值時,將一第二偏移加至該第一迭代的一結果,且在該訊框剩餘數目個資訊單元中之該讀取資訊資料單元具有一第二值時,自該第一迭代之該結果減去一第二偏移,且其中該第二偏移低於該第一偏移。
  40. 如請求項35之音訊解碼器,其中該後處理器經組配以在時域中執行一反向頻譜白化操作、一反向頻譜雜訊塑形操作、一反向時間雜訊塑形操作、一譜域至時域轉換及一重疊加法運算中之至少一者。
  41. 一種解碼經編碼音訊資料之方法,該經編碼音訊資料針對一訊框包含一訊框數目個資訊單元及一訊框剩餘數目個資訊單元,該方法包含:處理該經編碼音訊資料,處理包含一初始解碼步驟及一優化解碼步驟;及控制處理,使得該初始解碼使用該訊框初始數目個資訊單元來獲得最初經解碼資料項,且該優化解碼步驟使用該訊框剩餘數目個資訊單元,其中控制包含控制該優化解碼步驟以在優化該等最初經解碼資料項時將該剩餘數目個資訊單元中之至少兩個資訊單元用於優化同一個最初經解碼資料項;及後處理經優化音訊資料項以獲得經解碼音訊資料。
  42. 一種電腦程式,其在執行於一電腦或一處理器上時用於執行如請求項33或請求項41之方法。
TW109120247A 2019-06-17 2020-06-16 具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式 TWI751584B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
WOPCT/EP2019/065897 2019-06-17
PCT/EP2019/065897 WO2020253941A1 (en) 2019-06-17 2019-06-17 Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs

Publications (2)

Publication Number Publication Date
TW202101428A TW202101428A (zh) 2021-01-01
TWI751584B true TWI751584B (zh) 2022-01-01

Family

ID=67137900

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109120247A TWI751584B (zh) 2019-06-17 2020-06-16 具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式

Country Status (13)

Country Link
US (3) US20220101866A1 (zh)
EP (2) EP3984025A1 (zh)
JP (2) JP7518863B2 (zh)
KR (1) KR20220019793A (zh)
CN (2) CN114258567A (zh)
AU (2) AU2020294839B2 (zh)
BR (2) BR122022002977A2 (zh)
CA (1) CA3143574A1 (zh)
MX (2) MX2021015562A (zh)
RU (1) RU2022101245A (zh)
TW (1) TWI751584B (zh)
WO (2) WO2020253941A1 (zh)
ZA (2) ZA202110219B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
CN114900246B (zh) * 2022-05-25 2023-06-13 中国电子科技集团公司第十研究所 噪声基底估计方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201419265A (zh) * 2012-09-24 2014-05-16 Samsung Electronics Co Ltd 訊框錯誤隱藏方法以及音訊解碼方法
TW201724085A (zh) * 2012-06-08 2017-07-01 三星電子股份有限公司 訊框錯誤隱藏方法以及音訊解碼方法
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US20180322863A1 (en) * 2014-12-22 2018-11-08 Intel Corporation Cepstral variance normalization for audio feature extraction

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3186489B2 (ja) * 1994-02-09 2001-07-11 ソニー株式会社 ディジタル信号処理方法及び装置
JP2005004119A (ja) 2003-06-16 2005-01-06 Victor Co Of Japan Ltd 音響信号符号化装置及び音響信号復号化装置
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US20090099851A1 (en) * 2007-10-11 2009-04-16 Broadcom Corporation Adaptive bit pool allocation in sub-band coding
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2346030B1 (en) * 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
KR101508819B1 (ko) * 2009-10-20 2015-04-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
GB2490879B (en) * 2011-05-12 2018-12-26 Qualcomm Technologies Int Ltd Hybrid coded audio data streaming apparatus and method
CN106847295B (zh) * 2011-09-09 2021-03-23 松下电器(美国)知识产权公司 编码装置和编码方法
US9672840B2 (en) * 2011-10-27 2017-06-06 Lg Electronics Inc. Method for encoding voice signal, method for decoding voice signal, and apparatus using same
FR2984580A1 (fr) * 2011-12-20 2013-06-21 France Telecom Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant
PL3067890T3 (pl) * 2013-01-29 2018-06-29 Fraunhofer Ges Forschung Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
US10194151B2 (en) * 2014-07-28 2019-01-29 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
CN111968655B (zh) * 2014-07-28 2023-11-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
FI3696813T3 (fi) * 2016-04-12 2023-01-31 Audiokooderi audiosignaalin koodaamiseksi, menetelmä audiosignaalin koodaamiseksi ja tietokoneohjelma havaitulla huippuspektrialeella tarkastettuna ylemmällä taajuuskaistalla
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201724085A (zh) * 2012-06-08 2017-07-01 三星電子股份有限公司 訊框錯誤隱藏方法以及音訊解碼方法
TW201419265A (zh) * 2012-09-24 2014-05-16 Samsung Electronics Co Ltd 訊框錯誤隱藏方法以及音訊解碼方法
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US20180322863A1 (en) * 2014-12-22 2018-11-08 Intel Corporation Cepstral variance normalization for audio feature extraction

Also Published As

Publication number Publication date
TW202101428A (zh) 2021-01-01
KR20220019793A (ko) 2022-02-17
WO2020254168A1 (en) 2020-12-24
BR112021025582A2 (pt) 2022-03-03
CA3143574A1 (en) 2020-12-24
MX2021015564A (es) 2022-03-11
EP4235663A3 (en) 2023-09-06
US20220101868A1 (en) 2022-03-31
AU2021286443A1 (en) 2022-01-20
JP7518863B2 (ja) 2024-07-18
WO2020253941A1 (en) 2020-12-24
US20240185873A1 (en) 2024-06-06
JP7422966B2 (ja) 2024-01-29
US20220101866A1 (en) 2022-03-31
CN114974272A (zh) 2022-08-30
CN114258567A (zh) 2022-03-29
AU2020294839A1 (en) 2022-01-20
BR122022002977A2 (pt) 2022-03-29
RU2022101245A (ru) 2022-02-11
AU2021286443B2 (en) 2023-01-05
AU2020294839B2 (en) 2023-03-16
ZA202201443B (en) 2023-03-29
JP2022537033A (ja) 2022-08-23
JP2022127601A (ja) 2022-08-31
EP4235663A2 (en) 2023-08-30
EP3984025A1 (en) 2022-04-20
MX2021015562A (es) 2022-03-11
ZA202110219B (en) 2022-07-27

Similar Documents

Publication Publication Date Title
JP6970789B2 (ja) 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
JP5356406B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
TWI380602B (en) Apparatus and method for encoding an information signal
RU2418322C2 (ru) Аудиокодер, аудиодекодер и аудиопроцессор, имеющий динамически изменяющуюся характеристику перекоса
CN109712633B (zh) 音频编码器和解码器
US20240185873A1 (en) Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
TW201435861A (zh) 用以基於線性預測編碼之於頻域中編碼的低頻率增強技術
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
RU2782182C1 (ru) Аудиокодер с зависимым от сигнала управлением точностью и числом, аудиодекодер и связанные способы и компьютерные программы
US20150332700A1 (en) Apparatus and method for processing an encoded signal and encoder and method for generating an encoded signal
KR20220011780A (ko) 신호의존적 수 및 정밀도 제어가 가능한 오디오 인코더, 오디오 디코더 및 관련 방법 및 컴퓨터 프로그램
JP5179578B2 (ja) ディジタル信号の復号中に後処理ステップによってもたらされるひずみの制限