TWI642053B - 用以編碼音訊信號之音訊編碼器、用以編碼音訊信號之方法、及考量上頻帶中所檢出尖峰頻譜區域的電腦程式 - Google Patents

用以編碼音訊信號之音訊編碼器、用以編碼音訊信號之方法、及考量上頻帶中所檢出尖峰頻譜區域的電腦程式 Download PDF

Info

Publication number
TWI642053B
TWI642053B TW106111989A TW106111989A TWI642053B TW I642053 B TWI642053 B TW I642053B TW 106111989 A TW106111989 A TW 106111989A TW 106111989 A TW106111989 A TW 106111989A TW I642053 B TWI642053 B TW I642053B
Authority
TW
Taiwan
Prior art keywords
frequency band
spectral
band
lower frequency
shaping
Prior art date
Application number
TW106111989A
Other languages
English (en)
Other versions
TW201802797A (zh
Inventor
馬庫斯 穆爾特斯
班傑明 休伯特
克里斯汀 努克姆
馬可斯 史奈爾
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201802797A publication Critical patent/TW201802797A/zh
Application granted granted Critical
Publication of TWI642053B publication Critical patent/TWI642053B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一種用於對具有一下頻帶及一上頻帶之一音訊信號進行編碼的音訊編碼器包含:一檢測器,其用於檢測該音訊信號之該上頻帶中的一尖峰頻譜區域;一塑形器,其用於使用該下頻帶之塑形資訊來對該下頻帶進行塑形,且用於使用該下頻帶之該塑形資訊的至少一部分來對該上頻帶進行塑形,其中該塑形器經組配以另外衰減該上頻帶中之該檢測到的尖峰頻譜區域中之頻譜值;以及一量化器及寫碼器級,其用於量化一經塑形下頻帶及一經塑形上頻帶,且用於對來自該經塑形下頻帶及該經塑形上頻帶之經量化頻譜值進行熵寫碼。

Description

用以編碼音訊信號之音訊編碼器、用以編碼音訊信號之方法、及考量上頻帶中所檢出尖峰頻譜區域的電腦程式
發明領域
本發明係關於音訊編碼,且較佳地係關於用於控制對EVS編解碼器中之基於修改型離散餘弦變換(MDCT)之變換寫碼激發(TCX)的頻譜係數之量化的方法、設備或電腦程式。
發明背景
EVS編解碼器之參考文件係:3GPP TS 24.445 V13.1.0(2016-03),第三代合作夥伴計劃;技術規範小組服務及系統態樣(Technical Specification Group Services and System Aspects);用於增強型話音服務之編解碼器(Codec for Enhanced Voice Services(EVS));詳細演算法描述(Detailed algorithmic description)(第13版)。
然而,本發明另外適用於如(例如)由除第13版之外的其他版本界定的其他EVS版本,且另外,本發明另外適用於不同於EVS之所有其他音訊編碼器,然而,該等音訊編碼器依賴於如(例如)技術方案中所界定之檢測器、塑形器以及量化器及寫碼器級。
另外,應注意,不僅由獨立技術方案界定而且由附屬技術方案界定之所有實施例可彼此分離地使用,或如由技術方案之互依性所概述或如隨後在較佳實例下所論述而一起使用。
EVS編解碼器[1]如3GPP中所指定係用於窄頻NB)、寬頻帶(WB)、超寬頻帶(SWB)或全頻帶(FB)語音及音訊內容之現代混合型編解碼器,其可基於而信號分類而在若干寫碼方法之間切換:圖1說明EVS中之共同處理及不同寫碼方案。特別而言,圖1中之編碼器的共同處理部分包含信號重新取樣區塊101及信號分析區塊102。音訊輸入信號在音訊信號輸入103處輸入至共同處理部分中,且特別而言,輸入至信號重新取樣區塊101中。信號重新取樣區塊101另外具有用於接收命令行參數之命令行輸入。共同處理級之輸出輸入於如圖1中可見之不同元件中。特別而言,圖1包含基於線性預測之寫碼區塊(基於LP之寫碼)110、頻域寫碼區塊120及非作用中信號寫碼/CNG區塊130。區塊110、120、130連接至位元串流多工器140。另外,提供切換器150用於取決於分類器決策將共同處理級之輸出切 換至基於LP之寫碼區塊110、頻域寫碼區塊120抑或非作用中信號寫碼/CNG(舒適雜訊產生)區塊130。此外,位元串流多工器140接收分類器資訊,亦即,是否使用區塊110、120、130中之任一者來對區塊103處所輸入且由共同處理部分處理之輸入信號的某一當前部分進行編碼。
- 諸如碼激發線性預測(CELP)寫碼的基於LP(基於線性預測)之寫碼主要用於語音或語音主導內容及具有高時間波動之一般音訊內容。
- 頻域寫碼用於所有其他一般音訊內容,諸如音樂或背景雜訊。
為了為低及中間位元速率提供最大品質,基於共同處理模組中之信號分析而執行基於LP之寫碼與頻域寫碼之間的頻繁切換。為了節省複雜度,編解碼器經最佳化以亦在後續模組中再次使用信號分析級之元件。舉例而言:信號分析模組特徵化LP分析級。所得LP濾波器係數(LPC)及殘餘信號首先用於若干信號分析步驟,諸如話音活動檢測器(VAD)或語音/音樂分類器。其次,LPC亦係基於LP之寫碼方案及頻域寫碼方案的一基本部分。為了節省複雜度,在CELP寫碼器之內部取樣速率(SRCELP)下執行LP分析。
CELP寫碼器在12.8kHz或16kHz內部取樣速率(SRCELP)下操作,且可因此直接表示高達6.4kHz或8kHz音訊頻寬之信號。對於在WB、SWB或FB下超出此頻寬之音訊內容,高於CELP之頻率表示的音訊內容由頻寬 擴展機構寫碼。
基於MDCT之TCX係頻域寫碼之子模式。如對於基於LP之寫碼方法一般,基於LP濾波器而執行TCX中之雜訊塑形。藉由將自經加權經量化LP濾波器係數計算之增益因數應用於MDCT頻譜(解碼器側)來在MDCT域中執行此LPC塑形。在編碼器側上,在速率迴路之前應用逆增益因數。此隨後被稱作LPC塑形增益之應用。TCX按輸入取樣速率(SRinp)進行操作。利用此情形以在MDCT域中直接對完全頻譜進行寫碼,而無額外頻寬擴展。輸入取樣速率SRinp(按其執行MDCT變換)可高於CELP取樣速率SRCELP(針對其計算LP係數)。因此,可僅對於MDCT頻譜之對應於CELP頻率範圍(fCELP)的部分計算LPC塑形增益。對於頻譜之剩餘部分(若存在),使用最高頻帶之塑形增益。
圖2在高位準上說明LPC塑形增益及基於MDCT之TCX的應用。特別而言,圖2說明編碼器側上圖1的TCX或頻域寫碼區塊120中之雜訊塑形及寫碼的原理。
特別而言,圖2說明編碼器之示意性方塊圖。輸入信號103輸入至重新取樣區塊201中以便執行信號至CELP取樣速率SRCELP(亦即,由圖1之基於LP之寫碼區塊110需要的取樣速率)之重新取樣。此外,提供計算LPC參數之LPC計算器203,且在區塊205中,執行基於LPC之加權以便具有由圖1中之基於LP之寫碼區塊110進一步處理的信號,亦即,使用代數碼激發線性預測(ACELP)處理器編碼之LPC殘餘信號。
另外,在無任何重新取樣之情況下,輸入信號103輸入至例示性地說明為MDCT變換之時間頻譜轉換器207。此外,在區塊209中,在一些計算之後應用由區塊203計算之LPC參數。特別而言,區塊209經由行213自區塊203,或替代地或另外自區塊205接收經計算LPC參數,且接著導出MDCT(或一般而言,頻譜域加權因數)以便應用對應之反LPC塑形增益。接著,在區塊211中,執行可(例如)係速率迴路之一般量化器/編碼器操作,速率迴路調整全域增益且另外較佳地使用如熟知EVS編碼器規範中所說明之算術寫碼執行頻譜係數之量化/寫碼,以最終獲得位元串流。
相比於組合SRCELP下之核心寫碼器與在較高取樣速率下運作之頻寬擴展機構的CELP寫碼方法,基於MDCT之寫碼方法直接對輸入取樣速率SRinp進行操作,且在MDCT域中對全頻譜進行寫碼。
基於MDCT之TCX在低位元速率(諸如9.6千位元/秒或13.2千位元/秒)SWB下對高至16kHz音訊內容進行寫碼。因為在此類低位元速率下僅可藉助於算術寫碼器直接對頻譜係數之一小子集進行寫碼,所以頻譜中之所得間隙(零值之區)由兩個機構隱藏:
- 雜訊填充,其將隨機雜訊插入於經解碼頻譜中。雜訊之能量由增益因數控制,增益因數在位元串流中傳輸。
- 智慧間隙填充(IGF),其插入來自頻譜之 較低頻率部分的信號部分。此等所插入頻率部分之特性由參數控制,參數在位元串流中傳輸。
雜訊填充用於高至最高頻率之較低頻率部分,最高頻率可由所傳輸LPC(fCELP)控制。在此頻率上方,使用IGF工具,IGF工具提供其他機構以控制所插入頻率部分之位準。
存在針對哪些頻譜係數經受住(survive)編碼程序或哪些頻譜係數將由雜訊填充或IGF替換之決策的兩個機構:
1)速率迴路
在應用反LPC塑形增益之後,應用速率迴路。對此,估計全域增益。隨後,量化頻譜係數,且藉由算術寫碼器對經量化頻譜係數進行寫碼。基於算術寫碼器之真實或經估計位元需求及量化錯誤,全域增益增大或減小。此影響量化器之精確度。精確度愈低,愈多頻譜係數經量化成零。在速率迴路之前使用經加權LPC來應用反LPC塑形增益確保感知上相關之行比感知上不相關之內容按顯著地較高之機率經受住。
2)IGF音調遮罩
無LPC可用之高於fCELP處,使用用以識別感知上相關之頻譜分量的不同機構:逐行能量與IGF區中之平均能量相比較。保持對應於感知上相關之信號部分的主要頻譜行,所有其他行被設定為零。藉由IGF音調遮罩預處理之MDCT頻譜隨後饋入至速率迴路中。
經加權LPC遵循信號之頻譜包絡。藉由使用 經加權LPC來應用反LPC塑形增益,執行對頻譜之感知白化。此顯著地減小MDCT頻譜在寫碼迴路之前的動態,且因此亦控制寫碼迴路中之MDCT頻譜係數當中的位元分佈。
如上文所解釋,經加權LPC對於高於fCELP之頻率不可用。對於此等MDCT係數,應用低於fCELP之最高頻帶的塑形增益。此在低於fCELP之最高頻帶的塑形增益粗略地對應於高於fCELP之係數的能量之情況下很好地起作用,由於頻譜傾斜常常為此狀況,且可在大部分音訊信號中觀測到此情形。因此,此程序係有利的,此係因為不必計算或傳輸上頻帶之塑形資訊。
然而,倘若存在高於fCELP之強頻譜分量且低於fCELP之最高頻帶的塑形增益極低,則此引起失配。此失配嚴重地影響工作或速率迴路,速率迴路聚焦於具有最高振幅之頻譜係數。此將在低位元速率下零化剩餘信號分量,在低頻帶中尤其如此,且產生感知上不良之品質。
圖3至圖6說明問題。圖3展示應用反LPC塑形增益之前的絕對MDCT頻譜,圖4展示對應LPC塑形增益。存在可見的高於fCELP之強尖峰,該等尖峰係在與低於fCELP之最高尖峰相同的數量級。高於fCELP之頻譜分量係使用IGF音調遮罩之預處理的結果。圖5展示應用反LPC增益之後仍在量化之前的絕對MDCT頻譜。現高於fCELP之尖峰顯著地超出低於fCELP之尖峰,其中效果為速率迴路將主要聚焦於此等尖峰。圖6展示速率迴路在低位元速率下的結 果:除了高於fCELP之尖峰之外的所有頻譜分量皆經量化成0。此在完全解碼過程之後引起感知上極其不佳之結果,此係因為低頻率下心理聲學上極相關的信號部分完全缺失。
圖3說明應用反LPC塑形增益之前的關鍵訊框的MDCT頻譜。
圖4說明如所應用之LPC塑形增益。在編碼器側上,頻譜藉由逆增益倍增。最後一增益值用於高於fCELP之所有MDCT係數。圖4在右邊界處指示fCELP
圖5說明應用反LPC塑形增益之後的關鍵訊框的MDCT頻譜。高於fCELP之高尖峰明顯地可見。
圖6說明量化後之關鍵訊框的MDCT頻譜。所顯示頻譜包括全域增益之應用,但不具有LPC塑形增益之應用。可看出,除了高於fCELP的尖峰之外的所有頻譜係數皆經量化成0。
發明概要
本發明之一目標係提供一種改良型音訊編碼概念。
藉由如技術方案1之一種音訊編碼器、如技術方案25之一種用於對一音訊信號進行編碼的方法或如技術方案26之一種電腦程式來達成此目標。
本發明係基於發現可藉由預處理待編碼之音訊信號來解決此類先前技術問題,音訊信號取決於包括於該音訊編碼器中之量化器及寫碼器級的一特定特性而編 碼。為此目的,檢測到該音訊信號之一上頻帶中的一尖峰頻譜區域。接著,使用一塑形器,該塑形器用於使用該下頻帶之塑形資訊來對該下頻帶進行塑形且用於使用該下頻帶之該塑形資訊的至少一部分來對該上頻帶進行塑形。特別而言,該塑形器另外經組配以衰減一檢測到之尖峰頻譜區域中(亦即,由該檢測器在該音訊信號之該上頻帶中檢測到的一尖峰頻譜區域中)的頻譜值。接著,對該經塑形下頻帶及該經衰減上頻帶進行量化且熵編碼。
歸因於已選擇性地(亦即,在該檢測到之尖峰頻譜區域)內衰減該上頻帶之事實,此檢測到之尖峰頻譜區域可不再完全地主控該量化器及寫碼器級之行為。
替代地,歸因於一衰減已形成於該音訊信號之該上頻帶中的事實,改良了該編碼操作之該結果的總體感知品質。特別而言,在一非常低位元速率係該量化器及寫碼器級之一主目標中的低位元速率下,該上頻帶中之高頻譜尖峰將消耗由該量化器及寫碼器級需要之所有位元,此係因為該寫碼器將由該高較高頻率部分導引,且將因此使用此等部分中之大部分可用位元。此自動地引起在感知上更重要之較低頻率範圍的任何位元不再可用之一情形。因此,此程序將產生具有僅經編碼高頻率部分之一信號,而該等較低頻率部分根本未經寫碼,且僅經極粗糙地編碼。然而,已發現,相比於檢測到具有主要高頻譜區之此成問題情形且該較高頻率範圍中之該等尖峰在執行包含一量化器及一熵編碼器級之該編碼器程序之前衰減的情形, 此程序係感知上較不合意的。
較佳地,在一MDCT頻譜之該上頻帶中檢測到該尖峰頻譜區域。然而,亦可使用其他時間頻譜轉換器,諸如一濾波器組、一正交鏡像濾波器組(QMF)濾波器組、一離散傅立葉變換(DFT)、一快速傅立葉變換(FFT)或任何其他時間頻率轉換。
此外,本發明為有用的在於,對於該上頻帶,不需要計算塑形資訊。替代地,對於該下頻帶所最初計算之一塑形資訊用於對該上頻帶進行塑形。因此,本發明因為一低頻帶塑形資訊亦可用於對該高頻帶進行塑形而提供一種計算上極有效率之編碼器,此係因為可起因於此情形(亦即,該上頻帶中之高頻譜值)的問題除了典型地基於對該低頻帶信號之該頻譜包絡的直接塑形以外亦由藉由該塑形器另外應用之額外衰減解決,該低頻帶信號之頻譜包絡可例如藉由該低頻帶信號之LPC參數特徵化。但該頻譜包絡亦可由可用於在頻譜域中執行一塑形之任何其他對應量度來表示。
該量化器及寫碼器級對該經塑形信號,亦即對該經塑形低頻帶信號且對該經塑形高頻帶信號執行一量化及寫碼操作,但該經塑形高頻帶信號另外已接收到該額外衰減。
儘管該高頻帶在該檢測到之尖峰頻譜區域中之該衰減係可不再由該解碼器恢復之一預處理操作,但該解碼器之結果相比於未應用該額外衰減之一情形仍然為更合意的,此係因為該衰減引起以下事實:對於在感知上 較重要之下頻帶仍剩餘位元。因此,在具有尖峰之一高頻譜區將支配整個寫碼結果的成問題情境下,本發明提供此類尖峰之一額外衰減,以使得最後該編碼器「看到」具有經衰減之高頻率部分的一信號,且因此,該經編碼信號仍具有有用且在感知上合意之低頻率資訊。關於該高頻譜帶之「犧牲」不或幾乎不被收聽者值得注意,此係因為收聽者通常不具有一信號之高頻率內容的明晰圖像,而是按一高得多之機率具有關於該低頻率內容之一期望。換言之,具有極低位準低頻率內容但具有一顯著高位準頻率內容之一信號係通常被察覺為不自然的。
本發明之較佳實施例包含一線性預測分析器,其用於導出一時間框之線性預測係數,且此等線性預測係數表示該塑形資訊,或該塑形資訊自彼等線性預測係數導出。
在另一實施例中,對於該下頻帶之若干個子頻帶而計算若干塑形因數,且對於該上頻帶中之該加權,使用對於該低頻帶之最高子頻帶所計算的塑形因數。
在另一實施例中,該檢測器在一組條件中之至少一者係真時判定該上頻帶中之一尖峰頻譜區域,其中該組條件包含至少一低頻帶振幅條件、一尖峰距離條件及一尖峰振幅條件。甚至更佳地,僅在兩個條件同時係真時檢測到一尖峰頻譜區域,且甚至更佳地,僅在所有三個條件係真時檢測到一尖峰頻譜區域。
在另一實施例中,該檢測器在有或無該額外 衰減情況下判定用於在該塑形操作之前抑或之後用於檢查該等條件的若干值。
在一實施例中,該塑形器另外使用一衰減因數來衰減該等頻譜值,其中此衰減因數自該下頻帶中之該最大頻譜振幅乘以大於或等於1之一預定數字且除以該上頻帶中之該最大頻譜振幅而導出。
此外,可以若干不同方式進行關於如何應用該額外衰減之特定方式。一種方式係該塑形器首先使用該下頻帶之該塑形資訊的至少一部分來執行該加權資訊,以便對該檢測到的尖峰頻譜區域中之該等頻譜值進行塑形。接著,使用該衰減資訊來執行一後續加權操作。
一替代性程序首先應用使用該衰減資訊之一加權操作,且接著執行一後續加權,該後續加權使用對應於該下頻帶之該塑形資訊之至少該部分的一加權資訊。另一替代方案係使用一方面自該衰減且另一方面自該下頻帶之該塑形資訊的該部分導出之一組合式加權資訊來應用單個加權資訊。
在使用一乘法來執行該加權之一情形下,該衰減資訊係一衰減因數且該塑形資訊係一塑形因數,且該實際組合式加權資訊係一加權因數,亦即,該單個加權資訊之單個加權因數,其中藉由使該下頻帶之該衰減資訊與該塑形資訊相乘來導出此單個加權因數。因此,變得明晰的是,可以許多不同方式實施該塑形器,但儘管如此,該結果仍係該高頻帶之使用該下頻帶之塑形資訊及一額外衰 減的一塑形。
在一實施例中,該量化器及寫碼器級包含一速率迴路處理器,該速率迴路處理器用於估計一量化器特性以使得獲得一經熵編碼音訊信號之預定位元速率。在一實施例中,此量化器特性係一全域增益,亦即,應用於該整個頻率範圍(亦即,應用於待量化且編碼之所有頻譜值)之一增益值。當顯現該所需位元速率低於使用某一全域增益所獲得之一位元速率時,則增大該全域增益且判定該實際位元速率是否現與該要求一致(亦即,現小於或等於該所需位元速率)。當該全域增益在該量化之前以使得該頻譜值除以該全域增益之一方式用於該編碼器中時,執行此程序。然而,當以不同方式亦即藉由在執行該量化之前使該等頻譜值乘以該全域增益來使用該全域增益時,則在一實際位元速率過高時減小該全域增益,或可在該實際位元速率低於可容許位元速率時增大該全域增益。
然而,其他編碼器級特性亦可在某一速率迴路條件中使用。舉例而言,一種方法將係一頻率選擇性增益。另一程序將係取決於該所需位元速率而調整該音訊信號之該頻寬。大體而言,不同量化器特性可受到影響,以使得最後獲得與該所需(通常低)位元速率一致的一位元速率。
較佳地,此程序特別好地適用於與智慧間隙填充處理(IGF處理)組合。在此程序中,應用一音調遮罩處理器,其用於在該上頻帶中判定待量化且熵編碼之一第 一組頻譜值,及待由該間隙填充程序參數化編碼之一第二組頻譜值。該音調遮罩處理器將該第二組頻譜值設定為0值,以使得此等值不消耗該量化器/編碼器級中之許多位元。另一方面,顯現的是通常屬於待量化且熵寫碼之該第一組頻譜值中的值係該尖峰頻譜區域中之在某些情形下可被檢測到且另外在該量化器/編碼器級之一成問題情形的狀況下衰減的值。因此,一智慧間隙填充構架內之音調遮罩處理器與檢測到之尖峰頻譜區域的額外衰減之組合產生一極有效率之編碼器程序,該程序另外係回溯相容的且甚至在極低位元速率下仍然產生一良好感知品質。
實施例優於用以處理此問題之潛在解決方案,該等解決方案包括用以擴展該LPC之頻率範圍的方法,或用以更好的使應用於高於fCELP之頻率的增益適配至該等實際MDCT頻譜係數的其他構件。然而,當一編解碼器已部署於市場中時,此程序破壞回溯相容性,且該等先前所描述之方法將破壞對現有實施之互操作性。
101‧‧‧信號重新取樣區塊
102‧‧‧信號分析區塊
103‧‧‧音訊信號輸入
110‧‧‧基於線性預測之寫碼(基於LP之寫碼)區塊
120‧‧‧頻域寫碼區塊
130‧‧‧非作用中信號寫碼/CNG區塊
140‧‧‧串流多工器
150‧‧‧切換器
201‧‧‧重新取樣區塊
203‧‧‧線性預測濾波器係數(LPC)計算器
205、209、211、1202、1204、1206、1302、1304、1306、1308、1310、1402、1404、1406、1510、1512、1514、1516、1518、1602、1606、1702、1704‧‧‧區塊
207、1012‧‧‧時間頻譜轉換器
213‧‧‧行
802‧‧‧檢測器
804‧‧‧塑形器
804a‧‧‧頻譜塑形器/區塊
804b‧‧‧衰減器/區塊
805‧‧‧經塑形信號
806‧‧‧量化器及寫碼器級
808‧‧‧線性預測寫碼分析器
814‧‧‧經編碼音頻信號
1001‧‧‧輸入
1002‧‧‧共同處理器
1004‧‧‧ACELP/TCX控制器
1006‧‧‧重新取樣器/頻帶限制器
1008‧‧‧線性預測濾波器係數(LPC)分析器/寫碼器
1010‧‧‧時域頻寬擴展寫碼器
1014‧‧‧輸出介面
1020‧‧‧經最終編碼之信號
1102‧‧‧低頻帶振幅條件
1104‧‧‧尖峰距離條件
1106‧‧‧尖峰振幅條件
1502‧‧‧全域增益加權器
1504‧‧‧量化器
1506‧‧‧熵寫碼器
1508‧‧‧控制器重新取樣
隨後,關於隨附圖式說明本發明之較佳實施例,其中:圖1說明EVS中之常見處理及不同寫碼方案;圖2說明編碼器側上之TCX中之雜訊塑形及寫碼的原理;圖3說明在應用反LPC塑形增益之前的關鍵訊框的MDCT頻譜; 圖4說明圖3但其中應用了LPC塑形增益之情形;圖5說明在應用反LPC塑形增益之後的關鍵訊框的MDCT頻譜,其中高於fCELP之高尖峰明顯地可見;圖6說明關鍵訊框在僅具有高通資訊且不具有任何低通資訊之量化後的MDCT頻譜;圖7說明關鍵訊框在應用反LPC塑形增益及本發明編碼器側預處理之後的MDCT頻譜;圖8說明用於對音訊信號進行編碼之音訊編碼器的一較佳實施例;圖9說明計算不同頻帶之不同塑形資訊及將下頻帶塑形資訊用於較高頻帶的情形;圖10說明音訊編碼器之一較佳實施例;圖11說明用於說明檢測器的功能性之流程圖,該檢測器用於檢測尖峰頻譜區域;圖12說明低頻帶振幅條件之實施的一較佳實施;圖13說明尖峰距離條件之實施的一較佳實施例;圖14說明尖峰振幅條件之實施的一較佳實施;圖15a說明量化器及寫碼器級之一較佳實施;圖15b說明用於說明量化器及寫碼器級作為速率迴路處理器操作之流程圖;圖16說明用於在一較佳實施例中判定衰減因數之判定程序;且圖17說明用於在兩個後續步驟中將低頻帶塑形資訊應用於上頻帶及應用經塑形頻譜值之額外衰減的一較佳實 施。
較佳實施例之詳細說明
圖8說明用於對具有下頻帶及上頻帶之音訊信號403進行編碼之音訊編碼器的一較佳實施例。音訊編碼器包含用於檢測音訊信號103之上頻帶中之尖峰頻譜區域的檢測器802。此外,音訊編碼器包含塑形器804,該塑形器用於使用針對下頻帶之塑形資訊來對下頻帶進行塑形,且用於使用下頻帶之塑形資訊的至少一部分來對上頻帶進行塑形。另外,塑形器經組配以另外衰減上頻帶中之檢測到的尖峰頻譜區域中之頻譜值。
因此,塑形器804使用低頻帶之塑形資訊來在低頻帶中執行一種類之「單一塑形」。此外,塑形器另外使用低頻帶及通常最高頻率低頻帶之塑形資訊在高頻帶中執行一種類之「單一」塑形。在一些實施例中,在無尖峰頻譜區域已由檢測器802檢測到之高頻帶中執行此「單一」塑形。此外,對於高頻帶內之尖峰頻譜區域,執行一種類之「雙重」塑形,亦即,來自低頻帶之塑形資訊應用於尖峰頻譜區域,且另外,額外衰減應用於尖峰頻譜區域。
塑形器804之結果係經塑形信號805。經塑形信號係經塑形下頻帶及經塑形上頻帶,其中經塑形上頻帶包含尖峰頻譜區域。此經塑形信號805經轉發至量化器及寫碼器級806,該量化器及寫碼器級806用於量化經塑形下頻帶及包括尖峰頻譜區域之經塑形上頻帶,且用於再次對 來自經塑形下頻帶及包含尖峰頻譜區域之經塑形上頻帶的經量化頻譜值進行熵寫碼以獲得經編碼音訊信號814。
較佳地,音訊編碼器包含線性預測寫碼分析器808,該線性預測寫碼分析器808用於藉由分析音訊信號之時間框中之音訊樣本的區塊來導出時間框之線性預測係數。較佳地,此等音訊樣本頻帶限於下頻帶。
另外,塑形器804經組配以將線性預測係數用作塑形資訊來對下頻帶進行塑形,如圖8中之812處所說明。另外,塑形器804經組配以使用自頻帶限於下頻帶之音訊樣本的區塊導出的線性預測係數之至少部分從而用於在音訊信號之時間框中對上頻帶進行塑形。
如圖9中所說明,下頻帶較佳地被細分成多個子頻帶,諸如例示性地細分成四個子頻帶SB1、SB2、SB3及SB4。另外,如經示意性地說明,子頻帶寬度自較低子頻帶至較高子頻帶增大,亦即,子頻帶SB4在頻率上比子頻帶SB1寬。然而,在其他實施例中,亦可使用具有相等頻寬之頻帶。
子頻帶SB1至SB4延伸直至係(例如)fCELP之邊界頻率。因此,低於邊界頻率fCELP之所有子頻帶構成下頻帶,且高於邊界頻率之頻率內容構成較高頻帶。
特定而言,圖8之LPC分析器808通常個別地計算針對每一子頻帶之塑形資訊。因此,LPC分析器808較佳地計算針對四個子頻帶SB1至SB4之四種不同種類之子頻帶資訊,以使得每一子頻帶具有其相關聯塑形資訊。
此外,塑形器804使用恰好為每一子頻帶SB1至SB4所計算之塑形資訊來為此子頻帶應用塑形,且重要的是,亦進行對較高頻帶之塑形,但較高頻帶之塑形資訊歸因於計算塑形資訊之線性預測分析器接收頻帶限於下頻帶之頻帶受限信號的事實不被計算。儘管如此,為了亦對上頻帶執行塑形,子頻帶SB4之塑形資訊用於對較高頻帶進行塑形。因此,塑形器804經組配以使用為下頻帶之最高子頻帶所計算的塑形因數來為上頻帶之頻譜係數加權。圖9中對應於SB4的最高子頻帶具有下頻帶之子頻帶之所有中心頻率當中的最高中心頻率。
圖11說明用於解釋檢測器802之功能性的較佳流程圖。特定而言,檢測器802經組配以在一組條件中之至一少者係真時判定上頻帶中之尖峰頻譜區域,其中該組條件包含低頻帶振幅條件1102、尖峰距離條件1104及尖峰振幅條件1106。
較佳地,準確地按圖11中所說明之次序應用不同條件。換言之,在尖峰距離條件1104之前計算低頻帶振幅條件1102,且在尖峰振幅條件1106之前計算尖峰距離條件。在所有三個條件必須係真以便檢測尖峰頻譜區域之情形下,藉由應用圖11中之依序處理來獲得計算上有效率之檢測器,其中,一旦某一條件並非為真(亦即,為假),則停止某一時間框之檢測程序且判定不需要此時間框中之尖峰頻譜區域的衰減。因此,當對於某一時間框已判定低頻帶振幅條件1102未滿足(亦即,為假)時,則控制繼續進 行至此時間框中之尖峰頻譜區域的衰減並非必要的決策且程序在無任何額外衰減的情況下繼續進行。然而,當控制器對於條件1102判定條件1102係真時,判定第二條件1104。在尖峰振幅1106之前再次判定此尖峰距離條件,以使得控制判定:當條件1104引起假結果時,不執行尖峰頻譜區域之衰減。僅當尖峰距離條件1104具有為真之結果時,才判定第三尖峰振幅條件1106。
在其他實施例中,可判定更多或更少條件,且可執行依序或並行判定,儘管如圖11中所例示性地說明之依序判定係較佳的以便節省在電池供電之行動應用中特別有價值之計算資源。
圖12、圖13、圖14提供條件1102、1104及1106之較佳實施例。
在低頻帶振幅條件下,判定下頻帶中之最大頻譜振幅,如在區塊1202處所說明。此值係max_low。此外,在區塊1204中,判定上頻帶中之指示為max_high的最大頻譜振幅。
在區塊1206中,較佳地連同預定數字c1一起處理自區塊1232及1234所判定之值,以便獲得條件1102之假或真結果。較佳地,在藉由下頻帶塑形資訊進行塑形之前,亦即,在由頻譜塑形器804或相對於圖10之804a執行的程序之前,執行區塊1202及1204中之條件。
相對於區塊1206中所使用的圖12之預定數字c1,為16之值係較佳的,但介於4與30之間的值已被證 明為亦有用的。
圖13說明尖峰距離條件之一較佳實施例。在區塊1302中,判定下頻帶中之指示為max_low的第一最大頻譜振幅。
此外,判定第一頻譜距離,如在區塊1304處所說明。此第一頻譜距離被指示為dist_low。特定而言,第一頻譜距離係如由區塊1302判定之第一最大頻譜振幅距下頻帶之中心頻率與上頻帶之中心頻率之間的邊界頻率之距離。較佳地,邊界頻率係f_celp,但此頻率可具有如先前所概述之任何其他值。
此外,區塊1306判定上頻帶中之被稱作max_high之第二最大頻譜振幅。此外,判定第二頻譜距離(1308)且將其指示為dist_high。再次較佳地判定,第二最大頻譜振幅離邊界頻率之第二頻譜距離,其中頻譜f_celp作為邊界頻率。
此外,在區塊1310中,當由第一頻譜距離加權且由大於1之預定數字加權的第一最大頻譜振幅大於由第二頻譜距離加權之第二最大頻譜振幅時,判定尖峰距離條件是否係真。
較佳地,預定數字c2在最佳實施例中等於4。介於1.5與8之間的值已被證明為有用的。
較佳地,在藉由下頻帶塑形資訊進行塑形之後,亦即,在圖10中之區塊804a之後但當然在區塊804b之前執行區塊1302及1306中之判定。
圖14說明尖峰振幅條件之一較佳實施。特別而言,區塊1402判定下頻帶中之第一最大頻譜振幅且區塊1404判定上頻帶中之第二最大頻譜振幅,其中區塊1402之結果指示為max_low2且區塊1404之結果指示指示為max_high。
接著,如在區塊1406中所說明,當第二最大頻譜振幅大於由大於或等於1之預定數字c3加權的第一最大頻譜振幅時,尖峰振幅條件係真。取決於不同速率,c3較佳地設定為值1.5或值3,其中大體而言,介於1.0與5.0之間的值已被證明為有用的。
此外,如圖14中所指示,在藉由低頻帶塑形資訊進行塑形之後,亦即,在區塊804a中所說明之處理之後且在由區塊804b說明之處理之前,或相對於圖17在區塊1702之後且在區塊1704之前,區塊1402及1404中之判定發生。
在其他實施例中,尖峰振幅條件1106且特別而言圖14中區塊1402的程序未自下頻帶中之最小值(亦即,頻譜之最低頻率值)判定,而是基於下頻帶之自預定起始頻率延伸直至下頻帶之最大頻率為止的一部分而判定對下頻帶中之第一最大頻譜振幅的判定,其中預定起始頻率大於下頻帶之最小頻率。在一實施例中,預定起始頻率係下頻帶之高於下頻帶之最小頻率的至少10%,或在其他實施例中,預定起始頻率在等於下頻帶之最大頻率的一半之頻率處,該頻率之容許度範圍係在最大頻率之一半的正或 負10%內。
此外,較佳的是,第三預定數字c3取決於待由量化器/寫碼器級提供之位元速率,以使得預定數字對於較高位元速率較高。換言之,當必須由量化器及寫碼器級806提供之位元速率係高時,則c3係高的,而當位元速率判定為低時,則預定數字c3係低的。當考慮區塊1406中之較佳等式時,變得明晰的是,預定數字c3愈高,愈罕見地判定尖峰頻譜區域。然而,當c3為小時,則更頻繁地判定存在待最終衰減之頻譜值的尖峰頻譜區域。
區塊1202、1204、1402、1404或1302及1306始終判定頻譜振幅。可以不同方式執行對頻譜振幅之判定。判定頻譜包絡之一種方式係判定實頻譜之頻譜值的絕對值。替代地,頻譜振幅可係複合頻譜值之量值。在其他實施例中,頻譜振幅可係實頻譜之頻譜值任何冪或複合頻譜之量值的任何冪,其中冪大於1。較佳地,冪係整數數,但1.5或2.5之冪另外已被證明有用的。仍然較佳地,2或3之冪係較佳的。
大體而言,塑形器804經組配以基於上頻帶中之最大頻譜振幅及/或基於下頻帶中之最大頻譜振幅而衰減檢測到之尖峰頻譜區域中的至少一個頻譜值。在其他實施例中,塑形器經組配以判定下頻帶之部分中的最大頻譜振幅,該部分自下頻帶之預定起始頻率延伸直至下頻帶之最大頻率為止。預定起始頻率大於下頻帶之最小頻率,且較佳地係下頻帶的高於下頻帶之最小頻率之至少10%, 或預定起始頻率較佳地在等於下頻帶之最大頻率的一半之頻率處,該頻率之容許度係在最大頻率之一半的正或負10%內。
塑形器此外經組配以判定衰減因數從而判定額外衰減,其中衰減因數自下頻帶中最大頻譜振幅乘以大於或等於一之預定數字且除以上頻帶中之最大頻譜振幅導出。為此目的,參考說明判定下頻帶中之最大頻譜振幅的區塊1602(較佳地,在塑形之後,亦即,在圖10中之區塊804a之後或在圖17中之區塊1702之後)。
此外,塑形器經組配以再次較佳地在塑形之後判定較高頻帶中之最大頻譜振幅,如(例如)由圖10中之區塊804a或圖17中之區塊1702進行。接著,在區塊1606中,如所說明計算衰減因數fac,其中預定數字c3設定為大於或等於1。在實施例中,圖16中之c3係與圖14中之預定數字c3相同。然而,在其他實施例中,圖16中之c3可設定為不同於圖14中之c3。另外,直接影響衰減因數的圖16中之c3亦取決於位元速率,以使得針對待由如圖8中所說明之量化器/寫碼器級806進行的較高位元速率設定較高預定數字c3
圖17說明類似於在圖10處在區塊804a及804b處所展示之實施的較佳實施,亦即,執行藉由應用於高於邊界頻率(諸如fcelp)之頻譜值的低頻帶增益資訊進行塑形,以便獲得高於邊界頻率之經塑形頻譜值,且另外在後續步驟1704中,在圖17之區塊1704中應用如由圖16中 之區塊1606計算的衰減因數fac。因此,圖17及圖10說明塑形器經組配以基於以下各者而對檢測到的尖峰頻譜區域中之頻譜值進行塑形的情形:第一加權操作,其使用下頻帶之塑形資訊的至少一部分;及第二後續加權操作,其使用衰減資訊,亦即,例示性衰減因數fac。
然而,在其他實施例中,反轉圖17中之步驟的次序以使得使用衰減資訊之第一加權操作發生,且使用下頻帶之塑形資訊的至少一部分之第二後續加權資訊發生。或替代地,使用單一加權操作來執行塑形,該單一加權操作使用組合式加權資訊,該組合式加權資訊一方面取決於衰減資訊且自衰減資訊導出且另一方面取決於下頻帶之塑形資訊的至少一部分且自該至少一部分導出。
如圖17中所說明,額外衰減資訊應用於檢測到之尖峰頻譜區域中的所有頻譜值。替代地,衰減因數僅應用於(例如)最高頻譜值或最高頻譜值之群組,其中群組之成員範圍可介於(例如)2至10。此外,實施例亦將衰減因數應用於上頻帶中之所有頻譜值,該上頻帶的尖峰頻譜區域已由檢測器針對音訊信號之時間框而檢測到。因此,在此實施例中,當僅單個頻譜值已被判定為尖峰頻譜區域時,相同衰減因數應用於完整上頻帶。
當對於某一訊框尚未檢測到尖峰頻譜區域時,則下頻帶及上頻帶由塑形器在無任何額外衰減情況下塑形。因此,執行時間框之間的切換,其中,取決於實施,衰減資訊之某種類平滑化為較佳的。
較佳地,量化器及編碼器級包含如圖15a及圖15b中所說明之速率迴路處理器。在一實施例中,量化器及寫碼器級806包含全域增益加權器1502、量化器1504及熵寫碼器(諸如算術或霍夫曼寫碼器1506)。此外,對於時間框之經量化值的某一集合,熵寫碼器1506將經估計或經量測位元速率提供至控制器1508。
控制器1508經組配以一方面接收迴路終止準則及/或另一方面接收預定位元速率資訊。一旦控制器1508判定未獲得預定位元速率及/或未滿足終止準則,則控制器將經調整全域增益提供至全域增益加權器1502。接著,全域增益加權器將經調整全域增益應用於時間框之經塑形且經衰減頻譜行。區塊1502之全域增益經加權輸出被提供至量化器1504且經量化結果被提供至熵編碼器1506,該熵編碼器1506再次判定藉由經調整全域增益加權之資料的經估計或所量測位元速率。倘若滿足了終止準則及/或滿足了預定位元速率,則在輸出行814處輸出經編碼音訊信號。然而,當未獲得預定位元速率或未滿足終止準則時,則迴路重新起始。此在圖15b中更詳細地予以說明。
當控制器1508如區塊1510中所說明判定位元速率為過高時,則如區塊1512中所說明增大全域增益。因此,所有經塑形且經衰減頻譜行變得更小,此係因為其除以增大之全域增益,且量化器接著量化較小頻譜值以使得熵寫碼器為此時間框產生較小數目個所需位元。因此,藉由經調整全域增益執行加權、量化及編碼之程序,如圖 15b中之區塊1514中所說明,且接著再次判定位元速率是否過高。若位元速率仍過高,則再次執行區塊1512及1514。然而,當判定位元速率不過高時,控制繼續進行至概述是否滿足終止準則之步驟1516。當滿足終止準則時,停止速率迴路且另外經由輸出介面(諸如圖10之輸出介面1014)將最終全域增益引入至經編碼信號中。
然而,當判定未滿足終止準則時,則如區塊1518中所說明減小全域增益,以使得最後使用所允許之最大位元速率。此確保以較高精確度亦即在較少損耗之情況下對易於編碼之時間框進行編碼。因此,對於此類個例,如區塊1518中所說明減小全域增益,且藉由減小之全域增益執行步驟1514,且執行步驟1510以便查看所得位元速率是否過高。
自然地,可視需要設定關於全域增益增大或減小增量之特定實施。另外,控制器1508可實施為具有區塊1510、1512及1514抑或具有區塊1510、1516、1518及1514。因此,取決於實施,且亦取決於全域增益之起始值,程序可係使得程序自極高全域增益起始直至發現仍滿足位元速率要求之最低全域增益為止。另一方面,程序可以一方式進行,使得程序自相當低的全域增益起始且全域增益增大,直至獲得可允許位元速率為止。另外,如圖15b中所說明,亦可應用甚至兩個程序之間的混合物。
圖10說明由區塊802、804a、804b及806構成之本發明音訊編碼器嵌入於切換式時域/頻域編碼器設 定內。
特別而言,音訊編碼器包含共同處理器。共同處理器由ACELP/TCX控制器1004及頻帶限制器(諸如重新取樣器1006及LPC分析器808)構成。此由藉由1002指示之影線方塊說明。
此外,頻帶限制器饋入已相對於圖8所論述之LPC分析器。接著,由LPC分析器808產生之LPC塑形資訊轉發至CELP寫碼器1008,且CELP寫碼器1008之輸出被輸入至產生經最終編碼之信號1020的輸出介面1014中。此外,由寫碼器1008構成之時域寫碼分支另外包含提供資訊且通常提供參數資訊(諸如在輸入1001處輸入之全頻帶音訊信號之至少高頻帶的頻譜包絡資訊)的時域頻寬擴展寫碼器1010。較佳地,由時域頻寬擴展寫碼器1010處理之高頻帶係在亦由頻帶限制器1006使用之邊界頻率處起始的頻帶。因此,頻帶限制器執行低通濾波以便獲得下頻帶,且由低通頻帶限制器1006濾除之高頻帶由時域頻寬擴展寫碼器1010處理。
另一方面,頻譜域或TCX寫碼分支包含時間頻譜轉換器1012,且例示性地包含如先前所論述之音調遮罩以便獲得間隙填充編碼器處理。
接著,時間頻譜轉換器1012及額外可選音調遮罩處理之結果輸入至頻譜塑形器804a中,且頻譜塑形器804a之結果輸入至衰減器804b中。衰減器804b由使用時域資料抑或使用如1022處所說明之時間頻譜轉換器區塊 1012之輸出來執行檢測的檢測器802控制。區塊804a及804b一起如先前已論述而實施圖8之塑形器804。區塊804之結果輸入至在某一實施例中由預定位元速率控制之量化器及寫碼器級806中。另外,當由檢測器應用之預定數字亦取決於預定位元速率時,則預定位元速率亦輸入至檢測器802(圖10中未圖示)中。
因此,經編碼信號1020自量化器及寫碼器級接收資料,自控制器1004接收控制資訊,自CELP寫碼器1008接收資訊,且自時域頻寬擴展寫碼器1010接收資訊。
隨後,甚至更詳細地論述本發明之較佳實施例。
節省對現有實施之互操作性及回溯相容性的一選項係進行編碼器側預處理。如隨後所解釋,演算法分析MDCT頻譜。倘若低於fCELP之有效信號分量存在且發現高於fCELP之高尖峰(其潛在地摧毀速率迴路中之完全頻譜的寫碼),高於fCELP之此等尖峰被衰減。儘管衰減不可在解碼器側上回復,但所得經解碼信號相比於之前在感知上顯著地更合意,其中頻譜之絕大部分被完全地置零。
衰減減小速率迴路對高於fCELP之尖峰的聚焦,且允許重要低頻率MDCT係數經受住速率迴路。
以下演算法描述編碼器側預處理:
1)檢測低頻帶內容(例如,1102):
對低頻帶內容之檢測分析有效低頻帶信號部分是否存在。對此,在應用反LPC塑形增益之前,在MDCT頻譜上 搜尋低於及高於fCELP之MDCT頻譜的最大振幅。搜尋程序傳回以下值:
a)max_low_pre:低於fCELP之最大MDCT係數,其在應用反LPC塑形增益之前在絕對值之頻譜上進行評估
b)max_high_pre:高於fCELP之最大MDCT係數,其在應用反LPC塑形增益之前在絕對值之頻譜上進行評估
對於該決策,評估以下條件:
條件1:c1 * max_low_pre > max_high_pre
若條件1係真,則採用大量低頻帶內容,且繼續預處理;若條件1係假,則中止預處理。此確保無損害在高於fCELP時施加至僅高頻帶信號(例如,正弦拂掠)。
偽碼:
其中XM係應用反LPC增益塑形之前的MDCT頻譜,LTCX (CELP)係高至fCELP之MDCT係數的數字
LTCX (BW)係完全MDCT頻譜之MDCT係數的數字
在一實例實施中,c1設定為16,且fabs傳回絕對值。
2)評估尖峰距離量度(例如,1104):
尖峰距離量度分析高於fCELP之頻譜尖峰對算術寫碼器的影響。因此,在應用反LPC塑形增益之後,亦即,在亦應用了算術寫碼器之域中,在MDCT頻譜上搜尋低於及高於fCELP之MDCT頻譜的最大振幅。除了最大振幅以外,亦評估距fCELP之距離。搜尋程序傳回以下值:
a)max_low:低於fCELP之最大MDCT係數,其在應用反LPC塑形增益之後在絕對值之頻譜上進行評估
b)dist_low:max_low距fCELP之距離
c)max_high:高於fCELP之最大MDCT係數,其在應用反LPC塑形增益之後在絕對值之頻譜上進行評估
d)dist_high:max_high距fCELP之距離
對於該決策,評估以下條件:
條件2:c2 * dist_high * max_high > dist_low * max_low
若條件2係真,則歸因於極高頻譜尖峰抑或此尖峰之高頻率,假定算術寫碼器之顯著壓力。高尖峰將在速率迴路中支配寫碼程序,高頻率將對算術寫碼器不利,此係因為算術寫碼器始終自低頻率至高頻率地運作,亦即,較高頻率寫碼起來為低效的。若條件2係真,則繼續預處理。若條件2係假,則中止預處理。
其中係應用反LPC增益塑形之後的MDCT頻譜,LTCX (CELP)係高至fCELP之MDCT係數的數字
LTCX (BW)係完全MDCT頻譜之MDCT係數的數字
在一實例實施中,c2設定為4。
3)比較尖峰振幅(例如,1106):
最終,比較心理聲學上類似之頻譜區中的尖峰振幅。因此,在應用反LPC塑形增益之後,在MDCT頻譜上搜尋 低於及高於fCELP之MDCT頻譜的最大振幅。對於完全頻譜不搜尋低於fCELP之MDCT頻譜的最大振幅,但最大振幅僅在flow>0Hz時起始。此將捨棄最低頻率(其係心理聲學上最重要的,且通常在應用反LPC塑形增益之後具有最高振幅),且將僅比較具有類似心理聲學重要性之分量。搜尋程序傳回以下值:
a)max_low2:低於fCELP之最大MDCT係數,其在應用自flow起始之反LPC塑形增益之前在絕對值之頻譜上進行評估
b)max_high:高於fCELP之最大MDCT係數,其在應用反LPC塑形增益之後在絕對值之頻譜上進行評估
對於該決策,評估以下條件:
條件3:max_high > c3 * max_low2
若條件3係真,則採用高於fCELP之頻譜係數,該等頻譜係數相較於僅低於fCELP之頻譜係數具有顯著地較高的振幅,且被假定為編碼起來昂貴的。常數c3界定最大增益,最大增益係調諧參數。若條件2係真,則繼續預處理。若條件2係假,則中止預處理。
偽碼:
其中Llow係對應於flow之偏移
X M係應用反LPC增益塑形之後的MDCT頻譜,LTCX (CELP)係高至fCELP之MDCT係數的數字
LTCX (BW)係完全MDCT頻譜之MDCT係數的數字
在一實例實施中,flow設定為LTCX (CELP)/2。在一實例 實施中,c3對於低位元速率設定為1.5,且對於高位元速率設定為3.0。
4)衰減高於fCELP之高尖峰(例如,圖16及圖17):
若條件1至3被發現是真,則應用高於fCELP之尖峰的衰減。衰減相比於心理聲學上類似之頻譜區允許最大增益c3。衰減因數計算如下:attenuation_factor = c3 * max_low2 / max_high
衰減因數隨後應用於高於fCELP之所有MDCT係數。
5)
偽碼:
其中 X M係應用反LPC增益塑形之後的MDCT頻譜,LTCX (CELP)係高至fCELP之MDCT係數的數字
LTCX (BW)係完全MDCT頻譜之MDCT係數的數字
編碼器側預處理顯著地減小寫碼迴路之壓力,同時仍維持高於fCELP之相關頻譜係數。
圖7說明在應用反LPC塑形增益及上述編碼器側預處理之後的關鍵訊框的MDCT頻譜。取決於為c1、c2及c3所選擇之數值,隨後饋入至速率迴路中之所得頻譜可如上所示。該等數值顯著地減小,但仍有可能經受住速率迴路而不消耗所有可用位元。
儘管已在設備之上下文中描述了一些態樣,但清楚的是,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或項目或對應設備之特徵的描述。可藉由(或使用)硬體設備(例如,微處理器、可規劃電腦或電子電路)執行方法步驟中之一些或全部。在一些實施例中,可藉由此設備執行最重要之方法步驟中之一或多者。
本發明之經編碼音訊信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或軟體予以實施。可使用非暫時性儲存媒體或數位儲存媒體執行實施,該等媒體係例如在其上儲存有電子可讀 控制信號之軟碟、DVD、Blu-ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,電子可讀控制信號與可規劃電腦系統協作(或能夠與其協作)使得各別方法被執行。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等信號能夠與可規劃電腦系統協作使得本文中所描述方法中之一者被執行。
一般而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品在電腦上運作時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上之用於執行本文中所描述之方法中之一者的電腦程式。
換言之,因此,本發明方法之實施例係具有用於在電腦程式於電腦上運作時執行本文中所描述之方法中之一者的程式碼之電腦程式。
因此,本發明方法之另一實施例係包含記錄於其上之用於執行本文中所描述之方法中之一者的電腦程式之資料載體(或數位儲存媒體,或電腦可讀媒體)。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式的資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由 資連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如,經組配或經調適以執行本文中所描述之方法中之一者的電腦或可規劃邏輯裝置。
另一實施例包含電腦,其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的設備或系統。接收器可(例如)係電腦、行動裝置、記憶體裝置或類似者。設備或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。一般而言,該等方法較佳地由任一硬體設備執行。
本文中所描述之設備可使用硬體設備或使用電腦或使用硬體設備與電腦之組合予以實施。
本文中所描述之設備或本文中所描述之設備的任何組件可至少部分地以硬體及/或以軟體予以實施。
本文中所描述之方法可使用硬體設備或使用電腦或使用硬體設備與電腦之組合予以執行。
本文所描述之方法或本文中所描述之設備 的任何組件可至少部分地由硬體及/或由軟體執行。
上文所描述之實施例僅說明本發明之原理。當然,對本文中所描述之佈置及細節的修改及變化將對熟習此項技術者為顯而易見。因此,其意欲僅由接下來之申請專利範圍之範疇限制,而非由藉助於本文中之實施例之描述及解釋所呈現的特定細節限制。
在前述描述中,可看出各種特徵出於精簡本發明之目的而在實施例中分組在一起。不應將此揭示方法解釋為反映以下意圖:所主張實施例要求比各請求項中明確敍述更多的特徵。確切而言,如以下申請專利範圍反映,本發明標的物可在於少於單一所揭示實施例之全部特徵。因此,以下申請專利範圍藉此併入至實施方式中,其中每一請求項可就其自身而言作為單獨實施例。儘管每一請求項可就其自身而言作為單獨實施例,但應注意,儘管附屬請求項可在申請專利範圍中指與一或多個其他請求項之特定組合,但其他實施例亦可包括該附屬請求項與每一其他附屬請求項之標的物的組合,或每一特徵與其他附屬或獨立請求項之組合。除非陳述並不意欲特定組合,否則在本文中提議此類組合。此外,意欲亦包括一項請求項對於任何其他獨立請求項的特徵,即使並不直接使此請求項附屬於獨立請求項亦如此。
應進一步注意到,本說明書或申請專利範圍中所揭示之方法可藉由具有用於執行此等方法之各別步驟中的每一者之構件的裝置予以實施。
此外,在一些實施例中,單個步驟可包括或可分成多個子步驟。除非明確地排除,否則此等子步驟可包括於具有此單個步驟的本發明中且係其部分。
參考文獻
[1] 3GPP TS 26.445 - Codec for Enhanced Voice Services (EVS); Detailed algorithmic description

Claims (26)

  1. 一種用於對具有一下頻帶及一上頻帶之一音訊信號進行編碼的音訊編碼器,其包含:一檢測器,其用於檢測該音訊信號之該上頻帶中的一尖峰頻譜區域;一塑形器,其用於使用該下頻帶之塑形資訊來對該下頻帶進行塑形,且用於使用該下頻帶之該塑形資訊的至少一部分來對該上頻帶進行塑形,其中該塑形器經組配以額外衰減該上頻帶中之該檢測到的尖峰頻譜區域中之頻譜值;以及一量化器及寫碼器級,其用於量化一經塑形下頻帶及一經塑形上頻帶,且用於對來自該經塑形下頻帶及該經塑形上頻帶之經量化頻譜值進行熵寫碼。
  2. 如請求項1之音訊編碼器,其進一步包含:一線性預測分析器,其用於藉由分析該音訊信號之一時間框中之音訊樣本的一區塊來導出該時間框之線性預測係數,該等音訊樣本係頻帶限於該下頻帶,其中該塑形器經組配以將該等線性預測係數用作該塑形資訊來對該下頻帶進行塑形,且其中該塑形器經組配以將自頻帶限於該下頻帶之音訊樣本的該區塊導出之該等線性預測係數的至少該部分用於在該音訊信號之該時間框中對該上頻帶進行塑形。
  3. 如請求項1或2之音訊編碼器,其中該塑形器經組配以使用自該音訊信號之該下頻帶導出的線性預測係數來計算該下頻帶之多個子頻帶的多個塑形因數,其中該塑形器經組配以使用為對應子頻帶所計算之一塑形因數來在該下頻帶中為該下頻帶之一子頻帶中的頻譜係數加權,且經組配以使用為該下頻帶之該等子頻帶中的一者所計算之一塑形因數來為該上頻帶中之頻譜係數加權。
  4. 如請求項3之音訊編碼器,其中該塑形器經組配以使用為該下頻帶之一最高子頻帶所計算的一塑形因數來為該上頻帶之該等頻譜係數加權,該最高子頻帶具有該下頻帶之子頻帶之所有中心頻率當中的一最高中心頻率。
  5. 如請求項1之音訊編碼器,其中該檢測器經組配以在一組條件中之至少一者係真時判定該上頻帶中之一尖峰頻譜區域,該組條件至少包含以下各者:一低頻帶振幅條件、一尖峰距離條件及一尖峰振幅條件。
  6. 如請求項5之音訊編碼器,其中該檢測器經組配以針對該低頻帶振幅條件而判定:該下頻帶中之一最大頻譜振幅;該上頻帶中之一最大頻譜振幅,其中,當由大於零之一預定數字加權的該下頻帶中之該最大頻譜振幅大於該上頻帶中之該最大頻譜振幅時,該低頻帶振幅條件係真。
  7. 如請求項6之音訊編碼器,其中該檢測器經組配以在應用由該塑形器應用之一塑形操作之前檢測該下頻帶中之該最大頻譜振幅或該上頻帶中之該最大頻譜振幅,或其中該預定數字具有介於4與30之間之一數值。
  8. 如請求項5之音訊編碼器,其中該檢測器經組配以針對該尖峰距離條件而判定,該下頻帶中之一第一最大頻譜振幅;該第一最大頻譜振幅距該下頻帶之一中心頻率與該上頻帶之一中心頻率之間的一邊界頻率之一第一頻譜距離;該上頻帶中之一第二最大頻譜振幅;該第二最大頻譜振幅的自該邊界頻率至該第二最大頻譜振幅之一第二頻譜距離,其中,當由該第一頻譜距離加權且由大於1之一預定數字加權的該第一最大頻譜振幅大於由該第二頻譜距離加權之該第二最大頻譜振幅時,該尖峰距離條件係真。
  9. 如請求項8之音訊編碼器,其中該檢測器經組配以在該塑形器之一塑形操作之後在無額外衰減情況下判定該第一最大頻譜振幅或該第二最大頻譜振幅,或其中該邊界頻率係該下頻帶中之最高頻率或該上頻帶中之最低頻率,或其中該預定數字具有介於1.5與8之間之一數值。
  10. 如請求項5之音訊編碼器,其中該檢測器經組配以判定該下頻帶之一部分中的一第一最大頻譜振幅,該部分自該下頻帶之一預定起始頻率延伸直至該下頻帶之一最大頻率為止,該預定起始頻率大於該下頻帶之一最小頻率,經組配以判定該上頻帶中之一第二最大頻譜振幅,其中,當該第二最大頻譜振幅大於由大於或等於1之一預定數字加權的該第一最大頻譜振幅時,該尖峰振幅條件係真。
  11. 如請求項10之音訊編碼器,其中該檢測器經組配以在由該塑形器應用之一塑形操作之後在無該額外衰減情況下判定該第一最大頻譜振幅或該第二最大頻譜振幅,或其中該預定起始頻率係該下頻帶的高於該下頻帶之該最小頻率的至少10%,或其中該預定起始頻率係在等於該下頻帶之一最大頻率的一半之一頻率處,該頻率之一容許度係在該最大頻率之該一半的+/- 10%內,或其中該預定數字取決於待由該量化器/寫碼器級提供之一位元速率,以使得該預定數字對於一較高位元速率較高,或其中該預定數字具有介於1.0與5.0之間之一數值。
  12. 如請求項6之音訊編碼器,其中該檢測器經組配以僅在該三個條件中之至少兩個條件或該三個條件係真時判定該尖峰頻譜區域。
  13. 如請求項6之音訊編碼器,其中該檢測器經組配以將真實頻譜之頻譜值的一絕對值、一複合頻譜之一量值、該真實頻譜之該頻譜值的任何冪或該複合頻譜之一量值的任何冪判定為該頻譜振幅,該冪大於1。
  14. 如請求項1之音訊編碼器,其中該塑形器經組配以基於該上頻帶中之一最大頻譜振幅或基於該下頻帶中之一最大頻譜振幅而衰減該檢測到之尖峰頻譜區域中的至少一個頻譜值。
  15. 如請求項14之音訊編碼器,其中該塑形器經組配以判定該下頻帶之一部分中的該最大頻譜振幅,該部分自該下頻帶之一預定起始頻率延伸直至該下頻帶之一最大頻率為止,該預定起始頻率大於該下頻帶之一最小頻率,其中該預定起始頻率較佳地係該下頻帶的高於該下頻帶之該最小頻率的至少10%,或其中該預定起始頻率較佳地在等於該下頻帶之一最大頻率的一半之一頻率處,該頻率之一容許度係在該最大頻率之該一半的+/- 10%內。
  16. 如請求項14之音訊編碼器,其中該塑形器經組配以額外使用一衰減因數來衰減該等頻譜值,該衰減因數係自該下頻帶中之該最大頻譜振幅乘以大於或等於1之一預定數字且除以該上頻帶中之該最大頻譜振幅而導出。
  17. 如請求項1之音訊編碼器,其中該塑形器經組配以基於以下各者而對該檢測到的尖峰頻譜區域中之該等頻譜值進行塑形:一第一加權操作,其使用該下頻帶之該塑形資訊的至少該部分;及一第二後續加權操作,其使用一衰減資訊;或一第一加權操作,其使用該衰減資訊;及一第二後續加權資訊,其使用該下頻帶之該塑形資訊的至少一部分,或一單一加權操作,其使用自該衰減資訊及該下頻帶之該塑形資訊的至少該部分導出之一組合式加權資訊。
  18. 如請求項17之音訊編碼器,其中該下頻帶之該加權資訊係塑形因數之一集合,每一塑形因數與該下頻帶之一子頻帶相關聯,其中在該上頻帶之該塑形操作中所使用的該下頻帶之該加權資訊的至少該部分係為與該下頻帶之一子頻帶相關聯的一塑形因數,該子頻帶具有該下頻帶中之所有子頻帶的一最高中心頻率,或其中該衰減資訊係應用於該檢測到之頻譜區中的該至少一個頻譜值或應用於該檢測到之頻譜區中的所有該等頻譜值或應用於該上頻帶中之所有頻譜值的一衰減因數,該上頻帶之該尖峰頻譜區域已由該檢測器針對該音訊信號之一時間框而檢測到,或其中該塑形器經組配以在該檢測器尚未檢測到該音訊信號之一時間框之該上頻帶中的任何尖峰頻譜區域時執行在無任何額外衰減情況下對該下頻帶及該上頻帶的該塑形。
  19. 如請求項1之音訊編碼器,其中該量化器及寫碼器級包含一速率迴路處理器,該速率迴路處理器用於估計一量化器特性以使得獲得一經熵編碼音訊信號之一預定位元速率。
  20. 如請求項19之音訊編碼器,其中該量化器特性係一全域增益,其中該量化器及寫碼器級包含:一加權器,其用於藉由該同一全域增益為該下頻帶中之經塑形頻譜值及該上頻帶中之經塑形頻譜值加權,一量化器,其用於量化由該全域增益加權之值;以及一熵寫碼器,其用於對該等經量化值進行熵寫碼,其中該熵寫碼器包含一算術寫碼器或一霍夫曼寫碼器。
  21. 如請求項1之音訊編碼器,其進一步包含:一音調遮罩處理器,其用於在該上頻帶中判定待量化且熵編碼之一第一組頻譜值,及待由一間隙填充程序參數化寫碼之一第二組頻譜值,其中該音調遮罩處理器經組配以將該第二組頻譜值設定為零值。
  22. 如請求項1之音訊編碼器,其進一步包含:一共同處理器;一頻域編碼器;以及一線性預測編碼器,其中該檢測器、該塑形器以及該量化器及寫碼器級係包括於該頻域編碼器中,且其中該共同處理器經組配以計算待由該頻域編碼器及該線性預測編碼器使用之資料。
  23. 如請求項22之音訊編碼器,其中該共同處理器經組配以對該音訊信號進行重新取樣,以獲得頻帶限於該音訊信號之一時間框的該下頻帶的一經重新取樣音訊信號,且其中該共同處理器包含一線性預測分析器,該線性預測分析器用於藉由分析該時間框中之音訊樣本的一區塊來導出該音訊信號之該時間框的線性預測係數,該等音訊樣本係頻帶限於該下頻帶,或其中該共同處理器經組配以控制該音訊信號之該時間框將由該線性預測編碼器之一輸出抑或該頻域編碼器之一輸出表示。
  24. 如請求項22之音訊編碼器,其中該頻域編碼器包含用於將該音訊信號之一時間框轉換成包含該下頻帶及該上頻帶之一頻率表示的一時間至頻率轉換器。
  25. 一種用於對具有一下頻帶及一上頻帶之一音訊信號進行編碼的方法,其包含:檢測該音訊信號之該上頻帶中的一尖峰頻譜區域;使用該下頻帶之塑形資訊來對該音訊信號之該下頻帶進行塑形,且使用該下頻帶之該塑形資訊的至少一部分來對該音訊信號之該上頻帶進行塑形,其中該上頻帶之該塑形包含對該上頻帶中之該檢測到的尖峰頻譜區域中之一頻譜值的一額外衰減。
  26. 一種電腦程式,其用於在於一電腦或一處理器上運作時執行如請求項25之方法。
TW106111989A 2016-04-12 2017-04-11 用以編碼音訊信號之音訊編碼器、用以編碼音訊信號之方法、及考量上頻帶中所檢出尖峰頻譜區域的電腦程式 TWI642053B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
??16164951.2 2016-04-12
EP16164951 2016-04-12
PCT/EP2017/058238 WO2017178329A1 (en) 2016-04-12 2017-04-06 Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
??PCT/EP2017/058238 2017-04-06

Publications (2)

Publication Number Publication Date
TW201802797A TW201802797A (zh) 2018-01-16
TWI642053B true TWI642053B (zh) 2018-11-21

Family

ID=55745677

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106111989A TWI642053B (zh) 2016-04-12 2017-04-11 用以編碼音訊信號之音訊編碼器、用以編碼音訊信號之方法、及考量上頻帶中所檢出尖峰頻譜區域的電腦程式

Country Status (19)

Country Link
US (3) US10825461B2 (zh)
EP (3) EP3443557B1 (zh)
JP (3) JP6734394B2 (zh)
KR (1) KR102299193B1 (zh)
CN (3) CN109313908B (zh)
AR (1) AR108124A1 (zh)
AU (1) AU2017249291B2 (zh)
CA (1) CA3019506C (zh)
ES (2) ES2808997T3 (zh)
FI (1) FI3696813T3 (zh)
MX (1) MX2018012490A (zh)
MY (1) MY190424A (zh)
PL (2) PL3696813T3 (zh)
PT (2) PT3696813T (zh)
RU (1) RU2719008C1 (zh)
SG (1) SG11201808684TA (zh)
TW (1) TWI642053B (zh)
WO (1) WO2017178329A1 (zh)
ZA (1) ZA201806672B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
JP7088403B2 (ja) * 2019-02-20 2022-06-21 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
CN110047519B (zh) * 2019-04-16 2021-08-24 广州大学 一种语音端点检测方法、装置及设备
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CN113192523B (zh) * 2020-01-13 2024-07-16 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113539281B (zh) * 2020-04-21 2024-09-06 华为技术有限公司 音频信号编码方法和装置
CN111613241B (zh) * 2020-05-22 2023-03-24 厦门理工学院 一种高精度高稳定度的弦乐器基波频率检测方法
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN112397043B (zh) * 2020-11-03 2021-11-16 北京中科深智科技有限公司 一种语音转化成歌曲的方法和系统
CN112951251B (zh) * 2021-05-13 2021-08-06 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质
CN118314908A (zh) * 2023-01-06 2024-07-09 华为技术有限公司 场景音频解码方法及电子设备
CN118708951A (zh) * 2024-08-29 2024-09-27 硕橙(厦门)科技有限公司 一种基于信息熵算法的频谱峰值点检测方法、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140393A1 (en) * 2006-12-08 2008-06-12 Electronics & Telecommunications Research Institute Speech coding apparatus and method
US20120010879A1 (en) * 2009-04-03 2012-01-12 Ntt Docomo, Inc. Speech encoding/decoding device
KR20130047630A (ko) * 2011-10-28 2013-05-08 한국전자통신연구원 통신 시스템에서 신호 부호화 장치 및 방법
JP2014197790A (ja) * 2013-03-29 2014-10-16 凸版印刷株式会社 印刷再現色予測方法及びデバイス制御値算出方法
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
JP3125543B2 (ja) * 1993-11-29 2001-01-22 ソニー株式会社 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
DE19804581C2 (de) * 1998-02-05 2000-08-17 Siemens Ag Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
GB9917985D0 (en) * 1999-07-30 1999-09-29 Scient Generics Ltd Acoustic communication system
JP2001143384A (ja) * 1999-11-17 2001-05-25 Sharp Corp ディジタル信号処理装置およびディジタル信号処理方法
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
AU2211102A (en) * 2000-11-30 2002-06-11 Scient Generics Ltd Acoustic communication system
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
BRPI0415464B1 (pt) 2003-10-23 2019-04-24 Panasonic Intellectual Property Management Co., Ltd. Aparelho e método de codificação de espectro.
US8150683B2 (en) * 2003-11-04 2012-04-03 Stmicroelectronics Asia Pacific Pte., Ltd. Apparatus, method, and computer program for comparing audio signals
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
JP4671303B2 (ja) * 2005-09-02 2011-04-13 国立大学法人北陸先端科学技術大学院大学 マイクロホンアレイ用ポストフィルタ
WO2007043643A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US9496850B2 (en) * 2006-08-04 2016-11-15 Creative Technology Ltd Alias-free subband processing
KR101040160B1 (ko) * 2006-08-15 2011-06-09 브로드콤 코포레이션 패킷 손실 후의 제한되고 제어된 디코딩
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
CN101548318B (zh) * 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
JP5345067B2 (ja) * 2007-10-30 2013-11-20 クラリオン株式会社 聴覚感度補正装置
CN102177426B (zh) * 2008-10-08 2014-11-05 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
JP5511785B2 (ja) * 2009-02-26 2014-06-04 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8751225B2 (en) * 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP2012163919A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
US9293151B2 (en) * 2011-10-17 2016-03-22 Nuance Communications, Inc. Speech signal enhancement using visual information
JP5915240B2 (ja) * 2012-02-20 2016-05-11 株式会社Jvcケンウッド 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法
RU2725416C1 (ru) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
EP2963646A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140393A1 (en) * 2006-12-08 2008-06-12 Electronics & Telecommunications Research Institute Speech coding apparatus and method
US20120010879A1 (en) * 2009-04-03 2012-01-12 Ntt Docomo, Inc. Speech encoding/decoding device
KR20130047630A (ko) * 2011-10-28 2013-05-08 한국전자통신연구원 통신 시스템에서 신호 부호화 장치 및 방법
JP2014197790A (ja) * 2013-03-29 2014-10-16 凸版印刷株式会社 印刷再現色予測方法及びデバイス制御値算出方法
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor

Also Published As

Publication number Publication date
US10825461B2 (en) 2020-11-03
EP3443557A1 (en) 2019-02-20
JP2019514065A (ja) 2019-05-30
KR102299193B1 (ko) 2021-09-06
ZA201806672B (en) 2019-07-31
JP2022009710A (ja) 2022-01-14
ES2808997T3 (es) 2021-03-02
CN117316168A (zh) 2023-12-29
CN109313908A (zh) 2019-02-05
CN117253496A (zh) 2023-12-19
CA3019506C (en) 2021-01-19
TW201802797A (zh) 2018-01-16
US20230290365A1 (en) 2023-09-14
US20190156843A1 (en) 2019-05-23
US12014747B2 (en) 2024-06-18
EP3696813B1 (en) 2022-10-26
PT3696813T (pt) 2022-12-23
WO2017178329A1 (en) 2017-10-19
JP6970789B2 (ja) 2021-11-24
EP3696813A1 (en) 2020-08-19
ES2933287T3 (es) 2023-02-03
AU2017249291A1 (en) 2018-10-25
CA3019506A1 (en) 2017-10-19
AR108124A1 (es) 2018-07-18
EP3443557B1 (en) 2020-05-20
PL3443557T3 (pl) 2020-11-16
AU2017249291B2 (en) 2020-02-27
MX2018012490A (es) 2019-02-21
RU2719008C1 (ru) 2020-04-16
MY190424A (en) 2022-04-21
KR20180134379A (ko) 2018-12-18
PL3696813T3 (pl) 2023-03-06
JP6734394B2 (ja) 2020-08-05
JP7203179B2 (ja) 2023-01-12
FI3696813T3 (fi) 2023-01-31
JP2020181203A (ja) 2020-11-05
CN109313908B (zh) 2023-09-22
EP4134953A1 (en) 2023-02-15
BR112018070839A2 (pt) 2019-02-05
PT3443557T (pt) 2020-08-27
US11682409B2 (en) 2023-06-20
SG11201808684TA (en) 2018-11-29
US20210005210A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
TWI642053B (zh) 用以編碼音訊信號之音訊編碼器、用以編碼音訊信號之方法、及考量上頻帶中所檢出尖峰頻譜區域的電腦程式
JP5591385B2 (ja) オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
US11854561B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
US11127408B2 (en) Temporal noise shaping