TWI569262B - 用於將經編碼音訊信號解碼以獲得經重構音訊信號之裝置及方法與相關電腦程式 - Google Patents

用於將經編碼音訊信號解碼以獲得經重構音訊信號之裝置及方法與相關電腦程式 Download PDF

Info

Publication number
TWI569262B
TWI569262B TW103121596A TW103121596A TWI569262B TW I569262 B TWI569262 B TW I569262B TW 103121596 A TW103121596 A TW 103121596A TW 103121596 A TW103121596 A TW 103121596A TW I569262 B TWI569262 B TW I569262B
Authority
TW
Taiwan
Prior art keywords
audio signal
spectrum
noise
domain
frame
Prior art date
Application number
TW103121596A
Other languages
English (en)
Other versions
TW201508740A (zh
Inventor
麥可 史納貝
葛倫 馬可維希
雷夫 史派史奈德
傑瑞米 列康提
克里斯汀 赫姆瑞區
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201508740A publication Critical patent/TW201508740A/zh
Application granted granted Critical
Publication of TWI569262B publication Critical patent/TWI569262B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Description

用於將經編碼音訊信號解碼以獲得經重構音訊信號之裝置及方法與相關電 腦程式 發明領域
本發明係關於音訊信號編碼、處理及解碼,且特定言之係關於針對切換式音訊寫碼系統於錯誤隱藏過程中之改良信號淡出之裝置及方法。
發明背景
在下文中,描述關於封包丟失隱藏(PLC)過程中之話語及音訊編碼解碼器淡出的目前先進技術。關於目前先進技術之解釋始於G系列(G.718、G.719、G.722、G.722.1、G.729、G.729.1)之ITU-T編碼解碼器,接著為3GPP編碼解碼器(AMR、AMR-WB、AMR-WB+)及一IETF編碼解碼器(OPUS),且以兩種MPEG編碼解碼器(HE-AAC、HILN)結尾(ITU=國際電信協會;3GPP=第三代合作夥伴計劃;AMR=適應性多速率;WB=寬頻;IETF=網際網路工程任務小組)。隨後,分析關於追蹤背景雜訊位準之目前先進技術,接著 為提供概述之總結。
首先,考慮G.718。G.718為支援DTX/CNG之窄頻及寬頻話語編碼解碼器(DTX=數位影院系統;CNG=舒緩雜訊產生)。作為尤其涉及低延遲碼之實施例,此處,將更詳細地描述低延遲版本模式。
考慮ACELP(層1)(ACELP=代數碼激發線性預測),ITU-T為G.718[ITU08a,章節7.11]推薦了用以控制衰落速度的線性預測域中之適應性淡出。大體而言,隱藏遵循此原理:根據G.718,在訊框抹除之狀況下,隱藏策略可總結為將信號能量及頻譜包絡收斂至背景雜訊之所估計參數。將信號之週期性收斂為零。收斂之速度取決於最後正確地接收之訊框的參數及連續被抹除訊框之數目,並由衰減因數α控制。衰減因數α進一步取決於用於無聲訊框之LP濾波器(LP=線性預測)的穩定性θ。大體而言,若最後良好接收訊框處於穩定分段中,則收斂係緩慢的,且若訊框處於轉變分段中,則收斂係快速的。
衰減因數α取決於根據[ITU08a,章節6.8.1.3.1及7.11.1.1]中所描述之信號分類導出的話語信號類別。基於鄰近ISF(導抗頻譜頻率)濾波器之間的距離度量計算穩定性因數θ[ITU08a,章節7.1.2.4.2]。
表1展示α之計算方案:
此外,G.718提供衰落方法以便修改頻譜包絡。一般想法為使最後ISF參數朝向適應性ISF均值向量收斂。首先,自最後3個已知ISF向量計算平均ISF向量。接著,將平均ISF向量與離線經訓練之長期ISF向量(其為常數向量)再次平均[ITU08a,章節7.11.1.2]。
此外,G.718提供衰落方法,以控制長期行為且因此控制與背景雜訊的相互作用,其中將音高激發能量(且因此激發週期性)收斂為0,而隨機激發能量收斂為CNG激發能量[ITU08a,章節7.11.1.6]。如下計算革新增益衰減:
其中為下一訊框之開始處的革新增益,為當前訊框之開始處的革新增益,g n 為舒緩雜訊產生過程中所使用之激發的增益及衰減因數α。
類似於週期性激發衰減,貫穿訊框逐個樣本地以開始,並在下一訊框之開始處到達地使增益線性衰減。
圖2概述G.718之解碼器結構。特定言之,圖2說明用於PLC之具有高通濾波器的高階G.718解碼器結構。
藉由G.718之上文所描述方法,對於封包丟失之較長叢發,革新增益g s 收斂為舒緩雜訊產生過程中所使用 之增益g n 。如[ITU08a,章節6.12.3]中所描述,舒緩雜訊增益g n 給定為能量之平方根。並不詳細描述之更新條件。遵循參考實施(浮點C碼,stat_noise_uv_mod.c),如下導出
其中unvoiced_vad保有語音活動偵測,其中unv_cnt保有一列中之無聲訊框的數目,其中lp_gainc保有固定碼簿之低通增益,且其中lp_ener保有初始化為0之低通CNG能量估計
此外,若最後良好訊框之信號經分類為不同於無聲,則G.718提供引入至無聲激發之信號路徑中的高通濾波器,參見圖2,亦參見[ITU08a,章節7.11.1.6]。此濾波器具有低擱板特性,其在DC處的頻率回應比奈奎斯頻率處的頻率回應低大約5dB。
此外,G.718提議解耦式LTP回饋迴路(LTP=長期預測):雖然在正常操作過程中,基於完全激發逐子訊框地更新用於適應性碼簿之回饋迴路([ITU08a,章節7.1.2.1.4])。在隱藏過程中,僅基於有聲激發,逐訊框地更新此回饋迴路(參見[ITU08a,章節7.11.1.4、7.11.2.4、7.11.1.6、7.11.2.6;dec_GV_exc@dec_gen_voic.c及syn_bfi_post@syn_bfi_pre_post.c])。借助於此方法,適應性 碼簿未被雜訊「污染」,該雜訊之起源在於隨機選擇的革新激發。
關於G.718之經變換寫碼增強層(3至5),在隱藏過程中,解碼器的關於高層解碼的行為類似於正常操作,只是MDCT頻譜被設定為零。在隱藏過程中並未應用特殊淡出行為。
關於CNG,在G.718中,按以下次序完成CNG合成。首先,解碼舒緩雜訊訊框之參數。接著,合成舒緩雜訊訊框。然後重置音高緩衝器。接著,儲存用於FER(訊框錯誤恢復)分類之合成。然後,進行頻譜解強調。接著進行低頻後濾波。接著,更新CNG變數。
在隱藏的狀況下,執行完全一樣的步驟,不過並未自位元串流解碼CNG參數。此意謂在訊框丟失的過程中不更新參數,而是使用來自最後良好SID(靜默插入描述符)訊框的經解碼之參數。
現在考慮G.719。基於Siren 22之G.719為基於變換之全頻帶音訊編碼解碼器。ITU-T為G.719推薦了在頻譜域中具有訊框重複之淡出[ITU08b,章節8.6]。根據G.719,將訊框抹除隱藏機制併入到解碼器中。當正確地接收到訊框時,將經重建構變換係數儲存於緩衝器中。若通知解碼器訊框已丟失或訊框被損毀,則在最近接收之訊框中重建構的變換係數以因數0.5按比例遞減,且接著被用作當前訊框之經重建構變換係數。解碼器藉由將該等係數變換至時域及執行開窗重疊相加操作而繼續進行。
在下文中,描述了G.722。G.722為50至7000Hz寫碼系統,其使用在高達64kbit/s(千位元/秒)之位元速率內的子頻帶適應性差分脈碼調變(SB-ADPCM)。使用QMF分析(QMF=正交鏡像濾波)將信號拆分成較高及較低子頻帶。所得兩個頻帶為ADPCM寫碼的(ADPCM=適應性差分脈碼調變)。
對於G.722,在附錄III[ITU06a]中指定用於封包丟失隱藏之高複雜性演算法,及在附錄IV[ITU07]中指定用於封包丟失隱藏之低複雜性演算法。G.722-附錄III([ITU06a,章節III.5])提出逐步執行的靜音,其在訊框丟失20ms之後開始,在訊框丟失60ms之後完成。此外,G.722-附錄IV提出淡出技術,其「對每一樣本」應用「逐樣本地計算及調適的增益因數」[ITU07,章節IV.6.1.2.7]。
在G.722中,就在QMF合成之前,靜音程序發生於子頻帶域中,且作為PLC模組之最後步驟。使用來自信號分類器之類別資訊執行靜音因數之計算,該信號分類器亦為PLC模組的部分。在類別TRANSIENT、UV_TRANSITION與其他類別之間進行區別。此外,在10ms訊框之單次丟失與其他狀況(10ms訊框之多次丟失及20ms訊框之單次/多次丟失)之間進行區別。
由圖3說明此情形。特定言之,圖3描繪G.722之淡出因數取決於類別資訊且其中80個樣本等效於10ms之情境。
根據G.722,PLC模組產生用於遺漏訊框之信號 及應該與下一良好訊框交叉淡化之某一額外信號(10ms)。針對此額外信號之靜音遵循相同規則。在G.722之高頻帶隱藏中,交叉淡化並未發生。
在下文中,考慮G.722.1。基於Siren 7之G.722.1為具有超寬頻帶擴展模式之基於變換之寬頻帶音訊編碼解碼器,其被稱作G.722.1C。G.722.1C自身基於Siren 14。ITU T為G.722.1推薦了具有後續靜音之訊框重複[ITU05,章節4.7]。若借助於此推薦中未定義之外部發信號機制來通知解碼器訊框已丟失或損毀,則解碼器重複先前訊框之經解碼MLT(調變重疊變換)係數。該解碼器藉由將該等係數變換至時域及執行與先前及下一訊框之經解碼資訊的重疊及相加操作來繼續進行。若先前訊框亦丟失或損毀,則解碼器將所有當前訊框MLT係數設定為零。
現在考慮G.729。G.729為用於語音之音訊資料壓縮演算法,其壓縮10毫秒持續時間之封包中的數位語音。其被正式地描述為使用碼激發線性預測話語寫碼(CS-ACELP)的在8kbit/s下之話語寫碼[ITU12]。
如[CPK08]中所概述,G.729推薦LP域中之淡出。G.729標準中所使用之PLC演算法基於先前接收之話語資訊來重建構用於當前訊框之話語信號。換言之,PLC演算法用先前接收之訊框之等效特性來代替遺漏激發,但激發能量最終逐漸衰落,適應性及固定碼簿之增益按常數因數衰減。
藉由以下等式來給出衰減之固定碼簿增益:
其中m為子訊框索引。
適應性碼簿增益係基於先前適應性碼簿增益之衰減版本:
Nam in Park等人針對G.729提議使用借助於線性回歸之預測的信號振幅控制[CPK08,PKJ+11]。其用於叢發封包丟失,且使用線性回歸作為核心技術。線性回歸係基於如下線性模型:
其中,為新預測之當前振幅,ab為用於一階線性函數之係數,且i為訊框之索引。為了找到最佳化係數a *b *,使平方預測誤差之總和最小化:
ε為平方誤差,gj為原始的過去第j個振幅。為了使此誤差最小化,簡單地將關於ab之導數設定為零。藉由使用最佳化參數a *b *,每一之估計由以下等式來表示:
圖4展示藉由使用線性回歸之振幅預測,特定言之,振幅之預測。
為了獲得丟失封包i之振幅,將比率σ i
與比例因數S i 相乘:
其中比例因數Si取決於連續隱藏訊框之數目l(i)
在[PKJ+11]中,提出了略有不同的按比例縮放。
根據G.729,然後將被平滑化以防止訊框邊界處之離散衰減。將最終平滑化振幅A i (n)與自先前PLC組件獲得之激發相乘。
在下文中,考慮G.729.1。G.729.1為基於G.729之嵌入式可變位元速率寫碼器:可與G.729交互操作的8至32kbit/s可調式寬頻寫碼器位元串流[ITU06b]。
根據G.729.1,如在G.718(參見上文)中,提出適應性淡出,其取決於信號特性之穩定性([ITU06b,章節7.6.1])。在隱藏的過程中,信號通常係基於衰減因數α而衰減的,衰減因數α取決於最後良好接收之訊框類別的參數及連續被抹除訊框之數目。衰減因數α進一步取決於用於無聲訊框之LP濾波器的穩定性。大體而言,若最後良好接收訊框處於穩定分段中,則衰減係緩慢的,且若訊框處於轉變分段中,則衰減係快速的。
此外,衰減因數α取決於每一子訊框之平均音高增益([ITU06b,等式163,164]):
其中為子訊框i中之音高增益。
表2展示α之計算方案,其中
在隱藏程序的過程中,α被用於以下隱藏工具中:
根據G.729.1,關於喉脈衝再同步,因為先前訊框之激發之最後脈衝係用於建構週期性部分,所以其增益在隱藏之訊框的開始處大約係正確的,且可被設定為1。增益接著在整個訊框中逐樣本地線性衰減,從而達成在訊框的結束處之α的值。藉由使用最後良好訊框之每一子訊框之音高激發增益值來外插有聲片段之能量演進。大體而言,若此等增益大於1,則信號能量正在增加,若此等增益小於1,則能量正在減少。α因此被設定為,如上文所描述,參見[ITU06b,等式163,164]。β之值被限於0.98與0.85之間,從而避免強能量增加及減少,參見[ITU06b,章節 7.6.4]。
關於激發之隨機部分之建構,根據G.729.1,在被抹除區塊之開始處,藉由使用最後良好訊框之每一子訊框之革新激發增益來初始化革新增益g s g s =0.1g (0)+0.2g (1)+0.3g (2)+0.4g (3)
其中g(0)、g(1)、g(2)及g(3)為最後正確地接收之訊框之四個子訊框的固定碼簿增益或革新增益。如下進行革新增益衰減:
其中為在下一訊框之開始處的革新增益,為在當 前訊框之開始處的革新增益,且α係如上文表2中所定義。類似於週期性激發衰減,增益因此在整個訊框中逐樣本地 線性衰減,以開始,且直至會在下一訊框之開始處達成 之的值。
根據G.729.1,若最後良好訊框為無聲,則僅使用革新激發且其進一步按0.8之因數衰減。在此狀況下,用革新激發來更新過去激發緩衝器,因為激發之週期性部分係不可用的,參見[ITU06b,章節7.6.6]。
在下文中,考慮AMR。3GPP AMR[3GP12b]為利用ACELP演算法之話語編碼解碼器。AMR能夠寫碼具有8000個樣本/s之取樣速率及4.75與12.2kbit/s之間的位元速率之話語,且支援靜默描述符訊框的發信(DTX/CNG)。
在AMR中,在錯誤隱藏的過程中(參見[3GP12a]),區別了易於出錯(位元錯誤)之訊框與完全丟失 (完全沒有資料)之訊框。
對於ACELP隱藏,AMR引入估計頻道之品質之狀態機:狀態計數器之值愈大,頻道品質愈差。系統在狀態0開始。每次偵測到不良訊框,狀態計數器便遞增一,且在其達到6時飽和。每次偵測到良好話語訊框,狀態計數器便被重置為零,不過在狀態為6時除外,此時狀態計數器被設定為5。狀態機之控制流程可由以下C程式碼描述(BFI為不良訊框指示符,State為狀態變數):
除了此狀態機之外,在AMR中,檢查來自當前及先前訊框之不良訊框旗標(prevBFI)。
三個不同組合為可能的:三個組合中之第一者為BFI=0,prevBFI=0,State=0:在所接收之話語訊框或在先前接收之話語訊框中並未偵測到錯誤。所接收之話語參數以正常方式用於話語合成中。儲存話語參數之當前訊框。
三個組合中之第二者為BFI=0,prevBFI=1,State=0或5:在所接收之話語訊框中並未偵測到錯誤,但先前接收之話語訊框係不良的。限制LTP增益及固定碼簿增益使其低於用於最後接收之良好子訊框之值:
其中g p =當前經解碼LTP增益,g p (-1)=用於最後良好子訊框之LTP增益(BFI=0),且
其中g c =當前經解碼固定碼簿增益,且g c (-1)=用於最後良好子訊框之固定碼簿增益(BFI=0)。
所接收之話語參數之剩餘部分被正常地用於話語合成中。儲存話語參數之當前訊框。
三個組合中之第三者為BFI=1,prevBFI=0或1,State=1......6:在所接收之話語訊框中偵測到錯誤,且開始替換及靜音程序。LTP增益及固定碼簿增益由來自先前子訊框之經衰減值代替:
其中g p 指示當前經解碼LTP增益,且g p (-1),......,g p (-n)指示用於最後n個子訊框之LTP增益,且median5()指示5點中值運算,且P(state)=衰減因數,其中(P(1)=0.98,P(2)=0.98,P(3)=0.8,P(4)=0.3,P(5)=0.2,P(6)=0.2)且state=狀態號,且 (13)
其中g c 指示當前經解碼固定碼簿增益,且g c (-1),......,g c (-n)指示用於最後n個子訊框之固定碼簿增益,且median5()指示5點中值運算,且C(state)=衰減因數,其中(C(1)=0.98,C(2)=0.98,C(3)=0.98,C(4)=0.98,C(5)=0.98,C(6)=0.7)且state=狀態號。
在AMR中,LTP滯後值(LTP=長期預測)由來自先前訊框之第4個子訊框的過去值(12.2模式)或基於最後正確接收之值略作修改的值(所有其他模式)代替。
根據AMR,在接收到損毀資料時按接收到固定碼簿革新脈衝時的狀態使用來自錯誤訊框之該等所接收脈衝。在並未接收到資料的狀況下,應使用隨機固定碼簿索引。
關於AMR中之CNG,根據[3GP12a,章節6.4],藉由使用來自較早接收之有效SID訊框的SID資訊來替換每一第一丟失的SID訊框,且應用用於有效SID訊框之程序。對於後續丟失的SID訊框,將衰減技術應用於舒緩雜訊,該舒緩雜訊將逐漸減少輸出位準。因此,檢查最後SID更新是否係在超過50個訊框(=1s)以前,若是如此,則將使輸出靜音(每一訊框位準衰減-6/8dB[3GP12d,dtx_dec{ }@sp_dec.c],其產生每秒37.5dB)。應注意在LP域中執行應用於CNG的淡出。
在下文中,考慮AMR-WB。適應性多速率WB[ITU03,3GP09c]為基於AMR之話語編碼解碼器, ACELP(參見章節1.8)。其使用參數頻寬擴展且亦支援DTX/CNG。在標準[3GP12g]之描述中,給出了隱藏實例解決方案,其與AMR[3GP12a]下的狀況相同,具有微小的偏差。因此,此處僅描述與AMR之不同之處。針對標準描述,參見上文的描述。
關於ACELP,在AMR-WB中,基於參考原始程式碼,藉由修改音高增益g p (針對上文之AMR,被稱作LTP增益)及藉由修改碼增益g c 執行ACELP淡出[3GP12c]。
在丟失訊框的狀況下,用於第一子訊框之音高增益g p 與最後良好訊框中的音高增益相同,不過其被限於0.95與0.5之間。對於第二、第三及以後的子訊框,音高增益g p 以0.95之因數減小,且再次受限制。
AMR-WB提出:在隱藏之訊框中,g c 係基於最後g c g c,current =g c,past *(1.4-g p,past ) (14)
為了隱藏LTP滯後,在AMR-WB中,將五個最後良好LTP滯後及LTP增益之歷史用於找到在訊框丟失的狀況下進行更新之最佳方法。在接收到具有位元錯誤的訊框之情況下,不論所接收之LTP滯後是否可使用,皆執行預測 [3GP12g]。
關於CNG,在AMR-WB中,若最後正確地接收之訊框為SID訊框,且訊框經分類為丟失,則其應由最後有效的SID訊框資訊來替換,且應該應用用於有效SID訊框之程序。
對於後續丟失SID訊框,AMR-WB提出將衰減技術應用於舒緩雜訊,該舒緩雜訊將逐漸減少輸出位準。因此,檢查最後SID更新是否係在超過50個訊框(=1s)以前,若是如此,則將使輸出靜音(每一訊框位準衰減-3/8dB[3GP12f,dtx_dec{ }@dtx.c],其產生每秒18.75dB)。應注意在LP域中執行應用於CNG的淡出。
現在考慮AMR-WB+。適應性多速率WB+[3GP09a]為使用ACELP及TCX(TCX=經變換寫碼激發)作為核心編碼解碼器的切換式編碼解碼器。其使用參數頻寬擴展且亦支援DTX/CNG。
在AMR-WB+中,應用模式外插邏輯以在失真超訊框內外插丟失訊框之模式。此模式外插係基於在模式指示符之定義中存在冗餘之事實。由AMR-WB+提出的決策邏輯(在[3GP09a,圖18]中給出)係如下:- 定義向量模式(m-1,m0,m1,m2,m3),其中m-1指示先前超訊框之最後訊框的模式,且m0、m1、m2、m3指示當前超訊框(自位元串流解碼)中之訊框的模式,其中mk=-1、0、1、2或3(-1:丟失,0:ACELP,1:TCX20,2:TCX40,3:TCX80),且其中丟失訊框之數目nloss可在0與4之間。
- 若m-1=3,且訊框0至3之模式指示符中的兩者等於三,則所有指示符將被設定為三,因為接著可肯定在超訊框內指示了一個TCX80訊框。
- 若訊框0至3中的僅一個指示符為三(且丟失訊框之數目nloss為三),則模式將被設定為(1,1,1,1),因為接著TCX80目標頻譜之3/4丟失且極有可能全域TCX增益丟失。
- 若模式指示(x,2,-1,x,x)或(x,-1,2,x,x),則其將被外插至(x,2,2,x,x),從而指示TCX40訊框。若模式指示(x,x,x,2,-1)或(x,x,-1,2),則其將被外插至(x,x,x,2,2),亦指示TCX40訊框。應注意(x,[0,1],2,2,[0,1])為無效組配。
- 之後,對於丟失之每一訊框(模式=-1),若前一訊框為ACELP,將模式設定為ACELP(模式=0),且針對所有其他狀況,將模式設定為TCX20(模式=1)。
關於ACELP,根據AMR-WB+,若丟失訊框模式導致在模式外插之後mk=0,則針對此訊框應用與[3GP12g]中相同的方法(參見上文)。
在AMR-WB+中,取決於丟失訊框之數目及外插之模式,區別進行以下TCX相關隱藏方法(TCX=經變換寫碼激發):- 若整個訊框丟失,則應用類似ACELP的隱藏:重複最後激發,且使用隱藏的ISF係數(朝向其適應性均值稍微移位)以合成時域信號。另外,就在LPC(線性預測性寫碼)合成之前,在線性預測性域中乘以每一訊框(20ms)0.7之淡出因數[3GP09b,dec_tcx.c]。
- 若最後模式為TCX80,以及(部分丟失)超訊框之經外插模式為TCX80(nloss=[1,2],模式=(3,3,3,3,3)),則考慮到最後正確地接收之訊框,利用相位及振幅外插在FFT域中執行隱藏。此處,相位資訊之外插方法並不被關注(與淡化策略無關),且因此未進行描述。對於進一步細節,參見[3GP09a,章節6.5.1.2.4]。關於AMR-WB+之振幅修改,針對TCX隱藏所執行之方法由以下步驟構成[3GP09a,章節6.5.1.2.3]:- 計算先前訊框量值頻譜:
- 計算當前訊框量值頻譜:
- 計算先前與當前訊框之間的非丟失頻譜係數之能量的增益差:
- 使用如下等式來外插遺漏頻譜係數之振幅:若(lost[k])A[k]=gainoldA[k]
- 在mk=[2,3]之丟失訊框的每一其他狀況中,使用所有可用的資訊(包括全域TCX增益)來合成TCX目標(經解碼頻譜加雜訊填充(使用自位元串流解碼之雜訊位準)之反FFT)。在此狀況下並不應用淡出。
關於AMR-WB+中之CNG,使用與AMR-WB中相 同的方法(參見上文)。
在下文中,考慮OPUS。OPUS[IET12]併有來自兩種編碼解碼器之技術:話語導向式之SILK(其被稱為Skype編碼解碼器)及低潛時CELT(CELT=受約束之能量重疊變換)。可在高及低位元速率之間順暢地調整Opus,且在內部,Opus在處於較低位元速率下的線性預測編碼解碼器(SILK)與處於較高位元速率下的變換編碼解碼器(CELT)以及用於短重疊之混合體之間切換。
關於SILK音訊資料壓縮及解壓縮,在OPUS中,若干參數在SILK解碼器常式中的隱藏的過程中受到衰減。在使用來自先前訊框之激發的最後音高循環積累起激發的情況下,取決於連續丟失訊框之數目,藉由對於每一訊框將所有LPC係數與0.99、0.95抑或0.90相乘使LTP增益參數衰減。音高滯後參數在連續丟失的過程中極緩慢地增大。對於單次丟失,與最後訊框相比較,音高滯後參數保持恆定。此外,激發增益參數按每一訊框指數地衰減,使得對於第一激發增益參數,激發增益參數為0.99,使得對於第二激發增益參數,激發增益參數為0.992等等。使用隨機數產生器產生激發,該隨機數產生器藉由變數溢出產生白雜訊。此外,基於最後正確地接收之係數集合外插LPC係數/對LPC係數求平均值。在產生衰減的激發向量之後,在OPUS中使用隱藏之LPC係數以合成時域輸出信號。
現在,在OPUS之上下文中,考慮CELT。CELT為基於變換之編碼解碼器。CELT之隱藏以基於音高之PLC 方法為特徵,該方法應用於多達五個連續丟失訊框。從訊框6開始,應用類似雜訊之隱藏方法,該方法產生背景雜訊,該背景雜訊之特性應該聽起來好像先前背景雜訊。
圖5說明CELT之叢發丟失行為。特定言之,圖5描繪CELT隱藏話語分段的頻譜圖(x軸:時間;y軸:頻率)。淺灰色方框指示前5個連續丟失訊框,其中應用基於音高之PLC方法。除此之外,展示了類似雜訊之隱藏。應注意切換被即刻執行,該切換並非平滑地轉變。
關於基於音高之隱藏,在OPUS中,基於音高之隱藏由藉由自相關發現經解碼信號中之週期性及使用音高偏移(音高滯後)重複窗化波形(在使用LPC分析及合成的激發域中)構成。窗化波形以使得保留時域混疊消除之方式與先前訊框及下一訊框重疊[IET12]。另外,藉由以下程式碼導出及應用淡出因數:
在此程式碼中,exc含有激發信號,該激發信號多達在 丟失之前的MAX_PERIOD個樣本。
激發信號稍後與衰減相乘,接著經由LPC合成而被合成及輸出。
用於時域方法之淡化演算法可概述如下:- 找到在丟失之前的最後音高循環之音高同步能量。
- 找到在丟失之前的倒數第二音高循環之音高同步能量。
- 若能量增大,則對其進行限制以保持恆定:衰減=1
- 若能量減少,則在隱藏的過程中繼續相同的衰減。
關於類似雜訊之隱藏,根據OPUS,對於第六個及以後的連續丟失訊框,執行MDCT域中之雜訊替換方法,以便模擬舒緩背景雜訊。
關於背景雜訊位準及形狀之追蹤,在OPUS中,如下執行背景雜訊估計:在MDCT分析之後,計算每一頻帶的MDCT頻帶能量之平方根,其中根據[IET12,表55],MDCT頻率倉(bin)之分組遵循巴克尺度(bark scale)。接著藉由以下等式將能量之平方根變換至log2域:bandLogE[i]=log 2(e).log e (bandE[i]-eMeans[i])其中i=0...21(18)
其中e為歐拉數,bandE為MDCT頻帶之平方根,且eMeans為常數之向量(其為得到導致增強的寫碼增益之結果零均值所必要的)。
在OPUS中,如下在解碼器側上對背景雜訊求對數[IET12,amp2Log2及log2Amp @ quant_bands.c]: backgroundLogE[i]=min(backgroundLogE[i]+8.0.001,bandLogE[i])其中i=0...21 (19)
所追蹤之最小能量基本上係由當前訊框之頻帶之能量的平方根來判定的,但自一個訊框至下一訊框之增加限於0.05dB。
關於背景雜訊位準及形狀之應用,根據OPUS,若應用類似雜訊之PLC,則使用如在最後良好訊框中導出之backgroundLogE,且將其反向轉換至線性域:其中i=0...21(20)
其中e為歐拉數,且eMeans為與用於「線性至對數」變換的常數向量相同之常數向量。
當前隱藏程序將用由隨機數產生器產生之白雜訊填充MDCT訊框,且以該白雜訊逐頻帶地匹配bandE之能量的方式按比例調整此白雜訊。隨後,應用產生時域信號之反MDCT。在重疊相加及解強調(如在常規解碼中)之後,放出時域信號。
在下文中,考慮MPEG-4 HE-AAC(MPEG=動畫專業團體;HE-AAC=高效率進階音訊寫碼)。高效率進階音訊寫碼由補充了參數頻寬擴展(SBR)之基於變換之音訊編碼解碼器(AAC)構成。
關於AAC(AAC=進階音訊寫碼),DAB聯盟針對DAB+中之AAC指定了在頻域中至零之淡出[EBU10,章節A1.2](DAB=數位音訊廣播)。例如衰減斜坡之淡出行為可能 為固定的或可由使用者調整。來自最後AU(AU=存取單元)之頻譜係數按對應於淡出特性之因數衰減,且接著被傳遞至頻率至時間映射。取決於衰減斜坡,隱藏在數個連續無效AU之後切換至靜音,其意謂完整頻譜將被設定為0。
DRM(DRM=數位版權管理)聯盟針對DRM中之AAC指定了在頻域中之淡出[EBU12,章節5.3.3]。隱藏剛好在最終的頻率至時間轉換之前對頻譜資料起作用。若多個訊框被損毀,隱藏首先基於來自最後有效訊框之略作修改的頻譜值實施淡出。此外,類似於DAB+,例如衰減斜坡之淡出行為可能為固定的或可由使用者調整。來自最後訊框之頻譜係數按對應於淡出特性之因數衰減,且接著被傳遞至頻率至時間映射。取決於衰減斜坡,隱藏在數個連續無效訊框之後切換至靜音,其意謂完整頻譜將被設定為0。
3GPP為增強型aacPlus中之AAC引入了類似於DRM的在頻域中之淡出[3GP12e,章節5.1]。隱藏剛好在最終的頻率至時間轉換之前對頻譜資料起作用。若多個訊框被損毀,隱藏首先基於來自最後良好訊框之略作修改的頻譜值實施淡出。完整淡出歷時5個訊框。複製來自最後良好訊框之頻譜係數,且其按如下因數衰減:淡出因數=2-(nFadeOutFrame/2)
其中nFadeOutFrame作為自最後良好訊框以來的訊框的計數器。在歷時五個訊框之淡出之後,隱藏切換至靜音,此意謂完整頻譜將被設定為0。
Lauber及Sperschneider為AAC引入了基於能量 外插之MDCT頻譜之逐訊框淡出[LS01,章節4.4]。前一頻譜之能量形狀可能被用以外插所估計頻譜之形狀。可獨立於隱藏技術,作為一種後隱藏來執行能量外插。
關於AAC,在比例因數頻帶的基礎上執行能量計算以便接近人類聽覺系統之關鍵頻帶。個別能量值被逐訊框地減小以便平滑地降低音量,例如使信號淡出。由於所估計值表示當前信號之機率隨時間之流逝而快速降低,所以此情形變得有必要。
為了產生待饋出之頻譜,Lauber及Sperschneider提議訊框重複或雜訊替換[LS01,章節3.2及3.3]。
Quackenbusch及Driesen針對AAC提議至零之指數逐訊框淡出[QD03]。提出了時間/頻率係數之鄰近集合的重複,其中每一重複具有指數地增加之衰減,因此在延長之中斷的狀況下逐漸淡化至靜音。
關於MPEG-4 HE-AAC中之SBR(SBR=頻譜帶複製),3GPP針對增強型aacPlus中的SBR提議了緩衝經解碼包絡資料,且在訊框丟失的狀況下,再次使用所傳輸之包絡資料的經緩衝能量,且針對每一隱藏之訊框使能量按3dB之恆定比率減少。將結果饋送至正常解碼程序中,其中包絡調整器用其計算增益,該等增益用於調整由HF產生器產生之經修補高頻帶。SBR解碼接著照常發生。此外,差量寫碼之雜訊底限及正弦位準值被刪除。因為與先前資訊之差別不再可用,所以經解碼雜訊底限及正弦位準保持與HF產生之信號的能量成正比[3GP12e,章節5.2]。
DRM聯盟針對結合AAC之SBR指定了與3GPP相同的技術[EBU12,章節5.6.3.1]。此外,DAB聯盟針對DAB+中之SBR指定了與3GPP相同的技術[EBU10,章節A2]。
在下文中,考慮MPEG-4 CELP及MPEG-4 HVXC(HVXC=諧波向量激發寫碼)。DRM聯盟針對結合CELP及HVXC之SBR[EBU12,章節5.6.3.2]指定了不管何時偵測到損毀SBR訊框,用於話語編碼解碼器之SBR的最小要求隱藏將應用資料值之預定集合。彼等值產生在低相對播放位準處之靜態高頻帶頻譜包絡,從而展現出朝向較高頻率之滾降。目標僅為借助於插入「舒緩雜訊」(與嚴格的靜音相對照)而確保沒有不良的、潛在大聲的音訊叢發到達聽者的耳朵。此實際上並非真正的淡出,而是跳轉至某一能量位準以便插入某一種類的舒緩雜訊。
隨後,提到替代例[EBU12,章節5.6.3.2],其再次使用最後正確地解碼之資料且使位準(L)朝向0緩慢地淡化,這類似於AAC+SBR狀況。
現在,考慮MPEG-4 HILN(HILN=諧波及個別線加雜訊)。Meine等人引入了在參數域中用於參數MPEG-4 HILN編碼解碼器[ISO09]之淡出[MEP01]。對於持續諧波分量,用於代替損毀的不同地編碼之參數之良好預設行為係保持頻率恆定,使振幅按衰減因數(例如,-6dB)減少,及令頻譜包絡朝向具有平均化的低通特性的頻譜收斂。用於頻譜包絡之替代例將為使其保持不變。關於振幅及頻譜包絡,可以與對待諧波分量相同之方式來對待雜訊分量。
在下文中,考慮先前技術中之背景雜訊位準的追蹤。Rangachari及Loizou[RL06]提供對若干方法之良好概述且論述其一些限制。用於追蹤背景雜訊位準之方法為(例如)最小值跟蹤程序[RL06][Coh03][SFB00][Dob95],基於VAD(VAD=語音活動偵測);卡爾曼濾波[Gan05][BJH06],子空間分解[BP06][HJH08];軟決策[SS98][MPC89][HE95]及最小值統計。
最小值統計方法被選擇用於USAC-2(USAC=統一話語及音訊寫碼)之範疇內,且隨後更詳細概述。
基於最佳平滑及最小值統計之雜訊功率譜密度估計[Mar01]引入了雜訊估計式,該雜訊估計式能夠獨立於信號為作用中話語或背景雜訊的情況而工作。與其他方法相對比,最小值統計演算法並不使用任何顯式臨限值在話語活動與話語暫停之間進行區分,且因此相較於與傳統的語音活動偵測方法相關的程度,與軟決策方法相關的程度更高。類似於軟決策方法,其亦可在話語活動的過程中更新所估計雜訊PSD(功率譜密度)。
最小值統計方法根據兩個觀測,亦即話語及雜訊通常在統計上獨立且有雜訊話語信號之功率頻繁衰落至雜訊之功率位準。因此有可能藉由跟蹤有雜訊信號PSD之最小值而導出準確的雜訊PSD(PSD=功率譜密度)估計。因為最小值小於(或在其他狀況下等於)平均值,所以最小值跟蹤方法需要偏差補償。
偏差為經平滑化信號PSD之方差的函數,且因而 取決於PSD估計式之平滑參數。與對最小值跟蹤之較早期研究(其利用恆定平滑參數及恆定最小偏差校正)相對比,使用了時間及頻率相依PSD平滑,其亦需要時間及頻率相依偏差補償。
使用最小值跟蹤提供對雜訊功率之粗略估計。然而,存在一些缺點。具有固定平滑參數之平滑化加寬了經平滑化PSD估計之話語活動的峰值。此將產生不準確的雜訊估計,因為用於最小值搜尋之滑動窗可能滑到寬峰值中。因此,無法使用接近於一之平滑參數,且因此,雜訊估計將具有相對較大的方差。此外,使雜訊估計偏向較低值。此外,在增加雜訊功率的狀況下,最小值跟蹤落在後面。
具有低複雜性的基於MMSE之雜訊PSD跟蹤[HHJ10]引入了背景雜訊PSD方法,該方法利用了用於DFT(離散傅立葉變換)頻譜上之MMSE搜尋。該演算法由此等處理步驟構成:- 基於先前訊框之雜訊PSD計算最大可能性估計式。
- 計算最小均方估計式。
- 使用決策導向方法來估計最大可能性估計式[EM84]。
- 在假定話語及雜訊DFT係數為高斯分佈的情況下計算反偏差因數。
- 所估計雜訊功率譜密度為平滑的。
亦應用安全網方法以便避免演算法之完全死鎖。
基於資料驅動的遞歸雜訊功率估計來跟蹤非穩定雜訊[EH08]引入了用於根據由極不穩定雜訊源污染之話語信號估計雜訊頻譜方差的方法。此方法亦使用在時間/頻率方向上之平滑。
基於雜訊功率估計之平滑及估計偏差校正的低複雜性雜訊估計演算法[Yu09]增強了[EH08]中所引入的方法。主要的差別在於用於雜訊功率估計之頻譜增益函數係由迭代資料驅動方法發現的。
用於增強有雜訊話語之統計方法[Mar03]組合[Mar01]中給出的最小值統計方法、軟決策增益修改[MCA99]、先驗SNR之估計[MCA99]、適應性增益限制[MC99]以及MMSE對數頻譜振幅估計式[EM85]。
對於複數個話語及音訊編碼解碼器而言,淡出係備受關注的,該等編碼解碼器特定言之為AMR(參見[3GP12b])(包括ACELP及CNG)、AMR-WB(參見[3GP09c])(包括ACELP及CNG)、AMR-WB+(參見[3GP09a])(包括ACELP、TCX及CNG)、G.718(參見[ITU08a])、G.719(參見[ITU08b])、G.722(參見[ITU07])、G.722.1(參見[ITU05])、G.729(參見[ITU12、CPK08、PKJ+11])、MPEG-4 HE-AAC/增強型aacPlus(參見[EBU10、EBU12、3GP12e、LS01、QD03])(包括AAC及SBR)、MPEG-4 HILN(參見[ISO09、MEP01])及OPUS(參見[IET12])(包括SILK及CELT)。
取決於編碼解碼器,在不同域中執行淡出: 對於利用LPC之編碼解碼器,在線性預測性域(亦稱為激發域)中執行淡出。對於基於ACELP之編碼解碼器(例如,AMR、AMR-WB、AMR-WB+之ACELP核心、G.718、G.729、G.729.1、OPUS中之SILK核心);使用時間-頻率變換進一步處理激發信號之編碼解碼器(例如AMR-WB+之TCX核心、OPUS中之CELT核心)及在線性預測性域中操作之舒緩雜訊產生(CNG)方案(例如,AMR中之CNG、AMR-WB中之CNG、AMR-WB+中之CNG)而言,此情形同樣適用。
對於將時間信號直接變換至頻域之編碼解碼器,在頻譜/子頻帶域中執行淡出。對於基於MDCT或類似變換之編碼解碼器(諸如,MPEG-4 HE-AAC中之AAC、G.719、G.722(子頻帶域)及G.722.1)而言,此情形同樣適用。
對於參數編碼解碼器,在參數域中應用淡出。對於MPEG-4 HILN而言,此情形同樣適用。
關於淡出速度及淡出曲線,淡出通常係透過應用衰減因數而實現,該衰減因數被應用於適當域中之信號表示。衰減因數之大小控制著淡出速度及淡出曲線。在大多數狀況下,逐訊框地應用衰減因數,但亦利用逐樣本應用,參見例如G.718及G.722。
可能以兩個方式(絕對及相對)提供用於某一信號分段之衰減因數。
在絕對地提供衰減因數的狀況下,參考位準總是為最後接收之訊框之位準。絕對衰減因數通常以用於緊接 在最後良好訊框之後的信號分段之接近1的值開始,且接著朝向0較快地或較慢地降級。淡出曲線直接取決於此等因數。此為例如G.722之附錄IV中所描述之隱藏的狀況(尤其參見[ITU07,圖IV.7]),其中可能淡出曲線為線性或逐漸線性的。考慮增益因數g(n)(而g(0)表示最後良好訊框之增益因數)、絕對衰減因數α abs (n),任何後續丟失訊框之增益因數可導出為:g(n)=α abs (n).g(0) (21)
在相對地提供衰減因數的狀況下,參考位準為來自先前訊框之位準。此情形在遞歸隱藏程序的狀況下(例如,在已經衰減之信號被進一步處理及再次衰減的情況下)具有優點。
若遞歸地應用衰減因數,則此因數可能為獨立於連續丟失訊框之數目的固定值,例如針對G.719之0.5(參見上文);與連續丟失訊框之數目有關的固定值,例如,如在[CPK08]中針對G.729所提出的:針對前兩個訊框之1.0、針對接下來兩個訊框之0.9、針對訊框5及6之0.8及針對所有後續訊框之0(參見上文);或與連續丟失訊框之數目有關且取決於信號特性之值,例如用於不穩定的信號之較快淡出及用於穩定信號之較慢淡出,例如G.718(參見上文的章節及[ITU08a,表44]);假設相對淡出因數0α rel (n)1,而n為丟失訊框之數目(n 1);任何後續訊框之增益因數可被導出為:g(n)=α rel (n).g(n-1) (22)
從而導致指數淡化。
關於淡出程序,通常指定衰減因數,但在一些應用標準(DRM、DAB+)中,衰減因數的指定被留給製造者完成。
若不同信號部分被單獨地淡化,則可能應用不同衰減因數例如以用某一速度衰減音調分量及用另一速度衰減類似雜訊之分量(例如,AMR、SILK)。
通常,將某一增益應用於整個訊框。當在頻譜域中執行淡化時,此情形係僅有的可能方式。然而,若在時域或線性預測性域中進行淡化,則可能進行更細緻化的淡化。此更細緻化的淡化應用於G.718中,其中藉由最後訊框之增益因數與當前訊框之增益因數之間的線性內插針對每一樣本導出個別增益因數。
對於具有可變訊框持續時間之編碼解碼器,恆定的相對衰減因數導致取決於訊框持續時間的不同淡出速度。例如對於AAC就是此狀況,其中訊框持續時間取決於取樣速率。
為了對最後接收之信號之時間形狀採用所應用的淡化曲線,可能進一步調整(靜態)淡出因數。例如針對AMR應用此進一步動態調整,其中考慮先前五個增益因數之中值(參見[3GP12b]及章節1.8.1)。在執行任何衰減之前, 若中值小於最後增益,則將當前增益設定為中值,否則使用最後增益。此外,例如針對G729應用此進一步動態調整,其中使用先前增益因數之線性回歸來預測振幅(參見[CPK08、PKJ+11]及章節1.6)。在此狀況下,用於第一隱藏訊框之所得增益因數可能超出最後接收之訊框的增益因數。
關於淡出之目標位準,對於所有所分析之編碼解碼器(包括彼等編碼解碼器之舒緩雜訊產生(CNG)),目標位準為0(G.718及CELT例外)。
在G.718中,單獨地執行音高激發(表示音調分量)之淡化及隨機激發(表示類似雜訊之分量)之淡化。在音高增益因數淡化至零的同時,革新增益因數淡化至CNG激發能量。
假設給出相對衰減因數,此基於公式(23)而導致以下絕對衰減因數:g(n)=α rel (n).g(n-1)+(1-α rel (n)).g n (25)
其中g n 為在舒緩雜訊產生的過程中使用之激發之增益。當g n =0時,此公式對應於公式(23)。
G.718在DTX/CNG的狀況下不執行淡出。
在CELT中,不存在朝向目標位準之淡化,但在歷時5個訊框的音調隱藏(包括淡出)之後,位準在第6個連續丟失訊框處即刻切換至目標位準。使用公式(19)逐頻帶地導出位準。
關於淡出之目標頻譜形狀,所有所分析之純粹基 於變換之編碼解碼器(AAC、G.719、G.722、G.722.1)以及SBR簡單地在淡出的過程中延長最後良好訊框之頻譜形狀。
各種話語編碼解碼器使用LPC合成將頻譜形狀淡化至均值。均值可能為靜態(AMR)或適應性的(AMR-WB、AMR-WB+、G.718),而適應性均值係自靜態均值及短期均值導出(藉由求最後n個LP係數集合的平均值來導出)(LP=線性預測)。
所論述之編碼解碼器AMR、AMR-WB、AMR-WB+、G.718中的所有CNG模組皆在淡出的過程中延長最後良好訊框之頻譜形狀。
關於背景雜訊位準追蹤,自文獻中已知五個不同方法:- 基於語音活動偵測器:基於SNR/VAD,但極難以調諧,且難以用於低SNR話語。
- 軟決策方案:軟決策方法考慮到話語存在之機率[SS98][MPC89][HE95]。
- 最小值統計:跟蹤PSD之最小值,在緩衝器中隨時間之流逝保持一定量的值,因此使得能夠自過去樣本中找到最小雜訊[Mar01][HHJ10][EH08][Yu09]。
- 卡爾曼濾波:演算法使用隨時間之流逝觀測到的含有雜訊(隨機變化)的一系列量測,且產生傾向於比單獨基於單一量測之估計更精確的雜訊PSD之估計。卡爾曼濾波器對有雜訊輸入資料串流進行遞歸操作,以產生系統狀態之在統計上最佳的估計[Gan05][BJH06]。
- 子空間分解:此方法試圖利用例如KLT(卡忽南-拉維變換,其亦稱為主分量分析)及/或DFT(離散時間傅立葉變換)將類似雜訊之信號分解成乾淨的話語信號及雜訊部分。接著可使用任意平滑演算法追蹤本徵向量/本徵值[BP06][HJH08]。
發明概要
本發明的目標在於提供用於音訊寫碼系統之改良概念。本發明的目標係由如請求項1之裝置、由如請求項19之方法及由如請求項20之電腦程式實現。
提供用於解碼經編碼音訊信號以獲得經重建構音訊信號之裝置。裝置包含用於接收包含關於經編碼音訊信號之音訊信號頻譜之複數個音訊信號樣本的資訊之一或多個訊框之接收介面,及用於產生經重建構音訊信號之處理器。處理器經組配以在當前訊框不由接收介面接收的情況下或在當前訊框由接收介面接收但被損毀的情況下藉由將經修改頻譜淡化至目標頻譜來產生經重建構音訊信號,其中經修改頻譜包含複數個經修改信號樣本,其中針對經修改頻譜之經修改信號樣本中的每一者,該經修改信號樣本之絕對值等於音訊信號頻譜之音訊信號樣本中之一者的絕對值。此外,處理器經組配以在一或多個訊框中之當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下不將經修改頻譜淡化至目標頻譜。
根據實施例,目標頻譜可例如為類似雜訊之頻 譜。
在一實施例中,類似雜訊之頻譜可例如表示白雜訊。
根據實施例,類似雜訊之頻譜可例如經成形。
在一實施例中,類似雜訊之頻譜之形狀可例如取決於先前接收之信號的音訊信號頻譜。
根據實施例,類似雜訊之頻譜可例如取決於音訊信號頻譜之形狀而成形。
在一實施例中,處理器可例如使用傾斜因數來使類似雜訊之頻譜成形。
根據實施例,處理器可例如使用如下公式:shaped_noise[i]=noise * power(tilt_factor,i/N)
其中N指示樣本之數目,其中i為索引,其中0<=i<N,其中tilt_factor>0,且其中power為功率函數。
power(x,y)指示xy
power(tilt_factor,i/N)指示
若tilt_factor小於1,則此情形意謂在i增加的情況下的衰減。若tilt_factor大於1,則意謂在i增加的情況下的放大。
根據另一實施例,處理器可例如使用如下公式:shaped_noise[i]=noise *(1+i/(N-1)*(tilt_factor-1))
其中N指示樣本之數目,其中i為索引,其中0<=i<N,其中tilt_factor>0。
若tilt_factor小於1,則此情形意謂在i增加的情況 下的衰減。若tilt_factor大於1,則意謂在i增加的情況下的放大。
根據實施例,處理器可例如經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下藉由改變音訊信號頻譜之音訊信號樣本中的一或多者之正負號來產生經修改頻譜。
在一實施例中,音訊信號頻譜之音訊信號樣本中之每一者可例如由實數表示,但不由虛數表示。
根據實施例,音訊信號頻譜之音訊信號樣本可例如被表示於經修改離散餘弦變換域中。
在另一實施例中,音訊信號頻譜之音訊信號樣本可例如被表示於經修改離散正弦變換域中。
根據實施例,處理器可例如經組配以藉由使用隨機或偽隨機輸出第一值抑或第二值之隨機正負號函數產生經修改頻譜。
在一實施例中,處理器可例如經組配以藉由隨後減少衰減因數而將經修改頻譜淡化至目標頻譜。
根據實施例,處理器可例如經組配以藉由隨後增加衰減因數而將經修改頻譜淡化至目標頻譜。
在一實施例中,在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下,處理器可例如經組配以藉由使用如下公式產生經重建構音訊信號:x[i]=(1-cum_damping)* noise[i]+cum_damping * random_sign()* x_old[i]
其中i為索引,其中x[i]指示經重建構音訊信號之樣本,其中cum_damping為衰減因數,其中x_old[i]指示經編碼音訊信號之音訊信號頻譜的音訊信號樣本中之一者,其中random_sign()傳回1或-1,且其中noise為指示目標頻譜之隨機向量。
在一實施例中,該隨機向量noise可例如被按比例調整以使得其二次均值類似於由接收介面最後所接收之訊框中的一訊框包含之經編碼音訊信號的頻譜之二次均值。
根據一般實施例,處理器可例如經組配以藉由使用隨機向量產生經重建構音訊信號,按比例調整該隨機向量以使得其二次均值類似於由接收介面最後所接收之訊框中的一訊框所包含之經編碼音訊信號的頻譜之二次均值。
此外,提供用於解碼經編碼音訊信號以獲得經重建構音訊信號之方法。該方法包含:- 接收包含關於經編碼音訊信號之音訊信號頻譜之複數個音訊信號樣本的資訊之一或多個訊框。及:- 產生經重建構音訊信號。
在當前訊框未被接收的情況下或在當前訊框被接收但被損毀的情況下藉由將經修改頻譜淡化至目標頻譜進行產生經重建構音訊信號,其中經修改頻譜包含複數個經修改信號樣本,其中對於經修改頻譜之經修改信號樣本中之每一者,該經修改信號樣本之絕對值等於音訊信號頻 譜之音訊信號樣本中的一者之絕對值。在一或多個訊框中之當前訊框被接收的情況下及在所接收之當前訊框未被損毀的情況下不將經修改頻譜淡化至白雜訊頻譜。
此外,提供用於在執行於電腦或信號處理器上時實施上文所描述之方法之電腦程式。
實施例實現在FDNS應用(FDNS=頻域雜訊替換)之前使MDCT頻譜淡化至白雜訊。
根據先前技術,在基於ACELP之編碼解碼器中,用隨機向量(例如,用雜訊)來代替革新碼簿。在實施例中,對TCX解碼器結構採用由用隨機向量(例如,用雜訊)代替革新碼簿構成之ACELP方法。此處,革新碼簿之等效物為通常在位元串流內被接收且被饋送至FDNS中之MDCT頻譜。
經典MDCT隱藏方法將為簡單地照原樣重複此頻譜或應用某一隨機化程序,該隨機化程序基本上延長最後接收之訊框的頻譜形狀[LS01]。此情形的缺點為延長了短期的頻譜形狀,從而頻繁地導致反覆的金屬聲音,該聲音並不類似背景雜訊,且因此無法被用作舒緩雜訊。
使用所提出之方法,藉由FDNS及TCX LTP執行短期頻譜成形,僅藉由FDNS執行長期頻譜成形。由FDNS進行之成形自短期頻譜形狀淡化至背景雜訊之經追蹤的長期頻譜形狀,且將TCX LTP淡化至零。
將FDNS係數淡化至經追蹤之背景雜訊係數導致在最後良好頻譜包絡與長遠來看應被設定為目標的頻譜背 景包絡之間具有平滑轉變,以便在長叢發訊框丟失的狀況下達成合意的背景雜訊。
相比之下,根據目前先進技術,對於基於變換之編碼解碼器,藉由頻域中之訊框重複或雜訊替換來進行類似雜訊之隱藏[LS01]。在先前技術中,雜訊替換通常由頻譜頻率倉之正負號加擾來執行。若在隱藏的過程中使用先前技術TCX(頻域)正負號加擾,則再次使用最後接收之MDCT係數,且在頻譜被反向變換至時域之前使每一正負號隨機化。先前技術之此程序的缺點為對於連續丟失之訊框,一次又一次地使用相同頻譜,其僅僅是具有不同的正負號隨機化及全域衰減。當在粗時間網格上查看隨時間之流逝的頻譜包絡時,可以看見包絡在連續訊框丟失的過程中大約為恆定的,因為頻帶能量在訊框內相對於彼此保持恆定,且僅全域地衰減。在所使用之寫碼系統中,根據先前技術,使用FDNS來處理頻譜值,以便恢復原始頻譜。此意謂在想要將MDCT頻譜淡化至某一頻譜包絡(使用例如描述當前背景雜訊之FDNS係數)的情況下,結果不僅取決於FDNS係數,而且取決於被正負號加擾之先前經解碼之頻譜。上文所提及之實施例克服先前技術之此等缺點。
實施例係基於有必要在將頻譜饋送至FDNS處理中之前將用於正負號加擾之頻譜淡化至白雜訊的發現。否則,輸出之頻譜將決不匹配用於FDNS處理之目標包絡。
在實施例中,對於LTP增益淡化使用與白雜訊淡化相同的淡化速度。
此外,提供用於解碼音訊信號的裝置。
裝置包含接收介面。接收介面經組配以接收複數個訊框,其中該接收介面經組配以接收複數個訊框中之第一訊框,該第一訊框包含音訊信號之第一音訊信號部分,該第一音訊信號部分被表示於第一域中,且其中接收介面經組配以接收複數個訊框中之第二訊框,該第二訊框包含音訊信號之第二音訊信號部分。
此外,裝置包含變換單元,該變換單元用於將第二音訊信號部分或自第二音訊信號部分導出之值或信號自第二域變換至追蹤域,以獲得第二信號部分資訊,其中第二域不同於第一域,其中追蹤域不同於第二域,且其中追蹤域等於或不同於第一域。
此外,裝置包含雜訊位準追蹤單元,其中雜訊位準追蹤單元經組配以接收在追蹤域中表示之第一信號部分資訊,其中第一信號部分資訊取決於第一音訊信號部分。雜訊位準追蹤單元經組配以接收在追蹤域中表示之第二信號部分,且其中雜訊位準追蹤單元經組配以取決於在追蹤域中表示之第一信號部分資訊及取決於在追蹤域中表示之第二信號部分資訊而判定雜訊位準資訊。
此外,裝置包含重建構單元,該重建構單元用於在複數個訊框中之第三訊框不由接收介面接收而是被損毀的情況下取決於雜訊位準資訊而重建構音訊信號之第三音訊信號部分。
音訊信號可例如為話語信號或音樂信號,或包含 話語及音樂之信號等。
第一信號部分資訊取決於第一音訊信號部分之陳述意謂:第一信號部分資訊為第一音訊信號部分抑或已取決於第一音訊信號部分而獲得/產生第一信號部分資訊抑或第一信號部分資訊以某一其他方式取決於第一音訊信號部分。舉例而言,第一音訊信號部分可能已自一個域變換至另一域以獲得第一信號部分資訊。
同樣,第二信號部分資訊取決於第二音訊信號部分之陳述意謂:第二信號部分資訊為第二音訊信號部分抑或已取決於第二音訊信號部分而獲得/產生第二信號部分資訊抑或第二信號部分資訊以某一其他方式取決於第二音訊信號部分。舉例而言,第二音訊信號部分可能已自一個域變換至另一域以獲得第二信號部分資訊。
在一實施例中,第一音訊信號部分可例如表示於作為第一域之時域中。此外,變換單元可例如經組配以將第二音訊信號部分或自第二音訊信號部分導出之值自為第二域之激發域變換至為追蹤域之時域。此外,雜訊位準追蹤單元可例如經組配以接收在作為追蹤域之時域中表示之第一信號部分資訊。此外,雜訊位準追蹤單元可例如經組配以接收在作為追蹤域之時域中表示之第二信號部分。
根據實施例,第一音訊信號部分可例如表示於作為第一域之激發域中。此外,變換單元可例如經組配以將第二音訊信號部分或自第二音訊信號部分導出之值自為第二域之時域變換至為追蹤域之激發域。此外,雜訊位準追 蹤單元可例如經組配以接收在作為追蹤域之激發域中表示之第一信號部分資訊。此外,雜訊位準追蹤單元可例如經組配以接收在作為追蹤域之激發域中表示之第二信號部分。
在一實施例中,第一音訊信號部分可例如表示於作為第一域之激發域中,其中雜訊位準追蹤單元可例如經組配以接收第一信號部分資訊,其中該第一信號部分資訊被表示於為追蹤域之FFT域中,且其中該第一信號部分資訊取決於在激發域中表示之該第一音訊信號部分,其中變換單元可例如經組配以將第二音訊信號部分或自第二音訊信號部分導出之值自為第二域之時域變換至為追蹤域之FFT域,且其中雜訊位準追蹤單元可例如經組配以接收在FFT域中表示之第二音訊信號部分。
在一實施例中,裝置可例如進一步包含用於取決於第一音訊信號部分而判定第一聚集值之第一聚集單元。此外,裝置可例如進一步包含用於取決於第二音訊信號部分而將第二聚集值判定為自第二音訊信號部分導出之值的第二聚集單元。此外,雜訊位準追蹤單元可例如經組配以接收第一聚集值作為在追蹤域中表示之第一信號部分資訊,其中雜訊位準追蹤單元可例如經組配以接收第二聚集值作為在追蹤域中表示之第二信號部分資訊,且其中雜訊位準追蹤單元可例如經組配以取決於在追蹤域中表示之第一聚集值及取決於在追蹤域中表示之第二聚集值而判定雜訊位準資訊。
根據實施例,第一聚集單元可例如經組配以判定第一聚集值以使得第一聚集值指示第一音訊信號部分或自第一音訊信號部分導出之信號的均方根。此外,第二聚集單元可例如經組配以判定第二聚集值以使得第二聚集值指示第二音訊信號部分或自第二音訊信號部分導出之信號的均方根。
在一實施例中,變換單元可例如經組配以藉由對自第二音訊信號部分導出之值應用增益值而將自第二音訊信號部分導出之值自第二域變換至追蹤域。
根據實施例,增益值可例如指示由線性預測性寫碼合成引入之增益,或增益值可例如指示由線性預測性寫碼合成及解強調引入之增益。
在一實施例中,雜訊位準追蹤單元可例如經組配以藉由應用最小值統計方法判定雜訊位準資訊。
根據實施例,雜訊位準追蹤單元可例如經組配以將舒緩雜訊位準判定為雜訊位準資訊。重建構單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於雜訊位準資訊而重建構第三音訊信號部分。
在一實施例中,雜訊位準追蹤單元可例如經組配以將舒緩雜訊位準判定為自雜訊位準頻譜導出之雜訊位準資訊,其中該雜訊位準頻譜係藉由應用最小值統計方法而獲得。重建構單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收 介面接收但被損毀的情況下取決於複數個線性預測性係數而重建構第三音訊信號部分。
根據另一實施例,雜訊位準追蹤單元可例如經組配以將指示舒緩雜訊位準之複數個線性預測性係數判定作為雜訊位準資訊,且重建構單元可例如經組配以取決於複數個線性預測性係數而重建構第三音訊信號部分。
在一實施例中,雜訊位準追蹤單元經組配以將指示舒緩雜訊位準之複數個FFT係數判定作為雜訊位準資訊,且第一重建構單元經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於自該等FFT係數導出之舒緩雜訊位準而重建構第三音訊信號部分。
在一實施例中,重建構單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於雜訊位準資訊及取決於第一音訊信號部分而重建構第三音訊信號部分。
根據實施例,重建構單元可例如經組配以藉由衰減或放大自第一或第二音訊信號部分導出之信號來重建構第三音訊信號部分。
在一實施例中,裝置可例如進一步包含長期預測單元,該長期預測單元包含延遲緩衝器。此外,長期預測單元可例如經組配以取決於第一或第二音訊信號部分、取決於儲存於延遲緩衝器中之延遲緩衝器輸入及取決於長期 預測增益而產生經處理信號。此外,長期預測單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下使長期預測增益朝向零淡化。
根據實施例,長期預測單元可例如經組配以使長期預測增益朝向零淡化,其中長期預測增益淡化至零之速度取決於淡出因數。
在一實施例中,長期預測單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下藉由將產生之經處理信號儲存於延遲緩衝器中來更新延遲緩衝器輸入。
根據實施例,變換單元可例如為第一變換單元,及重建構單元為第一重建構單元。裝置進一步包含第二變換單元及第二重建構單元。第二變換單元可例如經組配以在複數個訊框中之第四訊框不由接收介面接收的情況下或在該第四訊框由接收介面接收但被損毀的情況下將雜訊位準資訊自追蹤域變換至第二域。此外,第二重建構單元可例如經組配以在複數個訊框中之該第四訊框不由接收介面接收的情況下或在該第四訊框由接收介面接收但被損毀的情況下取決於在第二域中表示之雜訊位準資訊而重建構音訊信號之第四音訊信號部分。
在一實施例中,第二重建構單元可例如經組配以取決於雜訊位準資訊及取決於第二音訊信號部分重建構第 四音訊信號部分。
根據實施例,重建構單元可例如經組配以藉由衰減或放大自第一或第二音訊信號部分導出之信號來重建構第四音訊信號部分。
此外,提供用於解碼音訊信號之方法。
該方法包含:- 接收複數個訊框中之第一訊框,該第一訊框包含音訊信號之第一音訊信號部分,該第一音訊信號部分被表示於第一域中。
- 接收複數個訊框中之第二訊框,該第二訊框包含音訊信號之第二音訊信號部分。
- 將第二音訊信號部分或自第二音訊信號部分導出之值或信號自第二域變換至追蹤域以獲得第二信號部分資訊,其中第二域不同於第一域,其中追蹤域不同於第二域,且其中追蹤域等於或不同於第一域。
- 取決於在追蹤域中表示之第一信號部分資訊及取決於在追蹤域中表示之第二信號部分資訊而判定雜訊位準資訊,其中第一信號部分資訊取決於第一音訊信號部分。及:
- 在複數個訊框中之第三訊框不被接收的情況下或在該第三訊框被接收但被損毀的情況下取決於在追蹤域中表示之雜訊位準資訊而重建構音訊信號之第三音訊信號部分。
此外,提供用於在執行於電腦或信號處理器上時實施上文所描述之方法之電腦程式。
本發明的實施例中之一些提供時間變化平滑參數,以使得經平滑化週期圖之跟蹤能力及其方差受到較好地平衡,以開發用於偏差補償之演算法及大體上加速雜訊跟蹤。
本發明的實施例係基於如下發現,關於淡出,以下參數係所關注的:淡出域;淡出速度或更一般地淡出曲線;淡出之目標位準;淡出之目標頻譜形狀;及/或背景雜訊位準追蹤。在此上下文中,實施例係基於先前技術具有顯著缺點之發現。
提供針對切換式音訊寫碼系統的在錯誤隱藏過程中之改良信號淡出之裝置及方法。
此外,提供用於在執行於電腦或信號處理器上時實施上文所描述之方法之電腦程式。
實施例實現淡出至舒緩雜訊位準。根據實施例,實現在激發域中之共同舒緩雜訊位準追蹤。不管所使用之核心寫碼器(ACELP/TCX)如何,在叢發封包丟失的過程中被設定為目標的舒緩雜訊位準將為相同的,且該舒緩雜訊位準將總是最新的。並不知曉共同雜訊位準追蹤係必要之先前技術。實施例提供切換式編碼解碼器在叢發封包丟失的過程中至類似舒緩雜訊之信號的淡化。
此外,實施例實現了總複雜性與具有兩個獨立雜訊位準追蹤模組的情況相比將較低,因為可共用功能(PROM)及記憶體。
在實施例中,在作用中話語的過程中,激發域中 之位準導出(與時域中之位準導出相比較)提供更多的最小值,因為話語資訊之部分由LP係數涵蓋。
在ACELP的狀況下,根據實施例,位準導出發生於激發域中。在TCX的狀況下,在實施例中,在時域中導出位準,且作為校正因數應用LPC合成及解強調之增益,以便模型化激發域中之能量位準。追蹤激發域中之位準(例如在FDNS之前)理論上亦將為可能的,但TCX激發域與ACELP激發域之間的位準補償被認為是相當複雜的。
先前技術並未併有在不同域中之此共同背景位準追蹤。先前技術並不具有在切換式編碼解碼器系統中的例如在激發域中之此共同舒緩雜訊位準追蹤。因此,實施例相比於先前技術係有利的,因為對於先前技術,在叢發封包丟失的過程中被設定為目標之舒緩雜訊位準可取決於位準受到追蹤的先前寫碼模式(ACELP/TCX)而不同;因為在先前技術中,針對每一寫碼模式為單獨的追蹤將導致不必要的附加項及額外計算複雜性;及因為在先前技術中,最新舒緩雜訊位準在任一核心中歸因於最近切換至此核心可能並不可用。
根據一些實施例,在激發域中進行位準追蹤,但在時域中進行TCX淡出。藉由時域中之淡化,避免TDAC之失效,該等失效將導致頻疊。當隱藏音調信號分量時,此情形變得備受關注。此外,避免ACELP激發域與MDCT頻譜域之間的位準轉換,且因此例如節省了計算資源。由於激發域與時域之間的切換,在激發域與時域之間需要位 準調整。藉由導出將由LPC合成及預強調引入之增益及使用此增益作為校正因數來使位準在兩個域之間轉換來解決此情形。
相比之下,先前技術並不進行在激發域中之位準追蹤及在時域中之TCX淡出。關於目前先進技術的基於變換之編碼解碼器,在激發域(針對時域/類似ACELP隱藏方法,參見[3GP09a])中抑或在頻域(針對如訊框重複或雜訊替換之頻域方法,參見[LS01])中應用衰減因數。在頻域中應用衰減因數之先前技術的方法之缺點為在時域中的重疊相加區中將導致頻疊。對於被應用不同衰減因數之鄰近訊框將出現此狀況,因為淡化程序使TDAC(時域頻疊消除)失效。此在隱藏音調信號分量時尤其相關。上文所提及之實施例因此相比於先前技術係有利的。
實施例補償高通濾波器對LPC合成增益之影響。根據實施例,為了補償由經高通濾波無聲激發引起之LPC分析及強調的非吾人所樂見之增益改變,導出校正因數。此校正因數考慮此非吾人所樂見之增益改變,且修改激發域中之目標舒緩雜訊位準以使得在時域中達到正確目標位準。
相比之下,若未將最後良好訊框之信號分類為無聲,則例如G.718[ITU08a]之先前技術將高通濾波器引入至無聲激發之信號路徑中,如圖2中所描繪。由此,先前技術導致非吾人所樂見之副效應,因為後續LPC合成之增益取決於由此高通濾波器變更之信號特性。因為在激發域中追 蹤及應用背景位準,所以演算法依賴於LPC合成增益,LPC合成增益又再次取決於激發信號之特性。換言之:激發之信號特性之歸因於高通濾波的修改(如由先前技術所進行)可產生LPC合成之經修改(通常減少的)增益。此情形導致錯誤的輸出位準,即使激發位準係正確的。
實施例克服先前技術之此等缺點。
特定言之,實施例實現舒緩雜訊之適應性頻譜形狀。與G.718相對比,藉由追蹤背景雜訊之頻譜形狀及藉由在叢發封包丟失的過程中應用(淡化至)此形狀,先前背景雜訊之雜訊特性將為匹配的,導致舒緩雜訊之合意的雜訊特性。此情形避免可藉由使用頻譜包絡引入的頻譜形狀之突兀的錯配,該頻譜包絡係由離線訓練及/或最後接收之訊框之頻譜形狀導出。
此外,提供用於解碼音訊信號之裝置。裝置包含接收介面,其中接收介面經組配以接收包含音訊信號之第一音訊信號部分的第一訊框,且其中接收介面經組配以接收包含音訊信號之第二音訊信號部分的第二訊框。
此外,裝置包含雜訊位準追蹤單元,其中雜訊位準追蹤單元經組配以取決於第一音訊信號部分及第二音訊信號部分中之至少一者(此意謂:取決於第一音訊信號部分及/或第二音訊信號部分)判定雜訊位準資訊,其中雜訊位準資訊被表示於追蹤域中。
此外,裝置包含第一重建構單元,該第一重建構單元用於在複數個訊框中之第三訊框不由接收介面接收的 情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於雜訊位準資訊而在第一重建構域中重建構音訊信號之第三音訊信號部分,其中第一重建構域不同於或等於追蹤域。
此外,裝置包含變換單元,該變換單元用於在複數個訊框中之第四訊框不由接收介面接收的情況下或在該第四訊框由接收介面接收但被損毀的情況下將雜訊位準資訊自追蹤域變換至第二重建構域,其中第二重建構域不同於追蹤域,且其中第二重建構域不同於第一重建構域,及
此外,裝置包含第二重建構單元,該第二重建構單元用於在複數個訊框中之該第四訊框不由接收介面接收的情況下或在該第四訊框由接收介面接收但被損毀的情況下取決於在第二重建構域中表示之雜訊位準資訊而在第二重建構域中重建構音訊信號之第四音訊信號部分。
根據一些實施例,追蹤域可例如其中追蹤域為時域、頻譜域、FFT域、MDCT域或激發域。第一重建構域可例如為時域、頻譜域、FFT域、MDCT域或激發域。第二重建構域可例如為時域、頻譜域、FFT域、MDCT域或激發域。
在一實施例中,追蹤域可例如為FFT域,第一重建構域可例如為時域,及第二重建構域可例如為激發域。
在另一實施例中,追蹤域可例如為時域,第一重建構域可例如為時域,及第二重建構域可例如為激發域。
根據實施例,該第一音訊信號部分可例如被表示於第一輸入域中,及該第二音訊信號部分可例如被表示於 第二輸入域中。變換單元可例如為第二變換單元。裝置可例如進一步包含用於將第二音訊信號部分或自第二音訊信號部分導出之值或信號自第二輸入域變換至追蹤域以獲得第二信號部分資訊之第一變換單元。雜訊位準追蹤單元可例如經組配以接收在追蹤域中表示之第一信號部分資訊,其中第一信號部分資訊取決於第一音訊信號部分,其中雜訊位準追蹤單元經組配以接收在追蹤域中表示之第二信號部分,且其中雜訊位準追蹤單元經組配以取決於在追蹤域中表示之第一信號部分資訊及取決於在追蹤域中表示之第二信號部分資訊判定雜訊位準資訊。
根據實施例,第一輸入域可例如為激發域,及第二輸入域可例如為MDCT域。
在另一實施例中,第一輸入域可例如為MDCT域,且其中第二輸入域可例如為MDCT域。
根據實施例,第一重建構單元可例如經組配以藉由進行至類似雜訊之頻譜的第一淡化而重建構第三音訊信號部分。第二重建構單元可例如經組配以藉由進行至類似雜訊之頻譜的第二淡化及/或LTP增益之第二淡化來重建構第四音訊信號部分。此外,第一重建構單元及第二重建構單元可例如經組配以在相同淡化速度的情況下進行至類似雜訊之頻譜的第一淡化及至類似雜訊之頻譜的第二淡化及/或LTP增益之第二淡化。
在一實施例中,裝置可例如進一步包含用於取決於第一音訊信號部分而判定第一聚集值之第一聚集單元。 此外,裝置可例如進一步包含用於取決於第二音訊信號部分而將第二聚集值判定為自第二音訊信號部分導出之值的第二聚集單元。雜訊位準追蹤單元可例如經組配以接收第一聚集值作為在追蹤域中表示之第一信號部分資訊,其中雜訊位準追蹤單元可例如經組配以接收第二聚集值作為在追蹤域中表示之第二信號部分資訊,且其中雜訊位準追蹤單元經組配以取決於在追蹤域中表示之第一聚集值及取決於在追蹤域中表示之第二聚集值而判定雜訊位準資訊。
根據實施例,第一聚集單元可例如經組配以判定第一聚集值以使得第一聚集值指示第一音訊信號部分或自第一音訊信號部分導出之信號的均方根。第二聚集單元經組配以判定第二聚集值以使得第二聚集值指示第二音訊信號部分或自第二音訊信號部分導出之信號的均方根。
在一實施例中,第一變換單元可例如經組配以藉由對自第二音訊信號部分導出之值應用增益值將自第二音訊信號部分導出之值自第二輸入域變換至追蹤域。
根據實施例,增益值可例如指示由線性預測性寫碼合成引入之增益,或其中增益值指示由線性預測性寫碼合成及解強調引入之增益。
在一實施例中,雜訊位準追蹤單元可例如經組配以藉由應用最小值統計方法判定雜訊位準資訊。
根據實施例,雜訊位準追蹤單元可例如經組配以將舒緩雜訊位準判定為雜訊位準資訊。重建構單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收 的情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於雜訊位準資訊而重建構第三音訊信號部分。
在一實施例中,雜訊位準追蹤單元可例如經組配以將舒緩雜訊位準判定為自雜訊位準頻譜導出之雜訊位準資訊,其中該雜訊位準頻譜係藉由應用最小值統計方法而獲得。重建構單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於複數個線性預測性係數而重建構第三音訊信號部分。
根據實施例,第一重建構單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下取決於雜訊位準資訊及取決於第一音訊信號部分而重建構第三音訊信號部分。
在一實施例中,第一重建構單元可例如經組配以藉由衰減或放大第一音訊信號部分來重建構第三音訊信號部分。
根據實施例,第二重建構單元可例如經組配以取決於雜訊位準資訊及取決於第二音訊信號部分重建構第四音訊信號部分。
在一實施例中,第二重建構單元可例如經組配以藉由衰減或放大第二音訊信號部分來重建構第四音訊信號部分。
根據實施例,裝置可例如進一步包含長期預測單 元,該長期預測單元包含延遲緩衝器,其中長期預測單元可例如經組配以取決於第一或第二音訊信號部分、取決於儲存於延遲緩衝器中之延遲緩衝器輸入及取決於長期預測增益而產生經處理信號,且其中長期預測單元經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下使長期預測增益朝向零淡化。
在一實施例中,長期預測單元可例如經組配以使長期預測增益朝向零淡化,其中長期預測增益淡化至零之速度取決於淡出因數。
在一實施例中,長期預測單元可例如經組配以在複數個訊框中之該第三訊框不由接收介面接收的情況下或在該第三訊框由接收介面接收但被損毀的情況下藉由將產生之經處理信號儲存於延遲緩衝器中來更新延遲緩衝器輸入。
此外,提供用於解碼音訊信號之方法。該方法包含:- 接收包含音訊信號之第一音訊信號部分的第一訊框,及接收包含音訊信號之第二音訊信號部分的第二訊框。
- 取決於第一音訊信號部分及第二音訊信號部分中之至少一者判定雜訊位準資訊,其中雜訊位準資訊被表示於追蹤域中。
- 在複數個訊框中之第三訊框未被接收的情況下或在該第三訊框被接收但被損毀的情況下取決於雜訊位準資訊 而在第一重建構域中重建構音訊信號之第三音訊信號部分,其中第一重建構域不同於或等於追蹤域。
- 在複數個訊框中之第四訊框未被接收的情況下或在該第四訊框被接收但被損毀的情況下將雜訊位準資訊自追蹤域變換至第二重建構域,其中第二重建構域不同於追蹤域,且其中第二重建構域不同於第一重建構域。及:
- 在複數個訊框中之該第四訊框未被接收的情況下或在該第四訊框被接收但被損毀的情況下取決於在第二重建構域中表示之雜訊位準資訊而在第二重建構域中重建構音訊信號之第四音訊信號部分。
此外,提供用於在執行於電腦或信號處理器上時實施上文所描述之方法之電腦程式。
此外,提供用於解碼經編碼音訊信號以獲得經重建構音訊信號之裝置。裝置包含用於接收一或多個訊框之接收介面、係數產生器及信號重建構器。係數產生器經組配以在一或多個訊框中之當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下判定由當前訊框包含之一或多個第一音訊信號係數,其中該一或多個第一音訊信號係數指示經編碼音訊信號之特性,及判定指示經編碼音訊信號之背景雜訊的一或多個雜訊係數。此外,係數產生器經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下取決於一或多個第一音訊信號係數及取決於一或多個雜訊係數而產生一或多個第二音訊信號係數。音訊信號重 建構器經組配以在當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下取決於一或多個第一音訊信號係數而重建構經重建構音訊信號之第一部分。此外,音訊信號重建構器經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下取決於一或多個第二音訊信號係數而重建構經重建構音訊信號之第二部分。
在一些實施例中,一或多個第一音訊信號係數可例如為經編碼音訊信號之一或多個線性預測性濾波器係數。在一些實施例中,一或多個第一音訊信號係數可例如為經編碼音訊信號之一或多個線性預測性濾波器係數。
根據實施例,一或多個雜訊係數可例如為指示經編碼音訊信號之背景雜訊的一或多個線性預測性濾波器係數。在一實施例中,一或多個線性預測性濾波器係數可例如表示背景雜訊之頻譜形狀。
在一實施例中,係數產生器可例如經組配以判定一或多個第二音訊信號部分以使得一或多個第二音訊信號部分為經重建構音訊信號之一或多個線性預測性濾波器係數,或使得一或多個第一音訊信號係數為經重建構音訊信號之一或多個導抗頻譜對。
根據實施例,係數產生器可例如經組配以藉由應用如下公式而產生一或多個第二音訊信號係數:f current [i]=αf last [i]+(1-α).pt mean [i]
其中f current [i]指示一或多個第二音訊信號係數中之一 者,其中f last [i]指示一或多個第一音訊信號係數中之一者,其中pt mean [i]為一或多個雜訊係數中之一者,其中α為實數,其中0α1,且其中i為索引。在一實施例中,0<α<1。
根據實施例,f last [i]指示經編碼音訊信號之線性預測性濾波器係數,且其中f current [i]指示經重建構音訊信號之線性預測性濾波器係數。
在一實施例中,pt mean [i]可例如指示經編碼音訊信號之背景雜訊。
在一實施例中,係數產生器可例如經組配以在一或多個訊框中之當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下藉由判定經編碼音訊信號之雜訊頻譜來判定一或多個雜訊係數。
根據實施例,係數產生器可例如經組配以藉由對信號頻譜使用最小值統計方法來判定背景雜訊頻譜及藉由自背景雜訊頻譜計算表示背景雜訊形狀之LPC係數來判定表示背景雜訊之LPC係數。
此外,提供用於解碼經編碼音訊信號以獲得經重建構音訊信號之方法。該方法包含:- 接收一或多個訊框。
- 在一或多個訊框中之當前訊框被接收的情況下及在所接收之當前訊框未被損毀的情況下判定由當前訊框所包含之一或多個第一音訊信號係數,其中該一或多個第一音訊信號係數指示經編碼音訊信號之特性,及判定指示經編 碼音訊信號之背景雜訊的一或多個雜訊係數。
- 在當前訊框未被接收的情況下或在所接收之當前訊框被損毀的情況下,取決於一或多個第一音訊信號係數及取決於一或多個雜訊係數而產生一或多個第二音訊信號係數。
- 在當前訊框被接收的情況下及在所接收之當前訊框未被損毀的情況下取決於一或多個第一音訊信號係數而重建構經重建構音訊信號之第一部分。及:- 在當前訊框未被接收的情況下或在所接收之當前訊框被損毀的情況下取決於一或多個第二音訊信號係數重建構經重建構音訊信號之第二部分。
此外,提供用於在執行於電腦或信號處理器上時實施上文所描述之方法之電腦程式。
具有在淡出的過程中追蹤及應用舒緩雜訊之頻譜形狀的共同手段具有若干優點。藉由追蹤及應用頻譜形狀以使得頻譜形狀對於兩個核心編碼解碼器而言可類似地實現允許了簡單的共同方法。CELT僅教示頻譜域中之能量的逐頻帶追蹤及頻譜域中之頻譜形狀的逐頻帶形成,此對於CELP核心而言係不可能的。
相比之下,在先前技術中,在叢發丟失的過程中引入之舒緩雜訊之頻譜形狀係完全靜態的抑或部分靜態的且部分適應於頻譜形狀之短期均值(如G.718中所實現[ITU08a]),且通常將不匹配在封包丟失之前在信號中之背景雜訊。舒緩雜訊特性之此錯配可能造成麻煩。根據先前 技術,可使用經離線訓練之(靜態)背景雜訊形狀,其針對特定信號而言可聽起來係合意的,但針對其他信號而言不太合意,例如,汽車雜訊聽起來與辦公室雜訊完全不同。
此外,在先前技術中,可使用對先前接收之訊框的頻譜形狀之短期均值之調適,其可能使信號特性更接近於之前接收之信號,但不一定更接近於背景雜訊特性。在先前技術中,在頻譜域中逐頻帶地追蹤頻譜形狀(如CELT[IET12]中所實現)並不適用於不僅使用基於MDCT域之核心(TCX)而且使用基於ACELP之核心的切換式編碼解碼器。上文所提及之實施例因此相比於先前技術係有利的。
此外,提供用於解碼經編碼音訊信號以獲得經重建構音訊信號之裝置。裝置包含用於接收複數個訊框之接收介面、用於儲存經解碼音訊信號之音訊信號樣本的延遲緩衝器、用於自儲存於延遲緩衝器中之音訊信號樣本選擇複數個選定音訊信號樣本之樣本選擇器,及用於處理選定音訊信號樣本以獲得經重建構音訊信號之經重建構音訊信號樣本的樣本處理器。樣本選擇器經組配以在當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下取決於由當前訊框所包含之音高滯後資訊自儲存於延遲緩衝器中之音訊信號樣本選擇複數個選定音訊信號樣本。此外,樣本選擇器經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下取決於由先前由接收介面所接收之另一訊框所包含的音高滯後資訊自儲存於延遲緩衝器中之音訊信號 樣本選擇複數個選定音訊信號樣本。
根據實施例,樣本處理器可例如經組配以在當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下藉由取決於由當前訊框所包含之增益資訊重新按比例調整選定音訊信號樣本而獲得經重建構音訊信號樣本。此外,樣本選擇器可例如經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下藉由取決於由先前由接收介面所接收之該另一訊框所包含的增益資訊重新按比例調整選定音訊信號樣本而獲得經重建構音訊信號樣本。
在一實施例中,樣本處理器可例如經組配以在當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下藉由將選定音訊信號樣本與取決於由當前訊框所包含之增益資訊的值相乘而獲得經重建構音訊信號樣本。此外,樣本選擇器經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下藉由將選定音訊信號樣本與取決於由先前由接收介面所接收之該另一訊框所包含的增益資訊的值相乘而獲得經重建構音訊信號樣本。
根據實施例,樣本處理器可例如經組配以將經重建構音訊信號樣本儲存於延遲緩衝器中。
在一實施例中,樣本處理器可例如經組配以在由接收介面接收另一訊框之前將經重建構音訊信號樣本儲存於延遲緩衝器中。
根據實施例,樣本處理器可例如經組配以在由接收介面接收另一訊框之後將經重建構音訊信號樣本儲存於延遲緩衝器中。
在一實施例中,樣本處理器可例如經組配以取決於增益資訊重新按比例調整選定音訊信號樣本以獲得重新按比例調整之音訊信號樣本及藉由組合重新按比例調整之音訊信號樣本與輸入音訊信號樣本以獲得經處理音訊信號樣本。
根據實施例,樣本處理器可例如經組配以在當前訊框由接收介面接收的情況下及在由接收介面接收之當前訊框未被損毀的情況下將指示重新按比例調整之音訊信號樣本與輸入音訊信號樣本的組合之經處理音訊信號樣本儲存於延遲緩衝器中,且不將重新按比例調整之音訊信號樣本儲存於延遲緩衝器中。此外,樣本處理器經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下將重新按比例調整之音訊信號樣本儲存於延遲緩衝器中且不將經處理音訊信號樣本儲存於延遲緩衝器中。
根據另一實施例,樣本處理器可例如經組配以在當前訊框不由接收介面接收的情況下或在由接收介面接收之當前訊框被損毀的情況下將經處理音訊信號樣本儲存於延遲緩衝器中。
在一實施例中,樣本選擇器可例如經組配以藉由取決於經修改增益重新按比例調整選定音訊信號樣本而獲 得經重建構音訊信號樣本,其中經修改增益係根據如下公式來定義的:gain=gain_past * damping; 其中gain為經修改增益,其中樣本選擇器可例如經組配以在gain已被計算之後將gain_past設定為gain,且其中damping為實值。
根據實施例,樣本選擇器可例如經組配以計算經修改增益。
在一實施例中,damping可例如根據下式來定義:0damping1。
根據實施例,在自上一次訊框由接收介面接收以來至少預定義數目的訊框尚未由接收介面接收的情況下,經修改增益gain可例如被設定為零。
此外,提供用於解碼經編碼音訊信號以獲得經重建構音訊信號之方法。該方法包含:- 接收複數個訊框。
- 儲存經解碼音訊信號之音訊信號樣本。
- 自儲存於延遲緩衝器中之音訊信號樣本選擇複數個選定音訊信號樣本。及:- 處理選定音訊信號樣本以獲得經重建構音訊信號之經重建構音訊信號樣本。
在當前訊框被接收的情況下及在所接收之當前訊框未被損毀的情況下,取決於由當前訊框所包含之音高滯後資訊而進行自儲存於延遲緩衝器中之音訊信號樣本選 擇複數個選定音訊信號樣本的步驟。此外,在當前訊框未被接收的情況下或在所接收之當前訊框被損毀的情況下,取決於由先前由接收介面所接收之另一訊框所包含的音高滯後資訊而進行自儲存於延遲緩衝器中之音訊信號樣本選擇複數個選定音訊信號樣本之步驟。
此外,提供用於在執行於電腦或信號處理器上時實施上文所描述之方法之電腦程式。
實施例使用TCX LTP(TXC LTP=經變換寫碼激發長期預測)。在正常操作的過程中,用合成的信號更新TCX LTP記憶體,該合成的信號含有雜訊及經重建構音調分量。
代替在隱藏的過程中停用TCX LTP,可在隱藏的過程中以在最後良好訊框中接收之參數繼續其正常操作。此保留信號之頻譜形狀,特定言之,由LTP濾波器模型化之彼等音調分量。
此外,實施例解耦TCX LTP回饋迴路。正常TCX LTP操作之簡單繼續會引入額外雜訊,因為隨著每一更新步驟都會引入來自LTP激發之其他隨機產生之雜訊。音調分量因此隨時間之流逝因添加之雜訊而愈來愈失真。
為了克服此情形,可僅回饋更新之TCX LTP緩衝器(在不添加雜訊的情況下),以便不會以不合需要之隨機雜訊污染音調資訊。
此外,根據實施例,將TCX LTP增益淡化至零。
此等實施例係基於如下發現:繼續TCX LTP有助 於短期地保留信號特性,但就長期而言具有以下缺點:在隱藏的過程中播出之信號將包括在丟失之前存在的發聲/音調資訊。尤其對於乾淨的話語或有背景雜訊的話語,音調或諧波極不可能在極長的時間內極慢地衰落。藉由在隱藏的過程中繼續TCX LTP操作,特定言之在解耦LTP記憶體更新(僅回饋音調分量而不是正負號加擾部分)的情況下,發聲/音調資訊將在整個丟失之內保持存在於隱藏之信號中,僅藉由整體淡出至舒緩雜訊位準而衰減。此外,在叢發丟失的過程中應用TCX LTP而不隨時間之流逝衰減的情況下,不可能在叢發封包丟失的過程中達到舒緩雜訊包絡,因為信號將接著總是併有LTP之發聲資訊。
因此,使TCX LTP增益朝向零淡化,以使得由LTP表示之音調分量將淡化至零,同時信號淡化至背景信號位準及形狀,且使得淡出達到所要之頻譜背景包絡(舒緩雜訊)而不併有不合需要之音調分量。
在實施例中,對於LTP增益淡化使用與白雜訊淡化相同的淡化速度。
相比之下,在先前技術中,不存在在隱藏的過程中使用LTP之已知的變換編碼解碼器。對於MPEG-4 LTP[ISO09],先前技術中並不存在隱藏方法。利用LTP的先前技術之另一基於MDCT之編碼解碼器為CELT,但此編碼解碼器針對前五個訊框使用類似ACELP之隱藏,且針對所有後續訊框產生背景雜訊,此舉並不利用LTP。不使用TCX LTP之先前技術之缺點為用LTP模型化之所有音調分量會 突然消失。此外,在先前技術之基於ACELP之編碼解碼器中,在隱藏的過程中延長LTP操作,且使適應性碼簿之增益朝向零淡化。關於回饋迴路操作,先前技術使用兩個方法:回饋整個激發,例如革新及適應性激發之總和(AMR-WB);抑或僅回饋經更新之適應性激發,例如音調信號部分(G.718)。上文所提及之實施例克服先前技術之缺點。
110、1110、1210、1310‧‧‧接收介面
120‧‧‧第一變換單元
121、640‧‧‧第二變換單元
130、630‧‧‧雜訊位準追蹤單元
140‧‧‧第一重建構單元
141‧‧‧第二重建構單元
150‧‧‧第一聚集單元
160‧‧‧第二聚集單元
170、684‧‧‧長期預測單元
180‧‧‧延遲緩衝器
620、621、622‧‧‧單元
631‧‧‧背景位準供應單元
641、644‧‧‧乘法單元
642、645、647‧‧‧淡化單元
643‧‧‧高通增益濾波器單元
646‧‧‧高通濾波器單元
648‧‧‧組合單元
649‧‧‧LPC合成及解強調增益單元
650、660‧‧‧RMS單元
671‧‧‧LPC合成及解強調單元
681‧‧‧雜訊填充模組
682‧‧‧頻域雜訊成形模組
683‧‧‧iMDCT/OLA模組
1020、1320‧‧‧延遲緩衝器
1030、1330‧‧‧樣本選擇器
1040、1340‧‧‧樣本處理器
1120‧‧‧係數產生器
1130‧‧‧信號重建構器
1220‧‧‧處理器
在下文中,參考諸圖更詳細地描述本發明的實施例,其中:圖1a說明根據實施例之用於解碼音訊信號之裝置,圖1b說明根據另一實施例之用於解碼音訊信號之裝置,圖1c說明根據另一實施例之用於解碼音訊信號之裝置,其中裝置進一步包含第一及第二聚集單元,圖1d說明根據另一實施例之用於解碼音訊信號之裝置,其中裝置更包含長期預測單元,該長期預測單元包含延遲緩衝器,圖2說明G.718之解碼器結構,圖3描繪G.722之淡出因數取決於類別資訊之情境,圖4展示用於使用線性回歸進行振幅預測之方法,圖5說明受約束之能量重疊變換(CELT)的叢發丟失行為,圖6展示在無錯誤操作模式的過程中在解碼器中之根 據實施例的背景雜訊位準追蹤,圖7說明根據實施例之LPC合成及解強調之增益導出,圖8描繪根據實施例之在封包丟失的過程中之舒緩雜訊位準應用,圖9說明根據實施例之在ACELP隱藏的過程中之進階高通增益補償,圖10描繪根據實施例之在隱藏的過程中之LTP回饋迴路之解耦,圖11說明根據實施例之用於解碼經編碼音訊信號以獲得經重建構音訊信號的裝置,圖12展示根據另一實施例之用於解碼經編碼音訊信號以獲得經重建構音訊信號之裝置,及圖13說明另一實施例之用於解碼經編碼音訊信號以獲得經重建構音訊信號的裝置,及圖14說明另一實施例之用於解碼經編碼音訊信號以獲得經重建構音訊信號的裝置。
較佳實施例之詳細說明
圖1a說明根據實施例之用於解碼音訊信號之裝置。
裝置包含接收介面110。接收介面經組配以接收複數個訊框,其中接收介面110經組配以接收複數個訊框中之第一訊框,該第一訊框包含音訊信號之第一音訊信號部分,該第一音訊信號部分被表示於第一域中。此外,接收 介面110經組配以接收複數個訊框中之第二訊框,該第二訊框包含音訊信號之第二音訊信號部分。
此外,裝置包含變換單元120,該變換單元用於將第二音訊信號部分或自第二音訊信號部分導出之值或信號自第二域變換至追蹤域,以獲得第二信號部分資訊,其中第二域不同於第一域,其中追蹤域不同於第二域,且其中追蹤域等於或不同於第一域。
此外,裝置包含雜訊位準追蹤單元130,其中雜訊位準追蹤單元經組配以接收在追蹤域中表示之第一信號部分資訊,其中第一信號部分資訊取決於第一音訊信號部分,其中雜訊位準追蹤單元經組配以接收在追蹤域中表示之第二信號部分,且其中雜訊位準追蹤單元經組配以取決於在追蹤域中表示之第一信號部分資訊及取決於在追蹤域中表示之第二信號部分資訊而判定雜訊位準資訊。
此外,裝置包含重建構單元,該重建構單元用於在複數個訊框中之第三訊框不由接收介面接收而是被損毀的情況下取決於雜訊位準資訊而重建構音訊信號之第三音訊信號部分。
關於第一及/或第二音訊信號部分,例如第一及/或第二音訊信號部分可例如被饋送至一或多個處理單元(未圖示)中以用於產生用於一或多個揚聲器之一或多個揚聲器信號,使得可重新播放由第一及/或第二音訊信號部分包含之所接收的聲音資訊。
然而,此外,第一及第二音訊信號部分亦用於隱 藏,例如在後續訊框並未到達接收器的狀況下或在彼後續訊框不正確的狀況下。
尤其,本發明係基於雜訊位準追蹤應在共同域(本文中被稱作「追蹤域」)中進行之發現。追蹤域可例如為激發域,例如由LPC(LPC=線性預測性係數)或由ISP(ISP=導抗頻譜對)表示信號的域,如AMR-WB及AMR-WB+中所描述(參見[3GP12a]、[3GP12b]、[3GP09a]、[3GP09b]、[3GP09c])。在單一域中追蹤雜訊位準尤其具有如下優點:當信號在第一域中之第一表示與第二域中之第二表示之間切換時(例如,當信號表示自ACELP切換至TCX或自TCX切換至ACELP時),避免了頻疊效應。
關於變換單元120,所變換的係第二音訊信號部分自身,或自第二音訊信號部分導出之信號(例如,已處理第二音訊信號部分以獲得導出之信號),或自第二音訊信號部分導出之值(例如,已處理第二音訊信號部分以獲得導出之值)。
關於第一音訊信號部分,在一些實施例中,第一音訊信號部分可經處理及/或變換至追蹤域。
然而,在其他實施例中,第一音訊信號部分可已經被表示於追蹤域中。
在一些實施例中,第一信號部分資訊等同於第一音訊信號部分。在其他實施例中,第一信號部分資訊為例如取決於第一音訊信號部分之聚集值。
現在,首先更詳細考慮至舒緩雜訊位準之淡出。
所描述之淡出方法可例如實施於xHE-AAC[NMR+12]之低延遲版本(xHE-AAC=擴展高效率AAC)中,該版本能夠在逐訊框的基礎上在ACELP(話語)與MDCT(音樂/雜訊)寫碼之間順暢地切換。
關於在追蹤域(例如激發域)中之共同位準追蹤,為了在封包丟失的過程中應用至適當舒緩雜訊位準的平滑淡出,需要在正常解碼程序的過程中識別此舒緩雜訊位準。可例如假設類似於背景雜訊之雜訊位準大部分為舒緩的。因此,可在正常解碼的過程中導出及連續更新背景雜訊位準。
本發明係基於以下發現:當具有切換式核心編碼解碼器(例如,ACELP及TCX)時,考慮獨立於所選擇核心寫碼器的共同背景雜訊位準為特別合適的。
圖6描繪在無錯誤操作模式的過程中(例如在正常解碼的過程中)在解碼器中之根據較佳實施例之背景雜訊位準追蹤。
追蹤自身可例如使用最小值統計方法來執行(參見[Mar01])。
此被追蹤之背景雜訊位準可例如被認為是上文所提及之雜訊位準資訊。
舉例而言,文獻「Rainer Martin的Noise power spectral density estimation based on optimal smoothing and minimum statistics(IEEE Transactions on Speech and Audio Processing 9(2001),第5期,第504至512頁)」中呈現之最 小值統計雜訊估計[Mar01]可用於背景雜訊位準追蹤。
相應地,在一些實施例中,雜訊位準追蹤單元130經組配以藉由應用最小值統計方法(例如藉由使用[Mar01]之最小值統計雜訊估計)來判定雜訊位準資訊。
隨後,描述此追蹤方法之一些考慮因素及細節。
關於位準追蹤,背景應該為類似雜訊的。因此較佳地執行在激發域中之位準追蹤以避免追蹤由LPC取出之前景音調分量。舉例而言,ACELP雜訊填充亦可使用激發域中之背景雜訊位準。在激發域中進行追蹤的情況下,對背景雜訊位準之僅一個單次追蹤可起到兩個用途,從而減小計算複雜性。在較佳實施例中,在ACELP激發域中執行追蹤。
圖7說明根據實施例之LPC合成及解強調之增益導出。
關於位準導出,位準導出可例如在時域中抑或在激發域中抑或在任何其他合適的域中進行。在用於位準導出及位準追蹤之域不同的情況下,可例如需要增益補償。
在較佳實施例中,在激發域中執行用於ACELP之位準導出。因此,並不需要增益補償。
對於TCX,可例如需要增益補償以將導出之位準調整至ACELP激發域。
在較佳實施例中,用於TCX之位準導出在時域中發生。發現了用於此方法之易管理的增益補償:如圖7中所示導出由LPC合成及解強調引入之增益,且將導出之位準 除以此增益。
或者,可在TCX激發域中執行用於TCX之位準導出。然而,TCX激發域與ACELP激發域之間的增益補償被認為太複雜。
因此返回到圖1a,在一些實施例中,第一音訊信號部分被表示於作為第一域之時域中。變換單元120經組配以將第二音訊信號部分或自第二音訊信號部分導出之值自為第二域之激發域變換至為追蹤域之時域。在此等實施例中,雜訊位準追蹤單元130經組配以接收在作為追蹤域之時域中表示之第一信號部分資訊。此外,雜訊位準追蹤單元130經組配以接收在作為追蹤域之時域中表示之第二信號部分。
在其他實施例中,第一音訊信號部分被表示於作為第一域之激發域中。變換單元120經組配以將第二音訊信號部分或自第二音訊信號部分導出之值自為第二域之時域變換至為追蹤域之激發域。在此等實施例中,雜訊位準追蹤單元130經組配以接收在作為追蹤域之激發域中表示之第一信號部分資訊。此外,雜訊位準追蹤單元130經組配以接收在作為追蹤域之激發域中表示之第二信號部分。
在一實施例中,第一音訊信號部分可例如被表示於作為第一域之激發域中,其中雜訊位準追蹤單元130可例如經組配以接收第一信號部分資訊,其中該第一信號部分資訊被表示於為追蹤域之FFT域中,且其中該第一信號部分資訊取決於在激發域中表示之該第一音訊信號部分,其中 變換單元120可例如經組配以將第二音訊信號部分或自第二音訊信號部分導出之值自為第二域之時域變換至為追蹤域之FFT域,且其中雜訊位準追蹤單元130可例如經組配以接收在FFT域中表示之第二音訊信號部分。
圖1b說明根據另一實施例之裝置。在圖1b中,圖1a之變換單元120為第一變換單元120,及圖1a之重建構單元140為第一重建構單元140。裝置進一步包含第二變換單元121及第二重建構單元141。
第二變換單元121經組配以在複數個訊框中之第四訊框不由接收介面接收的情況下或在該第四訊框由接收介面接收但被損毀的情況下將雜訊位準資訊自追蹤域變換至第二域。
此外,第二重建構單元141經組配以在複數個訊框中之該第四訊框不由接收介面接收的情況下或在該第四訊框由接收介面接收但被損毀的情況下取決於在第二域中表示之雜訊位準資訊而重建構音訊信號之第四音訊信號部分。
圖1c說明根據另一實施例之用於解碼音訊信號之裝置。裝置進一步包含用於取決於第一音訊信號部分而判定第一聚集值之第一聚集單元150。此外,圖1c之裝置進一步包含用於取決於第二音訊信號部分而將第二聚集值判定為自第二音訊信號部分導出之值的第二聚集單元160。在圖1c之實施例中,雜訊位準追蹤單元130經組配以接收第一聚集值作為在追蹤域中表示之第一信號部分資訊,其中雜 訊位準追蹤單元130經組配以接收第二聚集值作為在追蹤域中表示之第二信號部分資訊。雜訊位準追蹤單元130經組配以取決於在追蹤域中表示之第一聚集值及取決於在追蹤域中表示之第二聚集值而判定雜訊位準資訊。
在一實施例中,第一聚集單元150經組配以判定第一聚集值以使得第一聚集值指示第一音訊信號部分或自第一音訊信號部分導出之信號的均方根。此外,第二聚集單元160經組配以判定第二聚集值以使得第二聚集值指示第二音訊信號部分或自第二音訊信號部分導出之信號的均方根。
圖6說明根據另一實施例之用於解碼音訊信號之裝置。
在圖6中,背景位準追蹤單元630實施根據圖1a之雜訊位準追蹤單元130。
此外,在圖6中,RMS單元650(RMS=均方根)為第一聚集單元,且RMS單元660為第二聚集單元。
根據一些實施例,圖1a、圖1b及圖1c之(第一)變換單元120經組配以藉由對自第二音訊信號部分導出之值應用增益值(x)(例如,藉由將自第二音訊信號部分導出之值除以增益值(x))將自第二音訊信號部分導出之值自第二域變換至追蹤域。在其他實施例中,可例如乘以增益值。
在一些實施例中,增益值(x)可例如指示由線性預測性寫碼合成引入之增益,或增益值(x)可例如指示由線性預測性寫碼合成及解強調引入之增益。
在圖6中,單元622提供指示由線性預測性寫碼合成及解強調引入之增益的值(x)。單元622接著將由第二聚集單元660提供之值(其為自第二音訊信號部分導出的值)除以所提供之增益值(x)(例如,藉由除以x,抑或藉由乘以值1/x)。因此,圖6之包含單元621及622之單元620實施圖1a、圖1b或圖1c之第一變換單元。
圖6之裝置接收具有第一音訊信號部分之第一訊框,該第一音訊信號部分為有聲激發及/或無聲激發且被表示於追蹤域中(在圖6中,(ACELP)LPC域)。將第一音訊信號部分饋送至LPC合成及解強調單元671中以進行處理,從而獲得時域第一音訊信號部分輸出。此外,將第一音訊信號部分饋送至RMS模組650中以獲得指示第一音訊信號部分之均方根的第一值。此第一值(第一RMS值)被表示於追蹤域中。接著將在追蹤域中表示之第一RMS值饋送至雜訊位準追蹤單元630中。
此外,圖6之裝置接收具有第二音訊信號部分之第二訊框,該第二音訊信號部分包含MDCT頻譜且被表示於MDCT域中。雜訊填充由雜訊填充模組681進行,頻域雜訊成形由頻域雜訊成形模組682進行,至時域之變換由iMDCT/OLA模組683(OLA=重疊相加)進行,且長期預測由長期預測單元684進行。長期預測單元可例如包含延遲緩衝器(圖6中未圖示)。
接著將自第二音訊信號部分導出之信號饋送至RMS模組660中以獲得第二值,該第二值指示獲得自第二音 訊信號部分導出之彼信號的均方根。此第二值(第二RMS值)仍被表示於時域中。單元620接著將第二RMS值自時域變換至追蹤域,此處追蹤域為(ACELP)LPC域。接著將在追蹤域中表示之第二RMS值饋送至雜訊位準追蹤單元630中。
在實施例中,在激發域中進行位準追蹤,但在時域中進行TCX淡出。
儘管在正常解碼的過程中追蹤背景雜訊位準,但背景雜訊位準可例如在封包丟失的過程中用作最後接收之信號平滑地逐位準淡化至之適當舒緩雜訊位準的指示符。
導出用於追蹤之位準及應用位準淡出大體而言為彼此獨立的,且可在不同域中執行。在較佳實施例中,在與位準導出相同的域中執行位準應用,從而導致相同的益處:對於ACELP而言,不需要增益補償,且對於TCX而言,需要關於位準導出之反增益補償(參見圖6)且因此可使用相同增益導出,如由圖7所說明。
在下文中,描述根據實施例之高通濾波器對LPC合成增益的影響之補償。
圖8概述此方法。特定言之,圖8說明在封包丟失的過程中之舒緩雜訊位準應用。
在圖8中,高通增益濾波器單元643、乘法單元644、淡化單元645、高通濾波器單元646、淡化單元647及組合單元648一起形成第一重建構單元。
此外,在圖8中,背景位準供應單元631提供雜訊位準資訊。舉例而言,背景位準供應單元631可同樣實施為 圖6之背景位準追蹤單元630。
此外,在圖8中,LPC合成及解強調增益單元649及乘法單元641一起用於第二變換單元640。
此外,在圖8中,淡化單元642表示第二重建構單元。
在圖8之實施例中,有聲及無聲激發被單獨地淡化:有聲激發淡化至零,但無聲激發朝向舒緩雜訊位準淡化。圖8此外描繪高通濾波器,其在除了當信號被分類為無聲時之外的所有狀況下被引入至無聲激發之信號鏈中以抑制低頻分量。
為了將高通濾波器之影響模型化,將在LPC合成及解強調之後的位準在有高通濾波器的情況下計算一次且在無高通濾波器的情況下計算一次。隨後,導出彼等兩個位準之比且將其用以更改所應用之背景位準。
此情形由圖9說明。特定言之,圖9描繪根據實施例之在ACELP隱藏的過程中之進階高通增益補償。
代替當前激發信號,僅將簡單脈衝用作此計算之輸入。此允許複雜性減少,因為脈衝回應快速衰落,且因此可在較短時間範圍內執行RMS導出。實務上,使用僅一個子訊框而非整個訊框。
根據實施例,雜訊位準追蹤單元130經組配以將舒緩雜訊位準判定為雜訊位準資訊。重建構單元140經組配以在複數個訊框中之該第三訊框不由接收介面110接收的情況下或在該第三訊框由接收介面110接收但被損毀的情 況下取決於雜訊位準資訊而重建構第三音訊信號部分。
根據實施例,雜訊位準追蹤單元130經組配以將舒緩雜訊位準判定為雜訊位準資訊。重建構單元140經組配以在複數個訊框中之該第三訊框不由接收介面110接收的情況下或在該第三訊框由接收介面110接收但被損毀的情況下取決於雜訊位準資訊而重建構第三音訊信號部分。
在一實施例中,雜訊位準追蹤單元130經組配以將舒緩雜訊位準判定為自雜訊位準頻譜導出之雜訊位準資訊,其中該雜訊位準頻譜係藉由應用最小值統計方法而獲得的。重建構單元140經組配以在複數個訊框中之該第三訊框不由接收介面110接收的情況下或在該第三訊框由接收介面110接收但被損毀的情況下取決於複數個線性預測性係數而重建構第三音訊信號部分。
在一實施例中,(第一及/或第二)重建構單元140、141可例如經組配以在複數個訊框中之該第三(第四)訊框不由接收介面110接收的情況下或在該第三(第四)訊框由接收介面110接收但被損毀的情況下取決於雜訊位準資訊及取決於第一音訊信號部分而重建構第三音訊信號部分。
根據實施例,(第一及/或第二)重建構單元140、141可例如經組配以藉由衰減或放大第一音訊信號部分來重建構第三(或第四)音訊信號部分。
圖14說明用於解碼音訊信號之裝置。裝置包含接收介面110,其中接收介面110經組配以接收包含音訊信號 之第一音訊信號部分的第一訊框,且其中接收介面110經組配以接收包含音訊信號之第二音訊信號部分的第二訊框。
此外,裝置包含雜訊位準追蹤單元130,其中雜訊位準追蹤單元130經組配以取決於第一音訊信號部分及第二音訊信號部分中之至少一者(此意謂:取決於第一音訊信號部分及/或第二音訊信號部分)判定雜訊位準資訊,其中雜訊位準資訊被表示於追蹤域中。
此外,裝置包含第一重建構單元140,該第一重建構單元用於在複數個訊框中之第三訊框不由接收介面110接收的情況下或在該第三訊框由接收介面110接收但被損毀的情況下取決於雜訊位準資訊而在第一重建構域中重建構音訊信號之第三音訊信號部分,其中第一重建構域不同於或等於追蹤域。
此外,裝置包含變換單元121,該變換單元用於在複數個訊框中之第四訊框不由接收介面110接收的情況下或在該第四訊框由接收介面110接收但被損毀的情況下將雜訊位準資訊自追蹤域變換至第二重建構域,其中第二重建構域不同於追蹤域,且其中第二重建構域不同於第一重建構域,及此外,裝置包含第二重建構單元141,該第二重建構單元用於在複數個訊框中之該第四訊框不由接收介面110接收的情況下或在該第四訊框由接收介面110接收但被損毀的情況下取決於在第二重建構域中表示之雜訊位準資訊而在第二重建構域中重建構音訊信號之第四音訊信號部分。
根據一些實施例,追蹤域可例如其中追蹤域為時域、頻譜域、FFT域、MDCT域或激發域。第一重建構域可例如為時域、頻譜域、FFT域、MDCT域或激發域。第二重建構域可例如為時域、頻譜域、FFT域、MDCT域或激發域。
在一實施例中,追蹤域可例如為FFT域,第一重建構域可例如為時域,及第二重建構域可例如為激發域。
在另一實施例中,追蹤域可例如為時域,第一重建構域可例如為時域,及第二重建構域可例如為激發域。
根據實施例,該第一音訊信號部分可例如被表示於第一輸入域中,及該第二音訊信號部分可例如被表示於第二輸入域中。變換單元可例如為第二變換單元。裝置可例如進一步包含用於將第二音訊信號部分或自第二音訊信號部分導出之值或信號自第二輸入域變換至追蹤域以獲得第二信號部分資訊之第一變換單元。雜訊位準追蹤單元可例如經組配以接收在追蹤域中表示之第一信號部分資訊,其中第一信號部分資訊取決於第一音訊信號部分,其中雜訊位準追蹤單元經組配以接收在追蹤域中表示之第二信號部分,且其中雜訊位準追蹤單元經組配以取決於在追蹤域中表示之第一信號部分資訊及取決於在追蹤域中表示之第二信號部分資訊判定雜訊位準資訊。
根據實施例,第一輸入域可例如為激發域,及第二輸入域可例如為MDCT域。
在另一實施例中,第一輸入域可例如為MDCT域,且其中第二輸入域可例如為MDCT域。
在例如在時域中表示信號的情況下,信號可例如由信號之時域樣本表示。或例如,在頻譜域中表示信號的情況下,信號可例如由信號之頻譜之頻譜樣本表示。
在一實施例中,追蹤域可例如為FFT域,第一重建構域可例如為時域,及第二重建構域可例如為激發域。
在另一實施例中,追蹤域可例如為時域,第一重建構域可例如為時域,及第二重建構域可例如為激發域。
在一些實施例中,圖14中所說明之單元可例如按針對圖1a、圖1b、圖1c及圖1d所描述般經組配。
關於特定實施例,在例如低速率模式中,根據實施例之裝置可例如接收ACELP訊框作為輸入,該等ACELP訊框被表示於激發域中且接著經由LPC合成變換至時域。此外,在低速率模式中,根據實施例之裝置可例如接收TCX訊框作為輸入,該等TCX訊框被表示於MDCT域中,且接著經由反MDCT而變換至時域。
接著在FFT域中進行追蹤,其中藉由進行FFT(快速傅立葉變換)自時域信號導出FFT信號。可例如藉由對於所有頻譜線分開進行最小值統計方法來進行追蹤以獲得舒緩雜訊頻譜。
接著藉由基於舒緩雜訊頻譜進行位準導出來進行隱藏。基於舒緩雜訊頻譜進行位準導出。對於FD TCX PLC進行至時域中之位準轉換。進行在時域中之淡化。針對ACELP PLC及針對TD TCX PLC(類似ACELP)進行至激發域中之位準導出。接著進行在激發域中之淡化。
以下清單概述此情形:
低速率:
●輸入:
○acelp(激發域->時域,經由lpc合成)
○tcx(mdct域->時域,經由反MDCT)
●追蹤:
○fft域,經由FFT自時域導出
○最小值統計,對於所有頻譜線分開進行->舒緩雜訊頻譜
●隱藏:
○基於舒緩雜訊頻譜之位準導出
○對於以下PLC位準轉換至時域中
■FD TCX PLC->在時域中淡化
○對於以下PLC位準轉換至激發域中
■ACELP PLC
■TD TCX PLC(類似ACELP)->在激發域中淡化
在例如高速率模式中,其可例如接收TCX訊框作為輸入,該等TCX訊框被表示於MDCT域中,且接著經由反MDCT而變換至時域。
接著可在時域中進行追蹤。可例如藉由基於能量位準進行最小值統計方法來進行追蹤以獲得舒緩雜訊位準。
對於隱藏,對於FD TCX PLC而言,位準可被照 原樣使用,且可僅進行時域中之淡化。對於TD TCX PLC(類似ACELP),進行至激發域之位準轉換及在激發域中之淡化。
以下清單概述此情形:
高速率:
●輸入:
○tcx(mdct域->時域,經由反MDCT)
●追蹤:
○時域
○基於能量位準之最小值統計->舒緩雜訊位準
●隱藏:
○「照原樣」使用位準
■FD TCX PLC->在時域中淡化
○對於以下PLC位準轉換至激發域中
■TD TCX PLC(類似ACELP)->在激發域中淡化
FFT域及MDCT域皆為頻譜域,而激發域為某一種類的時域。
根據實施例,第一重建構單元140可例如經組配以藉由進行至類似雜訊之頻譜的第一淡化而重建構第三音訊信號部分。第二重建構單元141可例如經組配以藉由進行至類似雜訊之頻譜的第二淡化及/或LTP增益之第二淡化來重建構第四音訊信號部分。此外,第一重建構單元140及第二重建構單元141可例如經組配以按相同淡化速度進行至 類似雜訊之頻譜的第一淡化及至類似雜訊之頻譜的第二淡化及/或LTP增益之第二淡化。
現在考慮舒緩雜訊之適應性頻譜成形。
為了達成在叢發封包丟失的過程中至舒緩雜訊之適應性成形,作為第一步驟,可進行對表示背景雜訊之適當LPC係數的發現。可在作用中話語的過程中使用用於發現背景雜訊頻譜的最小值統計方法及接著藉由使用文獻中已知的用於LPC導出之任意演算法而自背景雜訊頻譜計算LPC係數來導出此等LPC係數。例如,一些實施例可直接將背景雜訊頻譜轉換成可直接用於MDCT域中之FDNS的表示。
至舒緩雜訊之淡化可在ISF域中進行(在LSF域中亦可適用;LSF線譜頻率):f current [i]=αf last [i]+(1-α).pt mean [i]i=0...16 (26)
藉由將ptmean設定為描述舒緩雜訊之適當LP係數。
關於舒緩雜訊之上文所描述之適應性頻譜成形,由圖11說明更一般實施例。
圖11說明根據實施例之用於解碼經編碼音訊信號以獲得經重建構音訊信號的裝置。
裝置包含用於接收一或多個訊框之接收介面1110、係數產生器1120及信號重建構器1130。
係數產生器1120經組配以在一或多個訊框中之當前訊框由接收介面1110接收的情況下及在由接收介面1110接收之當前訊框並非被損毀/不正確的情況下判定由當 前訊框包含之一或多個第一音訊信號係數,其中該一或多個第一音訊信號係數指示經編碼音訊信號之特性,且判定指示經編碼音訊信號之背景雜訊的一或多個雜訊係數。此外,係數產生器1120經組配以在當前訊框不由接收介面1110接收的情況下或在由接收介面1110接收之當前訊框被損毀/不正確的情況下取決於一或多個第一音訊信號係數及取決於一或多個雜訊係數而產生一或多個第二音訊信號係數。
音訊信號重建構器1130經組配以在當前訊框由接收介面1110接收的情況下及在由接收介面1110接收之當前訊框未被損毀的情況下取決於一或多個第一音訊信號係數而重建構經重建構音訊信號之第一部分。此外,音訊信號重建構器1130經組配以在當前訊框不由接收介面1110接收的情況下或在由接收介面1110接收之當前訊框被損毀的情況下取決於一或多個第二音訊信號係數而重建構經重建構音訊信號之第二部分。
判定背景雜訊在此項技術中係熟知的(參見例如[Mar01]:Rainer Martin的「Noise power spectral density estimation based on optimal smoothing and minimum statistics」,IEEE Transactions on Speech and Audio Processing 9(2001)第5期,第504至512頁),且在一實施例中,裝置相應地繼續進行。
在一些實施例中,一或多個第一音訊信號係數可例如為經編碼音訊信號之一或多個線性預測性濾波器係 數。在一些實施例中,一或多個第一音訊信號係數可例如為經編碼音訊信號之一或多個線性預測性濾波器係數。
此項技術中熟知如何自線性預測性濾波器係數或自導抗頻譜對重建構音訊信號(例如,話語信號)(參見例如,[3GP09c]:Speech codec speech processing functions;adaptive multi-rate-wideband (AMRWB) speech codec;transcoding functions,3GPP TS 26.190,第三代合作夥伴計劃,2009),且在一實施例中,信號重建構器相應地繼續進行。
根據實施例,一或多個雜訊係數可例如為指示經編碼音訊信號之背景雜訊的一或多個線性預測性濾波器係數。在一實施例中,一或多個線性預測性濾波器係數可例如表示背景雜訊之頻譜形狀。
在一實施例中,係數產生器1120可例如經組配以判定一或多個第二音訊信號部分以使得一或多個第二音訊信號部分為經重建構音訊信號之一或多個線性預測性濾波器係數,或使得一或多個第一音訊信號係數為經重建構音訊信號之一或多個導抗頻譜對。
根據實施例,係數產生器1120可例如經組配以藉由應用如下公式而產生一或多個第二音訊信號係數:f current [i]=αf last [i]+(1-α).pt mean [i]
其中f current [i]指示一或多個第二音訊信號係數中之一者,其中f last [i]指示一或多個第一音訊信號係數中之一者,其中pt mean [i]為一或多個雜訊係數中之一者,其中α為實 數,其中0α1,且其中i為索引。
根據實施例,f last [i]指示經編碼音訊信號之線性預測性濾波器係數,且其中f current [i]指示經重建構音訊信號之線性預測性濾波器係數。
在一實施例中,pt mean [i]可例如為線性預測性濾波器係數,其指示經編碼音訊信號之背景雜訊。
根據實施例,係數產生器1120可例如經組配以產生至少10個第二音訊信號係數作為一或多個第二音訊信號係數。
在一實施例中,係數產生器1120可例如經組配以在一或多個訊框中之當前訊框由接收介面1110接收的情況下及在由接收介面1110接收之當前訊框未被損毀的情況下藉由判定經編碼音訊信號之雜訊頻譜來判定一或多個雜訊係數。
在下文中,考慮在FDNS應用之前將MDCT頻譜淡化至白雜訊。
代替隨機修改MDCT頻率倉之正負號(正負號加擾),用使用FDNS成形之白雜訊來填充完整頻譜。為了避免頻譜特性中之即時改變,應用正負號加擾與雜訊填充之間的交叉淡化。可如下實現交叉淡化:
其中: cum_damping為(絕對)衰減因數,其在訊框之間減少,自1開始且朝向0減少x_old為最後接收之訊框的頻譜random_sign傳回1或-1 noise含有隨機向量(白雜訊),其被按比例調整以使得其二次均值(RMS)類似於最後良好頻譜。
術語random_sign()*old_x[i]表徵用以使相位隨機化且如此避免諧波重複的正負號加擾程序。
隨後,可在交叉淡化之後執行能量位準之另一正規化以確保總和能量不會歸因於兩個向量之相關而發生偏離。
根據實施例,第一重建構單元140可例如經組配以取決於雜訊位準資訊及取決於第一音訊信號部分重建構第三音訊信號部分。在特定實施例中,第一重建構單元140可例如經組配以藉由衰減或放大第一音訊信號部分來重建構第三音訊信號部分。
在一些實施例中,第二重建構單元141可例如經組配以取決於雜訊位準資訊及取決於第二音訊信號部分重建構第四音訊信號部分。在特定實施例中,第二重建構單元141可例如經組配以藉由衰減或放大第二音訊信號部分來重建構第四音訊信號部分。
關於上文所描述的在FDNS應用之前MDCT頻譜至白雜訊之淡化,由圖12說明更一般實施例。
圖12說明根據實施例之用於解碼經編碼音訊信 號以獲得經重建構音訊信號的裝置。
裝置包含用於接收包含關於經編碼音訊信號之音訊信號頻譜之複數個音訊信號樣本的資訊之一或多個訊框之接收介面1210及用於產生經重建構音訊信號之處理器1220。
處理器1220經組配以在當前訊框不由接收介面1210接收的情況下或在當前訊框由接收介面1210接收但被損毀的情況下藉由將經修改頻譜淡化至目標頻譜來產生經重建構音訊信號,其中經修改頻譜包含複數個經修改信號樣本,其中針對經修改頻譜之經修改信號樣本中的每一者,該經修改信號樣本之絕對值等於音訊信號頻譜之音訊信號樣本中之一者的絕對值。
此外,處理器1220經組配以在一或多個訊框中之當前訊框由接收介面1210接收的情況下及在由接收介面1210接收之當前訊框未被損毀的情況下不將經修改頻譜淡化至目標頻譜。
根據實施例,目標頻譜為類似雜訊之頻譜。
在一實施例中,類似雜訊之頻譜表示白雜訊。
根據實施例,類似雜訊之頻譜經成形。
在一實施例中,類似雜訊之頻譜之形狀取決於先前接收之信號的音訊信號頻譜。
根據實施例,取決於音訊信號頻譜之形狀而成形類似雜訊之頻譜。
在一實施例中,處理器1220使用傾斜因數來使類 似雜訊之頻譜成形。
根據實施例,處理器1220使用如下公式:shaped_noise[i]=noise * power(tilt_factor,i/N)其中N指示樣本之數目,其中i為索引,其中0<=i<N,其中tilt_factor>0,其中power為功率函數。
若tilt_factor小於1,則此情形意謂在i增加的情況下的衰減。若tilt_factor大於1,則意謂在i增加的情況下的放大。
根據另一實施例,處理器1220可使用如下公式:shaped_noise[i]=noise *(1+i/(N-1)*(tilt_factor-1))其中N指示樣本之數目,其中i為索引,其中0<=i<N,其中tilt_factor>0。
根據實施例,處理器1220經組配以在當前訊框不由接收介面1210接收的情況下或在由接收介面1210接收之當前訊框被損毀的情況下藉由改變音訊信號頻譜之音訊信號樣本中的一或多者之正負號來產生經修改頻譜。
在一實施例中,音訊信號頻譜之音訊信號樣本中之每一者由實數表示,但不由虛數表示。
根據實施例,音訊信號頻譜之音訊信號樣本被表示於經修改離散餘弦變換域中。
在另一實施例中,音訊信號頻譜之音訊信號樣本 被表示於經修改離散正弦變換域中。
根據實施例,處理器1220經組配以藉由使用隨機或偽隨機輸出第一值抑或第二值之隨機正負號函數產生經修改頻譜。
在一實施例中,處理器1220經組配以藉由隨後減少衰減因數而將經修改頻譜淡化至目標頻譜。
根據實施例,處理器1220經組配以藉由隨後增加衰減因數而將經修改頻譜淡化至目標頻譜。
在一實施例中,在當前訊框不由接收介面1210接收的情況下或在由接收介面1210接收之當前訊框被損毀的情況下,處理器1220經組配以藉由使用如下公式產生經重建構音訊信號:x[i]=(1-cum_damping)* noise[i]+cum_damping * random_sign()* x_old[i]
其中i為索引,其中x[i]指示經重建構音訊信號之樣本,其中cum_damping為衰減因數,其中x_old[i]指示經編碼音訊信號之音訊信號頻譜的音訊信號樣本中之一者,其中random_sign()傳回1或-1,且其中noise為指示目標頻譜之隨機向量。
一些實施例繼續TCX LTP操作。在彼等實施例中,在隱藏的過程中用自最後良好訊框導出之LTP參數(LTP滯後及LTP增益)繼續TCX LTP操作。
LTP操作可概述如下:- 基於先前導出之輸出對LTP延遲緩衝器進行饋送。
- 基於LTP滯後:從LTP延遲緩衝器當中選擇被用作LTP貢獻以使當前信號成形之適當信號部分。
- 使用LTP增益重新按比例調整此LTP貢獻。
- 將此重新按比例調整之LTP貢獻與LTP輸入信號相加以產生LTP輸出信號。
關於執行LTP延遲緩衝器更新的時間,可考慮不同方法:作為使用來自最後訊框n-1之輸出的在訊框n中之第一LTP操作。此更新了在訊框n中的LTP處理的過程中待使用的在訊框n中之LTP延遲緩衝器。
作為使用來自當前訊框n之輸出的在訊框n中之最後LTP操作。此更新了在訊框n+1中的LTP處理的過程中待使用的在訊框n中之LTP延遲緩衝器。
在下文中,考慮TCX LTP回饋迴路之解耦。
解耦TCX LTP回饋迴路避免了在處於隱藏模式中時在LTP解碼器之每一回饋迴路的過程中額外雜訊之引入(由應用於LPT輸入信號之雜訊替換產生)。
圖10說明此解耦。特定言之,圖10描繪在隱藏的過程中之LTP回饋迴路之解耦(bfi=1)。
圖10說明延遲緩衝器1020、樣本選擇器1030及樣本處理器1040(樣本處理器1040由虛線指示)。
到執行ILTP延遲緩衝器1020更新的時間,一些實施例如下繼續進行:- 對於正常操作:按第一LTP操作更新LTP延遲緩衝器 1020可能為較佳的,因為通常持續地儲存經求和之輸出信號。藉由此方法,可省略專用緩衝器。
- 對於解耦操作:按最後LTP操作更新LTP延遲緩衝器1020可能為較佳的,因為通常僅暫時地儲存對信號之LTP貢獻。藉由此方法,保留了暫時性LTP貢獻信號。就實施而言,完全可使此LTP貢獻緩衝器為持續性的。
假設在任何狀況下使用後一方法(正常操作及隱藏),實施例可例如實施以下情形:- 在正常操作的過程中:LTP解碼器的時域信號輸出在添加至LTP輸入信號之後被用以對LTP延遲緩衝器進行饋送。
- 在隱藏的過程中:LTP解碼器的時域信號輸出在添加至LTP輸入信號之前被用以對LTP延遲緩衝器進行饋送。
一些實施例使TCX LTP增益朝向零淡化。在此實施例中,TCX LTP增益可例如按某一信號適應性淡出因數朝向零淡化。例如,此情形可例如根據以下偽碼迭代地進行:gain=gain_past * damping; [...] gain_past=gain;其中:gain為在當前訊框中應用之TCX LTP解碼器增益;gain_past為在先前訊框中應用之TCX LTP解碼器增益;damping為(相對)淡出因數。
圖1d說明根據另一實施例之裝置,其中裝置進一步包含長期預測單元170,該長期預測單元包含延遲緩衝器 180。長期預測單元170經組配以取決於第二音訊信號部分、取決於儲存於延遲緩衝器180中之延遲緩衝器輸入及取決於長期預測增益而產生經處理信號。此外,長期預測單元經組配以在複數個訊框中之該第三訊框不由接收介面110接收的情況下或在該第三訊框由接收介面110接收但被損毀的情況下使長期預測增益朝向零淡化。
在其他實施例中(未圖示),長期預測單元可例如經組配以取決於第一音訊信號部分、取決於儲存於延遲緩衝器中之延遲緩衝器輸入及取決於長期預測增益而產生經處理信號。
在圖1d中,此外,第一重建構單元140可例如取決於經處理信號產生第三音訊信號部分。
在一實施例中,長期預測單元170可例如經組配以使長期預測增益朝向零淡化,其中長期預測增益淡化至零之速度取決於淡出因數。
替代性地或另外,長期預測單元170可例如經組配以在複數個訊框中之該第三訊框不由接收介面110接收的情況下或在該第三訊框由接收介面110接收但被損毀的情況下藉由將所產生之經處理信號儲存於延遲緩衝器180中來更新延遲緩衝器180輸入。
關於TCX LTP之上文所描述之使用,由圖13說明更一般實施例。
圖13說明用於解碼經編碼音訊信號以獲得經重建構音訊信號之裝置。
裝置包含用於接收複數個訊框之接收介面1310、用於儲存經解碼音訊信號之音訊信號樣本的延遲緩衝器1320、用於自儲存於延遲緩衝器1320中之音訊信號樣本選擇複數個選定音訊信號樣本的樣本選擇器1330及用於處理選定音訊信號樣本以獲得經重建構音訊信號之經重建構音訊信號樣本的樣本處理器1340。
樣本選擇器1330經組配以在當前訊框由接收介面1310接收的情況下及在由接收介面1310接收之當前訊框未被損毀的情況下取決於由當前訊框包含之音高滯後資訊自儲存於延遲緩衝器1320中的音訊信號樣本選擇複數個選定音訊信號樣本。此外,樣本選擇器1330經組配以在當前訊框不由接收介面1310接收的情況下或在由接收介面1310接收之當前訊框被損毀的情況下取決於由先前由接收介面1310所接收之另一訊框所包含的音高滯後資訊自儲存於延遲緩衝器1320中之音訊信號樣本選擇複數個選定音訊信號樣本。
根據實施例,樣本處理器1340可例如經組配以在當前訊框由接收介面1310接收的情況下及在由接收介面1310接收之當前訊框未被損毀的情況下藉由取決於由當前訊框所包含之增益資訊重新按比例調整選定音訊信號樣本而獲得經重建構音訊信號樣本。此外,樣本選擇器1330可例如經組配以在當前訊框不由接收介面1310接收的情況下或在由接收介面1310接收之當前訊框被損毀的情況下藉由取決於由先前由接收介面1310所接收之該另一訊框所包含 的增益資訊重新按比例調整選定音訊信號樣本而獲得經重建構音訊信號樣本。
在一實施例中,樣本處理器1340可例如經組配以在當前訊框由接收介面1310接收的情況下及在由接收介面1310接收之當前訊框未被損毀的情況下藉由將選定音訊信號樣本與取決於由當前訊框所包含之增益資訊的值相乘而獲得經重建構音訊信號樣本。此外,樣本選擇器1330經組配以在當前訊框不由接收介面1310接收的情況下或在由接收介面1310接收之當前訊框被損毀的情況下藉由將選定音訊信號樣本與取決於由先前由接收介面1310所接收之該另一訊框所包含的增益資訊的值相乘而獲得經重建構音訊信號樣本。
根據實施例,樣本處理器1340可例如經組配以將經重建構音訊信號樣本儲存於延遲緩衝器1320中。
在一實施例中,樣本處理器1340可例如經組配以在由接收介面1310接收另一訊框之前將經重建構音訊信號樣本儲存於延遲緩衝器1320中。
根據實施例,樣本處理器1340可例如經組配以在由接收介面1310接收另一訊框之後將經重建構音訊信號樣本儲存於延遲緩衝器1320中。
在一實施例中,樣本處理器1340可例如經組配以取決於增益資訊來重新按比例調整選定音訊信號樣本以獲得重新按比例調整之音訊信號樣本及藉由組合重新按比例調整之音訊信號樣本與輸入音訊信號樣本以獲得經處理音 訊信號樣本。
根據實施例,樣本處理器1340可例如經組配以在當前訊框由接收介面1310接收的情況下及在由接收介面1310接收之當前訊框未被損毀的情況下,將指示重新按比例調整之音訊信號樣本與輸入音訊信號樣本的組合之經處理音訊信號樣本儲存於延遲緩衝器1320中,且不將重新按比例調整之音訊信號樣本儲存於延遲緩衝器1320中。此外,樣本處理器1340經組配以在當前訊框不由接收介面1310接收的情況下或在由接收介面1310接收之當前訊框被損毀的情況下將重新按比例調整之音訊信號樣本儲存於延遲緩衝器1320中,且不將經處理音訊信號樣本儲存於延遲緩衝器1320中。
根據另一實施例,樣本處理器1340可例如經組配以在當前訊框不由接收介面1310接收的情況下或在由接收介面1310接收之當前訊框被損毀的情況下將經處理音訊信號樣本儲存於延遲緩衝器1320中。
在一實施例中,樣本選擇器1330可例如經組配以藉由取決於經修改增益重新按比例調整選定音訊信號樣本而獲得經重建構音訊信號樣本,其中經修改增益係根據如下公式來定義的:gain=gain_past * damping; 其中gain為經修改增益,其中樣本選擇器1330可例如經組配以在gain已被計算之後將gain_past設定為gain,且其中damping為實數。
根據實施例,樣本選擇器1330可例如經組配以計算經修改增益。
在一實施例中,damping可例如根據下式來定義:0<damping<1。
根據實施例,在自上一次訊框由接收介面1310接收以來至少預定義數目的訊框尚未由接收介面1310接收的情況下,經修改增益gain可例如被設定為零。
在下文中,考慮淡出速度。存在應用某一種類之淡出的若干隱藏模組。雖然此淡出之速度可能在彼等模組中被不同地進行選擇,但對於一個核心(ACELP或TCX)之所有隱藏模組使用相同淡出速度係有益的。舉例而言:
對於ACELP,特定言之,針對適應性碼簿(藉由更改增益)及/或針對革新碼簿信號(藉由更改增益),應使用相同淡出速度。
又,對於TCX,特定言之,針對時域信號及/或針對LTP增益(淡化至零)及/或針對LPC加權(淡化至一)及/或針對LP係數(淡化至背景頻譜形狀)及/或針對至白雜訊之交叉淡化,應使用相同淡出速度。
針對ACELP及TCX亦使用相同淡出速度可能進一步為較佳的,但歸因於核心之不同性質,亦可能選擇使用不同淡出速度。
此淡出速度可能為靜態的,但較佳地適應於信號特性。舉例而言,淡出速度可例如取決於LPC穩定性因數(TCX)及/或分類及/或連續丟失訊框之數目。
淡出速度可例如取決於衰減因數來判定,該衰減因數可能被絕對地或相對地給出,且亦可能在某一淡出的過程中隨時間之流逝而改變。
在實施例中,對於LTP增益淡化使用與白雜訊淡化相同的淡化速度。
已提供用於產生如上文所描述之舒緩雜訊信號之裝置、方法及電腦程式。
儘管已在裝置之上下文中描述一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,在方法步驟之上下文中所描述之態樣亦表示對應裝置之對應區塊或項目或特徵的描述。
本發明之經分解信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或軟體實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該等電子可讀控制信號與可程式化電腦系統協作(或能夠協作)以使得執行各別方法。
根據本發明之一些實施例包含具有電子可讀控制信號之非暫時性資料載體,該等電子可讀控制信號能夠與可程式化電腦系統協作,使得執行本文中所描述之方法 中的一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品執行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中的一者的電腦程式。
換言之,因此,本發明方法之實施例為具有程式碼之電腦程式,當電腦程式執行於電腦上時,該程式碼用於執行本文中所描述之方法中的一者。
因此,本發明方法之另一實施例為包含記錄於其上的,用於執行本文中所描述之方法中的一者的電腦程式之資料載體(或數位儲存媒體,或電腦可讀媒體)。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者的電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通信連接(例如,經由網際網路)而傳送。
另一實施例包含經組配或經調適以執行本文中所描述之方法中的一者的處理構件,例如,電腦或可程式化邏輯器件。
另一實施例包含安裝有用於執行本文中所描述之方法中的一者的電腦程式之電腦。
在一些實施例中,可程式化邏輯器件(例如,場可程式化閘陣列)可用於執行本文中所描述之方法的功能 性中之一些或所有。在一些實施例中,場可程式化閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。大體而言,較佳地由任何硬體裝置執行該等方法。
上文所描述之實施例僅僅說明本發明之原理。應理解,熟習此項技術者將顯而易見對本文中所描述之配置及細節的修改及變化。因此,僅意欲由接下來之申請專利範圍之範疇限制,而非由以描述及解釋本文中實施例之方式呈現的特定細節限制。
參考文獻
[3GP09a] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP09b] Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304, 3rd Generation Partnership Project, 2009.
[3GP09c] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, 3rd Generation Partnership Project, 2009.
[3GP12a] Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, Sep 2012.
[3GP12b] Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090, 3rd Generation Partnership Project, Sep 2012. [3GP12c] , ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3GPP TS 26.173, 3rd Generation Partnership Project, Sep 2012.
[3GP12d] ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (releasell), 3GPP TS 26.104, 3rd Generation Partnership Project, Sep 2012.
[3GP12e] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, Sep 2012.
[3GP12f] Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code, 3GPP TS 26.204, 3rd Generation Partnership Project, 2012.
[3GP12g] Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012.
[BJH06] I. Batina, J. Jensen, and R. Heusdens, Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3 (2006), 1064-1067.
[BP06] A. Borowicz and A. Petrovsky, Minima controlled noise estimation for klt-based speech enhancement, CD-ROM, 2006, Italy, Florence.
[Coh03] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Process. 11 (2003), no. 5, 466-475.
[CPK08] Choong Sang Cho, Nam In Park, and Hong Kook Kim, A packet loss concealment algorithm robust to burst packet loss for celp- type speech coders, Tech. report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC 2008).
[Dob95] G. Doblinger, Computationally efficient speech enhancement by spectral minima tracking in subbands, in Proc. Eurospeech (1995), 1513-1516.
[EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio, ETSI TS 102 563, European Broadcasting Union, May 2010.
[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.
[EH08]Jan S. Erkelens and Richards Heusdens, Tracking of Nonstationary Noise Based on Data-Driven Recursive Noise Power Estimation, Audio, Speech, and Language Processing, IEEE Transactions on 16 (2008), no. 6, 1112 -1123.
[EM84] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 32 (1984), no. 6, 1109-1121.
[EM85] Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 33 (1985), 443-445.
[Gan05] S. Gannot, Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework), Springer, 2005.
[HE95]H. G. Hirsch and C. Ehrlicher, Noise estimation techniques for robust speech recognition, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 153-156, IEEE, 1995.
[HHJ10] Richard C. Hendriks, Richard Heusdens, and Jesper Jensen, MMSE based noise PSD tracking with low complexity, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on, Mar 2010, pp. 4266 -4269.
[HJH08] Richard C. Hendriks, Jesper Jensen, and Richard Heusdens, Noise tracking using dft domain subspace decompositions, IEEE Trans. Audio, Speech, Lang. Process. 16 (2008), no. 3, 541-553.
[IET12] IETF, Definition of the Opus Audio Codec, Tech. Report RFC 6716, Internet Engineering Task Force, Sep 2012.
[ISO09] ISO/IEC JTC1/SC29/WG11, Information technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
[ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003.
[ITU05] Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss, Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, May 2005.
[ITU06a] G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, Nov 2006.
[ITU06b] G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006.
[ITU07] G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, Aug 2007.
[ITU08a] G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008.
[ITU08b] G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008.
[ITU12] G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012.
[LS01] Pierre Lauber and Ralph Sperschneider, Error concealment for compressed digital audio, Audio Engineering Society Convention 111, no. 5460, Sep 2001.
[Mar01] Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512.
[Mar03] Statistical methods for the enhancement of noisy speech, International Workshop on Acoustic Echo and Noise Control (IWAENC2003), Technical University of Braunschweig, Sep 2003.
[MC99] R. Martin and R. Cox, New speech enhancement techniques for low bit rate speech coding, in Proc. IEEE Workshop on Speech Coding (1999), 165-167.
[MCA99] D. Malah, R. V. Cox, and A. J. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments, Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing (1999), 789-792.
[MEP01] Nikolaus Meine, Bernd Edler, and Heiko Purnhagen, Error protection and concealment for HILN MPEG-4 parametric audio coding, Audio Engineering Society Convention 110, no. 5300, May 2001.
[MPC89] Y. Mahieux, J.-P. Petit, and A. Charbonnier, Transform coding of audio signals using correlation between successive transform blocks, Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, pp. 2021-2024 vol.3.
[NMR+12] Max Neuendorf, Markus Multrus, Nikolaus Rettelbach, Guillaume Fuchs, Julien Robilliard, Jérémie Lecomte, Stephan Wilde, Stefan Bayer, Sascha Disch, Christian Helmrich, Roch Lefebvre, Philippe Gournay, Bruno Bessette, Jimmy Lapierre, Kristopfer Kjörling, Heiko Purnhagen, Lars Villemoes, Werner Oomen, Erik Schuijers, Kei Kikuiri, Toru Chinen, Takeshi Norimatsu, Chong Kok Seng, Eunmi Oh, Miyoung Kim, Schuyler Quackenbush, and Berndhard Grill, MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types, Convention Paper 8654, AES, April 2012, Presented at the 132nd Convention Budapest, Hungary.
[PKJ+11] Nam In Park, Hong Kook Kim, Min A Jung, Seong Ro Lee, and Seung Ho Choi, Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks, Sensors 11 (2011), 5323-5336.
[QD03]Schuyler Quackenbush and Peter F. Driessen, Error mitigation in MPEG-4 audio packet communication systems, Audio Engineering Society Convention 115, no. 5981, Oct 2003.
[RL06] S. Rangachari and P. C. Loizou, A noise-estimation algorithm for highly non-stationary environments, Speech Commun. 48 (2006), 220-231.
[SFB00] V. Stahl, A. Fischer, and R. Bippus, Quantile based noise estimation for spectral subtraction and wiener filtering, in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (2000), 1875-1878.
[SS98] J. Sohn and W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 365-368, IEEE, 1998.
[Yu09] Rongshan Yu, A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction, Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, Apr 2009, pp. 4421-4424.
1210‧‧‧接收介面
1220‧‧‧處理器

Claims (20)

  1. 一種用於解碼一經編碼音訊信號以獲得一經重建構音訊信號之裝置,其中該裝置包含:一接收介面,其用於接收包含關於該經編碼音訊信號之一音訊信號頻譜之複數個音訊信號樣本的資訊之一或多個訊框,以及一處理器,其用於產生該經重建構音訊信號,其中該處理器經組配以在一當前訊框不由該接收介面接收的情況下或在該當前訊框由該接收介面接收但被損毀的情況下藉由將一經修改頻譜淡化至一目標頻譜來產生該經重建構音訊信號,其中該經修改頻譜包含複數個經修改信號樣本,其中針對該經修改頻譜之該等經修改信號樣本中的每一者,該經修改信號樣本之一絕對值等於該音訊信號頻譜之該等音訊信號樣本中之一者的一絕對值,且其中該處理器經組配以在該一或多個訊框中之該當前訊框由該接收介面接收的情況下及在由該接收介面接收之該當前訊框未被損毀的情況下不將該經修改頻譜淡化至該目標頻譜。
  2. 如請求項1之裝置,其中該目標頻譜為一類似雜訊之頻譜。
  3. 如請求項2之裝置,其中該類似雜訊之頻譜表示白雜訊。
  4. 如請求項2之裝置,其中該類似雜訊之頻譜經成形。
  5. 如請求項4之裝置,其中該類似雜訊之頻譜之該形狀取決於一先前接收之信號的一音訊信號頻譜。
  6. 如請求項4之裝置,其中該類似雜訊之頻譜取決於該音訊信號頻譜之該形狀而成形。
  7. 如請求項4之裝置,其中該處理器使用一傾斜因數使該類似雜訊之頻譜成形。
  8. 如請求項7之裝置,其中該處理器使用以下公式:shaped_noise[i] = noise * power(tilt_factor,i/N)其中N指示樣本之數目,其中i為一索引,其中0<=i<N,其中tilt_factor>0,且其中power為一功率函數。
  9. 如請求項1之裝置,其中該處理器經組配以在該當前訊框不由該接收介面接收的情況下或在由該接收介面接收之該當前訊框被損毀的情況下藉由改變該音訊信號頻譜之該等音訊信號樣本中的一或多者之一正負號來產生該經修改頻譜。
  10. 如請求項1之裝置,其中該音訊信號頻譜之該等音訊信號樣本中之每一者由一實數但不由一虛數表示。
  11. 如請求項1之裝置,其中該音訊信號頻譜之該等音訊信號樣本被表示於一經修改離散餘弦變換域中。
  12. 如請求項1之裝置,其中該音訊信號頻譜之該等音訊信號樣本被表示於一經修改離散正弦變換域中。
  13. 如請求項9之裝置,其中該處理器經組配以藉由使用隨 機或偽隨機輸出一第一值抑或一第二值之一隨機正負號函數產生該經修改頻譜。
  14. 如前述請求項1之裝置,其中該處理器經組配以藉由隨後減少一衰減因數將該經修改頻譜淡化至該目標頻譜。
  15. 如請求項1之裝置,其中該處理器經組配以藉由隨後增加一衰減因數將該經修改頻譜淡化至該目標頻譜。
  16. 如請求項1之裝置,其中在該當前訊框不由該接收介面接收的情況下或在由該接收介面接收之該當前訊框被損毀的情況下,該處理器經組配以藉由使用以下公式產生該經重建構音訊信號:x[i] = (1-cum_damping) * noise[i] + cum_damping * random_sign() * x_old[i]其中i為一索引,其中x[i]指示該經重建構音訊信號之一樣本,其中cum_damping為一衰減因數,其中x_old[i]指示該經編碼音訊信號之該音訊信號頻譜的該等音訊信號樣本中之一者,其中random_sign()傳回1或-1,且其中noise為指示該目標頻譜之一隨機向量。
  17. 如請求項16之裝置,其中按比例調整該隨機向量noise以使得其二次均值類似於由已由該接收介面接收之該等訊框中之一者所包含的該經編碼音訊信號之該頻譜之該二次均值。
  18. 如請求項1之裝置,其中該處理器經組配以藉由使用一 隨機向量產生該經重建構音訊信號,按比例調整該隨機向量以使得其二次均值類似於由已由該接收介面接收之該等訊框中之一者所包含的該經編碼音訊信號之該頻譜之該二次均值。
  19. 一種用於解碼一經編碼音訊信號以獲得一經重建構音訊信號之方法,其中該方法包含:接收包含關於該經編碼音訊信號之一音訊信號頻譜之複數個音訊信號樣本的資訊之一或多個訊框,以及產生該經重建構音訊信號,其中在一當前訊框未被接收的情況下或在該當前訊框被接收但被損毀的情況下藉由將一經修改頻譜淡化至一目標頻譜進行產生該經重建構音訊信號,其中該經修改頻譜包含複數個經修改信號樣本,其中對於該經修改頻譜之該等經修改信號樣本中之每一者,該經修改信號樣本之一絕對值等於該音訊信號頻譜之該等音訊信號樣本中的一者之一絕對值,且其中在該一或多個訊框中之該當前訊框被接收的情況下及在所接收之該當前訊框未被損毀的情況下藉由不將該經修改頻譜淡化至該目標頻譜進行產生該經重建構音訊信號。
  20. 一種用於在執行於一電腦或信號處理器上時實施如請求項19之方法之電腦程式。
TW103121596A 2013-06-21 2014-06-23 用於將經編碼音訊信號解碼以獲得經重構音訊信號之裝置及方法與相關電腦程式 TWI569262B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13173154 2013-06-21
EP14166998 2014-05-05

Publications (2)

Publication Number Publication Date
TW201508740A TW201508740A (zh) 2015-03-01
TWI569262B true TWI569262B (zh) 2017-02-01

Family

ID=50981527

Family Applications (5)

Application Number Title Priority Date Filing Date
TW103121599A TWI553631B (zh) 2013-06-21 2014-06-23 用於解碼音訊信號之裝置與方法,以及相關電腦程式
TW103121598A TWI575513B (zh) 2013-06-21 2014-06-23 用以解碼一經編碼音訊信號以獲得一經重建構音訊信號之裝置及方法、以及相關電腦程式
TW103121590A TWI564884B (zh) 2013-06-21 2014-06-23 用以改良在錯誤消除期間於不同域之信號衰減之裝置及方法、以及相關電腦程式
TW103121596A TWI569262B (zh) 2013-06-21 2014-06-23 用於將經編碼音訊信號解碼以獲得經重構音訊信號之裝置及方法與相關電腦程式
TW103121601A TWI587290B (zh) 2013-06-21 2014-06-23 用以生成舒緩雜訊適應性頻譜形狀的裝置及方法、以及相關電腦程式

Family Applications Before (3)

Application Number Title Priority Date Filing Date
TW103121599A TWI553631B (zh) 2013-06-21 2014-06-23 用於解碼音訊信號之裝置與方法,以及相關電腦程式
TW103121598A TWI575513B (zh) 2013-06-21 2014-06-23 用以解碼一經編碼音訊信號以獲得一經重建構音訊信號之裝置及方法、以及相關電腦程式
TW103121590A TWI564884B (zh) 2013-06-21 2014-06-23 用以改良在錯誤消除期間於不同域之信號衰減之裝置及方法、以及相關電腦程式

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW103121601A TWI587290B (zh) 2013-06-21 2014-06-23 用以生成舒緩雜訊適應性頻譜形狀的裝置及方法、以及相關電腦程式

Country Status (19)

Country Link
US (15) US9978376B2 (zh)
EP (5) EP3011563B1 (zh)
JP (5) JP6201043B2 (zh)
KR (5) KR101788484B1 (zh)
CN (9) CN105359210B (zh)
AU (5) AU2014283124B2 (zh)
BR (2) BR112015031180B1 (zh)
CA (5) CA2913578C (zh)
ES (5) ES2639127T3 (zh)
HK (5) HK1224009A1 (zh)
MX (5) MX347233B (zh)
MY (5) MY181026A (zh)
PL (5) PL3011557T3 (zh)
PT (5) PT3011558T (zh)
RU (5) RU2675777C2 (zh)
SG (5) SG11201510353RA (zh)
TW (5) TWI553631B (zh)
WO (5) WO2014202789A1 (zh)
ZA (1) ZA201600310B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015031180B1 (pt) * 2013-06-21 2022-04-05 Fraunhofer- Gesellschaft Zur Förderung Der Angewandten Forschung E.V Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
CA2998689C (en) 2015-09-25 2021-10-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding
WO2017153300A1 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
MX2018010754A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio y método relacionado y programa de computadora que desaparece una trama de audio ocultada de acuerdo con factores de amortiguamiento diferentes para bandas de frecuencia diferentes.
KR102158743B1 (ko) * 2016-03-15 2020-09-22 한국전자통신연구원 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법
TWI602173B (zh) * 2016-10-21 2017-10-11 盛微先進科技股份有限公司 音訊處理方法與非暫時性電腦可讀媒體
CN108074586B (zh) * 2016-11-15 2021-02-12 电信科学技术研究院 一种语音问题的定位方法和装置
US10339947B2 (en) * 2017-03-22 2019-07-02 Immersion Networks, Inc. System and method for processing audio data
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN109427337B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
TWI657437B (zh) * 2018-05-25 2019-04-21 英屬開曼群島商睿能創意公司 電動載具以及播放、產生與其相關音頻訊號之方法
EP3821430A1 (en) * 2018-07-12 2021-05-19 Dolby International AB Dynamic eq
CN109117807B (zh) * 2018-08-24 2020-07-21 广东石油化工学院 一种plc通信信号自适应时频峰值滤波方法及系统
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
WO2020165265A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN110265046A (zh) * 2019-07-25 2019-09-20 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
JP7314414B2 (ja) 2019-12-02 2023-07-25 グーグル エルエルシー シームレスなオーディオ混合のための方法、システム、および媒体
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127617A1 (en) * 2009-05-05 2010-11-11 Huawei Technologies Co., Ltd. Methods for receiving digital audio signal using processor and correcting lost data in digital audio signal
EP2360682A1 (en) * 2010-01-29 2011-08-24 Polycom, Inc. Audio packet loss concealment by transform interpolation

Family Cites Families (171)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5097507A (en) 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5148487A (en) * 1990-02-26 1992-09-15 Matsushita Electric Industrial Co., Ltd. Audio subband encoded signal decoder
TW224191B (zh) 1992-01-28 1994-05-21 Qualcomm Inc
US5271011A (en) 1992-03-16 1993-12-14 Scientific-Atlanta, Inc. Digital audio data muting system and method
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP3328080B2 (ja) 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
KR970011728B1 (ko) * 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
SE9500858L (sv) * 1995-03-10 1996-09-11 Ericsson Telefon Ab L M Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JP3157116B2 (ja) 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US6075974A (en) * 1996-11-20 2000-06-13 Qualcomm Inc. Method and apparatus for adjusting thresholds and measurements of received signals by anticipating power control commands yet to be executed
JP3649854B2 (ja) * 1997-05-09 2005-05-18 松下電器産業株式会社 音声符号化装置
CN1243621A (zh) * 1997-09-12 2000-02-02 皇家菲利浦电子有限公司 具有改进的丢失部分重构功能的传输系统
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
ATE302991T1 (de) 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6661793B1 (en) * 1999-01-19 2003-12-09 Vocaltec Communications Ltd. Method and apparatus for reconstructing media
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6377915B1 (en) 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
WO2000057399A1 (fr) 1999-03-19 2000-09-28 Sony Corporation Procede d'inclusion d'information additionnelle et dispositif a cet effet, et procede de decodage d'information additionnelle et dispositif a cet effet
DE60029715T2 (de) * 1999-04-19 2007-08-02 At & T Corp. Verfahren und anordnung zur verschleierung von rahmenausfall
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
US6284551B1 (en) * 1999-06-14 2001-09-04 Hyundai Electronics Industries Co., Ltd. Capacitor and method for fabricating the same
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6826527B1 (en) 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
EP1238489B1 (en) * 1999-12-13 2008-03-05 Broadcom Corporation Voice gateway with downstream voice synchronization
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
FI115329B (fi) 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7171355B1 (en) 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US6520762B2 (en) 2001-02-23 2003-02-18 Husky Injection Molding Systems, Ltd Injection unit
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7379865B2 (en) 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
KR100935961B1 (ko) * 2001-11-14 2010-01-08 파나소닉 주식회사 부호화 장치 및 복호화 장치
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP2005515486A (ja) 2002-01-08 2005-05-26 ディリチウム ネットワークス ピーティーワイ リミテッド Celpによる音声符号間のトランスコーディング・スキーム
US20030162518A1 (en) 2002-02-22 2003-08-28 Baldwin Keith R. Rapid acquisition and tracking system for a wireless packet-based communication device
US7492703B2 (en) 2002-02-28 2009-02-17 Texas Instruments Incorporated Noise analysis in a communication system
JP2005520206A (ja) * 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7174292B2 (en) 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置
KR100486732B1 (ko) * 2003-02-19 2005-05-03 삼성전자주식회사 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치
US20040202935A1 (en) * 2003-04-08 2004-10-14 Jeremy Barker Cathode active material with increased alkali/metal content and method of making same
WO2004098105A1 (en) 2003-04-30 2004-11-11 Nokia Corporation Support of a multichannel audio extension
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7224810B2 (en) 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
ATE523876T1 (de) * 2004-03-05 2011-09-15 Panasonic Corp Fehlerverbergungseinrichtung und fehlerverbergungsverfahren
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US7454332B2 (en) 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
KR101168002B1 (ko) 2004-09-16 2012-07-26 프랑스 텔레콤 잡음 신호 처리 방법 및 상기 방법을 구현하기 위한 장치
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
KR101244232B1 (ko) 2005-05-27 2013-03-18 오디언스 인코포레이티드 오디오 신호 분석 및 변경을 위한 시스템 및 방법
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
KR100686174B1 (ko) * 2005-05-31 2007-02-26 엘지전자 주식회사 오디오 에러 은닉 방법
JP4536621B2 (ja) * 2005-08-10 2010-09-01 株式会社エヌ・ティ・ティ・ドコモ 復号装置、および復号方法
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
CN101268506B (zh) * 2005-09-01 2011-08-03 艾利森电话股份有限公司 处理编码实时数据的设备和方法
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
CN1983909B (zh) 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8255213B2 (en) * 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
CN101361113B (zh) * 2006-08-15 2011-11-30 美国博通公司 丢包后的约束和受控解码
US8000960B2 (en) * 2006-08-15 2011-08-16 Broadcom Corporation Packet loss concealment for sub-band predictive coding based on extrapolation of sub-band audio waveforms
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
EP2080194B1 (fr) 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8275611B2 (en) 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP5198477B2 (ja) 2007-03-05 2013-05-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 定常的な背景雑音の平滑化を制御するための方法及び装置
DE102007018484B4 (de) 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
EP1973254B1 (en) * 2007-03-22 2009-07-15 Research In Motion Limited Device and method for improved lost frame concealment
US8014519B2 (en) 2007-04-02 2011-09-06 Microsoft Corporation Cross-correlation based echo canceller controllers
EP1981170A1 (en) * 2007-04-13 2008-10-15 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
JP5023780B2 (ja) * 2007-04-13 2012-09-12 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
CN101325537B (zh) 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
US8489396B2 (en) 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US20090055171A1 (en) * 2007-08-20 2009-02-26 Broadcom Corporation Buzz reduction for low-complexity frame erasure concealment
US20090154726A1 (en) 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101141644B (zh) * 2007-10-17 2010-12-08 清华大学 编码集成系统和方法与解码集成系统和方法
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
BRPI0818927A2 (pt) 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
WO2009110738A2 (ko) * 2008-03-03 2009-09-11 엘지전자(주) 오디오 신호 처리 방법 및 장치
FR2929466A1 (fr) 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2120412A1 (en) 2008-05-14 2009-11-18 SIDSA (Semiconductores Investigación) Y Diseño SA System and transceiver for DSL communications based on single carrier modulation, with efficient vectoring, capacity approaching channel coding structure and preamble insertion for agile channel adaption
US8737501B2 (en) 2008-06-13 2014-05-27 Silvus Technologies, Inc. Interference mitigation for devices with multiple receivers
ES2558229T3 (es) * 2008-07-11 2016-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas
ES2683077T3 (es) 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
MY159110A (en) * 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
PT2410521T (pt) * 2008-07-11 2018-01-09 Fraunhofer Ges Forschung Codificador de sinal de áudio, método para gerar um sinal de áudio e programa de computador
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
EP2339577B1 (en) 2008-09-18 2018-03-21 Electronics and Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder
KR101622950B1 (ko) 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8676573B2 (en) 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
EP2460158A4 (en) * 2009-07-27 2013-09-04 METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
MY163358A (en) 2009-10-08 2017-09-15 Fraunhofer-Gesellschaft Zur Förderung Der Angenwandten Forschung E V Multi-mode audio signal decoder,multi-mode audio signal encoder,methods and computer program using a linear-prediction-coding based noise shaping
EP2489041B1 (en) 2009-10-15 2020-05-20 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
US9076439B2 (en) * 2009-10-23 2015-07-07 Broadcom Corporation Bit error management and mitigation for sub-band coding
US9020812B2 (en) 2009-11-24 2015-04-28 Lg Electronics Inc. Audio signal processing method and device
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN101763859A (zh) 2009-12-16 2010-06-30 深圳华为通信技术有限公司 音频数据处理方法、装置和多点控制单元
US9008329B1 (en) * 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8000968B1 (en) * 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
CN101937679B (zh) * 2010-07-05 2012-01-11 展讯通信(上海)有限公司 音频数据帧的错误掩盖方法及音频解码装置
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
EP2458585B1 (en) * 2010-11-29 2013-07-17 Nxp B.V. Error concealment for sub-band coded audio signals
KR20120080409A (ko) 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US8983833B2 (en) 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
PL2661745T3 (pl) * 2011-02-14 2015-09-30 Fraunhofer Ges Forschung Urządzenie i sposób do ukrywania błędów w zunifikowanym kodowaniu mowy i audio
ES2540051T3 (es) * 2011-04-15 2015-07-08 Telefonaktiebolaget Lm Ericsson (Publ) Método y un decodificador para la atenuación de regiones de señal reconstruidas con baja precisión
TWI435138B (zh) 2011-06-20 2014-04-21 Largan Precision Co 影像拾取光學系統
JP5817366B2 (ja) 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
TWI585747B (zh) * 2011-10-21 2017-06-01 三星電子股份有限公司 訊框錯誤修補方法與裝置、音訊解碼方法與裝置
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
TWI606440B (zh) 2012-09-24 2017-11-21 三星電子股份有限公司 訊框錯誤隱藏裝置
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
EP2757559A1 (en) 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
AU2014211486B2 (en) * 2013-01-29 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling without side information for CELP-like coders
FR3004876A1 (fr) 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
BR112015031180B1 (pt) 2013-06-21 2022-04-05 Fraunhofer- Gesellschaft Zur Förderung Der Angewandten Forschung E.V Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto
US20150024355A1 (en) 2013-07-18 2015-01-22 Quitbit, Inc. Lighter and method for monitoring smoking behavior
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127617A1 (en) * 2009-05-05 2010-11-11 Huawei Technologies Co., Ltd. Methods for receiving digital audio signal using processor and correcting lost data in digital audio signal
EP2360682A1 (en) * 2010-01-29 2011-08-24 Polycom, Inc. Audio packet loss concealment by transform interpolation

Also Published As

Publication number Publication date
CA2914869A1 (en) 2014-12-24
US20160104489A1 (en) 2016-04-14
CA2915014A1 (en) 2014-12-24
EP3011557B1 (en) 2017-05-03
JP2016527541A (ja) 2016-09-08
US11501783B2 (en) 2022-11-15
PT3011557T (pt) 2017-07-25
RU2016101521A (ru) 2017-07-26
RU2675777C2 (ru) 2018-12-24
US10679632B2 (en) 2020-06-09
ZA201600310B (en) 2018-05-30
US20200258530A1 (en) 2020-08-13
US10607614B2 (en) 2020-03-31
PT3011559T (pt) 2017-10-30
RU2016101600A (ru) 2017-07-26
WO2014202784A1 (en) 2014-12-24
TWI553631B (zh) 2016-10-11
KR20160022364A (ko) 2016-02-29
EP3011563B1 (en) 2019-12-25
SG11201510508QA (en) 2016-01-28
RU2676453C2 (ru) 2018-12-28
CN105431903A (zh) 2016-03-23
SG11201510352YA (en) 2016-01-28
CN105359210B (zh) 2019-06-14
US20160111095A1 (en) 2016-04-21
US20210142809A1 (en) 2021-05-13
EP3011558B1 (en) 2017-07-26
MX351577B (es) 2017-10-18
KR20160022365A (ko) 2016-02-29
JP2016522453A (ja) 2016-07-28
PT3011563T (pt) 2020-03-31
HK1224424A1 (zh) 2017-08-18
MY181026A (en) 2020-12-16
CA2913578C (en) 2018-05-22
HK1224425A1 (zh) 2017-08-18
ES2644693T3 (es) 2017-11-30
RU2658128C2 (ru) 2018-06-19
JP6201043B2 (ja) 2017-09-20
PT3011558T (pt) 2017-10-05
TWI564884B (zh) 2017-01-01
US20160104497A1 (en) 2016-04-14
SG11201510519RA (en) 2016-01-28
CN105340007B (zh) 2019-05-31
US20180261230A1 (en) 2018-09-13
CN110265044B (zh) 2023-09-12
JP2016523381A (ja) 2016-08-08
CN110299147A (zh) 2019-10-01
CN110289005B (zh) 2024-02-09
ES2635027T3 (es) 2017-10-02
TW201508736A (zh) 2015-03-01
ES2780696T3 (es) 2020-08-26
CA2914869C (en) 2018-06-05
AU2014283198A1 (en) 2016-02-11
US9978377B2 (en) 2018-05-22
BR112015031606A2 (pt) 2017-07-25
AU2014283124A1 (en) 2016-02-11
PT3011561T (pt) 2017-07-25
AU2014283196A1 (en) 2016-02-11
ES2635555T3 (es) 2017-10-04
AU2014283123B2 (en) 2016-10-20
MY190900A (en) 2022-05-18
US20200258529A1 (en) 2020-08-13
MX347233B (es) 2017-04-19
US20160104487A1 (en) 2016-04-14
SG11201510353RA (en) 2016-01-28
US10854208B2 (en) 2020-12-01
CN110299147B (zh) 2023-09-19
EP3011561A1 (en) 2016-04-27
KR20160021295A (ko) 2016-02-24
PL3011559T3 (pl) 2017-12-29
KR101785227B1 (ko) 2017-10-12
US20180151184A1 (en) 2018-05-31
EP3011558A1 (en) 2016-04-27
US20180268825A1 (en) 2018-09-20
RU2016101605A (ru) 2017-07-26
EP3011557A1 (en) 2016-04-27
BR112015031178A2 (pt) 2017-07-25
US9997163B2 (en) 2018-06-12
SG11201510510PA (en) 2016-01-28
MX351576B (es) 2017-10-18
CA2914895A1 (en) 2014-12-24
WO2014202788A1 (en) 2014-12-24
PL3011557T3 (pl) 2017-10-31
EP3011561B1 (en) 2017-05-03
AU2014283123A1 (en) 2016-02-04
BR112015031178B1 (pt) 2022-03-22
KR101790902B1 (ko) 2017-10-26
AU2014283194B2 (en) 2016-10-20
PL3011563T3 (pl) 2020-06-29
US10867613B2 (en) 2020-12-15
CN105340007A (zh) 2016-02-17
EP3011563A1 (en) 2016-04-27
PL3011561T3 (pl) 2017-10-31
TW201508740A (zh) 2015-03-01
EP3011559B1 (en) 2017-07-26
PL3011558T3 (pl) 2017-12-29
BR112015031180B1 (pt) 2022-04-05
KR20160022363A (ko) 2016-02-29
JP2016532143A (ja) 2016-10-13
US20160104488A1 (en) 2016-04-14
CN105359209B (zh) 2019-06-14
MX2015016892A (es) 2016-04-07
AU2014283198B2 (en) 2016-10-20
CN110164459B (zh) 2024-03-26
TW201508739A (zh) 2015-03-01
MX2015018024A (es) 2016-06-24
HK1224076A1 (zh) 2017-08-11
BR112015031177A2 (pt) 2017-07-25
HK1224423A1 (zh) 2017-08-18
TW201508737A (zh) 2015-03-01
US11462221B2 (en) 2022-10-04
BR112015031180A2 (pt) 2017-07-25
ES2639127T3 (es) 2017-10-25
KR101787296B1 (ko) 2017-10-18
CN105378831B (zh) 2019-05-31
KR101788484B1 (ko) 2017-10-19
TWI575513B (zh) 2017-03-21
MY182209A (en) 2021-01-18
MX2015017126A (es) 2016-04-11
JP6214071B2 (ja) 2017-10-18
US20180308495A1 (en) 2018-10-25
MY170023A (en) 2019-06-25
JP6190052B2 (ja) 2017-08-30
MX351363B (es) 2017-10-11
AU2014283194A1 (en) 2016-02-04
CN110265044A (zh) 2019-09-20
CA2914895C (en) 2018-06-12
CA2916150C (en) 2019-06-18
US20210098003A1 (en) 2021-04-01
WO2014202790A1 (en) 2014-12-24
US10672404B2 (en) 2020-06-02
KR101790901B1 (ko) 2017-10-26
BR112015031343A2 (pt) 2017-07-25
MY187034A (en) 2021-08-27
TW201508738A (zh) 2015-03-01
WO2014202789A1 (en) 2014-12-24
CN110164459A (zh) 2019-08-23
EP3011559A1 (en) 2016-04-27
CN110289005A (zh) 2019-09-27
US9978376B2 (en) 2018-05-22
RU2666250C2 (ru) 2018-09-06
JP6196375B2 (ja) 2017-09-13
RU2016101604A (ru) 2017-07-26
CN105431903B (zh) 2019-08-23
CN105378831A (zh) 2016-03-02
RU2665279C2 (ru) 2018-08-28
US9978378B2 (en) 2018-05-22
WO2014202786A1 (en) 2014-12-24
JP6360165B2 (ja) 2018-07-18
AU2014283124B2 (en) 2016-10-20
HK1224009A1 (zh) 2017-08-11
CN105359209A (zh) 2016-02-24
AU2014283196B2 (en) 2016-10-20
US11776551B2 (en) 2023-10-03
KR20160022886A (ko) 2016-03-02
US9916833B2 (en) 2018-03-13
US20180233153A1 (en) 2018-08-16
CA2916150A1 (en) 2014-12-24
MX355257B (es) 2018-04-11
JP2016526704A (ja) 2016-09-05
TWI587290B (zh) 2017-06-11
CA2915014C (en) 2020-03-31
US20200312338A1 (en) 2020-10-01
CN105359210A (zh) 2016-02-24
CA2913578A1 (en) 2014-12-24
RU2016101469A (ru) 2017-07-24
MX2015017261A (es) 2016-09-22
US11869514B2 (en) 2024-01-09

Similar Documents

Publication Publication Date Title
TWI569262B (zh) 用於將經編碼音訊信號解碼以獲得經重構音訊信號之裝置及方法與相關電腦程式