TWI576828B - 使用決定性及類雜訊資訊編碼音訊信號及解碼音訊信號之技術槪念 - Google Patents
使用決定性及類雜訊資訊編碼音訊信號及解碼音訊信號之技術槪念 Download PDFInfo
- Publication number
- TWI576828B TWI576828B TW103135840A TW103135840A TWI576828B TW I576828 B TWI576828 B TW I576828B TW 103135840 A TW103135840 A TW 103135840A TW 103135840 A TW103135840 A TW 103135840A TW I576828 B TWI576828 B TW I576828B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- gain parameter
- frame
- information
- excitation signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 113
- 230000005284 excitation Effects 0.000 claims description 116
- 238000007493 shaping process Methods 0.000 claims description 68
- 238000000034 method Methods 0.000 claims description 53
- 230000003595 spectral effect Effects 0.000 claims description 39
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000000465 moulding Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000009987 spinning Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000001453 impedance spectrum Methods 0.000 description 1
- 238000009940 knitting Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本發明係關於用於編碼音訊信號(特定言之為語音相關音訊信號)之編碼器。本發明亦係關於用於解碼經編碼音訊信號之解碼器及方法。本發明進一步係關於經編碼音訊信號及低位元速率下之進階語音無聲寫碼。
在低位元速率下,語音寫碼可受益於對無聲訊框之特殊處置以便維持語音品質同時減少位元速率。無聲訊框可經感知地模型化為在頻率及時域兩者上經成形之隨機激勵。由於波形及激勵看起來及聽起來幾乎與高斯白雜訊相同,因此可由經合成產生白雜訊鬆弛並替換其波形寫碼。接著,寫碼將由寫碼信號之時間形狀及頻域形狀組成。
圖16展示參數無聲寫碼方案之示意性方塊圖。合成濾波器1202經組態以用於模型化聲道且由LPC(線性預測
性寫碼)參數參數化。可藉由加權LPC係數自包含濾波函數A(z)之所導出LPC濾波器導出感知加權濾波器。感知濾波器fw(n)通常具有如下形式之傳遞函數:
其中w小於1。根據如下方程式計算增益參數gn以用於獲得匹配感知域中之原始能量的合成能量:
其中sw(n)及nw(n)分別為由感知濾波器fw(n)所濾波之輸入信號及所產生雜訊。針對具有大小Ls之每一子訊框計算增益gn。舉例而言,可將音訊信號劃分成具有20ms之長度的訊框。可將每一訊框再分成子訊框,例如再分成各自包含5ms之長度的四個子訊框。
碼激勵線性預測(CELP)寫碼方案廣泛用於語音通信且為寫碼語音之極有效方式。相比參數寫碼,該寫碼方案給予較自然之語音品質但其亦請求較高速率。CELP藉由輸送將音訊信號合成至稱為可包含兩個激勵之和的形式1/A(z)的LPC合成濾波器之線性預測性濾波器。一個激勵係來自稱為自適應性碼簿之經解碼過去。另一貢獻係來自由固定碼所填入之革新碼簿。然而,在低位元速率下,革新碼簿未經充分填入以用於有效地模型化無聲語音或類雜訊激勵之精細結構。因此,感知品質降級,尤其為接著聽起來清脆且不自然之無聲訊框。
為降低低位元速率下之寫碼偽影,已提議不同解決方案。在G.718[1]及[2]中,藉由增強對應於當前訊框之共振峰的頻譜區而自適應性且頻譜地成形革新碼簿之碼。可直接自為編碼器側及解碼器側兩者處已可用之係數的LPC係數扣除共振峰位置及形狀。藉由根據如下方程式之簡單濾波而進行對碼c(n)之共振峰增強:c(n)* fe(n)
其中*表示卷積運算子,且其中fe(n)為傳遞函數之濾波的脈衝回應:
其中w1及w2為或多或少強調傳遞函數Ffe(z)之共振峰結構的兩個加權常數。所得之經成形碼繼承語音信號之特性且所合成信號聽起來較清晰。
在CELP中,將頻譜傾斜添加至革新碼簿之解碼器亦係常見的。藉由用以下濾波器濾波碼而進行此操作:Ft(z)=1-βz -1
因子β通常相關於先前訊框之發聲且視情況而定(亦即,其發生變化)。可自來自自適應性碼簿之能量貢獻估計發聲。若先前訊框係有聲的,則預期當前訊框將亦係有聲的且碼應在低頻率中具有較多能量(亦即,應展示負向傾斜)。相反地,對於無聲訊框所添加頻譜傾斜將係正向的且將朝向高頻率分佈較多能量。
使用頻譜成形以對解碼器之輸出進行語音增強
及雜訊減少為慣例。作為後濾波之所謂的共振峰增強由自解碼器之LPC參數導出係數的自適應性後濾波組成。後濾波器看起來類似於如上文所論述的用於成形某些CELP寫碼器中之革新激勵的一者(fe(n))。然而,在彼情況下,後濾波僅應用於解碼器程序之結束處而非編碼器側處。
在習知CELP(CELP=(碼)簿激勵線性預測)中,由LP(線性預測)合成濾波器模型化頻率形狀,而可由發送至每一子訊框之激勵增益近似時域形狀,但長期預測(LTP)及革新碼簿通常並不適於模型化無聲訊框之類雜訊激勵。CELP需要相對高之位元速率以用於到達無聲語音之良好品質。
有聲或無聲特性化可係相關於將語音分段成部分並將其中之每一者相關聯至語音之不同源模型。源模型在用於CELP語音寫碼方案時依賴於模擬自聲門出來之氣流的自適應性諧波激勵及模型化由所產生氣流激勵之聲道的諧振濾波器。此等模型可為類音素聲樂提供良好結果,但尤其當聲帶並未振動(諸如,無聲音素「S」或「f」)時,其可導致不正確地模型化並非由聲門所產生之語音部分。
另一方面,參數語音寫碼器亦被稱為聲碼器,並針對無聲訊框採用單一源模型。其可到達極低之位元速率同時實現並不與由CELP寫碼方案在高得多之速率下所遞送的品質一樣自然的所謂的合成品質。
因此,需要增強音訊信號。
本發明之一目標為在低位元速率下增加聲音品質及/或為實現良好聲音品質而減少位元速率。
藉由根據獨立請求項之一編碼器、一解碼器、一經編碼音訊信號及方法實現此目標。
本發明人發現在一第一態樣中,可藉由判定一語音相關成形資訊,使得可自該語音相關成形資訊導出用於放大信號之一增益參數資訊而增加(亦即,增強)相關於一經解碼音訊信號之一無聲訊框的該音訊信號之一品質。此外,一語音相關成形資訊可用於頻譜地成形一經解碼信號。因此可處理包含一較高語音重要性之頻率區(例如,低於4kHz之低頻率)使得其包含較少誤差。
本發明人進一步發現在一第二態樣中,藉由自用於一經合成信號之一訊框或子訊框(部分)的一決定性碼簿產生一第一激勵信號,且藉由自用於該經合成信號之該訊框或子訊框的一類雜訊信號產生一第二激勵信號,並藉由組合該第一激勵信號及該第二激勵信號以用於產生一經組合激勵信號,可增加(亦即,增強)該經合成信號之一聲音品質。尤其對於包含具有背景雜訊之一語音信號的一音訊信號之部分,可藉由添加類雜訊信號改良該聲音品質。可在該編碼器處判定用於視情況放大該第一激勵信號之一增益參數,且可將相關於該參數之一資訊與該經編碼音訊信號一起傳輸。
替代性地或另外,可至少部分利用所合成之該音
訊信號的該增強以用於減少用於編碼該音訊信號之位元速率。
根據該第一態樣之一種編碼器包含經組態以用於自該音訊信號之一訊框導出預測係數及一殘餘信號之一分析器。該編碼器進一步包含經組態以用於自該等預測係數計算一語音相關頻譜成形資訊之一共振峰資訊計算器。該編碼器進一步包含經組態以用於自一無聲殘餘信號及該頻譜成形資訊計算一增益參數之一增益參數計算器,及經組態以用於基於相關於一有聲信號訊框之一資訊、該增益參數或一經量化增益參數及該等預測係數形成一輸出信號之一位元串流成型機。
該第一態樣之進一步實施例提供一種經編碼音訊信號,其包含用於該音訊信號之一有聲訊框及一無聲訊框之一預測係數資訊、相關於該有聲信號訊框之又一資訊及用於該無聲訊框之一增益參數或一經量化增益參數。此情況允許有效地傳輸語音相關資訊以使得該經編碼音訊信號之一解碼能夠獲得具有一高音訊品質之一經合成(復原)信號。
該第一態樣之進一步實施例提供一種用於解碼包含預測係數之一所接收信號的解碼器。該解碼器包含一共振峰資訊計算器、一雜訊產生器、一成形器及一合成器。該共振峰資訊計算器經組態以用於自該等預測係數計算一語音相關頻譜成形資訊。該雜訊產生器經組態以用於產生一解碼類雜訊信號。該成形器經組態以用於使用該頻譜成
形資訊成形該解碼類雜訊信號或其一放大表示的一頻譜以獲得一經成形解碼類雜訊信號。該合成器經組態以用於自該經放大成形寫碼類雜訊信號及該等預測係數合成一經合成信號。
該第一態樣之進一步實施例係關於一種用於編碼一音訊信號之方法、一種用於解碼一所接收音訊信號之方法及一種電腦程式。
該第二態樣之實施例提供一種用於編碼一音訊信號之編碼器。該編碼器包含經組態以用於自該音訊信號之一無聲訊框導出預測係數及一殘餘信號的一分析器。該編碼器進一步包含經組態以用於針對該無聲訊框計算用於定義相關於一決定性碼簿之一第一激勵信號的一第一增益參數資訊,且用於計算用於定義相關於一類雜訊信號之一第二激勵信號的一第二增益參數資訊的一增益參數計算器。該編碼器進一步包含經組態以用於基於相關於一有聲信號訊框之一資訊、該第一增益參數資訊及該第二增益參數資訊形成一輸出信號之一位元串流成型機。
該第二態樣之進一步實施例提供一種用於解碼包含相關於預測係數之一資訊的一所接收音訊信號之解碼器。該解碼器包含經組態以用於自用於一經合成信號之一部分的一決定性碼簿產生一第一激勵信號之一第一信號產生器。該解碼器進一步包含經組態以用於自用於該經合成信號之該部分的一類雜訊信號產生一第二激勵信號之一第二信號產生器。該解碼器進一步包含一組合器及一合成
器,其中該組合器經組態以用於組合該第一激勵信號及該第二激勵信號以用於產生用於該經合成信號之該部分的一經組合激勵信號。該合成器經組態以用於自該經組合激勵信號及該等預測係數合成該經合成信號之該部分。
該第二態樣之進一步實施例提供一種經編碼音訊信號,其包含相關於預測係數之一資訊、相關於一決定性碼簿之一資訊、相關於一第一增益參數及一第二增益參數之一資訊及相關於一有聲信號訊框及一無聲信號訊框之一資訊。
該第二態樣之進一步實施例提供用於分別編碼及解碼一音訊信號、一所接收音訊信號之方法及一種電腦程式。
100、300、400、600‧‧‧編碼器
102‧‧‧音訊信號/音訊訊框
110‧‧‧訊框建立器
112‧‧‧訊框序列
120‧‧‧分析器/預測器
122‧‧‧預測係數/LPC相關資訊/濾波器係數
124、324‧‧‧殘餘信號
130‧‧‧有聲/無聲決定器
140‧‧‧有聲訊框寫碼器
142‧‧‧有聲資訊信號
150、350、350'、550、550'‧‧‧增益參數計算器
160、220、1090‧‧‧共振峰資訊計算器/共振峰資訊控制器
162、222、550c、1092、1092a、1092b‧‧‧語音相關頻譜成形資訊/語音相關共振峰資訊
170-2‧‧‧第二量化器
170-1‧‧‧第一量化器
170、370‧‧‧量化器
180‧‧‧資訊導出單元
182‧‧‧預測係數相關資訊
190、690‧‧‧位元串流成型機
192、550o‧‧‧輸出信號
200、1000‧‧‧解碼器
202‧‧‧輸入信號
210、1040‧‧‧位元串流解成型機
240、350a‧‧‧隨機雜訊產生器
250、250'、250"、350c、550b、
1070、1080‧‧‧成形器
252、252'、350d、550d‧‧‧成形處理器
254、350e、550e、550g‧‧‧可變放大器
256、350f‧‧‧經成形雜訊信號
257、280、550i、1050‧‧‧組合器
258、350g‧‧‧經放大成形類雜訊信號
259‧‧‧經組合資訊
260、350m'、1060‧‧‧合成器
262‧‧‧經合成信號/無聲經解碼訊框
270‧‧‧有聲訊框解碼器
272‧‧‧有聲信號/有聲訊框
282‧‧‧經解碼音訊信號/輸出信號/音訊信號序列
320‧‧‧預測器
322‧‧‧線性預測係數
350b‧‧‧編碼類雜訊信號
350k、550n、810‧‧‧控制器
350h、350h'、550l‧‧‧比較器
350i、350i'‧‧‧比較結果
350l'、912‧‧‧經合成信號
350n、350n'‧‧‧記憶體
550a、850、1010‧‧‧信號產生器
550f‧‧‧經放大成形碼信號
550h‧‧‧經放大雜訊信號
550k、550k'、1052‧‧‧經組合激勵信號
550m‧‧‧相似性量測
692‧‧‧輸出信號/經編碼音訊信號
820‧‧‧合成式分析濾波器
840、910、1202‧‧‧合成濾波器
920‧‧‧分析區塊
1002‧‧‧所接收信號/輸入信號
1012‧‧‧經碼激勵激勵信號
1020‧‧‧雜訊產生器
1022‧‧‧類雜訊激勵信號
1062‧‧‧無聲經解碼訊框
1200、1300、1400、1500‧‧‧方法
1210、1230、1240、1310、1320、1330、1340、1410、1420、1430、1510、1520、1530、1540‧‧‧步驟
隨後,關於隨附圖式描述本發明之較佳實施例,其中:圖1展示根據第一態樣之實施例的用於編碼音訊信號之編碼器的示意性方塊圖;圖2展示根據第一態樣之實施例的用於解碼所接收輸入信號之解碼器的示意性方塊圖;圖3展示根據第一態樣之實施例的用於編碼音訊信號之又一編碼器的示意性方塊圖;圖4展示根據第一態樣之實施例的當相比於圖3時包含變化之增益參數計算器的編碼器之示意性方塊圖;圖5展示根據第二態樣之實施例的經組態以用於計算
第一增益參數資訊且用於成形碼激勵信號之增益參數計算器的示意性方塊圖;圖6展示根據第二態樣之實施例的用於編碼音訊信號且包含圖5中所描述之增益參數計算器的編碼器之示意性方塊圖;圖7展示根據第二態樣之實施例的當相比於圖5時包含經組態以用於成形類雜訊信號之又一成形器的增益參數計算器之示意性方塊圖;圖8展示根據第二態樣之實施例的用於CELP之無聲寫碼方案的示意性方塊圖;圖9展示根據第一態樣之實施例的參數無聲寫碼之示意性方塊圖;圖10展示根據第二態樣之實施例的用於解碼經編碼音訊信號之解碼器的示意性方塊圖;圖11a展示根據第一態樣之實施例的當相比於圖2中所展示之成形器時實施替代性結構的成形器之示意性方塊圖;圖11b展示根據第一態樣之實施例的當相比於圖2中所展示之成形器時實施又一替代性結構的又一成形器之示意性方塊圖;圖12展示根據第一態樣之實施例的用於編碼音訊信號之方法的示意性流程圖;圖13展示根據第一態樣之實施例的用於解碼包含預測係數及增益參數之所接收音訊信號的方法之示意性流程
圖;圖14展示根據第二態樣之實施例的用於編碼音訊信號之方法的示意性流程圖;及圖15展示根據第二態樣之實施例的用於解碼所接收音訊信號之方法的示意性流程圖;圖16展示參數無聲寫碼方案之示意性方塊圖。
即使出現於不同圖式中,以下描述中仍藉由相等或等效參考編號表示具有相等或等效功能性之相等或等效(若干)元件。
在以下描述中,闡述複數個細節以提供對本發明之實施例的較透徹解釋。然而,熟習此項技術者將顯而易見可無需此等特定細節實踐本發明之實施例。在其他情況下,以方塊圖形式而非詳細展示熟知結構及器件以便避免混淆本發明之實施例。另外,除非另外特定指出,否則可將下文中所描述之不同實施例的特徵彼此組合。
在下文中,將參考修改音訊信號。可藉由放大及/或衰減音訊信號之部分而修改音訊信號。音訊信號之一部分可為(例如)時域中之音訊信號序列及/或其在頻域中之頻譜。關於頻域,可藉由放大或衰減配置於頻率處或頻率範圍中之頻譜值而修改頻譜。修改音訊信號之頻譜可包含操作序列,諸如放大及/或衰減第一頻率或頻率範圍且之後放大及/或衰減第二頻率或頻率範圍。頻域中之修改可表示為頻譜值與增益值及/或衰減值之計算(例如,乘法、除法、求
和或其類似者)。可依序執行修改,諸如首先將頻譜值乘以第一乘法值且接著乘以第二乘法值。乘以第二乘法值且接著乘以第一乘法值可允許接收相同或幾乎相同之結果。又,可首先組合第一乘法值及第二乘法值,且接著就組合乘法值而言將其應用於頻譜值同時接收相同或類似之運算結果。因此,下文所描述之經組態以形成或修改音訊信號之頻譜的修改步驟並不限於所描述次序,而是亦可以經改變次序進行執行同時接收相同結果及/或效果。
圖1展示用於編碼音訊信號102之編碼器100的示意性方塊圖。編碼器100包含經組態以基於音訊信號102產生訊框序列112之訊框建立器110。序列112包含複數個訊框,其中音訊信號102之每一訊框包含時域長度(時間持續時間)。舉例而言,每一訊框可包含10ms、20ms或30ms之長度。
編碼器100包含經組態以用於自音訊信號之訊框導出預測係數(LPC=線性預測係數)122及殘餘信號124的分析器120。訊框建立器110或分析器120經組態以判定音訊信號102在頻域中之表示。替代性地,音訊信號102可已為頻域中之表示。
預測係數122可為(例如)線性預測係數。替代性地,亦可應用非線性預測,使得預測器120經組態以判定非線性預測係數。線性預測之優勢為減少判定預測係數之計算努力。
編碼器100包含經組態以用於判定是否自無聲音
訊訊框判定出殘餘信號124之有聲/無聲決定器130。若自有聲信號訊框判定出殘餘信號124,則決定器130經組態以用於將殘餘信號提供至有聲訊框寫碼器140,且若自無聲音訊訊框判定出殘餘信號124,則將殘餘信號提供至增益參數計算器150。為判定殘餘信號122係自有聲還是無聲信號訊框判定,決定器130可使用諸如殘餘信號之樣本的自動相關之不同方法。舉例而言,ITU(國際電信聯合會)-T(電信標準化部門)標準G.718中提供用於決定信號訊框為有聲還是無聲之方法。配置於低頻率處之大量能量可指示信號之有聲部分。替代性地,無聲信號可帶來高頻率處之大量能量。
編碼器100包含經組態以用於自預測係數122計算語音相關頻譜成形資訊之共振峰資訊計算器160。
語音相關頻譜成形資訊可(例如)藉由判定包含比鄰域大之能量的經處理音訊訊框之頻率或頻率範圍而考慮共振峰資訊。頻譜成形資訊能夠將語音之量值頻譜分段成共振峰(亦即,凸塊)及非共振峰(亦即,穀線)頻率區。可(例如)藉由使用預測係數122之導抗頻譜頻率(ISF)或線譜頻率(LSF)表示導出頻譜之共振峰區。實際上,ISF或LSF表示使用預測係數122之合成濾波器諧振之頻率。
將語音相關頻譜成形資訊162及無聲殘餘轉遞至經組態以自無聲殘餘信號及頻譜成形資訊162計算增益參數gn之增益參數計算器150。增益參數gn可為純量值或複數個純量值,亦即,增益參數可包含相關於待放大或衰減之信號的頻譜之複數個頻率範圍中的頻譜值之放大或衰減的
複數個值。解碼器可經組態以在解碼期間將增益參數gn應用於所接收經編碼音訊信號之資訊,使得基於增益參數放大或衰減所接收經編碼音訊信號之部分。增益參數計算器150可經組態以藉由一或多個數學表達式或帶來連續值之判定規則而判定增益參數gn。舉例而言,借助於處理器用數位方式所執行之運算(以具有受限數目之位元的變數表達結果)可帶來經量化增益。替代性地,可根據量化方案進一步量化結果使得獲得經量化增益資訊。因此,編碼器100可包含量化器170。量化器170可經組態以將所判定增益gn量化至由編碼器100之數位運算所支援的最接近數位值。替代性地,量化器170可經組態以將量化函數(線性或非線性)應用於已經數位化且因此經量化之欣然(fain)因子gn。非線性量化函數可考慮(例如)人類聽覺在低聲音壓力位準下之高度敏感及高壓力位準下之較不敏感的對數相依性。
編碼器100進一步包含經組態以用於自預測係數122導出預測係數相關資訊182之資訊導出單元180。諸如用於激勵革新碼簿之線性預測係數的預測係數包含對失真或誤差之低強健性。因此,舉例而言,已知將線性預測係數轉換成頻譜間頻率(ISF)及/或導出線譜對(LSP)並傳輸相關於線譜對之資訊以及經編碼音訊信號。LSP及/或ISF資訊包含對傳輸媒體中之失真(例如,誤差或計算器誤差)的較高強健性。資訊導出單元180可進一步包含經組態以提供關於LSF及/或ISP之經量化資訊的量化器。
替代性地,資訊導出單元可經組態以轉遞預測係數122。替代性地,可無需資訊導出單元180而實現編碼器100。替代性地,量化器可為增益參數計算器150或位元串流成型機190之功能區塊,使得位元串流成型機190經組態以接收增益參數gn並基於其導出經量化增益。替代性地,當已量化增益參數gn時,可無需量化器170而實現編碼器100。
編碼器100包含經組態以接收由有聲訊框寫碼器140所分別提供的相關於經編碼音訊信號之有聲訊框的有聲信號、有聲資訊142,接收經量化增益及預測係數相關資訊182並基於其形成輸出信號192之位元串流成型機190。
編碼器100可為話語編碼裝置之部分,諸如固定或行動電話或包含用於傳輸音訊信號之麥克風的裝置(諸如,電腦、平板PC或其類似者)。可(例如)經由行動通信(無線)或經由有線通信(諸如,網路信號)傳輸輸出信號192或其所導出信號。
編碼器100之優勢在於輸出信號192包含自轉換成經量化增益之頻譜成形資訊所導出的資訊。因此,輸出信號192之解碼可允許實現或獲得進一步語音相關資訊,且因此解碼信號,使得所獲得經解碼信號相對於語音品質之感知位準包含高品質。
圖2展示用於解碼所接收輸入信號202之解碼器200的示意性方塊圖。所接收輸入信號202可對應於(例如)由編碼器100所提供之輸出信號192,其中輸出信號192可由
高位準層編碼器編碼、經由媒體傳輸、由高層處所解碼之接收裝置接收,從而為解碼器200產生輸入信號202。
解碼器200包含用於接收輸入信號202之位元串流解成型機(解多工器;DE-MUX)。位元串流解成型機210經組態以提供預測係數122、經量化增益及有聲資訊142。為獲得預測係數122,位元串流解成型機可包含當相比於資訊導出單元180時執行反運算之反資訊導出單元。替代性地,相對於資訊導出單元180,解碼器200可包含經組態以用於執行反運算之未展示反資訊導出單元。換言之,預測係數係經解碼(亦即,經復原)。
解碼器200包含經組態以用於自預測係數122(此係由於預測係數122係針對共振峰資訊計算器160而描述)計算語音相關頻譜成形資訊之共振峰資訊計算器220。共振峰資訊計算器220經組態以提供語音相關頻譜成形資訊222。替代性地,輸入信號202亦可包含語音相關頻譜成形資訊222,其中傳輸預測係數或相關於預測係數之資訊(諸如,經量化LSF及/或ISF)而非語音相關頻譜成形資訊222實現較低位元速率之輸入信號202。
解碼器200包含經組態以用於產生類雜訊信號(其可經簡化為表示為雜訊信號)之隨機雜訊產生器240。隨機雜訊產生器240可經組態以再生(例如)當量測並儲存雜訊信號時所獲得之雜訊信號。可(例如)藉由在電阻或另一電組件處產生熱雜訊並藉由將所記錄資料儲存於記憶體上而量測並記錄雜訊信號。隨機雜訊產生器240經組態以提供(類)
雜訊信號n(n)。
解碼器200包含包含成形處理器252及可變放大器254之成形器250。成形器250經組態以用於頻譜地成形雜訊信號n(n)之頻譜。成形處理器252經組態以用於接收語音相關頻譜成形資訊,且用於(例如)藉由將雜訊信號n(n)之頻譜的頻譜值乘以頻譜成形資訊之值而成形雜訊信號n(n)之頻譜。亦可藉由將雜訊信號n(n)與由頻譜成形資訊所給出之濾波器卷積而在時域中執行該運算。成形處理器252經組態以用於將經成形雜訊信號256、其頻譜分別提供至可變放大器254。可變放大器254經組態以用於接收,增益參數gn,且用於放大經成形雜訊信號256之頻譜以獲得經放大成形雜訊信號258。放大器可經組態以將經成形雜訊信號256之頻譜值乘以增益參數gn之值。如上文所闡述,可實施成形器250,使得可變放大器254經組態以接收雜訊信號n(n)並將經放大雜訊信號提供至經組態以用於成形經放大雜訊信號之成形處理器252。替代性地,成形處理器252可經組態以接收語音相關頻譜成形資訊222及增益參數gn,並將兩資訊一個接一個地依序應用於雜訊信號n(n),或(例如)藉由乘法或其他計算組合兩資訊並將經組合參數應用於雜訊信號n(n)。
藉由語音相關頻譜成形資訊成形之類雜訊信號n(n)或其經放大版本實現包含較多語音相關(自然)聲音品質之經解碼音訊信號282。此情況允許獲得高品質音訊信號及/或減少編碼器側處之位元速率同時藉由減少之範圍維
持或增強解碼器處之輸出信號282。
解碼器200包含經組態以用於接收預測係數122及經放大成形雜訊信號258,且用於自經放大成形類雜訊信號258及預測係數122合成經合成信號262之合成器260。合成器260可包含濾波器,且可經組態以用於藉由預測係數調適濾波器。合成器可經組態以藉由濾波器濾波經放大成形類雜訊信號258。濾波器可實施為軟體或硬體結構,且可包含無限脈衝回應(IIR)或有限脈衝回應(FIR)結構。
經合成信號對應於解碼器200之輸出信號282的無聲經解碼訊框。輸出信號282包含可轉換成連續音訊信號之訊框序列。
位元串流解成型機210經組態以用於自輸入信號202分離並提供有聲資訊信號142。解碼器200包含經組態以用於基於有聲資訊142提供有聲訊框之有聲訊框解碼器270。有聲訊框解碼器(有聲訊框處理器)經組態以基於有聲資訊142判定有聲信號272。有聲信號272可對應於解碼器100之有聲音訊訊框及/或有聲殘餘。
解碼器200包含經組態以用於組合無聲經解碼訊框262及有聲訊框272以獲得經解碼音訊信號282之組合器280。
替代性地,可在並無放大器之情況下實現成形器250,使得成形器250經組態以用於成形類雜訊信號n(n)之頻譜而不進一步放大所獲得信號。此情況可允許由輸入信號222傳輸減少量之資訊,且因此允許輸入信號202之序列的
減少之位元速率或較短持續時間。替代性地或另外,解碼器200可經組態以僅解碼無聲訊框或藉由頻譜地成形雜訊信號n(n)並藉由針對有聲及無聲訊框合成經合成信號262而處理有聲及無聲訊框兩者。此情況可允許在並無有聲訊框解碼器270及/或組合器280之情況下實施解碼器200,且因此使得減少解碼器200之複雜性。
輸出信號192及/或輸入信號202包含相關於預測係數122之資訊、用於有聲訊框及無聲訊框之資訊(諸如,指示經處理訊框係有聲還是無聲之旗標)及相關於有聲信號訊框之進一步資訊(諸如,經寫碼有聲信號)。輸出信號192及/或輸入信號202進一步包含用於無聲訊框之增益參數或經量化增益參數,使得可分別基於預測係數122及增益參數gn、解碼無聲訊框。
圖3展示用於編碼音訊信號102之編碼器300的示意性方塊圖。編碼器300包含訊框建立器110、經組態以用於藉由將濾波器A(z)應用於由訊框建立器110所提供之訊框序列112而判定線性預測係數322及殘餘信號324之預測器320。編碼器300包含用以獲得有聲信號資訊142之決定器130及有聲訊框寫碼器140。編碼器300進一步包含共振峰資訊計算器160及增益參數計算器350。
增益參數計算器350經組態以用於提供如上文所描述之增益參數gn。增益參數計算器350包含用於產生編碼類雜訊信號350b之隨機雜訊產生器350a。增益計算器350進一步包含具有成形處理器350d及可變放大器350e之成形器
350c。成形處理器350d經組態以用於接收語音相關成形資訊162及類雜訊信號350b,並如針對成形器250所描述地藉由語音相關頻譜成形資訊162成形類雜訊信號350b之頻譜。可變放大器350e經組態以用於藉由增益參數gn(temp)(其為自控制器350k所接收之暫時增益參數)放大經成形類雜訊信號350f。如針對經放大類雜訊信號258所描述,可變放大器350e進一步經組態以用於提供經放大成形類雜訊信號350g。如針對成形器250所描述,當相比於圖3時可組合或改變成形及放大類雜訊信號之次序。
增益參數計算器350包含經組態以用於比較由決定器130所提供之無聲殘餘與經放大成形類雜訊信號350g之比較器350h。比較器經組態以獲得無聲殘餘及經放大成形類雜訊信號350g之相似性量測。舉例而言,比較器350h可經組態以用於判定兩信號之交叉相關。替代性地或另外,比較器350h可經組態以用於比較兩信號在一些或所有頻率區間處之頻譜值。比較器350h進一步經組態以獲得比較結果350i。
增益參數計算器350包含經組態以用於基於比較結果350i判定增益參數gn(temp)之控制器350k。舉例而言,當比較結果350i指示經放大成形類雜訊信號包含小於無聲殘餘之對應振幅或量值的振幅或量值時,控制器可經組態以針對經放大類雜訊信號350g之一些或所有頻率增加增益參數gn(temp)之一或多個值。替代性地或另外,當比較結果350i指示經放大成形類雜訊信號包含過高量值或振幅(亦
即,經放大成形類雜訊信號過吵)時,控制器可經組態以減少增益參數gn(temp)之一或多個值。隨機雜訊產生器350a、成形器350c、比較器350h及控制器350k可經組態以實施閉合迴路最佳化以用於判定增益參數gn(temp)。當(例如)表示為無聲殘餘與經放大成形類雜訊信號350g之間的差異的兩信號之相似性量測指示相似性高於臨限值時,控制器350k經組態以提供所判定增益參數gn。量化器370經組態以量化增益參數gn以獲得經量化增益參數。
隨機雜訊產生器350a可經組態以遞送類高斯雜訊。隨機雜訊產生器350a可經組態以用於藉由下限(最小值)(諸如,-1)與上限(最大值)(諸如,+1)之間的均勻分佈數目n執行(呼叫)隨機產生器。舉例而言,隨機雜訊產生器350經組態以用於三次呼叫隨機產生器。由於用數位方式實施之隨機雜訊產生器可輸出偽隨機值,因此使複數個或眾多偽隨機函數相加或疊加可允許獲得充分隨機分佈函數。此程序遵循中央極限定理。隨機雜訊產生器350a可經組態以如由以下偽碼所指示地至少兩次、三次或三次以上呼叫隨機產生器:
替代性地,隨機雜訊產生器350a可如針對隨機雜
訊產生器240所描述地自記憶體產生類雜訊信號。替代性地,隨機雜訊產生器350a可包含(例如)電阻或用於藉由執行碼或藉由量測諸如熱雜訊之物理效應而產生雜訊信號之其他構件。
成形處理器350b可經組態以藉由用如上文所闡述之fe(n)濾波類雜訊信號350b而將共振峰結構及傾斜添加至類雜訊信號350b。可藉由基於如下方程式,用包含傳遞函數之濾波器t(n)濾波信號而添加傾斜:Ft(z)=1-βz -1
其中可自先前子訊框之發聲推論因子β:
其中AC為自適應性碼簿之縮寫且IC為革新碼簿之縮寫。
β=0.25.(1+發聲)
增益參數gn、經量化增益參數分別允許提供可減少經編碼信號與諸如解碼器200之解碼器處所解碼的對應經解碼信號之間的誤差或不匹配之額外資訊。
關於判定規則
參數w1可包含至多1.0之正非零值,較佳為至少0.7且至多0.8且更佳為包含0.75之值。參數w2可包含至多1.0之正非零純量值,較佳為至少0.8且至多0.93且更佳為包含0.9之
值。參數w2較佳為大於w1。
圖4展示編碼器400之示意性方塊圖。如針對編碼器100及300所描述,編碼器400經組態以提供有聲信號資訊142。當相比於編碼器300時,編碼器400包含變化之增益參數計算器350'°比較器350h'經組態以比較音訊訊框112與經合成信號350l'以獲得比較結果350i'。增益參數計算器350'包含經組態以用於基於經放大成形類雜訊信號350g及預測係數122合成經合成信號350l'之合成器350m'。
基本上,增益參數計算器350'藉由合成經合成信號350l'至少部分實施解碼器。當相比於包含經組態以用於比較無聲殘餘與經放大成形類雜訊信號之比較器350h的編碼器300時,編碼器400包含經組態以比較(可能完整)音訊訊框與經合成信號之比較器350h'。在將信號之訊框且不僅其參數彼此比較時此情況可實現較高精確度。較高精確度可要求增加計算努力,此係由於當相比於殘餘信號及經放大成形類雜訊資訊時,音訊訊框122及經合成信號350l'可包含較高複雜性,使得比較兩信號亦係較複雜的。另外,必須計算合成從而要求由合成器350m'進行計算努力。
增益參數計算器350'包含經組態以用於記錄包含編碼增益參數gn或其經量化版本之編碼資訊的記憶體350n'。當處理後續音訊訊框時,此情況允許控制器350k獲得所儲存增益值。舉例而言,控制器可經組態以判定第一(集合之)值,亦即基於或等於先前音訊訊框之gn值的增益因子gn(temp)之第一例項。
圖5展示根據第二態樣的經組態以用於計算第一增益參數資訊gn之增益參數計算器550的示意性方塊圖。增益參數計算器550包含經組態以用於產生激勵信號c(n)之信號產生器550a。信號產生器550a包含用以產生信號c(n)之決定性碼簿及碼簿內之索引。亦即,諸如預測係數122之輸入資訊帶來決定性激勵信號c(n)。信號產生器550a可經組態以根據CELP寫碼方案之革新碼簿產生激勵信號c(n)。可根據先前校準步驟中之所量測語音資料判定或訓練碼簿。增益參數計算器包含經組態以用於基於用於碼信號c(n)之語音相關成形資訊550c,成形碼信號c(n)之頻譜的成形器550b。可自共振峰資訊控制器160獲得語音相關成形資訊550c。成形器550b包含經組態以用於接收用於成形碼信號之成形資訊550c的成形處理器550d。成形器550b進一步包含經組態以用於放大經成形碼信號c(n)以獲得經放大成形碼信號550f之可變放大器550e。因此,碼增益參數經組態以用於定義相關於決定性碼簿之碼信號c(n)。
增益參數計算器550包含經組態以用於提供(類)雜訊信號n(n)之雜訊產生器350a,及經組態以用於基於雜訊增益參數gn放大雜訊信號n(n)以獲得經放大雜訊信號550h之放大器550g。增益參數計算器包含經組態以用於組合經放大成形碼信號550f與經放大雜訊信號550h以獲得經組合激勵信號550k之組合器550i。組合器550i可經組態以用於(例如)頻譜地相加或相乘經放大成形碼信號550f及經放大雜訊信號550h之頻譜值。替代性地,組合器550i可經組態
以卷積兩信號550f及550h。
如上文針對成形器350c所描述,可實施成形器550b,使得由可變放大器550e首先放大碼信號c(n)且之後由成形處理器550d成形該碼信號。替代性地,可將用於碼信號c(n)之成形資訊550c與碼增益參數資訊gc組合,使得將經組合資訊應用於碼信號c(n)。
增益參數計算器550包含經組態以用於比較經組合激勵信號550k與有聲/無聲決定器130所獲得之無聲殘餘信號的比較器550l。比較器550l可為比較器550h,且經組態以用於提供經組合激勵信號550k與無聲殘餘信號之比較結果(亦即,相似性量測550m)。碼增益計算器包含經組態以用於控制碼增益參數資訊gc及雜訊增益參數資訊gn之控制器550n。碼增益參數gc及雜訊增益參數資訊gn可包含可相關於雜訊信號n(n)或其所導出信號之頻率範圍或碼信號c(n)或其所導出信號之頻譜的複數個或眾多純量值或假想值。
替代性地,可在並無成形處理器550d之情況下實施增益參數計算器550。替代性地,成形處理器550d可經組態以成形雜訊信號n(n)並將經成形雜訊信號提供至可變放大器550g。
因此,藉由控制兩增益參數資訊gc及gn,可增加經組合激勵信號550k相比於無聲殘餘時之相似性,使得接收碼增益參數資訊gc及雜訊增益參數資訊gn之資訊的解碼器可再生包含良好聲音品質之音訊信號。控制器550n經組態以提供包含相關於碼增益參數資訊gc及雜訊增益參數資
訊gn之資訊的輸出信號550o。舉例而言,信號550o可包含作為純量值或經量化值或作為其導出值(例如,經寫碼值)之兩增益參數資訊gn及gc。
圖6展示用於編碼音訊信號102且包含圖5中所描述之增益參數計算器550之編碼器600的示意性方塊圖。可(例如)藉由修改編碼器100或300獲得編碼器600。編碼器600包含第一量化器170-1及第二量化器170-2。第一量化器170-1經組態以用於量化增益參數資訊gc以用於獲得經量化增益參數資訊。第二量化器170-2經組態以用於量化雜訊增益參數資訊gn以用於獲得經量化雜訊增益參數資訊。位元串流成型機690經組態以用於產生包含有聲信號資訊142、LPC相關資訊122及兩經量化增益參數資訊及之輸出信號692。當相比於輸出信號192時,藉由經量化增益參數資訊擴展或升級輸出信號692。替代性地,量化器170-1及/或170-2可為增益參數計算器550之部分。量化器170-1及/或170-2中之另外一者可經組態以獲得經量化增益參數及兩者。
替代性地,編碼器600可經組態以包含經組態以用於量化碼增益參數資訊gc及雜訊增益參數gn以用於獲得經量化參數資訊及之一個量化器。可(例如)依序量化兩增益參數資訊。
共振峰資訊計算器160經組態以自預測係數122計算語音相關頻譜成形資訊550c。
圖7展示當相比於增益參數計算器550時經修改
之增益參數計算器550'的示意性方塊圖。增益參數計算器550'包含圖3中所描述之成形器350而非放大器550g。成形器350經組態以提供經放大成形雜訊信號350g。組合器550i經組態以組合經放大成形碼信號550f與經放大成形雜訊信號350g以提供經組合激勵信號550k'。共振峰資訊計算器160經組態以提供兩語音相關共振峰資訊162及550c。語音相關共振峰資訊550c及162可相等。替代性地,兩資訊550c及162可不同於彼此。此情況允許單獨模型化(亦即,成形)碼產生信號c(n)及n(n)。
控制器550n可經組態以用於針對經處理音訊訊框之每一子訊框判定增益參數資訊gc及gn。控制器可經組態以基於下文闡述之細節,判定(亦即,計算)增益參數資訊gc及gn。
首先,可對LPC分析期間可用之原始短期預測殘餘信號(亦即,對無聲殘餘信號)計算子訊框之平均能量。藉由如下方程式在對數域中平均當前訊框之四個子訊框的能量:
其中Lsf為樣本中之子訊框的大小。在此狀況下,訊框經劃分成4個子訊框。接著,可藉由使用先前所訓練之隨機碼簿以位元數目(例如,三個、四個或五個)寫碼平均能量。隨機碼簿可包含根據可由位元數目表示之數個不同值的數個項(大小),例如8之大小針對3個位元數目、16之大小針對
4個位元數目或32之數目針對5個位元數目。可自碼簿之所選擇碼字判定經量化增益。對於每一子訊框,計算兩個增益資訊gc及gn。可(例如)基於如下方程式計算碼gc之增益:
其中cw(n)為(例如)選自由感知加權濾波器所濾波之信號產生器550a所包含的固定碼簿之固定革新。表達式xw(n)對應於CELP編碼器中所計算之習知感知目標激勵。接著,可基於如下方程式歸一化碼增益資訊gc以用於獲得經歸一化增益gnc:
可(例如)由量化器170-1量化經歸一化增益gnc。可根據線性或對數標度執行量化。對數標度可包含4個、5個或5個以上位元之大小的標度。舉例而言,對數標度包含5個位元之大小。可基於如下方程式執行量化:Index nc =[20 * log 10((g nc +20)/1.25)+0.5]
其中若對數標度包含5個位元,則Indexnc可限於0與31之間。Indexnc可為經量化增益參數資訊。接著,可基於如下方程式表達碼之經量化增益:
可計算碼之增益以便最小化均方根誤差或均方誤差(MSE)
其中,Lsf對應於自預測係數122所判定之線譜頻率。
可藉由基於如下方程式最小化誤差而在能量不匹配方面判定雜訊增益參數資訊
變數k為可取決於或基於預測係數變化之衰減因子,其中預測係數可允許判定語音是否包含較少背景雜訊部分或甚至並無背景雜訊(清晰語音)。替代性地,(例如)當音訊信號或其訊框包含無聲訊框與非無聲訊框之間的改變時,亦可將信號判定為嘈雜語音。對於清晰語音,可將變數k設定成至少0.85之值、至少0.95之值或甚至1之值,其中能量之高動態在感知上係重要的。對於嘈雜語音,可將變數k設定成至少0.6且至多0.9之值,較佳為至少0.7且至多0.85之值且更佳為0.8之值,其中使雜訊激勵較保守以用於在無聲訊框與非無聲訊框之間避免輸出能量波動。可針對此等經量化增益候選中之每一者計算誤差(能量不匹配)。劃分成四個子訊框之訊框可帶來四個經量化增益候選。可由控制器輸出最小化誤差之一個候選。可基於如下方程式計算經量化雜訊增益(雜訊增益參數資訊):
其中根據四個候選,Indexn限於0與3之間。可基於如下
方程式獲得諸如激勵信號550k或550k'之所得經組合激勵信號:
其中e(n)為經組合激勵信號550k或550k'。
包含增益參數計算器550或550'之編碼器600或經修改編碼器600可允許基於CELP寫碼方案之無聲寫碼。可基於以下例示性細節修改CELP寫碼方案以用於處置無聲訊框:
●並不傳輸LTP參數,此係由於無聲訊框中幾乎並不存在週期性且所得之寫碼增益極低。將自適應性激勵設定為零。
●將保存位元報告至固定碼簿。可以相同位元速率寫碼較多脈衝,且可接著改良品質。
●在低速率下(亦即,對於6kbps與12kbps之間的速率),脈衝寫碼並不充分以用於適當地模型化無聲訊框之類雜訊目標激勵。將高斯碼簿添加至固定碼簿以用於建立最後激勵。
圖8展示根據第二態樣的用於CELP之無聲寫碼方案的示意性方塊圖。經修改控制器810包含比較器550l及控制器550n之兩功能。控制器810經組態以用於基於合成式分析(亦即,藉由比較經合成信號與指示為s(n)之輸入信號(其為(例如)無聲殘餘))而判定碼增益參數資訊gc及雜訊增益參數資訊gn。控制器810包含經組態以用於產生用於信號產生器(革新激勵)550a之激勵且用於提供增益參數資訊gc
及gn之合成式分析濾波器820。合成式分析區塊810經組態以比較經組合激勵信號550k'與藉由根據所提供參數及資訊調適濾波器而內部地合成的信號。
如針對分析器320所描述以獲得預測係數122,控制器810包含經組態以用於獲得預測係數之分析區塊。控制器進一步包含用於藉由合成濾波器840濾波經組合激勵信號550k之合成濾波器840,其中藉由濾波器係數122調適合成濾波器840。又一比較器可經組態以比較輸入信號s(n)與經合成信號(n)(例如,經解碼(復原)音訊信號)。另外,配置記憶體350n,其中控制器810經組態以將所預測信號及/或所預測係數儲存於記憶體中。信號產生器850經組態以基於記憶體350n中之所儲存預測提供自適應性激勵信號,從而允許基於成型機組合激勵信號增強自適應性激勵。
圖9展示根據第一態樣之參數無聲寫碼的示意性方塊圖。經放大成形雜訊信號可為藉由所判定濾波器係數(預測係數)122調適的合成濾波器910之輸入信號。可將由合成濾波器所輸出的經合成信號912與可為(例如)音訊信號之輸入信號s(n)比較。當相比於輸入信號s(n)時,經合成信號912包含誤差。藉由由可對應於增益參數計算器150或350之分析區塊920修改雜訊增益參數gn,可減少或最小化誤差。藉由將經放大成形雜訊信號350f儲存於記憶體350n中,可執行自適應性碼簿之更新,使得亦可基於無聲音訊訊框之經改良寫碼增強有聲音訊訊框之處理。
圖10展示用於解碼經編碼音訊信號(例如,經編
碼音訊信號692)之解碼器1000的示意性方塊圖。解碼器1000包含信號產生器1010及經組態以用於產生類雜訊信號1022之雜訊產生器1020。所接收信號1002包含LPC相關資訊,其中位元串流解成型機1040經組態以基於預測係數相關資訊提供預測係數122。舉例而言,解碼器1040經組態以提取預測係數122。如針對信號產生器558所描述,信號產生器1010經組態以產生經碼激勵激勵信號1012。如針對組合器550所描述,解碼器1000之組合器1050經組態以用於組合經碼激勵信號1012與類雜訊信號1022以獲得經組合激勵信號1052。解碼器1000包含具有用於藉由預測係數122調適之濾波器的合成器1060,其中合成器經組態以用於藉由經調適濾波器濾波經組合激勵信號1052以獲得無聲經解碼訊框1062。解碼器1000亦包含組合無聲經解碼訊框與有聲訊框272以獲得音訊信號序列282之組合器284。當相比於解碼器200時,解碼器1000包含經組態以提供經碼激勵激勵信號1012之第二信號產生器。類雜訊激勵信號1022可為(例如)圖2中所描繪之類雜訊信號n(n)。
當相比於經編碼輸入信號時,音訊信號序列282可包含良好品質及高相似性。
進一步實施例提供藉由成形及/或放大碼產生(經碼激勵)激勵信號1012及/或類雜訊信號1022而增強解碼器1000之解碼器。因此,解碼器1000可包含分別配置於信號產生器1010與組合器1050之間、雜訊產生器1020與組合器1050之間的成形處理器及/或可變放大器。輸入信號1002
可包含相關於碼增益參數資訊gc及/或雜訊增益參數資訊之資訊,其中解碼器可經組態以調適放大器,以用於藉由使用碼增益參數資訊gc放大碼產生激勵信號1012或其經成形版本。替代性地或另外,解碼器1000可經組態以調適(亦即,控制)放大器以用於藉由使用雜訊增益參數資訊來藉由放大器放大類雜訊信號1022或其經成形版本。
替代性地,解碼器1000可包含如由虛線所指示的經組態以用於成形經碼激勵激勵信號1012之成形器1070及/或經組態以用於成形類雜訊信號1022之成形器1080。成形器1070及/或1080可接收增益參數gc及/或gn及/或語音相關成形資訊。可如針對上文所描述之成形器250、350c及/或550b所描述地形成成形器1070及/或1080。
如針對共振峰資訊計算器160所描述,解碼器1000可包含用以為成形器1070及/或1080提供語音相關成形資訊1092的共振峰資訊計算器1090。共振峰資訊計算器1090可經組態以將不同語音相關成形資訊(1092a;1092b)提供至成形器1070及/或1080。
圖11a展示當相比於成形器250時實施替代性結構之成形器250'的示意性方塊圖。成形器250'包含用於組合成形資訊222與雜訊相關增益參數gn以獲得經組合資訊259之組合器257。經修改成形處理器252'經組態以藉由使用經組合資訊259成形類雜訊信號n(n)以獲得經放大成形類雜訊信號258。由於兩成形資訊222及增益參數gn可經解譯為乘法因子,因此可藉由使用組合器257相乘兩乘法因子且接著
將其以經組合形式應用於類雜訊信號n(n)。
圖11b展示當相比於成形器250時實施又一替代性結構之成形器250"的示意性方塊圖。當相比於成形器250時,首先配置可變放大器254,且其經組態以藉由使用增益參數gn放大類雜訊信號n(n)而產生經放大類雜訊信號。成形處理器252經組態以使用成形資訊222成形經放大信號以獲得經放大成形信號258。
儘管圖11a及圖11b係關於描繪替代性實施之成形器250,但上文描述亦適用於成形器350c、550b、1070及/或1080。
圖12展示根據第一態樣的用於編碼音訊信號之方法1200的示意性流程圖。步驟1210包含自音訊信號訊框導出預測係數及殘餘信號。方法1200包含自無聲殘餘信號及頻譜成形資訊計算增益參數之步驟1230及基於相關於有聲信號訊框、增益參數或經量化增益參數及預測係數之資訊形成輸出信號之步驟1240。
圖13展示根據第一態樣的用於解碼包含預測係數及增益參數之所接收音訊信號的方法1300之示意性流程圖。方法1300包含自預測係數計算語音相關頻譜成形資訊之步驟1310。在步驟1320中,產生解碼類雜訊信號。在步驟1330中,使用頻譜成形資訊成形解碼類雜訊信號或其經放大表示之頻譜以獲得成形解碼類雜訊信號。在方法1300之步驟1340中,自經放大成形編碼類雜訊信號及預測係數合成經合成信號。
圖14展示根據第二態樣的用於編碼音訊信號之方法1400的示意性流程圖。方法1400包含自音訊信號之無聲訊框導出預測係數及殘餘信號之步驟1410。在方法1400之步驟1420中,針對無聲訊框計算用於定義相關於決定性碼簿之第一激勵信號的第一增益參數資訊及用於定義相關於類雜訊信號之第二激勵信號的第二增益參數資訊。
在方法1400之步驟1430中,基於相關於有聲信號訊框之資訊、第一增益參數資訊及第二增益參數資訊形成輸出信號。
圖15展示根據第二態樣的用於解碼所接收音訊信號之方法1500的示意性流程圖。所接收音訊信號包含相關於預測係數之資訊。方法1500包含自用於經合成信號之一部分的決定性碼簿產生第一激勵信號的步驟1510。在方法1500之步驟1520中,自用於經合成信號之部分的類雜訊信號產生第二激勵信號。在方法1000之步驟1530中,組合第一激勵信號及第二激勵信號以用於產生用於經合成信號之部分的經組合激勵信號。在方法1500之步驟1540中,自經組合激勵信號及預測係數合成經合成信號之部分。
換言之,本發明之態樣提出借助於成形隨機產生之高斯雜訊並藉由對其添加共振峰結構及頻譜傾斜使其頻譜地成形而寫碼無聲訊框之新方式。在激勵合成濾波器之前在激勵域中進行頻譜成形。因此,將在長期預測之記憶體中更新經成形激勵以用於產生後續自適應性碼簿。
並非無聲之後續訊框將亦受益於頻譜成形。不同
於後濾波中之共振峰增強,在編碼器及解碼器側兩者處執行所提出雜訊成形。
可直接在參數寫碼方案中使用此激勵以用於定向極低位元速率。然而,吾人亦提出在CELP寫碼方案內結合習知革新碼簿相關聯此激勵。
對於該兩方法,吾人提出尤其有效於清晰語音及具有背景雜訊之語音兩者的新增益寫碼。吾人提出用以儘可能接近原始能量但同時避免與非無聲訊框之過嚴苛轉變且亦避免歸因於增益量化之不合需要不強健性的一些機制。
第一態樣定向為具有每秒2.8千比及4千比(kbps)之速率的無聲寫碼。首先偵測無聲訊框。可如自[3]已知的如可變速率多模式寬頻(VMR-WB)中所進行地藉由通常語音分類進行此操作。
在此級處進行頻譜成形存在兩個主要優勢。首先,頻譜成形考慮激勵之增益計算。由於增益計算為激勵產生期間之唯一非盲模組,因此在成形之後使其處於鏈之末端處為較大優勢。其次,此情況允許將經增強激勵保存於LTP之記憶體中。接著,增強將亦服務後續非無聲訊框。
儘管量化器170、170-1及170-2經描述為經組態以用於獲得經量化參數及,但可將經量化參數提供為相關於該兩參數之資訊,例如,資料庫之項的索引或識別符,該項包含經量化增益參數及。
儘管已在裝置之上下文中描述一些態樣,但顯
然,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或物件或對應裝置之特徵的描述。
本發明經編碼音訊信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或軟體實施。可使用其上儲存有與可程式化電腦系統協作(或能夠協作)之電子可讀控制信號,使得執行各別方法之數位儲存媒體(例如,軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行實施。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可程式化電腦系統協作,使得執行本文中所描述之方法中的一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品執行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中的一者的電腦程式。
換言之,因此,本發明方法之實施例為具有當電腦程式執行於電腦上時,用於執行本文中所描述之方法中的一者的程式碼之電腦程式。
因此,本發明方法之另一實施例為包含記錄於其上的,用於執行本文中所描述之方法中的一者的電腦程式之資料載體(或數位儲存媒體,或電腦可讀媒體)。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者的電腦程式之資料流或信號序列。資料流或信號序列可(例如)經組態以經由資料通信連接(例如,經由網際網路)而傳遞。
另一實施例包含處理構件,例如,經組態或經調適以執行本文中所描述之方法中的一者的電腦或可程式化邏輯器件。
另一實施例包含其上安裝有用於執行本文中所描述之方法中的一者的電腦程式之電腦。
在一些實施例中,可程式化邏輯器件(例如,場可程式化閘陣列)可用於執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可程式化閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。大體而言,較佳地由任何硬體裝置執行該等方法。
上文所描述之實施例僅僅說明本發明之原理。應理解,熟習此項技術者將顯而易見對本文中所描述之配置及細節的修改及變化。因此,其僅意欲由接下來之申請專利範圍之範疇限制,而非由藉由本文中實施例之描述及解釋所呈現的特定細節限制。
Literature
[1] Recommendation ITU-T G.718: “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”
[2] United states patent number US 5,444,816, “Dynamic codebook for efficient speech coding based on algebraic codes”
[3] Jelinek, M.; Salami, R., "Wideband Speech Coding Advances in VMR-WB Standard," Audio, Speech, and Language Processing, IEEE Transactions on, vol.15, no.4, pp.1167,1179, May 2007
102‧‧‧音訊信號/音訊訊框
110‧‧‧訊框建立器
112‧‧‧訊框序列
120‧‧‧分析器/預測器
122‧‧‧預測係數/LPC相關資訊/濾波器係數
124‧‧‧殘餘信號
130‧‧‧有聲/無聲決定器
140‧‧‧有聲訊框寫碼器
142‧‧‧有聲資訊信號
160‧‧‧共振峰資訊計算器/共振峰資訊控制器
170-1‧‧‧第一量化器
170-2‧‧‧第二量化器
550‧‧‧增益參數計算器
550c‧‧‧語音相關頻譜成形資訊/語音相關共振峰資訊
600‧‧‧編碼器
690‧‧‧位元串流成型機
692‧‧‧輸出信號/經編碼音訊信號
Claims (18)
- 一種用於編碼一音訊信號之編碼器,該編碼器包含:一決定器,其組配來用於判定是否自一無聲信號音訊訊框判定出殘餘信號;一分析器,其組配來用於自該音訊信號之無聲訊框導出預測係數及殘餘信號;一增益參數計算器,其組配來用於針對該無聲訊框計算用於定義相關於一決定性碼簿之一第一激勵信號的一第一增益參數資訊,且用於計算用於定義相關於一類雜訊信號之一第二激勵信號的一第二增益參數資訊;及一位元串流形成器,其組配來用於在該殘餘信號係自一有聲信號音訊訊框被判定時基於相關於一有聲信號訊框之一資訊形成一輸出信號,且用於在該殘餘信號係自該無聲信號音訊訊框被判定時基於該第一增益參數資訊及該第二增益參數資訊形成該輸出信號;其中該編碼器包含一長期預測(LTP)記憶體及一信號產生器用於產生用於有聲訊框之一適應性激勵信號;以及其中,當相較於一碼激勵線性預測(CELP)寫碼方案,該編碼器係組配來用以不傳輸用於該無聲訊框之LTP參數以節省位元,其中該適應性激勵信號針對該無聲訊框被設定為零,且其中該決定性碼簿係組配來用以 針對一相同位元速率使用所節省之該等位元來寫碼更多脈衝。
- 如請求項1之編碼器,其中該增益參數計算器組配來用於計算一第一增益參數及一第二增益參數,且其中該位元串流形成器組配來用於基於該第一增益參數及該第二增益參數形成該輸出信號;或其中該增益參數計算器包含一量化器,其組配來用於量化該第一增益參數以用於獲得一第一經量化增益參數,且用於量化該第二增益參數以用於獲得一第二經量化增益參數,且其中該位元串流形成器組配來用於基於該第一經量化增益參數及該第二經量化增益參數形成該輸出信號。
- 如請求項1之編碼器,其進一步包含組配來用於自該等預測係數計算一語音相關頻譜成形資訊之一共振峰資訊計算器,且其中該增益參數計算器組配來基於該語音相關頻譜成形資訊計算該第一增益參數資訊及該第二增益參數資訊。
- 如請求項1之編碼器,其中該增益參數計算器包含:一第一放大器,其組配來用於藉由應用該第一增益參數放大該第一激勵信號以獲得一第一經放大激勵信號;一第二放大器,其組配來用於藉由應用該第二增益參數放大不同於該第一激勵信號之該第二激勵信號以獲得一第二經放大激勵信號; 一組合器,其組配來用於組合該第一經放大激勵信號與該第二經放大激勵信號)以獲得一經組合激勵信號;一控制器,其組配來用於藉由一合成濾波器濾波該經組合激勵信號以獲得一經合成信號,用於比較該經合成信號與該音訊信號訊框以獲得一比較結果,基於該比較結果調適該第一增益參數或該第二增益參數;且其中該位元串流形成器組配來用於基於相關於該第一增益參數及該第二增益參數之一資訊形成該輸出信號。
- 如請求項1之編碼器,其中該增益參數控制器進一步包含至少一個成形器,其組配來用於基於一頻譜成形資訊,頻譜地成形該第一激勵信號或其所導出的一信號或該第二激勵信號或其所導出的一信號。
- 如請求項1之編碼器,其中該編碼器組配來用於在一訊框序列中逐訊框地編碼該音訊信號,且其中該增益參數計算器組配來用於針對一經處理訊框之複數個子訊框中之每一者,判定該第一增益參數及該第二增益參數,且其中該增益參數控制器組配來用於判定相關聯於該經處理訊框之一平均能量值。
- 如請求項1之編碼器,其進一步包含:一共振峰資訊計算器,其組配來用於自該等預測係數計算至少一第一語音相關頻譜成形資訊。
- 如請求項1之編碼器,其中該增益參數控制器包含組配 來用於基於下列方程式判定該第一增益參數(gc)之一控制器:
- 如請求項1之編碼器,其進一步包含組配來用於量化該第一增益參數以獲得一經量化第一增益參數之一量化器,其中該增益參數控制器組配來用於基於下列方程式判定該第一增益參數(gc):
- 如請求項9之編碼器,其中該量化器組配來用於量化該第二增益參數以獲得一經量化第二增益參數,其中該增益參數控制器組配來藉由基於下列方程式判定一誤差值而判定該第二增益參數(gn):
- 如請求項10之編碼器,其中該組合器組配來用於基於下列方程式組合該第一增益參數(gc)與該第二增益參數(gn)以獲得一經組合激勵信號(e(n)):
- 一種用於解碼所接收音訊信號之解碼器,該所接收音訊訊號包含相關於預測係數之一資訊且包含指出是否該所接收音訊信號的一經處理訊框係有聲或無聲之一資訊,該解碼器包含:一第一信號產生器,其組配來用於自用於一經合成信號之一部分的一決定性碼簿產生一第一激勵信號;一第二信號產生器,其組配來用於自用於該經合成信號之該部分的一類雜訊信號產生一第二激勵信號;一組合器,其組配來用於組合該第一激勵信號與該第二激勵信號以用於產生用於該經合成信號之該部分的一經組合激勵信號;一合成器,其組配來用於自該經組合激勵信號及該等預測係數合成該經合成信號之該部分; 其中該解碼器包含一LTP記憶體及一信號產生器用於產生用於有聲訊框之一適應性激勵信號;以及其中該所接收音訊信號不包含用於無聲訊框之LTP參數,其中該解碼器係組配來用以將用於該無聲訊框之適應性激勵信號設定為零,且其中該決定性碼簿係組配來針對一相同位元速率由於因少掉用於該無聲訊框之LTP參數而節省之位元而提供更多脈衝。
- 如請求項12之解碼器,其中該所接收音訊信號包含相關於一第一增益參數及一第二增益參數之一資訊,其中該解碼器進一步包含:一第一放大器,其組配來用於藉由應用該第一增益參數放大該第一激勵信號或其所導出的一信號以獲得一第一經放大激勵信號;一第二放大器,其組配來用於藉由應用該第二增益參數放大該第二激勵信號或所導出的一信號以獲得一第二經放大激勵信號。
- 如請求項12之解碼器,其進一步包含:一共振峰資訊計算器,其組配來用於自該等預測係數計算一第一頻譜成形資訊及一第二頻譜成形資訊;一第一成形器,其用於使用該第一頻譜成形資訊頻譜地成形該第一激勵信號或其所導出的一信號之一頻譜;及一第二成形器,其用於使用該第二成形資訊頻譜地成形該第二激勵信號或其所導出的一信號之一頻譜。
- 一種儲存有經編碼音訊信號之電腦可讀媒體,該經編碼音訊信號包含相關於預測係數之一資訊、相關於一決定性碼簿之一資訊、相關於一第一增益參數及一第二增益參數之一資訊、指出是否該所接收音訊信號之一經處理訊框係有聲或無聲之一資訊、及相關於一有聲信號訊框及一無聲信號訊框之一資訊;其中該經編碼音訊信號包含關於用於該有聲訊框之一適應性激勵信號之資訊;以及其中該經編碼音訊信號並不包含用於該無聲訊框之LTP參數,其中該適應性激勵信號針對該無聲訊框係設定為零。
- 一種用於編碼一音訊信號之方法,該方法包含:判定是否自一無聲信號音訊訊框判定出殘餘信號;自該音訊信號之該無聲訊框導出預測係數及殘餘信號;針對該無聲訊框計算用於定義相關於一決定性碼簿之一第一激勵信號之一第一增益參數資訊,且用於計算用於定義相關於一類雜訊信號之一第二激勵信號的一第二增益參數資訊;及在該殘餘信號非自一有聲信號音訊訊框被判定時基於相關於一有聲信號訊框之一資訊形成一輸出信號,及在該殘餘信號係自該無聲信號音訊訊框被判定時基於該第一增益參數資訊及該第二增益參數資訊形成該輸出信號;以及 產生用於該有聲訊框之一適應性激勵信號;且其中,當相較於一CELP寫碼方案,用於該無聲訊框之LTP參數係不被傳輸以節省位元,其中該適應性激勵信號針對該無聲訊框被設定為零,且其中針對一相同位元速率使用被節省之該等位元來寫碼更多脈衝。
- 一種用於解碼所接收音訊信號之方法,該所接收音訊信號包含相關於預測係數之一資訊且包含指出是否該所接收音訊信號的一經處理訊框係有聲或無聲之一資訊,其中該所接收音訊信號不包含用於無聲訊框之LTP參數,該方法包含:自用於一經合成信號之一部分的一決定性碼簿產生一第一激勵信號;自用於該經合成信號之該部分的一類雜訊信號產生一第二激勵信號;組合該第一激勵信號與該第二激勵信號以用於產生用於該經合成信號之該部分的一經組合激勵信號;自該經組合激勵信號與該等預測係數合成該經合成信號之該部分;產生用於有聲訊框之一適應性激勵信號;及將用於該無聲訊框之該適應性激勵信號設定為零,且由於因少掉用於該無聲訊框之LTP參數而被節省之位元而針對一相同位元速率提供更多脈衝。
- 一種具有程式碼之電腦程式,該程式碼於在一電腦上運作時用於執行如請求項16或17之方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189392 | 2013-10-18 | ||
EP14178785 | 2014-07-28 | ||
PCT/EP2014/071769 WO2015055532A1 (en) | 2013-10-18 | 2014-10-10 | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201523588A TW201523588A (zh) | 2015-06-16 |
TWI576828B true TWI576828B (zh) | 2017-04-01 |
Family
ID=51752102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103135840A TWI576828B (zh) | 2013-10-18 | 2014-10-16 | 使用決定性及類雜訊資訊編碼音訊信號及解碼音訊信號之技術槪念 |
Country Status (15)
Country | Link |
---|---|
US (3) | US10304470B2 (zh) |
EP (2) | EP3058569B1 (zh) |
JP (1) | JP6366705B2 (zh) |
KR (2) | KR20160070147A (zh) |
CN (1) | CN105723456B (zh) |
AU (1) | AU2014336357B2 (zh) |
CA (1) | CA2927722C (zh) |
ES (1) | ES2839086T3 (zh) |
MX (1) | MX355258B (zh) |
MY (1) | MY187944A (zh) |
PL (1) | PL3058569T3 (zh) |
RU (1) | RU2644123C2 (zh) |
SG (1) | SG11201603041YA (zh) |
TW (1) | TWI576828B (zh) |
WO (1) | WO2015055532A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6082126B2 (ja) * | 2013-01-29 | 2017-02-15 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム |
MX355091B (es) * | 2013-10-18 | 2018-04-04 | Fraunhofer Ges Forschung | Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz. |
AU2014336357B2 (en) * | 2013-10-18 | 2017-04-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
WO2018125989A2 (en) | 2016-12-30 | 2018-07-05 | Intel Corporation | The internet of things |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
DE102018112215B3 (de) * | 2018-04-30 | 2019-07-25 | Basler Ag | Quantisiererbestimmung, computerlesbares Medium und Vorrichtung, die mindestens zwei Quantisierer implementiert |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003001A (en) * | 1996-07-09 | 1999-12-14 | Sony Corporation | Speech encoding method and apparatus |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2010830C (en) | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP3099852B2 (ja) | 1993-01-07 | 2000-10-16 | 日本電信電話株式会社 | 励振信号の利得量子化方法 |
US5864797A (en) * | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
JP3747492B2 (ja) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
JP3707153B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
JPH11122120A (ja) * | 1997-10-17 | 1999-04-30 | Sony Corp | 符号化方法及び装置、並びに復号化方法及び装置 |
DE69840008D1 (de) | 1997-10-22 | 2008-10-23 | Matsushita Electric Ind Co Ltd | Verfahren und Vorrichtung für die Erzeugung von gestreuten Vektoren |
CN100583242C (zh) | 1997-12-24 | 2010-01-20 | 三菱电机株式会社 | 声音译码方法和声音译码装置 |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
EP2378517A1 (en) * | 1998-06-09 | 2011-10-19 | Panasonic Corporation | Speech coding apparatus and speech decoding apparatus |
US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
US6192335B1 (en) * | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6311154B1 (en) | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP3451998B2 (ja) | 1999-05-31 | 2003-09-29 | 日本電気株式会社 | 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体 |
US6615169B1 (en) | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
EP1619664B1 (en) * | 2003-04-30 | 2012-01-25 | Panasonic Corporation | Speech coding apparatus, speech decoding apparatus and methods thereof |
EP1618557B1 (en) * | 2003-05-01 | 2007-07-25 | Nokia Corporation | Method and device for gain quantization in variable bit rate wideband speech coding |
KR100651712B1 (ko) * | 2003-07-10 | 2006-11-30 | 학교법인연세대학교 | 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법 |
JP4899359B2 (ja) | 2005-07-11 | 2012-03-21 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
EP1994531B1 (fr) * | 2006-02-22 | 2011-08-10 | France Telecom | Codage ou decodage perfectionnes d'un signal audionumerique, en technique celp |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
RU2439721C2 (ru) | 2007-06-11 | 2012-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
JP5148414B2 (ja) | 2008-08-29 | 2013-02-20 | 株式会社東芝 | 信号帯域拡張装置 |
RU2400832C2 (ru) * | 2008-11-24 | 2010-09-27 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) | Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
AU2012218778B2 (en) * | 2011-02-15 | 2016-10-20 | Voiceage Evs Llc | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
US9972325B2 (en) * | 2012-02-17 | 2018-05-15 | Huawei Technologies Co., Ltd. | System and method for mixed codebook excitation for speech coding |
CN103295578B (zh) * | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
AU2014336357B2 (en) * | 2013-10-18 | 2017-04-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
PT3058568T (pt) | 2013-10-18 | 2021-03-04 | Fraunhofer Ges Forschung | Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação de modelação espectral relacionada com a fala |
MX355091B (es) | 2013-10-18 | 2018-04-04 | Fraunhofer Ges Forschung | Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz. |
-
2014
- 2014-10-10 AU AU2014336357A patent/AU2014336357B2/en active Active
- 2014-10-10 EP EP14786471.4A patent/EP3058569B1/en active Active
- 2014-10-10 KR KR1020167012955A patent/KR20160070147A/ko active Application Filing
- 2014-10-10 CA CA2927722A patent/CA2927722C/en active Active
- 2014-10-10 CN CN201480057351.4A patent/CN105723456B/zh active Active
- 2014-10-10 EP EP20197471.4A patent/EP3779982A1/en active Pending
- 2014-10-10 SG SG11201603041YA patent/SG11201603041YA/en unknown
- 2014-10-10 MY MYPI2016000654A patent/MY187944A/en unknown
- 2014-10-10 RU RU2016118979A patent/RU2644123C2/ru active
- 2014-10-10 MX MX2016004922A patent/MX355258B/es active IP Right Grant
- 2014-10-10 KR KR1020187004831A patent/KR101931273B1/ko active IP Right Grant
- 2014-10-10 WO PCT/EP2014/071769 patent/WO2015055532A1/en active Application Filing
- 2014-10-10 PL PL14786471T patent/PL3058569T3/pl unknown
- 2014-10-10 ES ES14786471T patent/ES2839086T3/es active Active
- 2014-10-10 JP JP2016524410A patent/JP6366705B2/ja active Active
- 2014-10-16 TW TW103135840A patent/TWI576828B/zh active
-
2016
- 2016-04-18 US US15/131,773 patent/US10304470B2/en active Active
-
2019
- 2019-04-01 US US16/372,030 patent/US10607619B2/en active Active
-
2020
- 2020-03-17 US US16/821,883 patent/US11798570B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003001A (en) * | 1996-07-09 | 1999-12-14 | Sony Corporation | Speech encoding method and apparatus |
Non-Patent Citations (1)
Title |
---|
N. Moreau, et al., "Successive orthogonalizations in the multistage CELP coder", SPEECH PROCESSING 1. SAN FRANCISCO, MAR. 23 - 26, 1992; [PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)], NEW YORK, IEEE, US, (19920323), vol. 1, doi:10.1109/ICASSP.1992.225972, PAGE I-61 – I-64. * |
Also Published As
Publication number | Publication date |
---|---|
EP3058569B1 (en) | 2020-12-09 |
SG11201603041YA (en) | 2016-05-30 |
AU2014336357B2 (en) | 2017-04-13 |
KR20180021906A (ko) | 2018-03-05 |
EP3779982A1 (en) | 2021-02-17 |
ES2839086T3 (es) | 2021-07-05 |
KR101931273B1 (ko) | 2018-12-20 |
US11798570B2 (en) | 2023-10-24 |
US20200219521A1 (en) | 2020-07-09 |
US10607619B2 (en) | 2020-03-31 |
WO2015055532A1 (en) | 2015-04-23 |
KR20160070147A (ko) | 2016-06-17 |
RU2016118979A (ru) | 2017-11-23 |
CA2927722C (en) | 2018-08-07 |
JP6366705B2 (ja) | 2018-08-01 |
CN105723456B (zh) | 2019-12-13 |
MX355258B (es) | 2018-04-11 |
PL3058569T3 (pl) | 2021-06-14 |
RU2644123C2 (ru) | 2018-02-07 |
US20190228787A1 (en) | 2019-07-25 |
TW201523588A (zh) | 2015-06-16 |
AU2014336357A1 (en) | 2016-05-19 |
CN105723456A (zh) | 2016-06-29 |
CA2927722A1 (en) | 2015-04-23 |
JP2016537667A (ja) | 2016-12-01 |
US10304470B2 (en) | 2019-05-28 |
MY187944A (en) | 2021-10-30 |
US20160232908A1 (en) | 2016-08-11 |
EP3058569A1 (en) | 2016-08-24 |
MX2016004922A (es) | 2016-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI575512B (zh) | 使用語音相關頻譜成形資訊編碼音訊信號及解碼音訊信號之技術槪念 | |
TWI576828B (zh) | 使用決定性及類雜訊資訊編碼音訊信號及解碼音訊信號之技術槪念 | |
BR112016008544B1 (pt) | Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. |