TWI582758B - 藉由使用諧波抑制而從ㄧ第一編碼演算法以及ㄧ第二編碼演算法中選擇其中之一之裝置與方法 - Google Patents
藉由使用諧波抑制而從ㄧ第一編碼演算法以及ㄧ第二編碼演算法中選擇其中之一之裝置與方法 Download PDFInfo
- Publication number
- TWI582758B TWI582758B TW104124171A TW104124171A TWI582758B TW I582758 B TWI582758 B TW I582758B TW 104124171 A TW104124171 A TW 104124171A TW 104124171 A TW104124171 A TW 104124171A TW I582758 B TWI582758 B TW I582758B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- algorithm
- estimated
- encoding
- coding algorithm
- Prior art date
Links
- 238000004422 calculation algorithm Methods 0.000 title claims description 162
- 238000000034 method Methods 0.000 title claims description 45
- 230000009467 reduction Effects 0.000 title description 7
- 238000005259 measurement Methods 0.000 claims description 107
- 230000006978 adaptation Effects 0.000 claims description 32
- 230000007774 longterm Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 239000011295 pitch Substances 0.000 description 57
- 230000001052 transient effect Effects 0.000 description 23
- 238000005070 sampling Methods 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 11
- 230000001934 delay Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- VWDWKYIASSYTQR-UHFFFAOYSA-N sodium nitrate Chemical compound [Na+].[O-][N+]([O-])=O VWDWKYIASSYTQR-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mathematical Physics (AREA)
Description
本發明係關於一種音訊編碼,更關於一種被切換之音訊編碼,其中對於一聲音訊號之不同部分,被編碼的訊號係藉由使用不同編碼演算法而產生。
在習知技術中,已有一些被切換之音訊編碼器可以為一音訊的不同部分決定不同的編碼演算法。一般而言,被切換之音訊編碼器係為了兩個不同模式之間的切換而提供,也就是演算法,例如代數碼激勵線性預測(Algebraic Code Excited Linear Prediction,ACELP)與轉換編碼激勵(Transform Coded Excitation,TCX)。
動態影像專家組USAC(MPEG Unified Speech Audio Coding)的線性預測域(linear prediction domain,LPD)係基於兩個不同的模式ACELP、TCX。ACELP係提供較佳的品質給類語音(speech-like)以及類暫態(transient-like)的訊號。TCX提供較佳的品質給類音樂(music-like)以及類噪音(noise-like)的訊號。編碼器決定在一畫面接畫面(frame-by-frame)基準上使用哪一種模式。編碼器所作的決定對於編解碼品質是相當重要的。單個錯誤決定能產生強大的人為影響,特別是在低位元率的情況。
決定使用哪一種模式最直接的方式係為一種閉迴路模式選擇,也就是先執行兩種模式之一完整的編碼/解碼,然後基於音訊以及編碼/解碼音訊來計算兩個模式之一選擇標準(例如分段式訊噪比segmental SNR),
最後基於選擇標準來選擇一模式。這種方式一般皆能產生一個穩定且強健的決定。然而,它也需要大量的複雜度,因為兩種模式必需在每一畫面中來執行。
為減少複雜度,另一種方式係為開迴路模式選擇。開迴路選擇不是對兩種模式執行完整的編碼/解碼,而是藉由使用由低複雜度所計算出來之一選擇標準而選擇其中一模式。然後,最差情況複雜度可藉由最少複雜度模式(通常是TCX)而被減少,亦即減少計算選擇標準所需的複雜度。在複雜度上的節省通常是具大的,以致當編解碼最差情況複雜度處於受限時,這種方式能具有吸引力。
AMR-WB+標準(定於國際標準3GPP TS 26.290 V6.1.0 2004-12)包含一種開迴路模式選擇,其係使用於在一個80毫秒的畫面中,並在ACELP/TCX20/TCX40/TCX80的所有組合之間進行決定。它被描述於3GPP TS 26.290中的5.2.4章節。它亦被描述於研討會論文“Low Complex Audio Encoding for Mobile,Multimedia,VTC 2006,Makinen et al.”以及美國專利(US 7,747,430 B2 and US 7,739,120 B2),且上述文獻皆相同作者。
美國專利US 7,747,430 B2揭露一種基於長期預測參數之一分析之一開迴路模式選擇,美國專利US 7,739,120 B2揭露一種基於指出一音訊之各部分的音訊內容之類型之訊號特徵之開迴路模式選擇。其中,假使這樣一個選擇係為不可行,則該選擇係更基於一種統計估價(為了音訊的相鄰部分而實行)。
AMR-WB+之開迴路模式選擇可描述於兩個主要的步驟。在第一主要步驟中,多個特徵係計算於音訊上,例如能量等級之標準差、低頻/高頻能量關係、總能量、導抗頻譜對(immittance spectral pair,ISP)距離、音高延遲(pitch lag)與增益以及頻譜傾斜。然後,藉由使用一簡單的閥值應用分類器(threshold-based classifier),這些特徵可使用來在ACELP與TCX之間作出一選擇。假使TCX在第一主要步驟中被選擇,則第二主要步驟係在TCX20/TCX40/TCX80之可能組合之間並以一閉迴路方式來選擇。
專利WO 2012/110448 A1係揭露基於一音訊之一暫態檢測結果以及一品質結果而在兩個編碼演算法(具有不同特徵)之間進行選擇之
一方法。此外,其係提露一種滯後(hysteresis),其中該滯後係依賴過去的選擇模式,亦即音訊之早期部分。
在研討會論文“Low Complex Audio Encoding for Mobile,Multimedia,VTC 2006,Makinen et al.”中,AMR-WB+之閉迴路以及開迴路模式選擇係被比較。主觀的聽力測驗係指出開迴路模式選擇相較於閉迴路模式選擇有較差的執行。但它也指出開迴路模式選擇可減少最差情況複雜度約40%。
本發明之一目的在於提供一種改良的方法,其係能在一第一編碼演算法以及一第二編碼演算法之間進行選擇,且可達到較佳的性能並減少複雜度。
本發明之一目的可藉由依據申請專利範圍1之一裝置、依據申請專利範圍18之一方法以及依據申請專利範圍19之一電腦程式而達到。
本發明之實施例係提供可選擇具有一第一特徵之一第一編碼演算法以及具有一第二特徵之一第二編碼演算法之其中之一之一裝置,以編碼一音訊之一部分,以得到該音訊之該部分之一編碼版,其係包含:一濾波器,係接收該音訊、減少音訊之諧波的振幅、並輸出該音訊之一濾波版;一第一估計器,係使用該音訊之濾波版來估計音訊之該部分之一訊噪比或一分段式訊噪比,以作為該音訊之該部分之一第一品質測量,其係關於第一編碼演算法,但非實際上使用第一編碼演算法來編碼與解碼該音訊之該部分;一第二估計器,係估計一訊噪比或一分段式訊噪比以作為該音訊之該部分之一第二品質測量,其係關於第二編碼演算法,但非實際上使用第二編碼演算法來編碼與解碼該音訊之該部分;以及一控制器,係依據在第一品質測量與第二品質測量之間之一比較而選擇第一編碼演算法或第二編碼演算法。
本發明之實施例係提供可選擇具有一第一特徵之一第一編
碼演算法以及具有一第二特徵之一第二編碼演算法之其中之一之一方法,以編碼一音訊之一部分,以得到該音訊之該部分之一編碼版,其係包含:濾波該音訊以減少音訊之諧波的振幅並輸出該音訊之一濾波版;使用該音訊之濾波版來估計音訊之該部分之一訊噪比或一分段式訊噪比,以作為該音訊之該部分之一第一品質測量,其係關於第一編碼演算法,但非實際上使用第一編碼演算法來編碼與解碼該音訊之該部分;估計該音訊之該部分之一第二品質測量,其係關於第二編碼演算法,但非實際上使用第二編碼演算法來編碼與解碼該音訊之該部分;以及依據在第一品質測量與第二品質測量之間之一比較而選擇第一編碼演算法或第二編碼演算法。
本發明之實施例係基於下面識別,即藉由第一及第二編碼演算法之各品質測量以及依據在第一與第二品質測量之間之一比較而選擇該等編碼演算法之其中之一,具有較佳性能之一開迴路選擇可被實現。品質測量可被估計,亦即音訊並非實際地被編碼與解碼以得到品質測量。因此,品質測量可在複雜度減少的情況下被得到。然後,與一閉迴路模式選擇相比,模式選擇可藉由使用被估計之品質測量而執行。此外,本發明係基於下面識別,即假使第一品質測量之估計使用音訊之該部分之一濾波版,則可得到改良的模式選擇,其中相比於音訊之非濾波版,諧波可被減少。
在本發明的實施例中,先實現一開迴路模式選擇,在其中ACELP與TCX之分段式訊噪比先被估計並且具有低複雜度。然後,藉由使用這些被估計之分段式訊噪比值而執行模式選擇,就如在一閉迴路模式選擇中一樣。
本發明的實施例並非使用一種習知特徵加上分類器的方法,就如在AMR-WB+之開迴路模式選擇所作的一樣。相反地,本發明的實施例先估計各模式之一品質測量,再選擇能給出最佳品質之模式。
10‧‧‧裝置
12‧‧‧第一估計器
14‧‧‧第二估計器
16‧‧‧控制器
18‧‧‧輸出
2‧‧‧諧波減少濾波器
20‧‧‧編碼器
22‧‧‧前處理單元
24‧‧‧切換器
26‧‧‧第一編碼階段
28‧‧‧第二編碼階段
30‧‧‧輸出介面
4‧‧‧失能單元
40‧‧‧輸入音訊
42‧‧‧加權重線性預測編碼係數
44‧‧‧加權重音訊
46‧‧‧第一品質測量
48‧‧‧音高延遲
50‧‧‧第二品質測量
52‧‧‧控制訊號
54‧‧‧箭號
56、58‧‧‧表述
6‧‧‧不連續移除單元
60‧‧‧被編碼音訊
8‧‧‧單元
98、100、102、104、106、108、110、112、114、116、118、120‧‧‧步驟
圖1為本發明一實施例之一裝置的示意圖,該裝置係選擇一第一編碼演算法以及一第二編碼演算法之其中之一。
圖2係為本發明一實施例之編碼一音訊之一裝置的示意圖。
圖3為本發明一實施例之一裝置的示意圖,該裝置係選擇一第一編碼演算法以及一第二編碼演算法之其中之一。
圖4a與圖4b為訊噪比與分段式訊噪比之可能態樣。
以下將參照相關圖式,說明依本發明較佳實施例之一種藉由使用諧波抑制而從一第一編碼演算法以及一第二編碼演算法中選擇其中之一之裝置與方法,其中相同的元件將以相同的參照符號加以說明。
在下面的敘述中,不同圖式之相似的元件/步驟係由相同的標號所表示。需注意者,在圖式中,一些屬於了解本發明之非必要的東西,例如訊號連接或類似的,在本發明中係省略。
圖1係顯示一裝置10,其係選擇一第一編碼演算法(例如TCX演算法)以及一第二編碼演算法(例如ACELP演算法)之其中之一,並作為編碼器以編碼一音訊之一部分。裝置10包含一第一估計器12,其係估計音訊之該部分之一訊噪比或一分段式訊噪比,以作為該音訊部分之一第一品質測量。第一品質測量係關於第一編碼演算法。裝置10包含一濾波器2,其係接收該音訊、減少音訊之諧波的振幅、並輸出該音訊之一濾波版。濾波器2可在第一估計器12內,就如圖1所示,或者在第一估計器12之外。第一估計器12係使用音訊之濾波版來估計第一品質測量。換言之,第一估計器12係估計音訊之該部分所應有的第一品質測量,但並非實際上使用第一編碼演算法來編碼與解碼該音訊之該部分。裝置10包含一第二估計器14,其係估計音訊部分之一第二品質測量。第二品質測量係關於第二編碼演算法。換言之,第二估計器14係估計音訊之該部分所應有的第二品質測量,但並非實際上使用第二編碼演算法來編碼與解碼該音訊之該部分。另
外,裝置10包含一控制器16,其係依據在第一品質測量與第二品質測量之間之一比較而選擇第一編碼演算法或第二編碼演算法。控制器可包含一輸出18,其係指出被選擇之編碼演算法。
在下面敘述中,假使濾波器2被提供來減少諧波振幅並且沒有失能,則第一估計器係使用音訊之濾波版,也就是音訊之該部分之濾波版,以估計第一品質測量,即使在沒有明確指出的情況下。
在一實施例中,第一編碼演算法之第一特徵係較適合應用於類音樂與類噪音之訊號,而第二編碼演算法之第二特徵係較適合應用於類語音與類暫態之訊號。在本發明之實施例中,第一編碼演算法係為一音訊編碼演算法,就如一變換編碼演算法(transform coding algorithm),例如一改進離散餘弦變換(modified discrete cosine transform,MDCT),就如TCX編碼演算法。其他變換編碼演算法可基於一快速傅立葉轉換、或任何其他變換或濾波器組(filterbank)。在本發明之實施例中,第二編碼演算法係為一語音編碼演算法,就如碼激勵線性預測(code excited linear prediction,CELP)編碼演算法,就如ACELP編碼演算法。
在實施例中,品質測量係代表一種感知品質測量。在實施例中,係計算一種作為第一編碼演算法之主觀品質之一估計之單一值以及作為第二編碼演算法之主觀品質之一估計之單一值。基於這兩個值的比較而可選擇能給出最佳估計主觀品質之編碼演算法。這與在AMR-WB+標準中所作的不同,在其中代表訊號之不同特徵的許多特徵先被計算,然後一分類器被應用來決定選擇哪一個演算法。
在實施例中,各別的品質測量係基於加權重(weighted)之音訊之一部分而估計,也就是音訊之一加權重版。在實施例中,加權重音訊可定義為被一權重函數所濾波之一音訊,其中該權重函數係為一加權重線性預測編碼(LPC)濾波A(z/g),其中A(z)為一LPC濾波器,g為一介於0與1之間的權重,如0.68。藉此方法就可得到良好的感知品質之測量。需注意者,LPC濾波器A(z)與加權重LPC濾波器A(z/g)是在一前處理階段所決定的,並且它們也使用於兩個編碼演算法中。在其他實施例中,權重函數可為一線性濾波器、一有限脈衝響應(FIR)濾波器或一線性預測濾波器。
在實施例中,品質測量係為在加權重訊號域中的分段式訊噪比。如此,在加權重訊號域中之分段式訊噪比係代表一個良好的感知品質之測量,並且因此可以一個有利的方式作為品質測量。這也是使用於ACELP與TCX編碼演算法中的品質測量,以估計編碼參數。
另一個品質測量可為在加權重訊號域中的訊噪比。其他的品質測量可為分段式的訊噪比,也就是在非加權重訊號域中之音訊的對應部分之訊噪比,也就是沒有被(加權重)之線性預測編碼參數所濾波。
一般而言,訊噪比係一個取樣接一個取樣的比較原有以及處理過之音訊(例如語音訊號)。它的目的在於測量重現輸入波形之波形編碼器之變形。訊噪比可如圖4a所計算,其中x(i)與y(i)分別為由i所表示之原有以及處理過之取樣,並且N為取樣的總數。分段式的訊噪比在沒有以整個訊號來進行的情況下,係計算多個短分段(例如1到10毫秒,就如5毫秒)的訊噪比值之平均。訊噪比可如圖4b所計算,其中N與M分別為分段長度與分段的總量。
在本發明的實施例中,音訊的該部分係代表藉由視窗化(windowing)音訊所得到之音訊之一畫面(frame),並且一合適的編碼演算法之選擇係為了多個由視窗化一音訊所得到之連續的畫面而執行。在下面的敘述中,在與音訊的關連下,「部分」與「畫面」這兩個詞是可交換的。在實施例中,各畫面係分為多個子畫面,並且分段式的訊噪比係為了各畫面並藉由計算各子畫面的訊噪比而被估計的,並且被轉換為dB的單位且計算出子畫面訊噪比的平均值(dB)。
因此,在實施例中,並非估計出輸入音訊與被解碼音訊之間的(分段式)訊噪比,而是估計出加權重輸入音訊與加權重被解碼音訊之間的(分段式)訊噪比。在關注此(分段式)訊噪比的情況下,可參考AMR-WB+標準之5.2.3章節(International Standard 3GPP TS 26.290 V6.1.0 2004-12)。
在本發明的實施例中,各別的品質測量係基於加權重音訊之一部分之能量並基於在使用各演算法來編碼該訊號部分的情況下所導入之一被估計變形(estimated distortion)而被估計的,其中第一與第二估計器係
可依據一加權重音訊之能量而決定被估計變形。
在本發明之實施例中,當需量化(quantizing)音訊之該部分時,係決定藉由使用於第一編碼演算法中之一量化器而被引入之一被估計量化器變形,並且第一品質測量係基於加權重音訊之該部分之能量與被估計之量化器變形而被決定。在這樣的實施例中,當需藉由用於第一編碼演算法之一量化器以及一熵編碼器來進行編碼時,為了音訊部分之一全域增益可被估計,以致音訊部分可產生一給定的目標位元速率,其中該被估計量化器變形係基於被估計全域增益而決定。在這樣的實施例中,被估計量化器變形可基於被估計增益之一能力(power)而決定。當用於第一編碼演算法之量化器為一均勻標量量化器(uniform scalar quantizer)時,第一估計器可藉由使用公式D=G*G/12而決定被估計量化器變形,其中D為被估計量化器變形,G為被估計全域增益。在第一編碼演算法使用另一種量化器的例子中,量化器變形可以另一種方式而從全域增益來決定。
發明人認可一品質測量(例如一分段式訊噪比)可藉由使用上述特徵之任何組合並以一合適的方式而被估計。其中當使用第一編碼演算法(例如TCX演算法)來編碼與解碼該音訊之該部分時,可得到該分段式訊噪比。
在本發明之實施例中,第一品質測量係為一分段式訊噪比。分段式訊噪比係藉由計算音訊部分之各子部分之一被估計訊噪比(其係基於加權重音訊之對應子部分之一能量以及被估計量化器變形)並藉由計算加權重音訊之該等子部分之訊噪比之一平均值而被估計,以得到加權重音訊之該部分之被估計分段式訊噪比。
在本發明之實施例中,當使用調適碼本(adaptive codebook)來編碼音訊部分時,係決定一被估計調適碼本變形,其係藉由使用於第二編碼演算法中之一調適碼本而被引入。並且第二品質測量係基於加權重音訊之該部分之一能量以及被估計調適碼本變形而被估計。
在這樣的實施例中,對音訊之該部分之各子部分而言,調適碼本可基於被轉移至過去之加權重音訊之子部分之一版本並藉由在一前處理階段中決定之一音高延遲而被近似,並且可估計一調適碼本增益以致能
最小化加權重音訊之該部分之子部分與被近似之調適碼本之間之一誤差,並且可基於在加權重音訊之該部分之子部分與藉由調適碼本增益而縮放之被近似調適碼本之間之一誤差之能量而決定一被估計調適碼本變形。
在本發明之實施例中,為了音訊部分之各子部分所決定之被估計調適碼本變形可被一固定因子減少,以將變形之一減量考慮在內,這是藉由在第二編碼演算法中之一創新碼本所達到的。
在本發明之實施例中,第二品質測量係為一分段式訊噪比。分段式訊噪比係藉由計算各子部分之一被估計訊噪比(其係基於加權重音訊之對應子部分之能量以及被估計調適碼本變形)並藉由計算該等子部分之訊噪比之一平均值而被估計,以得到被估計分段式訊噪比。
在本發明之實施例中,調適碼本可基於被轉移至過去之加權重音訊之部分之一版本並藉由在一前處理階段中決定之一音高延遲而被近似,並且可估計一調適碼本增益以致能最小化加權重音訊之該部分與被近似之調適碼本之間之一誤差,並且可基於在加權重音訊之該部分與藉由調適碼本增益而縮放之被近似調適碼本之間之能量而決定一被估計調適碼本變形。如此,被估計調適碼本變形可在低複雜度的情況下被決定。
發明人認可品質測量(例如一分段式訊噪比)可藉由使用上述特徵之任何組合並以一合適的方式而被估計。其中當使用第二編碼演算法(例如ACELP演算法)來編碼與解碼該音訊之該部分時,可得到該分段式訊噪比。
在本發明之實施例中,一滯後機制係用來比較被估計之品質測量。這可用來讓使用哪一種演算法的決定更穩定。該滯後機制可依據被估計之品質測量(例如它們之間的差異)以及其他參數,例如關於先前決定的統計、時間靜止畫面的數量與畫面中的暫態。當考慮到這些滯後機制時,可例如參考申請專利WO 2012/110448 A1。
在本發明之實施例中,編碼一音訊之一編碼器係包含裝置10、一階段以執行第一編碼演算法以及一階段以執行第二編碼演算法。其中,該編碼器係依據控制器16之選擇而使用第一編碼演算法或第二編碼演算法來編碼音訊之該部分。在本發明之實施例中,可編碼與解碼之一系統係包含
該編碼器以及一解碼器,其可接收音訊部分之編碼版以及用來編碼音訊部分之演算法之一指示,並可使用被指出之演算法來解碼音訊部分之編碼版。
如圖1所示以及上述之一開迴路模式選擇演算法係在一早先申請案PCT/EP2014/051557中被描述。該演算法係用以在兩種模式(例如ACELP與TCX)之間並以一畫面接畫面的基準上(frame-by-frame basis)作出一選擇。該選擇可基於ACELP與TCX二者之分段式訊噪比之一估計。帶有最高被估計分段式訊噪比之模式係被選擇。非必要地,一滯後機制可使用來提供更強健的選擇。ACELP之分段式訊噪比可藉由使用調適碼本變形之一近似以及創新碼本變形之一近似而被估計。調適碼本可藉由使用由一音高分析演算法所估計之一音高延遲而在加權重訊號域中被近似。該變形可在加權重訊號域中來計算並作為一最佳增益。然後,該變形可藉由一固定因子而減少,以近似於該創新碼本變形。TCX之分段式訊噪比可藉由使用真實TCX編碼器之一簡化版而被估計。輸入訊號可先由一改良離散餘弦轉換(MDCT)來轉換,再藉由使用一加權重線性預測編碼濾波器而被塑形。最後,該變形可藉由使用一全域增益與一全域增益估計器而在加權重MDCT域中來估計。
結果,在早先申請案中所描述之開迴路模式選擇演算法係大部分時間皆提供期望中的決定,即在類語音與類暫態訊號上選擇ACELP並且在類音樂與類噪音訊號上選擇TCX。然而,發明人認可下面事項可能會發生,就是在一些諧波音樂訊號上,一些時候係選擇ACELP。在這樣的訊號上,調適碼本一般由於諧波訊號的高可預測性而具有一高預測增益,並能產生低變形以及較TCX更高的分段式訊噪比。然而,TCX在大部分的諧波音樂訊號上顯為更好聽,所以TCX在這些情況中應是更好的選擇。
如此,本發明建議使用輸入訊號之一版本而執行訊噪比或分段式訊噪比之估計,而作為第一品質測量,其係被濾波以減少其諧波。如此,就可得到諧波音樂訊號上之一改良模式選擇。
一般而言,任何能減少諧波之合適的濾波器皆可使用。在本發明之實施例中,該濾波器為一長期預測濾波器。一長期預測濾波器之一簡化例子係為
F(z)=1-g.z-T
其中,濾波器參數為增益g以及音高延遲T,其係從音訊來決定。
本發明之實施例係基於一長期預測濾波器,其係應用於音訊並在TCX分段式訊噪比估計中之MDCT分析之前。長期預測濾波器係在MDCT分析之前減少在輸入訊號中的諧波振幅。結果就是在加權重MDCT域中的變形被減少、TCX之被估計分段式訊噪比被增加、以及TCX在諧波音樂訊號上更常被選擇。
在本發明的實施例中,長期預測濾波器之一轉移函數係包含一音高延遲之一整數部分以及依據該音高延遲之一分數部分之一多閥門濾波器(multi tap filter)。由於整數部分只被使用於正常取樣率架構中,所以可得到有效率的實行。同時,由於分數部分使用於多閥門濾波器中,故可達到高精確度。藉由將多閥門濾波器中的分數部分考慮進來,可達到諧波能量的去除,同時在諧波附近的該等部分之能量亦被去除。
在本發明的實施例中,長期預測濾波器係描述如下:
其中Tint與Tfr分別為一音高延遲之整數與分數部分,g為一增益,β為一權重,B(z,Tfr)為一有限脈衝響應(FIR)低通濾波器,其係數係依據該音高延遲之分數部分。上述長期預測濾波器之實施例的敘述會在下面提出。
音高延遲與增益可在一畫面接畫面基準上來估計。
預測濾波器可基於至少一諧波性測量(harmonicity measure)(例如正規化(normalized)關聯性或預測增益)及/或至少一時間結構測量(例如時間平整性(flatness)測量或能量改變)之一組合而失能(即增益等於0)。
濾波器可在一畫面接畫面的基準上應用於輸入音訊。假使濾波器參數從一畫面到下一畫面的過程中改變,則在兩畫面之間的邊界上會產生一不連續。在實施例中,裝置更包含一單元以移除由濾波器造成在音訊中的不連續。為移除可能的不連續,可使用任何技術,例如可與那些描述於
專利US5012517、EP0732687A2、US5999899A或US7353168B2內相比之技術。移除可能不連續之另一技術係在下面描述。
在詳細描述圖3所示之第一估計器12與第二估計器14之一實施例之前,係描述如圖2所示之一編碼器20之一實施例。
編碼器20係包含第一估計器12、第二估計器14、控制器16、一前處理單元22、一切換器24、一第一編碼階段26以執一TCX演算法、一第二編碼階段28以執行一ACELP演算法、以及一輸出介面30。前處理單元22可為一常用的語音/音訊統合編碼(Unified speech and audio coding,USAC)編碼器之一部分並且可輸出線性預測編碼係數、加權重線性預測編碼係數、加權重音訊以及一組音高延遲。需注意者,這些參數皆使用於兩個編碼演算法,即TCX演算法與ACELP演算法。如此,這些參數就不必為了開迴路模式決定而被額外的計算出來。使用在開迴路模式決定中之已經被計算出來的參數的好處就是能降低複雜度。
如圖2所示,裝置包含諧波減少濾波器2。裝置更包含一非必要失能單元4以基於至少一諧波性測量(harmonicity measure)(例如正規化(normalized)關聯性或預測增益)及/或至少一時間結構測量(例如時間平整性(flatness)測量或能量改變)之一組合而失能該諧波減少濾波器2。裝置包含一非必要的不連續移除單元6以移除音訊之濾波版本之不連續。此外,裝置非必要地包含一單元8以估計諧波減少濾波器2之濾波器參數。在圖2中,這些元件(2、4、6、8)係顯示而作為第一估計器12之一部分。不用說,這些元件可實現於第一估計器之外面或與第一估計器分離,並且能提供音訊之濾波版本給第一估計器。
一輸入音訊40係提供於一輸入線。輸入音訊40係應用於第一估計器12、前處理單元22以及兩編碼階段26、28。在第一編碼器12中,輸入音訊40係應用於濾波器2,並且輸入音訊之濾波版本係用於估計第一品質測量。在濾波器被失能單元4所失能的情況中,輸入音訊40被使用來估計第一品質測量,而非使用輸入音訊之濾波版本。前處理單元22係以一習知方式處理輸入音訊以得到線性預測編碼係數以及加權重線性預測編碼係數42並濾波帶有加權重線性預測編碼(LPC)係數42之音訊40,以得
到加權重音訊44。前處理單元22係輸出加權重LPC係數42、加權重音訊44以及一組音高延遲48。就如習知技藝者所知道的,加權重LPC係數42與加權重音訊44可被分段為複數個畫面或子畫面。該分段可藉由以一合適的方式來視窗化音訊而得到。
在其他實施例中,可提供一前處理器,其係基於音訊之濾波版而產生加權重LPC係數與一加權重音訊。然後,基於音訊之濾波版之加權重LPC係數與加權重音訊係應用於第一估計器以估計第一品質測量,而非使用加權重LPC係數42與加權重音訊44。
在本發明之實施例中,可使用被量化之LPC係數或被量化之加權重LPC係數。如此,下面敘述應被了解,就是LPC係數亦涵蓋被量化之LPC係數,並且加權重LPC係數亦涵蓋加權重被量化之LPC係數。就這一點而言,值得注意的是,語音/音訊統合編碼(USAC)之TCX演算法係使用被量化加權重LPC係數以塑形改良離散餘弦轉換(MCDT)頻譜。
第一估計器12係接收音訊40、加權重LPC係數42與加權重音訊44,並基於此而估計第一品質測量46,且輸出第一品質測量至控制器16。第二估計器16係接收加權重音訊44與該組音高延遲48,並基於此而估計第二品質測量50,且輸出第二品質測量50至控制器16。就如習知技藝者所知,加權重LPC係數42、加權重音訊44與該組音高延遲48已經在前一模組(亦即前處理單元22)被計算出來,所以現在可不用其他花費而被使用。
控制器係基於所接收之品質測量之一比較而選擇TCX演算法與ACELP演算法之其中之一。就如上所指出的,控制器可使用一滯後機制來決定使用哪一演算法。第一編碼階段26或第二編碼階段28之選擇係由圖2之切換器24所示意,切換器24係藉由控制器16所輸出之一控制訊號52而控制。控制訊號52係指出第一編碼階段26或第二編碼階段28將被使用。基於控制訊號52,由圖2之箭號54所表示之所需要的訊號(其係至少包含LPC係睥、加權重LPC係數、音訊、加權重音訊與該組音高延遲)係被應用至第一編碼階段26或第二編碼階段28。被選擇之編碼階段係應用相關連的編碼演算法並輸出被編碼的表述56或58至輸出介面30。輸出介
面30可輸出一被編碼音訊60,其可包含被編碼的表述56或58、LPC係數或加權重LPC係數、被選擇之編碼演算法之參數以及關於被選擇之編碼演算法之資訊。
圖3係描述特定的實施例,其係估計第一與第二品質測量,其中第一與第二品質測量係為在加權重訊號域中的分段式訊噪比。圖3係以流程圖的形式來顯示第一估計器12、第二估計器14與其功能,並顯示各別的估計之步驟。
TCX分段式訊噪比的估計
第一(TCX)估計器係接收音訊40(輸入訊號)、加權重LPC係數42與加權重音訊44作為輸入。音訊40之濾波版係在步驟98中產生。在音訊40之濾波版中,諧波係被減少或抑制。
音訊40可被分析以決定至少一諧波性測量(例如正規化關聯性或預測增益)及/或至少一時間結構測量(例如時間平整性測量或能量改變)。基於這些測量之其中之一或這些測量之一組合,濾波器2連同濾波98可被失能。假使濾波98失能,則使用音訊40來進行第一品質測量之估計,而非使用其濾波版本。
在本發明之實施例中,移除不連續(未顯示於圖3)之一步驟可跟在濾波98之後,以移除音訊中的不連續,其係由濾波98所導致。
在步驟100,音訊40之濾波版係被視窗化。視窗化可由一個10毫秒之低重疊正弦視窗(low-overlap sine window)來進行。當該過去畫面(past-frame)為ACELP時,遮擋尺寸(block-size)可增加5毫秒、視窗的左邊可為四方形、並且ACELP合成濾波器之視窗化零脈衝反應(windowed zero impulse response)可從視窗化輸入訊號中被移除。這跟在TCX演算法中所作的相像。音訊40之濾波版之一畫面(其係代表音訊之一部分)係從步驟100輸出。
在步驟102中,視窗化音訊,亦即產生的畫面,係被一MDCT而轉換。在步驟104中,頻譜塑形係藉由塑形帶有加權重LPC係數之MDCT頻譜而進行。
在步驟106中,當用一熵編碼器(例如一算術編碼器)進行
編碼時,一全域增益G係被估計,以致用增益G所量化之加權重頻譜可產生一給定目標R。由於一增益係為了整個畫面而決定,故使用全域增益這個詞。
以下要解釋全域增益估計之一實現的例子。需注意者,該全域增益估計係合適於特定的實施例,即TCX編碼演算法使用帶有一算術編碼器之一標量量化器(scalar quantizer)。這樣帶有一算術編碼器之一縮放量化器係在MPEG USAC標準中被假定。
起始化
首先,用於增益估計之變數係藉由下面來起始化:
1. Set en[i]=9.0+10.0*log10(c[4*i+0]+c[4*i+1]+c[4*i+2]+c[4*i+3]),
其中,0<=i<L/4,c[]係為要量化之係數的向量,L為c[]的長度。
2. Set fac=128,offset=fac and target=any value(e.g.1000)
疊代
然後,下列的操作方塊係執行NITER次(例如NITER=10)。
1. fac=fac/2
2. offset=offset-fac
3. ener=0
4. for every i where 0<=i<L/4 do the following:
if en[i]-offset>3.0,then ener=ener+en[i]-offset
5. if ener>target,then offset=offset+fac
上述疊代的結果為補償值(offset value)。在疊代之後,全域增益係估計為G=10^(offset/20)。
估計全域增益的方式可依據所使用的量化器與熵編碼器而變化。在MPEG USAC標準中,帶有一算術編碼器之一標量量化器係被假定。其他TCX方式可使用一個不同的量化器,並且習知技術者係知道如何估計對應這樣不同的量化器之全域增益。舉例來說,AMR-WB+係假定使用一RE8格狀量化器(lattice quantizer)。對於這樣一個量化器,全域增益的估計可如同在3GPP TS 26.290 V6.1.0 2004-12之第34頁的章節5.3.5.7所描述的來進行,其中係假定一固定目標位元速率。
在步驟106之估計全域增益之後,步驟108係進行變形估計。特定地說,量化器係基於被估計之全域增益而被近似。在本實施例中,其係假定使用一均勻標量量化器。如此,量化器變形係由簡單公式D=G*G/12來決定,其中D代表被決定之量化器變形,G代表被估計之全域增益。這對應至一均勻標量量化器變形之高比例近似(high-rate approximation)。
基於被決定之量化器變形,分段式訊噪比計算係在步驟110中來進行。該畫面之各子畫面之訊噪比係被計算並作為加權重音訊能量與變形D之比例,變形D係假定為在該等子畫面中為定值。舉例而言,該畫面係分為連續的四個子畫面。然後,分段式訊噪比係為四個子畫面之訊噪比之平均值並且可以dB來表示。
該方式可准許第一分段式訊噪比之估計,當使用TCX演算法而實際地編碼與解碼該目標畫面時,可得到第一分段式訊噪比,然而卻不需實際地編碼與解碼音訊,因此可大幅降低複雜度並減少計算時間。
ACELP分段式訊噪比之估計
第二估計器14係接收加權重音訊44與該組音高延遲48,其係已經在前處理單元22中被計算出來。
如步驟112所示,在各子畫面中,調適碼本係藉由簡單地使用加權重音訊與音高延遲T而被近似。調適碼本係藉由下面而被近似:xw(n-T),n=0,…,N
其中xw為加權重音訊,T為對應子畫面之音高延遲,N為子畫面長度。據此,調適碼本係藉由使用被T轉移到過去之子畫面之一版本而被近似。因此,在本發明之實施例中,調適碼本係以一非常簡單的方式而被近似。
在步驟114中,係決定各子畫面之一調適碼本增益。特定來說,在各子畫面中,碼本增益G係被估計,以致其最小化在加權重音訊與被近似之調適碼本之間之誤差。這可藉由簡單地比較各取樣之兩種訊號之間的差異以及找到使這些差異之總和最小化之增益而達到。
在步驟116中,係決定各子畫面之調適碼本變形。在各子畫
面中,由調適碼本所引入之變形D就是在加權重音訊與由增益G所縮放之被近似之調適碼本之間的誤差之能量。
在步驟116中所決定的變形可在一非必要的步驟118中來調整,以考慮到創新的碼本。用於ACELP演算法中之創新碼本的變形可被估計為一定值。在本發明已描述的實施例中,其係假定創新碼本藉由一固定因子而減少變形D。如此,在步驟116所得到的各子畫面之變形可在步驟118中乘以一固定因子,例如為0到1次方的固定因子,例如為0.055。
步驟120係進行分段式訊噪比之計算。在各子畫面中,訊噪比係計算而作為加權重音訊能量與變形D之比值。然後,分段式訊噪比係為四個子畫面之訊噪比之平均值並可以dB表示。
該方式係准許第二訊噪比之估計,當使用ACELP演算法而實際地編碼與解碼該目標畫面時,可得到第二訊噪比,然而卻不需實際地編碼與解碼音訊,因此可大幅降低複雜度並減少計算時間。
第一與第二估計器12、14係輸出被估計之分段式訊噪比46、50至控制器16,並且控制器16係基於被估計之分段式訊噪比46、50而決定哪一演算法要用於音訊之相關部分。控制器可非必要地使用一滯後機制,以使該決定更穩定。舉例而言,在閉迴路決定中之滯後機制可被使用,但帶著些許不同的調音參數。這樣的滯後機制可計算出一值dsnr,其係依據被估計之分段式訊噪比(例如在它們之間的差異)以及其他參數,例如關於先前決定之統計、時間靜止畫面的數量與畫面中的暫態。
在沒有滯後機制時,控制器可選擇具有較高被估計之訊噪比之編碼演算法,亦即,假使第二被估計訊噪比高於第一被估計訊噪比,則選擇ACELP,假使第一被估計訊噪比高於第二被估計訊噪比,則選擇TCX。在具有滯後機制的情況中,控制器可依據下面的決定規則來選擇編碼演算法,其中acelp_snr係為第二被估計訊噪比而tcx_snr為第一被估計訊噪比:if acelp_snr+dsnr>tcx_snr then select ACELP,otherwise select TCX.
為了減少諧波振幅之濾波器之參數的確定
以下係描述為減少諧波振幅而確定濾波器參數之一實施例。
濾波器參數可在編碼器側被估計,就如在單元8中。
音高估計
每一畫面(畫面大小例如20毫秒)之一音高延遲係被估計。這是在三個步驟中來進行的,以減少複雜度並提升估計精確度。
(a)音高延遲之整數部分的第一估計
產生一平滑音高進展曲線(smooth pitch evolution contour)之一音高分析演算法係被使用(例如在Rec.ITU-T G.718,sec.6.6中所描述之開迴路音高分析)。該分析一般係在一子畫面基準(子畫面大小例如10毫秒)上來進行,並產生每一子畫面之一音高延遲。需注意者,這些音高延遲估計並沒有任何分數部分且一般係在一縮減取樣(downsampled)訊號(取樣率例如6400Hz)上來估計。使用的訊號可為任何音訊,例如為LPC加權重音訊,就如在Rec.ITU-T G.718,sec.6.5中所描述的。
(b)音高之整數部分Tint之提煉
最後的音高之整數部分係在一音訊x[n]上並以核心編碼器取樣率(core encoder sampling rate)而被估計,核心編碼器取樣率一般係高於用於(a)之縮減音訊的取樣率(例如12.8kHz、16kHz、32kHz)。該訊號x[n]可為任何音訊,例如LPC加權重音訊。
然後,音高延遲的整數部分Tint係為能最大化自相關函數(autocorrelation function)之延遲。
其中d係在(a)中所估計之一音高T之周圍。
(c)音高延遲之分數部分Tfr之估計
分數部分Tfr係藉由插入在步驟(b)中所計算出來之自相關函數C(d)並藉由選擇能最大化被插入之自相關函數之分數音高而被找到。該插入可藉由使用在例如Rec.ITU-T G.718,sec.6.6.7中所描述之一低通
有限脈衝響應(FIR)濾波器而進行。
增益估計與量化
增益一般係在輸入音訊上並以核心編碼器取樣率來估計,但其亦可為任何音訊,例如LPC加權重音訊。該訊號係標注為y[n]並可與x[n]相同或不同。
y[n]的預測yP[n]係藉由使下面濾波器濾波y[n]而先被找到。
其中T int 為音高的整數部分(在步驟(b)中被估計),B(z,T fr )為一低通FIR濾波器,其係數係依據音高T fr 之分數部分(在步驟(c)中被估計)。
以下為當音高分辨率為1/4時之B(z)之一例子: B(z)=0.0000z -2+0.2325z -1+0.5349z 0+0.2325z 1
B(z)=0.0152z -2+0.3400z -1+0.5094z 0+0.1353z 1
B(z)=0.0609z -2+0.4391z -1+0.4391z 0+0.0609z 1
B(z)=0.1353z -2+0.5094z -1+0.3400z 0+0.0152z 1
則,增益g係計算如下,且g介於0與1之間:
最後,增益g係藉由使用例如均勻量化而量化於2位元上。
β係用來控制濾波器之強度。當β係等於1,其係產生全部的功效;當β等於0時,其係失能濾波器。如此,在本發明之實施例中,濾波器可藉由將β設為0而失能。在本發明之實施例中,假使濾波器被致能,則β可被設為介於0.5到0.75之間的值。在本發明之實施例中,假使濾波器被致能,則β可設為0.625。B(z,T fr )的一個例子係提供於上。B(z,T fr )的階數與係數亦可依據位元率與輸出取樣率。一個不同的頻率響應可被設計並
調整以對應位元率與輸出取樣率之各組合。
失能濾波器
濾波器可基於至少一諧波性測量及/或至少一時間結構測量之一組合而失能。這樣的測量之例子係如下所述。
(i)諧波性測量如同在步驟(b)所估計之整數音高延遲之正規化關聯性。
假使輸入訊號藉由整數音高延遲而完美地可預測,則正規化關聯性為1;假使並非可預測,則正規化關聯性為0。再者,一高值(逼近1)可指出一諧波訊號。為達到更強健的決定,過去畫面的正規化關聯性亦可使用於該決定,例如:If(norm.corr(curr.)*norm.corr.(prev.))>0.25,then the filter is not disabled
(ii)例如在能量取樣基準上被計算之時間結構測量亦可藉由為了暫態檢測(例如時間平整性測量、能量改變)之一暫態檢測器而被使用,例如:if(temporal flatness measure>3.5 or energy change>3.5)then the filter is disabled.
更多關於至少一諧波性測量之確定的細節係於下描述。
諧波性的測量係例如藉由音訊之一正規化關聯性或其一前調整(pre-modified)版本並在音高延遲或在音高延遲附近而計算。音高延遲可甚至在包含一第一階段與一第二階段之階段中而確定,其中,在第一階段中,音高延遲之一初步估計係在一第一取樣率之一縮減取樣域中確定,而在第二階段中,該音高延遲之初步估計係在一第二取樣率上被精煉,其高於第一取樣率。音高延遲例如係藉由使用自相關而確定。該至少一時間結構測量係例如在一時間範圍內確定,該時間範圍係依據音高資訊。該時間範圍之一時間上的過去航向(past-heading)端係例如依據音高資訊而置放。時間範圍之時間上的過去航向端可被置放,以致時間範圍之時間上的過去航向端係藉由帶著音高資訊之一增加之單調的增加之一時間量而調換到過去方向。
時間範圍之時間上的未來航向端可在一時間的候選範圍(其係從該時間範圍之時間上的過去航向端或從對時間結構測量之確定有較高影響的範圍之時間上的過去航向端到一現行畫面之一時間上的未來航向端)並依據音訊之時間結構而被定位。在時間候選範圍內之最大與最小能量取樣之間的振幅或比率可被使用於這目的。舉例而言,該至少一時間結構測量可測量在時間範圍內之音訊之一平均或最大能量變化,並且假使該至少一時間結構測量係小於一預設第一閥值並且諧波性測量對於一現行畫面及/或一先前畫面係為在一第二閥值之上,則失能之一條件可被滿足。假使諧波性測量對於一現行畫面係在一第三閥值之上並且諧波性測量對於一現行畫面及/或一先前畫面係在一第四閥值(其係隨著音高延遲之增加而減少)之上,則該條件亦可被滿足。
現在要給予的是確定該等測量之一具體實施例之一步驟接步驟的描述。
步驟1:暫態檢測與時間測量
輸入訊號s HP (n)係輸入至時間域暫態檢測器。輸入訊號s HP (n)係經過高通濾波。暫態檢測之高通(HP)濾波之轉移函數係如下所示:H TD (z)=0.375-0.5z -1+0.125z -2(1)
由暫態檢測之HP濾波器所濾波之訊號係標注為s TD (n)。高通濾波之訊號s TD (n)係被分段為8個連續且相同長度的分段。每一分段之高通濾波訊號s TD (n)之能量係計算如下:
其中,係為以輸入取樣頻率且在2.5毫秒內之取樣數目。
一累積能量係如下所計算:E Acc =max(E TD (i-1),0.8125E Acc )(3)
假使一分段E TD (i)之能量超過累積能量,則藉由一固定因子attackRati o=8.5檢測到一攻擊,並且攻擊指標(attackIndex)係設為i:E TD (i)>attackRatio.E Acc (4)
假使沒有攻擊基於上述標準而被檢測到,但有檢測到分段i具有一大幅能量增加,則攻擊指標係設為i且未指出有攻擊的出現。基本上,攻擊指標係設為在一畫面中上個攻擊的位置,且帶有一些額外的限制。
每一分段的能量改變係計算如下:
時間平整性測量係計算如下:
最大能量改變係計算如下:MEC(N past ,N new )=max(E chng (-N past ),E chng (-N past +1),...,E chng (N new -1)) (7)
假使E chng (i)或E TD (i)的指標為負,則其指出從帶有與現行畫面相關之分段指標之先前分段之一值。
N past 係為從過去畫面之分段的數量。假使時間平整性測量係為了使用於ACELP/TCX中而計算,則N past 等於0。假使時間平整性測量係為了TCX LTP決定而計算,則N past 等於:
N new 係為從現行畫面之分段的數量。對於非暫態畫面,其係等於8。對於暫態畫面,具有最大與最小能量之分段的位置係如下:
If E TD (i min)>0.375E TD (i max)then N new is set to i max-3,otherwise N new is set to 8.
步驟2:轉換方塊長度切換
TCX之重疊長度與轉換方塊長度係依據一暫態之存在以及其位置。
表1:基於暫態位置之重疊與轉換長度之編碼
如上所描述之暫態檢測器基本上係回報帶有限制之上個攻擊之指標,假使有多個暫態,則MINIMAL重疊是更好於HALF重疊,HALF重疊係更好於FULL重疊。假使在位置2或6的攻擊不夠強,則選擇HALF重疊,而非MINIMAL重疊。
步驟3:音高估計
每一畫面之一音高延遲(整數部分加上分數部分)係被估計(畫面大小例如20毫秒),就如上述3個步驟(a)到(c)所述,以減少複雜度並提升估計精確度。
步驟4:決定位元
假使輸入音訊未包含任何諧波內容,或者假使技術性的預測可將變形導入時間結構(例如一短暫態的重覆),則採取讓濾波器失能之一決定。
該決定係基於多個參數而作出,參數例如是在整數音高延遲之正規化關聯性以及時間結構測量。
在整數音高之正規化關聯性norm_corr係被估計,就如上所述。假使輸入訊號係可藉由整數音高延遲而完美的預測,則正規化關聯性為1,若無法可預測,則正規化關聯性為0。然後,一高值(逼近於1)可指出一諧波訊號。對於更強健的決定,除了對於現行畫面之正規化關聯性(norm_corr(curr))可被使用之外,過去畫面之正規化關聯性(norm_corr(prev))亦可使用於該決定,例如:If(norm_corr(curr)*norm_corr(prev))>0.25或If max(norm_corr(curr),norm_corr(prev))>0.5,則現行畫面包含一些諧波內容。
時間結構測量可藉由一暫態檢測器而計算(例如時間平整性測量(方程式(6))以及最大能量改變方程式(7)),以避免激活在包含一強暫態或大時間改變之一訊號上之濾波器。時間特徵係在包含現行畫面(N new 分段)與直到音高之過去畫面(N past 分段)之訊號上而被計算。對於像慢慢衰退之暫態的步驟,由於在由LTP濾波所導入之頻譜之非諧波部分中之變形可藉由強壯且長持續的暫態(例如碎音鈸)之遮罩(masking)而被抑制,所以全部或一些的特徵僅可被計算到暫態的位置(i max-3)。
對於低音高訊號之脈衝串可藉由一暫檢測器而被檢測而作為一暫態。對於具有低音高之訊號,從暫態檢測器來之特徵可被忽略,並且反而有對應依據音高之正規關聯性之額外的閥值,就如:If norm_corr<=1.2-T int /L,then disable the filter.
決定的一個例如如下所述,其中,b1為某一位元率,例如48kbps,TCX_20係指出畫面藉由使用訊號長方塊而編碼,TCX_10係指出
畫面係藉由使用2、3、4或更多的短方塊而編碼,TCX_20/TCX_10之決定係基於如上所述之暫態檢測器之輸出。tempFlatness係為在方程式(6)中所定義之時間平整性測量。maxEnergyChange係為在方程式(7)中所定義之最大能量改變。條件式norm_corr(curr)>1.2-T int /L亦可被寫為(1.2-norm_corr(curr))*L<T int 。
從上述例子可明顯地看見,一暫態之檢測係影響哪一長期預測之決定機制會被使用以及訊號的哪一部分會被使用在用於決定中之測量,並且不是它直接觸發長期預測濾波器之失能。
用於轉換長度決定之時間測量可完全與用於LTP濾波器決定之時間測量不同,或者它們可相互重疊或完全相同但被計算於不同範圍。對於低音高訊號,假使達到依據音高延遲之正規化關聯性之閥值,則暫態之檢測可完全被忽略。
移除可能不連續之技術
現在係描述藉由以畫面接畫面的方式應用一線性濾波器H(z)而移除不連續之一可能技術。線性濾波器可為已描述之LTP濾波器。線性濾波器可為一FIR濾波器或一無限脈衝反應(infinite impulse response,IIR)濾波器。所提的方法並非用過去畫面的濾波器參數來濾波現行畫面之一部分,因而避免已知方法之可能的問題。所提的方法係使用一LPC濾波器以移除不連續。該LPC濾波器係在音訊上(由一線性時間不變濾波器H(z)來濾波或沒有濾波)被估計,並因此成為音訊(由H(z)所濾波或沒有濾波)之頻譜形狀之一良好模型。然後,LPC濾波器係被使用以致音訊的頻譜形狀遮罩不連續。
LPC濾波器可用不同方式來估計。它可例如使用音訊(現行
及/或過去畫面)與Levinson-Durbin演算法而被估計。它亦可藉由使用Levinson-Durbin演算法而在過去濾波畫面訊號上被計算。
假使H(z)被使用於一音訊編解碼器並且該音訊編解碼器已使用一LPC濾波器(量化或沒有量化),以例如塑形在一運用轉換(transform-based)音訊編解碼中之量化噪音,則該LPC濾波器可被直接使用於平滑化不連續,且不需要額外的複雜度來估計一個新的LPC濾波器。
以下係描述FIR濾波器例子以及IIR濾波器例子中的現行畫面之處理。過去畫面係假定已經被處理。
FIR濾波器例子:
1、用現行畫面之濾波器參數來濾波現行畫面,以產生一被濾波現行畫面。
2、考慮具有M次之LPC濾波器(量化與否),且在音訊(濾波與否)上被估計。
3、過去畫面的前M個取樣係用濾波器H(z)與現行畫面之係數來濾波,以產生被濾波訊號之一第一部分。
4、被濾波之過去畫面的前M個取樣係從被濾波訊號的第一部分中減去,以產生被濾波訊號之一第二部分。
5、LPC濾波器之一零脈衝反應(ZIR)係藉由用LPC濾波器以及等於被濾波訊號之第二部分之起始狀態來濾波零取樣之一畫面而產生。
6、ZIR可非必要地被視窗化,以致其振幅更快的達到零。
7、ZIR的一起始部分係從被濾波現行畫面之一對應起始部分中減去。
IIR濾波器例子:
1、考慮具有M次之一LPC濾波器(量化與否),並在音訊(濾波與否)上被估計。
2、過去畫面的前M個取樣係用濾波器H(z)與現行畫面之係數來濾波,以產生被濾波訊號之一第一部分。
3、被濾波之過去畫面的前M個取樣係從被濾波訊號的第一部分
中減去,以產生被濾波訊號之一第二部分。
4、LPC濾波器之一零脈衝反應(ZIR)係藉由用LPC濾波器以及等於被濾波訊號之第二部分之起始狀態來濾波零取樣之一畫面而產生。
5、ZIR可非必要地被視窗化,以致其振幅更快的達到零。
6、現行畫面之一起始部分係以取樣接取樣的方式並由現行畫面之第一取樣開始而被處理。
7、取樣係用濾波器H(z)與現行畫面參數來濾波,以產生一第一被濾波取樣。
8、ZIR的對應取樣係從第一被濾波取樣中減去,以產生被濾波之現行畫面之對應取樣。
9、移動至下一取樣。
10、重複上述9到12,直到現行畫面之起始部分之前一個取樣被處理。
11、用現行畫面之濾波器參數來濾波現行畫面之剩餘取樣。
據此,本發明之實施例可讓估計分段式訊噪比與一合適編碼演算法之選擇變得更簡單及精確。特別地,本發明之實施例可允許一合適編碼演算法之一開迴路選擇,其中,在音訊具有諧波的情況下,編碼演算法之不合適的選擇可被避免。
在上述實施例中,藉由計算各子畫面所估計之訊噪比之一平均而估計分段式訊噪比。在另一實施例中,在不用將畫面分為子畫面的情況下,可估計一整個畫面之訊噪比。
由於閉迴路選擇所需要的許多步驟都可省略,因此與閉迴路選擇相比,本發明的實施例可大幅減少計算時間。
據此,藉由創新方法,可大幅節省許多步驟及其計算時間,同時合適編碼演算法之選擇仍可維持良好的效能。
雖然一些方面已描述於裝置的敘述中,但清楚地,這些方面亦可代表對應之方法的敘述,其中一功能方塊或裝置係對應一方法步驟或一方法步驟的特徵。類似地,在方法步驟中所描述的方面亦可代表對應功能
方塊或一對應裝置之項目或特徵之敘述。
這裡所描述之裝置的實施例以及其特徵可藉由一電腦、至少一處理器、至少一微處理器、現場可編程閘陣列(FPGA)、專用積體電路(ASIC)、類似裝置或上述之任一組合來實現,上述元件可配置或編程以提供所敘述之功能性。
一些或全部的方法步驟可由(或使用)一硬體裝置,例如一微處理器、一可編程電腦或一電子電路來執行。在一些實施例中,至少一最重要的方法步驟可由這樣的裝置來執行。
依據某些實施需求,本發明的實施例可以硬體或軟體來實施。實施態樣可使用一非暫態儲存媒介來實行,例如一數位儲存媒介,如一軟碟、一DVD、一藍光光碟、一CD、一唯讀記憶體(ROM)、一可編程唯讀記憶體(PROM)、一可擦除可編程唯讀記憶體(EPROM)、一電子可擦除可編程唯讀記憶體(EEPROM)或一快閃記憶體,其具有電子可讀控制訊號儲存於上並與一可編程電腦系統相互合作(或能合作),以致執行各方法。因此,數位儲存媒介可為電腦可讀。
本發明之一些實施例包含一資料載體,其具有電子可讀控制訊號,其係能舉一可編程電腦系統合作,以致本發明之方法之其中之一可被執行。
一般而言,本發明之實施例可實施為帶有一程式碼之一電腦程式產品,當電腦程式產生執行於一電腦上時,程式碼係能執行該等方法之一。程式碼可例如儲存於一機械可讀載體。
其他實施例包含可執行本發明之方法之其中之一的電腦程式,其係儲存於一機械可讀載體。
換言之,本發明方法之一實施例係為具有一程式碼之一電腦程式,當電腦程式執行於一電腦上時,可執行該等方法之其中之一。
本發明方法之另一實施例係為一資料載體(或一數位儲存媒介、或一電腦可讀媒介),其包含,即記錄於其上,可執行本發明之方法之其中之一之電腦程式。資料載體、數位儲存媒介或記錄媒介係為實體及/或非暫態的。
本發明方法之另一實施例係為一資料流或一訊號串以代表執行本發明之其中一方法之電腦程式。資料流或訊號串可例如經由一資料通訊連結(例如網際網路)而轉移。
另一實施例包含一處理手段,例如一電腦或一可編程邏輯裝置,其被配置或被編程而執行本發明之其中一方法。
另一實施例包含一電腦,其已安裝可執行本發明之其中一方法之電腦程式。
本發明另一實施例包含一裝置或一系統,其係能轉移(例如電子地或光學地)能執行本發明其中一方法之一電腦程式至一接收器。接收器可例如為一電腦、一行動裝置、一記憶體裝置或類似裝置。該裝置或系統可例如包含一檔案伺服器以將電腦程式轉移至接收器。
在一些實施例中,一可編程邏輯裝置(例如一現場可編程閘陣列)可被使用來執行本發明之方法之一些或全部的功能性。在一些實施例中,一現場可編程閘陣列可與一微處理器合作以執行本發明之其中一方法。一般而言,該等方法係較佳為藉由任何硬體裝置來執行。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
10‧‧‧裝置
12‧‧‧第一估計器
14‧‧‧第二估計器
16‧‧‧控制器
18‧‧‧輸出
2‧‧‧諧波減少濾波器
Claims (15)
- 一種為選擇具有一第一特徵之一第一編碼演算法以及具有一第二特徵之一第二編碼演算法之其中之一以編碼一音訊(40)之一部分,以得到該音訊之該部分之一編碼版之裝置(10),該裝置包含:一長期預測濾波器,係接收該音訊、減少該音訊之諧波的振幅、並輸出該音訊之一濾波版;一第一估計器(12),係使用該音訊之該濾波版來估計該音訊之該部分之一訊噪比或一分段式訊噪比,以作為該音訊之該部分之一第一品質測量,該第一品質測量係關於第一編碼演算法,其中估計該第一品質測量係包含執行該第一編碼演算法之一近似,以得到該第一編碼演算法之一變形估計並基於該音訊之該部分與該第一編碼演算法之該變形估計來估計該第一品質測量,且非實際上使用該第一編碼演算法來編碼與解碼該音訊之該部分;一第二估計器(14),係估計一訊噪比或一分段式訊噪比以作為該音訊之該部分之一第二品質測量,該第二品質測量係關於該第二編碼演算法,其中估計該第二品質測量係包含執行該第二編碼演算法之一近似,以得到該第二編碼演算法之一變形估計並藉由使用該音訊之該部分與該第二編碼演算法之該變形估計來估計該第二品質測量,且非實際上使用第二編碼演算法來編碼與解碼該音訊之該部分;一控制器(16),係依據在第一品質測量與第二品質測量之間之一比較而選擇該第一編碼演算法或該第二編碼演算法,其中,該第一編碼演算法為一轉換編碼演算法,一改進離散餘弦變換(MDCT)之編碼演算法或一轉換編碼激勵(TCX)編碼演算法,並且該第二編碼演算法為一碼激勵線性預測(CELP)編碼演算法或一代數碼激勵線性預測(ACELP)編碼演算法。
- 如申專利範圍第1項所述之裝置(10),其中該長期預測濾波器之一轉移函數包含一音高延遲之一整數部分以及依據該音高延遲之一分數部分之一多閥門濾波器(multi tap filter)。
- 如申專利範圍第1項所述之裝置(10),其中該長期預測濾波器具有如下所述之轉移函數:
- 如申專利範圍第1項至第3項之任一項所述之裝置,更包含一失能單元,其係基於至少一諧波性測量及/或至少一時間結構測量之一組合而失能該濾波器。
- 如申專利範圍第4項所述之裝置,其中該諧波性測量包含正規化關聯性與預測增益之至少其中之一,該至時間結構測量包含時間平整性測量與能量改變之至少其中之一。
- 如申專利範圍第1項至第3項之任一項所述之裝置,其中該濾波器係以一畫面接畫面基準而應用到該音訊,該裝置更包含一單元,其係移除該音訊中由該濾波器所造成之不連續。
- 如申專利範圍第1項至第3項之任一項所述之裝置(10),其中該第一與該第二估計器係配置來估計該音訊之一加權重版之一部分之一訊噪比或一分段式訊噪比。
- 如申專利範圍第1項至第3項之任一項所述之裝置(10),其中當量化該音訊之該部分時,該第一估計器(12)係配置來決定由用於該第一編碼演算法之一量化器所引入之一被估計量化器變形,並且基於該音訊之一加權重版之一部分之一能量以及該被估計量化器變形而估計該第一品質測量,其中當藉由用於該第一編碼演算法之一量化器與一熵變碼器而被編碼時,該第一估計器(12)係配置來估計該音訊之該部分之一全域增益,以致該音訊之該部分產生一給定目標位元率,其中該第一估計器(12)係更配置而基於該被估計全域增益來決定該被估計量化器變形。
- 如申專利範圍第1項至第3項之任一項所述之裝置(10),其中該第二 估計器(14)係配置來決定一被估計調適碼本變形,當使用一調適本來編碼該音訊之該部分時,該被估計調適碼本變形係由用於該第二編碼演算法之該調適碼本所引入,其中該第二估計器(14)係配置以基於該音訊之一加權重版之一部分之一能量以及該被估計調適碼本變形來估計該第二品質測量,其中對於該音訊之該部分之複數子部分,該第二估計器(14)係配置以基於藉由在一預處理階段中所決定之一音高延遲而切換到過去之該加權重音訊之該子部分之一版本而近似該調適碼本,並且估計一調適碼本增益,以致在該加權重音訊之該部分之該子部分與該被近似調適碼本之間之一誤差能最小化,並且基於在該加權重音訊之該部分之該子部分與藉由該調適碼本增益而縮放之該被近似調適碼本之間之一誤差之能量而決定該被估計調適碼本變形。
- 如申專利範圍第9項所述之裝置(10),其中該第二估計器(14)係更配置來減少該被估計調適碼本變形,其係為了該音訊之該部分之各子部分而藉由一固定因子所決定。
- 如申專利範圍第1項至第3項之任一項所述之裝置(10),其中該第二估計器(14)係配置來決定一被估計調適碼本變形,當使用一調適本來編碼該音訊之該部分時,該被估計調適碼本變形係由用於該第二編碼演算法之該調適碼本所引入,其中該第二估計器(14)係配置以基於該音訊之一加權重版之一部分之一能量以及該被估計調適碼本變形來估計該第二品質測量,其中該第二估計器(14)係配置以基於藉由在一預處理階段中所決定之一音高延遲而切換到過去之該加權重音訊之該部分之一版本而近似該調適碼本,並且估計一調適碼本增益,以致在該加權重音訊之該部分與該被近似調適碼本之間之一誤差能最小化,並且基於在該加權重音訊之該部分與藉由該調適碼本增益而縮放之該被近似調適碼本之間之一誤差之能量而決定該被估計調適碼本變形。
- 一種用以編碼一音訊之一部分之裝置(20),其係包含如申專利範圍第1項至第11項之任一項所述之裝置(10)、用以執行該第一編碼演算法之一第一編碼器階段(26)以及用以執行該第二編碼演算法之一第二編碼器階段(28),其中用於編碼之該裝置(20)係配置來依據藉由控制 器(16)之選擇而使用該第一編碼演算法或該第二編碼演算法以編碼該音訊之該部分。
- 一種用於編碼與解碼之系統,其係包含如申專利範圍第12項所述之用於編碼一音訊之一部分之一裝置(20)以及一解碼器,該解碼器係配置來接收該音訊之該部分之該編碼版與該演算法之一指示,該演算法係用來編碼該音訊之該部分並解碼該音訊之該部分之該編碼版。
- 一種選擇具有一第一特徵之一第一編碼演算法以及具有一第二特徵之一第二編碼演算法之其中之一,以編碼一音訊之一部分,以得到該音訊之該部分之一編碼版之方法,該方法包含:使用一長期預測濾波器來濾波該音訊以減少該音訊之諧波的振幅並輸出該音訊之一濾波版;使用該音訊之濾波版來估計音訊之該部分之一訊噪比或一分段式訊噪比,以作為該音訊之該部分之一第一品質測量,該第一品質測量係關於該第一編碼演算法,其中估計該第一品質測量係包含執行該第一編碼演算法之一近似,以得到該第一編碼演算法之一變形估計並基於該第一音訊之該部分與該第一編碼演算法之該變形估計來估計該第一品質測量,且非實際上使用該第一編碼演算法來編碼與解碼該音訊之該部分;估計一訊噪比或一分段式訊噪比作為該音訊之該部分之一第二品質測量,該第二品質測量係關於該第二編碼演算法,其中估計該第二品質測量係包含執行該第二編碼演算法之一近似,以得到該第二編碼演算法之一變形估計並藉由使用該音訊之該部分與該第二編碼演算法之該變形估計來估計該第二品質測量,且非實際上使用該第二編碼演算法來編碼與解碼該音訊之該部分;以及基於在該第一品質測量與該第二品質測量之間之一比較而選擇該第一編碼演算法或該第二編碼演算法,其中該第一編碼演算法為一轉換編碼演算法,一改進離散餘弦變換(MDCT)之編碼演算法或一轉換編碼激勵(TCX)編碼演算法,並且該第二編碼演算法為一碼激勵線性預測(CELP)編碼演算法或一 代數碼激勵線性預測(ACELP)編碼演算法。
- 一種具有一程式碼且當該其執行於一電腦上時,係執行如申專利範圍第14項所述之方法之電腦程式。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178809 | 2014-07-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201606755A TW201606755A (zh) | 2016-02-16 |
TWI582758B true TWI582758B (zh) | 2017-05-11 |
Family
ID=51224872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104124171A TWI582758B (zh) | 2014-07-28 | 2015-07-24 | 藉由使用諧波抑制而從ㄧ第一編碼演算法以及ㄧ第二編碼演算法中選擇其中之一之裝置與方法 |
Country Status (19)
Country | Link |
---|---|
US (3) | US9818421B2 (zh) |
EP (1) | EP3000110B1 (zh) |
JP (1) | JP6086999B2 (zh) |
KR (1) | KR101748517B1 (zh) |
CN (2) | CN105451842B (zh) |
AR (1) | AR101347A1 (zh) |
AU (1) | AU2015258241B2 (zh) |
BR (1) | BR112015029172B1 (zh) |
ES (1) | ES2614358T3 (zh) |
HK (1) | HK1222943A1 (zh) |
MX (1) | MX349256B (zh) |
MY (1) | MY174028A (zh) |
PL (1) | PL3000110T3 (zh) |
PT (1) | PT3000110T (zh) |
RU (1) | RU2632151C2 (zh) |
SG (1) | SG11201509526SA (zh) |
TW (1) | TWI582758B (zh) |
WO (1) | WO2016016053A1 (zh) |
ZA (1) | ZA201508541B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2616434T3 (es) * | 2013-01-29 | 2017-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para seleccionar uno de un primer algoritmo de codificación de audio y un segundo algoritmo de codificación de audio |
EP2980798A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
SG11201509526SA (en) * | 2014-07-28 | 2017-04-27 | Fraunhofer Ges Forschung | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US10896674B2 (en) * | 2018-04-12 | 2021-01-19 | Kaam Llc | Adaptive enhancement of speech signals |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060136199A1 (en) * | 2004-10-26 | 2006-06-22 | Haman Becker Automotive Systems - Wavemakers, Inc. | Advanced periodic signal enhancement |
US20110257981A1 (en) * | 2008-10-13 | 2011-10-20 | Kwangwoon University Industry-Academic Collaboration Foundation | Lpc residual signal encoding/decoding apparatus of modified discrete cosine transform (mdct)-based unified voice/audio encoding device |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2899013A (en) * | 1956-04-09 | 1959-08-11 | Nat Tank Co | Apparatus for recovery of petroleum vapors from run tanks |
US5012517A (en) | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
US5533052A (en) * | 1993-10-15 | 1996-07-02 | Comsat Corporation | Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation |
DE69619284T3 (de) | 1995-03-13 | 2006-04-27 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur Erweiterung der Sprachbandbreite |
GB2326572A (en) | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
JP4622164B2 (ja) * | 2001-06-15 | 2011-02-02 | ソニー株式会社 | 音響信号符号化方法及び装置 |
US7512535B2 (en) | 2001-10-03 | 2009-03-31 | Broadcom Corporation | Adaptive postfiltering methods and systems for decoding speech |
US7536305B2 (en) * | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
US7133521B2 (en) * | 2002-10-25 | 2006-11-07 | Dilithium Networks Pty Ltd. | Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain |
US7478040B2 (en) * | 2003-10-24 | 2009-01-13 | Broadcom Corporation | Method for adaptive filtering |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
US7739120B2 (en) | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
CN101069232A (zh) * | 2004-11-30 | 2007-11-07 | 松下电器产业株式会社 | 立体声编码装置、立体声解码装置及其方法 |
CN100592389C (zh) * | 2008-01-18 | 2010-02-24 | 华为技术有限公司 | 合成滤波器状态更新方法及装置 |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US8682652B2 (en) * | 2006-06-30 | 2014-03-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
GB0705328D0 (en) * | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
RU2439721C2 (ru) | 2007-06-11 | 2012-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
ATE500588T1 (de) * | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
FR2929466A1 (fr) * | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
US8060042B2 (en) * | 2008-05-23 | 2011-11-15 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
EP2410522B1 (en) * | 2008-07-11 | 2017-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, method for encoding an audio signal and computer program |
AU2009267531B2 (en) * | 2008-07-11 | 2013-01-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | An apparatus and a method for decoding an encoded audio signal |
PT2297856T (pt) * | 2008-07-11 | 2023-04-10 | Fraunhofer Ges Forschung | Método para codificar um símbolo, método para descodificar um símbolo, método para transmitir um símbolo de um transmissor para um recetor, codificador, descodificador e sistema para transmitir um símbolo de um transmissor para um recetor |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MY181231A (en) * | 2008-07-11 | 2020-12-21 | Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
ES2592416T3 (es) * | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
EP2148528A1 (en) * | 2008-07-24 | 2010-01-27 | Oticon A/S | Adaptive long-term prediction filter for adaptive whitening |
US8140342B2 (en) * | 2008-12-29 | 2012-03-20 | Motorola Mobility, Inc. | Selective scaling mask computation based on peak detection |
PL2471061T3 (pl) * | 2009-10-08 | 2014-03-31 | Fraunhofer Ges Forschung | Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej |
RU2591011C2 (ru) * | 2009-10-20 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров) |
PL2491555T3 (pl) * | 2009-10-20 | 2014-08-29 | Fraunhofer Ges Forschung | Wielotrybowy kodek audio |
CN103493129B (zh) * | 2011-02-14 | 2016-08-10 | 弗劳恩霍夫应用研究促进协会 | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 |
AU2012217158B2 (en) | 2011-02-14 | 2014-02-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
EP4243017A3 (en) * | 2011-02-14 | 2023-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method decoding an audio signal using an aligned look-ahead portion |
BR112013020324B8 (pt) * | 2011-02-14 | 2022-02-08 | Fraunhofer Ges Forschung | Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio |
JP2013057792A (ja) * | 2011-09-08 | 2013-03-28 | Panasonic Corp | 音声符号化装置及び音声符号化方法 |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
CN103915100B (zh) * | 2013-01-07 | 2019-02-15 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CN103137135B (zh) * | 2013-01-22 | 2015-05-06 | 深圳广晟信源技术有限公司 | Lpc系数量化方法和装置及多编码核音频编码方法和设备 |
ES2616434T3 (es) * | 2013-01-29 | 2017-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para seleccionar uno de un primer algoritmo de codificación de audio y un segundo algoritmo de codificación de audio |
EP2980799A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
SG11201509526SA (en) * | 2014-07-28 | 2017-04-27 | Fraunhofer Ges Forschung | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
-
2015
- 2015-07-21 SG SG11201509526SA patent/SG11201509526SA/en unknown
- 2015-07-21 EP EP15739590.6A patent/EP3000110B1/en active Active
- 2015-07-21 KR KR1020157032911A patent/KR101748517B1/ko active IP Right Grant
- 2015-07-21 MY MYPI2015002775A patent/MY174028A/en unknown
- 2015-07-21 RU RU2015149810A patent/RU2632151C2/ru active
- 2015-07-21 JP JP2015563151A patent/JP6086999B2/ja active Active
- 2015-07-21 AU AU2015258241A patent/AU2015258241B2/en active Active
- 2015-07-21 CN CN201580000798.2A patent/CN105451842B/zh active Active
- 2015-07-21 CN CN201910295456.8A patent/CN110444219B/zh active Active
- 2015-07-21 ES ES15739590.6T patent/ES2614358T3/es active Active
- 2015-07-21 MX MX2015015684A patent/MX349256B/es active IP Right Grant
- 2015-07-21 PL PL15739590T patent/PL3000110T3/pl unknown
- 2015-07-21 WO PCT/EP2015/066677 patent/WO2016016053A1/en active Application Filing
- 2015-07-21 PT PT157395906T patent/PT3000110T/pt unknown
- 2015-07-21 BR BR112015029172-4A patent/BR112015029172B1/pt active IP Right Grant
- 2015-07-24 TW TW104124171A patent/TWI582758B/zh active
- 2015-07-28 AR ARP150102402A patent/AR101347A1/es active IP Right Grant
- 2015-11-19 ZA ZA2015/08541A patent/ZA201508541B/en unknown
- 2015-11-20 US US14/947,746 patent/US9818421B2/en active Active
-
2016
- 2016-09-19 HK HK16110966.1A patent/HK1222943A1/zh unknown
-
2017
- 2017-07-07 US US15/644,040 patent/US10224052B2/en active Active
-
2019
- 2019-01-24 US US16/256,937 patent/US10706865B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060136199A1 (en) * | 2004-10-26 | 2006-06-22 | Haman Becker Automotive Systems - Wavemakers, Inc. | Advanced periodic signal enhancement |
US20110257981A1 (en) * | 2008-10-13 | 2011-10-20 | Kwangwoon University Industry-Academic Collaboration Foundation | Lpc residual signal encoding/decoding apparatus of modified discrete cosine transform (mdct)-based unified voice/audio encoding device |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI582758B (zh) | 藉由使用諧波抑制而從ㄧ第一編碼演算法以及ㄧ第二編碼演算法中選擇其中之一之裝置與方法 | |
JP6682683B2 (ja) | 復号方法、コンピュータプログラム及び復号システム | |
US9418666B2 (en) | Method and apparatus for encoding and decoding audio/speech signal | |
KR101078625B1 (ko) | 이득 계수 제한을 위한 시스템, 방법 및 장치 | |
CN113450810B (zh) | 谐波滤波器工具的谐度依赖控制 | |
CN110517700B (zh) | 用于选择第一编码算法与第二编码算法中的一个的装置 | |
US10672411B2 (en) | Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy | |
CA2910878C (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction | |
US20220180884A1 (en) | Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack |