TWI575514B - 資訊編碼器、其操作方法及相關電腦可讀媒體 - Google Patents
資訊編碼器、其操作方法及相關電腦可讀媒體 Download PDFInfo
- Publication number
- TWI575514B TWI575514B TW104106071A TW104106071A TWI575514B TW I575514 B TWI575514 B TW I575514B TW 104106071 A TW104106071 A TW 104106071A TW 104106071 A TW104106071 A TW 104106071A TW I575514 B TWI575514 B TW I575514B
- Authority
- TW
- Taiwan
- Prior art keywords
- polynomial
- spectrum
- polynomials
- frequency
- zero
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 81
- 238000001228 spectrum Methods 0.000 claims description 142
- 125000004122 cyclic group Chemical group 0.000 claims description 26
- 239000002131 composite material Substances 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 15
- 230000001131 transforming effect Effects 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001453 impedance spectrum Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Description
本發明係有關於資訊編碼技術。
語音寫碼中最常使用之範例為代數碼激勵線性預測(ACELP),其用於諸如AMR族、G.718及MPEG USAC[1-3]之標準中。其係基於使用源模型模型化語音,源模型由模型化頻譜包絡之線性預測量(LP)、模型化基本頻率之長期預測量(LTP)及針對殘餘之代數碼簿組成。
線性預測性模型之係數對量化非常敏感,藉此,通常在量化該等係數之前首先將該等係數變換成線譜頻率(LSF)或導抗譜頻率(ISF)。LSF/ISF域不受量化誤差影響,且在此等域中;可易於保持預測量之穩定性,藉此其提供用於量化之合適域[4]。
在下文中被稱作頻率值之LSF/ISF可如下自m階之線性預測性多項式A(z)獲得。將線譜對多項式定義為P(z)=A(z)+z-m-lA(z-1)
Q(z)=A(z)-z-m-lA(z-1) (1)
其中對於線譜對,l=1,且對於導抗譜對表示,l=0,
但任何l0原則上有效。在下文中,因此將僅假定l0。
注意,可始終使用A(z)=1/2[P(z)+Q(z)]來重建構原始預測量。多項式P(z)及Q(z)因此含有A(z)之所有資訊。
LSP/ISP多項式之中心性質為:若且僅若A(z)之所有根在單位圓內部,則P(z)與Q(z)之根交錯於單位圓上。由於P(z)及Q(z)之根在單位圓上,因此可僅藉由該等根之角度來表示該等根。此等角度對應於頻率,且由於P(z)及Q(z)之頻譜在其對數量值頻譜中在對應於該等根之頻率下具有垂直線,因此該等根被稱作頻率值。
由此可見,頻率值編碼預測量A(z)之所有資訊。此外,已發現,頻率值不受量化誤差影響,使得頻率值中之一者中的小誤差在經重建構之預測量的局部化之頻譜中、在頻譜中、在對應的頻率附近產生小誤差。歸因於此等有利性質,因此在所有主流語音編碼解碼器[1-3]中使用LSF或ISF域中之量化。
然而,使用頻率值過程中的挑戰中之一者為:高效地自多項式P(z)及Q(z)之係數找到其位置。畢竟,找到多項式之根為經典且困難的問題。針對此任務的先前提議之方法包括以下方法:
‧早期方法中之一者使用以下事實:零駐留於單位圓上,藉此其作為零出現在量譜[5]中。藉由進行P(z)及Q(z)之係數的離散傅立葉變換,吾人可因此搜尋量譜中之谷值。各谷值指示根之位置,且若頻譜經充分地增加取樣,
則吾人可找到所有根。然而,此方法僅得出近似位置,此係由於難以自谷位置判定確切位置。
‧最頻繁使用的方法係基於契比雪夫(Chebyshev)多項式且在[6]中呈現。其依賴於以下認識:多項式P(z)及Q(z)分別為對稱的及反對稱的,藉此其含有大量冗餘資訊。藉由在z=±1時移除不重要的零且在取代x=z+z-1(其被稱為契比雪夫變換)之情況下,可將多項式變換成替代表示FP(x)及FQ(x)。此等多項式為P(z)及Q(z)之階數的一半,且其僅具有在-2至+2之範圍內的實根。注意,當x為實數時,多項式FP(x)及FQ(x)為實值。此外,由於根簡單,因此FP(x)及FQ(x)將在其根中之每一者處具有零交叉。
在諸如AMR-WB之語音編碼解碼器中,應用此方法,使得在實軸上之固定網格上評估多項式FP(x)及FQ(x)以找到所有零交叉。進一步藉由在零交叉周圍之線性內插改進根位置。歸因於冗餘係數之省略,此方法之優勢為降低的複雜性。
雖然上文所描述之方法在現有編碼解碼器中充分地運作,但其確實具有許多問題。
待解決之問題為:提供改良之資訊編碼技術。
在第一態樣中,藉由一種用於編碼一資訊信號之資訊編碼器來解決問題。該資訊編碼器包含:一分析器,其用於分析該資訊信號以便獲得一預測性
多項式A(z)之線性預測係數;一轉換器,其用於將該預測性多項式A(z)之該等線性預測係數轉換成該預測性多項式A(z)之一頻譜頻率表示之頻率值,其中該轉換器經組配以藉由分析如下定義之一對多項式P(z)及Q(z)來判定該等頻率值P(z)=A(z)+z-m-lA(z-1)且Q(z)=A(z)-z-m-lA(z-1),其中m為該預測性多項式A(z)之一階數且l大於或等於零,其中該轉換器經組配以藉由以下操作獲得該等頻率值:建立自P(z)導出之一絕對實頻譜及來自Q(z)之一絕對虛頻譜,及識別自P(z)導出之該絕對實頻譜及自Q(z)導出之該絕對虛頻譜的零;一量化器,其用於自該等頻率值獲得經量化頻率值;以及一位元串流產生器,其用於產生包含該等經量化頻率值之一位元串流。
根據本發明之資訊編碼器使用零交叉搜尋,而根據先前技術的用於找到根之頻譜方法依賴於找到量譜中之谷值。然而,當搜尋谷值時,準確度比搜尋零交叉時之準確度差。舉例而言,考慮序列[4,2,1,2,3]。明顯地,最小值為第三元素,藉此零將處於第二元素與第四元素之間的某處。換言之,吾人無法判定零在第三元素之右側抑或左側。然而,若吾人考慮序列[4,2,1,-2,-3],則吾人可立即看出,零交叉介於第三元素與第四元素之間,藉此吾人
之誤差裕度得以減半。由此可見,在量值-頻譜方法之情況下,吾人需要使分析點之數目加倍以獲得與零交叉搜尋相同之準確度。
與評估量值|P(z)|及|Q(z)|相比較而言,零交叉方法在準確度方面具有顯著優勢。舉例而言,考慮序列3、2、-1、-2。在零交叉方法之情況下,顯然零處於2與-1之間。然而,藉由研究對應的量值序列3、2、1、2,吾人僅可得出結論:零處於第二元素與最後的元素之間的某處。換言之,在零交叉方法之情況下,與基於量值之方法相比較而言,準確度加倍。
此外,根據本發明之資訊編碼器可使用長預測量,諸如,m=128。與該情形形成對比,契比雪夫變換僅當A(z)之長度相對較小(例如,m20)時才充分地執行。對於長預測量,契比雪夫變換在數值上不穩定,藉此演算法之實務實施係不可能的。
所提議之資訊編碼器的主要性質因此為:吾人可獲得與基於契比雪夫之方法一樣高或更好的準確度,此係由於搜尋了零交叉且因為進行了時域至頻域轉換,所以使得可按極低計算複雜性來找到零。
因此,根據本發明之資訊編碼器不僅更準確地判定零(根),而且按低計算複雜性判定零(根)。
根據本發明之資訊編碼器可用於需要判定序列之線譜的任何信號處理應用中。本文中,在語音寫碼之上下文中例示性地論述資訊編碼器。本發明適用於語音、音
訊及/或視訊編碼器件或應用中,該器件或應用使用線性預測量用於模型化頻譜量值包絡、感知頻率遮蔽臨限值、時間量值包絡、感知時間遮蔽臨限值或其他包絡形狀或等效於諸如自相關信號之包絡形狀(該包絡形狀使用線譜表示包絡之資訊)的其他表示,用於編碼、分析或處理,此情形需要用於自輸入信號(諸如,語音或一般音訊信號)判定線譜之方法,且其中將輸入信號表示為數位濾波器或其他數字序列。
資訊信號可為(例如)音訊信號或視訊信號。頻率值可為線譜頻率或導抗頻譜頻率。在位元串流內傳輸之經量化頻率值將使得解碼器能夠解碼位元串流以便重新創造音訊信號或視訊信號。
根據本發明之一較佳實施例,該轉換器包含一判定器件以自預測性多項式A(z)判定多項式P(z)及Q(z)。
根據本發明之較佳實施例,該轉換器包含一零識別符以用於識別自P(z)導出之絕對實頻譜及自Q(z)導出之絕對虛頻譜的零。
根據本發明之一較佳實施例,該零識別符經組配以用於藉由以下操作識別零a)自空值頻率下之實頻譜開始;b)增大頻率,直至找到實頻譜處的正負號之改變為止;c)增大頻率,直至找到虛頻譜處的正負號之另一改變為止;以及d)重複步驟b)及c),直至找到所有零為止。
注意,Q(z)及因此的頻譜之虛部在空值頻率下始終具有零。由於根重疊,因此P(z)及因此的頻譜之實部則將在空值頻率下始終為非零。吾人因此可自空值頻率下之實部開始,且增大頻率,直至找到正負號之第一改變為止,該第一改變指示第一零交叉及因此的第一頻率值。
由於根交錯,因此Q(z)之頻譜將具有正負號之下一次改變。吾人因此可增大頻率,直至找到針對Q(z)之頻譜的正負號之改變為止。接著可重複此程序,在頻譜P(z)與Q(z)之間交替,直至找到所有頻率值為止。用於在頻譜中找到零交叉之位置的方法因此類似於在契比雪夫域中應用之方法[6、7]。
由於P(z)與Q(z)之零交錯,因此吾人可在搜尋實部與複數部上之零之間交替,使得吾人在一個遍次中找到所有零,且相比於完全搜尋而言,複雜性減半。
根據本發明之一較佳實施例,零識別符經組配以用於藉由內插識別零。
除零交叉方法之外,吾人亦可易於應用內插,使得吾人可按甚至更高準確度來估計零之位置,例如,如其在習知方法(例如,[7])中所進行。
根據本發明之一較佳實施例,該轉換器包含一零填補器件以用於將具有值「0」之一或多個係數加至多項式P(z)及Q(z),以便產生一對細長多項式Pe(z)及Qe(z)。可藉由擴展評估之頻譜的長度來進一步改良準確度。基於關於系統之資訊,在一些狀況下,實際上有可能判定頻率值之
間的最小距離,且因此判定頻譜之最小長度,可藉由該最小長度來找到所有頻率值[8]。
根據本發明之一較佳實施例,按以下方式組配轉換器:使得在將線性預測係數轉換成預測性多項式A(z)之頻譜頻率表示之頻率值期間,省略已知係數具有細長多項式Pe(z)及Qe(z)之值「0」的操作之至少一部分。
然而,增大頻譜之長度確實亦增加了計算複雜性。對複雜性之最大影響者為時域至頻域變換,諸如,A(z)之係數的快速傅立葉變換。然而,由於已將係數向量零填補至所要長度,因此其非常稀疏。此事實可容易用以降低複雜性。在吾人確切知曉哪些係數為零之意義上,此情形為相當簡單的問題,藉此在快速傅立葉變換之各迭代上,吾人可簡單地省略涉及零之彼等操作。此稀疏快速傅立葉變換之應用簡單明瞭,且熟習此項技術之任何程式設計者可實施此稀疏快速傅立葉變換。此實施之複雜性為O(N log2(1+m+l)),其中N為頻譜之長度,且m及l如先前所定義。
根據本發明之一較佳實施例,該轉換器包含一複合多項式形成器,其經組配以自細長多項式Pe(z)及Qe(z)建立複合多項式Ce(Pe(z),Qe(z))。
根據本發明之一較佳實施例,按以下方式組配轉換器:使得藉由單一傅立葉變換,藉由變換複合多項式Ce(Pe(z),Qe(z)),建立自P(z)導出之絕對實頻譜及來自Q(z)之絕對虛頻譜。
根據本發明之一較佳實施例,該轉換器包含一傅立葉變換器件以用於將該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之一或多個多項式傅立葉變換至頻域,及一調整器件以用於調整自P(z)導出的頻譜之相位使得其絕對實及用於調整自Q(z)導出的頻譜之相位使得其絕對虛。傅立葉變換器件可基於快速傅立葉變換或基於離散傅立葉變換。
根據本發明之一較佳實施例,調整器件經組配為係數移位器,以用於進行該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出的一或多個多項式之係數之循環移位。
根據本發明之一較佳實施例,係數移位器經組配以用於按以下方式進行係數之循環移位:使得將一係數序列之原始中點移位至該序列之第一位置。
理論上,熟知對稱序列之傅立葉變換為實值,且反對稱序列具有純虛的傅立葉頻譜。在目前狀況下,吾人之輸入序列為長度為m+l之多項式P(z)或Q(z)之係數,而吾人將更喜歡具有大得多的長度N»(m+l)之離散傅立葉變換。用於創造較長傅立葉頻譜之習知方法為輸入信號之零填補。然而,零填補序列必須謹慎地實施,以便保持對稱性。
首先,考慮具有以下係數之多項式P(z):[p0,p1,p2,p1,p0]。
通常應用FFT演算法之方式需要對稱點為第一
元素,藉此在應用於(例如)MATLAB中時,吾人可寫入fft([p2,p1,p0,p0,p1])
以獲得實值輸出。具體言之,可應用循環移位,使得對應於中點元素(亦即,係數p2)之對稱點向左移位,使得其處於第一位置。接著將在p2左側之係數附加至序列之末尾。
對於經零填補之序列[p0,p1,p2,p1,p0,0,0...0],吾人可應用同一程序。序列[p2,p1,p0,0,0...0,p0,p1]
將因此具有實值離散傅立葉變換。此處,若N為頻譜之所要長度,則輸入序列中的零之數目為N-m-l。
對應地,考慮係數[q0,q1,0,-q1,-q0],該等係數對應於多項式Q(z)。藉由應用循環移位使得前者中點達到第一位置,吾人獲得[0,-q1,-q0,q0,q1],其具有純虛的離散傅立葉變換。接著可將經零填補之變換用於序列[0,-q1,-q0,0,0...0,q0,q1]
注意,以上僅適用於序列之長度為奇數的狀況,藉此m+l為偶數。對於m+l為奇數之狀況,吾人具有兩個選項。吾人可實施頻域中之循環移位,或者按一半樣本應用DFT(參見下文)。
根據本發明之一較佳實施例,調整器件經組配為
移相器,以用於移位傅立葉變換器件之輸出的相位。
根據本發明之一較佳實施例,移相器經組配用於藉由用exp(i2πkh/N)乘以第k個頻率區間來移位傅立葉變換器件之輸出的相位,其中N為樣本之長度且h=(m+l)/2。
眾所周知,時域中之循環移位等效於頻域中之相位旋轉。具體言之,時域中的h=(m+l)/2步之移位對應於用exp(-i2πkh/N)乘以第k個頻率區間,其中N為頻譜之長度。代替循環移位,吾人因此可應用頻域中之乘法來獲得確切相同之結果。此方法之代價為稍微增加之複雜性。注意,僅當m+l為偶數時,h=(m+l)/2為整數。當m+l為奇數時,循環移位將需要延遲合理步數,此操作難以直接實施。實情為,吾人可藉由上文所描述之相位旋轉應用頻域中之對應移位。
根據本發明之較佳實施例,轉換器包含一傅立葉變換器件,以用於按一半樣本將該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之一或多個多項式傅立葉變換至頻域,使得自P(z)導出之頻譜絕對實,且使得自Q(z)導出之頻譜絕對虛。
一替代例為按一半樣本實施DFT。具體言之,雖然習知DFT經定義為
但吾人可將一半樣本DFT定義為
可易於針對此公式設計出作為FFT之快速實施。
此公式之益處在於:現在對稱點在n=1/2,而非通常的n=1。藉由此一半樣本DFT,吾人將接著藉由序列[2,1,0,0,1,2]
獲得實值傅立葉頻譜。
在奇數m+l之狀況下,對於具有係數p0、p1、p2、p2、p1、p0之多項式P(z),當輸入序列為以下序列時,吾人可接著藉由一半樣本DFT及零填補獲得實值頻譜:[p2,p1,p0,0,0...0,p0,p1,p2]。
對應地,對於多項式Q(z),吾人可將一半樣本DFT應用於序列[-q2,-q1,-q0,0,0...0,q0,q1,q2]
以獲得純虛頻譜。
藉由此等方法,對於m與l之任何組合,吾人可獲得多項式P(z)之實值頻譜及任何Q(z)之純虛頻譜。事實上,由於P(z)及Q(z)之頻譜分別為純實及純虛,因此吾人可將其儲存於單一複頻譜中,該單一複頻譜則對應於P(z)+Q(z)=2A(z)之頻譜。按因數2來按比例調整不會改變根之位置,藉此可將其忽略。吾人因此可藉由使用單一FFT僅評估A(z)之頻譜來獲得P(z)及Q(z)之頻譜。吾人僅需要將如上文所解釋之循環移位應用於A(z)之係數。
舉例而言,在m=4且l=0之情況下,A(z)之係數為[a0,a1,a2,a3,a4]
吾人可藉由以下序列來將其零填補至任意長度N[a0,a1,a2,a3,a4,0,0...0]。
若吾人接著應用(m+l)/2=2步之循環移位,則吾人獲得[a2,a3,a4,0,0...0,a0,a1]。
藉由進行此序列之DFT,吾人具有在頻譜之實部及複數部中的P(z)及Q(z)之頻譜。
根據本發明之一較佳實施例,該轉換器包含一複合多項式形成器,其經組配以自多項式P(z)及Q(z)建立複合多項式C(P(z),Q(z))。
根據本發明之一較佳實施例,按以下方式組配該轉換器:使得藉由例如快速傅立葉變換(FFT)之單一傅立葉變換,藉由變換複合多項式C(P(z),Q(z)),建立自P(z)導出之絕對實頻譜及來自Q(z)之絕對虛頻譜。
多項式P(z)及Q(z)分別為對稱的及反對稱的,其中對稱軸線在z-(m+l)/2。由此可見,分別在單位圓z=exp(iθ)上評估的z-(m+l)/2P(z)及z-(m+l)/2Q(z)之頻譜分別為實值及複合值。由於零在單位圓上,因此吾人可藉由搜尋零交叉來找到零。此外,單位圓上之評估可簡單地藉由快速傅立葉變換來實施。
因為對應於z-(m+l)/2P(z)及z-(m+l)/2Q(z)之頻譜分
別為實的及複合的,所以吾人可藉由單一快速傅立葉變換來實施該等頻譜。具體言之,若吾人進行總和z-(m+l)/2(P(z)+Q(z)),則頻譜之實部及複數部分別對應於z-(m+l)/2 P(z)及z-(m+l)/2 Q(z)。此外,由於z-(m+l)/2(P(z)+Q(z))=2z-(m+l)/2 A(z), (4)
因此吾人可直接進行2z-(m+l)/2 A(z)之FFT以獲得對應於z-(m+l)/2 P(z)及z-(m+l)/2 Q(z)之頻譜,而無需明確地判定P(z)及Q(z)。由於吾人僅對零之位置感興趣,因此1可省略與純量2之乘法且改為藉由FFT來評估z-(m+l)/2 A(z)。觀察到由於A(z)僅具有m+1個非零係數,因此吾人可使用FFT修剪降低複雜性[11]。為了確保找到所有根,吾人必須使用具有足夠高長度N之FFT,使得在每兩個零之間的至少一頻率上評估頻譜。
根據本發明之一較佳實施例,該轉換器包含一限制器件,以用於藉由用濾波器多項式B(z)乘以多項式P(z)及Q(z)或自多項式P(z)及Q(z)導出之一或多個多項式來限制多項式P(z)及Q(z)的頻譜之數值範圍,其中濾波器多項式B(z)為對稱的且不會具有在單位圓上之任何根。
語音編碼解碼器常常實施於具有有限資源之行動器件上,藉此必須藉由固定點表示來實施數值運算。因此,所實施之演算法以範圍受限之數值表示來操作係必要的。然而,對於共同語音頻譜包絡,傅立葉頻譜之數值範圍如此之大,使得吾人需要FFT之32位元實施來確保保持零交叉之位置。
另一方面,16位元FFT常常可按較低複雜性來實施,藉此限制頻譜值之範圍以適應該16位元範圍將為有益的。自等式|P(eiθ)|2|A(eiθ)|及|Q(eiθ)|2|A(eiθ)|,已知,藉由限制B(z)A(z)之數值範圍,吾人亦限制B(z)P(z)及B(z)Q(z)之數值範圍。若B(z)不具有在單位圓上之零,則B(z)P(z)及B(z)Q(z)將在單位圓上具有與P(z)及Q(z)相同之零交叉。此外,B(z)必須為對稱的,使得z-(m+l+n)/2P(z)B(z)及z-(m+l+n)/2Q(z)B(z)保持對稱及反對稱,且其頻譜分別為純實及純虛。代替評估z(n+l)/2A(z)之頻譜,吾人因此可評估z(n+l+n)/2A(z)B(z),其中B(z)為n階對稱多項式,其不具有在單位圓上之根。換言之,吾人可應用如上文所描述之相同方法,但首先用濾波器B(z)乘以A(z)且應用經修改之相移z-(m+l+n)/2。
剩餘任務為設計濾波器B(z),使得A(z)B(z)之數值範圍受限,其中限制為:B(z)必須為對稱的且不具有在單位圓上之根。滿足該等要求的最簡單之濾波器為2階線性相位濾波器B1(z)=β0+β1z-1+β2z-2 (5)
其中βk R為參數,且|β2|>2|β1|。藉由調整βk,吾人可修改頻譜傾斜,且因此減小乘積A(z)B1(z)之數值範圍。計算上非常高效的方法為選擇β,使得0頻率與奈奎斯(Nyquist)下之量值相等,|A(1)B1(1)|=|A(-1)B1(-1)|,藉此吾人可選擇(例如)β0=A(1)-A(-1)and β1=2(A(1)+A(-1))。 (6)
此方法提供大致平坦之頻譜。
吾人觀察到(亦參見圖5):A(z)具有高通特性,而B1(z)為低通,藉此乘積A(z)B1(z)如所期望的在0頻率與奈奎斯頻率下具有相等量值,且其或多或少為平坦的。由於B1(z)僅具有一個自由度,因此吾人顯然不能期望乘積將完全平坦。再者,觀察到B1(z)A(z)之最高峰值與最低谷值之間的比率可比A(z)之彼比率小得多。此情形意謂吾人已獲得所要的效應;B1(z)A(z)之數值範圍比A(z)之數值範圍小得多。
第二稍微較複雜之方法為計算A(0.5z)之脈衝回應的自相關rk。此處,與0.5之乘法在起點之方向上移動A(z)之零,藉此將頻譜量值大約減半。藉由對自相關rk應用列文遜-杜賓(Levinson-Durbin),吾人獲得為最小相位之n階濾波器H(z)。吾人可接著定義B2(z)=z-nH(z)H(z-1)以獲得大致恆定之|B2(z)A(z)|。吾人將注意到,|B2(z)A(z)|之範圍小於|B1(z)A(z)|之範圍。可易於在FIR設計之經典文獻[18]中找到針對B(z)之設計的其他方法。
根據本發明之一較佳實施例,該轉換器包含一限制器件,以用於藉由用濾波器多項式B(z)乘以細長多項式Pe(z)及Qe(z)來限制細長多項式Pe(z)及Qe(z)或自細長多項式Pe(z)及Qe(z)導出之一或多個多項式的頻譜之數值範圍,其中濾波器多項式B(z)為對稱的且不具有在單位圓上之任何根。可如上文所解釋來找到B(z)。
在另一態樣中,藉由一種用於操作用於編碼一資
訊信號之一資訊編碼器之方法來解決問題。該方法包含以下步驟:分析該資訊信號以便獲得一預測性多項式A(z)之線性預測係數;將該預測性多項式A(z)之該等線性預測係數轉換成該預測性多項式A(z)之一頻譜頻率表示的頻率值f1...fn,其中該等頻率值f1...fn係藉由分析一對多項式P(z)及Q(z)來判定,該對多項式經定義為P(z)=A(z)+z-m-lA(z-1)且Q(z)=A(z)-z-m-lA(z-1),其中m為該預測性多項式A(z)之一階數且l大於或等於零,其中藉由以下操作獲得該等頻率值f1...fn:建立自P(z)導出之一絕對實頻譜及來自Q(z)之一絕對虛頻譜,及藉由識別自P(z)導出之該絕對實頻譜及自Q(z)導出之該絕對虛頻譜的零;自該等頻率值f1...fn獲得經量化頻率fq1...fqn值;以及產生包含該等經量化頻率值fq1...fqn之位元串流。
此外,該程式係藉由用於在於處理器上執行時執行根據本發明之方法的電腦程式來通知。
1‧‧‧資訊編碼器
2‧‧‧分析器
3‧‧‧轉換器
4‧‧‧量化器
5‧‧‧位元串流產生器
6‧‧‧判定器件
7‧‧‧係數移位器/調整器件
8‧‧‧傅立葉變換器件
9‧‧‧零識別符
10‧‧‧零填補器件
11‧‧‧限制器件
12‧‧‧移相器/調整器件
13‧‧‧複合多項式形成器
14‧‧‧傅立葉變換器件
BS‧‧‧位元串流
f1...fn‧‧‧頻率值
fq1...fqn‧‧‧經量化頻率值
IES‧‧‧虛頻譜
IS‧‧‧資訊信號
RES‧‧‧實頻譜
隨後關於隨附圖式論述本發明之較佳實施例,在隨附圖式中:圖1按示意圖說明根據本發明之資訊編碼器之一實施例;
圖2說明A(z)、P(z)與Q(z)之例示性關係;圖3按示意圖說明根據本發明之資訊編碼器之轉換器的第一實施例;圖4按示意圖說明根據本發明之資訊編碼器之轉換器的第二實施例;圖5說明預測量A(z)、對應平坦化濾波器B1(z)及B2(z)以及乘積A(z)B1(z)及A(z)B2(z)之例示性量譜;圖6按示意圖說明根據本發明之資訊編碼器之轉換器的第三實施例;圖7按示意圖說明根據本發明之資訊編碼器之轉換器的第四實施例;以及圖8按示意圖說明根據本發明之資訊編碼器之轉換器的第五實施例。
圖1按示意圖說明根據本發明之資訊編碼器1之一實施例。
用於編碼資訊信號IS之資訊編碼器1包含:一分析器2,其用於分析該資訊信號IS以便獲得一預測性多項式A(z)之線性預測係數;一轉換器3,其用於將該預測性多項式A(z)之該等線性預測係數轉換成該預測性多項式A(z)之一頻譜頻率表示RES、IES之頻率值f1...fn,其中該轉換器3經組配以藉由分析如下定義之一對多項式P(z)及Q(z)來判定該等頻率值
f1...fn P(z)=A(z)+z-m-lA(z-1)且Q(z)=A(z)-z-m-lA(z-1),其中m為該預測性多項式A(z)之一階數且l大於或等於零,其中該轉換器3經組配以藉由以下操作獲得該等頻率值f1...fn:建立自P(z)導出之一絕對實頻譜RES及來自Q(z)之一絕對虛頻譜IES,及識別自P(z)導出之該絕對實頻譜RES及自Q(z)導出之該絕對虛頻譜IES的零;一量化器4,其用於自該等頻率值f1...fn獲得經量化頻率fq1...fqn值;以及一位元串流產生器5,其用於產生包含該等經量化頻率值fq1...fqn之一位元串流BS。
根據本發明之資訊編碼器1使用零交叉搜尋,而根據先前技術的用於找到根之頻譜方法依賴於找到量譜中之谷值。然而,當搜尋谷值時,準確度比搜尋零交叉時之準確度差。舉例而言,考慮序列[4,2,1,2,3]。明顯地,最小值為第三元素,藉此零將處於第二元素與第四元素之間的某處。換言之,吾人無法判定零在第三元素之右側抑或左側。然而,若吾人考慮序列[4,2,1,-2,-3],則吾人可立即看出:零交叉介於第三元素與第四元素之間,藉此吾人之誤差裕度得以減半。由此可見,在量值-頻譜方法之情況下,吾人需要使分析點之數目加倍以獲得與零交叉搜尋相同之準確度。
與評估量值|P(z)|及|Q(z)|相比較而言,零交叉方
法在準確度方面具有顯著優勢。舉例而言,考慮序列3、2、-1、-2。在零交叉方法之情況下,顯然零處於2與-1之間。然而,藉由研究對應量值序列3、2、1、2,吾人僅可得出結論:零處於第二元素與最後元素之間的某處。換言之,在零交叉方法之情況下,與基於量值之方法相比較而言,準確度加倍。
此外,根據本發明之資訊編碼器可使用長預測量,諸如,m=128。與該情形形成對比,契比雪夫變換僅在A(z)之長度相對較小(例如,m20)時充分地執行。對於長預測量,契比雪夫變換在數值上不穩定,藉此演算法之實務實施係不可能的。
所提議之資訊編碼器1之主要性質因此為:使得吾人可獲得與基於契比雪夫之方法一樣高或更好的準確度,此係由於搜尋了零交叉且因為進行了時域至頻域轉換,所以使得可按極低計算複雜性來找到零。
因此,根據本發明之資訊編碼器1不僅更準確地判定零(根)而且按低計算複雜性判定零(根)。
根據本發明之資訊編碼器1可用於需要判定序列之線譜的任何信號處理應用中。本文中,在語音寫碼之上下文中例示性地論述資訊編碼器1。本發明適用於語音、音訊及/或視訊編碼器件或應用中,該器件或應用使用線性預測量用於模型化頻譜量值包絡、感知頻率遮蔽臨限值、時間量值包絡、感知時間遮蔽臨限值或其他包絡形狀或等效於諸如自相關信號之包絡形狀(該包絡形狀使用線譜表示
包絡之資訊)的其他表示,用於編碼、分析或處理,此情形需要用於自輸入信號(諸如,語音或一般音訊信號)判定線譜之方法,且其中將輸入信號表示為數位濾波器或其他數字序列。
資訊信號IS可為(例如)音訊信號或視訊信號。
圖2說明A(z)、P(z)與Q(z)之例示性關係。垂直虛線描繪頻率值f1...f6。注意,在線性軸線上而非分貝標度上表達量值以便保持零交叉可見。吾人可看出,線譜頻率出現在P(z)與Q(z)之零交叉點處。此外,P(z)及Q(z)之量值處處小於或等於2|A(z)|;|P(eiθ)|2|A(eiθ)|且|Q(eiθ)|2|A(eiθ)|。
圖3按示意圖說明根據本發明之資訊編碼器之轉換器的第一實施例。
根據本發明之一較佳實施例,該轉換器3包含一判定器件6以自預測性多項式A(z)判定多項式P(z)及Q(z)。
根據本發明之一較佳實施例,該轉換器包含一傅立葉變換器件8以用於將該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之一或多個多項式傅立葉變換至頻域,及一調整器件7以用於調整自P(z)導出的頻譜RES之相位使得其絕對實及用於調整自Q(z)導出的頻譜IES之相位使得其絕對虛。傅立葉變換器件可8基於快速傅立葉變換或基於離散傅立葉變換。
根據本發明之一較佳實施例,調整器件7經組配為係數移位器7以用於進行該對多項式P(z)及Q(z)或自該
對多項式P(z)及Q(z)導出的一或多個多項式之係數之循環移位。
根據本發明之一較佳實施例,係數移位器7經組配以用於按以下方式進行係數之循環移位:將一係數序列之原始中點移位至該序列之第一位置。
理論上,熟知對稱序列之傅立葉變換為實值,且反對稱序列具有純虛的傅立葉頻譜。在目前狀況下,吾人之輸入序列為長度為m+l之多項式P(z)或Q(z)之係數,而吾人將更喜歡具有大得多的長度N»(m+l)之離散傅立葉變換。用於創造較長傅立葉頻譜之習知方法為輸入信號之零填補。然而,零填補序列必須謹慎地實施,以便保持對稱性。
首先,考慮具有以下係數之多項式P(z):[p0,p1,p2,p1,p0]。
通常應用快速傅立葉變換演算法之方式需要對稱點為第一元素,藉此在應用於(例如)MATLAB中時,吾人可寫入fft([p2,p1,p0,p0,p1])
以獲得實值輸出。具體言之,可應用循環移位,使得對應於中點元素(亦即,係數p2)之對稱點向左移位,使得其處於第一位置。接著將在p2左側之係數附加至序列之末尾。
對於經零填補之序列[p0,p1,p2,p1,p0,0,0...0],吾人可應用同一程序。序列
[p2,p1,p0,0,0...0,p0,p1]
因此將具有實值離散傅立葉變換。此處,若N為頻譜之所要長度,則輸入序列中的零之數目為N-m-l。
對應地,考慮係數[q0,q1,0,-q1,-q0],該等係數對應於多項式Q(z)。藉由應用循環移位使得前者中點達到第一位置,吾人獲得[0,-q1,-q0,q0,q1],其具有純虛的離散傅立葉變換。接著可將經零填補之變換用於序列[0,-q1,-q0,0,0...0,q0,q1]
注意,以上僅適用於序列之長度為奇數之狀況,藉此m+l為偶數。對於m+l為奇數之狀況,吾人具有兩個選項。吾人可實施頻域中之循環移位,或者按一半樣本應用DFT。
根據本發明之較佳實施例,該轉換器3包含一零識別符9以用於識別自P(z)導出之絕對實頻譜RES及自Q(z)導出之絕對虛頻譜IES的零。
根據本發明之一較佳實施例,該零識別符9經組配用於藉由以下操作來識別零a)自空值頻率下之實頻譜RES開始;b)增大頻率,直至找到實頻譜RES處的正負號之改變為止;c)增大頻率,直至找到虛頻譜IES處的正負號之另一改
變為止;以及d)重複步驟b)及c),直至找到所有零為止。
注意,Q(z)及因此的頻譜之虛部IES在空值頻率下始終具有零。由於根重疊,因此P(z)及因此的頻譜之實部RES則在空值頻率下將始終為非零。吾人因此可自空值頻率下之實部RES開始,且增大頻率,直至找到正負號之第一改變為止,該情形指示第一零交叉及因此的第一頻率值f1。
由於根交錯,因此Q(z)之頻譜IES將具有正負號之下一次改變。吾人因此可增大頻率,直至找到針對Q(z)之頻譜IES的正負號之改變為止。接著可重複此程序,在P(z)與Q(z)之頻譜之間交替,直至找到所有頻率值f1...fn為止。用於在頻譜RES及IES中找到零交叉之位置的方法因此類似於在契比雪夫域中應用之方法[6、7]。
由於P(z)與Q(z)之零交錯,因此吾人可在搜尋實部RES與複數部IES上之零之間交替,使得吾人在一個遍次中找到所有零,且與完全搜尋相比較而言,將複雜性減半。
根據本發明之一較佳實施例,零識別符9經組配以用於藉由內插識別零。
除零交叉方法之外,吾人可易於應用內插,使得吾人可按甚至更高準確度估計零之位置,例如,如其在習知方法(例如,[7])中所進行。
圖4按示意圖說明根據本發明之資訊編碼器1之轉換器3的第二實施例。
根據本發明之一較佳實施例,轉換器3包含一零填補器件10以用於將具有值「0」之一或多個係數加至多項式P(z)及Q(z),以便產生一對細長多項式Pe(z)及Qe(z)。可藉由擴展評估之頻譜RES、IES之長度進一步改良準確度。基於關於系統之資訊,在一些狀況下,實際上有可能判定頻率值f1...fn之間的最小距離,及因此判定頻譜RES、IES之最小長度,可藉由該最小長度找到所有頻率值f1...fn[8]。
根據本發明之一較佳實施例,按以下方式組配轉換器3:使得在將線性預測係數轉換成預測性多項式A(z)之頻譜頻率表示RES、IES之頻率值f1...fn期間,省略已知係數具有細長多項式Pe(z)及Qe(z)之值「0」的操作之至少一部分。
然而,增大頻譜之長度確實亦增加計算複雜性。對複雜性之最大影響者為時域至頻域變換,諸如,A(z)之係數的快速傅立葉變換。然而,由於係數向量經零填補至所要長度,因此其非常稀疏。此事實可容易用以降低複雜性。在吾人精確知曉哪些係數為零之意義上,此情形為相當簡單的問題,藉此在快速傅立葉變換之各迭代上,吾人可簡單地省略涉及零之彼等操作。此稀疏快速傅立葉變換之應用簡單明瞭,且熟習此項技術之任何程式設計者可實施該稀疏快速傅立葉變換。此實施之複雜性為O(N log2(1+m+l)),其中N為頻譜之長度,且m及l如先前所定義。
根據本發明之一較佳實施例,轉換器包含一限制器件11,以用於藉由用濾波器多項式B(z)乘以細長多項式
Pe(z)及Qe(z)來限制細長多項式Pe(z)及Qe(z)或自細長多項式Pe(z)及Qe(z)導出之一或多個多項式的頻譜之數值範圍,其中濾波器多項式B(z)為對稱的且不具有在單位圓上之任何根。可如上所解釋來找到B(z)。
圖5說明預測量A(z)、對應平坦化濾波器B1(z)及B2(z)以及乘積A(z)B1(z)及A(z)B2(z)之例示性量譜。水平虛線展示在0及奈奎斯頻率下的A(z)B1(z)之位準。
根據本發明之一較佳實施例(未圖示),轉換器3包含一限制器件11,以用於藉由用濾波器多項式B(z)乘以多項式Pe(z)及Qe(z)或自多項式P(z)及Q(z)導出之一或多個多項式來限制多項式Pe(z)及Qe(z)的頻譜RES、IES之數值範圍,其中濾波器多項式B(z)為對稱的且不具有在單位圓上之任何根。
語音編碼解碼器常常實施於具有有限資源之行動器件上,藉此必須藉由固定點表示來實施數值運算。因此,所實施之演算法以範圍受限之數值表示來操作係必要的。然而,對於共同語音頻譜包絡,傅立葉頻譜之數值範圍如此之大,使得吾人需要FFT之32位元實施來確保保持零交叉之位置。
另一方面,16位元FFT常常按較低複雜性來實施,藉此限制頻譜值之範圍以適應該16位元範圍將為有益的。自等式|P(eiθ)|2|A(eiθ)|及|Q(eiθ)|2|A(eiθ)|,已知,藉由限制B(z)A(z)之數值範圍,吾人亦限制B(z)P(z)及B(z)Q(z)之數值範圍。若B(z)不具有在單位圓上之零,則
B(z)P(z)及B(z)Q(z)將在單位圓上具有與P(z)及Q(z)相同之零交叉。此外,B(z)必須為對稱的,使得z-(m+l+n)/2P(z)B(z)及z-(m+l+n)/2Q(z)B(z)保持對稱及反對稱,且其頻譜分別為純實及純虛。代替評估z(n+l)/2A(z)之頻譜,吾人因此可評估z(n+l+n)/2A(z)B(z),其中B(z)為n階對稱多項式,其不具有在單位圓上之根。換言之,吾人可應用如上文所描述之相同方法,但首先用濾波器B(z)乘以A(z)且應用經修改之相移z-(m+l+n)/2。
剩餘任務為設計濾波器B(z),使得A(z)B(z)之數值範圍受限,其中限制為:B(z)必須為對稱的且不具有在單位圓上之根。滿足該等要求的最簡單之濾波器為2階線性相位濾波器B1(z)=β0+β1z-1+β2z-2,其中βk R為參數,且|β2|>2|β1|。藉由調整βk,吾人可修改頻譜傾斜,且因此減小乘積A(z)B1(z)之數值範圍。計算上非常高效的方法為選擇β,使得在0頻率與奈奎斯下之量值相等,|A(1)B1(1)|=|A(-1)B1(-1)|,藉此吾人可選擇(例如)β0=A(1)-A(-1)及β1=2(A(1)+A(-1))。
此方法提供大致平坦頻譜。
吾人自圖5觀察到:A(z)具有高通特性,而B1(z)為低通,藉此乘積A(z)B1(z)如所期望的在0頻率與奈奎斯頻率下具有相等量值,且其或多或少為平坦的。由於B1(z)僅具有一個自由度,因此吾人顯然不能期望乘積將完全平坦。再者,觀察到:B1(z)A(z)之最高峰值與最低谷值之間的比率可比A(z)之彼比率小得多。此情形意謂吾人已獲得
所要效應;B1(z)A(z)之數值範圍比A(z)之數值範圍小得多。
第二稍微較複雜之方法為計算A(0.5z)之脈衝回應的自相關rk。此處,與0.5之乘法在起點之方向上移動A(z)之零,藉此將頻譜量值大約減半。藉由對自相關rk應用列文遜-杜賓,吾人獲得為最小相位之n階濾波器H(z)。吾人可接著定義B2(z)=z-nH(z)H(z-1)以獲得大致恆定之|B2(z)A(z)|。吾人將注意到,|B2(z)A(z)|之範圍小於|B1(z)A(z)|之範圍。可易於在FIR設計之經典文獻[18]中找到針對B(z)之設計的其他方法。
圖6按示意圖說明根據本發明之資訊編碼器1之轉換器3的第三實施例。
根據本發明之一較佳實施例,調整器件12經組配為移相器12,以用於移位傅立葉變換器件8之輸出的相位。
根據本發明之一較佳實施例,移相器12經組配用於藉由用exp(i2πkh/N)乘以第k個頻率區間來移位傅立葉變換器件8之輸出的相位,其中N為樣本之長度且h=(m+l)/2。
眾所周知,時域中之循環移位等效於頻域中之相位旋轉。具體言之,時域中的h=(m+l)/2步之移位對應於第k個頻率區間與exp(-i2πkh/N)之乘法,其中N為頻譜之長度。代替循環移位,吾人因此可應用頻域中之乘法來獲得確切相同之結果。此方法之代價為稍微增加之複雜性。注意,僅當m+l為偶數時,h=(m+l)/2為整數。當m+l為
奇數時,循環移位將需要延遲合理步數,此操作難以直接實施。實情為,吾人可藉由上文所描述之相位旋轉應用頻域中之對應移位。
圖7按示意圖說明根據本發明之資訊編碼器1之轉換器3的第四實施例。
根據本發明之一較佳實施例,該轉換器3包含一複合多項式形成器13,其經組配以自多項式P(z)及Q(z)建立複合多項式C(P(z),Q(z))。
根據本發明之一較佳實施例,按以下方式組配轉換器3:使得藉由例如快速傅立葉變換(FFT)之單一傅立葉變換,藉由變換複合多項式C(P(z),Q(z))來建立自P(z)導出之絕對實頻譜及來自Q(z)之絕對虛頻譜。
多項式P(z)及Q(z)分別為對稱的及反對稱的,其中對稱軸線在z-(m+l)/2。由此可見,分別在單位圓z=exp(iθ)上評估的z-(m+l)/2P(z)及z-(m+l)/2Q(z)之頻譜分別為實值及複合值。由於零在單位圓上,因此吾人可藉由搜尋零交叉來找到零。此外,在單位圓上之評估可簡單地藉由快速傅立葉變換來實施。
因為對應於z-(m+l)/2P(z)及z-(m+l)/2Q(z)之頻譜分別為實的及複合的,所以吾人可藉由單一快速傅立葉變換來實施該等頻譜。具體言之,若吾人選用總和z-(m+l)/2(P(z)+Q(z)),則頻譜之實部及複數部分別對應於z-(m+l)/2 P(z)及z-(m+l)/2 Q(z)。此外,由於z-(m+l)/2(P(z)+Q(z))=2z-(m+l)/2 A(z),因此吾人可直接進行2z-(m+l)/2 A(z)之FFT以獲得對應
於z-(m+l)/2P(z)及z-(m+l)/2 Q(z)之頻譜,而無需明確地判定P(z)及Q(z)。由於吾人僅對零之位置感興趣,因此1可省略與純量2之乘法且改為藉由FFT來評估z-(m+l)/2 A(z)。觀察到:由於A(z)僅具有m+1個非零係數,因此吾人可使用FFT修剪降低複雜性[11]。為了確保找到所有根,吾人必須使用足夠高長度N之FFT,使得在每兩個零之間的至少一頻率上評估頻譜。
根據本發明之一較佳實施例(未圖示),該轉換器3包含一複合多項式形成器,其經組配以自細長多項式Pe(z)及Qe(z)建立複合多項式Ce(Pe(z),Qe(z))。
根據本發明之一較佳實施例(未圖示),按以下方式組配轉換器:使得藉由單一傅立葉變換,藉由變換複合多項式Ce(Pe(z),Qe(z)),建立自P(z)導出之絕對實頻譜及來自Q(z)之絕對虛頻譜。
圖8按示意圖說明根據本發明之資訊編碼器1之轉換器3的第五實施例。
根據本發明之較佳實施例,轉換器3包含一傅立葉變換器件14,以用於按一半樣本將該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之一或多個多項式傅立葉變換至頻域,使得自P(z)導出之頻譜絕對實,且使得自Q(z)導出之頻譜絕對虛。
一替代例為按一半樣本實施DFT。具體言之,雖然習知DFT經定義為
但吾人可將一半樣本DFT定義為
可易於針對此公式設計出作為FFT之快速實施。
此公式之益處在於:現在對稱點在n=1/2,而非通常的n=1。在此一半樣本DFT之情況下,吾人將接著藉由序列[2,1,0,0,1,2]
獲得實值傅立葉頻譜RES。
在奇數m+l之狀況下,對於具有係數p0、p1、p2、p2、p1、p0之多項式P(z),當輸入序列為以下序列時,吾人可接著藉由一半樣本DFT及零填補獲得實值頻譜RES:[p2,p1,p0,0,0...0,p0,p1,p2]。
對應地,對於多項式Q(z),吾人可將一半樣本DFT應用於序列[-q2,-q1,-q0,0,0...0,q0,q1,q2]
以獲得純虛頻譜IES。
藉由此等方法,對於m與l之任何組合,吾人可獲得多項式P(z)之實值頻譜及任何Q(z)之純虛頻譜。事實上,由於P(z)及Q(z)之頻譜分別為純實的及純虛的,因此吾人可將其儲存於單一複頻譜中,該單一複頻譜則對應於P(z)+Q(z)=2A(z)之頻譜。按因數2來按比例調整不會改
變根之位置,藉此可將其忽略。吾人因此可藉由使用單一FFT僅評估A(z)之頻譜來獲得P(z)及Q(z)之頻譜。吾人僅需要將如上文所解釋之循環移位應用於A(z)之係數。
舉例而言,在m=4且l=0之情況下,A(z)之係數為[a0,a1,a2,a3,a4]
吾人可藉由以下序列來將其零填補至任意長度N[a0,a1,a2,a3,a4,0,0...0]。
若吾人接著應用(m+l)/2=2步之循環移位,則吾人獲得[a2,a3,a4,0,0...0,a0,a1]。
藉由進行此序列之DFT,吾人具有在頻譜之實部RES及複數部IES中的P(z)及Q(z)之頻譜。
在m+l為偶數之狀況下的總體演算法可敍述如下:假定藉由ak表示的A(z)之係數駐留於長度N之緩衝器內。
1.對(m+l)/2步之ak應用向左之循環移位。
2.計算序列ak之快速傅立葉變換且用Ak來表示該變換。
3.在找到所有頻率值之前,自k=0開始,且在以下兩者之間交替:
(a)當sign(real(Ak))=sign(real(Ak+1))增大時,k:=k+1。一旦找到零交叉,便將k儲存於頻率值之清單中。
(b)當sign(imag(Ak))=sign(imag(Ak+1))增大時,k:=k
+1。一旦找到零交叉,便將k儲存於頻率值之清單中。
4.對於各頻率值,在Ak與Ak+1之間內插以判定準確位置。
此處,函數sign(x)、real(x)及imag(x)分別指x之正負號、x之實部及x之虛部。
對於m+l奇數之狀況,將循環移位減小至僅向左(m+l-1)/2步,且用一半樣本快速傅立葉變換替換規則快速傅立葉變換。
替代地,吾人可始終用快速傅立葉變換及頻域中之相移替換循環移位與第1傅立葉變換之組合。
對於根之更準確的位置,有可能使用上文提議之方法提供第一猜測,且接著應用改進根軌跡之第二步。為了改進,吾人可應用任何經典的多項式求根方法,諸如,Durand-Kerner、Aberth-Ehrlich、Laguerre、Gauss-Newton方法或其他方法[11至17]。
在一系統闡述中,所呈現之方法由以下步驟組成:
(a)對於經零填補至長度N的長度為m+l+1之序列,其中m+l為偶數,向左應用(m+l)/2步之循環移位,使得緩衝器長度為N且對應於輸出頻譜之所要長度,或對於經零填補至長度N的長度為m+l+1之序列,其中m+l為奇數,向左應用(m+l-1)/2步之循環移位,使得緩衝器長度為N且對應於輸出頻譜之所要長度。
(b)若m+l為偶數,則對該序列應用規則DFT。若m+l
為奇數,則對該序列應用經一半取樣之DFT,如藉由等式3或等效表示描述。
(c)若輸入信號為對稱的或反對稱的,則搜尋頻域表示之零交叉且將位置儲存於清單中。
若輸入信號為複合序列B(z)=P(z)+Q(z),則搜尋頻域表示之實部及虛部兩者中的零交叉,且將位置儲存於清單中。若輸入信號為複合序列B(z)=P(z)+Q(z),且P(z)與Q(z)之根交替或具有類似結構,則藉由在頻域表示之實部與虛部之間交替來搜尋零交叉且將位置儲存於清單中。
在另一系統闡述中,所呈現之方法由以下步驟組成:
(a)對於具有與先前點中之形式相同的形式之輸入信號,對該輸入序列應用DFT。
(b)將相位旋轉應用於頻域值,該情形等效於將輸入信號向左循環移位(m+l)/2步。
(c)應用零交叉搜尋,如在先前點中所進行。
關於編碼器1及所描述實施例之方法,提及以下內容:
儘管已在裝置之上下文中描述一些態樣,但顯而易見,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,在方法步驟之上下文中所描述之態樣亦表示對應區塊或項目或對應裝置之特徵的描述。
取決於某些實施要求,本發明之實施例可以硬體
或軟體實施。可使用數位儲存媒體來執行該實施,該數位儲存媒體例如磁碟片、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該等電子可讀控制信號與可規劃電腦系統協作(或能夠與可規劃電腦系統協作)以便執行各別方法。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等電子可讀控制信號能夠與可規劃電腦系統協作,以便執行本文中所描述之方法中的一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品執行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含用於執行本文中所描述的方法中之一者之電腦程式,其儲存於機器可讀載體或非暫時性儲存媒體上。
換言之,因此,本發明方法之實施例為具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中的一者之程式碼之電腦程式。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中的一者之電腦程式。
因此,本發明方法之再一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信
號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如,經由網際網路)而傳送。
再一實施例包括處理構件,例如,經組配或經調適以執行本文中所描述之方法中的一者之電腦或可規劃邏輯器件。
另一實施例包括安裝有用於執行本文中所描述之方法中的一者之電腦程式之電腦。
在一些實施例中,可規劃邏輯器件(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或所有功能性。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。大體而言,有利地由任何硬體裝置執行該等方法。
雖然已依據若干實施例描述本發明,但存在屬於本發明之範疇的更改、排列及等效物。亦應注意,存在實施本發明之方法及組合物的許多替代性方式。因此,意欲將以下所附申請專利範圍解釋為包括如屬於本發明之真實精神及範疇的所有此等更改、排列及等效物。
[1] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Järvinen, “The adaptive multirate wideband speech codec (AMR-WB)”, Speech and Audio Processing, IEEE Transac- tions on, vol. 10, no. 8, pp. 620-636, 2002.
[2] ITU-T G.718, “Frame error robust narrow-band
and wideband embed-ded variable bit-rate coding of speech and audio from 8-32 kbit/s”, 2008.
[3] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, “Unified speech and audio coding scheme for high quality at low bitrates”, in Acoustics, Speech and Signal Processing. ICASSP 2009. IEEE Int Conf, 2009, pp. 1-4.
[4] T. Bäckström and C. Magi, “Properties of line spectrum pair polynomi-als - a review”, Signal Processing, vol. 86, no. 11, pp. 3286-3298, November 2006.
[5] G. Kang and L. Fransen, “Application of line-spectrum pairs to low-bit- rate speech encoders”, in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP’85., vol. 10. IEEE, 1985, pp. 244-247.
[6] P. Kabal and R. P. Ramachandran, “The computation of line spectral frequencies using Chebyshev polynomials”, Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 34, no. 6, pp. 1419-1426, 1986.
[7]3GPP TS 26.190 V7.0.0, “Adaptive multi-rate (AMR-WB) speech co-dec”, 2007.
[8] T. Bäckström, C. Magi, and P. Alku, “Minimum separation of line spec- tral frequencies”, IEEE Signal Process. Lett., vol. 14, no. 2, pp. 145-147, February 2007.
[9] T. Bäckström, “Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,” IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, 2013.
[10] V. F. Pisarenko, “The retrieval of harmonics from a covariance func-tion”, Geophysical Journal of the Royal Astronomical Society, vol. 33, no. 3, pp. 347-366, 1973.
[11] E. Durand, Solutions Numériques des quations Algébriques. Paris: Masson, 1960.
[12] I. Kerner, “Ein Gesamtschrittverfahren zur Berechnung der Nullstellen von Polynomen”, Numerische Mathematik, vol. 8, no. 3, pp. 290-294, May 1966.
[13] O. Aberth, “Iteration methods for finding all zeros of a polynomial sim-ultaneously”, Mathematics of Computation, vol. 27, no. 122, pp. 339-344, April 1973.
[14] L. Ehrlich, “A modified newton method for
polynomials”, Communica-tions of the ACM, vol. 10, no. 2, pp. 107-108, February 1967.
[15] D. Starer and A. Nehorai, “Polynomial factorization algorithms for adaptive root estimation”, in Int. Conf. on Acoustics, Speech, and Sig-nal Processing, vol. 2. Glasgow, UK: IEEE, May 1989, pp. 1158-1161.
[16] --, “Adaptive polynomial factorization by coefficient matching”, IEEE Transactions on Signal Processing, vol. 39, no. 2, pp. 527-530, February 1991.
[17] G. H. Golub and C. F. van Loan, Matrix Computations, 3rd ed. John Hopkins University Press, 1996.
[18] T. Saramäki, “Finite impulse response filter design”, Handbook for Digital Signal Processing, pp. 155-277, 1993.
1‧‧‧資訊編碼器
2‧‧‧分析器
3‧‧‧轉換器
4‧‧‧量化器
BS‧‧‧位元串流
f1...fn‧‧‧頻率值
fq1...fqn‧‧‧經量化頻率值
IS‧‧‧資訊信號
Claims (20)
- 一種用於編碼一資訊信號(IS)之資訊編碼器,該資訊編碼器包含:一分析器,其用於分析該資訊信號(IS)以便獲得一預測性多項式A(z)之線性預測係數;一轉換器,其用於將該預測性多項式A(z)之該等線性預測係數轉換成該預測性多項式A(z)之一頻譜頻率表示之頻率值f1...fn,其中該轉換器經組配以藉由分析如下定義之一對多項式P(z)及Q(z)判定該等頻率值f1...fnP(z)=A(z)+z-m-lA(z-1)且Q(z)=A(z)-z-m-lA(z-1),其中m為該預測性多項式A(z)之一階數,且l大於或等於零,其中該轉換器經組配以藉由以下操作獲得該等頻率值(f1...fn):建立自P(z)導出之一絕對實頻譜(RES)及來自Q(z)之一絕對虛頻譜(IES),以及識別自P(z)導出之該絕對實頻譜(RES)及自Q(z)導出之該絕對虛頻譜(IES)的零,其中該轉換器包含一限制器件,其用於藉由用一濾波器多項式B(z)乘以該等多項式P(z)及Q(z)或自該等多項式P(z)及Q(z)導出之一或多個多項式來限制該等多項式P(z)及Q(z)的該等頻譜(RES、IES)之數值範圍,其中該濾波器多項式B(z)為對稱的且在一單位圓上不具有任何根;一量化器,其用於自該等頻率值(f1...fn)獲得經量化 頻率(fq1...fqn)值;以及一位元串流產生器,其用於產生包含該等經量化頻率值(fq1...fqn)之一位元串流。
- 如請求項1之資訊編碼器,其中該轉換器包含一判定器件以自該預測性多項式A(z)判定該等多項式P(z)及Q(z)。
- 如請求項1之資訊編碼器,其中該轉換器包含一零識別符,其用於識別自P(z)導出之該絕對實頻譜(RES)及自Q(z)導出之該絕對虛頻譜(IES)的該等零。
- 如請求項3之資訊編碼器,其中該零識別符經組配以用於藉由以下操作識別該等零:a)自空值頻率之該實頻譜(RES)開始;b)增大頻率,直至找到該實頻譜(RES)處的正負號之一改變為止;c)增大頻率,直至找到該虛頻譜(IES)處的正負號之另一改變為止;以及d)重複步驟b)及c),直至找到所有零為止。
- 如請求項3之資訊編碼器,其中該零識別符經組配以用於藉由內插識別該等零。
- 如請求項1之資訊編碼器,其中該轉換器包含一零填補器件,其用於將具有一值「0」之一或多個係數加至該等多項式P(z)及Q(z),以便產生一對加長多項式Pe(z)及Qe(z)。
- 如請求項5之資訊編碼器,其中該轉換器係按以下方式 組配:使得在將該等線性預測係數轉換成該預測性多項式A(z)之該頻譜頻率表示(RES、IES)之頻率值(f1...fn)期間,省略至少一部分與已知具有該等加長多項式Pe(z)及Qe(z)之該值「0」之係數的操作。
- 如請求項5之資訊編碼器,其中該轉換器包含一複合多項式形成器,其經組配以自該等加長多項式Pe(z)及Qe(z)建立一複合多項式Ce(Pe(z),Qe(z))。
- 如請求項8之資訊編碼器,其中該轉換器係按以下方式組配:使得自P(z)導出之該絕對實頻譜(RES)及來自Q(z)之該絕對虛頻譜(IES)係藉由一單一傅立葉變換藉由變換該複合多項式Ce(Pe(z),Qe(z))而建立。
- 如請求項1之資訊編碼器,其中該轉換器包含一傅立葉變換器件以用於將該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之一或多個多項式傅立葉變換至一頻域,及一調整器件以用於調整自P(z)導出的該頻譜(RES)之一相位使得其為絕對實數,及用於調整自Q(z)導出的該頻譜(IES)之一相位使得其為絕對虛數。
- 如請求項10之資訊編碼器,其中該調整器件經組配為一係數移位器,以用於進行該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之該等一或多個多項式的係數之循環移位。
- 如請求項11之資訊編碼器,其中該係數移位器經組配以用於按以下方式進行係數之循環移位:將一係數序列之一原始中點移位至該序列之第一位置。
- 如請求項10之資訊編碼器,其中該調整器件經組配為一移相器,以用於移位該傅立葉變換器件之輸出的一相位。
- 如請求項13之資訊編碼器,其中該移相器經組配以用於藉由用exp(i2πkh/N)乘以第k個頻率區間來移位該傅立葉變換器件之該輸出的該相位,其中N為樣本之長度且h=(m+l)/2。
- 如請求項1之資訊編碼器,其中該轉換器包含一傅立葉變換器件,其用於按一半樣本將該對多項式P(z)及Q(z)或自該對多項式P(z)及Q(z)導出之一或多個多項式傅立葉變換至一頻域,使得自P(z)導出之該頻譜(RES)為絕對實數,且使得自Q(z)導出之該頻譜(IES)為絕對虛數。
- 如請求項1之資訊編碼器,其中該轉換器包含一複合多項式形成器,其經組配以自該等多項式P(z)及Q(z)建立一複合多項式C(P(z),Q(z))。
- 如請求項16之資訊編碼器,其中該轉換器係按以下方式組配:使得自P(z)導出之該絕對實頻譜(RES)及來自Q(z)之該絕對虛頻譜(IES)係藉由一單一傅立葉變換藉由變換該複合多項式C(P(z),Q(z))而建立。
- 如請求項6之資訊編碼器,其中該轉換器包含一限制器件,其用於藉由用一濾波器多項式B(z)乘以該等加長多項式Pe(z)及Qe(z)來限制該等加長多項式Pe(z)及Qe(z)或自該等加長多項式Pe(z)及Qe(z)導出之一或多個多項 式的該等頻譜(RES、IES)之該數值範圍,其中該濾波器多項式B(z)為對稱的且在一單位圓上不具有任何根。
- 一種用於操作用於編碼一資訊信號(IS)之一資訊編碼器之方法,該方法包含以下步驟:分析該資訊信號(IS)以便獲得一預測性多項式A(z)之線性預測係數;將該預測性多項式A(z)之該等線性預測係數轉換成該預測性多項式A(z)之一頻譜頻率表示(RES、IES)的頻率值(f1...fn),其中該等頻率值(f1...fn)係藉由分析一對多項式P(z)及Q(z)來判定,該對多項式經定義為P(z)=A(z)+z-m-lA(z-1)且Q(z)=A(z)-z-m-lA(z-1),其中m為該預測性多項式A(z)之一階數,且l大於或等於零,其中該等頻率值(f1...fn)係藉由以下操作來獲得:建立自P(z)導出之一絕對實頻譜(RES)及來自Q(z)之一絕對虛頻譜(IES),及識別自P(z)導出之該絕對實頻譜(RES)及自Q(z)導出之該絕對虛頻譜(IES)的零;藉由用一濾波器多項式B(z)乘以該等多項式P(z)及Q(z)或自該等多項式P(z)及Q(z)導出之一或多個多項式來限制該等多項式P(z)及Q(z)的該等頻譜(RES、IES)之數值範圍,其中該濾波器多項式B(z)為對稱的且不具有在一單位圓上之任何根;自該等頻率值(f1...fn)獲得經量化頻率(fq1...fqn)值;以及 產生包含該等經量化頻率值(fq1...fqn)之一位元串流(BS)。
- 一種包含程式的電腦可讀媒體,該程式用於在一處理器上運行時執行根據請求項19之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14158396 | 2014-03-07 | ||
EP14178789.5A EP2916319A1 (en) | 2014-03-07 | 2014-07-28 | Concept for encoding of information |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201537566A TW201537566A (zh) | 2015-10-01 |
TWI575514B true TWI575514B (zh) | 2017-03-21 |
Family
ID=51260570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104106071A TWI575514B (zh) | 2014-03-07 | 2015-02-25 | 資訊編碼器、其操作方法及相關電腦可讀媒體 |
Country Status (18)
Country | Link |
---|---|
US (3) | US10403298B2 (zh) |
EP (4) | EP2916319A1 (zh) |
JP (3) | JP6420356B2 (zh) |
KR (1) | KR101875477B1 (zh) |
CN (2) | CN106068534B (zh) |
AR (1) | AR099616A1 (zh) |
AU (1) | AU2015226480B2 (zh) |
BR (1) | BR112016018694B1 (zh) |
CA (1) | CA2939738C (zh) |
ES (1) | ES2721029T3 (zh) |
MX (1) | MX358363B (zh) |
MY (1) | MY192163A (zh) |
PL (2) | PL3097559T3 (zh) |
PT (1) | PT3097559T (zh) |
RU (1) | RU2670384C2 (zh) |
SG (1) | SG11201607433YA (zh) |
TW (1) | TWI575514B (zh) |
WO (1) | WO2015132048A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2013012593A (es) | 2011-04-29 | 2014-08-21 | Selecta Biosciences Inc | Nanoportadores sintéticos tolerogénicos para reducir las respuestas de anticuerpos. |
MX347921B (es) * | 2012-10-05 | 2017-05-17 | Fraunhofer Ges Forschung | Un aparato para la codificacion de una señal de voz que emplea prediccion lineal excitada por codigos algebraico en el dominio de autocorrelacion. |
KR20220025907A (ko) | 2013-05-03 | 2022-03-03 | 셀렉타 바이오사이언시즈, 인크. | 비-알레르겐성 항원에 반응하는 아나필락시스를 감소시키거나 방지하기 위한 관용유발 합성 나노담체 |
EP2916319A1 (en) * | 2014-03-07 | 2015-09-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding of information |
CA3042070C (en) * | 2014-04-25 | 2021-03-02 | Ntt Docomo, Inc. | Linear prediction coefficient conversion device and linear prediction coefficient conversion method |
MX2017002931A (es) * | 2014-09-07 | 2017-05-30 | Selecta Biosciences Inc | Metodos y composiciones para atenuar respuestas inmunes anti-vector de transferencia viral. |
US10349127B2 (en) * | 2015-06-01 | 2019-07-09 | Disney Enterprises, Inc. | Methods for creating and distributing art-directable continuous dynamic range video |
US10211953B2 (en) * | 2017-02-07 | 2019-02-19 | Qualcomm Incorporated | Antenna diversity schemes |
WO2022137645A1 (en) | 2020-12-23 | 2022-06-30 | Mitsubishi Electric Corporation | Interactive online adaptation for digital pre-distortion and power amplifier system auto-tuning |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200401532A (en) * | 2002-04-30 | 2004-01-16 | Qualcomm Inc | Distributed voice recognition system utilizing multistream network feature processing |
TW201007699A (en) * | 2008-07-24 | 2010-02-16 | Dts Inc | Compression of audio scale-factors by two-dimensional transformation |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3246029B2 (ja) * | 1993-01-29 | 2002-01-15 | ソニー株式会社 | 音声信号処理装置及び電話装置 |
US5701390A (en) | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
EP0774750B1 (en) * | 1995-11-15 | 2003-02-05 | Nokia Corporation | Determination of line spectrum frequencies for use in a radiotelephone |
JPH09212198A (ja) * | 1995-11-15 | 1997-08-15 | Nokia Mobile Phones Ltd | 移動電話装置における線スペクトル周波数決定方法及び移動電話装置 |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
FI116992B (fi) * | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
US6611560B1 (en) * | 2000-01-20 | 2003-08-26 | Hewlett-Packard Development Company, L.P. | Method and apparatus for performing motion estimation in the DCT domain |
US6665638B1 (en) * | 2000-04-17 | 2003-12-16 | At&T Corp. | Adaptive short-term post-filters for speech coders |
JP2004502204A (ja) * | 2000-07-05 | 2004-01-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ラインスペクトル周波数をフィルタ係数に変換する方法 |
WO2004008437A2 (en) * | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
CA2415105A1 (en) | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
CN1458646A (zh) * | 2003-04-21 | 2003-11-26 | 北京阜国数字技术有限公司 | 一种滤波参数矢量量化和结合量化模型预测的音频编码方法 |
WO2005073959A1 (en) * | 2004-01-28 | 2005-08-11 | Koninklijke Philips Electronics N.V. | Audio signal decoding using complex-valued data |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
KR100723409B1 (ko) * | 2005-07-27 | 2007-05-30 | 삼성전자주식회사 | 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치 |
US7831420B2 (en) * | 2006-04-04 | 2010-11-09 | Qualcomm Incorporated | Voice modifier for speech processing systems |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
CN101149927B (zh) * | 2006-09-18 | 2011-05-04 | 展讯通信(上海)有限公司 | 在线性预测分析中确定isf参数的方法 |
CN101286319B (zh) * | 2006-12-26 | 2013-05-01 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
KR101531910B1 (ko) * | 2007-07-02 | 2015-06-29 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
US20090198500A1 (en) * | 2007-08-24 | 2009-08-06 | Qualcomm Incorporated | Temporal masking in audio coding based on spectral dynamics in frequency sub-bands |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
CN101662288B (zh) * | 2008-08-28 | 2012-07-04 | 华为技术有限公司 | 音频编码、解码方法及装置、系统 |
JP2010060989A (ja) | 2008-09-05 | 2010-03-18 | Sony Corp | 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム |
CA2777073C (en) * | 2009-10-08 | 2015-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
WO2011048117A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
CA3097372C (en) | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
EP3779975B1 (en) * | 2010-04-13 | 2023-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction |
CN101908949A (zh) * | 2010-08-20 | 2010-12-08 | 西安交通大学 | 无线通信系统及其基站、中继站、用户终端和数据的发送接收方法 |
KR101747917B1 (ko) * | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
US20130211846A1 (en) * | 2012-02-14 | 2013-08-15 | Motorola Mobility, Inc. | All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec |
US9479886B2 (en) * | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
CN102867516B (zh) * | 2012-09-10 | 2014-08-27 | 大连理工大学 | 一种采用高阶线性预测系数分组矢量量化的语音编解方法 |
US9396734B2 (en) * | 2013-03-08 | 2016-07-19 | Google Technology Holdings LLC | Conversion of linear predictive coefficients using auto-regressive extension of correlation coefficients in sub-band audio codecs |
EP2916319A1 (en) | 2014-03-07 | 2015-09-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding of information |
-
2014
- 2014-07-28 EP EP14178789.5A patent/EP2916319A1/en not_active Withdrawn
-
2015
- 2015-02-09 ES ES15703085T patent/ES2721029T3/es active Active
- 2015-02-09 WO PCT/EP2015/052634 patent/WO2015132048A1/en active Application Filing
- 2015-02-09 SG SG11201607433YA patent/SG11201607433YA/en unknown
- 2015-02-09 JP JP2016555956A patent/JP6420356B2/ja active Active
- 2015-02-09 MX MX2016011516A patent/MX358363B/es active IP Right Grant
- 2015-02-09 PL PL15703085T patent/PL3097559T3/pl unknown
- 2015-02-09 EP EP23217777.4A patent/EP4318471A3/en active Pending
- 2015-02-09 BR BR112016018694-0A patent/BR112016018694B1/pt active IP Right Grant
- 2015-02-09 CN CN201580012260.3A patent/CN106068534B/zh active Active
- 2015-02-09 EP EP19154890.8A patent/EP3503099B1/en active Active
- 2015-02-09 MY MYPI2016001586A patent/MY192163A/en unknown
- 2015-02-09 KR KR1020167027515A patent/KR101875477B1/ko active IP Right Grant
- 2015-02-09 RU RU2016137805A patent/RU2670384C2/ru active
- 2015-02-09 PL PL19154890.8T patent/PL3503099T3/pl unknown
- 2015-02-09 CN CN201911362154.4A patent/CN111179952B/zh active Active
- 2015-02-09 CA CA2939738A patent/CA2939738C/en active Active
- 2015-02-09 PT PT15703085T patent/PT3097559T/pt unknown
- 2015-02-09 AU AU2015226480A patent/AU2015226480B2/en active Active
- 2015-02-09 EP EP15703085.9A patent/EP3097559B1/en active Active
- 2015-02-25 TW TW104106071A patent/TWI575514B/zh active
- 2015-03-03 AR ARP150100631A patent/AR099616A1/es active IP Right Grant
-
2016
- 2016-09-07 US US15/258,702 patent/US10403298B2/en active Active
-
2018
- 2018-10-11 JP JP2018192262A patent/JP6772233B2/ja active Active
-
2019
- 2019-07-15 US US16/512,156 patent/US11062720B2/en active Active
-
2020
- 2020-09-30 JP JP2020164496A patent/JP7077378B2/ja active Active
-
2021
- 2021-07-02 US US17/367,009 patent/US11640827B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200401532A (en) * | 2002-04-30 | 2004-01-16 | Qualcomm Inc | Distributed voice recognition system utilizing multistream network feature processing |
TW201007699A (en) * | 2008-07-24 | 2010-02-16 | Dts Inc | Compression of audio scale-factors by two-dimensional transformation |
Non-Patent Citations (1)
Title |
---|
Frank K. Soong and Biing-Hwang Juang, "Line Spectrum Pair (LSP) and Speech Data Compression", Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, San Diego, CA, US, Mar 1984, vol. 9, pp. 37-40. * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI575514B (zh) | 資訊編碼器、其操作方法及相關電腦可讀媒體 | |
JP6543640B2 (ja) | エンコーダ、デコーダ並びに符号化及び復号方法 | |
JP6117359B2 (ja) | 線形予測分析装置、方法、プログラム及び記録媒体 | |
JP5815723B2 (ja) | 低ビットレート信号コーダおよびデコーダ | |
TWI711033B (zh) | 用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 | |
JP6392450B2 (ja) | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 | |
RU2694150C1 (ru) | Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания | |
TW201923755A (zh) | 音調滯後選擇技術 | |
JP6224827B2 (ja) | 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 | |
Bäckström et al. | Finding line spectral frequencies using the fast Fourier transform | |
JP2004518164A (ja) | オーディオ信号又はスピーチ信号を符号化するパラメトリック・エンコーダ及び方法 |