TW497335B - Method and apparatus for variable rate coding of speech - Google Patents

Method and apparatus for variable rate coding of speech Download PDF

Info

Publication number
TW497335B
TW497335B TW089121438A TW89121438A TW497335B TW 497335 B TW497335 B TW 497335B TW 089121438 A TW089121438 A TW 089121438A TW 89121438 A TW89121438 A TW 89121438A TW 497335 B TW497335 B TW 497335B
Authority
TW
Taiwan
Prior art keywords
speech
group
frame
sub
excitation
Prior art date
Application number
TW089121438A
Other languages
English (en)
Inventor
Shihua Wang
Original Assignee
Atmel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Atmel Corp filed Critical Atmel Corp
Application granted granted Critical
Publication of TW497335B publication Critical patent/TW497335B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

五、發明說明(l) 【發明說明】 【發明領域】 〜本蝥明大體上係關於語音分析,尤其係關於一種用來壓 縮語音的有效編碼方法。 【習知技術】
語音編碼技術在近來年已經有非常大的進展。依據有線 和無線電話標準的語音編碼器,例如G, 72 9、G· 723和新興 AMR ’都已經展現了約8 kbps或更低速率的高品 二。美國聯邦標準編碼器更顯示,如2· 4 kbps的低速率也 能達到高品質的合成語音。 雖然這些編碼器可以滿足快速發展之電信市場的需要, 仁肩費者在電子應用方面卻仍然缺乏適當的語音編碼器。 典型的例子包括如留言機、口述裝置和聲音組織器等消費 項=。在這些應用中,該語音編碼器必須提供高品質的再 生複製能力以獲得市場的接受度,並需提供高壓縮率來將 圮錄媒體的儲存需求保持在最低狀態。另一方面,因為 些裝置都是獨立存在的單元,並不需要具有與其它編碼哭 彼此相容及溝通的功能。結$,也不需要堅守一固定的: 凡速率或編碼延遲之限制。
^此 個此提供高品質合成語音的低位元速率語音編 ^印之存在乃疋有必要的。吾人會想要將獨立存在之各種 -用的寬鬆限制予以合併,卩提供一高品質、低成本的編 【發明概要】
497335 五、發明說明(2) 本發明的語音總 包括將-語音輸: = 構在合成分析的基礎上,並 些樣本被組成為一第一 έ 刀析以產生一語音樣本流。這 線性預測編碼(Lpr τ •、且群組(框)。語音合成濾波器的 係從這些框的分析叶predictive c〇dlng)係數 二組群組(次框):侍。這些語音樣本更被组成一第 語音。同時每個次框=^二框被加以分析以產生已編碼的 類別。因&,根據其類別,可二:::或初始之 包含該群組的語音樣太、、寺疋的、,扁碼方法來將 而言,其係採用一種捭兴/、、扁碼於疋,就無耷語音類別 於初始語音類別,即;狀夕編碼方η 音類別而言,更進一牛的=> 夕脈衝模擬技術。就有聲語 頻率上。對於低音頻;==建構在此般語音的音調 期預測因子和單一脈衝的計二了二而二,編碼係伴隨著長 來說,該編碼乃是建構在:立,::::::有聲語音 列脈衝上。 曰调週期而彼此相隔的一系 【實施本發明的最佳模式】 ^ ^ ® 1 〇〇 ^ 較佳狀況下,該A/d為-轉換器102。在 上 β丄1 b位凡的轉換器’其具有每秒鐘 ΐ理80GG個^的取樣速率,並隨之產生-樣本流1Q4。 ▲然:也”::3』位元的解碼器(或-較低解析度的解 碼裔),5 忍為16位元的詞語大小較能提供適當 析度。預測的解析度將隨著成本考量和效能水準而予以^ $ 6頁 89121438.ptd 497335 五、發明說明(3) 變 〇 這些樣本被組成數個框,且更進一步被組成次框。大小 為2 5 6個樣本的框(其代表3 2 in s的語音)係沿著路徑1 〇 8 而被輸入一線性預測編碼(LPC, linear predictive cod i ng )區塊1 2 2中,同時也沿著路徑1 〇 7而被輸入一長期 預測(LTP, long term prediction)分析區塊 115 中。另
外’每個框都被分割為四個各具有64個樣本的次框,而每 個次框都沿著路徑1 〇 6而被輸入一分段區塊11 2中。因此, 本發明的編碼方法,係在以一個接著一個框的基礎上、以 及在次框等級上發展而成。
如以下的更詳細說明所述,LPC區塊1 22所產生的濾波器 係數1 3 2,係經過量子化1 3 7處理,同時也定義了語音合成 濾波态1 3 6的參數。在每一框中都有一組係數產生。該[丁 p 分析區塊1 1 5係分析了輸入語音的音調值,並產生用來提 供給有聲激發編碼方法區塊11 8的音調預測係數。分段區 塊1 1 2係以一單位次框為基礎來加以運作。根據對次框的 分析,該分段區塊乃對選擇器1 62和1 64加以運作以選取三 個激發編碼方法1 1 4- 1 1 8的其中之一,藉此,次框可被編 碼來產生一激發係號1 34。該三個激發編碼方法:MPE (初 始激發編碼)11 4、增益/形狀VQ (無生激發編碼);[丨6、 及有聲激發編碼11 8將在以下有更詳細的說明。該激發信 號則進入合成濾波器1 3 6以產生合成語音1 3 8。 一般而言,合成語音係藉由一加法器1 4 2而與語音樣本 104合併,以產生一誤差信號144。該誤差信號接著進入一
89121438.ptd 第7頁 497335
具有感受度的加權濾波器146以產生一加權誤差信號,該 加,誤差信號接著會進入一誤差最小化區塊148中;一誤 差取小化區塊的輸出丨52會驅動激發信號丨34 整,以將誤差最小化。 | f心的π 該ί成分析迴圈中被適度地最小化日寺,該激發 唬134接者猎由一合併電路182而被合併到一位元济 該 位兀流接著可被儲存在稍後作為: 送到-遠端的解碼單元中。 用。。己丨思體中,或被 本說明現在將轉向根據本發明之較佳模式所 程序:討論’該較佳模式係藉由如圖2的來以馬 明:整個程序係建構在—個接著—mi的基礎 於被取樣之輸入#音1〇4的lpC分析2〇2。在較 、'° 係藉由在包含有一框的各個次框中使:式中’ 將-個第十階的L P C分析實施於輸入語音s關方法’來 取樣窗係設定為192個樣本(其相當於三;中。刀析 ),並和每個次框的中心對齊。輸入樣—本^匡的一寬度 Hamming取樣窗操作者的習知技術,而被 曰由一 個樣本大小。先參照圖3A片刻,吾人可、、主咅為預測之1 92 中的第一個次框之處理程序,包括了上/一 ^ 11,在目前框 框。同樣地’目前框的第四個次框之處理程J:第四個次 一個框的第一個次框。這個跨越框間的重聂包括了下 處理取樣窗之三個次框寬度所導致而產生,^,係因為 可以下式表示之: θ身相關函數
89121438.ptd 第8頁 497335 五、發明說明(5) R(i):f^sinU) 其中JVa為192。 公式】 接著’其所產生的自 其係利用常數向量來::關向量係取 用來加寬共擴峰的頻^自身相闕向量而得:〜二 吾人已經觀察到,對於= '少對類寬的低估“擴張可 音具有極寬的頻譜動力範圍、二,,者而言,特定的鼻音語 的某些正弦音調而言也是成立的徵。這對於在DTMF信號中 頻譜會展現出大又尖銳的頻级^成結果,其相對應的語音 並產生一些來自LPC分析 R〆峰(其具有極窄之頻寬), u <預測外的 欲克服以上的異常現象,一個果立。 在該自身相關向量上。該向旦 孓本曰杈正向量被應用 7 2 9 )的白噪立γ τ — θ ^。里口於其它編碼器(例如G. /的白木曰杈正向量是相對立的,白噪音係相合於在 ::頻:晋上增加一噪音Μ。該噪音校正向量具有__v形封 匕,且藉由該自身相關向量的第一元素來將其予以尺度 化。δ亥彳呆作係如公式2所示: autolpc[i] = au [i] 其中i = N p,…· {·〇〇2, · 0015, ·〇〇i 0〇l5, . 002} 在頻率的區域範圍中,該噪音校正向量係與一個滾降形 狀頻譜相對應,其係表示,該頻譜在較高頻率處具有一滾 t ο 1p c[i] + autolpc[0] · No i seshape 公式2 ,··.·,0 且 No i seshape [11]= • 0 0 0 5,0,0,0,· 0 0 0 5,· 0 0 1,·
第9頁 89l2l«8.Ptd 497335 五、發明說明(6) 降現象。將該頻譜和原始語音頻譜以如公式2所示的方式 來加以合併,則可具有減少該原始語音之頻譜動力範圍的 預測作用,且可具有不必在較高頻率處提高噪音層的額外 優點。藉利用該噪音校正向量來將該自身相關向量予以尺 度化,令人棘手之鼻音語音和正弦音調的頻譜即可在具有 較高精確度的狀況下被擷取出來,同時,其所產生的已編 碼語音,將不會包括因為噪音層的加入而導致的預期外之 可聽到的高頻噪音。 最後,對於LPC分析(步驟2 0 2 )而言,該合成濾波器 1 3 6的預測係數(濾波器係數)係根據習知的D u r b i η遞迴 演算法來遞迴地循環計算,其係以公式3來表示·· /E {i"l) l5i<Nn 公式3 (u-i) 占尸;i; Ο、 (冲) 在目前框的每個次框中,都有一組構成該L P C向量的預 測係數產生。另外,運用習知的技術,可產生第四個次框 的反射係數(R& ),同時有一個代表該框的頻譜平坦度 (sfn)的數值產生。該指示值sfn = E(Mp) / RQ為從公式3 所導出來的標準化預測誤差。
\\312\2d-code\90-01\89121438.ptd 第10頁 五、發明說明(7) 量的量化。此步序的下個步驟為步驟204 ’亦即LPc向 的第四個次框Γΐ;:框都執行-次,且施行在每個樞 在該第四個次樞的LPC向量上劲反射係數格式的形式而 量被轉換到對數面 執二第-,該反射係數向 量接著被分為第一 1/LAf)的區域範圍。該轉換向 係藉由-組不均句;c來:第-次向量的各項, 量則被傳送到—向 f化為末予以量化。言亥第二次向 256的編瑪薄。純量量化心二量化器係具有-大小為 的複雜度較小,但 Dt旦旦 '计异*R〇M需求方面所要求 打。在另-方面,該向量量:::耗費更多位7°來施 度’而達到較高的編碼效率。;=增加硬體的複雜 術合併於兩個次旦 错由將純量和向量之量化技 1. 35 dB的平均頻譜里變开二:用編碼效率交換複雜度來獲得 其所產生的總 I 签 ^ ,spectral di stort i on )。 欲達到低編珥ϋ而要1 ·25 k詞語的儲存空間。 U Μ)率,預測係數在每個框只更新一次(每
頻譜軌跡的平滑轉亥換更新速率仍不足以維持框到框間之LPC 係數的線性内# r車s 利用習知的内差技術,預測 確保在Α μ & ( )係被施行於LAR區域範圍,以 -向量=艎? 136中的穩定度。在進行内差之後 直接形Λ Λ /#'數格式,以便由遽波器來進行 ^武的過濾(如步驟208 )。 框ΐ圖2用所Λ的/個步驟’為在一開放迴圈類型的兩個次 來估异輸入浯音之音調值的長期預測(LTP, 89121438.ptd 第11頁 五、發明說明(8) long term prediction)分知广 μ 個框都施行了兩次,一次是在二驟210 )。該分析在每 第個三次框,其所使用的取樣個次框,而另一次是在 當於四個次框的寬度。參考圖小為256個樣本,其相 析窗係位於第一個次框之末沪 亥】。人可注意到,分 第四個次框。同樣地,另—办央,且包括前一個框的 端的中央,且包括下一個第三個一 圖4係顯示LTP分析步驟的資粗冷 根據在LPC分析步驟中所計算出二文個·入語音樣本係 ^ctral Hatness 理或需透過一逆濾波器402來進l 擇係必須直接處 選擇功能的開關4。丨將被說明如下員=。用:管理這個 相關操作4〇4,並緊接荖者#六7 +接者,即進仃一交叉 4〇6 〇 貝也又又相關結果的精確化操作 生立二',即進行音調的估算4。8,且在-區塊410中產 生曰,預測係數以供感知加權濾波器146之用。 伟到區塊4〇2,肖LPC逆渡波器為一FIR遽波器,其 未經量化的LPC係數,係被計算來供次框之用,而 框?二。_人框指的是正在實施LPC分析的次框,亦即次框1或次 LPC殘餘信號res(n)係根據公式4而由波器 生。公式4係以下式表達、 复 res⑻=sitp⑺卜公式4 〔、中s 11 p []為一包括-該被取樣語音的緩衝區。 L吊’被輸入至交叉相關區塊4 〇 4者為LPC殘餘信號。然 對於某些鼻音語音和鼻音化的母音而言,其Lpc預測 第12頁 89121438.ptd 五、發明說明(9) :益J相當高的。結果,其基礎頻率 幾,體移除,使得所導致的音調脈 ί:沒有殘餘信號存在。欲克服這個 ^餘信號或輸入語音樣本本身之一輸 。該開關係根據先前於步驟2 0 2 &才日標(s f η)來加以運作。 當頻譜平坦度指標比預定門檻還低 不為具有高度的可預測性,且該音調 、!有偏弱的傾向。在此般的情況中, 接擷取出音調資訊。在較佳實施例中 值而選定為0· 017,如圖4所示。 父又相關函數4〇4係定義如下: 幾乎被LPC逆濾波器、 衝顯得非常微弱,或 問題’開關4 0 1將l p c 入该父叉相關區塊 中所計算的頻譜平坦 時’該輸入語音則被 脈衝在其殘餘信號中 則可從輸入信號中直 ,該門檻值係憑經驗 croa[t]: 3^-i/2 ^g^res[n]>res[n,i] 其中1 -c^i/2) res[n]2 Σ res[/i4i]2 1 Λ-(ΑΚ|/2) .........··Lmax+2 公式5 L m i n - 2, 64
Lm i η = 2 0,最小音調延遲值 Lmax = 126,最大音調延遲值 % 2改善所估异之音調值的正確性,該交叉相關函數係透 义一 ^取樣濾波器和一局部最大搜尋程序406來予以精準 化。该上取樣濾波器是一個具有4倍速取樣速率的5分接頭 F I R ’如公式6所定義: 2 crosUp【4i+i-l]=石 cros【i+j 】· IntpTaJble(i, j ) 0:sis3 公式 6
第13頁 497335 五、發明說明(ίο) 其中
IntpTable(0,j ) = {- 0. 1286,0· 3001,〇. 9003, -0. 1 80 1, 0.1 0 0 0 } IntpTable(l,j)={0, 0, 1, 0, 0}
IntpTable(2,j):{0· 1000,-0· 1801,0.9003, 0· 3001, -0·1286}
IntpTable(3,j) = {〇. 1273,-0.2122,0.6366, 0. 6366, -0.2122} 接著在每個環繞原始整數值的内差區域中選取局部最大 值,以取代先前所計算的交叉相關向量: 公式7 cros[l] = maxCcroSup [ 4 1-1 ] , crosl]P[41], crosUP [ 4 1 + 1 ], crosUP [ 4 1 + 2 ]) 其中 Lmin ^Lmax 接著’在一精準化的父叉相關函數上施行一音調估算程 序408,以決定開放迴圈的音調延遲值Lag。藉由以上程 序i首先就會牽涉到前級音調估算的施行。該交叉相關函 數係被分為三個區域,各自所涵蓋的音 4〇(^U§t^ 400 Hz - 20 0 Hz) 2 ’2〇0 HZ - 100 Hz),及 80 - 126 (區域3 ,1〇〇 ^ _ 63 Hz )。每個區域都可決定出一局部最大值,同 為優先考慮的狀況下’選擇出三個局部最大 值中9取锃曰凋候選值13^,。在無聲語音的案例中,以
89121438.ptd 第14頁 V P S § aa 497335 五、發明說明(11) 上程序可構成次框的開放迴目Μ 所有的有聲次框都必須進 =:值1叫。 化。嗜艢進仆从从 延订初始日调延遲估算的精举 前的:欠框:年:可有效地將局部音調軌跡相對於目 」的-人框而予以平滑,藉以為該開放迴圈 m算來提供良好的基礎。首*,將三個局部最大值與 兮所決定的音調延遲值(lagp“目比較,與 狀遲值(lagp)最為相近的最大值被定義為_。 立果lag^和該初始音調延遲估算值相等,則可選用該初始 曰凋估异值。否則,即根據音調延遲值丨%、丨%、和 、agP以及它們的交叉相關性,將一音調值定義為最终開放 迴圈音調估算值,而該音調值會產生一平滑音調執跡。以 下的C語言程式碼即涵蓋了以上所述的程序。而在各判別 式之決定點所使用的極限值,乃是以經驗值來加以訂定·· /氺 - selected pitch lag value - pitch lag value of previous subframe lagh - closest of local maxima to 1 agp xmaxv 一 cross correlation of lagv xmaxp 一 cross correlation of lagP xmaxh -cross correlation of lagh
diff = (lagv - lagh) / lagp IX choose lagp if lag', and lagh have low
89l2H38.ptd 第15頁 497335 五、發明說明(12) cross correlation values 氺/ if (xmaxv < 0.35 && xmaxh <0.35) { 1 agv = 1 agP ; xmaxv = cr〇ss一c〇rr (1 agP) } /氺 when 1 agv is much less than 1 agh and xmaxh is large, then choose 1 agh */ else if (diff < -0.2) { if( (xmaxh - xmaxv ) > .05) { 1 agv = 1 agh ; xmaxv 二 xmaxh ; } } /氺 if 1 agv and 1 agh are close, then the one with the larger cross correlation value wins 氺/ else if (diff < 0. 2) { if( xmaxh > xmaxv ) { 1 agv = 1 agh ; xmaxv = xmaxh ; } } /氺
89121438.ptd 第16頁 五、發明說明(13) i f 1 agv is much greater than 1 agh and their cross correlation is close, choose lag. */ < 0. 1 xmaxh else if( abs(xmaxh — xmaXv lagv = lagh ; xmaxv 、在長期預測分析(步驟210)的最後一個步驟為音調預 測^塊41 0 ’該步驟係利用一協方差計算技術,來根據所 ::的開放迴圈音調延遲值Lag以獲得一 3步驟的音調預測
「 、式係用來计异曰調預測係數COV 218 . , /、將運用於以下的感知加權步驟(步驟 SO1 SO SO1 SI SO 50151 SIlSl SI eS2 50152 SIlS2 S2e c〇v[〇 j* c〇V[l] S2 Jlc〇v[ 2] \b0 bl b2 其中 公式8 ptl*2V-l
n-ptl J 9 及 M= 52 S(n^i)-S(ji^LagU) i = 〇,l,2 n-ptl
89121438.ptd 第17頁 497335 五、發明說明(14) p 11
N
Lag/2 - 1 回到圖2,下個步驟則為計算次框中的能量,即步驟 21 2。而適用於該次框能量(Pn)的公式為: 丄!>(欠)2 公式9 其中N pn = N, 除了在以下的特殊案例之外: [ 2 *Lag LagsAOfcros[Lag]>0.35
Wpn = |min (Lag,2·Ν) Lag>40,cros[Lag]>0·35 即步驟2 1 4 接下來即是次框之能量梯度(EG )的計算 其以公式1 0表示如下: r Pn-Pnr
EG
Pn
Pn>Pnl Pnspn^ 公式10 其中Pnp為前一個次框的能量。 接著,輸入語音以次框為基礎,而在語音分段中被分為 無聲、有聲或初始類別,此即為步驟2 1 6。該分類工作係 以各種要素為基礎,這些要素包括在步驟2 1 2 (公式9 )中 所計算的次框能量、在步驟2 1 4中所計算的能量梯度、一 次框的零交叉速率、次框的第一反射係數(RC!)、及對 應於先前在步驟2 1 0中所計算之音調延遲值的交叉相關函 數。 該零交叉速率(ZC) 係由公式11來決定:
89121438.ptd 第18頁 497335 五、發明說明(15) 公式11 zc •^Σ sgn(s(k))-sgn(s(k-l)) 其中sqn (x)為信號函數。對有聲語音而言,在相較於 無聲語音的情況下’其信號包括較少高頻成分,因此其零 交叉速率將會比較低。 ’、’ 該第一反射係數(RC!)係位於範圍(丨,—丨)中的一個單 位樣本延遲上之輸入語音的標準化自身相關性。該參數可 從步驟202的LPC分析而獲得。其係用來估算跨越整個通行 ,段所產生的頻譜傾斜。對於大多數的有聲語音而言,頻 5晋封包會隨著頻率而減少,且該第一反射係數將趨近於、 ,但”,、耷語音則傾向於具有一平坦的 射係數將趨近或小於〇。 i且。亥弟反 對應於步驟2 1 〇所計曾之立纲„、斤^ (CCF cm. 所彳^之曰6周延遲值的交又相關函數 性的主ion functlon)為語音輸人之週期 ,的主要指標。當該值趨近於丨 枉 、d 的。而較小值則代表該語音具有°;;極可此疋有聲 舌吾音的特徵。 夕勺&機性’其為無聲 接續步赞2^ = Cr〇S […] 公式12 、/驟216,以下的決策樹 要素· Pn、EG、zc、Rn 很據以上所计异的五個 別。用於該決策樹,來決定次框的語音類 該決策樹的決策過程乃上方式來加以決定。 片段來表示: 知式5吾$所撰寫的程式碼 /木 ^121438.ptd 第19頁 497335 五、發明說明(16) unvoiced category:voicing 一 1 voiced category:voicing 一2 onset category : voicing —3 氺/ /* first, detect silence segments */ if (Pn < 0. 002) { voicing = 1; /氺 check for very low energy unvoiced speech segments */ } else if (Pn < 0.005 && CCF <0.4) { voicing 二 1; /* check for low energy unvoiced speech segments 氺/ } else if (Pn < 0.02 && ZC > 0.18 && CCF < 〇· 3) { voicing = 1; /* check for low to medium energy unvoiced speech segments */ } else if (Pn <0.03 && ZC >0.24 && CCF < 0.45) { voicing = 1;
89121438.ptd 第20頁 497335 五、發明說明(17) /氺 check for medium energy unvoiced speech segments */ } else if (Pn < 0.06 && ZC > 0.3 && CCF < 0.2 && RC1 < 0.55){ voicing = 1; /氺 check for high energy unvoiced speech segments 氺/ } else if (ZC > 0.45 && RC1 < 0.5 && CCF < 〇· 4) { voicing = 1; as voiced segments */ 2; /* classify the res } else { voicing /氺 now, re-classify the above as an onset segment based on EG */ if (Pn > 0. 01 I I CCF > 0. 8) { if (voicing == 1 && EG > 0.8) voicing = 3; if (voicing ==2 && EG > 0.475) voicing = 3; }
89121438.ptd 第21頁 497335 五、發明說明(18) /氺 identify the onset segment at voicing transition by considering the previous voicing segment, identified as voicing_old */ if (voicing == 2 && voicing_old < 2) { if (Pn <= 0· 01) voicing = 1; else voicing 3;
接續圖2 ’下個步驟為將人類聽覺極限納入考量的感知 加權步驟’即步驟218。由人類耳朵失 真,不見得與藉由平均平方舔矣栌進r *又詞的9 β周夭 數選擇)所測量到的失直右^。^太,、經常用於編碼^ 中,感知加權係利用$ ^ I S明的較佳實施例 用兩個串聯的濾波器而每#认々翩4 i 上。第一濾波器為由以T八々私—墓叫Α施於各個-人才 l由以下公式所定義的頰错加權滤波器 公式13 wp(z、:1^_
1名〜Vd 其中為次框的量化 0· 4,為以經驗值所味、j係數’ An和八係分別為〇· 9和 第二滤波器為々,的尺度調整係數。 5周和加權遽'波器,鼓定義如下:
89121438.ptd 第22頁 五、發明說明(19)
4C ^cov[i)XZ'{La9*i'l) 1 ^ 公式14 其中cov [ i 算,同時λΡ i:=〇, 1,2的係數乃是由公式8所計 具有調和結構,〇复4為一尺度調整係數θ。而無聲語音並未 ^ 其调和加權濾、波器乃是關閉的。 作號者rlrT]驟220中,可獲取一後續激發編碼所用的目標 嫩』器]4先’-對應於三個讓波器(其包含有 加權遽波器wh(2\(z))、頻譜加權遽波器Wp(z)、以及調和 response)係在*的零輸入響應(ZIR,Zer〇 i^ut 攸此步驟決定。該合成濾波器係定義如下: 7~~-— A(2) ι^Σ aqiz i i*l 其中aqf為該沐> 權輸入語音去…王的量化LPC係數。接著ZIR從一感知加 顯示如圖1之概W此會在圖5中有更詳盡的說明’該圖係 杏欠 > " 曰略方塊圖的輕微修改形式,反應了 一些由 只矛力CM亍考里所施加的特定改變。舉例而言,吾人可瞭 解’感知加權濾波器546係配置在處理程序的更上游/且 位於加總區塊5 4 2之前。該輸入語音s [ η ]係透過感知濾波 器546來被過濾以產生一加權信號,而在加總單元522中, 零輸入響應(Ζ I R ) 5 2 0可從該加權信號被扣除而產生一目 標信號r [ η ]。該信號接著被輸入誤差最小化區塊丨 中。激發信號1 3 4則是透過三個串聯濾波器(Η (ζ )= 1/Α(ζ) X Wp(z) X Wh(z))而被過濾,以產生合成語音sq
89121438.ptd 第23頁 497335 五、發明說明(20) [^]Λ該、合成語音接著會被輸人到誤差最小化單元148中 在该誤差最小化區塊中所進行的處理程戽 各個編碼方法而加以討論。 私序之細即,將聯合 目前的討論内容將轉到本發明所使用的編碼方法。 步驟216中所決定的各個次框之語音類別,次框係使用又三 個、扁碼方法中的一個來加以編碼,亦即步驟2 3 2、2 3 4和 2 3 6。 孑口 在步驟2 32中,首先係參考圖1, 2和5而進行無聲語音 (vcncing = 1 )的編碼方法。圖5則顯示用來選取無° 9語 音之編碼方法(11 6 )的架構。該編碼方法是一種增、益/ = 狀向量的量化方法。激發信號係定義如丁: θ皿 y g . fcbi [η] 公式15 其中g為增益單元52 0的增益值’ fcbl為從一形狀編碼薄 510中所選取的第一向量。該形狀編碼薄51()包括了16個各 含有64要素的形狀向量,而這些向量乃是從一高斯隨機序 列所產生的。誤差最小化區塊1 4 8係藉由將每個向量從該 形狀號碼薄5 1 0中取出的方式,而在一合成分析程序中從 1 6個形狀向量裡面選擇出最佳向量,接著將該最佳向量透 過增益單元520來尺度化,並且透過合成濾波器136和感知 濾波器546來將該最佳向量予以濾波以產生一合成語音向 量sq [ η ]。可將以下項目予以最大化的該形狀向量,係被 選擇為無聲次框的激發向量: 公式1 6 a 叫)2 sq T aq
89121438.ptd 第24頁 497335
此乃代表在目標信號r [ η ]和合成向量s q [ η ]之間的最 加權平均平方誤差。 $ j 增益g係以下式來計算: Ρω g = scale 公式16b fcb/ fcbs 其中P n為以上所計算的次框之能量,而R S為:
fiS = 7T (1 -re!)公式 1 6 C 且尺度 scale = max (0. 4 5, 1 - max(RCl5 該增益值係透過一 4位元之純量的量化器來加以編石馬, 該量化器係利用一組霍夫曼(Hu f f man )編碼來和—^ 倣分 編碼方法合併。如果該次框為第一個所遭遇到的無聲次 框,則該量化增益的指數可直接被使用。否則,則計曾在 目前和前一個次框之增益指數間的差異,且該差異值&由 八個霍夫曼編碼中的一個來表示。霍夫曼編碼表為: index delta Huffman 0 0 0 1 1 10 2 - 1 110 3 2 1110 code
497335 五、發明說明(22) 4 -2 11110 5 3 111110 6 - 3 1111110 7 4 11111110 平均編碼長度為丨.6 8。 現在參考圖6,並針對初始語音段的處理來加以思考。 在起始期間,語音傾向於具有一突來的能量激增狀況,且 和來自上一個次框的信號僅有微弱的相關性存在。而被歸 類為初始語音(v 〇 i c i n g = 3 )之次框的編碼方法(步驟 2 j 6 ) ’係建構在一多重激發模擬技術之上,其中該激發 心说係包含有—組從目前的次框所導出的脈衝。因此,
Vpul·· 公式17 其中Npulse 幅,而N i為第 的正確選擇可 快速能量變化 其展現出快速 本發明的較佳 語音編碼之用 接著實施以 福。在定義這 為脈衝的數目,Amp[i]為第i個脈衝的振 1個脈衝的位置。吾人可觀察到,脈衝位置 得以捕捉到初始語音之輸入信號的 的;“初始語音之編碼技術的優點為, 的激發信號。 代表作為初始 :的合成分析程序纟決定脈 些脈衝之際,哕嗥I I , 了位置及其振
89121438.ptd 第26頁 。玄戌差最小化區塊148僅會檢 497335 五、發明說明(23) 視次框之偶數編號的樣本。第一個樣本被選取的樣本係利 用以下公式來進行最小化: [r[n]-Amp[0] ·Λ[η-η〇1 ]2 公式 18a η 其中r [ η ]為目標信號且h [ η ]為串聯濾波器Η ( ζ )的脈衝響 應6 1 〇。其對應的振福係以下列公式來計算: 曰
Ainp[0] 公式18b
接下來,合成語音信號Sq [ n ]係利用激發信號而產生, 该合成語音信號在此點包含有一給定振幅的單一脈衝。該 Β成語音接著從原始目標信號r [ η ]被扣除以產生一新的 f標信號。該新的目標信號則根據公式丨8a和1 8b來決定一 第二脈衝。而這個程序一直重複,直至達到預期的脈衝數 I為止’在本範例中,脈衝數目為四。在所有脈衝都被決 定後’則實施Cho 1 esky分解方法,以將這些脈衝的振幅予 、最佳化’並同時改善激發近似後的精確度。
^具有6 4個樣本之次框中的脈衝位置可用5個位元來加 唯2。然而,基於速度和空間的需求,在編碼速率和資料 取=。己fe體(ROM )空間(其係作為查詢表之用)之間的 反,可將編碼係數加以改良。脈衝振幅係以其絕對值的 準°順序來加以排序,且根據這些絕對值中的最大值來標 ’並以五個位元來將其量化。一信號位元係與一絕對
值有相關性存在。 現在參考圖7的有聲語音。 · moo λ \ λα ^ l > 1 有聲區段(voicing = 2,步 驟234 )的激發模式,係根 ,y 姑八盏不加加\ ^ λ 嚴封閉迴圈音調延遲值LagCL而
被分為兩個部分710和72 0。者— CL 曰丨1、士、日达从* 田5亥延遲值LagCL > = 58,次框
則被視為低音語音,且茈、眩加 CL 71n . c 曰且此日可選擇器730會選擇輸出模式 ’之’’亥δ吾音即被視為高音語音,且根據模式720來 決定激發信號134。 首先,先看低音有聲段的例子,其中該低音有聲段的波 形傾向於具有低時間解析度。一個第三階的預測子7丨2、 71 4 ’係從上一個次框的激發狀態來預測目前的激發狀 態。接著,一單一脈衝71 6被加到某位置,激發近似可於 該處獲得進一步改良。而前一個激發係由一適應性編碼薄 (ACB,adaptive codebook) 712擷取出來的。該激發可 用下列公式表示之:
\ 公式19a ^^i%PACB[n^La9cL^-^] ^Ρ·δ[η-η0] / 向量PACB [n, j ]係從編碼薄71 2中選取而得’而該向量的 定義為· 當LagCL + i _ 1 >= N, pacbI^ ] =ex[n~(LagCL+i-l) ] 05/3^-1 公式 19b
89121438.ptd 第28頁 五、發明說明(25)
p^[^/^agCL4i.1, | ex[/3-(LagCL+i-l) ] Qsn<LagCL }ex[n-2· (Lagcx+i-l) ] Lag^sn^N-l 有-二“ ’由模式720所定義的激發信號包括 而该脈衝列係定義如下: , Σ Mn-^Vi.Lag^]公式 20 i*〇 個:m t數係根據封閉迴圈音調延遲值Ug,而由兩 、回二立^迴圈中的一個來決定。偶數編號的次框之封閉 =圈曰調=遲值LagCL,則是藉由檢視音調軌跡來加以決 =,而孩音调軌跡係局部地位於該開放迴圈延遲值Lag的 央/此為^驟210的部分計算(在Ug —^仏^以的範圍 。對於搜尋範圍中的每個延遲值而言,在適應性編碼薄 中》的對應向量係透過H(z)來進行濾波的工作。接著, 則計算在,波向量和目標信號r[n]之間的交叉相關性。該 產生最大交叉相關值的延遲值則被選擇為封閉迴圈音調延 遲值LagCL。對奇數編號的次框而言,則選取前一個次框 的L a gu值。 斤如果LagCL >— 58 ’則利用公式8且以LagCL為延遲值來計 算3步$驟^的音調預測係數&。接著,所計算出的係數被°予 =向ϊ s化、亚合併從適應性編碼薄7丨2所選取的一個向 里以產生初始預測激發向量。該初始激發向量係透過 Η(z)而進行濾波,並從輸入目標信號r[n]被扣除,以產生
\\312\2d-code\90-01\89121438.ptd 第29頁 497335 五、發明說明(26) " "〜'^' ----- 一第二輸入目標信號r’ [η]。運用以上的多重 術(公式心和⑽)’可從次框中之偶數編碼的樣吴技 取一單一脈衝nG,以及脈衝振福Amp。 ^ =果Lag < 58,則計算出用來模擬高音有聲段的彖 換式的參數包括了脈衝間隔LagCL、第一脈衝的位置/、 脈衝振幅Amp。LagCL係藉由在以開放迴圈音調延 D 心的小範圍間([Lag-2, Lag + 2])來搜尋而決定。於中 該搜尋範圍中的每個可能延遲值來說,—脈衝列係以延 值為脈衝間隔來進行計算。接著,將次框中的第一'所1 置予以平移,並透過H(z)來過濾已平移的脈衝列,以 ^成語音Sq[n]。被選擇來合併的延遲值和初始位置 為LagCL和%,而該合併結果會造成脈衝列和 二已:移和過遽形式之間的最大交叉相關性。 準,乂又相關值即為脈衝列的振幅Amp。 〜'、下 右Lag >= 58,LagCL則利用七個位元來編碼,且 :框才更新-次。該3步驟的預測係數石“系 二- ^于向量的量化,同時單—脈衝位置係以五個位元來^ ,碼]該振幅值Amp則以五個位元來予以編碼:其中一 =广係分配給正負冑,而四個位元則分配給其絕對值 …、氐音段之激發編碼用的總位元數目為2 0.5。 々在Lag < 58的情形下,UgcL係以七個位元來編碼,且 2個-人框都更新一次。脈衝列的初始位置則以六個位元 t碼。該振幅值Amp則以五個位元來編碼:其中一個位元 为配給正負號,而四個位元則分配給其絕對值。作為高音
89l2l438.ptd 第30頁 五、發明說明(27) 段^激發編碼之用的總位元數目為j 8 (=)上一選取出激發信號,濾波器136 新,如步驟2;2。另W:(Z)和?“2))的記憶體則必須予以更 編碼參數則被輸出到一::;置? = J理,用:接著’ 碼單元,如步驟224。存^或被傳送到—遠端的解 η用來說明解碼程序。f先’先將目前的框之lpc係 立,以碼。接著,根據每個次框的有聲資訊,對三個語 二類別中的其中—種來執行激發解瑪。最後,纟成語音;; 猎由LPC合成濾波器來過濾激發信號而獲得。 、f解碼器過初始化後(步驟802 ),編碼語的一個框即 被項入解碼器中,如步驟8〇4。接著,該Lpc係數則被解 碼,如步驟8 0 6。 LPC ( LAR格式)係數的解碼步驟係分為兩個階段。首 先’來自L P C之純量量化編碼薄的前五個l a R參數被解碼: LAR [i] = LPCSQTable [i] [rxCodewords a LPC [i]] LAR[i]=LPCSQTable[i][rxCodewords — LPC[i]]&S21a 其中 i = 〇, 1, 2, 3, 4。 接者’來自LPC之向量量化編碼薄的剩餘LAR參數被解 碼:
LAR [5. 9] = LPCVQTable [0,4] [rxCodewords a LPC
[5]] 公式 21b 在1 0個LAR參數經過解碼之後,在目前的LPC參數向量和
89121438.ptd 第31頁 497335 五、發明說明(28) 前一個框的LPC向量之間的内差,係利用習知的内差技術 來轭行,同也被轉換回預測係數,如步驟8〇8。 可透過兩個階段而被轉換回預測係數。首先,lar參數被 轉換回反射係數,其方法如下: rc[i] 1-exp(LARfi]、 l + exp(LAJi[i]) 公式22a 而獲得 接著,預測係數係透過下列公式 占η1 (i-l> 公式22b 在LAR被轉換回預測係數之後,次框的 為η = 0,如步驟81〇。接著,在步驟812,圈叶數係設定 方法的解碼方式都不同,每個次框都 2為每個編碼 類於三個編碼方法中的哪一個。 、受破決定應該歸 如果目前的次框之聲音指 ),則對無聲激發進行 f八為無卑次框(v = j 斗’双知适订解碼,如步驟8 1 4。夾土 先,利用解碼指數在固定的編% IF P >考圖9,首 902 : 疋的、、扁碼溥FCB中取得形狀向量 CFca[i] 5:5 FCB[UVshape - code[n] ] [i] i * Ο,____ 為第一個 接著,忒形狀向量的增益,係根據該次框是否 89121438.ptd 第32頁 497335 五、發明說明(29) ,聲次框來加以解碼9 〇 4。如果其為第一個無聲次框,其 絕對增益值即在無聲增益編碼薄中直接被解碼。反之,該 絕對增益值則藉由其對應的霍夫曼編碼來加以解碼。最 後’正負號貢訊被加到該增益值9 〇 6以產生激發信號9 〇 8。 以上步驟可以下列的程式碼來概述之:
Gain—code = rxCodewords.Uvgain一code[n]
If (previous subframe is unvoiced) { Δ = HuffmanDecode[Gain_code]
Ga i n_code = Gain —code —p +△
Gain一code一p = Gain一code
Gain = Gain—sign * UVGAINCBTABLE[Gain—code] 參考圖8 ’當次框為一有聲次框時(v = 2 ),欲將有聲 激發予以解碼’如步驟8 1 6,首先必須擷取出延遲資訊。 對於偶數編號的次框而言,該延遲值係在rxC〇ciewords. ACB一code [η]中所獲得。對於奇數編號的次框而言,則根 據前一個次框的延遲值(Lag —ρ )來判定,如果Lag_p > = 58,目前的延遲值則以Lag_P來取代;如果Lag_p < 58, 延遲值則從rxCodewords.ACB — code[n]中擷取出來。接 著,該單一脈衝則從它的正負號、位置、及絕對振幅值來 重新建立。如果延遲值Lag >= 58,則持續進行ACB向量的 解碼。首先,ACB增益向量係從ACBGAINTable擷取出來: ACB —ga i nq[i ]= ACBGAINCBTable[rxC〇dewords·ACBGain一index[n]][i] 89121438.ptd 第33頁 497335 五、發明說明(30) 接著,ACB向量利用以上參考圖7所說明的方式,而從 ACB狀態來重新建立。在計算Α(:β向量後,被解碼的單一脈 衝則被安置於其所定義的位置上。如果延遲值⑻, 脈衝列則如以上所述的方式,從被解碼的單_脈衝來形 成。 :果次==始狀態(v=3),激發向量則從已解碼脈衝 的振幅、纟負諕、及位置資訊來重新建立
可知,振幅930 (苴亦λ筮振w、上人a丄 "^ 01U 且在加法運异區塊944中和已解碼9 42的其餘振幅94〇人 併。該合併的信號945則和已解碼的第一振幅信號再欠 合併934。所形成的信號935則在乘法運算區塊95〇 正負號920相乘。接著,形士 μ振七一 中矛八 者形成的振幅信號952係根據以下八 式而和脈衝位置信號9 6 〇合併: 下Λ 公式23 ex(i) Amp[j ] δ (i-lpulse[j ]) 2生广發向* ex(1) 98。。如果該次框的編號 其在rxCodewords中的延遲值也會被擷取出, 個有聲次框之用。 為下一 回頭參考圖8,該合成濾波器(即步驟8 2 〇 )可 一 I IR濾波器的直接形式,其中合成語音 ’、、' 如 示: J用以下公式來表 iel 公式24 y[n] =ex[n] + ^ ^ *y[n-i]
497335 五、發明說明(31) ----- 欲避免將LAR (對數面積比例值)參數轉換成在解碼器 之預測係數的_連串計算,可將—點陣濾波器作為: I波裔之用,且LPC量化表也可利用RC (反射係數)的袼 i::存於解碼器,。該點陣濾波器也具有對有限精度°限 平乂不破銳的優點。 來^ f,在步驟822中,利用新計算出的激發信號ex[n] 激發母個次框進行ACB狀態的更新’以維持連續性的最新 824")歷史。接著,解碼器處理程序的最後一個步驟(步驟 為的I欠即為後濾波作業。實施後濾波的目的即是利用人 的後=飾能力來降低量化的噪音(雜訊)。用於解碼器中 聯:、波器為一零極濾波器和一第一階FIR濾波器的串σ μΡ 卜r1
Hp(Z)=—完--(i-γζ1) 公式2 5 l^iaiY〇Z'1 i-l 其中a 〇. 5 i馮=人框的已解碼預測係數。尺度調整係數為Tn = ^ = 0.8,及 7 = 04。 n 如此合太 · 的數目曰屋生一曰成浯音輸出8 2 6。接著,次框迴圈計數 迴圈。技)^曰加(步驟8 2 7 ),以表示已經完成一個次框 目(η)曰妾著,在步驟828中,藉由判斷次框迴圈計數的數 2, 3 )<否等於3—其代表已經完成了四個迴圈(η = 0, 1, ’以作為做決定的依據。如果η不等於3,則次框迴
第35頁 497335 五、發明說明(32) 圈則從決定編碼方法類別的步驟8 1 2開始重複。如果η等於 3,則可確定其是否為位元流的末端(步驟8 3 0 )。如果此 時不是在位元流的末端,整個程序則必須從讀入另一個框 之編碼語的步驟8 0 4重新開始。如果此時係位於位元流的 末端,則解碼程序即告完成8 3 2。 【元件編號之說明】 100 語音編碼器 102 A/D轉換器 104 樣本 106 路徑 107 路徑 108 路徑 112 分段區塊 114 Μ P E (初始激發編碼) 115 LTP分析區塊 116 增益/形狀VQ (無聲激發編碼) 117 激發編碼方法 118 有聲激發編碼 122 LPC區塊 132 濾波器係數 134 激發信號 136 語音合成濾波器 137 量4匕 138 合成語音
89121438.ptd 第36頁 497335 五、發明說明 (33) 142 力口法器 144 誤差信號 146 加權濾波器 148 誤差最小化區塊 152 輸出 162 選擇器 164 選擇器 182 合併電路 202 LPC分析 204 LPC向量的量化 206 LAR内差 208 LAR到PC (預測係數)轉換 210 LTP分析 212 計算能量 214 計算能量梯度 216 語音分段 218 感知加權 220 次框ZIR 222 更新狀態 224 輸出編碼參數 232 無聲激發編碼 234 有聲激發編碼 236 初始激發編碼 401 開關 #
89121438.ptd 第37頁 497335 五、發明說明 (34) 402 L P C逆滤波為 404 計算交叉相關函數 406 精確化 408 音調估算 410 音調預測 510 形狀編碼薄(F C B) 520 增益單元 522 加總單元 542 加總區塊 546 感知加權W p (z )濾、波器 610 脈衝響應 710 有聲區段的兩個部分之一 712 第三階預測子 714 第三階預測子 716 單一脈衝 720 脈衝列 730 選擇器 802 解碼器初始化 804 讀入一個框的編碼薄 806 將LPC係數解碼 808 LAR内差/LAR到PC 810 次框迴圈計數η = 0 812 發聲(η)? 814 無聲Ε X解碼
89121438.ptd 第38頁 497335 五、發明說明 (35) 816 有聲E X解碼 818 初始E X解碼 820 合成濾波器 822 更新ACB狀態 824 後濾波器 826 輸出合成語音 828 η =次框數目=3 ? 830 是否為位元流的盡頭? 832 停止解碼 902 獲取無聲形狀向量 904 將增益予以解碼 906 將正負號加到增益值 908 產生激發信號 920 正負號 930 振幅值 932 將Amp_Norm解碼 933 已解碼的第一振幅信號 934 合併 935 形成的信號 940 其餘振幅 942 將A m p _ V e c t〇r解碼 944 加法運算區塊 945 合併的信號 950 乘法運算區塊
89121438.ptd 第39頁 497335 五、發明說明 (36) 952 形成的振幅信號 960 脈衝位置信號 980 激發向量e X (i ) 1/A(z) 合成濾波器 Si 次框的量化預測係數 ACB 適應性編碼薄 Amp 脈衝列振福 Amp[i ] 第i個脈衝的振幅 aq i 量化LPC係數 CCF 交叉相關函數 EG 能量梯度 ex( i ) 激發向量 ex [ n ] 新計算出的激發信號 f cb i 從形狀編碼薄所選取的第- g 增益值 h [n] 脈衝響應 H(z) 串聯濾、波器 LAR 對數面積比例值 Lag 開放迴圈音調延遲值 Lag —p 前一個次框的延遲值 LagCL 封閉迴圈音調延遲值 lagh 與音調延遲值(lagp )最為 lagp 上一個次框中所決定的音調 lagv 最佳音調候選值
\\312\2d-code\90-01\89121438.ptd 第40頁 497335 五、發明說明(37) LPC 線性預測編碼 LTP 長期預測分析 MPE 初始激發編碼 N〇 單一脈衝 Ni 第i個脈衝的位置 Npu 1 se 脈衝的數目 Pabc [ n,J·] 從編碼薄A C B所選取 Pn 次框能量 Pnp 前一個次框的能量 RC 反射係數 RCi 反射係數 RC, 第一反射係數 res (n) 殘餘信號 r [ n ] 目標信號 r,[n] 第二輸入目標信號 s(n) 輸入語音 SD 頻譜變形 sin 頻譜平坦度 sq [n] 合成語音 sqn (x) 信號函數 Wp(z) 頻譜加權濾波器( Wh(z) 調和加權濾波器( zc 零交叉速率 ZIR 零輸入響應 <i
\\312\2d-code\90-01\89121438.ptd 第41頁 497335
89121438.ptd 第42頁 497335 圖式簡單說明 圖1為根據本發明而實施之處理元件的高階方塊圖。 圖2係顯示本發明之計算步驟的流程圖。 圖3 A和3 B係顯示互相重疊以因應如圖2所示之部分計算 之用的次框。 圖4為LTP分析之處理步驟的流程圖。 圖5 - 7係顯示本發明之各種編碼方法。 圖8為解碼程序之流程圖。 圖9為無聲激發的解碼方法之方塊圖。 圖1 0為初始激發的解碼方法之方塊圖。
89121438.ptd 第43頁

Claims (1)

  1. 六、申請專利範圍 1 · 一種語音編n 时 ^ 馬方法,包含有下列步赞· 決定一 I五立人予U抽樣以產生複數個語音樣本; σ成濾波器的係數,包括將兮痛叙彳▲ 本組成一第一組群 L栝將忒钹數個浯音樣 tU 分冰、士 „。乂 f組,亚计异该各個群組的LPC係數,藉 此’ 5玄慮波為係數〆么 士方T P p 乂备查 要文係ΐίΛ 3亥L P C係數為基礎而產生; 產生激發信號,包括: 將該語音樣本組成一第二組群組; 將該第二群組中的每個群組分為無聲、有聲和初始類 別;及 ' 對於在該無聲類別的每個群組而言,產生以增益/形狀 編碼方法為基礎的激發信號; 對於在該有聲類別的每個群組而言,藉由將該群組進一 步歸類為一低音有聲群組或一高音有聲群組,以產生該激 發信號; 對於在該初始類別的每個群組而言,藉由從該群組選取 至少兩個脈衝而產生該激發信號;及 將該激發信號予以編碼。 2 ·如申請專利範圍第1項之方法,更包括將該激發信號 輸入該語音合成濾波器中,藉由將該輸入語音和該合成語 音做比較而產生誤差信號,並根據該誤差信號來調整該激 發信號的參數。 3 ·如申請專利範圍第2項之方法,其中該語音合成濾波 器包括一感知加權濾波器,藉此,該誤差信號包括一人類 聽者之感知糸統的作用。
    89121438.ptd 第44頁 N'申請專利範圍 4·如申請 中用來將各 能量、能量 關值為基礎 5·如申請 組群組中的 6·如申請 而έ ’該激 礎;對高音 基礎,這些 7 · -種語 將一輸入 將該複數 更多的次框 針對每個 此,該濾波 將每個次 根據每個 數,其中對 法,其中對 率為基礎來 多脈衝激發 猎由將該 數,以產生 專利範圍 群組予以 梯度、零 來進行。 專利範圍 連續群組 專利範圍 發k號係 有聲群組 脈衝乃以 音編竭方 語音信號 個樣本分 框,計算 器係數係 框分為無 次框的類 該無聲類 該有聲類 加以計算 模式,及 激發信號 第1項之方法,其中在該第二組群組 ^類的該步驟,係以該群組所計算的 父叉速率、弟一反射係數、及交叉相 第1項之方法,更包括進行在該第一 間之LPC係數的内差。 第1項之方法,其中對低音有聲群組 以一長期預測子和一單一脈衝為基 而§ ’該激發信號係以一脈衝串列為 一個音調週期為彼此間的間隔。 法,包含有下列步驟: 予以抽樣以產生複數個語音樣本; 為複數個框,而每個框都包括兩個或 其語音合成濾波器的LPC係數,藉 在一個接著一個框的基礎下被更新; 聲、有聲或初始類別; 別’計算代表各次框之激發信號的參 別而言’係使用一增益/形狀編碼方 別而言,該參數係以該次框的音調頻 ’其中對5玄初始類別而言,係使用一 輸入该§吾音合成濾波器中來調整該參 合成語音,並藉由將該合成語音和該語音樣
    89121438.ptd 第45頁 六、申請專利範圍 —— 一 本Y故t匕卓六而立 、, 參數。乂 生一决差信號,及根據該誤差信號來更新該 的8步專利範圍第7項之方法,#中該計算lpc係數 /驟包括進行該LPC係數的連續係數之内差。 器包專利範圍第7項之方法’其中該語音合成渡波 權淚、& π ^知加振濾波杰,且該語音樣本係透過該感知加 ^愿波裔而進行濾波的工作。 有聲類Z,係包括一音調頻率的決定,同時對低音頻率 而對言框而t,該參數係以一長期預測子為基礎, 列為ξ^率ΐ聲類別的次框而言,該參數係以一脈衝串 隔υ 土而這些脈衝係以一個音調週期為彼此間的間 其中該分類步驟的基 能量梯度、零交叉速 1 1 ·如申請專利範圍第7項之方法, 礎係建構在:該次框所計算的能量、 率、第一反射係數、及交叉相關值。 1 2 · 一種語音編碼之裝置,包含有: 肝2電路’其具有―用來將—輸人語音信號予以取樣 :輸入…並具有一用來產生數位語音樣本的輸出單 ^ 了記憶體,其連接到該取樣電路以儲存該 係被組織成複數個框,每個框都被分為複數個字, 第一裝置,其可存取該記憶體以計算一 ,匡’ 數,而各組係數可用來定義一語“框祕係
    89121438.ptd 497335 案號 89121438 曰 六、申請專利範圍 1----:邊无 第二裝置,其可存取該記憶體以計算各次框之激發信號 的參數; 第三裝置,其係用來將該LPC係數和該參數予以合併, 以產生合成語音;及 第四裝置,其係有效地連接到該第三裝置,以根據該數 位語音樣本和該合成語音之間的比較情形來調整該參數; 該第二裝置包括: 第五裝置,其用來將每個次框分為無聲、有聲或初始類 別; 則該裝置係根據一 則該裝置係根據該 則該裝置係根據一 其中該第四裝置包 第六裝置,若該次框屬於無聲類別 增益/形狀編碼技術來計算該參數; 第七裝置,若該次框屬於有聲類別 次框的音調頻率來計算該參數; 第八裝置,若該次框屬於初始類別 多脈衝激發模式來計算該參數丄 1 3.如申請專利範圍第1 2項之裝置 括用來計算誤差信號的裝置以及藉由一感知加權滤波器來 調整該誤差信號的裝置,藉此,該參數係根據加權誤差信 號來予以調整。 1 4.如申請專利範圍第1 2項之裝置,其中該第一裝置包 括用來在該LPC係數的連續係數之間進行内差的裝置。
    89121438.ptc 第47頁
TW089121438A 1999-10-19 2000-10-13 Method and apparatus for variable rate coding of speech TW497335B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/421,435 US6510407B1 (en) 1999-10-19 1999-10-19 Method and apparatus for variable rate coding of speech

Publications (1)

Publication Number Publication Date
TW497335B true TW497335B (en) 2002-08-01

Family

ID=23670498

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089121438A TW497335B (en) 1999-10-19 2000-10-13 Method and apparatus for variable rate coding of speech

Country Status (11)

Country Link
US (1) US6510407B1 (zh)
EP (1) EP1224662B1 (zh)
JP (1) JP2003512654A (zh)
KR (1) KR20020052191A (zh)
CN (1) CN1158648C (zh)
CA (1) CA2382575A1 (zh)
DE (1) DE60006271T2 (zh)
HK (1) HK1048187B (zh)
NO (1) NO20021865D0 (zh)
TW (1) TW497335B (zh)
WO (1) WO2001029825A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438015B2 (en) 2006-10-25 2013-05-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
TWI466109B (zh) * 2008-07-03 2014-12-21 Thomson Licensing 一序列輸入訊號值之時間標度方法及裝置
TWI566241B (zh) * 2015-01-23 2017-01-11 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065786A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US8257725B2 (en) * 1997-09-26 2012-09-04 Abbott Laboratories Delivery of highly lipophilic agents via medical devices
US20060240070A1 (en) * 1998-09-24 2006-10-26 Cromack Keith R Delivery of highly lipophilic agents via medical devices
KR100319557B1 (ko) * 1999-04-16 2002-01-09 윤종용 블럭 단위로 부호화된 영상의 블럭 경계 잡음 성분 제거 방법
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
US6859775B2 (en) * 2001-03-06 2005-02-22 Ntt Docomo, Inc. Joint optimization of excitation and model parameters in parametric speech coders
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
ATE338999T1 (de) * 2001-10-19 2006-09-15 Koninkl Philips Electronics Nv Differentielle kodierung im frequenz bereich von sinusmodell parametern
US7020455B2 (en) * 2001-11-28 2006-03-28 Telefonaktiebolaget L M Ericsson (Publ) Security reconfiguration in a universal mobile telecommunications system
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US6983241B2 (en) * 2003-10-30 2006-01-03 Motorola, Inc. Method and apparatus for performing harmonic noise weighting in digital speech coders
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
EP1868663B1 (en) * 2005-03-23 2011-11-16 Abbott Laboratories Delivery of highly lipophilic agents via medical devices
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US20080215330A1 (en) * 2005-07-21 2008-09-04 Koninklijke Philips Electronics, N.V. Audio Signal Modification
EP2276023A3 (en) * 2005-11-30 2011-10-05 Telefonaktiebolaget LM Ericsson (publ) Efficient speech stream conversion
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
JP2008170488A (ja) * 2007-01-06 2008-07-24 Yamaha Corp 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
CN101540612B (zh) * 2008-03-19 2012-04-25 华为技术有限公司 编码、解码系统、方法及装置
CN101609679B (zh) * 2008-06-20 2012-10-17 华为技术有限公司 嵌入式编解码方法和装置
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
CN105551497B (zh) * 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701954A (en) 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4910781A (en) 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US4817157A (en) 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
JPH0332228A (ja) 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
JPH08179796A (ja) 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3303580B2 (ja) 1995-02-23 2002-07-22 日本電気株式会社 音声符号化装置
JPH09152896A (ja) 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
US5799272A (en) 1996-07-01 1998-08-25 Ess Technology, Inc. Switched multiple sequence excitation model for low bit rate speech compression
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438015B2 (en) 2006-10-25 2013-05-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
US8452605B2 (en) 2006-10-25 2013-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
US8775193B2 (en) 2006-10-25 2014-07-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
TWI466109B (zh) * 2008-07-03 2014-12-21 Thomson Licensing 一序列輸入訊號值之時間標度方法及裝置
TWI566241B (zh) * 2015-01-23 2017-01-11 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法

Also Published As

Publication number Publication date
CA2382575A1 (en) 2001-04-26
NO20021865L (no) 2002-04-19
HK1048187B (zh) 2004-12-31
DE60006271D1 (de) 2003-12-04
EP1224662B1 (en) 2003-10-29
EP1224662A1 (en) 2002-07-24
JP2003512654A (ja) 2003-04-02
WO2001029825B1 (en) 2001-11-15
NO20021865D0 (no) 2002-04-19
US6510407B1 (en) 2003-01-21
CN1158648C (zh) 2004-07-21
CN1379899A (zh) 2002-11-13
KR20020052191A (ko) 2002-07-02
WO2001029825A1 (en) 2001-04-26
HK1048187A1 (en) 2003-03-21
DE60006271T2 (de) 2004-07-29

Similar Documents

Publication Publication Date Title
TW497335B (en) Method and apparatus for variable rate coding of speech
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
KR102039399B1 (ko) 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상
JP5264913B2 (ja) 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP5373217B2 (ja) 可変レートスピーチ符号化
US9418666B2 (en) Method and apparatus for encoding and decoding audio/speech signal
Skoglund et al. Improving Opus low bit rate quality with neural speech synthesis
JP6392409B2 (ja) 音声符号化のための混合コードブック励振のためのシステムおよび方法
KR101774541B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
RU2646357C2 (ru) Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра
RU2644123C2 (ru) Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
US9418671B2 (en) Adaptive high-pass post-filter
JP3353852B2 (ja) 音声の符号化方法
JP3024467B2 (ja) 音声符号化装置
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JPH02160300A (ja) 音声符号化方式
Chibani Increasing the robustness of CELP speech codecs against packet losses.
Sahab et al. SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP
Nurminen A Parametric Approach for Efficient Speech Storage, Flexible Synthesis and Voice Conversion
Du Coding of speech LSP parameters using context information
Unver Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees