TW564400B

TW564400B - Speech coding/decoding method and speech coder/decoder

Info

Publication number: TW564400B
Application number: TW090132449A
Authority: TW
Inventors: Jhing-Fa Wang; Jia-Ching Wang; Yun-Fei Jau; Han-Chiang Chen; Ming-Chi Shih
Original assignee: Univ Nat Cheng Kung
Priority date: 2001-12-25
Filing date: 2001-12-25
Publication date: 2003-12-01
Also published as: US7305337B2; US20030139923A1

Description

56i44Q0a ^ ^ , 年月 ^少上^

w、食，--备、I ,90132449 修正曰月 ----------------------- ^jPLi 五、發明說明（1) 【發明領域】 , 本發明係有關一種語音編/解碼方法及語音編/解碼器的設計’特別是一種將位元率由始語音64Kbps降至 1· 6Kbps之語音編/解碼方法及語音編/解碼器的設計。【發明背景】基本上數位語音編碼（Digitai Speech Coding)的主要目的是將語音數位化，並且將其適當的編碼壓縮，以減少數位語音訊號在傳輸時所需的位元率（Bit Rate)，降低傳輸訊號所需之頻寬及增加傳輸線路的使用效能。除了降低語音傳輸的位元率之外，還必須確保在接收端所接收到壓縮後的語音資料，能夠合成具有合理音質的語音。目前’各種語音編碼技術無不致力於位元率的降低以及合成音質的提升。低位元率洁音編蹲Is的發展’繼FS1016 CELP 4.8Kbps之後，美國國防部於1 9 96年宣佈了混合激發線性預測編碼器（MELP)為2· 4Kbps的新標準，造成了 2.4K及更低位元率編碼器的研究潮流。本發明人在研究了目前2.4Κ 標準如LPC1 0及混合激發線性預測編碼器混合激發線性預測編碼器等之後，進而發展出1· 6kbps語音壓縮方法。語音技術的硬體化，是語音產品化、生活化的主要關鍵。本發明以應，導向積體電路(設計方,式完成之1: 6kbps語音編碼器之硬體架構，執行速度上比數位訊號^理器來的快，適合多線編碼等需要快速運算的系統，且成本也比數位訊號處理器來的低。【發明概要】

案號 90132449 一年月 a 修正五、發明說明（2) 本發明之主要目的係提供一種語音編碼方法，將位元率由始語音64Kbps降至1.6Kbps，以減少數位語音訊號在傳輸時所需的位元率（Bit Rate)，降低傳輸訊號所需之頻寬及增加傳輸線路的使用效能。本發明之另一目的係提供一種語音解碼方法，以確保在解壓縮後的語音資料，能夠具有合理音質的語音。本發明又一目的係以應用導向積體電路設計方式完成浯音編/解碼器之硬體架構，執行速度上比數位訊號處理器來的快，適合多線編碼等需要快速運算的系統，且成本也比數位訊號處理器來的低。 ^ 為達上述目的，本發明提出一種語音編碼方法，係將浯音訊號以8KHz取樣，再予以分成許多主音框（frame)，做為編碼參數傳輸單位，其中一個主音框總共傳送48個位 το，且該每個主音框大小為24〇點，位元率為丨，該 1碼參數包括有：線性頻譜對參數（Une Spectrum pair， )、增益參數、有聲/無聲判斷參數、音高週期參數以沐^位元之同步位元；其中該線性頻譜對參數之求出方寸_、棟該主音框的語音先用漢明視窗（Hamming Window)作 =处，再求其自相關係數做線性預測分析，求取十階線 =測係數，•著轉換成線性頻譜對參數；該增益= 數求出，該有聲/無聲判斷參數係利用越零率（z㈣步判斷，該音南週期參數之求出方法包括以下

第7頁 5麵00

案號 9013244Q 五、發明說明（3) 步驟一：將該主音框的所就疋找出振幅大小最大點為主找音南’將此最大值前後1 9點清除為零；若此高，將此最小值點設為音清除為零；步驟二：設定上述振幅最曰 (Threshold) 步驟三：若此主音框是以刖主音框的最大值，若此高’並將目前最大值點及框是以負源為主找音高，值’若此值小於臨界值，值點及其前後1 9點清除為步驟四：反覆利用步驟三兩所有的點都小於臨界值的點都大於臨界值為止；步驟五·將音高的位置依PI、P2、P3、P4、P5、P6 步驟六··將所有音高的位一丨，2，···，N(N為音高的個得音高週期。另外，在解碼端，係每個次音框合成時的十階化後之線性頻譜對參數與有取樣點找出其絕對最大值’也之值；若此值為正，則以最大值點設為音高，並將最大值點及其值為負，則以最小值為主找音高，並將最小值點及其前後1 9點大點之值的0.68倍為臨界值正源為主找音高，則重新找出目值大於臨界值，則設此點為音其前後1 9點清除為零；若此主音則重新找出目前主音框的最小則設此點為音高，並將目前最小零；尋找音高，直到以正源為主找音為止，或以負源為主找音高所有照從小到大的順序排序，可得

IH

置求取間距Di = Pi + 1 — pi , · 數），並將間距加以平扒 ^ _* i 了 5，就可將每個主音框分為四個次音框，線性預測係數是由目前主^^ 前一値It音框t、線y譜‘參^

第8頁 5^MQPi2 年刀 h l一·=J1^^132449,m 一年月日修正五、發明說明（4) " " *----- ，里化值内插，反求而得；另外，在激發源部份，若為有 1細I ·二&激發，由音尚週期產生的脈衝串加上隨機雜吞二成’ f為無聲，則僅用隨機雜訊表示；此外，在產生 ϋί ί聲激發源後’該激發源必須經過平滑化濾、波器加 ^ 源的平滑；最後，將上述十階線性預測係數與過叙二兴之十個語音訊號相乘，再加上上述語音激發源訊號 ^ 3廉’即可得到對應於目前語音激發源訊號之合成語音0 ^外，配合上述方法，本發明提出一種語音編/解碼 f係以應用導向超大型積體電路架構（ASIC)之方式來，又计丄其中編碼端包括：一漢明視窗處理單元，其係將每個主曰框的浯音先用漢明視窗（Hamming Window)作前處理1自相關運算單元，係將上述處理過之語音求其自相 Ϊ Ϊ Ϊ ; 一線性預測係數擷取單元，係將上述自相關係數線性預f分析，求取十階線性預測係數；一線性頻譜姆二數擷取單70，係將上述十階線性預測係數轉換為線性頻 =ί參數並加以量化編碼；一增益榻取單元，係利用上述自=關係數和線性預測係數求出增益參數；一音高週期，取單4元，係用以將上述主音框求取音高週期；以及一聲/無聲判斷單元，係利用越零率（Zer〇 cr〇ssing rate)、能量（Energy)以及上，線性預測係數的第一階係數做絲合判斷該語音訊號係有聲/無聲。在解碼端包括·一脈衝串產生器（Impulse Train enerator) ’係接受上述音高週期以產生脈衝串；一第遺機雜訊產生器（Rand〇m Noi se Generator )，係用以 56 妨 2 @號 90132449

五、發明說明（5) 產生隨機雜訊，在上述有聲/無聲判斷單元判時，該隨機雜訊與上述脈衝串傳送至一加法源一第二隨機雜訊產生器，係用以產生隨機雜二生：：迷有聲/無聲判斷單元判斷為無聲時，該隨機雜吨直不為激發源；一線性頻譜對參數（LSP)内插單元（Lsp Interpolation)，係接受上述線性頻譜對參數，主音框量化後之線性頻譜對參數與前一個主音框，對參數的量化值以加權指數内#;—線性頻來= 線性預測係數渡波器（LSP t0 Lpc)，係用以將上述内: 後之線性頻譜對參數求出每個次音框合成時的十階線性測係數；一合成濾波器（Synthetic H Her )，係將上十階線性預測係數與過去合成之十個語音訊號相乘，再加上上述語音激發源與上述增益，即可得到對應於目前語音激發源訊號之合成語音。【發明詳細說明】〜為詳細揭露本發明，以下以較佳實施例配合圖式做詳、、田”尤明。本發明係以應用導向超大型積體電路架構（IC ) 之2式來設計，將語音訊號#8KHZ取樣，再予以分成許多主音框（frame)，做為編碼參數傳輸單位，每個主音框的大小為30ms (240樣本點），其中編碼端架構示意圖，如圖一所不’包括：一漢明視窗處理單元丨丨，其係將每個主音框的曰先用漢明視窗（Hamming wind〇w)作前處理；一自相關運算單元1 2，係將上述處理過之語音求其自相關係數’一線性預測係數擷取單元丨3，係將上述自相關係數做線性預測分析’求取十階線性預測係數；一線性頻譜對參

第10頁 564400

案號 90132449 五、發明說明（6) 元“知係：上述十階線性預測係數轉換為線性頻 jif ’以置化編碼；-增益擷取單元15，係利= 上述自相關係數和線性預測係數求出增益參數；一 ^ ^ 期擷取單元16 ’係用以將上述主音框求取音高週期週以及一有聲/無聲判斷單元17，係利用越零率（Zer〇>數， crossing rate)、能量（Energy)以及上述線性預測係數第一階係數做綜合判斷該語音訊號係有聲/無聲。本發明之編碼方法，係將每個主音框的語音先用漢明視窗（Hamming Window)作前處理，再運用求其自相關/係數做線性預測分析，求取十階線性預測係數，接著轉換成線頻譜對參數（Line Spectrum Pair，LSP)，這和LPC-1〇的反射係數（Reflection Coefficients)不同，它的物理意義是當聲門全開或全閉時，在頻譜圖中會形成一對對線狀的紋理’而且接近共振頻率（res〇nant freqUencies)出現的位置’它是交錯地出現，其值的大小介於〇到兀之間，故線頻譜對參數具有良好的穩定度（Stability)。此外，它有量化與内插以降低位元率的特性，所以我們可以將所求出的十階線性預測係數轉換為線頻譜對參數，並加以量化編碼。除了線頻譜對參數外，本方法尚需傳送增益、有聲/ 無聲判斷、音高週期等語音參數，分述如下： (1 )增益（Gain) " 增益可以利用線性預測分析所求得的自相關係數和線性預測係數求出，其式子如下

G

5^400/ —…身號901324迎--年月曰修正__ 五、發明說明（7) * 一 '~— 其中G為增益，R(k)為自相關係數，a(k)為線性預係數，η為線性預測的階數。、“ (2 )有聲語音還是無聲語音之判斷每個主音框要判斷為有聲語音還是無聲語音，這個判斷是為了選取不同的激發源，若是有聲音，則選取有聲的激發源’若是無聲音，則選取無聲的激發源，所以有聲、音/無聲音的判斷是非常重要的，否則判斷錯了，激發源也就隨之判錯’聲音的品質也會下降。要判斷有聲音/ ^ 聲音的方法很多，在本發明使用了三種常用的方法，其“方 a·越零率（zero crossing rate):越零率顧名思義乃系立訊號S( η)通過零值的次數，也就是兩連續樣本間具有^ ^ 的正負號次數，以式子表示則為： sign[S(n)] s i gn [ S ( η +1 )] 如果越零率高，則表示此段語音為無聲語音，若越零率低’則表示此段語音為有聲語音，因為無聲語音像摩擦音的能量多集中在3Κ Hz以上，所以越零率會偏高。 b·能量（Energy)··語音訊伽號S(n)的能量E(n)定義為

^能量大，則表示為有聲語音；若能量小，則表示為無斧，音，且能量在計算自相關R(0)時已求得了。 c·線性預測係數的第一階係數：若此係數大，則表示為有聲語音；若此係數小，則表示為無聲語音。述二種方法如果有兩個方法判斷為有聲語音，則此 *3& -kr a _ M t

主音框為有聲語音，反之，則為無聲語音麵

(3 )音高週期（Pi tch), 音高週期之演算法如下： f驟1 ··將主音框的所有取樣點找出其絕對最大值，也就疋找出振幅大小最大點之值，若此值為正，則以最大值為主找音高’將此最大值點設為音高。並將最大值點及其前後1 9點清除為零；若此值為負，則以最小值為主找音高，將此最^值點設為音高，並將最小值點及其前後19點清除為零。這疋因為語音的波形有些由正源比較好看出音高的 =置，有些則是由負源比較好看出音高的位置。而我們的曰高週期最小值約為20 ,所以可以將所找出之音高附近的 1 9點設為零。步驟2 ··設定振幅最大點之值的〇·68倍為臨界值 (Threshold) 〇 :驟3:若此主音框是以正源為主找音高，則重新找出目 =主音框的最大值，若此值大於臨界值，則設此點為音高，並將目前最大值點及其前後19點清除為零。若此主音框是以負源為主找音高，則重新找出目前主音框的值，若此值小於臨界值，則設此點為音高，並將目值點及其前後1 9點清除為零。音高’直到以正源為主找 ’或以負源為主找音高所步驟4 :如此反覆利用步驟3尋找音高所有的點都小於臨界值為止

I 有的點都大於臨界值臨界值為止步驟5 :因為所求的音高的位置順序是按照值的大小所排列，所以在求取音高週期之前必須將音高的位置依昭從小到大的順序排序，可得PI、P2、P3、P4、p5、p6 5 汹 400 魅9013難五、發明說明（9){^驟：：，後，將所有音高的位置求取間距Di = Pi + 1 - 的，1 β立2二，N (Ν為音高的個數），並將間距加以平均，就疋音高週期Ρ 了。妇卞Σα Ρ η 曰修正 Ν-1 碼端架構圖如圖二，其每個主音框又可分括：一脈衡ΙΪΓ曰的大小為7*5ms (60樣本點），其包将接為立古、 E (Impulse Train Generator )21 ^ 器（R^ifd南1期參數以產生脈衝串；一第一隨機雜訊產生 / 〇m N〇1Se Generator ) 22 ,係用以產生隨機雜上述有聲/無聲判斷單元η判斷為有聲時，該機隨雜機隨機雜訊產生器23 產生激發源；-第二無聲判斷單元17判斷為益㈣^ f上述有聲/ •一馮無聲時，該隨機雜訊直接表示為激發源，線性頻譜對參數（LSP)内插單元（LSP I^t^r^olajioii/ ) 24，係接受上述線性頻譜對參數，由目 :嫌：：m:線性頻譜對參數與前一個主音框之線性頻；a對參數的量化值以“ #也· rin . 值M加權拍數内插；一線性頻譜對參數轉測係數渡波器（LSPt0LPC)25，係用以性頻譜對參數求出每個次音框合成時的十階線性預測係數，一合成濾波器（Synthetic Futer )，係將上述十階線性預測係數與過去合成之十個語音訊號相乘，再加上語音激發源盘增茬炎机，1 激發源訊號之合ΐ語·;益參數料得到對應於目前語音本發:之解碼方法中次音框合成時的線性預測係數是由目前主8框量化後之線性頻譜對參數與前一個主音框之

5644〇Q^

曰修正線丨生頻譜對參數的量化值内插，反求而得，内插加權指數見表一〇在激發源部份，若為有聲，採用混合激發，由音高週期產生的脈衝争加上隨機雜訊紐成。混和激發的目的是在週期的激發源中適當的參入一些隨機雜訊，如此可以模擬生像= 2”"曰特徵來產生各種的有聲語音，才不會產 & &祖1 #預測分析機械聲的感覺和擾人的雜訊，使合成的；;σ日自然度增加，接客右獻線性預測八鉍％ I ^同有聲^音的音質，這點是傳統示。刀欠缺的，若為無聲，則僅用隨機雜訊表略·· 本方法加入了 U下兩S増進合成語音品質的策 (1) 激發源平滑化濾波器激發源平滑化濾波器可使源。便解碼端擁有更佳之語音激發 a ·在有聲音方面，jl in :麻、占, A(z) : 〇·125 + 〇·;5ζ二二二如圖三A 所示，為 b ·在無聲音方面，其孚、、典 z A(z)…G· 125 +、〇·25三8所示’為 (2) 主音框間高週期之連續性· 題，必須考慮其連續性的問前主音框則是由餘點的大…在目生激發的脈衝串，例如前主音框的音高週期開始產 m 餘點為40 ’若目前主音框的音古=二=週期為5〇，則會剩二-----------週期為75，則目前主音框

$ 15頁 5#440i〇4 I年月 l· !

曰五、發明說明（11) 產生脈7串的起點則改n MM 間的連縯，如圖四所示。本發明之編瑪方法因為不用反射係對參數，所以可節省位元的數目，其位框以34個位元料切線㈣㈣參數用1個位70，音高週期用7個位元，增益元的同步位元，一個主音框總共傳送48 框大小為240點，位元率為丨6Kbps。以下針對編碼方法中採用到的自相係數擷取、線性頻譜對參數擷取、增益取’首先分析其運算式，再根據運算式設計方式。修正主音框和主音框之數而改用線性頻譜元配置為每個主音，有聲/無聲判斷用5個位元，1個位個位元，每個主音關運算、線性預測擷取及音高週期擷提出其硬體架構之【自相關運算之硬體架構設計方式】自相關運算在所有語音參數求取的計算量是最大的，如果以10階的自相關運算為例必須計算別到!^1()共丨丨個，而以R0為例；所需要的乘法數目為2 4〇，加法數目為239 : R1的乘法數目為239，加法數目為238，依此類推到R11所需的乘法數目為230，加法數目為229 ;若以唯讀記憶體控制（Control ROM)之方式來控制乘加與載入暫存器的方式；其控制字組（Control Word)要5159筆，太大也太沒效率了。 I · 因為自相關演算法有固定的週期性，所以本發明提出一個有限狀態機方式的解法；改直接由有限狀態機發出控制訊號到資料路徑；首先觀察自相關演算法以一個音框 2 40點為例：

第16頁 2 564400 她 90132449 Λ_3 曰修正五、發明說明（12) 239-k R(k)=乞 x(m)x(m + k) (1· 1 無論計算到哪一階，其終止條件都是式子（11)當中χ (m + k) = χ(2 39)，我們在電路上採用二組位址計胃數器^與 c2來表示x(m)與x(m + k)的值，在計算每一階的(：1與2之範' 圍分佈如圖五所示，計算自相關的有限狀態機只要發現以 = 239時就可以轉移狀態去計算下一階了。 " 將自相關分成6個狀態（STATE)，描述如下： 51 52 53 54 55 56

Load R1 Load R2 Load R4 Load R3 Execute R3 + R4 If (c2==239)End of calculation R(〇··l〇) and storage it. 1 Else c2 = c2+l，cl=cl+1; SO: Stop state (execute R1xR2) 在控制單元内有二組位址計數器“與“用來產生x(m) 與x(m+k)位址，在有限狀態機的狀態6會判斷c2是否為 239來終止自相關在某一階的乘加運算。自相關的運算為乘加所組成的資料路徑所以一個乘法器乘完之後緊接著就是加法器來做累；^，而累加暫存器會存放計算好的自相關值並透過移位器（Barr el Shifter)將自相關值正規化在 1 6 3 8 4以下。【線性預測係數擷取之硬體架構設計方式】 # % _才目關係數後緊接著是求取線性預測係數，我們採用

第17頁 5^40Q ； I “ _案號90132449 _年月 Ε

五、發明說明（13) 德賓演算法如下·· ( Μ \

Kt= R(iyY^R(i-j) /EM V Μ )

Ei〇) = R(O) 其中妒：預測誤差 E(0 = (1-〇Ευ·Ό ) a严 df、 m a 自相關係數偏導數係數 i階預測參數的第j個 N:l:k i?(A:)= ^S{m)h{m)S{m^k)h{m^k) S(n) ··輪入ϋ訊號咖）：漢明窗在本發明中將德賓演算法的三個迴圏予以展、接一筆的指令藉由寫微指令集的方式來控制資料j成一筆取線性預測係數的運算，以i=5為例，展開的演算路法&如做梅六所不。^於演算中存在除法運算；以1〇階德賓演算法為例，存在著1 〇次的除法運算分別為all (第一階的第一個）、a22、a33、a44、a55，a66、a77、a88、a99、al010 (胃第十階的第十個）。根據資料範圍分析，這些除出來的值是不會超出正負3.0的；於是我們設計一個除法器專門求取線性預測係數。方法以二分法的觀念求商，除了符號位元之外總共有1 5個位元要變動，方法如下：

第18頁神44她 !年；j 90132449 曰修正五、發明說明（14) 1. set initial value ， quotient = 16’bOlOO一〇〇〇〇一〇〇〇〇一〇〇〇〇 clear = 16，b 1011J111 一 1111J111 add = 16，b0010一〇〇〇〇一〇〇〇〇一〇〇〇〇 2. temp = multiply quotient by divisor 3. compare temp with dividend. if (temp>dividend) quot i ent(new)= quotient(o1d) & clear | add; add // add and clear else quotient(new) = quotient(o1d) 4·add >>=1; c1ear>>=1； variable are right shigt 1 bit 5. i f ( add == 0) exit else jump to 2 以一個5.0除3·0的範例來描述演算法運算的整個過程如圖七所示，最後得到商的值為〇〇〇l_j〇l〇_l〇l〇_1011 (1·666748)。【線頻譜對參數擷取之硬體架構設計方式】首先說明線性預測係數轉線頻譜對參數之方法，線頻譜對參數的物理意義分別表示聲帶全開與全閉條件下的頻譜對參數多項式P(z)與Q(z)，這兩個多項式具有線性關係，可以提供解碼時做良好的_性内插使用，使得編碼的位元率能降低；所以廣泛應用到各種語音編碼器上。作)=4«⑺+2倘你， (2 1} Q(z)^An{z)-z^An{z^) (2· 2) (2·1)、（2·2)兩式若再進一步推導則可得：

第19頁 564400 號 90132449 曰修正五、發明說明（15) (2.3) (2. 4) P(jc)=16jc5 +8；7〆 +(4户2 -20)χ3 -(8Α -2Α)) +〇4 -¾¾ +5^+(/¾ +β) 〇{χ)^\β^ ^Sqxx4 +(4q2 -20)x3 -(¾ -2^3)x2 +(分4 一3《2 + 5)X + (% -+ 95) 其中 :cos 必

Pi = + ^ 1〇 -1 = a2 + a9_ p' = a 3 ^ ^ % - Pi 尸4 = + a7 - /?3 P5 = as + a6 一 P q i ^ a λ - a λ « 2 = 0 2 - a 9 + L ^4 = ^4-^7 + ^3 P4 + 1 (2· 5) q g &1〇，&9办，···^為線性預測的1 0階參數，P(x)和Q(x)的根即為線性頻譜對參數。 (2·3)、（2.4)可除以16而不影響其根 (2. 6) (2. 7) (2· 7)兩式改為巢

Pf ⑻=X5 + g〆 + g2X3 + g3x2 + + g5 Q，(x) = x5 +h〆 +h2x3 +h3x2 +h4x + h5 為增加準確度及減少運算可把（2.6) 狀形式：、 ηχ)=((((X+a +s2 ^4)^+gs (2 · 8 ) Q\x) = ((((X + Aj )x + Λ2)χ + A3)^ + A4>^ + h (2.9) ! · 轉在（2.6)中共用15次相乘、5次相加，而（2·8)只用4次相乘、5次相加，減少相乘的次數則可大幅提高其準確度。而（2.8)與（2. 9)的gl〜g5與hi〜h5可直接有下列式子換過來

第20頁 5644〇α 案號 90132449 曰修正五、發明說明（16) g5=0.03125*P5-0. 0625*P3+0.0625*P1 g4=〇·0625*Ρ4-0·1875*P2+0.3125 g3 = 〇. 125*P3-0. 5m g2 = 〇·25*P2- 1·25 gl = 0. 5 *P1 h5=0·03125*Q5-(K0625*Q3+0.0625*Q1 h4= 0.0625*Q4-0.1875*Q2+0.3125 h3=0·125*Q3-0· 5*Q1 h2=0·25*Q2-1·25 hi = 〇. 5*Q1 圖八顯示線性頻譜對參數擷取單元之硬體架構圖，我們以三級之管線架構來實現整個運算，管線之第一級讀取資料進入暫存器，第二級以乘法器33執行乘法運算，第三級以加法器3 4執行加法運算。各階之線頻譜對參數索引值以表格（Look Up Table， LUT)存放。在此我們解根之前必須先將多項式的係數“ 15與11卜115之係數先算好並放在1^4»132中。解1^?事實上便是求解根，我們採取勘根定理來解根，亦即當P(a)P(b)<〇時’ a、b之間便存在P(x)之根。所以架構中需要比較電路來判斷P(a)P(b)之正負，由於p(a)、p(b)皆為二補數，故此比較電路以一個互斥閘即可實現。整個運算的開始或結束均由線頻譜對參數之有限狀態機（LSP — FSM) 31來控制，頻譜對參數之有限狀態機的作用在於當比較電路找到根時會送出一個信號告知頻譜對參數

IHI 第21頁 564400 案號 90132449 曰修正五、發明說明（17) 之有限狀態機目前所要找的根己找到，執行存索引的動作，並且繼續找下一階的線頻譜對參數索引（LSp INDEX)，直到全部10階的線頻譜對參數索引都找出後就停止，所以一序列的線頻譜對參數索引求取之運算時序都需經由頻譜對參數之有限狀態機來控制。此外，控制器 (Control ler)31會依照線頻譜對參數之有限狀態機的指示來控制表格（LUT)送出值到暫存器（reg)内，或暫存器組 (Register File)的内容放到暫存器内，並且控制其它運算單元的動作。【增益擷取之硬體架構設計方式】增益的運算見式（3·1)，由於存在開根號運算我們將式子（3 · 1)修改成式子（3 · 2)就可避設額外設計開根號電路了，如此一來運算只而加、減、乘就可以了，其電路架構如圖九所示。首先將式（3· 2)等號右邊的值經資料路徑算出並存放在R5暫存器42中，而G的值有32筆索引值對應到 32種不同的增益值，儲存在唯讀記憶體（R〇M) 43中；可藉由查表的方式依序找出增益值，並且送入乘法器44中得到輸出為G的平方之值且儲存在R3暫存器中，由控制單元的增益有限狀態機41來比對R3與R5的值，一直比對到备妓说的值便將索引值編碼起來。 (3.1) %聊-艺撕)哪) V /*1 G2 =R(〇)-J]A(I)*RXI) 1*1 音高週期擷取之硬體架構設計方式】

(3. 2)

第22頁修正曰 _ 案號 90132449 五、發明說明（18) 為了簡化硬體之設計，我們將音高週期擷取之方法簡化如下： (1) 在一個音框中找出絕對值最大的值定為尖峰值 (Peak)，若尖峰值為正則以正源為主找音高週期；若 peak為負則以負源為主找音高週期以圖3一$為例，其peak 為負所以，以負源主找音高週期。 (2) 取一臨界值（τη)為0.68乘上尖峰值的值。 (3) 超過臨界值的樣本點才予以考慮，從第一點開始找出第一個大於等於臨界值值的樣本點；假設位「接著跳30個樣本_[n_並將計數器為 30,從sp[n+30]往後找第二個樣本點，每找一個便將計數器值加1 ;直到找到第二個大於等於臨界值為止，此時的計數器值即為音高週期。本發明編碼後所產生的48個位元，由一組48個位元所組成的暫存器來存放，其資料放順序按照參數擷取之順序來排列第0到第33個位元存放1〇階線頻譜對參數索引值，第34到38存放增益索引值，第39存放有聲/無聲位元第 ’第48個位元位元保留做以後擴充使用。综？所述’本發明所提供之語音編/解碼方法及語音編/解态，不僅可達預期，實用功效外並且為前所未見之新設計’已符合專利法發明之要件，爰依法。 ίί德^請貴審查委員詳予審查，並祈早日賜準專利， __以上已將一本發明一詳細^^惟以上所流去，僅為本

第24頁 5^400 5 案號 90132449

B 修正圖式簡單說明圖一顯示本發明之編碼端架構示意圖；圖二顯示本發明之解碼端架構示意圖；圖三A顯示在激發源為有聲音時之平滑化濾波器；圖三B顯示在激發源為無聲音時之平滑化濾波器；圖四顯示本發明中主音框間高週期之連續圖；圖五顯示自相關運算内部變數範圍；圖六顯示德賓演算法展開之例子；圖七顯示圖六演算法運算的整個過程；圖八顯示線性頻譜對參數擷取單元之硬體架構圖圖九顯示增益擷取單元之硬體架構。【主要元件編號】 11 漢明視窗處理單元 12 自相關運算單元 13 線性預測係數擷取單元 14 線性頻譜對參數擷取單元 15 增益擷取單元 16 音高週期擷取單元 17 有聲/無聲判斷單元 21 脈衝串產生器 22 第一隨機雜訊產生器 23 第二隨機雜訊產生器 24 線性頻譜對參數内插單元 25 線性頻譜對參數轉線性預測係數濾波器 26 合成濾波器 31 線頻譜對參數有限狀態機及控制器第25頁 564400 Μύ 90132449 曰修正圖式簡單說明 33 34 35 36 41 42 43 44 45 46 32 隨機存取記憶體乘法器加法器唯讀記憶體多工器增益有限狀態機及控制器隨機存取記憶體唯讀記憶體乘法器加/減法器多工器

第26頁

Claims

56 餐 QO

八二種語音編碼方法，係將語音訊號以8ΚΗζ取樣，再予以刀成許多主音框（f rame)，每個主音框的大小為3〇ms (240 樣本點），做為編碼參數傳輸單位，該編碼參數包括有：線吐頻譜對參數（Line Spectrum Pair, LSP)、增益參數、有聲/無聲判斷參數、音高週期參數以及一個位元之同步位元；其中該線性頻譜對參數之求出方法係將該主音框的音先用漢明視窗（jjamming window)作前處理，再求其自+相關係數做線性預測分析，求取十階線性預測係數，接著轉換成線性頻譜對參數；該增益參數係利用上述線性預測分析所求得的自相關係數和線性預測係數求出；該有聲/無聲判斷參數係利用越零率（Zer〇 crossing rate)、能量（Energy )以及線性預測係數的第一階係數做綜合判斷，該音高週期參數之求出方法包括以下步驟：步釋一：將該主音框的所有取樣點找出其絕對最大值’也就是找出振幅大小最大點之值；若此值為正，則以最大值為主找音高，將此最大值點設為音高，並將最大值點及其前後適當取樣點清除為零；若此值為負，則以最小值為主找音高，將此最小值點設為音高，並將最小值點及其前後適當取樣點清除為零；步驟一*· $又疋上述振幅最大點之值的適當倍數為臨界值（Threshold); 步驟三··若此主音框是以正源為主找音高，則重新找出目則主g框的最大值，若此值大於臨界值，則設此點為音高’並將目前最大值點及其前後適當取樣點清除為零；

第27頁 5644Θ0, 案號901324仙曰修正六、申請專利範圍樞若此主音框是以負源為主找音高，則重新找出目前主立的最小值，若此值小於臨界值，則設此點為音高，並曰相前最小值點及其前後適當取樣點清除為零；、將目步驟四：反覆利用步驟三尋找音高，直到同所有的點都小於臨界值為止，或以負源為主立^ 所有的點都大於臨界值為止； 9向步驟五：將音高的位置依照從小到大的順序排序，可得p!、p2、P3、P4、p5、p6 ; Pi，就可步驟六：將所有音高的位置求取間距Di == Pi+i =1，2，···，n(N為音高的個數），並將間距加以平均得音高週期。 2·如申請專利範圍第1項所述之語音編碼方法，其中該有聲/無聲判斷參數利用越零率（Zero crossing rate)、能量（Energy)以及線性預測係數的第一階係數做綜合判斷之方法如下： a·越零率：越零率係該語音訊號s(n)通過零值的次數，也就是兩連續樣本間具有不同的正負號次數，以式子表示則為： sign[S(n)] s i gn [ S ( η +1 )] 如果越零率高，則表示此段語音為無聲語音，若越零率，’則表示此段語音為有聲語音。 b·能量：該語音訊號s(n)的能量Ε(η)定義為： Size E(n) = JS(n)2

第28頁 ^#44§0 ― ，案说90132449 奉月日修正 _ 六、申請專利範圍若能量大，則表示為有聲語音；若能量小，則表示為盔聲語音； ^ C·線性預測係數的第一階係數：若此係數大，則表示為有聲語音；若此係數小，則表示為無聲語音；上述三種方法如果有兩個方法判斷為有聲語音，則此主音框為有聲語音，反之，則為無聲語音。 3·如申請專利範圍第1項所述之語音編碼方法，其中該音高週期參數之求出方法中之適當取樣點係為丨9點。曰

4·如申請專利範圍第3項所述之語音編碼方法，其令該音高週期參數之求出方法中，步驟二之適當倍數為〇68倍9。 5·如申請專利範圍第4項所述之語音編碼方法，其中一個主音框總共傳送48個位元，位元配置為：34個位元傳送上述十階線性頻譜對參數，1個位元傳送上述有聲/無聲判斷參數，7個位元傳送上述音高週期參數，5個位元傳送上述增益參數以及1個位元傳送上述同步位元；且該每個主音^ 框大小為240點，位元率為；i.6Kbps。

6· —種語音解碼方法，係將每個主音框分為四個次音框，每個次音框合成時的十階線性預測係數是由目前主^框量化後之線性頻譜對參數與前一個主音框之線性頻譜^參= ，量化值内插，反求而得；另外，在激發源部份％若為有聲，採用混合激發，由音高週期產生的脈衝串加上隨機雜訊組成，若為無聲，則僅用隨機雜訊表示；此外，在產生有聲或無聲激發源後，該激發源必須經過平滑化遽波器加強该激發源的平滑；最後，將上述十階線性預測係數與過

56440Q^ --丄…案號90132449 _年月 a 修正 _ 六、申請專利範圍去合成之十個語音訊號相乘，再加上上述語音激發源訊號與增益’即可得到對應於目前語音激發源訊號之合成語音。 ?· 一種語音編/解碼器，其係以應用導向超大型積體電路架構（AS 1C)之方式來設計，將語音訊號以8KHz取樣，再予以分成許多主音框（frame)，做為編碼參數傳輸單位，可分為編碼端與解碼端，其中編碼端包括·· 一漢明視窗處理單元，其係將每個主音框的語音先用漢明視窗（Hammi ng Window)作前處理；一自相關運算單元，係將上述處理過之語音求其自相關係數；一線性預測係數插取單元，係將上述自相關係數做線性預測分析，求取十階線性預測係數；一線性頻譜對參數擷取單元，係將上述十階線性預測係數轉換為線性頻譜對參數，並加以量化編碼；、一增益擷取單元，係利用上述自相關係數和係數求出增益參數； $ j 一音高週期擷取單元，係用以將上述主音框求週期參數；以及曰同一有聲/無聲判斷單元，係利用越零率（Zer〇 crossing rate)、能量（Energy)以及上述線性預測係數的第一階係數做綜合判斷該語音訊號係有聲/無聲；在該解碼端，每個主音框可分為四個次音框…，該解碼端包括：

第30頁 5斜 4002

一脈衝串產生器（Impulse Train Generator)，係接受上述音高週期參數以產生脈衝串；一第一隨機雜訊產生器（Rand〇m N〇ise Generator )，係用以產生隨機雜訊，在上述有聲/無聲判斷單元判斷為有聲時，該隨機雜訊與上述脈衝串傳送至一加法器以產生激發源；了第二隨機雜訊產生器，係用以產生隨機雜訊，在上述有聲/無聲判斷單元判斷為無聲時，該隨機雜訊直接表示為激發源；

一線性頻譜對參數（LSP)内插單元（LSP Interpolation )，係接受上述線性頻譜對參數，由目前主音框量化後之線性頻譜對參數與前一個主音框之線性譜對參數的量化值以加權指數内插；一線/性頻譜對參數轉線娃預測係數濾波器（LSP tb LPC ),係用以將上述内插後之線性頻譜對參數求出次音框合成時的十階線性預測係數；一合成濾波器（Synthetic Filter),係將上述十p 線性預測係數與過去合成之十個語音訊號述：音激：源與上述増益參數，即可得到對應於目前土: 激發源訊號之合成語音。 3m E

8 ·如申請專利範圍第7 μ、+、立，禾」項所述之浯音編/解碼器，苴. 主音框總共傳送48個位元，仞；舻罢炎 ^ ,，、中一疋位凡配置為· 34個位元值；主述十階線性頻譜對參龜，〗 — 疋傳送參數，7個位元傳送上述另掌/…、聲判疋曰冋週期參數，5個位元傳送上

f喔年月 1 2-f：C .V：； Mmk 90132449 六、申請一碎兩圍增益參數以及1個位元傳送上述同步位元；且該每個主音框大小為240點，位元率為1.6Kbps。 9·如申請專利範圍第7項所述之語音編/解碼器，其中該自相關運鼻早元係直接由有限狀恶機發出控制訊號到資料路徑，其執行以下方程式 239-k R(k)= Xx(m)x(m + k) m=0

且在控制單元内有二組位址計數器cl與c2用來產生x(m)與 X ( m + k )位址’該有限狀態機分成6個狀態：狀態一係讀取 R1 ’狀態二係讀取R2，狀態三係讀取R4 (同時執行ri X R2 )，狀態四係讀取R3，狀態五係執行R3 +R4，狀態六係判斷如果c2 =23 9，則結束計算並且將其儲存；否則c2 = c2+l 且cl=cl+l 〇 10·如申請專利範圍第7項所述之語音編/解碼器，其中該線性預測係數擷取單元係將十階德賓演算法的三個迴圈予以f開成一筆接一筆的指令，藉由寫微指令集的方式來控制資=路徑做擷取線性預測係數的運算；該線性預測係數擷取單元係包括一除法器，利用二分法求取線性預測係

U·如申請專利範圍第7項所述之語音編/解碼器，其中該線性頻譜對參數擷取單元係包括：一隨機存取記憶體，係用以儲存事先算好之多項式的係數； 1 、、比較電路’係用一立斥閘以根據勘根定理來解根，並在找到根時送出一個信號告知頻譜對參數之有限狀態

第32頁 56440(¾ ^ 〒 Θ l:r/. ! 一號90132449 年月日 … -----__ 六、申請專利範圍 -- 機；一頻譜對參數之有限狀態機，係接受上、+、於& 批/一又上迹信號，執打存索引的動作，並且繼續找下一階的線頰譜對參數索引 (LSP INDEX)，直到全部十階的線頻譜對參數索%丨都找出後就停止； ' 一控制器’係依照上述線頻譜對參數之有限狀態機的指示來控制表格（LUT)送出值到暫存器（REG)内，或暫存器組（Register Fi le)的内容放到暫存器内，並且控制夕運算單元的動作。

33頁