TWI281657B

TWI281657B - Method and system for speech coding

Info

Publication number: TWI281657B
Application number: TW093126447A
Authority: TW
Inventors: Anssi Ramo; Jani Nurminen; Sakari Himanen; Ari Heikkinen
Original assignee: Nokia Corp
Priority date: 2003-10-23
Filing date: 2004-09-02
Publication date: 2007-05-21
Also published as: EP1676262A2; WO2005041169A3; US20050091041A1; EP1676262A4; TW200515372A; WO2005041169A2

Description

1281657 九、發明說明：【發明所屬之技術領域】本卷月係大體上與語音編碼器有關，更確切地說，係與預錄音頻（audio)信息之參數語音編碼器有關。【先前技術】當設計行動電話時，在美國將會要求將視力受損者列 ^設計考慮。行動電話廠商必須使電話有—個適用於視力受損者之使用者介面。在實際上，此意指選項除了顯示於銀幕外，須能”大聲說出”。將這些音頻信息盡可能儲存於小的記憶體中是有明顯好處的。普遍地，文字至語音（1以卜 to-speech(TTS))規則系統已被使用於上述應用中。然而，為達合理tts輸出品質，須要大量的資料庫，因此，tts 並^行動終端機之合宜解決方式。由於使用少量記憶體，目雨TTS規則系統所提供之品質是不能接受的。除TTS外，語音編碼器能夠被使用於壓縮預錄信息。壓縮資訊被儲存並解碼於行動終端機中以產生輸出語曰為減少δ己憶體之消耗，極低位元率之編碼器是理想之 !擇。為產生輸出語音信號至編碼系統，可採真人發音或高品質（及高複雜性）TTS規則系統。雖然語音編碼的一個基本目標在於所給編碼率之 :’達到可能最好之品質，其他性能方面也須兼顧以為特定應用發展語音編碼。除了語音品f及位元率外，主要特質尚包括編碼器延遲（主要以框架大小加上一可能預見、 (lookahead)決定之），編碼器之複雜性及記憶體需求，頻 1281657 道錯誤敏感度，對音效背景雜訊之強健性，以及編碼語音之頻寬。此外’語音編碼器應能夠有效地以不同能量程度及頻率特性再製輸入語音。波形匹配及春數語音編碼語音編碼系統最通常之分類有兩大類型，即波形編碼器與參數編碼器。波形編碼器，如名所示，是被設計直接保留被編碼之波形而不須顧及太多語音編碼之特性。因此，在波形編碼器中，以減少量化錯誤（quantization err()i〇之方式使重建信號聚合成原來信號。此完美重建特性對於參數編碼器未必為真，參數編碼經由不同模式使用關於語音信號之先驗（apriori)資訊，並且試圖保存語音知覺上最重要之特徵甚於將語音實際波形編碼。在參數編碼器中，重建錯誤非以減少量化錯誤方式聚合為零。參數編碼器也稱為資料編碼器（source coder)或聲碼器（v〇c〇der)。典型地，參數編碼器用於低位元率（1_6千位元），而波形匹配編碼器使用於較高位元率。在典型的參數語音編碼器中，輸入語音信號以固定長度之區段（segment)或框（frame)來處理。基本上，框之長度是約10-30ms，及一個於後續框約5_15ms之預見（1〇〇k_ ahead)區段也可被採用。框可進一步分數個次框（sub-frames)。對於每個框，編碼器決定輸入信號之參數表示。該參數被量化成位元流且經由傳送頻道傳送或儲存於儲存媒體。在接收端，解碼器基於接收到的參數構成—個合成信號。一典型的語音編碼系統顯示於圖丨。 1281657 春數語音編碼模剞一常用之參數語音編碼處理方式是將語音信號或聲道激發（vocal tract excitation)信號以任意振幅 (amplitude)、頻率及相位之正弦波之綜合表示： s(t) = Re 艺ajt)exp(j f〇)m(t)dt + em )，（1) m=l 匕 -* 其中，對於第m個正弦波組元，心，伽(0及故代表振幅、頻率及固定相位偏移。為求得以框為表示，參數假設為常數於解析視窗（analysis window)。如此，在一給定框内之離散信號s(n)約等於：

L s(n) = [Ara cos(ncom +0J，（2) m=l 其中，4及A表示振幅及與頻率音軌（frequency track) 關聯之每個正弦波組元之相位，以及L表示正弦波組元之數目。在以下的正弦波模型中，被傳送之參數包括：頻率、振幅及正弦波組元之相位。該等正弦波通常假設以基本頻率之倍數調和地關聯。於發聲語音中，⑽對應到發聲者之音調（pitch)，但於無聲語音時，^> 沒有實質上的意義。在實際的低位元率正弦波編碼器中，參數表示通常不同。傳送之參數典型地包括音調（圖2b)，發聲（voicing)(圖2c)，振幅（例如，線性預測係數及激發振幅），以及語音信號（圖2a)之能量（圖2d)。為替框尋找最適宜正弦波參數，基於理想條件之啟發 1281657 式方法通常被使用。其可藉使用具變化或固定長度之重疊解析視窗解決。一高解析離散傅立葉轉換（Discrete Fourier Transform(DFT))則由視窗化信號取得。對於發聲語音，視窗長度應至少為平均音調區間之兩倍半以達到希求之 DFT解析度。為決定每個正弦波組元之頻率，DFT振幅譜 (amplitude spectrum)之簡易峰值拾取法（simple peak picking algorithm)被使用。每個正弦波之振幅及相位則藉由簡化這些頻率之高解析DFT而得到。為達平穩發展合成語音信號，使用適當參數内插法 (interpolation)以防止於連續框之框緣間之不連貫。對振幅而言，線性内插法被廣泛地使用，當發展相位被内插於使用一例如於接續框介於參數成對之三次多項式之高位元率。内插頻率可被計算為相位函數之導數。因此，所得到之模型可定義為： §(n) = Z1 ⑻ c〇s$m ⑻)， (3) m=l 其中，怂及§m代表内插振幅及相位輪廓。高品質相位量化是非常困難於中等或更高之位元率。有鑑於此，大部分操作6千位元/秒以下之參數語音編碼器使用線性/隨意相位模型，其中語音信號被分成有聲與無聲組元。有聲組元之模型化或產生乃使用以下之線性發展相位模型：谷(η) =θι +ωιη + (ωι+1 -ωι , (4) !281657 其中，/與π是框之指標與長度1頻率是彼此調和，咱波相位是單純地為第一諧波相位之/倍。無聲組元是由隨機相位所產生。稭使用線性/隨機（randGm)相位模型，原始與合成語音之間之同步性消失。在r吹相持於框缝。m 中，同步性祇被維 ''在大口^份之參數語音編碼器中，語立區p古 :^無聲組元是決定於視窗化語音H段之DFT日。基^此表較低位元率時，—常用==為有聲或無聲。在所有高於切割以上之頻率歸類為無聲義:=其割以下之頻率歸類為有聲的。而所有低於切逢UtM之主當觀察一段長的時間（>is) 地非靜定，主要之因素有：振幅變化—=“吕號疋两度靜止行為、及有聲或無聲行為。缺而一”活動或 (l(M〇s)，語音是局部地靜定。扭田及歷-短的時段測於時間與頻率兩個領域。m曰軚、、、田微之特徵可被觀在有聲語音中，波型顯示一相旦 (r:ndancy)。冗餘可用於二里:冗1 間内之穩定性，有聲區段之该几餘包括：短聘 (non-flatness) > ^ ^ a % ，知1期頻譜之非平度 ib 參數之非均勻機率分佈值旱之限制，及代表這， =:::=，限…。小之框無法得到理想之編石 , 1281657 效率。例如，對於平穩發展之發聲語音，參數更新率可能明顯地小於短暫型態語音，其參數輪廓快速地改變。此外，就品質之觀點，使用更多位元於知覺上重要之區段（例如，高能量區段）及減少位元於知覺上不重要之區域（例如，靜音）。為發展利用如圖2b-2d所示之參數平穩性質於語音穩定區域，有效量化方法通常被使用。該方法包括例如預測及差分（differential)編碼。然而，因為對於錯誤頻道效率之須求，使用參數統計分佈（statistical distribution)之不同編碼方法之效率尚未完全利用於目前語音編碼。在一典型之參數語音編碼器中，語音參數是估計於間隔規律之語音信號。該間隔之長度通常等於所使用編碼器框之長度。雖然某些參數（例如音調）可能較其他參數更常被估計，一參數之估計速率通常是定值。然而，使用可變更新速率也是可能的，但是實行之額外複雜性及困難將使得此處理方式不合實際（參見例如P. Prandoni M.Vetterli， ’’R/D理想線性預測’’IEEE語音及聲訊處理彙刊，第8冊，編號 6，2000，頁碼 646-655) 〇參數傳送率通常等於估計速率。在被估計參數之量化過程，最常用之處理方式是對於每個參數有一各別之量化，並使用同一量化器於參數之所有估計值。模式指定 (Mode-specific)量化器也已被使用，但這種技術仍然相當少用於實際應用。在模式指定量化器中，模式之選擇通常基於發聲資訊。 10 1281657 為達到語音信號之編碼及解碼於低位元率，

Aguilar(美國專利號碼5,787,387)將連續輸入語音分成有聲及無聲預定長度之時間區段。編碼器使用線性預測編碼 (LPC)模型於無聲語音區段，及使用諧調頻率分解於有聲區段。若使用有聲語音區段之離散傅立葉轉換（discrete Fourier transform)，祇有諸調頻率之大小被決定。解碼器使用該大小之傳送諧波以合成有聲語音區段及由前置語音區段之信號估計每個諧波之相位。無聲語音區段之合成係使用得自LPC係數多項式極點用編碼冊項目之LPC係數。為了改進的輸出語音品質，介於有聲與無聲區段之邊界條件被建立以確保振幅及相位連續性。在另一不同之處理方式中，Yokoyama(美國專利申請文件號碼2003/ 0105624 A1)使用編碼率選擇器以依據輸入語音之強度選擇適當之語音編碼率。語音編碼率選擇器有一個用於計算預定時間單元内之輸入語音能量之短期能量計算單元，及一個用於估計加諸在輸入語音之環境噪音能量之環境噪音能量估計單元。基於環境噪音能量估計之結果，計算出能量閾值（threshold)組。該閾值組然後與由短期能量計算單元計算出之能量相比較，以從多數的語音編碼率中選擇一個適當速率。先前技術之缺點 -固定框大小及固定參數傳送率之使用無法提供一理想之解決方式，因為一設定之參數值可能維持一相當長時期之恆定於某些時刻，但是同樣參數值可能變動的非常 1281657 快於其他時刻。被編碼4號之特性（例如發聲資訊）非充分地利用於量化過程。 -在參數語音編碼中，從壓縮效率之觀點，—固定參數更新率抵有極少適n當於語音之穩定（有聲）部分，即使-個非常低之更新率也可能足夠。然而，當於噪音特質（無聲）區段，-高度更新率是典型的要求。 -對於良好感知正確所須之量化準確是可變動的且依賴被編碼錢之雜。因此，使用具有—較位元配置之单一量化器之先前技術通常產生感知上無法滿足之結果於必須非常正確編碼之語音部分，或浪費位元於可更為粗略編碼之部分。【發明内容】姓"明之主要目標在於為儲存應用改進語音編碼結構内之編碼效率。為達該目標，語音信龍料成參數之編碼步驟依據音頻錢之特徵而調整。 2此：根據本發明之第一個特徵，乃提供—具音頻特 ^曰頻信號編碼方法’該方法包含之步驟有：基於音頻信號之音頻特徵將音頻信號分段成多個區段用之編碼設定將該等區段編碼。便用不门碼步=本發明，該分段㈣是實行同步、或之前於該編 12 1281657 編應3本發明之第二特徵，提供—與音頻編碼器關連之接徂:，該音頻編碼器將具音頻特徵之音頻信號編碼以 =供夕個表示音頻信號之參數。該編碼裝置包括：一輸入以接收表示參數之音頻資料；以及—個基於音頻 =特徵區隔參數之調整模組，以提供參數之調整表示端，括—财效地連接至儲存媒體之輸出存播辦t 録μ之編碼參數之料以儲存至儀 k供表不調整表示法之編碼參數之信號以經由通信頻道傳送。根據本發明之第四個特徵，提供—包括在電體之電腦軟體產品，其與音頻編碼裝置同時使用，該編碼裝置將音頻信號編碼成具音頻特徵曰 ==數。該電腦㈣產品包括:一決定音頻= 鋥二=碼，以及-基於該音頻信號特徵以調整參數之耘式碼，其用以提供參數之調整表示法。根據本發明之第五個特徵，提供一電子裝置，苴勺 =-：碼器，其用以產生具音頻特徵之合成音頻信號已八中之日頻信號是於-編碼步驟中被編碼成資料個參數，且該編碼步驟是基於音頻信號之夕以提供參數之調整表示法（ad細edreprese咖i〇n)作= -輸入端，其接收表示調整表示法參數之音頻資料，供^頻資料給解碼H，使得解碼器基於調整表示法立頻信號。曰 14 1281657 該電子裝置可有效地連接至電子媒體，以接收來自電子媒體之音頻資料，或有效地連接至通信頻道，以接收經由通信頻道傳送之音頻資料。胃電子裝置可以是-個行動終端機，或終端機用模組。、根據本發明之第六個特徵，提供一通信網路，其包括：多個基地站；及多個配合基地站通信之行動站，其中至少有一行動站包括··一解碼器，其用以產生具音頻特徵之合 ^音頻信!虎，其中之音頻信號是於—編碼步驟中被編碼成貝料率之多個參數，且該編碼步驟是基於音頻信號之音頻特徵作調整以提供參數之調整表示法（adjusted 、 representation);以及一輸入端，其接收來自至少基地站其中之一，表示調整表示法參數之音頻資料，以提供音頻資料給解碼器，使得解碼器基於調整表示法產生音頻俨、號。、口本發明於詳閱與圖3a至圖丨丨相關之說明後將更趨明晰。【實施方式】二為減少傳送位元率而不降低語音品質，本發明使用語號分段方法以加強參數語音編碼器之編碼效率。該分 &疋基於語音之參數表示。區段之選擇致使語音參數之區段内相似性很高。每個區段被歸類到基於語音信號特徵之區段類型，一。較為可取之區段歸類有··靜止(非活動），有耳無浑，及變調（混合式）(transition(mixed))。如此， 15 1281657 每個區段可藉基於相應區段類型之編碼方式在典型之參數語音編碼器中，於、…。 =線性預測系數，語音能量(增益)，音調及數為揭不本發明之語音信號分段方法，假設發聲資訊、：聲Ϊ7(完全有聲)之整數值，且參數是以二 %抽取n該技料適用於其他發聲資訊類或不同參數抽取率。基於與語音能量及發聲相關之參數，可施行一簡單之分段演异法，例如，考慮以下要點： -靜止，非活動區段可藉為能量值設定之閾值偵測出。在^息預先錄音應用中，音頻可調整以具有一個恆定輸入程度，以及非常低之背景噪音程度。 -抽取時刻具有相同發聲值之連續參數可設定屬於同一單獨區段。 -任何介於具相同發聲值之兩個較長區段之間的 10-ms區段可視為奇異值（outiier)而剔除，致使三個區段可合併為一個較長之區段。奇異值是非典型之資料點，其沒有顯現如同其他資料之示性分布。 -介入完全有聲與完全無聲區段之短區段（l〇-20ms) 可合併至鄰近區段其中之一，若其發聲值為丨或2(合併至無聲區段），或者為5或6(合併至有聲區段）。 -具發聲值範圍從1至6之連續區段可合併成一個區段。這些區段之類型可設定為”變調"(transition)。 -剩餘單獨ΙΟ-ms區段可與鄰近最相似發聲值之區 16 1281657 段合併。此外，在分段中使用其他可供給之參數是可能的。例如，若某些參數（例如音調）於長的有聲區段中存有激烈之改變，則區段可分為兩個部分，致使參數維持緩和發展於兩個部分中。在不同區段類型之參數編碼方法可設計符合知覺的需求。例如，於有聲區段，高度精確是須要的，但更新率可以相當低。於無聲區段，低精確率通常是足夠的，但更新率應有足夠高度。刀I又之貫例顯示於圖3a-3d。圖3a表示語音信號之時間函數。相應之能量參數變化圖示於圖3b，以及發聲資 Λ圖示於圖3c。區段類型圖示於圖3d。該等圖式中之虛線表示區段邊界。在此例中，分段是基於發聲及增益參數。增益首先用於決定是否框架是活動的（或靜止的）。然後务聲參數用於將活動語音區分為無聲、變調或有聲區段。若有須要時，此生硬的分段可稍後以敏銳過濾及/或使用其他參數詳加區分。如此，分段可完成基於實際參數語音編碼器參數（非量化或量化的）。分段也可完成基於原始語音信號，但如此則必須要發展一個全新之分段區塊。圖4是一將使用分段資訊之語音參數U2量化之語音編碼系統·。壓縮模組20或可使用現存語音編碼器之量化參數，亦或使用直接來自於參數抽取單元12之非量化參數。此外，一預處理階段（未圖示於此）可加諸於編碼器以產生具指定能量等級及/或頻率特徵之語音信號。輸入語 17 1281657 音信號110可產生於真人講述者或高品質tts演算法。輪入語音編碼舉例來說’可完成於電腦離線（。制㈣時。」果位元率12G可提絲位於行動終端機巾之解碼器40、，° 2經由-通信頻道或儲存媒介3Q。如稍後討論的縮模、:20内之軟體程式22可使用於減少被量化器編碼成 ^元流之參數數目，使得解碼器4Q基於接收位元流之來數’產生一合成語音信號。 ^ 訊），基於參數（基本上聲調，發聲壓縮模組20依以下舉例步辱 1 ·輸入語音信號之分段。 •能量，及頻譜振幅實施：資 2·定義不同區段及參數之理想參數更新率。 3 ·消除來自原始參數之傳送參數。 4·推導參數之有效量化。通常，語音信號之分段提供以下好處： -分段（以適當區段大小）能促使極高量化效率於非常低之平均位元率^例如，兩個字之間的停頓能藉量化區段長度及指示其相應區段是屬"靜止"類型，而僅以少數之位7C*編碼。 -分段及固有預見（inherent l〇〇k_ahead)使得使用調適參數傳送率成為可能。@此，傳送參數於知覺上可接受之變化率是可能的。 -編碼處理可有效地適應輸入資料之改變，如不同編碼方法可用於不同類型之區段。例如，高效預測可使用於有聲區段。 18 1281657 -刪除區段中之單獨奇異值可改進能達到之量化效率，及可改進語音品質。 -分段程序是簡單及計算上之有效率的。 -分段方法可實行為增加之區塊，其可用於既有之語音編碼器中。* 語音信號分段方法可與調適向下取樣（adaptive downsampling)及量化法共同使用。位元率及參數更新率兩者在參數語音編碼器可適當地最佳化。最佳化 (Optimization)，舉例說，是實行局部地於一區段於一時刻，且區段長度可為定值或變數。在編碼器方面，典型之編碼器用於讀取語音信號區段及估計語音參數於規律之間隔（框架）。包括區段及具量化之調適向下取樣可採兩個階段實行。首先，連續框架流被分成連續之區段。該等區段應盡可能的長，而仍維持高度内部區段相似性（例如所有在一區段内之框架皆是有聲的）。第二，每個區段使用調適向下取樣來量化，此乃意指每個參數皆可發現促使高品質之最低可能的位元率及更新率（高取樣因子（high decimation factor)) 〇因此，在第一階段，一壓縮模組（見圖4)聚集所有區段内之k個參數值，且由連續參數值形成一個”區段參數信號’’。然後一量化模式由區段内之發聲值選出，如圖5 所示。基於該量化模式，編碼參數表示之選擇目標精確度可適當地定義。該被選擇之精確程序也決定了單一參數值量化所使用之位元數目。在第二階段，剛好符合精確度要 19 1281657 求之向下取樣率及量化被選擇。最後，軟體程式由原始k 個參數值中決定減少i個參數值，使得祇有k參數值中之 i個須經量化器編碼成位元流。於解碼器中，如圖6所示，使用内插法 (interpolation)，更新率被轉換回原始更新率。該過程可對所有被傳送至解碼器之參數重複。語音參數之調適向下取樣及量化方法於圖7之流程 500中表示的更詳盡。如流程圖所示，語音信號區段於步驟510讀入。規律間隔之語音參數被估計於步驟512。步驟510及5 12可使用典型語音編碼器實行。在步驟513，一 f區段參數信號”由連續參數值形成（所有在區段内之k 參數值聚集）。在步驟514,使用區段内之發聲值選擇一量化模式。若參數表示不包括發聲資訊，一額外之發聲分類器可用於獲得該發聲值。應注意的是，為得最佳效果，區段應被選擇使得發聲於整個區段維持幾乎不變。在步驟 516,相應於量化模式之目標精確度（及量化器）被選擇\ 在步驟518，—修改信號形成於長度k之區段參數信號。該修改信號有相同之長度且明知知覺上滿意方式°顯°示原始信號。在步驟520，最佳化過程是開始於卜丨。驟522,參數信號由長U至長度i向下取樣。在步驟使用516步驟選擇之量化器將i個參數值編碼 526,具i個量化參數值之信號向上取樣至原始長度^驟步驟528,測量介於原始參數值與步驟所得 $ 樣量化值之間的變形。此外，測景人 ° 匕外W里介於向上取樣量化值與 20 1281657 信號(見步驟518)之間的變形。在步驟530，決個Li:測量指示達到於516步驟所定義之精碟度。兩到:i即區段内所須更新之參數數目。一位元; 匕了 ^值及步驟524選擇之量化器指標。（參數匕 #疋例如，被包括在分開傳送至解碼器之區段資訊中）。右目知精確度沒有達到，設定i=i+1於步驟532。若i值沒有超過其於步驟534所決定之最大值，則程序持續於步驟522。否則，使用所知之知覺上足夠之固定更新率；包括該資訊於位元流中；量化該值於固定速率；且輸出量化器指標至位元流。 ^在解碼器方面，向下取樣率首先由位元流取出。然後，相應量化器指標數由位元流中讀取且得到一組丨量化值。最後，參數更新率以内插法向上取樣回至原始速率。應注意的是，修改信號選擇（於步驟5丨8)及目標精確度序估（於步驟530)被原始速率及知覺上足夠率所影響。讓我們假設對參數之估計率被編碼於l〇〇Hz且知覺上足夠更新率於50Hz(此假設對於，例如對於編碼實行相關於預錄聲訊目錄之儲存及相關應用，是有效的）。該修改信號可使用具0.5 ;r截止頻率（cut-off frequency)之低通行過濾而構成。在此，截止頻率是使用角度頻率符號表示，其中7Γ對應奈奎斯特頻率（Nyquist frequency)(即取樣頻道之一半）且此對應去鑛齒邊過渡（anti-alias filtering)。據此，剛好超過最大值（於步驟530)之i之最低值是k/2，且固定 21 I28l657 向下取樣率是2 : 1。此向下取樣之版本可得自於使用來自步驟5 1 8之過濾信號之每第二個值。、實行於步驟528之變形測量可被自由地選擇以適應破編碼參數之所須。此外，該變形測量可包括一個以上之結果值。例如，有可能計算平均加權平方誤差及最大平均加權平方誤差，以及設定對於該二值之，，精確值，，極限。調適向下取樣及5化法，根據本發明實施例，可揭示如下·· 使用純量能量參數之測量是以dB(分貝）為單位之絕對誤差，且解碼能量是允許對"實際值，，偏差2犯。此目標精確度之使用與量化模式無關。由於線性預測系數，頻譜變形是採用加權平方誤差測量所得近似值。區段内之最^ 及平均誤差均被測量。選擇精確度範圍致使其大致相應於頻譜變形（SD)限度如表I。奉I使用於線性預測糸數編碼之精禮度範圍

無聲混合有聲最大SD 4.3dB 4.2dB — _ 4.1dB 最大平均SD 2.1dB 1.6dB 1.2dB 調適向下取樣之結果及能量參數之量化表示於圖8a 至8d。圖8a表示於一秒鐘之活動語音中，語音編碼所須調適位兀率之演變。圖8b表示調適向下取樣率，亦即，匕值除以選擇之i值。圖8c表示以dB為單位之相應絕對編碼誤差，以及圖8d表示相應之模式選擇。少數大於2dB(精讀度極限）之誤差是由固定之向下取樣所造成。應注咅的胃是，圖8a至8d祇表示了部分的测試取樣。對於整個測試 22 1281657 取樣，能量參數之平均位元率是小於150bps。在不使用本發明之情況下，位元率將相當的高。在測試取樣内之增益值動態範圍是從大約-40dB至大約70dB。據此，可得到由直接計算之結論是於活動語音時，以傳統純量量化方式維持絕對誤差小於2dB所須之位元率將為500 bps。總而言之，語音信號可視為包括了有聲語音、無聲語音、變調（混合有聲語音）及停頓（靜止）。這四個語音類型有不同之物理及知覺特性。從品質之觀點，使用較多位元於知覺上顯注之區段（例如，高能量區段）及減少位元數於知覺上不重要之區域（例如，靜止）是有道理的。此外，參數更新率可適切地調適根據輸入語音特徵。為了實行本發明，編碼器結構包括，例如，一或更多之以下元件：預處理（preprocessing)、參數追縱（parameter tracking)、分段、調適向下取樣及量化。預處理及參數追蹤是典型地用於強化語音編碼效率。預處理既然原始語音不須絲毫不差之重建，輸入語音信號可依所要之方式修改以增加編碼效率。實際上，這表示預處理階段是加入編碼器以產生具特定能量階段及/或頻率特徵之語音信號。此外，可能之背景雜訊可被減弱。參數追蹤由於選擇參數追蹤之小心處理，分段效率可顯著改進。此主要之目標在於移除可能之參數奇異值，其可能影響分段決定。此包括例如找尋音調偵測錯誤或具低能量之 23 1281657 非常短無聲區段，其可被省略而不降低語音之品質。分段分段可基於語音之參數表示或語音信號本身。選擇區段致使語音參數之區段内部相似性很高。此外，每個區段被歸類為基於語音信號特質之語音類型之一（語音類型是為靜止、有聲、無聲及變調）。此分段技術之結果是，每個區段能使用相應區段類型之編碼方法而有效地編碼。該編碼方法之實例表示於表II及表III。表II顯示典型語音參數所須之量化精確度，而知覺上充足更新率列於表III。表II 一般參數於不同區段所須之量化精準度有聲混合無聲靜止頻譜南高低 — 增益向高低低/— 音調一 — 發聲 — 低 — — 表III 一般參數於不同區段之知覺上充足更新率有聲混合無聲靜止頻譜低高高 — 增益低高低/— 音調低南 — — 發聲 — 高 — — 為進一步改進編碼效率，初始區段可藉使用倒退及前進追蹤。例如，介於兩個有聲區段之間的非常短無聲區段可視為奇異值於被消除（三個區段可合併成一個長的區 24 1281657 段）。此追縱方式說明於圖9a，由其可知單一發聲奇異值尖峰被移除。結果，平均區段長度增加，其循序改善量化效率。魏適向下取檨及詈化調適向下取樣及量化可一次執行一個語音區段，且每個區段之處理過程，舉例來說，須經兩個階段。第一階段，編碼參數表示之目標精確度是基於相應語音信號之特徵而適切地定義。選擇精確程度也決定了使用於單一參數值量化所使用之位元數。然後，選擇剛好符合精確度要求之向下取樣率。在解碼器方面，使用内插法將更新率轉換回原始更新率。該過程可重覆於所有傳送至解碼器之參數。使用此技術’平均位元率可維持非常小，即使量化來數執跡非常近似原始音軌。此說明於圖9b量化音調執跡十分接近原始執跡，縱使位元率由7〇〇bps降至丨〇〇bps。當與固有位元配置及參數更新率之傳統方式相比較時，調適向下取樣及量化方法明顯地增 =達=因為參數更新率及位元率兩者皆於每二早獨每個參數做局部地最佳化。當於語音之敏 =二新率及/或“率可暫一再者，本發明之設備包括·· -強化編碼效率，當相較於先前技術。確度1切調整位元配置以符合感知正確表示所須之精 25 1281657 -適切調整參數更新率以持續於位元率與結表示之精確度之間尋找良好平衡。 > -可單獨對每個參數做更新率及位元率之優化。 -本發明可實行作使用於現存語音編碼器之額外區塊。語音參數之調適向下取樣及量化，依據本發明，可以許多不同方法實行。其中之-種方法已揭示於圖5至圖 7。然而，向上及向下取樣能以多種方法執行。此外，目前施行所採用的是離散正弦轉換（discrete c〇sine transform (DCT))及倒轉DCT，但仍有許多其他替代方同樣地，藉使用二元搜尋取代線性搜尋以達成快速搜尋是可能的。該方法提供一介於效率及複雜性之間的良好平衡。此外，其有另一優點是本發明可實行作額外區塊以補充現存之參數語音編碼。另外，編碼器之參數估計率可為變數或固定值，其與使用在解碼器内的不相同。該方法可使用於當參數更新率於解碼器不同於參數更新率於編碼器時。另一選擇方式，調適向下取樣及量化可執行於當調適更新率被選擇於參數估計時。理論上，該方法能產生最好之效果，但關連之複雜性是相當累贅的。尚有另一種方式，向下取樣率之定義不須具備量化器。該方法之複雜性最低，但效率不及其他之方法。如上揭示的，調適向下取樣及量化法明顯地增加編碼效率，相較於彳專統具固定位元配置及參數更新率之方法。 26 1281657 由於本發明，參數更新率及位元率兩者對於短的語音區段，各別每個參數可局部地優化。因此，總是能盡量維持低的更新率及位元率，而仍保持適當的感知品質。當於語音敏感部分，一足夠較高之更新率及/或位元率可暫時使用’而不顯著增加平均位元率。應注意的是，在背景章節所述之參數語音編碼模型是正弦曲線模型，但存在著其他參數語音模型。本發明可應用於正弦曲線模型及其他參數語音模型。依據本發明，一參數壓縮及分段之實例是與美國專利申請Docket號碼944-003.191有關連，其標題是”語音編碼中音調輪廓之方法與系統”。更明確地說，美國專利申請Docket號碼944-003 · 191揭示分段式音調輪廓量化方法 (piecewise pitch contour qUantization meth〇d)。一分段式音調輪廓量化方法之實例顯示於圖1〇。分段式音調輪廓可為線性或非線性輪廓區段。對分段式音調輪廓而言，祇有輪廓上有突出改變之點傳送至解碼器。由此，音調參數所須之更新率顯著地降低。原則上，分段式線性輪廓之構成方式是，當維持’’實際音調輪廓，，之偏差小於一指定之範圍’導數變換可最小化。一構成分段式線性音調輪廓之簡單但有效之優化技術可藉一次處理一線性區段而獲得。此簡述於下：對於每個線性區段，最長線（其維持足夠低之實際輪廓偏差）之搜尋不須知悉使用線性區段範圍外之輪廓。在優化技術中，有兩個情況應予考慮：第一線性區段及其他 27 1281657 之線性區段。第：線性區段之情況發生於編碼過程開始的時候。此傳、音是為非活動或無聲語音而傳送，則於Μ t 段應歸屬此類別。上述兩種情形，線之兩個端點皆可被優化。其餘之情關歸屬第二類型，里中線之起點是已固定的，祇有終點可被優化。八第一線性區段之情況下，處理過程是由選擇首先兩個音調值作為目前為止所尋獲最佳端點。然後，開始反覆斟酌那個線之端點是接近第—與第三音調值。線之候選起 ^點是所有足夠接近第一個原始音調值之量化音調值，使得要求精確度之標準可被滿足。同樣地，線之候選終點是所有足夠接近第三個原始音調值之量化音調值。當所有之候選點已尋獲，所有可能之起始點與終點之組合將被測忒·線性表不之精確度被測量於每個原始語音位置，且線可被接文為分段式線性輪廓之一部分，若精確度之標準可被滿足於所有這些位置。此外，若目前線與原始音調輪廓之偏差小於與其他接受於反覆步驟之任何線之偏差，則目前線被視為截至目前為止之最佳選擇。若至少有一測試線被接受’反覆程序將持續於為區段再取得一個音調值之後。若無一替代可被接受，則優化程序終止，且優化過程中尋獲之最佳端點將選作為分段式線性音調輪廓之點。在其他線性區段之情況下，祇有終點位置可被優化。該過程啟始於選擇第一音調值於固定起始點後作為目前為止最佳終點。然後，開始反覆程序以再獲取一個列入考 28 1281657 慮之音調值。線之候選終點是足夠接近該位置原始音調值之量化音調值，使得要求精確度之標準可被滿足。在該等候選點尋獲後，所有皆須測試作為終點。線性表示之精確度被測量於每個原始語音位置，且候選線可被接受為分段式線性輪廓之一部分，若精確度之標準可被滿足於所有這二位置此外，若與原始音調輪廓之偏差小於與其他接^ 於反覆步驟之任何線之偏差，則候選終點被視為截至目前為止之最佳選擇終點。若至少有一測試線被接受，反覆程序將持續於為區段再取得一個音調值之後。若無一替代可被接受，則優化程序終止，且優化過程中尋獲之最佳終點將選作為分段式線性音調輪廓之點。以上詳述之兩的個情況中，反覆程序可基於兩個理由而提早結束。第一，程序結束，若無更多後續值可供使用。此可發生於若使用完全預見Gookahead)，若語音編碼已結束，或若語音傳送被暫停於非活動或無聲語音中。第二，限制單一線性部分之最大長度以使點位置編碼更有效率是可能的。尋獲_新的分段式線性音調輪廓點，該點可編碼成位元流。有兩個值必須給予每一個點弋該點之音調值，以及介於輪廓新點與之前點之時間距離。當然，對於輪廓之第一個點，時間距離不須被編碼。音調值可使用純量量化器之傳統式編碼。圖Π·疋通信網路之示意圖，根據本發明，其可使用於預錄聲訊目錄及相似之應用。如圖所示，網路包括多個基地站（base stations(BS))，其連接至—轉換次站（nss)， 29 1281657 而可能再連接到其他之網路。網路尚包括多個能與基地站通信之行動站（mobile stations(MS))。行動站可以是一個行動終端機，其通常稱為完全終端機。行動站也可是一終端機用模組，不具顯示、鍵盤，電池、覆蓋等等。行動站可能有一解碼器40用以接收來自壓縮模組20(見圖4)之位元流120。壓縮模組20可位於基地站，轉換次站或其他網路中。雖然本發明已揭示於一相關之有效實施例中，專家們能瞭解前述及在形式及細節上之各種其他變更，刪減及差別可以完成而不脫離本發明之範圍。 30 1281657 【圖式簡單說明】圖1表示典型語音信號之數位傳送及儲存之方塊圖。圖2a表示語音信號波形之時間圖。圖2b表示與圖2a語音信號關連之音調之時間圖。圖2c表示與圖2a語音信號關連之發聲資訊之時間圖。圖2d表示與圖2a語音信號關連之能量之時間圖。圖3a依據本發明，表示語音信號分段（segmentation) 方法之語音信號之時間圖。圖3b表示與圖3a語音信號關連之語音信號能量之時間圖。圖3c表示與圖3a語音信號關連之語音信號發聲資訊之時間圖。圖3d依據本發明，表示語音信號區段之時間圖。圖4 依據本發明，表示語音編碼系統之方塊圖。圖5 依據本發明，表示語音編碼器之功能特徵之方塊圖。圖6 依據本發明，表示語音解碼器之功能特徵之方塊圖。圖7 依據本發明，表示調適向下取樣（adaptive downsampling)及量化計算法之流程圖。圖8a依據本發明，表示增益參數值（gain parameter) 之調適位元率之時間圖，作為來自調適向下取樣之結果。 31 1281657 圖8b表示調適向下取樣率之時間圖。圖8c表示關於真實增益值之絕對誤差之時間圖。圖8d表示量化模式之時間圖。圖9a表不為改進區段執行之參數追蹤結果之時間圖9b依據本發明實施例，表示原始執跡之時間圖。量化音調軌跡相較於圖10依據本發明，區段方法之實例。圖11依據本發明，表示能傳送壓縮機之通信網路之示意圖。【主要元件符號說明】資料至行動終端 U 編碼器 20 壓縮琴 22 軟體 24 量化器30 通信頻道或儲存媒體 40110120 510 512 513 516 518 解碼器 50 行動站輸入信號 112 參數位元流 140 合成信號讀入語音信號區段估計語音參數及形成參數信號分段 514選擇對應目標精確度構成修改信號’其代表在知之k值選擇量化模式覺上滿足之參數 520 設定i=l 522 從k至i 向下取樣 32 1281657 524 量化參數x之i值 526 從i至k向上取樣 528 變形測量（測量原始值及方塊5 18所得值兩者相關之變形） 530 精確度是否足夠？ 532 i=i+l i<極限？ 534

Claims

1281657 $ 93126447號專利申請案補充、修正後無劃線之說明^修正頁一式三份十、申請專利範圍：步驟：種具音頻特徵之音頻信號之編竭方，法，包括下述多個區段頻信號基於音頻信號之音頻特徵分段成以不同編碼設定將該等區段編碼。 2·如申請專利範圍第丨項之方法，i 括音頻信號之料區段内之發聲特徵。、μ日頻特徵包 3·如申請專利範圍第1項之方法，盆括音頻信號之該等區段内之能量特徵。w日頻特徵包 4·如申請專利範圍第2項之方法，i★ 括音頻信號之該等區段内之音調特徵。、〜日頻特徵包 5牛如巾請專利範圍帛丨項之方法，其中編碼步驟同時實行。』干又疋興該 6·如申請專利範圍第1項之方法編碼步驟之後實行。，、中刀段是於該 7·如申請專利範圍第2項之方甘由夕乂定給該等區段之音頻信號之發聲特徵:：該 34 1281657 126447就專利申諳牵補充、修正後益查丨丨綠‘月^ 定之發聲值實行 1无《劍線之說明書修正頁一式 8.如申請專利範圍帛7項括一個指定給有聲語音信號之值巾多個發聲值包音信號之值。 ’及另一個指定給無聲語 9.如申請專利範圍第7項括一個介於有聲及I聲其巾多個發聲值包 …、耸彳虎之間的轉變階段值。 W·如申請專利範圍第7項之包括一個指定仏吃立7上万法其中多個發聲值還私疋給語音信號之非活動期間之值。選擇：::Γ利範圍第1項之方法’尚包括為編碼過程 U里化Μ之步驟，其中該分段 : 模式而實行。 7 土孓k擇的篁化 1^·如中請專利範圍第^之方法，其中該分段土；曰頻信號重建之選擇目標精確度而實行。，疋、：戈如申請專利範圍第4項之方法，其中該分段步驟Q 為至少某些該區段提供線性音調表示而實行。尺、14·如申請專利範圍第丨項之方法，其中音頻信號碼成音頻信號資料，該方法還包括步騍：、’、 35 1281657 $ 93126447號專利申請案補充'修正後無劃線之說明書修正頁一式三份基於音頻化旒資料形成一具有信號資料之第一個號碼之參數信號；向下取樣參數化號至信號資料之第二個號碼以提供進一步參數信號，其中第二個號碼是小於第_個號碼；以及向上取樣進一步參數信號至信號資料之第三個號碼於碼過％，其中第三個號碼是小於第二個號碼。等於Γ7Γ專利範圍第14項之方法，其中第三個號碼寺於第一個號碼。 16·如申請專利範圍第括量化參數。 17·如申請專利範圍第括非量化參數。 14項之方法，其中信號資料包 14項之方法，*中信號資料包 =·種用以產生具音頻特徵之音頻信號之曰頻信號是於一編碼步驟中被馬态，… 數’且該編碼步驟是基於音頻传之〜貝料率之多個參供參數之調整表示法，該解=音頻特徵作調整以提 •欠一輸入端，其用以接收表示調整表一貝料；以及不法之參數之音頻一個回應音頻資料之模組，复信說之特徵產生音頻㈣。μ H表示法及音頻 36 1281657 第93126447號專利申請案補充、修正後無劃線之說明‘修正頁一式三份 19·如申請專利範圍是記錄於電子媒體，以電子媒體以接收音頻資及項之解碼器，其中音頻資料 :、解碼器輪入有效地被連接至科0 20.如申請專利範圍是透過通信頻道傳送，至通信頻道以接收音頻第18項之解碼器，其中音頻資料、及其中解碼器輸入有效地被連接資料。

Z1.— m用以屋生具音韻胜番.^ ^ g领特徵之音頻信號之編碼: 置，此編碼裝置包括： ^ 一輸入端’其用以接收代表特徵之音頻資料；以及數之模組基於音頻信號特徵用於調整參數以㈣要又 < 調登表示法。 22·如申請專利範圍第21項之編碼裝置，還包括一回應調整表示法之量化模組，其將參數以調整表系法編碼。 ❿ 如申請專利範圍第21項之編竭裝置’還包括一有编满錯存媒體之輸出端，其用以將表示調整表示法之、，扁馬參數之資料儲存至儲存媒體。 ★、24.如申請專利範圍第21項之編碼裳置，還包括-有效連接至通信頻道之輸出端，其用以將表示調整表示法之 37 第93126447號專利申过補充、修正後無劃線之^案書修正頁一式三份、·爲碼參數之^號提供給傳送用通信頻道。 •種電腦可讀取的記憶媒體，供盘用，該音頻編碼裝置將音頻信號編碼成：音頻特f:連一、二唬之夕個參數，該記憶媒體附載有：二定該音頻信號之特徵所用的程式碼；及調整參數Ϊ二音=號之特徵調整該等參數以提供-種已致之表不法所用的程式碼。中被編碼成資料率之;個=之日頻信號是於-編碼步驟信號之音頻特徵作調整:二：該編碼步驟是基於音頻乃正以耠供參數之調整表示法，·以及一 :頻資料二Μ收ί不調整表示法參數之音頻資料，以提供芦號/ ^碼裔’使得解碼器基於調整表示法產生音頻料被纪釺專利乾圍第％項之電子裝置，其中音頻資於電子媒體，且其中地連媒體以接收音頻資料。 28.如申請專利範圚 η 祀固第26項之電子裝置，其中音頻資料疋經由通信頻道值$ 貝、傳运，且其中輪入端被有效地連接至通 38 1281657 声93126447號專利申請案補充、修正後無劃線之說明書修正頁一式三份信頻道以接收音頻資料。 29·如申請專利範圍第26項之電子裝置，包括一行終端機。丁勒 3〇·—種通信網路，其包括：多個基地站；及多個配合基地站通信之行動站，其中至少有一行動站包括··一解^ 器，其用以產生具音頻特徵之合成音頻信號，其中之音頻信號是於一編碼步驟中被編碼成資料率之多個參數，且該編碼步驟是基於音頻信號之音頻特徵作調整以提供參數之調整表示法；以及一輸入端，其接收來自至少基地站其中之一，表示調整表示法參數之音頻資料，以提供音頻資料給解碼器，使得解碼器基於調整表示法產生音頻信號。 31.—種用於重建音頻信號之解碼器，其中音頻信號被編碼以提供表示音頻信號之參數，該參數包括含有表示音頻區#又於時間上之多個音調值之音調輪廓資料，且該音頻區段於時間上之音調輪廓資料可藉在音頻區段内之多個次區段趨近，該每個次區段由第一端點與第二端點所界定；該解碼器包括：一輸入端，其用以接收表示界定次區段之端點之音頻資料；以及一重建模組，其基於接收到的音頻資料重建音頻區段。 39

7 5 ό

OLO 寸醒