TWI389099B

TWI389099B - 用於在語音合成儀中藉由修改剩餘量之時間規整訊框之方法及處理器可讀媒體

Info

Publication number: TWI389099B
Application number: TW095108057A
Authority: TW
Inventors: Rohit Kapoor; Spindola Serafin Diaz
Original assignee: Qualcomm Inc
Priority date: 2005-03-11
Filing date: 2006-03-10
Publication date: 2013-03-11
Also published as: AU2006222963B2; CA2600713A1; JP5203923B2; KR100957265B1; MX2007011102A; IL185935A; JP2008533529A; US8155965B2; NO20075180L; RU2371784C2; RU2007137643A; KR100956623B1; BRPI0607624A2; KR20090119936A; US20060206334A1; AU2006222963A1; EP1856689A1; TW200638336A; KR20070112832A; BRPI0607624B1

Description

用於在語音合成儀中藉由修改剩餘量之時間規整訊框之方法及處理器可讀媒體

本發明大體上係關於在語音合成儀中時間規整(擴展或壓縮)語音合成儀訊框之方法。時間規整在封包交換網路中具有許多應用，語音合成儀封包在封包交換網路中可異步到達。儘管可在語音合成儀內部或在語音合成儀外部執行時間規整，但是在語音合成儀中執行時間規整具有許多優點，例如經規整訊框之更好的品質及計算負荷之減少。此文獻所展現之方法可應用於使用與此專利審請案中所提及的相似技術來語音合成聲音資料之任何語音合成儀中。

本發明包括一種藉由操縱語音訊號來時間規整語音訊框之設備及方法。在一實施例中，本方法及設備用於(但不限於)第四代語音合成儀(4GV)。所揭示之實施例包括用以擴展/壓縮不同類型的語音區段之方法及設備。

鑒於如上所述，本發明所描述之特徵大體係關於用於傳遞語音之一或多個改良之系統、方法及/或設備。

在一實施例中，本發明包括一種傳遞語音之方法，該方法包括以下步驟：將語音區段分類；使用碼激勵線性預測對語音區段編碼；及將一剩餘量語音訊號時間規整至該剩餘量語音訊號之經擴展或經壓縮版本。

在另一實施例中，傳遞語音之方法進一步包括：經由線性預測編碼濾波器發送語音訊號，藉此，濾出語音訊號中之短期相關性；及輸出線性預測編碼係數及一剩餘量訊號。

在另一實施例中，該編碼為碼激勵線性預測編碼，且時間規整步驟包括：估計音調延遲；將一語音訊框劃分為音調週期，其中音調週期之邊界係藉由使用語音訊框中不同點處之音調延遲而確定；若壓縮語音剩餘量訊號則重疊該等音調週期；及若擴展語音剩餘量訊號則添加該等音調週期。

在另一實施例中，編碼為原型音調週期編碼，且時間規整步驟包括：估計至少一個音調週期；插入該至少一個音調週期；當擴展該剩餘量語音訊號時添加該至少一個音調週期；及當壓縮該剩餘量語音訊號時減去該至少一個音調週期。

在另一實施例中，編碼為雜訊激勵線性預測編碼，且時間規整步驟包括在合成語音區段前應用可能不同的增益於其不同部分。

在另一實施例中，本發明包括：一語音合成儀，其具有至少一個輸入端及至少一個輸出端；一包含一濾波器之編碼器，其具有可操作地連接至該語音合成儀之輸入端之至少一個輸入端，及至少一個輸出端；一包含一合成器之解碼器，其具有可操作地連接至該編碼器之至少一個輸出端之至少一輸入端，及可操作地連接至該語音合成儀之至少一個輸出端之至少一個輸出端。

在另一實施例中，該編碼器包括一記憶體，其中該編碼器經調適以執行儲存於該記憶體中之指令，該等指令包括將語音區段分類為1/8訊框、原型音調週期、碼激勵線性預測或雜訊激勵線性預測。

在另一實施例中，該解碼器包括一記憶體且該解碼器經調適以執行儲存於該記憶體中之指令，該等指令包括將剩餘量訊號時間規整至該剩餘量訊號之經擴展或經壓縮版本。

本發明更廣之適用範疇將自以下[實施方式]、[申請專利範圍]及[圖式簡單說明]變得顯而易見。然而應瞭解，由於本發明精神及範疇內之多種改變及修改對於熟習此項技術者將變得顯而易見，故當指示本發明之較佳實施例時，僅藉由舉例而給出詳細描述及具體實例。

本文中所使用之詞語"例示性"意謂"作為實例、例子或說明"。本文中作為"例示性"所描述之任何實施例並不必然解釋為比其他實施例較佳或有利。

語音合成儀中使用時間規整之特徵

人類聲音由兩個組分組成。一個組分包括對音調敏感之基本波，另一組分為對音調不敏感之固定諧波。可感知之語音音調為耳朵對頻率的反應，意即，對大多數實用目的而言音調就是頻率。諧波組分為一個人的聲音添加與眾不同的特徵。其隨聲帶、聲道之實體形狀一起改變且被稱為共振峰。

人類聲音可由一數位訊號s(n)10表示。假定s(n)10為一在包含不同口聲(vocal sound)及靜音週期之典型對話中得到之數位語音訊號。語音訊號s(n)10較佳地分段成訊框20中。在一實施例中，s(n)10係以8 kHz經數位取樣。

當前編碼方案藉由移除語音中固有的所有天然冗餘(意即，相關元素)將一數位語音訊號10壓縮為一低位元率訊號。語音一般展示由嘴唇與舌頭之機械動作所導致之短期冗餘以及由聲帶之振動所導致之長期冗餘。線性預測編碼(LPC)藉由移除產生剩餘量語音訊號30之冗餘濾波語音訊號10。LPC接著將所得之剩餘量訊號30模擬為白高斯雜訊(white Gaussian noise)。語音波形之取樣值可藉由對許多過去樣本40(每一過去樣本與一線性預測係數50相乘)之總和加權而預測。因此，線性預測編碼器藉由傳輸濾波器係數50及量化雜訊而不是完整頻寬語音訊號10而達成減少之位元率。藉由自剩餘量訊號30之當前訊框20提取一原型週期100對該剩餘量訊號30編碼。

圖1中可看到本方法及設備所使用之LPC語音合成儀70之一實施例之方塊圖。LPC之功能為使在有限持續時間內在原始語音訊號與估計語音訊號之間的平方誤差總和最小。此可產生一組獨特的預測器係數50，該等預測器係數通常在每一訊框20估計。訊框20一般為20 ms長。時間改變數位濾波器75之轉移函數由下式給出：其中，預測器係數50由a_k 表示且增益由G表示。

自k＝1至k＝p計算出總和。若使用LPC－10方法，則p＝10。此意味著只有前10個係數50可傳輸到LPC合成器80。用以計算該等係數之兩種最通用的方法是(但並不限於)協方差方法及自相關方法。

通常不同講話者使用不同語速講話。一種減少個別講話者語速變化效果之方法為壓縮時間。兩種語音模式之間的時間差別可藉由規整一語音模式之時間軸使得其可與另一語音模式得到最大程度之一致而減少。該時間壓縮技術稱為時間規整。此外，時間規整無需改變聲音訊號之音調就可壓縮或擴展該等聲音訊號。

典型語音合成儀產生持續時間為20 msec之訊框20，該訊框20包含較佳在8 kHz速率下之160個樣本90。該訊框20之經時間規整壓縮版本具有小於20 msec之持續時間，而經時間規整擴展版本具有大於20 msec之持續時間。當經由封包交換網路發送聲音資料時，聲音資料之時間規整具有顯著之有利條件，該封包交換網路在聲音封包之傳輸中引入延遲抖動。在該等網路中，時間規整可用於減輕該延遲抖動之效果且產生"同步"樣子的聲音流。

本發明之實施例係關於一種在語音合成儀70中藉由操縱語音剩餘量30之時間規整訊框20之設備及方法。在一實施例中，本方法及設備用於4GV。所揭示之實施例包括擴展/壓縮不同類型之4GV語音區段110之方法、設備或系統，其中該4GV語音區段110係使用原型音調週期(PPP)、碼激勵線性預測(CELP)或雜訊激勵線性預測(NELP)編碼而經編碼。

術語"語音合成儀"70一般係指藉由基於人類語音產生之模型提取參數而壓縮有聲語音之裝置。語音合成儀70包含一編碼器204及一解碼器206。該編碼器204分析傳入之語音並提取相關參數。在一實施例中，編碼器包括一濾波器75。解碼器206使用具經由一傳輸通道208自編碼器204接收之參數合成語音。在一實施例中，解碼器包括一合成器80。通常將該語音訊號10劃分為由語音合成儀70處理之資料及區塊之訊框20。

熟習此項技術者將認為人類語音可以許多不同方式進行分類。三種習知之語音分類為有聲語音、無聲語音及瞬時語音。圖2A為一有聲語音訊號s(n)402。圖2A展示一稱為音調週期100之有聲語音之可量測共同特性。

圖2B為一無聲語音訊號s(n)404。無聲語音訊號404類似於有色雜訊。

圖2C描繪一瞬時語音訊號s(n)406(意即，既不是有聲語音也不是無聲語音)。圖2C所示之瞬時語音406之實例可表示為在無聲語音與有聲語音之間轉換之s(n)。該等三個分類並未完全包括所有分類。存在許多不同的語音分類，可根據本文中所描述方法使用該等分類以達成相似結果。

4GV語音合成儀使用四種不同的訊框類型

本發明之一實施例中所使用之第四代語音合成儀(4GV)70為在無線網路上使用提供有吸引力之特徵。該等特徵中之一些包含權衡品質與位元率之對比之能力、面對不斷增加之封包錯誤率(PER)之更有彈性之語音合成、較好地擦除隱藏性，等等。4GV語音合成儀70可使用四種不同編碼器204及解碼器206中之任意一種。不同編碼器204及解碼器206根據不同編碼方案操作。一些編碼器204在展示特定特性之語音訊號s(n)10之編碼部分中更加有效。因此，在一實施例中，編碼器204及解碼器206之模式可基於當前訊框20之分類而選擇。

4GV編碼器204將聲音資料之每一訊框編碼為四種不同訊框20類型之一種：原型音調週期波形插入(Prototype Pitch Period Waveform Interpolation)(PPPWI)、碼激勵線性預測(CELP)、雜訊激勵線性預測(NELP)或靜音1/8^th 速率訊框。CELP用於對具有弱週期性之語音及涉及自一語音區段110至另一週期區段變化之語音進行編碼。因此，一般選擇CELP模式來編碼分類為瞬時語音之訊框。因為該等區段110不會僅自一原型音調週期精確重建，所以CELP用於編碼完全語音區段110之特徵。CELP模式藉由線性預測剩餘量訊號30之量化版本激勵一線性預測聲道模型。本文中所描述之所有的編碼器204及解碼器206中，CELP通常產生更精確之語音再製，但需要更高之位元率。

原型音調週期(PPP)模式可經選擇以對分類為有聲語音之訊框20編碼。有聲語音含有由PPP模式利用之隨時間緩慢變化之週期組分。PPP模式為每一訊框20內之音調週期子集編碼。語音訊號10之剩餘週期100藉由插入於該等原型週期100之間而重建。藉由利用有聲語音之週期性，PPP能夠達成一較之CELP而言更低的位元率，且仍以可感知之精確方式再製語音訊號10。

PPPWI用於編碼實質上是週期性語音資料之語音資料。該語音之特徵由相似於"原型"音調週期(PPP)之不同音調週期100表示。該PPP是編碼器204需要用於編碼之唯一聲音資訊。解碼器可使用該PPP在語音區段110中重建其他音調週期100。

"雜訊激勵線性預測"(NELP)編碼器204可經選擇以為分類為無聲語音之訊框20編碼。以訊號再製而言，NELP編碼可有效地操作，其中語音訊號110幾乎不具有音調結構。更特定而言，NELP用於編碼特徵為類雜訊之語音(如無聲語音或背景雜訊)。NELP使用一經濾波的偽隨機雜訊訊號模擬無聲語音。該語音區段110之類雜訊特徵可藉由在解碼器206中產生隨機訊號及將適當之增益應用於該等隨機訊號而重建。NELP將最簡單的模型用於經編碼語音，因此可達成較低之位元率。

1/8^th 速率訊框用於為靜音(例如，使用者並未談話之週期)編碼。

上述所有四種語音合成方案共用如圖3所示之初始LPC濾波程序。將語音特徵化為四個種類之一者後，語音訊號10經由線性預測編碼(LPC)濾波器75發送，該線性預測編碼(LPC)濾波器75使用線性預測濾出語音中之短期相關性。該區塊之輸出是LPC係數50及"剩餘量"訊號30，該"剩餘量"訊號基本上是移除短期相關性後之原始語音訊號10。接著使用特定方法為該剩餘量訊號30編碼，該特定方法是由經選擇用於訊框20之語音合成方法所使用的。

圖4A-4B展示原始語音訊號10及經過LPC合成器80後之剩餘量訊號30之一實例。可見，剩餘量訊號30比原始語音10更清楚地展示音調週期100。因此更合乎道理的是，較之原始語音訊號10(其亦含有短期相關性)，剩餘量訊號30可用於更精確地確定語音訊號之音調週期100。

剩餘量時間規整

如上所述，時間規整可用於擴展或壓縮語音訊號10。儘管許多方法可用於達成此目的，但是大多數方法係基於自訊號10添加或刪除音調週期100而達成此目的。音調週期100之添加或減去可於接收剩餘量訊號30後且合成該訊號30之前在解碼器206中進行。對於使用CELP或PPP(不是NELP)編碼之語音資料，訊號包含許多音調週期100。因此，自該語音訊號10添加或刪除之最小之單元為一音調週期100，因為任何小於音調週期100之單元將導致相位不連繼，從而導致引入顯著的語音人工製品。因此，時間規整方法中應用於CELP或PPP語音之一步驟係對音調週期100之估計。該音調週期100對於用於CELP/PPP語音訊框20之解碼器206而言為已知的。若同時使用PPP及CELP兩者，音調資訊由編碼器204使用自相關方法計算且傳輸至解碼器206。因此，解碼器206具有音調週期100之準確知識。此使得更易於在解碼器206中應用本發明之時間規整方法。

此外，如上所述，在合成訊號10之前時間規整訊號10會更簡單。若解碼訊號10後應用該等時間規整方法，則將需要估計訊號10之音調週期100。此不僅需要額外之計算，而且音調週期100之估計可能不會非常準確，因為剩餘量訊號30亦含有LPC資訊170。

另一方面，若額外之音調週期100之估計不是太複雜，則解碼後進行時間規整不需要改變至解碼器206且可因此對所有的語音合成儀70僅實施一次。

在使用LPC編碼合成來合成訊號之前於解碼器206中進行時間規整之另一原因為壓縮/擴展可應用於剩餘量訊號30。此允許線性預測編碼(LPC)合成應用於經時間規整剩餘量訊號30。LPC係數50在語音如何發音中起一定作用，且在規整後應用合成可確保在訊號10中維持正確的LPC資訊170。

另一方面，若對剩餘量訊號30解碼後進行時間規整，則LPC合成已在時間規整之前執行。因此，該規整程序可改變訊號10之LPC資訊170(尤其在解碼後音調週期100預測不是非常準確之情況下)。在一實施例中，在本申請案中所揭示之時間規整方法所執行之步驟係以位於記憶體82中之軟體或韌體81中之指令的形式儲存。圖1展示記憶體位於解碼器206內部。記憶體82亦可位於解碼器206外部。

編碼器204(例如在4GV中之編碼器)可根據訊框20表示有聲語音、無聲語音還是瞬時語音而將語音訊框20分類為PPP(週期的)、CELP(微週期的)或NELP(雜訊的)。使用關於語音訊框20類型之資訊，解碼器206可使用不同方法時間規整不同訊框20類型。舉例而言，NELP語音訊框20沒有音調週期之概念且其剩餘量訊號30使用"隨機"資訊產生於解碼器206中。因此，CELP/PPP之音調週期100之估計不應用於NELP，一般情況下，以不足一音調週期100之情況規整(擴展/壓縮)NELP訊框20。若在解碼器206中對剩餘量訊號30解碼後執行時間規整，則該資訊不可用。一般情況下，解碼後之類NELP訊框20之時間規整可導致語音人工製品。另一方面，解碼器206中NELP訊框20之規整產生更好之品質。

因此，在解碼器206中(意即，在剩餘量訊號30合成之前)進行時間規整而不是在解碼器後(意即，在剩餘量訊號30合成之後)進行時間規整有兩個優點：(i)計算開銷減少(例如，避免搜尋音調週期100)；及(ii)改良的規整品質，其係歸因於a)訊框20類型之知識，b)對經規整訊號執行LPC合成，及c)音調週期之更準確之估計/知識。

剩餘量時間規整方法

下文描述本方法及設備在PPP、CELP及NELP解碼器中時間規整語音剩餘量30的實施例。在每一解碼器206中執行下述兩個步驟：(i)時間規整剩餘量訊號30至其經擴展或經壓縮版本；及(ii)經由LPC合成器80發送經時間規整之剩餘量30。此外，對於PPP、CELP及NELP語音區段110而言可不同地執行步驟(i)。以下將描述該等實施例。

當語音區段110為PPP時剩餘量訊號之時間規整：

如上所述，當語音區段110為PPP時，可自訊號添加或刪除之最小單元為音調週期100。在對訊號10自原型音調週期100解碼(及重建剩餘量30)之前，解碼器206將訊號10自先前原型音調週期100(經儲存)插入至當前訊框20中之原型音調週期100，並在該過程中添加缺少的音調週期100。該處理如圖5所描繪。該插入導致其自身藉由產生更少或更多的插入音調週期100而更易於進行時間規整。此將產生經壓縮或經擴展剩餘量訊號30，該等剩餘量訊號接著經由LPC合成而發送。

當語音區段110為CELP時剩餘量訊號之時間規整： 如前所述，當語音區段110為PPP時，可自訊號添加或刪除之最小單元為音調週期100。另一方面，在CELP的情況下，規整不如針對PPP情況直接。為規整剩餘量30，解碼器206使用含於編碼訊框20中之音調延遲180資訊。該音調延遲180實際上是在訊框20末端處之音調延遲180。此處應注意，即使在週期訊框20中，音調延遲180亦可能有少許改變。訊框中任一點處之音調延遲180可藉由在前一訊框20之末端之音調延遲180與當前訊框20末端之音調延遲180之間插入而估計。此如圖6所示。一旦訊框20中所有點處之音調延遲180已知，便可將訊框20劃分成音調週期100。音調週期100之邊界由訊框20中各個點處之音調延遲180確定。

圖6A展示如何將訊框20劃分成其音調週期100之一實例。舉例而言，樣本號70具有等於約70之音調延遲180且樣本號142具有約72之音調延遲180。因此，如圖6B所示，音調週期100來自於樣本號[1－70]及樣本號[71－142]。

一旦將訊框20劃分為音調週期100，則該等音調週期100接著可經重疊添加以增加/減少剩餘量30之大小。如圖7B至7F所示。在重疊及添加合成時，藉由自輸入訊號10激勵區段110、沿時間軸重新配置該等區段及執行加權重疊添加來構造合成訊號150，來得到經修改訊號。在一實施例中，區段110可與音調週期100相等。該重疊添加法藉由"合併"語音區段110來用一個語音區段110替代兩個不同的語音區段110。以保存盡可能多的語音品質的方式合併語音。保存語音品質及使人工製品最少地引入語音可藉由小心選擇用以合併之區段110完成。(人工製品是一些不想要的內容，如滴答聲、爆炸聲等等)。語音區段110之選擇係基於區段之"相似性"。當兩個語音區段110經重疊以減少/增加語音剩餘量30之大小時，語音區段110越相似所得語音品質越好且語音人工製品的引入可能性越低。確定音調週期是否應重疊添加之一有用規則係兩個音調週期之音調延遲是否相似(舉例而言，若音調延遲差別少於15個樣本，即對應於約1.8 msec)。

圖7C展示重疊添加如何用於壓縮剩餘量30。重疊/添加法之第一步為將輸入樣本序列s[n]10如上所闡釋分段為音調週期。在圖7A中，展示原始語音訊號10包含四個音調週期100(PP)。下一步包含移除展示於圖7A中之訊號10之音調過期100且用一經合併的音調週期100替代該等音調週期100。例如，圖7C中，PP2及PP3經移除且以一個音調週期100(其中PP2及PP3經重疊添加)替代。更具體而言，在圖7C中，音調週期100 PP2及PP3經重疊添加以使得第二個音調週期100(PP2)之貢獻減少而PP3之貢獻增加。該添加重疊法自兩個不同的語音區段110產生一個語音區段110。在一實施例中，使用加權樣本執行添加重疊。此在如圖8所示之等式a)及b)說明。加權用於在區段(110)之第一PCM(脈衝編碼調節)樣本與區段2(110)之最後PCM樣本之間提供一平滑轉換。

圖7D為經重疊添加之PP2及PP3之另一圖示說明。當較之簡單移除一個區段110且與剩餘鄰近之區段110毗鄰時(如圖7E所示)，交叉衰落(cross fade)改良由該方法壓縮之訊號10時間之感知品質。

若當音調週期100改變時，重疊添加法可將具有不同長度的兩個音調週期110合併。在該情況下，在重疊添加兩個音調週期100之前，藉由對齊他們的波峰可達成較好之合併。接著，經擴展/經壓縮之剩餘量經由LPC合成而發送。

語音擴展

擴展語音之一簡單方法係多次重複相同的PCM樣本。然而，不止一次地重複相同PCM樣本可產生具有單調性音調之區域，該單調性音調為易於由人類所偵測出(例如，語音聽起來有點"機器聲")之人工製品。為保護語音品質，可使用添加重疊法。

圖7B展示如何使用本發明之重疊添加法擴展語音訊號10。在圖7B中，添加一自音調週期100 PP1及PP2產生的額外音調週期100。在該額外音調週期100中，音調週期100 PP2及PP1經重疊添加以使得第二音調(PP2)週期100之貢獻減少而PP1之貢獻增加。圖7F為經重疊添加之PP2及PP3之另一圖示說明。

當語音區段為NELP時剩餘量訊號之時間規整： 對於NELP語音區段，編碼器對LPC資訊及語音區段110之不同部分之增益編碼。因為語音本質上非常類似於雜訊，所以沒必要對任何其他資訊編碼。在一實施例中，該增益係以16個PCM樣本為一套而經編碼。因此，舉例而言，具有160個樣本之訊框可由10個經編碼增益值表示，其中，每一編碼增益值表示語音之每16個樣本。解碼器206藉由產生隨機值且接著將個別增益應用於該等隨機值而產生剩餘量訊號30。在該情況下，可能不會存在音調週期100之概念，因此擴展/壓縮不必具有音調週期100之粒度。

為擴展或壓縮一NELP區段，解碼器206產生多於或少於160之區段(110)數目，此取決於區段110是被擴展還是被壓縮。接著將10個經解碼增益應用於該等樣本以產生經擴展或經壓縮之剩餘量30。因為該等10個經解碼增益對應於原始的160個樣本，所以其並不直接應用於擴展/壓縮樣本。多種方法可用於應用該等增益。下文描述其中一些方法。

若待產生之樣本數目小於160，則不必應用所有10個增益。舉例而言，若樣本數目為144，則可應用前9個增益。在該實例中，第一個增益應用於前16個樣本(樣本1－16)，第二個增益應用於接著的16個樣本(樣本17－32)，等等。同樣地，若樣本多於160個，則可不止一次地應用第10個增益。舉例而言，若樣本數目為192，則第10個增益可應用於樣本145－160、161－176及177－192。

或者，可將樣本劃分成相等數目之10組，每一組都具有相等數目之樣本，且10個增益可應用於該等10組樣本。舉例而言，若樣本之數目為140個，則10個增益可應用於一組有14個樣本之組中。在該實例中，第一個增益應用於前14個樣本(樣本1－14)，第二個增益應用於接著的14個樣本(樣本15－28)，等等。

若樣本之數目不能恰好被10整除，則第10個增益可應用於被10除後所得到的餘數樣本。舉例而言，若樣本之數目為145時，10個增益可應用於每組有14個樣本組中。另外，第10個增益應用於樣本141－145。

時間規整後，該經擴展/經壓縮之剩餘量30在使用任何上述編碼方法時經由LPC合成而發送。

熟習此項技術者應瞭解，可使用各種不同技術及方法中之任一種表示資訊及訊號。舉例而言，貫穿於上文所參考之資料、指令、命令、資訊、訊號、位元、符號及碼片可由電壓、電流、電磁波、磁場或磁性粒子、光場或光學粒子或其任何組合表示。

此外，熟習此項技術者將進一步瞭解，結合本文中所揭示之實施例所述之多種說明性邏輯區塊、模組、電路及演算法步驟可實施為電子硬體、電腦軟體或兩者之組合。為清楚地說明硬體與軟體之可互換性，多種說明性組件、區塊、模組、電路及步驟已大體根據其功能性在上文中加以描述。該功能性實施為硬體還是實施為軟體取決於施加於整個系統的特殊應用及設計約束條件。熟練之技工可針對每一種特殊之應用以不同方式實施所述功能性，但是該等實施確定不應解釋為導致偏離本發明之範圍之原因。

結合本文中所揭示之實施例所述之多種說明性邏輯區塊、模組及電路可藉由經設計來執行本文所描述之功能之以下組件來實施或執行：通用處理器、數位訊號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式閘陣列(EPGA)或其他可程式邏輯裝置、離散閘或電晶體邏輯、離散硬體組件或其任何組合。通用處理器可為微處理器，但或者，該處理器可為任一習知處理器、控制器、微控制器或狀態機。處理器亦可實施為計算裝置之組合，例如，DSP與微處理器之組合、複數個微處理器，與DSP核心結合之一或多個微處理器或任何其他該組態。

結合本文中所揭示之實施例所述之方法或演算法之步驟可直接體現於硬體、由處理器執行之軟體模組或該兩者之組合中。軟體模組可存在於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、電子可程式ROM(EPROM)、電子可擦可程式ROM(EEPROM)、暫存器、硬碟、抽取式磁碟、緊密光碟－唯讀記憶體(CD－ROM)或此項技術中已知之任何其他形式的儲存媒體中。說明性儲存媒體耦接至處理器，使得該處理器可自該儲存媒體讀取資訊並將資訊寫入儲存媒體。或者，儲存媒體可併入處理器。處理器及儲存媒體可存在於一ASIC中。該ASIC可存在於一使用者終端機中。或者，處理器及儲存媒體可作為離散組件存在於使用者終端機中。提供所揭示之實施例之前述描述以使任何熟習此項技術者製造或使用本發明。對於熟習此項技術者而言對該實施例之各種修改將顯而易見，且本文中所定義之一般原則在不偏離本發明之精神或範疇的情況下可應用於其他實施例。因此，並不希望本發明限於本文中所展示之實施例，而應符合與本文中所揭示之原則及新穎特徵一致之最廣範疇。

10．．．數位訊號

20．．．編碼訊框

30．．．剩餘量語音訊號

50．．．線性預測係數

70．．．語音合成儀

75．．．數位濾波器

80．．．合成器

81．．．軟體或韌體

82．．．記憶體

100．．．音調週期

150．．．合成訊號

180．．．音調延遲

204．．．編碼器

206．．．解碼器

208．．．傳輸通道

402．．．有聲語音訊號

404．．．無聲語音訊號

406．．．瞬時語音訊號

圖1為線性預測編碼(LPC)語音合成儀之方塊圖；圖2A為含有有聲語音之語音訊號；圖2B為含有無聲語音之語音訊號；圖2C為含有瞬時語音之語音訊號；圖3為說明對語音進行LPC濾波後對剩餘量進行編碼之方塊圖；圖4A為原始語音曲線圖；圖4B為LPC濾波後剩餘量語音訊號曲線圖；圖5說明在先前原型音調週期與當前原型音調週期之間使用插入之波形產生；圖6A描繪經由插入確定音調延遲；圖6B描繪識別音調週期；圖7A以音調週期形式表示原始語音訊號；圖7B表示使用重疊添加而擴展之語音訊號；圖7C表示使用重疊添加而壓縮之語音訊號；圖7D表示如何使用加權壓縮剩餘量訊號；圖7E表示不使用重疊添加而壓縮之語音訊號；圖7F表示如何使用加權擴展剩餘量訊號；及圖8含有用於添加重疊法中之兩個等式。

Claims

一種傳遞語音之方法，其包括：接收一剩餘量語音訊號，其中該剩餘量語音訊號係基於使用原型音調週期(PPP)、碼激勵線性預測(CELP)、雜訊激勵線性預測(NELP)或1/8訊框編碼而被編碼之語音區段；藉由添加或減去一剩餘量語音區段之至少一樣本而時間規整該剩餘量語音訊號中之該剩餘量語音區段，其中複數個不同時間規整方法中之一者係基於該語音區段是否使用原型音調週期、碼激勵線性預測、雜訊激勵線性預測或1/8訊框編碼來編碼而被選擇，其中若該語音區段係使用CELP而被編碼，則該時間規整方法包含：估計該剩餘量語音訊號中之音調延遲；將該剩餘量語音訊號劃分為音調週期，其中該等音調週期之邊界係藉由使用該剩餘量語音訊號中不同點處之音調延遲而確定；若該剩餘量語音訊號減少，則重疊該等音調週期；及若該剩餘量語音訊號增加，則添加該等音調週期；及基於經時間規整之該剩餘量語音訊號產生一經合成之語音訊號。
如請求項1之傳遞語音之方法，其進一步包括以下步驟：分類語音訊框；編碼該等訊框，包含：經由一線性預測編碼濾波器發送該語音訊號，藉此濾出該語音訊號中之短期相關性；及輸出線性預測編碼係數及該剩餘量語音訊號。
如請求項2之傳遞語音之方法，其中該分類語音訊框之步驟包括視該等訊框表示有聲語音、無聲語音還是瞬時語音而將語音訊框分類為週期性語音訊框、微週期性語音訊框或雜訊語音訊框。
如請求項1之方法，其中該時間規整步驟包括以下步驟：插入至少一個音調週期；及其中該添加或減去包含：當擴展該剩餘量語音訊號時添加該至少一個音調週期；及當壓縮該剩餘量語音訊號時減去該至少一個音調週期。
如請求項2之方法，其中若該編碼使用雜訊激勵線性預測編碼，則該編碼步驟進一步包括將線性預測編碼資訊編碼為一語音區段之不同部分之增益。
如請求項1之方法，其中若該剩餘量語音訊號減少則重疊該等音調週期之該步驟包括：分段一輸入樣本序列為樣本區塊；以規則時間間隔移除該剩餘量語音訊號之區段；合併該等經移除區段；及用一合併區段替代該等經移除區段。
如請求項1之方法，其中該估計音調延遲步驟包括在一前一訊框之一末端之一音調延遲與一當前訊框之一末端之一音調延遲之間插入。
如請求項1之方法，其中該添加該等音調週期步驟包括合併語音區段。
如請求項1之方法，其中若該剩餘量語音訊號增加則添加該等音調週期之該步驟包括添加一自一第一音調區段及一第二音調週期區段產生之額外音調週期。
如請求項5之方法，其中該等增益經編碼用於多組語音樣本。
如請求項6之方法，其中該合併該等經移除區段步驟包括增加一第一音調週期區段之貢獻且減少一第二音調週期區段之貢獻。
如請求項8之方法，其進一步包括選擇相似語音區段之步驟，其中該等相似語音區段被合併。
如請求項8之方法，其進一步包括使語音區段相關之步驟，藉此相似語音區段得以選擇。
如請求項9之方法，其中該添加一自一第一音調區段及一第二音調週期區段產生之額外音調週期之步驟包括添加該第一及該第二音調區段使得該第一音調週期區段之貢獻增加且該第二音調週期區段之貢獻減少。
如請求項10之方法，其進一步包括藉由產生隨機值及接著將該等增益應用於該等隨機值而產生一剩餘量訊號之步驟。
如請求項10之方法，其進一步包括將該線性預測編碼資訊表示為10個經編碼增益值之步驟，其中每一經編碼增益值表示16個語音樣本。
一種具有至少一個輸入端及至少一個輸出端之語音合成儀，其包括：接收一剩餘量語音訊號之一解碼器，其中該剩餘量語音訊號係基於使用原型音調週期(PPP)、碼激勵線性預測(CELP)、雜訊激勵線性預測(NELP)或1/8訊框編碼而被編碼之語音區段；及其中該解碼器包含一合成器，該合成器具有可操作地連接至該編碼器之該至少一個輸出端之至少一個輸入端，及可操作地連接至該語音合成儀之該至少一個輸出端之至少一輸出端，及一記憶體，其中該解碼器經調適以執行儲存於該記憶體中之軟體指令，該等軟體指令包括藉由添加或減去一剩餘量語音區段之至少一樣本而時間規整該剩餘量語音訊號中之該剩餘量語音區段，其中複數個不同時間規整方法中之一者係基於該語音區段是否使用原型音調週期、碼激勵線性預測、雜訊激勵線性預測或1/8訊框編碼來編碼而被選擇，其中若該語音區段係使用CELP而被編碼，則該時間規整方法包含：估計該剩餘量語音訊號中之音調延遲；將該剩餘量語音訊號劃分為音調週期，其中該等音調週期之邊界係藉由使用該剩餘量語音訊號中不同點處之音調延遲而確定；若該剩餘量語音訊號減少，則重疊該等音調週期；及若該剩餘量語音訊號增加，則添加該等音調週期。
如請求項17之語音合成儀，其進一步包含：包含一濾波器之一編碼器，該濾波器具有可操作地連接至該語音合成儀之該輸入端之至少一個輸入端，及至少一個輸出端，該濾波器為一線性預測編碼濾波器，該濾波器經調適以：濾出一語音訊號中之短期相關性；及輸出線性預測編碼係數及該剩餘量語音訊號。
如請求項18之語音合成儀，其中該編碼器包括：一記憶體且該編碼器經調適以執行儲存於該記憶體中之軟體指令，該等軟體指令包括使用碼激勵線性預測編碼對該等語音區段編碼。
如請求項18之語音合成儀，其中該編碼器包括：一記憶體且該編碼器經調適以執行儲存於該記憶體中之軟體指令，該等軟體指令包括使用雜訊激勵線性預測編碼對該等語音區段編碼。
如請求項17之語音合成儀，其中該時間規整軟體指令包括：插入至少一個音調週期；及其中該添加或減去包含：當擴展該剩餘量語音訊號時添加該至少一個音調週期；及當壓縮該剩餘量語音訊號時減去該至少一個音調週期。
如請求項20之語音合成儀，其中使用雜訊激勵線性預測編碼軟體指令對該等語音區段進行之該編碼包括：將線性預測編碼資訊編碼為一語音區段之不同部分之增益。
如請求項17之語音合成儀，其中若該剩餘量語音訊號減少則重疊該音調週期之該指令包括：將一輸入樣本序列分段為樣本區塊；以規則時間間隔移除該剩餘量語音訊號之區段；合併該等經移除區段；及用一合併區段替代該等經移除區段。
如請求項17之語音合成儀，其中該估計音調延遲指令包括在一前一訊框之一末端之一音調延遲與一當前訊框之一末端之一音調延遲之間插入。
如請求項17之語音合成儀，其中該添加該等音調週期指令包括合併語音區段。
如請求項17之語音合成儀，其中若該剩餘量語音訊號增加則添加該等音調週期之該指令包括添加一自一第一音調區段及一第二音調週期區段產生之額外音調週期。
如請求項22之語音合成儀，其中該等增益經編碼用於多組語音區段。
如請求項23之語音合成儀，其中該合併該等經移除區段之指令包括增加一第一音調週期區段之貢獻且減少一第二音調週期區段之貢獻。
如請求項25之語音合成儀，其進一步包括選擇相似語音區段之步驟，其中該等相似語音區段被合併。
如請求項25之語音合成儀，其中該時間規整指令進一步包括使語音區段相關，藉此選擇相似語音區段。
如請求項26之語音合成儀，其中該添加一自一第一音調區段及一第二音調週期區段產生之額外音調週期之指令包括添加該第一及該第二音調區段使得該第一音調週期區段之貢獻增加且該第二音調週期區段之貢獻減少。
如請求項27之語音合成儀，其中該時間規整指令進一步包括藉由產生隨機值且接著將該等增益應用於該等隨機值而產生一剩餘量語音訊號。
如請求項27之語音合成儀，其中該時間規整指令進一步包括將該線性預測編碼資訊表示為10個經編碼增益值，其中每一經編碼增益值表示16個語音樣本。
一種語音合成儀，其包括：用於接收一剩餘量語音訊號之構件，其中該剩餘量語音訊號係基於使用原型音調週期(PPP)、碼激勵線性預測(CELP)、雜訊激勵線性預測(NELP)或1/8訊框編碼而被編碼之語音區段以產生一剩餘量訊號；用於藉由添加或減去一剩餘量語音區段之至少一樣本而時間規整該剩餘量語音訊號中之該剩餘量語音區段之構件，其中複數個不同時間規整方法中之一者係基於該語音區段是否使用原型音調週期、碼激勵線性預測、雜訊激勵線性預測或1/8訊框編碼來編碼而被選擇，其中若該語音區段係使用CELP而被編碼，則該時間規整方法包含：估計該剩餘量語音訊號中之音調延遲；將該剩餘量語音訊號劃分為音調週期，其中該等音調週期之邊界係藉由使用該剩餘量語音訊號中不同點處之音調延遲而確定；若該剩餘量語音訊號減少，則重疊該等音調週期；及若該剩餘量語音訊號增加，則添加該等音調週期；及用於基於經時間規整之該剩餘量語音訊號產生一經合成之語音訊號之構件。
一種用於傳遞語音之處理器可讀媒體，其包含多個指令以用於：接收一剩餘量語音訊號，其中該剩餘量語音訊號係基於使用原型音調週期(PPP)、碼激勵線性預測(CELP)、雜訊激勵線性預測(NELP)或1/8訊框編碼而被編碼之語音區段以產生一剩餘量訊號；藉由添加或減去一剩餘量語音區段之至少一樣本而時間規整該剩餘量語音訊號中之該剩餘量語音區段，其中複數個不同時間規整方法中之一者係基於該語音區段是否使用原型音調週期、碼激勵線性預測、雜訊激勵線性預測或1/8訊框編碼來編碼而被選擇，其中若該語音區段係使用CELP而被編碼，則該時間規整方法包含：估計該剩餘量語音訊號中之音調延遲；將該剩餘量語音訊號劃分為音調週期，其中該等音調週期之邊界係藉由使用該剩餘量語音訊號中不同點處之音調延遲而確定；若該剩餘量語音訊號減少，則重疊該等音調週期；及若該剩餘量語音訊號增加，則添加該等音調週期；及基於經時間規整之該剩餘量語音訊號產生一經合成之語音訊號。