TWI393122B

TWI393122B - 在自動語言合成中相位匹配訊框之方法及裝置

Info

Publication number: TWI393122B
Application number: TW095108247A
Authority: TW
Inventors: Rohit Kapoor; Serafin Diaz Spindola
Original assignee: Qualcomm Inc
Priority date: 2005-03-11
Filing date: 2006-03-10
Publication date: 2013-04-11
Also published as: US20060206318A1; KR20070112841A; WO2006099534A1; EP1864280A1; US8355907B2; JP5019479B2; TW200703235A; JP2008533530A; KR100956526B1

Description

在自動語言合成中相位匹配訊框之方法及裝置

本發明大體而言係關於一種校正誘發於聲音解碼器中之假像的方法。在封包交換系統中，去顫動緩衝器用於儲存訊框且隨後依次傳遞該等訊框。去顫動緩衝器之方法有時可插入位於連續順序號碼之兩個訊框之間的抹除部分。在一些情況下此可導致抹除部分被插入兩個連續訊框之間，而在其他一些情況下有些訊框被跳越，從而導致編碼器及解碼器的相位不同步。因此，假像可能被引入解碼器輸出訊號中。

本發明包含一種當在解碼一或多個抹除部分之後解碼訊框時防止或最小化解碼語音中之假像的裝置及方法。

由上文看來，本發明之所描述之特徵大體而言係關於用於傳遞語音之一或多個改良系統、方法及/或裝置。

在一實施例中，本發明包含一種將語音中之假像最小化的方法，該方法包含相位匹配訊框之步驟。

在另一實施例中，相位匹配訊框之步驟包含改變該訊框之語音樣本之數目以匹配編碼器及解碼器之相位。

在另一實施例中，若相位匹配步驟減少了訊框之語音樣本數目，則本發明包含時間翹曲訊框之步驟以增加語音樣本數目。

在另一實施例中，語音是用編碼激發線性預測編碼來編碼，且時間翹曲步驟包含估計音調延遲、將一語音訊框分成音調週期，其中該等音調週期之邊界使用該語音訊框中之各點處的音調延遲來判定，且若語音剩餘訊號將擴大則使用重疊添加技術來添加音調週期。

在另一實施例中，語音是用原型音調週期編碼來編碼，且時間翹曲步驟包含估計至少一個音調週期、內插該至少一個音調週期、當擴大該剩餘語音訊號時添加該至少一個音調週期。

在另一實施例中，本發明包含一具有至少一個輸入端及至少一個輸出端之自動語言合成，其包含：一編碼器，其包括一具有可操作地連接至該自動語言合成之該輸入端之至少一個輸入端及至少一個輸出端的濾波器；一解碼器，其包括一具有可操作地連接至該編碼器之該至少一個輸出端之至少一個輸入端及可操作地連接至該自動語言合成之該至少一個輸出端之至少一個輸出端的合成器，其中該解碼器包含一記憶體且該解碼器經調整以執行儲存於該記憶體中之指令，該等指令包含相位匹配及時間翹曲一語音訊框。

本發明之適用性之其他範疇將自以下詳細描述、申請專利範圍及圖式中顯而易見。然而，應瞭解，儘管詳細描述及特定實例指示本發明之較佳實施例，但其僅係舉例而言，因為熟習此項技術者將易於明瞭屬於本發明之精神及範疇內之各種改變及修改。

第一節移除假相

本文所使用之詞"說明性"意謂"充當實例、例子或說明"。本文描述為"說明性"之任一實施例無需理解為比其他實施例更佳或更有利。

本方法及裝置在編碼器及解碼器之訊號相位不同步時使用相位匹配來校正解碼訊號中之不連續性。此方法及裝置亦使用相位匹配之將來訊框來隱藏抹除部分。此方法及裝置之益處可為顯著的，尤其在已知為導致聲音品質明顯降級之雙重抹除的情況下。

因在訊框抹除版本之後重複訊框而導致之語音假像

需要維持自一個聲音訊框20至下一個聲音訊框20之訊號的相位連續性。為了維持自一個聲音訊框20至另一個聲音訊框20之訊號的連續性，聲音解碼器206通常依次接收訊框。圖1展示此情形之一實例。

在封包交換系統中，聲音解碼器206使用去顫動緩衝器209來儲存語音訊框且隨後依次傳遞該等訊框。若訊框未在其播放時間前接收，則去顫動緩衝器209有時在連續順序號碼之兩個訊框20之間插入抹除部分240而非遺漏訊框20。因此，抹除部分240可在期待但未接收訊框20時由接收器202替代。

圖2A中展示了此情形之一實例。在圖2A中，發送至聲音解碼器206之先前訊框20為4號訊框。訊框5係下一個待發送至解碼器206的訊框，但其並不存在於去顫動緩衝器209中。因此，此導致抹除部分240而非訊框5被發送至解碼器206。因此，由於訊框4之後不存在訊框20，故播放抹除部分240。此後，5號訊框由去顫動緩衝器209接收且將其作為下一個訊框20發送至解碼器206。

然而，抹除部分240末端之相位通常不同於訊框4末端之相位。因此，在抹除部分240之後(而非在訊框4之後)解碼5號訊框可導致圖2B中展示為點D之相位不連續性。實質上，當解碼器206建構抹除部分240(在訊框4之後)時，其將波形擴展160個脈衝編碼調變(PCM)樣本，假定在此實施例中每一語音訊框存在160個PCM樣本。因此，每一語音訊框20將相位改變160個PCM樣本/音調週期，其中音調為說話者聲音之基本頻率。音調週期100可自用於高音調女聲之約30個PCM樣本變化至用於男聲之120個PCM樣本。在一實例中，若訊框4末端之相位標示為相位1，且音調週期100(假定並未改變太多；若音調週期改變，則等式1中之音調週期可由平均音調週期取代)標示為PP；則抹除部分240末端之弧度的相位(相位2)將等於：相位2＝相位1(弧度)＋(160/PP)×2π 等式1

其中語音訊框具有160個PCM樣本。若160係音調週期100的倍數，則抹除部分240末端的相位即相位2將等於相位1。

然而，若160不是PP的倍數，則相位2不等於相位1。此意謂著編碼器204及解碼器206就其相位而言可能不同步。

描述此相位關係之另一方法為使用以下等式中展示之模運算，其中"mod"表示模。模運算係整數運算之系統，其中數字在其達到某個值(意即，mod)之後繞回。使用模運算，抹除部分240末端之弧度中的相位即相位2可等於：相位2＝(相位1＋(160個樣本mod PP)/PP×2π)mod 2π等式2

舉例而言，當音調週期100，PP＝50個PCM樣本，且訊框具有160個PCM樣本時，相位2＝相位1＋(160 mod 50)/50×2π＝相位1＋10/50*2π。(160 mod 50＝10，因為10為160除以mod 50後之餘數。換而言之，每當達到50的倍數時，數字繞回且留下餘數10)。此意謂著訊框4末端與訊框5開端之間的相位差值為0.4π弧度。

回到圖2B，已編碼了訊框5，假定其相位在訊框4之相位終止之處開始，意即，具有相位1之開始相位。但解碼器206將不解碼具有相位2之開始相位(如圖2B中所示)之訊框5(此處應注意，編碼器/解碼器具有用於壓縮語音訊號之記憶體；編碼器/解碼器之相位為編碼器/解碼器上之此等記憶體的相位)。此情形可導致語音訊號中產生如卡嗒聲、砰砰聲等之假像。此假像之性質取決於所使用之自動語言合成70的類型。舉例而言，相位不連續性可在不連續處引起有輕微金屬性之聲音。

在圖2B中，可認為，一旦已建構抹除部分240而非訊框5，記錄訊框20號碼且確保訊框20以適當順序發送之去顫動緩衝器209即無需將訊框5發送至解碼器206。然而，將此訊框20發送至解碼器206存在兩個優點。大體而言，在解碼器206中重建抹除部分240並不理想。聲音訊框20可含有不可由抹除部分240理想重建之語音片段。因此，播放訊框5確保不遺漏語音片段110。又，若不將此訊框20發送至解碼器206，則存在下一個訊框20可能不在去顫動緩衝器209中之可能性。此情形可導致產生另一抹除部分240且導致產生雙重抹除部分240(意即，兩個連續抹除部分240)。此情形係有問題的，因為多個抹除部分240可比單一抹除部分240導致更多的品質降級。

如上所示，訊框20可在其抹除版本已被解碼之後立即解碼，導致編碼器204及解碼器206相位不同步。本方法及裝置試圖校正因編碼器204及解碼器206相位不同步而在聲音解碼器206中引起之微小假像。

相位匹配

可使用此節所描述之相位匹配技術來使解碼器記憶體207與編碼器記憶體205同步。作為代表性實例，本方法及裝置可與編碼激發線性預測(CELP)自動語言合成70或原型音調週期(PPP)自動語言合成70一起使用。應注意，在CELP或PPP自動語言合成之內容中使用相位匹配僅係作為實例而呈現。同樣，亦可將相位匹配應用於其他自動語言合成。在特定CELP或PPP自動語言合成70實施例之內容中呈現解決方案之前，將描述本方法及裝置之相位匹配方法。可藉由在抹除部分240(意即，圖2B中之訊框5)之後不在開端而在自訊框20之開端的某個偏移處解碼訊框20來修理由抹除部分240(如圖2B中所示)導致之不連續性。因此，丟棄訊框20之前幾個樣本(或此等樣本之一些資訊)，使得丟棄之後第一樣本具有與抹除部分240之前的訊框20(意即，圖2B中之訊框4)末端之相位偏移相同的相位偏移136。此方法以稍微不同的方式應用於CELP或PPP解碼器206。下文將對此進行進一步描述。

CELP自動語言合成

CELP編碼聲音訊框20含有經組合以形成解碼PCM樣本之兩個不同類型的資訊，一有聲的(週期部件)及一無聲的(非週期部件)。此有聲部件由適應碼簿(ACB)210及其增益組成。可使用與音調週期100組合之此部件以便用所應用之適當的ACB 210增益來擴展先前訊框20之ACB記憶體。無聲部件由關於待在各點處應用於訊號10中之脈衝的資訊之固定碼簿(FCB)220組成。圖3展示如何組合ACB 210及FCB 220以形成CELP解碼訊框。在圖3中之虛線的左邊，標繪了ACB記憶體212。在虛線右邊，連同用於當前解碼訊框22之FCB脈衝222一起標繪了使用ACB記憶體212擴展之訊號的ACB部件。

若先前訊框20之最後樣本之相位不同於當前訊框20之第一樣本(如所考慮之情形中)的相位，則ACB 210與FCB 220將失配，意即，存在相位不連續性，其中先前訊框24為訊框4而當前訊框22為訊框5。此情形展示於圖4B中，其中在點B處，FCB脈衝222插入錯誤相位處。FCB 220與ACB 210之間的失配意謂著在訊號10中之錯誤相位處應用FCB 220之脈衝222。當訊號10解碼時，此導致產生金屬類聲音，意即假像。應注意，圖4A展示當FCB 220與ACB 210匹配，意即當先前訊框24之最後樣本之相位與當前訊框20之第一樣本的相位相同時的情況。

解決方案

為了解決此問題，本相位匹配方法匹配FCB 220及訊號10中之適當相位。此方法之步驟包含：在當前訊框22(在其之後，相位類似於先前訊框24於其處終止的相位)中尋找該等若干樣本△N；及移動FCB達△N個樣本索引，使得ACB 210現在與FCB 220匹配。

圖4C中於點C處展示了以上兩個步驟之結果，其中FCB脈衝222被移動且於正確相位插入。

上述方法可導致產生用於訊框20之少於160個樣本，因為已丟棄了前幾個FCB 220索引。隨後可將樣本時間翹曲(意即，使用2005年3月11日遞交的此處以引用方式併入且附著至SECTION II－TIME WARPING之臨時專利申請案"Time Warping Frames inside the Vocoder by Modifying the Residual"中所揭示的方法在解碼器外部或在解碼器內部擴大)，以形成較大數目的樣本。

原型音調週期(PPP)自動語言合成

PPP編碼訊框20含有藉由在先前訊框24與當前訊框22之間內插而將先前訊框20之訊號擴展160個樣本的資訊。在CELP與PPP之間的主要差異在於PPP僅編碼週期資訊。

圖5A展示PPP如何擴展先前訊框24的訊號以再多形成160個樣本。在圖5A中，當前訊框22在相位ph1處終止。如圖5B中所示，抹除部分240跟隨於先前訊框24之後，且隨後為當前訊框22。若用於當前訊框22之開端相位係錯誤的(如圖5B中所展示之情形中)，則當前訊框22將在與圖5A中所展示之相位不同的相位處終止。在圖5B中，由於在抹除部分240之後播放訊框20，當前訊框22在相位ph2≠ph1處終止。隨後，此情形將導致跟隨當前訊框22之後的訊框20出現不連續性，因為將已編碼了下一個訊框20(假定圖5A中當前訊框22之終止相位等於相位1，ph 1)。

解決方案

藉由自當前訊框22產生N＝160－x個樣本，使得當前訊框22末端之相位與先前抹除部分重建訊框240末端的相位相匹配，藉此可校正此問題。(假定訊框長度＝160個PCM樣本)。此情形展示於圖5C中，其中自當前訊框22產生較少數目之樣本，使得當前訊框22在相位ph2＝ph1處終止。實際上，x個樣本自當前訊框22末端移除。

若需要防止樣本之數目少於160，則可由當前訊框22產生N＝160－x＋PP個樣本，其中假定訊框中有160個PCM樣本。由於合成處理僅擴展或內插先前訊號10，所以易於自PPP解碼器206產生可變數目之樣本。

使用相位匹配及翹曲隱藏抹除部分

在諸如EV－DO之資料網路中，聲音訊框20可時常丟棄(實體層)或嚴重延遲，從而導致去顫動緩衝器209將抹除部分240引入解碼器206。儘管自動語言合成70通常使用抹除部分隱藏方法，但聲音品質之降級(尤其在高抹除率下)非常顯著。由於自動語言合成70抹除部分240隱藏方法通常趨向於在出現多個連續抹除部分時"減弱"聲音訊號10，所以可觀察到顯著的聲音品質降級，當出現多個連續抹除部分240時尤其如此。

將去顫動緩衝器209用於諸如EV－DO之資料網路，以便自聲音訊框20之到達時間中移除顫動且將流線輸入呈現給解碼器206。去顫動緩衝器209藉由緩衝一些訊框20且隨後以無顫動方式將該等訊框提供至解碼器206而工作。此情形呈現在解碼器206上增強抹除部分240隱藏方法之可能，因為去顫動緩衝器209中有時可能存在一些"將來"訊框26(而非被解碼之"當前"訊框22)。因此，若需要抹除訊框20(若其在實體層丟棄或到達時間過晚)，則解碼器206可使用將來訊框26來執行更佳之抹除部分240隱藏。

來自將來訊框26之資訊可用於隱藏抹除部分240。在一實施例中，本方法及裝置包含：時間翹曲(擴大)將來訊框26以填充抹除訊框20形成之"孔"；及相位匹配將來訊框26以確保連續訊號10。考慮圖6中所展示之情形，其中已解碼了聲音訊框4。當前聲音訊框5在去顫動緩衝器209處不可用，但存在下一個聲音訊框6。解碼器206可翹曲聲音訊框6以隱藏訊框5，而不是播出抹除部分240。意即，解碼且時間翹曲訊框6以填充訊框5之空間。在圖6中此展示為參考數字28。

此涉及以下兩個步驟：1)匹配相位：聲音訊框20之末端將聲音訊號10留在特定相位中。如圖7中所示，訊框4末端之相位係ph1。已用ph2之開端相位(其基本上為聲音訊框5末端之相位，通常，ph1≠ph2)解碼了聲音訊框6。因此，訊框6之解碼需要在偏移處開始，以使得開端相位變得等於ph1。

為了使訊框6之開端相位ph2匹配訊框4之終止相位ph1，丟棄訊框6之前幾個樣本，以使得丟棄之後第一樣本具有與訊框4末端之相位偏移相同的相位偏移136。早先描述了進行此相位匹配之方法；亦描述了相位匹配如何用於CELP及PPP自動語言合成70之實例。

2)時間翹曲(擴大)訊框：一旦訊框6與訊框4相位匹配，訊框6即翹曲以產生填充訊框5之"孔"之樣本(意即，以產生接近320個PCM樣本)。可使用稍後描述之用於CELP及PPP自動語言合成70之時間翹曲方法以時間翹曲訊框20。

在相位匹配之一實施例中，去顫動緩衝器209記錄兩個變量：相位偏移136及掃描長度138。相位偏移136等於解碼器206已解碼之訊框數目與編碼器204已編碼之訊框數目(自並未被解碼為抹除部分之最後訊框開始)之間的差異。掃描長度138界定為解碼器206在緊接著解碼當前訊框22之前解碼之連續抹除部分240的數目。此等兩個變量作為輸入傳遞至解碼器206。

圖8說明其中解碼器206在解碼封包4之後播放抹除部分240之實施例。在抹除部分240之後，準備好解碼封包5。假定編碼器204及解碼器206之相位在封包4末端處同步，其中相位等於相位＿開始。又，在此文獻之其餘部分，吾人始終假定自動語言合成產生每一訊框(亦用於抹除訊框)160個樣本。

圖8中展示了編碼器204及解碼器206之狀態。封包5開端處之編碼器204的相位＝編碼器－相位＝相位－開始。封包5開端處之解碼器206的相位＝解碼器－相位＝相位－開始＋(160 mod延遲(4))/延遲(4)，其中每一訊框具有160個樣本，延遲(4)為訊框4之音調延遲(在PCM樣本中)，且假定抹除部分240之音調延遲等於訊框4之音調延遲。相位偏移(136)＝1，且掃描長度(138)＝1。

在圖9中所示之另一實施例中，解碼器206在解碼訊框4之後播放抹除部分240。在抹除部分240之後，準備好解碼訊框6。假定編碼器204及解碼器206之相位在訊框4末端處同步，其中相位等於相位－開始。圖9中展示編碼器204及解碼器206之狀態。在圖9中所說明之實施例中，封包6開端處之編碼器204的相位＝編碼器－相位＝相位－開始＋(160 mod延遲(5))/延遲(5)。

封包6開端處之解碼器相位＝解碼器－相位＝相位－開始＋(160 mod延遲(4))/延遲(4)，其中每一訊框具有160個樣本，延遲(4)為訊框4之音調延遲(在PCM樣本中)，且假定抹除部分240之音調延遲等於訊框4之音調延遲。在此情況下，相位偏移(136)＝0，且掃描長度(138)＝1。

在圖10中所示之另一實施例中，解碼器206在解碼訊框4之後解碼兩個抹除部分240。在抹除部分240之後，準備好解碼訊框5。假定編碼器204及解碼器206之相位在訊框4末端處同步，其中相位等於相位－開始。

圖10中展示編碼器204及解碼器206之狀態。在此情況下，訊框6開端處之編碼器204的相位＝編碼器＿相位＝相位＿開始。訊框6開端處之解碼器206的相位＝解碼器＿相位＝相位＿開始＋((160 mod延遲(4))*2)/延遲(4)，其中假定每一抹除部分240之延遲與4號訊框之延遲相同。在此情況下，相位偏移(136)＝2，且掃描長度(138)＝2。

在圖11中所示之另一實施例中，解碼器206在解碼訊框4之後解碼兩個抹除部分240。在抹除部分240之後，準備好解碼訊框6。假定編碼器204及解碼器206之相位在訊框4末端處同步，其中相位等於相位＿開始。圖11中展示編碼器204及解碼器206之狀態。

在此情況下，訊框6開端處之編碼器204的相位＝編碼器＿相位＝相位＿開始＋(160 mod延遲(5))/延遲(5)。

訊框6開端處之解碼器206的相位＝解碼器＿相位＝相位＿開始＋((160 mod延遲(4))*2)/延遲(4)，其中假定每一抹除部分240之延遲與4號訊框之延遲相同。因此，由兩個抹除部分240(一個用於遺漏訊框4，一個用於遺漏訊框5)導致之總延遲等於延遲(4)的2倍。在此情況下，相位偏移(136)＝1，且掃描長度(138)＝2。

在圖12中所示之另一實施例中，解碼器206在解碼訊框4之後解碼兩個抹除部分240。在抹除部分240之後，準備好解碼訊框7。假定編碼器204及解碼器206之相位在訊框4末端處同步，其中相位等於相位＿開始。圖12中展示編碼器204及解碼器206之狀態。

在此情況下，訊框6開端處之編碼器204的相位＝編碼器＿相位＝相位－開始＋(160 mod延遲(5))/延遲(5)＋(160 mod延遲(6))/延遲(6)。

訊框6開端處之解碼器206的相位＝解碼器－相位＝相位－開始＋((160 mod延遲(4))*2)/延遲(4)。在此情況下，相位偏移(136)＝0，且掃描長度(138)＝2。

隱藏雙重抹除部分

與單一抹除部分240相比，雙重抹除部分240已知為導致產生更顯著之聲音品質降級。可使用早先描述之相同方法來校正由雙重抹除部分240所導致之不連續性。見圖13，其中已解碼聲音訊框4且抹除訊框5。在圖13中，翹曲訊框7用於填充訊框6之抹除部分240。意即，解碼且時間翹曲訊框7以填充訊框6之空間，在圖13中此展示為參考數字29。

此時，去顫動緩衝器209中不存在訊框6但存在訊框7。因此，訊框7現在可與抹除訊框5之末端相位匹配且隨後經擴大以填充訊框6的孔。此情況有效地將雙重抹除部分240轉換成單一抹除部分240。可藉由將雙重抹除部分240轉換成單一抹除部分240而獲得顯著的聲音品質益處。

在上述實例中，訊框4及7之音調週期100由訊框20自身承載，且訊框6之音調週期100亦由訊框7承載。訊框5之音調週期100係未知的。然而，若訊框4、6及7之音調週期100係相似的，則存在訊框5之音調週期100亦類似於其他音調週期100之高可能性。

在圖14中所示之另一實施例中(展示雙重抹除部分如何轉換成單一抹除部分)，解碼器206在解碼訊框4之後播放一個抹除部分240。在抹除部分240之後，準備好解碼訊框7(應注意除了訊框5之外，亦遺漏了訊框6)。因此，用於遺漏訊框5及6之雙重抹除部分240將被轉換成單一抹除部分240。假定編碼器204及解碼器206之相位在訊框4末端處同步，其中相位等於相位＿開始。圖14中展示編碼器204及解碼器206之狀態。在此情況下，訊框7開端處之編碼器204的相位＝編碼器＿相位＝相位＿開始＋(160 mod延遲(5))/延遲(5)＋(160 mod延遲(6))/延遲(6)。

訊框7開端處之解碼器206的相位＝解碼器＿相位＝相位＿開始＋(160 mod延遲(4))/延遲(4)，其中假定抹除部分240具有與訊框4之音調延遲相同的音調延遲且長度＝160個PCM樣本。

在此情況下，相位偏移(136)＝－1且掃描長度(138)＝1。因為一個雙重部分240用於取代兩個訊框，訊框5及訊框6，所以相位偏移136等於－1。

需要完成之相位匹配之數量為：若(解碼器＿相位≧編碼器＿相位)相位＿匹配＝(解碼器＿相位－編碼器＿相位)*延遲＿終止(先前＿訊框)另外相位＿匹配＝延遲＿終止(先前＿訊框)－((編碼器＿相位－解碼器＿相位)*延遲＿終止(先前＿訊框))。

在所有所揭示之實施例中，可將相位匹配及時間翹曲指令儲存於位於解碼器記憶體207中之軟體216或韌體中，該解碼器記憶體定位於解碼器206中或解碼器206外部。記憶體207可為ROM記憶體，儘管可使用諸如RAM、CD、DVD、磁心等之許多類型記憶體中之任何一種。

第2節在自動語言合成中使用時間翹曲之時間翹曲特徵

人類聲音由兩個部分組成。一個部分包含對音調敏感之基本波而另一者為對音調不敏感之固定諧波。聲音之察覺音調係耳朵對頻率的回應，意即，為了達成大多實際目的，音調係頻率。諧波部分將獨特特徵添加至人的聲音中。其隨著聲帶及聲道實體形狀而改變，且被稱為共振峰。

人類聲音可由數位訊號s(n)10表示。假定s(n)10係在典型轉換期間獲得之包括不同口聲及無聲週期的數位語音訊號。語音訊號s(n)10較佳地分配成訊框20。在一實施例中，s(n)10以8 kHz數位抽樣。

當前編碼方案藉由移除語音中所固有之所有自然冗餘(意即，相關元件)將數位化語音訊號10壓縮成低位元率訊號。語音通常展示由唇舌機械作用導致之短期冗餘及由聲帶振動導致之長期冗餘。線性預測編碼(LPC)藉由移除產生剩餘語音訊號30之冗餘而過濾語音訊號10。其隨後將所得剩餘訊號30模擬為白高斯雜訊。可藉由加權許多過去樣本40(每一者均乘以線性預測係數50)之總數來預測語音波形之抽樣值。因此，線性預測編碼器藉由傳輸濾波器係數50及量化之雜訊(而非完整的頻寬語音訊號10)而達成減少之位元率。藉由自剩餘訊號30之當前訊框20提取原型週期100來編碼剩餘訊號30。

可在圖15中看見LPC自動語言合成70之方塊圖。LPC之功能為最小化有限持續期間原始語音訊號與估計語音訊號之間的平方差總數。此可產生通常為所有訊框20估計之獨特一組預測器係數50。訊框20通常長20毫秒。由以下等式給出時間變化數位濾波器75之轉移函數：其中預測器係數50由a_k 表示而增益由G表示。

自k＝1至k＝9計算出總和。若使用LPC－10方法，則p＝10。此意謂著僅將最初10個係數50傳輸至LPC合成器80。計算係數之兩種最通用的方法為(但不限於)協方差方法及自動相關方法。

通常不同說話者以不同速度說話。時間壓縮為一種減少個別說話者之速度變動之影響的方法。可翹曲一個時間軸以獲得與另一時間軸的最大重合，藉此可減少兩個語音圖案之間的時間差。此時間壓縮技術稱為時間翹曲。此外，時間翹曲在不改變聲音訊號之音調的情況下壓縮或擴大聲音訊號。

典型的自動語言合成以較佳8 kHz率產生包括160個樣本90之20兆秒持續期之訊框20。此訊框20之時間翹曲壓縮版本具有小於20兆秒之持續期，而時間翹曲擴大版本具有大於20兆秒之持續期。當經由封包交換網路發送聲音資料時，聲音資料之時間翹曲具有在聲音封包傳輸過程中引起延遲顫動的顯著優點。在此等網路中，時間翹曲可用於減輕此延遲顫動之影響且產生"同步"觀察聲音流。

本發明之實施例係關於用於藉由操縱語音剩餘訊號30而在自動語言合成70內部時間翹曲訊框20的方法及裝置。在一實施例中，本方法及裝置用於4GV。所揭示之實施例包含擴大/壓縮使用原型音調週期(PPP)、編碼激發線性預測(CELP)或雜訊激發線性預測(NELP)編碼編碼之不同類型的4GV語音片段110之方法及裝置或系統。

術語"自動語言合成"70通常表示藉由基於人類語音產生之模型萃取參數而壓縮有聲語音的設備。自動語言合成70包括編碼器204及解碼器206。編碼器204分析輸入語音且萃取相關參數。在一實施例中，編碼器包含濾波器75。解碼器206使用其經由傳輸通道208自編碼器204接收之參數合成語音。在一實施例中，解碼器包含合成器80。語音訊號10通常被分成由自動語言合成70處理之資料及區塊的訊框20。

熟習此項技術者將認識到人類語音可以許多不同方式分類。語音之三個習知分類為有聲、無聲聲音及暫態語音。圖16A為有聲語音訊號S(n)402。圖16A展示已知為音調週期100之有聲語音的可量測、共同屬性。

圖16B為無聲語音訊號s(n)404。無聲語音訊號404類似於色雜訊。

圖16C描述暫態語音訊號s(n)406(意即，既不是有聲也不是無聲之語音)。圖16C中所示之暫態語音406之實例可表示在無聲語音與有聲語音之間轉變之s(n)。此等三個分類並不包含所有。根據本文所描述之方法可使用許多不同分類的語音以達成同等結果。

4GV自動語言合成使用4個不同訊框類型

用於本發明一實施例之第四代自動語言合成(4GV)70提供在無線網路上使用之有吸引力的特徵。此等特徵之一些包括交替品質對位元率、面對增大封包誤差率(PER)更有彈性的自動語言合成、較佳隱藏抹除部分等之能力。4GV自動語言合成70可使用四個不同編碼器204及解碼器206中之任一者。不同編碼器204及解碼器206根據不同編碼方案執行。有些編碼器204在展示某些特性之語音訊號s(n)10的編碼部分更有效。因此，在一實施例中，可基於當前訊框20之分類選擇編碼器204及解碼器206模式。

4GV編碼器204將聲音資料之每一訊框20編碼成四個不同訊框20類型中之一者：原型音調週期波形內插(PPPWI)、編碼激發線性預測(CELP)、雜訊激發線性預測(NELP)或無聲1/8率訊框。CELP用於編碼具有低週期之語音或涉及自一個週期片段110改變至另一週期片段之語音。因此，通常選擇CELP模式來編碼分類為暫態語音之訊框。由於此等片段110無法僅由一個原型音調週期精確地重建，故CELP編碼完整語音片段110之特徵。CELP模式用量化版本之線性預測剩餘訊號30激發線性預測聲道模式。在本文所描述之所有編碼器204及解碼器206中，CELP通常產生更精確的語音複製，但需要更高的位元率。

可選擇原型音調週期(PPP)模式來編碼分類為有聲語音之訊框20。有聲語音含有由PPP模式開發之緩慢地時間變化週期組件。PPP模式在每一訊框20中編碼音調週期100之子集。語音訊號10之剩餘週期100藉由內插於此等原型週期100之間而重建。藉由開發有聲語音之週期，PPP能夠比CELP達成更低的位元率且仍以感知精確的方式再生語音訊號10。

PPPWI用於編碼本質上具有週期性之語音資料。此種語音之特徵在於類似於"原型"音調週期(PPP)之不同音調週期100。此PPP係編碼器203需要編碼之唯一聲音資訊。解碼器可使用此PPP以在語音片段11o中重建其他音調週期100。

選擇"雜訊激發線性預測"(NELP)編碼器204編碼分類為無聲語音之訊框20。NELP編碼就訊號再生而言有效地操作，其中語音訊號10具有很少或不具有音調結構。更特定言之，NELP用於編碼特徵上類似雜訊之語音，諸如無聲語音或背景雜訊。NELP使用過濾的虛擬隨機雜訊訊號來模製無聲語音。可藉由在解碼器206上產生隨機訊號且將適當的增益應用於此等隨機訊號而重建此等語音片段110之類似於雜訊的特徵。NELP使用用於編碼語音之最簡單的模型，且因此達成較低位元率。

1/8率訊框用於編碼(例如)無聲週期，其中使用者不說話。

所有上述四個自動語言合成方案共用圖17中所示之初始LPC過濾程序。在將該語音表現成四個種類中之一者後，語音訊號10發送穿過線性預測編碼(LPC)濾波器80，其經由使用線性預測而在語音中過濾出短期相關。此區塊之輸出為LPC係數50及"剩餘"訊號30，該"剩餘"訊號30基本上為原始語音訊號10，其中自其移除短期相關。剩餘訊號30隨後使用為經選擇用於訊框20之自動語言合成方法所使用之特定方法編碼。

圖18展示在LPC區塊80之後之原始語音訊號10及剩餘訊號30之實例。可見剩餘訊號30比原始語音10更清晰地展示音調週期100。顯而易見，因此剩餘訊號30可用於比原始語音訊號10(其亦含有短期相關)更精確地判定語音訊號之音調週期100。

剩餘時間翹曲

如上所述，時間翹曲可用於擴大或壓縮語音訊號10。雖然可使用許多方法達成此目的，但此等方法大多基於添加音調週期100或將音調週期100自訊號10中刪除。可在接收剩餘訊號30之後但在合成訊號30之前在解碼器206中完成音調週期100之添加或去除。對於使用CELP或PPP(不是NELP)編碼的語音資料而言，該訊號包括許多音調週期100。因此，可添加或自語音訊號10中抹除之最小單元係音調週期100，因為小於此音調週期之任一單元將導致相位不連續性，從而導致引入顯著的語音假像。因此，在應用於CELP或PPP語音之時間翹曲方法中之一步驟為估計音調週期100。用於CELP/PPP語音訊框20之解碼器206已知此音調週期100。在PPP及CELP兩者情況下，音調資訊由編碼器204使用自動相關方法計算且傳輸至解碼器206。因此，解碼器206對音調週期100有精確瞭解。此使得更易於在解碼器206中應用本發明之時間翹曲方法。

此外，如上所述，更易於在合成訊號10之前時間翹曲訊號10。若待在解碼訊號10之後應用此等時間翹曲方法，則將需要估計訊號10之音調週期100。此不僅需要額外計算，且音調週期100之估計可能不甚準確，因為剩餘訊號30亦含有LPC資訊170。

換言之，若額外音調週期100之估計不太複雜，則在解碼之後進行時間翹曲不需要對解碼器206進行改變且因此僅可對所有自動語言合成80實施一次。

使用LPC編碼合成來合成訊號之前在解碼器206中進行時間翹曲之另一原因為可將壓縮/擴大應用於剩餘訊號30。此允許將線性預測編碼(LPC)合成應用於時間翹曲剩餘訊號30。LPC係數50在語音之聲效如何方面起作用，且在翹曲之後應用合成可確保訊號10中維持正確LPC資訊170。

另一方面，若時間翹曲係在解碼剩餘訊號30之後進行，則LPC合成在時間翹曲之前已執行。因此，翹曲程序可改變訊號10之LPC資訊170，尤其在音調週期100預測後解碼並不非常精確時。

編碼器204(諸如4GV中之一者)視訊框20表示有聲、無聲還是暫態語音而定可將語音訊框20分類為PPP(週期性)、CELP(稍有週期性)或NELP(有雜訊)。使用關於語音訊框20類型之資訊，解碼器206可用不同方法時間翹曲不同訊框20類型。舉例而言，NELP語音訊框20不懂音調週期且其剩餘訊號30使用"隨機"資訊在解碼器206上產生。因此，CELP/PPP之音調週期100估計並非應用於NELP且通常NELP訊框20可翹曲(擴大/壓縮)達小於音調週期100。若時間翹曲在解碼器206中解碼剩餘訊號30之後執行，則此資訊不可用。大體而言，解碼之後時間翹曲類似NELP之訊框20導致產生語音假像。另一方面，在解碼器206中翹曲NELP訊框20產生更佳品質。

因此，與後解碼器(意即，在剩餘訊號30合成之後)相比，在解碼器206(意即，在合成剩餘訊號30之前)中進行時間翹曲存在兩個優點：i)減少計算開銷(例如，避免了對音調週期100之搜索)，及ii)改良翹曲品質，其歸因於a)知曉訊框20類型、b)在翹曲訊號上執行LPC合成及c)更精確地估計/知曉音調週期。

剩餘時間翹曲方法

接著描述其中本方法及裝置時間翹曲PPP、CELP及NELP解碼器內部之語音剩餘30之實施例。以下兩個步驟在每一解碼器206中執行：(i)將剩餘訊號30時間翹曲成擴大或壓縮版本；及(ii)經由LPC濾波器80發送時間翹曲剩餘30。此外，對於PPP、CELP及NELP語音片段110，步驟(i)之執行並不相同。下文將描述該等實施例。

當語音片段110為PPP時時間翹曲剩餘訊號

如上所述，當語音片段110為PPP時，可添加或自訊號中刪除之最小單元為音調週期100。在訊號10可自原型音調週期100解碼(及剩餘300重建)之前，解碼器206將訊號10自先前原型音調週期100(其經儲存)內插至當前訊框20中之原型音調週期100，在製程中添加遺漏音調週期100。圖19中描述了此製程。此內插藉由產生更少或更多的內插音調週期100而導致其自身相當容易地時間翹曲。此將導致產生經壓縮或經擴大的剩餘訊號30，該等剩餘訊號隨後經由LPC合成發送。

當語音片段110為CELP時時間翹曲剩餘訊號

如早先所述，當語音片段110為PPP時，可添加或自訊號中刪除之最小單元為音調週期100。另一方面，在CELP情況下，翹曲並不如對於PPP一般直接。為了翹曲剩餘30，解碼器206使用包含於編碼訊框20中之音調延遲180資訊。此音調延遲180實際上為訊框20末端的音調延遲180。此處應注意，即使在週期訊框20中，音調延遲180亦可稍微改變。該訊框中任一點處之音調延遲180可藉由內插於最後訊框20末端之音調延遲180與當前訊框20末端之音調延遲180之間而估計。此展示於圖20中。一旦已知訊框20中之所有點處之音調延遲180，則可將訊框20分成音調週期100。使用訊框20中各種點處之音調延遲180判定音調週期100的邊界。

圖20A展示如何將訊框20分成其音調週期100之實例。舉例而言，樣本號碼70具有約等於70之音調延遲180，且樣本號碼142具有約72之音調延遲180。因此，音調週期100來自樣本號碼[1－70]且來自樣本號碼[71－142]。見圖20B。

一旦訊框20被分成音調週期100，則隨後可重疊添加此等音調週期100以增大/減小剩餘30之大小。見圖21B至圖21F。在重疊及添加合成中，藉由將片段110自輸入訊號10切除、將其沿時間軸再定位且執行加權重疊添加以建構合成訊號150而獲得經修改之訊號。在一實施例中，片段110可等於音調週期100。重疊添加法藉由"合併"語音之片段110而用一個語音片段110取代兩個不同的語音片段110。以儘可能保持許多語音品質之方式完成語音之合併。藉由仔細選擇待合併之片段110來保持語音品質且將假像引入語音的情況最小化。(假像係如卡嗒聲、砰砰聲等之多餘項目)。基於片段"相似性"選擇語音片段110。語音片段110之"相似性"愈接近，當語音之兩個片段110重疊以減小/增大語音剩餘30之大小時所得之語音品質愈佳且引入語音假像之可能性愈低。判定語音週期是否應重疊添加之有用規則為判定兩個片段之語音延遲是否相似(例如，判定音調延遲之差異是否少於15個樣本，其對應於約1.8兆秒)。

圖21C展示如何使用重疊添加來壓縮剩餘30。重疊/添加方法之第一步驟為將輸入樣本序列s(n)10分割成如上所述之其音調週期。在圖21A中，展示了包括4個音調週期100(PP)之原始語音訊號10。下一步驟包括移除如圖7中所示之訊號10之音調週期100且用合併的音調週期100置換此等音調週期100。舉例而言，在圖21C中，移除了音調週期PP2及PP3且隨後用其中重疊添加PP2及PP3之一個音調週期100取代。更特定言之，在圖21C中，音調週期100 PP2及PP3經重疊添加，使得第二音調週期100(PP2)之作用繼續減小而PP3之作用增大。添加重疊法自兩個不同語音片段110產生一個語音片段110。在一實施例中，使用加權之樣本執行添加重疊。圖22中所示之等式a)及b)中對此進行了說明。加權用於在片段1(110)之最初PCM(脈衝編碼調變)樣本與片段2(110)之最後PCM樣本之間提供平穩變換。

圖21D為經重疊添加之PP2及PP3之另一圖示說明。與僅移除一個片段110而鄰接剩餘相鄰片段110(如圖21E中所示)相比，交叉衰落改良藉由此方法時間壓縮之訊號10的感知品質。

在音調週期100改變的情況下，重疊添加法可合併長度不等之兩個音調週期100。在此情況下，可藉由在重疊添加兩個音調週期100之前對準兩個音調週期100之峰值達成較佳合併。經擴大/壓縮之剩餘隨後經由LPC合成發送。

語音擴大

擴大語音之簡單方法為多次重複相同PCM樣本。然而，多次重複相同PCM樣本可形成帶有易為人類所偵測之假像(例如，語音聽起來有些"機械化")的音調平直之區域。為了保持語音品質，可使用添加重疊法。

圖21B展示如何使用本發明之重疊添加法擴大此語音訊號10。在圖21B中，添加了由音調週期100 PP1及PP2形成之額外音調週期100。在額外音調週期100中，音調週期100 PP2及PP1經重疊添加，使得第二音調週期(PP2)100的作用繼續減小而PP1的作用增大。圖21F為經重疊添加之PP1及PP2之另一圖示說明。

當語音片段為NELP時時間翹曲剩餘訊號

對於NELP語音片段而言，編碼器編碼LPC資訊及用於語音片段110之不同部分之增益。無需編碼任一其他資訊，因為語音實質上與雜訊非常相似。在一實施例中，增益在16個PCM樣本之組合中編碼。因此，例如，160個樣本之訊框可由10個經編碼之增益值表示，每個分別表示語音之每16個樣本。解碼器206藉由產生隨機值且隨後將個別增益應用於其上而產生剩餘訊號30。在此情況下，可能不存在音調週期100之概念，且如此則擴大/壓縮未必具有音調週期100之粒度。

為了擴大或壓縮NELP片段，視片段110被擴大還是被壓縮而定，解碼器206產生多於或少於160個數目之片段(110)。隨後將10個經解碼之增益應用於樣本以產生經擴大或經壓縮之剩餘30。由於此等10個經編碼之增益對應於初始160個樣本，故此等增益不直接地應用於經擴大或經壓縮之樣本。可使用各種方法來應用此等增益。下文描述了一些此等方法。

若待產生之樣本數目少於160，則無需應用所有10個增益。舉例而言，若樣本之數目為144，則可應用最初9個增益。在此情形下，第一增益被應用於最初16個樣本，樣本1－16；第二增益被應用於下16個樣本，樣本17－32等。同樣，若樣本超過160個，則可不止一次地應用第10個增益。舉例而言，若樣本之數目為192，則可將第10個增益應用於145－160、161－176及177－192。

或者，可將樣本分成等數目的10個組合，每一組合具有相等數目的樣本，且可將10個增益應用於該等10個組合。舉例而言，若樣本之數目為140，則可將10個增益應用於14個樣本之每一組合。在此情形下，第一增益被應用於最初14個樣本，樣本1－14；第二增益被應用於下14個樣本，樣本15－28等。

若許多樣本分成不可完整地被10除盡，則可將第10個增益應用於在被10除盡之後獲得之剩餘樣本。舉例而言，若樣本之數目為145，則可將10個增益各自應用於14個樣本之組合。另外，將第10個增益應用於樣本141－145。

當使用上述編碼方法之任一者時，經擴大/經壓縮之剩餘30在時間翹曲之後經由LPC合成發送。

亦可使用圖23(其揭示用於相位匹配213之構件及用於時間翹曲214之構件)中所示之構件及功能區塊說明本方法及應用。

熟習此項技術者應瞭解，可使用各種不同科技及技術來表示資訊及訊號。舉例而言，整個以上描述中所參考之資料、指令、命令、資訊、訊號、位元、符號及晶片可由電壓、電流、電磁波、磁場或粒子、光場或粒子或其任一組合物表示。

熟習此項技術者應進一步瞭解，可將結合本文所揭示之實施例描述之各種說明性邏輯區塊、模組、電路及運算步驟實施為電子硬體、電腦軟體或兩者之組合物。為了清楚地說明硬體及軟體之此可交替性，上文通常根據各種說明性組件、區塊、模組、電路及步驟之功能性描述該等說明性組件、區塊、模組、電路及步驟。將此功能性實施為硬體還是軟體取決於用於整個系統上之特定應用及設計制約條件。雖然熟習此項技術者可以變化方式為每一特定應用而實施所描述之功能性，但不應將此等實施決定理解為導致偏離本發明之範疇。

可使用經設計以執行本文所描述之功能之通用處理器、數位訊號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其它可程式化邏輯設備、離散閘或電晶體邏輯、離散硬體組件或其任一組合物實施或執行結合本文所揭示之實施例描述之各種說明性邏輯區塊、模組及電路。通用處理器可為微處理器，但或者，該處理器可為任一習知處理器、控制器、微控制器或狀態機。亦可將處理器實施為計算設備之組合物，例如，DSP及微處理器之組合物、複數個微處理器、與DSP核心結合之一或多個微處理器或任一其他此類組態。

可直接在硬體中、由處理器執行之軟體模組中或兩者之組合物中實施結合本文所揭示之實施例描述之方法或演算法的步驟。軟體模組可位於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、電可程式化ROM(EPROM)、電可抹除可程式化ROM(EEPROM)、暫存器、硬碟、抽取式碟片、CD－ROM或此項技術中已知之任一其他形式的儲存媒體。說明性儲存媒體耦接至處理器，使得該處理器可自儲存媒體讀取資訊或將資訊寫入儲存媒體。或者，可將儲存媒體整合至處理器。處理器及儲存媒體可位於ASIC中。ASIC可位於用戶終端中。或者，處理器及儲存媒體可作為離散組件而位於用戶終端中。

提供所揭示之實施例之先前描述，以使熟習此項技術者能夠製造或使用本發明。熟習此項技術者將易見對此等實施例之各種修改，且可在不偏離本發明之精神或範疇的情況下將本文所界定之一般原理應用於其他實施例。因此，本發明不意欲限制本文所示之實施例，而欲符合與本文所揭示之原理及新穎特徵一致之最廣範疇。

4．．．訊框

5．．．訊框

6．．．訊框

7．．．訊框

8．．．訊框

10．．．訊號

20．．．訊框

22．．．當前訊框

24．．．先前訊框

28．．．參考數字

29．．．參考數字

30．．．剩餘語音訊號

50．．．線性預測係數

70．．．自動語言合成

75．．．數位濾波器

80．．．合成器

100．．．音調週期

150．．．合成之訊號

204．．．編碼器

206．．．解碼器

207．．．解碼器記憶體

208．．．傳輸通道

209．．．去顫動緩衝器

212．．．FCB記憶體

213．．．相位匹配

214．．．時間翹曲

222．．．FCB記憶體

240．．．抹除部分

402．．．有聲語音訊號s(n)

404．．．無聲語音訊號s(n)

406．．．暫態語音訊號s(n)

圖1為展示訊號之連續性之3個連續聲音訊框的曲線；圖2A說明訊框抹除之後重複之訊框；圖2B說明因訊框抹除之後重複訊框導致的展示為點D之相位不連續性；圖3說明組合ACB及FCB資訊以形成CELP解碼訊框；圖4A描述於正確相位插入之FCB脈衝；圖4B描述歸因於訊框抹除之後重複訊框而於錯誤相位插入之FCB脈衝；圖4C說明移動FCB脈衝以將其於正確相位插入；圖5A說明PPP如何擴展先前訊框的訊號以再多形成160個樣本；圖5B說明用於當前訊框之結束相位因抹除訊框之故而為錯誤的；圖5C描述其中自當前訊框產生更少量之樣本以使得當前訊框在相位ph2＝ph1處結束之實施例；圖6說明填充訊框5之抹除部分之翹曲訊框6；圖7說明訊框4之末端與訊框6之開端之間的相位差；圖8說明其中解碼器在解碼訊框4之後播放抹除部分且隨後準備好解碼訊框5之實施例；圖9說明其中解碼器在解碼訊框4之後播放抹除部分且隨後準備好解碼訊框6之實施例；圖10說明其中解碼器在解碼訊框4之後解碼兩個抹除部分且準備好解碼訊框5之實施例；圖11說明其中解碼器在解碼訊框4之後解碼兩個抹除部分且準備好解碼訊框6之實施例；圖12說明其中解碼器在解碼訊框4之後解碼兩個抹除部分且準備好解碼訊框7之實施例；圖13說明填充訊框6之抹除部分之翹曲訊框7；圖14說明將用於遺漏封包5及6之雙重抹除部分轉換成單一抹除部分；圖15為由本方法及裝置使用之線性預測編碼(LPC)自動語言合成之一實施例的方塊圖；圖16A為含有聲語音之語音訊號；圖16B為含無聲語音之語音訊號；圖16C為含暫態語音之語音訊號；圖17為說明對語音進行LPC過濾接著解碼剩餘的方塊圖；圖18A為原始語音之曲線；圖18B為LPC過濾之後的剩餘語音訊號之曲線；圖19說明使用在先前與當前原型音調週期之間的內插產生波形；圖20A描述經由內插判定音調延遲；圖20B描述識別音調週期；圖21A表示呈音調週期形式之原始語音訊號；圖21B表示使用重疊添加而擴大之語音訊號；圖21C表示使用重疊添加而壓縮之語音訊號；圖21D表示如何使用加權來壓縮剩餘訊號；圖21E表示在不使用重疊添加而壓縮之語音訊號；圖21F表示如何使用加權來擴大剩餘訊號；圖22包含用於添加重疊方法中之兩個等式；及圖23為用於相位匹配213之構件及用於時間翹曲214之構件的邏輯方塊圖。

22．．．當前訊框

24．．．先前訊框

240．．．抹除部分

Claims

一種最小化語音中之假像之方法，該方法包含在經組態以處理音訊訊號之一設備內執行下列步驟中之每一者：偵測被解碼之一訊號之一預期訊框不在一緩衝器中；基於在該預期訊框處之該經解碼的訊號之一相位而獲得一用於匹配之相位；及解碼該訊號中在該預期訊框之後的一經接收的訊框，其中該解碼該經接收的訊框包含(A)基於該用於匹配之相位而增加該經解碼的訊框中之樣本數目，及(B)基於該用於匹配之相位而減少該經解碼的訊框中之樣本數目其中之一者；其中增加及減少該經解碼的訊框中之該樣本數目其中之該者包含在該訊框之一開端之一偏移處解碼該訊框，使得該經解碼的訊框的一第一樣本相位匹配於該用於匹配之相位，及其中該用於匹配之相位係基於在先於該預期訊框之一經解碼的訊框之末端處之一相位。
如請求項1之最小化語音中之假像之方法，其中該經接收的訊框編碼具有n個樣本之一長度的一訊框，及其中該以一偏移解碼該訊框包含丟棄該經解碼的訊框中之至少一樣本，以產生對應於該經接收的訊框且具有小於n個樣本的一長度的該經解碼的訊號之一訊框。
如請求項1之最小化語音中之假像之方法，其中該以一偏移解碼該訊框包含：在該訊框中尋找一數目的樣本，在該訊框之後一相位類似於該用於匹配之相位；及移動該訊框之固定碼簿脈衝達該數目的樣本。
如請求項1之最小化語音中之假像之方法，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項1之最小化語音中之假像之方法，其中該解碼一經接收的訊框包含計算一編碼器相位與一解碼器相位之間的一差異。
如請求項2之最小化語音中之假像之方法，該方法進一步包含在該經解碼的訊號中於該預期訊框處插入一抹除部分，其中該解碼一經接收的訊框包含丟棄該訊框之樣本，使得該經解碼的訊框之一末端處之一相位匹配於該用於匹配之相位，及其中該用於匹配之相位係基於在該抹除部分之一末端處之一相位。
如請求項2之最小化語音中之假像之方法，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項3之最小化語音中之假像之方法，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項5之最小化語音中之假像之方法，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項6之最小化語音中之假像之方法，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項8之最小化語音中之假像之方法，其中該時間翹曲該訊框包含添加至少一音調週期至該訊框之一剩餘訊號。
如請求項8之最小化語音中之假像之方法，其中該時間翹曲該訊框包含：在該訊框之複數個點中之每一者處估計一音調延遲；基於該複數個經估計的音調延遲而將該訊框分割成複數個音調週期；及基於該複數個音調週期中之至少一者而添加一片段至該訊框。
如請求項9之最小化語音中之假像之方法，其中該時間翹曲該訊框包含：在該訊框之複數個點中之每一者處估計一音調延遲；基於該複數個經估計的音調延遲而將該訊框分割成複數個音調週期；及基於該複數個音調週期中之至少一者而添加一片段至該訊框。
如請求項9之最小化語音中之假像之方法，其中該時間翹曲該訊框包含自一音調週期內插至另一音調週期，以獲得該訊框之一經擴大的剩餘訊號之經內插的音調週期。
如請求項10之最小化語音中之假像之方法，其中該時間翹曲該訊框包含自一音調週期內插至另一音調週期，以獲得該訊框之一經擴大的剩餘訊號之經內插的音調週期。
如請求項5之方法，其中該解碼一經接收的訊框包含以一音調延遲乘以該經計算的差異。
一種儲存處理器可讀指令之處理器可讀儲存媒體，當該等處理器可讀指令被執行時致使一處理器實施如請求項1之方法。
一種經組態以解碼一經編碼的語音訊號之解碼器，該解碼器包含：一緩衝器，其經組態以儲存該經解碼的訊號之訊框；一記憶體，其經組態以儲存指令；及一處理器，其經組態以執行該等經儲存之指令以實施一最小化語音中之假像之方法，該方法包含：偵測該訊號之一預期訊框不在該緩衝器中；基於在該預期訊框處之該經解碼的訊號之一相位而獲得一用於匹配之相位；及解碼該訊號中在該預期訊框之後的一經接收的訊框，其中該解碼該經接收的訊框包含(A)基於該用於匹配之相位而增加該經解碼的訊框中之樣本數目，及(B)基於該用於匹配之相位而減少該經解碼的訊框中之樣本數目其中之一者；其中增加及減少該經解碼的訊框中之該樣本數目其中之該者包含在該訊框之一開端之一偏移處解碼該訊框，使得該經解碼的訊框的一第一樣本相位匹配於該用於匹配之相位，及其中該用於匹配之相位係基於在先於該預期訊框之一經解碼的訊框之末端處之一相位。
如請求項18之解碼器，其中該經接收的訊框編碼具有n個樣本之一長度的一訊框，及其中該以一偏移解碼該訊框包含丟棄該經解碼的訊框中之至少一樣本，以產生對應於該經接收的訊框且具有小於n個樣本的一長度的該經解碼的訊號之一訊框。
如請求項18之解碼器，其中該以一偏移解碼該訊框包含：在該訊框中尋找一數目的樣本，在該訊框之後一相位類似於該用於匹配之相位；及移動該訊框之固定碼簿脈衝達該數目的樣本。
如請求項18之解碼器，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項18之解碼器，其中該解碼一經接收的訊框包含計算一編碼器相位與一解碼器相位之間的一差異。
如請求項18之解碼器，該方法進一步包含在該經解碼的訊號中於該預期訊框處插入一抹除部分，其中該解碼一經接收的訊框包含丟棄該訊框之樣本，使得該經解碼的訊框之一末端處之一相位匹配於該用於匹配之相位，及其中該用於匹配之相位係基於在該抹除部分之一末端處之一相位。
如請求項19之解碼器，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項20之解碼器，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項22之解碼器，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項23之解碼器，其中該解碼一經接收的訊框包含時間翹曲該訊框。
如請求項25之解碼器，其中該時間翹曲該訊框包含添加至少一音調週期至該訊框之一剩餘訊號。
如請求項25之解碼器，其中該時間翹曲該訊框包含：在該訊框之複數個點中之每一者處估計一音調延遲；基於該複數個經估計的音調延遲而將該訊框分割成複數個音調週期；及基於該複數個音調週期中之至少一者而添加一片段至該訊框。
如請求項26之解碼器，其中該時間翹曲該訊框包含：在該訊框之複數個點中之每一者處估計一音調延遲；基於該複數個經估計的音調延遲而將該訊框分割成複數個音調週期；及基於該複數個音調週期中之至少一者而添加一片段至該訊框。
如請求項26之解碼器，其中該時間翹曲該訊框包含自一音調週期內插至另一音調週期，以獲得該訊框之一經擴大的剩餘訊號之經內插的音調週期。
如請求項27之解碼器，其中該時間翹曲該訊框包含自一音調週期內插至另一音調週期，以獲得該訊框之一經擴大的剩餘訊號之經內插的音調週期。
一種在經組態以處理音訊訊號之一設備內的用於最小化語音中之假像之裝置，該裝置包含：用於偵測被解碼之一訊號之一預期訊框不在一緩衝器中的構件；用於基於在該預期訊框處之該經解碼的訊號之一相位而獲得一用於匹配之相位的構件；及用於解碼該訊號中在該預期訊框之後的一經接收的訊框的構件，其中該解碼該經接收的訊框包含(A)基於該用於匹配之相位而增加該經解碼的訊框中之樣本數目，及(B)基於該用於匹配之相位而減少該經解碼的訊框中之樣本數目其中之一者；其中該用於解碼一經接收的訊框的構件包含用於藉由在該訊框之一開端之一偏移處解碼該訊框而減少該經解碼的訊框中之樣本數目的構件，使得該經解碼的訊框的一第一樣本相位匹配於該用於匹配之相位，及其中該用於匹配之相位係基於在先於該預期訊框之一經解碼的訊框之末端處之一相位。
如請求項33之用於最小化語音中之假像之裝置，其中該經接收的訊框編碼具有n個樣本之一長度的一訊框，及其中該用於解碼一經接收的訊框的構件經組態以藉由丟棄該經解碼的訊框中之至少一樣本以產生對應於該經接收的訊框且具有小於n個樣本的一長度的該經解碼的訊號之一訊框而實施該以一偏移解碼該訊框。
如請求項33之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含：用於在該訊框中尋找一數目的樣本的構件，在該訊框之後一相位類似於該用於匹配之相位；及用於移動該訊框之固定碼簿脈衝達該數目的樣本的構件。
如請求項33之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含用於時間翹曲該訊框的構件。
如請求項33之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含用於計算一編碼器相位與一解碼器相位之間的一差異的構件。
如請求項33之用於最小化語音中之假像之裝置，該裝置進一步包含用於在該經解碼的訊號中於該預期訊框處插入一抹除部分的構件，其中該用於解碼一經接收的訊框的構件包含用於丟棄該訊框之樣本的構件，使得該經解碼的訊框之一末端處之一相位匹配於該用於匹配之相位，及其中該用於匹配之相位係基於在該抹除部分之一末端處之一相位。
如請求項34之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含用於時間翹曲該訊框的構件。
如請求項35之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含用於時間翹曲該訊框的構件。
如請求項37之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含用於時間翹曲該訊框的構件。
如請求項38之用於最小化語音中之假像之裝置，其中該用於解碼一經接收的訊框的構件包含用於時間翹曲該訊框的構件。
如請求項40之用於最小化語音中之假像之裝置，其中該用於時間翹曲該訊框的構件包含用於添加至少一音調週期至該訊框之一剩餘訊號的構件。
如請求項40之用於最小化語音中之假像之裝置，其中該用於時間翹曲該訊框的構件包含：用於在該訊框之複數個點中之每一者處估計一音調延遲的構件；用於基於該複數個經估計的音調延遲而將該訊框分割成複數個音調週期的構件；及用於基於該複數個音調週期中之至少一者而添加一片段至該訊框的構件。
如請求項41之用於最小化語音中之假像之裝置，其中該用於時間翹曲該訊框的構件包含：用於在該訊框之複數個點中之每一者處估計一音調延遲的構件；用於基於該複數個經估計的音調延遲而將該訊框分割成複數個音調週期的構件；及用於基於該複數個音調週期中之至少一者而添加一片段至該訊框的構件。
如請求項41之用於最小化語音中之假像之裝置，其中該用於時間翹曲該訊框的構件包含用於自一音調週期內插至另一音調週期的構件，以獲得該訊框之一經擴大的剩餘訊號之經內插的音調週期。
如請求項42之用於最小化語音中之假像之裝置，其中該用於時間翹曲該訊框的構件包含用於自一音調週期內插至另一音調週期的構件，以獲得該訊框之一經擴大的剩餘訊號之經內插的音調週期。
一種音訊訊號處理之方法，該方法包含在經組態以處理音訊訊號之一設備內執行下列步驟中之每一者：偵測被解碼之一訊號之一預期訊框不在一緩衝器中；基於在該預期訊框處之該經解碼的訊號之一相位而獲得一用於匹配之相位；及解碼該經解碼的訊號中在該預期訊框之後且具有n個樣本之一長度的一訊框的一經接收的訊框，其中該解碼該經接收的訊框包含：藉由在該訊框之一開端之一偏移處解碼該訊框而產生具有來自該經接收的訊框的m個樣本的一總長度的一訊號，其中m小於n且係基於該用於匹配之相位，使得該經解碼的訊框的一第一樣本相位匹配於該用於匹配之相位；及其中該用於匹配之相位係基於在先於該預期訊框之一經解碼的訊框之末端處之一相位；及時間翹曲該經產生的訊號以產出用於該經接收的訊框的一經修改的剩餘訊號，使得該經修改的剩餘訊號具有大於m個的樣本。
如請求項48之音訊訊號處理之方法，其中該以一偏移解碼該訊框包含丟棄用於該經接收的訊框之一固定碼簿之初始脈衝，以獲得用於該經接收的訊框之一經移動的固定碼簿，及其中該經產生的訊號係基於該經移動的固定碼簿。
如請求項48之音訊訊號處理之方法，其中該解碼該經接收的訊框包含計算一編碼器相位與該用於匹配之相位之間的一差異，及其中m係基於該經計算的差異。
如請求項48之音訊訊號處理之方法，其中該用於匹配之相位係基於在先於該預期訊框之一經解碼的訊框之末端處之一相位。