TW201812743A - 用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 - Google Patents
用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 Download PDFInfo
- Publication number
- TW201812743A TW201812743A TW106123342A TW106123342A TW201812743A TW 201812743 A TW201812743 A TW 201812743A TW 106123342 A TW106123342 A TW 106123342A TW 106123342 A TW106123342 A TW 106123342A TW 201812743 A TW201812743 A TW 201812743A
- Authority
- TW
- Taiwan
- Prior art keywords
- frame
- pitch
- pitch lag
- samples
- values
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 67
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 239000000523 sample Substances 0.000 description 81
- 238000013213 extrapolation Methods 0.000 description 25
- 238000010276 construction Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000008859 change Effects 0.000 description 18
- 230000005284 excitation Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 13
- 230000000737 periodic effect Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 239000000872 buffer Substances 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000007667 floating Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000005279 excitation period Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
一種用以判定一估計音調滯後之裝置被提供。該裝置包括一用以接收複數個初始音調滯後值之輸入介面,以及一用以估計該估計音調滯後之音調滯後估計器。該音調滯後估計器被組態以取決於複數個初始音調滯後值且取決於複數個資訊數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
Description
本發明係關於音頻信號處理,尤其是關於語音處理,並且,尤其是,有關用於在似代數碼激發線性預測(似ACELP)隱蔽中之適應性碼簿之改良式隱蔽的一裝置以及一方法。
音頻信號處理成為愈來愈重要。在音頻信號處理領域中,隱蔽技術扮演一重要角色。當一訊框遺失或損壞時,由於遺失或損壞的訊框之遺失的資訊必須被取代。於語音信號處理中,尤其是,當考慮到ACELP或似ACELP之語音編解碼器時,音調資訊是非常重要。音調預測技術以及脈衝再同步化技術是所需的。
關於音調重建,不同的音調外推技術存在於先前技術中。
這些技術之一者是一重複為基礎之技術。多數目前技術編解碼器應用一簡單重複為基礎之隱蔽方法,其意味著在封包遺失之前最後正確地接收的音調週期被重 複,直至一良好的訊框到達且新的音調資訊可自位元流被解碼為止。或者,一音調穩定性邏輯被應用,一個音調數值依據它而被選擇,該音調數值在封包遺失之前已被接收一些時間。遵循重複為基礎之方法的編解碼器是,例如,G.719(參看[ITU08b,8.6])、G.729(參看[ITU12,4.4])、AMR(參看[3GP12a,6.2.3.1],[ITU03])、AMR-WB(參看[3GP12b,6.2.3.4.2])以及AMR-WB+(ACELP及TCX20(似ACELP)隱蔽)(參看[3GP09]);(AMR=適應性多速率;AMR-WB=適應性多速率寬頻帶)。
先前技術之另一音調重建技術是自時間領域之音調推導。對於一些編解碼器,音調是用於隱蔽所必須的,但是未被嵌入位元流中。因此,音調基於先前訊框之時域信號被計算,以便計算音調週期,其接著在隱蔽期間被保持恆定。遵循這方法之一編解碼器,例如,G.722,參看,尤其是,G.722附錄3(參看[ITU06a,III.6.6及III.6.7])以及G.722附錄4(參看[ITU07,IV.6.1.2.5])。
先前技術之一進一步的音調重建技術是以外推技術為主。一些目前技術之編解碼器應用音調外推方法並且執行特定演算法以在封包遺失時依據外推的音調估計而改變音調。這些方法將參照G.718以及G.729.1在下面更詳細地被說明。
首先,G.718被考慮(參看[ITU08a])。未來音調之一估計藉由外推被進行以支援聲門脈衝再同步化模組。可能之未來音調數值之這資訊被使用以同步化隱蔽式激勵 之聲門脈衝。
僅當最後的良好訊框不是無聲(UNVOICED),則G.718之音調外推是基於編碼器具有一平順的音調輪廓線之假設而被進行。該外推基於在刪除之前的最後七個子訊框之音調滯後而被進行。
於G.718中,浮動音調數值之一歷史更新在每個正確地接收的訊框之後被進行。為了這目的,僅如果核心模式是除了無聲(UNVOICED)之外者,則音調數值被更新。於一遺失訊框之情況中,在浮動音調滯後之間的差量依據公式(1)被計算:
於公式(1)中,表示先前訊框的最後(亦即,第4個)子訊框之音調滯後;表示先前訊框的第3個子訊框之音調滯後;等等。
依據G.718,差量之總和如公式(2)被計算:
由於數值可能是正數或負數,之符號反相的數目被相加並且第一反相之位置藉由被保存在記憶體中之一參數被指示。
參數f corr 藉由公式(3)被得到
其中d max =231是最大考慮的音調滯後。
於G.718中,指示最大絕對差量的一位置imax,依據下列定義被得到:
並且對於這最大差量之一比率如下所示地被計算:
如果這比率是較大於或等於5,則最後正確接收的訊框之第4個子訊框的音調被使用於將被隱蔽的所有子訊框。如果這比率是較大於或等於5,這意味著該演算法是不夠確信以外推該音調,並且該聲門脈衝再同步化將不會被進行。
如果r max 是較小於5,則另外的處理被進行以達成最佳可能之外推。三種不同的方法被使用以外推未來音調。為了在可能音調外推演算法之間做選擇,一偏差參數f corr2 被計算,其取決於係數f corr 以及取決於最大音調變化i max 之位置。但是,首先,平均浮動音調差量被修改以自平均值移除太大的音調差量:如果f corr <0.98且如果i max =3,則該平均部分音調差量依據公式(5)被判定:
以移除關於在二訊框之間的變化之音調差量。
如果f corr 0.98或如果imax≠3,則該平均部分音調 差量如公式(6)地被計算:
並且最大浮動音調差量以公式(7)之新的平均值被取代:
藉由這浮動音調差量之新平均值,標準偏差f corr2 如公式(8)地被計算如下:
其中於第一情況中I sf 是等於4且於第二情況中是等於6。
取決於這新參數,在外推未來音調的三方法之間做選擇:
- 如果改變符號多於兩次(這指示一高的音調變化),第一符號反相是在最後的良好訊框中(對於i<3),並且f corr2 >0.945,外推的音調,d ext ,(該外推的音調也被表示如T ext )如下所示地被計算:
- 如果0.945<f corr2 <0.99並且改變符號至少一次, 則部分音調差量之加權平均被採用以外推該音調。平均差量之加權,f w ,是關於標準偏差,f corr2 ,並且第一符號反相之位置如下所示地被定義:
公式之參數i mem 取決於之第一符號反相的位置,因而如果第一符號反相發生在過去訊框的最後二個子訊框之間則i mem =0,因而如果該第一符號反相發生在過去訊框的第2及第3個子訊框之間則i mem =1,等等。如果第一符號反相是接近於最後訊框結束部份,這意味著音調變化僅在遺失訊框之前是不太穩定。因此被應用至該平均值的加權係數將是接近於0並且外推的音調d ext 將是接近於最後良好訊框之第4個子訊框的音調:
- 否則,該音調演進被考慮是穩定的並且外推音調dext如下所示地被判定:
在這處理程序之後,該音調滯後被限制在34以及231之間(數值表示最小以及最大之允許音調滯後)。
接著,為例示外推為基礎之音調重建技術的另一範例,G.729.1被考慮(參看[ITU06b])。
G.729.1具特徵於在無前向誤差隱蔽資訊(例如,相位資訊)是可解碼的情況中之一音調外推方法(參看 [Gao])。例如,如果二個連續訊框遺失(一個超級訊框包含可能是ACELP或TCX20之任一者的四個訊框),則這情況出現。也有可能以及幾乎是其之所有組合的TCX40或TCX80訊框。
當在一聲音區域中之一個或多個訊框遺失時,先前的音調資訊通常被使用以重建目前遺失的訊框。目前估計的音調之精確性可能直接地影響與初始信號之相位對齊,並且其對於目前遺失的訊框以及在遺失訊框之後所接收的訊框之重建品質是要緊的。使用僅複製先前音調滯後以取代許多過去音調滯後將導致統計上較佳之音調估計。於G.729.1編碼器中,用於FEC(FEC=前向誤差更正)之音調外推包含基於過去五音調數值之線性外推。過去五音調數值是P(i),對於i=0,1,2,3,4,其中P(4)是最近的音調數值。該外推模式依據公式(9)被定義:P'(i)=a+i.b (9)
對於一遺失訊框中之第一子訊框的外推音調數值接著如公式(10)地被定義:P'(5)=a+5.b (10)
為了判定係數a以及b,一誤差E被最小化,其中該誤差E依據公式(11)被定義:
藉由設定
a以及b形成為:
在下面,對於如於[MCZ11]中所提出之AMR-WB編解碼器的先前技術之一訊框刪除隱蔽概念被說明。這訊框刪除隱蔽概念是基於音調以及增益線性預測。該文章提出基於一最小均方誤差準則,於一訊框遺失情況中之一線性音調內推/外推法。
依據這訊框刪除隱蔽概念,在解碼器,當在刪除訊框之前的最後可用訊框(過去訊框)之型式是相同於刪除訊框之後的最先一者(未來訊框)之型式時,音調P(i)被定義,其中i=-N,-N+1,...,0,1,...,N+4,N+5,並且其中N是刪除訊框之過去以及未來子訊框之數目。P(1),P(2),P(3),P(4)是刪除訊框中的四個子訊框之四個音調,P(0),P(-1),...,P(-N)是過去子訊框之音調,並且P(5),P(6),...,P(N+5)是未來子訊框之音調。一線性預測模式P’(i)=a+b.i被採用。對於i=1,2,3,4;P’(1),P’(2),P’(3),P’(4)是對於刪除訊框之預測音調。MMS準則(MMS=最小均方)被考慮以依據一內推方法而導出二個預測係數a以及b之數值。依據這方法,誤差E被定義如公 式(14)所示:
接著,係數a以及b可藉由計算公式(14b-14d)被得到:
對於刪除訊框之最後四子訊框的音調滯後可依據公式(14e)被計算:P'(1)=a+b.1;P'(2)=a+b.2 P'(3)=a+b.3;P'(4)=a+b.4 (14e)
結果發現,N=4將提供最好的結果。N=4表示5個過去之子訊框以及5個未來子訊框被使用於內推中。
但是,當過去訊框之型式是不同於未來訊框之型式時,例如,當過去訊框是有聲但是未來訊框是無聲時,只有過去或未來訊框之有聲音調被使用以使用上面外推方法而預測刪除訊框之音調。
接著,先前技術之脈衝再同步化被考慮,尤其 是參考G.718及G.729.1。脈衝再同步化之一方法被說明於[VJGS12]。
首先,說明建構激勵之週期部份。
對於在一正確地接收除了無聲之外的訊框之後刪除訊框之隱蔽,激勵之週期部份利用重複先前訊框的被低通濾波最後音調週期所建構。
該週期部份之建構使用來自先前訊框的結束部份之激勵信號被低通濾波片段之一簡單複製而完成。
音調週期長度被捨入(round)至最接近整數:T c =round(最後_音調) (15a)
考慮最後音調週期長度是Tp,則被複製片段長度Tr,例如,可依據(15b)式被定義:
該週期部份是對於一個訊框與一個另外的子訊框被建構。
例如,一訊框中有M個子訊框,子訊框長度是L_子訊框=L/M。
其中L是訊框長度,也表示為L 訊框:L=L 訊框。
圖3例示一語音信號之一建構週期部份。
T[0]是激勵之建構週期部份中第一最大脈衝之位置。其他脈衝的位置利用下式所給予:T[i]=T[0]+iT c (16a)
對應至T[i]=T[0]+iT r (16b)
在激勵之週期部份建構之後,聲門脈衝再同步化被進行以更正在遺失訊框的最後脈衝之估計目標位置(P),與激勵建構週期部份之其實際位置(T[k])之間的差量。
音調滯後演進基於在遺失訊框之前最後七個子訊框之音調滯後被外推。各子訊框中之演進音調滯後是:
其中
且T ext (同時也表示為d ext )是外推音調,如上面對於d ext 之所述。
在具有固定音調之音調週期(T c )內總樣本數目和與具有演進音調之音調週期p[i]內總樣本數目和之間差量,表示為d,經發現在一訊框長度之內。文獻中沒有說明如何發現d。
於G.718之源碼中(參看[ITU08a]),d是使用下面的演算法被發現(其中M是一訊框中子訊框之數目):ftmp=p[0];i=1;while(ftmp<L_frame-pit_min){sect=(short)(ftmp*M/L_frame);ftmp+=p[sect];i++;d=(short)(i*Tc-ftmp);
在一訊框長度加上未來訊框中第一脈衝之內之 建構週期部份的脈衝數目是N。文獻中沒有說明如何發現N。
於G.718之源碼中(參看[ITU08a]),N是依據下式被發現:
屬於遺失訊框的激勵之建構週期部份中最後脈衝之位置T[n]是依據下式被判定:
被估計最後脈衝位置P是:P=T[n]+d (19a)
最後脈衝位置T[k]之實際位置是最接近被估計目標位置P之激勵建構週期部份中脈衝位置(搜尋包含在目前訊框之後之第一脈衝):
聲門脈衝再同步化利用增加或移除全部充分音調週期之最小能量區域的樣本被進行。被增加或移除樣本數目利用下式之差量被判定:diff=P-T[k] (19c)
最小能量區域使用一滑動5-樣本窗口被判定。最小能量位置被設定為在窗口中間其能量是最小之處。該搜尋是在二個音調脈衝從T[i]+T c /8至T[i+1]-T c /4之間進行。有N min =n-1個最小能量區域。
如果N min =1,則僅有一個最小能量區域且diff樣本在該位置被塞入或刪除。
對於N min >1,較少樣本在開始部份被增加或被移除且更多朝向訊框結束部份。在脈衝T[i]與T[i+1]之間被移除或被增加之樣本數目使用下面的遞迴關係被發現:
如果R[i]<R[i-1],則R[i]與R[i-1]數值互換。
本發明目的是提供對於音頻信號處理之改良式概念,尤其是,提供對於語音處理之改良式概念,且,尤其是,提供改良式隱蔽概念。
本發明目的藉由依據請求項1之一裝置,藉由依據請求項15之一方法與藉由依據請求項16之一電腦程式而獲得解決。
一種用以判定一估計音調滯後之裝置被提供,該裝置包括:一用以接收複數個初始音調滯後值之輸入介面,以及一用以估計該估計音調滯後之音調滯後估計器。該音調滯後估計器被組態以取決於複數個初始音調滯後值且取決於複數個資訊數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
依據一實施例,該音調滯後估計器,例如,可被組態以取決於該等複數個初始音調滯後值且取決於作為該等複數個資訊數值之複數個音調增益值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個音調增益值之一音調增益值被指定至該初始音調滯後值。
於一特定實施例中,該等複數個音調增益值之各者,例如,可以是一適應性碼簿增益。
於一實施例,該音調滯後估計器,例如,可被組態以藉由最小化一誤差函數而估計該估計音調滯後。
依據一實施例中,該音調滯後估計器,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中k是具有k 2的一整數,以及其中P(i)是第i個初始音調滯後值,其中g p (i)是被指定至第i個音調滯後值P(i)之第i個音調增益值。
於一實施例中,該音調滯後估計器,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中P(i)是第i個初始音 調滯後值,其中g p (i)是被指定至該第i個音調滯後值P(i)之第i個音調增益值。
依據一實施例中,該音調滯後估計器,例如,可被組態以依據方程式p=a.i+b而判定該估計音調滯後p。
於一實施例中,該音調滯後估計器,例如,可被組態以取決於該等複數個初始音調滯後值且取決於作為該等複數個資訊數值之複數個時間數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個時間數值之一時間數值被指定至該初始音調滯後值。
依據一實施例,該音調滯後估計器,例如,可被組態以藉由最小化一誤差函數而估計該估計音調滯後。
於一實施例中,該音調滯後估計器,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中k是具有k 2之一整數,並且其中P(i)是第i個初始音調滯後值,其中time passed (i)是被指定至該第i個音調滯後值P(i)之第i個時間數值。
依據一實施例,該音調滯後估計器,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中P(i)是第i個初始音調滯後值,其中time passed (i)是被指定至該第i個音調滯後值P(i)之第i個時間數值。
於一實施例中,該音調滯後估計器,例如,可被組態以依據方程式p=a.i+b而判定該估計音調滯後p。
而且,一種用以判定一估計音調滯後之方法被提供。該方法包括下列步驟:接收複數個初始音調滯後值。以及估計該估計音調滯後。
估計該估計音調滯後取決於複數個初始音調滯後值且取決於複數個資訊數值而被進行,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
進一步地,一種電腦程式被提供,當該電腦程式在一電腦或信號處理器上被執行時則用以實行上述方法。
此外,一種用以重建包括一語音信號的一訊框作為一重建訊框之裝置被提供,該重建訊框是與一個或多個可用訊框相關聯,該等一個或多個可用訊框是該重建訊框的一個或多個先前訊框以及該重建訊框的一個或多個後續訊框之至少一者,其中該等一個或多個可用訊框包括作為一個或多個可用音調週期之一個或多個音調週期。該裝 置包括:一判定單元,其用以判定一樣本數目差量,該樣本數目差量指示在該等一個或多個可用音調週期之一者的一樣本數目與將被重建之一第一音調週期的一樣本數目之間的一差量。進一步地,該裝置包括一訊框重建器,其用以藉由取決於該樣本數目差量以及取決於該等一個或多個可用音調週期之該一者的樣本以重建將被重建作為一第一重建音調週期之該第一音調週期而重建該重建訊框。該訊框重建器被組態以重建該重建訊框,以至於該重建訊框完全地或部分地包括該第一重建音調週期,以至於該重建訊框完全地或部分地包括一第二重建音調週期,以及以至於該第一重建音調週期之樣本數目不同於該第二重建音調週期之一樣本數目。
依據一實施例,該判定單元,例如,可被組態以判定對於將被重建的複數個音調週期之各者的一樣本數目差量,以至於該等音調週期之各者的樣本數目差量指示在該等一個或多個可用音調週期之該一者的樣本數目與將被重建之該音調週期的一樣本數目之間的一差量。該訊框重建器,例如,可被組態以取決於將被重建之該音調週期的該樣本數目差量及取決於該等一個或多個可用音調週期之該一者的樣本而重建將被重建之該等複數個音調週期的各音調週期,以重建該重建訊框。
於一實施例中,該訊框重建器,例如,可被組態以取決於該等一個或多個可用音調週期之該一者而產生一中間訊框。該訊框重建器,例如,可被組態以修改該中 間訊框以得到該重建訊框。
依據一實施例,該判定單元,例如,可被組態以判定指示多少樣本將自該中間訊框被移除或多少樣本將被增加至該中間訊框的一訊框差量數值(d;s)。此外,該訊框重建器,例如,可被組態以當該訊框差量數值(d;s)指示該等第一樣本將自該訊框被移除時,將該等第一樣本自該中間訊框移除以得到該重建訊框。更進一步地,該訊框重建器,例如,可被組態以當該訊框差量數值(d;s)指示該等第二樣本將被增加至該訊框時,將該等第二樣本增加至該中間訊框以得到該重建訊框。
於一實施例中,該訊框重建器,例如,可被組態以當該訊框差量數值(d;s)指示該等第一樣本將自該訊框被移除時,將該等第一樣本自該中間訊框移除,因而自該中間訊框被移除之該等第一樣本數目藉由該訊框差量數值(d;s)被指示。此外,該訊框重建器,例如,可被組態以當該訊框差量數值(d;s)指示該等第二樣本將被增加至該訊框時,將該等第二樣本增加至該中間訊框,因而將被增加至該中間訊框之該等第二樣本數目藉由該訊框差量數值(d;s)被指示。
依據一實施例,該判定單元,例如,可被組態以判定訊框差量數目s,因而下列公式成立:
其中L指示該重建訊框之一樣本數目,其中M指示該重建 訊框之一子訊框數目,其中T r 指示該等一個或多個可用音調週期之該一者的一捨入音調週期長度,並且其中p[i]指示該重建訊框之第i個子訊框的一重建音調週期之一音調週期長度。
於一實施例中,該訊框重建器,例如,可適合取決於該等一個或多個可用音調週期之該一者以產生一中間訊框。此外,該訊框重建器,例如,可適合產生該中間訊框,因而該中間訊框包括一第一部份中間音調週期、一個或多個進一步的中間音調週期、以及一第二部份中間音調週期。更進一步地,該第一部份中間音調週期取決於該等一個或多個可用音調週期之該一者的一個或多個樣本,其中該等一個或多個進一步的中間音調週期之各者是取決於該等一個或多個可用音調週期之該一者的所有樣本,並且其中該第二部份中間音調週期是取決於該等一個或多個可用音調週期之該一者的一個或多個樣本。此外,該判定單元,例如,可被組態以判定指示多少樣本將自該第一部份中間音調週期被移除或被增加的一開始部份差量數目,並且其中該訊框重建器被組態以自該第一部份中間音調週期移除一個或多個第一樣本,或被組態以取決於該開始部份差量數目而增加一個或多個第一樣本至該第一部份中間音調週期。更進一步地,該判定單元,例如,可被組態以判定對於該等進一步的中間音調週期之各者的一音調週期差量數目,該音調週期差量數目指示多少樣本將自該等進一步的中間音調週期之該一者被移除或被增加。此外,該 訊框重建器,例如,可被組態以自該等進一步的中間音調週期之該一者而移除一個或多個第二樣本,或被組態以取決於該音調週期差量數目而增加一個或多個第二樣本至該等進一步的中間音調週期之該一者。更進一步地,該判定單元,例如,可被組態以判定指示多少樣本將自該第二部份中間音調週期被移除或被增加的一結束部份差量數目,並且其中該訊框重建器被組態以自該第二部份中間音調週期而移除一個或多個第三樣本,或被組態以取決於該結束部份差量數目而增加一個或多個第三樣本至該第二部份中間音調週期。
依據一實施例,該訊框重建器,例如,可被組態以取決於該等一個或多個可用音調週期之該一者而產生一中間訊框。此外,該判定單元,例如,可適合判定由該中間訊框組成的語音信號之一個或多個低能量信號部份,其中該等一個或多個低能量信號部份之各者是在該中間訊框內之語音信號的一第一信號部份,其中該語音信號之能量是較低於由該中間訊框組成之語音信號的一第二信號部份中之能量。更進一步地,該訊框重建器,例如,可被組態以自該語音信號的該等一個或多個低能量信號部份之至少一者移除一個或多個樣本,或增加一個或多個樣本至該語音信號的該等一個或多個低能量信號部份之至少一者,以得到該重建訊框。
於一特定的實施例中,該訊框重建器,例如,可被組態以產生該中間訊框,以至於該中間訊框包括一個 或多個重建音調週期,以至於該等一個或多個重建音調週期之各者是取決於該等一個或多個可用音調週期之該一者。更進一步地,該判定單元,例如,可被組態以判定該等一個或多個低能量信號部份之各者,以至於對於該等一個或多個低能量信號部份之各者,該低能量信號部份之一樣本數目是取決於將自該等一個或多個重建音調週期之該一者被移除的樣本數目,其中該低能量信號部份被安置於該等一個或多個重建音調週期之該一者內。
於一實施例中,該判定單元,例如,可被組態以判定將被重建作為重建訊框之該訊框的語音信號之一個或多個脈衝的一位置。此外,該訊框重建器,例如,可被組態以取決於該語音信號之該等一個或多個脈衝的該位置而重建該重建訊框。
依據一實施例,該判定單元,例如,可被組態以判定將被重建作為重建訊框之該訊框的語音信號的二個或更多個脈衝之一位置,其中T[0]是將被重建作為重建訊框之該訊框的語音信號之該等二個或更多個脈衝之一者的位置,以及其中該判定單元被組態以依據下列公式而判定該語音信號之該等二個或更多個脈衝之進一步的脈衝之位置(T[i]):T[i]=T[0]+iT r
其中T r 指示該等一個或多個可用音調週期之該一者的一捨入長度並且其中i是一整數。
依據一實施例,該判定單元,例如,可被組態 以判定將被重建作為該重建訊框之該訊框之語音信號的一最後脈衝之一指標k,以至於
其中L指示該重建訊框的一樣本數目,其中s指示該訊框差量數值,其中T[0]指示將被重建作為該重建訊框之該訊框的語音信號之一脈衝的一位置,其是不同於該語音信號之該最後脈衝,並且其中T r 指示該等一個或多個可用音調週期之該一者的一捨入長度。
於一實施例中,該判定單元,例如,可被組態以藉由判定一參數δ而重建將被重建作為該重建訊框的訊框,其中該參數δ依據下列公式被定義:
其中將被重建作為該重建訊框之該訊框包括M個子訊框,其中T p 指示該等一個或多個可用音調週期之該一者的長度,並且其中T ext 指示將被重建作為該重建訊框的訊框之將被重建的音調週期之一者的一長度。
依據一實施例,該判定單元,例如,可被組態以藉由基於下列公式而判定該等一個或多個可用音調週期之該一者的一捨入長度T r 以重建該重建訊框:
其中T p 指示該等一個或多個可用音調週期之該一者的長度。
於一實施例中,該判定單元,例如,可被組態以藉由應用下列公式而重建該重建訊框:
其中T p 指示該等一個或多個可用音調週期之該一者的長度,其中T r 指示該等一個或多個可用音調週期之該一者的一捨入長度,其中將被重建作為該重建訊框的該訊框包括M個子訊框,其中將被重建作為該重建訊框的該訊框包括L個樣本,以及其中δ是一實數,其指示在該等一個或多個可用音調週期之該一者的一樣本數目與將被重建的一個或多個音調週期之一者的一樣本數目之間的一差量。
此外,一種用以重建包括一語音信號的一訊框作為一重建訊框之方法被提供,該重建訊框是與一個或多個可用訊框相關聯,該等一個或多個可用訊框是該重建訊框的一個或多個先前訊框以及該重建訊框的一個或多個後續訊框之至少一者,其中該等一個或多個可用訊框包括作為一個或多個可用音調週期之一個或多個音調週期。該方法包括下列步驟:- 判定一樣本數目差量(;△ i ;),該樣本數目差量(;△ i ;)指示在該等一個或多個可用音調週期之一者的一樣本數目與將被重建之一第一音調週期的一樣本數目之間的一差量。以及:- 藉由取決於該樣本數目差量(;△ i ;)以及取決於該等一個或多個可用音調週期之該一者的樣本以重建 將被重建作為一第一重建音調週期之該第一音調週期而重建該重建訊框。
重建該重建訊框被進行,以至於該重建訊框完全地或部分地包括該第一重建音調週期,以至於該重建訊框完全地或部分地包括一第二重建音調週期,以及以至於該第一重建音調週期之該樣本數目不同於該第二重建音調週期之一樣本數目。
更進一步地,一種電腦程式被提供,當該電腦程式在一電腦或信號處理器上被執行時則用以實行上述方法。
此外,一種用以判定一估計音調滯後之裝置被提供。該裝置包括一用以接收複數個初始音調滯後值之輸入介面,以及一用以估計該估計音調滯後之音調滯後估計器。該音調滯後估計器被組態以取決於複數個初始音調滯後值且取決於複數個資訊數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
於一實施例中,該重建訊框是,例如,與一個或多個可用訊框相關聯,該等一個或多個可用訊框是該重建訊框的一個或多個先前訊框以及該重建訊框的一個或多個後續訊框之至少一者,其中該等一個或多個可用訊框包括作為一個或多個可用音調週期之一個或多個音調週期。該用以重建訊框之裝置,例如,可以是依據上述或下述實 施例之一而用以重建訊框之一裝置。
本發明是基於發現先前技術具有主要的缺點。G.718(參看[ITU08a])與G.729.1(參看[ITU06b])兩者皆於一訊框遺失情況使用音調外推技術。這是必須的,因為於一訊框遺失情況,音調滯後同時也遺失。依據G.718與G.729.1,音調外推技術是在最後二個訊框期間考慮音調演進。但是,藉由G.718和G.729.1被重建之音調滯後不是非常精確,例如,且時常產生顯著地不同於真實音調滯後之重建音調滯後。
本發明實施例提供一更精確音調滯後重建。對於這目的,對照於G.718與G.729.1,一些實施例考慮音調資訊可靠度之資訊。
依據先前技術,外推技術所依據之音調資訊包括最後八個正確地接收之音調滯後,對其之編碼模式是不同於無聲情況。但是,先前技術中,有聲特性可能很弱,利用一低音調增益(其對應至一低預測增益)指示。於先前技術中,於外推是基於具有不同的音調增益之音調滯後的情況中,外推將不可能輸出合理結果或甚至根本失效且將落回至一簡單音調滯後重複方法。
實施例是基於發現這些先前技術缺點的理由是在編碼器側,音調滯後相關於使音調增益最大化而被選擇以便使適應性碼簿之編碼增益最大化,但是,於語音特性弱之情況,音調滯後可能不精確地指示基本頻率,因為語音信號中雜訊導致音調滯後估計成為不精確。
因此,在隱蔽期間,依據實施例,取決於先前接收被使用於這外推的落後之可靠度,音調滯後外推之應用被加權。
依據一些實施例,過去之適應性碼簿增益(音調增益)可以被採用為一可靠度量測。
依據本發明之一些進一步的實施例,依據過去如何遠音調滯後被接收之加權被使用作為一可靠度量測。例如,高加權被置於更近之落後且低加權被置於較久前被接收之落後。
依據實施例,被加權之音調預測概念被提供。相對照於先前技術,本發明實施例提供之音調預測對於其依據之音調滯後各者使用一可靠度量測,使得預測結果更可用且穩定。尤其是,該音調增益可被使用為一可靠度指示器。不同地或另外地,依據一些實施例,在音調滯後正確接收之後已經過時間,例如,可被使用作為一指示器。
關於脈衝再同步化,本發明是基於發現關於聲門脈衝再同步化先前技術的缺點之一是音調外推不考慮多少脈衝(音調週期)應該被建構於隱蔽式訊框。
依據先前技術,音調外推被進行以至於音調中改變僅在子訊框邊界。
依據實施例,當進行聲門脈衝再同步化時,不同於連續音調改變的音調改變被列入考慮。本發明實施例是基於發現G.718與G.729.1具有下面的缺點:首先,先前技術中,當計算d時,假設在訊框之 內有一整數數目音調週期。因為d定義隱蔽訊框中最後脈衝之位置,當在該訊框之內有一非整數數目音調週期時,該最後脈衝之位置將不正確。這展於圖6與圖7。圖6例示在樣本移除之前之一語音信號。圖7例示在樣本移除之後之語音信號。更進一步地,先前技術採用以計算d之演算法是無效率的。
此外,先前技術之計算需要激勵之建構週期部份中之脈衝數目N。這增加不需要的計算複雜性。
更進一步地,先前技術中,激勵之建構週期部份中之脈衝數目N之計算不考慮第一脈衝之位置。
呈現於圖4與圖5中之信號具有相同音調長度週期T c 。
圖4例示在一訊框之內具有3個脈衝之一語音信號。
相對地,圖5例示在一訊框之內僅具有2個脈衝之一語音信號。
圖4與5例示之這些範例展示脈衝數目是依據於第一脈衝位置。
此外,依據先前技術,其被檢查,是否T[N-1],激勵建構週期部份第N個脈衝之位置在訊框長度之內,雖然N是定義包含在下面訊框中之第一脈衝。
更進一步地,依據先前技術,在第一脈衝之前且在最後脈衝之後沒有樣本被增加或被移除。本發明實施例是基於發現這導致第一完全音調週期長度可能有驟然改 變之缺點,此外,這進一步地導致在最後脈衝之後音調週期長度可能較大於在最後脈衝之前最後完全音調週期長度之缺點,即使當音調滯後減少時亦然(參看圖6與7)。
實施例是基於發現當下列情況時,脈衝T[k]=P-diff與T[n]=P-d是不相等:
- d>。於此情況中diff=T c -d且被移除樣本數 目將是diff而非d。
- T[k]是在未來訊框中且僅在移除d樣本之後,它才移動至目前訊框。
- 在增加-d樣本之後(d<0),T[n]移動至未來訊框。
這將導致隱蔽式訊框中錯誤脈衝位置。
此外,實施例是基於發現先前技術中,d之最大數值受限定於對於編碼音調滯後之最小允許數值。這是一限制,其限制其他問題的發生,但是其同時也限制音調之可能改變且因此限制脈衝再同步化。
更進一步地,實施例是基於發現先前技術中,週期部份使用整數音調滯後被建構,且這產生諧波之頻率移位及以一固定音調顯著地惡化音調信號之隱蔽。這惡化可參看圖8,其中圖8展示當使用一捨入音調滯後時一語音信號被再同步化之一時間-頻率表示。
實施例更基於發現先前技術多數問題發生於圖6與7展示範例之情況,其中d個樣本被移除。此處考慮沒有限制於d之最大數值,以便使問題容易地可見。當d有一限 制時問題也發生,但不是顯然可見。取代連續地增加音調,吾人將得到在音調驟然增加之後接著驟然減少。實施例是基於發現這發生,因為沒有樣本在最後脈衝之前與之後被移除,其同時也非直接地受影響於不考慮到在移除d樣本之後脈衝T[2]在訊框之內移動。N之誤差計算同時也發生於這範例。
依據實施例,改良式脈衝再同步化概念被提供。實施例提供單音信號(包含語音)之改良式隱蔽,比較於標準G.718(參看[ITU08a])與G.729.1(參看[ITU06b])說明的現存技術,其是有利的。所提供實施例是適於具有固定音調信號,以及適於具有變化音調信號。
除此之外,依據實施例,三組技術被提供:依據一實施例提供之一第一技術,對於脈衝之搜尋概念是假設,相對於G.718與G.729.1,考慮於建構週期部分中脈衝數目(表示如N)計算中之第一脈衝位置。
依據另一實施例提供之一第二技術,用以搜尋脈衝之一演算法是假設,相對於G.718與G.729.1,不需要建構週期部分中脈衝數目,表示如N,其考慮第一脈衝位置,且其直接地計算隱蔽式訊框之最後脈衝指標,表示如k。
依據進一步實施例提供之一第三技術,不需要一脈衝搜尋。依據這第三技術,週期部份之建構與樣本移除或增加被組合,因此達成比先前技術較不複雜。
另外地或不同地,一些實施例對於上面技術以 及G.718與G.729.1技術提供下面的改變:
- 音調滯後之分數部份,例如,可被使用於具有固定音調信號之週期部份的建構。
- 隱蔽式訊框中最後脈衝預測位置之偏移,例如,可對於在該訊框之內音調週期之一非整數數目被計算。
- 樣本,例如,也可在第一脈衝之前及在最後脈衝之後被增加或被移除。
- 樣本,例如,也可如果剛好有一個脈衝時被增加或被移除。
- 被移除或增加之樣本數目,例如,也可在音調中預測線性改變之後線性地改變。
100‧‧‧用於判定一估計音調滯後之裝置
110‧‧‧輸入介面
120‧‧‧音調滯後估計器
200‧‧‧用於重建一訊框之裝置
201~206‧‧‧音調週期
210‧‧‧判定單元
211~217‧‧‧脈衝
220‧‧‧訊框重建器
222‧‧‧語音信號
1010‧‧‧編碼器音調滯後
1021~1023‧‧‧音調增益
1030‧‧‧訊框遺失
T c ‧‧‧具有固定音調之音調週期
p[i]‧‧‧具有演進音調之音調週期
T[0]~T[n]‧‧‧脈衝
在下面,本發明實施例將參考圖式更詳細被說明,於其中:圖1例示依據一實施例用於判定一估計音調滯後之一裝置,圖2a例示依據一實施例用於重建包括一語音信號之一訊框作為一重建訊框之一裝置,圖2b例示包括複數個脈衝之一語音信號,圖2c例示依據一實施例用於重建包括一語音信號之一訊框作為一重建訊框之一系統,圖3例示一語音信號之一建構週期部份,圖4例示在一訊框之內具有三個脈衝之一語音信號,圖5例示在一訊框之內具有二個脈衝之一語音信號, 圖6例示在樣本移除之前之一語音信號,圖7例示在樣本移除之後的圖6之語音信號,圖8例示使用一捨入音調滯後被再同步化之語音信號的時間-頻率表示,圖9例示使用具有分數部分之一無捨入音調滯後被再同步化之語音信號的時間-頻率表示,圖10例示一音調滯後圖,其中音調滯後是利用目前技術概念被重建,圖11例示一音調滯後圖,其中音調滯後是依據實施例被重建,圖12例示在樣本移除之前之一語音信號,以及圖13例示圖12之語音信號,另外地例示△0至△3。
圖1例示依據一實施例用於判定估計音調滯後之一裝置。該裝置包括用以接收複數個初始音調滯後值之一輸入介面110,及用以估計被估計音調滯後之一音調滯後估計器120。該音調滯後估計器120被組態以取決於複數個初始音調滯後值且取決於複數個資訊數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
依據一實施例,該音調滯後估計器120,例如,可被組態以取決於該等複數個初始音調滯後值且取決於作 為該等複數個資訊數值之複數個音調增益值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個音調增益值之一音調增益值被指定至該初始音調滯後值。
於一特定的實施例中,該等複數個音調增益值之各者是一適應性碼簿增益。
於一實施例中,該音調滯後估計器120,例如,可被組態以藉由最小化一誤差函數而估計該估計音調滯後。
依據一實施例,該音調滯後估計器120,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中k是具有k 2的一整數,以及其中P(i)是第i個初始音調滯後值,其中g p (i)是被指定至第i個音調滯後值P(i)之第i個音調增益值。
於一實施例中,該音調滯後估計器120,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中P(i)是第i個初始音調滯後值,其中g p (i)是被指定至該第i個音調滯後值 P(i)之第i個音調增益值。
依據一實施例,該音調滯後估計器120,例如,可被組態以依據公式p=a.i+b而判定該估計音調滯後p。
於一實施例中,該音調滯後估計器120,例如,可被組態以取決於該等複數個初始音調滯後值且取決於作為該等複數個資訊數值之複數個時間數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個時間數值之一時間數值被指定至該初始音調滯後值。
依據一實施例,該音調滯後估計器120,例如,可被組態以藉由最小化一誤差函數而估計該估計音調滯後。
於一實施例中,該音調滯後估計器120,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中k是具有k 2之一整數,並且其中P(i)是第i個初始音調滯後值,其中time passed (i)是被指定至該第i個音調滯後值P(i)之第i個時間數值。
依據一實施例,該音調滯後估計器120,例如,可被組態以藉由最小化下列誤差函數而藉由判定二個參數a、b以估計該估計音調滯後,
其中a是一實數,其中b是一實數,其中P(i)是第i個初始音調滯後值,其中time passed (i)是被指定至該第i個音調滯後值P(i)之第i個時間數值。
於一實施例中,該音調滯後估計器120被組態以依據公式p=a.i+b而判定該估計音調滯後p。
在下面,實施例提供有關於公式(20)-(24b)被說明之加權音調預測。
首先,加權音調預測實施例採用依據參考公式(20)-(22c)被說明之音調增益之加權。依據這些實施例之一些,為克服先前技術缺點,音調滯後以音調增益被加權以進行音調預測。
於一些實施例中,音調增益可以是適應性-碼簿增益gp,如標準G.729中定義(參看[ITU12],尤其是章節3.7.3,尤其是公式(43))。於G.729中,該適應性-碼簿增益是依據下式判定:
其中0 g p 1.2
該處,x(n)目標信號且y(n)是依據下式藉由v(n)與h(n)之捲積而得到:
其中v(n)是適應性-碼簿向量,其中y(n)是濾波之適應性-碼簿向量,且其中h(n-i)是加權合成濾波器之一脈衝響應,如G.729(參看[ITU12])中所定義。
相似地,於一些實施例中,該音調增益可以是標準G.718(參看[ITU08a],尤其是章節6.8.4.1.4.1,尤其是公式(170))中定義之適應性-碼簿增益g p 。於G.718中,適應性-碼簿增益依據下式被判定:
其中x(n)是目標信號且y k (n)是在延遲k之過去濾波激勵。
例如,參看[ITU08a],章節6.8.4.1.4.1,公式(171),關於定義,y k (n)如何被定義。
相似地,於一些實施例中,該音調增益可以是適應性-碼簿增益g p ,如AMR標準中定義(參看[3GP12b]),其中作為音調增益之適應性-碼簿增益g p 是依據下式被定義:
其中0 g p 1.2, 其中y(n)是一濾波適應性碼簿向量。
於一些特定的實施例中,該音調滯後,例如,可用音調增益被加權,例如,進行音調預測之前。
對於這目的,依據一實施例,一長度8之第二緩衝器,例如,被引介以保持音調增益,其在如音調滯後之相同子訊框被採用。於一實施例中,該緩衝器,例如,可使用如音調滯後更新之完全相同法則被更新。一個可能之實施法是在各個訊框之結束部份更新兩緩衝器(保持最後八個子訊框之音調滯後與音調增益),而無視於這訊框是否無誤差或有誤差。
先前的技術習知有二個不同的預測策略,其可被提升以使用加權音調預測:一些實施例提供G.718標準預測策略的顯著發明改良。於G.718中,於封裝封包遺失情況中,該等緩衝器可以元件方式彼此相乘,以便如果相關的音調增益是高則以一高係數加權於音調滯後,且如果相關的音調增益是低則以一低係數加權。在那之後,依據G.718,音調預測類似於通常者(參看[ITU08a,部份7.11.1.3]細節說明於G.718)被進行。
一些實施例提供G.729.1標準預測策略的顯著發明改良。被使用於G.729.1演算法以預測音調(參看[ITU06b]細節說明於G.729.1)依據實施例被修改以便使用加權預測。
依據一些實施例,其目標是最小化誤差函數:
其中g p (i)是保持過去子訊框之音調增益且P(i)是保持對應的音調滯後。
在公式(20)中,g p (i)是代表加權係數。在上面範例,各g p (i)代表來自過去子訊框之一者之音調增益。
在下面,依據實施例之公式被提供,其說明如何導出係數a與b,其可被使用以依據後面式子預測音調滯後:a+i.b,其中i是將被預測子訊框之子訊框數目。
例如,為了基於最後五個子訊框P(0),...,P(4)預測得到第一預測子訊框,預測音調數值P(5)將是:P(5)=a+5.b。
為了導出係數a與b,誤差函數,例如,可以被導出且可以被設定為零:
先前技術未揭示利用實施例提供之本發明加權技術。尤其是,先前技術未採用加權係數gp(i)。
因此,先前技術中,其未利用一加權係數g p (i),導出誤差函數且設定該誤差函數之導數為0,將導致:
(參看[ITU06b,7.6.5])。
相對地,當使用所提供實施例之加權預測方法時,例如,具有加權係數g p (i)之公式(20)的加權預測方法,a與b成為:
依據一特定的實施例,A,B,C,D;E,F,G,H,I,J及K,例如,可具有下面的數值:
圖10及圖11展示所提音調外推的較好的性能。
在該處,圖10例示一音調滯後圖,其中音調滯後利用目前技術概念被重建。相對地,圖11例示一音調滯後圖,其中音調滯後依據實施例被重建。
尤其是,圖10例示先前技術標準G.718與G.729.1之性能,而圖11例示一實施例所提供概念之性能。
橫軸指示子訊框數目數碼。連續線1010展示編碼器音調滯後,其嵌進位元流中,且其在灰色片段1030的區域遺失。左方座標軸代表一音調滯後軸。右方座標軸代表一音調增益軸。連續線1010例示音調滯後,而虛線1021、1022、1023例示音調增益。
灰色矩形1030指示訊框遺失。因為發生在灰色片段1030區域之訊框遺失,這區域中之音調滯後與音調增益資訊在解碼器側無法得到且必須被重建。
圖10中,使用G.718標準被隱蔽之音調滯後利用點虛線部份1011例示。使用G.729.1標準被隱蔽之音調滯後利用連續線部份1012例示。可清楚看出,使用所提供之音調預測(圖11,連續線部份1013)主要對應至遺失的編碼器音調滯後且因此優於G.718與G.729.1技術。
在下面,利用取決於過去時間之加權的實施例參考公式(23a)-(24b)被說明。
為克服先前技術之缺點,一些實施例在進行音調預測之前施加一時間加權於音調滯後。施加一時間加權可藉由最小化這誤差函數而達成:
其中time passed (i)代表在正確地接收音調滯後且P(i)保持對應的音調滯後之後經過時間數量之倒數。
一些實施例,例如,可置高加權至更近落後且低加權至較久前被接收之落後。
依據一些實施例,公式(21a)可以接著被利用以導出a與b。
為得到第一預測子訊框,一些實施例,例如,可基於最後五個子訊框,P(0)...P(4)進行預測。例如,預測音調數值P(5)可以接著依據下式被得到:P(5)=a+5.b (23b)
例如,如果time passed =[1/5 1/4 1/3 1/2 1]
(依據子訊框延遲之時間加權),這將導致:
在下面,提供脈衝再同步化之實施例被說明。
圖2a例示依據一實施例一種用於重建包括一語音信號之一訊框作為一重建訊框之裝置。該重建訊框是與一個或多個可用訊框相關聯,該等一個或多個可用訊框是該重建訊框的一個或多個先前訊框以及該重建訊框的一個或多個後續訊框之至少一者,其中該等一個或多個可用訊框包括作為一個或多個可用音調週期之一個或多個音調週期。
該裝置包括一判定單元210,其用以判定一樣本 數目差量(;△ i ;),該樣本數目差量(;△ i ;)指示在該等一個或多個可用音調週期之一者的一樣本數目與將被重建之一第一音調週期的一樣本數目之間的一差量。
此外,該裝置包括一訊框重建器(220),其用以藉由取決於該樣本數目差量(;△ i ;)以及取決於該等一個或多個可用音調週期之該一者的樣本以重建將被重建作為一第一重建音調週期之該第一音調週期而重建該重建訊框。
該訊框重建器(220)被組態以重建該重建訊框,以至於該重建訊框完全地或部分地包括該第一重建音調週期,以至於該重建訊框完全地或部分地包括一第二重建音調週期,以及以至於該第一重建音調週期之樣本數目不同於該第二重建音調週期之一樣本數目。
重建一音調週期是藉由重建一些或所有將被重建的音調週期樣本而被進行。如果將被重建之音調週期是完全地包括於一遺失之訊框,則該音調週期之所有樣本,例如,必須被重建。如果將被重建之音調週期僅部分地包含於遺失之訊框,且如果一些音調週期樣本是可得到,例如,它們包含於另一訊框,例如,足以僅重建包含於遺失訊框的音調週期樣本以重建音調週期。
圖2b例示圖2a裝置之功能。尤其是,圖2b例示包括脈衝211、212、213、214、215、216、217之語音信號222。
語音信號222之一第一部份包括一訊框n-1。語 音信號222之一第二部份包括一訊框n。語音信號222之一第三部份包括一訊框n+1。
於圖2b中,訊框n-1是先於訊框n且訊框n+1是後於訊框n。這意味,訊框n-1包括,比較於訊框n之語音信號之部份,時間上較早發生之語音信號之部份;且訊框n+1包括,比較於訊框n之語音信號之部份,時間上較後發生之語音信號之部份。
圖2b範例中假設訊框n遺失或毀壞且因此,僅先前於訊框n之訊框(“先前訊框”)與後續於訊框n之訊框(“後續訊框”)是可用的(“可用訊框”)。
一音調週期,例如,可被定義如下:一音調週期開始於脈衝211、212、213,等等之一者且結束於該語音信號中之即時後續脈衝。例如,脈衝211與212定義音調週期201。脈衝212與213定義音調週期202。脈衝213與214定義音調週期203,等等。
音調週期的其他定義,為熟習本技術者所習知,其利用,例如,音調週期的其他開始與結束點,也可以被考慮。
圖2b之範例中,訊框n在一接收器是不可用或毀壞。因此,該接收器知道訊框n-1之脈衝211與212以及音調週期201。此外,該接收器知道訊框n+1之脈衝216與217以及音調週期206。但是,訊框n,其包括脈衝213、214與215,其完全地包括音調週期203與204且其部分地包括音調週期202與205,必須被重建。
依據一些實施例,訊框n可以取決於可用訊框(例如,先前訊框n-1或後續訊框n+1)之至少一個音調週期(“可用音調週期”)之樣本被重建。例如,訊框n-1之音調週期201之樣本,例如,可週期式重複地被複製以重建遺失或毀壞的訊框之樣本。藉由週期式重複地複製音調週期樣本,音調週期它本身被複製,例如,如果音調週期是c,則樣本(x+i‧c)=樣本(x);i是一整數。
於實施例中,來自訊框n-1結束部份之樣本被複製。所複製第n-1訊框部份之長度是等於音調週期201之長度(或幾乎相等)。但是來自201與202兩者之樣本被使用於複製。當第n-1訊框剛好只有一個脈衝時這可能需特別仔細考慮。
於一些實施例中,該等複製樣本被修改。
本發明更基於發現利用週期式重複地複製音調週期之樣本,當(完全地或部分地)包括於遺失的訊框(n)(音調週期202、203、204與205)之音調週期大小不同於所複製可用音調週期(此處:音調週期201)之大小時遺失訊框n的脈衝213、214、215移動至錯誤位置。
例如,圖2b中,在音調週期201與音調週期202之間差量是利用△1指示,在音調週期201與音調週期203之間差量是利用△2指示,在音調週期201與音調週期204之間差量是利用△3指示,且在音調週期201與音調週期205之間差量是利用△4指示。
圖2b中,可看出訊框n-1之音調週期201顯著地較大於音調週期206。此外,音調週期202、203、204與205,(部分地或完全地)包括於訊框n,且是各較小於音調週期201及較大於音調週期206。更進一步地,較接近於大音調週期201之音調週期(例如,音調週期202)是較大於較接近於小音調週期206之音調週期(例如,音調週期205)。
依據本發明這些發現,依據實施例,訊框重建器(220)被組態以重建該重建訊框,以至於該第一重建音調週期之樣本數目不同於該第二重建音調週期之一樣本數目,其二者完全地或部分地包括於重建訊框。
例如,依據一些實施例,該訊框重建取決於一樣本數目差量,該樣本數目差量指示在該等一個或多個可用音調週期(例如,音調週期201)之一者的一樣本數目與將被重建之一第一音調週期(例如,音調週期202、203、204、205)的一樣本數目之間的一差量。
例如,依據一實施例,音調週期201之樣本,例如,可週期式重複地被複製。
接著,該樣本數目差量指示多少樣本將從對應至將被重建之第一音調週期之週期式重複地複製被刪除,或多少樣本將被增加至對應至將被重建之第一音調週期之週期式重複地複製。
圖2b中,各個樣本數目指示多少樣本將從週期式重複地複製被刪除。但是,於其他的範例中,該樣本數目可以指示多少樣本將被增加至週期式重複地複製。例 如,於一些實施例中,樣本可以利用增加具有零振幅樣本至對應的音調週期而增加。於其他的實施例中,樣本可以利用複製音調週期的其他樣本,例如,利用複製鄰近將被增加樣本之位置的樣本而被增加至音調週期。
雖然在上面,實施例說明在遺失或毀壞訊框先前之一訊框的音調週期之樣本週期式重複地被複製,於其他的實施例中,後續於遺失或毀壞訊框之一訊框的音調週期樣本週期式重複地被複製以重建該遺失的訊框。如上與如下所述之相同原理類似地適用。
此一樣本數目差量可以對於將被重建之各個音調週期被判定。接著,各個音調週期之樣本數目差量指示多少樣本將從對應至將被重建之對應的音調週期的週期式重複複製被刪除,或多少樣本將被增加至對應至將被重建之對應的音調週期的週期式重複複製。
依據一實施例,判定單元210,例如,可被組態以判定對於將被重建的複數個音調週期之各者的一樣本數目差量,以至於該等音調週期之各者的樣本數目差量指示在該等一個或多個可用音調週期之該一者的樣本數目與將被重建之該音調週期的一樣本數目之間的一差量。訊框重建器220,例如,可被組態以取決於將被重建之該音調週期的該樣本數目差量及取決於該等一個或多個可用音調週期之該一者的樣本而重建將被重建之該等複數個音調週期的各音調週期。
於一實施例中,訊框重建器220,例如,可被組 態以取決於該等一個或多個可用音調週期之該一者而產生一中間訊框。訊框重建器220,例如,可被組態以修改該中間訊框以得到該重建訊框。
依據一實施例,判定單元210,例如,可被組態以判定指示多少樣本將自該中間訊框被移除或多少樣本將被增加至該中間訊框的一訊框差量數值(d;s)。此外,訊框重建器220,例如,可被組態以當該訊框差量數值(d;s)指示該等第一樣本將自該訊框被移除時,將該等第一樣本自該中間訊框移除以得到該重建訊框。更進一步地,訊框重建器220,例如,可被組態以當該訊框差量數值(d;s)指示該等第二樣本將被增加至該訊框時,將該等第二樣本增加至該中間訊框以得到該重建訊框。
於一實施例中,訊框重建器220,例如,可被組態以當該訊框差量數值指示該等第一樣本將自該訊框被移除時,將該等第一樣本自該中間訊框移除,因而自該中間訊框被移除之該等第一樣本數目藉由該訊框差量數值被指示。此外,訊框重建器220,例如,可被組態以當該訊框差量數值指示該等第二樣本將被增加至該訊框時,將該等第二樣本增加至該中間訊框,因而將被增加至該中間訊框之該等第二樣本數目藉由該訊框差量數值被指示。
依據一實施例,判定單元210,例如,可被組態以判定訊框差量數目s,因而下列公式成立:
其中L指示該重建訊框之一樣本數目,其中M指示該重建訊框之一子訊框數目,其中T r 指示該等一個或多個可用音調週期之該一者的一捨入音調週期長度,並且其中p[i]指示該重建訊框之第i個子訊框的一重建音調週期之一音調週期長度。
於一實施例中,訊框重建器220,例如,是適合取決於該等一個或多個可用音調週期之該一者以產生一中間訊框。此外,訊框重建器220,例如,是適合產生該中間訊框,因而該中間訊框包括一第一部份中間音調週期、一個或多個進一步的中間音調週期、以及一第二部份中間音調週期。更進一步地,該第一部份中間音調週期,例如,取決於該等一個或多個可用音調週期之該一者的一個或多個樣本,其中該等一個或多個進一步的中間音調週期之各者是取決於該等一個或多個可用音調週期之該一者的所有樣本,並且其中該第二部份中間音調週期是取決於該等一個或多個可用音調週期之該一者的一個或多個樣本。此外,判定單元210,例如,可被組態以判定指示多少樣本將自該第一部份中間音調週期被移除或被增加的一開始部份差量數目,並且其中該訊框重建器被組態以自該第一部份中間音調週期移除一個或多個第一樣本,或被組態以取決於該開始部份差量數目而增加一個或多個第一樣本至該第一部份中間音調週期。更進一步地,判定單元210,例如,可被組態以判定對於該等進一步的中間音調週期之各者的一音調週期差量數目,該音調週期差量數目指示多 少樣本將自該等進一步的中間音調週期之該一者被移除或被增加。此外,訊框重建器220,例如,可被組態以自該等進一步的中間音調週期之該一者而移除一個或多個第二樣本,或被組態以取決於該音調週期差量數目而增加一個或多個第二樣本至該等進一步的中間音調週期之該一者。更進一步地,判定單元210,例如,可被組態以判定指示多少樣本將自該第二部份中間音調週期被移除或被增加的一結束部份差量數目,並且其中該訊框重建器220被組態以自該第二部份中間音調週期而移除一個或多個第三樣本,或被組態以取決於該結束部份差量數目而增加一個或多個第三樣本至該第二部份中間音調週期。
依據一實施例,訊框重建器220,例如,可被組態以取決於該等一個或多個可用音調週期之該一者而產生一中間訊框。此外,判定單元210,例如,是適合判定由該中間訊框組成的語音信號之一個或多個低能量信號部份,其中該等一個或多個低能量信號部份之各者是在該中間訊框內之語音信號的一第一信號部份,其中該語音信號之能量是較低於由該中間訊框組成之語音信號的一第二信號部份中之能量。更進一步地,訊框重建器220,例如,可被組態以自該語音信號的該等一個或多個低能量信號部份之至少一者移除一個或多個樣本,或增加一個或多個樣本至該語音信號的該等一個或多個低能量信號部份之至少一者,以得到該重建訊框。
於一特定實施例中,訊框重建器220,例如,可 被組態以產生該中間訊框,以至於該中間訊框包括一個或多個重建音調週期,以至於該等一個或多個重建音調週期之各者是取決於該等一個或多個可用音調週期之該一者。此外,判定單元210,例如,可被組態以判定將自該等一個或多個重建音調週期之各者被移除的一樣本數目。更進一步地,判定單元210,例如,可被組態以判定該等一個或多個低能量信號部份之各者,以至於對於該等一個或多個低能量信號部份之各者,該低能量信號部份之一樣本數目是取決於將自該等一個或多個重建音調週期之該一者被移除的樣本數目,其中該低能量信號部份被安置於該等一個或多個重建音調週期之該一者內。
於一實施例中,判定單元210,例如,可被組態以判定將被重建作為重建訊框之該訊框的語音信號之一個或多個脈衝的一位置。此外,訊框重建器220,例如,可被組態以取決於該語音信號之該等一個或多個脈衝的該位置而重建該重建訊框。
依據一實施例,判定單元210,例如,可被組態以判定將被重建作為重建訊框之該訊框的語音信號的二個或更多個脈衝之一位置,其中T[0]是將被重建作為重建訊框之該訊框的語音信號之該等二個或更多個脈衝之一者的位置,以及其中判定單元210被組態以依據下列公式而判定該語音信號之該等二個或更多個脈衝之進一步的脈衝之位置(T[i]):T[i]=T[0]+iT r
其中T r 指示該等一個或多個可用音調週期之該一者的一捨入長度,並且其中i是一整數。
依據一實施例,判定單元210,例如,可被組態以判定將被重建作為該重建訊框之該訊框之語音信號的一最後脈衝之一指標k,以至於
其中L指示該重建訊框的一樣本數目,其中s指示該訊框差量數值,其中T[0]指示將被重建作為該重建訊框之該訊框的語音信號之一脈衝的一位置,其是不同於該語音信號之該最後脈衝,並且其中T r 指示該等一個或多個可用音調週期之該一者的一捨入長度。
於一實施例中,判定單元210,例如,可被組態以藉由判定一參數δ而重建將被重建作為該重建訊框的訊框,其中該參數δ依據下列公式被定義:
其中將被重建作為該重建訊框之該訊框包括M個子訊框,其中T p 指示該等一個或多個可用音調週期之該一者的長度,並且其中T ext 指示將被重建作為該重建訊框的訊框之將被重建的音調週期之一者的一長度。
依據一實施例,判定單元210,例如,可被組態以藉由基於下列公式而判定該等一個或多個可用音調週期之該一者的一捨入長度T r 以重建該重建訊框:
其中T p 指示該等一個或多個可用音調週期之該一者的長度。
於一實施例中,判定單元210,例如,可被組態以藉由應用下列公式而重建該重建訊框:
其中T p 指示該等一個或多個可用音調週期之該一者的長度,其中T r 指示該等一個或多個可用音調週期之該一者的一捨入長度,其中將被重建作為該重建訊框的該訊框包括M個子訊框,其中將被重建作為該重建訊框的該訊框包括L個樣本,以及其中δ是一實數,其指示在該等一個或多個可用音調週期之該一者的一樣本數目與將被重建的一個或多個音調週期之一者的一樣本數目之間的一差量。
接著,實施例更詳細被說明。
在下面,一第一族群之脈衝再同步化實施例參考公式(25)-(63)被說明。
此等實施例中,如果沒有音調改變,則最後音調滯後被使用而不必捨入,保留分數部分。週期部份使用非整數音調與內推(例如參看[MTTA90])被建構。比較於使用捨入音調滯後,這將減低諧波之頻率移位,且因此顯著地改良具有固定音調之音調或有聲信號的隱蔽。
此優點例示於圖8與圖9,其中代表具有訊框遺失之音調管的信號是使用分別地捨入與無捨入分數音調滯 後被隱蔽。該處,圖8例示使用一捨入音調滯後之一語音信號被再同步化之一時間-頻率表示。相對地,圖9例示使用具有分數部分之一無捨入音調滯後之一語音信號被再同步化之一時間-頻率表示。
當使用音調分數部份時將有一增加計算複雜性。這應該不影響最差情況複雜性,因不需要有聲門脈衝再同步化。
如果沒有預測音調改變,則不需要有在下面說明之處理。
如果一音調改變被預測,參考公式(25)-(63)被說明之實施例提供用於判定差量d之概念,該差量是在具有固定音調之音調週期(T c )之內總樣本數目總和與在具有演進音調之音調週期p[i]之內總樣本數目總和之間差量。
在下面,T c 被定義如於公式(15a):T c =round(最後_音調)。
依據實施例,該差量d可以使用一更快且更精確演算法(用於判定d方法之快速演算法)被判定,如在下面被說明。
此一演算法,例如,可基於下面的原理:
- 於各子訊框i:對於各個音調週期(長度T c ),T c -p[i]個樣本應該被移除(或如果T c -p[i]<0,p[i]-T c 個樣本被增加)。
- 各子訊框中有個音調週期。
- 因此,對於各子訊框個樣本應該被 移除。
依據一些實施例,沒有捨入被進行且一分數音調被使用。接著則:
- p[i]=T c +(i+1)δ。
- 因此,對於各子訊框i,個樣本應該 被移除,如果δ<0(或被增加,如果δ>0)。
- 因此,(其中M是一訊框中子訊框 數目)。
依據一些其他的實施例,捨入被進行。對於整數音調(M是一訊框中子訊框數目),d被定義如下所示:
依據一實施例,一演算法被提供以供因此計算d:ftmp=0;for(i=0;i<M;i++){ftmp+=p[i];}d=(short)floor((M*T_c-ftmp)*(float)L_subfr/T_c+0.5);
於另一實施例中,演算法之最後行被下面之行所取代:d=(short)floor(L_frame-ftmp*(float)L_subfr/T_c+0.5);
依據實施例,最後脈衝T[n]依據下面公式被發現:
依據一實施例,用於計算N之一公式被利用。這公式依據公式(27)自公式(26)被得到:
並且該最後脈衝接著具有指標N-1。
依據這公式,N可被計算以供用於利用圖4以及圖5所例示之範例。
在下面,對於該最後脈衝不需明確搜尋,但是考慮到脈衝位置之一概念將被說明。此一概念不需要N,建構週期性部分中之最後脈衝指標。
激勵(T[k])之建構週期部份中的實際最後脈衝位置判定全部音調週期k數目,其中樣本被移除(或被增加)。
圖12例示在移除樣本之前的最後脈衝T[2]之一位置。關於相關公式(25)-(63)所說明之實施例,參考符號1210指示d。
於圖12之範例中,最後脈衝k之指數是2並且有2個將自其中移除樣本的完全音調週期。
在自長度L_frame+d之信號移除樣本之後,沒有樣本來自超出L_frame+d樣本之初始信號。因此T[k]是在 L_frame+d樣本之內並且k因此利用公式(28)被判定
自公式(17)以及公式(28),得到公式
亦即
自公式(30),得到公式(31)
於一編解碼器中,例如,使用至少20毫秒之訊框,並且於其中語音之最低基本頻率是,例如,至少40Hz,於多數情況中,至少一脈衝存在於除了無聲(UNVOICED)之外的隱蔽式訊框中。
在下面,具有至少二個脈衝(k 1)之一情況將參考公式(32)-(46)被說明。
假設,在脈衝之間的各個完整的第i個音調週期中,△i樣本將被移除,其中△i如下所示地被定義:
其中a是一未知的變數,其需要以已知的變數被表示。
假設,在第一脈衝前之△0樣本將被移除,其中△0將如下所示地被定義:
假設,在最後脈衝之後的△k+1樣本將被移除,其中△k+1將如下所示地被定義:
上面最後二個假設是考慮到公式(32)線中的部份第一以及最後音調週期之長度。
△i數值之各者是一樣本數目差量。此外,△0是一樣本數目差量。更進一步地,△k+1是一樣本數目差量。
圖13例示圖12之語音信號,另外地例示△0至△3。各個音調週期中將被移除之樣本數目圖解地被呈現於圖13之範例中,其中k=2。關於參考公式(25)-(63)所述之實施例,參考符號1210指示d。
將被移除之總樣本數目,d,接著是關聯於△i,如下所示:
自公式(32)-(35),d可如下所示地被得到:
公式(36)是等效於:
假設,一隱蔽式訊框中之最後完全音調週期具有p[M-1]長度,亦即:△ k =T c -p[M-1] (38)
自公式(32)以及公式(38)而得到:△=T c -p[M-1]-(k-1)a (39)
此外,自公式(37)以及公式(39)而得到:
公式(40)是等效於:
自公式(17)以及公式(41),而得到:
公式(42)是等效於:
更進一步地,自公式(43),而得到:
公式(44)是等效於:
此外,公式(45)是等效於:
依據實施例,其接著基於公式(32)-(34)、(39)及(46)被計算,在第一脈衝之前、及/或在脈衝之間及/或在最後脈衝之後,多少樣本將被移除或被增加。
於一實施例中,該等樣本被移除或被增加在最小能量區域中。
依據實施例,將被移除之樣本數目,例如,可使用下列公式被捨入:
在下面,具有一個脈衝(k=0)之情況參考公式(47)-(55)被說明。
如果於隱蔽式訊框中剛好只有一個脈衝時,則在該脈衝前之△0樣本將被移除:
其中△與a是需要以已知的變數被表示之未知變數。在脈衝後之△1樣本將被移除,其中:
接著,將被移除之總樣本數目藉由公式(49)被給予:d=△0+△1 (49)
自公式(47)-(49),而得到:
公式(50)是等效於:dT c =△(L+d)-aT[0] (51)
假設在脈衝之前的音調週期對於在脈衝之後的音調週期之比例是相同於在最後子訊框中的音調滯後與先前接收之訊框中的第一子訊框之間的比率:
自公式(52),而得到:
此外,自公式(51)以及公式(53),而得到:
公式(54)是等效於:
有△-a 個樣本將被移除或被增加於在該脈衝之前最小能量區域且d-△-a 個樣本在該脈衝之後。
在下面,依據實施例之一簡化概念,其不需要對於脈衝(或其位置)搜尋,參考公式(56)-(63)被說明。
t[i]指示第i個音調週期長度。在從該信號移除樣本之後,k個完全音調週期與1個部份的(至完整)音調週期被得到。
因此:
由於長度t[i]之音調週期在移除一些樣本之後自長度T c 之音調週期被得到,且由於被移除樣本總數目是d,其接著得到
其接著得到:
此外,其接著得到
依據實施例,音調滯後之一線性改變可以假設為:
於實施例中,(k+1)△個樣本在第k個音調週期被移除。
依據實施例,第k個音調週期之部份中,其在移除樣本之後,保留在訊框中, 個樣本被移除。
因此,被移除樣本之總數目是:
公式(60)等效於:
此外,公式(61)等效於:
更進一步地,公式(62)等效於:
依據實施例,(i+1)△個樣本在最小能量位置被移除。沒有需要了解脈衝位置,因搜尋最小能量位置在保有一個音調週期之圓形緩衝器被完成。
如果最小能量位置是在第一脈衝之後且如果在該第一脈衝之前的樣本不被移除,則一情況可發生,其中該音調滯後演進如(T c +△),T c ,T c ,(T c -△),(T c -2△)(最後接收訊框中有2個音調週期且隱蔽式訊框中有3個音調週期)。因此,將有一中斷。在最後脈衝之後相似中斷可能出現,但是不在當其發生在第一脈衝之前時的相同時間。
另一方面,如果該脈衝較接近隱蔽式訊框開始部份,該最小能量區域將更可能出現在第一脈衝之後。如果該第一脈衝較接近該隱蔽式訊框開始部份,將可能是最後接收訊框中最後音調週期較大於T c 。為減低音調改變中斷之可能性,加權應該被使用以提供最小區域較接近該音調週期之開始部份或結束部份之優點。
依據實施例,所提供概念之製作被說明,其中實行一個或多個或所有的下面方法的步驟:
1.於一暫時緩衝器B中,儲存自最後接收訊框結束部份之低通濾波T c 樣本,平行搜尋最小能量區域。當搜尋最小能量區域時,該暫時緩衝器被考慮為一圓形緩衝器。(這可以意味著最小能量區域可以包含音調週期開始部份之一些樣本與結束部份之一些樣本。)最小能量 區域,例如,可以是用於長度(k+1)△樣本之滑動視窗口之最小位置。加權,例如,可被使用,例如,提供優點至較接近音調週期開始部份之最小區域。
2.自暫時緩衝器B複製樣本至訊框,跳過在最小能量區域之△個樣本。因此,長度t[0]之音調週期被產生。設定δ 0=△-△。
3.對於第i個音調週期(0<i<k),自第(i-1)個音調週期複製樣本,跳過在最小能量區域之△+ δ i-1 個樣本。設定δ i =δ i-1- δ i-1 +△-△。重複這步驟k-1次。
4.對於第k個音調週期,使用提供較接近音調週期結束部份之最小區域的優點之加權而搜尋(k-1)個音調週期之新最小區域。接著複製自(k-1)個音調週期之樣本,跳過在最小能量區域之
樣本。
如果需被增加樣本,考慮到d<0與△<0且增加總共|d|樣本,等效步驟可被使用,(k+1)|△|樣本被增加於最小能量位置之第k週期。
分數音調可被使用於子訊框位準以導出d,如上面有關於“用於判定d方法之快速演算法”所述,如被使用之任何近似音調週期長度。
在下面,一第二族群脈衝再同步化實施例參考 公式(64)-(113)被說明。第一族群之這些實施例採用公式(15b)之定義,
其中,最後音調週期長度是T p ,且被複製片段長度是T r 。
如果被第二族群脈衝再同步化實施例使用之一些參數不在下面被定義,則本發明實施例可以採用有關於在上面(參看公式(25)-(63))被定義之第一族群脈衝再同步化實施例提供給這些參數之定義。
第二族群脈衝再同步化實施例之一些公式(64)-(113)可以重新定義先前有關於第一族群脈衝再同步化實施例已經被使用之一些參數。於此情況中,所提供之重新定義應用於第二脈衝再同步化實施例。
如上所述,依據一些實施例,週期部份,例如,可對於一個訊框與一個另外的子訊框被建構,其中訊框長度表示為L=L 訊框。
例如,一訊框中有M個子訊框,子訊框長度是L_子訊框=L/M。
如先前已經說明,T[0]是激勵之建構週期部份中第一最大脈衝之位置。其他脈衝的位置由下式所給予:T[i]=T[0]+iT r 。依據實施例,取決於激勵週期部份之建構,例如,在激勵週期部份之建構之後,聲門脈衝再同步化被進行以更正在遺失訊框中最後脈衝之估計目標位置(P),以及激勵建構 週期部份中其之實際位置(T[k])之間差量。
遺失訊框中最後脈衝之估計目標位置(P),例如,可藉由音調滯後演進估計非直接地被判定。該音調滯後演進式,例如,基於在遺失訊框之前最後七個子訊框之音調滯後被外推得到。各子訊框中演進音調滯後是:
其中
並且T ext 是外推音調且i是子訊框指標。音調外推可被形成,例如,使用加權線性配適或來自G.718方法或來自G.729.1方法或對於音調內推之任何其他的方法,例如,考慮未來訊框之一個或多個音調。音調外推同時也可是非線性。於一實施例中,T ext 可以如上面判定T ext 之相同方式被判定。
在具有演進音調(p[i])之音調週期之內總樣本數目之總和與具有固定音調(T p )之音調週期之內總樣本數目之總和之間的一訊框長度之內差量是表示為s。
依據實施例,如果T ext >T p ,則s個樣本應該被增加至一訊框,且如果T ext <T p 則-s個樣本應該自一訊框被移除。在增加或移除|s|個樣本之後,隱蔽式訊框中最後脈衝將在被估計目標位置(P)。
如果T ext =T p ,沒有需要在一訊框之內增加或移 除樣本。
依據一些實施例,聲門脈衝再同步化是藉由在所有的音調週期之最小能量區域中增加或移除樣本而完成。
在下面,依據實施例之計算參數s參考公式(66)-(69)被說明。
依據一些實施例,該差量,s,例如,可基於下面的原理被計算:
- 於各子訊框i中,對於各個音調週期(長度T r ),p[i]-T r 個樣本應該被增加(如果p[i]-T r >0);(或如果p[i]-T r <0,T r -p[i]個樣本應該被移除)。
- 各子訊框中有個音調週期。
- 因此第i個子訊框中,個樣本應該被移除。
因此,依據一實施例,配合公式(64),例如,s可依據公式(66)被計算:
公式(66)等效於:
其中公式(67)等效於:
且其中公式(68)等效於:
注意,如果T ext >T p 則s是正的且樣本應該被增加,且如果T ext <T p 則s是負的且樣本應該被移除。因此,被移除或被增加之樣本數目可表示為|s|。
在下面,依據實施例計算最後脈衝指數是參考公式(70)-(73)被說明。
激勵(T[k])之建構週期部份中實際最後脈衝位置判定全部音調週期k之數目,其中樣本被移除(或被增加)。
圖12例示在移除樣本之前之一語音信號。
在圖12例示範例中,最後脈衝k之指數是2且有二個完全音調週期樣本應該自其被移除。關於參考公式(64)-(113)被說明之實施例,參考符號1210指示|s|。
在自長度L-s之信號移除|s|個樣本之後,其中L=L_訊框,或在增加|s|個樣本至長度L-s之信號之後,沒有來自初始信號之樣本超出L-s個樣本。應該注意到,如果樣本被增加則s是正的且如果樣本被移除則s是負的。因此如果樣本被增加則L-s<L且如果樣本被移除則L-s>L。因此T[k]必須在L-s樣本之內且k因此由下式判定:
自公式(15b)與公式(70),下式成立
亦即
依據一實施例,例如,k可基於公式(72)被判定為:
例如,於採用,例如,至少20毫秒訊框,且採用一至少40Hz之最低基本頻率語音之編解碼器中,於多數情況,至少一個脈衝存在於除了無聲(UNVOICED)之外的隱蔽式訊框中。
在下面,依據實施例計算最小區域中將被移除樣本數目是參考公式(74)-(99)被說明。
例如,可假設在脈衝之間各完全第i個音調週期中△ i 樣本將被移除(或被增加),其中△ i 被定義如下:
且其中a是一未知變數,例如,可由已知的變數表示。
此外,例如,可假設在第一脈衝之前個樣本將被移除(或被增加),其中被定義為:
更進一步地,例如,可假設在最後脈衝之後個樣本將被移除(或被增加),其中被定義為:
上面最後二個假設是考慮部份的第一與最後音調週期之長度而配合於公式(74)。
各個音調週期中將被移除(或被增加)之樣本數目是圖解地呈現於圖13之範例,其中k=2。圖13例示各個音調週期中被移除樣本之圖解表示。關於參考公式(64)-(113)被說明之實施例,參考符號1210指示|s|。
將被移除(或被增加)之總樣本數目s,依據下式是關連於△ i :
由公式(74)-(77),得到下式:
公式(78)等效於:
此外,公式(79)等效於:
更進一步地,公式(80)等效於:
此外,考慮公式(16b),則公式(81)等效於:
依據實施例,可假設在最後脈衝之後完全音調週期中將被移除(或被增加)樣本數目由下式所給予:△ k+1=|T r -p[M-1]|=|T r -T ext | (83)
由公式(74)與公式(83),得到下式:△=|T r -T ext |-ka (84)
由公式(82)與公式(84),得到下式:
公式(85)等效於:
此外,公式(86)等效於:
更進一步地,公式(87)等效於:
由公式(16b)與公式(88),得到下式:
公式(89)等效於:
此外,公式(90)等效於:
更進一步地,公式(91)等效於:
此外,公式(92)等效於:
由公式(93),得到下式:
因此,例如,基於公式(94),依據實施例:- 其計算在第一脈衝之前多少樣本將被移除及/或被增加,及/或- 其計算在脈衝之間多少樣本將被移除及/或被增加及/或- 其計算在最後脈衝之後多少樣本將被移除及/或被增加。
依據一些實施例,樣本,例如,可被移除或被增加於最小能量區域中。
由公式(85)與公式(94),得到下式:
公式(95)等效於:
此外,由公式(84)與公式(94),得到下式:
公式(97)等效於:
依據一實施例,在最後脈衝之後將被移除樣本數目可依據下式基於公式(97)被計算:
應該注意到,依據實施例,、△ i 與是正的且s符號判定樣本是否將被增加或被移除。
由於複雜性理由,於一些實施例中,要求增加或移除整數數目樣本且因此,於此等實施例中,、△ i 與,例如,可被捨入。於其他的實施例中,使用波形內推的其他概念,例如,可不同地或另外地被使用以避免捨入,但是增加複雜性。
在下面,依據實施例用於脈衝再同步化之一演算法參考公式(100)-(113)被說明。
依據實施例,此一演算法之輸入參數,例如, 可為:L-訊框長度
M-子訊框數目
T p -在最後接收訊框結束部份之音調週期長度
T ext -在隱蔽式訊框結束部份之音調週期長度
src_exc-輸入激勵信號,其自最後接收訊框之結束部份,複製激勵信號之低通濾波的最後音調週期而產生,如上所述。
dst_exc-對於脈衝再同步化,使用此處說明之演算法自src_exc產生之輸出激勵信號。
依據實施例,此一演算法可以包括,一個或多個或所有的下面的步驟:
- 基於公式(65),計算每個子訊框之音調改變:
- 基於公式(15b),計算捨入開始音調:
- 基於公式(69),計算被增加樣本數目(如果負的則是被移除):
- 發現激勵src_exc之建構週期部份中在首先T r 個樣本之中第一最大脈衝之位置。
- 基於公式(73),得到再同步化訊框dst_exc中最後脈衝之指數:
- 基於公式(94),計算a-在連續週期之間將被增加或被移除之樣本差量:
- 基於公式(96),計算在第一脈衝之前將被增加或被移除之樣本數目:
- 將在第一脈衝之前被增加或被移除樣本數目向下捨入且保留分數部分於記憶體:
- 基於公式(98),對於在2脈衝之間各區域,計算被增加或被移除之樣本數目:
- 自先前的捨入考慮其餘分數部份,將在2脈衝之間被增加或被移除之樣本數目向下捨入:
- 如果由於被增加之F,對於某一i值,>,則對於與交換數值。
- 基於公式(99),計算在最後脈衝之後將被增加或被 移除之樣本數目:
- 接著,計算在最小能量區域之間將被增加或被移除之最大樣本數目:
- 發現在src_exc中首先二個脈衝之間最小能量片段之位置,其具有長度。對於在二個脈衝之間沒每一連續最小能量片段,該位置由下式計算:
- 如果P min [1]>T r ,則使用P min [0]=P min [1]-T r 計算src_exc中在第一脈衝之前最小能量片段之位置。否則發現src_exc中在第一脈衝之前最小能量片段之位置P min [0],其具有長度。
- 如果P min [1]+kT r <L-s,則使用P min [k+1]=P min [1]+kT r 計算src_exc中在最後脈衝之後最小能量片段之位置。否則發現src_exc中在最後脈衝之後最小能量片段之位置P min [k+1],其具有長度。
- 如果在隱蔽式激勵信號dst_exc中剛好只一個脈衝,亦即如果k等於0,限制P min [1]之搜尋至L-s。P min [1]接著指至src_exc中在最後脈衝之後最小能量片段之位置。
- 如果s>0,增加位置P min [i]之樣本至信號src_exc,0 i k+1,且儲存於dst_exc,否則如果s<0,自信號src_exc移除位置P min [i]之樣本且儲存於dst_exc。
有k+2區域,其中樣本被增加或被移除。
圖2c例示依據一實施例一種用於重建包括一語音信號的一訊框之系統。該系統包括依據上述實施例之一者用於判定一估計音調滯後之裝置100,及用於重建訊框之裝置200,其中該用以重建該訊框之裝置被組態以取決於該估計音調滯後而重建該訊框。該估計音調滯後是該語音信號之一音調滯後。
於一實施例中,該重建訊框,例如,可與一個或多個可用訊框相關聯,該等一個或多個可用訊框是該重建訊框的一個或多個先前訊框與該重建訊框的一個或多個後續訊框之至少一者,其中該等一個或多個可用訊框包括作為一個或多個可用音調週期之一個或多個音調週期。用於重建訊框之裝置200,例如,可以是依據上述實施例之一者用於重建一訊框之裝置。
雖然一些論點已依設備脈絡被說明,應清楚,這些論點同時也代表對應方法的說明,其中一區塊或裝置對應至一方法步驟或一方法步驟特點。類似地,依方法步驟脈絡被說明之論點同時也代表一對應的區塊或項目或一對應設備的特點之說明。
本發明之分別信號可被儲存於一數位儲存媒體或可被傳輸於一傳輸媒體,例如一無線傳輸媒體或一有線 傳輸媒體,例如網際網路。
取決於某些實作需要,本發明實施例可以硬體或軟體被製作。該實作可使用一數位儲存部媒體被進行,例如一軟碟、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快閃記憶體,其具有電子式可讀取控制信號儲存於其上,其配合(或是能夠配合)於一可編程序電腦系統以至於分別的方法被進行。
依據本發明之一些實施例包含具有電子式可讀取控制信號之一非暫態資料攜載器,其是能夠配合於一可編程序電腦系統,以至於此處說明之該等方法之一被進行。
通常,本發明實施例可被製作如具有一程式碼之一電腦程式產品,當該電腦程式產品執行於一電腦時,該程式碼可操作以進行該等方法之一。該程式碼,例如,可以是儲存於一機器可讀取攜載器上。
其他的實施例包含電腦程式,其用以進行此處說明之該等方法之一,其儲存於一機器可讀取攜載器上。
換言之,本發明方法之一實施例,因此,是一電腦程式,其具有程式碼用以當該電腦程式執行於一電腦時,進行此處說明之該等方法之一。
本發明方法之進一步的實施例,因此,是一資料攜載器(或一數位儲存部媒體,或一電腦可讀取媒體),其包含,被記錄於其上,用以進行此處說明之該等方法之一的電腦程式。
本發明方法之進一步的實施例,因此,是一資料串流或一信號序列,其代表用以進行此處說明之該等方法之一的電腦程式。該資料串流或該信號序列,例如,可以是被組態以經由一資料通訊連接,例如,經由網際網路,而被傳送。
一進一步的實施例包含一處理構件,例如,一電腦或一可編程序邏輯裝置,其被組態以便,或適用於,進行此處說明之該等方法之一。
一進一步的實施例包含一電腦,其具有電腦程式安裝在其上而用以進行此處說明之該等方法之一。
一些實施例中,一可編程序邏輯裝置(例如,一場式可程控閘陣列)可以被使用以進行此處說明方法之一些或所有的功能。於一些實施例中,一場式可程控閘陣列可以配合於一微處理機以便進行此處說明之該等方法之一。通常,該等方法最好是利用任何硬體設備被進行。
在上面被說明實施例僅是本發明原理的展示。應了解,此處說明之配置和細節的修改和變化對於熟習本技術之其他者應是明顯的。因此,本發明是僅受限於待決專利申請專利範圍之範疇而非此處實施例之說明和表述所呈現之特定細節。
[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP12a] , Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, Sep 2012.
[3GP12b] , Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012.
[Gao] Yang Gao, Pitch prediction for packet loss concealment, European Patent 2 002 427 B1.
[ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003.
[ITU06a] , G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, Nov 2006.
[ITU06b] , G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006.
[ITU07] , G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, Aug 2007.
[ITU08a] , G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008.
[ITU08b] , G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008.
[ITU12] , G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012.
[MCZ11] Xinwen Mu, Hexin Chen, and Yan Zhao, A frame erasure concealment method based on pitch and gain linear prediction for AMR-WB codec, Consumer Electronics (ICCE), 2011 IEEE International Conference on, Jan 2011, pp. 815-816.
[MTTA90] J.S. Marques, I. Trancoso, J.M. Tribolet, and L.B. Almeida, Improved pitch prediction with fractional delays in celp coding, Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on, 1990, pp. 665-668 vol.2.
[VJGS12] Tommy Vaillancourt, Milan Jelinek, Philippe Gournay, and Redwan Salami, Method and device for efficient frame erasure concealment in speech codecs, US 8,255,207 B2, 2012.
Claims (16)
- 一種用以判定一估計音調滯後之裝置,該裝置包括:一用以接收複數個初始音調滯後值之輸入介面,以及一用以估計該估計音調滯後之音調滯後估計器,其中該音調滯後估計器被組態以取決於複數個初始音調滯後值且取決於複數個資訊數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
- 依據請求項1之裝置,其中該音調滯後估計器被組態以取決於該等複數個初始音調滯後值且取決於作為該等複數個資訊數值之複數個音調增益值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個音調增益值之一音調增益值被指定至該初始音調滯後值。
- 依據請求項2之裝置,其中該等複數個音調增益值之各者是一適應性碼簿增益。
- 依據請求項2之裝置,其中該音調滯後估計器被組態以藉由最小化一誤差函數而估計該估計音調滯後。
- 依據請求項4之裝置,其中該音調滯後估計器被組態以藉由最小化下列誤差函數而藉由判定二個參數 a、 b以估計該估計音調滯後,
- 依據請求項4之裝置,其中該音調滯後估計器被組態以藉由最小化下列誤差函數而藉由判定二個參數 a、 b以估計該估計音調滯後,
- 依據請求項4之裝置,其中該音調滯後估計器被組態以依據方程式 p= a. i+ b而判定該估計音調滯後 p。
- 依據請求項1之裝置,其中該音調滯後估計器被組態以取決於該等複數個初始音調滯後值且取決於作為該等複數個資訊數值之複數個時間數值而估計該估計音調滯後,其中對於該等複數個初始音調滯後值之各個初始 音調滯後值,該等複數個時間數值之一時間數值被指定至該初始音調滯後值。
- 依據請求項8之裝置,其中該音調滯後估計器被組態以藉由最小化一誤差函數而估計該估計音調滯後。
- 依據請求項9之裝置,其中該音調滯後估計器被組態以藉由最小化下列誤差函數而藉由判定二個參數 a、 b以估計該估計音調滯後,
- 依據請求項9之裝置,其中該音調滯後估計器被組態以藉由最小化下列誤差函數而藉由判定二個參數 a、 b以估計該估計音調滯後,
- 依據請求項10之裝置,其中該音調滯後估計器被組態以依據方程式 p= a. i+ b而判定該估計音調滯後 p。
- 一種用以重建包括一語音信號之一訊框的系統,其中該系統包括:一依據請求項1用以判定一估計音調滯後的裝置,以及一用以重建該訊框之裝置,其中該用以重建該訊框之裝置被組態以取決於該估計音調滯後而重建該訊框,其中該估計音調滯後是該語音信號之一音調滯後。
- 依據請求項13之用以重建一訊框之系統,其中該重建訊框是與一個或多個可用訊框相關聯,該等一個或多個可用訊框是該重建訊框的一個或多個先前訊框與該重建訊框的一個或多個後續訊框之至少一者,其中該等一個或多個可用訊框包括作為一個或多個可用音調週期之一個或多個音調週期,以及其中該用以重建該訊框之裝置包括:一用以判定一樣本數目差量( ;△ i ; )之判定單元,該樣本數目差量( ;△ i ; )指示在該等一個或多個可用音調週期之一者的一樣本數目與將被重建之一第一音調週期的一樣本數目之間的一差量,以及一訊框重建器,其用以藉由取決於該樣本數目差量( ;△ i ; )且取決於該等一個或多個可用音調週期之一者的樣本,而重建將被重建作為一第一重建音調週期 的該第一音調週期以重建該重建訊框,其中該訊框重建器被組態以重建該重建訊框,以至於該重建訊框完全地或部分地包括該第一重建音調週期,以至於該重建訊框完全地或部分地包括一第二重建音調週期,及以至於該第一重建音調週期之該樣本數目不同於該第二重建音調週期的一樣本數目,其中該判定單元被組態以取決於該估計音調滯後而判定該樣本數目差量( ;△ i ; )。
- 一種用以判定一估計音調滯後之方法,該方法包括下列步驟:接收複數個初始音調滯後值,以及估計該估計音調滯後,其中估計該估計音調滯後取決於複數個初始音調滯後值且取決於複數個資訊數值而被進行,其中對於該等複數個初始音調滯後值之各個初始音調滯後值,該等複數個資訊數值之一資訊數值被指定至該初始音調滯後值。
- 一種電腦程式,其當在一電腦或信號處理器上被執行時,則用以實行如請求項15之方法。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13173157 | 2013-06-21 | ||
??13173157.2 | 2013-06-21 | ||
EP13173157.2 | 2013-06-21 | ||
??14166990.3 | 2014-05-05 | ||
EP14166990.3 | 2014-05-05 | ||
EP14166990 | 2014-05-05 | ||
??PCT/EP2014/062589 | 2014-06-16 | ||
WOPCT/EP2014/062589 | 2014-06-16 | ||
PCT/EP2014/062589 WO2014202539A1 (en) | 2013-06-21 | 2014-06-16 | Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201812743A true TW201812743A (zh) | 2018-04-01 |
TWI711033B TWI711033B (zh) | 2020-11-21 |
Family
ID=50942300
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106123342A TWI711033B (zh) | 2013-06-21 | 2014-06-20 | 用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 |
TW103121374A TWI613642B (zh) | 2013-06-21 | 2014-06-20 | 用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103121374A TWI613642B (zh) | 2013-06-21 | 2014-06-20 | 用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 |
Country Status (18)
Country | Link |
---|---|
US (3) | US10381011B2 (zh) |
EP (3) | EP3540731A3 (zh) |
JP (4) | JP6482540B2 (zh) |
KR (2) | KR20180042468A (zh) |
CN (2) | CN105408954B (zh) |
AU (2) | AU2014283393A1 (zh) |
BR (2) | BR112015031824B1 (zh) |
CA (1) | CA2915805C (zh) |
ES (1) | ES2746322T3 (zh) |
HK (1) | HK1224427A1 (zh) |
MX (1) | MX371425B (zh) |
MY (1) | MY177559A (zh) |
PL (1) | PL3011554T3 (zh) |
PT (1) | PT3011554T (zh) |
RU (1) | RU2665253C2 (zh) |
SG (1) | SG11201510463WA (zh) |
TW (2) | TWI711033B (zh) |
WO (1) | WO2014202539A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG11201510463WA (en) * | 2013-06-21 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation |
CN105453173B (zh) | 2013-06-21 | 2019-08-06 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
JP6306177B2 (ja) | 2013-10-31 | 2018-04-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間ドメイン励振信号を修正するエラーコンシールメントを用いて、復号化されたオーディオ情報を提供する、オーディオデコーダおよび復号化されたオーディオ情報を提供する方法 |
PT3285255T (pt) | 2013-10-31 | 2019-08-02 | Fraunhofer Ges Forschung | Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo |
EP3427257B1 (en) | 2016-03-07 | 2021-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands |
BR112018068060A2 (pt) | 2016-03-07 | 2019-01-08 | Fraunhofer Ges Forschung | unidade de ocultação de erros, codificador de áudio e método relacionado e programa de computador usando características de uma representação decodificada de um quadro de áudio adequadamente decodificado |
JP6718516B2 (ja) | 2016-03-07 | 2020-07-08 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5179594A (en) * | 1991-06-12 | 1993-01-12 | Motorola, Inc. | Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
US5621852A (en) * | 1993-12-14 | 1997-04-15 | Interdigital Technology Corporation | Efficient codebook structure for code excited linear prediction coding |
KR960009530B1 (en) | 1993-12-20 | 1996-07-20 | Korea Electronics Telecomm | Method for shortening processing time in pitch checking method for vocoder |
EP0744069B1 (en) | 1994-02-01 | 2002-06-05 | QUALCOMM Incorporated | Burst excited linear prediction |
US5792072A (en) * | 1994-06-06 | 1998-08-11 | University Of Washington | System and method for measuring acoustic reflectance |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5751905A (en) * | 1995-03-15 | 1998-05-12 | International Business Machines Corporation | Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US5946650A (en) * | 1997-06-19 | 1999-08-31 | Tritech Microelectronics, Ltd. | Efficient pitch estimation method |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6449590B1 (en) | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
WO2001082293A1 (en) * | 2000-04-24 | 2001-11-01 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
US6760698B2 (en) * | 2000-09-15 | 2004-07-06 | Mindspeed Technologies Inc. | System for coding speech information using an adaptive codebook with enhanced variable resolution scheme |
SE519976C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
US7590525B2 (en) | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
JP2003140699A (ja) * | 2001-11-07 | 2003-05-16 | Fujitsu Ltd | 音声復号化装置 |
KR20040104508A (ko) * | 2002-03-12 | 2004-12-10 | 딜리시움 네트웍스 피티와이 리미티드 | 오디오 변환부호화기에서 적응 코드북 피치 지연 연산을위한 방법 |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US6781880B2 (en) * | 2002-07-19 | 2004-08-24 | Micron Technology, Inc. | Non-volatile memory erase circuitry |
US7137626B2 (en) | 2002-07-29 | 2006-11-21 | Intel Corporation | Packet loss recovery |
WO2004034379A2 (en) | 2002-10-11 | 2004-04-22 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7613607B2 (en) * | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
WO2006009074A1 (ja) * | 2004-07-20 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声復号化装置および補償フレーム生成方法 |
US7860710B2 (en) * | 2004-09-22 | 2010-12-28 | Texas Instruments Incorporated | Methods, devices and systems for improved codebook search for voice codecs |
CN101167125B (zh) | 2005-03-11 | 2012-02-29 | 高通股份有限公司 | 用于对声码器内的帧进行相位匹配的方法及设备 |
AU2006232361B2 (en) * | 2005-04-01 | 2010-12-23 | Qualcomm Incorporated | Methods and apparatus for encoding and decoding an highband portion of a speech signal |
PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US7457746B2 (en) | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
JP5052514B2 (ja) | 2006-07-12 | 2012-10-17 | パナソニック株式会社 | 音声復号装置 |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
DE602007004502D1 (de) * | 2006-08-15 | 2010-03-11 | Broadcom Corp | Neuphasierung des status eines dekodiergerätes nach einem paketverlust |
FR2907586A1 (fr) | 2006-10-20 | 2008-04-25 | France Telecom | Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch. |
PT2102619T (pt) | 2006-10-24 | 2017-05-25 | Voiceage Corp | Método e dispositivo para codificação de tramas de transição em sinais de voz |
CN101046964B (zh) | 2007-04-13 | 2011-09-14 | 清华大学 | 基于重叠变换压缩编码的错误隐藏帧重建方法 |
WO2008151408A1 (en) | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711 |
JP4928366B2 (ja) * | 2007-06-25 | 2012-05-09 | 日本電信電話株式会社 | ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 |
US8527265B2 (en) | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8515767B2 (en) | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN101261833B (zh) | 2008-01-24 | 2011-04-27 | 清华大学 | 一种使用正弦模型进行音频错误隐藏处理的方法 |
CN101335000B (zh) | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
KR101228165B1 (ko) | 2008-06-13 | 2013-01-30 | 노키아 코포레이션 | 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체 |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US8428938B2 (en) | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
US8415911B2 (en) * | 2009-07-17 | 2013-04-09 | Johnson Electric S.A. | Power tool with a DC brush motor and with a second power source |
WO2011013980A2 (en) | 2009-07-27 | 2011-02-03 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
CN102648493B (zh) * | 2009-11-24 | 2016-01-20 | Lg电子株式会社 | 音频信号处理方法和设备 |
US8428936B2 (en) | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
PL3451333T3 (pl) | 2010-07-08 | 2023-01-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder wykorzystujący kasowanie aliasingu w przód |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
WO2012158159A1 (en) | 2011-05-16 | 2012-11-22 | Google Inc. | Packet loss concealment for audio codec |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8781880B2 (en) * | 2012-06-05 | 2014-07-15 | Rank Miner, Inc. | System, method and apparatus for voice analytics of recorded audio |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
CN103272418B (zh) | 2013-05-28 | 2015-08-05 | 佛山市金凯地过滤设备有限公司 | 一种压滤机 |
CN105453173B (zh) | 2013-06-21 | 2019-08-06 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
SG11201510463WA (en) * | 2013-06-21 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation |
-
2014
- 2014-06-16 SG SG11201510463WA patent/SG11201510463WA/en unknown
- 2014-06-16 BR BR112015031824-0A patent/BR112015031824B1/pt active IP Right Grant
- 2014-06-16 KR KR1020187010994A patent/KR20180042468A/ko not_active Application Discontinuation
- 2014-06-16 AU AU2014283393A patent/AU2014283393A1/en not_active Abandoned
- 2014-06-16 BR BR112015031181A patent/BR112015031181A2/pt not_active IP Right Cessation
- 2014-06-16 RU RU2016101599A patent/RU2665253C2/ru active
- 2014-06-16 CN CN201480035427.3A patent/CN105408954B/zh active Active
- 2014-06-16 CA CA2915805A patent/CA2915805C/en active Active
- 2014-06-16 EP EP19172360.0A patent/EP3540731A3/en active Pending
- 2014-06-16 EP EP14729939.0A patent/EP3011554B1/en active Active
- 2014-06-16 MY MYPI2015002993A patent/MY177559A/en unknown
- 2014-06-16 WO PCT/EP2014/062589 patent/WO2014202539A1/en active Application Filing
- 2014-06-16 PT PT147299390T patent/PT3011554T/pt unknown
- 2014-06-16 EP EP24167537.0A patent/EP4375993A2/en active Pending
- 2014-06-16 PL PL14729939T patent/PL3011554T3/pl unknown
- 2014-06-16 KR KR1020167001881A patent/KR102120073B1/ko active IP Right Grant
- 2014-06-16 JP JP2016520421A patent/JP6482540B2/ja active Active
- 2014-06-16 CN CN202010573105.1A patent/CN111862998A/zh active Pending
- 2014-06-16 MX MX2015017833A patent/MX371425B/es active IP Right Grant
- 2014-06-16 ES ES14729939T patent/ES2746322T3/es active Active
- 2014-06-20 TW TW106123342A patent/TWI711033B/zh active
- 2014-06-20 TW TW103121374A patent/TWI613642B/zh active
-
2015
- 2015-12-21 US US14/977,224 patent/US10381011B2/en active Active
-
2016
- 2016-10-27 HK HK16112359.2A patent/HK1224427A1/zh unknown
-
2018
- 2018-01-10 AU AU2018200208A patent/AU2018200208B2/en active Active
- 2018-12-06 JP JP2018228601A patent/JP7202161B2/ja active Active
-
2019
- 2019-06-18 US US16/445,052 patent/US11410663B2/en active Active
-
2021
- 2021-03-24 JP JP2021049334A patent/JP2021103325A/ja active Pending
-
2022
- 2022-06-30 US US17/810,132 patent/US20220343924A1/en active Pending
-
2023
- 2023-03-15 JP JP2023040193A patent/JP2023072050A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI604438B (zh) | 用以重建包括語音信號的訊框作為重建訊框之裝置及方法、以及相關電腦程式 | |
TWI613642B (zh) | 用以判定一估計音調滯後之裝置及方法、用以重建包括語音信號之訊框的系統、以及相關電腦程式 | |
TW201923755A (zh) | 音調滯後選擇技術 | |
CN110931025B (zh) | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |