TWI390503B

TWI390503B - Dual channel voice transmission system, broadcast scheduling design module, packet coding and missing sound quality damage estimation algorithm

Info

Publication number: TWI390503B
Application number: TW098139304A
Authority: TW
Inventors: Yung Le Chang; Chun Feng Wu; Wen Whei Chang
Original assignee: Gemtek Technolog Co Ltd
Priority date: 2009-11-19
Filing date: 2009-11-19
Publication date: 2013-03-21
Also published as: US20110119565A1; TW201118863A

Description

雙通道語音傳輸系統、播放排程設計模組、封包編碼及漏失音質損害估測演算法

本發明是有關於一種語音傳輸系統，特別是指一種雙通道語音傳輸系統。

在VoIP技術中，以傳輸資料為主的網路來進行語音傳輸的最大困難點，在於語音封包透過網路傳輸時產生的通話延遲、延遲擾動以及封包漏失率等語音損害要素，皆會對網路語音通訊品質產生嚴重的影響。因此為了補償延遲擾動，習知一具體可行的方案是在接收端的應用層中加入一播放緩衝器，用以彈性調整每個收到的語音封包的播放時間。這種方式雖然會增加封包的整體延遲，但也相對降低了晚到封包漏失的機率，因此在語音封包的緩衝延遲與晚到漏失率之間存在一個最佳化權衡的問題，這也成為語音封包播放排程研究的重點課題。因為若排定一個較晚的播放時間，將提高封包播放的機率而降低封包漏失率，但也相對衍生較高的緩衝延遲。

而為了抵抗封包漏失，主要的方法是在傳送端引入前向錯誤控制(FEC)，而其原理是在傳輸原始封包的同時附加額外的保護資訊，讓接收端可以利用這些額外資訊來回復漏失的封包。然而由於接收端必須收到原始及額外資訊，才能透過FEC解碼機制來回復可能漏失的封包，所以將不可避免地為整個傳輸系統帶來額外的延遲損害。此外，一旦封包發生叢發性網路漏失，接收端將可能因為無法正確接收原始及額外資訊，而使得FEC無法發揮其封包回復的能力。

因此，近年來有學者提出多重敘述編碼技術(MDC)，其主要概念為將音框所屬的編碼參數分成兩個封包串流分別經由兩個相互獨立的傳輸路徑傳輸至接收端，接收端再由接收到的其中一條串流的封包來補償另一條串流所漏失封包的部分資訊，因此可以在不需增加整體延遲的情況下，有效提昇其音框播放品質。而且國際電信聯盟(ITU-T)更制定一個具體的音質預測模型(簡稱E模型，ITU-T G.107)來評估傳輸音質的好壞，並可提供系統規劃及調整系統關鍵元件之用。但由於ITU-T之音質預測模型原是針對單一敘述傳輸系統而設計，並無法精準預測多重敘述傳輸下的音框重建品質。

因此，本發明之一目的，即在提供一種更能精準預測音質損害之應用多重敘述(MD)傳輸及前向錯誤控制(FEC)機制的雙通道語音傳輸系統。

該雙通道語音傳輸系統包括一傳送端及一接收端。

傳送端包含對一段語音訊號編碼以產生複數個語音音框的一語音編碼器，以一固定的封包產生間隔T_p 將該等語音音框封包化並組成一第一封包串流及一第二封包串流的一多重敘述語音編碼器，兩個分別對該第一封包串流及第二封包串流進行前向錯誤控制編碼，以組成複數個由N個封包構成的前向錯誤控制區塊的前向錯誤控制編碼器，並分別經由網際網路之一第一通道及一第二通道將該等前向錯誤控制區塊傳送出去，每一前向錯誤控制區塊包含K個語音封包及(N-K)個檢查封包；且上述該等編碼器會產生一封包編碼延遲dc，以及一決定每一待傳送語音訊號之前向錯誤控制編碼的N、K值及其相對應的一播放排程調整係數β的播放排程設計模組。

該接收端，包含一記錄第一封包串流及第二封包串流在傳送過程中的網路延遲及網路漏失資訊，並據以求得對應的網路延遲參數及網路漏失參數，並回傳給該傳送端之播放排程設計模組的一網路資訊記錄模組，兩個分別對經由網際網路傳來的該第一封包串流及第二封包串流進行前向錯誤控制解碼，以從各該串流之前向錯誤控制區塊中解出複數多重敘述語音封包前向錯誤控制解碼器，一以具有該播放排程調整係數β的播放緩衝器依序接收該二前向錯誤控制解碼器傳來之各該串流的該等多重敘述語音封包，並將兩串流中的該等語音封包合併成完整語音音框的多重敘述解碼器，以及對該等語音音框解碼以輸出語音的一語音解碼器。

該播放排程設計模組係執行一播放排程最佳化演算法：R=94.2-I_e,avg -I_D (D)，其中I_D (D)係與該封包編碼延遲dc、網路延遲參數、N及β呈一函數關係，I_e,avg 係與網路延遲參數、網路漏失參數、N、K及β呈一函數關係，且該播放排程設計模組令β在一預設範圍內，N在一第一預設最大值內及K在一第二預設最大值內，並滿足N/K×一多重敘述編碼增益＜2以及K≧下一段語音訊號的封包數的條件下，重覆執行該播放排程最佳化演算法，以找出使R為最大的N、K及β值做為傳送下一段語音訊號的參數。

較佳地，該網路延遲參數包含Pareto分佈參數k_s 及g_s 和網路延遲累積分佈函數F_D,S (d)及網路延遲平均數d^{^} _i,s 和變異數v^{^} _i,s ，且該網路漏失參數是描述網路漏失情況的吉伯特通道模型參數p_s 、q_s ，且該多重敘述解碼器的播放緩衝器之一播放延遲，且D=d_play,i +dc。

較佳地，其中代表兩條串流都漏失的機率，ρ _j (i )包含封包於兩條串流皆成功接收的比例ρ₁ (i)和只有其中一條成功接收的比例ρ₂ (i)，I_e,j (e)包含對應於一音框所屬的兩條串流之封包皆成功接收情況下的第一封包編碼及漏失音質損害因子I_e,1 (e)及對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況(Ω₂ )下的第二封包編碼及漏失音質損害因子第一串流及第二串流之封包編碼及漏失損害因子I_e,2 (e)；而I _e _, _j (e )=γ _1, _j +γ _2, _j ln(1+γ _3, _j e ),j =1,2，其中γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是描述不同封包漏失造成之音質損害程度的封包漏失損害因子，且(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收及只有其中一條串流的封包成功接收時的音質損害程度。

較佳地，I_D (D)=0.024D+0.11(D-177.3)H(D-177.3)，其中H是一個步階函數。

藉此，由於播放排程設計模組之播放排程最佳化演算法是從接收端接收到每個話務的最後一個封包之後開始進行，並事先記錄最後一個封包之前的封包實際量測所得到的網路延遲與封包網路漏失狀態，再依據多重敘述傳輸過程的動態網路變動情形，在話務之間尋找能夠使每個話務的音質達到最佳狀態的系統參數(N,K,β)做為傳送下一個話務的依據，以達到有效地對抗封包漏失並提升音質的功效。

本發明之另一目的，在於提供一種更能精準預測音質損害的封包編碼及漏失音質損害估測演算法，用以估測一語音訊號經過多重敘述編碼而組成之一第一封包串流及一第二封包串流由一傳送端輸出並分別經由網際網路之一第一通道及一第二通道傳輸至一接收端所造成之封包編碼及漏失音質損害，其特徵在於：該封包編碼及漏失音質損害估測演算法基於一音框所屬的兩條語音封包串流皆成功接收之情況下的一第一語音編碼損害因子及一第一封包漏失損害因子，以及一音框所屬的兩條串流同時發生漏失的一漏失比例，求得一第一封包編碼及漏失音質損害估測值，以及基於一音框所屬的兩條串流只有其中一條成功接收之情況下的一第二語音編碼損害因子及一第二封包漏失損害因子，以及該漏失比例，求得一第二封包編碼及漏失音質損害估測值；並計算被接收之一音框所屬的兩條串流同時發生漏失的一第一比例，以及計算被接收之一音框所屬的兩條串流至少其中之一發生漏失的一第二比例，並根據該第一比例及該第二比例求得一音框所屬的兩條串流皆成功接收之情況下的一雙重接收比例，及一音框所屬的兩條串流只有其中一條成功接收之情況下的一單一接收比例；並以該雙重接收比例對該第一封包編碼及漏失音質損害估測值加權，並以該單一接收比例對該第二封包編碼及漏失音質損害估測值加權，再將兩者加總而求得該語音訊號之一封包編碼及漏失音質損害估測值。

較佳地，該封包編碼及漏失音質損害估測演算法可以下式表示：，其中I_e (e)是封包編碼及漏失音質損害估測值，e是兩條串流的封包都漏失的機率，ρ _j (i )包含封包於兩條串流皆成功接收的雙重接收比例ρ₁ (i)和只有其中一條成功接收的單一接收比例ρ₂ (i)，其中ρ₁ =(1-e_loss,1 )×(1-e_loss,2 )/(1-e)，其中e_loss,1 代表第一封包串流中封包漏失的機率，e_loss,2 代表第二封包串流中封包漏失的機率，且ρ₂ =1-ρ₁ ；而I_e,j (e)包含對應於一音框所屬的兩條串流之封包皆成功接收情況下的第一封包編碼及漏失音質損害估測值I_e,1 (e)，及對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況下的第二封包編碼及漏失音質損害估測值I_e,2 (e)，且I _e _, _j (e )=γ _1, _j +γ _2, _j ln(1+γ _3, _j e ),j =1,2，其中γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是描述不同封包漏失造成之音質損害程度的封包漏失損害因子，且(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收及只有其中一條串流的封包成功接收時的音質損害程度。

藉此，封包編碼及漏失音質損害估測演算法可以在雙通道傳輸系統未應用FEC機制時，更精確地估測一語音訊號經過多重敘述編碼並分別經由網際網路傳輸至一接收端所造成之封包編碼及漏失音質損害。

有關本發明之前述及其他技術內容、特點與功效，在以下配合參考圖式之一個較佳實施例的詳細說明中，將可清楚的呈現。

參見圖1，是本發明雙通道語音傳輸系統的一較佳實施例，其用以實現本發明雙通道語音傳輸方法，並包括經由網際網路傳輸語音訊號的一傳送端100及一接收端200。

傳送端100包含一語音編碼器11、一多重敘述語音編碼器12、兩個前向錯誤控制(Forward Error Control,以下簡稱FEC)編碼器13、14及一播放排程設計模組15。

如圖2所示，是本發明雙通道語音傳輸方法的一較佳實施例流程圖，首先如步驟31，傳送端100之語音編碼器11對輸入之一語音訊號進行編碼。在一般VoIP語音通話中，一段語音中會包涵話務(talkspurt)及靜音(silence)兩部分，例如”大家好，我是xxx，請多多指教”這段話中即包含了由逗號隔開的3個話務(三段子句)，每個話務之間的空白(停頓)就是靜音。而且，本實施例之語音編碼器是以G.729a或AMR-WB語音編碼標準對每個話務進行語音編碼，以產生複數個語音音框，因此每個經過語音編碼的話務是由數個語音音框所組成。

多重敘述(Multiple Description,以下簡稱MD)語音編碼器12對每個話務的音框進行MD編碼，將音框封包化(packetization)並分成兩條封包串流(以下稱第一封包串流及第二封包串流)後，分別送至兩個FEC編碼器13、14。

本實施例之FEC編碼器是使用(N,K)區塊碼的編碼方式，以K個語音封包來產生(N-K)個檢查封包，再共同組成一個包含N個封包的編碼區塊再傳遞出去。如此，則當N個封包中至少有K個被接收端成功接收時，則其它的漏失封包皆可被回復。且本實施例是採用Reed-Solomon(RS)編碼器做為FEC編碼器13、14，一般來說Reed-Solomon(RS)編碼器可以更正(N-K)/2個封包漏失，但若確知漏失封包的位置時，則可更正(N-K)個封包漏失。

因此，分別經過兩個FEC編碼器13、14編碼後的第一封包串流S₁ 及第二封包串流S₂ 會分別包含複數個FEC區塊，每個FEC區塊包含N個封包，並分別經由網際網路相互獨立的一第一通道及一第二通道傳輸給接收端200。

而且接收端之語音編碼器11、MD編碼器12及FEC編碼器13、14在編碼的過程中，會產生一編碼延遲dc，該編碼延遲dc會被記錄在播放排程設計模組15中，以做為播放排程設計模組15設計下一個話務之播放排程的參考，播放排程設計模組15用以決定每一待傳送話務之FEC編碼的N、K值及其相對應的一播放排程調整係數β，細節容後說明。

接收端200包含一網路資訊記錄模組21、兩個前向錯誤控制(下稱FEC)解碼器22、23、一多重敘述(下稱MD)解碼器24及一語音解碼器25。

且如圖2之步驟32，網路資訊記錄模組21偵測經由第一通道及第二通道傳輸之第一封包串流S1及第二封包串流S2的封包在網際網路中的網路延遲及網路漏失資訊並記錄，並根據記錄的結果求得描述網路延遲的Pareto分佈參數k_s 及g_s 和網路延遲累積分佈函數F_D,S (D)，描述網路漏失情況的吉伯特通道模型參數p_s 、q_s ，以及代表封包網路延遲的平均估計值和變異數估計值(網路延遲參數)，其中和分別是以下列的自迴歸方法(Autoregressive,AR method)來估計：

其中，第s(s=1,2)串流中的第i個封包網路延遲的平均與變異數之估計值，是由該串流中前一個封包對應的估測計值{}，配合其實際量測的網路延遲n _i _-1, _s 分別加權所組成，在此α值設為0.998002。β是用來設定播放延遲d_play,i 的播放排程調整係數，讓接收端設定的播放時間比封包抵達的估計時間更晚一點，讓播放排程有更足夠的時間來播放。

再者由於網路延遲累積分佈函數F_D,S (D)與k_s 、g_s 具有一函數關係：F_D,s (D)=1-(k_s /D)^gs ,D≧k_s 所以只要給定F_D,s (D)函數形式就可以知道(k_s ,g_s )，同樣地只要給定(k_s ,g_s )，也可推得F_D,s (D)。

然後，網路資訊記錄模組21將該些參數k_s 、g_s 、F_D,S (D)、p_s 、q_s 、和利用傳送端100傳送下一個話務之前的空檔回傳給傳送端100的播放排程設計模組15。

同時，兩個FEC解碼器22、23分別接收經由網際網路傳來的第一封包串流S1及第二封包串流S2並對其中的FEC區塊並進行FEC解碼，以從各串流之FEC區塊中解出MD語音封包後，再將各串流之該等MD語音封包分別送入MD解碼器24中進行MD解碼，以將兩串流中的該等MD語音封包合併成對應的完整語音音框，如圖3之例子，其顯示一個話務的42個G.729音框經由MD解碼器24解碼後的情形，其中黑實心框代表兩條串流的封包皆成功接收(Ω₁ )並經由MD解碼後的音框，黑線框代表只有其中一條串流的封包被成功接收(Ω₂ )並經由MD解碼後的音框，而兩條串流的封包皆發生漏失(Ω₃ )的音框刪除則由虛線框來表示。最後，語音解碼器25對MD解碼後的音框進行語音解碼以重建(還原)語音訊號並輸出。

此外，MD解碼器24會以具有該調整係數β之播放緩衝器所設定之播放延遲d_play,i 來接收語音封包，這是因為在網路語音傳輸系統中，傳送端100之MD編碼器12會以固定的封包產生間隔T_p 產生封包後再經由網路傳送，但由於網路本身的特性，會造成每個封包的延遲不會固定，以致有些封包會在接收端預定的播放時間之後才到達，因此，在MD解碼器24中設置播放緩衝器可使封包抵達後先暫存於緩衝器一小段時間(即播放延遲d_play,I )再播放，可大幅減少封包因晚到而漏失的機率，但播放緩衝器的長度將影響整體語音的播放延遲時間，因此為因應網路時變特性，本實施例之播放排程設計模組15將針對每一話務選擇適當的調整係數β來調整播放緩衝器長度，以在封包漏失及播放延遲之間取得平衡點，其做法容後詳述。

當播放排程設定模組15收到網路資訊記錄模組21傳來之該些網路參數k_s 、g_s 、F_D,S (D)、p_s 、q_s 、和後，其執行一播放排程最佳化演算法，以找尋最佳的N、K及β值，播放排程最佳化演算法為：

R =94.2-I _e,avg -I _d (D )

以及K≧下一個話務的封包數

其中R代表音質評量標準，當R越大時，表示接收端收到的語音音質越佳，因此，在p_s 、q_s 、d_i,s 、V_i,s 、k_s 、g_s 、F_D,S (D)、T_p 、dc皆已知的情況下，該演算法將擇定使R為最大的N、K及β 值，以使語音在傳送過程中的音質損害降到最低。

該最佳化演算法是以一最佳化演算程式來實現，且該程式是以搜尋的方式，在合理的範圍內，尋找出可使R值最大的系統傳輸參數(N,K,β )。程式執行流程概略如下(“//”代表註解)：

Initial：R₁ =0；R₂ =0；

FOR β _search =β _min ：u：β _max //設定β 的尋找範圍，u為尋找的間隔；例如β _min ：u：β _max =1：0.5：10

FOR K _search =1：1：K _max //K_search =1,2,3,...,K_max ，例如K_max =8

FOR N _search =K _search +1：1：N _max //N_search =K_search +1,K_search +2,...,N_max ，例如N_max =15

IF(N _search /K _search )×(MD coding gain) <2 //先判斷是否符合(N,K)的限制，符合才進行以下步驟；

D =d^{^} _i,1 +β _search × v^{^} _i,1 +(N _search -1)×T _p +dc //先使用第一封包串流的網路延遲參數，也就是(d^{^} _i,1 ,v^{^} _i,1 )；

I _d (D) =0.024D+0.11(D-177.3)H(D-177.3)//求得I _d (D)， 其中H是一個步階函數；

I _e,temp =_Ie,avg (N _search ,K _search ,β _search ,p ₁ ,q ₁ ,F _D,1 (D),(k ₁ ,g ₁ ),p ₂ ,q ₂ ,F _D,2 (D),(k ₂ ,g ₂ ), d^{^} _i,1 ,v^{^} _i,1 ) //這部分I_e,avg 是以subfunction形式呈現，輸入N_search ,K_search ,β _search ，網路參數(第s串流，s=1,2)，然後求得I_e,temp 值(容後詳述)。

R _{1_temp} =94.2-Id(D)-I _e,temp //計算在此參數(N_search ,K_search ,β _search )下的R值。

IF R _{1_temp} >R ₁ //計算完後，與前幾次尋找出的最大R值(R1)做比較，如果比較大，則記錄其對應的值(R1,N_searc h,K_search ,β _search )，而R₁ 將與下一個迴圈計算出的R_{1_temp} 做比較；

R ₁ =R ₁ _ _temp ；

N _{_1} =N _search ；K _{_1} =K _search ；β _{_1} =β _search ；

END IF //目前為止，演算法已找出針對第一串流之最佳的系統傳輸參數，及其對應的R值(R₁ )。

//接著，使用串流2的網路延遲參數，以下步驟如上。

D =d^{^} _i,2 +β _search × v^{^} _i,2 +(N _search -1)×T _p +dc// 第二封包串流的網路延遲參數，也就是(d^{^} _i,2 ,v^{^} _i,2 )；

I _d (D) =0.024D+0.11(D-177.3)H(D-177.3)//求得I _d (D)

I _e,temp =I _e,avg (N _search ,K _search ,β _search ,p ₁ ,q ₁ ,F _D,1 (D),(k ₁ ,g ₁ ),p ₂ ,q ₂ ,F _D,2 (D),(k2,g2), d^{^} i,2,v^{^} i,2)// 求得I _e,temp

R _{2_temp} =94.2-Id(D)-I _e,temp

IF R _{2_temp} >R ₂

R ₂ =R _{2_temp}

N _{_2} =N _search ；K _{_2} =K _search ；β _{_2} =β _search ；

END IF //到此為止，演算法也已找出針對第二串流之最佳的系統傳輸參數，及其對應的R值(R₂ )。

END IF

END

END //在上面三層for迴圈結束後，我們已找到兩組參數，分別是(N_{_1} ,K_{_1} ,β _{_1} )及(N_{_2} ,K_{_2} ,β _{_2} )。由於傳輸時，兩條串流所傳送的內容是屬於同一個封包資訊，因此兩條串流的播放排程必須相同，以便於能夠合併還原封包來播放，所以接下的步驟，就是要在這兩組參數中選擇一組最佳的。

IF R ₁ >R ₂ //假如R₁ 比R₂ 大，則將使用R₁ 對應的最佳參數(N_{_1} ,K_{_1} ,β _{_1} )。

(N,K,β) =(N _{_1} ,K _{_1} ,β _{_1} )

d_play,i (播放延遲)=d^{^} i,1+β× v^{^} i,1+(N-1)×T _p

ELSE //否則，就使用R₂ 對應的最佳參數(N_{_2} ,K_{_2} ,β _{_2} )。

(N,K,β) =(N _{_2} ,K _{_2} ,β _{_2} )

d_play,i (播放延遲)=d^{^} i,2+β× v^{^} i,2+(N-1)×T _p

END IF

最後，則以(N,K,β )做為下一段話務的最佳傳輸參數，而d_play,i (播放延遲)就做為接收端具有最佳調整係數β 的下一段話務之播放排程。

求I _e,temp 值：

I_e,avg (即I_e,temp )在程式中是以函數(function)來呈現，而其相關數學式子及推導如下：

其中代表使用FEC編碼機制下的兩條串流都漏失的機率，也就是封包不能被播放的機率。另外，與封包編碼及漏失音值損害估測相關的串流接收比例ρ _j (i )，其在此的數學表示為：

ρ ₂ (i)=1-ρ₁ (i)

其中P_FEC,s (i)(s=1,2)代表第s串流中，當封包發生晚到或網路漏失卻都無法由FEC回復的機率。且P_FEC,s (i)可以進一步寫成：

其中；F_D,s (D_FEC,i )代表封包i的網路延遲小於D_FEC,i 的機率，P_REC1,s (i)及P_REC2,s (i)分別代表第s串流的第i個封包發生網路及晚到漏失後可經由FEC回復的機率。且經由相關推導，可以證明P_REC1,s (i)及P_REC2,s (i)這兩項機率可以表示為：

其中R _s '(m +1,i ,D _FEC,i )及是表示第s串流中第i個封包發生網路漏失之後和之前的n-1個封包內有m-1個封包發生網路或晚到漏失的機率，S _s '(m +1,i ,D _FEC,i )及則代表接受到第s串流中第i個封包之後和之前的n-1個封包內接受到了m-1個封包的機率。有關於P_REC1,s (i)及P_REC2,s (i)之運算式係參考Technical Report IC/2002/35中所發表之論文”ADAPTIVE JOINT PLAYOUT BUFFER AND FEC ADJUSTMENT FOR INTERNET TELEPHONY”內容修改而成。

因此給定了(N_search ,K_search ,β_search )及相關網路參數，透過以上的計算就可以得到ρ ₁ 、ρ₂ 及值。

而由於以非線性迴歸分析可以導出封包編碼及漏失損害因子I _e _, _j (e )=γ _1, _j +γ _2, _j ln(1+γ _3, _j e ),j =1,2，其中I_e,1 (e)是對應於一音框所屬的兩條串流之封包皆成功接收情況(Ω₁ )下的第一封包編碼及漏失音質損害估測值，及I_e,2 (e)是對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況(Ω₂ )下的第二封包編碼及漏失音質損害估測值。

且如下表1所示，上式中之γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是非線性迴歸數學式子，其分別描述不同封包漏失造成之音質損害程度，且γ₁ 、γ₂ 、γ₃ 是以習知數值分析方法求得，其中(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收(Ω₁ )及只有其中一條串流的封包成功接收(Ω₂ )時的封包編碼及漏失音質損害程度值。

因此，將(即e值)及表1中對應的γ₁ 、γ₂ 、γ₃ 代入上式中，即可求得I_e,1 (e)及I_e,2 (e)。

最後將ρ ₁ 、ρ₂ 、I_e,1 (e)及I_e,2 (e)代入式1中，即可估算出當傳輸系統設定(N_search ,K_search ,β_search )這組傳輸參數時，則當封包傳輸於當下的網路傳輸環境(所謂的”當下的網路傳輸環境”是由接收端回傳的網路參數來描述)時，其受到封包編碼及網路漏失損害後，經由FEC解碼及MD解碼回復之後的封包編碼及漏失音質損害估測值(I_e,avg )。

因此，經由上述播放排程最佳化演算法找到使R值達到最大的N、K及β值後，該(N、K)值被送給FEC編碼器13、14做為下一個話務的FEC區塊編碼參數，而β值則被傳給接收端200，做為用來調整MD解碼器24接收下一個話務之語音封包的播放緩衝器長度的調整係數。

值得一提的是，本實施例之封包編碼及漏失音質損害估測值(Ie,avg)是同時考量到FEC編碼的回復能力(估計正確接收到至少K個封包的機率)以及MD編碼重建後的封包播放品質(估計雙重接收比例及單一接收比例)的封包編碼及漏失音質損害估測值。

綜上所述，由於播放排程設計模組之音質最佳化演算法是從接收端200接收到每個話務的最後一個封包之後開始進行，並事先記錄最後一個封包之前L個封包實際量測所得到的網路延遲與封包網路漏失狀態，再依據MD傳輸過程的動態網路變動情形，在話務之間尋找能夠使每個話務的音質達到最佳狀態的系統參數(N,K,β)，並將(N,K)用在傳送端傳送下一個話務的FEC編碼中，而同時等待接收下一個話務的接收端，因此，其MD解碼器24則依據調整係數β決定其播放緩衝器長度，並將第i個封包的FEC緩衝延遲調整為，播放延遲d_play,i 設定為，以及整體延遲D_m2e =d_play,i +dc。藉此，使接收端能收到音質狀態最佳的語音。

再者，如圖4所示，當語音傳輸系統之傳送端400未使用FEC編碼機制，而接收端500不用考慮FEC編碼的回復能力時，則傳送端400之播放排程設計模組43之播放排程最佳化演算法只要找到最佳的β值即可，亦即當播放排程設計模組43收到網路資訊記錄模組51傳來之該些網路參數k_s 、g_s 、F_D,S (D)、p_s 、q_s 、和後，其執行之播放排程最佳化演算法即簡化為：

R =94.2-I _e (e )-I _d (D )

其中R代表音質評量標準，當R越大時，表示接收端收到的語音音質越佳，因此，在p_s 、q_s 、d_i,s 、V_i,s 、k_s 、g_s 、F_D,S (D)、T_p 、dc皆已知的情況下，該演算法將擇定使R為最大的β值，以使語音在傳送過程中的音質損害降到最低。

該最佳化演算法是以一最佳化演算程式來實現，且該程式是以搜尋的方式，在合理的範圍內，尋找出可使R值最大的β值。程式執行流程概略如下(“//”代表註解)：

Initial:R₁ =0;R₂ =0;

D =d^{^} _i,1 +β _search × v^{^} _i,1 +dc //先使用第一封包串流的網路延遲參數，也就是(d^{^} _i,1 ,v^{^} _i,1 )；

I _d (D) =0.024D+0.11(D-177.3)H(D-177.3)//求得I _d (D) ，其中H是一個步階函數；

I _e,temp =I _e (β _search ,p ₁ ,q ₁ ,F _D,1 (D),(k ₁ ,g ₁ ),p ₂ ,q ₂ ,F _D,2 (D),(k ₂ ,g ₂ ), d^{^} _i,1 ,v^{^} _i,1 )//這部分I_e 是以subfunction形式呈現，輸入β _search 、網路參數(第s串流，s=1,2)，然後求得I_e,temp 值(容後詳述)。

R _{1_temp} =94.2-I _e,temp -I _d (D) //計算在此β _search 參數下的R值。

IF R _{1_temp} >R ₁ //計算完後，與前幾次尋找出的最大R值(R₁ )做比較，如果比較大，則記錄其對應的值(R₁ ,β _search )，而R₁ 將與下一個迴圈計算出的R_{1_temp} 做比較；

R ₁ =R _{1_temp} ；

β _{_1} =β _search ；

END IF //目前為止，演算法已找出針對第一串流之最佳的系統傳輸參數β(β _{_1} ) ，及其對應的R值(R₁ )。

//接著，使用第二封包串流的網路延遲參數來求得R值 (R₂ )，以下步驟如上。

D =d^{^} _i,2 +βsearch× v^{^} _i,2 +dc// 第二封包串流的網路延遲參數，也就是(d^{^} _i,2 ,v^{^} _i,2 )；

I _d (D) =0.024D+0.11(D-177.3)H(D-177.3)//求得I _d (D)

I _e,temp =I _e (β _search ,p ₁ ,q ₁ ,F _D,1 (D),(k ₁ ,g ₁ ),p ₂ ,q ₂ ,F _D,2 (D),(k ₂ ,g ₂ ), d^{^} _i,2 ,v^{^} _i,2 )//求得I _e,temp

R _{2_temp} =94.2-I _e,temp -I _d (D)

IF R _{2_temp} >R ₂

R ₂ =R _{2_temp}

β _{_2} =β _search ；

END IF //到此為止，演算法也已找出針對第二串流之最佳的系統傳輸參數β _{_2} ，及其對應的R值(R₂ )。

END IF

END //在上面for迴圈結束後，可以找到兩組參數β _{_1} 及β _{_2} 。由於傳輸時，兩條串流所傳送的內容是屬於同一個封包資訊，因此兩條串流的播放排程必須相同，以便於能夠合併還原封包來播放，所以接下的步驟，就是要在這兩組參數中選擇一組最佳的。

IF R ₁ >R ₂ //假如R₁ 比R₂ 大，則將使用R₁ 對應的最佳參數β _{_1} 。

β =β _{_1}

d_play,i (播放延遲)=d^{^} _i,1 +β× v^{^} i,1

ELSE //否則，就使用R₂ 對應的最佳參數β _{_2} 。

β =β _{_2}

d_play,i (播放延遲)=d^{^} _i,2 +β× v^{^} i,2

END IF

最後，則以β 做為下一段話務的最佳傳輸參數，而d_play,i (播放延遲)就做為接收端具有最佳調整係數β 的下一段話務之播放排程。

求I _e,temp 值：

在尋找最佳的β 值的過程中，由於不考慮FEC編碼機制，所以I_e,temp 值可以一簡化之封包編碼及漏失音質損害估測演算法來表示，其中e代表封包不能被播放的機率，即兩條串流的封包都漏失的機率，所以e可以寫成：e=e_loss,1 ×e_loss,2 =(P_n1 +(1-P_n1 )×P_b1 )×(P_n2 +(1-P_n2 )×P_b2 )；其中e_loss,s (s=1,2)代表第s串流中，封包漏失的機率。而P_n1 +(1-P_n1 )×P_b1 係指第一條串流封包網路漏失(P_n1 )或封包沒發生網路漏失(1-P_n1 )但卻晚到了(P_b1 )的機率。同理，P_n2 +(1-P_n2 )×P_b2 係指第二條串流封包網路漏失(P_n2 )或封包沒發生網路漏失(1-P_n2 )但卻晚到了(P_b2 )的機率。而P_bs =1-F_D,s (d_play,i )表示封包晚到漏失的機率，s=1,2；，所以，(1-e)的意思就是封包可以被播放的機率。因此可以求得雙重接收比例ρ ₁ =(1-e_loss,1 )×(1-e_loss,2 )/ (1-e)，也就是在封包可以被播放的前提之下，封包是由兩條串流資訊合併而成的機率，且ρ ₂ =1-ρ ₁ ，且由上述封包編碼及漏失損害因子I _e,j (e )=γ _1,j +γ _2,j 1n(1+γ _3,j e ),j =1,2及表1可以求得I_e,1 (e)及I_e,2 (e)，即可進一步求得I_e,temp =I_e (e)=ρ ₁ ×I_e,1 (e)+ρ ₂ ×I_e,2 (e)，再代入前述之播放排程最佳化演算法中，即可估算出當傳輸系統設定β _search 這組傳輸參數時，則當封包傳輸於當下的網路傳輸環境(所謂的”當下的網路傳輸環境”是由接收端回傳的網路參數來描述)時，其受到封包編碼及網路漏失損害後，經由MD解碼回復之後的封包編碼及漏失音質損害估測值I_e,temp 。

因此，經由上述播放排程最佳化演算法找到使R值達到最大的β 值後，該β 值則被傳給接收端500，做為用來調整MD解碼器52接收下一個話務之語音封包的播放緩衝器長度的調整係數。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

100、400．．．傳送端

200、500．．．接收端

11、41．．．語音編碼器

12、42．．．多重敘述(MD)編碼器

13、14．．．前向錯誤控制(FEC)編碼器

15、43．．．播放排程設計模組

21、51．．．網路資訊記錄模組

22、23．．．前向錯誤控制(FEC)解碼器

24、52．．．多重敘述(MD)解碼器

25、53．．．語音解碼器

31~33．．．步驟

圖1是本發明雙通道語音傳輸系統應用FEC機制的一較佳實施例的系統方塊圖；圖2是本發明雙通道語音傳輸方法的一較佳實施例之流程圖；圖3是本實施例之接收端所收到之一話務的語音音框示意圖；及

圖4是本發明雙通道語音傳輸系統未應用FEC機制的一較佳實施例的系統方塊圖。

31~33．．．步驟

Claims

一種雙通道語音傳輸系統，包括：一傳送端，包含：一語音編碼器，對一段語音訊號編碼以產生複數個語音音框；一多重敘述語音編碼器，以一固定的封包產生間隔T_p 將該等語音音框封包化並組成一第一封包串流及一第二封包串流；兩個前向錯誤控制編碼器，分別對該第一封包串流及第二封包串流進行前向錯誤控制編碼，以組成複數個由N個封包構成的前向錯誤控制區塊，並分別經由網際網路之一第一通道及一第二通道傳送出去，每一前向錯誤控制區塊包含K個語音封包及(N-K)個檢查封包；且上述該等編碼器會產生一封包編碼延遲dc，及一播放排程設計模組，決定每一待傳送語音訊號之前向錯誤控制編碼的N、K值及其相對應的一播放排程調整係數β；一接收端，包含：一網路資訊記錄模組，偵測並記錄經由第一通道及第二通道傳送至接收端之第一封包串流及第二封包串流在傳送過程中的網路延遲及網路漏失資訊，並據以求得對應的網路延遲參數及網路漏失參數後回傳給該傳送端之播放排程設計模組；兩個前向錯誤控制解碼器，分別對經由網際網路傳來的該第一封包串流及第二封包串流進行前向錯誤控制解碼，以從各該串流之前向錯誤控制區塊中解出複數多重敘述語音封包；一多重敘述解碼器，以具有該播放排程調整係數β的播放緩衝器依序接收該二前向錯誤控制解碼器傳來之各該串流的該等多重敘述語音封包，並將兩串流中的該等語音封包合併成完整語音音框；及一語音解碼器，對該等語音音框解碼以輸出語音；其中，該播放排程設計模組係執行一播放排程最佳化演算法：R=94.2-I_e,avg -I_D (D)其中I_D (D)係與該封包編碼延遲dc、網路延遲參數、N及β呈一函數關係，I_e,avg 係與網路延遲參數、網路漏失參數、N、K及β呈一函數關係，且該播放排程設計模組令β在一預設範圍內，N在一第一預設最大值內及K在一第二預設最大值內，並滿足N/K×一多重敘述編碼增益＜2以及K≧下一段語音訊號的封包數的條件下，重覆執行該播放排程最佳化演算法，以找出使R為最大的N、K及β值做為傳送下一段語音訊號的參數。
依據申請專利範圍第1項所述之雙通道語音傳輸系統，其中該網路延遲參數包含Pareto分佈參數k_s 及g_s 和網路延遲累積分佈函數F_D,S (d)及網路延遲平均數d^{^} _i,s 和變異數v^{^} _i,s ，且該網路漏失參數是描述網路漏失情況的吉伯特通道模型參數p_s 、q_s 。
依據申請專利範圍第2項所述之雙通道語音傳輸系統，其中該多重敘述解碼器的播放緩衝器之一播放延遲d_play,i =，且D=d_play,i +dc。
依據申請專利範圍第3項所述之雙通道語音傳輸系統，其中代表兩條串流都漏失的機率，ρ _j (i )包含封包於兩條串流皆成功接收的比例ρ₁ (i)和只有其中一條成功接收的比例ρ₂ (i)，I_e,j (e)包含對應於一音框所屬的兩條串流之封包皆成功接收情況下的第一封包編碼及漏失音質損害因子I_e,1 (e)及對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況(Ω₂ )下的第二封包編碼及漏失音質損害因子第一串流及第二串流之封包編碼及漏失損害因子I_e,2 (e)。
依據申請專利範圍第4項所述之雙通道語音傳輸系統，其中I _e _, _j (e)=γ _1, _j +γ _2, _j ln(1+γ _3, _j e ),j =1,2，其中γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是描述不同封包漏失造成之音質損害程度的封包漏失損害因子，且(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收及只有其中一條串流的封包成功接收時的音質損害程度。
依據申請專利範圍第3項所述之雙通道語音傳輸系統，其中I_D (D)=0.024D+0.11(D-177.3)H(D-177.3)，其中H是一個步階函數。
依據申請專利範圍第1項所述之雙通道語音傳輸系統，其中一段語音訊號包涵多個有聲音的語音話務以及介於每個語音話務之間沒有聲音的靜音，該語音話務即是該段語音訊號中的一個語音話務。
一種雙通道語音傳輸方法，應用於一傳送端與一接收端之間，該方法包括：(A)令該傳送端對一段語音訊號進行多重敘述編碼及前向錯誤控制編碼，以一固定的封包產生間隔T_p 產生一包含複數個由N個封包構成的前向錯誤控制區塊的第一封包串流及一包含複數個由N個封包構成的前向錯誤控制區塊的第二封包串流，並分別經由網際網路的一第一通道及一第二通道傳輸出去，且每一前向錯誤控制區塊包含K個語音封包及(N-K)個檢查封包，且上述編碼過程會產生一封包編碼延遲dc；(B)令該接收端以一具有一播放排程調整係數β之播放緩衝器接收該第一封包串流及第二封包串流，且偵測並記錄該第一封包串流及第二封包串流在傳送過程中的網路延遲及網路漏失資訊，並據以求得對應的網路延遲參數及網路漏失參數並回傳給該傳送端；及(C)令該傳送端執行一播放排程最佳化演算法：R=94.2-I_e,avg -I_D (D)，其中I_D (D)係與該封包編碼延遲dc、網路延遲參數、N及β呈一函數關係，I_e,avg 係與網路延遲參數、網路漏失參數、N、K及β呈一函數關係，且該傳送端令β在一預設範圍內，N在一第一預設最大值內及K在一第二預設最大值內，並滿足N/K×一多重敘述編碼增益<2以及K≧下一段語音訊號的封包數的條件下，重覆執行該播放排程最佳化演算法，以找出使R為最大的N、K及β 值做為傳送下一段語音訊號的參數。
依據申請專利範圍第8項所述之雙通道語音傳輸方法，其中步驟(B)之該網路延遲參數包含Pareto分佈參數k_s 及g_s 和網路延遲累積分佈函數F_D,S (d)，以及網路延遲平均數d^{^} _i,s 和變異數v^{^} _i,s 且該網路漏失參數是描述網路漏失情況的吉伯特通道模型參數p_s 、q_s 。
依據申請專利範圍第9項所述之雙通道語音傳輸方法，其中該播放緩衝器之一播放延遲，且D=d_play,i +dc。
依據申請專利範圍第10項所述之雙通道語音傳輸方法，其中，其中代表兩條串流都漏失的機率，ρ _j (i )包含封包於兩條串流皆成功接收的比例ρ ₁ (i)和只有其中一條成功接收的比例ρ ₂ (i)，I_e,j (e)包含對應於一音框所屬的兩條串流之封包皆成功接收情況下的第一封包編碼及漏失音質損害因子I_e,1 (e)及對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況(Ω₂ )下的第二封包編碼及漏失音質損害因子第一串流及第二串流之封包編碼及漏失損害因子I_e,2 (e)。
依據申請專利範圍第11項所述之雙通道語音傳輸方法，其中I _e,j (e )=γ _1,j +γ _2,j 1n(1+γ _3,j e ),j =1,2，其中γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是描述不同封包漏失造成之音質損害程度的封包漏失損害因子，且(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收及只有其中一條串流的封包成功接收時的音質損害程度。
依據申請專利範圍第10項所述之雙通道語音傳輸方法，其中I_D (D)=0.024D+0.11(D-177.3)H(D-177.3)，其中H是一個步階函數。
一種播放排程設計模組，應用於一傳送端，用以決定每一待傳送至一接收端之語音話務的前向錯誤控制編碼的N、K值及其相對應的一播放排程調整係數β，該傳送端對一段語音話務進行多重敘述編碼及前向錯誤控制編碼，並以一固定的封包產生間隔T_p 產生一包含複數個由N個封包構成的前向錯誤控制區塊的第一封包串流及一包含複數個由N個封包構成的前向錯誤控制區塊的第二封包串流，並分別經由網際網路的一第一通道及一第二通道傳輸出去，且每一前向錯誤控制區塊包含K個語音封包及(N-K)個檢查封包，且上述編碼過程會產生一封包編碼延遲dc；該接收端以一具有該播放排程調整係數β之播放緩衝器接收該第一封包串流及第二封包串流，且偵測並記錄該第一封包串流及第二封包串流在傳送過程中的網路延遲及網路漏失資訊，並據以求得對應的網路延遲參數及網路漏失參數並回傳給該傳送端；其特徵在於：該播放排程設計模組執行一播放排程最佳化演算法：R=94.2-I_e,avg -I_D (D)，其中I_D (D)係與該封包編碼延遲dc、網路延遲參數、N及β呈一函數關係，I_e,avg 係與網路延遲參數、網路漏失參數、N、K及β呈一函數關係，且該播放排程設計模組令β在一預設範圍內，N在一第一預設最大值內及K在一第二預設最大值內，並滿足N/K×一多重敘述編碼增益＜2以及K≧下一段語音訊號的封包數的條件下，重覆執行該播放排程最佳化演算法，以找出使R為最大的N、K及β值做為傳送下一段語音訊號的參數。
依據申請專利範圍第14項所述之播放排程設計模組，其中該網路延遲參數包含Pareto分佈參數k_s 及g_s 和網路延遲累積分佈函數F_D,S (d)，以及網路延遲平均數d^{^} _i,s 和變異數v^{^} _i,s ，且該網路漏失參數包含描述網路漏失情況的吉伯特通道模型參數p_s 、q_s 。
依據申請專利範圍第15項所述之播放排程設計模組，其中該播放緩衝器之一播放延遲，且D=d_play,i +dc。
依據申請專利範圍第16項所述之播放排程設計模組，其中代表兩條串流都漏失的機率，ρ _j (i )包含封包於兩條串流皆成功接收的比例ρ₁ (i)和只有其中一條成功接收的比例ρ₂ (i)，I_e,j (e)包含對應於一音框所屬的兩條串流之封包皆成功接收情況下的第一封包編碼及漏失音質損害因子I_e,1 (e)及對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況下的第二封包編碼及漏失音質損害因子第一串流及第二串流之封包編碼及漏失損害因子I_e,2 (e)。
依據申請專利範圍第17項所述之播放排程設計模組，其中I _e _, _j (e)=γ _1, _j +γ _2, _j ln(1+γ _3, _j e ),j =1,2，其中γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是描述不同封包漏失造成之音質損害程度的封包漏失損害因子，且(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收及只有其中一條串流的封包成功接收時的音質損害程度。
依據申請專利範圍第16項所述之播放排程設計模組，其中I_D (D)=0.024D+0.11(D-177.3)H(D-177.3)，其中H是一個步階函數。
一種封包編碼及漏失音質損害估測演算法，用以估測一語音訊號經過多重敘述編碼而組成之一第一封包串流及一第二封包串流由一傳送端輸出並分別經由網際網路之一第一通道及一第二通道傳輸至一接收端所造成之封包編碼及漏失音質損害，其特徵在於：該演算法基於一音框所屬的兩條語音封包串流皆成功接收之情況下的一第一語音編碼損害因子及一第一封包漏失損害因子，以及一音框所屬的兩條串流同時發生漏失的一漏失比例，求得一第一封包編碼及漏失音質損害估測值，以及基於一音框所屬的兩條串流只有其中一條成功接收之情況下的一第二語音編碼損害因子及一第二封包漏失損害因子，以及該漏失比例，求得一第二封包編碼及漏失音質損害估測值；並計算被接收之一音框所屬的兩條串流同時發生漏失的一第一比例，以及計算被接收之一音框所屬的兩條串流至少其中之一發生漏失的一第二比例，並根據該第一比例及該第二比例求得一音框所屬的兩條串流皆成功接收之情況下的一雙重接收比例，及一音框所屬的兩條串流只有其中一條成功接收之情況下的一單一接收比例；並以該雙重接收比例對該第一封包編碼及漏失音質損害估測值加權，且以該單一接收比例對該第二封包編碼及漏失音質損害估測值加權，再將兩者加總而求得該語音訊號之一封包編碼及漏失音質損害估測值。
依據申請專利範圍第20項所述之封包編碼及漏失音質損害估測演算法，其中該演算法可以下式表示：，其中I_e (e)是封包編碼及漏失音質損害估測值，e是兩條串流的封包都漏失的機率，ρ _j (i )包含封包於兩條串流皆成功接收的雙重接收比例ρ₁ (i)和只有其中一條成功接收的單一接收比例ρ₂ (i)，I_e,j (e)包含對應於一音框所屬的兩條串流之封包皆成功接收情況下的第一封包編碼及漏失音質損害估測值I_e,1 (e)，及對應於一音框所屬的兩條串流之封包只有其中一條成功接收情況下的第二封包編碼及漏失音質損害估測值I_e,2 (e)。
依據申請專利範圍第20項所述之封包編碼及漏失音質損害估測演算法，其中I _e,j (e )=γ ₁ _,j +γ ₂ _,j ln(1+γ _3, _j e ),j =1,2，其中γ₁ 是語音編碼損害因子，γ₂ 及γ₃ 是描述不同封包漏失造成之音質損害程度的封包漏失損害因子，且(γ_1,1 、γ_2,1 、γ_3,1 )及(γ_1,2 、γ_2,2 、γ_3,2 )分別對應於兩串流之封包皆成功接收及只有其中一條串流的封包成功接收時的音質損害程度。
依據申請專利範圍第21項所述之封包編碼及漏失音質損害估測演算法，其中ρ₁ =(1-e_loss,1 )×(1-e_loss,2 )/(1-e)，其中e_loss,1 代表第一封包串流中封包漏失的機率，e_loss,2 代表第二封包串流中封包漏失的機率，且ρ₂ =1-ρ₁ 。