TWI623216B

TWI623216B - 用於控制語音品質的方法和裝置

Info

Publication number: TWI623216B
Application number: TW105104967A
Authority: TW
Inventors: 飛利浦魏因加納; 艾瑞克塞爾; 克里斯多夫布根特; 傑洛米派倫
Original assignee: 英特爾股份有限公司
Priority date: 2015-03-24
Filing date: 2016-02-19
Publication date: 2018-05-01
Also published as: US10212552B2; CN106027480A; DE102015104407B4; DE102015104407A1; TW201644239A; CN106027480B; US20160286575A1

Abstract

本揭露係關於用於控制語音品質的方法與裝置，特別藉由控制端對端潛時且藉由在移動性情境時改善語音品質。一種用於在接收與處理音頻訊框之間控制端對端潛時的方法(200)，該方法包括：201接收資料封包，該資料封包包含至少一編碼音頻訊框；202儲存該接收資料封包於封包緩衝器中；203從該封包緩衝器擷取該接收資料封包，且將該至少一編碼音頻訊框解碼成音頻樣本；以及204處理該等音頻樣本，其中203從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於關於該等音頻樣本之音頻品質以及介於接收該資料封包與處理該等音頻樣本之間潛時的目標標準，以及其中該排程及時動態且平順地移位，以便避免音頻失真。

Description

用於控制語音品質的方法和裝置

本揭露係關於一種用於在接收與處理音頻訊框之間控制端對端潛時的方法與裝置。本揭露進一步係關於一種使用於移動終端的媒體處理電路以及一種用於調整在移動終端之媒體處理電路中之抖動緩衝器尺寸的方法。尤其是，本揭露係關於一種用於最小化語音加載於長期演進(Voice-over-LTE)與語音加載於網際網路協定(Voice-over-IP)端對端媒體延遲的方法，其使用基於樣本之抖動緩衝器管理與共享的PCM緩衝器於下行鏈路中結合語音增強、編解碼器以及基於樣本的抖動緩衝器管理之間的細粒同步化與適應性排程。尤其是，本揭露進一步關於在高移動性情境中之改善的Voice-over-LTE、Voice-over-IP以及視頻抖動緩衝器管理。

在封包切換網路上之媒體呼叫的實施方案必須應付網路抖動，亦即，轉移次數將改變且封包可亂序地抵達。為了應付此等問題，接收器側上的媒體引擎通常使用JBM (抖動緩衝器管理)系統。為了預測最佳的緩衝數量以實現在抖動上保護但不需要增加大於必要的端對端潛時，已經取得不同的策略。事實上，全部這些實施方案試著基於最近但過去的資訊來預測未來短期的網路行為。

在媒體處理中、特別在無線通訊網路中、特別在Voice-over-IP(VoIP)系統中、特別在Voice-over-LTE(VoLTE)系統中所使用的方法與裝置恆定地必須改善。在媒體處理中、特別在媒體接收器中，改善端對端潛時係令人期待。

100‧‧‧無線電通訊網路

102‧‧‧發射訊號

104‧‧‧接收訊號

106‧‧‧封包

108‧‧‧傳輸路徑

110‧‧‧基地台

120‧‧‧移動終端、使用者設備

200‧‧‧方法

300‧‧‧控制部份

301‧‧‧抖動緩衝器管理實體

302‧‧‧RTP封包推

303‧‧‧封包統計實體

304‧‧‧RTP封包拉

305‧‧‧最佳延遲計算實體

306‧‧‧接收訊框

309‧‧‧訊框壓縮

313‧‧‧閒置活動、沒有變化

317‧‧‧訊框擴展

400‧‧‧活動

401‧‧‧音頻活動

402‧‧‧音頻活動

403‧‧‧音頻活動

410‧‧‧RTP封包接收

412‧‧‧主時脈

500‧‧‧排程系統

501‧‧‧RTP緩衝器

502‧‧‧RTP封包

503‧‧‧AMR解碼

504‧‧‧訊框壓縮

505‧‧‧PSOLA演算法、PSOLA壓縮器

506‧‧‧RTP封包

507‧‧‧PCM緩衝器

508‧‧‧pcm樣本

509‧‧‧DSP語音增強實體

511‧‧‧HW編解碼器

514‧‧‧PCM樣本

516‧‧‧DSP(數位訊號處理)中斷

600‧‧‧裝置

601‧‧‧封包緩衝器

602‧‧‧資料封包

603‧‧‧解碼器

604‧‧‧資料封包

605‧‧‧音頻處理器

606‧‧‧音頻樣本

607‧‧‧排程器

700‧‧‧方法

800‧‧‧媒體處理系統

801‧‧‧高位準操作系統

803‧‧‧電話/VoIP應用

805‧‧‧LTE數據機

806‧‧‧語音資訊

807‧‧‧VoIP引擎

808‧‧‧媒體樣本

809‧‧‧播放裝置

811‧‧‧位置服務GPS提供器

813‧‧‧位置聆聽器

815‧‧‧更新速率執行緒

817‧‧‧抖動緩衝器管理實體

821‧‧‧解碼器

823‧‧‧抖動緩衝器

900‧‧‧活動

905‧‧‧抖動緩衝器管理控制實體

1000‧‧‧媒體處理電路

1001‧‧‧解封包化器

1003‧‧‧抖動緩衝器

1005‧‧‧解碼器

1006‧‧‧編碼媒體訊框

1007‧‧‧抖動緩衝器管理實體

1010‧‧‧資訊

1100‧‧‧抖動緩衝器組態裝置

1101‧‧‧抖動緩衝器組態資料庫

1103‧‧‧移動性與環境監控器

1105‧‧‧抖動調適控制單元

1107‧‧‧抖動調適單元

1109‧‧‧蜂巢式協定堆疊

1111‧‧‧無線區域網路

1113‧‧‧定位系統

1115‧‧‧加速度計或陀螺儀

1200‧‧‧媒體訊框

1204‧‧‧最初接收時期

1206‧‧‧第一重傳時期

1208‧‧‧第二重傳時期

1210‧‧‧最初播放時間

1212‧‧‧傳播

1214‧‧‧解碼

附圖係被包括以提供態樣的進一步理解且被合併入且構成本說明書的一部份。該等圖式繪示態樣且連同說明用來解釋態樣之原理。其他態樣以及態樣的許多意圖優點將被簡單理解，因為它們藉由參考下列實施方式而變得較佳理解。同樣的參考數字指定對應的相同部份。

圖1係為包括基地台110以及移動終端120之無線電通訊網路100的示意圖。

圖2係為根據本揭露之用於在接收與處理音頻訊框之間控制端對端潛時之方法200的示意圖。

圖3係為根據本揭露之音頻處理系統之控制部份300的示意圖。

圖4係為根據本揭露之在音頻處理系統中經排程之活動400的示意圖。

圖5係為根據本揭露之用於排程在圖4所說明活動之排程系統500的示意圖。

圖6係為根據本揭露之用於在接收與處理音頻訊框之間控制端對端潛時之裝置600的示意圖。

圖7係為根據本揭露之用於調整在移動終端之媒體處理電路中的抖動緩衝器尺寸的方法700的示意圖。

圖8係為根據本揭露之媒體處理系統800的示意圖。

圖9係為繪示根據本揭露之抖動緩衝器管理控制實體905之活動900的示意圖。

圖10係為根據本揭露之使用於移動終端的媒體處理電路1000的示意圖。

圖11係為根據本揭露之抖動緩衝器組態裝置1100的示意圖。

圖12係為根據本揭露之媒體訊框1200的示意圖。

【發明內容及實施方式】

在下列的實施方式中，參考附圖，其形成其一部份，且其藉由繪示特定態樣來顯示，在該等特定態樣中，可實行本揭露。要理解的是，其他態樣可被利用且結構性或邏輯性改變可被進行而不脫離本揭露的範圍。因此，下列的實施方式不以限制意義產生，且本揭露的範圍係由附加申請專利範圍所界定。

本文中所說明的方法與裝置可基於端對端潛時以及端對端潛時的控制。端對端延遲或端對端潛時意指使一封包透過網路(或系統或裝置)從來源發射到目標所花的時間。要理解，結合所說明方法產生的評論亦可適用於經組態以執行方法的對應裝置，反之亦然。舉例而言，假如說明一特定方法步驟，對應裝置可包括執行所說明方法步驟的單元，既使此一單元在圖式中沒有被明確說明或繪示。進一步，要理解在本文中所說明之多種例示性態樣的特徵可彼此結合，除非另外特別提及。

本文中所說明的方法與裝置可在封包切換網路中被實施，特別是基於IP(網際網路協定)的網路。本文中所說明的方法與裝置會以有線與無線通訊網路實施，特別以基於語音加載於網際網路協定(VoIP)的通訊網路，特別基於語音加載於長期演進(VoLTE)的通訊網路。本文中所說明的方法與裝置可能以無線通訊網路實施，譬如LTE、UMTS(全球行動通訊系統)、以及3GPP(第三代行動通訊合作計畫)系統。下文所說明的方法與裝置可進一步以行動裝置(或行動台或使用者設備(UE))或基地台(NodeB、eNodeB)來實施。所說明的裝置可包括積體電路及/或被動且可根據多項技術來製造。舉例而言，該等電路可被設定為邏輯積體電路、類比積體電路、混合訊號積體電路、光學電路、記憶體電路及/或積體被動。

本文中所說明的方法與裝置可經組態以發射及/或接收無線電訊號。無線電訊號可為或可包括由具有範圍位於大約3Hz至大約300GHz之無線電頻率的無線電發射裝置(或無線電發射器或發送器)所輻射的無線電頻率訊號。頻率範圍可對應使用以產生且檢測無線電波之交流電電訊號的頻率。

本文中所說明的方法與裝置可使用以控制抖動緩衝器管理。在幾乎全部通訊連結的設計中，抖動係為明顯但卻通常令人不期待的因子。在封包切換網路中，抖動係為潛時的變化，正如在透過網路之封包潛時之隨著時間的變化性中所測量。抖動緩衝器被使用來計數藉由在封包切換網路中的佇列所引入的抖動，使得能夠確保在網路上所發射之媒體(例如，音頻或視頻)的連續播放。藉由抖動緩衝器所計數的最大抖動等於在開始播放媒體串流之前所引入的緩衝延遲。抖動緩衝器管理被使用來控制且管理抖動緩衝器。

本文中所說明的方法與裝置可包括AMR(調適性多速率)編解碼器、EVS(根據3GPP TS 26.444的增強語音服務)編解碼器、WSOLA(波形相似性疊加法)以及PSOLA(基週同步疊加法)編解碼器。AMR音頻編解碼器係為最佳用於語音編碼的音頻壓縮格式。AMR語音編解碼器由多速率窄帶語音編解碼器組成，該多速率窄帶語音編解碼器以可變的位元速率(範圍從大約4.75至大約12.2千位元/秒，高質量語音在7.4千位元/秒起始)將窄帶訊號(大約200-3400Hz)編碼。AMR係藉由3GPP被選為標準語音編解碼器，且現在廣泛地使用於GSM、UMTS以及LTE。它使用鏈結調適以基於鏈結情況從八個不同位元速率其中一個選擇。AMR亦指示用於使用AMR 編解碼器來儲存口語音頻的檔案格式。PSOLA係為使用於語音處理以及更具體地語音分析的數位訊號處理技術。PSOLA可使用來修改語音訊號的間距與持續時間。PSOLA藉由將語音波形分成小重疊區段而發揮作用。為了改變訊號的間距，該等區段可進一步移動分開(用於減少間距)或更靠近一起(用於增加間距)。為了改變訊號的持續時間，該等區段隨後可重複多次(用於增加持續時間)或一些區段可被刪除(用於減少持續時間)。該等區段隨後可藉由使用疊加技術來結合。

本文中所說明的方法與裝置可使用POLQA語音訊號分析。POLQA涵蓋一種藉由數位語音訊號分析來預測語音品質的模型。那些客觀測量的預測應該儘可能靠近在主觀聆聽測試中所得到的主觀品質分數。通常可預測平均意見分數(MOS)。POLQA使用真實的語音作為用於評估電話網路的測試刺激。

本文中所說明的方法與裝置可基於RTP(即時傳輸協定)封包。RTP定義用於在IP網路上傳送音頻與視頻的標準化封包格式。RTP經設計以用於串流資料的端對端、即時轉移。該協定提供用於在資料中亂序抵達之抖動補償與偵測的設備，其係在IP網路上的傳輸期間內常見。

本文中所說明的方法與裝置可包括PCM(脈衝碼調變)樣本與PCM緩衝器。PCM係為一種使用以數位代表取樣類比訊號的技術。PCM係為用於數位音頻應用的標準格式，例如使用於電腦、光碟片以及數位電話。在 PCM串流中，類比訊號的振幅以均勻的間隔規則地取樣，且各樣本係被量化成在數位化步驟之範圍內的最接近值。

圖1係為包括基地台110與移動終端120之無線電通訊網路100的示意圖。在基地台110與移動終端或使用者設備(UE)120之間的無線電通訊中，發射訊號102可由基地台110發射且由UE120接收，以當作接收訊號104。由於在基地台110與UE120之間之傳輸路徑108的抖動效果，接收訊號104會受到延遲變化，亦即，發射訊號102的封包106會經歷隨著時間之潛時的變化，且一些或全部封包106會亂序地被接收。基地台110與UE120之間的傳輸路徑108可包括未在圖1中描繪的許多網路組件。進一步抖動效果可發生於介於接收訊號104的接收與接收訊號104的播放之間的UE120中。

圖2係為根據本揭露之用於在接收與處理音頻訊框之間控制端對端潛時之方法200的示意圖。方法200包括接收201一資料封包，該資料封包包含至少一編碼音頻訊框。方法200包括儲存202該接收的資料封包於一封包緩衝器中。方法200包括從該封包緩衝器擷取203該接收的資料封包，且將該至少一編碼的音頻訊框解碼成音頻樣本。方法200包括處理204該等音頻樣本，其中從該封包緩衝器擷取203該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於關於該等音頻樣本之音頻品質以及介於接收該資料封包與處理該等音頻樣本之間潛時的目標標準，以及其中該排程及時動態且平順地移位，以便避免音頻失真。因此，藉由實現多種音頻活動的動態、平順以及調適性排程，方法200控制端對端潛時。音頻播放與編解碼器解碼觸發器可在緩衝增加或減少之上動態地調整：且這將實現較低的端對端潛時，即便萬一沒有抖動。

從該封包緩衝器擷取203該接收資料封包且解碼該至少一編碼音頻訊框的排程可基於時間標度該至少一解碼音頻訊框，以便相對於最小潛時來移動該接收資料封包的處理於最佳位置中。時間標度該至少一解碼音頻訊框可包括用於減少在接收該資料封包與處理該等音頻樣本之間之潛時的訊框壓縮309(例如，正如下文關於圖3來說明者)。時間標度該至少一編碼音頻訊框可包括用於增加在接收該資料封包與處理該等音頻樣本之間之潛時的訊框擴展317(例如，正如下文關於圖3來說明者)。時間標度該至少一編碼音頻訊框可包括用於維持在接收該資料封包與處理該等音頻樣本之間之潛時之相關於訊框壓縮與訊框擴展的閒置活動313(例如，正如下文關於圖3來說明者)。

該時間標度可使用於移位該排程以便修改該至少一解碼音頻訊框的位置。時間標度可基於語音訊框壓縮與語音訊框擴展其中一者。方法200可進一步包括基於有關介於接收資料與播放資料之間潛時的統計資訊(例如RTP統計)來判定最佳排程。方法200可進一步包括根據基於接收率及/或重傳率的現代統計來判定最佳排程。時間標度可基於移除與添加語音之間距週期的其中一者，例如，正如下文關於圖5來說明者。時間標度可基於間距同步重疊與添加，例如，正如下文關於圖5來說明者。資料封包係為非同步接收資料封包之串流的一部份。方法200可進一步包括在接收該串流資料封包的各別資料封包與處理該各別資料封包的音頻樣本之間判定該潛時之統計。該統計可使用於排程。

從該封包緩衝器擷取該接收資料封包以及將該至少一編碼音頻訊框解碼以及處理該等音頻樣本可基於主時脈，例如，正如下文關於圖4來說明者。從該封包緩衝器擷取203該接收資料封包且將該至少一編碼音頻訊框解碼的排程，可藉由調整從該封包緩衝器擷取該接收資料封包且將該至少一編碼音頻訊框解碼的時脈來執行。該排程可藉由調整處理該等音頻樣本的時脈來執行。

方法200可進一步包括判定在該接收資料封包與該等處理音頻樣本之間的潛時。方法200可進一步包括判定該等音頻樣本的音頻品質。方法200可進一步包括將從該封包緩衝器擷取203該接收資料封包且解碼該至少一編碼音頻訊框排程，使得該音頻品質是在第一臨界值以上且在接收該資料封包與處理該等音頻樣本之間之潛時在第二臨界值以下。

判定音頻品質可基於藉由數位語音訊號分析來預測語音品質的模型，特別基於聆聽品質感知客觀評估(POLQA)。在本揭露中所說明的方法與裝置通常將在語音加載於網際網路協定(Voice over IP)且特別將在語音加載於長期演進(Voice over LTE)中的端對端延遲最小化。在本揭露中所說明的方法與裝置可相關於音頻系統的VOIP下行鏈路(DL)處理。歸功於實現語音訊框之時間標度(壓縮與擴展)之基於調適性樣本的抖動緩衝器管理、共享下行鏈路PCM緩衝器、以及介於〝下行鏈路語音增強、基於樣本之抖動緩衝器管理以及編解碼器子系統〞之間的細粒同步化，介於RTP封包接收與相關PCM播放之間的最小潛時可被保證。下行鏈路潛時會被最小化而不會降級在具有或不具有網路抖動之大部份網路情況中的語音品質。

在本揭露中所說明的想法取決於在下列音頻子系統之調適性同步化方式中的結合使用：用於實現語音訊框的時間標度(壓縮與擴展)之基於樣本的抖動緩衝器管理(SJBM)、下行鏈路編解碼器(舉例而言，用於VoLTE的DL AMR或EVS解碼器)、下行鏈路語音增強子系統、以及在DL編解碼器/SJBM子系統與DL語音增強子系統之間共享的共享下行鏈路PCM緩衝器(如在下文中所說明)。

圖3係為根據本揭露之音頻處理系統之控制部份300的示意圖。控制部份300包括用於封包推/拉處理的抖動緩衝器管理實體301。抖動緩衝器管理實體301對RTP封包推302以及RTP封包拉304處理負責。控制部份300包括封包統計實體303，其用於收集關於在RTP封包接收與它們相關播放之間之封包延遲的資訊。在一項實例中，延遲測量的粒度會比1ms更佳。封包統計實體303可藉由RTP封包推302事件觸發。

控制部份300進一步包括最佳延遲計算實體305，其經組態以基於由用於各接收訊框306之封包統計實體303所判定的封包統計來計算最佳延遲。最佳延遲計算實體305經組態以取得最佳緩衝數量以應付SJBM與DL編解碼器活動的網路抖動與最佳排程，以降低潛時且發出用於語音訊框之壓縮309、擴展317或沒有變化313的命令。依據目標標準，假如超過目標標準307(>0)，發出用於壓縮309的命令，假如計算延遲低於目標315(<0)，則發出用於擴展317的命令，且假如實現目標標準311(>0)，則發出沒有變化313的命令。

介於嵌入語音酬載的RTP封包接收302與播放304之間的延遲可藉由封包統計實體303來精確測量，以用於各RTP封包。統計隨後可被取得且動態更新封包統計實體303。歸功於這些統計，在VoLTE系統中一般每一例如20ms(或例如40ms)發生的每一語音訊框處理之前，應付網路抖動的最佳緩衝數量可藉由最佳延遲計算實體305以及用於最低延遲之多種音頻活動的最佳排程來判定。已知有些音頻活動應該移位多少目標毫秒，可發出語音訊框時間標度命令。藉由添加或移除一個間距週期，從而確保語音訊框的最小音頻變化以及即便在沒有沈默週期可用的情形下實現調適(或在不需要等待沈默週期之下實現更快速調適)，可將語音訊框時間標度。在語音訊框的時間標度之後，下一語音訊框處理的啟動可被程式化且被對準以匹配時間標度語音訊框的新長度。

圖4係為根據本揭露之在音頻處理系統中經排程之活動400的示意圖。圖4代表在VoLTE通話(或VoIP通話)期間被排程的不同音頻活動401、402、403。

活動1、401係在每一RTP封包接收410上被觸發。如此，它是非同步的活動(既使，理想上在沒有網路抖動之下，它應該在典型的VoLTE系統上每一20ms或40ms發生)。當接收RTP封包410時，該封包會被推或儲存入SJBM(基於樣本的抖動緩衝器管理)緩衝器內，除非它太晚被接收(在它的期待播放時間之後)。

活動2、402關於語音訊框解碼，該語音訊框解碼一般在VoLTE系統上每一20ms(或40ms)地發生。RTP封包係從SJBM緩衝器擷取。AMR或EVS酬載係被解碼入PCM(脈衝編碼調變)樣本內且可前傳至DL語音增強系統。在此，代替每一20ms排程此活動402，該排程可經動態地控制與調適。它會小於20ms或大於20ms，其取決於活動2、402的處理如何相對於活動3、403移位。

活動3、403關於DL語音增強。它會在特定的DSP上執行但沒有侷限於此架構。每一例如1ms，DL語音增強可擷取PCM樣本以用於處理。不同系統可使用不同粒度，譬如5ms、10ms、或任何其他值。粒度越小，用於下行鏈路潛時最小化的結果越好。語音增強係為關於數位訊號處理的活動，以便增強例如相關於它的波長、延遲、編碼等等的語音訊號。

活動2、403以及3、403的排程可從相同主時脈412取得或中斷以避免不想要的排程移位。

在一實例中，主時脈412計時每一硬體中斷(MASTER IT)毫秒，例如每一1毫秒。活動2、402隨後可每一SJBM中斷(SJBM IT)毫秒計時，例如，每一N倍的MASTER IT毫秒，其中N係為可組態的整數，舉例而言，在語音訊框壓縮之後每一20ms或16ms以及在每一語音訊框處理之後更新。活動3、403可每一DSP中斷(DSP IT)毫秒計時，例如，每一N倍的MASTER IT毫秒，其中N係為可組態的整數，舉例而言，在通話期間內，每一1ms且固定。

在圖5上，活動1、401以字首「r」識別，尤其是「r1」(用於RTP封包接收)，活動2、402以字首「s」識別，尤其是「s1」(用於SJBM)，以及活動3、403以字首「d」識別，尤其是「d1」(用於DSP語音增強)。

在圖5中，其說明用以減少潛時的詳細方塊。在此使用的特定數目對應一說明性實例，其中無網路抖動的情形會被考慮，且其係顯示SJBM(基於樣本的抖動緩衝器管理)如何被使用來減少下行鏈路潛時(即便萬一沒有網路抖動)。對應不同網路情況的任何其他數目亦可被使用。

作為例子，可考慮沒有網路抖動的情形。RTP封包502每一20ms抵達(在圖5中的r1)，但介於接收這些RTP封包502與它們對應播放(例如，在HW編解碼器511中)之間的延遲(排除在UE上的有效DL處理)係為6ms。可發出用於語音訊框壓縮504的命令(在圖5中，s1)。RTP封包506係從RTP緩衝器501擷取且解碼(藉由例如在VoLTE系統上的AMR解碼器503或EVS解碼器)，且pcm樣本508的20ms可藉由DL解碼器503傳送。然後，歸功於PSOLA演算法505，可將訊框壓縮512，以在語音訊框中移除一個間距週期。在此假定以4ms偵測出間距週期，20ms的語音訊框可壓縮成16ms的PCM樣本，其係儲存於PCM緩衝器507中。

現在，代替在20ms之後觸發下一AMR解碼503(或EVS解碼)，藉由設定SJBM中斷510為16ms，下一AMR解碼503(或EVS解碼)可於稍後16ms被排程。然後，該排程可回到用於AMR解碼503(或EVS解碼)的每一20ms排程。此方式可加強活動2(如上文關於圖4所說明的s1、s2、s3、s4、s5)對活動3(如上文關於圖4所說明的d1、d2、d3)的移位，其在本實例中實現減少4ms的潛時。在此移位之後，RTP封包可被測量有2ms延遲(排除在UE上的有效DL處理)而非6ms。藉由僅僅添加或移除一個間距週期，可平順地執行下行鏈路音頻活動的移位，因而確保在調適性發生之訊框期間內的最小失真。此製程係為動態且可再三重複，其取決於用以強化 DL音頻活動排程之調整所收集的統計以及所使用的策略。

每一DSP(數位訊號處理)中斷516、DSP語音增強實體509，可從PCM緩衝器507得到PCM樣本514、處理這些樣本、以及通過它們而到HW編解碼器511以用於播放。或者，PCM樣本514可直接轉移到HW編解碼器511而沒有通過DSP語音增強實體509。

在此，顯示從相當低延遲起始的單一步驟。不過，為了應付更大的延遲，數個類似且連續的步驟，像在此所說明者，可被執行以最小化延遲。在此所提供的數目係為說明性且已經被固定以較佳理解VoLTE系統的匹配典型設定，但任何其他值亦可被使用。

SJBM通常使用來壓縮/擴展訊框，以增加或減少緩衝數量，以防止網路抖動，但在此，在沒有網路抖動的情形下，我們亦可使用SJBM，以減少下行鏈路潛時。

共享的下行鏈路PCM緩衝器507、細粒同步化系統、以及編解碼器與SJBM活動的不同排程，其已經被添加在既存SJBM系統之上，以實現較佳的潛時。該排程可在通話期間經動態調適，且可在每一訊框上改變。

基於在VoIP通話期間所收集的統計，在每一語音訊框之前，處理最佳緩衝數量以處理網路抖動以及排程不同音頻活動的最佳方式可被判定，使得可最小化下行鏈路潛時。

然後，歸功於基於樣本之抖動緩衝器管理的時間標度特徵，可執行相對於其他音頻活動來移位一些音頻活動的調適性機制。

在沒有使用本揭露所說明之基於調適性樣本的抖動緩衝器管理之下，會需要額外的緩衝，以導致額外的潛時。

在沒有使用下行鏈路語音增強子系統、基於樣本之抖動緩衝器管理以及編解碼器子系統之間的細粒同步化與排程，可經歷較低的語音品質及/或較高的端對端潛時。在沒有音頻排程活動的動態調適之下，語音訊框處理可減慢調適。

在本揭露中所說明的SJBM(基於樣本的抖動緩衝器管理)可被使用來減少VoIP下行鏈路潛時，即便萬一沒有抖動。

根據本揭露的方法與裝置可提供改善性能的使用情形例如是具有或不具有網路抖動的VoIP情境。此等方法與裝置亦能夠應付具有或不具有沈默週期的情境，以無縫地調適且減少潛時而沒有使語音品質降級。

根據本揭露的方法與裝置適合基於數據機的解法(VoIP引擎嵌入於數據機內，如此一般用於低端解法)以及基於應用處理器的解法(VoIP引擎嵌入於應用處理器內，如此一般用於高端解法)。根據本揭露的方法與裝置可使用於兩種情形中。

在本揭露中所說明的方法與裝置實施解法，以減少在VoLTE中全面性的端對端延遲，而不會使語音品質降級。

裝置600包括封包緩衝器601、解碼器603、音頻處理器605以及排程器607。封包緩衝器601經組態以接收資料封包602，其包括至少一編碼的音頻訊框。解碼器603經組態以從封包緩衝器601擷取接收的資料封包604並且將該至少一編碼音頻訊框解碼成音頻樣本606。音頻處理器605經組態以處理音頻樣本606。排程器607經組態以排程從封包緩衝器601擷取該接收資料封包604、且基於關於該等音頻樣本606之音頻品質以及介於藉由該封包緩衝器601來接收該資料封包602與藉由該音頻處理器605來處理該等音頻樣本606之間潛時的目標標準來解碼該至少一編碼音頻訊框。該排程器607經組態以及時動態且平順地移位該排程，以便避免音頻失真。

裝置600可進一步包括音頻緩衝器，例如，如上文相關於圖5所說明的音頻緩衝器507，其耦合於解碼器603與音頻處理器605之間。解碼器603可經組態以儲存音頻樣本606於音頻緩衝器507中。音頻處理器605可經組態以從音頻緩衝器507擷取音頻樣本606。

排程器607可經組態以調整用於儲存音頻樣本於音頻緩衝器507中之解碼器603的存取速率、用於從音頻緩衝器507擷取音頻樣本606之音頻處理器605的存取速率、以及對音頻緩衝器507之拉請求的存取速率的至少一者。

排程器607可經組態以調整基於第一時脈之解碼器603的存取速率以及基於第二時脈之音頻處理器605的存取速率。第一時脈與第二時脈可從主時脈取得或可根據任何其它同步化機制被同步化。

排程器607可經組態以排程從封包緩衝器601擷取該接收資料封包604且基於調整用於解碼該至少一編碼音頻訊框之編碼器603的時間標度來解碼該至少一編碼音頻訊框。解碼器603可包括語音解碼器，舉例而言，AMR解碼器503或EVS(增強語音服務)解碼器及/或語音時間標度器，例如，PSOLA壓縮器505或WSOLA壓縮器，例如，正如上文相關於圖5來說明者。裝置600可執行上文相關於圖2至圖5來說明的方法。

在上文相關於圖1至圖6來說明的方法與裝置基於相關於最小化端對端潛時的概念。該概念可藉由下列的問題來說明：當起始點使用基於樣本的抖動緩衝器管理實體時，通常使用以解決抖動問題，在沒有抖動的前後文中，用以消除端對端潛時。它是一種用以實現音頻播放、SJBM&編解碼器活動以及音頻DSP語音增強活動之動態與調適性排程的系統概念，使得在VoIP通話期間內端對端潛時會維持在最小值。可觀察下列的事實：音頻播放、SJBM拉、編解碼器解碼以及音頻DSP語音增強的排程係為靜態且一般每一20(或40ms)發生。SJBM時間標度性能僅使用以增加或減少JBM緩衝數量：它們沒有改變播放速率，且沒有改變SJBM拉活動速率，且沒有改變編解碼器解碼活動速率，且沒有改變資料與音頻DSP交換的速率。根據本揭露的方法與裝置實現音頻活動的動態排程，其具有在VoIP通話期間的任何時間點上會發生之活動的平順且調適性定位/移位。在VoIP通話期間之音頻活動的此動態、調適性以及平順排程可藉由實施上文相關於圖1至圖6來說明的方法與裝置達到。關鍵的項目涉及：能夠測量該排程多麼次最佳；在VoIP通話期間的任何時間點上，能夠應請求移位SJBM/編解碼器活動；能夠在沒有人為音頻下平順/沈默地移位音頻活動。整個系統的粒度是重要的：就音頻資料交換而言，在SJBM/編解碼器子系統與DSP/語音增強子系統之間使用的緩衝器越小，可減少的端對端潛時越佳。較低的端對端潛時可藉由使用具有修改SJBM之根據本揭露的方法與裝置來展現，其提供改善情形(即便萬一一點也沒有抖動)。原型設計已經被進行且已經顯示優良的性能。

圖7係為根據本揭露之用於調整在移動終端之媒體處理電路中之抖動緩衝器之尺寸的方法700的示意圖。方法700包括701將來自接收無線電訊號的至少一編碼媒體訊框解封包化。方法700包括702儲存該解封包化的至少一編碼媒體訊框於抖動緩衝器中。方法700包括703從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本。方法700包括704基於指示該移動終端之移動性狀態的資訊來判定抖動模型。方法700包括705基於指示該移動性狀態之該資訊的歷史來調整該抖動模型。方法700包括706基於該抖動模型來調整該抖動緩衝器的尺寸。指示移動性狀態之資訊的歷史可包括真實與過去的移動性狀態資訊以及從那移動性狀態資訊取得的進一步資訊，舉例而言，統計。該歷史可被儲存於記憶體中。

指示移動終端之移動性狀態的資訊可包括移動終端之速度上的資訊。指示移動終端之移動性狀態的資訊可包括關於移動終端之下列資訊的一或多者：速率或速度資訊、位置資訊(舉例而言，戶內或戶外資訊)、環境資訊、時間資訊、速度的變化或加速度資訊、移動終端連接到之網路上的資訊。抖動緩衝器之尺寸的調整可根據基於指示移動終端之移動性狀態的資訊而估計的網路抖動。方法700可進一步包括以從該資訊取得的循環函數來估計網路抖動，該資訊指示移動終端的移動性狀態。

此方法700的基本原理可由偵測高移動性情境以及模型化針對這些情境的抖動所組成。這實現較佳的JBM決定，其導致改善的語音及/或視頻性質。

下列的實例繪示在典型3GPP網路情形中的情況，但它可以透過封包切換網路的媒體(語音或視頻)傳輸以及接收而轉移到任何網路。以LTE或3G HSPA系統，舉例而言，當在高速公路上的使用者從一個eNodeB(或在3G術語中的NodeB或在2G術語中的基地台)移動至另一個時，下列步驟會發生：當接近eNode-B時，無線電訊號品質是良好的，然而當遠離時，無線電訊號品質減少，其導致該裝置與eNodeB之間的LTE或3G HARQ重傳，以應付訊號品質的劣化。這些重傳導致網路抖動增加。然後，藉由移動靠近新的eNodeB，無線電品質增加，其導致越來越少HARQ重傳。亦即是，從抖動的觀點，該抖動增加且然後減少且此現象週期性重複。

藉由提供外部資料，譬如在使用中的速度、GPS資訊、及/或無線電術語到JBM，此等振動抖動行為可被偵測，使得在即將來臨的短期未來中能夠更簡單地預測網路行為。此機制不會與其他JBM機制矛盾，但卻被推薦以在現存者之上使用，以實現在高移動性情境的情形中之JBM行為的更快速且更佳的穩定。

舉例而言，智慧型手機、平板以及甚至越來越多的低端裝置可提供此速度與GPS資訊。這亦可擴大到在具有或不具有GPS之車內的任何嵌入系統。在本揭露中所說明的方法因此適合改善在用於許多裝置之高移動性情境中的JBM行為。

根據本揭露的方法與裝置提供額外的資訊到JBM，實現以更有效率、更快速且準確的方式處理高移動性情境。因此，JBM變得情境感知。

當偵測此使用情形時，抖動變化的振幅與週期性可被評估以用於有效地設定緩衝數量。這可限制處理可永久改變之抖動所需要之JBM調適的數目。

在高移動性情境的情形中，根據本揭露的方法與裝置改善VoLTE與VoIP語音品質。根據本揭露的方法與裝置亦可應用到任何視頻JBM。因此，根據本揭露的方法與裝置不限於音頻且亦可改善視頻品質。

根據本揭露的方法與裝置可應用於音頻與視頻對話服務以及音頻與視頻串流服務兩者中。

圖8係為根據本揭露之媒體處理系統800的示意圖。所繪示的圖說明語音資訊806會如何從高位準操作系統801擷取至抖動緩衝器管理實體817。

媒體處理系統800可包括高位準操作系統801、電話/VoIP應用803、VoIP引擎807、LTE數據機805以及播放裝置809，譬如揚聲器或螢幕。VoIP引擎807可耦合於LTE數據機805以及播放裝置809之間的媒體路徑中。電話/VoIP應用803可耦合於高位準操作系統801與VoIP引擎807之間的管理路徑中。高位準操作系統801可包括位置服務GPS提供器811，以用於提供移動性資訊(譬如移動裝置的GPS資訊)至在電話/VoIP應用803中實施的位置聆聽器813。更新速率執行緒815可在電話/VoIP應用803中實施，以查詢804來自位置聆聽器813的移動性資訊。

VoIP引擎807可包括：RTP解封包化器，其用於將從LTE數據機805接收的RTP封包解封包化；抖動緩衝器823，其用於儲存該解封包化的RTP封包；以及解碼器821，其用於將從該抖動緩衝器823擷取的封包解碼成媒體樣本808，例如音頻或視頻，其可由播放裝置809所播放。VoIP引擎807可進一步包括抖動緩衝器管理實體817，其用於控制抖動緩衝器823的尺寸。抖動緩衝器管理實體817可從電話/VoIP應用803的更新速率執行緒 815接收移動性資訊806，且可基於本文中所說明的移動性資訊來調整抖動緩衝器823的尺寸。

一旦高移動性使用情形由JBM817偵測出，振動抖動(包括抖動增加的循環以及抖動減少的循環)的可能性則非常高。此種假設可被檢查，且假如確認的話，可使用來取得更多用於JBM817的適當設定，其係可實現改善的語音品質。

圖8係為具有基於封包之抖動之設定的代表圖，但此設定的一般化可包括在解碼器821之後的任何抖動。由JBM817所使用之用以處理高移動性情境的不同方塊係關於圖9而說明於下文。

在圖8中，在包括可使用於提供移動裝置之GPS資料之位置服務GPS提供器811的高位準OS框架801與VoIP引擎807之間的連接係被實現。來自位置服務GPS提供器811的資訊，亦即，移動裝置的GPS資料或移動性資料係對VoIP引擎807有用。

為了改善JBM設定與行為以用於較佳的語音品質，例如藉由執行VoIP驅動測試之來自該欄位的資訊可被收集，以便使用速度資訊來最佳化。

圖9係為繪示根據本揭露之抖動緩衝器管理控制實體905之活動900的示意圖。在第一方塊「1」901中，取得外部資訊。在第二方塊「2」902中，評估封包抖動統計。在第三方塊「3」903中，以循環函數來估計網路抖動。在第四方塊「4」904中，執行抖動緩衝器管理 (JBM)緩衝。在第五方塊「5」中，JBM控制實體905接收來自第四方塊「4」904 JBM緩衝的資訊且更新第二方塊902的封包抖動統計。五個方塊或活動可如下文所說明地執行。

在方塊1 901中，實現高移動性使用情形之偵測的資訊係藉由外部組件提供到JBM實體(以在圖9中的JBM控制實體905表示)，該JBM實體可對應在上文相關於圖8所說明的JBM實體817。

在方塊2 902中，收集封包延遲統計，以評估抖動模式。在靜態與行人情境中，(少數秒)相當小的滑動視窗或第一位準過濾器可使用來評估電流抖動。使用更大的滑動視窗可當對抖動變化反應時可導致額外的潛時。以此低移動性情境，通常不會經歷任何明顯的週期性抖動現象。

當進入高移動性情境時，更大的滑動視窗會被使用，以實現收集足夠的統計來說明週期性的抖動現象。滑動視窗的深度亦可依據速度演進來調整。

在方塊3 903中，可取得對應此振動抖動行為的模型。為時間函數的網路抖動會以特徵為它的振幅與週期的循環函數近似。用於循環抖動變化近似的簡單模型係為振幅與週期。舉例而言，此模型可簡單地延伸到模型次現象或次循環。

在方塊3 903估計的兩個最重要參數會是抖動振幅與抖動週期。抖動振幅係為在具有最高轉移次數的封包與具有最低轉移次數的封包之間的差，其中轉移次數一般取決於重傳數目，以使傳輸成功。抖動週期係為在兩抖動峰值之間經過的時間。這實現調整使用以接收統計之滑動視窗的深度。

在方塊4 904，可進一步使用抖動振幅。抖動週期可被使用來進一步改良在方塊2 902的處理。假如所收集的統計不匹配任何循環抖動函數，則可進一步使用預設的JBM設定。

假如且僅僅假如循環抖動模式被偵測到，在圖9中所說明的機制可提供現存系統的改善，例如，以用於觸發特定處理。

在方塊4 904，基於在方塊3 903中取得的此網路抖動模型，可取得UE抖動緩衝數量，以實現以一種方式處理全部的循環變化(舉例而言，徹底地)，該方式需要最小數量的JBM調適(亦即，以避免JBM緩衝的重覆性增加與減少)以及緩衝數量，其實現應付最大的耐受損耗。在一項實例中，AMR編解碼器可耐受最大百分之一的損耗而沒有影響語音品質。像ILBC的其它編解碼器可耐受多達百分之五的損耗。在應付抖動的緩衝數量被設定在實現處理例如百分之九十九封包延遲的最小值之處，藉由緩衝，沒有任何額外的潛時可被使用於達到此目標真正需要者之上。

在方塊5 905，只要高移動性情況持續，可執行評估與調整循環網路抖動的模型。另外，當離開高移動性情況時，可復原用於抖動監控的預設設定。可使用適合對網路抖動變化快速反應的較小靜態滑動視窗。此方式，可取得JBM設定，其可在這些高度不穩抖動情境中非常穩定。

在高移動性使用情形中為典型的相關於每一JBM調適的JBM收斂問題與潛時問題可被避免。較佳的語音品質可被確保。較低的潛時可導致在通話中之使用者之間改善的互動性。較低數量的JBM調適可導致相關於JBM調適之封包耗損的縮減及/或語音訊框壓縮與擴展的縮減。

媒體處理電路1000包括解封包化器1001、抖動緩衝器1003、解碼器1005以及亦稱為抖動緩衝器管理實體1007的抖動緩衝器管理器。解封包化器1001經組態以將來自接收無線電訊號的至少一編碼媒體訊框1002解封包化。抖動緩衝器1003經組態以儲存該解封包化的至少一編碼媒體訊框1004。解碼器1005經組態以從該抖動緩衝器1003擷取該至少一編碼媒體訊框1006且將該至少一編碼媒體訊框1006解碼成媒體樣本1008。抖動緩衝器管理實體1007經組態以基於指示該移動終端之移動性狀態的資訊1010來判定抖動模型、基於指示該移動性狀態之該資訊的歷史來調整該抖動模型、以及基於該抖動模型來調整該抖動緩衝器1003的尺寸，例如，如上文關於圖8與圖9來說明者。

抖動緩衝器管理實體1007可包括到提供實體之位置服務的介面，以接收指示移動終端之移動性狀態的資訊 1010，舉例而言，如上文相關於圖8來說明者。抖動緩衝器管理實體1007可經組態以基於關於移動終端之下列資訊的至少一者來調整抖動緩衝器1003的尺寸：速率或速度資訊、位置資訊、環境資訊、時間資訊、速度的變化或加速度資訊，舉例而言，如上文關於圖8來說明者。

媒體處理電路1000可實施方法700以及技術，如上文關於圖7至圖9來說明者。關於圖7至圖12說明的方法與裝置可基於一概念來說明，該概念關於在VoIP或多媒體加載於IP之高移動性使用情形之情形中的改善品質(語音或視頻)。該概念包括下列問題：移動終端係在移動性使用情形中的第一問題可被偵測。這可歸功於例如GPS或任何其他定位系統來進行。第二問題係關於在高移動性情境可被偵測的情形下如何取得有用的抖動管理模型。此模型將在移動性使用情形的情形下實現改善的語音品質。關鍵問題可涉及：偵測移動性使用情形；針對將實現較佳抖動預測的移動性使用情形來建立抖動模型；使用此模型用於抖動管理，使得在移動性使用情形內，它實現改善的語音品質；在高移動性使用情形內，動態地更新抖動模型；使用全框架或系統說明來處理移動性使用情形且改善用於語音或視頻加載於IP通訊的語音品質。然後，可施加不同技術，以從數據機擷取資訊，以改善抖動模型的準確性，且實現較佳的參與以及預測，例如，藉由預測在(短期)未來中的抖動行為。

圖11係為根據本揭露之抖動緩衝器組態裝置1100的示意圖。抖動緩衝器組態裝置1100可對應如上文關於圖10來說明的抖動緩衝器管理器1007。抖動緩衝器組態裝置1100包含抖動調適控制單元1105(控制部份)、抖動調適單元1107(強制進行由抖動調適控制單元所做之決定的執行部份)、移動性與環境監控器1103、抖動緩衝器組態資料庫1101、蜂巢式協定堆疊1109、無線區域網路(WLAN)1111、定位系統1113(譬如全球定位系統(GPS)、全球導航衛星系統(GLONASS)、等等)、加速度計或陀螺儀1115、以及進一步單元(在圖11中沒有描繪)。

移動性與環境監控器1103可從各種次模組接收資訊，亦即，從蜂巢式協定堆疊1109、WLAN1111、定位系統1113、加速度計或陀螺儀1115、以及進一步單元。移動性與環境監控器1103可基於來自不同模組1109、1111、1113、1115(蜂巢式協定堆疊、WLAN、GNSS、加速度計等等)的資訊來判定環境與移動性描述符。環境與移動性描述符可判定位置、移動性類型(行人、車子、火車、飛機等等)、環境類型(戶內、戶外市區、戶外非市區等等)、無線電組態類型(蜂巢式科技、無線電承載類型等等)。

環境與移動性描述符可被提供到抖動調適控制單元1105。JBM調適控制單元1105可在特定環境/移動性中的JBM尺寸與調適次數上進行一些統計。它隨後可判定用於此類型環境的最佳組態並且儲存它。一旦將相同環境與移動性描述符給予抖動調適單元1107，最佳組態可隨後施加。只要沒有環境/移動性變化，就不會執行調適。這可避免在抖動情形中的多數調適，因而減少對聲音品質的影響。

在下文，說明抖動緩衝器管理器1007的實例，其可對應相關於圖11來說明的抖動緩衝器組態裝置1100。抖動緩衝器管理器1007可使用蜂巢式資訊來參與JBM調適。CPS(蜂巢式協定堆疊)組件1109可提供資訊，譬如：交遞率/交遞類型、交遞中斷時間、用於測量的觸發器(潛在導致交遞)等等。交遞對應網路控制，如此，該網路會或不會觸發交遞。假如沒有交遞被觸發，將必須定義正確的組態以避免太頻繁的JBM調適。CPS組件1109可進一步提供資訊於接收率/網路重傳上的統計上，亦即，有多少資料被按時、1reTX(第一次重複傳輸)、2reTX(第二次重複傳輸)接收。

基於此資訊，JBM調適控制單元1105可判定是否需要調適，且假如必要的話，需要什麼種類的調適。舉例而言，在HO(交遞)的情形中，資料的突發會跟在交遞完成之後，但這不一定影響統計，因為它是確切的事件。

一般而言，在觸發硬HO之前，網路正等待關於特定事件的UE測量報導(MR)。在網路處理此MR之後，一般將會有中斷時間，後面接著封包的突發性傳送，該等封包在中斷時間內不會由網路所傳送(假如無線電承載在確認模式中被組態)。亦藉由通知JBM，JBM可參與且以更快速的方式設置組態，該組態將協助在HO期間內與HO之後更平順地處理音頻播放。交遞請求的週期性可協助判定抖動的週期性，其係為對JBM非常有用的資訊。基於協定堆疊組態，可能可事先知道關於例如HARQ重傳的最大延遲，其將關於在VoLTE網路上經歷的典型抖動。

在下文中，抖動緩衝器管理器1007的進一步實例係被說明，其可對應關於圖11來說明的抖動緩衝器組態裝置1100。抖動緩衝器管理器1007可基於無線電連結抖動與核心網路抖動來施加低位準/高位準調適。對該抖動的貢獻者可分為關於無線電連結的抖動以及關於核心網路的抖動。

無線電連結對全球抖動的貢獻可藉由基於HARQ統計的UE充分地估計。UE可判定用於DL(下行鏈路)資料之HARQ ACK/NACK的數目。在例示性組態中，在兩傳輸之間有平均8ms。根據基於RTP時間戳記的抖動統計以及基於無線電連結的抖動，抖動緩衝器調適單元1105隨後可控制抖動緩衝器尺寸以及播放時間(或用於播放的音頻DSP)。此種解法的好處係如下：基於無線電位準統計之對改變無線電情況的更快速調適(比基於RTP的統計更頻繁)；以及由於改變無線電情況，在沒有非必要調適之下，基於核心網路抖動的抖動緩衝器尺寸管理。因此，可收集到多很多的統計，舉例而言，在MAC位準上每一8ms，替代在RTP位準上每一20或40ms。因此，可得到更多的資訊，可得到更多的統計，以更快速地導致更有教養的決定。準確的分解係為已知，亦即，有多少不具有retx(重傳)、具有1retx、具有2retx等等的tx(傳輸)。這是什麼正在無線電位準上進行且什麼正驅動無線電抖動以協助JBM1007進行最佳決定的非常準確圖像。

圖12係為根據本揭露之媒體訊框1200的示意圖。媒體訊框1200可包括複數個DRX循環，各個皆具有例示性持續時間40ms。最初播放時間1210可包括最初接收時期1204以及可選地第一重傳時期1206、第二重傳時期1208以及進一步重傳時期(在圖12中沒有描繪)。

在下文，描繪抖動緩衝器管理器1007的進一步實例。抖動緩衝器管理器1007可對應上文關於圖11來說明的抖動緩衝器組態裝置1100。JBM1007可對準蜂巢式RX(接收)視窗。為了加速最初的組態，RX槽1204、1206、1208的位置可使用來判定播放中斷位置。正如在圖12的圖中所說明，一旦設置用於IMS通話的專屬EPS承載，「持續時間開始(onDurationStart)」1202的位置以及「持續時間計時器(onDurationTimer)」值係為已知。資料的接收應該發生在「持續時間週期(onDurationPeriod)」。在接收問題的情形中，網路可重傳數次，以導致接收音頻訊框的延遲。作為最初的組態1210，播放時間然後可基於「onDurationStart」1202的位置以及內部處理時間(亦即，傳播1212、RTP解封、解碼1214)被初始化。為了在安全側且直接容納網路重傳，當組態最初播放時間時，可考慮重傳1206、1208。這實現直接以一組態開始，該組態能夠以最佳方式應付最大數目的HARQ(混合自動重複請求)重傳。當假設沒有核心網路擁塞問題時(該等核心網路擁塞問題將導致在無線電網路抖動之上的核心網路抖動)，僅僅添加JBM緩衝會是足夠的。

根據本揭露的方法與裝置提供一種改善的抖動緩衝器管理，以克服關於在過去短期中所收集的資訊對在未來短期中的網路行為之間之差異的問題。下列的問題可藉由施加根據本揭露的方法與裝置來克服：用以達到穩定狀態的收斂時間(依據JBM設定且尤其依據JBM緩衝)、用以從一些穩動狀態離開且用以應付新變化的潛時(由於新網路情況與行為)、以及在週期性現象之情形中沒有收斂為正確與穩定狀態的振動行為。

根據本揭露的方法與裝置提供用以處理其中網路抖動週期性且規則性增加與減少之下列情形的機制。JBM將遵循具有導致次最佳程序之某些潛時的此行為且從不收斂至穩定狀態。這可導致比必要或週期性音頻失真所使用的還多的緩衝，以防JBM試著以最小的潛時非常快速地遵循網路變化。藉由基於移動性資訊來調整抖動緩衝器尺寸，根據本揭露的方法與裝置可將JBM驅動至穩動狀態。

根據本揭露的方法與裝置提供一種以額外資訊與增加的準確性來預測對於現存JBM實施方案難以應付之某些情境的機制。在此所說明的方法與裝置提供改善的JBM性能，特別在對應振動行為的網路抖動情形中。JBM性能在高移動性情境中會被改善以用於全部的媒體(音頻與視頻)加載於IP以及用於在車子、火車、公車等等中的VoLTE應用，其導致在使用中之裝置的規則或快速移動(例如，比移動的行人更快)。

本揭露亦支持一種電腦程式產品，其包括電腦可執行代碼或電腦可執行指令，該電腦可執行代碼或電腦可執行指令當被執行時導致至少一電腦執行本文中所說明的執行與計算步驟，特別是如上文關於圖2與圖7所說明的方法200與方法700以及上文關於圖1至圖10所說明的技術。此一電腦程式產品可包括由電腦使用之儲存程式代碼於其上的可讀取儲存媒體。程式代碼可執行如上文關於圖2所說明的方法200或如上文關於圖7所說明的方法700。

實例

下列實例屬於進一步實施例。實例1係為一種用於在接收與處理音頻訊框之間控制端對端潛時的方法，該方法包含：接收資料封包，該資料封包包含至少一編碼音頻訊框；儲存該接收資料封包於封包緩衝器中；從該封包緩衝器擷取該接收資料封包，且將該至少一編碼音頻訊框解碼成音頻樣本；以及處理該等音頻樣本，其中從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於關於該等音頻樣本之音頻品質以及介於接收該資料封包與處理該等音頻樣本之間潛時的目標標準，以及其中該排程及時動態且平順地移位，以便避免音頻失真。

在實例2中，實例1的主題可選地包括從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於時間標度該至少一解碼音頻訊框，以便相對於最小潛時來移動該接收資料封包的處理於最佳位置中。

在實例3中，實例2的主題可選地包括時間標度該至少一解碼音頻訊框包含以下至少一者：用於減少在接收該資料封包與處理該等音頻樣本之間的該潛時的訊框壓縮，用於增加在接收該資料封包與處理該等音頻樣本之間的該潛時的訊框擴展，以及用於維持在接收該資料封包與處理該等音頻樣本之間的該潛時之相關於訊框壓縮與訊框擴展的閒置活動。

在實例4中，實例2至3中任一項的主題可選地包括該時間標度使用於移位該排程以便修改該至少一解碼音頻訊框的位置。

在實例5中，實例2至4中任一項的主題可選地包括時間標度基於語音訊框壓縮與語音訊框擴展其中一者。

在實例6中，實例1至5中任一項的主題可選地包括基於以下資料至少一者來判定最佳排程：有關介於接收資料與播放資料之間潛時的統計，基於接收率與重傳率之至少一者的現代統計。

在實例7中，實例1至6中任一項的主題可選地包括該資料封包係為非同步接收資料封包之串流的部份。

在實例8中，實例7的主題可選地包括判定在接收該串流資料封包之各別資料封包與處理該各別資料封包之該等音頻樣本之間的該潛時的統計；以及使用用於該排程的該統計。

在實例9中，實例1至8中任一項的主題可選地包括從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框且處理該等音頻樣本係基於主時脈。

在實例10中，實例1至9中任一項的主題可選地包括從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係藉由調整以下至少一者來執行：從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框之時脈，以及處理該等音頻樣本的時脈。

在實例11中，實例1至10中任一項的主題可選地包括判定在該接收資料封包與該等處理音頻樣本之間的潛時；判定該等音頻樣本的音頻品質；以及將從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框排程，使得該音頻品質在第一臨界值以上且在接收該資料封包與處理該等音頻樣本之間的該潛時在第二臨界值以下。

在實例12中，實例11的主題可選地包括處理該等音頻樣本包含：基於下列至少一者來初始化該等音頻樣本的播放時間：指出該音頻訊框之起始的位置，該音頻訊框之重傳的數目，內部處理時間，包含該音頻訊框之該資料封包的重傳。

實例13係為一種用於在接收與處理音頻訊框之間控制端對端潛時的裝置，該裝置包含：封包緩衝器，其經組態以接收資料封包，該資料封包包含至少一編碼音頻訊框；解碼器，其經組態以從該封包緩衝器擷取該接收資料封包，且將該至少一編碼音頻訊框解碼成音頻樣本；音頻處理器，其經組態以處理該等音頻樣本；以及排程器，其經組態以排程從該封包緩衝器擷取該接收資料封包且基於關於該等音頻樣本之音頻品質以及介於藉由該封包緩衝器來接收該資料封包與藉由該音頻處理器來處理該等音頻樣本之間潛時的目標標準來解碼該至少一編碼音頻訊框，其中該排程器(607)經組態以及時動態且平順地移位該排程，以便避免音頻失真。

在實例14中，實例13的主題可選地包括音頻緩衝器，其耦合於該解碼器與該音頻處理器之間，其中該解碼器經組態以儲存該等音頻樣本於該音頻緩衝器中且該音頻處理器經組態以從該音頻緩衝器擷取該等音頻樣本。

在實例15中，實例14的主題可選地包括該排程器經組態以調整以下至少一者：用於儲存該等音頻樣本於該音頻緩衝器中之該解碼器的存取速率以及用於從該音頻緩衝器擷取該等音頻樣本之該音頻處理器的存取速率，對該音頻緩衝器之拉請求的存取速率。

在實例16中，實例15的主題可選地包括該排程器經組態以基於第一時脈來調整該解碼器的該存取速率以及基於第二時脈來調整該音頻處理器的該存取速率，其中該第一時脈與該第二時脈係從主時脈或任何其他同步機制取得。

在實例17中，實例13至16中任一項的主題可選地包括該排程器經組態以排程從該封包緩衝器擷取該接收資料封包以及基於調整用於解碼該至少一編碼的音頻訊框的該解碼器的時間標度來解碼該至少一編碼音頻訊框。

在實例18中，實例13至17中任一項的主題可選地包括該解碼器包含語音解碼器與語音時間標度器之至少一者。

實例19係為一種用於調整在移動終端之媒體處理電路中的抖動緩衝器之尺寸的方法，該方法包含：將來自接收無線電訊號的至少一編碼媒體訊框解封包化；將該解封包化的至少一編碼媒體訊框儲存於抖動緩衝器中；從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本；基於指示該移動終端之移動性狀態的資訊來判定抖動模型；基於指示該移動性狀態之該資訊的歷史來調整該抖動模型；以及基於該抖動模型來調整該抖動緩衝器的尺寸。

在實例20中，實例19的主題可選地包括指示該移動終端之該移動性狀態的該資訊包含相關於該移動終端之下列資訊的至少一者：速率或速度資訊，位置資訊，環境資訊，時間資訊，速度的變化或加速度資訊。

在實例21中，實例19至20中任一項的主題可選地包括根據基於指示該移動終端之該移動性狀態的該資訊而估計的網路抖動，調整該抖動緩衝器的該尺寸。

在實例22中，實例21的主題可選地包括以從該資訊取得的循環函數來估計該網路抖動，該資訊指示該移動終端的該移動性狀態。

實例23係為一種使用於移動終端的媒體處理電路，該媒體處理電路包含：解封包化器，其經組態以將來自接收無線電訊號的至少一編碼媒體訊框解封包化；抖動緩衝器，其經組態以儲存該解封包化的至少一編碼媒體訊框；解碼器，其經組態以從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本；以及抖動緩衝器管理實體，其經組態以基於指示該移動終端之移動性狀態的資訊來判定抖動模型、基於指示該移動性狀態之該資訊的歷史來調整該抖動模型以及基於該抖動模型來調整該抖動緩衝器的尺寸。

在實例24中，實例23的主題可選地包括該抖動緩衝器管理實體包含至提供實體來接收指示該移動終端之該移動性狀態的該資訊的位置服務的介面。

在實例25中，實例23至24中任一項的主題可選地包括該抖動緩衝器管理實體經組態以基於相關於該移動終端之以下資訊的至少一者來調整該抖動緩衝器的該尺寸：速率或速度資訊，位置資訊，環境資訊，時間資訊，速度的變化或加速度資訊。

實例26係為電腦指令儲存於上的一電腦可讀取媒體，該等電腦指令當由電腦執行時會導致電腦執行實例1至12其中一項的方法或者實例19至22其中一項的方法。

實例27係為一種用於在接收與處理音頻訊框之間控制端對端潛時的裝置，該裝置包含：用於接收資料封包的接收構件，該資料封包包含至少一編碼音頻訊框；用於儲存該接收資料封包於封包緩衝器中的儲存構件；用於從該封包緩衝器擷取該接收資料封包的擷取構件，以及用於將該至少一編碼音頻訊框解碼成音頻樣本的解碼構件；以及用於處理該等音頻樣本的處理構件，其中從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於關於該等音頻樣本之音頻品質以及介於接收該資料封包與處理該等音頻樣本之間潛時的目標標準。

在實例28中，實例27的主題可選地包括排程構件，其用於基於時間標度該至少一編碼音頻訊框之從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程。

在實例29中，實例28的主題可選地包括該排程構件經組態以基於重新編碼該至少一編碼音頻訊框來時間標度該至少一編碼音頻訊框。

實例30係為一種用於在接收與處理音頻訊框之間控制端對端潛時的系統，該系統包含：封包緩衝器，其經組態以接收資料封包，該資料封包包含至少一編碼音頻訊框；解碼器，其經組態以從該封包緩衝器擷取該接收資料封包，且將該至少一編碼音頻訊框解碼成音頻樣本；音頻處理器，其經組態以處理該等音頻樣本；以及排程器，其經組態以排程從該封包緩衝器擷取該接收資料封包且基於關於該等音頻樣本之音頻品質以及介於藉由該封包緩衝器來接收該資料封包與藉由該音頻處理器來處理該等音頻樣本之間潛時的目標標準來解碼該至少一編碼音頻訊框。

在實例31中，實例30的主題可選地包括耦合於該解碼器與該音頻處理器之間的音頻緩衝器，其中該解碼器經組態以儲存該等音頻樣本於該音頻緩衝器中，且該音頻處理器經組態以從該音頻緩衝器擷取該等音頻樣本。

在實例32中，實例30的主題可選地包括該系統係為一晶片上系統。

實例33係為一種用於調整在移動終端之媒體處理電路中的抖動緩衝器之尺寸的裝置，該裝置包含：用於將來自接收無線電訊號的至少一編碼媒體訊框解封包化的構件；用於將該解封包化的至少一編碼媒體訊框儲存於抖動緩衝器中的構件；用於從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本的構件；用於基於指示該移動終端之移動性狀態的資訊來調整該抖動緩衝器之尺寸的構件。

在實例34中，實例33的主題可選地包括指示該移動終端之移動性狀態的資訊包含在移動終端之速度上的資訊。

實例35係為一種使用於移動終端的媒體處理系統，該媒體處理系統包含：解封包化器，其經組態將來自接收無線電訊號的至少一編碼媒體訊框解封包化；抖動緩衝器，其經組態以儲存該解封包化的至少一編碼媒體訊框；解碼器，其經組態以從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本；以及抖動緩衝器管理實體，其經組態以基於指示該移動終端之移動性狀態的資訊來調整該抖動緩衝器的尺寸。

在實例36中，實例35的主題可選地包括該抖動緩衝器管理實體包含至提供實體來接收指示該移動終端之該移動性狀態的該資訊的位置服務的介面。

在實例37中，實例36的主題可選地包括該系統係為一晶片上系統。

在實例38中，實例23至25中任一項的主題可選地包括該抖動緩衝器管理實體係耦合至移動性監控器，以用於接收關於下列之至少一者的資訊：位置、移動性類型、環境類型、無線電組態類型。

在實例39中，實例23至25中任一項的主題可選地包括該抖動緩衝器管理實體係耦合至蜂巢式協定堆疊，以用於接收關於下列之至少一者的資訊：交遞率、交遞類型、交遞中斷時間、用於測量的觸發器、接收率的統計、網路重傳的統計。

在實例40中，實例23至25中任一項的主題可選地包括該抖動緩衝器管理實體係組態以基於有關相關於無線電連結的抖動與相關於核心網路的抖動之至少一者的接收資訊來調整抖動緩衝器的尺寸。

此外，雖然本揭露的特定特徵或態樣已經相對於數項實施例中只有一項來揭露，但是此特徵或態樣可結合其他實施方案的一或多個其他特徵或態樣，正如對於任何給定或特定申請案而言係令人期待且有利的。更者，就用語「包括(include)」、「具有(have)」、「具有(with)」或其任何變化被使用於實施方式或申請專利範圍而言，此等用語意圖以類似用語「包含(comprise)」的方式被包括在內。更者，要理解，本揭露的態樣可能以分開的電路實施，特別是積體電路或全積體電路或程式化構件。同樣地，用語「例示性(exemplary)」、「舉例而言(for example)」以及「例如(e.g.)」僅僅意指作為實例，而非最佳或可選的。

雖然特定態樣已經在本文中被繪示與說明，但是所屬技術領域中具有通常知識者將理解，在沒有脫離本揭露的範圍之下，多種替代及/或等同實施方案可被取代以用於所示與所說明的特定態樣。此申請案意圖涵蓋在本文中所討論之特定態樣的任何調適或變化。

Claims

一種用於在接收與處理音頻訊框之間控制端對端潛時的方法，該方法包含：接收資料封包，該資料封包包含至少一編碼音頻訊框；儲存該接收資料封包於封包緩衝器中；從該封包緩衝器擷取該接收資料封包，且將該至少一編碼音頻訊框解碼成音頻樣本；以及處理該等音頻樣本，其中從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於關於該等音頻樣本之音頻品質以及介於接收該資料封包與處理該等音頻樣本之間潛時的目標標準，以及其中該排程及時動態且平順地移位，以便避免音頻失真。
如申請專利範圍第1項之方法，其中從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係基於時間標度該至少一解碼音頻訊框，以便相對於最小潛時來移動該接收資料封包的處理於最佳位置中。
如申請專利範圍第2項之方法，其中時間標度該至少一解碼音頻訊框包含以下至少一者：用於減少在接收該資料封包與處理該等音頻樣本之間的該潛時的訊框壓縮，用於增加在接收該資料封包與處理該等音頻樣本之間的該潛時的訊框擴展，以及用於維持在接收該資料封包與處理該等音頻樣本之間的該潛時之相關於訊框壓縮與訊框擴展的閒置活動。
如申請專利範圍第2項之方法，其中該時間標度使用於移位該排程以便修改該至少一解碼音頻訊框的位置。
如申請專利範圍第2項之方法，其中時間標度基於語音訊框壓縮與語音訊框擴展其中一者。
如申請專利範圍第1項之方法，其包含：基於以下資料至少一者來判定最佳排程：有關介於接收資料與播放資料之間潛時的統計，基於接收率與重傳率之至少一者的現代統計。
如申請專利範圍第1項之方法，其中該資料封包係為非同步接收資料封包之串流的部份。
如申請專利範圍第7項之方法，其進一步包含：判定在接收該串流資料封包之各別資料封包與處理該各別資料封包之該等音頻樣本之間的該潛時的統計；以及使用用於該排程的該統計。
如申請專利範圍第1項之方法，其中從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框且處理該等音頻樣本係基於主時脈。
如申請專利範圍第1項之方法，其中從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框的排程係藉由調整以下至少一者來執行：從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框之時脈，以及處理該等音頻樣本的時脈。
如申請專利範圍第1項之方法，其進一步包含：判定在該接收資料封包與該等處理音頻樣本之間的潛時；判定該等音頻樣本的音頻品質；以及將從該封包緩衝器擷取該接收資料封包且解碼該至少一編碼音頻訊框排程，使得該音頻品質在第一臨界值以上且在接收該資料封包與處理該等音頻樣本之間的該潛時在第二臨界值以下。
如申請專利範圍第1項之方法，其中處理該等音頻樣本包含：基於下列至少一者來初始化該等音頻樣本的播放時間：指出該音頻訊框之起始的位置，該音頻訊框之重傳的數目，包含該音頻訊框之該資料封包的重傳，內部處理時間。
一種用於在接收與處理音頻訊框之間控制端對端潛時的裝置，該裝置包含：封包緩衝器，其經組態以接收資料封包，該資料封包包含至少一編碼音頻訊框；解碼器，其經組態以從該封包緩衝器擷取該接收資料封包，且將該至少一編碼音頻訊框解碼成音頻樣本；音頻處理器，其經組態以處理該等音頻樣本；以及排程器，其經組態以從該封包緩衝器擷取該接收資料封包且基於關於該等音頻樣本之音頻品質以及介於藉由該封包緩衝器來接收該資料封包與藉由該音頻處理器來處理該等音頻樣本之間潛時的目標標準來解碼該至少一編碼音頻訊框；其中該排程器經組態以及時動態且平順地移位該排程，以便避免音頻失真。
如申請專利範圍第13項之裝置，其進一步包含：音頻緩衝器，其耦合於該解碼器與該音頻處理器之間，其中該解碼器經組態以儲存該等音頻樣本於該音頻緩衝器中且該音頻處理器經組態以從該音頻緩衝器擷取該等音頻樣本。
如申請專利範圍第14項之裝置，其中該排程器經組態以調整以下至少一者：用於儲存該等音頻樣本於該音頻緩衝器中之該解碼器的存取速率，用於從該音頻緩衝器擷取該等音頻樣本之該音頻處理器的存取速率，對該音頻緩衝器之拉請求的存取速率。
如申請專利範圍第15項之裝置，其中該排程器經組態以基於第一時脈來調整該解碼器的該存取速率以及基於第二時脈來調整該音頻處理器的該存取速率，其中該第一時脈與該第二時脈係從主時脈或任何其他同步機制取得。
如申請專利範圍第13項之裝置，其中該排程器經組態以排程從該封包緩衝器擷取該接收資料封包以及基於調整用於解碼該至少一編碼的音頻訊框的該解碼器的時間標度來解碼該至少一編碼音頻訊框。
如申請專利範圍第13項之裝置，其中該解碼器包含語音解碼器與語音時間標度器之至少一者。
一種用於調整在移動終端之媒體處理電路中的抖動緩衝器之尺寸的方法，該方法包含：將來自接收無線電訊號的至少一編碼媒體訊框解封包化；將該解封包化的至少一編碼媒體訊框儲存於抖動緩衝器中；從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本；基於指示該移動終端之移動性狀態的資訊來判定抖動模型；基於指示該移動性狀態之該資訊的歷史來調整該抖動模型；以及基於該抖動模型來調整該抖動緩衝器的尺寸。
如申請專利範圍第19項之方法，其中指示該移動終端之該移動性狀態的該資訊包含相關於該移動終端之下列資訊的至少一者：速率或速度資訊，位置資訊，環境資訊，時間資訊，速度的變化或加速度資訊。
如申請專利範圍第19項之方法，其進一步包含：根據基於指示該移動終端之該移動性狀態的該資訊而估計的網路抖動，調整該抖動緩衝器的該尺寸。
如申請專利範圍第21項之方法，其進一步包含：以從該資訊取得的循環函數來估計該網路抖動，該資訊指示該移動終端的該移動性狀態。
一種使用於移動終端的媒體處理電路，該媒體處理電路包含：解封包化器，其經組態將來自接收無線電訊號的至少一編碼媒體訊框解封包化；抖動緩衝器，其經組態以儲存該解封包化的至少一編碼媒體訊框；解碼器，其經組態以從該抖動緩衝器擷取該至少一編碼媒體訊框且將該至少一編碼媒體訊框解碼成媒體樣本；以及抖動緩衝器管理實體，其經組態以基於指示該移動終端之移動性狀態的資訊來判定抖動模型、基於指示該移動性狀態之該資訊的歷史來調整該抖動模型，以及基於該抖動模型來調整該抖動緩衝器的尺寸。
如申請專利範圍第23項之媒體處理電路，其中該抖動緩衝器管理實體包含至提供實體來接收指示該移動終端之該移動性狀態的該資訊的位置服務的介面。
如申請專利範圍第23項之媒體處理電路，其中該抖動緩衝器管理實體經組態以基於相關於該移動終端之以下資訊的至少一者來調整該抖動緩衝器的該尺寸：速率或速度資訊，位置資訊，環境資訊，時間資訊，速度的變化或加速度資訊。