TWI713511B

TWI713511B - 會議音訊管理

Info

Publication number: TWI713511B
Application number: TW105110641A
Authority: TW
Inventors: 凡卡特拉曼Ｓ阿堤; 丹尼爾Ｊ席德; 尼可雷李恩; 福維克瑞得倫
Original assignee: 美商高通公司
Priority date: 2015-04-05
Filing date: 2016-04-01
Publication date: 2020-12-21
Also published as: EP3512186B1; BR112017021350A2; EP3281396A1; EP3512186A1; HUE044919T2; US10225814B2; JP2018515009A; TW201640878A; KR20170134464A; CN107408395B; ES2847416T3; US11910344B2; JP6827950B2; CN107408395A; AU2016244809B2; US20160295539A1; JP2021067956A; US20190150113A1; EP3281396B1; AU2016244809A1

Abstract

本發明揭示一種用於在一會議期間管理音訊之方法，該方法包括：在一行動器件之一第一緩衝器處接收來自與該會議之一第一參與者相關聯之一第一器件之一第一音訊串流。該方法亦包括：在該行動器件之一第二緩衝器處接收來自與該會議之一第二參與者相關聯之一第二器件之一第二音訊串流。該方法進一步包括：在該行動器件之一延遲控制器處產生一控制信號。將該控制信號提供至該第一緩衝器及該第二緩衝器以使自該第一緩衝器輸出之第一緩衝音訊與自該第二緩衝器輸出之第二緩衝音訊同步化。

Description

會議音訊管理

優先權主張

本申請案主張標題為「CONFERENCE AUDIO MANAGEMENT AT A MOBILE DEVICE」之於2015年4月5日申請之美國臨時專利申請案第62/143,154號及標題為「CONFERENCE AUDIO MANAGEMENT」之於2015年4月7日申請之美國臨時專利申請案第62/144,033號之優先權，該等美國臨時專利申請案之內容以全文引用的方式併入本文中。

本發明大體上係關於會議音訊管理。

技術之前進已產生較小且較強大計算器件。舉例而言，當前存在各種可攜式個人計算器件，包括無線計算器件，諸如小型、輕質且容易由使用者攜載之可攜式無線電話、個人數位助理(PDA)及傳呼器件。更具體而言，可攜式無線電話(諸如蜂巢式電話及網際網路協定(IP)電話)可經由無線網路傳達語音及資料封包。此外，諸多此等無線電話包括併入其中之其他類型器件。舉例而言，無線電話亦可包括數位靜止相機、數位視訊攝影機、數位記錄器及音訊檔案播放器。

與三個或三個以上對應無線器件相關聯之三個或三個以上參與者可使用「電話會議」來彼此通信。在電話會議期間，第一無線器件可接收來自網路混合器之「混合的音訊串流」。舉例而言，網路混合器可接收來自電話會議之每一參與者之音訊串流。在接收音訊串流之後，網路混合器可將來自第二無線器件之音訊串流與來自第三無線器件之音訊串流混合以產生混合的音訊串流來提供給第一無線器件。為了產生混合的音訊串流，網路混合器對每一傳入音訊串流進行解碼，混合經解碼音訊串流及對混合的經解碼音訊串流進行重新編碼。然而，與產生混合的音訊串流相關聯之音訊處理可引入延遲。另外，因為會議參與者自中央網路混合物接收混合的音訊串流，所以其可不可能個別地調整參與者音訊。舉例而言，若A方、B方及C方參與會議，則A方可不能夠使用增益調整或空間處理技術來超過C方之語音而強調B方之語音，此係因為網路混合器為A方提供包括來自B方及C方兩者之語音之單一混合的串流。

揭示用於在會議期間管理音訊之系統及方法。根據特定實施，為了實現對來自個別會議參與者之音訊之調整，網路混合器可代替產生混合的串流而延遲個別音訊串流至參與者。舉例而言，在三方會議中，A方可分別接收來自B方及C方之單獨音訊串流。然而，由於網路狀況之變化，來自B方及C方之串流可彼此不同步化，此可導致A方器件之暫時錯誤輸出。為了說明，若B方之串流被延遲，則A方可在聽到C方對由B方提出之問題的回答之後才聽到彼問題。

根據本文中所描述之技術，一行動器件可使用緩衝器管理來使自不同器件接收之串流同步化。舉例而言，可將來自一第一會議參與者之一第一音訊串流提供至該行動器件之一第一緩衝器(例如，去抖音緩衝器)，且可將來自一第二會議參與者之一第二音訊串流提供至該行動器件之一第二緩衝器。在接收到該第一音訊串流及該第二音訊串流之後，一延遲控制器可比較該第一音訊串流之時間戳記與該第二音訊串流之時間戳記以使來自該第一會議參與者之音訊與來自該第二會議參與者之音訊同步化。該音訊之同步化可在該會議期間滿足第三代合作夥伴計劃(3GPP)技術規範(TS)26.114延遲要求。舉例而言，該延遲控制器可基於該等時間戳記而提供一控制信號至該第一緩衝器及該第二緩衝器使得該第一緩衝器輸出該第一音訊串流之即時傳送協定(RTP)封包，大約同時該第二緩衝器輸出該第二音訊串流之對應RTP封包。

在同步化之後，可對該第一音訊串流及該第二音訊串流進行單獨解碼以分別產生第一經解碼音訊及第二經解碼音訊。可將該第一經解碼音訊及該第二經解碼音訊混合以在該行動器件處產生一輸出音訊串流。在一些實施中，可將一第一頭部相關轉移函數(HRTF)應用於該第一經解碼音訊以基於使用者定義設定而調整該第一經解碼音訊之一第一增益且空間操縱(例如，平移(pan))該第一經解碼音訊。另外，可將一第二HRTF應用於該第二經解碼音訊以基於使用者定義設定而調整該第二經解碼音訊之一第二增益且空間操縱該第二經解碼音訊。因此，將該第一音訊串流及該第二音訊串流提供至該行動器件(與在一網路混合器處混合該等音訊串流且將一所得混合的音訊串流提供至該行動器件相反)可實現該行動器件可能夠控制個別音訊串流之特性(例如，增益特性及空間平移特性)。特定而言，音訊平移可使得再現器件能夠進行選擇以藉由調整該等混合增益來變化或調整該等參與者之音訊位準。此外，音訊空間化可使得該再現器件能夠選擇不同HRTF函數以將該等參與者進行空間分佈(例如，虛擬安排座位)，此可在同時說話者之狀況下改良說話者/話語區分及較佳理解。另外，可減少(例如，消除)與在該網路混合器處混合音訊串流相關聯之一延遲。

根據本文中所描述之技術之一項實例，一種用於在一會議期間管理音訊之方法包括：在一行動器件之一第一緩衝器處接收來自與該會議之一第一參與者相關聯之一第一器件之一第一音訊串流。該方法亦包括：在該行動器件之一第二緩衝器處接收來自與該會議之一第二參與者相關聯之一第二器件之一第二音訊串流。該方法進一步包括：在該行動器件之一延遲控制器處產生一控制信號。將該控制信號提供至該第一緩衝器及該第二緩衝器以使自該第一緩衝器輸出之第一緩衝音訊與自該第二緩衝器輸出之第二緩衝音訊同步化。

根據本文中所描述之技術之另一實例，一行動器件包括一第一緩衝器，該第一緩衝器經組態以自與一會議之一第一參與者相關聯之一第一器件接收一第一音訊串流。該行動器件亦包括一第二緩衝器，該第二緩衝器經組態以自與該會議之一第二參與者相關聯之一第二器件接收一第二音訊串流。該行動器件進一步包括一延遲控制器，該延遲控制器經組態以產生一控制信號。將該控制信號提供至該第一緩衝器及該第二緩衝器以使自該第一緩衝器輸出之第一緩衝音訊與自該第二緩衝器輸出之第二緩衝音訊同步化。

根據本文中所描述之技術之另一實例，一非暫時性電腦可讀媒體包括用於在一會議期間管理音訊之指令。該等指令在由一行動器件中之一處理器執行時致使該處理器執行操作。該等操作包括：在一第一緩衝器處接收來自與該會議之一第一參與者相關聯之一第一器件之一第一音訊串流。該等操作進一步包括：在一第二緩衝器處接收來自與該會議之一第二參與者相關聯之一第二器件之一第二音訊串流。該等操作亦包括：在一延遲控制器處產生一控制信號。將該控制信號提供至該第一緩衝器及該第二緩衝器以使自該第一緩衝器輸出之第一緩衝音訊與自該第二緩衝器輸出之第二緩衝音訊同步化。

根據本文中所描述之技術之另一實例，一裝置包括用於自與一會議之一第一參與者相關聯之一第一器件接收一第一音訊串流的構件。該裝置亦包括用於自與該會議之一第二參與者相關聯之一第二器件接收一第二音訊串流。該裝置進一步包括用於產生一控制信號的構件。將該控制信號提供至用於接收該第一音訊串流的該構件及用於接收該第二音訊串流的該構件以使自用於接收該第一音訊串流的該構件輸出之第一緩衝音訊與自用於接收該第二音訊串流的該構件輸出之第二緩衝音訊同步化。

由所揭示實施中之至少一者提供之特定優點包括減少與在一網路混合器處混合一會議中之多個音訊串流相關聯之一延遲。舉例而言，略過在網路混合器處之音訊混合可改良(例如，減少)該會議期間之延遲。在檢閱整個申請案(包括以下章節)之後，本發明之其他實施、優點及特徵將變得顯而易見：「圖式簡單說明」、「實施方式」及「申請專利範圍」。

100‧‧‧系統

102‧‧‧行動器件

104‧‧‧音訊串流

110‧‧‧第一器件

114‧‧‧第一音訊串流

120‧‧‧第二器件

124‧‧‧第二音訊串流

130‧‧‧第三器件

134‧‧‧第三音訊串流

140‧‧‧第四器件

144‧‧‧第四音訊串流

150‧‧‧第五器件

153‧‧‧系統

154‧‧‧第五音訊串流

170‧‧‧系統

180‧‧‧閘道器

184‧‧‧音訊串流

190‧‧‧網路器件

202‧‧‧延遲控制器

204‧‧‧控制信號

205‧‧‧回饋信號

210‧‧‧第一緩衝器

211‧‧‧第一參考延遲計算演算法

212‧‧‧第一解碼器

214‧‧‧第一緩衝音訊

216‧‧‧第一經解碼音訊

220‧‧‧第二緩衝器

221‧‧‧第二參考延遲計算演算法

222‧‧‧第二解碼器

224‧‧‧第二緩衝音訊

226‧‧‧第二經解碼音訊

230‧‧‧第三緩衝器

231‧‧‧第三參考延遲計算演算法

232‧‧‧第三解碼器

234‧‧‧第三緩衝音訊

236‧‧‧第三經解碼音訊

240‧‧‧空間操縱處理器

242‧‧‧第一頭部相關轉移函數

244‧‧‧第二頭部相關轉移函數

246‧‧‧第三頭部相關轉移函數

250‧‧‧頭部追蹤模組

270‧‧‧立體聲信號

280‧‧‧第N緩衝器

282‧‧‧第N解碼器

284‧‧‧第N頭部相關轉移函數

292‧‧‧第N音訊串流

294‧‧‧第N緩衝音訊

296‧‧‧第N經解碼音訊

500‧‧‧系統

600‧‧‧用於在會議期間管理音訊之方法

602‧‧‧步驟

604‧‧‧步驟

606‧‧‧步驟

702‧‧‧數位/類比轉換器

704‧‧‧類比/數位轉換器

706‧‧‧處理器

710‧‧‧處理器

722‧‧‧系統級封裝/系統單晶片器件

726‧‧‧顯示器控制器

728‧‧‧顯示器

730‧‧‧輸入器件

732‧‧‧記憶體

734‧‧‧編碼器/解碼器

736‧‧‧揚聲器

738‧‧‧麥克風

740‧‧‧無線控制器

742‧‧‧天線

744‧‧‧電源供應器

760‧‧‧指令

圖1A係說明可操作以在會議期間管理音訊之系統之圖解；圖1B係說明可操作以在會議期間管理音訊之另一系統之圖解；圖1C係說明可操作以在會議期間管理音訊之另一系統之圖解；圖2A係可操作以在會議期間管理音訊之行動器件之圖解；圖2B係圖2A中之行動器件之另一實施；圖3係說明使用頭部相關轉移函數(HRTF)處理之經解碼音訊之圖解；圖4係說明使用HRTF及頭部追蹤資料處理之經解碼音訊之圖解；圖5係說明可操作以在會議期間使用網際網路協定(IP)多播工作階段管理音訊之系統之圖解；圖6係說明用於在會議期間管理音訊之方法之流程圖；及圖7係可操作以根據圖1A至圖6之系統、圖解及方法執行信號處理操作之行動器件之方塊圖。

參考圖式描述本發明之特定技術。在描述中，貫穿諸圖式共同特徵由共同參考數字指定。

參考圖1A，展示可操作以在會議期間管理音訊之系統100之特定實施。系統100包括行動器件102、第一器件110、第二器件120、第三器件130及網路器件190。在一項實例中，行動器件102、第一器件110、第二器件120及第三器件130可各自包括與第三代合作夥伴計劃(3GPP)標準相容之使用者設備(UE)。儘管圖1A中說明四方會議，但應理解，在替代實施中，四個以上或四個以下方可參與會議。

行動器件102、第一器件110、第二器件120及第三器件130可參與會議(例如，音訊電話會議)中。網路器件190可經組態以將音訊(例如，音訊串流)自一個器件路由至連接至電話會議之每一其他器件。

為了說明，行動器件102可經組態以產生音訊串流104，音訊串流104在行動器件102處經編碼。音訊串流104可包括語音(例如，使用者語音)及/或背景雜訊。音訊串流104可經提供至網路器件190，且網路器件190可將音訊串流104(或其經轉碼/經處理版本)路由至其他器件110、120、130。第一器件110可經組態以產生第一音訊串流114，第一音訊串流114在第一器件110處經編碼。第一音訊串流114可包括來自會議之第一參與者(例如，第一器件110之使用者)之語音及/或第一器件110處之背景雜訊。第一音訊串流114可經提供至網路器件190，且網路器件190可將第一音訊串流114(或其經轉碼/經處理版本)路由至其他器件102、120、130。第二器件120可經組態以產生第二音訊串流124，第二音訊串流124在第二器件120處經編碼。第二音訊串流124可包括來自會議之第二參與者(例如，第二器件120之使用者)之語音及/或第二器件120處之背景雜訊。第二音訊串流124可經提供至網路器件190，且網路器件190可將第二音訊串流124(或其經轉碼/經處理版本)路由至其他器件102、110、130。第三器件130可經組態以產生第三音訊串流134，第三音訊串流在第三器件130處經編碼。第三音訊串流134可包括來自會議之第三參與者(例如，第三器件130之使用者)之語音及/或第三器件130處之背景雜訊。第三音訊串流134可經提供至網路器件190，且網路器件190可將第三音訊串流134(或其經轉碼/經處理版本)路由至其他器件102、110、120。

儘管每一音訊串流104、114、124、134經描述為包括來自會議之特定使用者/參與者之語音，但在其他實例中，一或多個音訊串流104、114、124、134可包括來自會議之多個參與者之語音。舉例而言，器件中之兩者或兩個以上者可彼此相對緊密接近且可「拾取」來自會議之多個參與者之語音。另外或在替代方案中，音訊串流可包括來自與單個使用者設備(例如，單個行動器件)相關聯之多個會議參與者之語音。舉例而言，多個會議參與者可對著單個行動(或固定)器件演說，且行動(或固定)器件可產生包括來自多個會議參與者之語音之音訊串流。為了說明，第一音訊串流114可為包括來自多個揚聲器之語音之單個音訊串流。舉例而言，若四個人正對著第一器件110演說，則第一音訊串流114可為單聲道音訊串流、立體聲音訊串流、4頻道音訊串流(例如，每揚聲器一個頻道)等等。

如上文所描述，網路器件190可將分別來自器件110、120、130之經編碼音訊串流114、124、134路由至行動器件102。根據本文中所描述之技術，行動器件102可執行音訊混合使得在網路器件190處略過音訊混合。關於圖2A更詳細地描述行動器件102處之音訊混合。因此，代替對音訊串流114、124、134進行解碼，混合經解碼音訊串流以產生混合的音訊串流，對混合的音訊串流進行重新編碼以產生經重新編碼音訊串流，及將經重新編碼音訊串流提供至行動器件102，網路器件190可將每一經編碼音訊串流114、124、134路由至行動器件102。

根據一項實例，網路器件190可作為「主交換器」進行操作以在其他器件102、110、120、130之間執行發信活動。舉例而言，網路器件190可分別自器件102、110、120、130接收音訊串流104、114、124、134，且可協商與延遲音訊串流104、114、124、134相關聯之位元率控制。在接收到音訊串流之後，網路器件190可協商將特定音訊串流路由至特定器件之位元率。作為說明性非限制實例，網路器件190可協商(與行動器件102)將第一音訊串流114提供至行動器件102之第一位元率、將第二音訊串流124提供至行動器件102之第二位元率及將第三音訊串流134提供至行動器件102之第三位元率。基於個別器件能力，網路器件190亦可能夠協商可傳達信號(例如，音訊串流)之頻寬(例如，上行鏈路頻寬及下行鏈路頻寬)。舉例而言，基於每一器件102、110、120、130之編碼器/解碼器(CODEC)能力，網路器件190可能夠協商將音訊串流提供至特定器件之頻寬。

略過在網路器件190處之音訊混合且在個別器件102、110、120及130處執行音訊混合可減少可原本與網路器件190處之音訊處理鏈相關聯之品質降級。舉例而言，可減少由於網路器件190處之解碼操作、網路器件190處之混合操作、及網路器件190處之重新編碼操作所致之音訊品質降級。因此，藉由在個別器件102、110、120及130處執行音訊混合(與網路器件190相反)，可略過匯接編碼操作及轉碼操作。另外，可減少雙耳覺之損失。舉例而言，若第一音訊串流114為立體聲音訊串流且其他音訊串流124、134為單聲道音訊串流，則行動器件102可在將個別音訊串流114、124、134發送至行動器件102之條件下保留第一音訊串流114之立體聲品質。然而，在網路器件190處執行音訊混合(例如，解碼、混合及重新編碼)且將混合的音訊串流提供至行動器件102可增加第一音訊串流114之立體聲品質將「損失」之可能性。舉例而言，可不保證在音訊混合期間網路器件190將保留第一音訊串流114之立體聲品質。

另外，略過在網路器件190處之音訊混合可減少音訊處理鏈(例如，轉碼鏈)中之延遲。舉例而言，在網路器件190處執行音訊混合可要求網路器件190支援去抖音緩衝器，該等去抖音緩衝器添加延遲至音訊處理鏈。亦可藉由略過在網路器件190處之音訊混合而避免多個重新編碼。舉例而言，為了產生用於行動器件102之混合的串流，網路器件190可對包括音訊串流114、124、134(或由其產生)之混合的音訊串流進行重新編碼。作為另一實例，為了產生用於第一器件110之混合串流，網路器件190可對包括音訊串流104、124、134(或由其產生)之混合音訊串流進行重新編碼。可執行類似重新編碼操作以將混合音訊提供至其他器件120、130。系統100可藉由略過在網路器件190處之音訊混合而避免此等重新編碼操作。

在特定實施中，如關於圖2A至圖4所描述，行動器件102可將個人化頭部相關轉移函數(HRTF)應用於音訊串流114、124、134。因此，可使用HRTF來執行空間操縱來實現超過「傳統」立體聲音訊能力之多頻道音訊(例如，左頻道音訊、右頻道音訊或其組合)。此外，如關於圖2A及圖4所描述，略過在網路器件190處之音訊混合可基於行動器件102處之頭部追蹤特徵而實現空間操縱。在其中會議包括音訊串流及視訊串流之情景中，略過在網路器件190處之音訊混合亦可使得行動器件102能夠在視訊未在諸如網路器件190之網路器件處轉碼之條件下使音訊及視訊同步化。

在特定實施中，所描述之系統及方法可支援會議之音訊/視訊同步化，該同步化可使用各種技術執行。根據音訊/視訊同步化之一項實例，音訊串流及對應視訊串流可在網路器件190處轉碼。根據音訊/視訊同步化之另一實例，可藉由網路器件190將來自每一器件102、110、120、130之視訊串流中繼至系統100內之其他器件，且可將來自每一器件102、110、120、130之音訊串流104、114、124、134在網路器件190處轉碼以產生混合的音訊串流。舉例而言，網路器件190可產生包括音訊串流114、124、134(或由其產生)之混合的音訊串流且可將混合的音訊串流發送至行動器件102。中繼至行動器件102之個別視訊串流(與器件110、120、130相關聯)可包括具有自器件110、120、130產生之時間戳記之RTP封包，此係因為網路器件190略過對視訊串流之轉碼操作。然而，混合的音訊串流可由於網路器件190處之轉碼操作而具有不同於視訊串流之時間戳記之時間戳記。行動器件120可判定(例如，追蹤)視訊串流之時間戳記與混合的音訊串流之時間戳記之間的延遲。在判定延遲之後，行動器件102可調整混合的音訊串流及/或視訊串流以使音訊及視訊同步化。

根據音訊/視訊同步化之另一實例，可藉由網路器件190將來自每一器件102、110、120、130之視訊串流中繼至系統100內之其他器件，且亦可藉由網路器件190將來自每一器件102、110、120、130之音訊串流104、114、124、134中繼至系統100內之其他器件。根據此實例，在網路器件190處略過用於音訊及視訊之轉碼操作。由於視訊串流及音訊串流104、114、124、134在單獨RTP封包中發送，因此，RTP視訊封包與對應RTP音訊封包之間可存在漂移(例如，延遲)。舉例而言，來自第一器件110之第一音訊串流114之RTP音訊封包及對應RTP視訊封包可具有不同時間戳記。在接收RTP音訊封包及對應RTP視訊封包之後，行動器件102可使RTP音訊封包及對應RTP視訊封包同步化。

根據本文中所描述之技術，行動器件102可能夠基於使用者定義設定、行動器件102之硬體能力或其組合而「協商」(例如，調整或執行工作階段描述協定(SDP)協商)在會議期間提供至行動器件102之每一音訊串流114、124、134的位元率及/或頻寬。為了說明，行動器件102可將第一信號(未展示)提供至網路器件190以調整將第一音訊串流 114提供至行動器件102之第一位元率，將第二信號(未展示)提供至網路器件190以調整將第二音訊串流124提供至行動器件102之第二位元率及/或將第三信號(未展示)提供至網路器件190以調整將第三音訊串流134提供至行動器件102之第三位元率。作為說明性非限制實例，行動器件102可向網路器件190發送信號，該等信號指示行動器件102之使用者偏好使第一音訊串流114而非其他音訊串流124、134具有較高品質(例如，較大頻寬)(例如，以強調來自使用第一器件110之會議參與者的語音)。

根據另一實施，系統100中之每一器件可「直接」與系統100中之其他器件協商位元率及/或頻寬(例如，略過網路器件190處之協商)。作為非限制實例，行動器件102可直接與第一器件110協商以調整將第一音訊串流114提供至行動器件102之第一位元率。根據此非限制性實例，網路器件190可作為「管理器件」操作且可監視接收傳入音訊串流104、114、124、134之位元率。然而，與在網路器件190處相反，在器件102、110、120、130處執行協商。

在特定情景中，網路器件190可作為「封包集束器」操作且可集束用於系統100中之特定器件之RTP封包。為了說明，網路器件190可將音訊串流104、第二音訊串流124及第三音訊串流134(例如，其封包)集束至提供至第一器件110之「經集束封包」中。網路器件190可將RTP標頭插入於經集束封包中且可將經集束封包發送至第一器件110。根據此情景，第一器件110可利用單個去抖音緩衝器來處理自網路器件190接收之經集束(RTP)封包之串流。網路器件190可指派經集束封包中的器件識別符(ID)以就哪一音訊串流104、124、134與每一器件102、120、130相關聯指示第一器件110內之處理元件。舉例而言，集束內之每一封包可包括產生封包之器件之識別符。在特定實施中，集束內之封包可包括其特有時間戳記。集束整體上可或可不包括時間戳記。因此，在特定實施中，去抖音緩衝器管理可包括利用串流內時間戳記以及串流間時間戳記，如參考圖2A進一步描述。

在一項實例中，用以接收音訊串流114、124、134之行動器件102處之頻寬可取決於給定時間處之作用中揚聲器之數目。舉例而言，基於行動器件102之硬體能力(例如，頻寬限制)，行動器件102可具有對接收及處理來自網路器件190之音訊之頻寬。隨著給定時間處之作用中揚聲器之數目增加，行動器件102處之可用資源(例如，硬體)頻寬可減少。

為了減輕頻寬限制，會議可「自調節」以減少給定時間處之作用中揚聲器之數目。通常，不存在同時諸多作用中揚聲器；否則，會議交談之追蹤難度可能益增。若在給定時間特定器件處之參與者未進行演說，由彼器件產生之對應音訊串流中之資料訊框可包括已中止傳輸(DTX)資料訊框且可具有指示背景雜訊特性之相對低位元率(例如，大約0.3千位元/秒(kbps))。舉例而言，若第一器件110處之第一參與者在給定時間處沉默，則第一音訊串流114之平均資料速率可為大約0.3kbps(基於每8個訊框發送2.4kbps訊框(例如，2.4kbps/8=0.3kbps))。

假定作用中揚聲器根據具有每8個訊框之頻率之協定之信號指示符(SID)具有上行鏈路位元率13.2kbps。在一項非限制實例，協定可為增強型語音服務(EVS)協定。當存在一個作用中揚聲器(例如，第一器件110處之第一參與者)時，第一器件110之平均上行鏈路位元率可為13.2kbps，且其他器件102、120、130中之每一者之平均上行鏈路位元率可為0.3kbps(例如，DTX位元率)。因此，平均總上行鏈路網路頻寬可為大約13.2+0.3+0.3+0.3=14.1kbps。當在參與者器件處執行音訊混合(與在網路器件190處相反)時，至行動器件102之下行鏈路位元率為13.8kbps，至第一器件110之平均下行鏈路位元率為0.9 kbps，至第二器件120之平均下行鏈路位元率為13.8kbps，且至第三器件130之平均下行鏈路位元率為13.8kbps。因此，平均總下行鏈路位元率可為大約42.3kbps。平均總下行鏈路位元率可小於當在網路器件190處執行混合時之平均總下行鏈路位元率。

當在給定時間會議中之兩個參與者正進行演說時，每一作用中揚聲器可具有13.2kbps之平均上行鏈路位元率。若在給定時間第一器件110處之第一參與者及第二器件120處之第二參與者正進行演說，第一器件110之平均上行鏈路位元率可為13.2kbps且第二器件120之平均上行鏈路位元率可為13.2kbps。其他器件102、130中之每一者之平均上行鏈路位元率可為0.3kbps(例如，DTX位元率)。因此，平均總上行鏈路網路頻寬可為大約27kbps。當在參與者器件處執行音訊混合(與在網路器件190處相反)時，至行動器件102之平均下行鏈路位元率為26.7kbps，至第一器件110之平均下行鏈路位元率為13.8kbps，至第二器件120之平均下行鏈路位元率為13.8kbps，且至第三器件130之平均下行鏈路位元率為26.7kbps。因此，平均總下行鏈路位元率可為大約82kbps。平均總下行鏈路位元率可小於當在網路器件190處執行混合時之平均總下行鏈路位元率。

如上文所描述，除了會議之「自調節」性質外，行動器件102可發送信號至網路器件190以基於使用者定義設定減少下行鏈路頻寬。作為非限制實例，若行動器件102之使用者不想要聽到第一器件110之第一參與者不得不說之內容，使用者可對網路器件190發信從而以較低位元率(例如，「下一」減少作用中訊框編碼速率，作為說明性非限制實例諸如9.6kbps)提供第一音訊串流114以減少對行動器件102處之頻寬限制之約束。特定而言，對音訊之此隱式發言權控制可基於自再現器件至網路器件之設定及發信。舉例而言，可允許行動器件之多串流用戶端接收能夠在給定時間同時解碼之更多音訊串流。在此狀況下，終端機中之多串流用戶端可具有用於選擇哪些串流進行優選排序且哪些串流忽略的構件。可依據哪些串流未處於DTX模式而作出此選擇。亦可基於音訊串流之作用中位準或音量而對媒體串流進行優選排序。然而，此要求對來自每一串流之媒體之解碼以判定最大聲串流。替代地，可對媒體串流子集進行週期性地解碼且可先驗地使用每媒體串流之作用中層級及訊框能量之長期統計來決定哪些音訊串流進行解碼。可將經優先排序串流進一步在空間上混合以用於再現。

因為與在網路器件190處相反，在行動器件102處執行音訊混合，行動器件102可經組態以使來自每一所接收音訊串流114、124、134之音訊同步化以保留會議之整體音訊品質。此等同步化操作可用於補償接收音訊串流114、124、134中之延遲之變化量(例如，由於不同音訊串流之不同網路狀況)。如關於圖2A更詳細描述，行動器件102可包括經組態以產生用以使自每一所接收音訊串流114、124、134接收之音訊同步化之控制信號的「延遲控制器」。舉例而言，延遲控制器可操作使得接收對應音訊串流114、124、134之每一去抖音緩衝器(在行動器件102中)之平均延遲實質上相同以便滿足訊框錯誤率(FER)。作為非限制實例，延遲控制器可確保每一去抖音緩衝器之平均延遲為3個訊框、5個訊框、7個訊框等等。

圖1A之系統100可藉由在行動器件102處執行音訊處理(例如，混合)(且與在器件110、120、130處類似)來減少可原本與在網路器件190處之音訊處理鏈相關聯之品質降級。舉例而言，可減少由於網路器件190處之解碼操作、網路器件190處之混合操作及網路器件190處之重新編碼操作所致之音訊品質降級。因此，藉由在個別器件102、110、120、130處執行音訊混合，可略過轉碼操作。

參考圖1B，展示可操作以在會議期間管理音訊之另一系統153之特定實施。系統153包括行動器件102、第一器件110、第二器件120及第三器件130。

系統150可以與圖1A之系統100實質上類似之方式操作；然而，系統153中之音訊串流104、114、124、134可自器件路由至器件而無需中央網路連線系統(例如，圖1A之網路器件190)。因此，可在圖1B之系統153中減少與網路器件190處之路由相關聯之延遲。

參考圖1C，展示可操作以在會議期間管理音訊之另一系統170之特定實施。系統170包括行動器件102、第一器件110、第二器件120、第三器件130、第四器件140、第五器件150及閘道器180(例如，網路混合器)。根據一項實施，閘道器180可為行動器件。根據另一實施，閘道器180可為固定器件。

在圖1C之說明中，第四器件140及第五器件150為舊式器件。舉例而言，舊式器件140、150可不能夠相對於其他器件102、110、120、130以圖1A至圖1B中所描述之方式執行多個音訊串流之音訊混合(例如，由於舊式器件140、150處之資源約束)。確切而言，舊式器件140、150可經組態以接收包括其他器件之音訊串流104、114、124、134(或由其產生)之單個音訊串流(例如，混合的音訊串流184)。為了說明，網路器件190可將音訊串流104、114、124、134中繼至閘道器180。閘道器180可對音訊串流104、114、124、134執行音訊混合以產生混合的音訊串流184。在產生混合的音訊串流184之後，閘道器180可將混合的音訊串流184中繼至第四器件140及第五器件150。

第四器件140可經組態以產生第四音訊串流144，第四音訊串流144在第四器件140處經編碼。第四音訊串流144可包括語音(例如，使用者語音)及/或背景雜訊。可將第四音訊串流144提供至閘道器180，閘道器180可將第四音訊串流144(或其經轉碼/經處理版本)路由至網路器件190，且網路器件190可將第四音訊串流144(或其經轉碼/經處理版本)路由至其他器件102、110、120、130。第五器件150可經組態以產生在第五器件150處經編碼之第五音訊串流154。第五音訊串流154可包括語音(例如，使用者語音)及/或背景雜訊。可將第五音訊串流154提供至閘道器180，閘道器180可將第五音訊串流154(或其經轉碼/經處理版本)路由至網路器件190，且網路器件190可將第五音訊串流154(或其經轉碼/經處理版本)路由至其他器件102、110、120、130。

儘管圖1C描繪閘道器180路由作為單獨音訊串流之第四音訊串流144及第五音訊串流154，但在其他實施中，閘道器180可對第四音訊串流144及第五音訊串流154執行音訊混合以產生混合的音訊串流。可將混合的音訊串流路由至網路器件190，且網路器件190可將混合的音訊串流中繼至其他器件102、110、120、130。

另外，儘管圖1C描繪第四器件140及第五器件150接收相同混合的音訊串流184，但在其他實施中，第四器件140及第五器件150可接收不同混合的音訊串流。舉例而言，由第四器件140接收之混合的音訊串流可包括分別來自器件102、110、120、130、150之音訊串流104、114、124、134、154(或可由其產生)。因此，閘道器180可經組態以將第五音訊串流154與其他音訊串流104、114、124、134混合以將混合的音訊串流提供至第四器件140。以類似方式，由第五器件150接收之混合的音訊串流可包括分別來自器件102、110、120、130、140之音訊串流104、114、124、134、144(或可由其產生)。因此，閘道器180可經組態以將第四音訊串流144與其他音訊串流104、114、124、134混合以提供混合的音訊串流至第五器件150。

參考圖2A，展示行動器件102之特定實施。行動器件102包括延遲控制器202、第一緩衝器210、第一解碼器212、第二緩衝器220、第二解碼器222、第三緩衝器230、第三解碼器232、空間操縱處理器240及頭部追蹤模組250。應注意，儘管圖2A說明行動器件102之組件，但類似組件可被包括於與會議相關聯之其他器件110、120、130中。

在一項實例中，每一緩衝器210、220、230可為經組態以緩衝對應音訊串流之去抖音緩衝器。舉例而言，第一緩衝器210可接收來自與會議之第一參與者相關聯之第一器件110的第一音訊串流114(例如，第一即時傳送協定(RTP)封包)，第二緩衝器220可接收來自與會議之第二參與者相關聯之第二器件120的第二音訊串流124(例如，第二RTP封包)，且第三緩衝器230可接收來自與會議之第三參與者相關聯之第三器件130的第三音訊串流134(例如，第三RTP封包)。根據另一實施，第一緩衝器210可接收來自圖1A之網路器件190之第一音訊串流114，第二緩衝器220可接收來自網路器件190之第二音訊串流124，且第三緩衝器230可接收來自網路器件190之第三音訊串流134。根據此實施(例如，「網路延遲」實施)，如由第一緩衝器210接收之第一音訊串流114之RTP時間戳記與由第一器件110提供之RTP時間戳記相同，如由第二緩衝器220接收之第二音訊串流124之RTP時間戳記與由第二器件120提供之RTP時間戳記相同，且如由第三緩衝器230接收之第三音訊串流134之RTP時間戳記與由第三器件130提供之RTP時間戳記相同。

儘管圖2A之行動器件102經展示為包括用於三個對應音訊串流114、124、134之三個緩衝器210、220、230，如上文關於圖1A所描述，但在替代實施中，圖1A之網路器件190可集束音訊串流114、124、134之封包以產生集束音訊串流，其中所集束音訊串流之每一封包除集束封包之RTP標頭外亦包括來自個別音訊串流114、124、134之封包。在此情景中，行動器件102可利用經組態以接收所集束音訊串流之封包之單個緩衝器(例如，單個去抖音緩衝器)。舉例而言，所集束音訊串流之封包可包括RTP標頭、由指派至第一器件110之第一ID識別之第一RTP封包(對應於第一音訊串流114)、由指派至第二器件 120之第二ID識別之第二RTP封包(對應於第二音訊串流124)及由指派至第三器件130之第三ID識別之第三RTP封包(對應於第三音訊串流134)。所集束封包之RTP標頭可包括時間戳記。替代地，或另外，第一RTP封包、第二RTP封包及第三RTP封包可包括其特有RTP標頭及時間戳記。

第一緩衝器210可經組態以緩衝第一音訊串流114並將第一緩衝音訊214輸出至第一解碼器212。第二緩衝器220可經組態以緩衝第二音訊串流124並將第二緩衝音訊224輸出至第二解碼器222。第三緩衝器230可經組態以緩衝第三音訊串流134並將第三緩衝音訊234輸出至第三解碼器232。每一緩衝器210、220、230可包括參考延遲計算演算法(RDCA)。舉例而言，第一緩衝器210可包括第一RDCA 211，第二緩衝器220可包括第二RDCA 221，且第三緩衝器230可包括第三RDCA 231。每一RDCA 211、221、231可藉由處理器(例如，在對應緩衝器210、220、230內)執行指令來實施。每一緩衝器210、220、230之延遲可基於對應RDCA 211、221、231。如下文所描述，延遲控制器202控制器可操作使得每一緩衝器210、220、230之平均延遲實質上相同以便滿足FER。舉例而言，延遲控制器202可經組態以修改每一RDCA 211、221、231以確保第一緩衝音訊214、第二緩衝音訊224及第三緩衝音訊234實質上同步化。

延遲控制器202(例如，去抖音緩衝器同步化器)可經組態以產生控制信號204，控制信號204經提供至每一緩衝器210、220、230。基於控制信號204，緩衝器210、220、230可使第一緩衝音訊214、第二緩衝音訊224及第三緩衝音訊234之輸出同步化。替代地，可將不同控制信號提供至緩衝器210、220、230中之每一者。根據一項實施，延遲控制器202可判定每一緩衝器210、220、230內之延遲。舉例而言，基於第一RDCA 211，第一緩衝器210可判定第一緩衝器210內之第一延遲且可經由回饋信號205將與第一延遲相關聯之資訊提供至延遲控制器202。第二緩衝器220可基於第二RDCA 221而判定第二緩衝器220內之第二延遲且可經由回饋信號205將與第二延遲相關聯之資訊提供至延遲控制器202。另外，第三緩衝器230可基於第三RDCA 231而判定第三緩衝器230內之第三延遲且可經由回饋信號205將與第三延遲相關聯之資訊提供至延遲控制器202。可基於個別音訊串流內之串流內時間戳記而判定第一延遲、第二延遲及第三延遲。作為非限制實例，第一延遲可基於第一音訊串流114中之RTP時間戳記(例如，第一延遲可與其他音訊串流124、134中之RTP時間戳記無關)。

延遲控制器202可使用關於第一延遲、第二延遲及第三延遲之資訊來產生控制信號204。儘管圖2A中描繪單個控制信號，但可將第一控制信號提供至第一緩衝器210，可將第二控制信號提供至第二緩衝器220，且可將第三控制信號提供至第三緩衝器230。控制信號204(或多個控制信號)可指示每一緩衝器210、220、230「加速」、增加延遲或維持當前延遲使得每一緩衝器210、220、230具有實質上類似平均延遲。「加速」緩衝器可包括指示緩衝器「丟棄(drop)」一或多個訊框。為了說明，第一緩衝器210可具有兩個訊框之平均延遲，第二緩衝器220可具有四個訊框之平均延遲，且第三緩衝器230可具有六個訊框之平均延遲。基於此等統計，延遲控制器202可指示第一緩衝器210使其平均延遲增加兩個訊框，指示第二緩衝器220維持其當前平均延遲，且指示第三緩衝器230使其平均延遲加速兩個訊框使得每一緩衝器210、220、230具有大約四個訊框之平均延遲。另外，可基於延遲調整重新分配緩衝器資源。舉例而言，因為第一緩衝器210需要使其平均延遲增加兩個訊框且第三緩衝器230需要使其延遲減少兩個訊框，所以可在第三緩衝器230與第一緩衝器210之間重新分配緩衝器資源。

因此，延遲控制器202可除串流內時間戳記外亦使用串流間時間戳記來調整每一緩衝器210、220、230之延遲。舉例而言，可基於比較每一緩衝器210、220、230之平均延遲來調整每一緩衝器210、220、230之延遲，且每一緩衝器210、220、230之平均延遲基於對應音訊串流114、124、134之RTP時間戳記。作為說明性非限制實例，自三個器件「A」、「B」及「C」接收之各種RTP封包之時間戳記可為t(A,1)、t(A,2)、t(A,3)…t(A,N)；t(B,1)、t(B,2)、t(B,3)…t(B,N)；t(C,1)、t(C,2)、t(C,3)…t(C,N)。串流內時間戳記可對應於相同RTP串流(例如，t(A,2)及t(A,1))之兩個封包之間的時間差。延遲控制器202可判定及/或使用串流內之平均延遲及串流之間的串流間延遲來產生控制信號204。

根據另一實施，延遲控制器202可比較第一音訊串流114(例如，第一RTP封包)之第一時間戳記、第二音訊串流124(例如，第二RTP封包)之第二時間戳記及第三音訊串流134(例如，第三RTP封包)之第三時間戳記。在一項實例中，第一時間戳記、第二時間戳記及第三時間戳記可基於提供(例如，藉由計時伺服器或其他時脈源)至102、110、120及130之共同時脈源(例如，全域時脈源)。音訊串流114、124、134之時間戳記可藉由未被圖1A之網路器件190改變之行動器件102接收。延遲控制器202可判定第一時間戳記與第二時間戳記之間的第一時間差、第二時間戳記與第三時間戳記之間的第二時間差及第三時間戳記與第一時間戳記之間的第三時間差。

在特定實施中，延遲控制器202基於比較來自不同緩衝器之個別封包而判定時間差。舉例而言，第一時間差可對應於第一緩衝器210中之「最早」封包(例如，欲輸出之下一封包)之時間戳記與第二緩衝器220中之最早封包之時間戳記之間的差。類似地，第二時間差可對應於第二緩衝器220中之最早封包之時間戳記與第三緩衝器230中之最早封包之時間戳記之間的差。第三差可對應於第三緩衝器230中之最早封包之時間戳記與第一緩衝器210中之最早封包之時間戳記之間的差。

基於時間差，延遲控制器202可產生用以控制分別自緩衝器210、220、230輸出緩衝音訊214、224、234之時間的控制信號204，使得使緩衝音訊214、224、234同步化。舉例而言，控制信號204(或如上文所描述之多個控制信號)可致使實質上同時輸出具有相同時間戳記之緩衝器210、220及230中之封包/訊框，而不管此等封包/訊框實際上何時被行動器件102接收。在自緩衝器210、220、230中之一者輸出封包之後，延遲控制器202可重新計算時間差中之一或多者並相應地修改控制信號204。藉由產生用以使緩衝音訊214、224、234同步化之控制信號204，延遲控制器202可輔助緩衝器210、220、230中之每一者在會議期間滿足3GPP技術規範(TS)26.114平均延遲要求，諸如藉由使跨越緩衝器210、220、230之平均延遲可比較。

作為使第一緩衝音訊214與第二緩衝音訊224同步化之非限制說明，若第一時間戳記指示早於第二時間戳記之時間，則延遲控制器202可向第一緩衝器210指示(經由控制信號204)使輸出第一緩衝音訊214(例如，其下一封包)延遲第一時間差。若第二時間戳記指示早於第一時間戳記之時間，則延遲控制器202可向第二緩衝器220指示(經由控制信號204)使輸出第二緩衝音訊224(例如，其下一封包)延遲第一時間差。

因此，延遲控制器202可經組態以監視每一個別緩衝器210、220、230之效能使得在多工作階段(例如，會議)期間滿足TS 26.114最小效能抖音緩衝器管理(JBM)延遲要求。此外，延遲控制器202可將額外時間戳記調整資訊提供至每一緩衝器210、220、230中之RDCA 211、221、231使得高效地執行「緩衝器處置」。如上文所描述，延遲控制器202可經由回饋信號205自在每一緩衝器210、220、230中執行之RDCA 211、221、231接收時間戳記內特性，且延遲控制器202可使用此資訊來管理緩衝器210、220、230。因此，可實施用於管理緩衝器延遲之「閉環」方法。

回應於接收到第一緩衝音訊214，第一解碼器212可解碼第一緩衝音訊214以產生第一經解碼音訊216。可將第一經解碼音訊216提供至空間操縱處理器240。然而，若第一緩衝音訊214中之訊框為DTX(或NODATA)訊框(例如，對應於背景雜訊及/或靜音)，則可略過第一解碼器212處之解碼操作以減少功率消耗且節省處理資源。當針對一訊框跳過解碼操作時，可維持先前經解碼作用中訊框之解碼狀態/記憶以供用於隨後解碼下一作用中訊框。回應於接收到第二緩衝音訊224，第二解碼器222可對第二緩衝音訊224進行解碼以產生第二經解碼音訊226。可將第二經解碼音訊226提供至空間操縱處理器240。若第二緩衝音訊224中之訊框為DTX(或NODATA)訊框，則可略過第二解碼器222處之解碼操作以減少功率消耗且節省處理資源。回應於接收到第三緩衝音訊234，第三解碼器232可解碼第三緩衝音訊234以產生第三經解碼音訊236。可將第三經解碼音訊236提供至空間操縱處理器240。若第三緩衝音訊234中之訊框為DTX訊框，則可略過第三解碼器232處之解碼操作以減少功率消耗且節省處理資源。在特定實施中，行動器件102可基於RTP封包長度而判定訊框(例如，封包)是否為DTX(或NODATA)訊框。

空間操縱處理器240可經組態以對第一經解碼音訊216執行第一空間操縱操作從而自揚聲器以第一角度(α1)投射第一經解碼音訊216。舉例而言，空間操縱處理器240可將第一HRTF 242應用於第一經解碼音訊216以根據第一角度(α1)操縱(例如，平移)第一經解碼音訊216。圖3中描繪根據第一角度(α1)操縱第一經解碼音訊216之說明。第一HRTF 242亦可由空間操縱處理器240用於調整第一經解碼音訊216之第一增益。根據一項實施，可基於行動器件102處之使用者定義設定而調整第一增益及第一角度(α1)。舉例而言，若使用者判定來自與第一器件110相關聯之第一參與者之語音較之與會議之其他參與者相關聯之語音更重要，則使用者可向行動器件102指示增加第一經解碼音訊216之第一增益。基於使用者指示，空間操縱處理器240可使用第一HRTF 242來增加第一經解碼音訊216之第一增益。

空間操縱處理器240亦可經組態以對第二經解碼音訊226執行第二空間操縱操作從而自揚聲器以第二角度(α2)投射第二經解碼音訊226。舉例而言，空間操縱處理器240可將第二HRTF 244應用於第二經解碼音訊226以根據第二角度(α2)操縱(例如，平移)第二經解碼音訊226。圖3中描繪根據第二角度(α2)操縱第二經解碼音訊226之說明。第二HRTF 244亦可由空間操縱處理器240用於調整第二經解碼音訊226之第二增益。根據一項實施，可基於行動器件102處之使用者定義設定而調整第二增益及第二角度(α2)。舉例而言，若使用者判定來自與第二器件120相關聯之第二參與者之語音較之與會議之其他參與者相關聯之語音較不重要，則使用者可向行動器件102指示減少第二經解碼音訊226之第二增益(或屏蔽第二經解碼音訊226)。基於使用者指示，空間操縱處理器240可使用第二HRTF 244來降低第二經解碼音訊226之第二增益。

空間操縱處理器240亦可經組態以對第三經解碼音訊236執行第三空間操縱操作從而自揚聲器以第三角度(α3)投射第三經解碼音訊236。舉例而言，空間操縱處理器240可將第三HRTF 246應用於第三經解碼音訊236以根據第三角度(α3)操縱(例如，平移)第三經解碼音訊236。圖3中描繪根據第三角度(α3)操縱第三經解碼音訊236之說明。第三HRTF 246亦可由空間操縱處理器240用於調整第三經解碼音訊 236之第三增益。根據一項實施，可基於行動器件102處之使用者定義設定而調整第三增益及第三角度(α3)。舉例而言，若使用者判定來自與第三器件130相關聯之第三參與者之語音較之與會議之其他參與者相關聯之語音較不重要，則使用者可向行動器件102指示減少第三經解碼音訊236之第三增益(或屏蔽第三經解碼音訊236)。基於使用者指示，空間操縱處理器240可使用第三HRTF 246來降低第三經解碼音訊236之第三增益。

每一HRTF 242、244、246可為泛用或可由行動器件102之使用者「個人化」。舉例而言，基於傳入音訊串流114、124、134之數目及基於行動器件102之硬體能力，使用者可指示待投射特定音訊串流114、124、134之位置(例如，角度)。因此，第一HRTF 242可不同於第二HRTF 244，且第二HRTF 244可不同於第三HRTF 246。舉例而言，使用者可向行動器件102指示(經由第一HRTF 242)在「揚聲器」之左側(例如，使用者之感知收聽領域)處投射第一經解碼音訊216，向行動器件102指示(經由第二HRTF 244)以在揚聲器之右側處投射第二經解碼音訊226，及向行動器件102指示(經由第三HRTF 246)以在中間投射第三經解碼音訊236。在另一實施中，使用者可向網路混合器(例如，圖1A之網路器件190)指示在網路混合器正執行音訊混合的條件下使用特定HRTF。舉例而言，網路器件190或另一網路混合器可填充有可在會議設置期間協商之HRTF。

因此，空間操縱處理器240可將HRTF242、244、246分別應用於經解碼音訊216、226、236以空間操縱經解碼音訊216、226、236使得似乎與經解碼音訊216、226、236相關聯之會議參與者被空間分佈成特定組態。HRTF 242、244、246可用於在行動器件102處執行音訊平移。音訊平移可在會議之多個參與者正進行演說時減少行動器件102之使用者之「疲勞」。舉例而言，若第一參與者(例如，與第一經解碼音訊216相關聯之參與者及第三參與者(例如，與第三經解碼音訊236相關聯之參與者)正同時進行演說，音訊平移可使得對使用者而言似乎第一參與者正在一個位置處進行演說且第三參與者正在另一位置處進行演說，此可減少使用者所感受的疲勞。

音訊平移亦可使得行動器件102之使用者能夠在HRTF混合之前(例如，在產生立體聲信號270之前，如下文所描述)變化參與者之音訊位準(例如，增益)。舉例而言，行動器件102之使用者可相對於其他參與者之音訊賦予第一參與者之音訊(例如，第一經解碼音訊216)較大重要性且可在每一HRTF 242、244、246中選擇性調整混合增益。在一項實例中，行動器件102之使用者可在多個參與者正同時講話時屏蔽除第一經解碼音訊216外之經解碼音訊226、236的全部。如關於圖1A所闡釋，行動器件102之使用者亦可基於講話者偏好及行動器件102之硬體能力而向網路器件190發信以管理每一音訊串流114、124、134之位元率及音訊頻寬。

在特定實施中，可基於頭部追蹤資料(例如，指示與行動器件102之使用者相關聯之頭部移動之資料)而進一步改善行動器件102處之空間處理。舉例而言，頭部追蹤模組250可追蹤行動器件102之使用者之頭部之移位(例如，旋轉)。舉例而言，頭部追蹤模組250可追蹤使用者之頭部之定向並將信號(舉例而言，指示定向上之移位量(β))提供至空間操縱處理器240。空間操縱處理器可將每一HRTF 242、244、246調整移位量(β)以適應在揚聲器處投射經解碼音訊216、226、236之各別角度。因此，空間操縱處理器240可使用第一角度(α1)及移位量(β)作為第一HRTF 242之輸入，使用第二角度(α2)及移位量(β)作為第二HRTF 244之輸入，且使用第三角度(α3)及移位量(β)作為第三HRTF 246之輸入。

空間操縱處理器240可輸出(例如，向揚聲器提供)立體聲信號 270，立體聲信號270包括由各別HRTF 242、244、246調整之每一經解碼音訊216、226、236。儘管圖2A說明立體聲信號270係由空間操縱處理器240輸出，但在另一實施中，空間操縱處理器240可輸出三個單調信號(未展示)。舉例而言，第一單調信號可包括由第一HRTF 242調整之第一經解碼音訊216，第二單調信號可包括由第二HRTF 244調整之第二經解碼音訊226，且第三單調信號可包括由第三HRTF 246調整之第三經解碼音訊236。

圖2A之行動器件102可藉由使緩衝音訊214、224、234同步化來在會議期間滿足3GPP TS 26.114延遲要求。舉例而言，延遲控制器202可基於對應音訊串流114、124、134之RTP封包中之時間戳記而產生用以使緩衝音訊214、224、234同步化之控制信號204。另外，行動器件102可使得音訊平移能夠在會議之多個參與者正同時演說時減少「疲勞」。舉例而言，行動器件102可空間操縱經解碼音訊216、226、236使得似乎與經解碼音訊216、226、236相關聯之會議參與者被空間分佈。

參考圖2B，展示行動器件102之另一實施。除了圖2A中所描繪之組件外，圖2B中所描繪之行動器件102亦可包括實施於空間操縱處理器240內之第N緩衝器280、第N解碼器282及第N HRTF 284。因此，根據所描述系統及方法，器件可利用單個去抖音緩衝器(例如，在處理經集束RTP串流之狀況下)、兩個去抖音緩衝器、三個去抖音緩衝器或N去抖音緩衝器(例如，其中N係大於或等於4之整數)。舉例而言，若N等於七，則圖2B中所描繪之行動器件102可包括實施於空間操縱處理器240內之七個緩衝器(經組態以接收七個對應音訊串流)、七個解碼器及七個HRTF。

第N緩衝器280可以與緩衝器210、220、230實質上類似之方式操作。舉例而言，第N緩衝器可經組態以自會議中之器件(或自圖1A之網路器件190)接收第N音訊串流292並基於控制信號204輸出第N緩衝音訊294。第N緩衝音訊294可分別與來自其他緩衝器210、220、230之緩衝音訊214、224、234同步化。第N解碼器282可以與解碼器212,222,232實質上類似之方式操作。舉例而言，第N解碼器232可對第N緩衝音訊294進行解碼以產生第N經解碼音訊296。第N經解碼音訊296可被提供至空間操縱處理器240。空間操縱處理器240亦可經組態以對第N經解碼音訊296執行第N空間操縱操作從而自揚聲器以第N角度(αN)投射第N經解碼音訊296。舉例而言，空間操縱處理器240可將第N HRTF 284應用於第N經解碼音訊296以根據第N角度(αN)操縱(例如，平移)第N經解碼音訊296。

參考圖3，展示說明在應用HRTF 242、244、246之後之經解碼音訊216、226、236之空間配置之實例之圖解。在特定實施中，可基於「較佳」虛擬揚聲器位置指派而預先計算HRTF 242、244、246。舉例而言，第一HRTF 242可將第一經解碼音訊216空間操縱成感知猶如來自揚聲器之左側(例如，來自第一角度(α1))。類似地，第二HRTF 244可將第二經解碼音訊226空間操縱成感知猶如來自揚聲器之左中側(例如，來自第二角度(α2))，且第三HRTF 246可將第三經解碼音訊236空間操縱成感知猶如來自揚聲器之右側(例如，來自第三角度(α3))。如關於圖2A所描述，HRTF 242、244、246亦可包括用以相對於其他揚聲器強調「較佳」揚聲器之增益控制。

參考圖4，展示說明在應用HRTF 242、244、246及頭部追蹤資料之後之經解碼音訊216、226、236之空間配置之實例之圖解。在圖4中，頭部追蹤模組250可偵測到使用者之頭部移位了移位量(β)。基於頭部追蹤資訊，空間操縱處理器240可使包括經解碼音訊216、226、236之聲場移位了移位量(β)，如圖4中所說明。因此，當行動器件102之使用者使其頭部移位時對圖3中所說明之經解碼音訊216、226、236 之位置之感知可實質上未改變。

參考圖5，展示可操作以在會議期間使用網際網路協定(IP)多播工作階段管理音訊之系統500之特定實施。系統500包括行動器件102、第一器件110及第二器件120。

根據特定操作實施，行動器件102可起始與第一器件110之呼叫。行動器件102可隨後起始第一器件110之工作階段描述協定(SDP)參考以起始與第二器件120之多播工作階段。第二器件120亦可起始與行動器件102之工作階段。在特定實施中，若N節點參與會議，則可每媒體起始N*(N-1)個工作階段(例如，針對3個節點，可針對音訊起始3*2=6個工作階段，可針對視訊起始另外3*2=6個工作階段等等)。在圖5之多播工作階段中，不存在隱式網路器件，諸如圖1A之網路器件190。因此，工作階段起始協定(SIP)發信及SDP協商可基於由每一器件102、110、120支援之CODEC。SIP發信及SDP協商可用於選擇音訊CODEC、位元率、音訊頻寬等等。

根據一項實施，器件102、110、120中之一或多者可基於可用之硬體資源而操作為閘道器(例如，網路閘道器)。若器件操作為閘道器，則可放鬆CODEC要求。舉例而言，若第一器件110之CODEC與解碼來自行動器件102之音訊串流104相容，則第二器件120可操作為閘道器且對音訊串流104進行解碼、以第一器件110支援之格式對音訊串流進行重新編碼並將經重新編碼音訊串流提供至第一器件110。

參考圖6，展示用於在會議期間管理音訊之方法600之流程圖。方法600可由圖1A至圖2B之行動器件102、圖1A至圖1C之第一器件110、圖1A至圖1C之第二器件120、圖1A至圖1C之第三器件130或其組合執行。

方法600包括：在602處，在行動器件之第一緩衝器處接收來自與會議之第一參與者相關聯之第一器件之第一音訊串流。舉例而言，參考圖2A，第一緩衝器210可接收來自第一器件110之第一音訊串流114(例如，RTP封包)。

方法600亦可包括：在604處，在行動器件之第二緩衝器處接收來自與會議之第二參與者相關聯之第二器件之第二音訊串流。舉例而言，參考圖2A，第二緩衝器220可接收來自第二器件120之第二音訊串流124(例如，RTP封包)。

可在606處，在行動器件之延遲控制器處產生控制信號。可將該控制信號提供至該第一緩衝器及該第二緩衝器以使自該第一緩衝器輸出之第一緩衝音訊與自該第二緩衝器輸出之第二緩衝音訊同步化。舉例而言，參考圖2A，延遲控制器202可比較第一音訊串流114(例如，其較早封包)之第一時間戳記與第二音訊串流124(例如，其較早封包)之第二時間戳記並判定第一時間戳記與第二時間戳記之間的時間差。若第一時間戳記指示比第二時間戳記早之時間，則控制信號204可向第一緩衝器210指示將輸出第一緩衝音訊214延遲時間差以使第一緩衝音訊214與第二緩衝音訊224同步化。若第二時間戳記指示比第一時間戳記早之時間，則控制信號204可向第二緩衝器220指示將輸出第二緩衝音訊224延遲時間差以使第一緩衝音訊214與第二緩衝音訊224同步化。延遲控制器可考量來自參與者A及B之封包[A1、A2、...]與封包[B1、B2、…]之間的封包間到達時間且估計用於緩衝來自參與者A及參與者B之媒體同時保持封包損失(或抖音誘發隱藏)為低且滿足3GPP TS 26.114之最小效能要求所需要之變化去抖音緩衝深度。舉例而言，參與者A可處於不良無線電信號條件且具有高封包損失率及低抖音，而參與者B處於良好無線電信號條件及極其低封包損失率但高抖音。延遲控制器考量來自參與者A及B之封包之抖音/損失特性以為來自參與者B之封包指派(例如)較大緩衝器深度使得整個封包損失不超過自參與者A所經歷之損失。上述延遲控制器機制亦可擴展用於包括接收兩個以上媒體串流之狀況。

根據一項實施，方法600可進一步包括：在行動器件之第一解碼器處對第一緩衝音訊進行解碼以產生第一經解碼音訊。舉例而言，參考圖2A，第一解碼器212可對第一緩衝音訊214進行解碼以產生第一經解碼音訊216。方法600亦可包括：在行動器件之第二解碼器處對第二緩衝音訊進行解碼以產生第二經解碼音訊。舉例而言，參考圖2A，第二解碼器222可對第二緩衝音訊224進行解碼以產生第二經解碼音訊226。

根據一項實施，方法600可包括：對第一經解碼音訊執行第一空間操縱操作從而自揚聲器以第一角度投射第一經解碼音訊。舉例而言，參考圖2A，空間操縱處理器240可對第一經解碼音訊216執行第一空間操縱操作從而自揚聲器以第一角度(α1)投射第一經解碼音訊216。為了說明，空間操縱處理器240可將第一HRTF 242應用於第一經解碼音訊216以根據第一角度(α1)操縱(例如，平移)第一經解碼音訊216。第一HRTF 242亦可由空間操縱處理器240用於調整第一經解碼音訊216之第一增益。

根據方法600之一項實施，第一解碼器可接收來自延遲控制器之控制信號且第二解碼器亦可接收來自延遲控制器之控制信號。第一解碼器可基於控制信號而對與第一音訊串流相關聯之第一資料封包進行解碼或基於控制信號而略過對第一資料封包之解碼操作。類似地，第二解碼器可基於控制信號而對與第二音訊串流相關聯之第二資料封包進行解碼或基於控制信號而略過對第二資料封包之解碼操作。根據一項實施，第一解碼器及第二解碼器為不同解碼器。第一解碼器可被所有會議參與者支援且第二解碼器可由會議參與者之子組支援。根據另一實施，第一解碼器及第二解碼器包括以不同模式操作之類似解碼器。

方法600亦可包括：對第二經解碼音訊執行第二空間操縱操作從而自揚聲器以第二角度投射第二經解碼音訊。舉例而言，參考圖2A，空間操縱處理器240可對第二經解碼音訊226執行第二空間操縱操作從而自揚聲器以第二角度(α2)投射第二經解碼音訊226。為了說明，空間操縱處理器240可將第二HRTF 244應用於第二經解碼音訊226以根據第二角度(α2)操縱(例如，平移)第二經解碼音訊226。第二HRTF 244亦可由空間操縱處理器240用於調整第二經解碼音訊226之第二增益。

根據一項實施，方法600可包括：將第一信號提供至網路器件以調整第一音訊串流之第一位元率。舉例而言，參考圖1A及圖2A，網路器件190可將來自第一器件110之第一音訊串流114路由至行動器件102之第一緩衝器210，且網路器件190可將第二器件120之第二音訊串流124路由至行動器件102之第二緩衝器220。行動器件102可將第一信號提供至網路器件190以調整將第一音訊串流114提供至行動器件102之第一位元率。方法600亦可包括：將第二信號提供至網路器件以調整第二音訊串流之第二位元率。舉例而言，參考圖1A，行動器件102可將第二信號提供至網路器件190以調整將第二音訊串流124提供至行動器件102之第二位元率。

圖6之方法600可藉由使緩衝音訊214、224、234同步化來在會議期間滿足3GPP TS 26.114延遲要求。舉例而言，延遲控制器202可基於對應音訊串流114、124、134之RTP封包中之時間戳記而產生用以使緩衝音訊214、224、234同步化之控制信號204。另外，方法600可使得音訊平移能夠在會議之多個參與者正同時演說時減少「疲勞」。舉例而言，方法600可實現經解碼音訊216、226、236之空間操縱使得似乎與經解碼音訊216、226、236相關聯之會議參與者被空間分佈。

在一些實例中，圖6之方法600可經由處理單元之硬體(例如， FPGA器件、ASIC等等)(諸如中央處理單元(CPU)、DSP或控制器)，經由韌體器件或其任一組合來實施。作為實例，圖6之方法600可由執行指令之處理器執行，如關於圖7所描述。

參考圖7，展示行動器件102之特定說明性實施之方塊圖。在特定實施中，器件102包括處理器706(例如，CPU)。行動器件102可包括一或多個額外處理器710(例如，一或多個DSP)。

行動器件102可包括記憶體732及耦接至天線742之無線控制器740。無線控制器740包括圖2A至圖2B之延遲控制器202、圖2A至圖2B之第一緩衝器210、圖2A至圖2B之第一解碼器212、圖2A至圖2B之第二緩衝器220、圖2A至圖2B之第二解碼器222、圖2A至圖2B之第三緩衝器230、圖2A至圖2B之第三解碼器232及圖2A至圖2B之空間操縱處理器240。圖2A至圖2B之延遲控制器202之邏輯亦可實施於處理器706或一或多個額外處理器710內。因此，無線控制器740中之第一緩衝器210可經組態以經由天線742接收第一音訊串流114，無線控制器740中之第二緩衝器220可經組態以經由天線742接收第二音訊串流124，且無線控制器740中之第三緩衝器230可經組態以經由天線742接收第三音訊串流134。為了在會議期間滿足3GPP TS 26.114延遲要求，可將控制信號(未展示)提供至緩衝器210、220、230以使自緩衝器210、220、230輸出之緩衝音訊同步化，如上文所描述。

行動器件102可包括耦接至顯示器控制器726之顯示器728。揚聲器736、麥克風738或兩者可耦接至CODEC 734。CODEC 734可包括數位/類比轉換器(DAC)702及類比/數位轉換器(ADC)704。在一項實例中，可將空間操縱處理器之輸出(例如，立體聲信號)提供至一或多個額外處理器710以供進一步處理且提供至CODEC 734。可經由DAC 702將立體聲信號轉換成類比信號並在揚聲器736處輸出。

記憶體732可包括指令760，指令760可由處理器706、處理器 710、CODEC 734、無線控制器740及其組件或其組合執行以執行圖6之方法600。記憶體732或處理器706、處理器710、無線控制器740及/或CODEC 734之一或多個組件可為非暫時性電腦可讀媒體，該非暫時性電腦可讀媒體包括當由電腦(例如，CODEC 734中之處理器、處理器706及/或處理器710)執行時致使該電腦執行圖6之方法600之指令(例如，指令760)。

儘管延遲控制器202、緩衝器210、220、230及解碼器212、222、232及空間操縱處理器240經描繪為在無線控制器740內部，但在其他實施中，緩衝器210、220、230、解碼器212、222、232或空間操縱處理器240中之一或多者可在CODEC 734、處理器710、一或多個額外處理器706內部或在行動器件102之另一組件中。

在特定實施中，行動器件102可被包括在系統級封裝或系統單晶片器件722(諸如，行動台數據機(MSM))中。在特定實施中，處理器706、處理器710、顯示器控制器726、記憶體732、CODEC 734及無線控制器740被包括在系統級封裝或系統單晶片器件722中。在特定實施中，輸入器件730(諸如觸控螢幕及/或小鍵盤)及電源供應器744耦接至系統單晶片器件722。此外，在特定實施中，如在圖7中所說明，顯示器728、輸入器件730、揚聲器736、麥克風738、天線742及電源供應器744在系統單晶片器件722外部。然而，顯示器728、輸入器件730、揚聲器738、麥克風736、天線742及電源供應器744中之每一者可耦接至系統單晶片器件722之組件，諸如介面或控制器。在說明實例中，行動器件102對應於行動通信器件、智慧型電話、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、顯示器件、電視、遊戲主機、音樂播放器、無線電、數位視訊播放器、光學光碟播放器、調諧器、相機、導航器件、解碼器系統、編碼器系統或其任一組合。

儘管圖7描繪行動器件102之組件，但本文中所描述之其他器件(例如，圖1A至圖1C之第一器件110、圖1A至圖1C之第二器件120及/或圖1A至圖1C之第三器件130)可包括類似於行動器件102之圖7中所說明之彼等組件之組件。

本發明之額外實施以附錄之形式呈現於本文中。應理解，代替參考圖1A至圖7所說明及所描述之某些實施或除其外，亦可利用此等實施。

結合所描述實施，揭示包括用於接收來自與會議之第一參與者相關聯之第一器件之第一音訊串流的構件之裝置。舉例而言，用於接收第一音訊串流的構件可包括圖2A至圖2B及圖7之第一緩衝器210、圖7之無線控制器740、經組態以接收第一音訊串流之一或多個器件(例如，執行非暫時性電腦可讀儲存媒體處之指令的處理器)，或其任一組合。

該裝置亦可包括用於接收來自與該會議之一第二參與者相關聯之一第二器件之一第二音訊串流的構件。舉例而言，用於接收第二音訊串流的構件可包括圖2A至圖2B及圖7之第二緩衝器220、圖7之無線控制器740、經組態以接收第二音訊串流之一或多個器件(例如，執行非暫時性電腦可讀儲存媒體處之指令的處理器)，或其任一組合。

該裝置亦可包括用於產生一控制信號的構件。可將該控制信號提供至用於接收該第一音訊串流的該構件及用於接收該第二音訊串流的該構件以使自用於接收該第一音訊串流的該構件輸出之第一緩衝音訊與自用於接收該第二音訊串流的該構件輸出之第二緩衝音訊同步化。舉例而言，用於產生控制信號的構件可包括圖2A至圖2B及圖7之延遲控制器202、圖7之無線控制器740、圖7之處理器706、圖7之一或多個額外處理器710、經組態以產生控制信號之一或多個器件(例如，執行非暫時性電腦可讀儲存媒體處之指令的處理器)或其任一組合。

熟習此項技術者將進一步瞭解，結合本文中所揭示實施所描述之各種說明性邏輯區塊、組態、模組、電路及演算法步驟可實施為電子硬體、由諸如硬體處理器之處理器件執行之電腦軟體或其組合。各種說明性組件、區塊、組態、模組、電路及步驟亦在上文大體就其功能方面加以描述。此功能性係實施為硬體抑或可執行軟體取決於強加於整個系統之特定應用及設計約束。雖然熟習此項技術者可針對每一特定應用以變化方式實施所描述功能性，但不應將此等實施決策解釋為導致對本發明之範疇的脫離。

結合本文中之揭示實施所描述之方法或演算法之步驟可直接以硬體、由處理器執行之軟體模組或兩者之組合體現。軟體模組可駐留於記憶體器件中，諸如隨機存取記憶體(RAM)、磁阻式隨機存取記憶體(MRAM)、自旋扭矩轉移MRAM(STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電可抹除可程式化唯讀記憶體(EEPROM)、暫存器、硬磁碟、可抽換磁碟或緊密光碟唯讀記憶體(CD-ROM)。例示性記憶體器件係耦接至處理器使得該處理器可自該記憶體器件讀取資訊且將資訊寫入至該記憶體器件。在替代方案中，記憶體器件可與處理器成一體。處理器及儲存媒體可駐留於ASIC中。ASIC可駐留於計算器件或使用者終端機中。在替代方案中，處理器及儲存媒體可作為離散組件駐留於計算器件或使用者終端機中。

所揭示實施之前述描述經提供以使得熟習此項技術者能夠製作或使用所揭示實施。在不脫離本發明之範疇的情況下，對此等實施之各種修改對於熟習此項技術者而言將易於顯而易見，且本文中所定義之原理可應用於其他實施。因此，本發明並不意欲限於本文中所展示之實施，而是係欲賦予其與以下申請專利範圍所定義之原理及新穎特徵相一致之最寬廣範疇。