TWI779104B - 多串流音頻寫碼方法、裝置、設備及非暫時性電腦可讀媒體 - Google Patents
多串流音頻寫碼方法、裝置、設備及非暫時性電腦可讀媒體 Download PDFInfo
- Publication number
- TWI779104B TWI779104B TW107134477A TW107134477A TWI779104B TW I779104 B TWI779104 B TW I779104B TW 107134477 A TW107134477 A TW 107134477A TW 107134477 A TW107134477 A TW 107134477A TW I779104 B TWI779104 B TW I779104B
- Authority
- TW
- Taiwan
- Prior art keywords
- stream
- streams
- audio
- encoded
- frame
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
本發明揭示一種方法,其包括在一音頻編碼器處接收音頻資料之多個串流,其中N為所接收多個串流之數目。該方法包括判定該多個串流中之每一串流的一相似性值,以及將該多個串流中之每一串流的該相似性值與一臨限值進行比較。該方法亦包括基於該比較識別該多個串流中之N個當中待編碼的L(L<N)個串流。該方法包括編碼該等經識別之L個串流以產生一經編碼位元串流。
Description
本發明大體上係關於多音頻信號之編碼。
技術之進步已產生較小且功率較大的計算裝置。舉例而言,多種攜帶型個人計算裝置(包括諸如行動及智慧型電話之無線電話、平板電腦及膝上型電腦)體積小、重量輕且易於由使用者攜帶。此等裝置可經由無線網路傳達語音及資料封包。另外,許多此類裝置併入額外功能,諸如數位靜態攝影機、數位視訊攝影機、數位記錄器及音頻檔案播放機。又,此類裝置可處理可執行指令,該等指令包括可用以存取網際網路之軟體應用程式,諸如網頁瀏覽器應用程式。因而,此等裝置可包括顯著計算能力。
計算裝置可包括或可耦接至多個麥克風以接收音頻信號。音頻信號可根據特定音頻格式經處理成音頻資料串流,諸如雙通道立體聲格式、諸如5.1或7.1格式之多通道格式、基於場景之音頻格式或一或多個其他格式。音頻資料串流可由經設計以根據音頻格式編碼及解碼音頻資料串流的編碼器(諸如編碼器/解碼器(codec))編碼。由於針對特定應用提供各種益處的多種音頻格式係可用的,因此此類計算裝置之製造商可針對計
算裝置之增強型操作選擇特定音頻格式。然而,使用不同音頻格式的裝置之間的通信可由於音頻格式之間缺少互操作性而受限。另外,在使用相容音頻格式的裝置之間的網路上傳送之經編碼音頻資料之品質可歸因於網路之有限傳輸頻寬而降低。舉例而言,音頻資料可能必須在符合可用傳輸頻寬的次最佳化位元速率下編碼,從而導致在接收裝置處在播放期間精確地再生音頻信號之能力降低。
在特定實施中,一種裝置包括音頻處理器,該音頻處理器經組態以基於所接收的音頻信號產生音頻資料之多個串流,其中N為音頻資料之多個串流之數目。裝置亦包括音頻編碼器,該音頻編碼器經組態以判定多個串流中之每一串流的相似性值;將多個串流中之每一串流的相似性值與臨限值進行比較;基於該比較,識別多個串流中之N個當中待編碼之L個串流,其中L小於N;及編碼經識別之L個串流以產生經編碼位元串流。
在另一特定實施中,一種方法包括:在音頻編碼器處接收音頻資料之多個串流,其中N為所接收多個串流之數目;及判定多個串流中之每一串流的相似性值。該方法包括將多個串流中之每一串流的相似性值與臨限值進行比較,及基於該比較識別多個串流中之N個中待編碼之L個串流,其中L小於N。該方法亦包括編碼經識別之L個串流以產生經編碼位元串流。
在另一特定實施中,一種設備包括用於接收音頻資料之多個串流(其中N為所接收多個串流之數目)且用於判定多個串流中之每一串流的相似性值之構件。該設備包括用於將多個串流中之每一串流的相似性
值與臨限值進行比較且用於基於該比較識別多個串流中之N個中待編碼的L個串流(其中L小於N)之構件。該設備亦包括用於編碼經識別之L個串流以產生經編碼位元串流之構件。
在另一特定實施中,一種非暫時性電腦可讀媒體包括指令,該等指令在由處理器內的處理器執行時使得該處理器執行包括在音頻編碼器處接收音頻資料之多個串流的操作。該等操作亦包括:接收音頻資料之多個串流,其中N為所接收多個串流之數目;及判定多個串流中之每一串流的相似性值。該等操作包括將多個串流中之每一串流的相似性值與臨限值進行比較,以及基於該比較識別多個串流中之N個當中待編碼的L個串流,其中L小於N。該等操作亦包括編碼經識別之L個串流以產生經編碼位元串流。
本發明之其他實施、優勢及特徵將在審閱整個申請案之後變得顯而易見,該申請案包括以下部分:圖式簡單說明、實施方式及申請專利範圍。
100:系統
101:裝置
102:IVAS編解碼器
104:前端音頻處理器
106:第一麥克風
107:第二麥克風
108:第三麥克風
109:第M麥克風
110:串流優先級模組
115:串流選擇模組
122:音頻信號/多串流格式化音頻資料
124:空間後設資料
126:位元串流
130:麥克風
131:第一串流
132:第二串流
133:第N串流
136:音頻信號
137:音頻信號
138:音頻信號
139:音頻信號
200:系統
202:格式預處理器
204:核心編碼器
210:接收編解碼器
212:核心解碼器
214:格式後處理器
216:網路/位元串流
218:呈現與雙耳道化電路
220:開關
222:音頻資料格式
231:音頻串流
232:音頻串流
233:音頻串流
234:音頻串流
240:格式化經解碼串流
242:輸出信號/音頻信號
300:組件
302:核心編碼器
304:位元速率估計器
306:第一組緩衝器
308:第二組緩衝器
310:訊框封包化器
321:第一緩衝器
322:第二緩衝器
323:第三緩衝器
331:緩衝器
332:緩衝器
333:緩衝器
340:優先級或置換次序
343:串流/表
344:經估計位元速率
345:相似性值
350:經估計位元速率
352:實際位元速率
360:串流特性資料
362:外部優先級資料
364:外部相似性資料
372:表
373:訊框
374:訊框
375:訊框
376:編碼序列
377:編碼序列
378:編碼序列
400:訊框
402:第一訊框
404:訊框識別符
406:IS標頭
408:串流
410:串流
412:串流
414:串流
416:串流
422:第二訊框
424:訊框識別符
426:IS標頭
428:串流
430:串流
432:串流
434:串流
436:串流
442:第三訊框/位元串流
444:訊框識別符
446:IS標頭
448:串流
450:串流
452:串流
454:串流
456:串流
462:位元串流
464:訊框識別符
466:IS標頭
468:串流
470:串流
472:串流
474:串流
476:串流
500:方法
501:步驟
503:步驟
505:步驟
506:步驟
507:步驟
600:行動裝置
602:數位/類比轉換器
603:輸入介面
604:類比/數位轉換器
606:處理器
608:媒體寫碼器-解碼器
610:其他處理器
612:回音消除器
622:系統封裝或系統單晶片裝置
626:顯示控制器
628:顯示器
630:輸入裝置
632:接收器
634:CODEC
642:天線
644:電源供應器
646:麥克風
648:揚聲器
653:記憶體
691:指令
700:基地台
706:處理器
708:音頻CODEC
710:轉碼器
714:資料串流
732:記憶體
736:編碼器
738:解碼器
742:第一天線
744:第二天線
752:收發器
754:收發器
760:網路連接
762:解調器
764:接收器資料處理器
770:媒體閘道器
782:傳輸資料處理器
784:傳輸多輸入多輸出處理器
圖1為包括可操作以執行多個串流編碼之沉浸式語音與音頻服務(IVAS)編解碼器的系統之特定說明性實例的方塊圖。
圖2為包括圖1之編解碼器的系統之另一特定實例的方塊圖。
圖3為可包括於圖1之IVAS編解碼器中的組件之方塊圖。
圖4為說明可藉由圖1之IVAS編解碼器產生的輸出位元串流訊框格式之實例的圖式。
圖5為多串流編碼之方法之特定實例的流程圖。
圖6為可操作以執行多串流編碼之行動裝置之特定說明性實例的方塊圖。
圖7為可操作以執行多串流編碼之基地台之特定實例的方塊圖。
本申請案主張2018年9月26日申請之名稱為「多串流音頻寫碼(MULTI-STREAM AUDIO CODING)」的美國專利申請案第16/143,150號及2017年10月3日申請之名稱為「多串流音頻寫碼(MULTI_STREAM AUDIO CODING)」的美國臨時申請案第62/567,663號之優先權,該等申請案以其全文引用之方式併入本文中。
下文參考圖式描述本發明之特定態樣。在本說明書中,共同特徵藉由共同附圖標號指示。如本文中所使用,各種術語僅僅用於描述特定實施之目的,且並不意欲限制實施。舉例而言,除非上下文另外明確指示,否則單數形式「一(a/an)」及「該」意欲同樣包括複數形式。可進一步理解,術語「包含(comprises/comprising)」可與「包括(includes/including)」互換地使用。另外,應理解,術語「其中(wherein)」可與「在...的情況下(where)」互換地使用。如本文中所使用,用以修飾元件(諸如,結構、組件、操作等)之序數術語(例如,「第一」、「第二」、「第三」等)本身不指示元件關於另一元件之任何優先級或次序,而是僅將元件與具有相同名稱之另一元件區別開(除非使用序數術語)。如本文中所使用,術語「集」係指特定元件中之一或多者,且術語「複數個」係指特定元件中之多個(例如,兩個或大於兩個)。
在本發明中,諸如「判定」、「計算」、「移位」、「調整」等之術語可用於描述如何執行一或多個操作。應注意,此類術語不應解釋為限制性的且其他技術可用以執行類似操作。另外,如本文中所提及,「產生」、「計算」、「使用」、「選擇」、「存取」及「判定」可互換地使用。舉例而言,「產生」、「計算」或「判定」參數(或信號)可指積極地產生、計算或判定參數(或信號),或可指使用、選擇或存取已(諸如)由另一組件或裝置產生之參數(或信號)。
本發明揭示可操作以編碼及解碼多個音頻信號之系統及裝置。裝置可包括經組態以編碼多個音頻信號之編碼器。多個音頻信號可使用多個記錄裝置(例如,多個麥克風)同時及時地擷取。在一些實例中,多個音頻信號(或多通道音頻)可藉由多工同時或非同時記錄之若干音頻通道來合成(例如,人工地)產生。作為說明性實例,音頻通道之並行記錄或多工可產生2通道組態(亦即,立體聲:左及右)、5.1通道組態(左、右、中央、左環繞、右環繞及低頻重音(LFE)通道)、7.1通道組態、7.1+4通道組態、22.2通道組態或N通道組態。
圖1描繪包括裝置101之系統100的實例,該裝置具有耦接至前端音頻處理器104之多個麥克風130。前端音頻處理器104耦接至編解碼器102,諸如沉浸式語音與音頻服務(IVAS)編解碼器102。IVAS編解碼器102經組態以產生包括經由多個音頻串流自前端音頻處理器104接收之經編碼資料的位元串流126。
IVAS編解碼器102包括串流優先級模組110,該串流優先級模組經組態以判定所接收音頻串流中之一些或所有的優先級組態且基於所判定優先級(例如,在感知上更重要、對場景而言更「關鍵」的聲音、
疊對於場景中之其他聲音上方的背景聲音、與漫射有關的方向性等)編碼音頻串流以產生位元串流126。在另一實例實施例中,串流優先級模組110可基於空間後設資料124判定用於編碼之優先級或置換序列。串流優先級模組110亦可被稱作串流組態模組或串流預分析模組。判定複數個音頻串流之優先級組態且基於其優先級編碼音頻串流中之每一者使得IVAS編解碼器102能夠分配不同位元速率及使用不同寫碼模式、寫碼頻寬。在實例實施例中,IVAS編解碼器102可相比具有較低優先級之串流將更多位元分配至具有較高優先級之串流,從而導致更有效使用傳輸資源(例如,無線傳輸頻寬),用於將位元串流126發送至接收裝置。在另一實例實施例中,IVAS編解碼器102可針對較高優先級組態串流編碼達至超寬頻(亦即,達至(例如)16kHz之頻寬),同時針對較低優先級組態串流編碼僅僅達至寬頻(亦即,達至(例如)8kHz之頻寬)。
IVAS編解碼器102包括串流選擇模組115,該串流選擇模組經組態以選擇將由IVAS編解碼器102內的音頻編碼器編碼之所接收音頻串流之子集。串流選擇模組115判定所接收音頻串流中之一些或所有的相似性值且基於該相似性值判定(或選擇)所接收音頻串流中之哪些需要編碼或不需要編碼。串流選擇模組115將多個串流中之每一串流的相似性值與臨限值進行比較且基於該比較識別所接收多個音頻串流中之N個當中可能需要編碼的僅L個串流。IVAS編解碼器102接著編碼經識別之L個串流以產生經編碼位元串流。由IVAS編解碼器102編碼所接收音頻串流(例如,N)之子集(例如,L)可導致提高經寫碼(編碼且隨後接著解碼)音頻串流之品質的潛在益處,或藉由允許用比最初針對所有所接收的編碼分配的更多位元編碼所選擇的L個串流減少寫碼失真。在一些實施中,IVAS編解碼器
102仍可編碼所有所接收多個音頻串流中之N個,但其可基於相似性值調整編碼參數。
相似性值為指示IVAS編解碼器102是否可以繞過所接收音頻串流當中的特定串流之編碼而在包括音頻解碼器之接收裝置處無品質影響(或具有最小品質影響)的值。可替代地,相似性值可為指示所接收音頻串流中之特定串流是否可藉由所接收音頻串流中之另一串流容易地重現的值。另外,相似性值可為指示特定串流是否可基於來自不同時刻(例如,過去)的相同串流或串流群在解碼器處充分重現(或合成)的值。相似性值亦可被稱作「臨界值」、「可重現值」、「空間相關值」或「可預測值」。參考圖3至圖4進一步詳細描述相似性值之更多細節。
麥克風130包括第一麥克風106、第二麥克風107、第三麥克風108及第M麥克風109(M為正整數)。舉例而言,裝置101可包括行動電話,且麥克風106至109可定位於裝置101之各個位置處,以允許擷取源自各種源之聲音。為了說明,在麥克風130中之一或多者經定位以自使用者擷取語音的特定實施中(例如,在電話呼叫或電話會議期間),麥克風130中之一或多者經定位以自其他源擷取音頻(例如,在視訊記錄操作期間擷取三維(3D)音頻),且麥克風130中之一或多者經組態以擷取背景音頻。在特定實施中,作為說明性非限制性實例,麥克風130中之兩者或大於兩者以陣列或其他組態配置,以實現諸如回音消除或波束成形之音頻處理技術。麥克風106至109中之每一者經組態以輸出各別音頻信號136至139。
前端音頻處理器104經組態自麥克風130接收音頻信號136至139,且處理音頻信號136至139以產生多串流格式化音頻資料122。在特定實施中,作為說明性非限制性實例,前端音頻處理器104經組態以執
行一或多個音頻操作,諸如回音消除、雜訊抑制、波束成形或其任何組合。
前端音頻處理器104經組態以產生由音頻操作產生的音頻資料串流,諸如第一串流131、第二串流132及第N串流133(N為正整數)。在特定實施中,串流131至133包括脈碼調變(PCM)資料,且具有與IVAS編解碼器102之輸入格式相容的格式。
舉例而言,在一些實施中,串流131至133具有通道之數目「N」待寫碼為等於二的立體聲格式。該等通道可相關或可不相關。裝置101可支援兩個或大於兩個麥克風130,且前端音頻處理器104可經組態以執行回音消除、雜訊抑制、波束成形或其組合,以產生具有改良式信雜比(SNR)之立體聲信號,而不需關於自麥克風130接收之初始立體聲信號改變所產生立體聲信號之立體聲/空間品質。
在另一實施中,藉由前端音頻處理器104產生串流131至133以具有基於立體混響(ambisonics)或基於場景之音頻(SBA)的格式,其中通道可有時包括對應於聲音場景之本徵分解係數。在其他實施中,作為說明性非限制性實例,藉由前端音頻處理器104產生串流131至133以具有對應於多通道(MC)組態之格式,諸如5.1或7.1環繞聲組態。
在其他替代性實施中,可將音頻串流131至133提供至IVAS編解碼器102,其中已用不同於上文所說明之前端處理實例中之任一者的方式接收該IVAS編解碼器。
在一些實施中,串流131至133具有獨立串流(IS)格式,其中音頻信號136至139中之兩者或大於兩者經處理以估計聲源之空間特性(例如,方位角、仰角等)。音頻信號136至139經映射至對應於聲源之獨立
串流及對應空間後設資料124。
在一些實施中,前端音頻處理器104經組態以將優先級組態資訊提供至IVAS編解碼器102,以指示串流131至133中之一或多者的相對優先級或重要性。舉例而言,當裝置101由使用者在電話模式中操作時,與使用者之語音相關聯的特定串流可藉由前端音頻處理器104指定為相較於輸出至IVAS編解碼器102之其他串流具有較高優先級。
在一些實施中,前端音頻處理器104經組態以基於其分析將串流131至133中之每一者或多者的相似性值提供至IVAS編解碼器102,以基於1)相同特定串流(例如,第一串流131)之先前訊框(例如,訊框i-1),2)其他串流(例如,第二串流132或第N串流133)中之任一者的對應訊框(例如,訊框i),或3)其任何組合指示任何特定串流(例如,第一串流131)之任何特定訊框(例如,訊框i)之預測或重現係困難的抑或容易的。
IVAS編解碼器102經組態以編碼多串流格式化音頻資料122以產生位元串流126。IVAS編解碼器102經組態以使用IVAS編解碼器102內的一或多個編碼器執行多串流音頻資料122之編碼,諸如用於語音的代數碼激勵線性預測(ACELP)編碼器及用於非語音音頻的頻域(例如,經修改離散餘弦變換(MDCT))編碼器。IVAS編解碼器102經組態以編碼經由立體聲格式、SBA格式、獨立串流(IS)格式、多通道格式、一或多個其他格式或其任何組合中之一或多者接收的資料。
串流優先級模組110經組態以將優先級指派至多串流格式化音頻資料122中之一些或所有串流131至133。作為說明性非限制性實例,串流優先級模組110經組態以基於對應於串流之信號的一或多個特性(諸如信號能量、前景對比背景、內容類型或熵)來判定複數個串流之優先
級。在串流優先級模組110自前端音頻處理器104接收串流優先級資訊(例如,該資訊可包括每一串流之試驗性的或初始位元速率、串流中之每一者的優先級組態或排序、基於場景分類之分組資訊、串流之取樣率或頻寬、其他資訊或其組合)的實施中,串流優先級模組110可至少部分基於所接收串流優先級資訊將優先級指派至複數個串流131至133。參考圖3進一步詳細描述音頻串流之優先級判定的說明性實例。
IVAS編解碼器102經組態以基於多個串流中之每一者的優先級判定多個串流之分析及編碼序列(例如,多個串流中之每一者的訊框之編碼序列)。在特定實施中,在編碼具有較低優先級之串流之前編碼具有較高優先級之串流。為了說明,在其他串流之編碼之前編碼串流131至133中具有最高優先級之串流,且在編碼其他串流之後編碼串流131至133中具有最低優先級之串流。
IVAS編解碼器102經組態以對大部分訊框使用比用於編碼具有較低優先級之串流較高的位元速率編碼具有較高優先級之串流。舉例而言,相比於用於編碼低優先級串流之相等大小之部分(例如,訊框)的許多位元,可使用兩倍位元來編碼高優先級串流之部分(例如,訊框)。由於用於經編碼串流經由位元串流126之傳輸的整體位元速率受到位元串流126之可用傳輸頻寬的限制,因此用較高位元速率編碼較高優先級串流提供較大數目個位元以傳遞具有較高優先級串流之資訊,從而相較於藉由傳遞具有較低優先級串流之資訊的較少數目個位元所允許的較低精確性重現,在接收器處允許較高優先級串流之較高精確性重現。
可對複數個所接收多串流格式化音頻資料122中之每一會話或每一部分或「訊框」執行優先級之判定。在特定實施中,每一串流
131至133包括在時間上與串流131至133之其他串流之訊框對準或同步的訊框序列。串流優先級模組110可經組態以逐個訊框處理串流131至133。舉例而言,串流優先級模組110可經組態以接收串流131至133中之每一者的第i個訊框(其中i為整數),分析每一串流131至133之一或多個特性以判定對應於該第i個訊框之串流的優先級,基於經判定優先級產生用於編碼每一串流131至133之第i個訊框的置換序列,及根據置換序列編碼串流131至133中之每一者的每一第i個訊框。在編碼串流131至133之第i個訊框之後,串流優先級模組110繼續串流131至133中之每一者之下一訊框(例如,訊框i+1)的處理:藉由基於第(i+1)個訊框判定每一串流之優先級,產生用於編碼第(i+1)個訊框之置換序列,及編碼第(i+1)個訊框中之每一者。參考圖3進一步詳細描述逐個訊框串流優先級判定及編碼序列產生之另一實例。
串流選擇模組115可判定多串流格式化音頻資料122中之每一串流131至133的相似性值。串流選擇模組115可基於對應於串流之信號的一或多個特性判定該串流中之每一者的相似性值。信號特性之非限制性實例可包括自適應碼簿增益、靜止位準、非靜止位準、發聲因數、音調變化、信號能量、語音內容之偵測、雜訊底限位準、信雜比、稀疏性位準及頻譜傾斜。
在一些實施中,串流選擇模組115可藉由將第一特定串流之第一訊框的第一信號特性與第一特定串流之至少一個先前訊框的第二信號特性相比較來判定串流131至133中之任一者的相似性值(例如,與其自身串流之先前訊框的時間相似性)。另外或替代地,串流選擇模組115可藉由將第一特定串流之第一訊框的第一信號特性與第二特定串流(其不同於
第一特定串流)之第二訊框的第二信號特性相比較來判定串流131至133中之任一者的相似性值(例如,與另一串流之對應訊框的時間相似性)。另外或替代地,串流選擇模組115可基於串流131至133之間的空間鄰近度判定串流131至133中之每一者的相似性值。在一些實施中,前端音頻處理器104可將指示各串流131至133之源之空間特性(例如,方位角、仰角、到達方向等)的資訊提供至串流選擇模組115。可替代地,串流選擇模組115可基於串流131至133之間的時間相似性及空間鄰近度之組合判定串流131至133之特定串流的相似性值。
串流選擇模組115可將串流131至133中之每一者的相似性值與臨限值進行比較。基於該比較,串流選擇模組115可識別所接收音頻串流(例如,N)當中需由IVAS編解碼器102中之音頻編碼器編碼的音頻串流之子集(例如,L)。串流選擇模組115可對多串流格式化音頻資料122中之串流131至133中之一些使用不同臨限值。由IVAS編解碼器102編碼所接收音頻串流之子集可導致提高經寫碼(編碼且隨後接著解碼)音頻串流之品質的潛在益處,或藉由允許用比最初針對所有所接收的編碼分配的更多位元編碼所選擇的L個串流減少寫碼失真。在一些實施中,串流選擇模組115可回應於第一特定串流之第一相似性值不滿足臨限值(例如,第一相似性值=0)的判定而識別不經編碼之第一特定串流。另外或替代地,串流選擇模組115可回應於第二特定串流之第二相似性值滿足臨限值(例如,第二相似性值=1)的判定而識別待編碼之第二特定串流。
在一些實施中,串流選擇模組115可基於空間鄰近度滿足臨限值(例如,第一特定串流及第二特定串流具有類似空間特性)之判定來識別將與第二特定串流組合合併或之第一特定串流。編碼經組合之第一串
流及第二串流。另外或替代地,串流選擇模組115可回應於第二特定串流之第二相似性值滿足臨限值(例如,第二相似性值=1)的判定而識別待編碼之第二特定串流。
在一些實施中,哪些串流將經編碼或不經編碼之判定(例如,每一所接收音頻串流的相似性值之判定)可藉由IVAS編解碼器102以迭代方式判定。舉例而言,IVAS編解碼器102可在將基於第一準則經寫碼(或未經寫碼)之所接收音頻串流當中選擇串流之第一子集。接著,IVAS編解碼器102可在將基於第二準則經寫碼(或未經寫碼)之串流的第一子集當中選擇串流之第二子集。可替代地,哪些串流將經編碼或不經編碼之判定(例如,每一所接收音頻串流的相似性值之判定)可藉由IVAS編解碼器102以封閉迴路方式判定。舉例而言,封閉迴路判定可藉由IVAS編解碼器102內具有部分音頻解碼器或合成來實施。
IVAS編解碼器102經組態以組合串流131至133之經編碼部分以產生位元串流126。在特定實施中,位元串流126具有訊框結構,其中位元串流126之每一訊框包括串流131至133中之每一者之經編碼訊框。在說明性實例中,位元串流126之第i個訊框包括串流131至133中之每一者的經編碼第i個訊框,以及諸如訊框標頭、串流優先級資訊或位元速率資訊、位置後設資料等之後設資料。參考圖4進一步詳細描述位元串流126之格式之說明性實例。
在操作期間,前端音頻處理器104分別自M個麥克風106至109接收M個音頻信號136至139,且執行前端處理以產生N個串流131至133。在一些實施中,N等於M,但在其他實施中,N不等於M。舉例而言,當來自麥克風106至109之多個音頻信號經由波束成形組合成單一串
流時,M大於N。
串流131至133之格式可基於麥克風106至109之位置、麥克風之類型或其組合來判定。在一些實施中,串流格式藉由裝置101之製造商進行組態。在一些實施中,串流格式由前端音頻處理器104基於裝置101之應用情境(例如,雙向交談式會議)控制或組態成IVAS編解碼器102。在其他狀況下,在串流或交談式通信使用狀況之情況下,串流格式亦可在裝置101與對應位元串流126接收端裝置(例如,含有解碼位元串流126之IVAS解碼器的裝置)之間進行協商。在某些情形中,諸如當串流136至139具有獨立串流(IS)格式時,產生空間後設資料124,且將其提供至IVAS編解碼器102。在其他格式(例如,立體聲、SBA、MC)中,可自前端音頻處理器104部分地導出空間後設資料124。在實例實施例中,空間後設資料可針對不同輸入格式而不同,且亦可嵌入於輸入串流中。
IVAS編解碼器102分析串流131至133,且判定串流131至133中之每一者的優先級組態。IVAS編解碼器102將較高位元速率分配至具有較高優先級之串流,且將較低位元速率分配至具有較低優先級之串流。IVAS編解碼器102基於優先級編碼串流131至133,且將所得經編碼串流資料組合以產生輸出位元串流126。
判定指示音頻串流131至133中之每一者的優先級(「優先級值」)之優先級或值且基於其優先級編碼每一音頻串流使得IVAS編解碼器102能夠將較高位元速率分配至具有較高優先級之串流且將較低位元速率分配至具有較低優先級之串流。由於使用較高位元速率編碼信號允許在接收裝置處的初始信號之較高精確性重現,因此可相較於重現諸如背景雜訊之較低優先級音頻串流的較低精確性,在諸如語音之更重要音頻串流之
重建構期間在接收裝置處獲得較高精確性。因此,在將位元串流126發送至接收裝置時更有效地使用傳輸資源。
儘管系統100說明為包括四個麥克風106至109(例如,M=4),但在其他實施中,系統100可包括不同數目個麥克風,諸如兩個麥克風、三個麥克風、五個麥克風或大於五個麥克風。儘管系統100說明為產生三個音頻串流131至133(例如,N=3),但在其他實施中,系統100可產生不同數目個音頻串流,諸如兩個音頻串流、四個音頻串流或大於四個音頻串流。儘管前端音頻處理器104描述為提供空間後設資料124以支援諸如獨立串流(IS)格式之一或多個音頻格式,但在其他實施中,前端音頻處理器104可能不會將空間後設資料提供至IVAS編解碼器102,諸如前端音頻處理器104並不提供顯式空間後設資料,而是合併於串流自身中的實施,從而(例如)建構一個主要串流及其他次要串流以反映空間後設資料。儘管系統100實施於單一裝置101中,但在其他實施中,系統100之一或多個部分可實施於單獨的裝置中。舉例而言,麥克風106至109中之一或多者可實施於耦接至前端音頻處理器104的裝置(例如,無線耳機)處,前端音頻處理器104可實施於與IVAS編解碼器102分離但以通信方式耦接至該IVAS編解碼器的裝置中,或其組合。
圖2描繪系統200,其包括經由網路216耦接至接收編解碼器210(例如,IVAS編解碼器)的IVAS編解碼器102。呈現與雙耳道化(binauralize)電路218耦接至接收編解碼器210之輸出端。IVAS編解碼器102耦接至開關220或其他輸入介面,該開關或其他輸入介面經組態以接收多個音頻資料格式222中之一者中的音頻資料之多個串流。舉例而言,作為說明性非限制性實例,開關220可經組態以自包括具有多串流立體聲
格式之N=2音頻串流231、具有SBA格式之音頻串流232(例如,N=4至49)、具有多通道格式之音頻串流233(例如,N=6(例如,5.1)至12(例如,7.1+4))或具有獨立串流格式之音頻串流234(例如,N=1至8,加上空間後設資料)的各種輸入類型中進行選擇。在特定實施中,開關220耦接至產生音頻串流之音頻處理器(諸如圖1之前端音頻處理器104),且可經組態以在輸入類型或輸入格式之組合當中動態地進行選擇(例如,高速切換)。
IVAS編解碼器102包括耦接至核心編碼器204之格式預處理器202。格式預處理器202經組態以執行一或多個預處理功能,諸如降混(DMX)、解相關等。格式預處理器202之輸出經提供至核心編碼器204。核心編碼器204包括圖1之串流優先級模組110,且經組態以判定每一所接收音頻串流之優先級且編碼音頻串流中之每一者,從而(例如)使用較高位元速率、經擴展頻寬編碼較高優先級串流;及(例如)使用較低位元速率、經縮減頻寬編碼較低優先級串流。核心編碼器204包括圖1之串流選擇模組115,且經組態以判定每一所接收音頻串流之相似性值及識別所接收音頻串流當中待編碼的音頻串流之子集。
接收編解碼器210經組態以經由網路216自IVAS編解碼器102接收位元串流126。舉例而言,網路216可包括一或多個無線網路、一或多個有線網路或其任何組合。在特定實施中,網路216包括4G/5G長期演進語音(VoLTE)網路或Wi-Fi語音(VoWiFi)網路。
接收編解碼器210包括耦接至格式後處理器214之核心解碼器212。核心解碼器212經組態以解碼位元串流216中之經編碼音頻串流之經編碼部分,以產生經解碼音頻串流。舉例而言,核心解碼器212可產生
圖1之第一音頻串流131之第一經解碼版本、圖1之第二音頻串流132之第二經解碼版本及圖1之第三音頻串流133之第三經解碼版本。音頻串流之經解碼版本可歸因於網路216中之受限傳輸頻寬或有損壓縮而不同於初始音頻串流131至133。然而,由於用較高位元速率編碼具有較高優先級之音頻串流,相較於較低優先級串流之經解碼版本,較高優先級串流之經解碼版本通常為初始音頻串流之較高精確性重現。舉例而言,使用較高優先級組態或解析度寫碼定向源,而使用較低優先級組態寫碼較擴散的源或聲音。經擴散聲音之寫碼可基於過去訊框相較於定向聲音更依賴於模型建立(例如,混響、擴散)。
核心解碼器212經組態以基於包括於位元串流216中之資訊執行訊框抹除方法以產生經解碼音頻串流。舉例而言,核心解碼器212可藉由解碼位元串流216內的經編碼音頻串流131、132之經編碼部分產生圖1之第一音頻串流131之第一經解碼版本及圖1之第二音頻串流132之第二經解碼版本。核心解碼器212可藉由執行訊框抹除方法產生圖1之第三音頻串流133之第三經解碼版本。核心解碼器可基於包括於位元串流216中之資訊執行訊框抹除方法。舉例而言,此資訊可包括第三音頻串流133之相似性值。
核心解碼器212經組態以將音頻串流之經解碼版本輸出至格式後處理器214。格式後處理器214經組態以處理音頻串流之經解碼版本以具有與呈現與雙耳道化電路218相容的格式。在特定實施中,格式後處理器214經組態以支援立體聲格式、SBA格式、多通道格式及獨立串流(IS)格式,且經組態以詢問顯現與雙耳道化電路218之格式能力以選擇適當輸出格式。格式後處理器214經組態以將所選擇格式應用於音頻串流之
經解碼版本,以產生格式化經解碼串流240。
呈現與雙耳道化電路218經組態以接收格式化經解碼串流240,且執行呈現與雙耳道化處理以產生一或多個輸出信號242。舉例而言,在對應於音頻源之空間後設資料經由位元串流126提供(例如,獨立串流寫碼實施)且藉由呈現與雙耳道化電路218支援的實施中,在音頻信號242之產生期間使用空間後設資料,從而在耦接至呈現與雙耳道化電路218之輸出裝置(例如,頭戴式耳機或揚聲器系統)處的重現期間仿真音頻源之空間特性。在另一實例中,在未提供對應於音頻源之空間後設資料的實施中,呈現與雙耳道化電路218可在空間中局部地選擇源之實體位置。
在操作期間,經由開關220在IVAS編解碼器102處接收音頻串流。舉例而言,可自圖1之前端音頻處理器104接收音頻串流。所接收音頻串流具有與IVAS編解碼器102相容的格式222中之一或多者。
格式預處理器202對音頻串流執行格式預處理,且將經預處理音頻串流提供至核心編碼器204。核心編碼器204對經預處理音頻串流執行如圖1中所描述之基於優先級之編碼,且產生位元串流126。位元串流126可具有基於IVAS編解碼器102與接收編解碼器210之間的經由網路216之傳輸位元速率而判定的位元速率。舉例而言,IVAS編解碼器102及接收編解碼器210可基於網路216之通道條件協商位元串流126之位元速率,且位元速率可回應於改變網路條件而在位元串流126之傳輸期間進行調整。IVAS編解碼器102可基於音頻串流之相對優先級,分攤位元以攜載經預處理音頻串流中之每一者的經編碼資訊,使得位元串流126中的經組合之經編碼音頻串流不超出所協商的位元速率。IVAS編解碼器102可基於串流之優先級組態及置換次序判定不寫碼一或多個串流,且寫碼僅一或多
個所選擇串流,此取決於可用於寫碼獨立串流的總位元速率。在一個實例實施例中,總位元速率為24.4kbps,且存在三個獨立的待寫碼串流。基於網路條件,若總位元速率縮減至13.2kbps,則IVAS編解碼器102可判定編碼三個輸入串流中之僅2個獨立串流,以在部分地犧牲空間品質的同時保留會話之固有信號品質。基於網路特性,當總位元速率再次增大至24.4kbps時,則IVAS編解碼器102可恢復標稱地寫碼所有三個串流。
核心解碼器212接收且解碼位元串流126,以產生經預處理音頻串流之經解碼版本。格式後處理器214處理經解碼版本以產生具有與呈現與雙耳道化電路218相容之格式的格式化經解碼串流240。呈現與雙耳道化電路218產生音頻信號242,用於由輸出裝置(例如,頭戴式耳機、揚聲器等)重現。
在一些實施中,核心寫碼器或IVAS編解碼器102經組態以執行1至6個串流之獨立寫碼或1至3個串流或一些獨立串流與一些聯合串流之混合的聯合寫碼,其中聯合寫碼為串流對之共同寫碼,且接收器編解碼器210之核心解碼器經組態以執行1至6個串流之獨立解碼或1至3個串流或一些獨立串流與聯合串流之混合的聯合解碼。在其他實施中,IVAS編解碼器102之核心寫碼器經組態以執行7個或大於7個串流之獨立寫碼或4個或大於4個串流之聯合寫碼,且接收器編解碼器210之核心解碼器經組態以執行7個或大於7個串流之獨立解碼或4個或大於4個串流之聯合解碼。
在IVAS編解碼器102處接收的音頻串流之格式可能不同於經解碼串流240之格式。舉例而言,IVAS編解碼器102可接收且編碼具有第一格式(諸如獨立串流格式234)之音頻串流,且接收編解碼器210可輸出
具有第二格式(諸如多通道格式)之經解碼串流240。因此,IVAS編解碼器102及接收編解碼器210允許裝置之間的多串流音頻資料傳送,該等裝置將歸因於使用不相容多串流音頻格式而以其他方式無法進行此類傳送。另外,支援多個音頻串流格式使得IVAS編解碼器能夠實施於支援音頻串流格式中之一或多者的多種產品及裝置中,其中對此類產品或裝置進行極少重新設計或修改,甚至不重新設計或修改。
表1中描繪用於IVAS寫碼器(例如,IVAS編解碼器102)的假碼輸入介面之說明性實例。
在表1中,IVAS_ENC.exe為一命令,其根據該命令之後的命令線參數啟動IVAS寫碼器處的編碼。<N>指示待編碼串流之數目。「-IS」為根據獨立串流格式識別解碼的可選旗標。-IS旗標之後的參數<1:θ1,φ1;2:θ2,φ2;...N:θN,φN>指示一系列:串流編號(例如,1)、字串編號之方位角值(例如,θ1)及字串編號之仰角值(例如,φ1)。在特定實例中,此等參數對應於圖1之空間後設資料124。
參數<total_bitrate>對應於用於寫碼以<samplerate>進行取樣之N個獨立串流的總位元速率。在另一實施中,每一獨立串流可以給定位元速率寫碼及/或可具有不同取樣率(例如,IS1(獨立串流1):10千位元每秒(kbps),寬頻(WB)內容;IS2:20kbps,超寬頻(SWB)內容;IS3:2.0kbps,SWB舒適雜訊)。
參數<input>識別輸入串流資料(例如,來自圖1之前端音頻
處理器104(例如,儲存交錯式串流131至133之緩衝器)的交錯式串流之指標)。參數<bitstream>識別輸出位元串流(例如,用於位元串流126之輸出緩衝器的指標)。
IVAS_DEC.exe為一命令,其根據該命令之後的命令線參數啟動IVAS寫碼器處的編碼。「-雙耳」為指示雙耳輸出格式之可選命令旗標。<N>指示待解碼串流之數目,<samplerate>指示串流之取樣率(或替代地,針對串流中之每一者提供不同取樣率),<bitstream>指示待解碼之位元串流(例如,在圖2之接收經寫碼210處接收的位元串流126),且<output>指示經解碼位元串流之輸出(例如,接收諸如逐個訊框交錯之交錯式組態中的經解碼位元串流,或待於實體裝置上即時播放之交錯式資料的連續串流的緩衝器之指標)。
圖3描繪可實施於IVAS編解碼器102中的組件之實例300。用於未經編碼串流資料之第一組緩衝器306及用於經編碼串流資料之第二組緩衝器308耦接至核心編碼器302。串流優先級模組110耦接至核心編碼器302,且耦接至位元速率估計器304。串流選擇模組115耦接至核心編碼器302。訊框封包化器310耦接至第二組緩衝器308。
緩衝器306經組態以經由多個分別接收或交錯式串流接收多串流格式化音頻資料122。緩衝器306中之每一者可經組態以儲存對應串流之至少一個訊框。在說明性實例中,第一緩衝器321儲存第一串流131之第i個訊框,第二緩衝器322儲存第二串流132之第i個訊框,且第三緩衝器323儲存第三串流133之第i個訊框。在第i個訊框中之每一者已經編碼之後,緩衝器321至323中之每一者可接收且儲存對應於其各別串流131至133之下一訊框(第(i+1)個訊框)的資料。在流水線式實施中,緩衝器
306中之每一者大小經調整以儲存其各別串流131至133之多個訊框,以允許對音頻串流之一個訊框執行預分析,同時對音頻串流之另一訊框執行編碼。
串流優先級模組110經組態以存取緩衝器321至323中之串流資料,且執行每一串流之「預分析」以判定對應於單獨串流之優先級。在一些實施中,串流優先級模組110經組態以將較高優先級指派至具有較高信號能量之串流,且將較低優先級指派至具有較低信號能量之串流。在一些實施中,串流優先級模組110經組態以判定每一串流對應於背景音頻源抑或對應於前景音頻源,且將較高優先級指派至對應於前景源之串流且將較低優先級指派至對應於背景源之串流。在一些實施中,串流優先級模組110經組態以將較高優先級指派至具有特定類型之內容的串流,諸如將較高優先級指派至偵測到語音內容的串流,且將較低優先級指派至未偵測到語音內容的串流。在一些實施中,串流優先級模組110經組態以基於串流中之每一者之熵指派優先級。在說明性實例中,向較高熵串流指派較高優先級,且向較低熵串流指派較低優先級。在一些實施中,串流優先級模組110亦可基於(例如)在感知上更重要、對場景而言更「關鍵」的聲音、疊對於場景中之其他聲音上方的背景聲音、與漫射有關的方向性、一或多個其他因數或其任何組合組態置換次序。
在串流優先級模組110接收外部優先級資料362(諸如來自前端音頻處理器104之串流優先級資訊)的實施中,串流優先級模組110至少部分基於所接收串流優先級資訊將優先級指派至串流。舉例而言,前端音頻處理器104可指示麥克風130中之一或多者在電話會議應用期間對應於使用者麥克風,且可向對應於使用者麥克風之音頻串流指示相對較高優
先級。儘管串流優先級模組110可經組態以至少部分基於所接收優先級資訊判定串流優先級,但串流優先級模組110可經進一步組態以判定並不精確地黏附於所接收串流優先級資訊的串流優先級資訊。舉例而言,儘管在電話會議應用期間,對應於使用者語音輸入麥克風的串流可藉由外部優先級資料362指示為高優先級,但在對話之一些時間段期間,使用者可為沉默的。回應於串流歸因於使用者之靜默而具有相對較低信號能量,串流優先級模組110可將串流之優先級縮減至相對較低優先級。
在一些實施中,串流優先級模組110經組態以至少部分地基於一或多個前述訊框(例如,訊框(i-1)、訊框(i-2)等)之串流的優先級或特性來判定特定訊框(例如,訊框i)之每一串流的優先級。舉例而言,串流特性及串流優先級可相比於訊框持續時間相對較慢地改變,且在判定串流之優先級時包括歷史資料可減少串流之解碼及播放期間的音頻假影,該等音頻假影可起因於串流之編碼期間的較大逐個訊框位元速率變化。
串流優先級模組110經組態以基於優先級340判定緩衝器306中之串流的寫碼次序。舉例而言,串流優先級模組110可經組態以指派範圍介於5(最高優先級)至1(最低優先級)的優先級值。串流優先級模組110可基於優先級將串流分類,從而使得具有優先級5之串流位於編碼序列之開始處,繼之以具有優先級4之串流,繼之以具有優先級3之串流,繼之以具有優先級2之串流,繼之以具有優先級1之串流。
實例表372說明分別對應於串流之訊框(i-2)373、訊框(i-1)374及訊框i 375的編碼序列376、377及378。針對訊框i-2 373,串流「2」(例如,串流132)具有最高優先級且具有對應的編碼序列376中之第一序列位置。串流「N」(例如,串流133)具有下一最高優先級,且具有編
碼序列376中之第二序列位置。相比串流N具有較低優先級的一或多個串流(未說明)可在串流N之後包括於序列376中。串流「1」(例如,串流131)具有最低優先級,且具有編碼序列376中之最後一個序列位置。因此,用於編碼訊框(i-2)373之串流的編碼序列376為:2、N、...、1。
表372亦說明,針對下一序列訊框(i-1)374,編碼序列377針對訊框(i-2)373自序列376不變。為了說明,針對訊框(i-1)374,串流131至133中之每一者關於彼此的優先級相比訊框(i-2)373的優先級未發生變化。針對下一序列訊框i375,串流1及串流N在編碼序列378中之位置已交換。舉例而言,串流2可對應於在電話呼叫期間說話的使用者,且可歸因於具有相對較高信號能量之串流,所偵測到語音、前景信號,經由外部優先級資料362指示為重要的或其組合而經識別為高優先級(例如,優先級=5)。串流1可對應於接近於在訊框i-2及i-1期間沉默且在訊框i期間開始說話的第二個人的麥克風。在訊框i-2及i-1期間,串流1可歸因於具有相對較低的信號能量,未偵測到語音、背景信號,未經由外部優先級資料362指示為重要的或其組合而經識別為低優先級(例如,優先級=1)。然而,在擷取訊框i內的第二個人的語音之後,串流1可歸因於具有相對較高的信號能量,偵測到語音及前景信號但未經由外部優先級資料362指示為重要的而經識別為高優先級信號(例如,優先級=4)。
串流選擇模組115經組態以存取緩衝器321至323中之串流資料,且執行每一串流之另一「預分析」以判定每一對應的單獨串流之相似性值345。相似性值345可指示所接收音頻串流當中特定串流之編碼是否可繞過核心編碼器302而在接收裝置處無品質影響(或具有最小品質影響)。可替代地,相似性值345可指示所接收音頻串流中之特定串流是否可
藉由所接收音頻串流中之另一串流容易地再現或預測。相似性值345可具有二進位值(例如,1或0)或多級值(例如,1至5)。相似性值345亦可被稱作「臨界值」、「可再現值」或「可預測值」。舉例而言,若特定串流之訊框i可藉由接收裝置處之音頻解碼器基於相同特定串流之先前訊框中之至少一者或另一串流中之至少一者的對應訊框i容易地再現,則核心編碼器302可有利地繞過(或跳過)特定串流之訊框i之編碼。在一些實施中,若傳輸裝置處之核心編碼器302跳過訊框i之編碼,則核心編碼器302可有利地在位元串流126中嵌入一值,以使得接收裝置處之音頻解碼器基於該值可執行抹除,諸如封包丟失抹除或訊框丟失抹除方法。在一些實施中,核心編碼器302可替代地減小特定串流之訊框i的位元速率(自最初經指派位元速率減小至較低位元速率)。
在一些實施中,核心編碼器302仍可編碼所接收多個音頻串流中之N個中的所有,但其可基於相似性值345調整編碼參數。舉例而言,判定所接收音頻串流中之每一者之相似性值345可使得IVAS編解碼器102能夠分配不同位元速率且使用不同寫碼模式或寫碼頻寬。在例示性實施例中,IVAS編解碼器102可相比具有較高相似性值之串流將更多位元分配至具有較低相似性值之串流,從而導致更有效使用傳輸資源(例如,無線傳輸頻寬),用於將位元串流126發送至接收裝置。在另一實例實施例中,IVAS編解碼器102可對具有較低相似性值的音頻串流編碼升頻至超寬頻(亦即,頻寬高達例如16kHz),而將具有較高相似性值的音頻串流編碼降頻至僅寬頻(亦即,頻寬高達例如8kHz)或窄頻(亦即,頻寬高達例如4kHz)。
串流選擇模組115可基於對應於緩衝器306中之串流的信號
(例如,訊框i)之一或多個特性判定緩衝器306中的串流中之每一者的相似性值。信號特性之非限制性實例可包括自適應碼簿增益、靜止位準、非靜止位準、發聲因數、音調變化、信號能量、語音內容之偵測、雜訊底限位準、信雜比、稀疏性位準及頻譜傾斜。可對每一訊框或子訊框計算發聲因數,且該發聲因數可指示特定訊框或子訊框將成為具有週期性特性(例如,音調)之有聲訊框或有聲子訊框的可能性。舉例而言,可基於正規化音調相關性計算發聲因數。靜止位準或非靜止位準可指示特定訊框或子訊框具有多少靜止或非靜止信號特性。正常有聲語音信號通常被視為在短時間段(例如,20ms)內係準靜止的。歸因於正常有聲語音信號之準週期性性質,有聲語音信號相比於僅有雜訊(noisy/noise)之信號通常展示出高度可預測性,該僅有雜訊之信號通常被視為比有聲語音信號更不穩定。頻譜傾斜可為指示關於能量之頻率分佈的資訊之參數。頻譜傾斜可在頻域中經估計為集中在低頻率之能量與集中在高頻率之能量之間的比率。可對每一訊框或每一子訊框計算頻譜傾斜。可替代地,可對每一訊框計算兩次頻譜傾斜。
在一些實施中,串流選擇模組115可藉由將第一特定串流之第一訊框的第一信號特性與第一特定串流之至少一個先前訊框的第二信號特性相比較來判定緩衝器306中之串流的相似性值。舉例而言,串流選擇模組115可藉由將第一特定串流(例如,第一緩衝器321中之第一串流131)之第一訊框(例如,訊框i)的第一信號特性(例如,發聲因數)與第一特定串流(例如,第一緩衝器321中之第一串流131)之至少一個先前訊框(例如,訊框i-1)的第二信號特性(例如,發聲因數)相比較來判定第一緩衝器321中之串流131的相似性值。另外或替代地,串流選擇模組115可藉由將
第一特定串流之第一訊框的第一信號特性與第二特定串流(其不同於第一特定串流)之第二訊框的第二信號特性相比較來判定串流131至133中之任一者的相似性值。舉例而言,串流選擇模組115可藉由將第一特定串流(例如,第一緩衝器321中之第一串流131)之第一訊框(例如,訊框i)的第一信號特性(例如,自適應碼簿增益)與第二特定串流(例如,第二緩衝器322中之第二串流132)之第二訊框(例如,訊框i)的第二信號特性(例如,自適應碼簿增益)相比較來判定第一緩衝器321中之串流131的相似性值。
另外或替代地,串流選擇模組115可基於緩衝器306中之串流之間的空間鄰近度判定緩衝器306中的串流中之每一者的相似性值345。緩衝器306中之串流之間的空間鄰近度可由串流選擇模組115判定,或在一些實施中,圖1之前端音頻處理器104可將指示緩衝器306中之各串流131至133之源的空間特性(例如,方位角、仰角、到達方向等)之資訊提供至該串流選擇模組115。舉例而言,空間後設資料124可包括串流131至133中之每一者的聲源之經估計空間特性或經估計方向資訊,諸如方位角值或仰角值。舉例而言,若第一緩衝器321中之第一串流131與第二緩衝器322中之第二串流132在空間上較接近(例如,兩個串流之空間鄰近度高),則將第一緩衝器321中之第一串流131及第二串流132分組(組合或合併)且將經分組串流編碼為一個串流可為有利的。串流選擇模組115可進一步基於第一訊框131之空間後設資料與第二訊框132之空間後設資料之組合產生新的空間後設資料。舉例而言,新的空間後設資料可為兩個串流131、132之空間後設資料之平均值或加權平均值。在替代性實施中,若第一緩衝器321中之第一串流131與第二串流132在空間上較接近(例如,兩個串流之空間鄰近度高),則編碼第一串流131及第二串流132中之僅一
者可為有利的。舉例而言,串流選擇模組115可將第一串流131之第一相似性值與臨限值進行比較且回應於第一特定串流之第一相似性值不滿足該臨限值的判定而識別第一串流131不經編碼。另外或替代地,串流選擇模組115可將第二串流132之第二相似性值與臨限值進行比較且回應於第二特定串流之第二相似性值滿足該臨限值的判定而識別第二串流132將經編碼。
另外或替代地,哪些串流將經編碼或不經編碼之判定(例如,緩衝器036中之每一串流之相似性值345的判定)可由串流選擇模組115以迭代方式進行判定。舉例而言,串流選擇模組115可選擇將基於第一準則經寫碼(或未經寫碼)之儲存於緩衝器306中的串流當中的串流之第一子集。接著,串流選擇模組115可選擇將基於第二準則經寫碼(或未經寫碼)之串流之第一子集當中的串流之第二子集。舉例而言,第一準則可基於第一特定串流(例如,第一緩衝器321中之第一串流131)之第一訊框(例如,訊框i)的第一信號特性(例如,自適應碼簿增益)與第二特定串流之第二訊框的第二信號特性(例如,自適應碼簿增益)之比較,其中第二訊框可對應於第一訊框(例如,訊框i)或對應於另一訊框(例如,訊框i-1)且第二特定串流可或替代地可不與第一特定串流相同。第二準則可基於緩衝器321至323中之串流131至133之間的空間鄰近度。在一些實施中,串流131至133之間的空間鄰近度可基於各串流131至133之源的空間特性(例如,方位角、仰角等)判定。空間特性可包括於空間後設資料124中。
另外或替代地,哪些串流將經編碼或不經編碼之判定(例如,緩衝器036中之每一串流的相似性值345之判定)可由核心編碼器302或IVAS編解碼器102以封閉迴路方式判定。舉例而言,封閉迴路判定可藉
由在IVAS編解碼器102中之核心編碼器302內具有音頻解碼器來實施。此方法通常被稱作合成式分析方法。核心編碼器302內的音頻解碼器可包括其中的封包錯誤隱蔽或訊框錯誤隱蔽模組。藉由利用合成式分析方法(或藉由封閉迴路判定方法),核心編碼器302可對緩衝器306中之串流131至133中之至少一些執行封包錯誤隱蔽或訊框錯誤隱蔽,以識別所接收音頻串流131至133中之哪個最適合於由接收裝置處的音頻解碼器強制抹除(例如,不由核心編碼器302編碼)。在串流選擇模組115自前端音頻處理器104接收串流相似性資訊之實施中,串流選擇模組115可至少部分地基於所接收串流相似性資訊判定緩衝器306中之串流131至133的相似性值345。
另外或替代地,哪些串流將經編碼或不經編碼之判定(例如,緩衝器036中之每一串流的相似性值345之判定)可由串流選擇模組115或由IVAS編解碼器102基於速率選擇或其改變來判定。舉例而言,視特定時序處可用於寫碼獨立串流之總位元速率而定,IVAS編解碼器102可將一或多個串流識別為不編碼(例如,將其相似性值設定為0)或將一或多個其他串流識別為編碼(例如,將其相似性值設定為1)。在一些實施中,串流選擇模組115或IVAS編解碼器102可基於速率選擇或最初分配的位元速率模式(或預算)調整所選擇串流之數目(L)。舉例而言,串流選擇模組115可積極地減小所選擇串流之數目(L),當位元速率預算小或通道條件不良(例如,用於特定無線通信之位元速率選擇低)時,所選擇串流將由核心編碼器302編碼。
另外或替代地,哪些串流將經編碼或不經編碼之判定(例如,緩衝器036中之每一串流的相似性值345之判定)可由串流選擇模組
115或由IVAS編解碼器102基於所關注之空間區域(例如,目標視角)來判定。在一些實施中,IVAS編解碼器102可判定特定串流在目標視角之內或之外(例如,角度在θ 1 度或θ 2 度之間)。此判定可基於特定串流之到達方向(其可由IVAS編解碼器102或前端音頻處理器104進行估計)之估計,或可基於各串流之先前統計資訊。舉例而言,若任何特定串流之源經判定在所關注之特定空間區域外部(例如,角度在30度或-30度之間),則串流選擇模組115或IVAS編解碼器102可識別未經編碼(例如,相似性值=0)或以低於其他串流之位元速率編碼之此特定串流,以便在整體信號品質與空間降級之間進行權衡。在一些實施中,串流選擇模組115或IVAS編解碼器102可識別自待編碼方向之單側接收之所有串流及/或識別自不經編碼或用較少位元編碼之方向的其他側接收之所有串流。舉例而言,串流選擇模組115或IVAS編解碼器102可將來自方向左側的所有串流識別為目標視點之外部,且藉此將其相似性值設定為零以停用其編碼或用較少位元編碼。類似地,串流選擇模組115或IVAS編解碼器102可將來自方向右側的所有串流識別為在目標視點之內,且藉此將其相似性值設定為一以啟用其編碼或用較少位元編碼。
位元速率估計器304經組態以基於當前訊框之每一串流的優先級或置換次序340、當前訊框之編碼序列376或其組合,判定用於編碼當前訊框(例如,訊框i)之串流中之每一者的經估計位元速率。舉例而言,可向具有優先級5之串流指派最高經估計位元速率,可向具有優先級4之串流指派下一最高經估計位元速率,且可向具有優先級1之串流指派最低經估計位元速率。經估計位元速率可至少部分基於可用於輸出位元串流126之總位元速率進行判定,諸如藉由針對較高優先級串流將總位元速率
分割成大小較大的位元分配,且針對較低優先級串流將總位元速率分割成大小較小的位元分配。位元速率估計器304可經組態以產生使每一串流343與其所指派經估計位元速率344相關聯的表343或其他資料結構。
核心編碼器302經組態以根據串流中之每一者的置換序列及相似性值編碼串流中之每一者之至少一部分。舉例而言,為編碼對應於訊框i375的每一串流之部分,核心編碼器302可自串流優先級模組110接收編碼序列378,且可首先編碼串流2,繼之以編碼串流1,且最後編碼串流N。在多個串流可並行編碼的實施中,諸如其中核心編碼器302包括多個/聯合語音編碼器、多個/聯合MDCT編碼器等,根據置換序列選擇用於編碼之串流,但具有不同優先級的多個串流可同時編碼。舉例而言,優先級5主要使用者語音串流可與優先級4次要使用者語音串流並行編碼,而較低優先級串流在較高優先級語音串流之後進行編碼。
核心編碼器302在編碼特定串流之訊框時對彼串流之經估計位元速率350做出回應。舉例而言,核心編碼器302可針對特定串流選擇未超出該串流之經估計位元速率的特定寫碼模式或頻寬。在針對特定串流編碼當前訊框之後,將實際位元速率352提供至位元速率估計器304,且提供至訊框封包化器310。
核心編碼器302經組態以根據緩衝器306中的串流中之每一者的相似性值345編碼串流中之每一者之至少一部分。可替代地或另外,核心編碼器302經組態以根據相似性值345及置換序列(或置換次序)兩者編碼串流中之每一者之至少一部分。舉例而言,為編碼對應於訊框i375的每一串流之部分,核心編碼器302可自串流優先級模組110接收編碼序列378,且可首先編碼串流2,繼之以編碼串流1,且最後編碼串流N。然
而,核心編碼器302可基於串流1之相似性值345不滿足臨限值(例如,相似性值=0)之串流選擇模組的判定而跳過或繞過特定串流(例如,串流1)。
核心編碼器302經組態以將每一串流之經編碼部分寫入至第二組緩衝器308之對應緩衝器中。在一些實施中,編碼器302藉由將經編碼訊框自緩衝器321寫入至緩衝器331中,將經編碼訊框自緩衝器322寫入至緩衝器332中,以及將經編碼訊框自緩衝器323寫入至緩衝器333中來保持每一串流之緩衝器位址。在另一實施中,編碼器根據編碼次序將經編碼訊框寫入至緩衝器308中,從而使得最高優先級串流之經編碼訊框被寫入至第一緩衝器331中,下一最高優先級串流之經編碼訊框被寫入至緩衝器332中,等等。
位元速率估計器304經組態以將實際位元速率352與經估計位元速率350進行比較,且基於實際位元速率352與經估計位元速率350之間的差異更新一或多個較低優先級串流之經估計位元速率。舉例而言,若串流之經估計位元速率超過串流之經編碼位元速率,諸如在串流可高度壓縮且可使用相對較少個位元進行編碼時,則額外位元容量可用於編碼較低優先級串流。若串流之經估計位元速率小於串流之經編碼位元速率,則經減少之位元容量可用於編碼較低優先級串流。位元速率估計器304可經組態以將串流之經估計位元速率與串流之經編碼位元速率之間的「增量(delta)」或差異同等地分佈於所有較低優先級串流當中。作為另一實例,位元速率估計器304可經組態以將「增量」分佈至下一最高優先級串流(在增量導致可用的編碼位元速率減少時)。應注意,可實施用於將「增量」分佈至較低優先級串流的其他技術。
訊框封包化器310經組態以藉由自緩衝器308擷取經編碼訊
框資料且增加標頭資訊(例如,後設資料)以允許接收編解碼器處的解碼來產生輸出位元串流126之訊框。參考圖4描述輸出訊框格式之實例。
在操作期間,可針對串流(例如,具有獨立串流寫碼(IS)格式之N個串流)之第i個訊框執行編碼。串流中之每一者的第i個訊框可經接收於緩衝器306中,且可由串流優先級模組110預分析以指派優先級且判定編碼序列378(例如,寫碼之置換次序)。
預分析可基於訊框i以及過去訊框(i-1、i-2等)之源特性。預分析可產生可對串流進行編碼的位元速率之試驗性集合(例如,第n個串流之第i個訊框的經估計位元速率可表示為IS_br_tent[i,n]),以使得最高優先級串流接收最多數目個位元且最小優先級串流可接收最少數目個位元,同時保持對總位元速率的約束:IS_br_tent[i,1]+IS_br_tent[i,2]+...+IS_br_tent[i,N]<=IS_total_rate。
預分析亦可產生對串流寫碼的置換次序(例如,訊框i之置換次序:2,1,...N;訊框i+1之置換次序:1,3,N,...2等),以及可包括(例如)核心取樣率、寫碼器類型、寫碼模式、作用中/不在作用中的初始寫碼組態。
串流中之每一者的IS寫碼可基於此置換次序、試驗性位元速率、初始寫碼組態。在特定實施中,編碼第n個優先級獨立串流(例如,編碼序列378之第n個位置中的串流)包括:預處理以改進寫碼組態及第n個串流的實際位元速率;以等於IS_br[i,n]kbps之位元速率(br)寫碼第n個串流;估計增量,亦即IS_delta[i,n]=(IS_br[i,n]-IS_br_tent[i,n]);將增量添加至下一優先級串流且更新第(n+1)個優先級串流之經估計(試驗性)位元速率,亦即IS_br_tent[i,n+1]=IS_br[i,n+1]+IS_delta[i,
n],或將增量分佈至其餘串流,與其餘串流中之每一串流的位元分配成比例;及將與第n個串流相關聯之位元串流(例如,IS_br[i,n]位元之數目)暫時儲存於緩衝器中,諸如緩衝器308中之一者中。
基於所有其他串流的優先級置換次序(例如,根據編碼序列378)對該等串流重複上文所描述之編碼。IS位元緩衝器中之每一者(例如,緩衝器331至333中之每一者的內容)可以預定義次序裝配至位元串流126中。圖4中描繪位元串流126之訊框i、i+1、i+2的實例說明。
儘管在一些實施中,可(例如,藉由應用處理器)自IVAS編解碼器102外部指定串流優先級或位元分配組態,但由IVAS編解碼器102執行的預分析具有可撓性以改變此位元分配結構。舉例而言,當外部資訊指示一個串流為高優先級且推測為使用高位元速率進行編碼,但該串流在特定訊框中具有非作用內容時,預分析可偵測非作用內容,且即使指示為高優先級,亦針對彼訊框縮減串流之位元速率。
儘管圖3描繪包括編碼序列376至378之表372,但應理解,表372出於解釋之目的予以說明,且IVAS編解碼器102之其他實施並不產生表或其他資料結構以表示編碼序列。舉例而言,在一些實施中,經由搜尋未經編碼串流之優先級及選擇未經編碼串流之最高優先級串流,直至已針對特定訊框編碼所有串流為止判定編碼序列,而未產生專用資料結構以儲存經判定編碼序列。在此等實施中,編碼序列之判定在編碼正在進行時執行,而非作為離散操作執行。
儘管串流優先級模組110描述為經組態以判定串流特性資料360,但在其他實施中,預分析模組可實際上執行預分析(例如,以判定信號能量、熵、語音偵測等),且可將串流特性資料360提供至串流優先級
模組110。
儘管圖3描繪第一組緩衝器306及第二組緩衝器308,但在其他實施中,可省略該等組緩衝器306及308中之一者或兩者。舉例而言,可在核心編碼器302經組態以自單一緩衝器擷取交錯式音頻串流資料的實施中省略第一組緩衝器306。作為另一實例,可在核心編碼器302經組態以將經編碼音頻串流資料直接插入至訊框封包化器310中之訊框緩衝器中的實施中省略第二組緩衝器308。
參考圖4,針對經編碼IS音頻串流描繪位元串流126之訊框之實例400。第一訊框(訊框i)402包括訊框識別符404、IS標頭406、串流1(IS-1)408之經編碼音頻資料、串流2(IS-2)410之經編碼音頻資料、串流3(IS-3)412之經編碼音頻資料、串流4(IS-4)414之經編碼音頻資料及串流5(IS-5)416之經編碼音頻資料。
IS標頭406可包括IS串流408至416中之每一者的長度。可替代地,IS串流408至416中之每一者可為獨立的且包括IS寫碼之長度(例如,IS寫碼之長度可經編碼成每一IS串流之前3個位元)。替代地或另外,串流408至416中之每一者的位元速率可包括於IS標頭406中,或可經編碼成各別IS串流。IS串流亦可包括或指示空間後設資料124。舉例而言,可使用空間後設資料124之經量化版本,其中每一IS串流之量化的量係基於IS串流之優先級。為了說明,針對高優先級串流的空間後設資料編碼可將4個位元用於方位角資料且將4個位元用於仰角資料,且針對低優先級串流的空間後設資料編碼可將3個位元或較少位元用於方位角資料且將3個位元或較少位元用於仰角資料。應理解,提供4個位元作為說明性非限制性實例,且在其他實施中,可將任何其他數目個位元用於方位角資料、仰角資
料或其任何組合。IS串流亦可包括或指示經編碼串流中之每一者的相似性值。
第二訊框(訊框i+1)422包括訊框識別符424、IS標頭426、串流1(IS-1)428之經編碼音頻資料、串流2(IS-2)430之經編碼音頻資料、串流3(IS-3)432之經編碼音頻資料、串流4(IS-4)434之經編碼音頻資料及串流5(IS-5)436之經編碼音頻資料。第三訊框(訊框i+2)442包括訊框識別符444、IS標頭446、串流1(IS-1)448之經編碼音頻資料、串流2(IS-2)450之經編碼音頻資料、串流3(IS-3)452之經編碼音頻資料、串流4(IS-4)454之經編碼音頻資料及串流5(IS-5)456之經編碼音頻資料。
優先級串流中之每一者可始終使用固定數目個位元,其中最高優先級串流使用總位元之30-40%,且最低優先級串流可使用總位元之5-10%。可實際上發送串流之優先級數目個而非發送位元之數目個(或IS寫碼之長度),自此接收器可推斷第n個優先級串流之IS寫碼的長度。在其他替代性實施中,可藉由按特定優先級次序(例如,遞增或遞減)將每一串流之位元串流置放於位元串流訊框中而省略優先級數目之傳輸。
應理解,說明性訊框402、422及442使用不同於參考圖1至圖3提供之實例的串流優先級及編碼序列進行編碼。表2說明串流優先級,且表3說明對應於訊框402、422及442之編碼的編碼序列。
位元串流462說明作為第三訊框(訊框i+2)442之基於相似性的串流之結果的例示性位元串流。位元串流462包括訊框識別符464、IS標頭466、串流1(IS-1)468之經編碼音頻資料、串流2(IS-2)470之經編碼音頻資料、串流3(IS-3)472之經編碼音頻資料、串流4(IS-4)474之經編碼音頻資料及串流5(IS-5)476之經編碼音頻資料。基於串流5(IS-5)456之訊框i+2的高優先級值或優先級次序(例如,優先級=1),其在位元串流442中以12kbps位元速率進行編碼,然而由於串流4(IS-4)454之訊框i+2的較低優先級值或優先級次序(例如,優先級=2),其以較少位元速率(例如,8kbps)進行編碼。然而,在位元串流462中,由於串流5(IS-5)之經編碼資料的相似性值為零,其大小小於1kbps。在此特定實例中,相似性值為零在此實例中意欲指示串流選擇模組115所識別之串流5(IS-5)的訊框i+2歸因於其高時間相似性或其與其他訊框之高空間鄰近度而容易由至少一個其他訊框可預測(或可再現)。串流5(IS-5)之經編碼資料之大小小於1kbps意欲指示核心編碼器204跳過串流5(IS-5)之編碼或替代地用較少位元速率編碼串流5(IS-5)(例如,編碼降頻)。在一些替代性實施中,位元串流462可包括指示串流5(IS-5)不由核心編碼器204編碼之資訊,而非包括串流5(IS-5)之經編碼音頻資料。舉例而言,訊框識別符464或IS標頭466可包括指示串流5(IS-5)未經編碼的資訊(例如,至少一個參數)。
在一些實施中,位元串流462可進一步包括指示串流5未經編碼之原因(例如,由於高時間相似性或與其他訊框之高空間鄰近度)或如何在包括音頻解碼器之接收側處重建構串流5(IS-5)之資訊(例如,至少一個參數)。舉例而言,位元串流462可包括指示串流5(IS-5)之訊框i+2由於其與串流5(IS-5)436之訊框i+1的時間相似性高(例如,與其自身串流之
先前訊框的時間相似性高)而未經編碼的資訊。此資訊可迫使核心解碼器212基於串流5(IS-5)之訊框i+1的經解碼資料重建構串流5(IS-5)之訊框i+2。在另一實例中,位元串流462可包括指示串流5(IS-5)之訊框i+2由於其與串流3(IS-3)472之訊框i+2的時間相似性高(例如,與另一串流之對應訊框的時間相似性高)而未經編碼的資訊。此資訊可迫使核心解碼器212基於串流3(IS-3)472之訊框i+2的經解碼資料重建構串流5(IS-5)之訊框i+2。類似地,位元串流462可包括指示串流5(IS-5)之訊框i+2由於其與串流2(IS-2)470之訊框i+2的空間鄰近度高而未經編碼的資訊。此資訊可迫使核心解碼器212基於串流2(IS-2)470之訊框i+2的經解碼資料重建構串流5(IS-5)之訊框i+2。
圖5為多串流編碼之方法500之特定實例的流程圖。方法500可由編碼器執行,諸如圖1至圖3之IVAS編解碼器102。舉例而言,可在圖6之行動裝置600或圖7之基地台700處執行方法500。
方法500包括在501處,在音頻編碼器處接收音頻資料之多個串流,其中N為所接收音頻資料之多個串流之數目。在特定實例中,多個串流對應於包括N個串流131至133的多串流格式化音頻資料122。舉例而言,多個串流可具有獨立串流寫碼格式、多通道格式或基於場景之音頻格式。
方法500包括在503處,判定對應於所接收多個串流當中的複數個串流之複數個相似性值。在特定實例中,串流選擇模組115判定串流131至133中之所有或子集中之每一者的相似性值以產生相似性值345。多個串流中之特定串流的相似性值基於特定串流之訊框的一或多個信號特性來判定。在實例中,串流選擇模組115可基於串流中之每一者的空間後
設資料124(例如,高空間鄰近度或低空間鄰近度)來判定多個串流中之特定串流的。在另一實例中,串流選擇模組115可基於與特定串流之先前訊框或另一串流之對應訊框的時間相似性來判定多個串流中之特定串流的相似性值。可替代地,串流選擇模組115可基於時間相似性與空間鄰近度之組合來判定特定串流之相似性值。在特定實施中,一或多個信號特性包括自適應碼簿增益、靜止位準、非靜止位準、發聲因數、音調變化、信號能量、語音內容之偵測、雜訊底限位準、信雜比、稀疏性位準及頻譜傾斜中之至少一者。串流相似性資訊(例如,外部相似性資料364)亦可在音頻編碼器處自前端音頻處理器(例如,前端音頻處理器104)接收,且特定串流之相似性值至少部分地基於該串流相似性資訊來判定。
方法500包括在505處,將對應於多個串流當中的每一串流之相似性值與臨限值進行比較。在特定實例中,串流選擇模組115可將相似性值中之每一者與臨限值進行比較。基於該比較,串流選擇模組115可識別所接收音頻串流(例如,N)當中需由核心編碼器204、302編碼之音頻串流之子集(例如,L)。串流選擇模組115可對所接收音頻串流當中的串流中之一些使用不同臨限值。
方法500包括在506處,基於該比較識別所接收多個串流中之N個當中待編碼的L個串流(L<N)。在特定實例中,串流選擇模組115可回應於第一特定串流之第一相似性值不滿足臨限值(例如,第一相似性值=0)的判定而識別第一特定串流不經編碼。另外或替代地,串流選擇模組115可回應於第二特定串流之第二相似性值滿足臨限值(例如,第二相似性值=1)的判定而識別第二特定串流待編碼。為了說明,串流選擇模組115可接收5個串流(IS1至IS5),且可識別待編碼(例如,相似性值=1)的4
個串流(IS1至IS4),且識別不經編碼(例如,相似性值=0)之IS-5。
方法500包括在507處,編碼經識別之L個串流以產生經編碼位元串流。在特定實例中,核心編碼器204、302或IVAS編解碼器102可基於由串流選擇模組115所判定之其相似性值(例如,相似性值=1)且另外基於如表2中所說明之串流優先級及如表3中所說明之編碼序列378(例如,寫碼之置換次序)編碼4個串流(IS1至IS4)。
在特定實施中,方法500可包括在編碼經識別之L個串流之前,將優先級值指派至所接收多個串流之一部分。舉例而言,將優先級值指派至所接收多個串流之部分可在判定對應於所接收多個串流當中的複數個串流之複數個相似性值之前或之後執行。在另一實施中,方法500可進一步包括基於經指派至所接收多個串流之部分的優先級值來判定置換序列。在一些實施中,方法500可將經估計位元速率(例如,經估計位元速率350)指派至所接收多個串流當中的串流(例如,經識別之L個串流)中之至少一些。在編碼特定串流之部分(例如,訊框i)之後,可更新相比特定串流具有較低優先級之至少一個串流之經估計位元速率,諸如參考位元速率估計器304所描述的。更新經估計位元速率可基於特定串流之經編碼部分的經估計位元速率與特定串流之經編碼位元速率之間的差異。
在一些實施中,方法500亦包括經由網路216將經編碼位元串流傳輸至音頻解碼器(例如,核心解碼器212)。位元串流126包括指示優先級值、相似性值、位元長度或經編碼串流中之每一串流的編碼位元速率中之至少一者的後設資料(例如,IS標頭406)。位元串流126亦可包括後設資料,該後設資料包括對應經編碼串流中之每一串流的空間資料(諸如圖1之空間後設資料124),該空間資料包括經編碼多個串流中之每一串流的方
位角資料及仰角資料,諸如參考表1所描述的。
參考圖6,描繪了裝置(例如,無線通信裝置)之特定說明性實例的方塊圖,且通常將該裝置指定為600。在各種實施中,裝置600相比圖6中所說明可具有較少或較多組件。在說明性實施中,裝置600可對應於圖1之裝置101或圖2之接收裝置。在說明性實施中,裝置600可執行參考圖1至圖5之系統及方法所描述之一或多個操作。
在特定實施中,裝置600包括處理器606(例如,中央處理單元(CPU))。裝置600可包括一或多個其他處理器610(例如,一或多個數位信號處理器(DSP))。處理器610可包括媒體(例如,語音及音樂)編碼器-解碼器(coder-decoder,CODEC)608及回音消除器612。媒體CODEC 608可包括核心編碼器204、核心解碼器212或其組合。在一些實施中,媒體CODEC 608包括格式預處理器202、格式後處理器214、呈現與雙耳道化電路218或其組合。
裝置600可包括記憶體653及CODEC 634。儘管媒體CODEC 608說明為處理器610之組件(例如,專用電路及/或可執行程式碼),但在其他實施例中,媒體CODEC 608之一或多個組件(諸如編碼器204、解碼器212或其組合)可包括於處理器606、CODEC 634、另一處理組件或其組合中。CODEC 634可包括一或多個數位/類比轉換器(DAC)602及類比/數位轉換器(ADC)604。CODEC 634可包括圖1之前端音頻處理器104。
裝置600可包括耦接至天線642之接收器632。裝置600可包括耦接至顯示控制器626之顯示器628。一或多個揚聲器648可耦接至CODEC 634。一或多個麥克風646可經由一或多個輸入介面603耦接至編
解碼器634。在特定實施中,麥克風646可包括麥克風106至109。
記憶體653可包括可由處理器606、處理器610、CODEC 634、裝置600之另一處理單元或其組合執行,以執行參考圖1至圖5所描述之一或多個操作的指令691。
裝置600之一或多個組件可經由專用硬體(例如,電路)、由執行指令以執行一或多個任務的處理器或其組合實施。作為實例,記憶體653或處理器606、處理器610及/或CODEC 634之一或多個組件可為記憶體裝置,諸如隨機存取記憶體(RAM)、磁電阻隨機存取記憶體(MRAM)、自旋扭矩轉移MRAM(STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電可抹除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除式磁碟或緊密光碟唯讀記憶體(CD-ROM)。記憶體裝置可包括指令(例如,指令691),當由電腦(例如,CODEC 634中之處理器、處理器606及/或處理器610)執行時,該等指令可使電腦執行參考圖1至圖5所描述之一或多個操作。作為實例,記憶體653或處理器606、處理器610及/或CODEC 634中之一或多個組件可為包括指令(例如,指令691)之非暫時性電腦可讀媒體,當由電腦(例如,CODEC 634中之處理器、處理器606及/或處理器610)執行時,該等指令使得電腦執行參考圖1至圖5所描述之一或多個操作。
在特定實施中,裝置600可包括於系統級封裝或系統單晶片裝置(例如,行動台數據機(MSM))622中。在特定實施中,處理器606、處理器610、顯示控制器626、記憶體653、CODEC 634及接收器632包括於系統級封裝或系統單晶片裝置622中。在特定實施中,諸如觸
控螢幕及/或小鍵盤之輸入裝置630及電源供應器644耦接至系統單晶片裝置622。此外,在特定實施中,如圖6中所說明,顯示器628、輸入裝置630、揚聲器648、麥克風646、天線642及電源供應器644在系統單晶片裝置622外部。然而,顯示器628、輸入裝置630、揚聲器648、麥克風646、天線642及電源供應器644中之每一者可耦接至系統單晶片裝置622之組件,諸如介面或控制器。
裝置600可包括:無線電話、行動通信裝置、行動電話、智慧型手機、蜂巢式電話、膝上型電腦、桌上型電腦、電腦、平板電腦、機上盒、個人數位助理(PDA)、顯示裝置、電視、遊戲控制台、音樂播放機、收音機、視訊播放機、娛樂單元、通信裝置、固定位置資料單元、個人媒體播放機、數位視訊播放機、數位視訊光碟(DVD)播放機、調諧器、攝影機、導航裝置、解碼器系統、編碼器系統或其任何組合。
參考圖7,描繪基地台700之特定說明性實例的方塊圖。在各種實施中,基地台700可相比圖7中所說明具有較多組件或較少組件。在說明性實例中,基地台700可包括圖1之第一裝置101。在說明性實例中,基地台700可根據參考圖1至圖5所描述之方法或系統中之一或多者操作。
基地台700可為無線通信系統之部分。無線通信系統可包括多個基地台及多個無線裝置。無線通信系統可為長期演進(LTE)系統、分碼多重存取(CDMA)系統、全球行動通信(GSM)系統、無線區域網路(WLAN)系統或一些其他無線系統。CDMA系統可實施寬頻CDMA(WCDMA)、CDMA 1X、演進資料最佳化(EVDO)、分時同步CDMA(TD-SCDMA)或一些其他版本之CDMA。
無線裝置亦可被稱作使用者設備(UE)、行動台、終端機、存取終端機、用戶單元、工作台等。無線裝置可包括蜂巢式電話、智慧型電話、平板電腦、無線數據機、個人數位助理(PDA)、手持型裝置、膝上型電腦、智慧筆記型電腦、迷你筆記型電腦、平板電腦、無接線電話、無線區域迴路(WLL)站、藍芽裝置等。無線裝置可包括或對應於圖6之裝置600。
各種功能可由基地台700(及/或在未展示之其他組件中)中之一或多個組件執行,諸如發送及接收訊息及資料(例如,音頻資料)。在特定實例中,基地台700包括處理器706(例如,CPU)。基地台700可包括轉碼器710。轉碼器710可包括音頻CODEC 708。舉例而言,轉碼器710可包括經組態以執行音頻CODEC 708之操作的一或多個組件(例如電路)。作為另一實例,轉碼器710可經組態以執行一或多個電腦可讀指令以執行音頻CODEC 708之操作。儘管音頻CODEC 708說明為轉碼器710之組件,但在其他實例中,音頻CODEC 708之一或多個組件可包括於處理器706、另一處理組件或其組合中。舉例而言,解碼器738(例如聲碼器解碼器)可包括於接收器資料處理器764中。作為另一實例,編碼器736(例如,聲碼器編碼器)可包括於傳輸資料處理器782中。
轉碼器710可起到在兩個或大於兩個網路之間轉碼訊息及資料的作用。轉碼器710可經組態以將訊息及音頻資料自第一格式(例如,數位格式)轉換成第二格式。為了說明,解碼器738可解碼具有第一格式之經編碼信號,且編碼器736可將經解碼信號編碼成具有第二格式之經編碼信號。另外或替代地,轉碼器710可經組態以執行資料速率調適。舉例而言,轉碼器710可在不改變音頻資料之格式的情況下降頻轉換資料速率或
升頻轉換資料速率。為了說明,轉碼器710可將64kbit/s信號降頻轉換成16kbit/s信號。
音頻CODEC 708可包括核心編碼器204及核心解碼器212。音頻CODEC 708亦可包括格式預處理器202、格式後處理器214或其組合。
基地台700可包括記憶體732。諸如電腦可讀儲存裝置之記憶體732可包括指令。指令可包括可由處理器706、轉碼器710或其組合執行之一或多個指令,以執行參考圖1至圖5之方法及系統所描述之一或多個操作。基地台700可包括耦接至天線陣列之多個傳輸器及接收器(例如,收發器),諸如第一收發器752及第二收發器754。天線陣列可包括第一天線742及第二天線744。天線陣列可經組態以無線方式與一或多個無線裝置通信,諸如圖6之裝置600。舉例而言,第二天線744可自無線裝置接收資料串流714(例如,位元串流)。資料串流714可包括訊息、資料(例如,經編碼語音資料)或其組合。
基地台700可包括網路連接760,諸如空載傳輸連接。網路連接760可經組態以與核心網路或無線通信網路之一或多個基地台通信。舉例而言,基地台700可經由網路連接760自核心網路接收第二資料串流(例如,訊息或音頻資料)。基地台700可處理第二資料串流以產生訊息或音頻資料,且經由天線陣列之一或多個天線將訊息或音頻資料提供至一或多個無線裝置,或經由網路連接760將訊息或音頻資料提供至另一基地台。在特定實施中,作為說明性非限制性實例,網路連接760可為廣域網路(WAN)連接。在一些實施中,核心網路可包括或對應於公眾交換電話網路(PSTN)、封包骨幹網路或兩者。
基地台700可包括耦接至網路連接760及處理器706之媒體閘道器770。媒體閘道器770可經組態以在不同電信技術之媒體串流之間轉換。舉例而言,媒體閘道器770可在不同傳輸協定、不同寫碼方案或兩者之間轉換。為了說明,作為說明性非限制性實例,媒體閘道器770可自PCM信號轉換成即時輸送協定(RTP)信號。媒體閘道器770可在封包交換式網路(例如,網際網路通訊協定語音(VoIP)網路、IP多媒體子系統(IMS)、第四代(4G)無線網路(諸如LTE、WiMax及UMB)等)、電路切換網路(例如,PSTN)及混合式網路(例如,第二代(2G)無線網路(諸如GSM、GPRS及EDGE)、第三代(3G)無線網路(諸如WCDMA、EV-DO及HSPA)等)之間轉換資料。
另外,媒體閘道器770可包括轉碼,且可經組態以在編解碼器不相容時轉碼資料。舉例而言,作為說明性非限制性實例,媒體閘道器770可在自適應多重速率(AMR)編解碼器與G.711編解碼器之間轉碼。媒體閘道器770可包括路由器及複數個實體介面。在一些實施中,媒體閘道器770亦可包括控制器(未展示)。在特定實施中,媒體閘道器控制器可在媒體閘道器770外部、在基地台700外部或在兩者外部。媒體閘道器控制器可控制及協調多個媒體閘道器之操作。媒體閘道器770可自媒體閘道器控制器接收控制信號,且可在不同傳輸技術之間起到橋接器的作用,且可將服務添加至終端使用者能力及連接。
基地台700可包括耦接至收發器752、收發器754、接收器資料處理器764及處理器706之解調器762,且接收器資料處理器764可耦接至處理器706。解調器762可經組態以解調自收發器752、754接收之經調變信號,且經組態以將經解調變資料提供至接收器資料處理器764。接
收器資料處理器764可經組態以自經解調資料擷取訊息或音頻資料,且將訊息或音頻資料發送至處理器706。
基地台700可包括傳輸資料處理器782及傳輸多輸入多輸出(MIMO)處理器784。傳輸資料處理器782可耦接至處理器706及傳輸MIMO處理器784。傳輸MIMO處理器784可耦接至收發器752、收發器754及處理器706。在一些實施中,傳輸MIMO處理器784可耦接至媒體閘道器770。作為例示性非限制性實例,傳輸資料處理器782可經組態以自處理器706接收訊息或音頻資料,且基於諸如CDMA或正交分頻多工(OFDM)之寫碼方案寫碼該等訊息或該音頻資料。傳輸資料處理器782可提供經寫碼資料至傳輸MIMO處理器784。
可使用CDMA或OFDM技術將經寫碼資料與諸如導頻資料之其他資料多工在一起以產生多工資料。接著可基於特定調變方案(例如,二進位相移鍵控(「BPSK」)、正交相移鍵控(「QSPK」)、M-元相移鍵控(「M-PSK」)、M-元正交振幅調變(「M-QAM」)等)由傳輸資料處理器782調變(亦即,符號映射)多工資料以產生調變符號。在特定實施中,經寫碼資料及其他資料可使用不同調變方案調變。針對每一資料串流之資料速率、寫碼及調變可由處理器706所執行之指令判定。
傳輸MIMO處理器784可經組態以自傳輸資料處理器782接收調變符號,且可進一步處理調變符號,且可對資料執行波束成形。舉例而言,傳輸MIMO處理器784可將波束成形權重應用於調變符號。波束成形權重可對應於天線陣列之一或多個天線,調變符號利用該一或多個天線傳輸。
在操作期間,基地台700之第二天線744可接收資料串流
714。第二收發器754可自第二天線744接收資料串流714,且可將資料串流714提供至解調器762。解調器762可解調資料串流714之經調變信號,且將經解調資料提供至接收器資料處理器764。接收器資料處理器764可自經解調變資料擷取音頻資料,且將經擷取音頻資料提供至處理器706。
處理器706可將音頻資料提供至轉碼器710以供轉碼。轉碼器710之解碼器738可將音頻資料自第一格式解碼成經解碼音頻資料,且編碼器736可將經解碼音頻資料編碼成第二格式。在一些實施中,編碼器736可使用相比自無線裝置接收之較高資料速率(例如,升頻轉換)或較低資料速率(例如,降頻轉換)編碼音頻資料。在其他實施中,音頻資料可不經轉碼。儘管轉碼(例如,解碼及編碼)說明為由轉碼器710執行,但轉碼操作(例如,解碼及編碼)可由基地台700之多個組件執行。舉例而言,解碼可由接收器資料處理器764執行,且編碼可由傳輸資料處理器782執行。在其他實施中,處理器706可將音頻資料提供至媒體閘道器770用於轉換成另一傳輸協定、寫碼方案或兩者媒體閘道器770可經由網路連接760將經轉換資料提供至另一基地台或核心網路。
編碼器736處產生之經編碼音頻資料(諸如經轉碼資料)可經由處理器706提供至傳輸資料處理器782或網路連接760。可將來自轉碼器710之經轉碼音頻資料提供至傳輸資料處理器782,以供根據諸如OFDM之調變方案寫碼,以產生調變符號。傳輸資料處理器782可將調變符號提供至傳輸MIMO處理器784以供進一步處理及波束成形。傳輸MIMO處理器784可應用波束成形權重,且可經由第一收發器752將調變符號提供至天線陣列中之一或多個天線,諸如第一天線742。因此,基地台700可將對應於自無線裝置所接收之資料串流714的經轉碼資料串流716提供至另
一無線裝置。經轉碼資料串流716可具有與資料串流714不同之編碼格式、資料速率或兩者。在其他實施中,可將經轉碼資料串流716提供至網路連接760以供傳輸至另一基地台或核心網路。
在特定實施中,本文中所揭示之系統及裝置之一或多個組件可整合至解碼系統或設備(例如,電子裝置、CODEC或其中的處理器)中,整合至編碼系統或設備中或兩者。在其他實施中,本文中所揭示之系統及裝置之一或多個組件可整合至以下各者中:無線電話、平板電腦、桌上型電腦、膝上型電腦、機上盒、音樂播放機、視訊播放機、娛樂單元、電視、遊戲控制台、導航裝置、通信裝置、個人數位助理(PDA)、固定位置資料單元、個人媒體播放機或另一類型之裝置。
結合所描述技術,一種設備包括用於判定多個串流中之每一串流的相似性值且用於將多個串流中之每一串流的相似性值與臨限值進行比較的構件。該設備包括用於基於該比較識別多個串流中之N個當中待編碼之L個串流的構件,其中L小於N。舉例而言,用於判定、比較及識別之構件可對應於圖1至圖3之串流選擇模組115、一或多個其他裝置、電路、模組或其任何組合。
該設備亦包括用於根據經識別之L個串流中之每一者的相似性值編碼多個串流當中經識別之L個串流的構件。舉例而言,用於編碼的構件可包括圖3之核心編碼器302、一或多個其他裝置、電路、模組或其任何組合。
應注意,藉由本文中所揭示之系統及裝置之一或多個組件執行的各種功能經描述為藉由某些組件或模組執行。組件及模組之此劃分僅係為了說明。在替代性實施中,由特定組件或模組執行之功能可劃分於
多個組件或模組之中。此外,在替代性實施中,兩個或大於兩個組件或模組可整合至單個組件或模組中。每一組件或模組可使用硬體(例如,場可程式化閘陣列(FPGA)裝置、特殊應用積體電路(ASIC)、DSP、控制器等)、軟體(例如,可由處理器執行之指令)或其任何組合實施。
熟習此項技術者將進一步瞭解,結合本文中所揭示之實施而描述的各種說明性邏輯區塊、組態、模組、電路及演算法步驟可實施為電子硬體、由諸如硬體處理器之處理裝置執行的電腦軟體或兩者之組合。上文已大體上就其功能性而言描述各種說明性組件、區塊、組態、模組、電路及步驟。此功能性經實施為硬體抑或可執行軟體取決於特定應用及強加於整個系統之設計約束。熟習此項技術者可針對每一特定應用而以變化之方式實施所描述之功能性,但不應將此等實施決策解釋為致使脫離本發明之範疇。
結合本文中所揭示之實施所描述之方法或演算法之步驟可直接體現於硬體中、由處理器執行之軟體模組中或兩者之組合中。軟體模組可駐存於記憶體裝置中,諸如隨機存取記憶體(RAM)、磁電阻隨機存取記憶體(MRAM)、自旋扭矩轉移MRAM(STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可擦除可程式化唯讀記憶體(EPROM)、電可擦除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除式磁碟或緊密光碟唯讀記憶體(CD-ROM)。例示性記憶體裝置耦接至處理器,以使得處理器可自記憶體裝置讀取資訊及將資訊寫入至記憶體裝置。在替代方案中,記憶體裝置可整合至處理器中。處理器及儲存媒體可駐存於特殊應用積體電路(ASIC)中。ASIC可駐存於計算裝置或使用者終端機中。在替代例中,處理器及儲存媒體可作為離散組件駐存於計
算裝置或使用者終端機中。
提供所揭示之實施的先前描述以使熟習此項技術者能夠製備或使用所揭示之實施。熟習此項技術者將顯而易見對此等實施之各種修改,且在不脫離本發明之範疇的情況下,本文中所定義之原理可應用於其他實施。因此,本發明並非意欲限於本文中所展示之實施,而應符合可能與如以下申請專利範圍所定義之原理及新穎特徵相一致的最廣泛範疇。
400:訊框
402:第一訊框
404:訊框識別符
406:IS標頭
408:串流
410:串流
412:串流
414:串流
416:串流
422:第二訊框
424:訊框識別符
426:IS標頭
428:串流
430:串流
432:串流
434:串流
436:串流
442:第三訊框/位元串流
444:訊框識別符
446:IS標頭
448:串流
450:串流
452:串流
454:串流
456:串流
462:位元串流
464:訊框識別符
466:IS標頭
468:串流
470:串流
472:串流
474:串流
476:串流
Claims (30)
- 一種多串流音頻寫碼方法,其包含:在一音頻編碼器處接收音頻資料之多個串流,其中N為該等所接收多個串流之數目;判定對應於該等所接收多個串流當中的複數個串流之複數個相似性值;將該複數個相似性值中之每一者與一臨限值進行比較;基於該比較識別該等所接收多個串流中之N個當中待編碼之L個串流,其中L小於N;及編碼經識別之L個串流以產生一經編碼位元串流。
- 如請求項1之方法,其中判定該複數個相似性值包含基於第一特定串流之一第一訊框的一第一信號特性來判定該等所接收多個串流中之一第一特定串流之一第一相似性值。
- 如請求項2之方法,其中判定該第一特定串流之該第一相似性值包含將該第一特定串流之該第一訊框的該第一信號特性與該第一特定串流之至少一個先前訊框的一第二信號特性進行比較。
- 如請求項3之方法,其中該第一及該第二信號特性包含一自適應碼簿增益、一靜止位準、一非靜止位準、一發聲因數、一音調變化、信號能量、語音內容之偵測、一雜訊底限位準、一信雜比、一稀疏性位準及一頻譜傾斜中之至少一者。
- 如請求項2之方法,其中判定該第一特定串流之該第一相似性值包含將該第一特定串流之該第一訊框的該第一信號特性與一第二特定串流之一第二訊框的一第二信號特性進行比較,其中該第二特定串流不同於 該第一特定串流。
- 如請求項5之方法,其中該第一及該第二信號特性對應於指示一仰角值及一方位角值中之至少一者的空間後設資料。
- 如請求項2之方法,其中該經編碼位元串流包括指示對應該第一特定串流之一空間資料的後設資料。
- 如請求項1之方法,其中基於該比較識別該等所接收多個串流中之該N個當中待編碼之L個串流包含:回應於一第一特定串流之一第一相似性值不滿足該臨限值的判定,識別不經編碼之該第一特定串流;及回應於一第二特定串流之一第二相似性值滿足該臨限值的判定,識別待編碼之該第二特定串流。
- 如請求項1之方法,其中識別該等所接收多個串流中之該N個當中待編碼之L個串流包含:組合該等所接收多個串流中之該N個當中的複數個串流以產生一經組合串流;及將一第一相似性值指派至該經組合串流。
- 如請求項1之方法,其進一步包含在編碼該等經識別之L個串流之前,將一優先級值指派至該等所接收多個串流之一部分且基於經指派至該等所接收多個串流之該部分的該優先級值判定一置換序列。
- 一種多串流音頻寫碼裝置,其包含:一音頻處理器,其經組態以基於所接收音頻信號產生音頻資料之多個串流,其中N為該等音頻資料之多個串流之數目;及一音頻編碼器,其經組態以: 判定對應於該多個串流當中的複數個串流之複數個相似性值;將該複數個相似性值中之每一者與一臨限值進行比較;基於該比較識別該多個串流中之該N個當中待編碼之L個串流,其中L小於N;及編碼該等經識別之L個串流以產生一經編碼位元串流。
- 如請求項11之裝置,其進一步包含一傳輸器,該傳輸器經組態以經由一無線網路將該經編碼位元串流傳輸至一音頻解碼器,其中該經編碼位元串流包括一第一特定串流之一第一相似性值。
- 如請求項11之裝置,其中該音頻編碼器經組態以藉由將一第一特定串流之一第一訊框的一第一信號特性與該第一特定串流的至少一個先前訊框之一第二信號特性進行比較來判定該第一特定串流之一第一相似性值。
- 如請求項13之裝置,其中該第一及該第二信號特性包含一自適應碼簿增益、一靜止位準、一非靜止位準、一發聲因數、一音調變化、信號能量、語音內容之偵測、一雜訊底限位準、一信雜比、一稀疏性位準及一頻譜傾斜中之至少一者。
- 如請求項11之裝置,其中該音頻編碼器經組態以藉由將一第一特定串流之一第一訊框的一第一信號特性與一第二特定串流之一第二訊框的一第二信號特性進行比較來判定該第一特定串流之一第一相似性值,其中該第二特定串流不同於該第一特定串流。
- 如請求項15之裝置,其中該第一及該第二信號特性對應於指示一仰角值及一方位角值中之至少一者的空間後設資料。
- 如請求項11之裝置,其中該音頻編碼器經組態以: 回應於一第一特定串流之一第一相似性值不滿足該臨限值的判定,識別不經編碼之該第一特定串流;及回應於一第二特定串流之一第二相似性值滿足該臨限值的判定,識別待編碼之該第二特定串流。
- 如請求項11之裝置,其中該多個串流當中的至少一個串流包括一獨立串流寫碼格式。
- 如請求項11之裝置,其中該音頻編碼器經組態以基於來自一前端音頻處理器之資訊判定該複數個相似性值。
- 如請求項11之裝置,其中該音頻編碼器進一步經組態以:將一優先級值指派至該多個串流之一部分;及基於經指派至該多個串流之該部分的該優先級值判定一置換序列。
- 一種多串流音頻寫碼設備,其包含:用於接收音頻資料之多個串流的構件,其中N為該所接收多個串流之數目;用於判定對應於該所接收多個串流當中的該複數個串流之複數個相似性值的構件;用於將該複數個相似性值中之每一者與一臨限值進行比較的構件;用於基於該比較識別該所接收多個串流中之該N個當中待編碼之L個串流的構件,其中L小於N;及用於編碼該等經識別之L個串流以產生一經編碼位元串流的構件。
- 如請求項21之設備,其中用於判定該複數個相似性值的該構件包含用於基於一第一特定串流之一第一訊框的一第一信號特性判定該多個串流之該第一特定串流之一第一相似性值的構件。
- 如請求項22之設備,其中用於判定該第一特定串流之該第一相似性值的該構件包含用於將該第一特定串流之該第一訊框的該第一信號特性與該第一特定串流之至少一個先前訊框的一第二信號特性進行比較的構件。
- 如請求項23之設備,其中該第一及該第二信號特性包含一自適應碼簿增益、一靜止位準、一非靜止位準、一發聲因數、一音調變化、一信號能量、語音內容之偵測、一雜訊底限位準、一信雜比、一稀疏性位準及一頻譜傾斜中之至少一者。
- 如請求項22之設備,其中用於判定該第一特定串流之該第一相似性值的該構件包含用於將該第一特定串流之該第一訊框的該第一信號特性與一第二特定串流之一第二訊框的一第二信號特性進行比較的構件,其中該第二特定串流不同於該第一特定串流。
- 如請求項25之設備,其中該第一及該第二信號特性對應於指示一仰角值及一方位角值中之至少一者的空間後設資料。
- 如請求項21之設備,其進一步包含:用於將一優先級值指派至該多個串流之一部分的構件;及用於基於經指派至該多個串流之該部分的該優先級值判定一置換序列的構件。
- 一種非暫時性電腦可讀媒體,其包含在由一音頻編碼器內的一處理器執行時使該處理器執行包含以下各者之操作的指令:接收音頻資料之多個串流,其中N為該所接收多個串流之數目;判定對應於該所接收多個串流當中的複數個串流之複數個相似性值;將該複數個相似性值中之每一者與一臨限值進行比較; 基於該比較識別該所接收多個串流中之該N個當中待編碼之L個串流,其中L小於N;及編碼該等經識別之L個串流以產生一經編碼位元串流。
- 一種多串流音頻寫碼裝置,其經組態以解碼一位元串流,該裝置包含:一接收器,其經組態以自一無線網路接收該位元串流,該位元串流包含L個經編碼音頻串流,其中該L個經編碼音頻串流基於對應於複數個串流之複數個相似性值與一臨限值之一比較而被識別;及一音頻解碼器,其經組態以:判定包含於該經編碼位元串流中之一第一特定串流的一第一相似性值;將該第一特定串流之該第一相似性值與一第一臨限值進行比較;及基於該比較執行錯誤隱蔽以產生對應於該第一特定串流之經解碼音頻樣本。
- 如請求項29之裝置,其中該音頻解碼器經組態以藉由將該第一特定串流之一第一訊框的一第一信號特性與一第二特定串流之一第二訊框的一第二信號特性進行比較來判定該第一特定串流之該第一相似性值,其中該第二特定串流不同於該第一特定串流。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762567663P | 2017-10-03 | 2017-10-03 | |
US62/567,663 | 2017-10-03 | ||
US16/143,150 | 2018-09-26 | ||
US16/143,150 US10854209B2 (en) | 2017-10-03 | 2018-09-26 | Multi-stream audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201923739A TW201923739A (zh) | 2019-06-16 |
TWI779104B true TWI779104B (zh) | 2022-10-01 |
Family
ID=65896161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107134477A TWI779104B (zh) | 2017-10-03 | 2018-09-28 | 多串流音頻寫碼方法、裝置、設備及非暫時性電腦可讀媒體 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10854209B2 (zh) |
EP (1) | EP3692524B1 (zh) |
CN (1) | CN111108556B (zh) |
ES (1) | ES2888627T3 (zh) |
TW (1) | TWI779104B (zh) |
WO (1) | WO2019070506A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112639968A (zh) * | 2018-08-30 | 2021-04-09 | 杜比国际公司 | 用于控制对经低比特率编码的音频的增强的方法和装置 |
KR20210090096A (ko) | 2018-11-13 | 2021-07-19 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호 및 연관된 메타데이터에 의해 공간 오디오를 표현하는 것 |
EP3751567B1 (en) * | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
US11538489B2 (en) | 2019-06-24 | 2022-12-27 | Qualcomm Incorporated | Correlating scene-based audio data for psychoacoustic audio coding |
US20200402522A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
US11361776B2 (en) * | 2019-06-24 | 2022-06-14 | Qualcomm Incorporated | Coding scaled spatial components |
CN114072874A (zh) * | 2019-07-08 | 2022-02-18 | 沃伊斯亚吉公司 | 用于编解码音频流中的元数据和用于对音频流编解码的有效比特率分配的方法和系统 |
TWI703559B (zh) * | 2019-07-08 | 2020-09-01 | 瑞昱半導體股份有限公司 | 音效編碼解碼電路及音頻資料的處理方法 |
AU2020320270A1 (en) * | 2019-08-01 | 2022-03-24 | Dolby Laboratories Licensing Corporation | Encoding and decoding IVAS bitstreams |
AU2020372899A1 (en) * | 2019-10-30 | 2022-04-21 | Dolby Laboratories Licensing Corporation | Bitrate distribution in immersive voice and audio services |
US11269589B2 (en) | 2019-12-23 | 2022-03-08 | Dolby Laboratories Licensing Corporation | Inter-channel audio feature measurement and usages |
GB202002900D0 (en) * | 2020-02-28 | 2020-04-15 | Nokia Technologies Oy | Audio repersentation and associated rendering |
CN113593585A (zh) * | 2020-04-30 | 2021-11-02 | 华为技术有限公司 | 音频信号的比特分配方法和装置 |
CN113539286A (zh) * | 2020-06-09 | 2021-10-22 | 深圳声临奇境人工智能有限公司 | 音频装置、音频系统和音频处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110038423A1 (en) * | 2009-08-12 | 2011-02-17 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information |
TWI397902B (zh) * | 2004-03-01 | 2013-06-01 | Dolby Lab Licensing Corp | 用以將n輸入音訊聲道編碼成m個經編碼的音訊聲道及用以解碼代表n個音訊聲道之m個經編碼音訊聲道的方法及用以解碼之裝置 |
TWI498881B (zh) * | 2009-12-07 | 2015-09-01 | Dolby Lab Licensing Corp | 使用適應性混成轉換之多聲道音訊編碼位元串流的改良解碼技術 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7318027B2 (en) | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
WO2009129822A1 (en) * | 2008-04-22 | 2009-10-29 | Nokia Corporation | Efficient encoding and decoding for multi-channel signals |
US9064499B2 (en) | 2009-02-13 | 2015-06-23 | Nec Corporation | Method for processing multichannel acoustic signal, system therefor, and program |
KR101842411B1 (ko) | 2009-08-14 | 2018-03-26 | 디티에스 엘엘씨 | 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템 |
US9881628B2 (en) * | 2016-01-05 | 2018-01-30 | Qualcomm Incorporated | Mixed domain coding of audio |
US9978381B2 (en) * | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
-
2018
- 2018-09-26 US US16/143,150 patent/US10854209B2/en active Active
- 2018-09-27 ES ES18788956T patent/ES2888627T3/es active Active
- 2018-09-27 WO PCT/US2018/053185 patent/WO2019070506A1/en unknown
- 2018-09-27 EP EP18788956.3A patent/EP3692524B1/en active Active
- 2018-09-27 CN CN201880061621.7A patent/CN111108556B/zh active Active
- 2018-09-28 TW TW107134477A patent/TWI779104B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI397902B (zh) * | 2004-03-01 | 2013-06-01 | Dolby Lab Licensing Corp | 用以將n輸入音訊聲道編碼成m個經編碼的音訊聲道及用以解碼代表n個音訊聲道之m個經編碼音訊聲道的方法及用以解碼之裝置 |
US20110038423A1 (en) * | 2009-08-12 | 2011-02-17 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information |
TWI498881B (zh) * | 2009-12-07 | 2015-09-01 | Dolby Lab Licensing Corp | 使用適應性混成轉換之多聲道音訊編碼位元串流的改良解碼技術 |
Also Published As
Publication number | Publication date |
---|---|
TW201923739A (zh) | 2019-06-16 |
ES2888627T3 (es) | 2022-01-05 |
CN111108556A (zh) | 2020-05-05 |
EP3692524A1 (en) | 2020-08-12 |
WO2019070506A1 (en) | 2019-04-11 |
US20190103118A1 (en) | 2019-04-04 |
US10854209B2 (en) | 2020-12-01 |
CN111108556B (zh) | 2023-11-21 |
EP3692524B1 (en) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI779104B (zh) | 多串流音頻寫碼方法、裝置、設備及非暫時性電腦可讀媒體 | |
TWI753182B (zh) | 多串流音頻寫碼的方法、裝置與設備 | |
US11127406B2 (en) | Encoding and decoding of interchannel phase differences between audio signals | |
US11823689B2 (en) | Stereo parameters for stereo decoding | |
TWI781140B (zh) | 用於編碼音訊通道之目標樣本產生之裝置、方法、包含指令之非暫時性電腦可讀媒體及設備 | |
TW201719634A (zh) | 多重音訊信號之編碼 | |
TW201905901A (zh) | 具有時域頻道間頻寬延展之高頻帶殘值預測 | |
TW201832572A (zh) | 通道間相位差參數之修改 | |
US20240161757A1 (en) | Stereo parameters for stereo decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |