TWI575510B - 用於增強對話之解碼方法、電腦程式產品及解碼器 - Google Patents

用於增強對話之解碼方法、電腦程式產品及解碼器 Download PDF

Info

Publication number
TWI575510B
TWI575510B TW104132168A TW104132168A TWI575510B TW I575510 B TWI575510 B TW I575510B TW 104132168 A TW104132168 A TW 104132168A TW 104132168 A TW104132168 A TW 104132168A TW I575510 B TWI575510 B TW I575510B
Authority
TW
Taiwan
Prior art keywords
parameters
subset
dialog
enhanced
channels
Prior art date
Application number
TW104132168A
Other languages
English (en)
Other versions
TW201627983A (zh
Inventor
傑倫 科本斯
皮爾 伊斯坦德
Original Assignee
杜比國際公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杜比國際公司 filed Critical 杜比國際公司
Publication of TW201627983A publication Critical patent/TW201627983A/zh
Application granted granted Critical
Publication of TWI575510B publication Critical patent/TWI575510B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Description

用於增強對話之解碼方法、電腦程式產品及解碼器
本文揭示之本發明通常相關於音訊編碼。其特別相關於用於在頻道為基的音訊系統中增強對話的方法及裝置。
增強對話有關於增加與其他音訊內容相關的對話。例如,可施用此以允許聽力受損人士聽得懂電影中的對話。針對頻道為基的音訊內容,對話典型地存在於數位頻道中並也與其他音訊內容混頻。因此增強對話並不係微不足道的工作。
有數種用於在解碼器中實施增強對話的已知方法。根據部分此等方法,首先解碼完整的頻道內容,亦即,完整的頻道組態,然後使用已接收增強對話參數在該完整頻道內容的基礎上預測對話。然後使用所預測的對話增加相關頻道中的對話。然而,此種解碼方法依賴能解碼完整頻道組態的解碼器。
然而,低複雜度解碼器典型地未設計成解碼完整頻道 組態。取而代之地,低複雜度解碼器可解碼及輸出其代表完整頻道組態的降混版本之較少數量的頻道。因此,完整頻道組態在低複雜度解碼器中不可用。當增強對話參數相關於完整頻道組態的頻道(或至少相關於完整頻道組態的部分頻道)界定時,已知增強對話方法不能由低複雜度解碼器直接施用。特別在因為施用相關於其之增強對話參數的頻道仍可與其他頻道混頻的情形中。
因此有允許低複雜度解碼器施用對話增加而不必解碼完整頻道組態的改善空間。
100a‧‧‧第一5.1降混組態
100b‧‧‧第二5.1降混組態
200、500、600、700‧‧‧解碼器
202、502、602、702‧‧‧接收組件
204‧‧‧昇混組件
206‧‧‧增強對話(DE)組件
210、510、610、710、810‧‧‧資料串流
212、512、612、712、812‧‧‧降混信號
214、514、614、714、814‧‧‧重構參數
216、516、616、716、816‧‧‧用於增強對話的參數
218‧‧‧完整頻道組態
220‧‧‧增強對話頻道
419、813‧‧‧對話信號
503‧‧‧增強對話方塊
504、604、704‧‧‧昇混組件
506、606、706‧‧‧增強對話組件
508、608、708‧‧‧混頻組件
512a、612a、712a‧‧‧子集
520、620、720‧‧‧增強對話版本
522、622、722‧‧‧混頻參數
618a、618b、718a、818‧‧‧頻道
619、719‧‧‧增強對話信號
630、730‧‧‧改組組件
800‧‧‧編碼器
802‧‧‧傳輸組件
804‧‧‧參數編碼組件
805‧‧‧降混組件
806‧‧‧增強對話編碼組件
C、L、R‧‧‧前頻道
CDE、LDE、RDE‧‧‧增強對話頻道
LB、RB‧‧‧後頻道
LFE‧‧‧重低音頻道
LS、RS‧‧‧環繞頻道
TBL、TBR、TFL、TFR‧‧‧高音頻道
c、l、lfe、ls、r、rs、tl、tr‧‧‧降混信號
g‧‧‧增益因子
p1、p2、p3‧‧‧參數
p4、p5‧‧‧係數
r1、r2、r3‧‧‧呈現係數
t11、t12、t13、t21、t22、t23‧‧‧時間點
在下文中,範例實施例將更詳細地並參考隨附圖式描述,在圖式中:圖1a係根據第一降混方案降混至5.1降混之7.1+4頻道組態的示意圖示。
圖1b係根據第二降混方案降混至5.1降混之7.1+4頻道組態的示意圖示。
圖2係用於在完整解碼頻道組態上實施增強對話之先前技術解碼器的示意圖示。
圖3係根據第一模式之增強對話的示意圖示。
圖4係根據第二模式之增強對話的示意圖示。
圖5係根據範例實施例之解碼器的示意圖示。
圖6係根據範例實施例之解碼器的示意圖示。
圖7係根據範例實施例之解碼器的示意圖示。
圖8係對應於圖2、圖5、圖6、及圖7中之解碼器的任一者之編碼器的示意圖示。
圖9描繪在控制次操作各者之參數的基礎上用於計算由二個次操作A及B組合之聯合處理操作BA的方法。
所有圖式均係示意地且通常僅顯示說明本發明所需要的此種元件,然而其他元件可省略或僅係提示的。
【發明內容及實施方式】
有鑑於上文,目的係提供允許應用增強對話而不必解碼完整頻道組態的解碼器及關聯方法。
I. 概論
根據第一樣態,範例實施例提供用於在音訊系統的解碼器中增強對話的方法。該方法包含以下步驟:接收複數個降混信號,其係複數個更多頻道的降混;接收用於增強對話的參數,其中該等參數相關於該複數個頻道的子集界定,該子集包括包含對話的頻道,其中該複數個頻道的該子集降混為該複數個降混信號的子集;接收重構參數,其允許降混為該複數個降混信號的該子集之頻道的參數重構;基於該等重構參數參數地昇混該複數個降混信號的該子集以重構用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集;使用用於增強對話的該等參數將增強對話施加至用於 增強對話的該等參數係相關於其界定之該複數個頻道的該子集以提供至少一個增強對話信號;及使該至少一個增強對話信號受混頻以提供該複數個降混信號之該子集的增強對話版本。
使用此配置,解碼器不必重構完整頻道組態以實施增強對話,從而減少複雜度。取而代之的,解碼器重構應用增強對話所需要的該等頻道。此特別包括用於增強對話之已接收參數相關於其界定之複數個頻道的子集。一旦增強對話已實行,亦即,當已在用於增強對話之該等參數及此等參數相關於其界定的複數個頻道之子集的基礎上決定至少一個增強對話信號時,該已接收降混信號的增強對話版本係藉由使增強對話信號(等)受混頻程序而決定。結果,該等降混信號的增強對話版本係針對藉由音訊系統的後續播放產生。
在範例實施例中,昇混操作可係完全的(重構已編碼頻道的全集)或部分的(重構該等頻道的子集)。
如本文所使用的,降混信號係指其係一或多個信號/頻道之組合的信號。
如本文所使用的,參數地昇混係指藉由參數技術從降混信號重構一或多個信號/頻道。強調本文揭示的範例實施例並未受限於頻道為基的內容(在與空間中的不可變或預界定方向、角度、及/或位置關聯之音訊信號的情況中),而也擴展至物件為基的內容。
根據範例實施例,在參數地昇混該複數個降混信號之 該子集的該步驟中,不使用解關聯信號以重構用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集。
此在改善降混信號之所產生的增強對話版本之品質(亦即,輸出的品質)的同時減少計算複雜度上有係利的。更詳細地說,藉由在昇混時使用解關聯信號而增加的優點為增強對話信號所經受的後續混頻所減少。因此,解關聯信號的使用可有利地省略,從而節省計算複雜度。事實上,解關聯信號在昇混中的使用能與增強對話結合而導致較差品質,因為其能在增強對話中導致解關聯器混響。
根據範例實施例,該混頻係根據混頻參數產生,該等混頻參數描述該至少一個增強對話信號對該複數個降混信號的該子集之該等增強對話版本的作用。因此可有描述如何混頻該至少一個增強對話信號的一些混頻參數,以提供複數個降混信號之子集的增強對話版本。例如,混頻參數可採用權重形式,其描述應將多少的該至少一個增強對話信號混頻入複數個降混信號之子集中的各降混信號中以得到該複數個降混信號之子集的增強對話版本。此種權重可,例如,採用渲染參數的形式,其指示相關於與該複數個頻道關聯的空間位置之與該至少一個增強對話信號關聯的空間位置,且因此指示降混信號的對應子集。根據其他範例,混頻參數可指示該至少一個增強對話信號是否應作用於,諸如,包括在,降混信號的子集之增強對話版本的特殊一者。例如,「1」可指示當形成降混信號之增強對話版本的特殊一者時,應包括增強對話信號,且「0」可 指示不應包括其。
在使該至少一個增強對話信號受混頻以提供複數個降混信號之子集的增強對話版本的步驟中,增強對話信號可與其他信號/頻道混頻。
根據範例實施例,該至少一個增強對話信號與在昇混步驟中重構的頻道混頻,但該頻道並未受增強對話。更詳細地說,參數地昇混複數個降混信號之子集的步驟可包含除了重構用於增強對話之該等參數係相關於其界定的該複數個頻道外,重構至少另一個頻道,且其中該混頻包含混頻該至少另一個頻道與該至少一個增強對話信號。例如,降混為複數個降混信號之子集的所有頻道可重構並包括在該混頻中。在此種實施例中,典型地有直接對應在各增強對話信號及頻道之間。
根據其他範例實施例,該至少一個增強對話信號與複數個降混信號的子集混頻。更詳細的說,參數地昇混該複數個降混信號之該子集的該步驟可包含僅重構用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集,且施加增強對話的該步驟可包含使用用於增強對話之該等參數從用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集預測及增強對話成分,以提供該至少一個增強對話信號,且該混頻可包含混頻該至少一個增強對話信號與該複數個降混信號的該子集。因此使用此種實施例預測及增加該增強對話並將其混頻至該複數個降混信號的子集中。
通常待注意頻道可包含與非對話內容混頻的對話內容。另外,對應於一對話的對話內容可混頻至數個頻道中。藉由從用於增強對話的該等參數係相關於其界定之該複數個頻道的子集預測對話成分通常意指對話內容從該等頻道擷取,亦即,分離,及結合以重構該對話。
增強對話的品質可藉由接收及使用代表對話的音訊信號而更改善。例如,代表對話的音訊信號可用當聆聽時分別導致良好可聽假象的低位元率編碼。然而,當與參數增強對話,亦即,使用用於增強對話的參數施加增強對話至用於增強對話之該等參數係相關於其界定的該複數個頻道之子集的該步驟,共同使用時,所產生的增強對話可,例如,依音訊品質改善。更明確地說,該方法可更包含:接收代表對話的音訊信號,其中施加增強對話的該步驟包含更使用代表對話的該音訊信號施加增強對話至用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集。
在部分實施例中,該等混頻參數在該解碼器中可已可用,例如,彼等可係硬編碼的。此特別會係若至少一個增強對話信號始終以相同方式混頻,亦即,若其始終與相同的重構頻道混頻的情形。在其他實施例中,該方法包含接收用於使該至少一個增強對話信號受混頻之該步驟的混頻參數。例如,混頻參數可形成部分的該等增強對話信號。
根據範例實施例,該方法包含接收描述降混方案的混頻參數,該降混方案描述將該複數個頻道各者混頻入何降混信號中。例如,若各增強對話信號對應於一頻道,其依 次與其他重構頻道混頻,該混頻依據該降混方案實行使得各頻道混頻至正確降混信號中。
該降混方案可隨時間變化,亦即,其可係動態的,因此增加該系統的彈性。
該方法可更包含接收指示用於增強對話之該等參數係相關於其界定的該複數個頻道之該子集的資料。例如,識別用於增強對話之該等參數係相關於其界定的該複數個頻道之該子集的該資料可包括在用於增強對話的該等參數中。以此方式,可將其發訊至該增強對話應對何等頻道實行相關的該解碼器。或者,此種資訊可在解碼器中可用,例如,係硬編碼的,意謂著用於增強對話的參數始終相關於相同頻道界定。特別係該方法可更包括接收指示該等增強對話信號的何信號待受混頻的資訊。例如,根據此變化的方法可藉由以特殊模式操作的解碼系統實行,其中該等增強對話信號未回混入與先前用於提供增強對話信號完全等同的降混信號組中。以此方式,實際上可將混頻操作限制在該複數個降混信號之子集的不完全選擇(一或多個信號)。將其他增強對話信號加至略微不同的降混信號,諸如,已受格式轉換的降混信號。一旦識別用於增強對話之該等參數係相關於其界定的該複數個頻道之子集的該資料及該降混方案為已知,可能發現將用於增強對話的該等參數係相關於其界定之該複數個頻道的子集降混至其之該複數個降混信號的子集。更詳細地說,識別用於增強對話之該等參數係相關於其界定的該複數個頻道之子集的該資料 連同該降混方案可用於發現將用於增強對話的該等參數係相關於其界定之該複數個頻道的子集降混至其之該複數個降混信號的子集。
昇混該複數個降混信號的該子集、施加增強對話、及混頻的該等步驟可實施為分別藉由該等重構參數、用於增強對話的該等參數、及該等混頻參數界定的矩陣操作。此在該方法可藉由實施矩陣乘法的有效率方式實作上係有利的。
再者,該方法可包含在應用至該複數個降混信號的該子集前,藉由矩陣乘法將對應於昇混該複數個降混信號的該子集、施加增強對話、及混頻之該等步驟的該等矩陣操作結合為單一矩陣操作。因此,不同矩陣操作可組合為單一矩陣操作,因此更改善效率並減少該方法的計算複雜度。
增強對話參數及/或重構參數可係頻率相依的,因此允許該等參數在不同頻帶之間不同。以此方式,增強對話及重構可在不同頻帶最佳化,因此改善輸出音訊的品質。
更詳細地說,用於增強對話的該等參數可相關於第一組頻帶界定,且該等重構參數可相關於第二組頻帶界定,該第二組頻帶與該第一組頻帶不同。當,例如,重構處理需要比增強對話處理更高之頻率解析度的參數時,及/或當,例如,增強對話處理在比重構處理更小的帶寬上實施時,在減少位元串流中用於傳輸用於增強對話參數及重構參數之位元率上可係有利的。
根據範例實施例,用於增強對話之參數的(較佳離散)值可重複地接收並與個別值恰在其施用的第一組時間點關聯。在本揭示發明中,值「恰」在特定時間點施加,或已知,的敘述企圖意指該值,典型地連同其施用之時間點的明顯或隱含指示,已由解碼器接收。相反地,針對特定時間點內插或預測的值在此意義上並未「恰」於該時間點施加,而係解碼器側的估計。「恰」並未暗示該值實現音訊信號的精確重構。預界定的第一內插模式可規定在該組中的連續時間點之間。界定如何在位於參數的值已知之該組中的二邊界時間點之間的時間點估計參數之近似值的內插模式能係,例如,線性或逐段固定內插。若該預測時間點在與該等邊界時間點之一者相距特定距離的位置,線性內插模式係基於該參數在該預測時間點的值線性地相依於該距離,同時逐段固定內插模式確保該參數的值在每個已知值及次一值之間不改變。可有其他可能內插模式,包括,例如,使用一階以上的多項式、樣條、有理函數、高斯處理、三角多項式、小波、或彼等的組合,以估計該參數在指定預測時間點的值。該組時間點可不明顯地傳輸或陳述,取而代之地係從內插模式推斷,例如,線性內插區間的起點或終點,其可隱含地固定為音訊處理演算法的框邊界。重構參數可用相似方式接收:重構參數的該等(較佳離散)值可與第二組時間點關聯,且第二內插模式可在連續時間點之間實施。
該方法可更包括以與該已選擇種類關聯的該組時間點 包括至少一個預測時刻係不存在於與該非選擇種類關聯的該組中之時間點的此種方式選擇參數種類,該種類係用於增強對話之參數或重構參數的其中一者。例如,若重構參數與其關聯的該組時間點包括不存在於用於增強對話的參數與其關聯之該組時間點中的特定時間點,若參數的已選擇種類係重構參數且參數的非選擇種類係用於增強對話的參數,該特定時間點將係預測時刻。以相似方式,在其他情況中,預測時刻可替代地在用於增強對話的參數與其關聯的該組時間點中發現,且已選擇及非選擇種類將交換。較佳地,已選擇參數種類係具有最高密度之具有關聯參數值之時間點的種類;在指定使用情形中,此可減少必要預測操作的總量。
非選擇種類之參數的值可在預測時刻預測。預測可使用合適預測法,諸如,內插或外插,並鑑於用於該等參數種類的預界定內插模式實施。
該方法可包括基於至少該非選擇種類之該等參數的該預測值及該已選擇種類之該等參數的已接收值,計算代表至少在該預測時刻的增強對話之前的該等降混信號之該子集的昇混的聯合處理操作的步驟。除了重構參數及用於增強對話之參數的值外,該計算可基於其他值,諸如,用於混頻的參數,且該聯合處理操作也代表將增強對話信號混頻回降混信號中的步驟。
該方法可包括基於該已選擇種類之參數的至少一(接收或預測)值及非選擇種類之參數的至少一(接收或預 測)值,使得該等值的至少其中一者係接收值,在與該已選擇或該非選擇種類關聯之該組中的相鄰時間點計算該聯合處理操作的步驟。相鄰時間點可比該預測時刻更早或更晚,且相鄰時間點基本上不需要係在距離上最接近的鄰居。
在該方法中,昇混該複數個降混信號之子集並施用增強對話的步驟可藉由已計算聯合處理操作的內插值在預測時刻及相鄰時間點之間實施。計算複雜性的降低可藉由內插該已計算聯合處理操作實現。藉由不分別內插二參數種類,且藉由不形成乘積(亦即,聯合處理操作),在各內插點,依據所察覺的聆聽品質可需要較少的數學加法及乘法操作實現同等有用的結果。
根據另一範例實施例,在該相鄰時間點的該聯合處理操作可基於該已選擇種類之該等參數的已接收值及該非選擇種類之該等參數的預測值計算。相反情況也係可能的,其中在該相鄰時間點的該聯合處理操作可基於該已選擇種類之該等參數的預測值及該非選擇種類之該等參數的已接收值計算。若,例如,在已選擇參數種類與其關聯之該組中的時間點嚴格地位於在非選擇參數種類與其關聯之該組中的時間點之間,相同參數種類之值係在預測時刻的已接收值及在相鄰時間點之預測值的情況可發生。
根據範例實施例,在該相鄰時間點的該聯合處理操作可基於該已選擇參數種類之該等參數的已接收值及該非選擇參數種類之該等參數的已接收值計算。例如,若二種類 之參數的確切值係針對框邊界接收,但也針對已選擇種類對邊界之間的中間時間點接收,此種情況可發生。然後相鄰時間點係與框邊界關聯的時間點,且預測時間點位於框邊界間的中間。
根據另一範例實施例,該方法可更包括在該第一及第二內插模式的基礎上根據預界定選擇規則選擇聯合內插模式,其中該等已計算個別聯合處理操作的該內插係根據該聯合內插模式。該預界定選擇規則可針對第一及第二內插模式相等的情形界定,且其也可針對第一及第二內插模式不同的情形界定。例如,若第一內插模式係線性的(且較佳地,若在參數及增強對話操作的量化性質之間有線性關係)且第二內插模式係逐段固定的,聯合內插模式可選擇為係線性的。
根據範例實施例,其中該非選擇種類之該等參數的該值在該預測時刻的該預測係根據用於該非選擇種類之該等參數的該內插模式產生。此可涉及在與該非選擇種類關聯之該組中與預測時刻相鄰的時間點使用非選擇種類之參數的確切值。
根據範例實施例,將該聯合處理操作計算為單一矩陣操作,然後施用至該複數個降混信號的子集。較佳地,將昇混及施用增強對話的步驟實施為藉由重構參數及用於增強對話之參數界定的矩陣操作。線性內插模式可選擇為聯合內插模式,且已計算之個別聯合處理操作的內插值可藉由線性矩陣內插計算。可將內插限制為在預測時刻及相鄰 時間點之間改變的此種矩陣元素,以降低計算複雜性。
根據範例實施例,已接收降混信號可分段為時間框,且該方法可包括,在穩態操作中,接收恰在各時間框中的時間點施加之該等個別參數種類的至少一值的步驟。如本文所使用的,「穩態」係指不涉及,例如,歌曲之最初及最終部分的存在的操作,及不涉及迫使框次分割之內部暫態的操作。
根據第二樣態,提供一種電腦程式產品,包含具有用於實施第一樣態的方法之指令的電腦可讀媒體。該電腦可讀媒體可係非暫態電腦可讀媒體或裝置。
根據第三樣態,提供用於在音訊系統中增強對話的解碼器,該解碼器包含:接收組件,組態成接收:複數個降混信號,其係複數個更多頻道的降混,用於增強對話的參數,其中該等參數相關於該複數個頻道的子集界定,該子集包括包含對話的頻道,其中該複數個頻道的該子集降混為該複數個降混信號的子集,及重構參數,其允許降混為該複數個降混信號的該子集之頻道的參數重構;昇混組件,組態成基於該等重構參數參數地昇混該複數個降混信號的該子集以重構用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集;及增強對話組件,組態成使用用於增強對話的該等參數將增強對話施加至用於增強對話的該等參數係相關於其界 定之該複數個頻道的該子集以提供至少一個增強對話信號;及混頻組件,組態成使該至少一個增強對話信號受混頻以提供該複數個降混信號之該子集的增強對話版本。
通常,第二及第三樣態可包含與第一樣態相同的特性及優點。
II. 範例實施例
圖1a及圖1b示意地描繪具有三個前頻道L、C、R、二個環繞頻道LS、RS、二個後頻道LB、RB、四個高音頻道TFL、TFR、TBL、TBR、及重低音頻道LFE的7.1+4頻道組態(對應於7.1+4揚聲器組態)。在編碼7.1+4頻道組態的處理中,典型地將頻道降混,亦即,組合為稱為降混信號之數量較少的信號。在降混處理中,頻道可用不同方式組合以形成不同降混組態。圖1a描繪具有降混信號l、c、r、ls、rs、lfe的第一5.1降混組態100a。該圖中的圓指示將何頻道降混入何降混信號中。圖1b描繪具有降混信號l、c、r、tl、tr、lfe的第二5.1降混組態100b。第二5.1降混組態100b與第一5.1降混組態100a的不同在於頻道以不同方式組合。例如,在第一降混組態100a中,將L及TFL頻道降混至l降混信號中,然而在第二降混組態100b中,將L、LS、LB頻道降混至l降混信號中。降混組態在本文中有時稱為描述何頻道降混至何降混信號中的降混方案。降混組態,或降混方案,在可在 音訊編碼系統的時間框之間變化上可係動態的。例如,第一降混方案100a可使用在部分時間框中,然而第二降混方案100b可被使用在其他時間框中。在降混方案動態地變化的情形中,編碼器可將指示當編碼頻道時使用何降混方案的資料傳送至解碼器。
圖2描繪用於增強對話之先前技術的解碼器200。該解碼器包含三個主要組件,接收組件202、昇混或重構組件204、及增強對話(DE)組件206。解碼器200係接收複數個降混信號212、在已接收降混信號212的基礎上重構完整頻道組態218、實施相關於完整頻道組態218或至少其子集的增強對話、及輸出增強對話頻道220之完整組態的該種解碼器。
更詳細地說,接收組件202組態成從編碼器接收資料串流210(有時稱為位元串流)。資料串流210可包含不同種類的資料,且接收組件202可將已接收資料串流210解碼為不同種類的資料。在此情形中,資料串流包含複數個降混信號212、重構參數214、及用於增強對話的參數216。
然後昇混組件204在複數個降混信號212及重構參數214的基礎上重構完整頻道組態。換言之,昇混組件204將降混至降混信號212中的所有頻道218重構。例如,昇混組件204可在重構參數214的基礎上參數地重構完整頻道組態。在該說明範例中,降混信號212對應於圖1a及1b的5.1降混組態之一者的降混信號,且頻道218對應於 圖1a及1b之7.1+4頻道組態的頻道。然而,解碼器200的原理當然會施用至其他頻道組態/降混組態。
然後已重構頻道218,或至少該已重構頻道218的子集藉由增強對話組件206受增強對話。例如,增強對話組件206可在已重構頻道218,或至少該已重構頻道218的子集上實施矩陣操作,以輸出增強對話頻道。此種矩陣操作典型地係由增強對話參數216界定。
例如,增強對話組件206可使頻道C、L、R受增強對話以提供增強對話頻道CDE、LDE、RDE,然而其他頻道如圖2中之虛線所示地只是通過。在此種情況中,增強對話參數只相關於C、L、R頻道,亦即,相關於複數個頻道218的子集界定。例如,增強對話參數216可界定可施用至C、L、R頻道的3×3矩陣。
或者未含括在增強對話中的該等頻道可藉由具有在對應對話位置上之1及在對應列及行中的所有其他元素上之0的增強對話矩陣通過。
增強對話組件206可根據不同模式實行增強對話。在本文中稱為頻道獨立參數增加的第一模式描繪於圖3中。增強對話相關於至少已重構頻道218的子集實行,典型係包含對話的該等頻道,此處係頻道L、R、C。用於增強對話的參數216包含用於待增加之各頻道的參數組。在說明範例中,該等參數組係藉由分別對應於頻道L、R、C的參數p1、p2、p3指定。原則上,以此模式傳輸的參數針對頻道中的時間-頻率區塊代表該對話對混頻能量的相對作用。另外,有增益因子g含括在增強對話處理中。增益因子g可表示如下:
其中G係以dB為單位表示的增強對話增益。增強對話增益G可,例如,由使用者輸入,且因此典型地未包括在圖2的資料串流210中。
當在頻道獨立參數增加模式中時,增強對話組件206將各頻道乘以其對應參數pi及增益因子g,然後將結果加至頻道,以產生增強對話頻道220,此處係LDE、RDE、 CDE。使用矩陣符記,可將此寫為:X e =(I+diag(p).g).X
其中X係具有頻道218(L、R、C)作為列的矩陣、Xe係具有增強對話頻道220作為列的矩陣,p係具有對應於用於各頻道的增強對話參數p1、p2、p3之項的列向量、且diag(p)係具有p項在對角上的對角矩陣。
在本文中稱為多頻道對話預測的第二增強對話模式描繪於圖4中。此模式中,增強對話組件206以線性組合組合多個頻道218以預測對話信號419。除了對話的同調加法存在於多個頻道中外,此方法可從使用沒有對話的另一頻道將包含對話之頻道中的背景雜訊減去而獲利。針對此目的,增強對話參數216包含當形成線性組合時界定對應頻道的係數之用於各頻道218的參數。在該說明範例中,增強對話參數216包含分別對應於L、R、C頻道的參數p1、p2、p3。典型地,最小均方誤差(MMSE)最佳化演算法可用於在編碼器側產生預測參數。
增強對話組件206然後可藉由應用增益因子g增加,亦即,增益,預測對話信號419,並將增強對話信號加至頻道218以產生增強對話頻道220。為在正確空間位置將增強對話信號加至正確信號(否則將不能使用預期增益增強對話),此等三個頻道之間的平移係藉由呈現係數傳輸,此處係r1、r2、r3。在呈現係數係能量保存的限制下,亦即,
第三呈現係數r3可從前二個係數決定,使得
使用矩陣符記,可將當在多頻道對話預測模式中時藉由增強對話組件206實行的增強對話寫為:X e =(I+gHP).X
其中l係單位矩陣、X係具有頻道218(L、R、C)作為列的矩陣、Xe係具有增強對話頻道220作為列的矩陣、P係具有對應於用於各頻道的增強對話參數p1、p2、p3之項的列向量、H係具有呈現係數r1、r2、r3作為項的行向量、且g係具有下者的增益因子
根據本文稱為波形-參數混合的第三模式,增強對話組件206可將第一及第二模式的任一者與代表對話之額外音訊信號(波形信號)的傳輸結合。後者典型地以當聆聽時分別導致良好可聽假象的低位元率編碼。取決於頻道218及對話的信號性質,及指定給對話波形信號編碼的位元率,編碼器也決定指示增益作用應如何在參數作用(來自第一或第二模式)及代表對話的額外音訊信號之間分割的混合參數αc
在與第二模式組合時,第三模式的增強對話可寫為: X e =Hg 1d c +(I+Hg 2P).X
其中dc係代表對話的額外音訊信號,具有
針對與頻道獨立增加(第一模式)的組合,接收用於各頻道218之代表對話的音訊信號dc,i。寫下,可將增強對話寫為:X e =g 1D c +(I+diag(p).g 2).X
圖5根據範例實施例描繪解碼器500。解碼器500係針對後續回播解碼係更多複數個頻道的降混之複數個降混信號的該種解碼器。換言之,解碼器500與圖2之解碼器的不同在於其未組態成重構完整頻道組態。
解碼器500包含接收組件502,及包含昇混組件504、增強對話組件506、及混頻組件508的增強對話方塊503。
如參考圖2所解釋的,接收組件502接收資料串流510,並將其解碼為其成分,在此情形中,複數個降混信號512係更多複數個頻道(比照圖1a及1b)、重構參數514、及用於增強對話之參數516的降混。在部分情形 中,資料串流510更包含指示混頻參數522的資料。例如,混頻參數可形成部分的用於增強對話的參數。在其他情形中,混頻參數522在解碼器500已可用,例如,彼等可硬編碼在解碼器500中。在其他情形中,混頻參數522可用於多組混頻參數,且資料串流510中的資料提供使用該等多組混頻參數之何組的指示。
用於增強對話的參數516典型地相關於複數個頻道的子集界定。識別用於增強對話之參數係相關於其界定的該複數個頻道之子集的資料可包括在已接收資料串流510中,例如,用於增強對話的參數516的一部分。或者,用於增強對話之參數係相關於其界定的該複數個頻道之子集可硬編碼在解碼器500中。例如,參考圖1a,用於增強對話的參數516可相關於降混為l降混信號的頻道L、TFL、包含在c降混信號中的C頻道、及降混至r降混信號中的R、TFR頻道界定。針對說明的目的,假設對話僅存在於L、C、及R頻道中。待注意用於增強對話的參數516可相關於包含對話的頻道界定,諸如,L、C、R頻道,但也可相關於不包含對話的頻道界定,諸如,此範例中的TFL、TFR頻道。以該方式,在包含對話之頻道中的背景雜訊可,例如,使用不具有對話的另一頻道減去。
將用於增強對話之參數516係相關於其界定的該複數個頻道之子集降混至複數個降混信號512的子集512a中。在該說明範例中,降混信號的子集512a包含c、l、及r降混信號。將降混信號的此子集512a輸入至增強對 話方塊503。降混信號的有關子集512a可,例如,在用於增強對話之參數係相關於其界定的該複數個頻道之子集的知識及降混方案的基礎上發現。
昇混組件514使用本技術中已知之用於其降混至降混信號之子集512a中的頻道之重構的參數技術。該重構基於重構參數514。特別係昇混組件504重構用於增強對話的參數516係相關於其界定之複數個頻道的子集。在部分實施例中,昇混組件504僅重構用於增強對話的參數516係相關於其界定之複數個頻道的子集。此種範例實施例將參考圖7描述。在其他實施例中,昇混組件504重構用於增強對話的參數516係相關於其界定的該複數個頻道之子集以外的至少一個頻道。此種範例實施例將參考圖6描述。
重構參數可不僅係時間可變的,也可係頻率相依的。例如,重構參數可針對不同頻帶採用不同值。此通常將改善重構頻道的品質。
如本技術中已為人所知的,參數昇混通常可包括從受昇混的輸入信號形成解關聯信號,並在該等輸入信號及解關聯信號的基礎上參數地重構信號。例如,參閱由Jeroen Breebaart及Christof Faller所著之書籍「空間音訊處理:MPEG環繞及其他應用」,ISBN:978-9-470-03350-0。然而,昇混組件504實施參數昇混而不使用任何此種解關聯信號為佳。藉由使用解關聯信號所增加的優點在此情形中由在混頻組件508中實施的後續降混所減少。因此,可有 利地藉由昇混組件504省略解關聯使用的使用,從而節省計算複雜度。事實上,解關聯信號在昇混中的使用會與增強對話結合而導致較差品質,因為其能在對話中導致解關聯器混響。
然後增強對話組件506施加增強對話至用於增強對話的參數516係相關於其界定之該複數個頻道的子集,以產生至少一個增強對話信號。在部分實施例中,增強對話信號對應於用於增強對話的參數516係相關於其界定的該複數個頻道之子集的增強對話版本。此將參考圖6於下文更詳細地解釋。在其他實施例中,增強對話信號對應於用於增強對話的參數516係相關於其界定的該複數個頻道之子集的預測及增強對話成分。此將參考圖7於下文更詳細地解釋。
相似於重構參數,用於增強對話的參數可在時間以及頻率上變化。更詳細地說,用於增強對話的參數對不同頻帶採用不同值。重構參數相關於其界定的該組頻帶可與增強對話參數相關於於其界定的該組頻帶不同。
然後混頻組件508在至少一個增強對話信號的基礎上實施混頻以提供降混信號之子集512a的增強對話版本520。在說明範例中,降混信號之子集512a的增強對話版本520係藉由分別對應於降混信號c、l、r的cDE、lDE、rDE給定。
混頻可根據描述該至少一個增強對話信號對降混信號之子集512a的增強對話版本520之作用的混頻參數522 產生。在部分實施例中,見圖6,該至少一個增強對話信號與藉由昇混組件504重構的頻道混頻在一起。在此種情形中,混頻參數522可對應於描述各頻道應混頻至增強對話降混信號520之何者中的降混方案,見圖1a及1b。在其他實施例中,見圖7,該至少一個增強對話信號與降混信號的子集512a混合在一起。在此種情形中,混頻參數522可對應於描述該至少一個增強對話信號應如何加權至降混信號之子集512a中的加權因子。
由昇混組件504實施的昇混操作、由增強對話組件506實施的增強對話操作、及由混頻組件508實施的混頻操作典型地係各者可藉由矩陣操作,亦即,藉由矩陣-向量乘積,界定的線性操作。此至少在若省略昇混操作中的解關聯信號時為真。特別係與昇混操作關聯的矩陣(U)係由重構參數514界定/可導自其。在此方面,待注意到解關聯信號仍可能使用在昇混操作中,但解關聯信號的創造則不係用於昇混之矩陣操作的一部分。可將使用解關聯器的昇混操作視為係二階方法。在第一階中,將輸入降混信號饋送至預解關聯器矩陣,並將應用預解關聯器矩陣之後的各輸出信號饋送至解關聯器。在第二階中,將輸入降混信號及來自解關聯器的輸出信號饋送至昇混矩陣中,其中該昇混矩陣之對應於輸入降混信號的係數形成所謂的「乾昇混矩陣」,且對應於來自解關聯器之輸出信號的係數形成所謂的「濕昇混矩陣」。各次矩陣映射至昇混頻道組態。當解關聯器信號未使用時,與昇混操作關聯的矩陣 組態成僅用於輸入信號512a上的操作,且相關於解關聯信號的行(濕昇混矩陣)不包括在該矩陣中。換言之,昇混矩陣在此情形中對應於乾昇混矩陣。然而,如上文提及的,解關聯器信號的使用在此情形中將典型地導致較差品質。
與增強對話操作關聯的矩陣(M)係由用於增強對話的參數516界定/可導自其,且與混頻操作關聯的矩陣(C)係由混頻參數522界定/可導自其。
因為昇混操作、增強對話操作、及混頻操作全部均係線性操作,對應矩陣可藉由矩陣乘法組合為單一矩陣E(則XDE=E.X,其中E=C.M.U)。此處X係降混信號512a的行向量,且XDE係增強對話降混信號520的行向量。因此,完整的增強對話方塊503可對應於施用至降混信號之子集512a的單一矩陣操作,以產生降混信號之子集512a的增強對話版本520。因此,本文描述的方法可用非常有效率的方式實作。
圖6描繪對應於圖5的解碼器500之範例實施例的解碼器600。解碼器600包含接收組件602、昇混組件604、增強對話組件606、及混頻組件608。
相似於圖5的解碼器500,接收組件602接收資料串流610並將其解碼為複數個降混信號612、重構參數614、及用於增強對話的參數616。
昇混組件604接收複數個降混信號612的子集612a(對應於子集512a)。針對子集612a中的各降混信號, 昇混組件604重構降混在降混信號中的所有頻道(Xu=U.X)。此包括用於增強對話之參數係相關於其界定的頻道618a,及不含括在增強對話中的頻道618b。參考圖1b,用於增強對話之參數係相關於其界定的頻道618a可,例如,對應於L、LS、C、R、RS頻道,且不含括在增強對話中的頻道618b可對應於LB、RB頻道。
然後用於增強對話之參數係相關於其界定的頻道618a(X' u)藉由增強對話組件606受增強對話(Xe=M.X' u),同時不含括在增強對話中的頻道618b(X" u)繞過增強對話組件606。
增強對話組件606可施用上述增強對話之第一、第二、及第三模式的任一者。在施用第三模式的情形中,資料串流610可如上文解釋的包含代表對話的音訊信號(亦即,代表對話的編碼波形),其待連同用於增強對話之參數係相關於其界定的該複數個頻道之子集618a施用在增強對話中
結果,增強對話組件606輸出增強對話信號619,其在此情形中對應於用於增強對話之參數係相關於其界定的頻道之子集618a的增強對話版本。例如,增強對話信號619可對應於圖1b之L、LS、C、R、RS頻道的增強對話版本。
然後混頻組件608將增強對話信號619與不含括在增強對話中的頻道618b混頻在一起,以產生降混信號之子集612a的增強對話版本620。混頻組件608 根據目前的降混方案產生混頻,諸如,描繪於圖1b中的降混方案。在此情形中,混頻參數622因此對應於描述各頻道619、618b應混頻入何降混信號620中的降混方案。降混方案可係靜態的且因此為解碼器600所已知,意謂著始終施用相同的降混方案,或降混方案可係動態的,意謂著其可隨框變化,或其可係解碼器中已知之數個方案中的一者。在後一情形中,有關於降混方案的指示包括在資料串流610中。
在圖6中,解碼器裝備有選擇性的改組組件630。改組組件630可用於在不同的降混方案之間轉換,例如,從方案100b轉換至方案100a。須注意改組組件630典型地留下c及lfe信號不變,亦即,其作用如同與此等信號有關的透通組件。改組組件630可基於各種參數接收及操作(未圖示),諸如,重構參數614及用於增強對話的參數616。
圖7描繪對應於圖5的解碼器500之範例實施例的解碼器700。解碼器700包含接收組件702、昇混組件704、增強對話組件706、及混頻組件708。
相似於圖5的解碼器500,接收組件702接收資料串流710並將其解碼為複數個降混信號712、重構參數714、及用於增強對話的參數716。
昇混組件704接收複數個降混信號712的子集712a(對應於子集512a)。與相關於圖6描述的實施例相反,昇混組件704僅重構用於增強對話的參數716係相關 於其界定之該複數個頻道的子集718a(X' u=U'.X)。參考圖1b,用於增強對話之參數係相關於其界定的頻道718a能,例如,對應於C、L、LS、R、RS頻道。
然後增強對話組件706在用於增強對話之參數係相關於其界定的頻道718a上實施增強對話(Xd=Md.X' u)。在此情形中,根據增強對話的第二模式,增強對話組件706藉由形成頻道718a的線性組合在頻道718a的基礎上繼續進行預測對話成分。將當形成線性組合時所使用之藉由圖7中的p1至p5標示的係數包括在用於增強對話的參數716中。然後藉由增益因子g的乘法增加預測對話成分以產生增強對話信號719。增益因子g可表示如下:
其中G係以dB為單位表示的增強對話增益。增強對話增益G可,例如,由使用者輸入,且因此典型地未包括在資料串流710中。須注意在有數個對話成分的情形中,上述預測及增加程序可每個對話成分施用一次。
然後將預測增強對話信號719(亦即,預測及增強對話成分)混頻至降混信號的子集712a中以產生降混信號之子集712a的增強對話版本720。混頻係根據描述增強對話信號719對降混信號之子集的增強對話版本720之作用的混頻參數722產生。混頻參數典型地包括在資料串流710中。在此情形中,混頻參數722對應於描述該至少一個增強對話信號719應如何加權至降混信號之子集712a中的加權因子r1、r2、r3
更詳細地說,加權因子可對應於描述相關於降混信號之子集712a的至少一個增強對話信號719之平移的呈現係數,使得增強對話信號719在正確的空間位置加至降混信號712a。
資料串流710中的呈現係數(混頻參數722)可對應於昇混頻道718a。在說明範例中,譬如,有五個昇混頻道718a且因此可有五個對應呈現係數rc1、rc2、...、rc5。然後r1、r2、r3(其對應於降混信號712a)的值可結合降混方案從rc1、rc2、...、rc5計算。當多個頻道718a對應於相同的降混信號712a時,對話呈現係數可加總。例如,在說明範例中,認為r1=rc1、r2=rc2+rc3、及r3=rc4+rc5。頻道的降混係使用降混係數產生的情形中,此也可係加權總和。
待注意在此情形中,增強對話組件706也可使用代表對話之額外接收的音訊信號。在此種情形中,預測增強對話信號719在輸入至混頻組件708之前,可與代表對話的音訊信號共同加權(Xd=(1-αc).Md.X' uc.g.Dc)。適當加權係藉由包括在用於增強對話的參數716中的混合參數αc給定。混合參數αc指示增益作用應如何在預測對話組件719(如上文所述)及表示對話Dc的額外音訊信號之間分割。當與第二對話增加模式組合時,此類似於相關 於第三增強對話模式所描述的內容。
在圖7中,解碼器裝備有選擇性的改組組件730。改組組件730可用於在不同的降混方案之間轉換,例如,從方案100b轉換至方案100a。須注意改組組件730典型地留下c及lfe信號不變,亦即,其作用如同與此等信號有關的透通組件。改組組件730可基於各種參數接收及操作(未圖示),諸如,重構參數714及用於增強對話的參數716。
上文已主要相關於7.1+4頻道組態及5.1降混解釋。然而,待理解本文描述之解碼器及解碼方法的原理良好地相等地施用至其他頻道及降混組態。
圖8係可用於編碼其一部分包括對話的複數個頻道818之編碼器800的圖式,以產生用於傳輸至解碼器的資料串流810。編碼器800可與解碼器200、500、600、700的任一者使用。編碼器800包含降混組件805、增強對話編碼組件806、參數編碼組件804、及傳輸組件802。
編碼器800接收複數個頻道818,例如,描畫於圖1a及1b中的頻道組態100a、100b的頻道。
降混組件805降混複數個頻道818至其之後針對包括在資料串流810中而饋送至傳輸組件802的複數個降混信號812中。複數個頻道818可,例如,根據,諸如,描繪於圖1a中或圖1b中的降混方案降混。
將複數個頻道818及降混信號812輸入至參數編碼組件804。在其輸入信號的基礎上,參數編碼組件804計算 其致能從降混信號812重構頻道818的重構參數814。重構參數814可,例如,使用本技術中已知的最小均方誤差(MMSE)最佳化演算法計算。然後針對包括在資料串流810中將重構參數814饋送至傳輸組件802。
增強對話編碼組件806在複數個頻道818之一或多者及一或多個對話信號813的基礎上計算用於增強對話的參數816。對話信號813代表純粹的對話。顯然地,對話已混頻至頻道818的一或多者中。在頻道818中,因此可有對應於對話信號813的一或多個對話成分。典型地,增強對話編碼組件806使用最小均方誤差(MMSE)最佳化演算法計算用於增強對話的參數816。此種演算法可提供其致能從部分複數個頻道818預測對話信號813的參數。用於增強對話的參數816可因此相關於複數個頻道818的子集界定,亦即,可自其預測對話信號813的參數。針對包括在資料串流810中將用於增強對話的參數816饋送至傳輸組件802。
總之,資料串流810因此至少包含複數個降混信號812、重構參數814、及用於增強對話的參數816。
在解碼器的正常操作期間,不同種類之參數(諸如,用於增強對話的參數,或重構參數)的值以特定速率重覆地由解碼器接收。若不同參數值的接收速率低於必須計算之來自解碼器之輸出的速率,參數的值可需要內插。若通用參數p在時間上之點t1及t2的值分別已知為p(t1)及p(t2),參數在中間時間t1 t<t2的值p(t)可使用不同內插方 案計算。本文中稱為線性內插模式之此種方案的一個範例可使用線性內插計算該中間值,例如,p(t)=p(t1)+[p(t2)-p(t1)](t-t1)/(t2-t1)。在本文中稱為逐段固定內插模式的另一模式可替代地包括在整體時間區間期間將參數值固定在已知值的一者,例如,p(t)=p(t1)或p(t)=p(t2),或係已知值的組合,諸如,平均值p(t)=[p(t1)+p(t2)]/2。可將與特定時間區間期間待將何內插方案用於特定參數種類有關的資訊建入解碼器中,或以不同方式提供至解碼器,諸如,連同參數自身或包含在已接收信號中的額外資訊。
在說明範例中,解碼器接收用於第一及第二參數種類的參數值。各參數種類的已接收值恰可分別在應用在第一組(T1={t11,t12,t13,...})及第二組(T2={t21,t22,t23,...})時間點,且在值需要在不存在於對應組中之時間點估計的情形中,解碼器也具有對與如何內插各參數種類的值有關之資訊的存取。該等參數值控制信號上之數學操作的量化性質,該等操作可,例如,表示為矩陣。在以下範例中,假設由第一參數種類控制的操作係藉由第一矩陣A表示,由第二參數種類控制的操作係藉由第二矩陣B表示,且術語「操作」及「矩陣」在該範例中可互換地使用。在需要計算來自解碼器之輸出值的時間點,計算對應於二操作之組合的聯合處理操作。若更假設矩陣A係昇混操作(由重構參數控制)且矩陣B係施用增強對話的操作(由用於增強對話的參數控制),則因此藉由矩陣乘積BA表示增強對話之前的昇混的聯合處理操作。
計算聯合處理操作的方法描繪在圖9a-9e中,其中時間沿著水平軸運行,且軸刻度線指示待於其計算聯合處理操作的時間點(輸出時間點)。在圖中,三角形對應於矩陣A(代表昇混操作)、圓形對應於矩陣B(代表施用增強對話的操作)、且方形代表聯合操作矩陣(代表增強對話之前的昇混的聯合操作)。實心三角形及圓形指示個別矩陣在對應時間點確為已知(例如,控制矩陣表示之操作的參數確為已知),同時空心三角形及圓形指示個別矩陣的值係預測或內插的(使用,上文略述的任何內插模式)。實心方形指示聯合操作矩陣BA已在對應時間點計算,例如,藉由矩陣A及B的矩陣乘積,且空心方形指示BA的值已從先前時間點內插。另外,虛線箭號指示內插在何時間點之間實施。最後,連接時間點的水平實線指示假設矩陣的值在該區間係逐段固定的。
不使用本發明計算聯合處理操作BA的方法描繪於圖9a中。用於操作A及B的已接收值分別恰於時間點t11、t21及t12、t22施用,且該方法獨立地內插各矩陣以在各輸出時間點計算聯合處理操作矩陣。為完成時間中的各順向步驟,將表示聯合處理操作的矩陣計算為A及B之預測值的乘積。此處,假設各矩陣待使用線性內插模式內插。若矩陣A具有N'列及N行,且矩陣B具有M列及N'行,時間中的各順向步驟在每個參數帶均會需要O(MN'N)乘法操作(以實施計算聯合操作矩陣BA所需要的矩陣乘法)。因此高密度的輸出時間點,及/或大數 量的參數帶的風險(由於相較於加法操作之相對高計算複雜度的乘法操作)在於對計算資源提出高需求。為降低計算複雜度,可使用描繪於圖9b中的替代方法。藉由僅在參數值改變的時間點(亦即,恰可應用已接收值,在t11、t21及t12、t22)計算聯合處理操作(例如,實施矩陣乘法),聯合處理操作矩陣BA可取代分別內插矩陣A及B而直接內插。藉由如此作,若操作係藉由矩陣表示,則時間中的各順向步驟(在確切參數值改變的時間點之間)在每個參數帶將僅需要O(NM)操作(用於矩陣加法),且所降低的計算複雜度將對計算資源提出較少需求。又,若矩陣A及B使得N'>N×M/(N+M),表示聯合處理操作的矩陣BA將具有比在所組合之獨立矩陣A及B中發現的元素更少的元素。然而,直接內插矩陣BA的方法將需要A及B二者在相同的時間點均為已知。當A對其界定的時間點與B對其界定的時間點(至少部分)不同時,需要經改善的內插法。根據本發明之範例實施例的此種已改善方法描繪於圖9c-9e中。結合圖9a-9e的討論,為了簡明而假設將聯合處理操作矩陣BA計算為獨立矩陣A及B的乘積,彼等各者已在(已接收或預測/內插)參數值的基礎上產生。在其他情況中,直接從參數值計算藉由矩陣BA表示的操作而不經由作為二矩陣因子的表示通過可係同等有利或更有利的。結合參考圖9c-9e描繪的任何技術,此等方法各者落在本發明的範圍內。
在圖9c中,描繪用於對應於矩陣A之參數的該組時 間點T1包括不存在於組T2(用於對應於矩陣B之參數的時間點)中的時間值t12。二矩陣均使用線性內插模式內插,且該方法識別出必須預測矩陣B之值(例如,使用內插)的預測時刻tp=t12。在已發現該值之後,聯合處理操作矩陣BA在tp的值可藉由乘A及B而計算。為了繼續,該方法計算BA在相鄰時間點ta=t11的值,然後將BA內插在ta及tp之間。若有需要,該方法也可計算BA在另一相鄰時間點ta=t13的值,並從tp將BA內插至ta。即使需要額外的矩陣乘法(在tp=t12),該方法允許直接內插聯合處理操作矩陣BA,相較於,例如,圖9a中的方法,仍將計算複雜度降低。如上文所陳述的,聯合處理操作可替代地從(已接收或預測/內插)參數值直接計算,而非計算為依次相依於個別參數值之二矩陣的明顯乘積。
在先前情形中,僅有對應於A的參數種類具有不包括在對應於B之參數種類的時刻之中的時間點。在圖9d中,描繪組T2中缺少時間點t12,及組T1中缺少時間點t22的不同情況。若待於在t12及t22之間的中間時間點t'計算BA的值,該方法可預測B在tp=t12的值及A在ta=t22的值。於二時間計算聯合處理操作矩陣BA之後,可內插BA以發現其在t'的值。通常,該方法僅在參數值改變的時間點(亦即,在組T1及T2中恰可應用已接收值的時間點)實施矩陣乘法。在二者之間,聯合處理操作的內插僅需要具有比彼等的乘法對應型式更低之計算複雜度的矩陣加法。
在上述範例中,所有內插模式已均假設為係線性的。也將當參數最初待使用不同方案內插時用於內插的方法描繪在圖9e。在該圖中,在時間點t12之前將對應於矩陣A之參數的值保持為逐段固定的,其中該等值突然地改變。若參數值係在逐框的基礎上接收,各框可運載指示已接收值恰在其施用之時間點的發訊。在該範例中,對應於B的參數僅具有恰可在t21及t22應用的已接收值,且該方法首先可預測B在緊接於t12之前的時間點tp的值。於tp及ta=t11計算聯合處理操作矩陣BA之後,矩陣BA可在ta及tp之間內插。然後該方法可預測B在新預測時刻tp=t12的值、計算BA在tp及ta=t22的值、並直接在tp及ta之間內插BA。再一次,聯合處理操作BA已跨越該區間內插,且其值已在所有輸出時間點發現。相較於如圖9a所描繪之其中A及B已獨立地內插,並藉由在各輸出時間點乘A及B而計算BA的先前情況,需要數量減少的矩陣乘法且計算複雜度降低。
等效實例、擴充、變化及雜項
在研讀以上描述之後,本揭示發明的其他實施例對熟悉本技術的人士將變得明顯。即使本描述及圖式揭示實施例及範例,本揭示發明並未受限於此等特殊範例。能產生許多修改及變化而不脫離藉由隨附的申請專利範圍界定之本揭示發明的範圍。出現在申請專利範圍中的任何參考符號不被理解為限制彼等的範圍。
另外,從對該等圖式,本揭示、以及隨附之申請專利範圍的研究,已揭示實施例的變化能實踐本揭示發明時為熟悉本發明之人士理解及完成。在申請專利範圍中,單字「包含」並不排除其他成份或步驟,且不定冠詞「一」並未排除複數。事實係敘述在相互不同之相關申請專利範圍中的特定措施並未指示不能利用此等措施的組合。上文揭示的系統及方法可實作為軟體、韌體、硬體、或彼等的組合。在硬體實作中,工作在以上描述中所參考的功能單元之間的分割不必然對應於實體單元的分割;相反地,一個實體組件可具有多種功能,且一種工作可藉由數個合作中的實體組件實行。特定組件及所有組件可實作為藉由數位訊號處理器或微處理器執行的軟體,或實作為硬體或特定應用積體電路。此種軟體可散布在電腦可讀媒體上,其可包含電腦儲存媒體(或非暫態媒體)及通訊媒體(或暫態媒體)。如已為熟悉本技術的人士所熟知的,術語電腦儲存媒體包括以用於資訊之儲存的任何方法或技術實作的非揮發性及揮發性、可移除及不可移除媒體,諸如,電腦可讀指令、資料結構、程式模組、或其他資料。電腦儲存媒體包括,但未受限於,RAM、ROM、EEPROM、快閃記憶體、或其他記憶體技術、CD-ROM、數位多樣化光碟(DVD)、或其他光碟儲存器、磁匣、磁帶、磁碟儲存器、或其他磁儲存裝置,或能用於儲存期望資訊且其能由電腦存取的任何其他媒體。另外,已為熟悉本技術的人士所熟知的通訊媒體典型地以調變資料信號,諸如,載波、 或其他運輸機制,並包括任何資訊傳遞媒體,具現電腦可讀指令、資料結構、程式模組、或其他資料。
500‧‧‧解碼器
502‧‧‧接收組件
503‧‧‧增強對話方塊
504‧‧‧昇混組件
506‧‧‧增強對話組件
508‧‧‧混頻組件
510‧‧‧資料串流
512‧‧‧降混信號
512a‧‧‧子集
514‧‧‧重構參數
516‧‧‧用於增強對話的參數
520‧‧‧增強對話版本
522‧‧‧混頻參數

Claims (29)

  1. 一種用於在音訊系統之解碼器中增強對話的方法,該方法包含下列步驟:接收複數個降混信號,其係複數個更多頻道的降混;接收用於增強對話的參數,其中該等參數相關於該複數個頻道的子集界定,該子集包括包含對話的頻道,其中該複數個頻道的該子集降混為該複數個降混信號的子集;接收重構參數,其允許降混為該複數個降混信號的該子集之頻道的參數重構;僅基於該等重構參數參數地昇混該複數個降混信號的該子集,以便僅重構包括用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集之複數個頻道子集;使用用於增強對話的該等參數將增強對話施加至用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集以提供至少一個增強對話信號;及藉由將該至少一對話增強信號與至少一其它信號混頻提供該複數個降混信號之該子集的增強對話版本。
  2. 如申請專利範圍第1項的方法,其中,在僅參數地昇混該複數個降混信號之該子集的該步驟中,不使用解關聯信號以便僅重構包括用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集之複數個頻道子集。
  3. 如申請專利範圍第1項的方法,其中該混頻係根據混頻參數產生,該等混頻參數描述該至少一個增強對話信號對該複數個降混信號的該子集之該等增強對話版本的 作用。
  4. 如申請專利範圍第1-3項之任一項的方法,其中僅參數地昇混該複數個降混信號之該子集的該步驟包含除了重構用於增強對話之該等參數係相關於其界定的該複數個頻道外,重構至少另一個頻道,且其中該混頻包含混頻該至少另一個頻道與該至少一個增強對話信號。
  5. 如申請專利範圍第1-3項之任一項的方法,其中僅參數地昇混該複數個降混信號之該子集的該步驟包含僅重構用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集,其中施加增強對話的該步驟包含使用用於增強對話之該等參數從用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集預測及增強對話成分,以提供該至少一個增強對話信號,且其中該混頻包含混頻該至少一個增強對話信號與該複數個降混信號的該子集。
  6. 如申請專利範圍第1-3項之任一項的方法,更包含:接收代表對話的音訊信號,其中施加增強對話的該步驟包含更使用代表對話的該音訊信號施加增強對話至用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集。
  7. 如申請專利範圍第1-3項之任一項的方法,更包含接收用於使該至少一個增強對話信號與至少一其它信號混頻的混頻參數。
  8. 如申請專利範圍第1-3項之任一項的方法,包含接收描述降混方案的混頻參數,該降混方案描述將該複數個頻道各者混頻入何降混信號中。
  9. 如申請專利範圍第8項的方法,其中該降混方案隨時間變化。
  10. 如申請專利範圍第1-3項之任一項的方法,更包含接收指示用於增強對話之該等參數係相關於其界定的該複數個頻道之該子集的資料。
  11. 如申請專利範圍第8項的方法,更包含接收識別用於增強對話之該等參數係相關於其界定的該複數個頻道之該子集的資料,其中使用識別用於增強對話之該等參數係相關於其界定的該複數個頻道之該子集的該資料以及該降混方案以發現將用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集降混至其中之該複數個降混信號的該子集。
  12. 如申請專利範圍第1-3項之任一項的方法,其中將僅昇混該複數個降混信號的該子集、施加增強對話、及混頻的該等步驟實施為分別藉由該等重構參數、用於增強對話的該等參數、及該等混頻參數界定的矩陣操作。
  13. 如申請專利範圍第12項的方法,更包含在應用至該複數個降混信號的該子集前,藉由矩陣乘法將對應於僅昇混該複數個降混信號的該子集、施加增強對話、及混頻之該等步驟的該等矩陣操作結合為單一矩陣操作。
  14. 如申請專利範圍第1-3項之任一項的方法,其中 該等增強對話參數及該等重構參數係頻率相依的。
  15. 如申請專利範圍第14項的方法,其中用於增強對話的該等參數相關於第一組頻帶界定,且該等重構參數相關於第二組頻帶界定,該第二組頻帶與該第一組頻帶不同。
  16. 如申請專利範圍第1-3項之任一項的方法,其中:重複地接收用於增強對話之該等參數的值,並與個別值恰在其施用的第一組時間點(T1={t11,t12,t13,...})關聯,其中預界定第一內插模式(11)係在連續時間點之間實施;且重複地接收該等重構參數的值,並與個別值恰在其施用的第二組時間點(T2={t21,t22,t23,...})關聯,其中預界定第二內插模式(12)係在連續時間點之間實施,該方法更包含:以與該已選擇種類關聯的該組時間點包含至少一個預測時刻係不存在於與該非選擇種類關聯的該組中之時間點(tp)的此種方式選擇係用於增強對話之參數或重構參數之其中一者的參數種類;預測該非選擇種類之該等參數在該預測時刻(tp)的值;基於至少該非選擇種類之該等參數的該預測值及該已選擇種類之該等參數的已接收值,計算代表至少在該預測時刻(tp)的增強對話之前的該等降混信號之該子集的僅 昇混的聯合處理操作;及至少基於至少其中一者係已接收值的該已選擇種類之該等參數的值及該非選擇種類之該等參數的值,在與該已選擇或該非選擇種類關聯之該組中的相鄰時間點(ta)計算該聯合處理操作,其中僅昇混該複數個降混信號之該子集及施加增強對話的該等步驟係藉由該已計算聯合處理操作的內插值在該預測時刻(tp)及該相鄰時間點(ta)之間實施。
  17. 如申請專利範圍第16項的方法,其中參數的該已選擇種類係該等重構參數。
  18. 如申請專利範圍第16項的方法,執行下列步驟的一者:在該相鄰時間點(ta)的該聯合處理操作係基於該已選擇種類之該等參數的已接收值及該非選擇種類之該等參數的預測值計算;在該相鄰時間點(ta)的該聯合處理操作係基於該已選擇種類之該等參數的預測值及該非選擇種類之該等參數的已接收值計算。
  19. 如申請專利範圍第16項的方法,其中在該相鄰時間點(ta)的該聯合處理操作係基於該已選擇種類之該等參數的已接收值及該非選擇種類之該等參數的已接收值計算。
  20. 如申請專利範圍第16項的方法,更包含在該第一及第二內插模式的基礎上根據預界定 選擇規則選擇聯合內插模式(13),其中該等已計算個別聯合處理操作的該內插係根據該聯合內插模式。
  21. 如申請專利範圍第20項的方法,其中該預界定選擇規則係針對該第一及第二內插模式不同的情形而界定。
  22. 如申請專利範圍第21項的方法,其中,回應於該第一內插模式(11)係線性的且該第二內插模式(12)係逐段固定的,將線性內插選擇為該聯合內插模式。
  23. 如申請專利範圍第16項的方法,其中該非選擇種類之該等參數的該值在該預測時刻(tp)的該預測係根據用於該非選擇種類之該等參數的該內插模式產生。
  24. 如申請專利範圍第16項的方法,其中在將該聯合處理操作施用至該複數個降混信號的該子集之前以一單一矩陣操作來計算。
  25. 如申請專利範圍第24項的方法,其中:將線性內插選擇為該聯合內插模式;且該等已計算個別聯合處理操作的該內插值係藉由線性矩陣內插計算。
  26. 如申請專利範圍第16項的方法,其中將該等已接收降混信號分段為時間框,該方法在穩態操作中包含接收恰在各時間框中的時間點施加之該等個別參數種類的至少一值。
  27. 如申請專利範圍第1-3項之任一項的方法,其中該至少一個增強對話信號與至少一其它信號混頻限制為該 複數個降混信號的不完全選擇。
  28. 一種包含具有用於實施申請專利範圍第1-27項之任一項的方法的指令之電腦可讀媒體的電腦程式產品。
  29. 一種用於在音訊系統中增強對話的解碼器,該解碼器包含:接收組件,組態成接收:複數個降混信號,其係複數個更多頻道的降混,用於增強對話的參數,其中該等參數相關於該複數個頻道的子集界定,該子集包括包含對話的頻道,其中該複數個頻道的該子集降混為該複數個降混信號的子集,及重構參數,其允許降混為該複數個降混信號的該子集之頻道的參數重構;昇混組件,組態成基於該等重構參數僅參數地昇混該複數個降混信號的該子集以便僅重構用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集之複數個頻道子集;及增強對話組件,組態成使用用於增強對話的該等參數將增強對話施加至用於增強對話的該等參數係相關於其界定之該複數個頻道的該子集以提供至少一個增強對話信號;及混頻組件,組態成藉由將該至少一對話增強信號與至少一其它信號混頻提供該複數個降混信號之該子集的增強對話版本。
TW104132168A 2014-10-02 2015-09-30 用於增強對話之解碼方法、電腦程式產品及解碼器 TWI575510B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462059015P 2014-10-02 2014-10-02
US201562128331P 2015-03-04 2015-03-04

Publications (2)

Publication Number Publication Date
TW201627983A TW201627983A (zh) 2016-08-01
TWI575510B true TWI575510B (zh) 2017-03-21

Family

ID=54199263

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104132168A TWI575510B (zh) 2014-10-02 2015-09-30 用於增強對話之解碼方法、電腦程式產品及解碼器

Country Status (19)

Country Link
US (1) US10170131B2 (zh)
EP (1) EP3201918B1 (zh)
JP (1) JP6728146B2 (zh)
KR (1) KR102426965B1 (zh)
CN (1) CN106796804B (zh)
AU (1) AU2015326856B2 (zh)
BR (1) BR112017006325B1 (zh)
CA (1) CA2962806C (zh)
DK (1) DK3201918T3 (zh)
ES (1) ES2709327T3 (zh)
IL (1) IL251263B (zh)
MX (1) MX364166B (zh)
MY (1) MY179448A (zh)
PL (1) PL3201918T3 (zh)
RU (1) RU2701055C2 (zh)
SG (1) SG11201702301SA (zh)
TW (1) TWI575510B (zh)
UA (1) UA120372C2 (zh)
WO (1) WO2016050854A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701055C2 (ru) * 2014-10-02 2019-09-24 Долби Интернешнл Аб Способ декодирования и декодер для усиления диалога
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
EP3409029A1 (en) 2016-01-29 2018-12-05 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252850A1 (en) * 2003-04-24 2004-12-16 Lorenzo Turicchia System and method for spectral enhancement employing compression and expansion
US20060271354A1 (en) * 2005-05-31 2006-11-30 Microsoft Corporation Audio codec post-filter
US20110119061A1 (en) * 2009-11-17 2011-05-19 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TW201325269A (zh) * 2011-07-01 2013-06-16 Dolby Lab Licensing Corp 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US8577676B2 (en) * 2008-04-18 2013-11-05 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
US7158933B2 (en) 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
EP2065885B1 (en) * 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
RU2376655C2 (ru) * 2005-04-19 2009-12-20 Коудинг Текнолоджиз Аб Зависящее от энергии квантование для эффективного кодирования пространственных параметров звука
US8073702B2 (en) 2005-06-30 2011-12-06 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8081764B2 (en) * 2005-07-15 2011-12-20 Panasonic Corporation Audio decoder
CN101411214B (zh) 2006-03-28 2011-08-10 艾利森电话股份有限公司 用于多信道环绕声音的解码器的方法和装置
US8116459B2 (en) * 2006-03-28 2012-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Enhanced method for signal shaping in multi-channel audio reconstruction
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
TWI308739B (en) 2006-06-23 2009-04-11 Mstar Semiconductor Inc Audio processing circuit and method
WO2008006108A2 (en) 2006-07-07 2008-01-10 Srs Labs, Inc. Systems and methods for multi-dialog surround audio
KR101061415B1 (ko) 2006-09-14 2011-09-01 엘지전자 주식회사 다이알로그 증폭 기술을 위한 컨트롤러 및 사용자 인터페이스
US7463170B2 (en) 2006-11-30 2008-12-09 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
DE602008001787D1 (de) 2007-02-12 2010-08-26 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
KR101336237B1 (ko) * 2007-03-02 2013-12-03 삼성전자주식회사 멀티 채널 스피커 시스템의 멀티 채널 신호 재생 방법 및장치
JP5133401B2 (ja) 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
BRPI0816557B1 (pt) * 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
WO2010122455A1 (en) 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
KR20140010468A (ko) * 2009-10-05 2014-01-24 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
EP2491556B1 (en) * 2009-10-20 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, corresponding method and computer program
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
EP2727369B1 (en) 2011-07-01 2016-10-05 Dolby Laboratories Licensing Corporation Synchronization and switchover methods and systems for an adaptive audio system
US8615394B1 (en) 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
US9055362B2 (en) 2012-12-19 2015-06-09 Duo Zhang Methods, apparatus and systems for individualizing audio, music and speech adaptively, intelligently and interactively
MY178342A (en) 2013-05-24 2020-10-08 Dolby Int Ab Coding of audio scenes
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
RU2701055C2 (ru) * 2014-10-02 2019-09-24 Долби Интернешнл Аб Способ декодирования и декодер для усиления диалога

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252850A1 (en) * 2003-04-24 2004-12-16 Lorenzo Turicchia System and method for spectral enhancement employing compression and expansion
US20060271354A1 (en) * 2005-05-31 2006-11-30 Microsoft Corporation Audio codec post-filter
US8577676B2 (en) * 2008-04-18 2013-11-05 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US20110119061A1 (en) * 2009-11-17 2011-05-19 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TW201325269A (zh) * 2011-07-01 2013-06-16 Dolby Lab Licensing Corp 用於適應性音頻信號的產生、譯碼與呈現之系統與方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Digital Audio Compression (AC-4) Standard, Technical Specification, 20140401 European Telecommunications Standards Institute (ETSI), 650, route des Lucioles ; F-06921 Sophia-Antipolis ; France, Vol:BROADCAS, V1.1.1. *

Also Published As

Publication number Publication date
KR102426965B1 (ko) 2022-08-01
DK3201918T3 (en) 2019-02-25
IL251263B (en) 2019-07-31
RU2701055C2 (ru) 2019-09-24
RU2017110842A3 (zh) 2019-05-15
MY179448A (en) 2020-11-06
JP6728146B2 (ja) 2020-07-22
WO2016050854A1 (en) 2016-04-07
JP2017534904A (ja) 2017-11-24
AU2015326856B2 (en) 2021-04-08
CA2962806A1 (en) 2016-04-07
MX364166B (es) 2019-04-15
ES2709327T3 (es) 2019-04-16
CA2962806C (en) 2023-03-14
EP3201918B1 (en) 2018-12-12
US10170131B2 (en) 2019-01-01
EP3201918A1 (en) 2017-08-09
TW201627983A (zh) 2016-08-01
RU2017110842A (ru) 2018-10-01
SG11201702301SA (en) 2017-04-27
IL251263A0 (en) 2017-05-29
CN106796804A (zh) 2017-05-31
UA120372C2 (uk) 2019-11-25
CN106796804B (zh) 2020-09-18
KR20170063667A (ko) 2017-06-08
BR112017006325B1 (pt) 2023-12-26
AU2015326856A1 (en) 2017-04-06
US20170309288A1 (en) 2017-10-26
PL3201918T3 (pl) 2019-04-30
MX2017004194A (es) 2017-05-19
BR112017006325A2 (pt) 2018-01-16

Similar Documents

Publication Publication Date Title
KR101657251B1 (ko) 오디오 신호 프레임에서 이벤트들의 슬롯 위치들의 인코딩 및 디코딩
TWI575510B (zh) 用於增強對話之解碼方法、電腦程式產品及解碼器
US8116459B2 (en) Enhanced method for signal shaping in multi-channel audio reconstruction
US8249883B2 (en) Channel extension coding for multi-channel source
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
JP2010525403A (ja) 出力信号の合成装置及び合成方法
US11501785B2 (en) Method and apparatus for adaptive control of decorrelation filters
JP6640849B2 (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
EP3005352B1 (en) Audio object encoding and decoding