TW201633290A - 用以處理編碼音訊信號之裝置及方法 - Google Patents

用以處理編碼音訊信號之裝置及方法 Download PDF

Info

Publication number
TW201633290A
TW201633290A TW105103125A TW105103125A TW201633290A TW 201633290 A TW201633290 A TW 201633290A TW 105103125 A TW105103125 A TW 105103125A TW 105103125 A TW105103125 A TW 105103125A TW 201633290 A TW201633290 A TW 201633290A
Authority
TW
Taiwan
Prior art keywords
group
matrix
downmix
signal
individual
Prior art date
Application number
TW105103125A
Other languages
English (en)
Other versions
TWI603321B (zh
Inventor
愛德瑞恩 摩塔札
喬尼 帕露斯
哈拉德 福契斯
羅伯瑞塔 卡米立瑞
黎恩 泰倫堤夫
薩斯洽 迪斯曲
喬根 希瑞
奧利薇 賀穆斯
Original Assignee
弗勞恩霍夫爾協會
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW201633290A publication Critical patent/TW201633290A/zh
Application granted granted Critical
Publication of TWI603321B publication Critical patent/TWI603321B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

本發明係指一種用以處理一編碼音訊信號之裝置,該編碼音訊信號包含與複數個輸入音訊物件及物件參數(E)相關聯之複數個降混信號。該裝置包含一分群器,其經組態以將該等降混信號分為與一組輸入音訊物件相關聯之降混信號分群。該裝置包含一處理器,其經組態以單獨地對每一組輸入音訊物件之該等物件參數(Ek)執行至少一個處理步驟以提供群結果。此外,存在一合併器,其經組態以合併該群結果或經處理群結果以提供解碼音訊信號。該分群器經組態以將該等降混信號分群,使得每一輸入音訊物件屬於僅一組輸入音訊物件。本發明亦指一種對應方法。

Description

用以處理編碼音訊信號之裝置及方法 發明領域
本發明係指一種用以處理編碼音訊信號之裝置及方法。
發明背景
近來,用於含有多個音訊物件之音訊場景之有效位速率傳輸/儲存之參數技術已在音訊寫碼之領域中提出(參見以下參考[BCC、JSC、SAOC、SAOC1、SAOC2])及告知源分離(參見例如以下參考[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6])。
此等技術旨在基於描述所傳輸/所儲存之音訊信號及/或音訊中之源物件的額外旁側資訊建構所要輸出音訊場景或音訊源。此建構發生於使用參數告知源分離方案之解碼器中。
不利的是,已發現在一些情況下,參數分離方案可產生導致不令人滿意的聽覺體驗之聲訊假影。
因此,本發明之目標為使用參數寫碼技術改良解 碼音訊信號之音訊質量。
發明概要
該目標藉由如請求項1之裝置及藉由如請求項22之對應方法達成。
該目標藉由一種用以處理編碼音訊信號之裝置達成。該編碼音訊信號包含與複數個輸入物件及目標參數(E)相關聯之複數個降混信號。該裝置包含分群器、處理器及合併器。
該分群器經組態以將複數個降混信號分為複數個降混信號群。每一降混信號群與複數個輸入音訊物件中之一組輸入音訊物件(或輸入音訊信號)相關聯。換言之:該等群涵蓋由編碼音訊信號表示之該組輸入音訊信號之子集。每一降混信號群亦與描述輸入音訊物件之目標參數E中之一些相關聯。在下文中,個別群Gk藉由下標k(其中1kK)識別,其中K為降混信號群之數目。
此外,處理器(在分群之後)經組態以單獨地對每一組輸入音訊物件之目標參數執行至少一個處理步驟。因此,不同時對全部目標參數但單獨地對屬於各別降混信號群之目標參數執行至少一個處理步驟。在一個實施例中,單獨地執行僅一個步驟。在一不同實施例中執行一個以上步驟,然而在一替代性實施例中,單獨地對關於降混信號之群執行全部處理。處理器提供個別群之群結果。
在一不同實施例中,處理器(在分群之後)經組態 以單獨地對複數個降混信號群中之每一群執行至少一個處理步驟。因此,不同時對全部降混信號但單獨地對各別降混信號群執行至少一個處理步驟。
最終,合併器經組態以合併群結果或經處理群結果以提供解碼音訊信號。因此,群結果或對群結果執行之進一步處理步驟的結果經合併以提供解碼音訊信號。解碼音訊信號對應於由編碼音訊信號編碼之複數個輸入音訊物件。
藉由分群器完成之分群至少在複數個輸入音訊物件中之每一輸入音訊物件屬於僅或恰好一組輸入音訊物件的約束之情況下完成。此暗示每一輸入音訊物件屬於僅一個降混信號群。此亦暗示每一降混信號屬於僅一個降混信號群。
根據一實施例,分群器經組態以將複數個降混信號分為複數個降混信號群,使得每一組輸入音訊物件中之每一輸入音訊物件與其它輸入音訊物件沒有用編碼音訊信號表示的關係或僅與屬於同一組輸入音訊物件之至少一個輸入音訊物件有用編碼音訊信號表示之關係。此暗示輸入音訊物件與屬於不同降混信號群之輸入音訊物件沒有用信號表示之關係。此類用信號表示之關係位於兩個輸入音訊物件為源自一個單一源的立體聲信號之一個實施例中。
本發明之裝置處理程包含降混信號之編碼音訊信號。降混為編碼給定數目之個別音訊信號之過程的一部分且暗示特定數目之輸入音訊物件經合併於降混信號中。 輸入音訊物件之數目因此減少至降混信號之較少數目。此係由於此為與複數個輸入音訊物件相關聯之降混信號。
降混信號經分為降混信號群且單獨地經受(亦即,作為單一群)至少一個處理步驟。因此,裝置不共同地對全部降混信號但單獨地對個別降混信號群執行至少一個處理步驟。在一不同實施例中,物件參數群經分別處理以獲得待應用至編碼音訊信號之矩陣。
在一個實施例中,裝置為編碼音訊信號之解碼器。在一替代性實施例中,裝置為解碼器的一部分。
在一個實施例中,每一降混信號歸於一個降混信號群且(因此)關於至少一個處理步驟經單獨地處理。在此實施例中,降混信號群之數目等於降混信號之數目。此暗示分群與個別處理一致。
在一個實施例中,合併為編碼音訊信號之處理之最終步驟中之一者。在一不同實施例中,群結果進一步經受不同處理步驟,該等處理步驟單獨地或共同地對群結果執行。
分群(或該等群之偵測)及該等群之個別處理已展示出產生音訊質量改良。此尤其適用於(例如)參數寫碼技術。
根據一實施例,裝置之分群器經組態以將複數個降混信號分為複數個降混信號群,同時將每一降混信號群內之降混信號之數目減至最小。在此實施例中,裝置嘗試減小屬於每一群之降混信號之數目。在一種情況下,僅一 個降混信號屬於至少一個降混信號群。
根據一實施例,分群器經組態以將複數個降混信號分為複數個降混信號群,使得僅一個單一降混信號屬於一個降混信號群。換言之:分群產生各種降混信號群,其中至少一個降混信號群經提供至僅一個降混信號屬於之群。因此,至少一個降混信號群係指僅一個單一降混信號。在另一實施例中,經僅一個降混信號屬於之降混信號群之數目增至最大。
在一個實施例中,裝置之分群器經組態以基於編碼音訊信號內之資訊將複數個降混信號分為複數個降混信號群。在另一實施例中,裝置使用僅編碼音訊信號內之資訊以將降混信號分群。使用編碼音訊信號之位元流內之資訊包含(在一個實施例中)考慮相關或共變數資訊。特別言之,分群器自編碼音訊信號提取關於不同輸入音訊物件之間的關係之資訊。
在一個實施例中,分群器經組態以基於編碼音訊信號內之bsRelatedTo值將複數個降混信號分為複數個降混信號群。關於此等值係指(例如)WO 2011/039195 A1。
根據一實施例,分群器經組態以藉由應用至少以下步驟而將複數個降混信號分為複數個降混信號群(針對每一降混信號群):˙偵測降混信號是否經指派至現有降混信號群;˙偵測複數個輸入音訊物件中之與降混信號相關聯之至少一個輸入音訊物件是否為與現有降混信號群相關聯之 一組輸入音訊物件之部分;˙將降混信號指派至新降混信號群,倘若降混信號不受至現有降混信號群之指派(因此,降混信號尚未經指派至群),且倘若複數個輸入音訊物件中之與降混信號相關聯之全部輸入音訊物件脫離與現有降混信號群之關聯(因此,降混信號之輸入音訊物件尚未經由不同降混信號經指派至群);以及˙將降混信號與現有降混信號群合併,倘若降混信號經指派至現有降混信號群或倘若複數個輸入音訊物件中之與降混信號相關聯之至少一個輸入音訊物件與現有降混信號群相關聯。
若亦考慮用編碼音訊信號表示之關係,則將新增另一偵測步驟,從而產生用於指派及合併降混信號之新增需求。
根據一實施例,處理器經組態以單獨地對每一組輸入音訊物件之物件參數(E k)(或每一降混信號群)執行各種處理步驟以提供個別矩陣作為群結果。合併器經組態以合併個別矩陣以提供解碼音訊信號。物件參數(E k)屬於具有下標k之各別降混信號群之輸入音訊物件,且經處理從而獲得具有下標k之此群之個別矩陣。
根據一不同實施例,處理器經組態以單獨地對複數個降混信號群中之每一群執行各種處理步驟,以提供輸出音訊信號作為群結果。合併器經組態以合併輸出音訊信號以提供解碼音訊信號。
在此實施例中,降混信號群經如此處理,獲得對應於屬於各別降混信號群之輸入音訊物件之輸出音訊信號。因此,合併輸出音訊信號與解碼音訊信號接近於對編碼音訊信號執行之解碼處理程序之最終步驟。因此,在此實施例中,在偵測到降混信號群之後,每一降混信號群單獨地經受全部處理步驟。
在一不同實施例中,處理器經組態以單獨地對複數個降混信號群中之每一群執行至少一個處理步驟,以提供經處理信號作為群結果。裝置進一步包含後處理器,其經組態以共同地處理經處理信號以提供輸出音訊信號。合併器經組態以合併輸出音訊信號作為經處理群結果以提供解碼音訊信號。
在此實施例中,降混信號群單獨地經受至少一個處理步驟且與其它群共同地經受至少一個處理步驟。個別處理產生在一實施例中經共同地處理之經處理信號。
在一個實施例中,參考矩陣,處理器經組態以單獨地對每一組輸入音訊物件之物件參數(E k)執行至少一個處理步驟以提供個別矩陣。由裝置包含之後處理器經組態以共同地處理物件參數以提供至少一個整體矩陣。合併器經組態以合併個別矩陣與至少一個整體矩陣。在一個實施例中,後處理器共同地對個別矩陣執行至少一個處理步驟從而獲得至少一個整體矩陣。
以下實施例參考藉由處理器執行之處理步驟。此等步驟中之一些亦適用於前述實施例中所提及之後處理 器。
在一個實施例中,處理器包含不混合器,其經組態以使複數個降混信號群中之各別群之降混信號無法混合。藉由使降混信號無法混合,處理器獲取經降混至降混信號中之原始輸入音訊物件之表示。
根據一實施例,不混合器經組態以基於最小均方誤差(MMSE)演算法使複數個降混信號群中之各別群之降混信號無法混合。此類演算法將在以下描述中解釋。
在一不同實施例中,其中處理器包含不混合器,其經組態以單獨地處理每一組輸入音訊物件之物件參數以提供個別不混合矩陣。
在一個實施例中,處理器包含計算器,其經組態以依據該組輸入音訊物件中之與各別降混信號群相關聯之輸入音訊物件之數目中的至少一者及屬於各別降混信號群之降混信號之數目單獨地為每一降混信號矩陣群計算大小。由於降混信號群小於整個降混信號集合且由於降混信號群參考輸入音訊信號之較小數目,因此用於降混信號群之處理之矩陣小於用於當前技術中之此等降混信號群。此促進計算。
根據一實施例,計算器經組態以基於各別降混信號群內之最高能量值為個別不混合矩陣計算個別臨限值。
根據一實施例,處理器經組態以基於各別降混信號群內之最高能量值為每一降混信號群單獨地計算個別臨限值。
在一個實施例中,計算器經組態以基於各別降混信號群內之最高能量值為用於使每一降混信號群中之降混信號無法混合之規則化步驟計算個別臨限值。在一不同實施例中,藉由不混合器自身計算降混信號群之臨限值。
以下論述將展示計算群且並非全部降混信號之臨限值(每一群之一個臨限值)的受關注效果。
根據一實施例,處理器包含呈現器,其經組態以呈現用於解碼音訊信號之輸出情形之各別群的未經混合之降混信號以提供呈現信號。呈現係基於由收聽者提供之輸入或基於關於實際輸出情形之資料。
在一實施例中,處理器包含呈現器,其經組態以處理物件參數以提供至少一個呈現矩陣。
在一實施例中,處理器包含後混合器,其經組態以處理物件參數以提供至少一個去相關矩陣。
根據一實施例,處理器包含後混合器,其經組態以對呈現信號執行至少一個去相關步驟且經組態以合併執行去相關步驟之結果(Ywet)與各別呈現信號(Ydry)。
根據一實施例,處理器經組態以判定每一降混信號群(k為各別群之下標)之個別降混矩陣(D k),處理器經組態以判定每一降混信號群之個別群共變數矩陣(E k),處理器經組態以基於個別降混矩陣(D k)及個別群共變數矩陣(E k)判定每一降混信號群之個別群降混共變數矩陣( k),且處理器經組態以判定每一降混信號群之個別規則化逆群矩陣(J k)。
根據一實施例,合併器經組態以合併個別規則化逆群矩陣(J k),從而獲得整體規則化逆群矩陣(J)。
根據一實施例,處理器經組態以基於個別降混矩陣(D k)、個別群共變數矩陣(E k),及個別規則化逆群矩陣(J k)判定每一降混信號群之個別群參數不混合矩陣(U k),且合併器經組態以合併個別群參數不混合矩陣(U k)從而獲得整體群參數不混合矩陣(U)。
根據一實施例,處理器經組態以基於個別降混矩陣(D k)、個別群共變數矩陣(E k)及個別規則化逆群矩陣(J k)判定每一降混信號群之個別群參數不混合矩陣(U k),且合併器經組態以合併個別群參數不混合矩陣(U k)從而獲得整體群參數不混合矩陣(U)。
根據一實施例,處理器經組態以判定每一降混信號群之個別群呈現矩陣(R k)。
根據一實施例,處理器經組態以基於個別群呈現矩陣(R k)及個別群參數不混合矩陣(U k)判定每一降混信號群之個別升混矩陣(R k U k),且合併器經組態以合併個別升混矩陣(R k U k)從而獲得整體升混矩陣(RU)。
根據一實施例,處理器經組態以基於個別群呈現矩陣(R k)及個別群共變數矩陣(E k)判定每一降混信號群之個別群共變數矩陣(C k),且合併器經組態以合併個別群共變數矩陣(C k)從而獲得整體群共變數矩陣(C)。
根據一實施例,處理器經組態以基於個別群呈現矩陣(R k)、個別群參數不混合矩陣(U k)、個別降混矩陣(D k) 及個別群共變數矩陣(E k)判定經參數化估計信號(E y dry)k之個別群共變數矩陣,且合併器經組態以合併經參數化估計信號(E y dry)k之個別群共變數矩陣從而獲得整體經參數化估計信號E y dry
根據一實施例,處理器經組態以基於降混共變數矩陣(E DMX)之奇異值分解判定規則化逆矩陣(J)。
根據一實施例,處理器經組態以藉由選擇對應於經指派至各別降混信號群(具有下標k)之降混信號(m,n)的元素((m,n))而判定用於參數不混合矩陣(U)之判定之子矩陣( k)。每一降混信號群涵蓋指定數目之降混信號及一組相關聯之輸入音訊物件,且此處由下標k表示。
根據此實施例,個別子矩陣( k)藉由自屬於各別群k之降混共變數矩陣選擇或挑選元素而獲得。
在一個實施例中,個別子矩陣( k)經單獨地反轉且結果合併於規則化逆矩陣(J)中。
在一不同實施例中,子矩陣( k)使用其定義作為具有個別降混矩陣(D k)之△k=DkEkDk*獲得。
根據一實施例,合併器經組態以基於每一降混信號群之經單獨地判定矩陣判定後混合矩陣(P),且合併器經組態以將後混合矩陣(P)應用至複數個降混信號,從而獲得解碼音訊信號。在此實施例中,利用物件參數計算後混合矩陣,該後混合矩陣應用至編碼音訊信號以獲得解碼音訊信號。
根據一個實施例,裝置及其各別組件經組態以單 獨地為每一降混信號群執行以下計算中的至少一者:˙大小Nk乘以Nk之群共變數矩陣E k與元素之計算: ˙大小Mk乘以Mk之群降混共變數矩陣 k之計算: k=D k E k D k *,˙群降混共變數矩陣 k=D k E k D k *之奇異值分解之計算: k=V k Λ k V k *,˙近似之規則化逆群矩陣J k之計算:,包括個別矩陣Λ inv k(將在下文提供細節)之計算,˙大小Nk乘以Mk之群參數不混合矩陣Uk之計算:U k=E k D k * J k,˙大小NUpmix乘以Nk之群呈現矩陣R k與大小Nk乘以Mk之不混合矩陣U k之相乘:R k U k,˙大小Nout乘以Nout之群共變數矩陣Ck之計算:C k R k E k R k *,˙大小Nout乘以Nout之經參數化估計信號(E y dry)k之群共變數的計算:
在此態樣中,k表示各別降混信號群之群下標,Nk表示該組相關聯之輸入音訊物件中之輸入音訊物件之數目,Mk表示屬於各別降混信號群之降混信號之數目,及Nout表示經升混或呈現輸出聲道之數目。
計算出之矩陣之大小小於用於當前技術之彼等。相應地,在一個實施例中,單獨地對降混信號群執行儘可能多的處理步驟。
本發明之目標亦藉由用於處理編碼音訊信號之對應方法達成。編碼音訊信號包含與複數個物件及物件參數相關聯之複數個降混信號。方法包含以下步驟:˙將降混信號分為與複數個輸入音訊物件中之一組輸入音訊物件相關聯的複數個降混信號群,˙單獨地對每一組輸入音訊物件之物件參數執行至少一個處理步驟以提供群結果,及˙合併群結果以提供解碼音訊信號。
分群藉由複數個輸入音訊物件中之每一輸入音訊物件屬於僅一組輸入音訊物件的至少該約束而執行。
裝置之上述實施例亦可藉由方法之步驟及方法之對應實施例而執行。因此,為裝置之實施例提供之解釋亦適用於該方法。
1、10‧‧‧裝置
2‧‧‧分群器
3‧‧‧處理器
4‧‧‧合併器
5‧‧‧後處理器
100‧‧‧編碼音訊信號
101‧‧‧降混信號
102‧‧‧降混信號群
103‧‧‧輸出音訊信號
104‧‧‧經處理信號
110‧‧‧解碼音訊信號
111‧‧‧音訊物件
112‧‧‧呈現信號
200、201、202、203‧‧‧步驟
301‧‧‧計算器
302‧‧‧呈現器
400‧‧‧場景
401‧‧‧擴音器
402‧‧‧收聽者
將在下文中關於附圖及隨附圖式中所描繪之實施例解釋本發明,其中:圖1展示基於MMSE之參數降混/升混概念之綜覽,圖2展示應用於呈現輸出上具有去相關之參數建構系統,圖3展示降混處理器之結構,圖4展示五個輸入音訊物件(左側行)之頻譜圖及對應降混聲道(右側行)之頻譜圖,圖5展示參考輸出信號(左側行)之頻譜圖及對應SAOC 3D解碼及呈現輸出信號(右側行)之頻譜圖, 圖6展示使用本發明之SAOC 3D輸出信號之頻譜圖,圖7展示根據當前技術之訊框參數處理,圖8展示根據本發明之訊框參數處理,圖9展示群偵測功能之實現方式之實例,圖10示意性地展示用於編碼輸入音訊物件之裝置,圖11示意性地展示用於處理編碼音訊信號之本發明之裝置的實例,圖12示意性地展示用於處理編碼音訊信號之本發明之裝置的不同實例,圖13展示本發明之方法之實施例的一序列步驟,圖14示意性地展示本發明之裝置之實例,圖15示意性地展示裝置之另一實例,圖16示意性地展示本發明之裝置之處理器,及圖17示意性地展示本發明之裝置之應用程式。
較佳實施例之詳細說明
在下文中,將使用MPEG空間音訊物件寫碼(SAOC)技術([SAOC])及MPEG-H 3D音訊([SAOC3D、SAOC3D2])之SAOC 3D處理部分之實例提供關於參數分離方案之綜述。考慮此等方法之數學性質。
使用以下數學標號:
N 輸入音訊物件(替代地:輸入物件)之數目
Ndmx 降混(傳輸)聲道之數目
Nout 升混(呈現)聲道之數目
Nsamples 樣本之數目每音訊信號
D 降混矩陣,大小Ndmx乘以N
S 輸入音訊物件信號,大小N乘以Nsamples
E 物件共變數矩陣,大小N乘以N,近似E SS *
X 降混音訊信號,大小Ndmx乘以Nsamples,定義為X=DS
E DMX 降混信號之共變數矩陣,大小Ndmx乘以Ndmx,定義為E DMX=DED *
U 參數源估計矩陣,大小N乘以Ndmx,其近似U ED *(DED *)-1
R 呈現矩陣(指定於解碼器側處),大小Nout乘以N
經參數化建構物件信號,大小N乘以Nsamples,其近似S且定義為=UX
Y dry 經參數化建構及呈現物件信號,大小Nout乘以Nsamples,定義為Y dry=RUX
Y wet 去相關器輸出,大小Nout乘以Nsamples
Y 最終輸出,大小Nout乘以Nsamples
(.)* 自伴(厄米特)運算符,其表示(.)之共軛轉置
F decorr(.) 去相關器功能
在不丟失一般性之情況下,為改良等式之可讀性,對於全部引入變量,表示時間及頻率從屬性之索引被省去。
參數物件分離系統:
通用參數分離方案旨在使用輔助參數資訊估計來自信號混合物(降混)之音訊源之數目。此任務之典型解決方案係基於最小均方誤差(MMSE)估計演算法之應用。SAOC技術為此類參數音訊寫碼系統之一個實例。
圖1描繪SAOC編碼器/解碼器架構之通用原理。
通用參數降混/升混處理以時間/頻率選擇性方式執行且可經描述為一序列以下步驟:
˙「編碼器」具備輸入「音訊物件」S及「混合參數」D。「混合器」使用「混合參數」D(例如,降混增益)將「音訊物件」S降混至多個「降混信號」X中。
˙「旁側資訊估計器」提取描述輸入「音訊物件」S之特性(例如,共變數性質)之旁側資訊。
˙「降混信號」X及旁側資訊經傳輸或儲存。此等降混音訊信號可使用音訊寫碼器(諸如MPEG-1/2 Layer II或III、MPEG-2/4進階音訊寫碼(AAC)、MPEG通用語音及音訊寫碼(USAC)等)經進一步壓縮。旁側資訊可亦呈現及經有效編碼(例如,作為物件功率與物件相關係數之寫碼關係)。
「解碼器」使用所傳輸之旁側資訊(此資訊提供物件參數)將原始「音訊物件」自解碼「降混信號」復原。「旁側資訊處理器」估計待應用於「參數物件分離器」內之「降混信號」上的不混合係數,從而獲得S之參數物件建構。經建構「音訊物件」藉由應用「呈現參數」R呈現至由輸出聲道Y表示之(多聲道)目標場景。
相同通用原理及依序步驟應用於SAOC 3D處理 中,該SAOC 3D處理併入額外去相關路徑。
圖2提供具有整合式去相關路徑之參數降混/升混概念之綜覽。
使用SAOC 3D技術之實例(MPEG-H 3D音訊之部分),此類參數分離系統之主要處理步驟可概括如下: SAOC 3D解碼器產生經改良之呈現輸出Y作為經參數化建構及呈現信號(乾信號)Y dry與其去相關版本(濕信號)Y wet之混合物。
對於本發明之相關論述,處理步驟可經分化,如圖3中所說明:˙不混合,此使用矩陣U參數化建構輸入音訊物件,˙使用呈現資訊(矩陣R)呈現,˙去相關,˙使用基於含於位元流中之資訊計算出之矩陣P後混合。
參數物件分離基於額外旁側資訊使用不混合矩陣U獲自降混信號X=UX
呈現資訊R用於根據Y dry=R =RUX獲得乾信號。
最終輸出信號Y根據利用信號Y dryY wet計算出。
混合矩陣P(例如)基於呈現資訊、相關資訊、能量資訊、共變數資訊等計算。
在本發明中,後混合矩陣將應用至編碼音訊信號 以獲得解碼音訊信號。
在下文中,將解釋使用MMSE之共同參數物件分離運算。
不混合矩陣U使用最小均方誤差(MMSE)估計演算法U=ED * J基於自含位元流於中之變量導出之資訊(例如,降混矩陣D及共變數資訊E)而獲得。
大小Ndmx乘以Ndmx之矩陣J將降混共變數矩陣E DMX=DED*之偽逆之近似值表示為J E DMX -1
矩陣J之計算根據J=V Λ inv V *導出,其中矩陣VΛ根據E DMX=VΛV *使用矩陣E DMX之奇異值分解(SVD)而判定。
應注意,類似結果可使用不同分解方法(諸如特徵值分解、Schur分解等)獲得。
用於對角線奇異值矩陣Λ之規則化逆運算(.)inv可使用相對於最高奇異值截斷奇異值判定(例如,如SAOC 3D中所完成):
在一不同實施例中,使用以下等式:
相對規則化純量根據使用絕對臨限值TregΛ之最大值而判定,其中Treg=10-2,舉例而言。
依據奇異值之定義,λi,i可限於僅正值(若λi,i<0, 則λi,i=abs(λi,i)且sign(λi,i)乘以對應左或右奇異向量)或可允許負值。
在具有負值之λi,i之第二情況中,相對規則化純量根據計算。
為簡單起見,在下文中將使用之第二定義。
類似結果可使用相對於絕對值截斷奇異值或用於矩陣反轉之其它規則化方法來獲得。
極小奇異值之反轉可產生極高不混合係數,且因此產生對應降混聲道之高擴增。在此情況下,具有極小能階之聲道可使用高增益擴增且此可產生聲訊假影。為減小此非所要效果,小於相對臨限值之奇異值經截斷至零。
現在,解釋當前技術中之參數物件分離技術中發現的缺點。
所描述之當前技術參數物件分離方法指定使用降混共變數矩陣之規則化反轉以避免分離假影。然而,對於一些真實使用情況混合場景,在系統之輸出中識別由過於侵襲性規則化造成之有害假影。
在下文中,此類場景之實例經建構及分析。
數目N=5之輸入音訊物件(S)使用所描述之技術(更精確地,MPEG-H 3D音訊之SAOC 3D處理部分之方法)編碼為數目Ndmx=3之降混聲道(X)。
實例之輸入音訊物件可由以下構成:˙一個含有來自音樂伴奏之信號之兩個相關音訊物件的群(立體聲對之左聲道及右聲道), ˙一個含有語音信號之獨立音訊物件的一個群,及˙一個含有鋼琴錄音之兩個相關音訊物件的群(立體聲對之左聲道及右聲道)。
輸入信號經降混至傳輸聲道之三個群中:˙具有M1=1降混聲道之群G1,其含有第一物件群,˙具有M2=1降混聲道之群G2,其含有第二物件群,及˙具有M3=1降混聲道之群G3,其含有第三物件群,因此,Ndmx=M1+M2+M3
對應於每一群Gk之降混矩陣D k(k=1、2、3)使用整體混合增益建構,且完整降混矩陣D由以下等式給出:,其中
吾人可注意,前兩個物件信號之群、第三物件信號與最後兩個物件信號之群之間不存在交叉混合。亦請注意,含有語音之第三物件信號經單獨混合至一個降混聲道中。因此,此物件之良好重建構被期待且因此亦良好呈現。輸入信號之頻譜圖及所獲得之降混信號在圖4中說明。
此處省去用於真實系統中之可能降混信號核心寫碼以較佳地概括非所要效果。在解碼器側處,SAOC 3D參數解碼用於重建構及將音訊物件信號呈現至3聲道設定(Nout=3):左(L)、中央(C)及右(R)聲道。
實例之輸入音訊物件之簡單重混用於以下情況中: ˙前兩個音訊物件(音樂伴奏)為靜音(亦即,呈現為增益0),˙第三輸入物件(語音)呈現至中央聲道,及˙物件4呈現至左聲道且物件5呈現至右聲道。
因此,使用之呈現矩陣由以下等式給出:
其中:,.
參考輸出可藉由將指定呈現矩陣直接應用至輸入信號而計算:Y ref=RS
參考輸出及來自SAOC 3D解碼及呈現之輸出信號之頻譜圖藉由圖5之兩個行說明。
自所展示之SAOC 3D解碼器輸出之頻譜圖,可注意到以下觀測結果:
˙與參考信號相比較,含有僅語音信號之中央聲道嚴重損壞。可注意到較大頻譜燒洞。此等頻譜燒洞(為具有缺失能量之時間頻率區域)導致嚴重聲訊假影。
˙較小頻譜間隙亦呈現於左及右聲道中(特別言之,在低頻區域中),其中大部分信號能量經集中。又,此等頻譜間隙產生聲訊假影。
˙不存在降混聲道中之物件群之交叉混合,亦即,經混合於一個降混聲道中之物件並不存在於任何其他降混聲道中。第二降混聲道僅含有一個物件(語音);因此系統輸出 中之頻譜間隙可產生,僅因為其連同其他降混聲道被處理。
基於所提及之觀測結果,可作出結論:
˙SAOC 3D系統並非「直通」系統,亦即,若一個輸入信號經單獨混合至一個降混聲道中,則此輸入信號之音訊質量應在解碼及呈現中保留。
˙SAOC 3D系統可歸因於多聲道降混信號之處理而引入聲訊假影。含於一個降混聲道群中之物件之輸出質量取決於其餘降混聲道之處理。
頻譜間隙(特別言之,中央聲道中之一者)指示,含於降混聲道中之一些有用資訊藉由處理丟棄。此失去之資訊可追蹤返回至參數物件分離步驟,更精確地至降混共變數矩陣反轉規則化步驟。
藉由定義,實例中之降混矩陣具有區塊對角線結構:
此外,歸因於輸入物件之間的指定關係(例如,參數相關性之傳信),可用於解碼器中之輸入物件信號共變數矩陣亦具有區塊對角線結構:
因此,降混共變數矩陣可呈現為區塊對角線形式:
在此情況下,矩陣E DMX已經為區塊對角線,但對於一般情況,其區塊對角線形式可在使用排列運算符Φ=ΦE DMX Φ *排列排/行之後獲得。
排列運算符Φ經定義為藉由排列標識矩陣之列而獲得之矩陣。若對稱矩陣A可藉由排列列及行呈現為區塊對角線形式,則排列運算符可用於將所得矩陣=Φ AΦ*表達為:=Φ AΦ*。
Φ為排列運算符,則以下性質適用:˙首先,若V為整體矩陣,則T=ΦV亦為整體矩陣,及˙其次,Φ Φ*=Φ* Φ=I具有標識矩陣I
因此,排列運算符對於奇異值分解演算法是顯而易見的。此意謂原始矩陣A及經排列矩陣共用同一奇異值及經置換奇異向量:其中T=ΦV
歸因於區塊對角線表示,矩陣E DMX之奇異值可藉由將SVD應用至矩陣E DMX或藉由將SVD應用至區塊對角線子矩陣E DMX k及合併結果而計算出:
其中Λ 1=[λ 1,1]、Λ 2=[λ 2,2]且Λ 3=[λ 3,3]。
由於降混共變數矩陣之奇異值與降混聲道之能階(其藉由矩陣E DMX之主對角線為)直接相關:
且含於一個聲道中之物件並不含於任何其他降混聲道中,吾人可得出結論,每一奇異值對應於一個降混聲道。
因此,若降混聲道中之一者具有比其餘降混聲道小得多的能階,則對應於此聲道之奇異值將比其餘奇異值小得多。
用於含有矩陣E DMX之奇異值之矩陣的反轉中之截斷步驟:
可產生對應於具有較小能階之降混聲道(相對於具有最高能量之降混聲道)的奇異值的截斷。因此,存在於具有較小相對能量之此降混聲道中之資訊經丟棄且頻譜圖中所觀察到之頻譜間隙及音訊輸出產生。
為較佳地理解,必須分別為每一樣本且為每一頻 帶考慮輸入音訊物件之降混。特別言之,分離至不同頻帶中有助於理解為何間隙可以不同頻率出現於輸出信號之頻譜圖中。
所識別之問題可經分離以得出實情,在不考慮待反轉之矩陣為區塊對角線之情況下,計算出奇異值之相對規則化臨限值:
每一區塊對角線矩陣對應於一個獨立降混聲道群。相對於最大奇異值之截斷實現,但此值描述僅一個聲道群。因此,含於全部獨立降混聲道群之物件之重建構中變得取決於含有此最大奇異值之群。
在下文中,本發明將基於如上文關於當前技術所述之實施例而解釋:考慮上文所描述之實例,三個共變數矩陣可關聯至三個不同降混聲道群G k,其中1k3。含於每一群之降混聲道中之音訊物件或輸入音訊物件並不含於任何其他群中。另外,含於來自不同群之降混聲道中之物件之間的否關係(例如,相關)用信號表示。
為了解決所識別之參數重建構系統之問題,本發明之方法提出獨立地為每一群應用規則化步驟。此暗示三個不同臨限值針對三個獨立降混共變數矩陣之反轉計算出:,其中1k3。因此,在本發明中,在一個實施例中,此類臨限值分別針對每一群計算出,且而不是(在當前技術中)各別頻帶及樣本之一個整體臨限值。
奇異值之反轉因此藉由獨立地為子矩陣E DMX k應 用規則化而獲得,其中1k3:
在一不同實施例中,使用以下等式:
使用建議之本發明之方法,在(例如)先前部分所論述之另外相同SAOC 3D系統中,經解碼及呈現輸出之音訊輸出質量改良。所得信號經繪示於圖6中。
比較圖5與圖6之右行中之頻譜圖,可觀察到本發明之方法解決現有先前技術參數分離系統中所識別之問題。本發明之方法確保系統之「直通」特徵,且更重要的是,頻譜間隙經移除。
所描述之用於處理三個獨立降混聲道群之解決方案可易於推廣至任何數目的群。
本發明之方法提出藉由利用降混信號共變數矩陣之反轉中之分群資訊而修正參數物件分離技術。此導致音訊輸出質量之顯著改良。
在無額外傳信之情況下,分群可獲自(例如)已用於解碼器中之混合及/或相關資訊。
更精確地,一個群藉由具有此實例中之以下兩個性質之降混信號的最小組定義於一個實施例中:
˙首先,含於此等降混聲道中之輸入音訊物件並不含於任何其他降混聲道中。
˙其次,含於一個群之降混聲道中之全部輸入信號並不與含於任何其他群之降混聲道中之任何其他輸入信號相關(例如,編碼音訊信號內之非幀間相關用信號表示)。此類幀間相關暗示在解碼期間各別音訊物件之合併處置。
基於引入之群定義,K(1KNdmx)個群之數目可定義:G k(1kK),且降混共變數矩陣E DMX可藉由應用排列運算符Φ使用區塊對角線形式表達:
子矩陣E DMX k藉由選擇對應於獨立群G k之降混共變數矩陣之元素而建構。對於每一群G k,大小Mk乘以Mk之矩陣E DMX k使用SVD表達為:EDMX k=V k Λ k V k *其中:
矩陣E DMX k之偽逆根據(E DMX k)-1=V k Λ inv k V k*計算,其中規則化逆矩陣Λinv k藉由以下等式經提供於一個實施例中:
且在不同實施例中藉由以下等式提供:
相對規則化純量根據使用絕對臨限值TregΛ k之最大值而判定,其中Treg=10-2,舉例而言。
經排列降混共變數矩陣之倒數根據以下等式獲得:
且降混共變數矩陣之倒數藉由應用逆排列運算而計算:
另外,本發明之方法提出在一個實施例中完全基於含於位元流中之資訊判定群。舉例來說,此資訊可藉由降混資訊及相關資訊提供。
更精確地,一個群G k藉由具有以下性質之降混聲道之最小組定義:
˙含於降混聲道群G k中之輸入音訊物件並不含於任何其他降混聲道中。輸入音訊物件並非含於降混聲道中,舉例而言,若對應降混增益藉由最小量化下標提供,或若其等於零。
˙含於降混聲道群G k中之全部輸入信號i並不與含於任何其他群之任何降混聲道中之任何輸入信號j相關。舉例而言(比較例如WO 2011/039195 A1),位元流變量bsRelatedTo[i][j]可用於傳信,若兩個物件相關(bsRelatedTo[i][j]==1)或它們並不相關(bsRelatedTo[i][j]==0)。 又,傳信兩個相關物件信號之不同方法可基於相關或共變數資訊使用,舉例而言。
群可針對全部處理頻帶判定每訊框一次或每參數集一次,或針對每一處理頻帶判定每訊框一次或每參數集一次。
本發明之方法亦允許在一個實施例中藉由利用大部分計算高價參數處理組件中之分群資訊而顯著地減少參數分離系統(例如,SAOC 3D解碼器)之計算複雜度。
因此,本發明之方法提出移除並不對最終輸出音訊質量帶來任何作用之計算。此等計算可基於分群資訊選擇。
更精確地,本發明之方法提出獨立地為每一預定群計算全部參數處理步驟且最後合併結果。
使用MPEG-H 3D音訊之SAOC 3D處理部分之實例,計算複雜運算藉由以下計算提供:˙具有該等元素之大小N乘以N之共變數矩陣E的計算:,˙大小Ndmx乘以Ndmx之降混傳信共變數矩陣之計算:=DED *,˙矩陣=DED *之奇異值分解之計算:=VΛV *,˙近似J -1之規則化逆矩陣J之計算:J= inv V *,˙大小N乘以Ndmx之參數不混合矩陣U之計算:U=ED * J,˙大小Nout乘以N之呈現矩陣R與大小N乘以Ndmx之不 混合矩陣U之相乘:RU,˙大小Nout乘以Nout之共變數矩陣C之計算:C=RER *,˙大小Nout乘以Nout之經參數化估計信號E y dry之共變數的計算:=RU(DED *)U * R *
物件位準差異(OLD)係指特定時間及頻帶之一個物件相對於具有大部分能量之物件的能量,且幀間物件交叉相干(IOC)描述類似性之量,或特定時間及頻帶中之兩個物件交叉相關。
本發明之方法提出藉由獨立地為全部預定之K群G k(其中,1kK)計算全部參數處理步驟且在參數處理結束後合併結果來降低計算複雜度。
一個群G k含有Mk個降混聲道及Nk個輸入音訊物件,因此:
對於每一群G k,群降混矩陣藉由選擇對應於由群Gk含有之降混聲道及輸入音訊物件之降混矩陣D的元素而定義為D k
類似地,群呈現矩陣R k藉由選擇對應於由群G k含有之輸入音訊物件而獲自呈現矩陣R
類似地,群向量OLDk及群矩陣IOCk藉由選擇對應於由群G k含有之輸入音訊物件之元素而獲自向量OLD及矩陣IOC。
對於每一群G k,所描述之處理步驟經替換為更少如下之計算處理步驟: ˙大小Nk乘以Nk之群共變數矩陣E k與元素之計算: ˙大小M k乘以M k之群降混共變數矩陣 k之計算: k=D k E k D k *,˙群降混共變數矩陣 k=D k E k D k *之奇異值分解之計算: k=V k Λ k V k *,˙近似之規則化逆群矩陣J k之計算:,˙大小N k乘以M k之群參數不混合矩陣U k之計算:U k=E k D k * J k,˙大小NUpmik乘以Nk之群呈現矩陣R k與大小Nk乘以Mk之不混合矩陣U k之相乘:R k U k,˙大小Nout乘以Nout之群共變數矩陣Ck之計算:C k R k E k R k *,˙大小Nout乘以Nout之經參數化估計信號(E y dry)k之群共變數的計算:
且個別群處理步驟之結果最後合併:˙大小Nout乘以Ndmx之升混矩陣RU藉由合併群矩陣R k U k而獲得:RU=[R 1 U 1 R 2 U 2R K U K ],˙大小Nout乘以Nout之共變數矩陣C藉由對群矩陣C k求和而獲得:,˙大小Nout乘以Nout之經參數化估計信號Ey dry之共變數藉由對群矩陣(Ey dry)k求和而獲得:
根據圖3中所繪示之降混處理器之結構概述處理步驟,同時省去去相關步驟,現有先前技術訊框參數處理可如圖7中所描繪。
使用所提出之本發明之方法,計算複雜度使用如圖8中所說明之群偵測來降低。
群偵測函式(稱為:[K,G k ]=groupDetect(D,RelatedTo))之實施方式之實例使用ANSI C程式碼及靜態函式「getSaocCoreGroups( )經提供於圖9中。
所提出之本發明之方法證明比在不分群之情況下執行運算在計算上顯著地更有效率。亦允許較佳存儲器配置及使用率、支援計算並行化、減少數值誤差累加等。
所提出之本發明之方法及所提出之本發明之裝置解決當前技術參數物件分離系統之現有問題且提供顯著地較高輸出音訊質量。
所提出之本發明之方法描述一種群偵測方法,該群偵測方法基於現有位元流資訊完全實現。
所提出之本發明之分群解決方案導致計算複雜度顯著降低。一般來說,奇異值分解在計算上為代價大的且其複雜度隨待反轉之矩陣之大小按指數律成比例增加:
對於較大數目之降混聲道,為較小之矩陣計算K乘以SVD運算在計算上更有效率:
使用同一考慮因素,解碼器中之全部參數處理步 驟可藉由僅為獨立群計算系統中所描述之全部矩陣乘法及合併結果而有效地實施。
不同數目之輸入音訊物件(亦即,輸入音訊物件)、降混聲道及固定數目之24個輸出聲道之複雜度降低的估計在下表中提供:
本發明提供以下額外優勢:
˙對於僅一個群可創建時之情形,輸出與當前最先進的系統位元相同。
˙分群保留系統之「直通」特徵。此暗示若一個輸入音訊物件經單獨混合至一個降混聲道中,則解碼器能夠極佳地將其重建構。
本發明對標準文字產生以下所提出之例示性更改。
在「9.5.4.2.4規則化逆運算」中新增:近似之規則化逆矩陣J根據J= inv V *計算。
矩陣VΛ根據=VΛV *判定為矩陣之奇異值分解。
對角線奇異值矩陣Λ之規則化倒數Λ inv根據9.5.4.2.5計算。
在矩陣用於參數不混合矩陣U之計算的情況 下,所描述之運算應用於全部子矩陣△k。子矩陣△k藉由選擇對應於經指派至群k之降混聲道m及n之元素△(m,n)而獲得。
群k藉由具有以下性質之降混聲道之最小組定義:
˙含於群k之降混聲道中之輸入信號並不含於任何其他降混聲道中。若對應降混增益藉由最小量化下標提供,則輸入信號並不含於降混聲道中(ISO/IEC 23003-2:2010之表49)。
˙含於群k之降混聲道中之全部輸入信號i與含於任何其他群之任何降混聲道中之任何輸入信號並不相關(亦即,bsRelatedTo[i][j]==0)。
獨立規則化反轉運算之結果經合併以用於獲得矩陣J
本發明對標準文字亦產生以下所提出之例示性更改。
9.5.4.2.5規則化逆運算
近似J -1之規則化逆矩陣J根據以下等式計算:J= inv V *
矩陣VΛ根據以下等式判定為矩陣之奇異值分解:VΛV *=.
對角線奇異值矩陣Λ之規則化倒數Λ inv 根據9.5.4.2.6計算。
在矩陣用於參數不混合矩陣U之計算的情況 下,所描述之運算應用於全部子矩陣 q 。具有元素 q (idx 1,idx 2)之大小×之子矩陣 q 藉由選擇對應於經指派至群g q 之降混聲道ch 1ch 2(亦即,g q (idx 1)=ch 1g q (idx 2)=ch 2)之元素(ch 1,ch 2)而獲得。
大小1×之群g q 藉由具有以下性質之降混聲道之最小組定義:
˙含於群g q 之降混聲道中之輸入信號並不含於任何其他降混聲道中。若對應降混增益藉由最小量化下標提供,則輸入信號並不含於降混聲道中(ISO/IEC 23003-2:2010之表49)。
˙含於群g q 之降混聲道中之全部輸入信號i與含於任何其他群之任何降混聲道中之任何輸入信號j並不相關(亦即,bsRelatedTo[i][j]==0)。
獨立規則化反轉運算之結果經合併以用於根據以下等式獲得矩陣J
9.5.4.2.6奇異值之規則化
用於對角線奇異值矩陣Λ之規則化逆運算(.) inv 判定為:
相對規則化純量使用Λ之絕對臨限值T reg 及最大值判定如下: ,其中T reg =10-2
在以下圖中之一些中,個別信號展示為獲自不同處理步驟。此經完成以用於較佳地理解本發明且此為用以實現本發明(亦即,提取個別信號及對此等信號或經處理信號執行處理步驟)之一個可能。
其他實施例計算全部必需矩陣及將其作為編碼音訊信號之最後步驟應用以獲得解碼音訊信號。此包括不同矩陣之計算及其各別組合。
實施例合併兩個方式。
圖10示意性地展示用以處理複數個(此處,在此實例中五個)輸入音訊物件111以藉由編碼音訊信號100提供輸入音訊物件111之表示的裝置10。
輸入音訊物件111經配置或降混至降混信號101中。在所展示之實施例中,五個輸入音訊物件111中之四者經指派至兩個降混信號101。僅一個輸入音訊物件111經指派至第三降混信號101。因此,五個輸入音訊物件111由三個降混信號101表示。
此等降混信號101隨後(可能在一些未展示之處理步驟之後)經合併至編碼音訊信號100。
此類編碼音訊信號100經送至本發明之裝置1,該裝置之一個實施例經展示於圖11中。
自編碼音訊信號100提取三個降混信號101(比較圖10)。
降混信號101(在所展示之實例中)經分為兩個降 混信號群102。
由於每一降混傳信101與給定數目之輸入音訊物件相關聯,每一降混信號群102係關於給定數目之輸入音訊物件(對應表達為輸入物件)。因此,每一降混信號群102與複數個輸入音訊物件中之一組輸入音訊物件相關聯,該複數個輸入音訊物件由編碼音訊信號100編碼(比較圖10)。
在所展示之實施例中,分群在以下約束下發生:
1.每一輸入音訊物件111屬於僅一組輸入音訊物件且,因此屬於一個降混信號群102。
2.每一輸入音訊物件111與屬於與不同降混信號群相關聯之不同組之輸入音訊物件111沒有用編碼音訊信號表示之關係。此意謂編碼音訊信號沒有歸因於標準將導致各別輸入音訊物件之合併計算的此類資訊。
3.各別群102內之降混信號101之數目經減至最小。
該等(此處:兩個)降混信號群102在下文中經單獨地處理,從而獲得對應於五個輸入音訊物件111之五個輸出音訊信號103。
與涵蓋兩對輸入音訊物件111之兩個降混信號101相關聯的一個降混信號群102(比較圖10)允許獲得四個輸出音訊信號103。
其他降混信號群102產生一個輸出信號103作為單一降混信號101,或此降混信號群102(或更精確地,一個信號降混信號之群)係關於一個輸入音訊物件111(比較圖10)。
五個輸出音訊信號103合併成一個解碼音訊信號110作為裝置1之輸出。
在圖11之實施例中,全部處理步驟單獨地對降混信號群102執行。
圖12中所展示之裝置1之實施例可接收此處與圖11中所展示之裝置1相同且由如圖10中所展示之裝置10獲得之編碼音訊信號100。
三個降混信號101(對於三個傳輸聲道)自編碼音訊信號100獲得且分為兩個降混信號群102。此等群102經單獨地處理,從而獲得對應於圖10中所展示之五個輸入音訊物件之五個經處理信號104。
在以下步驟中,自五個經處理信號104共同地獲得八個輸出音訊信號103,例如,呈現為用於八個輸出聲道。輸出音訊信號103經合併為自裝置1輸出之解碼音訊信號110。在此實施例中,對降混信號群102執行個別以及共同處理。
圖13展示本發明之方法之實施例的一些步驟,其中編碼音訊信號經解碼。
在步驟200中,自編碼音訊信號提取降混信號。在隨後步驟201中,降混信號經配置至降混信號群。
在步驟202中,每一降混信號群經單獨地處理以提供個別群結果。群之個別處置至少包含用於獲得音訊信號之表示之不混合,該等音訊信號經由編碼處理中之輸入音訊物件之降混而合併。在一個實施例(此處未展示)中,個 別處理隨後為共同處理。
在步驟203中,此等群結果合併為待輸出之經解碼音訊信號。
圖14再次展示裝置1之實施例,其中編碼音訊信號100之降混信號101分為降混信號群102之後的全部處理步驟經單獨地執行。接收具有降混信號101之編碼音訊信號100之裝置1包含分群器2,該分群器將降混信號101分群以得到降混信號群102。降混信號群102由單獨地對每一降混信號群102執行全部必需步驟之處理器3處理。降混信號群102之處理之個別群結果為輸出音訊信號103,該等輸出音訊信號由合併器4合併以獲得待由裝置1輸出之解碼音訊信號110。
圖在降混信號101之分群之後,15中所展示之裝置1不同於圖14中所展示之實施例。在該實例中,單獨地對降混信號群102執行並非全部處理步驟,但共同地執行一些步驟,因此考慮一個以上降混信號群102。
歸因於此,此實施例中之處理器3經組態以單獨地執行處理步驟中之僅一些或至少一者。處理之結果為經處理信號104,該等經處理信號由後處理器5共同地處理。所獲得之輸出音訊信號103最後由合併器4合併,從而產生解碼音訊信號110。
在圖16中,處理器3示意性地展示接收降混信號群102及提供輸出音訊信號103。
處理器3包含不混合器300,其經組態以使各別降 混信號群102之降混信號101不混合。因此,不混合器300重建構由編碼器合併至各別降混信號101中之個別輸入音訊物件。
重建構或分離之輸入音訊物件經提交至呈現器302。呈現器302經組態以為解碼音訊信號110之輸出情形呈現各別群之未經混合之降混信號,以提供呈現信號112。因此,呈現信號112適合於解碼音訊信號之重播情境類別。渲染(例如)取決於待使用之擴音器之數目,其配置或待藉由播放解碼音訊信號而獲得之效果類別。
此外,呈現信號112 Y dry經提交至後混合器303,其經組態以對呈現信號112執行至少一個去相關步驟且經組態以合併所執行之去相關步驟之結果Y wet與各別呈現信號112 Y dry。因此,後混合器303執行步驟以將合併在一個降混信號中之信號去相關。
所得輸出音訊信號103最後經提交至如上文所展示之合併器。
對於該等步驟,處理器3依賴於計算器301,該計算器此處與處理器3之不同單元分離,但其在替代方案(圖中未展示)實施例中分別為分群器300、呈現器302及後混合器303。
相關為事實,單獨地為各別降混信號群102計算必需矩陣值等。此暗示,(例如)待計算之矩陣小於用於當前技術中之矩陣。視與降混信號群相關聯之各別組輸入音訊物件中之輸入音訊物件的數目及/或屬於各別降混信號群 之降混信號之數目而定,矩陣具有大小。
在當前技術中,待用於不混合之矩陣具有輸入音訊物件之數目或輸入音訊信號乘以此數目之大小。視屬於各別降混信號群之輸入音訊信號之數目而定,本發明允許計算具有大小之較小矩陣。
在圖17中,解釋呈現之目的。
裝置1接收編碼音訊信號100且對其進行解碼,從而得到解碼音訊信號110。
此解碼音訊信號110在特定輸出情形或輸出場景400中播放。解碼音訊信號110在該實例中待由以下五個擴音器401輸出:左、右、中央、左環繞,及右環繞。收聽者402位於面向中央擴音器之場景400之中間。
裝置1中之呈現器分配待遞送至個別擴音器401之重建構音訊信號,且因此以分配作為給定輸出情形400中之音訊信號之源的原始音訊物件之重建構表示。
因此,呈現取決於輸出情形400之類別及收聽者402之偏好之個別品味。
儘管已在設備之上下文中描述一些態樣,但顯而易見,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,方法步驟之內容脈絡中所描述之態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(例如,微處理器、可程式化電腦或電子電路)執行方法步驟中之一些或全部。在一些實施例中,可由此類裝置執行最重要之方法步 驟中之一者或多者。
視某些實施要求而定,本發明之實施例可以硬件或軟件,或至少部分以硬件或至少部分以軟件實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該電子可讀控制信號與可程式化電腦系統協作(或能夠協作),使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可程式化電腦系統協作,使得執行本文中所描述之方法中的一者。
通常,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品在電腦上執行時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。
換言之,因此,發明方法之實施例為具有當電腦程式運行於電腦上時,用於執行本文中所描述之方法中的一者的程式碼之電腦程式。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中的一者之電腦程式。資料載體、數位儲存媒體或所記錄的之媒體通常為有 形及/或非暫時性的。
因此,本發明之方法之另一實施例為表示用於執行本文中所描述之方法中的一者之電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組態以經由資料通信連接(例如,經由網際網路)而傳送。
另一實施例包含經組態或經調適以執行本文中所描述之方法中之一者的處理構件,例如,電腦或可程式化邏輯器件。
另一實施例包含電腦,其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
根據本發明之另一實施例包含經組態以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或其類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可程式化邏輯器件(例如,場可程式化閘陣列)可用於執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可程式化閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。通常,該等方法較佳地由任一硬體裝置執行。
本文中所描述之裝置可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施。
本文中所描述之方法可使用硬體設備或使用電 腦或使用硬體設備與電腦的組合來執行。
參考文獻
[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[ISS1]M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3]A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5]S. Zhang and L. Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
[ISS6]L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.
[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC3D] ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Audio, Sapporo, July 2014.
[SAOC3D2] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, “MPEG-H Audio - The new standard for universal spatial / 3D audio coding,” 137th AES Convention, Los Angeles, 2011.
1‧‧‧裝置
2‧‧‧分群器
3‧‧‧處理器
4‧‧‧合併器
100‧‧‧編碼音訊信號
101‧‧‧降混信號
102‧‧‧降混信號群
103‧‧‧輸出音訊信號
110‧‧‧解碼音訊信號

Claims (22)

  1. 一種用以處理一編碼音訊信號的裝置,該編碼音訊信號包含與複數個輸入音訊物件及物件參數(E)相關聯的複數個降混信號,其包含:一分群器,其經組態以將該複數個降混信號分為與該複數個輸入音訊物件中之一組輸入音訊物件相關聯的複數個降混信號群,一處理器,其經組態以單獨地對每一組輸入音訊物件之該等物件參數執行至少一個處理步驟,以提供分群結果,及一合併器,其經組態以合併該等群結果或經處理群結果以提供解碼音訊信號,其中該分群器經組態以將該複數個降混信號分為該複數個降混信號群,使得該複數個輸入音訊物件中之每一輸入音訊物件屬於僅一組輸入音訊物件。
  2. 如請求項1之裝置,其中該分群器經組態以將該複數個降混信號分為該複數個降混信號群,使得每一組輸入音訊物件中之每一輸入音訊物件與其它輸入音訊物件沒有用該編碼音訊信號表示的關係或與屬於同一組輸入音訊物件之至少一個輸入音訊物件有用該編碼音訊信號表示的關係。
  3. 如請求項1或2之裝置,其中該分群器經組態以將該複數 個降混信號分為該複數個降混信號群,同時將每一降混信號群內之降混信號之一數目減至最小。
  4. 如請求項1至3中任一項之裝置,其中該分群器經組態以將該複數個降混信號分為該複數個降混信號群,使得僅一個單一降混信號屬於一個降混信號群。
  5. 如請求項1至4中任一項之裝置,其中該分群器經組態以基於該編碼音訊信號內之資訊將該複數個降混信號分為該複數個降混信號群。
  6. 如請求項1至5中任一項之裝置,其中該分群器經組態以藉由應用至少以下步驟而將該複數個降混信號分為該複數個降混信號群:偵測降混信號是否經指派至一現有降混信號群;偵測該複數個輸入音訊物件中之與該降混信號相關聯之至少一個輸入音訊物件是否為與一現有降混信號群相關聯之一組輸入音訊物件之部分;將該降混信號指派至一新降混信號群,倘若該降混信號不受至一現有降混信號群之一指派,且倘若該複數個輸入音訊物件中之與該降混信號相關聯之全部輸入音訊物件脫離與一現有降混信號群之一關聯;以及將該降混信號與一現有降混信號群合併,倘若該降混信號經指派至該現有降混信號群或倘若該複數個輸入音訊物件中之與該降混信號相關聯之至少一個輸入音訊物件與該現有降混信號群相關聯。
  7. 如請求項1至6中任一項之裝置, 其中該處理器經組態以單獨地對每一組輸入音訊物件之該等物件參數(E k)執行各種處理步驟,以提供個別矩陣作為分組結果,及其中該合併器經組態以合併該等個別矩陣。
  8. 如請求項1至7中任一項之裝置,其中該處理器經組態以單獨地對每一組輸入音訊物件之該等物件參數(E k)執行至少一個處理步驟以提供個別矩陣,其中該裝置包含一後處理器,其經組態以共同地處理物件參數以提供至少一個整體矩陣,及其中該合併器經組態以合併該等個別矩陣與該至少一個整體矩陣。
  9. 如請求項1至8中任一項之裝置,其中該處理器包含計算器,其經組態以依據該組輸入音訊物件中之與該各別降混信號群相關聯之輸入音訊物件之一數目中的至少一者與屬於該各別降混信號群之降混信號之一數目而藉由大小單獨地計算每一降混信號群矩陣。
  10. 如請求項1至9中任一項之裝置,其中處理器經組態以基於該各別降混信號群內之一最高能量值為每一降混信號群計算一個別臨限值。
  11. 如請求項1至10中任一項之裝置,其中該處理器經組態以判定每一降混信號群之一個別降混矩陣(D k),其中該處理器經組態以判定每一降混信號群之一 個別群共變數矩陣(E k),其中該處理器經組態以基於該個別降混矩陣(D k)及該個別群共變數矩陣(E k)判定每一降混信號群之個別群降混共變數矩陣( k),及其中該處理器經組態以判定每一降混信號群之個別規則化逆群矩陣(J k)。
  12. 如請求項11之裝置,其中該合併器經組態以合併該等個別規則化逆群矩陣(J k)從而獲得一整體規則化逆群矩陣(J)。
  13. 如請求項11或12之裝置,其中該處理器經組態以基於該個別降混矩陣(D k)、個別群共變數矩陣(E k)及該個別規則化逆群矩陣(J k)判定每一降混信號群之個別群參數不混合矩陣(U k),及其中該合併器經組態以合併該一個別群參數不混合矩陣(U k)從而獲得一整體群參數不混合矩陣(U)。
  14. 如請求項13之裝置,其中該處理器經組態以基於該個別降混矩陣(D k)、個別群共變數矩陣(E k)及該個別規則化逆群矩陣(J k)判定每一降混信號群之個別群參數不混合矩陣(U k),及其中該合併器經組態以合併該個別群參數不混合矩陣(U k)從而獲得一整體群參數不混合矩陣(U)。
  15. 如請求項1至14中任一項之裝置,其中該處理器經組態以判定每一降混信號群之一個別群呈現矩陣(R k)。
  16. 如請求項15之裝置,其中該處理器經組態以基於該個別群呈現矩陣(R k)及該個別群參數不混合矩陣(Uk)判定每一降混信號群之一個別升混矩陣(R k U k),及其中該合併器經組態以合併該等個別升混矩陣(R k U k)從而獲得一整體升混矩陣(RU)。
  17. 如請求項15或16之裝置,其中該處理器經組態以基於該個別群呈現矩陣(R k)及該個別群共變數矩陣(E k)判定每一降混信號群之個別群共變數矩陣(C k),及其中該合併器經組態以合併該等個別群共變數矩陣(C k)從而獲得一整體群共變數矩陣(C)。
  18. 如請求項15至17中任一項之裝置,其中該處理器經組態以基於該個別群呈現矩陣(R k)、該個別群參數不混合矩陣(U k)、該個別降混矩陣(D k),及該個別群共變數矩陣(E k)判定經參數化估計信號(E y dry)k之一個別群共變數矩陣,及其中該合併器經組態以合併該經參數化估計信號(E y dry)k之該等個別群共變數矩陣從而獲得一整體經參數化估計信號Ey dry
  19. 如請求項1至18中任一項之裝置,其中該處理器經組態以基於一降混共變數矩陣(E DMX)之一奇異值分解判定一規則化逆矩陣(J)。
  20. 如請求項1至19中任一項之裝置, 其中該處理器經組態以藉由選擇對應於經指派至該各別降混信號群(k)之該等降混信號(m,n)之元素((m,n))而判定一參數不混合矩陣(U)子矩陣( k)之一判定。
  21. 如前述請求項中任一項之裝置,其中該合併器經組態以基於單獨地判定之每一降混信號群之矩陣判定後混合矩陣(P)且其中該合併器經組態以將該後混合矩陣(P)應用至該複數個降混信號以獲得該解碼音訊信號。
  22. 用以處理一編碼音訊信號之方法,該編碼音訊信號包含與複數個輸入音訊物件及物件參數(E)相關聯複數個降混信號,該方法包含:將該等降混信號分為與該複數個輸入音訊物件中之一組輸入音訊物件相關聯的複數個降混信號群,單獨地對每一組輸入音訊物件中之該等物件參數(E k)執行至少一個處理步驟以提供群結果,及合併該群結果以提供解碼音訊信號,其中將該複數個降混信號分為該複數個降混信號群,使得該複數個輸入音訊物件中之每一輸入音訊物件屬於僅一組輸入音訊物件。
TW105103125A 2015-02-02 2016-02-01 用以處理編碼音訊信號之裝置及方法 TWI603321B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP15153486 2015-02-02

Publications (2)

Publication Number Publication Date
TW201633290A true TW201633290A (zh) 2016-09-16
TWI603321B TWI603321B (zh) 2017-10-21

Family

ID=52449979

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105103125A TWI603321B (zh) 2015-02-02 2016-02-01 用以處理編碼音訊信號之裝置及方法

Country Status (16)

Country Link
US (3) US10152979B2 (zh)
EP (1) EP3254280B1 (zh)
JP (2) JP6564068B2 (zh)
KR (1) KR102088337B1 (zh)
CN (1) CN107533845B (zh)
AR (1) AR103584A1 (zh)
AU (1) AU2016214553B2 (zh)
CA (1) CA2975431C (zh)
HK (1) HK1247433A1 (zh)
MX (1) MX370034B (zh)
MY (1) MY182955A (zh)
RU (1) RU2678136C1 (zh)
SG (1) SG11201706101RA (zh)
TW (1) TWI603321B (zh)
WO (1) WO2016124524A1 (zh)
ZA (1) ZA201704862B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016214553B2 (en) 2015-02-02 2019-01-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7792722B2 (en) 2004-10-13 2010-09-07 Ares Capital Management Pty Ltd Data processing system and method incorporating feedback
WO2007004830A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101479785B (zh) * 2006-09-29 2013-08-07 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2417459C2 (ru) * 2006-11-15 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
WO2008131903A1 (en) * 2007-04-26 2008-11-06 Dolby Sweden Ab Apparatus and method for synthesizing an output signal
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2313886B1 (en) * 2008-08-11 2019-02-27 Nokia Technologies Oy Multichannel audio coder and decoder
US20100042446A1 (en) 2008-08-12 2010-02-18 Bank Of America Systems and methods for providing core property review
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
EP2446435B1 (en) * 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
EP2686654A4 (en) * 2011-03-16 2015-03-11 Dts Inc CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
TWI505262B (zh) 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP6045696B2 (ja) * 2012-07-31 2016-12-14 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
EP3127109B1 (en) * 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
CN112954580B (zh) * 2014-12-11 2022-06-28 杜比实验室特许公司 元数据保留的音频对象聚类
AU2016214553B2 (en) 2015-02-02 2019-01-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal

Also Published As

Publication number Publication date
EP3254280B1 (en) 2024-03-27
EP3254280C0 (en) 2024-03-27
CN107533845A (zh) 2018-01-02
BR112017015930A2 (pt) 2018-03-27
MY182955A (en) 2021-02-05
CN107533845B (zh) 2020-12-22
JP6564068B2 (ja) 2019-08-21
US10152979B2 (en) 2018-12-11
WO2016124524A1 (en) 2016-08-11
MX370034B (es) 2019-11-28
JP6906570B2 (ja) 2021-07-21
CA2975431A1 (en) 2016-08-11
US20190108847A1 (en) 2019-04-11
AR103584A1 (es) 2017-05-17
TWI603321B (zh) 2017-10-21
HK1247433A1 (zh) 2018-09-21
SG11201706101RA (en) 2017-08-30
AU2016214553B2 (en) 2019-01-31
US11004455B2 (en) 2021-05-11
JP2018507444A (ja) 2018-03-15
ZA201704862B (en) 2019-06-26
MX2017009769A (es) 2018-03-28
JP2019219669A (ja) 2019-12-26
CA2975431C (en) 2019-09-17
US20170323647A1 (en) 2017-11-09
KR20170110680A (ko) 2017-10-11
US20200194012A1 (en) 2020-06-18
AU2016214553A1 (en) 2017-09-07
US10529344B2 (en) 2020-01-07
EP3254280A1 (en) 2017-12-13
KR102088337B1 (ko) 2020-03-13
RU2678136C1 (ru) 2019-01-23

Similar Documents

Publication Publication Date Title
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
EP2477188A1 (en) Encoding and decoding of slot positions of events in an audio signal frame
EP1808047A1 (en) Multichannel audio signal decoding using de-correlated signals
US11037578B2 (en) Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
KR20150032734A (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования
KR20170063657A (ko) 오디오 인코더 및 디코더
WO2015145782A1 (en) Apparatus and method for surround audio signal processing
US11004455B2 (en) Apparatus and method for processing an encoded audio signal
Kim et al. Binaural decoding for efficient multi-channel audio service in network environment
US20230335142A1 (en) Processing parametrically coded audio
BR112017015930B1 (pt) Aparelho e método para processar um sinal de áudio codificado