TWI745795B - 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式 - Google Patents

使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式 Download PDF

Info

Publication number
TWI745795B
TWI745795B TW108144763A TW108144763A TWI745795B TW I745795 B TWI745795 B TW I745795B TW 108144763 A TW108144763 A TW 108144763A TW 108144763 A TW108144763 A TW 108144763A TW I745795 B TWI745795 B TW I745795B
Authority
TW
Taiwan
Prior art keywords
order
sound field
component
signal
sound
Prior art date
Application number
TW108144763A
Other languages
English (en)
Other versions
TW202038214A (zh
Inventor
古拉米 福契斯
奧莉薇 錫蓋特
斯里坎特 寇斯
史蒂芬 多伊拉
馬庫斯 穆爾特斯
法比恩 庫奇
亞歷山大 布泰翁
安德里亞 艾肯希爾
史蒂芬 拜爾
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202038214A publication Critical patent/TW202038214A/zh
Application granted granted Critical
Publication of TWI745795B publication Critical patent/TWI745795B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一種裝置,用於使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述,其包含:一輸入信號分析器,用於分析該輸入信號以導出方向數據及擴散性數據;一低階分量產生器,用於從該輸入信號產生一低階聲場描述直到一預定階次及模式,其中該低階分量產生器配置成用以通過複製或採用該輸入信號或執行該輸入信號的該多個聲道的一加權組合來導出該低階聲場描述;一中階分量產生器,用於使用至少一個直流部分及至少一個擴散部分的一合成,該擴散部分使用該方向數據及該擴散性數據,在該預定階次之上或在該預定階次,及在該預定模式之上,並且在一第一截斷階次之下或在該第一截斷階次來產生一中階聲場描述,使得該中階聲場描述包含一直流貢獻及一擴散貢獻;以及一高階分量產生器,用於使用至少一個直流部分的一合成來產生一高階聲場描述,該高階聲場描述具有在該第一截斷階次之上的一分量,其中該高階聲場描述僅包含一直流貢獻。

Description

使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
本發明涉及音訊編碼,特別是使用一個或多個聲音分量產生器從一輸入信號產生一聲場描述。
方向性音訊編碼(Directional Audio Coding, DirAC)技術(參考文獻[1])是一種分析及再現空間聲音的有效方法。DirAC使用基於到達方向(direction of arrival, DOA)及每個頻寬測量到的擴散的一種聲場感知刺激的表示。它是基於這樣的假設,即某個時刻和一個關鍵頻寬,聽覺系統的空間分辨率受限於解碼一個用於方向的提示及另一個用於耳間連慣性的提示。然後,空間聲音通過交叉衰減的兩個流在頻域中呈現,該兩個流:一非方向擴散流及一方向非擴散流。
DirAC最初用於錄製B格式聲音,但是也可延伸用於匹配一特定揚聲器設定,例如5.1(參考文獻[2]),的麥克風信號或任何麥克風陣列的配置(參考文獻[5])。在最新的案例中,通過錄製一中間格式的信號而不是錄製用於一特定揚聲器設定的信號可以實現更多的靈活性。
這樣的一種中間格式,其在實際中可以良好地建立,經由(高階)球形環繞聲(參考文獻[3])來呈現。從一球形環繞聲信號,可以產生每一個期望的揚聲器設定的信號,包含用於耳機再現的雙耳信號。這需要一種特定的渲染器(renderer),其使用一線性球形環繞聲渲染器(參考文獻[3])或一參數化渲染器(例如方向性音訊編碼(DirAC))施加於該球形環繞聲信號。
一球形環繞聲信號可以呈現為一多聲道信號,其中每一個聲道(稱為球形環繞聲分量)等效於所謂的空間基礎函數的係數。以這些空間基礎函數的一加權總和(以該加權相對應於該係數),可以重建在該錄製位置中的該原始聲場(參考文獻[3])。因此,空間基礎函數係數(即,該球形環繞聲分量)代表該錄製位置中的該聲場的一緊湊描述。存在有不同類型的空間基礎函數,例如球形諧波(spherical harmonics, SHs)(參考文獻[3])或圓柱諧波(cylindrical harmonics, CHs)(參考文獻[3])。當描述在2D空間中的聲場時(例如,用於2D聲音再現),可以使用CHs,而SHs可以用來描述在2D與3D空間中的聲場(例如,用於2D與3D聲音再現)。
例如,從一特定方向
Figure 02_image001
到達的一音訊信號
Figure 02_image003
導致一空間音訊信號
Figure 02_image005
可以通過擴展該球形諧波直到一截斷階次H而以球形環繞聲格式呈現:
Figure 02_image007
其中
Figure 02_image009
是階次l及模式m的該球形諧波,並且
Figure 02_image011
是擴展係數。隨著截斷階次H的增加,該擴展會導致一個更精確的空間表示。直到階次H等於4的球形諧波以球形環繞聲聲道編號(Ambisonics Channel Numbering, ACN)索引被繪示在用於階次n及模式m的第1a圖中。
DirAC已經擴展用於從一第一階球形環繞聲信號 (first order Ambisonics signal, FOA稱為B格式)或從不同的麥克風陣列遞送更高階的球形環繞聲信號(參考文獻[5])。這份文件著重於一種更有效率的方法,用以從DirAC參數及一參考信號來合成高階球形環繞聲信號。在這份文件中,該參考信號,也稱為降混信號,被視為一種較高階的球形環繞聲信號的一子集或該球形環繞聲分量的一子集的一線性組合。
此外,本發明考慮了使用DirAC用於以該音訊場景的參數化形式來傳送的情況。在這樣的情況下,該降混信號通過一傳統的音訊核心編碼器來編碼,而該DirAC參數以一壓縮方式作為輔助資訊來傳送。本方法的優點是考慮了在該音訊編碼期間發生量化誤差。
以下,呈現了基於DirAC的一空間音訊編碼系統的概述,該空間音訊編碼系統設計用於沈浸式語音及音訊服務(Immersive Voice and Audio Services, IVAS)。這代表不同上下文中的一個,例如一DirAC空間音訊編碼器的一系統概述。這種系統的目的是能夠處理代表音訊場景的不同空間音訊格式,並且以低位元率對其進行編碼,以及在傳送後儘可能忠實地再現原始音訊場景。
該系統可以接受音頻場景的不同表示作為輸入。該輸入音訊場景可以通過旨在在不同揚聲器位置處再現的多聲道信號、聽覺對象及描述對象隨時間變化的位置的元數據、或代表收聽者或參考位置的聲場的一第一階或更高階的球形環繞聲格式來捕獲。
較佳地,該系統基於3GPP增強語音服務(Enhanced Voice Services, EVS),因為該解決方案預計以低等待時間運行以啟用移動網絡上的對話服務。
如第1b圖所示,該編碼器(IVAS編碼器)能夠支持分別或同時呈現給該系統的不同音訊格式。音訊信號可以本質上是聲學的,可以通過麥克風拾取的信號,也可以本質上是電性的,其應該被傳送到該揚聲器。支持的音訊格式可以是多聲道信號、第一階及較高階的球形環繞聲分量以及音訊對象。也可以通過組合不同的輸入格式來描述一複雜音訊場景。所有的音訊格式傳送到該DirAC分析,該分析提取該完整音訊場景的一參數化表示。以參數的每個時間頻率單位來測量一到達方向及一擴散性。在該DirAC分析之後是一空間元數據編碼器,其對元數據編碼器進行量化及編碼,以獲得一低位元率參數化表示。
與該與參數一起,對從不同來源或音訊輸入信號導出的一降混信號進行編碼,用於通過一傳統的音訊核心編碼器進行傳送。在這種情況下,一種基於EVS的音頻編碼器被採用,用於對該降混信號進行編碼。該降混信號包括不同的聲道,稱為傳輸聲道:該降混信號可以是例如組成B格式信號的四個係數信號、一立體聲對、或取決於目標位元率的一單聲降混。編碼後空間參數及編碼後音訊位元流再通過該通訊聲道傳送之前被多路複用。
支持不同音訊格是的該基於DirAC的空間音訊編碼的該編碼器側在第1b圖中示出。一聲音/電性輸入1000輸入到一編碼器界面1010,其中該編碼器界面具有繪示為1013的一特定功能,該特定功能用於第一階球形環繞聲(first order Ambisonics, FOA)或高階球形環繞聲(high order Ambisonics, HOA)。此外,該編碼器界面具有用於多聲道(multichannel, MC)數據的功能,例如立體聲數據、5.1數據或具有兩個或五個以上聲道的數據。此外,該編碼器界面1010具有用於對象編碼的功能,例如,如繪示為1011的空間音訊對象編碼(spatial audio object coding, SAOC)。該IVAS編碼器包括具有一DirAC分析框1021及一降混(downmix, DMX)框1022。通過降混框1022輸出的該信號經由一IVAS核心編碼器1040,例如AAC或EVS編碼器,進行編碼,並且通過該DirAC分析框1021產生的該元數據使用一DirAC元數據編碼器1030來進行編碼。
在第2圖中所是的該編碼器中,該傳輸聲道通過該核心解碼器來解碼,而首先該DirAC元數據被解碼,在與該解碼後傳輸聲道一起傳遞到該DirAC合成之前。在此階段,可以考慮不同的選擇。可以要求直接在任何揚聲器或耳機配置上播放音訊場景,這在傳統的DirAC系統(第2圖中的MC)中通常是可行的。
該解碼器也可以傳遞在該編碼器側呈現的各個對象(第2圖中的對象)。
可替代地,也可以將該場景呈現為球形環繞聲格式,用於其他進一步的操作,例如場景的旋轉、反射或移動(第2圖中的FOA/HOA),或是用於使用原始系統中未定義的一外部渲染器。
傳遞不同音訊格式的DirAC空間音訊編碼的解碼器被繪示在第2圖中,並且解碼器包含一IVAS解碼器1045及隨後連接的解碼器界面1046。該IVAS解碼器1045包含一IVAS核心解碼器1060,其配置成用以執行經由第1b圖的IVAS核心編碼器1040所編碼的內容的一解碼操作。此外,提供了一DirAC元數據解碼器1050,其傳遞用於解碼經由該DirAC元數據編碼器1030所編碼的內容的解碼功能。一DirAC合成器1070接收來自DirAC元數據解碼器1050及IVAS核心解碼器1060的數據,並且不論是否使用一些使用者互動,該輸出被輸入至一解碼器界面1046,其產生如框1083的FOA/HOA數據、如框1082所示的多聲道數據(MC數據)、或如框1080所示的對象數據。
使用DirAC範例的一傳統的HOA合成繪示在第3圖中。稱為降混信號的一種輸入信號通過一頻率濾波器組進行時間頻率分析。該頻率濾波器組2000可以是像複合值QMF的一複合值濾波器組或像STFT的一種框轉換。該HOA合成在輸出時產生包含
Figure 02_image013
個分量的階次H的一球形環繞聲信號。可選地,它也可以輸出呈現在一特定揚聲器佈局上的該球形環繞聲信號。以下,我們將詳細說明如何在某些情況下,伴隨著輸入空間參數從該降混信號獲得
Figure 02_image013
個分量。
該降混信號可以是該原始麥克風信號或是描述該原始音訊場景的原始信號的混合。例如,如果該音訊場景是通過一聲場麥克風所捕獲的,則該降混信號可以是該場景的該全向分量(W)、一立體聲降混(L/R)或該第一階球形環繞聲信號(FOA)。
對於每一個時間頻率圖塊,如果該降混信號包含用來確定這些DirAC參數的充分資訊,一聲音方向,也可以稱為到達方向(Direction-of-Arrival, DOA),及一擴散因子分別地通過該方向估計器2020及該擴散估計器2010來估計。例如,如果該降混信號是一第一階球形環繞聲信號(FOA)就是這種情況。可替代地,或者如果該降混信號不足以確定這些參數,該參數可以通過包含該空間參數的一輸入位元流直接傳遞至該DirAC合成。在音訊傳送應用的情況下,該位元流可以包括例如作為輔助資訊接收的量化後和編碼後參數。在這種情況下,該參數從該原始麥克風信號或在如開關2030或2040所示的該編碼器側提供給該DirAC分析模塊的該輸入音訊格式所導出。
該聲音方向被一方向增益評估器2050用來,為複數個時間頻率圖塊中的每一個時間頻率圖塊,評估
Figure 02_image013
個方向增益
Figure 02_image015
中的一個或多個組,其中H是該合成後球形環繞聲信號的該階次。
該方向性增益可以通過在要合成的球形環繞聲信號的所需階次(級別)l和模式m下評估每一個估計聲音方向的該空間基礎函數而獲得。該聲音方向可以用一單位標準向量
Figure 02_image017
或一方位角
Figure 02_image019
和/或仰角
Figure 02_image021
表示,例如以下關係:
Figure 02_image023
估計或獲得該聲音方向後,可以確定所需階次(級別)l和模式m的一空間基礎函數的一響應,例如,通過將具有SN3D標準化的實值球形諧波視為空間基礎函數:
Figure 02_image025
以範圍為0 ≤ l ≤ H和-l ≤ m ≤ l。
Figure 02_image027
是勒讓德函數(Legendre-functions),而
Figure 02_image029
是用於勒讓德函數與三角函數的一標準項,其對於SN3D採用以下形式:
Figure 02_image031
其中m等於零時,Kronecker符號(Kronecker-delta)
Figure 02_image033
是一,否則為零。然後,為指數的每一個時間頻率圖塊,該方向增益直接地推論為:
Figure 02_image035
通過從該降混信號推導一參考信號
Figure 02_image037
並且乘以該方向增益及該擴散性
Figure 02_image039
的一因子函數而計算出該直流聲音球形環繞聲分量
Figure 02_image041
Figure 02_image043
例如,該參考信號
Figure 02_image037
可以是該降混信號的該全向分量或該降混信號的K個聲道的一線性組合。
該擴散聲音球形環繞聲分量可以通過使用用於從所有可能方向到達的聲音的一空間基礎函數的一響應來模擬。一個示例是通過考慮在所有可能角度
Figure 02_image045
Figure 02_image047
上的該空間基礎函數
Figure 02_image049
的平方大小的積分來定義該平均響應
Figure 02_image051
Figure 02_image053
該擴散聲音球形環繞聲分量
Figure 02_image055
是從一信號
Figure 02_image057
乘以該平均響應與該擴散性
Figure 02_image039
的一因子所計算出來的:
Figure 02_image059
該信號
Figure 02_image061
可以通過使用施加到該參考信號
Figure 02_image037
的不同的去相關器而獲得。
最後,該直流聲音球形環繞聲分量及該擴散聲音球形環繞聲分量組合2060,例如,通過總和運算,以獲得對於該時間頻率圖塊(k, n)的所需階次(級別)l及模式m的最終球形環繞聲分量
Figure 02_image063
,例如
Figure 02_image065
該已獲得的球形環繞聲分量可以使用一反向濾波器組2080或一反向STFT轉換回該時域,儲存、傳送或例如用於空間聲音再現應用。可替代地,在將該揚聲器信號或該雙耳信號轉換成該時域之前,對每一個頻寬施加一線性球形環繞聲渲染器2070,用於獲得將要在一特定揚聲器或耳機上播放的信號。
應當注意的是,參考文獻[5]還教導了該擴散聲音分量
Figure 02_image061
僅可以合成直到階次L,其中L小於H。由於減少了去相關器的使用,這在降低計算複雜度的同時避免了合成偽像。
本發明的一目的在於提供一種改進的概念,用於從一輸入信號產生一聲場描述。
這個目的可以通過如請求項1的用於產生一聲場描述的一種裝置、如請求項20的產生一聲場描述的一種方法或如請求項21的電腦程式來達成。
根據第一方面的本發明基於以下發現:不必對所有已產生的分量執行包括一擴散部分計算的一聲場分量合成。執行一擴散分量合成僅直到一特定階次就足夠了。然而,為了不產生任何能量波動或能量誤差,在產生具有一擴散分量及一直流分量的一第一聲場分量組的聲場分量時,執行了一能量補償,該能量補償取決於該擴散性數據及該第二聲場分量組中的聲場分量的一數量、該第一聲場分量組中的擴散分量的一數量、該第一聲場分量組的聲場分量的一最大階次與該第二聲場分量組的聲場分量的一最大階次其中的至少一個。特別是,根據本發明的第一方面,一種裝置,用於從包含一個或多個聲道的一輸入信號產生一聲場描述,其包含:一輸入信號分析器,用於從該輸入信號獲得擴散性數據;以及一聲音分量產生器,用於從該輸入信號產生一第一聲場分量組的一個或多個聲場分量,對於每一個聲場分量,該第一聲場分量組具有一直流分量及一擴散分量,並且用於從該輸入信號產生一第二聲場分量組,該第二聲場分量組僅具有一直流分量。特別是,該聲音分量產生器當產生該第一聲場分量組時執行一能量補償,該能量補償取決於該擴散性數據及該第二聲場分量組中的聲場分量的一數量、該第一聲場分量組中的擴散分量的一數量、該第一聲場分量組的聲場分量的一最大階次與該第二聲場分量組的聲場分量的一最大階次其中的至少一個。
該第一聲場分量組可以包含低階聲場分量及中階聲場分量,而該第二聲場分量組包含高階聲場分量。
根據本發明的一第二方面,一種裝置,用於從包含至少兩個聲道的一輸入信號產生一聲場描述,該裝置包含一輸入信號分析器,用於從該輸入信號獲得方向數據及擴散性數據。該裝置還包含一估計器,用於估計一第一能量或振幅相關的測量及估計一第二能量或振幅相關的測量,該第一能量或振幅相關的測量用於從該輸入信號所導出的一全向分量,該第二能量或振幅相關的測量用於從該輸入信號所導出的一方向分量。此外,該裝置還包含一聲音分量產生器,用於產生該聲場的多個聲場分量,其中該聲音分量產生器配置成用以使用該第一能量或振幅相關的測量、該第二能量或振幅相關的測量、該方向數據與該擴散性數據來執行該方向分量的一能量補償。
特別是,本發明的該第二方面基於以下發現,其中用於產生一聲場描述的該設備接收一方向分量,並且同時也接收方向數據及擴散性數據,該方向數據及擴散性數據可用於補償由於該編碼器內的該方向分量或全向分量的量化或任何其他處理而可能引入的任何誤差。因此,該方向數據及擴散性數據並非簡單地用於產生聲場描述,而是這些數據會第二次地用於校正該方向分量,以便於撤消或至少部分撤消,因此補償了該方向分量的一能量損失。
較佳地,對在一解碼器界面處接收的低階分量執行該能量補償,或者從產生該輸入信號的一音訊編碼器接收的一數據中產生的一低階分量執行該能量補償。
根據本發明的一第三方面,一種裝置,用於使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述,包含一輸入信號分析器、一低階分量產生器、一中階分量產生器以及一高階分量產生器。特別是,不同的“子”產生器配置成用以基於一特定處理程序以相應的階次來產生聲場分量,該特定處理程序對於低階、中階或高階分量產生器中的每一個都是不同的。這確保了一方面在處理要求,另一方面在音訊品質要求與另一方面在實用性程序之間的一最佳折衷。通過這樣的程序,例如去相關器的使用僅限於該中階分量的產生,而對於該低階分量的產生及該高階分量的產生,避免了任何容易出現偽像的去相關器。另一方面,較佳地一能量補償被執行用於擴散分量能量損失,並且這種能量補償僅在該低階聲場分量內或僅在該中階聲場分量內或在該低階聲場分量與該中階聲場分量兩者中執行。較佳地,使用已傳送的方向擴散性數據來完成用於在該低階分量產生器中形成的該方向分量的一能量補償。
較佳的實施例涉及一種裝置、一種方法或一種電腦程式,用於使用一方向性音訊編碼範例(DirAC)(一種用於空間音訊處理的感知刺激技術),來合成一(較高階)球形環繞聲信號。
實施例涉及一種有效方法,用於從空間參數及一降混信號來合成一音訊場景的一球形環繞聲表示。在該方法的應用中,但不限於,該音訊場景被傳送並且因此被編碼用以減少傳送數據量。然後,該降混信號的聲道的數量及品質強烈地受限於可用於該傳送的位元率。實施例涉及一種有效方式,其利用包含在所該傳送的降混信號中的資訊以減少該合成的複雜性,同時提高品質。
本發明的另一個實施例涉及該聲場的該擴散分量,該聲場的擴散分量可以被限制為僅模擬直到該合成分量的一預定階次,以避免合成偽像。這個實施例提供了一種方法,通過放大該降混信號來補償所產生的能量損失。
另一個實施例涉及該聲場的該方向分量,其特性可以在該降混信號內改變。該降混信號可以進一步地能量標準化,以保持由一傳送方向參數決定但是在傳送期間由於注入量化或其他誤差而被破壞的該能量關係。
在下文中,參考圖式所描述的本發明的較佳實施例,其中:
第6圖示出了根據本發明的一第一方面的一種裝置,用於產生一聲場描述。該裝置包含一輸入信號分析器600,用於從該輸入信號,如第6圖左側所示,獲得擴散性數據。此外,該裝置包含一聲音分量產生器650,用於從該輸入信號產生一第一聲場分量組的一個或多個聲場分量,對於每一個聲場分量,該第一聲場分量組具有一直流分量及一擴散分量。此外,該聲音分量產生器從該輸入信號產生一第二聲場分量組,該第二聲場分量組僅具有一直流分量。
特別是,該聲音分量產生器配置成用以當產生該第一聲場分量組時執行一能量補償。該能量補償取決於該擴散性數據及該第二聲場分量組中的聲場分量的一數量或該第二聲場分量組的聲場分量的一最大階次。特別是,根據本發明的該第一方面,執行一能量補償以補償一能量損失,因為對於該第二聲場分量組,僅產生直流分量而未產生任何擴散分量。
與此相反,在第一聲場分量組中,該直流部分及該擴散部分包括在該聲場分量中。因此,該聲音分量產生器650會產生如上方陣列所示的聲場分量,該聲場分量僅具有一直流部分而沒有一擴散部分,如在其它圖式中由參考標記830所示,並且該聲音分量產生器產生聲場分量,該聲場分量具有一直流部分及一擴散部分,如參考標記810、820所示,這將在後面結合其它圖式進行說明。
第7圖示出了根據本發明的該第二方面的一種裝置,用於從包含至少兩個聲道的一輸入信號產生一聲場描述。該裝置包含一輸入信號分析器600,用於從該輸入信號獲得方向數據及擴散性數據。此外,設置有一估計器720,用於估計一第一能量或振幅相關的測量及估計一第二能量或振幅相關的測量,該第一能量或振幅相關的測量用於從該輸入信號所導出的一全向分量,該第二能量或振幅相關的測量用於從該輸入信號所導出的一方向分量。
此外,該用於產生該聲場描述的該裝置包含一聲音分量產生器750,用於產生該聲場的多個聲場分量,其中該聲音分量產生器750配置成用以使用該第一振幅測量、該第二能量或振幅相關的測量、該方向數據與該擴散性數據來執行該方向分量的一能量補償。因此,根據本發明的第二方面,該聲音分量產生器產生校正的/補償的方向(直流)分量,並且如果相應地實現,則與該輸入信號相同階次的其他分量,例如全向分量,其較佳地不進行能量補償或僅對於第6圖中討論的擴散能量補償的目的進行能量補償。應當注意的是,該與振幅相關的測量可以是該方向分量或全向分量(例如,B0 和B1 )的標準值或數值或絕對值。較佳地,如方程式中所概述的那樣,優選由2的功率導出的功率或能量,但是也可以使用應用於標準值或數值或絕對值的其他功率來獲得能量或振幅相關的測量。
在一個實施方式中,根據第二方面,用於產生一聲場描述的該裝置執行包含在包含至少兩個聲道的該輸入信號中該方向信號分量的一能量補償,使得一方向分量包含在該輸入信號中,或可以從該輸入信號中計算得出,例如通過計算兩個通道之間的差值。這樣的裝置僅能執行一校正,而不會產生任何較高階的數據。然而,在其它實施例中,該聲音分量產生器還配置成用以從其他階次產生其他聲場分量,如稍後描述的參考標記820、830所示,但是對於這些(或較高階)聲音分量,沒有對應的聲音分量包含在該輸入信號中,則不必執行任何方向分量能量補償。
第8圖示出了本發明的該第三方面的一種裝置,用於使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述,的一較佳實施方式。該裝置包含一輸入信號分析器600,用於分析該輸入信號以導出方向數據及擴散性數據。此外,該裝置包含一低階分量產生器810,用於從該輸入信號產生一低階聲場描述直到一預定階次及一預定模式,其中該低階分量產生器810配置成用以通過複製或採用該輸入信號或該輸入信號的一部分來導出該低階聲場描述,或當該輸入信號是一多聲道信號時,執行該輸入信號的該多個聲道的一加權組合來導出該低階聲場描述。此外,該裝置包含一中階分量產生器820,用於使用至少一個直流部分及至少一個擴散部分的一合成,該擴散部分使用該方向數據及該擴散性數據,在該預定階次之上或在該預定階次,及在該預定模式之上,並且在一第一截斷階次之下或在該第一截斷階次來產生一中階聲場描述,使得該中階聲場描述包含一直流貢獻及一擴散貢獻。
用於產生該聲場描述的該裝置還包含一高階分量產生器830,用於使用至少一個直流部分的一合成來產生一高階聲場描述,該高階聲場描述具有在該第一截斷階次之上的一分量,其中該高階聲場描述僅包含一直流貢獻。因此,在一實施例中,至少一個直流部分的該合成被執行而無需任何擴散分量合成,使得該高階聲場描述僅包含一直流貢獻。
因此,該低階分量產生器810產生該低階聲場描述,該中階分量產生器820產生該中階聲場描述,而該高階分量產生器產生該高階聲場描述。該低階聲場描述可擴展到一特定階次及模式,例如在第1圖所示的高階球形環繞聲球形分量的內文中。然而,根據本發明的第一、第二和/或第三方面,也可以產生其它聲場描述,例如具有圓柱函數的一聲場描述或具有與任何球形環繞聲表示形式不同的任何其他分量的一聲場描述。
該中階分量產生器820該預定階次或模式之上並且直到一特定截斷階次產生聲場分量,該特定截斷階次在以下描述中也用L指示。最後,該高階分量產生器830配置成用以施加從該截斷階次L產生的該聲場分量到到在以下描述中指示為H的最大階次。
根據實施方式,第6圖的該聲音分量產生器650所提供的該能量補償不能施加到該低階分量產生器810或該中階分量產生器820內,如第6圖的對應參考標記所示,用於直流/擴散聲音分量。此外,通過聲音分量產生器650產生的聲場分量所產生的該第二聲場分量組對應於第8圖的該高階分量產生器830的該輸出,由在第6圖中的直流/非擴散符號的下方的參考標記830所示。
關於第7圖,指示了該方向分量能量補償較佳地在第8圖所示的該低階分量產生器810內執行。即,對對 一些或全部聲場分量執行直到該預定階次及該預定模式,如從框750出來的上方箭頭之上的參考標記810所示。相對於從第7圖中的框750出來的上方陰影箭頭示出了中階分量及高階分量的產生,如由在上方箭頭之下的指示的參考標記820、830所示。因此,第8圖的該低階分量產生器810可以施加根據該第一方面的該擴散能量補償及根據該第二方面的該方向(直流)信號補償,而該中階分量產生器820只能執行該擴散分量補償,因為該中階分量產生器產生的輸出數據具有相對於其能量而言可以增強的擴散部分,以便於在輸出信號中具有較高的擴散分量能量預算。
隨後,參考第4圖,示出了在用於產生一聲場描述的一種裝置中本發明的該第一方面、該第二方面及該第三方面的實施方式。
第4圖示出了該輸入信號分析器600。該輸入信號分析器600包含一方向估計器610、一擴散估計器620及開關630、640。該輸入信號分析器600配置成用以分析該輸入信號,通常在一分析濾波器組400之後,以便於為每一個時間/頻率找到指示為DOA的方向資訊和/或擴散資訊。該方向資訊DOA和/或該擴散資訊也可以源於位元流。因此,在無法從該輸入信號中檢索這個數據的情況下,即當他輸入信號僅具有一全向分量W時,該輸入信號分析器從該位元流檢索方向數據和/或擴散性數據。例如當該輸入信號是具有一左聲道L和一右聲道R的兩聲道信號時,則可以執行一分析以獲得方向和/或擴散性數據。當該輸入信號是一第一階球形環繞聲信號(FOA)或具有兩個以上聲道的任何其他信號時(例如一A格式信號或一B格式信號),則執行由框610或620所執行的一實際信號分析。然而,當該位元流被分析,以便於從該位元流檢索該方向數據和/或該擴散性數據時,這也代表通過該輸入信號分析器600一分析已經完成,但是沒有像在其他情況下那樣進行一實際信號分析。在後者的情況下,該分析是在該位元流上完成的,並且該輸入信號包含該降混信號及該位元流數據
此外,第4圖所示的用於產生一聲場描述的該裝置包含一方向增益計算框410、一分離器420、一組合器430、一解碼器440及一合成濾波器組450。該合成濾波器組450接收用於一高階球形環繞聲表示的數據、或要通過耳機播放的一信號,即雙耳信號,或在一特定揚聲器設定中將要通過揚聲器播放的一信號,該特定揚聲器設定代表一個多聲道信號,適用於來自該聲場描述的該特定揚聲器設定,這通常是與該特定揚聲器設定無關。
此外,用於產生該聲場描述的該裝置包含一聲音分量產生器,該聲音分量產生器通常包含由“產生低階分量”框及“混合低階分量”框組成的該低階分量產生器810。此外,設置有由該產生參考信號框821、去相關器823、824及該混合中階分量框825組成的該中階分量產生器820。並且,在第4圖中還提供了一高階分量產生器830,其包括該混合高階分量框822。此外,提供了一(擴散)補償增益計算框,其在參考標記910、920、930、940處示出。第12a圖至第12c圖進一步解釋參考標記910至940。
儘管未在第4圖中說明,至少該擴散信號能量補償不僅在如第4圖所示的用於低階的聲音分量產生器中執行,而且這樣的能量補償也可以在該中階分量混合器825中執行。
此外,圖4示出了這樣的情況,其中,對通過該分析濾波器組400產生各個時間/頻率圖塊執行整個處理。因此,為每一個時間/頻率圖塊,一特定DOA值、一特定擴散值及一特定處理以施加這些值並且也施加不同的補償已經完成。此外,為了各個時間/頻率圖塊而產生該聲場分量,而且為了每一個時間/頻率圖塊通過該組合器430完成的組合也時/頻域內進行,並且,另外地,該HOA的該程序在時/頻域中執行,並且然後該濾波器組合成450產生該時域信號,用於具有全頻寬HOA分量的該全頻寬、用於耳機的全頻寬雙耳信號或用於一特定揚聲器設定的揚聲器的具有全頻寬揚聲器信號。
本發明的實施例利用兩個主要原則: ․該擴散聲音球形環繞聲分量
Figure 02_image061
可以限制成僅為了的該合成球形環繞聲信號的該低階分量而合成,直到階次L小於H。 ․通常從該降混信號提取出K個低階球形環繞聲分量,而不需要一完整合成。 。在單聲降混的情況下,該降混通常代表該球形環繞聲信號的該全向分量W。 。在立體聲降混的情況下,該左聲道(L)和該右聲道(R)可以輕鬆轉換為球形環繞聲分量W和Y。
Figure 02_image067
。在一FOA降混的情況下,1階球形環繞聲分量已經可以使用。可替代地,該FOA可以從4聲道降混信號DMX的一線性組合中恢復,例如以A格式:
Figure 02_image069
帶有
Figure 02_image071
Figure 02_image073
在這兩個原則上,還可以應用兩個增強功能: ․直到階次H才對該擴散聲音球形環繞聲分量進行模擬的該能量損失可以通過放大從該降混信號中提取的該K個低階球形環繞聲分量來補償。 ․在傳送應用中將該降混信號失真地編碼,該傳送的降混信號被量化誤差所破壞,量化誤差可以通過限制從該降混信號中提取的該K個低階球形環繞聲分量的該能量關係來緩解。
第4圖示出了新方法的實施例。與第3圖所示狀態的一個不同是混合處理的差異,該差異根據將要合成的該球形環繞聲分量的階次而不同。該低階的該分量主要是從該降混信號直接提取的該低階分量來確定。該低階分量的混合可以很簡單,就像將該已提取分量直接複製到該輸出中一樣。
然而,在較佳的實施例中,通過施加一能量補償、擴散函數及該截斷階次L和H,或通過施加一能量標準化、擴散函數及該聲場方向,或通過同時施加兩者來進一步處理該已提取的分量。該中階分量的混合實際上類似於最新的方法(除了一可選的擴散補償),並且產生及組合直流與擴散聲音球形環繞聲分量直到截斷階次L,但是忽略已經通過低階分量的該混合而合成的該K個低階分量。該高階分量的混合包含產生剩餘
Figure 02_image075
個球形環繞聲分量直到截斷階次H,但僅用於該直流聲音而且忽略了該擴散聲音。在下文中,詳細描述了該低階分量的混合或產生。
該第一方面涉及一般在第6圖中示出的該能量補償,其給出了在該第一方面上的一處理概述。在不喪失一般性的情況下,對於
Figure 02_image077
的具體情況解釋了該原理。
第5圖示出了該處理的一概述。該輸入向量
Figure 02_image079
是截斷階次
Figure 02_image081
的一物理上正確的球形周圍聲信號。它包含由
Figure 02_image083
表示的
Figure 02_image085
個係數,其中
Figure 02_image087
是該係數的該階次,而
Figure 02_image089
是該模式。
在HOA合成框820、830中,該球形周圍聲係數是從
Figure 02_image079
所合成直到一最大階次
Figure 02_image091
,其中
Figure 02_image093
。該結果向量
Figure 02_image095
包含階次
Figure 02_image097
的該合成係數,其以
Figure 02_image099
表示。該HOA合成一般取決於該擴散性
Figure 02_image101
(或相似的測量),其描述了當前時間頻率點的該聲場如何擴散。通常,僅當該聲場變為非擴散時,才合成
Figure 02_image095
中的該係數,而在擴散情況下,該係數變為零。這樣可以防止在散佈情況下的偽像,但也會導致一能量損失。該HOA合成的細節將在後面說明。
為了補償上述在擴散情況下的該能量損失,我們在能量補償框650、750中對
Figure 02_image079
施加一能量補償。該結果信號由
Figure 02_image103
表示,並具有與
Figure 02_image079
相同的最大階次L。該能量補償取決於該擴散性(或相似的測量),並在擴散情況下增加該係數的該能量,從而補償在
Figure 02_image095
中該係數的該能量損失。細節稍後會說明。
在該組合框中,將
Figure 02_image103
中的該能量補償係數與
Figure 02_image095
中的該合成係數組合430,以獲得包含所有
Figure 02_image013
個係數的該輸出球形環繞聲信號
Figure 02_image105
,即,
Figure 02_image107
隨後,將一HOA合成作為實施例進行說明。有幾種最新的方法來合成
Figure 02_image095
中的該HOA係數,例如,一種基於協方差的渲染或一種使用方向性音訊編碼(DirAC)的直流渲染。 在最簡單的情況下,
Figure 02_image095
中的該係數是從
Figure 02_image079
中的該全向分量
Figure 02_image109
所合成的,使用
Figure 02_image111
在此,
Figure 02_image113
是該聲音的到達方向(DOA),並且
Figure 02_image115
是階次l和模式m的該球形環繞聲係數的該相應增益。通常,
Figure 02_image115
對應於在DOA
Figure 02_image113
處評估的階次l和模式m的該已知的球形諧波函數的該實值方向圖。如果該聲場為非擴散,則該擴散性
Figure 02_image101
為0,如果聲場為擴散,則擴散性
Figure 02_image101
為1。所以,在擴散錄製情況下,計算出階次L以上的該係數
Figure 02_image117
變為零。基於原始DirAC論文中所述的該有源聲音強度向量,該參數
Figure 02_image045
Figure 02_image047
Figure 02_image119
可以從一第一階球形環繞聲信號
Figure 02_image121
來估計。
接著,討論了該擴散聲音分量的該能量補償。為了導出該能量補償,我們考慮一個典型的聲場模型,其中該聲場由一直流聲音分量及一擴散聲音分量組成,即該全向信號可以寫為
Figure 02_image123
其中,
Figure 02_image125
是該直流聲音(例如平面波),而
Figure 02_image127
是該擴散聲音。假設這個聲場模型及該球形環繞聲係數的一SN3D標準化,則物理上正確的係數
Figure 02_image083
的預期功率由下式給出:
Figure 02_image129
在此,
Figure 02_image131
是該直流聲音的功率並且
Figure 02_image133
是該擴散聲音的功率。此外,
Figure 02_image135
是第l階係數的該方向性因子,其由
Figure 02_image137
給出,其中
Figure 02_image139
是每個階次l的係數的數量。為了計算該能量補償,我們可以考慮DOA
Figure 02_image113
(更精確的能量補償),或者我們假設
Figure 02_image113
是均勻分佈的隨機變量(更實際的方法)。在後一種情況下,
Figure 02_image141
的該期望功率為
Figure 02_image143
以下,使
Figure 02_image145
表示最大階次H的一物理上正確的球形環繞聲信號。使用上述的方程式,
Figure 02_image145
的該總期望功率為
Figure 02_image147
相似地,當使用公共擴散定義
Figure 02_image149
時,該合成球形環繞聲信號
Figure 02_image095
的該總預期功率由下式給出:
Figure 02_image151
該能量補償是通過將因子
Figure 02_image153
乘以
Figure 02_image079
來實現的,即
Figure 02_image155
現在,該輸出球形環繞聲信號
Figure 02_image105
的該總預期功率為
Figure 02_image157
Figure 02_image105
的該總期望功率應與
Figure 02_image145
的該總期望功率匹配。因此,該平方補償因子計算為
Figure 02_image159
這可以簡化為
Figure 02_image161
其中
Figure 02_image101
是該擴散性,
Figure 02_image081
是該輸入球形環繞聲信號的該最大階次,並且
Figure 02_image091
代表該輸出球形環繞聲信號的該最大階次。
Figure 02_image163
可以採用相同的原則,其中
Figure 02_image165
個擴散聲音球形環繞聲分量是使用去相關器及平均擴散響應所合成的。
在特定情況下,
Figure 02_image167
並且沒有擴散聲音分量被合成。對於高頻尤其如此,其中絕對相位是聽不清的,並且去相關器的使用無關緊要。然後,該擴散聲音分量可以通過該能量補償來模擬,該能量補償通過計算該階次Lk及對應於該K個低階分量的模式的該數量mk,其中K代表該第一聲場分量組中的擴散分量的一數量:
Figure 02_image169
然後,該補償增益變為:
Figure 02_image171
隨後,示出了與通常在第7圖中示出的與該第二方面相對應的直流聲音分量的能量標準化的實施例。如上, 該輸入向量
Figure 02_image079
假設為最大階次L的一物理上正確的球形環繞聲信號。然而,該降混輸入信號可能會受到量化誤差的影響,該量化誤差可能會破壞該能量關係。通過標準化該降混輸入信號可以恢復這種關係:
Figure 02_image173
給定聲音的方向及該擴散參數,直流及擴散分量可以表示為:
Figure 02_image175
Figure 02_image177
然後,對於
Figure 02_image103
的每一個分量根據該模型的該預期功率可以表示為:
Figure 02_image179
然後,該補償增益變為:
Figure 02_image181
其中0
Figure 02_image183
並且
Figure 02_image185
可替代地,對於
Figure 02_image103
的每一個分量根據該模型的該預期功率可以表示為:
Figure 02_image187
然後,該補償增益變為:
Figure 02_image189
其中,0
Figure 02_image183
並且
Figure 02_image185
Figure 02_image109
Figure 02_image141
是複數,並且用於
Figure 02_image191
的計算,採用並且平方該標準值或數值或絕對值或該極坐標表示,以獲得該預期功率或能量作為該能量或振幅相關的測量。
擴散聲音分量的該能量補償及直流聲音分量的該能量標準化可以通過施加該形式的一增益來共同實現:
Figure 02_image193
在一實際的實施方式中,該獲得的標準化增益、該補償增益或兩者的組合可以被限制,為了避免導致嚴重均衡的大增益因子,其可能會導致音訊偽像。例如,可以將該增益限制在-6至+6 dB之間。此外,可以在時間和/或頻率上(通過一移動平均值或一遞歸平均值)對該增益進行平滑處理,用於避免突然變化,然後用於穩定處理。
隨後,將總結較佳實施例相對於現有技術的一些益處和優點。 ․在DirAC中的簡化(不太複雜的)HOA合成。 。更多直流合成,而無需所有球形環繞聲分量的一完整合成。 。減少所需的去相關器的數量及其對最終品質的影響。 ․在該傳送過程中減少了該降混信號中引入的編碼偽像。 ․分離用於三個不同階的處理,以在品質與處理效率之間取得一最佳折衷。
隨後,總結了部分或完全包括在以上描述中的幾個發明方面,它們可以彼此獨立地或彼此組合地使用,或者僅以從三個方面中任意選擇地組合兩個方面的某種組合來使用。
第一方面:用於該擴散聲音分量的能量補償
本發明從以下事實開始:當一聲場描述是從包含一個或多個信號分量的一輸入信號所產生時,該輸入信號可以被分析,用於獲得至少一擴散性數據,用於由該輸入信號表示的該聲場。例如,當該輸入信號具有兩個、三個或更多個信號分量時,例如一完整的第一階表示,例如B格式表示或A格式表示時,該輸入信號分析可以是與元數據相關的一個或多個信號分量的擴散性數據的提取,或者該輸入信號分析可以是一真實信號分析。
現在,有一個聲音分量產生器,其產生一第一聲場分量組的一個或多個聲場分量,該第一聲場分量組具有一個直流分量及一個擴散分量。並且,另外,產生一第二聲場分量組的一個或多個聲場分量,其中,對於這樣一個第二聲場分量組,該聲場分量僅具有直流分量。
與一完整聲場產生相反,該當前幀的該擴散值會導致一能量誤差,或該當前正在考慮的時間/頻率段的值不為零。
為了補償這種能量誤差,在產生該第一聲場分量組時執行一能量補償。該能量補償取決於該擴散性數據及該第二聲場分量組中的聲場分量的一數量,代表因為用於該第二聲場分量組的擴散分量的不合成的該能量損失。
在一個實施例中,用於該第一聲場分量組的該聲音分量產生器可以是第4圖的該低階分支,其通過複製或執行一加權加法來提取該第一聲場分量組的聲場分量,即無需執行一複雜的空間基礎函數評估。因此,該第一聲場分量組的該聲場分量不能分別用作一直流部分及一擴散部分。但是,相對於其能量增加該第一聲場分量組的整個聲場分量會自動地增加該擴散部分的能量。
可替代地,用於第一聲場分量組的該一個或多個聲場分量的該聲音分量產生器也可以是第4圖中的該中階分支,其依賴於一分別的直流部分合成及擴散部分合成。在此,我們有分別可用的該擴散部分,並且在一個實施例中,增加了該聲場分量的該擴散部分,而不是增加了該直流部分,以便於補償由於該第二聲場分量組引起的該能量損失。然而,在這種情況下,可替換地,也可以在組合了該直流部分與該擴散部分後,增加該結果聲場分量的該能量。
可替換地,用於該第一聲場分量組的該一個或多個聲場分量的該聲音分量產生器也可以是第4圖中的該低階及中階分量分支。然後,該能量補償只能施加於該低階分量,或者施加於該低階及中階分量。
第二方面:直流聲音分量的能量標準化
在本發明中,從這樣的假設開始,即具有兩個或多個聲音分量的該輸入信號的產生伴隨某種量化。通常,當考慮兩個或多個聲音分量時,該輸入信號的一個聲音分量可以是一全向信號,例如以B格式表示的一全向麥克風信號W,而其他聲音分量可以是各自的方向信號,例如以B格式表示的八字形麥克風信號X、Y、Z,即一第一階球形環繞聲表示。
當一信號編碼器遇到該位元率要求過高而無法實現一完美編碼操作的情況時,那麼一典型的程序就是該編碼器對該全向信號進行盡可能精確的編碼,但是該編碼器僅將較少的位元數量用於該方向分量,該位元數量甚至可以很低,以至於一個或多個方向分量完全減少為零。這代表了一能量不匹配及方向資訊的損失。
但是,現在仍然有這樣的要求,例如,通過具有明確的參數化輔助資訊,即一特定幀或時間/頻率段具有低於一的一特定擴散性及一聲音方向來獲得該要求。因此,可能出現這樣的情況,即根據該參數化數據,具有一特定方向的一特定非擴散分量,而另一方面,該傳送的全向信號及方向信號卻沒有反映這個方向。例如,該全向信號可以在沒有任何重大資訊損失的情況下被傳送,而由於缺乏位元的原因,負責左、右方向的方向信號Y可以被設置為零。在這種情況下,即使在該原始音訊場景中一直流聲音成分來自左側,該傳送的信號也將反映該音訊場景而沒有任何左右方向特徵。
因此,根據第二發明,對該直流聲音分量執行一能量標準化,以便於以便於為了在方向/擴散性數據的幫助下補償該能量關係的破壞,該方向/擴散性數據明確地包含在該輸入信號中,或從該輸入信號本身導出。
這樣的能量標準化可以在第4圖的所有單個處理分支中全部或者分別地施加。
本發明允許使用從該輸入信號接收或從該輸入信號的非妥協部分所導出的該附加參數化數據,因此,可以使用該附加方向數據和從該輸入信號導出的擴散性數據來減少由於某種原因而被包括在該輸入信號中的編碼錯誤。
在本發明中,用於從該輸入信號導出的一全向分量的一能量或振幅相關的測量及用於從該輸入信號導出的該方向分量的一進一步能量或振幅相關的測量被估計並且與該方向數據及該擴散性數據被用於該能量補償。這樣的能量或振幅相關的測量可以是該振幅本身,也可以是該功率,即平方和相加後的振幅,或者可以是能量,例如功率乘以一特定時間段,或者可以是從振幅得出的任何其他測量,且該振幅的指數不同於一個且隨後相加的指數。因此,與指數為2的功率相比,一進一步能量或振幅相關的測量也可能是響度為3的指數。
第三方面:用於不同階次的不同處理程序的系統實施方式
在第4圖所示的該第三發明中,使用包含具有兩個或多個信號分量的單聲信號或多個分量信號的一輸入信號來產生聲場。一信號分析器從該輸入信號導出方向數據及擴散性數據,在該輸入信號具有兩個或多個信號分量的情況下通過使用一明確的信號分析,或者通過分析該輸入信號以提取方向數據及包含在該輸入信號中的擴散性數據作為元數據。
一低階分量產生器從該輸入信號產生一低階聲場描述直到一預定階次並且可用模式下執行此任務,該可用模式可以通過從該輸入信號複製一信號分向或通過在該輸入信號中執行分量的一加權組合來提取。
該中階分量產生器使用至少一個直流分量的一合成及至少一個擴散分量的一合成,該擴散分量使用從該分析器該方向數據及該擴散性數據,來產生一中階聲場描述,該中階聲場描述具有在該預定階次之上或在該預定階次,及在該預定模式之上,並且在低於或等於一第一截斷階次的階次的分量,使得該中階聲場描述包含一直流貢獻及一擴散貢獻。
此外,一高階分量產生器使用至少一個直流分量的一合成而沒有任何擴散分量合成來產生一高階聲場描,該高階聲場描述具有在該第一截斷階次之上或等於等於一第二截斷階次的階次的分量,使得該高階聲場描述僅包含一直流貢獻。
這個系統發明的顯著優點在於,通過盡可能好地利用包含在該輸入信號中該資訊來完成盡可能精確的一低階聲場產生,而同時,由於僅需要複製操作或加權組合操作(例如加權加法),因此執行該低階聲音描述的該處理操作需要很少的努力。因此,可以以最小量的所需處理能力來執行一高品質低階聲音描述。
該中階聲音描述需要較多的處理功率,但是允許使用該分析後的方向數據及通常直到一階次(即高階)之下的擴散性數據,來產生具有直流及擴散貢獻的一非常準確的中階聲音描述,從感知的角度來看,在一聲場描述的一擴散貢獻仍然是需要的。
最後,該高階分量產生器僅通過執行一直流合成而不執行一擴散合成來產生一高階聲音描述。這樣再次降低了所需的處理能力的量,這是因為僅產生了直流分量,而同時,從感知的角度出發,省略該擴散合成的問題並不那麼嚴重。
當然,該第三發明可以與該第一發明和/或該第二發明組合,但即使出於某些原因,當不施加不使用該高階分量產生器進行該擴散合成的補償時,該程序仍然可以實現在一方面的處理能力與另一方面的音頻質量之間的一最佳折衷。對於執行低階能量標準化以補償用於產生該輸入信號的編碼也是如此。在一個實施例中,附加地執行這樣的補償,但是即使沒有這樣的補償,也獲得了顯著的重要優勢。
作為一平行傳送的一象徵性圖式,第4圖示出了通過每一個分量產生器所處理的分量的數量。如第4圖所示的該低階分量產生器810從該輸入信號產生一低階聲場描述直到一預定階次及一預定模式,其中該低階分量產生器810配置成用以通過照原樣複製或採用該輸入信號或執行該輸入信號的該多個聲道的一加權組合來導出該低階聲場描述。如圖所示在產生低階分量框與混合低階分量框之間,K個各自的分量被這個低階分量產生器810所處理。該中階分量產生器820產生該參考信號,並且作為示例性情況,概述了在該濾波器組400的該輸入或該輸出處使用了包含在的該降混信號中的該全向信號。然而,當該輸入信號具有左聲道及右聲道時,則通過將左聲道及右聲道相加而獲得的該單聲信號通過該參考信號發生器821計算出來。此外,通過該中階分量產生器產生數量為(L+1)2 – K個的分量。此外,該高階分量產生器數量為(H+1)2 - (L+1)2 個的分量,使得最後,在該組合器的該輸出處,有(H+1)2 個分量從在該輸入處的單個或數個(少量)進入該濾波器組400。該分離器配置成用以提供各個的方向/擴散性數據給該相應的分量生成器810、820、830。因此,該低階分量產生器接收K個數據項。這通過收集該分離器420與該混合低階分量框的該線來指示。
此外,該混合中階分量框825接收(L+1)2 – K個數據項,並且該混合高階分量框接收(H+1)2 - (L+1)2 個數據項。相應地,各個混合分量框提供一特定數量的聲場分量給該組合器430。
隨後,相對於第9圖示出了第4圖的該低階分量產生器810的一較佳實施方式。該輸入信號輸入到一輸入信號調查器811,並且該輸入信號調查器811將該獲取的資訊提供給一處理模式選擇器812。該處理模式選擇器812配置成用以選擇複數個不同的處理模式,這些模式示意性地示出為由數字1指示的一複製框813、由數字2指示的一採用(照原樣)框814、由數字3與參考標記815指示的一線性組合(第一模式)框815及由數字4指示的一線性組合(第二模式)框816。例如,當該輸入信號調查器811確定輸入信號的一特定種類時,該處理模式選擇器812選擇如第9圖的表所示的多個不同處理模式中的一個。例如,當該輸入信號是一全向信號W或一單聲信號時,則選擇複製813或採用814。然而,當該輸入信號是具有左聲道或右聲道的一立體聲信號或具有5.1或7.1聲道的多聲道信號時,則選擇該線性組合框815,以便於從輸入信號,通過相加左與右聲道並且通過計算左和右聲道之間的一差值來計算一方向分量來該導出全向信號W。
然而,當該輸入信號是一聯合立體聲信號時,即中/側面表示,則選擇框813或框814,因為該中間信號已經呈現為該全向信號,而該側面信號已經呈現為該方向分量。
相似地,當確定該輸入信號是一第一階球形周圍聲信號(FOA)時,則該處理模式選擇器812選擇框813或框814。然而,當該確定輸入信號是A格式信號時,則選擇該線性組合(第二模式)框816,以便於對A格式信號進行一線性轉換以獲得具有該全向分量及該三方向分量的該第一級球形環繞聲信號,該三方向分量代表通過第8圖或第6圖的框810所產生的該K個低階分量框。此外,第9圖示出了一能量補償器900,該能量補償器900配置成用以對該框813至816中的一個的該輸出執行一能量補償,以便於以相應的增益值g和gs 執行該擴散補償和/或該直流補償。
因此,該能量補償器900的該實施方式分別地對應於第6圖和第7圖的該聲音分量產生器650或該聲音分量產生器750的程序。
第10圖示出了第8圖的該中級分量產生器820或該聲音分量產生器650的一部分的一較佳實施方式,用於與該第一聲場分量組有關的框650的直流/擴散下方箭頭。特別地,該中階分量產生器820包含該參考信號產生器821,該參考信號產生器接收該輸入信號並且當輸入信號是單聲信號時,複製或照原樣採用來產生該參考信號,或通過前面討論的計算從該輸入信號中導出該參考信號,或如WO 2017/157803 A1中所說明的,其全部教導通過引用併入本文。
此外,第10圖示出了該方向增益計算器410,其配置成用以為從該特定DOA資訊
Figure 02_image113
與從一特定模式數量m及一特定階次數l來計算該方向增益
Figure 02_image195
。在該較佳實施例中,其中為由k,n所引用的每一個單獨的圖塊在該時/頻域中該處理已經完成,為每一個這樣的時間/頻率圖塊計算該方向增益。該加權器820接收用於該特定時間/頻率圖的該參考信號及該擴散性數據,並且加權器820的結果是該直流部分。該擴散部分是通過該去相關濾波器823所執行的該處理所產生的,並且該隨後的加權器824接收用於該特定時間幀和頻率段的該擴散值
Figure 02_image119
,並且,尤其是,接收指示為Dl通過該平均響應提供器826產生對一特定模式m及階次l的該平均響應,作為輸入,其接收所需的模式m和所需的階次l。
該加權器824的結果是該擴散部分,並且該擴散部分通過該加法器825加入到該直流部分,以便於獲得用於一特定模式m及一特定階次l的一特定中階聲場分量。較佳的是,僅將第6圖所討論的該擴散補償增益施加到通過框823產生的該擴散部分。這可以有利地在通過該(擴散)加權器完成的程序中完成。因此,僅該信號中的該擴散部分得到增強,以便於補償沒有得到完整合成的較高階分量所引起的該擴散能量損失,如第10圖所示。一直流部分僅產生用於該高階分量產生器繪示在第11圖中。基本上,就直流分支而言,該高階分量產生器的實現方式與該中階分量產生器的實現方式相同,但不包括框823、824、825和826。因此,該高階分量產生器僅包括該(直流)加權器822,其從該方向增益計算器410接收輸入數據,並且從該參考信號生成器821接收一參考信號。較佳地,僅產生用於該高階分量產生器及該中階分量產生器的一單個參考信號。然而,視情況而定,兩個框也可以具有各自的參考信號發生器。儘管如此,最好只有一個參考信號發生器。因此,通過該高階分量產生器執行的該處理非常有效率,因為對於該時間/頻率圖塊僅執行具有特定方向增益
Figure 02_image195
與一特定擴散資訊
Figure 02_image119
的單個加權方向。因此,該高階聲場分量可以非常有效率地及迅速地產生,並且因為在輸出信號中未產生的擴散分量或未使用的擴散分量所導致的任何錯誤可以很容易地補償,通過增強該低階聲場分量或較佳地僅增強該中階聲場分量的擴散部分。
通常,該擴散部分不會在通過複製或通過執行一(加權)線性組合所產生的該低階聲場分量內單獨地可獲得。然而,增強這類分量的該能量自動地增強了該擴散部分的該能量。如發明人所發現的,同時增加該直流部分的該能量沒有問題。
隨後參考第12a圖至第12c圖,以進一步示出各個補償增益的計算。
第12a圖示出了第6圖的該聲音分量產生器650的一較佳實施方式。在一個實施例中,使用該擴散值、該最大階次H及該截斷階次L來計算該(擴散)補償增益。在其它實施例中,使用從該低階處理分支810中的該分量的數量所導出的參數Lk來計算該擴散補償增益。此外,取決於參數lk及通過該低階分量生成器實際產生的分量的該數量K來使用參數mk。此外,也使用取決於Lk的值N。第一實施例中的值H、L或H、Lk、mk通常代表在該第二聲場分量組中的聲場分量的該數量(與該第一聲場分量組中的聲音分量的該數量有關)。因此,不合成擴散分量的該分量越多,該能量補償增益就越高。另一方面,可以補償的該低階聲場分量的該數量越高,即乘以該增益因子,該增益因子就可以越低。0通常,該增益因子g總是大於1。
第12a圖示出了通過該(擴散)補償增益計算器910對該增益因子g的計算及這個增益因子對將要“校正”的該(低階)分量的後續施加,該後續施加通過該補償增益施加器900完成。在線性數量的情況下,該補償增益施加器將是一個乘法器,而在對數數量的情況下,該補償增益施加器將是一個加法器。然而,可以取決於框910計算補償增益的特定性質和方式來實現補償增益應用的其他實現。然而,實現該補償增益施加的其它實施方式取決於框910計算補償增益的具體性質和方式。因此,該增益不必一定是一乘法增益,而也可以是任何其他增益。
第12b圖示出了用於該(直流)補償增益處理的一第三實施方式。一(直流)補償增益計算器920接收用於在第12b圖中指示為“全向功率”的該全向分量的該能量或振幅相關的測量作為一輸入。此外,用於該方向分量的該第二能量或振幅相關的測量也輸入到框920作為“方向功率”。 此外,該直流補償增益計算器920另外地接收該資訊QL,或者,可替代地,該資訊N。N等於每階次l的係數的數量(2l + 1),而Ql等於1/N。此外,對於該(直流)補償增益的計算,還需要用於該特定時間/頻率圖塊(k,n)的該方向增益
Figure 02_image195
。例如,該方向增益是從第4圖的該方向增益計算器410所導出的相同數據。該(直流)補償增益
Figure 02_image191
從框920轉發到該補償增益施加器900,其可以以與框900類似的方式實現,即,接收要“校正”的分量並且輸出校正後的分量。
第12c圖示出了將聯合執行的該擴散聲音分量的該能量補償與該直流聲音分量的補償的能量標準化的組合的一較佳實施方式。為此,將該(擴散)補償增益
Figure 02_image153
和該(直流)補償增益
Figure 02_image191
輸入到一增益組合器930。該增益組合器的結果(即,組合增益)被輸入到一增益操縱器940中,該增益操縱器940被實現為一後處理器並且執行最小值或最大值的限制,或者應用一壓縮函數以便於執行某種較軟的限制或在時間或頻率圖塊之間執行一平滑化。受限的該操縱增益可以通過其他後處理方式來壓縮或平滑或處理,然後通過該增益施加器將該後處理的增益施加到一低階分量,以獲得校正後的低階分量。
在線性增益
Figure 02_image153
Figure 02_image191
的情況下,該增益組合器930被實現為一乘法器。在對數增益的情況下,該增益組合器被實現為一加法器。此外,關於參考標記620所指示的圖7的估計器的實現,它概述了只要施加到該振幅的該功率大於1,該估計器620就可以提供任何能量或振幅相關的測量用於全向及方向分量。在一功率為該能量或振幅相關的測量的情況下,該指數等於2。但是,指數在1.5和2.5之間也是有用的。此外,甚至更高的指數或功率也是有用的,例如將3的功率施加到對應於響度值的幅度而不是一功率值。因此,通常,優選使用2或3的功率來提供該能量或振幅相關的測量,但是通常也優選在1.5和4之間的功率。
接著,總結了本發明各方面的幾個例子。
主要示例1a用於該第一方面(用於該擴散聲音分量的能量補償)
1a. 一種裝置,用於從包含一個或多個聲道的一輸入信號產生一聲場描述,該裝置包含:
一輸入信號分析器,用於從該輸入信號獲得擴散性數據;以及
一聲音分量產生器,用於從該輸入信號產生一第一聲場分量組的一個或多個聲場分量,對於每一個聲場分量,該第一聲場分量組具有一直流分量及一擴散分量,並且用於從該輸入信號產生一第二聲場分量組,該第二聲場分量組僅具有一直流分量;
其中該聲音分量產生器配置成用以當產生該第一聲場分量組時執行一能量補償,該能量補償取決於該擴散性數據及該第二聲場分量組中的聲場分量的一數量。
主要示例1b用於該第二方面(用於該直流信號補償的能量標準化)
1b. 一種裝置,用於從包含至少兩個聲道的一輸入信號產生一聲場描述,該裝置包含:
一輸入信號分析器,用於從該輸入信號獲得方向數據及擴散性數據;
一估計器,用於估計一第一振幅相關的測量及估計一第二振幅相關的測量,該第一振幅相關的測量用於從該輸入信號所導出的一全向分量,該第二振幅相關的測量用於從該輸入信號所導出的一方向分量;以及
一聲音分量產生器,用於產生該聲場的多個聲場分量,其中該聲音分量產生器配置成用以使用該第一振幅相關的測量、該第二振幅相關的測量、該方向數據與該擴散性數據來執行該方向分量的一能量補償。
主要示例1c用於該第三方面:具有不同產生器分支的系統實施方式
1c. 一種裝置,用於使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述,該裝置包含:
一輸入信號分析器,用於分析該輸入信號以導出方向數據及擴散性數據;
一低階分量產生器,用於從該輸入信號產生一低階聲音描述直到一預定階次及模式,其中該低階分量產生器配置成用以通過複製或採用該輸入信號或執行該輸入信號的該多個聲道的一加權組合來導出該低階聲音描述;
一中階分量產生器,用於使用至少一個直流部分及至少一個擴散部分的一合成,該擴散部分使用該方向數據及該擴散性數據,在該預定階次之上或在該預定階次,及在該預定模式之上,並且在一第一截斷階次之下或在該第一截斷階次來產生一中階聲音描述,使得該中階聲音描述包含一直流貢獻及一擴散貢獻;以及
一高階分量產生器,用於使用至少一個直流部分的一合成來產生一高階聲音描述,該高階聲音描述具有在該第一截斷階次之上的一分量,其中該高階聲音描述僅包含一直流貢獻。
2. 根據示例1a、1b、1c的裝置,
其中,該低階聲音描述、該中階聲音描述或該高階描述包含該正交的輸出聲場的聲場分量,使得任意兩個聲音描述不包含一個相同的聲場分量;或
其中該中階分量產生器產生在低於或在該低階分量產生器不使用的一第一截斷階次的分量。
3. 前述示例之一的裝置,包含:
接收具有一個或多個音訊聲道的一輸入降混信號,該音訊聲道代表該聲場;
接收或確定代表該聲場的一個或多個聲音方向;
使用該一個或多個聲音方向來評估一個或多個空間基礎函數;
從該輸入降混信號聲道的一第一加權組合導出一個或多個聲場分量的一第一組;
從該輸入降混信號聲道的一第二加權組合及該一個或多個評估後空間基礎函數導出一個或多個聲場分量的一第二組;
組合一個或多個聲場分量的該第一組與一個或多個聲場分量的該第二組。
4. 前述示例之一的裝置,其中第一組聲場分量和第二組聲場分量正交。
5. 前述示例之一的裝置,其中該聲場分量是正交基礎函數的係數。
6. 前述示例之一的裝置,其中該聲場分量是空間基礎函數的係數。
7. 前述示例之一的裝置,其中該聲場分量是球形或圓形諧波的係數。
8. 前述示例之一的裝置,其中該聲場分量是球形環繞聲係數。
9. 前述示例之一的裝置,其中該輸入降混音信號具有少於三個音訊聲道。
10. 前述示例之一的裝置,更包含:
接收或確定一擴散值;
產生一個或多個擴散聲音分量作為該擴散值的函數;以及
組合一個或多個聲場分量與一個或多個聲場分量的該第二組。
11. 前述示例之一的裝置,其中一擴散分量產生器還包含一去相關器,用於去相關擴散聲音資訊。
12. 前述示例之一的裝置,其中一個或多個聲場分量的該第一組是從該擴散值所導出的。
13. 前述示例之一的裝置,其中一個或多個聲場分量的該第一組是從該一個或多個聲音方向所導出的。
14. 前述示例之一的裝置,其導出時間頻率相關的聲音方向。
15. 前述示例之一的裝置,其導出時間頻率相關的擴散值。
16. 前述示例之一的裝置,更包含:將該時域降混信號的複數個聲道分解為具有複數個時間頻率圖塊的一頻率表示。
17. 一種方法,用於從包含一個或多個聲道的一輸入信號產生一聲場描述,其包含:
從該輸入信號獲得擴散性數據;以及
從該輸入信號產生一第一聲場分量組的一個或多個聲場分量,對於每一個聲場分量,該第一聲場分量組具有一直流分量及一擴散分量,並且用於從該輸入信號產生一第二聲場分量組,該第二聲場分量組僅具有一直流分量;
其中該從該輸入信號產生該第一聲場分量組的一個或多個聲場分量包含當產生該第一聲場分量組時執行一能量補償,該能量補償取決於該擴散性數據及該第二聲場分量組中的聲場分量的一數量。
18. 一種方法,用於從包含至少兩個聲道的一輸入信號產生一聲場描述,其包含:
從該輸入信號獲得方向數據及擴散性數據;
估計一第一振幅相關的測量及估計一第二振幅相關的測量,該第一振幅相關的測量用於從該輸入信號所導出的一全向分量,該第二振幅相關的測量用於從該輸入信號所導出的一方向分量;以及
產生該聲場的多個聲場分量,其中該聲音分量產生器配置成用以使用該第一振幅相關的測量、該第二振幅相關的測量、該方向數據與該擴散性數據來執行該方向分量的一能量補償。
19. 一種方法,用於使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述,其包含:
分析該輸入信號以導出方向數據及擴散性數據;
從該輸入信號產生一低階聲音描述直到一預定階次及模式,其中該低階分量產生器配置成用以通過複製該輸入信號或執行該輸入信號的該多個聲道的一加權組合來導出該低階聲音描述;
使用至少一個直流部分及至少一個擴散部分的一合成,該擴散部分使用該方向數據及該擴散性數據,在該預定階次之上或在該預定階次,及在該預定模式之上,並且在一高階次之下來產生一中階聲音描述,使得該中階聲音描述包含一直流貢獻及一擴散貢獻;以及
使用至少一個直流部分的一合成而沒有任何擴散分量合成來產生一高階聲音描述,該高階聲音描述具有在該高階次或在高階次之上的一分量,使得該高階聲音描述僅包含一直流貢獻。
一種電腦程式,當在一電腦或一處理器上運行時,該電腦程式用於執行如示例17、18、19的方法。
這裡要提到的是,如前所述的所有替代方案或方面以及由所附權利要求書中的獨立請求項限定的所有方面可以單獨使用,即,除了預期的替代方案、目的或獨立請求項外,沒有任何其他替代方案或目的。 然而,在其他實施例中,兩個或多個替代方案或方面或獨立請求項可以彼此組合,並且在其他實施例中,所有方面或替代方案和所有獨立請求項可以彼此組合。
根據本發明的編碼的音訊信號可以被儲存在數位儲存介質或非暫時性儲存介質上,或者可以在諸如無線傳輸介質的傳輸介質或諸如網路的有線傳輸介質上傳輸。
儘管在設備的上下文中描述了一些方面,但是很明顯,這些方面也代表了對應方法的描述,其中框或設備對應於方法步驟或方法步驟的特徵。類似地,在方法步驟的上下文中描述的方面也表示對相應裝置的相應框或項目或特徵的描述。
取決於某些實施要求,本發明的實施例可以以硬體或軟體來實現。實施例可以使用數位儲存介質來執行,例如儲存有電子可讀控制信號的軟碟、DV、藍光、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,它們與可編程電腦系統配合(或能夠配合),從而執行相應的方法。因此,數位儲存介質可以是電腦可讀的。
根據本發明的一些實施例包括具有電子可讀控制信號的數據載體,該電子可讀控制信號能夠與可程式化電腦系統合作,從而執行本文描述的方法之一。
通常,本發明的實施例可以被實現為具有程式代碼的電腦程式產品,當電腦程式產品在電腦上運作時,該程式代碼可操作用於執行方法之一。程式代碼可以例如被儲存在機器可讀載體上。
其他實施例包括儲存在機器可讀載體上的,用於執行本文描述的方法之一的電腦程式。
換句話說,因此,本發明方法的實施例是一種電腦程式,該電腦程式具有當電腦程式在電腦上運行時用於執行本文描述的方法之一的程式代碼。
因此,本發明方法的另一實施例是一種數據載體(或數位儲存介質、或電腦可讀介質),其包括記錄在其上的用於執行本文所述方法之一的電腦程式。
因此,本發明方法的另一實施例是表示用於執行本文所述方法之一的電腦程式的數據流或信號序列。數據流或信號序列可以例如被配置為經由數據通信連接,例如經由網路來傳輸。
另一實施例包含處理裝置,例如電腦或可程式化邏輯元件,其被配置為或適於執行本文描述的方法之一。
另一實施例包含一種電腦,該電腦上安裝了用於執行本文描述的方法之一的電腦程式。
在一些實施例中,可程式化邏輯元件(例如現場可程式化閘陣列)可以用於執行本文描述的方法的一些或全部功能。在一些實施例中,現場可程式化閘陣列可以與微處理器協作以便執行本文描述的方法之一。通常,該方法優選地由任何硬體設備執行。
上面描述的實施例僅用於說明本發明的原理。應當理解,本文描述的佈置和細節的修改和變化對於本領域的其他技術人員將是顯而易見的。因此,本發明的意圖僅由即將來臨的專利權利要求的範圍限制,而不受通過本文的實施方式的描述和解釋而給出的具體細節的限制。
參考文獻 [1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan. [2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64 [3] R. K. Furness, "Ambisonics —An overview," in AES 8th International Conference, April 1990, pp. 181—189. [4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX – A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011 [5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (corresponding to WO 2017/157803 A1)
400:濾波器組 410:方向增益計算器 420:分離器 430:組合器 440:解碼器 450:合成濾波器組 600:輸入信號分析器 610:方向估計器 620:擴散估計器 630:開關 640:開關 650:聲音分量產生器 750:聲音分量產生器 810:低階分量產生器 811:輸入信號調查器 812:處理模式選擇器 813:複製框 814:採用框 815:線性組合框 816:線性組合框 820:中階分量產生器 821:參考信號產生器 822:加權器 823:去相關器 824:去相關器 825:中階分量混合器 826:平均響應提供器 830:高階分量產生器 900:能量補償器 910:補償增益計算器 920:直流補償增益計算器 930:增益組合器 940:增益操縱器 1000:聲音/電性輸入 1010:編碼器界面 1011:空間音訊對象編碼 1013:特定功能 1021:DirAC分析框 1022:降混框 1030:DirAC元數據編碼器 1040:IVAS核心編碼器 1045:IVAS解碼器 1046:解碼器界面 1050:DirAC元數據解碼器 1060:IVAS核心解碼器 1070:DirAC合成器 1081:框 1082:框 1083:框 2000:頻率濾波器組 2010:擴散估計器 2020:方向估計器 2030:開關 2040:開關 2050:方向增益評估器 2060:擴散聲音球形環繞聲分量組合 2070:線性球形環繞聲渲染器 2080:反向濾波器組 DOA:到達方向 FOA:第一階球形環繞聲 HOA:高階球形環繞聲 MC:多聲道 H:階次 L:左聲道 R:右聲道 W:全向分量
第1a圖示出了具有球形環繞聲聲道/分量編號的球形諧波。 第1b圖示出了一基於DirAC的空間音訊編碼處理器的一編碼器側。 第2圖示出了該基於DirAC的空間音訊編碼處理器的一解碼器。 第3圖示出了本領域已知的一種高階球形環繞聲合成處理器。 第4圖示出了應用該第一方面、該第二方面及該第三方面的本發明的一較佳實施例。 第5圖示出了一種能量補償概述處理。 第6圖示出了根據本發明的一第一方面的一種裝置,用於產生一聲場描述。 第7圖示出了根據本發明的一第二方面的一種裝置,用於產生一聲場描述。 第8圖示出了根據本發明的一第三方面的一種裝置,用於產生一聲場描述。 第9圖示出了第8圖的該低階分量產生器的一較佳實施方式。 第10圖示出了第8圖的該中階分量產生器的一較佳實施方式。 第11圖示出了第8圖的該高階分量產生器的一較佳實施方式。 第12a圖示出了根據該第一方面的該補償增益計算的一較佳實施方式。 第12b圖示出了根據該第二方面的該能量補償計算的一實施方式。 第12c圖示出了組合該第一方面與該第二方面的該能量補償的一較佳實施方式。
600:輸入信號分析器
810:低階分量產生器
820:中階分量產生器
830:高階分量產生器

Claims (22)

  1. 一種使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述的裝置,該裝置包含:一輸入信號分析器,用於分析該輸入信號以導出方向數據及擴散性數據;一低階分量產生器,用於從該輸入信號產生一低階聲場描述直到一預定階次及模式,其中該低階分量產生器配置成用以通過複製或採用該輸入信號或執行該輸入信號的該多個聲道的一加權組合來導出該低階聲場描述;一中階分量產生器,用於使用一合成來產生一中階聲場描述,以獲得該中階聲場描述的至少一個直流部分及該中階聲場描述的至少一個擴散部分,該中階聲場描述在該預定階次之上或在該預定階次,及在該預定模式之上,並且在一第一截斷階次之下或在該第一截斷階次,使用該方向數據及該擴散性數據使得該中階聲場描述包含一直流貢獻及一擴散貢獻;以及一高階分量產生器,用於使用一合成來產生一高階聲場描述,以獲得該高階聲場描述的至少一個直流部分,該高階聲場描述具有在該第一截斷階次之上的一分量,其中該高階聲場描述僅包含一直流貢獻。
  2. 如請求項1所述之裝置,其中該輸入信號分析器配置成用以從與該輸入信號相關的元數據提取該擴散性數據,或通過具有兩個或多個聲道或分量的該輸入信號的一信號分析從該輸入信號提取該擴散性數據。
  3. 如請求項1所述之裝置,其中該低階分量產生器配置成用以產生K個低階聲場分量,其中K為1或大於1並且取決於該預定階次及該預定模式;其中該中階分量產生器配置成用以產生(L+1)2-K個中階聲場分量,其中L大於K並且取決於該截斷階次;以及 其中該高階分量產生器配置成用以產生(H+1)2-(L+1)2個高階聲場分量,其中H為大於L的一整數並且其中H代表該已產生的聲場描述的一最大階次。
  4. 如請求項1所述之裝置,更包含:一聲場組合器,用於組合該低階聲場分量、該中階聲場分量及該高階聲場分量,以獲得具有(H+1)2個聲場分量的一組合聲場,其中H是該已產生的聲場描述的一最大階次。
  5. 如請求項1所述之裝置,更包含:一方向增益計算器,用於從該方向數據和/或該擴散性數據來計算用於該中階聲場分量及該高階聲場分量的多個方向增益,並且用於饋送用於該中階聲場分量的該方向增益給該中階分量產生器,並且用於饋送用於該高階聲場分量的該方向增益給該高階分量產生器。
  6. 如請求項5所述之裝置,其中該方向增益計算器配置成用以為了複數個時間頻率圖塊中的每一個時間頻率圖塊,接收該方向數據和/或該擴散性數據;以及使用該方向數據評估用於一特定階次及模式的一空間基礎函數,以獲得用於該特定階次及模式的該方向增益。
  7. 如請求項1所述之裝置,其中該中階分量產生器包含:一參考信號產生器,用於為該中階聲場描述的一聲場分量提供一參考信號,並且用於使用該方向數據調整該參考信號;一去相關器,用於去相關該參考信號或從該參考信號所導出的一信號,以獲得一去相關信號;以及一混合器,用於使用該擴散性數據來混合該調整後參考信號及該去相關信號。
  8. 如請求項1所述之裝置,其中該輸入信號包含該單聲信號,並且其中該低階分量產生器配置成用以通過採用或複製該單聲信號來產生一零階球形環繞聲信號;或其中該輸入信號包含至少兩個聲道,並且其中該低階分量產生器配置成用以通過將該兩個聲道相加來產生一零階球形環繞聲信號及基於該兩個聲道的一差值來產生一第一階球形環繞聲信號;或其中該輸入信號包含具有三個或四個聲道的一第一階球形環繞聲信號,並且其中該低階分量產生器配置成用以通過採用或複製該輸入信號的該三個或四個聲道來產生一第一階球形環繞聲信號;或其中該輸入信號包含具有四個聲道的一A格式信號,並且其中該低階分量產生器配置成用以通過執行該四個聲道的一加權線性組合來計算一第一階球形環繞聲信號。
  9. 如請求項1所述之裝置,其中該高階分量產生器配置成用以使用該方向數據僅合成用於該高階聲場描述的一分量的一直流部分。
  10. 如請求項9所述之裝置,更包含:一方向增益計算器,用於該高階聲場描述的該聲場分量,配置成用以評估用於該高階聲場描述的該分量的一階次及一模式的一空間基礎函數,並且其中該高階分量產生器配置成用以從該參考信號及該方向增益導出該聲場分量。
  11. 如請求項10所述之裝置,該高階分量產生器配置成用以將該參考信號乘以用於該聲場分量的該階次及該模式的該方向增益,及乘以從該擴散性數據所導出的一因子,以獲得該高階聲場描述的該聲場分量。
  12. 如請求項7所述之裝置,其中該去相關器包含一去相關濾波器,用於接收該參考信號及用於輸出一濾波後參考信號;及其中該去相關器配置成用以通過從該擴散性數據所導出的一加權值及通過從所考慮的該聲場分量的一階次及模式所導出的一進一步加權值來加權該濾波後參考信號或輸入到該去相關濾波器的一信號,以獲得該擴散部分;以及其中該混合器配置成用以相加該相同階次及模式的該直流部分與該擴散部分,以獲得該中階聲場分量。
  13. 如請求項1所述之裝置,其中該低階分量產生器和/或該中階分量產生器配置成用以對該低階聲場描述的一個或多個聲場分量、或對該中階聲場描述的至少一個擴散部分、或對該中階聲場描述的一聲場分量執行一能量補償,以補償起因於僅具有該直流分量的該高階聲場描述的一能量損失;或其中該些聲場分量產生器配置成用以對該低階聲場描述的一個或多個聲場分量、或對該中階聲場描述的至少一個擴散部分、或對該中階聲場描述的一聲場分量執行一能量補償,該能量補償取決於該擴散性數據及該高階分量產生器產生的聲場分量的一數量、該低階分量產生器和/或該中階分量產生器產生的聲場分量的一數量、該低階分量產生器和/或該中階分量產生器產生的聲場分量一最大階次與該高階分量產生器產生的聲場分量的一最大階次其中的至少一個。
  14. 如請求項1所述之裝置,其中該低階分量產生器配置成用以對一方向分量執行一能量補償,該方向分量包含在該輸入信號中或通過複製、採用或執行一加權組合而從該輸入信號所導出。
  15. 如請求項14所述之裝置,其中該低階分量產生器包含: 一估計器,用於估計一第一能量或振幅相關的測量及估計一第二能量或振幅相關的測量,該第一能量或振幅相關的測量用於從該輸入信號所導出的一全向分量,該第二能量或振幅相關的測量用於從該輸入信號所導出的一方向分量;並且其中該低階分量產生器配置成用以使用該第一能量或振幅相關的測量、該第二能量或振幅相關的測量、該方向數據與該擴散性數據來執行該方向分量的一能量補償。
  16. 如請求項14所述之裝置,其中該低階分量產生器包含一能量補償器,用於執行該能量補償,該能量補償器包含一補償增益計算器,用於使用該擴散性數據、該第一聲場分量組的該聲場分量的一最大階次及該第二聲場分量組的該聲場分量的一最大階次來計算一補償增益,其中該第二聲場分量組的該聲場分量的一最大階次取決於該第二聲場分量組中的聲場分量的該數量。
  17. 如請求項16所述之裝置,其中該高階分量產生器配置成用以將該參考信號乘以用於該聲場分量的該階次及該模式的該方向增益,及乘以從該擴散性數據所導出的一因子,以獲得該高階聲場描述的該聲場分量。
  18. 如請求項16所述之裝置,其中該能量補償器包含一補償增益施加器,用於施加該補償增益給至少一個聲場分量。
  19. 如請求項1所述之裝置,其中一第一聲場分量組與一第二聲場分量組彼此正交,或其中該聲場分量是正交基礎函數係數、空間基礎函數係數、球形或圓形諧波係數與球形環繞聲係數其中的至少一個。
  20. 如請求項1所述之裝置,更包含:一分析濾波器組,用於為複數個不同的時間頻率圖塊產生該第一聲場分量組的一個或多個聲場分量與該第二聲場分量組的一個或多個聲場分量; 其中該輸入信號分析器配置成用以為每一個時間頻率圖塊獲得一方向數據項及一擴散性數據項;並且其中該低階分量產生器、該中階分量產生器、該高階分量產生器、或聲音分量產生器配置成用以為每一個時間頻率圖塊分別地運作。
  21. 一種使用包含一單聲信號或一多聲道信號的一輸入信號產生一聲場描述的方法其包含:分析該輸入信號以導出方向數據及擴散性數據;從該輸入信號產生一低階聲場描述直到一預定階次及模式,其中該低階分量產生器配置成用以通過複製該輸入信號或執行該輸入信號的該多個聲道的一加權組合來導出該低階聲場描述;使用一合成來產生一中階聲場描述,該中階聲場描述在該預定階次之上或在該預定階次,及在該預定模式之上,並且在一高階次之下,使用該方向數據及該擴散性數據使得該中階聲場描述包含一直流貢獻及一擴散貢獻;以及使用一合成來產生一高階聲場描述,以獲得該高階聲場描述的至少一個直流部分而沒有任何擴散分量,該高階聲場描述具有在該高階次或在高階次之上的一分量,使得該高階聲場描述僅包含一直流貢獻。
  22. 一種電腦程式,當在一電腦或一處理器上運行時,該電腦程式用於執行如請求項21所述之方法。
TW108144763A 2018-12-07 2019-12-06 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式 TWI745795B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18211064 2018-12-07
EP18211064.3 2018-12-07

Publications (2)

Publication Number Publication Date
TW202038214A TW202038214A (zh) 2020-10-16
TWI745795B true TWI745795B (zh) 2021-11-11

Family

ID=64870294

Family Applications (3)

Application Number Title Priority Date Filing Date
TW108144764A TWI751457B (zh) 2018-12-07 2019-12-06 使用直流分量補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
TW108144763A TWI745795B (zh) 2018-12-07 2019-12-06 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
TW108144765A TWI747095B (zh) 2018-12-07 2019-12-06 使用擴散補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW108144764A TWI751457B (zh) 2018-12-07 2019-12-06 使用直流分量補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW108144765A TWI747095B (zh) 2018-12-07 2019-12-06 使用擴散補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式

Country Status (17)

Country Link
US (6) US11937075B2 (zh)
EP (4) EP4191580A1 (zh)
JP (3) JP7311601B2 (zh)
KR (5) KR102599744B1 (zh)
CN (6) CN117953905A (zh)
AU (3) AU2019394097B2 (zh)
BR (3) BR112021010972A2 (zh)
CA (3) CA3122168C (zh)
ES (3) ES2969138T3 (zh)
FI (2) FI3891736T3 (zh)
MX (3) MX2021006563A (zh)
PL (3) PL3891734T3 (zh)
PT (2) PT3891734T (zh)
SG (3) SG11202105712QA (zh)
TW (3) TWI751457B (zh)
WO (3) WO2020115311A1 (zh)
ZA (3) ZA202103741B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112023006291A2 (pt) 2020-10-09 2023-05-09 Fraunhofer Ges Forschung Dispositivo, método ou programa de computador para processar uma cena de áudio codificada usando uma conversão de parâmetro
AU2021357364B2 (en) 2020-10-09 2024-06-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
JP2023548650A (ja) 2020-10-09 2023-11-20 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2024048967A (ja) * 2022-09-28 2024-04-09 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム
WO2024175587A1 (en) 2023-02-23 2024-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal representation decoding unit and audio signal representation encoding unit

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1254153C (zh) * 1999-10-04 2006-04-26 Srs实验室公司 声校正装置和声校正的方法
TWI332192B (en) * 2005-10-12 2010-10-21 Fraunhofer Ges Forschung A decoder and an encoder, a method for generating a multi-channel output signal, a method for generating a wave from parameter representation of a channel of a channel of a multi-channel signal, a computer readable storage medium, a receiver and a transm
US20170032799A1 (en) * 2014-01-30 2017-02-02 Qualcomm Incorporated Reuse of syntax element indicating quantization mode used in compressing vectors
TWM564300U (zh) * 2018-05-04 2018-07-21 十銓科技股份有限公司 耳道式耳機

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100922910B1 (ko) 2001-03-27 2009-10-22 캠브리지 메카트로닉스 리미티드 사운드 필드를 생성하는 방법 및 장치
CN1672464B (zh) * 2002-08-07 2010-07-28 杜比实验室特许公司 音频声道空间转换
TWI313857B (en) 2005-04-12 2009-08-21 Coding Tech Ab Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
DE102008004674A1 (de) * 2007-12-17 2009-06-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalaufnahme mit variabler Richtcharakteristik
BRPI0908630B1 (pt) 2008-05-23 2020-09-15 Koninklijke Philips N.V. Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador
US8452019B1 (en) * 2008-07-08 2013-05-28 National Acquisition Sub, Inc. Testing and calibration for audio processing system with noise cancelation based on selected nulls
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP5678048B2 (ja) 2009-06-24 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
EP2510709A4 (en) * 2009-12-10 2015-04-08 Reality Ip Pty Ltd IMPROVED MATRIX DECODER FOR SURROUND SOUND
CN103460285B (zh) 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
ES2683821T3 (es) * 2012-03-22 2018-09-28 Dirac Research Ab Diseño de controlador de precompensación de audio usando un conjunto variable de altavoces de soporte
US9374652B2 (en) * 2012-03-23 2016-06-21 Dolby Laboratories Licensing Corporation Conferencing device self test
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10136239B1 (en) * 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
BR112015030103B1 (pt) * 2013-05-29 2021-12-28 Qualcomm Incorporated Compressão de representações decomposta de campo sonoro
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
WO2014195190A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
EP2942981A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US9915520B2 (en) * 2015-09-14 2018-03-13 Thorlabs, Inc. Apparatus and methods for one or more wavelength swept lasers and the detection of signals thereof
WO2017085140A1 (en) * 2015-11-17 2017-05-26 Dolby International Ab Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal
PL3338462T3 (pl) * 2016-03-15 2020-03-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób lub program komputerowy do generowania opisu pola dźwięku
WO2017218973A1 (en) 2016-06-17 2017-12-21 Edward Stein Distance panning using near / far-field rendering
WO2018127483A1 (en) * 2017-01-03 2018-07-12 Koninklijke Philips N.V. Audio capture using beamforming
EP3346726A1 (en) 2017-01-04 2018-07-11 Harman Becker Automotive Systems GmbH Arrangements and methods for active noise cancelling
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US20180333103A1 (en) * 2017-05-18 2018-11-22 One Health Group, LLC Algorithmic Approach for Estimation of Respiration and Heart Rates
RU2736274C1 (ru) * 2017-07-14 2020-11-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
CN117395593A (zh) * 2017-10-04 2024-01-12 弗劳恩霍夫应用研究促进协会 用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序
GB2575305A (en) 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2576769A (en) 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
EP3675522A1 (en) * 2018-12-28 2020-07-01 Sonion Nederland B.V. Miniature speaker with essentially no acoustical leakage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1254153C (zh) * 1999-10-04 2006-04-26 Srs实验室公司 声校正装置和声校正的方法
TWI332192B (en) * 2005-10-12 2010-10-21 Fraunhofer Ges Forschung A decoder and an encoder, a method for generating a multi-channel output signal, a method for generating a wave from parameter representation of a channel of a channel of a multi-channel signal, a computer readable storage medium, a receiver and a transm
US20170032799A1 (en) * 2014-01-30 2017-02-02 Qualcomm Incorporated Reuse of syntax element indicating quantization mode used in compressing vectors
TWM564300U (zh) * 2018-05-04 2018-07-21 十銓科技股份有限公司 耳道式耳機

Also Published As

Publication number Publication date
CN113439303B (zh) 2024-03-08
AU2019394097B2 (en) 2022-11-17
CA3122168C (en) 2023-10-03
JP7311602B2 (ja) 2023-07-19
CN113424257A (zh) 2021-09-21
EP3891736B1 (en) 2023-01-25
PL3891735T3 (pl) 2024-04-22
US20240040330A1 (en) 2024-02-01
AU2019394097A8 (en) 2021-08-05
FI3891734T3 (fi) 2023-04-14
ES2941268T3 (es) 2023-05-19
US11937075B2 (en) 2024-03-19
CN113439303A (zh) 2021-09-24
MX2021006563A (es) 2021-08-11
EP3891734A1 (en) 2021-10-13
PL3891734T3 (pl) 2023-06-05
TW202038214A (zh) 2020-10-16
JP2022518663A (ja) 2022-03-16
KR20210102924A (ko) 2021-08-20
US20210289314A1 (en) 2021-09-16
CN117809663A (zh) 2024-04-02
EP4191580A1 (en) 2023-06-07
AU2019392988A1 (en) 2021-07-22
EP3891735B1 (en) 2023-11-29
PT3891734T (pt) 2023-05-03
TW202029186A (zh) 2020-08-01
KR20210097775A (ko) 2021-08-09
PT3891736T (pt) 2023-05-03
WO2020115310A1 (en) 2020-06-11
CA3122164A1 (en) 2020-06-11
US20210289312A1 (en) 2021-09-16
WO2020115311A1 (en) 2020-06-11
JP2022518664A (ja) 2022-03-16
BR112021010956A2 (pt) 2021-08-31
SG11202105719RA (en) 2021-06-29
CA3122170C (en) 2024-01-02
MX2021006572A (es) 2021-08-11
AU2019392876A1 (en) 2021-07-22
KR102692707B1 (ko) 2024-08-07
EP3891736A1 (en) 2021-10-13
ES2940286T3 (es) 2023-05-05
FI3891736T3 (fi) 2023-04-14
CN117975975A (zh) 2024-05-03
CN113424257B (zh) 2024-01-19
CN117953905A (zh) 2024-04-30
US20210289313A1 (en) 2021-09-16
CA3122164C (en) 2024-01-02
TW202107449A (zh) 2021-02-16
US20230379652A1 (en) 2023-11-23
EP3891734B1 (en) 2023-01-25
PL3891736T3 (pl) 2023-06-26
CA3122168A1 (en) 2020-06-11
CN113454715A (zh) 2021-09-28
AU2019392988B2 (en) 2022-11-17
US11856389B2 (en) 2023-12-26
TWI747095B (zh) 2021-11-21
MX2021006565A (es) 2021-08-11
EP3891735A1 (en) 2021-10-13
EP3891735C0 (en) 2023-11-29
KR20230112750A (ko) 2023-07-27
KR102599744B1 (ko) 2023-11-08
JP2022517506A (ja) 2022-03-09
WO2020115309A1 (en) 2020-06-11
CA3122170A1 (en) 2020-06-11
KR102590816B1 (ko) 2023-10-19
JP7311601B2 (ja) 2023-07-19
US20230396949A1 (en) 2023-12-07
AU2019392876B2 (en) 2023-04-27
BR112021010964A2 (pt) 2021-08-31
AU2019394097A1 (en) 2021-07-22
KR20210102300A (ko) 2021-08-19
SG11202105720RA (en) 2021-06-29
SG11202105712QA (en) 2021-06-29
US11838743B2 (en) 2023-12-05
ES2969138T3 (es) 2024-05-16
BR112021010972A2 (pt) 2021-09-08
ZA202103738B (en) 2022-06-29
TWI751457B (zh) 2022-01-01
JP7309876B2 (ja) 2023-07-18
KR20230113413A (ko) 2023-07-28
ZA202103739B (en) 2022-01-26
CN113454715B (zh) 2024-03-08
ZA202103741B (en) 2022-06-29

Similar Documents

Publication Publication Date Title
TWI745795B (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
RU2772423C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием генераторов компонент низкого порядка, среднего порядка и высокого порядка
RU2782511C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием компенсации прямых компонент
RU2779415C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации