TWI700687B - 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 - Google Patents

用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 Download PDF

Info

Publication number
TWI700687B
TWI700687B TW107134948A TW107134948A TWI700687B TW I700687 B TWI700687 B TW I700687B TW 107134948 A TW107134948 A TW 107134948A TW 107134948 A TW107134948 A TW 107134948A TW I700687 B TWI700687 B TW I700687B
Authority
TW
Taiwan
Prior art keywords
format
dirac
data
signal
scene
Prior art date
Application number
TW107134948A
Other languages
English (en)
Other versions
TW201923744A (zh
Inventor
古拉米 福契斯
喬根 希瑞
法比恩 庫奇
史蒂芬 多希拉
馬庫斯 穆爾特斯
奧利薇 錫蓋特
奧立佛 屋伯特
佛羅瑞 吉西多
史蒂芬 拜爾
渥爾夫剛 賈格斯
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201923744A publication Critical patent/TW201923744A/zh
Application granted granted Critical
Publication of TWI700687B publication Critical patent/TWI700687B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

一種用於產生一組合式音訊場景之一描述之裝置,其包含:一輸入介面,其用於接收一第一格式之一第一場景的一第一描述及一第二格式之一第二場景的一第二描述,其中該第二格式不同於該第一格式;一格式轉換器,其用於將該第一描述轉換成一通用格式且用於在該第二格式不同於該通用格式時將該第二描述轉換成該通用格式;以及一格式組合器,其用於組合呈該通用格式之該第一描述與呈該通用格式之該第二描述以獲得該組合式音訊場景。

Description

用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
發明領域 本發明係關於音訊信號處理,且特定言之,係關於對音訊場景之音訊描述的音訊信號處理。
發明背景 傳輸三維之音訊場景需要處置多個通道,此通常引起大量資料之傳輸。此外,3D聲音可以用不同方式來表示:傳統的以通道為基礎之聲音,其中各傳輸通道與一揚聲器位置相關聯;經由音訊物件載運之聲音,音訊物件可獨立於揚聲器位置三維地定位;以及以場景為基礎之(或立體混響)聲音,其中音訊場景係由一組係數信號表示,該等係數信號係例如球諧函數的在空間上正交之基礎函數的線性權重。與以通道為基礎之表示相比,以場景為基礎之表示與特定揚聲器設置無關,且可以解碼器處之額外顯現程序為代價在任何揚聲器集合上再現。
對於此等格式中之每一者,開發出用於以低位元率高效地儲存或傳輸音訊信號之專屬編碼方案。舉例而言,MPEG環繞係針對以通道為基礎之環繞聲的參數編碼方案,而MPEG空間音訊物件編碼(Spatial Audio Object Coding;SAOC)係專用於以物件為基礎之音訊的參數編碼方法。在新近標準MPEG-H第2階段中亦提供了針對立體混響之高階的參數編碼技術。
在此情況下,在使用且需要支援音訊場景之所有三種表示(以通道為基礎、以物件為基礎以及以場景為基礎之音訊)的情況下,需要設計允許所有三個3D音訊表示之有效參數編碼的通用方案。此外,需要能夠對包含不同音訊表示之混合的複雜音訊場景進行編碼、傳輸以及再現。
指向性音訊編碼(Directional Audio Coding;DirAC)技術[1]係分析及再現空間聲音之有效方法。DirAC使用聲場之感知激勵表示,其基於每個頻帶所量測之到達方向(direction of arrival;DOA)及擴散度。其係依據如下假設建置:在一個時間瞬時且在一個臨界頻帶處,聽覺系統之空間解析度限於解碼一個方向提示及耳間相干性之另一提示。空間聲音因而藉由使兩個串流:非方向性擴散串流及方向性不擴散串流交叉衰減在頻域中表示。
DirAC最初意欲用於所記錄之B格式聲音,但亦可充當用於混合不同音訊格式之通用格式。在[3]中,DirAC已經擴展以用於處理習知環繞聲格式5.1。在[4]中亦提議合併多個DirAC串流。此外,DirAC經擴展以亦支援除B格式外之麥克風輸入[6]。
然而,缺少對3D中之音訊場景之通用表示進行DirAC的通用概念,其亦能夠支援音訊物件之觀點。
針對處置DirAC中之音訊物件的考慮先前較少。在[5]中將DirAC用作空間音訊寫碼器SAOC之聲音前端,作為用於自源之混合提取若干講話者的盲源分離。然而,未設想使用DirAC本身作為空間音訊編碼方案且直接地處理音訊物件以及其後設資料且潛在地將音訊物件以及其後設資料與其他音訊表示組合在一起。
發明概要 本發明之一目標係提供處置及處理音訊場景及音訊場景描述之一經改良概念。
此目標係藉由技術方案1的一種用於產生一組合式音訊場景之一描述之裝置、技術方案14的一種產生一組合式音訊場景之一描述之方法或技術方案15的一種相關電腦程式來達成。
此外,此目標係藉由技術方案16的一種用於執行多個音訊場景之一合成之裝置、技術方案20的一種用於執行多個音訊場景之一合成之方法或根據技術方案21的一種相關電腦程式來達成。
此外,此目標係藉由技術方案22的一種音訊資料轉換器、技術方案28的一種用於執行一音訊資料轉換之方法或技術方案29的一種相關電腦程式來達成。
此外,此目標係藉由技術方案30的一種音訊場景編碼器、技術方案34的一種編碼一音訊場景之方法或技術方案35的一種相關電腦程式來達成。
此外,此目標係藉由技術方案36的一種用於執行音訊資料之一合成之裝置、技術方案40的一種用於執行音訊資料之一合成之方法或技術方案41的一種相關電腦程式來達成。
本發明之實施例係關於用於圍繞指向性音訊編碼範例(DirAC)建置之3D音訊場景的通用參數編碼方案,一種針對空間音訊處理之感知激勵技術。最初之DirAC經設計以分析音訊場景之B格式記錄。本發明旨在擴展其高效地處理諸如以通道為基礎之音訊、立體混響、音訊物件或其混合體的任何空間音訊格式的能力。
DirAC再現可針對任意揚聲器佈局及頭戴式耳機容易地產生。本發明亦擴展另外輸出立體混響、音訊物件或格式之混合體的能力。更重要地,本發明實現使用者操控音訊物件及達成例如解碼器端之對話增強的可能性。 內容背景:DirAC空間音訊寫碼器之系統概述
在下文中,呈現對基於針對沉浸式語音及音訊服務(Immersive Voice and Audio Service;IVAS)所設計的新穎空間音訊編碼系統之概述。此系統之目標係能夠處置表示音訊場景之不同空間音訊格式及以低位元率對該等格式編碼以及在傳輸之後儘可能如實地再現原始音訊場景。
該系統可接受音訊場景之不同表示作為輸入。輸入音訊場景可藉由旨在於不同揚聲器位置處再現的多通道信號、描述物件隨時間之位置的聽覺物件以及後設資料或表示收聽者或參考位置處之聲場的一階或高階立體混響格式來捕捉。
較佳地,該系統係基於3GPP增強語音服務(Enhanced Voice Service;EVS),此係因為解決方案預期以低潛時操作以實現行動網路上之交談式服務。
圖9係支援不同音訊格式的以DirAC為基礎之空間音訊編碼之編碼器側。如圖9中所示,編碼器(IVAS編碼器)能夠支撐分別地或同時地對系統呈現之不同音訊格式。音訊信號在本質上可為聲音、藉由麥克風來拾取或在本質上可為電氣的,該等音訊信號應當傳輸至揚聲器。所支援之音訊格式可為多通道信號、一階及高階立體混響分量以及音訊物件。複雜音訊場景亦可藉由組合不同輸入格式來描述。所有音訊格式接著被傳輸至DirAC分析180,該DirAC分析提取整個音訊場景之參數表示。每個時間-頻率單位所量測之到達方向及擴散度形成該等參數。該DirAC分析之後為空間後設資料編碼器190,該空間後設資料編碼器對DirAC參數量化且編碼以獲得低位元率參數表示。
對自不同源或音訊輸入信號導出160之降混信號以及該等參數進行編碼以藉由習知音訊核心寫碼器170來傳輸。在此情況下,以EVS為基礎之音訊寫碼器係用於對該降混信號編碼。該降混信號由被稱作傳送通道之不同通道組成:該信號可為例如構成B格式信號的四個係數信號,取決於目標位元率之立體聲對或單音降混。經寫碼空間參數及經寫碼音訊位元串流在經由通訊通道傳輸之前經多工。
圖10係遞送不同音訊格式的以DirAC為基礎之空間音訊編碼之解碼器。在圖10中所示之解碼器中,傳送通道係藉由核心解碼器1020來解碼,同時在利用經解碼傳送通道將DirAC後設資料輸送至DirAC合成220、240之前,首先對DirAC後設資料解碼1060。在此階段(1040),可考慮不同選項。可請求直接在任何揚聲器或頭戴式耳機組態上播放音訊場景,如習知DirAC系統(圖10中之MC)中通常可能的。另外,亦可請求以立體混響格式顯現場景以供另外進一步操控,諸如場景(圖10中之FOA/HOA)之旋轉、反射或移動。最後,解碼器可在個別物件在編碼器側呈現時遞送該等個別物件(圖10中之物件)。
音訊物件亦可被復原,但收聽者更關注藉由對該等物件之交互式操控來調整所顯現之混合體。典型之物件操控係對物件之水平、均衡或空間位置之調整。以物件為基礎之對話增強變成藉由此互動性特徵給出之可能性。最後,有可能輸出如同在編碼器輸入端處所呈現的原始格式。在此情況下,輸出可為音訊通道及物件或立體混響以及物件之混合體。為了達成多通道及立體混響分量之單獨傳輸,可使用所描述系統之若干例子。
本發明之優勢在於,特別地,根據第一態樣,確定一框架,以便藉助於一通用格式將不同場景描述組合成一組合式音訊場景,該通用格式允許組合不同的音訊場景描述。
舉例而言,此通用格式可為B格式,或可為壓力/速度信號表示格式,或較佳地,亦可為DirAC參數表示格式。
此格式係一緊湊格式,其一方面另外允許大量的使用者交互且另一方面對用於表示音訊信號之所需位元率有用。
根據本發明之又一態樣,多個音訊場景之合成可藉由組合兩個或更多個不同DirAC描述來有利地執行。此等不同DirAC描述均可藉由在參數域中組合場景,或替代地藉由分開地顯現各音訊場景且藉由接著組合處於頻譜域中或替代地已處於時域中的已自個別DirAC描述顯現之音訊場景來處理。
此程序允許對將組合成單一場景表示且特別地單一時域音訊信號之不同音訊場景的極有效且仍然高品質之處理。
本發明之又一態樣之優勢在於,為了將物件後設資料轉換成DirAC後設資料而經轉換之特別適用之音訊資料被導出,其中此音訊資料轉換器可在第一、第二或第三態樣之框架中使用或亦可獨立於彼此而應用。該音訊資料轉換器允許高效地轉換例如音訊物件之波形信號的音訊物件資料及通常相對於時間之對應位置資料,以用於將音訊物件在再現建立內之特定軌跡表示成極有用且緊湊的音訊場景描述且特別地DirAC音訊場景描述格式。儘管具有音訊物件波形信號及音訊物件位置後設資料之典型音訊物件描述與特定再現設置相關,或通常與特定再現座標系相關,但DirAC描述特別適用,此係因為DirAC描述與收聽者或麥克風位置相關且完全沒有關於揚聲器設置或再現設置之任何限制。
因此,自音訊物件後設資料信號產生之DirAC描述另外允許對音訊物件之極有用及緊湊且高品質的組合,其不同於諸如再現設置中的空間音訊物件編碼或物件之振幅平移的其他音訊物件組合技術。
根據本發明之又一態樣之音訊場景編碼器在提供具有DirAC後設資料的音訊場景之組合式表示且另外具有音訊物件後設資料之音訊物件時特別適用。
特別地,在此情形下,高交互性對於產生一方面具有DirAC後設資料且另一方面同時具有物件後設資料的組合式後設資料描述特別有用且有利。因此,在此態樣中,物件後設資料並不與DirAC後設資料組合,而是轉換成類DirAC後設資料,使得物件後設資料包含個別物件之方向或另外地距離及/或擴散度,以及物件信號。因此,物件信號經轉換成類DirAC表示,使得對第一音訊場景及此第一音訊場景內之額外物件的DirAC表示之極靈活處置經允許且變得可能。因此,舉例而言,由於一方面特定物件之對應傳送通道及另一方面DirAC風格參數仍可用,可極具選擇性地處理特定物件。
根據本發明之又一態樣,用於執行音訊資料之合成之裝置或方法特別有用,因為提供一操控器,其用於操控一或多個音訊物件之DirAC描述、多通道信號之DirAC描述或一階立體混響信號或高階立體混響信號之DirAC描述。且,接著使用DirAC合成器來合成操控DirAC描述。
此態樣具有如下特別優點:相對於任何音訊信號之任何特定操控係在DirAC域中極有效且高效地執行,即藉由操控DirAC描述之傳送通道或藉由替代地操控DirAC描述之參數資料。與其他域中之操控相比,在DirAC域中執行之此修改實質上更高效且更實用。特別地,作為較佳操控操作之位置相依加權操作可特別地在DirAC域中執行。因此,在特定實施例中,對於現代音訊場景處理及操控,對應信號表示在DirAC域中之轉換、接著在DirAC域內執行操控係特別有用的應用情境。
較佳實施例之詳細說明 圖1a圖示用於產生組合式音訊場景之描述之裝置的較佳實施例。該裝置包含輸入介面100,該輸入介面用於接收一第一格式之一第一場景的一第一描述及一第二格式之一第二場景的一第二描述,其中該第二格式不同於該第一格式。格式可為任何音訊場景格式,諸如自圖16a至圖16f所圖示的格式或場景描述中之任一者。
舉例而言,圖16a圖示一物件描述,其通常由(經編碼)物件1波形信號(諸如與物件1之位置相關的單通道及對應後設資料)組成,其中此資訊通常針對各時間框或時間框之群組給出,且物件1波形信號經編碼。可包括第二或另一物件之對應表示,如圖16a中所圖示。
另一替代方案可為一物件描述,其由降混為單通道信號之物件、具兩個通道之立體聲信號或具三個或多於三個通道的信號以及相關物件後設資料(諸如物件能量、每個時間/頻率區間之相關性資訊以及視情況物件位置)組成。然而,物件位置亦可在解碼器側作為典型再現資訊給出,且因此可由使用者修改。舉例而言,圖16b中之格式可實施為熟知空間音訊物件編碼(spatial audio object coding;SAOC)格式。
場景之另一在圖16c中圖示為一多通道描述,其具有第一通道、第二通道、第三通道、第四通道或第五通道之經編碼或未編碼表示,其中第一通道可為左通道L,第二通道可為右通道R,第三通道可為中心引導C,第四通道可為左環繞通道LS,且第五通道可為右環繞通道RS。自然地,多通道信號可具有更小或更大數目個通道,諸如用於立體聲通道之僅個通道或用於5.1格式之六個通道或用於7.1格式之八個通道等。
在圖16d中圖示了多通道信號之更高效表示,其中諸如單通道降混或立體聲降混或關於多於兩個通道之降混的通道降混與作為通常各時間及/或頻率區間之通道後設資料的參數旁側資訊相關聯。此參數表示可例如根據MPEG環繞標準來實施。
舉例而言,音訊場景之另一表示可為由如圖16e中所示的全向信號W及方向性分量X、Y、Z組成的B格式。此可為一階或FoA信號。高階立體混響信號、即HoA信號可具有如此項技術中已知之額外分量。
與圖16c及圖16d表示相比,圖16e表示係不取決於特定揚聲器設置而描述在特定(麥克風或收聽者)位置所體驗之聲場的表示。
另一此聲場描述係如例如圖16f中所圖示之DirAC格式。DirAC格式通常包含單通道或立體聲之DirAC降混信號,或任何的降混信號或輸送信號及對應之參數旁側資訊。舉例而言,此參數旁側資訊係每個時間/頻率區間之到達方向資訊,及視情況每個時間/頻率區間之擴散度資訊。
至圖1a之輸入介面100中的輸入可為例如關於圖16a至圖16f所圖示的彼等格式中之任一者。輸入介面100將對應格式描述轉送至格式轉換器120。格式轉換器120經組配以用於將該第一描述轉換成一通用格式且用於在該第二格式不同於該通用格式時將該第二描述轉換成同一通用格式。然而,當該第二格式已為該通用格式時,該格式轉換器則僅將該第一描述轉換成該通用格式,此係因為該第一描述為不同於該通用格式之一格式。
因此,在該格式轉換器之輸出處,或通常在一格式組合器之輸入處,存在該通用格式之該第一場景的表示及同一通用格式之該第二場景的表示。由於兩種描述現在包括於同一個通用格式中,因此格式組合器現在可組合該第一描述與該第二描述以獲得一組合式音訊場景。
根據圖1e中所圖示之一實施例,格式轉換器120經組配以將該第一描述轉換成第一B格式信號(如例如圖1e中以127所圖示)且計算該第二描述之B格式表示(如圖1e中以128所圖示)。
因而,格式組合器140係實施為分量信號加法器,以146a圖示W分量加法器、146b圖示X分量加法器、146c圖示Y分量加法器且146d圖示Z分量加法器。
因此,在圖1e實施例中,組合式音訊場景可為B格式表示,且B格式信號接著可作為傳送通道操作且可經由圖1a之傳送通道編碼器170進行編碼。因此,關於B格式信號之組合式音訊場景可直接地輸入至圖1a之編碼器170中,以產生接著可經由輸出介面200輸出的經編碼B格式信號。在此情況下,不需要任何空間後設資料,但代價是四個音訊信號之經編碼表示,該四個音訊信號即全向分量W及方向性分量X、Y、Z。
替代地,通用格式係如圖1b中所圖示之壓力/速度格式。為此目的,格式轉換器120包含針對第一音訊場景的時間/頻率分析器121,及針對第二音訊場景或通常具有編號N之音訊場景的時間/頻率分析器122,其中N為整數。
因而,對於由頻譜轉換器121、122產生之各此頻譜表示,如123及124所圖示地計算壓力及速度,且該格式組合器接著經組配以一方面藉由對由區塊123、124產生之對應壓力信號求和來計算總計壓力信號。且,另外地,藉由區塊123、124中之每一者亦可計算個別速度信號,且該等速度信號可一起相加以便獲得組合式壓力/速度信號。
視實施而定,未必必須執行區塊142、143中之程序。實際上,組合式或「總計」壓力信號及組合式或「總計」速度信號可類似於圖1e所圖示的B格式信號而編碼,且此壓力/速度表示可經由圖1a之編碼器170再一次編碼,接著可傳輸至不具有關於空間參數之任何額外旁側資訊的解碼器,此係因為組合式壓力/速度表示已經包括用於在解碼器側獲得最終顯現之高品質聲場的必需空間資訊。
然而,在一實施例中,較佳對由區塊141產生之壓力/速度表示執行DirAC分析。為此目的,計算強度向量142,且在區塊143中,根據強度向量來計算DirAC參數,且接著,獲得組合式DirAC參數以作為組合式音訊場景之參數表示。為此目的,圖1a之DirAC分析器180經實施以執行圖1b之區塊142及143的功能性。且,較佳地,DirAC資料另外在後設資料編碼器190中經受後設資料編碼操作。後設資料編碼器190通常包含量化器及熵寫碼器,以便減小傳輸DirAC參數所需之位元率。
經編碼傳送通道亦可與經編碼DirAC參數一起傳輸。經編碼傳送通道係由圖1a之傳送通道產生器160產生,該傳送通道產生器可例如藉由用於自第一音訊場景產生降混的第一降混產生器161及用於自第N音訊場景產生降混的第N降混產生器162來實施,如圖1b中所圖示。
接著,通常藉由簡單加法將該等降混通道併入至組合器163中,且組合式降混信號因而係由圖1a之編碼器170編碼的傳送通道。舉例而言,組合式降混可為立體聲對,即立體聲表示之第一通道及第二通道,或可為單通道、即單一通道信號。
根據圖1c中所圖示之另一實施例,進行格式轉換器120中之格式轉換以將輸入音訊格式中之每一者直接轉換成DirAC格式以作為通用格式。為此目的,格式轉換器120再一次在針對第一場景之對應區塊121及針對第二或另外場景之區塊122中形成時間-頻率轉換或時間/頻率分析。接著,自對應音訊場景之頻譜表示導出DirAC參數,以125及126圖示。區塊125及126中之程序的結果係DirAC參數,該等DirAC參數由每個時間/頻率瓦片之能量資訊、每個時間/頻率瓦片之到達方向資訊eDOA 以及各時間/頻率瓦片的擴散度資訊組成。接著,格式組合器140經組配以直接在DirAC參數域中執行組合,以便產生擴散度之組合式DirAC參數ψ及到達方向之eDOA 特別地,能量資訊E1 及EN 係組合器144所需的,但並非由格式組合器140產生的最終組合式參數表示之部分。
因此,比較圖1c與圖1e揭露,當格式組合器140已在DirAC參數域中執行組合時,DirAC分析器180並非必需的且未實施。實際上,作為圖1c中之區塊144之輸出的格式組合器140之輸出經直接轉送至圖1a的後設資料編碼器190且自該後設資料編碼器進入輸出介面200中,使得經編碼空間後設資料且特別地經編碼組合式DirAC參數包括於由輸出介面200輸出的經編碼輸出信號中。
此外,圖1a之傳送通道產生器160可已自輸入介面100接收第一場景之波形信號表示及第二場景之波形信號表示。將此等表示輸入至降混產生器區塊161、162中,且將結果在區塊163中相加以獲得如關於圖1b所圖示之組合式降混。
圖1d圖示關於圖1c之類似表示。然而,在圖1d中,將音訊物件波形輸入至針對音訊物件1之時間/頻率表示轉換器121及針對音訊物件N之時間/頻率表示轉換器122中。另外,將後設資料與頻譜表示一起輸入至如圖1c中亦圖示之DirAC參數計算器125、126中。
然而,圖1d提供關於組合器144之較佳實施如何操作之更詳細表示。在第一替代方案中,組合器執行對各個別物件或場景之個別擴散度的能量加權加法,且執行對各時間/頻率瓦片之組合式DoA的對應能量加權計算,如替代方案1之下部等式中所圖示。
然而,亦可執行其他實施。特別地,另一極有效計算針對組合式DirAC後設資料將擴散度設定為零,且選擇自在特定時間/頻率瓦片內具有最高能量之特定音訊物件計算的到達方向作為各時間/頻率瓦片的到達方向。較佳地,圖1d中之程序在進入輸入介面中之輸入係個別音訊物件時更適當,該等個別音訊物件相應地表示各物件之波形或單通道信號及對應後設資料,諸如關於圖16a或圖16b所圖示之位置資訊。
然而,在圖1c實施例中,音訊場景可為圖16c、圖16d、圖16e或圖16f中所圖示之表示中的任何其他表示。因而,後設資料可存在或不存在,即圖1c中的後設資料係可選的。然而,接著,針對諸如圖16e中之立體混響場景描述之特定場景描述來計算通常有用的擴散度,且因而,組合式參數之方式的第一替代方案由於圖1d之第二替代方案。因此,根據本發明,格式轉換器120經組配以將高階立體混響或一階立體混響格式轉換成B格式,其中高階立體混響格式在轉換成B格式之前經截斷。
在又一實施例中,該格式轉換器經組配以在一參考位置處將一物件或一通道投影在球諧函數上以獲得投影信號,且其中該格式組合器經組配以組合該等投影信號以獲得B格式係數,其中該物件或該通道在空間中位於一指定位置處且與一參考位置具有一可選的個別距離。此程序對於物件信號或多通道信號至一階或高階立體混響信號之轉換特別適用。
在另一替代方案中,格式轉換器120經組配以執行一DirAC分析,該DirAC分析包含對B格式分量之一時間-頻率分析及對壓力及速度向量之一判定,且其中該格式組合器因而經組配以組合不同的壓力/速度向量,且其中該格式組合器進一步包含一DirAC分析器180,該DirAC分析器用於自該組合式壓力/速度資料導出DirAC後設資料。
在又一替代性實施例中,該格式轉換器經組配以直接自作為該第一或該第二格式之一音訊物件格式的物件後設資料提取DirAC參數,其中DirAC表示之壓力向量係物件波形信號且方向係自空間中之物件位置導出,或擴散度係在物件後設資料中直接給出或經設定至諸如零值之一預設值。
在又一實施例中,該格式轉換器經組配以將自物件資料格式導出的DirAC參數轉換成壓力/速度資料,且該格式組合器經組配以組合該壓力/速度資料與自一或多個不同音訊物件之不同描述導出的壓力/速度資料。
然而,在關於圖1c及圖1d所說明之一較佳實施中,該格式組合器經組配以直接組合由格式轉換器120導出之DirAC參數,使得由圖1a之區塊140產生的組合式音訊場景已經為最終結果,且圖1a中所圖示之DirAC分析器180並非必需的,此係因為由格式組合器140輸出之資料已經呈DirAC格式。
在又一實施中,格式轉換器120已經包含針對一階立體混響或高階立體混響輸入端格式或多通道信號格式之DirAC分析器。此外,該格式轉換器包含用於將物件後設資料轉換成後設資料的後設資料轉換器,且此後設資料轉換器例如在圖1f中以150圖示,該後設資料轉換器再一次對區塊121中之時間/頻率分析作用,且計算以147圖示之每個時間框每個頻帶之能量、以圖1f之區塊148圖示的到達方向以及以圖1f之區塊149圖示的擴散度。且,藉由組合器144來組合後設資料以用於較佳地根據由圖1d實施例之兩個替代方案中之一者例示性地圖示的加權加法來組合個別DirAC後設資料串流。
多通道通道信號可直接轉換至B格式。所獲得之B格式接著可藉由習知DirAC來處理。圖1g圖示至B格式之轉換127及後續DirAC處理180。
參考文件[3]概述用以執行自多通道信號至B格式之轉換的方式。原則上,轉換多通道音訊信號至B格式很簡單:虛擬揚聲器經定義為處於揚聲器佈局之不同位置。舉例而言,對於5.0佈局,揚聲器以+/-30度及+/-110度之方位角定位於水平平面上。虛擬格式麥克風因而定義為處在該等揚聲器之中心,且執行虛擬記錄。因此,藉由對5.0音訊檔案之所有揚聲器通道求和而產生W通道。用於獲得W及其他B格式係數之程序因而可概述如下:
Figure 02_image001
Figure 02_image003
Figure 02_image005
Figure 02_image007
其中
Figure 02_image011
係在空間中位於由方位角
Figure 02_image013
及仰角
Figure 02_image015
界定的各揚聲器之揚聲器位置處之多通道信號,且
Figure 02_image023
係距離之加權函數。若距離不可獲得或完全被忽略,則
Figure 02_image027
。然而,此簡單技術受到限制,此係因為該技術係不可逆程序。此外,由於揚聲器通常非均一地分佈,因此在藉由後續DirAC分析進行估計中亦存在朝向具有最高揚聲器密度之方向的偏置。舉例而言,在5.1佈局中,將存在朝向前部的偏置,此係因為處於前部中的揚聲器比處於後部中的揚聲器多。
為了解決此問題,在[3]中提議又一技術用於利用DirAC來處理5.1多通道信號。最終編碼方案因而看起來如圖1h中所圖示,該圖展示了B格式轉換器127、如大體上關於圖1中之元件180所描述的DirAC分析器180,以及其他元件190、1000、160、170、1020及/或220、240。
在又一實施例中,輸出介面200經組配以將一音訊物件之一單獨物件描述加至該組合式格式,其中該物件描述包含一方向、一距離、一擴散度或任何其他物件屬性中之至少一者,其中此物件貫穿所有頻帶具有一單一方向且係靜態的或與一速度臨限值相比較慢地移動。
此外,將相對於關於圖4a及圖4b所論述的本發明之第四態樣更詳細地詳述此特徵。
第1編碼替代方案:組合及處理經由B格式之不同音訊表示或等效表示
可藉由將所有輸入格式轉換成組合式B格式來達成所設想編碼器之第一實現,在圖11中描繪了該第一實現。
圖11:以組合式B格式組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述 由於DirAC最初經設計以用於分析B格式信號,因此系統將不同音訊格式轉換至組合式B格式信號。在藉由對B格式分量W、X、Y、Z求和而將其組合在一起之前,首先將該等格式個別地轉換120成B格式信號。一階立體混響(First Order Ambisonics;FOA)分量可經正規化且重排序至B格式。假設FOA呈ACN/N3D格式,則藉由下式獲得B格式輸入之四個信號:
Figure 02_image029
其中
Figure 02_image033
表示階數
Figure 02_image035
及索引
Figure 02_image037
之立體混響分量,
Figure 02_image039
。由於FOA分量全部以高階立體混響格式包含,所以HOA格式僅需要在被轉換成B格式之前經截斷。
由於物件及通道在空間中具有經判定位置,因此有可能在諸如記錄或參考位置之中心位置處將各個別物件及通道投影在球諧函數(spherical Harmonics;SH)上。該等投影之總和允許以單一B格式組合不同物件及多個通道,且可接著由DirAC分析進行處理。B格式係數(W,X,Y,Z)因而給定如下:
Figure 02_image001
Figure 02_image003
Figure 02_image005
Figure 02_image007
其中
Figure 02_image011
係在空間中位於由方位角
Figure 02_image013
及仰角
Figure 02_image015
界定之位置處的獨立信號,且
Figure 02_image023
係距離之加權函數。若距離不可獲得或完全被忽略,則
Figure 02_image027
。舉例而言,該等獨立信號可對應於位於給定位置處的音訊物件或與處於指定位置之揚聲器通道相關聯的信號。
在期望階數高於一階之立體混響表示的應用中,上文針對一階所呈現之立體混響係數產生將藉由另外考慮較高階分量而擴展。
傳送通道產生器160可直接接收多通道信號、物件波形信號以及高階立體混響分量。該傳送通道產生器將藉由對進行傳輸之輸入通道降混來減小輸入通道之數目。該等通道可在單聲道或立體聲降混中混合在一起,如在MPEG環繞中,而物件波形信號可以被動方式計算總數以變成單通道降混。另外,自高階立體混響,有可能提取低階表示,或藉由波束成形立體聲降混或空間之任何其他分割而產生低階表示。若自不同輸入格式獲得之降混彼此相容,則該等降混可藉由簡單讀加法運算而組合在一起。
替代地,傳送通道產生器160可接收與輸送至DirAC分析之格式相同的組合式B格式。在此情況下,該等分量之一子集或波束成形(或其他處理)之結果形成待寫碼及傳輸至解碼器之傳送通道。在所提議系統中,需要可基於但不限於標準3GPP EVS編解碼器之習知音訊編碼。3GPP EVS係較佳之編解碼器選擇,因為其能夠在需要實現即時通訊之相對低延遲時以低位元率高品質地編碼話音或音樂信號。
在極低位元率下,用以傳輸之通道之數目需要限於一,且因此僅傳輸B格式之全向麥克風信號W。在位元率允許的情況下,可藉由選擇B格式分量之一子集來增加傳送通道之數目。替代地,該等B格式信號可組合至轉向至空間之特定分割區的波束成形器160。作為一實例,兩條心形線可經設計以指向相反方向,例如空間場景之左側及右側。
Figure 02_image041
接著可藉由聯合立體聲編碼對此等兩個立體聲通道L及R高效地編碼170。該等兩個信號接著將由解碼器側處之DirAC合成充分地利用,從而顯現聲音場景。可設想其他波束成形,例如,虛擬心形麥克風可指向具有給定方位角
Figure 02_image043
及仰角
Figure 02_image045
之任何方向。
Figure 02_image047
可設想形成傳輸通道之其他方式,該等傳輸通道載運之空間資訊比單一單音傳輸通道可載運的空間資訊多。
替代地,可直接地傳輸B格式之該等4個係數。在彼情況下,可在解碼器側直接地提取DirAC後設資料,而不需要傳輸空間後設資料之額外資訊。
圖12展示用於組合不同輸入格式之另一替代方法。圖12亦係在壓力/速度域中組合的以DirAC為基礎之編碼器/解碼器之系統概述。
多通道信號及立體混響分量均被輸入至DirAC分析123、124。針對各輸入格式,執行DirAC分析,該DirAC分析由對B格式分量
Figure 02_image049
之時間-頻率分析及對壓力及速度向量之判定組成:
Figure 02_image051
Figure 02_image053
其中
Figure 02_image055
係輸入之索引,且
Figure 02_image057
Figure 02_image059
係時間-頻率瓦片之時間及頻率索引,且
Figure 02_image061
表示笛卡爾單位向量。
Figure 02_image063
Figure 02_image065
係計算DirAC參數、即DOA及擴散度必需的。DirAC後設資料組合器可利用
Figure 02_image067
個源,該等源一起播放而產生該等源的壓力及粒子速度的線性組合,該等源的壓力及粒子速度可在單獨播放其時加以量測。組合量接著藉由下式導出:
Figure 02_image069
Figure 02_image071
經由計算組合式強度向量來計算143組合式DirAC參數:
Figure 02_image073
, 其中
Figure 02_image075
表示複共軛。組合式聲場之擴散度由下式給出:
Figure 02_image077
其中
Figure 02_image079
表示時間平均算子,
Figure 02_image081
表示聲速度,且
Figure 02_image083
表示由下式給出之聲場能量。
Figure 02_image085
到達方向(DOA)係藉助於定義如下之單位向量
Figure 02_image087
來表示
Figure 02_image089
若音訊物件係輸入,則DirAC參數可直接自物件後設資料提取,而壓力向量
Figure 02_image091
係物件基本(波形)信號。更精確地,方向係直接地自空間中之物件位置導出,而擴散度係在物件後設資料中直接給出或在不可得情況下可預設設定為零。自該等DirAC參數,壓力及速度向量係由下式直接給出。
Figure 02_image093
Figure 02_image095
接著藉由如先前所解釋地對壓力及速度向量求和來獲得物件之組合或物件與不同輸入格式之組合。
總體而言,在/速度域中執行不同輸入貢獻(立體混響、通道、物件)之組合,且接著,隨後將結果方向/擴散度DirAC參數。在壓力/速度域中操作理論上等效於以B格式操作。此替代方案與先前替代方案相比之主要益處係根據各輸入格式來最佳化DirAC分析的可能性,如[3]中針對環繞格式5.1所提議。
組合式B格式或壓力/速度域中之此融合的主要缺點係在處理鏈的前端處發生之轉換對於整個編碼系統已經成為瓶頸。實際上,將音訊表示自高階立體混響、物件或通道轉換至(一階)B格式信號已經造成之後不能恢復的極大空間解析度損失。 第2編碼替代方案:DirAC域中之組合及處理
為了規避將所有輸入格式轉換成組合式B格式信號之限制,本發明替代方案提議直接自原始格式導出DirAC參數,接著隨後在DirAC參數域中組合該等DirAC參數。此系統之一般概述係在圖13中給出。圖13係在解碼器側具有物件操控之可能性的在DirAC域中組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述。
在下文中,吾人亦可將一多通道信號之個別通道視為編碼系統之音訊物件輸入。物件後設資料因而隨時間固定且表示與收聽者位置相關之揚聲器位置及距離。
此替代解決方案之目標係避免不同輸入格式變成組合式B格式或等效表示之系統性組合。目標將為在組合DirAC參數之前計算該等DirAC參數。該方法因而避免因組合所致的方向及擴散度估計上之任何偏置。此外,該方法可在DirAC分析期間或在判定該等DirAC參數時最佳地利用各音訊表示之特性。
DirAC後設資料之組合在針對各輸入格式判定125、126、126a DirAC參數、擴散度、方向以及傳輸之傳送通道中所含之壓力之後進行。DirAC分析可自藉由如先前所解釋地轉換輸入格式而獲得的中間B格式來估計該等參數。替代地,可在不經歷B格式之情況直接自輸入格式有利地估計DirAC參數,此可進一步改良估計準確度。對於[7]中之實例,提議直接自高階立體混響估計擴散度。在音訊物件之情況下,圖15中之簡單後設資料轉換器150可針對各物件自物件提取後設資料方向及擴散度。
如[4]中所提議的,可達成若干Dirac後設資料串流至單一組合式DirAC後設資料串流之組合144。對於某一內容,直接自原始格式估計DirAC參數而非在執行DirAC分析之前首先將原始格式轉換至組合式B格式好得多。實際上,該等參數、方向以及擴散度可以在變成B格式時[3]或在組合不同源時被偏置。此外,此替代方案允許 另一較簡單之替代方案可藉由根據不同源之參數的能量對該等參數加權而對該等參數取平均值。
Figure 02_image097
Figure 02_image099
對於各物件,存在仍將其自身方向且視情況距離、擴散度或任何其他相關物件屬性作為傳輸之位元串流之部分發送至解碼器(參見例如圖4a、圖4b)的可能性。此額外旁側資訊將豐富組合式DirAC後設資料且將允許解碼器分別地復原及或操控物件。由於物件貫穿所有頻帶具有單一方向且可被認為係靜態的或緩慢移動的,因此該額外資訊與其他DirAC參數相比需要較小頻率地更新且將僅產生非常低的額外位元率。
在解碼器側,方向性濾波可如[5]中所教示地執行以用於操控物件。方向性濾波係基於短時間頻譜衰減技術。方向性濾泥係藉由取決於物件之方向的零相增益功能在頻譜域中執行。若物件之方向係作為旁側資訊傳輸,則方向可含於位元串流中。否則,方向亦可由使用者以交互方式給出。 第3替代方案:解碼器側之組合
替代地,組合可在解碼器側執行。圖14係經由DirAC後設資料組合器在解碼器側組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述。在圖14中,以DirAC為基礎之編碼方案以與先前相比高的位元率工作,但允許個別DirAC後設資料之傳輸。在DirAC合成220、240之前在解碼器中如例如[4]中所提議地組合144不同後設資料串流。DirAC後設資料組合器144亦可獲得個別物件之位置以在DirAC分析中用於對物件的後續操控。
圖15係在DirAC合成中在解碼器側組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述。若位元率允許,藉由針對各輸入分量(FOA/HOA、MC、物件)發送其自身降混信號以及其相關聯之DirAC後設資料,可如圖15中所提議地進一步增強該系統。又,不同DirAC串流在解碼器處共用通用DirAC合成220、240以降低複雜度。
圖2a圖示根據本發明之另一第二態樣的用於執行多個音訊場景之合成之概念。圖2a中所圖示之裝置包含輸入介面100,該輸入介面用於接收第一場景之第一DirAC描述及用於接收第二場景之第二DirAC描述及一或多個傳送通道。
此外,提供DirAC合成器220,其用於在頻譜域中合成該等多個音訊場景,以獲得表示該等多個音訊場景之頻譜域音訊信號。此外,提供頻譜-時間轉換器214,其將頻譜域音訊信號轉換至時域,以便輸出可由例如揚聲器輸出之時域音訊信號。在此情況下,DirAC合成器經組配以執行揚聲器輸出信號之再現。替代地,音訊信號可為可輸出至頭戴式耳機之立體聲信號。此外,替代地,由頻譜-時間轉換器214輸出之音訊信號可為B格式聲場描述。所有此等信號、即多於兩個通道之揚聲器信號、頭戴式耳機信號或聲場描述係時域信號以供進一步處理,諸如由揚聲器或頭戴式耳機輸出,或在諸如一階立體混響信號或高階立體混響信號的聲場描述之情況下進行傳輸或儲存。
此外,圖2a器件另外包含用於在頻譜域中控制DirAC合成器220之使用者介面260。另外,一或多個傳送通道可提供至輸入介面100,該一或多個傳送通道將與第一及第二DirAC描述一起使用,在此情況下,第一及第二DirAC描述係針對各時間/頻率瓦片提供到達方向資訊且視情況另外提供擴散度資訊之參數描述。
通常,輸入至圖2a中之介面100中的兩個不同DirAC描述描述兩個不同音訊場景。在此情況下,DirAC合成器220經組配以執行此等音訊場景之組合。在圖2b中圖示了組合之一個替代方案。此處,場景組合器221經組配以在參數域中組合兩個DirAC描述,即,組合參數以在區塊221之輸出獲得組合式到達方向(DoA)參數且視情況獲得擴散度參數。接著將此資料引入至DirAC顯現器222中,該DirAC顯現器另外接收一或多個傳送通道以便通道以便獲得頻譜域音訊信號222。DirAC參數資料之組合較佳如圖1d中所圖示且如關於此圖且特別地關於第一替代方案所描述地執行。
輸入至場景組合器221中之兩個描述中的至少一者應包括為零之擴散度值或完全不包括擴散度值,因而,另外,亦可如在圖1d之情況下所論述地應用第二替代方案。
在圖2c中圖示了另一替代方案。在此程序中,個別DirAC描述係藉助於針對第一描述之第一DirAC顯現器223及針對第二描述之第二DirAC顯現器224來顯現,且在區塊223及224之輸出處,可得到第一及第二頻譜域音訊信號,且此等第一及第二頻譜域音訊信號在組合器225內經組合,以在組合器225之輸出處獲得頻譜域組合信號。
例示性地,第一DirAC顯現器223及第二DirAC顯現器224經組配以產生具有左通道L及右通道R之立體聲信號。接著,組合器225經組配以組合來自區塊223之左通道及來自區塊224之左通道以獲得組合式左通道。另外,將來自區塊223之右通道與來自區塊224之右通道相加,且結果為區塊225之輸出處的組合式右通道。
對於多通道信號之個別通道,執行類似程序,即,將個別通道個別地相加,使得來自DirAC顯現器223之同一通道始終加至另一DirAC顯現器之對應同一通道等。亦對例如B格式或高階立體混響信號執行相同程序。當例如第一DirAC顯現器223輸出信號W、X、Y、Z信號,且第二DirAC顯現器224輸出類似格式時,組合器接著組合該兩個全向信號以獲得組合式全向信號W,且亦對對應分量執行相同程序以便最終獲得組合式X、Y以及Z分量。
此外,如關於圖2a已概述,該輸入介面經組配以接收一音訊物件之額外音訊物件後設資料。此音訊物件可已經包括於第一或第二DirAC描述中,或與第一及第二DirAC描述分離。在此情況下,DirAC合成器220經組配以選擇性地操控該額外音訊物件後設資料或與此額外音訊物件後設資料相關之物件資料,以例如基於該額外音訊物件後設資料或基於自使用者介面260獲得的使用者給定之方向資訊來執行方向性濾波。替代或另外地,且如圖2d中所圖示,DirAC合成器220經組配用於在頻譜域中執行零相增益函數,該零相增益函數取決於音訊物件之方向,其中在物件之方向係作為旁側資訊傳輸的情況下,方向含於位元串流中,或其中方向係自使用者介面260接收。作為圖2a中之可選特徵輸入至介面100中的額外音訊物件後設資料反映對於各個別物件仍然將其自身方向且視情況距離、擴散度及任何其他相關物件屬性作為自編碼器傳輸之位元串流之部分發送至解碼器的可能性。因此,該額外音訊物件後設資料可與已經包括於第一DirAC描述中或第二DirAC描述中之物件相關,或係未包括於第一DirAC描述中及第二DirAC描述中的額外物件。
然而,具有已經為DirAC風格之額外物件後設資料、即到達方向資訊且視情況擴散度資訊係較佳的,儘管典型音訊物件具有零擴散,即,或集中至該等音訊物件之實際位置,從而產生集中且特定之到達方向,其在所有頻帶中係恆定的,即相對於圖框速率係靜態的或緩慢移動。因此,由於此物件貫穿所有頻帶具有單一方向且可被視為靜態的或緩慢移動的,因此額外資訊與其他DirAC參數相比需要較小頻率地更新,且因此將僅產生非常低的額外位元率。例示性地,當第一及第二DirAC描述具有針對各頻譜帶且針對各圖框的DoA資料及擴散度資料時,額外音訊物件後設資料僅需要所有頻帶之單一DoA資料,及僅針對每隔一個圖框或在較佳實施例中較佳每三個、四個、五個或甚至每十個圖框的此資料。
此外,關於在通常包括於編碼器/解碼器系統之解碼器側上之解碼器內的DirAC合成器220中執行之方向性濾波,在圖2b替代方案中,該DirAC合成器可在場景組合之前在參數域內執行方向性濾波,或在場景組合之後再次執行方向性濾波。然而,在此情況下,將方向性濾波應用於組合式場景而非個別描述。
此外,在音訊物件並不包括於第一第二描述中,但藉由其自身音訊物件後設資料包括的情況下,如藉由選擇性操控器所說明之方向性濾波僅可選擇性地應用於額外音訊物件,對於額外音訊物件,額外音訊物件後設資料存在,而不影響第一或第二DirAC描述或組合式DirAC描述。對於音訊物件本身,存在表示物件波形信號之單獨傳送通道,或物件波形信號包括於降混傳送通道中。
如例如同樣2b中所圖示之選擇性操控可例如以一方式繼續進行,該方式使得特定到達方向係藉由在圖2d中引入的作為旁側資訊包括於位元串流中或自使用者介面接收的音訊物件之方向給出。接著,基於使用者給出之方向或控制資訊,使用者可例如概述,自特定方向,音訊資料應增強或應衰減。因此,考慮中之物件的物件(後設資料)放大或衰減。
在實際波形資料作為在圖2d中自左邊引入至選擇性操控器226中之物件資料的情況下,音訊資料將實際上衰減或視控制資訊而增強。然而,在物件資料除到達方向且視情況擴散度或距離之外亦具有另一能量資訊之情況下,則物件之能量資訊在物件之所需衰減的情況下可減少,或能量資訊在物件資料之所需放大的情況下可增加。
因此,方向性濾波係根據短時間頻譜衰減技術,且方向性濾波係藉由視物件之方向而定的零相增益函數在頻譜域中執行。若物件之方向係作為旁側資訊傳輸,則方向可含於位元串流中。否則,方向亦可由使用者以交互方式給出。自然地,相同程序不能僅應用於通常由所有頻帶之DoA資料及相對於圖框速率具有低更新率之DoA資料提供且亦由物件之能量資訊給出的額外音訊物件後設資料所給出且反映的個別物件,但方向性濾波亦可應用於獨立於第二DirAC描述之第一DirAC描述或反之亦然,或亦可視情況應用於如此情況下之組合式DirAC描述。
此外,應注意,關於額外音訊物件資料之特徵亦可在關於圖1a至圖1f所圖示的本發明之第一態樣中應用。因而,圖1a之輸入介面100另外接收如關於圖2a所論述之額外音訊物件資料,且格式組合器可實施為由使用者介面260控制的頻譜域中之DirAC合成器220。
此外,如圖2中所圖示的本發明之第二態樣與第一態樣的不同之處在於,該輸入介面已經接收兩個DirAC描述,即相同格式的聲場之多個描述,且因此,對於第二態樣,未必需要第一態樣之格式轉換器120。
另一方面,當至圖1a之格式組合器140中之輸入由兩個DirAC描述組成時,則格式組合器140可如關於圖2a中所圖示的第二態樣所論述地實施,或替代地,圖2a器件220、240可如關於第一態樣的圖1a之格式組合器140所所論述地實施。
圖3a圖示包含輸入介面100之音訊資料轉換器,該輸入介面用於接收具有音訊物件後設資料之一音訊物件之一物件描述。此外,輸入介面100之後為用於將音訊物件後設資料轉換成DirAC後設資料的後設資料轉換器150,該後設資料轉換器亦對應於關於本發明之第一態樣所論述的後設資料轉換器125、126。圖3a音訊轉換器之輸出由用於傳輸或儲存DirAC後設資料之輸出介面300構成。輸入介面100可另外接收輸入至介面100中的如第二箭頭所圖示之波形信號。此外,輸出介面300可實施以將通常波形信號之經編碼表示引入至由區塊300輸出的輸出信號。若音訊資料轉換器經組配以僅轉換包括後設資料之單一物件描述,則輸出介面300亦提供此單一音訊物件之DirAC描述以及通常經編碼波形信號作為DirAC傳送通道。
特別地,音訊物件後設資料具有物件位置,且DirAC後設資料具有自物件位置導出的相對於參考位置之到達方向。特別地,後設資料轉換器150、125、126經組配以將自物件資料格式導出之DirAC參數轉換成壓力/速度資料,且後設資料轉換器經組配以將DirAC分析應用於此壓力/速度資料,如例如由圖3c之流程圖所圖示,該流程圖由區塊302、304、306組成。為此目的,由區塊306輸出之DirAC參數具有比自由區塊302獲得之物件後設資料導出的DirAC參數更好的品質,即係增強的DirAC參數。圖3b圖示物件之位置變成相對於特定物件之參考位置的到達方向之轉換。
圖3f圖示用於解釋後設資料轉換器150之功能性的示意圖。後設資料轉換器150接收藉由座標系中之向量P指示的物件之位置。此外,參考位置(其與DirAC後設資料相關)係由同一座標系中之向量R給出。因此,到達方向向量DoA自向量R之尖端延伸至向量B之尖端。因此,實際DoA向量係藉由自物件位置P向量減去參考位置R向量來獲得。
為了具有由向量DoA指示之正規化DoA資訊,將向量差除以向量DoA之量值或長度。此外,且此應係必需且預期的,DoA向量之長度亦可包括於由後設資料轉換器150產生的後設資料中,使得另外,物件與參考點之距離亦包括於該後設資料中,使得亦可基於物件與參考位置之距離來執行對此物件之選擇性操控。特別地,圖1f之提取方向區塊148亦可如關於圖3f所論述地操作,儘管亦可應用用於計算DoA資訊且視情況距離資訊在其他替代方案。此外,如關於圖3a已論述的,圖1c或圖1d中所圖示之區塊125及126可以如關於圖3f所論述之類似方式操作。
此外,圖3a器件可組配以接收多個音訊物件描述,且後設資料轉換器經組配以將各後設資料描述直接轉換成DirAC描述,且接著,後設資料轉換器經組配以組合個別DirAC後設資料描述以獲得組合式DirAC描述,如圖3a中所圖示之DirAC後設資料。在一個實施例中,組合係藉由以下操作來執行:使用第一能量來計算320用於第一到達方向之加權因子,及使用第二能量來計算322用於第二到達方向之加權因子,其中到達方向由與同一時間/頻率區間相關之區塊320、332來處理。接著,在區塊324中,執行加權加法,如亦關於圖1d中之項目144所論述。因此,圖3a中所圖示之程序表示第一替代方案圖1d之一實施例。
然而,關於第二替代方案,該程序可為:所有擴散度經設定至零或設定至小值,且對於一時間/頻率區間,考慮針對此時間/頻率區間給出之所有不同到達方向值,且選擇最大到達方向值作為此時間/頻率區間之組合式到達方向值。在其他實施例中,吾人亦可選擇第二至最大值,其限制條件為此等兩個到達方向值之能量資訊並不如此不同。選擇能量係來自此時間頻率區間之不同貢獻的能量當中之最大能量或第二或第三最高能量的到達方向值。
因此,如關於圖3a至圖3f所描述之第三態樣與第一態樣的不同之處在於,第三態樣亦可用於單一物件描述至DirAC後設資料之轉換。替代地,輸入介面100可接收呈同一物件/後設資料格式之若干物件描述。因此,並不需要如關於圖1a中之第一態樣所論述的任何格式轉換器。因此,圖3a實施例在接收兩個不同物件描述的情況下可有用,該兩個不同物件描述使用不同的物件波形信號及不同的物件後設資料作為輸入至格式組合器140中之第一場景描述及第二描述,且後設資料轉換器150、125、126或148之輸出可為具有DirAC後設資料之DirAC表示,且因此,亦不需要圖1之DirAC分析器180。然而,相對於對應於圖3a之降頻混頻器163的傳送通道產生器160之其他元件可在第三態樣以及傳送通道編碼器170、後設資料編碼器190的情況下使用,且在此情況下,圖3a之輸出介面300對應於圖1a之輸出介面200。因此,關於第一態樣所給出之所有對應描述亦同樣適用於第三態樣。
圖4a、圖4b圖示在用於執行音訊資料之合成之裝置的情況下的本發明之第四態樣。特別地,該裝置具有輸入介面100,該輸入介面用於接收具有DirAC後設資料的一音訊場景之一DirAC描述且另外用於接收具有物件後設資料之一物件信號。圖4b中所圖示之此音訊場景編碼器另外包含後設資料產生器400,該後設資料產生器用於產生一方面包含DirAC後設資料且另一方面包含物件後設資料的組合式後設資料描述。該DirAC後設資料包含個別時間/頻率瓦片之到達方向,且該物件後設資料包含一個別物件之一方向或另外地一距離或一擴散度。
特別地,輸入介面100經組配以另外地接收如圖4b中所圖示的與音訊場景之DirAC描述相關聯的傳送信號,且該輸入介面另外經組配用於接收與物件信號相關聯之物件波形信號。因此,場景編碼器進一步包含用於編碼傳送信號及物件波形信號之傳送信號編碼器,且傳送編碼器170可對應於圖1a之編碼器170。
特別地,產生組合式後設資料的後設資料產生器140可如關於第一態樣、第二態樣或第三態樣所論述地組配。且,在一較佳實施例中,後設資料產生器400經組配以每時間、即針對某一時間框產生物件後設資料的單一寬頻方向,且該後設資料產生器經組配以與DirAC後設資料相比頻率較低地再新每時間的單一寬頻方向。
關於圖4b所論述之程序允許具有組合式後設資料,其具有針對完全DirAC描述的後設資料且另外具有針對額外音訊物件的後設資料,但呈DirAC格式,使得極有用的DirAC再現可藉由可同時執行如關於第二態樣已論述的選擇性方向性濾波或修改來執行。
因此,本發明之第四態樣且特別地後設資料產生器400表示一特定格式轉換器,其中通用格式係DirAC格式,且輸入係關於圖1a所論述的第一格式之第一場景之DirAC描述,且第二場景係單一或組合式諸如SAOC物件信號。因此,格式轉換器120之輸出表示後設資料產生器400之輸出,但與藉由例如如關於圖1d所論述的兩個替代方案中之一者進行的後設資料之實際特定組合相比,物件後設資料係包括於輸出信號中,即與DirAC描述的後設資料分離之「組合式後設資料」,以允許針對物件資料之選擇性修改。
因此,在圖4a之右側處以項目2指示的「方向/距離/擴散度」對應於輸入至圖2a之輸入介面100中的額外音訊物件後設資料,但在圖4a之實施例中,僅針對單一DirAC描述。因此,在某種意義上,吾人可認為圖2a表示圖4a、圖4b中所圖示的編碼器之解碼器側實施,只要圖2a器件之解碼器側僅接收單一DirAC描述,及與「額外音訊物件後設資料」在同一位元串流內的由後設資料產生器400產生之物件後設資料。
因此,對額外物件資料之完全不同修改可在經編碼傳送信號具有與DirAC傳送串流分離的物件波形信號之單獨表示時執行。且,然而,傳送編碼器170對兩種資料、即來自物件的DirAC描述之傳送通道及波形信號降頻混頻,因而分離會完美度較低,但藉助於額外物件能量資訊,甚至可得到與組合式降混通道之分離及物件相對於DirAC描述的選擇性修改。
圖5a至圖5d表示在用於執行音訊資料之合成之裝置的情況下的本發明之另一第五態樣。為此目的,提供輸入介面100,其用於接收一或多個音訊物件之DirAC描述及/或多通道信號之DirAC描述及/或一階立體混響信號及/或高階立體混響信號之DirAC描述,其中該DirAC描述包含一或多個物件之位置資訊,或一階立體混響信號或高階立體混響信號之旁側資訊,或作為旁側資訊或來自使用者介面的多通道信號之位置資訊。
特別地,操控器500經組配用於操控一或多個音訊物件之DirAC描述、多通道信號之DirAC描述、一階立體混響信號之DirAC描述或高階立體混響信號之DirAC描述,以獲得操控DirAC描述。為了合成此操控DirAC描述,DirAC合成器220、240經組配用於合成此操控DirAC描述以獲得合成音訊資料。
在一較佳實施例中,DirAC合成器220、240包含如圖5b中所圖示之DirAC顯現器222,及隨後連接之輸出操控時域信號的頻譜-時間轉換器240。特別地,操控器500經組配以在DirAC顯現之前執行位置相依加權操作。
特別地,當DirAC合成器經組配以輸出多個物件、一一階立體混響信號或一高階立體混響信號或一多通道信號時,DirAC合成器經組配以將一單獨頻譜-時間轉換器用於各物件或該一階或該高階立體混響信號之各分量或用於該多通道信號之各通道,如圖5d中在區塊506、508處所圖示。如區塊510中所概述,將對應單獨轉換之輸出一起相加,其限制條件為所有信號呈通用格式,即相容格式。
因此,在圖5a之輸入介面100的情況下,接收多於一個、即兩個或三個表示,各表示可如區塊502中所圖示地在參數域中單獨地操控,如關於圖2b或2c已論述的,接著,可針對各操控描述執行合成,如區塊504中所概述,且接著可在時域中將合成相加,如關於圖5d中之區塊510所論述。替代地,頻譜域中之個別DirAC合成程序之結果可已經在頻譜域中相加,接著亦可使用單一時域轉換。特別地,操控器500可實施為關於圖2d所論述或關於之前的任何其他態樣所論述之操控器。
因此,本發明之第五態樣提供關於如下情況的實質特徵:當輸入極不同的聲音信號之個別DirAC描述時,且當執行個別描述之特定操控時,如關於圖5a之區塊500所論述,其中至操控器500中之輸入可為僅包括單一格式之任何格式的DirAC描述,儘管第二態樣集中於接收至少兩個不同的DirAC描述,或舉例而言,第四態樣與一方面DirAC描述且另一方面物件信號描述之接收相關的情況。
隨後,參看圖6。圖6圖示不同於DirAC合成器的用於執行合成之另一實施。當聲場分析器例如針對各源信號產生單獨的單通道信號S及原始到達方向時,且當取決於平移資訊來計算新的到達方向時,則圖6之立體混響信號產生器430例如可用以產生聲源信號、即單通道信號S之聲場描述,但針對由水平角θ或仰角θ及方位角φ組成之新的到達方向(DoA)資料。接著,由圖6之聲場計算器420執行之程序可用以產生例如具新到達方向之各聲源的一階立體混響聲場表示,接著,可使用視聲場至新參考位置之距離而定的縮放因數來執行每個聲源之另外修改,接著,來自個別源之所有聲場可彼此疊加,以最終在例如與特定新參考位置相關之立體混響表示中再一次獲得經修改聲場。
當吾人解譯,由DirAC分析器422處理之各時間/頻率區間表示特定(頻寬受限)聲源時,則立體混響信號產生器430可替代DirAC合成器425用以針對各時間/頻率區間而使用此時間/頻率區間的降混信號或壓力信號或全向分量作為圖6之「單通道信號S」產生全立體混響表示。因而,頻率-時間轉換器426中針對W、X、Y、Z分量中之每一者的個別頻率-時間轉換接著可產生不同於圖6中所圖示之聲場描述的聲場描述。
隨後,給出此項技術中已知的關於DirAC分析及DirAC合成之其他解釋。圖7a圖示如例如來自2009之IWPASH的參考「指向性音訊編碼(Directional Audio Coding)」中最初所揭示的DirAC分析器。該DirAC分析器包含一組頻帶濾波器1310、一能量分析器1320、一強度分析器1330、一時間平均區塊1340以及擴散度計算器1350及方向計算器1360。在DirAC中,分析及合成均在頻域中執行。在各相異特性內,存在用於將聲音分割成多個頻帶之若干方法。最常用之頻率變換包括短時間傅裏葉變換(short time Fourier transform;STFT),及正交鏡面濾波器組(Quadrature mirror filter bank;QMF)。除此等變換之外,亦存在設計具有經最佳化至任何特定用途之任意濾波器的濾波器組的完全自由。方向性分析之目標為在各頻帶處估計聲音之到達方向,以及在聲音同時自一或多個方向到達之情況下的估計。原則上,此估計可以許多技術執行,然而,對聲場之能量分析已被認為係合適的,該能量分析在圖7a中圖示。當自單一位置擷取到一維、二維或三維之壓力信號及速度信號時,可執行能量分析。在一階B格式信號中,全向信號被稱作W信號,其已根據二之平方根縮小。聲音壓力可估計為在STFT域中表示之
Figure 02_image101
X、Y以及Z通道具有沿著笛卡爾軸線引導的偶極之方向型樣,該等通道一起形狀向量U = [X, Y, Z]。該向量估計聲場速度向量,且亦在STFT域中表示。計算聲場之能量E。可利用方向性麥克風之重合定位或利用全向麥克風之緊密間隔的集合來獲得B格式信號之擷取。在一些應用中,麥克風信號可在計算域中形成,即被模擬。聲音之方向係定義為強度向量I之相反方向。該方向在傳輸之後設資料表示為對應角形方位值及高度值。亦使用強度向量及能量之期望運算子來計算聲場之擴散度。此等式之結果係介於零與一之間的實數值數字,特徵在於聲能自單一方向(擴散度為零)或自所有方向(擴散度為一)到達。此程序在可得到全3D或較小維度之速度資訊的情況下係適當的。
圖7b圖示DirAC合成,其再一次具有一組頻帶濾波器1370、一虛擬麥克風區塊1400、直接/擴散合成器區塊1450以及特定揚聲器設置或虛擬預期揚聲器設置1460。另外,使用擴散度增益變換器1380、基於向量之振幅平移(VBAP)增益表區塊1390、麥克風補償區塊1420、揚聲器增益平均區塊1430以及針對其他通道之分配器1440。在此利用揚聲器之DirAC合成,圖7b中所示的DirAC合成之高品質版本接收所有B格式信號,關於該等信號,針對揚聲器設置1460之各揚聲器方向計算虛擬麥克風信號。所用之方向型樣通常係偶極。接著視後設資料而以非線性方式修改該等虛擬麥克風信號。然而,圖7b中未展示DirAC之低位元率版本,在此情形下,僅傳輸音訊之一個通道,如圖6中所圖示。處理中之差異在於,所有虛擬麥克風信號可由接收之音訊的單一通道替代。該等虛擬麥克風信號被劃分成兩個串流:擴散及不擴散的串流,該兩個串流將分開來處理。
不擴散聲音將藉由使用向量基振幅平移(VBAP)來再現為點源。在平移中,單音聲音信號係在與揚聲器特定增益因數相乘之後應用於揚聲器之一子集。該等增益因數係使用揚聲器設置之資訊及指定平移方向來計算。在低位元率版本中,輸入信號僅平移至藉由後設資料暗示之方向。在高品質版本中,各虛擬麥克風信號與對應增益因數相乘,從而產生與平移同樣的效應,然而,其具有任何非線性假影之可能較小。
在許多情況下,方向性後設資料經歷急劇的時間變化。為了避免假影,藉由利用等於各頻帶下之約50個循環週期的頻率相依時間常數進行時間積分來平滑化利用VBAP計算的揚聲器之增益因數。此有效地移除假影,然而,在大部分情況下,方向之變化不會被感覺到比沒有平均化時慢。擴散聲音之合成之目標係建立對圍繞收聽者之聲音的感知。在低位元率版本中,擴散串流係藉由對輸入信號去相關及自每個揚聲器再現輸入信號來再現。在高品質版本中,擴散串流之虛擬麥克風信號已經在一定程度上不相干,且該等信號需要僅輕度地去相關。此方法與低位元率版本提供環繞回響及環境聲音之更好空間品質。對於關於頭戴式耳機之DirAC合成,利用用於不擴散串流的在收聽者周圍的一定量之虛擬揚聲器及用於擴散串流的特定數目個揚聲器來調配DirAC。虛擬揚聲器係實施為輸入信號與量測的頭部相關轉移函數(HRTF)之卷積。
隨後,給出關於不同態樣且特別地關於如關於圖1a所論述之第一態樣之其他實施的另一總體關係。一般而言,本發明參考使用通用格式的呈不同格式之不同場景之組合,其中通用格式可為例如B格式域、壓力/速度域或後設資料域,如例如圖1a之項目120、140中所論述。
當組合並非用DirAC通用格式直接進行時,則在一個替代方案中,在編碼器中之傳輸之前執行DirAC分析802,如之前關於圖1a之項目180所論述。
接著,在DirAC分析之後,對結果編碼,如之前關於編碼器170及後設資料編碼器190所論述,且經由藉由輸出介面200產生之經編碼輸出信號來傳輸經編碼結果。然而,在另一替代方案中,當圖1a之區塊160的輸出及圖1a之區塊180的輸出經轉送至DirAC顯現器時,結果可藉由圖1a器件直接顯現。因此,圖1a器件可不為特定編碼器裝置,但可為分析器及對應之顯現器。
在圖8之右分支中圖示了另一替代方案,其中執行編碼器至解碼器之傳輸,且如區塊804中所說明,在傳輸之後,即在解碼器側執行DirAC分析及DirAC合成。此程序可為當使用圖1a之替代方案時的情況,即經編碼輸出信號係不具空間後設資料之B格式信號。在區塊808之後,結果可顯現以用於重播,或替代地,結果甚至可經編碼且再次傳輸。因此,很明顯,如關於不同態樣所定義及描述的本發明程序係高度靈活的,且可很好地經調適以特定使用情況。 本發明之第1態樣:通用的以DirAC為基礎之空間音訊編碼/顯現
以Dirac為基礎之空間音訊寫碼器,其可分別地或同時地對多通道信號、立體混響格式以及音訊物件編碼。 優於現有技術水平之益處及優點
● 用於大部分相關沉浸式音訊輸入格式之通用的以DirAC為基礎之空間音訊編碼方案 ● 呈不同輸出格式的不同輸入格式之通用音訊顯現 本發明之第2態樣:在解碼器上組合兩個或更多個DirAC描述
本發明之第二態樣係關於在頻譜域中組合及顯現兩個或更多個DirAC描述。 優於現有技術水平之益處及優點
● 高效且精確之DirAC串流組合 ● 允許使用DirAC一般地表示任何場景且允許在參數域或頻譜域中高效地組合不同串流 ● 對頻譜域中之個別DirAC場景或組合式場景的高效且直觀之場景操控,且後續轉換成操控組合式場景之時域。 本發明之第3態樣:將音訊物件轉換至DirAC域中
本發明之第三態樣係關於將物件後設資料且視情況物件波形信號直接轉換至DirAC域中,且在一實施例中將若干物件之組合轉換成物件表示。 優於現有技術水平之益處及優點
● 由簡單後設資料轉碼器進行的對音訊物件後設資料之高效且精確之DirAC後設資料估計 ● 允許DirAC寫碼涉及一或多個音訊物件之複雜音訊場景 ● 用於在完整音訊場景之單一參數表示中經由DirAC對音訊物件寫碼的高效方法。 本發明之第4態樣:物件後設資料與常規DirAC後設資料之組合
本發明之第三態樣解決利用構成由DirAC參數表示之組合式音訊場景的個別物件之方向且最佳地距離或擴散度對DirAC後設資料的修正。此額外資訊容易經寫碼,此係因為該額外資訊主要由各時間單元之單一寬頻方向組成且可以比其他DirAC參數小的頻率進行再新,此係因為可假設物件係靜態的或以緩慢步調移動。 優於現有技術水平之益處及優點
● 允許DirAC寫碼涉及一或多個音訊物件之複雜音訊場景 ● 由簡單後設資料轉碼器進行的對音訊物件後設資料之高效且精確之DirAC後設資料估計。 ● 用於藉由在DirAC域中高效地組合音訊物件的後設資料來經由DirAC對音訊物件寫碼的更高效方法 ● 用於藉由在音訊場景之單一參數表示中高效地組合音訊物件之音訊表示來經由DirAC對音訊物件寫碼的高效方法。 本發明之第5態樣:對DirAC合成中之物件MC場景及FOA/C的操控
第四態樣係關於解碼器側且利用音訊物件之已知位置。該等位置可由使用者經由交互式介面給出且亦可作為額外旁側資訊包括於位元串流內。
目標為能夠藉由個別地改變物件之屬性(諸如水平、均衡及/或空間位置)來操控包含許多物件之輸出音訊場景。亦可設想完全地對物件濾波或自組合串流復原個別物件。
對輸出音訊場景之操控可藉由聯合地處理DirAC後設資料之空間參數、物件的後設資料、交互式使用者輸入(若存在)以及傳送通道所載運之音訊信號來達成。 優於現有技術水平之益處及優點
● 允許DirAC在解碼器側輸出如編碼器之輸入端處所呈現的音訊物件。 ● 允許DirAC再現藉由應用增益、旋轉來操控個別音訊物件,或 ● 能力需要最小額外計算努力,此係因為能力在DirAC合成最後的顯現及合成濾波器組之前僅需要位置相依加權操作(額外物件輸出剛好要求每個物件輸出一個額外合成濾波器組)。 參考文件,該等參考文件全部以全文引用的方式併入:
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
[2] Ville Pulkki. “Virtual source positioning using vector base amplitude panning”. J. Audio Eng. Soc., 45(6):456{466, June 1997.
[3] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.
[4] G. Del Galdo, F. Kuech, M. Kallinger and R. Schultz-Amling, "Efficient merging of multiple audio streams for spatial sound reproduction in Directional Audio Coding," 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, 2009, pp. 265-268.
[5] Jürgen HERRE, CORNELIA FALCH, DIRK MAHNE, GIOVANNI DEL GALDO, MARKUS KALLINGER, AND OLIVER THIERGART,“Interactive Teleconferencing Combining Spatial Audio Object Coding and DirAC Technology”, J. Audio Eng. Soc., Vol. 59, No. 12, 2011 December.
[6] R. Schultz-Amling, F. Kuech, M. Kallinger, G. Del Galdo, J. Ahonen, V. Pulkki, “Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding,” Audio Engineering Society Convention 124, Amsterdam, The Netherlands, 2008.
[7] Daniel P. Jarrett and Oliver Thiergart and Emanuel A. P. Habets and Patrick A. Naylor, “Coherence-BasedDiffuseness Estimation in the Spherical Harmonic Domain”, IEEE 27th Convention of Electrical and Electronics Engineers in Israel (IEEEI), 2012.
[8] US Patent 9,015,051.
在另外實施例中且特別地相對於第一態樣且亦相對於其他態樣,本發明提供不同替代方案。此等替代方案如下:
第一,在B格式域中組合不同格式,且在編碼器中進行DirAC分析,或將組合式通道傳輸至解碼器且進行此處之DirAC分析及合成。
第二,在壓力/速度域中組合不同格式且在編碼器中進行DirAC分析。替代地,將壓力/速度資料傳輸至解碼器,且在解碼器中進行DirAC分析且亦在解碼器中進行合成。 第三,在後設資料域中組合不同格式,且在組合DirAC串流及DirAC串流之前傳輸單一DirAC串流或傳輸若干DirAC串流至解碼器且在解碼器中進行組合。
此外,本發明之實施例或態樣與以下態樣相關:
第一,根據以上三個替代方案來組合不同音訊格式。
第二,執行對已經呈相同格式的兩個DirAC描述之接收、組合以及顯現。
第三,實施具物件資料至DirAC資料之「直接轉換」之DirAC轉換器的特定目標。
第四,除DirAC後設資料之外的物件後設資料及兩種後設資料之組合;兩種資料並排地存在於位元串流中,但音訊物件亦由DirAC後設資料風格來描述。
第五,將物件及DirAC串流分開地傳輸至解碼器,且在將輸出音訊(揚聲器)信號轉換至時域中之前在解碼器內選擇性地操控物件。
此處應提及,可個別地使用如之前所論述的所有替代方案或態樣及如以下申請專利範圍中之獨立技術方案所定義的所有態樣,即,不具有除預期替代方案、物件或獨立技術方案外的任何其他替代方案或物件。然而,在其他實施例中,該等替代方案或該等態樣或該等獨立技術方案中的兩者或多於兩者可彼此組合,且在其他實施例中,所有態樣或替代方案及所有獨立技術方案可彼此組合。
本發明之經編碼音訊信號可儲存於數位儲存媒體或非暫時性儲存媒體上,或可在傳輸媒體(諸如無線傳輸媒體或有線傳輸媒體,諸如網際網路)上傳輸。
儘管已在裝置之上下文中描述了一些態樣,但顯然,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述的態樣亦表示對應區塊或項目或對應裝置之特徵的描述。
取決於某些實施要求,本發明之實施例可在硬體或軟體中實施。可使用上面儲存有與可規劃電腦系統協作(或能夠協作)之電子可讀控制信號,使得執行各別方法之數位儲存媒體(例如,軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行實施。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可規劃電腦系統協作,使得執行本文中所描述之方法中之一者。
一般而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品運行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可例如儲存於機器可讀載體上。
其他實施例包含用於執行本文中所描述之方法中之一者的電腦程式,其儲存於機器可讀載體或非暫時性儲存媒體上。
換言之,本發明方法之實施例因此為電腦程式,其具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中之一者的程式碼。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。
因此,本發明之方法之另一實施例為表示用於執行本文中所描述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可例如經組配以經由資料通訊連接(例如,經由網際網路)傳送。
另一實施例包含經組配以或經調適以執行本文中所描述之方法中之一者的處理構件,例如電腦或可規劃邏輯器件。
另一實施例包含上面安裝有用於執行本文中所描述之方法中之一者的電腦程式之電腦。
在一些實施例中,可規劃邏輯器件(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。通常,該等方法較佳地由任何硬體裝置來執行。
上述實施例僅說明本發明之原理。應理解,對本文中所描述之佈置及細節的修改及變化將對本領域熟習此項技術者顯而易見。因此,意圖為僅受到接下來的申請專利範圍之範疇限制,而不受到藉由本文中之實施例之描述及解釋所呈現的特定細節限制。
100‧‧‧輸入介面 120‧‧‧格式轉換器 121、122‧‧‧時間/頻率分析器 123、124‧‧‧區塊/DirAC分析 125、126‧‧‧DirAC參數計算器/後設資料轉換器 126a、150‧‧‧後設資料轉換器 127、128‧‧‧B格式轉換器 140‧‧‧格式組合器 141、142、143、147、148、149、302、304、306、308、310、312、320、322、324、502、504、506、508、510、802、804、806、808、810‧‧‧區塊 144、225‧‧‧組合器 146a、146b、146c、146d‧‧‧加法器 160‧‧‧傳送通道產生器 161、162‧‧‧降混產生器 163‧‧‧組合器/降混器 170‧‧‧核心編碼器 180‧‧‧DirAC分析器 190‧‧‧後設資料編碼器 200、300‧‧‧輸出介面 214‧‧‧頻譜-時間轉換器 220、240‧‧‧DirAC合成器 221‧‧‧場景組合器 222、223、224‧‧‧DirAC顯現器 226‧‧‧選擇性操控器 260‧‧‧使用者介面 400‧‧‧後設資料產生器 430‧‧‧立體混響信號產生器 500‧‧‧操控器 1000‧‧‧空間後設資料解碼器 1020‧‧‧核心解碼器 1040‧‧‧解碼器介面 1310、1370‧‧‧頻帶濾波器 1320‧‧‧能量分析器 1330‧‧‧強度分析器 1340‧‧‧時間平均區塊 1350‧‧‧擴散度計算器 1360‧‧‧方向計算器 1380‧‧‧擴散度增益變換器 1390‧‧‧基於向量之振幅平移(VBAP)增益表區塊 1400‧‧‧虛擬麥克風區塊 1420‧‧‧麥克風補償區塊 1430‧‧‧揚聲器增益平均區塊 1440‧‧‧分配器 1450‧‧‧直接/擴散合成器區塊 1460‧‧‧揚聲器設置 E1 ‧‧‧能量資訊 eDoA 1 ‧‧‧到達方向資訊 P、R、DoA‧‧‧向量 S‧‧‧單通道信號 Ψ1 ‧‧‧擴散度資訊 θ‧‧‧水平角/仰角 φ‧‧‧方位角
隨後關於附圖論述較佳實施例,在附圖中: 圖1a係根據本發明之第一態樣的用於產生組合式音訊場景之描述的裝置或方法之較佳實施的方塊圖; 圖1b係組合式音訊場景之產生的實施,其中通用格式係壓力/速度表示; 圖1c係組合式音訊場景之產生的較佳實施,其中DirAC參數及DirAC描述係通用格式; 圖1d係圖1c中之組合器的較佳實施,說明了不同音訊場景或音訊場景描述之DirAC參數之組合器的實施之兩個不同替代方案; 圖1e係組合式音訊場景之產生的較佳實施,其中通用格式係作為立體混響表示之實例的B格式; 圖1f係對例如圖1c或圖1d之情境有用或對與後設資料轉換器相關的第三態樣之情境有用的音訊物件/DirAC轉換器的圖解; 圖1g係5.1多通道信號變成DirAC描述之例示性圖解; 圖1h係在編碼器及解碼器側之情況下的多通道格式至DirAC格式之轉換的另一圖解; 圖2a圖示根據本發明之第二態樣的用於執行多個音訊場景之合成的裝置或方法之實施例; 圖2b圖示圖2a之DirAC合成器之較佳實施; 圖2c圖示利用再現信號之組合的DirAC合成器之另一實施; 圖2d圖示在圖2b的場景組合器221之前或在圖2c的組合器225之前連接的選擇性操控器之實施; 圖3a係根據本發明之第三態樣的用於執行音訊資料轉換之裝置或方法之較佳實施; 圖3b係亦在圖1f中圖示的後設資料轉換器之較佳實施; 圖3c係用於執行經由壓力/速度域的音訊資料轉換之另一實施的流程圖; 圖3d圖示用於執行DirAC域內之組合的流程圖; 圖3e圖示例如如圖1d中關於本發明之第一態樣所說明的用於組合不同DirAC描述之較佳實施; 圖3f圖示物件位置資料至DirAC參數表示之轉換; 圖4a圖示根據本發明之第四態樣的音訊場景編碼器之較佳實施,該音訊場景編碼器用於產生包含DirAC後設資料及物件後設資料的組合式後設資料描述; 圖4b圖示關於本發明之第四態樣的較佳實施例; 圖5a圖示根據本發明之第五態樣的用於執行音訊資料之合成之裝置或對應方法的較佳實施; 圖5b圖示圖5a之DirAC合成器之較佳實施; 圖5c圖示圖5a之操控器之程序的另一替代方案; 圖5d圖示圖5a操控器之實施的另一程序; 圖6圖示音訊信號轉換器,其用於自單通道信號及到達方向資訊(即自例示性DirAC描述,其中擴散度例如設定為零)產生包含X、Y及Z方向上之全向分量及方向性分量之B格式表示; 圖7a圖示B格式麥克風信號之DirAC分析的實施; 圖7b圖示根據已知程序之DirAC合成的實施; 圖8圖示用於圖示特別地圖1a實施例之其他實施例的流程圖; 圖9係支援不同音訊格式的以DirAC為基礎之空間音訊編碼之編碼器側; 圖10係遞送不同音訊格式的以DirAC為基礎之空間音訊編碼之解碼器; 圖11係以組合式B格式組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述; 圖12係在壓力/速度域中組合的以DirAC為基礎之編碼器/解碼器之系統概述; 圖13係在解碼器側具有物件操控之可能性的在DirAC域中組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述; 圖14係經由DirAC後設資料組合器在解碼器側組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述; 圖15係在DirAC合成中在解碼器側組合不同輸入格式的以DirAC為基礎之編碼器/解碼器之系統概述;且 圖16a至圖16f圖示在本發明之第一至第五態樣之情況下的有用音訊格式之若干表示。
100‧‧‧輸入介面
120‧‧‧格式轉換器
140‧‧‧格式組合器
160‧‧‧傳送通道產生器
170‧‧‧傳送通道編碼器
180‧‧‧DirAC分析器
190‧‧‧後設資料編碼器
200‧‧‧輸出介面

Claims (15)

  1. 一種用於產生組合式音訊場景之描述之裝置,其包含:一輸入介面,其用於接收呈一第一格式之一第一場景的一第一描述及呈一第二格式之一第二場景的一第二描述,其中該第二格式不同於該第一格式;一格式轉換器,其用於在該第二格式不同於一通用格式時,將該第一描述轉換成該通用格式且將該第二描述轉換成該通用格式;以及一格式組合器,其用於組合呈該通用格式之該第一描述與呈該通用格式之該第二描述以獲得該組合式音訊場景之該描述。
  2. 如請求項1之裝置,其中該第一格式係選自包含以下各者的格式之一群組:一第一階立體混響格式、一高階立體混響格式、一指向性音訊編碼(DirAC)格式、一音訊物件格式以及一多通道格式,以及其中該第二格式係選自包含以下各者的格式之一群組:一第一階立體混響格式、一高階立體混響格式、該通用格式,當該第二格式並非不同於該通用格式時、一DirAC格式、一音訊物件格式以及一多通道格式。
  3. 如請求項1或2之裝置,其中該格式轉換器係經組配以將該第一描述轉 換成一第一B格式信號表示且將該第二描述轉換成一第二B格式信號表示,且其中該格式組合器係經組配以藉由個別地組合該第一B格式信號表示及該第二B格式信號表示之個別分量來組合該第一B格式信號表示及該第二B格式信號表示。
  4. 如請求項1之裝置,其中該格式轉換器係經組配以將該第一描述轉換成一第一壓力/速度信號表示且將該第二描述轉換成一第二壓力/速度信號表示,且其中該格式組合器係經組配以藉由個別地組合該等壓力/速度信號表示之個別分量來組合該第一壓力/速度信號表示及該第二壓力/速度信號表示,以獲得一組合式壓力/速度信號表示。
  5. 如請求項1之裝置,其中該格式轉換器係經組配以在該第二描述不同於該DirAC參數表示時,將該第一描述轉換成一第一DirAC參數表示且將該第二描述轉換成一第二DirAC參數表示,且其中該格式組合器係經組配以藉由個別地組合該第一DirAC參數表示及該第二DirAC參數表示之個別分量來組合該第一DirAC參數表示及該第二DirAC參數表示,以獲得該組合式音訊場景之一組合式DirAC參數表示。
  6. 如請求項5之裝置,其中該格式組合器係經組配以產生表示該組合式音訊場景的時間-頻率瓦片之到達方向值或該等時間-頻率瓦片之到達方向值及擴散度值。
  7. 如請求項1之裝置,其進一步包含一DirAC分析器,該DirAC分析器用於分析該組合式音訊場景以導出用於該組合式音訊場景之DirAC參數,其中該等DirAC參數包含表示該組合式音訊場景的時間-頻率瓦片之到達方向值或該等時間-頻率瓦片之到達方向值及擴散度值。
  8. 如請求項1之裝置,其進一步包含一傳送通道產生器,該傳送通道產生器用於自該組合式音訊場景或自該第一場景及該第二場景產生一傳送通道信號,以及一傳送通道編碼器,其用於對該傳送通道信號進行核心編碼,或其中該傳送通道產生器係經組配以使用分別經引導至一左位置或右位置的一波束成形器而自呈一第一階立體混響或一高階立體混響格式之該第一場景或該第二場景產生一立體聲信號,或其中該傳送通道產生器係經組配以藉由對一多通道表示之三個或多於三個通道降混而自呈該多通道表示之該第一場景或該第二場景產生一立體聲信 號,或其中該傳送通道產生器係經組配以藉由使用物件之一位置來平移各物件或藉由使用指示哪個物件位於哪個立體聲通道中的資訊將物件降混成一立體聲降混而自呈一音訊物件表示之該第一場景或該第二場景產生一立體聲信號,或其中該傳送通道產生器係經組配以僅添加該立體聲信號之左通道至該左降混傳送通道且僅添加該立體聲信號之右通道以獲得一右傳送通道,或其中該通用格式係該B格式,且其中該傳送通道產生器係經組配以處理一組合式B格式表示以導出該傳送通道信號,其中該處理包含執行一波束成形操作或提取諸如全向分量的該B格式信號之分量之一子集,作為單通道傳送通道,或其中該處理包含使用全向信號及正負號與該B格式相反之Y分量的波束成形以計算左及右通道,或其中該處理包含使用該B格式之該等分量及給定方位角以及給定仰角之一波束成形操作,或其中該傳送通道產生器係經組配以檢驗至該傳送通道編碼器的該組合式音訊場景之該等B格式信號,其中任何空間後設資料並不包括於由該格式組合器輸出的該組合式音訊場景中。
  9. 如請求項1之裝置,其進一步包含: 一後設資料編碼器,用於對該組合式音訊場景中所描述之DirAC後設資料編碼以獲得經編碼DirAC後設資料,或用於對自該第一場景導出之DirAC後設資料編碼以獲得第一經編碼DirAC後設資料且用於對自該第二場景導出之DirAC後設資料編碼以獲得第二經編碼DirAC後設資料。
  10. 如請求項1之裝置,其進一步包含:一輸出介面,其用於產生表示該組合式音訊場景之一經編碼輸出信號,該輸出信號包含經編碼DirAC後設資料及一或多個經編碼傳送通道。
  11. 如請求項1之裝置,其中該格式轉換器係經組配以將一高階立體混響格式或一第一階立體混響格式轉換成該B格式,其中該高階立體混響格式在轉換成該B格式之前經截斷,或其中該格式轉換器係經組配以在一參考位置處將一物件或一通道投影在球諧函數上以獲得投影信號,且其中該格式組合器係經組配以組合該等投影信號以獲得B格式係數,其中該物件或該通道在空間中位於一指定位置處且離一參考位置具有一可選的個別距離,或其中該格式轉換器係經組配以執行一DirAC分析,該DirAC分析包含對B格式分量之一時間-頻率 分析及對壓力及速度向量之一判定,且其中該格式組合器係經組配以組合不同的壓力/速度向量,且其中該格式組合器進一步包含一DirAC分析器,該DirAC分析器用於自該組合式壓力/速度資料導出DirAC後設資料,或其中該格式轉換器係經組配以自作為該第一或該第二格式之一音訊物件格式的物件後設資料提取DirAC參數,其中該壓力向量係該物件波形信號且該方向係自空間中之該物件位置導出,或該擴散度係在該物件後設資料中直接給出或經設定至諸如0值之一預設值,或其中該格式轉換器係經組配以將自該物件資料格式導出的DirAC參數轉換成壓力/速度資料,且該格式組合器係經組配以組合該壓力/速度資料與自一或多個不同音訊物件之一不同描述導出的壓力/速度資料,或其中該格式轉換器係經組配以直接導出DirAC參數,且其中該格式組合器係經組配以組合該等DirAC參數以獲得該組合式音訊場景。
  12. 如請求項1之裝置,其中該格式轉換器包含:一DirAC分析器,其用於一第一階立體混響輸入格式或一高階立體混響輸入格式或一多通道信號格式; 一後設資料轉換器,其用於將物件後設資料轉換成DirAC後設資料或用於將具有一時間不變位置之一多通道信號轉換成該DirAC後設資料;以及一後設資料組合器,其用於組合個別DirAC後設資料串流或藉一加權加法組合來自若干串流之到達方向後設資料,該加權加法之加權係根據相關聯壓力信號能量之能量來進行,或用於藉一加權加法組合來自若干串流之擴散度後設資料,該加權加法之加權係根據相關聯壓力信號能量之能量來進行,或其中該後設資料組合器係經組配以針對該第一場景之該第一描述之一時間/頻率區間計算一能量值及到達方向值,且針對該第二場景之該第二描述之該時間/頻率區間計算一能量值及一到達方向值,且其中該格式組合器係經組配以將該第一能量乘以該第一到達方向值且加上該第二能量值與該第二到達方向值之一乘法結果以獲得組合式到達方向值,或替代地,選擇該第一到達方向值與該第二到達方向值之間的與較高能量相關聯之到達方向值作為該組合式到達方向值。
  13. 如請求項1之裝置,進一步包含一輸出介面,該輸出介面用於將一音訊物件之一單獨物件描述加至該組合式格式,該物件描述包含一方向、一距離、一擴散度或任何其他 物件屬性中之至少一者,其中該物件具有貫穿所有頻帶之一單一方向且係靜態的或與一速度臨限值相比較慢地移動。
  14. 一種用於產生組合式音訊場景之描述的方法,其包含:接收呈一第一格式之一第一場景的一第一描述且接收呈一第二格式之一第二場景的一第二描述,其中該第二格式不同於該第一格式;在該第二格式不同於一通用格式時,將該第一描述轉換成該通用格式且將該第二描述轉換成該通用格式;以及組合呈該通用格式之該第一描述與呈該通用格式之該第二描述以獲得該組合式音訊場景之該描述。
  15. 一種電腦程式,當其運行於一電腦或一處理器上時用於執行請求項14之方法。
TW107134948A 2017-10-04 2018-10-03 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 TWI700687B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP17194816.9 2017-10-04
EP17194816 2017-10-04
PCT/EP2018/076641 WO2019068638A1 (en) 2017-10-04 2018-10-01 APPARATUS, METHOD AND COMPUTER PROGRAM FOR CODING, DECODING, SCENE PROCESSING AND OTHER PROCEDURES RELATED TO DIRAC-BASED SPATIAL AUDIO CODING
WOPCT/EP2018/076641 2018-10-01

Publications (2)

Publication Number Publication Date
TW201923744A TW201923744A (zh) 2019-06-16
TWI700687B true TWI700687B (zh) 2020-08-01

Family

ID=60185972

Family Applications (2)

Application Number Title Priority Date Filing Date
TW108141539A TWI834760B (zh) 2017-10-04 2018-10-03 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
TW107134948A TWI700687B (zh) 2017-10-04 2018-10-03 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW108141539A TWI834760B (zh) 2017-10-04 2018-10-03 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式

Country Status (18)

Country Link
US (3) US11368790B2 (zh)
EP (2) EP3975176A3 (zh)
JP (2) JP7297740B2 (zh)
KR (2) KR20220133311A (zh)
CN (2) CN117395593A (zh)
AR (2) AR117384A1 (zh)
AU (2) AU2018344830B2 (zh)
BR (1) BR112020007486A2 (zh)
CA (4) CA3219540A1 (zh)
ES (1) ES2907377T3 (zh)
MX (1) MX2020003506A (zh)
PL (1) PL3692523T3 (zh)
PT (1) PT3692523T (zh)
RU (1) RU2759160C2 (zh)
SG (1) SG11202003125SA (zh)
TW (2) TWI834760B (zh)
WO (1) WO2019068638A1 (zh)
ZA (1) ZA202001726B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3782152A2 (en) * 2018-04-16 2021-02-24 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
JP2021530723A (ja) * 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
KR20210090096A (ko) 2018-11-13 2021-07-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 및 연관된 메타데이터에 의해 공간 오디오를 표현하는 것
WO2020115311A1 (en) * 2018-12-07 2020-06-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
US11158335B1 (en) * 2019-03-28 2021-10-26 Amazon Technologies, Inc. Audio beam selection
JP7469298B2 (ja) * 2019-04-24 2024-04-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 到来方向推定装置、システム、及び、到来方向推定方法
WO2021018378A1 (en) 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
US20220406318A1 (en) * 2019-10-30 2022-12-22 Dolby Laboratories Licensing Corporation Bitrate distribution in immersive voice and audio services
WO2022079049A2 (en) 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
TW202316416A (zh) * 2020-10-13 2023-04-16 弗勞恩霍夫爾協會 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、或使用優化共變異數合成進行解碼的設備和方法
TWI816071B (zh) * 2020-12-09 2023-09-21 宏正自動科技股份有限公司 音訊轉換裝置及音訊處理方法
GB2608406A (en) * 2021-06-30 2023-01-04 Nokia Technologies Oy Creating spatial audio stream from audio objects with spatial extent
WO2024069796A1 (ja) * 2022-09-28 2024-04-04 三菱電機株式会社 音空間構築装置、音空間構築システム、プログラム及び音空間構築方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200742359A (en) * 2006-04-28 2007-11-01 Compal Electronics Inc Internet communication system
US20110029113A1 (en) * 2009-02-04 2011-02-03 Tomokazu Ishikawa Combination device, telecommunication system, and combining method
CN103236255A (zh) * 2013-04-03 2013-08-07 广西环球音乐图书有限公司 音频文件转化midi文件
US20160064005A1 (en) * 2014-08-29 2016-03-03 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233562B1 (en) * 1996-12-09 2001-05-15 Matsushita Electric Industrial Co., Ltd. Audio decoding device and signal processing device for decoding multi-channel signals with reduced memory requirements
US8872979B2 (en) 2002-05-21 2014-10-28 Avaya Inc. Combined-media scene tracking for audio-video summarization
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US20130003998A1 (en) * 2010-02-26 2013-01-03 Nokia Corporation Modifying Spatial Image of a Plurality of Audio Signals
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
EP2448289A1 (en) * 2010-10-28 2012-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for deriving a directional information and computer program product
EP2464145A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP2839461A4 (en) * 2012-04-19 2015-12-16 Nokia Technologies Oy AUDIO SCENE APPARATUS
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
DE102013105375A1 (de) 2013-05-24 2014-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonsignalerzeuger, Verfahren und Computerprogramm zum Bereitstellen eines Tonsignals
KR101993348B1 (ko) * 2014-09-24 2019-06-26 한국전자통신연구원 동적 포맷 변환을 지원하는 오디오 메타데이터 제공 장치 및 오디오 데이터 재생 장치, 상기 장치가 수행하는 방법 그리고 상기 동적 포맷 변환들이 기록된 컴퓨터에서 판독 가능한 기록매체
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN104768053A (zh) 2015-04-15 2015-07-08 冯山泉 一种基于流分解和流重组的格式转换方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200742359A (en) * 2006-04-28 2007-11-01 Compal Electronics Inc Internet communication system
US20110029113A1 (en) * 2009-02-04 2011-02-03 Tomokazu Ishikawa Combination device, telecommunication system, and combining method
CN103236255A (zh) * 2013-04-03 2013-08-07 广西环球音乐图书有限公司 音频文件转化midi文件
US20160064005A1 (en) * 2014-08-29 2016-03-03 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data

Also Published As

Publication number Publication date
RU2020115048A3 (zh) 2021-11-08
TWI834760B (zh) 2024-03-11
US20220150635A1 (en) 2022-05-12
AU2018344830A1 (en) 2020-05-21
EP3692523B1 (en) 2021-12-22
AU2018344830A8 (en) 2020-06-18
JP2020536286A (ja) 2020-12-10
CN111630592B (zh) 2023-10-27
EP3975176A2 (en) 2022-03-30
EP3692523A1 (en) 2020-08-12
PT3692523T (pt) 2022-03-02
TW201923744A (zh) 2019-06-16
AR117384A1 (es) 2021-08-04
MX2020003506A (es) 2020-07-22
CA3219540A1 (en) 2019-04-11
US11729554B2 (en) 2023-08-15
AU2018344830B2 (en) 2021-09-23
CA3219566A1 (en) 2019-04-11
CA3076703A1 (en) 2019-04-11
KR102468780B1 (ko) 2022-11-21
SG11202003125SA (en) 2020-05-28
AU2021290361B2 (en) 2024-02-22
KR20200053614A (ko) 2020-05-18
JP7297740B2 (ja) 2023-06-26
AU2021290361A1 (en) 2022-02-03
RU2759160C2 (ru) 2021-11-09
WO2019068638A1 (en) 2019-04-11
CN111630592A (zh) 2020-09-04
TW202016925A (zh) 2020-05-01
JP2023126225A (ja) 2023-09-07
KR20220133311A (ko) 2022-10-04
RU2020115048A (ru) 2021-11-08
US20200221230A1 (en) 2020-07-09
ZA202001726B (en) 2021-10-27
US11368790B2 (en) 2022-06-21
CN117395593A (zh) 2024-01-12
US20220150633A1 (en) 2022-05-12
CA3134343A1 (en) 2019-04-11
ES2907377T3 (es) 2022-04-25
PL3692523T3 (pl) 2022-05-02
AR125562A2 (es) 2023-07-26
CA3076703C (en) 2024-01-02
BR112020007486A2 (pt) 2020-10-27
EP3975176A3 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
TWI700687B (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
TW202032538A (zh) 對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式
CN112567765B (zh) 空间音频捕获、传输和再现
TWI745795B (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
JP2022552474A (ja) 空間オーディオ表現およびレンダリング
Politis et al. Overview of Time–Frequency Domain Parametric Spatial Audio Techniques