TW202029185A - 音訊資料之靈活渲染 - Google Patents

音訊資料之靈活渲染 Download PDF

Info

Publication number
TW202029185A
TW202029185A TW108134887A TW108134887A TW202029185A TW 202029185 A TW202029185 A TW 202029185A TW 108134887 A TW108134887 A TW 108134887A TW 108134887 A TW108134887 A TW 108134887A TW 202029185 A TW202029185 A TW 202029185A
Authority
TW
Taiwan
Prior art keywords
renderer
audio data
processors
encoded audio
audio
Prior art date
Application number
TW108134887A
Other languages
English (en)
Other versions
TWI827687B (zh
Inventor
金墨永
尼爾斯 古恩瑟 彼得斯
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202029185A publication Critical patent/TW202029185A/zh
Application granted granted Critical
Publication of TWI827687B publication Critical patent/TWI827687B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

大體而言,本發明描述用於自一位元串流獲得音訊渲染資訊之技術。一種渲染音訊資料之方法包括:在一器件之一介面處接收一經編碼音訊位元串流;將該經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體;藉由該器件之一或多個處理器剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;藉由該器件之該一或多個處理器使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入;及藉由該器件之一或多個擴音器輸出該一或多個經渲染揚聲器饋入。

Description

音訊資料之靈活渲染
本發明係關於渲染資訊,且更特定言之,係關於用於音訊資料之渲染資訊。
在音訊內容之產生期間,聲音工程師可使用特定渲染器渲染音訊內容,以試圖針對用以再生音訊內容之揚聲器的目標組態調適音訊內容。換言之,聲音工程師可渲染音訊內容,且使用配置於目標性組態中之揚聲器播放經渲染音訊內容。聲音工程師可接著重混音訊內容之各種態樣,渲染經重混音訊內容且使用配置於目標性組態中之揚聲器再次播放經渲染經重混音訊內容。聲音工程師可以此方式反覆,直至藉由音訊內容提供某一藝術意圖為止。以此方式,聲音工程師可產生提供某一藝術意圖或以其他方式在播放期間提供某一聲場(例如,伴隨視訊內容連同音訊內容一起播放)的音訊內容。
大體而言,本發明描述用於指定表示音訊資料之一位元串流中之音訊渲染資訊的技術。在各種實例中,本發明之技術提供藉以向一播放器件發信在音訊內容產生期間使用之音訊渲染器選擇資訊的方法。該播放器件可反過來使用該經發信音訊渲染器選擇資訊選擇一或多個渲染器,且使用該所選擇渲染器渲染該音訊內容。以此方式提供該渲染資訊使得該播放器件能夠以聲音工程師所意欲之方式渲染該音訊內容,且從而有可能確保該音訊內容之適當播放,使得藝術意圖得以保留且被一收聽者所理解。
換言之,根據本發明中所描述之技術提供藉由該聲音工程師在渲染期間使用的該渲染資訊,從而使得該音訊播放器件可以該聲音工程師所意欲之方式利用該渲染資訊渲染該音訊內容,由此相較於並不提供此音訊渲染資訊的系統,在該音訊內容之產生及播放兩者期間確保更一致的體驗。此外,本發明之技術使得該播放能夠利用一音場之基於物件之表示及立體混響表示兩者來保留該音場之藝術意圖。亦即,一內容創建者器件或內容產生器器件可實施本發明之技術以將渲染器識別資訊發信至該播放器件,由此使得至器件之該播放能夠針對該音場-代表性音訊資料之一相關部分選擇該適當渲染器。
在一個態樣中,本發明係關於一種經組態以編碼音訊資料之器件。該器件包括一記憶體及與該記憶體通信之一或多個處理器。該記憶體經組態以儲存音訊資料。該一或多個處理器經組態以編碼該音訊資料以形成經編碼音訊資料;選擇與該經編碼音訊資料相關聯之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流。在一些實施中,該器件包括與該記憶體通信之一或多個麥克風。在此等實施中,該一或多個麥克風經組態以接收該音訊資料。在一些實施中,該器件包括與該一或多個處理器通信之一介面。在此等實施中,該介面經組態以發信該經編碼音訊位元串流。
在另一態樣中,本發明係關於一種編碼音訊資料之方法。該方法包括將音訊資料儲存至一器件之一記憶體;及藉由該器件之一或多個處理器編碼該音訊資料以形成經編碼音訊資料。該方法進一步包括藉由該器件之該一或多個處理器選擇與該經編碼音訊資料相關聯之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者。該方法進一步包括藉由該器件之該一或多個處理器產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流。在一些非限制性實例中,該方法進一步包括藉由該器件之一介面發信該經編碼音訊位元串流。在一些非限制性實例中,該方法進一步包括藉由該器件之一或多個麥克風接收該音訊資料。
在另一態樣中,本發明係關於一種用於編碼音訊資料之設備。該設備包括用於儲存音訊資料的構件,及用於編碼該音訊資料以形成經編碼音訊資料的構件。該設備進一步包括用於選擇與該經編碼音訊資料相關聯之一渲染器的構件,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者。該設備進一步包括用於產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流的構件。
在另一態樣中,本發明係關於一種運用指令進行編碼之非暫時性電腦可讀儲存媒體。該等指令在執行時使得用於編碼音訊資料之一器件的一或多個處理器:將音訊資料儲存至該器件之一記憶體;編碼該音訊資料以形成經編碼音訊資料;選擇與該經編碼音訊資料相關聯之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流。
在另一態樣中,本發明係關於一種經組態以渲染音訊資料之器件。該器件包括一記憶體及與該記憶體通信之一或多個處理器。該記憶體經組態以儲存一經編碼音訊位元串流之經編碼音訊資料。該一或多個處理器經組態以剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者,且使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。在一些實施中,該器件包括與該記憶體通信之一介面。在此等實施中,該介面經組態以接收該經編碼音訊位元串流。在一些實施中,該器件包括與該一或多個處理器通信之一或多個擴音器。在此等實施中,該一或多個擴音器經組態以輸出該一或多個經渲染揚聲器饋入。
在另一態樣中,本發明係關於一種渲染音訊資料之方法。該方法包括將一經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體。該方法進一步包括藉由該器件之一或多個處理器剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者。該方法進一步包括藉由該器件之該一或多個處理器使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。在一些非限制性實例中,該方法進一步包括在一器件之一介面處接收一經編碼音訊位元串流。在一些非限制性實例中,該方法進一步包括藉由該器件之一或多個擴音器輸出該一或多個經渲染揚聲器饋入。
在另一態樣中,本發明係關於一種經組態以渲染音訊資料之設備。該設備包括用於儲存一經編碼音訊位元串流之經編碼音訊資料的構件及用於剖析該所儲存經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器的構件,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者。該設備進一步包括用於使用該所選擇渲染器渲染該所儲存經編碼音訊資料以產生一或多個經渲染揚聲器饋入的構件。在一些非限制性實例中,該設備進一步包括用於接收該經編碼音訊位元串流的構件。在一些非限制性實例中,該設備進一步包括用於輸出該一或多個經渲染揚聲器饋入的構件。
在另一態樣中,本發明係關於一種運用指令進行編碼之非暫時性電腦可讀儲存媒體。該等指令在執行時使得用於渲染音訊資料之一器件的一或多個處理器:將一經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體;剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
在隨附圖式及以下描述中闡述該等技術之一或多個態樣的細節。該等技術之其他特徵、目標及優點將自該描述及該等圖式以及自申請專利範圍顯而易見。
本申請案主張2018年10月2日申請的名為「FLEXIBLE RENDERING OF AUDIO DATA」之美國臨時申請案序列號62/740,260之權益,其全部內容特此以引用之方式併入,如同於其在本文全部內容中所闡述。
存在數種表示音場之不同方法。實例格式包括基於聲道之音訊格式、基於物件之音訊格式及基於場景之音訊格式。基於聲道之音訊格式指5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或將音訊聲道定位於收聽者周圍之特殊位置以便重新建立音場的任何其他基於聲道之格式。
基於物件之音訊格式可指規定常常使用脈衝編碼調變(PCM)進行編碼且被稱作PCM音訊物件之音訊物件以便表示音場的格式。此等音訊物件可包括識別音訊物件相對於收聽者或音場中之其他參考點之位置的後設資料,使得該音訊物件可渲染至一或多個揚聲器聲道用於播放以致力於重新建立音場。本發明中所描述之技術可應用於前述格式中之任一者,包括基於場景之音訊格式、基於聲道之音訊格式、基於物件之音訊格式或其任何組合。
基於場景之音訊格式可包括以三個維度界定音場之元素之階層式集合。元素之階層式集合之一個實例為球諧係數(SHC)之集合。以下表達式表明使用SHC之音場之描述或表示:
Figure 02_image001
該表達式展示出,在時間t ,音場之任何點
Figure 02_image003
處之壓力pi 可由SHC
Figure 02_image005
唯一地表示。此處,
Figure 02_image007
c 為音速(約343 m/s),{rr , θr , φr }為參考點(或觀測點),
Figure 02_image009
為階n 之球面貝塞爾函數,且
Figure 02_image011
為階n 及子階m 之球諧基底函數(其亦可被稱作球面基底函數)。可認識到,方括號中之項為信號之頻域表示(亦即,
Figure 02_image013
),其可藉由各種時間-頻率變換來近似,該等時間-頻率變換係諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層式集合之其他實例包括小波變換係數之集合,及多解析度基底函數之係數之其他集合。
SHC
Figure 02_image015
可由各種麥克風陣列組態實體上取得(acquire) (例如記錄),或替代地,其可自音場之基於聲道或基於物件之描述導出。SHC (其亦可被稱作立體混響係數)表示基於場景之音訊,其中可將SHC輸入至音訊編碼器以獲得可促進較高效傳輸或儲存之經編碼SHC。舉例而言,可使用涉及(1+4)2 (25,且因此為四階)個係數之四階表示。
如上文所提到,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列實體上取得SHC之各種實例描述於Poletti, M.之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」中,J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁。
以下方程式可說明可如何自基於物件之描述導出SHC。可將對應於個別音訊物件之音場之係數
Figure 02_image017
表達為:
Figure 02_image019
其中i為
Figure 02_image021
Figure 02_image023
為階n之(第二種類之)球面漢克爾(Hankel)函數,且{rsss }為物件之位置。知道隨頻率而變之物件源能量g (ω ) (例如使用時間-頻率分析技術,諸如對脈碼調變—PCM—串流執行快速傅立葉變換)可使能夠將每一PCM物件及對應位置轉換成SHC
Figure 02_image025
。此外,可展示出(由於以上情形為線性及正交分解),每一物件之
Figure 02_image025
係數為相加的。以此方式,數個PCM物件可由
Figure 02_image025
係數(例如作為個別物件之係數向量之總和)表示。該等係數可含有關於音場之資訊(作為3D座標之函數的壓力),且以上情形表示在觀測點{rr , θr , φr }附近自個別物件至總音場之表示的變換。
圖1為說明可執行本發明中所描述之技術之各種態樣的系統10的圖式。如圖1之實例中所展示,系統10包括內容創建者器件12及內容消費者器件14。雖然在內容創建者器件12及內容消費者器件14之上下文中加以描述,但可在音場之SHC(其亦可被稱作立體混響係數)或任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何上下文中實施該等技術。此外,內容創建者器件12可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機或桌上型電腦(提供幾個實例)。同樣地,內容消費者器件14可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機、機上盒,或桌上型電腦(提供幾個實例)。
內容創建者器件12可由影片工作室或可產生多聲道音訊內容以供內容消費者器件(諸如,內容消費者器件14)之操作者消耗的其他實體來操作。在一些實例中,內容創建者器件12可藉由想要壓縮立體混響係數11B(「AMB COEFFS 11B」)之個別使用者操作。
立體混響係數11B可採用數種不同形式。舉例而言,麥克風5B可使用音場之立體混響表示的寫碼方案,被稱作混合階立體混響(MOA),如在2017年8月8日申請且在2019年1月3日公開為美國專利公開案第20190007781號的名為「MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FO COMPUTER-MEDIATED REALITY SYSTEMS」之美國申請案第15/672,058號中更詳細所論述。
為了產生音場之特殊MOA表示,麥克風5B可產生立體混響係數之全集合之部分子集。舉例而言,由麥克風5B產生之每一MOA表示可關於音場之一些區域提供精確度,但在其他區域中提供較小精確度。在一個實例中,音場之MOA表示可包括八(8)個未經壓縮立體混響係數,而同一音場之三階立體混響表示可包括十六(16)個未經壓縮立體混響係數。因而,經產生作為立體混響係數之部分子集的音場之每一MOA表示相比於自立體混響係數產生的同一音場之對應三階立體混響表示可在儲存方面較不密集並在頻寬方面較不密集(在作為位元串流21之部分而經由所說明之傳輸聲道進行傳輸的情況下及在此情形時)。
立體混響係數之另一實例形式包括一階立體混響(FOA)表示,其中與一階球面基底函數及零階球面基底函數相關聯之所有立體混響係數用來表示音場。換言之,麥克風5B可使用給定階N之所有立體混響係數表示音場,而非使用立體混響係數之部分非零子集表示音場,從而產生總數等於(N+1)2 之立體混響係數。
就此而言,立體混響音訊資料(其為用以參考MOA表示或全階表示中之立體混響係數之另一方式,諸如上文所提到之一階表示)可包括與具有為一或更小之階之球面基底函數相關聯的立體混響係數(其可被稱作「1階立體混響音訊資料」)、與具有混合階及子階之球面基底函數相關聯的立體混響係數(其可被稱作如上文所論述之「MOA表示」),或與具有大於一之階之球面基底函數相關聯的立體混響係數(其在上文被稱作「全階表示」)
在任何情況下,內容創建者可產生與視訊內容結合之音訊內容(包括呈上文所提及形式中之一或多者的立體混響係數)。內容消費者器件14可由個體來操作。內容消費者器件14可包括音訊播放系統16,其可指能夠渲染SHC (諸如立體混響係數11B)以供播放為多聲道音訊內容的任何形式之音訊播放系統。
內容創建者器件12包括音訊編輯系統18。內容創建者器件12獲得呈各種格式之實況記錄7(包括直接作為立體混響係數、作為基於物件之音訊等等)及音訊物件9,內容創建者器件12可使用音訊編輯系統18編輯該實況記錄及該等音訊物件。麥克風5A及/或麥克風5B(「麥克風5」)可捕獲實況記錄7。在圖1之實例中,麥克風5A表示一麥克風或麥克風集合,其經組態或以其他方式可操作以捕獲音訊資料且產生表示所捕獲之音訊資料的基於物件及/或基於聲道之信號。因而,實況記錄7可在各種使用案例情境中表示立體混響係數、基於物件之音訊資料或其一組合。
內容創建者可在編輯程序期間渲染來自音訊物件9之立體混響係數11B,接聽經渲染揚聲器饋入以試圖識別需要進一步編輯的音場之各種態樣。內容創建者器件12可接著編輯立體混響係數11B (有可能間接經由音訊物件9之不同者的操縱,可以上文所描述之方式自該等物件導出源立體混響係數)。內容創建者器件12可採用音訊編輯系統18產生立體混響係數11B。音訊編輯系統18表示能夠編輯音訊資料且將音訊資料輸出為一或多個源球諧係數之任何系統。
當編輯程序完成時,內容創建者器件12可基於立體混響係數11B產生位元串流21。亦即,內容創建者器件12包括表示經組態以根據本發明中所描述之技術之各種態樣編碼或以其他方式壓縮立體混響係數11B以產生位元串流21之器件的音訊編碼器件20。音訊編碼器件20可產生位元串流21以供作為一個實例在傳輸聲道上傳輸,該傳輸聲道可為有線或無線聲道、資料儲存器件或其類似者。在使用實況記錄7產生立體混響係數11B之例項中,位元串流21之一部分可表示立體混響係數11B之經編碼版本。在實況記錄7包括基於物件之音訊信號的例項中,位元串流21可包括基於物件之音訊資料11A之經編碼版本。在任何情況下,音訊編碼器件20可產生位元串流21,以包括主要位元串流及諸如後設資料之其他旁側資訊,該旁側資訊在本文中亦可被稱作旁側聲道資訊。
根據本發明之態樣,音訊編碼器件20可產生位元串流21之旁側聲道資訊以包括關於圖1中所說明之音訊渲染器1的渲染器選擇資訊。在一些實例中,音訊編碼器件20可產生位元串流21之旁側聲道資訊以指示音訊渲染器1的基於物件之渲染器被用於位元串流21之音訊資料的內容創建者側渲染,抑或音訊渲染器1之立體混響渲染器被用於位元串流21之音訊資料的內容創建者側渲染。在一些實例中,若音訊渲染器1包括多於一個立體混響渲染器及/或多於一個基於物件之渲染器,則音訊編碼器件20可將額外渲染器選擇資訊包括於位元串流21之旁側聲道中。舉例而言,若音訊渲染器1包括適用於相同類型(物件或立體混響)之音訊資料的多個渲染器,則音訊編碼器件20可將渲染器識別符(或「渲染器ID」)以及渲染器類型包括於旁側聲道資訊中。
根據本發明之技術之一些實例實施,音訊編碼器件20可在位元串流21中發信表示音訊渲染器1中之一或多者的資訊。舉例而言,若音訊編碼器件20判定音訊渲染器1之特別的一或多者用於位元串流21之音訊資料的內容創建者側渲染,則音訊編碼器件20可在位元串流21中發信表示所識別音訊渲染器1之一或多個矩陣。以此方式,根據本發明之此等實例實施,音訊編碼器件20可經由位元串流21之旁側聲道資訊為解碼器件直接提供應用音訊渲染器1中之一或多者所必需的資料,以渲染經由位元串流21發信之音訊資料。在本發明通篇中,音訊編碼器件20傳輸表示音訊渲染器1中之任一者之矩陣資訊的實施被稱為「渲染器傳輸」實施。
雖然在圖1中經展示為直接傳輸至內容消費者器件14,但內容創建者器件12可將位元串流21輸出至定位於內容創建者器件12與內容消費者器件14之間的中間器件。中間器件可儲存位元串流21以供稍後遞送至可能請求位元串流之內容消費者器件14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。該中間器件可駐存於能夠將位元串流21 (且可能結合傳輸對應視訊資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如,內容消費者器件14)的內容遞送網路中。
替代地,內容創建者器件12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位影音光碟、高清晰度視訊光碟或其他儲存媒體,其中之大部分能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸聲道可指藉以傳輸儲存至該等媒體之內容的聲道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖1之實例。
如圖1之實例中進一步展示,內容消費者器件14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同渲染器22。渲染器22可各自提供不同形式之渲染,其中不同形式之渲染可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文中所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以自位元串流21解碼立體混響係數11B'的器件,其中立體混響係數11B'可類似於立體混響係數11B,但歸因於有損操作(例如,量化)及/或經由傳輸聲道之傳輸而不同。音訊播放系統16可在解碼位元串流21以獲得立體混響係數11B'之後,且渲染立體混響係數11B'以輸出擴音器饋入25。擴音器饋入25可驅動一或多個揚聲器3。
為了選擇適當渲染器或在一些情況下產生適當渲染器,音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何佈置的擴音器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以使得動態地判定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。
音訊播放系統16可隨後基於擴音器資訊13選擇音訊渲染器22中的一者。在一些情況下,在音訊渲染器22中無一者處於對擴音器資訊13中所指定之擴音器幾何佈置的一些臨限值類似性量測(就擴音器幾何佈置而言)內時,音訊播放系統16可基於擴音器資訊13生成音訊渲染器22中之一者。音訊播放系統16可在一些情況下基於擴音器資訊13生成音訊渲染器22中之一者,而並不首先嘗試選擇音訊渲染器22中的現有一者。一或多個揚聲器3可接著播放經渲染之擴音器饋入25。
在揚聲器3表示頭戴式耳機之揚聲器時,音訊播放系統16可利用渲染器22中之一者,該等渲染器使用頭相關變換函數(HRTF)或能夠渲染頭戴式耳機揚聲器播放之左側及右側揚聲器饋送25的其他函數來提供雙耳渲染。術語「揚聲器」或「換能器」一般可指任何揚聲器,包括擴音器、頭戴式耳機揚聲器等。一或多個揚聲器3可隨後播放經渲染之揚聲器饋送25。
在一些情況下,音訊播放系統16可選擇音訊渲染器22中之任一者,且可經組態以取決於自其接收位元串流21的源(諸如,DVD播放器、Blu-ray播放器、智慧型手機、平板電腦、遊戲系統及電視,以提供幾個實例)而選擇音訊渲染器22中的一或多者。雖然可選擇音訊渲染器22中之任一者,但在創建內容時使用之音訊渲染器常常提供較佳(且可能最佳)形式之渲染,此係因為該內容係藉由內容創建者12使用音訊渲染器中之此者而創建(亦即,圖1之實例中的音訊渲染器5)。選擇音訊渲染器22中相同或至少接近的一者(在渲染形式方面)可提供聲場之較佳表示,且可為內容消費者14形成較佳環繞聲體驗。
根據本發明中所描述之技術,音訊編碼器件20可產生位元串流21 (例如,其旁側聲道資訊)以包括音訊渲染資訊2 (「渲染info 2」)。音訊渲染資訊2可包括識別在產生多聲道音訊內容時所用之音訊渲染器的信號值,亦即,圖1之實例中的音訊渲染器1之一或多者。在一些情況下,信號值包括用以將球諧係數渲染至複數個揚聲器饋入的矩陣。
如上文所描述,根據本發明之態樣,音訊編碼器件20可包括位元串流21之旁側聲道資訊中之音訊渲染資訊2。在此等實例中,音訊解碼器件24可剖析位元串流21之旁側聲道資訊以獲得將使用音訊渲染器22的基於物件之渲染器來渲染位元串流21之音訊資料抑或將使用音訊渲染器22之立體混響渲染器來渲染位元串流21之音訊資料的一指示,作為音訊渲染資訊2之部分。在一些實例中,若音訊渲染器22包括多於一個立體混響渲染器及/或多於一個基於物件之渲染器,則音訊解碼器件24可自位元串流21之旁側聲道資訊獲得額外渲染器選擇資訊作為音訊渲染資訊2之部分。舉例而言,若音訊渲染器22包括適用於相同類型之音訊資料(物件或立體混響)的多個渲染器,則除獲得渲染器類型之外,音訊解碼器件24可自位元串流21之旁側聲道資訊獲得渲染器ID作為音訊渲染資訊2之部分。
根據本發明之技術之渲染器傳輸實施,音訊解碼器件24可在位元串流21中發信表示音訊渲染器1中之一或多者的資訊。在此等實例中,音訊解碼器件24可自音訊渲染資訊2獲得表示所識別之音訊渲染器22的一或多個矩陣,且使用矩陣應用矩陣乘法以渲染基於物件之音訊資料11A'及/或立體混響係數11B'。以此方式,根據本發明之此等實例實施,音訊編碼器件24可經由位元串流21直接接收應用音訊渲染器22中之一或多者所需的資料,以渲染基於物件之音訊資料11A'及/或立體混響係數11B'。
換言之且如上所指出,立體混響係數(包括所謂高階立體混響-HOA-係數)可表示用以基於空間傅里葉變換描述音場之方向資訊的方式。大體而言,立體混響階N愈高,空間解析度愈高,球諧(SH)係數(N+1)^2之數目愈大,且用於傳輸及儲存資料所需的頻寬愈大。HOA係數一般指具有與具有大於一之階之球面基底函數相關聯的立體混響係數的立體混響表示。
本說明書之潛在優點在於可能在幾乎任何擴音器設置上再生此音場(例如,5.1、7.1 22.2等)。可經由具有(N+1)2個輸入及M個輸出的靜態渲染矩陣進行自音場描述至M個擴音器信號之轉換。因此,每一擴音器設置可能需要專用渲染矩陣。可存在用於計算所要擴音器設置之渲染矩陣的若干演算法,該等演算法可針對某些客觀或主觀量測值進行最佳化,諸如喬松(Gerzon)準則。對於不規則擴音器設定,演算法可歸因於諸如凸起最佳化之反覆數值最佳化程序而變得複雜。
為了在無等待時間的情況下計算不規則擴音器佈局之渲染矩陣,具有充足的可用計算資源可為有益的。不規則擴音器設定可歸因於建築結構限制及美學偏好而常見於家庭起居室環境中。因此,對於最佳音場再生,針對此情境最佳化之渲染矩陣可係較佳的,原因在於其可實現更加準確地再生音場。
因為音訊解碼器通常並不需要很多計算資源,所以器件可能無法在方便消費者之時間內計算不規則渲染矩陣。本發明中所描述之技術之各種態樣可提供如下使用基於雲端之計算方法: 1. 音訊解碼器可經由網際網路連接將發送擴音器座標(且,在一些情況下,亦發送運用校準麥克風獲得之SPL量測結果)至伺服器; 2. 基於雲端之伺服器可計算渲染矩陣(且可能幾個不同版本,從而使得客戶可稍後自此等不同版本選擇);及 3. 伺服器可接著經由網際網路連接將渲染矩陣(或不同版本)發送回音訊解碼器。
此方法可允許製造商保持音訊解碼器之製造成本較低(因為可能無需強大處理器來計算此等不規則渲染矩陣),同時亦相比通常針對規則揚聲器組態或幾何結構設計之渲染矩陣促進更優音訊再生。亦可在音訊解碼器已運送之後將用於計算渲染矩陣之演算法最佳化,潛在地縮減硬體修訂或甚至召回的成本。該等技術亦可在一些情況下收集關於可能有益於未來產品研發的消費者產品之不同擴音器設定的大量資訊。
又,在一些情況下,圖1中所示之系統可能不會合併在如上文所描述之位元串流21中發信音訊渲染資訊2,但實際上可使用將此音訊渲染資訊2作為後設資料分離於位元串流21發信。替代地或結合上文所描述的,圖1中所示之系統可在如上文所描述之位元串流21中發信音訊渲染資訊2之一部分,且將此音訊渲染資訊2之一部分作為後設資料分離於位元串流21發信。在一些實例中,音訊編碼器件20可輸出此後設資料,該後設資料可接著經上載至伺服器或其他器件。音訊解碼器件24可接著下載或以其他方式擷取此後設資料,該後設資料隨後用以強化藉由音訊解碼器件24自位元串流21提取之音訊渲染資訊。根據技術之渲染資訊態樣形成的位元串流21在下文描述。
圖2為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖1之實例中所展示的音訊編碼器件20之一個實例的方塊圖。音訊編碼器件20包括內容分析單元26、基於向量之分解單元27及基於方向之分解單元28。儘管在下文簡要描述,但關於音訊編碼器件20及壓縮或以其他方式編碼立體混響係數之各種態樣的更多資訊可獲自2014年5月29日申請的名為「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」之國際專利申請公開案第WO 2014/194099號。
音訊編碼器件20在圖2中說明為包括各種單元,該等單元中之每一者在下文關於音訊編碼器件20整體之特殊功能性進一步描述。音訊編碼器件20之各種單元可使用處理器硬體實施,諸如一或多個處理器。亦即,音訊編碼器件20之給定處理器可實施下文關於所說明單元中之一者或所說明單元之多個單元中之一者描述的功能性。音訊編碼器件20之處理器可包括處理電路系統(例如,固定功能電路系統、可程式化處理電路系統或其任何組合)、特殊應用積體電路(ASIC) (諸如一或多個硬體ASIC)、數位信號處理器(DSP)、通用微處理器、場可程式化邏輯陣列(FPGA)或其他等效積體電路系統或離散邏輯電路系統。音訊編碼器件20之處理器可經組態以使用其處理硬體執行軟體以執行下文關於所說明單元所描述的功能性。
內容分析單元26表示經組態以分析基於物件之音訊資料11A及/或立體混響係數11B (統稱為「音訊資料11」)之內容,以識別音訊資料11是否表示由實況記錄或音訊物件或兩者產生之內容的單元。內容分析單元26可判定音訊資料11係自實際音場之記錄產生抑或自人工音訊物件產生。在一些情況下,當音訊資料11 (例如,成框立體混響係數11B)由記錄產生時,內容分析單元26將成框立體混響係數11B傳遞至基於向量之分解單元27。
在一些情況下,當音訊資料11 (例如,成框立體混響係數11B)由合成音訊物件產生時,內容分析單元26將立體混響係數11B傳遞至基於方向之合成單元28。基於方向之合成單元28可表示經組態以執行立體混響係數11B之基於方向之合成以產生基於方向之位元串流21的單元。在音訊資料11包括基於物件之音訊資料11A的實例中,內容分析單元26將基於物件之音訊資料11A傳遞至位元串流產生單元42。
如圖2之實例中所展示,基於向量之分解單元27可包括線性可逆變換(LIT)單元30、參數計算單元32、重新排序單元34、前景選擇單元36、能量補償單元38、音質音訊寫碼器單元40、位元串流產生單元42、音場分析單元44、係數折減單元46、背景(BG)選擇單元48、空間-時間內插單元50及量化單元52。
線性可逆變換(LIT)單元30以立體混響聲道形式接收立體混響係數11b,每一聲道表示與給定階,即球面基底函數之子階(其可表示為HOA[k ],其中k 可指示樣本之當前訊框或區塊)相關聯之係數的區塊或訊框。立體混響係數11B之矩陣可具有尺寸D :M ×(N +1)2
LIT單元30可表示經組態以執行被稱作奇異值分解的形式的分析的單元。雖然關於SVD加以描述,但可關於提供數組線性不相關的能量密集輸出之任何類似變換或分解執行本發明中所描述之該等技術。又,在本發明中對「集合」之提及通常意欲指代非零集合(除非特定地相反陳述),且並不意欲指代包括所謂的「空集合」之集合之經典數學定義。替代變換可包含常常被稱作「PCA」之主分量分析。取決於上下文,PCA可由若干不同名稱指代,諸如離散卡忽南-拉維變換、哈特林變換、恰當正交分解(POD)和本徵值分解(EVD),僅舉幾例。有利於壓縮音訊資料之基本目標的此種操作之特性為多聲道音訊資料之「能量壓縮」及「去相關」。
在任何情況下,假定LIT單元30出於實例之目的執行奇異值分解(其又可被稱作「SVD」),LIT單元30可將立體混響係數11B變換成經變換體環繞聲係數之兩個或更多個集合。經變換立體混響係數之「集合」可包括經變換立體混響係數之向量。在圖3之實例中,LIT單元30可關於立體混響係數11B執行SVD以產生所謂的V矩陣、S矩陣及U矩陣。在線性代數中,SVD可按以下形式表示y乘z實數或複合矩陣X之因式分解(其中X可表示多聲道音訊資料,諸如立體混響係數11B): X = USV* U可表示y乘y實數或複數單位矩陣,其中U之y行被稱為多聲道音訊資料之左奇異向量。S可表示在對角線上具有非負實數之y乘z矩形對角線矩陣,其中S之對角線值被稱為多聲道音訊資料之奇異值。V*(其可表示V之共軛轉置)可表示z乘z實數或複數單位矩陣,其中V*之z行被稱為多聲道音訊資料之右奇異向量。
在一些實例中,將上文提及之SVD數學表達式中的V*矩陣表示為V矩陣之共軛轉置以反映SVD可應用於包含複數之矩陣。當應用於僅包含實數之矩陣時,V矩陣之複數共軛(或,換言之,V*矩陣)可被視為V矩陣之轉置。出於易於說明之目的,下文假定立體混響係數11B包含實數數值,其結果為V矩陣係經由SVD而非V*矩陣輸出。此外,儘管在本發明中表示為V矩陣,但對V矩陣之提及應理解為在適當的情況下涉及V矩陣之轉置。雖然假定為V矩陣,但可以類似方式將技術應用於具有複係數之立體混響係數11B,其中SVD之輸出為V*矩陣。因此,就此而言,技術不應限於僅僅提供應用SVD以產生V矩陣,而是可包括將SVD應用於具有複數分量之立體混響係數11B以產生V*矩陣。
以此方式,LIT單元30可相對於立體混響係數11B執行SVD以輸出具有維度D: M×(N+1)2 的US[k ]向量33 (其可表示S向量及U向量之組合版本)及具有維度D:(N+1)2 ×(N+1)2 之V[k ]向量35。US[k]矩陣中之個別向量元素亦可被稱為
Figure 02_image028
,而V[k]矩陣中之個別向量亦可被稱為
Figure 02_image030
U、S及V矩陣之分析可揭示:該等矩陣攜有或表示上文藉由X表示的基礎音場之空間及時間特性。U(長度為M個樣本)中的N個向量中的每一者可表示隨時間(對於由M個樣本表示之時間段)而變的經正規化之單獨音訊信號,其彼此正交且已與任何空間特性(其亦可稱為方向資訊)解耦。表示空間形狀及位置(r、θ、φ)寬度之空間特性可改為藉由V矩陣中之個別第i 向量
Figure 02_image032
表示(每一者具有長度(N+1)2 )。
Figure 02_image032
向量中之每一者的個別元素可表示描述相關聯音訊物件之音場的形狀(包括寬度)及方位的立體混響係數。
U矩陣及V矩陣兩者中之向量經正規化而使得其均方根能量等於單位。U中的音訊信號之能量因而由S中的對角線元素表示。將U與S相乘以形成US[k ](具有個別向量元素
Figure 02_image028
),因此表示具有能量之音訊信號。SVD分解使音訊時間信號(U中)、其能量(S中)與其空間特性(V中)解耦之能力可支援本發明中所描述之技術的各種態樣。另外,藉由US[k ]與V[k ]之向量乘法合成基礎HOA[k ]係數X之模型引出貫穿此文件使用之術語「基於向量之分解」。
儘管描述為關於立體混響係數11B直接執行,但LIT單元30可將線性可逆變換應用於立體混響係數11B之導出項。舉例而言,LIT單元30可關於自立體混響係數11B導出之功率頻譜密度矩陣應用SVD。藉由關於立體混響係數之功率頻譜密度(PSD)而非係數本身執行SVD,LIT單元30可能在處理器循環及儲存空間中之一或多者方面潛在地降低執行SVD之計算複雜度,同時達成如同SVD直接應用於立體混響係數時的相同源音訊編碼效率。
參數計算單元32表示經組態以計算各種參數之單元,該等參數諸如相關性參數(R )、方向性質參數(θφr ),及能量性質(e )。用於當前訊框之參數中的每一者可表示為R[k ]、θ[k ]、φ[k ]、r[k ]及e[k ]。參數計算單元32可關於US[k ]向量33執行能量分析及/或相關(或所謂的交叉相關)以識別該等參數。參數計算單元32亦可判定用於先前訊框之參數,其中先前訊框參數可基於具有US[k -1]向量及V[k -1]向量之先前訊框表示為R[k -1]、θ[k -1]、φ[k -1]、r[k -1]及e[k -1]。參數計算單元32可將當前參數37及先前參數39輸出至重新排序單元34。
由參數計算單元32計算之參數可由重新排序單元34用以對音訊物件重新排序以表示其自然評估或隨時間推移之連續性。亦即,重新排序單元34可逐輪地比較來自第一US[k ]向量33之參數37中的每一者與用於第二US[k -1]向量33之參數39中的每一者。重新排序單元34可基於當前參數37及先前參數39將US[k ]矩陣33及V[k ]矩陣35內之各種向量重新排序(作為一實例,使用匈牙利演算法(Hungarian algorithm))以將經重新排序之US[k ]矩陣33'(其可在數學上表示為
Figure 02_image035
)及經重新排序之V[k ]矩陣35'(其可在數學上表示為
Figure 02_image037
)輸出至前景聲音(或佔優勢聲音;PS)選擇單元36 (「前景選擇單元36」)及能量補償單元38。
音場分析單元44可表示經組態以關於立體混響係數11B執行音場分析以便有可能達成目標位元速率41之單元。音場分析單元44可基於分析及/或基於所接收目標位元速率41,判定音質寫碼器執行個體之總數目(其可為環境或背景聲道之總數目(BGTOT )之函數)及前景聲道(或換言之,佔優勢聲道)之數目。音質寫碼器執行個體之總數可表示為numHOATransportChannels。
再次為了可能地達成目標位元速率41,音場分析單元44亦可判定前景聲道之總數目(nFG) 45、背景(或換言之,環境)音場之最小階(NBG 或替代地,MinAmbHOAorder)、表示背景音場之最小階的實際聲道之對應數目(nBGa = (MinAmbHOAorder + 1)2 ),及待發送之額外BG立體混響聲道之索引(i)(其在圖2之實例中可統合地表示為背景聲道資訊43)。背景聲道資訊42亦可被稱為環境聲道資訊43。保持來自numHOATransportChannels-nBGa的聲道中之每一者可為「額外背景/環境聲道」、「作用中基於向量之佔優勢聲道」、「作用中基於方向之佔優勢信號」或「完全非作用中」任一者。在一態樣中,可藉由兩個位元將聲道類型指示為(如「ChannelType」)語法元素:(例如,00:基於方向之信號;01:基於向量之佔優勢信號;10:額外環境信號;11:非作用中信號)。可藉由(MinAmbHOAorder + 1)2 + 呈現為用於彼訊框之位元串流中的聲道類型之索引10 (在上述實例中)出現的次數給出背景或環境信號之總數目nBGa。
音場分析單元44可基於目標位元速率41選擇背景(或換言之,環境)聲道之數目及前景(或換言之,佔優勢)聲道之數目,從而在目標位元速率41相對較高時(例如,在目標位元速率41等於或大於512 Kbps時)選擇更多背景及/或前景聲道。在一態樣中,在位元串流之標頭區段中,numHOATransportChannels可經設定為8,而MinAmbHOAorder可經設定為1。在此情境下,在每個訊框處,四個聲道可專用於表示音場之背景或環境部分,而其他4個聲道可逐訊框地在聲道類型上變化,例如,用作額外背景/環境聲道或前景/佔優勢聲道。前景/佔優勢信號可為基於向量或基於方向之信號中之一者,如上文所描述。
在一些情況下,用於訊框之基於向量之佔優勢信號的總數目可藉由彼訊框之位元串流中的ChannelType索引為01之次數給出。在上文態樣中,對於每一額外背景/環境聲道(例如,對應於ChannelType 10),可能立體混響係數的聲道之對應資訊(前四個以外)可表示於彼聲道中。對於四階HOA內容,該資訊可為指示HOA係數5至25之索引。可在minAmbHOAorder經設定為1時始終發送前四個環境HOA係數1至4,因此,音訊編碼器件可能僅需要指示額外環境HOA係數中具有索引5至25之一者。因此可使用5位元語法元素(對於4階內容)發送該資訊,其可表示為「CodedAmbCoeffIdx」。在任何情況下,音場分析單元44將背景聲道資訊43及立體混響係數11B輸出至背景(BG)選擇單元36,將背景聲道資訊43輸出至係數折減單元46及位元串流產生單元42,且將nFG 45輸出至前景選擇單元36。
背景選擇單元48可表示經組態以基於背景聲道資訊(例如,背景音場(NBG )以及待發送之額外BG立體混響聲道之數目(nBGa)及索引(i))判定背景或環境立體混響係數47之單元。舉例而言,當NBG 等於一時,背景選擇單元48可為音訊訊框中具有等於或小於一之階的每一樣本選擇立體混響係數11B。在此實例中,背景選擇單元48可接著選擇具有藉由索引(i)中之一者識別之索引的立體混響係數11B作為額外BG立體混響係數,其中將待於位元串流21中指定之nBGa提供至位元串流產生單元42以便使得音訊解碼器件(諸如,圖2及圖4之實例中所展示的音訊解碼器件24)能夠自位元串流21剖析背景立體混響係數47。背景選擇單元48可接著將環境立體混響係數47輸出至能量補償單元38。環境立體混響係數47可具有維度D:M ×[(NBG + 1)2 +nBGa ]。環境立體混響係數47亦可被稱為「環境立體混響係數47」,其中環境立體混響係數47中之每一者對應於待藉由音質音訊寫碼器單元40編碼之單獨環境立體混響聲道47。
前景選擇單元36可表示經組態以基於nFG 45 (其可表示識別前景向量之一或多個索引)選擇表示音場之前景或相異分量的經重新排序之US[k ]矩陣33'及經重新排序之V[k ]矩陣35'的單元。前景選擇單元36可將nFG信號49 (其可表示為經重新排序之US[k ]1 ,…,nFG 49,FG1 ,…,nfG [k]49或
Figure 02_image039
49)輸出至音質音訊寫碼器單元40,其中nFG信號49可具有維度:M×nFG且每一者表示單聲道-音訊物件。前景選擇單元36亦可將對應於音場之前景分量的經重新排序之V[k ]矩陣35' (或)輸出至空間-時間內插單元50,其中對應於前景分量的經重排序之V[k ]矩陣35'之子集可表示為前景V[k ]矩陣51k (其可在數學上表示為
Figure 02_image041
35'),其具有維度D:(N +1)2 ×nFG。
能量補償單元38可表示經組態以關於環境立體混響係數47執行能量補償以補償歸因於背景選擇單元48進行的立體混響聲道中之各種者之移除的能量損失的單元。能量補償單元38可相對於經重新排序之US[k ]矩陣33'、經重新排序之V[k ]矩陣35'、nFG信號49、前景V[k ]向量51k 及環境立體混響係數47中之一或多者執行能量分析,且接著基於能量分析執行能量補償以產生經能量補償之環境立體混響係數47'。能量補償單元38可將經能量補償之環境立體混響係數47'輸出至音質音訊寫碼器單元40。
空間-時間內插單元50可表示經組態以接收第k訊框之前景V[k ]向量51 k 及前一訊框(因此為k-1記法)之前景V[k -1]向量51 k -1 且執行空間-時間內插以產生經內插之前景V[k ]向量之單元。空間-時間內插單元50可將nFG信號49與前景V[k ]向量51 k 重新組合以恢復經重新排序之前景立體混響係數。空間-時間內插單元50可接著將經重新排序之前景立體混響係數除以經內插之V[k ]向量以產生經內插之nFG信號49'。
空間-時間內插單元50亦可輸出用以產生經內插之前景V[k ]向量之前景V[k ]向量51 k ,以使得音訊解碼器件(諸如,音訊解碼器件24)可產生經內插之前景V[k ]向量且藉此恢復前景V[k ]向量51 k 。將用以產生經內插之前景V[k ]向量之前景V[k ]向量51 k 表示為剩餘前景V[k ]向量53。為了確保在編碼器及解碼器處使用相同的V[k ]及V[k -1](以創建經內插之向量V[k ]),可在編碼器及解碼器處使用向量之經量化/經解量化之版本。空間-時間內插單元50可將經內插之nFG信號49'輸出至音質音訊寫碼器單元46且將經內插之前景V[k ]向量51 k 輸出至係數減少單元46。
係數折減單元46可表示經組態以基於背景聲道資訊43對於剩餘前景V[k ]向量53執行係數折減以將經折減前景V[k ]向量55輸出至量化單元52之單元。經折減前景V[k ]向量55可具有維度D:[(N +1)2 - (NBG +1)2 -nBGTOT ]×nFG。就此而言,係數折減單元46可表示經組態以減少剩餘前景V[k ]向量53中之係數之數目的單元。換言之,係數折減單元46可表示經組態以消除前景V[k ]向量中具有極少或幾乎沒有方向資訊之係數(其形成剩餘前景V[k ]向量53)之單元。
在一些實例中,相異或(換言之)前景V[k ]向量之對應於一階及零階基底函數之係數(其可表示為NBG )提供極少方向資訊,且因此可自前景V向量移除(經由可被稱作「係數折減」之過程)。在此實例中,可提供較大靈活性以使得不僅自集合[(NBG + 1)2 + 1,(N + 1)2 ]識別對應於NBG 之係數而且識別額外立體混響聲道(其可藉由變數TotalOfAddAmbHOAChan表示)。
量化單元52可表示經組態以執行任何形式之量化以壓縮經減少之前景V[k ]向量55以產生經寫碼前景V[k ]向量57從而將經寫碼前景V[k ]向量57輸出至位元串流產生單元42之單元。在操作中,量化單元52可表示經組態以壓縮音場之空間分量(亦即,在此實例中,為經減少之前景V[k ]向量55中之一或多者)的單元。量化單元52可執行如藉由表示為「NbitsQ」之量化模式語法元素指示之以下12種量化模式中的任一者。 NbitsQ值     量化模式之類型 0-3:            預留 4:               向量量化 5:                    無霍夫曼寫碼之純量量化 6:                    具有霍夫曼寫碼之6位元純量量化 7:                    具有霍夫曼寫碼之7位元純量量化 8:                    具有霍夫曼寫碼之8位元純量量化 …               … 16:             具有霍夫曼寫碼之16位元純量量化 量化單元52亦可執行前述類型之量化模式中之任一者的預測版本,其中判定前一訊框之V-向量的元素(或執行向量量化時之權重)與當前訊框之V-向量的元素(或執行向量量化時之權重)之間的差。量化單元52可接著量化當前圖框及先前圖框之元素或權重之間的差,而非當前圖框自身之V-向量之元素的值。
量化單元52可關於減少之前景V[k ]向量55中之每一者執行多種形式之量化以獲得減少之前景V[k ]向量55的多個經寫碼版本。量化單元52可選擇減少之前景V[k ]向量55的經寫碼版本中之一者作為經寫碼前景V[k ]向量57。換言之,量化單元52可基於在本發明中所論述之準則的任何組合而選擇未經預測之經向量量化之V-向量、經預測之經向量量化之V-向量、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量中之一者,以用作輸出經切換經量化V-向量。
在一些實例中,量化單元52可自包括一向量量化模式及一或多個純量量化模式之一組量化模式中選擇一量化模式,且基於(或根據)該所選擇模式量化輸入V-向量。量化單元52可接著將以下各者中之所選擇者提供至位元串流產生單元52以用作經寫碼前景V[k ]向量57:未經預測之經向量量化之V-向量(例如,就權重值或指示權重值之位元而言)、經預測之經向量量化之V-向量(例如,就誤差值或指示誤差值之位元而言)、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量。量化單元52亦可提供指示量化模式之語法元素(例如,NbitsQ語法元素)及用以將V-向量反量化或以其他方式重建構V-向量之任何其他語法元素。
音訊編碼器件20內包括之音質音訊寫碼器單元40可表示音質音訊寫碼器之多個例項,其中每一者用以編碼能量經補償之環境立體混響係數47'及經內插nFG信號49'中之每一者的不同音訊物件或立體混響聲道,以產生經編碼環境立體混響係數59及經編碼nFG信號61。音質音訊寫碼器單元40可將經編碼之環境立體混響係數59及經編碼nFG信號61輸出至位元串流產生單元42。
音訊編碼器件20內包括之位元串流產生單元42表示將資料格式化以符合已知格式(其可係指為解碼器件已知之格式)而藉此產生基於向量之位元串流21的單元。換言之,位元串流21可表示以上文所描述之方式編碼之經編碼音訊資料。
在一些實例中,位元串流產生單元42可表示多工器,該多工器可接收經寫碼前景V[k ]向量57、經編碼環境立體混響係數59、經編碼nFG信號61及背景聲道資訊43。位元串流產生單元42可接著基於經寫碼前景V[k ]向量57、經編碼環境立體混響係數59、經編碼nFG信號61及背景聲道資訊43產生位元串流21。以此方式,位元串流產生單元42可藉此指定位元串流21中之向量57以獲得位元串流21。位元串流21可包括主要或主位元串流及一或多個旁側聲道位元串流。
該等技術之各種態樣亦可使得如上文所描述之位元串流產生單元42能夠指定位元串流21中的或與其並聯之音訊渲染資訊2。雖然即將出現的3D音訊壓縮工作草案之當前版本提供在位元串流21內發信特定降混矩陣,但該工作草案並不提供指定渲染器用於渲染位元串流21中的基於物件之音訊資料11A或立體混響係數11B。對於立體混響內容,此等降混矩陣之等效物係將立體混響表示轉換成所要擴音器饋入的渲染矩陣。對於物件域中之音訊資料,等效物係使用矩陣乘法應用以將基於物件之音訊資料渲染成擴音器饋入的渲染矩陣。
本發明中所描述之技術之各種態樣提議進一步協調聲道內容及立體混響係數之特徵集合,方法為允許位元串流產生單元46發信渲染器選擇資訊(例如,立體混響與基於物件之渲染器選擇)、渲染器識別資訊(例如,音訊編碼器件20及音訊解碼器件24兩者可存取的碼簿中之項),及/或位元串流21或其旁側聲道/後設資料內的渲染矩陣本身(例如,作為音訊渲染資訊2)。
音訊編碼器件20可包括組合式或離散處理硬體,其經組態以執行上文所描述之立體混響或基於物件之編碼功能性中之一者或兩者(視具體情況),以及本發明的基於渲染器選擇及發信之技術。音訊編碼器件20包括的用於執行立體混響編碼、基於物件之編碼及基於渲染器之技術中之一或多者的處理硬體可包括為一或多個處理器。音訊編碼器件20之此等處理器可包括處理電路系統(例如,固定功能電路系統、可程式化處理電路系統或其任何組合)、特殊應用積體電路(ASIC) (諸如一或多個硬體ASIC)、數位信號處理器(DSP)、通用微處理器、場可程式化邏輯陣列(FPGA)或用於一或多個立體混響編碼、基於物件之音訊編碼及/或基於渲染器選擇及/或發信之技術的其他等效積體電路系統或離散邏輯電路系統。音訊編碼器件20之此等處理器可經組態以使用其處理硬體執行軟體以執行上文所描述之功能性。
下文表1為提供音訊編碼器件20可發信至音訊解碼器件24以提供渲染器資訊2的實例資料之細節的語法表。表1中的藉由「/*」及「*/」標記隔擋開的註解語句提供鄰近其定位之對應語法的描述資訊。 表1——OBJrendering()之語法
語法 位元數目 助憶符
OBJrendering() {        RendererFlag_ENTIRE_SEPARATE;    If (RendererFlag_ENTIRE_SEPARATE) {         /* for entire objects */        RendererFlag_OBJ_HOA; RendererFlag_External_Internal; RendererFlag_Transmitted_Reference;         If (RendererFlag_OBJ_HOA) {                         /* OBJ renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID ;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored reference renderer is used */                                 }                         }                 } else {                         /* (1) OBJ audio+metadata is converted into HOA */                         OBJ2HOA_conversion();                            /* (2) HOA renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored refernce renderer is used */                                 }                         }                 } } else {         /* for each object */         for (i=0; i<numOBJ; i++) {                RendererFlag_OBJ_HOA;        RendererFlag_External_Internal;        RendererFlag_Transmitted_Reference;         If (RendererFlag_OBJ_HOA) {                         /* OBJ renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID ;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored refernce renderer is used */                                 }                         }                 } else {                         /* (1) OBJ audio+metadata is converted into HOA */                         OBJ2HOA_conversion();                            /* (2) HOA renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored refernce renderer is used */                                 }                         }                 }         } } } 1 1 1 1 5 5 1 1 1 5 5 uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf
表1之語義在下文描述: a. RendererFlag_OBJ_HOA:為保證內容產生器之藝術意圖,位元串流語法包括說明應使用OBJ渲染器(1)抑或立體混響渲染器(0)的位元欄位。 b.     RendererFlag_ENTIRE_SEPARATE:若為1,則應基於RendererFlag_OBJ_HOA渲染所有物件。若為0,則應基於RendererFlag_OBJ_HOA渲染每一物件。 c. RendererFlag_External_Internal:若為1,則可使用外部渲染器(若外部渲染器不可用,則應使用具有ID 0之參考渲染器)。若為0,則應使用內部渲染器。 d.     RendererFlag_Transmitted_Reference:若為1,則應使用經傳輸渲染器中之一者。若為0,則應使用參考渲染器中之一者。 e. rendererID:其指示渲染器ID。
下文表2為根據本發明之「軟」渲染態樣,提供音訊編碼器件20可發信至音訊解碼器件24以提供渲染器資訊2的資料之另一實例之細節的語法表。如同上文表1之狀況,表2中的藉由「/*」及「*/」標記隔擋開的註解語句提供鄰近其定位之對應語法的描述資訊。 表2——SoftOBJrendering()之語法
語法 位元數目 助憶符
SoftOBJrendering() {        RendererFlag_ENTIRE_SEPARATE;    If (RendererFlag_ENTIRE_SEPARATE) {         /* for entire objects */         alpha =SoftRendererParameter_OBJ_HOA /31; RendererFlag_External_Internal; RendererFlag_Transmitted_Reference;         If (alpha ==1.0) {                         /* OBJ renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID ;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored refernce renderer is used */                                 }                         }                 } elseif (alpha == 0.0) {                         /* (1) OBJ audio+metadata is converted into HOA */                         OBJ2HOA_conversion();                            /* (2) HOA renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored reference renderer is used */                                 }                         }                 } else {                         /* do the both rendering and interpolation between them */                 } } else {         /* for each object */         for (i=0; i<numOBJ; i++) {         alpha =SoftRendererParameter_OBJ_HOA /31;        RendererFlag_External_Internal;        RendererFlag_Transmitted_Reference;         If (alpha==1.0) {                         /* OBJ renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID ;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored refernce renderer is used */                                 }                         }                 } elseif (alpha==0.0) {                         /* (1) OBJ audio+metadata is converted into HOA */                         OBJ2HOA_conversion();                            /* (2) HOA renderer is used */                         If (RendererFlag_External_Internal) {                                 /* external renderer is used */                         } else {                                 /* internal renderer is used */                                rendererID;                                 If (RendererFlag_Transmitted_Reference) {                                         /* transmitted renderer is used */                                 } else {                                         /* stored refernce renderer is used */                                 }                         }                 } else {                         /* do the both rendering and interpolation between them */                 }         } } } 1 5 1 1 5 5 5 1 1 5 5 uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf
表2之語義在下文描述: a. SoftRendererParameter_OBJ_HOA:為保證內容產生器之藝術意圖,位元串流語法包括OBJ與立體混響渲染器之間的軟渲染參數之位元欄位。 b.     RendererFlag_ENTIRE_SEPARATE:若為1,則應基於RendererFlag_OBJ_HOA渲染所有物件。若為0,則應基於RendererFlag_OBJ_HOA渲染每一物件。 c. RendererFlag_External_Internal:若為1,則可使用外部渲染器(若外部渲染器不可用,則應使用具有ID 0之參考渲染器)。若為0,則應使用內部渲染器。 d.     RendererFlag_Transmitted_Reference:若為1,則應使用經傳輸渲染器中之一者。若為0,則應使用參考渲染器中之一者。 e. rendererID:其指示渲染器ID。 f. alpha:軟渲染參數(介於0.0與1.0之間) 渲染器輸出端=alpha*物件渲染器輸出+(1-α)*立體混響渲染器輸出
音訊編碼器件20之位元串流產生單元42可將表示於位元串流21中之資料提供至介面73,該介面反過來可按位元串流21之形式將資料發信至外部器件。介面73可包括各種類型之通信硬體、可為各種類型之通信硬體或可為各種類型之通信硬體的部分,諸如網路介面卡(例如,乙太網路卡)、光學收發器、射頻收發器或可接收(且有可能發送)資訊的任何其他類型之器件。可由介面73表示之此等網路介面的其他實例包括Bluetooth®、3G、4G、5G及WiFi®無線電。介面73亦可根據通用串列匯流排(USB)標準之任何版本實施。因而,介面73使得音訊編碼器件20能夠無線地、使用有線連接或其一組合與諸如網路器件之外部器件通信。因而,音訊編碼器件20可實施本發明之各種技術以在位元串流21中或連同該位元串流將渲染器相關資訊提供至音訊解碼器件24。關於音訊解碼器件24可如何使用容納於位元串流21中或連同該位元串流的渲染相關資訊的其他細節在下文關於圖3加以描述。
圖3為更詳細地說明圖1之音訊解碼器件24之方塊圖。如圖4之實例中所示,音訊解碼器件24可包括提取單元72、渲染器重建構單元81、基於方向之重建構單元90及基於向量之重建構單元92。儘管下文描述,但關於音訊解碼器件24及解壓縮或以其他方式解碼立體混響係數之各種態樣的更多資訊可獲自2014年5月29日申請的名為「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」之國際專利申請公開案第WO 2014/194099號中。
音訊解碼器件24在圖3中說明為包括各種單元,該等單元中之每一者在下文關於音訊解碼器件24整體之特殊功能性進一步描述。音訊解碼器件24之各種單元可使用諸如一或多個處理器之處理器硬體實施。亦即,音訊解碼器件24之給定處理器可實施下文關於所說明單元中之一者或所說明單元之多個單元所描述的功能性。音訊解碼器件24之處理器可包括處理電路系統(例如,固定功能電路系統、可程式化處理電路系統或其任何組合)、特殊應用積體電路(ASIC) (諸如一或多個硬體ASIC)、數位信號處理器(DSP)、通用微處理器、場可程式化邏輯陣列(FPGA)或其他等效積體電路系統或離散邏輯電路系統。音訊解碼器件24之處理器可經組態以使用其處理硬體執行軟體以執行下文關於所說明單元所描述的功能性。
音訊解碼器件24包括介面91,該介面經組態以接收位元串流21且將其資料轉送至提取單元72。介面91可包括各種類型之通信硬體、可為各種類型之通信硬體或可為各種類型之通信硬體的部分,諸如網路介面卡(例如,乙太網路卡)、光學收發器、射頻收發器或可接收(且有可能發送)資訊的任何其他類型之器件。可由介面91表示之此等網路介面的其他實例包括Bluetooth®、3G、4G、5G及WiFi®無線電。介面91亦可根據通用串列匯流排(USB)標準之任何版本實施。因而,介面91使得音訊解碼器件24能夠無線地、使用有線連接或其一組合與諸如網路器件之外部器件通信。
提取單元72可表示經組態以接收位元串流21且提取音訊渲染資訊2及基於物件之音訊資料11A及/或立體混響係數11B之各種經編碼版本(例如,基於方向之經編碼版本或基於向量之經編碼版本)的單元。根據本發明之技術的各種實例,提取單元72可自音訊渲染資訊2獲得以下項中之一或多者:使用音訊渲染器22之立體混響渲染器抑或物件域渲染器的指示、待使用之特殊渲染器的渲染器ID (在音訊渲染器22包括多個立體混響渲染器或多個基於物件之渲染器的情況中),或待添加至音訊渲染器22以供用於渲染位元串流21之音訊資料11的渲染矩陣。舉例而言,在本發明的基於渲染器傳輸之實施中,立體混響及/或物件域渲染矩陣可藉由音訊編碼器件20傳輸,以實現對音訊播放系統16處的渲染程序之控制。
在立體混響渲染矩陣的狀況中,可借助於上文展示的Type ID_ CONFIG_EXT_HOA_MATRIX之mpegh3daConfigExtension促進傳輸。mpegh3daConfigExtension可含有用於不同擴音器再生組態之若干立體混響渲染矩陣。當傳輸立體混響渲染矩陣時,音訊編碼器件20針對每一立體混響渲染矩陣信號發信連同HoaOrder判定渲染矩陣之維度的相關聯目標擴音器佈局。當傳輸基於物件之渲染矩陣時,音訊編碼器件20針對每一基於物件之渲染矩陣信號發信判定渲染矩陣之維度的相關聯目標擴音器佈局。
唯一HoaRenderingMatrixId之傳輸允許參考在音訊播放系統16處可用的預設立體混響渲染矩陣或參考來自音訊位元串流21之外的所傳輸之立體混響渲染矩陣。在一些情況下,將假設每一立體混響渲染矩陣在N3D中正規化,且遵循如在位元串流21中所定義的立體混響係數之排序。在音訊解碼器件24於位元串流21中接收渲染器ID的情況中,音訊解碼器件24可將所接收之渲染器ID與碼簿中之項進行比較。在偵測到碼簿中之匹配後,音訊解碼器件24可選擇經匹配音訊渲染器22以供渲染音訊資料11 (在物件域中抑或在立體混響域中,視情況而定)。
又,如上文所描述,該等發明之各種態樣亦可使得提取單元72能夠自位元串流21之資料或並聯於位元串流21發信之旁側聲道資訊剖析音訊渲染資訊2。雖然即將出現的3D音訊壓縮工作草案之當前版本提供在位元串流21內發信特定降混矩陣,但該工作草案並不提供指定渲染器用於渲染位元串流21中的基於物件之音訊資料11A或立體混響係數11B。對於立體混響內容,此等降混矩陣之等效物係將立體混響表示轉換成所要擴音器饋入的渲染矩陣。對於物件域中之音訊資料,等效物係使用矩陣乘法應用以將基於物件之音訊資料渲染成擴音器饋入的渲染矩陣。
音訊解碼器件24可包括組合式或離散處理硬體,其經組態以執行上文所描述之立體混響或基於物件之解碼功能性中之一者或兩者(視具體情況),以及本發明的基於渲染器選擇之技術。音訊解碼器件24包括的用於執行立體混響解碼、基於物件之解碼及基於渲染器之技術中之一或多者的處理硬體可包括為一或多個處理器。音訊解碼器件24之此等處理器可包括處理電路系統(例如,固定功能電路系統、可程式化處理電路系統或其任何組合)、特殊應用積體電路(ASIC) (諸如一或多個硬體ASIC)、數位信號處理器(DSP)、通用微處理器、場可程式化邏輯陣列(FPGA)或用於一或多個立體混響解碼、基於物件之音訊解碼及/或基於渲染器選擇之技術的其他等效積體電路系統或離散邏輯電路系統。音訊解碼器件24之此等處理器可經組態以使用其處理硬體執行軟體以執行下文關於所說明單元所描述的功能性。
本發明中所描述之技術之各種態樣提議進一步協調聲道內容及立體混響之特徵集合,方法為允許音訊解碼器件24以音訊渲染資訊2之形式獲得渲染器選擇資訊(例如,立體混響與基於物件之渲染器選擇)、渲染器識別資訊(例如,音訊編碼器件20及音訊解碼器件24兩者可存取的碼簿中之項),及/或來自位元串流21本身或其旁側聲道/後設資料的渲染矩陣本身。
如上文關於表1之語義所論述,在一個實例中,音訊解碼器件24可在位元串流21中接收以下語法元素中之一或多者:RendererFlag_OBJ_HOA旗標、RendererFlag_Transmitted_Reference旗標或RendererFlag_ENTIRE_SEPARATE旗標、RendererFlag_External_Internal或rendererID語法元素。音訊解碼器件24可影響RendererFlag_OBJ_HOA旗標之值,以保留內容產生器之藝術意圖。亦即,若RendererFlag_OBJ_HOA旗標之值為1,則音訊解碼器件24可自音訊渲染器22選擇基於物件之渲染器(OBJ渲染器)以供渲染自位元串流21獲得之音訊資料11'的對應部分。相反,若音訊解碼器件24判定RendererFlag_OBJ_HOA旗標之值為0,則音訊解碼器件24可自音訊渲染器22選擇立體混響渲染器)以供渲染自位元串流21獲得之音訊資料11'的對應部分。
音訊解碼器件24可使用RendererFlag_ENTIRE_SEPARATE旗標之值判定RendererFlag_OBJ_HOA之值適用的層級。舉例而言,若音訊解碼器件24判定RendererFlag_ENTIRE_SEPARATE旗標之值為1,則音訊解碼器件24可基於RendererFlag_OBJ_HOA旗標之單個例項的值渲染位元串流21之所有音訊物件。相反,若音訊解碼器件24判定RendererFlag_ENTIRE_SEPARATE旗標之值為0,則音訊解碼器件24可基於RendererFlag_OBJ_HOA旗標之各別對應例項的值個別地渲染位元串流21之每一音訊物件。
另外,音訊解碼器件24可使用RendererFlag_External_Internal旗標之值判定音訊渲染器22之外部渲染器抑或內部渲染器將被用於渲染位元串流21之對應部分。若RendererFlag_External_Internal旗標被設定為值1,則音訊解碼器件24可使用外部渲染器以渲染位元串流21之對應音訊資料,假定外部渲染器可用。若RendererFlag_External_Internal旗標被設定為值1且音訊解碼器件24判定外部渲染器不可用,則音訊解碼器件可使用具有ID 0 (作為預設選項)之參考渲染器渲染位元串流21之對應音訊資料。若RendererFlag_External_Internal旗標被設定為值0,則音訊解碼器件24可使用音訊渲染器22之內部渲染器渲染位元串流21之對應音訊資料。
根據本發明之技術之渲染器傳輸實施,音訊解碼器件24可使用RendererFlag_Transmitted_Reference旗標之值判定將在位元串流21中顯式發信之渲染器(例如,渲染矩陣)用於渲染對應音訊資料,抑或跳過經顯式渲染之渲染器而使用參考渲染器渲染位元串流21之對應音訊資料。若音訊解碼器件24判定RendererFlag_Transmitted_Reference旗標之值為1,則音訊解碼器件24可判定將使用所傳輸渲染器中之一者渲染位元串流21之對應音訊資料。相反,若音訊解碼器件24判定RendererFlag_Transmitted_Reference旗標之值為0,則音訊解碼器件24可判定將使用音訊渲染器22之所傳輸渲染器中之一者渲染位元串流21之對應音訊資料。
在一些實例中,若音訊編碼器件20判定音訊解碼器件24可存取之音訊渲染器22可能包括同種類型之多個渲染器(例如,多個立體混響渲染器或多個基於物件之渲染器),則音訊編碼器件可在位元串流21中發信rendererID語法元素。反過來,音訊解碼器件24可將所接收rendererID語法元素之值與碼簿中之項進行比較。在偵測到所接收rendererID語法元素之值與碼簿中之特殊項之間的匹配後,音訊解碼器件24:其指示渲染器ID。
本發明亦包括各種「軟」渲染技術。上文表2中給出本發明之各種軟渲染技術的語法。根據本發明之軟渲染技術,音訊解碼器件可自位元串流21剖析SoftRendererParameter_OBJ_HOA位元欄位。音訊解碼器件24可基於針對SoftRendererParameter_OBJ_HOA位元欄位自位元串流21剖析之值而保留內容產生器之藝術意圖。舉例而言,根據本發明之軟渲染技術,音訊解碼器件24可輸出經渲染物件域音訊資料與經渲染立體混響域音訊資料之經加權組合。
根據本發明之軟渲染技術,音訊解碼器件24可以類似於上文關於本發明之渲染器選擇技術之其他實施描述的彼者之方式使用RendererFlag_ENTIRE_SEPARATE旗標、RendererFlag_OBJ_HOA旗標、RendererFlag_External_Internal旗標、RendererFlag_Transmitted_Reference旗標及rendererID語法元素。根據本發明之軟渲染技術,音訊解碼器件24可另外剖析α語法元素以獲得軟渲染參數值。α語法元素之值可設定為介於下限(底值) 0.0與上限(頂值) 1.0之間。為實施本發明之軟渲染技術,音訊解碼器件可執行以下操作以獲得渲染輸出: α*物件渲染器輸出+ (1-α) * 立體混響渲染器輸出
圖4為關於物件域音訊資料說明工作流程之實例的圖式。關於習知基於物件之音訊資料處理的額外細節可見於ISO/IEC FDIS 23008-3:2018(E),資訊技術——異質環境中之高效率寫碼與媒體遞送——第3部分:3D音訊中。
如圖4之實例中所示,物件編碼器202 (其可表示圖1之實例中所示之音訊編碼器件20之另一實例)可關於輸入物件音訊及物件後設資料(其為指代物件域音訊資料之另一種方式)執行物件編碼(例如,根據上文直接參考之MPEG-H 3D音訊編碼標準)以獲得位元串流21。物件編碼器202亦可針對物件渲染器輸出渲染器資訊2。
物件解碼器204 (其可表示音訊解碼器件24之另一實例)可接著關於位元串流21執行音訊解碼(例如,根據上文參考之MPEG-H 3D音訊編碼標準)以獲得基於物件之音訊資料11A'。物件解碼器204可將基於物件之音訊資料11A'輸出至渲染矩陣206,該渲染矩陣可表示圖1之實例中所示之音訊渲染器22之實例。音訊播放系統16可應用基於渲染資料2或自任何物件渲染器中選擇渲染矩陣206。在任何情況下,渲染矩陣206可基於基於物件之音訊資料11A'輸出揚聲器饋入25。
圖5為說明工作流程之實例的圖式,其中物件域音訊資料被轉換成立體混響域且使用立體混響渲染器進行渲染。亦即,音訊播放系統16調用立體混響轉換單元208以將基於物件之音訊資料11A'自空間域轉換至球諧域,且由此獲得立體混響係數209 (且可能HOA係數209)。音訊播放系統16可接著選擇渲染矩陣210,該渲染矩陣經組態以渲染立體混響音訊資料(包括立體混響係數209),以獲得揚聲器饋入25。
為運用立體混響渲染器(諸如第一階立體混響渲染器或更高階立體混響渲染器)渲染基於物件之輸入,音訊渲染器件可應用以下步驟: a. 將物件輸入轉換成第N階立體混響, H
Figure 02_image043
其中M
Figure 02_image045
Figure 02_image047
Figure 02_image049
分別為物件之數目、在給定物件距離
Figure 02_image051
下接聽者位置處的第m 個增益因數、第m 個音訊信號向量,及接聽者位置處第m 個音訊信號的延遲。當音訊物件與接聽者位置之間的距離很小時,增益
Figure 02_image053
可變得極大,由此設定此增益之臨限。此增益係使用音波傳播之格林函數進行計算。
Figure 02_image055
為球諧之向量,其中
Figure 02_image057
為階n 及子階m 之球諧。第m 個音訊信號之方位角及仰角
Figure 02_image059
Figure 02_image061
在接聽者位置處計算。 b. 將立體混響信號 H 渲染(雙耳化)成雙耳音訊輸出 B
Figure 02_image063
其中
Figure 02_image065
為雙耳渲染器。
圖6為說明本發明之工作流程的圖式,其中根據該工作流程,渲染器類型自音訊編碼器件202發信至音訊解碼器件204。根據圖6中所說明之工作流程,音訊編碼器件202可將關於應將哪種類型之渲染器用於渲染位元串流21之音訊資料的資訊傳輸至音訊解碼器件204。根據圖6中所說明之工作流程,音訊解碼器件24可使用經發信資訊(儲存為音訊渲染資訊2)選擇任何物件渲染器或在解碼器端可用的任何立體混響渲染器,例如,第一階立體混響渲染器或更高階立體混響渲染器。距離而言,圖6中所說明之工作流程可使用上文關於表1及表2描述之RendererFlag_OBJ_HOA旗標。
圖7為說明本發明之工作流程的圖式,其中根據該工作流程,渲染器類型及渲染器識別資訊自音訊編碼器件202發信至音訊解碼器件204。根據圖7中所說明之工作流程,音訊編碼器件202可將關於渲染器類型以及應將哪個特定渲染器用於渲染位元串流21之音訊資料的資訊2傳輸至音訊解碼器件204。根據圖7中所說明之工作流程,音訊解碼器件204可使用經發信資訊(儲存為音訊渲染資訊2)選擇特殊物件渲染器或在解碼器端可用的特殊立體混響渲染器。
舉例而言,圖6中所說明之工作流程可使用上文關於表1及表2描述之RendererFlag_OBJ_HOA旗標及rendererID語法元素。圖7中所說明之工作流程可尤其用於音訊渲染器22包括多個立體混響渲染器及/或多個基於物件之渲染器來選擇的情境中。舉例而言,音訊解碼器件204可將rendererID語法元素之值與碼簿中之項進行匹配,以判定使用哪個特殊音訊渲染器22渲染音訊資料11'。
圖8為根據本發明之技術的渲染器傳輸實施說明本發明之工作流程的圖式。根據圖8中所說明之工作流程,音訊編碼器件202可將待用於渲染位元串流21之音訊資料的關於渲染器類型以及渲染矩陣本身的資訊(作為渲染資訊2)傳輸至音訊解碼器件204。根據圖8中所說明之工作流程,音訊解碼器件204可使用經發信資訊(儲存為音訊渲染資訊2)視需要將經發信渲染矩陣添加至音訊渲染器22,且使用經顯式發信之渲染矩陣渲染音訊資料11'。
圖9為說明圖1之音訊編碼器件在執行本發明中所描述之渲染技術之實例操作時的實例操作之流程圖。音訊編碼器件20可將音訊資料11儲存至器件之記憶體(900)。接下來,音訊編碼器件20可編碼音訊資料11以形成經編碼音訊資料(其在圖1之實例中展示為位元串流21) (902)。音訊編碼器件20可選擇與經編碼音訊資料21相關聯之渲染器1 (904),其中該所選擇渲染器可包括基於物件之渲染器或立體混響渲染器中之一者。音訊編碼器件20可隨後產生包含經編碼音訊資料及指示所選擇渲染器之資料(例如,渲染資訊2)的經編碼音訊位元串流21 (906)。
圖10為說明圖1之音訊解碼器件在執行本發明中所描述之渲染技術之實例操作時的實例操作之流程圖。音訊解碼器件24可首先將經編碼音訊位元串流21之經編碼音訊資料11'儲存至記憶體(910)。音訊解碼器件24可接著剖析儲存至記憶體之經編碼音訊資料之一部分,以選擇用於經編碼音訊資料11'之渲染器(912),其中該所選擇渲染器可包括基於物件之渲染器或立體混響渲染器中之一者。在此實例中,假定渲染器22併入音訊解碼器件24內。因而,音訊編碼器件24可將一或多個渲染器應用於經編碼音訊資料11'以使用所選擇渲染器22渲染經編碼音訊資料11',以產生一或多個經渲染揚聲器饋入25 (914)。
可執行該等技術之上下文之其他實例包括可包括取得元件及播放元件之音訊生態系統。取得元件可包括有線及/或無線取得器件(例如,Eigen麥克風或EigenMike®麥克風)、器件上環繞聲捕獲及行動器件(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線取得器件可經由有線及/或無線通信通道耦接至行動器件。
因而,在一些實例中,本發明係關於一種用於渲染音訊資料之器件。該器件包括一記憶體及與該記憶體通信之一或多個處理器。該記憶體經組態以儲存一經編碼音訊位元串流之經編碼音訊資料。該一或多個處理器經組態以剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者,且使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。在一些實施中,該器件包括與該記憶體通信之一介面。在此等實施中,該介面經組態以接收該經編碼音訊位元串流。在一些實施中,該器件包括與該一或多個處理器通信之一或多個擴音器。在此等實施中,該一或多個擴音器經組態以輸出該一或多個經渲染揚聲器饋入。
在一些實例中,一或多個處理器包含處理電路系統。在一些實例中,一或多個處理器包含特殊應用積體電路(ASIC)。在一些實例中,一或多個處理器經進一步組態以剖析經編碼音訊資料之後設資料以選擇渲染器。在一些實例中,一或多個處理器經進一步組態以基於包括於經編碼視訊資料之經剖析部分中的RendererFlag_OBJ_HOA旗標之值而選擇渲染器。在一些實例中,一或多個處理器經組態以剖析RendererFlag_ENTIRE_SEPARATE旗標,基於RendererFlag_ENTIRE_SEPARATE旗標之值等於1而判定RendererFlag_OBJ_HOA之值應用於藉由一或多個處理器渲染的經編碼音訊資料之所有物件,且基於RendererFlag_ENTIRE_SEPARATE旗標之值等於0而判定RendererFlag_OBJ_HOA之值僅僅應用於藉由一或多個處理器渲染的經編碼音訊資料之單一物件。
在一些實例中,一或多個處理器經進一步組態以自經編碼音訊資料之經剖析部分獲得渲染矩陣,該所獲得渲染矩陣表示所選擇渲染器。在一些實例中,一或多個處理器經進一步組態以自經編碼音訊資料之經剖析部分獲得rendererID語法元素。在一些實例中,一或多個處理器經進一步組態以藉由將rendererID語法元素之值與碼簿之多個項中之一項匹配來選擇渲染器。在一些實例中,一或多個處理器經進一步組態以自經編碼音訊資料之經剖析部分獲得SoftRendererParameter_OBJ_HOA旗標,基於SoftRendererParameter_OBJ_HOA旗標之值判定經編碼音訊資料之部分將使用基於物件之渲染器及立體混響渲染器進行渲染,且使用自經編碼音訊資料之部分獲得的經渲染物件域音訊資料及經渲染立體混響域音訊資料之經加權組合產生一或多個經渲染揚聲器饋入。
在一些實例中,一或多個處理器經進一步組態以基於自經編碼視訊資料之經剖析部分獲得的α語法元素之值判定與經加權組合相關聯之加權。在一些實例中,所選擇渲染器係立體混響渲染器,且一或多個處理器經進一步組態以解碼儲存至記憶體的經編碼音訊資料之一部分以重建構經解碼基於物件之音訊資料及與經解碼基於物件之音訊資料相關聯的物件後設資料,將經解碼基於物件之音訊及物件後設資料轉換成立體混響域以形成立體混響域音訊資料,且使用立體混響渲染器渲染立體混響域音訊資料以產生一或多個經渲染揚聲器饋入。
在一些實例中,一或多個處理器經組態以自經編碼音訊資料之經剖析部分獲得渲染矩陣,該所獲得之渲染矩陣表示所選擇渲染器,基於RendererFlag_Transmitted_Reference旗標之值等於1而剖析RendererFlag_Transmitted_Reference旗標來使用所獲得渲染矩陣渲染經編碼音訊資料,且基於RendererFlag_Transmitted_Reference之值等於0使用參考渲染器渲染經編碼音訊資料。
在一些實例中,一或多個處理器經組態以:自經編碼音訊資料之經剖析部分獲得渲染矩陣,該所獲得渲染矩陣表示所選擇渲染器;剖析RendererFlag_External_Internal旗標;基於RendererFlag_External_Internal旗標之值等於1,判定所選擇渲染器為外部渲染器;且基於RendererFlag_External_Internal旗標之值等於0,判定所選擇渲染器為外部渲染器。在一些實例中,RendererFlag_External_Internal旗標之值等於1,且一或多個處理器經組態以判定外部渲染器不可用於渲染經編碼音訊資料,且基於外部渲染器不可用於渲染經編碼音訊資料而判定所選擇渲染器為參考渲染器。
因而,在一些實例中,本發明涉及一種用於編碼音訊資料之器件。該器件包括記憶體及與該記憶體通信之一或多個處理器。該記憶體經組態以儲存音訊資料。該一或多個處理器經組態以編碼音訊資料以形成經編碼音訊資料;選擇與經編碼音訊資料相關聯之渲染器,該所選擇渲染器包含基於物件之渲染器或立體混響渲染器中之一者;及產生包含經編碼音訊資料及指示所選擇渲染器之資料的經編碼音訊位元串流。在一些實施中,該器件包括與該記憶體通信之一或多個麥克風。在此等實施中,該一或多個麥克風經組態以接收該音訊資料。在一些實施中,該器件包括與該一或多個處理器通信之一介面。在此等實施中,該介面經組態以發信該經編碼音訊位元串流。
在一些實例中,一或多個處理器包含處理電路系統。在一些實例中,一或多個處理器包含特殊應用積體電路(ASIC)。在一些實例中,一或多個處理器經進一步組態以將指示所選擇渲染器之資料包括於經編碼音訊資料之後設資料中。在一些實例中,一或多個處理器經進一步組態以將RendererFlag_OBJ_HOA旗標包括於經編碼音訊位元串流中,且其中RendererFlag_OBJ_HOA旗標之值指示所選擇渲染器。
在一些實例中,一或多個處理器經組態以基於RendererFlag_OBJ_HOA之值應用於經編碼音訊位元串流之所有物件的判定,將RendererFlag_ENTIRE_SEPARATE旗標之值設定為等於1;基於RendererFlag_OBJ_HOA之值僅僅應用於經編碼音訊位元串流之單個物件的判定,將RendererFlag_ENTIRE_SEPARATE旗標之值設定為等於0;及將RendererFlag_OBJ_HOA旗標包括於經編碼音訊位元串流中。在一些實例中,一或多個處理器經進一步組態以將渲染矩陣包括於經編碼音訊位元串流中,該渲染矩陣表示所選擇渲染器。
在一些實例中,一或多個處理器經進一步組態以將rendererID語法元素包括於經編碼音訊位元串流中。在一些實例中,rendererID語法元素之值匹配碼簿之多個項中的適用於一或多個處理器之項。在一些實例中,一或多個處理器經進一步組態以判定將使用基於物件之渲染器及立體混響渲染器渲染經編碼音訊資料之部分,且基於將使用基於物件之渲染器及立體混響渲染器渲染經編碼音訊資料之部分的判定,將SoftRendererParameter_OBJ_HOA旗標包括於經編碼音訊位元串流中。
在一些實例中,一或多個處理器經進一步組態以判定與SoftRendererParameter_OBJ_HOA旗標相關聯之權重;且將指示權重之α語法元素包括於經編碼音訊位元串流中。在一些實例中,一或多個處理器經組態以將RendererFlag_Transmitted_Reference旗標包括於經編碼音訊位元串流,且基於RendererFlag_Transmitted_Reference旗標之值等於1而將渲染矩陣包括於經編碼音訊位元串流中,該渲染矩陣表示所選擇渲染器。在一些實例中,一或多個處理器經組態以基於所選擇渲染器為外部渲染器的判定,將RendererFlag_External_Internal旗標之值設定為等於1;基於所選擇渲染器為外部渲染器的判定,將RendererFlag_External_Internal旗標之值設定為等於0;及將RendererFlag_External_Internal旗標包括於經編碼音訊位元串流中。
根據本發明之一或多個技術,行動器件可用以取得音場。舉例而言,行動器件可經由有線及/或無線取得器件及/或器件上環繞聲捕獲(例如,整合至行動器件中之複數個麥克風)取得音場。行動器件可接著將所取得音場寫碼成立體混響係數以用於由播放元件中之一或多者播放。舉例而言,行動器件之使用者可記錄實況事件(例如,會見、會議、劇、音樂會等等)(取得其音場)且將記錄寫碼成立體混響係數。
行動器件亦可利用播放元件中之一或多者來播放立體混響經寫碼音場。舉例而言,行動器件可解碼立體混響經寫碼音場,且將使得播放元件中之一或多者重新創建音場之信號輸出至播放元件中之一或多者。作為一個實例,行動器件可利用無線及/或無線通信通道將信號輸出至一或多個揚聲器(例如,揚聲器陣列、聲棒等)。作為另一實例,行動器件可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動器件可利用頭戴式耳機渲染將信號輸出至一組頭戴式耳機(例如)以創建實際的雙耳聲音。
在一些實例中,特殊行動器件可取得3D音場並且在稍後時間播放相同的3D音場。在一些實例中,行動器件可取得3D音場,將該3D音場編碼成立體混響係數,且將經編碼3D音場傳輸至一或多個其他器件(例如,其他行動器件及/或其他非行動器件)以用於播放。
可執行該等技術之又一上下文包括音訊生態系統,其可包括音訊內容、遊戲工作室、經寫碼音訊內容、渲染引擎及遞送系統。在一些實例中,遊戲工作室可包括可支援立體混響信號之編輯的一或多個DAW。例如,一或多個DAW可包括立體混響外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援立體混響之新符尾格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至渲染引擎,該渲染引擎可渲染音場以供由遞送系統播放。
亦可關於例示性音訊取得器件執行該等技術。舉例而言,可關於可包括統合地經組態以記錄3D音場之複數個麥克風之EigenMike®麥克風執行該等技術。在一些實例中,EigenMike®麥克風之該複數個麥克風可位於具有近似4 cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼器件20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊取得上下文可包括可經組態以接收來自一或多個麥克風(諸如,一或多個EigenMike®麥克風)之信號的製作車。製作車亦可包括音訊編碼器,諸如圖2及圖3之音訊編碼器件20。
在一些情況下,行動器件亦可包括統合地經組態以記錄3D音場之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動器件可包括可旋轉以關於行動器件之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動器件亦可包括音訊編碼器,諸如圖2及圖3之音訊編碼器件20。
加固型視訊捕獲器件可進一步經組態以記錄3D音場。在一些實例中,加固型視訊捕獲器件可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊捕獲器件可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊捕獲器件可捕獲表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動器件執行該等技術。在一些實例中,行動器件可類似於上文所論述之行動器件,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上文所提及之行動器件以形成附件增強型行動器件。以此方式,與僅使用與附件增強型行動器件成一體式之聲音捕獲組件之情形相比較,附件增強型行動器件可捕獲3D音場之較高品質版本。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放器件。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放器件可經由有線或無線連接耦接至解碼器24。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放器件之任何組合上渲染音場。
數個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0 (例如,立體聲)揚聲器播放環境、具有全高前揚聲器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機播放環境之行動器件。
根據本發明之一或多個技術,可利用音場之單一通用表示來在前述播放環境中之任一者上渲染音場。另外,本發明之技術使得渲染器能夠自通用表示渲染一音場以供在不同於上文所描述之環境之播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得渲染器能夠藉由其他6個揚聲器而進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多種技術,可取得運動比賽之3D音場(例如,可將一或多個Eigen麥克風或EigenMike®麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之立體混響係數且將該等立體混響係數傳輸至解碼器,該解碼器可基於立體混響係數重建構3D音場且將經重建構之3D音場輸出至渲染器,且該渲染器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建構之3D音場渲染成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中之每一者中,應理解,音訊編碼器件20可執行一方法或另外包含用以執行音訊編碼器件20經組態以執行其的方法之每一步驟的構件。在一些情況下,構件可包含處理電路系統(例如,固定功能電路系統及/或可程式化處理電路系統)及/或一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在執行時使得一或多個處理器執行音訊編碼器件20已經組態以執行之方法。
在一或多個實例中,所描述之功能可實施於硬體、軟體、韌體或其任何組合中。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
同樣,在上文所描述之各種情況中之每一者中,應理解,音訊解碼器件24可執行一方法或另外包含用以執行音訊解碼器件24經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。
藉由實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及Blu-ray光碟,其中磁碟通常以磁性方式再生資料,而光碟藉由雷射以光學方式再生資料。以上之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一個或多個處理器執行,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)、處理電路(例如,固定功能電路系統、可程式化處理電路系統或其任何組合)或其他等效整合或離散邏輯電路系統。因此,如本文所用之術語「處理器」可指前述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編碼解碼器中之專用硬體及/或軟體模組內。又,可在一或多個電路或邏輯元件中充分實施該等技術。
本發明之技術可實施於廣泛多種器件或設備中,包括無線手持機、積體電路(IC)或IC集合(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必要求由不同硬體單元來實現。確切而言,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合於編解碼器硬體單元中或由互操作性硬體單元之集合提供,硬件單元包括如上文所描述之一或多個處理器。
前文所描述技術可實現以下條項之實例集合:
條項1。   一種用於渲染音訊資料之器件,該器件包含:一記憶體,其經組態以儲存一經編碼音訊位元串流之經編碼音訊資料;及一或多個處理器,其與該記憶體通信,該一或多個處理器經組態以:剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
條項1.1。     如條項1之器件,其進一步包含與該記憶體通信之一介面,該介面經組態以接收該經編碼音訊位元串流。
條項1.2。     如條項1或1.1中任一項之器件,其進一步包含與該一或多個處理器通信之一或多個擴音器,該一或多個擴音器經組態以輸出該一或多個經渲染揚聲器饋入。
條項2。   如條項1至1.2中任一項之器件,其中該一或多個處理器包含處理電路系統。
條項3。   如條項1-2中任一項之器件,其中該一或多個處理器包含一特殊應用積體電路(ASIC)。
條項4。   如條項1-3中任一項之器件,其中該一或多個處理器經進一步組態以剖析該經編碼音訊資料之後設資料以選擇該渲染器。
條項5。   如條項1-4中任一項之器件,其中該一或多個處理器經進一步組態以基於包括於該經編碼視訊資料之該經剖析部分中的一RendererFlag_OBJ_HOA旗標之一值而選擇該渲染器。
條項6。   如條項5之器件,其中該一或多個處理器經組態以:剖析一RendererFlag_ENTIRE_SEPARATE旗標;基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於1,判定該RendererFlag_OBJ_HOA之該值應用於藉由該一或多個處理器渲染的該經編碼音訊資料之所有物件;及基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於0,判定該RendererFlag_OBJ_HOA之該值僅僅應用於藉由該一或多個處理器渲染的該經編碼音訊資料之一單一物件。
條項7。   如條項1-6中任一項之器件,其中該一或多個處理器經進一步組態以自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器。
條項8。   如條項1-6中任一項之器件,其中該一或多個處理器經進一步組態以自該經編碼音訊資料之該經剖析部分獲得一rendererID語法元素。
條項9。   如條項8之器件,其中該一或多個處理器經進一步組態以藉由將該rendererID語法元素之一值與一碼簿之多個項中之一項匹配來選擇該渲染器。
條項10。 如條項1-8中任一項之器件,其中該一或多個處理器經進一步組態以:自該經編碼音訊資料之該經剖析部分獲得一SoftRendererParameter_OBJ_HOA旗標;基於該SoftRendererParameter_OBJ_HOA旗標之一值判定該經編碼音訊資料之部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染;及使用自該經編碼音訊資料之該等部分獲得的經渲染物件域音訊資料及經渲染立體混響域音訊資料之一經加權組合產生該一或多個經渲染揚聲器饋入。
條項11。 如條項10之器件,其中該一或多個處理器經進一步組態以基於自該經編碼視訊資料之該經剖析部分獲得的一α語法元素之一值判定與該經加權組合相關聯之一加權。
條項12。 如條項1-11中任一項之器件,其中該所選擇渲染器係該立體混響渲染器,且其中該一或多個處理器經進一步組態以:解碼儲存至該記憶體的該經編碼音訊資料之一部分以重建構經解碼基於物件之音訊資料及與該經解碼基於物件之音訊資料相關聯的物件後設資料;將該經解碼基於物件之音訊及該物件後設資料轉換成一立體混響域以形成立體混響域音訊資料;及使用該立體混響渲染器渲染該立體混響域音訊資料以產生該一或多個經渲染揚聲器饋入。
條項13。 如條項1-12中任一項之器件,其中該一或多個處理器經組態以:自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器;剖析一RendererFlag_Transmitted_Reference旗標;基於該RendererFlag_Transmitted_Reference旗標之一值等於1,使用該所獲得渲染矩陣渲染該經編碼音訊資料;及基於該RendererFlag_Transmitted_Reference旗標之一值等於0,使用一參考渲染器渲染該經編碼音訊資料。
條項14。 如條項1-13中任一項之器件,其中該一或多個處理器經組態以:自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器;剖析一RendererFlag_External_Internal旗標;基於該RendererFlag_External_Internal旗標之一值等於1,判定該所選擇渲染器為一外部渲染器;及基於該RendererFlag_External_Internal旗標之該值等於0,判定該所選擇渲染器為一外部渲染器。
條項15。 如條項14之器件,其中該RendererFlag_External_Internal旗標之該值等於1,且其中該一或多個處理器經組態以:判定該外部渲染器不可用於渲染該經編碼音訊資料;及基於該外部渲染器不可用於渲染該經編碼音訊資料,判定該所選擇渲染器為一參考渲染器。
條項16。 一種渲染音訊資料之方法,該方法包含:將一經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體;藉由該器件之一或多個處理器剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及藉由該器件之該一或多個處理器使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
條項16.1。   如條項16之方法,其進一步包含在一器件之一介面處接收該經編碼音訊位元串流。
條項16.2。   如條項16或16.1任一者之方法,其進一步包含藉由該器件之一或多個擴音器輸出該一或多個經渲染揚聲器饋入
條項17。 如條項16-16.2中任一項之方法,其進一步包含藉由該器件之該一或多個處理器剖析該經編碼音訊資料之後設資料以選擇該渲染器。
條項18。 如條項16-17中任一項之方法,其進一步包含藉由該器件之該一或多個處理器基於包括於該經編碼視訊資料之該經剖析部分中的一RendererFlag_OBJ_HOA旗標之一值而選擇該渲染器。
條項19。 如條項18之方法,其進一步包含:藉由該器件之該一或多個處理器剖析一RendererFlag_ENTIRE_SEPARATE旗標;基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於1,藉由該器件之該一或多個處理器判定該RendererFlag_OBJ_HOA之該值應用於藉由該處理電路系統渲染之該經編碼音訊資料的所有物件;及基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於0,藉由該器件之該一或多個處理器判定該RendererFlag_OBJ_HOA之該值僅僅應用於藉由該處理電路系統渲染之該經編碼音訊資料的一單一物件。
條項20。 如條項16-19中任一項之方法,其進一步包含藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器。
條項21。 如條項16-19中任一項之方法,其進一步包含藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一rendererID語法元素。
條項22。 如條項21之方法,其進一步包含藉由該器件之該一或多個處理器藉由將該rendererID語法元素之一值與一碼簿之多個項中之一項進行匹配,來選擇該渲染器。
條項23。 如條項16-21中任一項之方法,其進一步包含藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一SoftRendererParameter_OBJ_HOA旗標;藉由該器件之該一或多個處理器基於該SoftRendererParameter_OBJ_HOA旗標之一值判定該經編碼音訊資料之部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染;及藉由該器件之該一或多個處理器使用自該經編碼音訊資料之該等部分獲得的經渲染物件域音訊資料及經渲染立體混響域音訊資料之一經加權組合產生該一或多個經渲染揚聲器饋入。
條項24。 如條項23之方法,其進一步包含藉由該器件之該一或多個處理器基於自該經編碼視訊資料之該經剖析部分獲得的一α語法元素之一值判定與該經加權組合相關聯之一加權。
條項25。 如條項16-24中任一項之方法,其中該所選擇渲染器為該立體混響渲染器,該方法進一步包含:藉由該器件之該一或多個處理器解碼儲存至該記憶體的該經編碼音訊資料之一部分以重建構經解碼基於物件之音訊資料及與該經解碼基於物件之音訊資料相關聯的物件後設資料;藉由該器件之該一或多個處理器將該經解碼基於物件之音訊及該物件後設資料轉換成一立體混響域以形成立體混響域音訊資料;及藉由該器件之該一或多個處理器使用該立體混響渲染器渲染該立體混響域音訊資料以產生該一或多個經渲染揚聲器饋入。
條項26。 如條項16-25中任一項之方法,其進一步包含:藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器;藉由該器件之該一或多個處理器剖析一RendererFlag_Transmitted_Reference旗標;基於該RendererFlag_Transmitted_Reference旗標之一值等於1,藉由該器件之該一或多個處理器使用該所獲得渲染矩陣渲染該經編碼音訊資料;及基於該RendererFlag_Transmitted_Reference旗標之一值等於0,藉由該器件之該一或多個處理器使用一參考渲染器渲染該經編碼音訊資料。
條項27。 如條項16-26中任一項之方法,其進一步包含:藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器;藉由該器件之該一或多個處理器剖析一RendererFlag_External_Internal旗標;基於該RendererFlag_External_Internal旗標之一值等於1,藉由該器件之該一或多個處理器判定該所選擇渲染器為一外部渲染器;及基於該RendererFlag_External_Internal旗標之該值等於0,藉由該器件之該一或多個處理器判定該所選擇渲染器為一外部渲染器。
條項28。 如條項27之方法,其中該RendererFlag_External_Internal旗標之該值等於1,該方法進一步包含:藉由該器件之該一或多個處理器判定該外部渲染器不可用於渲染該經編碼音訊資料;及基於該外部渲染器不可用於渲染該經編碼音訊資料,藉由該器件之該一或多個處理器判定該所選擇渲染器為一參考渲染器。
條項29。 一種經組態以渲染音訊資料之設備,該設備包含:用於儲存一經編碼音訊位元串流之經編碼音訊資料的構件;用於剖析該所儲存經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器的構件,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及用於使用該所選擇渲染器渲染該所儲存經編碼音訊資料以產生一或多個經渲染揚聲器饋入的構件。
條項29.1。   如條項29之設備,其進一步包含用於接收該經編碼音訊位元串流的構件。
條項29.2。   如條項29或條項29.1任一項之設備,其進一步包含用於輸出該一或多個經渲染揚聲器饋入的構件。
條項30。 一種運用指令進行編碼之非暫時性電腦可讀儲存媒體,該等指令在執行時使得用於渲染音訊資料之一器件的一或多個處理器進行以下操作:將一經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體;剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
條項30.1。   如條項30之非暫時性電腦可讀媒體,其進一步運用指令進行編碼,該等指令在執行時使得該一或多個處理器經由用於渲染該音訊資料之該器件的一介面接收該經編碼音訊位元串流。
條項30.2。   如條項30或條項30.1任一項之非暫時性電腦可讀媒體,其進一步運用指令進行編碼,該等指令在執行時使得該一或多個處理器經由該器件之一或多個擴音器輸出該一或多個經渲染揚聲器饋入。
條項31。 一種用於編碼音訊資料之器件,該器件包含:一記憶體,其經組態以儲存該音訊資料;及一或多個處理器,其與該記憶體通信,該一或多個處理器經組態以:編碼該音訊資料以形成經編碼音訊資料;選擇與該經編碼音訊資料相關聯之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流。
條項32。 如條項31之器件,其中該一或多個處理器包含處理電路系統。
條項33。 如條項31或32之任一項的器件,其中該一或多個處理器包含一特殊應用積體電路(ASIC)。
條項34。 如條項31-33中任一項之器件,其中該一或多個處理器經進一步組態以將指示該所選擇渲染器之該資料包括於該經編碼音訊資料之後設資料中。
條項35。 如條項31-34中任一項之器件,其中該一或多個處理器經進一步組態以將一RendererFlag_OBJ_HOA旗標包括於該經編碼音訊位元串流中,且其中一RendererFlag_OBJ_HOA旗標之一值指示該所選擇渲染器。
條項36。 如條項35之器件,其中該一或多個處理器經組態以:基於該RendererFlag_OBJ_HOA之該值應用於該經編碼音訊位元串流之所有物件的一判定,將一RendererFlag_ENTIRE_SEPARATE旗標之一值設定為等於1;基於該RendererFlag_OBJ_HOA之該值僅僅應用於該經編碼音訊位元串流之一單一物件的一判定,將該RendererFlag_ENTIRE_SEPARATE旗標之該值設定為等於0;及將該RendererFlag_OBJ_HOA旗標包括於該經編碼音訊位元串流中。
條項37。 如條項31-36中任一項之器件,其中該一或多個處理器經進一步組態以將一渲染矩陣包括於該經編碼音訊位元串流中,該渲染矩陣表示該所選擇渲染器。
條項38。 如條項31-36中任一項之器件,其中該一或多個處理器經進一步組態以將一rendererID語法元素包括於該經編碼音訊位元串流中。
條項39。 如條項38之器件,其中該rendererID語法元素之一值與該一或多個處理器可存取的一碼簿之多個項之一項匹配。
條項40。 如條項31-39中任一項之器件,其中該一或多個處理器經進一步組態以:判定該經編碼音訊資料之部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染;及基於該經編碼音訊資料之該等部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染的該判定將一SoftRendererParameter_OBJ_HOA旗標包括於該經編碼音訊位元串流中。
條項41。 如條項40之器件,其中該一或多個處理器經進一步組態以判定與該SoftRendererParameter_OBJ_HOA旗標相關聯之一加權;及將指示該加權之一α語法元素包括於該經編碼音訊位元串流中。
條項42。 如條項31-41中任一項之器件,其中該一或多個處理器經組態以:將一RendererFlag_Transmitted_Reference旗標包括於該經編碼音訊位元串流中;及基於該RendererFlag_Transmitted_Reference旗標之一值等於1,將一渲染矩陣包括於該經編碼音訊位元串流中,該渲染矩陣表示該所選擇渲染器。
條項43。 如條項31-42中任一項之器件,其中該一或多個處理器經組態以:基於該所選擇渲染器為一外部渲染器的一判定,將一RendererFlag_External_Internal旗標之一值設定為等於1;基於該所選擇渲染器為一外部渲染器的一判定,將該RendererFlag_External_Internal旗標之該值設定為等於0;及將該RendererFlag_External_Internal旗標包括於該經編碼音訊位元串流中。
條項44。 如條項31-43中任一項之器件,其進一步包含與該記憶體通信之一或多個麥克風,該一或多個麥克風經組態以接收該音訊資料。
條項45。 如條項31-44中任一項之器件,其進一步包含與該一或多個處理器通信之一介面,該介面經組態以發信該經編碼音訊位元串流。
條項46。 一種編碼音訊資料之方法,該方法包含:將音訊資料儲存至一器件之一記憶體;藉由該器件之一或多個處理器編碼該音訊資料以形成經編碼音訊資料;藉由該器件之該一或多個處理器選擇與該經編碼音訊資料相關聯之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及藉由該器件之該一或多個處理器產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流。
條項47。 如條項46之方法,其進一步包含藉由該器件之一介面發信該經編碼音訊位元串流。
條項48。 如條項46或請求項47任一項之方法,其進一步包含藉由該器件之一或多個麥克風接收該音訊資料。
條項49。 如條項46-48中任一項之方法,其進一步包含藉由該器件之該一或多個處理器將指示該所選擇渲染器之該資料包括於該經編碼音訊資料之後設資料中。
條項50。 如條項46-49中任一項之方法,其進一步包含藉由該器件之該一或多個處理器將一RendererFlag_OBJ_HOA旗標包括於該經編碼音訊位元串流中,且其中一RendererFlag_OBJ_HOA旗標之一值指示該所選擇渲染器。
條項51。 如條項50之方法,其進一步包含:藉由該器件之該一或多個處理器基於該RendererFlag_OBJ_HOA之該值應用於該經編碼音訊位元串流之所有物件的一判定,將一RendererFlag_ENTIRE_SEPARATE旗標之一值設定為等於1;藉由該器件之該一或多個處理器基於該RendererFlag_OBJ_HOA之該值僅僅應用於該經編碼音訊位元串流之一單一物件的一判定,將該RendererFlag_ENTIRE_SEPARATE旗標之該值設定為等於0;及藉由該器件之該一或多個處理器將該RendererFlag_OBJ_HOA旗標包括於該經編碼音訊位元串流中。
條項52。 如條項46-51中任一項之方法,其進一步包含藉由該器件之該一或多個處理器將一渲染矩陣包括於該經編碼音訊位元串流中,該渲染矩陣表示該所選擇渲染器。
條項53。 如條項46-51中任一項之方法,其進一步包含藉由該器件之該一或多個處理器將一rendererID語法元素包括於該經編碼音訊位元串流中。
條項54。 如條項53之方法,其中該rendererID語法元素之一值與該器件之該一或多個處理器可存取的一碼簿之多個項之一項匹配。
條項55。 如條項46-54中任一項之方法,其進一步包含:藉由該器件之該一或多個處理器判定該經編碼音訊資料之部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染;及藉由該器件之該一或多個處理器基於該經編碼音訊資料之該等部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染的該判定,將一SoftRendererParameter_OBJ_HOA旗標包括於該經編碼音訊位元串流中。
條項56。 如條項55之方法,其進一步包含:藉由該器件之該一或多個處理器判定與該SoftRendererParameter_OBJ_HOA旗標相關聯之一加權;及藉由該器件之該一或多個處理器將指示該加權的一α語法元素包括於該經編碼音訊位元串流中。
條項57    如條項46-56中任一項之方法,其進一步包含:藉由該器件之該一或多個處理器將一RendererFlag_Transmitted_Reference旗標包括於該經編碼音訊位元串流中;及基於該RendererFlag_Transmitted_Reference旗標之一值等於1,藉由該器件之該一或多個處理器將一渲染矩陣包括於該經編碼音訊位元串流中,該渲染矩陣表示該所選擇渲染器。
條項58。 如條項46-57中任一項之方法,其進一步包含:藉由該器件之該一或多個處理器基於該所選擇渲染器為一外部渲染器的一判定,將一RendererFlag_External_Internal旗標之一值設定為等於1;藉由該器件之該一或多個處理器基於該所選擇渲染器為一外部渲染器的一判定,將該RendererFlag_External_Internal旗標之該值設定為等於0;及藉由該器件之該一或多個處理器將該RendererFlag_External_Internal旗標包括於該經編碼音訊位元串流中。
條項59。 一種用於編碼音訊資料之設備,該設備包含:用於儲存音訊資料的構件;用於編碼該音訊資料以形成經編碼音訊資料的構件;用於選擇與該經編碼音訊資料相關聯之一渲染器的構件,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及用於產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流的構件。
條項60。 如條項59之設備,其進一步包含用於發信該經編碼音訊位元串流的構件。
條項61。 如條項59或請求項60任一項之設備,其進一步包含用於接收該音訊資料的構件。
條項62。 一種運用指令進行編碼之非暫時性電腦可讀儲存媒體,該等指令在執行時使得用於編碼音訊資料之一器件的一或多個處理器進行以下操作:將音訊資料儲存至該器件之一記憶體;編碼該音訊資料以形成經編碼音訊資料;選擇與該經編碼音訊資料相關聯之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及產生包含該經編碼音訊資料及指示該所選擇渲染器之資料的一經編碼音訊位元串流。
條項63。 如條項62之非暫時性電腦可讀媒體,其進一步運用指令進行編碼,該等指令在執行時使得該一或多個處理器經由該器件之一介面發信該經編碼音訊位元串流位元串流。
條項64。 如技術方案62或條項63任一項之非暫時性電腦可讀媒體,其進一步運用指令進行編碼,該等指令在執行時使得該一或多個處理器經由該器件之一或多個麥克風接收該音訊資料。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
1:音訊渲染器 2:音訊渲染資訊 3:揚聲器 5A:麥克風 5B:麥克風 7:實況記錄 9:音訊物件 10:系統 11:音訊資料 11A:基於物件之音訊資料 11A':基於物件之音訊資料 11B:立體混響係數 11B':立體混響係數 12:內容創建者器件 13:擴音器資訊 14:內容消費者器件 16:音訊播放系統 18:音訊編輯系統 20:音訊編碼器件 21:位元串流 22:音訊渲染器 24:音訊解碼器件 25:擴音器饋入 26:內容分析單元 27:於向量之分解單元 28:基於方向之分解單元 30:線性可逆變換(LIT)單元 32:參數計算單元 33:第一US[k]向量33 33':經重新排序之US[k]矩陣 34:重新排序單元 35:V[k]矩陣 35':經重新排序之V[k]矩陣 36:前景選擇單元 37:參數 38:能量補償單元 39:參數 40:音質音訊寫碼器單元 41:目標位元速率 42:位元串流產生單元 43:環境聲道資訊/背景聲道資訊 44:音場分析單元 45:前景聲道之總數目 46:係數折減單元 47:背景或環境立體混響係數 47':經能量補償之環境立體混響係數47' 48:背景(BG)選擇單元 49:nFG信號 49':經內插之nFG信號 50:空間-時間內插單元 51: k 前景V[k]向量 51: k -1前景V[k-1]向量 52:量化單元 53:剩餘前景V[k]向量 55:經折減前景V[k]向量 57:經寫碼前景V[k]向量 59:經編碼環境立體混響係數 61:經編碼nFG信號 72:提取單元 73:介面 81:渲染器重建構單元 90:基於方向之重建構單元 91:介面 92:基於向量之重建構單元 202:音訊編碼器件 204:音訊解碼器件 206:渲染矩陣 208:立體混響轉換單元 209:立體混響係數 210:渲染矩陣 900:步驟 902:步驟 904:步驟 906:步驟 910:步驟 912:步驟 914:步驟
圖1為說明可執行本發明中所描述之技術之各種態樣的系統的圖式。
圖2為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖1之實例中所展示的音訊編碼器件之一個實例的方塊圖。
圖3為更詳細地說明圖1之音訊解碼器件之方塊圖。
圖4為關於物件域音訊資料說明習知工作流程之實例的圖式。
圖5為說明習知工作流程之實例的圖式,其中物件域音訊資料被轉換成立體混響域且使用立體混響渲染器進行渲染。
圖6為說明本發明之工作流程的圖式,其中根據該工作流,程渲染器類型自音訊編碼器件發信至音訊解碼器件。
圖7為說明本發明之工作流程的圖式,其中根據該工作流程,渲染器類型及渲染器識別資訊自音訊編碼器件發信至音訊解碼器件。
圖8為根據本發明之技術的渲染器傳輸實施說明本發明之工作流程的圖式。
圖9為說明圖1之音訊編碼器件在執行本發明中所描述之渲染技術之實例操作時的實例操作之流程圖。
圖10為說明圖1之音訊解碼器件在執行本發明中所描述之渲染技術之實例操作時的實例操作之流程圖。
910:步驟
912:步驟
914:步驟

Claims (30)

  1. 一種用於渲染音訊資料之器件,該器件包含: 一記憶體,其經組態以儲存一經編碼音訊位元串流之經編碼音訊資料;及 一或多個處理器,其與該記憶體通信,該一或多個處理器經組態以: 剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及 使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
  2. 如請求項1之器件,其進一步包含與該記憶體通信之一介面,該介面經組態以接收該經編碼音訊位元串流。
  3. 如請求項1之器件,其進一步包含與該一或多個處理器通信之一或多個擴音器,該一或多個擴音器經組態以輸出該一或多個經渲染揚聲器饋入。
  4. 如請求項1之器件,其中該一或多個處理器包含處理電路系統。
  5. 如請求項1之器件,其中該一或多個處理器包含一特殊應用積體電路(ASIC)。
  6. 如請求項1之器件,其中該一或多個處理器經進一步組態以剖析該經編碼音訊資料之後設資料以選擇該渲染器。
  7. 如請求項1之器件,其中該一或多個處理器經進一步組態以基於包括於該經編碼視訊資料之該經剖析部分中的一RendererFlag_OBJ_HOA旗標之一值而選擇該渲染器。
  8. 如請求項7之器件,其中該一或多個處理器經組態以: 剖析一RendererFlag_ENTIRE_SEPARATE旗標; 基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於1,判定該RendererFlag_OBJ_HOA之該值應用於藉由該一或多個處理器渲染的該經編碼音訊資料之所有物件;及 基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於0,判定該RendererFlag_OBJ_HOA之該值僅僅應用於藉由該一或多個處理器渲染的該經編碼音訊資料之一單一物件。
  9. 如請求項1之器件,其中該一或多個處理器經進一步組態以自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器。
  10. 如請求項1之器件,其中該一或多個處理器經進一步組態以自該經編碼音訊資料之該經剖析部分獲得一rendererID語法元素。
  11. 如請求項10之器件,其中該一或多個處理器經進一步組態以藉由將該rendererID語法元素之一值與一碼簿之多個項中之一項匹配來選擇該渲染器。
  12. 如請求項1之器件,其中該一或多個處理器經進一步組態以: 自該經編碼音訊資料之該經剖析部分獲得一SoftRendererParameter_OBJ_HOA旗標; 基於該SoftRendererParameter_OBJ_HOA旗標之一值判定該經編碼音訊資料之部分將使用該基於物件之渲染器及該立體混響渲染器進行渲染;及 使用自該經編碼音訊資料之該等部分獲得的經渲染物件域音訊資料及經渲染立體混響域音訊資料之一經加權組合產生該一或多個經渲染揚聲器饋入。
  13. 如請求項12之器件,其中該一或多個處理器經進一步組態以基於自該經編碼視訊資料之該經剖析部分獲得的一α語法元素之一值判定與該經加權組合相關聯之一加權。
  14. 如請求項1之器件,其中該所選擇渲染器為該立體混響渲染器,且其中該一或多個處理器經進一步組態以: 解碼儲存至該記憶體的該經編碼音訊資料之一部分以重建構經解碼基於物件之音訊資料及與該經解碼基於物件之音訊資料相關聯的物件後設資料; 將該經解碼基於物件之音訊及該物件後設資料轉換成一立體混響域以形成立體混響域音訊資料;及 使用該立體混響渲染器渲染該立體混響域音訊資料以產生該一或多個經渲染揚聲器饋入。
  15. 如請求項1之器件,其中該一或多個處理器經組態以: 自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器; 剖析一RendererFlag_Transmitted_Reference旗標; 基於該RendererFlag_Transmitted_Reference旗標之一值等於1,使用該所獲得渲染矩陣渲染該經編碼音訊資料;及 基於該RendererFlag_Transmitted_Reference旗標之一值等於0,使用一參考渲染器渲染該經編碼音訊資料。
  16. 如請求項1之器件,其中該一或多個處理器經組態以: 自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器; 剖析一RendererFlag_External_Internal旗標; 基於該RendererFlag_External_Internal旗標之一值等於1,判定該所選擇渲染器為一外部渲染器;及 基於該RendererFlag_External_Internal旗標之該值等於0,判定該所選擇渲染器為一外部渲染器。
  17. 如請求項16之器件,其中該RendererFlag_External_Internal旗標之該值等於1,且其中該一或多個處理器經組態以: 判定該外部渲染器不可用於渲染該經編碼音訊資料;及 基於該外部渲染器不可用於渲染該經編碼音訊資料,判定該所選擇渲染器為一參考渲染器。
  18. 如請求項1之器件,其中該立體混響渲染器包括一高階立體混響渲染器。
  19. 一種渲染音訊資料之方法,該方法包含: 將一經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體; 藉由該器件之一或多個處理器剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及 藉由該器件之該一或多個處理器使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
  20. 如請求項19之方法,其進一步包含在一器件之一介面處接收該經編碼音訊位元串流。
  21. 如請求項19之方法,其進一步包含藉由該器件之一或多個擴音器輸出該一或多個經渲染揚聲器饋入。
  22. 如請求項19之方法,其進一步包含藉由該器件之該一或多個處理器剖析該經編碼音訊資料之後設資料以選擇該渲染器。
  23. 如請求項19之方法,其進一步包含藉由該器件之該一或多個處理器基於包括於該經編碼視訊資料之該經剖析部分中的一RendererFlag_OBJ_HOA旗標之一值而選擇該渲染器。
  24. 如請求項19之方法,其進一步包含: 藉由該器件之該一或多個處理器剖析一RendererFlag_ENTIRE_SEPARATE旗標; 基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於1,藉由該器件之該一或多個處理器判定該RendererFlag_OBJ_HOA之該值應用於藉由該處理電路系統渲染之該經編碼音訊資料的所有物件;及 基於該RendererFlag_ENTIRE_SEPARATE旗標之一值等於0,藉由該器件之該一或多個處理器判定該RendererFlag_OBJ_HOA之該值僅僅應用於藉由該處理電路系統渲染之該經編碼音訊資料的一單一物件。
  25. 如請求項19之方法,其進一步包含藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器。
  26. 如請求項19之方法,其進一步包含藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一rendererID語法元素。
  27. 如請求項26之方法,其進一步包含藉由該器件之該一或多個處理器藉由將該rendererID語法元素之一值與一碼簿之多個項中之一項進行匹配,來選擇該渲染器。
  28. 如請求項19之方法,其進一步包含: 藉由該器件之該一或多個處理器自該經編碼音訊資料之該經剖析部分獲得一渲染矩陣,該所獲得渲染矩陣表示該所選擇渲染器; 藉由該器件之該一或多個處理器剖析一RendererFlag_External_Internal旗標; 基於該RendererFlag_External_Internal旗標之一值等於1: 藉由該器件之該一或多個處理器判定該外部渲染器不可用於渲染該經編碼音訊資料;及 基於該外部渲染器不可用於渲染該經編碼音訊資料,藉由該器件之該一或多個處理器判定該所選擇渲染器為一參考渲染器。
  29. 一種經組態以渲染音訊資料之設備,該設備包含: 用於儲存一經編碼音訊位元串流之經編碼音訊資料的構件; 用於剖析該所儲存經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器的構件,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及 用於使用該所選擇渲染器渲染該所儲存經編碼音訊資料以產生一或多個經渲染揚聲器饋入的構件。
  30. 一種運用指令進行編碼之非暫時性電腦可讀儲存媒體,該等指令在執行時使得用於渲染音訊資料之一器件的一或多個處理器進行以下操作: 將一經編碼音訊位元串流之經編碼音訊資料儲存至該器件之一記憶體; 剖析儲存至該記憶體的該經編碼音訊資料之一部分以選擇用於該經編碼音訊資料之一渲染器,該所選擇渲染器包含一基於物件之渲染器或一立體混響渲染器中之一者;及 使用該所選擇渲染器渲染該經編碼音訊資料以產生一或多個經渲染揚聲器饋入。
TW108134887A 2018-10-02 2019-09-26 音訊資料之靈活渲染 TWI827687B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862740260P 2018-10-02 2018-10-02
US62/740,260 2018-10-02
US16/582,910 2019-09-25
US16/582,910 US11798569B2 (en) 2018-10-02 2019-09-25 Flexible rendering of audio data

Publications (2)

Publication Number Publication Date
TW202029185A true TW202029185A (zh) 2020-08-01
TWI827687B TWI827687B (zh) 2024-01-01

Family

ID=69946424

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108134887A TWI827687B (zh) 2018-10-02 2019-09-26 音訊資料之靈活渲染

Country Status (5)

Country Link
US (1) US11798569B2 (zh)
EP (2) EP4164253A1 (zh)
CN (1) CN112771892B (zh)
TW (1) TWI827687B (zh)
WO (1) WO2020072275A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
JP6230602B2 (ja) 2012-07-16 2017-11-15 ドルビー・インターナショナル・アーベー オーディオ再生のためのオーディオ音場表現をレンダリングするための方法および装置
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
CN105191354B (zh) * 2013-05-16 2018-07-24 皇家飞利浦有限公司 音频处理装置及其方法
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US20150243292A1 (en) 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
WO2015184307A1 (en) 2014-05-30 2015-12-03 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US20170347219A1 (en) * 2016-05-27 2017-11-30 VideoStitch Inc. Selective audio reproduction
TWI744341B (zh) 2016-06-17 2021-11-01 美商Dts股份有限公司 使用近場/遠場渲染之距離聲相偏移
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems

Also Published As

Publication number Publication date
EP4164253A1 (en) 2023-04-12
CN112771892B (zh) 2022-08-23
US11798569B2 (en) 2023-10-24
EP3861766A1 (en) 2021-08-11
US20200105282A1 (en) 2020-04-02
CN112771892A (zh) 2021-05-07
WO2020072275A1 (en) 2020-04-09
TWI827687B (zh) 2024-01-01
EP3861766B1 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
US11962990B2 (en) Reordering of foreground audio objects in the ambisonics domain
US9870778B2 (en) Obtaining sparseness information for higher order ambisonic audio renderers
JP6169805B2 (ja) フレームパラメータ再使用可能性を示すこと
KR101723332B1 (ko) 회전된 고차 앰비소닉스의 바이노럴화
US9883310B2 (en) Obtaining symmetry information for higher order ambisonic audio renderers
JP6449455B2 (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
JP6297721B2 (ja) 高次アンビソニックオーディオレンダラのための希薄情報を取得すること
US20200120438A1 (en) Recursively defined audio metadata
EP3363213B1 (en) Coding higher-order ambisonic coefficients during multiple transitions
JP6423009B2 (ja) 高次アンビソニックオーディオレンダラのためのシンメトリ情報を取得すること
CN112771892B (zh) 音频数据的灵活渲染