TW202041035A - 呈現元資料以控制以使用者運動為基礎之音訊呈現 - Google Patents

呈現元資料以控制以使用者運動為基礎之音訊呈現 Download PDF

Info

Publication number
TW202041035A
TW202041035A TW109109460A TW109109460A TW202041035A TW 202041035 A TW202041035 A TW 202041035A TW 109109460 A TW109109460 A TW 109109460A TW 109109460 A TW109109460 A TW 109109460A TW 202041035 A TW202041035 A TW 202041035A
Authority
TW
Taiwan
Prior art keywords
user
renderer
metadata
disable
enable
Prior art date
Application number
TW109109460A
Other languages
English (en)
Inventor
尼爾斯 古恩瑟 彼得斯
金墨永
S M 艾卡姆斯 薩利赫
賽德哈薩 高塔姆 斯瓦米納坦
艾薩克 加西亞 穆諾茲
迪潘強 森
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202041035A publication Critical patent/TW202041035A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)

Abstract

大體而言,本文描述用於呈現元資料以控制以使用者運動為基礎之音訊呈現的技術。一種包含一記憶體及一或多個處理器之裝置可經組態以執行該等技術。該記憶體可經組態以儲存表示一聲場之音訊資料。該一或多個處理器可耦接至該記憶體,且經組態以:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制;在表示該音訊資料之一位元串流中指定該呈現元資料;且輸出該位元串流。

Description

呈現元資料以控制以使用者運動為基礎之音訊呈現
本發明係關於媒體資料,諸如音訊資料之處理。
電腦媒介實境系統經開發以允許計算裝置擴增或新增、移除或減去,或一般而言修改使用者經歷之現有實境。電腦媒介實境系統可包括例如虛擬實境(VR)系統、擴增實境(AR)系統及混合實境(MR)系統。電腦媒介實境系統之已感知成功大體上涉及此類電腦媒介實境系統在視訊及音訊體驗兩者方面提供切實浸沒體驗的能力,其中視訊及音訊體驗以使用者所預期之方式對準。儘管人類視覺系統比人類聽覺系統更敏感(例如,在場景內的各種對象之感知定位方面),但尤其隨著視訊體驗改良而允許使得使用者能夠較佳地識別音訊內容之來源的視訊對象之較佳定位,確保充分聽覺體驗為確保切實浸沒體驗的越來越重要之因素。
本發明大體上係關於電腦媒介實境系統之使用者體驗的聽覺態樣,該電腦媒介實境系統包括虛擬實境(VR)、混合實境(MR)、擴增實境(AR)、電腦視覺及圖形系統。該等技術可提供允許控制用於VR、MR、AR等之音訊資料之以使用者運動為基礎之呈現的呈現元資料。
在一個實例中,該等技術係關於一種裝置,其包含:一記憶體,其經組態以儲存表示一聲場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:自表示該音訊資料之一位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對一呈現器之調適的控制;獲得對該使用者之該運動的該指示;基於該呈現元資料及該指示獲得藉以將該音訊資料呈現為一或多個揚聲器饋送的一呈現器;且將該呈現器應用於該音訊資料以產生該等揚聲器饋送。
在另一實例中,該等技術係關於一種方法,其包含:自表示定義一聲場之音訊資料的一位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對一裝置之一使用者之一運動的一指示對一呈現器之調適的控制;獲得對該使用者之該運動之該指示;基於該呈現元資料及該指示獲得藉以將該音訊資料呈現為一或多個揚聲器饋送的一呈現器;及將該呈現器應用於該音訊資料以產生該等揚聲器饋送。
在另一實例中,該等技術係關於一種裝置,其包含:用於自表示定義一聲場之音訊資料的一位元串流獲得呈現元資料之構件,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對一呈現器之調適的控制;用於獲得對該使用者之該運動的該指示之構件;用於基於該呈現元資料及該指示獲得藉以將該音訊資料呈現為一或多個揚聲器饋送的一呈現器之構件;及用於將該呈現器應用於該音訊資料以產生該等揚聲器饋送之構件。
在另一實例中,該等技術係關於一種非暫時性電腦可讀儲存媒體,其上儲存有在執行時使得一裝置之一或多個處理器進行以下操作的指令:自表示定義一聲場之音訊資料的一位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對一呈現器之調適的控制;獲得對該使用者之該運動之該指示;基於該呈現元資料及該指示獲得藉以將該音訊資料呈現為一或多個揚聲器饋送的一呈現器;及將該呈現器應用於該音訊資料以產生該等揚聲器饋送。
在另一實例中,該等技術係關於一種裝置,其包含:一記憶體,其經組態以儲存表示一聲場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制;在表示該音訊資料之一位元串流中指定該呈現元資料;且輸出該位元串流。
在另一實例中,該等技術係關於一種方法,其包含:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對一裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制;在表示該音訊資料之一位元串流中指定該呈現元資料;及輸出該位元串流。
在另一實例中,該等技術係關於一種裝置,其包含:用於獲得呈現元資料之構件,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制;用於在表示該音訊資料之一位元串流中指定該呈現元資料之構件;及用於輸出該位元串流之構件。
在另一實例中,該等技術係關於一種非暫時性電腦可讀儲存媒體,其上儲存有在執行時使得一裝置之一或多個處理器進行以下操作的指令:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制;在表示該音訊資料之一位元串流中指定該呈現元資料;及輸出該位元串流。
在隨附圖式及以下描述中闡述本發明之一或多個實例之細節。該等技術之各種態樣之其他特徵、目標及優點將自實施方式及圖式以及自申請專利範圍顯而易見。
本申請案主張2019年3月20日申請的標題為「RENDERING METADATA TO CONTROL USER MOVEMENT BASED AUDIO RENDERING」的美國臨時專利申請案第62/821,190號之權益,該申請案之全部內容以引用之方式併入本文中。
市場中存在各種基於「環繞聲」通道之格式。舉例而言,其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至由日本廣播協會或日本廣播公司(NHK)所開發之22.2系統。內容創建者(例如,好萊塢工作室)將希望一次性產生影片之音軌,而不花費精力來針對每一揚聲器組態對其進行重混。運動圖像專家組(MPEG)已發佈一標準,該標準允許聲場使用元素(例如,高階立體混響HOA係數)之階層集合來表示,對於大部分揚聲器組態(包括無論在由各種標準定義之位置中或在不均勻位置中的5.1及22.2組態),該等元素之集合可呈現為揚聲器饋送。
MPEG發佈如MPEG-H 3D音訊標準(由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC DIS 23008-3,正式標題為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,且日期為2014年7月25日)之標準。MPEG亦發佈3D音訊標準之第二版本,由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC 23008-3:201x(E),標題為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,且日期為2016年10月12日。在本發明中對「3D音訊標準」之提及可指代以上標準中之一者或兩者。
如上文所提及,元素之階層集合的一個實例為球諧係數(SHC)之集合。以下方程式展現使用SHC進行的對聲場之描述或表示:
Figure 02_image001
方程式展示在時間t 處,聲場之任一點
Figure 02_image003
處的壓力
Figure 02_image005
可由SHC,
Figure 02_image007
唯一地表示。在此,
Figure 02_image009
c 為聲音之速度(約343 m/s),
Figure 02_image011
為參考點(或觀測點),
Figure 02_image013
為階數n 之球貝塞耳函數(Bessel function),且
Figure 02_image015
n 階及m 子階之球諧基底函數(其亦可稱作球基底函數)。可認識到,方括弧中之項為信號之頻域表示(亦即,
Figure 02_image017
),其可藉由各種時間-頻率變換(諸如,離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括小波變換係數之集合及多解析度基底函數之係數之其他集合。
可由各種麥克風陣列組態實體地獲取(例如記錄) SHC
Figure 02_image019
,或可替代地,其可自聲場之基於通道或基於對象的描述導出。SHC (其亦可稱作高階立體混響HOA係數)表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2 個(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可自麥克風陣列導出SHC之方式的各種實例描述於Poletti, M之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於對象之描述導出SHC,考慮以下方程式。可將對應於個別音訊對象之聲場之係數
Figure 02_image019
表達為:
Figure 02_image022
, 其中i為
Figure 02_image024
Figure 02_image026
為n階之球漢克函數(Hankel function)(第二種類),且
Figure 02_image028
為對象之位置。知曉隨頻率變化之對象源能量
Figure 02_image030
(例如,使用時間-頻率分析技術,諸如對PCM串流執行快速傅立葉變換)允許吾人將每一PCM對象及對應位置轉換成SHC
Figure 02_image019
。此外,可展示(由於以上為線性及正交分解):每一對象之
Figure 02_image019
係數為相加性的。以此方式,多個PCM對象可由
Figure 02_image019
係數(例如,作為個別對象之係數向量的總和)來表示。基本上,該等係數含有關於聲場之資訊(作為3D座標之函數的壓力),且上式表示在觀測點
Figure 02_image035
附近自個別對象至總聲場之表示的變換。
基於場景之音訊格式(諸如上文所提及之SHC)表示表示聲場的一種方式。其他可能格式包括基於通道之音訊格式及基於對象音訊格式。基於通道之音訊格式係指5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或將音訊通道定位於收聽者周圍之特定位置以便重新建立聲場的任何其他基於通道之格式。
基於對象之音訊格式可指代指定常常使用脈衝編碼調變(PCM)進行編碼且稱作PCM音訊對象之音訊對象以便表示聲場的格式。此等音訊對象可包括識別音訊對象相對於收聽者或聲場中之其他參考點之位置的元資料,使得該音訊對象可呈現至一或多個揚聲器通道供播放以致力於重新建立聲場。本發明中所描述之技術可應用於前述格式中之任一者,包括基於場景之音訊格式、基於通道之音訊格式、基於對象之音訊格式或其任何組合。
圖1A及圖1B為說明可執行本發明中所描述之技術之各種態樣之系統的圖式。如圖1A之實例中所示,系統10包括源裝置12及內容消費裝置14。雖然在源裝置12及內容消費裝置14之情形中描述,但技術可實施於聲場之任何表示經編碼以形成表示音訊資料之位元串流的任何情形中。此外,源裝置12可表示能夠產生聲場之表示的任何形式之計算裝置,且在本文中一般在VR內容創建者裝置之情形中描述。同樣,內容消費裝置14可表示能夠實施本發明中所描述之呈現元資料技術以及音訊播放的任何形式之計算裝置,且在本文中一般在VR用戶端裝置之情形中描述。
源裝置12可由娛樂公司或可產生多通道音訊內容以供內容消費裝置(諸如,內容消費裝置14)之操作者消費的其他實體來操作。在一些VR情境中,源裝置12合視訊內容產生音訊內容。源裝置12包括內容捕捉裝置300、內容編輯裝置304及聲場表示產生器302。內容捕捉裝置300可經組態以與麥克風5介接或以其他方式通信。
麥克風5可表示Eigenmike®或能夠捕捉聲場及將聲場表示為音訊資料11的其他類型之3D音訊麥克風,該音訊資料11可指代上文指出之基於場景之音訊資料(諸如HOA係數)、基於對象之音訊資料及基於通道之音訊資料中之一或多者。儘管描述為3D音訊麥克風,但麥克風5亦可表示經組態以捕捉音訊資料11的其他類型之麥克風(諸如全向麥克風、現場麥克風、單向麥克風等)。
在一些實例中,內容捕捉裝置300可包括整合至內容捕捉裝置300之外殼中的整合式麥克風5。內容捕捉裝置300可無線地或經由有線連接與麥克風5介接。替代經由麥克風5捕捉或結合捕捉音訊資料11,在無線地經由某一類型之可卸除式儲存器及/或經由有線輸入程序輸入音訊資料11之後,內容捕捉裝置300可處理音訊資料11。如此,根據本發明,內容捕捉裝置300與麥克風5之各種組合係可能的。
內容捕捉裝置300亦可經組態以與內容編輯裝置304介接或以其他方式通信。在一些情況下,內容捕捉裝置300可包括內容編輯裝置304 (其在一些情況下可表示軟體或軟體及硬體之組合,包括由內容捕捉裝置300執行以組態內容捕捉裝置300以根據本發明中描述之該等技術之各種態樣執行特定形式之內容編輯的軟體)。內容編輯裝置304可表示經組態以編輯或以其他方式更改自內容捕捉裝置300接收到之內容301(包括音訊資料11)的單元。內容編輯裝置304可輸出經編輯內容303及相關聯元資料305至聲場表示產生器302。
聲場表示產生器302可包括能夠與內容編輯裝置304 (或內容捕捉裝置300)介接之任何類型的硬體裝置。儘管圖1A之實例中未示,但聲場表示產生器302可使用由內容編輯裝置304提供以產生一或多個位元串流21的經編輯內容303,包括音訊資料11及元資料305。在聚焦於音訊資料11之圖1A之實例中,聲場表示產生器302可產生由音訊資料11表示之同一聲場的一或多個表示,以獲得包括聲場之表示及音訊元資料305的位元串流21。
舉例而言,為使用HOA係數(其又為音訊資料11之一個實例)產生聲場之不同表示,聲場表示產生器302可將寫碼方案用於聲場之立體混響表示,被稱作混合階立體混響(MOA),如標題為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FO COMPUTER-MEDIATED REALITY SYSTEMS」,且在2017年8月8日申請、在2019年1月3日公開為美國專利公開案第20190007781號的美國申請案第15/672,058號中更詳細論述。
為產生聲場之特定MOA表示,聲場表示產生器302可產生HOA係數之全集的部分子集。舉例而言,由聲場表示產生器302所產生之每一MOA表示可對於聲場之一些區域提供精確度,但於其他區域中精確度較小。在一個實例中,聲場之MOA表示可包括HOA係數之八(8)個未經壓縮HOA係數,而同一聲場之三階HOA表示可包括HOA係數之十六(16)個未經壓縮HOA係數。如此,相較於自HOA係數所產生之同一聲場的對應三階HOA表示,產生為HOA係數之部分子集的聲場之每一MOA表示可較不儲存密集且較不頻寬密集(若且當作為位元串流21之部分在所說明傳輸通道上傳輸時)。
儘管關於MOA表示進行了描述,但本發明之技術亦可關於全階立體混響(FOA)表示來執行,在該全階立體混響表示中,給定階數N之所有HOA係數用以表示聲場。換言之,替代使用HOA係數之部分非零子集來表示聲場,聲場表示產生器302可使用給定階數N之所有HOA係數來表示聲場,從而產生等於(N+1)2 之總HOA係數。
就此而言,高階立體混響音訊資料(其為指代MOA表示或FOA表示中的HOA係數之另一種方式)可包括與具有一階或以下之球基底函數相關聯的高階立體混響係數(其可稱作「1階立體混響音訊資料」)、與具有混合階及子階之球基底函數相關聯的高階立體混響係數(其可稱作如上文所論述之「MOA表示」),或與具有大於一階之球基底函數相關聯的高階立體混響係數(其在上文稱作「FOA表示」)。
在一些實例中,內容捕捉裝置300或內容編輯裝置304可經組態以與聲場表示產生器302無線通信。在一些實例中,捕捉裝置300或內容編輯裝置304可經由無線連接或有線連接中之一者或兩者與聲場表示產生器302通信。經由內容捕捉裝置300與聲場表示產生器302之間的連接,內容捕捉裝置300可以各種內容形式提供內容,該等形式出於論述之目的在本文中描述為音訊資料11之部分。
在一些實例中,內容捕捉裝置300可充分利用聲場表示產生器302之各種態樣(就聲場表示產生器302之硬體或軟體能力而言)。舉例而言,聲場表示產生器302可包括專用硬體,該專用硬體經組態以(或專用軟體,其在執行時使得一或多個處理器)執行音質音訊編碼(諸如表示為由運動圖像專家組(MPEG)或MPEG-H 3D音訊寫碼標準闡述之「USAC」的通用語音及音訊寫碼器)。內容捕捉裝置300可能不包括音質音訊編碼器專用硬體或專用軟體,而替代地以非音質音訊寫碼形式提供內容301之音訊態樣。聲場表示產生器302可藉由關於內容301之音訊態樣至少部分地執行音質音訊編碼來輔助內容301之捕捉。
聲場表示產生器302亦可藉由至少部分地基於自音訊資料11(在音訊資料11包括基於場景之音訊資料的情況下)產生之音訊內容(例如MOA表示及/或三階HOA表示)產生一或多個位元串流21來輔助內容捕捉及傳輸。位元串流21可表示音訊資料11及任何其他不同類型的內容301之經壓縮版本(諸如球視訊資料、影像資料或文本資料之經壓縮版本)。
聲場表示產生器302可產生位元串流21以供(作為一個實例)跨越傳輸通道傳輸,該傳輸通道可為有線或無線通道、資料儲存裝置或其類似者。位元串流21可表示音訊資料11之經編碼版本且可包括主位元串流及另一旁側位元串流,其可稱作旁側通道資訊。在一些情況下,表示音訊資料11之經壓縮版本之位元串流21 (其又可表示基於場景之音訊資料、基於對象之音訊資料、基於通道之音訊資料或其組合)可符合根據MPEG-H 3D音訊寫碼標準產生之位元串流。
內容消費者裝置14可由個人操作,且可表示VR用戶端裝置。儘管關於VR用戶端裝置進行了描述,但內容消費裝置14可表示其他類型之裝置,諸如擴增實境(AR)用戶端裝置、混合實境(MR)用戶端裝置、標準電腦、頭戴式套組、頭戴式耳機或能夠追蹤操作用戶端消費者裝置14之個人的頭部運動及/或一般平移運動之任何其他裝置。如圖1A之實例中所示,內容消費裝置14包括音訊播放系統16,所述音訊播放系統16可指代能夠呈現音訊資料11以供作為多通道音訊內容播放之任何形式的音訊播放系統。
雖然在圖1A中展示為直接傳輸至內容消費裝置14,但源裝置12可將位元串流21輸出至定位於源裝置12與內容消費裝置14之間的中間裝置。中間裝置可儲存位元串流21以供稍後遞送至可能請求位元串流之內容消費裝置14。該中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他裝置。該中間裝置可駐存於能夠將位元串流21串流傳輸(且可能結合傳輸對應視訊資料位元串流)至請求位元串流21之諸如內容消費裝置14之訂戶的內容遞送網路中。
替代地,源裝置12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,該等儲存媒體中之大部分能夠由電腦讀取且因此可稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸通道可指代藉以傳輸儲存至媒體的內容(例如呈一或多個位元串流21形式)(且可包括零售店及其他基於商店之遞送機構)的通道。因此,在任何情況下,本發明之技術就此而言不應限於圖1A之實例。
如上文所提及,內容消費裝置14包括音訊播放系統16。音訊播放系統16可表示能夠播放多通道音訊資料之任何系統。音訊播放系統16可包括多個不同呈現器22。呈現器22可各自提供不同的呈現形式,其中不同呈現形式可包括執行向量基振幅平移(vector-base amplitude panning,VBAP)之各種方式中之一或多者及/或執行聲場合成的各種方式中之一或多者。如本文所用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16可進一步包括音訊解碼裝置24。音訊解碼裝置24可表示經組態以解碼位元串流21從而輸出音訊資料15的裝置。再次,音訊資料15可包括:在一些實例中可形成全三階HOA表示或其形成同一聲場之MOA表示的子集的基於場景之音訊資料;其分解,諸如主要音訊信號、環境HOA係數及MPEG-H 3D音訊寫碼標準中所描述之基於向量之信號;或其他形式之基於場景之音訊資料。如此,音訊資料15可類似於音訊資料11之全集或部分子集,但可能由於有損操作(例如量化)及/或經由傳輸通道之傳輸而不同。
替代或結合基於場景之音訊資料,音訊資料15可包括基於通道之音訊資料。作為基於場景之音訊資料的替代或與其結合,音訊資料15可包括基於對象之音訊資料。如此,音訊資料15可包括基於場景之音訊資料、基於對象之音訊資料及基於通道之音訊資料的任何組合。
音訊播放系統16之音訊呈現器22可在音訊解碼裝置24已解碼位元串流21而獲得音訊資料15之後呈現音訊資料15以輸出揚聲器饋送25。揚聲器饋送25可驅動一或多個揚聲器(出於易於說明之目的,其未在圖1A之實例中展示)。包括聲場之基於場景之音訊資料(及可能的基於通道之音訊資料及/或基於對象之音訊資料)的各種音訊表示可以多種方式正規化,包括N3D、SN3D、FuMa、N2D或SN2D。
為了選擇適當呈現器或在一些情況下產生適當呈現器,音訊播放系統16可獲得指示揚聲器(例如擴音器或頭戴式耳機揚聲器)之數目及/或揚聲器之空間幾何結構的揚聲器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以便於動態地判定揚聲器資訊13之方式驅動揚聲器來獲得揚聲器資訊13。在其他情況下,或結合揚聲器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16進行交流且輸入揚聲器資訊13。
音頻播放系統16可基於揚聲器資訊13選擇音訊呈現器22中之一者。在一些情況下,在音訊呈現器22中無一者處於與揚聲器資訊13中所指定之揚聲器幾何結構之某一臨限值類似性度量(就揚聲器幾何結構而言)內時,音訊播放系統16可基於揚聲器資訊13產生音訊呈現器22中之一者。音頻播放系統16可在一些情況下基於揚聲器資訊13產生音訊呈現器22中的一者,而不首先嘗試選擇音訊呈現器22中的現有者。
在將揚聲器饋送25輸出至頭戴式耳機時,音訊播放系統16可利用呈現器22中之一者,該等呈現器使用頭部相關轉移函數(HRTF)或能夠呈現頭戴式耳機揚聲器播放之左側及右側揚聲器饋送25的其他函數(諸如雙耳室脈衝回應呈現器)來提供雙耳呈現。術語「揚聲器」或「轉訊器」可通常指代任何揚聲器,包括擴音器、頭戴式耳機揚聲器、骨導式揚聲器、耳塞式揚聲器、無線頭戴式耳機揚聲器等。一或多個揚聲器隨後可播放所呈現之揚聲器饋送25。
儘管描述為自音訊資料15呈現揚聲器饋送25,但對揚聲器饋送25之呈現的提及可指代其他類型之呈現,諸如直接併入至自位元串流21對音訊資料15之解碼中的呈現。替代呈現之一實例可見於MPEG-H 3D音訊寫碼標準之Annex G中,其中呈現發生於在聲場合成之前的主要信號形成及背景信號形成期間。如此,對音訊資料15之呈現的提及應理解為對實際音訊資料15之呈現或其音訊資料15之分解或表示(諸如上文所提及之主要音訊信號、環境HOA係數及/或基於向量之信號-其亦可稱作V向量)兩者的參考。
如上文所描述,內容消費裝置14可表示其中人類可穿戴式顯示器安裝於操作VR裝置之使用者的眼部前方之VR裝置。圖2為說明由使用者402穿戴之VR裝置400之一實例的圖式。VR裝置400耦接至頭戴式耳機404或以其他方式包括頭戴式耳機404,所述頭戴式耳機404可經由播放揚聲器饋送25而再現由音訊資料15表示的聲場。揚聲器饋送25可表示能夠促使頭戴式耳機404之轉訊器內的膜以各種頻率振動的類比或數位信號,其中此程序通常稱作驅動頭戴式耳機404。
視訊、音訊及其他感官資料可在VR體驗中起重要作用。為參與VR體驗,使用者402可穿戴VR裝置400 (其亦可稱作VR頭戴式套組400)或其他可穿戴式電子裝置。VR用戶端裝置(諸如VR頭戴式套組400)可包括追蹤裝置(例如追蹤裝置306),該追蹤裝置經組態以追蹤使用者402之頭部運動,且調適經由VR頭戴式套組400展示之視訊資料以考慮頭部運動,從而提供使用者402可以視覺三維體驗視訊資料中所示之虛擬世界的沉浸式體驗。
當VR (及其他形成之AR及/或MR)可使得使用者402在視覺上駐留於虛擬世界中時,通常VR頭戴式套組400可能缺乏將使用者有聲地置於虛擬世界中之能力。換言之,VR系統(其可包括負責呈現視訊資料及音訊資料之電腦及VR頭戴式套組400,該電腦出於易於說明之目的而未展示於圖2之實例中)可能無法有聲地(及在一些情況下以經由VR頭戴式套組400反映顯示給使用者之虛擬場景的方式切實地)支援全三維沉浸。
VR之音訊態樣已分類為三種獨立之沉浸類別。第一類別提供最低水平之沉浸且稱作三自由度(3DOF)。3DOF係指考慮頭部於三個自由度(偏航、俯仰及滾轉)中之運動,從而允許使用者在任何方向上自由環顧的音訊呈現。然而,3DOF未能考慮到其中頭部並不以聲場之光學及聲學中心為中心的平移頭部運動。
歸因於遠離聲場內之光學中心及聲學中心的頭部運動,除受限空間平移運動以外,稱作3DOF加(3DOF+)之第二類別亦提供三個自由度(偏航、俯仰及滾轉)。3DOF+可提供對諸如運動視差之感知效應的支援,其可加強沉浸之感覺。
稱作六自由度(6DOF)之第三類別以考慮頭部運動(偏航、俯仰及滾轉)之三個自由度並且考慮使用者在空間中之平移(x平移、y平移及z平移)的方式呈現音訊資料。空間平移可藉由感測器追蹤使用者在實體世界中之位置或藉助於輸入控制器來誘導。
3DOF呈現為VR之當前技術水平。如此,VR之音訊態樣相較於視訊態樣為較低沉浸式的,從而潛在地降低使用者所體驗到之整體沉浸。
此外,使得內容創建者能夠維持所要美感的控制極少,從而潛在地限制內容創建者提供持續沉浸式體驗之能力。亦即,使用者402可無意地或甚至有意地啟用內容創建者設想限制所要美感的某些類型之呈現或停用內容創建者設想實現所要美感的某些類型之呈現。控制之缺乏可妨礙內容創建者對VR之採用,從而潛在地減少可供用於VR之內容的量,可進而減少使用者對VR之採用。此外,內容創建者控制之缺乏可限制VR體驗(例如就沉浸及/或藝術美觀性而言)。
根據本發明中描述之技術,源裝置12可獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對用以呈現表示聲場之音訊資料15的呈現器(例如音訊呈現器22中之一或多者)之調適的控制。在一些實例中,聲場表示產生器302可獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對VR頭戴式套組400之使用者402之運動的指示對用以呈現音訊資料15之音訊呈現器22之調適的控制。
在一些情況下,聲場表示產生器302可自內容編輯裝置304接收呈現元資料作為元資料305之部分。如此,呈現元資料可稱作「呈現元資料305」。在此情況下,音訊編輯器或源裝置12之其他操作者可經由內容編輯裝置304指定呈現元資料305。在一些情況下,聲場表示產生器302也許可基於內容303或其他類型之元資料305以程式化方式產生呈現元資料305。在任何情況下,聲場表示產生器302可在表示音訊資料11之位元串流21中指定呈現元資料305,且輸出位元串流21。
音訊播放系統16之音訊解碼裝置24可自位元串流21獲得呈現元資料305。音訊播放系統16可經由追蹤裝置306獲得對使用者402之運動的指示17。追蹤裝置306可整合於VR頭戴式套組400內或在VR頭戴式套組400外部。追蹤裝置306可表示能夠偵測或以其他方式獲得對使用者402之運動之指示17的任何類型之裝置。作為一個實例,追蹤裝置306可包括整合至VR頭戴式套組400中的回轉儀及加速度計。
除回轉儀及加速度計以外或作為替代,追蹤裝置306可包括捕捉VR頭戴式套組400及/或使用者402之影像以圖識別攝影機可觀測空間內之運動的一或多個攝影機(包括能夠感測紅外光之攝影機)。再次替代或結合前述實例中之任一者,追蹤裝置306亦可包括雷達系統(使用無線電或其他電磁波獲得指示17)、聲納系統(使用聲波獲得指示17)及經設計以獲得類似於指示17之指示的任何其他類型之系統中之一或多者。
在任何情況下,音訊播放系統16可獲得指示17且基於呈現元資料305及指示17獲得藉以將音訊資料15呈現為揚聲器饋送25的呈現器22中之一者。如上文所提及,呈現元資料305可包括對控制的一或多個指示,該等控制用於啟用或停用基於對VR頭戴式套組402之使用者402之運動的指示17對呈現器22中之一者之調適。
舉例而言,呈現元資料305可包括平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於使用者402之平移運動(其可指代使用者402穿過空間之運動,例如向前或向後行走,從一側到另一側橫向移動等)的平移調適的控制。作為另一實例,呈現元資料305可包括旋轉呈現元資料,旋轉呈現元資料指示用於啟用或停用基於使用者402之旋轉運動(例如頭部或身體的轉動、原地自旋等)的旋轉調適的控制。
以下語法表提供可在位元串流21內定義平移及旋轉呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               allowTranslation [k]; 1 bslbf
               allowRotation [k]; 1 bslbf
        }      
}      
前述語法元素allowTranslation及allowRotation在語義上定義如下: AllowTranslation:此旗標可定義是否將在處理平移運動之追蹤資料(場景移位資料)之情形下更新相關聯音訊元素k。在旗標等於一之情況下,對應音訊元素之位置歸因於平移使用者運動而未經更新。在旗標等於一之情況下,對應音訊元素之位置在此類感測器輸入資料存在之情況下基於平移使用者運動而經更新。 AllowRotation:此旗標可定義是否將在處理頭部旋轉運動之追蹤資料(場景移位資料)之情形下更新相關聯音訊元素k。在旗標等於一之情況下,對應音訊元素之位置歸因於頭部旋轉使用者運動而未經更新。在旗標等於一之情況下,對應音訊元素之位置在此類感測器輸入資料存在之情況下基於頭部旋轉使用者運動而經更新。
音訊播放系統16可處理前述語法元素且根據圖3A之實例中所闡述之流程圖使用該等語法元素調適呈現器22中之一者。圖3A為說明圖1A之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3A之實例中,音訊播放系統16可首先判定allowTranslation語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(502)。當allowTranslation語法元素為真(「是」502)時,音訊播放系統16可根據使用者位置之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示之使用者位置變化呈現第k音訊元素(504)。當allowTranslation語法元素為假(「否」502)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者位置變化,從而在不考慮如由指示17所指示之使用者位置變化的情況下呈現第k音訊元素(506)。
同樣,音訊播放系統16可判定allowRotation語法元素係為真實(「是」)抑或假(「否」)(508)。當allowRotation語法元素為真(「是」508)時,音訊播放系統16可根據使用者定向變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示之使用者定向變化呈現第k音訊元素(510)。當allowRotation語法元素為假(「否」508)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者定向變化,從而在不考慮如由指示17所指示之使用者定向變化的情況下呈現第k音訊元素(512)。
為說明另一實例,呈現元資料305可包括以下類型之呈現元資料中之一或多者: ●  六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制; ●  三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;及 ●  三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
以下語法表提供可在位元串流21內定義6DOF、3DOF+及3DOF呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               allow6DOF [k]; 1 bslbf
                if allow6DOF[k]==0 {      
                       allow3DOFplus [k]; 1 bslbf
                        if allow3DOFplus[k]==0 {      
                               allow3DOF [k]; } 1 bslbf
                }      
        }      
}      
前述語法元素allow6DOF、allow3DOFplus及allow3DOF在語義上定義如下: Allow6DOF:此旗標可定義是否將在處理關於六自由度運動(x、y、z、偏航、俯仰、滾轉)之追蹤資料之情形下更新相關聯音訊元素k。 Allow3DOFplus:此旗標可定義是否將在處理關於3自由度運動加輕微平移(偏航、俯仰、滾轉,加x、y、z中之輕微平移)的追蹤資料之情形下更新相關聯音訊元素k。 Allow3DOF:此旗標可定義是否將在處理關於3自由度運動(偏航、俯仰、滾轉,無平移)之追蹤資料之情形下更新相關聯音訊元素k。
為說明又一實例,呈現元資料305可包括以下類型之呈現元資料中之一或多者: x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制; y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及 z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制; 偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制; 俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及 滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
以下語法表提供可在位元串流21內定義前述呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               allowX [k]; 1 bslbf
               allowY [k]; 1 bslbf
               allowZ [k]; 1 bslbf
               allowYaw [k]; 1 bslbf
               allowPitch [k]; 1 bslbf
                       allowRoll [k]; 1 bslbf
        }      
}      
前述語法元素allowX、allowY、allowZ、allowYaw、allowPitch及allowRoll在語義上定義如下: allowX:此旗標可定義是否將在處理沿座標系統之x軸的平移運動之追蹤資料之情形下更新相關聯音訊元素k。 allowY:此旗標可定義是否將在處理沿座標系統之y軸的平移運動之追蹤資料之情形下更新相關聯音訊元素k。 allowZ:此旗標可定義是否將在處理沿座標系統之z軸的平移運動之追蹤資料之情形下更新相關聯音訊元素k。 AllowYaw:此旗標可定義是否將在處理頭部的旋轉偏航運動之追蹤資料之情形下更新相關聯音訊元素k。 AllowPitch:此旗標可定義是否將在處理頭部的旋轉俯仰運動之追蹤資料之情形下更新相關聯音訊元素k。 AllowRoll:此旗標可定義是否將在處理頭部的旋轉滾轉運動之追蹤資料之情形下更新相關聯音訊元素k。
音訊播放系統16可處理前述語法元素且根據圖3B之實例中所闡述之流程圖使用該等語法元素調適呈現器22中之一者。圖3B為說明圖1A之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3B之實例中,音訊播放系統16可首先判定allowX語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真實(「是」)抑或假(「否」)(520)。當allowX語法元素為真(「是」520)時,音訊播放系統16可根據沿座標系統之x軸的平移使用者運動之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的沿座標系統之x軸的平移使用者運動之變化呈現第k音訊元素(522)。當allowX語法元素為假(「否」520)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略沿座標系統之x軸的平移使用者運動之變化,從而在不考慮如由指示17所指示的沿座標系統之x軸的平移使用者運動之變化的情況下呈現第k音訊元素(524)。
音訊播放系統16可接著判定allowY語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(526)。當allowY語法元素為真(「是」526)時,音訊播放系統16可根據沿座標系統之y軸的平移使用者運動之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的沿座標系統之y軸的平移使用者運動之變化呈現第k音訊元素(528)。當allowY語法元素為假(「否」526)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略沿座標系統之y軸的平移使用者運動之變化,從而在不考慮如由指示17所指示的沿座標系統之y軸的平移使用者運動之變化的情況下呈現第k音訊元素(530)。
音訊播放系統16可接著判定allowZ語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(532)。當allowZ語法元素為真(「是」532)時,音訊播放系統16可根據沿座標系統之z軸的平移使用者運動之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的沿座標系統之z軸的平移使用者運動之變化呈現第k音訊元素(534)。當allowZ語法元素為假(「否」532)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略沿座標系統之z軸的平移使用者運動之變化,從而在不考慮如由指示17所指示的沿座標系統之z軸的平移使用者運動之變化的情況下呈現第k音訊元素(536)。
音訊播放系統16可接著判定allowYaw語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(538)。當allowYaw語法元素為真(「是」538)時,音訊播放系統16可根據使用者402之頭部偏航度之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者之頭部偏航角之變化呈現第k音訊元素(540)。當allowYaw語法元素為假(「否」538)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者402之頭部偏航角之變化,從而在不考慮如由指示17所指示的使用者之頭部偏航角之變化的情況下呈現第k音訊元素(542)。
音訊播放系統16可接著判定allowPitch語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(544)。當allowPitch語法元素為真(「是」544)時,音訊播放系統16可根據使用者402之頭部俯仰角之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者之頭部俯仰角之變化呈現第k音訊元素(546)。當allowPitch語法元素為假(「否」544)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者402之頭部俯仰角之變化,從而在不考慮如由指示17所指示的使用者之頭部俯仰角之變化的情況下呈現第k音訊元素(548)。
音訊播放系統16可接著判定allowRoll語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(550)。當allowRoll語法元素為真(「是」550)時,音訊播放系統16可根據使用者402之頭部滾轉角之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者滾轉偏航角之變化呈現第k音訊元素(552)。當allowRoll語法元素為假(「否」550)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者402之頭部滾轉角之變化,從而在不考慮如由指示17所指示的使用者頭部滾轉角之變化的情況下呈現第k音訊元素(554)。
為說明又一實例,音訊播放系統16可獲得六自由度呈現元資料,該六自由度呈現元資料指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制。當六自由度呈現元資料指示停用呈現器之六自由度調適時,音訊播放系統16可獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。當該旋轉呈現元資料指示停用呈現器之旋轉調適時,音訊播放系統16可獲得以下中之一或多者: 偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制; 俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及 滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
以下語法表提供可在位元串流21內定義前述呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               allow6DOF ; 1 bslbf
                 if (allow6DOF) {      
                        allowYaw[k] = true;      
                        allowPitch[k] = true;      
                        allowRoll[k] = true;      
                        allowX[k] = true;      
                        allowY[k] = true;      
                        allowZ[k]= true;      
                } else { /*if(allow6DOF==0)*/      
                        allowX[k] = false;      
                        allowY[k] = false;      
                        allowZ[k]= false;      
                       allowRotation ; 1 bslbf
                        if(allowRotation) {      
                                allowYaw[k] = true;      
                                allowPitch[k] = true;      
                                allowRoll[k] = true;      
                        }else { /*if(allowRotation==0)*/      
                               allowYaw [k]; 1 bslbf
                               allowPitch [k]; 1 bslbf
                               allowRoll [k]; 1 bslbf
                        }      
                }      
        }      
}      
音訊播放系統16可處理前述語法元素且根據圖3C之實例中所闡述之流程圖使用該等語法元素調適呈現器22中之一者。圖3C為說明圖1A之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3C之實例中,音訊播放系統16可首先判定allow6DOF語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(560)。當allow6DOF語法元素為真(「是」560)時,音訊播放系統16可根據使用者位置(平移運動)及頭部定向(旋轉運動)之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者位置及頭部定向之變化呈現第k音訊元素(562)。
當allow6DOF語法元素為假(「否」560)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略平移使用者運動之變化,從而在不考慮如由指示17所指示的沿座標系統之x軸的平移使用者運動之變化的情況下呈現第k音訊元素。此外,音訊播放系統16可判定allowRotation語法元素為真實(「是」)抑或假(「否」)(564)。
當allowRotation語法元素為真(「是」564)時,音訊播放系統16可根據使用者頭部定向之變化調適用於第k音訊元素之呈現器22,從而根據使用者頭部定向之變化呈現第k音訊元素,但忽略使用者位置之變化(566),該等變化皆可由指示17指示。當allowRotation語法元素為假(「否」564)時,音訊播放系統16可判定allowYaw、allowPitch及allowRoll語法元素中之一或多者係為真(「是」)抑或假(「否」)(分別為568、574及580)。
音訊播放系統16可判定allowYaw語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(568)。當allowYaw語法元素為真(「是」568)時,音訊播放系統16可根據使用者402之頭部的偏航角之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者頭部偏航角之變化呈現第k音訊元素(570)。當allowYaw語法元素為假(「否」568)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者402之頭部偏航角之變化,從而在不考慮如由指示17所指示的使用者之頭部偏航角之變化的情況下呈現第k音訊元素(572)。
音訊播放系統16可接著判定allowPitch語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(574)。當allowPitch語法元素為真(「是」574)時,音訊播放系統16可根據使用者402之頭部俯仰角之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者之頭部俯仰角之變化呈現第k音訊元素(576)。當allowPitch語法元素為假(「否」574)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者402之頭部俯仰角之變化,從而在不考慮如由指示17所指示的使用者之頭部俯仰角之變化的情況下呈現第k音訊元素(578)。
音訊播放系統16可接著判定allowRoll語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(580)。當allowRoll語法元素為真(「是」580)時,音訊播放系統16可根據使用者402之頭部滾轉角之變化調適用於第k音訊元素之呈現器22,從而根據如由指示17所指示的使用者頭部滾轉角之變化呈現第k音訊元素(582)。當allowRoll語法元素為假(「否」580)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以忽略使用者402之頭部滾轉角之變化,從而在不考慮如由指示17所指示的使用者頭部滾轉角之變化的情況下呈現第k音訊元素(584)。
為說明又一實例,音訊播放系統16可獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於聲源與裝置之使用者在聲場中之位置之間的距離對呈現器22中之一者之距離調適的控制,該位置如藉由對裝置之使用者之運動的指示所修改。以下語法表提供可在位元串流21內定義前述呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               allowDistanceRendering [k]; 1 bslbf
        }      
}      
前述語法元素allowDistanceRendering在語義上定義如下: AllowDistanceRendering:此旗標可指示音訊元素k之呈現是否將考慮歸因於音訊場景內之使用者運動的距離相依變化。若旗標設定為零,則將不應用距離相依處理。
音訊播放系統16可處理前述語法元素且根據圖3D之實例中所闡述之流程圖使用該語法元素調適呈現器22中之一者。圖3D為說明圖1A之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3D之實例中,音訊播放系統16可首先判定allowDistanceRendering語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(590)。當allowDistanceRendering語法元素為真(「是」590)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以應用依據音訊元素-使用者距離之呈現效應(592)。當allowDistanceRendering語法元素為假(「否」590)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以停用依據音訊元素-使用者距離之呈現效應(594)。
作為另一實例,音訊播放系統16可獲得都卜勒效應(doppler effect)元資料,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器22中之一者之都卜勒調適的控制。以下語法表提供可在位元串流21內定義前述呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               allowDopplerFxRendering [k]; 1 bslbf
        }      
}      
前述語法元素allowDopplerFxRendering在語義上定義如下: allowDopplerFxRendering:此旗標可指示是否將利用歸因於音訊場景內之快速使用者運動的都卜勒效應處理音訊元素k之呈現。若旗標設定為零,則將不應用都卜勒效應處理。
音訊播放系統16可處理前述語法元素且根據圖3E之實例中所闡述之流程圖使用該語法元素調適呈現器22中之一者。圖3E為說明圖1A之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3E之實例中,音訊播放系統16可首先判定allowDopplerFxRendering語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)係為真(「是」)抑或假(「否」)(600)。當allowDopplerFxRendering語法元素為真(「是」600)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以應用依據使用者運動之都卜勒效應(602)。當allowDopplerFxRendering語法元素為假(「否」600)時,音訊播放系統16可調適用於第k音訊元素之呈現器22以停用依據使用者運動的都卜勒效應(604),亦即作為一個實例,在無依據使用者運動之都卜勒效應的情況下呈現。
作為又一實例,音訊播放系統16可獲得延遲元資料,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器22中之一者的調適的速度。延遲元資料可表示位元串流21中傳信應儘快抑或以特定延遲及/或以最大速度處理(其可為預設的)運動追蹤器感測器資料(例如指示17)的參數。此延遲及速度降低可由內容創建者用以達成某些藝術效應,例如產生其中使用者之感覺改變/減弱(諸如浸沒於水中等)的6DOF體驗。
音訊播放系統16可處理前述語法元素且根據圖3F之實例中所闡述之流程圖使用該語法元素調適呈現器22中之一者。圖3F為說明圖1A之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3F之實例中,音訊播放系統16可首先判定allowRenderingDelay語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)為真(「是」)抑或假(「否」)(610)。當allowRenderingDelay語法元素為真(「是」610)時,音訊播放系統16可剖析來自位元串流21之processingDelay語法元素(其可指示呈現延遲)(612),且調適呈現器22以呈現第k音訊元素而以由processingDelay語法元素定義之所傳信處理延遲考慮使用者位置及頭部定向(如由指示17所指示)(614)。當allowRenderingDelay語法元素為假(「否」610)時,audio playback system 16可調適呈現器22以呈現第k音訊元素而立即(或換言之,儘快,意謂一旦處理資源可用時)考慮使用者位置及頭部定向(如由指示17所指示)(616)。
作為另一實例,音訊播放系統16可獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於呈現器22中之一者執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。亦即,平移臨限值元資料可表示位元串流21中傳信是否將僅在偵測到某些量之運動時處理運動追蹤器感測器資料(例如指示17)的參數。平移臨限值元資料可呈遞可能不為內容創建者及/或使用者所要的微運動及運動追蹤器抖動之呈現。平移臨限值元資料可藉由減少所消耗以基於使用者運動更新音訊呈現的呈現處理循環而有助於功率之節省。
以下語法表提供可在位元串流21內定義前述呈現元資料之方式的實例。
語法 位元數目 助記符
{      
        for (k=0; k<numAudioElement; k++) {      
               translationRenderingThreshold [k]; 8 uimsbf
        }      
}      
音訊播放系統16可處理前述語法元素且根據圖3G之實例中所闡述之流程圖使用該語法元素調適呈現器22中之一者。圖3G為說明圖1A之音訊播放系統16在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
在圖3G之實例中,音訊播放系統16可首先判定使用者位置(例如如由指示17所指示)變化是否超過由translationRenderingThreshold語法元素(其為可控制使用者相依運動之效應的位元串流元資料之實例)定義的平移臨限值(620)。當使用者位置超過平移臨限值(「是」620)時,音訊播放系統16可更新使用者位置(622)且調適用於第k音訊元素之呈現器22以考慮如由指示17所指示的經更新使用者位置及頭部定向(624)。當使用者位置等於或低於平移臨限值(「否」620)時,音訊播放系統16不更新使用者位置(626)且調適用於第k音訊元素之呈現器22以考慮如由指示17所指示的先前使用者位置及頭部定向(624)。
如上文所提及,貫穿本發明提及之呈現器22可指代呈現數位信號處理器(DSP)程序(或換言之,經組態以執行呈現程序之DSP)、執行可調適呈現程序之專用特殊應用積體電路(ASIC)、經組態以執行呈現程序之圖形處理單元(GPU)、經組態以執行呈現程序之中央處理單元(CPU)及/或能夠經組態以執行本發明中描述之技術之各種態樣的任何處理器、硬體、固定邏輯電路等。
就此而言,如圖3G中所示,音訊播放系統16經由呈現DSP程序可將呈現器22中之所獲得者應用於音訊資料15以潛在地基於位置17之各種態樣產生揚聲器饋送25。音訊播放系統16可將揚聲器饋送25輸出至揚聲器3,該揚聲器3可基於揚聲器饋送25再現聲場。
圖1B為說明經組態以執行本發明中所描述之技術的各個態樣之另一實例系統100的方塊圖。除圖1A中所示之音訊呈現器22用能夠使用一或多個頭部相關轉移函數HRTF或能夠呈現左側及右側揚聲器饋送103之其他函數來執行雙耳呈現的雙耳呈現器102替換以外,系統100類似於圖1A中所示之系統10。
音訊播放系統16可將左側及右側揚聲器饋送103輸出至頭戴式耳機104,該頭戴式耳機104可表示可穿戴式裝置之另一實例且其可經耦接至額外可穿戴式裝置以有助於聲場之重現,該等額外可穿戴式裝置諸如手錶、上文所提及之VR頭戴式套組、智慧型眼鏡、智慧型服飾、智慧型戒指、智慧型手鐲或任何其他類型之智慧型珠寶(包括智慧型項鏈)及其類似者。頭戴式耳機104可無線地或經由有線連接耦接至額外可穿戴式裝置。
另外,頭戴式耳機104可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋送103來重建由音訊資料11表示之聲場。頭戴式耳機104可包括由對應左側及右側揚聲器饋送103供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。
圖4為說明可根據本發明中所描述之技術的各種態樣來操作之可穿戴式裝置800的一實例的圖式。在各種實例中,可穿戴式裝置800可表示VR頭戴式套組(諸如上文所描述之VR頭戴式套組400)、AR頭戴式套組、MR頭戴式套組或擴展實境(XR)頭戴式套組。擴增實境「AR」可指重疊於使用者實際上位於之真實世界上的電腦所呈現影像或資料。混合實境「MR」可指代鎖定於真實世界中之特定位置之世界的電腦所呈現影像或資料,或可指代其中部分電腦所呈現3D元素及部分攝影真實元素經組合為模擬使用者於環境中之實體存在的沉浸式體驗之VR的變型。擴展實境「XR」可指代VR、AR及MR之統稱術語。關於XR之術語的更多資訊可見於由Jason Peterson之標題為「Virtual Reality,Augmented Reality,and Mixed Reality Definitions」且日期為2017年7月7日的文件中。
可穿戴式裝置800可表示其他類型之裝置,諸如手錶(包括所謂的「智慧型手錶」)、眼鏡(包括所謂的「智慧型眼鏡」)、頭戴式耳機(包括所謂的「無線頭戴式耳機」及「智慧型頭戴式耳機」)、智慧型服飾、智慧型珠寶及其類似者。無論係表示VR裝置、手錶、眼鏡及/或頭戴式耳機,可穿戴式裝置800可與經由有線連接或無線連接來支援可穿戴式裝置800之計算裝置通信。
在一些情況下,支援可穿戴式裝置800之計算裝置可整合於可穿戴式裝置800內,且如此,可穿戴式裝置800可視為與支援可穿戴式裝置800之計算裝置相同的裝置。在其他情況下,可穿戴式裝置800可與可支援可穿戴式裝置800之分開的計算裝置通信。就此而言,術語「支援」不應理解為需要分開的專用裝置,而是經組態以執行本發明中所描述之技術之各個態樣的一或多個處理器可整合於可穿戴式裝置800內或整合於與可穿戴式裝置800分開之計算裝置內。
舉例而言,當可穿戴式裝置800表示VR裝置400時,分開的專用計算裝置(諸如包括一或多個處理器之個人電腦)可呈現音訊及視覺內容,而可穿戴式裝置800可判定平移頭部運動,接著專用計算裝置可根據本發明中所描述之技術之各個態樣基於平移頭部運動來呈現音訊內容(作為揚聲器饋送)。作為另一實例,當可穿戴式裝置800表示智慧型眼鏡時,可穿戴式裝置800可包括判定平移頭部運動(藉由介接於可穿戴式裝置800之一或多個感測器內)且基於所判定平移頭部運動來呈現揚聲器饋送之一或多個處理器。
如所示,可穿戴式裝置800包括後部攝影機、一或多個定向揚聲器、一或多個追蹤及/或記錄攝影機及一或多個發光二極體(LED)燈。在一些實例中,LED燈可稱作「超亮」LED燈。另外,可穿戴式裝置800包括一或多個眼部追蹤攝影機、高靈敏度音訊麥克風及光學/投影硬體。可穿戴式裝置800之光學/投影硬體可包括持久半透明顯示技術及硬體。
可穿戴式裝置800亦包括連接性硬體,該連接性硬體可表示支援多模式連接性之一或多個網路介面,諸如4G通信、5G通信等。可穿戴式裝置800亦包括環境光感測器及骨導式轉訊器。在一些情況下,可穿戴式裝置800亦可包括具有魚眼透鏡及/或攝遠透鏡之一或多個被動及/或主動攝影機。本發明之各種裝置(諸如圖1A之內容消費裝置14)可使用可穿戴式裝置800之轉向角來根據本發明之各種技術選擇聲場之音訊表示(例如MOA表示中之一者)以經由可穿戴式裝置800之定向揚聲器(頭戴式耳機404)輸出。將瞭解,可穿戴式裝置800可展現多種不同外觀尺寸。
此外,追蹤及記錄攝影機以及其他感測器可促進對平移距離之判定。儘管圖4之實例中未示,但可穿戴式裝置800可包括用於偵測平移距離的其他類型之感測器。
儘管關於可穿戴式裝置之特定實例(諸如上文關於圖2之實例所論述之VR裝置400,及圖1A及圖1B之實例中所闡述之其他裝置)進行了描述,但一般熟習此項技術者將瞭解,與圖1A、圖1B及圖2相關之描述可應用於可穿戴式裝置之其他實例。舉例而言,諸如智慧型眼鏡之其他可穿戴式裝置可包括藉以獲得平移頭部運動之感測器。作為另一實例,諸如智慧型手錶之其他可穿戴式裝置可包括藉以獲得平移運動之感測器。如此,本發明中所描述之技術不應受限於特定類型之可穿戴式裝置,而是任何可穿戴式裝置可經組態以執行本發明中所描述之技術。
圖5A及圖5B為說明可執行本發明中描述之技術的各種態樣之實例系統的圖式。圖5A說明其中源裝置12進一步包括攝影機200之一實例。攝影機200可經組態以捕捉視訊資料,且將所捕捉原始視訊資料提供至內容捕捉裝置300。內容捕捉裝置300可將視訊資料提供至源裝置12之另一組件,以供進一步處理為經視埠劃分部分。
在圖5A之實例中,內容消費裝置14亦包括可穿戴式裝置800。將理解,在各種實施方案中,可穿戴式裝置800可包括於內容消費裝置14中或經外部耦接至該內容消費裝置14。可穿戴式裝置800包括用於輸出視訊資料(例如與各種視埠相關聯)及用於呈現音訊資料之顯示器硬體及揚聲器硬體。
圖5B說明其中圖5A中所示之音訊呈現器22用能夠使用一或多個HRTF或能夠呈現左側及右側揚聲器饋送103之另一函數執行雙耳呈現的雙耳呈現器102替換的實例。音訊播放系統16可將左側及右側揚聲器饋送103輸出至頭戴式耳機104。
頭戴式耳機104可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋送103來重建由音訊資料11表示之聲場。頭戴式耳機104可包括由對應左側及右側揚聲器饋送103供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。
圖6為說明圖1A之源裝置在執行本發明中所描述之技術之各種態樣時的實例操作的流程圖。源裝置12可獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對用以呈現表示聲場之音訊資料15之呈現器(例如音訊呈現器22中之一或多者)之調適的控制(900)。在一些實例中,聲場表示產生器302可獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對VR頭戴式套組400之使用者402之運動的指示對用以呈現音訊資料15之音訊呈現器22之調適的控制。
在一些情況下,聲場表示產生器302可自內容編輯裝置304接收呈現元資料作為元資料305之部分。如此,呈現元資料可稱作「呈現元資料305」。在此情況下,音訊編輯器或源裝置12之其他操作者可經由內容編輯裝置304指定呈現元資料305。在一些情況下,聲場表示產生器302也許可基於內容303或其他類型之元資料305以程式化方式產生呈現元資料305。在任何情況下,聲場表示產生器302可在表示音訊資料11之位元串流21中指定呈現元資料305,且輸出位元串流21 (902,904)。
圖7為說明圖1A之音訊播放系統在執行本發明中所描述之技術之各種態樣時的實例操作的流程圖。音訊播放系統16之音訊解碼裝置24可自表示音訊資料15之位元串流21獲得呈現元資料305(其指示用於啟用或停用基於對裝置之使用者之運動的指示對呈現器22之調適的控制)(910)。音訊播放系統16可經由追蹤裝置306獲得對使用者402之運動的指示17 (912)。
音訊播放系統16可獲得指示17且基於呈現元資料305及指示17獲得藉以將音訊資料15呈現為揚聲器饋送25的呈現器22中之一者(914)。如上文所提及,呈現元資料305可包括對控制的一或多個指示,該等控制用於啟用或停用基於對VR頭戴式套組402之使用者402之運動的指示17對呈現器22中之一者之調適。音頻播放系統16可將呈現器22中之一者應用於音訊資料15以產生揚聲器饋送25 (916)。
以此方式,本發明中所描述之技術之各種態樣可實現以下實例項中之一或多者。
條項1A、     一種裝置,其包含:記憶體,其經組態以儲存表示聲場之音訊資料;及一或多個處理器,其耦接至記憶體且經組態以:自表示音訊資料之位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對呈現器之調適的控制;獲得對使用者之運動的指示;基於該呈現元資料及該指示獲得藉以將音訊資料呈現為一或多個揚聲器饋送的呈現器;且將該呈現器應用於音訊資料以產生揚聲器饋送。
條項2A、     如條項1A之裝置,其中該一或多個處理器經組態以獲得平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於使用者之平移運動對呈現器之平移調適的控制。
條項3A、     如條項1A及2A之任何組合之裝置,其中該一或多個處理器經組態以獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。
條項4A、     如條項1A至3A之任何組合之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者:六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;或三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
條項5A、     如條項1A至4A之任何組合之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者:x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制;y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制;偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項6A、     如條項1A至5A之任何組合之裝置,其中該一或多個處理器經組態以:獲得六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;當六自由度呈現元資料指示停用呈現器之六自由度調適時,獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制;且當旋轉呈現元資料指示停用呈現器之旋轉調適時,獲得以下中之一或多者:偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項7A、     如條項1A至6A之任何組合之裝置,其中該一或多個處理器經組態以獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於聲源與裝置之使用者在聲場中的位置之間的距離對呈現器之距離調適的控制,該位置如藉由對裝置之使用者之運動的指示所修改。
條項8A、     如條項1A至7A之任何組合之裝置,其中該一或多個處理器經組態以獲得都卜勒效應元資料,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器之都卜勒調適的控制。
條項9A、     如條項1A至8A之任何組合之裝置,其中該一或多個處理器經組態以獲得延遲元資料,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器之調適的速度。
條項10A、   如條項1A至9A之任何組合之裝置,其中該一或多個處理器經組態以獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於呈現器執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。
條項11A、    如條項1A至10A之任何組合之裝置,其中該裝置包括耦接至一或多個揚聲器之虛擬實境頭戴式套組,該一或多個揚聲器經組態以基於揚聲器饋送再現聲場。
條項12A、   如條項1A至10A之任何組合之裝置,其中該裝置包括耦接至一或多個揚聲器之擴增實境頭戴式套組,該一或多個揚聲器經組態以基於揚聲器饋送再現聲場。
條項13A、   如條項1A至10A之任何組合之裝置,其中該裝置進一步包括經組態以基於揚聲器饋送再現聲場的一或多個揚聲器。
條項14A、   一種方法,其包含:自表示定義聲場之音訊資料的位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對呈現器之調適的控制;獲得對使用者之運動之指示;基於該呈現元資料及該指示獲得藉以將音訊資料呈現為一或多個揚聲器饋送的呈現器;及將該呈現器應用於音訊資料以產生揚聲器饋送。
條項15A、   如條項14A之方法,其中獲得呈現元資料包含獲得平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於使用者之平移運動對呈現器之平移調適的控制。
條項16A、   如條項14A及15A之任何組合之方法,其中獲得呈現元資料包含獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。
條項17A、   如條項14A至16A之任何組合之方法,其中獲得呈現元資料包含獲得以下中之一或多者:六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;或三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
條項18A、   如條項14A至17A之任何組合之方法,其中獲得呈現元資料包含獲得以下中之一或多者:x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制;y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制;偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項19A、   如條項14A至18A之任何組合之方法,其中獲得呈現元資料包含:獲得六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;當六自由度呈現元資料指示停用呈現器之六自由度調適時,獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制;且當旋轉呈現元資料指示停用呈現器之旋轉調適時,獲得以下中之一或多者:偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項20A、   如條項14A至19A之任何組合之方法,其中獲得呈現元資料包含獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於聲源與裝置之使用者在聲場中的位置之間的距離對呈現器之距離調適的控制,該位置如藉由對裝置之使用者之運動的指示所修改。
條項21A、   如條項14A至20A之任何組合之方法,其中獲得呈現元資料包含獲得都卜勒效應元資料,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器之都卜勒調適的控制。
條項22A、   如條項14A至21A之任何組合之方法,其中獲得呈現元資料包含獲得延遲元資料,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器之調適的速度。
條項23A、   如條項14A至22A之任何組合之方法,其中獲得呈現元資料包含獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於呈現器執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。
條項24A、   如條項14A至23A之任何組合之方法,其中裝置執行方法,該裝置進一步包括耦接至一或多個揚聲器之虛擬實境頭戴式套組,該一或多個揚聲器經組態以基於揚聲器饋送再現聲場。
條項25A、   如條項14A至23A之任何組合之方法,其中裝置執行方法,該裝置包括耦接至一或多個揚聲器之擴增實境頭戴式套組,該一或多個揚聲器經組態以基於揚聲器饋送再現聲場。
條項26A、   如條項14A至23A之任何組合之方法,其中裝置執行方法,該裝置進一步經組態以基於揚聲器饋送再現聲場的一或多個揚聲器。
條項27A. 一種裝置,其包含:用於自表示定義聲場之音訊資料的位元串流獲得呈現元資料之構件,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對呈現器之調適的控制;用於獲得對使用者之運動的指示之構件;用於基於該呈現元資料及該指示獲得藉以將音訊資料呈現為一或多個揚聲器饋送的呈現器之構件;及用於將呈現器應用於音訊資料以產生揚聲器饋送之構件。
條項28A、   如條項27A之裝置,其中用於獲得呈現元資料之構件包含用於獲得平移呈現元資料之構件,該平移呈現元資料指示用於啟用或停用基於使用者之平移運動對呈現器之平移調適的控制。
條項29A、   如條項27A及28A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得旋轉呈現元資料之構件,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。
條項30A、   如條項27A至29A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得以下中之一或多者之構件:六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;或三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
條項31A、   如條項27A至30A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得以下中之一或多者之構件:x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制;y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制;偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項32A、   如條項27A至31A之任何組合之裝置,其中用於獲得呈現元資料之構件包含:用於獲得六自由度呈現元資料之構件,該六自由度呈現元資料指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;用於在六自由度呈現元資料指示停用呈現器之六自由度調適時獲得旋轉呈現元資料之構件,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制;及用於在旋轉呈現元資料指示停用呈現器之旋轉調適時獲得以下中之一或多者之構件:偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項33A、   如條項27A至32A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得距離呈現元資料之構件,該距離呈現元資料指示用於啟用或停用基於聲源與裝置之使用者在聲場中的位置之間的距離對呈現器之距離調適的控制,該位置如藉由對裝置之使用者之運動的指示所修改。
條項34A、   如條項27A至33A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得都卜勒效應元資料之構件,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器之都卜勒調適的控制。
條項35A、   如條項27A至34A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得延遲元資料之構件,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器之調適的速度。
條項36A、   如條項27A至35A之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得平移臨限值元資料之構件,該平移臨限值元資料指示用於在關於呈現器執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。
條項37A、   如條項27A至36A之任何組合之裝置,其中該裝置包括耦接至一或多個揚聲器之一虛擬實境頭戴式套組,該一或多個揚聲器經組態以基於揚聲器饋送再現聲場。
條項38A、   如條項27A至36A之任何組合之裝置,其中該裝置包括耦接至一或多個揚聲器之擴增實境頭戴式套組,該一或多個揚聲器經組態以基於揚聲器饋送再現聲場。
條項39A、   如條項27A至36A之任何組合之裝置,其中該裝置進一步包括經組態以基於揚聲器饋送再現聲場的一或多個揚聲器。
條項40A、   一種非暫時性電腦可讀儲存媒體,其上儲存有在執行時使得裝置之一或多個處理器進行以下操作的指令:自表示定義聲場之音訊資料的位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對呈現器之調適的控制;獲得對使用者之運動之指示;基於該呈現元資料及該指示獲得藉以將音訊資料呈現為一或多個揚聲器饋送的呈現器;及將呈現器應用於音訊資料以產生揚聲器饋送。
條項1B、 一種裝置,其包含:記憶體,其經組態以儲存表示聲場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對用以呈現表示聲場之音訊資料的呈現器之調適的控制;在表示該音訊資料之位元串流中指定呈現元資料;且輸出位元串流。
條項2B、 如條項1B之裝置,其中該一或多個處理器經組態以獲得平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於使用者之平移運動對呈現器之平移調適的控制。
條項3B、 如條項1B及2B之任何組合之裝置,其中該一或多個處理器經組態以獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。
條項4B、 如條項1B至3B之任何組合之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者:六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;或三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
條項5B、 如條項1B至4B之任何組合之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者:x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制;y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制;偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項6B、 如條項1B至5B之任何組合之裝置,其中該一或多個處理器經組態以:獲得六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;當六自由度呈現元資料指示停用呈現器之六自由度調適時,獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制;且當旋轉呈現元資料指示停用呈現器之旋轉調適時,獲得以下中之一或多者:偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項7B、 如條項1B至6B之任何組合之裝置,其中該一或多個處理器經組態以獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於聲源與裝置在聲場中之位置之間的距離對呈現器之距離調適的控制。
條項8B、 如條項1B至7B之任何組合之裝置,其中該一或多個處理器經組態以獲得都卜勒效應元資料,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器之都卜勒調適的控制。
條項9B、 如條項1B至8B之任何組合之裝置,其中該一或多個處理器經組態以獲得延遲元資料,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器之調適的速度。
條項10B、    如條項1B至9B之任何組合之裝置,其中該一或多個處理器經組態以獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於呈現器執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。
條項11B、    一種方法,其包含:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對用以呈現表示聲場之音訊資料的呈現器之調適的控制;在表示該音訊資料之位元串流中指定呈現元資料;及輸出位元串流。
條項12B、    如條項11B之方法,其中獲得呈現元資料包含獲得平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於使用者之平移運動對呈現器之平移調適的控制。
條項13B、    如條項11B及12B之任何組合之方法,其中獲得呈現元資料包含獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。
條項14B、    如條項11B至13B之任何組合之方法,其中獲得呈現元資料包含獲得以下中之一或多者:六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;或三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
條項15B、    如條項11B至14B之任何組合之方法,其中獲得呈現元資料包含獲得以下中之一或多者:x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制;y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制;偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項16B、    如條項11B至15B之任何組合之方法,其中獲得呈現元資料包含:獲得六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;當六自由度呈現元資料指示停用呈現器之六自由度調適時,獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制;且當旋轉呈現元資料指示停用呈現器之旋轉調適時,獲得以下中之一或多者:偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項17B、    如條項11B至16B之任何組合之方法,其中獲得呈現元資料包含獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於聲源與裝置在聲場中之位置之間的距離對呈現器之距離調適的控制。
條項18B、    如條項11B至17B之任何組合之方法,其中獲得呈現元資料包含獲得都卜勒效應元資料,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器之都卜勒調適的控制。
條項19B、    如條項11B至18B之任何組合之方法,其中獲得呈現元資料包含獲得延遲元資料,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器之調適的速度。
條項20B、    如條項11B至19B之任何組合之方法,其中獲得呈現元資料包含獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於呈現器執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。
條項21B、    一種裝置,其包含:用於獲得呈現元資料之構件,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對用以呈現表示聲場之音訊資料的呈現器之調適的控制;用於在表示音訊資料之位元串流中指定呈現元資料之構件;及用於輸出位元串流之構件。
條項22B、    如條項21B之裝置,其中用於獲得呈現元資料之構件包含用於獲得平移呈現元資料之構件,該平移呈現元資料指示用於啟用或停用基於使用者之平移運動對呈現器之平移調適的控制。
條項23B、    如條項21B及22B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得旋轉呈現元資料之構件,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制。
條項24B、    如條項21B至23B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得以下中之一或多者之構件:六自由度呈現元資料,其指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;三自由度加呈現元資料,其指示用於啟用或停用基於使用者之頭部之平移運動及使用者之旋轉運動對呈現器之三自由度調適的控制;或三自由度呈現元資料,其指示用於啟用或停用基於使用者之旋轉運動對呈現器之三自由度調適的控制。
條項25B、    如條項21B至24B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得以下中之一或多者之構件:x軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的x軸運動對呈現器之x軸調適的控制;y軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的y軸運動對呈現器之y軸調適的控制;及z軸呈現元資料,其指示用於啟用或停用基於裝置之使用者的z軸運動對呈現器之z軸調適的控制;偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項26B、    如條項21B至25B之任何組合之裝置,其中用於獲得呈現元資料之構件包含:用於獲得六自由度呈現元資料之構件,該六自由度呈現元資料指示用於啟用或停用基於使用者之平移運動及旋轉運動對呈現器之六自由度調適的控制;用於在六自由度呈現元資料指示停用呈現器之六自由度調適時獲得旋轉呈現元資料之構件,該旋轉呈現元資料指示用於啟用或停用基於使用者之旋轉運動對呈現器之旋轉調適的控制;及用於在旋轉呈現元資料指示停用呈現器之旋轉調適時獲得以下中之一或多者之構件:偏航呈現元資料,其指示用於啟用或停用基於裝置之使用者的偏航運動對呈現器之偏航調適的控制;俯仰呈現元資料,其指示用於啟用或停用基於裝置之使用者的俯仰運動對呈現器之俯仰調適的控制;及滾轉呈現元資料,其指示用於啟用或停用基於裝置之使用者的滾轉運動對呈現器之滾轉調適的控制。
條項27B、    如條項21B至26B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得距離呈現元資料之構件,該距離呈現元資料指示用於啟用或停用基於聲源與裝置在聲場中之位置之間的距離對呈現器之距離調適的控制。
條項28B、    如條項21B至27B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得都卜勒效應元資料之構件,該都卜勒效應元資料指示用於啟用或停用基於使用者在呈現給使用者之虛擬環境中的速度對呈現器之都卜勒調適的控制。
條項29B、    如條項21B至28B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得延遲元資料之構件,該延遲元資料指示用於啟用或停用呈現器之延遲調適的控制,該等延遲調適調整使用者之運動引起呈現器之調適的速度。
條項30B、    如條項21B至29B之任何組合之裝置,其中用於獲得呈現元資料之構件包含用於獲得平移臨限值元資料之構件,該平移臨限值元資料指示用於在關於呈現器執行基於使用者之平移運動的平移調適時啟用或停用平移臨限值之應用的控制。
條項31B、    一種非暫時性電腦可讀儲存媒體,其上儲存有在執行時使得裝置之一或多個處理器進行以下操作的指令:獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對裝置之使用者之運動的指示對用以呈現表示聲場之音訊資料的呈現器之調適的控制;在表示該音訊資料之位元串流中指定呈現元資料;及輸出位元串流。
應認識到,視實例而定,本文中所描述之技術中之任一者的某些動作或事件可以不同順序執行、可經添加、合併或完全省去(例如,並非所有所描述動作或事件為實踐該等技術所必要)。此外,在某些實例中,可例如經由多執行緒處理、中斷處理或多個處理器同時而非依序執行動作或事件。
在一些實例中,VR裝置(或串流傳輸裝置)可使用耦接至VR/串流傳輸裝置之記憶體的網路介面將交換訊息傳達至外部裝置,其中交換訊息與聲場之多個可用表示相關聯。在一些實例中,VR裝置可使用耦接至網路介面之天線來接收包括資料封包、音訊封包、視訊封包之無線信號,或傳輸與聲場之多個可用表示相關聯的協定資料。在一些實例中,一或多個麥克風陣列可捕捉聲場。
在一些實例中,儲存至記憶體裝置之聲場的多個可用表示可包括聲場之複數個基於對象之表示、聲場之高階立體混響表示、聲場之混合階立體混響表示、聲場之基於對象之表示與聲場之高階立體混響表示之組合、聲場之基於對象的表示與聲場之混合階立體混響表示之組合,或聲場之混合階表示與聲場之高階立體混響表示之組合。
在一些實例中,聲場之多個可用表示的聲場表示中之一或多者可包括至少一個高解析度區域及至少一個較低解析度區域,且其中基於轉向角之所選呈現針對至少一個高解析度區域提供較大空間精確度且針對較低解析度區域提供較小空間精確度。
在一或多個實例中,所描述功能可實施於硬體、軟體、韌體或其任何組合中。若實施於軟體中,則該等功能可作為一或多個指令或程式碼而儲存在電腦可讀媒體上或經由電腦可讀媒體傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括:電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體;或通信媒體,其包括例如根據通信協定來促進電腦程式自一處傳送至另一處的任何媒體。以此方式,電腦可讀媒體一般可對應於(1)非暫時性的有形電腦可讀儲存媒體,或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
作為實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存裝置、磁碟儲存裝置或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。又,將任何連接適當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術自網站、伺服器或其他遠端源傳輸指令,則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而是實際上有關非暫時性的有形儲存媒體。如本文所用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟用雷射以光學方式再現資料。以上之組合亦應包括於電腦可讀媒體之範疇內。
指令可由諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效積體或離散邏輯電路之一或多個處理器來執行。因此,如本文所用之術語「處理器」可指代前述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編碼解碼器中之專用硬體及/或軟體模組內。又,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可實施於多種裝置或設備中,該等裝置或設備包括無線手持機、積體電路(IC)或IC之集合(例如,晶片集)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣,但未必需要藉由不同硬體單元來實現。確切而言,如上文所描述,各種單元可組合於編解碼器硬體單元中,或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合結合適合之軟體及/或韌體而提供。
已描述各種實例。此等及其他實例在以下申請專利範圍之範疇內。
3:揚聲器 5:麥克風 10:系統 11:音訊資料 12:源裝置 13:揚聲器資訊 14:內容消費裝置 15:音訊資料 16:音訊播放系統 17:指示 21:位元串流 22:呈現器 24:音訊解碼裝置 25:揚聲器饋送 100:系統 102:雙耳呈現器 103:揚聲器饋送 104:頭戴式耳機 200:攝影機 300:內容捕捉裝置 301:內容 302:聲場表示產生器 303:經編輯內容 304:內容編輯裝置 305:相關聯元資料 306:追蹤裝置 400:VR裝置 402:使用者 404:頭戴式耳機 502:操作 504:操作 506:操作 508:操作 510:操作 512:操作 520:操作 522:操作 524:操作 526:操作 528:操作 530:操作 532:操作 534:操作 536:操作 538:操作 540:操作 542:操作 544:操作 546:操作 548:操作 550:操作 552:操作 554:操作 560:操作 562:操作 564:操作 566:操作 568:操作 570:操作 572:操作 574:操作 576:操作 578:操作 580:操作 582:操作 584:操作 590:操作 592:操作 594:操作 600:操作 602:操作 604:操作 610:操作 612:操作 614:操作 616:操作 620:操作 622:操作 624:操作 626:操作 800:可穿戴式裝置 900:操作 902:操作 904:操作 910:操作 912:操作 914:操作 916:操作
圖1A及圖1B為說明可執行本發明中所描述之技術的各種態樣之系統的圖式。
圖2為說明由使用者穿戴之VR裝置之一實例的圖式。
圖3A至圖3G為說明圖1A及圖1B之音訊播放系統在執行本發明所描述之受控的以使用者運動為基礎之音訊呈現技術之各種態樣時的實例操作的流程圖。
圖4為說明可根據本發明中所描述之技術的各種態樣來操作之可穿戴式裝置的一實例的圖式。
圖5A及圖5B為說明可執行本發明中描述之技術的各種態樣之其他實例系統的圖式。
圖6為說明圖1A之源裝置在執行本發明中所描述之技術之各種態樣時的實例操作的流程圖。
圖7為說明圖1A之音訊播放系統在執行本發明中所描述之技術之各種態樣時的實例操作的流程圖。
910:操作
912:操作
914:操作
916:操作

Claims (25)

  1. 一種裝置,其包含: 一記憶體,其經組態以儲存表示一聲場之音訊資料;及 一或多個處理器,其耦接至該記憶體且經組態以: 自表示該音訊資料之一位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對一呈現器之調適的控制; 獲得對該使用者之該運動之該指示; 基於該呈現元資料及該指示,獲得藉以將該音訊資料呈現為一或多個揚聲器饋送的一呈現器;且 將該呈現器應用於該音訊資料以產生該等揚聲器饋送。
  2. 如請求項1之裝置,其中該一或多個處理器經組態以獲得平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於該使用者之平移運動對該呈現器之平移調適的控制。
  3. 如請求項1之裝置,其中該一或多個處理器經組態以獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於該使用者之旋轉運動對該呈現器之旋轉調適的控制。
  4. 如請求項1之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者: 六自由度呈現元資料,其指示用於啟用或停用基於該使用者之平移運動及旋轉運動對該呈現器之六自由度調適的控制; 三自由度加呈現元資料,其指示用於啟用或停用基於該使用者之一頭部之平移運動及該使用者之旋轉運動對該呈現器之三自由度調適的控制;或 三自由度呈現元資料,其指示用於啟用或停用基於該使用者之旋轉運動對該呈現器之三自由度調適的控制。
  5. 如請求項1之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者: x軸呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的x軸運動對該呈現器之x軸調適的控制; y軸呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的y軸運動對該呈現器之y軸調適的控制;及 z軸呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的z軸運動對該呈現器之z軸調適的控制; 偏航呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的偏航運動對該呈現器之偏航調適的控制; 俯仰呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的俯仰運動對該呈現器之俯仰調適的控制;及 滾轉呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的滾轉運動對該呈現器之滾轉調適的控制。
  6. 如請求項1之裝置,其中該一或多個處理器經組態以: 獲得六自由度呈現元資料,其指示用於啟用或停用基於該使用者之平移運動及旋轉運動對該呈現器之六自由度調適的控制; 當該六自由度呈現元資料指示停用該呈現器之該六自由度調適時,獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於該使用者之旋轉運動對該呈現器之旋轉調適的控制;且 當該旋轉呈現元資料指示停用該呈現器之該等旋轉調適時,獲得以下中之一或多者: 偏航呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的偏航運動對該呈現器之偏航調適的控制; 俯仰呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的俯仰運動對該呈現器之俯仰調適的控制;及 滾轉呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的滾轉運動對該呈現器之滾轉調適的控制。
  7. 如請求項1之裝置,其中該一或多個處理器經組態以獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於一聲源與該裝置之該使用者在該聲場中的一位置之間的一距離對該呈現器之距離調適的控制,該位置如藉由對該裝置之該使用者之該運動的該指示所修改。
  8. 如請求項1之裝置,其中該一或多個處理器經組態以獲得都卜勒效應元資料,該都卜勒效應元資料指示用於啟用或停用基於該使用者在呈現給該使用者之一虛擬環境中的一速度對該呈現器之都卜勒調適的控制。
  9. 如請求項1之裝置,其中該一或多個處理器經組態以獲得延遲元資料,該延遲元資料指示用於啟用或停用該呈現器之延遲調適的控制,該等延遲調適調整該使用者之運動引起該呈現器之調適的一速度。
  10. 如請求項1之裝置,其中該一或多個處理器經組態以獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於該呈現器執行基於該使用者之平移運動的平移調適時啟用或停用一平移臨限值之應用的控制。
  11. 如請求項1之裝置,其中該裝置包括耦接至一或多個揚聲器之一虛擬實境頭戴式套組,該一或多個揚聲器經組態以基於該等揚聲器饋送再現該聲場。
  12. 如請求項1之裝置,其中該裝置包括耦接至一或多個揚聲器之一擴增實境頭戴式套組,該一或多個揚聲器經組態以基於該等揚聲器饋送再現該聲場。
  13. 如請求項1之裝置,其中該裝置進一步包括經組態以基於該等揚聲器饋送再現該聲場的一或多個揚聲器。
  14. 一種方法,其包含: 自表示定義一聲場之音訊資料的一位元串流獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對一裝置之一使用者之一運動的一指示對一呈現器之調適的控制; 獲得對該使用者之該運動之該指示; 基於該呈現元資料及該指示獲得藉以將該音訊資料呈現為一或多個揚聲器饋送的一呈現器;及 將該呈現器應用於該音訊資料以產生該等揚聲器饋送。
  15. 一種裝置,其包含: 一記憶體,其經組態以儲存表示一聲場之音訊資料;及 一或多個處理器,其耦接至該記憶體且經組態以: 獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對該裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制; 在表示該音訊資料之一位元串流中指定該呈現元資料;且 輸出該位元串流。
  16. 如請求項15之裝置,其中該一或多個處理器經組態以獲得平移呈現元資料,該平移呈現元資料指示用於啟用或停用基於該使用者之平移運動對該呈現器之平移調適的控制。
  17. 如請求項15之裝置,其中該一或多個處理器經組態以獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於該使用者之旋轉運動對該呈現器之旋轉調適的控制。
  18. 如請求項15之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者: 六自由度呈現元資料,其指示用於啟用或停用基於該使用者之平移運動及旋轉運動對該呈現器之六自由度調適的控制; 三自由度加呈現元資料,其指示用於啟用或停用基於該使用者之一頭部之平移運動及該使用者之旋轉運動對該呈現器之三自由度調適的控制;或 三自由度呈現元資料,其指示用於啟用或停用基於該使用者之旋轉運動對該呈現器之三自由度調適的控制。
  19. 如請求項15之裝置,其中該一或多個處理器經組態以獲得以下中之一或多者: x軸呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的x軸運動對該呈現器之x軸調適的控制; y軸呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的y軸運動對該呈現器之y軸調適的控制;及 z軸呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的z軸運動對該呈現器之z軸調適的控制; 偏航呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的偏航運動對該呈現器之偏航調適的控制; 俯仰呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的俯仰運動對該呈現器之俯仰調適的控制;及 滾轉呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的滾轉運動對該呈現器之滾轉調適的控制。
  20. 如請求項15之裝置,其中該一或多個處理器經組態以: 獲得六自由度呈現元資料,其指示用於啟用或停用基於該使用者之平移運動及旋轉運動對該呈現器之六自由度調適的控制; 當該六自由度呈現元資料指示停用該呈現器之該六自由度調適時,獲得旋轉呈現元資料,該旋轉呈現元資料指示用於啟用或停用基於該使用者之旋轉運動對該呈現器之旋轉調適的控制;且 當該旋轉呈現元資料指示停用該呈現器之該旋轉調適時,獲得以下中之一或多者: 偏航呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的偏航運動對該呈現器之偏航調適的控制; 俯仰呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的俯仰運動對該呈現器之俯仰調適的控制;及 滾轉呈現元資料,其指示用於啟用或停用基於該裝置之該使用者的滾轉運動對該呈現器之滾轉調適的控制。
  21. 如請求項15之裝置,其中該一或多個處理器經組態以獲得距離呈現元資料,該距離呈現元資料指示用於啟用或停用基於一聲源與該裝置在該聲場內之該位置之間的距離對該呈現器之距離調適的控制。
  22. 如請求項15之裝置,其中該一或多個處理器經組態以獲得都卜勒效應元資料,該都卜勒效應元資料指示用於啟用或停用基於該使用者在呈現給該使用者之一虛擬環境中的一速度對該呈現器之都卜勒調適的控制。
  23. 如請求項15之裝置,其中該一或多個處理器經組態以獲得延遲元資料,該延遲元資料指示用於啟用或停用該呈現器之延遲調適的控制,該等延遲調適調整該使用者之運動引起該呈現器之調適的一速度。
  24. 如請求項15之裝置,其中該一或多個處理器經組態以獲得平移臨限值元資料,該平移臨限值元資料指示用於在關於該呈現器執行基於該使用者之平移運動之平移調適時啟用或停用一平移臨限值之應用的控制。
  25. 一種方法,其包含: 獲得呈現元資料,該呈現元資料指示用於啟用或停用基於對一裝置之一使用者之一運動的一指示對用以呈現表示一聲場之音訊資料的一呈現器之調適的控制; 在表示該音訊資料之一位元串流中指定該呈現元資料;且 輸出該位元串流。
TW109109460A 2019-03-20 2020-03-20 呈現元資料以控制以使用者運動為基礎之音訊呈現 TW202041035A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962821190P 2019-03-20 2019-03-20
US62/821,190 2019-03-20
US16/822,556 US11184731B2 (en) 2019-03-20 2020-03-18 Rendering metadata to control user movement based audio rendering
US16/822,556 2020-03-18

Publications (1)

Publication Number Publication Date
TW202041035A true TW202041035A (zh) 2020-11-01

Family

ID=72514942

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109109460A TW202041035A (zh) 2019-03-20 2020-03-20 呈現元資料以控制以使用者運動為基礎之音訊呈現

Country Status (3)

Country Link
US (1) US11184731B2 (zh)
TW (1) TW202041035A (zh)
WO (1) WO2020191164A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481446B2 (ja) * 2019-12-06 2024-05-10 マジック リープ, インコーポレイテッド 環境音響持続性

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US11375332B2 (en) * 2018-04-09 2022-06-28 Dolby International Ab Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio

Also Published As

Publication number Publication date
WO2020191164A1 (en) 2020-09-24
US20200304935A1 (en) 2020-09-24
US11184731B2 (en) 2021-11-23

Similar Documents

Publication Publication Date Title
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
TWI713017B (zh) 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體
TW202022594A (zh) 當表達電腦調解之實境系統時表示閉塞
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US10728689B2 (en) Soundfield modeling for efficient encoding and/or retrieval
TW202024896A (zh) 六自由度及三自由度向後相容性
CN114072761A (zh) 用于控制针对扩展现实体验的音频渲染的用户接口
TW202110201A (zh) 用於音訊串流及呈現之基於計時器存取
CN114424587A (zh) 控制音频数据的呈现
CN114072792A (zh) 用于音频渲染的基于密码的授权
TW202105164A (zh) 用於低頻率效應之音訊呈現
TW202041035A (zh) 呈現元資料以控制以使用者運動為基礎之音訊呈現
US20220386060A1 (en) Signalling of audio effect metadata in a bitstream
US11967329B2 (en) Signaling for rendering tools
CN114128312B (zh) 用于低频效果的音频渲染
CN116472725A (zh) 用于增强现实/虚拟现实音频的智能混合渲染
CN116195276A (zh) 控制音频数据的渲染