TW202022594A - 當表達電腦調解之實境系統時表示閉塞 - Google Patents
當表達電腦調解之實境系統時表示閉塞 Download PDFInfo
- Publication number
- TW202022594A TW202022594A TW108135608A TW108135608A TW202022594A TW 202022594 A TW202022594 A TW 202022594A TW 108135608 A TW108135608 A TW 108135608A TW 108135608 A TW108135608 A TW 108135608A TW 202022594 A TW202022594 A TW 202022594A
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- occlusion
- sound
- meta
- audio
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
大體而言,本發明描述用於在表達(rendering)音訊資料時將閉塞模型化之技術。一種包含一記憶體及一或多個處理器之裝置可執行該等技術。該記憶體可儲存表示一音場之音訊資料。該一或多個處理器可獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間。該一或多個處理器可獲得該裝置之一位置,且基於該閉塞後設資料及該位置獲得一表達器(renderer),藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播。該一或多個處理器可將該表達器應用於該音訊資料以產生該等揚聲器饋入。
Description
本發明係關於諸如音訊資料之媒體資料之處理。
電腦調解之實境系統正被開發用來允許計算裝置擴增或新增至、移除或減去或通常是修改由使用者體驗之現有實境電腦調解之實境系統可包括虛擬實境(VR)系統、擴增實境(AR)系統及混合實境(MR)系統,作為若干實例。電腦調解之實境系統之感知成就通常係關於此類電腦調解之實境系統在視訊體驗及音訊體驗兩者方面提供真實感沈浸式體驗之能力,其中視訊體驗及音訊體驗以由使用者期望之方式對準。儘管人類視覺系統相比於人類聽覺系統較敏感(例如在場景內之各種物件之感知定位方面),但確保適當的聽覺體驗為確保真實感沈浸式體驗之愈來愈重要的因素,此特別是因為視訊體驗改良以准許較佳地定位使使用者能夠較佳地識別音訊內容之源之視訊物件。
本發明大體上係關於電腦調解之實境系統之使用者體驗的聽覺態樣,包括虛擬實境(VR)、混合實境(MR)、擴增實境(AR)及/或任何其他類型的延伸實境(XR),以及外加電腦視覺及圖形系統。該等技術可實現在針對該等電腦調解之實境系統表達音訊資料時對閉塞進行模型化。而非僅僅考慮一給定虛擬環境中之反應,該等技術可使得該等電腦調解之實境系統能夠解決可能阻止表示為該音訊資料之音訊波(其亦可稱作「聲音」)在該虛擬空間內以各種角度傳播的閉塞問題。此外,該等技術可實現基於不同虛擬環境的不同模型,其中,例如,可在虛擬室內環境中使用一雙耳室脈衝回應(BRIR)模型,同時可在虛擬戶外環境中使用一頭部相關轉移函數(HRTF)。
在一個實例中,該等技術係關於一種裝置,其包含:一記憶體,其經組態以儲存表示一音場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;獲得該裝置在該音場內相對於該閉塞之一位置;基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及將該表達器應用於該音訊資料以產生該等揚聲器饋入。
在另一實例中,該等技術係關於一種方法,其包含:藉由一裝置獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;藉由該裝置獲得該裝置在該音場內相對於該閉塞之一位置;藉由該裝置基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及藉由該裝置將該表達器應用於該音訊資料以產生該等揚聲器饋入。
在另一實例中,該等技術係關於一種裝置,其包含:用於獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料的構件,該閉塞將該音場分隔為兩個或多於兩個聲音空間;用於獲得該裝置在該音場內相對於該閉塞之一位置的構件;用於基於該閉塞後設資料及該位置獲得一表達器的構件,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及用於將該表達器應用於該音訊資料以產生該等揚聲器饋入的構件。
在另一實例中,該等技術係關於一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在經執行時使得一裝置之一或多個處理器進行以下操作:獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;獲得該裝置在該音場內相對於該閉塞之一位置;基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及將該表達器應用於該音訊資料以產生該等揚聲器饋入。
在另一實例中,該等技術係關於一種裝置,其包含:一記憶體,其經組態以儲存表示一音場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;在表示該音訊資料之一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
在另一實例中,該等技術係關於一種方法,其包含:藉由一裝置獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;藉由該裝置在表示描述該音場之音訊資料的一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
在另一實例中,該等技術係關於一種裝置,其包含:用於獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料的構件,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及用於在表示描述該音場之音訊資料的一位元串流中指定該閉塞後設資料以使得能夠獲得一表達器的構件,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
在另一實例中,該等技術係關於一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在經執行時使得一裝置之一或多個處理器進行以下操作:獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及在表示描述該音場之音訊資料之一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
在隨附圖式及以下描述中闡述本發明之一或多個實例之細節。技術之各個態樣之其他特徵、目標及優點將自描述及圖式以及自申請專利範圍顯而易見。
本申請案主張2018年10月2日申請之名為「REPRESENTING OCCULSION WHEN RENDERING FO COMPUTER-MEDIATED REALITY SYSTEMS」之美國臨時案第62/740,085號之權益,該案之全部內容特此以引用之方式併入,如同在其全部內容中所闡述。
存在數種表示音場之不同方法。實例格式包括基於聲道之音訊格式、基於物件之音訊格式及基於場景之音訊格式。基於聲道之音訊格式指5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或將音訊聲道定位至接聽者周圍之特定位置以便重新建立音場的任何其他基於聲道之格式。
基於物件之音訊格式可指常常使用脈碼調變(PCM)而編碼並被稱作PCM音訊物件之音訊物件經指定以便表示音場的格式。此類音訊物件可包括識別音訊物件相對於音場中之接聽者或其他參考點之位置的後設資料,使得可將音訊物件表達至一或多個揚聲器聲道以供播放,以致力於重新建立音場。本發明中所描述之技術可應用於前述格式中之任一者,包括基於場景之音訊格式、基於聲道之音訊格式、基於物件之音訊格式或其任何組合。
該表達式展示出,在時間t
,音場之任何點處之壓力pi
可由SHC唯一地表示。此處,,c
為音速(約343 m/s),{rr
, θr
, φr
}為參考點(或觀測點),為階n
之球面貝塞爾函數,且為階n
及子階m
之球諧基底函數(其亦可被稱作球面基底函數)。可認識到,方括號中之項為信號之頻域表示(亦即,),其可藉由各種時間-頻率變換來近似,該等時間-頻率變換係諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層式集合之其他實例包括小波變換係數之集合,及多解析度基底函數之係數之其他集合。
SHC可由各種麥克風陣列組態實體上獲取(例如記錄),或替代地,其可自音場之基於聲道或基於物件之描述導出。SHC (其亦可被稱作立體混響係數)表示基於場景之音訊,其中可將SHC輸入至音訊編碼器以獲得可促進較高效傳輸或儲存之經編碼SHC。舉例而言,可使用涉及(1+4)2
(25,且因此為四階)個係數之四階表示。
如上文所提到,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列實體上獲取SHC之各種實例描述於Poletti, M.之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」中,J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁。
以下方程式可說明可如何自基於物件之描述導出SHC。可將對應於個別音訊物件之音場之係數表達為:,
其中i為,為階n之(第二種類之)球面漢克爾(Hankel)函數,且{rs
,θs
,φs
}為物件之位置。知道隨頻率而變之物件源能量g
(ω
) (例如使用時間-頻率分析技術,諸如對脈碼調變- PCM -串流執行快速傅立葉變換)可使能夠將每一PCM物件及對應位置轉換成SHC。此外,可展示出(由於以上情形為線性及正交分解),每一物件之係數為相加的。以此方式,數個PCM物件可由係數(例如作為個別物件之係數向量之總和)表示。該等係數可含有關於音場之資訊(作為3D座標之函數的壓力),且以上情形表示在觀測點{rr
, θr
, φr
}附近自個別物件至總音場之表示的變換。
電腦調解之實境系統(其亦可被稱作「延伸實境系統」或「XR系統」)正被開發用來利用由立體混響係數提供之許多潛在益處。舉例而言,立體混響係數可以潛在地使能夠在音場內對聲源進行準確三維(3D)定位之方式以三個維度表示音場。因而,XR裝置可將立體混響係數表達至揚聲器饋入,該等揚聲器饋入在經由一或多個揚聲器播放時準確地重現音場。
將立體混響係數用於XR可使能夠開發依賴於由立體混響係數提供之更沈浸式音場的數種使用狀況,特別是對於電腦遊戲應用及實況視訊串流處理應用。在依賴於音場之低潛時重現的此等高度動態使用狀況下,XR裝置可能偏好立體混響係數,勝過偏好較難以操縱或涉及複雜表達之其他表示。下文關於圖1A及圖1B提供關於此等使用狀況之更多資訊。
雖然在本發明中關於VR裝置進行描述,但技術之各種態樣可在諸如行動裝置之其他裝置的內容背景下執行。在此情況下,行動裝置(諸如所謂的智慧型電話)可經由螢幕呈現所顯示世界,該螢幕可安裝至使用者102之頭部,或如在通常使用行動裝置時之情況下那樣被檢視。因而,螢幕上之任何資訊可為行動裝置之部分。行動裝置可能夠提供追蹤資訊41,並藉此允許VR體驗(當為頭戴式時)及正常體驗兩者,以檢視所顯示世界,其中正常體驗仍可允許使用者檢視所顯示世界,從而證明VR精簡版型(VR-lite-type)體驗(例如舉起裝置並將裝置旋轉或平移以檢視所顯示世界之不同部分)。
圖1A及圖1B為說明可執行本發明中所描述之技術之各種態樣的系統的圖解。如圖1A之實例中所展示,系統10包括源裝置12及內容消費者裝置14。雖然在源裝置12及內容消費者裝置14之內容背景下進行描述,但該等技術可在音場之任何階層式表示經編碼以形成表示音訊資料之位元串流的任何內容背景下實施。此外,源裝置12可表示能夠產生音場之階層式表示的任何形式之計算裝置,且在本文中大體上在為VR內容建立者裝置之內容背景下進行描述。同樣地,內容消費者裝置14可表示能夠實施本發明中所描述之音訊串流內插技術以及音訊播放的任何形式之計算裝置,且在本文中大體上在為VR用戶端裝置之內容背景下進行描述。
源裝置12可由可產生多聲道音訊內容以供內容消費者裝置(諸如,內容消費者裝置14)之操作者消耗的娛樂公司或其他實體操作。在許多VR情境中,源裝置12結合視訊內容產生音訊內容。源裝置12包括內容俘獲裝置300及內容音場表示產生器302。
內容俘獲裝置300可經組態以與一或多個麥克風5A至5N (「麥克風5」)介接或以其他方式通信。麥克風5可表示能夠俘獲音場並將音場表示為對應的基於場景之音訊資料11A至11N (其亦可被稱作立體混響係數11A至11N或「立體混響係數11」)的Eigenmike®或其他類型之3D音訊麥克風。在基於場景之音訊資料11 (其為用以參考立體混響係數11之另一方式)的內容背景下,麥克風5中之每一者可表示根據促進立體混響係數11之產生的設定幾何結構配置於單一外殼內的麥克風叢集。因而,術語麥克風可指麥克風叢集(其為實際上按幾何結構配置之傳感器)或單一麥克風(其可被稱作點麥克風)。
立體混響係數11可表示音訊串流之一個實例。因而,立體混響係數11亦可被稱作音訊串流11。儘管主要關於立體混響係數11進行描述,但技術可關於其他類型之音訊串流而執行,該等其他類型之音訊串流包括脈碼調變(PCM)音訊串流、基於聲道之音訊串流、基於物件音訊串流等等。
因而,內容俘獲裝置300及麥克風5之各種組合係可能的。在一些實例中,內容俘獲裝置300可包括整合至內容俘獲裝置300之外殼中的整合式麥克風。內容俘獲裝置300可以無線方式或經由有線連接與麥克風5介接。內容俘獲裝置300可在立體混響係數11經由某一類型之可卸除式儲存體、以無線方式及/或經由有線輸入程序而輸入之後處理立體混響係數11,而非經由麥克風5俘獲音訊資料或與經由麥克風5俘獲音訊資料相結合,或替代性地或結合前述內容,產生或以其他方式形成(自所儲存之聲音樣本,諸如遊戲應用程式中所常見的等等)。因而,內容俘獲裝置300及麥克風5之各種組合係可能的。
內容俘獲裝置300亦可經組態以與音場表示產生器302介接或以其他方式通信。音場表示產生器302可包括能夠與內容俘獲裝置300介接的任何類型之硬體裝置。音場表示產生器302可使用由內容俘獲裝置300提供之立體混響係數11以產生由立體混響係數11表示的同一音場之各種表示。
舉例而言,為了使用立體混響係數產生音場之不同表示(其再次為音訊資料之一個實例),音場表示產生器24可使用用於音場之立體混響表示之寫碼方案,被稱作混合階立體混響(MOA),如2017年8月8日申請之名為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FO COMPUTER-MEDIATED REALITY SYSTEMS」並在2019年1月3日公開為美國專利公開案第20190007781號的美國申請案第15/672,058號中更詳細地所論述。
為了產生音場之特定MOA表示,音場表示產生器24可產生立體混響係數之全集合之部分子集。舉例而言,由音場表示產生器24產生之每一MOA表示可關於音場之一些區域提供精確度,但在其他區域中提供較小精確度。在一個實例中,音場之MOA表示可包括八(8)個未經壓縮立體混響係數,而同一音場之三階立體混響表示可包括十六(16)個未經壓縮立體混響係數。因而,經產生作為立體混響係數之部分子集的音場之每一MOA表示相比於自立體混響係數產生的同一音場之對應三階立體混響表示可在儲存方面較不密集並在頻寬方面較不密集(在作為位元串流27之部分而經由所說明之傳輸通道進行傳輸的情況下及在此情形時)。
儘管關於MOA表示進行描述,但本發明之技術亦可關於一階立體混響(FOA)表示而執行,其中使用與一階球面基底函數及零階球面基底函數相關聯之所有立體混響係數以表示音場。換言之,環繞聲音場表示產生器302可使用給定階N之所有立體混響係數表示音場,而非使用立體混響係數之部分非零子集表示音場,從而產生總數等於(N+1)2
之立體混響係數。
就此而言,立體混響音訊資料(其為用以參考MOA表示或全階表示中之立體混響係數之另一方式,諸如上文所提到之一階表示)可包括與具有為一或更小之階之球面基底函數相關聯的立體混響係數(其可被稱作「1階立體混響音訊資料」)、與具有混合階及子階之球面基底函數相關聯的立體混響係數(其可被稱作如上文所論述之「MOA表示」),或與具有大於一之階之球面基底函數相關聯的立體混響係數(其在上文被稱作「全階表示」)。
在一些實例中,內容俘獲裝置300可經組態以與音場表示產生器302以無線方式通信。在一些實例中,內容俘獲裝置300可經由無線連接或有線連接中之一者或兩者與音場表示產生器302通信。經由內容俘獲裝置300與音場表示產生器302之間的連接,內容俘獲裝置300可以各種內容形式提供內容,該等內容形式出於論述之目的而在本文中被描述為MOA係數11之部分。
在一些實例中,內容俘獲裝置300可充分利用音場表示產生器302之各種態樣(在音場表示產生器302之硬體或軟體能力方面)。舉例而言,音場表示產生器302可包括經組態以執行心理聲學音訊編碼之專用硬體(或在執行時使一或多個處理器執行心理聲學音訊編碼之專用軟體) (諸如被表示為由動畫專業團體(MPEG)闡述之「USAC」的統一語音與音訊寫碼器、MPEG-H 3D音訊寫碼標準、MPEG-I沈浸式音訊標準,或專屬標準,諸如AptX™ (包括AptX之各種版本,諸如增強型AptX - E-AptX、AptX實況、AptX立體聲,及AptX高清晰度 - AptX-HD)、進階音訊寫碼(AAC)、音訊編解碼器3 (AC-3)、Apple無損音訊編解碼器(ALAC)、MPEG-4音訊無損串流處理(ALS)、增強型AC-3、免費無損音訊編解碼器(FLAC)、猴子音訊(Monkey's Audio)、MPEG-1音訊層II (MP2)、MPEG-1音訊層III (MP3)、Opus,及Windows媒體音訊(WMA)。
內容俘獲裝置300可能不包括心理聲學音訊編碼器專用硬體或特殊化軟體,而代替地以非心理聲學音訊寫碼形式提供內容301之音訊態樣。音場表示產生器302可至少部分地藉由關於內容301之音訊態樣執行心理聲學音訊編碼來輔助內容301之俘獲。
音場表示產生器302亦可藉由至少部分地基於自立體混響係數11產生之音訊內容(例如MOA表示、三階立體混響表示及/或一階立體混響表示)產生一或多個位元串流21來輔助內容俘獲及傳輸。位元串流21可表示立體混響係數11之經壓縮版本(及/或其用以形成音場之MOA表示之部分子集)及任何其他不同類型之內容301 (諸如球面視訊資料、影像資料或文字資料之經壓縮版本)。
音場表示產生器302可產生位元串流21以供例如橫越可為有線或無線通道之傳輸通道、資料儲存裝置或其類似者而傳輸。位元串流21可表示立體混響係數11之經編碼版本(及/或其用以形成音場之MOA表示之部分子集),並可包括主要位元串流及另一旁側位元串流,其可稱作旁側聲道資訊。在一些情況下,表示立體混響係數11之經壓縮版本的位元串流21可符合根據MPEG-H 3D音訊寫碼標準所產生之位元串流。
內容消費者裝置14可由個人操作,並可表示VR用戶端裝置。儘管關於VR用戶端裝置進行描述,但內容消費者裝置14可表示其他類型之裝置,諸如擴增實境(AR)用戶端裝置、混合實境(MR)用戶端裝置(或任何其他類型之頭戴式顯示裝置或延伸實境-XR-裝置)、標準電腦、耳機、頭戴式耳機,或能夠追蹤操作用戶端消費者裝置14之個人之頭部移動及/或一般平移移動的任何其他裝置。如圖1A之實例中所展示,內容消費者裝置14包括音訊播放系統16A,其可指能夠表達立體混響係數(無論係呈一階、二階及/或三階立體混響表示及/或MOA表示之形式)以用於作為多聲道音訊內容而播放的任何形式之音訊播放系統。
內容消費者裝置14可直接自源裝置12擷取位元串流21。在一些實例中,內容消費者裝置12可與包括第五代(5G)蜂巢式網路之網路介接,以擷取位元串流21或以其他方式使源裝置12將位元串流21傳輸至內容消費者裝置14。
雖然在圖1A中被展示為直接傳輸至內容消費者裝置14,但源裝置12可將位元串流21輸出至定位於源裝置12與內容消費者裝置14之間的中間裝置。中間裝置可儲存位元串流21以供稍後遞送至可請求位元串流之內容消費者裝置14。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他裝置。中間裝置可駐存於能夠將位元串流21串流處理(並可能結合將對應視訊資料位元串流傳輸)至請求位元串流21之用戶(諸如內容消費者裝置14)的內容遞送網路中。
替代地,源裝置12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,該等儲存媒體中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容背景下,傳輸通道可指藉以傳輸儲存至媒體之內容的通道(並可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖1A之實例。
如上文所提到,內容消費者裝置14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何系統。音訊播放系統16A可包括數個不同音訊表達器22。表達器22可各自提供不同形式之音訊表達,其中不同形式之表達可包括執行基於向量之幅度分配(vector-base amplitude panning,VBAP)之各種方式中之一或多者,及/或執行音場合成之各種方式中之一或多者。如本文中所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16A可進一步包括音訊解碼裝置24。音訊解碼裝置24可表示經組態以解碼位元串流21以輸出經重新建構立體混響係數11A'至11N' (其可形成全一階、二階及/或三階立體混響表示,或其形成同一音場之MOA表示或其分解之子集,諸如MPEG-H 3D音訊寫碼標準及/或MPEG-I沈浸式音訊標準中所描述的主導音訊信號、環境立體混響係數及基於向量之信號)之裝置。
因而,立體混響係數11A'至11N' (「立體混響係數11'」)可相似於立體混響係數11之全集合或部分子集,但可能歸因於有損操作(例如量化)及/或經由傳輸通道之傳輸而不同。在解碼位元串流21以獲得立體混響係數11'之後,音訊播放系統16可自立體混響係數11'之不同串流獲得立體混響音訊資料15,並表達立體混響音訊資料15以輸出揚聲器饋入25。揚聲器饋入25可驅動一或多個揚聲器(其出於易於說明目的而未在圖1A之實例中展示)。可以包括N3D、SN3D、FuMa、N2D或SN2D之數種方式正規化音場之立體混響表示。
為了選擇適當表達器或在一些情況下產生適當表達器,音訊播放系統16A可獲得指示擴音器之數目及/或擴音器之空間幾何結構的擴音器資訊13。在一些情況下,音訊播放系統16A可使用參考麥克風獲得擴音器資訊13,並輸出信號以按諸如經由參考麥克風動態地判定擴音器資訊13的方式啟動(或換言之,驅動)擴音器。在其他情況下,或結合擴音器資訊13之動態判定,音訊播放系統16A可提示使用者與音訊播放系統16A介接並輸入擴音器資訊13。
音訊播放系統16A可基於擴音器資訊13選擇音訊表達器22中之一者。在一些情況下,當音訊表達器22中無一者處於與擴音器資訊13中所指定之擴音器幾何結構相似之某一臨限值相似性度量(在擴音器幾何結構方面)內時,音訊播放系統16A可基於擴音器資訊13產生音訊表達器22中之一者。在一些情況下,音訊播放系統16A可基於擴音器資訊13產生音訊表達器22中之一者,而不首先嘗試選擇音訊表達器22中之現有一者。
當將揚聲器饋入25輸出至頭戴式耳機時,音訊播放系統16A可利用使用能夠向左側及右側揚聲器饋入25表達以用於頭戴式耳機揚聲器播放之頭部相關轉移函數(HRTF)或其他函數來提供雙耳表達的表達器22中之一者。術語「揚聲器」或「傳感器」通常可指任何揚聲器,包括擴音器、頭戴式耳機揚聲器等等。一或多個揚聲器接著可播放經表達揚聲器饋入25。
儘管被描述為自立體混響音訊資料15表達揚聲器饋入25,但對揚聲器饋入25之表達之參考可指其他類型之表達,諸如直接併入至自位元串流21對立體混響音訊資料15之解碼中的表達。替代表達之一實例可見於MPEG-H 3D音訊寫碼標準之附錄G,其中表達發生於在音場複合之前的主導信號公式化及背景信號形成期間。因而,對立體混響音訊資料15之表達之參考應被理解為係指實際立體混響音訊資料15之表達或立體混響音訊資料15之分解或其表示兩者(諸如上文所提到之主導音訊信號、環境立體混響係數及/或基於向量之信號-其亦可被稱作V向量)。
如上文所描述,內容消費者裝置14可表示VR裝置,其中人類可穿戴式顯示器安裝於操作VR裝置之使用者之眼睛前方。圖9A及圖9B為說明VR裝置400A及400B之實例的圖解。在圖9A之實例中,VR裝置400A耦接至或以其他方式包括頭戴式耳機404,頭戴式耳機404可經由揚聲器饋入25之播放而重現由立體混響音訊資料15表示之音場(其為用以參考立體混響係數15之另一方式)。揚聲器饋入25可表示能夠使頭戴式耳機404之傳感器內之薄膜以各種頻率振動的類比或數位信號。此類程序通常被稱作驅動頭戴式耳機404。
視訊、音訊及其他感官資料可在VR體驗中起到重要的作用。為了參與VR體驗,使用者402可穿戴VR裝置400A (其亦可稱作VR耳機400A)或其他可穿戴式電子裝置。VR用戶端裝置(諸如VR耳機400A)可追蹤使用者402之頭部移動,並調適經由VR耳機400A所展示之視訊資料以考量頭部移動,從而提供使用者402可體驗到以視覺三維形式展示於視訊資料中之虛擬世界的沈浸式體驗。
雖然VR (及其他形式之AR及/或MR,其通常可被稱作電腦調解之實境裝置)可允許使用者402在視覺上駐存於虛擬世界中,但VR耳機400A常常可能缺少以可聽方式將使用者置放於虛擬世界中之能力。換言之,VR系統(其可包括負責表達視訊資料及音訊資料之電腦-其出於易於說明目的而未在圖9A之實例中展示,及VR耳機400A)可能無法以可聽方式支援全三維沈浸。
圖9B為說明可根據本發明中所描述之技術之各種態樣而操作的可穿戴式裝置400B之實例的圖解。在各種實例中,可穿戴式裝置400B可表示VR耳機(諸如上文所描述之VR耳機400A)、AR耳機、MR耳機,或任何其他類型之XR耳機。擴增實境「AR」可指覆疊於使用者實際上所處之真實世界上的電腦表達影像或資料。混合實境「MR」可指為鎖定至真實世界中之特定位置之世界的電腦表達影像或資料,或可指部分電腦表達3D元素及部分攝影真實元素經組合為模擬使用者在環境中之實體存在之沈浸式體驗的VR之變型。延伸實境「XR」可表示VR、AR及MR之統稱術語。關於XR之術語的更多資訊可見於Jason Peterson之名為「Virtual Reality, Augmented Reality, and Mixed Reality Definitions」且日期為2017年7月7日的文件。
可穿戴式裝置400B可表示其他類型之裝置,諸如手錶(包括所謂的「智慧型手錶」)、眼鏡(包括所謂的「智慧型眼鏡」)、頭戴式耳機(包括所謂的「無線頭戴式耳機」及「智慧型頭戴式耳機」)、智慧型服飾、智慧型珠寶及其類似者。無論係表示VR裝置、手錶、眼鏡及/或頭戴式耳機,可穿戴式裝置400B皆可與經由有線連接或無線連接而支援可穿戴式裝置400B之計算裝置通信。
在一些情況下,支援可穿戴式裝置400B之計算裝置可整合於可穿戴式裝置400B內,且因而,可穿戴式裝置400B可被視為與支援可穿戴式裝置400B之計算裝置係同一裝置。在其他情況下,可穿戴式裝置400B可與可支援可穿戴式裝置400B之分開的計算裝置通信。就此而言,術語「支援」不應被理解為需要分開的專用裝置,而是經組態以執行本發明中所描述之技術之各種態樣的一或多個處理器可整合於可穿戴式裝置400B內或整合於與可穿戴式裝置400B分開的計算裝置內。
舉例而言,當可穿戴式裝置400B表示VR裝置400B之實例時,分開的專用計算裝置(諸如包括一或多個處理器之個人電腦)可表達音訊及視覺內容,而可穿戴式裝置400B可判定平移頭部移動,在平移頭部移動後,專用計算裝置就可根據本發明中所描述之技術之各種態樣而基於平移頭部移動來表達音訊內容(作為揚聲器饋入)。作為另一實例,當可穿戴式裝置400B表示智慧型眼鏡時,可穿戴式裝置400B可包括既判定平移頭部移動(藉由介接於可穿戴式裝置400B之一或多個感測器內)又基於所判定平移頭部移動來表達揚聲器饋入之一或多個處理器。
如所展示,可穿戴式裝置400B包括一或多個方向性揚聲器,及一或多個追蹤及/或記錄攝影機。另外,可穿戴式裝置400B包括一或多個慣性、觸覺及/或健康感測器、一或多個眼睛追蹤攝影機、一或多個高敏感度音訊麥克風,及光學/投影硬體。可穿戴式裝置400B之光學/投影硬體可包括持久半透明顯示技術及硬體。
可穿戴式裝置400B亦包括連接性硬體,該連接性硬體可表示支援多模連接性之一或多個網路介面,諸如4G通信、5G通信、藍芽等等。可穿戴式裝置400B亦包括一或多個環境光感測器,及骨傳導傳感器。在一些情況下,可穿戴式裝置400B亦可包括具有魚眼鏡頭及/或攝遠鏡頭之一或多個被動及/或主動攝影機。儘管圖5B中未展示,但可穿戴式裝置400B亦可包括一或多個發光二極體(LED)燈。在一些實例中,LED燈可被稱作「超亮」LED燈。在一些實施方案中,可穿戴式裝置400B亦可包括一或多個後置攝影機。將瞭解,可穿戴式裝置400B可展現多種不同外觀尺寸。
此外,追蹤及記錄攝影機以及其他感測器可促進平移距離之判定。儘管圖9B之實例中未展示,但可穿戴式裝置400B可包括用於偵測平移距離的其他類型之感測器。
儘管關於可穿戴式裝置之特定實例(諸如上文關於圖9B之實例所論述之VR裝置400B,及圖1A及圖1B之實例中所闡述之其他裝置)進行描述,但一般技術者將瞭解,與圖1A至圖1B相關之描述可應用於可穿戴式裝置之其他實例。舉例而言,諸如智慧型眼鏡之其他可穿戴式裝置可包括藉以獲得平移頭部移動之感測器。作為另一實例,諸如智慧型手錶之其他可穿戴式裝置可包括藉以獲得平移移動之感測器。因而,本發明中所描述之技術不應限於特定類型之可穿戴式裝置,而是任何可穿戴式裝置可經組態以執行本發明中所描述之技術。
在任何情況下,VR之音訊態樣已被分類為三種分開的沈浸類別。第一類別提供最低位準之沈浸,並被稱作三自由度(3DOF)。3DOF係指考量頭部在三個自由度(橫偏、俯仰及橫搖)上之移動的音訊表達,藉此允許使用者在任何方向上自由地環顧。然而,3DOF不能考量頭部不以音場之光學及聲學中心為中心的平移頭部移動。
歸因於遠離音場內之光學中心及聲學中心的頭部移動,除了受限空間平移移動之外,被稱作3DOF加(3DOF+)之第二類別亦提供三個自由度(橫偏、俯仰及橫搖)。3DOF+可提供對諸如運動視差之知覺效應的支援,此可增強沈浸之感覺。
被稱作六自由度(6DOF)之第三類別以考量在頭部移動方面之三個自由度(橫偏、俯仰及橫搖)而且考量使用者在空間中之平移(x平移、y平移及z平移)的方式表達音訊資料。空間平移可藉由感測器追蹤使用者在實體世界中之位置或藉助於輸入控制器來誘發。
3DOF表達為VR之音訊態樣之當前先進技術。因而,VR之音訊態樣相比於視訊態樣較不沈浸,藉此潛在地降低由使用者體驗之整體沈浸,並引入定位誤差(例如,諸如當聽覺播放與視覺場景不確切地匹配或相關時)。
此外,關於虛擬環境如何將聲音模型化仍在開發中,用來在各種環境物件可能影響聲音在虛擬環境內之傳播時實現更真實聲音之傳播。因而,音訊沈浸可在聲音呈現為以VR耳機400之使用者在遇到具有類似幾何結構及物件之真實環境時所預期的並未準確反射的方式穿過虛擬環境傳播時降級。作為一個實例,共同VR音訊軟體開發組可僅僅允許對聲音直接反射離開物件進行建模(其亦可被稱為「閉塞」),諸如牆壁、門(其中門及其他可移動實體--實際上閉塞的閉塞後設資料305可由於門處於打開或關閉之不同狀態中而改變)等等,其將音場分隔為兩個或多於兩個聲音空間,且並不考慮聲音可如何穿過此等物件傳播,從而降低預期響亮聲音(諸如,射擊、尖叫、直升機等等)穿過類似牆壁及門之一些物件傳播之音訊沈浸。
根據本發明中所描述之技術,源裝置12可在聲音穿過閉塞之傳播方面獲得表示音場內之閉塞的閉塞後設資料(其可表示後設資料305之一部分,且因而可被稱作「閉塞後設資料305」)(表示為編輯音訊資料,其可形成編輯內容303之一部分且因而可表示為「編輯音訊資料305」)。音訊編輯器可在編輯音訊資料301時且在一些實例中指定閉塞後設資料305。
替代地或結合閉塞後設資料305之人工鍵入,內容編輯裝置可自動地產生閉塞後設資料305(例如,經由在經執行時組態內容編輯器裝置304自動地產生閉塞後設資料305之軟體)。在一些情況下,音訊編輯器可識別閉塞,且內容編輯器裝置304可將預定義閉塞後設資料305與人工識別之閉塞自動相關聯。在任何情況下,內容編輯器裝置304可獲得閉塞後設資料305,且將閉塞後設資料305提供至音場表示產生器302。
音場表示產生器302可表示一裝置或其他單元之一個實例,其經組態以指定表示編輯音訊內容303之音訊位元串流21 (其可指一或多個位元串流21中之一者)中的閉塞後設資料305,以使得能夠(藉由例如音訊播放系統16)獲得表達器22,藉由該表達器來將編輯音訊內容303表達為一或多個揚聲器饋入25,從而將聲音如何在藉由閉塞分隔開之兩個或多於兩個聲音空間中之一者中傳播(或換言之,考慮聲音在藉由閉塞分隔開之兩個或多於兩個聲音空間中之一者中的傳播)模型化(或換言之,加以考慮)。
在一些實例中,音訊解碼裝置24可自音訊位元串流21獲得表示音場內之閉塞的關於聲音穿過閉塞之傳播的閉塞後設資料305,其中同樣閉塞可將音場分隔為兩個或多於兩個聲音空間。音訊解碼裝置24亦可獲得裝置(其在此實例中可指音訊播放系統16,其中一個實例為VR裝置)在音場內相對於閉塞之位置17。
亦即,音訊播放系統16可與追蹤裝置306介接,該追蹤裝置表示經組態以獲得裝置之位置17的裝置。音訊播放系統16可將實際空間內的實體位置17平移至虛擬環境內的位置,且識別音訊播放系統16相對於閉塞之位置的位置317。音訊播放系統16可基於閉塞後設資料305及位置317獲得閉塞感知表達器,即表達器22,藉由該表達器來將音訊資料15表達為一或多個揚聲器饋入,以將聲音如何在音訊播放系統16所駐留之兩個或多於兩個聲音空間中之一者中傳播模型化。音訊播放系統16可接著應用閉塞感知表達器(其可表示為「閉塞感知表達器22」)產生揚聲器饋入25。
閉塞後設資料305可包括數個不同類型之後設資料的任何組合,包括音量減弱因數、僅直接路徑指示、低通濾波器描述及閉塞之位置之指示中之一或多者。音量減弱因數可表示與音訊資料15相關聯之音量在穿過閉塞時所降低的量。僅直接路徑指示可表示存在用於音訊資料15之直接路徑抑或(經由閉塞感知表達器22)混響處理將應用於音訊資料15。低通濾波器描述可表示描述低通濾波器之係數或低通濾波器之參數描述(如閉塞感知表達器22中所整合或連同該閉塞感知表達器所應用)。
音訊解碼裝置24可利用閉塞後設資料305以產生閉塞感知表達器22,其將實況的、預先記錄的及合成的音訊內容混合以供3DOF或6DOF表達。閉塞後設資料305可定義閉塞聲音特性之資訊,其使得音訊解碼裝置24能夠識別聲音空間如何相互作用。換言之,閉塞後設資料305可定義聲音空間之邊界、關於閉塞之繞射(或換言之,遮蔽)、關於閉塞之吸收(或換言之,洩漏),及閉塞所處之環境。
音訊解碼裝置24可在任何數目個方法中利用閉塞後設資料305來產生閉塞感知表達器22。舉例而言,音訊解碼裝置24可將閉塞後設資料305用作離散數學方程式之輸入。作為另一實例,音訊解碼裝置24可將閉塞後設資料305用作憑經驗衍生之濾波器的輸入。作為又一實例,音訊解碼裝置24可將閉塞後設資料305用作用以匹配聲音空間之效應的機器學習演算法之輸入。音訊解碼裝置24亦可在一些實例中利用前述實例之任何組合產生閉塞感知表達器22,包括允許人工干預以超出前述實例(諸如用於藝術目的)。可如何應用本發明中所描述之技術之各種態樣來潛在地改良音訊資料之表達以考慮閉塞且增大音訊沈浸的實例關於圖2之實例進一步描述。
儘管關於如圖2之實例中所示之VR裝置進行描述,但該等技術可由包括以下各者的其他類型之可穿戴式裝置執行:手錶(諸如所謂的「智慧型手錶」)、眼鏡(諸如所謂的「智慧型眼鏡」)、頭戴式耳機(包括經由無線連接而耦接之無線頭戴式耳機或經由有線或無線連接而耦接之智慧型頭戴式耳機),及任何其他類型之可穿戴式裝置。因而,該等技術可由任何類型之可穿戴式裝置執行,在該可穿戴式裝置由使用者穿戴時,使用者可與該可穿戴式裝置互動。
圖2為說明圖1A之音訊解碼裝置可如何應用技術之各種態樣來促進音訊資料之閉塞感知表達的實例之方塊圖。在圖3之實例中,音訊解碼裝置24可獲得表示兩個音場450A及450B之音訊資料15,該等音場在部分452處重疊。當多個音場450A及450B重疊時,音訊解碼裝置24可獲得閉塞後設資料305,該閉塞後設資料識別音場450A及450B重疊之邊界及音場450A及450B中之一者可將音場450A及450B之另一者閉塞之程度。
更特定言之,當位置317指示音訊播放系統16位於位置454A處(表示為「L 1
」)時,音訊解碼裝置24可判定音場450A之部分藉由音場450B之一部分閉塞,且產生閉塞感知表達器22以考慮閉塞。當位置317指示音訊播放系統16位於位置404B處(表示為「L2
」)時,音訊解碼裝置24可判定音場450B之部分藉由音場450A之一部分閉塞,且產生閉塞感知表達器22以考慮閉塞。
在圖2之實例中,音場450A及450B之重疊部分452包括兩個聲音空間456A及456B。閉塞後設資料305可包括用於兩個聲音空間456A及456B中之每一者的聲音空間邊界,其可使得音訊解碼裝置24能夠獲得閉塞感知表達器22,該閉塞感知表達器潛在地反映歸因於兩個音場450A及450B之重疊的閉塞之程度。因而,除了指可能閉塞聲音之傳播的虛擬物件之外,閉塞亦可指重疊音場450A及450B。因此,閉塞可指影響聲音之傳播的任何物理相互作用(其在圖2之實例中指聲波之相互作用)。
閉塞後設資料305亦可包括如何在音訊播放系統16之使用者於音場450A及450B內移動時轉換閉塞感知表達。舉例而言,音訊解碼裝置24可基於閉塞後設資料305獲得閉塞感知表達器22,該閉塞感知表達器在音訊播放系統16之使用者之位置317向著部分452之邊緣移動時將音訊資料15之背景分量轉變為前景分量。
如上所指出,閉塞後設資料305亦可包括閉塞之一指示,使得音訊解碼裝置24可獲得閉塞(例如,部分452)相對於音訊播放系統16之位置317之距離。當音場在有效距離內(例如,諸如高於某一臨限距離)被閉塞時,音訊解碼裝置24可產生閉塞感知表達器22以將閉塞模型化為單聲道源,該單聲道源隨後根據閉塞感知表達器得以表達。作為一實例,假定位置317指示音訊播放系統16位於位置454A處且位置454A與454B之間存在阻障(表示為「L 2
」,音訊解碼裝置24可產生閉塞感知表達器22以將音場450B模型化為閉塞點源。關於如何在兩個音場相互作用時執行閉塞感知表達的其他資訊關於圖3進行描述。
圖3為說明圖1A之音訊解碼裝置可如何應用技術之各種態樣來促進音訊資料之閉塞感知表達的另一實例之方塊圖。在圖3之實例中,音訊解碼裝置24可獲得表示藉由音訊資料15A至15E及15F至15H定義的兩個音場460A及460B之音訊資料15。如在圖3之實例中進一步展示,音場460A包括藉由音訊資料15A至15B及15C至15E表示之兩個區域464A及464B,且音場460B包括藉由音訊資料15F至15H表示之單個區域464C。
假定使用者能夠自音場460A移動至音場460B (或反過來自音場460B移動至音場460A)的一情境。在此情境中,音訊解碼裝置24可獲得指示是否可在音場460B中聽到來自音場460A之聲音(或換言之,聲音是否傳播至音場460B)(及反過來,是否可在音場460A中聽到來自音場460B之聲音)的閉塞後設資料305。閉塞後設資料305可就此而言區分開兩個不同音場460A及460B。
此外,音訊解碼裝置24可接收藉由區域464A至464C中之每一者分組的音訊資料15A至15G。內容編輯裝置304可將閉塞後設資料305之不同部分與區域464A至464C中之每一者相關聯(或換言之,與多個音訊資料--例如,閉塞後設資料305中具有音訊資料15A至15B之第一部分、閉塞後設資料305中具有15C至15E之第二部分及閉塞後設資料305中具有15F至15G之第三部分相關聯)。閉塞後設資料305之不同部分與區域464A至464C中之每一者的關聯可由於較少閉塞後設資料可能被發送而促成閉塞後設資料305之更高效傳輸,從而促進在產生音訊位元串流21時減小記憶體及頻寬消耗及處理循環的更緊密位元串流。
以此方式,音訊解碼裝置24可基於閉塞後設資料305及位置317而獲得用於音訊資料之不同集合(諸如,一組音訊物件--例如,音訊物件15A及15B)的第一表達器,且將第一表達器應用於第一組音訊物件以獲得第一揚聲器饋入。音訊解碼裝置24可接著基於閉塞後設資料305及位置317獲得用於第二組音訊物件15F至15H的第二表達器,且將第二表達器應用於第二組物件以獲得第二揚聲器饋入。音訊解碼裝置24可接著基於第一揚聲器饋入及第二揚聲器饋入獲得揚聲器饋入。關於可如何經由閉塞後設資料305界定類似牆壁之實體閉塞的更多資訊在下文關於圖4之實例予以提供。
圖4為說明可根據本發明中所描述之技術之各種態樣提供的實例閉塞及隨附閉塞後設資料的方塊圖。如圖4之實例中所示,藉由音訊資料15表示的入射聲能470A (其可在數學上表示為變數Ei
)可遇到閉塞472 (展示為牆壁,其為實體閉塞之一個實例)。
回應於判定入射聲能470A與閉塞472相互作用,音訊解碼裝置24可基於閉塞後設資料305獲得經反射聲能470B (其可在數學上表示為變數Er
)及所傳輸(或換言之,所洩漏)聲能470C (其可在數學上表示為變數Et
)。音訊解碼裝置24可根據以下方程式判定經吸收或經傳輸之聲能(在數學上表示為變數Eat
):,
其中Ea
指經吸收聲能。閉塞後設資料305可定義閉塞472之吸收係數,其可在數學上表示為變數α。吸收係數可在數學上根據以下方程式進行判定:,
其中α=1可指示100%吸收,且α=0可指示0%吸收(或換言之,完全反射)。
所吸收之聲能的量取決於閉塞472之材料類型、閉塞472之權重及/或密度、及閉塞472之厚度,其反過來可能影響入射聲波之頻率。閉塞後設資料305可指定一般情況或在特定頻率或頻率範圍中的吸收係數及聲音洩漏。以下表提供針對不同材料及不同頻率的吸收係數之一個實例。
關於各種吸收係數及其他閉塞後設資料305之更多資訊及可如何使用此閉塞後設資料305將閉塞模型化可見於Marshall Long的名為「Architectural Acoustics」且於2014年公開之書中。
圖5為說明圖1A之音訊解碼裝置可基於閉塞後設資料組態的閉塞感知表達器之實例的方塊圖。在圖5之實例中,閉塞感知表達器22可包括音量控制單元480及低通濾波器單元482 (其可在數學上實施為單個表達矩陣,但出於論述之目的展示為分解形式)。
音量控制單元480可應用音量減弱因數(指定於如上所述之閉塞後設資料305中)以減弱音訊資料15之音量(或在其他方法中,增加)。音訊解碼裝置24可基於低通濾波器描述組態低通濾波器單元482,其可基於障壁材料後設資料(指定於如上文所描述之閉塞後設資料305中)進行檢索。低通濾波器描述可包括描述低通濾波器之係數或低通濾波器之參數描述。
音訊解碼裝置24亦可基於僅直接路徑之一指示組態閉塞感知表達器22,其可指閉塞感知表達器22係直接應用抑或在混響處理之後應用。音訊解碼裝置24可基於指示音訊播放系統16所處之聲音空間之環境的環境後設資料獲得僅直接路徑之指示。環境可指示使用者位於室內抑或戶外、環境之大小或環境之其他幾何結構資訊、媒體(諸如,空氣或水)等等。
當環境指示為室內時,音訊解碼裝置24可獲得為假的僅直接路徑之指示,此係因為表達應發生在執行混響處理之後以考慮室內環境。當環境指示為戶外時,音訊解碼裝置24可獲得為真之僅直接路徑之指示,此係因為表達經組態以直接發生(在戶外環境中不存在或存在有限混響的條件下)。
因而,音訊解碼裝置24可獲得描述音訊播放系統16所駐留之虛擬環境的環境後設資料。音訊解碼裝置24可接著基於閉塞後設資料305、環境後設資料(其在一些實例中不同於閉塞後設資料305,儘管上文描述為包括於閉塞後設資料305中)及位置317獲得閉塞感知表達器22。音訊解碼裝置24可在環境後設資料描述虛擬室內環境時且基於閉塞後設資料305及位置317獲得雙耳室脈衝回應表達器22。音訊解碼裝置24可在環境後設資料描述虛擬室外環境時且基於閉塞後設資料305及位置317獲得頭部相關轉移函數表達器22。
圖6為說明根據本發明中所描述之技術之各種態樣的圖1A之音訊解碼裝置可如何在閉塞將音場分成兩個聲音空間時獲得表達器的方塊圖。類似於圖3及圖5之實例,圖6之實例中所展示的音場490藉由閉塞494分隔成兩個聲音空間492A及492B。音訊解碼裝置24可獲得描述閉塞494之閉塞後設資料305 (諸如阻障之音量及位置)。
基於閉塞後設資料305,音訊解碼裝置24可判定用於聲音空間492之第一表達器22A及用於聲音空間492B之第二表達器22B。音訊解碼裝置24可將第一表達器22A音訊資料15L應用於聲音空間492B中,以判定在聲音空間492A中應聽到多少音訊資料15L。音訊解碼裝置24可將第二表達器22B音訊資料15J及15K應用於聲音空間492A中,以判定在聲音空間492B中應聽到多少音訊資料15J及15K。
就此而言,音訊解碼裝置24可獲得獲得第一表達器,藉由第一表達器該將音訊資料之至少第一部分表達為一或多個第一揚聲器饋入,以將聲音如何在第一聲音空間中傳播模型化,及獲得第二表達器,藉由該第二表達器將音訊資料之至少第二部分表達為一或多個第二揚聲器饋入,以將聲音如何在第二聲音空間中傳播模型化。
音訊解碼裝置24可將第一表達器22A應用於音訊資料15L之第一部分以產生第一揚聲器饋入,且將第二表達器22B應用於音訊資料15J及15K之第二部分以產生第二揚聲器饋入。音訊解碼裝置24可接下來基於第一揚聲器饋入及第二揚聲器饋入獲得揚聲器饋入25。
圖7為說明根據本發明中所描述之技術之各種態樣形成的圖1A之音訊位元串流之實例部分的方塊圖。在圖7之實例中,音訊位元串流21包括與音訊資料15中具有相關聯後設資料之對應不同集合相關聯的聲音景觀(其為指代音場之另一種方式)後設資料500A、與音訊資料15中具有相關聯後設資料之對應不同集合相關聯的聲音景觀後設資料500B,等等。
音訊資料15中與相同聲音景觀後設資料500A或500B相關聯之不同集合中之每一者可均駐留於同一聲音空間內。將音訊資料15中具有單個聲音景觀後設資料500之不同集合分組可作為一些實例應用於表示人群、汽車群組或非常接近於彼此之其他聲音的音訊資料15之不同集合。將單個聲音景觀後設資料500A或500B與音訊資料15之不同集合關聯可產生更高效位元串流21,其減少處理循環、頻寬(包括匯流排頻寬)及記憶體消耗(相較於使音訊資料15之不同集合中之每一者具有單獨聲音景觀後設資料500)。
圖8為根據本發明中所描述之技術之各種態樣的用以組態圖1之閉塞感知表達器的輸入之方塊圖。如圖8之實例中所示,音訊解碼裝置24可利用阻障(或換言之,閉塞)後設資料305A至305N、聲音景觀後設資料500A至500N (其可被稱作「聲音空間後設資料500」),及使用者方位317 (其為指代位置317之另一方式)。
圖1B為說明經組態以執行本發明中所描述之技術之各種態樣的另一實例系統100的方塊圖。系統100相似於圖1A中所展示之系統10,惟運用能夠使用一或多種HRTF或能夠向左側及右側揚聲器饋入103表達之其他函數來執行雙耳表達的雙耳表達器102替換圖1A中所展示之音訊表達器22除外。
音訊播放系統16可將左側及右側揚聲器饋入103輸出至頭戴式耳機104,頭戴式耳機104可表示可穿戴式裝置之另一實例並可耦接至額外可穿戴式裝置以促進音場之重現,諸如手錶、上文所提到之VR耳機、智慧型眼鏡、智慧型服飾、智慧型戒指、智慧型手鐲或任何其他類型之智慧型珠寶(包括智慧型項鏈),及其類似者。頭戴式耳機104可以無線方式或經由有線連接而耦接至額外穿戴式裝置。
頭戴式耳機104可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋入103重新建立由音訊資料11表示之音場。頭戴式耳機104可包括由對應左側及右側揚聲器饋入103供電(或換言之,驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。
儘管關於可穿戴式裝置之特定實例(諸如上文關於圖2之實例所論述之VR裝置400,及圖1A及圖1B之實例中所闡述之其他裝置)進行描述,但一般技術者將瞭解,與圖1A至圖2相關之描述可應用於可穿戴式裝置之其他實例。舉例而言,諸如智慧型眼鏡之其他可穿戴式裝置可包括藉以獲得平移頭部移動之感測器。作為另一實例,諸如智慧型手錶之其他可穿戴式裝置可包括藉以獲得平移移動之感測器。因而,本發明中所描述之技術不應限於特定類型之可穿戴式裝置,而是任何可穿戴式裝置可經組態以執行本發明中所描述之技術。
圖10A及圖10B為說明可執行本發明中所描述之技術之各種態樣的實例系統的圖解。圖10A說明源裝置12進一步包括攝影機200之實例。攝影機200可經組態以俘獲視訊資料,並將所俘獲之原始視訊資料提供至內容俘獲裝置300。內容俘獲裝置300可將視訊資料提供至源裝置12之另一組件,以供進一步處理為檢視區分割部分。
在圖10A之實例中,內容消費者裝置14亦包括可穿戴式裝置800。將理解,在各種實施方案中,可穿戴式裝置800可包括於內容消費者裝置14中或在外部耦接至內容消費者裝置14。如上文關於圖10A及圖10B所論述,可穿戴式裝置800包括用於輸出視訊資料(例如,如與各種檢視區相關聯)並用於表達音訊資料之顯示器硬體及揚聲器硬體。
圖10B說明與由圖10A說明之實例相似的實例,惟運用能夠使用一或多種HRTF或能夠向左側及右側揚聲器饋入103表達之其他函數來執行雙耳表達的雙耳表達器102替換圖10A中所示之音訊表達器22除外。音訊播放系統16可將左側及右側揚聲器饋入103輸出至頭戴式耳機104。
頭戴式耳機104可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋入103重新建立由音訊資料11表示之音場。頭戴式耳機104可包括由對應左側及右側揚聲器饋入103供電(或換言之,驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。
圖11為說明圖1A中所示之源裝置在執行本發明中所描述之技術之各種態樣時的實例操作的流程圖。源裝置12可在聲音穿過閉塞之傳播方面獲得表示音場內之閉塞的閉塞後設資料(其可表示後設資料305之一部分,且因而可被稱作「閉塞後設資料305」)(表示為編輯音訊資料,其可形成編輯內容303之一部分且因而可表示為「編輯音訊資料305」),其中閉塞將音場分隔為兩個或多於兩個聲音空間(950)。音訊編輯器可在編輯音訊資料301時且在一些實例中指定閉塞後設資料305。
音場表示產生器302可指定表示編輯音訊內容303之音訊位元串流21 (其可指一或多個位元串流21中之一者)中的閉塞後設資料305,以使得能夠(藉由例如音訊播放系統16)獲得表達器22,藉由該表達器來將編輯音訊內容303表達為一或多個揚聲器饋入25,從而將聲音如何在藉由閉塞分隔開之兩個或多於兩個聲音空間中之一者中傳播(或,換言之,考慮聲音在藉由閉塞分隔開之兩個或多於兩個聲音空間中之一者中的傳播)模型化(或換言之,加以考慮)(952)。
圖12為說明圖1A之實例中所示之音訊播放系統在執行本發明中所描述之技術之各種態樣的實例操作的流程圖。在一些實例中,(音訊播放系統16之)音訊解碼裝置24可自音訊位元串流21獲得表示音場內之閉塞的關於聲音穿過閉塞之傳播的閉塞後設資料305,其中同樣閉塞可將音場分隔為兩個或多於兩個聲音空間(960)。音訊解碼裝置24亦可獲得裝置(其在此實例中可指音訊播放系統16,其中一個實例為VR裝置)在音場內相對於閉塞之位置17 (962)。
音訊解碼裝置24可基於閉塞後設資料305及位置17獲得閉塞感知表達器22,藉由該閉塞感知表達器將表示音場之音訊資料15表達為一或多個揚聲器饋入25,該音訊資料考慮聲音在音訊播放系統16 (例如,實際上)所駐留之兩個或多於兩個聲音空間中之一者中的傳播(964)。音訊播放系統16可接著將閉塞感知表達器25應用於音訊資料15以產生揚聲器饋入25 (966)。
圖13為圖1A及圖1B之實例中所示之音訊播放裝置在執行本發明中所描述之技術之各種態樣時的方塊圖。音訊播放裝置16可表示音訊播放裝置16A及/或音訊播放裝置16B之實例。音訊播放系統16可包括與6DOF音訊表達器22A組合之音訊解碼裝置24,6DOF音訊表達器22A可表示圖1A之實例中所展示之音訊表達器22之一個實例。
音訊解碼裝置24可包括低延遲解碼器900A、音訊解碼器900B及本端音訊緩衝器902。低延遲解碼器900A可處理XR音訊位元串流21A以獲得音訊串流901A,其中低延遲解碼器900A可執行相對低複雜度解碼(相較於音訊解碼器900B)以促進音訊串流901A之低延遲重新建構。音訊解碼器900B可關於音訊位元串流21B執行相對較高複雜度解碼(相較於音訊解碼器900A)以獲得音訊串流901B。音訊解碼器900B可執行符合MPEG-H 3D音訊寫碼標準之音訊解碼。本端音訊緩衝器902可表示經組態以緩衝暫存本端音訊內容之單元,本端音訊緩衝器902可將該本端音訊內容輸出為音訊串流903。
位元串流21 (包含XR音訊位元串流21A及/或音訊位元串流21B中之一或多者)亦可包括XR後設資料905A (其可包括上文所提到之麥克風位置資訊)及6DOF後設資料905B (其可指定與6DOF音訊表達相關之各種參數)。6DOF音訊表達器22A可獲得音訊串流901A、901B及/或903以及XR後設資料905A及6DOF後設資料905B,並基於接聽者方位及麥克風方位表達揚聲器饋入25及/或103。在圖13之實例中,6DOF音訊表達器22A包括內插裝置30,內插裝置30可執行上文所更詳細地描述之音訊串流選擇及/或內插技術之各種態樣以促進6DOF音訊表達。
圖14說明根據本發明之態樣的支援音訊串流處理之無線通信系統100之實例。無線通信系統100包括基地台105、UE 115及核心網路130。在一些實例中,無線通信系統100可為長期演進(LTE)網路、進階LTE(LTE-A)網路、LTE-A Pro網路或新無線電(NR)網路。在一些狀況下,無線通信系統100可支援增強型寬頻通信、超可靠(例如,任務關鍵)通信、低潛時通信,或與低成本及低複雜度裝置之通信。
基地台105可經由一或多個基地台天線與UE 115以無線方式通信。本文中所描述之基地台105可包括或可被熟習此項技術者稱作基地收發器台、無線電基地台、存取點、無線電收發器、NodeB、eNodeB (eNB)、下一代NodeB或十億NodeB (其中之任一者可被稱作gNB)、本籍NodeB、本籍eNodeB,或某一其他合適術語。無線通信系統100可包括不同類型之基地台105 (例如,巨型或小型小區基地台)。本文中所描述之UE 115可能夠與各種類型之基地台105及包括巨型eNB、小型小區eNB、gNB、中繼基地台及其類似者之網路裝備通信。
每一基地台105可與特定地理涵蓋範圍區域110相關聯,在特定地理涵蓋範圍區域中支援與各種UE 115之通信。每一基地台105可經由通信鏈路125為各別地理涵蓋範圍區域110提供通信涵蓋範圍,且基地台105與UE 115之間的通信鏈路125可利用一或多個載波。無線通信系統100中所展示之通信鏈路125可包括自UE 115至基地台105之上行鏈路傳輸,或自基地台105至UE 115之下行鏈路傳輸。下行鏈路傳輸亦可被稱為前向鏈路傳輸,而上行鏈路傳輸亦可被稱為反向鏈路傳輸。
基地台105之地理涵蓋範圍區域110可劃分成構成地理涵蓋範圍區域110之一部分的扇區,且每一扇區可與小區相關聯。舉例而言,每一基地台105可為巨型小區、小型小區、熱點或其他類型之小區或其各種組合提供通信涵蓋範圍。在一些實例中,基地台105可為可移動的,且因此為移動地理涵蓋範圍區域110提供通信涵蓋範圍。在一些實例中,與不同技術相關聯之不同地理涵蓋範圍區域110可重疊,且與不同技術相關聯之重疊地理涵蓋範圍區域110可由同一基地台105或由不同基地台105支援。無線通信系統100可包括例如異質LTE/LTE-A/LTE-A Pro或NR網路,其中不同類型之基地台105為各種地理涵蓋範圍區域110提供涵蓋範圍。
UE 115可分散於整個無線通信系統100中,且每一UE 115可為靜止的或行動的。UE 115亦可被稱作行動裝置、無線裝置、遠端裝置、手持型裝置或用戶裝置,或某一其他合適術語,其中「裝置」亦可被稱作單元、台、終端機或用戶端。UE 115亦可為個人電子裝置,諸如蜂巢式電話、個人數位助理(PDA)、平板電腦、膝上型電腦或個人電腦。在本發明之實例中,UE 115可為本發明中所描述之音訊源中之任一者,包括VR耳機、XR耳機、AR耳機、載具、智慧型電話、麥克風、麥克風陣列,或包括麥克風或能夠傳輸所俘獲及/或所合成之音訊串流之任何其他裝置。在一些實例中,所合成之音訊串流可為儲存於記憶體中或先前建立或合成之音訊串流。在一些實例中,UE 115亦可指無線區域迴路(WLL)台、物聯網(IoT)裝置、萬物網(IoE)裝置或MTC裝置或其類似者,其可實施於諸如電氣設備、載具、計量器或其類似者之各種物品中。
一些UE 115,諸如MTC或IoT裝置,可為低成本或低複雜度裝置,並可提供機器之間的自動化通信(例如經由機器間(M2M)通信)。M2M通信或MTC可指允許裝置彼此通信或與基地台105通信而無需人工干預之資料通信技術。在一些實例中,M2M通信或MTC可包括來自交換及/或使用指示隱私限制及/或基於密碼之隱私資料之音訊後設資料以雙態觸發、遮蔽及/或調零各種音訊串流及/或音訊源之裝置的通信,如下文將更詳細地所描述。
在一些狀況下,UE 115亦可能夠與其他UE 115直接通信(例如使用同級間(P2P)或裝置間(D2D)協定)。利用D2D通信之UE 115之群組中之一或多者可在基地台105之地理涵蓋範圍區域110內。此群組中之其他UE 115可在基地台105之地理涵蓋範圍區域110外部,或以其他方式不能夠自基地台105接收傳輸。在一些狀況下,經由D2D通信而通信之UE 115之群組可利用一對多(1:M)系統,其中每一UE 115向該群組中之每一其他UE 115進行傳輸。在一些狀況下,基地台105促進用於D2D通信之資源排程。在其他狀況下,在不涉及到基地台105之情況下在UE 115之間實行D2D通信。
基地台105可與核心網路130通信並彼此通信。舉例而言,基地台105可經由空載傳輸鏈路132 (例如經由S1、N2、N3或其他介面)與核心網路130介接。基地台105可直接(例如直接在基地台105之間)或間接(例如經由核心網路130)經由空載傳輸鏈路134 (例如經由X2、Xn或其他介面)彼此通信。
在一些狀況下,無線通信系統100可利用有執照及無執照射頻頻譜帶兩者。舉例而言,無線通信系統100可在諸如5 GHz ISM頻帶之無執照頻帶中使用執照證輔助存取(LAA)、LTE無執照(LTE-U)無線電存取技術或NR技術。當在無執照射頻頻譜帶中操作時,諸如基地台105及UE 115之無線裝置可使用先聽候送(listen-before-talk;LBT)程序以確保頻道在傳輸資料之前係清晰的。在一些狀況下,無執照頻帶中之操作可基於與在有執照頻帶(例如LAA)中操作之分量載波結合的載波聚合組態。無執照頻譜中之操作可包括下行鏈路傳輸、上行鏈路傳輸、同級間傳輸,或此等各者之組合。無執照頻譜中之雙工可基於分頻雙工(FDD)、分時雙工(TDD),或兩者之組合。
就此而言,描述實現以下條項中所闡述之實例中之一或多者的技術之各種態樣:
條項1A。 一種裝置包含:一記憶體,其經組態以儲存表示一音場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;獲得該裝置在該音場內相對於該閉塞之一位置;基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及將該表達器應用於該音訊資料以產生該等揚聲器饋入。
條項2A。 如條項1A之裝置,其中該一或多個處理器經進一步組態以獲得描述該裝置所駐留之一虛擬環境的環境後設資料,且其中該一或多個處理器經組態以基於該閉塞後設資料、該位置及該環境後設資料獲得該表達器。
條項3A。 如條項2A之裝置,其中該環境後設資料描述一虛擬室內環境,且其中該一或多個處理器經組態以在該環境後設資料描述該虛擬室內環境時且基於該閉塞後設資料及該位置獲得一雙耳室脈衝回應表達器。
條項4A。 如條項2A之裝置,其中該環境後設資料描述一虛擬室外環境,且其中該一或多個處理器經組態以在該環境後設資料描述該虛擬室外環境時且基於該閉塞後設資料及該位置獲得一頭部相關轉移函數表達器。
條項5A。 如條項1A至4A之任何組合之裝置,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時所降低的一量。
條項6A。 如條項1A至5A之任何組合之裝置,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
條項7A。 如條項1A至6A之任何組合之裝置,其中該閉塞後設資料包括表示用以描述低通濾波器之係數或該低通濾波器之一參數描述的一低通濾波器描述。
條項8A。 如條項1A至7A之任何組合之裝置,其中該閉塞後設資料包括該閉塞之一位置之一指示。
條項9A。 如條項1A至8A之任何組合之裝置,其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料,且其中該一或多個處理器經組態以:獲得一第一表達器,藉由該第一表達器該將該音訊資料之至少一第一部分表達為一或多個第一揚聲器饋入,以將該聲音如何在該第一聲音空間中傳播模型化;獲得一第二表達器,藉由該第二表達器將該音訊資料之至少一第二部分表達為一或多個第二揚聲器饋入,以將該聲音如何在該第二聲音空間中傳播模型化;及將該第二表達器應用於該音訊資料之該第二部分以產生該等第二揚聲器饋入,且其中該處理器經進一步組態以基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
條項10A。 如條項1A至9A之任何組合之裝置,其中該音訊資料包含基於場景之音訊資料。
條項11A。 如條項1A至9A之任何組合之裝置,其中該音訊資料包含基於物件之音訊資料。
條項12A。 如條項1A至9A之任何組合之裝置,其中該音訊資料包含基於聲道之音訊資料。
條項13A。 如條項1A至9A之任何組合之裝置,其中該音訊資料包含第一組音訊物件,其包括於該兩個或多於兩個聲音空間中之一第一聲音空間中,其中該一或多個處理器經組態以基於該閉塞後設資料及該位置獲得用於該第一組音訊物件之一第一表達器,且其中該一或多個處理器經組態以將該第一表達器應用於該第一組音訊物件以獲得第一揚聲器饋入。
條項14A。 如條項13A之裝置,其中該音訊資料包含第二組物件,其包括於該兩個或多於兩個聲音空間中之一第二聲音空間中,其中該一或多個處理器經進一步組態以基於該閉塞後設資料及該位置獲得用於該第二組物件之一第二表達器,且其中該一或多個處理器經組態以將該第二表達器應用於該第二組物件以獲得該等第二揚聲器饋入,及基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
條項15A。 如條項1A至14A之任何組合之裝置,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一虛擬實境耳機。
條項16A。 如條項1A至14A之任何組合之裝置,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一擴增實境耳機。
條項17A。 如條項1A至14A之任何組合之裝置,其中該裝置包括經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器。
條項18A。 一種方法,其包含:藉由一裝置獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;藉由該裝置獲得該裝置在該音場內相對於該閉塞之一位置;藉由該裝置基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及藉由該裝置將該表達器應用於該音訊資料以產生該等揚聲器饋入。
條項19A。 如條項18A之方法,其進一步包含獲得描述該裝置所駐留之一虛擬環境的環境後設資料,且其中獲得該表達器包含基於該閉塞後設資料、該位置及該環境後設資料獲得該表達器。
條項20A。 如條項19A之方法,其中該環境後設資料描述一虛擬室內環境,且其中獲得該表達器包含在該環境後設資料描述該虛擬室內環境時且基於該閉塞後設資料及該位置獲得一雙耳室脈衝回應表達器。
條項21A。 如條項19A之方法,其中該環境後設資料描述一虛擬室外環境,且其中獲得該表達器包含在該環境後設資料描述該虛擬室外環境時且基於該閉塞後設資料及該位置獲得一頭部相關轉移函數表達器。
條項22A。 如條項18A至21A之任何組合之方法,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時所降低的一量。
條項23A。 如條項18A至22A之任何組合之方法,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
條項24A。 如條項18A至23A之任何組合之方法,其中該閉塞後設資料包括表示用以描述低通濾波器之係數或該低通濾波器之一參數描述的一低通濾波器描述。
條項25A。 如條項18A至24A之任何組合之方法,其中該閉塞後設資料包括該閉塞之一位置之一指示。
條項26A。 如條項18A至25A之任何組合之方法,其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料,且其中獲得該表達器包含:獲得一第一表達器,藉由該第一表達器將該音訊資料之至少一第一部分表達為一或多個第一揚聲器饋入,以將該聲音如何在該第一聲音空間中傳播模型化;及獲得一第二表達器,藉由該第二表達器將該音訊資料之至少一第二部分表達為一或多個第二揚聲器饋入,以將該聲音如何在該第二聲音空間中傳播模型化;其中應用該表達器包含:將該第一表達器應用於該音訊資料之該第一部分以產生該等第一揚聲器饋入;將該第二表達器應用於該音訊資料之該第二部分以產生該等第二揚聲器饋入,且其中該方法經進一步組態以基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
條項27A。 如條項18A至26A之任何組合之方法,其中該音訊資料包含基於場景之音訊資料。
條項28A。 如條項18A至26A之任何組合之方法,其中該音訊資料包含基於物件之音訊資料。
條項29A。 如條項18A至26A之任何組合之方法,其中該音訊資料包含基於聲道之音訊資料。
條項30A。 如條項18A至26A之任何組合之方法,其中該音訊資料包含第一組音訊物件,其包括於該兩個或多於兩個聲音空間中之一第一聲音空間中,其中獲得該表達器包含基於該閉塞後設資料及該位置獲得用於該第一組音訊物件之一第一表達器,且其中應用該表達器包含將該第一表達器應用於該第一組音訊物件以獲得第一揚聲器饋入。
條項31A。 如條項30A之方法,其中該音訊資料包含第二組物件,其包括於該兩個或多於兩個聲音空間中之一第二聲音空間中,且其中該方法進一步包含:基於該閉塞後設資料及該位置獲得用於該第二組物件之一第二表達器;將該第二表達器應用於該第二組物件以獲得該等第二揚聲器饋入;及基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
條項32A。 如條項18A至31A之任何組合之方法,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一虛擬實境耳機。
條項33A。 如條項18A至31A之任何組合之方法,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一擴增實境耳機。
條項34A。 如條項18A至31A之任何組合之方法,其中該裝置包括經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器。
條項35A。 一種裝置,其包含:用於獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料的構件,該閉塞將該音場分隔為兩個或多於兩個聲音空間;用於獲得該裝置在該音場內相對於該閉塞之一位置的構件;用於基於該閉塞後設資料及該位置獲得一表達器的構件,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及用於將該表達器應用於該音訊資料以產生該等揚聲器饋入的構件。
條項36A。 如條項35A之裝置,其進一步包含用於獲得描述該裝置所駐留之一虛擬環境的環境後設資料的構件,且其中用於獲得該表達器的該構件包含用於基於該閉塞後設資料、該位置及該環境後設資料獲得該表達器的構件。
條項37A。 如條項36A之裝置,其中該環境後設資料描述一虛擬室內環境,且其中用於獲得該表達器的該構件包含用於在該環境後設資料描述該虛擬室內環境時且基於該閉塞後設資料及該位置獲得一雙耳室脈衝回應表達器的構件。
條項38A。 如條項36A之裝置,其中該環境後設資料描述一虛擬室外環境,且其中用於獲得該表達器的該構件包含用於在該環境後設資料描述該虛擬室外環境時且基於該閉塞後設資料及該位置獲得一頭部相關轉移函數表達器的構件。
條項39A。 如條項35A至38A之任何組合之裝置,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時所降低的一量。
條項40A。 如條項35A至39A之任何組合之裝置,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
條項41A。 如條項35A至40A之任何組合之裝置,其中該閉塞後設資料包括表示用以描述低通濾波器之係數或該低通濾波器之一參數描述的一低通濾波器描述。
條項42A。 如條項35A至41A之任何組合之裝置,其中該閉塞後設資料包括該閉塞之一位置之一指示。
條項43A。 如條項35A至42A之任何組合之裝置,其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料,且其中用於獲得該表達器的該構件包含:用於獲得一第一表達器的構件,藉由該第一表達器將該音訊資料之至少一第一部分表達為一或多個第一揚聲器饋入,以將該聲音如何在該第一聲音空間中傳播模型化;及用於獲得一第二表達器的構件,藉由該第二表達器將該音訊資料之至少一第二部分表達為一或多個第二揚聲器饋入,以將該聲音如何在該第二聲音空間中傳播模型化;其中用於應用該表達器的該構件包含:用於將該第一表達器應用於該音訊資料之該第一部分以產生該等第一揚聲器饋入的構件;及用於將該第二表達器應用於該音訊資料之該第二部分以產生該等第二揚聲器饋入的構件,其中該裝置進一步包含用於基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入的構件。
條項44A。 如條項35A至43A之任何組合之裝置,其中該音訊資料包含基於場景之音訊資料。
條項45A。 如條項35A至43A之任何組合之裝置,其中該音訊資料包含基於物件之音訊資料。
條項46A。 如條項35A至43A之任何組合之裝置,其中該音訊資料包含基於聲道之音訊資料。
條項47A。 如條項35A至43A之任何組合之裝置,其中該音訊資料包含第一組音訊物件,其包括於該兩個或多於兩個聲音空間中之一第一聲音空間中,其中用於獲得該表達器的該構件包含用於基於該閉塞後設資料及該位置獲得用於該第一組音訊物件之一第一表達器的構件,且其中用於應用該表達器的該構件包含用於將該第一表達器應用於該第一組音訊物件以獲得第一揚聲器饋入的構件。
條項48A。 如條項47A之裝置,其中該音訊資料包含第二組物件,其包括於該兩個或多於兩個聲音空間中之一第二聲音空間中,其中該裝置進一步包含:用於基於該閉塞後設資料及該位置獲得用於該第二組物件之一第二表達器的構件,其中用於應用該表達器的該構件包含:用於將該第二表達器應用於該第二組物件以獲得該等第二揚聲器饋入的構件;及用於基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入的構件。
條項49A。 如條項35A至48A之任何組合之裝置,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一虛擬實境耳機。
條項50A。 如條項35A至48A之任何組合之裝置,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一擴增實境耳機。
條項51A。 如條項35A至48A之任何組合之裝置,其中該裝置包括經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器。
條項52A。 一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在經執行時使得一裝置之一或多個處理器進行以下操作:獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;獲得該裝置在該音場內相對於該閉塞之一位置;基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及將該表達器應用於該音訊資料以產生該等揚聲器饋入。
條項1B。 一種裝置,其包含:一記憶體,其經組態以儲存表示一音場之音訊資料;及一或多個處理器,其耦接至該記憶體且經組態以:獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及在表示該音訊資料之一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
條項2B。 如條項1B之裝置,其中該一或多個處理器經進一步組態以獲得描述該裝置所駐留之一虛擬環境的環境後設資料,其中該一或多個處理器經組態以在該位元串流中指定該環境後設資料。
條項3B。 如條項2B之裝置,其中該環境後設資料描述一虛擬室內環境。
條項4B。 如條項2B之裝置,其中該環境後設資料描述一虛擬室外環境。
條項5B。 如條項1B至4B之任何組合之裝置,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時降低的一量。
條項6B。 如條項1B至5B之任何組合之裝置,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
條項7B。 如條項1B至6B之任何組合之裝置,其中該閉塞後設資料包括表示用以描述低通濾波器之係數的一低通濾波器描述或該低通濾波器之一參數描述。
條項8B。 如條項1B至7B之任何組合之裝置,其中該閉塞後設資料包括該閉塞之一位置之一指示。
條項9B。 如條項1B至8B之任何組合之裝置,其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料。
條項10B。 如條項1B至9B之任何組合之裝置,其中該音訊資料包含基於場景之音訊資料。
條項11B。 如條項1B至9B之任何組合之裝置,其中該音訊資料包含基於物件之音訊資料。
條項12B。 如條項1B至9B之任何組合之裝置,其中該音訊資料包含基於聲道之音訊資料。
條項13B。 一種方法,其包含:藉由一裝置獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及藉由該裝置在表示描述該音場之音訊資料的一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
條項14B。 如條項13B之方法,其進一步包含:獲得描述該裝置所駐留之一虛擬環境的環境後設資料;及在該位元串流中指定該環境後設資料。
條項15B。 如條項14B之方法,其中該環境後設資料描述一虛擬室內環境。
條項16B。 如條項14B之方法,其中該環境後設資料描述一虛擬室外環境。
條項17B。 如條項13B至16B之任何組合之方法,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時降低的一量。
條項18B。 如條項13B至17B之任何組合之方法,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
條項19B。 如條項13B至18B之任何組合之方法,其中該閉塞後設資料包括表示用以描述低通濾波器之係數的一低通濾波器描述或該低通濾波器之一參數描述。
條項20B。 如條項13B至19B之任何組合之方法,其中該閉塞後設資料包括該閉塞之一位置之一指示。
條項21B。 如條項13B至20B之任何組合之方法,其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料。
條項22B。 如條項13B至21B之任何組合之方法,其中該音訊資料包含基於場景之音訊資料。
條項23B。 如條項13B至21B之任何組合之方法,其中該音訊資料包含基於物件之音訊資料。
條項24B。 如條項13B至21B之任何組合之方法,其中該音訊資料包含基於聲道之音訊資料。
條項25B。 一種裝置,其包含:用於獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料的構件,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及用於在表示描述該音場之音訊資料的一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器的構件,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
條項26B。 如條項25B之裝置,其進一步包含:用於獲得描述該裝置所駐留之一虛擬環境的環境後設資料的構件、用於在該位元串流中指定該環境後設資料的構件。
條項27B。 如條項26B之裝置,其中該環境後設資料描述一虛擬室內環境。
條項28B。 如條項26B之裝置,其中該環境後設資料描述一虛擬室外環境。
條項29B。 如條項25B至28B之任何組合之裝置,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時降低的一量。
條項30B。 如條項25B至29B之任何組合之裝置,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
條項31B。 如條項25B至30B之任何組合之裝置,其中該閉塞後設資料包括表示用以描述低通濾波器之係數的一低通濾波器描述或該低通濾波器之一參數描述。
條項32B。 如條項25B至31B之任何組合之裝置,其中該閉塞後設資料包括該閉塞之一位置之一指示。
條項33B。 如條項25B至32B之任何組合之裝置,其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料。
條項34B。 如條項25B至33B之任何組合之裝置,其中該音訊資料包含基於場景之音訊資料。
條項35B。 如條項25B至33B之任何組合之裝置,其中該音訊資料包含基於物件之音訊資料。
條項36B。 如條項25B至33B之任何組合之裝置,其中該音訊資料包含基於聲道之音訊資料。
條項37B。 一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在經執行時使得一裝置之一或多個處理器進行以下操作:獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及在表示描述該音場之音訊資料之一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
應認識到,取決於實例,本文中所描述之技術中之任一者之某些動作或事件可以不同次序被執行,可被添加、合併,或完全省去(例如並非全部所描述動作或事件均為實踐該等技術所必要)。此外,在某些實例中,可例如經由多執行緒處理、中斷處理或多個處理器同時而非依序執行動作或事件。
在一些實例中,VR裝置(或串流處理裝置)可使用耦接至VR/串流處理裝置之記憶體之網路介面將交換訊息傳達至外部裝置,其中交換訊息與音場之多個可用表示相關聯。在一些實例中,VR裝置可使用耦接至網路介面之天線接收包括資料封包、音訊封包、視訊封包之無線信號,或輸送與音場之多個可用表示相關聯的協定資料。在一些實例中,一或多個麥克風陣列可俘獲音場。
在一些實例中,儲存至記憶體裝置之音場之多個可用表示可包括音場之複數個基於物件之表示、音場之高階立體混響表示、音場之混合階立體混響表示、音場之基於物件之表示與音場之高階立體混響表示之組合、音場之基於物件之表示與音場之混合階立體混響表示之組合,或音場之混合階表示與音場之高階立體混響表示之組合。
在一些實例中,音場之多個可用表示的音場表示中之一或多者可包括至少一個高解析度區及至少一個較低解析度區,且其中基於轉向角之選定表達針對至少一個高解析度區提供較大空間精確度並針對較低解析度區提供較小空間精確度。
在一或多個實例中,所描述之功能可實施於硬體、軟體、韌體或其任何組合中。若實施於軟體中,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,並由基於硬體之處理單元執行。電腦可讀媒體可包括:電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體;或通信媒體,其包括促進例如根據通信協定將電腦程式自一處傳送至另一處之任何媒體。以此方式,電腦可讀媒體通常可對應於(1)為非暫時性的有形電腦可讀儲存媒體,或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
作為實例而非限制,此類電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存、磁碟儲存或其他磁性儲存裝置、快閃記憶體,或可用以儲存呈指令或資料結構形式之所要程式碼並可由電腦存取的任何其他媒體。又,任何連接被適當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纜、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術而自網站、伺服器或其他遠端源傳輸指令,則同軸纜線、光纜、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體並不包括連接、載波、信號或其他暫時性媒體,而是有關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式重現資料,而光碟運用雷射以光學方式重現資料。以上各者之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效的整合或離散邏輯電路系統。因此,如本文所用之術語「處理器」可指前述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能性可提供於經組態用於編碼及解碼之專用硬體及/或軟體模組內,或併入於組合式編解碼器中。又,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可實施於各種各樣的裝置或設備中,該等裝置或設備包括無線手機、積體電路(IC)或IC集合(例如晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置之功能態樣,但未必要求由不同硬體單元來實現。更確切地,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合在編解碼器硬體單元中或由互操作硬體單元之集合提供,該等硬體單元包括如上文所描述之一或多個處理器。
已描述了各種實例。此等及其他實例在以下申請專利範圍之範疇內。
5:麥克風
5A:麥克風
5N:麥克風
10:系統
11:立體混響係數/基於場景之音訊資料/音訊串流
11A:立體混響係數/基於場景之音訊資料
11N:立體混響係數/基於場景之音訊資料
11':立體混響係數
11A':立體混響係數
11N':立體混響係數
12:源裝置
13:擴音器資訊
14:內容消費者裝置
15:立體混響音訊資料
15A:音訊資料
15B:音訊資料
15C:音訊資料
15D:音訊資料
15E:音訊資料
15F:音訊資料
15G:音訊資料
15H:音訊資料
15J:音訊資料
15K:音訊資料
15L:音訊資料
16:音訊播放系統
16A:音訊播放系統/音訊播放裝置
16B:音訊播放裝置
17:位置
21:音訊位元串流
21A:延伸實境(XR)音訊位元串流
21B:音訊位元串流
22:音訊表達器/閉塞感知表達器
22A:六自由度(6DOF)音訊表達器/第一表達器
24:音訊解碼裝置
25:揚聲器饋入
30:內插裝置
100:無線通信系統
102:雙耳表達器
103:左側及右側揚聲器饋入
104:頭戴式耳機
105:基地台
110:地理涵蓋範圍區域
115:使用者裝備(UE)
125:通信鏈路
130:核心網路
132:空載傳輸鏈路
134:空載傳輸鏈路
200:攝影機
300:內容俘獲裝置
301:內容
302:音場表示產生器
303:編輯音訊內容
304:內容編輯器裝置/內容編輯裝置
305:編輯音訊資料/閉塞後設資料
305A:阻障後設資料
305N:阻障後設資料
306:追蹤裝置
317:使用者方位/位置
400A:虛擬實境裝置/虛擬實境耳機
400B:虛擬實境裝置/可穿戴式裝置
402:使用者
404:頭戴式耳機
450A:音場
450B:音場
452:部分
454A:位置
454B:位置
456A:聲音空間
456B:聲音空間
460A:音場
460B:音場
464A:區域
464B:區域
464C:區域
470A:入射聲能
470B:經反射聲能
470C:所傳輸聲能
472:閉塞
480:音量控制單元
482:低通濾波器單元
490:音場
492:聲音空間
492A:聲音空間
492B:聲音空間
494:閉塞
500A:聲音景觀後設資料
500B:聲音景觀後設資料
500N:聲音景觀後設資料
800:可穿戴式裝置
900A:低延遲解碼器
900B:音訊解碼器
901A:音訊串流
901B:音訊串流
902:本端音訊緩衝器
903:音訊串流
905A:虛擬實境後設資料
905B:6自由度後設資料
950:步驟
952:步驟
960:步驟
962:步驟
964:步驟
966:步驟
圖1A及圖1B為說明可執行本發明中所描述之技術之各種態樣的系統的圖解。
圖2為說明圖1A之音訊解碼裝置可如何應用技術之各種態樣來促進音訊資料之閉塞感知表達的實例之方塊圖。
圖3為說明圖1A之音訊解碼裝置可如何應用技術之各種態樣來促進音訊資料之閉塞感知表達的另一實例之方塊圖。
圖4為說明可根據本發明中所描述之技術之各種態樣提供的實例閉塞及隨附閉塞後設資料的方塊圖。
圖5為說明圖1A之音訊解碼裝置可基於閉塞後設資料組態的閉塞感知表達器之實例的方塊圖。
圖6為說明根據本發明中所描述之技術之各種態樣的圖1A之音訊解碼裝置可如何在閉塞將音場分成兩個聲音空間時獲得表達器的方塊圖。
圖7為說明根據本發明中所描述之技術之各種態樣形成的圖1A之音訊位元串流之實例部分的方塊圖。
圖8為根據本發明中所描述之技術之各種態樣的用以組態圖1之閉塞感知表達器的輸入之方塊圖。
圖9A及圖9B為說明可執行本發明中所描述之技術的各種態樣之實例系統的圖解。
圖10A及圖10B為說明可執行本發明中描述之技術的各種態樣之其他實例系統的圖解。
圖11為說明圖1A及圖1B之系統在執行本發明中所描述之技術之各種態樣的實例操作之流程圖。
圖12為說明圖1A之實例中所示之音訊播放系統在執行本發明中所描述之技術之各種態樣的實例操作的流程圖。
圖13為圖1A及圖1B之實例中所示之音訊播放裝置在執行本發明中所描述之技術之各種態樣時的方塊圖。
圖14說明根據本發明之態樣的支援音訊串流傳輸之無線通信系統的實例。
15:立體混響音訊資料
22:音訊表達器/閉塞感知表達器
480:音量控制單元
482:低通濾波器單元
Claims (30)
- 一種裝置,其包含: 一記憶體,其經組態以儲存表示一音場之音訊資料;及 一或多個處理器,其耦接至該記憶體且經組態以: 獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間; 獲得該裝置在該音場內相對於該閉塞之一位置; 基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及 將該表達器應用於該音訊資料以產生該等揚聲器饋入。
- 如請求項1之裝置, 其中該一或多個處理器經進一步組態以獲得描述該裝置所駐留之一虛擬環境的環境後設資料,且 其中該一或多個處理器經組態以基於該閉塞後設資料、該位置及該環境後設資料獲得該表達器。
- 如請求項2之裝置, 其中該環境後設資料描述一虛擬室內環境,且 其中該一或多個處理器經組態以在該環境後設資料描述該虛擬室內環境時且基於該閉塞後設資料及該位置獲得一雙耳室脈衝回應表達器。
- 如請求項2之裝置, 其中該環境後設資料描述一虛擬室外環境,且 其中該一或多個處理器經組態以在該環境後設資料描述該虛擬室外環境時且基於該閉塞後設資料及該位置獲得一頭部相關轉移函數表達器。
- 如請求項1之裝置,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時降低的一量。
- 如請求項1之裝置,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
- 如請求項1之裝置,其中該閉塞後設資料包括表示用以描述低通濾波器之係數的一低通濾波器描述或該低通濾波器之一參數描述。
- 如請求項1之裝置,其中該閉塞後設資料包括該閉塞之一位置之一指示。
- 如請求項1之裝置, 其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料, 其中該一或多個處理器經組態以: 獲得一第一表達器,藉由該第一表達器將該音訊資料之至少一第一部分表達為一或多個第一揚聲器饋入,以將該聲音如何在該第一聲音空間中傳播模型化; 獲得一第二表達器,藉由該第二表達器將該音訊資料之至少一第二部分表達為一或多個第二揚聲器饋入,以將該聲音如何在該第二聲音空間中傳播模型化; 將該第一表達器應用於該音訊資料之該第一部分以產生該等第一揚聲器饋入;及 將該第二表達器應用於該音訊資料之該第二部分以產生該等第二揚聲器饋入,且 其中該處理器經進一步組態以基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
- 如請求項1之裝置,其中該音訊資料包含基於場景之音訊資料。
- 如請求項1之裝置,其中該音訊資料包含基於物件之音訊資料。
- 如請求項1之裝置,其中該音訊資料包含基於聲道之音訊資料。
- 如請求項1之裝置, 其中該音訊資料包含第一組音訊物件,其包括於該兩個或多於兩個聲音空間中之一第一聲音空間中, 其中該一或多個處理器經組態以基於該閉塞後設資料及該位置獲得用於該第一組音訊物件之一第一表達器,且 其中該一或多個處理器經組態以將該第一表達器應用於該第一組音訊物件以獲得第一揚聲器饋入。
- 如請求項13之裝置, 其中該音訊資料包含第二組物件,其包括於該兩個或多於兩個聲音空間中之一第二聲音空間中, 其中該一或多個處理器經進一步組態以基於該閉塞後設資料及該位置獲得用於該第二組物件之一第二表達器,且 其中該一或多個處理器經組態以: 將該第二表達器應用於該第二組物件以獲得第二揚聲器饋入,及 基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
- 如請求項1之裝置,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一虛擬實境耳機。
- 如請求項1之裝置,其中該裝置包括耦接至經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器之一擴增實境耳機。
- 如請求項1之裝置,其中該裝置包括經組態以基於該等揚聲器饋入重現該音場的一或多個揚聲器。
- 一種方法,其包含: 藉由一裝置獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間; 藉由該裝置獲得該裝置在該音場內相對於該閉塞之一位置; 藉由該裝置基於該閉塞後設資料及該位置獲得一表達器,藉由該表達器將表示該音場之音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該裝置所駐留之該兩個或多於兩個聲音空間中之一者中的傳播;及 藉由該裝置將該表達器應用於該音訊資料以產生該等揚聲器饋入。
- 如請求項18之方法,其進一步包含獲得描述該裝置所駐留之一虛擬環境的環境後設資料, 其中獲得該表達器包含基於該閉塞後設資料、該位置及該環境後設資料獲得該表達器。
- 如請求項19之方法, 其中該環境後設資料描述一虛擬室內環境,且 其中獲得該表達器包含在該環境後設資料描述該虛擬室內環境時且基於該閉塞後設資料及該位置獲得一雙耳室脈衝回應表達器。
- 如請求項19之方法, 其中該環境後設資料描述一虛擬室外環境,且 其中獲得該表達器包含在該環境後設資料描述該虛擬室外環境時且基於該閉塞後設資料及該位置獲得一頭部相關轉移函數表達器。
- 如請求項18之方法,其中該閉塞後設資料包括一音量減弱因數,其表示與該音訊資料相關聯之一音量在穿過該閉塞時降低的一量。
- 如請求項18之方法,其中該閉塞後設資料包括表示存在用於該音訊資料之一直接路徑抑或混響處理將應用於該音訊資料的一僅直接路徑指示。
- 如請求項18之方法,其中該閉塞後設資料包括表示用以描述低通濾波器之係數的一低通濾波器描述或該低通濾波器之一參數描述。
- 如請求項18之方法,其中該閉塞後設資料包括該閉塞之一位置之一指示。
- 如請求項18之方法, 其中該閉塞後設資料包括用於該兩個或多於兩個聲音空間中之一第一聲音空間的第一閉塞後設資料及用於該兩個或多於兩個聲音空間中之一第二聲音空間的第二閉塞後設資料, 其中獲得該表達器包含: 獲得一第一表達器,藉由該第一表達器將該音訊資料之至少一第一部分表達為一或多個第一揚聲器饋入,以將該聲音如何在該第一聲音空間中傳播模型化;及 獲得一第二表達器,藉由該第二表達器將該音訊資料之至少一第二部分表達為一或多個第二揚聲器饋入,以將該聲音如何在該第二聲音空間中傳播模型化,且 其中應用該表達器包含: 將該第一表達器應用於該音訊資料之該第一部分以產生該等第一揚聲器饋入; 將該第二表達器應用於該音訊資料之該第二部分以產生該等第二揚聲器饋入;且 其中該方法進一步包含獲得基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
- 如請求項18之方法, 其中該音訊資料包含第一組音訊物件,其包括於該兩個或多於兩個聲音空間中之一第一聲音空間中, 其中獲得該表達器包含基於該閉塞後設資料及該位置獲得用於該第一組音訊物件之一第一表達器,且 其中應用該表達器包含將該第一表達器應用於該第一組音訊物件以獲得第一揚聲器饋入。
- 如請求項27之方法, 其中該音訊資料包含第二組物件,其包括於該兩個或多於兩個聲音空間中之一第二聲音空間中,且 其中該方法進一步包含: 基於該閉塞後設資料及該位置獲得用於該第二組物件之一第二表達器, 將該第二表達器應用於該第二組物件以獲得第二揚聲器饋入,及 基於該等第一揚聲器饋入及該等第二揚聲器饋入獲得該等揚聲器饋入。
- 一種裝置,其包含: 一記憶體,其經組態以儲存表示一音場之音訊資料;及 一或多個處理器,其耦接至該記憶體且經組態以: 獲得表示該音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及 在表示該音訊資料之一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
- 一種方法,其包含: 藉由一裝置獲得表示一音場內之一閉塞的關於聲音穿過該閉塞之傳播的閉塞後設資料,該閉塞將該音場分隔為兩個或多於兩個聲音空間;及 藉由該裝置在表示描述該音場之音訊資料的一位元串流中指定該閉塞後設資料,以使得能夠獲得一表達器,藉由該表達器將該音訊資料表達為一或多個揚聲器饋入,其考慮該聲音在該兩個或多於兩個聲音空間中之一者中的傳播。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862740085P | 2018-10-02 | 2018-10-02 | |
US62/740,085 | 2018-10-02 | ||
US16/584,614 US11128976B2 (en) | 2018-10-02 | 2019-09-26 | Representing occlusion when rendering for computer-mediated reality systems |
US16/584,614 | 2019-09-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202022594A true TW202022594A (zh) | 2020-06-16 |
Family
ID=69945317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108135608A TW202022594A (zh) | 2018-10-02 | 2019-10-01 | 當表達電腦調解之實境系統時表示閉塞 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11128976B2 (zh) |
CN (1) | CN112771894B (zh) |
TW (1) | TW202022594A (zh) |
WO (1) | WO2020072369A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI747333B (zh) * | 2020-06-17 | 2021-11-21 | 光時代科技有限公司 | 基於光通信裝置的交互方法、電子設備以及電腦可讀取記錄媒體 |
TWI759065B (zh) * | 2021-01-11 | 2022-03-21 | 禾聯碩股份有限公司 | 物聯網的語音控制系統及其方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11617050B2 (en) | 2018-04-04 | 2023-03-28 | Bose Corporation | Systems and methods for sound source virtualization |
US20210112287A1 (en) * | 2018-04-11 | 2021-04-15 | Lg Electronics Inc. | Method and apparatus for transmitting or receiving metadata of audio in wireless communication system |
US11580213B2 (en) | 2019-07-03 | 2023-02-14 | Qualcomm Incorporated | Password-based authorization for audio rendering |
US11982738B2 (en) | 2020-09-16 | 2024-05-14 | Bose Corporation | Methods and systems for determining position and orientation of a device using acoustic beacons |
US11700497B2 (en) | 2020-10-30 | 2023-07-11 | Bose Corporation | Systems and methods for providing augmented audio |
US11696084B2 (en) * | 2020-10-30 | 2023-07-04 | Bose Corporation | Systems and methods for providing augmented audio |
CN118285117A (zh) * | 2021-09-28 | 2024-07-02 | 北京字跳网络技术有限公司 | 音频渲染方法、音频渲染设备和电子设备 |
KR20240095457A (ko) * | 2021-11-09 | 2024-06-25 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 디폴트 음향 환경에 대한 정보를 사용하여 가상 오디오 장면을 렌더링하는 장치 및 방법 |
AU2022387785A1 (en) * | 2021-11-09 | 2024-05-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Late reverberation distance attenuation |
US20230224668A1 (en) * | 2022-01-13 | 2023-07-13 | Electronics And Telecommunications Research Institute | Apparatus for immersive spatial audio modeling and rendering |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188769B1 (en) * | 1998-11-13 | 2001-02-13 | Creative Technology Ltd. | Environmental reverberation processor |
US6973192B1 (en) | 1999-05-04 | 2005-12-06 | Creative Technology, Ltd. | Dynamic acoustic rendering |
US20080240448A1 (en) | 2006-10-05 | 2008-10-02 | Telefonaktiebolaget L M Ericsson (Publ) | Simulation of Acoustic Obstruction and Occlusion |
WO2010070225A1 (fr) | 2008-12-15 | 2010-06-24 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
US8442244B1 (en) | 2009-08-22 | 2013-05-14 | Marshall Long, Jr. | Surround sound system |
US9122053B2 (en) * | 2010-10-15 | 2015-09-01 | Microsoft Technology Licensing, Llc | Realistic occlusion for a head mounted augmented reality display |
US8831255B2 (en) * | 2012-03-08 | 2014-09-09 | Disney Enterprises, Inc. | Augmented reality (AR) audio with position and action triggered virtual sound effects |
CN104768121A (zh) * | 2014-01-03 | 2015-07-08 | 杜比实验室特许公司 | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 |
US10123147B2 (en) * | 2016-01-27 | 2018-11-06 | Mediatek Inc. | Enhanced audio effect realization for virtual reality |
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
-
2019
- 2019-09-26 US US16/584,614 patent/US11128976B2/en active Active
- 2019-09-30 CN CN201980063463.3A patent/CN112771894B/zh active Active
- 2019-09-30 WO PCT/US2019/053837 patent/WO2020072369A1/en active Application Filing
- 2019-10-01 TW TW108135608A patent/TW202022594A/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI747333B (zh) * | 2020-06-17 | 2021-11-21 | 光時代科技有限公司 | 基於光通信裝置的交互方法、電子設備以及電腦可讀取記錄媒體 |
TWI759065B (zh) * | 2021-01-11 | 2022-03-21 | 禾聯碩股份有限公司 | 物聯網的語音控制系統及其方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200107147A1 (en) | 2020-04-02 |
CN112771894A (zh) | 2021-05-07 |
US11128976B2 (en) | 2021-09-21 |
CN112771894B (zh) | 2022-04-29 |
WO2020072369A1 (en) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112771894B (zh) | 针对计算机介导现实系统进行渲染时表示遮挡 | |
US10924876B2 (en) | Interpolating audio streams | |
TWI838554B (zh) | 具有用於控制擴展實境體驗之音訊呈現之使用者介面之裝置及非暫時性電腦可讀儲存媒體及其方法 | |
US11356793B2 (en) | Controlling rendering of audio data | |
TW202110198A (zh) | 用於擴展實境體驗之音訊擷取及呈現 | |
TW202110201A (zh) | 用於音訊串流及呈現之基於計時器存取 | |
TW202127916A (zh) | 用於虛擬實境音訊的聲場調適 | |
US20210006976A1 (en) | Privacy restrictions for audio rendering | |
TW202133625A (zh) | 基於運動選擇音訊串流 | |
TW202117500A (zh) | 用於音訊呈現之隱私分區及授權 | |
TW202107905A (zh) | 用於音訊呈現之以密碼為基礎之授權 | |
TW202110197A (zh) | 調適用於呈現之音訊流 | |
US11750998B2 (en) | Controlling rendering of audio data | |
US11601776B2 (en) | Smart hybrid rendering for augmented reality/virtual reality audio | |
US20240129681A1 (en) | Scaling audio sources in extended reality systems |