TW202110201A - 用於音訊串流及呈現之基於計時器存取 - Google Patents
用於音訊串流及呈現之基於計時器存取 Download PDFInfo
- Publication number
- TW202110201A TW202110201A TW109122455A TW109122455A TW202110201A TW 202110201 A TW202110201 A TW 202110201A TW 109122455 A TW109122455 A TW 109122455A TW 109122455 A TW109122455 A TW 109122455A TW 202110201 A TW202110201 A TW 202110201A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- audio streams
- sound field
- streams
- subset
- Prior art date
Links
- 238000009877 rendering Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 86
- 230000008859 change Effects 0.000 claims description 20
- 238000013475 authorization Methods 0.000 claims description 17
- 238000012508 change request Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 56
- 238000004891 communication Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 30
- 230000005540 biological transmission Effects 0.000 description 29
- 230000006870 function Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 17
- 230000003287 optical effect Effects 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 210000003128 head Anatomy 0.000 description 11
- 230000004886 head movement Effects 0.000 description 11
- 230000033001 locomotion Effects 0.000 description 10
- 238000013519 translation Methods 0.000 description 10
- 238000007654 immersion Methods 0.000 description 9
- 239000004984 smart glass Substances 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 230000003190 augmentative effect Effects 0.000 description 7
- 230000001404 mediated effect Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000003068 static effect Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 101150036464 aptx gene Proteins 0.000 description 4
- 239000000969 carrier Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000760358 Enodes Species 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- VCGRFBXVSFAGGA-UHFFFAOYSA-N (1,1-dioxo-1,4-thiazinan-4-yl)-[6-[[3-(4-fluorophenyl)-5-methyl-1,2-oxazol-4-yl]methoxy]pyridin-3-yl]methanone Chemical compound CC=1ON=C(C=2C=CC(F)=CC=2)C=1COC(N=C1)=CC=C1C(=O)N1CCS(=O)(=O)CC1 VCGRFBXVSFAGGA-UHFFFAOYSA-N 0.000 description 1
- CYJRNFFLTBEQSQ-UHFFFAOYSA-N 8-(3-methyl-1-benzothiophen-5-yl)-N-(4-methylsulfonylpyridin-3-yl)quinoxalin-6-amine Chemical compound CS(=O)(=O)C1=C(C=NC=C1)NC=1C=C2N=CC=NC2=C(C=1)C=1C=CC2=C(C(=CS2)C)C=1 CYJRNFFLTBEQSQ-UHFFFAOYSA-N 0.000 description 1
- 208000035742 Air-borne transmission Diseases 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005557 airborne transmission Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- -1 enhanced AptX-E-AptX Proteins 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 201000003152 motion sickness Diseases 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007261 regionalization Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- XGVXKJKTISMIOW-ZDUSSCGKSA-N simurosertib Chemical compound N1N=CC(C=2SC=3C(=O)NC(=NC=3C=2)[C@H]2N3CCC(CC3)C2)=C1C XGVXKJKTISMIOW-ZDUSSCGKSA-N 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25875—Management of end-user data involving end-user authentication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/26208—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
- H04N21/26241—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the time of distribution, e.g. the best time of the day for inserting an advertisement or airing a children program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2668—Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4524—Management of client data or end-user data involving the geographical location of the client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Security & Cryptography (AREA)
- Marketing (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Stereophonic System (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本發明提出用於音訊串流及呈現之基於計時器存取的實例裝置及方法。舉例而言,一種經組態以播放複數個音訊串流中之一或多者之裝置包括經組態以儲存時序資訊及該複數個音訊串流之一記憶體。該裝置亦包括耦接至該記憶體之一或多個處理器。該一或多個處理器經組態以基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
Description
本發明係關於媒體資料(諸如音訊資料)之處理。
電腦媒介實境系統經開發以允許計算裝置擴增或新增、移除或減去,或一般而言修改使用者體驗的現有實境。電腦媒介實境系統(其亦可被稱為「擴展實境系統」或「XR系統」)可包括虛擬實境(VR)系統、擴增實境(AR)系統及混合實境(MR)系統,作為實例。電腦媒介實境系統之所感知成功大體上係關於此類電腦媒介實境系統在視訊及音訊體驗兩者方面提供切合實際之沉浸式體驗的能力,其中視訊及音訊體驗以使用者所預期之方式對準。儘管人類視覺系統比人類聽覺系統更敏感(例如,在場景內的各種對象之感知定位方面),但確保充分聽覺體驗係確保切合實際沉浸式體驗的更有意義的因素,此尤其因為視訊體驗改良而允許使得使用者能夠較佳地識別音訊內容之源的視訊對象之較佳定位。
本發明大體上係關於電腦媒介實境系統之使用者體驗的聽覺態樣,該電腦媒介實境系統包括虛擬實境(VR)、混合實境(MR)、擴增實境(AR)、電腦視覺及圖形系統。技術之各種態樣可提供用於擴展實境系統之適應性音訊捕捉、合成及呈現。如本文中所使用,聲學環境表示為室內環境或室外環境,或室內環境及室外環境兩者。聲學環境可包括一或多個可包括各種聲學元素的子聲學空間。室外環境之實例可包括汽車、建築物、牆壁、森林,等。聲學空間可為聲學環境的實例,且可為室內空間或室外空間。如本文中所使用,音訊元素為由麥克風捕捉(例如,直接自近場源捕捉或自遠場源反射,無論真實抑或合成)之聲音,或先前合成的聲場,或自文字合成為語音之單音,或虛擬聲音自聲學環境中的對象之反射。
在一個實例中,技術之各種態樣係關於一種裝置,一記憶體,其經組態以儲存時序資訊及複數個音訊串流;及一或多個處理器,其耦接至該記憶體且經組態以基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
在另一實例中,技術之各種態樣係關於一種播放複數個音訊串流中之一或多者之方法,該方法包含:由一記憶體儲存時序資訊及複數個音訊串流;及基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
在另一實例中,技術之各種態樣係關於一種經組態以播放複數個音訊串流中之一或多者之裝置,該裝置包含:用於儲存數個音訊串流的構件及用於基於該時序資訊控制對該複數個音訊串流中之至少一者之存取的構件。
在另一實例中,技術之各種態樣係關於一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在經執行時使一或多個處理器:儲存時序資訊及複數個音訊串流;及基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
在附圖及以下描述中闡述本發明的一或多個實例的細節。技術之各種態樣的其他特徵、目標及優點將自描述、圖式及申請專利範圍顯而易見。
本申請案主張2019年7月3日申請之美國臨時申請案第62/870,599號之優先權,該申請案之全部內容以引用之方式併入本文中。
當前,呈現具有可自例如實時場景中之音訊捕捉裝置獲得的許多音訊源之XR場景可呈現含有將較佳受限制的敏感資訊的音訊源,或若存取被准許,則存取不應永久。根據本發明之技術,個別音訊串流可被限制呈現或可基於時序資訊(諸如時間或持續時間)暫時地呈現。某些個別音訊串流或音訊串流之叢集可為了較佳音訊內插而在固定持續時間內啟用或停用。因此,本發明之技術提供基於時間控制對音訊串流之存取的可撓式方式。
存在數種表示聲場之不同方式。實例格式包括基於通道之音訊格式、基於對象之音訊格式及基於場景之音訊格式。基於通道之音訊格式係指5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或將音訊通道定位於聽者周圍之特定方位以便重建聲場的任何其他基於通道之格式。
基於對象之音訊格式可指規定常常使用脈衝寫碼調變(PCM)進行編碼且被稱作PCM音訊對象之音訊對象以便表示聲場的格式。此等音訊對象可包括識別音訊對象相對於聽者或聲場中之其他參考點之方位的方位資訊(諸如方位後設資料),使得該音訊對象可呈現至一或多個揚聲器通道用於播放以致力於重建聲場。本發明中所描述之技術可應用於以下格式中之任一者,包括基於場景之音訊格式、基於通道之音訊格式、基於對象之音訊格式或其任何組合。
表達式展示在時間t
處,聲場之任一點處的壓力可由SHC,唯一地表示。此處,,c
為聲音之速度(約343 m/s),為參考點(或觀測點),為階數n
之球貝塞爾函數,且為階數n
及子階數m
之球諧基底函數(其亦可稱作球基底函數)。可認識到,方括號中之項為信號之頻域表示(例如,),其可藉由各種時間-頻率變換(諸如,離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層式集合之其他實例包括小波變換係數集合及多解析度基底函數係數之其他集合。
可由各種麥克風陣列組態實體地獲取(例如,記錄)SHC,或替代地,其可自聲場之基於通道或基於對象之描述導出。SHC(其亦可被稱為立體混響係數)表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2
個(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列實體地獲取SHC之各種實例描述於Poletti, M., 之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,」(J. Audio Eng. Soc., 第53卷, 第11期, 2005年11月,第1004-1025頁)中。
以下等式可說明可如何自基於對象之描述導出SHC。可將對應於個別音訊對象之聲場之係數表達為:,
其中i為,為n階之球面漢克函數(第二種類),且為對象之方位。知曉隨頻率改變之對象源能量(例如,使用時間-頻率分析技術,諸如對經脈衝寫碼調變PCM串流執行快速傅立葉變換)可實現每一PCM對象及對應方位轉換至SHC。另外,可展示(由於上式為線性及正交分解):每一對象之係數為相加性的。以此方式,數個PCM對象可由係數(例如,作為個別對象之係數向量的總和)來表示。係數可含有關於聲場的資訊(隨三維(3D)座標變化的壓力),且上述表示自個別對象至在觀測點附近之整個聲場之表示的變換。
正在開發電腦媒介實境系統(其亦可被稱為「擴展實境系統」或「XR系統」),以利用由立體混響係數提供之許多潛在益處。舉例而言,立體混響係數可以可能實現聲場內的聲源之準確3D定位的方式表示三維聲場。因而,XR裝置可將立體混響係數呈現至揚聲器饋送,該等揚聲器饋送當經由一或多個揚聲器播放時準確地再現聲場。
作為另一實例,立體混響係數可平移或旋轉以考慮使用者移動而無需過度複雜的數學運算,藉此潛在地適應XR裝置之低潛時要求。另外,立體混響係數為階層式,且藉此經由階數縮減來自然地適應可縮放性(其可去除與高階相關聯之立體混響係數),且藉此潛在實現聲場之動態自適應以適應XR裝置之潛時及/或電池要求。
將立體混響係數用於XR裝置可實現依賴於由立體混響係數提供之更沉浸式聲場的數個使用情況之開發,尤其對於電腦遊戲應用及實況視訊串流應用而言。在此等依賴於聲場之低潛時再現的高度動態使用情況中,XR裝置可能偏好立體混響係數,而非更加難以操控或涉及複雜呈現的其他表示。下文關於圖1A至圖1C提供關於此等使用情況之更多資訊。
雖然在本發明中關於VR裝置進行描述,但技術之各種態樣可在諸如行動裝置之其他裝置的上下文中執行。在此情況下,行動裝置(諸如所謂的智慧型電話)可經由螢幕顯現聲學空間,該螢幕可安裝至使用者102之頭部或當正常使用行動裝置時將被檢視。因而,關於螢幕之任何資訊可為行動裝置之部分。行動裝置可能夠提供追蹤資訊,且藉此允許VR體驗(當戴在頭上時)及正常體驗兩者,以檢視聲學空間,其中正常體驗可仍允許使用者檢視聲學空間,從而提供VR鏡片型體驗(例如,舉起裝置且將該裝置旋轉或平移以檢視聲學空間之不同部分)。
圖1A至圖1C為說明可執行本發明中描述之技術的各種態樣之系統的圖式。如圖1A之實例中所示,系統10包括源裝置12A及內容消費者裝置14A。雖然在源裝置12A及內容消費者裝置14A之上下文中描述,但技術可實施於聲場之任何表示經編碼以形成表示音訊資料之位元串流的任一上下文中。此外,源裝置12A可表示能夠產生聲場之表示的任何形式之計算裝置,且在本文中一般在VR內容創建者裝置之上下文中描述。同樣,內容消費裝置14A可表示能夠實施本發明中所描述之呈現技術以及音訊播放的任何形式之計算裝置,且在本文中一般在VR用戶端裝置之上下文中描述。
源裝置12A可由娛樂公司或產生單聲道及/或多通道音訊內容以供內容消費者裝置(諸如內容消費者裝置14A)之操作者消費的其他實體來操作。在一些VR情形中,源裝置12A結合視訊內容產生音訊內容。源裝置12A包括內容捕捉裝置20、內容編輯裝置22及聲場表示產生器24。內容捕捉裝置20可經組態以與麥克風18介接或以其他方式通信。
麥克風18可表示能夠捕捉聲場並且將該聲場表示為音訊資料19之Eigenmike®或其他類型之3D音訊麥克風,該音訊資料可指以上提及之基於場景之音訊資料(諸如立體混響係數)、基於對象之音訊資料及基於通道之音訊資料中之一或多者。儘管描述為3D音訊麥克風,但麥克風18亦可表示經組態以捕捉音訊資料19的其他類型之麥克風(諸如全向麥克風、現場麥克風、單向麥克風等)。音訊資料19可表示音訊串流或包括音訊串流。
在一些實例中,內容捕捉裝置20可包括整合至內容捕捉裝置20之外殼中的整合式麥克風18。內容捕捉裝置20可無線地或經由有線連接與麥克風18介接。替代經由麥克風18捕捉或結合捕捉音訊資料19,在無線地經由某一類型之可移式儲存器及/或經由有線輸入程序輸入音訊資料19之後,內容捕捉裝置20可處理音訊資料19。因而,根據本發明,內容捕捉裝置20與麥克風18之各種組合係可能的。
內容捕捉裝置20亦可經組態以與內容編輯裝置22介接或以其他方式通信。在一些情況下,內容捕捉裝置20可包括內容編輯裝置22 (在一些情況下,該內容編輯裝置可表示軟體或軟體及硬體之組合,包括由內容捕捉裝置20執行之軟體,以對內容捕捉裝置20進行組態,以執行特定形式之內容編輯)。內容編輯裝置22可表示經組態以編輯或以其他方式更改自內容捕捉裝置20接收到之內容21 (包括音訊資料19)的單元。內容編輯裝置22可將經編輯內容23及相關聯的後設資料25輸出至聲場表示產生器24。
聲場表示產生器24可包括能夠與內容編輯裝置22 (或內容捕捉裝置20)介接之任何類型的硬體裝置。儘管圖1A之實例中未展示,但聲場表示產生器24可使用由內容編輯裝置22提供之包括音訊資料19及後設資料25之經編輯內容23以產生一或多個位元串流27。在聚焦於音訊資料19之圖1A之實例中,聲場表示產生器24可產生由音訊資料19表示之同一聲場的一或多個表示,以獲得包括聲場之表示及音訊後設資料25的位元串流27。
舉例而言,為使用立體混響係數產生聲場之不同表示(其再次為音訊資料19之一個實例),聲場表示產生器24可將寫碼方案用於聲場之立體混響表示,被稱作混合階立體混響(MOA),如2017年8月8日申請的名為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS」,且在2019年1月3日公開為美國專利公開案第20190007781號的美國申請案第15/672,058號中更詳細論述。
為產生聲場之特定MOA表示,聲場表示產生器24可產生立體混響係數之全集的部分子集。舉例而言,由聲場表示產生器24所產生之每一MOA表示可相對於聲場之一些區域提供精確度,但於其他區域中精確度較小。在一個實例中,聲場之MOA表示可包括八個(8)未經壓縮立體混響係數,而同一聲場之三階立體混響表示可包括十六個(16)未經壓縮立體混響係數。因而,經產生作為立體混響係數之部分子集的聲場之每一MOA表示可能相比由立體混響係數產生的同一聲場之對應三階立體混響表示在儲存方面不太充分且在頻寬方面不太充分(在作為位元串流27之部分而經由所說明傳輸通道傳輸的情況下及在此時)。
儘管關於MOA表示所描述,但亦可關於一階立體混響(FOA)表示執行本發明之技術,其中使用與一階球基底函數及零階球基底函數相關聯之所有立體混響係數表示聲場。換言之,替代使用立體混響係數之部分非零子集來表示聲場,聲場表示產生器302可使用給定階數N之所有立體混響係數來表示聲場,產生等於(N+1)2
之總立體混響係數。
就此而言,立體混響音訊資料(其為指代MOA表示或完整階表示任一者中的立體混響係數之另一種方式,諸如上文提及之一階表示)可包括與具有一階或以下之球基底函數相關聯的立體混響係數(其可被稱作「1階立體混響音訊資料」)、與具有混合階及子階之球基底函數相關聯的立體混響係數(其可被稱作如上文所論述之「MOA表示」),或與具有大於一階之球基底函數相關聯的立體混響係數(其在上文被稱作「完整階表示」)。
在一些實例中,內容捕捉裝置20或內容編輯裝置22可經組態以與聲場表示產生器24無線地通信。在一些實例中,內容捕捉裝置20或內容編輯裝置22可經由無線連接或有線連接中之一者或兩者與聲場表示產生器24通信。經由內容捕捉裝置20或內容編輯裝置22與聲場表示產生器24之間的連接,內容捕捉裝置20或內容編輯裝置22可提供各種形式內容之內容,其出於論述之目的在本文中描述為音訊資料19之部分。
在一些實例中,內容捕捉裝置20可充分利用聲場表示產生器24之各種態樣(就聲場表示產生器24之硬體或軟體能力而言)。舉例而言,聲場表示產生器24可包括經組態以執行心理聲學音訊編碼之專用硬體(或在經執行時使一或多個處理器執行心理聲學音訊編碼之專用軟體) (諸如,表示為由活動圖像專家組(MPEG)闡述之「USAC」的統一語音與音訊寫碼器、MPEG-H 3D音訊寫碼標準、MPEG-I沉浸式音訊標準或專屬標準,該等專屬標準諸如AptX™ (包括AptX之各種版本,諸如增強型AptX-E-AptX、AptX實時、AptX立體聲及AptX高清晰度-AptX-HD)、進階音訊寫碼(AAC)、音訊編解碼器3 (AC-3)、蘋果無損音訊編解碼器(ALAC)、MPEG-4音訊無損串流(ALS)、增強型AC-3、免費無損音訊編解碼器(FLAC)、猴子音訊(Monkey's Audio)、MPEG-1音訊層II (MP2)、MPEG-1音訊層III (MP3)、Opus及Windows媒體音訊(WMA)。
內容捕捉裝置20可能不包括心理聲學音訊編碼器專用硬體或專用軟體,而替代地以非心理聲學音訊寫碼形式提供內容21之音訊態樣。聲場表示產生器24可藉由關於內容21之音訊態樣至少部分地執行心理聲學音訊編碼來輔助內21之捕捉。
聲場表示產生器24亦可藉由至少部分地基於由音訊資料19產生的音訊內容(例如MOA表示及/或一階立體混響表示)產生一或多個位元串流27輔助內容捕捉及傳輸(在音訊資料19包括基於場景之音訊資料情況下)。位元串流27可表示音訊資料19及任何其他不同類型的內容21之經壓縮版本(諸如球視訊資料、影像資料或文字資料之經壓縮版本)。
聲場表示產生器24可產生位元串流27以供(作為一個實例)跨越傳輸通道傳輸,該傳輸通道可為有線或無線通道、資料儲存裝置或其類似者。位元串流27可表示音訊資料19之經編碼版本,且可包括初級位元串流及另一旁側位元串流,該旁側位元串流可被稱作旁側通道資訊或後設資料。在一些情況下,表示音訊資料19 (其可再次表示基於場景之音訊資料、基於對象之音訊資料、基於通道之音訊資料或其組合)之經壓縮版本之位元串流27可符合根據MPEG-H 3D音訊寫碼標準及/或MPEG-I沉浸式音訊標準產生之位元串流。
內容消費者裝置14可由個體來操作且可表示VR用戶端裝置。儘管關於VR用戶端裝置進行描述,但內容消費者裝置14可表示其他類型之裝置,諸如擴增實境(AR)用戶端裝置、混合實境(MR)用戶端裝置(或其他XR用戶端裝置)、標準電腦、耳機、頭戴式耳機,行動裝置(包括所謂的智慧型電話),或能夠追蹤操作內容消費者裝置14之個人之頭部移動及/或一般平移移動的任何其他裝置。如圖1A之實例中所示,內容消費者裝置14包括音訊播放系統16A,該音訊播放系統可指代能夠呈現音訊資料以供作為單聲道及/或多通道音訊內容播放之任何形式的音訊播放系統。
雖然在圖1A中經展示為直接傳輸至內容消費者裝置14,但源裝置12A可將位元串流27輸出至位於源裝置12A與內容消費者裝置14A之間的中間裝置。該中間裝置可儲存位元串流27以供稍後遞送至可能請求位元串流27之內容消費者裝置14A。中間裝置可包括檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話或能夠儲存位元串流27以供稍後由音訊解碼器擷取的任何其他裝置。該中間裝置可駐留於能夠將位元串流27 (且可能結合傳輸對應視訊資料位元串流)串流至請求位元串流27之訂戶(諸如,內容消費者裝置14)的內容遞送網路中。
替代地,源裝置12A可將位元串流27儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸通道可指代儲存至媒體之內容(例如呈一或多個位元串流27之形式)藉以傳輸之通道(且可包括零售商店及其他基於商店之遞送機構)。因此,在任何情況下,本發明之技術就此而言不應限於圖1A之實例。
如上文所提及,內容消費者裝置14包括音訊播放系統16A。音訊播放系統16A可表示能夠播放單聲道及/或多通道音訊資料之任何系統。音訊播放系統16A可包括數個不同呈現器32。音訊呈現器32可各自提供不同的呈現形式,其中不同音訊呈現形式可包括執行向量基振幅平移(VBAP)之各種方式中之一或多者及/或執行聲場合成的各種方式中之一或多者。如本文所使用,「A及/或B」意謂「A或B」,或「A及B兩者」。
音訊播放系統16A可進一步包括音訊解碼裝置34。音訊解碼裝置34可表示經組態以對位元串流27進行解碼以輸出音訊資料19'之裝置(其中標以加撇符號可表示由於音訊資料19的有損壓縮,諸如量化,音訊資料19'不同於音訊資料19)。再次,音訊資料19'可包括:在一些實例中可形成完整一階(或更高階)立體混響表示或其形成同一聲場之MOA表示的子集的基於場景之音訊資料;其分解,諸如主要音訊信號、環境立體混響係數及MPEG-H 3D音訊寫碼標準中所描述之基於向量之信號;或其他形式之基於場景之音訊資料。
其他形式之基於場景之音訊資料包括根據高階立體混響(HOA)輸送格式(HTF)定義之音訊資料。更多關於HTF之資訊可見於2018年6月(2018-06)之名為「Higher Order Ambisonics(HOA) Transport Format」之歐洲電信標準協會(ETSI)之技術規範(TS) ETSI TS 103 589 V1.1.1以及2018年12月20日申請之名為「PRIORITY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO DATA」之美國專利公開案第2019/0918028號中。在任何情況下,音訊資料19'可類似於音訊資料19'之全集或部分子集,但可由於有損操作(例如量化)及/或經由傳輸通道之傳輸而不同。
作為基於場景之音訊資料的替代或與其結合,音訊資料19'可包括基於通道之音訊資料。作為基於場景之音訊資料的替代或與其結合,音訊資料19'可包括基於對象之音訊資料或基於通道之音訊資料。因而,音訊資料19'可包括基於場景之音訊資料、基於對象之音訊資料及基於通道之音訊資料的任何組合。
音訊播放系統16A之音訊呈現器32可在音訊解碼裝置34對位元串流27進行解碼以獲得音訊資料19'之後呈現音訊資料19'以輸出揚聲器饋送35。揚聲器饋送35可驅動一或多個揚聲器(出於易於說明之目的,其未在圖1A之實例中展示)。包括聲場之基於場景之音訊資料(及可能的基於通道之音訊資料及/或基於對象之音訊資料)的各種音訊表示可以多種方式正規化,包括N3D、SN3D、FuMa、N2D或SN2D。
為了選擇適當呈現器或在一些情況下產生適當呈現器,音訊播放系統16A可獲得指示揚聲器(例如擴音器或頭戴式耳機揚聲器)之數目及/或揚聲器之空間幾何結構的揚聲器資訊37。在一些情況下,音訊播放系統16A可使用參考麥克風獲得揚聲器資訊37且可以動態地判定揚聲器資訊37之方式驅動揚聲器(其可參考電信號的輸出以使得轉訊器振動)。在其他情況下,或結合揚聲器資訊37之動態判定,音訊播放系統16A可促使使用者與音訊播放系統16A介接且輸入揚聲器資訊37。
音訊播放系統16A可基於揚聲器資訊37選擇音訊呈現器32中之一者。在一些情況下,在音訊呈現器32中無一者處於至揚聲器資訊37中所規定之揚聲器幾何結構之某一臨限值類似性量測(就揚聲器幾何結構而言)內時,音訊播放系統16A可基於揚聲器資訊37產生音訊呈現器32中之一者。音訊播放系統16A可在一些情況下基於揚聲器資訊37產生音訊呈現器32中的一者,而不首先嘗試選擇音訊呈現器32中的現有一者。
在將揚聲器饋送35輸出至頭戴式耳機時,音訊播放系統16A可利用呈現器32中之一者(諸如雙耳室脈衝回應呈現器),該等呈現器使用頭部相關轉移函數(HRTF)或能夠呈現頭戴式耳機揚聲器播放之左側及右側揚聲器饋送35的其他函數來提供雙耳呈現。術語「揚聲器」或「轉訊器」大體可指代任何揚聲器,包括擴音器、頭戴式耳機揚聲器、骨導式揚聲器、耳塞式揚聲器、無線頭戴式耳機揚聲器等。一或多個揚聲器接著可播放經呈現揚聲器饋送35以再現聲場。
儘管描述為自音訊資料19'呈現揚聲器饋送35,但對揚聲器饋送35之呈現的參考可指其他類型之呈現,諸如直接併入至對來自位元串流27之音訊資料之解碼中的呈現。替代呈現之一實例可發現於MPEG-H 3D音訊標準之附錄G中,其中呈現發生於在聲場合成之前的主要信號形成與背景信號形成期間。因而,對音訊資料19'之呈現的參考應理解為係指實際音訊資料19'之呈現或音訊資料19'之分解或表示兩者(諸如,上文提及之主要音訊信號、環境立體混響係數及/或基於向量之信號-其亦可被稱為V向量或多維立體混響空間向量)。
音訊播放系統16A亦可基於追蹤資訊41調適音訊呈現器32。亦即,音訊播放系統16A可與追蹤裝置40介接,該追蹤裝置經組態以追蹤VR裝置之使用者之頭部移動及可能的平移移動。追蹤裝置40可表示經組態以追蹤VR裝置之使用者的頭部移動及可能的平移移動之一或多個感測器(例如,攝影機(包括深度攝影機)、陀螺儀、磁力計、加速度計、發光二極體(LED),等)。音訊播放系統16A可基於追蹤資訊41調適音訊呈現器32,使得揚聲器饋送35反映使用者之頭部改變及可能的平移移動以回應於此類移動而校正再現聲場。
圖1B為說明經組態以執行本發明中描述之技術的各種態樣之另一實例系統50的方塊圖。除圖1A中所展示之音訊呈現器32藉由能夠使用一或多種頭部相關轉移函數(HRTF)或能夠呈現左側及右側揚聲器饋送43之其他函數來執行雙耳呈現的雙耳呈現器42替換以外,系統50類似於圖1A中所展示之系統10。
音訊播放系統16B可將左側及右側揚聲器饋送43輸出至頭戴式耳機48,該等頭戴式耳機可表示穿戴式裝置之另一實例且其可經耦接至額外穿戴式裝置以促進聲場之再現,諸如手錶、上文所提及之VR耳機、智慧型眼鏡、智慧型服飾、智慧型戒指、智慧型手鐲或任何其他類型之智慧型珠寶(包括智慧型項鏈)及其類似物。頭戴式耳機48可無線地或經由有線連接耦接至額外穿戴式裝置。
另外,頭戴式耳機48可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如借助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16B。頭戴式耳機48可基於左側及右側揚聲器饋送43來重建由音訊資料19'表示之聲場。頭戴式耳機48可包括由對應左側及右側揚聲器饋送43供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。
圖1C為說明另一實例系統60之方塊圖。實例系統60類似於圖1A之實例系統10,但系統60之源裝置12B不包括內容捕捉裝置。源裝置12B含有合成裝置29。合成裝置29可由內容開發者使用以產生合成音訊源。合成音訊源可使可識別音訊源相對於聽者或聲場中之其他參考點之方位的方位資訊與其相關聯,使得音訊源可呈現至一或多個揚聲器通道用於播放以致力於重建聲場。
舉例而言,內容開發者可產生用於視訊遊戲之合成音訊串流。雖然圖1C之實例與圖1A之實例之內容消費者裝置14一起展示,但圖1C之實例之源裝置12B可與圖1B之內容消費者裝置14B一起使用。在一些實例中,圖1C之源裝置12B亦可包括內容捕捉裝置,使得位元串流27可含有所捕捉音訊串流及所合成音訊串流。
如上文所描述,內容消費者裝置14A或14B (其中之任一者可在下文中稱為內容消費者裝置14)可表示VR裝置,其中人類穿戴式顯示器(其亦可稱為「頭戴式顯示器」)安裝於操作VR裝置的使用者之眼睛前部。圖2為說明由使用者1102穿戴之VR裝置1100之實例的圖式。VR裝置1100耦接至頭戴式耳機1104或以其他方式包括頭戴式耳機1104,頭戴式耳機可經由播放揚聲器饋送35而再現由音訊資料19'表示的聲場。揚聲器饋送35可表示能夠使頭戴式耳機104之轉訊器內的膜以不同頻率振動之類比或數位信號,其中此程序通常稱作驅動頭戴式耳機1104。
視訊、音訊及其他感官資料可於VR體驗中起重要作用。為參與VR體驗,使用者1102可穿戴VR裝置1100 (其亦可稱為VR用戶端裝置1100)或其他穿戴式電子裝置。VR用戶端裝置(諸如VR 裝置1100)可包括追蹤裝置(例如追蹤裝置40),該追蹤裝置經組態以追蹤使用者1102之頭部移動,並調適經由VR 裝置1100展示的視訊資料以考慮頭部移動,從而提供沉浸式體驗,其中使用者1102可體驗在視訊資料中以視覺三維形式展示的聲學空間。聲學空間可指代虛擬世界(其中模擬所有世界)、擴增世界(其中由虛擬對象擴增世界之部分),或實體世界(其中虛擬地導航真實世界影像)。
雖然VR (及其他形式之AR及/或MR)可允許使用者1102在視覺上駐留於虛擬世界中,但通常VR裝置1100可能缺乏將使用者有聲地置放於聲學空間中之能力。換言之,VR系統(其可包括負責呈現視訊資料及音訊資料之電腦及VR裝置1100,該電腦出於易於說明之目的而未展示於圖2之實例中)可能無法有聲地(及在一些情況下以經由VR裝置1100反映顯現給使用者之所顯示場景的方式切實地)支援全三維沉浸。
雖然在本發明中關於VR裝置進行描述,但技術之各種態樣可在諸如行動裝置之其他裝置的上下文中執行。在此情況下,行動裝置(諸如所謂的智慧型電話)可經由螢幕顯現聲學空間,該螢幕可安裝至使用者1102之頭部或當正常使用行動裝置時將被檢視。因而,關於螢幕之任何資訊可為行動裝置之部分。行動裝置可能夠提供追蹤資訊41,且藉此允許VR體驗(當戴在頭上時)及正常體驗兩者,以檢視聲學空間,其中正常體驗可仍允許使用者檢視聲學空間,從而提供VR鏡片型體驗(例如,舉起裝置且將該裝置旋轉或平移以檢視聲學空間之不同部分)。
在任何情況下,返回至VR裝置上下文,VR之音訊態樣已經分類為三個單獨的沉浸類別。第一類別提供最低層級之沉浸且被稱作三自由度(3DOF)。3DOF係指考慮頭部於三個自由度(偏航、俯仰及橫搖)中之移動,藉此允許使用者在任何方向上自由環顧的音訊呈現。然而,3DOF未能考慮到其中頭部並不以聲場之光學及聲學中心為中心的平移頭部移動。
由於遠離聲場內之光學中心及聲學中心的頭部移動,除受限空間平移移動以外,稱作3DOF加(3DOF+)之第二類別亦提供三個自由度(偏航、俯仰及橫搖)。3DOF+可提供對諸如運動視差之感知效應的支援,其可增強沉浸之感覺。
稱作六個自由度(6DOF)之第三類別以考慮頭部移動(偏航、俯仰及橫搖)之三個自由度並且考慮使用者在空間中之平移(x平移、y平移及z平移)的方式呈現音訊資料。空間平移可藉由感測器追蹤使用者於實體世界中之方位或借助於輸入控制器來誘導。
3DOF呈現為VR之音訊態樣領域之當前狀態。因而,VR之音訊態樣相較於視訊態樣為較低沉浸式的,藉此潛在地降低由使用者所體驗到之整體沉浸。然而,VR正在快速轉變且可快速地開發成支援3DOF+及6DOF兩者,從而可為額外使用情況曝露機會。
舉例而言,交互式遊戲應用程式可利用6DOF以促進全沉浸式遊戲,其中使用者自身在VR世界內移動且可藉由走進虛擬對象而與虛擬對象互動。此外,交互式實時串流應用程式可利用6DOF以允許VR用戶端裝置體驗音樂會或體育賽事之實時串流,如同自身在音樂會一樣,從而允許使用者在音樂會或體育賽事內移動。
存在與此等使用情況相關聯之數個困難。在全沉浸式遊戲之情形中,潛時可能需要保持較低以實現不產生噁心或動暈症之遊戲設置。此外,自音訊視角來看,導致與視訊資料同步之損耗的音訊播放中之潛時可降低沉浸。此外,對於某些類型的遊戲應用程式,空間準確度對於允許準確回應(包括關於聲音如何由使用者感知到)可為重要的,因為此允許使用者預期當前未檢視到的動作。
在實時串流應用程式的上下文中,大量源裝置12A或12B(其中之任一者可在下文中被稱作源裝置12)可串流內容21,其中源裝置12可具有廣泛不同的能力。舉例而言,一個源裝置可為具有數位固定鏡頭攝影機及一或多個麥克風之智慧型電話,而另一源裝置可為能夠獲得解析度及品質比智慧型電話高得多之視訊的生產級電視裝備。然而,在實時串流應用程式之上下文中,所有源裝置可提供具有不同品質之串流,VR裝置可嘗試自該等串流選擇適當的一個串流以提供期望的體驗。
此外,類似於遊戲應用程式,導致視訊資料之同步損耗的視訊資料之潛時可導致較少沉浸。此外,空間準確度亦可為重要的,使得使用者可更佳地理解不同音訊源之上下文或方位。此外,當使用者使用攝影機及麥克風進行實時串流時,隱私可能會成為問題,因為使用者可能不想公共能完全獲得實時串流。
在串流應用程式(實時或記錄)之上下文中,可存在大量與不同層級的品質及/或內容相關聯的音訊串流。音訊串流可表示任何類型的音訊資料,包括基於場景之音訊資料(例如立體混響音訊資料,包括FOA音訊資料、MOA音訊資料及/或HOA音訊資料)、基於通道之音訊資料,及基於對象之音訊資料。自重建聲場之潛在大量的音訊串流僅選擇一個音訊串流可能不會提供確保足夠沉浸程度之體驗。然而,由於多個音訊串流之間的不同空間定位,因此選擇多個音訊串流可能會產生干擾,藉此潛在地減少沉浸。
根據本發明中描述之技術,音訊解碼裝置34可在可經由位元串流27獲得的音訊串流(其由位元串流27表示且因此位元串流27亦可被稱作「音訊串流27」)之間適應性地選擇。音訊解碼裝置34可基於音訊方位資訊(ALI)(例如,圖1A至圖1C中之45A)(在一些實例中,其可包括為伴隨音訊串流27之後設資料)在音訊串流27之不同音訊串流之間進行選擇,其中音訊方位資訊可界定用於捕捉各別音訊串流27的麥克風之聲學空間中的座標或其中合成音訊串流的虛擬座標。ALI 45A可表示聲學空間中之捕捉音訊串流27中的對應一者所處於的捕捉方位或合成音訊串流中的對應一者所在的虛擬座標。音訊解碼裝置34可基於ALI 45A選擇音訊串流27之子集,其中音訊串流27之子集排除音訊串流27中之至少一者。音訊解碼裝置34可將音訊串流27之子集輸出為音訊資料19'(其亦可被稱作「音訊資料19'」)。
另外,音訊解碼裝置34可獲得追蹤資訊41,內容消費者裝置14可將該追蹤資訊轉譯為裝置方位資訊(DLI)(例如,圖1A至圖1C中之45B)。DLI 45B可表示內容消費者裝置14在聲學空間中之虛擬方位或實際方位,其可定義為聲學空間中之一或多個裝置座標。內容消費者裝置14可將DLI 45B提供至音訊解碼裝置34。音訊解碼裝置34接著可基於ALI 45A及DLI 45B自音訊串流27選擇音訊資料19'。音訊播放系統16A接著可基於音訊資料19'再現對應聲場。
就此而言,音訊解碼裝置34可適應性地選擇音訊串流27之子集以獲得可產生較多沉浸體驗之音訊資料19' (相比於選擇單個音訊串流或所有音訊資料19')。因而,本發明中描述之技術之各種態樣可藉由可能實現音訊解碼裝置34更佳地空間化聲場內之聲源來改良音訊解碼裝置34 (及音訊播放系統16A或16B以及內容消費者裝置14)自身之操作,且藉此改良沉浸。
在操作中,音訊解碼裝置34可與一或多個源裝置12介接以針對音訊串流27中之每一者判定ALI 45A。如圖1A之實例中所展示,音訊解碼裝置34可包括串流選擇單元44,其可表示經組態以執行本發明中所描述之音訊串流選擇技術之各種態樣的單元。
串流選擇單元44可基於ALI 45A產生群集圖(CM) 47。CM 47可針對音訊串流27中之每一者界定ALI 45A。串流選擇單元44亦可執行關於音訊串流27中之每一者之能量分析以針對音訊串流27中之每一者判定能量圖,將能量圖連同ALI 45A儲存在CM 47中。能量圖可共同地界定由音訊串流27表示之共同聲場之能量。
串流選擇單元44接下來可判定由DLI 45B表示之裝置方位與由與音訊串流27中之至少一者及有可能每一者相關聯的ALI 45A表示的捕捉方位或合成方位之間的距離。串流選擇單元44接著可基於距離自音訊串流27選擇音訊資料19',如下文關於圖3A至圖3F更詳細地論述。
另外,在一些實例中,串流選擇單元44亦可基於儲存至CM 47、ALI 45A及DLI 45B(其中ALI 45A及DLI 45B共同地以上文提及之距離(其亦可被稱作「相對距離」)的形式顯現)的能量圖自音訊串流27選擇音訊資料19'。舉例而言,串流選擇單元44可分析在CM 47中顯現之能量圖以判定音訊源在共同聲場中之音訊源方位(ASL) 49,該音訊源發射由麥克風(諸如麥克風18)捕捉並由音訊串流27表示之聲音。串流選擇單元44接著可基於ALI 45A、DLI 45B及ASL 49自音訊串流27判定音訊資料19'。下文關於圖3A至圖3F論述更多關於串流選擇單元44可選擇串流之方式之資訊。
圖3A至圖3F為更詳細地說明圖1A至圖1C之實例中所示的串流選擇單元44之實例操作的圖式。如圖3A之實例中所展示,串流選擇單元44可判定DLI 45B指示內容消費者裝置14(經展示為VR裝置1100)處於虛擬方位300A。串流選擇單元44接下來可判定用於音訊元素302A至302J (統稱為音訊元素302)中之一或多者的ALI 45A,該等音訊元素不僅可表示麥克風(諸如在圖1A中展示的麥克風18)而且表示其他類型之捕捉裝置,包括其他XR裝置、行動電話(包括所謂智慧型電話及其類似者),或合成聲場等)。
如上文所描述,串流選擇單元44可獲得音訊串流27。串流選擇單元44可與音訊元素302A至302J介接以獲得音訊串流27。在一些實例中,串流選擇單元44可根據第五代(5G)蜂巢式標準、諸如Bluetooth™之個人區域網路(PAN)或某一其他開放源、專有或標準化通信協定而與介面(諸如接收器、傳輸器及/或收發器)互動以獲得音訊串流27。音訊串流之無線通信在圖3A至圖3E之實例中表示為閃電球,其中所選音訊資料19'展示為自音訊元素302中之所選一或多者傳達至VR裝置1100。
在任何情況下,串流選擇單元44接下來可以上文所描述的方式獲得能量圖,分析能量圖以判定音訊源方位304,該音訊源方位可表示圖1A之實例中展示之ASL 49的一個實例。能量圖可表示音訊源方位304,因為音訊源方位304處之能量可高於周圍區域。鑒於能量圖中之每一者可表示此較高能量,串流選擇單元44可基於能量圖中之較高能量來三角化音訊源方位304。
接下來,串流選擇單元44可將音訊源距離306A判定為音訊源方位304與VR裝置1100之虛擬方位300A之間的距離。串流選擇單元44可比較音訊源距離306A與音訊源距離臨限值。在一些實例中,串流選擇單元44可基於音訊源308之能量導出音訊源距離臨限值。亦即,當音訊源308具有較高能量時(或換言之,當音訊源308較大時),串流選擇單元44可增加音訊源距離臨限值。當音訊源308具有較低能量時(或換言之,當音訊源308較安靜時),串流選擇單元44可減小音訊源距離臨限值。在其他實例中,串流選擇單元44可獲得經靜態界定之音訊源距離臨限值,其可由使用者1102靜態地界定或指定。
在任何情況下,串流選擇單元44可在音訊源距離306A大於音訊源距離臨限值(在此實例中出於說明的目的假定該音訊源距離臨限值)時選擇由音訊元素302A至302J(「音訊元素302」)捕捉的音訊串流27之單個音訊串流。串流選擇單元44可輸出音訊串流27中的對應一者,音訊解碼裝置34可對該對應的音訊串流進行解碼並且將其作為音訊資料19'輸出。
假設使用者1102自虛擬方位300A移動至虛擬方位300B,串流選擇單元44可將音訊源距離306B判定為音訊源方位304與虛擬方位300B之間的距離。在一些實例中,串流選擇單元44可僅在一些可組態釋放時間之後更新,該可組態釋放時間可指代直至在聽者停止移動之後接收器區增加為止之時間。
在任何情況下,串流選擇單元44可再次比較音訊源距離306B與音訊源距離臨限值。串流選擇單元44可在音訊源距離306B小於或等於音訊源距離臨限值(在此實例中出於說明的目的假定該音訊源距離臨限值)時選擇由音訊元素302A至302J(「音訊元素302」)捕捉的音訊串流27之多個音訊串流。串流選擇單元44可輸出音訊串流27中的對應一者,音訊解碼裝置34可對該對應的音訊串流進行解碼並且將其作為音訊資料19'輸出。
串流選擇單元44亦可判定虛擬方位300B與由ALI 45A表示之捕捉方位中之一或多者(並且可能每一者)之間的一或多個近接距離。串流選擇單元44接著可比較一或多個近接距離與臨限近接距離。相較於在一或多個近接距離小於或等於臨限近接距離時,串流選擇單元44可在一或多個近接距離大於臨限近接距離時選擇較少數目個音訊串流27以獲得音訊資料19'。然而,相較於在一或多個近接距離小於或等於臨限近接距離時,串流選擇單元44可在近接距離中的一或多者小於或等於臨限近接距離時選擇較大數目個音訊串流27以獲得音訊資料19'。
換言之,串流選擇單元44可嘗試選擇音訊串流27中之彼等,使得音訊資料19'最接近地與虛擬方位300B對準並環繞虛擬方位300B。近接距離臨限值可界定此臨限值,VR裝置1100之使用者1102可設定該臨限值,或串流選擇單元44可再次基於音訊元素302F至302J之品質、音訊源308、追蹤資訊41(例如,以判定使用者1102是否正面向音訊源308)或任何其他因素再次動態地判定該臨限值。
就此而言,當聽者處於方位300B時,串流選擇單元44可增大音訊空間化準確度。此外,當聽者在方位300A處時,串流選擇單元44可降低位元速率,此係因為僅僅由音訊元素302A捕捉的音訊串流用於再現聲場而不是音訊元素302B至302J之多個音訊串流。
接下來參考圖3B之實例,串流選擇單元44可判定音訊元素302A之音訊串流係損壞的、有雜訊或不可用。鑒於音訊源距離306A大於音訊源距離臨限值,串流選擇單元44可自CM 47移除音訊串流並且根據上文較詳細地描述之技術重複地逐一查看音訊串流27以選擇音訊串流27中之單個音訊串流(例如,在圖3B之實例中由音訊元素302B捕捉之音訊串流)。
接下來參考圖3C之實例,串流選擇單元44可獲得新音訊串流(音訊元素302K之音訊串流)及對應的新音訊資訊,例如後設資料,其包括ALI 45A。串流選擇單元44可將新音訊串流添加至表示音訊串流27之CM 47。鑒於音訊源距離306A大於音訊源距離臨限值,串流選擇單元44可接著根據上文較詳細地描述之技術重複地逐一查看音訊串流27以選擇音訊串流27中之單個音訊串流(例如,在圖3C之實例中由音訊元素302B捕捉的音訊串流)。
在圖3D之實例中,音訊元素302用特定實例裝置320A至320J (「裝置320」)來替換,其中裝置320A表示專用麥克風320A,而裝置320B、320C、320D、320G、320H及320J表示智慧型電話。裝置320E、320F及320I可表示VR裝置。裝置320中之每一者可包括音訊元素302,該等音訊元素捕捉根據本發明中所描述之串流選擇技術之各種態樣選擇的音訊串流27。
圖3E為說明具有三個或更多個音訊元素的實例音樂會之概念圖。在圖3E的實例中,舞台323上描繪數個樂手。演唱者312位於音訊元素310A後方。弦樂組314描繪於音訊元素310B後方。鼓手316描繪於音訊元素310C後方。其他樂手318描繪於音訊元素310D後方。音訊元素310A至301D可表示對應於由麥克風接收的聲音的所捕捉音訊串流。在一些實例中,麥克風310A至310D可表示合成音訊串流。舉例而言,音訊元素310A可表示主要與演唱者312相關聯的所捕捉音訊串流,但音訊串流亦可包括由諸如弦樂組314、鼓手316或其他樂手318之其他樂隊成員產生之聲音,而音訊元素310B可表示主要與弦樂組314相關聯的所捕捉音訊串流,但包括由其他樂隊成員產生之聲音。以此方式,音訊元素310A至310D中之每一者可表示不同音訊串流。
又,描繪數個裝置。此等裝置表示位於數個不同收聽位置之使用者裝置。頭戴式耳機321定位於音訊元素310A附近,但在音訊元素310A與音訊元素310B之間。因而,根據本發明之技術,串流選擇單元44可選擇音訊串流中之至少一者以產生頭戴式耳機321之使用者的音訊體驗,類似於使用者位於圖3F中頭戴式耳機321所位於之處。類似地,VR護目鏡322展示為位於音訊元素310C後方且在鼓手316與其他樂手318之間。串流選擇單元44可選擇至少一個音訊串流以產生VR護目鏡322之使用者的音訊體驗,類似於使用者位於圖3F中VR護目鏡322所位於之處。
智慧型眼鏡324展示為位於音訊元素310A、310C及310D之間的大致中心。串流選擇單元44可選擇至少一個音訊串流以產生智慧型眼鏡324之使用者的音訊體驗,類似於使用者位於圖3F中智慧型眼鏡324所位於之處。另外,裝置326 (其可表示能夠實施本發明之技術的任何裝置,諸如行動手機、揚聲器陣列、頭戴式耳機、VR護目鏡、智慧型眼鏡,等)展示為位於音訊元素310B前方。串流選擇單元44可選擇至少一個音訊串流以產生裝置326之使用者的音訊體驗,類似於使用者位於圖3E中裝置325所位於之處。雖然關於特定方位論述特定裝置,但所描繪之裝置中之任一者的使用可提供不同於圖3E中所描繪的所需收聽位置之一指示。
圖4A至圖4C為說明圖1A至圖1C之實例中所示的用以基於時序資訊控制對複數個音訊串流中之至少一者之存取的串流選擇單元44之操作的實例的流程圖。在一些實例中,時序資訊可為時序後設資料。在一些實例中,時序後設資料可包括於音訊後設資料中。在圖4A之實例中,論述開始時間之使用。
在許多上下文中,存在可能係不當的或對於某人有攻擊性的音訊串流。舉例而言,在實時體育賽事上,在賽事地點可能存在使用攻擊性語言的人。上述情況可在一些視訊遊戲中真實存在。在其他實時事件上,類似於集會,可能會發生敏感性論述。在使用開始時間情況下,內容消費者裝置14之串流選擇單元44可剔除非所要或敏感音訊串流並排除其以免向使用者播放。諸如時序後設資料之時序資訊可與個別音訊串流或隱私區域相關聯(關於圖4H及圖4J更詳細地論述)。
在一些情況下,源裝置12可應用開始時間。舉例而言,在敏感論述將發生在給定時間處的集會處,內容創建者或源在論述將開始時應用開始時間以使得僅僅具有適當特權之某些人能夠聽到論述。對於不具有適當特權之其他人,串流選擇單元44可剔除或以其他方式排除關於論述之音訊串流。
在其他情況(諸如體育賽事實例)下,內容消費者裝置14可建立並應用開始時間。因而,使用者可在音訊播放期間排除攻擊性語言。
現在論述諸如開始時間後設資料之開始時間資訊的使用(400)。串流選擇單元44可取得傳入音訊串流及與該音訊串流相關聯的後設資料(包括方位資訊及開始時間資訊)並將其儲存器於內容消費者裝置14之記憶體中(401)。串流選擇單元44可獲得方位資訊(402)。此方位資訊可與聲學空間中之捕捉座標相關聯,如上文所論述。開始時間資訊可與每一串流或隱私區域(待關於圖4F更充分地論述)相關聯。舉例而言,在實況事件上,可能會發生敏感性論述,或可存在正被使用的不當語言或針對某些觀眾論述的話題。舉例而言,若集會上的敏感會議將在處1:00 PM GMT召開,則內容創建者或源可將含有與彼會議相關聯的音訊之音訊串流或隱私區域的開始時間設定為1:00 PM GMT。在一個實例中,串流選擇單元44可比較開始時間與當前時間(403)且若開始時間相等或晚於當前時間,則串流選擇單元44可剔除或以其他方式排除具有相關聯開始時間的彼等音訊串流或隱私區域(404)。在一些實例中,內容消費者裝置14可停止下載經排除音訊串流。
在另一實例中,當串流選擇單元44剔除或排除音訊串流或隱私區域時,內容消費者裝置14可發送一訊息至源裝置12,該訊息指導源裝置12停止發送經排除串流(405)。因此,內容消費者裝置不接收經排除串流且可節省傳輸通道內的頻寬。
在一個實例中,音訊播放系統16 (出於簡單目的,其可表示音訊播放系統16A或音訊播放系統16B)可基於與音訊串流或隱私區域相關聯之開始時間改變增益,從而增強或衰減音訊輸出。在另一實例中,音訊播放系統16可不改變增益。音訊解碼裝置34亦可將兩個或多於兩個所選擇音訊串流組合在一起(406)。舉例而言,可借助於混合或內插或聲場操縱之另一變體進行所選擇音訊串流的組合。音訊解碼裝置可輸出音訊串流之子集(407)。
在一個實例中,音訊播放系統16可允許使用者更動開始時間。舉例而言,內容消費者裝置14可自使用者1102獲得例如一更動請求以新增複數個音訊串流中之至少一個經排除音訊串流(408)。在內容消費者裝置14發送一訊息以告知源裝置停止發送經排除音訊串流或隱私區域(405)的實例中,內容消費者裝置14將發送新訊息以告知源裝置重新開始彼等音訊串流或隱私區域之發送(409)。若開始時間經更動,則音訊解碼裝置34可新增彼等各別串流或隱私區域或組合彼等各別串流或隱私區域與音訊串流或隱私區域之子集(410)。舉例而言,可借助於混合或內插或聲場操縱之另一變體進行所選擇音訊串流的組合。音訊解碼裝置34可將所選擇串流包括在音訊輸出中(411)。
圖4B為說明圖1A至圖1C之實例中所示的用以基於時序資訊控制對複數個音訊串流中之至少一者之存取的串流選擇單元之操作實例的流程圖。在此實例中,時序資訊為持續時間。在一些實例中,時序資訊可為時序後設資料。在一些實例中,時序後設資料可包括於音訊後設資料中。在一些情況下,內容創建者或源可需要在暫時時間週期內提供更完整體驗。舉例而言,內容提供者或源可想要在嘗試使使用者升級其服務等級時在廣告或試驗週期內如此執行。
串流選擇單元44可將傳入音訊串流及與其相關聯之資訊(諸如後設資料,包括方位資訊及開始時間後設資料)儲存在內容消費者裝置14之記憶體中(421)。串流選擇單元44可獲得方位資訊(422)。串流選擇單元44可藉由例如在單個音訊串流之情況下自記憶體讀取方位資訊或例如在隱私區域之情況下計算其而執行此。此方位資訊可與聲學空間中之捕捉座標相關聯,如上文所論述。持續時間後設資料可與每一串流或隱私區域相關聯且可經設定為任何持續時間。舉例而言,在提供在有限時間週期內之完整體驗的實例中,源裝置或內容消費者裝置可將持續時間設定為例如僅僅一小時。串流選擇單元44可比較持續時間與計時器(423)。若計時器等於或大於持續時間,則串流選擇單元44可排除與持續時間相關聯之音訊串流或隱私區域,藉此選擇音訊串流之一子集(424)。若計時器低於持續時間,則串流選擇單元44將不排除彼等串流或隱私區域(425)。
如同圖4A之實例,內容消費者裝置14可發送一訊息至源裝置12,該訊息告知該源裝置停止發送經排除串流並在持續時間經更動情況下發送另一訊息以開始重新發送經排除串流(為簡單起見圖中未示)。因此,可節省傳輸通道內之頻寬。
在一個實例中,音訊播放系統16可基於與音訊串流或隱私區域相關聯之持續時間改變增益,從而增強或衰減音訊輸出。在另一實例中,音訊播放系統可不改變增益。音訊解碼裝置34可將兩個或多於兩個所選擇音訊串流組合在一起(426)。舉例而言,可借助於混合或內插或聲場操縱之另一變體進行所選擇音訊串流的組合。音訊解碼裝置34接著可輸出音訊串流之子集(427)。
藉由使用開始時間及/或持續時間作為存取控制,即使當不存在至源裝置之連接時,串流選擇器單元44仍可維持存取控制。舉例而言,當內容消費者裝置14離線且播放所儲存音訊時,串流選擇器單元44仍可比較開始時間與當前時間或比較持續時間與計時器且實現離線存取控制。
圖4C為說明圖1A至圖1C之實例中所展示的串流選擇單元在執行串流選擇技術之各種態樣時的操作實例之流程圖(430)。源裝置12可形成可用的不同聲場,諸如FOA聲場、高階立體混響聲場(HOA)或MOA聲場。內容消費者裝置14之使用者可經由使用者介面對內容消費者裝置14進行請求以改變音訊體驗(431)。舉例而言,體驗FOA聲場之使用者可需要增強型體驗並請求HOA或MOA聲場。若內容消費者裝置在接收必要係數中且經組態以改變立體混響聲場類型(432),則其接著可改變立體混響聲場類型(433)且串流選擇單元44可輸出音訊串流(434)。若內容消費者裝置14不在接收必要係數中或未經組態以改變立體混響聲場類型,則內容消費者裝置14可發送一請求至源裝置12以進行改變(435)。源裝置可進行改變並發送新的聲場至內容消費者裝置14。音訊解碼裝置34接著可接收新的聲場(436)並輸出音訊串流(437)。不同類型立體混響聲場的使用亦可與圖4A之開始時間實例及圖4B之持續時間實例一起使用。舉例而言,內容消費者裝置14可使用一個立體混響聲場類型直至開始時間等於或大於當前時間為止且接著使用另一立體混響聲場類型。或內容消費者裝置14可使用一個立體混響聲場類型直至計時器等於或大於持續時間為止且接著使用另一立體混響聲場類型。
圖4D及圖4E為進一步說明根據本發明中描述之技術的各種態樣的諸如時序後設資料之時序資訊的使用之圖式。展示諸如開放式麥克風之靜態音訊源441。在一些實例中,靜態音訊源441可為實時音訊源。在其他實例中,靜態音訊源441可為合成音訊源。亦展示諸如在使用者操作之行動手機中的動態音訊源442,其中使用者設定其在何時記錄。在一些實例中,動態音訊源可為實時音訊源。在其他實例中,動態音訊源442可為合成音訊源。靜態音訊源441及/或動態音訊源442中之一或多者可捕捉音訊資訊443。控制器444可處理音訊資訊443。在圖4D中,控制器444可實施於內容消費者裝置14中之一或多個處理器440中。在圖4E中,控制器444可實施於源裝置12中之一或多個處理器448中。控制器444可例如經由矩心及半徑資料將音訊資訊分成多個區域,建立音訊串流並運用資訊(諸如後設資料,包括關於音訊源441及442之方位的方位資訊,及區帶區域化,包括區域之邊界)標記該等音訊串流。在一些實例中,控制器444可以除作為後設資料以外的方式提供方位資訊。控制器444可線上或離線執行此等功能。控制器444亦可指派時序資訊(諸如時序後設資料)給音訊串流或區域(諸如開始時間資訊或持續時間資訊)中之每一者。控制器444可提供叢發(例如週期性)或固定(例如持續性)音訊串流及相關聯資訊(諸如後設資料)至內容消費者裝置14。控制器444亦可指派增益及/或趨於零以待應用於音訊串流。
串流選擇單元44可使用時序後設資料以在呈現期間提供叢發或固定音訊串流至使用者。因此使用者之體驗可基於時序後設資料而改變。使用者可經由鏈路447請求控制器444以更動時序後設資料並改變使用者對音訊串流或隱私區域之存取。
圖4F及圖4G為說明根據本發明中描述之技術的各種態樣的對於較大存取之暫時請求的使用之圖式。在如圖4F中所展示之此實例中,內容消費者裝置14向使用者470呈現由所描繪音訊元素表示的音訊串流471、472及473。內容消費者裝置14不呈現亦由音訊元素表示的音訊串流474。在此情況下,若使用者想要暫時提高其體驗,則其可經由使用者介面發送暫時准許其存取音訊串流474的一請求。串流選擇器單元接著可新增音訊串流474,如圖4G中所展示。在一些實例中,內容消費者裝置14可發送請求存取之訊息至源裝置12。在其他實例中,串流選擇單元44可新增音訊串流474而不發送訊息至源裝置12。
圖4H及圖4I為說明根據本發明中描述之技術的各種態樣的隱私區域之概念之圖式。使用者480經展示為靠近音訊元素之若干群組,每一者表示音訊串流。授權哪些串流用於群組地而不是個別地建立使用者480之音訊體驗可能適用。舉例而言,在集會之實例中,多個音訊元素可接收敏感資訊。因此,可建立隱私區域。
源裝置12或內容消費者裝置14可分別將授權層級(例如等級)及每一隱私區域之授權層級(例如等級)指派給使用者。舉例而言,控制器444可指派增益及趨於零後設資料及在此實例中每一隱私區域之等級。舉例而言,隱私區域481可含有音訊串流4811、4812及4813。隱私區域482可含有音訊串流4821、4822及4823。隱私區域483可含有音訊串流4831、4832及4833。如表1中所示,控制器444可將此等音訊串流標記為屬於其各別隱私區域且亦可將增益及趨於零後設資料與其相關聯。如表1中所表示,G為增益且N為趨於零或排除。在此實例中,使用者480相對於隱私區域481及483具有為2的等級,但相對於隱私區域482具有為3的等級。如表中所指示,串流選擇單元44將排除或調零區域482且其將不可供用於呈現,除非使用者480將更動其。所得呈現在圖4H中展示。
表1
區域 | 標記 | 後設資料 | 等級 |
461, 463 | 4611-4613, 4631-4633 | G -20dB, N=0 | 2 |
462 | 4621-4623 | G - N/A, N=1 | 3 |
諸如時序後設資料之時序資訊可用於暫時改變隱私區域中之一或多者的等級。舉例而言,源裝置12可為區域462指派一持續時間,其將在一時間段(5分鐘)內將等級升高至2。串流選擇器單元44接著將在彼持續時間內不排除隱私區域482或將隱私區域482趨於零。在另一實例中,源裝置12可將12:00pm GMT (其將使等級降低至3)之開始時間指派給隱私區域461。串流選擇器單元44接著將排除隱私區域461。若串流選擇器單元44將執行兩者,則使用者將自隱私區域462及463而非461接收音訊串流,如圖4I中所展示。
內容消費者裝置14可使用諸如時序後設資料之時序資訊及比較作為時戳並將其儲存在記憶體中作為維持每一區域之事件之記錄的方式。
圖4J及圖4K為說明根據本發明之態樣的音訊呈現中之服務的階層之使用的圖式。使用者480經描繪成由音訊元素所環繞。在此實例中,隱私區域482中之音訊元素表示FOA聲場。隱私區域481內部之音訊元素表示HOA或MOA聲場。在圖4J中,內容消費者裝置14使用FOA聲場。在此實例中,某些個別串流或串流群組可經啟用用於較佳音訊內插。源裝置12可希望形成可用於暫時時段的更高解析度呈現,諸如用於更高解析度呈現之廣告或前導廣告。在另一實例中,如上文關於圖4C所論述,使用者可請求更高解析度呈現。內容消費者裝置14接著可提供如圖4K中所展示之增強型體驗。
利用時序資訊(諸如時序後設資料)的另一方式係用於作為針對如下文所描述之6DOF使用情況進行音訊場景更新之部分的節點修改。當前,音訊場景更新瞬時發生且未必總是需要的。圖4L為說明根據本發明中描述之技術的各種態樣的狀態轉變之狀態轉變圖式。在此情況下,時序資訊為時序後設資料且時序後設資料為延遲(fireOnStartTime)及持續時間(updateDuration)。時序後設資料可包括於音訊後設資料中。
可能需要基於條件發生來更新由使用者體驗的音訊場景,而非在彼條件發生後即刻更新該場景。亦可需要延長花費內容消費者裝置14進行更新的時間。因而,串流選擇單元44可使用可修改fireOnStartTime以延遲更新的開始並使用updateDuration改變其完成更新花費的時間且藉此影響串流之選擇並以受控制方式更新音訊場景。源裝置12或內容消費者裝置14可判定或修改fireOnStartTime及/或updateDuration。
條件(490)可發生,諸如附近汽車起動,其可在所需音訊場景中進行延遲更新。源裝置12或內容消費者裝置14可藉由設定fireOnStartTime而設定延遲(491)。fireOnStartTime可為延遲之時間或在音訊場景更新開始的條件發生之後的時間。串流選擇單元44可比較計時器與fireOnStartTime且若計時器等於或大於fireOnStartTime,則開始音訊場景之更新(492)。串流選擇單元44可在轉變持續時間(493)期間基於更新持續時間(494)更新音訊場景並在轉變持續時間(494)過去時完成更新(495)。串流選擇單元44可如下文在表2中所論述修改音訊場景:
表2
<修改> | ||||
宣佈單一實體之可修改參數的修改。目標實體可由id屬性選擇。以下屬性可為對應實體之屬性。屬性值可經指派實體特性值。 實例 : <修改id=「src1」位置=「1 2 3」定向=「-20 5 0」/>可為具有ID src1之實體之屬性位置及定向 | ||||
屬性 | 類型 | 旗標 | 預設 | 描述 |
id | ID | R | 待修改之目標實體 | |
內插 | 布爾型 | O | 真 | 當為真時,內插新的值,當為假時,即刻設定其 |
fireOnStartTime | 值 | O | 無 | 在條件滿足啟動更新之後的時間 |
updateDuration | 值 | O | 無 | 待完成的更新之持續時間 |
* | * | * | * | 目標實體之屬性 |
圖4M為根據本發明中描述之技術的各種態樣的載具4000之說明。串流選擇單元44可基於可修改時序參數fireOnStartTime及updateDuration而依次更新載具之三個對象源(音訊源)。內容消費者裝置14或源裝置12可設定或修改此等參數。在此實例中,三個對象源為載具4000之引擎4001、無線電4002及排氣裝置4003。源裝置12或內容消費者裝置14可將其自身原生觸發時間(fireOnStartTime)及完成轉變之持續時間(updateDuration)指派給每一對象源、引擎4001、無線電4002及排氣裝置4003。串流選擇單元44可無關於表2中提及的內插屬性而應用fireOnStartTime。串流選擇單元44亦可將updateDuration處理為內插屬性之效應。舉例而言,若屬性經設定為「真」,則串流選擇單元44可利用updateDuration及並在updateDuration之過程中進行更新,或另外串流選擇單元44可即刻轉變音訊場景。
以下程式碼提供根據本發明中所描述之技術之各種態樣的實例:
<!-- 定義在聽者靠近時某人開啟汽車的條件。汽車之音訊元素先前不在作用中,例如汽車停放並關斷。-->
<ListenerProximityCondition id=”cond:listenerNearCar” 區=”geo:region1”/>
<Box id=”geo:region1” 位置=”5 0 -5” 大小=”10 2 10” />
<更新時間=”0.2”>
<修改 id=”引擎” 位置=”2.2 1.7 -1.25” />
<修改 id=”無線電” 位置=”1.1 1.5 -0.55” />
<修改id=”排氣裝置” 位置=”2.2 1.5 -0.95” />
</更新>
<更新條件=”cond:listenerNearCar” fireOn=”真”>
<修改 id=”引擎” 主動=”真” 內插=”真” fireOnStartTime = 0.1 ,
updateDuration = 0.05 />
<修改 id=”無線電” 主動=”真” 內插=”真” fireOnStartTime = 0.2 ,
updateDuration = 0.1 />
<修改 id=”排氣裝置” 主動=”真” 內插=”真” fireOnStartTime = 0.2,
updateDuration = 0.1 />
</更新>
…
圖4N為根據本發明中描述之技術的各種態樣的移動載具4100之說明。此說明表示在載具4100在高速公路上導航的同時串流選擇單元44可在位置上更新音訊場景的情境。在此實例中,存在五個對象源:引擎4101、輪胎1 4102、輪胎2 4103、無線電4104及排氣裝置4105。在更新持續時間受影響之後的位置更新為自更新時間以來的最終位置。更新持續時間之間的中間更新/內插作為音訊呈現器之一部分而應用且內插之不同方案可作為個人偏好而應用或可係情境判斷。在以下程式碼中給出實例:
<!-沿著高速公路移動的汽車…-->
<更新時間=”0.2”>
<修改 id=”引擎” 位置=”2.2 1.7 -1.25” />
<修改 id=”輪胎1” 位置=”2.1 0.4 0.75” />
<修改 id=”輪胎2”位置=”0.7 0.4 -0.95” />
<修改 id=”無線電” 位置=”2.0 1.7 -0.55” />
<修改 id=”排氣裝置” 位置=”0.5 0.5 -0.95” />
</更新>
<更新條件=”cond:listenerNearCar” fireOn=”真”>
<修改 id=”引擎” 位置=”32.2 31.7 -1.25” 內插=”真”, updateDuration = 30/>
<修改id=”輪胎1” 位置=”32.1 30.4 0.75” 內插=”真”
updateDuration = 30/>
<修改 id=”輪胎2” 位置=”30.7 30.4 -0.95” 內插=”真”
, updateDuration = 30/>
<修改id=”無線電”位置=”32.0 31.7 -0.55” 內插=”真”
updateDuration = 30/>
<修改 id=”排氣裝置” 位置=”30.5 30.5 -0.95” 內插=”真”/>
</更新>
此等技術可特別適用於虛擬傳送情況。在此情況下,音訊信號可由使用者感知為源自定位虛擬傳送影像所來自的方向。虛擬影像可為另一載具或其他固定環境(例如,學校、辦公室或家庭)中之不同乘客或駕駛員。虛擬影像,例如虛擬乘客,可包括二維化身資料或三維化身資料。在虛擬乘客講話時,聽起來如同虛擬乘客處於投影於耳機裝置之數位顯示器或由耦接至耳機裝置之攝影機檢視之數位顯示器上的方位(例如,螢幕上之定向)中。亦即,虛擬乘客可耦接至二維音訊信號或三維音訊信號。二維音訊信號或三維音訊信號可包括在空間上定位於虛擬影像看起來像相對於耳機裝置上的數位顯示器或耦接至耳機裝置之數位顯示器的螢幕之位置定向之處的一或多個音訊對象(例如個人的語音)。產生二維或三維音訊信號之擴音器可安裝及整合至耳機裝置中。在其他實施例中,擴音器可分佈在載具4100內之不同位置中,且音訊信號可經呈現使得來自音訊串流之聲音經感知為定位於虛擬影像定位之處。在一個替代實施例中,「傳送」可為正被傳送之聲音而非虛擬影像。因而,載具中或穿戴耳機裝置的個人可聽到個人之聲音或語音就好像其靠近其,例如緊鄰其、在其前方、在其之後方等。
在虛擬傳送使用情況中在音訊後設資料中包括「聽者事件觸發」可能適用,此係因為控制器可藉助於觸發控制位置之間的聽者導航。控制器可使用此聽者事件觸發來致動傳送。
圖4O為說明使用授權層級以用於基於時序資訊控制對複數個音訊串流中之至少一者之存取的實例技術的流程圖。現在論述授權層級(430)之使用。串流選擇單元44可判定用於使用者1102之授權層級(504)。舉例而言,使用者1102可具有與其相關聯的等級,如上文關於圖4H及圖4I所論述。串流選擇單元44比較使用者1102之授權層級與一或多個隱私區域之授權層級。舉例而言,每一隱私區域可具有相關聯授權層級,如上文關於圖4H及圖4I所論述。串流選擇單元44可基於比較來選擇複數個音訊串流之子集。舉例而言,串流選擇單元44可判定使用者1102未經授權以存取圖4H之隱私區域482且可排除或調零區域482。因此,音訊串流4821、4822及4823將自複數個音訊串流之子集排除。
圖4P為說明使用觸發及延遲以基於時序資訊控制對複數個音訊串流中之至少一者之存取的實例技術之流程圖。現在論述觸發及延遲(510)之使用。舉例而言,串流選擇單元44可偵測觸發(512)。舉例而言,串流選擇單元44可偵測原生觸發時間(諸如fireOnStartTime)或聽者事件觸發。串流選擇單元44可比較延遲與計時器(514)。舉例而言,串流選擇單元44可比較updateDuration或其他延遲與計時器。若延遲小於計時器(圖4P之「否」路徑),則串流選擇單元44可繼續比較延遲與計時器。若延遲大於或等於計時器,則串流選擇單元可選擇複數個音訊串流之一子集(516)。以此方式,串流選擇單元可一直等待直至延遲等於或大於計時器以選擇複數個音訊串流之子集為止。
圖5為說明可根據本發明中所描述之技術的各種態樣來操作之穿戴式裝置500的實例之圖式。在各種實例中,穿戴式裝置500可表示VR耳機(諸如上文所描述的VR裝置1100)、AR耳機、MR耳機或任何其他類型的擴展實境(XR)耳機。擴增實境「AR」可指重疊於使用者實際上所定位之真實世界上的電腦呈現影像或資料。混合實境「MR」可指鎖定於真實世界中之特定方位之世界的電腦呈現影像或資料,或可指其中部分電腦呈現3D元素及部分攝影真實元素經組合為模擬使用者於環境中之實體存在的沉浸式體驗之VR的變體。擴展實境「XR」可表示VR、AR及MR之統稱術語。關於XR之術語的更多資訊可見於Jason Peterson之名為「Virtual Reality, Augmented Reality, and Mixed Reality Definitions」且日期為2017年7月7日的文件中。
穿戴式裝置500可表示其他類型之裝置,諸如手錶(包括所謂「智慧型手錶」)、眼鏡(包括所謂「智慧型眼鏡」)、頭戴式耳機(包括所謂「無線頭戴式耳機」及「智慧型頭戴式耳機」)、智慧型服飾、智慧型珠寶及其類似者。無論係表示VR裝置、手錶、眼鏡及/或頭戴式耳機,穿戴式裝置500可與經由有線連接或無線連接來支援穿戴式裝置500之計算裝置通信。
在一些情況下,支援穿戴式裝置500之計算裝置可經整合於穿戴式裝置500內,且因而,穿戴式裝置500可視為與支援穿戴式裝置500之計算裝置相同的裝置。在其他情況下,穿戴式裝置500可與可支援穿戴式裝置500之單獨計算裝置通信。就此而言,術語「支援」不應理解為需要單獨專用裝置,而經組態以執行本發明中描述之技術之各種態樣的一或多個處理器可經整合於穿戴式裝置500內或經整合於與穿戴式裝置500分離之計算裝置內。
舉例而言,當穿戴式裝置500表示VR裝置1100時,單獨專用計算裝置(諸如包括一或多個處理器之個人電腦)可呈現音訊及視覺內容,而穿戴式裝置500可判定平移頭部移動,接著專用計算裝置可根據本發明中描述之技術之各種態樣基於平移頭部移動來呈現音訊內容(作為揚聲器饋送)。作為另一實例,當穿戴式裝置500表示智慧型眼鏡時,穿戴式裝置500可包括判定平移頭部移動(藉由介接於穿戴式裝置500之一或多個感測器內)並且基於所判定平移頭部移動來呈現揚聲器饋送之一或多個處理器。
如所展示,穿戴式裝置500包括後攝影機、一或多個定向揚聲器、一或多個追蹤及/或記錄攝影機,且可包括一或多個發光二極體(LED)燈。在一些實例中,LED燈可稱作「超亮」LED燈。另外,穿戴式裝置500包括一或多個眼部追蹤攝影機、高靈敏度音訊麥克風及光學/投影硬體。穿戴式裝置500之光學/投影硬體可包括持久半透明顯示技術及硬體。
穿戴式裝置500亦包括連接性硬體,該連接性硬體可表示支援多模式連接性之一或多個網路介面,諸如4G通信、5G通信等。穿戴式裝置500亦包括環境光感測器、一或多個攝影機及夜視感測器,以及一或多個骨導式轉訊器。在一些情況下,穿戴式裝置500亦可包括具有魚眼鏡頭及/或攝遠鏡頭之一或多個被動及/或主動攝影機。應瞭解,穿戴式裝置500可展現多種不同外觀尺寸。
此外,追蹤及記錄攝影機以及其他感測器可促進對平移距離之判定。儘管未展示於圖5之實例中,但穿戴式裝置500可包括用於偵測平移距離之其他類型的感測器。
儘管關於穿戴式裝置(諸如上文關於圖2之實例所論述的VR裝置1100及闡述於圖1A至圖1C之實例中之其他裝置)之特定實例來描述,但一般熟習此項技術者將瞭解與圖1A至圖1C及圖2相關之描述可應用於穿戴式裝置之其他實例。舉例而言,諸如智慧型眼鏡之其他穿戴式裝置可包括藉以獲得平移頭部移動之感測器。作為另一實例,諸如智慧型手錶之其他穿戴式裝置可包括藉以獲取平移移動之感測器。因而,本發明中所描述之技術不應受限於特定類型之穿戴式裝置,而係任何穿戴式裝置可經組態以執行本發明中所描述之技術。
圖6A及圖6B為說明可執行本發明中描述之技術的各種態樣之實例系統的圖式。圖6A說明其中源裝置12C進一步包括攝影機600之一實例。攝影機600可經組態以捕捉視訊資料,且提供所捕捉之原始視訊資料至內容捕捉裝置20。內容捕捉裝置20可將視訊資料提供至源裝置12C之另一組件,以供進一步處理為經視埠分割部分。
在圖6A之實例中,內容消費者裝置14C亦包括VR裝置1100。將理解,在各種實施中,VR裝置1100可包括於內容消費者裝置14C中或經外部耦接至該內容消費者裝置。VR裝置1100包括用於輸出視訊資料(例如與各種視埠相關聯)及用於呈現音訊資料之顯示器硬體及揚聲器硬體。
圖6B說明其中圖6A中所展示之音訊呈現器32藉由能夠使用一或多種HRTF或能夠呈現左側及右側揚聲器饋送43之其他函數來執行雙耳呈現的雙耳呈現器42替換的實例。內容消費者裝置14D之音訊播放系統16C可輸出左側及右側揚聲器饋送43至頭戴式耳機48。
頭戴式耳機48可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如借助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16C。頭戴式耳機48可基於左側及右側揚聲器饋送43來重建由音訊資料19'表示之聲場。頭戴式耳機48可包括由對應左側及右側揚聲器饋送43供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。
圖7為說明圖1A至圖1C之實例中所展示的源裝置12及內容消費者裝置14中之一或多者之實例組件的方塊圖。在圖7的實例中,裝置710包括處理器712 (其可被稱作「一或多個處理器」或「處理器」)、圖形處理單元(GPU) 714、系統記憶體716、顯示處理器718、一或多個整合式揚聲器740、顯示器703、使用者介面720、天線721及收發器模組722。在裝置710為行動裝置之實例中,顯示處理器718為行動顯示處理器(MDP)。在一些實例(諸如裝置710為行動裝置之實例)中,處理器712、GPU 714及顯示處理器718可經形成為積體電路(IC)。
舉例而言,IC可被視為晶片封裝內之處理晶片,且可為系統單晶片(SoC)。在一些實例中,處理器712、GPU 714及顯示處理器718中之兩者可共同容納在相同的IC中且其他容納在不同的積體電路(例如,不同的晶片封裝)中或全部三個均可容納於不同的IC中或在相同的IC上。然而,可有可能的是,在裝置710為行動裝置之實例中,處理器712、GPU 714及顯示處理器718可能均容納於不同的積體電路中。
處理器712、GPU 714及顯示處理器718之實例包括但不限於一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA),或其他等效的整合式或離散邏輯電路。處理器712可為裝置710之中央處理單元(CPU)。在一些實例中,GPU 714可為包括整合及/或離散邏輯電路之專用硬體,該專用硬體向GPU 714提供適用於圖形處理之大規模並行處理能力。在一些情況下,GPU 714亦可包括通用處理能力,且在實施通用處理任務(例如,非圖形相關任務)時可被稱作通用GPU (GPGPU)。顯示處理器718亦可為專用積體電路硬體,其設計成自系統記憶體716擷取影像內容,將影像內容合成為影像訊框且將影像訊框輸出至顯示器703。
處理器712可執行各種類型之應用程式。應用程式之實例包括網頁瀏覽器、電子郵件應用程式、電子算表、視訊遊戲、產生用於顯示器之可檢視對象的其他應用程式,或上述更詳細地列出的應用程式類型中之任一者。系統記憶體716可儲存指令以供應用程式執行。處理器712上應用程式中之一者的執行使得處理器712產生待顯示之影像內容的圖形資料及待播放(可能經由整合揚聲器740)的音訊資料19。處理器712可將影像內容之圖形資料傳輸至GPU 714以基於處理器712傳輸至GPU 714之指令或命令而進一步處理。
處理器712可根據特定應用程式處理介面(API)與GPU 714通信。此類API之實例包括Microsoft®
之DirectX®
,Khronos集團之OpenGL®
或OpenGL ES®
以及OpenCLTM
;然而,本發明之態樣不限於DirectX、OpenGL或OpenCL API,且可擴展至其他類型之API。此外,本發明中描述之技術並不被要求根據API起作用,且處理器712及GPU 714可利用用於通信之任何程序。
系統記憶體716可為裝置710的記憶體。系統記憶體716可包括一或多個電腦可讀儲存媒體。系統記憶體716之實例包括(但不限於)隨機存取記憶體(RAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體,或可用以攜載或儲存呈指令及/或資料結構之形式的所要程式碼並可由電腦或處理器存取的其他媒體。
在一些實例中,系統記憶體716可包括使處理器712、GPU 714及/或顯示處理器718執行在發明中歸屬處理器712、GPU 714及/或顯示處理器718之功能的指令。因此,系統記憶體716可為其上儲存有指令之電腦可讀儲存媒體,該等指令在經執行時使一或多個處理器(例如,處理器712、GPU 714及顯示處理器718)執行各種功能。
系統記憶體716可包括非暫時性儲存媒體。術語「非暫時性」指示儲存媒體並不以載波或傳播信號體現。然而,術語「非暫時性」不應解釋成意謂系統記憶體716為非可移動或其內容為靜態。作為一個實例,可自裝置710移除系統記憶體716,並將其移動至另一裝置。作為另一實例,可將實質上類似於系統記憶體716之記憶體插入至裝置710中。在某些實例中,非暫時性儲存媒體可儲存隨著時間的過去可改變之資料(例如,在RAM中)。
使用者介面720可表示使用者可藉以與裝置710介接之一或多個硬體或虛擬(意謂硬體與軟體之一組合)使用者介面。使用者介面720可包括實體按鈕、開關、雙態觸發開關、燈或其虛擬版本。使用者介面720亦可包括實體或虛擬鍵盤、觸控介面-諸如觸控螢幕、觸覺反饋及類似者。
處理器712可包括一或多個硬體單元(包括所謂「處理核心」),該等硬體單元經組態以執行上文關於內容創建者裝置及/或內容消費者裝置之模組、單元或其他功能組件中之一或多者或任一者論述的操作之全部或某部分。天線721及收發器模組722可表示一單元,該單元經組態以建立並維持源裝置12與內容消費者裝置14之間的連接。天線721及收發器模組722可表示能夠根據諸如以下各者之一或多個無線通信協定進行無線通信的一或多個接收器及/或一或多個傳輸器:第五代(5G)蜂巢式標準、諸如Bluetooth™之個人區域網路(PAN)協定或其他開放源,專用或其他通信標準。舉例而言,收發器模組722可接收及/或傳輸無線信號。收發器模組722可表示單獨的傳輸器、單獨的接收器、單獨的傳輸器及單獨的接收器兩者,或組合式傳輸器及接收器。天線721及收發器模組722可經組態以接收經編碼音訊資料。同樣,天線721及收發器模組722可經組態以傳輸經編碼音訊資料。
圖8A至圖8C為說明圖1A至圖1C之實例中所展示的串流選擇單元44在執行串流選擇技術之各種態樣時的實例操作之流程圖。首先參看圖8A之實例,串流選擇單元44可自所有經啟用音訊元素獲得音訊串流27,其中音訊串流27可包括對應音訊資訊,例如後設資料,諸如ALI 45A (800)。串流選擇單元44可對於音訊串流27中之每一者執行能量分析以計算各別能量圖(802)。
串流選擇單元44接下來可基於至音訊源308之近接(如由音訊源距離306A及/或306B所界定)及音訊元素(如上文所論述之近接距離所界定)經由音訊元素(CM 47中界定)之不同組合反覆(804)。如圖8A中所展示,音訊元素可定等級或以其他方式與不同存取權利相關聯。串流選擇單元44可基於由DLI 45B表示的聽者位置(其為指代「虛擬方位」或「裝置方位」的另一方式)及由ALI 45A表示的音訊元素位置以上文所描述的方式反覆以識別需要音訊串流27之大子集抑或需要音訊串流27之減少子集(806、808)。
當需要音訊串流27之較大子集時,串流選擇單元44可新增音訊元素(或換言之額外音訊串流)至音訊資料19'(諸如當使用者更接近於圖3A之實例中的音訊源時)(810)。當需要音訊串流27之減少子集時,串流選擇單元44可自音訊資料19'移除音訊元素(或換言之現有音訊串流)(諸如當使用者更遠離圖3A之實例中的音訊源時)(812)。
在一些實例中,串流選擇單元44可判定音訊元素之當前群集係最佳集合(或換言之,現有音訊資料19'將使在相同音訊資料19'中之結果保持與本文中所描述的選擇程序相同)(804),且程序可返回至802。然而,當音訊串流經新增或自音訊資料19'移除時,串流選擇單元44可更新CM 47 (814),從而產生群集歷史(815)(包括位置、能量圖等)。
另外,串流選擇單元44可判定隱私設定啟用抑或停用音訊元素之新增(其中隱私設定可指例如借助於密碼、授權層級或等級、時間等限制對音訊串流27中之一或多者存取的數位存取權利)(816、818)。當隱私設定啟用音訊元素之新增時,串流選擇單元44可新增音訊元素至經更新CM 47 (其指代新增音訊串流至音訊資料19')(820)。當隱私設定停用音訊元素之新增時,串流選擇單元44可自經更新CM 47移除音訊元素(其指代自音訊資料19'移除音訊串流)(822)。以此方式,串流選擇單元44可識別經啟用音訊元素之新集合(824)。
串流選擇單元44可以此方式反覆並根據任一給定頻率更新各種輸入。舉例而言,串流選擇單元44可以使用者介面速率更新隱私設定(意謂更新係借助於經由使用者介面輸入的更新而驅動)。作為另一實例,串流選擇單元44可以感測器速率更新位置(意謂經由移動音訊元素改變位置)。串流選擇單元44可另外以音訊訊框速率更新能量圖(意謂每一訊框更新能量圖)。
接下來參看圖8B之實例,除串流選擇單元44可不基於能量圖對CM 47進行判定以外,串流選擇單元44可以上文關於圖8A所描述之方式操作。因而,串流選擇單元44可自所有經啟用音訊元素獲得音訊串流27,其中音訊串流27可包括對應音訊資訊,例如,後設資料,諸如ALI 45A (840)。串流選擇單元44可判定隱私設定啟用抑或停用音訊元素之新增(其中隱私設定可指例如借助於密碼、授權層級或等級、時間等限制對音訊串流27中之一或多者存取的數位存取權利)(842、844)。
當隱私設定啟用音訊元素之新增時,串流選擇單元44可新增音訊元素至經更新CM 47 (其指音訊串流新增至音訊資料19')(846)。當隱私設定停用音訊元素之新增時,串流選擇單元44可自經更新CM 47移除音訊元素(其指自音訊資料19'移除音訊串流)(848)。以此方式,串流選擇單元44可識別經啟用音訊元素之新集合(850)。串流選擇單元44可經由CM 47中的音訊元素之不同組合反覆(852)以判定群集歷史(854),其表示音訊資料19'。
串流選擇單元44可以此方式反覆並根據任一給定頻率更新各種輸入。舉例而言,串流選擇單元44可以使用者介面速率更新隱私設定(意謂更新係借助於經由使用者介面輸入的更新而驅動)。作為另一實例,串流選擇單元44可以感測器速率更新位置(意謂經由移動音訊元素改變位置)。
接下來參看圖8C之實例,除串流選擇單元44可不基於隱私設定啟用音訊元素對CM 47進行判定以外,串流選擇單元44可以上文關於圖8A所描述的方式操作。因而,串流選擇單元44可自所有經啟用音訊元素獲得音訊串流27,其中音訊串流27可包括對應音訊資訊,例如,後設資料,諸如ALI 45A (860)。串流選擇單元44可對於音訊串流27中之每一者執行能量分析以計算各別能量圖(862)。
串流選擇單元44接下來可基於至音訊源308之近接(如由音訊源距離306A及/或306B所界定)及音訊元素(如上文所論述之近接距離所界定)經由音訊元素(CM 47中界定)之不同組合反覆(864)。如圖8C中所展示,音訊元素可定等級或以其他方式與不同存取權利相關聯。串流選擇單元44可基於由DLI 45B表示的聽者位置(其再次為指代上文所論述之「虛擬方位」或「裝置方位」的另一方式)及由ALI 45A表示的音訊元素位置以上文所描述的方式反覆以識別需要該等音訊串流27之較大子集抑或需要音訊串流27之減少子集(866、868)。
當需要音訊串流27之較大子集時,串流選擇單元44可新增音訊元素(或換言之,額外音訊串流)至音訊資料19'(諸如當使用者更接近於圖3A之實例中的音訊源時)(870)。當需要音訊串流27之減少子集時,串流選擇單元44可自音訊資料19'移除音訊元素或換言之現有音訊串流(諸如當使用者更遠離圖3A之實例中的音訊源時)(872)。
在一些實例中,串流選擇單元44可判定音訊元素之當前群集係最佳集合(或換言之,現有音訊資料19'將使在相同音訊資料19'中之結果保持與本文中所描述的選擇程序相同)(864),且程序可返回至862。然而,當音訊串流被新增或自音訊資料19'移除時,串流選擇單元44可更新CM 47 (874),從而產生群集歷史(875)。
串流選擇單元44可以此方式反覆並根據任一給定頻率更新各種輸入。舉例而言,串流選擇單元44可以感測器速率更新位置(意謂經由移動音訊元素改變位置)。串流選擇單元44可另外以音訊訊框速率更新能量圖(意謂每一訊框更新能量圖)。
圖9說明根據本發明之態樣的無線通信系統100之實例。無線通信系統100包括基地台105、UE 115及核心網路130。在一些實例中,無線通信系統100可為長期演進(LTE)網路、進階LTE(LTE-A)網路、LTE-A Pro網路、第5代蜂巢式網路或新無線電(NR)網路。在一些情況下,無線通信系統100可支援增強型寬頻通信、超可靠(例如,關鍵任務)通信、低潛時通信或與低成本及低複雜度裝置之通信。
基地台105可經由一或多個基地台天線與UE 115無線通信。本文中所描述之基地台105可包括或可由熟習此項技術者稱作基地收發器台、無線基地台、存取點、無線收發器、節點B、e節點B(eNB)、下一代節點B或十億節點B(其中之任一者可被稱作gNB),本籍節點B、本籍e節點B、或某一其他適合之術語。無線通信系統100可包括不同類型之基地台105(例如,巨型或小型小區基地台)。本文中所描述的UE 115可能夠與各種類型之基地台105及網路裝備(包括巨型eNB、小型小區eNB、gNB、中繼基地台等)通信。
每一基地台105可與支援與各種UE 115之通信的特定地理涵蓋區域110相關聯。每一基地台105可經由通信鏈路125為各別地理涵蓋區域110提供通信涵蓋,且基地台105與UE 115之間的通信鏈路125可利用一或多個載波。無線通信系統100中所展示之通信鏈路125可包括自UE 115至基地台105之上行鏈路傳輸或自基地台105至UE 115之下行鏈路傳輸。下行鏈路傳輸亦可稱為前向鏈路傳輸而上行鏈路傳輸亦可稱為反向鏈路傳輸。
基地台105之地理涵蓋區域110可劃分成組成地理涵蓋區域110之一部分的扇區,且各扇區可與小區相關聯。舉例而言,各基地台105可為巨型小區、小型小區、熱點或其他類型之小區或其各種組合提供通信涵蓋。在一些實例中,基地台105可為可移動的,且因此為移動之地理涵蓋區域110提供通信涵蓋。在一些實例中,與不同技術相關聯之不同地理涵蓋區域110可重疊,且與不同技術相關聯之重疊地理涵蓋區域110可由相同基地台105或由不同基地台105支援。無線通信系統100可包括例如異質LTE/LTE-A/LTE-A Pro,第5代或NR網路,其中不同類型基地台105提供各種地理涵蓋區域110之涵蓋範圍。
UE 115可分散於整個無線通信系統100中,且每一UE 115可為靜止的或行動的。UE 115亦可被稱作行動裝置、無線裝置、遠端裝置、手持型裝置或用戶裝置、或某一其他適合之術語,其中「裝置」亦可被稱作單元、台、終端或用戶端。UE 115亦可係個人電子裝置,諸如蜂巢式電話、個人數位助理(PDA)、平板電腦、膝上型電腦或個人電腦。在本發明之實例中,UE 115可為本發明中描述之音訊源中之任一者,包括VR耳機、XR耳機、AR耳機、載具、智慧型電話、麥克風、麥克風陣列,或包括麥克風或能夠傳輸所捕捉及/或所合成音訊串流之任何其他裝置。在一些實例中,所合成音訊串流可為儲存於記憶體中或先前建立或合成之音訊串流。在一些實例中,UE 115亦可指代無線區域迴路(WLL)台、物聯網(IoT)裝置、萬物網(IoE)裝置或機器類型通信(MTC)裝置等,前述各者可實施於諸如電氣設備、載具、計量器等之各種製品中。
一些UE 115,諸如MTC或IoT裝置,可係低成本或低複雜度裝置,且可提供機器之間的自動化通信(例如,經由機器對機器(M2M)通信)。M2M通信或MTC可指允許裝置彼此通信或與基地台105通信而無需人工干預的資料通信技術。在一些實例中,M2M通信或MTC可包括自交換及/或使用音訊後設資料的裝置之通信,音訊後設資料可包括用於影響音訊串流及/或音訊源之時序後設資料。
在一些情況下,UE 115亦可能夠與其他UE 115直接通信(例如,使用點對點(P2P)或裝置對裝置(D2D)協定)。UE 115之群組中利用D2D通信的一或多者可在基地台105之地理涵蓋區域110內。此群組中之其他UE 115可在基地台105之地理涵蓋區域110外部,或以其他方式不能自基地台105接收傳輸。在一些情況下,經由D2D通信來通信之UE 115的群組可利用一至多(1:M)系統,其中各UE 115向群組中之各其他UE 115進行傳輸。在一些情況下,基地台105便於針對D2D通信排程資源。在其他情況下,在無基地台105參與之情況下在UE 115之間實施D2D通信。
基地台105可與核心網路130通信且可彼此通信。舉例而言,基地台105可經由空載傳輸鏈路132 (例如,經由S1、N2、N3或其他介面)與核心網路130介接。基地台105可直接地(例如,直接在基地台105之間)或間接地(例如,經由核心網路130)經由空載傳輸鏈路134 (例如,經由X2、Xn或其他介面)彼此通信。
在一些情況下,無線通信系統100可利用授權及未授權射頻頻譜帶兩者。舉例而言,無線通信系統100可於諸如5 GHz工業、科學及醫療(ISM)頻帶之未授權頻帶中使用LTE許可證輔助存取(LTE-LAA)、LTE未授權(LTE-U)無線電存取技術或NR技術。當在未授權射頻頻譜帶中操作時,諸如基地台105及UE 115之無線裝置可使用先聽候送(LBT)程序以確保在傳輸資料之前頻道為清晰的。在一些情況下,未授權頻帶中之操作可係基於與在經授權頻帶(例如,LAA)中操作之分量載波結合的載波聚合組態。未授權頻譜中之操作可包括下行鏈路傳輸、上行鏈路傳輸、點對點傳輸或此等各者之一組合。未授權頻譜中之雙工可基於分頻雙工(FDD)、分時雙工(TDD)或兩者之組合。
根據本發明之技術,個別音訊串流可被限制呈現或可基於時序資訊(諸如時間或持續時間)暫時地呈現。某些個別音訊串流或音訊串流之叢集可為了較佳音訊內插而在固定持續時間內啟用或停用。因此,本發明之技術提供基於時間控制對音訊串流之存取的可撓式方式。
應注意,本文所描述之方法描述可能的實施,且操作及步驟可經重新配置或以其他方式修改,且其他實施係可能的。此外,可組合該等方法中之兩者或大於兩者之態樣。
應認識到,取決於實例,本文中所描述之技術中之任一者的某些動作或事件可以不同序列執行、可添加、合併或完全省略(例如,對於實踐該等技術而言並非所有所描述之動作或事件皆為必要的)。此外,在某些實例中,可例如經由多執行緒處理、中斷處理或多個處理器同時而非順序執行動作或事件。
在一些實例中,VR裝置(或串流裝置)可使用耦接至VR/串流裝置之記憶體之網路介面將交換訊息傳達至外部裝置,其中交換訊息與聲場之多個可用表示相關聯。在一些實例中,VR裝置可使用耦接至網路介面之天線來接收包括資料封包、音訊封包、視訊封包之無線信號,或傳輸與聲場之多個可用表示相關聯的協定資料。在一些實例中,一或多個麥克風陣列可捕捉聲場。
在一些實例中,儲存至記憶體裝置之聲場的多個可用表示可包括聲場之複數個基於對象的表示、聲場之高階立體混響表示、聲場之混合階立體混響表示、聲場之基於對象之表示與聲場之高階立體混響表示的組合、聲場之基於對象之表示與聲場之混合階立體混響表示的組合,或聲場之混合階表示與聲場之高階立體混響表示的組合。
在一些實例中,聲場之多個可用表示的聲場表示中之一或多者可包括至少一個高解析度區及至少一個較低解析度區,且其中基於轉向角之所選呈現相對於至少一個高解析度區提供較大空間精確度且相對於較低解析度區提供較小空間精確度。
本發明包括以下實例。
實例1. 一種經組態以播放複數個音訊串流中之一或多者之裝置包含:一記憶體,其經組態以儲存時序後設資料、該複數個音訊串流及對應音訊後設資料,及與一聲學空間之座標相關聯之方位資訊,在該聲學空間中捕捉該複數個音訊串流中的該對應者;及一或多個處理器,其耦接至該記憶體,且經組態以:基於該時序後設資料及該方位資訊選擇該複數個音訊串流之一子集,該複數個音訊串流的該子集排除該複數個音訊串流中之至少一者。
實例2. 如實例1之裝置,其中該一或多個處理器經進一步組態以獲得該方位資訊。
實例3. 如實例2之裝置,其中經排除串流與一或多個隱私區域相關聯且該一或多個處理器藉由判定該方位資訊獲得該方位資訊。
實例4. 如實例2之裝置,其中該一或多個處理器藉由自該記憶體讀取該方位資訊獲得該方位資訊。
實例5. 如實例1至4之任何組合之裝置,其中該一或多個處理器經進一步組態以組合該複數個音訊串流之該子集中之至少兩者。
實例6. 如實例5之裝置,其中該一或多個處理器藉由混合或內插中之至少一者組合該複數個音訊串流之該子集中的該至少兩者。
實例7. 如實例1至6之任何組合之裝置,其中該一或多個處理器經進一步組態以改變該複數個音訊串流之該子集中之一或多者之一增益。
實例8. 如實例1至7之任何組合之裝置,其中該時序後設資料包含該複數個音訊串流中之至少一者包括音訊內容時的一開始時間。
實例9. 如實例8之裝置,其中該一或多個處理器經組態以:比較該開始時間與一當前時間;及當該開始時間等於或大於該當前時間時選擇該複數個音訊串流之該子集。
實例10. 如實例1至9之任何組合之裝置,其中該時序後設資料包含該複數個音訊串流中之至少一者之一持續時間。
實例11. 如實例10之裝置,其中該一或多個處理器經組態以:比較該持續時間與一計時器;及當該持續時間等於或大於該計時器時選擇該複數個音訊串流之該子集。
實例12. 如實例10之裝置,其中該一或多個處理器經進一步組態以:基於該方位資訊選擇該複數個音訊串流之一第二子集,該複數個音訊串流之該第二子集排除該複數個音訊串流中之至少一者;並在該持續時間中在該複數個音訊串流之該子集與該複數個音訊串流之該第二子集之間內插。
實例13. 如實例1至12之任何組合之裝置,其中該一或多個處理器經進一步組態以:自一使用者獲得選擇該複數個音訊串流之該子集之一請求;並基於該使用者請求、該方位資訊及該時序後設資料,選擇該複數個音訊串流之該子集。
實例14. 如實例1至13之任何組合之裝置,其中該時序後設資料係自一源裝置接收。
實例15. 如實例1至13之裝置,其中該一或多個處理器經進一步組態以產生該時序後設資料。
實例16. 如實例1至15之裝置,其中該一或多個處理器經組態以:自一使用者獲得對於複數個立體混響聲場類型中之一者之一請求;並基於對於複數個立體混響聲場類型中之該一者之該請求及該複數個音訊串流或該複數個音訊串流之該子集再現對應聲場。
實例17. 如實例16之裝置,其中該複數個立體混響聲場類型包含一階立體混響聲場(FOA)、高階立體混響聲場(HOA)及混合階立體混響聲場(MOA)中之至少兩者。
實例18. 如實例1至17之任何組合之裝置,其進一步包含一顯示裝置。
實例19. 如實例18之裝置,其進一步包含一麥克風,其中該一或多個處理器經進一步組態以自該麥克風接收一語音命令並基於該語音命令控制該顯示裝置。
實例20. 如實例1至19之任何組合之裝置,其進一步包含一或多個揚聲器。
實例21. 如實例1至20之任何組合之裝置,其中該裝置包含一擴展實境耳機,且其中該聲學空間包含由一攝影機捕捉之視訊資料所表示之一場景。
實例22. 如實例1至20之任何組合之裝置,其中該裝置包含一擴展實境耳機,且其中該聲學空間包含一虛擬世界。
實例23. 如實例1至22之任何組合之裝置,其進一步包含經組態以呈現該聲學空間之一頭戴式顯示器。
實例24. 如實例1至20之任何組合之裝置,其中該裝置包含一行動手機。
實例25. 如實例1至24之任何組合之裝置,其進一步包含一無線收發器,該無線收發器耦接至該一或多個處理器且經組態以接收一無線信號。
實例26. 實例25之裝置,其中該無線信號為藍芽。
實例27. 如實例25之裝置,其中該無線信號為5G。
實例28. 如實例1至27之任何組合之裝置,其中該裝置包含一載具。
實例29. 如實例1至25之任何組合之裝置,其中該時序後設資料包含一延遲且其中該一或多個處理器經進一步組態以:偵測一觸發;比較該延遲與一計時器;及為選擇該複數個音訊串流之該子集,一直等待直至該延遲等於或大於該計時器為止。
實例30. 一種播放複數個音訊串流中之一或多者之方法包含:由一記憶體儲存時序後設資料、該複數個音訊串流及對應音訊後設資料,以及與一聲學空間之座標相關聯之方位資訊,在該聲學空間中該複數個音訊串流中的該對應者被捕捉;及由該一或多個處理器並基於該時序後設資料及該方位資訊選擇該複數個音訊串流之一子集,該複數個音訊串流之該子集排除該複數個音訊串流中之至少一者。
實例31. 如實例30之方法,其進一步包含由該一或多個處理器獲得該方位資訊。
實例32. 如實例31之方法,其中經排除串流係與一或多個隱私區域相關聯且該獲得該方位資訊係藉由判定該方位資訊。
實例33. 如實例31之方法,其中該獲得該方位資訊係藉由自該記憶體讀取該方位資訊。
實例34. 如實例31至33之任何組合之方法,其進一步包含由該一或多個處理器組合該複數個音訊串流之該子集中之至少兩者。
實例35. 如實例34之方法,其中該組合該複數個音訊串流之該子集中之該至少兩者係藉由混合或內插中之至少一者。
實例36. 如實例30至35之任何組合之方法,其進一步包含由該一或多個處理器改變該複數個音訊串流之該子集中之一或多者之一增益。
實例37. 如實例30至36之任何組合之方法,其中該時序後設資料包含該複數個音訊串流中之至少一者包括音訊內容時的一開始時間。
實例38. 如實例37之方法,其進一步包含:由該一或多個處理器比較該開始時間與一當前時間;及當該開始時間等於或大於該當前時間時由該一或多個處理器選擇該複數個音訊串流之該子集。
實例39. 如實例30至38之任何組合之方法,其中該時序後設資料包含該複數個音訊串流中之至少一者之一持續時間。
實例40. 如實例39之方法,其進一步包含:由該一或多個處理器比較該持續時間與一計時器;及當該持續時間等於或大於該計時器時,由該一或多個處理器選擇該複數個音訊串流之該子集。
實例41. 如實例39之方法,其進一步包含:由該一或多個處理器基於該方位資訊選擇該複數個音訊串流之一第二子集,該複數個音訊串流之該第二子集排除該複數個音訊串流中之至少一者;及由該一或多個處理器在該持續時間中在該複數個音訊串流之該子集與該複數個音訊串流之該第二子集之間內插。
實例42. 如實例30至41之任何組合之方法,其進一步包含自一使用者獲得選擇該複數個音訊串流之該子集之一請求;及基於該使用者請求、該方位資訊及該時序後設資料由該一或多個處理器選擇該複數個音訊串流之該子集。
實例43. 如實例30至42之任何組合之方法,其中該時序後設資料係自一源裝置接收。
實例44. 如實例30至42之任何組合之方法,其進一步包含由該一或多個處理器產生該時序後設資料。
實例45. 如實例30至44之任何組合之方法,其進一步包含:自一使用者獲得對於複數個立體混響聲場類型中之一者之一請求;及由該一或多個處理器基於對於複數個立體混響聲場類型中的該一者之該請求及該複數個音訊串流或該複數個音訊串流之該子集再現對應聲場。
實例46. 如實例45之方法,其中該複數個立體混響聲場類型包含一階立體混響聲場(FOA)、高階立體混響聲場(HOA)及混合階立體混響聲場(MOA)中之至少兩者。
實例47. 如實例30至46之任何組合之方法,其進一步包含一麥克風,接收一語音命令及由該一或多個處理器基於該語音命令控制一顯示裝置。
實例48. 如實例30至47之任何組合之方法,其進一步包含輸出該複數個音訊串流之該子集至一或多個揚聲器。
實例49. 如實例30至48之任何組合之方法,其中該聲學空間包含由一攝影機捕捉之視訊資料所表示之一場景。
實例50. 如實例30至48之任何組合之方法,其中該聲學空間包含一虛擬世界。
實例51. 如實例30至50之任何組合之方法,其進一步包含由該一或多個處理器將該聲學空間呈現於一頭戴式裝置上。
實例52. 如實例30至51之任何組合之方法,其進一步包含由該一或多個處理器將該聲學空間呈現於一行動手機上。
實例53. 如實例30至52之任何組合之方法,其進一步包含接收一無線信號。
實例54. 如實例53之方法,其中該無線信號為藍芽。
實例55. 如實例53之方法,其中該無線信號為5G。
實例56. 如實例30至55之任何組合之方法,其進一步包含由該一或多個處理器將該聲學空間呈現於一載具中。
實例57. 如實例30至56之任何組合之方法,其中該時序後設資料包含一延遲且其中該方法進一步包含:由該一或多個處理器偵測一觸發;由該一或多個處理器比較該延遲與一計時器;及為選擇該複數個音訊串流之該子集,一直等待直至該延遲等於或大於該計時器為止。
實例58. 一種經組態以播放複數個音訊串流中之一或多者之裝置,該裝置包含:用於儲存時序後設資料、該複數個音訊串流及對應音訊後設資料,及與一聲學空間之座標相關聯之方位資訊的構件,在該聲學空間中捕捉該複數個音訊串流中的該對應者;及用於基於該時序後設資料及該方位資訊選擇該複數個音訊串流之一子集的構件,該複數個音訊串流的該子集排除該複數個音訊串流中之至少一者。
實例59. 如實例58之裝置,其進一步包含用於獲得該方位資訊的構件。
實例60. 如實例59之裝置,其中經排除串流係與一或多個隱私區域相關聯且該獲得該方位資訊係藉由判定該方位資訊。
實例61. 如實例59之裝置,其中該獲得該方位資訊係藉由自該記憶體讀取該方位資訊。
實例62. 如實例58至60之任何組合之裝置,其進一步包含用於組合該複數個音訊串流之該子集中之至少兩者的構件。
實例63. 如實例62之裝置,其中該組合該複數個音訊串流之該子集中之該至少兩者係藉由混合或內插中之至少一者。
實例64. 如實例58至63之任何組合之裝置,其進一步包含用於改變該複數個音訊串流之該子集中之一或多者之一增益的構件。
實例65. 如實例58至64之任何組合之裝置,其中該時序後設資料包含該複數個音訊串流中之至少一者包括音訊內容時的一開始時間。
實例66. 如實例65之裝置,其進一步包含:用於比較該開始時間與一當前時間的構件;及用於當該開始時間等於或大於該當前時間時選擇該複數個音訊串流之該子集的構件。
實例67. 如實例58至66之任何組合之裝置,其中該時序後設資料包含該複數個音訊串流中之至少一者之一持續時間。
實例68. 如實例67之裝置,其進一步包含:用於比較該持續時間與一計時器的構件;及用於當該持續時間等於或大於該計時器時選擇該複數個音訊串流之該子集的構件。
實例69. 如實例67之裝置,其進一步包含:用於基於該方位資訊選擇該複數個音訊串流之一第二子集的構件,該複數個音訊串流之該第二子集排除該複數個音訊串流中之至少一者;及用於在該持續時間中在該複數個音訊串流之該子集與該複數個音訊串流之該第二子集之間內插的構件。
實例70. 如實例58至69之任何組合之裝置,其進一步包含:用於自一使用者獲得選擇該複數個音訊串流之該子集之一請求的構件;及用於基於該使用者請求、該方位資訊及該時序後設資料選擇該複數個音訊串流之該子集的構件。
實例71. 如實例58至70之任何組合之裝置,其中該時序後設資料係自一源裝置接收。
實例72. 如實例58至70之任何組合之裝置,其進一步包含用於產生該時序後設資料的構件。
實例73. 如實例58至72之任何組合之裝置,其進一步包含:用於自一使用者獲得對於複數個立體混響聲場類型中之一者之一請求的構件;及用於基於對於複數個立體混響聲場類型中的該一者之該請求及該複數個音訊串流或該複數個音訊串流之該子集再現對應聲場的構件。
實例74. 如實例73之裝置,其中該複數個立體混響聲場類型包含一階立體混響聲場(FOA)、高階立體混響聲場(HOA)及混合階立體混響聲場(MOA)中之至少兩者。
實例75. 如實例58至74之任何組合之裝置,其進一步包含用於接收一語音命令的構件及用於基於該語音命令控制一顯示裝置的構件。
實例76. 如實例58至75之任何組合之裝置,其進一步包含用於輸出該複數個音訊串流之該子集至一或多個揚聲器的構件。
實例77. 如實例58至76之任何組合之裝置,其中該聲學空間包含由一攝影機捕捉之視訊資料所表示之一場景。
實例78. 如實例58至76之任何組合之裝置,其中該聲學空間包含一虛擬世界。
實例79. 如實例58至78之任何組合之裝置,其進一步包含用於將該聲學空間呈現於一頭戴式裝置上的構件。
實例80. 如實例58至78之任何組合之裝置,其進一步包含用於將該聲學空間呈現於一行動手機上的構件。
實例81. 如實例58至80之任何組合之裝置,其進一步包含用於接收一無線信號的構件。
實例82. 如實例81之裝置,其中該無線信號為藍芽。
實例83. 如實例81之裝置,其中該無線信號為5G。
實例84. 如實例58至83之任何組合之裝置,其進一步包含用於將該聲學空間呈現於一載具中的構件。
實例85. 如實例58至84之任何組合之裝置,其中該時序後設資料包含一延遲且其中該裝置進一步包含:用於偵測一觸發的構件;用於比較該延遲與一計時器的構件;及用於為選擇該複數個音訊串流之該子集一直等待直至該延遲等於或大於該計時器為止的構件。
實例86. 一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在經執行時使一或多個處理器:儲存時序後設資料、該複數個音訊串流及對應音訊後設資料以及與一聲學空間之座標相關聯之方位資訊,在該聲學空間中捕捉該複數個音訊串流中的該對應者;並基於該時序後設資料及該方位資訊選擇該複數個音訊串流之一子集,該複數個音訊串流之該子集排除該複數個音訊串流中之至少一者。
實例87. 如實例86之非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器獲得該方位資訊的指令。
實例88. 如實例87之非暫時性電腦可讀儲存媒體,其中經排除串流與一或多個隱私區域相關聯且該一或多個處理器藉由判定該方位資訊獲得該方位資訊。
實例89. 如實例87之非暫時性電腦可讀儲存媒體,其中該一或多個處理器藉由自該記憶體讀取該方位資訊而獲得該方位資訊。
實例90. 如實例86至89之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器組合該複數個音訊串流之該子集中之至少兩者的指令。
實例91. 如實例90之非暫時性電腦可讀儲存媒體,其中該組合該複數個音訊串流之該子集中之該至少兩者係藉由混合或內插中之至少一者。
實例92. 如實例86至91之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器改變該複數個音訊串流之該子集中之一或多者之一增益的指令。
實例93. 如實例86至92之任何組合的非暫時性電腦可讀儲存媒體,其中該時序後設資料包含該複數個音訊串流中之至少一者包括音訊內容時的一開始時間。
實例94. 如實例93之非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器進行以下操作的指令:比較該開始時間與一當前時間;及當該開始時間等於或大於該當前時間時選擇該複數個音訊串流之該子集。
實例95. 如實例86至94之任何組合的非暫時性電腦可讀儲存媒體,其中該時序後設資料包含該複數個音訊串流中之至少一者之一持續時間。
實例96. 如實例95之非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器進行以下操作的指令:比較該持續時間與一計時器;及當該持續時間等於或大於該計時器時選擇該複數個音訊串流之該子集。
實例97. 如實例95之非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器進行以下操作的指令:基於該方位資訊選擇該複數個音訊串流之一第二子集,該複數個音訊串流之該第二子集排除該複數個音訊串流中之至少一者;並在該持續時間中在該複數個音訊串流之該子集與該複數個音訊串流之該第二子集之間內插。
實例98. 如實例86至97之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器進行以下操作的指令:自一使用者獲得選擇該複數個音訊串流之該子集之一請求;及基於該使用者請求、該方位資訊及該時序後設資料選擇該複數個音訊串流之該子集。
實例99. 如實例86至98之任何組合的非暫時性電腦可讀儲存媒體,其中該時序後設資料係自一源裝置接收。
實例100. 如實例86至99之非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器產生該時序後設資料的指令。
實例101. 如實例86至100之非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器進行以下操作的指令:自一使用者獲得對於複數個立體混響聲場類型中之一者之請求;及基於對於複數個立體混響聲場類型中之該一者之該請求及該複數個音訊串流或該複數個音訊串流之一子集再現對應聲場。
實例102. 如實例101之非暫時性電腦可讀儲存媒體,其中該複數個立體混響聲場類型包含一階立體混響聲場(FOA)、高階立體混響聲場(HOA)及混合階立體混響聲場(MOA)中之至少兩者。
實例103. 如實例86至102之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器自該麥克風接收一語音命令並基於該語音命令控制一顯示裝置的指令。
實例104. 如實例86至103之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器輸出該複數個音訊串流之該子集至一或多個揚聲器的指令。
實例105. 如實例86至104之任何組合的非暫時性電腦可讀儲存媒體,其中該聲學空間包含由一攝影機捕捉之視訊資料所表示之一場景。
實例106. 如實例86至104之任何組合的非暫時性電腦可讀儲存媒體,其中該聲學空間包含一虛擬世界。
實例107. 如實例86至106之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器將該聲學空間呈現於一頭戴式顯示器上的指令。
實例108. 如實例86至107之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器將該聲學空間呈現於一行動手機上的指令。
實例109. 如實例86至108之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器接收一無線信號的指令。
實例110. 如實例109之非暫時性電腦可讀儲存媒體,其中該無線信號為藍芽。
實例111. 如實例109之非暫時性電腦可讀儲存媒體,其中該無線信號為5G。
實例112. 如實例86至111之任何組合的非暫時性電腦可讀儲存媒體,其進一步包含在經執行時使一或多個處理器將該聲學空間呈現於一載具中的指令。
實例113. 如實例86至112之任何組合的非暫時性電腦可讀儲存媒體,其中該時序後設資料包含一延遲且該非暫時性電腦可讀儲存媒體進一步包含在經執行時使一或多個處理器進行以下操作的指令:偵測一觸發;比較該延遲與一計時器;及為選擇該複數個音訊串流之該子集而一直等待直至該延遲等於或大於該計時器為止。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體(其包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體)。以此方式,電腦可讀媒體大體可對應於(1)為非暫時性的有形電腦可讀儲存媒體,或(2)通信媒體,諸如,信號或載波。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉由實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。又,將任何連接恰當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纜、雙絞線、數位用戶線(DSL)或無線技術(諸如紅外線、無線電及微波)自網站、伺服器或其他遠端源傳輸指令,則同軸纜線、光纜、雙絞線、DSL或無線技術(諸如紅外線、無線電及微波)包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而係針對非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟藉由雷射以光學方式再現資料。以上之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效的整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指前述結構中之任一者或適合於實施本文中所描述技術的任何其他結構。另外,在一些態樣中,本文所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編解碼器中之專用硬體及/或軟體模組內。此外,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可實施於多種裝置或設備中,包括無線手機、積體電路(IC)或IC集合(例如晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣,但未必要求由不同硬體單元來實現。確切地說,如上文所描述,可將各種單元組合於編解碼器硬體單元中,或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合而結合合適軟體及/或韌體來提供該等單元。
各種實例已予以描述。此等及其他實例係在以下申請專利範圍之範疇內。
10:系統
12A:源裝置
12B:源裝置
12C:源裝置
14A:內容消費者裝置
14B:內容消費者裝置
14C:內容消費者裝置
14D:內容消費者裝置
16A:音訊播放系統
16B:音訊播放系統
16C:音訊播放系統
18:麥克風
19:音訊資料
19':音訊資料
20:內容捕捉裝置
21:內容
22:內容編輯裝置
23:經編輯內容
24:聲場表示產生器
25:後設資料
27:位元串流
29:合成裝置
32:音訊呈現器
34:音訊解碼裝置
35:揚聲器饋送
37:揚聲器資訊
40:追蹤裝置
41:追蹤資訊
42:雙耳呈現器
43:左側及右側揚聲器饋送
44:串流選擇單元
45A:音訊方位資訊(ALI)
45B:裝置方位資訊(DLI)
47:群集圖(CM)
48:頭戴式耳機
49:音訊源方位(ASL)
100:無線通信系統
105:基地台
110:地理涵蓋區域
115:UE
125:通信鏈路
130:核心網路
132:空載傳輸鏈路
134:空載傳輸鏈路
300A:虛擬方位
300B:虛擬方位
302A:音訊元素
302B:音訊元素
302C:音訊元素
302D:音訊元素
302E:音訊元素
302F:音訊元素
302G:音訊元素
302H:音訊元素
302I:音訊元素
302J:音訊元素
304:音訊源方位
306A:音訊源距離
306B:音訊源距離
308:音訊源
310A:音訊元素
310B:音訊元素
310C:音訊元素
310D:音訊元素
312:演唱者
314:弦樂組
316:鼓手
318:其他樂手
320A:裝置/專用麥克風
320B:裝置
320C:裝置
320D:裝置
320E:裝置
320F:裝置
320G:裝置
320H:裝置
320J:裝置
321:頭戴式耳機
322:虛擬實境(VR)護目鏡
323:舞台
324:智慧型眼鏡
326:裝置
400:流程圖
401:步驟
402:步驟
403:步驟
404:步驟
405:步驟
406:步驟
407:步驟
408:步驟
409:步驟
410:步驟
411:步驟
420:流程圖
421:步驟
422:步驟
423:步驟
424:步驟
425:步驟
426:步驟
427:步驟
430:流程圖
431:步驟
433:步驟
434:步驟
435:步驟
436:步驟
437:步驟
440:處理器
441:靜態音訊源
442:動態音訊源
443:音訊資訊
444:控制器
447:鏈路
448:處理器
470:使用者
471:音訊串流
472:音訊串流
473:音訊串流
474:音訊串流
480:使用者
481:隱私區域
482:隱私區域
483:隱私區域
500:穿戴式裝置
502:步驟
504:步驟
506:步驟
508:步驟
510:步驟
512:步驟
514:步驟
516:步驟
600:攝影機
703:顯示器
710:裝置
712:處理器
714:圖形處理單元(GPU)
716:系統記憶體
718:顯示處理器
720:使用者介面
721:天線
722:收發器模組
740:整合式揚聲器
800:步驟
802:步驟
804:步驟
806:步驟
808:步驟
810:步驟
812:步驟
814:步驟
815:步驟
816:步驟
818:步驟
820:步驟
822:步驟
824:步驟
840:步驟
842:步驟
844:步驟
846:步驟
848:步驟
850:步驟
852:步驟
854:步驟
860:步驟
862:步驟
864:步驟
866:步驟
868:步驟
870:步驟
872:步驟
874:步驟
875:步驟
1100:虛擬實境(VR)裝置
1102:使用者
1104:頭戴式耳機
4000:載具
4001:引擎
4002:無線電
4003:排氣裝置
4100:移動載具
4101:引擎
4102:輪胎1
4103:輪胎2
4104:無線電
4105:排氣裝置
4811:音訊串流
4812:音訊串流
4813:音訊串流
4821:音訊串流
4822:音訊串流
4823:音訊串流
4831:音訊串流
4832:音訊串流
4833:音訊串流
圖1A至圖1C為說明可執行本發明中描述之技術的各種態樣之系統的圖式。
圖2為說明由使用者穿戴之VR裝置之一實例的圖式。
圖3A至圖3E為更詳細地說明圖1A至圖1C之實例中所示的串流選擇單元之實例操作的圖式。
圖4A至圖4C為說明圖1A至圖1C之實例中所示的用以基於時序資訊控制對複數個音訊串流中之至少一者之存取的串流選擇單元之實例操作的流程圖。
圖4D及圖4E為進一步說明根據本發明中描述之技術的各種態樣的諸如時序後設資料之時序資訊的使用之圖式。
圖4F及圖4G為說明根據本發明中描述之技術的各種態樣的對於較大存取之暫時請求的使用之圖式。
圖4H及圖4I為說明根據本發明中描述之技術的各種態樣提供的隱私區域之實例之圖式。
圖4J及圖4K為說明根據本發明中描述之技術的各種態樣的音訊呈現之服務之階層的使用之圖式。
圖4L為說明根據本發明中描述之技術的各種態樣的狀態轉變之狀態轉變圖式。
圖4M為說明根據本發明中所描述之技術之各種態樣的載具之圖式。
圖4N為根據本發明中描述之技術的各種態樣的移動載具之圖式。
圖4O為說明使用授權層級用於基於時序資訊控制對複數個音訊串流中之至少一者之存取的實例技術之流程圖。
圖4P為說明使用觸發及延遲以基於時序資訊控制對複數個音訊串流中之至少一者之存取的實例技術之流程圖。
圖5為說明可根據本發明中所描述之技術的各種態樣來操作之穿戴式裝置的實例之圖式。
圖6A及圖6B為說明可執行本發明中描述之技術的各種態樣之其他實例系統的圖式。
圖7為說明圖1之實例中所展示的源裝置及內容消費者裝置中之一或多者之實例組件的方塊圖。
圖8A至圖8C為說明圖1A至圖1C之實例中所展示的串流選擇單元在執行串流選擇技術之各種態樣時的實例操作之流程圖。
圖9為說明根據本發明之態樣的無線通信系統之實例的概念圖。
400:流程圖
401:步驟
402:步驟
403:步驟
404:步驟
405:步驟
406:步驟
407:步驟
408:步驟
409:步驟
410:步驟
411:步驟
Claims (47)
- 一種經組態以播放複數個音訊串流中之一或多者之裝置,其包含: 一記憶體,其經組態以儲存時序資訊及該複數個音訊串流;及 一或多個處理器,其耦接至該記憶體,且經組態以 基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
- 如請求項1之裝置,其中該記憶體經進一步組態以儲存與一聲學空間之座標相關聯之方位資訊,在該聲學空間中該複數個音訊串流中之一對應者被捕捉或合成。
- 如請求項1之裝置,其中該一或多個處理器經組態以藉由選擇該複數個音訊串流之一子集來控制對該複數個音訊串流中之該至少一者之存取,該複數個音訊串流之該子集排除該複數個音訊串流中之至少一者。
- 如請求項3之裝置,其中該等經排除串流與一或多個隱私區域相關聯。
- 如請求項4之裝置,其中該一或多個處理器經進一步組態以: 判定一使用者之一授權層級; 比較該使用者之該授權層級與該一或多個隱私區域之一授權層級;及 基於該比較選擇該複數個音訊串流之該子集。
- 如請求項3之裝置,其中該一或多個處理器經進一步組態以: 自一使用者獲得新增該複數個音訊串流中之至少一個經排除音訊串流之一更動請求;及 基於該更動請求,在一有限時間週期內新增該至少一個經排除音訊串流。
- 如請求項1之裝置,其中該一或多個處理器經組態以藉由基於該時序資訊不下載或接收該複數個音訊串流中之至少一者來控制對該複數個音訊串流中之該至少一者之存取。
- 如請求項1之裝置,其中該時序資訊包含該複數個音訊串流中之至少一者包括音訊內容時的一開始時間。
- 如請求項8之裝置,其中該一或多個處理器經組態以: 比較該開始時間與一當前時間;及 當該開始時間等於或大於該當前時間時選擇該複數個音訊串流之一子集。
- 如請求項1之裝置,其中該時序資訊包含該複數個音訊串流中之至少一者之一持續時間。
- 如請求項10之裝置,其中該一或多個處理器經組態以: 比較該持續時間與一計時器;及 當該持續時間等於或大於該計時器時選擇該複數個音訊串流之一子集。
- 如請求項1之裝置,其中該一或多個處理器經組態以: 自一使用者獲得對於複數個立體混響聲場類型中之一者之一請求;及 基於對於複數個立體混響聲場類型中之該一者之該請求及該複數個音訊串流或該複數個音訊串流之一子集再現對應聲場, 其中該複數個立體混響聲場類型包含一階立體混響聲場(FOA)、高階立體混響聲場(HOA)及混合階立體混響聲場(MOA)中之至少兩者。
- 如請求項1之裝置,其中該時序資訊包含一延遲且其中該一或多個處理器經進一步組態以: 偵測一觸發; 比較該延遲與一計時器;及 為選擇該複數個音訊串流之一子集一直等待直至該延遲等於或大於該計時器為止。
- 如請求項1之裝置,其中該一或多個處理器經進一步組態以藉由混合或內插或聲場操縱之另一變體中之至少一者組合該複數個音訊串流中之至少兩者。
- 如請求項1之裝置,其中該一或多個處理器經進一步組態以改變該複數個音訊串流中之一或多者之一增益。
- 如請求項1之裝置,其進一步包含一顯示裝置。
- 如請求項16之裝置,其進一步包含一麥克風,其中該一或多個處理器經進一步組態以自該麥克風接收一語音命令並基於該語音命令控制該顯示裝置。
- 如請求項1之裝置,其進一步包含一或多個揚聲器。
- 如請求項1之裝置,其中該裝置包含一擴展實境耳機,且 其中一聲學空間包含由一攝影機捕捉之視訊資料所表示之一場景。
- 如請求項1之裝置,其中該裝置包含一擴展實境耳機,且其中一聲學空間包含一虛擬世界。
- 如請求項1之裝置,其進一步包含經組態以呈現一聲學空間之一頭戴式顯示器。
- 如請求項1之裝置,其中該裝置包含一行動手機或一載具中之一者。
- 如請求項1之裝置,其進一步包含一無線收發器,該無線收發器耦接至該一或多個處理器且經組態以接收一無線信號。
- 一種播放複數個音訊串流中之一或多者之方法,其包含: 由一記憶體儲存時序資訊及該複數個音訊串流;及 基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
- 如請求項24之方法,其進一步包含儲存與一聲學空間之座標相關聯之方位資訊,在該聲學空間中該複數個音訊串流中之一對應者被捕捉或合成。
- 如請求項24之方法,其中該控制對該複數個音訊串流中之該至少一者之存取包含選擇該複數個音訊串流之一子集,該複數個音訊串流之該子集排除該複數個音訊串流中之至少一者。
- 如請求項26之方法,其中該等經排除串流與一或多個隱私區域相關聯。
- 如請求項27之方法,其進一步包含: 判定一使用者之一授權層級; 比較該使用者之該授權層級與該一或多個隱私區域之一授權層級;及 基於該比較選擇該複數個音訊串流之該子集。
- 如請求項26之方法,其進一步包含: 自一使用者獲得新增該複數個音訊串流中之至少一個經排除音訊串流之一更動請求;及 基於該更動請求,在一有限時間週期內新增該至少一個經排除音訊串流。
- 如請求項24之方法,其中該控制對該複數個音訊串流中之該至少一者之存取包含基於該時序資訊不下載或接收該複數個音訊串流中之至少一者。
- 如請求項24之方法,其中該時序資訊包含該複數個音訊串流中之至少一者包括音訊內容時的一開始時間。
- 如請求項31之方法,其進一步包含: 比較該開始時間與一當前時間;及 當該開始時間等於或大於該當前時間時選擇該複數個音訊串流之一子集。
- 如請求項24之方法,其中該時序資訊包含該複數個音訊串流中之至少一者之一持續時間。
- 如請求項33之方法,其進一步包含: 比較該持續時間與一計時器;及 當該持續時間等於或大於該計時器時選擇該複數個音訊串流之一子集。
- 如請求項24之方法,其進一步包含: 自一使用者獲得對於複數個立體混響聲場類型中之一者之一請求;及 基於對於複數個立體混響聲場類型中之該一者之該請求及該複數個音訊串流或該複數個音訊串流之一子集再現對應聲場, 其中該複數個立體混響聲場類型包含一階立體混響聲場(FOA)、高階立體混響聲場(HOA)及混合階立體混響聲場(MOA)中之至少兩者。
- 如請求項24之方法,其中該時序資訊包含一延遲,該方法進一步包含: 偵測一觸發; 比較該延遲與一計時器;及 在選擇該複數個音訊串流之一子集之前一直等待直至該延遲等於或大於該計時器為止。
- 如請求項24之方法,其進一步包含藉由混合或內插或聲場操縱之另一變體中之至少一者組合該複數個音訊串流中之至少兩者。
- 如請求項24之方法,其進一步包含改變該複數個音訊串流中之一或多者之一增益。
- 如請求項24之方法,其進一步包含由一麥克風接收一語音命令並基於該語音命令控制一顯示裝置。
- 如請求項24之方法,其進一步包含輸出該複數個音訊串流中之至少一者至一或多個揚聲器。
- 如請求項24之方法,其中一聲學空間包含由一攝影機捕捉之視訊資料所表示之一場景。
- 如請求項24之方法,其中一聲學空間包含一虛擬世界。
- 如請求項24之方法,其進一步包含將一聲學空間呈現於一頭戴式裝置上。
- 如請求項24之方法,其進一步包含將一聲學空間呈現於一行動手機上或一載具中。
- 如請求項24之方法,其進一步包含接收一無線信號。
- 一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在經執行時使一或多個處理器: 儲存時序資訊及複數個音訊串流;及 基於該時序資訊控制對該複數個音訊串流中之至少一者之存取。
- 一種經組態以播放複數個音訊串流中之一或多者之裝置,其包含: 用於儲存時序資訊及複數個音訊串流的構件;及 用於基於該時序資訊控制對該複數個音訊串流中之至少一者之存取的構件。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962870599P | 2019-07-03 | 2019-07-03 | |
US62/870,599 | 2019-07-03 | ||
US16/918,465 | 2020-07-01 | ||
US16/918,465 US11140503B2 (en) | 2019-07-03 | 2020-07-01 | Timer-based access for audio streaming and rendering |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202110201A true TW202110201A (zh) | 2021-03-01 |
Family
ID=74066163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109122455A TW202110201A (zh) | 2019-07-03 | 2020-07-02 | 用於音訊串流及呈現之基於計時器存取 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11140503B2 (zh) |
EP (1) | EP3994564A1 (zh) |
CN (1) | CN114051736A (zh) |
BR (1) | BR112021026072A2 (zh) |
TW (1) | TW202110201A (zh) |
WO (1) | WO2021003358A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020089302A1 (en) * | 2018-11-02 | 2020-05-07 | Dolby International Ab | An audio encoder and an audio decoder |
US11356793B2 (en) * | 2019-10-01 | 2022-06-07 | Qualcomm Incorporated | Controlling rendering of audio data |
US11750998B2 (en) | 2020-09-30 | 2023-09-05 | Qualcomm Incorporated | Controlling rendering of audio data |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
CA3237727A1 (en) * | 2021-11-09 | 2023-05-19 | Sascha Disch | Audio decoder, audio encoder, method for decoding, method for encoding and bitstream, using a plurality of packets, the packets comprising one or more scene configuration packets and one or more scene update packets with of one or more update condition |
WO2024083301A1 (en) * | 2022-10-17 | 2024-04-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Restricted rendering of virtual representation of a user at an augumented reality communication device |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050100320A1 (en) * | 2003-11-11 | 2005-05-12 | Haas William R. | Device and method for recording a media transmission for later playback |
US20060142740A1 (en) * | 2004-12-29 | 2006-06-29 | Sherman Jason T | Method and apparatus for performing a voice-assisted orthopaedic surgical procedure |
US8107321B2 (en) * | 2007-06-01 | 2012-01-31 | Technische Universitat Graz And Forschungsholding Tu Graz Gmbh | Joint position-pitch estimation of acoustic sources for their tracking and separation |
US20090019553A1 (en) * | 2007-07-10 | 2009-01-15 | International Business Machines Corporation | Tagging private sections in text, audio, and video media |
US9600067B2 (en) * | 2008-10-27 | 2017-03-21 | Sri International | System and method for generating a mixed reality environment |
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
US10412440B2 (en) * | 2010-03-24 | 2019-09-10 | Mlb Advanced Media, L.P. | Media and data synchronization system |
JP5141990B2 (ja) * | 2010-03-31 | 2013-02-13 | ヤマハ株式会社 | オーディオネットワークシステム |
US10326978B2 (en) * | 2010-06-30 | 2019-06-18 | Warner Bros. Entertainment Inc. | Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning |
US9523585B2 (en) | 2013-03-15 | 2016-12-20 | Google Inc. | Systems and methods for handling application notifications |
CN107211227B (zh) * | 2015-02-06 | 2020-07-07 | 杜比实验室特许公司 | 用于自适应音频的混合型基于优先度的渲染系统和方法 |
US10693936B2 (en) * | 2015-08-25 | 2020-06-23 | Qualcomm Incorporated | Transporting coded audio data |
TWI744341B (zh) * | 2016-06-17 | 2021-11-01 | 美商Dts股份有限公司 | 使用近場/遠場渲染之距離聲相偏移 |
EP3264801B1 (en) | 2016-06-30 | 2019-10-02 | Nokia Technologies Oy | Providing audio signals in a virtual environment |
US10089063B2 (en) * | 2016-08-10 | 2018-10-02 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
WO2018064528A1 (en) | 2016-09-29 | 2018-04-05 | The Trustees Of Princeton University | Ambisonic navigation of sound fields from an array of microphones |
US10390166B2 (en) | 2017-05-31 | 2019-08-20 | Qualcomm Incorporated | System and method for mixing and adjusting multi-input ambisonics |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
US11070568B2 (en) | 2017-09-27 | 2021-07-20 | Palo Alto Networks, Inc. | IoT device management visualization |
US10169850B1 (en) * | 2017-10-05 | 2019-01-01 | International Business Machines Corporation | Filtering of real-time visual data transmitted to a remote recipient |
US10657974B2 (en) | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
-
2020
- 2020-07-01 US US16/918,465 patent/US11140503B2/en active Active
- 2020-07-02 BR BR112021026072A patent/BR112021026072A2/pt unknown
- 2020-07-02 CN CN202080047109.4A patent/CN114051736A/zh active Pending
- 2020-07-02 EP EP20745409.1A patent/EP3994564A1/en active Pending
- 2020-07-02 TW TW109122455A patent/TW202110201A/zh unknown
- 2020-07-02 WO PCT/US2020/040643 patent/WO2021003358A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US20210006922A1 (en) | 2021-01-07 |
EP3994564A1 (en) | 2022-05-11 |
BR112021026072A2 (pt) | 2022-02-08 |
US11140503B2 (en) | 2021-10-05 |
WO2021003358A1 (en) | 2021-01-07 |
CN114051736A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202110201A (zh) | 用於音訊串流及呈現之基於計時器存取 | |
TW202029782A (zh) | 內插音訊串流 | |
TW202022594A (zh) | 當表達電腦調解之實境系統時表示閉塞 | |
US11429340B2 (en) | Audio capture and rendering for extended reality experiences | |
US11356793B2 (en) | Controlling rendering of audio data | |
TW202117500A (zh) | 用於音訊呈現之隱私分區及授權 | |
US20210006976A1 (en) | Privacy restrictions for audio rendering | |
US11580213B2 (en) | Password-based authorization for audio rendering | |
US11356796B2 (en) | Priority-based soundfield coding for virtual reality audio | |
TW202110197A (zh) | 調適用於呈現之音訊流 | |
CN114747231A (zh) | 基于运动来选择音频流 | |
US11601776B2 (en) | Smart hybrid rendering for augmented reality/virtual reality audio | |
US11750998B2 (en) | Controlling rendering of audio data | |
TWI838554B (zh) | 具有用於控制擴展實境體驗之音訊呈現之使用者介面之裝置及非暫時性電腦可讀儲存媒體及其方法 | |
US20240129681A1 (en) | Scaling audio sources in extended reality systems |