TW202127916A - 用於虛擬實境音訊的聲場調適 - Google Patents

用於虛擬實境音訊的聲場調適 Download PDF

Info

Publication number
TW202127916A
TW202127916A TW109140714A TW109140714A TW202127916A TW 202127916 A TW202127916 A TW 202127916A TW 109140714 A TW109140714 A TW 109140714A TW 109140714 A TW109140714 A TW 109140714A TW 202127916 A TW202127916 A TW 202127916A
Authority
TW
Taiwan
Prior art keywords
audio
spatial component
audio source
vector
processors
Prior art date
Application number
TW109140714A
Other languages
English (en)
Inventor
夫登安東 奧利維亞瑞
塔提爾夏北堤 穆札海珊盧
尼爾斯古特 彼得斯
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202127916A publication Critical patent/TW202127916A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Stereophonic System (AREA)

Abstract

一種示例性設備包括配置為儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源的記憶體。該設備亦包括耦合到記憶體的一或多個處理器。該一或多個處理器配置為從運動感測器接收旋轉資訊。該一或多個處理器配置為基於旋轉資訊旋轉至少一個空間分量以形成至少一個旋轉的空間分量。該一或多個處理器亦配置為從至少一個旋轉的空間分量和至少一個音訊源重建環境身歷聲信號,其中該至少一個空間分量描述球諧函數域表示中的與至少一個音訊源相關聯的空間特性。

Description

用於虛擬實境音訊的聲場調適
本專利申請案主張於2019年11月22日提出申請的美國臨時申請案第62/939,477的優先權,將其全部內容經由引用包括於此。
本案係關於媒體資料,諸如音訊資料的處理。
正在開發電腦中介的現實系統,以允許計算設備添加或者增加、去除或者減去,或者通常修改由使用者體驗的現有現實。電腦中介的現實系統(其亦可以被稱為「增強現實系統」或者「XR系統」)作為實例,可以包括虛擬實境(VR)系統、增強現實(AR)系統和混合現實(MR)系統。電腦中介的現實系統的感知成功通常與此種電腦中介的現實系統就視訊和音訊體驗兩者而言提供現實地浸入式體驗的能力有關,其中視訊和音訊體驗以使用者期望的方式對準。儘管人的視覺系統比人的聽覺系統更敏感(例如,就場景內的各種物件的感知定位而言),但是保證足夠的聽覺體驗在保證現實地浸入式體驗時是越來越重要的因素,特別是隨著視訊體驗改良以允許視訊物件的更好的定位,其使使用者能夠更好地辨識音訊內容的源。
本案大體而言係關於電腦中介的現實系統的使用者體驗的聽覺態樣,包括虛擬實境(VR)、混合現實(MR)、增強現實(AR)、電腦視覺和圖形系統。該等技術的各個態樣可以提供用於自我調整音訊擷取和用於擴展的現實系統的聲學空間的渲染。
在一個實例中,該等技術的各個態樣係關於配置為播放複數個音訊串流中的一或多個的設備,該設備包括:記憶體,配置為儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源;和耦合到記憶體的一或多個處理器,且配置為:從運動感測器接收旋轉資訊;基於旋轉資訊旋轉至少一個空間分量以形成至少一個旋轉的空間分量;和從至少一個旋轉的空間分量和至少一個音訊源重建環境身歷聲信號,其中該至少一個空間分量描述球諧函數域表示中的與至少一個音訊源相關聯的空間特性。
在另一實例中,該等技術的各個態樣係關於播放複數個音訊串流中的一或多個的方法,該方法包括以下步驟:由記憶體儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源;由一或多個處理器從運動感測器接收旋轉資訊;由一或多個處理器基於旋轉資訊旋轉至少一個空間分量以形成至少一個旋轉的空間分量;和由一或多個處理器從至少一個旋轉的空間分量和至少一個音訊源重建環境身歷聲信號,其中該至少一個空間分量描述球諧函數域表示中的與至少一個音訊源相關聯的空間特性。
在另一實例中,該等技術的各個態樣係關於配置為播放複數個音訊串流中的一或多個的設備,該設備包括:用於儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源的構件;用於從運動感測器接收旋轉資訊的構件;用於旋轉至少一個空間分量以形成至少一個旋轉的空間分量的構件;和用於從至少一個旋轉的空間分量和至少一個音訊源重建環境身歷聲信號的構件,其中該至少一個空間分量描述球諧函數域表示中的與至少一個音訊源相關聯的空間特性。
在另一實例中,該等技術的各個態樣係關於具有在其上儲存的指令的非暫時性電腦可讀取儲存媒體,該等指令當執行時使得一或多個處理器:儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源;從運動感測器接收旋轉資訊;基於旋轉資訊旋轉至少一個空間分量以形成至少一個旋轉的空間分量;和從至少一個旋轉的空間分量和至少一個音訊源重建環境身歷聲信號,其中該至少一個空間分量描述球諧函數域表示中的與至少一個音訊源相關聯的空間特性。
在以下的附圖和描述中提到本案的一或多個實例的細節。該等技術的各個態樣的其他特徵、目的和優點將是從描述和附圖和從請求項明顯的。
當前的心理聲學解碼器可能不能在環境身歷聲域中分別旋轉空間分量和音訊物件。因而,當前的心理聲學解碼器可能必須執行到脈衝碼調制(PCM)域的域轉換及其他過程以旋轉此種分量。該等操作可能是計算上昂貴的和功率密集的。
根據本案的技術,心理聲學解碼器可以基於來自運動感測器的旋轉資訊旋轉至少一個空間分量,以形成至少一個旋轉的空間分量。心理聲學解碼器亦可以從至少一個旋轉的空間分量和至少一個音訊源構造環境身歷聲信號。至少一個空間分量以球諧函數域表示描述與至少一個音訊源相關聯的空間特性。以該方式,在VR平臺中,運動旋轉之前的先前空間向量可以用於多通道環境。根據本案的技術,音訊重播系統可以從旋轉感測器接收旋轉資訊,並使用該旋轉資訊在空間向量域中建立旋轉的空間向量,諸如V-向量。此舉可以減小計算資源的需要,可以減少否則必須在位元串流中編碼的資訊,且可以提高編碼品質。
在某些實例中,音訊重播系統可以聯合地解碼身歷聲而不需要編碼器傳輸時間通道間相位資訊。聯合的身歷聲操作可以利用從旋轉感測器獲得的空間放置資訊。
可以經由利用旋轉資訊來改良編碼效率。首先,在相位差量化中,可以經由使用旋轉感測器資料來改良壓縮效率。此舉可以經由向旋轉感測器資料添加相位資訊來實現。例如,脈衝碼調制/修正離散餘弦變換(PCM/MDCT)域耳間相位差(IPD)可以與旋轉感測器資料一起輸入到殘差耦合/解耦旋轉器中,且殘差耦合/解耦旋轉器可以特性化用於身歷聲向量量化的殘差耦合。第二,使用旋轉資訊可以改良編碼品質,因為可以動態地重新分配相位量化位元以經由依賴於用於殘差耦合的旋轉感測器資料來改良編碼品質。根據本案的技術,若旋轉資訊在解碼器可用,則可以執行殘差耦合而不需要編碼器傳輸相位差。
存在表示聲場的多個不同的方式。示例性格式包括基於通道的音訊格式、基於物件的音訊格式和基於場景的音訊格式。基於通道的音訊格式指的是5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或者將音訊通道定位到收聽者周圍的特定位置以重新建立聲場的任何其他基於通道的格式。
基於物件的音訊格式可以指其中指定通常使用脈衝碼調制(PCM)編碼且被稱為PCM音訊物件的音訊物件以表示聲場的格式。此種音訊物件可以包括諸如中繼資料的資訊,其辨識音訊物件相對於收聽者或者聲場中的其他參考點的位置,以使得在努力重新建立聲場時,音訊物件可以被渲染給一或多個揚聲器通道以用於重播。本案中描述的技術可以應用於任意上述格式,包括基於場景的音訊格式、基於通道的音訊格式、基於物件的音訊格式,或者其任何組合。
基於場景的音訊格式可以包括三維空間中定義聲場的元素的分級集合。元素的分級集合的一個實例是球諧係數(SHC)的集合。以下運算式表明使用SHC的聲場的描述或者表示。
Figure 02_image001
該運算式展示在聲場的任意點
Figure 02_image003
的壓力
Figure 02_image005
在時間t 可以由SHC,
Figure 02_image007
唯一地表示。此處,
Figure 02_image009
c 是聲速(~343 m/s),
Figure 02_image003
是參考點(或者觀察點),
Figure 02_image011
是階數n 的球面貝塞爾函數,且
Figure 02_image013
是階數n 和子階數m 的球諧基函數(其亦可以被稱為球基函數)。可以認識到方括號中的項是信號的頻域表示(亦即,
Figure 02_image015
),其可以經由各種時間-頻率變換近似,諸如離散傅裡葉變換(DFT)、離散餘弦變換(DCT)或者小波變換。分級集合的其他實例包括小波變換係數的集合及多解基函數的係數的其他集合。
SHC
Figure 02_image007
可以經由各種麥克風陣列配置實體地獲取(例如,記錄),或者替代地,SHC
Figure 02_image007
可以從聲場的基於通道或者基於物件的描述推導出。SHC(亦可以被稱為環境身歷聲係數)表示基於場景的音訊,其中SHC可以輸入到音訊編碼器以獲得可以促進更有效的傳輸或者儲存的編碼的SHC。例如,可以使用涉及(1+4)2 (25,且因此第四階)個係數的第四階表示。
如前述,SHC可以從使用麥克風陣列的麥克風記錄推導出。SHC可以怎樣從麥克風陣列實體地獲取的各種實例在Poletti, M.,「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」,J. Audio Eng. Soc.,Vol. 53,No. 11,2005年11月,pp. 1004-1025中描述。
以下等式可以說明可以怎樣從基於物件的描述推導出SHC。用於與單獨的音訊物件對應的聲場的係數
Figure 02_image017
可以表示為:
Figure 02_image019
其中i是
Figure 02_image021
Figure 02_image023
是階數n的(第二種)球面漢克爾函數,且
Figure 02_image025
是物件的位置。已知作為頻率的函數的物件源能量
Figure 02_image027
(例如,使用時間-頻率分析技術,諸如關於脈衝碼調制的–PCM–串流執行快速傅裡葉變換)可以實現每個PCM物件和相應的位置轉換為SHC
Figure 02_image007
。另外,可以展示(因為以上是線性和正交分解)用於每個物件的
Figure 02_image017
係數是可加的。以該方式,多個PCM物件可以由
Figure 02_image017
係數表示(例如,作為用於單獨的物件的係數向量之和)。係數可以包括關於聲場的資訊(作為3D座標的函數的壓力),且以上表示從單獨的物件到在觀察點
Figure 02_image003
附近的整體聲場的表示的變換。
正在開發電腦中介的現實系統(其亦可以被稱為「擴展現實系統」或者「XR系統」以利用由環境身歷聲係數提供的許多可能的益處。例如,環境身歷聲係數可以以潛在地實現聲場內音訊源的精確的三維(3D)定位的方式,以三維表示聲場。因而,XR設備可以向揚聲器饋送渲染環境身歷聲係數,當經由一或多個揚聲器播放時,精確地再現聲場。
作為另一實例,可以轉化(例如,旋轉)環境身歷聲係數以解決使用者移動而沒有過度複雜的數學運算,由此潛在地適應XR的低延遲需求。另外,環境身歷聲係數是分級的,由此自然地適應經由降階(其可以消除與高階相關聯的環境身歷聲係數)的可縮放性,由此潛在地實現聲場的動態調適以適應XR設備的延遲及/或電池需求。
對於XR的環境身歷聲係數的使用可以實現於依賴於由環境身歷聲係數提供的更浸入式的聲場的多個使用情況的開發,特別對於電腦遊戲應用程式和實況視訊串流應用程式。在該等依賴於聲場的低延遲再現的高度動態的使用情況下,XR設備可以相比更難以操縱或者涉及複雜渲染的其他表示更優選環境身歷聲係數。關於該等使用情況的更多資訊在以下相對於圖1A-圖1C提供。
儘管在本案中關於VR設備描述,但是可以在其他設備,諸如行動設備的上下文中執行該等技術的各個態樣。在此種情況下,行動設備(諸如所謂的智慧型電話)可以經由螢幕呈現顯示的世界,螢幕可以安裝到使用者102的頭部,亦可以像在通常使用行動設備時一般觀看。因而,螢幕上的任何資訊是行動設備的一部分。行動設備能夠提供追蹤資訊41,由此允許VR體驗(當頭部安裝時)和普通體驗兩者觀看顯示的世界,其中普通體驗仍然可以允許使用者觀看顯示的世界,證明VR-精簡-類型體驗(例如,舉起設備並旋轉或者平移設備以觀看顯示的世界的不同部分)。另外,儘管顯示的世界在本案的各種實例中提到,但是本案的技術亦可以用於不對應於顯示的世界或者其中沒有顯示的世界的聲學空間。
圖1A-圖1C是圖示可以執行本案中描述的技術的各個態樣的系統的圖。如圖1A的實例所示,系統10包括源設備12和內容消費者設備14。儘管以源設備12和內容消費者設備14的上下文描述,但是該等技術可以以其中編碼聲場的任何表示以形成音訊資料的位元串流表示的任何上下文實現。此外,源設備12可以表示能夠產生聲場的表示的任何形式的計算設備,且在此處通常以作為VR內容建立者設備的上下文描述。同樣地,內容消費者設備14可以表示能夠實現本案中描述的渲染技術以及音訊重播的任何形式的計算設備,且在此處通常以作為VR客戶端設備的上下文描述。
源設備12可以由可以產生用於由內容消費者設備,諸如內容消費者設備14的操作者消費的多通道音訊內容的娛樂公司或者其他實體操作。在某些VR方案中,源設備12結合視訊內容產生音訊內容。源設備12包括內容擷取設備20、內容編輯設備22和聲場表示產生器24。內容擷取設備20可以配置為與麥克風18介面連接或者以其他方式通訊。
麥克風18可以表示能夠擷取和表示聲場作為音訊資料19的Eigenmike®或者其他類型的3D音訊麥克風,音訊資料19可以指以上提到的基於場景的音訊資料(諸如環境身歷聲係數)、基於物件的音訊資料和基於通道的音訊資料中的一或多個。儘管描述為是3D音訊麥克風,但是麥克風18亦可以表示配置為擷取音訊資料19的其他類型的麥克風(諸如全向麥克風、點麥克風、單向麥克風等)。
內容擷取設備20在某些實例中可以包括整合到內容擷取設備20的殼體中的整合麥克風18。內容擷取設備20可以無線地或者經由有線連接與麥克風18介面連接。代替經由麥克風18擷取音訊資料19,或者與經由麥克風18擷取音訊資料19結合地,在經由某些類型的可拆卸儲存設備無線地及/或經由有線的輸入過程來輸入音訊資料19之後,內容擷取設備20可以處理音訊資料19。因而,根據本案,內容擷取設備20和麥克風18的不同組合是可能的。
內容擷取設備20亦可以配置為與內容編輯設備22介面連接或者以其他方式通訊。在有些情況下,內容擷取設備20可以包括內容編輯設備22(在有些情況下,內容編輯設備22可以表示軟體或者軟體和硬體的組合,包括由內容擷取設備20執行以配置內容擷取設備20執行特定形式的內容編輯的軟體)。內容編輯設備22可以表示配置為編輯或者以其他方式更改包括音訊資料19的從內容擷取設備20接收到的內容21的單元。內容編輯設備22可以將編輯內容23和關聯的音訊資訊25(諸如中繼資料)輸出到聲場表示產生器24。
聲場表示產生器24可以包括能夠與內容編輯設備22(或者內容擷取設備20)介面連接的任何類型的硬體設備。儘管在圖1A的實例中未圖示,但是聲場表示產生器24可以使用由內容編輯設備22提供的包括音訊資料19和音訊資訊25的編輯的內容23,以產生一或多個位元串流27。在聚焦於音訊資料19的圖1A的實例中,聲場表示產生器24可以產生由音訊資料19表示的同一聲場的一或多個表示,以獲得包括編輯的內容23和音訊資訊25的表示的位元串流27。
例如,為使用環境身歷聲係數(其再次是音訊資料19的一個實例)產生聲場的不同表示,聲場表示產生器24可以使用用於聲場的環境身歷聲表示的編碼方案,稱為混合次序環境身歷聲(MOA),如在於2017年8月8日提出申請的、標題為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS」的美國申請案第15/672,058,和於2019年1月3日揭示為美國專利公開案第20190007781中詳細論述的。
為產生聲場的特定MOA表示,聲場表示產生器24可以產生環境身歷聲係數的全集的部分子集。例如,由聲場表示產生器24產生的每個MOA表示可以提供相對於聲場的一些區域的精度,但是在其他區域中更小精度。在一個實例中,聲場的MOA表示可以包括八(8)個未壓縮的環境身歷聲係數,而同一聲場的三階環境身歷聲表示可以包括十六(16)個未壓縮的環境身歷聲係數。因而,產生為環境身歷聲係數的部分子集的聲場的每個MOA表示可以比從環境身歷聲係數產生的同一聲場的相應的三階環境身歷聲表示較少儲存-密集和較少頻寬密集(若和當作為位元串流27的一部分經圖示的傳輸通道傳輸時)。
儘管關於MOA表示來描述,但是本案的技術亦可以關於一階環境身歷聲(FOA)表示來執行,其中與一階球面基函數和零階球面基函數相關聯的全部環境身歷聲係數用於表示聲場。換言之,代替使用環境身歷聲係數的部分的非零子集來表示聲場,聲場表示產生器24可以使用給定階N的全部環境身歷聲係數來表示聲場,導致總共等於(N+1)2 的環境身歷聲係數。
在該態樣,環境身歷聲音訊資料(其是涉及以MOA表示或者全階表示,諸如以上提到的一階表示的環境身歷聲係數的另一方式)可以包括與具有一階或者更小階數的球面基函數相關聯的環境身歷聲係數(其可以被稱為「第一階環境身歷聲音訊資料」),與具有混合的階和子階的球面基函數相關聯的環境身歷聲係數(其可以被稱為上文論述的「MOA表示」),或者與具有大於一的階數的球面基函數相關聯的環境身歷聲係數(其以上被稱為「全階表示」)。
在某些實例中,聲場表示產生器24可以表示配置為壓縮或者以其他方式減小用於表示位元串流27中的內容21的位元數的音訊編碼器。儘管未圖示,但是在某些實例中,聲場表示產生器可以包括符合在此處論述的各種標準中的任意一種的心理聲學音訊編碼設備。
在該實例中,聲場表示產生器24可以將SVD應用於環境身歷聲係數以決定環境身歷聲係數的分解版本。環境身歷聲係數的分解版本可以包括一或多個主要音訊信號和描述關聯的主要音訊信號的空間特性,例如,方向、形狀和寬度的一或多個相應空間分量。因而,聲場表示產生器24可以將分解應用於環境身歷聲係數,以從空間特性(如由空間分量表示的)去耦能量(如由主要音訊信號表示的)。
聲場表示產生器24可以分析環境身歷聲係數的分解的版本,以辨識各種參數,此舉可以促進環境身歷聲係數的分解的版本的重新排序。聲場表示產生器24可以基於辨識的參數重新排序環境身歷聲係數的分解的版本,其中假定變換可以跨環境身歷聲係數的訊框地重新排序環境身歷聲係數(其中訊框通常包括環境身歷聲係數的分解的版本的M個取樣,且在某些實例中,M是),此種重新排序可以改良編碼效率。
在重新排序環境身歷聲係數的分解的版本之後,聲場表示產生器24可以選擇環境身歷聲係數的一或多個分解的版本作為聲場的前景(或者,換言之,不同的、主要的或者顯著的)分量的表示。聲場表示產生器24可以指定表示前景分量(其亦可以被稱為「主要聲音信號」、「主要音訊信號」或者「主要聲音分量」)和關聯的方向資訊(其亦可以被稱為「空間分量」,或者在有些情況下,稱為辨識相應的音訊物件的空間特性的所謂的「V-向量」)的環境身歷聲係數的分解的版本。空間分量可以表示具有多個不同元素的向量(其就向量而言可以被稱為「係數」),由此可以被稱為「多維向量」。
聲場表示產生器24接下來可以關於環境身歷聲係數執行聲場分析,以便至少部分地辨識表示聲場的一或多個背景(或者,換言之,環境)分量的環境身歷聲係數。背景分量亦可以被稱為「背景音訊信號」或者「環境音訊信號」。假定在某些實例中,背景音訊信號可能僅包括環境身歷聲係數的任何給定取樣的子集(例如,諸如與零階和第一階球面基函數對應的彼等而沒有與第二階或者高階球面基函數對應的彼等),聲場表示產生器24可以關於背景音訊信號執行能量補償。當執行降階時,換言之,聲場表示產生器24可以增強環境身歷聲係數的其餘背景環境身歷聲係數(例如,向其添加能量/從其減去能量),以補償由執行降階所導致的整體能量的變化。
聲場表示產生器24接下來可以關於前景方向資訊(其是涉及空間分量的另一方式)執行一個形式的內插,隨後關於內插的前景方向資訊執行降階以產生降階的前景方向資訊。聲場表示產生器24在某些實例中可以進一步關於降階的前景方向資訊執行量化,輸出編碼的前景方向資訊。在有些情況下,該量化可以包括可能以向量量化的形式的標量/熵量化。聲場表示產生器24隨後可以將中間格式化的音訊資料作為背景音訊信號、前景音訊信號和量化的前景方向資訊輸出到在某些實例中的心理聲學音訊編碼設備。
在任何情況下,背景音訊信號和前景音訊信號在某些實例中可以包括傳輸通道。亦即,聲場表示產生器24可以輸出包括各個背景音訊信號(例如,與零階或者第一階球面基函數對應的環境身歷聲係數之一的M個取樣)的環境身歷聲係數的每個訊框和前景音訊信號(例如,從環境身歷聲係數分解的音訊物件的M個取樣)的每個訊框的傳輸通道。聲場表示產生器24可以進一步輸出邊資訊(其亦可以被稱為「邊頻帶資訊」),其包括與每一個前景音訊信號對應的量化的空間分量。
集合地,傳輸通道和邊資訊在圖1A的實例中可以表示為環境身歷聲傳輸格式(ATF)音訊資料(其是涉及中間格式化的音訊資料的另一方式)。換言之,AFT音訊資料可以包括傳輸通道和邊資訊(其亦可以被稱為「中繼資料」)。作為一個實例,ATF音訊資料可以符合HOA(高階環境身歷聲)傳輸格式(HTF)。關於HTF的更多資訊可以在日期2018年6月(2018-06)的題為「higher Order Ambisonics (HOA) Transport Format」,ETSI TS 103 589 V1.1.1的歐洲電信標準協會(ETSI)的技術規範(TS)中找到。因而,ATF音訊資料可以被稱為HTF音訊資料。
在其中聲場表示產生器24不包括心理聲學音訊編碼設備的實例中,聲場表示產生器24隨後可以傳輸或者以其他方式輸出ATF音訊資料到心理聲學音訊編碼設備(未圖示)。心理聲學音訊編碼設備可以關於ATF音訊資料執行心理聲學音訊編碼以產生位元串流27。心理聲學音訊編碼設備可以根據標準化的、開源的或者私有的音訊編碼過程而操作。例如,心理聲學音訊編碼設備可以根據AptXTM 、AptX的各種其他版本(例如,增強的AptX–E-AptX,AptX live,AptX stereo和AptX高清晰度– AptX-HD),或者高級音訊編碼(AAC)及其衍生物來執行心理聲學音訊編碼。源設備12隨後可以經由傳輸通道傳輸位元串流27到內容消費者設備14。
在某些實例中,心理聲學音訊編碼設備可以表示心理聲學音訊編碼器的一或多個例子,其每個用於編碼ATF音訊資料的傳輸通道。在有些情況下,該心理聲學音訊編碼設備可以表示AptX編碼單元(如前述)的一或多個例子。心理聲學音訊編碼器單元在有些情況下可以引動用於ATF音訊資料的每個傳輸通道的AptX編碼單元的例子。
內容擷取設備20或者內容編輯設備22在某些實例中可以配置為與聲場表示產生器24無線地通訊。在某些實例中,內容擷取設備20或者內容編輯設備22可以經由無線連接或者有線連接之一或者兩者與聲場表示產生器24通訊。經由內容擷取設備20和聲場表示產生器24之間的連接,內容擷取設備20可以提供以各種形式的內容的內容,為了論述,在此處描述為音訊資料19的部分。
在某些實例中,內容擷取設備20可以利用聲場表示產生器24的各個態樣(就聲場表示產生器24的硬體或者軟體效能而言)。例如,聲場表示產生器24可以包括配置為執行心理聲學音訊編碼的專用硬體(或者當執行時使得一或多個處理器執行心理聲學音訊編碼的專用軟體)。
在某些實例中,內容擷取設備20可以不包括心理聲學音訊編碼器專用硬體或者專用軟體,且代替地可以以非心理聲學音訊編碼形式提供內容21的音訊態樣。聲場表示產生器24可以經由至少部分地關於內容21的音訊態樣執行心理聲學音訊編碼來幫助內容21的擷取。
聲場表示產生器24亦可以經由至少部分地基於從音訊資料19(在音訊資料19包括基於場景的音訊資料的情況下)產生的音訊內容(例如,MOA表示及/或三階環境身歷聲表示)產生一或多個位元串流27,來幫助內容擷取和傳輸。位元串流27可以表示音訊資料19的壓縮的版本和任何其他不同類型的內容21(諸如,球面視訊資料、圖像資料或者文字資料的壓縮版本)。
作為一個實例,聲場表示產生器24可以跨傳輸通道、資料儲存設備等產生用於傳輸的位元串流27,傳輸通道可以是有線或者無線通道。位元串流27可以表示音訊資料19的編碼版本,且可以包括初級位元串流和另一側位元串流,其可以被稱為側通道資訊或者中繼資料。在有些情況下,表示音訊資料19的壓縮版本的位元串流27(其再次可以表示基於場景的音訊資料、基於物件的音訊資料、基於通道的音訊資料或者其組合)可以符合根據MPEG-H 3D音訊編碼標準及/或MPEG-I浸入式音訊標準而產生的位元串流。
內容消費者設備14可以由個體操作,且可以表示VR客戶端設備。儘管關於VR客戶端設備描述,但是內容消費者設備14可以表示其他類型的設備,諸如增強現實(AR)客戶端設備、混合現實(MR)客戶端設備(或者其他XR客戶端設備)、標準電腦、頭戴式設備、耳機、行動設備(包括所謂的智慧型電話)或者能夠追蹤頭部移動及/或操作內容消費者設備14的個體的一般平移運動的任何其他設備。如圖1A的實例所示,內容消費者設備14包括音訊重播系統16A,其可以指能夠將用於重播的音訊資料渲染為多通道音訊內容的任何形式的音訊重播系統。
儘管圖1A示為直接傳輸到內容消費者設備14,但是源設備12可以將位元串流27輸出到位於源設備12和內容消費者設備14之間的中介設備。中介設備可以儲存位元串流27以用於之後傳送到可以請求位元串流27的內容消費者設備14。中介設備可以包括檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話或者能夠儲存位元串流27以用於之後由音訊解碼器取得的任何其他設備。中介設備可以位於內容傳送網路中,該內容傳送網路能夠將位元串流27(和可能與傳輸對應的視訊資料位元串流結合)串流到請求位元串流27的用戶,諸如內容消費者設備14。
或者,源設備12可以將位元串流27儲存到儲存媒體,諸如壓縮光碟、數位視訊光碟、高清視訊光碟或者其他儲存媒體,其大部分能夠由電腦讀取且因此可以被稱為電腦可讀取儲存媒體或者非暫時性電腦可讀取儲存媒體。在此上下文中,傳輸通道可以指經由其傳輸儲存到媒體的內容(例如,以一或多個位元串流27的形式)的通道(且可以包括零售商店及其他基於儲存的傳送機制)。因此,在任何情況下,本案的技術在該態樣不應該限於圖1A的實例。
如前述,內容消費者設備14包括音訊重播系統16A。音訊重播系統16A可以表示能夠重播多通道音訊資料的任何系統。音訊重播系統16A可以包括多個不同的渲染器32。渲染器32每個可以提供用於不同形式的渲染,其中不同形式的渲染可以包括執行基於向量的幅度搖攝(VBAP)的各種方式中的一或多個及/或執行聲場合成的各種方式中的一或多個。如在此使用的,「A及/或B」意味著「A或者B」,或者「A和B」兩者。
音訊重播系統16A可以進一步包括音訊解碼設備34。音訊解碼設備34可以表示配置為解碼位元串流27以輸出音訊資料19’的設備(其中撇號標誌可以表示音訊資料19’由於音訊資料19的失真壓縮(諸如量化)而不同於音訊資料19)。再次,音訊資料19’可以包括基於場景的音訊資料,其在某些實例中,可以形成全一(或者更高)階環境身歷聲表示或者形成同一聲場的MOA表示的其子集,諸如主要音訊信號、周圍環境身歷聲係數的其分解,和在MPEG-H 3D音訊編碼標準中描述的基於向量的信號,或者其他形式的基於場景的音訊資料。
其他形式的基於場景的音訊資料包括根據HOA(高階環境身歷聲)傳輸格式(HTF)定義的音訊資料。關於HTF的更多資訊可以在日期2018年6月(2018-06)的題為「Higher Order Ambisonics (HOA) Transport Format」,ETSI TS 103 589 V1.1.1的歐洲電信標準協會(ETSI)的技術規範(TS),以及在於2018年12月20日提出申請的題為「PRIORITY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO DATA」的美國專利公開案第2019/0918028中找到。在任何情況下,音訊資料19’可以類似於音訊資料19’的全集或者部分子集,但是可能由於有損操作(例如,量化)及/或經由傳輸通道的傳輸而不同。
作為基於場景的音訊資料的替代或者與基於場景的音訊資料結合地,音訊資料19’可以包括基於通道的音訊資料。作為基於場景的音訊資料的替代或者與基於場景的音訊資料結合地,音訊資料19’可以包括基於物件的音訊資料。因而,音訊資料19’可以包括基於場景的音訊資料、基於物件的音訊資料和基於通道的音訊資料的任何組合。
音訊重播系統16A的音訊渲染器32可以在音訊解碼設備34已經解碼位元串流27以獲得音訊資料19’之後,渲染音訊資料19’以輸出揚聲器饋送35。揚聲器饋送35可以驅動一或多個揚聲器(為了便於說明目的在圖1A的實例中未圖示)。聲場的包括基於場景的音訊資料(和可能的基於通道的音訊資料及/或基於物件的音訊資料)的各種音訊表示可以以許多方式正規化,包括N3D、SN3D、FuMa、N2D或者SN2D。
為選擇適當的渲染器,或者在有些情況下,產生適當的渲染器,音訊重播系統16A可以獲得指示揚聲器(例如,擴音器或者耳機揚聲器)的數目及/或揚聲器的空間幾何形狀的揚聲器資訊37。在有些情況下,音訊重播系統16A可以使用參考麥克風獲得揚聲器資訊37,且可以以動態地決定揚聲器資訊37的方式驅動揚聲器(其可以指電信號的輸出以使得換能器振動)。在其他例子中,或者與揚聲器資訊37的動態決定結合地,音訊重播系統16A可以提示使用者與音訊重播系統16A介面連接並輸入揚聲器資訊37。
音訊重播系統16A可以基於揚聲器資訊37選擇音訊渲染器32之一。在有些情況下,當沒有音訊渲染器32在揚聲器資訊37中指定的揚聲器幾何形狀的某些閾值相似性度量(就揚聲器幾何形狀而言)內時,音訊重播系統16A可以基於揚聲器資訊37產生音訊渲染器32之一。在有些情況下,音訊重播系統16A可以基於揚聲器資訊37產生音訊渲染器32之一,而不首先嘗試選擇音訊渲染器32的現有的一個。
當將揚聲器饋送35輸出到耳機時,音訊重播系統16A可以利用渲染器32之一,其使用與頭有關的傳遞函數(HRTF)或者能夠向左和右揚聲器饋送35渲染的其他功能來提供雙耳渲染,用於耳機揚聲器重播,諸如雙耳室脈衝回應渲染器。術語「揚聲器」或者「換能器」大體而言可以指任何揚聲器,包括擴音器、耳機揚聲器、骨傳導揚聲器、耳塞揚聲器、無線耳機揚聲器等。一或多個揚聲器隨後可以重播渲染的揚聲器饋送35以再現聲場。
儘管描述為從音訊資料19’渲染揚聲器饋送35,但是參考揚聲器饋送35的渲染可以指其他類型的渲染,諸如直接包括到從位元串流27的音訊資料19的解碼的渲染。替代的渲染的實例可以在MPEG-H 3D音訊標準的附錄G中找到,其中在聲場的合成之前的主要信號格式化和背景信號形成期間發生渲染。因而,參考音訊資料19’的渲染應該理解為涉及實際音訊資料19’的渲染或者音訊資料19’的其分解或者表示兩者(諸如以上提到的主要音訊信號、周圍環境身歷聲係數及/或基於向量的信號–其亦可以被稱為V-向量或者多維環境身歷聲空間向量)。
音訊重播系統16A亦可以基於追蹤資訊41調適音訊渲染器32。亦即,音訊重播系統16A可以與配置為追蹤VR設備的使用者的頭部運動和可能的平移運動的追蹤設備40介面連接。追蹤設備40可以表示配置為追蹤VR設備的使用者的頭部運動和可能的平移運動的一或多個感測器(例如,相機–包括深度相機、陀螺儀、磁力儀、加速度計、發光二極體–LED,等)。音訊重播系統16A可以基於追蹤資訊41調適音訊渲染器32,以使得揚聲器饋送35反映使用者的頭部和可能的平移運動的變化,以回應於此種移動而正確地再現聲場。
圖1C是圖示另一示例性系統60的方塊圖。示例性系統60類似於圖1A的示例性系統10,但是,系統60的源設備12B不包括內容擷取設備。源設備12B包括合成設備29。合成設備29可以由內容開發者使用以產生合成的音訊源。合成的音訊源可以具有與其關聯的位置資訊,其可以辨識音訊源相對於收聽者或者聲場中的其他參考點的位置,以使得在努力重新建立聲場時音訊源可以被渲染給一或多個揚聲器通道以用於重播。在某些實例中,合成設備29亦可以合成視覺或者視訊資料。
例如,內容開發者可以產生用於視訊遊戲的合成的音訊串流。儘管以圖1A的實例的內容消費者設備14A圖示圖1C的實例,但是圖1C的實例的源設備12B可以與圖1B的內容消費者設備14B一起使用。在某些實例中,圖1C的源設備12B亦可以包括內容擷取設備,以使得位元串流27可以包括擷取的音訊串流和合成的音訊串流兩者。
如前述,內容消費者設備14A或者14B(為了簡單的目的,兩者以下皆可以稱為內容消費者設備14)可以表示其中人可穿戴的顯示器(其亦可以被稱為「頭部安裝顯示器」)安裝在操作VR設備的使用者眼前的VR設備。圖2是圖示由使用者402佩戴的VR設備400的實例的圖。VR設備400耦合到,或者以其他方式包括耳機404,其可以經由揚聲器饋送35的重播來再現由音訊資料19’表示的聲場。揚聲器饋送35可以表示能夠使得耳機404的換能器內的薄膜以各種頻率振動的類比或者數位信號,其中此種過程通常被稱為驅動耳機404。
視訊、音訊及其他感測資料可以在VR體驗中扮演重要的角色。為參與VR體驗,使用者402可以佩戴VR設備400(其亦可以被稱為VR頭戴式設備400)或者其他可穿戴的電子設備。VR客戶端設備(諸如VR頭戴式設備400)可以包括追蹤設備(例如,追蹤設備40),該追蹤設備配置為追蹤使用者402的頭部運動,和調適經由VR頭戴式設備400圖示的視訊資料以解釋頭部運動,提供其中使用者402可以在視覺三維空間中體驗以視訊資料圖示的顯示的世界的浸入式體驗。顯示的世界可以指虛擬世界(其中模擬全部世界),增強世界(其中由虛擬物件增強世界的部分),或者實體世界(其中虛擬地導覽現實世界圖像)。
儘管VR(及其他形式的AR及/或MR)可以允許使用者402視覺上位於虛擬世界中,通常VR頭戴式設備400可能缺乏將使用者聽覺地置於顯示的世界中的效能。換言之,VR系統(其可以包括負責渲染視訊資料和音訊資料的電腦–為了便於說明目的在圖2的實例中未圖示,和VR頭戴式設備400)可能不能支援聽覺地全三維浸入(且在有些情況下實際上以經由VR頭戴式設備400反映呈現給使用者的顯示的場景的方式)。
儘管在本案中關於VR設備描述,但是該等技術的各個態樣可以在其他設備,諸如行動設備的上下文中執行。在此種情況下,行動設備(諸如所謂的智慧型電話)可以經由螢幕呈現顯示的世界,螢幕可以安裝到使用者402的頭部或者可以像在通常使用行動設備時一般觀看。因而,螢幕上的任何資訊是行動設備的一部分。行動設備能夠提供追蹤資訊41,由此允許VR體驗(當頭部安裝時)和普通體驗兩者以觀看顯示的世界,其中普通體驗仍然可以允許使用者觀看顯示的世界,證明VR-精簡-類型體驗(例如,舉起設備並旋轉或者平移設備以觀看顯示的世界的不同部分)。
在任何情況下,返回到VR設備上下文,VR的音訊態樣已經被分類為三個單獨的浸入的類別。第一類別提供最低水平的浸入,且被稱為三自由度(3DOF)。3DOF指的是解釋三個自由度(偏轉、俯仰和滾轉)上頭部的運動的音訊渲染,由此允許使用者在任何方向上自由地環顧。但是,3DOF不能解釋其中頭部不以聲場的光學和聲學中心為中心的平移的頭部運動。
第二類別被稱為3DOF加(3DOF+),除由於遠離聲場內的光學中心和聲學中心的頭部運動的有限的空間平移運動之外亦提供三個自由度(偏轉、俯仰和滾轉)。3DOF+可以提供諸如運動視差的知覺效果的支援,可以增強浸入的感覺。
第三類別被稱為六自由度(6DOF),以解釋按照頭部運動的三自由度(偏轉、俯仰和滾轉)且亦解釋使用者在空間中的平移(x,y和z平移)的方式渲染音訊資料。空間平移可以由追蹤使用者在實體世界中的位置的感測器或者經由輸入控制器的方式匯出。
3DOF渲染是VR的音訊態樣的現有技術的當前狀態。因而,VR的音訊態樣比視訊態樣較少浸入式,由此潛在地減少使用者體驗的整體浸入。但是,VR正在快速地轉變且可以迅速發展以支援3DOF+和6DOF兩者,此舉可能顯露附加的使用情況的機會。
例如,互動遊戲應用程式可以利用6DOF來促進全浸入式遊戲,其中使用者自己在VR世界內移動且可以經由向虛擬物件走過去來與虛擬物件互動。此外,互動實況串流應用程式可以利用6DOF以允許VR客戶端設備體驗音樂會或者體育事件的實況串流,就好像自己出席音樂會一般,允許使用者在音樂會或者體育事件內移動。
存在與該等使用情況相關聯的多個困難。在全浸入式遊戲的例子中,延遲可能需要保持得低,以使遊戲程序能夠不導致眩暈或者暈動病。此外,從音訊角度,導致失去與視訊資料的同步的音訊重播中的延遲可能減少浸入。此外,對於某些類型的遊戲應用程式,為允許精確回應,空間精度可能是重要的,包括關於怎樣由使用者感知聲音,因為其允許使用者預期當前沒有看到的動作。
在實況串流應用程式的上下文中,大量源設備12A或者12B(為簡單的目的,兩者以下皆稱為源設備12)可以串流內容21,其中源設備12可以具有非常不同的效能。例如,一個源設備可能是具有數位的固定鏡頭相機和一或多個麥克風的智慧型電話,而另一源設備可能是能夠獲得比智慧型電話高得多的解析度和品質的視訊的生產級電視設備。但是,在實況串流應用程式的上下文中,所有源設備可以提供變化品質的串流,VR設備可以從該變化品質的串流嘗試選擇適當的一個以提供想要的體驗。
圖3圖示支援根據本案的各態樣的設備和方法的無線通訊系統100的實例。無線通訊系統100包括基地站105、UE 115和核心網路130。在某些實例中,無線通訊系統100可以是長期演化(LTE)網路、先進LTE(LTE-A)網路、LTE-A Pro網路、第五代(5G)蜂巢網路或者新無線電(NR)網路。在有些情況下,無線通訊系統100可以支援增強寬頻通訊、超可靠(例如,任務關鍵)通訊、低延遲通訊或者與低成本和低複雜度設備的通訊。
基地站105可以經由一或多個基地站天線與UE 115無線地通訊。在此處描述的基地站105可以包括或者可以由熟習此項技術者稱為基本收發器站、無線電基地站、存取點、無線電收發器、節點B、eNodeB(eNB)、下一代節點B或者吉節點B(兩個皆可以被稱為gNB)、家庭節點B、家庭eNodeB或者某些其他適當的術語。無線通訊系統100可以包括不同類型的基地站105(例如,巨集或者小細胞基地站)。在此處描述的UE 115能夠與各種類型的基地站105和包括巨集eNB、小細胞eNB、gNB、中繼基地站等的網路設備通訊。
每個基地站105可以與其中支援與各種UE 115的通訊的特定地理覆蓋區域110相關聯。每個基地站105可以經由通訊鏈路125提供用於各個地理覆蓋區域110的通訊覆蓋,且基地站105和UE 115之間的通訊鏈路125可以利用一或多個載波。無線通訊系統100中圖示的通訊鏈路125可以包括從UE 115到基地站105的上行鏈路傳輸,或者從基地站105到UE 115的下行鏈路傳輸。下行鏈路傳輸亦可以被稱為前向鏈路傳輸,同時上行鏈路傳輸亦可以被稱為反向鏈路傳輸。
用於基地站105的地理覆蓋區域110可以被劃分為組成地理覆蓋區域110的一部分的扇區,且每個扇區可以與細胞相關聯。例如,每個基地站105可以提供巨集細胞、小細胞、熱點或者其他類型的細胞或者其各種組合的通訊覆蓋。在某些實例中,基地站105可以是可移動的,因此提供用於移動地理覆蓋區域110的通訊覆蓋。在某些實例中,與不同技術相關聯的不同地理覆蓋區域110可以重疊,且與不同技術相關聯的重疊的地理覆蓋區域110可以由相同基地站105或者由不同基地站105支援。無線通訊系統100例如可以包括其中不同類型的基地站105提供各種地理覆蓋區域110的覆蓋的不同種類的LTE/LTE-A/LTE-A Pro,5G蜂巢或者NR網路。
UE 115可以遍及無線通訊系統100地分散,且每個UE 115可以是靜止或者行動的。UE 115亦可以被稱為行動設備、無線設備、遠端設備、手持設備或者用戶設備或某些其他適當的術語,其中「設備」亦可以被稱為單元、站、終端或者客戶端。UE 115亦可以是個人電子設備,諸如蜂巢式電話、個人數位助理(PDA)、平板電腦、膝上型電腦或者個人電腦。在本案的實例中,UE 115可以是本案中描述的任意音訊源,包括VR頭戴式設備、XR頭戴式設備、AR頭戴式設備、車輛、智慧型電話、麥克風、麥克風的陣列或者包括麥克風的任何其他設備,或者能夠傳輸擷取的及/或合成的音訊串流。在某些實例中,合成的音訊串流可以是儲存在記憶體中或者先前建立或者合成的音訊串流。在某些實例中,UE 115亦可以被稱為無線區域迴路(WLL)站、物聯網路(IoT)設備、萬物聯網路(IoE)設備或者MTC設備等,其可以在諸如儀器、車輛、儀錶等的各種物品中實現。
某些UE 115,諸如MTC或者IoT設備可以是低成本或者低複雜性的設備,且可以提供用於機器之間的自動化通訊(例如,經由機器到機器(M2M)通訊)。M2M通訊或者MTC可以指允許設備在沒有人幹預的情況下彼此通訊或者與基地站105通訊的資料通訊技術。在某些實例中,M2M通訊或者MTC可以包括來自設備的通訊,其交換及/或使用音訊資訊,諸如中繼資料,對切換、遮罩及/或空的各種音訊串流及/或音訊源指示隱私限制及/或基於密碼的隱私資料,如以下將更詳細地描述的。
在有些情況下,UE 115亦可以直接與其他UE 115通訊(例如,使用同級間(P2P)或設備到設備(D2D)協定)。利用D2D通訊的一組UE 115中的一或多個可以在基地站105的地理覆蓋區域110內。此種群組中的其他UE 115可以在基地站105的地理覆蓋區域110的外部,或者否則不能從基地站105接收傳輸。在有些情況下,經由D2D通訊而通訊的UE 115的群組可以利用其中每個UE 115傳輸到群組之每一者其他UE 115的一對多(1:M)系統。在有些情況下,基地站105促進用於D2D通訊的資源的排程。在其他情況下,在UE 115之間進行D2D通訊而不涉及基地站105。
基地站105可以與核心網路130通訊和彼此通訊。例如,基地站105可以經由回載鏈路132(例如,經由S1、N2、N3或者其他介面)與核心網路130介面連接。基地站105可以經回載鏈路134(例如,經由X2、Xn或者其他介面)直接地(例如,在基地站105之間直接)或者間接地(例如,經由核心網路130)彼此通訊。
在有些情況下,無線通訊系統100可以利用經授權和未授權的射頻頻帶。例如,在諸如5 GHz ISM頻帶的未授權頻帶中,無線通訊系統100可以採用授權輔助存取(LAA)、LTE-未授權(LTE-U)無線電存取技術、5G蜂巢技術或者NR技術。當在未授權射頻頻譜帶中操作時,諸如基地站105和UE 115的無線設備可以採用先聽後講(LBT)程序以保證在傳輸資料之前頻率通道是乾淨的。在有些情況下,未授權頻帶中的操作可以基於與經授權頻帶中操作的分量載波結合的載波聚合配置(例如,LAA)。未授權頻譜中的操作可以包括下行鏈路傳輸、上行鏈路傳輸、同級間傳輸或者該等的組合。未授權頻譜中的雙工可以基於分頻雙工(FDD)、分時雙工(TDD)或者兩者的組合。
當諸如圖2中的VR頭戴式設備400的頭戴式設備的使用者402以聲音的方向移動其頭部時,使用者402可能期待體驗聲音的運動。例如,若使用者402聽到汽車從其左邊離開,則當使用者402轉向其左邊時,使用者402可能期待在已經轉到面向聲音之後聽到汽車好像在其前面。為移動聲場,內容消費者設備14可以在PCM域中平移聲場。但是,PCM域中的聲場的平移可能消耗計算資源(諸如處理循環、記憶體頻寬、記憶體及/或儲存空間等),因為PCM域中的平移可能是計算上複雜的。
根據本案中描述的技術的各個態樣,例如可以是VR頭戴式設備400的內容消費者設備14可以在空間向量域中平移聲場。經由在空間向量域而不是在PCM域中平移聲場,可以節省計算資源。
在操作中,內容消費者設備14可以從運動感測器接收旋轉資訊。運動感測器例如可以位於頭戴式顯示器內。該旋轉資訊可以包括使用者402的頭部的滾轉、俯仰及/或偏轉。內容消費者設備14的音訊重播系統16可以將旋轉資訊乘以空間向量,諸如V-向量。以此種方式,內容消費者設備14可以實現聲場的平移而沒有在PCM域中平移聲場的高成本過程。
在內容消費者設備14的音訊重播系統16相對於空間向量旋轉或者執行某種形式的平移之後,內容消費者設備14可以基於旋轉的空間向量和音訊資料(其可以包括從環境身歷聲頻資料19分解的U-向量)來環境身歷聲解碼聲場。關於平移技術的各個態樣的更多資訊在以下關於圖4論述。
圖4是更詳細地分別圖示示例性音訊重播系統,諸如圖1A-圖1C的音訊重播系統16A或者音訊重播系統16B的方塊圖。如圖4的實例所示,音訊重播系統16包括空間向量旋轉器205和HOA重建器230。為了便於說明目的,從音訊重播系統16A省略音訊渲染器32。
空間向量旋轉器205可以表示一個單元,該單元被配置為接收關於使用者402的頭部的運動的旋轉資訊,諸如滾轉、俯仰及/或偏轉資訊,並利用旋轉資訊產生旋轉的空間向量信號。例如,空間向量旋轉器205可以在空間向量域中旋轉空間向量信號,以使得音訊重播系統16可以避免PCM域中的聲場的高成本平移(就處理循環、記憶體空間及/或包括記憶體頻寬的頻寬而言)。
HOA重建器230可以表示圖1A-圖1C的實例中圖示的音訊解碼設備34的全部或者一部分的實例。在某些實例中,HOA重建器230可以操作為根據在本案中的其他地方論述的HTF音訊標準的高階環境身歷聲(HOA)傳輸格式(HTF)解碼器的全部或者一部分。
如在圖4的實例中進一步所示的,音訊重播系統16可以與旋轉感測器200介面連接,旋轉感測器200可以包括在諸如圖2的VR頭戴式設備400的頭戴式設備內及/或圖1A-圖1C的追蹤設備40內。當安裝在使用者的頭部上時,旋轉感測器200可以監控使用者的頭部的旋轉運動。例如,旋轉感測器200可以當使用者402移動其頭部時量測頭部的俯仰、滾轉和偏轉(theta,phi和psi)。頭部的旋轉運動的量測(旋轉資訊)可以被發送到空間向量旋轉器205。空間向量旋轉器205可以是音訊重播系統16的一部分,其可以被分別表示為如圖1A-圖1C所示的內容消費者設備14中的16A或者16B。
空間向量旋轉器205可以接收使用者的頭部的旋轉資訊。空間向量旋轉器205亦可以從圖1A-圖1C的源設備12以位元串流,例如位元串流27接收空間向量220。空間向量旋轉器205可以使用旋轉資訊來旋轉空間向量220。例如,空間向量旋轉器205可以經由經由一系列左移位,經由查詢表,經由矩陣乘法,逐行的乘法或者經由存取陣列和乘以單獨的數值將空間向量乘以旋轉資訊來旋轉空間向量220。以該方式,空間向量旋轉器205可以將聲場移動到使用者402期望該聲場在的地方。關於如何建立旋轉補償矩陣的資訊可以在Matthias Kronlachner和Franz Zotter的用於環境身歷聲記錄的增強的空間變換中找到,當實現時可以由空間向量旋轉器205使用該旋轉補償矩陣以經由矩陣乘法來旋轉空間向量220。儘管音訊重播系統16在此處描述為移動聲場到使用者402將期望該聲場在的地方,但是不需要如此做。例如,內容建立者可能希望對渲染具有更多控制,從而建立特定音訊效果或者減少由於使用者402的微運動導致的聲場的運動。在該等情況下,渲染中繼資料可以添加到位元串流27以限制或者修改空間向量旋轉器旋轉聲場的能力。
空間向量旋轉器205隨後可以將旋轉的空間向量提供到HOA重建器230。HOA重建器230可以從位元串流27或者從音訊解碼設備34的其他部分,從圖1A-圖1C的源設備12接收音訊源225的表示,諸如U-向量,並重建旋轉的HOA信號。HOA重建器230隨後可以輸出要渲染的重建的HOA信號。儘管圖4已經關於HOA信號描述,但是該描述亦可以應用於MOA信號和FOA信號。
圖5是進一步圖示本案的技術的各個態樣的示例性音訊重播系統的方塊圖。圖5可以表示圖4的更詳細的圖,其中例如在音訊重播系統16的音訊解碼設備34中重建諸如U-向量的音訊源的表示。音訊源或者如在此使用的音訊源可以分別指音訊源的表示,諸如U-向量或者多個音訊源的表示,諸如多個U-向量。如在圖4中,音訊重播系統16從旋轉感測器200接收旋轉資訊。空間向量旋轉器205可以接收以位元串流27接收的旋轉資訊和空間向量,並以諸如如上關於圖4之方式形成旋轉的空間向量。HOA重建器230可以從空間向量旋轉器205接收旋轉的空間向量。
多通道向量去量化器232可以接收量化的參考殘差向量信號(REF VQ)和相對於參考殘差向量的複數個量化的側資訊信號(REF/2(未圖示)-REF/M)。在該實例中,音訊重播系統15被顯示為處理M個參考側資訊信號。M可以是任何整數。多通道向量去量化器232可以去量化參考殘差向量(REF VQ)和側資訊(REF/2–REF/ /M),並將去量化的參考殘差向量(REF VD)提供給複數個殘差去耦器(RESID DECOUPLER)233A-233M中的每一個。多通道向量去量化器232亦可以向複數個殘差去耦器233B(為了簡單的目的未圖示)-233M中的每一個提供用於其各自的通道2-M的去量化的側資訊。例如,多通道向量去量化器232可以向殘差去耦器233M提供用於通道M的去量化的側資訊(REF/MD SIDE)。殘差去耦器233A-233M中的每一個亦可以接收參考殘差向量的能量去量化或者各自的通道2-M。殘差去耦器233A-233M從參考殘差向量去耦殘差,並開始重建參考音訊源,諸如參考U-向量,和用於通道2-M的音訊源。偶數/奇數次頻帶合成器(E/O SUB)236A-236M接收殘差去耦器233A-233M的輸出,且可以從奇數係數分離偶數係數,從而避免重建的音訊源中的相位失真。增益/形狀合成器(GAIN/SHAPE SYNTH)238A-238M可以接收偶數/奇數次頻帶合成器的輸出,並改變增益/形狀合成器238A-238M接收的信號的增益及/或形狀,從而重建用於通道2-M的一或多個參考音訊源。HOA重建器230可以接收用於通道2-M的一或多個參考音訊源,並基於接收到的旋轉的空間向量和接收到的音訊源來重建高階環境身歷聲信號。
圖6是進一步圖示本案的技術的各個態樣的示例性音訊重播系統的方塊圖。圖6的實例類似於圖5的實例,但是為了簡單的目的聚焦於殘差解碼。如在圖4和圖5中,音訊重播系統16從旋轉感測器200接收旋轉資訊。空間向量旋轉器205可以,例如,從位元串流27接收旋轉資訊和空間向量,並以諸如如上關於圖4之方式形成旋轉的空間向量。HOA重建器230可以從空間向量旋轉器205接收旋轉的空間向量。
殘差耦合/去耦合旋轉器(RESID C/D ROTATOR)240接收相對於用於通道2-M的每一個的參考的複數個側資訊信號。殘差耦合/去耦合旋轉器240亦可以從旋轉感測器200接收旋轉資訊和從空間向量旋轉器205接收旋轉的空間向量。殘差耦合/去耦合旋轉器可以相對於參考殘差向量建立通道的2-M側資訊中的每一個的投影矩陣,並將每個通道的投影矩陣提供到關聯的基於投影的殘差去耦器(PROJ-BASED RESID DECOUPLER)234A-234M。投影矩陣可以是能量保持旋轉矩陣,其可以用於從參考殘差向量去耦重建的通道。可以使用Karhunen-Love變換(KLT)或者主分量分析(PCA)或者其他方法建立投影矩陣。
參考向量去量化器(REF VECTOR DEQUANT)242可以接收量化的參考殘差向量並去量化該量化的參考殘差向量。參考向量去量化器242可以將去量化的參考殘差向量提供到複數個基於投影的殘差去耦器234A-234M。參考向量去量化器242亦可以將去量化的參考殘差向量提供到增益/形狀合成器(GAIN/SHAPE SYNTH)238R。基於投影的殘差去耦器234A-234M從參考殘差向量去耦旋轉的側資訊,並輸出用於通道2-M的殘差耦合分量。偶數/奇數次頻帶合成器(E/O SUB)236A-236M接收由基於投影的殘差去耦器234A-234M輸出的殘差耦合分量,並從奇數係數分離偶數係數。增益/形狀合成器238A-238M接收偶數/奇數次頻帶合成器的輸出和分別用於通道2-M的去量化的能量信號。增益/形狀合成器238A-238M將殘差耦合分量與去量化的能量分量合成從而建立用於通道2-M的旋轉的音訊源。
除去量化的參考殘差向量之外,增益/形狀合成器(GAIN/SHAPE SYNTH)238R亦可以接收參考殘差信號的去量化的能量。增益/形狀合成器238R可以合成參考殘差向量和參考殘差信號的去量化的能量,以重建和輸出重建的參考音訊源。增益/形狀合成器238A-238M可以輸出用於通道2-M的旋轉的重建音訊源。HOA重建器230可以接收用於通道2-M的重建的參考殘差音訊源和旋轉的重建音訊源,並基於用於通道2-M的重建的參考音訊源、旋轉的重建音訊源和旋轉的空間向量來重建高階環境身歷聲信號。
圖7是進一步圖示本案的技術的各個態樣的示例性音訊重播系統的方塊圖。圖7可以是圖6的實例的更詳細的實例,包括能量去量化分量和殘差分量。如在圖4至圖6中,音訊重播系統16可以從旋轉感測器200接收旋轉資訊。HTF解碼器248可以解碼位元串流27中的資訊以獲得空間向量。HTF解碼器248可以將空間向量提供到空間向量旋轉器(SPAT VECTOR ROTATOR)205。空間向量旋轉器205亦可以從旋轉感測器200接收旋轉資訊。空間向量旋轉器205可以以諸如如上關於圖4之方式形成旋轉的空間向量。HOA重建器230可以從空間向量旋轉器205接收旋轉的空間向量。
殘差耦合/去耦合旋轉器(RESID C/D ROT)240亦可以從旋轉感測器200接收旋轉資訊。殘差側時間解碼器(RESID SIDE TEMPORAL DECODER)246可以從位元串流27接收相對於參考殘差向量的用於通道2-M的側資訊。殘差側時間解碼器246可以例如經由立體耦合分析,決定通道2-M中的每一個的時間相位資訊,並將通道2-M中的每一個的時間相位資訊傳輸到殘差耦合/去耦合旋轉器240。殘差耦合/去耦合旋轉器240可以基於來自旋轉感測器200的旋轉資訊和來自殘差側時間解碼器246的時間相位資訊,建立用於通道2-M中的每一個的投影矩陣。因此,圖7的實例中的投影矩陣可以基於時間和空間旋轉資訊兩者定義。
多通道能量解碼器244可以從位元串流27接收多通道能量位元串流。多通道能量解碼器244可以解碼多通道能量位元串流,並將能量參考信號提供到增益/形狀合成器(GAIN/SHAPE SYNTH)238R。多通道能量解碼器244亦可以向基於投影的殘差去耦器(PROJ-BASED RESID DECOUPLER)234A-M中的每一個和增益/形狀合成器(GAIN/SHAPE SYNTH)238A-238M中的每一個提供用於各個通道2-M的能量信號。基於投影的殘差去耦器234A-234M、偶數/奇數次頻帶分離器(E/OSUB)236A-236M、增益/形狀合成器238A-238M和238R以及HOA重建器230可以與圖6的實例中的基於投影的殘差去耦器234A-234M、偶數/奇數次頻帶分離器236A-236M、增益/形狀合成器238A-238M和238R以及HOA重建器230類似地工作。
圖8是圖示具有三個或更多個音訊接收器的示例性音樂會的概念圖。在圖8的實例中,在舞臺323上圖示多個音樂家。歌手312位於麥克風310A後。在麥克風310B後圖示弦樂部分314。在麥克風310C後圖示鼓手316。在麥克風310D後圖示其他音樂家318。麥克風310A-310D可以擷取與由麥克風接收的聲音對應的音訊串流。在某些實例中,麥克風310A-310D可以表示合成的音訊串流。例如,麥克風310A可以擷取主要與歌手312相關聯的音訊串流,但是該音訊串流亦可以包括由其他樂隊成員,諸如弦樂部分314、鼓手316或者其他音樂家318產生的聲音,而麥克風310B可以擷取主要與弦樂部分314相關聯的音訊串流,但是包括由其他樂隊成員產生的聲音。以該方式,麥克風310A-310D中的每一個可以擷取不同音訊串流。
亦圖示多個設備。該等設備表示位於多個不同的期望收聽位置的使用者設備。耳機320位於麥克風310A附近,但是在麥克風310A和麥克風310B之間。因而,根據本案的技術,內容消費者設備可以選擇至少一個音訊串流以產生類似於使用者位於耳機320在圖8中的地方的、用於耳機320的使用者的音訊體驗。類似地,圖示VR護目鏡322位於麥克風310C後,且在鼓手316和其他音樂家318之間。內容消費者設備可以選擇至少一個音訊串流以產生類似於使用者位於VR護目鏡322在圖8中的地方的、用於VR護目鏡322的使用者的音訊體驗。
圖示智慧眼鏡324相當中心地位於麥克風310A、310C和310D之間。內容消費者設備可以選擇至少一個音訊串流以產生類似於使用者位於智慧眼鏡324在圖8中的地方的、用於智慧眼鏡324的使用者的音訊體驗。另外,圖示設備326(其可以表示能夠實現本案的技術的任何設備,諸如行動手機、揚聲器陣列、耳機、VR護目鏡、智慧眼鏡等)位於麥克風310B前。內容消費者設備可以選擇至少一個音訊串流以產生類似於使用者位於設備326在圖8中的地方的、用於設備326的使用者的音訊體驗。儘管關於特定位置論述特定設備,但是圖示的任意設備的使用可以提供不同於圖8中圖示的期望的收聽位置的指示。圖8的任意設備可以用於實現本案的技術。
圖9是圖示根據本案的技術的使用旋轉資訊的實例的流程圖。音訊重播系統16可以儲存至少一個空間分量和至少一個音訊源(250)。例如,音訊重播系統可以以位元串流27接收複數個音訊串流。複數個音訊串流可以包括至少一個空間分量和至少一個音訊分量。音訊重播系統16可以在記憶體中儲存至少一個空間分量和至少一個音訊源。
音訊重播系統16可以從諸如旋轉感測器200的運動感測器接收旋轉資訊(252)。例如,旋轉感測器200可以當使用者402移動其頭部時量測頭部的俯仰、滾轉和偏轉(theta,phi和psi)。頭部的旋轉運動(旋轉資訊)的量測可以由音訊重播系統16接收。音訊重播系統15可以基於旋轉資訊旋轉至少一個空間分量(254)。例如,空間向量旋轉器205可以經由經由一系列左移位、經由查詢表、經由矩陣乘法、逐行的乘法或者經由存取陣列和乘以單獨的數值將至少一個空間分量乘以旋轉資訊來旋轉至少一個空間分量。
音訊重播系統15可以從旋轉的至少一個空間分量和至少一個音訊源重建環境身歷聲信號(256)。例如,HOA重建器230可以從位元串流27或者從音訊解碼設備34的其他部分,從圖1A-圖1C的源設備12接收音訊源225的表示,諸如U-向量,並重建旋轉的HOA信號。在某些實例中,至少一個空間分量包括V-向量,且至少一個音訊源包括U-向量。在某些實例中,音訊重播系統15可以將投影矩陣應用於參考殘差向量和去量化的能量信號以重建U-向量。在某些實例中,投影矩陣包括時間和空間旋轉資料。例如,圖7的殘差耦合/去耦合旋轉器240可以基於來自旋轉感測器200的旋轉資訊和來自殘差側時間解碼器246的時間相位資訊,建立用於通道2-M中的每一個的投影矩陣。在某些實例中,音訊重播系統15可以將至少一個音訊源的表示,諸如基於環境身歷聲信號的表示輸出到一或多個揚聲器(258)。在某些實例中,音訊重播系統可以在輸出環境身歷聲信號之前經由混合或者內插的至少一個組合至少一個音訊源的至少兩個表示。在某些實例中,內容消費者設備14可以從麥克風接收語音命令,並基於語音命令控制顯示設備。在某些實例中,內容消費者設備14可以接收無線信號,諸如類似位元串流27的無線位元串流。
圖10是圖示可以根據本案中描述的技術的各個態樣操作的可穿戴設備500的實例的圖。在各種實例中,可穿戴設備500可以表示VR頭戴式設備(諸如如前述的VR頭戴式設備400)、AR頭戴式設備、MR頭戴式設備或者任何其他類型的擴展現實((XR)頭戴式設備。增強現實「AR」可以指在其中使用者實際上位於的現實世界上重疊電腦渲染的圖像或者資料。混合現實「MR」可以指世界被鎖定到實際世界中的特定位置的電腦渲染的圖像或者資料,或者可以指其中部分電腦渲染的3D元素和部分拍攝的真實元素組合為模擬使用者在環境中的實體存在的浸入式體驗的關於VR的變型。擴展現實「XR」可以表示用於VR、AR和MR的包羅萬象的術語。關於用於XR的術語的更多資訊可以在2017年7月7日的題為「Virtual Reality, Augmented Reality, and Mixed Reality Definitions」的Jason Peterson的文件中找到。
可穿戴設備500可以表示其他類型的設備,諸如手錶(包括所謂的「智慧手錶」)、眼鏡(包括所謂的「智慧眼鏡」)、耳機(包括所謂的「無線耳機」和「智慧耳機」)、智慧衣服、智慧首飾,等等。無論VR設備、手錶、眼鏡及/或耳機的表示,可穿戴設備500可以經由有線連接或者無線連接與支援可穿戴設備500的計算設備通訊。
在有些情況下,支援可穿戴設備500的計算設備可以整合在可穿戴設備500內,因而,可穿戴設備500可以被認為是與支援可穿戴設備500的計算設備相同的設備。在其他例子中,可穿戴設備500可以與可以支援可穿戴設備500的單獨的計算設備通訊。在該態樣,術語「支援」不應該被理解為需要單獨的專用設備,而是應該被理解為配置為執行本案中描述的技術的各個態樣的一或多個處理器可以整合在可穿戴設備500內或者整合在與可穿戴設備500分開的計算設備內。
例如,當可穿戴設備500表示VR設備1100時,單獨的專用計算設備(諸如包括一或多個處理器的個人電腦)可以渲染音訊和視覺內容,而可穿戴設備500可以決定平移頭部運動,專用計算設備可以基於平移頭部運動渲染根據本案中描述的技術的各個態樣的音訊內容(如揚聲器饋送)。作為另一實例,當可穿戴設備500表示智慧眼鏡時,可穿戴設備500可以包括一或多個處理器,其決定平移頭部運動(經由在可穿戴設備500的一或多個感測器內介面連接),並基於所決定的平移頭部運動渲染揚聲器饋送。
如圖所示,可穿戴設備500包括一或多個定向揚聲器和一或多個追蹤及/或記錄相機。另外,可穿戴設備500包括一或多個慣性、觸覺及/或健康感測器、一或多個眼追蹤相機、一或多個高靈敏度音訊麥克風和光學/投影硬體。可穿戴設備500的光學/投影硬體可以包括耐用的半透通顯示技術和硬體。
可穿戴設備500亦包括連接性硬體,其可以表示支援多模式連接性的一或多個網路介面,諸如4G通訊、5G通訊、藍芽、Wi-Fi等。可穿戴設備500亦包括一或多個環境光感測器和骨傳導感測器。在有些情況下,可穿戴設備500亦可以包括具有魚眼鏡頭及/或遠攝鏡頭的一或多個被動及/或主動相機。儘管圖10中未圖示,但是可穿戴設備500亦可以包括一或多個發光二極體(LED)燈。在某些實例中,LED燈可以被稱為「超亮」LED燈。在某些實現中,可穿戴設備500亦可以包括一或多個後相機。將認可,可穿戴設備500可以顯示出各種不同的形狀因數。
此外,追蹤和記錄相機及其他感測器可以促進平移距離的決定。儘管在圖10的實例中未圖示,但是可穿戴設備500可以包括用於偵測平移距離的其他類型的感測器。
儘管相對於可穿戴設備的特定實例,諸如上文相對於圖10的實例論述的VR設備1100及在圖1A-圖1C的實例中提到的其他設備進行描述,但是一般技術者將認可,與圖1A-圖1C和圖2有關的描述可以應用於可穿戴設備的其他實例。例如,諸如智慧眼鏡的其他可穿戴設備可以包括經由其獲得平移頭部運動的感測器。作為另一實例,諸如智慧手錶的其他可穿戴設備可以包括經由其獲得平移運動的感測器。因而,本案中描述的技術不應該限於特定類型的可穿戴設備,而是任何可穿戴設備可以配置為執行本案中描述的技術。
圖11A和圖11B是圖示可以執行本案中描述的技術的各個態樣的示例性系統的圖。圖11A圖示其中源設備12進一步包括相機600的實例。相機600可以配置為擷取視訊資料,並將擷取的原始視訊資料提供到內容擷取設備20。內容擷取設備20可以將視訊資料提供到源設備12的另一元件,以用於進一步處理為視點劃分的部分。
在圖11A的實例中,內容消費者設備14亦包括可穿戴設備300。將理解在各種實現中,可穿戴設備300可以包括在內容消費者設備14中或者外部地耦合到內容消費者設備14。可穿戴設備300包括用於輸出視訊資料(例如,如與各種視點相關聯的)和用於渲染音訊資料的顯示器硬體和揚聲器硬體。
圖11B圖示其中圖11A所示的音訊渲染器32被替換為雙耳渲染器42的實例,該雙耳渲染器42能夠使用一或多個HRTF執行雙耳渲染或者能夠對左和右揚聲器饋送43渲染的其他功能。音訊重播系統16C可以將左和右揚聲器饋送43輸出到耳機44。
耳機44可以經由有線連接(諸如標準3.5毫米音訊插孔、通用系統匯流排(USB)連接、光學音訊插孔或者其他形式的有線連接)或者無線地(諸如經由藍芽TM 連接、無線網路連接等方式)耦合到音訊重播系統16C。耳機44可以基於左和右揚聲器饋送43重新建立由音訊資料19’表示的聲場。耳機44可以包括由相應的左和右揚聲器饋送43供能(或者,換言之,驅動)的左耳機揚聲器和右耳機揚聲器。
圖12是圖示圖1A-圖1C的實例中圖示的源設備和內容消費者設備中的一或多個的示例性元件的方塊圖。在圖12的實例中,設備710包括處理器712(其可以被稱為「一或多個處理器」或者「處理器」)、圖形處理單元(GPU)714、系統記憶體716、顯示處理器718、一或多個整合的揚聲器740、顯示器703、使用者介面720、天線721和收發器模組722。在其中設備710是行動設備的實例中,顯示處理器718是行動顯示處理器(MDP)。在某些實例中,諸如其中設備710是行動設備的實例中,處理器712、GPU 714和顯示處理器718可以形成為積體電路(IC)。
例如,IC可以被認為是晶片封裝內的處理晶片且可以是晶片上系統(SoC)。在某些實例中,處理器712、GPU 714和顯示處理器718中的兩個可以一起裝在同一IC中,且另一個在不同積體電路(亦即,不同晶片封裝)中,或者全部三個可以裝在不同IC或者在同一IC上。但是,在其中設備710是行動設備的實例中,可能處理器712、GPU 714和顯示處理器718全部裝在不同積體電路中。
處理器712、GPU 714和顯示處理器718的實例包括,但不限於一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)或者其他等效整合或者離散邏輯電路系統。處理器712可以是設備710的中央處理單元(CPU)。在某些實例中,GPU 714可以是包括向GPU 714提供適於圖形處理的大的並行處理能力的整合及/或離散邏輯電路系統的專用硬體。在有些情況下,GPU 714亦可以包括通用處理效能,且當實現通用處理任務(亦即,非圖形相關任務)時可以被稱為通用GPU(GPGPU)。顯示處理器718亦可以是設計用於從系統記憶體716取得圖像內容,將圖像內容組成為圖像訊框和輸出圖像訊框到顯示器703的特殊應用積體電路硬體。
處理器712可以執行各種類型的應用程式。應用程式的實例包括網頁瀏覽器、電子郵件應用程式、試算表、視訊遊戲、產生用於顯示的可觀看物件的其他應用程式或者以上更詳細地列出的任意應用程式類型。系統記憶體716可以儲存用於應用程式的執行的指令。處理器712上應用程式之一的執行使得處理器712產生用於要顯示的圖像內容的圖形資料和要播放(可能經由整合的揚聲器740)的音訊資料19。處理器712可以將圖像內容的圖形資料傳輸到GPU 714以用於基於處理器712傳輸到GPU 714的指令或者命令的進一步處理。
處理器712可以根據特定應用處理介面(API)與GPU 714通訊。此種API的實例包括Microsoft® 的DirectX® , API,Khronos群組的OpenGL® ,或者OpenGL ES® 和OpenCLTM ;但是,本案的態樣不限於DirectX、OpenGL或者OpenCL API,且可以擴展至其他類型的API。此外,本案中描述的技術不需要根據API而運作,且處理器712和GPU 714可以利用用於通訊的任何過程。
系統記憶體716可以是用於設備710的記憶體。系統記憶體716可以包括一或多個電腦可讀取儲存媒體。系統記憶體716的實例包括,但不限於隨機存取記憶體(RAM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或者可以用於以指令及/或資料結構的形式攜帶或者儲存期望的程式碼且可以由電腦或者處理器存取的其他媒體。
在某些實例中,系統記憶體716可以包括使得處理器712、GPU 714及/或顯示處理器718執行本案中歸於處理器712、GPU 714及/或顯示處理器718的功能的指令。因此,系統記憶體716可以是具有在其上儲存的指令的電腦可讀取儲存媒體,該等指令當執行時使得一或多個處理器(例如,處理器712、GPU 714及/或顯示處理器718)執行各種功能。
系統記憶體716可以包括非暫時性儲存媒體。術語「非暫時性」指示儲存媒體不具體表現為載波或者傳播的信號。但是,術語「非暫時性」不應該解釋為意味著系統記憶體716是不可移動或者其內容是靜態的。作為一個實例,系統記憶體716可以從設備710去除和移動到另一設備。作為另一實例,實質上類似於系統記憶體716的記憶體可以插入到設備710中。在某些實例中,非暫時性儲存媒體可以儲存可能隨時間改變的資料(例如,在RAM中)。
使用者介面720可以表示經由其使用者可以與設備710介面連接的一或多個硬體或者虛擬(意味著硬體和軟體的組合)使用者介面。使用者介面720可以包括實體按鈕、開關、觸發器、燈或者其虛擬版本。使用者介面720亦可以包括實體或者虛擬鍵盤、觸摸介面–諸如觸控式螢幕、觸覺回饋等。
處理器712可以包括配置為執行上文相對於內容建立者設備及/或內容消費者設備的任意模組、單元或者其他功能元件中的一或多個論述的操作的全部或者某些部分的一或多個硬體單元(包括所謂的「處理核心」)。天線721和收發器模組722可以表示配置為建立和維持源設備12和內容消費者設備14之間的連接的單元。天線721和收發器模組722可以表示能夠根據一或多個無線通訊協定無線通訊的一或多個接收器及/或一或多個傳輸器,無線通訊協定諸如第五代(5G)蜂巢標準、Wi-Fi、個人區域網路(PAN)協定,諸如藍芽TM 或者其他開源、私有或者其他通訊標準。例如,收發器模組722可以接收及/或傳輸無線信號。收發器模組722可以表示單獨的傳輸器、單獨的接收器、單獨的傳輸器和單獨的接收器兩者或者組合的傳輸器和接收器。天線721和收發器模組722可以配置為接收編碼的音訊資料。同樣地,天線721和收發器模組722可以配置為傳輸編碼的音訊資料。
要認識到取決於實例,在此處描述的任意技術的某些動作或者事件可以以不同序列執行,可以添加,合併,或者一起省去(例如,對於該等技術的實踐不需要全部描述的動作或者事件)。此外,在某些實例中,代替順序地執行,動作或者事件可以同時執行,例如,經由多執行緒處理、中斷處理或者多個處理器。
在某些實例中,VR設備(或者串流設備)可以使用耦合到VR/串流設備的記憶體的網路介面與外部設備通訊交換訊息,其中交換訊息與聲場的多個可用表示相關聯。在某些實例中,VR設備可以使用耦合到網路介面的天線接收與聲場的多個可用表示相關聯的無線信號,包括資料封包、音訊封包、視訊協定或者傳輸協定資料。在某些實例中,一或多個麥克風陣列可以擷取聲場。
在某些實例中,儲存到記憶體設備的聲場的多個可用表示可以包括聲場的複數個基於物件的表示、聲場的高階環境身歷聲表示、聲場的混合階環境身歷聲表示、聲場的基於物件的表示與聲場的高階環境身歷聲表示的組合、聲場的基於物件的表示與聲場的混合階環境身歷聲表示的組合或者聲場的混合階表示與聲場的高階環境身歷聲表示的組合。
在某些實例中,聲場的多個可用表示的一或多個聲場表示可以包括至少一個高解析度區域和至少一個低解析度區域,且其中基於轉向角選擇的呈現提供相對於至少一個高解析度區域更大的空間精度和相對於低解析度區域更小的空間精度。
本案包括以下實例。
條款1.一種配置為播放複數個音訊串流中的一或多個的設備,該設備包括:配置為儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源的記憶體;和耦合到記憶體的一或多個處理器,且被配置為:從運動感測器接收旋轉資訊;基於旋轉資訊旋轉至少一個空間分量,以形成至少一個旋轉的空間分量;和從至少一個旋轉的空間分量和至少一個音訊源構造環境身歷聲信號,其中該至少一個空間分量描述球諧函數域表示中的與至少一個音訊源相關聯的空間特性。
條款1.5.條款1的設備,其中至少一個空間分量包括V-向量且至少一個音訊源包括U-向量。
條款1.6.條款1.5的設備,其中一或多個處理器被進一步配置為重建U-向量。
條款1.7.條款1.6的設備,其中一或多個處理器被進一步配置為經由將投影矩陣應用於參考殘差向量和去量化的能量信號來重建U-向量。
條款1.8.條款1.7的設備,其中該投影矩陣包括時間和空間旋轉資料。
條款2.條款1的設備,其中一或多個處理器被進一步配置為將至少一個音訊源輸出到一或多個揚聲器。
條款3.條款1-2的任何組合的設備,其中一或多個處理器被進一步配置為組合至少一個音訊源中的至少兩個。
條款4.條款3的設備,其中一或多個處理器經由混合或者內插中的至少一個組合至少一個音訊源中的至少兩個。
條款5.條款1-4的任何組合的設備,進一步包括顯示設備。
條款6.條款5的設備,進一步包括麥克風,其中一或多個處理器被進一步配置為從麥克風接收語音命令和基於語音命令控制顯示設備。
條款7.條款1-6的任何組合的設備,進一步包括一或多個揚聲器。
條款8.條款1-7的任何組合的設備,其中該設備包括行動手機。
條款9.條款1-7的任何組合的設備,其中該設備包括擴展現實頭戴式設備,且其中聲學空間包括由相機擷取的視訊資料表示的場景。
條款10.條款1-7的任何組合的設備,其中該設備包括擴展現實頭戴式設備,且其中聲學空間包括虛擬世界。
條款11.條款1-10的任何組合的設備,進一步包括被配置為呈現聲學空間的頭部安裝設備。
條款12.條款1-11的任何組合的設備,進一步包括無線收發器,該無線收發器耦合到一或多個處理器且被配置為接收無線信號。
條款13.條款12的設備,其中無線信號符合個人區域網路標準。
條款13.5.條款13的設備,其中個人區域網路標準包括AptX標準。
條款14.條款12的設備,其中無線信號符合第五代(5G)蜂巢協定。
條款15.一種播放複數個音訊串流中的一或多個的方法,包括以下步驟:由記憶體儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源;由一或多個處理器從運動感測器接收旋轉資訊;由一或多個處理器基於旋轉資訊旋轉至少一個空間分量,以形成至少一個旋轉的空間分量;和由一或多個處理器從至少一個旋轉的空間分量和至少一個音訊源構造環境身歷聲信號,其中至少一個空間分量描述球諧函數域中的與至少一個音訊源相關聯的空間特性。
條款15.5條款15的方法,其中至少一個空間分量包括V-向量且至少一個音訊源包括U-向量。
條款15.6條款15.5的方法,進一步包括以下步驟:重建U-向量。
條款15.7.條款15.6的方法,其中重建U-向量包括將投影矩陣應用於參考殘差向量和去量化的能量信號。
條款15.8條款15.7的設備,其中該投影矩陣包括時間和空間旋轉資料。
條款16.條款15的方法,進一步包括以下步驟:由一或多個處理器將至少一個音訊源輸出到一或多個揚聲器。
條款17.條款15-16的任何組合的方法,進一步包括由以下步驟:一或多個處理器組合至少一個音訊源中的至少兩個。
條款18.條款17的方法,其中組合至少一個音訊源中的至少兩個經由混合或者內插中的至少一個。
條款19.條款15-18的任何組合的方法,進一步包括以下步驟:從麥克風接收語音命令和基於語音命令控制顯示設備。
條款20.條款15-19的任何組合的方法,其中該方法在行動手機上執行。
條款21.條款15-19的任何組合的方法,其中該方法在擴展現實頭戴式設備上執行,且其中聲學空間包括由相機擷取的視訊資料表示的場景。
條款22.條款15-19的任何組合的方法,其中該方法在擴展現實頭戴式設備上執行,且其中聲學空間包括虛擬世界。
條款23.條款15-22的任何組合的方法,其中該方法在配置為呈現聲學空間的頭部安裝設備上執行。
條款24.條款15-23的任何組合的方法,進一步包括以下步驟:接收無線信號。
條款25.條款24的方法,其中無線信號符合個人區域網路標準。
條款25.5.條款25的方法,其中個人區域網路標準包括AptX標準。
條款26.條款24的方法,其中無線信號符合第五代(5G)蜂巢協定。
條款27.一種配置為播放複數個音訊串流中的一或多個的設備,該設備包括:用於儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源的構件;用於從運動感測器接收旋轉資訊的構件;用於旋轉至少一個空間分量以形成至少一個旋轉的空間分量的構件;和用於從至少一個旋轉的空間分量和至少一個音訊源構造環境身歷聲信號的構件,其中至少一個空間分量描述球諧函數域中的與至少一個音訊源相關聯的空間特性。
條款27.5條款27的設備,其中至少一個空間分量包括V-向量且至少一個音訊源包括U-向量。
條款27.6條款27.5的設備,進一步包括用於重建U-向量的構件。
條款27.7.條款27.6的設備,其中用於重建U-向量的構件將投影矩陣應用於參考殘差向量和去量化的能量信號。
條款27.8條款27.7的設備,其中該投影矩陣包括時間和空間旋轉資料。
條款28.條款27的設備,進一步包括用於將至少一個音訊源輸出到一或多個揚聲器的構件。
條款29.條款27-28的任何組合的設備,進一步包括用於組合至少一個音訊源中的至少兩個的構件。
條款30.條款29的設備,其中組合至少一個音訊源中的至少兩個經由混合或者內插中的至少一個。
條款31.條款27-30的組合的設備,進一步包括用於從麥克風接收語音命令的構件和用於基於語音命令控制顯示設備的構件。
條款32.條款27-31的任何組合的設備,其中該設備包括擴展現實頭戴式設備,且其中聲學空間包括由相機擷取的視訊資料表示的場景。
條款33.條款27-32的任何組合的設備,其中該設備包括行動手機。
條款34.條款27-32的任何組合的設備,其中該設備包括擴展現實頭戴式設備,且其中聲學空間包括虛擬世界。
條款35.條款27-34的任何組合的設備,其中該設備包括配置為呈現聲學空間的頭部安裝設備。
條款36.條款27-35的任何組合的設備,進一步包括用於接收無線信號的構件。
條款37.條款36的設備,其中無線信號符合個人區域網路標準。
條款37.5.條款37的設備,其中個人區域網路標準包括AptX標準。
條款38.條款36的設備,其中無線信號符合第五代(5G)蜂巢協定。
條款39.一種具有在其上儲存的指令的非暫時性電腦可讀取儲存媒體,當指令被執行時使得一或多個處理器:儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源;從運動感測器接收旋轉資訊;基於旋轉資訊旋轉至少一個空間分量以形成至少一個旋轉的空間分量;和從至少一個旋轉的空間分量和至少一個音訊源構造環境身歷聲信號,其中至少一個空間分量描述球諧函數域中的與至少一個音訊源相關聯的空間特性。
條款39.5.條款39的非暫時性電腦可讀取儲存媒體,其中至少一個空間分量包括V-向量且至少一個音訊源包括U-向量。
條款39.6.條款39.5的非暫時性電腦可讀取儲存媒體,進一步具有在其上儲存的指令,當指令被執行時使得一或多個處理器重建U-向量。
條款39.7.條款39.6的非暫時性電腦可讀取儲存媒體,進一步具有在其上儲存的指令,當指令被執行時使得一或多個處理器重建U-向量包括經由將投影矩陣應用於參考殘差向量和去量化的能量信號。
條款39.8.條款39.7的非暫時性電腦可讀取儲存媒體,其中投影矩陣包括時間和空間旋轉資料。
條款40.條款39的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器將至少一個音訊源輸出到一或多個揚聲器。
條款41.條款39-40的任何組合的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器組合至少一個音訊源中的至少兩個。
條款42.條款41的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器經由混合或者內插中的至少一個組合至少一個音訊源中的至少兩個。
條款43.條款39-42中的任意的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器基於語音命令控制顯示設備。
條款44.條款39-43的任何組合的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器在行動手機上呈現聲學空間。
條款45.條款39-44的任何組合的非暫時性電腦可讀取儲存媒體,其中聲學空間包括由相機擷取的視訊資料表示的場景。
條款46.條款39-44的任何組合的非暫時性電腦可讀取儲存媒體,其中聲學空間包括虛擬世界。
條款47.條款39-46的任何組合的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器在頭部安裝設備上呈現聲學空間。
條款48.條款39-47的任何組合的非暫時性電腦可讀取儲存媒體,其中指令當被執行時,使得一或多個處理器接收無線信號。
條款49.條款48的非暫時性電腦可讀取儲存媒體,其中無線信號符合個人區域網路標準。
條款49.5.條款49的非暫時性電腦可讀取儲存媒體,其中個人區域網路標準包括AptX標準。
條款50.條款48的非暫時性電腦可讀取儲存媒體,其中無線信號符合第五代(5G)蜂巢協定。
在一或多個實例中,描述的功能可以以硬體、軟體、韌體或者其任何組合實現。若以軟體實現,則功能可以作為一或多個指令或者代碼儲存在電腦可讀取媒體上或者經電腦可讀取媒體傳輸,並由基於硬體的處理單元執行。電腦可讀取媒體可以包括電腦可讀取儲存媒體,其對應於諸如資料儲存媒體的有形媒體,或者包括例如根據通訊協定促進電腦程式從一地到另一地的傳送的任何媒體的通訊媒體。以該方式,電腦可讀取媒體通常可以對應於(1)非暫時性的有形的電腦可讀取儲存媒體,或者(2)諸如信號或者載波的通訊媒體。資料儲存媒體可以是可以由一或多個電腦或者一或多個處理器存取以取得用於本案中描述的技術的實現的指令、代碼及/或資料結構的任何可用媒體。電腦程式產品可以包括電腦可讀取媒體。
舉例而言,而不是限制,此種電腦可讀取儲存媒體可以包括RAM、ROM、EEPROM、CD-ROM或者其他光碟儲存、磁碟儲存或者其他磁儲存設備、快閃記憶體,或者可以用於以指令或者資料結構的形式儲存所需的程式碼且可以由電腦存取的任何其他媒體。此外,任何連接被適當地稱為電腦可讀取媒體。例如,若指令從網站、伺服器或者其他遠端源使用同軸電纜、光纖電纜、雙絞線、數位用戶線路(DSL)或者諸如紅外、無線電和微波的無線技術傳輸,則同軸電纜、光纖電纜、雙絞線、DSL或者諸如紅外、無線電和微波的無線技術包括在媒體的定義中。但是,應該理解,電腦可讀取儲存媒體和資料儲存媒體不包括連接、載波、信號或者其他暫時性的媒體,而是代替地涉及非暫時性的有形的儲存媒體。如在此使用的,光碟和磁碟包括壓縮光碟(CD)、鐳射光碟、光碟、數位多功能光碟(DVD)、軟碟和藍光光碟,其中磁碟通常地磁性地再現資料,而光碟以鐳射光學地再現資料。上述的組合亦應該包括在電腦可讀取媒體的範疇內。
指令可以由一或多個處理器,諸如一或多個數位信號處理器(DSP),通用微處理器,特殊應用積體電路(ASIC),現場可程式設計閘陣列(FPGA)或者其他等效的整合或者離散邏輯電路系統執行。因此,如在此使用的術語「處理器」可以指適於在此處描述的技術的實現的任意前述結構或者任何其他結構。另外,在某些態樣,在此處描述的功能性可以在配置用於編碼和解碼的專用硬體及/或軟體模組內提供,或者併入組合的轉碼器中。此外,該等技術可以在一或多個電路或邏輯元件中完全地實現。
本案的技術可以以多種設備或者裝置實現,包括無線手機、積體電路(IC)或者一組IC(例如,晶片組)。各種元件、模組或單元在本案中描述以強調配置為執行揭示的技術的設備的功能態樣,但是不必須由不同硬體單元實現。而是如前述,各種單元可以組合在轉碼器硬體單元中或者由交互操作的硬體單元的集合提供,包括與適當的軟體及/或韌體結合的如前述的一或多個處理器。
已經描述了各種實例。該等及其他實例在以下請求項的範疇內。
12A:源設備 12B:源設備 12C:源設備 14A:內容消費者設備 14B:內容消費者設備 14C:內容消費者設備 14D:內容消費者設備 16A:音訊重播系統 16B:音訊重播系統 16C:音訊重播系統 18:麥克風 19:音訊資料 19’:音訊資料 20:內容擷取設備 21:內容 22:內容編輯設備 23:編輯內容 24:聲場表示產生器 25:音訊資訊 27:位元串流 29:合成設備 32:渲染器 34:音訊解碼設備 35:揚聲器饋送 37:揚聲器資訊 40:追蹤設備 41:追蹤資訊 42:雙耳渲染器 43:左和右揚聲器饋送 48: 50: 60:系統 100:無線通訊系統 103: 105:基地站 110:特定地理覆蓋區域 115:UE 125:通訊鏈路 130:核心網路 132:回載鏈路 134:回載鏈路 135: 140: 145: 200:旋轉感測器 205:空間向量旋轉器 215: 220:空間向量 225:音訊源 230:HOA重建器 232:多通道向量去量化器 233A:殘差去耦器 233M:殘差去耦器 234A:基於投影的殘差去耦器 234M:基於投影的殘差去耦器 236A:偶數/奇數次頻帶合成器 236M:偶數/奇數次頻帶合成器 238A:增益/形狀合成器 238M:增益/形狀合成器 238R:增益/形狀合成器 240:殘差耦合/去耦合旋轉器 242:參考向量去量化器 244:多通道能量解碼器 246:殘差側時間解碼器 248:HTF解碼器 250:步驟 252:步驟 254:步驟 256:步驟 258:步驟 300:可穿戴設備 310A:麥克風 310B:麥克風 310C:麥克風 310D:麥克風 312:歌手 314:弦樂部分 316:鼓手 318:其他音樂家 320:耳機 322:VR護目鏡 324:智慧眼鏡 326:設備 400:VR頭戴式設備 402:使用者 404:耳機 500:可穿戴設備 600:相機 703:顯示器 710:設備 712:處理器 714:圖形處理單元(GPU) 716:系統記憶體 718:顯示處理器 720:使用者介面 721:天線 722:收發器模組 740:揚聲器
圖1A-圖1C是圖示可以執行本案中描述的技術的各個態樣的系統的圖。
圖2是圖示由使用者佩戴的VR設備的實例的圖。
圖3圖示支援根據本案的各態樣的設備和方法的無線通訊系統100的實例。
圖4是圖示根據本案中描述的技術的示例性音訊重播系統的方塊圖。
圖5是進一步圖示本案的技術的各個態樣的示例性音訊重播系統的方塊圖。
圖6是進一步圖示本案的技術的各個態樣的示例性音訊重播系統的方塊圖。
圖7是進一步圖示本案的技術的各個態樣的示例性音訊重播系統的方塊圖。
圖8是圖示具有三個或更多個音訊接收器的示例性音樂會的概念圖。
圖9是圖示根據本案的技術的使用旋轉資訊的實例的流程圖。
圖10是圖示可以根據本案中描述的技術的各個態樣而操作的可穿戴設備的實例的圖。
圖11A和圖11B是圖示可以執行本案中描述的技術的各個態樣的其他示例性系統的圖。
圖12是圖示圖1A-圖1C的實例中圖示的源設備和內容消費者設備中的一或多個的示例性元件的方塊圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
200:旋轉感測器
205:空間向量旋轉器
220:空間向量
225:音訊源
230:HOA重建器

Claims (30)

  1. 一種配置為播放複數個音訊串流中的一或多個的設備,該設備包括: 一記憶體,配置為儲存該複數個音訊串流內的至少一個空間分量和至少一個音訊源;和 一或多個處理器,耦合到該記憶體,且配置為: 從運動感測器接收旋轉資訊; 基於該旋轉資訊旋轉該至少一個空間分量,以形成至少一個旋轉的空間分量;和 從該至少一個旋轉的空間分量和該至少一個音訊源重建環境身歷聲信號, 其中該至少一個空間分量描述一球諧函數域表示中的與該至少一個音訊源相關聯的空間特性。
  2. 如請求項1之設備,其中該至少一個空間分量包括一V-向量,且該至少一個音訊源包括一U-向量。
  3. 如請求項2之設備,其中該一或多個處理器被進一步配置為經由將一投影矩陣應用於一參考殘差向量和去量化的能量信號來重建該U-向量。
  4. 如請求項3之設備,其中該投影矩陣包括時間和空間旋轉資料。
  5. 如請求項1之設備,其中該一或多個處理器被進一步配置為將該至少一個音訊源的一表示輸出到一或多個揚聲器。
  6. 如請求項1之設備,其中該一或多個處理器被進一步配置為經由混合或者內插中的至少一個來組合該至少一個音訊源的至少兩個表示。
  7. 如請求項1之設備,進一步包括一顯示設備。
  8. 如請求項7之設備,進一步包括一麥克風,其中該一或多個處理器被進一步配置為從該麥克風接收一語音命令和基於該語音命令控制該顯示設備。
  9. 如請求項1之設備,進一步包括一或多個揚聲器。
  10. 如請求項1之設備,其中該設備包括一行動手機。
  11. 如請求項1之設備, 其中該設備包括一擴展現實頭戴式設備,和 其中一聲學空間包括由一相機擷取的視訊資料表示的一場景。
  12. 如請求項1之設備, 其中該設備包括一擴展現實頭戴式設備,且 其中一聲學空間包括一虛擬世界。
  13. 如請求項1之設備,進一步包括配置為呈現一聲學空間的一頭部安裝設備。
  14. 如請求項1之設備,進一步包括一無線收發器,該無線收發器耦合到該一或多個處理器且配置為接收一無線信號,該無線信號包括符合一第五代蜂巢標準、一藍芽標準或者一Wi-Fi標準的一或多個信號。
  15. 一種播放複數個音訊串流中的一或多個的方法,包括以下步驟: 由一記憶體儲存該複數個音訊串流內的至少一個空間分量和至少一個音訊源; 由一或多個處理器從運動感測器接收旋轉資訊; 由該一或多個處理器基於該旋轉資訊旋轉該至少一個空間分量,以形成至少一個旋轉的空間分量;和 由該一或多個處理器從該至少一個旋轉的空間分量和該至少一個音訊源重建環境身歷聲信號, 其中該至少一個空間分量描述一球諧函數域表示中的與該至少一個音訊源相關聯的空間特性。
  16. 如請求項15之方法,其中該至少一個空間分量包括一V-向量,且該至少一個音訊源包括一U-向量。
  17. 如請求項16之方法,進一步包括以下步驟:經由將一投影矩陣應用於一參考殘差向量和去量化的能量信號來重建該U-向量。
  18. 如請求項17之方法,其中該投影矩陣包括時間和空間旋轉資料。
  19. 如請求項15之方法,進一步包括以下步驟:由該一或多個處理器將該至少一個音訊源的一表示輸出到一或多個揚聲器。
  20. 如請求項15之方法,進一步包括以下步驟:由該一或多個處理器經由混合或者內插中的至少一個來組合該至少一個音訊源的至少兩個表示。
  21. 如請求項15之方法,進一步包括以下步驟:從一麥克風接收一語音命令和基於該語音命令控制一顯示設備。
  22. 如請求項15之方法,其中該方法在一行動手機上執行。
  23. 如請求項15之方法,其中該方法在一擴展現實頭戴式設備上執行,且其中一聲學空間包括由一相機擷取的視訊資料表示的一場景。
  24. 如請求項15之方法,其中該方法在一擴展現實頭戴式設備上執行,且其中一聲學空間包括一虛擬世界。
  25. 如請求項15之方法,其中該方法在配置為呈現一聲學空間的一頭部安裝設備上執行。
  26. 如請求項15之方法,進一步包括以下步驟:接收一無線信號,該無線信號包括符合一第五代蜂巢標準、一藍芽標準或者一Wi-Fi標準的一或多個信號。
  27. 一種配置為播放複數個音訊串流中的一或多個的設備,該設備包括: 用於儲存該複數個音訊串流內的至少一個空間分量和至少一個音訊源的構件; 用於從運動感測器接收旋轉資訊的構件; 用於旋轉該至少一個空間分量以形成至少一個旋轉的空間分量的構件;和 用於從該至少一個旋轉的空間分量和該至少一個音訊源重建環境身歷聲信號的構件, 其中該至少一個空間分量描述一球諧函數域表示中的與該至少一個音訊源相關聯的空間特性。
  28. 一種具有在其上儲存的指令的非暫時性電腦可讀取儲存媒體,該等指令當被執行時使得一或多個處理器: 儲存複數個音訊串流內的至少一個空間分量和至少一個音訊源; 從運動感測器接收旋轉資訊; 基於該旋轉資訊旋轉該至少一個空間分量以形成至少一個旋轉的空間分量;和 從該至少一個旋轉的空間分量和該至少一個音訊源重建環境身歷聲信號, 其中該至少一個空間分量描述一球諧函數域表示中的與該至少一個音訊源相關聯的空間特性。
  29. 如請求項28之非暫時性電腦可讀取儲存媒體,其中該至少一個空間分量包括一V-向量且該至少一個音訊源包括一U-向量。
  30. 如請求項29之非暫時性電腦可讀取儲存媒體,進一步具有在其上儲存的指令,該等指令當被執行時使得該一或多個處理器重建該U-向量包括經由將一投影矩陣應用於一參考殘差向量和去量化的能量信號。
TW109140714A 2019-11-22 2020-11-20 用於虛擬實境音訊的聲場調適 TW202127916A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962939477P 2019-11-22 2019-11-22
US62/939,477 2019-11-22
US16/951,662 US11317236B2 (en) 2019-11-22 2020-11-18 Soundfield adaptation for virtual reality audio
US16/951,662 2020-11-18

Publications (1)

Publication Number Publication Date
TW202127916A true TW202127916A (zh) 2021-07-16

Family

ID=75971317

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109140714A TW202127916A (zh) 2019-11-22 2020-11-20 用於虛擬實境音訊的聲場調適

Country Status (5)

Country Link
US (1) US11317236B2 (zh)
EP (1) EP4062657A1 (zh)
CN (1) CN114731483A (zh)
TW (1) TW202127916A (zh)
WO (1) WO2021102137A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI816389B (zh) * 2021-11-26 2023-09-21 宏達國際電子股份有限公司 具聲音調整能力系統、方法和非暫態電腦可讀取儲存媒體
TWI830316B (zh) * 2022-04-15 2024-01-21 英華達股份有限公司 虛擬實境中的提醒方法及其裝置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11356793B2 (en) * 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
US11748932B2 (en) * 2020-04-27 2023-09-05 Microsoft Technology Licensing, Llc Controllable image generation
US11750998B2 (en) 2020-09-30 2023-09-05 Qualcomm Incorporated Controlling rendering of audio data
US11290837B1 (en) * 2020-10-23 2022-03-29 Facebook Technologies, Llc Audio system using persistent sound source selection for audio enhancement
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070225A1 (fr) 2008-12-15 2010-06-24 France Telecom Codage perfectionne de signaux audionumeriques multicanaux
US9767618B2 (en) 2015-01-28 2017-09-19 Samsung Electronics Co., Ltd. Adaptive ambisonic binaural rendering
US10595148B2 (en) 2016-01-08 2020-03-17 Sony Corporation Sound processing apparatus and method, and program
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
JP6866249B2 (ja) 2017-07-14 2021-04-28 株式会社堀場製作所 分析装置
US10674301B2 (en) * 2017-08-25 2020-06-02 Google Llc Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
US10657974B2 (en) 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI816389B (zh) * 2021-11-26 2023-09-21 宏達國際電子股份有限公司 具聲音調整能力系統、方法和非暫態電腦可讀取儲存媒體
US11856378B2 (en) 2021-11-26 2023-12-26 Htc Corporation System with sound adjustment capability, method of adjusting sound and non-transitory computer readable storage medium
TWI830316B (zh) * 2022-04-15 2024-01-21 英華達股份有限公司 虛擬實境中的提醒方法及其裝置

Also Published As

Publication number Publication date
EP4062657A1 (en) 2022-09-28
WO2021102137A1 (en) 2021-05-27
US11317236B2 (en) 2022-04-26
CN114731483A (zh) 2022-07-08
US20210160645A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
US10924876B2 (en) Interpolating audio streams
US11317236B2 (en) Soundfield adaptation for virtual reality audio
US11356793B2 (en) Controlling rendering of audio data
US11356796B2 (en) Priority-based soundfield coding for virtual reality audio
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US11089428B2 (en) Selecting audio streams based on motion
US20210006976A1 (en) Privacy restrictions for audio rendering
WO2021003397A1 (en) Password-based authorization for audio rendering
WO2022133118A1 (en) Vector field interpolation of multiple distributed streams for six degree of freedom applications
US11601776B2 (en) Smart hybrid rendering for augmented reality/virtual reality audio
US20240129681A1 (en) Scaling audio sources in extended reality systems
US11750998B2 (en) Controlling rendering of audio data