TW202105164A - 用於低頻率效應之音訊呈現 - Google Patents
用於低頻率效應之音訊呈現 Download PDFInfo
- Publication number
- TW202105164A TW202105164A TW109120730A TW109120730A TW202105164A TW 202105164 A TW202105164 A TW 202105164A TW 109120730 A TW109120730 A TW 109120730A TW 109120730 A TW109120730 A TW 109120730A TW 202105164 A TW202105164 A TW 202105164A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio data
- audio
- frequency effect
- low
- sound field
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 107
- 238000009877 rendering Methods 0.000 title abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 29
- 238000002156 mixing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000005259 measurement Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 239000000543 intermediate Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007654 immersion Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 235000021185 dessert Nutrition 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/07—Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
一般而言,技術之各種態樣係針對用於低頻率效應之音訊呈現。包含一記憶體及一處理器之一裝置可經組態以執行該等技術。該記憶體可儲存表示一聲場之音訊資料。該處理器可分析該音訊資料以識別該聲場之低頻率效應分量之空間特性,且基於該等空間特性處理該音訊資料,以呈現一低頻率效應揚聲器饋入。該處理器亦可將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
Description
本發明係關於諸如音訊資料之媒體資料的處理。
音訊呈現係指產生揚聲器饋入之製程,該揚聲器饋入對一或多個揚聲器(例如,頭戴式耳機、擴音器、包括骨導式揚聲器等之其他轉訊器)進行組態,以再現由音訊資料表示的聲場。音訊資料可符合一或多種格式,包括基於場景之音訊格式(諸如在動畫專家組-MPEG-H音訊編碼標準中指定的格式)、基於對象之音訊格式及/或基於通道之音訊格式。
音訊播放裝置可將音訊呈現器應用於音訊資料,以便產生或以其他方式獲得揚聲器饋入。在一些情況下,音訊播放裝置可處理音訊資料以獲得一或多個專用於再現低頻率效應(LFE,其亦可稱作低於諸如120或150赫茲的臨限值的低音)之揚聲器饋入,該低頻率效應可能輸出至諸如低音炮之有LFE能力的揚聲器。
本發明大體上係關於針對用於低頻率效應(LFE)之音訊呈現的技術。該等技術之各種態樣可實現LFE之空間化呈現,以潛在地改良聲場之低頻率分量(例如,低於200赫茲-Hz、150 Hz、120 Hz或100 Hz之臨限頻率)的再現。該等技術之各種態樣可分析音訊資料以識別與LFE分量相關聯之空間特性,且基於該等空間特性以各種方式處理音訊資料(例如呈現),以可能更準確地將聲場內之LFE分量空間化,而非同等地處理音訊資料之所有態樣以獲得LFE揚聲器饋入。
因而,該等技術之各種態樣可改良音訊播放裝置之操作,因為聲場內之LFE分量之潛在更準確空間化可改良沉浸,且從而改良整體收聽體驗。另外,該等技術之各種態樣可解決問題,其中該音訊播放裝置可經組態以當專用LFE通道被音訊資料損壞或以其他方式錯誤地編碼時,使用嵌入在該音訊資料之其他中間(通常稱作中)或高頻率分量中之LFE來重建構聲場之LFE分量,如本發明中更詳細地描述。經由潛在地更準確重建構(就空間化而言),該等技術之各種態樣可自該音訊資料之中頻率或高頻率分量改良LFE音訊呈現。
在一個實例中,該等技術係針對一種裝置,該裝置包含:一記憶體,其經組態以儲存表示一聲場之音訊資料;及一或多個處理器,其經組態以:分析該音訊資料以識別該聲場之低頻率效應分量之空間特性;基於該等空間特性處理該音訊資料,以呈現一低頻率效應揚聲器饋入;及將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
在另一實例中,該等技術係針對一種方法,該方法包含:分析表示一聲場之音訊資料以識別該聲場之低頻率效應分量之空間特性;基於該等空間特性處理該音訊資料,以呈現一低頻率效應揚聲器饋入;及將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
在另一實例中,該等技術係針對一種裝置,該裝置包含:用於分析表示一聲場之音訊資料以識別該聲場之低頻率效應分量之空間特性之構件;用於基於該等空間特性處理該音訊資料以呈現一低頻率效應揚聲器饋入之構件;及用於將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器之構件。
在另一實例中,該等技術係針對一種具有儲存於其上之指令之非暫時性電腦可讀儲存媒體,該等指令在經執行時使得一裝置之一或多個處理器:分析表示一聲場之音訊資料以識別該聲場之低頻率效應分量之空間特性;基於該等空間特性,處理該音訊資料以呈現一低頻率效應揚聲器饋入;及將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
在隨附圖式及以下描述中闡述本發明之一或多個實例之細節。技術之各種態樣之其他特徵、目標及優勢將自描述及圖式以及自申請專利範圍顯而易見。
本申請案主張2019年6月20日申請之希臘專利申請案第20190100269號之權益,該專利申請案之全部內容特此以全文引用之方式併入。
市場中存在各種基於『環繞聲』通道之格式。舉例而言,其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至由日本廣播協會或日本廣播公司(NHK)所開發之22.2系統。內容創建者(例如,好萊塢工作室)將希望一次性產生影片之音軌,而不花費精力來針對每一揚聲器組態對其進行重混。動畫專家組(MPEG)已發佈一標準,該標準允許聲場使用元素(例如,高階立體混響HOA係數)之階層集合來表示,對於大部分揚聲器組態(包括無論在由各種標準定義之位置中或在不均勻位置中的5.1及22.2組態),該等元素之集合可呈現為揚聲器饋入。
MPEG發佈如MPEG-H 3D音訊標準(由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC DIS 23008-3,正式地名為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,且日期為2014年7月25日)之標準。MPEG亦發佈3D音訊標準之第二版本,該3D音訊標準由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC 23008-3:201x(E),名為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,且日期為2016年10月12日。在本發明中對「3D音訊標準」之參考可指上述標準中之一或兩者。
表達式展示在時間t
處,聲場之任一點處的壓力可由SHC,唯一地表示。此處,,c
為聲音之速度(~343 m/s),為參考點(或觀測點),為階數n
之球貝塞爾函數,且為階數n
及子階數m
之球諧基底函數(其亦可稱作球基底函數)。可認識到,方括弧中之項為信號之頻域表示(亦即,),其可藉由各種時間-頻率變換(諸如,離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括小波變換係數之集合及多解析度基底函數之其他係數集合。
可由各種麥克風陣列組態實體地獲取(例如記錄) SHC,或替代地,其可自聲場之基於通道或基於對象的描述導出。SHC (其亦可稱作高階立體混響HOA係數)表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2
(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti, M.,之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於對象之描述導出SHC,考慮以下方程式。可將對應於個別音訊對象之聲場之係數表達為:,
其中i為,為n階之球漢克爾(Hankel)函數(第二類),且為對象之位置。知曉依據頻率而變化之對象源能量(例如,使用時間-頻率分析技術,諸如對PCM流執行快速傅立葉變換)允許吾人將每一PCM對象及對應位置轉換成SHC。另外,可展示(由於上式為線性及正交分解):每一對象之係數為相加性的。以此方式,若干PCM對象可由係數(例如,作為個別對象之係數向量的總和)來表示。基本上,係數含有關於聲場之資訊(依據3D座標而變化之壓力),且上式表示在觀測點附近自個別對象至總聲場之表示的變換。
基於場景之音訊格式,諸如上文指出之SHC (其亦可稱作高階立體混響係數,或「HOA係數」),表示一種表示聲場之方式。其他可能格式包括基於通道之音訊格式及基於對象之音訊格式。基於通道之音訊格式係指5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或將音訊通道定位於收聽者周圍之特定位置以便重新創建聲場的任何其他基於通道之格式。
基於對象之音訊格式可指規定常常使用脈衝編碼調變(PCM)進行編碼且稱作PCM音訊對象之音訊對象以便表示聲場的格式。此等音訊對象可包括識別音訊對象相對於收聽者或聲場中之其他參考點之位置的後設資料,使得該音訊對象可呈現至一或多個揚聲器通道用於播放以致力於重新創建聲場。本發明中所描述之技術可應用於前述格式中之任一者,包括基於場景之音訊格式、基於通道之音訊格式、基於對象之音訊格式或其任何組合。
圖1為說明可執行本發明中所描述之技術之各種態樣的實例系統的方塊圖。如圖1之實例中所展示,系統10包括源裝置12及內容消費者裝置14。雖然在源裝置12及內容消費者裝置14之內容脈絡中進行描述,但技術可在使用音訊資料以再現聲場之任何內容脈絡中實施。此外,源裝置12可表示能夠產生聲場之表示的任何形式之計算裝置,且在本文中通常在作為內容創建者裝置之內容脈絡中進行描述。同樣地,內容消費者裝置14可表示能夠實施本發明中所描述之音訊呈現技術以及音訊播放的任何形式之計算裝置,且在本文中通常在作為音訊/視覺(A/V)接收器之內容脈絡中進行描述。
源裝置12可由娛樂公司或其他實體操作,該娛樂公司或其他實體可產生多通道音訊內容,以供內容消費者裝置(諸如內容消費者裝置14)之操作者消費。在一些情境中,源裝置12可結合視訊內容產生音訊內容,儘管為了便於說明,在圖1之實例中沒有描繪此類情境。源裝置12包括內容捕獲裝置300、內容編輯裝置304及聲場表示產生器302。內容捕獲裝置300可經組態以與麥克風5介接或以其他方式通信。
麥克風5可表示Eigenmike®或能夠捕獲聲場及將聲場表示為音訊資料11的其他類型之3D音訊麥克風,該音訊資料11可指上文指出之基於場景之音訊資料(諸如HOA係數)、基於對象之音訊資料及基於通道之音訊資料中之一或多者。儘管描述為3D音訊麥克風,但麥克風5亦可表示經組態以捕獲音訊資料11的其他類型之麥克風(諸如全向麥克風、點麥克風、單向麥克風等)。
在一些實例中,內容捕獲裝置300可包括整合至內容捕獲裝置300之殼體中之整合麥克風5。內容捕獲裝置300可無線地或經由有線連接與麥克風5介接。內容捕獲裝置300可在經由某種類型之可移動儲存器、無線地及/或經由有線輸入製程輸入音訊資料11之後處理音訊資料11,而非經由麥克風5捕獲音訊資料11,或與經由麥克風5捕獲音訊數據11結合。因此,根據本發明,內容捕獲裝置300與麥克風5之各種組合係可能的。
內容捕獲裝置300亦可經組態以與內容編輯裝置304介接或以其他方式通信。在一些情況下,內容捕獲裝置300可包括內容編輯裝置304 (在一些情況下,內容編輯裝置304可表示軟體或軟體及硬體之組合,包括由內容捕獲裝置300執行之軟體,以對內容捕獲裝置300進行組態,從而執行特定形式之內容編輯)。內容編輯裝置304可表示經組態以編輯或以其他方式更改自內容捕獲裝置300接收到的內容301 (包括音訊資料11)的單元。內容編輯裝置304可將編輯內容303及/或相關聯之後設資料305輸出至聲場表示產生器302。
聲場表示產生器302可包括能夠與內容編輯裝置304 (或內容捕獲裝置300)介接之任何類型的硬體裝置。儘管在圖1之實例中未展示,但聲場表示產生器302可使用由內容編輯裝置304提供之包括音訊資料11及/或後設資料305的編輯內容303以產生一或多個位元串流21。在聚焦於音訊資料11之圖1的實例中,聲場表示產生器302可產生由音訊資料11表示之相同聲場之一或多個表示,以獲得包括聲場及/或音訊後設資料305之表示的位元串流21。
舉例而言,為了使用HOA係數產生聲場之不同表示(其同樣為音訊資料11之一個實例),聲場表示產生器302可使用用於聲場之立體混響表示的編碼方案,稱作混合階立體混響(MOA),如在2019年1月3日作為美國專利公開案第20190007781號公佈的於2017年8月8日申請之名稱為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FO COMPUTER-MEDIATED REALITY SYSTEMS」的美國申請案序列號15/672,058中更詳細論述。
為了產生聲場之特定MOA表示,聲場表示產生器302可產生HOA係數之全部集合之部分子集。舉例而言,由聲場表示產生器302所產生之每一MOA表示可相對於聲場之一些區域提供精確度,但於其他區域中精確度較小。在一個實例中,聲場之MOA表示可包括HOA係數之八(8)個未經壓縮HOA係數,而同一聲場之三階HOA表示可包括HOA係數之十六(16)個未經壓縮HOA係數。因此,相較於自HOA係數所產生之同一聲場的對應三階HOA表示,產生為HOA係數之部分子集的聲場之每一MOA表示可較不儲存密集且較不頻寬密集(若且當作為位元串流21之部分在所說明傳輸通道上傳輸時)。
雖然參照MOA表示來描述,但本發明之技術亦可參照全階立體混響(FOA)表示來執行,在該全階立體混響表示中,給定階數N之所有HOA係數用於表示聲場。換言之,聲場表示產生器302可使用給定階數N之所有HOA係數來表示聲場,而非使用HOA係數之部分非零子集來表示聲場,從而產生等於(N+1)2
之總HOA係數。
就此而言,高階立體混響音訊資料(其為指代MOA表示或FOA表示中的HOA係數之另一種方式)可包括與具有一階或以下之球基底函數相關聯的高階立體混響係數(其可稱作「1階立體混響音訊資料」)、與具有混合階及子階之球基底函數相關聯的高階立體混響係數(其可稱作如上文所論述之「MOA表示」),或與具有大於一階之球基底函數相關聯的高階立體混響係數(其在上文稱作「FOA表示」)。
在一些實例中,內容捕獲裝置300或內容編輯裝置304可經組態以與聲場表示產生器302無線地通信。在一些實例中,內容捕獲裝置300或內容編輯裝置304可經由無線連接或有線連接中之一或兩者與聲場表示產生器302通信。經由內容捕獲裝置300與聲場表示產生器302之間的連接,內容捕獲裝置300可提供各種形式的內容,出於論述之目的,該內容在本文中描述為音訊資料11之部分。
在一些實例中,內容捕獲裝置300可利用聲場表示產生器302之各種態樣(就聲場表示產生器302之硬體或軟體能力而言)。舉例而言,聲場表示產生器302可包括專用硬體,該專用硬體經組態以(或專用軟體,其在執行時使得一或多個處理器)執行音質音訊編碼(諸如表示為由動畫專家組(MPEG)或MPEG-H 3D音訊編碼標準闡述之「USAC」的通用語音及音訊編碼器)。內容捕獲裝置300可不包括音質音訊編碼器專用硬體或專用軟體,而替代地以非音質音訊編碼形式提供內容301之音訊態樣。聲場表示產生器302可藉由相對於內容301之音訊態樣至少部分地執行音質音訊編碼來輔助內容301之捕獲。
聲場表示產生器302亦可藉由至少部分地基於由音訊資料11 (在音訊資料11包括基於場景之音訊資料之情況下)產生的音訊內容(例如,MOA表示及/或三階HOA表示)產生一或多個位元串流21來輔助內容捕獲及傳輸。位元串流21可表示音訊資料11及任何其他不同類型的內容301之經壓縮版本(諸如球視訊資料、影像資料或文本資料之經壓縮版本)。
聲場表示產生器302可產生位元串流21以供(作為一個實例)跨越傳輸通道傳輸,該傳輸通道可為有線或無線通道、資料儲存裝置或其類似者。位元串流21可表示音訊資料11之經編碼版本,且可包括主位元串流及另一旁側位元串流,其可稱作旁側通道資訊。在一些情況下,表示音訊資料11之經壓縮版本之位元串流21 (其又可表示基於場景之音訊資料、基於對象之音訊資料、基於通道之音訊資料或其組合)可符合根據MPEG-H 3D音訊編碼標準產生之位元串流。
內容消費者裝置14可由個人操作,且可表示A/V接收器用戶端裝置。儘管關於A/V接收器用戶端裝置(其亦可稱作「A/V接收器」、「AV接收器」或「AV接收器用戶端裝置」)進行描述,但內容消費者裝置14可表示其他類型之裝置,諸如虛擬實境(VR)用戶端裝置、擴增實境(AR)用戶端裝置、混合實境(MR)用戶端裝置、膝上型電腦、桌上型電腦、工作站、蜂巢式電話或手持話機(包括所謂的「智慧型電話」)、電視、專用遊戲系統、手持型遊戲系統、智慧型揚聲器、車用導航單元(諸如汽車或其他車輛之信息娛樂或娛樂系統)或能夠執行相對於音訊資料15之音訊呈現的任何其他裝置。如圖1之實例中所展示,內容消費者裝置14包括音訊播放系統16,其可指能夠將用於播放之音訊資料15呈現為多通道音訊內容之任何形式的音訊播放系統。
雖然在圖1之實例中展示為直接傳輸至內容消費者裝置14,但源裝置12可將位元串流21輸出至定位於源裝置12與內容消費者裝置14之間的中間裝置。中間裝置可儲存位元串流21,用於隨後遞送至內容消費者裝置14,該內容消費者裝置14可請求位元串流。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他裝置。中間裝置可駐存於能夠將位元串流21 (且可能結合傳輸對應視訊資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如,內容消費者裝置14)的內容遞送網路中。
替代地,源裝置12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,該等儲存媒體中之大部分能夠由電腦讀取且因此可稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容脈絡中,傳輸通道可指儲存至媒體之內容(例如,呈一或多個位元串流21形式)傳輸之通道(且可包括零售店及其他基於商店之遞送機構)。因此,在任何情況下,本發明之技術就此而言不應限於圖1之實例。
如上文所提及,內容消費者裝置14包括音訊播放系統16。音訊播放系統16可表示能夠播放多通道音訊資料的任何系統。音訊播放系統16可包括數個不同呈現器22。呈現器22可各自提供不同形式之呈現,其中不同形式之呈現可包括執行基於向量之振幅平移(VBAP)之各種方式中的一或多者及/或執行聲場合成之各種方式中的一或多者。如本文中所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16可進一步包括音訊解碼裝置24。音訊解碼裝置24可表示經組態以對位元串流21進行解碼以輸出音訊資料15的裝置。同樣,音訊資料15可包括基於場景之音訊資料,在一些實例中,基於場景之音訊資料可形成完整二階或更高階HOA表示或其子集,該子集形成同一聲場之MOA表示、其分解,諸如主要音訊信號、環境HOA係數及在MPEG-H 3D音訊編碼標準中所描述之基於向量的信號或其他形式之基於場景之音訊資料。因而,音訊資料15可與音訊資料11之全部集合或部分子集類似,但歸因於有損操作(例如量化)及/或經由傳輸通道的傳輸而可能不同。
作為基於場景之音訊資料的替代或與其結合,音訊資料15可包括基於通道之音訊資料。作為基於場景之音訊資料的替代或與其結合,音訊資料15可包括基於對象之音訊資料。因此,音訊資料15可包括基於場景之音訊資料、基於對象之音訊資料及基於通道之音訊資料的任何組合。
在音訊解碼裝置24已解碼位元串流21以獲得音訊資料15之後,音訊播放系統16之音訊呈現器22可呈現音訊資料15以輸出揚聲器饋入25。揚聲器饋入25可驅動一或多個揚聲器(為了便於說明,其在圖1之實例中未展示)。包括聲場之基於場景之音訊資料(及可能地基於通道之音訊資料及/或基於對象之音訊資料)的各種音訊表示可以多種方式正規化,包括N3D、SN3D、FuMa、N2D或SN2D。
為了選擇適當呈現器或在一些情況下產生適當呈現器,音訊播放系統16可獲得指示揚聲器(例如擴音器或頭戴式耳機揚聲器)之數目及/或揚聲器之空間幾何形狀的揚聲器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以動態地判定揚聲器資訊13之方式驅動揚聲器而獲得揚聲器資訊13。在其他情況下或結合揚聲器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16介接且輸入揚聲器資訊13。
音訊播放系統16可基於揚聲器資訊13選擇音訊呈現器22中之一者。在一些情況下,當音訊呈現器22中之每一者均不位於與揚聲器資訊13中指定之揚聲器幾何形狀的某個臨限值類似性量測(就揚聲器幾何形狀而言)內時,音訊播放系統16可基於揚聲器資訊13產生音訊呈現器22中之一者。在一些情況下,音訊播放系統16可基於揚聲器資訊13產生音訊呈現器22中之一者,而無需首先嘗試選擇音訊呈現器22中之現有一者。
當將揚聲器饋入25輸出至頭戴式耳機時,音訊播放系統16可利用呈現器22中之一者,該呈現器22使用頭部相關轉移函數(HRTF)或能夠呈現至左及右揚聲器饋入25用於頭戴式耳機揚聲器播放的其他函數來提供雙耳呈現,諸如雙耳室脈衝回應(BRIR)呈現器。術語「揚聲器」或「轉訊器」可通常指任何揚聲器,包括擴音器、頭戴式耳機揚聲器、骨導式揚聲器、耳塞式揚聲器、無線頭戴式耳機揚聲器等。一或多個揚聲器可隨後播放呈現之揚聲器饋入25。
儘管描述為自音訊資料15呈現揚聲器饋入25,但對揚聲器饋入25之呈現的參考可指其他類型之呈現,諸如直接併入至自位元串流21對音訊資料15之解碼中的呈現。替代呈現之一實例可見於MPEG-H 3D音訊編碼標準之Annex G中,其中呈現發生於在聲場合成之前的主要信號形成及背景信號形成期間。因而,對音訊資料15之呈現的參考應理解為對實際音訊資料15之呈現或其音訊資料15之分解或表示(諸如上文所提及之主要音訊信號、環境HOA係數及/或基於向量之信號-其亦可稱作V向量)兩者的參考。
如上文所描述,音訊資料11可表示包括稱作低頻率效應(LFE)分量之聲場,該低頻率效應分量亦可稱作低於某一臨限頻率(諸如200赫茲-Hz、150 Hz、120 Hz或100 Hz)的低音。符合某些音訊格式(諸如基於通道之音訊格式)之音訊資料可包括專用LFE通道(其通常表示為點一-「X.1」-意味著具有X個主通道之單個專用LFE通道,諸如當X等於五時之中央、左前、右前、左後及右後,「X.2」指兩個專用LFE通道等)。
符合基於對象之音訊格式之音訊資料可定義聲場中之一或多個音訊對象及音訊對象中之每一者之位置,隨後,該等音訊對象變換成映射至個別揚聲器之通道,若聲場中存在足夠的LFE分量(例如,低於大約200 Hz),則包括任何低音炮。音訊播放系統16可處理每一音訊對象,執行距離量測以識別LFE分量起源之距離,執行低通濾波器以擷取低於臨限值(例如200 Hz)之任何LFE分量,執行低音活性偵測以識別LFE分量等。音訊播放系統16隨後可在處理LFE揚聲器饋入以執行動態範圍控制之前呈現一或多個LFE揚聲器饋入,其輸出導致調整的LFE揚聲器饋入。
符合基於場景之音訊格式之音訊資料可將聲場定義為一或多個高階立體混響(HOA)係數,其與具有大於或等於零之階數及子階數的球基底函數相關聯。音訊播放系統16可圍繞球體之中心的甜點(其為指預期收聽位置之另一方式)呈現定位於球體周圍等距之HOA係數揚聲器饋入(所謂的飛行-邁耶(Fliege-Maier)點)。音訊播放系統16可以類似於上文關於符合基於對象之格式之音訊資料所描述之方式來處理呈現的揚聲器饋入中之每一者,從而導致調整的LFE揚聲器饋入。
在每一情況下,音訊播放系統16可同等地處理通道中之每一者(在基於通道之音訊資料的情況下提供或在基於場景之音訊資料的情況下呈現)及/或音訊對象,以獲得調整的LFE揚聲器饋入。通道及/或音訊對象中之每一者經同等地處理,這是由於通常認為人類聽覺系統對聲場之LFE分量之方向性及形狀不敏感,因為與人類聽覺系統可清楚地定位的聲場之較高頻率分量相比,LFE分量通常被感覺到(作為振動)而非清楚地聽到。
然而,隨著音訊播放系統已發展到以愈來愈多的有LFE能力的揚聲器為特徵(除了一或多個低音炮之外,其可指全頻率揚聲器,諸如大型中央揚聲器、大型右前揚聲器、大型左前揚聲器等,其中兩個或更多個低音炮變得愈來愈普遍,尤其在電影院及其他專用觀看及/或收聽區域,諸如家庭劇院或收聽室),人類聽覺系統可感覺到LFE分量之空間化的缺乏。因而,當LFE分量再現時未經正確空間化時,觀看者及/或收聽者可注意到沉浸之劣化,其中當正觀看之相關聯之場景與LFE分量之再現不正確匹配時,可偵測此類劣化。
當LFE通道損壞時(對於基於通道之音訊資料)或當未提供LFE通道時(對於基於對象之音訊資料及/或基於場景之音訊資料可為此類情況),劣化可進一步提高。LFE通道之重建構可涉及將所有較高頻率通道混合在一起(在將音訊對象及/或HOA係數呈現至通道之後,當適用時),且將混合通道輸出至有LFE能力的揚聲器,該揚聲器可能不為全頻帶的(就頻率而言),且從而產生LFE分量的不準確再現,假定混合通道之高頻率分量可能混淆或以其他方式呈現不準確的再現。在一些情況下,可執行額外處理以再現LFE揚聲器饋入,但此類處理忽略空間化態樣,且將同一LFE揚聲器饋入輸出至有LFE能力的揚聲器中之每一者,此同樣可由人類聽覺系統感覺為不準確。
根據本發明中描述之技術,音訊播放系統16可執行LFE分量之空間化呈現以潛在地改良聲場之LFE分量(例如,低於200赫茲-Hz、150 Hz、120 Hz或100 Hz之臨限頻率)之再現。音訊播放系統16可分析音訊資料15以識別與LFE分量相關聯之空間特性,且基於空間特性以各種方式處理該音訊資料(例如呈現),以可能更準確地將聲場內之LFE分量空間化,而非同等地處理音訊資料之所有態樣以獲得LFE揚聲器饋入。
如圖1之實例中所展示,音訊播放系統16可包括LFE呈現器單元26,其可表示經組態以根據本發明中描述之技術之各種態樣空間化音訊資料15之LFE分量的單元。在操作中,LFE呈現器單元26可分析音訊資料15,以識別聲場之LFE分量的空間特性。
為了識別空間特性,LFE呈現器單元26可基於音訊資料15產生反映一或多個頻率範圍(例如,自零Hz至200 Hz、150 Hz或120 Hz)之聲場內的聲音能量位準之球形熱圖(其亦可稱作「能量圖」)。LFE呈現器單元26隨後可基於球形熱圖識別聲場之LFE分量的空間特性。舉例而言,LFE呈現器單元26可基於聲場中相對於聲場內之其他位置存在更高能量LFE分量之位置來識別LFE分量的方向及形狀。LFE呈現器單元26接下來可基於識別方向、形狀及/或其他空間特性來處理音訊資料15,以呈現LFE揚聲器饋入27。
隨後,LFE呈現器單元26可將LFE揚聲器饋入27輸出至有LFE能力的揚聲器(為了便於說明,在圖1之實例中未展示)。在一些情況下,音訊播放裝置16可將LFE揚聲器饋入27與揚聲器饋入25中之一或多者混合,以獲得混合的揚聲器饋入,隨後將混合的揚聲器饋入輸出至一或多個有LFE能力的揚聲器。
以此方式,技術之各種態樣可改良音訊播放裝置16之操作,因為潛在地允許聲場內之LFE分量之更準確空間化可改良沉浸,且從而改良整體收聽體驗。另外,技術之各種態樣可解決問題,其中音訊播放裝置16可經組態以當專用LFE通道被音訊資料損壞或以其他方式錯誤地編碼時,使用嵌入在音訊資料15之其他中間(通常稱作中)或高頻率分量中之LFE來重建構聲場之LFE分量。經由潛在地更準確重建構(就空間化而言),技術之各種態樣可自音訊資料15之中頻率或高頻率分量改良LFE音訊呈現。
圖2為更詳細地說明圖1之實例中所展示之LFE呈現器單元的方塊圖。如圖2之實例中所展示,LFE呈現器單元26A表示圖1之實例中所展示之LFE呈現器單元26之一個實例,其中LFE呈現器單元26A包括空間化LFE分析器110、距離量測單元112、低通濾波器114、低音活性偵測單元116、呈現單元118及動態範圍控制(DRC)單元120。
空間化LFE分析器110可表示經組態以識別由音訊資料15表示之聲場之LFE分量之空間特性(「SC」) 111的單元。亦即,空間化LFE分析器110可獲得音訊資料15,且分析音訊資料15以識別SC 111。空間化LFE分析器110可分析全頻率音訊資料15,以產生表示包圍甜點之定向聲能(其亦可稱作位準或增益)的球形熱圖。空間化LFE分析器110隨後可基於球形熱圖識別聲場之LFE分量的SC 111。如上文所提及,LFE分量之SC 111可包括一或多個方向(例如,到達方向)、一或多個相關聯之形狀及類似者。
空間化LFE分析器110可取決於音訊資料15之格式以若干不同方式產生球形熱圖。在基於通道之音訊資料的實例中,空間化LFE分析器110可自通道直接產生球形熱圖,其中每一通道定義為駐存於空間中的不同位置(例如,作為5.1音訊格式的一部分)。對於基於對象之音訊資料,LFE分析器110可放棄球形熱圖之產生,因為對象後設資料可直接定義相關聯之對象駐存的位置。LFE分析器110可處理所有對象以識別哪些對象對聲場之LFE分量有貢獻,且基於與識別的對象相關聯之對象後設資料來識別SC 111。
作為上述基於後設資料之SC 111之識別的替代或結合,空間化LFE分析器110可將對象音訊資料15自空間域變換成球諧域,從而產生表示對象中之每一者的HOA係數。空間化LFE分析器110接下來可將來自對象中之每一者之所有HOA係數混合在一起,且將HOA係數自球諧域變換回至空間域,從而產生通道(或換言之,將HOA係數呈現至通道中)。呈現的通道可圍繞包圍收聽者之球體相等地間隔開。呈現的通道可形成球形熱圖的基礎。空間化LFE分析器110可在基於場景之音訊資料之個例中執行與上文所描述之操作類似的操作(係指自HOA係數呈現通道,隨後使用該等通道來產生球形熱圖,其同樣亦可稱作能量圖)。
空間化LFE分析器110可將SC 111輸出至距離量測單元112、低通濾波器114、低音活性偵測單元116、呈現單元118及/或動態範圍控制單元120中之一或多者。距離量測單元112可判定LFE分量起源(如由SC 111指示或自其導出)與每一有LFE能力的揚聲器之間的距離。距離量測單元112隨後可選擇具有最小判定距離之有LFE能力的揚聲器中之一者。當僅存在單個有LFE能力的揚聲器時,LFE呈現單元26A可能不調用距離量測單元112來計算或以其他方式判定距離。
低通濾波器114可表示經組態以對音訊資料15執行低通濾波以獲得音訊資料15之LFE分量的單元。為了節省處理週期且從而促進更高效操作(具有較低功率消耗、頻寬-包括記憶體頻寬-使用等之相關聯之益處),低通濾波器114可自由SC 111識別的方向僅選擇彼等通道(用於基於通道之音訊資料)。然而,在一些實例中,低通濾波器114可將低通濾波器應用於整個音訊資料15,以獲得LFE分量。低通濾波器114可將LFE分量輸出至低音活性偵測單元116。
低音活性偵測單元116可表示經組態以針對LFE分量之給定訊框偵測是否包括低音的單元。低音活性偵測單元116可將雜訊底限臨限值(例如20分貝-dB)應用於LFE分量之每一訊框。儘管關於靜態臨限值進行描述,但低音活性偵測單元116可使用直方圖(隨時間)來設定動態雜訊底限臨限值。
當LFE分量之增益(如以單位dB定義)超過或等於雜訊底限臨限值時,低音活性偵測單元116可指示LFE分量對於當前訊框為活動的且待呈現。當LFE分量之增益低於雜訊底限臨限值時,低音活性偵測單元116可指示LFE分量對於當前訊框為不活動的且將不呈現。低音活性偵測單元116可將此指示輸出至呈現單元118。
當指示指示LFE分量對於當前訊框為活動的時,呈現單元118可基於SC 111及揚聲器資訊13來呈現有LFE能力的揚聲器饋入27。亦即,對於基於通道之音訊資料,呈現單元118可根據SC 111對通道進行加權,以潛在地強調LFE分量起源於聲場的方向。因而,呈現單元118可基於SC 111將第一加權應用於數個音訊通道中之第一音訊通道,該第一加權不同於應用於數個音訊通道之第二音訊通道的第二加權,以獲得第一加權音訊通道。呈現單元118接下來可將第一加權音訊通道與藉由將第二加權應用於第二音訊通道而獲得的第二加權音訊通道混合,以獲得混合音訊通道。呈現單元118隨後可基於混合音訊通道獲得一或多個有LFE能力的揚聲器饋入27。
對於基於對象之音訊資料,呈現單元118可使用SC 111作為到達方向來調整對象呈現矩陣,以考慮LFE分量之到達方向。對於基於場景之音訊資料,呈現單元118可同樣使用SC 111作為到達方向來調整類似HOA呈現矩陣,以考慮LFE分量之到達方向。不管音訊資料之類型如何,呈現單元118可利用揚聲器資訊13來判定呈現加權/矩陣之各種態樣(以及任何延遲、交越等),以考慮揚聲器之指定位置(例如藉由5.1格式)與有LFE能力的揚聲器之實際位置之間的差異。
呈現單元118可執行各種類型之呈現,諸如基於對象之呈現類型,包括基於向量之振幅平移(VBAP)、基於距離之振幅平移(DBAP)及/或基於立體混響之呈現類型。在存在多於一個有LFE能力的揚聲器的情況下,呈現單元118可執行VBAP、DBAP及/或基於立體混響之呈現類型,以便創建位於由SC 111定義之到達方向的虛擬揚聲器之聽覺外觀。亦即,當音訊播放裝置16耦接至複數個有低頻率效應能力的揚聲器時,呈現單元118可經組態以基於SC 111處理音訊資料以呈現第一低頻率效應揚聲器饋入及第二低頻率效應揚聲器饋入,第一低頻率效應揚聲器饋入不同於第二低頻率效應揚聲器饋入。呈現單元118可執行VBAP以定位低頻率效應分量之到達方向,而非呈現不同低頻率效應揚聲器饋入。
當指示指示LFE分量對於當前訊框不活動時,呈現單元118可阻止呈現當前訊框。在任何情況下,當LFE分量指示為活動時,呈現單元118可將有LFE能力的揚聲器饋入27輸出至動態範圍控制(DRC)單元120。
動態範圍控制單元120可確保有LFE能力的揚聲器饋入27之動態範圍保持在最大增益內,以避免損壞有LFE能力的揚聲器饋入27。由於公差可基於每一揚聲器而不同,因此動態範圍控制單元120可確保有LFE能力的揚聲器饋入27保持在為有LFE能力的揚聲器中之每一者定義的最大增益(或由動態範圍控制單元120或音訊播放系統16內之其他組件自動識別)以下。動態範圍控制單元120可將經調整有LFE能力的揚聲器饋入27輸出至有LFE能力的揚聲器。
圖3為更詳細地說明圖1中所展示之LFE呈現器單元之另一實例的方塊圖。如圖3之實例中所展示,LFE呈現器單元26B表示圖1之實例中所展示之LFE呈現器單元26之一個實例,其中LFE呈現器單元26B包括與上文關於LFE呈現器單元26A所論述相同的空間化LFE分析器110、距離量測單元112、低通濾波器114、低音活性偵測單元116、呈現單元118及動態範圍控制(DRC)單元120。然而,LFE呈現器單元26B不同於LFE呈現器單元26A,由於低音活性偵測單元116首次處理音訊資料15,因此假定跳過不具有低音活性之訊框,從而避免由空間化LFE分析器110、距離量測單元112及低通濾波器114進行處理,因此潛在地提高處理效率。
圖4為說明圖1至圖3中所展示之LFE呈現器單元在執行低頻率效應呈現技術之各種態樣時之實例操作的流程圖。LFE呈現器單元26可分析表示聲場之音訊資料15以識別聲場之低頻率效應分量的SC 111 (200)。為了執行分析,LFE呈現器單元26可基於音訊資料15產生球形熱圖,該球形熱圖表示位於球體中間(甜點中)處的收聽者周圍的能量。如上文更詳細地描述,LFE呈現器單元26可選擇能量最多的定位方向。
LFE呈現器單元26接下來可基於SC 111處理音訊資料,以呈現一或多個低頻率效應揚聲器饋入(202)。如上文關於圖2之實例所論述,LFE呈現器單元26可基於SC 111來調適呈現單元118以不同地加權每一通道(對於基於通道之音訊資料)、對象(對於基於對象之音訊資料)及/或各種HOA係數(對於基於場景之音訊資料)。
舉例而言,若由SC 111定義之到達方向指示LFE分量主要自收聽者之右側到達,則LFE呈現器單元26可對呈現單元118進行組態以將右通道加權為高於左通道(或完全拋棄左通道,因為其可具有很少或沒有LFE分量)。在與上述通道情況相同方向的對象域中,LFE呈現器單元26可對呈現單元118進行組態,以在收聽者左側之對象上對負責大部分能量(且其後設資料指示對象駐存於右側)之對象進行加權(或者拋棄收聽者左側之對象)。在基於場景之音訊資料之內容脈絡中,且對於如上文所論述之相同實例方向,LFE呈現器單元26可對呈現單元118進行組態,以使自HOA係數呈現之右通道加權超過自HOA係數呈現之左通道。
LFE呈現器單元26可將低頻率效應揚聲器饋入27輸出至有低頻率效應能力的揚聲器(204)。儘管上文描述為自單個類型之音訊資料15 (例如,基於場景之音訊資料)產生低頻率效應揚聲器饋入27,但技術可關於混合格式音訊資料來執行,在該混合格式音訊資料中,對於同一時間訊框,存在基於通道之音訊資料、基於對象之音訊資料或基於場景之音訊資料中之兩者或更多者。
圖5為說明圖1之實例中所展示之內容消費者裝置14之實例分量的方塊圖。在圖5之實例中,內容消費者裝置14包括處理器412、圖形處理單元(GPU) 414、系統記憶體416、顯示處理器418、一或多個整合揚聲器105、顯示器103、使用者介面420及收發器模組422。在內容消費者裝置14為行動裝置之實例中,顯示處理器418為行動顯示處理器(MDP)。在諸如內容消費者裝置14為行動裝置之實例的一些實例中,處理器412、GPU 414及顯示處理器418可形成為積體電路(IC)。
舉例而言,IC可被視為晶片封裝內之處理晶片,且可為系統單晶片(SoC)。在一些實例中,處理器412、GPU 414及顯示處理器418中之兩者可一起容納在同一IC中,且另一者容納在不同積體電路(亦即,不同晶片封裝)中,或所有三者可容納在不同IC中或容納在同一IC上。然而,在內容消費者裝置14為行動裝置之實例中,處理器412、GPU 414及顯示處理器418可能皆容納在不同積體電路中。
處理器412、GPU 414及顯示處理器418之實例包括但不限於固定功能及/或可程式化處理電路系統,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效整合或離散邏輯電路。處理器412可為內容消費者裝置14之中央處理單元(CPU)。在一些實例中,GPU 414可為包括整合及/或離散邏輯電路之專用硬體,該專用硬體向GPU 414提供適用於圖形處理之大規模並行處理能力。在一些情況下,GPU 414亦可包括通用處理能力,且在實施通用處理任務(亦即,非圖形相關任務)時可稱作通用GPU (GPGPU)。顯示處理器418亦可為專用積體電路硬體,其設計成自系統記憶體416擷取影像內容,將影像內容合成為影像訊框且將影像訊框輸出至顯示器103。
處理器412可執行各種類型之應用程式20。應用程式20之實例包括網頁瀏覽器、電子郵件應用程式、電子算表、視訊遊戲、產生用於顯示器之可觀測對象的其他應用程式,或上述更詳細地列出的應用程式類型中之任一者。系統記憶體416可儲存用於執行應用程式20的指令。處理器412上應用程式20中之一者的執行使得處理器412產生待顯示之影像內容的圖形資料及待播放(可能經由整合揚聲器105)的音訊資料21。處理器412可將影像內容之圖形資料傳輸至GPU 414以基於處理器412傳輸至GPU 414之指令或命令而進一步處理。
處理器412可根據特定應用程式處理介面(API)與GPU 414通信。此類API之實例包括Microsoft®
之DirectX®
API,Khronos集團之OpenGL®
或OpenGL ES®
以及OpenCLTM
;然而,本發明之態樣不限於DirectX、OpenGL或OpenCL API,且可擴展至其他類型之API。此外,本發明中所描述之技術並不需要根據API起作用,且處理器412及GPU 414可利用用於通信之任何技術。
系統記憶體416可為用於內容消費者裝置14的記憶體。系統記憶體416可包含一或多個電腦可讀儲存媒體。系統記憶體416之實例包括但不限於隨機存取記憶體(RAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體,或可用於攜載或儲存呈指令及/或資料結構之形式的所要程式碼並可由電腦或處理器存取的其他媒體。
在一些實例中,系統記憶體416可包括使處理器412、GPU 414及/或顯示處理器418執行在發明中歸屬處理器412、GPU 414及/或顯示處理器418之功能的指令。因此,系統記憶體416可為具有儲存於其上之指令之電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器(例如,處理器412、GPU 414及/或顯示處理器418)執行各種功能。
系統記憶體416可包括非暫時性儲存媒體。術語「非暫時性」指示儲存媒體並不以載波或傳播訊號體現。然而,術語「非暫時性」不應解譯成意謂系統記憶體416為非可移動或其內容為靜態的。作為一個實例,系統記憶體416可自內容消費者裝置14移除且移動至另一裝置。作為另一實例,實質上與系統記憶體416類似之記憶體可插入至內容消費者裝置14中。在某些實例中,非暫時性儲存媒體可儲存可隨著時間推移改變的資料(例如在RAM中)。
使用者介面420可表示一或多個硬體或虛擬(意味著硬體及軟體之組合)使用者介面,藉由該等使用者介面,使用者可與內容消費者裝置14介接。使用者介面420可包括實體按鈕、開關、雙態觸發開關、燈或其虛擬版本。使用者介面420亦可包括實體或虛擬鍵盤、觸控式介面-諸如觸控式螢幕、觸覺反饋及類似者。
處理器412可包括一或多個硬體單元(包括所謂的「處理核心」,該等硬體單元經組態以執行上文關於圖1之LFE呈現器單元26所論述的操作之全部或一些部分。收發器模組422可表示能夠根據一或多個無線通信協定進行無線通信的一或多個接收器及一或多個傳輸器。
將認識到,取決於實例,本文中所描述之技術中之任一者的某些動作或事件可以不同序列經執行、可經添加、合併或完全省略(例如,並非全部所描述動作或事件均為實踐該等技術所必要)。此外,在某些實例中,可例如經由多執行緒處理、中斷處理或多個處理器同時而非依序執行動作或事件。
在一些實例中,A/V裝置(或AV及/或串流傳輸裝置)可使用耦接至AV/串流傳輸裝置之記憶體之網路介面將交換訊息傳送至外部裝置,其中交換訊息與聲場之多個可用表示相關聯。在一些實例中,A/V裝置可使用耦接至網路介面之天線來接收包括資料封包、音訊封包、視訊封包之無線信號,或傳輸與聲場之多個可用表示相關聯的協定資料。在一些實例中,一或多個麥克風陣列可捕獲聲場。
在一些實例中,儲存至記憶體裝置之聲場的多個可用表示可包括聲場之複數個基於對象的表示、聲場之高階立體混響表示、聲場之混合階立體混響表示、聲場之基於對象的表示與聲場之高階立體混響表示之組合、聲場之基於對象的表示與聲場之混合階立體混響表示之組合或聲場之混合階表示與聲場之高階立體混響表示之組合。
在一些實例中,聲場之多個可用表示的聲場表示中之一或多者可包括至少一個高解析度區域及至少一個較低解析度區域,且其中基於轉向角之所選呈現針對至少一個高解析度區域提供較大空間精確度且針對較低解析度區域提供較小空間精確度。
在一或多個實例中,所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體,該通信媒體包括例如根據通信協定來促進電腦程式自一處傳送至另一處的任何媒體。以此方式,電腦可讀媒體一般可對應於(1)非暫時性的有形電腦可讀儲存媒體,或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉助於實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。而且,任何連接經恰當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纜、雙絞線、數位用戶線(digital subscriber line;DSL)或無線技術(諸如紅外線、無線電及微波)自網站、伺服器或其他遠端源傳輸指令,則同軸纜線、光纜、雙絞線、DSL或無線技術(諸如紅外線、無線電及微波)包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而係針對非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟藉由雷射以光學方式再現資料。以上之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效整合或離散邏輯電路。因此,如本文所使用之術語「處理器」可指前述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文所描述之功能性可經提供於經組態以供編碼及解碼或併入於經組合編解碼器中之專用硬體及/或軟體模組內。而且,可在一或多個電路或邏輯元件中充分實施該等技術。
本發明之技術可實施於廣泛多種裝置或設備中,該等裝置或設備包括無線手機、積體電路(IC)或IC之集合(例如晶片集合)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能性態樣,但未必要求由不同硬體單元來實現。確切而言,如上文所描述,可將各種單元組合於編解碼器硬體單元中,或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合而結合合適的軟體及/或韌體來提供該等單元。
各種實例已予以描述。此等及其他實例係在隨附申請專利範圍之範疇內。
5:麥克風
10:系統
11:音訊資料
12:源裝置
13:揚聲器資訊
14:內容消費者裝置
15:音訊資料
16:音訊播放系統
21:位元串流
22:呈現器
24:音訊解碼裝置
25:輸出揚聲器饋入
26:LFE呈現器單元
26A:LFE呈現器單元
26B:LFE呈現器單元
27:LFE揚聲器饋入
103:顯示器
105:整合揚聲器
110:空間化LFE分析器
111:空間特性
112:距離量測單元
114:低通濾波器
116:低音活性偵測單元
118:呈現單元
120:動態範圍控制單元
200:步驟
202:步驟
204:步驟
300:內容捕獲裝置
301:內容
302:聲場表示產生器
303:經編輯內容
304:內容編輯裝置
305:後設資料
412:處理器
414:圖形處理單元
416:系統記憶體
418:顯示處理器
420:使用者介面
422:收發器模組
圖1為說明可執行本發明中所描述之技術之各種態樣的實例系統的方塊圖。
圖2為更詳細地說明圖1之實例中所展示之LFE呈現器單元的方塊圖。
圖3為更詳細地說明圖1中所展示之LFE呈現器單元之另一實例的方塊圖。
圖4為說明圖1至圖3中所展示之LFE呈現器單元在執行低頻率效應呈現技術之各種態樣時之實例操作的流程圖。
圖5為說明圖1之實例中所展示之內容消費者裝置14之實例分量的方塊圖。
200:步驟
202:步驟
204:步驟
Claims (30)
- 一種裝置,其包含: 一記憶體,其經組態以儲存表示一聲場之音訊資料;及 一或多個處理器,其經組態以: 分析該音訊資料以識別該聲場之低頻率效應分量之空間特性; 基於該等空間特性,處理該音訊資料以呈現一低頻率效應揚聲器饋入;及 將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
- 如請求項1之裝置,其中該裝置耦接至該有低頻率效應能力的揚聲器,該有低頻率效應能力的揚聲器經組態以基於該低頻率效應揚聲器饋入再現該聲場之一低頻率效應分量。
- 如請求項1之裝置,其中該一或多個處理器經組態以: 基於該音訊資料,產生反映該聲場內之聲音能量位準之一球形熱圖;及 基於該球形熱圖,識別該聲場之該等低頻率效應分量之該等空間特性。
- 如請求項1之裝置,其中該等空間特性包括該等低頻率效應分量在該聲場內起源之一或多個方向。
- 如請求項1之裝置, 其中該音訊資料包含具有複數個音訊通道之基於通道的音訊資料, 其中該複數個音訊通道中之每一音訊通道與該聲場內之一不同位置相關聯,及 其中該一或多個處理器經組態以: 基於該等空間特性,將一第一加權應用於該複數個音訊通道中之一第一音訊通道,以獲得一第一加權音訊通道,該第一加權不同於應用於該複數個音訊通道中之一第二音訊通道的一第二加權; 將該第一加權音訊通道與藉由將該第二加權應用於該第二音訊通道而獲得的一第二加權音訊通道混合,以獲得一混合音訊通道;及 基於該混合音訊通道,判定該有低頻率效應能力的揚聲器饋入。
- 如請求項1之裝置, 其中該音訊資料包含基於對象之音訊資料,該基於對象之音訊資料包括一音訊對象及指示該等音訊對象在該聲場中之起源位置的後設資料,及 其中該一或多個處理器經組態以: 自該基於對象之音訊資料擷取該後設資料;及 基於該後設資料,識別該等空間特性。
- 如請求項1之裝置, 其中該音訊資料包含基於對象之音訊資料,該基於對象之音訊資料定義複數個音訊對象,及 其中該一或多個處理器經組態以: 將該複數個音訊對象中之每一者自一空間域變換成一球諧域,以獲得高階立體混響係數之對應集合; 將高階立體混響係數之該等對應集合中之每一者混合至高階立體混響係數之一單個集合中;及 分析高階立體混響係數之該單個集合以識別該等空間特性。
- 如請求項1之裝置, 其中該音訊資料包含基於場景之音訊資料,該基於場景之音訊資料包括高階立體混響係數,及 其中該一或多個處理器經組態以: 將該基於場景之音訊資料呈現至一或多個音訊通道;及 分析該一或多個音訊通道以識別該等空間特性。
- 如請求項8之裝置,其中該一或多個音訊通道圍繞表示該聲場的一球體平均地分佈。
- 如請求項1之裝置, 其中該裝置耦接至複數個有低頻率效應能力的揚聲器, 其中該低頻率效應揚聲器饋入為一第一低頻率效應揚聲器饋入,及 其中該一或多個處理器經組態以基於該等空間特性處理該音訊資料,以呈現該第一低頻率效應揚聲器饋入及一第二低頻率效應揚聲器饋入,該第一低頻率效應揚聲器饋入不同於該第二低頻率效應揚聲器饋入。
- 一種方法,其包含: 分析表示一聲場之音訊資料,以識別該聲場之低頻率效應分量之空間特性; 基於該等空間特性,處理該音訊資料以呈現一低頻率效應揚聲器饋入;及 將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
- 如請求項11之方法,其進一步包含基於該低頻率效應揚聲器饋入再現該聲場之一低頻率效應分量。
- 如請求項11之方法,其中分析該音訊資料包含: 基於該音訊資料,產生反映該聲場內之聲音能量位準之一球形熱圖;及 基於該球形熱圖,識別該聲場之該等低頻率效應分量之該等空間特性。
- 如請求項11之方法,其中該等空間特性包括該等低頻率效應分量在該聲場內起源之一或多個方向。
- 如請求項11之方法, 其中該音訊資料包含具有複數個音訊資料之通道之基於通道的音訊資料, 其中該複數個音訊通道中之每一音訊通道與該聲場內之一不同位置相關聯,及 其中處理該音訊資料包含: 基於該等空間特性,將一第一加權應用於該複數個音訊通道中之一第一音訊通道,以獲得一第一加權音訊通道,該第一加權不同於應用於該複數個音訊通道中之一第二音訊通道的一第二加權; 將該第一加權音訊通道與藉由將該第二加權應用於該第二音訊通道而獲得的一第二加權音訊通道混合,以獲得一混合音訊通道;及 基於該混合音訊通道,判定該有低頻率效應能力的揚聲器饋入。
- 如請求項11之方法, 其中該音訊資料包含基於對象之音訊資料,該基於對象之音訊資料包括一音訊對象及指示該等音訊對象在該聲場中之起源位置的後設資料,及 其中分析該音訊資料包含: 自該基於對象之音訊資料擷取該後設資料;及 基於該後設資料,識別該等空間特性。
- 如請求項11之方法, 其中該音訊資料包含基於對象之音訊資料,該基於對象之音訊資料定義複數個音訊對象,及 其中分析該音訊資料包含: 將該複數個音訊對象中之每一者自一空間域變換成一球諧域,以獲得高階立體混響係數之一對應集合; 將高階立體混響係數之該等對應集合中之每一者混合至高階立體混響係數之一單個集合中;及 分析高階立體混響係數之該單個集合以識別該等空間特性。
- 如請求項11之方法, 其中該音訊資料包含基於場景之音訊資料,該基於場景之音訊資料包括高階立體混響係數,及 其中分析該音訊資料包含: 將該基於場景之音訊資料呈現至一或多個音訊通道;及 分析該一或多個音訊通道以識別該等空間特性。
- 如請求項18之方法,其中該一或多個音訊通道圍繞表示該聲場的一球體平均地分佈。
- 如請求項11之方法, 其中該低頻率效應揚聲器饋入為一第一低頻率效應揚聲器饋入,及 其中處理該音訊資料包含基於該等空間特性處理該音訊資料,以呈現該第一低頻率效應揚聲器饋入及一第二低頻率效應揚聲器饋入,該第一低頻率效應揚聲器饋入不同於該第二低頻率效應揚聲器饋入。
- 一種裝置,其包含: 用於分析表示一聲場之音訊資料以識別該聲場之低頻率效應分量之空間特性之構件; 用於基於該等空間特性處理該音訊資料以呈現一低頻率效應揚聲器饋入之構件;及 用於將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器之構件。
- 如請求項21之裝置,其進一步包含用於基於該低頻率效應揚聲器饋入再現該聲場之一低頻率效應分量之構件。
- 如請求項21之裝置,其中用於分析該音訊資料之該構件包含: 用於基於該音訊資料產生反映該聲場內之聲音能量位準之一球形熱圖之構件;及 用於基於該球形熱圖識別該聲場之該等低頻率效應分量之該等空間特性之構件。
- 如請求項21之裝置, 其中該音訊資料包含具有複數個音訊資料之通道之基於通道的音訊資料, 其中該複數個音訊通道中之每一音訊通道與該聲場內之一不同位置相關聯,及 其中用於處理該音訊資料之該構件包含: 用於基於該等空間特性將一第一加權應用於該複數個音訊通道中之一第一音訊通道以獲得一第一加權音訊通道之構件,該第一加權不同於應用於該複數個音訊通道中之一第二音訊通道的一第二加權; 用於將該第一加權音訊通道與藉由將該第二加權應用於該第二音訊通道而獲得的一第二加權音訊通道混合以獲得一混合音訊通道之構件;及 用於基於該混合音訊通道判定該有低頻率效應能力的揚聲器饋入之構件。
- 如請求項21之裝置, 其中該音訊資料包含基於對象之音訊資料,該基於對象之音訊資料包括一音訊對象及指示該等音訊對象在該聲場中之起源位置的後設資料,及 其中用於分析該音訊資料之該構件包含: 用於自該基於對象之音訊資料擷取該後設資料之構件;及 用於基於該後設資料識別該等空間特性之構件。
- 如請求項21之裝置, 其中該音訊資料包含基於對象之音訊資料,該基於對象之音訊資料定義複數個音訊對象,及 其中用於分析該音訊資料之該構件包含: 用於將該複數個音訊對象中之每一者自一空間域變換成一球諧域以獲得高階立體混響係數之一對應集合之構件; 用於將高階立體混響係數之該等對應集合中之每一者混合至高階立體混響係數之一單個集合中之構件;及 用於分析高階立體混響係數之該單個集合以識別該等空間特性之構件。
- 如請求項21之裝置, 其中該音訊資料包含基於場景之音訊資料,該基於場景之音訊資料包括高階立體混響係數,及 其中用於分析該音訊資料之該構件包含: 用於將該基於場景之音訊資料呈現至一或多個音訊通道之構件;及 用於分析該一或多個音訊通道以識別該等空間特性之構件。
- 如請求項27之裝置,其中該一或多個音訊通道圍繞表示該聲場的一球體平均地分佈。
- 如請求項21之裝置, 其中該低頻率效應揚聲器饋入為一第一低頻率效應揚聲器饋入,及 其中用於處理該音訊資料之該構件包含用於基於該等空間特性處理該音訊資料以呈現該第一低頻率效應揚聲器饋入及一第二低頻率效應揚聲器饋入之構件,該第一低頻率效應揚聲器饋入不同於該第二低頻率效應揚聲器饋入。
- 一種具有儲存於其上之指令之非暫時性電腦可讀儲存媒體,該等指令在經執行時使得一裝置之一或多個處理器: 分析表示一聲場之音訊資料,以識別該聲場之低頻率效應分量之空間特性; 基於該等空間特性,處理該音訊資料以呈現一低頻率效應揚聲器饋入;及 將該低頻率效應揚聲器饋入輸出至一有低頻率效應能力的揚聲器。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GR20190100269 | 2019-06-20 | ||
GR20190100269 | 2019-06-20 | ||
US16/714,468 | 2019-12-13 | ||
US16/714,468 US11122386B2 (en) | 2019-06-20 | 2019-12-13 | Audio rendering for low frequency effects |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202105164A true TW202105164A (zh) | 2021-02-01 |
Family
ID=74039515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109120730A TW202105164A (zh) | 2019-06-20 | 2020-06-19 | 用於低頻率效應之音訊呈現 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11122386B2 (zh) |
TW (1) | TW202105164A (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10904687B1 (en) * | 2020-03-27 | 2021-01-26 | Spatialx Inc. | Audio effectiveness heatmap |
US11659330B2 (en) * | 2021-04-13 | 2023-05-23 | Spatialx Inc. | Adaptive structured rendering of audio channels |
US11950089B2 (en) | 2021-07-29 | 2024-04-02 | Samsung Electronics Co., Ltd. | Perceptual bass extension with loudness management and artificial intelligence (AI) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2374123B1 (fr) | 2008-12-15 | 2019-04-10 | Orange | Codage perfectionne de signaux audionumeriques multicanaux |
US9913064B2 (en) * | 2013-02-07 | 2018-03-06 | Qualcomm Incorporated | Mapping virtual speakers to physical speakers |
US20160066118A1 (en) * | 2013-04-15 | 2016-03-03 | Intellectual Discovery Co., Ltd. | Audio signal processing method using generating virtual object |
US9466305B2 (en) * | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US20150264483A1 (en) | 2014-03-14 | 2015-09-17 | Qualcomm Incorporated | Low frequency rendering of higher-order ambisonic audio data |
US10412522B2 (en) * | 2014-03-21 | 2019-09-10 | Qualcomm Incorporated | Inserting audio channels into descriptions of soundfields |
WO2015147434A1 (ko) | 2014-03-25 | 2015-10-01 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 장치 및 방법 |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
-
2019
- 2019-12-13 US US16/714,468 patent/US11122386B2/en active Active
-
2020
- 2020-06-19 TW TW109120730A patent/TW202105164A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US11122386B2 (en) | 2021-09-14 |
US20200404446A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6676801B2 (ja) | マルチチャンネル音声コンテンツを表すビットストリームを生成する方法、およびデバイス | |
TWI611706B (zh) | 將虛擬揚聲器映射至實體揚聲器 | |
US20200260210A1 (en) | Audio parallax for virtual reality, augmented reality, and mixed reality | |
JP6062544B2 (ja) | 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
WO2013181272A2 (en) | Object-based audio system using vector base amplitude panning | |
TWI713017B (zh) | 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體 | |
TW202105164A (zh) | 用於低頻率效應之音訊呈現 | |
CN114128312B (zh) | 用于低频效果的音频渲染 | |
US9466302B2 (en) | Coding of spherical harmonic coefficients | |
US11967329B2 (en) | Signaling for rendering tools | |
WO2022262758A1 (zh) | 音频渲染系统、方法和电子设备 | |
WO2022262750A1 (zh) | 音频渲染系统、方法和电子设备 | |
US20240129681A1 (en) | Scaling audio sources in extended reality systems |