TW201442522A - 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 - Google Patents
屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 Download PDFInfo
- Publication number
- TW201442522A TW201442522A TW103110577A TW103110577A TW201442522A TW 201442522 A TW201442522 A TW 201442522A TW 103110577 A TW103110577 A TW 103110577A TW 103110577 A TW103110577 A TW 103110577A TW 201442522 A TW201442522 A TW 201442522A
- Authority
- TW
- Taiwan
- Prior art keywords
- order
- signal
- fidelity stereo
- coefficient
- format
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 50
- 230000000694 effects Effects 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 15
- 238000009792 diffusion process Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000001568 sexual effect Effects 0.000 claims 1
- 230000004807 localization Effects 0.000 abstract description 3
- 230000019771 cognition Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 13
- 238000010606 normalization Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 230000003321 amplification Effects 0.000 description 7
- 239000002131 composite material Substances 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 4
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/156—Correlation function computation including computation of convolution operations using a domain transform, e.g. Fourier transform, polynomial transform, number theoretic transform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Stereophonic Arrangements (AREA)
Abstract
從提供第1階保真立體音響訊號(所謂B格式訊號)之微音器記錄,可供有限度辨認聲音指向性。感受到的聲源比實際為廣,尤其是離開中心的傾聽位置,而聲源往往位在來自最近的揚聲器位置。在增進第1階保真立體音響訊號之方法和裝置中,從較低階保真立體音響輸入訊號(10),獲取(SFA)額外指向性資訊(22,23)。額外指向性資訊用來估計較高階保真立體音響係數(25a),再與輸入訊號係數合併(CS)。因此,增進保真立體音響訊號之指向性,以致保真立體音響訊號解碼成揚聲器訊號時,提高空間源局部化之準確性。所得輸出訊號具有比輸入訊號更大能量。
Description
本發明係關於保真立體音響聲訊訊號處理和音響學之領域。
保真立體音響是依據聲音壓力記載聲訊場景的技術、處理記錄、製作、傳輸、回放複合聲訊場景,具有優異空間解像度,2D和3D兼用。在保真立體音響中,空間聲訊場景是以Fourier-Bessel系列的係數說明。已知微音器陣列,提供第1階保真立體音響訊號,即所謂B格式訊號。然而,把第1階保真立體音響訊號解碼、描繪於2D周圍或3D之揚聲器配置,只能提供有限度辨識聲音指向性。聲源的感受往往比實際寬廣。尤其是離中心的傾聽位置,聲源常被定位為來自最近的揚聲器位置,而非在揚聲器間之所欲虛擬位置。第1階保真立體音響(B格式)訊號,是由Fourier-Bessel系列說明聲壓的四個係數(形成3D聲場表示法)所構成。即W通道(單混合,或第0階)和X,Y,Z通道(第1階)。較高階訊號使用較多係數,當係數解碼成揚聲器訊號時,可提高空間源局部化之準確性。然而,此等較高階訊號並未包含在微音器陣列提供之B格式訊號內。
指向性聲訊寫碼(DirAC)為已知技術[註5,註9],以表示或複製聲訊訊號。使用B格式解碼器,把直達聲從擴散聲分開,再使用向量基礎的振幅泛移(VBAP),供選擇性放大頻率域內之直達聲,而在合成過濾後,最後在其輸出提供揚聲器訊號。
第1a圖表示DirAC基礎的B格式解碼之結構。B格式訊號10是時間域訊號,在分析過濾器庫AFBD內過濾成K頻帶11。聲場分析區塊SFAD估計擴散估計值Ψ(f k )和到達方向(DoA)12。DoA是在頻帶k特別中間頻率時,方向對聲源之方向角和傾角θ(f k )。第1階保真立體音響解碼器AmbD,把保真立體音響訊號描繪到L揚聲器訊號14。直達擴散
分離區塊DDS,使用從擴散性估計13所決定之過濾器,把第1階保真立體音響訊號,分開成L直達聲訊號15和L擴散聲訊號16。L擴散聲訊號16是由解碼器AmbD的輸出14乘以由擴散性估計13所得導出。指向性訊號是乘以導出。直達聲訊號15使用稱為向量基礎振幅泛移(VBAP)之技術,進一步處理[註8]。在VBAP單位VP內,按照DoA 12和揚聲器位置,乘以各揚聲器訊號(在各頻帶內)之增益值,以泛移直達聲至所需方向。擴散訊號16利用解相關過濾DF解相關,而解相關擴散訊號17,添加到從VPAB單位VP所得直達聲訊號。合成過濾器庫SFBD把頻帶組合到時間域訊號19,後者可利用L揚聲器重製。應用時間整合用的平滑過濾器(第1圖內未示),來計算擴散性估計Ψ(f)13,並平滑VBAP導出之增益值。
第1b圖表示聲場分析區塊SFAD之細部。B格式訊號表示在原點(觀察點,r=0)的頻率域內之聲場。聲音強度說明聲場內動態和潛能之輸送。在聲場內,並非聲能的所有局部運動,都相當於淨輸送。活性強度Ia(時間平均化音響強度,DoA~Ia),是指向性淨能輸送對三個笛卡幾(Cartesian)方向每單位時間之比率。B格式訊號11之活性強度11a,是在活性強度分析區塊AIAD內獲得,並提供給擴散性分析區塊DABD和DoA分析區塊DOAABD,分別輸出DoA 12和擴散性估計13。關於DirAC詳見[註9],基本理論載於[註5]。
亟需增進第1階保真立體音響訊號之指向性,諸如B格式微音器記錄。此等指向性增進為更具現實性重播所需,或是供真實記錄聲與其他較高階內容混合,例如供電影配音,旨在為不同的揚聲器設置重播。本發明要解決的一個問題是,增進第1階保真立體音響訊號或B格式訊號之指向性,即使此等訊號不可能用較高階係數。
按照本發明,此問題及其他問題可解決,藉選擇性放大直達聲成份,同時擴散聲成份不變。選擇性放大直達聲時,有利於獲得提高位階之保真立體音響格式化訊號,因為容易與其他保真立體音響格式化訊號混合。藉本發明即可提高第1階保真立體音響訊號之位階,因而只考慮指向性聲音成份。如此又造成保真立體音響格式化訊號,但較高階(即至少
第2階)。原則上,所揭示增進第1階保真立體音響訊號指向性之方法,是從第1階係數資訊衍生較高階係數,並把此衍生之較高階係數加到保真立體音響訊號。因此,有益於維持(除非在一具體例中之再格式化)第1階保真立體音響訊號之第1階係數資訊(即第0階和第1階係數)。
換言之,從較低階保真立體音響訊號獲取額外指向性資訊,而額外指向性資訊用來估計較高階係數。以此方式,即可增進保真立體音響訊號之指向性,當保真立體音響訊號解碼至揚聲器訊號時,導致提高空間聲源局部化之準確性。本發明之一效果是,所得輸出訊號較輸入訊號更大能量。
本發明如申請專利範圍第1項所界定,係關於第1階保真立體音響訊號且具有第0階或第1階係數的輸入訊號指向性之增進方法。
本發明又如申請專利範圍第9項所界定,係關於具有第0階和第1階係數的第1階保真立體音響訊號指向性之增進裝置。
再者,本發明關係電腦可讀式儲存媒體,其上儲存有電腦可讀式指令,在電腦上執行時,造成電腦執行如申請專利範圍第1項所界定具有第0階和第1階係數的第1階保真立體音響訊號指向性之增進方法。
須知任何指定位階的保真立體音響,所包含不但是指定位階之係數,還有全部較低位階之係數,即使未明指。例如,第2階HOA訊號不但含有第2階,而且包含第0階和第1階。
本發明有益之具體例,揭示於所附申請專利範圍、以下說明和附圖。
10‧‧‧時間域第1階保真立體音響輸入訊號
20‧‧‧直達聲分離器單位分離直達聲
21,21’‧‧‧四個頻率域通道
22‧‧‧聲源方向
23‧‧‧擴散性估計
24‧‧‧選擇性放大直達聲
25‧‧‧保真立體音響訊號界定部份
25a‧‧‧保真立體音響訊號選定部份
26‧‧‧合成時間域訊號
28‧‧‧時間域保真立體音響訊號
29‧‧‧時間域輸出訊號
30‧‧‧保真立體音響輸入訊號
31‧‧‧保真立體音響訊號
37‧‧‧訊號
60‧‧‧指向性之增進方向
s1‧‧‧過濾步驟
s2‧‧‧進行步驟
s3‧‧‧選擇和過濾步驟
s4‧‧‧編碼步驟
s5‧‧‧選定步驟
s6‧‧‧組合步驟
第1a圖為已知DirAC基礎的B格式解碼器之結構;第1b圖為已知聲場分析區塊之一般結構;第2圖為本發明一般具體例裝置之結構;第3圖為使用在時間域內組合的具體例裝置之結構;第4圖為使用在頻率域內組合的第一具體例裝置之結構;第5圖為使用在頻率域內組合的第二具體例裝置之結構;第6圖為本發明方法之流程圖;
第7圖為組合步驟之細部流程圖。
第2圖表示本發明概括具體例之裝置結構。時間域第1階保真立體音響輸入訊號10(諸如B格式訊號),在分析過濾器庫AFB內過濾,其中獲得四個頻率域通道21。輸入訊號10有頻率域表示法:頻率域通道之一表示第0階係數(即W通道),而另三個頻率域通道表示第1階係數(X,Y,Z通道)。
直達聲分離器單位DSS從擴散聲分離出四個頻率域通道21內之直達聲(即指向性聲音)20。在一具體例中,直達聲分離器單位DSS單純選擇W通道,用做直達聲20。再者,聲場分析單位SFA進行四個頻率域通道之聲場分析,為頻率通道之每一頻帶,得聲源方向θ,ψ22和擴散性估計Ψ 23。在一具體例中,聲場分析單位SFA包含到達方向(DoA)分析單位,以獲得方向資訊22。
直達聲分離器DSS所得直達聲20,再於過濾器F內過濾,於是擴散成份被阻尼,因此,指向性聲音受到選擇性(相對性)放大。過濾器F使用擴散性估計Ψ 23,供選擇性放大;原則上,把直達聲20乘以,而得選擇性放大之直達聲24。選擇性放大之直達聲24再於HOA編碼器HOAe內,以保真立體音響編碼,其中得預定位階N0之HOA訊號25(N0>1,即至少第2階)。HOA編碼器HOAe使用聲源方向θ,ψ22供編碼。可以使用保真立體音響格式,按照B格式,具有第0階和第1階係數。亦可改用不同的保真立體音響格式。不同的保真立體音響通常具有與B格式之順序不同之界定係數順序,或與B格式之係數標度不同之係數標度。
選擇器SEL選擇HOA訊號25界定部份,而選定部份25a再於組合器和合成單位CS內,與原有B格式訊號組合。選定部份25a是HOA訊號25之較高階部份,即至少第2階之部份(在一具體例內為係數)。組合器和合成單位CS,在其輸出提供時間域訊號29(呈HOA格式),可用來描繪揚聲器訊號。組合器和合成單位CS含有合成過濾器SF,以過濾保真立體音響格式化訊號,而得時間域訊號。
第2圖也表示視情形附加之混合器單位MX,所得HOA輸
出訊號在其中可與較高階之另一HOA輸入訊號30混合。其他HOA輸入訊號30亦可具有與輸入訊號10不同之保真立體音響格式,因下述HOA格式適配器HFA之故。混合器MX產生HOA訊號31,包含所得HOA輸出訊號29(即增進B格式輸入訊號)和HOA輸入訊號30之混合物。
以下說明組合器和合成單位CS之二基本型具體例:在其一型具體例中,組合器和合成單位CS在時間域內組合選定部份25a與原先B格式訊號10。所以,只有選定部份25a進行合成於時間域內。在另一型具體例中,組合器和合成單位CS在頻率域內組合選定部份25a和原先B格式訊號10,往後進行合成於時間域內。
第3圖表示第一型具體例。在此具體例中,組合器和合成單位CS只把HOA訊號25的選定較高階係數25a,在合成過濾器庫SFB內合成,得合成時間域訊號26。時間域組合器單位CBt把合成時間域訊號26與時間域內之輸入訊號組合,得時間域輸出訊號29。在一具體例中,時間域HOA格式適配器單位HFA,按照HOA編碼器與HOAe使用格式,適配時間域輸入訊號之格式。此舉把所得時間域HOA訊號28與合成時間域訊號26,在時間域組合器單位CBt內之組合簡化。在某些具體例內,例如HOA編碼器HOAe使用與HOA輸入訊號相容之格式,即不需HOA格式適配器單位HFAt。HOA格式適配器單位HFAt可重新配置和/或重新標度HOA訊號之係數。
分析過濾器庫AFB例如藉進行FFT(快速傅立葉轉換),得不同的頻帶。此舉產生延時。在一具體例中,時間域輸入訊號之延時補償單位DC,會補償過濾器庫延時,例如分析過濾器庫AFB、選擇性放大過濾器F等。雖然在圖示具體例中,延時補償是在HOA格式適配HFA之前處理,但在另一具體例中,亦可安排在HOA格式適配之後。在又一具體例中,延時補償分二步驟進行,一延時補償單位在格式適配之前,另一在之後。
第4和5圖所示具體例使用第二型組合器和合成單位CS。在此具體例中,組合器和合成單位CS接收輸入訊號頻率域第0階和第1階保真立體音響係數,一如分析過濾器庫所得。此可為分開之分析過濾器庫AFB’,如第4圖所示具體例,亦可為前述分析過濾器庫AFB,如第5圖所示具體例。在後一情況中,分析過濾器庫AFB提供之四個頻率域通道21,
直接輸入於組合器和合成單位CS。頻率域組合器單位CBf,把HOA訊號25之選定較高階係數25a與頻率域內輸入訊號之第0階和第1階保真立體音響係數加以組合。合成過濾器庫SFB’合成組合之保真立體音響係數,其中獲得時間域輸出訊號29。在一具體例中,對輸入訊號的第0階和第1階保真立體音響係數,進行視情況之頻率域HOA格式適配HFAf,然後再與HOA訊號25的選定較高階係數組合。HOA格式適配器單位HFAf可重新配置和/或重新標度HOA訊號之係數。如上所述,在某些具體例中可不需HOA格式適配器單位HFAf。又,也是如上所述,在處理鏈(例如選擇性放大過濾器F、HOA編碼器HOAe)內可能插入任何延時之一具體例內,可用延時補償(圖上未示)。惟通常是不需要,因為由分析過濾器庫AFB,AFB’插入之延時,不需補償。
時間域組合器CBt是在時間域內操作之組合器,而頻率域組合器CBf是在頻率域內操作之組合器。二型組合器把選定部份25a之所得係數,加到輸入訊號10(可能重定格式)之係數。
一般而言,具有第0階和第1階係數的第1階保真立體音響時間域訊號指向性之增進裝置,包含分析過濾器庫AFB,可供過濾第1階保真立體音響訊號,其中得四個頻率通道21,係第1階保真立體音響訊號之頻率域表示,且其中頻率域通道之一個頻率域通道20表示第0階係數,而另三個頻率域通道表示第1階係數;聲場分析單位SFA,供進行四個頻率域通道之聲場分析,因而獲得聲源方向θ,ψ22和擴散性估計Ψ 23;選擇性放大過濾器F,供過濾具有第0階係數之頻率域通道20,其中使用擴散性估計Ψ 23,且其中獲得直達聲成份24;高階保真立體音響編碼器HOAe,以至少二預定位階,編碼直達聲成份24,呈保真立體音響格式,其中使用該聲源方向θ,ψ22,且其中使用預定位階的保真立體音響格式之編碼直達聲25,呈保真立體音響格式之編碼直達聲,具有至少第0階、第1階和第2階之保真立體音響係數;選擇器SEL,從預定位階的保真立體音響格式內所得編碼直達聲25,選擇至少第2階之保真立體音響係數25a;
組合器和合成單位CS,把編碼直達聲25a的至少第2階所選擇保真立體音響係數,與第1階保真立體音響輸入訊號10之保真立體音響係數加以組合,其中獲得至少第2階29保真立體音響訊號之時間域表示。須知所選擇至少第2階之保真立體音響係數25a,不含第0階或第1階係數。亦即選擇器SEL省略較低階係數。
在一具體例中,本發明係關於第1階保真立體音響訊號10(即僅具有第0階和第1階係數之保真立體音響訊號)指向性之增進方法。一般而言,此方法包括步驟為,在聲場分析單位SFA內,從第1階保真立體音響訊號發生擴散性估計Ψ 23和方向資訊θ,ψ22;從第1階保真立體音響訊號分離和選擇性放大直達聲24,其中選擇性放大用之過濾器F使用擴散性估計Ψ 23;在HOA編碼器HOAe內,編碼選擇性放大之直達聲24,其中使用方向資訊θ,ψ22,而得至少第2階之HOA訊號25;選擇HOA訊號25之較高階部份,其中所選擇較高階部份只包含比第1階更高階之係數(即不包含第0階係數,也不包含第1階係數);並將HOA訊號25所選擇較高階係數,在組合器和合成單位CS內,與輸入第1階保真立體音響訊號組合,其中獲得較高階保真立體音響訊號(即至少第2階之保真立體音響訊號)之時間域表示29。
在一具體例中,HOA訊號25所選定較高階係數與輸入第1階保真立體音響訊號10之組合步驟,包含從分析過濾器庫AFB,接收輸入訊號之頻率域第0階和第1階保真立體音響係數;把HOA訊號25所選定較高階(即第2階或以上)係數25a,與頻率域內輸入訊號的第0階和第1階保真立體音響係數組合;在合成過濾器庫SFB內合成組合保真立體音響係數,而得時間域輸出訊號29。
在一具體例中,此方法又包含步驟為,對輸入訊號的第0階和第1階保真立體音響係數,進行頻率域HOA格式適應HFAf,再與HOA訊號25所選定較高階係數組合。
在另一具體例中,HOA訊號25所選定較高階係數25a,與輸入第1階保真立體音響訊號10之組合步驟,包含在合成過濾器庫SFB內,只合成HOA訊號25所選定較高階係數25a,獲得合成之時間域訊號26;把所得合成時間域訊號與時間域內之輸入訊號組合,得時間域輸出訊
號29。在一具體例中,是在組合之前,進行時間域輸入訊號的時間域HOA格式適應HFAt。在又一具體例中,是在組合步驟之前,進行時間域輸入訊號之延時補償DC,以補償過濾器庫延時。
獲得較高階係數的方法是,在分析過濾器庫AFB內,過濾第1階保真立體音響輸入訊號10,進行所過濾訊號之到達方向(DoA)分析,因而獲得擴散性估計Ψ 23和方向ψ,θ22;使用擴散性估計Ψ 23,過濾W通道(第0階係數),因而把直達聲S(f)20分離;在較高階保真立體音響編碼器HOAe內,編碼保真立體音響格式內之直達聲S(f)20。由所得HOA訊號25,只用到較高階係數,與輸入訊號之較低階係數組合,並且從結果,合成保真立體音響輸出訊號29。
一般而言,HOA訊號25所選定較高階係數25a與輸入第1階保真立體音響訊號10之組合步驟,包含添加其個別係數,即輸出訊號29包含輸入訊號10之全部係數,和附加係數,即選定部份25a之較高階係數。
第6圖表示本發明一具體例之方法流程圖。輸入訊號10(具有第0階和第1階係數之第1階保真立體音響訊號)指向性之增進方向60,包含步驟為:過濾s1輸入訊號,其中獲得四個頻率域通道21,其中之一係保真立體音響W通道20;進行s2四個頻率域通道21之聲場分析SFA,因而獲得聲源方向22和擴散性估計23;選擇和過濾s3頻率域保真立體音響W通道20,其中使用擴散性估計23,且其中得輸入訊號10之直達聲成份24;在較高階保真立體音響編碼器HOAe內,以預定位階No以保真立體音響格式編碼s4直達聲成份24,其中使用該聲源方向22,且其中獲得預定位階No保真立體音響格式之編碼直達聲25;從所得保真立體音響格式25之編碼直達聲,選定s5界定部份25a,含至少第2階(即第2階或更高階,不計較低階)之保真立體音響係數;把表示編碼直達聲25a選定部份至少第2階保真立體音響係數之訊號,與表示輸入訊號10之訊號加以組合s6,其中獲得至少第2階保真立體音響訊號29。
在過濾步驟s1中所獲得四個頻率域通道21,是第1階保真立體音響訊號之頻率域表示,其中頻率域通道21之第一個頻率域通道(W通道)20表示第0階係數,而其餘三個頻率域通道21(X,Y,Z通道)表示第1階係數。
在編碼步驟s4中,較高階保真立體音響編碼器HOAe,使用該聲源方向ψ,θ22,以預定位階No之保真立體音響格式,編碼直達聲成份24,其中預定位階No至少二,而預定位階保真立體音響格式之編碼直達聲,具有至少第2階之保真立體音響係數。
第7a圖表示之具體例中,組合步驟s6使用四個頻率域通道21,做為輸入訊號10之表示(相當於第4和5圖所示裝置)。包含步驟為,在頻率域組合器單位CBf內,把利用頻率域通道21,21’,28表示的第1階保真立體音響訊號10之保真立體音響係數,與至少第2階的增進較高階保真立體音響訊號之選定頻率係數25a,加以組合s61,其中獲得訊號37,係至少第2階保真立體音響訊號之頻率域表示,而具有比第1階保真立體音響輸入訊號10增進指向性,並在合成過濾器庫SFB’內過濾s64所得訊號37,其中獲得增進較高階保真立體音響訊號之時間域表示,具有至少第2階係數。
第7b圖表示之具體例中,組合步驟s6使用輸入訊號10之時間域係數(相當於第3圖所示裝置)。包含步驟為,在合成過濾器庫SFB內,從編碼之直達聲25,提供s62至少第2階之選定保真立體音響係數25a,其中獲得增進較高階保真立體音響訊號26之時間域表示;以及在時間域組合器CBt內,把第1階保真立體音響訊號10之保真立體音響係數(或寧願是表示第1階保真立體音響訊號10的保真立體音響係數之係數,因為可適配實際HOA格式),與至少第2階的該增進較高階保真立體音響訊號26之時間域表示,加以組合s65,其中獲得至少第2階保真立體音響訊號29之時間域表示,具有比第1階保真立體音響訊號10增進之指向性。
下述提供關於保真立體音響之更詳細說明。在保真立體音響理論中,空間聲訊場景是由Fourier-Bessel系列的係數說明。就無聲源之容量言,在觀察位置(γ,θ,ψ)之聲壓,是以其空間座標(半徑γ,傾角
θ,方位角ψ)及空間頻率為函數說明,如下式:
其中為保真立體音響係數;j n (kr)為說明徑向依賴性之第一種Spherical-Bessel函數;為球諧函數(SH),實際上具有真值。此係角位依賴性之肇因,n為保真立體音響位階指數,m為度數。由於Bessel函數的性質,只有小kr的有效值,加法系列可以充分準確性在某些位階n=N平截;對於理論上完美重建N→∞。進一步資料和細節可參閱註[11],[6],[7],[3],[13]。保真立體音響係數形成保真立體音響訊號;具有聲壓之物理單位(1Pa),隨時間變異。訊號可視保真立體音響記錄之單版本。保真立體音響係數之實值,可由SH定義決定,更正確說是其常態化計劃。式(1)內係數之數,對2D表示法指定O=2N+1,而3D表示法是O=(N+1)2。
實務上,保真立體音響使用真值球諧函數(SH)。定義如下述,因為對SH有不同的表述和常態化計劃種類,影響編碼和解碼操作,即保真立體音響係數之數值。真值SH可使用無符號述式表述如下:
其中為常態化因數(見表1),相當於和間之正交關係,即
其Kronecker δ a,a'在a=a'時,等於1,其餘為0。以下使用正交常態化計劃。P n,|m|是關聯Legendre函數,說明傾角cos(θ)的依賴性。,P n,|m|可用式(3)之Rodrigues方程式表達(即此處所提全部定義不用Condon-Shortley相位,其為真值變數之補償,會產生含混),但為實施之計算,有更具成效的方法存在。
對方位角部份Φ之依賴性如下:
表1表示保真立體音響δ 0,m 內所用普通常態化計劃為m=0時取值為1,其餘為0。即習用SN3D,N3D取自[註3]。
由SoundFieldTM所記錄訊號,像微音器,是使用B格式表示。技術載於[註2]。有四個B格式訊號:W訊號帶有與全向微音器所記錄聲壓呈比例之訊號,但以因數標度。X,Y,Z訊號攜帶訊號,與三個笛卡幾(Cartesian)方向內之壓力梯度呈比例。四個B格式係數W,X,Y,Z與第1階HOA係數相關,使用N3D常態化計劃[註3][註4],係,,,,而關於HOA係數,使用SN3D常態化,係,,,。再者,B格式假設平面波編碼模式,在係數表示內省略因數i n 。
HOA訊號亦可利用平面波表示。平面波的聲壓由[註11]賦予如下:
對球諧函數使用N3D常態化計劃,嚴格言,會變成:
其中是座標系統原點在頻率f之聲壓。θ(f) s ,是至聲源(DoA)的方向(傾角,方位角),而*表示共軛複數。許多保真立體音響格式和系統,包含B格式和SoundFieldTM微音器系統,呈平面波編碼和解碼模式,而因數i n 則省略。則變成:
如前所述,第1b圖表示聲場分析區塊SFAD之構成區塊。原則上像本發明聲場分析區塊SFA,惟在此使用概括化時間/頻率考慮,得以使用隨意時窗,即聲場分析簡化成不同的時間常態化。此項概括化容許使用隨意複合過濾器庫。在此採取之另一概括化是,從平面波之疊置,組裝成活性聲場。所有聲場參數都是頻率的函數,可就過濾器庫頻帶k之
各中心頻率計算。f k 靠k之依賴性在以下說明中從略。
其次說明活性強度。
活性強度I a (f)按照下式界定(見[註5]):I a =Re{P(f)*U(f)} (8)
活性強度之單位是W/m2=N/(ms)。P(f)*是共軛複合聲壓(以帕斯卡Pascal為單位=1N/m2),而U(f)是質點速度,以m/s計,三個笛卡幾維度之一向量。Re{.}指真實部份。活性強度之其他表述使用1/2之附加因數,一如[註11],則導至方程式(13)之附加因數。B格式訊號W與聲壓訊號P(f)成比例,而訊號X(f)=[X(f),Y(f),Z(f)] T 與聲速U成比例:
其中ei是笛卡幾座標軸之單位向量,而eu是傳播平面波之單位向量方向。Z0是特性阻抗(聲速和空氣密度之乘積,Z0=ρ0c)。然則,活性強度I a 即可用B格式訊號表示(見[註5]):
其中因數表示B格式內W係數之標度;*指共軛複數。I a (f),X(f)是笛卡幾座標內頻率之向量函數。
其次說明到達方向。
活性強度之單位向量e i (f)=[e ix (f),e iy (f),e iz (f)] T 如下賦予:e i (f)=I a (f)/||I a (f)||。DoA之方位角以弧度計如下:
其中I ai (f)是I a (f)之笛卡幾成份,而atan2是四象限逆正切。立面角度θ(f)可由下式計算。
其次說明擴散性。
聲場的能量密度,即每單位容量之聲能(物理單位為N/m2=kg m/s2 1/m2),如[註5]所述:
其中∥U∥說明矩陣模方2,向量之歐幾里德長度。
就保真立體音響訊號言,第1階/B格式變成:
以下在記號內之頻率依賴性不變,以便利閱讀。
擴散性估計Ψ按[註5]界定:
是期待值算符,可使用時間平均法實施,利用加窗平均實現,或是利用IIR過濾器之第一階。Ψ表示聲場的非活性能量部份之貢獻。數值1說明完全擴散之聲場(無動能貢獻),而數值0是全活性聲場。使用B格式訊號,擴散性可表示為:
擴散性估計[註1]之另類實現,如下式:
其次說明平均過濾。
擴散性估計和DoA方向需要時間平均化。為求預期之近似值,平流過濾器輸出由[註12]界定:y(n,k)=(1-g)x(n,k)+g y(n-1,k) (18)
其中x(n,k)是輸入,y(n-1,k)是過濾器庫k內樣本(轉換區塊)延時輸出。過
濾器參數g為,其中f c 是次抽樣過濾器庫之樣本率。就50%疊
合窗之區塊基本的過濾器庫言,f c 變成,而躍程規模N hop 為此50
%疊合情況的窗規模之半。時間常數τ決定平均值之特性。當需要遵循輸入訊號快速變化時,適用小數值,對長期平均則適宜大數值。
有另類實現方式存在,例如(見[註10]):y(k,n)=a x(k,n)+(1-a)y(k,n-1) (19)
其中而。於此可見τ與f s 呈絕對關係。
適應性過濾器連同區塊依賴性變換參數cc和二時間常數τmax,τmin,可用於時間常數:
在大多數情況下,任何第一階保真立體音響記錄,會是B格式訊號。本發明方法為現有第1階保真立體音響記錄,導出較高階保真立體音響,同時維持第一階係數資訊。進行到達方向(DoA)分析,導出全頻
率最強方向。W通道表示全部這些訊號之單混合。W通道經過濾,全頻率除去擴散部份。因此,過濾後的W通道成為全頻率直達聲之值計。DoA方向用於所過濾W通道訊號之保真立體音響編碼,形成預指派保真立體音響位階之新HOA訊號N_order>1,對3D而言O=(N order +1)2,對2D實現言O=(2N order +1)。B格式記錄(即第1階訊號)之四個係數,必要時把格式轉變成和新保真立體音響訊號同樣的格式,並與新係數組合,形成輸出訊號。所得輸出HOA訊號係數是由0和1階成份的轉換後B格式係數,以及從較高階成份的新HOA係數編成。
處理或部份處理,應用於分析過濾器庫之過濾器庫頻率域。
一具體例使用FFT基礎之分析過濾器庫。對960個樣本,或另外對例如640個或512個樣本,應用50%疊合正弦窗。使用至左和右之零充墊,得1024樣本FFT長度。逆過濾器庫(合成過濾器庫)使用成窗和覆蓋添加,以恢復480(320,256)樣本之區塊。ISO/IEC 23003/2007/2010(MPEG Surround,SAOC)載有另類可用之過濾器庫,所用帶寬更佳匹配人員感受。使用FFT過濾器庫時,可將二或以上之過濾器庫組合,更佳適應人員感受,尤其是對高頻。在一具體例中,使用大約四分之一庫,具有一FFT過濾器頻帶之粒度,並使用活性強度和全組合頻帶的能量之平均值。在各種具體例中,使用聲場參數「活性強度」和/或「能量密度」,導出DoA角度和擴散性估計。
在一具體例中,對DoA方向和擴散性估計,使用方程式(18)之特殊平流過濾器,則擴散性估計之平流實施如下(頻帶依賴性省略以求簡要):
式(15)之擴散性估計為,列舉符之平流過濾器是使用三個成份的同樣時間常數,利用第一階IIR過濾器實現。又,過濾器具有以小τ min和大τ max時間常數為特徵之雙係數。時間常數間進行更換,視∥I a ∥和另一狀態計數cc而定,其中I a (n)是過濾器輸入,而是前次作業的過濾器輸出。
若cc==0且,使用大時間常數之係數τ max。
若,使用小時間常數為特徵之係數
τ min,而cc設定於cc max ,大於1(例如cc max =10)。
若cc>0且,則使用時間常數
,而cc隨後遞降(區塊處理),只要不等於
零。
是正的常數。能量E之平流是以類似方式進行,使用分開的過濾器,但同樣的適應性過濾器結構。其特徵為τ max,τ min和本身之cc狀態計數,使用|E(n)|,在大、小和間插的時間常數間變換。
Φ(f),θ(f)導衍自活性強度e i (f)=I a (f)/||I a (f)||,利用產生二複合訊號:a 1=e ix +i e iy (21)
其中和e ix ,e iy ,e iz 是活性強度的單位向量之笛卡幾成份。訊號使用a 1,a 2每次頻帶一適應性IIR第一階過濾器加以過濾,按照方程式(18):b 1(n)=(1-g(Ψ))a 1(n)+g(Ψ)b 1(n-1) (23)
對b 2(n)情況類似,使用a 2(n)和同樣過濾器參數g(Ψ),後者視擴散性Ψ而定。依賴性可為線性:g(Ψ)=(g max -g min )Ψ+g min ,其g min 接近零,而。
指向性訊號Φ,θ可從過濾器輸出計算如下:
上述參見第2-5圖所示具體例,以B格式情況言,為標記W,X,Y,Z的第1階係數,使用三個分析過濾器。在中心頻率為f k 的K頻帶內,使用上述適應性平流過濾器,進行擴散性估計分析。以B格式情況時,
W係數訊號乘以,而其他常態化第一階訊號,在各頻帶內則
乘以,以實戲訊號S。DoA方向用於頻帶內之保真立體音響編
碼訊號S,形成預指派保真立體音響位階之新HOA訊號N_order>1,就3D實現而言O=(N order +1)2,而就2D實現言O=(2N order +1)。O新保真立體音響訊號標記。在一具體例中,HOA編碼器使用N3d或正交常態化球諧函數,省略因數in。使用平面波編碼計劃:
其中B(f k )是各頻帶k之向量,中心f k 持有O保真立體音響係數
,而Ξ是Ox1大小的模態向量,持有指向性球諧函數:
B格式輸入訊號之四個係數,例如記錄,以格式轉換成HOA編碼器HOAe所產生新保真立體音響訊號同樣之格式。此可暗示適應球諧函數之不同常態化,以及因數in之光學考量,有時包含在保真立體音響係數內,而3D至2D轉換,適應至2D球諧函數,或反向為之。轉換和依賴之B格式係數,標記為與關係,而對於2D則為:。
所得HOA訊號由轉換之B格式訊號和新HOA係數編成,零階和第一階成份省略:。所得HOA訊號對3D實現具有O=(N order +1)2成份,或者對2D,為O=(2N order +1)成份,其中。此程序可視為保真立體音響訊號之位階上混(upmix)。
上面就第3圖所述具體例,在時間域內把原有係數和新係數組合,並使用O-4合成過濾器(附註,“O”並非意味零),並附加延時,以補償過濾器排延時。第4至5圖所示具體例,在過濾器庫域內組合,並使用O(不是零)合成過濾器。
按照本發明位階上混後,新訊號可用於若干目的,例如與N_order之其他保真立體音響內容混合,以形成訊號,解碼或,供使用N_order保真立體音響解碼器,在L揚聲器內重播;傳送和/或儲存或於資料庫等。在某些情況下,例如傳送和/或儲存,可用元資料來指示原點,並進行處理保真立體音響訊號。
雖然本發明適於把任何低階保真立體音響訊號,增進到個別高階保真立體音響訊號,於此所述具體例只使用第1階(B格式)訊號,供增進到例如第2階訊號。然而,可應用同樣原理把指定位階的保真立體音響訊號,增進到任何更高位階,例如第2階訊號增進至第3階訊號,第1階訊號增進至第4階訊號等。一般而言,產生比第4階更高位階之係數,並無意義。
本發明之一優點是,容許B格式訊號(諸如第1階微音器記錄),與較高位階內容混合,在混合物解碼時,增進空間重建準確性。
凡技術專家就上述裝置和方法可進行各種省略,取代和更換所揭示機件之形式和細節,及其操作,表明旨在此等元件之所有組合,以實質上同樣方式進行實質上同樣功能,達到同樣結果,凡此均在本發明範圍內。須知本發明已就實施例加以說明,而在說明書以及(適宜情況)申請專利範圍和附圖所揭示各特點,可獨立或以任何適當組合方式提供,特點可視適當情況以硬體、軟體,或二者組合方式實施。申請專利範圍內標示之參照數字,僅供提示之用,對申請專利範圍無限制效應。
[1] Jukka Ahonen and Ville Pulkki. Diffuseness estimation using temporal variation of intensity vectors. 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, October 18-21, 2009, New Paltz, NY.
[2] Peter G. Craven and Michael A. Gerzon. Coincident microphone simulation covering three dimensional space and yielding various directional outputs, 1975.
[3] Jérôme Daniel. Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia. PhD thesis, Universite Paris 6, 2001.
[4] Dave Malham. Space in Music - Music in Space. PhD thesis, University of York, April 2003.
[5] Juha Merimaa. Analysis, Synthesis, and Perception of Spatial Sound - Binaural Localization Modeling and Multichannel Loudspeaker Reproduction. PhD thesis, Helsinki University of Technology, 2006.
[6] M. A. Poletti. Three-dimensional surround sound systems based on spherical harmonics. J. Audio Eng. Soc., 53(11):1004-1025, November 2005.
[7] Mark Poletti. Unified description of ambisonics using real and complex spherical harmonics. In Proceedings of the Ambisonics Symposium 2009,
Graz. Austria, June 2009.
[8] Ville Pulkki. Virtual sound source positioning using vector base amplitude panning. J. Audio Eng. Soc., 45(6):456-466, June 1997.
[9] Ville Pulkki. Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc., 55(6):503-516, June 2007.
[10] Oliver Thiergart, Giovanni Del Galdo, Magdalena Prus, and Fabian Kuech. Three-dimensional sound field analysis with directional audio coding based on signal adaptive parameter estimators. In AES 40 TH INTERNATIONAL CONFERENCE, Tokyo, Japan, October 8 €“ 10, 2010.
[11] Earl G. Williams. Fourier Acoustics. Academic Press, 1999.
[12] Udo Zölzer, editor. DAFX - Digital Audio Effects. John Wiley & Sons, 2002.
[13] Franz Zotter. Analysis and Synthesis of Sound Radiation with Spherical Arrays. PhD thesis, Institute of Electronic Music and Acoustics (IEM), 2009.
10‧‧‧時間域第1階保真立體音響輸入訊號
20‧‧‧直達聲分離器單位分離直達聲
21‧‧‧四個頻率域通道
22‧‧‧聲源方向
23‧‧‧擴散性估計
24‧‧‧選擇性放大直達聲
25‧‧‧保真立體音響訊號界定部份
25a‧‧‧保真立體音響訊號選定部份
29‧‧‧時間域輸出訊號
30‧‧‧保真立體音響輸入訊號
31‧‧‧保真立體音響訊號
Claims (15)
- 一種屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號(10)指向性之增進方法,包含步驟為:在分析過濾器庫(AFB)內過濾(s1)輸入訊號(10),其中獲得四個頻率域通道(21),係第1階保真立體音響訊號之頻率域表示,又其中頻率域通道(21)之一個第一頻率域通道(20)表示第0階係數,而三個其餘頻率域通道(21)表示第1階係數;進行(s2)四個頻率域通道(21)之聲場分析(SFA),因而獲得聲源方向(22)和擴散性估計(23);在過濾器(F)內過濾(s3)具有第0階係數之第一頻率域通道(20),其中使用擴散性估計(23),且其中獲得直達聲成份(24);在高階保真立體音響編碼器(HOAe)內,以預定位階(N0)之保真立體音響格式,編碼(s4)直達聲成份(24),其中使用該聲源方向(22),且其中獲得所編碼直達聲(25),呈預定位階(N0)之保真立體音響格式,預定位階(N0)係至少二位階,而呈預定位階(N0)的保真立體音響格式之編碼直達聲,包含比第1階更高位階之保真立體音響係數;從預定位階(N0)的保真立體音響格式之所得編碼直達聲,選擇(s5)第2階或更高位階(25a)之保真立體音響係數,其中略去第1階和第0階係數;在組合和合成單位(CS)內,把來自編碼直達聲(25a)的第2階或更高位階之選定保真立體音響係數,與輸入訊號(10)組合,其中獲得業已增進指向性的至少第2階(29)之增進保真立體音響訊號者。
- 如申請專利範圍第1項之方法,其中來自編碼直達聲(25a)的第2階或更高位階之選應保真立體音響係數與輸入訊號(10)組合步驟(s6),包含步驟為:在頻率域組合器單位(CBf)內,把四個頻率域通道(21,21’,28)之保真立體音響係數,與來自編碼直達聲(25a)的第2階或更高階選定保真立體音響係數之選定頻率係數(25a),加以組合(s61),其中獲得訊號(37),係至少第2階保真立體音響訊號之頻率域表示;在合成過濾器庫(SFB’)內,過濾(s64)所得訊號(37),其中獲得增進較高階保真立體音響訊號(29)之時間域表示,具有至少第2階之係數者。
- 如申請專利範圍第1項之方法,其中來自編碼直達聲(25a)的第2階或更高階之選定保真立體音響係數與輸入訊號(10)組合步驟(s6),包含步驟為:在合成過濾器庫(SFB)內,過濾(s62)來自編碼直達聲(25a)的第2階或更高階之選定保真立體音響係數,其中獲得增進較高位階保真立體音響訊號(26)之時間域表示,包含第2階或更高階之係數;在時間域組合器(CBt)內,把代表輸入訊號(10)之保真立體音響係數,與第2階或更高位階(26)的該增進較高階保真立體音響訊號之時間域表示,加以組合(s65),其中獲得至少第2階(29)的保真立體音響訊號之時間域表示,具有比輸入訊號(10)增進之指向性者。
- 如申請專利範圍第1至3項之任一項方法,其中呈預定位階(N0)的保真立體音響格式之直達聲(24)編碼步驟(s4)中,高階保真立體音響編碼器(HOAe)使用B格式者。
- 如申請專利範圍第1至4項之任一項方法,其中呈預定位階(N0)的保真立體音響格式之直達聲(24)編碼步驟(s4)中,高階保真立體音響編碼器(HOAe)使用B格式以外之保真立體音響格式,又包含步驟為:在HOA格式適配單位(HFA)內,於該組合步驟(s6)之前,按照B格式以外之該保真立體音響格式,再格式化(s63)輸入訊號(10);其中獲得輸入訊號(10)之再格式化保真立體音響係數,又其中在該組合步驟(s64)中,組合器(CB)把輸入訊號(10)的再格式化保真立體音響係數,與第2階或更高階(28)之該增進更高階保真立體音響訊號之時間域表示,加以組合者。
- 如申請專利範圍第1至5項之任一項方法,其中進行四個頻率域通道(21)的聲場分析(SFA)之步驟(s2),包含步驟為:進行(s21)四個頻率域通道(21)的活性強度分析(AIA),其中獲得表示活性強度(11a)之數值;進行(s22)四個頻率域通道(21)的一擴散性分析(DA),其中獲得該擴散性估計(23);進行(s23)表示活性強度(11a)的數值之到達方向(DoA)分析,其中獲得該聲源方向(22)者。
- 如申請專利範圍第1至6項之任一項方法,又包含混合步驟(MX), 把至少第2階(29)的增進保真立體音響訊號,與較高位階或不同保真立體音響格式之又一HOA輸入訊號(30),加以混合,其中獲得HOA訊號(31),包含輸入訊號(10)和該又一HOA輸入訊號(30)之混合物者。
- 如申請專利範圍第1至8項之任一項方法,其中所得HOA訊號(29),對3D實現具有O=(Norder+1)2成份,而對2D實現具有O=(2 Norder+1)成份,其中Norder為HOA編碼器(HOAe)之位階(N0),而所得HOA訊號(29)具有係數,按照,其中係輸入訊號(10)之係數,而是來自編碼直達生所選定HOA係數(25a)者。
- 一種屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號(10)指向性之增進裝置,包含:分析過濾器(AFB),供過濾輸入訊號(10),其中獲得四個頻率域通道(21),係第1階保真立體音響訊號(10)之頻率域表示,又其中頻率域通道(21)之一個第一頻率域通道(20)表示第0階係數,而三個其餘頻率域通道(21)表示第1階係數;聲場分析(SFA)單位,供進行四個頻率域通道(21)之聲場分析,因為獲得聲源方向(22)和擴散性估計(23);過濾器(F),供過濾具有第0階係數之頻率嵂通道(20),其中使用擴散性估計(23),又其中獲得直達聲成份(24);高階保真立體音響編碼器(HOAe),供按預定位階(N0)之保真立體音響格式,編碼直達聲成份(24),其中使用該聲源方向(22),且其中獲得所編碼直達聲(25),呈預定位階(N0)之保真立體音響格式,預定位階(N0)係至少二位階,而呈預定位階(N0)的保真立體音響格式之編碼直達聲,具有至少第0階、第1階和第2階之保真立體音響係數;選擇器(SEL),從預定位階(N0)的保真立體音響格式之所得編碼直達聲,選擇至少第2階(25a)的保真立體音響係數;組合和合成單位(CS),把按照來自編碼直達聲(25a)的至少第2階選定保真立體音響係數之時間域訊號(26),與第1階保真立體音響訊號(10)之保真立體音響係數組合,其中獲得至少第2階(29)的保真立體音響訊號之時間域表示者。
- 如申請專利範圍第9項之裝置,其中組合和合成單位(CS)包含: 頻率域組合器單位(CBf)內,將四個頻率域通道(21,21’,28)的保真立體音響係數,與來自編碼直達聲(25a)的第2階或更高位階所選定保真立體音響係數之選定頻率係數(25a),加以組合,其中獲得訊號(37)係至少第2階保真立體音響訊號之頻率域表示;合成過濾器庫(SFB’)內,供過濾所得訊號(37),其中獲得增進較高階保真立體音響訊號(29)之時間域表示,具有至少第2階係數者。
- 如申請專利範圍第9項之裝置,其中組合和合成單位(CS),包含:合成過濾器庫(SFB)內,供過濾來自編碼直達聲(25a)的第2階或更高階所選定保真立體音響係數,其中獲得增進較高位階保真立體音響訊號(26)之時間域表示,包含第2階或更高階係數;時間域組合器單位(CBt)內,把代表輸入訊號(10)之保真立體音響係數,與第2階或更高階(26)增進較高階保真立體音響訊號之時間域表示,加以組合,其中獲得至少第2階(29)之保真立體音響訊號之時間域表示,具有比輸入訊號(10)增進之指向性者。
- 如申請專利範圍第9至11項之任一項裝置,其中該高階保真立體音響編碼器(HOAe)使用B格式,以預定位階(N0)之保真立體音響格式,編碼直達聲成份(24)者。
- 如申請專利範圍第9至12項之任一項裝置,其中高階保真立體音響編碼器(HOAe)以預定位階(N0)之保真立體音響格式,編碼直達聲成份(24)時,使用B格式以外之保真立體音響格式,又包含:HOA格式適配單位(HFA)內,按照B格式以外之該保真立體音響格式,把輸入訊號(10)再格式化;其中獲得輸入訊號(10)之再格式化保真立體音響係數,又其中組合器單位(CB)把輸入訊號(10)之再格式化保真立體音響係數(28),與第2階或更高階(28)的該增進更高階保真立體音響訊號之時間域表示,加以組合者。
- 如申請專利範圍第9至13項之任一項裝置,其中聲場分析單位(SFA)包含:活性強度分析區塊(AIA),供進行四個頻率域通道(21)之活性強度分析,其中獲得表示活性強度(11a)之數值;擴散性分析區塊(DA),供進行四個頻率域通道(21)之擴散性分析, 其中獲得該擴散性估計(23);到達方向分析區塊(DOAAB),進行表示活性強度(11a)的到達方向分析,其中獲得該聲源方向(22)者。
- 如申請專利範圍第9至14項之一項裝置,又包含混合器單位(MX),供至少第2階(29)增進保真立體音響訊號,與更高階或保真立體音響格式之另一HOA輸入訊號(30)混合,其中獲得HOA訊號(31),包含輸入訊號(10)和該另一HOA輸入訊號(30)之混合物者。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??13305352.0 | 2013-03-22 | ||
EP20130305352 EP2782094A1 (en) | 2013-03-22 | 2013-03-22 | Method and apparatus for enhancing directivity of a 1st order Ambisonics signal |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201442522A true TW201442522A (zh) | 2014-11-01 |
TWI646847B TWI646847B (zh) | 2019-01-01 |
Family
ID=48095764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103110577A TWI646847B (zh) | 2013-03-22 | 2014-03-21 | 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9838822B2 (zh) |
EP (2) | EP2782094A1 (zh) |
JP (1) | JP6342986B2 (zh) |
KR (1) | KR102208258B1 (zh) |
CN (1) | CN105051813B (zh) |
AU (1) | AU2014234480B2 (zh) |
BR (1) | BR112015019526B1 (zh) |
TW (1) | TWI646847B (zh) |
WO (1) | WO2014147029A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
DE102013223201B3 (de) * | 2013-11-14 | 2015-05-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes |
US10134403B2 (en) * | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
US9712936B2 (en) | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
GB2554446A (en) | 2016-09-28 | 2018-04-04 | Nokia Technologies Oy | Spatial audio signal format generation from a microphone array using adaptive capture |
CN106960672B (zh) * | 2017-03-30 | 2020-08-21 | 国家计算机网络与信息安全管理中心 | 一种立体声音频的带宽扩展方法与装置 |
US10390166B2 (en) * | 2017-05-31 | 2019-08-20 | Qualcomm Incorporated | System and method for mixing and adjusting multi-input ambisonics |
US10015618B1 (en) * | 2017-08-01 | 2018-07-03 | Google Llc | Incoherent idempotent ambisonics rendering |
EP3740950B8 (en) | 2018-01-18 | 2022-05-18 | Dolby Laboratories Licensing Corporation | Methods and devices for coding soundfield representation signals |
CN108845292B (zh) * | 2018-06-15 | 2020-11-27 | 北京时代拓灵科技有限公司 | 一种声源定位的方法及装置 |
CN110719564B (zh) * | 2018-07-13 | 2021-06-08 | 海信视像科技股份有限公司 | 音效处理方法和装置 |
WO2020039734A1 (ja) * | 2018-08-21 | 2020-02-27 | ソニー株式会社 | オーディオ再生装置、オーディオ再生方法及びオーディオ再生プログラム |
KR102599744B1 (ko) | 2018-12-07 | 2023-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 |
CN113673317B (zh) * | 2021-07-12 | 2023-04-07 | 电子科技大学 | 基于原子范数最小化可降维的二维离格doa估计方法 |
JP2024026010A (ja) * | 2022-08-15 | 2024-02-28 | パナソニックIpマネジメント株式会社 | 音場再現装置、音場再現方法及び音場再現システム |
US20240098439A1 (en) * | 2022-09-15 | 2024-03-21 | Sony Interactive Entertainment Inc. | Multi-order optimized ambisonics encoding |
JP2024048967A (ja) * | 2022-09-28 | 2024-04-09 | パナソニックIpマネジメント株式会社 | 音場再現装置、音場再現方法及び音場再現システム |
WO2024175587A1 (en) * | 2023-02-23 | 2024-08-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal representation decoding unit and audio signal representation encoding unit |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1512514A (en) | 1974-07-12 | 1978-06-01 | Nat Res Dev | Microphone assemblies |
GB9204485D0 (en) | 1992-03-02 | 1992-04-15 | Trifield Productions Ltd | Surround sound apparatus |
US6356639B1 (en) * | 1997-04-11 | 2002-03-12 | Matsushita Electric Industrial Co., Ltd. | Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment |
AUPP272598A0 (en) * | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Wavelet conversion of 3-d audio signals |
AUPR647501A0 (en) * | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
CA2354858A1 (en) | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
FR2844894B1 (fr) | 2002-09-23 | 2004-12-17 | Remy Henri Denis Bruno | Procede et systeme de traitement d'une representation d'un champ acoustique |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
WO2008039339A2 (en) * | 2006-09-25 | 2008-04-03 | Dolby Laboratories Licensing Corporation | Improved spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
ES2690164T3 (es) | 2009-06-25 | 2018-11-19 | Dts Licensing Limited | Dispositivo y método para convertir una señal de audio espacial |
WO2011041834A1 (en) * | 2009-10-07 | 2011-04-14 | The University Of Sydney | Reconstruction of a recorded sound field |
US9313598B2 (en) * | 2010-03-02 | 2016-04-12 | Nokia Technologies Oy | Method and apparatus for stereo to five channel upmix |
NZ587483A (en) * | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
US9271081B2 (en) * | 2010-08-27 | 2016-02-23 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
CN101977349A (zh) | 2010-09-29 | 2011-02-16 | 华南理工大学 | Ambisonic声重发系统解码的优化改进方法 |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US9131298B2 (en) * | 2012-11-28 | 2015-09-08 | Qualcomm Incorporated | Constrained dynamic amplitude panning in collaborative sound systems |
-
2013
- 2013-03-22 EP EP20130305352 patent/EP2782094A1/en not_active Withdrawn
-
2014
- 2014-03-17 WO PCT/EP2014/055313 patent/WO2014147029A1/en active Application Filing
- 2014-03-17 EP EP14710567.0A patent/EP2976769B1/en active Active
- 2014-03-17 BR BR112015019526-1A patent/BR112015019526B1/pt active IP Right Grant
- 2014-03-17 KR KR1020157025670A patent/KR102208258B1/ko active IP Right Grant
- 2014-03-17 AU AU2014234480A patent/AU2014234480B2/en active Active
- 2014-03-17 JP JP2016503627A patent/JP6342986B2/ja active Active
- 2014-03-17 CN CN201480015676.6A patent/CN105051813B/zh active Active
- 2014-03-17 US US14/779,326 patent/US9838822B2/en active Active
- 2014-03-21 TW TW103110577A patent/TWI646847B/zh active
Also Published As
Publication number | Publication date |
---|---|
WO2014147029A1 (en) | 2014-09-25 |
EP2976769A1 (en) | 2016-01-27 |
TWI646847B (zh) | 2019-01-01 |
JP6342986B2 (ja) | 2018-06-13 |
EP2782094A1 (en) | 2014-09-24 |
BR112015019526A8 (pt) | 2017-12-05 |
JP2016517033A (ja) | 2016-06-09 |
US20160057556A1 (en) | 2016-02-25 |
AU2014234480B2 (en) | 2019-11-21 |
US9838822B2 (en) | 2017-12-05 |
AU2014234480A1 (en) | 2015-08-13 |
BR112015019526A2 (pt) | 2017-07-18 |
EP2976769B1 (en) | 2017-02-22 |
KR20150134336A (ko) | 2015-12-01 |
BR112015019526B1 (pt) | 2021-12-07 |
CN105051813B (zh) | 2019-03-22 |
KR102208258B1 (ko) | 2021-01-27 |
CN105051813A (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI646847B (zh) | 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置 | |
US20200335115A1 (en) | Audio encoding and decoding | |
US11343630B2 (en) | Audio signal processing method and apparatus | |
EP3444815B1 (en) | Multiplet-based matrix mixing for high-channel count multichannel audio | |
TWI443647B (zh) | 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 | |
KR101010464B1 (ko) | 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성 | |
TW201923744A (zh) | 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 | |
TW201517643A (zh) | 以保真立體音響格式所編碼聲訊訊號為l揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體 | |
US20210250717A1 (en) | Spatial audio Capture, Transmission and Reproduction | |
US20240119949A1 (en) | Encoding/decoding apparatus for processing channel signal and method therefor |