TWI633792B - 聲場的高階保真立體音響表示法中主聲源方向之決定方法和裝置 - Google Patents
聲場的高階保真立體音響表示法中主聲源方向之決定方法和裝置 Download PDFInfo
- Publication number
- TWI633792B TWI633792B TW102140593A TW102140593A TWI633792B TW I633792 B TWI633792 B TW I633792B TW 102140593 A TW102140593 A TW 102140593A TW 102140593 A TW102140593 A TW 102140593A TW I633792 B TWI633792 B TW I633792B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound source
- time frame
- hoa coefficient
- hoa
- probability function
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000009826 distribution Methods 0.000 claims abstract description 51
- 230000006698 induction Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims description 16
- 230000001939 inductive effect Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 46
- 239000011159 matrix material Substances 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000009499 grossing Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
- H04H20/89—Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/801—Details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
在高階保真立體音響(HOA)中,問題在於主聲源時變方向之追蹤。其處理方式進行如下:由HOA係數之現時時幅(current time frame),估計主聲源之定向功率分布,從該定向功率分布和從主聲源方向之演繹機率函數,計算該主聲源方向之歸納機率函數,依賴該歸納機率函數和為前導時幅(previous time frame)之主聲源方向,為該HOA係數的該現時時幅搜尋並指派主聲源方向。
Description
本發明係關於聲場的高階保真立體音響表示法中主聲源方向之決定方法和裝置。
高階保真立體音響(HOA)是在三維度空間內虛擬座標系統原點(稱為要點)周圍內聲場的聲壓表示法。此HOA表示法與特定揚聲器裝備無關,反而牽涉到通道基礎之技術,像立體聲或周遭。但此項柔順性是在以特殊揚聲器裝備上回放HOA表示法所需解碼過程為代價。
聲場是在室內或室外由一或以上聲源所發生,例如由單一人聲或樂器,由交響樂團,或任何雜音製造源,像車聲和/或風吹樹葉聲。一旦發生任何聲波,即會產生聲源。
HOA是使用球諧函數展開,對所需聽者位置附近諸位置個別角波數,基於空氣壓力複振幅之描述。此表示法之空間解像度,隨增大之展開最大位階N而改進。
問題是主聲源時變方向(相對於座標原點)之追蹤。此問題發生在例如HOA表示法壓縮之脈絡,基於其分解定向和周圍成份,其處理已載於歐洲專利申請案EP 12305537.8。
假設從HOA表示法,計算球形可能性函數之時間序列,在大量預定方向提供發生主聲源之可能性。此等可能性函數可為主聲源之定向功率分布,參見EP 12305537.8。
則待決的問題是,從球形可能性函數,決定與主聲源相關方向估計數之時間序列數,可用來從HOA聲場表示法摘取定向成份。此問題
特別挑戰有兩層:提供方向估計數較順之時間軌道,即避免方向軌道之脫軌者,可能因方向估計錯誤引起,以及正確掌握突然方向變化,或與新定向訊號開始相關之方向。
EP 12305537.8記載估計與主聲源相關的方向估計數之時間序列。其原理繪示於本案所附第1圖。處理開始步驟或階段11,從HOA係數C(l)之時幅,估計相對於主聲源之定向功率分布σ 2(l),其中l N為幅指標。從σ 2(l),為分立測試方向Ω q 之預定數Q,計算定向功率分布,q=1,...,Q,在單位球體幾近等距分佈。每次測試方向Ω q 界定為,含有傾角θ q [0,π]和方位角[0,2π]之向量,按照:
定向功率分布是以向量表示:σ 2(l):=(σ 2(l,Ω 1),...,σ 2(l,Ω Q )) T (2)其中成份σ 2(l,Ω q )指對第l個時幅的方向Ω q 相關全部主聲源之聯合功率。
第2圖表示從位階4的HOA表示法所得二聲源結果之定向功率分布例,其中揭開單位球體,呈現y軸上之傾角θ和x軸上之方向角。亮度表示對數標度(即以dB計)之功率。須知空間功率分散(即限制空間解像度),是下述HOA表示法限制位階4所得。
依據第1圖內主聲源之估計定向功率分布σ 2(l),在步驟/階段12計算主聲源方向之預定數D,在矩陣配置成:
然後,在步驟/階段13,對來自前導時幅的適當平順方向,指派估計方向,d=1,...,D,並以此平順,以獲得平順方向。來自前導時幅的平順方向,是由HOA係數時幅延遲14在其輸入(接收)的矩陣輸出決定。如此平順化是由計算具有一定平順因數的指數加權運動平均所完成。平順方向配置在步驟/階段13之矩陣輸出內:
EP 2469741 A1記載一種HOA表示法之壓縮方法,使用變換成來自預定方向的一般平波之訊號。
此項處理之主要問題是,由於一定之平順因數,不可能準確掌握突然方向變化或新主聲源開始,雖然有可能選項,採用適應平順因數,但留下的主要問題是,如何正確適應因數。
本發明待決的問題是,從球形可能性函數,決定與主聲源相關的方向估計數之時間序列,可用來從HOA聲場表示法摘取定向成份。此問題是利用申請專利範圍第1項揭示之方法解決。利用此方法之裝置揭示於申請專利範圍第2項。
本發明為聲場的高階保真立體音響改進複數主聲源的方向追蹤之牢靠性。尤其是提供方向估計數之平順軌道,有助於準確掌握突然方向改變,或與新定向訊號開始有關之方向。
「主」意指(在短期間內)個別聲源從到達方向創造具有高功率的一般聲平面,有助於總聲場。此即何以對方向追蹤,要分析總聲場的定向功率分布之故。
更一般而言,本發明可用來追蹤定向可能性函數可行之任意物體(不必然是聲源)。
本發明克服上述二問題:提供較平順的方向估計數時間軌道,且能夠掌握突然方向變化或新定向訊號開始。本發明使用簡單的源運動預估模型,應用貝斯氏(Bayesian)學習原理,兼併其具有球形可能性函數的時間序列資訊。
原則上,本發明方法適於在聲場的高階保真立體音響(HOA)表示法中決定主聲源方向,該方法包含步驟為:從HOA係數之現時時幅(current time frame),估計相對於主聲源之定向功率分布;從該定向功率分布和主聲源方向之演繹機率函數,計算該主聲源方向之歸納機率函數;依賴該歸納機率函數和該HOA係數前導時幅(previous time frame)之主聲源方向,搜尋和指派該HOA係數的該現時時幅之主聲源方向;其中該演繹機率函數,係由所估計源運動角度集合,和該HOA係數前導時幅之該主聲源方向計算;且其中該所估計源運動角度集合,係由該HOA係數前導時幅的該主
聲源方向,和該HOA係數倒數第二時幅之主聲源方向計算。
原則上,本發明裝置適於在聲場的高階保真立體音響(HOA)表示法中決定主聲源方向,該裝置包含:機構係適於從HOA係數之現時時幅,估計相對於主聲源之定向功率分布;機構係適於從該定向功率分布和主聲源方向之演繹機率函數,計算該主聲源方向之歸納機率函數;機構係適於依賴該歸納機率函數和該HOA係數前導時幅之主聲源方向,搜尋和指派該HOA係數現時時幅之主聲源方向;機構係適於由所估計源運動角度集合,和該HOA係數前導時幅之該主聲源方向,計算該演繹機率函數;機構係適於由該HOA係數前導時幅的該主聲源方向,和該HOA係數倒數第二時幅之主聲源方向,計算該所估計源運動角度集合。
本發明優良之額外具體例,載於個別附帶申請專利範圍。
31‧‧‧估計定向配電
32‧‧‧主聲源方向計算歸納機率函數
33‧‧‧搜尋和指派主聲源方向
34‧‧‧時幅延遲
35‧‧‧時幅延遲
36‧‧‧源運動角度估計
37‧‧‧主聲源方向計算演繹機率函數
第1圖表示HOA訊號主聲源方向之已知估計;第2圖表示從位階4之HOA表示法所得二聲源所致球體上之功率分布例;第3圖表示本發明方向估計處理之基本方塊圖;第4圖為濃度參數與源運動角度間之關係圖;第5圖為von Mises-Fisher分佈與平均方向周圍傾角對照形狀圖。
茲參照附圖說明本發明具體例如下。
在第3圖所示本發明主聲源方向估計處理之方塊圖中一如第1圖,在步驟或階段31,從HOA係數C(l)之時幅計算相對於主聲源之定向功率分布 σ 2(l),以估計定向功率分布。惟主聲源之方向,d=1,...,D,並非像第1圖中之步驟/階段12,直接從定向功率分布 σ 2(l)計算,而是從步驟/階段32算出的歸納機率函數 P POST(l,Ω q )提供任何主聲源於時幅l位在任何測試方向 Ω q 之歸納或然率。把特定時幅l的全部測試方
向之歸納機率數值,綜合於向量 P POST(l)如下: P POST(l):=[ P POST(l,Ω 1)... P POST(l,Ω Q )] (5)所估計方向並非明顯平順,而是隱含平順,在歸納機率函數計算中進行。
有益的是,此項隱含平順可視為一種平順,具有適應平順常數,其中平順常數是視聲源運動模型,自動最佳選擇。
歸納機率函數 P POST(l)是在步驟/階段32,按照貝斯氏規則,從定向功率分布 σ 2(l)和演繹功率函數 P PRIO(l,Ω q )計算,依賴在時幅l-1的知識,預估任何主聲源在時幅l位於任何測試方向 Ω q 之機率。
「演繹機率」一辭指關於演繹分布之知識(例如參見http://en.wikipedia.org/wiki/A_priori_probability),在貝斯氏資料分析脈絡中充分建立,參見A.Gelman,J.B.Carlin,H.S.Stern,D.B.Rubin等撰《統計學課本:貝斯氏資料分析》第2版Chapman&Hall/CRC,2003年7月29日。在本案文脈中,意指任何主聲源於時幅l位在任何測試方向 Ω q 之機率,時間上在觀察第l個時幅之前。在「貝斯氏推理」中,貝斯規則是在需額外證明時,用來為假設更新機率估計數,參見http://en.wikipedia.org/wiki/Bayesian_inference。
「歸納機率」一辭指考量相關證明後,指派之條件機率(例如參見http://en.wikipedia.org/wiki/A_posteriori_probability),也是在貝斯氏資料分析脈絡中充分建立。在本發明文脈中,意指任何主聲源於時幅l位在任何測試方向 Ω q 之歸納機率,時間上在觀察第l個時幅之後。
在特定時幅l,全部測試方向之演繹機率函數值,是在步驟/階段37計算,綜合於向量 P PRIO(l)如下: P PRIO(l):=[ P PRIO(l,Ω 1) P PRIO(l,Ω Q )] (6)
步驟/階段37從時幅延遲36接收矩陣,做為輸入訊號,並從源運動角度估計步驟或階段36,得到向量,時幅延遲34則從步驟或階段33,得到矩陣,供搜尋和指派主聲源方向。
在步驟/階段37計算之演繹機率函數 P PRIO(l,Ω q ),係基於在步驟/階段36算出的簡化聲源運動預估模型,需要為HOA係數前導時幅l-1的主聲源方向估計數,即,d=1,...,D,以矩陣表
示,以及聲源從倒數第二時幅l-2運動至HOA係數前導時幅l-1之角度估計數,d=1,...,D。此等聲源運動角度定義為:
並配置於向量如下:
在時幅l-2之主聲源方向,即,d=1,...,D,係以矩陣表示,從時幅延遲34經由時幅延遲35接收。
源運動預估模型
源運動預估模型以及步驟/階段37所算出演繹機率函數之個別計算,決定如下。
假定統計學之源運動預估模型。為簡化此模型之說明,首先考慮單源情況,然後再敘述更相關之多源情況。
單源情況
假設全部D聲源,只追蹤第d個聲源,以s d 標示。又假設於時幅l-1,可得其方向之預估數,另外是在時幅l-2和l-1間所涵蓋運動角度預估數。
假設於時幅l的方向s d 之預估機率,是由如下von Mises-Fisher分布之分立所賦予(見相對應下節之分布詳述):
在式(9)和(10)中,指分立無規變數,表示第d個源於第l時幅之方向,只有數值 Ω q ,q=1,...,Q。因此,式(9)正式右方數式,指隨機變數假設數值 Ω q (若數值和已知)之機率。
式(10)中Θ q,d 指估計方向和測試方向間之角度距離,數式如下:Θ q,d :=∠( Ω q ,Ω DOM,d (l-1)) (11)
平均方向左右之分布濃度,是由濃度參數κ d (l-1)決定。濃度參數決定von Mises-Fisher分布之形狀。若κ d (l-1)=0,在球體上分布均勻。濃度隨κ d (l-1)值而遞增。若κ d (l-1)>0,分布為單模型,且圓形對稱,就平均方向定中。變數κ d (l-1)可由運動角度估計數計算。此等計算實施例如下。
演繹機率函數滿足下式:
濃度參數之計算
計算濃度參數之一方式是,假設在和所評估演繹機率數值之比,滿意常數C R:
其中0<C R<1,因為演繹機率最大值在。使用式(10)和(7),可重寫式(13)為:
為濃度參數提供所需數式:
此項計算之背後原理是,為提高演繹機率函數,要減少聲源先前運動。若先前聲源運動顯著,關於其接續方向的不確定性高,因而濃度參數數值會小。
為免濃度參數太高(尤其是對=0,變成無限大),可把式(15)合理改寫為:
其中C D設定為。
對源運動角度零,欲得濃度參數最大值κ MAX,在實驗上發現如下數值為合理:κ MAX=8 C R=0.5 (18)
在任何情況下,κ MAX>0,且0<C R<1,已如上述。
濃度參數κ d (l-1)和源運動角度間所得關係,如第4圖所示。
多源情況
茲假設旨在追蹤D主聲源s d ,d=1,...,D,其方向彼此獨立。若又假設,按照上節單源情況所考量,第d個聲源之機率係位在第l個時幅的方向Ω q ,以表示,則結論為,於第l個時幅無聲源位在方向Ω q 之機率必須:
因此,D聲源任一於第l的時幅位在方向Ω q 之機率P PRIO(l,Ω q ),以下式表示:
貝斯氏學習
關於在步驟/階段32之處理,貝斯氏學習是就演繹知識量推理歸納資訊之一般方法,其形式為機率函數式分布,以及現時觀察,與所需量有關,因此提供可能性函數。
以追蹤主聲源方向之特殊情況言,可能性函數是以定向功率分布σ 2(l)表示。由上節「源運動預估模型」所述之聲源運動模型獲得演繹機率函數P PRIO(l,Ω q ),以式(20)表示。
按照貝斯氏規則,D聲源之任一於第l時幅位在方向Ω q 之歸納機率,可以下式表示:
其中意指「與之成比例」。
在式(21)中所利用的事實是其分母,或是與測試方向Ω q 無關。
無定向功率分布σ 2(l)者,如今可改用歸納機率函數P POST(l,Ω q ),在步驟/階段33搜尋主聲源方向,另可接收矩陣,並輸出矩陣。此項搜尋更為穩定,因對定向功率分布應用隱含平順。
如此隱含平順最好視為具有適應平順常數之平順,其特點為就假設聲源模型最適宜。
下節更詳細說明個別處理區塊,以估計主聲源方向。
估計定向功率分布
在步驟/階段31,從HOA係數C(l)之時幅,估計第l個時幅之定向功率分布σ 2(l),以及預定數Q之測試方向Ω q ,q=1,...,Q,在球體上接近均勻分布。為此目的,可用EP 12305537.8所述方法。
計算主聲源方向之歸納機率函數
歸納機率函數P POST(l)之數值P POST(l,Ω q ),q=1,...,Q,是在步驟/階段32,按照式(21),使用演繹機率函數P PRIO(l)之數值P PRIO(l,Ω q ),q=1,...,Q,和定向功率分布σ 2(l)之數值σ 2(l,Ω q ),q=1,...,Q計算:
計算主聲源方向之演繹機率函數
演繹機率函數P PRIO(l)之數值P PRIO(l,Ω q ),q=1,...,Q,是在步驟/階段37,從矩陣內所含第(l-1)個時幅內之主聲源方向,d=1,...,D,和向量內所含主聲源運動角度 d=1,...,D計算,按照下式:
其中是按照式(10)計算:
而。
得個別機率函數之濃度參數κ d (l-1)如下:
其中C D 設定於,而κ MAX=8且C R=0.5。
關於啟用濃度參數,須知對於最先二時幅,即l=1和l=2,尚不可得源運動角度預估數和。對此最先二時幅,濃度參數設定於零,即對於全部d=1,...,D,κd(0)=κd(1)=0,因而對於全部主聲源方向,假設均勻演繹機率函數。
源運動角度估計
向量內所含主聲源之運動角度,d=1,...,D係按照式(7)計算如下:
搜尋和指派主聲源方向
在步驟/階段36,第一步驟先搜尋現時主聲源方向 d=1,...,D,再指派給適當聲源,即在前導時幅,d=1,...,D內發現之方向。
搜尋方向
在步驟/階段37,搜尋主聲源方向是視歸納機率函數P POST(l)而定,而非定向功率分布σ 2(l)。例如可用EP 12305537.8所示方向搜尋方法。此項處理假設主聲源方向是成對方式,分開至少一角度距離,Θ MIN:=π/N,其中N指HOA表示法之位階。此項假設源自空間帶限制所致之定向訊號空間分散,由於受拘限HOA表示法位階之故。按照EP 12305537.8,第一主聲源方向設定在歸納機率函數P POST(l)之最大值,即:而且M 1:={1,...,Q} (23)
為搜尋第二聲源方向,在鄰區內具備之所有測試方向Ω q 均除外。然後,把第二主聲源方向設定於具有剩餘方向集合內之最高功率:
其餘主聲源方向以類比方式決定。
全部主聲源方向之整體計算程序,綜合如下列程式:
指派方向
俟找到全部現時主聲源方向,d=1,...,D後,在步驟/階段33把此等方向從矩陣內所含前導時幅(l-1),指派給主聲源方向,d=1,...,D。決定指派函數f A,l :{1,...,D}→{1,...,D},使指派方向間之角度合計最小:
此等指派問題可用匈牙利演算法解答,載於H.W.Kuhn〈指派問題之匈牙利方法〉,Naval研究邏輯學季刊第2卷,第83-97頁,1955年。
以下計算指派函數,方向,d=1,...,D和按照式(4)之相對應輸出矩陣,可由下式求得:
其中指逆指派函數。
須知對於第一個時幅,即l=1,從前導時幅之主聲源方向估計數,尚不可得。對此時幅,指派不能基於來自前導時幅之方向估計數,而是隨意選擇。即,在啟用階段,對於該HOA係數(C(l))不可得之前導時幅,隨意選擇主聲源方向之方向估計數。
關於式(9)和(10),在三維度歐幾里德空間R3內,單位球體上的von Mises-Fisher分布S 2:={x R3|∥x∥=1}可由下式界定:
其中(.) T 指換位;κ 0稱為濃度參數,而x 0 R3稱為平均方向,例如參見Kwang-Il Seon撰〈具有Fisher-von Mises函數的全空調查映圖之平順〉,韓國物理學會會刊,2007年。
就κ=0而言,在球體上的分布均勻,因為
就κ>0而言,分布是單模型並且圓形對稱,定中於平均方向x 0周圍。在平均方向周圍之分布,是以濃度參數k決定。具體而言,濃度隨k值增加。因為各向量x S 2具有單位模數,可利用方向向量獨特表示:
含球形座標系統之傾角θ [0,π]和方位角[0,2π]。因此,顧及恒等x 0 T x=cos(∠(x 0,x)) (30)其中∠(x 0,x)指x 0和x間之角度,則von Mises-Fisher分布可以等效方式寫成式:
其中Ω 0表示x 0,在特殊情況下,平均方向指向z軸方向,即θ 0=0,則von Mises-Fisher分布就z軸呈對稱,並只視傾角θ而定:
對於不同數值之濃度參數k,von Mises-Fisher分布f MF,Sphere,κ對照平均方向周圍θ之形狀,如第5圖所示。
顯然,von Mises-Fisher分布符合下式條件:
此由下式可見:
即函數對全球體之積分,不因轉動而變化。
具有von Mises-Fisher分布的分立機率函數,可使用許多Q分立取樣位置(亦稱辭取樣方向)Ω q ,q=1,...,Q,以空間取樣而得,在單位球體S 2上大致均勻分布。為確保之適當標度,以符合機率函數之性質:
考慮全球體整數之四捨五入,
其中是指派給各空間取樣方向之表面積。須知表面積無關取樣方
向Ω q ,因為假設幾乎均勻取樣。就式(38)與式(37)比較,最後發現所需解法為:
在最後步驟取代式(31)。
本發明處理可利用單一處理器或電子電路進行,或利用若干處理器或電子電路並聯作業和/或在本發明處理之不同組件上作業。
本發明可應用於例如HOA所表示三維度聲場之壓縮,可在家庭環境之揚聲器配置或電影院之揚聲器配置上描繪或播放。
Claims (14)
- 一種聲場的高階保真立體音響(HOA)表示法中決定主聲源方向之方法,該方法包括:從HOA係數之現時時幅,估計相對於主聲源之定向功率分布;從該定向功率分布和主聲源方向之演繹機率函數,計算該主聲源方向之歸納機率函數;依賴該歸納機率函數和HOA係數前導時幅之主聲源方向,搜尋和指派該HOA係數的該現時時幅之主聲源方向;其中,該演繹機率函數,係由所估計聲源運動角度集合,和該HOA係數前導時幅之該主聲源方向計算;且其中,該所估計聲源運動角度集合,係由該HOA係數前導時幅的該主聲源方向,和該HOA係數倒數第二時幅之主聲源方向計算者。
- 根據申請專利範圍第1項之方法,進一步包括:按照貝斯氏(Bayesian)規則計算該歸納機率函數,其中,該演繹機率函數視該HOA係數前導時幅之知識,預估任何主聲源於該HOA係數現時時幅位在任何測試方向之機率者。
- 根據申請專利範圍第1項之方法,進一步包括:按照算出該演繹機率函數,並決定D聲源之任一於該HOA係數現時時幅l位在方向 Ω q 之機率,又其中
- 根據申請專利範圍第2項之方法,進一步包括:按照下式:
- 根據申請專利範圍第1項之方法,進一步包括:為該HOA係數之現時時幅l指派主聲源方向係進行如下:於決定全部現時主聲源方向,d=1,...,D後,由前導時幅指派此等方向給主聲源方向,d=1,...,D,其中決定指派函數f A,l :{1,...,D}→{1,...,D},使所指派方向間之角度減到最小;由而d=1,…,D獲得該主聲源方向,其中指逆指派函數者。
- 根據申請專利範圍第3項之方法,進一步包括: 其中為啟用該HOA係數最初二時幅(l=1,l=2)之該濃度參數,以κ d (0)=κ d (1)=0設定該濃度參數於零,皆d=1,...,D者。
- 根據申請專利範圍第1項之方法,進一步包括:對該HOA係數之不可得前導時幅,為啟用時隨意選用該主聲源方向之方向估計數者。
- 一種聲場的高階保真立體音響(HOA)表示法中決定主聲源方向之裝置,該裝置包括處理器,該處理器被配置為:從HOA係數之現時時幅,估計相對於主聲源之定向功率分布;從該定向功率分布和主聲源方向之演繹機率函數,計算該主聲源方向之歸納機率函數;依賴該歸納機率函數和HOA係數前導時幅之主聲源方向,搜尋和指派該HOA係數現時時幅之主聲源方向;由所估計聲源運動角度集合,和該HOA係數前導時幅之該主聲源方向,計算該演繹機率函數;由該HOA係數前導時幅的該主聲源方向,和該HOA係數倒數第二時幅之主聲源方向,計算該所估計聲源運動角度集合者。
- 根據申請專利範圍第8項之裝置,其中該歸納機率函數係按照貝斯氏(Bayesian)規則計算,並且其中該演繹機率函數視該HOA係數前導時幅之知識,預估任何主聲源於該HOA係數現時時幅位在任何測試方向之機率 者。
- 根據申請專利範圍第8項之裝置,其中該演繹機率函數是按照算出,並決定D聲源之任一於該HOA係數現時時幅l位在方向 Ω q 之機率,又其中
- 根據申請專利範圍第9項之裝置,其中該歸納機率函數是按照下式計算:
- 根據申請專利範圍第8項之裝置,其中為該HOA係數之現時時幅l指派主聲源方向係進行如下:於決定全部現時主聲源方向,d=1,...,D後,由前導時幅指派此等方向給主聲源方向,d=1,...,D,其中決定指派函數f A,l :{1,...,D}→{1,...,D},使所指派方向間之角 度減到最小;由而d=1,…,D獲得該主聲源方向,其中指逆指派函數者。
- 根據申請專利範圍第10項之裝置,其中為啟用該HOA係數最初二時幅之該濃度參數,以κ d (0)=κ d (1)=0設定該濃度參數於零,皆d=1,...,D者。
- 根據申請專利範圍第8項之裝置,其中對該HOA係數之不可得前導時幅,為啟用時隨意選用該主聲源方向之方向估計數者。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12306485.9A EP2738962A1 (en) | 2012-11-29 | 2012-11-29 | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
??12306485.9 | 2012-11-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201424408A TW201424408A (zh) | 2014-06-16 |
TWI633792B true TWI633792B (zh) | 2018-08-21 |
Family
ID=47631236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102140593A TWI633792B (zh) | 2012-11-29 | 2013-11-08 | 聲場的高階保真立體音響表示法中主聲源方向之決定方法和裝置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9445199B2 (zh) |
EP (2) | EP2738962A1 (zh) |
TW (1) | TWI633792B (zh) |
WO (1) | WO2014082883A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2765791A1 (en) | 2013-02-08 | 2014-08-13 | Thomson Licensing | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
KR102655047B1 (ko) * | 2014-06-27 | 2024-04-08 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 |
EP3164868A1 (en) * | 2014-07-02 | 2017-05-10 | Dolby International AB | Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation |
EP2963948A1 (en) | 2014-07-02 | 2016-01-06 | Thomson Licensing | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation |
WO2016001355A1 (en) | 2014-07-02 | 2016-01-07 | Thomson Licensing | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
US9838819B2 (en) * | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
JP2017523452A (ja) * | 2014-07-02 | 2017-08-17 | ドルビー・インターナショナル・アーベー | Hoa信号表現のサブバンド内の優勢な方向性信号の方向のエンコード/デコードのための方法および装置 |
EP2963949A1 (en) | 2014-07-02 | 2016-01-06 | Thomson Licensing | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation |
US9948415B2 (en) * | 2015-03-27 | 2018-04-17 | Intel IP Corporation | Method of processing a plurality of signals and signal processing device |
JP6723120B2 (ja) * | 2016-09-05 | 2020-07-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
EP3622509B1 (en) | 2017-05-09 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
JP7204545B2 (ja) * | 2019-03-15 | 2023-01-16 | 本田技研工業株式会社 | 音響信号処理装置、音響信号処理方法、およびプログラム |
CN110751956B (zh) * | 2019-09-17 | 2022-04-26 | 北京时代拓灵科技有限公司 | 一种沉浸式音频渲染方法及系统 |
CN111123202B (zh) * | 2020-01-06 | 2022-01-11 | 北京大学 | 一种室内早期反射声定位方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6259795B1 (en) * | 1996-07-12 | 2001-07-10 | Lake Dsp Pty Ltd. | Methods and apparatus for processing spatialized audio |
WO2009046223A2 (en) * | 2007-10-03 | 2009-04-09 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6400699A (en) * | 1998-09-25 | 2000-04-17 | Creative Technology Ltd | Method and apparatus for three-dimensional audio display |
FR2801108B1 (fr) | 1999-11-16 | 2002-03-01 | Maxmat S A | Analyseur chimique ou biochimique a regulation de la temperature reactionnelle |
ES2690164T3 (es) * | 2009-06-25 | 2018-11-19 | Dts Licensing Limited | Dispositivo y método para convertir una señal de audio espacial |
AU2011231565B2 (en) * | 2010-03-26 | 2014-08-28 | Dolby International Ab | Method and device for decoding an audio soundfield representation for audio playback |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
-
2012
- 2012-11-29 EP EP12306485.9A patent/EP2738962A1/en not_active Withdrawn
-
2013
- 2013-11-08 TW TW102140593A patent/TWI633792B/zh active
- 2013-11-18 EP EP13794863.4A patent/EP2926482B1/en active Active
- 2013-11-18 US US14/648,208 patent/US9445199B2/en active Active
- 2013-11-18 WO PCT/EP2013/074039 patent/WO2014082883A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6259795B1 (en) * | 1996-07-12 | 2001-07-10 | Lake Dsp Pty Ltd. | Methods and apparatus for processing spatialized audio |
WO2009046223A2 (en) * | 2007-10-03 | 2009-04-09 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
Also Published As
Publication number | Publication date |
---|---|
EP2926482B1 (en) | 2018-07-04 |
TW201424408A (zh) | 2014-06-16 |
US9445199B2 (en) | 2016-09-13 |
WO2014082883A1 (en) | 2014-06-05 |
EP2926482A1 (en) | 2015-10-07 |
US20150312678A1 (en) | 2015-10-29 |
EP2738962A1 (en) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI633792B (zh) | 聲場的高階保真立體音響表示法中主聲源方向之決定方法和裝置 | |
JP7158806B2 (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
CN105793723B (zh) | 使用移动声源的麦克风自定位 | |
CN104995926B (zh) | 用于确定在声场的高阶高保真立体声表示中不相关的声源的方向的方法和装置 | |
CN106537501B (zh) | 混响估计器 | |
CN113113034A (zh) | 用于平面麦克风阵列的多源跟踪和语音活动检测 | |
CN103180752B (zh) | 用于解析到达方向估计的模糊度的设备和方法 | |
KR102087307B1 (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
JP7350945B2 (ja) | コンピュータ実装方法、コンピュータ・プログラム製品および装置 | |
JP2019503025A5 (zh) | ||
CN112492207B (zh) | 一种基于声源定位控制摄像头转动的方法和装置 | |
Yang et al. | Enhancing direct‐path relative transfer function using deep neural network for robust sound source localization | |
JP2020148909A (ja) | 信号処理装置、信号処理方法およびプログラム | |
Chen et al. | Structure from silence: Learning scene structure from ambient sound | |
US10393571B2 (en) | Estimation of reverberant energy component from active audio source | |
Liu et al. | Self-supervised incremental learning for sound source localization in complex indoor environment | |
US20210329373A1 (en) | Methods and apparatus to determine a location of an audio source | |
CN112750455A (zh) | 音频处理方法及装置 | |
CN103890843A (zh) | 信号噪声衰减 | |
US11474194B2 (en) | Controlling a device by tracking movement of hand using acoustic signals | |
Yen et al. | Noise power spectral density scaled SNR response estimation with restricted range search for sound source localisation using unmanned aerial vehicles | |
Canclini et al. | Distributed 3D source localization from 2D DOA measurements using multiple linear arrays | |
Zhang | Sound Source Localization in Complex Indoor Environment: A Self-Supervised Incremental Learning Approach | |
CN113782047B (zh) | 语音分离方法、装置、设备和存储介质 | |
Liu et al. | A Particle Filter Algorithm Based on Multi-feature Compound Model for Sound Source Tracking in Reverberant and Noisy Environments |