TWI558228B - 依據空間能量密度定位麥克風之設備及方法 - Google Patents
依據空間能量密度定位麥克風之設備及方法 Download PDFInfo
- Publication number
- TWI558228B TWI558228B TW101145071A TW101145071A TWI558228B TW I558228 B TWI558228 B TW I558228B TW 101145071 A TW101145071 A TW 101145071A TW 101145071 A TW101145071 A TW 101145071A TW I558228 B TWI558228 B TW I558228B
- Authority
- TW
- Taiwan
- Prior art keywords
- microphone
- sound
- spatial
- energy
- environment
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 42
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 230000001934 delay Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 37
- 238000009792 diffusion process Methods 0.000 description 26
- 239000013598 vector Substances 0.000 description 26
- 238000003491 array Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 238000005457 optimization Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005315 distribution function Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001061225 Arcos Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001803 electron scattering Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000036314 physical performance Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C2207/00—Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
- G11C2207/16—Solid state audio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K999/00—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS dummy group
- H05K999/99—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS dummy group dummy group
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本發明是有關於音源信號處理,且特別是有關於一種自動定位麥克風之設備及方法。
音源信號處理變得越來越重要。更特別是,空間聲音錄製係被應用於多種應用中。空間聲音錄製著眼於利用多重麥克風之幫助來擷取聲場,以於再生側使聆聽者察覺到如於錄製場地(location)之聲音影像。
空間聲音錄製之標準方法通常涉及到隔開的全向麥克風(例如,AB立體音響),一致指向性麥克風(例如,在強度立體音響中),或例如在高傳真身歷聲響複製(Ambisonics)中之更多先進麥克風(例如一B-格式麥克風)。例如,請參考文獻:[1]Michael A.Gerzon。多聲道廣播及視頻中之高傳真身歷聲響複製(Ambisonics in multichannel broadcasting and video)。J.音源工程學會,33(11):859-871,1985年。
一種空間麥克風(譬如指向性麥克風、麥克風陣列等)係能夠錄製空間聲。專業術語「空間麥克風」表示定向地選擇性獲得空間聲之任何設備(例如指向性麥克風、麥克風陣列等)。
對聲音再生而言,既存的非參數方法直接從錄製的麥克風信號推導出期望的音源回放信號。這些方法之一項主要缺點係為空間影像錄製總是相對於所使用之空間麥克風。
在多數應用中,將一空間麥克風置放在期望位置(舉例而言,其可能是靠近一個或多個聲音源之一位置)中是不可能或可行的。於此情況下,將多重空間麥克風置放在更進一步遠離有效聲音源且仍然能夠依期望擷取聲音場景將是更有利的。
某些應用採用兩個以上的真實空間麥克風。吾人應注意到
專業術語「真實空間麥克風」表示實體上存在之期望的麥克風型式或麥克風組合(例如一指向性麥克風,如使用於共同立體聲麥克風中之一對指向性麥克風,但亦是一麥克風陣列)。
對每個真實空間麥克風而言,到達方向(DOA)可在時頻域中被估計。藉由使用由真實空間麥克風所蒐集資訊,與它們的相對位置之知識一起,其可能計算出實際上被置於一環境中之任意位置(隨意)之一空間麥克風之輸出信號。在下文中,這種空間麥克風被稱為「虛擬空間麥克風」。
在這種應用中,需要手動輸入一個或多個虛擬麥克風之位置及方位。然而,如果將自動決定一個或多個虛擬麥克風之一最佳位置及/或方位的話,則那是可讚賞的。
如果一設備及方法將是可得到以決定何處放置一虛擬麥克風,何處放置一物理麥克風或決定一最佳聆聽位置,則這將是有利的。此外,如何將一麥克風置放在一最佳方位中將是有利的。專業術語「麥克風定位」及「地位資訊」相關於如何決定一麥克風或一聆聽者之一適當位置與如何決定一麥克風或一聆聽者之一適當方位。
本發明之目的係用以提供關於麥克風定位之改善概念。本發明之目的係藉由依據申請專利範圍第1項之設備,藉由依據申請專利範圍第17項之方法以及藉由依據申請專利範圍第18項之電腦程式而達成。
提供一種用於決定最佳麥克風或聆聽位置之設備。此設備包含一空間能量分佈決定器及一空間資訊估計器。空間能量分佈決定器係適合於依據聲音源資訊(表示位於環境中之一個或多個聲音源之一個或多個能量數值及一個或多個場地數值)來決定一空間能量密度(表示一環境之複數個位置之能量數值)。空間資訊估計器係適合於依據空間能量密度來估計聲源空間資訊。
以下,專業術語「虛擬麥克風」一般將表示任何型式之麥克風。更特別是,專業術語「虛擬麥克風」相關於用以決定定位資訊之虛擬空間或非空間麥克風兩者,以及相關於用以決定定位資訊之實體上存在的空間或非空間麥克風。
空間資訊估計器係適合於依據由空間能量分佈決定器所決定之空間能量密度,決定一環境中之一最佳虛擬麥克風位置或一最佳虛擬麥克風方位。空間能量密度係依據聲音源之能量數值及對應的位置資訊而由空間能量分佈決定器所決定。
提供一種決定一個或多個麥克風之一最佳位置及/或方位之自動方式,用以說明聲音場景(譬如一個或多個虛擬麥克風)。
在某些實施例中,空間能量分佈決定器可能適合於利用由一有效度量標準(signficance metric)所提供之可選擇的資訊,有效度量標準譬如表示關於ESS位置之估計之可靠度之測定。
例如,在某些實施例中,聲音之擴散Psi可被使用作為有效度量標準。項目(1-Psi)接著可簡單地乘以來源能量數值,同時計算空間能量分佈,以使在空間能量分佈之測定上擴散聲音的貢獻將少於直達聲音。
提出概念之一項重要優點係為它們可獨立於房間條件被應用,且並不需要任何關於揚聲器及/或物理聲音源之數目或位置之先驗資訊。藉此,此系統是自立更生的,且可以適合於藉由只使用聲音分析之任何種類之方案。依據習知技術,一先驗資訊必須是可得到的,用以決定一個或多個麥克風之一最佳位置及/或方位。這不是限制此應用,就是必須利用預估方式進行,如此將限制其精確度。藉由採用上述之實施例,這並非是需要的。虛擬麥克風(或複數個虛擬麥克風)之位置係藉由完成一半濾度場景分析,然後依據目標應用之需求改變它而被計算出。
不像用以估計虛擬麥克風之一最佳位置及/或方位之其他方法,提出的方法並不需要考量幾何場景之任何資訊。例如,不需要關於有效聲音源之數目(例如,學術研討會中之參與者之數目)之一先驗資訊,也不需要關於有效聲音源之相對位置(例如,一學術研討會房間中之參與者之配置)之任何資訊。對於聲音之資訊係只從有效聲音源之特性推導出,其被稱為說明聲音場景之「有效聲音源」(ESS)。ESS仿效一空間聲場景,其乃因為一個或多個ESS係於一某個時間瞬間或在一某個時頻箱(time-frequency bin)中是有效的。以下,專業術語「物理源」係用於說明來自聲音場景(例如一揚聲器)之一實際來源,而專業術語有效聲音源(ESS)(亦被稱為「聲音源」)係用於說明一種在單一時間或時頻箱中是有效的聲
音事件。每個ESS係以一位置及以一能量為其特徵。這種資訊允許建構一空間能量分佈(例如一空間能量密度),其允許決定虛擬麥克風之最佳位置或方位。
ESS之參數可譬如藉由採用關於用以於一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號之設備而說明於下的概念被獲得。聲音事件位置估計係關於用以產生一虛擬麥克風之一音源輸出信號之設備而被說明於下,更特別是參考圖15-17被說明。那裡所說明之概念可被採用以決定一有效聲音源之位置。傳播補償係關於用以產生一虛擬麥克風之一音源輸出信號之設備而說明於下,更特別是參考圖17-20被說明。那裡所說明的概念可被採用以決定一有效聲音源之能量。
依據一實施例,空間資訊估計器可包含一聲音場景中心估計器,用以估計環境中之一聲音場景之一中心之一位置。空間資訊估計器可更包含一麥克風位置計算器,用以依據聲音場景之中心之位置計算出一麥克風之一位置以作為聲源空間資訊。
在另一實施例中,麥克風位置計算器可能適合於計算麥克風之位置,其中麥克風係為一虛擬麥克風。
此外,依據另一實施例,聲音場景中心估計器可能適合於計算空間能量密度之一重心,用以估計聲音場景之中心。
在更進一步的實施例中,聲音場景中心估計器可能設計成用以依據空間能量密度來決定一能量延遲分佈圖,並依據關於環境中之複數個場地之每一個之能量延遲分佈圖來決定一均方根延遲。聲音場景中心估計器可能設計成用以決定複數個場地之一個場地之位置以作為聲音場景之中心,其具有複數個場地之均方根延遲之最小均方根延遲。
在另一實施例中,聲音場景中心估計器可能適合於實施圓圈積分,用以估計聲音場景之中心,其中聲音場景中心估計器可能適合於藉由應用譬如下述公式而藉由以一圓圈捲積空間能量密度來實施圓圈積分g(x,y)=Γ(x,y)* C(r,o)(x,y)其中Γ(x,y)係為空間能量密度,且其中C(r,o)(x,y)表示一圓圈,用以當環境係為一種二維環境時,決定關於環境之複數個場地之每一個之一圓圈積分值。
或者,聲音場景中心估計器可能適合於藉由應用例如下述公式而藉由以一球體捲積空間能量密度來實施圓圈積分g(x,y,z)=Γ(x,y,z)* C(r,o)(x,y,z)其中,Γ(x,y,z)係為空間能量密度,且其中C(r,o)(x,y,z)表示一球體,用以當環境係為三維環境時,決定關於環境之複數個場地之每一個之一圓圈積分值。
此外,依據一實施例,聲音場景中心估計器可能適合於決定環境之複數個場地之每一個之圓圈積分值之一最大值,用以估計聲音場景之中心。
在更進一步的實施例中,麥克風位置計算器可能適合於決定經由環境中之聲音場景之中心之複數條線之一條寬度最寬的線。經由聲音場景之中心之複數條線之每一條可具有一能量寬度,其中寬度最寬的線可能是經由具有最大能量寬度之聲音場景之中心之複數條線之線。
依據一實施例,複數條線之一條考量線之能量寬度可能表示在考量線上之一段之一最大長度,以使限制此段之此段之第一點,且以使限制此段之此段之一不同的第二點,兩者都具有由空間能量密度(可能大於或等於一預定能量數值)所表示之一能量數值。麥克風位置計算器可能適合於決定麥克風之位置,以使經由聲音場景之中心與麥克風之位置之一第二線可能垂直於寬度最寬的線。
在一實施例中,麥克風位置計算器可能設計成用以將一奇異值分解應用至一具有複數行之矩陣。此矩陣之這些行表示在相對於聲音場景之中心之環境中的多個場地之位置。此外,此矩陣之這些行只表示具有由空間能量密度(大於一預定閾值)所表示之多個能量數值之這些場地之位置,或此矩陣之這些行只表示具有由空間能量密度(大於或等於一預定閾值)所表示之多個能量數值之這些場地之位置。
依據另一實施例,空間資訊估計器可包含一方位決定器,用以依據空間能量密度來決定麥克風之一方位。方位決定器可能適合於決定麥克風之方位,以使麥克風係朝向聲音場景之中心被配向。方位決定器可能設計成用以藉由應用下述公式來決定關於複數個方向φ之每一個之一積分值f(φ)
其中rmax定義距離麥克風之一最大距離,且其中方位決定器係被設計成用以依據決定的積分值f(φ)來決定麥克風之方位。
在另一實施例中,空間能量分佈決定器可能適合於藉由應用下述公式而為一時頻箱(k,n)決定關於環境之複數個場地之空間能量密度
當環境係為一種二維環境時,或藉由應用下述公式
當環境係為一種三維環境時,其中k表示頻率指數及n表示時間指數,其中x、y、z表示複數個場地之其中一個之座標,其中能量i(k,n)表示位於時頻箱(k,n)之第i個聲音源之能量數值,其中xESSi、yESSi、zESSi表示第i個聲音源之座標,其中γi係為一純量值,其可能表示一每個有效聲音源之位置估計是如何可靠的指示因子,且其中g係為取決於x、y、z、xESSi、yESSi、zESSi、k、n及γi之一函數。
10、21‧‧‧空間能量分佈決定器
103‧‧‧VM擴散/虛擬麥克風/輸出
104‧‧‧輸入/位置、方位及特徵
105‧‧‧輸出/虛擬麥克風音源信號
106‧‧‧輸出/空間側資訊
11‧‧‧定位麥克風之設備
110、201‧‧‧聲音事件位置估計器
111...11N‧‧‧輸入/音源信號/真實空間麥克風
120‧‧‧資訊計算模組
121...12N‧‧‧輸入
13‧‧‧有效度量標準
15‧‧‧位置/輸出
151、152、161、162、171、172‧‧‧麥克風陣列
153‧‧‧真實聲源
16‧‧‧方位
163‧‧‧揚聲器
165‧‧‧鏡像源
20、22‧‧‧空間資訊估計器
202‧‧‧(側)資訊計算方塊/模組
205‧‧‧位置/位置估計/聲音事件位置估計器
23、spd‧‧‧空間能量密度(SPD)
31‧‧‧空間能量分佈主處理單元
32‧‧‧空間能量分佈後處理單元
41‧‧‧聲音場景中心估計器
410、420‧‧‧真實空間麥克風陣列
42、993‧‧‧麥克風位置計算器
43‧‧‧輸出/聲音場景之中心
430‧‧‧第一線
44‧‧‧(虛擬)麥克風位置/方位計算器
440‧‧‧第二線
45‧‧‧方位決定器
500‧‧‧傳播補償器
501‧‧‧傳播參數計算模組
502‧‧‧組合因子計算模組/模組
503‧‧‧頻譜權重計算單元
504‧‧‧傳播補償模組
505‧‧‧組合模組/模組
506‧‧‧頻譜加權應用模組
507‧‧‧空間側資訊計算模組
510‧‧‧第一空間麥克風/組合器
520‧‧‧第二空間麥克風/頻譜加權單元
530、540‧‧‧單位向量
550、560‧‧‧線
610、620、PIPLS(k,n)、posRealMic‧‧‧位置
801‧‧‧擴散計算單元
810‧‧‧能量分析單元
820‧‧‧擴散組合單元
830‧‧‧直達聲音傳播調整單元
840‧‧‧直達聲音組合單元
850‧‧‧擴散子計算器
91...9N‧‧‧輸入/有效聲音源
910‧‧‧第一麥克風陣列
920‧‧‧第二麥克風陣列
930‧‧‧定位聲音事件
940‧‧‧虛擬(空間)麥克風
991、994‧‧‧設備
992‧‧‧麥克風位置計算器/定位麥克風之設備
a(k,n)、a1(k,n)、a2(k,n)‧‧‧方位角角度
aspi‧‧‧聲源空間資訊
cmp‧‧‧麥克風位置
COG‧‧‧聲音場景之重心
dCOG-VM‧‧‧在COG及VM之間的距離
di1‧‧‧第一方向資訊
di2‧‧‧第二方向資訊
Dt12‧‧‧相對延遲
h(k,n)‧‧‧聲音傳播路徑
is1‧‧‧錄製之音源輸入信號
os‧‧‧音源輸出信號
pos1mic‧‧‧第一真實麥克風位置
posVmic‧‧‧虛擬位置
r‧‧‧位置向量
ssi‧‧‧聲音源資訊
ssp‧‧‧聲音源位置/聲源位置估計
t0‧‧‧時間
vos‧‧‧虛擬輸出信號
α‧‧‧VM開口角度
(k,n)‧‧‧時頻箱/聲音事件之位置
以下參考附圖說明本發明之實施例,其中:圖1顯示一種依據一實施例之定位麥克風之設備。
圖2說明一種依據另一實施例之定位麥克風之設備。
圖3顯示依據一實施例之定位麥克風之設備之輸入及輸出。
圖4a-4c顯示一種定位麥克風之設備之複數個應用方案。
圖5說明依據一實施例之空間能量分佈決定器21。
圖6a顯示用於建構函數g之差量函數。
圖6b說明用於建構函數g之分佈函數。
圖7顯示依據一實施例之空間資訊估計器。
圖8顯示依據更進一步的實施例之一空間資訊估計器。
圖9顯示依據描述更多細節之另一實施例之麥克風位置/方位計算器44。
圖10a-10c說明依據一實施例之依據投射之能量寬度之最佳化。
圖11顯示依據另一實施例之空間資訊估計器,其中空間資訊估計器更包含一方位決定器。
圖12顯示一種依據一實施例之用於產生一音源輸出信號之設備。
圖13顯示依據一實施例之用於產生一音源輸出信號之設備及方法之輸入及輸出。
圖14顯示依據一實施例之用於產生一音源輸出信號之設備之基本構造,其包含一聲音事件位置估計器及一資訊計算模組。
圖15顯示一示範方案,於其中真實空間麥克風係被描繪為均一線性陣列(Uniform Linear Arrays),每個有3個麥克風。
圖16說明在3D中之兩個空間麥克風,用於在3D空間中估計到達方向。
圖17顯示一幾何形狀,於此目前時頻箱(k,n)之一等向性點狀聲音源係位於一位置PIPLS(k,n)。
圖18說明依據一實施例之資訊計算模組。
圖19說明依據另一實施例之資訊計算模組。
圖20顯示兩個真實空間麥克風,一定位的聲音事件及一虛擬空間麥克風之位置。
圖21顯示依據一實施例之如何相對於一虛擬麥克風獲得到達方向。
圖22說明一種從依據一實施例之虛擬麥克風之觀點而言,用來推導出聲音之DOA之可能方式。
圖23顯示依據一實施例之包含一擴散計算單元之一資訊計算方塊。
圖24說明依據一實施例之一擴散計算單元。
圖25顯示一方案,於此聲音事件位置估計並不可能。
圖26顯示兩個真實空間麥克風、一定位的聲音事件及一虛擬麥克風之位置。
圖27a-27c顯示多個方案,於此兩個麥克風陣列接收直達聲音,被牆壁回響之聲音及擴散聲音。
圖1顯示依據一實施例之一種定位麥克風之設備。此設備包含一空間能量分佈決定器10及一空間資訊估計器20。空間能量分佈決定器10係適合於決定一空間能量密度spd,其依據聲音源資訊ssi指示在環境中之複數個位置之能量數值,其中聲音源資訊ssi指示位於環境中之一個或多個有效聲音源(EES)之一個或多個能量數值及一個或多個位置數值。空間資訊估計器20適合於依據空間能量密度估計聲源空間資訊aspi。
圖2顯示依據另一實施例之定位麥克風之設備。此設備包含一空間能量分佈決定器21,用於依據有效聲音源資訊決定一個指示環境之複數個位置之能量數值之空間能量密度(SPD)(亦以空間能量分佈表示),其中有效聲音源資訊指示部署於環境中之一個或多個有效聲音源之一個或多個核心數值及位置數值。此設備更包含一空間資訊估計器22,用於依據空間能量密度估計一虛擬麥克風(VM)之一位置及/或方位。
圖3顯示依據一實施例之定位麥克風之設備之輸入及輸出。至此設備之輸入91、92、...9N包含能量,例如,聲場壓力平方及位置之絕對值,例如,2D或3D迪卡兒(Cartesian)座標。有效聲音源(ESS)描述聲音場景(聲場)。
有效聲音源可能例如等於如關於設備之以下所述之瞬間點狀聲音源(IPLS),用於在一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號。
於輸出,傳回一個或多個虛擬麥克風位置及場地。以下,專業術語「物理源」係用於說明來自聲音場景之實際來源,例如是一揚聲器,而專業術語有效聲音源(ESS),(亦以「聲音源」表示),係用於說明一聲音事件,其在單一時間或時頻箱(time-frequency bin)是有效的,如亦用來作IPLS,其相關於用於在一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號之設備而說明於下。
此外,吾人應注意到,專業術語「聲音源」涵蓋物理源與有效聲音源兩者。
依據圖2之本實施例之設備之輸入91、92、...、9N包含N個有效聲音源之位置及對應能量之資訊,N個有效聲音源係在一時間實例或一時頻箱之內被定位的,如下所述之關於用於在一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號之設備,其係揭露於下列文獻:[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,以及E.A.P.Habets。藉由使用由配置的陣列所蒐集之幾何資訊產生虛擬麥克風信號(Generating virtual microphone signals using geometrical information gathered by distributed arrays)。於免持語音通信和麥克風陣列的第三次聯合研討會(HSCMA’11)英國愛丁堡,2011年5月。
舉例而言,此種資訊可被包含於設備之資訊計算模組之圖14之輸出106,此設備用於在一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號,可配置的虛擬位置是當應用短時間傅立葉轉換(STFT)時,關於1、2、…、N之不同頻率箱(frequency bin)被考量於以下。
關於定位麥克風之設備,不同的操作模式可在某個時間間隔期間變成有效,每個表示用於為一個或多個虛擬麥克風定位及定方位之各種方案。可將一定位麥克風之設備使用於複數個應用方案:於一第一應用方案中,N個全向虛擬麥克風可能置於聲音場景之內(參見圖4a)。因此,於本應用方案中,一些虛擬麥克風覆蓋整個聲音場景。
於一第二應用方案中,單一虛擬麥克風係定位於聲音場景之聲源中心。舉例而言,將全向虛擬麥克風、心型指向虛擬麥克風或一虛擬空間麥克風(例如B-格式麥克風)安置成使所有參與者被最佳化地擷取(圖4b)。
於一第三應用方案中,將一空間麥克風置於聲音場景之「外部」。舉例而言,安置一虛擬立體聲麥克風以獲得一寬闊空間影像,如圖4c所示。
於一第四應用方案,估計虛擬麥克風之最佳方位,同時將虛擬麥克風安置在一固定位置(預先決定的位置),譬如虛擬麥克風之位置
及方向性可能是預定的,而只有方位是自動地被計算的。
吾人應注意到,所有上述應用可能包含暫時的適應性。例如,當揚聲器於房間中移動時,虛擬點麥克風的位置/方位跟隨此揚聲器。
於圖2及3,可選擇的資訊係由一有效度量標準(significant metric)13提供,有效度量標準13譬如表示用於估計ESS位置之可靠度之測定。舉例而言,這種度量標準可從到達方向估計器之變異(當如所說明地使用兩個以上的麥克風陣列時)推導出,如說明於以下之在一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號之設備;或從擴散參數推導出,請參照下列文獻的計算:[29]Ville Pulkki。利用定向音源編碼之空間聲再生(Spatial sound reproduction with directional audio coding)。J.音源工程學會,55(6):503-516,2007年6月。
度量標準可相對於所有輸入91、...、9N(譬如,可能使用關於所有輸入之度量標準之一固定數值)被表示,或可關於每個輸入91、...、9N不同地被定義。圖2之設備之輸出15、16可能包含一個或多個虛擬麥克風之位置及/或方位。依據應用,可能產生複數個虛擬麥克風之輸出(位置及方位),每個對應於一特定虛擬麥克風。
圖5顯示依據一實施例之一空間能量分佈決定器21。空間能量分佈決定器包含一空間能量分佈主處理單元31及一空間能量分佈後處理單元32。空間能量分佈決定器21係適合於決定(更正確地說是計算)一種以Γ(x,y,z,k,n)表示於以下之變化空間能量密度(SPD),Γ(x,y,z,k,n)表示於空間中之關於每個時頻箱(k,n)之某個點(例如(x,y,z))被定位的之能量。SPD係藉由對在有效聲音源91、...、9N之位置之能量數值(被輸入至空間能量分佈決定器21中)進行積分而產生。
關於一時頻箱(k,n)SPD之計算可能依據公式而完成
其中,(x,y,z)表示系統之座標,而xESSi、yESSi、zESSi係為有效聲音源i之座標。有效度量標準103γi表示一種每個有效聲音源之位置估計是多麼可靠之
指示因子。默認情況下,有效度量標準可能等於1。於此,吾人應注意到能量i(poweri)及座標xESSi、yESSi及zESSi對應至圖3之輸入9i。此外,吾人應注意到,為表示法之簡化之便,(k,n)延伸將不會被寫入於下。然而,下述公式仍然取決於特別考量的時頻箱(k,n)。
由空間能量分佈主處理單元31(例如於圖5中)產生之SPD可能更進一步的被空間能量分佈後處理單元32(SPD及暫時積分模組之後處理)處理,並且例如,藉由採用一自回歸濾波器而於時間上積分。為了更強健以抵抗聲音場景離群值(亦即,由不正確的位置估計所導致的),任何種類之後處理濾波器都可能被應用於SPD上。這一種後處理濾波器可能譬如是一低通濾波器或一形態(侵蝕、膨脹)濾波器。
當計算一個或多個虛擬麥克風之位置及/或方位時,可能採用一種可選擇的參數,其取決於SPD。此種參數可能參考例如,置放虛擬麥克風(VM)之房間之被禁止的及/或較佳的區域,或者可能參考SPD,選擇滿足某些預先決定的規則之特定SPD範圍。
如於公式(1)可瞭解到,g為在空間中之有效度量標準γ(更正確地說是γi)之函數,其在默認情況下具有等於1之數值。否則,γ可能用於考慮不同貢獻。舉例而言,如果σ2是位置估計之變異,則例如γ可能設定為。
或者,可能採用在麥克風陣列計算之平均擴散Ψ,導致γ=1-Ψ。
藉此,可能選擇γ,以使其減少更不可靠的估計及增加更可靠的估計。
對於建構函數g存在複數個可能性。實際上特別有用之兩個例子是:
g(γ,x,y,z)=γ.δ(x).δ(y).δ(z) (3)
於第一函數,δ(x)、δ(y)及δ(z)表示差量函數(參見顯示差量函數之圖6a)。於第二函數,s=[x y z]T,μ=[μ x μ y μ z ]T是平均向量,而Σγ是高斯分佈函數g(參見顯示分佈函數之圖6b)之協方差矩陣(covariance matrix)。協方差矩陣係使用下述公式計算:
Σ γ =E[(s-μ)(s-μ) T ], (4)其取決於關於之方案γ之選擇,即考慮到譬如關於1D情況:σ 2=E[(x-μ x )2]. (5)
於公式(3)可瞭解到,函數g可被在由輸入91...9N所得之有效聲音源位置周圍之一分佈函數描述,於此例如有效度量標準係為一高斯分佈之變異之反函數。如果一聲音源位置之估計具有一高可靠度,則根據分佈將會是相當狹小,而一更不可靠的估計將對應至一高變異,且將因此是一寬廣分佈,參見譬如顯示一種1D例子之圖6b。
圖7顯示依據一實施例之一空間資訊估計器22。空間資訊估計器包含一聲音場景中心估計器41,用於估計環境中之聲音場景之中心之位置。再者,空間資訊估計器包含一麥克風位置計算器42,用於基於聲音場景之中心之位置計算麥克風之位置作為聲源空間資訊。
圖8顯示依據更進一步的實施例之空間資訊估計器22。空間資訊估計器包含一虛擬麥克風位置計算器44,其適合於計算一虛擬麥克風之位置,且更進一步適合於決定一虛擬麥克風之方位。虛擬麥克風位置計算器44因此亦被稱為麥克風位置/方位計算器44。
圖8之空間資訊估計器22使用以前產生之SPD 23作為輸入。其依據目標應用回傳一個或多個虛擬麥克風之位置15及方位16作為輸出。第一處理方塊(聲音場景中心估計器41)提供聲音場景中心之估計。方塊41之輸出43,例如聲音場景中心之位置,接著被提供至第二處理方塊(虛擬麥克風位置/方位計算器44)作為輸入。虛擬麥克風位置/方位計算器44依據目標應用執行一個或多個虛擬麥克風之最終位置15及方位16之實際估計。
聲音場景中心估計器41提供聲音場景中心之估計。聲音場景中心估計器41之輸出接著被被供至麥克風位置/方位計算器44作為輸
入。麥克風位置/方位計算器44依據表示目標應用的特色之操作模式執行一個或多個虛擬麥克風之最終位置15及/或方位16之實際估計。
現在將更詳細地說明聲音場景中心估計器之實施例。為了獲得聲音場景之中心,存在有數個可能的概念。
依據一第一實施例之第一概念,聲音場景之中心係藉由計算SPD Γ(x,y,z)之重心而獲得。Γ(x,y,z)之數值可能是s,被解釋成為於空間中之點(x,y,z)之既存質量。
依據一第二實施例之第二概念,應該可發現具有通道之最小時間分散之空間中之位置。這是藉由考慮到均方根(RMS)延遲擴展而達成。首先,關於空間中之每個點p=(x0,y0),依據SPD Γ(x,y,z)計算一能量延遲分佈圖(PDP)Ap(τ),例如使用
於此
從Ap(τ),接著使用下述的方程式計算RMS延遲:
於此表示Ap(τ)之平均延遲。平均延遲 T RMS,p最小之位置將表示聲音場景之中心。
依據一第三實施例之第三概念,其可能被採用作為聲音場景中心估計之替代方案,提出一種「圓圈整合(circle-integration)」。舉例而言,於2D狀況下,SPD Γ(x,y)係依據下述公式而以一圓圈C(r,o)纏繞:g(x,y)=Γ(x,y)* C (r,O)(x,y),其中r是圓圈之半徑,而o定義圓圈之中心。半徑r可能是常數或可隨著於點(x,y)之能量數值來變化。舉例而言,在點(x,y)之高能量可能對應至大半徑,而低能量可能對應至小半徑。對能量之額外依賴關係亦是可能的。一個這種例子將會是在使用二元高斯函數以建構函數g(x,y)之前,利用二元高斯函數來纏繞圓圈。依據這一種實施例,二元高斯函數之協方差矩
陣變成取決於位置(x,y)之能量,亦即,高能量對應至低變異,而低能量對應至高變異。
一旦計算出g(x,y),聲音場景之中心就可能依據下述公式來決定:
於更進一步的實施例中,此種概念係藉由採用具有一球體之Γ(x,y,z)之3D卷積而延伸至3D,依此類推。
圖9顯示依據描述更多細節之另一實施例之麥克風位置/方位計算器44。聲音場景之中心43與SPD23一起被提供至麥克風位置/方位計算器44作為輸入。於麥克風位置/方位計算器44中,關於聲音場景之中心43之資訊,可依據目標應用所需要之操作被複製至輸出,並被直接地使用作為一虛擬麥克風之位置(其譬如在適合圖4b之應用方案時,關於使一個虛擬麥克風安置於聲源聲音場景之中心之方案)。或者,關於聲音場景之中心43之資訊可被使用作為麥克風位置/方位計算器44之內部之一修改參數。
可能應用不同概念來計算一麥克風位置,例如:依據投射之能量寬度之最佳化,依據主成分分析之最佳化。
關於假設之示範目的,可能依據圖4c之應用方案(關於在側場景之外部之一空間麥克風之方案)來計算麥克風之位置。然而,這些說明係同等適合於任何其他應用方案。
以前列舉之依據實施例之用於估計虛擬麥克風之位置之概念,現在將更詳細說明於下。
依據投射之能量寬度之最佳化定義一組M條等間距隔開的線,其通過聲音場景之中心。關於在例如2D方案中之每條線,SPD Γ(x,y)係正交地投影於它們之上並被加總。
圖10a至10c顯示依據投射之能量寬度之最佳化。於圖10a中,投影的能量函數Pproj係為每一條l1,…li,…lM線被計算。然後計算函數之相對應的寬度,參見圖10b。舉例而言,寬度可能被定義為-3 dB
寬度,其係對應至使距離段之最左邊及最右邊點對應至一預定能量位準(譬如高於-3 dB之能量位準)之距離。然後,識別出具有最廣寬度之線,且將虛擬麥克風置於與其正交之方向。可能設定虛擬麥克風之方位以使其指向聲音場景之中心,如下一章節所說明。利用此種方法,可獲得兩個可能的虛擬麥克風(VM)位置,因為可將VM安置於正或負正交方向上。
可能譬如依據幾何考量以及虛擬麥克風之開口角度計算出VM所安置之距離。此乃以圖10c表示。VM安置之距離隨著目標應用所特定之操作模式變化。這意味著建構三角形,以使圖10c之寬度i表示三角形之一側,而重心COG係為此側之中點。藉由採正交線於COG並界定其為VM開口角度α之平分線,找到三角形之第三頂點。然後,平分線之長度給予在VM位置與聲音場景之中心之間之距離。
依據另一實施例,基於投射之能量所說明之最佳化概念可能延伸至3D。於此情況下,M2個等間距隔開的平面(於方位角及俯仰方向)係被定義以取代M條線。然後,寬度係對應至圓圈之直徑,其包含投射之能量之最大部分。最終位置是藉由置放VM於最大圓圈直徑之正交平面表面而獲得。依據一實施例,從聲音場景之中心至VM位置之距離可能再被計算,類似於2D情況,其使用幾何考量以及由操作模式而特別指定之開口角度。
依據另一實施例,採用依據一主成分分析之最佳化。依據一種像主成分分析之處理之最佳化,直接使用從SPD可得到的資訊。首先,將SPD Γ(x,y,z)量化,且將一閾值-選擇性濾波器應用於量化之資料集上。藉此,捨棄具有小於某個閾值之能階之所有點。後來,剩下的點hi=[hx,i,hy,i,hz,i]T是以平均值為中心(亦即,以平均值為中心的點表示第i個有效來源減去聲音場景中心之座標之座標),且然後被重組於一資料矩陣H如下:
於此N定義在取閾值之後之點之數目。然後,奇異值分解(SVD)被應用至H,以使其被因式分解成下述乘積:
H=U.Σ.V T .
U之第一行表示主分量,其具有資料集之最高變異性。U之第二行係垂直於第一行並表示我們要置放VM之方向。寬度係隱式地由矩陣Σ中之第一奇異值所得。知道寬度以及方向後,我們可計算VM之位置及方位,如上面參考圖10a至10c所說明之依據投射之能量寬度之最佳化方法。
於另一實施例中,將這些方法應用至2D問題,其是直截了當的,因為僅需要從方程式及計算中忽略/移除z軸分量。
關於其他應用,例如圖4a之應用方案(複數個虛擬麥克風覆蓋整個聲音場景),可能採用一種不同概念,例如一疊代最佳化機構。於一第一步驟,識別出具有SPD之最大值之位置。藉此,標示出總數N個虛擬麥克風之第一VM之位置。於此之後,圍繞此位置(亦即,至多達某個距離)之所有能量被移除離開SPD。重複先前步驟,直到找到N個虛擬麥克風之所有位置為止。在未定義N的狀況下,則繼續重複先前步驟,直到SPD之最大值小於某個閾值為止。
圖11顯示另一實施例,其中一空間資訊估計器22更包含一方位決定器45。方位決定器45係適合於依據空間能量密度23決定麥克風之一(適當的)方位16。
以下,將說明方位估計。依據投射之能量寬度以及主成份分析之最佳化方法隱式地計算虛擬麥克風之方位16,因為將虛擬麥克風假設為被定方位至聲音場景之中心。
然而,關於某些其他應用方案,可能譬如於一應用方案中適合於詳細地計算方位,其中估計虛擬麥克風之最佳方位,其中虛擬麥克風係位於一固定位置。於此情況下,應決定方位以使虛擬麥克風拾起聲音場景中之大部分的能量。
依據一實施例,為了決定一虛擬麥克風之方位,首先取樣可能的方向φ,且執行於這些方向之每個上之遍及能量之積分。獲得φ之下述函數:
於此rmax被定義為離開VM之最大距離,並控制VM之拾音模式。然後,VM最終方位被計算為:
於此(φ)係為基於VM之輸入特徵之加權函數。例如,(φ)可能是定義來自方向φ之能量是如何被縮放之函數,假設某個觀察方向及VM之特定拾音模式的話。
以下將說明用於產生一音源輸出信號以模擬一虛擬麥克風於一環境中之一可配置的虛擬位置之錄音之設備。依據上述實施例之其中一個之一定位麥克風之設備可能被採用以為產生音源輸出信號之設備決定虛擬位置。
圖12顯示用於產生一音源輸出信號以模擬一虛擬麥克風於一環境中之一可配置的虛擬位置posVmic之錄音之設備。此設備包含一聲音事件位置估計器110及一資訊計算模組120。聲音事件位置估計器110接收來自一第一真實空間麥克風之一第一方向資訊di1及來自一第二真實空間麥克風之一第二方向資訊di2。聲音事件位置估計器110適合於估計一聲音源位置ssp,其指示一聲音源於環境中之一位置,聲音源放射一聲波,其中聲音事件位置估計器110適合於依據一第一方向資訊di1及依據一第二方向資訊di2來估計聲音源位置ssp,其中第一方向資訊di1是由位於環境中之一第一真實麥克風位置pos1mic之一第一真實空間麥克風提供,而第二方向資訊di2是由位於環境中之一第二真實麥克風位置之一第二真實空間麥克風提供。資訊計算模組120適合於依據一第一錄製之音源輸入信號is1(由第一真實空間麥克風錄製)、依據第一真實麥克風位置pos1mic及依據虛擬麥克風之虛擬位置posVmic來產生音源輸出信號。資訊計算模組120包含一傳播補償器,其適合於產生一第一變化音源信號,其所採取的是藉由修改第一錄製之音源輸入信號is1,其所採取的是藉由補償在於第一真實空間麥克風由聲音源發出之聲波之到達與於虛擬麥克風之聲波之到達之間之一第一延遲或振幅衰減,其所採取的是藉由調整第一錄製之音源輸入信號is1之一振幅數值、一幅度數值或一相位數值,用來獲得音源輸出信號。
圖13顯示依據一實施例之設備及方法之輸入及輸出。來自兩個以上的真實空間麥克風111、112、...、11N之資訊係回饋至設備/被方法處理。此種資訊包含被真實空間麥克風拾音之音源信號與來自真實空間麥克風之方向資訊,例如到達方向(DOA)估計。音源信號與方向資訊(例如到達方向估計)可能以一時頻域表示。舉例而言,如果期望2D幾何重建並選擇一傳統STFT(短時間傅立葉轉換)範圍以供信號之表現用,則DOA可能依據k及n(亦即頻率及時間指數)被表示為方位角角度。
於實施例中,在空間中以及描述虛擬麥克風之位置之聲音事件定位的可能依據共同座標系統中之實際及虛擬空間麥克風之位置及方位來實施。此種資訊可能以圖13中之輸入121...12N及輸入104表示。輸入104可能另外指定虛擬空間麥克風之特徵,例如,其位置及拾音模式,如以下所將探討的。如果虛擬空間麥克風包含多重虛擬感測器,則可能考量它們的位置及相對應的不同的拾音模式。
當期望時,設備之輸出或一對應的方法可能是一個或多個聲音信號105,其可能已被一空間麥克風拾音,而空間麥克風是如由104而特別指定地被定義且安置。此外,設備(更正確地說是方法)可能提供對應的空間側資訊106(可能藉由採用虛擬空間麥克風來估計)作為輸出。
圖14顯示依據一實施例之設備,其包含兩個主處理單元、一聲音事件位置估計器201及一資訊計算模組202。聲音事件位置估計器201可能基於包含於輸入111...11N之DOA及基於真實空間麥克風之位置及方位之知識(DOA已被計算出)來實現幾何重建。聲音事件位置估計器205之輸出包含聲音源之位置估計(2D或3D),於此聲音事件為每個時間及頻率箱產生。第二處理方塊202係為一資訊計算模組。依據圖14之本實施例,第二處理方塊202計算一虛擬麥克風信號及空間側資訊。其因此亦以虛擬麥克風信號及側資訊計算方塊202表示。虛擬麥克風信號及側資訊計算方塊202使用聲音事件之位置205來處理包含於真實空間麥克風111...11N之音源信號,以輸出虛擬麥克風音源信號105。如果需要的話,方塊202亦可能計算對應於虛擬空間麥克風之空間側資訊106。以下實施例說明方塊201及202可能如何操作之可能性。
以下,將更詳細地說明依據一實施例之一聲音事件位置估
計器之位置估計。
依據問題(2D或3D)之維數及空間麥克風之數目,對於位置估計可能有數個解決方法。
如果在2D(最簡單的可能狀況)中存在有兩個空間麥克風,則可能採用簡單的三角測量。圖15顯示一示範方案,於其中真實空間麥克風被描繪為均一線性陣列(ULA),每個有3個麥克風。被表示為方位角角度a1(k,n)及a2(k,n)之DOA,係為時頻箱(k,n)被計算。這是藉由採用一適當的DOA估計器(例如ESPRIT或(root)MUSIC)至轉換成為時頻域之壓力信號而達成,其中,DOA估計器為ESPRIT或(root)MUSIC係分別揭露於下列文獻[13]R.Roy,A.Paulraj以及T.Kailath,"藉由子空間旋轉法之到達方向估計-ESPRIT",在1986年4月之美國加利福尼亞州史丹佛大學之語音與信號處理(ICASSP)之IEEE國際學術研討會中(IEEE音響國際會議,語音和信號處理(ICASSP),史丹福,美國加州,1986年4月);及[14]R.Schmidt,"多重發射器場地及信號參數估計(Multiple emitter location and signal parameter estimation)",關於天線與傳播之IEEE學報,第34卷,第3號,第276-280頁,1986年。
於圖15中,顯示兩個真實空間麥克風(於此是兩個真實空間麥克風陣列410、420。兩個估計的DOA a1(k,n)及a2(k,n)係以兩條線表示,一第一線430表示DOA a1(k,n),而一第二線440表示DOA a2(k,n)。經由知道每個陣列之位置及方位之簡單幾何計算,三角測量是可能的。
當兩條線(第一線430、第二線440)正好平行時,三角測量會失敗。然而,在實際應用中,這是非常不可能的。然而,並非所有三角測量結果都會對應至考慮空間中之聲音事件的一物理或可行位置。舉例而言,聲音事件之估計位置可能是太遠離假設空間或甚至在假設空間外部,藉以表示DOA可能並未對應至任何可利用所使用的模型而實體上被演奏之聲音事件。這種結果可能由感測器噪音或太強大的房間混響所導致。因此,依據一實施例,這種不希望得到的結果被標記,以使資訊計算模組202可適當地處理它們。
圖16說明一種方案,於此一聲音事件之位置係在3D空間中被估計。採用了適當的空間麥克風,譬如,一平面或3D麥克風陣列。在圖16中,顯示了一第一空間麥克風510(譬如一第一3D麥克風陣列)以及一第二空間麥克風520(譬如一第一3D麥克風陣列)。3D空間中之DOA可能譬如被表示成方位角及仰角。可能採用單位向量530、540以表示DOA。兩條線550、560係依據DOA被投影。在3D中,即使利用很可靠的估計,依據DOA所投影的兩條線550、560可能不會相交。然而,三角測量仍然可譬如藉由選擇連接兩條線之最小段之中點來實現。
類似於2D情況,三角測量可能失敗或可能產生關於方向之某些組合之不能實行的結果,其接著亦可被標記成例如圖14之資訊計算模組202。
如果存在兩個以上的空間麥克風,則數個解決方法是可能的。舉例而言,上面所說明之三角測量可以為所有真實空間麥克風對(如果N=3,1與2,1與3,以及2與3)而實現。所產生之位置然後可被平均(沿著x及y,且如果考量3D的話,沿著z)。
或者,可能使用更多複合概念。舉例而言,可能應用機率方法,揭露於下列文獻:[15]J.Michael Steele,"平面上之隨機樣品之最佳三角測量(Optimal Triangulation of Random Samples in the Plane)",概率的史冊,第10卷,第3號(1982年8月),第548-553頁。
依據一實施例,聲場可能在時頻域中被分析,舉例而言,經由一短時間傅立葉轉換(STFT)而獲得,於其中k及n分別表示頻率指標k及時間指標n。對某個k及n而言,位於一任意位置pv之複合壓力Pv(k,n)係塑造成由一窄帶等向性點狀源(narrow-band isotropic point-like source)所放射之單一球面波,例如藉由採用下述公式:P v (k,n)=P IPLS(k,n).γ(k,p IPLS(k,n),p v ), (1)於此,PIPLS(k,n)係為於其位置PIPLS(k,n)而由IPLS所發出之信號。複合因子γ(k,PIPLS,pv)表示從PIPLS(k,n)至pv之傳播,例如,其導入適當的相位及大小修正。於此,可能應用下述假設,在每個時頻箱中,只有一個IPLS是有效的。然而,位於不同位置之多重窄帶IPLS於單一時間瞬間
亦可能是有效的。
每個IPLS不是仿效直達聲音就是仿效一不同的房間回響。其位置PIPLS(k,n)理想上可能分別對應至位於房間內部之一真實聲源,或位於外部之一鏡像聲源。因此,位置PIPLS(k,n)亦可能表示一聲音事件之位置。
請注意專業術語「真實聲源」表示真實存在於錄製環境中之真實聲源,例如揚聲器或樂器。反之,關於「聲源」或「聲音事件」或「IPLS」,我們表示有效的聲源,其於某些時間瞬間或於某些時頻箱是有效的,其中聲源譬如可表示真實聲源或鏡像源。
圖27a-27b顯示定位聲源之麥克風陣列。定位的聲源依據它們的本質可具有不同的物理演奏。當麥克風陣列接收直達聲音時,它們可能能夠定位一真實聲源(例如揚聲器)之位置。當麥克風陣列接收回響時,它們可能定位一鏡像源之位置。鏡像源亦是聲源。
圖27a顯示一種方案,於此兩個麥克風陣列151及152接收來自一真實聲源153(一真實存在的聲源)之直達聲音。
圖27b顯示一種方案,於此兩個麥克風陣列161、162接收反響聲音,其中聲音已被一牆壁反響。因為回響,麥克風陣列161、162定位此位置,於此聲音似乎來自位於一鏡像源165之一位置(其不同於揚聲器163之位置)。
圖27a之真實聲源153與鏡像源165兩者都是聲源。
圖27c顯示一種方案,於此兩個麥克風陣列171、172接收擴散聲音,且並不能夠定位一聲源。
雖然這種單波模型只有對輕度混響環境而言是正確的,但鑑於源信號滿足W-分離正交(WDO)條件,亦即,時頻重疊足夠小。這對於語音信號而言通常是真實的,請參照下列文獻:[12]S.Rickard及Z.Yilmaz,"針對言語之接近W-分離正交(On the approximate W-disjoint orthogonality of speech)",於語音及信號處理,2002.ICASSP 2002.2002年4月之IEEE國際學術研討會,第1卷。
然而,此模型亦提供一良好估計給其他環境,且因此亦適合於那些環境。
以下,說明依據一實施例之位置PIPLS(k,n)之估計。在某個時頻箱中之一有效IPLS之位置PIPLS(k,n),從而是一時頻箱中之一聲音事件之估計,係基於在至少兩個不同的觀察點所測得之聲音之到達方向(DOA)而經由三角測量被估計。
圖17顯示一種幾何形狀,於此目前時頻槽(time-frequency slot)(k,n)之IPLS係位於未知位置PIPLS(k,n)中。為了決定需要的DOA資訊,採用具有一已知的幾何形狀、位置及方位之兩個真實空間麥克風(於此是兩個麥克風陣列),其係分別被設置於位置610及620。向量p1及p2分別指向位置610、620。陣列方位係由單位向量c1及c2所界定。聲音之DOA係藉由使用一DOA估計演算法(例如如由DirAC分析(參見文獻[2]、[3])所揭露者)而在每個(k,n)之位置610及620中被決定。由此,相關於麥克風陣列之一觀點之一第一觀點單位向量(k,n)及一第二觀點單位向量(k,n)(兩者未顯示於圖17中),可能被提供作為DirAC分析之輸出。舉例而言,當在2D中操作時,第一觀點單位向量變成:
於此,φ1(k,n)表示於第一麥克風陣列所估計之DOA之方位角,如圖17所示。相關於原點之全域座標系統之相對應的DOA單位向量,可能藉由應用下述公式而被計算出:
於此,R係為座標變換矩陣,例如,
當在2D中操作且c 1=[c 1,x ,c 1,y ]T時。為了執行三角測量,方向向量d1(k,n)及d2(k,n)可能被計算成:
d 1(k,n)=d 1(k,n)e 1(k,n),d 2(k,n)=d 2(k,n)e 2(k,n), (5)於此,d1(k,n)=∥d1(k,n)∥ and d2(k,n)=∥d2(k,n)∥係為在IPLS與兩個麥克風陣列之間的未知距離。下述方程式p 1+d 1(k,n)=p 2+d 2(k,n) (6)可能解出d1(k,n)。最後,IPLS之位置PIPLS(k,n)係由下述方程式得到p IPLS(k,n)=d 1(k,n)e 1(k,n)+p 1. (7)
在另一實施例中,方程式(6)可能解出d2(k,n),而PIPLS(k,n)係採用d2(k,n)而類似地被計算出。
當在2D中操作時,方程式(6)總是提供一種解決方法,除非e1(k,n)及e2(k,n)是平行的。然而,當使用兩個以上的麥克風陣列時或當在3D中操作時,無法在方向向量d並未相交時獲得一種解決方法。依據一實施例,於此情況下,最靠近所有方向向量d之點係被計算出,且結果可被使用作為IPLS之位置。
在一實施例中,所有觀察點p1、p2、...應被設置,以使由IPLS所發出之聲音落入相同的暫時區塊n中。當任兩個觀察點之間的距離△小於下述方程式時,這種需求可能簡單地被滿足
於此,nFFT係為STFT視窗長度,0R<1指明在連續時框(time frames)之間的重疊,而fs係為取樣頻率。舉例而言,對於一種於48 kHz下具有50%重疊(R=0.5)之1024點STFT而言,在陣列之間用以滿足上述需求之最大間距係為△=3.65 m。
以下將更詳細說明依據一實施例之一資訊計算模組202(例如一虛擬麥克風信號及側資訊計算模組)。
圖18顯示依據一實施例之一種資訊計算模組202之圖表概觀。資訊計算單元包含一傳播補償器500、一組合器510以及一頻譜加權單元520。資訊計算模組202接收由一聲音事件位置估計器所估計之聲源位置估計ssp,一個或多個音源輸入信號係由一個或多個真實空間麥克風、一個或多個真實空間麥克風之位置posRealMic以及虛擬麥克風之虛擬位置posVmic所記錄。其輸出表示虛擬麥克風之一音源信號之一音源輸出信號os。
圖19顯示依據另一實施例之一種資訊計算模組。圖19之資訊計算模組包含一傳播補償器500、一組合器510以及一頻譜加權單元520。傳播補償器500包含一傳播參數計算模組501及一傳播補償模組504。組合器510包含一組合因子計算模組502及一組合模組505。頻譜加權單元520包含一頻譜權重計算單元503、一頻譜加權應用模組506以及一空間側資訊計算模組507。
為了計算虛擬麥克風之音源信號,幾何資訊(例如真實空間麥克風之位置及方位121...12N,虛擬空間麥克風之位置、方位及特徵104,以及聲音事件之位置估計205)係饋入到資訊計算模組202,更特別是,饋入到傳播補償器500之傳播參數計算模組501,饋入到組合器510之組合因子計算模組502以及饋入到頻譜加權單元520之頻譜權重計算單元503。傳播參數計算模組501、組合因子計算模組502與頻譜權重計算單元503計算使用於在傳播補償模組504、組合模組505與頻譜加權應用模組506中之音源信號111...11N之修改中的參數。
在資訊計算模組202中,音源信號111...11N最初可能被修正以補償由聲音事件位置與真實空間麥克風之間的不同傳播長度所得到的效果。然後,可合成這些信號以例如改善信噪比(SNR)。最後,所產生之信號接著可被頻譜加權以將虛擬麥克風之方向拾音模式與任何距離相依增益函數納入考量。這三個步驟係更詳細討論於下。
現在更詳細說明傳播補償。在圖20之上部中,顯示兩個真實空間麥克風(一第一麥克風陣列910及一第二麥克風陣列920),關於時頻箱(k,n)之一定位聲音事件930之位置,以及虛擬空間麥克風940之位置。
圖20之下部說明一暫時軸線。假設一聲音事件係於時間t0被發出,然後傳輸至真實及虛擬空間麥克風。抵達之時間延遲與振幅隨著距離改變,俾能使傳播長度更遠,振幅更弱且抵達之時間延遲更長。
位於兩個真實陣列之信號是可比較的,只有如果它們之間的相對延遲Dt12是小的話。否則,兩個信號之其中一個必須暫時被再對齊以補償相對延遲Dt12,且儘可能地按比例縮放以補償不同的衰減。
補償在抵達虛擬麥克風與抵達真實麥克風陣列(抵達其中一個真實空間麥克風)之間的延遲,改變了獨立於聲音事件之定位之延遲,使得其大部分應用而言是多餘的。
回到圖19,傳播參數計算模組501係適合於計算出待為每個真實空間麥克風及為每個聲音事件被校正之延遲。如果需要的話,其亦計算出待被認為補償不同的振幅降低之增益因子。
傳播補償模組504係被設計成用於使用此種資訊來相應地修改音源信號。如果這些信號要平移小量的時間(相較於濾波器組(filter bank)之時窗),則簡單的相位旋轉就足夠了。如果延遲是較大的,則需要更多複合的實施例。
傳播補償模組504之輸出係為表示在原始時頻域中之變化音源信號。
以下,將參考圖17說明依據一實施例之關於一虛擬麥克風之傳播補償之一特定估計,圖17特別顯示一第一真實空間麥克風之位置610與一第二真實空間麥克風之位置620。
於現在說明的本實施例中,假設至少一第一錄製音源輸入信號,例如真實空間麥克風(例如麥克風陣列)之至少一者之一壓力信號(譬如一第一真實空間麥克風之壓力信號)是可得到的。我們將考量的麥克風稱為參考麥克風,將其位置稱為參考位置pref並將其壓力信號稱為參考壓力信號Pref(k,n)。然而,傳播補償不僅可能只相關於一個壓力信號,而且相關於複數個或所有真實空間麥克風之壓力信號被處理。
在由IPLS所發出之壓力信號PIPLS(k,n)及位於pref之一參考麥克風之一參考壓力信號Pref(k,n)之間的關係,可以下述公式(9)表示:
P ref(k,n)=P IPLS(k,n).γ(k,p IPLS,p ref), (9)
一般而言,複合因子γ(k,pa,pb)表示由一球面波從其在pa中之原點至pb之傳播所產生之相位旋轉及振幅衰減。然而,實際測試指出只考慮到γ中之振幅衰減相較於亦考慮到相位旋轉,會導致具有顯著較少假象(artifacts)之虛擬麥克風信號之似真實的印象。
可以在空間中的某個點被測量之聲音能量強烈地取決於距離聲源,在圖6中距離聲源之位置PIPLS之距離r。在多數情況中,這種依存性可藉由使用熟知之物理原理(譬如,一個點源之遠場中的聲音壓力之1/r衰減)而被仿效成具有足夠精度。當已知一參考麥克風(譬如第一真實麥克風)與聲源之距離時,且當亦已知虛擬麥克風與聲源之距離時,則位於虛擬麥克風之位置之聲音能量可以從參考麥克風(例如第一真實空間麥克風)之信號及能量被估計出。這表示虛擬麥克風之輸出信號可藉由施加適當增益至參考壓力信號而被獲得。
假設第一真實空間麥克風係為參考麥克風,則pref=p1。在圖17中,虛擬麥克風係位於pv中。因為詳細知道圖17中之幾何形狀,所以可以容易決定在參考麥克風(在圖17中:第一真實空間麥克風)與IPLS之間的距離d1(k,n)=∥d1(k,n)∥,以及在虛擬麥克風與IPLS之間的距離s(k,n)=∥s(k,n)∥,亦即s(k,n)=∥s(k,n)∥=∥p 1+d 1(k,n)-p v ∥. (10)
位於虛擬麥克風之位置之聲音壓力Pv(k,n)係藉由結合公式(1)及(9)而計算出,藉以導致
如上所述,在某些實施例中,因子γ可能只考量到由於傳播之振幅衰減。例如假設聲音壓力隨著1/r減少,則
當公式(1)中之模型維持時,例如,當只有直達聲音出現
時,則公式(12)可以正確地重建大小資訊。然而,在純擴散聲場的情況下,例如,當並未滿足模型假設時,提出的方法在使虛擬麥克風移動遠離感測器陣列之位置時產生一信號之暗示反混響(dereverberation)。事實上,如上所述,在擴散聲場中,我們期望大部分的IPLS被定位靠近兩個感測器陣列。因此,當使虛擬麥克風移動遠離這些位置時,我們很可能增加圖17中之距離s=∥s∥。因此,參考壓力之大小係在依據公式(11)應用加權時被減少。同樣地,當使虛擬麥克風移動接近一真實聲源時,對應於直達聲音之時頻箱將被放大,以使整體音源信號將被察覺較少擴散。藉由調整公式(12)中之規則,吾人可以隨意地控制直達聲音放大及擴散聲音抑制。
藉由針對第一真實空間麥克風之錄製的音源輸入信號(例如壓力信號)執行傳播補償,獲得了一第一變化音源信號。
在實施例中,一第二變化音源信號可能藉由針對第二真實空間麥克風之一錄製的第二音源輸入信號(第二壓力信號)執行傳播補償而獲得。
在其他實施例中,更遠的音源信號可能藉由針對更遠的真實空間麥克風之錄製的更遠的音源輸入信號(更遠的壓力信號)執行傳播補償而獲得。
現在,更詳細說明依據一實施例之結合圖19中的方塊502及505。假設來自複數個不同真實空間麥克風之兩個以上的音源信號已被修改以補償不同傳播路徑,用以獲得兩個以上的變化音源信號。一旦來自不同的真實空間麥克風之音源信號已被修改以補償不同傳播路徑,它們就可能被結合以改善音源品質。藉此,舉例而言,可以增加SNR或可以減少餘響。
對於此組合之可能的解決方法包含:-加權平均,例如,考慮到SNR,或至虛擬麥克風之距離,或由真實空間麥克風所估計之擴散。可能採用傳統的解決方法,譬如,最大比率合成(MRC)或等增益合成(EQC),或者-某些或所有的變化音源信號之線性組合以獲得一組合信號。變化音源信號可能在線性組合中被加權以獲得組合信號,或者-選擇,例如,只使用一個信號,舉例而言,依據SNR或距離或擴散。
如果適合的話,模組502之任務係用以計算供合成用之參數,其在模組505中被實現。
現在,更詳細說明依據實施例之頻譜加權。對於這一點,參考圖19之方塊503及506。於這個最後步驟,由此組合或輸入音源信號之傳播補償所產生的音源信號係依據虛擬空間麥克風之空間特徵(如由輸入104特別指定)及/或依據重建的幾何形狀(在方塊205中所提供)而在時頻域中被加權。
對每個時頻箱而言,幾何上的重建允許我們容易地獲得相對於虛擬麥克風之DOA,如圖21所示。再者,亦可輕易計算出在虛擬麥克風與聲音事件之位置之間的距離。
接著考慮到期望的虛擬麥克風之型式,計算出關於時頻箱之權重。
在指向性麥克風的情況下,頻譜權重可能依據一預定拾音模式而被計算。舉例而言,依據一實施例,一心型麥克風可具有一由下述函數g(theta)所界定之拾音模式,g(theta)=0.5+0.5 cos(theta),於此,theta係為在虛擬空間麥克風之注視方向與從虛擬麥克風之角度來看的聲音之DOA之間的角度。
另一種可能性係為藝術(非物理)的衰減函數。在某些應用上,吾人可能期望以一個大於一個特性自由場傳播之因子來抑制聲音事件遠離虛擬麥克風。為了這個目的,某些實施例導入一額外加權函數,其取決於虛擬麥克風與聲音事件之間的距離。在一實施例中,應該只有拾音在距離虛擬麥克風之某段距離(例如以公尺計)之內的聲音事件。
相關於虛擬麥克風指向性,可以為虛擬麥克風應用任意的指向性模式。這樣做,吾人可以例如將一來源與一複合聲音場景分離。
因為聲音之DOA可以在虛擬麥克風之位置pv中被計算出,亦即
於此,cv係為描述虛擬麥克風之方位之一單位向量,可實現供虛擬麥克風用之任意的指向性。舉例而言,假設Pv(k,n)表示組合信號或傳播補償變化音源信號,則此公式:
計算出一虛擬麥克風之輸出具有心形指向性。依此方式可潛在地被產生之方向模式係取決於位置估計之精度。
在多個實施例中,一個或多個真實、非空間麥克風(譬如,一全向麥克風或例如一心型(cardioid)之一指向性麥克風)係被設置於除了真實空間麥克風以外之聲音場景,用以更進一步改善圖8中之虛擬麥克風音源信號105之聲音品質。這些麥克風並非用以蒐集任何幾何資訊,而是只提供一個更清晰的音源信號。這些麥克風可能被置於比空間麥克風更接近聲源。於此情況下,依據一實施例,真實、非空間麥克風之音源信號與它們的位置係只回饋至圖19之傳播補償模組504以供處理,以取代真實空間麥克風之音源信號。傳播補償接著相關於一個或多個非空間麥克風之位置而為非空間麥克風之一個或多個錄製的音源信號作處理。藉此,藉由使用額外非空間麥克風來實現一實施例。
在更進一步的實施例中,實現了虛擬麥克風之空間側資訊之計算。為了計算麥克風之空間側資訊106,圖19之資訊計算模組202包含一空間側資訊計算模組507,其適合於接收聲源之位置205與虛擬麥克風之位置、方位及特徵104作為輸入。在某些實施例中,依據需要被計算之空間側資訊106,虛擬麥克風音源信號105亦可被納入考量作為輸入至空間側資訊計算模組507。
空間側資訊計算模組507之輸出係為虛擬麥克風之側資訊106。從虛擬麥克風的角度來看,這種側資訊可以例如是關於每個時頻箱(k,n)之DOA或聲音之擴散。另一種可能的側資訊可以例如是有效聲音強度向量Ia(k,n),其將已在虛擬麥克風之位置中被測量。現在將說明可以如何推導出這些參數。
依據一實施例,實現了關於虛擬空間麥克風之DOA估計。
基於虛擬麥克風之一位置向量以及基於如圖22所顯示的聲音事件之一位置向量,資訊計算模組120係適合於估計虛擬麥克風之到達方向以作為空間側資訊。
圖22說明一種從虛擬麥克風的角度推導出聲音之DOA之可能方式。由圖19中之方塊205所提供之聲音事件之位置可以利用一位置向量r(k,n)(聲音事件之位置向量)來作關於每個時頻箱(k,n)之描述。同樣地,提供作為圖19中之輸入104之虛擬麥克風之位置可以利用一位置向量s(k,n)(虛擬麥克風之位置向量)來作描述。虛擬麥克風之注視方向可藉由一向量v(k,n)作描述。相對於虛擬麥克風之DOA由a(k,n)得到。其表示在v與聲音傳播路徑h(k,n)之間的角度。h(k,n)可以藉由採用下述公式而計算出:h(k,n)=s(k,n)-r(k,n)。
現在可例如經由h(k,n)及v(k,n)之內積(dot product)之定義計算關於每個(k,n)之期望DOAa(k,n),亦即a(k,n)=arcos(h(k,n).v(k,n)/(∥h(k,n)∥ ∥v(k,n)∥)。
在另一實施例中,基於虛擬麥克風之一位置向量以及基於如由圖22所顯示的聲音事件之一位置向量,資訊計算模組120可能適合於估計位於虛擬麥克風之有效聲音強度以作為空間側資訊。
從如上所界定的DOAa(k,n),我們可推導出位於虛擬麥克風之位置之有效聲音強度Ia(k,n)。對於這一點,假設圖19中之虛擬麥克風音源信號105對應至一全向麥克風之輸出,例如,我們假設虛擬麥克風為一全向麥克風。此外,假設圖22中之注視方向v平行於座標系統之x軸線。因為期望的有效聲音強度向量Ia(k,n)描述了經由虛擬麥克風之位置之淨能量流,所以我們可例如依據下述公式計算出Ia(k,n):Ia(k,n)=-(1/2 rho)|Pv(k,n)|2 *[cos a(k,n),sin a(k,n)]T,於此[]T表示一轉置向量,rho係為空氣密度,而Pv(k,n)係為由虛擬空間麥克風所測量之聲音壓力,例如,圖19中之方塊506之輸出105。
如果有效強度向量應該被計算表示在一般的座標系統中但仍然位於虛擬麥克風之位置,則可應用下述公式:
Ia(k,n)=(1/2 rho)|Pv(k,n)|2 h(k,n)/∥ h(k,n)∥。
聲音之擴散表示如何在一既定時頻槽中擴散此聲場(參見,譬如[2])。擴散係以一數值ψ表示,其中0ψ1。1之擴散表示一聲場之總聲場能量是完全地擴散。這種資訊例如在空間聲之再生上是重要的。傳統上,擴散係於置放有一麥克風陣列之空間中之特定點被計算出。
依據一實施例,擴散可能作為一額外參數被計算成為虛擬麥克風(VM)所產生之側資訊,其可將虛擬麥克風隨意置於聲音場景中之一任意位置。藉此,一種又計算出位於一虛擬麥克風之一虛擬位置之除音源信號以外的擴散之設備可以被看作是一虛擬DirAC前端,其乃因為可能為聲音場景中之一任意點產生一DirAC流動(亦即一音源信號、到達方向以及擴散)。DirAC流可能更進一步被處理、儲存、傳輸以及在任意的多揚聲器裝備上回放。於此情況下,聆聽者體驗此聲音場景,猶如他或她係身在由虛擬麥克風而特別指定之位置且係朝由其方位所決定之方向注視。
圖23顯示依據一實施例之一種包含用以計算位於虛擬麥克風之擴散之一擴散計算單元801之資訊計算方塊。資訊計算方塊202係適合於接收輸入111至11N,除了圖14之輸入以外,其亦包含位於真實空間麥克風之擴散。使ψ(SM1)至ψ(SMN)表示這些數值。這些額外輸入係回饋至資訊計算模組202。擴散計算單元801之輸出103係為於虛擬麥克風之位置所計算之擴散參數。
一實施例之一擴散計算單元801係顯示於圖24中,藉以提供更詳細說明。依據一實施例,估計出位於N個空間麥克風之每一個之直達及擴散聲音之能量。然後,藉由使用關於IPLS之位置之資訊,以及關於空間以及虛擬麥克風之位置之資訊,獲得了位於虛擬麥克風之位置之這些能量之N個估計。最後,可結合估計以改善估計精度,且可輕易計算出位於虛擬麥克風之擴散參數。
使至以及至表示關於由能量分析單元810所計算之N個空間麥克風之直達及擴散聲音之能量之估計。如果Pi係為複合壓力信號且ψi係為關於第i個空間麥克風之擴散,則可譬如依據下述公式計算出能量:
擴散聲音之能量在所有位置中應該是相等的,因此,位於虛擬麥克風之擴散聲音能量之估計可以譬如依據下述公式,只藉由例如在一擴散組合單元820中平均至而被計算出:
估計至之一種更有效的組合可以藉由考慮到估計器之變異數(例如藉由考慮到SNR)而被實現。
直達聲音之能量取決於由於傳播到達來源之距離。因此,至可能被修正以將此納入考量。這可能例如藉由一直達聲音傳播調整單元830而實現。舉例而言,如果假設指向聲場之能量衰減在距離平方是1,則可能依據下述公式計算出關於位於第i個空間麥克風之虛擬麥克風之直達聲音之估計:
類似於擴散組合單元820,於不同的空間麥克風所獲得之直達聲音能量之估計可以例如藉由一直達聲音組合單元840而合成。結果係為,例如,關於位於虛擬麥克風之直達聲音能量之估計。位於虛擬麥克風ψ(VM)之擴散可能例如依據下述公式而譬如藉由一擴散子計算器850而被計算出:
如上所述,在某些情況下,藉由一聲音事件位置估計器而被實現之聲音事件位置估計會失敗,例如,在一錯誤到達方向估計的情況下。圖25顯示這種方案。在這些情況下,不管於不同空間麥克風所估計以
及如被接收為輸入111至11N之擴散參數為何,關於虛擬麥克風103之擴散可能被設定到1(亦即,完全擴散),其乃因為沒有空間相干再生(spatially coherent reproduction)是可能的。
此外,可能考量位於N個空間麥克風之DOA估計之可靠度。這可能例如從DOA估計器之變異數或SNR的觀點被表示。這種資訊可能藉由擴散子計算器850被納入考量,俾能使VM擴散103可以在DOA估計是不可靠的情況下被人為地增加。事實上,結果是位置估計205亦將是不可靠的。
圖26顯示一設備991,用以依據一實施例之產生一虛擬輸出信號。用以產生一虛擬輸出信號之設備991包含一種依據上述實施例之其中一個(其包含一麥克風位置計算器993)而用於定位麥克風之設備992。再者,用以產生一虛擬輸出信號之設備包含一種用以依據上述實施例之其中一個來產生一音源輸出信號之設備994。由用以產生一音源輸出信號之設備994所產生之輸出信號係為虛擬輸出信號vos。用以定位麥克風之設備991之麥克風位置計算器992係被設計成用以計算一麥克風之位置以作為一計算出的麥克風位置cmp。用以產生一音源輸出信號之設備994係被設計成用以模擬位於計算出的麥克風位置(由用於定位麥克風之設備992所計算出)之一虛擬麥克風之一錄製。藉此,用於定位麥克風之設備992計算關於用以產生一音源輸出信號之設備994之虛擬麥克風之虛擬位置。
雖然已在設備之上下文中說明某些實施樣態,但顯然這些方面亦表示相對應的方法之說明,於此之方塊或裝置係對應至一方法步驟或一方法步驟之特徵。依此類推,在一方法步驟之上下文中所說明的實施樣態亦表示一對應方塊或項目之說明或對應設備之特徵。
所發明的分解信號可儲存在一數位儲存媒體上,或可在一傳輸媒介上傳輸,例如一無線傳輸媒介或一有線傳輸媒介,例如網際網路。
依據某些實施需求,本發明之實施例可在硬體或軟體中實施。實施例可藉由使用一數位儲存媒體(譬如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)而執行,數位儲存媒體具有儲存於其上之電子可讀取的控制信號,其與一可程式化電腦系統合作(或能夠合作),以執行各種方法。
依據本發明之某些實施例包含一非暫時性資料載體,其具有能夠與一可程式化電腦系統合作之電子可讀取的控制信號,以執行於此所說明之其中一種方法。
一般而言,本發明之實施例可被實施作為具有一程式碼之一電腦程式產品,當電腦程式產品在一電腦上運行時,程式碼對於執行其中一種方法是有效的。程式碼可譬如被儲存在一機器可讀取的載體上。
其他實施例包含儲存在一機器可讀取的載體上之電腦程式,用以執行於此所說明之其中一種方法。
換言之,本發明方法之一實施例因此係為一種具有一程式碼之電腦程式,用於在電腦程式在一電腦上運行時,執行於此所說明之其中一種方法。
因此,本發明方法之更進一步的實施例係為資料載體(或數位儲存媒體或電腦可讀取的媒體),其包含記錄於其上之電腦程式,用於以執行於此所說明之其中一種方法。
因此,本發明方法之更進一步的實施例係為表示電腦程式之一資料流或一序列之信號,用以執行於此所說明之其中一種方法。資料流或此序列之信號可譬如具體形成以經由一資料通訊連接(譬如經由網際網路)來傳輸。
更進一步的實施例包含一處理機構(譬如電腦或可程式化邏輯元件),其具體形成或適合於執行於此所說明之其中一種方法。
更進一步的實施例包含上面裝設有電腦程式之電腦,用於執行於此所說明之其中一種方法。
在某些實施例中,可能使用一可程式化邏輯元件(譬如現場可程式化閘陣列)以執行於此所說明之方法之某些或所有功能。在某些實施例中,一現場可程式化閘陣列可協同一微處理器,以便執行於此所說明之其中一種方法。一般而言,這些方法最好是藉由任何硬體設備而執行。
上述實施例僅為了本發明之原理而說明。吾人理解到,其他熟習本項技藝者將明白於此所說明之配置與細節之修改及變化。因此,意圖只受限於即將到來的專利申請專利範圍之範疇,而不受限於經由實施例之記述及說明於此所提出的特定細節。
文獻:
[1] Michael A. Gerzon。多聲道廣播及視頻中之高傳真身歷聲響複製(Ambisonics in multichannel broadcasting and video)。J.音源工程學會,33 (11) :859-871, 1985年。
[2] V. Pulkki,"空間聲再生及立體聲升混中之音源編碼定向音源編碼(Directional audio coding in spatial sound reproduction and stereo upmixing)",於AES第28屆國際會議論文集,第251-258頁,瑞典Piteå, 2006年6月30日-7月2日。
[3] V. Pulkki,"利用定向音源編碼之空間聲再生(Spatial sound reproduction with directional audio coding)",J.音源工程學會,第55卷,第6號,第503-516頁,2007年6月。
[4] C. Faller。關於空間音源編碼器之麥克風前端(Microphone front-ends for spatial audio coders)。於AES第125屆國際公約的程序,舊金山,2008年10月。
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz-Amling.及O. Thiergart,"一種用以定向音源編碼之空間濾波方法(A spatial filtering approach for directional audio coding)",於音源工程協會大會126,德國慕尼黑,2009年5月。
[6] R. Schultz-Amling, F. Küch, O. Thiergart,及M. Kallinger,"基於一參數聲場表現之聲學1縮放(Acoustical zooming based on a parametric sound field representation)",於音源工程協會大會128,英國倫敦,2010年5月。
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, 及O. Thiergart,"結合空間音源對象編碼及DirAC技術之互動線上討論(Interactive teleconferencing combining spatial audio object coding and DirAC technology)",於音源工程協會大會128,英國倫敦,2010年5月。
[8] E. G. Williams,傅立葉音響:聲音輻射及近場聲音全像術(Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography),科學出版社,1999年。
[9] A.Kuntz及R.Rabenstein,"從圓形測量的外推波場的限
制(Limitations in the extrapolation of wave fields from circular measurements)",於第15屆歐洲信號處理會議(EUSIPCO 2007),2007年。
[10] A. Walther及C. Faller,"藉由使用b-格式錄製之隔開的麥克風陣列之線性模擬(Linear simulation of spaced microphone arrays using b-format recordings)",於音源工程協會大會128,英國倫敦,2010年5月。
[11] US61/287,596:一種用以將一第一參數空間音源信號轉換成一第二參數空間音源信號之設備及方法(An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal)。
[12] S. Rickard及Z. Yilmaz,"針對言語之接近W-分離正交(On the approximate W-disjoint orthogonality of speech)",於語音及信號處理,2002. ICASSP 2002. 2002年4月之IEEE國際學術研討會,第1卷。
[13] R. Roy, A. Paulraj以及T. Kailath,"藉由子空間旋轉法之到達方向估計-ESPRIT",在1986年4月之美國加利福尼亞州史丹佛大學之語音與信號處理(ICASSP)之IEEE國際學術研討會中(IEEE音響國際會議,語音和信號處理(ICASSP),史丹福,美國加州,1986年4月)。
[14] R. Schmidt,"多重發射器場地及信號參數估計(Multiple emitter location and signal parameter estimation)",關於天線與傳播之IEEE學報,第34卷,第3號,第276-280頁,1986年。
[15] J.Michael Steele,"平面上之隨機樣品之最佳三角測量(Optimal Triangulation of Random Samples in the Plane)",概率的史冊,第10卷,第3號(1982年8月),第548-553頁。
[16] F. J. Fahy,聲音強度(Sound Intensity),埃塞克斯:Elsevier科學出版有限公司,1989年。
[17] R. Schultz-Amling, F. Küch, M. Kallinger, G. Del Galdo, T. Ahonen及V. Pulkki,"藉由使用定向音源編碼之空間音源之分析及再生之平面麥克風陣列處理(Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding)",於音源工程協會大會124,荷蘭阿姆斯特丹,2008年5月。
[18] M. Kallinger, F. Küch, R. Schultz-Amling, G. Del Galdo, T. Ahonen及V. Pulkki,"使用麥克風陣列提高方向估計以供定向音源編碼用(Enhanced direction estimation using microphone arrays for directional audio coding)";於免持語音通信和麥克風陣列,2008. HSCMA 2008, May 2008年5月,第45-48頁。
[19] R. K. Furness,"高傳真身歷聲響複製-概要(Ambisonics - An overview)",於AES第8屆國際學術研討會,1990年4月,第81-189頁。
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller,以及E.A.P.Habets。藉由使用由配置的陣列所蒐集之幾何資訊產生虛擬麥克風信號(Generating virtual microphone signals using geometrical information gathered by distributed arrays)。於免持語音通信和麥克風陣列的第三次聯合研討會(HSCMA’11)英國愛丁堡,2011年5月。
[21] Ville Pulkki。利用定向音源編碼之空間聲再生(Spatial sound reproduction with directional audio coding)。J.音源工程學會,55 (6) :503-516, 2007年6月。
aspi‧‧‧聲源空間資訊
spd‧‧‧空間能量密度
ssi‧‧‧聲音源資訊
10‧‧‧空間能量分佈決定器
20‧‧‧空間資訊估計器
Claims (11)
- 一種用於計算麥克風之位置之設備,包含:一空間能量密度決定器(10;21),用以依據表示位於一環境中之一個或多個聲音源之一個或多個能量數值及一個或多個位置數值之聲音源資訊,來決定一個表示該環境之複數個場地之能量數值之空間能量密度;以及一空間資訊估計器(20;22),用以依據該空間能量密度來估計麥克風之位置,其中,該空間資訊估計器(20;22)包含一聲音場景中心估計器(41),用以估計該環境中之一聲音場景之一中心之一位置,其中,該空間資訊估計器(20;22)更包含一麥克風位置計算器(42;44),用以依據該聲音場景之該中心之該位置決定出該麥克風之該位置,其中該空間資訊估計器(20;22)包含一方位決定器(45),用以決定該麥克風之一方位,其中該方位決定器(45)係適合於依據該空間能量密度決定該麥克風之該方位,其中該空間能量密度決定器(10;21)係適合於藉由應用下述公式來決定該空間能量密度
- 如申請專利範圍第1項所述之設備,其中該方位決定器(45)係適合於決定該麥克風之該方位,以使該麥克風係朝向該聲音場景之該中心被配向。
- 如申請專利範圍第1項所述之設備,其中該麥克風位置計算器(42;44)係適合於計算該麥克風之該位置,其中該麥克風係為一虛擬空間麥克風。
- 如申請專利範圍第1項所述之設備,其中該聲音場景中心估計器(41)係適合於計算該空間能量密度之一重心,用以估計該聲音場景之該中心。
- 如申請專利範圍第1項所述之設備,其中,該聲音場景中心估計器(41)係被設計成用以依據該空間能量密度來決定一能量延遲分佈圖,並依據關於該環境中之複數個場地之每一個之該能量延遲分佈圖來決定一均方根延遲,且 其中該聲音場景中心估計器(41)係被設計成用以決定該複數個場地之該場地以作為該聲音場景之該中心,其具有該複數個場地之該些均方根延遲之一最小均方根延遲。
- 如申請專利範圍第1項所述之設備,其中該麥克風位置計算器(42;44)係適合於決定經由該環境中之該聲音場景之該中心之複數條線之一條寬度最寬的線,其中經由該聲音場景之該中心之該複數條線之每一條係與一能量寬度相關,且其中該寬度最寬的線係被定義為經由具有一最大能量寬度之該聲音場景之該中心之該複數條線之該條線,其中該麥克風位置計算器(42;44)係適合於決定該麥克風之該位置,以使經由該聲音場景之該中心與該麥克風之該位置之一第二線係垂直於該寬度最寬的線。
- 如申請專利範圍第6項所述之設備,其中該複數條線之一條考量線之能量寬度表示在該考量線上之一段之一最大寬度,以使限制該段之該段之一第一點,且以使限制該段之該段之一不同的第二點,兩者都具有由該空間能量密度所表示之一能量數值,該空間能量密度大於或等於一預定能量數值。
- 如申請專利範圍第1項所述之設備,其中該麥克風位置計算器(42;44)係被設計成用以將一奇異值分解應用至一具有複數行之矩陣,其中該矩陣之該些行表示在相對於該聲音場景之該中心之該環境中的複數個場地之位置,且其中該矩陣之該些行只表示具有由大於一預定閾值之該空間能量密度 所表示之複數個能量數值之該些場地之位置,或該矩陣之該些行只表示具有由大於或等於一預定閾值之該空間能量密度所表示之複數個能量數值之該些場地之位置。
- 一種用以產生一虛擬輸出信號之設備(991),包含:一種如申請專利範圍第1項之定位麥克風之設備(992),其中該定位麥克風之設備之該麥克風位置計算器(993)係被設計成用以計算一麥克風之該位置以作為一計算出的麥克風位置,以及一設備(994),用以產生一音源輸出信號以作為該虛擬輸出信號,用以模擬位於該計算出的麥克風位置之一虛擬麥克風之一錄製,其中用以產生一音源輸出信號之該設備包含:一聲音事件位置估計器(110),用以估計表示該環境中之一聲音源之一位置之一聲音源位置,該聲音源發出一聲波,其中該聲音事件位置估計器(110)係適合於依據一第一方向資訊,以及依據一第二方向資訊來估計該聲音源位置,該第一方向資訊由位於一環境中之一第一真實麥克風位置之一第一真實空間麥克風所提供,該第二方向資訊由位於該環境中之一第二真實麥克風位置之一第二真實空間麥克風所提供;以及一資訊計算模組(120),用以依據一個由該第一真實空間麥克風所錄製之第一錄製之音源輸入信號、依據該第一真實麥克風位置以及依據該計算出的麥克風位置來產生該音源輸出信號。
- 一種用於計算麥克風之位置之方法,包含:依據表示位於一環境中之一個或多個聲音源之一個或多個能量數值及一個或多個位置數值之聲音源資訊,來決定一個表示關於該環境之複數個場地之能量數值之空間能量密度; 依據該空間能量密度來計算該麥克風之該位置;及決定該麥克風之方位,其中,依據該空間能量密度來計算該麥克風之該位置之步驟,係藉由計算該環境中之該聲音場景之該中心,以及藉由依據該聲音場景之該中心的位置決定麥克風的位置來執行,其中該空間能量密度決定器(10;21)係適合於藉由應用下述公式來決定該空間能量密度
- 一種用於執行如申請專利範圍第10項所述之方法之電腦程式,其中該電腦程式係在一電腦或處理器上執行。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11191828.0A EP2600637A1 (en) | 2011-12-02 | 2011-12-02 | Apparatus and method for microphone positioning based on a spatial power density |
US13/445,560 US10284947B2 (en) | 2011-12-02 | 2012-04-12 | Apparatus and method for microphone positioning based on a spatial power density |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201330648A TW201330648A (zh) | 2013-07-16 |
TWI558228B true TWI558228B (zh) | 2016-11-11 |
Family
ID=45218364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101145071A TWI558228B (zh) | 2011-12-02 | 2012-11-30 | 依據空間能量密度定位麥克風之設備及方法 |
Country Status (21)
Country | Link |
---|---|
US (1) | US10284947B2 (zh) |
EP (2) | EP2600637A1 (zh) |
JP (1) | JP5814476B2 (zh) |
KR (1) | KR101591220B1 (zh) |
CN (1) | CN104094613B (zh) |
AR (1) | AR089052A1 (zh) |
AU (1) | AU2012343907B2 (zh) |
BR (1) | BR112014013335B1 (zh) |
CA (1) | CA2857611C (zh) |
ES (1) | ES2573802T3 (zh) |
HK (1) | HK1202746A1 (zh) |
IN (1) | IN2014KN01144A (zh) |
MX (1) | MX338524B (zh) |
MY (1) | MY167624A (zh) |
PL (1) | PL2786593T3 (zh) |
PT (1) | PT2786593E (zh) |
RU (1) | RU2589469C2 (zh) |
SG (1) | SG11201402782VA (zh) |
TW (1) | TWI558228B (zh) |
WO (1) | WO2013079568A1 (zh) |
ZA (1) | ZA201404822B (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014020921A1 (ja) * | 2012-07-31 | 2014-02-06 | 独立行政法人科学技術振興機構 | 物体配置推定装置 |
GB2521649B (en) | 2013-12-27 | 2018-12-12 | Nokia Technologies Oy | Method, apparatus, computer program code and storage medium for processing audio signals |
US9042563B1 (en) * | 2014-04-11 | 2015-05-26 | John Beaty | System and method to localize sound and provide real-time world coordinates with communication |
CN104123950B (zh) * | 2014-07-17 | 2015-11-25 | 努比亚技术有限公司 | 一种录音方法及装置 |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
CN104794894B (zh) * | 2015-01-29 | 2018-02-27 | 青岛智能产业技术研究院 | 一种汽车鸣笛噪声监视装置、系统及方法 |
KR102516625B1 (ko) * | 2015-01-30 | 2023-03-30 | 디티에스, 인코포레이티드 | 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법 |
EP3070876A1 (en) | 2015-03-17 | 2016-09-21 | Telefonica Digital España, S.L.U. | Method and system for improving teleconference services |
CN104811886B (zh) * | 2015-04-10 | 2018-04-17 | 西安电子科技大学 | 基于相位差测量的麦克风阵列测向方法 |
EP3079074A1 (fr) * | 2015-04-10 | 2016-10-12 | B<>Com | Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés |
CN104898091B (zh) * | 2015-05-29 | 2017-07-25 | 复旦大学 | 基于迭代优化算法的麦克风阵列自校准声源定位系统 |
US9530426B1 (en) | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
US10063987B2 (en) | 2016-05-31 | 2018-08-28 | Nureva Inc. | Method, apparatus, and computer-readable media for focussing sound signals in a shared 3D space |
GB201615538D0 (en) * | 2016-09-13 | 2016-10-26 | Nokia Technologies Oy | A method , apparatus and computer program for processing audio signals |
US9986357B2 (en) | 2016-09-28 | 2018-05-29 | Nokia Technologies Oy | Fitting background ambiance to sound objects |
IT201700040732A1 (it) * | 2017-04-12 | 2018-10-12 | Inst Rundfunktechnik Gmbh | Verfahren und vorrichtung zum mischen von n informationssignalen |
JP2019021966A (ja) * | 2017-07-11 | 2019-02-07 | オリンパス株式会社 | 収音装置および収音方法 |
WO2019012131A1 (en) | 2017-07-14 | 2019-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION |
RU2736274C1 (ru) | 2017-07-14 | 2020-11-13 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий |
SG11202000285QA (en) | 2017-07-14 | 2020-02-27 | Fraunhofer Ges Forschung | Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description |
PL422711A1 (pl) * | 2017-08-31 | 2019-03-11 | Adrian Połaniecki | Sposób i urządzenie do detekcji, lokalizowania i identyfikacji pojazdów wytwarzających sygnały akustyczne, a także optyczne, zwłaszcza pojazdów uprzywilejowanych emitujących sygnały akustyczne i/lub świetlne |
WO2019149337A1 (en) * | 2018-01-30 | 2019-08-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs |
GB2572368A (en) * | 2018-03-27 | 2019-10-02 | Nokia Technologies Oy | Spatial audio capture |
EP3803866A4 (en) * | 2018-05-24 | 2022-03-16 | Nureva Inc. | METHOD, APPARATUS, AND COMPUTER READABLE MATERIALS FOR MANAGING SEMI-CONSTANT (PERSISTENT) SOUND SOURCES IN MICROPHONE CATCH/HOME AREAS |
JP7001566B2 (ja) * | 2018-09-04 | 2022-02-04 | 本田技研工業株式会社 | 音響処理装置、音響処理方法、およびプログラム |
JP7469298B2 (ja) | 2019-04-24 | 2024-04-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 到来方向推定装置、システム、及び、到来方向推定方法 |
CN110223715B (zh) * | 2019-05-07 | 2021-05-25 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
JP2022539217A (ja) * | 2019-07-02 | 2022-09-07 | ドルビー・インターナショナル・アーベー | 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム |
CN110364161A (zh) * | 2019-08-22 | 2019-10-22 | 北京小米智能科技有限公司 | 响应语音信号的方法、电子设备、介质及系统 |
US11276388B2 (en) * | 2020-03-31 | 2022-03-15 | Nuvoton Technology Corporation | Beamforming system based on delay distribution model using high frequency phase difference |
CN113949967A (zh) * | 2020-07-16 | 2022-01-18 | 华为技术有限公司 | 一种会议语音增强的方法、装置和系统 |
US11483649B2 (en) * | 2020-08-21 | 2022-10-25 | Waymo Llc | External microphone arrays for sound source localization |
GB2602148A (en) * | 2020-12-21 | 2022-06-22 | Nokia Technologies Oy | Audio rendering with spatial metadata interpolation and source position information |
WO2022162878A1 (ja) * | 2021-01-29 | 2022-08-04 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム |
WO2022260646A1 (en) * | 2021-06-07 | 2022-12-15 | Hewlett-Packard Development Company, L.P. | Microphone directional beamforming adjustments |
CN117268796B (zh) * | 2023-11-16 | 2024-01-26 | 天津大学 | 车辆故障声学事件检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101779476A (zh) * | 2007-06-13 | 2010-07-14 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3467758A (en) * | 1964-03-12 | 1969-09-16 | Baldwin Co D H | Multiple speaker sound output system for reducing intermodulation distortion |
JP2687613B2 (ja) * | 1989-08-25 | 1997-12-08 | ソニー株式会社 | マイクロホン装置 |
FR2682251B1 (fr) | 1991-10-02 | 1997-04-25 | Prescom Sarl | Procede et systeme de prise de son, et appareil de prise et de restitution de son. |
JP3522954B2 (ja) | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
JP3344647B2 (ja) * | 1998-02-18 | 2002-11-11 | 富士通株式会社 | マイクロホンアレイ装置 |
MXPA03006668A (es) * | 2001-01-30 | 2003-10-24 | Thomson Licensing Sa | Tecnica de procesamiento de senal de separacion de fuente geometrica. |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
WO2004084577A1 (en) * | 2003-03-21 | 2004-09-30 | Technische Universiteit Delft | Circular microphone array for multi channel audio recording |
US7362792B2 (en) * | 2004-01-12 | 2008-04-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Method of and apparatus for computation of unbiased power delay profile |
US7522736B2 (en) * | 2004-05-07 | 2009-04-21 | Fuji Xerox Co., Ltd. | Systems and methods for microphone localization |
GB2414369B (en) * | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
WO2007013525A1 (ja) * | 2005-07-26 | 2007-02-01 | Honda Motor Co., Ltd. | 音源特性推定装置 |
EP1971183A1 (en) | 2005-11-15 | 2008-09-17 | Yamaha Corporation | Teleconference device and sound emission/collection device |
US7565288B2 (en) | 2005-12-22 | 2009-07-21 | Microsoft Corporation | Spatial noise suppression for a microphone array |
KR101415026B1 (ko) * | 2007-11-19 | 2014-07-04 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 |
ATE554481T1 (de) | 2007-11-21 | 2012-05-15 | Nuance Communications Inc | Sprecherlokalisierung |
JP5686358B2 (ja) | 2008-03-07 | 2015-03-18 | 学校法人日本大学 | 音源距離計測装置及びそれを用いた音響情報分離装置 |
JP5206151B2 (ja) | 2008-06-25 | 2013-06-12 | 沖電気工業株式会社 | 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法 |
US8923529B2 (en) * | 2008-08-29 | 2014-12-30 | Biamp Systems Corporation | Microphone array system and method for sound acquisition |
EA201190153A1 (ru) * | 2009-02-03 | 2012-03-30 | Скуэрхэд Текнолоджи Ас | Микрофонная конференц-система |
GB2467534B (en) * | 2009-02-04 | 2014-12-24 | Richard Furse | Sound system |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
JP5639362B2 (ja) | 2010-01-29 | 2014-12-10 | ローランド株式会社 | ユーザインターフェイス装置 |
US8129606B2 (en) | 2009-12-04 | 2012-03-06 | Roland Corporation | Musical tone signal-processing apparatus |
EP2375779A3 (en) | 2010-03-31 | 2012-01-18 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for measuring a plurality of loudspeakers and microphone array |
KR20120059827A (ko) * | 2010-12-01 | 2012-06-11 | 삼성전자주식회사 | 다중 음원 위치추적장치 및 그 위치추적방법 |
KR101442446B1 (ko) * | 2010-12-03 | 2014-09-22 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2829081B1 (en) | 2012-03-23 | 2015-12-09 | Dolby Laboratories Licensing Corporation | Conferencing device self test |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
-
2011
- 2011-12-02 EP EP11191828.0A patent/EP2600637A1/en not_active Withdrawn
-
2012
- 2012-04-12 US US13/445,560 patent/US10284947B2/en active Active
- 2012-11-29 PL PL12794942.8T patent/PL2786593T3/pl unknown
- 2012-11-29 WO PCT/EP2012/073906 patent/WO2013079568A1/en active Application Filing
- 2012-11-29 MY MYPI2014001579A patent/MY167624A/en unknown
- 2012-11-29 IN IN1144KON2014 patent/IN2014KN01144A/en unknown
- 2012-11-29 PT PT127949428T patent/PT2786593E/pt unknown
- 2012-11-29 KR KR1020147018347A patent/KR101591220B1/ko active IP Right Grant
- 2012-11-29 SG SG11201402782VA patent/SG11201402782VA/en unknown
- 2012-11-29 CN CN201280067394.1A patent/CN104094613B/zh active Active
- 2012-11-29 AU AU2012343907A patent/AU2012343907B2/en active Active
- 2012-11-29 RU RU2014126819/28A patent/RU2589469C2/ru active
- 2012-11-29 BR BR112014013335-2A patent/BR112014013335B1/pt active IP Right Grant
- 2012-11-29 EP EP12794942.8A patent/EP2786593B1/en active Active
- 2012-11-29 JP JP2014543883A patent/JP5814476B2/ja active Active
- 2012-11-29 CA CA2857611A patent/CA2857611C/en active Active
- 2012-11-29 MX MX2014006499A patent/MX338524B/es active IP Right Grant
- 2012-11-29 ES ES12794942.8T patent/ES2573802T3/es active Active
- 2012-11-30 AR ARP120104512A patent/AR089052A1/es active IP Right Grant
- 2012-11-30 TW TW101145071A patent/TWI558228B/zh active
-
2014
- 2014-06-30 ZA ZA2014/04822A patent/ZA201404822B/en unknown
-
2015
- 2015-03-16 HK HK15102681.3A patent/HK1202746A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101779476A (zh) * | 2007-06-13 | 2010-07-14 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
Non-Patent Citations (1)
Title |
---|
Giovanni Del Galdo, "Generating virtual microphone signals using geometrical information gathered by distributed arrays",Hands-free Speech Communication and Microphone Arrays (HSCMA), 2011 Joint Workshop on IEEE,30 May 2011,pages 185-190 * |
Also Published As
Publication number | Publication date |
---|---|
EP2786593A1 (en) | 2014-10-08 |
ZA201404822B (en) | 2015-12-23 |
MX2014006499A (es) | 2014-08-18 |
MY167624A (en) | 2018-09-20 |
EP2786593B1 (en) | 2016-04-27 |
HK1202746A1 (zh) | 2015-10-02 |
EP2600637A1 (en) | 2013-06-05 |
SG11201402782VA (en) | 2014-06-27 |
CN104094613B (zh) | 2017-06-09 |
CN104094613A (zh) | 2014-10-08 |
RU2589469C2 (ru) | 2016-07-10 |
PL2786593T3 (pl) | 2016-10-31 |
BR112014013335B1 (pt) | 2021-11-23 |
PT2786593E (pt) | 2016-06-24 |
AU2012343907B2 (en) | 2015-12-10 |
RU2014126819A (ru) | 2016-02-10 |
CA2857611C (en) | 2017-04-25 |
TW201330648A (zh) | 2013-07-16 |
ES2573802T3 (es) | 2016-06-10 |
MX338524B (es) | 2016-04-20 |
KR20140099536A (ko) | 2014-08-12 |
US20130142342A1 (en) | 2013-06-06 |
BR112014013335A2 (pt) | 2021-01-26 |
AR089052A1 (es) | 2014-07-23 |
JP2015502716A (ja) | 2015-01-22 |
CA2857611A1 (en) | 2013-06-06 |
JP5814476B2 (ja) | 2015-11-17 |
IN2014KN01144A (zh) | 2015-10-16 |
US10284947B2 (en) | 2019-05-07 |
KR101591220B1 (ko) | 2016-02-03 |
WO2013079568A1 (en) | 2013-06-06 |
AU2012343907A1 (en) | 2014-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI558228B (zh) | 依據空間能量密度定位麥克風之設備及方法 | |
TWI530201B (zh) | 經由自抵達方向估值提取幾何資訊之聲音擷取技術 | |
TWI555412B (zh) | 整合幾何空間音源編碼串流之設備及方法 |