TWI530201B - 經由自抵達方向估值提取幾何資訊之聲音擷取技術 - Google Patents

經由自抵達方向估值提取幾何資訊之聲音擷取技術 Download PDF

Info

Publication number
TWI530201B
TWI530201B TW100144576A TW100144576A TWI530201B TW I530201 B TWI530201 B TW I530201B TW 100144576 A TW100144576 A TW 100144576A TW 100144576 A TW100144576 A TW 100144576A TW I530201 B TWI530201 B TW I530201B
Authority
TW
Taiwan
Prior art keywords
microphone
sound
virtual
signal
real
Prior art date
Application number
TW100144576A
Other languages
English (en)
Other versions
TW201234873A (en
Inventor
馬可斯 卡林格
紀凡尼 戴加多
法比恩 庫奇
奧利薇 錫蓋特
德克 曼恩
亞琴 昆茲
麥可 克拉屈瑪
喬根 希瑞
亞歷山大 克拉休
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201234873A publication Critical patent/TW201234873A/zh
Application granted granted Critical
Publication of TWI530201B publication Critical patent/TWI530201B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

經由自抵達方向估值提取幾何資訊之聲音擷取技術
本發明係關於音訊處理,且尤其係關於用於經由自抵達方向估值提取幾何資訊之聲音擷取的裝置及方法。
傳統空間聲音記錄旨在使用多個麥克風捕獲聲場,以使得在再生端,收聽者如在記錄位置一樣感知聲像。空間聲音記錄之標準方法通常使用例如AB立體聲之間隔的全向麥克風,或例如強度立體聲之重合定向麥克風,或例如Ambisonics之更高級麥克風,諸如B格式麥克風,參見,例如:
[1] R. K. Furness,「Ambisonics-An overview,」in AES 8th International Conference,April 1990,pp. 181-189.
對於聲音再生,該等非參數方法直接從經記錄麥克風信號中導出期望音訊回放信號(例如,待發送至揚聲器之信號)。
替代地,可應用基於聲場之參數表示之方法,該等方法稱為參數空間音訊編碼器。該等方法常常使用麥克風陣列,以決定一或更多音訊降混信號以及描述空間聲音之空間旁側資訊。實例為定向音訊編碼(DirAC)或所謂的空間音訊麥克風(SAM)方法。DirAC之更多細節可見:
[2] Pulkki,V.,「Directional audio coding in spatial sound reproduction and stereo upmixing,」in Proceedings of the AES 28th International Conference,pp. 251-258,Pite,Sweden,June 30-July 2,2006,
[3] V. Pulkki,「Spatial sound reproduction with directional audio coding,」J. Audio Eng. Soc.,vol. 55,no.6,pp. 503-516,June 2007.
空間音訊麥克風方法之更多細節,參閱:
[4] C. Faller: 「Microphone Front-Ends for Spatial Audio Coders」,in Proceedings of the AES 125th International Convention,San Francisco,Oct. 2008.
在DirAC中,例如,空間信號資訊包含聲音之抵達方向(DOA)及以時頻域計算之聲場之擴散度。對於聲音再生,可根據參數描述導出音訊回放信號。在一些應用中,空間聲音擷取旨在捕獲整個聲音場景。在其他應用中,空間聲音擷取僅旨在捕獲某些期望分量。近講麥克風常常用於記錄具有高信雜比(SNR)及低交混迴響之個別聲源,而諸如XY立體聲之更遠組態表示用於捕獲整個聲音場景之空間影像之方式。可使用波束形成獲得關於定向之更多撓性,其中可使用麥克風陣列來實現可操縱拾取模式。藉由以上所提及方法提供甚至更多撓性,諸如定向音訊編碼(DirAC)(參見[2]、[3]),其中可使用任意拾取模式實現空間濾波器,如下文中所描述:
[5] M. Kallinger,H. Ochsenfeld,G. Del Galdo,F. Kch,D. Mahne,R. Schultz-Amling. and O. Thiergart,「A spatial filtering approach for directional audio coding,」in Audio Engineering Society Convention 126,Munich,Germany,May 2009,
此外,聲音場景之其他信號處理操控,參見,例如:
[6] R. Schultz-Amling,F. Kch,O. Thiergart,and M. Kallinger,「Acoustical zooming based on a parametric sound field representation,」in Audio Engineering Society Convention 128,London UK,May 2010,
[7] J. Herre,C. Falch,D. Mahne,G. Del Galdo,M. Kallinger,and O. Thiergart,「Interactive teleconferencing combining spatial audio object coding and DirAC technology,」in Audio Engineering Society Convention 128,London UK,May 2010.
所有上述概念之共同處在於麥克風以固定已知之幾何形狀配置。麥克風之間的間隔儘可能小以用於一致麥克風技術,反之該間隔常規地為幾釐米以用於其他方法。在下文中,我們將用於記錄空間聲音、能夠檢索聲音之抵達方向之任何裝置(例如定向麥克風之組合或麥克風陣列等)稱為空間麥克風。
另外,所有上述方法之共同處在於該等方法限於關於僅一個點(即量測位置)之聲場表示。因此,必須將所需麥克風放置在例如,接近源或使得可最佳捕獲空間影像之極其特別、精選之位置。
然而,在許多應用中,此舉不可行,且因此,將若干麥克風遠離聲源放置且仍能夠依需求捕獲聲音將為有益的。
存在用於在空間中的點而非在量測聲場處估計聲場之若干場重建方法。一種方法為全像術,如下文中所描述:
[8] E. G. Williams,Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography,Academic Press,1999.
在已知體積之整個表面上的聲壓及質點速度之情況下,全像術允許計算具有任意體積之任何點處之聲場。因此,當體積大時,需要大得不切實際之數量之感測器。另外,該方法假設在體積內不存在聲源,此使得對於我們的需要,算法不可行。相關波場外推法(亦參見[8])旨在將體積之表面上的已知聲場外推至外部區域。然而,對於較大外推距離以及對於向正交於聲音之傳播方向之方向的外推,外推準確度迅速降低,參見:
[9] A. Kuntz and R. Rabenstein,「Limitations in the extrapolation of wave fields from circular measurements,」in 15th European Signal Processing Conference(EUSIPCO 2007),2007。
[10] A. Walther and C. Faller,「Linear simulation of spaced microphone arrays using b-format recordings,」in Audio Engineering Society Convention 128,London UK,May 2010,
描述平面波模型,其中僅在遠離實聲源,例如接近量測點之點處,場外推法為可能的。
傳統方法之主要缺點為所記錄之空間影像總是相關於所使用之空間麥克風。在許多應用中,將空間麥克風放置在例如接近聲源之期望位置,為不可能或不可行的。在此情況下,將多個空間麥克風遠離聲音場景放置且仍能夠依需求捕獲聲音將為更有益的。
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal,
提出一種用於當在揚聲器或頭戴式耳機上再生時,將真實記錄位置虛擬移動至另一位置之方法。然而,該方法限於簡單聲音場景,其中假設所有聲音物件至用於記錄之真實空間麥克風距離相等。另外,該方法僅可利用一個空間麥克風。
本發明之目標為提供經由提取幾何資訊之聲音擷取之改良的概念。藉由如申請專利範圍第1項之裝置、藉由如申請專利範圍第24項之方法及藉由如申請專利範圍第25項之電腦程式,來解決本發明之目標。
根據一實施例,本發明提供了一種用於產生音訊輸出信號,以模擬環境中可組配虛擬位置處的虛擬麥克風之記錄之裝置。此裝置包含聲音事件位置估值器及資訊計算模組。聲音事件位置估值器適於估計表明環境中聲源之位置之聲源位置,其中聲音事件位置估值器適於根據由位於環境中第一真實麥克風位置之第一真實空間麥克風提供之第一方向資訊,及根據由位於環境中第二真實麥克風位置之第二真實空間麥克風提供之第二方向資訊,來估計聲源位置。
資訊計算模組適於根據由第一真實空間麥克風記錄之第一經記錄音訊輸入信號、根據第一真實麥克風位置、根據虛擬麥克風之虛擬位置、及根據聲源位置,來產生音訊輸出信號。
在一實施例中,資訊計算模組包含傳播補償器,其中傳播補償器適於藉由調整第一經記錄音訊輸入信號之振幅值、量值或相位值,根據聲源與第一真實空間麥克風之間的第一振幅衰減及根據聲源與虛擬麥克風之間的第二振幅衰減,來藉由修改第一經記錄音訊輸入信號,產生第一經修改音訊信號,以獲得音訊輸出信號。在實施例中,第一振幅衰減可為由聲源發出的聲波之振幅衰減,且第二振幅衰減可為由聲源發出的聲波之振幅衰減。
根據另一實施例,資訊計算模組包含傳播補償器,該傳播補償器適於藉由調整第一經記錄音訊輸入信號之振幅值、量值或相位值,來藉由補償由聲源發出的聲波在第一真實空間麥克風處之抵達與聲波在虛擬麥克風處之抵達之間的第一延遲,來藉由修改第一經記錄音訊輸入信號,產生第一經修改音訊信號,以獲得音訊輸出信號。
根據一實施例,假設使用兩個或兩個以上空間麥克風,該等空間麥克風在下文中稱為真實空間麥克風。對於各真實空間麥克風,可以時頻域估計聲音之DOA。從藉由真實空間麥克風收集之資訊,以及對該等真實空間麥克風相對位置之認識,可構成環境中隨意虛擬放置之任意空間麥克風之輸出信號。該空間麥克風在下文中稱為虛擬空間麥克風。
注意,若2D空間,則抵達方向(DOA)可表示為方位角,或在3D中為方位角與仰角對。等效地,可使用指向DOA之單位範數向量。
在一些實施例中,提供構件來以空間選擇之方式捕獲聲音,例如,可拾取源自特定目標位置之聲音,猶如在該位置處安裝了近距離「點麥克風」一樣。然而,代替真實地安裝該點麥克風,可藉由使用放置在其他、遠位置處的兩個或兩個以上空間麥克風,模擬該點麥克風之輸出信號。
「空間麥克風」一詞指用於空間聲音之擷取、能夠檢索聲音之抵達方向之任何裝置(例如,定向麥克風之組合、麥克風陣列等)。
「非空間麥克風」一詞指不適於檢索聲音之抵達方向之任何裝置,諸如單個全向或定向麥克風。
應注意,「真實空間麥克風」一詞指如以上所定義之實體存在之空間麥克風。
關於虛擬空間麥克風,應注意,虛擬空間麥克風可表示任何期望麥克風類型或麥克風組合,例如,該虛擬空間麥克風可,例如,表示單個全向麥克風、定向麥克風、如常見身歷聲麥克風中所使用之定向麥克風對,以及麥克風陣列。
本發明基於發現當使用兩個或兩個以上真實空間麥克風時,可估計2D或3D空間中聲音事件之位置,因此,可實現位置定置。使用聲音事件之經決定位置,可計算由空間中任意放置及定向之虛擬空間麥克風所記錄之聲音信號,以及相應空間旁側資訊,諸如來自虛擬空間麥克風之視點之抵達方向。
為達此目的,可假設各聲音事件表示點類似聲源,例如各向同性點類似聲源。在下文中,「真實聲源」指記錄環境中實體存在之實聲源,諸如通話器或樂器等。相反,在下文中,我們使用「聲源」或「聲音事件」指有效聲源,該有效聲源在某一時刻或在某一時頻頻段為有效的,其中聲源可例如表示真實聲源或鏡像源。根據實施例,隱性假設聲音場景可建模為多個該等聲音事件或點類似聲源。另外,在預定時頻表示中,可假設各源僅在特定時間及頻率槽內為有效的。真實空間麥克風之間的距離可使得所得傳播時間之時間差異短於時頻表示之時間解析度之距離。後者假設保證了由相同時間槽內的所有空間麥克風拾取某一聲音事件。此暗示對於相同時頻槽,在不同空間麥克風處所估計之DOA的確對應於相同聲音事件。即使在大房間(諸如,客廳或會議室)中距彼此幾公尺均勻放置、具有幾毫秒之時間解析度之真實空間麥克風也不難以滿足該假設。
可使用麥克風陣列來定置聲源。經定置聲源可取決於該等經定置聲源之性質具有不同的實體解釋。當麥克風陣列接收直接聲音時,該等麥克風陣列可能夠定置正確聲源(例如,通話器)之位置。當麥克風陣列接收反射時,該等麥克風陣列可定置鏡像源之位置。鏡像源亦為聲源。
本發明提供了一種能夠估計放置在任意位置之虛擬麥克風的聲音信號之參數方法。與之前所描述之方法相反,所提出之方法不直接旨在重建聲場,而是旨在提供感知上類似於由實體放置在該位置之麥克風拾取的聲音之聲音。此可藉由使用基於點類似聲源,例如,各向同性點類似聲源(IPLS)之聲場之參數模型來實現。所需幾何資訊,即所有IPLS之即時位置,可藉由使用兩個或兩個以上分佈式麥克風陣列,實施所估計之抵達方向之三角測量來獲得。此可藉由獲得對陣列之相對位置及方位之認識來實現。儘管如此,對實聲源(例如通話器)之數量及位置之先前認識不是必需的。給定所提出概念(例如所提出裝置或方法)之參數性質,虛擬麥克風可具有任意定向模式以及任意實體或非實體行為,例如關於隨距離之壓力衰減。已藉由基於交混迴響環境中之量測研究參數估計準確度,來核實所提供之方法。
而只要所獲得空間影像總是相關於實體放置麥克風之位置,空間音訊之習知記錄技術即為受到限制的,本發明之實施例將以下情況納入考量,在許多應用中,期望將麥克風放置在聲音場景外且仍能夠從任意層次捕獲聲音。根據實施例,若已將麥克風實體放置在聲音場景中,則藉由計算感知上類似於已拾取信號之信號,來提供將虛擬麥克風虛擬放置在空間中任意點之概念。實施例可應用可使用基於點類似聲源(例如,點類似各向同性聲源)之聲場之參數模型的概念。可藉由兩個或兩個以上分佈式麥克風陣列收集所需幾何資訊。
根據一實施例,聲音事件位置估值器可適於根據由聲源發出的聲波在第一真實麥克風位置處之第一抵達方向作為第一方向資訊,及根據聲波在第二真實麥克風位置處之第二抵達方向作為第二方向資訊,來估計聲源位置。
在另一實施例中,資訊計算模組可包含用於計算空間旁側資訊之空間旁側資訊計算模組。資訊計算模組可適於根據虛擬麥克風位置向量及根據聲音事件位置向量,來估計虛擬麥克風處之抵達方向或有效聲音強度作為空間旁側資訊。
根據另一實施例,傳播補償器可適於藉由調整以時頻域表示之第一經記錄音訊輸入信號之該量值,來藉由補償由聲源發出的聲波在第一真實空間麥克風處之抵達與聲波在虛擬麥克風處之抵達之間的第一延遲或振幅衰減,以時頻域產生第一經修改音訊信號。
在實施例中,傳播補償器可適於藉由應用以下公式,來藉由產生第一經修改音訊信號之經修改量值來實施傳播補償,該公式如下:
其中d1(k,n)為第一真實空間麥克風之位置與聲音事件之位置之間的距離,其中s(k,n)為虛擬麥克風之虛擬位置與聲音事件之聲源位置之間的距離,其中Pref(k,n)為以時頻域表示之第一經記錄音訊輸入信號之量值,且其中Pv(k,n)為經修改量值。
在另一實施例中,資訊計算模組可另外包含組合器,其中傳播補償器可進一步適於藉由調整由第二真實空間麥克風記錄之一第二經記錄音訊輸入信號之振幅值、量值或相位值,來藉由補償由聲源發出的聲波在第二真實空間麥克風處之抵達與聲波在虛擬麥克風處之抵達之間的第二延遲或振幅衰減,修改第二經記錄音訊輸入信號,以獲得第二經修改音訊信號,且其中組合器可適於藉由將第一經修改音訊信號及第二經修改音訊信號組合,產生組合信號,以獲得音訊輸出信號。
根據另一實施例,傳播補償器可進一步適於藉由補償聲波在虛擬麥克風處之抵達與由聲源發出的聲波在另外真實空間麥克風中之每一者處之抵達之間的延遲,來修改由一或更多另外真實空間麥克風記錄之一或更多另外經記錄音訊輸入信號。可藉由調整另外經記錄音訊輸入信號中之每一者之振幅值、量值或相位值,補償各延遲或振幅衰減,以獲得多個第三經修改音訊信號。組合器可適於藉由將第一經修改音訊信號及第二經修改音訊信號及多個第三經修改音訊信號組合,產生組合信號,以獲得音訊輸出信號。
在另一實施例中,資訊計算模組可包含頻譜加權單元,該頻譜加權單元取決於聲波在虛擬麥克風之虛擬位置處的抵達方向及取決於虛擬麥克風之虛擬方位,藉由修改第一經修改音訊信號,產生經加權音訊信號,以獲得音訊輸出信號,其中可以時頻域來修改第一經修改音訊信號。
另外,資訊計算模組可包含頻譜加權單元,該頻譜加權單元取決於抵達方向或虛擬麥克風之虛擬位置處之聲波及虛擬麥克風之虛擬方位,藉由修改組合信號,產生經加權音訊信號,以獲得音訊輸出信號,其中可以時頻域來修改組合信號。
根據另一實施例,頻譜加權單元可適於將加權因數α+(1-α)cos(φv(k,n)),或加權因數0.5+0.5 cos(φv(k,n))應用在經加權音訊信號上,其中φv(k,n)表明由聲源發出的聲波在虛擬麥克風之虛擬位置處之抵達方向向量。
在一實施例中,傳播補償器進一步適於藉由調整由全向麥克風記錄之第三經記錄音訊輸入信號之振幅值、量值或相位值,來藉由補償由聲源發出的聲波在全向麥克風處之抵達與聲波在虛擬麥克風處之抵達之間的第三延遲或振幅衰減,來藉由修改第三經記錄音訊輸入信號,而產生第三經修改音訊信號,以獲得音訊輸出信號。
在另一實施例中,聲音事件位置估值器可適於估計三維環境中的聲源位置。
另外,根據另一實施例,資訊計算模組可進一步包含擴散度計算單元,該擴散度計算單元適於估計虛擬麥克風處之擴散聲音能量或虛擬麥克風處之直接聲音能量。
根據另一實施例,擴散度計算單元可適於藉由應用以下公式,估計虛擬麥克風處之擴散聲音能量,該公式如下:
其中N為包含第一及第二真實空間麥克風之多個真實空間麥克風之數量,且其中為第i個真實空間麥克風處之擴散聲音能量。
在另一實施例中,擴散度計算單元可適於藉由應用以下公式,估計直接聲音能量,該公式如下:
其中「距離Smi-IPLS」為第i個真實麥克風之位置與聲源位置之間的距離,其中「距離VM-IPLS」為虛擬位置與聲源位置之間的距離,且其中為第i個真實空間麥克風處之直接能量。
另外,根據另一實施例,擴散度計算單元可進一步適於藉由估計虛擬麥克風處之擴散聲音能量及虛擬麥克風處之直接聲音能量,及藉由應用以下公式,來估計虛擬麥克風處之擴散度,該公式如下:
其中Ψ(VM)表明所估計虛擬麥克風處之擴散度,其中表明所估計擴散聲音能量且其中表明所估計直接聲音能量。
圖式簡單說明
下文將描述本發明之較佳實施例,其中:第1圖圖示根據實施例,用於產生音訊輸出信號之裝置,第2圖圖示根據實施例,用於產生音訊輸出信號之裝置及方法之輸入及輸出,第3圖圖示根據實施例,包含聲音事件位置估值器及資訊計算模組之裝置的基本結構,第4圖圖示示例性情境,其中真實空間麥克風描繪為各3個麥克風之均勻線性陣列,第5圖描繪用於估計3D空間中抵達方向之3D中的兩個空間麥克風,第6圖圖示幾何形狀配置,其中現時頻頻段(k,n)之各向同性點類似聲源位於位置pIPLS(k,n),第7圖描繪根據實施例之資訊計算模組,第8圖描繪根據另一實施例之資訊計算模組,第9圖圖示兩個真實空間麥克風、經定置聲音事件及虛擬空間麥克風之位置,以及相應延遲及振幅衰減,第10圖圖示根據實施例,如何獲得相關於虛擬麥克風之抵達方向,第11圖描繪根據實施例,由虛擬麥克風之視點導出聲音之DOA之可能方式,第12圖圖示根據實施例之額外包含擴散度計算單元之資訊計算方塊,第13圖描繪根據實施例之擴散度計算單元,第14圖圖示不可能估計聲音事件位置之情境,以及第15a-15c圖圖示兩個麥克風陣列接收直接聲音、由牆反射之聲音及擴散聲音之情境。
第1圖圖示用於產生音訊輸出信號,以模擬環境中可組配虛擬位置posVmic處之虛擬麥克風之記錄的裝置。此裝置包含聲音事件位置估值器110及資訊計算模組120。聲音事件位置估值器110接收來自第一真實空間麥克風之第一方向資訊di1及來自第二真實空間麥克風之第二方向資訊di2。聲音事件位置估值器110適於估計表明環境中發出聲波之聲源之位置的聲源位置ssp,其中聲音事件位置估值器110適於根據由位於環境中第一真實麥克風位置pos1mic之第一真實空間麥克風提供之第一方向資訊di1,及根據由位於環境中第二真實麥克風位置之第二真實空間麥克風提供之第二方向資訊di2,估計聲源位置ssp。資訊計算模組120適於根據由第一真實空間麥克風記錄之第一經記錄音訊輸入信號is1、根據第一真實麥克風位置pos1mic及根據虛擬麥克風之虛擬位置posVmic,產生音訊輸出信號。資訊計算模組120包含傳播補償器,該傳播補償器適於藉由調整第一經記錄音訊輸入信號is1之振幅值、量值或相位值,來藉由補償由第一真實空間麥克風處之聲源發出的聲波之抵達與虛擬麥克風處之聲波之抵達之間的第一延遲或振幅衰減,來藉由修改第一經記錄音訊輸入信號is1,產生第一經修改音訊信號。
第2圖圖示根據實施例之裝置及方法之輸入及輸出。將來自兩個或兩個以上真實空間麥克風111、112、...、11N之資訊饋至裝置/藉由此方法處理。該資訊包含由真實空間麥克風拾取之音訊信號以及來自真實空間麥克風之方向資訊,例如,抵達方向(DOA)估值。可以時頻域表示音訊信號及諸如抵達方向估值之方向資訊。若,例如,期望2D幾何重建且選擇傳統短時間傅立葉轉換(STFT)域用於信號之表示,則DOA可表示為依賴於k及n(即頻率及時間標誌)之方位角。
在一些實施例中,可根據常見坐標系統中真實及虛擬空間麥克風之位置及方位,來實施空間中聲音事件定置,以及虛擬麥克風之位置之描述。可以第2圖中輸入121...12N及輸入104來表示該資訊。如下文將論述,輸入104可額外說明虛擬空間麥克風之特徵,例如,該虛擬空間麥克風之位置及拾取模式。若虛擬空間麥克風包含多個虛擬感測器,則可考慮該等虛擬感測器之位置及相應不同拾取模式。
當期望時,裝置或相應方法之輸出可為可藉由按照由104說明進行定義及放置之空間麥克風拾取之一或更多聲音信號105。另外,裝置(更確切地說,方法)可提供可藉由使用虛擬空間麥克風估計之相應空間旁側資訊106作為輸出。
第3圖圖示根據實施例之裝置,該裝置包含兩個主處理單元:聲音事件位置估值器201及資訊計算模組202。聲音事件位置估值器201可根據輸入111...11N中包含的DOA及根據對計算DOA之真實空間麥克風之位置及方位的認識,來執行幾何重建。聲音事件位置估值器之輸出205包含聲源之位置估值(在2D或3D中),其中每個時頻頻段發生聲音事件。第二處理方塊202為資訊計算模組。根據第3圖之實施例,第二處理方塊202計算虛擬麥克風信號及空間旁側資訊。因此,該第二處理方塊202亦稱為虛擬麥克風信號及旁側資訊計算方塊202。虛擬麥克風信號及旁側資訊計算方塊202使用聲音事件之位置205,來處理111...11N中包含的音訊信號,以輸出虛擬麥克風音訊信號105。若需要,方塊202亦可計算對應於虛擬空間麥克風之空間旁側資訊106。以下實施例圖示方塊201及202可如何操作的可能性。
在下文中,更詳細地描述根據實施例之聲音事件位置估值器之位置估計。
取決於問題之維數(2D或3D)及空間麥克風之數量,位置估計之若干方案為可能的。
若在2D中存在兩個空間麥克風,則(最簡單的可能情況)簡單三角測量為可能的。第4圖圖示真實空間麥克風描繪為各3個麥克風之均勻線性陣列(ULA)的示例性情境。計算時頻頻段(k,n)之表示為方位角a1(k,n)及a2(k,n)之DOA。此藉由使用適當DOA估值器來實現,諸如ESPRIT:
[13] R. Roy, A. Paulraj,and T. Kailath,「Direction-of-arrival estimation by subspace rotation methods-ESPRIT,」in IEEE International Conference on Acoustics,Speech,and Signal Processing(IC ASSP),Stanford,CA,USA,April 1986,
或(根)MUSIC,參見:
[14] R. Schmidt,「Multiple emitter location and signal parameter estimation,」IEEE Transactions on Antennas and Propagation,vol. 34,no. 3,pp. 276-280,1986
至轉變成為時頻域之壓力信號。
在第4圖中,圖示出兩個真實空間麥克風,此處為兩個真實空間麥克風陣列410、420。藉由兩條線表示兩個經估計DOA a1(k,n)及a2(k,n),第一線430表示DOA a1(k,n)且第二線440表示DOA a2(k,n)。經由簡單的幾何思考,進而瞭解每個陣列之位置及方位,三角測量為可能的。
當兩條線430、440完全平行時,三角測量失敗。然而,在實際應用中,此狀況不太可能。然而,並非所有三角測量結果對應於所考慮空間中聲音事件之實體或可行位置。舉例而言,聲音事件之經估計位置可離假設空間非常遠或甚至位於假設空間外,表明DOA可能不對應於可用所使用之模型實體解釋之任何聲音事件。可由感測器雜訊或非常強的房間交混迴響造成該等結果。因此,根據實施例,將標記該等不期望結果,以使得資訊計算模組202可適當地處理該等結果。
第5圖描繪在3D空間中估計聲音事件之位置的情境。使用了適當空間麥克風,例如,平面或3D麥克風陣列。在第5圖中,圖示出第一空間麥克風510(例如,第一3D麥克風陣列),及第二空間麥克風520(例如,第一3D麥克風陣列)。3D空間中的DOA可例如,表示為方位角及仰角。可使用單位向量530、540來表示DOA。根據DOA投影兩條線550、560。在3D中,即使以非常可靠估計,根據DOA所投影之兩條線550、560也不可能相交。然而,可例如藉由選擇連接兩條線之最小線段之中點,來仍執行三角測量。
類似於2D之情況,三角測量可失敗或可產生某些方向組合之不可行結果,可然後亦將該等不可行結果標記,例如,至第3圖之資訊計算模組202。
若存在多於兩個空間麥克風,則若干方案為可能的。舉例而言,可對所有真實空間麥克風對(若N=3,則1與2,1與3,及2與3)執行以上所闡釋之三角測量。然後可將所得位置平均(沿x及y,及,若考慮到3D,z)。
替代地,可使用更複雜的概念。舉例而言,可應用機率方法,如下文中所描述:
[15] J. Michael Steele,「Optimal Triangulation of Random Samples in the Plane」,The Annals of Probability,Vol. 10,No.3(Aug.,1982),pp. 548-553.
根據一實施例,可以例如,經由短時間傅立葉轉換(STFT)所獲得之時頻域分析聲場,其中k及n分別表示頻率索引k及時間索引n。某一k及n之任意位置pv處之複合壓力Pv(k,n)建模為由窄帶各向同性點類似源發出的單個球面波,例如,藉由使用以下公式:
P v (k,n)=P IPLS(k,n)‧γ(k,p IPLS(k,n),p v ), (1)
其中PIPLS(k,n)為由IPLS在該IPLS之位置pIPLS(k,n)處發出的信號。複合因數γ(k,pIPLS,pv)表示從pIPLS(k,n)至pv之傳播,例如,該複合因數γ引入合適相位及量值修改。此處,可應用假設:在每個時頻頻段中僅一個IPLS為有效的。然而,在單一時間實體處,位於不同位置之多個窄帶IPLS亦可為有效的。
每個IPLS建模直接聲音或清楚的房間反射。該IPLS之位置pIPLS(k,n)可理想地分別對應於位於房間內部之實聲源,或位於外面之鏡像聲源。因此,位置pIPLS(k,n)亦可表明聲音事件之位置。
請注意,「真實聲源」一詞表示實體存在於記錄環境中之實聲源,諸如通話器或樂器。相反,我們使用「聲源」或「聲音事件」或「IPLS」指有效聲源,該等有效聲源在某些時刻或在某些時頻頻段為有效的,其中聲源可,例如,表示真實聲源或鏡像源。
第15a-15b圖圖示定置聲源之麥克風陣列。經定置聲源可取決於該等經定置聲源之性質具有不同的實體解釋。當麥克風陣列接收直接聲音時,該等麥克風陣列可能夠定置正確聲源(例如,通話器)之位置。當麥克風陣列接收反射時,該等麥克風陣列可定置鏡像源之位置。鏡像源亦為聲源。
第15a圖圖示兩個麥克風陣列151及152接收來自實聲源(實體存在聲源)153之直接聲音的情境。
第15b圖圖示兩個麥克風陣列161、162接收反射聲音的情境,其中聲音由牆反射。由於反射,麥克風陣列161、162定置聲音似乎來自的、鏡像源165之位置處的位置,該位置不同於話筒163之位置。
第15a圖之實聲源153以及鏡像源165兩者均為聲源。
第15c圖圖示兩個麥克風陣列171、172接收擴散聲音且不能夠定置聲源的情境。
在源信號滿足W分離正交性(WDO)條件之情況下,亦即,時頻重疊足夠小,而該單波模型只有在柔和交混迴響環境中為準確的。此對於語音信號通常為正確的,參見例如:
[12] S. Rickard and Z. Yilmaz,「On the approximate W-disjoint orthogonality of speech,」in Acoustics,Speech and Signal Processing,2002. ICASSP 2002. IEEE International Conference on,April 2002,vol. 1.
然而,此模型亦提供對於其他環境之良好估計且因此亦適用於彼等環境。
在下文中,闡釋了根據實施例之位置pIPLS(k,n)之估計。有效IPLS之位置pIPLS(k,n)處於某一時頻頻段,且因此,經由根據在至少兩個不同觀測點量測之聲音之抵達方向(DOA)的三角測量來估計時頻頻段中聲音事件之估值。
第6圖圖示幾何形狀配置,其中現時頻槽(k,n)之IPLS位於未知位置pIPLS(k,n)。為決定所需DOA資訊,使用具有已知幾何、位置及方位的兩個真實空間麥克風,此處為兩個麥克風陣列,該兩個真實空間麥克風分別放置在位置610及620。向量p1及p2分別指向位置610、620。藉由單位向量c1及c2定義陣列方位。對於每個(k,n),使用例如,如由DirAC分析(參見[2]、[3])所提供之DOA估值算法,來決定位置610及620中聲音之DOA。由此,可提供關於麥克風陣列之視點之第一視點單位向量(k,n)及第二視點單位向量(k,n)(在第6圖中均未圖示)作為DirAC分析之輸出。舉例而言,當在2D中操作時,第一視點單位向量結果得:
如第6圖中所描繪,此處,φ1(k,n)表示第一麥克風陣列處之所估計DOA之方位角。當在2D中操作且c 1=[c 1, x ,c 1, y ]T時,可藉由應用以下公式,計算關於原點處的整體坐標系統之相應DOA單位向量e1(k,n)及e2(k,n),該公式如下:
其中 R 為坐標變換矩陣,例如:
為執行三角測量,方向向量d1(k,n)及d2(k,n)可計算為:
d 1(k,n)=d 1(k,n)e 1(k,n),
d 2(k,n)=d 2(k,n)e 2(k,n),
 (5)
其中d1(k,n)=∥d1(k,n)∥及d2(k,n)=∥d2(k,n)∥為IPLS與兩個麥克風陣列之間的未知距離。以下等式:
p 1+d 1(k,n)=p 2+d 2(k,n)
 (6)
可求出d1(k,n)。最後,由以下等式給出IPLS之位置pIPLS(k,n),該等式如下:
p IPLS(k,n)=d 1(k,n)e 1(k,n)+ p 1.
 (7)
在另一實施例中,等式(6)可求出d2(k,n)且使用d2(k,n)類似地計算pIPLS(k,n)。
除非e1(k,n)與e2(k,n)平行,否則等式(6)總是提供當在2D中操作時之方案。然而,當使用多於兩個麥克風陣列或當在3D中操作時,當方向向量 d 不相交時,方案不可獲得。根據實施例,在此情況下,計算出最靠近所有方向向量 d 之點且結果可用作IPLS之位置。
在一實施例中,應設置所有觀測點p1、p2...,以使得由IPLS發出的聲音落入相同時間方塊n。當觀測點中之任何兩者之間的距離Δ小於
時,可簡單地滿足該要求,其中nFFT為STFT時窗長度,0≦R<1說明連續時間訊框之間的重疊且fs為取樣頻率。舉例而言,對於48 kHz、具有50%重疊(R=0.5)之1024點STFT,滿足上述要求之陣列之間的最大間隔為Δ=3.65 m。
在下文中,更詳細地描述根據實施例之資訊計算模組202,例如虛擬麥克風信號及旁側資訊計算模組。
第7圖圖示根據實施例之資訊計算模組202之示意性概觀。資訊計算單元包含傳播補償器500、組合器510及頻譜加權單元520。資訊計算模組202接收由聲音事件位置估值器所估計之聲源位置估值ssp,藉由真實空間麥克風中之一或更多者、真實空間麥克風中之一或更多者之位置posRealMic,及虛擬麥克風之虛擬位置posVmic,來記錄一或更多音訊輸入信號。該資訊計算模組202輸出表示虛擬麥克風之音訊信號之音訊輸出信號os。
第8圖圖示根據另一實施例之資訊計算模組。第8圖之資訊計算模組包含傳播補償器500、組合器510及頻譜加權單元520。傳播補償器500包含傳播參數計算模組501及傳播補償模組504。組合器510包含組合因數計算模組502及組合模組505。頻譜加權單元520包含頻譜加權計算單元503、頻譜加權應用模組506及空間旁側資訊計算模組507。
為計算虛擬麥克風之音訊信號,將幾何資訊,例如,真實空間麥克風121...12N之位置及方位、虛擬空間麥克風之位置、方位及特徵104,及聲音事件之位置估值205饋至資訊計算模組202中,詳言之,饋至傳播補償器500之傳播參數計算模組501中、饋至組合器510之組合因數計算模組502中及饋至頻譜加權單元520之頻譜加權計算單元503中。傳播參數計算模組501、組合因數計算模組502及頻譜加權計算單元503計算在傳播補償模組504、組合模組505及頻譜加權應用模組506之音訊信號111...11N之修改中所使用的參數。
在資訊計算模組202中,可首先修改音訊信號111...11N,以補償由聲音事件位置與真實空間麥克風之間的不同傳播長度造成之效果。然後可將信號組合以改良,例如,信雜比(SNR)。最後,然後可光譜地加權所得信號,以將虛擬麥克風之定向拾取模式,以及任何距離依賴增益函數納入考量。下文更詳細地論述該三個步驟。
現更詳細地闡釋傳播補償。在第9圖之上部部分中,圖示出兩個真實空間麥克風(第一麥克風陣列910及第二麥克風陣列920)、時頻頻段(k,n)之經定置聲音事件930之位置,及虛擬空間麥克風940之位置。
第9圖之下部部分描繪時間軸。假設聲音事件在時間t0處發出,且然後傳播至真實及虛擬空間麥克風。抵達時間延遲以及振幅隨距離而改變,使得傳播長度越遠,振幅越弱且抵達時間延遲越長。
只有當兩個真實陣列之間的相對延遲Dt12小時,該兩個真實陣列之信號才為可比較的。否則,兩個信號中之一者必須短暫地重新對準以補償相對延遲Dt12,且可能地,按比例調整以補償不同衰減。
補償虛擬麥克風處之抵達與真實麥克風陣列(真實空間麥克風中之一者)處之抵達之間的延遲,改變獨立於聲音事件之定置之延遲,進而使得對於大多數應用,該補償為多餘的。
回閱第8圖,傳播參數計算模組501適於計算各真實空間麥克風及各聲音事件之待校正之延遲。若期望,則該傳播參數計算模組501亦計算待考慮以補償不同振幅衰減之增益因數。
傳播補償模組504經組配以使用該資訊來據此修改音訊信號。若欲將信號移位少量時間(與濾波器組之時窗相比),則簡單的相位旋轉足夠。若延遲較大,則需要更複雜的實施。
傳播補償模組504之輸出為以初始時頻域表示之經修改音訊信號。
在下文中,將參照第6圖描述根據實施例之虛擬麥克風之傳播補償的特定估值,其中第6圖特別圖示第一真實空間麥克風之位置610及第二真實空間麥克風之位置620。
在現所闡釋之實施例中,假設至少一個第一經記錄音訊輸入信號,例如真實空間麥克風(例如麥克風陣列)中之至少一者之壓力信號為可得的,例如第一真實空間麥克風之壓力信號。我們將把所考慮麥克風稱為參考麥克風,把該麥克風之位置稱為參考位置pref且把該麥克風之壓力信號稱為參考壓力信號Pref(k,n)。然而,傳播補償不僅可關於僅一個壓力信號實施,而且可關於多個或所有真實空間麥克風之壓力信號實施。
由IPLS發出的壓力信號PIPLS(k,n)與位於Pref之參考麥克風的參考壓力信號Pref(k,n)之間的關係可以公式(9)表示:
P ref(k,n)=P IPLS(k,n)‧γ(k,p IPLS,p ref), (9)
通常,複合因數γ(k,pa,pb)表示由從pa中球面波之原點至pb之球面波之傳播引入的相位旋轉及振幅衰減。然而,實踐測試表明,與亦考慮到相位旋轉相比,僅考慮到γ中的振幅衰減導致虛擬麥克風信號之具有少數假像之看似可信的印象。
可在空間中的某一點處量測之聲能強烈依賴於距聲源,在第6圖中距聲源之位置pIPLS,之距離r。在許多情況下,可以足夠準確度使用熟知物理原理建模該依賴性,例如在點源之遠場中的聲壓之1/r衰減。當參考麥克風,例如第一真實麥克風,距聲源之距離已知時,且當虛擬麥克風距聲源之距離亦已知時,則可由參考麥克風,例如第一真實空間麥克風,之信號及能量來估計虛擬麥克風之位置處的聲能。此意謂,可藉由將適當增益施加至參考壓力信號來獲得虛擬麥克風之輸出信號。
假設第一真實空間麥克風為參考麥克風,則pref=p1。在第6圖中,虛擬麥克風位於pv。由於詳細已知第6圖中的幾何形狀配置,故可易於決定參考麥克風(第6圖:第一真實空間麥克風)與IPLS之間的距離d1(k,n)=∥d1(k,n)∥,以及虛擬麥克風與IPLS之間的距離s(k,n)=∥s(k,n)∥,即:
s(k,n)=∥s(k,n)∥=∥ p 1+ d 1(k,n)- p v ∥.
 (10)
藉由將公式(1)及(9)組合,計算虛擬麥克風之位置處的聲壓Pv(k,n),產生:
如上所述,在一些實施例中,因數γ可僅考慮由於傳播造成之振幅衰減。假設,例如,聲壓以1/r減小,則:
當公式(1)中的模型保持時,例如,當僅存在直接聲音時,則公式(12)可準確地重建量資訊。然而,在純擴散聲場之情況下,例如,當不滿足模型假設時,當將虛擬麥克風移動遠離感測器陣列之位置時,所提供方法產生信號之隱性去交混迴響。實際上,如以上所論述,在擴散聲場中,我們預期大多數IPLS經定置接近兩個感測器陣列。因此,當將虛擬麥克風移動遠離該等位置時,我們可能增加第6圖中的距離s=∥s∥。因此,當根據公式(11)應用加權時,參考壓力之量值減少。相應地,當將虛擬麥克風移動接近於實聲源時,將放大對應於直接聲音之時頻頻段,以使得將較少擴散地感知全部音訊信號。藉由調整公式(12)中的規則,可隨意控制直接聲音放大及擴散聲音抑制。
藉由實施第一真實空間麥克風之經記錄音訊輸入信號(例如,壓力信號)之傳播補償,獲得第一經修改音訊信號。
在一些實施例中,可藉由實施第二真實空間麥克風之經記錄第二音訊輸入信號(第二壓力信號)之傳播補償,獲得第二經修改音訊信號。
在其他實施例中,可藉由實施另外真實空間麥克風之經記錄之另外音訊輸入信號(另外壓力信號)之傳播補償,獲得另外音訊信號。
現更詳細地闡釋根據實施例之第8圖中方塊502與505之組合。假設已修改來自多個不同真實空間麥克風之兩個或兩個以上音訊信號,來補償不同傳播路徑,以獲得兩個或兩個以上經修改音訊信號。一旦已修改來自不同真實空間麥克風之音訊信號,以補償不同傳播路徑,則可將該等音訊信號組合以改良音訊品質。藉由如此做,例如,可增加SNR或可減少交混迴響感。
可能之組合方案包含:
- 加權平均,例如,考慮SNR,或至虛擬麥克風之距離,或由真實空間麥克風估計之擴散度。傳統方案,例如,可使用最大比值組合(MRC)或均等增益組合(EQC),或
- 線性組合一些或所有經修改音訊信號,以獲得組合信號。經修改音訊信號可以線性組合加權,以獲得組合信號,或
- 選擇,例如,(例如)取決於SNR或距離或擴散度,僅使用一個信號。
模組502之任務為,在適用之情況下,計算用於在模組505中執行之組合的參數。
現更詳細地描述根據實施例之頻譜加權。為此,參照了第8圖之方塊503及506。在該最後步驟處,根據如由輸入104所說明之虛擬空間麥克風之空間特徵及/或根據所重建幾何形狀配置(在205中給出),將由組合或由輸入音訊信號之傳播補償所得之音訊信號以時頻域加權。
如第10圖所示,對於每個時頻頻段,幾何再建允許我們易於獲得相關於虛擬麥克風之DOA。另外,亦可易於計算虛擬麥克風與聲音事件之位置之間的距離。
然後考慮期望虛擬麥克風之類型,計算時頻頻段之加權。
在定向麥克風之情況下,可根據預定拾取模式計算頻譜加權。舉例而言,根據實施例,心形麥克風可具有由函數g(theta)定義之拾取模式,
g(theta)=0.5+0.5 cos(theta),
其中theta為虛擬空間麥克風之探視方向與來自虛擬麥克風之視點之聲音的DOA之間的角度。
另一可能性為藝術(非實體)衰減函數。在某些應用中,可期望抑制聲音事件遠離具有大於表徵自由場傳播之因數之因數的虛擬麥克風。為達此目的,一些實施例引入依賴於虛擬麥克風與聲音事件之間的距離之額外加權函數。在實施例中,僅應拾取距虛擬麥克風某一距離(例如,以公尺計)內之聲音事件。
關於虛擬麥克風定向,虛擬麥克風可應用任意定向模式。如此做時,可將源與複合聲音場景分開。
由於可以虛擬麥克風之位置pv計算聲音之DOA,即:
其中cv為描述虛擬麥克風之方位之單位向量,可實現虛擬麥克風之任意定向。舉例而言,假設Pv(k,n)表明組合信號或經傳播補償之經修改音訊信號,則公式:
 (14)
計算具有心形定向之虛擬麥克風之輸出。可潛在地以此方式產生之定向模式依賴於位置估計之準確度。
在數個實施例中,除真實空間麥克風之外,將一或更多真實、非空間麥克風,例如,全向麥克風或諸如心形之定向麥克風,放置在聲音場景中,以進一步改良第8圖中虛擬麥克風信號105之聲音品質。該等麥克風不用以收集任何幾何資訊,而是僅用以提供更平整之音訊信號。可放置該等麥克風比空間麥克風更接近聲源。在此情況下,根據實施例,將真實、非空間麥克風之音訊信號及該等麥克風之位置,而非真實空間麥克風之音訊信號,簡單地饋至第8圖之傳播補償模組504,進行處理。然後關於一或更多非空間麥克風之位置,實施非空間麥克風之一或更多記錄音訊信號之傳播補償。藉由此舉,使用額外非空間麥克風實現實施例。
在另一實施例中,實現了虛擬麥克風之空間旁側資訊之計算。為計算麥克風之空間旁側資訊106,第8圖之資訊計算模組202包含空間旁側資訊計算模組507,該空間旁側資訊計算模組507適於接收聲源之位置205及虛擬麥克風之位置、方位及特徵104作為輸入。在某些實施例中,根據需要計算之旁側資訊106,亦可將虛擬麥克風之音訊信號105作為至空間旁側資訊計算模組507之輸入納入考量。
空間旁側資訊計算模組507之輸出為虛擬麥克風之旁側資訊106。該旁側資訊可為,例如,來自虛擬麥克風之視點之每個時頻頻段(k,n)之聲音的DOA或擴散度。另一可能旁側資訊可,例如,為已在虛擬麥克風之位置量測之有效聲音強度向量Ia(k,n)。現將描述如何導出該等參數。
根據一實施例,實現了虛擬空間麥克風之DOA估計。如第11圖所示,資訊計算模組120適於根據虛擬麥克風位置向量及根據聲音事件位置向量,估計虛擬麥克風處之抵達方向作為空間旁側資訊。
第11圖描繪導出來自虛擬麥克風之視點之聲音的DOA之可能方式。可使用位置向量r(k,n),即聲音事件位置向量來描述每個時頻頻段(k,n)之由第8圖中方塊205所提供之聲音事件之位置。類似地,可使用位置向量s(k,n),即虛擬麥克風位置向量,來描述第8圖中作為輸入104所提供之虛擬麥克風之位置。可藉由向量v(k,n)描述虛擬麥克風之探視方向。藉由a(k,n)給出關於虛擬麥克風之DOA。a(k,n)表示v與聲音傳播路徑h(k,n)之間的角度。可藉由使用以下公式計算h(k,n),該公式如下:
h(k,n)=s(k,n)-r(k,n)。
現可計算各(k,n)之期望DOA a(k,n),例如經由h(k,n)及v(k,n)之內積之定義,即:
a(k,n)=arcos(h(k,n)‧v(k,n)/(∥h(k,n)∥∥v(k,n)∥)。
如第11圖所示,在另一實施例中,資訊計算模組120可適於根據虛擬麥克風位置向量及根據聲音事件位置向量,估計虛擬麥克風處之有效聲音強度作為空間旁側資訊。
由以上所定義之DOA a(k,n),我們可導出虛擬麥克風之位置處之有效聲音強度Ia(k,n)。為此,假設第8圖中虛擬麥克風音訊信號105對應於全向麥克風之輸出,例如,我們假設,虛擬麥克風為全向麥克風。另外,假設第11圖中的探視方向v平行於坐標系統之x軸。由於期望有效聲音強度向量Ia(k,n)描述經由虛擬麥克風之位置之能量的淨流量,故我們可計算Ia(k,n),例如,根據以下公式:
Ia(k,n)=-(1/2 rho)|Pv(k,n)|2*[cos a(k,n),sin a(k,n)]T
其中,[]T表示轉置向量,rho為空氣密度,且Pv(k,n)為由虛擬空間麥克風,例如,第8圖中方塊506之輸出105所量測之聲壓。
若要計算以一般坐標系統表示,但仍處於虛擬麥克風之位置處之有效強度向量,則可應用以下公式:
Ia(k,n)=(1/2 rho)|Pv(k,n)|2 h(k,n)/∥h(k,n)∥。
聲音之擴散度表示在給定時頻槽中,聲場擴散如何(參見,例如,[2])。以值Ψ表示擴散度,其中0≦Ψ≦1。擴散度1表明聲場之總聲場能量完全擴散。例如,在空間聲音之再生中,該資訊極其重要。傳統地,在放置麥克風陣列之空間中的特定點處計算擴散度。
根據一實施例,可將擴散度作為可隨意放置在聲音場景中任意位置處之虛擬麥克風(VM)之所產生旁側資訊的附加參數來計算。藉由此舉,由於可產生DirAC串流,即聲音場景中任意點處之音訊信號、抵達方向及擴散度,故除計算虛擬麥克風之虛擬位置處的音訊信號之外,亦計算擴散度之裝置可視為虛擬DirAC前端。可在任意多揚聲器配置上進一步處理、儲存、傳輸,及回放DirAC串流。在此情況下,收聽者體驗聲音場景,猶如他或她在由虛擬麥克風說明之位置且以由虛擬麥克風之方位決定之方向探視。
第12圖圖示根據實施例,包含用於計算虛擬麥克風處之擴散度之擴散度計算單元801的資訊計算方塊。資訊計算方塊202適於接收除第3圖之輸入之外,亦包括真實空間麥克風處之擴散度之輸入111至11N。令Ψ(SM1)至Ψ(SMN)表示該等值。該等額外輸入饋至資訊計算模組202。擴散度計算單元801之輸出103為在虛擬麥克風之位置處計算之擴散度參數。
在描繪更多細節之第13圖中圖示出實施例之擴散度計算單元801。根據一實施例,估計了N個空間麥克風中之每一者處的直接及擴散聲音之能量。然後,使用IPLS之位置處之資訊,及空間及虛擬麥克風之位置處之資訊,獲得虛擬麥克風之位置處之該等能量之N個估值。最後,可將估值組合以改良估計準確度且可易於計算虛擬麥克風處之擴散度參數。
表示由能量分析單元810計算之N個空間麥克風之直接及擴散聲音之能量的估值。若P i 為複合壓力信號且Ψi為第i個空間麥克風之擴散度,則可例如根據以下公式計算能量,該公式如下:
在所有位置,擴散聲音之能量應相等,因此,虛擬麥克風處之擴散聲音能量之估值,可例如在擴散度組合單元820中,例如根據以下公式,簡單地藉由將平均來計算,該公式如下:
可藉由考慮估值器之差異,例如藉由考慮SNR,來執行估值之更有效組合。
由於傳播,直接聲音之能量依賴於至源之距離。因此,可修改以將此納入考量。此可例如,藉由直接聲音傳播調整單元830來執行。舉例而言,若假設直接聲場之能量隨距離平方衰減1,則可根據以下公式計算第i個空間麥克風之虛擬麥克風處的直接聲音之估值,該公式如下:
類似於擴散度組合單元820,可例如,藉由直接聲音組合單元840將在不同空間麥克風處所獲得的直接聲能之估值組合。結果為,例如,在虛擬麥克風處之直接聲能之估值。可例如,藉由擴散度子計算器850,例如根據以下公式,計算虛擬麥克風處的擴散度Ψ(VM),該公式如下:
如上所述,在一些情況下,聲音事件位置估值器來執行之聲音事件位置估計失敗,例如,在錯誤的抵達方向估值之情況下。第14圖圖示該情境。在該等情況下,不管在不同空間麥克風處所估計之擴散度參數且由於接收作為輸入111至11N,由於不可能有空間連貫再生,虛擬麥克風之擴散度103可設置為1(亦即,完全擴散)。
另外,可考慮在N個空間麥克風處的DOA估值之可靠性。此可例如,按照DOA估值器之差異或SNR來表示。可由擴散度子計算器850將該資訊納入考量,以便在DOA估值不可靠之情況下,可人為地增加VM擴散度103。實際上,因此,位置估值205亦將為不可靠的。
雖然在裝置之上下文中已描述了一些態樣,但是很明顯該等態樣亦表示對應方法之描述,其中方塊或設備對應於方法步驟或方法步驟之特徵結構。類似地,在方法步驟之上下文中描述之態樣亦表示對應方塊或項目或對應裝置之特徵結構之描述。
可將發明之經分解信號儲存於數位儲存媒體上或可傳送於諸如無線傳輸媒體之傳輸媒體上或諸如網際網路之有線傳輸媒體上。
本發明之實施例可取決於某些實施要求在硬體或軟體中實施。可使用數位儲存媒體來執行實施,數位儲存媒體例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,數位儲存媒體上儲存有電子可讀取控制信號,該等電子可讀取控制信號與可程式電腦系統合作(或能夠合作),以執行各個方法。
根據本發明之一些實施例包含具有電子可讀取控制信號之非瞬態資料載體,該等電子可讀取控制信號能夠與可程式電腦系統合作,以執行本文所述方法中之一者。
大體而言,本發明之實施例可作為具有程式代碼之電腦程式產品來實施,當電腦程式產品執行於電腦上時,該程式代碼可操作以執行方法中之一者。程式代碼可例如儲存於機器可讀取載體上。
其他實施例包含用於執行本文所述方法中之一者且儲存於機器可讀取載體上之電腦程式。
換言之,本發明方法之實施例因此為具有程式代碼之電腦程式,當電腦程式執行於電腦上時,電腦程式用於執行本文所述之方法中之一者。
因此,本發明方法之又一實施例為包含用於執行本文所述方法中之一者的電腦程式,且記錄有電腦程式的資料載體(或數位儲存媒體,或電腦可讀取媒體)。
因此,本發明方法之又一實施例為表示用於執行本文所述方法中之一者的電腦程式的資料串流或信號序列。資料串流或信號序列可例如經配置以經由資料通訊連接,例如經由網際網路來進行轉送。
又一實施例包含經配置或經調適以執行本文所述方法中之一者的處理構件,例如電腦或可程式邏輯設備。
又一實施例包含安裝有用於執行本文所述方法中之一者的電腦程式的電腦。
在一些實施例中,可程式邏輯設備(例如現場可程式化閘陣列)可用來執行本文所述方法之功能性中之一些或全部。在一些實施例中,現場可程式化閘陣列可與微處理器合作以執行本文所述方法中之一者。大體而言,方法較佳地由任何硬體裝置執行。
上述實施例僅為說明本發明之原理。應理解,配置之修改及變化及本文所述之細節對於熟習此項技術者將為顯而易見的。因此,本發明僅由隨後之專利申請專利範圍之範疇限制,且非由以描述及闡釋本文實施例之方式提供之特定細節來限制。
參考文獻:
[1] R. K. Furness,「Ambisonics-An overview,」in AES 8th International Conference,April 1990,pp. 181-189.
[2] V. Pulkki,「Directional audio coding in spatial sound reproduction and stereo upmixing,」in Proceedings of the AES 28th International Conference,pp. 251-258,Pite,Sweden,June 30-July 2,2006.
[3] V. Pulkki,「Spatial sound reproduction with directional audio coding,」J. Audio Eng. Soc.,vol. 55,no. 6,pp. 503-516,June 2007.
[4] C. Faller:「Microphone Front-Ends for Spatial Audio Coders」,in Proceedings of the AES 125th International Convention,San Francisco,Oct. 2008.
[5] M. Kallinger,H. Ochsenfeld,G. Del Galdo,F. Kch,D. Mahne,R. Schultz-Amling. and O. Thiergart,「A spatial filtering approach for directional audio coding,」in Audio Engineering Society Convention 126,Munich,Germany,May 2009.
[6] R. Schultz-Amling,F. Kch,O. Thiergart,and M. Kallinger,「Acoustical zooming based on a parametric sound field representation,」in Audio Engineering Society Convention 128,London UK,May 2010.
[7] J. Herre,C. Falch,D. Mahne,G. Del Galdo,M. Kallinger,and O. Thiergart,「Interactive teleconferencing combining spatial audio object coding and DirAC technology,」in Audio Engineering Society Convention 128,London UK,May 2010.
[8] E. G. Williams,Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography,Academic Press,1999.
[9] A. Kuntz and R. Rabenstein,「Limitations in the extrapolation of wave fields from circular measurements,」in 15th European Signal Processing Conference (EUSIPCO 2007),2007.
[10] A. Walther and C. Faller,「Linear simulation of spaced microphone arrays using b-format recordings,」in Audio Engineering Society Convention 128,London UK,May 2010.
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[12] S. Rickard and Z. Yilmaz,「On the approximate W-disjoint orthogonality of speech,」in Acoustics,Speech and Signal Processing,2002. ICASSP 2002. IEEE International Conference on,April 2002,vol. 1.
[13] R. Roy,A. Paulraj,and T. Kailath,「Direction-of-arrival estimation by subspace rotation methods-ESPRIT,」in IEEE International Conference on Acoustics,Speech,and Signal Processing (ICASSP),Stanford,CA,USA,April 1986.
[14] R. Schmidt,「Multiple emitter location and signal parameter estimation,」IEEE Transactions on Antennas and Propagation,vol. 34,no. 3,pp. 276-280,1986.
[15] J. Michael Steele,「Optimal Triangulation of Random Samples in the Plane」,The Annals of Probability,Vol. 10,No.3(Aug.,1982),pp. 548-553.
[16] F. J. Fahy,Sound Intensity,Essex: Elsevier Science Publishers Ltd.,1989.
[17] R. Schultz-Amling,F. Kch,M. Kallinger,G. Del Galdo,T. Ahonen and V. Pulkki,「Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding,」in Audio Engineering Society Convention 124,Amsterdam,The Netherlands,May 2008.
[18] M. Kallinger,F. Kch,R. Schultz-Amling,G. Del Galdo,T. Ahonen and V. Pulkki,「Enhanced direction estimation using microphone arrays for directional audio coding;」in Hands-Free Speech Communication and Microphone Arrays,2008. HSCMA 2008,May 2008,pp. 45-48.
103...輸出/VM擴散度
104...輸入/位置、方位及特徵
105...輸出/聲音信號/音訊信號
106...空間旁側資訊
110...聲音事件位置估值器
111...11N、121...12N...真實空間麥克風
120...資訊計算模組
151、152、161、162、171、172...麥克風陣列
153...實聲源
163...話筒
165...鏡像源
201...聲音事件位置估值器/方塊
202...資訊計算模組/方塊
205...位置估值/方塊
410、420...真實空間麥克風陣列
430...第一線
440...第二線
500...傳播補償器
501...傳播參數計算模組
502...組合因數計算模組
503...頻譜加權計算單元
504...傳播補償模組
505...組合模組
506...頻譜加權應用模組/方塊
507...空間旁側資訊計算模組
510...第一空間麥克風/組合器
520...第二空間麥克風/頻譜加權單元
530、540、c1、c2...單位向量
550、560...線
610、620...位置
801...擴散度計算單元
810...能量分析單元
820...擴散度組合單元
830...直接聲音傳播調整單元
840...直接聲音組合單元
850...擴散度子計算器
910...第一麥克風陣列
920...第二麥克風陣列
930...聲音事件
940...虛擬空間麥克風
is1...第一經記錄音訊輸入信號
pos1mic...第一真實麥克風位置
di1...第一方向資訊
di2...第二方向資訊
posVmic...虛擬麥克風位置
ssp...聲源位置
os...音訊輸出信號
pIPLS(k,n)...IPLS之位置
e1...第一視點單位向量
e2...第二視點單位向量
p1、p2、pvv...向量
r、s...距離
d1、d2...方向向量
φ1、φ2、φ(k,n)...方位角
posRealMic...真實麥克風位置
t0...時間
Dt12...相對延遲
r、s...位置向量
h(k,n)...聲音傳播路徑
...虛擬麥克風處之擴散聲音能量
...虛擬麥克風處之直接聲音能量
...第一真實麥克風處之擴散聲音能量
...第N真實麥克風處之擴散聲音能量
...第一真實麥克風處之直接聲音能量
...第N真實麥克風處之直接聲音能量
第1圖圖示根據實施例,用於產生音訊輸出信號之裝置,
第2圖圖示根據實施例,用於產生音訊輸出信號之裝置及方法之輸入及輸出,
第3圖圖示根據實施例,包含聲音事件位置估值器及資訊計算模組之裝置的基本結構,
第4圖圖示示例性情境,其中真實空間麥克風描繪為各3個麥克風之均勻線性陣列,
第5圖描繪用於估計3D空間中抵達方向之3D中的兩個空間麥克風,
第6圖圖示幾何形狀配置,其中現時頻頻段(k,n)之各向同性點類似聲源位於位置pIPLS(k,n),
第7圖描繪根據實施例之資訊計算模組,
第8圖描繪根據另一實施例之資訊計算模組,
第9圖圖示兩個真實空間麥克風、經定置聲音事件及虛擬空間麥克風之位置,以及相應延遲及振幅衰減,
第10圖圖示根據實施例,如何獲得相關於虛擬麥克風之抵達方向,
第11圖描繪根據實施例,由虛擬麥克風之視點導出聲音之DOA之可能方式,
第12圖圖示根據實施例之額外包含擴散度計算單元之資訊計算方塊,
第13圖描繪根據實施例之擴散度計算單元,
第14圖圖示不可能估計聲音事件位置之情境,以及
第15a-15c圖圖示兩個麥克風陣列接收直接聲音、由牆反射之聲音及擴散聲音之情境。
is1...第一經記錄音訊輸入信號
pos1mic...第一真實麥克風位置
di1...第一方向資訊
di2...第二方向資訊
posVmic...虛擬麥克風位置
ssp...聲源位置
os...音訊輸出信號
110...聲音事件位置估值器
120...資訊計算模組
500...傳播補償器

Claims (25)

  1. 一種用以產生音訊輸出信號以模擬環境中可組配虛擬位置處的虛擬麥克風之音訊輸出信號的記錄之裝置,包含:一聲音事件位置估值器,該聲音事件位置估值器用以估計表明該環境中一聲音事件之一位置之一聲音事件位置,其中該聲音事件在一特定時刻或在一特定時頻頻段為有效的,其中該聲音事件係一真實聲源或一鏡像源,其中該聲音事件位置估值器係組配來估計該聲音事件位置,其表明當該聲音事件為一鏡像源時於該環境中一鏡像源的一位置,以及其中該聲音事件位置估值器適於根據由位於該環境中一第一真實麥克風位置之一第一真實空間麥克風所提供之一第一方向資訊,及根據由位於該環境中一第二真實麥克風位置之一第二真實空間麥克風所提供之一第二方向資訊,來估計該聲音事件位置;以及一資訊計算模組,該資訊計算模組用以根據一第一經記錄音訊輸入信號、根據該第一真實麥克風位置、根據該虛擬麥克風之虛擬位置、及根據該聲音事件位置,來產生該音訊輸出信號。
  2. 如申請專利範圍第1項之裝置,其中該資訊計算模組包含一傳播補償器,其中該傳播補償器適於藉由調整該第一經記錄音訊輸入信號之一振幅值、一量值或一相位值,根據該聲源與該第一真實空間麥克風之間的一第一 振幅衰減及根據該聲源與該虛擬麥克風之間的一第二振幅衰減,來藉由修改該第一經記錄音訊輸入信號,產生一第一經修改音訊信號,以獲得該音訊輸出信號。
  3. 如申請專利範圍第1項之裝置,其中該資訊計算模組包含一傳播補償器,其中該傳播補償器適於藉由調整該第一經記錄音訊輸入信號之一振幅值、一量值或一相位值,來藉由補償由該聲源發出的一聲波在該第一真實空間麥克風處之一抵達與該聲波在該虛擬麥克風處之一抵達之間的一第一延遲,來藉由修改該第一經記錄音訊輸入信號,產生一第一經修改音訊信號,以獲得該音訊輸出信號。
  4. 如申請專利範圍第2或3項之裝置,其中該第一真實空間麥克風係組配來記錄該第一經記錄音訊輸入信號。
  5. 如申請專利範圍第2或3項之裝置,其中一第三麥克風經組配來記錄該第一經記錄音訊輸入信號。
  6. 如申請專利範圍第2項之裝置,其中該聲音事件位置估值器適於根據由該聲源發出的該聲波在該第一真實麥克風位置處之一第一抵達方向作為該第一方向資訊及根據該聲波在該第二真實麥克風位置處之一第二抵達方向作為該第二方向資訊,來估計該聲源位置。
  7. 如申請專利範圍第2項之裝置,其中該資訊計算模組包含用以計算空間旁側資訊之一空間旁側資訊計算模組。
  8. 如申請專利範圍第7項之裝置,其中該資訊計算模組適於根據該虛擬麥克風之一位置向量及根據該聲音事件 之一位置向量,來估計該虛擬麥克風處之該抵達方向或一有效聲音強度作為空間旁側資訊。
  9. 如申請專利範圍第2項之裝置,其中該傳播補償器適於藉由調整以一時頻域表示之該第一經記錄音訊輸入信號之該量值,根據該聲源與該第一真實空間麥克風之間的該第一振幅衰減及根據該聲源與該虛擬麥克風之間的該第二振幅衰減,以一時頻域產生該第一經修改音訊信號。
  10. 如申請專利範圍第3項之裝置,其中該傳播補償器適於藉由調整以一時頻域表示之該第一經記錄音訊輸入信號之該量值,來藉由補償由該聲源發出的該聲波在該第一真實空間麥克風處之該抵達與該聲波在該虛擬麥克風處之該抵達之間的該第一延遲,以一時頻域產生該第一經修改音訊信號。
  11. 如申請專利範圍第2項之裝置,其中該傳播補償器適於藉由應用以下公式,藉由產生該第一經修改音訊信號之一經修改量值來實施傳播補償,而該公式如下: 其中d1(k,n)為該第一真實空間麥克風之位置與該聲音事件之位置之間的距離,其中s(k,n)為該虛擬麥克風之虛擬位置與該聲音事件之該聲源位置之間的距離,其中Pref(k,n)為以時頻域表示之該第一經記錄音訊輸入信號之一量值,且其中Pv(k,n)為對應於該虛擬麥克風之該信號之該經修改量值。
  12. 如申請專利範圍第2項之裝置,其中該資訊計算模組進一步包含一組合器,其中該傳播補償器進一步適於藉由調整由該第二真實空間麥克風記錄之一第二經記錄音訊輸入信號之一振幅值、一量值或一相位值,來藉由補償由該聲源發出的該聲波在該第二真實空間麥克風處之一抵達與該聲波在該虛擬麥克風處之一抵達之間的一第二延遲或一第二振幅衰減,而修改該第二經記錄音訊輸入信號,以獲得一第二經修改音訊信號,且其中該組合器適於藉由將該第一經修改音訊信號及該第二經修改音訊信號組合,產生一組合信號,以獲得該音訊輸出信號。
  13. 如申請專利範圍第12項之裝置,其中該傳播補償器進一步適於藉由補償該聲波在該虛擬麥克風處之一抵達與由該聲源發出的該聲波在一或更多另外真實空間麥克風中之每一者處之一抵達之間的延遲或振幅衰減,來修改由該一或更多另外真實空間麥克風所記錄之一或更多另外經記錄音訊輸入信號,其中該傳播補償器適於藉由調整該等另外經記錄音訊輸入信號中之每一者之一振幅值、一量值或一相位值,來補償該等延遲或振幅衰減中之每一者,以獲得多個第三經修改音訊信號,且其中該組合器適於藉由將該第一經修改音訊信號及該第二經修改音訊信號及該等多個第三經修改音訊 信號組合,產生一組合信號,以獲得該音訊輸出信號。
  14. 如申請專利範圍第2項之裝置,其中該資訊計算模組包含一頻譜加權單元,該頻譜加權單元用以取決於該聲波在該虛擬麥克風之該虛擬位置處的一抵達方向及取決於該虛擬麥克風之一虛擬方位,藉由修改該第一經修改音訊信號,產生一經加權音訊信號,以獲得該音訊輸出信號,其中該第一經修改音訊信號係於一時頻域中修改。
  15. 如申請專利範圍第12項之裝置,其中該資訊計算模組包含一頻譜加權單元,該頻譜加權單元用以取決於該聲波在該虛擬麥克風之該虛擬位置處之一抵達方向及該虛擬麥克風之一虛擬方位,藉由修改該組合信號,產生一經加權音訊信號,以獲得該音訊輸出信號,其中該組合信號係於一時頻域中修改。
  16. 如申請專利範圍第14項之裝置,其中該頻譜加權單元適於將加權因數α+(1-α)cos(φv(k,n))、或加權因數0.5+0.5 cos(φv(k,n)),應用在該經加權音訊信號上,其中φv(k,n)表明由該聲源發出的該聲波在該虛擬麥克風之該虛擬位置處之一抵達方向向量。
  17. 如申請專利範圍第2項之裝置,其中該傳播補償器進一步適於藉由調整由一第四麥克風記錄之一第三經記錄音訊輸入信號之一振幅值、一量值或一相位值,來藉由補償由該聲源發出的該聲波在該第四麥克風處之一抵達與該聲波在該虛擬麥克風處之一抵達之間的一第三 延遲或一第三振幅衰減,來藉由修改該第三經記錄音訊輸入信號,而產生一第三經修改音訊信號,以獲得該音訊輸出信號。
  18. 如申請專利範圍第1項之裝置,其中該聲音事件位置估值器適於估計一三維環境中的一聲源位置。
  19. 如申請專利範圍第1項之裝置,其中該資訊計算模組進一步包含一擴散度計算單元,該擴散度計算單元適於估計該虛擬麥克風處之一擴散聲音能量或該虛擬麥克風處之一直接聲音能量。
  20. 如申請專利範圍第19項之裝置,其中該擴散度計算單元適於根據該第一及該第二真實空間麥克風處之擴散聲音能量,估計該虛擬麥克風處之該擴散聲音能量。
  21. 如申請專利範圍第20項之裝置,其中該擴散度計算單元適於藉由應用以下公式,估計該虛擬麥克風處之該擴散聲音能量,該公式如下: 其中N為包含該第一及該第二真實空間麥克風之多個真實空間麥克風之數量,且其中為第i個真實空間麥克風處之該擴散聲音能量。
  22. 如申請專利範圍第20或21項之裝置,其中該擴散度計算單元適於藉由應用以下公式,估計該直接聲音能量,該公式如下: 其中「距離SMi-IPLS」為該第i個真實麥克風之一位置與該聲源位置之間的距離,其中「距離VM-IPLS」為該虛擬位置與該聲源位置之間的距離,且其中為該第i個真實空間麥克風處之直接能量。
  23. 如申請專利範圍第19項之裝置,其中該擴散度計算單元適於藉由估計該虛擬麥克風處之該擴散聲音能量及該虛擬麥克風處之該直接聲音能量且藉由應用以下公式,估計該虛擬麥克風處之擴散度,該公式如下: 其中ψ(VM)表明所估計之該虛擬麥克風處之該擴散度,其中表明所估計之該擴散聲音能量,且其中表明所估計之該直接聲音能量。
  24. 一種用以產生音訊輸出信號以模擬環境中可組配虛擬位置處的虛擬麥克風之該音訊輸出信號的記錄之方法,該方法包含以下步驟:估計表明該環境中一聲音事件的一位置之一聲音事件位置,其中該聲音事件在一特定時刻或在一特定時頻頻段為有效的,其中該聲音事件係一真實聲源或一鏡像源,其中估計該聲音事件位置之步驟包含估計該聲音事件位置,其表明當該聲音事件為一鏡像源時於該環境中一鏡像源的一位置,且其中估計該聲音事件位置之步驟係根據由位於該環境中一第一真實麥克風位置之一第一真實空間麥克風提供之一第一方向資訊,及根據由 位於該環境中一第二真實麥克風位置之一第二真實空間麥克風提供之一第二方向資訊;以及根據一第一經記錄音訊輸入信號、根據該第一真實麥克風位置、根據該虛擬麥克風之該虛擬位置、及根據該聲音事件位置,產生該音訊輸出信號。
  25. 一種電腦程式,用以於在一電腦或一信號處理器上執行時,實施如申請專利範圍第24項之方法。
TW100144576A 2010-12-03 2011-12-02 經由自抵達方向估值提取幾何資訊之聲音擷取技術 TWI530201B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US41962310P 2010-12-03 2010-12-03
US42009910P 2010-12-06 2010-12-06

Publications (2)

Publication Number Publication Date
TW201234873A TW201234873A (en) 2012-08-16
TWI530201B true TWI530201B (zh) 2016-04-11

Family

ID=45406686

Family Applications (2)

Application Number Title Priority Date Filing Date
TW100144576A TWI530201B (zh) 2010-12-03 2011-12-02 經由自抵達方向估值提取幾何資訊之聲音擷取技術
TW100144577A TWI489450B (zh) 2010-12-03 2011-12-02 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW100144577A TWI489450B (zh) 2010-12-03 2011-12-02 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式

Country Status (16)

Country Link
US (2) US9396731B2 (zh)
EP (2) EP2647222B1 (zh)
JP (2) JP5728094B2 (zh)
KR (2) KR101619578B1 (zh)
CN (2) CN103583054B (zh)
AR (2) AR084091A1 (zh)
AU (2) AU2011334851B2 (zh)
BR (1) BR112013013681B1 (zh)
CA (2) CA2819502C (zh)
ES (2) ES2525839T3 (zh)
HK (1) HK1190490A1 (zh)
MX (2) MX338525B (zh)
PL (1) PL2647222T3 (zh)
RU (2) RU2556390C2 (zh)
TW (2) TWI530201B (zh)
WO (2) WO2012072804A1 (zh)

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
WO2014032738A1 (en) * 2012-09-03 2014-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
EP2898506B1 (en) * 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
EP3515055A1 (en) 2013-03-15 2019-07-24 Dolby Laboratories Licensing Corp. Normalization of soundfield orientations based on auditory scene analysis
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US11146903B2 (en) 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9712939B2 (en) 2013-07-30 2017-07-18 Dolby Laboratories Licensing Corporation Panning of audio objects to arbitrary speaker layouts
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
CN105794231B (zh) 2013-11-22 2018-11-06 苹果公司 免提波束方向图配置
WO2015172854A1 (en) 2014-05-13 2015-11-19 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for edge fading amplitude panning
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
DE112015003945T5 (de) * 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、系统和存储介质
CN104168534A (zh) * 2014-09-01 2014-11-26 北京塞宾科技有限公司 一种全息音频装置及控制方法
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
WO2016056410A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2016123572A1 (en) * 2015-01-30 2016-08-04 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9609436B2 (en) 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
WO2017004584A1 (en) 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
GB2543275A (en) 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
JP6834971B2 (ja) * 2015-10-26 2021-02-24 ソニー株式会社 信号処理装置、信号処理方法、並びにプログラム
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US9894434B2 (en) 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
BR112018007276A2 (pt) * 2016-03-15 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho, método ou programa de computador para gerar uma descrição de campo de som
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
US10820097B2 (en) 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) * 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
IT201700055080A1 (it) * 2017-05-22 2018-11-22 Teko Telecom S R L Sistema di comunicazione wireless e relativo metodo per il trattamento di dati fronthaul di uplink
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
WO2019012133A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION
WO2019012131A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION
BR112020000779A2 (pt) 2017-07-14 2020-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para gerar uma descrição de campo sonoro aprimorada, aparelho para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, método para gerar uma descrição de campo sonoro aprimorada, método para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, programa de computador e descrição de campo sonoro aprimorada.
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
WO2019078816A1 (en) 2017-10-17 2019-04-25 Hewlett-Packard Development Company, L.P. ELIMINATION OF SPACE COLLISIONS DUE TO ESTIMATED SPEECH DIRECTION OF SPEECH
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
CA3122170C (en) * 2018-12-07 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
KR102470429B1 (ko) * 2019-03-14 2022-11-23 붐클라우드 360 인코포레이티드 우선순위에 의한 공간 인식 다중 대역 압축 시스템
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
CN114208209B (zh) 2019-07-30 2023-10-31 杜比实验室特许公司 音频处理系统、方法和介质
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법
EP3963902A4 (en) 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
GB2590504A (en) * 2019-12-20 2021-06-30 Nokia Technologies Oy Rotating camera and microphone configurations
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN111951833A (zh) * 2020-08-04 2020-11-17 科大讯飞股份有限公司 语音测试方法、装置、电子设备和存储介质
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
WO2022162878A1 (ja) * 2021-01-29 2022-08-04 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
CN116918350A (zh) * 2021-04-25 2023-10-20 深圳市韶音科技有限公司 声学装置
US20230035531A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Audio event data processing
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JPH04181898A (ja) * 1990-11-15 1992-06-29 Ricoh Co Ltd マイクロホン
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP3863323B2 (ja) * 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
EP1275272B1 (en) * 2000-04-19 2012-11-21 SNK Tech Investment L.L.C. Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100387238B1 (ko) * 2000-04-21 2003-06-12 삼성전자주식회사 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법
GB2364121B (en) 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
JP4304845B2 (ja) * 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
KR100626661B1 (ko) * 2002-10-15 2006-09-22 한국전자통신연구원 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법
JP4578243B2 (ja) * 2002-10-15 2010-11-10 韓國電子通信研究院 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
US7822496B2 (en) * 2002-11-15 2010-10-26 Sony Corporation Audio signal processing method and apparatus
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
PL378021A1 (pl) 2002-12-28 2006-02-20 Samsung Electronics Co., Ltd. Sposób i urządzenie do mieszania strumieni akustycznych i nośnik pamięciowy informacji
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
JP3639280B2 (ja) * 2003-02-12 2005-04-20 任天堂株式会社 ゲームメッセージ表示方法およびゲームプログラム
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4133559B2 (ja) 2003-05-02 2008-08-13 株式会社コナミデジタルエンタテインメント 音声再生プログラム、音声再生方法及び音声再生装置
US20060104451A1 (en) * 2003-08-07 2006-05-18 Tymphany Corporation Audio reproduction system
JP5284638B2 (ja) * 2004-04-05 2013-09-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 方法、デバイス、エンコーダ装置、デコーダ装置、及びオーディオシステム
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2006105105A2 (en) 2005-03-28 2006-10-05 Sound Id Personal sound system
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
US20070047742A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
EP1951000A4 (en) * 2005-10-18 2011-09-21 Pioneer Corp LOCALIZATION CONTROLLER, LOCALIZATION CONTROL PROCEDURE, LOCALIZATION CONTROL PROGRAM, AND COMPUTER READABLE RECORDING MEDIUM
CN101473645B (zh) * 2005-12-08 2011-09-21 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
BRPI0707969B1 (pt) 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
GB0604076D0 (en) * 2006-03-01 2006-04-12 Univ Lancaster Method and apparatus for signal presentation
EP1989926B1 (en) 2006-03-01 2020-07-08 Lancaster University Business Enterprises Limited Method and apparatus for signal presentation
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
EP2369836B1 (en) * 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP4894386B2 (ja) * 2006-07-21 2012-03-14 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8229754B1 (en) * 2006-10-23 2012-07-24 Adobe Systems Incorporated Selecting features of displayed audio data across time
EP2595149A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for transcoding downmix signals
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
JP4221035B2 (ja) * 2007-03-30 2009-02-12 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、音像定位制御方法、および、プログラム
AU2008240722B2 (en) 2007-04-19 2012-02-02 Qualcomm Incorporated Voice and position localization
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
WO2009046223A2 (en) * 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
JP5294603B2 (ja) * 2007-10-03 2013-09-18 日本電信電話株式会社 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
WO2009089353A1 (en) 2008-01-10 2009-07-16 Sound Id Personal sound system for display of sound pressure level or other environmental condition
JP5686358B2 (ja) * 2008-03-07 2015-03-18 学校法人日本大学 音源距離計測装置及びそれを用いた音響情報分離装置
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
EP2154677B1 (en) 2008-08-13 2013-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a converted spatial audio signal
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
AU2009291259B2 (en) * 2008-09-11 2013-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
WO2010070225A1 (fr) * 2008-12-15 2010-06-24 France Telecom Codage perfectionne de signaux audionumeriques multicanaux
JP5309953B2 (ja) * 2008-12-17 2013-10-09 ヤマハ株式会社 収音装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP5620689B2 (ja) * 2009-02-13 2014-11-05 本田技研工業株式会社 残響抑圧装置及び残響抑圧方法
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
US9197978B2 (en) * 2009-03-31 2015-11-24 Panasonic Intellectual Property Management Co., Ltd. Sound reproduction apparatus and sound reproduction method
KR20120006060A (ko) * 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법

Also Published As

Publication number Publication date
MX2013006150A (es) 2014-03-12
CN103583054B (zh) 2016-08-10
BR112013013681A2 (pt) 2017-09-26
JP5878549B2 (ja) 2016-03-08
CA2819394C (en) 2016-07-05
CN103583054A (zh) 2014-02-12
KR101619578B1 (ko) 2016-05-18
CA2819502A1 (en) 2012-06-07
RU2556390C2 (ru) 2015-07-10
ES2643163T3 (es) 2017-11-21
WO2012072804A1 (en) 2012-06-07
US9396731B2 (en) 2016-07-19
ES2525839T3 (es) 2014-12-30
BR112013013681B1 (pt) 2020-12-29
RU2013130226A (ru) 2015-01-10
MX338525B (es) 2016-04-20
WO2012072798A1 (en) 2012-06-07
KR101442446B1 (ko) 2014-09-22
EP2647222B1 (en) 2014-10-29
CA2819394A1 (en) 2012-06-07
KR20130111602A (ko) 2013-10-10
US10109282B2 (en) 2018-10-23
AU2011334857B2 (en) 2015-08-13
MX2013006068A (es) 2013-12-02
PL2647222T3 (pl) 2015-04-30
CA2819502C (en) 2020-03-10
AR084160A1 (es) 2013-04-24
JP5728094B2 (ja) 2015-06-03
AU2011334851B2 (en) 2015-01-22
AR084091A1 (es) 2013-04-17
EP2647005A1 (en) 2013-10-09
RU2013130233A (ru) 2015-01-10
AU2011334851A1 (en) 2013-06-27
EP2647005B1 (en) 2017-08-16
HK1190490A1 (zh) 2014-11-21
RU2570359C2 (ru) 2015-12-10
AU2011334857A1 (en) 2013-06-27
JP2014502109A (ja) 2014-01-23
CN103460285A (zh) 2013-12-18
JP2014501945A (ja) 2014-01-23
KR20140045910A (ko) 2014-04-17
TW201234873A (en) 2012-08-16
US20130268280A1 (en) 2013-10-10
CN103460285B (zh) 2018-01-12
US20130259243A1 (en) 2013-10-03
TW201237849A (en) 2012-09-16
TWI489450B (zh) 2015-06-21
EP2647222A1 (en) 2013-10-09

Similar Documents

Publication Publication Date Title
TWI530201B (zh) 經由自抵達方向估值提取幾何資訊之聲音擷取技術
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
US10334357B2 (en) Machine learning based sound field analysis
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法