TW201334580A - 整合幾何空間音源編碼串流之設備及方法 - Google Patents

整合幾何空間音源編碼串流之設備及方法 Download PDF

Info

Publication number
TW201334580A
TW201334580A TW101145074A TW101145074A TW201334580A TW 201334580 A TW201334580 A TW 201334580A TW 101145074 A TW101145074 A TW 101145074A TW 101145074 A TW101145074 A TW 101145074A TW 201334580 A TW201334580 A TW 201334580A
Authority
TW
Taiwan
Prior art keywords
source data
sound
sound source
source
data streams
Prior art date
Application number
TW101145074A
Other languages
English (en)
Other versions
TWI555412B (zh
Inventor
Galdo Giovanni Del
Oliver Thiergart
Jurgen Herre
Fabian Kuch
Emanuel Habets
Alexandra Craciun
Achim Kuntz
Original Assignee
Fraunhofer Ges Forschung
Univ Friedrich Alexander Er
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung, Univ Friedrich Alexander Er filed Critical Fraunhofer Ges Forschung
Publication of TW201334580A publication Critical patent/TW201334580A/zh
Application granted granted Critical
Publication of TWI555412B publication Critical patent/TWI555412B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明提供一種用以產生整合音源資料流之設備。此設備包含解多工器(180),用以獲得多個單層音源資料流,其中解多工器(180)適合於接收一個或多個輸入音源資料流,每個輸入音源資料流包含一層或多層,解多工器(180)適合於將具有一層或多層之每一個輸入音源資料流解多工成為正好具有一層之兩個以上的解多工的音源資料流,以使兩個以上的解多工的音源資料流一起包含一層或多層之輸入音源資料流。再者,此設備包含一整合模組(190),用以基於多個單層音源資料流來產生具有一層或多層之整合音源資料流。單層資料流以及整合音源資料流之解多工的音源資料流之輸入資料音源串流之每層包含壓力信號之壓力值、位置值以及擴散值以作為音源資料。

Description

整合幾何空間音源編碼串流之設備及方法
本發明是有關於音源處理,且更特別是有關於一種用以產生一整合音源資料流之設備及方法。
音源處理(特別是空間音源編碼之音源處理)變得越來越重要。傳統的空間聲錄製著眼於擷取一聲場,以於再生側使一聆聽者如其在錄製場地的察覺到聲音影像。針對空間聲錄製及再生技術之不同方法係從目前技藝水準得知,其可能基於聲道式、對象式或參數式表現。
聲道式表現表示聲音場景,所利用的是N個離散音源信號,其意味著待由以一種已知設定(例如5.1環繞聲音設定)配置的N個揚聲器撥放。關於空間聲錄製之方法譬如在AB立體音響中,通常採用隔開的全向麥克風,或者譬如在強度立體音響中通常採用一致指向性麥克風。或者,譬如在高傳真身歷聲響複製(Ambisonics)中可能採用更先進的麥克風,例如B-格式麥克風,有關高傳真身歷聲響複製(Ambisonics),請參考:
[1]Michael A.Gerzon。多聲道廣播及視頻中之高傳真身歷聲響複製(Ambisonics in multichannel broadcasting and video)。J.音源工程學會,33(11):859-871,1985年。
關於已知設定之期望揚聲器信號係直接從錄製的麥克風信號推導出,且然後離散地被傳輸或儲存。藉由應用音源編碼至離散信號而獲得之一種更有效的表現,在某些情況下,為了增加之效率而對不同聲道的資訊聯合地編碼,譬如在5.1之MPEG-Surround中,請參見:[21]J.Herre,K.Kjörling,J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.Rödén,W.Oomen,K.Linzmeier,K.S.Chong:"MPEG環繞-有效且相容的多聲道音源編碼之ISO/MPEG標準(MPEG Surround- The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding)",第122屆AES大會,奧地利維也納,2007年,預印紙7084。
這些技術之一項主缺點係為:一旦已經計算出揚聲器信號,聲音場景就無法變化。
對象式表現譬如使用於空間音源對象編碼(SAOC)中,請參見
[25]Jeroen Breebaart,Jonas Engdegård,Cornelia Falch,Oliver Hellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,Werner Oomen,Barbara Resch,Erik Schuijers,以及Leonid Terentiev。空間音源對象編碼(saoc)-針對參數對象式音源編碼之即將來臨的mpeg標準(Spatial audio object coding(saoc)-the upcoming mpeg standard on parametric object based audio coding)。於音源工程協會大會124,5 2008。
對象式表現表示具有N個離散音源對象之聲音場景。此種表現於再生側給予高撓性,因為聲音場景可藉由改變例如每個對象之位置及響度(loudness)而被操控。雖然此種表現可能輕易地從一種例如多軌錄製得到,但是其很難從利用一些麥克風(參見譬如[21])錄製之複合聲音場景獲得。事實上,揚聲器(或其他聲音放射對象)必須首先被定位,然後從混合中取出,這可能導致假象(artifacts)。
參數式表現常常採用空間麥克風來確定一個或多個音源縮混(downmix)信號以及描述空間聲之空間側資訊。一種例子係為音源編碼定向音源編碼(DirAC),如討論於
[29]Ville Pulkki。利用定向音源編碼之空間聲再生(Spatial sound reproduction with directional audio coding)。J.音源工程學會,55(6):503-516,2007年6月。
專業術語「空間麥克風」表示獲得能夠收回聲音之到達方向之空間聲之任何設備(例如指向性麥克風、麥克風陣列等之組合)。
專業術語「非空間麥克風」表示並不適合於用以收回聲音之到達方向之任何設備,例如單一全向或指向性麥克風。
另一種例子係被提出於下:[4]C.Faller。關於空間音源編碼器之麥克風前端(Microphone front-ends for spatial audio coders)。於AES第125屆國際公約的程序,舊金山,2008年10月。
在DirAC中,空間線索資訊包含聲音之到達方向(DOA) 與在一時頻域中被計算之聲場之擴散。對聲音再生而言,音源回放信號可基於參數描述而被推導出。這些技術於再生側提供很大的撓性,因為可採用任意的揚聲器設定,因為表現是特別彈性且緊湊的,因為其包含一縮混單聲道音源信號及側資訊,且因為其允許對於聲音場景簡單修改,譬如聽覺縮放、方向過濾、場景整合等。
然而,這些技術仍然是受限制的,其乃因為錄製的空間影 像總是與所使用之空間麥克風相關聯。因此,聽覺觀點無法變更且聲音場景之內的聆聽位置無法改變。
一種虛擬麥克風方法提出於下: [20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,以及E.A.P.Habets。藉由使用由配置的陣列所蒐集之幾何資訊產生虛擬麥克風信號(Generating virtual microphone signals using geometrical information gathered by distributed arrays)。於免持語音通信和麥克風陣列的第三次聯合研討會(HSCMA’11)英國愛丁堡2011年5月。
其允許計算出實際上隨意地置放(亦即,任意位置及方位)在環境中之任意的空間麥克風之輸出信號。敘述虛擬麥克風(VM)方法的特徵之撓性允許聲音場景在一後處理步驟中實際上隨意地被擷取,但沒有聲場表現是可得到的,其可被使用以有效地傳輸及/或儲存及/或修改聲音場景。此外,假設每時頻箱(time-frequency bin)只有一個來源是有效的,因此,如果兩個以上的來源在相同時頻箱中是有效的,則其無法正確描述聲音場景。再者,如果將虛擬麥克風(VM)應用於接收器側,則所有麥克風信號需要透過聲道送出,其使表現變成低效率,而如果將VM應用於發送器側,則聲音場景無法更進一步被操控,且此模型會喪失撓性並變成受限於某個揚聲器設定。此外,基於參數資訊,其並不考量聲音場景之一操控。
[24]Emmanuel Gallo與Nicolas Tsingos。提取和重新演奏來自現場錄音之結構性聽覺場景(Extracting and re-rendering structured auditory scenes from field recordings)。於智慧型音響環境之AES第30屆國際大會,2007,聲源位置估計基於利用配置的麥克風所測量之到達之配對時間差。再者,接收器取決於錄製,且需要所有麥克風信號以供合成(例如,揚聲器信號之產生)用。
此方法提供於:[28]Svein Berge。用以轉換空間音源信號之裝置及方法(Device and method for converting spatial audio signal)。美國專利申請案號10/547,151,類似於DirAC,使用到達方向作為一參數,從而將表現限制至聲音場景之一特定觀點。此外,因為分析及合成兩者需要被應用於通訊系統之相同側,所以其並未提出傳輸/儲存聲音場景表現之可能性。
另一種例子可以是視頻會議應用,於其中正在不同環境中被錄製之集會需要在一獨特聲音場景中被撥放。一多點控制單元(MCU)必須確定一獨特的聲音場景被撥放。
[22]G.Del Galdo,F.Kuech,M.Kallinger,及R.Schultz-Amling。利用定向音源編碼之對於空間聲再生之多重音源串流之有效整合(Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding)。於音響國際會議,語音和信號處理(ICASSP 2009),2009。
以及在
[23]US 20110216908:用以整合空間音源串流之設備(Apparatus for Merging Spatial Audio Streams)
結合一聲音場景之兩個以上的參數式表現之想法已被提出。
然而,如果將提供概念以利用一種足以修改聲音場景之有效方式、撓性而從兩個以上的聲音場景表現建立一獨特的聲音場景,則將是高度有利的。
本發明之目的係用以提供用以產生一整合音源資料流(例如一GAC串流)之改良概念。本發明之目的係藉由一種依據申請專利範圍第1項所述之設備,藉由一種依據申請專利範圍第17項所述之方法以及藉 由一種依據申請專利範圍第18項所述之電腦程式而獲得解決。
依據一實施例,提供一種用以產生一整合音源資料流之設備。此設備包含一解多工器,用以獲得複數個單層音源資料流,其中解多工器係適合於接收一個或多個輸入音源資料流,其中每個輸入音源資料流包含一層或多層,其中解多工器係適合於將具有一層或多層之每一個輸入音源資料流解多工成為正好具有一層之兩個以上的解多工的音源資料流,以使一個或多個解多工的音源資料流一起包含一層或多層之輸入音源資料流,用以提供兩個以上的單層音源資料流。再者,此設備包含一整合模組,用以基於複數個單層音源資料流(例如基於複數個解多工的單層音源資料流)產生具有一層或多層之整合音源資料流。單層資料流以及整合音源資料流之解多工的音源資料流之輸入資料音源串流之每個層,係包含一壓力信號之一壓力值、一位置值以及一擴散值以作為音源資料。
在更進一步的實施例中,此設備可包含一解多工器,用以獲得複數個單層音源資料流,其中解多工器係適合於接收兩個以上的輸入音源資料流,其中每個輸入音源資料流包含一層或多層,其中解多工器係適合於將具有兩層以上的每一個輸入音源資料流解多工成為正好具有一層之兩個以上的解多工的音源資料流,以使兩個以上的解多工的音源資料流一起包含兩層以上的輸入音源資料流,用以獲得兩個以上的單層音源資料流。再者,此設備可包含一整合模組,用以基於複數個單層音源資料流產生具有一層或多層之整合音源資料流。
在一實施例中,此設備可能適合於將正好具有一層之一個或多個接收到的輸入音源資料流直接饋送至整合模組中,而無須將它們饋送至解多工器中。
單層資料流及整合音源資料流之解多工的音源資料流之輸入資料音源串流之每個層,係包含一壓力信號之一壓力值、一位置值以及一擴散值以作為音源資料,音源資料係為複數個時頻箱之一時頻箱而被界定。
依據本實施例,兩個以上的錄製的聲音場景係利用整合兩個以上的音源資料流(例如GAC串流)以及藉由輸出單一音源資料流(例如單一GAC串流)而被整合成一個。
整合的聲音場景可被使用例如在視頻會議應用中,於其中在不同環境中被錄製之集會(parties)需要在一獨特聲音場景中被撥放。整合因此可發生在一多點控制單元(MCU)中以減少網路流量,或發生於最終用戶以減少合成之計算成本(例如揚聲器信號之計算)。
在一實施例中,整合模組可包含一成本函數模組,用以將一成本值分配給每一個單層音源資料流,且其中整合模組可能適合於基於分配給單層音源資料流之成本值來產生整合音源資料流。
依據另一實施例,成本函數模組可能適合於依據單層音源資料流之壓力值或擴散值之至少一者,將成本值分配給每一個單層音源資料流。
在更進一步的實施例中,成本函數模組可能適合於藉由應用下述公式,而將一成本值分配給此群組之單層音源資料流之每個音源資料流:f i i ,P i )=(1-Ψ i ).|P i |2其中,Pi係為壓力值,而i係為此群組之單層音源資料流之此層之一第i個音源資料流之擴散值,例如供每個時頻箱用。
依據另一實施例,整合模組再者可包含一壓力整合單元,其中壓力整合單元可能適合於決定一第一群組以及決定一第二群組,第一群組包含複數個單層音源資料流之一個或多個單層音源資料流,而第二群組包含複數個單層音源資料流之一個或多個不同的單層音源資料流,其中第一群組之每一個單層音源資料流之成本值可能大於第二群組之每一個單層音源資料流之成本值,或其中第一群組之每一個單層音源資料流之成本值可能小於第二群組之每一個單層音源資料流之成本值,其中壓力整合單元可能適合於產生一層或多層之整合音源資料流之一個或多個壓力值,以使第一群組之每一個單層音源資料流之每個壓力值可能是整合音源資料流之其中一層之一壓力值,且使第二群組之單層音源資料流之壓力值之一組合可能為整合音源資料流之其中一層之一壓力值。
在更進一步的實施例中,整合模組再者可包含一擴散整合單元,其中擴散整合單元可能適合於決定一第三群組以及決定一第四群組,第三群組包含複數個單層音源資料流之一個或多個單層音源資料流, 而第四群組包含複數個單層音源資料流之一個或多個不同的單層音源資料流。第三群組之每一個單層音源資料流之成本值可能大於第四群組之每一個單層音源資料流之成本值,或其中第三群組之每一個單層音源資料流之成本值可能小於第四群組之每一個單層音源資料流之成本值,其中擴散整合單元可能適合於產生一層或多層之整合音源資料流之一個或多個擴散值,以使第三群組之每一個單層音源資料流之每個擴散值可能是整合音源資料流之其中一層之一擴散值,且使第四群組之單層音源資料流之擴散值之一組合可能是整合音源資料流之其中一層之一擴散值。
依據另一實施例,整合模組再者可包含一位置混合單元(1403),其中位置混合單元(1403)可能適合於決定一第五群組,其包含複數個單層音源資料流之一個或多個單層音源資料流,其中第五群組之每一個單層音源資料流之成本值可能大於未包含在複數個單層音源資料流之第五群組中之任何單層音源資料流之成本值,或其中第五群組之每一個單層音源資料流之成本值係小於未包含在複數個單層音源資料流之第五群組中之任何單層音源資料流之成本值。位置混合單元(1403)可能適合於產生一層或多層之整合音源資料流之一個或多個位置值,以使第五群組之每一個單層音源資料流之每個位置值可能是整合音源資料流之其中一層之一位置值。
在另一實施例中,整合模組再者可包含一聲音場景適應模組,用以操控複數個單層音源資料流之一個或多個之單層音源資料流之位置值。
依據更進一步的實施例,聲音場景適應模組可能適合於藉由應用一旋轉、一平移或在位置值上之一非線性轉變,來操控複數個單層音源資料流之一個或多個之單層音源資料流之位置值。
在另一實施例中,解多工器可包含複數個解多工單元,其中每一個解多工單元可能被設計成用以解多工一道或多道輸入音源資料流。
依據更進一步的實施例,此設備此外可包含一人造聲源產生器,用以產生一道包含正好一層之人造資料流,其中人工源產生器可能適合於接收以一時域表示之壓力資訊,並接收一位置資訊,其中人工源產 生器可能適合於複製壓力資訊以產生供複數個時頻箱用之位置資訊,且其中人工源產生器再者可能適合於基於壓力資訊計算擴散資訊。
在另一實施例中,人工源產生器可能適合於將以一時域表示之壓力資訊轉換成一時頻域。
依據更進一步的實施例,人工源產生器可能適合於將混響(reverberation)加至壓力資訊。
另一實施例允許將一人造聲源插入聲音場景中。一人造聲源之插入在虛擬現實及視頻遊戲類應用中特別有用,於其中一複合聲音場景可以由合成來源所滋生(populated)。在線上討論方案中,插入在結合透過一單聲道溝通之團體(譬如,經由行動電話撥號)方面是有用的。
101、404、601‧‧‧單元
102、630、690‧‧‧修改模組
103‧‧‧修改模組/虛擬麥克風/輸出/操控單元/VM擴散
104‧‧‧合成單元/合成模組/位置、方位及特徵/輸入
105‧‧‧虛擬麥克風音源信號/輸出/聲音信號
106‧‧‧空間側資訊
110、201‧‧‧聲音事件位置估計器
111、112、…、11N‧‧‧真實空間麥克風
111…11N‧‧‧音源信號
1111、1112、....、111M‧‧‧輸入
1120‧‧‧來源/輸入
1140‧‧‧GAC串流/輸出
120‧‧‧資訊計算模組
1201‧‧‧解多工單元
1202‧‧‧人工源產生器/音源串流
1203‧‧‧整合模組
121…12N、141‧‧‧輸入
1211…121N‧‧‧單層音源資料流
121N‧‧‧輸出
1301‧‧‧第一處理方塊
1302‧‧‧分析濾波器組
1306‧‧‧能量比分析方塊
131‧‧‧揚聲器設定
1401‧‧‧成本函數模組
1402‧‧‧聲音場景適應模組
1403‧‧‧位置混合單元
1404‧‧‧壓力整合單元
1405‧‧‧擴散整合單元
150、200、600、950、960、970、980‧‧‧設備
151、152‧‧‧麥克風陣列
153‧‧‧真實聲源
160‧‧‧接收器
161、162‧‧‧麥克風陣列
163‧‧‧揚聲器
165‧‧‧鏡像源
170‧‧‧合成模組
171、172‧‧‧麥克風陣列
180、181、401‧‧‧解多工器
190‧‧‧整合模組
191…19L‧‧‧音源輸出信號
195‧‧‧虛線
202‧‧‧第二處理方塊/(側)資訊計算方塊/資訊計算模組
205‧‧‧聲音事件位置估計器/位置估計
210‧‧‧決定器
220‧‧‧資料流產生器
402‧‧‧單元/模組
403‧‧‧決定單元/單元
405‧‧‧多工器
410‧‧‧分析模組
420‧‧‧操控處理器
430‧‧‧第一線
431…43M‧‧‧輸出
440‧‧‧第二線
500‧‧‧傳播補償器
501‧‧‧第一階段合成單元/傳播參數計算模組
502‧‧‧第二階段合成單元/因子計算模組/模組/單元
503‧‧‧頻譜權重計算單元
504‧‧‧傳播補償模組/輸出
505‧‧‧組合模組/模組
506‧‧‧頻譜加權應用模組
507‧‧‧空間側資訊計算模組
510‧‧‧第一空間麥克風/組合器
511…51L‧‧‧揚聲器信號
520‧‧‧第二空間麥克風/頻譜加權單元
530、540‧‧‧單位向量
550、560‧‧‧線
602‧‧‧傳播補償方塊
603、604、605、607、701、1303、1304、1305、1406‧‧‧方塊
610‧‧‧位置/修改模組/接收器
620‧‧‧合成模組/位置
660‧‧‧修改模組、設備
670‧‧‧決定器
680‧‧‧資料流產生器
703‧‧‧濾波器組
711…71L‧‧‧解相關器
801‧‧‧擴散計算單元
810‧‧‧能量分析單元
820‧‧‧擴散組合單元
830‧‧‧直達聲音傳播調整單元
840‧‧‧直達聲音組合單元
850‧‧‧擴散子計算器
910‧‧‧第一麥克風陣列
920‧‧‧第二麥克風陣列
930‧‧‧定位聲音事件
940‧‧‧虛擬空間麥克風
c1、c2、…‧‧‧向量
d‧‧‧方向向量
di1‧‧‧第一方向資訊
di2‧‧‧第二方向資訊
Dt12‧‧‧相對延遲
f‧‧‧成本函數
is1‧‧‧第一錄製的音源輸入信號
k‧‧‧頻率指標
n‧‧‧時間指標/暫時區塊
os‧‧‧音源輸出信號
P、P1、P2‧‧‧壓力值
p1、p2、…‧‧‧觀察點/向量
Pdir‧‧‧聲音信號
pos1mic‧‧‧第一真實麥克風位置
posRealMic‧‧‧位置
posVmic‧‧‧虛擬位置
Q1、Q2‧‧‧位置值
s‧‧‧虛擬麥克風
ssp‧‧‧聲源位置/聲源位置估計
t0‧‧‧時間
v‧‧‧注視方向
V‧‧‧空間/音量
X1、Y1、Z1‧‧‧座標值
X2、Y2、Z2‧‧‧座標值
ψ 2‧‧‧擴散值
以下將說明本發明之較佳實施例,其中:圖1顯示依據一實施例之一種用以產生一整合音源資料流之設備。
圖2a顯示依據一實施例之一種用以基於一音源資料流(包含關於一個或多個聲源之音源資料)產生至少一音源輸出信號之設備。
圖2b顯示依據一實施例之一種產生一音源資料流(包含關於一個或多個聲源之聲音原始資料)之設備。
圖3a-3c顯示依據不同實施例之音源資料流。
圖4顯示依據另一實施例之一種用以產生一音源資料流(包含關於一個或多個聲源之聲音原始資料)之設備。
圖5顯示一種由兩個聲源及兩個均勻線性麥克風陣列所構成之聲音場景。
圖6a顯示依據一實施例之一種用以基於一音源資料流產生至少一音源輸出信號之設備。
圖6b顯示依據一實施例之一種用以產生一音源資料流(包含關於一個或多個聲源之聲音原始資料)之設備。
圖7說明依據一實施例之一修改模組。
圖8說明依據另一實施例之一修改模組。
圖9顯示依據一實施例之發送器/分析單元及一接收器/合成單元。
圖10a說明依據一實施例之一合成模組。
圖10b說明依據一實施例之一第一合成階段單元。
圖10c說明依據一實施例之一第二合成階段單元。
圖11說明依據另一實施例之一合成模組。
圖12顯示依據一實施例之一種用以產生一虛擬麥克風之一音源輸出信號之設備。
圖13顯示一種依據一實施例之用以產生一虛擬麥克風之一音源輸出信號之設備及方法之輸入及輸出。
圖14顯示依據一實施例之一種用以產生一虛擬麥克風之一音源輸出信號之設備之基本構造,其包含一聲音事件位置估計器及一資訊計算模組。
圖15顯示一示範方案,其中真實空間麥克風每個被描繪成3個麥克風之均勻線性陣列。
圖16說明3D中之兩個空間麥克風,用以估計3D空間中之到達方向。
圖17顯示一幾何形狀,於此目前時頻箱(k,n)之一等向性點狀聲源係位於一位置pIPLS(k,n)。
圖18說明依據一實施例之資訊計算模組。
圖19說明依據另一實施例之資訊計算模組。
圖20顯示兩個真實空間麥克風、一定位聲音事件及一虛擬空間麥克風之一位置。
圖21顯示依據一實施例之如何獲得相對於一虛擬麥克風之到達方向。
圖22說明依據一實施例之一種用以從虛擬麥克風的角度來看之推導聲音之DOA之可能方式。
圖23顯示依據一實施例之包含一擴散計算單元之一資訊計算方塊。
圖24說明依據一實施例之一擴散計算單元。
圖25顯示一方案,於此聲音事件位置估計是不可能的。
圖26顯示依據一實施例之一種用以產生一虛擬麥克風資料流之設備。
圖27顯示依據另一實施例之一種用以基於一音源資料流產生至少一音源輸出信號之設備。
圖28說明依據另一實施例之一種用以產生一整合音源資料流之設備之 輸入及輸出。
圖29顯示依據另一實施例之一種用以產生一整合音源資料流之設備。
圖30說明依據一實施例之一整合模組。
圖31a-31c說明可能的聲音場景方案。
圖32a-32b顯示依據實施例之人工源產生器。
圖33a-33c顯示方案,於此兩個麥克風陣列接收直達聲音,由一牆壁回響之聲音以及擴散聲音。
在提供本發明之實施例之詳細說明之前,將說明一種用以產生一虛擬麥克風之一音源輸出信號之設備,用以提供關於本發明之概念之背景資訊。
圖12顯示一種用以產生一音源輸出信號之設備,用以在一環境中模擬位於一可配置的虛擬位置posVmic之一麥克風之一錄製。此設備包含一聲音事件位置估計器110及一資訊計算模組120。聲音事件位置估計器110接收一來自一第一真實空間麥克風之第一方向資訊di1以及一來自一第二真實空間麥克風之第二方向資訊di2。聲音事件位置估計器110係適合於估計一表示此環境中之一聲源之一位置之聲源位置ssp,聲源放射一聲波,其中聲音事件位置估計器110係適合於基於一第一方向資訊di1與一第二方向資訊di2來估計聲源位置ssp,其中第一方向資訊di1係由設置於一環境中之第一真實麥克風位置pos1mic之一第一真實空間麥克風所提供,而第二方向資訊di2係由設置於一環境中之第二真實麥克風位置之一第二真實空間麥克風所提供。資訊計算模組120係適合於基於一由第一真實空間麥克風所錄製之第一錄製的音源輸入信號is1,基於第一真實麥克風位置pos1mic以及基於虛擬麥克風之虛擬位置posVmic來產生音源輸出信號。資訊計算模組120包含一傳播補償器,其係適合於產生一第一變化音源信號,其所採取的是藉由修改第一錄製的音源輸入信號is1,其所採取的是藉由補償在一由位於第一真實空間麥克風之聲源所發出之聲波之抵達與一位於虛擬麥克風之聲波之抵達之間的一第一延遲或振幅衰減,其所採取的是藉由調整第一錄製的音源輸入信號is1之一振幅值、一大小值或一相位值,用以 獲得音源輸出信號。
圖13顯示依據一實施例之一種設備及一種方法之輸入與輸出。來自兩個以上的真實空間麥克風111、112、...、11N之資訊係回饋至此設備/由此方法處理。這種資訊包含由真實空間麥克風拾音之音源信號與來自真實空間麥克風之方向資訊,例如到達方向(DOA)估計。音源信號與方向資訊(例如到達方向估計)可能在一時頻域中被表示。舉例而言,如果期望一種2D幾何重建且為信號之表現選擇一傳統STFT(短時間傅立葉轉換)域,則DOA可能依據k及n(亦即頻率及時間指數(index))被表示成方位角度。
在多個實施例中,空間中以及描述虛擬麥克風之位置之聲音事件定位,可能基於一共同座標系統中之真實及虛擬空間麥克風之位置及方位而被處理。這種資訊可能以圖13中之輸入121...12N及輸入104表示。輸入104另外可詳述虛擬空間麥克風之特徵,例如,其位置及拾音模式,如以下將討論的。如果虛擬空間麥克風包含多重虛擬感測器,則可能考量它們的位置及相對應的不同拾音模式。
此設備或一對應方法之輸出在期望時,可能是一個或多個聲音信號105,其可能已被一空間麥克風所拾音,而空間麥克風如由輸入104特別指定的被界定並置放。此外,設備(更正確地說是方法)可提供作為輸出對應的空間側資訊106,其可能藉由採用虛擬空間麥克風而被估計。
圖14顯示依據一實施例之一種設備,其包含兩個主要處理單元、一聲音事件位置估計器201及一資訊計算模組202。聲音事件位置估計器201可能以包含在輸入111...11N中之DOA為基礎以及基於真實空間麥克風之位置及方位之知識來實現幾何上的重建,於此已計算出DOA。聲音事件位置估計器205之輸出包含聲源之位置估計(在2D或3D中),於此聲音事件為每個時間及頻率箱(bin)產生。第二處理方塊202係為一資訊計算模組。依據圖14之本實施例,第二處理方塊202計算一虛擬麥克風信號及空間側資訊。因此,其亦被稱為虛擬麥克風信號及側資訊計算方塊202。虛擬麥克風信號及側資訊計算方塊202使用聲音事件之位置(聲音事件位置估計器205),用以處理包含在111...11N中之音源信號以輸出虛擬麥克風音源信號105。如果需要的話,方塊202亦可計算對應於虛擬空間麥克 風之空間側資訊106。以下之實施例顯示方塊201及202可能如何運作之可能性。
以下,更詳細地說明依據一實施例之一聲音事件位置估計器之位置估計。
依據問題(2D或3D)之維數及空間麥克風之數目,對於位置估計可能有數個解決方法。
如果在2D中存在兩個空間麥克風,則(最單純可能的情況)簡單的三角測量是可能的。圖15顯示一示範方案,於其中真實空間麥克風每個被描繪成3個麥克風之均勻的線性陣列(ULA)。表示成方位角度a1(k,n)及a2(k,n)之DOA係為時頻箱(k,n)而計算。這係藉由採用一適當的DOA估計器(例如ESPRIT),[13]R.Roy,A.Paulraj以及T.Kailath,"藉由子空間旋轉法之到達方向估計-ESPRIT",在IEEE音響國際會議,語音和信號處理(ICASSP),史丹福,美國加州,1986年4月,或(root)MUSIC,參見[14]R.Schmidt,"多重發射器場地及信號參數估計(Multiple emitter location and signal parameter estimation)",天線與傳播之IEEE學報,第34卷第3號第276-280頁,1986,至轉換成為時頻域之壓力信號而達成。
在圖15中,顯示兩個真實空間麥克風,於此,兩個真實空間麥克風陣列(分析模組410、操控處理器420)。兩個估計的DOA a1(k,n)及a2(k,n)係以兩條線表示,一第一線430表示DOA a1(k,n),而一第二線440表示DOA a2(k,n)。經由知道每個陣列之位置及方位之簡單的幾何上的考量,三角測量是可能的。
當兩條線(第一線430、第二線440)正好平行時,三角測量會失敗。然而,在實際應用中,這是非常不可能的。然而,並非所有三角測量結果都會對應至考慮空間中之聲音事件的一物理或可行位置。舉例而言,聲音事件之估計位置可能是太遠離假設空間或甚至在假設空間外部,藉以表示DOA可能並未對應至任何可利用所使用的模型而實體上被演奏之聲音事件。這種結果可能由感測器噪音或太強大的房間混響所導致。因 此,依據一實施例,這種不希望得到的結果被標記,以使資訊計算模組202可適當地處理它們。
圖16說明一種方案,於此一聲音事件之位置係在3D空間中被估計。採用了適當的空間麥克風,譬如,一平面或3D麥克風陣列。在圖16中,顯示了一第一空間麥克風510(譬如一第一3D麥克風陣列)以及一第二空間麥克風520(譬如一第一3D麥克風陣列)。3D空間中之DOA可能譬如被表示成方位角及仰角。可能採用單位向量530、540以表示DOA。兩條線550、560係依據DOA被投影。在3D中,即使利用很可靠的估計,依據DOA所投影的兩條線550、560可能不會相交。然而,三角測量仍然可譬如藉由選擇連接兩條線之最小段之中點來實現。
類似於2D情況,三角測量可能失敗或可能產生關於方向之某些組合之不能實行的結果,其接著亦可被標記成例如圖14之資訊計算模組202。
如果存在兩個以上的空間麥克風,則數個解決方法是可能的。舉例而言,上面所說明之三角測量可以為所有真實空間麥克風對(如果N=3,1與2,1與3,以及2與3)而實現。所產生之位置然後可被平均(沿著x及y,且如果考量3D的話,沿著z)。
或者,可能使用更多複合概念。舉例而言,可能應用機率方法,如說明於
[15]J.Michael Steele,"平面上之隨機樣品之最佳三角測量(Optimal Triangulation of Random Samples in the Plane)",概率的史冊,第10卷第3號(1982年8月),第548-553頁。
依據一實施例,聲場可能在時頻域中被分析,舉例而言,經由一短時間傅立葉轉換(STFT)而獲得,於其中k及n分別表示頻率指標k及時間指標n。對某個k及n而言,位於一任意位置pv之複合壓力Pv(k,n)係塑造成由一窄帶等向性點狀源(narrow-band isotropic point-like source)所放射之單一球面波,例如藉由採用下述公式:P v (k,n)=P IPLS(k,n).γ(k,p IPLS(k,n),p v ), (1)於此,PIPLS(k,n)係為於其位置pIPLS(k,n)而由IPLS所發出之信號。複合因子γ(k,pIPLS,pv)表示從pIPLS(k,n)至pv之傳播,例如,其導入適當 的相位及大小修正。於此,可能應用下述假設,在每個時頻箱中,只有一個IPLS是有效的。然而,位於不同位置之多重窄帶IPLS於單一時間瞬間亦可能是有效的。
每個IPLS不是仿效直達聲音就是仿效一不同的房間回響。其位置pIPLS(k,n)理想上可能分別對應至位於房間內部之一真實聲源,或位於外部之一鏡像聲源。因此,位置pIPLS(k,n)亦可能表示一聲音事件之位置。
請注意專業術語「真實聲源」表示真實存在於錄製環境中之真實聲源,例如揚聲器或樂器。反之,關於「聲源」或「聲音事件」或「IPLS」,我們表示有效的聲源,其於某些時間瞬間或於某些時頻箱是有效的,其中聲源譬如可表示真實聲源或鏡像源。
圖33a-33b顯示定位聲源之麥克風陣列。定位的聲源依據它們的本質可具有不同的物理演奏。當麥克風陣列接收直達聲音時,它們可能能夠定位一真實聲源(例如揚聲器)之位置。當麥克風陣列接收回響時,它們可能定位一鏡像源之位置。鏡像源亦是聲源。
圖33a顯示一種方案,於此兩個麥克風陣列151及152接收來自一真實聲源153(一真實存在的聲源)之直達聲音。
圖33b顯示一種方案,於此兩個麥克風陣列161、162接收反響聲音,其中聲音已被一牆壁反響。因為回響,麥克風陣列161、162定位此位置,於此聲音似乎來自位於一鏡像源165之一位置(其不同於揚聲器163之位置)。
圖33a之真實聲源153與鏡像源165兩者都是聲源。
圖33c顯示一種方案,於此兩個麥克風陣列171、172接收擴散聲音,且並不能夠定位一聲源。
雖然這種單波模型只有對輕度混響環境而言是正確的,但鑑於源信號滿足W-分離正交(WDO)條件,亦即,時頻重疊足夠小。這對於語音信號而言通常是真實的,參見譬如
[12]S.Rickard及Z.Yilmaz,"針對言語之接近W-分離正交(On the approximate W-disjoint orthogonality of speech)",在語音及信號處理,2002.ICASSP 2002.IEEE國際會議於2002年4月,第1卷。
然而,此模型亦提供一良好估計給其他環境,且因此亦適合於那些環境。
以下,說明依據一實施例之位置pIPLS(k,n)之估計。在某個時頻箱中之一有效IPLS之位置pIPLS(k,n),從而是一時頻箱中之一聲音事件之估計,係基於在至少兩個不同的觀察點所測得之聲音之到達方向(DOA)而經由三角測量被估計。
圖17顯示一種幾何形狀,於此目前時頻槽(k,n)之IPLS係位於未知位置pIPLS(k,n)中。為了決定需要的DOA資訊,採用具有一已知的幾何形狀、位置及方位之兩個真實空間麥克風(於此是兩個麥克風陣列),其係分別被設置於位置610及620。向量p1及p2分別指向位置610、620。陣列方位係由單位向量c1及c2所界定。聲音之DOA係藉由使用一DOA估計演算法(例如如由DirAC分析(參見[2]、[3])所提供的)而在每個(k,n)之位置610及620中被決定。由此,相關於麥克風陣列之一觀點之一第一觀點單位向量及一第二觀點單位向量(兩者未顯示於圖17中),可能被提供作為DirAC分析之輸出。舉例而言,當在2D中操作時,第一觀點單位向量變成:
於此,φ1(k,n)表示於第一麥克風陣列所估計之DOA之方位角,如圖17所示。相關於原點之全域座標系統之相對應的DOA單位向量e1(k,n)及e2(k,n)可能藉由應用下述公式而被計算出: 於此,R係為座標變換矩陣,例如, 當在2D中操作且c 1=[c 1,x ,c 1,y ]T時。為了執行三角測量,方向向量d1(k,n)及d2(k,n)可能被計算成:d 1(k,n)=d 1(k,n)e 1(k,n),d 2(k,n)=d 2(k,n)e 2(k,n), (5)於此,d1(k,n)=∥d1(k,n)∥and d2(k,n)=∥d2(k,n)∥係為在IPLS與兩個麥克風陣列之間的未知距離。下述方程式p 1+d 1(k,n)=p 2+d 2(k,n) (6)可能解出d1(k,n)。最後,IPLS之位置pIPLS(k,n)係由下述方程式得到p IPLS(k,n)=d 1(k,n)e 1(k,n)+p 1. (7)
在另一實施例中,方程式(6)可能解出d2(k,n),而pIPLS(k,n)係採用d2(k,n)而類似地被計算出。
當在2D中操作時,方程式(6)總是提供一種解決方法,除非e1(k,n)及e2(k,n)是平行的。然而,當使用兩個以上的麥克風陣列時或當在3D中操作時,無法在方向向量d並未相交時獲得一種解決方法。依據一實施例,於此情況下,最靠近所有方向向量d之點係被計算出,且結果可被使用作為IPLS之位置。
在一實施例中,所有觀察點p1、p2、...應被設置,以使由IPLS所發出之聲音落入相同的暫時區塊n中。當任兩個觀察點之間的距離△小於下述方程式時,這種需求可能簡單地被滿足 於此,nFFT係為STFT視窗長度,0R<1指明在連續時框(time frames)之間的重疊,而fs係為取樣頻率。舉例而言,對於一種於48 kHz下具有50%重疊(R=0.5)之1024點STFT而言,在陣列之間用以滿足上述需求之 最大間距係為△=3.65 m。
以下將更詳細說明依據一實施例之一資訊計算模組202(例如一虛擬麥克風信號及側資訊計算模組)。
圖18顯示依據一實施例之一種資訊計算模組202之圖表概觀。資訊計算單元包含一傳播補償器500、一組合器510以及一頻譜加權單元520。資訊計算模組202接收由一聲音事件位置估計器所估計之聲源位置估計ssp,一個或多個音源輸入信號係由一個或多個真實空間麥克風、一個或多個真實空間麥克風之位置posRealMic以及虛擬麥克風之虛擬位置posVmic所記錄。其輸出表示虛擬麥克風之一音源信號之一音源輸出信號os。
圖19顯示依據另一實施例之一種資訊計算模組。圖19之資訊計算模組包含一傳播補償器500、一組合器510以及一頻譜加權單元520。傳播補償器500包含一傳播參數計算模組501及一傳播補償模組504。組合器510包含一組合因子計算模組502及一組合模組505。頻譜加權單元520包含一頻譜權重計算單元503、一頻譜加權應用模組506以及一空間側資訊計算模組507。
為了計算虛擬麥克風之音源信號,幾何資訊(例如真實空間麥克風之位置及方位121...12N,虛擬空間麥克風之位置、方位及特徵104,以及聲音事件之位置估計205)係饋入到資訊計算模組202,更特別是,饋入到傳播補償器500之傳播參數計算模組501,饋入到組合器510之組合因子計算模組502以及饋入到頻譜加權單元520之頻譜權重計算單元503。傳播參數計算模組501、組合因子計算模組502與頻譜權重計算單元503計算使用於在傳播補償模組504、組合模組505與頻譜加權應用模組506中之音源信號111...11N之修改中的參數。
在資訊計算模組202中,音源信號111...11N最初可能被修正以補償由聲音事件位置與真實空間麥克風之間的不同傳播長度所得到的效果。然後,可合成這些信號以例如改善信噪比(SNR)。最後,所產生之信號接著可被頻譜加權以將虛擬麥克風之方向拾音模式與任何距離相依增益函數納入考量。這三個步驟係更詳細討論於下。
現在更詳細說明傳播補償。在圖20之上部中,顯示兩個真實空間麥克風(一第一麥克風陣列910及一第二麥克風陣列920),關於時頻箱(k,n)之一定位聲音事件930之位置,以及虛擬空間麥克風940之位置。
圖20之下部說明一暫時軸線。假設一聲音事件係於時間t0被發出,然後傳輸至真實及虛擬空間麥克風。抵達之時間延遲與振幅隨著距離改變,俾能使傳播長度更遠,振幅更弱且抵達之時間延遲更長。
位於兩個真實陣列之信號是可比較的,只有如果它們之間的相對延遲Dt12是小的話。否則,兩個信號之其中一個必須暫時被再對齊以補償相對延遲Dt12,且儘可能地按比例縮放以補償不同的衰減。
補償在抵達虛擬麥克風與抵達真實麥克風陣列(抵達其中一個真實空間麥克風)之間的延遲,改變了獨立於聲音事件之定位之延遲,使得其大部分應用而言是多餘的。
回到圖19,傳播參數計算模組501係適合於計算出待為每個真實空間麥克風及為每個聲音事件被校正之延遲。如果需要的話,其亦計算出待被認為補償不同的振幅降低之增益因子。
傳播補償模組504係被設計成用於使用此種資訊來相應地修改音源信號。如果這些信號要平移小量的時間(相較於濾波器組(filter bank)之時窗),則簡單的相位旋轉就足夠了。如果延遲是較大的,則需要更多複合的實施例。
傳播補償模組504之輸出係為表示在原始時頻域中之變化音源信號。
以下,將參考圖17說明依據一實施例之關於一虛擬麥克風之傳播補償之一特定估計,圖17特別顯示一第一真實空間麥克風之位置610與一第二真實空間麥克風之位置620。
於現在說明的本實施例中,假設至少一第一錄製音源輸入信號,例如真實空間麥克風(例如麥克風陣列)之至少一者之一壓力信號(譬如一第一真實空間麥克風之壓力信號)是可得到的。我們將考量的麥克風稱為參考麥克風,將其位置稱為參考位置pref並將其壓力信號稱為參考壓力信號Pref(k,n)。然而,傳播補償不僅可能只相關於一個壓力信號, 而且相關於複數個或所有真實空間麥克風之壓力信號被處理。
在由IPLS所發出之壓力信號PIPLS(k,n)及位於pref之一參考麥克風之一參考壓力信號Pref(k,n)之間的關係,可以下述公式(9)表示:P ref(k,n)=P IPLS(k,n).γ(k,p IPLS,p ref), (9)
一般而言,複合因子γ(k,pa,pb)表示由一球面波從其在pa中之原點至pb之傳播所產生之相位旋轉及振幅衰減。然而,實際測試指出只考慮到γ中之振幅衰減相較於亦考慮到相位旋轉,會導致具有顯著較少假象(artifacts)之虛擬麥克風信號之似真實的印象。
可以在空間中的某個點被測量之聲音能量強烈地取決於距離聲源,在圖6中距離聲源之位置pIPLS之距離r。在多數情況中,這種依存性可藉由使用熟知之物理原理(譬如,一個點源之遠場中的聲音壓力之1/r衰減)而被仿效成具有足夠精度。當已知一參考麥克風(譬如第一真實麥克風)與聲源之距離時,且當亦已知虛擬麥克風與聲源之距離時,則位於虛擬麥克風之位置之聲音能量可以從參考麥克風(例如第一真實空間麥克風)之信號及能量被估計出。這表示虛擬麥克風之輸出信號可藉由施加適當增益至參考壓力信號而被獲得。
假設第一真實空間麥克風係為參考麥克風,則pref=p1。在圖17中,虛擬麥克風係位於pv中。因為詳細知道圖17中之幾何形狀,所以可以容易決定在參考麥克風(在圖17中:第一真實空間麥克風)與IPLS之間的距離d1(k,n)=∥d1(k,n)∥,以及在虛擬麥克風與IPLS之間的距離s(k,n)=∥s(k,n)∥,亦即s(k,n)=∥s(k,n)∥=∥p 1+d 1(k,n)-p v ∥. (10)
位於虛擬麥克風之位置之聲音壓力Pv(k,n)係藉由結合公式(1)及(9)而計算出,藉以導致
如上所述,在某些實施例中,因子γ可能只考量到由於傳播之振幅衰減。例如假設聲音壓力隨著1/r減少,則
當公式(1)中之模型維持時,例如,當只有直達聲音出現時,則公式(12)可以正確地重建大小資訊。然而,在純擴散聲場的情況下,例如,當並未滿足模型假設時,提出的方法在使虛擬麥克風移動遠離感測器陣列之位置時產生一信號之暗示反混響(dereverberation)。事實上,如上所述,在擴散聲場中,我們期望大部分的IPLS被定位靠近兩個感測器陣列。因此,當使虛擬麥克風移動遠離這些位置時,我們很可能增加圖17中之距離s=∥s∥。因此,參考壓力之大小係在依據公式(11)應用加權時被減少。同樣地,當使虛擬麥克風移動接近一真實聲源時,對應於直達聲音之時頻箱將被放大,以使整體音源信號將被察覺較少擴散。藉由調整公式(12)中之規則,吾人可以隨意地控制直達聲音放大及擴散聲音抑制。
藉由針對第一真實空間麥克風之錄製的音源輸入信號(例如壓力信號)執行傳播補償,獲得了一第一變化音源信號。
在實施例中,一第二變化音源信號可能藉由針對第二真實空間麥克風之一錄製的第二音源輸入信號(第二壓力信號)執行傳播補償而獲得。
在其他實施例中,更遠的音源信號可能藉由針對更遠的真實空間麥克風之錄製的更遠的音源輸入信號(更遠的壓力信號)執行傳播補償而獲得。
現在,更詳細說明依據一實施例之結合圖19中的方塊502及505。假設來自複數個不同真實空間麥克風之兩個以上的音源信號已被修改以補償不同傳播路徑,用以獲得兩個以上的變化音源信號。一旦來自不同的真實空間麥克風之音源信號已被修改以補償不同傳播路徑,它們就可能被結合以改善音源品質。藉此,舉例而言,可以增加SNR或可以減少餘響。
對於此組合之可能的解決方法包含:-加權平均,例如,考慮到SNR,或至虛擬麥克風之距離,或由真實空間麥克風所估計之擴散。可能採用傳統的解決方法,譬如,最大比率合成(MRC)或等增益合成(EQC),或者 -某些或所有的變化音源信號之線性組合以獲得一組合信號。變化音源信號可能在線性組合中被加權以獲得組合信號,或者-選擇,例如,只使用一個信號,舉例而言,依據SNR或距離或擴散。
如果適合的話,模組502之任務係用以計算供合成用之參數,其在模組505中被實現。
現在,更詳細說明依據實施例之頻譜加權。對於這一點,參考圖19之方塊503及506。於這個最後步驟,由此組合或輸入音源信號之傳播補償所產生的音源信號係依據虛擬空間麥克風之空間特徵(如由輸入104特別指定)及/或依據重建的幾何形狀(在方塊205中所提供)而在時頻域中被加權。
對每個時頻箱而言,幾何上的重建允許我們容易地獲得相對於虛擬麥克風之DOA,如圖21所示。再者,亦可輕易計算出在虛擬麥克風與聲音事件之位置之間的距離。
接著考慮到期望的虛擬麥克風之型式,計算出關於時頻箱之權重。
在指向性麥克風的情況下,頻譜權重可能依據一預定拾音模式而被計算。舉例而言,依據一實施例,一心型麥克風可具有一由下述函數g(theta)所界定之拾音模式,g(theta)=0.5+0.5 cos(theta),於此,theta係為在虛擬空間麥克風之注視方向與從虛擬麥克風之角度來看的聲音之DOA之間的角度。
另一種可能性係為藝術(非物理)的衰減函數。在某些應用上,吾人可能期望以一個大於一個特性自由場傳播之因子來抑制聲音事件遠離虛擬麥克風。為了這個目的,某些實施例導入一額外加權函數,其取決於虛擬麥克風與聲音事件之間的距離。在一實施例中,應該只有拾音在距離虛擬麥克風之某段距離(例如以公尺計)之內的聲音事件。
相關於虛擬麥克風指向性,可以為虛擬麥克風應用任意的指向性模式。這樣做,吾人可以例如將一來源與一複合聲音場景分離。
因為聲音之DOA可以在虛擬麥克風之位置pv中被計算出,亦即 於此,cv係為描述虛擬麥克風之方位之一單位向量,可實現供虛擬麥克風用之任意的指向性。舉例而言,假設Pv(k,n)表示組合信號或傳播補償變化音源信號,則此公式: 計算出一虛擬麥克風之輸出具有心形指向性。依此方式可潛在地被產生之方向模式係取決於位置估計之精度。
在多個實施例中,一個或多個真實、非空間麥克風(譬如,一全向麥克風或例如一心型(cardioid)之一指向性麥克風)係被設置於除了真實空間麥克風以外之聲音場景,用以更進一步改善圖8中之虛擬麥克風音源信號105之聲音品質。這些麥克風並非用以蒐集任何幾何資訊,而是只提供一個更清晰的音源信號。這些麥克風可能被置於比空間麥克風更接近聲源。於此情況下,依據一實施例,真實、非空間麥克風之音源信號與它們的位置係只回饋至圖19之傳播補償模組504以供處理,以取代真實空間麥克風之音源信號。傳播補償接著相關於一個或多個非空間麥克風之位置而為非空間麥克風之一個或多個錄製的音源信號作處理。藉此,藉由使用額外非空間麥克風來實現一實施例。
在更進一步的實施例中,實現了虛擬麥克風之空間側資訊之計算。為了計算麥克風之空間側資訊106,圖19之資訊計算模組202包含一空間側資訊計算模組507,其適合於接收聲源之位置(聲音事件位置估計器205)與虛擬麥克風之位置、方位及特徵104作為輸入。在某些實施例中,依據需要被計算之側資訊106,虛擬麥克風之音源信號105亦可被納入考量作為輸入至空間側資訊計算模組507。
空間側資訊計算模組507之輸出係為虛擬麥克風之空間側資訊106。從虛擬麥克風的角度來看,這種側資訊可以例如是關於每個時頻箱(k,n)之DOA或聲音之擴散。另一種可能的側資訊可以例如是有效聲音強度向量Ia(k,n),其將已在虛擬麥克風之位置中被測量。現在將說明可 以如何推導出這些參數。
依據一實施例,實現了關於虛擬空間麥克風之DOA估計。基於虛擬麥克風之一位置向量以及基於如圖22所顯示的聲音事件之一位置向量,資訊計算模組120係適合於估計虛擬麥克風之到達方向以作為空間側資訊。
圖22說明一種從虛擬麥克風的角度推導出聲音之DOA之可能方式。由圖19中之方塊205所提供之聲音事件之位置可以利用一位置向量r(k,n)(聲音事件之位置向量)來作關於每個時頻箱(k,n)之描述。同樣地,提供作為圖19中之輸入104之虛擬麥克風之位置可以利用一位置向量s(k,n)(虛擬麥克風之位置向量)來作描述。虛擬麥克風之注視方向可藉由一向量v(k,n)作描述。相對於虛擬麥克風之DOA由a(k,n)得到。其表示在v與聲音傳播路徑h(k,n)之間的角度。h(k,n)可以藉由採用下述公式而計算出:h(k,n)=s(k,n)-r(k,n)。
現在可例如經由h(k,n)及v(k,n)之內積(dot product)之定義計算關於每個(k,n)之期望DOA a(k,n),亦即a(k,n)=arcos(h(k,n)‧v(k,n)/(∥h(k,n)∥ ∥v(k,n)∥)。
在另一實施例中,基於虛擬麥克風之一位置向量以及基於如由圖22所顯示的聲音事件之一位置向量,資訊計算模組120可能適合於估計位於虛擬麥克風之有效聲音強度以作為空間側資訊。
從如上所界定的DOA a(k,n),我們可推導出位於虛擬麥克風之位置之有效聲音強度Ia(k,n)。對於這一點,假設圖19中之虛擬麥克風音源信號105對應至一全向麥克風之輸出,例如,我們假設虛擬麥克風為一全向麥克風。此外,假設圖22中之注視方向v平行於座標系統之x軸線。因為期望的有效聲音強度向量Ia(k,n)描述了經由虛擬麥克風之位置之淨能量流,所以我們可例如依據下述公式計算出Ia(k,n):Ia(k,n)=-(1/2 rho)|Pv(k,n)|2 *[cos a(k,n),sin a(k,n)]T,於此[]T表示一轉置向量,rho係為空氣密度,而Pv(k,n)係為由虛擬空間麥克風所測量之聲音壓力,例如,圖19中之方塊506之輸出105。
如果有效強度向量應該被計算表示在一般的座標系統中但仍然位於虛擬麥克風之位置,則可應用下述公式:Ia(k,n)=(1/2 rho)|Pv(k,n)|2 h(k,n)/∥ h(k,n)∥。
聲音之擴散表示如何在一既定時頻槽中擴散此聲場(參見,譬如[2])。擴散係以一數值表示,其中01。1之擴散表示一聲場之總聲場能量是完全地擴散。這種資訊例如在空間聲之再生上是重要的。傳統上,擴散係於置放有一麥克風陣列之空間中之特定點被計算出。
依據一實施例,擴散可能作為一額外參數被計算成為虛擬麥克風(VM)所產生之側資訊,其可將虛擬麥克風隨意置於聲音場景中之一任意位置。藉此,一種又計算出位於一虛擬麥克風之一虛擬位置之除音源信號以外的擴散之設備可以被看作是一虛擬DirAC前端,其乃因為可能為聲音場景中之一任意點產生一DirAC流動(亦即一音源信號、到達方向以及擴散)。DirAC流可能更進一步被處理、儲存、傳輸以及在任意的多揚聲器裝備上回放。於此情況下,聆聽者體驗此聲音場景,猶如他或她係身在由虛擬麥克風而特別指定之位置且係朝由其方位所決定之方向注視。
圖23顯示依據一實施例之一種包含用以計算位於虛擬麥克風之擴散之一擴散計算單元801之資訊計算方塊。資訊計算方塊202係適合於接收輸入111至11N,除了圖14之輸入以外,其亦包含位於真實空間麥克風之擴散。使表示這些數值。這些額外輸入係回饋至資訊計算模組202。擴散計算單元801之輸出103係為於虛擬麥克風之位置所計算之擴散參數。
一實施例之一擴散計算單元801係顯示於圖24中,藉以提供更詳細說明。依據一實施例,估計出位於N個空間麥克風之每一個之直達及擴散聲音之能量。然後,藉由使用關於IPLS之位置之資訊,以及關於空間以及虛擬麥克風之位置之資訊,獲得了位於虛擬麥克風之位置之這些能量之N個估計。最後,可結合估計以改善估計精度,且可輕易計算出位於虛擬麥克風之擴散參數。
使以及表示關於由能量分析單元810所計算之N個空間麥克風之直達及擴散聲音之能量之估計。如果Pi係為複合壓力信號且係為關於第i個空間麥克風之擴散,則可譬如依據 下述公式計算出能量:
擴散聲音之能量在所有位置中應該是相等的,因此,位於虛擬麥克風之擴散聲音能量之估計可以譬如依據下述公式,只藉由例如在一擴散組合單元820中平均而被計算出:
估計之一種更有效的組合可以藉由考慮到估計器之變異數(例如藉由考慮到SNR)而被實現。
直達聲音之能量取決於由於傳播到達來源之距離。因此,可能被修正以將此納入考量。這可能例如藉由一直達聲音傳播調整單元830而實現。舉例而言,如果假設指向聲場之能量衰減在距離平方是1,則可能依據下述公式計算出關於位於第i個空間麥克風之虛擬麥克風之直達聲音之估計:
類似於擴散組合單元820,於不同的空間麥克風所獲得之直達聲音能量之估計可以例如藉由一直達聲音組合單元840而合成。結果係為,例如,關於位於虛擬麥克風之直達聲音能量之估計。位於虛擬麥克風之擴散可能例如依據下述公式而譬如藉由一擴散子計算器850而被計算出:
如上所述,在某些情況下,藉由一聲音事件位置估計器而被實現之聲音事件位置估計會失敗,例如,在一錯誤到達方向估計的情況下。圖25顯示這種方案。在這些情況下,不管於不同空間麥克風所估計以 及如被接收為輸入111至11N之擴散參數為何,關於虛擬麥克風103之擴散可能被設定到1(亦即,完全擴散),其乃因為沒有空間相干再生(spatially coherent reproduction)是可能的。
此外,可能考量位於N個空間麥克風之DOA估計之可靠度。這可能例如從DOA估計器之變異數或SNR的觀點被表示。這種資訊可能藉由擴散子計算器850被納入考量,俾能使VM擴散103可以在DOA估計是不可靠的情況下被人為地增加。事實上,結果是位置估計205亦將是不可靠的。
圖2a顯示依據一實施例之一種用以基於一音源資料流產生至少一音源輸出信號之設備150,音源資料流包含關於一個或多個聲源之音源資料。
設備150包含一接收器160,用於接收包含音源資料之音源資料流。音源資料包含供一個或多個聲源之每一個用之一個或多個壓力值。再者,音源資料包含一個或多個位置值,其指示每一個聲源之其中一個聲源之一位置。此外,此設備包含一合成模組170,用以基於音源資料流之音源資料之一個或多個壓力值之至少一者以及基於音源資料流之音源資料之一個或多個位置值之至少一者來產生至少一音源輸出信號。為複數個時頻箱之一時頻箱界定音源資料。對每一個聲源而言,至少一壓力值係被包含在音源資料中,其中至少一壓力值可能是關於一發出聲波(例如源自聲源)之壓力值。壓力值可能是一音源信號之數值(舉例而言,藉由一設備而產生之一音源輸出信號之壓力值),用以產生一虛擬麥克風之一音源輸出信號,其中虛擬麥克風被置放於聲源之位置。
因此,圖2a顯示一設備150,其可能被採用來接收或處理所提及的音源資料流,亦即,設備150可能在一接收器/合成側上被採用。音源資料流包含音源資料,其包含關於複數個聲源之每一個之一個或多個壓力值以及一個或多個位置值,亦即,壓力值與位置值之每一個關於錄製的音源場景之一個或多個聲源之一特定聲源。這意味著位置值表示聲源之位置而非錄製麥克風。相關於壓力值,這意味著音源資料流包含關於每一個聲源之一個或多個壓力值,亦即,壓力值表示一音源信號,其係關於一聲源而非關於一真實空間麥克風之錄製。
依據一實施例,接收器160可能適合於接收包含音源資料之音源資料流,其中音源資料更包含關於每一個聲源之一個或多個擴散值。合成模組170可能適合於基於一個或多個擴散值之至少一者來產生至少一音源輸出信號。
圖2b顯示依據一實施例之用以產生包含關於一個或多個聲源之聲音原始資料之一音源資料流之設備200。用以產生一音源資料流之設備200包含一決定器(determiner)210,用於基於由至少一空間麥克風所錄製之至少一音源輸入信號以及基於由至少兩個空間麥克風所提供之音源側資訊來決定聲音原始資料。再者,此設備200包含一資料流產生器220,用以產生音源資料流,以使音源資料流包含聲音原始資料。聲音原始資料包含關於每一個聲源之一個或多個壓力值。此外,聲音原始資料更包含表示關於每一個聲源之一聲源位置之一個或多個位置值。再者,為複數個時頻箱之一時頻箱界定聲音原始資料。
接著可傳輸由設備200所產生之音源資料流。因此,設備200可能在一分析/發送器側上採用。音源資料流包含音源資料,其包含關於複數個聲源之每一個之一個或多個壓力值以及一個或多個位置值,亦即,壓力值與位置值之每一個關於錄製的音源場景之一個或多個聲源之一特定聲源。這意味著相關於位置值,位置值表示聲源之位置而非錄製麥克風。
在更進一步的實施例中,決定器210可能適合於藉由至少一空間麥克風而基於擴散資訊來決定聲音原始資料。資料流產生器220可能適合於產生音源資料流,以使音源資料流包含聲音原始資料。聲音原始資料更包含關於每一個聲源之一個或多個擴散值。
圖3a顯示依據一實施例之一音源資料流。音源資料流包含關於兩個在一個時頻箱中是有效之聲源之音源資料。更特別是,圖3a顯示被傳輸以供一時頻箱(k,n)用之音源資料,其中k表示頻率指數,而n表示時間指數。音源資料包含一第一聲源之一壓力值P1、一位置值Q1以及一擴散值1。位置值Q1包含三個表示第一聲源之位置之座標值X1、Y1及Z1。再者,音源資料包含一第二聲源之一壓力值P2、一位置值Q2以及一擴散值2。位置值Q2包含三個表示第二聲源之位置之座標值X2、Y2 及Z2。
圖3b顯示依據另一實施例之一音源串流。又,音源資料包含一第一聲源之一壓力值P1、一位置值Q1以及一擴散值1。位置值Q1包含三個表示第一聲源之位置之座標值X1、Y1及Z1。再者,音源資料包含一第二聲源之一壓力值P2、一位置值Q2以及一擴散值2。位置值Q2包含三個表示第二聲源之位置之座標值X2、Y2及Z2。
圖3c提供音源資料流之另一種圖例。因為音源資料流提供幾何式空間音源編碼(GAC)資訊時,所以其亦被稱為"幾何式空間音源編碼串流"或"GAC串流"。音源資料流包含關於一個或多個聲源(例如一個或多個等向性點狀源(IPLS))之資訊。如上已說明的,GAC串流可包含下述信號,其中k及n表示所考量的時頻箱之頻率指數與時間指數:
‧P(k,n):位於聲源(例如位於IPLS)之複合壓力。這種信號儘可能地包含直達聲音(本身源自IPLS之聲音)及擴散聲音。
‧Q(k,n):聲源之位置(例如3D中之迪卡兒座標),例如IPLS之位置:位置可譬如包含迪卡兒座標X(k,n)、Y(k,n)、Z(k,n)。
‧於IPLS之擴散:(k,n)。此種參數是有關於包含在P(k,n)中之直達聲音與擴散聲音之能量比。如果P(k,n)=Pdir(k,n)+Pdiff(k,n),則表示擴散之一種可能性係為(k,n)=|Pdiff(k,n)|2/|P(k,n)|2。如果|P(k,n)|2是已知的,則其他等效表現是可想像的,舉例而言,直達與擴散比率(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2
如已經陳述的,k及n分別表示頻率及時間指數。如果需要的話且如果分析允許它的話,則一個以上的IPLS可被表示於一既定時頻槽中。此乃描繪於圖3c中以作為M個多重層,俾能使關於第i層(亦即,關於第i個IPLS)之壓力信號係以Pi(k,n)表示。為了方便起見,IPLS之位置可被表示成向量Qi(k,n)=[Xi(k,n),Yi(k,n),Zi(k,n)]T。不同於目前技藝水準,GAC串流中之所有參數係相關於一個或多個聲源(例如相關於IPLS)被表示,從而達到獨立於錄製位置。在圖3c以及圖3a及3b中,圖中之所有數量被認為是在時頻域中;為了簡化的理由,忽視(k,n)表示法,舉例而言,Pi意指Pi(k,n),例如Pi=Pi(k,n)。
以下,更詳細說明依據一實施例之一種用以產生一音源資 料流之設備。如同圖2b之設備,圖4之設備包含一決定器210及一資料流產生器220,其可能類似於決定器210。當決定器分析音源輸入資料以基於何種資料流產生器產生音源資料流來決定聲音原始資料時,決定器與資料流產生器可能一起被稱為一「分析模組」(參見圖4中之分析模組410)。
分析模組410從N個空間麥克風之錄製計算出GAC串流。依據期望的層數M(例如聲源之數目,關於其資訊應該被包含在一特定時頻箱之音源資料流中)、空間麥克風之型式及數目N,關於分析之不同方法是可想像的。以下提供一些例子。
關於一第一例子,考量到每時頻槽,1個聲源(例如1個IPLS)之參數估計。在M=1的情況下,GAC串流可利用上述關於用以產生一虛擬麥克風之一音源輸出信號之設備所說明之概念而輕易地獲得,其乃因為一虛擬空間麥克風可被設置於聲源之位置(例如在IPLS之位置中)。這允許壓力信號與相對應的位置估計且儘可能地與擴散一起於IPLS之位置被計算出。這三個參數係在一GAC串流中被群聚在一起,且可以在被傳輸或儲存之前被圖8中之修改模組102所更進一步操控。
舉例而言,決定器可藉由採用為此設備(用以產生一虛擬麥克風之一音源輸出信號)之聲音事件位置估計所提出之概念來決定一聲源之位置。再者,決定器可包含一種用以產生一音源輸出信號之設備,且可使用聲源之決定位置以作為虛擬麥克風之位置,用以計算位於聲源之位置之壓力值(例如待產生之音源輸出信號之數值)與擴散。
更特別是,決定器210(例如在圖4中)係被設計成用以決定壓力信號、相對應的位置估計以及相對應的擴散,而資料流產生器220係被設計成用以基於計算出的壓力信號、位置估計以及擴散來產生音源資料流。
關於另一例子,考量到每時頻槽,2個聲源(例如2個IPLS)之參數估計。如果分析模組410係用以於每時頻箱估計兩個聲源,則可使用基於目前技藝水準之估計器之下述概念。
圖5顯示一種由兩個聲源及兩個均勻線性麥克風陣列所構成之聲音場景。請參考ESPRIT,參見
[26]R.Roy及T.Kailath。經由旋轉不變性技術之信號參數之ESPRIT-估 計(ESPRIT-estimation of signal parameters via rotational invariance techniques)。音源、語音和信號處理,IEEE學報,37(7):984-995,1989年7月。
ESPRIT([26])可以於每個陣列各別被採用,用以於每個陣列為每個時頻箱獲得兩個DOA估計。由於一配對不明確,這會導致關於來源之位置之兩種可能的解決方法。從圖5可見,兩個可能的解決方法係由(1,2)與(1’,2’)所得之。為了解決這種不明確,可應用下述解決方法。藉由使用一朝估計的來源位置之方向被配向之波束形成器並應用一適當因子以補償傳播(例如,乘以由波所經歷的衰減的倒數),而估計於每個來源所發出之信號。對每一個可能的解決方法而言,這可為位於每個陣列之每個來源而實現。我們接著可界定每對來源(i,j)之一估計誤差成為:Ei,j=|Pi,1-Pi,2|+|Pj,1-Pj,2|, (1)於此,(i,j){(1,2),(1’,2’)}(參見圖5)且Pi,1代表來自聲源i由陣列r所看到的補償信號能量。此誤差對真實聲源對而言是最小的。一旦配對關鍵問題獲得解決且正確的DOA估計被計算出,這些就會與相對應的壓力信號及擴散估計一起被群聚成為一GAC串流。壓力信號及擴散估計可藉由使用供一個聲源用之參數估計已經說明的相同方法而獲得。
圖6a顯示依據一實施例之一種用以基於一音源資料流產生至少一音源輸出信號之設備600。設備600包含一接收器610及一合成模組620。接收器610包含一修改模組630,用以藉由修改音源資料之至少一壓力值、音源資料之至少一位置值或關於至少一聲源之音源資料之至少一擴散值,來修改接收到的音源資料流之音源資料。
圖6b顯示依據一實施例之一種用以產生包含關於一個或多個聲源之聲音原始資料之一音源資料流之設備660。用以產生一音源資料流之設備包含一決定器670、一資料流產生器680且更包含一修改模組690,用以藉由修改音源資料之至少一壓力值、音源資料之至少一位置值或關於至少一聲源之音源資料之至少一擴散值,來修改由資料流產生器所產生之音源資料流。
雖然圖6a之修改模組610係在一接收器/合成側上被採用,但圖6b之修改模組660係在一發送器/分析側上被採用。
由修改模組610、660所處理之音源資料流之修改亦可被視為聲音場景之修改。因此,修改模組610、660亦可被稱為聲音場景操控模組。
由GAC串流所提供之聲場表現允許音源資料流之不同種類的修改,亦即,導致聲音場景之操控。於此上下文中的某些例子係為:1.擴大聲音場景中之空間/音量之任意區段(例如一點狀聲源之擴大以便對聆聽者而言顯得更寬廣);2.使空間/音量之一選定區段變換成聲音場景中之空間/音量之任何其他任意區段(此變換空間/音量可例如包含一來源,其必須被移動至一新場地);3.基於位置的過濾,於此聲音場景之選定區域係被提高或局部地/完全地被抑制。
以下,假設一層之一音源資料流(例如一GAC串流)包含相關於一特定時頻箱之其中一個聲源之所有音源資料。
圖7說明依據一實施例之一修改模組。圖7之修改單元包含一解多工器401、一操控處理器420以及一多工器405。
解多工器401係被設計成用以使M層GAC串流之不同層分離並形成M個單層GAC串流。此外,操控處理器420包含單元402、403及404,其各別被應用在每一個GAC串流上。再者,多工器405被設計成用以從操控的單層GAC串流形成所產生之M層GAC串流。
基於來自GAC串流之位置資料與關於真實來源(例如揚聲器)之位置之知識,能量可以與每個時頻箱之某個真實來源相關。壓力值P因此接著被加權,用以修改各個真實來源(例如揚聲器)之響度。其需要一先驗資訊或真實聲源(例如揚聲器)之場地之一估計。
在某些實施例中,如果關於真實來源之位置之知識是可得到的,則基於來自GAC串流之位置資料,能量可以與每時頻箱之某個真實來源相關。
音源資料流(例如GAC串流)之操控可發生於用以產生圖6a之至少一音源輸出信號之設備600之修改模組630(亦即,於一接收器/合成側)及/或發生於用以產生圖6b之一音源資料流之設備660之修改模組 690(亦即,於一發送器/分析側)。
舉例而言,音源資料流(亦即GAC串流)可在傳輸之前,或在合成之前在傳輸之後被修正。
不像位於接收器/合成側之圖6a之修改模組630,位於發送器/分析側之圖6b之修改模組690可開拓來自輸入111至11N(錄製的信號)及121至12N(空間麥克風之相對位置及方位)之附加資訊,其乃因為這種資訊係可於發送器側得到。藉由使用此種資訊,可實現依據一替代實施例之一修改單元,其係描繪於圖8中。
圖9說明一種藉由顯示一系統之一圖表概觀之實施例,其中一GAC串流係產生在一發送器/分析側上,於此,可選擇地,GAC串流可能藉由一位於一發送器/分析側之修改模組102而被修改,於此GAC串流可任意地藉由修改模組103而於一接收器/合成側被修改,且其中GAC串流係用於產生複數個音源輸出信號191...19L。
於發送器/分析側,聲場表現(例如GAC串流)係從輸入111至11N(亦即,利用N2空間麥克風錄製之信號),以及從輸入121至12N(亦即,空間麥克風之相對位置及方位)而在單元101中被計算出。
單元101之輸出係為前述聲場表現,其以下係表示成幾何空間音源編碼(GAC)流。類似於在下述參考文獻中之提案:[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets。藉由使用由配置的陣列所搜集之幾何資訊產生虛擬麥克風信號(Generating virtual microphone signals using geometrical information gathered by distributed arrays)。於免持語音通信和麥克風陣列的第三次聯合研討會(HSCMA’11)英國愛丁堡2011年5月。
以及如關於用以於一可配置的虛擬位置產生一虛擬麥克風之一音源輸出信號之設備所說明的,利用聲源(例如等向性點狀聲源(IPLS))塑造一複合聲音場景,聲源係以一時頻表現而於特定時槽是有效的,例如由短時間傅立葉轉換(STFT)所提供之一個。
GAC串流可能更進一步在可選擇的修改模組102(其亦可被稱為一操控單元)中被處理。修改模組102考慮到多數應用。GAC串流接著可被傳輸或儲存。GAC串流之參數本質是高度有效的。於合成/接收器 側,可採用一種更多可選擇的修改模組(操控單元)103。所產生之GAC串流進入合成單元104,其產生揚聲器信號。假設來自錄製之表現之獨立性,則於再生側之最終用戶可以潛在地操控聲音場景並自由地決定聲音場景內之聆聽位置及方位。
音源資料流(例如GAC串流)之修改/操控可因此在修改模組102之傳輸之前或在傳輸之後在合成修改模組103之前,藉由修改GAC串流而發生於圖9中之修改模組102及/或103。不像在位於接收器/合成側之修改模組103,位於發送器/分析側之修改模組102可開拓來自輸入111至11N(由空間麥克風所提供之音源資料)及121至12N(空間麥克風之相對位置及方位)之附加資訊,其乃因為這種資訊係可於發送器側得到。圖8顯示一種採用此種資訊之修改模組之一替代實施例。
以下參考圖7及圖8說明關於操控GAC串流之不同概念之例子。具有相同參考信號之單元具有相同功能。
音量擴大
假設場景中之某個能量位於音量V之內。音量V可表示一環境之一預定區域。Θ表示這組時頻箱(k,n),在這裡之相對應的聲源(例如IPLS)被定位在音量V之內。
如果期望音量V擴大至另一個音量V’,則這可藉由每當(k,n)Θ(在決定單元403中被評估),就添加一隨機項至GAC串流中之位置資料,以及藉由代入Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T(為簡化之便,降下指數層(index layer))而達成,以使圖7及8中之單元404之輸出431至43M變成Q(k,n)=[X(k,n)+Φx(k,n);Y(k,n)+Φy(k,n)Z(k,n)+Φz(k,n)]T (2)於此Φx、Φy與Φz係為隨機變數,其範圍取決於相關於原始音量V之新音量V’之幾何形狀。譬如可採用這種概念以使一聲源較廣泛被察覺。於此例子中,原始音量V是極微小的,亦即,聲源(例如IPLS)應被定位於相同點Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T for all(k,n)Θ。這種機構可能被看作是一種位置參數Q(k,n)之高頻振動(dithering)之形式。
依據一實施例,每一個聲源之每一個位置值包含至少兩個座標值,且修改模組係適合於當座標值表示一聲源位於一個在一環境之一預定區域之內的位置時,藉由添加至少一亂數至座標值來修改座標值。
音量轉變
除了音量擴大以外,來自GAC串流之位置資料可被修改以重新配置聲場之內的空間/音量之區段。於此情況下,同樣地,待被操控之資料包含局部能量之空間座標。
V再次表示應該被重新配置之音量,而Θ表示這組的所有時頻箱(k,n),在這裡之能量係被定位在音量V之內。又,音量V可表示一環境之一預定區域。
音量重新配置可能藉由修改GAC串流而達成,以使對所有時頻箱(k,n)Θ而言,Q(k,n)係於單元404之輸出431至43M而被f(Q(k,n))所置換,於此f係為空間座標(X,Y,Z)之函數,藉以描述待被執行之音量操控。函數f可能表示簡單的線性轉變,例如旋轉、平移或任何其他複合非線性的映射。這種技術可譬如被使用以藉由確保Θ對應至此組時頻箱(於其中聲源已被定位在音量V之內),使聲源在聲音場景之內從一處移動至另一處。此技術允許整個聲音場景之各種其他複合操控,例如場景鏡像變換、場景旋轉、場景擴大及/或壓縮等。舉例而言,藉由將一適當線性映射施加在音量V上,可達到音量擴大(亦即,音量縮小)之互補式效果。這可例如藉由將Q(k,n)讓(k,n)Θ映射至f(Q(k,n))V’而完成,於此V’V與V’包含一大幅小於V之音量。
依據一實施例,當座標值表示一聲源位於一個在一環境之一預定區域之內的位置時,修改模組係適合於藉由施加一確定函數在座標值上來修改座標值。
基於位置的過濾
基於幾何形狀的過濾(或基於位置的過濾)理念提供一種提高或完全地/局部地從聲音場景移除空間/音量之區段之方法。然而,於此情況下,相較於音量擴大及轉變技術,只有來自GAC串流之壓力資料係藉由施加適當的純量權重(scalar weights)而修改。
在基於幾何形狀的過濾中,可在發送器側修改模組102與 接收器側修改模組103之間作出一區別,因為前者可使用輸入111至11N及121至12N以幫助計算適當的濾波器權重,如圖8所示。假設目標係用以抑制/提高源自空間/音量V之一選定區段之能量,則基於幾何形狀的過濾可被應用如下:對所有(k,n)Θ而言,GAC串流中之複合壓力P(k,n)係於模組402之輸出被修改成ηP(k,n),於此η係為譬如藉由單元402而計算的一實際加權因子。在某些實施例中,模組402可適合於依據擴散又計算一加權因子。
基於幾何形狀的過濾之概念可被使用在複數個應用中,例如信號增強及來源分離。某些應用與所需要的一先驗資訊包含:
‧反混響。藉由熟悉房間幾何形狀,可使用空間濾波器以抑制定位在房間邊緣外部之能量,其可以由多路徑傳播所導致。本申請案可以對例如會議室及汽車中的免手持通訊感興趣。請注意,為了抑制後期混響,在高擴散的情況下,其足以關閉濾波器,而為了抑制早期回響,一與位置相關的濾波器是更有效的。於此情況下,如已經提及的,需要假定知道房間之幾何形狀。
‧背景噪音抑制。可使用一種類似的概念以同樣地抑制背景噪音。如果可設置來源之潛力區域(例如,會議室中之參與者的椅子或一汽車中之座位)是已知的,則位於這些區域外部之能量係相關於背景噪音,且因此受到空間濾波器抑制。本申請案需要來源之接近位置之一先驗資訊或一估計(基於GAC串流中之可得到的資料)。
‧一點狀干擾器(interferer)之抑制。如果干擾器是清楚地被定位在空間中,而非擴散,則可應用基於位置的過濾以使定位於干擾器之位置之能量衰減。其需要一先驗資訊或干擾器之場地之估計。
‧回音控制。於此情況下待被抑制之干擾器係為揚聲器信號。為此目的,同樣地如在點狀干擾器之情況下,正確被定位或位於揚聲器位置之接近附近之能量係被抑制。其需要一先驗資訊或揚聲器位置之估計。
‧增強聲音偵測。與基於幾何形狀的過濾發明相關的信號增強技術可被實施作為在一習知之聲音活動偵測系統中(例如汽車中)之一預先處理步驟。反混響或噪音抑制可被使用作為附加元件(add-ons)以改善系統性 能。
‧監控。只保存來自某些區域之能量並抑制其餘區域係為一種在監控應用中之通用技術。其需要關於感興趣之區域之幾何形狀及場地之一先驗資訊。
‧來源分離。在一種具有多重同時有效來源之環境中,幾何形狀基準的空間濾波可能被應用於來源分離。置放一種位於一來源之場地的中心之適當設計的空間濾波器,導致其他同時有效的來源之抑制/衰減。這種改革可能被使用例如作為SAOC中之一前端。一先驗資訊或來源場地之估計是需要的。
‧與位置相關的自動增益控制(AGC)。可能使用與位置相關的權重,例如用以使線上討論應用中之不同揚聲器之響度相等。
以下,說明依據實施例之合成模組。依據一實施例,一合成模組可能適合於基於一音源資料流之音源資料之至少一壓力值以及基於音源資料流之音源資料之至少一位置值,來產生至少一音源輸出信號。至少一壓力值可能是一壓力信號(例如一音源信號)之一壓力值。
在GAC合成背後之操作原理之動機是針對空間聲之知覺之假設,提供於下
[27]WO2004077884:Tapio Lokki,Juha Merimaa,以及Ville Pulkki。用以在多聲道聆聽中再生自然或改進的空間感之方法(Method for reproducing natural or modified spatial impression in multichannel listening),2006年。
更特別是,需要正確察覺一聲音場景之空間影像之空間線索,係可藉由正確地再生關於每個時頻箱之非擴散聲音之一個到達方向而獲得。因此,將描繪於圖10a中之合成分為兩階段。
第一階段考量聆聽者在聲音場景之內的位置及方位,並決定哪一個M IPLS對於每個時頻箱是佔優勢的。因此,可計算出其壓力信號Pdir及到達方向θ。剩下的來源及擴散聲音係在一第二壓力信號Pdiff中被收集。
第二階段係與[27]中所說明之DirAC合成之第二半相同。非擴散聲音係利用一種產生一點狀源之搖攝機構(panning mechanism)而c獲得再造,而擴散聲音係在已被解相關之後,由所有揚聲器所再造。
圖10a說明依據顯示GAC串流之合成之實施例之合成模組。
第一階段合成單元501計算出需要不同地撥放之壓力信號Pdir及Pdif。事實上,當Pdir包含必須在空間中有條理地被撥放之聲音時,Pdiff包含擴散聲音。第一階段合成單元501之第三輸出從期望聆聽位置的角度來看係為到達方向(DOA)θ505,亦即,一到達方向資訊。請注意,到達方向(DOA)可能被表示成一在2D空間中之方位角,或以在3D中之一方位角及仰角對表示。同等地,可能使用指向DOA之一單位標準向量。DOA指明信號Pdir應來自何方向(相對於期望聆聽位置)。第一階段合成單元501將GAC串流當作一輸入(亦即,聲場之一參數式表現),並基於由輸入141所特別指定之聆聽者位置及方位計算出前述信號。事實上,最終用戶可自由地決定在由GAC串流所描述之聲音場景之內的聆聽位置及方位。
第二階段合成單元502基於揚聲器設定131之知識計算出L個揚聲器信號511至51L。請回想單元502係與[27]中所描述之DirAC合成之第二半相同。
圖10b說明依據一實施例之一第一合成階段單元。提供給方塊之輸入係為一由M個層所構成之GAC串流。在一第一步驟中,單元601將M個層之每一層解多工成M道平行GAC串流。
第i個GAC串流包含一壓力信號Pi、一擴散以及一位置向量Qi=[Xi,Yi,Zi]T。壓力信號Pi包含一個或多個壓力值。位置向量係為一位置值。至少一音源輸出信號現在係基於這些數值而產生。
關於直達及擴散聲音Pdir,i與Pdiff,i之壓力信號係藉由施加一從擴散推導出的適當因子而從Pi獲得。壓力信號包含進入一傳播補償方塊602之直達聲音,傳播補償方塊602計算出從聲源位置(例如IPLS位置)至聆聽者之位置之對應於信號傳播之延遲。除此以外,此方塊亦計算出用以補償不同的大小降低所需要的增益因子。在其他實施例中,只有不同的大小降低會被補償,而延遲並未被補償。
表示之補償壓力信號進入方塊603,其輸出最強輸入之指數imax
在這種機構背後之主要想法係為根據研究,M IPLS在時頻箱是有效的,只有最強的(相關於聆聽者位置)將會有條理地被撥放(亦即,作為直達聲音)。方塊604及605從它們的輸入選定由imax所界定之一個。方塊607計算第imax個IPLS相關於聆聽者之位置及方位(輸入141)之到達方向。方塊604之輸出係對應至方塊501之輸出,亦即將藉由方塊502被撥放作為直達聲音之聲音信號Pdir。擴散聲音(亦即輸出504Pdiff)包含在M個支流中之所有擴散聲音與所有除了第imax個以外之直達聲音信號之總和,亦即j≠imax
圖10c顯示一第二階段合成單元502。如已經提及的,這個階段係與[27]中所提出之合成模組之第二半相同。非擴散聲音Pdir503係藉由例如搖攝而被再造為一點狀源,其增益係基於到達方向(組合模組505)而在方塊701中被計算出。另一方面,擴散聲音,Pdiff,通過L個分開的解相關器(711至71L)。對L個揚聲器信號之每一個而言,直達及擴散聲音路徑係在通過反濾波器組(703)之前被增加。
圖11顯示依據一替代實施例之一合成模組。圖中之所有數量係被視為在時頻域中;為了簡化的理由,忽視了(k,n)表示法,例如Pi=Pi(k,n)。在特別是複合聲音場景(例如,許多同時有效之來源)的情況下,為了改善再生之音源品質,譬如可實現合成模組(例如合成模組104),如圖11所示。取代選擇最佔優勢的IPLS待有條理地被再造的是,圖11中之合成各別地進行M個層之每一層之全合成。來自第i層之L個揚聲器信號係為方塊502之輸出,且係以191i至19Li表示。位於第一階段合成單元501之輸出之第h個揚聲器信號19h係為19h1至19hM之總和。請注意不同於圖10b的是,方塊607中之DOA估計步驟需要為M個層之每一層而實現。
圖26顯示依據一實施例之用以產生一虛擬麥克風資料流之設備950。用以產生一虛擬麥克風資料流之設備950包含一設備960與一設備970,設備960依據上述實施例之其中一個(例如依據圖12)產生一虛擬麥克風之一音源輸出信號,而設備970依據上述實施例之其中一個(例如依據圖2b)產生一音源資料流,其中由用以產生一音源資料流之設備970所產生之音源資料流係為虛擬麥克風資料流。
例如在圖26中用以產生一虛擬麥克風之一音源輸出信號之設備960包含一聲音事件位置估計器以及一資訊計算模組,如在圖12中。聲音事件位置估計器係適合於估計表示環境中之一聲源之一位置之一聲源位置,其中聲音事件位置估計器係適合於基於由位於一環境中之第一真實麥克風位置之一第一真實空間麥克風所提供之一第一方向資訊,以及基於由位於一環境中之第二真實麥克風位置之一第二真實空間麥克風所提供之一第二方向資訊來估計聲源位置。資訊計算模組係適合於基於一錄製的音源輸入信號,基於第一真實麥克風位置以及基於計算出的麥克風位置來產生音源輸出信號。
用以產生一虛擬麥克風之一音源輸出信號之設備960係被配置以將音源輸出信號提供至用以產生一音源資料流之設備970。用以產生一音源資料流之設備970包含一決定器,舉例而言,相關於圖2b所說明之決定器210。用以產生一音源資料流之設備970之決定器基於由用以產生一虛擬麥克風之一音源輸出信號之設備960所提供之音源輸出信號來決定聲音原始資料。
圖27顯示依據上述實施例之其中一個(例如申請專利範圍第1項之設備)之一種用以基於一音源資料流產生至少一音源輸出信號之設備980,其係被設計成用以基於一虛擬麥克風資料流產生音源輸出信號,以作為由一種用以產生一虛擬麥克風資料流之設備950(例如圖26中之設備950)所提供之音源資料流。
用以產生一虛擬麥克風資料流之設備980將產生的虛擬麥克風信號饋送至用以基於一音源資料流產生至少一音源輸出信號之設備980中。吾人應注意到,虛擬麥克風資料流係為一音源資料流。用以基於一音源資料流產生至少一音源輸出信號之設備980基於虛擬麥克風資料流產生一音源輸出信號以作為音源資料流,舉例而言,如相對於圖2a之設備所說明的。
圖1顯示依據一實施例之用以產生一整合音源資料流之一設備。
在一實施例中,此設備包含一用於獲得複數個單層音源資料流之解多工器180,其中解多工器180係適合於接收一個或多個輸入音源 資料流,其中每個輸入音源資料流包含一層或多層,其中解多工器180係適合於將具有一層或多層之每一個輸入音源資料流解多工成具有正好一層之兩個以上的解多工的音源資料流,以使一個或多個解多工的音源資料流一起包含一層或多層之輸入音源資料流,用以獲得兩個以上的單層音源資料流。
在更進一步的實施例中,此設備包含一用於獲得複數個單層音源資料流之解多工器180,其中解多工器180係適合於接收兩個以上的輸入音源資料流,其中每個輸入音源資料流包含一層或多層,其中解多工器180係適合於將具有兩個以上的層之每一個輸入音源資料流解多工成具有正好一層之兩個以上的解多工的音源資料流,以使兩個以上的解多工的音源資料流一起包含兩個以上的層之輸入音源資料流,用以獲得兩個以上的單層音源資料流。
再者,此設備包含一整合模組190,用以基於複數個單層音源資料流產生具有一層或多層之整合音源資料流。解多工的音源資料流、單層資料流以及整合音源資料流之每個層之輸入資料音源串流包含一壓力信號之一壓力值、一位置值以及一擴散值以作為音源資料,此音源資料係為複數個時頻箱之一時頻箱而被界定。
在一實施例中,此設備可能適合於將正好具有一層之一個或多個接收到的輸入音源資料流直接饋送至整合模組中,而無須將它們饋送至解多工器中,參見虛線195。
在某些實施例中,解多工器180係適合於修改解多工的音源資料流之壓力值,以便使以解多工的音源資料流表示之不同的聲音場景之音量(例如響度)相等。舉例而言,如果兩個音源資料流源自於兩個不同的錄製環境,且第一個特徵為低音量(例如由於遠離麥克風之來源,或只由於具有較差的靈敏度或具有前級放大器之低增益之麥克風),則可能藉由將第一音源資料流之壓力值乘以一純量來增加第一音源資料流之音量。類似地,可能以一種類似方式來降低第二音源資料流之音量。
圖28說明依據另一實施例之用以產生一整合音源資料流之一設備之輸入及輸出。M個音源資料流(譬如M個GAC串流)之一些,以及可選擇的是待被注入之一人造聲源之一壓力信號p(t)及位置q(t), 係被輸入至圖28之設備中。在另一實施例中,兩個以上的人造聲源(合成聲源)被輸入至設備中。於輸出處,傳回一音源輸出串流,例如表示變化聲音場景之一GAC串流。
類似地,可以直接從一單聲道聲源產生一音源輸出串流(例如一GAC串流)(亦即,不用整合)。
第一種之到達設備之輸入1111、1112、....、111M係為音源資料流(例如M個GAC串流),於此第i個串流包含Li個層,i {1,2...,M}。第i個音源資料流之每個層包含複合壓力信號Pi之一個或多個壓力值,來源之位置Qi=[Xi,Yi,Zi]T,以及在一時頻域中之擴散。如果使用一種二維表現,來源之位置可能被界定為Qi=[Xi,Yi]T。吾人應注意到所有數量取決於時間及頻率指數(k,n)。然而,在這些公式中,對於時間及頻率之依存性並未詳細被提及,以使公式維持更佳之可讀性且為簡化之便。
輸入1120係為對於待被插入至聲音場景之一人造聲源之壓力與位置之可選擇的資訊(被表示在一時域中)。圖28之設備之1140輸出係為一音源資料流,例如一具有LO層之GAC串流。
圖29顯示依據另一實施例之用以產生一整合音源資料流之設備。在圖29中,圖1之解多工器包含複數個解多工單元。圖29之設備包含複數個解多工單元(解多工器)1201、一人工源產生器(實現關於一人工源之音源串流(例如GAC串流)產生)1202以及一整合模組1203。
關於其中一個解多工單元1201,相關於第i個GAC串流111i(其包含Li層)之解多工單元,輸出Li分離單層GAC串流。人工源產生器1202產生一供人造聲源用之單層GAC串流。
實現整合之整合模組1203接收N個單層GAC串流,其中N係為:
圖30說明依據一實施例之整合模組1203。N個單層音源資料流(例如N個單層GAC串流)1211至121N係被整合,藉以導致音源資 料流(例如一個GAC串流1140),其具有對應於聲音場景之組合之LO層,於此LO N。
整合特別是基於下述概念:對每個時頻箱而言,有N IPLS有效,每個由N個GAC串流之其中一個所描述。考慮到例如能量及擴散,標識出LO最突出的來源。第一LO-1來源只重新分配給整合音源資料流之第一LO-1層,例如輸出GAC串流,而將所有剩餘來源加至最終層,亦即,第LO層。
圖30之設備包含一成本函數模組1401。成本函數模組1401分析N個壓力信號及N個擴散參數。成本函數模組1401係被設計成用以為每個時頻箱決定最突出的聲源。舉例而言,關於具有i [1,N]之第i個串流之成本函數fi可例如被界定為f i i ,P i )=(1-Ψ i ).|P i |2 (2)以使具有高能量及低擴散之一聲源(例如一IPLS)導致成本函數之高值。成本函數fi計算一成本值。
成本函數模組1401之輸出係為尺寸LO 1之向量r,包含具有最高fi之IPLS之指數。此外,指數係從最突出的IPLS被分類成最不突出的IPLS。這種資訊係被傳送至一位置混合單元1403、一壓力整合單元1404以及一擴散整合單元1405,於此,關於每個時頻箱之所產生之GAC串流之參數因此被計算出。以下詳細說明如何計算參數之實施例。
圖30之設備更包含一聲音場景適應模組1402。聲音場景適應模組1402允許遍及整合步驟之額外控制,於此GAC位置資訊係在實際整合之前被操控。依此方式,可達成數個整合機制,例如與分離場景中之事件之完全重疊之整合,與並列置放聲音場景整合,與對於重疊量之某些限制整合等。
圖31a、圖31b以及圖31c說明可能的聲音場景方案。圖31a顯示兩個聲音場景,每個具有一個揚聲器。向量表示一局部座標系統。在整合之後,在不需要由聲音場景適應模組1402所實現之任何修改的情況下,將達成如於圖31a之底部所描繪出的一聲音場景。這可能是不受期望的。藉由操縱一個或多個聲音場景之座標系統,可能隨意構成合併的聲音 場景。在圖31b中,舉例而言,導入一旋轉,俾能在合併的聲音場景中分開揚聲器。應用在位置Q1至QN上之平移(如圖31c所示)或非線性轉變亦是可能的。
位置混合單元1403、壓力整合單元1404以及擴散整合單元1405係適合於接收N個參數串流以作為輸入,且適合於計算所產生之LO GAC串流之參數。
每一個參數可以依下述方式被獲得:a.位置混合單元1403係適合於決定輸出GAC串流之所產生之位置。在輸出串流Qi’中之第i個來源之位置係對應至由向量r所表示之第i個最突出的非擴散輸入源之位置,向量r由成本函數模組1401所提供。
於此ri表示r之第i個元件。
藉由決定如以向量r表示之第LO個最突出的非擴散輸入源,位置混合單元1403決定包含一個或多個單層音源資料流之一群組,其中,群組之每一個單層音源資料流之成本值可能大於未包含在群組中之任何單層音源資料流之成本值。位置混合單元1403係適合於選擇/產生整合音源資料流之一層或多層之一個或多個位置值,以使群組之每一個單層音源資料流之每個位置值係為整合音源資料流之其中一層之一位置值。
b.關於每一個串流之所產生之壓力係由壓力整合單元1404所計算。依據輸入向量r,幾乎是最終(第LO個)GAC串流之壓力信號係等於相對應的壓力信號。第LO個GAC串流之壓力係給定為N-LO+1剩餘壓力信號之每一個之壓力之一線性組合,舉例而言
藉由決定如以向量r表示之第LO-1個最突出的非擴散輸入源,壓力整合單元係適合於決定一第一群組以及決定一第二群組(向量r中之剩下的輸 入源),第一群組包含複數個單層音源資料流之一個或多個單層音源資料流,而第二群組包含複數個單層音源資料流之一個或多個不同的單層音源資料流,其中第一群組之每一個單層音源資料流之成本值係大於第二群組之每一個單層音源資料流之成本值。壓力整合單元係適合於產生一層或多層之整合音源資料流之一個或多個壓力值,以使第一群組之每一個單層音源資料流之每個壓力值係為整合音源資料流之其中一層之一壓力值,並使第二群組之單層音源資料流之壓力值之一組合係為整合音源資料流之其中一層之一壓力值。
c.所產生之GAC串流之擴散係由擴散整合單元1405所計算。類似於其他參數,擴散係從輸入流被複製至所有但最終之第LO個GAC串流
因為只有一個位置可被指定,所以考慮到壓力信號包含來自更多IPLS(其將不會被有條理地演奏)之直達聲音,可能譬如計算出第LO個擴散參數。因此,對應至直達聲音之中的能量之數量只是
因此,可藉由下述方程式獲得此擴散
藉由決定如以向量r表示之第LO-1個最突出的非擴散輸入源,擴散整合單元係適合於決定一第一群組以及決定一第二群組(向量r中之剩下輸入源),第一群組包含複數個單層音源資料流之一個或多個單層音源資料流,而第二群組包含複數個單層音源資料流之一個或多個不同的單層音源資料流,其中第一群組之每一個單層音源資料流之成本值係大於第二群組之每一個單層音源資料流之成本值。擴散整合單元係 適合於產生一層或多層之整合音源資料流之一個或多個壓力值,以使第一群組之每一個單層音源資料流之每個擴散值係為整合音源資料流之其中一層之一擴散值,且使第二群組之單層音源資料流之擴散值之一組合係為整合音源資料流之其中一層之一擴散值。
最後,所產生之LO單層GAC串流係在方塊1406中被多工化,用以形成LO層之最後的GAC串流(輸出1140)。
以下,參考圖32a及圖32b更詳細說明依據實施例之人工源產生器。
人工源產生器係為一可選擇的模組,並使用表示在一人造聲源之時域中之一位置及一壓力信號以作為輸入1120,人造聲源應該被插入至聲音場景。接著,其恢復人工源之GAC串流以作為輸出121N。
關於即時來源之位置之資訊係提供至第一處理方塊1301。如果聲源是不移動的,則方塊1301只將位置複製至輸出21N中之所有時頻箱Q(k,n)。對於一移動源而言,q(t)中之資訊係被複製至對應於適當的時間方塊n之所有頻率箱k。方塊1301之輸出接著作為GAC串流直接被遞送至方塊1203。插進的來源1120之壓力信號p(t)可能:a.直接被轉換成GAC串流P(k,n)之壓力信號(參見圖32a);b.首先被反響,然後被轉換成GAC串流P(k,n)之壓力信號(參見圖32b)。
依據顯示於圖32a中之實施例a),信號係藉由使用方塊1302中之分析濾波器組而被轉換成為頻域,然後被遞送作為對應於插入的來源之GAC串流之參數。如果壓力信號p(t)是乾(dry)的,則此信號可能通過可選擇的方塊1303,於此偵測到噪音及/或氣氛。關於噪音及氣氛之資訊接著被傳送至方塊1304,其計算擴散估計。方塊1303可能為了這些目的而施用一目前技藝水準演算法,例如說明於下之一目的
[30]C.Uhle and C.Paul:一種監督學習方法以從單聲道錄製氣氛萃取用以盲目升混(A supervised learning approach to ambience extraction from mono recordings for blind upmixing),於Proc.of the 11th Int,2008年9月1-4日,Conference on Digital Audio Effects(DAFx-08)。
然後,關於噪音及氣氛之資訊被傳送至方塊1304,其計算 擴散估計。這對於避免包含在p(t)中之氣氛及噪音於合成時有條理地被再造是特別有用的。因此,剛才所說明之機構保證信號之直達部分被分派一低擴散值,而信號之嘈雜及氣氛部分係與高擴散相關。除了方塊1303及1304之信號路徑方式以外,輸入121N中之擴散參數可只被設定到一固定值。
在某些意義相反情況下,涵蓋了顯示於圖32b中之實施例b)。假設p(t)係為一乾(dry)信號,則可能期望增加混響以使p(t)聲音更自然,亦即,使合成聲源聲音猶如其係在一房間中被錄製。這是利用方塊1305來達成。被反響及原始信號兩者經歷利用分析濾波器組1302處理之轉變,且接著被傳送至能量比分析方塊1306。方塊1306譬如藉由計算直達與混響比率(DRR),來計算關於多少混響及多少直達聲音出現在一某個時頻箱中之資訊。這種資訊接著被傳送至方塊1304,於其中計算出擴散。
對高DRR而言,擴散參數被設定到低值,而當混響支配(例如,在後期混響之尾部中)時,擴散被設定到高值。
以下,說明某些特殊情況。
1.如果M個單層GAC串流需要被合併成一LO=1 GAC串流,則可採用一簡化實施例。所產生之GAC串流之特徵將是:
-壓力:壓力將是所有M個壓力信號之總和
-位置:位置將是最強聲源(例如最強IPLS)之位置
-擴散:擴散將依據公式(5)計算出。
2.如果位於輸出之層數等於位於輸入之層之總數,亦即,LO=N,則輸出串流可被視為一連串輸入流。
雖然已在設備之上下文中說明某些實施樣態,但顯然這些方面亦表示相對應的方法之說明,於此之方塊或裝置係對應至一方法步驟或一方法步驟之特徵。依此類推,在一方法步驟之上下文中所說明的實施樣態亦表示一對應單元或項目之說明或對應設備之特徵。
所發明的分解信號可儲存在一數位儲存媒體上,或可在一傳輸媒介上傳輸,例如一無線傳輸媒介或一有線傳輸媒介,例如網際網路。
依據某些實施需求,本發明之實施例可在硬體或軟體中實施。實施例可藉由使用一數位儲存媒體(譬如軟碟、DVD、CD、ROM、 PROM、EPROM、EEPROM或快閃記憶體)而執行,數位儲存媒體具有儲存於其上之電子可讀取的控制信號,其與一可程式化電腦系統合作(或能夠合作),以執行各種方法。
依據本發明之某些實施例包含一非暫時性資料載體,其具有能夠與一可程式化電腦系統合作之電子可讀取的控制信號,以執行於此所說明之其中一種方法。
一般而言,本發明之實施例可被實施作為具有一程式碼之一電腦程式產品,當電腦程式產品在一電腦上運行時,程式碼對於執行其中一種方法是有效的。程式碼可譬如被儲存在一機器可讀取的載體上。
其他實施例包含儲存在一機器可讀取的載體上之電腦程式,用以執行於此所說明之其中一種方法。
換言之,本發明方法之一實施例因此係為一種具有一程式碼之電腦程式,用於在電腦程式在一電腦上運行時,執行於此所說明之其中一種方法。
因此,本發明方法之更進一步的實施例係為資料載體(或數位儲存媒體或電腦可讀取的媒體),其包含記錄於其上之電腦程式,用於以執行於此所說明之其中一種方法。
因此,本發明方法之更進一步的實施例係為表示電腦程式之一資料流或一序列之信號,用以執行於此所說明之其中一種方法。資料流或此序列之信號可譬如具體形成以經由一資料通訊連接(譬如經由網際網路)來傳輸。
更進一步的實施例包含一處理機構(譬如電腦或可程式化邏輯元件),其具體形成或適合於執行於此所說明之其中一種方法。
更進一步的實施例包含上面裝設有電腦程式之電腦,用於執行於此所說明之其中一種方法。
在某些實施例中,可能使用一可程式化邏輯元件(譬如現場可程式化閘陣列)以執行於此所說明之方法之某些或所有功能。在某些實施例中,一現場可程式化閘陣列可協同一微處理器,以便執行於此所說明之其中一種方法。一般而言,這些方法最好是藉由任何硬體設備而執行。
上述實施例僅為了本發明之原理而說明。吾人理解到,其 他熟習本項技藝者將明白於此所說明之配置與細節之修改及變化。因此,意圖只受限於即將到來的專利申請專利範圍之範疇,而不受限於經由實施例之記述及說明於此所提出的特定細節。
文獻:
[1] Michael A. Gerzon。多聲道廣播及視頻中之高傳真身歷聲響複製(Ambisonics in multichannel broadcasting and video)。J.音源工程學會,33 (11) :859-871, 1985年。
[2] V. Pulkki,"空間聲再生及立體聲升混中之音源編碼定向音源編碼(Directional audio coding in spatial sound reproduction and stereo upmixing)",於AES第28屆國際會議論文集,第251-258頁,瑞典Piteå,2006年6月30日-7月2日。
[3] V. Pulkki,"利用定向音源編碼之空間聲再生(Spatial sound reproduction with directional audio coding)",J.音源工程學會,第55卷,第6號,第503-516頁,2007年6月。
[4] C. Faller。關於空間音源編碼器之麥克風前端(Microphone front-ends for spatial audio coders)。於AES第125屆國際公約的程序,舊金山,2008年10月。
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz-Amling.及O. Thiergart,"一種用以定向音源編碼之空間濾波方法(A spatial filtering approach for directional audio coding)",於音源工程協會大會126,德國慕尼黑,2009年5月。
[6] R. Schultz-Amling, F. Küch, O. Thiergart,及M. Kallinger,"基於一參數聲場表現之聲學1縮放(Acoustical zooming based on a parametric sound field representation)",於音源工程協會大會128,英國倫敦,2010年5月。
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger,及O. Thiergart,"結合空間音源對象編碼及DirAC技術之互動線上討論(Interactive teleconferencing combining spatial audio object coding and DirAC technology)",於音源工程協會大會128,英國倫敦,2010年5月。
[8] E. G. Williams,傅立葉音響:聲音輻射及近場聲音全像 術(Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography),科學出版社,1999年。
[9] A.Kuntz及R.Rabenstein,"從圓形測量的外推波場的限制(Limitations in the extrapolation of wave fields from circular measurements)",於第15屆歐洲信號處理會議(EUSIPCO 2007),2007年。
[10] A. Walther及C. Faller,"藉由使用b-格式錄製之隔開的麥克風陣列之線性模擬(Linear simulation of spaced microphone arrays using b-format recordings)",於音源工程協會大會128,英國倫敦,2010年5月。
[11] US61/287,596:一種用以將一第一參數空間音源信號轉換成一第二參數空間音源信號之設備及方法(An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal)。
[12] S. Rickard及Z. Yilmaz,"針對言語之接近W-分離正交(On the approximate W-disjoint orthogonality of speech)",於語音及信號處理,2002. ICASSP 2002. 2002年4月之IEEE國際學術研討會,第1卷。
[13] R. Roy, A. Paulraj以及T. Kailath,"藉由子空間旋轉法之到達方向估計-ESPRIT",在1986年4月之美國加利福尼亞州史丹佛大學之語音與信號處理(ICASSP)之IEEE國際學術研討會中(IEEE音響國際會議,語音和信號處理(ICASSP),史丹福,美國加州,1986年4月)。
[14] R. Schmidt,"多重發射器場地及信號參數估計(Multiple emitter location and signal parameter estimation)",關於天線與傳播之IEEE學報,第34卷,第3號,第276-280頁,1986年。
[15] J.Michael Steele,"平面上之隨機樣品之最佳三角測量(Optimal Triangulation of Random Samples in the Plane)",概率的史冊,第10卷,第3號(1982年8月),第548-553頁。
[16] F. J. Fahy,聲音強度(Sound Intensity),埃塞克斯:Elsevier科學出版有限公司,1989年。
[17] R. Schultz-Amling, F. Küch, M. Kallinger, G. Del Galdo, T. Ahonen及V. Pulkki,"藉由使用定向音源編碼之空間音源之分析及再生之 平面麥克風陣列處理(Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding)",於音源工程協會大會124,荷蘭阿姆斯特丹,2008年5月。
[18] M. Kallinger, F. Küch, R. Schultz-Amling, G. Del Galdo, T. Ahonen及V. Pulkki,"使用麥克風陣列提高方向估計以供定向音源編碼用(Enhanced direction estimation using microphone arrays for directional audio coding)";於免持語音通信和麥克風陣列,2008. HSCMA 2008, May 2008年5月,第45-48頁。
[19] R. K. Furness,"高傳真身歷聲響複製-概要(Ambisonics-An overview)",於AES第8屆國際學術研討會,1990年4月,第81-189頁。
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller,以及E. A. P. Habets。藉由使用由配置的陣列所蒐集之幾何資訊產生虛擬麥克風信號(Generating virtual microphone signals using geometrical information gathered by distributed arrays)。於免持語音通信和麥克風陣列的第三次聯合研討會(HSCMA’11)英國愛丁堡,2011年5月。
[21] Jürgen Herre, Cornelia Falch, Dirk Mahne, Giovanni Del Galdo, Markus Kallinger,及Oliver Thiergar。結合空間音源對象編碼及DirAC技術之互動線上討論(Interactive teleconferencing combining spatial audio object coding and DirAC technology)。於音源工程協會大會128,5 2010。
[22] G. Del Galdo, F.Kuech, M. Kallinger,及R. Schultz-Amling。利用定向音源編碼之對於空間聲再生之多重音源串流之有效整合(Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding)。在關於語音與信號處理之國際學術研討會(ICASSP 2009),2009年。
[23] US 20110216908:用以整合空間音源串流之設備(Apparatus for Merging Spatial Audio Streams)。
[24] Emmanuel Gallo與Nicolas Tsingos。提取和重新演奏來自現場錄音之結構性聽覺場景(Extracting and re-rendering structured auditory scenes from field recordings)。在AES第30屆之關於智慧型音源環境之國際學術研討會,2007年。
[25] Jeroen Breebart, Jonas Engdegård, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers,以及Leonid Terentiev。空間音源對象編碼(saoc)-針對參數對象式音源編碼之即將來臨的mpeg標準(Spatial audio object coding (saoc) -the upcoming mpeg standard on parametric object based audio coding)。於音源工程協會大會124, 5 2008。
[26] R.Roy及T.Kailath。經由旋轉不變性技術之信號參數之ESPRIT-估計(ESPRIT-estimation of signal parameters via rotational invariance techniques)。IEEE學報之語音及信號處理,37(7):984-995,1989年7月。
[27] Tapio Lokki, Juha Merimaa,以及Ville Pulkki。用以在多聲道聆聽中再生自然或改進的空間感之方法(Method for reproducing natural or modified spatial impression in multichannel listening),2006年。
[28] Svein Berge。用以轉換空間音源信號之裝置及方法(Device and method for converting spatial audio signal)。美國專利申請案號10/547,151。
[29] Ville Pulkki。利用定向音源編碼之空間聲再生(Spatial sound reproduction with directional audio coding)。J.音源工程學會,55(6) :503-516, 2007年6月。
[30] C. Uhle and C. Paul:一種監督學習方法以從單聲道錄製氣氛萃取用以盲目升混,於in Proc. of 11th Int (A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc. of the 11th Int) ,2008年9月1-4日,芬蘭埃斯波之數位音源效果之學術研討會(Conference on Digital Audio Effects (DAFx-08))。
180‧‧‧解多工器
190‧‧‧整合模組
195‧‧‧虛線

Claims (18)

  1. 一種用以產生一整合音源資料流之設備,包含:一解多工器(180),用以獲得複數個單層音源資料流,其中該解多工器(180)係適合於接收一個或多個輸入音源資料流,其中每個輸入音源資料流包含一層或多層,其中該解多工器(180)係適合於將具有一層或多層之各該輸入音源資料流解多工成為正好具有一層之兩個以上的解多工的音源資料流,以使該兩個以上的解多工的音源資料流一起包含該一層或多層之該輸入音源資料流,用以獲得兩個以上的該些單層音源資料流;以及一整合模組(190),用以基於該複數個單層音源資料流來產生具有一層或多層之該整合音源資料流,其中該些單層資料流以及該整合音源資料流之該些解多工的音源資料流之該些輸入資料音源串流之每個層包含一壓力信號之一壓力值、一位置值以及一擴散值以作為音源資料。
  2. 如申請專利範圍第1項所述之設備,其中該解多工器(180)係適合於接收兩個以上的該些輸入音源資料流,且其中該解多工器(180)係適合於將具有兩個以上的層之各該些輸入音源資料流解多工成為正好具有一層之兩個以上的解多工的音源資料流,以使該兩個以上的解多工的音源資料流一起包含該兩層以上的該輸入音源資料流,用以獲得該兩個以上的該些單層音源資料流。
  3. 如申請專利範圍第1項所述之設備,其中該音源資料係為複數個時頻箱之一時頻箱而被界定。
  4. 如申請專利範圍第1項所述之設備, 其中該整合模組(190)包含一成本函數模組(1401),用以將一成本值分配給各該些單層音源資料流,及其中該整合模組(190)係適合於基於分配給該些單層音源資料流之該些成本值來產生該整合音源資料流。
  5. 如申請專利範圍第4項所述之設備,其中該成本函數模組(1401)係適合於依據該單層音源資料流之該些壓力值或該些擴散值之至少一者,來將該成本值分配給各該些單層音源資料流。
  6. 如申請專利範圍第5項所述之設備,其中該成本函數模組(1401)係適合於藉由應用下述該公式來將該成本值分配給該群組之單層音源資料流之每個音源資料流:f i i ,P i )=(1-Ψ i ).|P i |2其中Pi係為該壓力值,而係為該群組之單層音源資料流之該層之一第i個音源資料流之該擴散值。
  7. 如申請專利範圍第4項所述之設備,其中,該整合模組(190)更包含一壓力整合單元(1404),其中,該壓力整合單元(1404)係適合於決定一第一群組以及決定一第二群組,該第一群組包含該複數個單層音源資料流之一個或多個單層音源資料流,而該第二群組包含該複數個單層音源資料流之一個或多個不同的單層音源資料流,其中,該第一群組之各該些單層音源資料流之該成本值係大於該第二群組之各該些單層音源資料流之該成本值,或其中該第一群組之各該些單層音源資料流之該成本值係小於該第二群組之各該些單層音源資料流之該成本值, 其中,該壓力整合單元(1404)係適合於產生該一層或多層之該整合音源資料流之該一個或多個壓力值,以使該第一群組之各該些單層音源資料流之每個壓力值係為該整合音源資料流之該些層之其中一層之一壓力值,且使該第二群組之該些單層音源資料流之該些壓力值之一組合係為該整合音源資料流之該些層之其中一層之一壓力值。
  8. 如申請專利範圍第4項所述之設備,其中,該整合模組(190)更包含一擴散整合單元(1405),其中,該擴散整合單元(1405)係適合於決定一第三群組以及決定一第四群組,該第三群組包含該複數個單層音源資料流之一個或多個單層音源資料流,而該第四群組包含該複數個單層音源資料流之一個或多個不同的單層音源資料流,其中,該第三群組之各該些單層音源資料流之該成本值係大於該第四群組之各該些單層音源資料流之該成本值,或其中該第三群組之各該些單層音源資料流之該成本值係小於該第四群組之各該些單層音源資料流之該成本值,其中,該擴散整合單元(1405)係適合於產生該一層或多層之該整合音源資料流之該一個或多個擴散值,以使該第三群組之各該些單層音源資料流之每個擴散值係為該整合音源資料流之該些層之其中一層之一擴散值,且使該第四群組之該些單層音源資料流之該些擴散值之一組合係為該整合音源資料流之該些層之其中一層之一擴散值。
  9. 如申請專利範圍第3項所述之設備,其中,該整合模組(190)更包含一位置混合單元,其中,該位置混合單元(1403)係適合於決定一第五群組,其包含該複數個單層音源資料流之一個或多個單層音源資料流, 其中,該第五群組之各該些單層音源資料流之該成本值係大於未包含在該複數個單層音源資料流之該第五群組中之任何單層音源資料流之該成本值,或其中該第五群組之各該些單層音源資料流之該成本值係小於未包含在該複數個單層音源資料流之該第五群組中之任何單層音源資料流之該成本值,其中該位置值單元係適合於產生該一層或多層之該整合音源資料流之該一個或多個位置值,以使該第五群組之各該些單層音源資料流之每個位置值係為該整合音源資料流之該些層之其中一層之一位置值。
  10. 如申請專利範圍第3項所述之設備,,其中該整合模組(190)更包含一聲音場景適應模組(1402),用以操控該複數個單層音源資料流之一個或多個之該些單層音源資料流之該位置值。
  11. 如申請專利範圍第10項所述之設備,其中該聲音場景適應模組(1402)係適合於藉由應用一旋轉、一平移或在該位置值上之一非線性轉變,來操控該複數個單層音源資料流之該一個或多個之該些單層音源資料流之該位置值。
  12. 如申請專利範圍第1項所述之設備,其中該解多工器(180)係適合於藉由將該些解多工的音源資料流之其中一個之該些壓力值之其中一個之一大小乘以一純量值,來修改該些解多工的音源資料流之其中一個之該些壓力值之其中一個之大小。
  13. 如申請專利範圍第1項所述之設備,其中該解多工器(180)包含複數個解多工單元(1201),其中各該解多工單元(1201)係被設計成用以解多工該些輸入音源資料流之一個或多個。
  14. 如申請專利範圍第1項所述之設備, 其中,該設備更包含一人工源產生器(1202),用以產生正好包含一層之一人造資料流,其中,該人工源產生器(1202)係適合於接收以一時域表示之壓力資訊,並接收一位置資訊,其中,該人工源產生器(1202)係適合於複製該壓力資訊,用以產生供複數個時頻箱用之位置資訊,且其中,該人工源產生器(1202)更適合於基於該壓力資訊來計算擴散資訊。
  15. 如申請專利範圍第14項所述之設備,其中該人工源產生器(1202)係適合於將以一時域表示之該壓力資訊轉換成一時頻域。
  16. 如申請專利範圍第14項所述之設備,其中該人工源產生器(1202)係適合於增加混響至該壓力資訊。
  17. 一種用以產生一整合音源資料流之方法,包含:獲得複數個單層音源資料流,其中該解多工器係適合於接收一個或多個輸入音源資料流,其中每個輸入音源資料流包含一層或多層,其中該解多工器係適合於將具有一層或多層之各該些輸入音源資料流解多工成為正好具有一層之兩個以上的解多工的音源資料流,以使該兩個以上的解多工的音源資料流一起包含該一層或多層之該輸入音源資料流,用以獲得兩個以上的該些單層音源資料流;以及基於該複數個單層音源資料流,產生具有一層或多層之該整合音源資料流,其中,該些單層資料流以及該整合音源資料流之該些解多工的音源資料流之該些輸入資料音源串流之每個層包含一壓力信號之一壓力 值、一位置值以及一擴散值以作為音源資料,該音源資料係為複數個時頻箱之一時頻箱而被界定。
  18. 一種電腦程式,用以在一電腦或一信號處理器上被執行時執行如申請專利範圍第17項所述之該方法。
TW101145074A 2011-12-02 2012-11-30 整合幾何空間音源編碼串流之設備及方法 TWI555412B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP11191816.5A EP2600343A1 (en) 2011-12-02 2011-12-02 Apparatus and method for merging geometry - based spatial audio coding streams
US13/445,585 US9484038B2 (en) 2011-12-02 2012-04-12 Apparatus and method for merging geometry-based spatial audio coding streams

Publications (2)

Publication Number Publication Date
TW201334580A true TW201334580A (zh) 2013-08-16
TWI555412B TWI555412B (zh) 2016-10-21

Family

ID=45047686

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101145074A TWI555412B (zh) 2011-12-02 2012-11-30 整合幾何空間音源編碼串流之設備及方法

Country Status (18)

Country Link
US (1) US9484038B2 (zh)
EP (2) EP2600343A1 (zh)
JP (1) JP6086923B2 (zh)
KR (1) KR101666730B1 (zh)
CN (1) CN104185869B9 (zh)
AR (1) AR089053A1 (zh)
AU (3) AU2012343819C1 (zh)
BR (1) BR112014013336B1 (zh)
CA (1) CA2857614C (zh)
HK (1) HK1202181A1 (zh)
IN (1) IN2014KN01069A (zh)
MX (1) MX342794B (zh)
MY (1) MY167160A (zh)
RU (1) RU2609102C2 (zh)
SG (1) SG11201402777QA (zh)
TW (1) TWI555412B (zh)
WO (1) WO2013079663A2 (zh)
ZA (1) ZA201404823B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
TWI643487B (zh) * 2016-01-22 2018-12-01 弗勞恩霍夫爾協會 使用訊框控制同步化技術來編碼或解碼多通道信號之裝置及方法
CN110858943A (zh) * 2018-08-24 2020-03-03 纬创资通股份有限公司 收音处理装置及其收音处理方法
TWI692753B (zh) * 2017-07-14 2020-05-01 弗勞恩霍夫爾協會 生成增強的聲場描述的裝置與方法及其計算機程式與記錄媒體、和生成修改的聲場描述的裝置及方法及其計算機程式
US11463834B2 (en) 2017-07-14 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
US11477594B2 (en) 2017-07-14 2022-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended DirAC technique or other techniques

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152524B2 (en) * 2012-07-30 2018-12-11 Spatial Digital Systems, Inc. Wavefront muxing and demuxing for cloud data storage and transport
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
US9407992B2 (en) * 2012-12-14 2016-08-02 Conexant Systems, Inc. Estimation of reverberation decay related applications
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN105432098B (zh) * 2013-07-30 2017-08-29 杜比国际公司 针对任意扬声器布局的音频对象的平移
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
US10042037B2 (en) * 2014-02-20 2018-08-07 Nestwave Sas System and method for estimating time of arrival (TOA)
EP2942981A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
RU2666248C2 (ru) * 2014-05-13 2018-09-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для амплитудного панорамирования с затуханием фронтов
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
EP3254435B1 (en) 2015-02-03 2020-08-26 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
WO2016126819A1 (en) 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
EP3318070B1 (en) 2015-07-02 2024-05-22 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
CN105117111B (zh) * 2015-09-23 2019-11-15 小米科技有限责任公司 虚拟现实交互画面的渲染方法和装置
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
US20170293461A1 (en) * 2016-04-07 2017-10-12 VideoStitch Inc. Graphical placement of immersive audio sources
GB2551780A (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
EP3520437A1 (en) * 2016-09-29 2019-08-07 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
EP3542360A4 (en) * 2016-11-21 2020-04-29 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
GB2566992A (en) 2017-09-29 2019-04-03 Nokia Technologies Oy Recording and rendering spatial audio signals
CN117395593A (zh) 2017-10-04 2024-01-12 弗劳恩霍夫应用研究促进协会 用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序
WO2021018378A1 (en) 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
CN110853657B (zh) 2019-11-18 2022-05-13 北京小米智能科技有限公司 空间划分方法、装置及存储介质
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
US20240064485A1 (en) * 2020-11-30 2024-02-22 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information
CN113708868B (zh) * 2021-08-27 2023-06-27 国网安徽省电力有限公司池州供电公司 一种多拾音设备的调度系统及其调度方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905933A3 (de) * 1997-09-24 2004-03-24 STUDER Professional Audio AG Verfahren und Vorrichtung zum Mischen von Tonsignalen
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
MXPA06000750A (es) * 2003-07-21 2006-03-30 Fraunhofer Ges Forschung Conversion de formato de archivo de audio.
ATE324763T1 (de) * 2003-08-21 2006-05-15 Bernafon Ag Verfahren zur verarbeitung von audiosignalen
US7483519B2 (en) * 2003-12-23 2009-01-27 At&T Intellectual Property I, L.P. Caller controlled systems to suppress system to de-activate 911 indicator
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
CN101151659B (zh) 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 多通道音频编码器、设备、方法及其解码器、设备和方法
KR20070108302A (ko) 2005-10-14 2007-11-09 삼성전자주식회사 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치
DE102005057406A1 (de) * 2005-11-30 2007-06-06 Valenzuela, Carlos Alberto, Dr.-Ing. Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens
EP2022263B1 (en) 2006-05-19 2012-08-01 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
AU2007271532B2 (en) * 2006-07-07 2011-03-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for combining multiple parametrically coded audio sources
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
JP5540492B2 (ja) 2008-10-29 2014-07-02 富士通株式会社 通信装置、効果音出力制御プログラム及び効果音出力制御方法
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US11410664B2 (en) 2016-01-22 2022-08-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10535356B2 (en) 2016-01-22 2020-01-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal using spectral-domain resampling
US10861468B2 (en) 2016-01-22 2020-12-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
US11887609B2 (en) 2016-01-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10424309B2 (en) 2016-01-22 2019-09-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatuses and methods for encoding or decoding a multi-channel signal using frame control synchronization
TWI643487B (zh) * 2016-01-22 2018-12-01 弗勞恩霍夫爾協會 使用訊框控制同步化技術來編碼或解碼多通道信號之裝置及方法
US10706861B2 (en) 2016-01-22 2020-07-07 Fraunhofer-Gesellschaft Zur Foerderung Der Andgewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10854211B2 (en) 2016-01-22 2020-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatuses and methods for encoding or decoding a multi-channel signal using frame control synchronization
US11477594B2 (en) 2017-07-14 2022-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended DirAC technique or other techniques
US11153704B2 (en) 2017-07-14 2021-10-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
TWI692753B (zh) * 2017-07-14 2020-05-01 弗勞恩霍夫爾協會 生成增強的聲場描述的裝置與方法及其計算機程式與記錄媒體、和生成修改的聲場描述的裝置及方法及其計算機程式
US11463834B2 (en) 2017-07-14 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11950085B2 (en) 2017-07-14 2024-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US10873805B2 (en) 2018-08-24 2020-12-22 Wistron Corporation Sound processing apparatus and audio signals processing method thereof based on sound source position
CN110858943A (zh) * 2018-08-24 2020-03-03 纬创资通股份有限公司 收音处理装置及其收音处理方法

Also Published As

Publication number Publication date
KR101666730B1 (ko) 2016-10-14
AU2012343819C1 (en) 2017-11-02
AU2018200613A1 (en) 2018-02-08
CN104185869B9 (zh) 2018-01-12
ZA201404823B (en) 2015-11-25
AU2016202604A1 (en) 2016-05-19
JP6086923B2 (ja) 2017-03-01
MY167160A (en) 2018-08-13
IN2014KN01069A (zh) 2015-10-09
MX342794B (es) 2016-10-12
WO2013079663A3 (en) 2013-10-24
BR112014013336A2 (pt) 2021-01-26
EP2786374B1 (en) 2024-05-01
AU2012343819B2 (en) 2016-05-12
CA2857614A1 (en) 2013-06-06
JP2015502573A (ja) 2015-01-22
CA2857614C (en) 2019-09-24
CN104185869B (zh) 2017-10-17
AU2012343819A1 (en) 2014-07-24
KR20140097555A (ko) 2014-08-06
EP2786374C0 (en) 2024-05-01
AR089053A1 (es) 2014-07-23
BR112014013336B1 (pt) 2021-08-24
CN104185869A (zh) 2014-12-03
WO2013079663A2 (en) 2013-06-06
EP2600343A1 (en) 2013-06-05
TWI555412B (zh) 2016-10-21
SG11201402777QA (en) 2014-06-27
EP2786374A2 (en) 2014-10-08
RU2014126818A (ru) 2016-01-27
US20130142341A1 (en) 2013-06-06
US9484038B2 (en) 2016-11-01
RU2609102C2 (ru) 2017-01-30
HK1202181A1 (zh) 2015-09-18
MX2014006199A (es) 2014-12-08

Similar Documents

Publication Publication Date Title
TWI555412B (zh) 整合幾何空間音源編碼串流之設備及方法
JP5878549B2 (ja) 幾何ベースの空間オーディオ符号化のための装置および方法
JP7564295B2 (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
TWI558228B (zh) 依據空間能量密度定位麥克風之設備及方法
BR112013013678B1 (pt) Aparelho e método para codificação de áudio espacial com base em geometria