TWI523545B - 用以將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的裝置與方法 - Google Patents

用以將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的裝置與方法 Download PDF

Info

Publication number
TWI523545B
TWI523545B TW099143975A TW99143975A TWI523545B TW I523545 B TWI523545 B TW I523545B TW 099143975 A TW099143975 A TW 099143975A TW 99143975 A TW99143975 A TW 99143975A TW I523545 B TWI523545 B TW I523545B
Authority
TW
Taiwan
Prior art keywords
parameter
spatial audio
audio signal
orientation
listening position
Prior art date
Application number
TW099143975A
Other languages
English (en)
Other versions
TW201146026A (en
Inventor
亞默林 理查 休茲
法比恩 庫奇
馬可斯 卡林格
紀凡尼 戴加多
奧利薇 錫蓋特
德克 馬恩
亞琴 昆茲
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201146026A publication Critical patent/TW201146026A/zh
Application granted granted Critical
Publication of TWI523545B publication Critical patent/TWI523545B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Description

用以將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的裝置與方法 發明領域
本發明有關於音訊處理領域,特別是有關於參數式空間音訊處理及關於將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的領域。
發明背景
空間錄音旨在利用多個麥克風來擷取一聲場,使得聽眾在重現端感知到聲像,如同聲場在記錄位置呈現的那般。用於空間錄音的標準方法使用簡單的立體聲麥克風或較複雜的定向麥克風組合,舉例而言,諸如用在高傳真身歷聲響複製(Ambisonics)中且記載在M.A. Gerzon於1973年發表的“J. Aud. Eng. Soc”第21卷第1期第2-10頁上之“Periphony: Width-Height Sound Reproduction”上的B格式麥克風之類,該等方法在下文中稱為[Ambisonics]。通常,這些方法被稱為重合一致麥克風(coincident-microphone)技術。
可選擇的是,基於聲場之一參數式表示的方法可被應用,該等方法也稱為參數式空間音訊編碼器。這些方法確定與空間聲音的感知相關的一下降混合音訊信號連同對應的空間旁側資訊。範例為定向音訊編碼(DirAC),如Pulkki,V.於2006年6月30日-7月2日在瑞典皮特奧出版的“Proceedings of The AES 28th International Conference”第251-258頁上之“Directional audio coding in spatial sound reproduction and stereo upmixing”中所討論者,其在下文中被稱為[DirAC],或由Faller,C於2008年10月在舊金山出版的“Proceedings of the AES 125th International Convention”中之“Microphone Front-Ends for Spatial Audio Coders”中提出的所謂的空間音訊麥克風(SAM)方法,該方法在下文中被稱為[SAM]。空間線索資訊基本上由聲音之到達方向(DOA)及頻率子頻帶中的聲場之漫射性組成。在一合成階段中,用於重現的期望揚聲器信號是基於下降混合信號及參數式旁側資訊而確定的。
換言之,下降混合信號及對應的空間旁側資訊代表依據例如麥克風關於音訊場景被記錄下來時所使用的不同音訊源之方位及/或位置的麥克風之設置的音訊場景。
本發明之目的在於提供對已記錄的音訊場景之靈活修改的一構想。
發明概要
此目的由如申請專利範圍第1項所述之裝置、如申請專利範圍第17項所述之方法及如申請專利範圍第18項所述之電腦程式來解決。
所有上述方法的共同之處在於,它們旨在在一重現端渲染聲場,如同其在記錄位置被感知到的那般。記錄位置,即麥克風之位置,也可被稱為參考收聽位置。修改已記錄的音訊場景不在這些已知的空間聲音擷取方法中做展望。
另一方面,視覺影像的修改常被應用,例如,在視訊擷取背景下。例如,一光學變焦用在視訊攝影機中來改變攝影機之虛擬位置,給出影像是從不同視角拍攝的印象。這由攝影機位置的轉換來描述。另一簡單的圖像修改為攝影機繞其自身所在軸的水平或垂直旋轉。垂直旋轉也被稱為左右轉動(panning)或上下轉動(tilting)。
本發明實施例提供也允許依據視覺移動來虛擬地改變收聽位置及/或方位的一裝置及方法。換言之,本發明允許改變聽眾在重現期間所感知的聲像使得其對應於使用被置於麥克風之一虛擬位置及/或方位而非實際的實體位置處的一麥克風組態所獲得的記錄。這樣,已記錄的聲像可與對應的已修改視訊影像一致。例如,對一影像中某一區域視訊變焦的效果可以一致的方式被應用於已記錄的空間音訊影像。依據本發明,這藉由適當地修改空間音訊編碼器之參數域中的空間線索參數及/或下降混合信號而得以實現。
本發明實施例允許靈活地改變一特定空間音訊場景內的一聽眾之位置及/或方位而毋需利用一不同的麥克風設定,例如關於音訊信號源的記錄麥克風設置之一不同位置及/或方位,來記錄該空間音訊場景。換言之,本發明實施例允許定義不同於空間音訊場景被記錄下來時的記錄位置或收聽位置的一虛擬收聽位置及/或虛擬收聽方位。
本發明之某些實施例僅使用一或若干個下降混合信號及/或空間旁側資訊,例如到達方向及漫射性,以修改下降混合信號及/或空間旁側資訊來反映改變的收聽位置及/或方位。換言之,此類實施例不需要任何其他設置資訊,例如不同音訊源關於原始記錄位置的幾何資訊。
本發明實施例進一步接收依據某一空間音訊格式的參數式空間音訊信號,例如,到達方向及漫射性作為空間旁側資訊的單聲道或立體聲下降混合信號,且依據例如變焦或旋轉控制信號之控制信號來轉換此資料,且輸出同一空間音訊格式的已修改或已轉換資料,即具有相關聯的到達方向及漫射性參數的單聲道或立體聲下降混合信號。
在一特定實施例中,本發明實施例耦接至一視訊攝影機或其他視訊源,且依據由視訊攝影機提供的變焦控制或旋轉控制信號將接收到的或原始空間音訊資料修改成已修改的空間音訊資料,以使例如音訊體驗與視訊體驗同步,且舉例而言,假如一視訊變焦被執行則執行一聲音縮放及/或假如視訊攝影機被旋轉且麥克風因未安裝在攝影機上而未隨攝影機實體旋轉則在音訊場景內執行一音訊旋轉。
圖式簡單說明
本發明實施例將使用以下諸圖被詳細描述。
第1圖繪示一參數式空間音訊編碼器之一方塊圖;第2圖繪示第1圖之空間音訊編碼器連同耦接在該空間音訊編碼器之空間音訊分析單元與空間音訊合成單元之間的空間參數修改區塊之一實施例;第3A圖對應於第2圖且繪示空間參數修改區塊之一較詳細的實施例;第3B圖對應於第2圖且繪示空間參數修改區塊之另一較詳細的實施例;第4圖繪示一聲音縮放之一示範性幾何概觀;第5A圖繪示用於到達方向(DOA)映射的一定向映射函數fp (k,n,φ,d)之一範例;第5B圖繪示用於漫射性映射的一漫射性映射函數fd (k,n,φ,d)之一範例;第6圖繪示依一變焦因數而定的直達聲分量之加權濾波器H 1 (k,n,φ,d)的不同增益視窗;以及第7圖繪示漫射分量的加權濾波器H 2 (k,n,φ,d)的一示範性準心形視窗。
相同的或等效的元件或具有相同或等效功能的元件在以下諸圖說明中由相同的或等效的參考數字來表示。
發明詳細說明
為了更好地理解本發明實施例,一典型的空間音訊編碼器被加以描述。一典型的參數式空間音訊編碼器之任務是重現在被記錄點處出現的空間印象。因此,一空間音訊編碼器由一分析部分100與一合成部分200組成,如第1圖中所示。在聲音前端,N個麥克風102被配置以獲得N個麥克風輸入信號,該等麥克風輸入信號由空間音訊分析單元100處理以產生L個下降混合信號112(L N)連同空間旁側資訊114。在解碼器中,即在空間音訊合成單元中,下降混合信號112及空間旁側資訊114用以運算M個揚聲器202的M個揚聲器通道,它們以原始空間印象重現已記錄聲場。粗線(麥克風102與空間音訊分析單元100之間的線,L個下降混合信號112及空間音訊合成單元200與M個揚聲器202之間的M條信號線)象徵音訊資料,而空間音訊分析單元100與空間音訊合成單元200之間的細線代表空間旁側資訊。
在下文中,包括在空間參數運算中的基本步驟,或換言之,用於由空間音訊分析單元100所執行的空間音訊分析的基本步驟,將更詳細地描述。麥克風信號以適合的時間/頻率表示法來處理,例如,係藉由應用一短時傅立葉轉換(STFT)或任一其他濾波器組來處理。在分析階段中確定的空間旁側資訊包含對應於聲音之到達方向(DOA)的一量測值及對應於聲場之漫射性的一量測值,空間旁側資訊描述被分析聲場之直達聲與漫聲之間的關係。
在DirAC中,已提出將聲音之DOA確定為主動強度向量的相反方向。相關的聲音資訊得自於一所謂的B格式麥克風輸入,該B格式麥克風輸入對應於由與笛卡爾座標系統的軸對齊並提供一雙極拾音型樣的麥克風組態所獲得的聲壓及速度。換言之,B格式由四個信號即w(t)、x(t)、y(t)及z(t)組成。第一信號對應於由一全向麥克風所量測的壓力,而後面的三個信號為具有針對一笛卡爾座標系統之三個軸的8字形拾音型樣的麥克風信號。信號w(t)、x(t)、y(t)及z(t)與分別指向X、y及z的粒子速度向量之分量成比例。可選擇的是,體現在SAM中的方法使用立體聲麥克風之定向型樣之先驗知識來確定聲音之DOA。
漫射性量測值可藉由如在DirAC中提出使主動的聲音強度與聲場之總能量相關而獲得。可選擇的是,SAM中所描述的方法提議評估不同麥克風信號之間的相干性。應指出的是,漫射性也可被視為針對已估計DOA的一總可靠性量測值。不失一般性,在下文中假定漫射性在[1,0]範圍內,其中值1指示一純漫聲聲場,且值0對應於僅直達聲存在的情況。在其他實施例中,針對漫射性的其他範圍及值也可被使用。
附隨有旁側資訊114的下降混合信號112由麥克風輸入信號被運算出來。其可以是單聲道信號或包括多個音訊通道。對DirAC而言,通常僅考量一單聲道信號,該單聲道信號對應於由全向麥克風所獲得的聲壓。對SAM方法而言,一雙通道立體聲信號被用作下降混合信號。
在下文中,由空間音訊合成單元200執行的合成用於重現的揚聲器信號被進一步詳細描述。合成200之輸入為以時域表示的下降混合信號112及空間參數114。M個揚聲器通道由此資料被計算出來,使得空間音訊影像或空間音訊印象被正確重現。在時間/頻率表示法中,令Y i (k,n)表示第i個實體揚聲器通道之信號,其中i=1...Mkn分別為時間指數與頻率指數。用於合成的基本信號模型由下式給出:
Y i (k,n)=g i (k,n)S(k,n)+Di{N(k,n)}, (1)
其中S(k,n)對應於直達聲分量且N(k,n)代表漫聲分量。注意,對漫聲的正確重現而言,一去相關運算D i {}應用於每一揚聲器通道之漫射分量。比例調整因數g i (k,n)依包括在旁側資訊中的直達聲之DOA及用於播放的揚聲器組態而定。一適合的選擇由Pulkki,V.於1997年6月發表在“J. Audio Eng. Soc.”第45卷第456-466頁上之“Virtual sound source positioning using vector base amplitude panning”中提出的向量基振幅平移方法給出,該方法在下文中稱為[VBAP]。
在DirAC中,直達聲分量藉由適當的按比例調整單聲道下降混合信號W(k,n)來確定,且依據下式得出:
漫聲分量依據下式得出:
其中M為所使用的揚聲器之數目。
在SAM中,與(1)中信號模型相同的信號模型被應用,然而,直達聲分量及漫聲分量卻是基於立體聲下降混合信號而運算出來。
第2圖繪示整合於第1圖之示範性環境中即整合於一空間分析單元100與一空間音訊合成單元200之間的本發明之一實施例之一方塊圖。根據基於第1圖的說明,原始的音訊場景以指定相對於不同音訊聲源的位置及方位(就定向麥克風而言)的麥克風之一特定的記錄設置被記錄。N個麥克風提供N個實體麥克風信號或通道信號,該等信號由空間音訊分析單元100處理以產生一或若干個下降混合信號W 112及空間旁側資訊114,例如到達方向(DOA)φ 114a及漫射性Ψ 114b。對照於第1圖,這些空間音訊信號112、114a、114b不直接提供給空間音訊合成單元200,而是由用以將代表一空間音訊場景中的第一收聽位置及/或第一收聽方位(在此範例中為記錄位置及記錄方位)的第一參數式空間音訊信號112、114a、114b轉換或修改成代表不同於該第一收聽位置及/或第一收聽方位的第二收聽位置及/或第二收聽方位的第二參數式空間音訊信號212、214a、214b,即已修改下降混合信號Wmod 212、已修改到達方向信號φmod 214a及/或已修改漫射性信號Ψmod 214b的一裝置來修改。已修改到達方向214a及已修改漫射性214b也被稱為已修改空間音訊資訊214。裝置300也稱為空間音訊信號修改單元或空間音訊信號修改區塊300。第3A圖中之裝置300適於依據由例如一外部控制單元400所提供的一控制信號d 402來修改第一參數式空間音訊信號112、114。控制信號402可以是例如定義或作為一變焦因數d或一變焦參數d的一變焦控制信號,或是由一視訊攝影機之一變焦控制及/或一旋轉控制單元400所提供的一旋轉控制信號402。應指出的是,某一方向上的變焦及同一方向上的轉換僅為描述該方向上一虛擬移動的兩種不同方式(變焦藉由一變焦因數完成,轉換藉由一絕對距離或藉由相對於一參考距離的一相對距離完成)。因此,此處關於一變焦控制信號的說明對應地適用於轉換控制信號且反之亦然,且變焦控制信號402也指一轉換控制信號。d項一方面可代表控制信號402本身,且另一方面代表包含在控制信號中的控制資訊或參數。在其他實施例中,控制參數d代表控制信號402。控制參數或控制資訊d可以是距離、變焦因數及/或旋轉角度及/或旋轉方向。
從第2圖可以看出,裝置300適於提供與其接收的參數式空間音訊信號112、114格式相同的參數式空間音訊信號212、214(下降混合信號及伴隨的旁側資訊/參數)。因此,空間音訊合成單元200能夠以與原始或已記錄空間音訊信號112、114相同的方式來處理(並不修改)已修改空間音訊信號212、214且將它們轉換成M個實體揚聲器信號204以產生對已修改空間音訊場景的聲音體驗,或換言之,對未改變的空間音訊場景內的已修改收聽位置及/或已修改收聽方位的聲音體驗。
換言之,新穎的裝置或方法之一實施例之一方塊示意圖繪示於第2圖中。可以看出,空間音訊編碼器100之輸出112、114基於外部控制資訊402而被修改以獲得對應於收聽位置的一空間音訊表示212、214,該空間音訊表示212、214不同於在用於聲音擷取的原始位置使用的空間音訊表示。更確切地來說,下降混合信號112與空間旁側資訊114二者均適當地改變。修改策略由一外部控制器400來決定,其可直接從一攝影機400或從提供有關攝影機之實際位置或變焦的資訊的任何其他使用者介面400獲得。在此實施例中,演算法具體而言修改單元300的任務是以與光學變焦或攝影機旋轉改變觀看者視角相同的方式來改變聲音場景之空間印象。換言之,修改單元300適於提供對應於視訊變焦或視訊旋轉的一對應的聲音縮放或音訊旋轉體驗。
第3A圖繪示被稱為「聲音縮放單元」的裝置300之一實施例之一方塊圖或系統概觀。第3A圖中的裝置300之實施例包含一參數修改單元301及一下降混合修改單元302。參數修改單元301進一步包含一到達方向修改單元301a及一漫射性修改單元301b。參數修改單元301適於接收到達方向參數114a並依據控制信號d 402來修改第一或接收到的到達方向參數114a以獲得已修改或第二到達方向參數214a。參數修改單元301進一步適於接收第一或原始漫射性參數114b並依據控制信號402藉由漫射性修改單元301b來修改漫射性參數114b以獲得第二或已修改漫射性參數214b。下降混合修改單元302適於接收一或更多個下降混合信號112並依據第一或原始到達方向參數114a、第一或原始漫射性參數114b及/或控制信號402來修改第一或原始下降混合信號112以獲得第二或已修改下降混合信號212。
若攝影機獨立於麥克風102而被控制,則本發明實施例提供依據攝影機控制402而使音訊場景或音訊感知之變化同步的可能性。此外,若攝影機400僅水平旋轉而不變焦即僅應用一旋轉控制信號而不應用變焦控制信號402,則也可在不修改下降混合信號112的情況下使方向改變。這在第2及3圖中由「旋轉控制因子」來描述。
旋轉修改在有關定向重映射或方向重映射的段落中更詳細地描述。有關漫射性及下降混合修改的段落與轉換或變焦應用相關。
本發明實施例可適於執行一旋轉修改及一轉換或變焦修改二者,例如藉由首先執行旋轉修改且之後執行轉換或變焦修改或反之亦然,或藉由提供對應的定向映射函數而同時執行此兩修改。
為了實現聲音縮放效果,收聽位置虛擬地改變,這藉由適當地重映射被分析方向來完成。為了得到已修改聲音場景之正確的總體印象,下降混合信號由依重映射方向而定的一濾波器處理。此濾波器隨著例如現在較近的聲音等級增大同時來自非關注區域的聲音可能衰減而改變增益。而且,漫射性以同一假定隨著例如似乎更接近新收聽位置的聲音必定在與之前相比漫射性減小的情況下被重現而比例調整。
在下文中,給出由裝置300執行的演算法或方法之較詳細的說明。聲音縮放單元之概觀在第3A圖中給出。首先,方向之重映射被描述(區塊301a,fp(k,n,φ,d)),接著,用於漫射性修改的濾波器(區塊301b,fd(k,n,φ,d)被繪示出來。區塊302描述下降混合修改,其依變焦控制及原始空間參數而定。
在以下段落中描述方向之重映射,具體而言例如由方向修改區塊301a所執行的到達方向參數之重映射。
到達方向參數(DOA參數)例如可由一單位向量 e 來表示。對或一三維(3D)聲場分析而言,該向量可由下式來表示:
其中方位角φ對應於二維(2D)平面即水平面中的DOA。仰角由θ給定。此向量將依據麥克風之新的虛擬位置而改變,如接下來所描述者。
不失一般性,為了簡化表示(第4圖),對二維情況而言,給出DOA重映射之一範例。三維DOA之一對應的重映射可用類似考慮進行。
第4圖繪示聲音縮放之一示範性幾何概觀之一幾何概觀。位置S標記原始麥克風記錄位置,即原始收聽位置。A與B標記觀測到的2維平面內之空間位置。現在假定收聽位置從S移動到S2,例如,在第一收聽方位所在方向上。從第4圖中可以看出,自空間位置A產生的聲音相對於記錄位置維持在相同角度位置,而來自區域或空間位置B的聲音移動到側面。這由被分析角度α變化到β來表示。因此,β表示聽眾位於S2的情況下來自角度位置B的聲音之到達方向。對所考量範例而言,方位角從α增大到β,如第4圖中所示。到達方向資訊之此重映射可依據下式而被寫成一向量轉換:
e mod=f(e), (5)
其中f()表示一重映射函數且e mod為已修改方向向量。此函數為依變焦因數d及原始估計DOA而定的一非線性轉換。第5A圖繪示關於可應用在第4圖中所示之二維範例中的不同α值之映射f()的範例。對變焦控制因數d=1即未應用變焦而言,角度等於原始DOAα。對增大變焦控制因數而言,β值也增大。函數可由幾何考量角度而推導出,或可選擇地,被啟髮式選出。因此,方向之重映射意指每一DOA依據函數f()而被修改。映射fp(k,n,φ,d)針對每一時刻及頻率槽(k,n)而被執行。
雖然在第4圖中,變焦參數d被描繪為原始收聽位置S與已修改收聽位置S2之間的一轉換距離d,如前文所述,d也可以是一因數,例如光學變焦,類似於4倍或8倍變焦。特別是對寬度或濾波器控制而言,將d視為一因數而不是距離容許簡易實施聲音縮放。換言之,在此情況下變焦參數d為一實際距離或至少與一距離成比例。
應進一步指出的是本發明實施例也可適於支援,除了如上文所述的例如減小與一物件的距離(例如,藉由從位置S移動到位置S2來減小與第4圖中之物件A的距離)的「放大(zoom in)」外,還支援例如增大與一物件的距離(例如藉由從位置S2移動到位置S來增大與第4圖中之物件A的距離)的「縮小(zoom out)」。在此情況下,因為當聽眾移動到位置S時位於聽眾一側的物件(例如,對於位置S2的物件B)移動到聽眾前面,故與所描述之放大相比,反向思考也適用。換言之,角度的量值減小(例如,從β到α)。
方向之重映射或向量轉換由到達方向修改單元301a來執行。第5A圖繪示針對第4圖中所示之場景的到達方向的一示範性映射函數(依變焦因數d而定)。第5A圖之圖表繪示x軸上從1變化到2的變焦因數及y軸上的已修改或映射角β。對一變焦因數1而言,β=α,即初始角未經修改。參考符號512指α=10°的映射函數fp,參考符號514代表α=30°的映射函數fp,參考符號516指α=50°的映射函數fp(k,n,φ,d),參考符號518指α=70°的映射函數fp(k,n,φ,d),且參考符號520指α=90°的映射函數fp(k,n,φ,d)。
本發明實施例可適於對由k及n所定義的所有時間值及頻率槽值使用相同的映射函數fp,或可針對不同的時間值及/或頻率槽使用不同的映射函數。
由以上說明可清楚理解的是,濾波器fd背後的觀點係改變漫射性Ψ使其在放大方向上減小(φ<|γ|)且在失焦方向上增大(φ>|γ|)。
為了簡化映射角β的確定,修改單元301a之某些實施例適於僅使用方向並假定定義聲音之到達方向的所有聲源,例如A與B,具有到與例如被配置在一單位半徑上的第一收聽位置相同的距離。
若考量僅重現來自正面方向之聲音的一揚聲器設置,例如典型的立體聲揚聲器設置,則映射函數f()可被設計成使得DOA被重映射的最大角度是有限的。例如,當揚聲器被定位在±60°時,選擇最大角度±60°。以此方式,整個聲音場景將維持在前面且僅當應用變焦時才變寬。
就攝影機旋轉而言,原始方位角的值僅改變成使得新的觀看方向對應於一角度零。因此,攝影機水平旋轉20°將導致β=α-20°。而且,對此特殊情況而言,除非旋轉與轉換同時實施,否則下降混合及漫射性不改變。
從上述說明可以看出,旋轉變化或差始於由定義第一參考方位或0°方位的第一收聽方位具體而言第一觀測方位(例如,聽眾具體而言觀測者之「鼻子」的方向)而推導出。當收聽方位改變時,參考方位或0°方位相應地改變。因此,本發明實施例依據新的參考方位或0°方位來改變聲音之原始角或到達方向即第一定向參數,使得第二定向參數代表音訊場景中的同一「到達方向」,然而,這是相對於新的參考方位或座標系統而言。類似的考慮適用於轉換,具體而言變焦,其中感知到的到達方向變化係由第一收聽方位所在方向上的轉換或變焦所致(參見第4圖)。
第一定向參數114a與第二定向參數214a可以是二維或三維向量。除此之外,第一定向參數114a還可以是一向量,其中控制信號402為定義一旋轉角(例如上述範例中的20°)及一旋轉方向(上述二維範例中向右)的一旋轉控制信號,且其中參數修改單元301、301a適於使該向量在旋轉方向的一反方向上旋轉該旋轉角度(上述範例中的β=α-20°)來獲得第二定向參數,即第二或已修改向量214a。
在以下段落中,例如由漫射性修改單元301b所執行的漫射性比例調整被更加詳細地描述。
漫射性利用一DOA相依視窗而被按比例調整。在某些實施例中,在放大方向上的漫射性Ψ(k,n)的值減小,而在非關注方向上的漫射性值增大。這對應於當聲源的位置離收聽位置較近時感知到聲源漫射性減小的觀測。因此,例如,對一最小變焦因數(例如d=1)而言,漫射性未經修改。攝影機影像所覆蓋的視覺角度的範圍可被視為用於比例調整的一控制因子,漫射性值據此增大或減小。
「放大方向」或「關注方向」二詞指一被關注的角度視窗,也稱為排列在第一或原始收聽方向例如原始0°參考方向周圍的角度之中央範圍。角度視窗或中央範圍由定義角度視窗之邊界的角度值γ來確定。該角度視窗及其寬度可由負邊界角-γ與正邊界角γ來定義,其中負邊界角的幅值可能不同於正邊界角。在較佳實施例中,負邊界角與正邊界角具有同一幅值(以第一收聽方位為中心的對稱視窗或角度之中央範圍)。邊界角的幅值也稱為角寬且視窗寬度(從負邊界角到正邊界角)也稱為總角寬。
依據本發明實施例,到達方向參數、漫射性參數及/或直達或漫射分量可依據原始到達方向參數是否在關注視窗之內,例如相對於第一收聽位置的DOA角或DOA角之量值是否小於邊界角或角寬γ之幅值,或原始到達方向參數是否在關注視窗之外,例如相對於第一收聽位置的DOA角或DOA角之量值是否大於邊界角或角寬γ之幅值而做區別修改。這也稱為方向相依且對應的濾波函數被稱為方向相依濾波函數,其中角寬或邊界角γ定義對應的濾波器從使參數增大到使參數減小的變化的角度或反之亦然的角度。
返回參照漫射性修改單元301b,其適於藉由依時間/頻率指數k,n、原始到達方向φ及變焦控制因子d而定的函數fd(k,n,φ,d)或fd來修改漫射性Ψ。第5B圖繪示一濾波函數fd之一實施例。濾波器fd可被實施為稍後將說明之濾波函數H1的反轉換,然而,其適於匹配漫射性範圍,例如[0..1]之間的範圍。第5B圖繪示映射函數或濾波器fd,其中x軸代表範圍從0到1的原始或第一漫射性Ψ,在第5B圖中也稱為Ψin,且y軸代表第二或已修改漫射性Ψmod,範圍也為從0到1。假如未應用變焦(d=0),則濾波器fd完全不改變漫射性且相對地被設置成旁路,即Ψmodin。參考符號552描繪旁路線。
若原始到達方向在角寬γ之內,則漫射性減小。若原始到達方向在角寬γ之外,則漫射性增大。第5B圖繪示依觀看寬度或角寬γ而定的某些原型函數fd,即562、564、572及574。在第5B圖中所示之範例中,γ2的角寬小於γ1的角寬,即γ21。因此,相較於γ1,γ2對應於一較大的變焦因數d。
旁路線552下方的區域界定原始到達方向φ在角寬γ之內時的已修改漫射性值Ψmod,這由在濾波器fd映射之後已修改漫射性值Ψmod相較於原始漫射性值Ψin或Ψ減小反映出來。旁路線552上方的區域代表,原始到達方向φ在該視窗之外時,原始漫射性Ψ到已修改漫射性值Ψmod之映射。換言之,旁路線552上方的區域繪示映射之後漫射性增大。在較佳實施例中,角寬γ隨著一變焦因數d的增大而減小。換言之,變焦因數d越大,角寬γ越小。除此之外,實施例可被修改成使得變焦因數d或轉換資訊不僅影響濾波函數fd之角寬γ而且,假如原始到達方向φ在視窗之內則影響漫射性增大的程度或因數,及假如原始到達方向φ在由角寬γ定義的視窗之外則影響漫射性Ψ減小之程度或因數。此實施例繪示於第5B圖中,其中角寬γ1對應於一變焦因數d1,且角寬γ2對應於一變焦因數d2,其中d2大於d1,且因此角寬γ2小於γ1。除此之外,相較於由562所表示的對應於較小變焦因數d1的濾波函數fd,由參考符號564所表示且對應於較大變焦因數d2的函數fd將原始的漫射性值Ψin映射到較小的已修改漫射性值Ψmod。換言之,濾波函數之實施例可在角寬γ越小時越適於減小原始漫射性。以一相反方式,相應內容適用於旁路線552上方的區域。換言之,濾波函數fd之實施例可適於依據變焦因數d及角寬γ將原始漫射性Ψin映射到已修改的漫射性Ψmod,或對在視窗之外的到達方向φ而言,變焦因數d越大,角寬γ越小及/或漫射性增加越多。
在其他實施例中,相同的方向相依視窗或濾波函數fd(k,n,φ,d)應用於所有變焦因數。然而,使用具有針對較大的轉換或變焦因數的較小角寬的不同的方向相依視窗或濾波函數與使用者之音訊體驗更加匹配,且提供一更真實的音訊感知。對不同變焦因數應用不同映射值(對於到達方向值φ在視窗之內而言,漫射性隨著變焦因數的增大而減小得越多,及假如到達方向值φ在角寬γ之外,則對於變焦因數增大,漫射性值增加或變大)更進一步改善實際的音訊感知。
在下文中,例如由下降混合修改單元302所執行的下降混合修改之實施例被更加詳細地描述。
用於下降混合信號的濾波器用以修改輸出信號之直達及漫射部分的增益。因而,作為空間音訊編碼器構想之一直接結果,揚聲器信號被予以修改。放大區域的聲音被放大,而來自非關注方向的聲音可能衰減。
由於下降混合信號112可以是定向音訊編碼(DirAC)或空間音訊麥克風(SAM)的一單聲道或一立體聲信號,故在下文中,兩個不同的修改實施例被加以描述。
首先,用於一單聲道下降混合修改的一實施例即用以修改一單聲道下降混合音訊信號W 112的一實施例被加以描述。對以下考慮,引入與依據(1)已應用於揚聲器信號合成的信號類似的單聲道下降混合信號W(k,n)之一信號模型是有益的:
W(k,n)=S(k,n)+N(k,n) (6)
此處,S(k,n)表示下降混合信號之直達聲分量,N(k,n)表示原始下降混合信號中的漫聲分量,且k表示信號表示的時間指數或時刻且n代表信號在特定時刻k之一頻率槽或頻率通道。
W mod (k,n)表示已修改單聲道下降混合信號。藉由依據下式來處理原始下降混合信號得出:
W mod(k,n)=H 1(k,n,φ,d)S(k,n)+H 2(k,n,φ,d)N(k,n) (7)
其中H1(k,n,φ,d)與H2(k,n,φ,d)代表應用於信號模型之直達分量及擴散分量的濾波器,φ代表原始到達方向且d代表變焦因數或變焦參數。直達聲分量112a與漫聲分量112b可類似於(2)、(3)而被運算出來,即藉由下式:
N(k,n)=W(k,n)‧運算出來。
此二濾波器均為方向相依加權函數。例如,一麥克風之一心形拾音型樣可被視為此類加權函數的一設計準則。
濾波器H 1 (k,n,φ,d)可被實施為一上升餘弦視窗使得放大區域所在方向上的直達聲被放大,而來自其他方向的聲音位準衰減。總的說來,不同視窗形狀可分別應用於直達聲分量及漫聲分量。
由該等視窗實施的增益濾波器可由實際的轉換或變焦控制因數d來控制。例如,該變焦控制聚焦方向上的相等增益之寬度及總增益寬度。不同的增益窗之範例在第6圖中給出。
第6圖繪示加權濾波器H 1 (k,n,φ,d)的不同的增益視窗。四種不同的增益原型被繪示出來:
1. 實線:未應用變焦,所有方向上的增益均為0 dB(參見612)。
2. 虛線:變焦因數1.3被應用,最大增益的視窗寬度為210°且最大增益為2.3dB(參見614)。
3. 點線:變焦因數2.1被應用,最大增益的視窗寬度降至140°且最大增益為3dB,最小增益為-2.5dB(參見616)。
4. 點劃線:變焦因數為2.8,最大增益的視窗寬度為30°且增益被限制,最大值為+3 dB且最小值為-6 dB(參見618)。
從第6圖中可以看出,在第6圖中用0°表示的第一收聽方位形成不同變焦因數相依方向相依視窗之中心,其中方向相依視窗之預定的中央範圍或寬度越小,變焦因數越大。中央範圍或視窗之邊界由增益為0 dB的角度γ來界定。第6圖繪示具有幅值相同的正邊界與負邊界的對稱視窗。
視窗614具有在最大增益的寬度210°及寬度為260°的一預定中央區域,其中邊界+/-γ2在+/-130°處,其中預定中央區域中或預定中央區域內的直達分量增大而預定中央區域之外的直達分量維持未經修正(增益=0dB)。
視窗616具有在最大增益之寬度140°及寬度為180°的一預定中央區域,其中邊界或角寬+/-γ3在+/-90°處,其中預定中央區域中或預定中央區域內的直達分量增大而預定中央區域之外的直達分量減小(負增益降至-2.5dB)。
視窗618具有在最大增益之寬度30°及寬度為60°的一預定中央區域,其中邊界或角寬+/-γ4在+/-30°處,其中預定中央區域中或預定中央區域內的直達分量增大且預定中央區域之外的直達分量減小(負增益降至-6dB)。
在某些實施例中,變焦因數d控制寬度即負邊界與正邊界及總寬度,及原型視窗之增益。因此,該視窗可能已經被設計成使得寬度及增益被正確地應用於原始到達方向φ。
最大增益應該受到限制,以避免輸出信號失真。此處所示之視窗的寬度或精確形狀應被視為變焦因數如何控制一增益視窗之各種不同層面之一說明性範例。其他實施也可用在不同實施例中。
濾波器H 2(k,n,φ,d)用來以類似於漫射性量測值Ψ(k,n)被修改的方式來修改下降混合信號之漫射部分112a且可被實施為第7圖中所示之一準心形視窗。藉由應用此類視窗,來自非關注方向的漫射部分略微衰減,但是放大方向維持不變或近乎不變。第7圖繪示一準心形視窗702,其維持漫射分量在原始到達方向φ之-30°與+30°之間的區域中幾乎不變,且使漫射分量衰減,原始到達方向φ的偏離,即背離0°方位的角度,越大,漫射分量衰減越多。換言之,對放大區域而言,下降混合信號中的漫射信號分量維持不變。這將導致變焦方向上一更直接的聲音重現。由於麥克風已被虛擬地放置在更遠處,來自所有其他方向的聲音呈現出更加漫射。因此,相較於原始下降混合信號之漫射部分,這些漫射部分將衰減。顯然,使用先前描述的上升餘弦視窗,所期望的增益濾波器也可被設計出來。然而,注意,比例調整較直達聲修改的情況將不是那麼明顯。在其他實施例中,該等視窗可能依變焦因數而定,其中視窗函數702之斜率越大,變焦因數越大。
在下文中描述一立體聲下降混合修改之一實施例,即一立體聲下降混合信號W之修改。
在下文中描述在假如SAM方法所需要的一立體聲下降混合的情況中,必須如何執行下降混合修改。對原始立體聲下降混合信號而言,一雙通道信號模型類似於單聲道情況(6)被引入:
W 1(k,n)=S(k,n)+N 1(k,n) (8)
W 2(k,n)=cS(k,n)+N 2(k,n) (9)
同樣,信號S(k,n)代表直達聲,而N i 表示第i個麥克風的漫聲。類似於(2)、(3),直達聲分量與漫聲分量可由下降混合通道基於漫射性量測來確定。增益因數c對應於不同立體聲通道中的直達聲分量之一不同的比例調整,其由與兩個下降混合通道相關聯的不同的方向型樣引起。關於比例調整因數與直達聲之DOA之關係的更多細節可在SAM中找到。由於此比例調整依觀測到的聲場之聲音之DOA而定,故其值必須依據起因於已修改虛擬記錄位置的DOA重映射來修改。
對應於新的虛擬麥克風位置的已修改立體聲下降混合信號可被寫成:
W 1,mod(k,n)=G 11(k,n,φ,d)S(k,n)+G 12(k,n,φ,d)N 1(k,n) (10)
W 2,mod(k,n)=G 21(k,n,φ,d)c mod S(k,n)+G 22(k,n,φ,d)N 2(k,n) (11)
增益濾波器G ij (k,n,φ,d)之運算依據針對單聲道下降混合情況而討論的對應增益濾波器H i (k,n,φ,d)而執行。新的立體聲比例調整因數c mod被確定為已修改DOA的函數使其對應於新的虛擬記錄位置。
返回參照第2及3A圖,本發明實施例提供一裝置300,裝置300用以將代表一空間音訊場景中的第一收聽位置或第一收聽方位的第一參數式空間音訊信號112、114轉換成代表第二收聽位置或第二收聽方位的第二參數式空間音訊信號212、214,第二收聽位置或第二收聽方位不同於第一收聽位置或第一收聽方位。該裝置包含一空間音訊信號修改單元301、302,該等修改單元301、302適於依據第一收聽位置或第一收聽方位的變化來修改第一參數式偽音訊信號112、114以便獲得第二參數式空間音訊信號212、214,其中第二收聽位置或第二收聽方位對應於因該變化而改變的第一收聽位置或第一收聽方位。
裝置300之實施例可能適於僅轉換一單一旁側資訊參數,例如到達方向114a或漫射性參數114b,或僅轉換音訊下降混合信號112或上述某些或所有信號及參數。
如之前所述,在使用定向音訊編碼(DirAC)的實施例中,類比麥克風信號被數位化且經處理以提供麥克風信號之一下降混合時間/頻率表示型態W(k,n),其代表每一時刻或區塊k的一頻率表示型態,其中頻率或頻譜表示型態之每一頻率槽由指數n來表示。除了下降混合信號112之外,空間音訊分析單元100也確定針對每一時刻k及針對對應時刻k的每一頻率槽n之一單位向量e DOA(賦予方程式(4)),單位向量e DOA提供針對每一頻率槽n及每一時刻k的定向參數或資訊。除此之外,空間音訊分析單元100還確定每一時刻k及每一頻率槽n的一漫射性參數Ψ,該漫射性參數Ψ定義直達聲或直達音訊分量與漫聲或漫射音訊分量的關係,其中漫射分量,例如,是由二或更多個音訊源及/或由來自音訊源的音訊信號之反射引起。
因為DirAC將定義音訊場景的空間音訊資訊,舉例而言音訊源、反射、麥克風及具體而言聽眾之位置及方位,減化成與對應的一(單聲道)下降混合音訊信號W(k,n)或若干個(例如立體聲)下降混合音訊信號W 1 (k,n)W 2 (k,n)相關聯的一定向資訊,即一單位向量 e DOA (k,n)及0與1之間的一漫射性值Ψ(k,n),故其是一處理效率及記憶體使用效率極高的編碼。
因此,使用上述定向音訊編碼(DirAC)的實施例適於針對每一時刻k及每一頻率槽n將對應的下降混合值W(k,n)修改成W mOd (k,n),將對應的到達方向參數值 e (k,n)修改成 e mod (k,n)(在第1至3圖中用φ具體而言φmod來表示)及/或將漫射性參數值Ψ(k,n)修改成Ψ mod (k,n)
空間音訊信號修改單元包含例如參數修改單元301及下降混合修改單元302或由參數修改單元301及下降混合修改單元302形成。依據一較佳實施例,參數修改單元301適於,處理原始參數114a以確定已修改定向參數214a、依據原始定向參數φ具體而言114a來處理漫射性參數Ψ、利用使用原始漫射性參數Ψ具體而言114b的方程式(2)及(3)來分離下降混合信號112、及依據原始定向參數φ具體而言114a應用方向相依濾波H 1 (k,n,φ,d)H 2 (k,n,φ,d)。如先前所說明,這些修改針對每一時刻k及每一頻率槽n而被執行以獲得針對每一時刻k及每一頻率瞬間n的各自已修改信號及/或參數。
依據一實施例,裝置300適於依據控制信號402僅修改第一參數式空間音訊信號之第一定向參數114a以獲得第二參數式空間音訊信號之第二定向參數214a,舉例而言,控制信號402為旋轉控制信號或變焦控制信號。假如收聽位置/方位之變化僅包含一旋轉且無轉換或變焦,則定向參數φ(k,n) 114a之一對應的修改或變換是足夠的。對應的漫射性參數及下降混合信號分量可不修正使得第二下降混合信號212對應於第一下降混合信號112且第二漫射性參數214b對應於第一漫射性參數114b。
在一轉換變化例如變焦被執行的情況下,依據第5A圖中所示之一重映射函數修改定向參數φ(k,n) 114a已改善聲音體驗,且相較於未修改或原始參數式空間音訊信號,提供該音訊信號與例如視訊信號之間之一更好的同步(不修改漫射性參數或下降混合信號)。
僅包含藉由濾波器fp來修改或重映射到達方向的上述二實施例已經提供變焦效果之良好印象。
依據另一實施例,裝置300適於僅應用濾波器H1(k,n,φ,d)。換言之,此實施例不執行到達方向重映射或漫射性修改。此實施例適於由下降混合信號112來僅確定例如直達分量112a且將濾波函數H1應用於該直達分量以產生一方向相依加權形式的直達分量。此類實施例可進一步適於使用方向相依加權型式的直達分量作為已修改下降混合信號Wmod 212,或還由原始下降混合信號W 112來確定漫射分量112b及藉由將該方向相依加權型式的直達分量與原始或未改變的漫射分量112b相加或大體組合來產生已修改下降混合信號Wmod 212。具改善印象的聲音縮放可得以實現,然而,因為到達方向未經修改,故縮放效果有限。
在又一實施例中,濾波器H1(k,n,φ,d)與H2(k,n,φ,d)二者均被應用,然而,到達方向重映射或漫射性修改未被執行。相較於未經修正或原始的參數式空間音訊信號112、114,聲音印象得到改善。縮放印象也優於當漫聲出現時僅對直達分量應用濾波函數H1(k,n,φ,d),然而,因為到達方向φ未經修改(優於僅使用H1(k,n,φ,d)的上述實施例),故此縮放印象仍有限。
在再一實施例中,僅濾波器fd被應用,或換言之,僅漫射性分量Ψ經修改。因為放大區域(關注區域)之漫射性減小且非關注之漫射性值增大,故相較於原始參數式空間音訊信號112、114,縮放效果得到改善。
其他實施例適於將藉由濾波函數fp來執行到達方向φ的重映射與單獨應用濾波器H1(k,n,φ,d)相結合。換言之,此類實施例並不依據濾波函數fd來執行一漫射性修改且不對原始下降混合信號W 112之一漫射分量應用第二濾波函數H2(k,n,φ,d)。此類實施例提供比僅應用到達方向重映射更好的一非常好的縮放印象。
相較於僅應用到達方向重映射與單獨應用第一濾波函數H1相結合,應用依據函數fp之到達方向重映射與使用濾波函數H1(k,n,φ,d)與H2(k,n,φ,d)二者的一下降混合修改相結合的實施例提供更佳的縮放印象。
應用依據函數fp之到達方向重映射,使用濾波器H1(k,n,φ,d)與H2(k,n,φ,d)的下降混合修改及使用函數fd的漫射性藥療(medication)提供最佳的聲音縮放實施。
返回參照僅重映射到達方向的實施例,額外地修改漫射性參數114b進一步改善音訊體驗,或換言之,改善關於空間音訊場景內改變的位置的聲音體驗之適應。因此,在其他實施例中,裝置300可適於僅修改定向參數φ(k,n)及漫射性參數Ψ(k,n),但不修改下降混合信號W(k,n) 100。
如上所述之裝置300之較佳實施例還包含修改下降混合信號W(k,n)以更進一步改善關於空間音訊場景中改變的位置的音訊體驗。
因此,在第一定向參數φ(k,n) 114a為一向量的實施例中,參數修改單元301適於使第一定向參數在由旋轉控制信號所定義的一方向的反方向上變換或修改由一旋轉控制信號所定義的角度以獲得第二定向參數φ mod (k,n) 214a。
在其他實施例中,參數修改單元301適於使用一非線性映射函數(例如,第5A圖中所示)來獲得第二定向參數214a,該非線性映射函數依據第一定向參數φ(k,n)及由一變焦控制信號402來定義的一變焦因數d或由改變信號來定義的另一轉換控制資訊來定義第二定向參數214a。
如上所述者,在其他實施例中,參數修改單元301可適於依據第一定向參數φ(k,n) 114a來修改第一參數式空間音訊信號之第一漫射性參數Ψ(k,n) 114b以獲得第二漫射性參數Ψ mod (k,n) 214b。該參數修改單元可進一步適於使用一方向相依函數來獲得第二漫射性參數Ψmod (k,n),假如第一定向參數φ(k,n)在一預定中央範圍之內,例如原始參考方位之γ=+/-30°(參見第5B圖),則該方向相依函數適於減小第一漫射性參數Ψ(k,n)以獲得第二漫射性參數Ψ mod (k,n),及/或假如第一定向參數φ(k,n)在該預定中央範圍之外,例如在由始於0°原始參考方位的+γ=+30°與-γ=-30°所定義的中央範圍之外的二維情況下,則該方向相依函數適於增大第一漫射性參數Ψ(k,n)以獲得第二漫射性參數Ψ mod (k,n)
換言之,在某些實施例中,參數修改單元301、310b適於使用一方向相依函數來獲得第二漫射性參數214b,假如第一定向參數114a在該第二定向參數之一預定中央範圍內,第二或改變收聽方位形成預定的二維或三維中央範圍之中心,則該方向相依函數適於減小第一漫射性參數114b以獲得第二漫射性參數214b,及/或假如第一定向參數114a在該預定中央範圍之外,則該方向相依函數適於增大第一漫射性參數114b以獲得第二漫射性參數。第一或原始收聽方位界定第一定向參數之預定中央範圍之一中心,例如0°,其中該預定中央範圍之一正邊界及一負邊界由二維(例如,水平)平面上的一正角度與一負角度γ(例如,+/-30°)來界定,與第二收聽方位是否為二維或三維向量無關,或由圍繞三維之第一收聽方位界定一直圓錐的一對應的角度γ(例如30°)來界定。其他實施例可包含不同的預定中央區域或視窗,該等預定中央區域或視窗對稱及非對稱地圍繞第一收聽方位或一定義該第一收聽方位的向量來配置或以該第一收聽方位或一定義該第一收聽方位的向量為中心。
在其他實施例中,方向相依函數f d (k,n,φ,d)依改變信號例如變焦控制信號而定,其中預定中央範圍,具體而言定義該中央範圍之負邊界與正邊界(或總稱為邊界)的值γ越小,轉換變化越大,或由變焦控制信號所定義的變焦因數越大。
在其他實施例中,空間音訊信號修改單元包含一下降混合修改單元302,下降混合修改單元302適於依據第一定向參數φ(k,n)及第一漫射性參數Ψ(k,n)來修改第一參數式空間音訊信號之第一下降混合音訊信號W(k,n)以獲得第二參數式空間音訊信號之第二下降混合信號W mod (k,n)。下降混合修改單元302之實施例可適於,例如基於方程式(2)及(3)依據第一漫射性參數Ψ(k,n)將第一下降混合音訊信號W分成一直達分量S(k,n) 112a與一漫射分量N(k,n) 112b。
在其他實施例中,下降混合修改單元302適於應用第一方向相依函數H1(k,n,φ,d)以獲得一方向相依加權型式的直達分量及/或對漫射分量應用第二方向相依函數H2(k,n,φ,d)以獲得一方向相依加權型式的漫射分量。下降混合修改單元302可適於藉由對直達分量應用另一方向相依函數H1(k,n,φ,d)來產生方向相依加權型式的直達分量112a,假如第一定向參數114a在第一定向參數之另一預定中央範圍內,則該另一方向相依函數適於增大直達分量112a,及/或假如第一定向參數114a在第二定向參數之另一預定範圍之外,則該另一方向相依函數適於減小直達分量112a。在另外的實施例中,該下降混合修改單元可適於藉由對漫射分量112b應用一方向相依函數H 2(k,n,φ,d)來產生方向相依加權型式的漫射分量112b,假如第一定向參數114a在第一定向參數之一預定中央範圍內,則該方向相依函數適於減小漫射分量,及/或假如第一定向參數114a在第二定向參數之該預定範圍之外,則該方向相依函數適於增大漫射分量112b。
在其他實施例中,下降混合修改單元302適於基於一組合,例如一方向相依加權型式的直達分量112a與一方向相依加權型式的漫射分量112b之總和,來獲得第二下降混合信號212。然而,除了求二分量之總和之外,其他實施例還可應用其他演算法來獲得已修改下降混合信號212。
如先前所說明,下降混合修改單元302之實施例可適於藉由二乘數即(Ψ)1/2與(1-Ψ)1/2來將下降混合信號W分成一漫射部分或分量112b與一非漫射或直達部分或分量112a,及藉由濾波函數H1將非漫射部分112a濾除及藉由濾波函數H2將漫射部分112b濾除。濾波函數H1或H1(k,n,φ,d)可依時間/頻率指數k,n、原始到達方向φ及變焦參數d而定。濾波函數H1可額外地依漫射性Ψ而定。濾波函數H2或H2(k,n,φ,d)可依時間/頻率指數k,n、原始到達方向φ及變焦參數d而定。濾波函數H2可額外地依漫射性Ψ而定。如先前所述,濾波函數H2可被實施為如第7圖中所示的一準心形視窗,或實施為一簡單的衰減因數,與到達方向φ無關。
參照以上說明,變焦參數d可用以控制濾波器H1、H2及修改器或函數fd及fp(參見第3A圖)。對濾波函數H1及fd而言,變焦參數d也可控制已應用視窗或中央區域之觀看寬度或角寬γ(也稱為邊界角γ)。寬度γ被定義為,例如,濾波函數為0dB的角度(參見例如第6圖中之0dB線)。角寬γ及/或增益可由變焦參數d來控制。針對γ及不同的最大增益及最小增益的不同值之一範例在第6圖中給出。
儘管裝置之實施例已在上文被描述,其中方向相依函數及加權依第一或原始定向參數φ而定(參見第3A圖),但是其他實施例可適於依據第二或已修改定向參數φmod確定第二或已修改漫射性Ψmod及/或濾波函數H1、H2中的一者或此二者。由第4圖可以確定,在α對應於原始定向參數φ且β對應於已修改定向參數φmod(對放大而言)的情況下,變焦因數d越大,物件B從一中央或正面位置移動至一側面位置,或甚至(比第4圖中所示更大的變焦因數d的情況)移動至虛擬化修改位置的背面位置的距離越遠。換言之,變焦因數d越大,代表聽眾之正面區域中的一位置的一初始小角度之幅值增加的越多,其中較大角代表聽眾之一側面區域中的位置。藉由應用如第5A圖中所示之一函數,此定向參數修改被納入考慮。除此之外,針對其他參數及直達及漫射分量的方向相依視窗或函數也可被設計成,藉由例如以對應於如第5A圖中所示之到達方向或定向參數映射的一非線性方式利用增大變焦d使角寬γ減小,來將原始定向參數或角度之修改納入考慮。因此,這些方向相依視窗或函數可作修改使得原始定向參數可被直接使用(例如,毋需藉由函數fp進行先前修改),或,可選擇地,首先執行定向參數映射fp且之後基於已修改定向參數以一類似方式執行方向相依加權fd、H1及/或H2。因此,再次參照第4圖,方向相依函數fd、H1及/或H2直接指代表原始定向參數(對放大而言)的α,或方向相依函數fd、H1及H2指代表已修改定向參數的β均是可能的。
類似於使用原始定向參數的實施例,使用已修改定向參數的實施例可利用具有針對不同變焦因數的不同角寬及/或不同增益的不同視窗,或具有相同角寬(因為定向參數已被映射以反映不同的變焦因數)及相同增益的相同視窗,或具有相同角寬但是不同增益的視窗,其中一較大的變焦因數導致一較大增益(類比於第6圖中之視窗)。
第3B圖繪示裝置之另一實施例。第3B圖中之空間音訊信號修改單元包含例如參數修改單元301及下降混合修改單元302或由參數修改單元301及下降混合修改單元302形成。依據一替代實施例,參數修改單元301適於,首先處理原始參數114a以確定已修改定向參數214a,接著依據已修改定向參數φmod具體而言214a來處理漫射性參數Ψ,使用方程式(2)及(3)及如依據第3A圖所述的原始漫射性參數Ψ具體地114b來分離下降混合信號112,及依據已修改定向參數φmod具體地214a來應用方向相依濾波H 1 H 2 。如先前所說明,這些修改針對每一時刻k及每一頻率槽n來執行以獲得針對每一時刻k及每一頻率瞬間n的各自已修改信號及/或參數。
依據依據第3B圖的裝置300之另一替代實施例,參數修改單元301適於處理原始參數114a以確定已修改定向參數214a,依據原始定向參數φ或114a來處理漫射性參數Ψ,確定已修改漫射性參數Ψmod或214b,使用方程式(2)及(3)及如依據第3A圖所述的原始漫射性參數Ψ或114b來分離下降混合信號112,及依據已修改定向參數φmod或214a來應用方向相依濾波H 1 H 2
依據一實施例,依據第3B圖的裝置300適於依據控制信號402僅修改第一參數式空間音訊信號之第一定向參數114a以獲得第二參數式空間音訊信號之第二定向參數214a,控制信號402舉例而言為旋轉控制信號或變焦控制信號。假如收聽位置/方位的改變僅包含一旋轉且並無轉換或變焦,則定向參數φ(k,n) 114a之一對應的修改或變動是足夠的。對應的漫射性參數及下降混合信號分量可不修正使得第二下降混合信號212對應於第一下降混合信號112且第二漫射性參數214b對應於第一漫射性參數114b。
在一轉換變化,例如變焦,被執行的情況下,依據第5A圖中所示之一重映射函數修改定向參數φ(k,n) 114a已經改善聲音體驗,且相較於未修改或原始參數式空間音訊信號(不修改漫射性參數或下降混合信號),提供該音訊信號與例如視訊信號之間更好的同步。
修改漫射性參數114b進一步改善音訊體驗,或換言之,改善關於空間音訊場景內改變的位置的聲音體驗之適應。因此,在其他實施例中,裝置300可適於僅修改定向參數φ(k,n)及漫射性參數Ψ(k,n),漫射性參數Ψ(k,n)依已修改定向參數φ mod (k,n)而定,但不修改下降混合信號W(k,n) 100。
依據第3B圖的裝置300之較佳實施例還包含依據原始漫射性Ψ(k,n)及已修改定向參數φ mod (k,n)來修改下降混合信號W(k,n)以更進一步改善關於空間音訊場景中的改變位置的音訊體驗。
因此,在第一定向參數φ(k,n) 114a為一向量的實施例中,參數修改單元301適於使第一定向參數在由一旋轉控制信號所定義的一方向的反方向上變換或修改由該旋轉控制信號所定義的角度以獲得第二定向參數φ mod (k,n) 214a。
在其他實施例中,參數修改單元301適於使用一非線性映射函數(例如,第5A圖中所示)來獲得第二定向參數214a,該非線性映射函數依據第一定向參數φ(k,n)及由一變焦控制信號402來定義的一變焦因數d或由改變信號來定義的另一轉換控制資訊來定義第二定向參數214a。
如上所述,在其他實施例中,參數修改單元301可適於依據第二定向參數φ mod (k,n) 214a來修改第一參數式空間音訊信號之第一漫射性參數Ψ(k,n) 114b以獲得第二漫射性參數Ψ mod (k,n) 214b。該參數修改單元可進一步適於使用一方向相依函數來獲得第二漫射性參數Ψ mod (k,n),假如第二定向參數φ mod (k,n)在一預定中央範圍之內,例如被稱為原始0°方位的原始參考方位之+/- 30°,則該方向相依函數適於減小第一漫射性參數Ψ(k,n)來獲得第二漫射性參數Ψmod(k,n),及/或假如第二定向參數φ mod (k,n)在該預定中央範圍之外,例如,在由始於0°原始參考方位的+30°與-30°所定義的中央範圍之外的二維情況下,則該方向相依函數適於增大第一漫射性參數Ψ(k,n)來獲得第二漫射性參數Ψmod (k,n)
換言之,在某些實施例中,參數修改單元301、301b適於使用一方向相依函數來獲得第二漫射性參數214b,假如第二定向參數214a在第二定向參數之一預定中央範圍內,第一或原始收聽方位形成預定二維或三維中央範圍之中心,則該方向相依函數適於減小第一漫射性參數114b以獲得第二漫射性參數214b,及/或假如第二定向參數214a在該預定中央範圍之外,則該方向相依函數適於增大第一漫射性參數114b以獲得第二漫射性參數。第一收聽方位界定第二定向參數之預定中央範圍之一中心,例如0°,其中該預定中央範圍之一正邊界及一負邊界由二維(例如,水平)平面上的一正角度與一負角度(例如,+/-30°)來界定,與第一收聽方位是否為二維或三維向量無關,或由圍繞三維第二收聽方位界定一直圓錐的一對應的角度(例如,30°)來界定。其他實施例可包含不同的預定中央區域,該等預定中央區域對稱及非對稱地圍繞第一收聽方位或定義該第一收聽方位的向量來配置。
在其他實施例中,方向相依函數f d (Ψ)依改變信號例如變焦控制信號而定,其中預定中央範圍,具體而言,定義該中央範圍之負邊界與正邊界(或總稱為邊界)的值越小,轉換變化越大,或由變焦控制信號所定義的變焦因數越大。
在其他實施例中,空間音訊信號修改單元包含一下降混合修改單元302,下降混合修改單元302適於依據第二定向參數φ mod (k,n)及第一漫射性參數Ψ(k,n)來修改第一參數式空間音訊信號之第一下降混合音訊信號W(k,n)以獲得第二參數式空間音訊信號之第二下降混合信號W mod (k,n)。下降混合修改單元302之實施例可適於例如基於方程式(2)及(3)依據第一漫射性參數Ψ(k,n)將第一下降混合音訊信號W分成一直達分量S(k,n) 112a與一漫射分量N(k,n) 112b。
在其他實施例中,下降混合修改單元302適於應用第一方向相依函數H1以獲得一方向相依加權型式的直達分量及/或對漫射分量應用一第二方向相依函數H2以獲得一方向相依加權型式的漫射分量。下降混合修改單元302可適於藉由對直達分量應用另一方向相依函數H1來產生方向相依加權型式的直達分量112a,假如第二定向參數214a在第二定向參數之另一預定中央範圍內,則該另一方向相依函數適於增大直達分量112a,及/或假如第二定向參數214a在第二定向參數之該另一預定範圍之外,則該另一方向相依函數適於減小直達分量112a。在另外的實施例中,該下降混合修改單元可適於藉由對漫射分量112b應用一方向相依函數H 2 來產生方向相依加權型式的漫射分量112b,假如第二定向參數214a在第二定向參數之一預定中央範圍內,則該方向相依函數適於減小漫射分量,及/或假如第二定向參數214a在第二定向參數之該預定範圍之外,則該方向相依函數適於增大漫射分量112b。
在其他實施例中,下降混合修改單元302適於基於一組合,例如一方向相依加權型式的直達分量112a與一方向相依加權型式的漫射分量112b之總和,來獲得第二下降混合信號212。然而,除了求二分量之總和之外,其他實施例還可應用其他演算法來獲得已修改下降混合信號212。
如先前所說明,依據第3B圖的下降混合修改單元302之實施例可適於藉由二乘數即(Ψ)1/2與(1-Ψ)1/2將下降混合信號W分成一漫射部分或分量112b與一非漫射或直達部分或分量112a,及藉由濾波函數H1將非漫射部分112a濾除及藉由濾波函數H2將漫射部分112b濾除。濾波函數H1或H1(φ,Ψ)可依時間/頻率指數k,n、已修改到達方向及變焦參數d而定。濾波函數H1可額外地依漫射性Ψ而定。濾波函數H2或H2(φ,Ψ)可依時間/頻率指數k,n、原始到達方向φ及變焦參數d而定。濾波函數H2或H2(φ,Ψ)可額外地依漫射性Ψ而定。如先前所述,濾波函數H2可被實施為如第7圖中所示的一準心形視窗,或實施為一簡單的衰減因數,與已修改到達方向φmod無關。
參照以上說明,同樣在依據第3B圖的實施例中,變焦參數d可用以控制濾波器H1、H2及修改器或函數fd及fp。對濾波函數H1及fd而言,變焦參數d也可控制已應用視窗或中央區域之角寬γ(也稱為邊界角γ)。寬度γ被定義為,例如,濾波函數為0dB的角度(參見例如第6圖中之0dB線)。角寬γ及/或增益可由變焦參數d來控制。應指出的是,總的來說,關於依據第3A圖之實施例而給出的說明以相同的方式或至少類似的方式適用於依據第3B圖之實施例。
在下文中,示範性應用被加以描述,其中發明實施例藉由調整感知到的音訊影像使其適應一視訊攝影機之變焦控制而得以改善一視訊/音訊聯合播放之體驗。
在電傳會議中,最先進的是自動引導攝影機朝向主動說話者。這通常有關於變焦較接近於談話者。聲音傳統上與圖像不匹配。本發明實施例提供也使主動談話者聲音放大的可能。這是對遠端使用者而言更加真實的總體印象,因為不僅圖像對焦改變,而且聲音也與所關注的期望改變相匹配。簡言之,聽覺線索對應於視覺線索。
現代攝錄像機,例如,家用娛樂式現代攝錄像機,能夠記錄周圍的聲音且具有一強有力的光學變焦。然而,因為記錄下來的空間聲音僅依攝影機之實際位置及進而安裝在攝影機自身上的麥克風的位置而定,故在光學變焦與記錄下來的聲音之間無感知的等效互動。對在一特寫模式中拍攝的一場景而言,本發明容許相應地調整音訊影像。由於聲音與圖像一起縮放,故這導致一更加自然且一致的消費者體驗。
應提到的是,若原始麥克風信號與視訊一起被不變地記錄下來且未進行進一步的處理,本發明也可在一後處理階段中應用。雖然原始縮放長度可能不是已知的,但是本發明也可用在創造性的音訊-視覺後處理工具箱中。任意的縮放長度可被選擇且聲音縮放可由使用者來操控以與圖像相匹配。可選擇地,使用者可創造其自身偏愛的空間效果。無論在哪一種情況下,原始麥克風記錄位置都將被更改為由一使用者定義的虛擬記錄位置。
依發明方法之某些實施要求而定,該等發明方法可以以硬體或軟體來實施。可使用一數位儲存媒體,特別是儲存有電可讀取控制信號的碟片、CD、DVD或藍光光碟,來執行該實施,該電可讀取控制信號與一可規劃電腦系統協作使得發明方法之一實施例被執行。因此,一般而言,本發明之一實施例為以儲存在一機器可讀取載體上的一程式碼而產生的一電腦程式,當該電腦程式產品在一電腦上運行時,該程式碼可操作來執行發明方法。因此,換言之,發明方法之實施例為具有一程式碼的一電腦程式,當該電腦程式在一電腦上運行時,該程式碼用以執行該等發明方法中的至少一者。
上文參照其特定實施例而被特別繪示及描述。熟於此技者將理解的是可在不背離其精神及範圍的情況下在形式及細節上做各種不同的其他變化。因此,應理解的是,在不背離本文所揭露及由後附申請專利範圍所涵蓋的廣義構想的情況下在改寫不同實施例時可做各種不同的變化。
100...分析部分/空間音訊分析單元/空間分析單元/空間音訊編碼器/下降混合信號
102...麥克風
112、114、114a、114b...第一參數式空間音訊信號
112、114、212、214...參數式空間音訊信號
112、114...參數式空間音訊信號/輸出/第一參數式偽音訊信號/未經修正或原始的參數式空間音訊信號
112...下降混合信號/參數式空間音訊信號/輸出/第一或原始下降混合信號/單聲道下降混合音訊信號/第一參數式偽音訊信號/音訊下降混合信號/第一下降混合信號/原始下降混合信號/未經修正或原始的參數式空間音訊信號
112a...直達聲分量/漫射部分/直達分量/直達部分或分量/非漫射或直達部分或分量/非漫射部分
112b...漫聲分量/未改變漫射分量/方向相依加權型式的漫射分量/漫射分量/漫射部分或分量/漫射部分
114...空間旁側資訊/細線/旁側資訊/空間參數/參數式空間音訊信號/輸出/第一參數式偽音訊信號/未經修正或原始的參數式空間音訊信號
114a...到達方向(DOA)/到達方向參數/第一或接收到的到達方向參數/第一或原始到達方向參數/第一定向參數/原始參數/定向參數
114b...漫射性/第一或原始漫射性參數/漫射性參數/第一漫射性參數
200...合成部分/空間音訊合成單元/合成
202...揚聲器
204...實體揚聲器信號
212、214a、214b...第二參數式空間音訊信號
212、214...參數式空間音訊信號/空間音訊表示
212...已修改下降混合信號/參數式空間音訊信號/第二或已修改下降混合信號/第二下降混合信號
214...已修改空間音訊資訊/參數式空間音訊信號
214a...已修改或第二到達方向參數/第二定向參數/第二或已修改向量/已修改定向參數
214b...第二或已修改漫射性參數/第二漫射性參數
300...裝置/空間音訊信號修改單元或空間音訊信號修改區塊/修改單元
301...參數修改單元/空間音訊信號修改單元
301a...到達方向修改單元/區塊/方向修改區塊/修改單元/參數修改單元
301b...漫射性修改單元/區塊/參數修改單元
302...下降混合修改單元/區塊/空間音訊信號修改單元
400...外部控制單元/旋轉控制單元/外部控制器/攝影機/使用者介面
402...控制信號/變焦控制信號/旋轉控制信號/外部控制資訊/攝影機控制因子
512~520、562、564、572、574...參考符號
552...旁路線
612~618...視窗
702...準心形視窗
S...位置/原始收聽位置
S2...已修改收聽位置
A...空間位置/物件
B...區域或空間位置/角度位置/物件
α...被分析角度
β...被分析角度/已修改或映射角
φ...方位角
φmod...已修改到達方向信號
Ψ、Ψin...漫射性/原始或第一漫射性
Ψmod...已修改漫射性信號/第二或已修改漫射性
Wmod...已修改下降混合信號
d...控制信號/變焦因數或變焦參數/控制參數/控制參數或控制資訊/轉換距離/因數
H 1 (k,n,φ,d)、H 2 (k,n,φ,d)...加權濾波器
第1圖繪示一參數式空間音訊編碼器之一方塊圖;
第2圖繪示第1圖之空間音訊編碼器連同耦接在該空間音訊編碼器之空間音訊分析單元與空間音訊合成單元之間的空間參數修改區塊之一實施例;
第3A圖對應於第2圖且繪示空間參數修改區塊之一較詳細的實施例;
第3B圖對應於第2圖且繪示空間參數修改區塊之另一較詳細的實施例;
第4圖繪示一聲音縮放之一示範性幾何概觀;
第5A圖繪示用於到達方向(DOA)映射的一定向映射函數fp (k,n,φ,d)之一範例;
第5B圖繪示用於漫射性映射的一漫射性映射函數fd (k,n,φ,d)之一範例;
第6圖繪示依一變焦因數而定的直達聲分量之加權濾波器H 1 (k,n,φ,d)的不同增益視窗;以及
第7圖繪示漫射分量的加權濾波器H 2 (k,n,φ,d)的一示範性準心形視窗。
100...分析部分/空間音訊分析單元/空間分析單元/空間音訊編碼器/下降混合信號
102...麥克風
112、114、114a、114b...第一參數式空間音訊信號
112、114、212、214...參數式空間音訊信號
112、114...參數式空間音訊信號/輸出/第一參數式偽音訊信號/未經修正或原始的參數式空間音訊信號
112...下降混合信號/參數式空間音訊信號/輸出/第一或原始下降混合信號/單聲道下降混合音訊信號/第一參數式偽音訊信號/音訊下降混合信號/第一下降混合信號/原始下降混合信號/未經修正或原始的參數式空間音訊信號
114...空間旁側資訊/細線/旁側資訊/空間參數/參數式空間音訊信號/輸出/第一參數式偽音訊信號/未經修正或原始的參數式空間音訊信號
114a...到達方向(DOA)/到達方向參數/第一或接收到的到達方向參數/第一或原始到達方向參數/第一定向參數/原始參數/定向參數
114b...漫射性/第一或原始漫射性參數/漫射性參數/第一漫射性參數
200...合成部分/空間音訊合成單元/合成
202...揚聲器
204...實體揚聲器信號
212、214a、214b...第二參數式空間音訊信號
212、214...參數式空間音訊信號/空間音訊表示
212...已修改下降混合信號/參數式空間音訊信號/第二或已修改下降混合信號/第二下降混合信號
214...已修改空間音訊資訊/參數式空間音訊信號
214a...已修改或第二到達方向參數/第二定向參數/第二或已修改向量/已修改定向參數
214b...第二或已修改漫射性參數/第二漫射性參數
300...裝置/空間音訊信號修改單元或空間音訊信號修改區塊/修改單元
400...外部控制單元/旋轉控制單元/外部控制器/攝影機/使用者介面
402...控制信號/變焦控制信號/旋轉控制信號/外部控制資訊/攝影機控制因子

Claims (23)

  1. 一種用以將代表一空間音訊場景中的一第一收聽位置或一第一收聽方位的一第一參數式空間音訊信號轉換成代表一第二收聽位置或一第二收聽方位的一第二參數式空間音訊信號的裝置,該裝置包含:一空間音訊信號修改單元,其適於依據該第一收聽位置或該第一收聽方位的一變化來修改該第一參數式空間音訊信號以獲得該第二參數式空間音訊信號,其中該第二收聽位置或該第二收聽方位對應於因該變化而改變的該第一收聽位置或該第一收聽方位;其中,該第一參數式空間音訊信號包含下降混合信號、到達方向參數及漫射性參數,且其中,該第二參數式空間音訊信號包含下降混合信號、到達方向參數及漫射性參數。
  2. 如申請專利範圍第1項所述之裝置,其中該空間音訊信號修改單元包含:一參數修改單元,其適於依據提供對應於該變化的資訊的一控制信號而修改該第一參數式空間音訊信號之一第一定向參數以獲得該第二參數式空間音訊信號之一第二定向參數。
  3. 如申請專利範圍第2項所述之裝置,其中該第一定向參數及該第二定向參數為二維或三維向量。
  4. 如申請專利範圍第2或3項所述之裝置,其中該第一定向參數為一向量,其中該控制信號為定義一旋轉角度與一 旋轉方向的一旋轉控制信號,且其中該參數修改單元適於使該向量在該旋轉方向的一反方向上旋轉該旋轉角度以獲得該第二定向參數。
  5. 如申請專利範圍第2項所述之裝置,其中該控制信號為定義在該第一收聽方位所在方向上的一轉換(d)的一轉換控制信號,其中該參數修改單元適於使用依據該第一定向參數及由該控制信號所定義的該轉換(d)來定義該第二定向參數的一非線性映射函數(fp)來獲得該第二定向參數。
  6. 如申請專利範圍第2項所述之裝置,其中該控制信號為定義在該第一收聽方位所在方向上的一變焦因數(d)的一變焦控制信號,其中該參數修改單元適於使用依據該第一定向參數及由該變焦控制信號所定義的該變焦因數(d)來定義該第二定向參數的一非線性映射函數(fp)來獲得該第二定向參數。
  7. 如申請專利範圍第2項所述之裝置,其中該參數修改單元適於依據該第一定向參數或依據該第二定向參數來修改該第一參數式空間音訊信號之一第一漫射性參數以獲得該第二參數式空間音訊信號之一第二漫射性參數。
  8. 如申請專利範圍第7項所述之裝置,其中該參數修改單元適於使用一方向相依函數(fd)來獲得該第二漫射性參數,假如該第一定向參數在該第一定向參數之一預定中央範圍之內,則該方向相依函數(fd)適於減小該第一漫 射性參數以獲得該第二漫射性參數,及/或假如該第一定向參數在該預定中央範圍之外,則該方向相依函數(fd)適於增大該第一漫射性參數以獲得該第二漫射性參數,或其中該參數修改單元適於使用一方向相依函數(fd)來獲得該第二漫射性參數,假如該第二定向參數在該第二定向參數之一預定中央範圍內,則該方向相依函數(fd)適於減小該第一漫射性參數以獲得該第二漫射性參數,及/或假如該第二定向參數在該預定中央範圍之外,則該方向相依函數(fd)適於增大該第一漫射性參數以獲得該第二漫射性參數。
  9. 如申請專利範圍第8項所述之裝置,其中該控制信號為定義在該第一收聽方位所在方向上的一轉換(d)的一轉換控制信號,其中該方向相依函數依該轉換而定,且其中該預定中央範圍越小,由該轉換控制信號所定義的轉換越大;或其中該控制信號為定義在該第一收聽方位所在方向上的一變焦的一變焦控制信號,其中該方向相依函數依該變焦而定,且其中該預定中央範圍越小,由該變焦控制信號所定義的一變焦因數(d)越大。
  10. 如申請專利範圍第7項所述之裝置,該空間音訊信號修改單元包含:一下降混合修改單元,其適於依據該第一定向參數及/或該第一漫射性參數來修改該第一參數式空間音訊信號之一第一下降混合音訊信號以獲得該第二參數式 空間音訊信號之一第二下降混合信號,或一下降混合修改單元,其適於依據該第二定向參數及/或該第一漫射性參數來修改該第一參數式空間音訊信號之該第一下降混合音訊信號以獲得該第二參數式空間音訊信號之該第二下降混合信號。
  11. 如申請專利範圍第10項所述之裝置,其中該下降混合修改單元適於依據該第一漫射性參數而由該第一下降混合音訊信號推導出一直達分量及/或由該第一下降混合音訊信號推導出一漫射分量。
  12. 如申請專利範圍第11項所述之裝置,其中該下降混合修改單元適於根據下式來確定該直達分量: 及/或根據下式來確定該漫射分量: 其中k為一時間指數,n為一頻率槽指數,W(k,n)指該第一下降混合信號,Ψ(k,n)指該第一漫射性參數,S(k,n)指由該第一下降混合信號推導出的該直達分量且N(k,n)指由該第一下降混合信號推導出的該漫射分量。
  13. 如申請專利範圍第11或12項所述之裝置,其中該下降混合修改單元適於基於一方向相依加權型式的該直達分量、基於一方向相依加權型式的該漫射分量或基於該方向相依加權型式的直達分量與該方向相依加權型式的漫射分量的一組合來獲得該第二下降混合信號。
  14. 如申請專利範圍第13項所述之裝置,其中該下降混合修 改單元適於藉由對該直達分量應用另一方向相依函數(H 1 )來產生該方向相依加權型式的該直達分量,假如該第一定向參數在該等第一定向參數之另一預定中央範圍之內,則該另一方向相依函數適於增大該直達分量,及/或假如該第一定向參數在該等第一定向參數之該另一預定範圍之外,則該另一方向相依函數適於減小該直達分量。
  15. 如申請專利範圍第13項所述之裝置,其中該下降混合修改單元適於藉由對該漫射分量應用一方向相依函數(H 2 )來產生該方向相依加權型式的該漫射分量,假如該第一定向參數在該等第一定向參數之一預定中央範圍之內,則該方向相依函數適於減小該漫射分量,及/或假如該第一定向參數在該等第一定向參數之該預定範圍之外,則該方向相依函數適於增大該漫射分量,或假如該第二定向參數在該等第二定向參數之一預定中央範圍之內,則該方向相依函數適於減小該漫射分量,及/或假如該第二定向參數在該等第二定向參數之該預定範圍之外,則該方向相依函數適於增大該漫射分量。
  16. 一種用於音訊信號處理之系統,其包含:如申請專利範圍第1至15項中任一項所述的一裝置;及一視訊攝影機,其中該裝置耦接至該視訊攝影機且適於接收一視訊旋轉或一視訊變焦信號作為一控制信號。
  17. 一種用以將代表一空間音訊場景中的一第一收聽位置或一第一收聽方位的一第一參數式空間音訊信號轉換成代表一第二收聽位置或一第二收聽方位的一第二參數式空間音訊信號的方法,該方法包含以下步驟:依據該第一收聽位置或該第一收聽方位的一變化來修改該第一參數式空間音訊信號以獲得該第二參數式空間音訊信號,其中該第二收聽位置或該第二收聽方位對應於因該變化而改變的該第一收聽位置或該第一收聽方位;其中,該第一參數式空間音訊信號包含下降混合信號、到達方向參數及漫射性參數,且其中,該第二參數式空間音訊信號包含下降混合信號、到達方向參數及漫射性參數。
  18. 一種用於音訊信號處理之電腦程式,該電腦程式具有程式碼,當該程式在一電腦上運行時,該程式碼用以執行如申請專利範圍第17項所述之方法。
  19. 一種用以將代表一空間音訊場景中的一第一收聽位置或一第一收聽方位的一第一參數式空間音訊信號轉換成代表一第二收聽位置或一第二收聽方位的一第二參數式空間音訊信號的裝置,該裝置包含:一空間音訊信號修改單元,其適於依據該第一收聽位置或該第一收聽方位的一變化來修改該第一參數式空間音訊信號以獲得該第二參數式空間音訊信號,其中該第二收聽位置或該第二收聽方位對應於因該變化而 改變的該第一收聽位置或該第一收聽方位;其中該空間音訊信號修改單元包含一參數修改單元,其適於依據提供對應於該變化的資訊的一控制信號而修改該第一參數式空間音訊信號之一第一定向參數以獲得該第二參數式空間音訊信號之一第二定向參數;其中該參數修改單元適於依據該第一定向參數或依據該第二定向參數來修改該第一參數式空間音訊信號之一第一漫射性參數以獲得該第二參數式空間音訊信號之一第二漫射性參數;其中該參數修改單元適於使用一方向相依函數(fd)來獲得該第二漫射性參數,假如該第一定向參數在該第一定向參數之一預定中央範圍之內,則該方向相依函數(fd)適於減小該第一漫射性參數以獲得該第二漫射性參數,及/或假如該第一定向參數在該預定中央範圍之外,則該方向相依函數(fd)適於增大該第一漫射性參數以獲得該第二漫射性參數,或其中該參數修改單元適於使用一方向相依函數(fd)來獲得該第二漫射性參數,假如該第二定向參數在該第二定向參數之一預定中央範圍內,則該方向相依函數(fd)適於減小該第一漫射性參數以獲得該第二漫射性參數,及/或假如該第二定向參數在該預定中央範圍之外,則該方向相依函數(fd)適於增大該第一漫射性參數以獲得該第二漫射性參數。
  20. 一種用以將代表一空間音訊場景中的一第一收聽位置 或一第一收聽方位的一第一參數式空間音訊信號轉換成代表一第二收聽位置或一第二收聽方位的一第二參數式空間音訊信號的裝置,該裝置包含:一空間音訊信號修改單元,其適於依據該第一收聽位置或該第一收聽方位的一變化來修改該第一參數式空間音訊信號以獲得該第二參數式空間音訊信號,其中該第二收聽位置或該第二收聽方位對應於因該變化而改變的該第一收聽位置或該第一收聽方位;其中該空間音訊信號修改單元包含一參數修改單元,其適於依據提供對應於該變化的資訊的一控制信號而修改該第一參數式空間音訊信號之一第一定向參數以獲得該第二參數式空間音訊信號之一第二定向參數;其中該參數修改單元適於依據該第一定向參數或依據該第二定向參數來修改該第一參數式空間音訊信號之一第一漫射性參數以獲得該第二參數式空間音訊信號之一第二漫射性參數;其中該空間音訊信號修改單元包含:一下降混合修改單元,其適於依據該第一定向參數及/或該第一漫射性參數來修改該第一參數式空間音訊信號之一第一下降混合音訊信號以獲得該第二參數式空間音訊信號之一第二下降混合信號,或一下降混合修改單元,其適於依據該第二定向參數及/或該第一漫射性參數來修改該第一參數式空間音訊信號之該第一下降混合音訊信號以獲得該第二參數式 空間音訊信號之該第二下降混合信號。
  21. 一種用以將代表一空間音訊場景中的一第一收聽位置或一第一收聽方位的一第一參數式空間音訊信號轉換成代表一第二收聽位置或一第二收聽方位的一第二參數式空間音訊信號的方法,該方法包含以下步驟:依據該第一收聽位置或該第一收聽方位的一變化來修改該第一參數式空間音訊信號以獲得該第二參數式空間音訊信號,其中該第二收聽位置或該第二收聽方位對應於因該變化而改變的該第一收聽位置或該第一收聽方位;其中,該方法包含依據提供對應於該變化的資訊的一控制信號修改該第一參數式空間音訊信號之一第一定向參數,以獲得該第二參數式空間音訊信號之一第二定向參數;其中,該方法包含依據該第一定向參數或依據該第二定向參數來修改該第一參數式空間音訊信號之一第一漫射性參數,以獲得該第二參數式空間音訊信號之一第二漫射性參數;其中,該方法包含使用一方向相依函數(fd)來獲得該第二漫射性參數,假如該第一定向參數在該第一定向參數之一預定中央範圍之內,則該方向相依函數(fd)適於減小該第一漫射性參數以獲得該第二漫射性參數,及/或假如該第一定向參數在該預定中央範圍之外,則該方向相依函數(fd)適於增大該第一漫射性參數以獲得該 第二漫射性參數,或其中該方法包含使用一方向相依函數(fd)來獲得該第二漫射性參數,假如該第二定向參數在該第二定向參數之一預定中央範圍內,則該方向相依函數(fd)適於減小該第一漫射性參數以獲得該第二漫射性參數,及/或假如該第二定向參數在該預定中央範圍之外,則該方向相依函數(fd)適於增大該第一漫射性參數以獲得該第二漫射性參數。
  22. 一種用以將代表一空間音訊場景中的一第一收聽位置或一第一收聽方位的一第一參數式空間音訊信號轉換成代表一第二收聽位置或一第二收聽方位的一第二參數式空間音訊信號的方法,該方法包含以下步驟:依據該第一收聽位置或該第一收聽方位的一變化來修改該第一參數式空間音訊信號以獲得該第二參數式空間音訊信號,其中該第二收聽位置或該第二收聽方位對應於因該變化而改變的該第一收聽位置或該第一收聽方位;其中,該方法包含依據提供對應於該變化的資訊的一控制信號而修改該第一參數式空間音訊信號之一第一定向參數,以獲得該第二參數式空間音訊信號之一第二定向參數;其中,該方法包含依據該第一定向參數或依據該第二定向參數來修改該第一參數式空間音訊信號之一第一漫射性參數以獲得該第二參數式空間音訊信號之一 第二漫射性參數;其中,該方法包含依據該第一定向參數及/或該第一漫射性參數來修改該第一參數式空間音訊信號之一第一下降混合音訊信號以獲得該第二參數式空間音訊信號之一第二下降混合信號,或依據該第二定向參數及/或該第一漫射性參數來修改該第一參數式空間音訊信號之該第一下降混合音訊信號以獲得該第二參數式空間音訊信號之該第二下降混合信號。
  23. 一種用於音訊信號處理之電腦程式,該電腦程式具有程式碼,當該電腦程式在一電腦上運行時,該程式碼用以執行如申請專利範圍第21或22項所述之方法。
TW099143975A 2009-12-17 2010-12-15 用以將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的裝置與方法 TWI523545B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US28759609P 2009-12-17 2009-12-17
EP10156263A EP2346028A1 (en) 2009-12-17 2010-03-11 An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal

Publications (2)

Publication Number Publication Date
TW201146026A TW201146026A (en) 2011-12-16
TWI523545B true TWI523545B (zh) 2016-02-21

Family

ID=43748019

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099143975A TWI523545B (zh) 2009-12-17 2010-12-15 用以將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的裝置與方法

Country Status (15)

Country Link
US (1) US9196257B2 (zh)
EP (2) EP2346028A1 (zh)
JP (1) JP5426035B2 (zh)
KR (1) KR101431934B1 (zh)
CN (1) CN102859584B (zh)
AR (1) AR079517A1 (zh)
AU (1) AU2010332934B2 (zh)
BR (1) BR112012015018B1 (zh)
CA (1) CA2784862C (zh)
ES (1) ES2592217T3 (zh)
HK (1) HK1176733A1 (zh)
MX (1) MX2012006979A (zh)
RU (1) RU2586842C2 (zh)
TW (1) TWI523545B (zh)
WO (1) WO2011073210A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10412482B2 (en) 2017-11-08 2019-09-10 Merry Electronics (Shenzhen) Co., Ltd. Loudspeaker apparatus

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2647222T3 (pl) 2010-12-03 2015-04-30 Fraunhofer Ges Forschung Pozyskiwanie dźwięku za pomocą ekstrakcji informacji geometrycznej z estymacji kierunku nadejścia sygnału
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2727380B1 (en) 2011-07-01 2020-03-11 Dolby Laboratories Licensing Corporation Upmixing object based audio
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9047863B2 (en) 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
WO2013186593A1 (en) * 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
CN104471641B (zh) 2012-07-19 2017-09-12 杜比国际公司 用于改善对多声道音频信号的呈现的方法和设备
US9565314B2 (en) 2012-09-27 2017-02-07 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
JP6031930B2 (ja) * 2012-10-02 2016-11-24 ソニー株式会社 音声処理装置および方法、プログラム並びに記録媒体
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
CN103021414B (zh) * 2012-12-04 2014-12-17 武汉大学 一种三维音频系统距离调制方法
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9854377B2 (en) * 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
EP3933834A1 (en) 2013-07-05 2022-01-05 Dolby International AB Enhanced soundfield coding using parametric component generation
GB2521649B (en) 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
EP2942981A1 (en) 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
CN106465027B (zh) 2014-05-13 2019-06-04 弗劳恩霍夫应用研究促进协会 用于边缘衰落幅度平移的装置和方法
US9883140B2 (en) * 2014-05-19 2018-01-30 Apple Inc. Using the location of a near-end user in a video stream to adjust audio settings of a far-end system
KR102605480B1 (ko) * 2014-11-28 2023-11-24 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
US9602946B2 (en) 2014-12-19 2017-03-21 Nokia Technologies Oy Method and apparatus for providing virtual audio reproduction
CN107533843B (zh) * 2015-01-30 2021-06-11 Dts公司 用于捕获、编码、分布和解码沉浸式音频的系统和方法
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
KR102617476B1 (ko) * 2016-02-29 2023-12-26 한국전자통신연구원 분리 음원을 합성하는 장치 및 방법
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
KR102561371B1 (ko) 2016-07-11 2023-08-01 삼성전자주식회사 디스플레이장치와, 기록매체
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
MC200185B1 (fr) * 2016-09-16 2017-10-04 Coronal Audio Dispositif et procédé de captation et traitement d'un champ acoustique tridimensionnel
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
MC200186B1 (fr) 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
EP3340648B1 (en) 2016-12-23 2019-11-27 Nxp B.V. Processing audio signals
WO2018132385A1 (en) * 2017-01-12 2018-07-19 Pcms Holdings, Inc. Audio zooming in natural audio video content service
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
CN110463226B (zh) * 2017-03-14 2022-02-18 株式会社理光 声音记录设备,声音系统,声音记录方法和载体装置
EP3605531A4 (en) * 2017-03-28 2020-04-15 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
BR112019021897A2 (pt) * 2017-04-25 2020-05-26 Sony Corporation Dispositivo e método de processamento de sinal, e, programa
GB2562518A (en) * 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
US10299039B2 (en) 2017-06-02 2019-05-21 Apple Inc. Audio adaptation to room
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
AR112504A1 (es) 2017-07-14 2019-11-06 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción multi-capa
CN111108555B (zh) * 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
RU2736418C1 (ru) * 2017-07-14 2020-11-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля
US11004567B2 (en) 2017-08-15 2021-05-11 Koko Home, Inc. System and method for processing wireless backscattered signal using artificial intelligence processing for activities of daily life
JP7175979B2 (ja) * 2017-11-17 2022-11-21 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
US11109178B2 (en) * 2017-12-18 2021-08-31 Dolby International Ab Method and system for handling local transitions between listening positions in a virtual reality environment
EP3729829A1 (en) * 2017-12-19 2020-10-28 Koninklijke KPN N.V. Enhanced audiovisual multiuser communication
RU2707149C2 (ru) * 2017-12-27 2019-11-22 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ модифицирования вывода аудиосигнала устройства
USD882547S1 (en) 2017-12-27 2020-04-28 Yandex Europe Ag Speaker device
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
CN109492126B (zh) * 2018-11-02 2022-03-01 廊坊市森淼春食用菌有限公司 一种智能交互方法及装置
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
US10810850B2 (en) 2019-02-19 2020-10-20 Koko Home, Inc. System and method for state identity of a user and initiating feedback using multiple sources
GB2584838A (en) * 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
GB2584837A (en) * 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
WO2021006871A1 (en) 2019-07-08 2021-01-14 Dts, Inc. Non-coincident audio-visual capture system
GB2586586A (en) * 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2586461A (en) 2019-08-16 2021-02-24 Nokia Technologies Oy Quantization of spatial audio direction parameters
USD947152S1 (en) 2019-09-10 2022-03-29 Yandex Europe Ag Speaker device
GB2587335A (en) 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11719804B2 (en) 2019-09-30 2023-08-08 Koko Home, Inc. System and method for determining user activities using artificial intelligence processing
EP3849202B1 (en) * 2020-01-10 2023-02-08 Nokia Technologies Oy Audio and video processing
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
US11240635B1 (en) * 2020-04-03 2022-02-01 Koko Home, Inc. System and method for processing using multi-core processors, signals, and AI processors from multiple sources to create a spatial map of selected region
US11184738B1 (en) 2020-04-10 2021-11-23 Koko Home, Inc. System and method for processing using multi core processors, signals, and AI processors from multiple sources to create a spatial heat map of selected region
US11962989B2 (en) 2020-07-20 2024-04-16 Orbital Audio Laboratories, Inc. Multi-stage processing of audio signals to facilitate rendering of 3D audio via a plurality of playback devices
EP4226366A2 (en) * 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
MX2023003962A (es) * 2020-10-09 2023-05-25 Fraunhofer Ges Forschung Aparato, metodo, o programa de computadora para procesar una escena de audio codificada utilizando una conversion de parametros.
TWI805019B (zh) * 2020-10-09 2023-06-11 弗勞恩霍夫爾協會 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
CN115472170A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 一种三维音频信号的处理方法和装置
GB2614254A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for generating spatial audio output
CN115086861B (zh) * 2022-07-20 2023-07-28 歌尔股份有限公司 音频处理方法、装置、设备及计算机可读存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4984087A (en) * 1988-05-27 1991-01-08 Matsushita Electric Industrial Co., Ltd. Microphone apparatus for a video camera
JPH03114000A (ja) * 1989-09-27 1991-05-15 Nippon Telegr & Teleph Corp <Ntt> 音声再生方式
JPH07288899A (ja) * 1994-04-15 1995-10-31 Matsushita Electric Ind Co Ltd 音場再生装置
JPH07312712A (ja) * 1994-05-19 1995-11-28 Sanyo Electric Co Ltd ビデオカメラ及び再生装置
JP3830997B2 (ja) * 1995-10-24 2006-10-11 日本放送協会 奥行方向音響再生装置及び立体音響再生装置
JP2002207488A (ja) * 2001-01-01 2002-07-26 Junichi Kakumoto 音響と画像の臨場感を表現し伝達する方式
GB2374507B (en) * 2001-01-29 2004-12-29 Hewlett Packard Co Audio user interface with audio cursor
JP2003244800A (ja) * 2002-02-14 2003-08-29 Matsushita Electric Ind Co Ltd 音像定位装置
JP2003284196A (ja) * 2002-03-20 2003-10-03 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP4134794B2 (ja) * 2003-04-07 2008-08-20 ヤマハ株式会社 音場制御装置
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
WO2007109338A1 (en) 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
US20090299756A1 (en) 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
JP2006074386A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 立体音響再生方法、通信装置及びプログラム
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
TWI330992B (en) 2005-10-20 2010-09-21 Lg Electronics Inc Method for encoding and decoding multi-channel audio signal and apparatus thereof
US8296155B2 (en) 2006-01-19 2012-10-23 Lg Electronics Inc. Method and apparatus for decoding a signal
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
BRPI0707969B1 (pt) 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
CN101690269A (zh) 2007-06-26 2010-03-31 皇家飞利浦电子股份有限公司 双耳的面向对象的音频解码器
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10412482B2 (en) 2017-11-08 2019-09-10 Merry Electronics (Shenzhen) Co., Ltd. Loudspeaker apparatus

Also Published As

Publication number Publication date
CN102859584A (zh) 2013-01-02
AU2010332934A1 (en) 2012-07-26
EP2502228A1 (en) 2012-09-26
BR112012015018A2 (pt) 2022-05-17
MX2012006979A (es) 2012-07-17
CA2784862A1 (en) 2011-06-23
KR20120089369A (ko) 2012-08-09
KR101431934B1 (ko) 2014-08-19
CA2784862C (en) 2020-06-16
RU2586842C2 (ru) 2016-06-10
WO2011073210A1 (en) 2011-06-23
CN102859584B (zh) 2015-11-25
JP5426035B2 (ja) 2014-02-26
US20130016842A1 (en) 2013-01-17
BR112012015018B1 (pt) 2023-11-28
ES2592217T3 (es) 2016-11-28
JP2013514696A (ja) 2013-04-25
US9196257B2 (en) 2015-11-24
AU2010332934B2 (en) 2015-02-19
EP2346028A1 (en) 2011-07-20
TW201146026A (en) 2011-12-16
AR079517A1 (es) 2012-02-01
RU2012132354A (ru) 2014-01-27
EP2502228B1 (en) 2016-06-22
HK1176733A1 (zh) 2013-08-02

Similar Documents

Publication Publication Date Title
TWI523545B (zh) 用以將第一參數式空間音訊信號轉換成第二參數式空間音訊信號的裝置與方法
US20220417695A1 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
EP3197182B1 (en) Method and device for generating and playing back audio signal
US8180062B2 (en) Spatial sound zooming
JP6047240B2 (ja) 空間オーディオ信号の異なる再生スピーカ設定に対するセグメント毎の調整
EP2805326B1 (en) Spatial audio rendering and encoding
KR101540911B1 (ko) 헤드폰 재생 방법, 헤드폰 재생 시스템, 컴퓨터 프로그램 제품
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
EP2613564A2 (en) Focusing on a portion of an audio scene for an audio signal
US11863962B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN111108555A (zh) 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的概念
US20210152969A1 (en) Audio Distance Estimation for Spatial Audio Processing
US11553296B2 (en) Headtracking for pre-rendered binaural audio
Rafaely et al. Spatial audio signal processing for binaural reproduction of recorded acoustic scenes–review and challenges
US20180192186A1 (en) Determining azimuth and elevation angles from stereo recordings
CN114270878A (zh) 声场相关渲染
US20190335272A1 (en) Determining azimuth and elevation angles from stereo recordings
Trevino Lopez et al. Evaluation of different spatial windows for a multi-channel audio interpolation system