TWI818244B - 使用提示資訊項目來合成空間擴展聲源的設備及方法 - Google Patents

使用提示資訊項目來合成空間擴展聲源的設備及方法 Download PDF

Info

Publication number
TWI818244B
TWI818244B TW110109217A TW110109217A TWI818244B TW I818244 B TWI818244 B TW I818244B TW 110109217 A TW110109217 A TW 110109217A TW 110109217 A TW110109217 A TW 110109217A TW I818244 B TWI818244 B TW I818244B
Authority
TW
Taiwan
Prior art keywords
channel
sound source
audio
spatially extended
extended sound
Prior art date
Application number
TW110109217A
Other languages
English (en)
Other versions
TW202143749A (zh
Inventor
汝根 赫爾
亞歷山大 阿達米
卡洛塔 阿尼姆勒
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202143749A publication Critical patent/TW202143749A/zh
Application granted granted Critical
Publication of TWI818244B publication Critical patent/TWI818244B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

一種用於合成一空間擴展聲源的設備,包括:一空間資訊界面(100),用於接收一空間範圍指示,該空間範圍指示指出該空間擴展聲源在一最大空間範圍(600)內的一有限空間範圍;一提示資訊提供器(200),用於響應於該有限空間範圍而提供一個或多個提示資訊項目;以及一音訊處理器(300),用於使用該一個或多個提示資訊項目來處理表示該空間擴展聲源的一音訊訊號。

Description

使用提示資訊項目來合成空間擴展聲源的設備及方法
本發明是關於音訊訊號處理,特別是關於一種或多種空間擴展聲源的再現。
對於各種應用,需要通過多個揚聲器或耳機再現聲源。這些應用程式包括6自由度(6-Degrees-of-Freedom,6DoF)虛擬、混合或增強現實應用程式。在此類設置上重現聲源的最簡單方法是將其渲染為點聲源。但是,當要以不可忽略的聽覺空間範圍再現物理聲源時,此模型是不夠的。這樣的聲源的例子是三角鋼琴、合唱團或瀑布,它們都具有一定的“大小(size)”。
具有空間範圍的真實聲源再現,已經成為許多聲音再現方法的目標。這包括使用耳機進行雙耳再現,以及使用揚聲器設置進行常規再現,揚聲器設置範圍從2個揚聲器(“立體聲”)到水平佈置的許多揚聲器(“環繞聲”),以及在所有三個維度上,環繞收聽者的許多揚聲器(“3D音訊”)。在下文中,給出了現有方法的描述。因此,將不同的方法分組為考慮2D或3D空間中的源寬度(source width)的方法。
描述了從收聽者的角度面對的2D表面上渲染空間擴展聲源(spatially extended sound sources,SESS)有關的方法。例如,這可以在零仰角的某個方位角範圍內(就像傳統的立體聲/環繞聲一樣),或者在某些方位角和仰角範圍內(例如3D音訊或虛擬實境(Virtual Reality,VR)中的情況,其中用戶運動的3自由度(3-Degrees-of-Freedom,3DoF),即頭部在俯仰/ 偏航/側傾軸上的旋轉)。
在兩個或多個揚聲器之間增加平移的音訊對象的視在寬度(生成所謂的幻像或幻像源),可以通過減小參與頻道訊號的相關性來實現文獻[1,p.241-257]。
隨著相關性的降低,幻像源的擴展增加,直到相關值接近零為止,它覆蓋了揚聲器之間的整個範圍。源訊號與裝飾相關的版本是通過推導並應用適當的去相關濾波器而獲得的。文獻Lauridsen[2]提議對源訊號本身加上/減去時間延遲和縮放的版本,以獲得訊號的兩個去相關版本。例如,文獻Kendall[3]提出了更複雜的方法。他基於隨機數序列的組合迭代得出配對的去相關全通濾波器。文獻Faller在[4,5]中提出合適的去相關濾波器(“擴散器”)。另外,文獻Zotter[6]推導了濾波器對(filter pairs),其中依賴於頻率的相位或幅度差用於實現幻像源的加寬。文獻Alary[7]擬議的基於天鵝絨噪聲的去相關濾波器,文獻Schlecht[8]進一步進行了最佳化。
除了減少幻像源相應頻道訊號的相關性之外,還可以通過增加歸因於音訊對象的幻像源的數量來增加源寬度。在文獻[9]中,通過將同一源訊號平移到(略微)不同的方向來控制源寬度。最初提出的方法是穩定在聲音場景中移動的文獻VBAP-panned[10]源訊號的感知幻像源傳播。這是有利的,因為取決於源的方向,渲染的源由兩個或多個揚聲器再現,這可能導致感知的源寬度發生不希望的改變。
虛擬世界,文獻DirAC[11]是傳統定向音訊編碼(DirAC),文獻[12]方法的擴展,用於在虛擬世界中進行聲音合成。為了呈現空間範圍,訊號源的定向聲音分量會圍繞訊號源的原始方向在一定範圍內隨機平移,而平移方向會隨時間和頻率而變化。
在文獻[13]中採用了類似的方法,其中空間範圍是通過將源訊號的頻帶隨機分配到不同的空間方向來實現的。這是一種主要目的在產生從各個方向均等地產生的空間分佈和包圍聲音,而不是控制精確程度的方法。
Verron通過不使用聲像相關訊號,而是通過合成源訊號的多個不相干版本,將它們均勻地分佈在收聽者周圍的一個圓上,並在它們之間進行混合,來實現源的空間範圍,文獻[14]。同時致動的光源的數量和增益決定了加寬效果的強度。該方法被實現為環境聲音合成器的空間擴展。
描述了與在3D空間中渲染擴展聲源有關的方法,即以具有用戶運動的6DoF的VR所需的體積方式。這些6度的自由度包括頭部在俯仰/偏航/側傾軸上的旋轉以及3個平移運動方向x/y/z。
Potard通過研究聲源形狀的感知,將聲源區域的概念擴展為聲源的一維參數(即,它在兩個揚聲器之間的寬度),文獻[15]。他們通過對原始源訊號應用(隨時間變化的)去相關技術,然後將不相干源放置在不同的空間位置上,從而提供了三維範圍,文獻[16],從而生成了多個不相干點源。
在文獻MPEG-4 Advanced AudioBIFS[17]中,可以用幾個均勻分佈且去相關的聲源填充體積的對象/形狀(去殼、盒子、橢圓形及圓柱體),以喚起三維聲源區域。
最近,文獻Schlecht[18]提出了一種方法,將SESS幾何形狀的凸外殼(convex hull)朝向收聽者位置投影,這允許將SESS呈現在收聽者的任何相對位置。與MPEG-4 Advanced AudioBIFS相似,然後在此投影中放置幾個去相關的點源。
為了增加和控制使用Ambisonics的聲源區域,文獻Schmele[19]提出了一種混合方法,即降低輸入訊號的Ambisonics階數,從而固有地增加視在訊號源的寬度,並在收聽空間周圍分配源訊號的去相關的副本。
Zotter介紹了另一種方法,他們採用了文獻[6]中提出的原理用於Ambisonics(即,得出引入頻率相關的相位和幅度差以實現立體聲再現設置中的訊號源擴展的濾波器對),文獻[20]。
基於平移的方法(例如文獻[10、9、12、11])的常見缺點是 它們依賴於收聽者的位置。即使從最佳位置偏離很小,也會導致空間圖像塌陷到最靠近收聽者的揚聲器中。這極大地限制了它們在VR和擴增實境(Augmented Reality,AR)的環境中的應用,在這種情況下,收聽者應該可以自由移動。另外,在基於DirAC的方法(例如文獻[12,11])中分佈時頻點並不總是保證幻像源空間範圍的正確渲染。此外,它通常會大大降低源訊號的音質。
通常通過以下方法之一實現源訊號的去相關:i)推導具有互補幅度的濾波器對(例如文獻[2]),或ii)使用幅度恆定但(隨機)加擾的全通濾波器(例如文獻[3,16])。此外,通過在空間上隨機分佈源訊號的時頻點來獲得源訊號的加寬(例如文獻[13])。
所有方法都有其自身的含義:根據i)對源訊號進行補充濾波通常會導致去相關訊號的感知音色發生變化。儘管ii)中的全通濾波可以保留源訊號的音色,但加擾的相位會破壞原始相位關係,尤其是對於瞬態訊號而言,會導致嚴重的色散(dispersion)和拖影(smearing artifacts)。時空分佈在空間上的分佈對某些訊號是有效的,但也會改變訊號的感知音色。它顯示出高度依賴訊號,並為脈衝訊號引入了嚴重的偽影。
如Advanced AudioBIFS(文獻[17,15,16])所述,使用多個去相關版本的源訊號填充體積形狀時,假設可以使用大量產生相互去相關的輸出訊號的濾波器(通常,每個體積形狀使用十個以上的點源)。但是,找到這樣的過濾器並不是一件容易的事,並且越需要更多的這種過濾器就變得更加困難。如果源訊號不完全去相關,並且收聽者在這種形狀附近移動,例如在VR場景中,則到收聽者的各個源距離對應於源訊號的不同延遲。因此,它們在收聽者耳朵上的疊加將導致位置相關的梳狀濾波,從而可能引入煩人的不穩定的源訊號著色。此外,許多去相關濾波器的應用意味著大量的計算複雜性。
類似的考慮適用於文獻[18]中描述的方法,其中許多去相關的點源放置在SESS幾何體的凸外殼投影上。儘管作者沒有提及有關所需數量的去相關輔助源的任何內容,但可能需要大量才能實現令人信服的源 區域。這導致了前面段落中已經討論過的缺點。
使用文獻[19]中所述的基於Ambisonics的技術通過降低Ambisonics的階數來控制源寬度,僅對從2階到1階或到0階的轉換具有聽覺效果。這些過渡不僅被視為源的擴大,而且經常被視為幻像源的運動。雖然添加源訊號的去相關版本可以幫助穩定對顯現光源寬度的感知,但它還引入了梳狀濾波器效果,從而改變了幻像源的音色。
本發明的目的是提供一種合成空間擴展聲源的改進概念。
目的是通過請求項1的用於合成空間擴展聲源的設備,請求項23的用於合成空間擴展聲源的方法或請求項24的電腦程式來實現。
本發明基於以下發現:可以通過使用空間範圍指示來有效地實現空間擴展聲源的再現,該空間範圍指示為最大空間範圍內的空間擴展聲源指示有限的空間目標範圍。基於空間範圍指示,尤其是基於有限空間範圍,提供一個或多個提示資訊項目,並且處理器使用一個或多個提示項處理表示空間擴展聲源的音訊訊號。
該過程實現了空間擴展聲源的高效處理。對於耳機再現,例如,僅需要兩個雙耳頻道,即左雙耳頻道或右雙耳頻道。對於立體聲再現,也僅需要兩個聲道。因此,與使用大量外圍聲源來合成空間擴展聲源相反,這些外圍聲源填充了空間擴展聲源的實際體積或面積,或者通常由於它們的單獨放置而填充了有限的空間範圍,根據本發明,這不是必需的,因為空間擴展的聲源不是使用放置在體積內的相當數量的單個聲源來渲染的,但是當在兩個或三個位置接收到大量外圍單個聲源時,將使用兩個或可能三個具有彼此暗示的頻道來渲染空間擴展聲源。
因此,與現有的真實地再現空間擴展聲源(SESS)的不同方法相反,在這些現有方法中,這些現有方法通常需要大量去相關的輸入訊號,本發明朝著不同的方向發展。就計算複雜度而言,產生這種去相關的輸入訊號可能是相對昂貴的。較早的現有方法還可能通過音色差異或音色拖影 來損害聲音的感知質量。而且,找到大量相互正交的去相關器通常不是容易解決的問題。因此,除了所需的大量計算資源之外,這種較早的過程總是導致相互去相關的程度與引入的訊號劣化之間的折衷。
與此相反,本發明僅使用兩個去相關的輸入訊號就空間上擴展的聲源合成了所產生的少量聲道,例如所產生的左聲道和所產生的右聲道。較佳地,合成結果是用於耳機再現的左耳訊號和右耳訊號。然而,對於其他種類的再現場景,例如揚聲器渲染或主動降低串擾的揚聲器渲染,也可以應用本發明。與其在空間中擴展空間聲源的體積中的不同位置放置許多與去相關的聲音訊號不同,響應於從空間資訊界面接收到的有限空間範圍指示,使用從提示資訊提供者取得的一個或多個提示資訊項目來處理由一個或多個頻道組成的用於空間擴展聲源的音訊訊號。
較佳實施例主要在於有效地合成用於耳機再現的SESS。因此,綜合基於描述SESS的基礎模型,通過(理想)無限數量的密集間隔的去相關點源分佈在整個源區域的範圍內。期望的源區域的範圍可以表示為方位角和仰角的函數,這使得本發明的方法可應用於3DoF應用。然而,通過如[18]中所述,朝著當前收聽者位置的方向連續投影SESS幾何形狀,可以擴展到6DoF應用。作為一個具體示例,期望的源區域在下文中根據方位角和仰角範圍進行描述。
進一步的較佳實施例,依賴於使用頻道間相關值作為提示資訊,或者另外使用頻道間相位差、頻道間時間差,電平間差和增益因子或一對第一和第二增益因子資訊項目。因此,可以通過兩個增益因子或單個增益因子來設置頻道的絕對電平,以及頻道間電平差。除了實際提示項以外,任何音訊過濾器功能都可以使用,或者除了實際提示項之外,還可以作為提示資訊項目提供,從提示資訊提供者到音訊處理器,以便音訊處理器通過合成,例如,兩個輸出頻道,例如兩個雙耳輸出頻道,或使用實際提示項的一對左右輸出頻道,並且,通常使用與每個頻道的頭部相關傳遞函數作為提示資訊進行過濾,或者使用與頭部相關的衝動響應功能作為提示資訊,或使用雙耳或(非雙耳)房間衝動響應功能作為提示資訊。通常, 僅設置單個提示項就足夠了,但是在更詳細的實施例中,音訊處理器可以在音訊訊號上施加一個以上帶有或不帶有過濾器的提示項。
因此,在一個實施例中,當提供頻道間相關值作為提示資訊時,並且其中音訊訊號包括用於空間擴展聲源的第一音訊頻道和第二音訊頻道,或者其中音訊訊號包括第一音訊頻道,第二音訊頻道由第二頻道處理器從第一音訊頻道取得,例如執行去相關處理或神經網絡處理或任何其他用於導出一個可以被視為去相關訊號(decorrelated signal)的訊號的處理,該音訊處理器被配置為使用頻道間相關值在第一音訊頻道和第二訊頻道之間施加相關性,或者在此處理之前或之後,還可以應用音訊濾波器功能,以便最終獲得具有由頻道間相關值指示的目標頻道間相關性的兩個輸出頻道,並且還具有由各個過濾器功能或其他實際提示項指示的其他關係。
提示資訊提供者可以實現為一個包含記憶體的查找表(look-up table),或者實現為高斯混合模型,或者實現為支持向量機,或者實現為向量密碼本,多維函數擬合或某些其他可有效響應空間範圍指示提供所需提示的裝置。
例如,在查找表的示例中,或在向量密碼本或多維函數擬合的示例中,或者在高斯混合模型(GMM)或支持向量機(SVM)的示例中,可能已經提供了預先知識,因此,空間資訊界面的主要任務是實際在所有可用候選空間範圍中找到與輸入的空間範圍指示資訊盡可能匹配的匹配候選空間範圍。該資訊可以直接由用戶提供,也可以使用有關空間擴展聲源的資訊,並且通過某種投影使用收聽者位置或收聽者方位(例如,由頭部跟踪器或此類設備確定)來計算。對象的幾何形狀或大小以及收聽者和對象之間的距離可能足以得出張開角度,從而得出聲源渲染的有限空間範圍。在其他實施例中,當由界面資訊接收的數據已經是提示資訊提供者可以使用的格式時,空間資訊界面僅僅是用於接收有限的空間範圍並將該數據轉發給提示資訊提供者的輸入。
10:空間資訊界面
100:用戶接收界面
120:投影計算器
140:空間範圍確定器
180:比特流解復用器
190:音訊解碼器
200:提示資訊提供器
210:查找表
220:選擇功能框
300:音訊處理器
305:音訊訊號界面
310:第二頻道處理器
S、S1:第一音訊頻道
S2:第二音訊頻道
G1、G2:增益因子項
20c:較低流量填充閥
21:次級流路
22:排放閥
22a:高流量排放閥
22b:低流量排放閥
22c:較低流量排放閥
23:輸入端
24:控制器
25:電路
26:壓力感測器
27:訊號微分電路
28:閥驅動器電路
29:感測器校正電路
30:輔助排出口
32:殼體
46:閥杆
48:閥構件
50:閥孔
接著,參考圖式討論本發明的最佳實施例,其中:圖1a說明用於合成空間擴展聲源的設備的最佳實施方式。
圖1b說明音訊處理器和提示資訊提供器的另一實施例。
圖2說明圖1a的音訊處理器中包括的第二頻道處理器的最佳實施例。
圖3說明用於執行ICC調節的設備的最佳實施方式。
圖4說明本發明的最佳實施例,其中提示資訊項目依賴於實際提示項和過濾器。
圖5說明另外依賴濾波器和頻道間相關項的另一個實施例。
圖6說明示意性扇區圖,扇區圖顯示了二維或三維情況下的最大空間範圍以及可以用作例如候選扇區的單個扇區或有限的空間範圍。
圖7說明空間資訊界面的實現。
圖8說明依賴於投影計算過程的空間資訊界面的另一種實現方式。
圖9a及9b說明用於執行投影計算和空間範圍確定的實施例。
圖10說明空間資訊界面的另一種最佳實現。
圖11說明與解碼器實施方式有關的空間資訊界面的另一實施方式。
圖12說明球體空間擴展聲源的有限空間範圍的計算。
圖13說明橢圓體空間擴展聲源的有限空間範圍的進一步計算。
圖14說明線空間擴展聲源的有限空間範圍的進一步計算。
圖15說明用於計算長方體空間擴展聲源的有限空間範圍的進一步說明。
圖16說明用於計算球體空間擴展聲源的有限空間範圍的另一個示例。
圖17說明具有近似參數橢球體形狀的鋼琴形狀的空間擴展聲源。
圖18說明用於定義有限空間範圍的點,這些有限空間範圍用於渲染鋼琴形的空間擴展聲源。
圖1a說明用於合成空間擴展聲源的設備的一最佳實施方式。該設備包括一空間資訊界面10,該空間資訊界面10接收一空間範圍指示 資訊輸入,該資訊指示一最大空間範圍內的空間擴展聲源的一有限空間範圍。該有限空間範圍被輸入到一提示資訊提供器200中,該提示資訊提供器200被配置為響應於由該空間資訊界面10給出的有限空間範圍來提供一個或多個提示資訊項目。該提示資訊項目或多個提示資訊項目被提供給一音訊處理器300,該音訊處理器300被配置為使用由該提示資訊提供器200提供的一個或多個提示資訊項目來處理表示該空間擴展聲源的音訊訊號。用於該空間擴展聲源(spatially extended sound source,SESS)的音訊訊號可以是單個聲道,或者可以是第一音訊頻道和第二音訊頻道道,或者可以是兩個以上的音訊頻道。然而,出於具有低處理負荷的目的,用於該空間擴展聲源或代表該空間擴展聲源的音訊訊號的少量頻道是最佳的。該音訊訊號被輸入到該音訊處理器300的音訊訊號界面305中,並且該音訊處理器300處理由該音訊訊號界面接收的輸入音訊訊號,或者,當輸入音訊頻道的數量小於所需的數量(例如僅一個)時,該音訊處理器包括圖2所示的第二頻道處理器310,該第二頻道處理器310包括如去相關器用於產生與第一音訊頻道S去相關的第二音訊頻道S2,該第一音訊頻道在圖2中也被示為S1。該提示資訊項目可以是實際的提示項,例如頻道間相關項,頻道間相位差項,頻道間電平差和增益項,增益因子項G1,G2,一起表示頻道間電平差和/或絕對振幅或功率或能量水平,例如,或者提示資訊項目也可以是實際的濾波器功能,例如與頭部相關的傳遞函數,其數量與合成訊號中要被合成的輸出頻道的實際數量所要求的數量相同。因此,當合成訊號要具有兩個聲道,例如兩個雙耳聲道或兩個揚聲器聲道時,每個聲道都需要一個與頭部相關的傳遞函數。代替頭部相關的傳遞函數,頭部相關的衝激響應函數(head related impulse response,HRIR)或雙耳或非雙耳室衝激響應函數(B)RIR是必需的。如圖1a所示,每個頻道都需要一個這樣的傳遞函數,圖1a說明具有兩個頻道的實現,因此索引指示“1”和“2”。
在一個實施例中,該提示資訊提供器200被配置為提供頻道間相關值作為提示資訊項目。該音訊處理器300被配置為經由該音訊訊號界面305實際接收第一音訊頻道和第二音訊頻道。然而,當該音訊訊號界 面305僅接收單個頻道時,可選地提供的第二頻道處理器例如借助於圖2中的過程來產生第二音訊頻道。該音訊處理器執行相關處理,以使用頻道間相關值在第一音訊頻道和第二音訊頻道之間施加相關性。
附加地或可替代地,可以提供另外的提示資訊項目,例如頻道間相位差項、頻道間時間差項,頻道間電平差和增益項,或第一增益因子和第二增益因子資訊項目。該多個項也可以是耳間(IACC)相關值,即,更具體的頻道間相關值,或耳間相位差項(IAPD),即,更具體的頻道間相位差值。
在最佳實施例中,在執行ICPD、ICTD或ICLD調整之前,或者在執行HRTF或其他傳輸濾波器功能處理之前,由該音訊處理器300響應於相關提示資訊項目而施加相關性。但是,視情況而定,可以不同地設置順序。
在最佳實施例中,該音訊處理器包括用於儲存關於與不同空間範圍指示有關的不同提示資訊項目的資訊的記憶體。在這種情況下,提示資訊提供者還包括一輸出界面,用於從記憶體中檢索與輸入到相應的記憶體中的該空間範圍指示相關聯的一個或多個提示資訊項目。這樣的查找表210例如在圖1b、圖4或圖5中示出,其中查找表包括記憶體和用於輸出相應提示資訊項目的輸出界面。特別地,記憶體不僅可以儲存如圖1b所示的IACC、IAPD或Gl和Gr值,該查找表內的記憶體還可以儲存如圖4和圖5的框220所示的過濾器功能,指示為“選擇HRTF”。在該實施例中,儘管在圖4和圖5中分別示出,但是框210、220可以包括相同的記憶體,其中,與指示為方位角和仰角的對應的空間範圍指示相關聯,對應的提示資訊項目,如IACC和IAPD之類的參數以及用於濾波器的傳遞函數(例如用於左輸出頻道的HRTFl和用於右輸出頻道的HRTFr)被儲存,其中,在圖4或圖5或圖1b中,將左和右輸出頻道分別表示為Sl和Sr
該查找表210或選擇功能框220使用的記憶體還可以使用儲存設備,在其中基於某些扇區代碼或扇區角度或扇區角度範圍,有相應的參數可用。可選地,記憶體可以視情況儲存向量密碼本或多維函數擬合例 程,或高斯混合模型(GMM)或支持向量機(SVM)。
給定所需的源區域範圍,可以使用兩個去相關的輸入訊號來合成SESS。這些輸入訊號的處理方式應能正確再現感知上重要的聽覺提示。這包括以下聽覺提示:聽覺互相關(Interaural Cross Correlation,IACC)、聽覺相位差(Interaural Phase Differences,IAPD)和聽覺水平差(Interaural Level Differences,IALD)。除此之外,還再現了單聲道頻譜提示。這些對於在垂直平面上進行聲源定位至關重要。儘管IAPD和IALD對於本地化也很重要,眾所周知,IACC是在水平面感知光源寬度的關鍵提示。在運行期間,將從預先計算的儲存中檢索這些提示的目標值。在下文中,查找表用於此目的。但是,還有其他儲存多維數據的方法,例如可以使用向量密碼本或多維函數擬合。除了所考慮的源區域的範圍之外,所有提示僅取決於所使用的頭部相關傳遞函數(Head-Related Transfer Function,HRTF)數據集。後來,給出了不同聽覺提示的推導。
在圖1b中,顯示所提出的方法的總體框圖。[Φ 1 2]根據方位角範圍描述所需的源區域。[θ 1 2]是根據仰角範圍所需的源區域。S 1(ω)和S 2(ω)表示兩個去相關的輸入訊號,其中ω描述頻率索引。因此,對於S 1(ω)和S 2(ω),以下等式成立:
Figure 110109217-A0305-02-0013-33
另外,兩個輸入訊號都必須具有相同的功率譜密度。作為替代,可以僅給出一個輸入訊號S(ω)。第二輸入訊號是使用去相關器在內部產生的,如圖2所示。在給定S l (ω)和S r (ω)的情況下,通過依次調整頻道間相干性(Inter-Channel Coherence,ICC),頻道間相位差(Inter-Channel Phase Differences,ICPD)和頻道間電平差(Inter-Channel Level Differences,ICLD)來合成擴展聲源相應的聽覺提示。這些處理步驟所需的數量是從預先計算的查訊表中讀取的。產生的左右聲道訊號S l (ω)和S r (ω)可以通過耳機播放,類似於SESS。應該注意的是,必須首先執行ICC調整,但是ICPD和ICLD調整塊可以互換。代替IAPD,也可以複製相應的聽覺間時差(Interaural Time Differences,IATD)。但是,在下文中,僅考慮了IAPD。
在ICC調整塊中,兩個輸入訊號之間的互相關被調整為期望值|IACC(ω)|。使用以下公式[21]:
Figure 110109217-A0305-02-0014-2
Figure 110109217-A0305-02-0014-3
Figure 110109217-A0305-02-0014-4
Figure 110109217-A0305-02-0014-5
只要輸入訊號S 1(ω)和S 2(ω)完全去相關,應用這些公式即可得到所需的互相關。另外,它們的功率譜密度需要相同。相應的框圖如圖3所示。
ICPD調整框由以下公式描述:
Figure 110109217-A0305-02-0014-6
Figure 110109217-A0305-02-0014-7
最後,ICLD調整如下:
Figure 110109217-A0305-02-0014-8
Figure 110109217-A0305-02-0014-9
其中,G l (ω)描述左耳增益,而G r (ω)描述右耳增益。只要
Figure 110109217-A0305-02-0014-40
(ω)和
Figure 110109217-A0305-02-0014-39
(ω)確實具有相同的功率譜密度,就可以得到所需的ICLD。由於直接使用左耳和右耳增益,因此除了IALD之外,還再現了單聲道頻譜提示。
為了進一步簡化先前討論的方法,描述了兩種簡化方法。如前所述,影響感知空間範圍(在水平面內)的主要聽覺提示是IACC。因此可以想像,不使用預先計算的IAPD和/或IALD值,而是直接通過HRTF進行調整。為此,使用與代表所需源區域範圍的位置相對應的HRTF。作為該位置,此處可以選擇所需方位角/高度範圍的平均值,而不會失去一般性。在下文中,給出了兩個選項的描述。第一種選項涉及使用預先計算的IACC和IAPD值。但是,使用與源區域範圍中心相對應的HRTF來調整ICLD。
第一種選項的框圖如圖4所示。現在使用以下公式計算S l (ω) 和S r (ω):
Figure 110109217-A0305-02-0015-10
Figure 110109217-A0305-02-0015-11
其中
Figure 110109217-A0305-02-0015-16
Figure 110109217-A0305-02-0015-13
來描述位置,代表所需方位角/仰角範圍平均值的HRTF的角度。第一種選項的主要優點包括:
˙與源區域範圍中心的點源相比,當源區域增加時,沒有光譜整形/著色。
˙相比於完全成熟(full-blown)的低儲存需求,G l (ω)和G r (ω)不必儲存在查找表中。
與完整方法相比,在運行時對HRTF數據集的更改更靈活,因為僅產生的ICC和ICPD,而不是ICLD取決於預計算期間使用的HRTF數據集。
與未擴展的源相比,此簡化版本的主要缺點是,只要IALD發生重大變化,它都會失敗。在這種情況下,將不會以足夠的精度複製IALD。例如,當源未集中在0°方位角附近,並且同時源在水平方向上的範圍變得太大時,就是這種情況。
第二種選項僅涉及使用預先計算的IACC值。使用與源區域範圍中心相對應的HRTF調整ICPD和ICLD。
第二種方法的框圖如圖5所示。現在使用以下公式計算S l (ω)和S r (ω):
Figure 110109217-A0305-02-0015-14
Figure 110109217-A0305-02-0015-15
與第一種選項相反,現在使用HRTF的相位和幅度,而不僅僅是幅度。這不僅可以調整ICLD,還可以調整ICPD。第二種選項的主要優點包括:
˙對於第一種選項,與源區域範圍中心的點源相比,增加源區域時,不會發生光譜整形/著色。
˙甚至比第一個選項更低的儲存要求,因為G l (ω)和G r (ω)或IAPD都不必儲存在查找表中。
˙與第一種選項相比,它在運行時更靈活地更改HRTF數據集。僅產生的ICC取決於預計算期間使用的HRTF數據集。
˙可以有效地集成到現有的雙耳渲染系統中,只需兩個不同的輸入,
Figure 110109217-A0305-02-0016-34
(ω)和
Figure 110109217-A0305-02-0016-35
(ω),必須用於產生左右耳訊號。
對於第一種選項,與未擴展的源相比,只要IALD發生重大變化,此簡化版本都將失敗。此外,與未擴展的來源相比,IAPD的更改不應太大。但是,由於擴展源的IAPD與源區域範圍中心的點源的IAPD相當接近,因此預計後者不會成為大問題。
圖6說明示例性示意性扇區圖。特別地,示意性扇區圖在600處顯示,並且示意性扇區圖600示出最大空間範圍。當示意性扇區圖被視為球體的三維表面的二維示意圖時,其目的是通過顯示方位角和仰角範圍從0°到360°(對於方位角)和從-90°到+90°的仰角,顯而易見的是,當將原理圖扇區圖包裝到一個球體上並且將收聽者位置放置在球體中心內時,某些實例示例性地說明了所有單個扇區,即S1到S24可以細分,將整個球體表面分成扇區。因此,例如當應用圖1b、圖4、圖5的符號時,扇區S3相對於從Φ1=60°直到Φ2至90°的方位角範圍延伸。扇區S3示例性地在-30°和0°之間的仰角範圍內延伸。
但是,當收聽者未放置在球體的中心內,而是相對於球體放置在某個位置時,也可以使用示意性扇區圖600。在這種情況下,只有球體的某些扇區是可見的,但是對於球體的所有扇區,沒有必要提供某些提示資訊。僅對於某些(所需)扇區,某些線索資訊項目是可用的,這些線索資訊項目較佳地是如稍後所討論的那樣預先計算的或者可替代地通過測量而獲得。
可選地,示意性扇區圖可以被視為二維最大範圍,其中可以定位空間擴展聲源。在這種情況下,水平距離在0%到100%之間延伸,垂直距離在0%到100%之間延伸。可以通過某個絕對比例因子將實際垂 直距離或延伸以及實際水平距離或延伸映射到絕對距離或延伸。例如,當縮放比例為10米時,25%對應於水平方向上的2.5米。在垂直方向上,縮放因子可以與水平方向上的縮放因子相同或不同。因此,對於水平/垂直距離/延伸示例,扇區S5將相對於水平尺寸在(最大)縮放因子的33%和42%之間延伸,而且扇區S5將在垂直範圍內在垂直比例因子的33%和50%之間延伸。因此,例如,球體或非球體的最大空間範圍可以細分為有限空間範圍或扇區S1至S24。
為了使光柵有效地適應人類的聽覺感知,較佳地在垂直或仰角方向上具有較低的分辨率,而在水平或方位角方向上具有較高的分辨率。示例性地,可以僅使用覆蓋整個仰角範圍的球體的扇區,這意味著從例如S1至S12可作為不同的行業或有限空間範圍使用,其中水平尺寸由一定的角度值給定,垂直尺寸對於每個扇區從-90°到+90°延伸。自然地,也可以使用其他扇區技術,例如在圖6中有24個扇區,其中扇區S1到S12對於每個扇區覆蓋-90°和0°之間的整個高程或垂直範圍,或者在0%到50%之間,其中其他扇區S13至S24覆蓋從0°到90°的仰角之間的上半球,或覆蓋範圍在50%到100%之間的“地平線”的上半部分。
圖7說明圖1a的空間資訊界面10的較佳實施方式。特別地,空間資訊界面包括用於接收空間範圍指示的實際(用戶)接收界面。空間範圍指示可以由用戶自己輸入,也可以在虛擬實境的情況下從頭部跟踪器資訊中得出,或者增強匹配器30將實際接收的有限空間範圍與從提示資訊提供器200已知的可用候選空間範圍進行匹配,以便找到最接近實際輸入的有限空間範圍的匹配候選空間範圍。基於該匹配的候選空間範圍,來自圖1a的提示資訊提供器200傳遞一個或多個提示資訊項目,如頻道間數據或過濾器功能。匹配的候選空間範圍或有限空間範圍可以包括一對方位角或一對仰角或兩者,例如如圖1b所示,說明扇區的方位角範圍和仰角範圍。
可替代地,如圖6所示,可以通過關於水平距離的資訊,關於垂直距離的資訊或關於垂直距離的資訊以及關於水平距離的資訊來限制有限空間範圍。當以二維光柵化最大空間範圍時,不僅單個垂直或水平距 離足夠,而且如扇區S5所示,一對垂直距離和水平距離也是必要的。再次可選地,有限空間範圍資訊可以包括將有限空間範圍識別為最大空間範圍的特定扇區的代碼,其中最大空間範圍包括多個不同的扇區。這樣的代碼例如由標記S1至S24給出,因為每個代碼在示意性扇區圖600處唯一地與某個幾何二維或三維扇區相關聯。
圖8說明空間資訊界面的另一實施方式,該空間資訊界面再次由用戶接收界面100組成,但是現在另外由投影計算器120和隨後連接的空間範圍確定器140組成。該用戶接收界面100示例性地接收收聽者位置,其中收聽者位置包括用戶在特定環境中的實際位置和/或用戶在特定位置處的方位。因此,收聽者的位置可能與實際位置或實際方位或兩者,實際收聽者的位置和實際收聽者的方位有關。基於該數據,該投影計算器120使用關於空間擴展聲源的資訊來計算所謂的外殼投影數據。SESS資訊可以包括空間擴展聲源的幾何形狀和/或空間擴展聲源的位置和/或空間擴展聲源的方向等。基於外殼投影數據,該空間範圍確定器140在圖6所示的替代方案之一中確定有限空間範圍,或如關於圖10、11或圖12至圖18所討論的,其中有限空間範圍是由圖12和圖18之間的示例中所示的兩個或多個特徵點給出的,其中特徵點集始終從整個空間範圍定義了某個有限的空間範圍。
圖9a和圖9b說明計算由圖8的框120輸出的外殼投影數據的不同方式。在圖9a的實施例中,空間資訊界面被配置為使用以下方法計算空間擴展聲源的外殼,作為關於空間擴展聲源的資訊,如框121所示,空間擴展聲源的幾何形狀。使用收聽者的位置,將空間擴展聲源的外殼朝向收聽者投影122,以獲得二維或三維外殼在投影平面上的投影。可替代地,如圖9b中所示,空間擴展聲源,特別是由關於空間擴展聲源的幾何形狀的資訊所定義的空間擴展聲源的幾何形狀朝著框123所示的收聽者位置的方向投影,並且如框124所示,計算投影幾何體的外殼,以獲得二維或三維外殼在投影平面上的投影。有限空間範圍表示圖9a實施例中的投影外殼或圖9b實施方案獲得的投影幾何的外殼的垂直/水平或方位/高度延伸 量。
圖10說明空間資訊界面10的較佳實施方式。它包括收聽者位置界面100,其在圖8中也被顯示為用戶接收界面。另外,也如圖8所示,輸入空間擴展聲源的位置和幾何形狀,還提供了投影器120和計算器140,用於計算有限空間範圍。
圖11說明空間資訊界面的較佳實施方式,該空間資訊界面包括界面100、一投影器120和一有限空間範圍位置計算器140。該界面100被配置用於接收收聽者位置。該投影器120被配置為使用該界面100所接收的收聽者位置來計算與空間擴展聲源相關聯的二維或三維外殼在投影平面上的投影,另外使用關於空間擴展聲源的幾何形狀的資訊,並且使用關於空間擴展聲源在空間中的位置的資訊。較佳地,空間中的空間擴展聲源的定義位置以及空間中的空間擴展聲源的幾何形狀被接收,用於經由到達比特流解復用器或場景解析器180的比特流來再現空間擴展聲源。該比特流解復用器180從比特流中提取空間擴展聲源的幾何資訊,並將該資訊提供給投影器。比特流解復用器還從比特流中提取空間擴展聲源的位置,並將此資訊轉發給投影器。
較佳地,比特流還包括具有一個或兩個不同音訊訊號的用於SESS的音訊訊號,並且較佳地,比特流解復用器還從比特流中提取一個或多個音訊訊號的壓縮表示,以及一個或多個訊號被作為音訊解碼器190的解碼器解壓縮/解碼。解碼後的一個或多個訊號最終例如被轉發到圖1a的音訊處理器300,而且處理器使至少兩個聲源與圖1a的提示資訊提供器200提供的提示項一致。
儘管圖11顯示與比特流有關的再現設備,該再現設備具有一比特流解復用器180和一音訊解碼器190,但是再現還可以在不同於編碼器/解碼器場景的情況下進行。例如,空間中定義的位置和幾何形狀可能已經存在於諸如虛擬實境或擴增實境的場景之類的再現設備中,其中數據在現場產生並在同一站點上消費。該比特流解復用器180和該音訊解碼器190實際上不是必需的,並且空間擴展聲源的幾何形狀和空間擴展聲源的 位置的資訊是可用的,而無需從比特流中提取任何資訊。
隨後討論本發明的較佳實施例。具體實施方式涉及在6DoF VR/AR(虛擬實境/擴增實境)中渲染空間擴展聲源。
本發明的較佳實施例針對一種被設計為增強空間擴展聲源(SESS)的再現的方法、裝置或電腦程式。特別地,本發明的方法或設備的實施例考慮了空間擴展聲源與虛擬收聽者位置之間的時變相對位置。換句話說,本發明的方法或設備的實施例允許聽覺源寬度在與收聽者相對的任何位置處匹配所表示的聲音對象的空間範圍。這樣,本發明的方法或設備的實施例尤其適用於六自由度(6DoF)虛擬、混合和增強現實應用,其中空間擴展聲源補充了傳統採用的點源。
本發明的方法或裝置的實施例通過使用有限空間範圍來呈現空間擴展聲源。有限空間範圍取決於收聽者相對於空間擴展聲源的位置。
圖10描繪根據本發明方法或設備的實施例的空間擴展聲源渲染器的總體框圖。框的關鍵組成部分為:
1.收聽者位置:該框提供了收聽者的瞬時位置,例如由虛擬實境跟踪系統測量的位置。該框可以被實現為用於檢測收聽者位置的檢測器100或用於接收收聽者位置的界面100。
2.空間擴展聲源的位置和幾何形狀:該框提供要渲染的空間擴展聲源的位置和幾何數據,例如作為虛擬實境場景表示的一部分。
3.投影和凸外殼計算:該框120計算空間擴展聲源幾何形狀的凸外殼,然後將其沿方向朝著收聽者位置投影(例如“圖像平面,見下文)。可替代地,可以通過首先向收聽者位置投影幾何形狀,然後計算其凸外殼來實現相同的功能。
4.有限空間範圍確定的位置:該框140根據由前一個框計算的凸外殼投影數據來計算有限空間範圍的位置。在此計算中,也可以考慮收聽者的位置,並因此考慮收聽者的接近度/距離(請參見下文)。例如輸出點位置共同定義了有限空間範圍。
圖10顯示本發明的方法或設備的實施例的框圖的概述。虛線表示元數據的傳輸,例如地理和位置。
共同限定有限空間範圍的點的位置取決於空間擴展聲源的幾何形狀,尤其是空間範圍,以及收聽者相對於空間擴展聲源的相對位置。特別地,限定有限空間範圍的點可以位於空間擴展聲源的凸外殼在投影平面的投影上。投影平面可以是圖片平面,即垂直於從收聽者到空間擴展聲源的視線的平面,也可以是圍繞收聽者頭部的球體表面。投影平面位於距收聽者頭部中心任意小的距離處。或者,可以從方位角和仰角計算空間擴展聲源的投影凸外殼,這是相對於收聽者頭部而言的球體坐標的子集。在下面的說明性示例中,首選投影平面,因為它具有更直觀的特徵。在執行投影凸外殼的計算時,由於更簡單的形式化和較低的計算複雜度,因此首選角度表示。在空間上擴展的聲源的凸外殼的投影與在空間上擴展聲源幾何形狀的凸外殼都是相同的,即,可以以任意順序使用凸外殼計算和在圖片平面上的投影。
當收聽者相對於空間擴展聲源的位置改變時,則空間擴展聲源到投影平面上的投影相應地改變。依次地,限定有限空間範圍的點的位置相應地改變。最好選擇這些點,以使它們平滑變化,以使空間擴展聲源和收聽者連續運動。當更改空間擴展聲源的幾何形狀時,將更改投射的凸外殼。這包括在3D空間中旋轉空間擴展的聲源幾何形狀,從而更改投影的凸外殼。幾何形狀的旋轉等於收聽者位置相對於空間擴展聲源的角度位移,並且例如以包含性方式被稱為收聽者和空間擴展聲源的相對位置。例如,通過圍繞有限空間旋轉圍繞重心的點來表示收聽者圍繞球體空間擴展聲源的圓周運動。同樣,在固定收聽者的情況下旋轉空間擴展聲源會導致定義有限空間範圍的點發生相同變化。
對於在空間上延伸的聲源和收聽者之間的任何距離,固有地正確地再現了通過本發明的方法或設備的實施例產生的空間範圍。自然地,當用戶接近空間擴展聲源時,定義有限空間範圍變化的點之間的打開角度會增加,因為它適合於對物理現實進行模型化。
因此,限定有限空間範圍的點的角位置唯一地由投影平面上的投影凸外殼上的位置確定。
為了指定空間擴展聲源的幾何形狀/凸外殼,使用近似值(並可能傳輸到渲染器或渲染器核心),包括簡化的一維,例如直線、曲線;2D,例如橢圓、矩形、多邊形;或3D形狀,例如橢圓形、長方體和多面體。可以由各種方式描述空間擴展聲源的幾何形狀或相應的近似形狀,包括:
˙參數化描述,即通過接受附加參數的數學表達式對幾何進行形式化。例如,可以通過迪卡兒坐標系(Cartesian coordinate system)上的隱式函數來描述3D中的橢圓形狀,並且附加參數是主軸在所有三個方向上的延伸。其他參數可包括3D旋轉,橢球表面的變形函數。
˙多邊形描述,即原始幾何形狀的集合,例如直線、三角形、正方形、四面體和長方體。多邊形和多面體可以連接到更大,更複雜的幾何形狀。
在某些應用場景中,重點是6DoF VR/AR內容的緊湊且可互操作的儲存/傳輸。在這種情況下,整個鏈包括三個步驟:
1.將所需的空間擴展聲源創作/編碼為比特流。
2.傳輸/儲存所產生的比特流。根據本發明,除了其他元素之外,比特流還包含對空間擴展聲源幾何形狀(參數或多邊形)以及相關聯的源基礎訊號的描述,例如單聲道或立體聲鋼琴錄音。可以使用感知音訊編碼算法,例如mp3或MPEG-2/4高級音訊編碼(AAC)來壓縮波形。
3.如前所述,基於發送的比特流對空間擴展聲源進行解碼/渲染。
隨後,給出了各種實際的實現示例。其中包括球體空間擴展聲源,橢圓形空間擴展聲源,線形空間擴展聲源,長方體空間擴展聲源,距離相關的有限空間範圍,和/或鋼琴形空間擴展聲源或空間擴展聲源形狀像其他任何樂器一樣。
如以上在本發明方法或設備的實施例中所描述的,可以採用用於確定限定有限空間範圍的點的位置的各種方法。下面的實際示例說明 了在特定情況下的一些隔離方法。在本發明方法或設備的實施例的完整實現中,可以考慮計算複雜性、應用目的、音訊質量和實現的容易性來適當地組合各種方法。
空間擴展聲源的幾何形狀表示為表面網格。要注意的是,網格可視化並不意味著通過多邊形方法描述空間擴展聲源幾何形狀,因為實際上空間擴展聲源幾何形狀可以從參數規範中產生。收聽者的位置由藍色三角形表示。在以下示例中,將圖片平面選擇為投影平面,並將其描繪為表示投影平面的有限子集的透明灰色平面。用相同的表面網格描繪了空間擴展聲源到投影平面上的投影幾何形狀。在投影凸外殼上定義有限空間範圍的點在投影平面上以十字形表示。定義有限空間範圍到空間擴展聲源幾何形狀上的向後投影點以點表示。通過線連接在投影凸外殼上限定有限空間範圍的相應點和在空間擴展聲源幾何結構上限定有限空間範圍的後投影點,以幫助識別視覺對應。在迪卡兒坐標系中以公尺為單位描述了所涉及的所有對象的位置。所描述的坐標系的選擇並不意味著所涉及的計算是通過迪卡兒坐標執行的。
圖12中的第一個示例考慮了球體空間擴展聲源。球體空間擴展聲源相對於收聽者具有固定的大小和固定的位置。在投影凸外殼上選擇三組不同的三、五和八個點來定義有限空間範圍。在凸外殼曲線上以均勻的距離選擇定義有限空間範圍的所有三組點。故意選擇在凸外殼曲線上定義有限空間範圍的點的偏移位置,以便很好地表示空間擴展聲源幾何形狀的水平範圍。圖12顯示球體空間擴展聲源,其具有不同數量,即3個(頂部),5個(中間),和8個(底部)的點,這些點定義了均勻地分佈在凸外殼上的有限空間範圍。
圖13中的下一個示例考慮了一個橢圓體的空間擴展聲源。橢圓體空間擴展聲源在3D空間中具有固定的形狀、位置和旋轉。在此示例中,選擇了定義有限空間範圍的四個點。舉例說明了確定限定有限空間範圍的點的位置的三種不同方法:
a)將定義有限空間範圍的兩個點放置在兩個水平極值點處, 將定義有限空間範圍的兩個點放置在兩個垂直極值點處。然而,極點定位是簡單的並且通常是適當的。該示例表明,此方法可能會產生彼此相對靠近的點位置。
b)定義有限空間範圍的所有四個點均均勻地分佈在凸出的凸外殼上。選擇限定有限空間範圍位置的點的偏移量,以使最高點位置與a)中的最高點位置重合。
c)定義有限空間範圍的所有四個點均均勻地分佈在縮小的投射凸外殼上。點位置的偏移位置等於b)中選擇的偏移位置。凸出的凸外殼的收縮操作,以與方向無關的拉伸因子朝向凸出的凸外殼的重心執行。
因此,圖13顯示一種橢圓體空間擴展聲源,它具有三種點,這些點在確定限定有限空間範圍的點的位置的三種不同方法下定義了有限空間範圍:a/頂部)水平和垂直極點,b/中間)在凸外殼上均勻分佈的點,c/底部)在縮小的凸外殼上均勻分佈的點。
圖14中的下一個示例考慮了線空間擴展聲源。儘管先前的示例考慮了體積空間擴展聲源幾何形狀,但是此示例顯示空間擴展聲源幾何形狀可以很好地選擇為3D空間中的一維對象。子圖a)描繪了兩個點,這些點定義了位於有限線空間擴展聲源幾何形狀的極點上的有限空間範圍。b)限定有限空間範圍的兩個點放置在有限線空間擴展聲源幾何形狀的極點處,另外一個點放置在線的中間。如本發明的方法或設備的實施例中所描述的,在空間擴展聲源幾何形狀內放置額外的點可以幫助填充大的空間擴展聲源幾何形狀中的大間隙。c)考慮了與a)和b)中相同的線在空間上擴展聲源幾何形狀,但是朝向收聽者的相對角度發生了變化,使得線幾何形狀的投影長度明顯較小。如以上發明方法或設備的實施例中所述,投影凸外殼的減小的尺寸可以由限定有限空間範圍的點的數量減少來表示,在該具體示例中,可以通過位於線幾何形狀的中心的單個點來表示。
因此,圖14說明了一種使用三種不同方法分佈空間有限線聲源,以分配定義有限空間範圍的點的位置:a/頂部)凸出的凸外殼上的 兩個極點;b/中間)投影凸外殼上的兩個極點,在線的中心有一個附加點;c/底部),因為旋轉線的投影凸外殼太小而無法容納一個或兩個以上的點,所以在凸外殼的中心定義了有限的空間範圍的一兩個點。
圖15中的下一個示例考慮長方體在空間擴展聲源。立方體的空間擴展聲源具有固定的大小和固定的位置,但是收聽者的相對位置會發生變化。子圖a)和b)描繪了放置四個點的不同方法,這些點定義了投影凸外殼上的有限空間範圍。背向投影點的位置由投影凸外殼上的選擇唯一確定。c)描述了四個點,這些點定義了有限空間範圍,這些點沒有很好地分開的背投影位置。取而代之的是,選擇點位置的距離等於在空間上擴展的聲源幾何形狀的重心的距離。
因此,圖15顯示一種長方體空間擴展聲源,它具有三種不同的方法來分佈定義有限空間範圍的點:a/頂部)在水平軸上定義有限空間範圍的兩個點,在垂直軸上定義有限空間範圍的兩個點;b/中間)定義投影凸外殼的水平極值點的有限空間範圍的兩個點和定義投影凸外殼的垂直極值點的空間範圍的兩個點;c/底部)向後投射的點距離選擇為等於空間擴展聲源幾何形狀的重心的距離。
圖16中的下一個示例考慮了具有固定大小和形狀的球體空間擴展聲源,但相對於收聽者位置的距離為三個不同。定義有限空間範圍的點均勻分佈在凸外殼曲線上。定義有限空間範圍的點數是根據凸外殼曲線的長度和可能的點位置之間的最小距離動態確定的。a)球體空間擴展聲源的距離很近,因此在投影凸外殼上選擇了定義有限空間範圍的四個點。b)球體空間擴展聲源處於中等距離,因此在投影凸外殼上選擇了三個定義有限空間範圍的點。c)球體空間擴展聲源距離較遠,因此在投影凸外殼上只能選擇兩個定義有限空間範圍的點。如以上在本發明的方法或設備的實施例中所描述的,還可以根據球體角坐標中表示的程度來確定限定有限空間範圍的點的數量。
因此,圖16顯示一個大小相等但距離不同的球體空間擴展聲源:a/頂部)近距離,其中四個點定義了有限的空間範圍,均勻地分佈 在凸出的凸外殼上;b/中間)的中間距離,其中三個點定義了有限空間範圍,均勻地分佈在投影凸外殼上;c/底部)遠距離,其中兩個點定義了有限空間範圍,均勻地分佈在投影凸外殼上。
在最後一個例子,圖17和圖18考慮了放置在虛擬世界中的鋼琴形狀的空間擴展聲源。用戶佩戴頭戴式顯示器(ead-mounted display,HMD)和耳機。向用戶展示了一個虛擬實境場景,該場景由空曠的畫布和站立在自由移動區域內的地板上的3D立式鋼琴模型組成(請參見圖17)。開放世界畫布是投影到用戶周圍球體上的球體靜態圖像。在這種特殊情況下,開放世界的畫布描繪了藍天白雲。用戶能夠從各個角度走動並觀看和收聽鋼琴。在該場景中,使用提示來渲染鋼琴,這些提示表示放置在重心上的單點源,或者表示三個點定義了投影凸包上有限空間範圍的空間擴展聲源(請參見圖18)。
為了簡化點的計算,將鋼琴幾何圖形抽象為具有相似尺寸的橢圓體,請參見圖17。在赤道線上的左,右極點上有兩個替代點,而第三個替代點仍在北極點,見圖18。這種安排從各個角度保證了適當的水平源寬度,同時大大降低了計算成本。
因此,圖17說明具有近似配對參量橢圓體形狀的鋼琴形空間擴展聲源,圖18顯示鋼琴形的空間擴展聲源,其具有三個點,該三個點定義了分佈在凸出的凸外殼的垂直極點和凸出的凸外殼的垂直頂部位置上的有限空間範圍。要注意的是,為獲得更好的可視化效果,將定義有限空間範圍的點放置在拉伸的凸出凸外殼上。
所描述的技術的應用可以作為音訊6DoF VR/AR標準的一部分。在這種情況下,具有經典的編碼/比特流/解碼器(+renderer)方案:
˙在編碼器中,將空間擴展聲源的形狀與空間擴展聲源的“基本”波形一起編碼為輔助資訊,可以是:o單聲道訊號,或o立體聲訊號(最好充分去相關),或o甚至記錄更多的訊號(最好也具有充分的去相關性)特徵化 空間擴展聲源。這些波形可以是低比特率編碼的。
˙在解碼器/渲染器中,如前所述,從比特流中檢索空間擴展聲源的形狀和相應的波形,並將其用於呈現空間擴展聲源。
取決於所使用的實施例以及作為所描述的實施例的替代,應當注意的是,該界面可以被實現為用於檢測收聽者位置的實際跟踪器或檢測器。然而,收聽位置通常將從外部跟踪器設備接收,並經由界面饋送到再現設備中。但是,該界面可以僅表示用於從外部跟踪器輸出數據的數據輸入,也可以表示跟踪器本身。
如概述的那樣,比特流產生器可以被實現為僅產生用於空間擴展聲源的一個聲音訊號的比特流,並且剩餘的聲音訊號通過去相關在解碼器側或再現側產生。當僅存在單個訊號時,並且要用該單個訊號平均填充整個空間時,則不需要任何位置資訊。然而,在這種情況下,具有關於空間擴展聲源的幾何形狀的至少附加資訊可能是有用的。
取決於實施方式,較佳地在圖1a、圖1b、圖4、圖5的提示資訊提供器200內使用某種類型的預先計算的數據,以便對於特定環境具有正確的提示資訊項目。此預先計算的數據,即每個扇區的一組值,如來自圖6的扇區圖600的數據可以被測量和儲存,從而例如憑經驗確定查找表210和選擇的HRTF框220內的數據。在另一個實施例中,可以預先計算該數據,或者可以在經驗和預計算的混合過程中得出該數據。隨後,給出用於計算該數據的較佳實施例。
在產生查找表的過程中,針對多個源區域範圍,預先計算了SESS合成所需的IACC、IAPD和IALD值。
如前所述,作為基礎模型,SESS由分佈在整個源區域範圍內的無數個去相關點源來描述。通過在所需源區域範圍內的每個HRTF數據集位置放置一個與裝飾相關的點源,可以近似此模型。通過將這些訊號與相應的HRTF卷積,可以確定所得的左耳和右耳訊號分別為Y l (ω)及Y r (ω)。從中可以得出IACC、IAPD和IALD值。在下文中,給出了對應表達等式的推導。
給定N個去相關訊號S n (ω),具有相等的功率譜密度:
Figure 110109217-A0305-02-0028-17
Figure 110109217-A0305-02-0028-18
其中N等於所需源區域範圍內的HRTF數據集點數。因此,將這N個輸入訊號分別放置在不同的HRTF數據集位置。
Figure 110109217-A0305-02-0028-19
Figure 110109217-A0305-02-0028-20
要注意的是:A l,n ,A r,n ,Φ l,n ,以及A l,n 通常取決於ω。但是,為了簡化符號,此處省略了此依存關係。使用等式(16)、(17)分別為左耳訊號Y l (ω)和右耳訊號Y r (ω),可表示如下:
Figure 110109217-A0305-02-0028-21
Figure 110109217-A0305-02-0028-22
為了確定IACC、IALD和IAPD,E{Y l (ω).Y r *(ω)}, E{|Y l (ω)|2}以及E{|Y r (ω)|2}的第一表達等式的推導是:
Figure 110109217-A0305-02-0028-23
Figure 110109217-A0305-02-0028-24
Figure 110109217-A0305-02-0029-25
使用等式(20)至(22),可以確定IACC(ω)、IALD(ω)和IAPD(ω)的以下表達等式:
Figure 110109217-A0305-02-0029-28
Figure 110109217-A0305-02-0029-29
Figure 110109217-A0305-02-0029-30
通過源數量以及光功率將E{|Y l (ω)|2E{|Y r (ω)|2分別歸一化來確定左耳增益G l (ω)和右耳增益G r (ω):
Figure 110109217-A0305-02-0029-31
Figure 110109217-A0305-02-0029-32
可以看出的是,所有結果表達式僅取決於所選的HRTF數據集,而不再取決於輸入訊號。
為了減少查找表生成期間的計算複雜性,一種可能性是不考慮每個可用的HRTF數據集位置。在這種情況下,定義了期望的間隔。儘管此過程降低了預計算期間的計算複雜性,但在某種程度上這也將導致解決方案的降級。
與現有技術相比,本發明的較佳實施例提供了明顯的優點。
從提出的方法僅需要兩個去相關的輸入訊號這一事實出發,與需要大量去相關的輸入訊號的當前技術水平相比,產生了許多優勢:
˙提出的方法具有較低的計算複雜度,因為僅需使用一個解相關器。此外,僅需過濾兩個輸入訊號。
˙由於成對的去相關通常在生成較少的去相關訊號時會更高(並且同時允許相同數量的訊號降級),因此期望更精確地再現聽覺提示。
˙同樣地,為了達到相同的成對去相關量,並因此達到再現的聽覺提示的相同精度,預期會有更多的訊號降級。
隨後,總結了本發明的實施例的幾個有趣的特徵。
1.只需要兩個去相關的輸入訊號(或一個輸入訊號加上一個去相關器)。
2.[頻率選擇性]調整這些輸入訊號的雙耳提示,以有效地獲得空間擴展聲源的雙耳輸出訊號(而不是對覆蓋SESS面積/體積的許多單點源進行模型建立)。
(a)輸入ICC始終處於調整狀態。
(b)ICPD/ICTD和ICLD可以在專用處理步驟中進行調整,也可以通過使用具有這些特性的HRIR/HRTF處理將其引入訊號中。
3.[頻率選擇]目標雙耳線索是根據要填充空間範圍(具體示例:方位角範圍,仰角範圍)從預先計算的儲存中(查找表或其他儲存多維數據的方式,例如向量密碼本或多維函數擬合,GMM,SVM)來確定。
(a)目標IACC總是被儲存和調出/用於合成。
(b)目標IAPD/IATD和IALD可以儲存,調出/用於合成,也可以使用HRIR/HRTF處理進行替換。
本發明的較佳實施方式可以作為MPEG-1音訊6DoF VR/AR(虛擬實境/增強實境標準)的一部分。在這種情況下,有一個編碼/比特流/解碼器(加上渲染器)應用場景。在編碼器中,空間擴展聲源或幾個空間擴展聲源的形狀將與空間擴展聲源的(一個或多個)“空間”波形一起作為輔助資訊進行編碼。代表輸入到框300中的訊號的這些波形,即用於空間擴展聲源的音訊訊號,可以藉助於AAC、EVS或任何其他編碼器以低比特率編碼。在解碼器/渲染器中,例如在圖11中圖示的應用包括比特流解復用器(解析器180和音訊解碼器190),則從比特流中檢索SESS形狀和相應的波形並使用用於呈現SESS。關於本發明說明的過程提供了高質量但低複 雜度的解碼器/渲染器。
儘管已經在設備的上下文中描述了一些方面,但是很顯然,這些方面也代表了對相應方法的描述,其中框或設備對應於方法步驟或方法步驟的特徵。類似地,在方法步驟的上下文中描述的方面也表示對相應裝置的相應方框或項目或特徵的描述。
取決於某些實施要求,本發明的實施例可以以硬體或軟體來實施。可以使用數位儲存介質執行該實現,例如軟碟盤、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,其中儲存著電子可讀控制訊號,這些訊號可以協同工作(或能夠與可編程電腦系統合作),以便執行相應的方法。
根據本發明的一些實施例包括具有電子可讀控制訊號的數據載體,該電子可讀控制訊號能夠與可編程電腦系統協作,從而執行本文描述的方法之一。
通常,本發明的實施例可以被實現為具有程序代碼的電腦程式產品,當電腦程式產品在電腦上運行時,該程序代碼可操作用於執行方法之一。程序代碼可以例如被儲存在機器可讀載體上。
其他實施例包括儲存在機器可讀載體或非暫時性儲存介質上的,用於執行本文描述的方法之一的電腦程式。
換句話說,因此,本發明方法的實施例是一種電腦程式,當電腦程式在電腦上運行時,該電腦程式具有用於執行本文描述的方法之一的程序代碼。
因此,本發明方法的另一實施例是一種數據載體(或數字儲存介質,或電腦可讀介質),其包括記錄在其上的用於執行本文所述方法之一的電腦程式。
因此,本發明方法的另一實施例是表示用於執行本文描述的方法之一的電腦程式的數據流或訊號序列。數據流或訊號序列可以例如被配置為經由數據通信連接,例如經由網路來傳輸。
另一實施例包括處理裝置,例如電腦或可編程邏輯裝置,其 被配置為或適於執行本文描述的方法之一。
另一實施例包括一種電腦,該電腦上安裝有用於執行本文描述的方法之一的電腦程式。
在一些實施例中,可編程邏輯器件(例如現場可編程門陣列)可以用於執行本文描述的方法的一些或全部功能。在一些實施例中,現場可編程門陣列可以與微處理器協作以便執行本文描述的方法之一。通常,該方法較佳地由任何硬體設備執行。
上面描述的實施例僅用於說明本發明的原理。應當理解,本文描述的佈置和細節的修改和變化對於本領域的其他技術人員將是顯而易見的。因此,本發明的意圖僅由即將來臨的專利權利要求的範圍限制,而不受通過本文的實施方式的描述和解釋而給出的具體細節的限制。
參考文獻
[1] J. Blauert,空間聽覺(Spatial Hearing):人類聲音定位的心理物理學(Psychophysics of Human Sound Localization),第三版,馬薩諸塞州的坎布里奇:麻省理工學院出版社,2001年。
[2] H. Lauridsen,關於不同類型房間聲學記錄的實驗(Experiments Concerning Different Kinds of Room-Acoustics Recording),工程師,1954年。
[3] G. Kendall,音訊訊號的去相關及其對空間圖像的影響(The Decorrelation of Audio Signals and Its Impact on Spatial Imagery),電腦音樂雜誌(Computer Music Journal),第1卷,19號4,第71-87頁,1995年。
[4] C. Faller和F. Baumgarte,雙耳提示編碼-第二部分:方案和應用(Binaural cue coding-Part II:Schemes and applications),IEEE語音和音訊處理交易(IEEE Transactions on Speech and Audio Processing),第1卷,11號2003年11月,第6頁,第520-531頁。
[5] F. Baumgarte和C. Faller,雙耳提示編碼-第一部分:心理聲學的基本原理和設計原理(Binaural cue coding-Part I:Psychoacoustic fundamentals and design principles),IEEE語音和音訊處理交易(IEEE Transactions on Speech and Audio Processing),第1卷。11號6,第509-519頁,2003年11月。
[6] F. Zotter和M. Frank,有效的幻象聲源加寬(Efficient Phantom Source Widening),聲學檔案(Archives of Acoustics),第1卷,38,第27-37頁,2013年3月。
[7] B. Alary, A. Politis和V. Valima¨ki,天鵝絨噪聲去相關劑(elvet-noise decorrelator),Proc.Natl.Acad.Sci.USA,87:3877-5,DAFx-17,英國愛丁堡,第405-411頁,2017年。
[8] S. Schlecht, B. Alary, V. Valima¨ki和E. Habets,優化的天鵝絨噪聲去相關劑(Optimized velvet-noise decorrelator),2018年9月。
[9] V. Pulkki,振幅平移虛擬源的均勻分佈(Uniform spreading of amplitude panned virtual sources),1999年IEEE音訊和聲學訊號處理應用研討會的論文集(1999 IEEE Workshop on Applications of Signal Processing to Audio and Acous-tics),WASPAA’99(Cat.No.99TH8452),第187-190頁,1999年。
[10] ──,使用向量基頻平移進行虛擬聲源定位(Virtual Sound Source Positioning Using Vector Base Amplitude Panning),音訊工程學會學報(Journal of the Audio Engineering Society),第1卷,45號1997年6月,第6卷,第456-466頁。
[11] V. Pulkki,M.-V. Laitinen和C. Erkut,虛擬世界的有效空間聲音合成(Efficient Spatial Sound Synthesis for Virtual Worlds),音訊工程學會(Audio Engineering Society),2009年2月。
[12] V. Pulkki,使用定向音訊編碼的空間聲音再現(Spatial Sound Reproduction with Directional Audio Coding),音訊工程學會雜誌(Journal of the Audio Engineering Societ),第1卷,55段,第6項,第503-516頁,2007年6月。
[13] T. Pihlajamaki, O.Santala和V. Pulkki,具有單信號時頻分解的空間擴展虛擬源的合成(Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals),音訊工程學會學報(Journal of the Audio Engineering Societ),第1卷,62號7/8,第467-484頁,2014年8月。
[14] C. Verron, M. Aramaki, R. Kronland-Martinet和G. Pallone,一種用於環境聲音的3-D沉浸式合成器(A 3-D Immersive Synthesizer for Environmental Sounds),音訊、語音和語言處理,IEEE交易(Audio, Speech, and Language Processing, IEEE Transactions on),第1卷,18,第1550-1561頁,2010年9月。
[15] G. Potard和I. Burnett,對聲源的表觀形狀和寬度的研究(A study on sound source apparent shape and wideness),第6-9頁,2003年8月。
[16] ──,用於在3D音訊顯示器中呈現視在聲源寬度的解相關技術(Decorrelation techniques for the rendering of apparent sound source width in 3D audio displays),2004年1月,第280-208頁。
[17] J. Schmidt和E. F. Schroeder,MPEG-4標準中音訊表示的新功能和高級功能(New and Advanced Features for Audio Presentation in the MPEG-4 Standard),音訊工程學會(Audio Engineering Society),2004年5月。
[18] S. Schlecht, A. Adami, E. Habets和J. Herre,用於再現空間擴展聲源或從空間擴展聲源生成比特流的設備和方法(Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Bitstream from a Spatially Extended Sound Source),專利申請PCT/EP2019/085 733。
[19] T. Schmele和U. Sayin,使用解相關濾波器控制Ambison-ics中的表觀源大小(Controlling the Apparent Source Size in Ambisonics Using Decorrelation Filters)。音訊工程學會(Audio Engineering Society),2018年7月。
[20] F. Zotter, M. Frank, M. Kronlachner和J.-W.。Choi,Ambisonics中有效的幻像源擴展和擴散(Efficient Phantom Source Widening and Diffuseness in Ambisonics),2014年1月。
[21] C.Borß,一種用於虛擬聲學設計及其應用的改進參數模型(An Improved Parametric Model for the Design of Virtual Acoustics and its Applications),博士學位,論文,波鴻魯爾大學,2011年1月。
10:空間資訊界面
200:提示資訊提供器
305:音訊訊號界面
300:音訊處理器

Claims (24)

  1. 一種用於合成一空間擴展聲源的設備,包括:一空間資訊界面(100),用於接收一空間範圍指示,該空間範圍指示指出該空間擴展聲源在一最大空間範圍(600)內的一有限空間範圍;一提示資訊提供器(200),用於響應於該有限空間範圍而提供一個或多個提示資訊項目,其中該一個或多個提示資訊項目包括響應於該有限空間範圍而提供的一頻道間相關值;以及一音訊處理器(300),用於使用該一個或多個提示資訊項目來處理表示該空間擴展聲源的一音訊訊號;其中該音訊訊號包含用於該空間擴展聲源的一第一音訊頻道以及用於該空間擴展聲源的一第二音訊頻道;其中該音訊處理器(300)配置為對用於該空間擴展聲源的第一音訊頻道以及用於該空間擴展聲源的第二音訊頻道進行一相關處理,使用響應於該有限空間範圍提供的頻道間相關值,在該空間擴展聲源的第一音訊頻道和該空間擴展聲源的第二音訊頻道之間施加一相關性(320)。
  2. 如請求項1所述之設備,其中:該提示資訊提供器(200)配置為提供一頻道間相位差項、一頻道間時間差項、一頻道間電平差項與一增益項以及一第一增益資訊項目與一第二增益資訊項目中的至少一種,作為一進一步提示資訊項目;以及該音訊處理器(300)配置為使用該頻道間相位差項、該頻道間時間差項、該頻道間電平差項與該增益項以及該第一增益資訊項目與該第二增益資訊項目中的至少一種來施加該第一音訊頻道及該第二音訊頻道的一頻道間相位差、一頻道間時間差、一頻道間電平差或絕對電平。
  3. 如請求項1所述之設備,其中:該音訊處理器(300)配置為在該相關性的確定之後施加一第一音訊頻道及一第二音訊頻道的一頻道間相位差(330)、一頻道間時間差、一頻道間電平差(340)或絕對電平;或一第二頻道處理器(310)包含一去相關性濾波器或一神經網路處理器,用於從該第一音訊頻道取得該第二音訊頻道,使得該第二音訊頻道與該第一音訊頻道去相關性。
  4. 如請求項1所述之設備,其中:該提示資訊提供器(200)包含一濾波功能提供器(220),該濾波功能提供器(220)用於響應於該有限空間範圍而提供多個音訊濾波功能作為該一個或多個提示資訊項目;以及該音訊處理器(300)包含一濾波施加器(350),該濾波施加器(350)用於施加該等音訊濾波功能至該第一音訊頻道以及該第二音訊頻道。
  5. 如請求項4所述之設備,其中:用於該第一音訊頻道以及該第二音訊頻道中的任一個的該等音訊濾波功能包含一頭部相關傳遞函數、一頭部相關脈衝響應、一雙耳室脈衝響應或一室脈衝響應;或該第二頻道處理器(310)包含一去相關性濾波器或一神經網路處理器,用於從該第一音訊頻道取得該第二音訊頻道,使得該第二音訊頻道與該第一音訊頻道去相關性。
  6. 如請求項4所述之設備,其中:該濾波施加器(350)配置為響應於該頻道間相關值而將該等音訊濾波功能施加於透過該音訊處理器(300)執行的該相關性(320)確定的一結果。
  7. 如請求項1所述之設備,其中該提示資訊提供器(200)包含 一記憶體(210)及一輸出界面中的至少一個;該至少一記憶體(210)用於在與多個不同有限空間範圍有關的多個不同提示資訊項目上儲存資訊;及該輸出界面用於使用該記憶體(210)檢索與該有限空間範圍相關聯的一個或多個提示資訊項目。
  8. 如請求項7所述之設備,其中:該記憶體(210)包含一查找表、一向量密碼本、一多維函數擬合、一高斯混合模型(GMM)以及一支持向量機(SVM)中的至少一種;以及該輸出界面配置為透過查找該查找表、或使用該向量密碼本、或透過應用該多維函數擬合、或透過使用GMM或SVM來檢索一個或多個提示資訊項目。
  9. 如請求項1所述之設備,其中:該提示資訊提供器(200)配置為在與一組間隔的候選空間範圍相關聯的一個或多個提示資訊項目上儲存資訊,一組間隔的有限空間範圍覆蓋該最大空間範圍(600),該提示資訊提供器(200)配置為將該有限空間範圍與一候選有限空間範圍進行匹配(30),該候選有限空間範圍定義最接近透過該有限空間範圍而被定義的一特定有限空間範圍的一候選空間範圍,並且提供與匹配的該候選有限空間範圍相關聯的一個或多個提示資訊項目;該有限空間範圍包含一對方位角、一對仰角、有關一水平距離的一資訊、有關一垂直距離的一資訊、有關一總距離的一資訊以及一對方位角與一對仰角中的至少一種;或該空間範圍指示包含一代碼(S3,S5),該代碼(S3,S5)將該有限空間範圍識別為該最大空間範圍(600)的一特定扇區,其中該最大空間範圍(600) 包含多個不同扇區。
  10. 如請求項9所述之設備,其中該等不同扇區中的一個扇區在一方位角或一水平方向上具有一第一延伸,在一高度或一垂直方向上具有一第二延伸,在一扇區的一高度或一垂直方向上的該第二延伸大於該第一延伸,或者該第二延伸覆蓋一最大高度或一垂直方向的範圍。
  11. 如請求項9所述之設備,其中以一方式定義多個不同扇區,該方式為相鄰扇區的中心在一方位角或一水平方向上的一位距大於5度,甚至大於或等於10度。
  12. 如請求項1所述之設備,其中該音訊處理器(300)配置為從該音訊訊號產生用於一雙耳渲染、一揚聲器渲染或一主動減少串擾的揚聲器渲染的處理過的一第一頻道以及處理過的一第二頻道。
  13. 如請求項1所述之設備,其中:該提示資訊提供器(200)配置為提供一個或多個頻道間提示值作為一個或多個提示資訊項目;以及該音訊處理器(300)配置為從該音訊訊號產生處理過的一第一頻道以及處理過的一第二頻道,以該處理過的第一頻道及處理過的第二頻道具有一個或多個頻道間提示的方式,由一個或多個頻道間提示值來控制。
  14. 如請求項1所述之設備,其中該提示資訊提供器(200)配置為響應於該有限空間範圍對多個頻帶相同而為多個頻帶提供一個或多個提示資訊項目,其中用於不同頻帶的提示資訊項目彼此不同。
  15. 如請求項1所述之設備,其中:該提示資訊提供器(200)配置為提供用於多個不同頻帶的一個或多個提示資訊項目;以及該音訊處理器(300)配置為在一頻譜域中處理該音訊訊號,其中將用於 頻帶的一提示資訊項目施加於該頻帶中的音訊訊號的多個頻譜值。
  16. 如請求項1所述之設備,其中:該第一音訊頻道及該第二音訊頻道通過一定程度的去相關性使彼此被去相關性;該提示資訊提供器(200)配置為提供該頻道間相關值作為一個或多個提示資訊項目;及該音訊處理器(300)配置為將該第一音訊頻道及該第二音訊頻道之間的一定程度的相關性降低至由該提示資訊提供器(200)提供的頻道間相關性提示所指示的值。
  17. 如請求項1所述之設備,其中該設備另包含一音訊訊號界面(305),用於接收表示該空間擴展聲源的音訊訊號,其中該音訊訊號只包含該第一音訊頻道,或該音訊訊號只包含該第一音訊頻道及該第二音訊頻道,或者該音訊訊號不包含比該第一音訊頻道及該第二音訊頻道更多的音訊頻道。
  18. 如請求項1所述之設備,其中該空間資訊界面(100)配置為接收一收聽者位置作為該空間範圍指示:用於使用該收聽者在該空間擴展聲源上的位置及資訊,例如該空間擴展聲源的一幾何形狀或一位置,作為該空間範圍指示來計算該空間擴展聲源的一幾何形狀相關聯的二維或三維外殼在一投影平面上的一投影(120),或者用於使用該收聽者在該空間擴展聲源上的位置及資訊,例如該空間擴展聲源的一幾何形狀或一位置,作為該空間範圍指示來計算該空間擴展聲源的一幾何形狀在一投影平面上的一投影的二維或三維外殼(120);以及用於根據外殼投影數據來確定該有限空間範圍(140)。
  19. 如請求項20所述之設備,其中該空間資訊界面(100)配置為:使用該空間擴展聲源的幾何形狀作為該空間擴展聲源的資訊來計算該空間擴展聲源的外殼(121),以及使用該收聽者的位置而朝該收聽者的一方向投影該外殼以獲得該二維或三維外殼在該投影平面上的該投影(122),或者在朝該收聽者的位置的一方向投影由在該空間擴展聲源的幾何形狀的資訊所定義的該空間擴展聲源的幾何形狀(123),以及計算被預測幾何形狀的該外殼而獲得該二維或三維外殼在該投影平面上的投影(124)。
  20. 如請求項18所述之設備,其中該空間資訊界面(100)配置為確定該有限空間範圍,以使由該有限空間範圍定義的扇區的邊界相對於該收聽者位於該投影平面的右側及/或相對於該收聽者位於該投影平面的左側及/或相對於該收聽者位於該投影平面的上側及/或相對於該收聽者位於該投影平面的下側或重合,例如相對於該收聽者位於該投影平面的一右邊界、一左邊界,一上邊界和一下邊界之一在+/- 10%的一公差範圍內。
  21. 一種用於合成一空間擴展聲源的設備,包括:一空間資訊界面(100),用於接收一空間範圍指示,該空間範圍指示指出該空間擴展聲源在一最大空間範圍(600)內的一有限空間範圍;一提示資訊提供器(200),用於響應於該有限空間範圍而提供一個或多個提示資訊項目,其中該一個或多個提示資訊項目包括響應於該有限空間範圍而提供的一頻道間相關值;以及一音訊處理器(300),用於使用該一個或多個提示資訊項目來處理表示該空間擴展聲源的一音訊訊號;其中該音訊訊號包含用於該空間擴展聲源的一第一音訊頻道以及用於 該空間擴展聲源的一第二音訊頻道,該第二音訊頻道透過一第二頻道處理器(310)從該第一音訊頻道取得;其中該音訊處理器(300)配置為對用於該空間擴展聲源的第一音訊頻道以及用於該空間擴展聲源的第二音訊頻道進行一相關處理,使用響應於該有限空間範圍提供的頻道間相關值,在該空間擴展聲源的第一音訊頻道和該空間擴展聲源的第二音訊頻道之間施加一相關性(320)。
  22. 一種合成一空間擴展聲源的方法,包括:接收一空間範圍指示,該空間範圍指示指示該空間擴展聲源在一最大空間範圍(600)內的一有限空間範圍;響應於該有限空間範圍提供一個或多個提示資訊項目,其中該一個或多個提示資訊項目包括響應於該有限空間範圍而提供的一頻道間相關值;以及使用一個或多個提示資訊項目來處理表示該空間擴展聲源的一音訊訊號;其中該音訊訊號包含用於該空間擴展聲源的一第一音訊頻道以及用於該空間擴展聲源的一第二音訊頻道;其中該處理包含為對用於該空間擴展聲源的第一音訊頻道以及用於該空間擴展聲源的第二音訊頻道進行一相關處理,使用響應於該有限空間範圍提供的頻道間相關值,在該空間擴展聲源的第一音訊頻道和該空間擴展聲源的第二音訊頻道之間施加一相關性(320)。
  23. 一種合成一空間擴展聲源的方法,包括:接收一空間範圍指示,該空間範圍指示指示該空間擴展聲源在一最大空間範圍(600)內的一有限空間範圍;響應於該有限空間範圍提供一個或多個提示資訊項目,其中該一個或多 個提示資訊項目包括響應於該有限空間範圍而提供的一頻道間相關值;以及使用一個或多個提示資訊項目來處理表示該空間擴展聲源的一音訊訊號;其中該音訊訊號包含用於該空間擴展聲源的一第一音訊頻道以及用於該空間擴展聲源的一第二音訊頻道,該第二音訊頻道透過一第二頻道處理器(310)從該第一音訊頻道取得;其中該處理包含為對用於該空間擴展聲源的第一音訊頻道以及用於該空間擴展聲源的第二音訊頻道進行一相關處理,使用響應於該有限空間範圍提供的頻道間相關值,在該空間擴展聲源的第一音訊頻道和該空間擴展聲源的第二音訊頻道之間施加一相關性(320)。
  24. 一種電腦程式,用於在一電腦或一處理器上運行時執行根據請求項22或23所述的方法。
TW110109217A 2020-03-13 2021-03-15 使用提示資訊項目來合成空間擴展聲源的設備及方法 TWI818244B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20163159.5A EP3879856A1 (en) 2020-03-13 2020-03-13 Apparatus and method for synthesizing a spatially extended sound source using cue information items
EP20163159.5 2020-03-13

Publications (2)

Publication Number Publication Date
TW202143749A TW202143749A (zh) 2021-11-16
TWI818244B true TWI818244B (zh) 2023-10-11

Family

ID=69844590

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110109217A TWI818244B (zh) 2020-03-13 2021-03-15 使用提示資訊項目來合成空間擴展聲源的設備及方法

Country Status (12)

Country Link
US (1) US20220417694A1 (zh)
EP (2) EP3879856A1 (zh)
JP (1) JP2023518360A (zh)
KR (1) KR20220153079A (zh)
CN (1) CN115668985A (zh)
AU (1) AU2021236362B2 (zh)
BR (1) BR112022018339A2 (zh)
CA (1) CA3171368A1 (zh)
MX (1) MX2022011150A (zh)
TW (1) TWI818244B (zh)
WO (1) WO2021180935A1 (zh)
ZA (1) ZA202210728B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
WO2023061965A2 (en) * 2021-10-11 2023-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Configuring virtual loudspeakers
KR20240091274A (ko) 2021-11-09 2024-06-21 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 기본 공간 섹터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 및 컴퓨터 프로그램
AU2022388677A1 (en) 2021-11-09 2024-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object
AU2022384608A1 (en) 2021-11-09 2024-05-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
CA3237138A1 (en) 2021-11-09 2023-05-19 Yun-Han Wu Apparatus, method or computer program for synthesizing a spatially extended sound source using variance or covariance data
WO2024023108A1 (en) * 2022-07-28 2024-02-01 Dolby International Ab Acoustic image enhancement for stereo audio

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
US20170094440A1 (en) * 2014-03-06 2017-03-30 Dolby Laboratories Licensing Corporation Structural Modeling of the Head Related Impulse Response
US20190020968A1 (en) * 2016-03-23 2019-01-17 Yamaha Corporation Audio processing method and audio processing apparatus

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
US20170094440A1 (en) * 2014-03-06 2017-03-30 Dolby Laboratories Licensing Corporation Structural Modeling of the Head Related Impulse Response
US20190020968A1 (en) * 2016-03-23 2019-01-17 Yamaha Corporation Audio processing method and audio processing apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
網路文獻 G. Potard and I. Burnett Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04) Oct. 5-8, 2004 *

Also Published As

Publication number Publication date
WO2021180935A1 (en) 2021-09-16
AU2021236362A1 (en) 2022-10-06
TW202143749A (zh) 2021-11-16
MX2022011150A (es) 2022-11-30
KR20220153079A (ko) 2022-11-17
EP4118844A1 (en) 2023-01-18
CN115668985A (zh) 2023-01-31
AU2021236362B2 (en) 2024-05-02
JP2023518360A (ja) 2023-05-01
CA3171368A1 (en) 2021-09-16
EP3879856A1 (en) 2021-09-15
US20220417694A1 (en) 2022-12-29
ZA202210728B (en) 2024-03-27
BR112022018339A2 (pt) 2022-12-27

Similar Documents

Publication Publication Date Title
TWI818244B (zh) 使用提示資訊項目來合成空間擴展聲源的設備及方法
TWI786356B (zh) 再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法
CA3069403C (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
US20240284132A1 (en) Apparatus, Method or Computer Program for Synthesizing a Spatially Extended Sound Source Using Variance or Covariance Data
US20240267696A1 (en) Apparatus, Method and Computer Program for Synthesizing a Spatially Extended Sound Source Using Elementary Spatial Sectors
US20240298135A1 (en) Apparatus, Method or Computer Program for Synthesizing a Spatially Extended Sound Source Using Modification Data on a Potentially Modifying Object