TW202027065A - 再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法 - Google Patents

再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法 Download PDF

Info

Publication number
TW202027065A
TW202027065A TW108146529A TW108146529A TW202027065A TW 202027065 A TW202027065 A TW 202027065A TW 108146529 A TW108146529 A TW 108146529A TW 108146529 A TW108146529 A TW 108146529A TW 202027065 A TW202027065 A TW 202027065A
Authority
TW
Taiwan
Prior art keywords
sound
sound source
information
spatially
source
Prior art date
Application number
TW108146529A
Other languages
English (en)
Other versions
TWI786356B (zh
Inventor
捷爾根 賀瑞
艾曼紐 哈貝特斯
希巴斯汀 施勒希特
亞利克森德 亞達米
Original Assignee
弗勞恩霍夫爾協會
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW202027065A publication Critical patent/TW202027065A/zh
Application granted granted Critical
Publication of TWI786356B publication Critical patent/TWI786356B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

一種再現一空間擴展聲源的設備,空間擴展聲源具有在一空間中已定義之一位置及一幾何形狀,該設備包含:一介面,其用以接收一收聽者位置;一投影器,其利用收聽者位置、空間擴展聲源之幾何形狀上的一資訊、及空間擴展聲源之位置上的一資訊,來計算投射於一投影平面上與空間擴展聲源關聯之二維或三維外殼的一投影;一聲音位置計算器,其利用投影平面計算用於空間擴展聲源之至少二聲源的位置;以及一渲染器,其係渲染位於該等位置之該至少二聲源,以獲得具有兩個以上之輸出訊號的空間擴展聲源之一再現,其中,渲染器係用以對不同之位置使用不同之聲音訊號,且不同之聲音訊號係與空間擴展聲源相關聯。

Description

再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法
本發明係關於一種音頻訊號處理,特別關於一空間擴展聲源之編碼、解碼或再現。
長期以來,人們一直在研究通過多個揚聲器或頭戴式耳機再現聲源的方法,在這樣的設置上再現聲源的最簡單方法是將其渲染為點聲源,即非常小(理想為無限小)的聲源。但是,這種理論概念幾乎無法以現實的方式建立現有物理聲源之模型。例如,一架三角鋼琴有一個很大的振動木質封閉體,其內部有許多空間分佈的琴弦,因此在聽覺上看起來比點聲源要大得多(尤其是當收聽者(和麥克風)靠近三角鋼琴時)。許多現實中的聲源具有相當大的尺寸(空間擴展),例如樂器、機器、管弦樂隊、合唱團或環境聲音(瀑布聲)。
此類聲源的正確/逼真再現已成為許多聲音再現方法的目標,無論是使用雙耳式耳機(即使用所謂的頭部相關轉換函數(HRTF)或雙耳房脈衝響應(BRIR)),還是使用傳統的揚聲器設置皆是,例如從兩個揚聲器(立體聲)到在一水平面上排列的許多揚聲器(環繞聲),以及在所有三個維度上圍繞著收聽者的許多揚聲器(3D音響)。
本發明的一個目的是提供一種用於編碼或再現具有可能是複雜的幾何形狀的空間擴展聲源的概念。
2D源寬度
本節描述關於以收聽者之觀點在面對2D表面上渲染擴展聲源的方法,例如在某個仰角為零的特定方位角範圍內(如傳統立體聲/環繞聲)或某些方位角及仰角範圍(如3D音頻或在使用者具有3個自由度之運動(3DoF)的虛擬實境中的情況,即頭部在俯仰/偏航/翻滾軸上旋轉)。
可以藉由減少參與之聲道訊號的相關性來增加在兩個或多個揚聲器之間的音頻物件的視在寬度(生成所謂的幻像或幻像源)(Blauert,2001,S. 241-257)。隨著相關性的降低,幻像源的擴展增加,直到相關值接近零(且打開角度不太寬)為止,其覆蓋揚聲器之間的整個範圍。
通過推導並應用適當的解相關濾波器,可以獲得源訊號的解相關版本,勞利德森(Lauridsen,1954)提出對源信號本身加上/減去時間延遲和縮放的版本,以獲得訊號的兩個解相關版本。另外,肯德爾(Kendall,1995)提出了更複雜的方法,其基於隨機數序列的組合推導得出配對的解相關全通濾波器。富樂等人(Baumgarte、Faller,2003)在(Faller、Baumgarte,2003)中提出合適的解相關濾波器(擴散器)。此外,佐特爾等人(Zotter、Frank,2013)亦派生出濾波器對,其使用頻率相關的相位或幅度差來實現幻像源的加寬。再者,Alary、Politis、Välimäki等人(Alary、Politis、Välimäki,2017)提出了基於天鵝絨噪聲的解相關濾波器,並由Schlecht、Alary、Välimäki、Habets等人進行了進一步優化(Schlecht、Alary、Välimäki、Habets,2018)。
除了減少幻像源的相應通道訊號的相關性之外,還可以通過增加歸因於一音頻物件的幻像源的數量來增加源寬度。在Pulkki(1999)的研究中,通過將同一源訊號平移到(略微)不同方向來控制源寬度,最初提出該方法是為了在聲場中移動VBAP聲源(Pulkki,1997)時,穩定感知幻像源傳播,這個方法的好處是,因為取決於源的方向,由兩個或更多個揚聲器再現渲染的源可能導致所感知的源寬度有意料之外的改變。
虛擬世界定向音頻編碼(Virtual world DirAC,Pulkki、Laitinen、Erkut,2009)是對虛擬世界中聲音合成的傳統定向音頻編碼(DirAC)(Pulkki,2007)方法的延伸,為了渲染空間範圍,將源的定向聲音分量圍繞源的原始方向在一定範圍內隨機平移,其中平移方向會隨時間和頻率而變化。
在Pihlajamäki、Santala、Pulkki的研究(2014)中也採用了類似的方法,其中空間範圍是通過將源訊號的頻帶隨機分配到不同的空間方向來實現的,這是一種旨在產生來自各個方向的空間分佈且環繞的聲音而不是控制精確程度的方法。
Verron等人並非使用聲像相關訊號來實現源的空間範圍,而是通過合成源訊號的多個非相干版本,將它們均勻地分佈在收聽者周圍的圓周上,並在它們之間進行混合(Verron、Aramaki、Kronland-Martinet、Pallone,2010),同時激活的光源的數量和增益決定了擴展效果的強度,此方法被實現為環境聲音合成器的空間擴展。
3D源寬度
本節描述與在3D空間中渲染擴展聲源有關的方法,即以具有6個自由度(6DoF)的虛擬實境所需的體積方式渲染,這意味著使用者運動的6個自由度(即頭部在俯仰/偏航/翻滾軸上的旋轉),再加上3個平移運動方向x/y/z。
Potard等人通過研究聲源形狀的感知,將聲源範圍的概念擴展為聲源的一維參數,即在兩個揚聲器之間的寬度(Potard,2003),他們通過將(時變)解相關技術應用於原始訊號源,然後將非相干源放置在不同的空間位置,從而產生了三維擴展(Potard、Burnett,2004),從而生成了多個相干點源。
在文獻「MPEG-4 Advanced AudioBIFS(Schmidt、Schröder,2004年)」中,可以用幾個均勻分佈之解相關聲源填充體積的物件/形狀(殼狀、盒狀、橢圓形和圓柱體),以喚起三維聲源的擴展。
為了使用高保真度環繞聲(Ambisonics)增加和控制源聲源擴展,Schmele等人(Schmele、Sayin,2018)提出了一種降低輸入訊號的Ambisonics階數的方法,這會固有地增加視在訊號源的寬度,並在聆聽空間周圍分配與訊號相關的解相關副本。
Zotter等人揭露介紹了另一種方法,採用了(Zotter、Frank,2013)中提出的原理(即,推導引入頻率相關的相位和幅度差的濾波器對,以實現立體聲再現設置中的訊號源範圍),適用於Ambisonics(Zotter F.、Frank、Kronlachner、Choi,2014)。
基於平移的方法的常見缺點(例如(Pulkki,1997)、(Pulkki,1999)、(Pulkki,2007)、(Pulkki、Laitinen、Erkut,2009))是在收聽者位置上的依賴性較低,即使與最佳位置的偏差很小,也會導致空間圖像塌陷到最靠近收聽者的揚聲器中,這極大地限制了它們在虛擬實境和增強現實環境中的應用,後者俱有6個自由度(6DoF),收聽者可以自由移動。此外,在基於DirAC的方法中分佈時頻點(例如(Pulkki,2007)、(Pulkki、Laitinen、Erkut,2009))並不總能保證幻像源空間範圍的正確渲染。此外,其通常會明顯降低源訊號的音質。
通常通過以下方法之一實現源訊號的解相關:i)推導具有互補幅度的濾波器對(例如(Lauridsen,1954));ii)使用幅度恆定但(隨機)加擾的全通濾波器(例如(Kendall,1995)、(Potard&Burnett,2004);或iii)在空間上隨機分佈源訊號的時頻點(例如(Pihlajamäki、Santala、Pulkki,2014))。
所有方法都有其各自的含義:根據i)對源訊號進行補充濾波通常會導致解相關訊號的感知音色發生變化;儘管ii)中的全通濾波可以保留源訊號的音色,但加擾的相位會破壞原始相位關係,尤其是對於瞬態訊號而言,會導致嚴重的時間色散和拖影,空間分佈時頻訊號被證明對於某些訊號是有效的,但也會改變訊號的感知音色。此外,其顯示出高度依賴訊號,並為脈衝訊號引入了嚴重的偽像。
根據「Advanced AudioBIFS((Schmidt、Schröder,2004)、(Potard,2003)、(Potard&Burnett,2004))」中提出的源訊號的多個解相關版本來填充體積形狀時,假設有大量的濾波器可以產生相互解相關的輸出訊號(通常每個體積形狀使用十個以上的點源),然而找到這樣的濾波器並不是一件容易的事,並且越需要更多的這樣的濾波器就變得更加困難。此外,如果源訊號沒有完全解相關,並且收聽者圍繞這種形狀移動,例如在(虛擬實境)場景中,則到收聽者的各個源距離對應於源訊號的不同延遲及其在收聽者眾耳朵處的疊加,會導致位置相關的梳狀濾波,從而可能導致源訊號煩人的不穩定音色。
在(Schmele、Sayin,2018)中通過基於Ambisonics的技術來控制聲源寬度,降低Ambisonics的階數僅對從2階到1階或0階躍遷具有可聽見的效果。此外,這些轉換不僅被視為源的擴大,而且經常被視為幻像源的移動。雖然添加源訊號的解相關版本可以幫助穩定對可視源寬度的感知,但其亦會引入梳狀濾波器效果,從而改變幻像源的音色。
本發明的目的是提供一種再現空間擴展聲源或從空間擴展聲源生成位元流的改良概念。
上述目的可通過請求項1所述之再現空間擴展聲源的設備、請求項27所述之生成位元流的設備、請求項35所述之再現空間擴展聲源的方法、請求項36所述之生成位元流的方法、請求項41所述之位元流或請求項47所述之電腦程式來達成。
本發明基於以下發現,即通過計算與空間擴展聲源相關聯的二維或三維外殼的投影,可以實現空間擴展聲源的再現,其利用收聽者位置將訊號源投射到投影平面上,該投影用於計算空間擴展聲源的至少兩個聲源的位置,並且在該位置處渲染至少兩個聲源以獲得空間擴展聲源的再現,其中渲染結果為兩個或兩個以上的輸出訊號,並且在不同位置使用不同的聲音訊號,但是不同的聲音訊號都與一個相同的空間擴展聲源關聯。
一方面,由於解決了空間擴展聲源和(虛擬)收聽者位置之間隨時間變化的相對位置,所以可以獲得高質量的二維或三維音頻再現;另一方面,空間擴展聲源由感知到的聲源範圍上的幾何資訊以及至少兩個聲源(例如週邊點聲源)有效地表示,這些聲源可以依據習知技術由渲染器輕鬆處理。特別地,本領域中簡單的渲染器始終處於相對於特定輸出格式或揚聲器設置在特定位置處渲染聲源的位置,例如,由聲音位置計算器在某些位置處計算出的兩個聲源,可以例如通過振幅平移在這些位置處渲染。
例如,當聲音位置處於5.1輸出格式的左右環繞之間時,並且當其他聲源處於輸出格式的左右環繞之間時,渲染器執行的幅度平移過程將導致非常相似的結果,一個聲源的左、左環繞聲道的訊號,以及另一聲源的右、右環繞聲道的相應的非常相似的訊號,以便使用者將聲源感知為來自聲音位置計算器計算出的位置。但是,由於最終所有四個訊號都與空間擴展聲源相關聯並與之相關,因此使用者不會簡單地感知與聲音位置計算器計算出的位置相關聯的兩個幻像源,而是收聽者感知到一個空間擴展聲源。
一種用於再現在空間中的幾何形狀中具有限定位置的空間擴展聲源的設備,該設備包括一介面、一投影器、一聲音位置計算器以及一渲染器。本發明允許解決例如在鋼琴內發生的聲音增強情況,鋼琴是一種大型設備,到目前為止,鋼琴聲音可能已被渲染為來自單點聲源,然而,這不能完全代表鋼琴的真實聲音特徵。根據本發明,作為空間擴展聲源的示例的鋼琴被至少兩個聲音訊號反射,其中一個聲音訊號可以由靠近鋼琴的左部,即靠近鋼琴的麥克風所記錄,另一個聲源可以由靠近鋼琴右部的另一個第二麥克風錄製,即位於產生高音的高音弦附近。自然,兩個麥克風都將錄製彼此不同的聲音,這歸因於鋼琴內部的反射情況,當然也歸因於低音弦比左麥克風更靠近右麥克風,反之亦然。但是,另一方面,兩個麥克風訊號都將具有大量相似的聲音分量,最終構成鋼琴的獨特聲音。
根據本發明,通過記錄訊號來生成表示諸如鋼琴之類的空間擴展聲源的位元流時,亦可記錄空間擴展聲源的幾何信息以及可選地記錄與不同的麥克風位置相關的位置資訊(或通常與兩個不同的聲源相關的兩個不同位置),或提供對(鋼琴)聲音的感知幾何形狀的描述。為了反映相對於聲源的收聽者位置,即收聽者可以在虛擬實境或增強實境或任何其他聲音場景中「四處走動」,與空間相關的外殼投影使用收聽者的位置來計算諸如鋼琴之類的擴展聲源,並且使用投影平面來計算至少兩個聲源的位置,其中,特別地,在較佳實施例中涉及聲源的位置在投影平面的週邊點。
可以利用減少計算總量和減少渲染總量,在二維或三維情況下實際表示示例性鋼琴聲音,因此,舉例而言,當收聽者更接近聲源的左側部分時所聽到的聲音,會不同於當收聽者位於諸如鋼琴之類的聲源的右側或甚至位於諸如鋼琴之類的聲源的後方時所聽到的聲音。
鑑於以上所述,本發明構思的獨特之處在於,在編碼器側提供一種表徵空間擴展聲源的方式,該方式允許在聲音再現情況下將空間擴展聲源用於真實的二維或三維設置。此外,通過使用收聽者位置計算二維或三維外殼到投影平面上的投影,可以有效地利用在空間擴展聲源的高度靈活描述中的收聽者位置,利用投影平面計算空間擴展聲源的至少兩個聲源的聲音位置,並將至少兩個聲源渲染在聲音位置計算器計算出的位置,以獲得空間擴展聲源的再現,其在具有兩個以上通道(例如五個、七個或更多通道)的立體聲再現設置或再現設置中,具有兩個以上之耳機輸出訊號或兩個以上之通道的多聲道輸出訊號的空間擴展聲源的再現。
與通過在要填充的體積的所有部分中放置許多不同的點源來用聲音填充3D體積的現有技術方法相比,該投影避免了必須對許多聲源進行建模的過程,並且通過要求對3D體積進行建模,從而大幅減少使用的點源的數量,而僅填充外殼的投影,即2D空間。此外,通過僅在投影的外殼上建模,較佳僅對投影源的模型進行建模,從而進一步減少所需點源的數量,在極端情況下,這些點源可能只是空間擴展聲源左邊界處的一個聲源,以及空間擴展聲源右邊界處的一個聲源,兩種減少步驟均基於兩種心理聲學觀察:
1、與聲源的方位角(和仰角)相反,其距離不能非常可靠地感知,因此,原始體積在垂直於收聽者的平面上的投影不會明顯改變感知(但可以幫助減少渲染所需的點源的數量)。
2、兩個解相關聲音分別作為點源分佈在左側和右側,其往往會在感知上用聲音填充兩者之間的空間。
此外,編碼器側不僅允許表徵單一個空間擴展聲源,而且其靈活性在於作為表示生成的位元流可以包括兩個以上的空間擴展聲源的所有數據,其較佳地是有關其幾何形狀的資訊和在單一坐標系的位置。在解碼器端,不僅可以針對單一個空間擴展聲源進行再現,還可以針對多個空間擴展聲源進行再現,其中投影器使用(虛擬)收聽者位置為每個聲源計算投影。另外,聲音位置計算器為每個空間擴展聲源計算至少兩個聲源的位置,並且渲染器例如通過將兩個或多個輸出相加來渲染每個空間擴展聲源的所有計算出的聲源。通過逐個訊號的方式或逐個通道的方式,並通過將添加的聲道提供給用於雙耳再現的相應耳機,或以揚聲器相關的再現設置為相應的揚聲器提供來自每個空間擴展聲源的訊號,或者提供至用於儲存(組合的)兩個或更多個輸出訊號以供後續使用或傳輸的儲存裝置。
在產生器側或編碼器側,使用一設備來生成一表示空間擴展聲源之壓縮描述的位元流,其中該設備包括用於為空間擴展聲源提供一個或多個不同聲音訊號的聲音提供器,以及生成代表壓縮聲音場景之位元流的輸出數據生成器,包含一個或多個不同聲音訊號之位元流較佳是經壓縮的方式,例如位元率壓縮編碼器(如MP3、AAC、USAC或MPEG-H編碼器)。此外,將輸出數據模型配置為在兩個或多個不同的聲音訊號的情況下,將指示相應位置的兩個或多個不同聲音訊號中的每個聲音訊號的可選的單獨位置資訊引入位元流中,聲音訊號最好是關於空間擴展聲源的幾何資訊,即在上面的示例中,第一訊號是記錄在鋼琴左側的訊號,以及記錄在鋼琴右側的訊號。
但是,除此之外,位置資訊不必一定與空間擴展聲源的幾何形狀有關,其也可以與一般坐標原點有關,儘管與空間擴展聲源的幾何形狀的關係是較佳的。
此外,用於生成壓縮位元流的設備還包括一幾何形狀提供器,用於計算關於空間擴展聲源的幾何形狀的資訊,並且輸出數據形成器被配置為將關於幾何形狀的資訊引入位元流中,除了至少兩個聲音訊號(例如由麥克風記錄的聲音訊號)之外,每個聲音訊號的單獨位置資訊也包含在內。但是,聲音提供器不一定必須實際拾取麥克風訊號,而是視情況而定,也可以使用解相關處理在編碼器端生成聲音訊號。同時,對於空間擴展的聲音訊號,僅少數聲音訊號或甚至單一個聲音訊號可以被發送,並且剩餘的聲音訊號使用解相關處理在再現側生成。較佳地,這由位元流中的位元流元素來形成訊號,使得聲音再現器始終知道每個空間擴展聲源包括多少個聲音訊號,從而使得再現器可以特別是在聲音位置計算器中決定多少個聲音訊號可用,以及應該在解碼器端導出多少個聲音訊號,例如通過訊號合成或相關處理。
在本實施例中,再生器將位元流元素寫入位元流,該位元流元素指示針對空間擴展聲源所包括的聲音訊號的數量,並且在解碼器側,聲音再現器從位元流引導位元流元素、讀取位元流元素,並且基於位元流元素確定必須基於位元流中的至少一個接收到的聲音訊號來計算用於較佳的周邊點源或位於週邊聲源之間的輔助源的多少個訊號。
圖9顯示用於再現在空間中具有限定位置和幾何形狀的空間擴展聲源的設備的較佳實施方式,該設備包括一介面100、投影器120、一聲音位置計算器140以及一渲染器160。介面100被配置用以接收一收聽者位置。此外,投影器120被配置為使用介面100接收的收聽者位置並另外使用空間擴展聲源之幾何形狀上的一資訊及空間擴展聲源在空間中之位置上的一資訊,來計算與空間擴展聲源相關聯的二維或三維外殼投射到一投影平面上的一投影。較佳地,空間擴展聲源在空間中的定義位置以及空間中的空間擴展聲源的幾何形狀被接收,以經由到達一位元流解多工器或一場景解析器180的位元流來再現空間擴展聲源。位元流解多工器180從位元流中提取空間擴展聲源的幾何形狀的資訊,並將該資訊提供給投影器。此外,位元流解多工器還從位元流中提取空間擴展聲源的位置,並將此資訊轉發給投影器。較佳者,位元流還包括用於至少兩個不同聲源的位置資訊,並且較佳地,位元流解多工器還從位元流中提取至少兩個聲源的壓縮描述,並且利用一解碼器(音頻解碼器190)將至少兩個聲源解壓縮/解碼。解碼後的至少兩個聲源最終被轉發到渲染器160,並且渲染器在聲音位置計算器140提供給渲染器160的位置處渲染至少兩個聲源。
雖然圖9顯示具有位元流解多工器180和音頻解碼器190等與位元流有關的再現設備,但是再現也可以在不同於編碼器/解碼器場景的情況下進行。例如,空間中定義的位置和幾何形狀可能已經存在於再現設備中,例如在虛擬實境或增強實境場景中,其中數據在現場生成並在同一現場上消耗。位元流解多工器180和音頻解碼器190實際上不是必需的,並且空間擴展聲源的幾何形狀和空間擴展聲源的位置的資訊是可用的,而無需從位元流中提取任何資訊。此外,還可以預先固定地協商至少兩個聲源的位置的位置資訊與空間擴展聲源的幾何資訊,因此不必將其從編碼器發送到解碼器,或者,該數據可以是再次在現場生成的。
因此,需注意者,僅在本實施例中提供位置資訊,並且即使在兩個或更多個聲源訊號的情況下也不需要發送該資訊,例如,解碼器或再現器始終可以將位元流中的第一聲源訊號可以被當作位於更靠左的投影上的聲源;同理,位元流中的第二聲源訊號可以被當作位於更靠右的投影上的聲源。
此外,儘管聲音位置計算器使用投影平面計算至少兩個聲源的位置作為空間擴展聲源,但是不必從位元流接收至少兩個聲源,取而代之的是,至少兩個聲源中的僅一個聲源可以經由位元流和另一個聲源被接收,因此,其他位置或位置資訊也可以僅在再現側實際生成而無需從位元流生成器發送該等資訊到再現器。然而,在其他實施例中,當位元率要求不嚴格時,可以在位元流中發送所有該些資訊,並且可以在位元流中發送比一個或兩個聲音訊號多的數量,並且,音頻解碼器190可以解碼兩個、三個或甚至更多個聲音訊號,以表示至少兩個聲源,其位置由聲音位置計算器140計算。
圖10顯示當在編碼器/解碼器應用內使用再現時的這種情況的編碼器側。圖10顯示用於生成表示針對空間擴展聲源的壓縮描述的位元流的設備,特別地,其提供一聲音提供器200以及一輸出數據形成器240。在本實施方式中,空間擴展聲源由具有一個或多個不同聲音訊號的壓縮描述表示,並且輸出數據形成器生成代表壓縮聲場的位元流,其中該位元流至少包括一個或多個不同的聲音訊號以及與空間擴展聲源有關的幾何資訊。這代表關於圖9所示的情況,其中,所有其他資訊,例如空間擴展聲源的位置(參見圖9的方塊120中的虛線箭頭),可由再現側的使用者自由選擇。因此,可提供具有至少一個或多個用於該空間擴展聲源的不同聲音訊號的空間擴展聲源的唯一描述,其中該些聲音訊號僅僅是點源訊號。
用於生成的設備還包括一幾何形狀提供器220,用於提供例如計算關於空間擴展聲源的幾何形狀的資訊。與計算不同的提供幾何資訊的其他方式包括接收使用者輸入,例如由使用者手動繪製的圖形或由使用者提供的任何其他資訊,例如通過語音、音調、手勢或任何其他使用者動作,除了一個或多個不同的聲音訊號之外,關於幾何形狀的資訊亦被引入位元流中。
可選地,關於一個或多個不同聲音訊號中的每個聲音訊號的關於單獨位置資訊的資訊也被引入位元流,及/或用於空間擴展聲源的位置資訊也可被引入位元流。聲源的位置資訊可以與幾何資訊分開,或者可以包含在幾何資訊中。在第一種情況下,可以相對於位置資訊給出幾何資訊;在第二種情況下,幾何資訊可以包括例如球體的坐標中心和半徑或直徑。對於盒狀空間擴展聲源,可以在絕對坐標中給出八個或至少一個拐角點。
一個或多個不同聲音訊號中的每一個的位置資訊較佳與空間擴展聲源的幾何資訊有關。然而,可替代地,與相同坐標系有關的絕對位置資訊也是有用的,其給出空間擴展聲源的位置或幾何資訊,或者,也可以在具有絕對坐標的絕對坐標系內給出幾何資訊,而不是以相對方式給出幾何資訊。然而,以與大坐標系無關的相對方式提供該數據,允許使用者自行在再現設置中定位空間擴展聲源,如圖9中指向投影器120的虛線所示。
在另一個實施例中,圖10所示之聲音提供器200被配置用於為空間擴展聲源提供至少兩個不同的聲音訊號,並且輸出數據形成器被配置用於生成位元流,使得位元流包括至少兩個不同的聲音訊號,其較佳為編碼格式,並且可選地為至少兩個不同的聲音訊號中的每個聲音訊號的個別位置資訊,以絕對坐標或相對於空間擴展聲源的幾何形狀。
在一實施例中,聲音提供器被配置為在多個麥克風位置或方向上分別執行自然聲源的記錄,或者通過一個或多個解相關濾波器從單個基本訊號或幾個基本訊號中導出聲音訊號,例如,如圖1所討論的方塊164和166。在發生器中使用的基本訊號可以與提供在再現站點上或從發生器傳送到再現器的基本訊號相同或不同。
在另一實施例中,幾何形狀提供器220被配置為從空間擴展聲源的幾何形狀中導出參數描述或多邊形描述,並且輸出數據形成器被配置為將該參數描述或多邊形描述引入位元流。
此外,在一較佳實施例中,輸出數據形成器被配置為將位元流元素引入位元流,其中,該位元流元素指示包括的空間擴展聲源的至少一個不同聲音訊號的數量。在位元流中或包含在與該位元流相關聯的已編碼音頻訊號中,該數字為1或大於1。由輸出數據生成器生成的位元流不一定必須是完整位元流,其一方面為音頻波形數據,且另一方面為元數據(metadata)。相反地,位元流也可以僅是單獨的元數據位元流,其位元流場例如包括,用於每個空間擴展聲源的聲音訊號之數量,用於空間擴展聲源的幾何資訊以及在一實施例中還包括用於空間擴展聲源的位置資訊以及可選地用於每個聲音訊號和每個空間擴展聲源的位置資訊,用於空間擴展聲源的幾何資訊以及在一實施例中還包括用於空間擴展聲源的位置資訊。通常以壓縮形式提供的波形音頻訊號通過單獨的數據流或單獨的傳輸通道傳輸到再現器,以便再現器從一個源接收已編碼的元數據,並從另一個源接收(已編碼的)波形訊號。
此外,位元流生成器的實施例包括一控制器250,控制器250被配置為相對於利用由聲音提供器提供的聲音訊號的數量來控制聲音提供器200。與該程序一致,控制器250還將位元流元素資訊提供給由陰影線表示的表示可選特徵的輸出數據形成器240。輸出數據形成器將與聲音訊號的數量有關的特定資訊作為受控之控制器250引入到位元流元素中,並由聲音提供器200提供。較佳者,可以控制聲音訊號的數量,以便輸出包含編碼音頻聲音訊號的音頻位元流以滿足外部位元率要求。當允許的位元率較高時,與允許的位元率較小的情況相比,聲音提供器將提供更多的聲音訊號。在極端情況下,當位元率要求很嚴格時,聲音提供器將只為空間擴展聲源提供單個聲音訊號。
再現器將讀取相應設置的位元流元素,並將在渲染器160中繼續進行解碼,並使用傳輸的聲音訊號合成相應數量的其他聲音訊號,從而最終獲得所需數量的聲音,因此可以生成周邊點源和可選的輔助源。
但是,當位元率要求不是很嚴格時,控制器250將控制聲音提供器提供大量不同的聲音訊號,例如,由相應數量的麥克風或麥克風方向記錄的聲音訊號。然後,在再現側,根本不需要任何解相關處理,或者僅在很小的程度上進行任意解相關處理,最後,由於減少了或不需要進行解相關處理,再現器可以獲得更好的再現品質。較佳地,通過指示每個空間擴展聲源的聲音訊號的數量的位元流元素的功能,可以獲得一方面在比特率和另一方面在品質之間的折衷。
圖11顯示由圖10所示的位元流生成設備生成的位元流的較佳實施例,該位元流包括例如第二空間擴展聲源401,其表示為具有相應數據的SESS2。
此外,圖11顯示與空間擴展聲源編號1有關的每個空間擴展聲源的詳細數據。在圖11的示例中,存在針對在空間擴展聲源中生成的兩個聲音訊號,例如,位元流生成器可從位於空間擴展聲源的兩個不同位置的麥克風拾取的麥克風輸出數據中獲取,其中,第一聲音訊號是由301所指示的聲音訊號1,第二聲音訊號是由302所指示的聲音訊號2,並且兩個聲音訊號較佳經由音頻編碼器被編碼以用於位元率壓縮。此外,方塊311表示位元流元素,該位元流元素指示例如由圖10的控制器250控制的用於空間擴展聲源1的聲音訊號的數量。
如方塊331所示,引入用於空間擴展聲源的幾何形狀資訊。方塊321指示相對於幾何形狀資訊的聲音訊號的可選的位置資訊,例如相對於以鋼琴為例,該位置資訊指示聲音訊號1為“靠近低音弦”且聲音訊號2為“接近高音弦”。幾何形狀資訊例如可以是鋼琴模型和該鋼琴模型的參數表示或多邊形表示,例如,大鋼琴或小鋼琴會有所不同。方塊341另外顯示關於空間內的空間擴展聲源的位置資訊的可選數據。如上所述,當使用者提供如圖9中的虛線所示之指向投影器的位置資訊時,該位置資訊341不是必需的。然而,即使在位元流中包括位置資訊341時,使用者仍然可以通過使用者互動方式來替換或修改位置資訊。
以下將討論本發明的較佳實施例,其涉及在6個自由度的虛擬實境/增強實境(6DoF VR / AR)中的空間擴展聲源的渲染。
本發明的較佳實施例針對一種被設計為增強空間擴展聲源(SESS)的再現的方法、設備或電腦程式,特別地,本發明的方法或設備的實施例考慮了時空相對位置在空間擴展聲源與虛擬收聽者位置之間,換句話說,本發明的方法或設備的實施例允許聽覺源寬度在與收聽者相對的任何位置處匹配所表示的聲音對象的空間範圍,如此一來,本發明的方法或設備的實施例尤其適用於六個自由度(6DoF)虛擬、混合和增強實境應用,其中空間擴展聲源可補充習知方式採用的點源。
本發明的方法或設備的實施例通過使用被饋送(較佳且顯著地)解相關訊號的幾個周邊點源來呈現空間擴展的聲源。與其他方法相反,這些周邊點源的位置取決於收聽者相對於空間擴展聲源的位置。圖1描繪了根據本發明方法或設備的實施例的空間擴展聲源渲染器的總體方塊圖。
方塊圖的主要組成部分是:
1、收聽者位置:此方塊提供收聽者的瞬時位置,例如由虛擬實境追踪系統進行測量,該方塊可以被實現為用於感測的感測器100或用於接收收聽者位置的介面100。
2、空間擴展聲源的位置和幾何形狀:此方塊提供要渲染的空間擴展聲源的位置和幾何數據,例如作為虛擬實境場景表示的一部分。
3、投影和凸殼計算:此方塊120計算空間擴展聲源的幾何形狀的凸殼,然後將其在朝向收聽者位置的方向上投影(例如,圖像平面,見下文)。可替代地,可以通過首先向收聽者位置投影幾何形狀然後計算其凸殼來實現相同的功能。
4、周邊點源的位置:該方塊140根據由前一個方塊計算出的凸殼投影數據來計算所使用的周邊點源的位置,在此計算中,其也可以考慮收聽者的位置,並因此考慮收聽者的接近度/距離(請參見下文),該輸出是n個周邊點源位置。
5、渲染器核心:渲染器核心162通過將n個周邊點源放置在指定的目標位置來對n個周邊點源進行聲音化,這可以是例如使用與頭部相關的轉換函數的雙耳渲染器或用於揚聲器再現的渲染器(例如基於矢量的振幅平移)。渲染器核心從k個輸入音頻基礎訊號(例如樂器錄音的解相關訊號)以及m≥(n-k)個其他解相關音頻訊號中產生l個揚聲器或耳機輸出訊號。
6、源基礎訊號:方塊164是k個基礎音頻訊號的輸入,k個基礎音頻訊號相互(充分)解相關並表示要渲染的聲源(例如,單聲道為k = 1,立體聲為k = 2之樂器的錄音)。從解碼器側生成器接收的k個基礎音頻訊號例如是從位元流(例如,參見圖11的元件符號301、302)獲取的,或者可以從外部源在再現站點處提供。
7、解相關器:該可選方塊166根據呈現n個周邊點源的需要,生成附加的解相關音頻訊號。
8、訊號輸出:渲染器為揚聲器(例如n = 5.1)或雙耳(通常為n = 2)渲染提供l個輸出訊號。
圖1顯示本發明的方法或設備的實施例的方塊圖的概述,其中虛線表示元數據的傳輸,例如幾何形狀和位置,實線表示音頻的傳輸,其中k、l及m表示多個音頻通道,渲染器核心162可以接收k + m個音頻訊號和n(>= k + m)個位置數據。方塊162、164、166共同形成通用渲染器160的一實施例。
周邊點源的位置取決於空間擴展聲源的幾何形狀,尤其是空間上的幾何形狀以及收聽者相對於空間擴展聲源的相對位置。特別地,周邊點源可以位於空間擴展聲源的凸殼在投影平面上的投影上,投影平面可以是圖片平面,即與從收聽者到空間擴展聲源的視線垂直的平面,也可以是圍繞收聽者頭部的球形表面,即投影平面位於距收聽者頭部中心任意小距離處。或者,可以從方位角和仰角計算空間擴展聲源的投影凸殼,這是相對於收聽者頭部的角度而言的球坐標的子集。在下面的說明性示例中,首選投影平面,因為其具有更直觀的特徵。在投影凸殼的計算的實現中,由於形式化更簡單且計算複雜度較低,因此較佳以角度表示。需注意者,空間擴展聲源凸殼的投影與投影空間擴展聲源幾何形狀的凸殼都是相同的,即凸殼計算和在圖片平面上的投影可以按任意順序使用。
周邊點源位置可以通過各種方式分佈在空間擴展聲源凸殼的投影上,包括: l  其可能會在外殼投影周圍均勻受到干擾 l  其可以分佈在外殼投影的極點 l  其可以位於外殼投影的水平及/或垂直極點處(請參見“實際示例部分”中的圖)。
除了周邊點源之外,還能夠以增加額外的計算複雜性為代價,使用其他輔助點源來產生增強的聲學填充感。此外,可以在定位周邊點源之前修改投影的凸殼,例如,可以將投影凸殼朝向投影凸殼的重心縮小,這種縮小的投影凸殼可以解決渲染方法引入的各個周邊點源的額外空間擴展,凸殼的修改可以進一步區分水平方向和垂直方向的縮放比例。
當收聽者相對於空間擴展聲源的位置改變時,則空間擴展聲源到投影平面上的投影相應地改變,反過來說,周邊點源的位置也相應地改變,周邊點源的位置應較佳選擇成使其平滑變化,以使空間擴展聲源和收聽者連續運動。此外,當改變空間擴展聲源的幾何形狀時,可以改變投影凸殼,這包括在3D空間中旋轉空間擴展聲源的幾何形狀,從而改變投影的凸殼。幾何形狀的旋轉等於收聽者位置相對於空間擴展聲源的角位移,並且例如以包含性方式稱為收聽者和空間擴展聲源的相對位置。例如,通過圍繞重心旋轉周邊點源來表示收聽者圍繞球形空間擴展聲源的圓周運動。同樣地,空間擴展聲源與固定收聽者的旋轉會導致周邊點源位置的相同變化。
由本發明實施例的方法或設備所產生的空間範圍固有地正確地再現在空間擴展聲源與收聽者之間的任何距離。自然地,當使用者接近空間擴展聲源時,周邊點源之間的張開角增大,因為其適合於對現實世界(physical reality)進行建模。
儘管周邊點源的角度位置由投影平面上投影凸殼的位置唯一地確定,但是周邊點源的距離可以通過各種方式進一步選擇,包括: l  所有周邊點源的距離等於整個空間擴展聲源的距離,例如,該距離是通過空間擴展聲源相對於收聽者頭部的重心定義的。 l  每個周邊點源的距離取決於投影凸殼上的位置向後投影到空間擴展聲源的幾何形狀上,例如,周邊點源投影到同一點上的投影平面。從投射的凸殼到空間擴展聲源的周邊點源的向後投影可能無法始終唯一確定,因此必須應用其他投影規則(請參見“實際示例部分”)。 l  如果周邊點源的渲染不需要距離屬性,而僅需要方位角和仰角中的相對角位置,則可能根本無法確定周邊點源的距離。
為了指定空間擴展聲源的幾何形狀/凸殼,可以使用一種近似方法(並可能傳輸到渲染器或渲染器核心),包括一個簡化的一維(例如線,曲線)、二維(例如橢圓形、矩形、多邊形)、或三維形狀(例如橢圓球體、長方體、多面體),可以以各種方式描述空間擴展聲源的幾何形狀或相應的近似形狀,包括: l  參數描述,即通過接受附加參數的數學表達式來對幾何形狀進行函數化,例如,可以通過笛卡爾坐標系上的隱式函數來描述3D橢圓形,並且附加參數是主軸在所有三個方向上的延伸,其他參數可包括3D旋轉、橢球表面的變形函數。 l  多邊形描述,即原始幾何形狀的集合,例如直線、三角形、正方形、四面體和長方體,靈長類動物的多邊形和多面體可以連接到更大、更複雜的幾何形狀。
周邊點源訊號是從空間擴展聲源的基本訊號中得出的,基本訊號可以通過各種方式獲取,例如:1)在單個或多個麥克風的位置和方向上記錄自然聲源(示例:如實際示例中所示,記錄鋼琴聲音);2)人工聲源的合成(示例:具有不同參數的聲音合成);3)任何音頻訊號的組合(例如:汽車的各種機械聲音,例如發動機、輪胎、門等)。此外,可以通過多個解相關濾波器從基本訊號中人為地生成其他周邊點源訊號(請參見前面的部分)。
在某些應用場景中,重點是6DoF VR / AR內容的緊湊且可互相操作的儲存/傳輸,在這種情況下,整個鏈包括三個步驟:
1、將所需的空間擴展聲源創作/編碼為位元流。
2、傳輸/儲存所生成的位元流,根據本發明,位元流除其他元素外還包含對空間擴展聲源幾何形狀(參數或多邊形)的描述以及相關的源基礎訊號,例如單音或立體聲鋼琴錄音,可以使用諸如mp3或MPEG-2 / 4高級音頻編碼(AAC)之類的固有音頻編碼算法來壓縮波形(參見圖10中的方塊260(音頻解碼器260))。
3、如前所述,基於所傳輸的位元流對空間擴展聲源進行解碼/渲染。
除了前面介紹的核心方法之外,還有一些進一步處理的選項:
選項1:動態選擇周邊點源編號和位置
根據聽眾到空間擴展聲源的距離,周邊點聲源的數量可以變化。例如,當空間擴展聲源和收聽者彼此遠離時,投影凸殼的開口角度(孔徑)變小,因此可以有利地選擇較少的周邊點源,從而節省計算和記憶體的複雜性。在極端情況下,所有周邊點源都被簡化為單個剩餘點源,可以應用適當的縮混技術以確保基本訊號與派生訊號之間的干擾不會降低所得周邊點源訊號的音頻品質。如果根據收聽者的相對視點,空間擴展聲源的幾何形狀高度不規則,則類似的技術也可以應用於空間擴展聲源到收聽者位置的近距離。例如,空間擴展聲源的幾何形狀為有限長度的線時,其可能在投影平面上朝單個點退化。通常,如果周邊點源在投射的凸殼上的角度範圍較小,則空間擴展聲源可能會由較少的周邊點源表示。在極端情況下,所有周邊點源都被簡化為單個剩餘點源。
選項2:擴展補償
由於每個周邊點源還向著凸殼投影的外部顯示空間擴展,因此渲染的空間擴展聲源的感知聽覺圖像寬度比用於渲染的凸殼大一些,為了使其與所需的目標幾何形狀對齊,有兩種可能作法:
1、創作期間的補償:在內容創作期間考慮渲染過程的其他擴展。具體地,在內容創作期間選擇稍小的空間擴展聲源的幾何形狀,使得實際渲染的尺寸是所期望的,可以通過監視渲染器或渲染器核心在創作環境(例如製作工作室)中的效果來檢查。在這種情況下,與目標大小相比,傳輸的位元流和渲染器或渲染器核心使用較小的目標幾何形狀。
2、渲染過程中的補償:通過渲染過程,可以使空間擴展聲源之渲染器或渲染器核心了解到額外的垂直擴展,因此可以補償這種效果。作為一個簡單的示例,在將其應用於放置周邊點源之前,用於渲染的幾何形狀可以是 l  減小恆定因子a >1.0(例如a = 0.9),或 l  減小恆定的打開角度alpha = 5度
在這種情況下,發送的位元流包含空間擴展聲源的幾何形狀的最終目標大小。
此外,這些方法的組合是可行的。
選項3:生成周邊點源波形
此外,可以通過考慮相對於空間擴展聲源的使用者位置,從記錄的音頻訊號中生成用於饋送周邊點源的實際訊號,以便對具有幾何形狀相關的聲音貢獻的空間擴展聲源進行建模,例如左側帶有低音的鋼琴,反之亦然。
示例:立式鋼琴的聲音以其聲學行為為特徵,其由(至少)兩個音頻基礎訊號模擬,一個靠近鋼琴鍵盤下端(“低音符”),另一個靠近鍵盤上端(“高音符”),這些基本訊號可以通過在錄製鋼琴聲音時正確使用麥克風來獲取,並傳輸到6DoF渲染器或渲染器核心,以確保它們之間有足夠的解相關性。
然後,通過考慮使用者相對於空間擴展聲源的位置,從這些基本訊號中得出周邊點源訊號: l  當使用者從正面(鍵盤)一側面對鋼琴時,兩個周邊點源分別在鋼琴鍵盤的左端和右端彼此分開,在這種情況下,低音鍵的基本訊號可以直接饋入左周邊點源,高音鍵的基本訊號可以直接用於驅動右周邊點源。 l  當收聽者繞著鋼琴向右走約90度時,由於從側面看鋼琴體積模型(例如,橢圓形)的投影很小,兩個周邊點聲源的位置變得非常接近,如果基本訊號繼續用於直接驅動周邊點源訊號,則一個周邊點源將主要包含高音符,而另一種周邊點將包含低音符。由於從物理角度來看這是不希望的,因此可以通過以給定旋轉角度旋轉兩個基本訊號來形成周邊點源訊號,藉以改善渲染,該旋轉角度與使用者相對於鋼琴重心的移動角度相同。這樣,兩個訊號都包含相似頻譜內容的訊號,同時仍然是解相關(假設基本訊號已經被解相關)。
選項4:渲染的空間擴展聲源的後處理
可以對實際訊號進行預處理或後處理,以解決與位置和方向有關的影響,例如空間擴展聲源的方向性模式。換句話說,如前所述,從空間擴展聲源發出的整個聲音可以被修改以表現出例如與方向有關的聲音輻射圖。在鋼琴訊號的情況下,這可能意味著朝向鋼琴背面的輻射的高頻成分少於朝向鋼琴前方的輻射的高頻成分。此外,可以針對每個周邊點源單獨地調整周邊點源訊號的預處理和後處理,例如,對於每個周邊點源,可以不同地選擇方向性圖案,在代表鋼琴的空間擴展聲源的給定示例中,低鍵範圍和高鍵範圍的方向性圖案可能與上面描述的相似,但是諸如踏板噪聲之類的其他訊號具有更全方向性圖案。
以下總結較佳實施例的幾個優點。 l  與用點聲源完全填充空間擴展聲源內部(例如,在Advanced AudioBIFS中使用)相比,可降低計算複雜度 l  點源訊號之間潛在的破壞性干擾較小 l  緊湊的位元流資訊(幾何形狀近似、一個或多個波形) l  允許使用為音樂消費而製作的傳統錄音(例如鋼琴的立體聲錄音),以用於VR/AR渲染
以下提供各種實際的實現示例: l  球形空間擴展聲源 l  橢球空間擴展聲源 l  線性空間擴展聲源 l  長方體空間擴展聲源 l  距離相關的周邊點源 l  鋼琴形狀的空間擴展聲源
如以上在本發明方法或設備的實施例中所述,其提供用於確定周邊點源的位置的各種方法。以下實際示例說明在特定情況下的一些隔離方法。在本發明之方法或設備的實施例的完整實現中,可以考慮計算複雜性、應用目的、音頻品質和實現的容易性來適當地組合各種方法。
空間擴展聲源的幾何形狀以綠色表面網格表示,需注意者,網格可視化並不意味著通過多邊形方法描述空間擴展聲源的幾何形狀,因為實際上空間擴展聲源的幾何形狀可能是由參數規範生成的,收聽者的位置由藍色三角形表示,在以下示例中,將圖片平面選擇為投影平面,並將其描繪為表示投影平面的有限子集的透明灰色平面。利用相同的表面網格以綠色描繪空間擴展聲源在投影平面上的投影幾何形狀,投影凸殼上的周邊點源在投影平面上用紅叉表示,向後投影的周邊點源到空間擴展聲源的幾何形狀上被表示為紅點。投影凸殼上的相應周邊點源和空間擴展聲源幾何形狀上的後投影周邊點源通過紅線連接,以幫助識別視覺對應。在笛卡爾坐標系中以米為單位描述所涉及的所有對象的位置,所描述的坐標系的選擇並不意味著所涉及的計算是通過笛卡爾坐標進行的。
圖2中的第一個示例考慮了球形空間擴展聲源,球形空間擴展聲源相對於收聽者具有固定的大小和固定的位置。在投影凸殼上選擇三組不同的三個、五個和八個周邊點源,在凸殼曲線上以均勻的距離選擇所有三組周邊點源,故意選擇凸殼曲線上的周邊點源的偏移位置,以便很好地表示空間擴展聲源幾何形狀的水平範圍。
圖2顯示球形空間擴展聲源,其具有均勻分佈在凸殼上的周邊點源的數量(即3個(頂部)、5個(中間)和8個(底部))。
圖3中的下一個示例考慮了橢圓形的空間擴展聲源,橢圓形空間擴展聲源在3D空間中具有固定的形狀、位置和旋轉,在本示例中,選擇了四個周邊點源,以下舉例說明三種確定周邊點源位置的方法:
a)兩個周邊點源放置在兩個水平極值點處,且兩個周邊點源放置在兩個垂直極值點處,其中,極點定位是簡單並且通常是適當的。本示例表明,本方法可能會產生彼此相對靠近的周邊點源位置。
b)所有四個周邊點源均均勻地分佈在投影凸殼上,選擇周邊點源位置的偏移量,以使最頂部的周邊點源位置與a)中的最高周邊點源位置重合。由此可以看出,周邊點源位置偏移的選擇對經由周邊點源的幾何形狀表示具有相當大的影響。
c)所有四個周邊點源均均勻地分佈在縮小的投影凸殼上,周邊點源位置的偏移位置等於b)中選擇的偏移位置,投影凸殼的收縮操作以與方向無關的拉伸因子朝向投影凸殼的重心執行。
圖3說明在三種不同的確定周邊點源位置的方法下,具有四個周邊點源的橢圓形空間擴展聲源:a/頂部)水平和垂直極值點,b/中間)凸殼上的均勻分佈的點, c/底部)在縮小的凸殼上均勻分佈的點。
圖4中的下一個示例考慮了線性空間擴展聲源。儘管先前的示例考慮了體積空間擴展的聲源幾何形狀,但本示例演示了空間擴展聲源的幾何形狀可以很好地選擇為3D空間中的單個三維對象。子圖a)描繪了放置在有限線空間擴展聲源的幾何形狀的極點上的兩個周邊點源;子圖b)將兩個周邊點源放置在有限線空間擴展聲源的幾何形狀的極點處,並在該線的中間放置一個其他點源,如在本發明的方法或設備的實施例中所描述的,將附加點源放置在空間擴展聲源的幾何形狀內可以幫助填充大的空間擴展聲源的幾何形狀中的大間隙;子圖c)考慮了與a)和b)中相同的線空間擴展聲源的幾何形狀,但是朝向收聽者的相對角度發生了變化,使得線幾何形狀的投影長度明顯較小,如以上本發明方法或設備的實施例中所描述的,投影凸殼所減小的尺寸可以由減少數量的周邊點源表示,在本特定示例中,可以由位於線幾何形狀的中心的單個周邊點源表示。
圖4顯示一線空間擴展聲源,其具有三種不同的方法來分佈周邊點源的位置:a /頂部)在投影凸殼上的兩個極點;b/中間)在投影凸殼上的兩個極點,在線的中心有一個附加點源;c/底部)因為旋轉線的投影凸殼太小而無法容納一個以上的周邊點源,所以在凸起的中心處有一個周邊點源。
圖5中的下一個示例考慮了一長方體空間擴展聲源,長方體空間擴展聲源具有固定的大小和固定的位置,但是收聽者的相對位置會發生變化。子圖a)和b)描繪了在投影凸殼上放置四個周邊點源的不同方法。背投影的周邊點源位置由投影凸殼的選擇唯一確定;子圖c)描繪了四個周邊點源,其沒有適度分開的背投影位置,取而代之的是,選擇周邊點源位置的距離等於空間擴展聲源的幾何形狀的重心的距離。
圖5顯示一長方體空間擴展聲源,其具有三種不同的方法來分佈周邊點源:a/頂部)在水平軸上的兩個周邊點源和在垂直軸上的兩個周邊點源;b/中間)在投影凸殼的水平極點上有兩個周邊點源,在投影凸殼的垂直極點上有兩個周邊點源;c/底部)背投影周邊點源距離選擇為等於空間擴展聲源的幾何形狀的重心的距離。
圖6中的下一個示例考慮了具有固定大小和形狀的球形空間擴展聲源,但相對於收聽者位置的距離不同,其中周邊外圍點源均勻分佈在凸殼曲線上,周邊點源的數量是根據凸殼曲線的長度和可能的周邊點源位置之間的最小距離動態確定的。a)球形空間擴展聲源相距很近,因此在投影凸殼上選擇了四個周邊點聲源;b)球形空間擴展聲源處於中等距離,因此在投影凸殼上選擇了三個周邊點聲源。c)球形空間擴展聲源距離較遠,因此在投影凸殼上僅選擇了兩個周邊點聲源。如以上在本發明的方法或設備的實施例中所描述的,周邊點源的數量也可以根據球形角坐標中表示的程度來確定。
圖6顯示一球形空間擴展聲源,其大小相等但距離不同:a/頂部)近距離,其中四個周邊點源均勻地分佈在投影凸殼上;b/中間)中等距離,三個周邊點源均勻分佈在投影凸殼上;c/底部)遠距離,兩個周邊點源均勻分佈在投影凸殼上。
圖7和8中的最後一個示例考慮了放置在虛擬世界中的鋼琴形狀的空間擴展聲源。使用者佩戴頭戴式顯示器(HMD)和耳機,因此可以向使用者展示一個虛擬實境場景,該場景由空曠的畫布和站立在自由移動區域內的地板上的3D立式鋼琴模型組成(請參見圖7)。開放世界畫布是投射到使用者周圍球體上的球形靜態圖像,在這種特殊情況下,開放世界畫布可描繪藍天白雲,而使用者能夠從各個角度走動並觀看和收聽鋼琴。在此場景中,鋼琴被渲染為放置在重心上的單點源,或者是投影凸殼上具有三個周邊點源的空間擴展聲源(請參見圖8)。渲染實驗顯示,周邊點源的渲染方法遠優於單個點源的渲染方法。
為了簡化周邊點源位置的計算,將鋼琴的幾何形狀抽象為具有類似尺寸的橢圓球體形狀,請參見圖7。此外,兩個替代點源分別位於赤道線上的左、右極點上,而第三個替代點仍保留在北極,請參見圖8。這種配置可以從各個角度保證適當的水平光源寬度,並且大幅降低計算成本。
圖7說明具有近似參數橢圓球體形狀(表示為紅色網格)的鋼琴形狀的空間擴展聲源(以綠色表示)。
圖8顯示鋼琴形狀的空間擴展聲源,其具有分佈在投影凸殼的垂直極點和投影凸殼的垂直頂部位置上的三個周邊點源。需注意者,為獲得更好的可視化效果,可以將周邊點源放置在拉伸的投影凸殼上。
以下將提供本發明的實施例的特定特徵,所呈現的實施例的特徵如下: l  為了填充空間擴展聲源的感知聲學空間,最好不將整個內部填充解相關的點源(周邊點源),而只填充其面對收聽者的周圍(例如,朝向收聽者之空間擴展聲源的凸殼的投影)。具體而言,這意味著周邊點源位置未附加到空間擴展聲源的幾何形狀,而是在考慮空間擴展聲源相對於收聽者位置的相對位置的情況下動態計算的。 o    動態計算周邊點源(數量和位置) l  使用空間擴展聲源形狀的近似值(對於使用壓縮表示的情況:作為位元流的一部分發送)。
以上所述之技術的應用可以作為音頻六自由度VR/AR標準的一部分,在這種情況下,其具有經典的編碼/位元流/解碼器(+渲染器)方案: l  在編碼器中,空間擴展聲源的形狀將與空間擴展聲源的“基本”波形一起作為輔助資訊進行編碼,可以是 o    單聲道訊號,或 o    立體聲訊號(最好充分解相關),或 o    甚至記錄更多的訊號(最好也充分解相關) 用以表徵空間擴展聲源,這些波形可以是低位元率編碼的。 l  在解碼器/渲染器中,如前所述,從位元流中檢索空間擴展聲源的形狀和相應的波形,並用於呈現空間擴展聲源。
取決於所使用的實施例以及作為所描述的實施例的替代,需注意者,該介面可以被實現為用於感測收聽者位置的實際追踪器或感測器。然而,收聽者位置通常從外部追踪器設備接收,並通過藉面饋送到再現設備中,但是該介面可以僅表示用於從外部追踪器輸出數據的數據輸入,也可以表示追踪器本身。
此外,如上所述,在周邊聲源之間可能需要額外的輔助音頻源。
此外,已經發現,對於聽覺印象,左/右周邊聲源以及可選地水平間隔(相對於收聽者)的輔助聲源比豎直間隔的周邊聲源(即空間擴展聲源的頂部和底部的周邊聲源)對感知印象更為重要,例如,當資源稀缺時,最好至少使用水平間隔的周邊(和可選的輔助)聲源,而為了節省處理資源,可以省略垂直間隔的周邊聲源。
此外,如上所述,位元流生成器可以被實現為生成僅具有用於空間擴展聲源的一個聲音訊號的位元流,並且剩餘的聲音訊號可借助於解相關在解碼器側或再現側生成。當僅存在一個訊號,並且要用該單個訊號平均填充整個空間時,不需要任何位置資訊。然而,在這種情況下,至少具有關於由諸如圖10中的220所示的幾何形狀資訊計算器(幾何形狀提供器220)所計算的空間擴展聲源的幾何形狀的附加資訊可能是有用的。
這裡要提到的是,如前所述的所有替代方案或態樣以及由所附請求項的獨立請求項所定義的所有態樣可以單獨使用,即除了所設想的替代方案、目的或獨立請求項外,沒有任何其他替代方案或目的。然而,在其他實施例中,兩個或多個替代方案或態樣或獨立請求項可以彼此組合,並且在其他實施例中,所有態樣或替代方案和所有獨立請求項可以彼此組合。
本發明的編碼聲場描述可以儲存在數位儲存媒體或非暫時性儲存媒體上,或者可以在傳輸媒體上傳輸,如無線傳輸媒體或有線傳輸媒體(如網際網路)。
儘管已經在設備的說明中描述了一些態樣,但是很明顯的,這些態樣也代表了對相應方法的描述,其中方塊或裝置對應於方法步驟或方法步驟的特徵,類似地,在方法步驟的說明中描述的態樣也表示對相應設備的相應方塊或項目或特徵的描述。
依據某些實施要求,本發明的實施例可以利用硬體或軟體來實現,其可以使用數位儲存媒體執行來實現,例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,其儲存有電子可讀控制訊號,這些訊號可以配合(或能夠配合)可程式化電腦系統,以便執行相應的方法。
根據本發明的一些實施例包括具有電子可讀控制訊號的數據載體,該電子可讀控制訊號能夠與可程式化電腦系統合作,從而執行本文描述的方法之一。
一般而言,本發明的實施例可以被實現為具有程序代碼的電腦程式產品,當電腦程式產品在電腦上運行時,該程式碼可用於執行一種方法,程式碼可以例如被儲存在機器可讀載體上。
其他實施例包括儲存在機器可讀載體或非暫時性儲存媒體上的,用於執行本文描述的方法之一的電腦程式。
換句話說,因此本發明之方法的實施例是一種電腦程式,該電腦程式具有當電腦程式在電腦上運行時用於執行本文描述的方法之一的程式碼。
因此,本發明之方法的另一實施例是一種數據載體(或數位儲存媒體,或電腦可讀媒體),其包括記錄在其上的用於執行本文所述方法之一的電腦程式。
因此,本發明之方法的另一實施例是表示用於執行本文描述的方法之一的電腦程式的數據流或訊號序列,數據流或訊號序列可以例如被配置為經由資料通訊連接,例如經由網際網路來傳輸。
另一實施例包括一處理裝置,例如電腦或可程式化邏輯裝置,其被配置為或適於執行本文描述的方法之一。
另一實施例包括一種電腦,該電腦上安裝了用於執行本文描述的方法之一的電腦程式。
在一些實施例中,可程式化邏輯裝置(例如場域可程式化邏輯閘陣列)可以用於執行本文描述的方法的一些或全部功能。在一些實施例中,場域可程式化邏輯閘陣列可以與微處理器協作以便執行本文描述的方法之一。通常,這些方法較佳由任何硬體設備執行。
以上所述的實施例僅用於說明本發明的原理,應當理解,本文描述的配置和細節的修改和變化對於本領域的其他技術人員是顯而易見的,因此,本發明的意圖僅由後續之請求項的範圍所限制,而不限於通過本文的實施例的描述和解釋而給出的具體細節。
參考書目 Alary, B., Politis, A., & Välimäki, V. (2017). Velvet Noise Decorrelator. Baumgarte, F., & Faller, C. (2003). Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509–519. Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press. Faller, C., & Baumgarte, F. (2003). Binaural Cue Coding-Part II: Schemes and Applications. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520–531. Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71-87. Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room-Acoustics Recording. Ingenioren, 47. Pihlajamäki, T., Santala, O., & Pulkki, V. (2014). Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467–484. Potard, G. (2003). A study on sound source apparent shape and wideness. Potard, G., & Burnett, I. (2004). Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays. Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456–466. Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources . Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc, 55(6), S. 503–516. Pulkki, V., Laitinen, M.-V., & Erkut, C. (2009). Efficient Spatial Sound Synthesis for Virtual Worlds. Schlecht, S. J., Alary, B., Välimäki, V., & Habets, E. A. (2018). Optimized Velvet-Noise Decorrelator. Schmele, T., & Sayin, U. (2018). Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters. Schmidt, J., & Schröder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG-4 Standard. Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). A 3-D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward-Compatible Multichannel Audio Codec, 18(6), S. 1550–1561. Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S. 27–37. Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics.
100:介面、感測器 120:投影器、方塊 140:聲音位置計算器、方塊 160:渲染器 162:渲染器核心、方塊 164:源基礎訊號、方塊 166:解相關器、方塊 180:位元流解多工器、場景解析器 190:音頻解碼器 200:聲音提供器 220:幾何形狀提供器 240:輸出數據形成器 250:控制器 260:音頻解碼器、方塊 301:第一聲音訊號(聲音訊號1) 302:第二聲音訊號(聲音訊號2) 311:位元流元素、方塊 321:(聲音訊號的)位置資訊、方塊 331:幾何形狀資訊、方塊 341:(空間擴展聲源的)位置資訊、方塊 401:第二空間擴展聲源
以下將參考附圖討論本發明的較佳實施例,其中: 圖1是再現側的一較佳實施例的方塊圖; 圖2顯示具有不同數量之周邊點源的一球形空間擴展聲源; 圖3顯示具有多個周邊點源的一橢圓形空間擴展聲源; 圖4顯示採用不同方法來分佈周邊點源的位置的一線狀空間擴展聲源; 圖5顯示一立方體的空間擴展聲源,其利用不同程序來分配周邊點源; 圖6顯示在不同距離處的球形空間擴展聲源; 圖7顯示近似參數橢圓形的一鋼琴形狀之空間擴展聲源; 圖8顯示鋼琴形狀之空間擴展聲源,其具有三個周邊點源分佈在投影之凸殼的極點上; 圖9顯示用於再現空間擴展聲源的設備或方法的較佳實施方式; 圖10顯示用於生成表示用於空間擴展聲源的壓縮描述的位元流的設備或方法的較佳實施方式;以及 圖11顯示如圖10所示之設備或方法所生成的位元流的較佳實施方式。
100:介面、感測器
120:投影器、方塊
140:聲音位置計算器
160:渲染器
162:渲染器核心
164:源基礎訊號
166:解相關器
180:位元流解多工器、場景解析器
190:音頻解碼器

Claims (47)

  1. 一種再現一空間擴展聲源的設備,該空間擴展聲源具有在一空間中已定義之一位置及一幾何形狀,該設備包含: 一介面,其用以接收一收聽者位置; 一投影器,其利用該收聽者位置、該空間擴展聲源之該幾何形狀上的一資訊、及該空間擴展聲源之該位置上的一資訊,來計算與該空間擴展聲源關聯之一二維或三維外殼投射於一投影平面上的一投影; 一聲音位置計算器,其利用該投影平面計算用於該空間擴展聲源之至少二聲源的位置;以及 一渲染器,其係渲染位於該等位置之該至少二聲源,以獲得具有兩個以上之輸出訊號的該空間擴展聲源之一再現,其中,該渲染器係用以對不同之該等位置使用不同之聲音訊號,且不同之該等聲音訊號係與該空間擴展聲源相關聯。
  2. 如請求項1所述之設備,其中一偵測器係使用一追踪系統來偵測在該空間中的一瞬時收聽者位置,或者其中該介面係利用經由該介面輸入的一位置數據。
  3. 如請求項1或2所述之設備,其係用以接收一場景描述以及至少一聲音訊號,該場景描述包含該空間擴展聲源之所定義之該位置上的該資訊以及該空間擴展聲源之所定義之該幾何形狀上的該資訊,該聲音訊號與該空間擴展聲源相關聯, 其中該設備更包含一場景描述解析器,其用於解析該場景描述以取得該位置上的該資訊、該幾何形狀上的該資訊及該至少一個聲音訊號,或 其中針對該空間擴展聲源之該場景描述包含相關於該空間擴展聲源之該幾何形狀上之該資訊的至少二基本聲音訊號及各該基本聲音訊號之一位置資訊,以及該聲音位置計算器係用以當使用該投影平面計算該至少二聲源之該等位置時將該等位置資訊作為該至少二基本聲音訊號。
  4. 如前述請求項任一項所述之設備, 其中該投影器係用以利用該空間擴展聲源之該幾何形狀上的該資訊來計算該空間擴展聲源之該外殼,並利用該收聽者位置將該外殼沿朝向該收聽者之一方向投射,以便於該投影平面上形成該二維或三維外殼的該投影,或 其中該投影器係用以將由該空間擴展聲源之該幾何形狀上的該資訊所定義之該空間擴展聲源之一幾何形狀,沿朝向該收聽者位置之一方向投射,並計算一投射幾何形狀之該外殼,以便於該投影平面上形成該二維或三維外殼的該投影。
  5. 如前述請求項任一項所述之設備, 其中該聲音位置計算器係用以依據一外殼投影數據及該收聽者位置計算該空間中之該等聲源的位置。
  6. 如前述請求項任一項所述之設備, 其中該聲音位置計算器係用以計算該位置,因此該至少二聲源係為週邊聲源並位於該投影平面上,或 其中該聲音位置計算器係用以計算該等週邊聲源之一週邊聲源的一位置,其係相對於該收聽者位於該投影平面之右側、及/或相對於該收聽者位於該投影平面之左側、及/或相對於該收聽者位於該投影平面之上側及/或相對於該收聽者位於該投影平面之下側。
  7. 如前述請求項任一項所述之設備, 其中該渲染器係用以渲染該至少二聲源,其係 根據該等聲源的該等位置進行聲像平移操作,以獲取用於一預定義揚聲器設定的揚聲器訊號,或 根據該等聲源的該等位置,使用聲頭相關轉換函數進行雙耳渲染操作,以獲取耳機訊號。
  8. 如前述請求項任一項所述之設備, 其中一第一數量之相關源訊號係與該空間擴展聲源相關聯,該第一數量係為一或大於一,其中該等相關源訊號係與相同之該空間擴展聲源相關, 其中該聲音位置計算器係決定用於渲染該空間擴展聲源的一第二數量之聲源,該第二數係大於一,以及 其中該渲染器包含一個或一個以上之解相關器,其係用於當該第二數量大於該第一數量時,從一個或一個以上之該第一數量的聲源訊號產生一解相關訊號。
  9. 如前述請求項任一項所述之設備, 其中該介面係用以接收該收聽者在該空間中的一時變位置, 其中該投影器係用以計算在該空間中的一時變投影, 其中該聲音位置計算器係用以計算在該空間中的多個聲源之一時變數量或該等聲源之多個時變位置,以及 其中該渲染器係用以渲染在該空間中的該等聲源之該時變數量或在該等時變位置之該至少二聲源。
  10. 如前述請求項任一項所述之設備, 其中該介面係用以接收具六個自由度之該收聽者位置,以及 其中該投影器係用以依據該六個自由度計算該投影。
  11. 如前述請求項任一項所述之設備,其中該投影器係用以 將該投影計算為一圖片平面,例如垂直於該收聽者之一視線的一平面,或 將該投影計算為圍繞該收聽者之頭部的一球形表面,或 將該投影計算為一投影平面,其係位於距該收聽者之頭部中心一預定距離,或 將該投影計算為從相對於該收聽者之頭部的一球面坐標衍生的一方位角及一仰角得來之該空間擴展聲源之一凸殼。
  12. 如前述請求項任一項所述之設備, 其中該聲音位置計算器係用以計算該等位置,以使得該等位置圍繞該外殼之該投影均勻分佈,或者使得該等位置位於該外殼之該投影的極點或週邊點,或者使得該等位置位於該外殼之該投影的水平或垂直之極點或週邊點。
  13. 如前述請求項任一項所述之設備, 其中該聲音位置計算器係用以決定除了多個週邊聲源之位置以外的多個輔助聲源的位置,其係相對於該收聽者位於該外殼之該投影之上、之前、之後或之內。
  14. 如前述請求項任一項所述之設備, 其中該投影器係用以在不同方向上以一可變或預定量或以不同可變或預定量朝向該外殼或該投影之一重心,額外地收縮該外殼之該投影。
  15. 如前述請求項任一項所述之設備,其中該聲音位置計算器係用以進行計算,以使得至少一額外輔助聲源位於該投影平面上,而該投影平面係相對於該收聽者位置位於一左週邊聲源和一右週邊聲源之間,或 其中該聲音位置計算器係用以進行計算,以使得至少一額外輔助聲源位於該投影平面上,而該投影平面係相對於該收聽者位置位於一左週邊聲源和一右週邊聲源之間,其中在該左週邊聲源和該右週邊聲源之間的中間位置放置一單獨的額外輔助聲源,或者在該左週邊聲源和該右週邊聲源之間等距放置兩個或以上的多個額外輔助聲源。
  16. 如前述請求項任一項所述之設備, 其中該聲音位置計算器係用以在藉由該介面接收位於該空間擴展聲源週圍之該收聽者的一圓周運動的情況下,或者在藉由該介面接收到相對於一固定收聽者之該空間擴展聲源之一旋轉的情況下,優選圍繞該投影之一重心執行該空間擴展聲源之該聲源位置的一旋轉。
  17. 如前述請求項任一項所述之設備, 其中該渲染器係用以依據該收聽者和該聲源之間的距離,針對各該聲源接收一打開角度,並且依據該打開角度來渲染該聲源。
  18. 如前述請求項任一項所述之設備, 其中該渲染器係用以針對各該聲源接收一距離資訊,以及 其中該渲染器係用以依據該距離資訊來渲染該聲源,以使得相對於位於距離該收聽者較遠且具有相同音量的一聲源,位於距離該收聽者較近的該聲源係被渲染成具有較大音量。
  19. 如前述請求項任一項所述之設備,其中該聲音位置計算器係用以 針對各該聲源決定一距離,其係等於該空間擴展聲源相對於該收聽者的一距離,或 藉由該聲源在該空間擴展聲源之該幾何形狀上的該投影上的該聲源之一位置的一反向投影,決定各該聲源之一距離。
  20. 如前述請求項任一項所述之設備, 其中在該幾何形狀上的該資訊係定義為一一維直線或曲線、一二維面、或一三維物體,其中該二維面例如為一橢圓形、一矩形、一多邊形,或一組複數個多邊形,該三維物體例如為一橢圓球體、一長方體或一多面體,及/或 其中該資訊係定義為一參數描述、一多邊形描述、或該多邊形描述之一參數表示。
  21. 如前述請求項任一項所述之設備, 其中該聲音位置計算器係用以依據該收聽者到該空間擴展聲源的一距離決定一數量之聲源,其中當該收聽者到該空間擴展聲源的該距離較小時,該等聲源之該數量較大,而當該收聽者到該空間擴展聲源的該距離較大時,該等聲源之該數量較小。
  22. 如前述請求項任一項所述之設備,其係用以接收有關該空間擴展聲源引入之一擴展的一資訊,以及 其中該投影器使用該擴展之該資訊對該外殼或該投影進行一收縮操作,以至少部分地補償該擴展。
  23. 如前述請求項任一項所述之設備, 其中該渲染器係用以在該等聲源的該等位置在定義的一容錯範圍內彼此相同的情況下,藉由組合與該空間擴展聲源相關的基本訊號來渲染該聲源,以便獲得旋轉之基本訊號並在位置上渲染該等旋轉之基本訊號,其中渲染該聲源之方式係例如利用一吉文斯旋轉。
  24. 如前述請求項任一項所述之設備, 其中該渲染器係用以當依據一位置或方向相關之特性產生該至少二聲源時,執行一預處理或一後處理。
  25. 如前述請求項任一項所述之設備, 其中對該幾何形狀上之該資訊,該空間擴展聲源具有一資訊,且該空間擴展聲源係為球形、橢圓形、直線、長方體或鋼琴形的一空間擴展聲源。
  26. 如前述請求項任一項所述之設備,其係用以 接收表示用於該空間擴展聲源之一壓縮描述的一位元流,該位元流包含一位元流元素,該位元流元素指示該位元流所包括的用於該空間擴展聲源的一第一數量之不同聲音訊號或由該設備接收的一編碼音頻訊號,第一數量係大於等於1, 讀取該位元流元素,並為擷取在該位元流或該編碼音頻訊號中所包含之針對該空間擴展聲源的該第一數量之不同聲音訊號,以及 其中,該聲音位置計算器決定用於渲染該空間擴展聲源的一第二數量之聲源,該第二數量大於1,以及 其中,該渲染器係用以依據從該位元流中擷取之該第一數量產生一第三數量之一個以上之解相關訊號,該第三數量係從該第二數量與該第三數量之間的一差值推導而出。
  27. 一種產生一位元流之設備,該位元流表示一空間擴展聲源之一壓縮描述,該設備包含: 一聲音供應器,其係提供一個以上之不同聲音訊號給該空間擴展聲源; 一幾何形狀供應器,其係計算該空間擴展聲源之一幾何形狀之一資訊;以及 一輸出數據形成器,其係產生表示該壓縮聲音場景的該位元流,該位元流包含一個以上之不同的聲音訊號,以及該幾何形狀之該資訊。
  28. 如請求項27所述之設備,其中該幾何形狀之該資訊包含一位置資訊,其係指示該空間擴展聲源在一空間中的一位置。
  29. 如請求項27或28所述之設備,包含: 其中該輸出數據形成器係用以將該一個以上之不同聲音訊號的各該聲音訊號的該個別位置之一資訊導入至該位元流,該個別位置之該資訊表示對應之該聲音訊號之該位置。
  30. 如請求項27、28或29所述之設備,其中該聲音供應器係用以提供至少二個不同聲音訊號給該空間擴展聲源,且其中該輸出數據形成器係用以產生該位元流,因此該位元流包含該至少二個不同聲音訊號,以及相對於該空間擴展聲源之該幾何形狀的該資訊之該至少二個不同聲音訊號中的每個聲音訊號的一個別位置資訊。
  31. 如請求項27至30任一項所述之設備,其中該聲音供應器係用以 在單一或多個麥克風位置或方向上錄製一自然聲源 藉由一個或多個解相關濾波器從單一或多個基本訊號中導出一聲音訊號。
  32. 如請求項27至31任一項所述之設備, 其中該聲音供應器係用以使用一音頻訊號編碼器進行位元速率壓縮該一個或多個聲音訊號,以及 其中該輸出數據形成器係用以使用經位元速率壓縮之該一個或多個聲音訊號作為該空間擴展聲源。
  33. 如請求項27至32任一項所述之設備,其中該幾何形狀提供者係用以從該空間擴展聲源之一幾何形狀中推導出一參數描述、一多邊形描述、或該多邊形描述之一參數表示,並且其中該輸出數據形成器係用以將該參數描述、該多邊形描述、或該多邊形描述之該參數表示導入該位元流中,以作為該幾何形狀的該資訊。
  34. 如請求項27至33任一項所述之設備,其中該輸出數據形成器係用以將一位元流元素導入該位元流中,該位元流元素指示包含於該位元流或與該位元流相關之一編碼音頻訊號中的該空間擴展聲源的一個以上之該不同聲音訊號的一數量,該數量係大於等於1。
  35. 一種再現一空間擴展聲源的方法,該空間擴展聲源具有在一空間中已定義之一位置及一幾何形狀,該方法包含: 接收一收聽者位置; 利用該收聽者位置、該空間擴展聲源之該幾何形狀上的一資訊、及該空間擴展聲源之該位置上的一資訊,來計算投射於一投影平面上與該空間擴展聲源關聯之一二維或三維外殼的一投影; 利用該投影平面計算用於該空間擴展聲源之至少二聲源的位置;以及 渲染位於該等位置之該至少二聲源,以獲得具有兩個以上之輸出訊號的該空間擴展聲源之一再現,其中,該渲染步驟包含對不同之該等位置使用不同之聲音訊號,且不同之該等聲音訊號係與該空間擴展聲源相關聯。
  36. 一種產生一位元流之方法,該位元流表示一空間擴展聲源之一壓縮描述,該方法包含: 提供一個以上之不同聲音訊號給該空間擴展聲源; 提供該空間擴展聲源之一幾何形狀之一資訊;以及 產生表示該壓縮聲音場景的該位元流,該位元流包含該等一個以上之不同的聲音訊號,以及該空間擴展聲源之該幾何形狀之該資訊。
  37. 如請求項36所述之方法,其中該空間擴展聲源之該幾何形狀之該資訊包含該空間擴展聲源在一空間中的一位置資訊。
  38. 如請求項36或37所述之方法, 其中產生該位元流之步驟包含將該一個以上之不同聲音訊號的各該聲音訊號的該個別位置之一資訊導入至該位元流。
  39. 如請求項36、37或38所述之方法,其中提供該一個以上之不同聲音訊號之步驟包含提供至少二個不同聲音訊號給該空間擴展聲源,且其中執行產生該位元流之步驟,該位元流包含該至少二個不同聲音訊號,以及該至少二個不同聲音訊號中的每個聲音訊號的一個別位置資訊,因此該資訊指示相對於該空間擴展聲源之該幾何形狀之該資訊的該對應之聲音訊號中的位置。
  40. 如請求項36至39任一項所述之方法,其中產生該位元流之步驟包含將一位元流元素導入該位元流中,該位元流元素指示包含於該位元流或與該位元流相關之一編碼音頻訊號中的該空間擴展聲源的一個以上之該不同聲音訊號的一數量,該數量係大於等於1。
  41. 一種位元流,其表示一空間擴展聲源之一壓縮描述,包含: 該空間擴展聲源之一個以上之不同聲音訊號;以及 該空間擴展聲源之一幾何形狀之一資訊。
  42. 如請求項41所述之位元流,更包含: 在二個以上之不同聲音訊號的情況下,該二個以上之不同聲音訊號的各該聲音訊號的一個別位置資訊,該個別位置資訊表示對應之該聲音訊號之一位置。
  43. 如請求項41或42所述之位元流,更包含: 該一個以上之不同聲音訊號的各該聲音訊號的該個別位置之一資訊,其中該個別位置之該資訊指示相對於該空間擴展聲源之該幾何形狀的該資訊之該對應聲音訊號之該位置。
  44. 如請求項41、42或43所述之位元流,其中該空間擴展聲源之該幾何形狀的該資訊包含該空間擴展聲源之一位置資訊。
  45. 如請求項41至44任一項所述之位元流,包含: 一第一聲音訊號之一第一位置資訊,其指示相對於該空間擴展聲源之該幾何形狀之該資訊的該對應聲音訊號之一第一位置;以及 一第二聲音訊號之一第二位置資訊,其指示相對於該空間擴展聲源之該幾何形狀之該資訊的該對應聲音訊號之一第二位置,該第二位置資訊係不同於該第一位置資訊。
  46. 如請求項41至45任一項所述之位元流,更包含一位元流元素,其指示包含於該位元流或與該位元流相關之一編碼音頻訊號中的該空間擴展聲源的一個以上之該不同聲音訊號的一數量,該數量係大於等於1。
  47. 一種電腦程式,其係由一電腦或一處理器執行以實現如請求項35至40任一項所述之方法。
TW108146529A 2018-12-19 2019-12-18 再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法 TWI786356B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18214182.0 2018-12-19
EP18214182 2018-12-19
PCT/EP2019/085733 WO2020127329A1 (en) 2018-12-19 2019-12-17 Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
WOPCT/EP2019/085733 2019-12-17

Publications (2)

Publication Number Publication Date
TW202027065A true TW202027065A (zh) 2020-07-16
TWI786356B TWI786356B (zh) 2022-12-11

Family

ID=65010413

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108146529A TWI786356B (zh) 2018-12-19 2019-12-18 再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法

Country Status (13)

Country Link
US (1) US11937068B2 (zh)
EP (1) EP3900401A1 (zh)
JP (2) JP2022515998A (zh)
KR (2) KR20240005112A (zh)
CN (1) CN113316943B (zh)
AU (1) AU2019409705B2 (zh)
BR (1) BR112021011170A2 (zh)
CA (2) CA3123982C (zh)
MX (1) MX2021007337A (zh)
SG (1) SG11202106482QA (zh)
TW (1) TWI786356B (zh)
WO (1) WO2020127329A1 (zh)
ZA (1) ZA202105016B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819344B (zh) * 2020-07-31 2023-10-21 大陸商華為技術有限公司 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021144308A1 (en) * 2020-01-14 2021-07-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a description for a spatially extended sound source using anchoring information
WO2021178454A1 (en) * 2020-03-02 2021-09-10 Magic Leap, Inc. Immersive audio platform
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
AU2022258764A1 (en) * 2021-04-14 2023-10-12 Telefonaktiebolaget Lm Ericsson (Publ) Spatially-bounded audio elements with derived interior representation
BR112023022238A2 (pt) * 2021-04-29 2024-02-06 Dolby Int Ab Métodos, aparelho e sistemas para modelar objetos de áudio com extensão
WO2023061965A2 (en) * 2021-10-11 2023-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Configuring virtual loudspeakers
TW202332290A (zh) * 2021-11-09 2023-08-01 弗勞恩霍夫爾協會 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
WO2023083753A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object
WO2023242145A1 (en) * 2022-06-15 2023-12-21 Dolby International Ab Methods, systems and apparatus for acoustic 3d extent modeling for voxel-based geometry representations
CN115408442B (zh) * 2022-08-15 2023-03-10 云南大学 基于扩展空间同位模式的土地覆盖分布关系挖掘方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3528284B2 (ja) 1994-11-18 2004-05-17 ヤマハ株式会社 3次元サウンドシステム
AU2001250802A1 (en) * 2000-03-07 2001-09-17 Sarnoff Corporation Camera pose estimation
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
EP1552724A4 (en) * 2002-10-15 2010-10-20 Korea Electronics Telecomm METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
JP2007003989A (ja) * 2005-06-27 2007-01-11 Asahi Kasei Homes Kk 音環境解析シミュレーションシステム
RU2505941C2 (ru) 2008-07-31 2014-01-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Формирование бинауральных сигналов
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
WO2014036085A1 (en) 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Reflected sound rendering for object-based audio
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
US9854377B2 (en) * 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
EP3275213B1 (en) * 2015-05-13 2019-12-04 Huawei Technologies Co., Ltd. Method and apparatus for driving an array of loudspeakers with drive signals
JP6786834B2 (ja) * 2016-03-23 2020-11-18 ヤマハ株式会社 音響処理装置、プログラムおよび音響処理方法
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
EP3472832A4 (en) 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819344B (zh) * 2020-07-31 2023-10-21 大陸商華為技術有限公司 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質

Also Published As

Publication number Publication date
CA3123982A1 (en) 2020-06-25
KR102659722B1 (ko) 2024-04-23
AU2019409705B2 (en) 2023-04-06
ZA202105016B (en) 2022-04-28
BR112021011170A2 (pt) 2021-08-24
KR20240005112A (ko) 2024-01-11
SG11202106482QA (en) 2021-07-29
MX2021007337A (es) 2021-07-15
KR20210101316A (ko) 2021-08-18
EP3900401A1 (en) 2021-10-27
US11937068B2 (en) 2024-03-19
JP2024020307A (ja) 2024-02-14
CA3199318A1 (en) 2020-06-25
AU2019409705A1 (en) 2021-08-12
CN113316943B (zh) 2023-06-06
WO2020127329A1 (en) 2020-06-25
JP2022515998A (ja) 2022-02-24
CA3123982C (en) 2024-03-12
CN113316943A (zh) 2021-08-27
US20210289309A1 (en) 2021-09-16
TWI786356B (zh) 2022-12-11

Similar Documents

Publication Publication Date Title
TWI786356B (zh) 再現空間擴展聲源的設備與方法、或從空間擴展聲源生成位元流的設備與方法
TWI818244B (zh) 使用提示資訊項目來合成空間擴展聲源的設備及方法
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
TW202332290A (zh) 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式