TW202332290A - 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流 - Google Patents

使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流 Download PDF

Info

Publication number
TW202332290A
TW202332290A TW111142839A TW111142839A TW202332290A TW 202332290 A TW202332290 A TW 202332290A TW 111142839 A TW111142839 A TW 111142839A TW 111142839 A TW111142839 A TW 111142839A TW 202332290 A TW202332290 A TW 202332290A
Authority
TW
Taiwan
Prior art keywords
audio
renderer
spatially extended
sound
listener
Prior art date
Application number
TW111142839A
Other languages
English (en)
Inventor
西蒙 施瓦爾
吳允瀚
喬根 希瑞
馬蒂亞斯 吉依爾
米哈伊爾 科羅蒂耶夫
Original Assignee
弗勞恩霍夫爾協會
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW202332290A publication Critical patent/TW202332290A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

根據本發明之實施例包含一種用於呈現(例如在空間上呈現)一聲學場景之呈現器,其中該呈現器經組配以使用一空間擴展音源(例如一SESS,例如作為一空間擴展音源,例如,例如使用一均勻擴展音源演算法再現一漫射聲音之一空間擴展音源)在一第二空間區域中(例如一第二聲學均勻空間中;例如一第二房間中;例如一第一空間區域外部之一空間區域中)呈現(例如再現)(例如一混響;例如一晚期混響之)該漫射聲音之一聲學衝擊,該漫射聲音來源於該第一空間區域中(例如一第一聲學均勻空間,AHS中;例如一第一房間中)。 此外,揭示編碼器、方法及位元串流。

Description

使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
發明領域
實施例係關於使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流。
根據本發明之實施例包含使用空間擴展音源模擬漫射聲音藉由入口之傳播之設備及方法。
發明背景
舉例而言,對於虛擬實境及擴增實境應用,具挑戰性任務可為不同聲學空間,例如具有不同聲學屬性之聲學空間之間的聲音傳播之表示。
此任務對於具有許多聲學耦合空間之虛擬實境或擴增實境環境可尤其具挑戰性。另外,其他挑戰可起因於音訊場景之易變性,其中使用者可不具有預定位置但可能夠在聲學場景內即時自由移動且充當音源。
因此,需要提供在所呈現音訊場景之可實現感知印象、用於呈現音訊場景之資料之傳輸效率與資料之解碼及/或呈現之效率之間作出較佳折衷的概念。
此係藉由本申請案之獨立技術方案之主題實現的。
根據本發明之其他實施例係由本申請案之附屬技術方案之主題定義。
發明概要
根據本發明之實施例包含用於呈現(例如在空間上呈現)聲學場景之呈現器,其中呈現器經組配以使用空間擴展音源(例如SESS,例如,例如使用均勻擴展音源演算法再現漫射聲音之空間擴展音源)在第二空間區域中(例如第二聲學均勻空間中;例如第二房間中;例如第一空間區域外部之空間區域中)呈現(例如再現)(例如混響;例如晚期混響之)漫射聲音之聲學衝擊,該漫射聲音來源於第一空間區域中(例如第一聲學均勻空間,AHS中;例如第一房間中)。
本發明人認識到,可使用空間擴展音源高效地呈現(或表示或模型化)來自第一空間區域(其作為實例與第二空間區域聲學耦合)之漫射音場之聲學影響。
換言之,基於在呈現程序中例如藉由計算空間擴展音源對第二空間區域(例如第二房間)中之收聽者造成之聲音印象併入空間擴展音源,可實現聽覺印象,其中真實地表示來源於第一空間區域(例如第一房間)中之漫射音場。
本發明人認識到,用於呈現之此空間擴展音源之使用可允許提供所呈現音訊場景之真實聽覺印象,同時限制例如對提供音訊場景所需之資料之傳輸及處理(例如解碼及/或呈現)的負面影響(例如相對於所需資料或計算成本之增加)。
根據本發明之其他實施例,呈現器經組配以使用直接聲音呈現在第二空間區域中呈現給定音源(其位於第一空間區域中)之直接聲音聲學衝擊。
此外,呈現器經組配以使用空間擴展音源在第二空間區域中呈現給定音源之漫射聲音聲學衝擊,例如來源於第一空間區域中之漫射聲音之聲學衝擊。
應注意,實施例不限於呈現或表示同一音源之漫射聲音聲學衝擊及直接聲學衝擊。根據實施例之呈現器可經組配以呈現包含多個音源(對於為其呈現場景之各別收聽者,其中一些可提供漫射聲音且一些可提供直接聲音(或分別這二者))之音訊場景。
然而,此多個音源亦可模型化為具有直接聲音聲學衝擊及漫射聲音聲學衝擊(其可分別為該等多個音源之聲學衝擊之聚合版本)之單個音源。
作為實例,音源,諸如在第一房間中說話之個人對於第二房間中之收聽者可為可聽的。收聽者可聽到作為直接聲音聲學衝擊之說話者之語音以及作為漫射聲音聲學衝擊之由第一房間內語音之晚期混響引起之第二聲音。
本發明人認識到,使用單獨呈現途徑(呈直接聲音呈現之使用及空間擴展音源之使用的形式)允許提供真實聽覺印象。
根據本發明之其他實施例,呈現器經組配以將直接源呈現,例如雙耳呈現(其可例如考慮直接傳播、遮擋、繞射等)應用於給定音源(其位於第一空間區域中)之音源信號,以便在位於第二空間區域中之收聽者位置處獲得所呈現直接音源回應。
另外,呈現器經組配以將混響處理(例如產生晚期混響(效應)之混響處理,例如基於經歷多重反射之經反射信號之組合的混響,例如在早期反射已淡入密集且以統計方式分佈之反射之後的混響)應用於給定音源之音源信號,以便獲得給定音源之音源信號之一或多個混響版本。
此外,呈現器經組配以將空間擴展音源呈現應用於給定音源之音源信號之一或多個混響版本,以便在位於第二空間區域中之收聽者位置處獲得所呈現漫射聲音回應。
此可允許解除或減輕位元串流之負擔,由於呈現器可經組配以基於對音源之音源信號之混響處理而分別模擬或模型化或表示漫射音場及/或漫射聲音聲學衝擊。
因此,對於給定音源,可必須傳輸僅一個音源信號例如代替二個信號,其中之第一信號將表示源之直接聲音信號且第二信號將表示源之漫射聲音信號。
根據本發明之其他實施例,呈現器經組配以使用再現晚期混響之空間擴展音源(例如SESS,例如作為空間擴展音源)在第二空間區域中(例如第二聲學均勻空間中;例如第二房間中;例如第一空間區域外部之空間區域中)呈現晚期混響(例如混響;例如藉由位於第一空間區域中(例如第一聲學均勻空間,AHS中;例如第一房間中)之音源激發之晚期混響)之聲學衝擊。
本發明人認識到,聲學耦合但分離的位置中晚期混響之聲學影響可使用空間擴展音源真實地及/或高效地表示。
根據本發明之其他實施例,呈現器經組配以使用在各空間區域中具有類似頻譜內容之空間擴展音源(例如作為空間擴展音源)(例如SESS)呈現漫射聲音(例如混響;例如晚期混響之)聲學衝擊。因此,此空間擴展音源可具備低複雜度,且可例如很好地表示AHS及/或AHS之間的入口。
根據本發明之實施本文中所描述之概念中之一者(有時亦指定為「方法2」)之一些實施例,呈現器經組配以使用置放於第一空間區域與第二空間區域之間的入口處且再現來源於第一空間區域之漫射聲音(或例如漫射聲音之聲學衝擊)之空間擴展音源而呈現漫射聲音之聲學衝擊。
可使用入口表示房間之聲學耦合。此種入口為具有空間範圍之幾何物件。為了真實地提供來源於聲學耦合房間之漫射聲音之衝擊,本發明人認識到,對於收聽者,耦合房間之界面處空間音源之印象可為有利的。
因此,本發明人認識到,在一些情況下,可使用將空間擴展音源置放於第一空間區域與第二空間區域之間的入口處以便提供此真實聽覺印象。換言之,可提供來自(例如來源於)聲學耦合之第一房間中的針對第二房間中之收聽者之空間擴展聲音衝擊(例如作為漫射聲音衝擊之表示)。
此外,應注意,根據此發明概念,呈現器可省略對例如幾何邊界,諸如各別空間區域之壁之遮擋效應的額外考慮,由於場景內入口之位置可允許直接併入或甚至自身可為關於空間區域之間聲學有效或聲學上有衝擊且因此「未經遮擋」之界面區域之資訊。
然而,無論如何或另外,呈現器可例如考量基於收聽者房間內之物件的遮擋效應。
根據本發明之實施本文中所描述之概念中之一者(有時亦指定為「方法1」)之其他實施例,呈現器經組配以使用採用第一空間區域之幾何範圍,例如大小及/或形狀(例如類似於第一空間區域之相同空間擴展,例如第一空間區域之收縮或縮小版本,例如以免重疊邊界,例如同時採用同一形狀)且再現來源於第一空間區域之漫射聲音的空間擴展音源而呈現漫射聲音之聲學衝擊,考慮位於第二空間區域內之收聽者位置處空間擴展音源之遮擋(例如藉由第一空間區域與第二空間區域之間的壁或藉由聲學衰減或聲學不可穿透的任何其他材料)。
本發明人認識到,藉由將空間擴展音源之幾何範圍設定為第一空間區域之幾何範圍,可實現漫射聲音之衝擊之聲學表示的複雜度與品質之間的良好折衷。
如上文所指示,舉例而言,此途徑之優點可為無關於收聽者之位置,再現來源於第一空間區域之漫射聲音的空間擴展音源之幾何範圍可簡單地設定為第一空間區域之幾何範圍,例如無關於收聽者係在第二空間區域、第三空間區域抑或第四空間區域中。
因此,可能無需定位入口,且因此無需基於收聽者位置及收聽者之空間區域與第一空間區域(漫射聲音來源於該第一空間區域)之間的對應界面區域而將空間擴展音源置放至入口。
然而,為了併入遮擋效應,呈現器經組配以考慮位於第二空間區域內之收聽者位置處空間擴展音源之遮擋。
作為實例,此可允許解除位元串流之負擔,由於入口置放資訊可能不必提供至呈現器,其中舉例而言,呈現器可在其末端處考慮收聽者之位置與空間擴展音源之間的遮擋。此外,可簡化對應編碼程序。
舉例而言,使用此途徑,空間(或房間)自身為入口,且藉由虛擬實境系統中(或呈現器中)之遮擋/陰影計算來「剪輯」此整個輻射體積。
根據本發明之其他實施例,第一空間區域為第一聲學均勻空間,例如具有相同晚期迴響(例如晚期混響)特性之空間或區域。替代地或另外,第二空間區域為第二聲學均勻空間,例如具有相同晚期迴響特性之空間或區域。
本發明人認識到,本發明概念可尤其有利地應用於聲學均勻空間,例如相對於為來源於及/或提供至聲學均勻空間之漫射音場提供真實聽覺印象之實施例之能力。
根據本發明之其他實施例,第一空間區域及第二空間區域為房間,例如實體上相鄰之房間或實體上分離之房間,包含遙現結構作為入口,該等房間經由入口(例如經由門)及/或經由聲音可至少部分地穿透之一或多個壁或經由遙現結構聲學耦合。
此可允許提供沉浸式聽覺表達。
根據本發明之其他實施例,呈現器經組配以使用相同呈現演算法呈現多個空間擴展音源,其包含遠離收聽者位置且可例如佔據各別聲學均勻空間或房間之全部空間(或收縮部分)的一或多個空間擴展源及內部定位有收聽者位置且可例如佔據各別均勻空間或房間之全部空間(或縮小部分)的一或多個空間擴展源,考量收聽者位置與遠離收聽者位置之一或多個空間擴展源之間的遮擋。
應注意,一般而言,根據實施例,空間擴展音源或入口(例如表示入口之空間擴展音源)可例如藉由例如略微收縮對應空間之幾何形狀而獲得,以便避免空間擴展音源或入口之幾何形狀與例如空間區域之潛在遮擋邊界之間的重疊。
根據本發明之其他實施例,呈現器經組配以執行雙耳呈現。實施例可允許為頭戴式耳機使用者真實地提供聽覺體驗。
根據本發明之其他實施例,呈現器經組配以判定(例如使用基於射線追蹤之途徑,例如考量遮擋及/或衰減)用於再現漫射聲音之空間擴展音源位於哪一空間區域中,例如位於哪一水平/豎直區域或方位角/仰角區域中,相對於收聽者之位置及/或收聽者之定向(例如自收聽者之視角所見),且取決於此來呈現空間擴展音源。
此可允許為收聽者提供精確的空間聽覺體驗。此外,可考量收聽者與空間擴展音源之間的額外聲學相關場景物件及/或特性之影響。
根據本發明之其他實施例,呈現器經組配以判定(例如使用基於射線追蹤之途徑,例如考量遮擋及/或衰減)在哪一空間區域中,例如在哪一水平/豎直區域或方位角/仰角區域中用於再現漫射聲音之空間擴展音源被遮擋,相對於收聽者之位置及/或收聽者之定向(例如自收聽者之視角所見),且取決於此來呈現空間擴展音源。
因此,可準確地併入遮擋效應以用於呈現音訊場景。
根據本發明之其他實施例,呈現器經組配以使用基於射線追蹤之途徑判定用於再現漫射聲音之空間擴展音源位於哪一空間區域中,例如哪一水平/豎直區域或方位角/仰角區域中,相對於收聽者之位置及/或收聽者之定向,例如自收聽者之視角所見。
根據本發明之其他實施例,呈現器經組配以使用基於射線追蹤之途徑判定在哪一空間區域中,例如在哪一水平/豎直區域或方位角/仰角區域中用於再現漫射聲音之空間擴展音源被遮擋,相對於收聽者之位置及/或收聽者之定向,例如自收聽者之視角所見。
本發明人認識到,基於射線追蹤之途徑可允許高效地判定空間擴展音源相對於收聽者之位置,以及其間之聲學相關物件(例如用於其他遮擋效應),且可因此允許為收聽者準確地呈現音訊場景。
根據本發明之其他實施例,呈現器經組配以判定(例如考量遮擋)對於多個區(例如與收聽者之位置呈預定關係之表面上之區或包圍收聽者之位置之殼上的區),與各別區相關聯且遠離收聽者之位置(例如向外)延伸例如穿過各別區或起始於各別區之射線是否擊中空間擴展音源(其幾何形狀可例如藉由將相對於聽覺場景(或相對於聽覺場景之座標系統原點)之幾何形狀定義座標映射至相對於收聽者之座標來判定),藉此判定用於再現漫射聲音之空間擴展音源位於哪一空間區域中,例如位於哪一水平/豎直區域或方位角/仰角區域中,相對於收聽者之位置及/或收聽者之定向,例如自收聽者之視角所見。
作為實例,射線可用於幫助呈現空間擴展音源(SESS)。在例如可僅任擇地包含所有SESS(例如包括入口)之網格之虛擬3D場景中,可向所有方向投射預定義數目之射線。此可在各更新循環中進行,在任何相關場景物件或收聽者位置已改變之條件下。對於各擴展源/入口,可儲存射線擊中。此資訊接著用於稍後處理遮擋及/或均勻範圍之階段中。
在更新循環中,可在所有方向上投射數條主射線,相對於收聽者之定向所量測。射線方向之清單可儲存於原始程式碼清單中。可儲存由射線與源範圍幾何形狀(包括入口幾何形狀或空間擴展音源幾何形狀)之相交引起的所有射線擊中。然而,舉例而言,擊中範圍幾何形狀之外部或內部之射線之間可存在區別。若一條射線多次擊中同一範圍幾何形狀,則任擇地可例如僅考慮最近擊中。
對於各主射線,可例如以一圖案,例如以圓形圖案投射數條額外射線。此等次要射線可與主射線起始於同一點處,且可穿過數個點,例如在與收聽者相距預定距離處在例如垂直於主射線之方向之平面上等分佈於具有預定半徑之圓上。
主射線及所有額外射線可給定有相等權重。對於擊中源範圍幾何形狀之各射線,其權重可添加至與其主射線之ID相關聯之總權重。
具有非零權重之所有射線可儲存於項目,諸如呈現項目RI或編碼器項目中以供稍後階段消耗。
在遍及所有RI之第二迴路中,可例如針對已由相較於由臨限值所定義較少之射線擊中之範圍幾何形狀投射額外精細射線。對於擊中幾何形狀之主射線中之各者,可以一圖案,例如以圓形圖案投射數條次要射線:
主射線及所有次要射線可例如給定有相等權重。對於擊中源範圍幾何形狀之各射線,其權重可添加至與其主射線之ID相關聯之總權重。在與主射線之ID相關聯之記錄中,對於射線中之各者,若對應射線擊中幾何形狀,則位元可設定為1,否則可設定為0。
根據本發明之其他實施例,呈現器經組配以例如使用將不同空間區域(例如相對於使用者之不同位置之空間區域及/或不同擴展之空間區域)映射至一或多個線索資訊項目之值的查找表取決於用於再現漫射聲音之空間擴展音源位於之空間區域而判定一或多個聽覺線索資訊項目(例如通道間相關值及/或通道間相位差值及/或通道間時差值及/或通道間位準差值及/或一或多個增益值)。
此外,呈現器經組配以使用一或多個聽覺線索資訊項目處理表示漫射聲音之一或多個音訊信號,以便獲得漫射聲音之所呈現版本,例如在收聽位置處為收聽者呈現。
本發明人認識到,基於聽覺線索資訊項目之判定及處理,可改良漫射聲音之所呈現版本之聽覺印象。
根據本發明之其他實施例,呈現器經組配以回應於收聽者之移動,例如回應於收聽者之位置之改變及/或回應於收聽者觀看方向之改變而更新用於再現漫射聲音之空間擴展音源位於哪一空間區域中,例如位於哪一水平/豎直區域或方位角/仰角區域中的判定,相對於收聽者之位置及/或收聽者之定向,例如自收聽者之視角所見。
替代地或另外,呈現器經組配以回應於收聽者之移動,例如回應於收聽者之位置之改變及/或回應於收聽者觀看方向之改變而更新一或多個聽覺線索資訊項目之判定。
此外,替代地或另外,呈現器經組配以回應於用於再現漫射聲音之空間擴展音源位於之空間區域的改變而更新一或多個線索資訊項目之判定。
一般而言,根據實施例之呈現器可經組配以考慮例如收聽者、空間區域、入口及/或空間擴展音源之相對位置之改變以用於呈現各別音訊場景。
本發明人認識到,例如在具有對應空間區域之空間範圍(或收縮版本)之入口及/或音源之位置處使用入口及空間擴展音源,本發明概念可允許例如基於收聽者之移動及/或空間擴展音源所在之空間區域之改變而高效地併入場景之動態改變。
因此,實施例可允許動態音訊場景之即時調適。
此外,本發明人認識到,對於此調適,不僅可執行例如直接位置更新,例如空間擴展音源位於哪一空間區域中之判定,但替代地或另外,可更新聽覺線索資訊項目之判定,以便高效地表示音訊場景中之各別改變。
根據本發明之其他實施例包含音訊解碼器,該音訊解碼器包含根據如本文中所揭示之實施例中之任一者的呈現器,其中音訊解碼器經組配以自位元串流獲得入口,例如用於再現漫射聲音之一或多個空間擴展音源之幾何形狀描述並將入口之幾何形狀映射至以收聽者為中心之座標系統,以便獲得用於再現漫射聲音之空間擴展音源之幾何形狀描述。
因此,一般而言,應注意,根據實施例,入口可為或可包含一或多個空間擴展音源之功能性。因此,入口之幾何形狀描述可用作或用於空間擴展音源之幾何形狀描述。根據本發明之一些實施例,入口與SESS可互換使用。
此外,本發明人認識到,若此幾何形狀描述提供於位元串流中,且使得對應呈現器不必判定此入口之各別幾何形狀描述,則可節省呈現器或解碼器之一側上之算力。
因此,對於例如提供該位元串流之編碼器與呈現器之間的高效協作,本發明人認識到,上文所解釋之映射功能性可有利地存在於解碼器內。
因此,且作為實例,本發明人認識到,呈現器可在以收聽者為中心之座標系統中表示音訊場景,以便為各別收聽者高效地呈現音訊場景。
根據本發明之其他實施例,音訊解碼器經組配以獲得至少部分地去相關之二個或更多個信號,以用於呈現自晚期迴響產生器之輸出導出之空間擴展音源。
本發明人認識到,空間擴展音源可使用或基於至少部分地去相關之二個或更多個信號高效地呈現。任擇地,二個信號可具有相同功率頻譜密度。
根據本發明之其他實施例,音訊解碼器經組配以使用回饋遲延網路混響器獲得二個或更多個信號以用於呈現空間擴展音源,其中二個或更多個信號可例如用作表示漫射聲音之信號。
本發明人認識到,回饋遲延網路混響器可提供用以提供至少部分地去相關之信號之高效手段。任擇地,二個信號可具有相同功率頻譜密度。
根據本發明之其他實施例,解碼器經組配以使用音源信號及音源信號之去相關版本(其可例如使用可為音訊解碼器之部分之去相關器自音源信號導出)以用於呈現空間擴展音源,其中音源信號及去相關之音源信號可例如用作表示漫射聲音之信號。
本發明人認識到,單個信號可經處理以便提供二個至少部分地及/或大致去相關之信號以用於呈現空間擴展音源。因此,可需要較少輸入信號。任擇地,二個信號可具有相同功率頻譜密度。
根據本發明之其他實施例,解碼器經組配以在呈現空間擴展音源時例如使用均衡或衰減取決於遮擋器之吸收屬性而排除或衰減被遮擋之空間區域。
一般而言且作為實例,根據實施例之解碼器可包含用於呈現器之預處理單元,其可經組配以提供去相關信號以用於呈現空間擴展音源及/或可經組配以執行空間預處理,例如包含聲學相關物件之相對位置之判定,以便均衡或衰減聲學影響。
根據本發明之其他實施例,解碼器經組配以在收聽者正接近第一空間區域與第二空間區域之間的過渡(例如入口)時例如藉由淡出表示漫射聲音之空間擴展音源及淡入漫射聲音之非局部化呈現而允許進出多個空間區域及多個空間區域之間,例如多個聲學均勻空間之間的平滑過渡。
此可允許為收聽者提供真實聽覺印象。
在下文中,論述與編碼器相關之實施例。應注意,此類實施例可基於與相關於解碼器之上述實施例相同或類似或對應的考慮因素。因此,以下實施例可個別地且以組合方式包含與上文所揭示實施例相同、類似或對應的形貌體、功能性及細節。
根據本發明之其他實施例包含用於編碼音訊場景之音訊編碼器,其中音訊編碼器經組配以提供一或多個音訊信號之經編碼表示,例如以編碼一或多個音訊信號,例如作為音訊場景之經編碼表示之一部分。
此外,音訊編碼器經組配以識別多個聲學均勻空間且基於其提供空間擴展音源之定義,例如幾何形狀描述,其中空間擴展音源之幾何特性,例如位置及/或尺寸相同於所識別之聲學均勻空間之幾何特性,例如位置及/或尺寸,其中音訊編碼器可例如經組配以將空間擴展音源之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
應注意,一些幾何特性可相同,例如位置(例如作為區中心)及/或形狀,但其中其他特性可不同,例如可例如為所識別之聲學均勻空間之經縮放版本的空間擴展音源之外部尺寸。
根據本發明之其他實施例,音訊編碼器經組配以提供聲學均勻空間之間的聲學障礙物(例如壁或其他遮擋)之定義,例如幾何形狀描述,其中音訊編碼器可經組配以將聲學障礙物之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
任擇地,音訊編碼器可經組配以選擇性地提供聲學均勻空間之間的聲學障礙物之定義。
舉例而言,基於射線追蹤,呈現器可高效地選擇所提供之聲學相關障礙物以便為收聽者提供真實聽覺印象。
根據本發明之其他實施例,音訊編碼器經組配以提供一或多個音訊信號之經編碼表示,例如以編碼一或多個音訊信號,例如作為音訊場景之經編碼表示之一部分。
此外,音訊編碼器經組配以提供一或多個空間擴展音源之定義,例如幾何形狀描述,其中空間擴展音源之幾何特性,例如位置及/或定向及/或尺寸係基於(例如等於)例如實體上及/或邏輯上相鄰之聲學均勻空間之間的入口(例如開口或門或聲學可穿透材料或使得能夠在二個空間區域之間或二個聲學均勻空間之間進行聲音傳播之任何介質)的幾何特性。
任擇地,舉例而言,音訊編碼器可經組配以將空間擴展音源之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
根據本發明之其他實施例,音訊編碼器經組配以例如藉由分析聲學均勻空間之間的幾何關係而識別多個聲學均勻空間及聲學均勻空間之間的一或多個入口,且基於其提供一或多個空間擴展音源之定義,例如幾何形狀描述,其中一或多個空間擴展音源之幾何特性,例如位置及/或定向及/或尺寸係基於所識別之入口之尺寸。
任擇地,舉例而言,音訊編碼器可經組配以將空間擴展音源之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
任擇地,舉例而言,音訊編碼器可經組配以提供聲學均勻空間之間的聲學障礙物(例如壁或其他遮擋)之定義,例如幾何形狀描述,其中音訊編碼器可例如經組配以將聲學障礙物之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
在下文中,論述與方法相關之實施例。應注意,此類實施例可基於與相關於解碼器及/或編碼器之上述實施例相同或類似或對應的考慮因素。因此,以下實施例可個別地且以組合方式包含與上文所揭示實施例相同、類似或對應的形貌體、功能性及細節。
根據本發明之其他實施例包含用於呈現(例如在空間上呈現)聲學場景之方法,其中該方法包含使用空間擴展音源(例如SESS,例如作為空間擴展音源,例如使用均勻擴展音源演算法再現漫射聲音之空間擴展音源)在第二空間區域中(例如第二聲學均勻空間中;例如第二房間中;例如第一空間區域外部之空間區域中)呈現(例如再現)(例如混響;例如晚期混響之)漫射聲音之聲學衝擊,該漫射聲音來源於第一空間區域中(例如第一聲學均勻空間,AHS中;例如第一房間中)。
根據本發明之其他實施例包含用於編碼音訊場景之方法,其中該方法包含提供一或多個音訊信號之經編碼表示,例如以編碼一或多個音訊信號,例如作為音訊場景之經編碼表示之一部分。
該方法包含識別多個聲學均勻空間且基於其提供空間擴展音源之定義,例如幾何形狀描述,其中空間擴展音源之幾何特性,例如位置及/或尺寸相同於所識別之聲學均勻空間之幾何特性,例如位置及/或尺寸。
任擇地,舉例而言,音訊編碼器可經組配以將空間擴展音源之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
根據本發明之其他實施例包含用於編碼音訊場景之方法,其中該方法包含提供一或多個音訊信號之經編碼表示,例如以編碼一或多個音訊信號,例如作為音訊場景之經編碼表示之一部分。
此外,該方法包含提供一或多個空間擴展音源之定義,例如幾何形狀描述,其中空間擴展音源之幾何特性,例如位置及/或定向及/或尺寸係基於(例如等於)例如實體上及/或邏輯上相鄰之聲學均勻空間之間的入口(例如開口或門或聲學可穿透材料或使得能夠在二個空間區域之間或二個聲學均勻空間之間進行聲音傳播之任何介質)的幾何特性。
任擇地,舉例而言,音訊編碼器可經組配以將空間擴展音源之定義包括至音訊場景之經編碼表示中,例如包括至位元串流中。
根據本發明之其他實施例包含一種電腦程式,該電腦程式用於在電腦程式執行於電腦上時執行根據如本文中所揭示之實施例中之任一者之方法。
在下文中,論述與位元串流相關之實施例。應注意,此類實施例可基於與相關於解碼器、編碼器及/或方法之上述實施例相同或類似或對應的考慮因素。因此,以下實施例可個別地且以組合方式包含與上文所揭示實施例相同、類似或對應的形貌體、功能性及細節。
根據本發明之其他實施例包含音訊位元串流,其包含一或多個音訊信號之經編碼表示及一或多個空間擴展音源之經編碼表示以用於呈現(例如再現)(例如混響,例如晚期混響之)漫射聲音之聲學衝擊,該漫射聲音來源於第一空間區域中(例如第一聲學均勻空間,AHS中;例如第一房間中)且呈現於第二空間區域中(例如第二聲學均勻空間中;例如第二房間中;例如第一空間區域外部之空間區域中)。
根據本發明之其他實施例包含音訊位元串流,包含一或多個空間區域(例如多個空間區域)之經編碼描述(例如一或多個空間區域之聲學描述及/或一或多個空間區域之幾何形狀描述)及描述至少二個空間區域之間,例如由經編碼描述所描述之至少二個空間區域之間的聲學關係之資訊之經編碼表示。
任擇地,舉例而言,位元串流可亦包含一或多個音訊信號或音訊通道之經編碼表示,例如表示位於空間區域中之一或多者中之音訊源。
本發明人認識到,提供描述至少二個空間區域之間的聲學關係之資訊可改良包含至少二個空間區域之所呈現聲學場景之品質,由於可針對各別呈現器簡化空間區域之間的聲學耦合效應之併入。
根據本發明之其他實施例,空間區域之經編碼表示包含二個空間區域之間的入口之描述,例如二個空間區域之間的開口之大小之描述及/或二個空間區域之間的開口或聲學邊界之衰減因數之描述。
因此,用於空間區域之耦合之此類入口可經由位元串流提供至呈現器。以此方式,可在呈現器中節省用於判定此入口之計算能力,例如以併入空間區域之間的聲學耦合效應。
根據本發明之其他實施例,音訊位元串流包含描述自第一空間區域至第二聲學區域之聲學傳播的傳播因數之經編碼表示。
本發明人認識到,將傳播因數併入至位元串流中可例如允許以低傳輸成本及評估努力提供關於空間區域之聲學耦合之資訊,同時允許真實地呈現各別聲學場景。
根據本發明之其他實施例,音訊位元串流包含傳播因數,其描述第一空間區域(例如空間#1)之聲能輻射至第二空間區域(例如空間#2)中且任擇地相反地輻射之量/分數。
根據本發明之其他實施例,音訊位元串流包含傳播因數,其描述第一空間與第二空間之間的連接表面積與第一空間之整個吸收表面積之間的比率。
本發明人認識到,關於聲能及/或連接表面積之間的比率的傳播因數之定義可允許聲學耦合效應之高效表示。
根據本發明之其他實施例,音訊位元串流包含描述二個空間區域之間,例如二個聲學均勻空間之間的過渡區之範圍(例如範圍)的參數。
此可提供用於入口或各別SESS之幾何範圍之資訊。因此,可藉由提供已經在位元串流中之此資訊而簡化呈現程序。
較佳實施例之詳細說明
即使具有相同或等效功能性之相同或等效的一或多個元件出現於不同圖式中,以下描述中仍藉由相同或等效參考數字來表示該一或多個元件。
在以下描述中,闡述多個細節以提供對本發明之實施例的較透徹解釋。然而,本領域中具有通常知識者將顯而易見,可在無此等特定細節之情況下實踐本發明之實施例。在其他情況下,以方塊圖形式而非詳細地展示熟知結構及裝置以免混淆本發明之實施例。另外,除非另外特定地指出,否則下文所描述之不同實施例的形貌體可彼此組合。
圖1展示根據本發明之實施例的呈現器之示意圖。圖1展示用於呈現(例如空間呈現)聲學場景之呈現器100,包含呈現單元110。因此,呈現器100可提供所呈現(例如空間呈現)之聲學場景101。
呈現器100經組配以使用空間擴展音源在第二空間區域中例如使用呈現單元110呈現漫射聲音之聲學衝擊,該漫射聲音來源於第一空間區域中。因此,呈現器100具備空間擴展音源資訊102。
任擇地,空間擴展音源資訊102可例如包含定義SESS之參數全集,或例如僅包含一些參數,例如可使用呈現器及或包含呈現器之對應解碼器之處理結果補充或擴展的幾何資訊(例如對應於幾何SESS資訊之幾何入口資訊,例如位置資訊,例如音級資訊)。
作為任擇形貌體,展示額外場景資訊103,其可為提供所呈現聲學場景101所基於之資訊(同時考量或考慮漫射聲音聲學衝擊),因此例如包含關於頻譜值之資訊或時域音訊資訊及/或關於所呈現聲學場景之元資料資訊。
圖2展示根據本發明之實施例的具有額外任擇形貌體之呈現器之示意圖。
圖2展示包含呈現單元210之呈現器200,其中呈現單元210包含直接聲音呈現單元212、SESS呈現單元214及呈現融合單元216作為任擇形貌體。
如在圖1之上下文中所解釋,呈現器200經組配以使用空間擴展音源在第二空間區域中使用呈現單元210呈現來源於第一空間區域中之漫射聲音之聲學衝擊。因此,呈現單元210經組配以提供所呈現聲學場景201。作為任擇形貌體,任擇的呈現融合單元經組配以提供所呈現聲學場景201。
因此,作為任擇形貌體,為了呈現漫射聲音之聲學衝擊,SESS呈現單元214具備空間擴展音源資訊202 (例如根據其在圖1中之對應物102),其可例如包含關於入口(例如根據關於圖11及12所解釋之方法1或方法2之入口)之資訊及/或絕對位置資訊及/或相對於收聽者之相對位置資訊。任擇地,空間擴展音源資訊202可包含適合於界定空間擴展音源以便提供所呈現漫射聲音回應之任何資訊。
作為任擇形貌體,直接聲音呈現單元212經組配以使用直接聲音呈現來在第二空間區域中呈現位於第一空間區域中之給定音源之直接聲音聲學衝擊。此外,作為另一任擇形貌體,SESS呈現單元214經組配以使用空間擴展音源在第二空間區域中呈現給定音源之漫射聲音聲學衝擊。
因此,作為任擇形貌體,直接聲音呈現單元212具備給定音源之音源信號203,將直接源呈現應用於該音源信號以便在位於第二空間區域中之收聽者位置處獲得所呈現直接音源回應213。作為另一任擇形貌體,SESS呈現單元214亦可具備信號203。
作為另一任擇形貌體且如圖2中所示,SESS呈現單元214具備給定音源之音源信號之一或多個混響版本221。此外,SESS呈現單元214經組配以將空間擴展音源呈現應用於給定音源之音源信號之一或多個混響版本221,以便在位於第二空間區域中之收聽者位置處獲得所呈現漫射聲音回應215。
為了提供音源信號221之一或多個混響版本,呈現器包含混響處理單元220作為任擇形貌體,該混響處理單元經組配以基於音源信號203提供音源信號221之一或多個混響版本221。
換言之,混響處理單元220經組配以將混響處理應用於給定音源之音源信號203,以便獲得給定音源之音源信號之一或多個混響版本221。
作為任擇形貌體,呈現融合單元經組配以融合所呈現直接聲音回應213與所呈現漫射聲音回應215以便獲得所呈現聲學場景201。
因此,作為實例,基於音源信號203,呈現器可經組配以以音源信號之混響版本的形式判定漫射版本,可基於該漫射版本高效且真實地為收聽者提供漫射聲音回應。
作為另一任擇形貌體,SESS呈現單元214經組配以使用再現晚期混響之空間擴展音源在第二空間區域中呈現由位於第一空間區域中之音源激發的晚期混響之聲學衝擊。
換言之且作為實例,基於空間擴展音源資訊202,SESS呈現單元214可呈現空間擴展音源以便表示音源之晚期混響之影響。
作為另一任擇形貌體,例如由空間擴展音源資訊202所界定之空間擴展音源在各空間區域中可具有類似頻譜內容。作為實例,本發明人認識到,可使用具有均一分佈之空間頻率分佈之SESS以便高效地表示漫射音場衝擊。
作為另一任擇形貌體,舉例而言,基於關於空間擴展音源資訊202中包括之入口之資訊,SESS呈現單元214經組配以使用置放於第一空間區域與第二空間區域之間的入口處且再現來源於第一空間區域之漫射聲音的空間擴展音源來呈現漫射聲音之聲學衝擊。
作為另一任擇形貌體,呈現器200經組配以使用採用第一空間區域之幾何範圍且再現來源於第一空間區域之漫射聲音的空間擴展音源,例如使用SESS呈現單元214來呈現漫射聲音之聲學衝擊,考慮位於第二空間區域內之收聽者位置處空間擴展音源之遮擋。
因此,作為任擇實例,可將額外場景資訊204,例如包含空間聲學資訊,例如關於壁、開口、門、材料之資訊提供至SESS呈現單元214且任擇地提供至直接聲音呈現單元212。
基於此資訊,SESS呈現單元214可經組配以判定遮擋效應以便真實地呈現聲學場景。
作為另一任擇形貌體,呈現器200經組配以判定用於再現漫射聲音之空間擴展音源相對於收聽者之位置及/或收聽者之定向位於哪一空間區域中及/或在哪一空間區域中被遮擋,且取決於其呈現空間擴展音源。
因此,呈現器200包含空間區域判定單元230,其具備空間擴展音源資訊202且任擇地具備額外場景資訊204且經組配以提供空間區域資訊231,例如相對於收聽者及/或以收聽者為中心之座標系統之方位角及仰角(例如 𝜙、θ),從而識別收聽者與空間擴展音源之相對位置。
因此,作為任擇形貌體,將資訊231提供至SESS呈現單元214,以供其評估且以便併入呈現程序中關於相對位置及/或遮擋之資訊。
作為另一任擇形貌體,呈現器200經組配以使用基於射線追蹤之途徑而判定空間區域資訊231。因此,作為任擇形貌體,呈現器200包含射線追蹤單元240。如任擇地所展示,射線追蹤單元240可具備空間擴展音源資訊202及任擇的額外場景資訊204。基於此,可判定射線擊中資訊241並將其提供至空間區域判定單元230。射線追蹤單元可經組配以自收聽者之視角基於三維聲學場景(例如待呈現場景)中多條射線之模擬而判定聲學相關物件及/或特性之二維近似。因此,基於關於擊中模型化實體,諸如空間擴展音源及/或物件之射線之資訊,可獲得關於收聽者與空間擴展音場之間的相對位置及/或待考慮的遮擋效應(例如基於被射線擊中之遮擋物件)之資訊。
作為另一任擇形貌體,呈現器經組配以例如使用射線追蹤單元240針對多個區判定與各別區相關聯且遠離收聽者之位置延伸之射線是否擊中空間擴展音源,藉此判定用於再現漫射聲音之空間擴展音源相對於收聽者之位置及/或收聽者之定向位於哪一空間區域中。
作為另一任擇形貌體,SESS呈現單元214包含聽覺線索資訊單元216。
因此,任擇地,呈現器經組配以例如使用聽覺線索資訊單元216取決於用於再現漫射聲音之空間擴展音源所處之空間區域而判定一或多個聽覺線索資訊項目;例如使用SESS呈現單元214處理使用一或多個聽覺線索資訊項目表示漫射聲音之一或多個音訊信號,以便獲得例如呈所呈現漫射聲音回應形式的漫射聲音之所呈現版本。
舉例而言,聽覺線索資訊項目可包含關於通道間一致性(ICC)、通道間相位差(ICPD)及/或通道間位準差(ICLD)中之至少一者之資訊。此類資訊實體可允許以一方式調適雙耳呈現以為收聽者提供真實聽覺體驗,例如用於雙耳呈現。
作為另一任擇形貌體,呈現器200經組配以回應於收聽者之移動更新用於再現漫射聲音之空間擴展音源相對於收聽者之位置及/或收聽者之定向位於哪一空間區域中的判定。
替代地或另外,呈現器200經組配以回應於收聽者之移動更新一或多個聽覺線索資訊項目之判定。
替代地或另外,呈現器經組配以回應於用於再現漫射聲音之空間擴展音源位於之空間區域的改變而更新一或多個線索資訊項目之判定。
因此,作為任擇形貌體,空間區域判定單元230、射線追蹤單元240及聽覺線索資訊單元216具備任擇的收聽者移動資訊205 (例如包含收聽者位置資訊),其可觸發此類更新。
在下文中,簡單地論述根據圖2之實施例之另一實例。作為實例,可將包含待呈現之音源之音訊信號的頻譜值及/或時域樣本之音源信號203提供至呈現器200。將針對其表示音源之收聽者可位於不同於源之空間區域,例如房間中。因此,對於聽覺印象之真實表示,呈現器200包含直接聲音呈現單元212及SESS呈現單元214,其中對於收聽者,自音源,該直接聲音呈現單元考量直接聲音回應且該SESS呈現單元考量漫射聲音衝擊。本發明人認識到,可使用SESS高效地表示例如由收聽者之房間與音源之房間之間收聽者之房間的振動側壁引起的漫射聲音衝擊。任擇地,可基於混響處理來近似聲音信號之漫射聲音印象。此外,舉例而言,此SESS可有利地置放於房間之間的振動側壁相對於收聽者位置之位置處。因此,可將關於待呈現音訊場景之空間特性之資訊提供至呈現器,例如作為額外場景資訊204。基於此及例如SESS資訊202及/或收聽者資訊205 (例如包含收聽者之位置)中包括的SESS之幾何及/或位置資訊,例如使用射線追蹤途徑,可判定空間區域資訊。基於此資訊,呈現器可準確地「置放」收聽者、SESS (例如表示振動側壁)及/或在正確星座中進一步遮擋或衰減物件,且基於此為收聽者逼真地呈現場景。
圖3展示根據本發明之實施例的解碼器之示意圖。圖3展示包含呈現器310之解碼器300,例如根據來自圖2之呈現器200或來自圖1之呈現器100或根據如本文中所揭示之任何呈現器組態。因此,呈現器310經組配以提供所呈現聲學場景301。
解碼器300經組配以自位元串流302獲得入口之幾何形狀描述321並將入口之幾何形狀映射至以收聽者為中心之座標系統上,以便獲得用於再現漫射聲音之空間擴展音源之幾何形狀描述331。
因此,作為任擇形貌體,解碼器300包含資訊提取單元320,其經組配以自位元串流302提取入口之幾何形狀描述。作為其他任擇形貌體,收聽者移動資訊322、額外場景資訊323及/或音源信號324可另外自位元串流302提取。如任擇地所展示,此等資訊實體可提供至呈現器310且可經處理,例如在圖2之上下文中所解釋。
為了映射至以收聽者為中心之座標系統,作為任擇形貌體,解碼器300包含映射單元330,其經組配以將空間擴展音源之幾何形狀描述331提供至SESS資訊提供單元340。
SESS資訊提供單元340經組配以將空間擴展音源資訊341提供至呈現器310。舉例而言,空間擴展音源資訊341可包含幾何形狀資訊(例如關於SESS及/或音訊信號資訊,例如音訊信號之表示)。
作為另一任擇形貌體,音訊解碼器經組配以獲得至少部分地去相關之二個或更多個信號351,以用於呈現自晚期迴響產生器之輸出導出之空間擴展音源。因此,作為任擇形貌體,音訊解碼器300包含晚期混響產生器350。如所展示,二個或更多個信號可自晚期混響產生器350提供至SESS資訊提供單元340且可包括於空間擴展音源資訊341中。
作為另一任擇形貌體,音訊解碼器300經組配以使用回饋遲延網路混響器FDNR獲得二個或更多個信號361以用於呈現空間擴展音源。因此,作為任擇形貌體,解碼器300包含FDNR 360。如所展示,二個或更多個信號可自FDNR 360提供至SESS資訊提供單元340且可包括於空間擴展音源資訊341中。
作為另一任擇形貌體,解碼器300經組配以使用音源信號及音源信號之去相關版本以用於呈現空間擴展音源。因此,作為任擇形貌體,解碼器300包含具備音源信號324之去相關器。如所展示,二個信號371可自去相關器370提供至SESS資訊提供單元340且可包括於空間擴展音源資訊341中。
應注意,例如使用晚期混響產生器350、FDNR 360及/或去相關器370之三種途徑可例如用作替代方案。
基於此等信號及例如任擇地聽覺線索資訊項目,可例如在SESS資訊提供單元340中獲得SESS資訊。此類聽覺線索資訊項目可例如包括於額外場景資訊323中,可將該額外場景資訊提供至單元340。
作為另一任擇形貌體,解碼器300經組配以在呈現空間擴展音源時排除或衰減經遮擋空間區域。作為任擇形貌體,因此,SESS資訊提供單元340具備額外場景資訊323,其可包含空間聲學場景資訊,使得SESS資訊提供單元可經組配以在空間擴展音源資訊341中提供用於排除或衰減經遮擋空間區域之資訊。
因此,解碼器300可經組配以允許進出多個空間區域及多個空間區域之間的平滑過渡。
圖4展示根據本發明之實施例的編碼器之示意圖。圖4展示用於編碼音訊場景之編碼器400,其中音訊編碼器經組配以提供一或多個音訊信號之經編碼表示。
因此,作為任擇形貌體,編碼器400包含位元串流提供單元410,其經組配以提供位元串流401,包含一或多個音訊信號403之經編碼表示。
此外,音訊編碼器400經組配以識別多個聲學均勻空間AHS,且基於其提供空間擴展音源之定義,其中空間擴展音源之幾何特性相同於所識別聲學均勻空間之幾何特性。
因此,作為任擇形貌體,編碼器400包含具備(例如額外)聲學場景資訊402之AHS識別單元420及具備來自單元420之AHS資訊之任擇的SESS定義提供單元430。
基於此,作為任擇形貌體,SESS定義提供單元430經組配以將SESS定義431提供至位元串流提供單元,以便在位元串流中提供該等定義。
SESS定義431可包含關於待用於呈現之SESS之幾何資訊。
作為另一任擇形貌體,音訊編碼器400經組配以提供聲學均勻空間之間的聲學障礙物之定義442。因此,作為任擇形貌體,編碼器400包含聲學障礙物定義提供單元440,其任擇地具備聲學場景資訊402及將聲學障礙物定義442提供至位元串流提供單元410,這可任擇地在位元串流401中併入該資訊。
圖5展示根據本發明之其他實施例的編碼器之示意圖。圖5展示用於編碼音訊場景之編碼器500,其中音訊編碼器經組配以提供一或多個音訊信號之經編碼表示。
因此,作為任擇形貌體,編碼器500包含位元串流提供單元510,其經組配以提供位元串流501,包含一或多個音訊信號503之經編碼表示。
此外,編碼器500經組配以提供一或多個空間擴展音源之定義531,其中空間擴展音源之幾何特性係基於聲學均勻空間之間的入口之幾何特性。
因此,作為任擇形貌體,編碼器500包含AHS及入口識別單元520,其任擇地具備(任擇地額外)聲學場景資訊502。AHS及入口識別單元520任擇地經組配以識別AHS以便識別AHS之間的入口並提供入口資訊521。入口資訊521包含關於聲學均勻空間之間的入口之幾何特性之資訊。
此外,作為任擇形貌體且如之前所解釋,編碼器500包含具備入口資訊之SESS定義提供單元530,以便提供定義531。如任擇地所展示,可將此等定義531提供至位元串流提供單元510以併入至位元串流501中。
因此,換言之,任擇地,音訊編碼器500經組配以識別多個聲學均勻空間及聲學均勻空間之間的一或多個入口,並基於其提供一或多個空間擴展音源之定義,其中一或多個空間擴展音源之幾何特性係基於所識別入口之尺寸。
圖6展示根據本發明之實施例的用於呈現聲學場景之方法之示意性方塊圖。方法600包含使用空間擴展音源在第二空間區域中呈現610來源於第一空間區域中之漫射聲音之聲學衝擊。
圖7展示根據本發明之實施例的用於編碼音訊場景之方法之示意性方塊圖。方法700包含提供710一或多個音訊信號之經編碼表示;識別720多個聲學均勻空間;及基於其提供730空間擴展音源之定義,其中空間擴展音源之幾何特性相同於所識別聲學均勻空間之幾何特性。
圖8展示根據本發明之實施例的用於編碼音訊場景之方法之示意性方塊圖。方法800包含提供810一或多個音訊信號之經編碼表示及提供820一或多個空間擴展音源之定義,其中空間擴展音源之幾何特性係基於聲學均勻空間之間的入口之幾何特性。
圖9展示根據本發明之實施例的位元串流之示意性方塊圖。位元串流900包含一或多個音訊信號之經編碼表示910及一或多個空間擴展音源之經編碼表示920以用於呈現來源於第一空間區域中且呈現於第二空間區域中的漫射聲音之聲學衝擊。
作為任擇形貌體,位元串流900包含一或多個空間區域之經編碼描述930及描述至少二個空間區域之間的聲學關係之資訊之經編碼表示940。
任擇地,經編碼表示可另外包含一或多個音訊信號或表示位於空間區域中之一或多者中的音訊源之音訊通道之經編碼表示。
任擇地,空間區域之經編碼表示包含二個空間區域之間的入口之描述。
作為另一任擇形貌體,音訊位元串流900包含描述自第一空間區域至第二聲學區域之聲學傳播的傳播因數之經編碼表示950。
任擇地,傳播因數可描述第一空間區域之聲能中輻射至第二空間區域中之量/分數及/或第一空間與第二空間之間的連接表面積與第一空間之整個吸收表面積之間的比率。
作為另一任擇形貌體,音訊位元串流900包含描述二個空間區域之間的過渡區之範圍的參數960。 批註:
在下文中,將例如在區段「概述-發明內容」中、章節「根據本發明之實施例之目標」中、章節「本發明之描述」中及章節「本發明之態樣中」描述或進一步描述不同發明性實施例及態樣。
此外,其他實施例將由所附申請專利範圍定義。
應注意,如由申請專利範圍或上述描述所界定之任何實施例可任擇地由上文所提及章節中所描述之細節(形貌體及功能性)中之任一者補充。
並且,上文所提及章節中所描述之實施例可個別地使用,且亦可由另一章節中之形貌體中之任一者、由上述描述之另一區段中之形貌體中之任一者,及/或由申請專利範圍中包括之任何形貌體補充。
並且,應注意,可個別地或組合地使用本文中所描述之個別態樣。因此,細節可添加至該等個別態樣中之各者,而不將細節添加至該等態樣中之另一者。
此外,本文中所揭示之與方法相關之形貌體及功能性亦可用於設備(經組配以執行此類功能性)中。此外,本文中相對於設備所揭示之任何形貌體及功能性亦可用於對應方法中。換言之,本文中所揭示之方法可藉由關於設備所描述的形貌體及功能性以及細節中之任一者加以補充。
並且,本文中所描述之形貌體及功能性中之任一者可用硬體或軟體來實施,或使用硬體與軟體之組合來實施,如將在區段「實施替代方案」中所描述。
此外,應注意,音訊位元串流[或等效地,經編碼音訊表示]可任擇地由本文中所揭示之形貌體、功能性及細節中之任一者個別地及以組合方式補充。 實施替代方案:
一般而言,儘管在設備之上下文中描述一些態樣,但顯而易見,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之形貌體。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或項目或對應設備之形貌體的描述。可由(或使用)硬體設備(例如,微處理器、可規劃電腦或電子電路)執行方法步驟中之一些或所有。在一些實施例中,可由此設備執行最重要之方法步驟中之一或多者。
取決於某些實施要求,本發明之實施例可以硬體或軟體實施。實施可使用數位儲存媒體來執行,該數位儲存媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該數位儲存媒體上儲存有電子可讀控制信號,該電子可讀控制信號與可規劃電腦系統協作(或能夠協作)使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可規劃電腦系統協作,使得執行本文中所描述之方法中之一者。
一般而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品在電腦上執行時,程式碼操作性地用於執行該等方法中之一者。程式碼可例如儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。
換言之,因此,本發明方法之實施例為具有當電腦程式在電腦上執行時用於執行本文中所描述之方法中之一者的程式碼之電腦程式。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或所記錄媒體通常係有形的及/或非暫時性的。
因此,本發明方法之再一實施例為表示用於執行本文中所描述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可例如經組配以經由資料通信連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如,經組配或經調適以執行本文中所描述之方法中之一者的電腦或可規劃邏輯裝置。
另一實施例包含其上安裝有用於執行本文中所描述之方法中之一者的電腦程式之電腦。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的設備或系統。接收器可為例如電腦、行動裝置、記憶體裝置或其類似者。該設備或系統可例如包含用於傳送電腦程式至接收器之檔案伺服器。
在一些實施例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可規劃閘陣列可與微處理器合作,以便執行本文中所描述之方法中的一者。一般而言,該等方法較佳地由任一硬體設備執行。
本文中所描述之設備可使用硬體設備或使用電腦或使用硬體設備與電腦之組合來實施。
本文中所描述之設備或本文中所描述之設備的任何組件可至少部分地以硬體及/或以軟體來實施。
本文中所描述之方法可使用硬體設備或使用電腦或使用硬體設備與電腦的組合來執行。
本文所描述之方法或本文中所描述之設備的任何組件可至少部分地由硬體及/或由軟體執行。
上述實施例僅說明本發明之原理。應理解,對本文中所描述之配置及細節的修改及變化將對熟習此項技術者顯而易見。因此,其僅意欲由接下來之申請專利範圍之範疇限制,而非由藉由本文中實施例之描述及解釋所呈現的特定細節限制。
在下文中,提供包含實施例之「概述-發明內容」之區段。
根據一態樣,描述一種用於分段巨大且複雜的聲音場景並基於其拓樸關係而呈現若干逼真漫射音場的計算上高效的途徑。舉例而言,此係藉由將具有類似漫射聲音特性之聲學空間模型化為均勻擴展音源且接著例如取決於其範圍及其與收聽者之距離簡單地即時模擬其聲音傳播而進行。
先前研究已提出類似於基於預呈現幾何形狀之方法(無法即時處置源移動且在計算上為繁重的)或混響圖途徑(累積脈衝回應僅作為點源)的想法。
根據一態樣,此提議(例如發明性提議)利用現有均勻擴展音源演算法以達成效率及品質二者。
以下區段可提供用於根據本發明之實施例之較佳理解的上下文。
在下文中,將提供一些背景資訊,然而,應注意,此處所揭示之形貌體、功能性及細節中之任一者可任擇地個別地及以組合方式用於根據本發明之實施例中。此外,亦參考PCT/EP2021/050588,其描述用於再現空間擴展音源之設備及方法或用於使用錨定資訊產生用於空間擴展音源之描述之設備及方法。
根據一態樣,本發明係關於音訊信號處理且尤其係關於音訊場景中漫射聲音之編碼或解碼或再現以作為空間擴展音源(SESS)。
已長期研究經由若干揚聲器或頭戴式耳機再現音源。在此類設定上再現音源之最簡單方式為將其呈現為點源,亦即極其(理想情況下:無限)小的音源。然而,已發現,此理論概念很難以逼真的方式模型化現有的實體音源。舉例而言,一架三角鋼琴具有一個大的振動木蓋,內部有許多空間地分佈的琴弦,因此在聽覺上看起來比點源大得多(尤其當收聽者(及麥克風)靠近三角鋼琴時)。已經認識到,許多現實世界音源具有相當大的大小(「空間範圍」),如樂器、機器、管弦樂隊或合唱團或環境聲音(瀑布聲)。
此類音源的正確/逼真的再現已成為許多聲音再現方法的目標,無論是雙耳(亦即,使用所謂的頭部相關轉移函數HRTF或雙耳房間脈衝回應BRIR)使用頭戴式耳機抑或習知地使用揚聲器設定,該等設定之範圍介於2個揚聲器(「立體聲」)至配置在水平面上的許多揚聲器(「環繞聲」)以及在所有三個維度上環繞收聽者之許多揚聲器(「3D音訊」)。
根據一態樣,本發明之一目標為提供用於編碼或再現具有可能複雜的幾何形狀之空間擴展音源之概念。
以下區段名稱可為「2D源寬度」。
此區段描述了係關於在自收聽者之視角面向的2D表面上呈現擴展音源的方法,例如,在零仰角的特定方位角範圍(類似於習知立體聲/環繞聲中的情況)或特定的方位角及仰角範圍(類似於在3D音訊或虛擬實境中的情況,該3D音訊或虛擬實境具有使用者移動之3個自由度[「3DoF」],亦即頭部在俯仰/橫擺/橫搖軸上旋轉)中。
增加在二個或更多個揚聲器之間平移的音訊物件的表觀寬度(產生所謂的幻象或幻象源)可藉由降低參與的通道信號之相關性來實現(Blauert, 2001, S. 241-257)。隨著相關性的降低,幻象源的傳播增加,直至對於接近於零之相關值(以及不太寬的張角),其覆蓋了揚聲器之間的整個範圍。
舉例而言,藉由導出且應用合適的去相關濾波器而獲得源信號的去相關版本。舉例而言,Lauridsen (Lauridsen, 1954)提出將源信號之時間延遲及縮放版本加/減到自身,以便獲得該信號的二個去相關版本。舉例而言,Kendall (Kendall, 1995)提出了更複雜的方法。他基於隨機數序列的組合反覆地導出成對的去相關全通濾波器。舉例而言,Faller等人在(Baumgarte & Faller, 2003) (Faller & Baumgarte, 2003)中提出合適的去相關濾波器(「漫射器」)。此外,舉例而言,Zotter等人導出濾波器對,其中使用頻率相依性相位或振幅差異來實現幻象源的加寬(Zotter & Frank,2013)。此外,舉例而言,(Alary, Politis, & Välimäki, 2017)基於天鵝絨雜訊提出去相關濾波器,其例如藉由(Schlecht, Alary, Välimäki, & Habets, 2018)進一步最佳化。
除了降低幻象源的對應通道信號之相關性外,舉例而言,亦可藉由增加歸因於音訊物件的幻象源之數目來增加源寬度。在(Pulkki, 1999)中,舉例而言,藉由將相同的源信號平移至(略微)不同的方向來控制源寬度。最初提出該方法係為了在VBAP平移的(Pulkki, 1997)源信號在聲音場景中移動時穩定化其經感知幻象源傳播。舉例而言,此係有利的,因為取決於源的方向,所呈現源藉由二個或更多個揚聲器再現,此可能導致經感知源寬度之非所要更改。
舉例而言,虛擬世界DirAC (Pulkki, Laitinen, & Erkut, 2009)為傳統定向音訊寫碼(DirAC) (Pulkki, 2007)途徑的擴展,以用於虛擬世界中的聲音合成。為了呈現空間範圍,舉例而言,源之定向聲音組件在圍繞源之原始方向之某一範圍內隨機平移,其中平移方向例如隨著時間及頻率變化。
舉例而言,(Pihlajamäki, Santala, & Pulkki, 2014)中實行了類似的途徑,其中藉由將源信號之頻帶隨機分佈至不同空間方向來實現空間範圍。舉例而言,此為旨在產生同樣來自所有方向之空間地分佈及包絡聲音而非控制確切範圍的方法。
舉例而言,Verron等人藉由以下方式實現源之空間範圍:不使用平移之相關信號,但藉由合成源信號之多個非相干版本,將其均一地分佈在圍繞收聽者之圓上,且在其間混合(Verron, Aramaki, Kronland-Martinet, & Pallone, 2010)。舉例而言,同時主動源之數目及增益判定加寬效應之強度。舉例而言,此方法實施為環境聲音合成器的空間擴展。
下文名稱可為「3D源寬度」。
舉例而言,此區段描述係關於在3D空間中,亦即以體積方式呈現擴展音源之方法,如例如具有6個自由度(「6DoF」)之虛擬實境所需(或至少有利的)。舉例而言,此意謂使用者移動之6個自由度,亦即頭部在俯仰/橫擺/橫搖軸上的旋轉加上3個平移移動方向x/y/z。
舉例而言,Potard等人藉由研究源形狀之感知將源範圍之概念擴展為源之一維參數(亦即,其在二個揚聲器之間的寬度)(Potard, 2003)。舉例而言,其藉由將(時變)去相關技術應用於原始源信號且接著例如將非相干源置放至不同空間位置中且由此給出其三維範圍而產生多個非相干點源(Potard & Burnett, 2004)。
舉例而言,在MPEG-4 Advanced AudioBIFS (Schmidt & Schröder, 2004)中,體積物件/形狀(外殼、盒子、橢圓體及圓柱體)可填充有若干同等地分佈且去相關之音源,以引起三維源範圍。
為了使用Ambisonics增加且控制源範圍,舉例而言,Schmele等人(Schmele & Sayin, 2018)提出了以下各者之混合:降低輸入信號之Ambisonics階數,其本質上會增加表觀源寬度,及在收聽空間周圍分佈源信號之去相關複本。
舉例而言,Zotter等人介紹了另一種途徑,其中他們採用了(Zotter & Frank, 2013)中提出之原理(亦即,導出引入例如頻率相依性相位及量值差異之濾波器對,以在立體聲再現設定中實現源範圍)以用於Ambisonics (Zotter F., Frank, Kronlachner, & Choi, 2014)。
舉例而言,基於平移之途徑(例如,(Pulkki, 1997) (Pulkki, 1999) (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009))之共同缺點為其對收聽者位置之相依性。即使與最有效點之微小偏差亦會導致空間影像坍塌至最接近收聽者之揚聲器中。此極大地限制了其在具有6個自由度(6DoF)之虛擬實境及擴增實境之環境中之應用,在該環境中收聽者應該可自由移動。另外,在基於DirAC之途徑(例如,(Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009))中分佈時頻區間並不總能保證恰當呈現幻象源之空間範圍。此外,其通常會顯著降低源信號之音色。
舉例而言,源信號之去相關通常藉由以下方法中之一者來實現:i)導出具有互補量值之濾波器對(例如(Lauridsen,1954));ii)使用具有恆定量值但(隨機)加擾相位之全通濾波器(例如,(Kendall, 1995) (Potard & Burnett, 2004));或iii)空間隨機分佈源信號之時頻區間(例如,(Pihlajamäki, Santala, & Pulkki, 2014))。
所有途徑均具有其自身的含義:根據i)對源信號進行互補濾波通常會導致去相關信號之感知音色發生更改。雖然ii)中之全通濾波保留了源信號之音色,但加擾相位破壞了原始相位關係,且尤其對於暫態信號,會導致嚴重的時間色散及拖尾偽影。事實證明,空間分佈時頻區間對一些信號有效,但亦會更改信號之感知音色。此外,其展示出高度的信號相關性,並為脈衝信號引入了嚴重的偽影。
舉例而言,Advanced AudioBIFS ((Schmidt & Schröder, 2004) (Potard, 2003) (Potard & Burnett, 2004))中提出之運用源信號之多個去相關版本填充體積形狀假定大量濾波器之可用性,該等濾波器產生相互去相關之輸出信號(通常,每個體積形狀使用超過十個點源)。然而,找到此類濾波器並非一項微不足道的任務,而且需要的此類濾波器愈多,就變得愈困難。此外,若源信號沒有完全去相關並且收聽者圍繞此形狀移動,例如在(虛擬實境)情境中,則距收聽者之個別源距離對應於源信號之不同延遲,且其在收聽者耳朵處之疊加會導致例如位置相依性梳狀濾波,從而可能會引入令人討厭的源信號不穩定著色。
舉例而言,在(Schmele & Sayin,2018)中運用基於Ambisonics之技術藉由降低Ambisonics階數來控制源寬度展示僅對自2階至1階或至0階之過渡具有聽覺效應。此外,此等過渡不僅被視為源加寬,而且經常被視為幻象源之移動。雖然添加源信號之去相關版本可幫助穩定化表觀源寬度之感知,但其亦引入了梳狀濾波器效應,其更改了幻象源之音色。
用於雙耳呈現空間擴展音源之高效方法(其可任擇地用於根據本發明之實施例中)使用例如以下揭示於EP3879856中 ● 一個(單聲道)輸入波形信號 ● 產生此信號之去相關版本之去相關器(任擇的) ● 線索計算階段,其例如計算空間擴展音源之目標雙耳(及音色)線索,例如取決於源之大小(例如取決於空間擴展音源及收聽者之位置及定向而給定為方位角仰角範圍)。 ● 雙耳線索調整階段,其例如使用來自線索計算階段之目標線索例如自輸入信號及其去相關版本產生雙耳呈現輸出信號。
以下區段名稱可為「拓樸聲音傳播」。
聲音傳播之模型化對於虛擬聲學及虛擬實境應用至關重要(或甚至在一些情況下至關重要)。特定言之,已發現,舉例而言,拓樸聲音傳播之概念對於模型化聲音例如在具有可能不同的聲學屬性之不同聲學房間之間的傳播至關重要。舉例而言,本發明之態樣尤其關注由聲音散射離開壁表面產生之室內混響效應及如何為虛擬環境準確且高效地模型化此等效應。
儘管聲學模擬之研究歷史悠久,但大多數聲學模型化途徑主要關注單個聲學空間,諸如音樂廳或禮堂。對於具有眾多房間及走廊之複雜場景,準確模擬需要大量計算,此常常不可能即時達成。因此,常常使用預計算模擬。此外,對於此類環境,例如有利地將幾何模型分裂成藉由入口彼此連接之單獨房間(Vorländer & Schröder, 2007)。
舉例而言,Efstathios等人提出混響圖途徑,其首先將複雜幾何形狀細分成藉由入口連接之一系列耦合空間,且接著使用離線幾何聲學技術預計算「遷移運算子」且將其表示為點源。換言之,舉例而言,方法追蹤源至入口、入口之間及自入口至收聽者之路徑,以便模擬整個傳播路線(Stavrakis, Tsingos & Calamia, 2009)。
舉例而言,藉由Tsingos之另一不同途徑利用經預計算影像源梯度以即時地產生位置相依性迴響而無需存取複雜的3D幾何形狀資料(Tsingos, 2009)。
此等提議對於實現漫射聲音之即時拓樸聲音傳播均為可行的。
根據一態樣,本發明方法(或設備或概念)提出一種例如改良先前解決方案中所見之二個缺點的新技術: 1.   預計算模擬僅對於先前已知源及收聽者位置(源/收聽者位置組合)有效且因此限制源及收聽者中之任一者或二者之移動。 2.   入口表示為點源,其在真實世界情境中並不真實。換言之,在一個房間中感知為已自相鄰房間傳播之聲音位於一個特定位置(亦即入口之點源之位置)處 而非來自二個房間之間的整個開口 ( 其中 舉例而言 後者可為根據本發明之實施例的情況 ) 這使得所得聲學印象不逼真,尤其在收聽者接近入口時。 在以下章節中,論述根據本發明之實施例之目標:
根據一態樣,本發明之目標為例如使用空間擴展音源提供漫射聲音及其作為入口之拓樸傳播之高效且逼真呈現,例如EP 3879856中已經詳細地描述。舉例而言,所提出演算法提供用於平滑地呈現多個聲學均勻空間(AHS)而例如無關於音源及收聽者之位置及移動的統一解決方案。特定言之,根據一態樣,本發明不僅解決虛擬聲音之逼真且高效呈現,而且例如解決對可自編碼器傳輸至(可能遠端) VR呈現器的此等聲音態樣之位元速率高效表示之需求。 在以下章節中,描述本發明之「實施例之描述」實施例:
下文提供對本發明方法之實施例的概述: 圖10展示本發明方法之管線之示意性方塊圖。作為實例,圖10之方塊圖可展現本發明方法之管線之實例,其中編碼器、位元串流及解碼器可任擇地用作單獨實施例。作為實例,圖10說明三個主要組件中本發明方法(或概念)之元資料及信號流:編碼器(例如1010)、位元串流(例如1020)及解碼器(例如1030)。舉例而言,在管線之最開始處,具有3D幾何形狀之場景提供為輸入(例如1002),且舉例而言,由解碼器產生之最終輸出(例如輸出音訊1004)為雙耳化音訊,例如包含左雙耳信號L bin及右雙耳信號R bin(1004a及1004b)。因此,應注意,如圖10中所示,例如包括於解碼器1030中之根據實施例之呈現器可經組配以執行雙耳呈現。
在對應於上文所提及之三個組件之三個連續區段中解釋途徑:
1. 編碼器(例如1010):(本發明之態樣;實例;細節均為任擇的) ● 舉例而言,對於輸入場景(例如1002)中之各AHS,給定概括其範圍之幾何形狀。亦可能(任擇地)存在如壁及天花板之額外幾何形狀。舉例而言,使用此資訊,二種不同類型之方法可用於偵測或建立入口之幾何形狀。下文解釋二種方法之細節及「入口」針對其中之各者表示之內容(例如參考圖11及12): o 舉例而言,第一方法採用各AHS之整個幾何形狀作為其對應入口之幾何形狀描述。圖11展示具有呈空間A、B及C形式之三個聲學耦合空間區域之音訊場景的示意性概述。換言之,圖11說明存在三個此類空間A、B及C(例如1110、1120、1130)之實例。圖11可展示例如根據實施例之入口偵測方法1之實例,其中空間擴展音源可採用第一空間區域之幾何範圍。如圖11中可見,入口(例如1112、1122、1132)與其AHS具有例如相同幾何形狀(例如相同形狀,但例如收縮區)。此外,如此實例中所示,如之前所解釋之第一及/或第二空間區域可為聲學均勻空間。此方法之巨大優點在於例如僅定位有收聽者之AHS可識別為入口。此意謂例如僅需要一個演算法來在整個場景中呈現所有AHS,無關於收聽者(例如1140)在何處(例如,相較於第二方法)。若收聽者例如移動至空間C,則相同三個入口仍表示其各別AHS。在例如通常(例如)為虛擬6DoF聽覺環境之部分且超出本說明書之範疇,例如本段落之描述的單獨遮擋階段中可能需要注意(或在一些情況下必須注意)此等輻射入口之遮擋。如之前所解釋,作為實例,可根據實施例實施射線追蹤以便考量(例如壁1150之)遮擋效應。此外,應注意,如圖11中所示且根據以上解釋,例如包括於解碼器1030中之呈現器可經組配以使用同一呈現演算法呈現多個空間擴展音源,包含遠離收聽者位置之一或多個空間擴展源(例如如由入口1122及1132所表示或表示該等入口之空間擴展音源)及內部定位有收聽者位置之一或多個空間擴展源(例如如由入口1112所表示或表示該入口之空間擴展音源),考量收聽者位置與遠離收聽者位置之一或多個空間擴展源之間的遮擋。 o 舉例而言,第二方法識別及利用 二個 AHS 之間的連接部分以產生入口之幾何形狀描述。舉例而言,入口充當相鄰AHS之表示且將其具有正確空間範圍之聲音輻射至收聽者空間中。舉例而言,演算法可用於分析場景中之所有AHS之間的幾何關係並偵測可能的入口。在圖12中給定實例。圖12展示具有呈空間A、B及C形式之三個聲學耦合空間區域之音訊場景的示意性概述,如圖11中所解釋。然而,相比之下,圖12可展示例如根據實施例之入口偵測方法2之實例,其中空間擴展音源置放於第一空間區域與第二空間區域之間的入口處。因此,作為本發明之實施例之任擇形貌體,如圖12中所示,第一空間區域及第二空間區域可為經由入口聲學耦合之房間。舉例而言,當收聽者(例如1140)在空間A (例如1110)中時,將由其及空間B共用之壁識別為表示AHS B之入口。[舉例而言,此係藉由圖12中A (例如1110)與B (例如1120)之間繪製的橙色portal_wall (例如1160)指示]舉例而言,在空間C (例如1130)的情況下,空間C及空間A之連接部分包括壁以及門道之區段(例如,無幾何形狀,僅空白空間之區域)。舉例而言,這產生具有不同輻射屬性以表示AHS C之二個入口。[舉例而言,圖12中空間A與C之間繪製的橙色portal_wall (例如1170)及紅色portal_door (例如1180)]。舉例而言,此方法需要較多幾何處理(或其亦可由使用者直接手動撰寫)而且在創建複雜聲音場景時提供較高靈活性:類型2入口可例如解譯為使得能夠在任何一對AHS之間進行聲音傳播(例如實體空間中具有或不具有緊密關係)的介質。亦即,此類型之入口允許例如不僅基於實際幾何關係而且基於藝術意圖來撰寫。因此,提供例如較靈活的呈現選項。
因此,如圖10中所示之入口偵測單元1012可經組配以偵測對應於AHS之入口,例如關於方法1所解釋,或可經組配以偵測對應於AHS之間的界面的入口,例如關於方法2所解釋。因此,入口幾何形狀描述單元1014可經組配以判定各別入口之各別幾何形狀描述,例如根據例如具有收縮外部界限之相同於對應AHS (例如用於方法1)之形狀或例如根據AHS (例如用於方法2)之間的相交點。
此外,根據本發明之一些實施例,SESS與入口可互換使用。因此,SESS可置放於入口之位置處,或可使用或藉由SESS描述或表示或呈現入口。此外,根據一些實施例,AHS及入口至少關於一些特性可互換使用。舉例而言,入口可與對應AHS共用同一形狀,但例如收縮了邊界。
任擇地,入口可呈現為SESS或使用SESS呈現。因此,表示AHS之入口可呈現為SESS或使用SESS呈現。 2.   位元串流(例如1020):(本發明之態樣;實例;細節均為任擇的)
● 將所產生入口幾何形狀(例如,若需要,具有相關元資料)(任擇地)量化且(任擇地)串列化為位元串流且傳信為入口資訊(例如1022)。舉例而言,此允許資料自編碼器(例如1010)高效地傳輸至遠端解碼器(例如1030)。 3.   解碼器(例如1030):(本發明之態樣;實例;細節均為任擇的)
● 在解碼器中,來自位元串流的入口之幾何形狀描述例如在場景中經解封裝及重構。為了將此等3D幾何形狀轉換成可用元資料,舉例而言,對於均勻SESS合成演算法,例如即時地實行例如以下程序:其將幾何形狀映射至以收聽者為中心之座標系統上並發現此幾何形狀佔據哪些空間區域(例如,自收聽者之視角,例如使用映射單元1032)。
● 舉例而言,本發明方法之較佳實施使用基於射線追蹤之途徑以執行映射。舉例而言,首先,例如基於感知相關性將收聽者座標系統分段成多個區(或網格),且接著例如自各網格向外發射射線。舉例而言,射線擊中3D幾何形狀上指示對應網格自收聽者之視角在其2D投影之邊界內。換言之,舉例而言,此等網格為應包括於SESS處理中之空間區域。
● 舉例而言,除元資料之外,均勻SESS合成演算法(例如在均勻SESS合成單元1034中執行,例如對應於或為SESS呈現單元)亦需要例如一個或二個音訊信號來將入口聲音化,例如作為空間擴展音源。舉例而言,為了滿足SESS演算法之前提條件,二個輸入信號應(理想地)完全去相關(例如如用去相關輸入信號1036所展示)。此類型之信號之實例為來自回饋遲延網路混響器(其為例如用於產生晚期混響之天然選項)之輸出的二個降混信號,考慮到本發明方法例如經設計以模擬聲學均勻空間及其間的傳播。
● 舉例而言,在所製備輸入信號並非完全去相關(或僅單聲道信號可用,例如如用信號1038所展示)的情況下,第二完全去相關信號可例如使用去相關器(例如去相關器1040)自一個現有輸入信號導出,例如類似於名稱為「音訊去相關器、處理系統及用於使音訊信號去相關之方法(AUDIO DECORRELATOR, PROCESSING SYSTEM AND METHOD FOR DECORRELATING AN AUDIO SIGNAL)」之歐洲專利申請案EP21162142.0 (本發明人:DISCH Sascha;ANEMÜLLER Carlotta;HERRE Jürgen)中所描述之一個信號。此允許使用者獲得二個有效信號以輸入至均勻SESS合成演算法。
● 舉例而言,作為最末步驟,元資料及音訊信號二者作為輸入提供至均勻SESS合成(或均勻空間擴展音源呈現或空間擴展音源呈現),其例如呈現類似於EP3879856中所描述的入口之雙耳輸出。
在以下章節中,論述或分別進一步論述「本發明之態樣」實施例:
首先,根據實施例之呈現器之態樣,其可例如或可能(任擇地)受位元串流元件;例如根據本發明之實施例之位元串流元件控制:
呈現器,其 ● 舉例而言,經裝備以呈現多於一個聲學均勻環境之虛擬聲學衝擊/如自此房間外部(例如自另一相鄰房間)感知的一個房間之迴響之傳播...作為具有空間範圍/大小之音源(而非點源) o 在較佳實施中,經設定大小源(任擇地)如EP3879856中所描述來呈現,例如以呈現迴響入口作為空間擴展音源。
● 舉例而言,使用1.例如來自(例如回饋遲延網路)混響器之輸出之2個(或更多個)去相關降混或2.單通道信號連同其去相關版本作為空間擴展音源演算法之輸入。
● 任擇地,將入口之幾何形狀(例如,聲學均勻空間之表示)映射至以收聽者為中心之座標系統上,例如以識別由其相對於收聽者覆蓋之空間扇區。 o 在較佳實施中,映射方法(任擇地)為基於射線追蹤之演算法。
● 任擇地,模擬(例如,以下二個類型之)入口作為空間擴展音源,例如根據收聽者之位置及定向: o 舉例而言,類型1入口表示具有其整個幾何形狀之AHS。舉例而言,其藉由場景中所有AHS之無縫呈現表徵而無關於收聽者之位置。當例如收聽者在入口外部時,可例如基於入口在收聽者座標系統上之投影來計算其正確感知大小。另一方面,當例如收聽者在入口內部時,入口例如覆蓋收聽者之頭部之整個球體。因此,類型1入口可例如完全表示場景中之所有AHS。 o 舉例而言,類型2入口表示其部分連接至定位有收聽者之AHS的AHS。舉例而言,此類型之入口僅概述將聲音自所表示AHS輻射至收聽者AHS中之實際幾何形狀範圍(而非例如類似於類型1之AHS的完整體積)。因此,每當收聽者進入不同AHS時,可例如必須更新入口之清單,以確保相對於收聽者之位置穩定且正確地表示所有AHS。另外,輻射屬性亦可任擇地指派至各對應入口上,例如以確保自其傳播之聲音適當地衰減及著色。換言之,對於類型2入口不需要進一步遮擋處理。
● 任擇地,例如藉由取決於遮擋器之吸收屬性排除或衰減入口之遮擋空間區域,例如經由均衡來模型化類型1入口之遮擋。 o 在較佳實施中,遮擋處理任擇地重新使用例如在先前幾何形狀映射步驟中所獲得之射線追蹤資訊來節省計算。
● 任擇地,允許進出多個聲學均勻空間及多個聲學均勻空間之間的平滑過渡。 o 在較佳實施例中,過渡區之範圍任擇地受參數控制且可任擇地在位元串流中傳輸。
在下文中,論述根據本發明之實施例的位元串流之態樣:
包括例如以下資訊(或至少其部分)之位元串流:
•  聲學均勻空間之聲學描述(例如混響器之控制參數)(任擇的)。
•  聲學均勻空間之幾何形狀描述(例如網格之頂點及面或框之範圍...等)(任擇的)。
•  關於空間之間的聲學關係之細節資訊 •   作為實例,對於具有連接入口之任何一對此類空間,自空間#1至空間#2之傳播因數例如作為空間#1之多少聲能輻射至空間#2中(及例如相反地輻射)的量度傳輸。在較佳實施例中,此可任擇地基於二個空間之間的連接表面積與空間#1之整個吸收表面積的比率來計算。 •   作為第二實例,AHS之間的過渡區之範圍任擇地受可任擇地在位元串流中傳輸之參數控制。
在下文中,進一步論述根據本發明之實施例:
應注意,如下文所揭示之形貌體、功能性及細節中之任一者可個別地及以組合方式併入或與如本文中所揭示之實施例中之任一者一起使用。因此,如上述實施例中所揭示之形貌體、功能性及細節中之任一者可個別地及以組合方式併入或與以下實施例中之任一者一起使用。
根據本發明之實施例,例如呈現器可經組配以管理入口之狀態更新及信號混合。舉例而言,入口可為自聲學環境(AE)或AHS外部之收聽者之視角所見的該AE或AHS之表示。入口可呈現為均勻擴展音源或SESS。
因此,根據本發明之實施例可使用以下資料元素及變數中之一或多者: ReverbId         場景中各AE或AHS之唯一ID PortalItems       儲存金鑰-值對之映射,其中金鑰為RI,例如呈現項目之ID且值為RI。 PortalMap        儲存金鑰-值對之映射,其中金鑰為AE或AHS之ReverbId且值為當收聽者在AE或AHS內部時應在作用中的PortalItem之向量。 PortalBySource   儲存金鑰-值對之映射,其中金鑰為AE或AHS之ReverbId且值為PortalItem之向量,其音訊信號應自各別AE之迴響輸出降混。 PortalRI           PortalItems之一個條目,其為金鑰-值對,其中金鑰為RI之ID且值為RI。 listenerReverbId      收聽者所處之AE或AHS之唯一ID。 allReverbIdsInScene  具有場景中所有AE或AHS之唯一ID的向量。 currentSignal          來自當前迴響例項之輸出信號訊框(例如15個通道)。 reverbSignalOutput    來自場景中之所有迴響例項之輸出信號訊框的向量。 portalSignalBuffer      RI之信號緩衝區。
在下文中,描述根據實施例的呈現器或包含呈現器之解碼器的階段:
在初始化期間,所有入口及其相關聯AE或AHS之資料可例如自位元串流讀取。來自編碼器之各 入口結構可重構成PortalItems之呈現器表示。以下描述分裂成分別解釋更新執行緒中之元資料處置及音訊執行緒中之信號處理的二個區段。
在下文中,提供根據實施例的用於更新執行緒處理之任擇實例:
對於各更新,階段可例如基於收聽者所處之AE或AHS而激活及撤銷激活PortalItems。此可藉由搜尋具有金鑰之PortalMap進行,該金鑰為收聽者所處之AE或AHS之ReverbId。若PortalItems中RI之ID包括於值中,則RI與此AE或AHS相關,因此可例如經激活。否則,其可例如經撤銷激活。 實例: for portalRI in PortalItems { if portalRI.Id is in PortalMap[listenerReverbId]{ portalRI.activate(); } else { portalRI.deactivate(); } }
入口可例如為AE或AHS之表示,因此PortalItems之音訊信號自對應AE或AHS之迴響輸出複製。
在下文中,論述根據實施例的任擇音訊執行緒處理:
舉例而言,最初可存在來自各混響器例項之預定數目,例如15個輸出通道,且可僅需要二個信號來用於將入口呈現為均勻範圍。
如上述更新執行緒處理描述中所提及,迴響例項或甚至各迴響例項之信號輸出可例如映射至PortalItems中之對應RI。 實例: for ReverbId in allReverbIdsInScene{ currentSignal = reverbSignalOutput[ReverbId]; for portalRI in PortalBySource[ReverbId]{ portalSignalBuffer[portalRI.id].copyFrom(currentSignal); } }
此外,進一步論述根據實施例之編碼器:
根據實施例之任擇入口創建:
此區段描述根據實施例之編碼器可例如如何基於場景中之聲學環境(AE或AHS)產生入口。此處應牢記之重要概念為入口可為AE或AHS之表示。當收聽者不在特定AE或AHS中但其仍在聲學上相關時,其可表示為入口。
舉例而言,可存在涵蓋產生入口之主要程序的三個步驟:
創建入口之幾何形狀(任擇的): 具有唯一 portalExtentId之一個入口幾何形狀可例如由場景中之各AE或AHS產生。入口幾何形狀可例如藉由略微收縮對應 portalParentEnvironment之幾何形狀而獲得,可進行此操作以避免入口之幾何形狀與潛在遮擋邊界(例如壁)之間的重疊。
二個入口之間的連接狀態之識別(任擇的): 舉例而言,二個AE或AHS之間可存在三個可能的連接狀態:未連接、與開口連接、與遮擋器連接(或舉例而言及換言之:關閉)。舉例而言,此步驟可利用射線追蹤及/或立體像素化技術以識別各對AE或AHS之間或一個AE或AHS與「外部」環境之間的潛在空白空間或幾何形狀。此外,其可例如提供 isConnectedWithOpening之資訊,且若此變數為真,則開口之位置,亦即 openingPosXopeningPosYopeningPosZ亦為真。
含有待編碼之所有其元資料之入口結構之創建(任擇的): 元資料或例如甚至經由上述二個步驟獲得之所有元資料可例如組織成用於位元串流串列化之結構。舉例而言,此步驟可負責a)針對各入口幾何形狀創建具有唯一 portalId之一個入口結構;b)在相關 acousticEnvironmentId下對其進行指派(若入口並非自給定AE或AHS創建,則其可例如與特定聲學環境相關);以及c)基於開口之面積、源AE或AHS之體積及自RT60估計的源AE或AHS之吸收係數而針對各打開連接計算 portalFactor。 參考書目
Alary, B., Politis, A., & Välimäki, V. (2017). Velvet Noise Decorrelator. Baumgarte, F., & Faller, C. (2003). Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509-519. Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press. Faller, C., & Baumgarte, F. (2003). Binaural Cue Coding-Part II: Schemes and Applications. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520-531. Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71-87. Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room-Acoustics Recording. Ingenioren, 47. Pihlajamäki, T., Santala, O., & Pulkki, V. (2014). Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467-484. Potard, G. (2003). A study on sound source apparent shape and wideness. Potard, G., & Burnett, I. (2004). Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays. Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456-466. Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources . Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc, 55(6), S. 503-516. Pulkki, V., Laitinen, M.-V., & Erkut, C. (2009). Efficient Spatial Sound Synthesis for Virtual Worlds. Schlecht, S. J., Alary, B., Välimäki, V., & Habets, E. A. (2018). Optimized Velvet-Noise Decorrelator. Schmele, T., & Sayin, U. (2018). Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters. Schmidt, J., & Schröder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG-4 Standard. Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). A 3-D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward-Compatible Multichannel Audio Codec, 18(6), S. 1550-1561. Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S. 27-37. Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics. Schröder, D. & Vorländer, M. (2007).  Hybrid method for room acoustic simulation in real-time. In Proceedings of the 19th International Congress on Acoustics, Madrid, Spain. Stavrakis, E.,  Tsingos, N. & Calamia, P. T. (2008).  Topological sound propagation with reverberation graphs. Acta Acust. Acust. 94(6), 921-932. Tsingos, N. (2009). Pre-computing geometry-based reverberation effects for games. In 35th AES Conference on Audio for Games.
100,200,310:呈現器 101,201,301:所呈現聲學場景 102,202,341:空間擴展音源資訊 103,204,323:額外場景資訊 110,210:呈現單元 203,324:音源信號 205,322:收聽者移動資訊 212:直接聲音呈現單元 213:所呈現直接音源回應 214:SESS呈現單元 215:所呈現漫射聲音回應 216:呈現融合單元/聽覺線索資訊單元 220:混響處理單元 221:混響版本/音源信號 230:空間區域判定單元 231:空間區域資訊 240:射線追蹤單元 241:射線擊中資訊 300,1030:解碼器/音訊解碼器 302,401,501,900,1020:位元串流 320:資訊提取單元 321,331:幾何形狀描述 330,1032:映射單元 340:SESS資訊提供單元 350:晚期混響產生器 351,361,371,1038:信號 360:回饋遲延網路混響器/FDNR 370,1040:去相關器 400,500,1010:編碼器/音訊編碼器 402,502:聲學場景資訊 403,503:音訊信號 410,510:位元串流提供單元 420:AHS識別單元 430,530:SESS定義提供單元 431:SESS定義 440:聲學障礙物定義提供單元 442:定義/聲學障礙物定義 520:AHS及入口識別單元 521:入口資訊 531:定義 600,700,800:方法 610,710,720,730,810,820:步驟 910,920,940,950:經編碼表示 930:經編碼描述 960:參數 1002:輸入/輸入場景 1004:輸出音訊 1004a:左雙耳信號L bin1004b:右雙耳信號R bin1012:入口偵測單元 1014:入口幾何形狀描述單元 1022:入口資訊 1034:均勻SESS合成單元 1036:去相關輸入信號 1110:空間A 1112,1122,1132:入口 1120:空間B 1130:空間C 1140:收聽者 1150:壁 1160,1170:橙色portal_wall 1180:紅色portal_door
圖式未必按比例繪製,而是通常強調說明本發明之原理。在以下描述中,參考以下圖式描述本發明之各種實施例,在圖式中: 圖1展示根據本發明之實施例的呈現器之示意圖; 圖2展示根據本發明之實施例的具有額外任擇形貌體之呈現器之示意圖; 圖3展示根據本發明之實施例的解碼器之示意圖; 圖4展示根據本發明之實施例的編碼器之示意圖; 圖5展示根據本發明之其他實施例的編碼器之示意圖; 圖6展示根據本發明之實施例的用於呈現聲學場景之方法之示意性方塊圖; 圖7展示根據本發明之實施例的用於編碼音訊場景之方法之示意性方塊圖; 圖8展示根據本發明之實施例的用於編碼音訊場景之方法之示意性方塊圖; 圖9展示根據本發明之實施例的位元串流之示意性方塊圖; 圖10展示根據本發明之實施例的本發明方法之管線之示意性方塊圖; 圖11展示根據本發明之實施例的入口偵測方法1之實例之示意圖;且 圖12展示根據本發明之實施例的入口偵測方法2之實例之示意圖。
100:呈現器
101:所呈現聲學場景
102:空間擴展音源資訊
103:額外場景資訊
110:呈現單元

Claims (39)

  1. 一種用於呈現一聲學場景之呈現器(100,200), 其中該呈現器經組配以使用一空間擴展音源(1112,1160,1170,1180)在一第二空間區域(1110)中呈現一漫射聲音之一聲學衝擊,該漫射聲音來源於一第一空間區域(1120,1130)中。
  2. 如請求項1之呈現器(100,200), 其中該呈現器經組配以使用一直接聲音呈現在該第二空間區域(1110)中呈現一給定音源之一直接聲音聲學衝擊,該給定音源位於該第一空間區域(1120,1130)中,且 其中該呈現器經組配以使用該空間擴展音源在該第二空間區域中呈現該給定音源之一漫射聲音聲學衝擊。
  3. 如請求項1至2中任一項之呈現器(100,200), 其中該呈現器經組配以將一直接源呈現應用於一給定音源之一音源信號(203,324),該給定音源位於該第一空間區域(1120,1130)中,以便在位於該第二空間區域(1110)中之一收聽者位置(1140)處獲得一所呈現直接音源回應(213); 其中該呈現器經組配以將一混響處理應用於該給定音源之該音源信號,以便獲得該給定音源之該音源信號之一或多個混響版本(221),且 其中該呈現器經組配以將一空間擴展音源呈現應用於該給定音源之該音源信號之該一或多個混響版本,以便在位於該第二空間區域中之該收聽者位置(1140)處獲得一所呈現漫射聲音回應(215)。
  4. 如請求項1至3中任一項之呈現器(100,200), 其中該呈現器經組配以使用再現一晚期混響之該空間擴展音源在該第二空間區域(1110)中呈現由位於該第一空間區域(1120,1130)中之一音源激發的該晚期混響之一聲學衝擊。
  5. 如請求項1至4中任一項之呈現器(100,200), 其中該呈現器經組配以使用在各空間區域中具有類似頻譜內容之一空間擴展音源來呈現該漫射聲音之該聲學衝擊。
  6. 如請求項1至5中任一項之呈現器(100,200), 其中該呈現器經組配以使用置放於該第一空間區域(1120,1130)與該第二空間區域(1110)之間的一入口(1160,1170,1180)處且再現來源於該第一空間區域之該漫射聲音的一空間擴展音源來呈現該漫射聲音之該聲學衝擊。
  7. 如請求項1至6中任一項之呈現器(100,200), 其中該呈現器經組配以使用採用該第一空間區域(1120,1130)之一幾何範圍且再現來源於該第一空間區域之該漫射聲音的一空間擴展音源(1122,1132)來呈現該漫射聲音之該聲學衝擊,考慮該空間擴展音源在位於該第二空間區域(1110)內之一收聽者位置(1140)處之一遮擋。
  8. 如請求項1至7中任一項之呈現器(100,200), 其中該第一空間區域(1120,1130)為一第一聲學均勻空間,且/或 其中該第二空間區域(1110)為一第二聲學均勻空間。
  9. 如請求項1至8中任一項之呈現器(100,200), 其中該第一空間區域(1120,1130)及該第二空間區域(1110)為經由一入口(1160,1170,1180)聲學耦合之房間。
  10. 如請求項1至9中任一項之呈現器(100,200), 其中該呈現器經組配以使用一相同呈現演算法來呈現多個空間擴展音源,包含遠離一收聽者位置(1140)之一或多個空間擴展源(1122,1132)及內部定位有該收聽者位置之一或多個空間擴展源(1112),考量該收聽者位置與遠離該收聽者位置之該一或多個空間擴展源之間的遮擋。
  11. 如請求項1至10中任一項之呈現器(100,200), 其中該呈現器經組配以執行一雙耳呈現。
  12. 如請求項1至11中任一項之呈現器(100,200), 其中該呈現器經組配以判定用於該漫射聲音之該再現之該空間擴展音源相對於一收聽者之位置(1140)及/或一收聽者之定向位於哪一空間區域中,並取決於此來呈現該空間擴展音源。
  13. 如請求項1至12中任一項之呈現器(100,200), 其中該呈現器經組配以判定用於該漫射聲音之該再現之該空間擴展音源相對於一收聽者之位置(1140)及/或一收聽者之定向在哪一空間區域中被遮擋,並取決於此來呈現該空間擴展音源。
  14. 如請求項1至13中任一項之呈現器(100,200), 其中該呈現器經組配以使用一基於射線追蹤之途徑判定用於該漫射聲音之該再現之該空間擴展音源相對於一收聽者之位置(1140)及/或一收聽者之定向位於哪一空間區域中。
  15. 如請求項1至14中任一項之呈現器(100,200), 其中該呈現器經組配以使用一基於射線追蹤之途徑判定用於該漫射聲音之該再現之該空間擴展音源相對於一收聽者之位置及/或一收聽者之定向在哪一空間區域中被遮擋。
  16. 如請求項1至15中任一項之呈現器(100,200), 其中該呈現器經組配以針對多個區判定與一各別區相關聯且遠離一收聽者之位置(1140)延伸之一射線是否擊中該空間擴展音源,藉此判定用於該漫射聲音之該再現之該空間擴展音源相對於一收聽者之位置及/或一收聽者之定向位於哪一空間區域中。
  17. 如請求項1至16中任一項之呈現器(100,200), 其中該呈現器經組配以取決於用於該漫射聲音之該再現之該空間擴展音源位於之該空間區域而判定一或多個聽覺線索資訊項目,且 其中該呈現器經組配以使用該一或多個聽覺線索資訊項目處理表示該漫射聲音之一或多個音訊信號(203),以便獲得該漫射聲音之一所呈現版本(215)。
  18. 如請求項1至17中任一項之呈現器(100,200), 其中該呈現器經組配以回應於該收聽者之一移動更新用於該漫射聲音之該再現之該空間擴展音源相對於一收聽者之位置(1140)及/或一收聽者之定向位於哪一空間區域中的該判定,且/或 其中該呈現器經組配以回應於該收聽者之一移動更新該一或多個聽覺線索資訊項目之該判定,且/或 其中該呈現器經組配以回應於用於該漫射聲音之該再現之該空間擴展音源位於的該空間區域之一改變而更新該一或多個線索資訊項目之該判定。
  19. 一種音訊解碼器(300,1030),其包含: 如請求項1至18中任一項之一呈現器(100,200), 其中該音訊解碼器經組配以自一位元串流(302,401,501,900,1020)獲得一入口(1160,1170,1180)之一幾何形狀描述(321)並將該入口之該幾何形狀映射至一以收聽者為中心之座標系統上,以便獲得用於該漫射聲音之該再現之該空間擴展音源之一幾何形狀描述(331)。
  20. 如請求項19之音訊解碼器(300,1030), 其中該音訊解碼器經組配以獲得至少部分地去相關之二個或更多個信號(351),以用於自一晚期迴響產生器(350)之輸出導出的該空間擴展音源之該呈現。
  21. 如請求項19或20之音訊解碼器(300,1030), 其中該音訊解碼器經組配以使用一回饋遲延網路混響器(360)獲得二個或更多個信號(360)以用於該空間擴展音源之該呈現。
  22. 如請求項19至21中任一項之音訊解碼器(300,1030), 其中該解碼器經組配以使用一音源信號(203,324)及該音源信號之一去相關版本以用於該空間擴展音源之該呈現。
  23. 如請求項19至22中任一項之音訊解碼器(300,1030), 其中該解碼器經組配以在呈現該空間擴展音源時排除或衰減經遮擋空間區域。
  24. 如請求項19至23中任一項之音訊解碼器(300,1030), 其中該解碼器經組配以允許進出多個空間區域及多個空間區域之間的一平滑過渡。
  25. 一種用於編碼一音訊場景之音訊編碼器(400,1010), 其中該音訊編碼器經組配以提供一或多個音訊信號之一經編碼表示; 其中該音訊編碼器經組配以識別多個聲學均勻空間且基於其提供空間擴展音源之定義(431),其中該等空間擴展音源之幾何特性相同於所識別聲學均勻空間之幾何特性。
  26. 如請求項25之音訊編碼器(400,1010), 其中該音訊編碼器經組配以提供該等聲學均勻空間之間的聲學障礙物之定義(442)。
  27. 一種用於編碼一音訊場景之音訊編碼器(500,1010), 其中該音訊編碼器經組配以提供一或多個音訊信號之一經編碼表示; 其中該音訊編碼器經組配以提供一或多個空間擴展音源之定義(531),其中該等空間擴展音源之幾何特性係基於聲學均勻空間之間的入口(1160,1170,1180)之幾何特性。
  28. 如請求項27之音訊編碼器(500,1010), 其中該音訊編碼器經組配以識別多個聲學均勻空間及該等聲學均勻空間之間的一或多個入口(1160,1170,1180),並基於其提供一或多個空間擴展音源之定義(531),其中該一或多個空間擴展音源之幾何特性係基於所識別入口之尺寸。
  29. 一種用於呈現一聲學場景之方法(600), 其中該方法包含使用一空間擴展音源在一第二空間區域(1110)中呈現(610)來源於一第一空間區域(1120,1130)中之一漫射聲音之一聲學衝擊。
  30. 一種用於編碼一音訊場景之方法(700), 其中該方法包含提供(710)一或多個音訊信號之一經編碼表示; 其中該方法包含識別(720)多個聲學均勻空間及基於其提供(730)空間擴展音源之定義,其中該等空間擴展音源之幾何特性相同於所識別聲學均勻空間之幾何特性。
  31. 一種用於編碼一音訊場景之方法(800), 其中該方法包含提供(810)一或多個音訊信號之一經編碼表示; 其中該方法包含提供(820)一或多個空間擴展音源之定義,其中該等空間擴展音源之幾何特性係基於聲學均勻空間之間的入口(1160,1170,1180)之幾何特性。
  32. 一種電腦程式,其用於在該電腦程式在一電腦上執行時執行如請求項29至31中任一項之方法。
  33. 一種音訊位元串流(302,401,501,900,1020),其包含: 一或多個音訊信號之一經編碼表示(910);及 一或多個空間擴展音源之一經編碼表示(920),以用於呈現來源於一第一空間區域(1120,1130)中且呈現於一第二空間區域(1110)中的一漫射聲音之一聲學衝擊。
  34. 一種音訊位元串流(302,401,501,900,1020),其包含: 一或多個空間區域之一經編碼描述(930);及 描述至少二個空間區域之間的一聲學關係的一資訊之一經編碼表示(940)。
  35. 如請求項34之音訊位元串流(302,401,501,900,1020), 其中空間區域之該經編碼表示包含二個空間區域之間的一入口(1160,1170,1180)之一描述。
  36. 如請求項34至35中任一項之音訊位元串流(302,401,501,900,1020), 其中該音訊位元串流包含描述自該第一空間區域(1120,1130)至該第二聲學區域之一聲學傳播的一傳播因數之一經編碼表示(950)。
  37. 如請求項34至36中任一項之音訊位元串流(302,401,501,900,1020), 其中該音訊位元串流包含描述一第一空間區域(1120,1130)之聲能中輻射至一第二空間區域(1110)中之量/分數的一傳播因數。
  38. 如請求項34至37中任一項之音訊位元串流(302,401,501,900,1020), 其中該音訊位元串流包含描述一第一空間與一第二空間之間的一連接表面積與該第一空間之一整個吸收表面積之間的一比率的一傳播因數。
  39. 如請求項34至38中任一項之音訊位元串流(302,401,501,900,1020), 其中該音訊位元串流包含描述二個空間區域之間的一過渡區之一範圍的一參數(960)。
TW111142839A 2021-11-09 2022-11-09 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流 TW202332290A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP21207344.9 2021-11-09
EP21207344 2021-11-09

Publications (1)

Publication Number Publication Date
TW202332290A true TW202332290A (zh) 2023-08-01

Family

ID=78709225

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111142839A TW202332290A (zh) 2021-11-09 2022-11-09 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流

Country Status (4)

Country Link
AU (1) AU2022384608A1 (zh)
CA (1) CA3237593A1 (zh)
TW (1) TW202332290A (zh)
WO (1) WO2023083876A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2616424A (en) * 2022-03-07 2023-09-13 Nokia Technologies Oy Spatial audio rendering of reverberation

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
EP3018918A1 (en) * 2014-11-07 2016-05-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating output signals based on an audio source signal, sound reproduction system and loudspeaker signal
JP2020031303A (ja) * 2018-08-21 2020-02-27 株式会社カプコン 仮想空間における音声生成プログラム、および音声生成装置
CA3199318A1 (en) * 2018-12-19 2020-06-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
EP3712788A1 (en) * 2019-03-19 2020-09-23 Koninklijke Philips N.V. Audio apparatus and method therefor
US10932081B1 (en) * 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
US10911885B1 (en) * 2020-02-03 2021-02-02 Microsoft Technology Licensing, Llc Augmented reality virtual audio source enhancement
EP3879856A1 (en) 2020-03-13 2021-09-15 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a spatially extended sound source using cue information items

Also Published As

Publication number Publication date
CA3237593A1 (en) 2023-05-19
WO2023083876A2 (en) 2023-05-19
AU2022384608A1 (en) 2024-05-30
WO2023083876A3 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
KR102659722B1 (ko) 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법
JP5688030B2 (ja) 三次元音場の符号化および最適な再現の方法および装置
Hacihabiboglu et al. Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics
CN110326310B (zh) 串扰消除的动态均衡
KR102540642B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
US11930351B2 (en) Spatially-bounded audio elements with interior and exterior representations
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
Malham Approaches to spatialisation
TW202332290A (zh) 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
Pelzer et al. 3D reproduction of room acoustics using a hybrid system of combined crosstalk cancellation and ambisonics playback
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
Jot Efficient Description and Rendering of Complex Interactive Acoustic Scenes
Jot et al. Perceptually Motivated Spatial Audio Scene Description and Rendering for 6-DoF Immersive Music Experiences
Koppens et al. A Generic Reverberation Characterization Metric for Accurate Simulation in Virtual and Augmented Reality Environments
KR20240008241A (ko) 녹음 거리 파라미터 기반 오디오 렌더링 방법 및 이를 수행하는 장치