TW202403343A

TW202403343A - 用於基於體素之幾何表示之早期反射估計之方法、裝置和系統

Info

Publication number: TW202403343A
Application number: TW112118853A
Authority: TW
Inventors: 里恩特倫蒂夫; 克里斯托夫喬瑟夫費爾施; 潘吉塞蒂亞萬; 丹尼爾菲舍爾
Original assignee: 瑞典商都比國際公司
Priority date: 2022-05-23
Filing date: 2023-05-22
Publication date: 2024-01-16
Also published as: WO2023227544A1

Abstract

本發明描述用於改良一三維音訊場景中之一音訊源之早期反射軌跡之估計之方法、裝置、程式及儲存媒體。該方法包含獲得該音訊場景之一基於體素之表示、關於該音訊場景中之一聽者位置之資訊及關於該音訊場景中之一音訊源位置之資訊。將一射線方向圖案應用於該音訊源位置與該聽者位置之間的一連接線上之一或多個點以針對此等點之各者獲得在該各自點處起源之複數個射線。基於該等射線及該音訊場景之該基於體素之表示來判定一組碰撞體素。基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡。

Description

用於基於體素之幾何表示之早期反射估計之方法、裝置和系統

本發明係關於(若干)音訊源之模型化，且更特定言之，本發明係關於基於體素之早期聲源反射估計方法及器件。

一聲反射表面之聲音反射可影響一音訊源之感知聲音。在一目標位置(例如，一聽者位置)處之直接聲音之後立刻反射及接收之聲音(其在本文中將稱為早期反射(ER))在模型化一聲源時特別受關注，因為可在僅考量直接聲音及ER之情況下準確模型化一音訊源之感知聲音。另一方面，較高階聲反射通常較不重要，因為其能量較低且由ER及其他分量時間/空間心理聲學掩蓋。

ER喚起若干感知效應，諸如明顯源寬度、感知距離、音色及空間感。ER在時間上相對較稀疏且跨越通常含於一室內脈衝回應之前約80 ms內之一相對較短時間(參閱圖1)。圖1繪示一室之一回音圖，其包含一直接聲源、早期反射及後期反射之回音圖。圖1亦允許視覺化直接聲音、早期反射及後期反射之間的差異。

ER之心理聲學相關性主要取決於若干因數，諸如音訊信號之方向、位凖、時間延遲及光譜含量。

ER之方向特別影響一聽者耳朵處之時間延遲及頻率回應。因此，ER之方向在感知反射聲音中起著重要作用。當到達方向改變時，此暗示在自源至聽者耳朵之路徑中已歸因於移動、障礙等等而存在一改變。路徑長度之改變影響時間延遲，且歸因於耳廓之形狀，將取決於到達耳朵處之方向而產生一不同頻率回應。

為估計ER之軌跡，影像源(IS)方法旨在找到一音訊源與一接收者(即，一聽者)之間的純鏡面反射路徑。藉由假定聲音僅沿直線(即，射線)傳播來簡化此程序。音訊影像源在垂直於一邊界之一線上且在相同於距原始源101之距離之距其距離處生成(參閱圖2)。圖2繪示一聲源101、聽者102、一邊界及一影像源。

因為聲音以相同於入射角之角度在邊界表面處反射，所以產生原始源101在邊界表面鏡面反射之印象。藉由一單一邊界之一反射則表示一(第一階) ER。

然而，有時邊界未知或缺少界定。一個實例係用於VR應用中之聲音呈現之3D環境之一基於體素之表示。一體素係具有特定聲屬性(例如，反射性)之一空間量。為找到IS方法之邊界，應考量體素組，因為若未將反射表面定向明確指派給一單一體素之性質，則單一體素不具有定向資訊。因此，需要複雜三角考量來估計邊界。圖3中描繪一例示性方案。在此圖中，灰色體素表示一反射物體，且一白色體素旁邊之灰色體素表示物體之表面之反射邊界。在無反射定向資訊之情況下，一單一體素不足以判定由一源101發出之聲音之一反射軌跡。

因此，尤其當無法提前獲得音訊反射邊界定向資訊時，需要用於一基於體素之環境中之ER估計之一經改良高效方法。

鑑於上文，本發明提供用於一基於體素3D環境(一3D體素柵格)中之早期聲源反射估計之方法、裝置及程式及電腦可讀儲存媒體，具有各自獨立技術方案之特徵。

根據本發明之一態樣，提供一種估計早期反射之方法。可獲得(例如，接收或判定)三維音訊場景之一基於體素之表示、關於該三維音訊場景中之一聽者之一聽者位置之資訊及關於該三維音訊場景中之音訊源之一音訊源位置之資訊。可將一射線方向圖案應用於該音訊源位置與該聽者位置之間的一連接線上之一或多個點以針對該一或多個點之各者獲得在該各自點處起源之複數個射線。可基於該複數個射線及該三維音訊場景之該基於體素之表示來判定一組碰撞體素。可基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡。例如，針對該組碰撞體素中之各碰撞體素，可判定經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑。接著，針對各路徑，若該路徑幾何有效，則可將該路徑判定為一早期反射軌跡。

藉由採用上文指定之啟發式方法，可在無需體素之任何反射表面定向資訊之情況下高效估計一基於體素環境中之早期反射。藉此，可以一高準確度及低運算複雜度模型化一聲源以實現一即時應用(例如，VR遊戲)中之準確及高效聲音表示。

在一些實施例中，該方法可進一步包含判定該射線方向圖案。判定該射線方向圖案可包含自諸多(一組)預定射線方向圖案選擇一射線方向圖案或計算該射線方向圖案。替代地，該射線方向圖案可為固定的。另替代地，可使用一位元流來接收待使用之該射線方向圖案之一指示。

在一些實施例中，該方法可進一步包含基於該一或多個點之一數目(例如，計數、基數)來判定該一或多個點。即，可獲得或判定該一或多個點之一數目(例如，經設定為N個點)且該一或多個點之所得(例如，N)數目(計數或基數)可對應於該一或多個點之座標(例如，即，針對該一或多個點之各者，存在各自座標)。

在一些實施例中，該射線方向圖案可界定為(例如，可包括)射線之一預定數目及射線自一原點之預定方向。射線之該預定數目可為(例如) 6、8或12。射線之方向可由體素柵格之柵格索引界定。

在一些實施例中，該等預定射線方向可包含以下之一或多者：相對於相鄰柵格索引之水平及垂直方向；及相對於相鄰柵格索引之對角線方向。因此，該等預定方向可界定自該等射線之一原點之相對方向，即，該體素柵格中之一柵格索引(l,m,i)。該等相對方向可表示為： (+1,0,0)、(-1,0,0)、(0,+1,0)、(0,-1,0)、(0,0,+1)、(-0,0,-1)； (+1,+1,0)、(+1,-1,0)、(-1,+1,0)、(-1,-1,0)、(+1,0,+1)、(+1,0,-1)、(-1,0,+1)、(-1,0,-1)、(0,+1,+1)、(0,+1,-1)、(0,-1,+1)、(0,-1,-1)；及 (+1,+1,+1)、(+1,+1,-1)、(+1,-1,+1)、(+1,-1,-1)、(-1,+1,+1)、(-1,+1,-1)、(-1,-1,+1)、(-1,-1,-1)。

在一些實施例中，判定該射線方向圖案可基於該三維音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。

在一些實施例中，可基於該一或多個點之該數目(例如，計數、基數)來判定連接該音訊源位置及該聽者位置之該線上之該一或多個點之座標。

在一些實施例中，該一或多個點可經判定以將連接該音訊源位置及該聽者位置之該線分割成N-1個相等分段，其中N係該一或多個點之該數目(例如，計數、基數)。例如，N可大於或等於2。

在一些實施例中，該一或多個點之該數目可取決於該三維音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。

在一些實施例中，該場景類型可包含一室內場景及一室外場景。

在一些實施例中，各碰撞體素可為該三維音訊場景之該基於體素之表示中之一遮蔽區體素。

在一些實施例中，該遮蔽區體素可表示一聲反射表面。

在一些實施例中，該遮蔽區體素可表示該三維音訊場景之該基於體素之表示中除空氣之外的任何材料。即，該遮蔽區體素可表示一反射表面且一非遮蔽體素可表示一非反射表面(或根本不界定一表面)。

在一些實施例中，基於該複數個射線及該三維音訊場景之該基於體素之表示來判定該組碰撞體素可包含判定該複數個射線之各射線與該等遮蔽區體素之間的一或多個相交處(例如，相交點)。該方法可進一步包含針對各射線，將含有最靠近該各自射線之該原點之一相交處之一遮蔽區體素判定為該組碰撞體素中之一碰撞體素。即，該碰撞體素可為由一各自射線最先命中之一遮蔽區體素。

在一些實施例中，基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡可包含針對該組碰撞體素中之各碰撞體素判定該碰撞體素是否可產生一第一階反射之一幾何有效表示。若判定該碰撞體素可產生一第一階反射之一幾何有效表示，則可將經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑判定為一早期反射軌跡。

在一些實施例中，判定該碰撞體素是否可產生一第一階反射之一幾何有效表示可包含判定該碰撞體素之一先行體素。該先行體素可為沿該各自射線之方向在該碰撞體素前面含有與該各自射線之一相交處之一體素。可判定經由該各自先行體素連接該聽者位置及該音訊源位置之一第二路徑。若該第二路徑不含有與一遮蔽區體素之一相交處，則該碰撞體素可產生一第一階反射之一幾何有效表示。一般而言，若連接該聽者位置及該先行體素之一路徑及連接該音訊源位置及該先行體素之一路徑之任一者不含有與一遮蔽區體素之一相交處，則該碰撞體素可產生一第一階反射之一幾何有效表示。換言之，若連接該聽者位置及該先行體素之該路徑及連接該音訊源位置及該先行體素之該路徑兩者通過一視線檢查(「可見性檢查」)，則該碰撞體素可產生一第一階反射之一幾何有效表示。

藉此，可高效清理無法導致自該音訊源位置至該聽者位置之一幾何有效路徑之碰撞體素。

替代地或另外，基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡可包含針對該組碰撞體素中之各碰撞體素判定經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑。針對各路徑，若該路徑幾何有效，則可將該路徑判定為一早期反射軌跡。若該路徑通過一視線檢查(「可見性檢查」)，即，若連接該聽者位置及該碰撞體素之一路徑及連接該碰撞體素及該音訊源位置之一路徑兩者通過該視線檢查，則該路徑可被視為幾何有效。

在一些實施例中，該路徑可包含將該音訊源位置連接至該組碰撞體素中之一碰撞體素之一直線及將該組碰撞體素中之該相同碰撞體素連接至該聽者位置之一直線。

在一些實施例中，若該路徑不含有與除該各自路徑之該碰撞體素之外的一遮蔽區體素之一相交處，則可判定該路徑幾何有效。即，可捨棄具有與一個以上遮蔽區體素之一相交處之一路徑。換言之，若一路徑不由除該碰撞體素之外的任何遮蔽區體素阻礙，則可判定該路徑幾何有效。

在其中執行針對可產生一第一階反射之一幾何有效表示之一碰撞體素之測試及針對一幾何有效路徑之測試兩者之情況中，可藉由判定一遮蔽區體素與連接該音訊源位置、該先行體素及該聽者位置之該路徑之間是否存在一相交處來首先清理無法產生一第一階反射之一幾何有效表示之碰撞體素。針對剩餘碰撞體素，可判定連接該音訊源位置、該碰撞體素及該聽者位置之該路徑。最後，可判定此等路徑與除該碰撞體素之外的一遮蔽區體素之間是否存在一相交處。

可藉由組合該兩個幾何效度測試來僅判定幾何有效早期反射軌跡，不管該三維音訊場景之幾何形狀如何。

在一些實施例中，該方法可進一步包含自該等早期反射軌跡選擇一組最聲相關早期反射軌跡。

在一些實施例中，選擇該組最聲相關早期反射軌跡可基於該等早期反射軌跡之長度及/或各自早期反射軌跡之該碰撞體素之反射係數。特定言之，一聲相關早期反射軌跡可具有與(例如)非聲相關早期反射軌跡相比之一短長度及/或大反射係數。

在一些實施例中，該反射係數可取決於由該碰撞體素模型化(或否則指示)之一材料。

在一些實施例中，選擇該組最聲相關早期反射軌跡可包含捨棄具有指示在該碰撞體素處之接近180º之一內角之一值之早期反射軌跡。在此，接近180º可意謂180º-ε，其中ε係一小角度。在一些實施例中，例如，可捨棄具有指示大於160º之一內角之該值之早期反射軌跡。

在一些實施例中，指示接近180º之一內角之該值可為該早期反射軌跡之該內角或一長度。

在一些實施例中，該方法可進一步包含輸出該早期反射軌跡。即，可輸出該等早期反射軌跡或該等最聲相關早期反射軌跡用於呈現或進一步處理，諸如(例如)該呈現之前的遮蔽、繞射、3D範圍或殘響處理。

在一些實施例中，該方法可進一步包含(例如)藉由一虛擬實境(VR)、擴增實境(AR)、混合實境(MR)及/或擴展實境(XR)器件來呈現該三維音訊場景。

在一些實施例中，該等早期反射軌跡可表示第一階軌跡。在一些實施例中，該等第一階軌跡可為具有該音訊源位置與該聽者位置之間的一單一反射之反射軌跡。

根據本發明之另一態樣，提供一種處理一三維音訊場景之一訊框(例如，時框)之方法。可基於根據先前態樣之方法來估計該訊框之反射軌跡。可儲存(例如，本機儲存或提交至一共用儲存器或雲端儲存器)經估計早期反射軌跡。替代地，可存取(例如，自本機儲存器、共用儲存器或雲端儲存器)一先前訊框之經估計早期反射軌跡。可基於根據先前態樣之方法來計算一先前訊框之經估計早期反射軌跡。可僅在含有該聽者位置之一體素、含有該音訊源位置之一體素及該三維音訊場景之該基於體素之表示之一幾何形狀不在該訊框與一先前訊框之間改變時存取該先前訊框之經估計早期反射軌跡。

藉由在該三維音訊場景靜態時使用早期反射軌跡之先前估計，可在絕不影響該輸出之精確度之情況下降低處理一三維音訊場景之音訊資料之複雜度。

根據本發明之另一態樣，提供一種用於產生經幾何連接之音訊源之軌跡用於在體素3D柵格上高效實施之音訊處理方法。可接收與一射線方向圖案「R」相關之資訊。可判定基於該射線方向圖案「R」來施加射線投射之一第一組點「P」。可判定基於該第一組點及反射體素「VOX」之一第二組射線體素「碰撞」體素「C」。可判定基於該第二組射線體素「碰撞」體素「C」之一第三組有效反射軌跡「S-C-L」。可自該第三組有效反射軌跡選擇及輸出最聲相關有效反射軌跡之一子組。

本發明之態樣可經由一裝置實施。該裝置可包含一處理器及經耦合至該處理器之記憶體。該處理器可經調適以實施根據態樣之方法及本發明之實施例。

本發明之態樣可經由一程式實施。當該程式之指令由一處理器執行時，該處理器可實施本發明之態樣及實施例。一電腦可讀儲存媒體可儲存該程式。此等電腦可讀儲存媒體可包含諸如本文中所描述之記憶體器件之記憶體器件，包含(但不限於)隨機存取記憶體(RAM)器件、唯讀記憶體(ROM)器件等等。因此，本發明中所描述之標的之一些創新態樣可經由其上儲存有軟體之一或多個電腦可讀儲存媒體實施。

應瞭解，裝置特徵及方法步驟可依諸多方式互換。特定言之，熟習技術者應瞭解，(若干)所揭示方法之細節可由對應裝置(或系統)實現，且反之亦然。此外，相對於(若干)方法所作出之以上陳述之任何者應被理解為同樣適用於對應裝置(或系統)，且反之亦然。

圖及以下描述僅依說明方式與較佳實施例相關。應自以下討論注意，應易於將本文中所揭示之結構及方法之替代實施例視為可在不背離所主張之原理之情況下採用之可行替代。

現將詳細參考若干實施例，其實例繪示於附圖中。應注意，只要可行，則類似或相同元件符號可在圖中使用且可指示類似或相同功能。圖僅為了說明而描繪所揭示系統(或方法)之實施例。熟習技術者應易於自以下描述認識到，可在不背離本文中所描述原理之情況下採用本文中所繪示之結構及方法之替代實施例。

動態影像專家小組(MPEG)係由國際標準化組織(ISO)及國際電工委員會(IEC)聯合建立之一工作小組聯盟，其設定媒體編碼(包含音訊編碼)之標準。MPEG根據ISO/IEC SC 29來組織且音訊小組目前識別為工作小組(WG) 6。WG 6當前根據MPEG-I音訊標準來工作。

新MPEG-I標準藉由支援場景及圍繞此等場景之各種移動(諸如在虛擬實境(VR)、擴增實境(AR)、混合實境(MR)及/或擴展實境(XR)應用中使用各種自由度之移動)來實現自不同視角及/或角度或聆聽位置之一聲體驗。

針對在VR、AR、MR及XR應用中呈現之音訊，已藉由將一複雜聽覺場景表示為多個分離音訊物體(其等之各者與界定該物體在場景中之一定位/位置及軌跡之參數或元資料相關聯)來廣泛採用基於物體之方法。替代地，在此等環境中呈現之音訊亦可使用較高階之高保真度立體聲像複製(Ambisonics)(HOA)。

用於音訊呈現之體素與在硬體及軟體兩者中實施之媒體環境(諸如視訊遊戲及/或VR、AR、MR及XR環境)相關。下文描述及界定與用於音訊呈現之體素相關之一些概念：用於音訊呈現之體素是什麼？一體素係具有聲性質或指派給其之音訊呈現指令之一空間量。用於音訊呈現之體素大小是什麼？體素大小係編碼器組態參數且其可根據一場景幾何形狀細節位凖(例如，在10 cm至1 m之範圍內)來(手動或自動)選擇。如何可獲得體素？可藉由以下來獲得用於音訊呈現之體素： • 一基於網之場景表示之體素化(或轉換)，及/或 • 自用於場景生成之場景表示(或甚至視訊呈現)(例如，藉由對較小大小之體素降取樣)。如何表示基於體素之音訊場景？一音訊場景之任何基於體素之表示可含有並非傳輸體素(例如，為遮蔽區體素)之體素之一指示，即，其中聲音無法傳播或無法自由傳播之體素(遮蔽幾何形狀之一表示)。此指示可與各自體素之座標(例如，中心座標、隅角座標)之一指示相關。此等體素之座標可由(例如)柵格索引表示。另外，基於體素之表示可包含並非傳輸體素之體素之材料性質之指示，諸如吸收係數、反射係數等等。除遮蔽區體素之外，基於體素之表示亦可指示傳輸體素(例如，空氣體素)，即，其中聲音可傳播之體素(聲音傳播介質之一表示)。因此，音訊場景之基於體素之表示之一些實施方案可包含針對一預定空間區段中之各體素(例如，在圍封音訊場景之邊界內)及一各自材料性質之指示。

然而，用於使用體素來提供VR、AR、MR及XR環境中之使用者體驗(包含涉及移動之使用者體驗)之真實聲音之既有習知方法具挑戰性且運算複雜。估計ER軌跡針對此等使用情況特別受關注。針對VR使用情況，ER方向之心理聲學相關度高於ER音訊信號位凖，因為VR使用者可看見反射表面以好於估計其反射性質(因為，例如，反射性質應給出反射能量或音訊信號位凖之一估計)。

在用於估計ER軌跡之習知方法(例如，IS方法)中，必須知道(且清楚界定)用於判定反射之邊界。因為一單一體素不提供關於反射表面邊界定向之足夠資訊，所以本發明之一方法依賴一啟發式方法來估計ER軌跡以產生具有足夠準確度或足夠信度之感知第一階ER聲音效應。

根據本發明之啟發式方法係基於藉由基於音訊源及聽者之位置及基於體素之幾何表示執行若干低複雜度步驟來找到足以產生感知第一階ER聲音效應之音訊源與聽者之間的幾何有效反射軌跡。

圖4描繪啟發式方法之一般理念。知道一音訊源101之一位置及一聽者102之一位置。接著，應在不考量一反射表面之資訊之情況下基於多個體素來估計透過一碰撞體素104自音訊源101至聽者102之有效反射軌跡，即，啟發式方法基於逐體素及表示體素位置之柵格索引來工作。

現將針對圖7至圖11中所描繪之一具體音訊場景實例詳細解釋啟發式方法。然而，本發明不應被視為受限於此具體實例。此外，儘管實例僅與一2D情況相關或展示一2D投射，但應理解，根據本發明之方法一般可應用於3D音訊場景。圖7描繪具有遮蔽區體素(105 帶點)、非遮蔽體素(無點)、音訊源101及聽者102之一實例性2D音訊場景。音訊源101及聽者102之位置分別由S及L標記。實例在2D中僅用於說明。擴展至一3D環境之演算法係簡單的。

音訊場景之基於體素之表示、關於聽者位置及音訊源101位置之資訊係ER軌跡估計方法之一輸入。換言之，可接收音訊場景之基於體素之表示、關於聽者位置及音訊源位置之資訊。替代地，可在ER軌跡估計方法中判定音訊場景之基於體素之表示、關於聽者位置及音訊源位置之資訊。

為找到音訊源101與聽者102之間的反射軌跡，將一射線方向圖案應用於音訊場景中之點103。在圖7之實例中，描繪連接音訊源101及聽者102之線上之5個等距間隔點。然而，所描繪實例不應被解釋為限制點之定位及數目。可針對方法採用不同數目個點及此等點之不同位置。可提前判定射線方向圖案。此外，射線方向圖案可界定預定數目個射線及射線自一原點之預定(對應)方向。圖5A至圖5D中描繪實例性射線方向圖案。因此，射線之預定數目可為(例如) 6 (圖5A)、8 (圖5C)或12 (圖5B)或其等之一組合(圖5D)，且射線之預定方向可包括自體素柵格中之一射線原點(l,m,i)之方向。音訊場景中之射線原點可為點103。方向可為相對於射線原點之以下方向之任何組合：相對於相鄰柵格索引之水平及垂直方向；及相對於相鄰柵格索引之對角線方向。相對方向可表示為：(+1,0,0)、(-1,0,0)、(0,+1,0)、(0,-1,0)、(0,0,+1)、(-0,0,-1)；(+1,+1,0)、(+1,-1,0)、(-1,+1,0)、(-1,-1,0)、(+1,0,+1)、(+1,0,-1)、(-1,0,+1)、(-1,0,-1)、(0,+1,+1)、(0,+1,-1)、(0,-1,+1)、(0,-1,-1)；及 (+1,+1,+1)、(+1,+1,-1)、(+1,-1,+1)、(+1,-1,-1)、(-1,+1,+1)、(-1,+1,-1)、(-1,-1,+1)、(-1,-1,-1)。

判定射線方向圖案可理解為選擇預定射線圖案之一者。判定射線方向圖案可基於音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。場景類型可包括(例如)一室內場景及一室外場景。

在下一步驟中，需要界定(例如，判定或計算)用於將射線方向圖案應用於各自點103之點座標。可判定點之數目(例如，計數、基數)。一或多個點之數目可取決於音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。場景類型可包括(例如)一室內場景及一室外場景。替代地，點之數目可為固定的。在一些實施方案中，點之數目可替代地或另外取決於選定射線方向圖案。

此外，已發現，將點定位於音訊源101與聽者102之間的一線上提高ER軌跡估計之品質及效率。為此，可基於一或多個點之數目來判定點103 (點103之位置)。另外，可基於連接音訊源位置及聽者位置(例如，待配置於該線上)之線來判定點之位置。更特定言之，一或多個點103可經判定使得將連接音訊源位置及聽者位置之線分割成(例如) N-1個相等分段。在此，N係一或多個點之數目且在此情況中可大於或等於2。

值得一提的是，針對點之數目選為1，單一點可對應於音訊源位置。針對點之數目選為2，兩個點可分別對應於音訊源位置及聽者位置。

圖8描繪其中將具有8個射線之一射線方向圖案應用於定位於音訊源101之位置處之一點103之一實例。射線描繪為虛線。

在下一步驟中，基於複數個射線及音訊場景之基於體素之表示來判定一組碰撞體素。特定言之，可藉由搜尋射線與音訊場景中之任何遮蔽區體素105 (帶點)之間的相交處來判定該組碰撞體素。遮蔽區體素105可表示一聲反射表面。換言之，遮蔽區體素105可表示音訊場景之基於體素之表示中除空氣或除聲音傳播介質之外的任何材料。接著，可將各自射線之含有最靠近原點之一相交處之一遮蔽區體素105判定為一碰撞體素104。換言之，一碰撞體素104可界定為由各自射線最先命中之遮蔽區體素。此步驟確保僅選擇可表示一反射表面之遮蔽區體素。在圖8中，在音訊源位置處起源之射線之所有碰撞體素104由在射線之端處之一項目符號標記。值得一提的是，在此實例中，下右射線不具有與任何遮蔽區體素之相交處且因此不在圖8中描繪且不在演算法中進一步考量。

在下一步驟中，可判定碰撞體素104是否可產生一第一階反射之一幾何有效表示。在圖6A中，描述其中碰撞體素可產生一第一階反射之一幾何有效表示之一案例。針對碰撞體素104，可判定一先行體素107。先行體素107可為沿各自射線之方向在碰撞體素104前面之一體素。針對先行體素107，可判定經由先行體素107連接音訊源位置及聽者位置之一路徑。若路徑不含有與一遮蔽區體素之一相交處(即，通過一視線或可見性檢查)，則將碰撞體素104判定為可產生一第一階反射之一幾何有效表示之一碰撞體素。在圖6A之情況中，路徑不含有與一遮蔽區體素之一相交處。圖6B中描繪無法產生一第一階反射之一幾何有效表示之一碰撞體素104之一案例。在此實例中，先行體素及聽者位置之線連接在碰撞體素104之右側與遮蔽區體素相交。可捨棄無法產生一第一階反射之一幾何有效表示之碰撞體素104。

在下一步驟中，針對一射線及起源點103所判定之各碰撞體素104，可判定經由各自碰撞體素104連接音訊源101及聽者102之一路徑。路徑可包括將音訊源位置連接至碰撞體素104之一直線及將相同碰撞體素104連接至聽者位置之一直線。替代地，一路徑可包括將音訊源位置連接至先行體素107之一直線及將先行體素107連接至聽者位置之一直線或自上文提及之兩個可能路徑導出之一路徑。

圖9展示具有音訊源101與聽者102之間的經判定路徑之圖8中所描繪之實例。

在可選用之一最終步驟中，判定自音訊源101至聽者102之路徑是否幾何有效。此步驟可與可產生一第一階反射之一幾何有效表示之碰撞體素104之先前選擇組合。接著，在以下幾何效度測試中可僅考量與可產生一第一階反射之一幾何有效表示之一碰撞體素相關之路徑。替代地，以下幾何效度測試可考量與所有碰撞體素104相關之路徑。因為在先前步驟中判定之路徑可僅由音訊源101、碰撞體素104及聽者102之間的直線界定，所以線可橫穿(例如，相交或擦過)除碰撞體素104之外的遮蔽區體素。實際上，就其不容許聲音傳播而言，此一反射軌跡不可行。因此，可判定包括橫穿除各自碰撞體素104之外的遮蔽區體素之線之路徑幾何無效。為找到與除各自碰撞體素104之外的遮蔽區體素之相交處，可將一線柵格相交演算法應用於連接音訊源101、碰撞體素104及聽者102之線。作為一實例，可使用用於射線追蹤之快速橫穿演算法(參考Amanatides，J.及A.Woo之用於射線追蹤之一快速體素橫穿演算法，歐洲製圖學會學報，1987.87.)。

圖10將經判定幾何有效路徑描繪為一實線。值得一提的是，在此實例中，僅將先前找到之7個路徑之一個路徑判定為幾何有效。

如先前陳述，針對音訊源101與聽者102之間的線上之各點103重複程序。

圖11描繪N=7個點103且每點103 8個射線之實例之演算法之最終結果。僅將來自7*8=56條可能路徑之11者判定為幾何有效。接著可將此等路徑視為ER軌跡106。

圖12a)至圖12d)展示具有不同聽者位置及之先前音訊場景之演算法之結果。

可視情況輸出所得ER軌跡106用於進一步處理，諸如(例如)呈現音訊場景。替代地，經判定ER軌跡106可經進一步分析以改良音訊場景呈現。

例如，可自ER軌跡106選擇一組(一或多個)最聲相關之ER軌跡。選擇可基於ER軌跡106之長度及/或ER軌跡106之碰撞體素104之反射係數。反射係數可取決於由各自碰撞體素104模型化之一材料。例如，可捨棄具有非常大路徑長度(例如，大於一特定臨限值或大於音訊源與聽者之間的連接線之長度之一特定分率或倍數)之ER軌跡。替代地或另外，可捨棄具有小反射係數(例如，小於一特定臨限值)之ER軌跡。

替代地或另外，可捨棄具有指示碰撞體素104處之一大內角之一值之ER軌跡106。一大角度可界定為接近180º之一內角，例如，180º-ε，其中ε係一小角度。替代地，此內文中之一大角度可為大於160º之一內角。指示內角之值可為內角本身或ER軌跡106之一長度(應注意，大內角暗示一相對較短路徑長度，而一小內角暗示一相對較長路徑長度)。圖13描繪具有接近180º之一內角之一幾何有效ER軌跡106之一實例。因此，路徑之長度非常接近音訊源101與聽者102之間的直接路徑。因此，ER將由自音訊源101接收之直接聲音(即，無反射之聲音)掩蓋。因此，可判定ER心理聲學無效/無關。因此，可捨棄此一ER。

在另一實例中，可平均化(例如，空間平均化)兩個或更多個經判定ER軌跡。為此，可判定兩個或更多個ER軌跡之各自影像源，且可空間平均化經判定影像源以獲得一平均化影像源。此外，可判定(例如，基於反射係數及/或路徑長度)影像源之相關聯增益，且可藉由平均化個別增益來獲得平均化影像源之一增益。

藉由上文所揭示之方法，可依一高效方式獲取ER方向，同時仍實現聲音呈現期間之ER效應之一準確(例如，可信或至少真實)表示。

上文所揭示之方法可基於逐訊框用於一三維音訊場景之音訊處理。替代地，在此可使用除訊框之外的時間細分(時間單位)。所提出方法與所考量之時間單位之類型無關。

可基於根據上文所揭示方法之方法來估計一給定訊框之反射軌跡。可儲存經估計早期反射軌跡及聽者位置及音訊源位置之座標。經估計早期反射軌跡亦可包括音訊影像源之各自增益。一般而言，經估計早期反射軌跡可與一影像源位置之一指示及/或一影像源增益之一指示相關。替代地，可存取一先前訊框之經估計早期反射軌跡。特定言之，可存取所儲存之先前訊框之音訊影像源之座標及增益。亦可基於上文所揭示之方法來估計一先前訊框之經估計早期反射軌跡。可僅在含有聽者位置之一體素、含有音訊源位置之一體素及三維音訊場景之基於體素之表示之一幾何形狀不在訊框與先前訊框之間改變時存取一先前訊框之經估計早期反射軌跡。含有聽者位置之體素可由聽者頭部位置體素索引表示。含有音訊源位置之體素可由音訊點源位置體素索引表示。三維音訊場景之基於體素之表示之幾何形狀可由一3D體素矩陣(例如，與反射係數相關聯)表示。鑑於上文，提供用於估計ER軌跡之一方法200，如圖14之流程圖中所描繪。方法可在一AR/VR/MR/XR環境中之一解碼器或呈現器或解碼器及呈現器兩者中實施。解碼器及/或呈現器可在網路/雲端或一處理器件(諸如一行動器件及一AR/VR/MR/XR谷歌/鏡頭)中實施或分布於網路/雲端及一處理器件兩者中。除以下方法步驟之外，方法200亦可視情況包含上文相對於結合圖7及圖13所討論之上述ER估計演算法所描述之所有變動。

在步驟S201中，獲得三維音訊場景之一基於體素之表示、關於一聽者102在三維音訊場景中之一聽者位置之資訊及關於音訊源101在三維音訊場景中之一音訊源位置之資訊。可各接收及/或預定(即，先前計算、儲存且接著自記憶體讀取)基於體素之表示、關於聽者位置之資訊及關於音訊源位置之資訊。

在步驟S202中，將一射線方向圖案應用於音訊源位置與聽者位置之間的一連接線上之一或多個點103以獲得針對一或多個點103之各者之在(若干)各自點103處起源之複數個射線。可接收及/或預定射線方向圖案。替代地，可在所提出方法之背景中判定射線方向圖案。判定射線方向圖案可被理解為(例如)選擇一組預定射線圖案之一者。判定射線方向圖案可基於音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。場景類型可包括(例如)一室內場景及/或一室外場景。在一些實施例中，一場景類型可為完全室內、完全室外或室內及室外兩者之一組合。

在步驟S203中，基於在步驟S202中判定之複數個射線及三維音訊場景之基於體素之表示來判定一組碰撞體素。該組碰撞體素可根據結合圖15所描述之方法來判定。

在步驟S204中，基於該組碰撞體素、聽者位置、音訊源位置及一幾何效度測試來判定早期反射軌跡。可根據結合圖16及/或圖17所描述之方法來判定早期反射軌跡。

在選用步驟S205中，自ER軌跡106選擇一組最聲相關之早期反射軌跡。此選擇可暗示捨棄ER軌跡106之至少一者。

在選用步驟S206中，輸出ER軌跡106用於呈現三維音訊場景。ER軌跡106可為步驟S205或步驟S206之ER軌跡。

圖15展示用於判定碰撞體素組之一方法300。方法300可實施(例如)步驟S203。

在步驟S301中，判定複數個射線之各射線與遮蔽區體素105之間的一或多個相交處。

在步驟S302中，針對各射線，將含有最靠近各自射線之原點之一相交處之一遮蔽區體素105判定為一碰撞體素104。依此方式判定之碰撞體素104形成碰撞體素組。

圖16展示用於判定早期反射軌跡之一方法400。方法400可實施(例如)步驟S204。

在步驟S401中，針對碰撞體素組中之各碰撞體素，判定碰撞體素是否可產生一第一階反射之一幾何有效表示。

在步驟S402中，若碰撞體素可產生一第一階反射之一幾何有效表示，則可將經由各自碰撞體素連接聽者位置及音訊源位置之一路徑判定為一早期反射軌跡。

圖17展示用於判定一早期反射軌跡之一方法500。方法500可實施(例如)步驟S204。

在步驟S501中，針對碰撞體素組中之各碰撞體素，判定經由各自碰撞體素104連接聽者位置及音訊源位置之一路徑。路徑可包括上文所描述之兩個直線分段。換言之，音訊源101及聽者102可藉由直線經由一碰撞體素104連接。

在步驟S502中，針對在步驟S501中判定之各路徑，若路徑幾何有效，則將各自路徑判定為一ER軌跡106。若一路徑不由除各自碰撞體素之外的遮蔽區體素阻礙，則可將該路徑判斷為幾何有效。

儘管上文已描述估計ER軌跡之一方法，但本發明同樣係關於對應裝置及其類似者。接下來將參考圖18來描述提供此裝置之一實施例。

如圖18中所展示，裝置400包含一處理器401及記憶體402。記憶體402經組態以儲存程式碼。處理器401經組態以運行程式碼中之指令，使得裝置400執行上述實施例及實施方案之任何者中之ER軌跡估計方法。處理器401亦可取決於使用情況及/或實施方案而接收(及其他)適合輸入資料(例如，體素柵格、體素資料、音訊源及聽者位置等等)。處理器401可經調適以取決於使用情況及/或實施方案而實施本發明中所描述之方法/技術(例如，上文分別參考圖14至圖17所繪示方法200、300、400及500)且產生對應輸出資料(例如，ER軌跡等等)。裝置可為一虛擬實境(VR)、擴增實境(AR)、混合實境(MR)及/或擴展實境(XR)器件之部分。此外，裝置可與(例如)一VR/AR/MR/XR環境之背景中一解碼器器件(解碼器側器件)或呈現器件相關。

本文中所描述之系統之態樣可在一適當基於電腦之聲音處理網路環境中實施用於處理數位或數位化音訊檔案。自適應音訊系統之部分可包含一或多個網路，其包括任何期望數目個個別機器，包含用於緩衝及路由在電腦之間傳輸之資料之一或多個路由器(未展示)。此一網路可根據各種不同網路協定來建立且可為網際網路、一廣域網路(WAN)、一區域網路(LAN)或其等之任何組合。

組件、區塊、程序或其他功能組件之一或多者可透過控制系統之一基於處理器之運算器件之執行之一電腦程式來實施。應注意，本文中所揭示之各種功能就其行為、暫存器資源、邏輯組件及/或其他特性而言可使用硬體、韌體之任何數目個組合及/或作為在各種機器可讀或電腦可讀媒體中體現之資料及/或指令來描述。其中可體現此等經格式化資料及/或指令之電腦可讀媒體包含(但不限於)依各種形式之實體(非暫時性)、非揮發性儲存媒體，諸如光學、磁性或半導體儲存媒體。

儘管已舉實例而言且鑑於具體實施例來描述一或多個實施方案，但應理解，一或多個實施方案不限於所揭示之實施例。相反地，熟習技術者應明白，意欲涵蓋各種修改及類似配置。因此，隨附申請專利範圍之範疇應被賦予最廣解譯以涵蓋所有此等修改及類似配置。解譯

實施上文所描述之技術之一運算器件可具有以下實例性架構。其他架構係可行的，包含具有更多或更少組件之架構。在一些實施方案中，實例性架構包含一或多個處理器(例如，雙核因特爾(Intel)®至強(Xeon)®處理器)、一或多個輸出器件(例如，LCD)、一或多個網路介面、一或多個輸入器件(例如，滑鼠、鍵盤、觸敏顯示器)及一或多個電腦可讀媒體(例如，RAM、ROM、SDRAM、硬碟、光碟、快閃記憶體等等)。此等組件可透過一或多個通信通道(例如，匯流排)(其可利用各種硬體及軟體來促進轉移資料且控制組件之間的信號)交換通信及資料。

術語「電腦可讀媒體」係指參與將指令提供至處理器用於執行之一媒體，包含(但不限於)非揮發性媒體(例如，光或磁碟)、揮發性媒體(例如，記憶體)及傳輸媒體。傳輸媒體包含(但不限於)同軸纜線、銅線及光纖。

電腦可讀媒體可進一步包含作業系統(例如，一Linux®作業系統)、網路通信模組、音訊介面管理器、音訊處理管理器及現場內容分配器。作業系統可為多使用者、多處理、多任務、多線程、即時等等。作業系統執行基本任務，包含(但不限於)：辨識來自網路介面及/或器件之輸入且將輸出提供至網路介面及/或器件；保持追蹤及管理電腦可讀媒體(例如，記憶體或一儲存器件)上之檔案及目錄；控制周邊器件；及管理一或多個通信通道上之流量。網路通信模組包含用於建立及維持網路連接之各種組件(例如，用於實施通信協定(諸如TCP/IP、HTTP等等)之軟體)。

架構可在一並行處理或點對點基礎設施中或在具有一或多個處理器之一單一器件上實施。軟體可包含多個軟體組件或可為一單一碼體。

所描述之特徵可有利地實施於可在一可程式化系統上執行之一或多個電腦程式中，可程式化系統包含經耦合以自一資料存儲系統接收資料及指令且將資料及指令傳輸至一資料儲存系統之至少一個可程式化處理器、至少一個輸入器件及至少一個輸出器件。一電腦程式係可直接或間接用於一電腦中以執行一特定活動或導致一特定結果之一組指令。一電腦程式可依包含編譯或解譯語言之程式設計語言之任何形式(例如Objective-C、Java)寫入，且其可依任何形式部署，包含作為一獨立程式或作為一模組、組件、子常式、一基於瀏覽器之網路應用或適合用於一運算環境中之其他單元。

適合於執行指令之一程式之處理器包含(舉實例而言)通用及專用兩種微處理器及任何種類之電腦之唯一處理器或多個處理器或核心之一者。一般而言，一處理器將自一唯讀記憶體或一隨機存取記憶體或兩者接收指令及資料。一電腦之基本元件係用於執行指令之一處理器及用於儲存指令及資料之一或多個記憶體。一般而言，一電腦亦將包含用於儲存資料檔案之一或多個大容量儲存器件或經操作性耦合以與該一或多個大容量儲存器件通信；此等器件包含磁碟(諸如內部硬碟及可抽換磁碟)、磁光碟及光碟。適合於有形體現電腦程式指令及資料之儲存器件包含所有形式之非揮發性記憶體，包含(舉實例而言)：半導體記憶體器件，諸如EPROM、EEPROM及快閃記憶體器件；磁碟，諸如內部硬碟及可抽換磁碟；磁光碟；及CD-ROM及DVD-ROM磁碟。處理器及記憶體可由ASIC (專用積體電路)補充或併入於ASIC中。

為提供與一使用者之互動，特徵可實施於具有一顯示器件(諸如一CRT (陰極射線管)或LCD (液晶顯示器)監視器或用於向使用者顯示資訊之一視網膜顯示器件)之一電腦上。電腦可具有使用者可藉由其將輸入提供至電腦之一觸控表面輸入器件(例如，一觸控螢幕)或一鍵盤及一指標器件，諸如一滑鼠或一軌跡球。電腦可具有用於接收來自使用者之語音命令之一語音輸入器件。

特徵可實施於一電腦系統中，電腦系統包含一後端組件(諸如資料伺服器)或包含一中間體組件(諸如一應用程式伺服器或一網際網路伺服器)或包含一前端組件(諸如具有一圖形使用者介面之一用戶端電腦或一網際網路瀏覽器)或其等之任何組合。系統之組件可藉由數位資料通信之任何形式或媒體(諸如一通信網路)來連接。通信網路之實例包含(例如)一LAN、一WAN及形成網際網路之電腦及網路。

運算系統可包含用戶端及伺服器。一用戶端及伺服器一般彼此遠離且通常透過一通信網路來互動。用戶端及伺服器之關係藉由運行於各自電腦上且彼此具有一用戶端伺服器關係之電腦程式引起。在一些實施例中，一伺服器將資料(例如，一HTML頁面)傳輸至一用戶端器件(例如，用於向與用戶端器件互動之一使用者顯示資料及自該使用者接收使用者輸入)。在用戶端器件處產生之資料(例如，使用者互動之一結果)可在伺服器處自用戶端器件接收。

一或多個電腦之一系統可經組態以藉由在系統上安裝有在操作中引起系統執行動作之軟體、韌體、硬體或其等之一組合來執行特定動作。一或多個電腦程式可經組態以藉由包含在由資料處理裝置執行時引起裝置執行動作之指令來執行特定動作。

儘管本說明書含有諸多具體實施細節，但此等不應被解釋為限制任何發明或可主張內容之範疇，而是作為專針對特定發明之特定實施例之特徵之描述。本說明書之分離實施例之內文中所描述之特定特徵亦可與一單一實施例組合地實施。相反地，一單一實施例之內文中所描述之各種特徵亦可分離地或依任何適合子組合在多個實施例中實施。此外，儘管特徵可在上文描述為依特定組合動作且甚至最初如此主張，但來自一所主張組合之一或多個特徵在一些情況中可自組合刪除且所主張組合可針對一子組合或一子組合之變動。

類似地，儘管在圖式中依一特定順序描繪操作，但此不應被理解為需要依所展示之特定順序或依循序順序執行此等操作或執行所有所繪示操作以達成期望結果。在特定情境中，多任務及並行處理可為有利的。此外，上文所描述之實施例中之各種系統組件之分離不應被理解為在所有實施例中需要此分離，而是應理解，所描述程式組件及系統一般可一起整合於一單一軟體產品中或封裝至多個軟體產品中。

如自以下討論明白，除非另有具體說明，否則應瞭解，在本發明討論中利用諸如「處理」、「運算」、「計算」、「判定」、「分析」或其類似者之術語係指一電腦或運算系統或類似電子運算器件之動作及/或程序將表示為實體(諸如電子)數量之資料操縱及/或變換成類似地表示為實體數量之其他資料。

在本發明中參考「一個實例性實施例」、「一些實例性實施例」或「一實例性實施例」意謂結合實例性實施例所描述之一特定特徵、結構或特性包含於本發明之至少一個實例性實施例中。因此，在本發明之各種位置中出現片語「在一個實例性實施例中」、「在一些實例性實施例中」未必全部參考相同實例性實施例。此外，一般技術者應自本發明明白，可在一或多個實例性實施例中依任何適合方式組合特定特徵、結構或特性。

如本文中所使用，除非另有說明，否則使用序數形容詞「第一」、「第二」、「第三」等等來描述一共同物體僅指示參考相同物體之不同例項且不意欲暗示如此描述之物體必須時間、空間、排序或依任何其他方式呈一給定序列。

此外，應理解，本文中所使用之片語及術語用於描述且不應被視為限制。使用「包含」、「包括」或「具有」及其變型意謂涵蓋其後所列之項目及其等效物及額外項目。除非另有說明或限制，否則術語「安裝」、「連接」、「支援」及「耦合」及其變型廣義使用且涵蓋直接及間接兩種安裝、連接、支援及耦合。

在以下申請專利範圍及本文中描述中，術語「包括」、「包括…」或「其包括」之任何者係意謂至少包含後接元件/特徵但不排除其他之一開放術語。因此，術語「包括」在用於申請專利範圍中時不應被解譯為限制其後所列之構件或元件或步驟。例如，一器件包括A及B之表示範疇不應限於器件僅由元件A及B組成。本文中所使用之術語「包含」或「其包含」之任何者亦係一開放術語，其亦意謂至少包含術語後面之元件/特徵但不排除其他。因此，包含與包括同義且意謂包括。

應瞭解，在本發明之實例性實施例之以上描述中，本發明之各種特徵有時一起分組於一單一實例性實施例、圖或其描述中以精簡本發明及輔助理解各種發明態樣之一或多者。然而，本發明之此方法不被解譯為反映申請專利範圍需要比各請求項中所明確列舉之特徵更多之特徵之一意圖。確切言之，如以下申請專利範圍所反映，發明態樣不在於一單一前文揭示實例性實施例之所有特徵。因此，[實施方式]後面之申請專利範圍在此明確併入至此[實施方式]中，其中各請求項獨立作為本發明之一分離實例性實施例。

此外，熟習技術者應理解，儘管本文中所描述之一些實例性實施例包含其他實例性實施例中包含之一些而非其他特徵，但不同實例性實施例之特徵之組合意謂在本發明之範疇內且形成不同實例性實施例。例如，在以下申請專利範圍中，所主張實例性實施例之任何者可依任何組合使用。

在本文中所提供之描述中闡述諸多具體細節。然而，應理解，可在無此等具體細節之情況下實踐本發明之實例性實施例。在其他例項中，未詳細展示熟知方法、結構及技術以免使此描述之一理解不清楚。

因此，儘管已描述應被視為本發明之最佳模式之內容，但熟習技術者應認識到，可在不背離本發明之精神之情況下對其作出其他及進一步修改且意欲主張落於本發明之範疇內之所有此等改變及修改。例如，上文所給出之任何公式僅表示可使用之程序。功能可自方塊圖添加或刪除且操作可在功能方塊之間互換。可對本發明之範疇內所描述之方法添加或刪除步驟。

亦可自並非申請專利範圍之以下所列舉之實例性實施例(EEE)瞭解本發明之各種態樣及實施方案。

EEE 1. 一種估計一三維音訊場景中之一音訊源之早期反射軌跡之方法，該方法包括：獲得該三維音訊場景之一基於體素之表示、關於該三維音訊場景中之一聽者之一聽者位置之資訊及關於該三維音訊場景中之該音訊源之一音訊源位置之資訊；將一射線方向圖案應用於該音訊源位置與該聽者位置之間的一連接線上之一或多個點以針對該一或多個點之各者獲得在該各自點處起源之複數個射線；基於該複數個射線及該三維音訊場景之該基於體素之表示來判定一組碰撞體素；基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡。 EEE1A. 一種估計一三維音訊場景中之一音訊源之早期反射軌跡之方法，該方法包括：獲得該三維音訊場景之一基於體素之表示、關於該三維音訊場景中之一聽者之一聽者位置之資訊及關於該三維音訊場景中之該音訊源之一音訊源位置之資訊；將一射線方向圖案應用於該音訊源位置與該聽者位置之間的一連接線上之一或多個點以針對該一或多個點之各者獲得在該各自點處起源之複數個射線；基於該複數個射線及該三維音訊場景之該基於體素之表示來判定一組碰撞體素；針對該組碰撞體素中之各碰撞體素，判定經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑；及針對各路徑，若該路徑幾何有效，則將該路徑判定為一早期反射軌跡。 EEE 2. 如EEE 1或EEE 1A之方法，其進一步包括：判定該射線方向圖案。 EEE 3. 如EEE1、1A或2之方法，其進一步包括：基於該一或多個點之一獲得基數來判定該一或多個點。 EEE 4. 如EEE 1至3或1A中任一項之方法，其中該射線方向圖案界定射線之一預定數目及射線自一原點之預定方向。 EEE 5. 如EEE 4之方法，其中射線之該預定數目係6、8或12。 EEE 6. 如EEE 5之方法，其中三維音訊柵格中之一體素位置由柵格索引界定且射線之該等預定方向包括以下之一或多者：一柵格索引相對於相鄰柵格索引之水平及垂直方向；及該柵格索引相對於該等相鄰柵格索引之對角線方向。 EEE 7. 如EEE 2之方法，其中判定該射線方向圖案係基於該三維音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。 EEE 8. 如EEE 3之方法，其中基於該一或多個點之該基數來判定連接該音訊源位置及該聽者位置之該線上之該一或多個點之座標。 EEE 9. 如EEE 8之方法，其中該一或多個點經判定以將連接該音訊源位置及該聽者位置之該線分割成N-1個相等分段，其中N係該一或多個點之該基數且大於或等於2。 EEE 10. 如EEE 3之方法，其中該一或多個點之該基數取決於該三維音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。 EEE 11. 如EEE 7或10之方法，其中該場景類型包括一室內場景及一室外場景。 EEE 12. 如EEE 1至11中任一項之方法，其中該組碰撞體素中之各碰撞體素係該三維音訊場景之該基於體素之表示中之一遮蔽區體素。 EEE 13. 如EEE 12之方法，其中該遮蔽區體素表示一聲反射表面。 EEE 14. 如EEE 12之方法，其中該遮蔽區體素表示該三維音訊場景之該基於體素之表示中除空氣之外的任何材料。 EEE 15. 如EEE 12至14中任一項之方法，其中基於該複數個射線及該三維音訊場景之該基於體素之表示來判定該組碰撞體素包括：判定該複數個射線之各射線與該等遮蔽區體素之間的一或多個相交處；及針對各射線，將含有最靠近該各自射線之該原點之一相交處之一遮蔽區體素判定為該組碰撞體素中之一碰撞體素。 EEE 16. 如EEE 1至15中任一項之方法，其中基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡包括：針對該組碰撞體素中之各碰撞體素判定該碰撞體素是否可產生一第一階反射之一幾何有效表示；及若該碰撞體素可產生一第一階反射之一幾何有效表示，則可將經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑判定為一早期反射軌跡。 EEE 17. 如EEE 16之方法，其中判定該碰撞體素是否可產生一第一階反射之一幾何有效表示包括：判定該碰撞體素之一先行體素，其中該先行體素係沿該各自射線之方向在該碰撞體素前面含有與該各自射線之一相交處之一體素；判定經由該各自先行體素連接該聽者位置及該音訊源位置之一第二路徑；及若該第二路徑不含有與一遮蔽區體素之一相交處，則判定該碰撞體素可產生一第一階反射之一幾何有效表示。 EEE 18. 如EEE 1至17中任一項之方法，其中基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定早期反射軌跡包括：針對該組碰撞體素中之各碰撞體素，判定經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑；及針對各路徑，若該路徑幾何有效，則將該路徑判定為一早期反射軌跡。 EEE 19. 如EEE 16或EEE 18之方法，其中該路徑包括將該音訊源位置連接至該組碰撞體素中之一碰撞體素之一直線及將該組碰撞體素中之該相同碰撞體素連接至該聽者位置之一直線。 EEE 20. 如EEE 18之方法，其中若該路徑不含有與除該各自路徑之該碰撞體素之外的一遮蔽區體素之一相交處，則將該路徑判定為幾何有效。 EEE 21. 如EEE 1至20中任一項之方法，其進一步包括：自該等早期反射軌跡選擇一組最聲相關早期反射軌跡。 EEE 22. 如EEE 21之方法，其中選擇該組最聲相關早期反射軌跡係基於該等早期反射軌跡之長度及/或該等早期反射軌跡之該碰撞體素之反射係數。 EEE 23. 如EEE 22之方法，其中該反射係數取決於由該碰撞體素模型化之一材料。 EEE 24. 如EEE 21至23中任一項之方法，其中選擇該組最聲相關早期反射軌跡包括捨棄具有指示該碰撞體素處大於160º之一內角之一值之早期反射軌跡。 EEE 25. 如EEE 24之方法，其中指示大於160º之一內角之該值係該早期反射軌跡之該內角或一長度。 EEE 26. 如EEE 1至25中任一項之方法，其進一步包括：輸出該等早期反射軌跡用於呈現該三維音訊場景。 EEE 27. 如EEE 26之方法，其中該呈現藉由一虛擬實境(VR)、擴增實境(AR)、混合實境(MR)及/或擴展實境(XR)器件來執行。 EEE 28. 如EEE 1至27中任一項之方法，其中該等早期反射軌跡表示第一階軌跡。 EEE 29. 如EEE 28之方法，其中該等第一階軌跡係具有該音訊源位置與該聽者位置之間的一單一反射之反射軌跡。 EEE 30. 如EEE 1至29中任一項之方法，其中該方法藉由一解碼器或呈現器來執行。 EEE 31. 一種處理一三維音訊場景之一訊框之方法，該方法包括：基於如請求項1至30中任一項之方法來估計該訊框之早期反射軌跡且儲存該經估計早期反射軌跡；或若以下，則存取基於如請求項1至30中任一項之方法所估計之一先前訊框之經估計早期反射軌跡：含有該聽者位置之一體素、含有該音訊源位置之一體素及該三維音訊場景之該基於體素之表示之一幾何形狀不在該訊框與該先前訊框之間改變。 EEE 32. 一種裝置，其包括一處理器及經耦合至該處理器之一記憶體，其中該處理器經調適以實施根據EEE 1至31中任一項之方法。 EEE 33. 一種包括指令之程式，該等指令在由一處理器執行時引起該處理器實施根據EEE 1至31中任一項之方法。 EEE 34. 一種電腦可讀儲存媒體，其儲存根據EEE 33之程式。 EEE 35. 一種用於產生經幾何連接之音訊源之軌跡用於在體素3D柵格上高效實施之音訊處理方法，該方法包括：接收與一射線方向圖案「R」相關之資訊；判定基於該射線方向圖案「R」來施加射線投射之一第一組點「P」；判定基於該第一組點及反射體素「VOX」之一第二組射線體素「碰撞」體素「C」；判定基於該第二組射線體素「碰撞」體素「C」之一第三組有效反射軌跡「S-C-L」；及自該第三組有效反射軌跡選擇及輸出最聲相關有效反射軌跡之一子組。 EEE 36. 如EEE 35之方法，其中基於對一第一組點「P」施加之一射線方向圖案「R」及該等反射體素「VOX」來判定該第二組射線體素「碰撞」體素「C」。 EEE 37. 如EEE 35之方法，其中該等反射軌跡「S-C-L」表示第一階軌跡。 EEE 38. 如EEE 35之方法，其進一步包括檢查連接一聽者及一碰撞體素之一第一線L-C及連接一音訊源及碰撞體素之一第二線「S-C」是否與任何阻擋/遮蔽/反射體素相交，且基於不存在相交之判定來判定此係一第一階反射之一有效近似表示。 EEE 39. 一種包括指令之非暫時性電腦程式，該等指令在由一處理器執行時引起該處理器實施根據EEE 35至38中任一項之方法。 EEE 40. 一種裝置，其經組態以執行如EEE 35至38中任一項之方法。

101:聲源/原始源/音訊源 102:聽者 103:點 104:碰撞體素 105:遮蔽區體素 106:早期反射(ER)軌跡 107:先行體素 200:方法 300:方法 400:方法/裝置 401:處理器 402:記憶體 C:碰撞體素 L:聽者之位置 P:點 S:音訊源之位置 S201:步驟/獲得 S202:步驟/應用 S203:步驟/判定 S204:步驟/判定 S205:步驟 S206:步驟 S301:步驟 S302:步驟 S401:步驟/判定 S402:步驟/判定 S501:步驟/判定 S502:步驟/判定

下文將參考附圖解釋本發明之實例性實施例，其中圖1係展示一室之一回音圖之一實例的一圖式，圖2示意性繪示使用IS方法來判定ER之一實例，圖3示意性繪示一體素柵格、一音訊源及相關聯反射邊界，圖4示意性繪示針對反射軌跡估計所考量之一體素柵格、一音訊源、一聽者及一單一碰撞體素，圖5A至圖5D示意性繪示根據本發明之實施例之射線方向圖案之實例，圖6A至圖6B示意性繪示根據本發明之實施例判定一碰撞體素是否可產生一第一階反射之一幾何有效表示之實例，圖7示意性繪示根據本發明之實施例之具有遮蔽體素(帶點)、非遮蔽體素(無點)、一音訊源及一聽者之一實例性2D音訊場景，圖8示意性繪示根據本發明之實施例之圖7之實例性2D音訊場景及應用於音訊源位置及由射線命中之碰撞體素之一射線方向圖案，圖9示意性繪示根據本發明之實施例之圖8之實例性2D音訊場景及經由碰撞體素將音訊源連接至聽者之線，圖10示意性繪示根據本發明之實施例之圖9之實例性2D音訊場景及一幾何有效ER軌跡，圖11示意性繪示根據本發明之實施例之圖7之實例性2D音訊場景及所有幾何有效ER軌跡，圖12a)至圖12d)示意性繪示根據本發明之實施例之具有不同聽者位置之圖7之實例性2D音訊場景及所有相關聯幾何有效ER軌跡，圖13示意性繪示根據本發明之實施例之其中一幾何有效ER軌跡具有接近180º之一內角之一實例性2D音訊場景之一放大圖，圖14係繪示根據本發明之實施例之估計一基於體素之音訊場景表示中之ER軌跡之一方法之一實例的一流程圖，圖15係繪示根據本發明之實施例之基於複數個射線及音訊場景之基於體素之表示來判定一組碰撞體素之一方法之一實例的一流程圖，圖16係繪示根據本發明之實施例之基於該組碰撞體素、聽者位置、音訊源位置及一幾何效度測試來判定早期反射軌跡之一方法之一實例的一流程圖，圖17係繪示根據本發明之實施例之基於該組碰撞體素、聽者位置、音訊源位置及一幾何效度測試來判定早期反射軌跡之一方法之一另一實例的一流程圖，及圖18示意性繪示根據本發明之實施例之用於ER軌跡估計之一裝置之一實例。

200:方法

S201:步驟/獲得

S202:步驟/應用

S203:步驟/判定

S204:步驟/判定

S205:步驟

S206:步驟

Claims

一種估計一三維音訊場景中之一音訊源之早期反射軌跡之方法，該方法包括：獲得(S201)該三維音訊場景之一基於體素之表示、關於該三維音訊場景中之一聽者之一聽者位置之資訊及關於該三維音訊場景中之該音訊源之一音訊源位置之資訊；將一射線方向圖案應用(S202)於該音訊源位置與該聽者位置之間的一連接線上之一或多個點以針對該一或多個點之各者獲得在該各自點處起源之複數個射線；基於該複數個射線及該三維音訊場景之該基於體素之表示來判定(S203)一組碰撞體素；基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定(S204)早期反射軌跡。
如請求項1之方法，其進一步包括：判定該射線方向圖案。
如請求項1或2之方法，其進一步包括：基於該一或多個點之一獲得基數來判定該一或多個點。
如請求項1至3中任一項之方法，其中該射線方向圖案界定射線之一預定數目及射線自一原點之預定方向。
如請求項4之方法，其中射線之該預定數目係6、8或12。
如請求項5之方法，其中三維音訊柵格中之一體素位置由柵格索引界定且射線之該等預定方向包括以下之一或多者：一柵格索引相對於相鄰柵格索引之水平及垂直方向；及該柵格索引相對於該等相鄰柵格索引之對角線方向。
如請求項2之方法，其中判定該射線方向圖案係基於該三維音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。
如請求項3之方法，其中基於該一或多個點之該基數來判定連接該音訊源位置及該聽者位置之該線上之該一或多個點之座標。
如請求項8之方法，其中該一或多個點經判定以將連接該音訊源位置及該聽者位置之該線分割成N-1個相等分段，其中N係該一或多個點之該基數且大於或等於2。
如請求項3之方法，其中該一或多個點之該基數取決於該三維音訊場景之一場景類型、可用運算資源、一編碼器預設或其等之一組合。
如請求項7或10之方法，其中該場景類型包括一室內場景及一室外場景。
如請求項1至11中任一項之方法，其中該組碰撞體素中之各碰撞體素係該三維音訊場景之該基於體素之表示中之一遮蔽區體素。
如請求項12之方法，其中該遮蔽區體素表示一聲反射表面。
如請求項12之方法，其中該遮蔽區體素表示該三維音訊場景之該基於體素之表示中除空氣之外的任何材料。
如請求項12至14中任一項之方法，其中基於該複數個射線及該三維音訊場景之該基於體素之表示來判定該組碰撞體素包括：判定該複數個射線之各射線與該等遮蔽區體素之間的一或多個相交處；及針對各射線，將含有最靠近該各自射線之該原點之一相交處之一遮蔽區體素判定為該組碰撞體素中之一碰撞體素。
如請求項1至15中任一項之方法，其中基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定(S204)早期反射軌跡包括：針對該組碰撞體素中之各碰撞體素判定(S401)該碰撞體素是否可產生一第一階反射之一幾何有效表示；及若該碰撞體素可產生一第一階反射之一幾何有效表示，則可將經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑判定(S402)為一早期反射軌跡。
如請求項16之方法，其中判定(S401)該碰撞體素是否可產生一第一階反射之一幾何有效表示包括：判定該碰撞體素之一先行體素，其中該先行體素係沿該各自射線之方向在該碰撞體素前面含有與該各自射線之一相交處之一體素；判定經由該各自先行體素連接該聽者位置及該音訊源位置之一第二路徑；及若該第二路徑不含有與一遮蔽區體素之一相交處，則判定該碰撞體素可產生一第一階反射之一幾何有效表示。
如請求項1至17中任一項之方法，其中基於該組碰撞體素、該聽者位置、該音訊源位置及一幾何效度測試來判定(S204)早期反射軌跡包括：針對該組碰撞體素中之各碰撞體素，判定(S501)經由該各自碰撞體素連接該聽者位置及該音訊源位置之一路徑；及針對各路徑，若該路徑幾何有效，則將該路徑判定(S502)為一早期反射軌跡。
如請求項16或請求項18之方法，其中該路徑包括將該音訊源位置連接至該組碰撞體素中之一碰撞體素之一直線及將該組碰撞體素中之該相同碰撞體素連接至該聽者位置之一直線。
如請求項18之方法，其中若該路徑不含有與除該各自路徑之該碰撞體素之外的一遮蔽區體素之一相交處，則將該路徑判定為幾何有效。
如請求項1至20中任一項之方法，其進一步包括：自該等早期反射軌跡選擇一組最聲相關早期反射軌跡。
如請求項21之方法，其中選擇該組最聲相關早期反射軌跡係基於該等早期反射軌跡之長度及/或該等早期反射軌跡之該碰撞體素之反射係數。
如請求項22之方法，其中該反射係數取決於由該碰撞體素模型化之一材料。
如請求項21至23中任一項之方法，其中選擇該組最聲相關早期反射軌跡包括捨棄具有指示該碰撞體素處接近180º之一內角之一值之早期反射軌跡。
如請求項24之方法，其中指示接近180º之一內角之該值係該早期反射軌跡之該內角或一長度。
如請求項1至25中任一項之方法，其進一步包括：輸出該等早期反射軌跡用於呈現該三維音訊場景。
如請求項26之方法，其中該呈現係藉由一虛擬實境(VR)、擴增實境(AR)、混合實境(MR)，及/或擴展實境(XR)器件來執行。
如請求項1至27中任一項之方法，其中該等早期反射軌跡表示第一階軌跡。
如請求項28之方法，其中該等第一階軌跡係具有該音訊源位置與該聽者位置之間的一單一反射之反射軌跡。
如請求項1至29中任一項之方法，其中該方法係藉由一解碼器或呈現器來執行。
一種處理一三維音訊場景之一訊框之方法，該方法包括：基於如請求項1至30中任一項之方法來估計該訊框之早期反射軌跡且儲存該經估計早期反射軌跡；或若以下，則存取基於如請求項1至30中任一項之方法所估計之一先前訊框之經估計早期反射軌跡：含有聽者位置之一體素、含有音訊源位置之一體素及三維音訊場景之基於體素之表示之一幾何形狀不在該訊框與該先前訊框之間改變。
一種裝置，其包括一處理器及經耦合至該處理器之一記憶體，其中該處理器經調適以實施如請求項1至31中任一項之方法。
一種包括指令之程式，該等指令在由一處理器執行時引起該處理器實施如請求項1至31中任一項之方法。
一種電腦可讀儲存媒體，其儲存如請求項33之程式。