TW202215863A

TW202215863A - 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質

Info

Publication number: TW202215863A
Application number: TW110127857A
Authority: TW
Inventors: 王賓; 卡尼加文; 卡爾阿姆斯特朗; 丁建策; 王喆
Original assignee: 大陸商華為技術有限公司
Priority date: 2020-07-31
Filing date: 2021-07-29
Publication date: 2022-04-16
Also published as: TWI819344B; WO2022022293A1; CN114067810A; US20230179941A1

Abstract

本申請提供一種音訊訊號渲染方法和裝置。該音訊訊號渲染方法可以包括：通過解碼接收的碼流獲取待渲染音訊訊號；獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項；根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號。本申請實施例可以提升渲染效果。

Description

音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質

本發明涉及音訊處理技術，尤其涉及一種音訊訊號渲染方法和裝置。

隨著多媒體技術的不斷發展，音訊在多媒體通訊、消費電子、虛擬實境、人機交互等領域得到了廣泛應用。用戶對音訊品質的需求越來越高。三維音訊（3D audio）具有接近真實的空間感，能夠給用戶提供較好的浸入式體驗，成為多媒體技術的新趨勢。

以虛擬實境（Virtual Reality，VR）為例，一個具有沉浸感的VR系統，不僅需要震撼的視覺效果，還需要逼真的聽覺效果配合，視聽的融合能夠大大提高虛擬實境的體驗感，而虛擬實境的音訊的核心是三維音訊技術。基於聲道，基於對象，基於場景是三維音訊技術中比較常見的三種格式。通過對解碼得到的基於聲道，基於對象和基於場景的音訊訊號進行渲染，可以實現音訊訊號重放，以達到真實感和沉浸感的聽覺體驗。

其中，如何提升音訊訊號的渲染效果，成為一個亟需解決的技術問題。

本申請提供一種音訊訊號渲染方法和裝置，有益於提升音訊訊號的渲染效果。

第一方面，本申請實施例提供一種音訊訊號渲染方法，該方法可以包括：通過解碼接收的碼流獲取待渲染音訊訊號。獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中的一項或多項。根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號。

其中，該內容描述中繼資料用於指示該待渲染音訊訊號的訊號格式。該訊號格式包括基於聲道的訊號格式、基於場景的訊號格式或基於對象的訊號格式中至少一項。該渲染格式標誌資訊用於指示音訊訊號渲染格式。該音訊訊號渲染格式包括揚聲器渲染或雙耳渲染。該揚聲器配置資訊用於指示揚聲器的佈局。該應用場景資訊用於指示渲染器場景描述資訊。該跟蹤資訊用於指示渲染後的音訊訊號是否隨著收聽者的頭部轉動變化。該姿態資訊用於指示該頭部轉動的方位和幅度。該位置資訊用於指示該收聽者的身體移動的方位和幅度。

本實現方式，通過基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，可以提升音訊渲染效果。

一種可能的設計中，根據該控制資訊對該待渲染音訊訊號進行渲染，包括以下至少一項：根據所述控制資訊對所述待渲染音訊訊號進行渲染前處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行訊號格式轉換；或者，根據所述控制資訊對所述待渲染音訊訊號進行本地混響處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行群組處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行動態範圍壓縮；或者，根據所述控制資訊對所述待渲染音訊訊號進行雙耳渲染；或者，根據所述控制資訊對所述待渲染音訊訊號進行揚聲器渲染。

本實現方式，根據控制資訊對待渲染音訊訊號進行渲染前處理、訊號格式轉換、本地混響處理、群組處理、動態範圍壓縮、雙耳渲染或揚聲器渲染中至少一項，從而可以自我調整的根據當前的應用場景或應用場景中的內容選擇合適的渲染方式，以提升音訊渲染效果。

一種可能的設計中，該待渲染音訊訊號包括基於聲道的音訊訊號，基於對象的音訊訊號或基於場景的音訊訊號中的至少一個，當根據該控制資訊對該待渲染音訊訊號進行渲染，包括根據該控制資訊對該待渲染音訊訊號進行渲染前處理時，該方法還可以包括：通過解碼該碼流獲取第一混響資訊，該第一混響資訊包括第一混響輸出響度資訊、第一直達聲與早期反射聲的時間差資訊、第一混響持續時間資訊、第一房間形狀和尺寸資訊、或第一聲音散射度資訊中至少一項。相應的，根據該控制資訊對該待渲染音訊訊號進行渲染前處理，以獲取渲染後的音訊訊號，可以包括：根據該控制資訊，對待渲染音訊訊號進行控制處理，以獲取控制處理後音訊訊號，該控制處理包括對該基於聲道的音訊訊號進行初始的三自由度3DoF處理、對該基於對象的音訊訊號進行變換處理或對該基於場景的音訊訊號進行初始的3DoF處理中至少一項，並根據該第一混響資訊對該控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號。對該第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，當根據該控制資訊對該待渲染音訊訊號進行渲染，還包括根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換時，對該第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號，可以包括：根據該控制資訊對該第一音訊訊號進行訊號格式轉換，獲取第二音訊訊號。對該第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

其中，該訊號格式轉換包括以下至少一項：將該第一音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將該第一音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將該第一音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。

本實現方式，通過根據控制資訊對待渲染音訊訊號進行訊號格式轉換，可以實現訊號格式的靈活轉換，從而使得本申請實施例的音訊訊號渲染方法適用於任何訊號格式，通過對合適的訊號格式的音訊訊號進行渲染，可以提升音訊渲染效果。

一種可能的設計中，根據該控制資訊對該第一音訊訊號進行訊號格式轉換，可以包括：根據該控制資訊、該第一音訊訊號的訊號格式以及終端設備的處理性能，對該第一音訊訊號進行訊號格式轉換。

本實現方式，通過基於終端設備的處理性能對第一音訊訊號進行訊號格式轉換，以提供與終端設備的處理性能相匹配的訊號格式，進行渲染，優化音訊渲染效果。

一種可能的設計中，當根據該控制資訊對該待渲染音訊訊號進行渲染，還可以包括根據該控制資訊對該待渲染音訊訊號進行本地混響處理時，對該第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號，可以包括：獲取第二混響資訊，該第二混響資訊為該渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。根據該控制資訊和該第二混響資訊對該第二音訊訊號進行本地混響處理，獲取第三音訊訊號。對該第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

本實現方式，可以根據即時輸入的應用場景資訊產生對應的第二混響資訊，用於渲染處理，可以提升音訊渲染效果，能夠為AR應用場景提供與場景相符的即時混響。

一種可能的設計中，根據該控制資訊和該第二混響資訊對該第二音訊訊號進行本地混響處理，獲取第三音訊訊號，可以包括：根據該控制資訊對該第二音訊訊號中不同訊號格式的音訊訊號分別進行聚類處理，獲取基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項。根據該第二混響資訊，分別對基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項進行本地混響處理，獲取第三音訊訊號。

一種可能的設計中，當根據該控制資訊對該待渲染音訊訊號進行渲染，還可以包括根據該控制資訊對該待渲染音訊訊號進行群組處理時，對該第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號，可以包括：根據該控制資訊對該第三音訊訊號中每一種訊號格式的群訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第四音訊訊號。對該第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

本實現方式，對每一種格式的音訊訊號進行統一的處理，在保證處理性能的基礎上可以降低處理複雜度。

一種可能的設計中，當根據該控制資訊對該待渲染音訊訊號進行渲染，還包括根據該控制資訊對該待渲染音訊訊號進行動態範圍壓縮時，對該第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號，可以包括：根據該控制資訊對該第四音訊訊號進行動態範圍壓縮，獲取第五音訊訊號。對該第五音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

本實現方式，通過根據控制資訊對音訊訊號進行動態範圍壓縮，以提升渲染後的音訊訊號的播放品質。

一種可能的設計中，根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，可以包括：根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號。對該第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

其中，該訊號格式轉換包括以下至少一項：將該待渲染音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將該待渲染音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將該待渲染音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。

一種可能的設計中，根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換，可以包括：根據該控制資訊、該待渲染音訊訊號的訊號格式以及終端設備的處理性能，對該待渲染音訊訊號進行訊號格式轉換。

終端設備可以是執行本申請實施例的第一方面所述的音訊訊號渲染方法的設備，本實現方式可以結合終端設備的處理性能對待渲染音訊訊號進行訊號格式轉換，以使得音訊訊號渲染適用於不同性能的終端設備。

例如，可以從音訊訊號渲染方法的演算法複雜度和渲染效果兩個維度，結合終端設備的處理性能進行訊號格式轉換。例如，終端設備的處理性能較好，則可以將待渲染音訊訊號轉換為渲染效果較好的訊號格式，即使該渲染效果較好的訊號格式對應的演算法複雜度較高。終端設備的處理性能較差時，則可以將待渲染音訊訊號轉換為演算法複雜度較低的訊號格式，以保證渲染輸出效率。終端設備的處理性能可以是終端設備的處理器性能，舉例而言，當終端設備的處理器的主頻大於一定閾值，位數大於一定閾值時，該終端設備的處理性能較好。結合終端設備的處理性能進行訊號格式轉換的具體實現方式還可以是其他方式，例如，基於預設的對應關係和終端設備的處理器的型號，獲取終端設備的處理性能參數值，當該處理性能參數值大於一定閾值時，將待渲染音訊訊號轉換為渲染效果較好的訊號格式，本申請實施例不一一舉例說明。渲染效果較好的訊號格式可以基於控制資訊確定。

一種可能的設計中，根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，可以包括：獲取第二混響資訊，該第二混響資訊為該渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。根據該控制資訊和該第二混響資訊對該待渲染音訊訊號進行本地混響處理，獲取第七音訊訊號。對該第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，可以包括：根據該控制資訊對該待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第八音訊訊號。對該第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，可以包括：根據該控制資訊對該待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號。對該第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。

第二方面，本申請實施例提供一種音訊訊號渲染裝置，該音訊訊號渲染裝置可以為音訊渲染器，或音訊解碼設備的晶片或者片上系統，還可以為音訊渲染器中用於實現上述第一方面或上述第一方面的任一可能的設計的方法的功能模組。該音訊訊號渲染裝置可以實現上述第一方面或上述第一方面的各可能的設計中所執行的功能，功能可以通過硬體執行相應的軟體實現。硬體或軟體包括一個或多個上述功能相應的模組。舉例來說，一種可能的設計中，該音訊訊號渲染裝置，可以包括：獲取模組，用於通過解碼接收的碼流獲取待渲染音訊訊號。控制資訊生成模組，用於獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中的一項或多項。渲染模組，用於根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號。

其中，該內容描述中繼資料用於指示該待渲染音訊訊號的訊號格式。該訊號格式包括基於聲道、基於場景或基於對象中至少一項。該渲染格式標誌資訊用於指示音訊訊號渲染格式。該音訊訊號渲染格式包括揚聲器渲染或雙耳渲染。該揚聲器配置資訊用於指示揚聲器的佈局。該應用場景資訊用於指示渲染器場景描述資訊。該跟蹤資訊用於指示渲染後的音訊訊號是否隨著收聽者的頭部轉動變化。該姿態資訊用於指示該頭部轉動的方位和幅度。該位置資訊用於指示該收聽者的身體移動的方位和幅度。

一種可能的設計中，渲染模組用於執行以下至少一項：根據該控制資訊對該待渲染音訊訊號進行渲染前處理；或者，根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換；或者，根據該控制資訊對該待渲染音訊訊號進行本地混響處理；或者，根據該控制資訊對該待渲染音訊訊號進行群組處理；或者，根據該控制資訊對該待渲染音訊訊號進行動態範圍壓縮；或者，根據該控制資訊對該待渲染音訊訊號進行雙耳渲染；或者，根據該控制資訊對該待渲染音訊訊號進行揚聲器渲染。

一種可能的設計中，該待渲染音訊訊號包括基於聲道的音訊訊號，基於對象的音訊訊號或基於場景的音訊訊號中的至少一個，該獲取模組還用於：通過解碼該碼流獲取第一混響資訊，該第一混響資訊包括第一混響輸出響度資訊、第一直達聲與早期反射聲的時間差資訊、第一混響持續時間資訊、第一房間形狀和尺寸資訊、或第一聲音散射度資訊中至少一項。相應的，渲染模組用於：根據該控制資訊，對該待渲染音訊訊號進行控制處理，以獲取控制處理後音訊訊號，該控制處理包括對該基於聲道的音訊訊號進行初始的三自由度3DoF處理、對該基於對象的音訊訊號進行變換處理或對該基於場景的音訊訊號進行初始的3DoF處理中至少一項，並根據該第一混響資訊對該待控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號。對該第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該第一音訊訊號進行訊號格式轉換，獲取第二音訊訊號。對該第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊、該第一音訊訊號的訊號格式以及終端設備的處理性能，對該第一音訊訊號進行訊號格式轉換。

一種可能的設計中，渲染模組用於：獲取第二混響資訊，該第二混響資訊為該渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。根據該控制資訊和該第二混響資訊對該第二音訊訊號進行本地混響處理，獲取第三音訊訊號。對該第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該第二音訊訊號中不同訊號格式的音訊訊號分別進行聚類處理，獲取基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項。根據該第二混響資訊，分別對基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項進行本地混響處理，獲取第三音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該第三音訊訊號中每一種訊號格式的群訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第四音訊訊號。對該第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該第四音訊訊號進行動態範圍壓縮，獲取第五音訊訊號。對該第五音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號。對該第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊、該待渲染音訊訊號的訊號格式以及終端設備的處理性能，對該待渲染音訊訊號進行訊號格式轉換。

一種可能的設計中，渲染模組用於：獲取第二混響資訊，該第二混響資訊為該渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。根據該控制資訊和該第二混響資訊對該待渲染音訊訊號進行本地混響處理，獲取第七音訊訊號。對該第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第八音訊訊號。對該第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

一種可能的設計中，渲染模組用於：根據該控制資訊對該待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號。對該第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。

第三方面，本申請實施例提供一種音訊訊號渲染裝置，其中，包括：相互耦合的非易失性記憶體和處理器，所述處理器調用存儲在所述記憶體中的程式碼以執行上述第一方面或上述第一方面的任一可能的設計的方法。

第四方面，本申請實施例提供一種音訊訊號解碼設備，其中，包括：渲染器，所述渲染器用於執行上述第一方面或上述第一方面的任一可能的設計的方法。

第五方面，本申請實施例提供一種電腦可讀存儲介質，包括電腦程式，所述電腦程式在電腦上被執行時，使得所述電腦執行上述第一方面中任一項所述的方法。

第六方面，本申請提供一種電腦程式產品，該電腦程式產品包括電腦程式，當所述電腦程式被電腦執行時，用於執行上述第一方面中任一項所述的方法。

第七方面，本申請提供一種晶片，包括處理器和記憶體，所述記憶體用於存儲電腦程式，所述處理器用於調用並運行所述記憶體中存儲的電腦程式，以執行如上述第一方面中任一項所述的方法。

本申請實施例的音訊訊號渲染方法和裝置，通過解碼接收到的碼流獲取待渲染音訊訊號，獲取控制資訊，控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，根據控制資訊對待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。

本申請實施例涉及的術語“第一”、“第二”等僅用於區分描述的目的，而不能理解為指示或暗示相對重要性，也不能理解為指示或暗示順序。此外，術語“包括”和“具有”以及他們的任何變形，意圖在於覆蓋不排他的包含，例如，包含了一系列步驟或單元。方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。

應當理解，在本申請中，“至少一個（項）”是指一個或者多個，“多個”是指兩個或兩個以上。“和/或”，用於描述關聯對象的關聯關係，表示可以存在三種關係，例如，“A和/或B”可以表示：只存在A，只存在B以及同時存在A和B三種情況，其中A，B可以是單數或者複數。字元“/”一般表示前後關聯對象是一種“或”的關係。“以下至少一項（個）”或其類似表達，是指這些項中的任意組合，包括單項（個）或複數項（個）的任意組合。例如，a，b或c中的至少一項（個），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c分別可以是單個，也可以分別是多個，也可以是部分是單個，部分是多個。

下面描述本申請實施例所應用的系統架構。參見圖1，圖1示例性地給出了本申請實施例所應用的音訊編碼及解碼系統10的示意性框圖。如圖1所示，音訊編碼及解碼系統10可包括源設備12和目的地設備14，源設備12產生經編碼的音訊資料，因此，源設備12可被稱為音訊編碼裝置。目的地設備14可對由源設備12所產生的經編碼的音訊資料進行解碼，因此，目的地設備14可被稱為音訊解碼裝置。源設備12、目的地設備14或兩個的各種實施方案可包含一或多個處理器以及耦合到所述一或多個處理器的記憶體。所述記憶體可包含但不限於RAM、ROM、EEPROM、快閃記憶體或可用於以可由電腦存取的指令或資料結構的形式存儲所要的程式碼的任何其它媒體，如本文所描述。源設備12和目的地設備14可以包括各種裝置，包含桌上型電腦、移動計算裝置、筆記型(例如，膝上型)電腦、平板電腦、機上盒、所謂的“智慧”電話等電話手持機、電視機、音箱、數位媒體播放機、視訊遊戲控制台、車載電腦、無線通訊設備、任意可穿戴設備（例如，智慧手錶，智慧眼鏡）或其類似者。

雖然圖1將源設備12和目的地設備14繪示為單獨的設備，但設備實施例也可以同時包括源設備12和目的地設備14或同時包括兩者的功能性，即源設備12或對應的功能性以及目的地設備14或對應的功能性。在此類實施例中，可以使用相同硬體和/或軟體，或使用單獨的硬體和/或軟體，或其任何組合來實施源設備12或對應的功能性以及目的地設備14或對應的功能性。

源設備12和目的地設備14之間可通過鏈路13進行通訊連接，目的地設備14可經由鏈路13從源設備12接收經編碼的音訊資料。鏈路13可包括能夠將經編碼的音訊資料從源設備12移動到目的地設備14的一或多個媒體或裝置。在一個實例中，鏈路13可包括使得源設備12能夠即時將經編碼的音訊資料直接發射到目的地設備14的一或多個通訊媒體。在此實例中，源設備12可根據通訊標準(例如無線通訊協定)來調製經編碼的音訊資料，且可將經調製的音訊資料發射到目的地設備14。所述一或多個通訊媒體可包含無線和/或有線通訊媒體，例如射頻(RF)頻譜或一或多個物理傳輸線。所述一或多個通訊媒體可形成基於分組的網路的一部分，基於分組的網路例如為局域網、廣域網路或全球網路(例如，網際網路)。所述一或多個通訊媒體可包含路由器、交換器、基地台或促進從源設備12到目的地設備14的通訊的其它設備。

源設備12包括編碼器20，另外可選地，源設備12還可以包括音訊源16、預處理器18、以及通訊介面22。具體實現形態中，所述編碼器20、音訊源16、預處理器18、以及通訊介面22可能是源設備12中的硬體部件，也可能是源設備12中的軟體程式。分別描述如下：

音訊源16，可以包括或可以為任何類別的聲音擷取裝置，用於例如捕獲現實世界的聲音，和/或任何類別的音訊生成設備。音訊源16可以為用於捕獲聲音的麥克風或者用於存儲音訊資料的記憶體，音訊源16還可以包括存儲先前捕獲或產生的音訊資料和/或獲取或接收音訊資料的任何類別的（內部或外部）介面。當音訊源16為麥克風時，音訊源16可例如為本地的或集成在源設備中的集成麥克風；當音訊源16為記憶體時，音訊源16可為本地的或例如集成在源設備中的集成記憶體。當所述音訊源16包括介面時，介面可例如為從外部音訊源接收音訊資料的外部介面，外部音訊源例如為外部聲音擷取裝置，比如麥克風、外部記憶體或外部音訊生成設備。介面可以為根據任何專有或標準化介面協定的任何類別的介面，例如有線或無線介面、光介面。

本申請實施例中，由音訊源16傳輸至預處理器18的音訊資料也可稱為原始音訊資料17。

預處理器18，用於接收原始音訊資料17並對原始音訊資料17執行預處理，以獲取經預處理的音訊19或經預處理的音訊資料19。例如，預處理器18執行的預處理可以包括濾波、或去噪等。

編碼器20（或稱音訊編碼器20），用於接收經預處理的音訊資料19，對經預處理的音訊資料19進行處理，從而提供經編碼的音訊資料21。

通訊介面22，可用於接收經編碼的音訊資料21，並可通過鏈路13將經編碼的音訊資料21傳輸至目的地設備14或任何其它設備（如記憶體），以用於存儲或直接重構，所述其它設備可為任何用於解碼或存儲的設備。通訊介面22可例如用於將經編碼的音訊資料21封裝成合適的格式，例如資料包，以在鏈路13上傳輸。

目的地設備14包括解碼器30，另外可選地，目的地設備14還可以包括通訊介面28、音訊後處理器32和渲染設備34。分別描述如下：

通訊介面28，可用於從源設備12或任何其它源接收經編碼的音訊資料21，所述任何其它源例如為存放裝置，存放裝置例如為經編碼的音訊資料存放裝置。通訊介面28可以用於藉由源設備12和目的地設備14之間的鏈路13或藉由任何類別的網路傳輸或接收經編碼音訊資料21，鏈路13例如為直接有線或無線連接，任何類別的網路例如為有線或無線網路或其任何組合，或任何類別的私網和公網，或其任何組合。通訊介面28可以例如用於解封裝通訊介面22所傳輸的資料包以獲取經編碼的音訊資料21。

通訊介面28和通訊介面22都可以配置為單向通訊介面或者雙向通訊介面，以及可以用於例如發送和接收消息來建立連接、確認和交換任何其它與通訊鏈路和/或例如經編碼的音訊資料傳輸的資料傳輸有關的資訊。

解碼器30（或稱為解碼器30），用於接收經編碼的音訊資料21並提供經解碼的音訊資料31或經解碼的音訊31。

音訊後處理器32，用於對經解碼的音訊資料31（也稱為經重構的音訊資料）執行後處理，以獲得經後處理的音訊資料33。音訊後處理器32執行的後處理可以包括：例如渲染，或任何其它處理，還可用於將經後處理的音訊資料33傳輸至渲染設備34。該音訊後處理器可以用於執行後文所描述的各個實施例，以實現本申請所描述的音訊訊號渲染方法的應用。

渲染設備34，用於接收經後處理的音訊資料33以向例如使用者或觀看者播放音訊。渲染設備34可以為或可以包括任何類別的用於呈現經重構的聲音的重播器。該渲染設備可以包括揚聲器或耳機。

雖然，圖1將源設備12和目的地設備14繪示為單獨的設備，但設備實施例也可以同時包括源設備12和目的地設備14或同時包括兩者的功能性，即源設備12或對應的功能性以及目的地設備14或對應的功能性。在此類實施例中，可以使用相同硬體和/或軟體，或使用單獨的硬體和/或軟體，或其任何組合來實施源設備12或對應的功能性以及目的地設備14或對應的功能性。

本領域技術人員基於描述明顯可知，不同單元的功能性或圖1所示的源設備12和/或目的地設備14的功能性的存在和（準確）劃分可能根據實際設備和應用有所不同。源設備12和目的地設備14可以包括各種設備中的任一個，包含任何類別的手持或靜止設備，例如，筆記本或膝上型電腦、行動電話、智慧手機、平板或平板電腦、攝像機、臺式電腦、機上盒、電視機、相機、車載設備、音響、數位媒體播放機、音訊遊戲控制台、音訊資料流設備（例如內容服務伺服器或內容分佈伺服器）、廣播接收器設備、廣播發射器設備、智慧眼鏡、智慧手錶等，並可以不使用或使用任何類別的作業系統。

編碼器20和解碼器30都可以實施為各種合適電路中的任一個，例如，一個或多個微處理器、數位訊號處理器（digital signal processor，DSP）、專用積體電路（application-specific integrated circuit，ASIC）、現場可程式設計閘陣列（field-programmable gate array，FPGA）、離散邏輯、硬體或其任何組合。如果部分地以軟體實施所述技術，則設備可將軟體的指令存儲於合適的非暫時性電腦可讀存儲介質中，且可使用一或多個處理器以硬體執行指令從而執行本公開的技術。前述內容（包含硬體、軟體、硬體與軟體的組合等）中的任一者可視為一或多個處理器。

在一些情況下，圖1中所示音訊編碼及解碼系統10僅為示例，本申請的技術可以適用於不必包含編碼和解碼設備之間的任何資料通訊的音訊編碼設置（例如，音訊編碼或音訊解碼）。在其它實例中，資料可從本地記憶體檢索、在網路上流式傳輸等。音訊編碼設備可以對資料進行編碼並且將資料存儲到記憶體，和/或音訊解碼設備可以從記憶體檢索資料並且對資料進行解碼。在一些實例中，由並不彼此通訊而是僅編碼資料到記憶體和/或從記憶體檢索資料且解碼資料的設備執行編碼和解碼。

上述編碼器可以是多聲道編碼器，例如，身歷聲編碼器，5.1聲道編碼器，或7.1聲道編碼器等。當然可以理解的，上述編碼器也可以是單聲道編碼器。上述音訊後處理器可以用於執行本申請實施例的下述音訊訊號渲染方法，以提升音訊播放效果。

上述音訊資料也可以稱為音訊訊號，上述經解碼的音訊資料也可以稱為待渲染音訊訊號，上述經後處理的音訊資料也可以稱為渲染後的音訊訊號。本申請實施例中的音訊訊號是指音訊渲染裝置的輸入訊號，該音訊訊號中可以包括多個幀，例如當前幀可以特指音訊訊號中的某一個幀，本申請實施例中以對當前幀的音訊訊號的渲染進行示例說明。本申請實施例用於實現音訊訊號的渲染。

圖2是根據一示例性實施例的裝置200的簡化框圖。裝置200可以實現本申請的技術。換言之，圖2為本申請的編碼設備或解碼設備（簡稱為解碼設備200）的一種實現方式的示意性框圖。其中，裝置200可以包括處理器230、記憶體260和匯流排系統250。其中，處理器和記憶體通過匯流排系統相連，該記憶體用於存儲指令，該處理器用於執行該記憶體存儲的指令。解碼設備的記憶體存儲程式碼，且處理器可以調用記憶體中存儲的程式碼執行本申請描述的方法。為避免重複，這裡不再詳細描述。

在本申請中，該處理器230可以是中央處理單元（Central Processing Unit，簡稱為“CPU”），該處理器230還可以是其他通用處理器、數位訊號處理器（DSP）、專用積體電路（ASIC）、現成可程式設計閘陣列（FPGA）或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。

該記憶體260可以包括唯讀記憶體(ROM)設備或者隨機存取記憶體(RAM)設備。任何其他適宜類型的存放裝置也可以用作記憶體260。記憶體260可以包括由處理器230使用匯流排250訪問的代碼和資料。記憶體260可以進一步包括作業系統和應用程式。

該匯流排系統250除包括資料匯流排之外，還可以包括電源匯流排、控制匯流排和狀態訊號匯流排等。但是為了清楚說明起見，在圖中將各種匯流排都標為匯流排系統250。

可選的，解碼設備200還可以包括一個或多個輸出設備，諸如揚聲器。在一個示例中，揚聲器可以是耳機或外放。揚聲器可以經由匯流排250連接到處理器230。

本申請實施例的音訊訊號渲染方法適用於任意通訊系統的語音通訊中的音訊渲染，該通訊系統可以是LTE系統、或5G系統、或未來演進的PLMN系統等。本申請實施例的音訊訊號渲染方法也適用于VR或增強現實（augmented reality，AR）或音訊播放應用程式中的音訊渲染。當然還可以是其他音訊訊號渲染的應用場景，本申請實施例不一一舉例說明。

以VR為例，在編碼端，音訊訊號A經過採集模組（Acquisition）後進行預處理操作（Audio Preprocessing），預處理操作包括濾除掉訊號中的低頻部分，通常是以20Hz或者50Hz為分界點，提取音訊訊號中的方位資訊，之後進行編碼處理（Audio encoding）打包（File/Segment encapsulation），之後發送（Delivery）到解碼端，解碼端首先進行解包（File/Segment decapsulation），之後解碼（Audio decoding），對解碼訊號進行渲染（Audio rendering）處理，渲染處理後的訊號映射到收聽者的耳機（headphones）或者揚聲器（loudspeakers）上。耳機可以為獨立的耳機，也可以是眼鏡設備或其他可穿戴設備上的耳機。其中，可以採用如下述實施例所述的音訊訊號渲染方法對對解碼訊號進行渲染（Audio rendering）處理。

本申請實施例的音訊訊號渲染指，將待渲染音訊訊號轉化為特定重播格式的音訊訊號，即渲染後的音訊訊號，使得渲染後的音訊訊號與重播環境或重播設備中至少一項適配，從而提升用戶聽覺體驗。其中，重播設備可以是上述渲染設備34，可以包括耳機或揚聲器。該重播環境可以是該重播設備所在的環境。音訊訊號渲染所採用的具體處理方式可以參見下述實施例的解釋說明。

音訊訊號渲染裝置可以執行本申請實施例的音訊訊號渲染方法，以實現自我調整選擇渲染處理方式，提升音訊訊號的渲染效果。該音訊訊號渲染裝置可以是上述目的地設備中的音訊後處理器，該目的地設備可以是任意終端設備，例如可以是手機，可穿戴設備，虛擬實境（virtual reality，VR）設備，或增強現實（augmented reality，AR）設備等等。其具體實施方式可以參見下述圖3所示實施例的具體解釋說明。該目的地設備也可以稱為重放端或重播端或渲染端或解碼渲染端等。

圖3為本申請實施例的一種音訊訊號渲染方法的流程圖，本申請實施例的執行主體可以是上述音訊訊號渲染裝置，如圖3所示，本實施例的方法可以包括：

步驟401、通過解碼接收到的碼流獲取待渲染音訊訊號。

對接收到的碼流進行解碼，獲取待渲染音訊訊號。該待渲染音訊訊號的訊號格式（format）可以包括一種訊號格式或多種訊號格式混合，訊號格式可以包括基於聲道、基於場景或基於對象等。

三種不同的訊號格式中基於聲道的訊號格式是最傳統的音訊訊號格式，其易於存儲和傳輸，可利用揚聲器直接重放而不需要較多額外的處理，即基於聲道的音訊訊號是針對一些標準的揚聲器佈置，例如5.1聲道揚聲器佈置、7.1.4聲道揚聲器佈置等。一個聲道訊號對應一個揚聲器設備。實際應用中如果揚聲器配置格式與待渲染音訊訊號要求的揚聲器配置格式不同則需要進行上混（up mix）或者下混（down mix）處理來適配當前應用的揚聲器配置格式，下混處理在一定程度上會降低重放聲場中聲像的準確性。例如，基於聲道的訊號格式是符合7.1.4聲道揚聲器佈置的，但當前應用的揚聲器配置格式為5.1聲道揚聲器，則需要對7.1.4聲道訊號進行下混來獲得5.1聲道訊號，以便能夠使用5.1聲道揚聲器進行重播。如果需要採用耳機進行重播，可以進一步對揚聲器訊號進行頭部相關傳輸函數（Head Related Transfer Function，HRTF）/BRIR卷積處理得到雙耳渲染訊號通過耳機等設備進行雙耳重播。基於聲道的音訊訊號可以是單聲道音訊訊號，或者，也可以是多聲道訊號，例如，身歷聲訊號。

基於對象的訊號格式是用來描述對象音訊，其包含一系列聲音對象（sound objects）以及相對應的中繼資料（metadata）。聲音對象包含各自獨立的聲源，中繼資料包含語言、起始時間等靜態中繼資料，以及聲源的位置、方位、聲壓（level）等動態中繼資料。因此對象導向的訊號格式最大優點是可用於任意的揚聲器重放系統進行有選擇的重放，同時增加了可交互性，比如調整語言、增加一些聲源音量以及根據收聽者移動調整聲源對象位置等。

基於場景的訊號格式，其將實際的物理聲音訊號或者麥克風採集後的聲音訊號利用正交基函數展開，其存儲的不是直接的揚聲器訊號而是相應的基函數展開係數，在重放端再利用相應的聲場合成演算法進行雙耳渲染重放，它也可以利用多種揚聲器配置重放，而且揚聲器擺放具有較大的靈活性。基於場景的音訊訊號可以包括1階Ambisonics（Firs-Order Ambisonics，FOA）訊號、或高階Ambisonics（High-Order Ambisonics，HOA）訊號等。

該訊號格式是採集端獲得的訊號格式。舉例而言，在多方參加的遠端電話會議應用場景中，有的終端設備發送的是身歷聲訊號，即基於聲道的音訊訊號，有的終端設備發送的是一個遠端參會者的基於對象的音訊訊號，有個終端設備發送的是高階Ambisonics（High-Order Ambisonics，HOA）訊號，即基於場景的音訊訊號。重放端對接收到的碼流進行解碼，可以得到待渲染音訊訊號，該待渲染音訊訊號是三種訊號格式的混合訊號，本申請實施例的音訊訊號渲染裝置可以支援對一種或多種訊號格式混合的音訊訊號進行靈活渲染。

解碼接收到的碼流還可以獲取內容描述中繼資料（Content Description Metadata）。該內容描述中繼資料用於指示待渲染音訊訊號的訊號格式。例如，上述多方參加的遠端電話會議應用場景中，重放端可以通過解碼獲取內容描述中繼資料，該內容描述中繼資料用於指示待渲染音訊訊號的訊號格式包括基於聲道、基於對象和基於場景三種訊號格式。

步驟402、獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

如上所述內容描述中繼資料用於指示待渲染音訊訊號的訊號格式，該訊號格式包括基於聲道、基於場景或基於對象中至少一項。

該渲染格式標誌資訊用於指示音訊訊號渲染格式。該音訊訊號渲染格式可以包括揚聲器渲染或雙耳渲染。換言之，該渲染格式標誌資訊用於指示音訊渲染裝置輸出揚聲器渲染訊號或雙耳渲染訊號。該渲染格式標誌資訊可以是從解碼接收到的碼流中獲取，或者可以是根據重放端的硬體設置確定，或者是根據重放端的配置資訊中獲取的。

該揚聲器配置資訊用於指示揚聲器的佈局。該揚聲器的佈局可以包括揚聲器的位置和數量。該揚聲器的佈局使得音訊渲染裝置產生相應佈局的揚聲器渲染訊號。圖4為本申請實施例的一種揚聲器的佈局示意圖，如圖4所示，水平面8個揚聲器組成7.1佈局的配置，其中實心的揚聲器表示重低音揚聲器，加上水平面上方平面4個揚聲器（圖4中虛線方框上的4個揚聲器）共同組成7.1.4揚聲器佈局。該揚聲器配置資訊可以是根據重放端的揚聲器的佈局確定的，也可以是從重放端的配置資訊中獲取的。

該應用場景資訊用於指示渲染器場景描述資訊（Renderer Scene description）。該渲染器場景描述資訊可以指示輸出渲染後的音訊訊號所在的場景，即渲染聲場環境。該場景可以是室內會議室、室內教室、室外草地、或音樂會演出現場等中至少下一項。該應用場景資訊可以是根據重放端的感測器獲取的資訊確定。例如，通過環境光感測器、紅外線感測器等一項或多項感測器採集重放端所在的環境資料，根據該環境資料確定應用場景資訊。再例如，該應用場景資訊可以是根據與重放端連接的接入點（AP）確定。舉例而言，該接入點（AP）是家用wifi，當該重放端與家用wifi連接時，可以確定該應用場景資訊為家庭室內。還例如，該應用場景資訊可以是從重放端的配置資訊中獲取的。

該跟蹤資訊用於指示渲染後的音訊訊號是否隨著收聽者的頭部轉動變化。該跟蹤資訊可以是從重放端的配置資訊中獲取的。該姿態資訊用於指示該頭部轉動的方位和幅度。該姿態資訊可以是三自由度（3 degree of freedom，3DoF）數據。該3DoF資料用於表示表示收聽者的頭部的轉動資訊。該3DoF資料可以包括頭部的三個轉動角度。該姿態資訊可以是3DoF+資料，該3DoF+資料表示收聽者坐在座位上身體不動的前提下上身進行前後左右運動的運動資訊。該3DoF+資料可以包括頭部的三個轉動角度和上身運動的前後的幅度、以及左右的幅度。或者，該3DoF+資料可以包括頭部的三個轉動角度和上身運動的前後的幅度。或者，該3DoF+資料可以包括頭部的三個轉動角度和上身運動的左右的幅度。該位置資訊用於指示該收聽者的身體移動的方位和幅度。該姿態資訊和位置資訊可以是六自由度（6 degree of freedom，6DoF）資料，該6DoF資料表示收聽者進行無約束自由運動的資訊。該6DoF資料可以包括頭部的三個轉動角度和身體運動的前後的幅度、左右的幅度、以及上下的幅度。

獲取控制資訊的方式可以是上述音訊訊號渲染裝置根據內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，生成控制資訊。獲取控制資訊的方式也可以是從其他設備接收控制資訊，其具體實施方式本申請實施例不做限定。

示例性的，在對待渲染音訊訊號進行渲染處理前，本申請實施例可以根據內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，生成控制資訊。參照圖5所示，輸入資訊包括上述內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，對輸入資訊進行分析，生成控制資訊。該控制資訊可以作用於渲染處理，使得可以自我調整選擇渲染處理方式，提升音訊訊號的渲染效果。該控制資訊可以包括輸出訊號（即渲染後的音訊訊號）的渲染格式、應用場景資訊、所採用的渲染處理方式、渲染所使用的資料庫等。

步驟403、根據控制資訊對待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號。

由於控制資訊是根據上述內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項生成的，所以基於該控制資訊使用相應的渲染方式進行渲染，以實現基於輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。

在一些實施例中，上述步驟403可以包括以下至少一項：根據控制資訊對待渲染音訊訊號進行渲染前處理（Rendering pre-processing）；或者，根據控制資訊對待渲染音訊訊號進行訊號格式轉換（Format converter）；或者，根據控制資訊對待渲染音訊訊號進行本地混響處理（Local reverberation processing）；或者，根據控制資訊對待渲染音訊訊號進行群組處理（Grouped source Transformations）；或者，根據控制資訊對待渲染音訊訊號進行動態範圍壓縮（Dynamic Range Compression）；或者，根據控制資訊對待渲染音訊訊號進行雙耳渲染（Binaural rendering）；或者，根據控制資訊對所述待渲染音訊訊號進行揚聲器渲染（Loudspeaker rendering）。

該渲染前處理用於利用發送端的相關資訊對待渲染音訊訊號進行靜態初始化處理，該發送端的相關資訊可以包括發送端的混響資訊。該渲染前處理可以向後續的訊號格式轉換、本地混響處理、群組處理、動態範圍壓縮、雙耳渲染或揚聲器渲染等一項或多項動態渲染處理方式提供基礎，以便經過渲染後的音訊訊號與重播設備或重播環境中至少一項相匹配，從而提供較好的聽覺效果。該渲染前處理的具體實施方式可以參見圖6A所示實施例的解釋說明。

該群組處理用於對待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理，即對同一訊號格式的音訊訊號進行相同的處理，以降低處理複雜度。該群組處理的具體實施方式可以參見11A所示實施例的解釋說明。

動態範圍壓縮用於壓縮待渲染音訊訊號的動態範圍，以提升渲染後的音訊訊號的播放品質。該動態範圍是該渲染音訊訊號中最強訊號與最弱訊號之間的強度差，單位用“db” 表示。該動態範圍壓縮的具體實施方式可以參見12A所示實施例的解釋說明。

雙耳渲染用於將待渲染音訊訊號轉換為雙耳訊號，以便通過耳機重播。該雙耳渲染的具體實施方式可以參見圖6A所示實施例的步驟504的解釋說明。

揚聲器渲染用於將待渲染音訊訊號轉換為與揚聲器佈局相匹配的訊號，以便通過揚聲器重播。該揚聲器渲染的具體實施方式可以參見圖6A所示實施例的步驟504的解釋說明。

舉例而言，以控制資訊中指示了內容描述中繼資料，渲染格式標誌資訊和跟蹤資訊三個資訊為例，對根據控制資訊對待渲染音訊訊號進行渲染的具體實現方式進行解釋說明。一種示例：內容描述中繼資料指示輸入訊號格式為基於場景的音訊訊號，渲染訊號格式標誌資訊指示渲染為雙耳渲染，跟蹤資訊指示渲染後的音訊訊號未隨著收聽者的頭部轉動變化，則根據控制資訊對待渲染音訊訊號進行渲染可以為：將基於場景的音訊訊號轉化為基於聲道的音訊訊號，對基於聲道的音訊訊號用HRTF/BRIR直接卷積生成雙耳渲染訊號，該雙耳渲染訊號即為渲染後的音訊訊號。另一種示例：內容描述中繼資料指示輸入訊號格式為基於場景的音訊訊號，渲染訊號格式標誌資訊指示渲染為雙耳渲染，跟蹤資訊指示渲染後的音訊訊號隨著收聽者的頭部轉動變化，則根據控制資訊對待渲染音訊訊號進行渲染可以為：將基於場景的音訊訊號進行球諧分解生成虛擬揚聲器訊號，對虛擬揚聲器訊號用HRTF/BRIR卷積生成雙耳渲染訊號，該雙耳渲染訊號即為渲染後的音訊訊號。再一種示例：內容描述中繼資料指示輸入訊號格式為基於聲道的音訊訊號，渲染訊號格式標誌資訊指示渲染為雙耳渲染，跟蹤資訊指示渲染後的音訊訊號未隨著收聽者的頭部轉動變化，則根據控制資訊對待渲染音訊訊號進行渲染可以為：將基於聲道的音訊訊號用HRTF/BRIR直接卷積生成雙耳渲染訊號，該雙耳渲染訊號即為渲染後的音訊訊號。又一種示例：內容描述中繼資料指示輸入訊號格式為基於聲道的音訊訊號，渲染訊號格式標誌資訊指示渲染為雙耳渲染，跟蹤資訊指示渲染後的音訊訊號隨著收聽者的頭部轉動變化，則根據控制資訊對待渲染音訊訊號進行渲染可以為：將基於聲道的音訊訊號轉化成基於場景的音訊訊號，將基於場景的音訊訊號利用球諧分解生成虛擬揚聲器訊號，對虛擬揚聲器訊號用HRTF/BRIR卷積生成雙耳渲染訊號，該雙耳渲染訊號即為渲染後的音訊訊號。需要說明的是，上述舉例僅僅是示例性的，並不是限制在實際應用中只能採用上述舉例。由此，通過控制資訊指示的資訊，自我調整選擇合適的處理方式對輸入訊號進行渲染，以提升渲染效果。

舉例而言，以控制資訊中指示了內容描述中繼資料，渲染格式標誌資訊，應用場景資訊，跟蹤資訊，姿態資訊和位置資訊為例，對根據控制資訊對待渲染音訊訊號進行渲染的具體實現方式可以為，根據內容描述中繼資料，渲染格式標誌資訊，應用場景資訊，跟蹤資訊，姿態資訊和位置資訊對待渲染音訊訊號進行本地混響處理、群組處理以及雙耳渲染或揚聲器渲染；或者，根據內容描述中繼資料，渲染格式標誌資訊，應用場景資訊，跟蹤資訊，姿態資訊和位置資訊對待渲染音訊訊號進行訊號格式轉換、本地混響處理、群組處理以及雙耳渲染或揚聲器渲染。由此，通過控制資訊指示的資訊，自我調整選擇合適的處理方式對輸入訊號進行渲染，以提升渲染效果。需要說明的是，上述舉例僅僅是示例性的，並不是限制在實際應用中只能採用上述舉例。

本實施例，通過解碼接收到的碼流獲取待渲染音訊訊號，獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，根據控制資訊對待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。

圖6A為本申請實施例的另一種音訊訊號渲染方法的流程圖，圖6B為本申請實施例的一種渲染前處理的示意圖，本申請實施例的執行主體可以是上述音訊訊號渲染裝置，本實施例為上述圖3所示實施例的一種可實現方式，即對本申請實施例的音訊訊號渲染方法的渲染前處理（Rendering pre-processing）進行具體解釋說明。渲染前處理（Rendering pre-processing）包括：對基於聲道的音訊訊號、或基於對象的音訊訊號、或基於場景的音訊訊號做旋轉（rotation）和移動（translation）的精度設置並完成三自由度（3DoF）處理，以及混響處理，如圖6A所示，本實施例的方法可以包括：

步驟501、通過解碼接收到的碼流獲取待渲染音訊訊號和第一混響資訊。

該待渲染音訊訊號包括基於聲道的音訊訊號，基於對象的音訊訊號或基於場景的音訊訊號中的至少一個，該第一混響資訊包括第一混響輸出響度資訊、第一直達聲與早期反射聲的時間差資訊、第一混響持續時間資訊、第一房間形狀和尺寸資訊、或第一聲音散射度資訊中至少一項。

步驟502、獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

其中，步驟502的解釋說明，可以參見圖3所示實施例的步驟402的具體解釋說明，此處不再贅述。

步驟503、根據控制資訊，對待渲染音訊訊號進行控制處理，獲取控制處理後音訊訊號，根據第一混響資訊對控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號。

其中，上述控制處理包括對待渲染音訊訊號中的基於聲道的音訊訊號進行初始的3DoF處理、對待渲染音訊訊號中的基於對象的音訊訊號進行變換處理或對待渲染音訊訊號中的基於場景的音訊訊號進行初始的3DoF處理中至少一項。

本申請實施例可以根據控制資訊，分別對單個聲源（individual sources）進行渲染前處理。單個聲源（individual sources）可以是基於聲道的音訊訊號、基於對象的音訊訊號或者基於場景的音訊訊號。以一個脈衝碼調制（pulse code modulation，PCM）訊號1為例，參見圖6B所示，渲染前處理的輸入訊號為PCM訊號1，輸出訊號為PCM訊號2。如果控制資訊指示輸入訊號的訊號格式包括基於聲道，則渲染前處理包括基於聲道的音訊訊號的初始的3DoF處理及混響處理。如果控制資訊指示輸入訊號的訊號格式包括基於對象，則渲染前處理包括基於對象的音訊訊號的變換及混響處理。如果控制資訊指示輸入訊號的訊號格式包括基於場景，則渲染前處理包括基於場景的音訊訊號的初始的3DoF處理及混響處理。渲染前處理後獲得輸出的PCM訊號2。

舉例而言，當待渲染音訊訊號包括基於聲道的音訊訊號和基於場景的音訊訊號時，可以根據控制資訊，分別對基於聲道的音訊訊號和基於場景的音訊訊號進行渲染前處理。即根據控制資訊對基於聲道的音訊訊號進行初始的3DoF處理，並根據第一混響資訊對基於聲道的音訊訊號進行混響處理，以獲取渲染前處理後的基於聲道的音訊訊號。根據控制資訊對基於場景的音訊訊號進行初始的3DoF處理，並根據第一混響資訊對基於場景的音訊訊號進行混響處理，以獲取渲染前處理後的基於場景的音訊訊號，上述第一音訊訊號包括渲染前處理後的基於聲道的音訊訊號和渲染前處理後的基於場景的音訊訊號。當待渲染音訊訊號包括基於聲道的音訊訊號、基於對象的音訊訊號和基於場景的音訊訊號時，其處理過程與前述舉例類似，渲染前處理所得到的第一音訊訊號可以包括渲染前處理後的基於聲道的音訊訊號、渲染前處理後的基於對象的音訊訊號和渲染前處理後的基於場景的音訊訊號。本實施例以前述兩個舉例為例做示意性說明，當待渲染音訊訊號包括其他的單個訊號格式的音訊訊號或者多個訊號格式的音訊訊號組合的形式，其具體實施方式類似，即分別對單個訊號格式的音訊訊號進行旋轉（rotation）和移動（translation）的精度設置並完成初始的3DoF處理，以及混響處理，此處不一一舉例說明。

本申請實施例的渲染前處理，可以根據控制資訊，選擇相應的處理方法對單個聲源（individual sources）進行渲染前處理。其中，對於基於場景的音訊訊號，上述初始的3DoF處理，可以包括根據起始位置（基於初始的3DoF資料確定）對基於場景的音訊訊號進行移動和旋轉處理，再對處理後的基於場景的音訊訊號進行虛擬揚聲器映射，得到該基於場景的音訊訊號對應的虛擬揚聲器訊號。對於基於聲道的音訊訊號，該基於聲道的音訊訊號包括一個或多個聲道訊號，上述初始的3DoF處理可以包括計算收聽者的初始位置（基於初始的3DoF資料確定）與各聲道訊號的相對位置選擇初始的HRTF/BRIR資料，得到對應的聲道訊號和初始的HRTF/BRIR資料索引。對於基於對象的音訊訊號，該基於對象的音訊訊號包括一個或多個對象訊號，上述變換處理可以包括計算收聽者的初始位置（基於初始的3DoF資料確定）與各對象訊號的相對位置來選擇初始的HRTF/BRIR資料，得到對應的對象訊號和初始的HRTF/BRIR資料索引。

上述混響處理為根據解碼器的輸出參數來生成第一混響資訊，混響處理需要用到的參數包括但不限於：混響的輸出響度資訊，直達聲與早期反射聲的時間差資訊，混響的持續時間資訊，房間形狀和尺寸資訊，或聲音的散射度資訊等一項或多項。根據三種訊號格式中產生的第一混響資訊分別對三種訊號格式的音訊訊號進行混響處理，得到帶有發送端的混響資訊的輸出訊號，即上述第一音訊訊號。

步驟504、對第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。

渲染後的音訊訊號可以通過揚聲器播放或者通過耳機播放。

一種可實現方式，可以根據控制資訊對第一音訊訊號進行揚聲器渲染。例如，可以根據控制資訊中的揚聲器配置資訊以及控制資訊中的渲染格式標誌資訊，對輸入訊號（即這裡的第一音訊訊號）進行處理。其中，可以對第一音訊訊號中的一部分訊號採用一種揚聲器渲染方式，第一音訊訊號中的另一部分訊號採用另一種揚聲器渲染方式。揚聲器渲染方式可以包括：基於聲道的音訊訊號的揚聲器渲染、基於場景的音訊訊號的揚聲器渲染或基於對象的音訊訊號的揚聲器渲染。基於聲道的音訊訊號的揚聲器處理可以包括，對輸入的基於聲道的音訊訊號，進行上混或下混處理得到基於聲道的音訊訊號對應的揚聲器訊號。基於對象的音訊訊號的揚聲器渲染可以包括，對基於對象的音訊訊號，應用幅度平移處理方法，得到基於對象的音訊訊號對應的揚聲器訊號。基於場景的音訊訊號的揚聲器渲染包括，對基於場景的音訊訊號進行解碼處理，得到基於場景的音訊訊號對應的揚聲器訊號。基於聲道的音訊訊號對應的揚聲器訊號、基於對象的音訊訊號對應的揚聲器訊號、基於場景的音訊訊號對應的揚聲器訊號中的一種或多種融合後得到揚聲器訊號。在一些實施例中，還可以包括對揚聲器訊號進行去串擾處理和在沒有高度揚聲器的情況下通過水平面位置的揚聲器來虛擬高度資訊。

以第一音訊訊號為PCM訊號6為例，圖7為本申請實施例提供的一種揚聲器渲染的示意圖，如圖7所示，揚聲器渲染的輸入為PCM訊號6，經過如上所述的揚聲器渲染後，輸出揚聲器訊號。

另一種可實現方式，可以根據控制資訊對第一音訊訊號進行雙耳渲染。例如，可以根據控制資訊中的渲染格式標誌資訊，對輸入訊號（即這裡的第一音訊訊號）進行處理。其中，可以根據渲染前處理得到的初始的HRTF資料索引，從HRTF資料庫中獲取該索引對應的HRTF資料。將以頭為中心的HRTF資料轉為以雙耳為中心的HRTF資料，對HRTF資料進行去串擾處理、耳機均衡處理、個性化處理等。根據HRTF資料對輸入訊號（即這裡的第一音訊訊號），進行雙耳訊號處理得到雙耳訊號。雙耳訊號處理包括：對於基於聲道的音訊訊號和基於對象的音訊訊號，通過直接卷積的方法處理，得到雙耳訊號；對於基於場景的音訊訊號，通過球諧分解卷積的方法處理，得到雙耳訊號。

以第一音訊訊號為PCM訊號6為例，圖8為本申請實施例提供的一種雙耳渲染的示意圖，如圖8所示，雙耳渲染的輸入為PCM訊號6，經過如上所述的雙耳渲染後，輸出雙耳訊號。

本實施例，通過解碼接收到的碼流獲取待渲染音訊訊號和第一混響資訊，根據控制資訊所指示的內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，對待渲染音訊訊號進行控制處理，獲取控制處理後音訊訊號，該控制處理包括對基於聲道的音訊訊號進行初始的3DoF處理、對基於對象的音訊訊號進行變換處理或對基於場景的音訊訊號進行初始的3DoF處理中至少一項並根據第一混響資訊對控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號，對第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。

圖9A為本申請實施例的另一種音訊訊號渲染方法的流程圖，圖9B為本申請實施例的一種訊號格式轉換的示意圖，本申請實施例的執行主體可以是上述音訊訊號渲染裝置，本實施例為上述圖3所示實施例的一種可實現方式，即對本申請實施例的音訊訊號渲染方法的訊號格式轉換（Format converter）進行具體解釋說明。訊號格式轉換（Format converter）可以實現將一種訊號格式轉換成另一種訊號格式，以提升渲染效果，如圖9A所示，本實施例的方法可以包括：

步驟601、通過解碼接收到的碼流獲取待渲染音訊訊號。

其中，步驟601的解釋說明，可以參見圖3所示實施例的步驟401的具體解釋說明，此處不再贅述。

步驟602、獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

其中，步驟602的解釋說明，可以參見圖3所示實施例的步驟402的具體解釋說明，此處不再贅述。

步驟603、根據控制資訊對待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號。

其中，該訊號格式轉換包括以下至少一項：將待渲染音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將待渲染音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將待渲染音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。

以待渲染音訊訊號為PCM訊號2為例，如圖9B所示，可以控制資訊，選擇對應的訊號格式轉換，將一種訊號格式的PCM訊號2轉換為另一種訊號格式的PCM訊號3。

本申請實施例可以根據控制資訊自我調整選擇訊號格式轉換，可以實現對一部分輸入訊號（這裡的待渲染音訊訊號）採用一種訊號格式轉換（例如上述任意一種）進行轉換，對另一部分輸入訊號採用其他訊號格式轉換進行轉換。

例如，在雙耳渲染的應用場景中，有時需要對其中一部分輸入訊號採用直接卷積的方式進行渲染，而對另一部分輸入訊號使用HOA方式進行渲染，因此可以先通過訊號格式轉換實現將基於場景的音訊訊號轉化為基於聲道的音訊訊號，以便後續雙耳渲染過程中，進行直接卷積的處理，將基於對象的音訊訊號轉化為基於場景的音訊訊號，以便後續通過HOA方式進行渲染處理。又例如，控制資訊中的姿態資訊和位置資訊指示收聽者要進行6DoF渲染處理，則可以先通過訊號格式轉換將基於聲道的音訊訊號轉化為基於對象的音訊訊號，將基於場景的音訊訊號轉化為基於對象的音訊訊號。

在對待渲染音訊訊號進行訊號格式轉換時，還可以結合終端設備的處理性能。該終端設備的處理性能可以是終端設備的處理器性能，例如，處理器的主頻、位數等。根據控制資訊對待渲染音訊訊號進行訊號格式轉換的一種可實現方式可以包括：根據控制資訊、待渲染音訊訊號的訊號格式以及終端設備的處理性能，對待渲染音訊訊號進行訊號格式轉換。例如，控制資訊中的姿態資訊和位置資訊指示收聽者要進行6DoF渲染處理，結合終端設備的處理器性能，確定是否轉換，例如，終端設備的處理器性能較差，則可以將基於對象的音訊訊號或基於聲道的音訊訊號，轉換為基於場景的音訊訊號，終端設備的處理器性能較好，則可以將基於場景的音訊訊號或基於聲道的音訊訊號，轉換為基於對象的音訊訊號。

一種可實現方式，根據控制資訊中的姿態資訊和位置資訊，以及待渲染音訊訊號的訊號格式，確定是否轉換，以及轉換後的訊號格式。

在將基於場景的音訊訊號轉換為基於對象的音訊訊號時，可以先將基於場景的音訊訊號轉換化為虛擬揚聲器訊號，然後每個虛擬揚聲器訊號和其對應的位置就是一個基於對象的音訊訊號，其中虛擬揚聲器訊號是音訊內容（audio content），對應的位置是中繼資料（metadata）中的資訊。

步驟604、對第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號。

其中，步驟604的解釋說明可以參見圖6A中的步驟504的具體解釋說明，此處不再贅述。即將圖6A中的步驟504的第一音訊訊號替換為第六音訊訊號。

本實施例，通過解碼接收到的碼流獲取待渲染音訊訊號，根據控制資訊所指示的內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，對待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號，對第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。通過根據控制資訊對待渲染音訊訊號進行訊號格式轉換，可以實現訊號格式的靈活轉換，從而使得本申請實施例的音訊訊號渲染方法適用於任何訊號格式，通過對合適的訊號格式的音訊訊號進行渲染，可以提升音訊渲染效果。

圖10A為本申請實施例的另一種音訊訊號渲染方法的流程圖，圖10B為本申請實施例的一種本地混響處理（Local reverberation processing）的示意圖，本申請實施例的執行主體可以是上述音訊訊號渲染裝置，本實施例為上述圖3所示實施例的一種可實現方式，即對本申請實施例的音訊訊號渲染方法的本地混響處理（Local reverberation processing）進行具體解釋說明。本地混響處理（Local reverberation processing）可以實現基於重放端的混響資訊進行渲染，以提升渲染效果，從而使得音訊訊號渲染方法可以支援AR等應用場景，如圖10A所示，本實施例的方法可以包括：

步驟701、通過解碼接收到的碼流獲取待渲染音訊訊號。

其中，步驟701的解釋說明，可以參見圖3所示實施例的步驟401的具體解釋說明，此處不再贅述。

步驟702、獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

其中，步驟702的解釋說明，可以參見圖3所示實施例的步驟402的具體解釋說明，此處不再贅述。

步驟703、獲取第二混響資訊，該第二混響資訊為渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。

該第二混響資訊是音訊訊號渲染裝置側生成的混響資訊。該第二混響資訊也可以稱為本地混響資訊。

在一些實施例中，可以根據音訊訊號渲染裝置的應用場景資訊生成該第二混響資訊。可以通過收聽者設置的配置資訊獲取應用場景資訊，也可以通過感測器獲取應用場景資訊。該應用場景資訊可以包括位置、或環境資訊等。

步驟704、根據控制資訊和第二混響資訊對待渲染音訊訊號進行本地混響處理，獲取第七音訊訊號。

基於控制資訊和第二混響資訊進行渲染，以得到第七音訊訊號。

一種可實現方式，可以根據控制資訊，對待渲染音訊訊號中不同訊號格式的訊號進行聚類處理，獲取基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項。根據第二混響資訊，分別對基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項進行本地混響處理，獲取第七音訊訊號。

換言之，音訊訊號渲染裝置可以為三種格式的音訊訊號產生混響資訊，使得本申請實施例的音訊訊號渲染方法可以應用于增強現實場景，以提升臨場感。增強現實場景因為無法預知重放端所處的即時位置的環境資訊，所以無法在製作端確定混響資訊，本實施例根據即時輸入的應用場景資訊產生對應的第二混響資訊，用於渲染處理，可以提升渲染效果。

例如，如圖10B所示，對如圖10B所示的PCM訊號3中不同格式類型的訊號進行聚類處理後輸出為基於聲道的群訊號，基於對象的群訊號，基於場景的群訊號等三種格式訊號，後續對三種格式的群訊號進行混響處理，輸出第七音訊訊號，即如圖10B所示的PCM訊號4。

步驟705、對第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號。

其中，步驟705的解釋說明可以參見圖6A中的步驟504的具體解釋說明，此處不再贅述。即將圖6A中的步驟504的第一音訊訊號替換為第七音訊訊號。

本實施例，通過解碼接收到的碼流獲取待渲染音訊訊號，根據控制資訊所指示的內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，以及第二混響資訊，對待渲染音訊訊號進行本地混響處理，獲取第七音訊訊號，對第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。根據即時輸入的應用場景資訊產生對應的第二混響資訊，用於渲染處理，可以提升音訊渲染效果，能夠為AR應用場景提供與場景相符的即時混響。

圖11A為本申請實施例的另一種音訊訊號渲染方法的流程圖，圖11B為本申請實施例的一種群組處理（Grouped source Transformations）的示意圖，本申請實施例的執行主體可以是上述音訊訊號渲染裝置，本實施例為上述圖3所示實施例的一種可實現方式，即對本申請實施例的音訊訊號渲染方法的群組處理（Grouped source Transformations）進行具體解釋說明。群組處理（Grouped source Transformations）可以降低渲染處理的複雜度，如圖11A所示，本實施例的方法可以包括：

步驟801、通過解碼接收到的碼流獲取待渲染音訊訊號。

其中，步驟801的解釋說明，可以參見圖3所示實施例的步驟401的具體解釋說明，此處不再贅述。

步驟802、獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

其中，步驟802的解釋說明，可以參見圖3所示實施例的步驟402的具體解釋說明，此處不再贅述。

步驟803、根據控制資訊對待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理，獲取第八音訊訊號。

本實施例可以根據控制資訊中的3DoF，3DoF+，6DoF資訊對三種訊號格式的音訊訊號進行處理，即對每一種格式的音訊訊號進行統一的處理，在保證處理性能的基礎上可以降低處理複雜度。

對基於聲道的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理為即時計算收聽者與基於聲道的音訊訊號之間的相對朝向關係。對基於對象的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理為即時計算收聽者與對象聲源訊號之間的相對朝向和相對距離關係。對基於場景的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理為即時計算收聽者與場景訊號中心的位置關係。

一種可實現方式，對基於聲道的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理為，根據初始的HRTF/BRIR資料索引、以及收聽者當前時間的3DoF/3DoF+/6DoF資料，得到處理後的HRTF/BRIR資料索引。該處理後的HRTF/BRIR資料索引用於反映收聽者與聲道訊號之間的朝向關係。

一種可實現方式，對基於對象的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理為，根據初始的HRTF/BRIR資料索引、以及收聽者當前時間的3DoF/3DoF+/6DoF資料，得到處理後的HRTF/BRIR資料索引。該處理後的HRTF/BRIR資料索引用於反映收聽者與對象訊號之間的相對朝向和相對距離關係。

一種可實現方式，對基於場景的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理為，根據虛擬揚聲器訊號、以及收聽者當前時間的3DoF/3DoF+/6DoF資料，得到處理後的HRTF/BRIR資料索引。該處理後的HRTF/BRIR資料索引用於反映收聽者與虛擬揚聲器訊號的位置關係。

例如，參見圖11B所示，對如圖11B所示的PCM訊號4中不同格式類型的訊號分別進行即時的3DoF處理，或，3DoF+處理，或6DoF處理，輸出PCM訊號5，即第八音訊訊號。該PCM訊號5包括PCM訊號4和處理後的HRTF/BRIR資料索引。

步驟804、對第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號。

其中，步驟804的解釋說明可以參見圖6A中的步驟504的具體解釋說明，此處不再贅述。即將圖6A中的步驟504的第一音訊訊號替換為第八音訊訊號。

本實施例，通過解碼接收到的碼流獲取待渲染音訊訊號，根據控制資訊所指示的內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，對待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理，獲取第八音訊訊號，對第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。對每一種格式的音訊訊號進行統一的處理，在保證處理性能的基礎上可以降低處理複雜度。

圖12A為本申請實施例的另一種音訊訊號渲染方法的流程圖，圖12B為本申請實施例的一種動態範圍壓縮（Dynamic Range Compression）的示意圖，本申請實施例的執行主體可以是上述音訊訊號渲染裝置，本實施例為上述圖3所示實施例的一種可實現方式，即對本申請實施例的音訊訊號渲染方法的動態範圍壓縮（Dynamic Range Compression）進行具體解釋說明。如圖12A所示，本實施例的方法可以包括：

步驟901、通過解碼接收到的碼流獲取待渲染音訊訊號。

其中，步驟901的解釋說明，可以參見圖3所示實施例的步驟401的具體解釋說明，此處不再贅述。

步驟902、獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

其中，步驟902的解釋說明，可以參見圖3所示實施例的步驟402的具體解釋說明，此處不再贅述。

步驟903、根據控制資訊對待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號。

可以根據控制資訊對輸入的訊號（例如，這裡的待渲染音訊訊號）進行動態範圍壓縮，輸出第九音訊訊號。

一種可實現方式，基於控制資訊中的應用場景資訊和渲染格式標誌對待渲染音訊訊號進行動態範圍壓縮。例如，家庭影院場景和耳機渲染場景對頻響的幅度有不同的需求。再例如，不同的頻道節目內容要求有相似的聲音響度，同一個節目內容也要保證合適的動態範圍。又例如，一個舞臺劇，既要保證輕音對白的時候能夠聽清對話內容又要確保音樂高聲響起時聲音響度在一定範圍內，這樣整體效果才不會有忽高忽低的感覺。對於該舉例，都可以根據控制資訊對待渲染音訊訊號進行動態範圍壓縮，以保證音訊渲染品質。

例如，參見圖12B所示，對如圖12B所示的PCM訊號5進行動態範圍壓縮，輸出PCM訊號6，即第九音訊訊號。

步驟904、對第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號。

其中，步驟904的解釋說明可以參見圖6A中的步驟504的具體解釋說明，此處不再贅述。即將圖6A中的步驟504的第一音訊訊號替換為第九音訊訊號。

本實施例，通過解碼接收到的碼流獲取待渲染音訊訊號，根據控制資訊所指示的內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，對待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號，對第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號，可以實現基於內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項輸入資訊的自我調整選擇渲染方式，從而提升音訊渲染效果。

上面採用圖6A至圖12B，分別對根據控制資訊對待渲染音訊訊號進行渲染前處理（Rendering pre-processing），根據控制資訊對待渲染音訊訊號進行訊號格式轉換（Format converter），根據控制資訊對待渲染音訊訊號進行本地混響處理（Local reverberation processing），根據控制資訊對待渲染音訊訊號進行群組處理（Grouped source Transformations），根據控制資訊對待渲染音訊訊號進行動態範圍壓縮（Dynamic Range Compression），根據控制資訊對待渲染音訊訊號進行雙耳渲染（Binaural rendering），根據控制資訊對所述待渲染音訊訊號進行揚聲器渲染（Loudspeaker rendering）進行了解釋說明，即控制資訊可以使得音訊訊號渲染裝置可以自我調整選擇渲染處理方式，提升音訊訊號的渲染效果。

在一些實施例中，上述各個實施例還可以組合實施，即基於控制資訊選取渲染前處理（Rendering pre-processing）、訊號格式轉換（Format converter）、本地混響處理（Local reverberation processing）、群組處理（Grouped source Transformations）、或動態範圍壓縮（Dynamic Range Compression）中一項或多項，對待渲染音訊訊號進行處理，以提升音訊訊號的渲染效果。

下面一個實施例以基於控制資訊對待渲染音訊訊號進行渲染前處理（Rendering pre-processing）、訊號格式轉換（Format converter）、本地混響處理（Local reverberation processing）、群組處理（Grouped source Transformations）和動態範圍壓縮（Dynamic Range Compression）舉例說明本申請實施例的音訊訊號渲染方法。

圖13A為本申請實施例的一種音訊訊號渲染裝置的架構示意圖，圖13B為本申請實施例的一種音訊訊號渲染裝置的細化架構示意圖，如圖13A所示，本申請實施例的音訊訊號渲染裝置可以包括渲染解碼器，渲染前處理器，訊號格式自適應轉換器，混合器，群組處理器，動態範圍壓縮器，揚聲器渲染處理器和雙耳渲染處理器，本申請實施例的音訊訊號渲染裝置具有靈活通用的渲染處理功能。其中，解碼器的輸出並不局限于單一的訊號格式，如5.1 多聲道格式或者某一階數的HOA訊號，也可以是三種訊號格式的混合形式。例如，在多方參加的遠端電話會議應用場景中，有的終端發送的是身歷聲聲道訊號，有的終端發送的是一個遠端參會者的對象訊號，有個終端發送的是高階HOA訊號，解碼器接收到碼流解碼得到的音訊訊號是多種訊號格式的混合訊號，本申請實施例的音訊渲染裝置可以支援混合訊號的靈活渲染。

其中，渲染解碼器用於根據內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項，生成控制資訊。渲染前處理器用於對輸入的音訊訊號進行如上實施例所述的渲染前處理（Rendering pre-processing）。訊號格式自適應轉換器用於對輸入的音訊訊號進行訊號格式轉換（Format converter）。混合器用於對輸入的音訊訊號進行本地混響處理（Local reverberation processing）。群組處理器用於對輸入的音訊訊號進行群組處理（Grouped source Transformations）。動態範圍壓縮器用於對輸入的音訊訊號動態範圍壓縮（Dynamic Range Compression）。揚聲器渲染處理器用於對輸入的音訊訊號進行揚聲器渲染（Loudspeaker rendering）。雙耳渲染處理器用於對輸入的音訊訊號進行雙耳渲染（Binaural rendering）。

上述音訊訊號渲染裝置的細化框架圖可以參見圖13B所示，渲染前處理器可以分別對不同訊號格式的音訊訊號進行渲染前處理，該渲染前處理的具體實施方式可以參見圖6A所示實施例。渲染前處理器輸出的不同訊號格式的音訊訊號輸入至訊號格式自適應轉換器，訊號格式自適應轉換器對不同訊號格式的音訊訊號進行格式轉換或不轉換，例如，將基於聲道的音訊訊號轉換為基於對象的音訊訊號（如圖13B所示的C to O），將基於聲道的音訊訊號轉換為基於場景的音訊訊號（如圖13B所示的C to HOA）。將基於對象的音訊訊號轉換為基於通道的音訊訊號（如圖13B所示的O to C），將基於對象的音訊訊號轉換為基於場景的音訊訊號（如圖13B所示的O to HOA）。將基於場景的音訊訊號轉換為基於通道的音訊訊號（如圖13B所示的HOA to C），將基於場景的音訊訊號轉換為基於場景的音訊訊號（如圖13B所示的HOA to O）。訊號格式自適應轉換器輸出的音訊訊號，輸入至混合器。

混合器對不同訊號格式的音訊訊號進行聚類，得到不同訊號格式的群訊號，本地混響器對不同訊號格式的群訊號進行混響處理，並將處理後的音訊訊號輸入至群組處理器。群組處理器分別對不同訊號格式的群訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理。群組處理器輸出的音訊訊號輸入至動態範圍壓縮器，動態範圍壓縮器對群組處理器輸出的音訊訊號進行動態範圍壓縮，輸出壓縮後的音訊訊號至揚聲器渲染處理器或雙耳渲染處理器。雙耳渲染處理器對輸入的音訊訊號中的基於聲道和基於對象的音訊訊號進行直接卷積處理，對輸入的音訊訊號中的基於場景的音訊訊號進行球諧分解卷積，輸出雙耳訊號。揚聲器渲染處理器對輸入的音訊訊號中的基於聲道的音訊訊號進行聲道上混或下混，對輸入的音訊訊號中的基於對象的音訊訊號進行能量映射，對輸入的音訊訊號中的基於場景的音訊訊號進行場景訊號映射，輸出揚聲器訊號。

基於與上述方法相同的發明構思，本申請實施例還提供了一種音訊訊號渲染裝置。

圖14為本申請實施例的一種音訊訊號渲染裝置的結構示意圖，如圖14所示，該音訊訊號渲染裝置1500包括：獲取模組1501、控制資訊生成模組1502、以及渲染模組1503。

獲取模組1501，用於通過解碼接收的碼流獲取待渲染音訊訊號。

控制資訊生成模組1502，用於獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項。

渲染模組1503，用於根據該控制資訊對該待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號。

其中，該內容描述中繼資料用於指示該待渲染音訊訊號的訊號格式，該訊號格式包括基於聲道、基於場景或基於對象中至少一項；該渲染格式標誌資訊用於指示音訊訊號渲染格式，該音訊訊號渲染格式包括揚聲器渲染或雙耳渲染；該揚聲器配置資訊用於指示揚聲器的佈局；該應用場景資訊用於指示渲染器場景描述資訊；該跟蹤資訊用於指示渲染後的音訊訊號是否隨著收聽者的頭部轉動變化；該姿態資訊用於指示該頭部轉動的方位和幅度；該位置資訊用於指示該收聽者的身體移動的方位和幅度。

在一些實施例中，渲染模組1503用於執行以下至少一項：

根據該控制資訊對該待渲染音訊訊號進行渲染前處理；或者，

根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換；或者，

根據該控制資訊對該待渲染音訊訊號進行本地混響處理；或者，

根據該控制資訊對該待渲染音訊訊號進行群組處理；或者，

根據該控制資訊對該待渲染音訊訊號進行動態範圍壓縮；或者，

根據該控制資訊對該待渲染音訊訊號進行雙耳渲染；或者，

根據該控制資訊對該待渲染音訊訊號進行揚聲器渲染。

在一些實施例中，該待渲染音訊訊號包括基於聲道的音訊訊號，基於對象的音訊訊號或基於場景的音訊訊號中的至少一個，該獲取模組1501還用於：通過解碼該碼流獲取第一混響資訊，該第一混響資訊包括第一混響輸出響度資訊、第一直達聲與早期反射聲的時間差資訊、第一混響持續時間資訊、第一房間形狀和尺寸新、或第一聲音散射度資訊中至少一項。該渲染模組1503用於：根據該控制資訊，對該待渲染音訊訊號進行控制處理，獲取控制處理後音訊訊號，該控制處理可以包括對基於聲道的音訊訊號進行初始的三自由度3DoF處理、對該基於對象的音訊訊號進行變換處理或對該基於場景的音訊訊號進行初始的3DoF處理中至少一項，根據該第一混響資訊對該控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號。對該第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該第一音訊訊號進行訊號格式轉換，獲取第二音訊訊號。對該第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊、該第一音訊訊號的訊號格式以及終端設備的處理性能，對該第一音訊訊號進行訊號格式轉換。

在一些實施例中，該渲染模組1503用於：獲取第二混響資訊，該第二混響資訊為該渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。根據該控制資訊和該第二混響資訊對該第二音訊訊號進行本地混響處理，獲取第三音訊訊號。對該第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該第二音訊訊號中不同訊號格式的音訊訊號分別進行聚類處理，獲取基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項。根據該第二混響資訊，分別對基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項進行本地混響處理，獲取第三音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該第三音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第四音訊訊號。對該第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該第四音訊訊號進行動態範圍壓縮，獲取第五音訊訊號。對該第五音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號。對該第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊、該待渲染音訊訊號的訊號格式以及終端設備的處理性能，對該待渲染音訊訊號進行訊號格式轉換。

在一些實施例中，該渲染模組1503用於：獲取第二混響資訊，該第二混響資訊為該渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項。根據該控制資訊和該第二混響資訊對該待渲染音訊訊號進行本地混響處理，獲取第七音訊訊號。對該第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第八音訊訊號。對該第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

在一些實施例中，該渲染模組1503用於：根據該控制資訊對該待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號。對該第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取該渲染後的音訊訊號。

需要說明的是，上述獲取模組1501、控制資訊生成模組1502、以及渲染模組1503可應用於編碼端的音訊訊號渲染過程。

還需要說明的是，獲取模組1501、控制資訊生成模組1502、以及渲染模組1503的具體實現過程可參考上述方法實施例的詳細描述，為了說明書的簡潔，這裡不再贅述。

基於與上述方法相同的發明構思，本申請實施例提供一種用於渲染音訊訊號的設備，例如，音訊訊號渲染設備，請參閱圖15所示，音訊訊號渲染設備1600包括：

處理器1601、記憶體1602以及通訊介面1603 (其中音訊訊號編碼設備1600中的處理器1601的數量可以一個或多個，圖15中以一個處理器為例)。在本申請的一些實施例中，處理器1601、記憶體1602以及通訊介面1603可通過匯流排或其它方式連接，其中，圖15中以通過匯流排連接為例。

記憶體1602可以包括唯讀記憶體和隨機存取記憶體，並向處理器1601提供指令和資料。記憶體1602的一部分還可以包括非易失性隨機存取記憶體（non-volatile random access memory，NVRAM）。記憶體1602存儲有作業系統和操作指令、可執行模組或者資料結構，或者它們的子集，或者它們的擴展集，其中，操作指令可包括各種操作指令，用於實現各種操作。作業系統可包括各種系統程式，用於實現各種基礎業務以及處理基於硬體的任務。

處理器1601控制音訊編碼設備的操作，處理器1601還可以稱為中央處理單元（central processing unit，CPU）。具體的應用中，音訊編碼設備的各個元件通過匯流排系統耦合在一起，其中匯流排系統除包括資料匯流排之外，還可以包括電源匯流排、控制匯流排和狀態訊號匯流排等。但是為了清楚說明起見，在圖中將各種匯流排都稱為匯流排系統。

上述本申請實施例揭示的方法可以應用於處理器1601中，或者由處理器1601實現。處理器1601可以是一種積體電路晶片，具有訊號的處理能力。在實現過程中，上述方法的各步驟可以通過處理器1601中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器1601可以是通用處理器、數位訊號處理器（digital signal processing，DSP）、專用積體電路（application specific integrated circuit，ASIC）、現場可程式設計閘陣列（field-programmable gate array，FPGA）或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本申請實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本申請實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、寄存器等本領域成熟的存儲介質中。該存儲介質位於記憶體1602，處理器1601讀取記憶體1602中的資訊，結合其硬體完成上述方法的步驟。

通訊介面1603可用於接收或發送數位或字元資訊，例如可以是輸入/輸出介面、管腳或電路等。舉例而言，通過通訊介面1603接收上述編碼碼流。

基於與上述方法相同的發明構思，本申請實施例提供一種音訊渲染設備，包括：相互耦合的非易失性記憶體和處理器，所述處理器調用存儲在所述記憶體中的程式碼以執行如上述一個或者多個實施例中所述的音訊訊號渲染方法的部分或全部步驟。

基於與上述方法相同的發明構思，本申請實施例提供一種電腦可讀存儲介質，所述電腦可讀存儲介質存儲了程式碼，其中，所述程式碼包括用於執行如上述一個或者多個實施例中所述的音訊訊號渲染方法的部分或全部步驟的指令。

基於與上述方法相同的發明構思，本申請實施例提供一種電腦程式產品，當所述電腦程式產品在電腦上運行時，使得所述電腦執行如上述一個或者多個實施例中所述的音訊訊號渲染方法的部分或全部步驟。

以上各實施例中提及的處理器可以是一種積體電路晶片，具有訊號的處理能力。在實現過程中，上述方法實施例的各步驟可以通過處理器中的硬體的集成邏輯電路或者軟體形式的指令完成。處理器可以是通用處理器、數位訊號處理器（digital signal processor, DSP）、特定應用積體電路（application-specific integrated circuit，ASIC)、現場可程式設計閘陣列（field programmable gate array, FPGA）或其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。本申請實施例公開的方法的步驟可以直接體現為硬體編碼處理器執行完成，或者用編碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、寄存器等本領域成熟的存儲介質中。該存儲介質位於記憶體，處理器讀取記憶體中的資訊，結合其硬體完成上述方法的步驟。

上述各實施例中提及的記憶體可以是易失性記憶體或非易失性記憶體，或可包括易失性和非易失性記憶體兩者。其中，非易失性記憶體可以是唯讀記憶體（read-only memory，ROM）、可程式設計唯讀記憶體（programmable ROM，PROM）、可擦除可程式設計唯讀記憶體（erasable PROM，EPROM）、電可擦除可程式設計唯讀記憶體（electrically EPROM，EEPROM）或快閃記憶體。易失性記憶體可以是隨機存取記憶體（random access memory，RAM），其用作外部快取記憶體。通過示例性但不是限制性說明，許多形式的RAM可用，例如靜態隨機存取記憶體（static RAM，SRAM）、動態隨機存取記憶體（dynamic RAM，DRAM）、同步動態隨機存取記憶體（synchronous DRAM，SDRAM）、雙倍數據速率同步動態隨機存取記憶體（double data rate SDRAM，DDR SDRAM）、增強型同步動態隨機存取記憶體（enhanced SDRAM，ESDRAM）、同步連接動態隨機存取記憶體（synchlink DRAM，SLDRAM）和直接記憶體匯流排隨機存取記憶體（direct rambus RAM，DR RAM）。應注意，本文描述的系統和方法的記憶體旨在包括但不限於這些和任意其它適合類型的記憶體。

本領域普通技術人員可以意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。

所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些介面，裝置或單元的間接耦合或通訊連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。

所述功能如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以存儲在一個電腦可讀取存儲介質中。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟體產品的形式體現出來，該電腦軟體產品存儲在一個存儲介質中，包括若干指令用以使得一台電腦設備（個人電腦，伺服器，或者網路設備等）執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括：隨身碟、移動硬碟、唯讀記憶體（read-only memory，ROM）、隨機存取記憶體（random access memory，RAM）、磁碟或者光碟等各種可以存儲程式碼的介質。

以上所述，僅為本申請的具體實施方式，但本申請的保護範圍並不局限於此，任何熟悉本技術領域的技術人員在本申請揭露的技術範圍內，可輕易想到變化或替換，都應涵蓋在本申請的保護範圍之內。因此，本申請的保護範圍應以所述請求項的保護範圍為准。

1、2、3、4、5、6:PCM訊號 10:音訊編碼及解碼系統 12:源設備 13:鏈路 14:目的地設備 16:音訊源 17:音訊資料、原始音訊資料 18:預處理器 19:經預處理的音訊、經預處理的音訊資料 20:編碼器、音訊編碼器 21:經編碼的音訊資料 22、28、1603:通訊介面 30:解碼器 31:經解碼的音訊資料、經解碼的音訊 32:音訊後處理器 33:經後處理的音訊資料 34:渲染設備 200:解碼設備、裝置 230:處理器 260:記憶體 250:匯流排系統 1500:音訊訊號渲染裝置 1501:獲取模組 1502:控制資訊生成模組 1503:渲染模組 1600:音訊訊號渲染設備 1601:處理器 1602:記憶體步驟401、601、701、801、901:通過解碼接收到的碼流獲取待渲染音訊訊號的步驟步驟402、502、602、702、802、902:獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項的步驟步驟403:根據控制資訊對待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號的步驟步驟501:通過解碼接收到的碼流獲取待渲染音訊訊號和第一混響資訊的步驟步驟503:根據控制資訊，對待渲染音訊訊號進行控制處理，獲取控制處理後音訊訊號，根據第一混響資訊對控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號的步驟步驟504:對第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號的步驟步驟603:根據控制資訊對待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號的步驟步驟604:對第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號的步驟步驟703:獲取第二混響資訊，該第二混響資訊為渲染後的音訊訊號所在的場景的混響資訊，該第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項的步驟步驟704:根據控制資訊和第二混響資訊對待渲染音訊訊號進行本地混響處理，獲取第七音訊訊號的步驟步驟705:對第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號的步驟步驟803:根據控制資訊對待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或6DoF處理，獲取第八音訊訊號的步驟步驟804:對第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號的步驟步驟903:根據控制資訊對待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號的步驟步驟904:對第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取渲染後的音訊訊號的步驟

圖1為本申請實施例中的音訊編碼及解碼系統實例的示意圖；圖2為本申請實施例中的音訊訊號渲染應用的示意圖；圖3為本申請實施例的一種音訊訊號渲染方法的流程圖；圖4為本申請實施例的一種揚聲器的佈局示意圖；圖5為本申請實施例的控制資訊的生成的示意圖；圖6A為本申請實施例的另一種音訊訊號渲染方法的流程圖；圖6B為本申請實施例的一種渲染前處理的示意圖；圖7為本申請實施例提供的一種揚聲器渲染的示意圖；圖8為本申請實施例提供的一種雙耳渲染的示意圖；圖9A為本申請實施例的另一種音訊訊號渲染方法的流程圖；圖9B為本申請實施例的一種訊號格式轉換的示意圖；圖10A為本申請實施例的另一種音訊訊號渲染方法的流程圖；圖10B為本申請實施例的一種本地混響處理（Local reverberation processing）的示意圖；圖11A為本申請實施例的另一種音訊訊號渲染方法的流程圖；圖11B為本申請實施例的一種群組處理（Grouped source Transformations）的示意圖；圖12A為本申請實施例的另一種音訊訊號渲染方法的流程圖；圖12B為本申請實施例的一種動態範圍壓縮（Dynamic Range Compression）的示意圖；圖13A為本申請實施例的一種音訊訊號渲染裝置的架構示意圖；圖13B為本申請實施例的一種音訊訊號渲染裝置的細化架構示意圖；圖14為本申請實施例的一種音訊訊號渲染裝置的結構示意圖；圖15為本申請實施例的一種音訊訊號渲染設備的結構示意圖。

步驟401:通過解碼接收到的碼流獲取待渲染音訊訊號的步驟

步驟402:獲取控制資訊，該控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項的步驟

步驟403:根據控制資訊對待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號的步驟

Claims

一種音訊訊號渲染方法，其中，包括：通過解碼接收的碼流獲取待渲染音訊訊號；獲取控制資訊，所述控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項；根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號；其中，所述內容描述中繼資料用於指示所述待渲染音訊訊號的訊號格式，所述訊號格式包括基於聲道的訊號格式、基於場景的訊號格式或基於對象的訊號格式中至少一項；所述渲染格式標誌資訊用於指示音訊訊號渲染格式，所述音訊訊號渲染格式包括揚聲器渲染或雙耳渲染；所述揚聲器配置資訊用於指示揚聲器的佈局；所述應用場景資訊用於指示渲染器場景描述資訊；所述跟蹤資訊用於指示渲染後的音訊訊號是否隨著收聽者的頭部轉動變化；所述姿態資訊用於指示所述頭部轉動的方位和幅度；所述位置資訊用於指示所述收聽者的身體移動的方位和幅度。
如請求項1所述的方法，其中，所述根據所述控制資訊對所述待渲染音訊訊號進行渲染，包括以下至少一項：根據所述控制資訊對所述待渲染音訊訊號進行渲染前處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行訊號格式轉換；或者，根據所述控制資訊對所述待渲染音訊訊號進行本地混響處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行群組處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行動態範圍壓縮；或者，根據所述控制資訊對所述待渲染音訊訊號進行雙耳渲染；或者，根據所述控制資訊對所述待渲染音訊訊號進行揚聲器渲染。
如請求項2所述的方法，其中，所述待渲染音訊訊號包括基於聲道的音訊訊號，基於對象的音訊訊號或基於場景的音訊訊號中的至少一個；所述根據所述控制資訊對所述待渲染音訊訊號進行渲染前處理，以獲取渲染後的音訊訊號，包括：通過解碼所述碼流獲取第一混響資訊，其中，混響資訊包括混響輸出響度資訊、直達聲與早期反射聲的時間差資訊、混響持續時間資訊、房間形狀和尺寸資訊、或聲音散射度資訊中至少一項；根據所述控制資訊，對所述待渲染音訊訊號進行控制處理，以獲取控制處理後音訊訊號，所述控制處理包括對所述基於聲道的音訊訊號進行初始的三自由度3DoF處理、對所述基於對象的音訊訊號進行變換處理或對所述基於場景的音訊訊號進行初始的3DoF處理中至少一項；根據所述第一混響資訊對所述控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號；對所述第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項3所述的方法，其中，所述對所述第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號，包括：根據所述控制資訊對所述第一音訊訊號進行訊號格式轉換，獲取第二音訊訊號；對所述第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號；其中，所述訊號格式轉換包括以下至少一項：將所述第一音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將所述第一音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將所述第一音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。
如請求項4所述的方法，其中，所述根據所述控制資訊對所述第一音訊訊號進行訊號格式轉換，包括：根據所述控制資訊、所述第一音訊訊號的訊號格式以及終端設備的處理性能，對所述第一音訊訊號進行訊號格式轉換。
如請求項4所述的方法，其中，所述對所述第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號，包括：獲取第二混響資訊，所述第二混響資訊為所述渲染後的音訊訊號所在的場景的混響資訊；根據所述控制資訊和所述第二混響資訊對所述第二音訊訊號進行本地混響處理，以獲取第三音訊訊號；對所述第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項6所述的方法，其中，所述根據所述控制資訊和所述第二混響資訊對所述第二音訊訊號進行本地混響處理，以獲取第三音訊訊號，包括：根據所述控制資訊對所述第二音訊訊號中不同訊號格式的音訊訊號分別進行聚類處理，獲取基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項；根據所述第二混響資訊，對所述基於聲道的群訊號、所述基於場景的群訊號或所述基於對象的群訊號中至少一項進行本地混響處理，以獲取所述第三音訊訊號。
如請求項6或7所述的方法，其中，當所述根據所述控制資訊對所述待渲染音訊訊號進行渲染，還包括根據所述控制資訊對所述待渲染音訊訊號進行群組處理時，所述對所述第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號，包括：根據所述控制資訊對所述第三音訊訊號中每一種訊號格式的群訊號進行3DoF處理，或，3DoF+處理，或六自由度6DoF處理，以獲取第四音訊訊號；對所述第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項8所述的方法，其中，所述對所述第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號，包括：根據所述控制資訊對所述第四音訊訊號進行動態範圍壓縮，獲取第五音訊訊號；對所述第五音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項1所述的方法，其中，所述根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，包括：根據所述控制資訊對所述待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號；對所述第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號；其中，所述訊號格式轉換包括以下至少一項：將所述待渲染音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將所述待渲染音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將所述待渲染音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。
如請求項10所述的方法，其中，所述根據所述控制資訊對所述待渲染音訊訊號進行訊號格式轉換，包括：根據所述控制資訊、所述待渲染音訊訊號的訊號格式以及終端設備的處理性能，對所述待渲染音訊訊號進行訊號格式轉換。
如請求項1所述的方法，其中，所述根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，包括：獲取第二混響資訊，所述第二混響資訊為所述渲染後的音訊訊號所在的場景的混響資訊，所述第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項；根據所述控制資訊和所述第二混響資訊對所述待渲染音訊訊號進行本地混響處理，以獲取第七音訊訊號；對所述第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項1所述的方法，其中，所述根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，包括：根據所述控制資訊對所述待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第八音訊訊號；對所述第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項1所述的方法，其中，所述根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號，包括：根據所述控制資訊對所述待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號；對所述第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
一種音訊訊號渲染裝置，其中，包括：獲取模組，用於通過解碼接收的碼流獲取待渲染音訊訊號；控制資訊生成模組，用於獲取控制資訊，所述控制資訊用於指示內容描述中繼資料、渲染格式標誌資訊、揚聲器配置資訊、應用場景資訊、跟蹤資訊、姿態資訊或位置資訊中至少一項；渲染模組，用於根據所述控制資訊對所述待渲染音訊訊號進行渲染，以獲取渲染後的音訊訊號；其中，所述內容描述中繼資料用於指示所述待渲染音訊訊號的訊號格式，所述訊號格式包括基於聲道的訊號格式、基於場景的訊號格式或基於對象的訊號格式中至少一項；所述渲染格式標誌資訊用於指示音訊訊號渲染格式，所述音訊訊號渲染格式包括揚聲器渲染或雙耳渲染；所述揚聲器配置資訊用於指示揚聲器的佈局；所述應用場景資訊用於指示渲染器場景描述資訊；所述跟蹤資訊用於指示渲染後的音訊訊號是否隨著收聽者的頭部轉動變化；所述姿態資訊用於指示所述頭部轉動的方位和幅度；所述位置資訊用於指示所述收聽者的身體移動的方位和幅度。
如請求項15所述的裝置，其中，所述渲染模組用於執行以下至少一項：根據所述控制資訊對所述待渲染音訊訊號進行渲染前處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行訊號格式轉換；或者，根據所述控制資訊對所述待渲染音訊訊號進行本地混響處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行群組處理；或者，根據所述控制資訊對所述待渲染音訊訊號進行動態範圍壓縮；或者，根據所述控制資訊對所述待渲染音訊訊號進行雙耳渲染；或者，根據所述控制資訊對所述待渲染音訊訊號進行揚聲器渲染。
如請求項16所述的裝置，其中，所述待渲染音訊訊號包括基於聲道的音訊訊號，基於對象的音訊訊號或基於場景的音訊訊號中的至少一個，所述獲取模組還用於通過解碼所述碼流獲取第一混響資訊，所述第一混響資訊包括第一混響輸出響度資訊、第一直達聲與早期反射聲的時間差資訊、第一混響持續時間資訊、第一房間形狀和尺寸資訊、或第一聲音散射度資訊中至少一項；所述渲染模組用於根據所述控制資訊，對所述待渲染音訊訊號進行控制處理，以獲取控制處理後音訊訊號，所述控制處理包括對所述基於聲道的音訊訊號進行初始的三自由度3DoF處理、對所述基於對象的音訊訊號進行變換處理或對所述基於場景的音訊訊號進行初始的3DoF處理中至少一項；根據所述第一混響資訊對所述控制處理後音訊訊號進行混響處理，以獲取第一音訊訊號；對所述第一音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項17所述的裝置，其中，所述渲染模組用於根據所述控制資訊對所述第一音訊訊號進行訊號格式轉換，獲取第二音訊訊號；對所述第二音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號；其中，所述訊號格式轉換包括以下至少一項：將所述第一音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將所述第一音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將所述第一音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。
如請求項18所述的裝置，其中，所述渲染模組用於根據所述控制資訊、所述第一音訊訊號的訊號格式以及終端設備的處理性能，對所述第一音訊訊號進行訊號格式轉換。
如請求項18所述的裝置，其中，所述渲染模組用於：獲取第二混響資訊，所述第二混響資訊為所述渲染後的音訊訊號所在的場景的混響資訊；根據所述控制資訊和所述第二混響資訊對所述第二音訊訊號進行本地混響處理，以獲取第三音訊訊號；對所述第三音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項20所述的裝置，其中，所述渲染模組用於根據所述控制資訊對所述第二音訊訊號中不同訊號格式的音訊訊號分別進行聚類處理，獲取基於聲道的群訊號、基於場景的群訊號或基於對象的群訊號中至少一項；根據所述第二混響資訊，分別對所述基於聲道的群訊號、所述基於場景的群訊號或所述基於對象的群訊號中至少一項進行本地混響處理，以獲取所述第三音訊訊號。
如請求項20或21所述的裝置，其中，所述渲染模組用於：根據所述控制資訊對所述第三音訊訊號中每一種訊號格式的群訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，以獲取第四音訊訊號；對所述第四音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項22所述的裝置，其中，所述渲染模組用於：根據所述控制資訊對所述第四音訊訊號進行動態範圍壓縮，獲取第五音訊訊號；對所述第五音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項15所述的裝置，其中，所述渲染模組用於根據所述控制資訊對所述待渲染音訊訊號進行訊號格式轉換，獲取第六音訊訊號；對所述第六音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號；其中，所述訊號格式轉換包括以下至少一項：將所述待渲染音訊訊號中的基於聲道的音訊訊號轉換為基於場景或基於對象的音訊訊號；或者，將所述待渲染音訊訊號中的基於場景的音訊訊號轉換為基於聲道或基於對象的音訊訊號；或者，將所述待渲染音訊訊號中的基於對象的音訊訊號轉換為基於聲道或基於場景的音訊訊號。
如請求項24所述的裝置，其中，所述渲染模組用於根據所述控制資訊、所述待渲染音訊訊號的訊號格式以及終端設備的處理性能，對所述待渲染音訊訊號進行訊號格式轉換。
如請求項15所述的裝置，其中，所述渲染模組用於：獲取第二混響資訊，所述第二混響資訊為所述渲染後的音訊訊號所在的場景的混響資訊，所述第二混響資訊包括第二混響輸出響度資訊、第二直達聲與早期反射聲的時間差資訊、第二混響持續時間資訊、第二房間形狀和尺寸資訊、或第二聲音散射度資訊中至少一項；根據所述控制資訊和所述第二混響資訊對所述待渲染音訊訊號進行本地混響處理，以獲取第七音訊訊號；對所述第七音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項15所述的裝置，其中，所述渲染模組用於：根據所述控制資訊對所述待渲染音訊訊號中每一種訊號格式的音訊訊號進行即時的3DoF處理，或，3DoF+處理，或六自由度6DoF處理，獲取第八音訊訊號；對所述第八音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
如請求項15所述的裝置，其中，所述渲染模組用於：根據所述控制資訊對所述待渲染音訊訊號進行動態範圍壓縮，獲取第九音訊訊號；對所述第九音訊訊號進行雙耳渲染或揚聲器渲染，以獲取所述渲染後的音訊訊號。
一種音訊訊號渲染裝置，其中，包括：相互耦合的非易失性記憶體和處理器，所述處理器調用存儲在所述記憶體中的程式碼以執行如請求項1至14任一項所述的方法。
一種音訊訊號渲染設備，其中，包括：渲染器，所述渲染器用於執行如請求項1至14任一項所述的方法。
一種電腦可讀存儲介質，其中，包括電腦程式，所述電腦程式在電腦上被執行時，使得所述電腦執行請求項1至14任一項所述的方法。