TWI775457B

TWI775457B - 音訊渲染方法、裝置及電腦可讀存儲介質

Info

Publication number: TWI775457B
Application number: TW110119332A
Authority: TW
Inventors: 王賓; 阿姆斯特朗卡爾; 科爾尼加文; 高原
Original assignee: 大陸商華為技術有限公司
Priority date: 2020-05-29
Filing date: 2021-05-28
Publication date: 2022-08-21
Also published as: US20230089225A1; TW202203204A; JP2023527432A; KR20230015439A; BR112022024269A2; WO2021238339A1; EP4149123A4; EP4149123A1; CN113747335A

Abstract

本申請公開了一種音訊渲染方法及裝置，涉及音訊訊號處理領域，該方法提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。該方法包括：獲取待渲染音訊訊號；基於K(K是正整數)個第一頭相關傳輸函數HRTF和K個第二HRTF，確定K個第一融合HRTF；基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF；根據K個第一融合HRTF和待渲染音訊訊號，確定第一目標渲染訊號，第一目標渲染訊號是用於向收聽者左耳輸出的渲染訊號；根據K個第二融合HRTF和待渲染音訊訊號，確定第二目標渲染訊號，第二目標渲染訊號是用於向收聽者右耳輸出的渲染訊號。

Description

音訊渲染方法、裝置及電腦可讀存儲介質

本發明涉及音訊訊號處理領域，尤其涉及一種音訊渲染方法及裝置。

隨著高性能電腦和訊號處理技術的飛速發展，人們對語音、音訊體驗提出了越來越高的要求，浸入式音訊能夠滿足人們在這方面的需求。例如，第四代移動通訊技術(the 4th generation mobile communication technology，4G)/第五代移動通訊技術(the 5th generation mobile communication technology，5G)通訊語音，虛擬實境(virtual reality，VR)、增強現實(augmented reality，AR)、混合顯示(mixed reality，MR)等影音技術受到越來越多的關注。一個具有沉浸感的虛擬實境系統，不僅需要震撼的視覺效果，還需要逼真的聽覺效果配合，視聽的融合能大大提高虛擬實境系統的沉浸感體驗感。

其中，音訊的核心是三維音訊技術，目前實現三維音訊主要有兩種重放方式：基於揚聲器的重放和基於耳機的重放。目前現有影音設備中比較常用的還是基於耳機的雙耳重放。而如何提高三維音訊基於耳機的雙耳重放的聽覺效果，是亟待解決的技術問題。

本申請提供了一種音訊渲染方法及裝置，提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

為達上述目的，本申請提供如下技術方案：

第一方面，本申請提供了一種音訊渲染方法，該方法包括：獲取待渲染音訊訊號。基於K個第一頭相關傳輸函數(head related transfer functions，HRTF)和K個第二HRTF，確定K個第一融合HRTF，K個第一融合HRTF是用於處理待渲染音訊訊號的左耳HRTF。其中，K個第一HRTF是用於處理待渲染音訊訊號中的低頻帶訊號的左耳HRTF，K個第二HRTF是用於處理待渲染音訊訊號中的高頻帶訊號的左耳HRTF，K是正整數。基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF，K個第二融合HRTF是用於處理待渲染音訊訊號的右耳HRTF；其中，K個第三HRTF是用於處理待渲染音訊訊號中的低頻帶訊號的右耳HRTF，K個第四HRTF是用於處理待渲染音訊訊號中的高頻帶訊號的右耳HRTF。根據K個第一融合HRTF和待渲染音訊訊號，確定第一目標渲染訊號，第一目標渲染訊號是用於向收聽者左耳輸出的渲染訊號；根據K個第二融合HRTF和待渲染音訊訊號，確定第二目標渲染訊號，第二目標渲染訊號是用於向收聽者右耳輸出的渲染訊號。

通過該可能的設計，通過根根據用於處理待渲染音訊訊號中的低頻帶訊號的左耳HRTF(即K個第一HRTF)，和用於處理待渲染音訊訊號中的高頻帶訊號的左耳HRTF(即K個第二HRTF是)得到的K個第一融合HRTF，來處理待渲染音訊訊號，可以提高雙耳渲染訊號的ITD的準確度。通過根根據用於處理待渲染音訊訊號中的低頻帶訊號的右耳HRTF(即K個第三HRTF)，和用於處理待渲染音訊訊號中的高頻帶訊號的右耳HRTF(即K個第四HRTF是)得到的K個第二融合HRTF，來處理待渲染音訊訊號，可以提高雙耳渲染訊號的ILD的準確度。這樣的話，高準確度的ITD和ILD，提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

在一種可能的實現方式中，上述的第一HRTF和第二HRTF是基於同一左耳HRTF確定的。上述的第三HRTF和第四HRTF是基於同一右耳HRTF確定的。

在另一種可能的設計方式中，在上述“基於K個第一HRTF和K個第二HRTF，確定K個第一融合HRTF”之前，上述方法還包括：獲取K個左耳初始HRTF，該K個左耳初始HRTF是基於K個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的左耳的HRTF，該K個左耳初始HRTF與K個虛擬揚聲器的訊號一一對應。基於該K個左耳初始HRTF，確定K個第一HRTF和K個第二HRTF。在上述“基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF”之前，上述方法還包括：獲取K個右耳初始HRTF，該K個右耳初始HRTF是基於K個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的右耳的HRTF，該K個右耳初始HRTF與K個虛擬揚聲器的訊號一一對應。基於該K個右耳初始HRTF，確定K個第三HRTF和K個第四HRTF。其中，上述K個虛擬揚聲器是以收聽者的頭中心位置為甜點位置設置的K個虛擬揚聲器。

在另一種可能的設計方式中，上述“基於K個左耳初始HRTF，確定K個第一HRTF和K個第二HRTF”包括：對K個左耳初始HRTF進行低通濾波處理，以得到K個第一HRTF；對K個左耳初始HRTF進行高通濾波處理，以得到K個第二HRTF。上述“基於K個右耳初始HRTF，確定K個第三HRTF和K個第四HRTF”包括：對K個右耳初始HRTF進行低通濾波處理，以得到K個第三HRTF；對K個右耳初始HRTF進行高通濾波處理，以得到K個第四HRTF。

通過上述三種可能的設計，音訊渲染裝置可以對通用的HRTF(即K個左耳初始HRTF和K個右耳初始HRTF)進行高低通濾波，從而得到上述K個第一HRTF和K個第二HRTF，以及確定K個第三HRTF和K個第四HRTF。這樣，音訊渲染裝置即可根據K個第一HRTF和K個第二HRTF得到用於處理待渲染音訊訊號的K個第一融合HRTF，以及，根據K個第二HRTF和K個第四HRTF得到用於處理待渲染音訊訊號的K個第二融合HRTF。這樣的話，當採用K個第一融合HRTF和K個第二融合HRTF處理待渲染音訊訊號，可以提高雙耳渲染訊號的ITD和ILD的準確度，從而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

在另一種可能的設計方式中，上述“基於K個左耳初始HRTF，確定K個第一HRTF和K個第二HRTF”包括：對K個左耳初始HRTF進行低通濾波處理和延時處理，以得到K個第一HRTF；對K個左耳初始HRTF進行高通濾波處理，以得到K個第二HRTF。或者，對K個左耳初始HRTF進行低通濾波處理，以得到K個第一HRTF；對K個左耳初始HRTF進行高通濾波處理和延時處理，以得到K個第二HRTF。上述“基於K個右耳初始HRTF，確定K個第三HRTF和K個第四HRTF”包括：對K個右耳初始HRTF進行低通濾波處理和延時處理，以得到K個第三HRTF；對K個右耳初始HRTF進行高通濾波處理，以得到K個第四HRTF。或者，對K個右耳初始HRTF進行低通濾波處理，以得到K個第三HRTF；對K個右耳初始HRTF進行高通濾波處理和延時處理，以得到K個第四HRTF。

通過該可能的設計，音訊渲染裝置在對通用的HRTF(即 K個左耳初始HRTF和K個右耳初始HRTF)進行高低通濾波後，還對經高通濾波的K個左耳初始HRTF或經低通濾波的K個左耳初始HRTF進行延時處理，以及，對經高通濾波的K個右耳初始HRTF或經低通濾波的K個右耳初始HRTF進行延時處理，從而得到上述K個第一HRTF和K個第二HRTF，以及確定K個第三HRTF和K個第四HRTF。這樣的話，可以消除基於該K個第一HRTF和K個第二HRTF得到的K個第一融合HRTF的有害效果，以及消除基於K個第三HRTF和K個第四HRTF得到的K個第二融合HRTF的有害效果，從而提高的最終渲染所得訊號的品質。

在另一種可能的設計方式中，上述待渲染音訊訊號包括J個聲道訊號，J是正整數。上述“根據K個第一融合HRTF和待渲染音訊訊號，確定第一目標渲染訊號”包括：將K個第一融合HRTF變換到待渲染音訊訊號域，以得到J個第一目標HRTF。該J個第一目標HRTF是該待渲染音訊訊號域中的左耳HRTF，該J個第一目標HRTF與J個聲道訊號一一對應。然後，根據該J個第一目標HRTF和J個聲道訊號，確定第一目標渲染訊號。上述“根據K個第二融合HRTF和待渲染音訊訊號，確定第二目標渲染訊號”包括：將K個第二融合HRTF變換到待渲染音訊訊號域，以得到J個第二目標HRTF。該J個第二目標HRTF是待渲染音訊訊號域中的右耳HRTF，該J個第二目標HRTF與J個聲道訊號一一對應。根據該J個第二目標HRTF和J個聲道訊號，確定第二目標渲染訊號。

在另一種可能的設計方式中，上述“根據J個第一目標HRTF和J個聲道訊號，確定第一目標渲染訊號”包括：將J個第一目標HRTF中每個第一目標HRTF，分別和J個聲道訊號中對應的聲道訊號進行卷積，以得到第一目標渲染訊號。上述“根據J個第二目標HRTF和J個聲道訊號，確定第二目標渲染訊號”包括：將J個第二目標HRTF中每個第二目標HRTF，分別和J個聲道訊號中對應的聲道訊號進行卷積，以得到第二目標渲染訊號。

根據該兩種可能的設計，音訊渲染裝置將K個第一融合HRTF和K個第二融合HRTF變換到待渲染音訊訊號域中，並用其處理待渲染音訊訊號，從而提高了雙耳渲染訊號的ITD和ILD的準確度，進而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

在另一種可能的設計方式中，上述“獲取待渲染音訊訊號”包括：接收經音訊解碼器解碼得到的待渲染音訊訊號。或者，接收音訊採集器採集到的待渲染音訊訊號。或者，獲取多個音訊訊號經合成處理後所得到的待渲染音訊訊號。

根據該可能的設計，本申請提供的音訊渲染方法可以應用於多種不同的應用場景中。

第二方面，本申請提供一種音訊渲染方法，該方法包括：獲取待渲染音訊訊號。將該待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號。以第一位置為甜點位置，確定該高頻帶訊號對應的第一渲染訊號，以第二位置為甜點位置，確定該高頻帶訊號對應的第二渲染訊號；其中，當第一位置是收聽者的左耳位置時，第二位置是收聽者的右耳位置，或者，當第一位置是收聽者的右耳位置時，第二位置是收聽者的左耳位置。以收聽者的頭中心位置為甜點位置，確定該低頻帶訊號對應的第三渲染訊號和第四渲染訊號；其中，第三渲染訊號用於確定向第一位置輸出的渲染訊號，第四渲染訊號用於確定向第二位置輸出的渲染訊號。接著，將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號；將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號。其中，第一目標渲染訊號是用於向第一位置輸出的渲染訊號，第二目標渲染訊號是用於向第二位置輸出的渲染訊號。

通過該可能的設計，音訊渲染裝置將待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號，並以收聽者的雙耳位置為甜點位置對高頻帶訊號進行渲染，從而提高了渲染訊號的雙耳強度差(interaural level difference，ILD)的準確度。音訊渲染裝置以收聽者的頭中心位置為甜點位置對低頻帶訊號進行渲染，從而提高了渲染訊號的雙耳時間差(interaural time difference，ITD)的準確度。因此，通過本申請實施例提供的音訊渲染方法得到的雙耳渲染訊號具有高準確度的ITD和ILD，從而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

在一種可能的設計方式中，上述“將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號；將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號”包括：對第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號分別進行淡入處理，對第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號分別進行淡出處理；其中，該過渡帶是以高頻帶訊號和低頻帶訊號的臨界頻率為中心，向上浮動第一頻寬以及向下浮動第二頻寬的頻帶。然後，根據經淡入處理後的第一渲染訊號和經淡出處理後的第三渲染訊號，得到第一融合訊號，根據經淡入處理後的第二渲染訊號和經淡出處理後的第四渲染訊號，得到第二融合訊號。接著，將第一融合訊號、第一渲染訊號的過渡帶外訊號、以及第三渲染訊號的過渡帶外訊號疊加，得到第一目標渲染訊號；將第二融合訊號、第二渲染訊號的過渡帶外訊號、以及第四渲染訊號的過渡帶外訊號疊加，得到第二目標渲染訊號。

在另一種可能的設計方式中，上述“對第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號分別進行淡入處理”包括：通過淡入因子，對該第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號分別進行淡入處理。上述“對第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號分別進行淡出處理”包括：通過淡出因子，對該第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號分別進行淡出處理。其中，過渡帶對應T個淡入因子和淡出因子的組合，T是正整數，T個組合中任一個組合所對應的淡入因子與淡出因子的和為1。

通過該兩種可能的設計，可以將第一渲染訊號和第三渲染訊號通過漸變的方式的融合在一起，從而得到平滑的第一目標渲染訊號，以及將第二渲染訊號和第四渲染訊號通過漸變的方式的融合在一起，從而得到平滑的第二目標渲染訊號。這樣，有助於提高第一目標渲染訊號和第二目標渲染訊號的品質。

在另一種可能的設計方式中，在上述“將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號；將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號”之前，上述方法還包括：對第一渲染訊號或第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第一渲染訊號或第三渲染訊號的群延時為固定值。對第二渲染訊號或第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第二渲染訊號或第四渲染訊號的群延時均為固定值。上述“將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號”包括：將第一渲染訊號和第三渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第一目標渲染訊號。上述“將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號”包括：將第二渲染訊號和第四渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第二目標渲染訊號。

通過該可能的設計，可以消除第一渲染訊號和第三渲染訊號融合後得到的第一融合訊號的梳狀效應，以及消除第二渲染訊號和第四渲染訊號融合後得到的第二融合訊號的梳狀效應。

在另一種可能的設計方式中，上述“以第一位置為甜點位置，確定高頻帶訊號對應的第一渲染訊號，以第二位置為甜點位置，確定高頻帶訊號對應的第二渲染訊號”包括：以第一位置為甜點位置，獲取高頻帶訊號對應的M個第一訊號。該M個第一訊號分別是M個虛擬揚聲器的訊號，該M個第一訊號與M個虛擬揚聲器一一對應；其中，M是正整數。以第二位置為甜點位置，獲取高頻帶訊號對應的N個第二訊號。該N個第二訊號分別是N個虛擬揚聲器的訊號，該N個第二訊號與N個虛擬揚聲器一一對應；其中，N是正整數，N=M。獲取M個第一頭相關傳輸函數HRTF和N個第二HRTF，其中，該M個第一HRTF與M個第一訊號一一對應，該N個第二HRTF與N個第二訊號一一對應。然後，根據M個第一訊號和M個第一HRTF，確定第一渲染訊號，根據N個第二訊號和N個第二HRTF，確定第二渲染訊號。

通過該可能的設計，實現了以收聽者的雙耳位置(即第一位置和第二位置)為甜點位置對高頻帶訊號的渲染，這樣的話，可以提高渲染所得訊號的ILD的準確度，從而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

在另一種可能的設計方式中，上述“以第一位置為甜點位置，獲取高頻帶訊號對應的M個第一訊號”包括：對高頻帶訊號進行處理，得到M個虛擬揚聲器的M個第一訊號；M個虛擬揚聲器是以第一位置為甜點位置設置的M個虛擬揚聲器。上述“以第二位置為甜點位置，獲取高頻帶訊號對應的N個第二訊號”包括：對高頻帶訊號進行處理，得到N個虛擬揚聲器的N個第二訊號；N個虛擬揚聲器是以第二位置為甜點位置設置的N個虛擬揚聲器。

在另一種可能的設計方式中，上述方法還包括：對高頻帶訊號進行處理，得到X個虛擬揚聲器對應的X個初始訊號。其中，該X個初始訊號與X個虛擬揚聲器一一對應，X個虛擬揚聲器是以頭中心位置為甜點位置設置的X個虛擬揚聲器。其中，X是正整數，X=M=N。上述“以第一位置為甜點位置，獲取高頻帶訊號對應的M個第一訊號”包括：將X個初始訊號分別旋轉第一角度，得到M個第一訊號。其中，該第一角度是第一連線和第二連線的夾角，該第一連線是第一虛擬揚聲器的位置與頭中心位置的連線，該第二連線是第一虛擬揚聲器的位置與第一位置的連線。其中，第一虛擬揚聲器是X個虛擬揚聲器中的任一個虛擬揚聲器。上述“以第二位置為甜點位置，獲取高頻帶訊號對應的N個第二訊號”包括：將X個初始訊號分別旋轉第二角度，得到N個第二訊號。其中，該第二角度是第一連線和第三連線的夾角，該第三連線是第一虛擬揚聲器的位置與第二位置的連線。

通過該兩種可能的設計，音訊渲染裝置可以直接根據高頻帶訊號，確定出M個第一訊號和N個第二訊號。或者，音訊渲染裝置可以根據高頻帶訊號，先確定以頭中心位置為甜點位置設置的X個虛擬揚聲器的訊號，然後再進一步根據該X個虛擬揚聲器的訊號，確定出上述M個第一訊號和上述N個第二訊號。這樣的話，提高了本申請方案實現的靈活度。

在另一種可能的設計方式中，上述M個第一HRTF是基於M個第一訊號，以第一位置為甜點位置測量的第一位置的HRTF。上述N個第二HRTF是基於N個第二訊號，以第二位置為甜點位置測量的第二位置的HRTF。

在另一種可能的設計方式中，上述“獲取M個HRTF和N個第二HRTF”包括：獲取Y個初始HRTF，該Y個初始HRTF是基於Y個虛擬揚聲器的訊號，以頭中心位置為甜點位置測量的頭中心位置的HRTF，該Y個虛擬揚聲器是以頭中心位置為甜點位置設置的Y個虛擬揚聲器，該Y個初始HRTF與Y個虛擬揚聲器的訊號一一對應。其中，Y是正整數，Y=M=N。將Y個初始HRTF分別旋轉第三角度，得到M個第一HRTF。其中，該第三角度是第三連線和第四連線的夾角，該第三連線是第二虛擬揚聲器的位置與頭中心位置的連線，該第四連線是第二虛擬揚聲器的位置和第一位置的連線。其中，該第二虛擬揚聲器是Y個虛擬揚聲器中的任一個虛擬揚聲器。將Y個初始HRTF分別旋轉第四角度，得到N個第二HRTF。其中，該第四角度是第三連線和第五連線之間的夾角，該第五連線是第二虛擬揚聲器的位置和第二位置的連線。

通過該兩種可能的設計，音訊渲染裝置可以直接根據M個第一訊號確定出M個第一HRTF，以及根據N個第二訊號確定出N個第二HRTF。或者，音訊渲染裝置可以先基於Y個虛擬揚聲器的訊號，以頭中心位置為甜點位置測量的頭中心位置的Y個初始HRTF，然後再根據Y個初始HRTF，確定出M個第一HRTF和N個第二HRTF。這樣的話，提高了本申請方案實現的靈活度。

在另一種可能的設計方式中，上述“以收聽者的頭中心位置為甜點位置，確定低頻帶訊號對應的第三渲染訊號和第四渲染訊號”包括：對低頻帶訊號進行處理，得到R個第三訊號，該R個第三訊號分別是R個虛擬揚聲器的訊號，該R個第三訊號與R個虛擬揚聲器一一對應，該R個虛擬揚聲器是以頭中心位置為甜點位置設置的R個虛擬揚聲器。其中，R是正整數。獲取R個第三HRTF，該R個第三HRTF是基於R個第三訊號，以頭中心位置為甜點位置測量的第一位置的HRTF，該R個第三HRTF與R個第三訊號一一對應。獲取R個第四HRTF，該R個第四HRTF是基於R個第三訊號，以頭中心位置為甜點位置測量的第二位置的HRTF，該R個第四HRTF與R個第三訊號一一對應。接著，根據R個第三訊號和R個第三HRTF，確定第三渲染訊號，根據R個第三訊號和R個第四HRTF，確定第四渲染訊號。

通過該可能的設計，實現了以收聽者的頭中心位置為甜點位置對低頻帶訊號的渲染，這樣的話，可以提高渲染所得訊號的ITD的準確度，從而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

第三方面，本申請提供了一種音訊渲染裝置。

在一種可能的設計方式中，該音訊渲染裝置用於執行上述第一方面或第二方面提供的任一種方法。本申請可以根據上述第一方面或二方面提供的任一種方法，對該音訊渲染裝置進行功能模組的劃分。例如，可以對應各個功能劃分各個功能模組，也可以將兩個或兩個以上的功能集成在一個處理模組中。示例性的，本申請可以按照功能將該音訊渲染裝置劃分為獲取單元、劃分單元、確定單元以及融合單元等，或者，本申請可以按照功能將該音訊渲染裝置劃分為獲取單元和確定單元等。上述劃分的各個功能模組執行的可能的技術方案和有益效果的描述均可以參考上述第一方面或其相應的可能的設計提供的技術方案，或者可以參考上述第二方面或其相應的可能的設計提供的技術方案，此處不再贅述。

在另一種可能的設計中，該音訊渲染裝置包括：記憶體和一個或多個處理器，記憶體和處理器耦合。記憶體用於存儲電腦指令，處理器用於調用該電腦指令，以執行如第一方面及其任一種可能的設計方式提供的任一種方法，或者，執行如第二方面及其任一種可能的設計方式提供的任一種方法。

第四方面，本申請提供了一種電腦可讀存儲介質，如電腦非瞬態的可讀存儲介質。其上儲存有電腦程式(或指令)，當該電腦程式(或指令)在音訊渲染裝置上運行時，使得該音訊渲染裝置執行上述第一方面中或第二方面中的任一種可能的實現方式提供的任一種方法。

第五方面，本申請提供了一種電腦程式產品，當其在音訊渲染裝置上運行時，使得第一方面中或第二方面中的任一種可能的實現方式提供的任一種方法被執行。

第六方面，本申請提供了一種晶片系統，包括：處理器，處理器用於從記憶體中調用並運行該記憶體中存儲的電腦程式，執行第一方面中或第二方面中的實現方式提供的任一種方法。

可以理解的是，上述提供的任一種裝置、電腦存儲介質、電腦程式產品或晶片系統等均可以應用于上文所提供的對應的方法，因此，其所能達到的有益效果可參考對應的方法中的有益效果，此處不再贅述。

在本申請中，上述音訊渲染裝置的名字對設備或功能模組本身不構成限定，在實際實現中，這些設備或功能模組可以以其他名稱出現。只要各個設備或功能模組的功能和本申請類似，屬於本申請申請專利範圍及其等同技術的範圍之內。

本申請的這些方面或其他方面在以下的描述中會更加簡明易懂。

10:影音系統

11:發送端

12:接收端

111:採集模組

112:音訊預處理模組

113:音訊編碼模組

114:視頻組合模組

115:預測繪圖模組

116:視頻編碼模組

117:圖像編碼模組

118:封裝模組

119、120、121:傳輸模組

122:解封裝模組

123:音訊解碼模組

124:音訊渲染模組

125:揚聲器/耳機

126:視頻解碼模組

127:圖像解碼模組

128:視頻渲染模組

129:播放機

20:終端設備

21:處理器

22:記憶體

23:通訊介面

24:匯流排

160:音訊渲染裝置

161:獲取單元

162:劃分單元

163:確定單元

164:融合單元

165:濾波單元

170:音訊渲染裝置

171:獲取單元

172:確定單元

173:變換單元

180:晶片系統

181:處理器

182:介面電路

190:訊號承載介質

191:電腦可讀介質

192:電腦可記錄介質

193:通訊介質

411、412、413、421、422、423、51、52、53、110:虛擬揚聲器

41、42、50:預設曲線

S101:音訊渲染裝置獲取待渲染音訊訊號的步驟

S102:音訊渲染裝置將所獲取的待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號的步驟

S103:音訊渲染裝置確定高頻帶訊號對應的第一渲染訊號和第二渲染訊號的步驟

S104:音訊渲染裝置確定低頻帶訊號對應的第三渲染訊號和第四渲染訊號的步驟

S105:音訊渲染裝置對第一渲染訊號或第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第一渲染訊號或第三渲染訊號的群延時為固定值。音訊渲染裝置對第二渲染訊號或第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第二渲染訊號或第四渲染訊號的群延時為固定值的步驟

S106:音訊渲染裝置將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號。音訊渲染裝置將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號的步驟

S1031:音訊渲染裝置獲取高頻帶訊號對應的M個第一訊號和N個第二訊號。其中，M和N分別為正整數的步驟

S1032:音訊渲染裝置獲取M個第一HRTF和N個第二HRTF的步驟

S1033:音訊渲染裝置基於M個第一訊號和M個第一HRTF，確定第一渲染訊號，以及基於N個第二訊號和N個第二HRTF，確定第二渲染訊號的步驟

S1041:音訊渲染裝置獲取低頻帶訊號對應的R個第三訊號。其中，R是正整數的步驟

S1042:音訊渲染裝置獲取R個第三HRTF和R個第四HRTF的步驟

S1043:音訊渲染裝置基於R個第三訊號和R個第三HRTF，確定第三渲染訊號，以及基於R個第三訊號和R個第四HRTF，確定第四渲染訊號的步驟

S201:音訊渲染裝置獲取待渲染音訊訊號的步驟

S202:音訊渲染裝置獲取K個左耳初始HRTF和K個右耳初始HRTF的步驟

S203:音訊渲染裝置基於上述K個左耳初始HRTF，確定K個第一HRTF和K個第二HRTF。音訊渲染裝置基於上述K個右耳初始HRTF，確定K個第三HRTF和K個第四HRTF的步驟

S204:音訊渲染裝置根據上述確定的K個第一HRTF和K個第二HRTF，確定K個第一融合HRTF。音訊渲染裝置根據上述確定的K個第三HRTF和K個第四HRTF，確定第二融合HRTF的步驟

S205:基於待渲染音訊訊號，音訊渲染裝置將上述確定的K個第一融合HRTF變換(transform)到待渲染音訊訊號域，以得到J個第一目標HRTF。音訊渲染裝置將上述確定的K個第二融合HRTF變換到待渲染音訊訊號域，以得到J個第二目標HRTF的步驟

S206:音訊渲染裝置根據確定的J個第一目標HRTF和待渲染音訊訊號，確定第一目標渲染訊號。音訊渲染裝置根據確定的J個第二目標HRTF和待渲染音訊訊號，確定第二目標渲染訊號的步驟

圖1為本申請實施例提供的一種影音系統的結構示意圖；圖2為本申請實施例提供的一種終端設備的結構示意圖；圖3為本申請實施例提供的一種音訊渲染方法的流程示意圖一；圖4為本申請實施例提供的一種虛擬揚聲器的位置場景圖一；圖5為本申請實施例提供的一種虛擬揚聲器的位置場景圖二；圖6為本申請實施例提供的一種音訊訊號的有害效應的極端情況的示意圖；圖7為本申請實施例提供的一種梳狀濾波的示意圖；圖8為本申請實施例提供的一種訊號淡入淡出的示意圖；圖9為本申請實施例提供的一種音訊渲染方法的流程示意圖二；圖10為本申請實施例提供的一種音訊渲染方法的流程示意圖三；圖11為本申請實施例提供的一種第一角度和第二角度的示意圖；圖12為本申請實施例提供的一種第三角度和第四角度的示意圖；圖13為本申請實施例提供的一種音訊渲染方法的流程示意圖四；圖14為本申請實施例提供的一種低通濾波示意圖；圖15為本申請實施例提供的一種高通濾波示意圖；圖16為本申請實施例提供的一種音訊渲染裝置的結構示意圖一；圖17為本申請實施例提供的一種音訊渲染裝置的結構示意圖二；圖18為本申請實施例提供的一種晶片系統的結構示意圖；圖19為本申請實施例提供的電腦程式產品的結構示意圖。

以下，說明本申請實施例中涉及的部分術語或技術：

1)、頭相關傳輸函數(head related transfer function，HRTF)

聲源發出的聲波經頭部、耳廓、軀幹等散射後到達雙耳，其中的物理過程可視為一個線性時不變的聲濾波系統，其特性可由HRTF描述。也就是說，HRTF描述了聲波從聲源到雙耳的傳輸過程。

HRTF可以更形象的解釋為：如果聲源發出的音訊訊號為X，該音訊訊號X傳輸到預定位置後的音訊訊號為Y，則X

Z=Y(X卷積Z等於Y)，其中，Z即為HRTF。

2)、甜點位置

當通過位於不同位置處的多個揚聲器(或揚聲器設備)同時播放一段音訊時，收聽者收聽到該音訊的最佳位置，即為該多個揚聲器的甜點位置。

示例性的，電影放映廳的四周通常設置了多個音響設備(即揚聲器設備)。通常，在電影放映廳靠近中間的位置處，觀眾可以收聽到最好的電影音效。因此，該位置即為該多個音響設備的甜點位置。

3)、頭中效應

頭中效應常見於耳機，尤其是入耳式耳機。其具體表現是：通過耳機收聽音訊(例如音樂)時，仿佛音樂存在於收聽者的腦中，而非收聽者所在的空間中。好的聲場(sound field)可以營造出好的臨場感，使收聽者仿佛置身於一個音樂廳的中心位置，並且被周圍(外界)的各個樂器聲包圍。

4)、聲像定位(image localization)

聲像定位是指對音訊(例如樂器或人聲)聲像能夠準確地進行定位，甚至能清晰地確定聲場(sound field)的特徵。這裡，聲場是指媒質中有聲波存在的區域。

聲源與收聽者的雙耳之間可以形成相同或不同的角度。由於角度的差距，使得聲源播放的音訊由聲源位置傳到收聽者左、右耳的時間產生微小的時間差。而人耳的生理特性對該微小的時間差非常敏感，因此使人能夠產生準確的方向感。同時，由於角度的差距，使得聲源播放的音訊由聲源位置到達收聽者左、右耳的距離產生微小的差距，人耳可以通過聲音強弱的微小差距產生距離感，從而使聲像得到準確地定位。

5)、其他術語

在本申請實施例中，“示例性的”或者“例如”等詞用於表示作例子、例證或說明。本申請實施例中被描述為“示例性的”或者“例如”的任何實施例或設計方案不應被解釋為比其它實施例或設計方案更優選或更具優勢。確切而言，使用“示例性的”或者“例如”等詞旨在以具體方式呈現相關概念。

在本申請的實施例中，術語“第一”、“第二”僅用於描述目的，而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特徵的數量。由此，限定有“第一”、“第二”的特徵可以明示或者隱含地包括一個或者更多個該特徵。

在本申請的描述中，除非另有說明，“多個”的含義是兩個或兩個以上。本申請中術語“至少一個”的含義是指一個或多個，本申請中術語“多個”的含義是指兩個或兩個以上。

應理解，在本文中對各種所述示例的描述中所使用的術語只是為了描述特定示例，而並非旨在進行限制。如在對各種所述示例的描述和所附申請專利範圍中所使用的那樣，單數形式“一個(“a”，“an”)”和“該”旨在也包括複數形式，除非上下文另外明確地指示。

還應理解，本文中所使用的術語“和/或”是指並且涵蓋相關聯的所列出的專案中的一個或多個專案的任何和全部可能的組合。術語“和/或”，是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本申請中的字元“/”，一般表示前後關聯物件是一種“或”的關係。

還應理解，在本申請的各個實施例中，各個過程的序號的大小並不意味著執行順序的先後，各過程的執行順序應以其功能和內在邏輯確定，而不應對本申請實施例的實施過程構成任何限定。

應理解，根據A確定B並不意味著僅僅根據A確定B，還可以根據A和/或其它資訊確定B。

還應理解，術語“包括”(也稱“includes”、“including”、“comprises”和/或“comprising”)當在本說明書中使用時指定存在所陳述的特徵、整數、步驟、操作、元素、和/或部件，但是並不排除存在或添加一個或多個其他特徵、整數、步驟、操作、元素、部件、和/或其分組。

還應理解，術語“如果”可被解釋為意指“當...時”(“when”或“upon”)或“回應於確定”或“回應於檢測到”。類似地，根據上下文，短語“如果確定...”或“如果檢測到[所陳述的條件或事件]”可被解釋為意指“在確定...時”或“回應於確定...”或“在檢測到[所陳述的條件或事件]時”或“回應於檢測到[所陳述的條件或事件]”。

應理解，說明書通篇中提到的“一個實施例”、“一實施例”、“一種可能的實現方式”意味著與實施例或實現方式有關的特定特徵、結構或特性包括在本申請的至少一個實施例中。因此，在整個說明書各處出現的“在一個實施例中”或“在一實施例中”、“一種可能的實現方式”未必一定指相同的實施例。此外，這些特定的特徵、結構或特性可以任意適合的方式結合在一個或多個實施例中。

圖1為本申請實施例提供的一種影音系統10的結構示意圖。影音系統10可以為VR系統、AR系統、MR系統或其他資料流系統。當然，本申請實施例對於影音系統10的實際形態不作具體限定。如圖1所示，影音系統10包括發送端11和接收端12。

發送端11，用於採集音訊訊號和視訊訊號，並分別對音訊訊號和視訊訊號進行編碼，以得到碼流。如圖1所示，發送端11可以包括採集模組(acquisition)111、音訊預處理模組(audio preprocessing)112、音訊編碼模組(audio encoding)113、視頻組合模組(visual stitching)114、預測繪圖模組(projection and mapping)115、視頻編碼模組(video encoding)116、圖像編碼模組(image encoding)117、封裝模組(file/segment encapsulation)118以及傳輸模組(delivery)119。

其中，採集模組111，可以用於採集聲源的音訊訊號，並將音訊訊號傳輸至音訊預處理模組112進行預處理。採集模組111還可以用於採集視訊訊號。該視訊訊號經過視頻組合模組114、預測繪圖模組115、視頻編碼模組116以及圖像編碼模組117的處理後，將編碼後的視訊訊號傳輸至封裝模組118。

音訊預處理模組112，用於對採集模組111採集到的音訊訊號進行預處理，例如以20Hz或50Hz為臨界頻率，濾除該音訊訊號中的低頻部分。然後，音訊預處理模組112將預處理後的音訊訊號傳輸至音訊編碼模組113。

音訊編碼模組113，用於對預處理後的音訊訊號進行編碼，並將編碼後的音訊訊號傳輸至封裝模組118。

封裝模組118，用於將編碼後的音訊訊號和編碼後的視訊訊號進行封裝得到碼流，該碼流通過傳輸模組119傳輸至接收端12的傳輸模組121。可選的，傳輸模組119和傳輸模組121可以是有線通訊模組或者無線通訊模組，本申請實施例對此不作具體限定。

需要說明的是，當影音系統10為資料流系統時，傳輸模組119具體可以實現為伺服器的形式，即發送端11將碼流上傳至伺服器，由接收端12按照需求從伺服器下載碼流，以實現傳輸模組119的功能，該過程不再進行贅述。

接收端12，用於獲取傳輸模組119傳輸的碼流，並對該碼流進行解碼，以得到音訊訊號和視訊訊號。然後，接收端12分別對該音訊訊號和該視訊訊號進行渲染，並播放所渲染的音訊或視頻。如圖1所示，接收端12可以包括傳輸模組121、解封裝模組(file/segment decapsulation)122、音訊解碼模組(audio decoding)123、音訊渲染模組(audio rendering)124、揚聲器/耳機 (loudspeakers/headphones)125、視頻解碼模組(video decoding)126、圖像解碼模組(image decoding)127、視頻渲染模組(visual rendering)128以及播放機(display)129。

傳輸模組121，用於獲取傳輸模組119傳輸的碼流，並將該碼流傳輸至解封裝模組122。

解封裝模組122，用於對碼流進行解封裝，獲得編碼後的音訊訊號和編碼後的視訊訊號，並將編碼後的音訊訊號傳輸至音訊解碼模組123，將編碼後的視訊訊號傳輸至視頻解碼模組126和圖像解碼模組127。

音訊解碼模組123，用於對編碼後的音訊訊號進行解碼，並將解碼後的音訊訊號傳輸至音訊渲染模組124。

音訊渲染模組124，用於對解碼後的音訊訊號進行渲染處理，並將渲染訊號傳輸至揚聲器/耳機209進行播放。

視頻解碼模組126、圖像解碼模組127以及視頻渲染模組128，用於對編碼後的視訊訊號進行處理，並將處理後的視訊訊號傳輸至播放機129播放。

需要說明的是，圖1中示出的結構並不構成對影音系統10的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

可以理解的是，上述發送端11和上述接收端12可以設置在不同的終端設備中，當然，也可以設置在同一個終端設備中，本申請實施例對此不作限定。其中，該終端設備可以是具有音訊訊號和視訊訊號處理能力的電子設備，例如可以是手機，可穿戴設備，VR設備或AR設備等，對此不作限定。

參考圖2，本申請實施例提供了一種終端設備20的結構示意圖。終端設備20可以是圖1中的發送端11，也可以是圖1中的接收端12，或者可以是包括圖1中的發送端11和接收端12的終端設備，本申請實施例對此不作限定。如圖2所示，終端設備20可以包括處理器21、記憶體22、通訊介面23以及匯流排24。其中，處理器21、記憶體22以及通訊介面23之間可以通過匯流排24連接。

處理器21是終端設備20的控制中心，可以是一個通用中央處理單元(central processing unit，CPU)，也可以是其他通用處理器等。其中，通用處理器可以是微處理器或者是任何常規的處理器等。

作為示例，處理器21可以包括一個或多個CPU，例如圖2中所示的CPU 0和CPU 1。

記憶體22可以是唯讀記憶體(read-only memory，ROM)或可存儲靜態資訊和指令的其他類型的靜態存放裝置，隨機存取記憶體(random access memory，RAM)或者可存儲資訊和指令的其他類型的動態儲存裝置設備，也可以是電可擦可程式設計唯讀記憶體(electrically erasable programmable read-only memory，EEPROM)、磁片存儲介質或者其他磁存放裝置、或者能夠用於攜帶或存儲具有指令或資料結構形式的期望的程式碼並能夠由電腦存取的任何其他介質，但不限於此。

一種可能的實現方式中，記憶體22可以獨立於處理器21存在。記憶體22可以通過匯流排24與處理器21相連接，用於存儲資料、指令或者程式碼。處理器21調用並執行記憶體22中存儲的指令或程式碼時，能夠實現本申請實施例提供的音訊渲染方法。

另一種可能的實現方式中，記憶體22也可以和處理器21集成在一起。

通訊介面23，用於終端設備20與其他設備(如伺服器等)通過通訊網路連接，該通訊網路可以是乙太網，無線接入網(radio access network，RAN)，無線局域網(wireless local area networks，WLAN)等。通訊介面23可以包括用於接收資料的接收單元，以及用於發送資料的發送單元。

應理解，接收單元和發送單元，可以和圖1中的傳輸模組119以及傳輸模組120的功能相似或相同。

匯流排14，可以是工業標準架構(Industry Standard Architecture，ISA)匯流排、外部設備互連(Peripheral Component Interconnect，PCI)匯流排或擴展工業標準架構(Extended Industry Standard Architecture，EISA)匯流排等。該匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示，圖2中僅用一條粗線表示，但並不表示僅有一根匯流排或一種類型的匯流排。

需要指出的是，圖2中示出的結構並不構成對該終端設備20的限定，除圖2所示部件之外，該終端設備20可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

本申請實施例提供了一種音訊渲染方法和裝置，該方法可以應用於圖1所示的影音系統10的接收端12中，具體的，該方法可以應用於上述音訊渲染模組124中。或者，該方法可以應用於圖2所示的終端設備20中，當該方法應用於圖2所示的終端設備20中時，可以通過處理器21執行記憶體22中的程式指令實現本申請實施例提供的音訊渲染方法。通過執行本申請實施例提供的音訊渲染方法，可以提高雙耳渲染訊號對聲像定位的精確度，減少雙耳渲染訊號的頭中效應，以及提高雙耳渲染訊號的聲場寬度。

下面結合附圖，對本申請實施例提供的音訊渲染方法進行描述。

實施例一

在本實施例中，音訊渲染裝置將待渲染音訊訊號轉換到虛擬揚聲器訊號域，並在虛擬揚聲器訊號域中渲染待渲染音訊訊號。

請參考圖3，圖3示出了本申請實施例提供的一種音訊渲染方法的流程示意圖。該方法可以包括以下步驟：

S101、音訊渲染裝置獲取待渲染音訊訊號。

其中，待渲染音訊訊號可以包括至少2個獨立的聲道訊號。這裡，1個獨立的聲道訊號，可以通過1個音訊採集器採集聲源的音訊得到。具體的，音訊採集器可以將聲源的音訊轉換為電訊號，從而得到1個獨立的聲道訊號。

可選的，該待渲染音訊訊號可以是一階高保真度身歷聲響複製(firs-order ambisonics，FOA)訊號，也可以是高階高保真度身歷聲響複製(high-order ambisonics，HOA)訊號。其中，FOA訊號包括4個獨立的聲道訊號，HOA訊號包括(S+1)2個獨立的聲道訊號，這裡，S是大於1的整數。例如，當S是2時，HOA訊號包括9(即(2+1)2)個獨立的聲道訊號。

可選的，音訊渲染裝置可以接收經音訊解碼器解碼得到的待渲染音訊訊號。示例性的，音訊渲染裝置可以接收經圖1中的音訊解碼模組123解碼的音訊訊號，並將該解碼後的音訊訊號作為待渲染音訊訊號。

可選的，音訊渲染裝置可以接收音訊採集器採集到的待渲染音訊訊號。音訊渲染裝置可以接收音訊採集器採集到的至少2聲道訊號，並將該至少2聲道訊號作為待渲染音訊訊號進行渲染。

可選的，音訊渲染裝置可以獲取多個音訊訊號經合成處理後所得到的待渲染音訊訊號。這裡，該多個音訊訊號可以是單聲道訊號，也可以是多聲道訊號，對此不作限定。

S102、音訊渲染裝置將所獲取的待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號。

通常，人耳可以感知到的頻率範圍大約為0~20000Hz，因此，待渲染音訊訊號的頻率範圍可以分佈在0~20000Hz之間。

可選的，音訊渲染裝置可以按照預設頻率，將待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號，本申請實施例對該預設頻率的取值不作限定。這裡，該預設頻率即為高頻帶訊號和低頻帶訊號的臨界頻率。

具體的，若待渲染音訊訊號的頻率範圍是[0，f_s]，音訊渲染裝置可以按照預設頻率f_c，將待渲染音訊訊號劃分為頻率範圍為(f_c，f_s]的高頻帶訊號，以及頻率範圍為[0，f_c]的低頻帶訊號。或者，音訊渲染裝置可以按照預設頻率f_c，將待渲染音訊訊號劃分為頻率範圍為[f_c，f_s]的高頻帶訊號，以及頻率範圍為[0，f_c)低頻帶訊號。其中，0<f_c<f_s。

可以看出，上述臨界頻率可以歸屬于高頻帶訊號的頻率範圍，也可以歸屬於低頻帶訊號頻率範圍，對此不作限定。

示例性的，以f_s是20000Hz、f_c是1500Hz為例，這時，待渲染音訊訊號的頻率範圍是[0，20000Hz]。音訊渲染裝置以1500Hz為臨界頻率，將待渲染音訊訊號劃分為頻率範圍為(1500Hz，20000Hz]的高頻帶訊號，以及頻率範圍為[0，1500Hz]的低頻帶訊號。或者，音訊渲染裝置以1500Hz為臨界頻率，將待渲染音訊訊號劃分為頻率範圍為[1500Hz，20000Hz]的高頻帶訊號，以及頻率範圍為[0，1500Hz)的低頻帶訊號。

S103、音訊渲染裝置確定高頻帶訊號對應的第一渲染訊號和第二渲染訊號。

第一渲染訊號可以是音訊渲染裝置以第一位置為甜點位置，對高頻帶訊號進行渲染處理得到的渲染訊號。第二渲染訊號可以是音訊渲染裝置以第二位置為甜點位置，對高頻帶訊號進行渲染處理得到的渲染訊號。這樣，通過以收聽者的雙耳位置為甜點位置來渲染待渲染音訊訊號的高頻帶訊號，可以提高渲染訊號的雙耳強度差(interaural level difference，ILD)的準確度。這樣，高準確度的ILD，提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

其中，如果第一位置是收聽者的左耳位置，則第二位置是收聽者的右耳位置，這時，第一渲染訊號是高頻帶訊號經渲染處理後得到的左耳渲染訊號，第二渲染訊號是高頻帶訊號經渲染處理後得到的右耳渲染訊號。如果第一位置是收聽者的右耳位置，則第二位置可以是收聽者的左耳位置，這種情況下，第一渲染訊號是高頻帶訊號經渲染處理後得到的右耳渲染訊號，第二渲染訊號是高頻帶訊號經渲染處理後得到的左耳渲染訊號。對此不作限定。

可以理解的是，當以第一位置為甜點位置時，在該甜點位置的預設位置處，設置有M個虛擬揚聲器，該M虛擬揚聲器用於產生M個聲源訊號。其中，M是正整數。例如，M可以是大於或等於3的整數。又例如，M的取值可以大於或等於待渲染音訊訊號聲道的數量，本申請實施例對此不作限定。

可以理解的是，當以第二位置為甜點位置時，在該甜點位置的預設位置處，設置有N個虛擬揚聲器，該N虛擬揚聲器用於產生N個聲源訊號。其中，N是正整數，N=M。

示例性的，以第一位置為收聽者的左耳位置，第二位置為收聽者的右耳位置為例。參考圖4，圖4示出了以收聽者的左耳位置為甜點位置時，設置的M個虛擬揚聲器的分佈情況。這裡，以M是3為例。如圖4所示，B為收聽者的左耳位置，若以位置B為甜點位置，則3個虛擬揚聲器(包括虛擬揚聲器411、虛擬揚聲器412以及虛擬揚聲器413)可以分佈於橢圓形的預設曲線41上。

圖4還示出了以收聽者的右耳位置為甜點位置時，設置的N個虛擬揚聲器的分佈情況。這裡，以N是3為例。如圖4所示，C為收聽者的右耳位置，若以位置C為甜點位置，則3個虛擬揚聲器(包括虛擬揚聲器421、虛擬揚聲器422以及虛擬揚聲器423)可以分佈於橢圓形的預設曲線42上。

音訊渲染裝置基於上述設置的M個虛擬揚聲器的訊號確定高頻帶訊號對應的第一渲染訊號，以及基於設置的N個虛擬揚聲器確定高頻帶訊號對應的第二渲染訊號，即音訊渲染裝置將待渲染音訊訊號轉換到虛擬揚聲器訊號域，並在虛擬揚聲器訊號域確定出待渲染音訊訊號的高頻帶訊號對應的雙耳渲染訊號。

具體的，音訊渲染裝置基於上述設置的M個虛擬揚聲器的訊號確定高頻帶訊號對應的第一渲染訊號，以及基於上述設置的N個虛擬揚聲器的訊號確定高頻帶訊號對應的第二渲染訊號的具體過程，可以參考下文描述，這裡不予贅述。

S104、音訊渲染裝置確定低頻帶訊號對應的第三渲染訊號和第四渲染訊號。

第三渲染訊號和第四渲染訊號可以是音訊渲染裝置以收聽者的頭中心位置為甜點位置，對低頻帶訊號進行渲染處理後得到的渲染訊號。這樣，通過以收聽者的頭中心位置為甜點位置來渲染待渲染音訊訊號的低頻帶訊號，可以提高渲染訊號的雙耳時間差(interaural time difference，ITD)的準確度。這樣，高準確度的ITD，提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

可以理解的是，當以收聽者的頭中心位置為甜點位置時，在預設位置處，設置有R個虛擬揚聲器，該R個虛擬揚聲器用於產生R個聲源訊號。其中，R是正整數。例如，R可以是大於或等於3的整數。又例如，R的取值可以大於等於待渲染音訊訊號聲道的數量，本申請實施例對此不作限定。

參考圖5，圖5示出了以收聽者的頭中心位置為甜點位置時，設置的R個虛擬揚聲器的分佈情況。這裡，以R是3為例。如圖5所示，A為收聽者的頭中心位置，若以位置A為甜點位置，則3個虛擬揚聲器(包括虛擬揚聲器51、虛擬揚聲器52以及虛擬揚聲器53)可以分佈於橢圓形的預設曲線50上。

音訊渲染裝置基於上述設置的R個虛擬揚聲器的訊號確定低頻帶訊號對應的第三渲染訊號和第四渲染訊號，即音訊渲染裝置將待渲染音訊訊號轉換到虛擬揚聲器訊號域，並在虛擬揚聲器訊號域確定出待渲染音訊訊號的低頻帶訊號對應的雙耳渲染訊號。

具體的，音訊渲染裝置基於上述設置的R個虛擬揚聲器的訊號確定低頻帶訊號對應的第三渲染訊號和第四渲染訊號的具體過程，可以參考下文描述，這裡不予贅述。

可以理解的是，本申請實施例對S103和S104執行的時序不作限定。例如，本申請實施例可以同時執行S103和S104，或者，也可以先執行S103，再執行S104等。

S105(可選的)、音訊渲染裝置對第一渲染訊號或第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第一渲染訊號或第三渲染訊號的群延時為固定值。音訊渲染裝置對第二渲染訊號或第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第二渲染訊號或第四渲染訊號的群延時為固定值。

由於第一渲染訊號、第二渲染訊號、第三渲染訊號和第四渲染訊號均包括不同頻率的音訊渲染訊號(參考下文S1033和S1043)，而不同頻率的音訊渲染訊號分別具有不同的延遲時間。這樣的話，當將第一渲染訊號和第三渲染訊號融合疊加時，或者，當將第二渲染訊號和第四渲染訊號融合疊加時，輸出的融合訊號會存在類似梳狀濾波的有害效應(或稱為梳狀效應)。這裡，梳狀效應是指由於具有不同頻率波形的聲音或者具有不同相位的聲音，在疊加後會形成蘊含複雜結構的聲音波形。

示例性的，參考圖6，圖6示出了一種音訊訊號的有害效應的極端情況的示意圖。其中，橫軸表示頻率，縱軸表示音訊訊號的幅值。如圖6所示，該音訊訊號的穀點處頻率所對應的訊號幅值是0，這種情況下，說明該頻率點的訊號是缺失的。

為了消除梳狀效應的有害效果(destructive interference)，在將第一渲染訊號和第三渲染訊號融合疊加前，音訊渲染裝置可以對第一渲染訊號或第三渲染訊號進行梳狀濾波處理，例如對第一渲染訊號行梳狀濾波處理，以使經梳狀濾波處理後的第一渲染訊號的群延時為固定值，或者，對第三渲染訊號行梳狀濾波處理，以使經梳狀濾波處理後的第三渲染訊號的群延時為固定值。這樣，即可消除第一渲染訊號和第三渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合後，所得到的融合訊號(即第一目標渲染訊號)的梳狀效應。

類似的，在將第二渲染訊號和第四渲染訊號融合疊加前，音訊渲染裝置可以對第二渲染訊號或第四渲染訊號進行梳狀濾波處理，例如對第二渲染訊號行梳狀濾波處理，以使經梳狀濾波處理後的第二渲染訊號的群延時為固定值，或者，對第四渲染訊號行梳狀濾波處理，以使經梳狀濾波處理後的第四渲染訊號的群延時為固定值。這樣，即可消除第二渲染訊號和第四渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合後，所得到的融合訊號(即第二目標渲染訊號)的梳狀效應。

下面，以音訊渲染裝置對第三渲染訊號和第四渲染訊號分別進行梳狀濾波處理，以使經梳狀濾波處理後的第三渲染訊號和第四渲染訊號的群延時均為固定值為例進行說明。

在一種可能的實現方式中，音訊渲染裝置可以通過預置的漸變梳狀濾波器(gradual group delay filter)，對第三渲染訊號進行梳狀濾波處理，以使第三渲染訊號的群延遲漸變為固定的預設值，從而消除經梳狀濾波處理後的第三渲染訊號和未經梳狀濾波處理的第一渲染訊號融合時所產生的梳狀效應的有害效果。類似的，音訊渲染裝置可以通過預置的漸變梳狀濾波器，對第四渲染訊號進行梳狀濾波處理，以使第四渲染訊號的群延遲漸變為固定的預設值，從而消除經梳狀濾波處理後的第四渲染訊號和未經梳狀濾波處理的第二渲染訊號融合時所產生的梳狀效應的有害效果。這裡，本申請實施例對預設值的取值不作具體限定。

參考圖7，圖7示出了音訊渲染裝置通過預置的漸變梳狀濾波器，對第三渲染訊號或第四渲染訊號進行梳狀濾波處理後的效果。如圖7所示，第三渲染訊號或第四渲染訊號經梳狀濾波處理後，渲染訊號的群延時約為固定的預設值。

可以理解的是，本申請實施例也可以通過其他方式對第三渲染訊號和第四渲染訊號進行梳狀濾波處理，本申請實施例對此不作限定。

S106、音訊渲染裝置將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號。音訊渲染裝置將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號。

在一種可能的實現方式中，音訊渲染裝置可以將第一渲染訊號和第三渲染訊號疊加，得到第一目標渲染訊號。音訊渲染裝置可以將第二渲染訊號和第四渲染訊號疊加，得到第二目標渲染訊號。

在另一種可能的實現方式中，音訊渲染裝置可以對第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號進行淡入處理，以及對第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號進行淡出處理。接著，音訊渲染裝置可以根據經淡入處理後的第一渲染訊號和經淡出處理後的第三渲染訊號，得到第一融合訊號。音訊渲染裝置可以根據經淡入處理後的第二渲染訊號和經淡出處理後的第四渲染訊號，得到第二融合訊號。這裡，第一融合訊號即為過渡帶內用於向第一位置輸出的渲染訊號，第二融合訊號即為過渡帶內用於向第二位置輸出的渲染訊號。

其中，過渡帶是以高頻帶訊號和低頻帶訊號的臨界頻率為中心，向上浮動第一頻寬以及向下浮動第二頻寬的頻帶。這裡，第一頻寬和第二頻寬可以相同，也可以不同，對此不作限定。

以臨界頻率是f_c，第一頻寬和第二頻寬均是f_x為例，則過渡帶的頻率範圍可以是[f_c--f_x，f_c-+f_x]。

示例性的，以f_c是1500Hz，f_x是200Hz為例。這時，過渡帶是[(1500-200)Hz，(1500+200)Hz]，即過渡帶是[1300Hz， 1700Hz]。

具體的，音訊渲染裝置可以通過淡入因子，對第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號進行淡入處理。音訊渲染裝置可以通過淡出因子，對第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號進行淡出處理。可以理解的是，過渡帶可以對應T個淡入因子和淡出因子的組合，T個組合中任一個組合所對應的淡入因子與淡出因子的和為1，其中，T是正整數。

示例性的，過渡帶包括T個頻點，每個頻點可以對應1個淡入因子和淡出因子的組合，即T個頻點對應T個淡入因子和淡出因子的組合。這樣的話，第t個頻點所對應的淡入因子與第t個頻點所對應的淡出因子的和為1。其中，t是整數，1

t

T。

例如，若T是512，過渡帶的淡入因子

，過渡帶的淡出因子

，則過渡帶所對應的512個淡入因子和淡出因子的組合為：

可以看出，Q_r+Q_c=(1，1，……，1，1)，過渡帶內的淡入因子是從0到1漸變的係數，過渡帶內的淡出因子是從1到0漸變的係數。

可選的，音訊渲染裝置可以通過公式(1)計算得到第一融合訊號，通過公式(2)計算得到第二融合訊號：公式(1) Y_r1=Y₁₀×Q_r+Y₃₀×Q_c

公式(2) Yr2=Y₂₀×Q_r+Y₄₀×Q_c

其中，Q_r是淡入因子，Q_c是淡出因子，Y_r1是第一融合訊號，Y₁₀是第一渲染訊號的過渡帶內訊號，Y₃₀是第三渲染訊號的過渡帶內訊號，Y_r2是第二融合訊號，Y₂₀是第二渲染訊號的過渡帶內訊號，Y₄₀是第四渲染訊號的過渡帶內訊號。

參考圖8，圖8示出了本申請實施例對第一渲染訊號進行淡入處理，以及對第三渲染訊號進行淡出處理的示意圖。其中，第三渲染訊號的過渡帶內訊號經淡出因子Q_c處理後，訊號的幅值從第三渲染訊號的幅值漸變為0，第一渲染訊號經淡入因子Q_r處理後，訊號的幅值從0漸變為第三渲染訊號的幅值。

類似的，第四渲染訊號的過渡帶內訊號經淡出因子Q_c處理後，訊號的幅值從第四渲染訊號的幅值漸變為0，第二渲染訊號經淡入因子Q_r處理後，訊號的幅值從0漸變為第二渲染訊號的幅值。

然後，音訊渲染裝置可以將第一融合訊號、第一渲染訊號的過渡帶外訊號、以及第三渲染訊號的過渡帶外訊號疊加，得到第一目標渲染訊號。音訊渲染裝置可以將第二融合訊號、第二渲染訊號的過渡帶外訊號、以及第四渲染訊號的過渡帶外訊號疊加，得到第二目標渲染訊號。這裡，第一目標渲染訊號是用於向第一位置輸出的渲染訊號，第二目標渲染訊號是用於向第二位置輸出的渲染訊號。

可選的，音訊渲染裝置可以通過公式(3)計算得到第一目標渲染訊號SY1，以及通過公式(4)計算得到第二目標渲染訊號SY2：公式(3) SY₁=Y₁₁+Y_r1+Y₃₁

公式(4) SY₂=Y₂₁+Y_r2+Y₄₁

其中，Y₁₁是上述第一渲染訊號的過渡帶外訊號，Y_r1是第一融合訊號，Y₃₁是上述第三渲染訊號的過渡帶外訊號，Y₂₁是上述第二渲染訊號的過渡帶外訊號，Y_r2是第二融合訊號，Y₄₁是上述第四渲染訊號的過渡帶外訊號。

這樣，音訊渲染裝置通過將待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號，並以收聽者的雙耳位置為甜點位置對高頻帶訊號進行渲染，這樣，提高了渲染訊號的ILD的準確度。音訊渲染裝置以收聽者的頭中心位置為甜點位置對低頻帶訊號進行渲染，這樣，提高了渲染訊號的ITD的準確度。然後，音訊渲染裝置將渲染後的高頻帶訊號(第一渲染訊號和第二渲染訊號)以及渲染後的低頻帶訊號(第三渲染訊號和第四渲染訊號)進行融合，從而得到第一目標渲染訊號和第二目標渲染訊號。其中，第一目標渲染訊號和第二目標渲染訊號即為向收聽者輸出的雙耳渲染訊號。這樣，通過本申請實施例提供的音訊渲染方法得到的雙耳渲染訊號具有高準確度的ITD和ILD，從而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

下面，對音訊渲染裝置獲取第一渲染訊號和第二渲染訊號的過程予以說明：參考圖9，上述S103還可以包括：S1031、音訊渲染裝置獲取高頻帶訊號對應的M個第一訊號和N個第二訊號。其中，M和N分別為正整數。

這裡，M個第一訊號是以第一位置為甜點位置時，以該甜點位置設置的M個虛擬揚聲器的M個訊號，該M個虛擬揚聲器與M個第一訊號一一對應。例如，以M是3為例，3個第一訊號可以分別為訊號1、訊號2以及訊號3，3個虛擬揚聲器可以分別為虛擬揚聲器1、虛擬揚聲器2以及虛擬揚聲器3。這樣的話，訊號1可以與虛擬揚聲器1對應，訊號2可以與虛擬揚聲器2對應，訊號3可以與虛擬揚聲器3對應。

N個第二訊號是以第二位置為甜點位置時，以該甜點位置設置的N個虛擬揚聲器的N個訊號，該N個虛擬揚聲器與N個第二訊號一一對應。例如，以N是3為例，3個第二訊號可以分別為訊號1、訊號2以及訊號3，3個虛擬揚聲器可以分別為虛擬揚聲器1、虛擬揚聲器2以及虛擬揚聲器3。這樣的話，訊號1可以與虛擬揚聲器1對應，訊號2可以與虛擬揚聲器2對應，訊號3可以與虛擬揚聲器3對應。

具體的，音訊渲染裝置可以通過下述的任一種方式，獲取高頻帶訊號對應的第一訊號和第二訊號：

方式一，音訊渲染裝置對高頻帶訊號進行處理，得到上述M個虛擬揚聲器的M個第一訊號，該M個虛擬揚聲器是以第一位置為甜點位置設置的M個虛擬揚聲器。音訊渲染裝置對高頻帶訊號進行處理，得到上述N個虛擬揚聲器的N個第二訊號，該N個虛擬揚聲器是以第二位置為甜點位置設置的N個虛擬揚聲器。

可選的，音訊渲染裝置可以基於獲取的待渲染音訊訊號中的高頻帶訊號，通過公式(5)，計算得到以第一位置為甜點位置時的M個虛擬揚聲器的訊號，即M個第一訊號：

其中，M是虛擬揚聲器的個數，m表示M個虛擬揚聲器中第m個虛擬揚聲器，m是整數，且1

m

M。P_m表示第m個虛擬揚聲器的訊號。W、X、Y以及Z分別表示高頻帶訊號的四個分量，其中，W表示環境分量，X表示X方向座標分量，Y表示Y方向座標分量，Z表示Z方向座標分量。φ_m表示以甜點位置為中心，第m個虛擬揚聲器的俯仰角，θ_m表示以甜點位置為中心，第m個虛擬揚聲器的方位角。可以看出，一組φ_m和θ_m可以標識一個虛擬揚聲器的位置。

可選的，音訊渲染裝置可以基於獲取的待渲染音訊訊號中的高頻帶訊號，通過公式(6)，計算得到以第二位置為甜點位置時的N個虛擬揚聲器的訊號，即N個第二訊號：

其中，N是虛擬揚聲器的個數，n表示N個虛擬揚聲器中第n個虛擬揚聲器，n是整數，且1

n

N。P_n表示第n個虛擬揚聲器的訊號。W、X、Y以及Z分別表示高頻帶訊號的四個分量，其中，W表示環境分量，X表示X方向座標分量，Y表示Y方向座標分量，Z表示Z方向座標分量。φ_n表示以甜點位置為中心，第n個虛擬揚聲器的俯仰角，θ_n表示以甜點位置為中心，第n個虛擬揚聲器的方位角。可以看出，一組φ_n和θ_n可以標識一個虛擬揚聲器的位置。

容易理解的是，上述虛擬揚聲器的訊號是指該虛擬揚聲器所發出的聲源訊號，虛擬揚聲器的訊號位置即該虛擬揚聲器的位置。

方式二，音訊渲染裝置對高頻帶訊號進行處理，得到X個虛擬揚聲器對應的X個初始訊號，該X個初始訊號與X個虛擬揚聲器一一對應。其中，該X個虛擬揚聲器是以收聽者頭中心位置為甜點位置設置的X個虛擬揚聲器，X是正整數，X=M=N。

例如，以X是3為例，3個初始訊號可以分別為初始訊號1、初始訊號2以及初始訊號3，3個虛擬揚聲器可以分別為虛擬揚聲器1、虛擬揚聲器2以及虛擬揚聲器3。這樣的話，初始訊號1可以與虛擬揚聲器1對應，初始訊號2可以與虛擬揚聲器2對應，初始訊號3可以與虛擬揚聲器3對應。

進一步的，音訊渲染裝置可以將該X個初始訊號分別旋轉第一角度，得到M個第一訊號。其中，第一角度可以是第一連線和第二連線的夾角，第一連線是上述X個虛擬揚聲器中的任一個虛擬揚聲器(對應本申請實施例的第一虛擬揚聲器)與頭中心位置的連線，第二連線是該第一虛擬揚聲器與第一位置的連線。

音訊渲染裝置還可以將該X個初始訊號分別旋轉第二角度，得到N個第二訊號。其中，第二角度可以是上述第一連線和第三連線的夾角，第三連線可以是第一虛擬揚聲器與第二位置的連線。可以理解的是，第一角度和第二角度可以相同，也可以不同，對此不作限定。

可選的，如果第一角度和第二角度不同，音訊渲染裝置可以基於第一角度和第二角度確定第一預設角度，並將上述X個初始訊號分別正向旋轉該第一預設角度，以得到M個第一訊號。音訊渲染裝置還可以將上述X個初始訊號分別逆向旋轉該第一預設角度，以得到N個第二訊號。其中，正向旋轉表示向第一位置側旋轉，逆向旋轉表示向第二位置側旋轉。示例性的，該第一預設角度可以是第一角度和第二角度的平均值，當然不限於此。

參考圖11，圖11示意性的示出了上述的第一角度和第二角度。如圖11所示，虛擬揚聲器110可以是上述的第一虛擬揚聲器，虛擬揚聲器110和收聽者的頭中心位置A的連線即為是上述的第一連線，若位置B是第一位置，位置C是第二位置，則虛擬揚聲器110和第一位置B(例如是收聽者的左耳位置)的連線即為上述的第二連線，虛擬揚聲器110和第二位置C(例如是收聽者的右耳位置)的連線即為上述的第三連線。這樣的話，第一連線和第二連線的夾角即為上述的第一角度，第一連線和第三連線的夾角即為上述的第二角度。

如圖11所示，在以收聽者的頭中心位置為原點的坐標系中，第一連線與X軸的夾角為a0，第二連線與X軸的夾角為a1，第三連線與X的夾角為a2。這樣的話，第一角度可以為|a0-a1|，第二角度可以為|a0-a2|。基於此，上述的第一預設角度可以是|a0-a1|和|a0-a2|的平均值，當然不限於此。

S1032、音訊渲染裝置獲取M個第一HRTF和N個第二HRTF。

其中，該M個第一HRTF是第一位置為甜點位置時，第一位置的HRTF，該M個第一HRTF與該M個第一訊號一一對應。例如，以M是3為例，3個第一訊號可以分別為訊號1、訊號2以及訊號3，3個第一HRTF可以分別為HRTF 1、HRTF 2以及HRTF 3。這樣的話，訊號1可以與HRTF 1對應，訊號2可以與HRTF 2對應，訊號3可以與HRTF 3對應。

該N個第二HRTF是第二位置為甜點位置時，第二位置的HRTF，該N個第二HRTF與該N個第二訊號一一對應。例如，以N是3為例，3個第二訊號可以分別為訊號1、訊號2以及訊號3，3個第二HRTF可以分別為HRTF 1、HRTF 2以及HRTF 3。這樣的話，訊號1可以與HRTF 1對應，訊號2可以與HRTF 2對應，訊號3可以與HRTF 3對應。

具體的，音訊渲染裝置可以通過下述的任一種方式，獲取M個第一HRTF和N個第二HRTF：

方式一、音訊渲染裝置可以從第一對應關係庫獲取上述M個第一HRTF，以及從第二對應關係庫中獲取上述N個第二HRTF。

可選的，音訊渲染裝置可以預先以第一位置(例如第一位置可以是收聽者的左耳位置)為甜點位置，基於M個虛擬揚聲器的訊號(即上述M個第一訊號)，測量第一位置的M個HRTF，並將每個虛擬揚聲器的位置，和測量到的與該位置處虛擬揚聲器對應的HRTF存儲為第一對應關係庫。音訊渲染裝置還可以預先以第二位置(例如第二位置可以是收聽者的右耳位置)甜點位置，基於N個虛擬揚聲器的訊號(即上述N個第二訊號)，測量第二位置的HRTF，並將每個虛擬揚聲器的位置，和測量到的與該位置處的虛擬揚聲器所對應的HRTF存儲為第二對應關係庫。其中，第一對應關係庫和第二對應關係庫可以是同一個資料庫，也可以是兩個獨立的資料庫，對此不作限定。

當音訊渲染裝置確定甜點位置為第一位置，則相應的可以確定M個虛擬揚聲器的位置。這樣的話，音訊渲染裝置可以根據確定的M個虛擬揚聲器的位置，從第一對應關係庫中獲取該M個虛擬揚聲器的位置所對應的M個HRTF，該M個HRTF即為上述M個虛擬揚聲器的訊號對應的M個第一HRTF。類似的，音訊渲染裝置還可以根據確定的N個虛擬揚聲器的位置，從第二對應關係庫中獲取該N個虛擬揚聲器的位置所對應的N個HRTF，該 N個HRTF即為上述N個虛擬揚聲器的訊號對應的N個第二HRTF。

示例性的，如圖4所示，音訊渲染裝置在確定虛擬揚聲器411的位置(包括俯仰角和方位角等)後，從第一對應關係庫中獲取與虛擬揚聲器411的位置所對應的HRTF，並將該HRTF作為虛擬揚聲器411的訊號對應的第一HRTF。類似的，音訊渲染裝置確定虛擬揚聲器421的位置後，從第二對應關係庫中獲取與虛擬揚聲器421的位置所對應的HRTF，並將該HRTF作為虛擬揚聲器421的訊號對應的第二HRTF。

方式二、音訊渲染裝置可以從第三對應關係庫獲取Y個初始HRTF，並將該Y個初始HRTF分別旋轉第三角度，得到M個第一HRTF，以及將該Y個初始HRTF分別旋轉第四角度，得到N個第二HRTF。其中，Y是整數，並且，Y=M=N。

其中，Y個初始HRTF是基於Y個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的該頭中心位置的HRTF。這裡，該Y個虛擬揚聲器是以頭中心位置為甜點位置的Y個虛擬揚聲器，該Y個初始HRTF與該Y個虛擬揚聲器的訊號一一對應。

可選的，音訊渲染裝置可以預先以收聽者的頭中心位置為甜點位置，基於上述Y個虛擬揚聲器的訊號，測量該頭中心位置的HRTF，並將每個虛擬揚聲器的位置和測量到的該位置處的虛擬揚聲器所對應的HRTF存儲為第三對應關係庫。音訊渲染裝置可以根據上述Y個虛擬揚聲器的位置，從第三對應關係庫中獲取該Y個虛擬揚聲器的位置對應的Y個初始HRTF。

然後，音訊渲染裝置可以將所獲取的Y個初始HRTF分別旋轉第三角度，以得到M個第一HRTF，以及將所獲取的Y個初始HRTF分別旋轉第四角度，以得到N個第二HRTF。

其中，該M個第一HRTF與上述M個第一訊號一一對應。該N個第二HRTF與上述N個第二訊號一一對應。

例如，以M是3為例，3個第一訊號可以分別為訊號1、訊號2以及訊號3，3個第一HRTF可以分別為HRTF 1、HRTF 2以及HRTF 3。這樣的話，訊號1可以與HRTF 1對應，訊號2可以與HRTF 2對應，訊號3可以與HRTF 3對應。再例如，以N是3為例，3個第二訊號可以分別為訊號1、訊號2以及訊號3，3個第二HRTF可以分別為HRTF 1、HRTF 2以及HRTF 3。這樣的話，訊號1可以與HRTF 1對應，訊號2可以與HRTF 2對應，訊號3可以與HRTF 3對應。

上述的第三角度可以是第三連線和第四連線的夾角，第三連線是上述Y個虛擬揚聲器中的任意一個(對應本申請實施例中的第二虛擬揚聲器)與頭中心位置的連線，第四連線是該第二虛擬揚聲器和第一位置的連線。上述的第四角度可以是上述第三連線和第五連線之間的夾角，這裡，第五連線是該第二虛擬揚聲器和第二位置的連線。

參考圖12，圖12示意性的示出了第三角度θ1和第四角度θ2。如圖12所示，虛擬揚聲器120可以是上述的第二虛擬揚聲器，即以收聽者頭中心位置為甜點位置設置的Y個虛擬揚聲器中的任意一個虛擬揚聲器。虛擬揚聲器120和收聽者的頭中心位置A的連線即為是上述的第三連線，若位置B是第一位位置，位置C是第二位置，則虛擬揚聲器120和第一位置B(例如是收聽者的左耳位置)的連線即為上述的第四連線，虛擬揚聲器110和第二位置C(例如是收聽者的右耳位置)的連線即為上述的第五連線。這樣的話，第三連線和第四連線的夾角即為上述的第三角度，第三連線和第五連線的夾角即為上述的第四角度。

S1033、音訊渲染裝置基於M個第一訊號和M個第一HRTF，確定第一渲染訊號，以及基於N個第二訊號和N個第二HRTF，確定第二渲染訊號。

具體的，音訊渲染裝置可以將上述確定的M個第一訊號分別與M個第一HRTF卷積，得到M個渲染訊號。接著，音訊渲染裝置將該M個渲染訊號疊加，從而得到第一渲染訊號。類似的，音訊渲染裝置可以將上述確定的N個第二訊號分別與N個第二HRTF卷積，得到N個渲染訊號。接著，音訊渲染裝置將該N個渲染訊號疊加，從而得到第二渲染訊號。

可選的，音訊渲染裝置可以通過公式(7)計算得到第一渲染訊號Y₁，以及通過公式公式(8)計算得到第二渲染訊號Y₂：

其中，P_m表示第m個虛擬揚聲器的訊號，即第m個第一訊號，

為卷積符號，HRTF_m表示第m個虛擬揚聲器的訊號對應的第一HRTF。P_n表示第n個虛擬揚聲器的訊號，即第n個第二訊號，HRTF_n表示第n個虛擬揚聲器的訊號對應的第二HRTF。

應理解，第一渲染訊號Y₁包括第一渲染訊號的過渡帶內訊號Y10，以及第一渲染訊號的過渡帶外訊號Y₁₁，即Y₁=Y₁₀+Y₁₁。同理，第二渲染訊號Y₂包括第二渲染訊號的過渡帶內訊號Y20，以及第二渲染訊號的過渡帶外訊號Y₂₁，即Y₂=Y₂₀+Y₂₁。

可以理解的是，第一訊號是基於以第一位置為甜點位置的虛擬揚聲器的訊號，因此，基於第一訊號計算得到的第一渲染訊號可以是用於向第一位置輸出的渲染訊號。第二訊號是基於以第二位置為甜點位置的虛擬揚聲器的訊號，因此，基於第二訊號計算得到的第二渲染訊號可以是用於向第二位置輸出的渲染訊號。

下面，對音訊渲染裝置獲取第三渲染訊號和第四渲染訊號的過程予以說明：參考圖10，上述S104還可以包括：S1041、音訊渲染裝置獲取低頻帶訊號對應的R個第三訊號。其中，R是正整數。

這裡，該R個第三訊號分別是R個虛擬揚聲器的訊號，該R個虛擬揚聲器是是以收聽者頭中心位置為甜點位置時，該甜點位置對應的R個虛擬揚聲器。該R個虛擬揚聲器與該R 個第三訊號一一對應。例如，以R是3為例，3個第三訊號可以分別為訊號1、訊號2以及訊號3，3個虛擬揚聲器可以分別為虛擬揚聲器1、虛擬揚聲器2以及虛擬揚聲器3。這樣的話，訊號1可以與虛擬揚聲器1對應，訊號2可以與虛擬揚聲器2對應，訊號3可以與虛擬揚聲器3對應。

可選的，音訊渲染裝置可以基於獲取的待渲染音訊訊號中的低頻帶訊號，通過公式(9)，計算得到以收聽者的頭中心位置為甜點位置時的R個虛擬揚聲器的訊號，即R個第三訊號：

其中，R是虛擬揚聲器的個數，r表示R個虛擬揚聲器中第r個虛擬揚聲器，r是整數，且1

r

R。P_r表示第r個虛擬揚聲器的訊號。W、X、Y以及Z分別表示低頻帶訊號的四個分量，其中，W表示環境分量，X表示X方向座標分量，Y表示Y方向座標分量，Z表示Z方向座標分量。φ_r表示以甜點位置為中心，第r個虛擬揚聲器的俯仰角，θ_r表示以甜點位置為中心，第r個虛擬揚聲器的方位角。可以看出，一組φ_r和θ_r可以標識一個虛擬揚聲器的位置。

S1042、音訊渲染裝置獲取R個第三HRTF和R個第四 HRTF。

其中，該R個第三HRTF是基於上述R個第三訊號，以收聽者的頭中心位置為甜點位置測量的第一位置的HRTF，該R個第三HRTF與R個第三訊號一一對應。例如，以R是3為例，3個第三訊號可以分別為訊號1、訊號2以及訊號3，3個第三HRTF可以分別為HRTF 1、HRTF 2以及HRTF 3。這樣的話，訊號1可以與HRTF 1對應，訊號2可以與HRTF 2對應，訊號3可以與HRTF 3對應。

該R個第四HRTF是基於上述R個第三訊號，以收聽者的頭中心位置為甜點位置測量的第二位置的HRTF，該R個第四HRTF與R個第三訊號一一對應。例如，以R是3為例，3個第三訊號可以分別為訊號1、訊號2以及訊號3，3個第四HRTF可以分別為HRTF 1、HRTF 2以及HRTF 3。這樣的話，訊號1可以與HRTF 1對應，訊號2可以與HRTF 2對應，訊號3可以與HRTF 3對應。

可選的，音訊渲染裝置可以預先以收聽者的頭中心位置為甜點位置，基於上述R個虛擬揚聲器的訊號(即上述R個第三訊號)，測量第一位置(例如第一位置可以是收聽者的左耳位置)的HRTF，並將每個虛擬揚聲器的位置和測量到的該位置處的虛擬揚聲器所對應的HRTF存儲為第四對應關係庫。音訊渲染裝置還可以預先以收聽者的頭中心位置為甜點位置，基於上述R個虛擬揚聲器的訊號(即上述R個第三訊號)，測量第二位置(例如第二位置可以是收聽者的右耳位置)的HRTF，並將每個虛擬揚聲器的位置和測量到的該位置處的虛擬揚聲器所對應的HRTF存儲為第五對應關係庫。這裡，第四對應關係庫和第五對應關係庫可以是同一個資料庫，也可以是兩個獨立的資料庫，對此不作限定。

當音訊渲染裝置確定甜點位置為收聽者頭中心，則相應的可以確定R個虛擬揚聲器的位置。這樣的話，音訊渲染裝置可以根據確定的R個虛擬揚聲器的位置，從第四對應關係庫中獲取該R個虛擬揚聲器的位置所對應的R個HRTF，該R個HRTF即為上述R個虛擬揚聲器的訊號對應的第三HRTF。類似的，音訊渲染裝置還可以根據確定的R個虛擬揚聲器的位置，從第五對應關係庫中獲取該R個虛擬揚聲器的位置所對應的R個HRTF，該R個HRTF即為上述R個虛擬揚聲器的訊號對應的第四HRTF。

示例性的，如圖5所示，音訊渲染裝置確定虛擬揚聲器51的位置(包括俯仰角和方位角等)後，從第四對應關係庫中獲取與虛擬揚聲器51的位置所對應的HRTF，並將該HRTF作為虛擬揚聲器51的訊號對應的第三HRTF。音訊渲染裝置確定虛擬揚聲器51的位置後，還從第五對應關係庫中獲取與虛擬揚聲器51的位置所對應的HRTF，並將該HRTF作為虛擬揚聲器51的訊號對應的第四HRTF。

S1043、音訊渲染裝置基於R個第三訊號和R個第三HRTF，確定第三渲染訊號，以及基於R個第三訊號和R個第四HRTF，確定第四渲染訊號。

具體的，音訊渲染裝置可以將上述確定的R個第三訊號分別與R個第三HRTF卷積，得到R個渲染訊號。接著，音訊渲染裝置將該R個渲染訊號疊加，從而得到第三渲染訊號。類似的，音訊渲染裝置可以將上述確定的R個第三訊號分別與R個第四HRTF卷積，得到R個渲染訊號。接著，音訊渲染裝置將該R個渲染訊號疊加，從而得到第四渲染訊號。

可選的，音訊渲染裝置可以通過公式(10)計算得到第三渲染訊號Y₃，以及通過公式公式(11)計算得到第四渲染訊號Y₄：

其中，P_r表示第r個虛擬揚聲器的訊號，即第r個第三訊號，HRTF_{r_1}表示第r個虛擬揚聲器的訊號對應的第三HRTF，HRTF_{r_2}表示第r個虛擬揚聲器的訊號對應的第四HRTF。

應理解，第三渲染訊號Y₃包括第三渲染訊號的過渡帶內訊號Y₃₀，以及第三渲染訊號的過渡帶外訊號Y₃₁，即Y₃=Y₃₀+Y₃₁。同理，第四渲染訊號Y₄包括第四渲染訊號的過渡帶內訊號Y₄₀，以及第四渲染訊號的過渡帶外訊號Y₄₁，即Y₄=Y₄₀+Y₄₁。

可以理解的是，用於確定第三渲染訊號的R個第三HRTF，是測量第一位置的HRTF。因此，第三渲染訊號可以是用於向第一位置輸出的渲染訊號。用於確定第四渲染訊號的第四HRTF，是測量第二位置的HRTF。因此，第四渲染訊號可以是用於向第二位置輸出的渲染訊號。

綜上，本申請實施例提供了一種音訊渲染方法，在該方法中，音訊渲染裝置將待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號，並以收聽者的雙耳位置為甜點位置對高頻帶訊號進行渲染，這樣，提高了渲染訊號的ILD的準確度。音訊渲染裝置以收聽者的頭中心位置為甜點位置對低頻帶訊號進行渲染，這樣，提高了渲染訊號的ITD的準確度。然後，音訊渲染裝置將渲染後的高頻帶訊號(第一渲染訊號和第二渲染訊號)以及渲染後的低頻帶訊號(第三渲染訊號和第四渲染訊號)進行融合，從而得到第一目標渲染訊號和第二目標渲染訊號。其中，第一目標渲染訊號和第二目標渲染訊號即為向收聽者輸出的雙耳渲染訊號。這樣，通過本申請實施例提供的音訊渲染方法得到的雙耳渲染訊號具有高準確度的ITD和ILD，從而提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

實施例二

在本實施例中，音訊渲染裝置將用於處理待渲染音訊訊號的HRTF轉換到待渲染音訊訊號域，並在待渲染音訊訊號域中渲染待渲染的音訊訊號。

請參考圖13，圖13示出了本申請實施例提供的另一種音訊渲染方法的流程示意圖。該方法可以包括以下步驟：

S201、音訊渲染裝置獲取待渲染音訊訊號。

具體的，音訊渲染裝置獲取待渲染音訊訊號的描述可以參考上述的S101中的描述，這裡不再贅述。

其中，待渲染音訊訊號包括J個聲道訊號，J是正整數，例如，J可以是大於或等於2的整數。

S202、音訊渲染裝置獲取K個左耳初始HRTF和K個右耳初始HRTF。

這裡，該K個左耳初始HRTF可以是基於K個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的左耳的HRTF，該K個左耳初始HRTF與K個虛擬揚聲器的訊號一一對應。該左耳初始HRTF是左耳HRTF，待渲染音訊訊號經左耳HRTF處理後，可以得到向收聽者的左耳輸出的渲染訊號。其中，K是正整數，例如，K可以是大於或等於3的整數。

該K個右耳初始HRTF可以是基於K個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的右耳的HRTF，該K個右耳初始HRTF與K個虛擬揚聲器的訊號一一對應。該右耳初始HRTF是右耳HRTF，待渲染音訊訊號經右耳HRTF處理後，可以得到向收聽者的右耳輸出的渲染訊號。

其中，上述的K個虛擬揚聲器是以收聽者的頭中心位置為甜點位置設置的K個虛擬揚聲器。

具體的，音訊渲染裝置獲取K個左耳初始HRTF和K個右耳初始HRTF的過程，可以參考上述S中獲取R個第三HRTF和R個第四HRTF的描述，這裡不再贅述。

S203、音訊渲染裝置基於上述K個左耳初始HRTF，確定K個第一HRTF和K個第二HRTF。音訊渲染裝置基於上述K個右耳初始HRTF，確定K個第三HRTF和K個第四HRTF。

其中，K個第一HRTF可以是低頻帶HRTF，該低頻帶HRTF可以是用於處理待渲染音訊訊號中的低頻帶訊號的左耳HRTF。K個第二HRTF可以是高頻帶HRTF，該高頻帶HRTF可以是用於處理待渲染音訊訊號中的高頻帶訊號的左耳HRTF。

K個第三HRTF可以是低頻帶HRTF，該低頻帶HRTF可以是用於處理待渲染音訊訊號中的低頻帶訊號的右耳HRTF。K個第四HRTF可以是高頻帶HRTF，該高頻帶HRTF可以是用於處理待渲染音訊訊號中的高頻帶訊號的右耳HRTF。

可以理解的是，上述低頻帶訊號的頻率範圍和上述高頻帶訊號的頻率範圍，可以覆蓋待渲染音訊訊號的頻率範圍。

具體的，音訊渲染裝置可以通過下述任一種可能的實現方式得到K個第一HRTF和K個第二HRTF，以及K個第三HRTF和K個第四HRTF。

第一種可能的實現方式，音訊渲染裝置可以對上述K個左耳初始HRTF分別進行低通濾波處理，以得到K個第一HRTF。音訊渲染裝置還可以對上述K個左耳初始HRTF分別進行高通濾波處理，以得到K個第二HRTF。

音訊渲染裝置可以對上述K個右耳初始HRTF分別進行低通濾波處理，以得到K個第三HRTF。音訊渲染裝置還可以對上述K個右耳初始HRTF分別進行高通濾波處理，以得到K個第四HRTF。

可選的，音訊渲染裝置可以通過低通濾波器，對上述K個左耳初始HRTF分別進行低通濾波處理。音訊渲染裝置還可以通過高通濾波器，對上述K個左耳初始HRTF分別進行高通濾波處理。

示例性的，以上述K個左耳初始HRTF中的第k個左耳初始HRTF為例，音訊渲染裝置通過低通濾波器，可以濾除該第k個左耳初始HRTF的高頻部分，從而得到該第k個左耳初始HRTF對應的第k個第一HRTF，如圖14所示。這裡，k是正整數，1

k

K。

又示例性的，以上述K個左耳初始HRTF中的第k個左耳初始HRTF為例，音訊渲染裝置通過高通濾波器，可以濾除該第k個左耳初始HRTF的低頻部分，從而得到該第k個左耳初始HRTF對應的第k個第二HRTF，如圖15所示。

類似的，音訊渲染裝置可以通過低通濾波器，對上述K個右耳初始HRTF分別進行低通濾波處理，以得到K個第三HRTF。音訊渲染裝置還可以通過高通濾波器，對上述K個右耳初始HRTF分別進行高通濾波處理，以得到K個第四HRTF。此處不再贅述。

第二種可能的實現方式，音訊渲染裝置可以對上述K個左耳初始HRTF分別進行低通濾波處理，以得到K個第一初始HRTF。音訊渲染裝置還可以對上述K個左耳初始HRTF分別進行高通濾波處理，以得到K個第二初始HRTF。然後，音訊渲染裝置對K個第一初始HRTF或K個第二初始HRTF進行延時處理，以得到K個第一HRTF或K個第二HRTF。具體的，若音訊渲染裝置對K個第一初始HRTF進行延時處理，可以得到K個第一HRTF。這時，K個第二初始HRTF即為K個第二HRTF。若音訊渲染裝置對K個第二初始HRTF進行延時處理，可以得到K個第二HRTF。這時，K個第一初始HRTF即為K個第一HRTF。

需要說明的是，若音訊渲染裝置對K個第一初始HRTF進行延時處理，則不對K個第二初始HRTF進行延時處理。若音訊渲染裝置對K個第二初始HRTF進行延時處理，則不對K個第一初始HRTF進行延時處理。也就是說，對於K個第一HRTF中的第k個第一HRTF，以及K個第二HRTF中第k個第二HRTF而言，該第k個第一HRTF和該第k個第二HRTF中的至少一個是經延時處理得到的。這樣的話，可以消除該第k個第一HRTF和該第k個第二HRTF疊加時產生的有害效果。這裡，有害效果的相關描述可以參考上述S105中的描述，這裡不予贅述。

音訊渲染裝置還可以對上述K個右耳初始HRTF分別進行低通濾波處理，以得到K個第三初始HRTF。音訊渲染裝置還可以對上述K個右耳初始HRTF分別進行高通濾波處理，以得到K個第四初始HRTF。然後，音訊渲染裝置對K個第三初始HRTF或K個第四初始HRTF進行延時處理，以得到K個第三HRTF或K個第四HRTF。具體的，若音訊渲染裝置對K個第三初始HRTF進行延時處理，可以得到K個第三HRTF。這時，K個第四初始 HRTF即為K個第四HRTF。若音訊渲染裝置對K個第四初始HRTF進行延時處理，可以得到K個第四HRTF。這時，K個第三初始HRTF即為K個第三HRTF。

需要說明的是，若音訊渲染裝置對K個第三初始HRTF進行延時處理，則不對K個第四初始HRTF進行延時處理。若音訊渲染裝置對K個第四初始HRTF進行延時處理，則不對K個第三初始HRTF進行延時處理。也就是說，對於K個第三HRTF中的第k個第三HRTF，以及K個第四HRTF中第k個第四HRTF而言，該第k個第三HRTF和該第k個第四HRTF中的至少一個是經延時處理得到的。這樣的話，可以消除該第k個第三HRTF和該第k個第四HRTF疊加時產生的有害效果。

具體的，音訊渲染裝置可以對K個第一初始HRTF進行延時處理，使處理後的K個第一初始HRTF的群延時為固定值，即K個第一HRTF的群延時為固定值。或者，音訊渲染裝置可以對K個第二初始HRTF進行延時處理，使處理後的K個第二初始HRTF的群延時為固定值，即K個第二HRTF的群延時為固定值。

需要說明的是，若音訊渲染裝置對K個第一初始HRTF進行延時處理時，為每個第一初始HRTF設置不同的延時值。這樣，可以使得經延時處理後的K個第一初始HRTF的群延時為固定值，即K個第一HRTF的群延時為固定值。類似的，若音訊渲染裝置對K個第二初始HRTF進行延時處理時，為每個第二初始HRTF設置不同的延時值。這樣，可以使得經延時處理後的K個第二初始HRTF的群延時為固定值，即K個第二HRTF的群延時為固定值。

類似的，音訊渲染裝置可以對K個第三初始HRTF進行延時處理，使處理後的K個第三初始HRTF的群延時為固定值，即K個第三HRTF的群延時為固定值。或者，音訊渲染裝置可以對K個第四初始HRTF進行延時處理，使處理後的K個第四初始HRTF的群延時為固定值，即K個第四HRTF的群延時為固定值。

需要說明的是，若音訊渲染裝置對K個第三初始HRTF進行延時處理時，為每個第三初始HRTF設置不同的延時值。這樣，可以使得經延時處理後的K個第三初始HRTF的群延時為固定值，即K個第三HRTF的群延時為固定值。類似的，若音訊渲染裝置對K個第四初始HRTF進行延時處理時，為每個第四初始HRTF設置不同的延時值。這樣，可以使得經延時處理後的K個第四初始HRTF的群延時為固定值，即K個第四HRTF的群延時為固定值。

第三種可能的方式，音訊渲染裝置可以對上述K個左耳初始HRTF分別進行延時處理。然後，音訊渲染裝置可以對未經延時處理的K個左耳初始HRTF進行低通濾波處理，以得到K個第一HRTF，並對經延時處理的K個左耳初始HRTF進行高通濾波處理，以得到K個第二HRTF。或者，音訊渲染裝置可以對經延時處理的K個左耳初始HRTF進行低通濾波處理，以得到K個第一HRTF，並對未經延時處理的K個左耳初始HRTF進行高通濾波處理，以得到K個第二HRTF。

也就是說，對於K個第一HRTF中的第k個第一HRTF，以及K個第二HRTF中第k個第二HRTF而言，該第k個第一HRTF和該第k個第二HRTF中的至少一個是經延時處理的。這樣的話，可以消除該第k個第一HRTF和該第k個第二HRTF疊加時產生的有害效果。其中，延時處理和有害效果的相關描述可以參考上述第二種可能的實現方式中延時處理和有害效果的描述，這裡不再贅述。

音訊渲染裝置可以對上述K個右耳初始HRTF分別進行延時處理。然後，音訊渲染裝置可以對未經延時處理的K個右耳初始HRTF進行低通濾波處理，以得到K個第三HRTF，並對經延時處理的K個右耳初始HRTF進行高通濾波處理，以得到K個第四HRTF。或者，音訊渲染裝置可以對經延時處理的K個右耳初始HRTF進行低通濾波處理，以得到K個第三HRTF，並對未經延時處理的K個右耳初始HRTF進行高通濾波處理，以得到K個第四HRTF。

也就是說，對於K個第三HRTF中的第k個第三HRTF，以及K個第四HRTF中第k個第四HRTF而言，該第k個第三HRTF和該第k個第四HRTF中的至少一個是經延時處理得到的。這樣的話，可以消除該第k個第三HRTF和該第k個第四HRTF疊加時產生的有害效果。

可選的，音訊渲染裝置還可以在上述的幾種可能的實現方式的基礎上，對K個第一HRTF和K個第二HRTF、以及K個第三HRTF和K個第四HRTF均進行延時處理。並且，音訊渲染裝置為每個待處理的HRTF設置相同的延時值。這樣的話，根據相同延時值進行延時處理所得到的HRTF，作用於待渲染音訊訊號後，可以得到波形平滑的渲染訊號，提高了渲染訊號的品質。

可以看出，上述的第一HRTF和第二HRTF是基於同一左耳HRTF(即上述的左耳初始HRTF)確定的。上述的第三HRTF和第四HRTF是基於同一右耳HRTF(即上述的右耳初始HRTF)確定的。

S204、音訊渲染裝置根據上述確定的K個第一HRTF和K個第二HRTF，確定K個第一融合HRTF。音訊渲染裝置根據上述確定的K個第三HRTF和K個第四HRTF，確定第二融合HRTF。

其中，K個第一融合HRTF是用於處理待渲染音訊訊號的左耳HRTF，K個第二融合HRTF是用於處理待渲染音訊訊號的右耳HRTF。

音訊渲染裝置將上述確定的K個第一HRTF分別和K個第二HRTF中對應的第二HRTF疊加，即可得到K個第一融合HRTF。音訊渲染裝置將上述確定的K個第三HRTF分別和K個第四HRTF中對應的第四HRTF疊加，即可得到K個第二融合HRTF。

其中，基於同一個左耳初始HRTF得到的第一HRTF和第二HRTF對應，基於同一個右耳初始HRTF得到的第三HRTF和第四HRTF對應。由於第一HRTF和第二HRTF是基於同一個左耳初始HRTF得到的，可以使得基於第一HRTF和第二HRTF得到的第一融合HRTF的準確度更高，從而可以提高左耳渲染訊號的ITD的準確度；同理，由於第三HRTF和第四HRTF是基於同一個右耳初始HRTF得到的，可以使得基於第三HRTF和第四HRTF得到的第二融合HRTF的準確度更高，從而可以提高右耳渲染訊號的ITD的準確度。

示例性的，對於K個左耳初始HRTF中的第k個左耳初始HRTF而言，基於該第k個左耳初始HRTF可以得到第k個第一HRTF和第k個第二HRTF。將第k個第一HRTF和第k個第二HRT疊加，即可得到第k個第一融合HRTF。

又示例性的，對於K個右耳初始HRTF中的第k個右耳初始HRTF而言，基於該第k個右耳初始HRTF可以得到第k個第三HRTF和第k個第四HRTF。將第k個第三HRTF和第k個第四HRTF疊加，即可得到第k個第二融合HRTF。

可以理解的是，本申請實施例對步驟S201和步驟S202~S204的執行時序不作限定。例如可以同時執行步驟S201和步驟S202~S204。或者，也可以先執行步驟S201，再執行步驟S202~S204，對此不作限定。

S205、基於待渲染音訊訊號，音訊渲染裝置將上述確定的K個第一融合HRTF變換(transform)到待渲染音訊訊號域，以得到J個第一目標HRTF。音訊渲染裝置將上述確定的K個第二融合HRTF變換到待渲染音訊訊號域，以得到J個第二目標HRTF。

其中，J可以大於K，可以等於K，也可以小於K，對此不作限定。

由於上述K個第一融合HRTF，是基於以收聽者的左耳位置為甜點位置所設置的K個虛擬揚聲器的訊號測量得到的HRTF確定的，即K個第一融合HRTF與K個虛擬揚聲器的訊號一一對應。因此，音訊渲染裝置需要將第一融合HRTF變換到待渲染音訊訊號域中，以得到與待渲染音訊訊號中的J個聲道訊號一一對應的HRTF。

類似的，上述K個第二融合HRTF，是基於以收聽者的右耳位置為甜點位置所設置的K個虛擬揚聲器的訊號測量得到的HRTF確定的，即K個第二融合HRTF與K個虛擬揚聲器的訊號一一對應。因此，音訊渲染裝置需要將第二融合HRTF變換到待渲染音訊訊號域中，以得到與待渲染音訊訊號中的J個聲道訊號一一對應的HRTF。

具體的，音訊渲染裝置可以基於待渲染音訊訊號，根據預設的演算法，將上述確定的K個第一融合HRTF變換到待渲染音訊訊號域，以得到J個第一目標HRTF，該J個第一目標HRTF是待渲染音訊訊號域中的左耳HRTF，該J個第一目標HRTF與J個聲道訊號一一對應；音訊渲染裝置可以基於待渲染音訊訊號，根據預設的演算法，將上述確定的K個第二融合HRTF變換到待渲染音訊訊號域，以得到J個第二目標HRTF，該J個第二目標HRTF是待渲染音訊訊號域中的右耳HRTF，該J個第二目標HRTF與J個聲道訊號一一對應。

可選的，該預設的演算法可以是矩陣變換演算法。下面以具體的示例對該矩陣變換演算法進行說明。

可選的，音訊渲染裝置可以根據公式(12)所示的公式，將K個第一融合HRTF變換到待渲染音訊訊號域，得到J個第一目標HRTF：

其中，y _j表示第j個聲道訊號對應的第一目標HRTF，第j個聲道訊號對應的第一目標HRTF用於處理J個聲道訊號中的第j個聲道訊號，j是正整數，1

j

J。x _k表示K個第一融合HRTF中的第k個第一融合HRTF。q ₁₁...q _k1表示J個聲道訊號中的第一個聲道訊號對應的域轉換係數，q _1j...q _kj表示J個聲道訊號中的第j個聲道訊號對應的域轉換係數。其中，域轉換係數可以是聲道訊號乘以K個不同的權重係數得到的，例如q ₁₁...q _k1分別是第一個聲道訊號分別乘以K個不同的權重係數得到的。容易看出，J個第一目標HRTF與J個聲道訊號一一對應。

類似的，音訊渲染裝置可以根據公式(12)所示的公式，將K個第二融合HRTF變換到待渲染音訊訊號域，得到J個第二目標HRTF。這時，y _j表示第j個聲道訊號對應的第二目標HRTF，第j個聲道訊號對應的第二目標HRTF用於處理J個聲道訊號中的第j個聲道訊號。x _k表示K個第二融合HRTF中的第k個第二融合HRTF。q ₁₁...q _k1表示J個聲道訊號中的第一個聲道訊號對應的域轉換係數，q _1j...q _kj表示J個聲道訊號中的第j個聲道訊號對應的域轉換係數。其中，域轉換係數可以是聲道訊號乘以K個不同的權重係數得到的，例如q ₁₁...q _k1分別是第一個聲道訊號分別乘以K個不同的權重係數得到的。容易看出，J個第二目標HRTF與J個聲道訊號一一對應。

S206、音訊渲染裝置根據確定的J個第一目標HRTF和待渲染音訊訊號，確定第一目標渲染訊號。音訊渲染裝置根據確定的J個第二目標HRTF和待渲染音訊訊號，確定第二目標渲染訊號。

具體的，音訊渲染裝置將J個第一目標HRTF中每個第一目標HRTF，分別和待渲染音訊訊號所包括的J個聲道訊號中對應的聲道訊號進行卷積，得到J個聲道對應的渲染訊號。接著，音訊渲染裝置將J個聲道對應的渲染訊號進行疊加，得到第一目標渲染訊號。這裡，第一目標渲染訊號是向收聽者的左耳輸出的渲染訊號。

示例性的，對於J個第一目標HRTF中的第j個第一目標HRTF而言，若與該第j個第一目標HRTF對應的聲道訊號是J個聲道訊號中的第j個聲道訊號，則音訊渲染裝置將第j個第一目標HRTF和第j個聲道訊號進行卷積，以得到第j個聲道訊號的渲染訊號。

類似的，音訊渲染裝置將J個第二目標HRTF中每個第二目標HRTF，分別和待渲染音訊訊號所包括的J個聲道訊號中對應的聲道訊號進行卷積，得到J個聲道對應的渲染訊號。接著，音訊渲染裝置將J個聲道對應的渲染訊號進行疊加，得到第二目標渲染訊號。這裡，第二目標渲染訊號是向收聽者的右耳輸出的渲染訊號。

示例性的，對於J個第二目標HRTF中的第j個第二目標HRTF而言，若與該第j個第二目標HRTF對應的聲道訊號是J個聲道訊號中的第j個聲道訊號，則音訊渲染裝置將第j個第二目標HRTF和第j個聲道訊號進行卷積，以得到第j個聲道訊號的渲染訊號。

這樣，通過將以收聽者頭中心位置作為甜點位置的雙耳HRTF進行高低通濾波，可以得到低頻帶HRTF(即第一HRTF或第三HRTF)和高頻帶HRTF(即第二HRTF或第四HRTF)。這樣，當待渲染音訊訊號經低頻帶HRTF作用後，所得到的雙耳渲染訊號的ITD的準確度高。當待渲染音訊訊號經高頻帶HRTF作用後，所得到的雙耳渲染訊號的ILD的準確度高。這樣的話，高準確度的ITD和ILD，提高了雙耳渲染訊號對聲像定位的精確度，減少了雙耳渲染訊號的頭中效應，以及提高了雙耳渲染訊號的聲場寬度。

上述主要從方法的角度對本申請實施例提供的方案進行了介紹。為了實現上述功能，其包含了執行各個功能相應的硬體結構和/或軟體模組。本領域技術人員應該很容易意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，本申請能夠以硬體或硬體和電腦軟體的結合形式來實現。某個功能究竟以硬體還是電腦軟體驅動硬體的方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。

本申請實施例可以根據上述方法示例對音訊渲染裝置進行功能模組的劃分，例如，可以對應各個功能劃分各個功能模組，也可以將兩個或兩個以上的功能集成在一個處理模組中。上述集成的模組既可以採用硬體的形式實現，也可以採用軟體功能模組的形式實現。需要說明的是，本申請實施例中對模組的劃分是示意性的，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

如圖16所示，圖16示出了本申請實施例提供的一種音訊渲染裝置160的結構示意圖。音訊渲染裝置160可以用於執行上述的音訊渲染方法，例如用於執行圖3、圖9或圖10所示的方法。其中，音訊渲染裝置160可以包括獲取單元161、劃分單元162、確定單元163以及融合單元164。

獲取單元161，用於獲取待渲染音訊訊號。劃分單元162，用於將待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號。確定單元163，用於以第一位置為甜點位置，確定高頻帶訊號對應的第一渲染訊號；以及用於以第二位置為甜點位置，確定高頻帶訊號對應的第二渲染訊號；其中，第一位置是收聽者的左耳位置時，第二位置是收聽者的右耳位置，或者，第一位置是收聽者的右耳位置時，第二位置是收聽者的左耳位置。確定單元163，還用於以收聽者的頭中心位置為甜點位置，確定低頻帶訊號對應的第三渲染訊號和第四渲染訊號；其中，第三渲染訊號用於確定向第一位置輸出的渲染訊號，第四渲染訊號用於確定向第二位置輸出的渲染訊號。融合單元164，用於將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號；將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號。其中，第一目標渲染訊號是用於向第一位置輸出的渲染訊號，第二目標渲染訊號是用於向第二位置輸出的渲染訊號。

作為示例，結合圖3，獲取單元161可以用於執行S101，劃分單元162可以用於執行S102，確定單元163可以用於執行S103和S104，融合單元164可以用於執行S106。

可選的，融合單元164具體用於：對第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號分別進行淡入處理，以及對第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號分別進行淡出處理。其中，過渡帶是以高頻帶訊號和低頻帶訊號的臨界頻率為中心，向上浮動第一頻寬以及向下浮動第二頻寬的頻帶。根據經淡入處理後的第一渲染訊號和經淡出處理後的第三渲染訊號，得到第一融合訊號，根據經淡入處理後的第二渲染訊號和經淡出處理後的第四渲染訊號，得到第二融合訊號。將第一融合訊號、第一渲染訊號的過渡帶外訊號、以及第三渲染訊號的過渡帶外訊號疊加，得到第一目標渲染訊號；將第二融合訊號、第二渲染訊號的過渡帶外訊號、以及第四渲染訊號的過渡帶外訊號疊加，得到第二目標渲染訊號。

作為示例，結合圖3，融合單元164可以用於執行S106。

可選的，融合單元164具體用於：通過淡入因子，對第一渲染訊號的過渡帶內訊號和第二渲染訊號的過渡帶內訊號分別進行淡入處理，以及通過淡出因子，對第三渲染訊號的過渡帶內訊號和第四渲染訊號的過渡帶內訊號分別進行淡出處理。其中，過渡帶對應T個淡入因子和淡出因子的組合，T是正整數，T個組合中任一個組合所對應的淡入因子與淡出因子的和為1。

作為示例，結合圖3，融合單元164可以用於執行S106。

可選的，音訊渲染裝置160還包括：濾波單元165，用於在融合單元164“將第一渲染訊號和第三渲染訊號融合，得到第一目標渲染訊號；將第二渲染訊號和第四渲染訊號融合，得到第二目標渲染訊號”之前，對第一渲染訊號或第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第一渲染訊號或第三渲染訊號的群延時為固定值；以及對第二渲染訊號或第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第二渲染訊號或第四渲染訊號的群延時均為固定值。融合單元164，具體用於將第一渲染訊號和第三渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第一目標渲染訊號；以及，具體用於將第二渲染訊號和第四渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第二目標渲染訊號。

作為示例，結合圖3，濾波單元165可以用於執行S105，融合單元164可以用於執行S106。

可選的，獲取單元161還用於：以第一位置為甜點位置，獲取高頻帶訊號對應的M個第一訊號。該M個第一訊號分別是M個虛擬揚聲器的訊號，該M個第一訊號與M個虛擬揚聲器一一對應。其中，M是正整數。

以第二位置為甜點位置，獲取高頻帶訊號對應的N個第二訊號。該N個第二訊號分別是N個虛擬揚聲器的訊號，該N個第二訊號與N個虛擬揚聲器一一對應。其中，N是正整數，N=M；獲取M個第一頭相關傳輸函數HRTF和N個第二HRTF。該M個第一HRTF與M個第一訊號一一對應，該N個第二HRTF與N個第二訊號一一對應。

確定單元163具體用於，根據M個第一訊號和M個第一HRTF，確定第一渲染訊號；根據N個第二訊號和N個第二HRTF，確定第二渲染訊號。

作為示例，結合圖9，獲取單元161可以用於執行S1031、S1032以及S1033。

可選的，獲取單元161具體用於：對高頻帶訊號進行處理，得到M個虛擬揚聲器的M個第一訊號，該M個虛擬揚聲器是以第一位置為甜點位置設置的M個虛擬揚聲器；對高頻帶訊號進行處理，得到N個虛擬揚聲器的N個第二訊號，該N個虛擬揚聲器是以第二位置為甜點位置設置的N個虛擬揚聲器。

作為示例，結合圖9，獲取單元161可以用於執行S1031。

可選的，獲取單元161還用於，對高頻帶訊號進行處理，得到X個虛擬揚聲器對應的X個初始訊號，該X個初始訊號與X個虛擬揚聲器一一對應，該X個虛擬揚聲器是以頭中心位置為甜點位置設置的X個虛擬揚聲器，其中，X是正整數，X=M=N。

獲取單元161具體用於：將X個初始訊號分別旋轉第一角度，得到M個第一訊號，該第一角度是第一連線和第二連線的夾角，該第一連線是第一虛擬揚聲器的位置與頭中心位置的連線，該第二連線是第一虛擬揚聲器的位置與第一位置的連線，其中，該第一虛擬揚聲器是X個虛擬揚聲器中的任一個虛擬揚聲器。

將X個初始訊號分別旋轉第二角度，得到N個第二訊號，該第二角度是第一連線和第三連線的夾角，該第三連線是第一虛擬揚聲器的位置與第二位置的連線。

作為示例，結合圖9，獲取單元161可以用於執行S1031。

可選的，上述M個第一HRTF是基於M個第一訊號，以第一位置為甜點位置測量的第一位置的HRTF。上述N個第二HRTF是基於N個第二訊號，以第二位置為甜點位置測量的第二位置的HRTF。

可選的，獲取單元161具體用於：獲取Y個初始HRTF，該Y個初始HRTF是基於Y個虛擬揚聲器的訊號，以頭中心位置為甜點位置測量的頭中心位置的HRTF。該Y個虛擬揚聲器是以頭中心位置為甜點位置設置的Y個虛擬揚聲器，該Y個初始HRTF與Y個虛擬揚聲器的訊號一一對應。其中，Y是正整數，Y=M=N。

將Y個初始HRTF分別旋轉第三角度，得到M個第一HRTF。其中，該第三角度是第三連線和第四連線的夾角，該第三連線是第二虛擬揚聲器的位置與頭中心位置的連線，該第四連線是第二虛擬揚聲器的位置和第一位置的連線，該第二虛擬揚聲器是Y個虛擬揚聲器中的任一個虛擬揚聲器；將Y個初始HRTF分別旋轉第四角度，得到N個第二HRTF。其中，該第四角度是第三連線和第五連線之間的夾角，該第五連線是第二虛擬揚聲器的位置和第二位置的連線。

作為示例，結合圖9，獲取單元161可以用於執行S1032。

可選的，獲取單元161還用於：對低頻帶訊號進行處理，得到R個第三訊號，該R個第三訊號分別是R個虛擬揚聲器的訊號，該R個第三訊號與R個虛擬揚聲器一一對應，該R個虛擬揚聲器是以頭中心位置為甜點位置設置的R個虛擬揚聲器。其中，R是正整數。

獲取R個第三HRTF，該R個第三HRTF是基於R個第三訊號，以頭中心位置為甜點位置測量的第一位置的HRTF，該R個第三HRTF與R個第三訊號一一對應。

獲取R個第四HRTF，該R個第四HRTF是基於R個第三訊號，以頭中心位置為甜點位置測量的第二位置的HRTF，該R個第四HRTF與R個第三訊號一一對應。

確定單元163具體用於，根據R個第三訊號和R個第三HRTF，確定第三渲染訊號；根據R個第三訊號和R個第四HRTF，確定第四渲染訊號。

作為示例，結合圖10，獲取單元161可以用於執行S1041、S1042和S1043。

可選的，獲取單元161具體用於：接收經音訊解碼器解碼得到的待渲染音訊訊號；或者，接收音訊採集器採集到的待渲染音訊訊號；或者，獲取多個音訊訊號經合成處理後所得到的待渲染音訊訊號。

作為示例，結合圖3，獲取單元161可以用於執行S101。

關於上述可選方式的具體描述可以參見前述的方法實施例，此處不再贅述。此外，上述提供的任一種音訊渲染裝置160的解釋以及有益效果的描述均可參考上述對應的方法實施例，不再贅述。

作為示例，結合圖2，音訊渲染裝置160中的獲取單元161、劃分單元162、確定單元163、融合單元164和濾波單元165可以通過圖2中的處理器21執行圖2中的記憶體22中的程式碼實現。

如圖17所示，圖17示出了本申請實施例提供的一種音訊渲染裝置170的結構示意圖。音訊渲染裝置170可以用於執行上述的音訊渲染方法，例如用於執行圖13所示的方法。其中，音訊渲染裝置170可以包括獲取單元171和確定單元172。

獲取單元171，用於獲取待渲染音訊訊號。確定單元172，用於基於K個第一頭相關傳輸函數HRTF和K個第二HRTF，確定K個第一融合HRTF，K個第一融合HRTF是用於處理待渲染音訊訊號的左耳HRTF；其中，K個第一HRTF是用於處理待渲染音訊訊號中的低頻帶訊號的左耳HRTF，K個第二HRTF是用於處理待渲染音訊訊號中的高頻帶訊號的左耳HRTF，K是正整數。確定單元172，還用於基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF，K個第二融合HRTF是用於處理待渲染音訊訊號的右耳HRTF；其中，K個第三HRTF是用於處理待渲染音訊訊號中的低頻帶訊號的右耳HRTF，K個第四HRTF是用於處理待渲染音訊訊號中的高頻帶訊號的右耳HRTF。確定單元172，還用於根據K個第一融合HRTF和待渲染音訊訊號，確定第一目標渲染訊號，第一目標渲染訊號是用於向收聽者左耳輸出的渲染訊號；根據K個第二融合HRTF和待渲染音訊訊號，確定第二目標渲染訊號，第二目標渲染訊號是用於向收聽者右耳輸出的渲染訊號。

作為示例，結合圖13，獲取單元171可以用於執行S201，確定單元172可以用於執行S204和S206。

可選的，上述的第一HRTF和第二HRTF是基於同一左耳HRTF確定的。上述的第三HRTF和第四HRTF是基於同一右耳HRTF確定的。

可選的，獲取單元171，還用於在確定單元172基於K個第一HRTF和K個第二HRTF，確定K個第一融合HRTF之前，獲取K個左耳初始HRTF，該K個左耳初始HRTF是基於K個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的左耳的HRTF，該K個左耳初始HRTF與K個虛擬揚聲器的訊號一一對應。獲取單元171，還用於在確定單元172基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF之前，獲取K個右耳初始HRTF，該K個右耳初始HRTF是基於K個虛擬揚聲器的訊號，以收聽者的頭中心位置為甜點位置測量的右耳的HRTF，該K個右耳初始HRTF與K個虛擬揚聲器的訊號一一對應。其中，K個虛擬揚聲器是以收聽者的頭中心位置為甜點位置設置的K個虛擬揚聲器。確定單元172，還用於基於K個左耳初始HRTF，確定K個第一HRTF和K個第二HRTF；以及，基於K個右耳初始HRTF，確定K個第三HRTF和K個第四HRTF。

作為示例，結合圖13，獲取單元171可以用於執行S202，確定單元172可以用於執行S203。

可選的，確定單元172，具體用於：對K個左耳初始HRTF進行低通濾波處理，以得到K個第一HRTF。對K個左耳初始HRTF進行高通濾波處理，以得到K 個第二HRTF。對K個右耳初始HRTF進行低通濾波處理，以得到K個第三HRTF。對K個右耳初始HRTF進行高通濾波處理，以得到K個第四HRTF。

作為示例，結合圖13，確定單元172可以用於執行S203。

可選的，確定單元172，具體用於：對K個左耳初始HRTF進行低通濾波處理和延時處理，以得到K個第一HRTF；對K個左耳初始HRTF進行高通濾波處理，以得到K個第二HRTF。或者，對K個左耳初始HRTF進行低通濾波處理，以得到K個第一HRTF；對K個左耳初始HRTF進行高通濾波處理和延時處理，以得到K個第二HRTF。

對K個右耳初始HRTF進行低通濾波處理和延時處理，以得到K個第三HRTF；對K個右耳初始HRTF進行高通濾波處理，以得到K個第四HRTF。或者，對K個右耳初始HRTF進行低通濾波處理，以得到K個第三HRTF；對K個右耳初始HRTF進行高通濾波處理和延時處理，以得到K個第四HRTF。

作為示例，結合圖13，確定單元172可以用於執行S203。

可選的，上述待渲染音訊訊號包括J個聲道訊號，J是正整數。音訊渲染裝置170還包括變換單元173。變換單元173，用於將K個第一融合HRTF變換到待渲染音訊訊號域，以得到J個第一目標HRTF，該J個第一目標HRTF是待渲染音訊訊號域中的左耳HRTF，該J個第一目標HRTF與J個聲道訊號一一對應。變換單元173，還用於將K個第二融合HRTF變換到待渲染音訊訊號域，以得到J個第二目標HRTF，該J個第二目標HRTF是待渲染音訊訊號域中的右耳HRTF，該J個第二目標HRTF與J個聲道訊號一一對應。確定單元172，具體用於根據J個第一目標HRTF和J個聲道訊號，確定第一目標渲染訊號；以及，根據J個第二目標HRTF和J個聲道訊號，確定第二目標渲染訊號。

作為示例，結合圖13，變換單元173可以用於執行S205。

可選的，確定單元172，具體用於將J個第一目標HRTF中每個第一目標HRTF，分別和J個聲道訊號中對應的聲道訊號進行卷積，以得到第一目標渲染訊號；以及用於將J個第二目標HRTF中每個第二目標HRTF，分別和J個聲道訊號中對應的聲道訊號進行卷積，以得到第二目標渲染訊號。

作為示例，結合圖13，確定單元172可以用於執行S206。

可選的，獲取單元171具體用於：接收經音訊解碼器解碼得到的待渲染音訊訊號；或者，接收音訊採集器採集到的待渲染音訊訊號；或者，獲取多個音訊訊號經合成處理後所得到的待渲染音訊訊號。

作為示例，結合圖13，獲取單元171可以用於執行S201。

關於上述可選方式的具體描述可以參見前述的方法實施例，此處不再贅述。此外，上述提供的任一種音訊渲染裝置170的解釋以及有益效果的描述均可參考上述對應的方法實施例，不再贅述。

作為示例，結合圖2，音訊渲染裝置170中的獲取單元 171、確定單元172和變換單元173可以通過圖2中的處理器21執行圖2中的記憶體22中的程式碼實現。

本申請實施例還提供一種晶片系統180，如圖18所示，該晶片系統180包括至少一個處理器181和至少一個介面電路182。處理器181和介面電路182可通過線路互聯。例如，介面電路182可用於接收訊號(例如獲取待渲染音訊訊號)。又例如，介面電路182可用于向其它裝置(例如處理器181)發送訊號。示例性的，介面電路182可讀取記憶體中存儲的指令，並將該指令發送給處理器181。當該指令被處理器181執行時，可使得音訊渲染裝置執行上述實施例中的各個步驟。當然，該晶片系統180還可以包含其他分立器件，本申請實施例對此不作具體限定。

本申請另一實施例還提供一種電腦可讀存儲介質，該電腦可讀存儲介質中存儲有指令，當指令在音訊渲染裝置上運行時，該音訊渲染裝置執行上述方法實施例所示的方法流程中該音訊渲染裝置執行的各個步驟。

在一些實施例中，所公開的方法可以實施為以機器可讀格式被編碼在電腦可讀存儲介質上的或者被編碼在其它非暫態性介質或者製品上的電腦程式指令。

圖19示意性地示出本申請實施例提供的電腦程式產品的概念性局部視圖，該電腦程式產品包括用於在計算設備上執行電腦進程的電腦程式。

在一個實施例中，電腦程式產品是使用訊號承載介質190 來提供的。該訊號承載介質190可以包括一個或多個程式指令，其當被一個或多個處理器運行時可以提供以上針對圖3或圖13描述的功能或者部分功能。因此，例如，參考圖3中S101~S106，或者參考圖13中S201~S206的一個或多個特徵可以由與訊號承載介質190相關聯的一個或多個指令來承擔。此外，圖19中的程式指令也描述示例指令。

在一些示例中，訊號承載介質190可以包含電腦可讀介質191，諸如但不限於，硬碟驅動器、緊密盤(CD)、數位視訊光碟(DVD)、數位磁帶、記憶體、唯讀存儲記憶體(read-only memory，ROM)或隨機存儲記憶體(random access memory，RAM)等等。

在一些實施方式中，訊號承載介質190可以包含電腦可記錄介質192，諸如但不限於，記憶體、讀/寫(R/W)CD、R/W DVD、等等。

在一些實施方式中，訊號承載介質190可以包含通訊介質193，諸如但不限於，數位和/或類比通訊介質(例如，光纖電纜、波導、有線通訊鏈路、無線通訊鏈路、等等)。

訊號承載介質190可以由無線形式的通訊介質193(例如，遵守IEEE 1902.11標準或者其它傳輸協議的無線通訊介質)來傳達。一個或多個程式指令可以是，例如，電腦可執行指令或者邏輯實施指令。

在一些示例中，諸如針對圖3或圖13描述的音訊渲染裝置可以被配置為，回應於通過電腦可讀介質191、電腦可記錄介質192、和/或通訊介質193中的一個或多個程式指令，提供各種操作、功能、或者動作。

應該理解，這裡描述的佈置僅僅是用於示例的目的。因而，本領域技術人員將理解，其它佈置和其它元素(例如，機器、介面、功能、順序、和功能組等等)能夠被取而代之地使用，並且一些元素可以根據所期望的結果而一併省略。另外，所描述的元素中的許多是可以被實現為離散的或者分散式的元件的、或者以任何適當的組合和位置來結合其它元件實施的功能實體。

在上述實施例中，可以全部或部分地通過軟體、硬體、固件或者其任意組合來實現。當使用軟體程式實現時，可以全部或部分地以電腦程式產品的形式來實現。該電腦程式產品包括一個或多個電腦指令。在電腦上和執行電腦執行指令時，全部或部分地產生按照本申請實施例的流程或功能。電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。電腦指令可以存儲在電腦可讀存儲介質中，或者從一個電腦可讀存儲介質向另一個電腦可讀存儲介質傳輸，例如，電腦指令可以從一個網站網站、電腦、伺服器或者資料中心通過有線(例如同軸電纜、光纖、數位用戶線路(digital subscriber line，DSL))或無線(例如紅外、無線、微波等)方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。電腦可讀存儲介質可以是電腦能夠存取的任何可用介質或者是包含一個或多個可以用介質集成的伺服器、資料中心等資料存放裝置。可用介質可以是磁性介質(例如，軟碟、硬碟、磁帶)，光介質(例如，DVD)、或者半導體介質(例如固態硬碟(solid state disk，SSD))等。

以上所述，僅為本發明的具體實施方式，但本發明的保護範圍並不局限於此，任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內，可輕易想到變化或替換，都應涵蓋在本發明的保護範圍之內。因此，本發明的保護範圍應以所述申請專利範圍的保護範圍為准。

S101:音訊渲染裝置獲取待渲染音訊訊號的步驟

S105音訊渲染裝置對第一渲染訊號或第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第一渲染訊號或第三渲染訊號的群延時為固定值。音訊渲染裝置對第二渲染訊號或第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的第二渲染訊號或第四渲染訊號的群延時為固定值的步驟

Claims

一種音訊渲染方法，其中，所述方法包括：獲取待渲染音訊訊號；基於K個第一頭相關傳輸函數HRTF和K個第二HRTF，確定K個第一融合HRTF，所述K個第一融合HRTF是用於處理所述待渲染音訊訊號的左耳HRTF；其中，所述K個第一HRTF是用於處理所述待渲染音訊訊號中的低頻帶訊號的左耳HRTF，所述K個第二HRTF是用於處理所述待渲染音訊訊號中的高頻帶訊號的左耳HRTF，K是正整數；基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF，所述K個第二融合HRTF是用於處理所述待渲染音訊訊號的右耳HRTF；其中，所述K個第三HRTF是用於處理所述待渲染音訊訊號中的低頻帶訊號的右耳HRTF，所述K個第四HRTF是用於處理所述待渲染音訊訊號中的高頻帶訊號的右耳HRTF；根據所述K個第一融合HRTF和所述待渲染音訊訊號，確定第一目標渲染訊號，所述第一目標渲染訊號是用於向收聽者左耳輸出的渲染訊號；根據所述K個第二融合HRTF和所述待渲染音訊訊號，確定第二目標渲染訊號，所述第二目標渲染訊號是用於向所述收聽者右耳輸出的渲染訊號。
如請求項1所述的方法，其中，所述第一HRTF和所述第二HRTF是基於同一左耳HRTF確定的；所述第三HRTF和所述第四HRTF是基於同一右耳HRTF確定的。
如請求項1或2所述的方法，其中，在所述基於K個第一HRTF和K個第二HRTF，確定K個第一融合HRTF之前，所述方法還包括：獲取K個左耳初始HRTF，所述K個左耳初始HRTF是基於K個虛擬揚聲器的訊號，以所述收聽者的頭中心位置為甜點位置測量的左耳HRTF，所述K個左耳初始HRTF與K個虛擬揚聲器的訊號一一對應；基於所述K個左耳初始HRTF，確定所述K個第一HRTF和所述K個第二HRTF；在所述基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF之前，所述方法還包括：獲取K個右耳初始HRTF，所述K個右耳初始HRTF是基於所述K個虛擬揚聲器的訊號，以所述收聽者的頭中心位置為甜點位置測量的右耳HRTF，所述K個右耳初始HRTF與所述K個虛擬揚聲器的訊號一一對應；基於所述K個右耳初始HRTF，確定所述K個第三HRTF和所述K個第四HRTF；其中，所述K個虛擬揚聲器是以所述收聽者的頭中心位置為甜點位置設置的K個虛擬揚聲器。
如請求項3所述的方法，其中，所述基於所述K個左耳初始HRTF，確定所述K個第一HRTF和所述K個第二HRTF，包括：對所述K個左耳初始HRTF進行低通濾波處理，以得到所述K個第一HRTF；對所述K個左耳初始HRTF進行高通濾波處理，以得到所述K個第二HRTF；所述基於所述K個右耳初始HRTF，確定所述K個第三HRTF和所述K個第四HRTF，包括：對所述K個右耳初始HRTF進行低通濾波處理，以得到所述K個第三HRTF；對所述K個右耳初始HRTF進行高通濾波處理，以得到所述K個第四HRTF。
如請求項3所述的方法，其中，所述基於所述K個左耳初始HRTF，確定所述K個第一HRTF和所述K個第二HRTF，包括：對所述K個左耳初始HRTF進行低通濾波處理和延時處理，以得到所述K個第一HRTF；對所述K個左耳初始HRTF進行高通濾波處理，以得到所述K個第二HRTF；或者，對所述K個左耳初始HRTF進行低通濾波處理，以得到所述K個第一HRTF；對所述K個左耳初始HRTF進行高通濾波處理和延時處理，以得到所述K個第二HRTF；所述基於所述K個右耳初始HRTF，確定所述K個第三HRTF和所述K個第四HRTF，包括：對所述K個右耳初始HRTF進行低通濾波處理和延時處理，以得到所述K個第三HRTF；對所述K個右耳初始HRTF進行高通濾波處理，以得到所述K個第四HRTF；或者，對所述K個右耳初始HRTF進行低通濾波處理，以得到所述K個第三HRTF；對所述K個右耳初始HRTF進行高通濾波處理和延時處理，以得到所述K個第四HRTF。
如請求項1或2所述的方法，其中，所述待渲染音訊訊號包括J個聲道訊號，J是正整數；所述根據所述K個第一融合HRTF和所述待渲染音訊訊號，確定第一目標渲染訊號，包括：將所述K個第一融合HRTF變換到所述待渲染音訊訊號域，以得到J個第一目標HRTF，所述J個第一目標HRTF是所述域中的左耳HRTF，所述J個第一目標HRTF與所述J個聲道訊號一一對應；根據所述J個第一目標HRTF和所述J個聲道訊號，確定第一目標渲染訊號；所述根據所述K個第二融合HRTF和所述待渲染音訊訊號，確定第二目標渲染訊號，包括：將所述K個第二融合HRTF變換到所述域，以得到J個第二目標HRTF，所述J個第二目標HRTF是所述域中的右耳HRTF，所述J個第二目標HRTF與所述J個聲道訊號一一對應；根據所述J個第二目標HRTF和所述J個聲道訊號，確定第二目標渲染訊號。
如請求項6所述的方法，其中，所述根據所述J個第一目標HRTF和所述J個聲道訊號，確定第一目標渲染訊號，包括：將所述J個第一目標HRTF中每個第一目標HRTF，分別和所述J個聲道訊號中對應的聲道訊號進行卷積，以得到第一目標渲染訊號；所述根據所述J個第二目標HRTF和所述J個聲道訊號，確定第二目標渲染訊號，包括：將所述J個第二目標HRTF中每個第二目標HRTF，分別和所述J個聲道訊號中對應的聲道訊號進行卷積，以得到第二目標渲染訊號。
如請求項1或2所述的方法，其中，所述獲取待渲染音訊訊號，包括：接收經音訊解碼器解碼得到的所述待渲染音訊訊號；或者，接收音訊採集器採集到的所述待渲染音訊訊號；或者，獲取多個音訊訊號經合成處理後所得到的所述待渲染音訊訊號。
一種音訊渲染方法，其中，所述方法包括：獲取待渲染音訊訊號；將所述待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號；以第一位置為甜點位置，確定所述高頻帶訊號對應的第一渲染訊號；以第二位置為甜點位置，確定所述高頻帶訊號對應的第二渲染訊號；其中，所述第一位置是收聽者的左耳位置時，所述第二位置是所述收聽者的右耳位置，或者，所述第一位置是所述收聽者的右耳位置時，所述第二位置是所述收聽者的左耳位置；以所述收聽者的頭中心位置為甜點位置，確定所述低頻帶訊號對應的第三渲染訊號和第四渲染訊號；將所述第一渲染訊號和所述第三渲染訊號融合，得到第一目標渲染訊號；將所述第二渲染訊號和所述第四渲染訊號融合，得到第二目標渲染訊號；其中，所述第一目標渲染訊號是用於向所述第一位置輸出的渲染訊號，所述第二目標渲染訊號是用於向所述第二位置輸出的渲染訊號。
如請求項9所述的方法，其中，所述將所述第一渲染訊號和所述第三渲染訊號融合，得到第一目標渲染訊號；將所述第二渲染訊號和所述第四渲染訊號融合，得到第二目標渲染訊號，包括：對所述第一渲染訊號的過渡帶內訊號和所述第二渲染訊號的過渡帶內訊號分別進行淡入處理，對所述第三渲染訊號的過渡帶內訊號和所述第四渲染訊號的過渡帶內訊號分別進行淡出處理；其中，所述過渡帶是以所述高頻帶訊號和所述低頻帶訊號的臨界頻率為中心，向上浮動第一頻寬以及向下浮動第二頻寬的頻帶；根據經淡入處理後的所述第一渲染訊號和經淡出處理後的所述第三渲染訊號，得到第一融合訊號，根據經淡入處理後的所述第二渲染訊號和經淡出處理後的所述第四渲染訊號，得到第二融合訊號；將所述第一融合訊號、所述第一渲染訊號的過渡帶外訊號、以及所述第三渲染訊號的過渡帶外訊號疊加，得到所述第一目標渲染訊號；將所述第二融合訊號、所述第二渲染訊號的過渡帶外訊號、以及所述第四渲染訊號的過渡帶外訊號疊加，得到所述第二目標渲染訊號。
如請求項10所述的方法，其中，所述對所述第一渲染訊號的過渡帶內訊號和所述第二渲染訊號的過渡帶內訊號分別進行淡入處理，包括：通過淡入因子，對所述第一渲染訊號的過渡帶內訊號和所述第二渲染訊號的過渡帶內訊號分別進行淡入處理；所述對所述第三渲染訊號的過渡帶內訊號和所述第四渲染訊號的過渡帶內訊號分別進行淡出處理，包括：通過淡出因子，對所述第三渲染訊號的過渡帶內訊號和所述第四渲染訊號的過渡帶內訊號分別進行淡出處理；其中，所述過渡帶對應T個所述淡入因子和所述淡出因子的組合，T是正整數，T個所述組合中任一個組合所對應的淡入因子與淡出因子的和為1。
如請求項9至11中任一項所述的方法，其中，在所述將所述第一渲染訊號和所述第三渲染訊號融合，得到第一目標渲染訊號；將所述第二渲染訊號和所述第四渲染訊號融合，得到第二目標渲染訊號之前，所述方法還包括：對所述第一渲染訊號或所述第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的所述第一渲染訊號或所述第三渲染訊號的群延時為固定值；對所述第二渲染訊號或所述第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的所述第二渲染訊號或所述第四渲染訊號的群延時均為固定值；所述將所述第一渲染訊號和所述第三渲染訊號融合，得到第一目標渲染訊號，包括：將所述第一渲染訊號和所述第三渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第一目標渲染訊號；所述將所述第二渲染訊號和所述第四渲染訊號融合，得到第二目標渲染訊號，包括：將所述第二渲染訊號和所述第四渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第二目標渲染訊號。
如請求項9至11中任一項所述的方法，其中，所述以第一位置為甜點位置，確定所述高頻帶訊號對應的第一渲染訊號，以第二位置為甜點位置，確定所述高頻帶訊號對應的第二渲染訊號，包括：以所述第一位置為甜點位置，獲取所述高頻帶訊號對應的M個第一訊號；所述M個第一訊號分別是M個虛擬揚聲器的訊號，所述M個第一訊號與所述M個虛擬揚聲器一一對應；其中，M是正整數；以所述第二位置為甜點位置，獲取所述高頻帶訊號對應的N個第二訊號；所述N個第二訊號分別是N個虛擬揚聲器的訊號，所述N個第二訊號與所述N個虛擬揚聲器一一對應；其中，N是正整數，N=M；獲取M個第一頭相關傳輸函數HRTF和N個第二HRTF；所述M個第一HRTF與所述M個第一訊號一一對應，所述N個第二HRTF與所述N個第二訊號一一對應；根據所述M個第一訊號和所述M個第一HRTF，確定所述第一渲染訊號；根據所述N個第二訊號和所述N個第二HRTF，確定所述第二渲染訊號。
如請求項13所述的方法，其中，所述以所述第一位置為甜點位置，獲取所述高頻帶訊號對應的M個第一訊號，包括：對所述高頻帶訊號進行處理，得到所述M個虛擬揚聲器的所述M個第一訊號；所述M個虛擬揚聲器是以所述第一位置為甜點位置設置的M個虛擬揚聲器；所述以所述第二位置為甜點位置，獲取所述高頻帶訊號對應的N個第二訊號，包括：對所述高頻帶訊號進行處理，得到所述N個虛擬揚聲器的所述N個第二訊號；所述N個虛擬揚聲器是以所述第二位置為甜點位置設置的N個虛擬揚聲器。
如請求項13所述的方法，其中，所述方法還包括：對所述高頻帶訊號進行處理，得到X個虛擬揚聲器對應的X個初始訊號，所述X個初始訊號與所述X個虛擬揚聲器一一對應；所述X個虛擬揚聲器是以所述頭中心位置為甜點位置設置的X個虛擬揚聲器；其中，X是正整數，X=M=N；所述以所述第一位置為甜點位置，獲取所述高頻帶訊號對應的M個第一訊號，包括：將所述X個初始訊號分別旋轉第一角度，得到所述M個第一訊號；所述第一角度是第一連線和第二連線的夾角，所述第一連線是第一虛擬揚聲器的位置與所述頭中心位置的連線，所述第二連線是所述第一虛擬揚聲器的位置與所述第一位置的連線，所述第一虛擬揚聲器是X個虛擬揚聲器中的任一個虛擬揚聲器；所述以所述第二位置為甜點位置，獲取所述高頻帶訊號對應的N個第二訊號，包括：將所述X個初始訊號分別旋轉第二角度，得到所述N個第二訊號；所述第二角度是所述第一連線和第三連線的夾角，所述第三連線是所述第一虛擬揚聲器的位置與所述第二位置的連線。
如請求項13所述的方法，其中，所述M個第一HRTF是基於所述M個第一訊號，以所述第一位置為甜點位置測量的所述第一位置的HRTF；所述N個第二HRTF是基於所述N個第二訊號，以所述第二位置為甜點位置測量的所述第二位置的HRTF。
如請求項13所述的方法，其中，所述獲取M個第一HRTF和N個第二HRTF，包括：獲取Y個初始HRTF，所述Y個初始HRTF是基於Y個虛擬揚聲器的Y個訊號，以所述頭中心位置為甜點位置測量的所述頭中心位置的HRTF，所述Y個虛擬揚聲器是以所述頭中心位置為甜點位置設置的Y個虛擬揚聲器，所述Y個初始HRTF與所述Y個虛擬揚聲器的訊號一一對應；其中，Y是正整數，Y=M=N；將所述Y個初始HRTF分別旋轉第三角度，得到所述M個第一HRTF；其中，所述第三角度是第三連線和第四連線的夾角，所述第三連線是第二虛擬揚聲器的位置與所述頭中心位置的連線，所述第四連線是所述第二虛擬揚聲器的位置和所述第一位置的連線，所述第二虛擬揚聲器是所述Y個虛擬揚聲器中的任一個虛擬揚聲器；將所述Y個初始HRTF分別旋轉第四角度，得到所述N個第二HRTF；其中，所述第四角度是所述第三連線和第五連線之間的夾角，所述第五連線是所述第二虛擬揚聲器的位置和所述第二位置的連線。
如請求項9至11中任一項所述的方法，其中，所述以所述收聽者的頭中心位置為甜點位置，確定所述低頻帶訊號對應的第三渲染訊號和第四渲染訊號，包括：對所述低頻帶訊號進行處理，得到R個第三訊號，所述R個第三訊號分別是R個虛擬揚聲器的訊號，所述R個第三訊號與所述R個虛擬揚聲器一一對應；所述R個虛擬揚聲器是以所述頭中心位置為甜點位置設置的R個虛擬揚聲器；其中，R是正整數；獲取R個第三HRTF；所述R個第三HRTF是基於所述R個第三訊號，以所述頭中心位置為甜點位置測量的所述第一位置的HRTF，所述R個第三HRTF與所述R個第三訊號一一對應；獲取R個第四HRTF；所述R個第四HRTF是基於所述R個第三訊號，以所述頭中心位置為甜點位置測量的所述第二位置的HRTF，所述R個第四HRTF與所述R個第三訊號一一對應；根據所述R個第三訊號和所述R個第三HRTF，確定所述第三渲染訊號；根據所述R個第三訊號和所述R個第四HRTF，確定所述第四渲染訊號。
如請求項9至11中任一項所述的方法，其中，所述獲取待渲染音訊訊號，包括：接收經音訊解碼器解碼得到的所述待渲染音訊訊號；或者，接收音訊採集器採集到的所述待渲染音訊訊號；或者，獲取多個音訊訊號經合成處理後所得到的所述待渲染音訊訊號。
一種音訊渲染裝置，其中，所述裝置包括獲取單元和確定單元：所述獲取單元用於，獲取待渲染音訊訊號；所述確定單元用於：基於K個第一頭相關傳輸函數HRTF和K個第二HRTF，確定K個第一融合HRTF，所述K個第一融合HRTF是用於處理所述待渲染音訊訊號的左耳HRTF；其中，所述K個第一HRTF是用於處理所述待渲染音訊訊號中的低頻帶訊號的左耳HRTF，所述K個第二HRTF是用於處理所述待渲染音訊訊號中的高頻帶訊號的左耳HRTF，K是正整數；基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF，所述K個第二融合HRTF是用於處理所述待渲染音訊訊號的右耳HRTF；其中，所述K個第三HRTF是用於處理所述待渲染音訊訊號中的低頻帶訊號的右耳HRTF，所述K個第四HRTF是用於處理所述待渲染音訊訊號中的高頻帶訊號的右耳HRTF；根據所述K個第一融合HRTF和所述待渲染音訊訊號，確定第一目標渲染訊號，所述第一目標渲染訊號是用於向收聽者左耳輸出的渲染訊號；根據所述K個第二融合HRTF和所述待渲染音訊訊號，確定第二目標渲染訊號，所述第二目標渲染訊號是用於向所述收聽者右耳輸出的渲染訊號。
如請求項20所述的裝置，其中，所述第一HRTF和所述第二HRTF是基於同一左耳HRTF確定的；所述第三HRTF和所述第四HRTF是基於同一右耳HRTF確定的。
如請求項20或21所述的裝置，其中，所述獲取單元還用於，在所述確定單元基於K個第一HRTF和K個第二HRTF，確定K個第一融合HRTF之前，獲取K個左耳初始HRTF，所述K個左耳初始HRTF是基於K個虛擬揚聲器的訊號，以所述收聽者的頭中心位置為甜點位置測量的左耳的HRTF，所述K個左耳初始HRTF與K個虛擬揚聲器的訊號一一對應；以及，在所述確定單元基於K個第三HRTF和K個第四HRTF，確定K個第二融合HRTF之前，獲取K個右耳初始HRTF，所述K個右耳初始HRTF是基於所述K個虛擬揚聲器的訊號，以所述收聽者的頭中心位置為甜點位置測量的右耳的HRTF，所述K個右耳初始HRTF與所述K個虛擬揚聲器的訊號一一對應；其中，所述K個虛擬揚聲器是以所述收聽者的頭中心位置為甜點位置設置的K個虛擬揚聲器；所述確定單元還用於，基於所述K個左耳初始HRTF，確定所述K個第一HRTF和所述K個第二HRTF；以及，基於所述K個右耳初始HRTF，確定所述K個第三HRTF和所述K個第四HRTF。
如請求項22所述的裝置，其中，所述確定單元具體用於：對所述K個左耳初始HRTF進行低通濾波處理，以得到所述K個第一HRTF；對所述K個左耳初始HRTF進行高通濾波處理，以得到所述K個第二HRTF；對所述K個右耳初始HRTF進行低通濾波處理，以得到所述K個第三HRTF；對所述K個右耳初始HRTF進行高通濾波處理，以得到所述K個第四HRTF。
如請求項22所述的裝置，其中，所述確定單元具體用於：對所述K個左耳初始HRTF進行低通濾波處理和延時處理，以得到所述K個第一HRTF；對所述K個左耳初始HRTF進行高通濾波處理，以得到所述K個第二HRTF；或者，對所述K個左耳初始HRTF進行低通濾波處理，以得到所述K個第一HRTF；對所述K個左耳初始HRTF進行高通濾波處理和延時處理，以得到所述K個第二HRTF；對所述K個右耳初始HRTF進行低通濾波處理和延時處理，以得到所述K個第三HRTF；對所述K個右耳初始HRTF進行高通濾波處理，以得到所述K個第四HRTF；或者，對所述K個右耳初始HRTF進行低通濾波處理，以得到所述K個第三HRTF；對所述K個右耳初始HRTF進行高通濾波處理和延時處理，以得到所述K個第四HRTF。
如請求項20或21所述的裝置，其中，所述待渲染音訊訊號包括J個聲道訊號，J是正整數；所述裝置還包括變換單元；所述變換單元用於，將所述K個第一融合HRTF變換到所述待渲染音訊訊號域，以得到J個第一目標HRTF，所述J個第一目標HRTF是所述域中的左耳HRTF，所述J個第一目標HRTF與所述J個聲道訊號一一對應；以及，將所述K個第二融合HRTF變換到所述域，以得到J個第二目標HRTF，所述J個第二目標HRTF是所述域中的右耳HRTF，所述J個第二目標HRTF與所述J個聲道訊號一一對應；所述確定單元具體用於，根據所述J個第一目標HRTF和所述J個聲道訊號，確定第一目標渲染訊號；以及，根據所述J個第二目標HRTF和所述J個聲道訊號，確定第二目標渲染訊號。
如請求項25所述的裝置，其中，所述確定單元具體用於：將所述J個第一目標HRTF中每個第一目標HRTF，分別和所述J個聲道訊號中對應的聲道訊號進行卷積，以得到第一目標渲染訊號；將所述J個第二目標HRTF中每個第二目標HRTF，分別和所述J個聲道訊號中對應的聲道訊號進行卷積，以得到第二目標渲染訊號。
如請求項20或21所述的裝置，其中，所述獲取單元具體用於：接收經音訊解碼器解碼得到的所述待渲染音訊訊號；或者，接收音訊採集器採集到的所述待渲染音訊訊號；或者，獲取多個音訊訊號經合成處理後所得到的所述待渲染音訊訊號。
一種音訊渲染裝置，其中，所述裝置包括獲取單元、劃分單元、確定單元以及融合單元；所述獲取單元用於，獲取待渲染音訊訊號；所述劃分單元用於，將所述待渲染音訊訊號劃分為高頻帶訊號和低頻帶訊號；所述確定單元用於，以第一位置為甜點位置，確定所述高頻帶訊號對應的第一渲染訊號；以及用於以第二位置為甜點位置，確定所述高頻帶訊號對應的第二渲染訊號；其中，所述第一位置是收聽者的左耳位置時，所述第二位置是所述收聽者的右耳位置，或者，所述第一位置是所述收聽者的右耳位置時，所述第二位置是所述收聽者的左耳位置；以所述收聽者的頭中心位置為甜點位置，確定所述低頻帶訊號對應的第三渲染訊號和第四渲染訊號；其中，所述第三渲染訊號用於確定向所述第一位置輸出的渲染訊號，所述第四渲染訊號用於確定向所述第二位置輸出的渲染訊號；所述融合單元用於，將所述第一渲染訊號和所述第三渲染訊號融合，得到第一目標渲染訊號；將所述第二渲染訊號和所述第四渲染訊號融合，得到第二目標渲染訊號；其中，所述第一目標渲染訊號是用於向所述第一位置輸出的渲染訊號，所述第二目標渲染訊號是用於向所述第二位置輸出的渲染訊號。
如請求項28所述的裝置，其中，所述融合單元具體用於：對所述第一渲染訊號的過渡帶內訊號和所述第二渲染訊號的過渡帶內訊號分別進行淡入處理，對所述第三渲染訊號的過渡帶內訊號和所述第四渲染訊號的過渡帶內訊號分別進行淡出處理；其中，所述過渡帶是以所述高頻帶訊號和所述低頻帶訊號的臨界頻率為中心，向上浮動第一頻寬以及向下浮動第二頻寬的頻帶；根據經淡入處理後的所述第一渲染訊號和經淡出處理後的所述第三渲染訊號，得到第一融合訊號，根據經淡入處理後的所述第二渲染訊號和經淡出處理後的所述第四渲染訊號，得到第二融合訊號；將所述第一融合訊號、所述第一渲染訊號的過渡帶外訊號、以及所述第三渲染訊號的過渡帶外訊號疊加，得到所述第一目標渲染訊號；將所述第二融合訊號、所述第二渲染訊號的過渡帶外訊號、以及所述第四渲染訊號的過渡帶外訊號疊加，得到所述第二目標渲染訊號。
如請求項29所述的裝置，其中，所述融合單元具體用於：通過淡入因子，對所述第一渲染訊號的過渡帶內訊號和所述第二渲染訊號的過渡帶內訊號分別進行淡入處理；通過淡出因子，對所述第三渲染訊號的過渡帶內訊號和所述第四渲染訊號的過渡帶內訊號分別進行淡出處理；其中，所述過渡帶對應T個所述淡入因子和所述淡出因子的組合，T是正整數，T個所述組合中任一個組合所對應的淡入因子與淡出因子的和為1。
如請求項28至30中任一項所述的裝置，其中，所述裝置還包括：濾波單元，用於在所述融合單元將所述第一渲染訊號和所述第三渲染訊號融合，得到第一目標渲染訊號；將所述第二渲染訊號和所述第四渲染訊號融合，得到第二目標渲染訊號之前，對所述第一渲染訊號或所述第三渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的所述第一渲染訊號或所述第三渲染訊號的群延時為固定值；以及對所述第二渲染訊號或所述第四渲染訊號進行梳狀濾波處理，以使經梳狀濾波處理後的所述第二渲染訊號或所述第四渲染訊號的群延時均為固定值；所述融合單元，具體用於將所述第一渲染訊號和所述第三渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第一目標渲染訊號；以及，具體用於將所述第二渲染訊號和所述第四渲染訊號中，經梳狀濾波處理後的渲染訊號和未經梳狀濾波處理的渲染訊號融合，得到第二目標渲染訊號。
如請求項28至30中任一項所述的裝置，其中，所述獲取單元還用於：以所述第一位置為甜點位置，獲取所述高頻帶訊號對應的M個第一訊號；所述M個第一訊號分別是M個虛擬揚聲器的訊號，所述M個第一訊號與所述M個虛擬揚聲器一一對應；其中，M是正整數；以所述第二位置為甜點位置，獲取所述高頻帶訊號對應的N個第二訊號；所述N個第二訊號分別是N個虛擬揚聲器的訊號，所述N個第二訊號與所述N個虛擬揚聲器一一對應；其中，N是正整數，N=M；獲取M個第一頭相關傳輸函數HRTF和N個第二HRTF；所述M個第一HRTF與所述M個第一訊號一一對應，所述N個第二HRTF與所述N個第二訊號一一對應；所述確定單元具體用於，根據所述M個第一訊號和所述M個第一HRTF，確定所述第一渲染訊號；根據所述N個第二訊號和所述N個第二HRTF，確定所述第二渲染訊號。
如請求項32所述的裝置，其中，所述獲取單元具體用於：對所述高頻帶訊號進行處理，得到所述M個虛擬揚聲器的所述M個第一訊號；所述M個虛擬揚聲器是以所述第一位置為甜點位置設置的M個虛擬揚聲器；對所述高頻帶訊號進行處理，得到所述N個虛擬揚聲器的所述N個第二訊號；所述N個虛擬揚聲器是以所述第二位置為甜點位置設置的N個虛擬揚聲器。
如請求項32所述的裝置，其中，所述獲取單元還用於，對所述高頻帶訊號進行處理，得到X個虛擬揚聲器對應的X個初始訊號，所述X個初始訊號與所述X個虛擬揚聲器一一對應；所述X個虛擬揚聲器是以所述頭中心位置為甜點位置設置的X個虛擬揚聲器；其中，X是正整數，X=M=N；所述獲取單元具體用於：將所述X個初始訊號分別旋轉第一角度，得到所述M個第一訊號；所述第一角度是第一連線和第二連線的夾角，所述第一連線是第一虛擬揚聲器的位置與所述頭中心位置的連線，所述第二連線是所述第一虛擬揚聲器的位置與所述第一位置的連線，所述第一虛擬揚聲器是X個虛擬揚聲器中的任一個虛擬揚聲器；將所述X個初始訊號分別旋轉第二角度，得到所述N個第二訊號；所述第二角度是所述第一連線和第三連線的夾角，所述第三連線是所述第一虛擬揚聲器的位置與所述第二位置的連線。
如請求項32所述的裝置，其中，所述M個第一HRTF是基於所述M個第一訊號，以所述第一位置為甜點位置測量的所述第一位置的HRTF；所述N個第二HRTF是基於所述N個第二訊號，以所述第二位置為甜點位置測量的所述第二位置的HRTF。
如請求項32所述的裝置，其中，所述獲取單元具體用於：獲取Y個初始HRTF，所述Y個初始HRTF是基於Y個虛擬揚聲器的訊號，以所述頭中心位置為甜點位置測量的所述頭中心位置的HRTF，所述Y個虛擬揚聲器是以所述頭中心位置為甜點位置設置的Y個虛擬揚聲器，所述Y個初始HRTF與所述Y個虛擬揚聲器的訊號一一對應；其中，Y是正整數，Y=M=N；將所述Y個初始HRTF分別旋轉第三角度，得到所述M個第一HRTF；其中，所述第三角度是第三連線和第四連線的夾角，所述第三連線是第二虛擬揚聲器的位置與所述頭中心位置的連線，所述第四連線是所述第二虛擬揚聲器的位置和所述第一位置的連線，所述第二虛擬揚聲器是所述Y個虛擬揚聲器中的任一個虛擬揚聲器；將所述Y個初始HRTF分別旋轉第四角度，得到所述N個第二HRTF；其中，所述第四角度是所述第三連線和第五連線之間的夾角，所述第五連線是所述第二虛擬揚聲器的位置和所述第二位置的連線。
如請求項28至30中任一項所述的裝置，其中，所述獲取單元還用於：對所述低頻帶訊號進行處理，得到R個第三訊號，所述R個第三訊號分別是R個虛擬揚聲器的訊號，所述R個第三訊號與所述R 個虛擬揚聲器一一對應；所述R個虛擬揚聲器是以所述頭中心位置為甜點位置設置的R個虛擬揚聲器；其中，R是正整數；獲取R個第三HRTF；所述R個第三HRTF是基於所述R個第三訊號，以所述頭中心位置為甜點位置測量的所述第一位置的HRTF，所述R個第三HRTF與所述R個第三訊號一一對應；獲取R個第四HRTF；所述R個第四HRTF是基於所述R個第三訊號，以所述頭中心位置為甜點位置測量的所述第二位置的HRTF，所述R個第四HRTF與所述R個第三訊號一一對應；所述確定單元具體用於，根據所述R個第三訊號和所述R個第三HRTF，確定所述第三渲染訊號；根據所述R個第三訊號和所述R個第四HRTF，確定所述第四渲染訊號。
如請求項28至30中任一項所述的裝置，其中，所述獲取單元具體用於：接收經音訊解碼器解碼得到的所述待渲染音訊訊號；或者，接收音訊採集器採集到的所述待渲染音訊訊號；或者，獲取多個音訊訊號經合成處理後所得到的所述待渲染音訊訊號。
一種音訊渲染裝置，其中，所述裝置包括：記憶體和一個或多個處理器，所述記憶體用於存儲電腦指令，所述處理器用於調用所述電腦指令，以執行如請求項1至19中任一所述的方法。
一種用於音訊渲染的電腦可讀存儲介質，其中，所述電腦可讀存儲介質上存儲有電腦程式，當所述電腦程式在電腦上運行時，使得所述電腦執行請求項1至19中任一所述的方法。