TW201939973A

TW201939973A - 用於以頭部追蹤產生客製化空間音訊的方法

Info

Publication number: TW201939973A
Application number: TW108100316A
Authority: TW
Inventors: 迪篪李; 蓋特馬克班傑明萊斯里; 馬克安東尼戴威斯; 艾德文湯柏薩; 道恩許
Original assignee: 新加坡商創新科技有限公司
Priority date: 2018-01-07
Filing date: 2019-01-04
Publication date: 2019-10-01
Also published as: US20190379995A1; US11006235B2; US20230007433A1; KR102574082B1; EP3509327A1; DK3509327T3; US11785412B2; US20190215637A1; JP7071297B2; JP2019146160A; PL3509327T3; KR20190084883A; US11445321B2; CN110021306B; CN110021306A; EP3509327B1; TWI797230B; US10390171B2; US20210266696A1; US20230379650A1

Abstract

一種用於空間音訊呈現之頭戴式耳機包括一第一資料庫，其具有對應於一參考揚聲器部位之一脈衝回應對。一頭部感測器將頭部定向資訊提供至具有旋轉濾波器之一第二資料庫，該等濾波器與相對於該參考揚聲器部位之不同方位角及仰角位置相對應。一數位信號處理器將該等旋轉濾波器與該脈衝回應對組合以將一輸出雙耳音訊信號產生至該頭戴式耳機之換能器。相較於在習知方法中，藉由較不頻繁地取樣脈衝回應而達成在產生該脈衝回應或HRTF資料庫上之效率。以較粗間隔進行之此取樣縮減產生一球面柵格所需要之資料量測之數目，且縮減在俘獲該等脈衝回應上所涉及之時間。藉由在頻域中進行內插而產生針對落在經取樣資料點之間的資料點之脈衝回應。

Description

用於以頭部追蹤產生客製化空間音訊的方法

本發明係關於用於在啟用頭部追蹤之情況下在頭戴式耳機上呈現音訊的方法及系統。更特定而言，本發明係關於採用在產生資料庫及濾波器時之效率以用於濾波3D音訊源，以獲取更逼真的音訊呈現且亦允許較大的頭部移動以增強空間音訊感知。

相關申請案之交叉參考

本申請案主張2018年1月7日申請且名稱為用於以頭部追蹤產生客製化空間音訊的方法（METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING）之臨時美國專利申請案序號62/614,482的優先權，其之記載內容的全文以引用方式併入本文中。

雙耳房間脈衝回應（Binaural Room Impulse Response；BRIR）處理之實踐係熟知的。根據已知方法，使用真實或虛設頭部及雙耳麥克風以記錄針對真實房間內之數個喇叭位置中之每一者的立體聲脈衝回應（impulse response；IR）。亦即，產生一對脈衝回應，每一耳朵一個脈衝回應。可接著使用此等IR卷積（濾波）音樂播放軌，且將結果混合在一起並在頭戴式耳機上播放。若應用正確的均衡，則音樂之聲道將會聽起來就好像其在IR被記錄之房間內的揚聲器位置中被播放。此為一種可在頭戴式耳機上複製自針對房間內之複數個揚聲器設計之多聲道源材料期望之音訊感知的方式。出於闡明目的，提供轉移函數及脈衝回應術語之簡要論述。一般而言，HRTF代表頭部相關轉移函數（Head Related Transfer Function），其為在消音室內自揚聲器至耳朵之轉移函數的量測，以便描述聲音之直接路徑。與此對比，BRIR或雙耳房間脈衝回應提供房間之脈衝回應，以將對應迴響添加至音訊源。其關聯轉移函數有時在本文中被稱作雙耳房間轉移函數（Binaural Room Transfer Function；BRTF）。

HRTF界定每一耳朵如何自空間中之點接收聲音之特徵，且取決於包括頭部之形狀、大小及密度的頭部之特性，及耳朵之形狀及大小，並係自頭部相關脈衝回應（HRIR）之量測導出的。HRIR典型地係在消音室內量測的，使得其僅含有關於頭部之資訊，而不包括任何房間迴響。HRIR相當短；典型地為大約十幾毫秒。

經由頭戴式耳機呈現之BRIR處理提供在房間內收聽音樂之逼真感，其限制條件為收聽者不移動其頭部。然而，典型的是，位於真實房間內收聽複數個真實喇叭之收聽者相對於揚聲器部位移動其頭部。即使是頭部之最小移動亦會引起揚聲器相對於頭部之相對位置發生小的改變，特別是角度定向，且將至少產生收聽者之空間音訊感知之小的可感知改變。對於收聽者而言，聲音被感知為來自稍微不同的方向。收聽者感知聲源之方向的能力與以下各者有關：音訊源在每一耳朵處被感測之時間差（亦即，耳間時間差（「interaural time difference；ITD」））；每一耳朵處之聲音位準差（通常被稱作「耳間位準差」（Interaural Level Difference；ILD）或「耳間強度差」（Interaural Intensity Difference；IID））；及由耳朵之耳廓之解剖學造成的頻譜成形。儘管頭部之此等小移動可能會致使由收聽者感知之空間場景發生僅適度的改變，但該等移動對於提供收聽者真實性及收聽者在真實場景中作為獨立行動者之角色的辨識係重要的。需要一種高效方式來偵測小的頭部移動，且更改脈衝回應與音訊源信號之經處理乘積，以在頭戴式耳機上之音訊呈現中產生較大的真實性。

為達成前述內容，本發明在各種具體實例中提供一種處理器，該處理器經組態以向頭戴式耳機提供雙耳信號，其由來自頭部追蹤硬體之結果實施及修改以向在頭戴式耳機上進行的音訊之雙耳複製提供額外維度之真實性。此外，在本發明之各種具體實例中，使用僅適度增加之記憶體儲存要求進行由雙耳房間脈衝回應濾波器處理之音訊的高效頭部追蹤修改。BRIR包括房間迴響，其長度取決於房間之大小而可為幾百毫秒。由於HRIR比BRIR短得多，故可使用短得多的濾波器模型化HRIR。如稍後將關於本發明之具體實例更詳細地所闡釋，可使用時域、頻域或分割頻域卷積實行濾波操作。如本說明書中所使用，雙耳聲脈衝回應（Binaural Acoustic Impulse Response；BAIR）係指空間音訊中反映由聲環境造成之頻譜成形及其他改變之效應的量測，該聲環境包括：頭部、軀幹及耳朵之性質；聲環境中之喇叭之性質；及該環境中發生之迴響。早先所論述之雙耳房間脈衝回應（BRIR）及頭部相關脈衝回應（HRIR）皆為雙耳聲脈衝回應之子集。術語雙耳聲轉移函數（Binaural Acoustic Transfer Function；BATF）在本文中係指基於雙耳聲脈衝回應之量測以界定聲音接收之特徵的轉移函數。亦即，BATF據此被定義為以單一術語涵蓋HRTF及BRTF二者。相似地，BAIR被定義為涵蓋HRIR及BRIR二者。

在另一具體實例中，相較於在習知方法中，藉由較不頻繁地取樣脈衝回應而達成儲存脈衝回應或HRTF資料庫所需要之空間的節省。以較粗間隔之此取樣縮減產生球面柵格所需要之資料量測之數目，且縮減俘獲脈衝回應時所涉及之時間。在若干具體實例中，藉由在頻域中進行內插而產生針對落在經取樣資料點之間的資料點之脈衝回應。

簡言之，由下文所述之樣本提供用於頭部追蹤修改之一個具體實例之操作的概述。當使用者在參考位置（亦即，0度方位角）中向前直視時，處理器嚴格地依賴於相關聲道之BRIR。因此，處理將基於自用於左聲道之左前部揚聲器（在約-30度方位角處）所記錄的BRIR及自用於右聲道之右前部揚聲器（在約+30度處）所記錄的BRIR遞送音訊。因此，在此狀況下，由於頭部未自參考位置移動，故結果與無頭部追蹤之結果完全相同。

當頭部移動時，理想地，BRIR應改變。舉例而言，當頭部向右轉動5度時，應使用以25度方位角而非30度所記錄之BRIR來濾波右聲道，且應使用以-35度而非-30度所記錄之BRIR來濾波左聲道。

然而，針對此組態之記憶體要求相當大。針對每一揚聲器位置記錄兩個脈衝回應（IR），且每一IR很可能為至少200 msec長，以俘獲甚至小房間之迴響。BRIR將併有以下二者：a）直接提供至耳朵之消音轉移函數，及b）房間迴響轉移函數。具有五個揚聲器位置且以48 kHz記錄之常見多聲道房間配置針對頭部之每一角度需要用於96k個濾波器係數之儲存。若吾人想要針對介於-45與+45度之間的每兩度方位角及每兩度仰角具有新的一組濾波器，則此將需要用於超過700百萬個係數之儲存。

另外，處理成本將會增加。頻域（「快速」）卷積通常用於此類大卷積，因為其處理成本低得多。然而，當使用快速卷積且自一組濾波器改變至另一組濾波器時，需要「舊」與「新」濾波器之間的平滑轉換，此意謂在短時段內必須執行兩次卷積。每當頭部移動時，將使處理成本加倍。由於必須指定信號處理硬體以迎合最高處理頻寬，故此將使硬體成本加倍，或若無法改變處理硬體，則必須將濾波器之長度減半。此將影響音訊品質。

可使用時域、頻域或分割頻域卷積實行必要的濾波操作。分割卷積未必在頻域中進行，但常常在頻域中進行。分割卷積具體實例涉及將脈衝回應分裂為一系列較短片段。接著將輸入信號與每一片段進行卷積。將此等單獨卷積之結果儲存於一系列記憶體緩衝器中。藉由將適當緩衝加總在一起而產生輸出信號。此方法之一個優點在於縮減自IR之長度至每一片段之長度的延時。在一些具體實例中，後者係較佳的，但在其他具體實例中，此處所述方法亦將結合其他二者而運作。

根據本發明之各種具體實例，運用更高效且簡單的系統獲得真實性。較佳地，使用單組BRIR，或替代地，使用縮減的一組BRIR且將其與一組旋轉濾波器組合以將用於第一位置之BRIR轉換至用於第二且不同位置之BRIR。如本文中所使用，旋轉濾波器係指用以將用於第一位置之BRIR轉換至用於第二且不同位置之BRIR的轉移函數，例如可能在偵測到收聽者之頭部旋轉之後被需要。

根據一個具體實例，用於以頭部追蹤在頭戴式耳機上產生空間音訊之系統包含實施FIR濾波器之至少一個處理器，該等FIR濾波器將時域FIR旋轉濾波器與耳間時間延遲電路系統組合。

因此，本發明具體實例針對在頭戴式耳機應用上之各種空間音訊提供有效的解決方案。

下文參考圖式來描述本發明之此等及其他特徵及優點。

現在將詳細地參考本發明之較佳具體實例。隨附圖式中繪示了較佳具體實例之實例。雖然將結合此等較佳具體實例描述本發明，但將理解，並不意欲將本發明限於此類較佳具體實例。相反地，意欲涵蓋如可包括於如由所附申請專利範圍所界定的本發明之精神及範圍內的替代物、修改及等效物。在以下描述中，闡述眾多特定細節以便提供對本發明之透徹理解。可在無此等特定細節中之一些或全部的情況下實踐本發明。在其他情況下，尚未詳細地描述熟知的機制以免不必要地使本發明模糊。

在本文中應注意，貫穿各種圖式，類似數字係指類似部件。本文中所繪示及描述之各種圖式用以繪示本發明之各種特徵。在一個圖式而不在另一圖式中繪示特定特徵的程度上，除了另有指示或結構固有地禁止併有該特徵以外，應理解，彼等特徵可適應於包括於其他圖中所表示之具體實例中，就好像其完全繪示於彼等圖中。除非另有指示，否則圖式未必按比例。圖式上所提供之任何尺寸並不意欲限制本發明之範圍，而僅僅係說明性的。

個人之HRTF主要歸因於其獨特的耳朵、頭部、肩部及軀幹而獨特的。通常藉由採取「平均」頭部所產生之通用HRTF可能不匹配於使用者之HRTF且引起仰角誤差、前後混淆及不良外部化。提供空間音訊時之最佳結果藉由提供對收聽者客製化之緻密HRTF資料庫來達成。此對於提供準確濾波之目標係重要的，亦即，所選擇之濾波器係數向經選擇收聽者提供聲音來自經選擇方向之準確感知。當然，以許多資料點產生HRTF之客製化資料庫需要更多記憶體。典型地，HRTF資料庫將針對在方位角上隔開不超過15度且在仰角上隔開不超過15度之資料點提供HRTF對。理想地採取此等量測以圍繞收聽者產生完全球面柵格。較佳地且為在HRTF濾波器中提供甚至更多準確度，將資料點定位為彼此相距3度。此當然產生巨大的球面HRTF柵格，需要相當大的記憶體儲存。此外，量測個人之HRTF為冗長乏味且費力的程序，需要安靜房間且要求使用者在長時間段內靜坐。使用者可能歸因於長HRTF量測程序而感覺疲勞且不能夠保持靜止，從而引起低於理想量測。即使使用者在量測期間將其頭部移動僅一公分，HRTF亦不再準確。關於實際HRTF俘獲程序，典型地使喇叭圍繞使用者之頭部旋轉以對應於規則且典型地緻密球面柵格，且整個程序可能花費數小時。量測程序之輸出為HRTF映圖，其為由方向（方位角、仰角）加索引之HRTF對的清單，且亦可包括傾角量度。此映圖有時亦被稱作HRTF柵格、球面柵格，或HRTF資料集。球面柵格概念表示HRTF可用於圍繞收聽者之頭部之平面上的360度方向，且亦可用於此水平面上方及下方之360度仰角，以輔助收聽者準確地感知方向性聲音。為瞭解所涉及之量測時間且作為實例，來自MIT之KEMAR HRTF資料庫使用具有5度之方位角增量的量測柵格。又，來自UC Davis之CIPIC HRTF資料庫使用具有5.625度之方位角增量的量測柵格。相對於此等資料庫，即使是使用15度之間距的常用IRCAM資料集，儘管略粗但仍然會花費相當大的時間來俘獲資料點之完全球面柵格，亦即，HRTF映圖。

考慮到此等缺點，需要縮短量測程序，同時仍然提供可接受的準確度。

在使用中，考慮到頭部位置（方位角、仰角），習知方法典型地使用方位角及仰角參數作為索引以在HRTF映圖或柵格中「查找」適當的HRTF，且使用「最接近的」HRTF，或周圍HRTF之內插。時域中之簡單內插為最易方法，但其並不會非常良好地運作。此係因為：若用於內插之相鄰脈衝回應（IR）異相，則時域回應之內插可引起破壞性干擾。已提出若干方法來避免此問題。一個實例係應用時間規整（warping），使得IR在內插之前變得時間對準。然而，此因為經內插IR必須被修改以考量時間規整而為複雜程序。

歸因於以上問題，在較佳具體實例中，吾人使用頻域內插，其即使在HRTF之間的角度大時亦提供良好結果。本發明提供用於頻域中之內插的具體實例。更詳細地，一種方法涉及內插HRTF之量值及相位。在頻域中執行內插需要諸如快速傅立葉變換（Fast Fourier Transform；FFT）之操作以轉換至頻域，且需要反FFT以轉換回至時域。此等為所屬技術領域中具有知識者所知，且因此關於轉換區塊中之細節的進一步闡釋在此處咸信為不必要的。

用於內插之資料點（柵格點）之數目取決於數個因素。此等因素包括柵格間距（均一，其中間距遍及整個柵格係恆定的；或非均一），及經內插點相對於柵格點所處之部位。取決於情境，典型地在使用2或3個點之具體實例中達成最佳結果，但在本發明之一些具體實例中使用4個點。

在本發明之各種具體實例中，很大程度上基於經內插點相對於經量測點之座標選擇不同內插方法。在第一具體實例中執行鄰近線性內插。此為用於內插HRIR之最簡單方法。在此狀況下，自兩個相鄰點內插目標角度。當在同一平面上之點（例如，具有固定仰角之方位角，或具有固定方位角之仰角）之間內插時，亦即當經內插點處於柵格線中之一者上時，可使用此方法。

在另一具體實例中，選擇雙線性內插。此為線性內插之延伸，且可在經內插點處於柵格線之間時被使用。對於給定目標部位，經內插HRIR被近似為與四個最接近點相關聯之HRIR的加權總和。此等點圍繞目標部位形成正方形或矩形。

在又一具體實例中，選擇球面三角形內插。此實際上為雙線性內插之經修改版本，其能夠與非均一量測柵格一起運作，亦即，當最接近的四個點並不形成正方形或矩形時。在此狀況下，選擇圍繞目標部位形成三角形之三個最接近點。如同雙線性內插方法，經內插IR被近似為與最接近點相關聯之HRTF的加權總和。然而，在此狀況下，內插公式更複雜。

概言之，鄰近線性內插具體實例使用2個HRIR以用於內插，雙線性內插使用4個點以用於內插，且球面三角形內插使用3個點以用於內插。使用無論哪一方法係取決於經內插點之座標，及柵格間距是否均一。

頻域內插允許吾人使用較粗量測間隔（例如30至60度，而非比如5度），其顯著地縮減涵蓋球面映圖或柵格所需要之量測之數目。換言之，運用頻域內插，吾人執行環繞收聽者之頭部之球面的較稀疏取樣。在喇叭位置之數目縮減的情況下，俘獲時間顯著地縮減。此縮減對使用者保持靜止之需求（其改良了HRTF品質），且僅需要房間在較短時間段內為可取用。

在其他具體實例中，藉由在不規則柵格中俘獲HRTF而提供HRTF量測之縮減。並非全部頭部姿勢皆同樣重要。舉例而言，在某些使用狀況下，前部60度錐面可能被認為更重要。柵格可在彼錐面中較緻密，而後部及底部象限可具有較稀疏柵格。

在又一具體實例中，吾人藉由使用多個揚聲器達成效率。諸如IRCAM之當前方法典型地使用安裝於可移動臂上之一個喇叭以及旋轉椅以跨越球面柵格。在此具體實例中，吾人設置多個揚聲器，且同時量測多個HRTF並將其映射至球面柵格，從而進一步縮減量測所花費之時間。換言之，對於圍繞收聽者設置有5個揚聲器（配備有2個耳內麥克風）之揚聲器，吾人依序地啟動5個揚聲器中之每一者，從而針對收聽者相對於揚聲器所採取之每一位置引起5個讀數。另外，可藉由識別對稱性而運用全部上述技術達成HRTF俘獲量測之縮減。亦即，若吾人假定房間以及使用者之耳廓、頭部及軀幹對稱，則吾人僅需要在球面之半部上量測HRTF，且將HRTF鏡像至另一半部。

圖1A為在本發明具體實例中之一者之一個步驟中的繪示用於產生HRTF或BRIR稀疏柵格的在圍繞收聽者之頭部之360度方位角上之各種揚聲器部位的圖解。理想地，諸如在圍繞收聽者102之方位角上包括104至115的揚聲器位置出於最大準確度而隔開3度。相似地，在圖1B中，揚聲器部位122、123、124、125、126、127及128將理想地在仰角上反映與最接近的各別揚聲器位置相隔3度之角傾度與偏度。使用本發明之技術，可運用其中鄰近揚聲器位置可在30至60度範圍內的「稀疏」HRTF柵格，接著進行本發明具體實例之頻域內插步驟，來達成相當準確度。圖1B為繪示用於產生HRTF資料庫的在仰角上之各種揚聲器部位的圖形表示。

在以上例示具體實例中，至少部分地藉由記錄由揚聲器相對於靜止頭部位置之移動所造成的回應而產生BRIR對及HRIR對。

在替代具體實例中，至少部分地藉由記錄由頭部相對於靜止揚聲器之移動所造成的回應而產生BRIR對及HRIR對。實施相對於揚聲器之頭部位置之操縱，且基於此類操縱而對適用轉移函數進行修改。舉例而言，當頭部旋轉，比如旋轉至零度參考位置之左側45度時，相較於其中相對於頭部發生揚聲器移動之情形發生不同效應。此差異很大程度上歸因於頭部與身體其餘部分之間的關係改變。對於相對於收聽者發生揚聲器移動之大多數量測之情形，頭部相對於肩部對稱地置放。如此當然並非在揚聲器保持靜止且頭部旋轉時之狀況。產生識別及補償此類移動之BAIR及其相關BATF會提供音訊之空間感知之準確度的改良。

對於另一實例，相較於其中相對於保持靜止之揚聲器實體地向上或向下移動頭部，改變揚聲器仰角具有完全不同的BAIR。BAIR不僅針對如上文所描述的頭部之旋轉而改變，而且亦針對頭部之傾度/偏度及頭部之傾斜而改變。在一個較佳具體實例中，除了使用多個揚聲器部位以用於大體上俘獲HRTF及BAIR，產生HRTF資料集或旋轉濾波器資料集亦包括用於頭部旋轉之額外資料。

圖2為根據本發明之一個具體實例的繪示具有頭部追蹤特徵之頭戴式耳機電路系統的圖解。在系統200中，頭部追蹤感測器202耦接至收聽者之頭部以量測使用者之頭部定向之改變。來自此感測器之輸出用以在方位角區塊204中產生方位角及仰角資訊。接著將所導出之方位角及仰角資訊傳輸至旋轉濾波器資料庫208。DSP處理器216使用較佳地儲存用於收聽者之客製化HRTF/BRIR的BRIR資料庫210（BAIR資料庫之實例）中之資訊，及對應於仰角及方位角參數之旋轉濾波器選擇，以處理（濾波）輸入音訊215以將雙耳音訊信號產生至頭戴式耳機換能器220。

圖3繪示用於指定部位之單一虛擬揚聲器之處理。由一對轉移函數302及304處理輸入音訊信號以在所要部位中產生虛擬揚聲器之感知。藉由使用單組BRIR（或替代地，縮減的一組BRIR），而非針對頭部之每一不同定向使用一組，本發明在各種具體實例中實質上避免先前所描述之問題，同時保持真實性。將此單組或縮減的一組BRIR與一組「旋轉濾波器」組合，該等旋轉濾波器將用於參考位置之BRIR轉換至用於不同位置之BRIR。此等旋轉濾波器可極短，因此節省記憶體及處理成本。此圖解在相對於頭部之特定位置中展示用於單一虛擬揚聲器之處理。在以下描述中，吾人導出轉移函數，其由吾人替代地稱為用於將用於初始位置之HRTF轉換至用於第二位置之HRTF的旋轉濾波器。此等旋轉濾波器使吾人能夠以較短且較簡單的濾波器替換具有複雜濾波器（用於頭部之每一可能位置的BRIR）之資料庫。

吾人接著將轉移函數H_L 及H_R 表達為兩個轉移函數之乘積：

（1）

H_AL 及H_AR 為消音轉移函數。其為在消音室中自揚聲器位置至耳朵之轉移函數之量測的結果，且典型地被稱為HRTF。H_TL 及H_TR 基本上為房間反射—此為在移除HRTF之情況下的存留者。

現在假定吾人具有兩個頭部相對揚聲器位置。位置0為在頭部向前直視時的一個揚聲器之位置。在此狀況下，揚聲器之頭部相對位置與絕對位置相同。位置1為在頭部以某一方式移動時的同一揚聲器之頭部相對位置，且因此，此頭部相對位置不再與絕對位置相同。用於此兩個位置之轉移函數為：

及

（2）

吾人需要對位置差進行補償之一對濾波器H_DL 及H_DR （旋轉濾波器）。因此：

及
（3）
將（2）代入（3），吾人得到：

及
（4）

現在吾人假定反射相同，而不管頭部相對位置如何。儘管此假定並不完全為真，但其足夠接近真實以使結果有說服力。因此：

及
（5）
將（5）代入（4），吾人得到：

及
（6）

此使吾人能夠自此等方程式之兩側消去H_TL 及H_TR ，且進行重新配置以得到：

及
（7）

因此，吾人所需要的濾波器之轉移函數為用於位置1（當前頭部相對揚聲器位置）之HRTF除以用於位置0（絕對揚聲器位置）之HRTF。

因為HRTF經消音，所以不含有迴響且可使用短濾波器被準確地傳送。因此，旋轉濾波器亦可短。實驗已展示可使用具有縮減數目個分接頭以適應較短脈衝回應之FIR濾波器。此提供FIR濾波器之複雜度之相當大節省。例如在先前之樣本論述中，為以48 kHz進行取樣，將需要數千個係數（500 msec HRTF將需要500/1000 * 48000 = 24,000個樣本，其中取樣速率= 48 kHz）。

當頭部之定向改變時，濾波器會改變且濾波器係數必須被更新。為避免諸如輸出信號不連續性之音訊假影，藉由在進行處理時遍及多個樣本使濾波器係數進行平滑轉換而直接處置在濾波器之間的轉變，且因此在此具體實例中，當頭部定向改變時，處理成本僅稍微增加。
耳間時間延遲

圖3中所展示之濾波器H_L 及H_R 可被表達為時間延遲I 與零延遲濾波器F 之乘積：

及

I_L 及I_R 為耳間時間延遲（interaural time delay；ITD），且係因為來自除了在矢狀面上以外的圍繞頭部之任何位置之來源的聲音將到達一隻耳朵之後到達另一耳朵而出現。因此，始終將是它們中之至少一者將為零的狀況，且通常將是一者為零且另一者為正的狀況。在頭部追蹤情形中，ITD需要隨著頭部移動而改變。在給定房間中，ITD主要為方位角及頭部寬度之函數。正常頭部寬度通常被稱作耳間距離（耳朵之間的距離）且通常被假定為0.175 m。當I 為正時，此對應於正I_R 及零I_L ，且當I 為負時，反之亦然。

圖4展示用於根據習知方法針對立體聲輸入進行無頭部追蹤之處理的系統400。此處，ITD包括於BRIR濾波器402、404、406及408中。

圖5展示包括於根據本發明之一個具體實例中的具有頭部追蹤之處理。

在此圖解中：
- 被標記為ITD...之區塊為ITD（亦即，502、504、506及508）
- 被標記為ROT之區塊（亦即，510、512、514及516）為時域FIR旋轉濾波器，且
- 被標記為BRIR之區塊（亦即，520、522、524及526）為脈衝回應之零延遲版本。此等可使用任何卷積方法來實行。

對於更多聲道，可運用類似於以上區塊之區塊來延伸此處理，且將結果混合在一起以產生單一輸出對。
實施選項

相較於如上文所述使用多個BRIR濾波器之狀況，旋轉濾波器需要少很多的儲存。若吾人使用具有縮減數目個分接頭之FIR濾波器，則需要被儲存之係數之數目顯著地縮減，而非例如使用全長BRIR時的超過700百萬。若DSP記憶體足夠，則可在其上儲存此係數表。然而，可能有必要使用外部記憶體，在此狀況下，可回應於頭部定向而將係數自外部記憶體轉移至DSP。在一個非限制性具體實例中，此係經由諸如I2C之相對低頻寬介面來實施。

為進一步節省記憶體，可將旋轉濾波器儲存於較粗柵格上，且可即時完成內插。常常將HRTF記錄於粗柵格上。舉例而言，IRCAM HRTF（參見hrtf.ircam.fr）使用僅187個點之柵格，其具有15度方位角解析度，及相似仰角解析度。此意謂旋轉濾波器表需要僅僅儲存低於120,000個係數。在一個實施方案中，以此解析度儲存旋轉濾波器，且吾人即時對其進行內插。

使用旋轉濾波器之效率節省可縮減處理及記憶體需求二者。在下文中識別用於縮減資料庫之大小的兩種方法。在第一方法中，考慮到兩個BRIR，且在用以產生旋轉濾波器之相除程序之後，吾人可顯著地截斷時域中之合成BRIR，同時保持「真實性」。在上文之吾人的導出中，吾人假定反射相同，而不管頭部相對位置如何。因此，合成BRIR之「尾部」主要含有反射，且可被截掉，從而引起具有較少數目個分接頭之濾波器。

來自第二方法之效率節省包括使用具有大BRIR之較短HRTF濾波器，且因此犧牲極小準確度。BRIR通常為數千個樣本，而HRTF（無房間回應）可遠小於一千（例如，在常見狀況下可能各自為512個樣本）。在一個較佳具體實例中，吾人使用單獨HRTF資料庫以產生旋轉濾波器（藉由除以如方程式7中所記載之兩個HRTF）。可接著將此等旋轉濾波器應用於單一經俘獲的大（例如24,000個樣本）BRIR，例如對於作為習知立體聲揚聲器設置之部分位於-30度處的來源。

到目前為止，本說明書很大程度上已描述用於自經稀疏量測之HRTF資料集產生完整HRTF資料集的即時方法。以下為經組態用於針對新收聽者產生客製化HRTF資料集而不將麥克風插入至新收聽者之耳朵中之系統的概述。若干具體實例依賴於經內插HRTF資料集值、旋轉濾波器值及遠端伺服器處之BRIR的計算，而非用於HRTF資料集之經內插項目的即時計算。

如先前所描述，為向收聽者提供方向性之感覺，必須藉由適當的轉移函數（例如BATF對，諸如HRTF對或BRTF對）濾波音訊信號以向收聽者給出關於來源之方向的提示。術語HRTF已由不同使用者給出不同含義。舉例而言，在一些狀況下，研究人員將HRTF稱作係指聲音到達使用者之耳膜時發生的頻譜成形，特別包括由收聽者耳朵之耳廓提供的效應，但亦包括來自收聽者之軀幹、頭部及肩部的折射及反射效應。在其他狀況下，由聲音到達收聽者之耳朵之時間所引起的延遲亦包括於收聽者周圍之空間中之特定位置的HRTF對中。在以下段落中所描述之系統中，HRTF通常被假定為包括反映兩隻耳朵之不同聲音路徑長度的時間延遲（ITD），且被假定為限於聲源與耳朵之間的消音轉移函數。然而，在一些狀況下，當包括聲環境或房間效應時，較廣泛術語雙耳聲轉移函數係較佳的。應注意，在本說明書中被描述為適用於HRTF之操作通常亦適用於對BRIR執行之相似操作，其中藉由BRIR之關聯轉移函數模型化諸如房間迴響之額外聲環境效應。此通常將自上下文顯而易見。

最後且為輔助使用者適當地在空間上定位虛擬聲源，在呈現之前必須將針對特定方位角、仰角且在一些狀況下針對距離所選擇之HRTF應用於音訊信號。對於環繞收聽者之頭部之球面上的大量位置，特定HRTF較佳為取自含有HRTF對（亦即，每一耳朵一個HRTF）之HRTF資料集的HRTF。舉例而言，較佳具體實例在HRTF量測及/或經內插值中提供精細度（granularity），使得對於每3度方位角改變及每3度仰角提供HRTF對。在本發明之其他具體實例中，利用對稱性以縮減量測之數目及完成量測所需要之時間。

當針對個體採取量測時，典型設置涉及在收聽者之每一耳朵中置放耳內麥克風，且記錄對於通常位於環繞收聽者之球面上之許多聲源位置所產生的脈衝回應。若針對球面上之大約7000個點中之每一者採取量測（基於水平面上方之讀數），則其為極其緩慢程序，但可針對收聽者提供準確結果。亦即，對於彼收聽者提供個別化HRTF或BRIR資料集，且使其可用於呈現模組來成形輸入音訊信號以供傳達至一組頭戴式耳機。在頻譜之另一端處，可藉由使用一般化HRTF資料集以避免將麥克風插入於收聽者之耳朵中。舉例而言，可使用由研究人員自運用插入至人體模型之頭部中之麥克風採取之量測所編譯的HRTF資料集。替代地，對於一個個體量測之整個HRTF資料集可用於第二個體。另外，可根據自大量個體採取之量測之集合導出平均HRTF資料集。在許多狀況下，由於未能使新收聽者能夠準確地在空間上定位虛擬聲源，故此等「一般」HRTF資料集對於新收聽者將表現得不良。在本發明之各種具體實例中，識別新收聽者之音訊相關實體性質，且此類性質用以自HRTF資料集之候選集區（亦即，集合）選擇一個或多個HRTF資料集。較佳地藉由將實體性質映射至與集合中之每一HRTF資料集相關聯的相似元資料來執行選擇。在一個具體實例中，若超過一個HRTF資料集被識別為「接近」或相似，則在HRTF資料集之間進行內插程序。一旦識別HRTF資料集，就將資料集傳輸至使用者，較佳地傳輸至使用者之呈現裝置以用於儲存HRTF資料集。

圖6A為根據本發明之具體實例的繪示在系統中俘獲環繞收聽者且在各種距離處的HRTF之一般球面柵格或HRTF對之球面柵格之旋轉濾波器所採取的步驟的流程圖。根據本發明之具體實例，流程圖反映稀疏HRTF柵格之產生及應用於經選擇HRTF對之頭部追蹤修改。最初在步驟602中，可使收聽者坐在多揚聲器房間中以用於產生客製化HRTF資料庫，其中揚聲器被依序地啟動。在一個狀況下，自置放於收聽者之耳內麥克風記錄所得脈衝回應。通常，若需要其他資料點，則重複程序，其中藉由移動收聽者之頭部或椅子來建立新相對部位。

方法在步驟600處開始。在步驟608處，完成包括房間效應之HRTF/BRIR量測以針對特定仰角值產生一組稀疏量測。亦即，在彼仰角處針對全部所要方位角值進行量測。若在各種頭部傾角位置（亦即，橫搖）處需要量測，則可結合方位角量測以針對每一傾角位置完成量測。舉例而言，若需要4次傾角位置量測，則在移動至下一個方位角部位之前可針對每一方位角值採取傾角位置T1至T4。替代地，在第一傾角值處採取用於特定仰角之全部方位角仰角之後，可在第二頭部傾角值處執行整個系列之方位角量測。頭部傾角係重要的，此係因為其干擾收聽者對空間音訊部位之感知，從而需要調整用於收聽者之HRTF對以反映其頭部不再處於傾角中性部位。頭部傾角係指圍繞自鼻部延行至收聽者之頭部的背面之軸線的旋轉，略微相似於飛行器圍繞自飛行器的鼻部至尾部之軸線的旋轉橫搖運動的概念。

此後，在步驟610處，在一個具體實例中視情況進行內插而以經選擇仰角完成柵格。明確地，根據各種具體實例，可在不同階段執行內插。舉例而言，可在針對整個距離球面俘獲全部方位角及仰角值之後才執行內插。另外，可在需要時執行內插，如由關於收聽者之使用所提供之方向所判定。接下來，在步驟612處，較佳地藉由首先將經量測BRIR截斷為近似於用於記錄直接聲音（消音）之HRTF之大小的大小而產生旋轉濾波器。在不意欲限制本發明之情況下，將HRTF截斷至小於100 msec已被發現為合適地運作以充分地俘獲直接聲音。在一個具體實例中，在截斷之前發生內插。在其他具體實例中，在內插之前，最初對HRTF執行截斷，其中包括房間效應。在一個具體實例中，一旦完成內插，就藉由將資料集中之經截斷HRTF除以參考位置HRTF（其包括房間反射回應）之經截斷版本而產生旋轉濾波器。若更多仰角值保持為如由步驟614中所判定，則在步驟615中選擇新仰角值，且步驟608、610及612繼續進行。應瞭解，儘管針對每一仰角按依序次序展示旋轉濾波器之量測、內插及產生，但另一具體實例涉及針對全部仰角採取量測階段至完成，接著針對整個球面柵格進行內插，且接著產生旋轉濾波器。一旦在區塊614中已判定已處理全部仰角值，就完成用於經選擇距離球面之HRTF資料庫（步驟616），且較佳地進行儲存。若需要俘獲或產生更多距離球面，則在步驟619中選擇新距離，且程序針對新距離球面再次開始新的一組方位角、仰角及傾角值。若在步驟618中判定不需要俘獲或產生更多距離球面，則程序在步驟620處結束。

客製化HRTF資料庫（亦即，經產生HRTF柵格616）之使用較佳地開始於空間方向及音訊至DSP處理器之輸入（步驟634）的處理。接下來，在步驟636中，開始用於選擇針對所輸入之所要空間方向之HRTF對的程序。在步驟638中，決策樹判定空間方向是否與稀疏柵格對準。若其未精確地對齊，則藉由步驟640中之內插，較佳地在頻域中進行，以產生更準確的HRTF對。在步驟642中，DSP將所得HRTF對（來自稀疏資料庫或來自內插）應用於輸入音訊信號。若在步驟644中未偵測到頭部旋轉，則程序返回至步驟646以用於其他輸入資料。若偵測到頭部旋轉，則在步驟648中，DSP存取如先前所產生及描述之旋轉濾波器資料庫。在步驟650中，DSP應用所選擇之旋轉濾波器，亦即，對應於自頭部追蹤裝置偵測到之方位角及仰角參數的旋轉濾波器。將此等旋轉濾波器與最初選擇或開發之HRTF及輸入音訊信號進行卷積。一旦如此修改HRTF，程序就返回至步驟646以用於處理其他輸入資料。

圖7為根據本發明之具體實例的繪示用於產生用於新收聽者之客製化HRTF資料集之系統的圖解。更詳細地，圖7繪示根據本發明之具體實例的系統，其用於產生用於客製化用途之HRTF、獲取用於客製化之收聽者性質、為收聽者選擇客製化HRTF、提供適應於與相對使用者頭部移動一起運作之旋轉濾波器、並且呈現如由HRTF所修改之音訊。提取裝置702為經組態以識別及提取收聽者之音訊相關實體性質的裝置。儘管區塊702可經組態以在較佳具體實例中直接量測彼等性質（例如耳朵之高度），但自對使用者拍攝之影像提取相關量測，以至少包括使用者之一只或兩隻耳朵。提取彼等性質所必要之處理較佳地在提取裝置702中發生，但亦可位於別處。對於非限制性實例，可在自影像感測器704接收到影像之後由遠端伺服器710中之處理器提取性質。

在一較佳具體實例中，影像感測器704獲取使用者之耳朵之影像，且處理器706經組態以提取使用者之相關性質並予以發送至遠端伺服器710。例如在一個具體實例中，主動形狀模型可用以識別耳廓影像中之標誌，並使用彼等標誌及其幾何關係和線性距離來識別關於使用者之性質，其與自HRTF資料集之集合（亦即，自HRTF資料集之候選集區）選擇HRTF相關。在其他具體實例中，RGT模型（回歸樹模型）用以提取性質。在其他具體實例中，諸如神經網路之機器學習用以提取性質。神經網路之一個實例為卷積神經網路。2016年12月28日申請且名為「用於產生客製化個體化頭部相關轉移函數之方法（A Method for Generating a customized Personalized Head Related Transfer Function）」之申請案PCT/SG2016/050621中描述用於識別新收聽者之獨特實體性質之若干方法的完全論述，其之記載內容以引用方式全部併入本文中。

較佳地可在諸如網際網路之網路上存取遠端伺服器710。遠端伺服器較佳地包括選擇處理器710以存取記憶體714，以使用提取裝置702中提取之實體性質或其他影像相關性質來判定最佳匹配之HRTF資料集。選擇處理器712較佳地存取具有複數個HRTF資料集之記憶體714。亦即，每一資料集將較佳地針對方位角及仰角上之適當角度處的每一點具有HRTF對。舉例而言，將需要在相似的3度點、120 x 60個點或7200個點處採取每3度及半球面仰角處之量測，每一點表示2個HRTF（每一耳朵一個HRTF），且各自表示針對直接（消音）狀況之短脈衝回應長度。如先前所論述，此等較佳地係藉由對適中大小之人數（亦即，大於100個個體）運用耳內麥克風進行量測而導出的，但可與較小的個體群組一起運作，且連同與每一HRTF資料集相關聯之相似的影像相關性質一起被儲存。相較於採取全部7200個點，此些可部分地藉由直接量測且部分地藉由內插而產生以形成HRTF對之球面柵格。即使運用部分量測/部分內插之柵格，一旦使用適當的方位角及仰角值以識別來自HRTF資料集之點的適當HRTF對，就可對未落在柵格線上之其他點進行內插。舉例而言，可使用任何合適內插方法，包括但不限於先前所描述之內插方法，諸如鄰近線性內插、雙線性內插及球面三角形內插，較佳地在頻域中進行。

在一個具體實例中，儲存於記憶體714中之每一HRTF資料集至少包括用於收聽者之整個球面柵格。在此類狀況下，可選擇任何角度之方位角（在圍繞收聽者之水平面上，亦即，在耳朵層級處）或仰角以用於置放聲源。在其他具體實例中，HRTF資料集更受限，在一個例子中，限於產生符合習知立體聲設置之揚聲器置放所必要的HRTF對（亦即，相對於筆直前向零度位置在+30度及-30度，或在完整球面柵格之另一子集中，用於多聲道設置之揚聲器置放，無限制地諸如5.1系統或7.1系統）。

圖7進一步描繪儲存於記憶體中之資料的樣本邏輯關係。記憶體被展示為在行716中包括用於若干個體之HRTF資料集（例如，HRTF DS1A、HRTF DS2A等等）。此等係由與每一HRTF資料集相關聯之性質加索引及存取，較佳地為影像相關性質。行715中所展示之關聯性質能夠將新收聽者性質匹配於與行716、717及718中所量測及儲存之HRTF相關聯之性質。亦即，其充當彼等行中所展示之HRTF資料集之候選集區的索引。行717係指參考位置0處所儲存之BRIR。行717中之此HRTF對（每一耳朵一個HRTF）及所包括之房間迴響與其餘HRTF資料集相關聯，且較佳地與如稍後所述之旋轉濾波器組合。

在本發明之一些具體實例中，儲存2個或更多距離球面。此係指對於與收聽者相隔之2個不同距離所產生的球面柵格。在一個具體實例中，針對2個或更多不同球面柵格距離球面儲存一個參考位置BRIR且使其相關聯。在其他具體實例中，每一球面柵格具有其自身的參考BRIR以與適用旋轉濾波器一起使用。選擇處理器712用以針對新收聽者將記憶體714中之性質匹配於自提取裝置702接收之經提取性質。各種方法用以匹配關聯性質，使得可選擇正確的HRTF資料集。此等方法包括藉由以下各者比較生物統計資料：基於多重匹配之處理策略；多重辨識器處理策略；基於叢集之處理策略，及如2018年5月2日申請之名為「用於客製化音訊體驗之系統及處理方法（SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE）」之美國專利申請案第15/969,767號中所描述的其他策略，其之記載內容以引用方式全部併入本文中。行718係指在第二距離處量測之個體的多組HRTF資料集。亦即，此行在針對經量測個體所記錄之第二距離處告示HRTF資料集。作為另一實例，行716中之第一HRTF資料集可在1.0 m至1.5 m處被採取，而行718中之HRTF資料集可指自與收聽者相隔5 m處所量測之彼等資料集。理想地，HRTF資料集形成完全球面柵格，但本發明具體實例適用於完全球面柵格之任何及全部子集，包括但不限於含有習知立體聲集之HRTF對的子集；5.1多聲道設置；7.1多聲道設置，及球面柵格之全部其他變化及子集，包括方位角及仰角上每3度或更小之HRTF對，及密度不規律之彼等球面柵格。舉例而言，此可能包括柵格點之密度在前部位置相較於收聽者後部中之密度大得多的球面柵格。此外，行716及718中之內容配置不僅適用於被儲存為自量測及內插導出之HRTF對，亦適用於藉由產生反映前者至含有旋轉濾波器之HRTF之轉換之HRTF資料集而進一步改進的HRTF對。另外，HRTF資料集中的旋轉濾波器之存在可涉及稀疏量測HRTF資料集之第一內插，接著轉換至旋轉濾波器。替代地，可涉及稀疏資料集轉換至旋轉濾波器，接著進行內插，而不脫離本發明之範圍。

在選擇一個或多個匹配HRTF資料集之後，將資料集傳輸至音訊呈現裝置730以用於儲存被認為針對新收聽者匹配之整個HRTF資料集，或在一些具體實例中儲存對應於經選擇空間化音訊部位之子集。在一個具體實例中，音訊呈現裝置接著選擇用於所需要之方位角或仰角位置之HRTF對，且予以應用於輸入音訊信號以向頭戴式耳機735提供空間化音訊。在其他具體實例中，經選擇HRTF資料集儲存於耦接至音訊呈現裝置730及/或頭戴式耳機735之單獨模組中。在其他具體實例中，在呈現裝置中僅可得到有限儲存之情況下，呈現裝置僅儲存與收聽者最佳地匹配之關聯性質資料之識別或最佳匹配HRTF資料集之識別，且按需要自遠端伺服器710即時下載所要HRTF對（用於經選擇方位角及仰角）。如先前所論述，此等HRTF對較佳地藉由在適中大小之人數（即大於100個個體）運用耳內麥克風進行量測而導出的，且連同與每一HRTF資料集相關聯之相似的影像相關性質一起被儲存。相較於採取全部7200個點，此些可部分地藉由直接量測且部分地藉由內插而產生以形成HRTF對之球面柵格。即使運用部分量測/部分內插之柵格，一旦使用適當方位角及仰角值以識別來自HRTF資料集之點的適當HRTF對，就可對未落在柵格線上之其他點進行內插。

圖8為根據本發明之具體實例的繪示藉由獲取及量測而產生HRTF資料集之方法的流程圖。區塊720指如圖7中所展示之HRTF產生區塊。一種用於獲取HRTF資料集之方法習知地藉由參考由各種研究人員所積累之資料而為吾人所知，該資料諸如對先前所提及之人體模型的Kemar研究或其他通用HRTF資料集。此步驟由流程圖中之區塊804涵蓋。此等具有不侵入人類收聽者進行量測之時間約束的優點。一個缺點為其最多表示平均讀數，其並不特別良好地適於大多數個體之準確聲音部位感知。在步驟804中，可替代地藉由量測表示「平均」個體之另一頭部而獲取HRTF量測。雖然在產生用於經量測個體之感知音訊時運作良好，但當應用於廣泛人數之個體時，結果常常低於預期。

步驟811展示根據本發明之一個具體實例的產生用於個體之客製化HRTF資料集之方法。在此等步驟中，使單一使用者遭受完整範圍之量測，或至少遭受涉及所需要之所要方位角及仰角點的稀疏集。經選擇房間在HRTF對如何表現聲音上具有劇烈影響。接下來，在步驟812中，若量測稀疏集，則執行內插以完成HRTF資料集。接下來，在步驟813中，藉由採取資料集中之每一部位處之房間HRTF且將其除以參考位置處——典型地在方位角及仰角上之位置0處——之HRTF而產生旋轉濾波器。在一個具體實例中，此為用於參考位置之BRIR之經截斷版本。若需要第二或更多距離球面柵格，則在第二距離球面處執行以上步驟。如此完成針對彼距離球面（或多個球面）的用於彼個體之HRTF資料集之產生。經由使用較短的旋轉濾波器，此HRTF資料集將允許儲存較小濾波器，但仍然實現最初量測之房間HRTF的聲音品質。

步驟821至825展示替代具體實例，其針對新收聽者產生HRTF資料集，而無需將麥克風插入新收聽者之耳朵中。根據此等步驟，將使複數個HRTF資料集可用於供新收聽者選擇或可用於新收聽者。在步驟821中，針對經選擇房間中之數個不同個體進行多次量測。儘管此可為消音房間，亦即，藉由使用隔聲材料以抑制反射之房間，但在本發明之具體實例中，可在任何類型之房間中進行此等量測。其可在經處理或未經處理之房間內執行，一切皆取決於使用者偏好。

一個最佳化測試/量測配置涉及在每30或45度處採取量測，且藉由內插導出其他脈衝回應值以完成HRTF對值之球面柵格。參見步驟822。任何內插方法皆合適地運作，但申請人認為在本說明書中之別處所述的特定內插技術提供獨特優點。舉例而言，已在此等組態中測試頻域內插以提供較大準確度，藉此允許稀疏柵格滿意地依賴甚至15至30度之粗度範圍處的經量測值。

在步驟823中，根據經量測及經內插值之組合以針對所要球面柵格之每一點產生旋轉濾波器。應注意，轉換至旋轉濾波器可全部地或部分地先行於內插步驟822。對於內插步驟或旋轉濾波器產生步驟，截斷先前所判定之HRTF值以簡化操作。如此不應引起任何解析度或其他準確度度量之損失，此係因為初始HRTF將包括使得長於此等代數運算所需要之回應的房間回應。應注意，在產生旋轉濾波器之後，除了用於所要參考點之HRTF/旋轉濾波器對以外，可視情況捨棄較長的經量測HRTF/BRIR值。根據本發明識別經量測之其他者的相關性質。出於匹配簡易起見，在較佳具體實例中，此等為影像相關性質，如先前在本說明書中所描述，包括關於圖7所描述。

最後，在已針對用於初始距離（典型地為1.0至1.5 m）之球面柵格完成前述步驟之後，較佳地針對第二距離或甚至進一步針對第三距離完成彼等相同步驟，如由區塊825所標號。步驟808表示產生HRTF資料集以供進一步用於呈現音訊之此等步驟的結論。

圖9A為根據本發明之一個具體實例的繪示圍繞收聽者產生稀疏球面柵格之圖解。距離球面901以立體圖被展示為不可見球面。在產生用於個體之完整HRTF資料集的過程中，可進行若干最佳化以縮減量測時間。一種最佳化為產生稀疏柵格，如先前所描述。雖然理想地將需要以每3或5度之量測，但諸如以每30、45或甚至90度採取初始量測之粗量測技術可提供用於稍後內插之可用基礎。舉例而言，位於圍繞收聽者之頭部位置（在耳朵層級處）之水平面908中之位置903處的收聽者902將具有在各種仰角平面中以每90度所採取之量測，包括0度仰角（水平面908）；30度仰角（平面909）及45度仰角（平面910）。在反映45度仰角之量測之平面中，將採取量測點912、913、914及915。向量907展示45度仰角處之平面的0度方位角之參考方向。向量905及906分別展示0度及30度仰角之水平面中的零度方位角部位。

圖9B為根據本發明之一個具體實例的繪示應用於圍繞收聽者的圖9A之球面柵格的內插之結果的圖解。經內插點918被添加至每一平面以增加解析度，在圖9B中被展示為每45度的增加。可藉由任何內插技術來判定此等點，尤其包括先前在本說明書中所描述之特定內插技術。理想地，且根據本發明之具體實例，解析度被增加為接近於大致3度。如先前所描述，且根據本發明之具體實例，自所完成之球面柵格產生旋轉濾波器。

圖9C為根據本發明之具體實例的繪示藉由頭部移動及關聯旋轉濾波器選擇而產生之合成向量的圖解。如同圖9A及圖9B，球面901可看不見的，且以立體圖展示球面柵格及其點。舉例而言，在水平面908中相對於收聽者之頭部904的點922處採取用於旋轉濾波器之參考位置。出於進一步清晰起見，點923展示相對於位於0度處之點922的-90度處之位置，且點924展示180度處之位置。向量930表示相對於收聽者自球面柵格上之初始參考位置922至點928所偵測到之合成移動，該合成移動被概括為頭部向右（順時針）水平旋轉10度與向上（在仰角上）旋轉45度之組合。各種感測器技術中之任一者將與本具體實例一起運作，包括但不限於陀螺儀、加速計及磁性感測器。一旦偵測到合成頭部旋轉（亦即，在水平面及仰角二者中），就可自針對個體所導出之HRTF資料集判定對應HRTF值（旋轉濾波器）且予以應用於音訊呈現裝置730中之輸入音訊串流，較佳地在予以和BRIR之參考位置集（此處為針對在0度仰角及0度方位角部位處之點（點922）判定之BRIR）第一次組合之後。一個較佳具體實例使新HRTF（旋轉濾波器）之選擇基於頭部移動。相同技術適用於識別音訊串流之新部位，而不涉及頭部感測器或其他頭部移動監測器。

圖10為根據本發明之具體實例的繪示不同距離處之球面資料庫的圖解。更詳細地，1002描繪距離球面柵格之集合的俯視圖，在此狀況下分別在1.5 m及5 m處，但圖式未按比例。此2個球面柵格中之每一者的參考位置分別處於點956及966，亦即，零度參考位置。儘管僅展示2個球面柵格，但應注意，本發明之範圍涵蓋複數個球面柵格，例如2、3、4或更多。對於1.5 m處之較近的球面柵格901，描繪4個經量測部位，亦即，位置950、952、954及956。在量測完成之後，藉由針對此球面柵格判定的額外點進行內插，例如經內插點951。5.0 m處之第二球面柵格1001根據初始判定來展示環繞收聽者902之水平軸線之一個象限中的經量測點960、962、964及966。隨後在5.0 m球面柵格上進行內插以判定經內插點961。另外，若需要中間距離，諸如點955，則此等可自球面柵格901及1001上之對應經判定點被內插。

圖11為繪示由本發明之具體實例複製的直接及反射聲音之實例的圖解。在產生HRTF資料集之過程中，在相對於諸如圖10中之收聽者1004的個體之頭部及軀幹的各種揚聲器部位處採取量測。圖式展示位於房間1002中之收聽者1004，其中來源揚聲器1006大致在中心（0度）左側45度處。對於量測，無論收聽者1004為個體抑或諸如人體模型之經模擬個體，皆可將麥克風插入於耳朵中（真實的或合成的）且對經接收聲音信號進行量測。典型的HRTF資料集藉由將相對聲源部位定位於各種方位角值處且在一些狀況下定位於仰角值處，以圍繞收聽者之頭部產生略微3維柵格而製得的。在本發明之各種具體實例中，在HRTF中俘獲及複製直接及間接聲波（反射）二者以輔助提供逼真音訊呈現。本說明書通篇已參考BRIR，其為包括房間效應之頭部相關轉移函數，此與限於直接接收之聲音的消音轉移函數相對。圖11展示在收聽者1004處接收之直接聲波1008，以及實例反射音訊波1009及1011。習知實踐提供經消音的HRTF。亦即，僅反映在收聽者之耳朵處接收的直接聲波（諸如波1008），且不記錄由聲音自房間牆壁及房間中之其他物體彈開所造成的反射聲音或迴響。使用此類HRTF以用於呈現將不會複製坐在諸如房間之經界定環境中之收聽者的真實性。習知HRTF通常反映幾十毫秒之持續時間的脈衝回應。

雖然如此可能足以記錄聲音圍繞收聽者之頭部的折射，以及離開收聽者之肩部及軀幹的反射，但不夠長地得足以俘獲房間效應，諸如包括離開比如牆壁1014之牆壁的反射。此可藉由查看圖11中展示之聲音路徑的相對長度來瞭解。出於說明目的，若諸如揚聲器1006之聲源與在5 m x 5 m大小之房間1002內的收聽者1004相隔2 m，則即使是反射音訊波1009之路徑亦將為直接聲波1008的長度之至少4倍。較佳地，所使用之BRIR為數百毫秒長，以俘獲稍後的反射且用於較大的房間或環境。

吾人應瞭解，對於較大房間或對於與收聽者之頭部相隔較大距離的聲源，引起甚至更長的BRIR。

應瞭解，本說明書通篇，且包括圖式章節中之繪示，論述已包括產生HRTF映圖、資料集或柵格。本文中之任何描述通常適用於HRTF，且HRTF資料集之產生應被解譯為同樣係在BATF（包括BRIR）之更一般的狀況下使用彼等技術之論述，且本說明書亦應被解讀為描述適用於BATF且亦適用於作為BATF之子集之BRIR的彼等技術。

在又其他具體實例中，界定耳朵如何接收聲音之特徵的回應包括距離分量。距離態樣對於經由雙耳系統，諸如經由頭戴式耳機準確地複製由使用者感知之聲音係重要的。此等對於音樂源尤其重要，諸如嘗試複製收聽者在音樂廳（例如，好萊塢露天劇場中之管弦樂音樂會）、收聽者之專用媒體房間，或甚至在裝填有高保真度揚聲器之起居室內的體驗。如同先前對於方位角及仰角位置所論述之HRTF，考慮距離分量且將彼調節提供在應用於音訊播放軌之HRTF中會在距離分量針對使用者而客製化時提供甚至更佳的體驗。

在一較佳具體實例中，藉助於攝影機影像以自使用者之耳朵導出實體性質。此可為獨立攝影機或任何整合攝影機，但更佳地為智慧型電話攝影機。處理經獲取影像以提取使用者耳朵之特徵。將此等轉遞至選擇處理器，例如至位於遠端主機電腦中之選擇處理器，且

為達成更佳感知音訊，針對個體量測表示聲環境之BRIR。此可運用且較佳地運用單一BRIR而完成，比如在0度處採取之BRIR。歸因於回應之長度，僅儲存單一值。亦即，用以量測反射之房間回應典型地將必須為大約數百毫秒之長度以準確複製房間效應。在一個具體實例中，BRIR為500 msec長。

較佳地，亦在5.0 m處且亦在10 m處採取BRIR單點量測。若吾人希望在比如3.0 m處添加距離分量，則存取1.0 m表之0度BRIR及5.0 m表處之類似BRIR並進行內插，以在彼方位角及仰角處產生3.0 m HRTF。明確地，一旦針對3 m處之單一位置判定房間回應（無論藉由量測抑或內插），就可使用房間脈衝回應（BRIR）以藉由使用BRIR（位置0處）且予以和適當旋轉濾波器進行卷積，而在任何方位角及仰角處準確地描繪虛擬音訊。亦即，將參考位置BRIR與對應於用於第一位置之BRIR至用於第二且不同位置之BRIR之轉換的轉移函數進行卷積，以快速且準確地適應所感測之頭部旋轉。

一般而言，程序具有以下要素，其可全部在同一處理器上實行，或者是其中一些可在微控制器上實行而一些可在數位信號處理器上實行：
a）與頭部追蹤感測器介接，且導出頭部定向資訊，
b）對於每一虛擬揚聲器，將頭部定向轉換為頭部相對方位角及仰角，
c）將每一頭部相對方位角及仰角轉換為一對旋轉濾波器，
d）將旋轉濾波器傳輸至DSP
e）使用BRIR及旋轉濾波器來處理音訊。

理想地，旋轉濾波器將匹配於將對使用者進行個人化之BRIR。因此，應用於BRIR之相同個人化程序可應用於旋轉濾波器。然而，如上文所提及，仍然可藉由使用不相關資料庫獲得良好結果以導出濾波器，且藉此在俘獲BRIR時節省相當大的時間。

所提出之具有頭部追蹤之空間音訊系統被期望為提供若干優點。其可用於虛擬實境應用，或通常用於呈現3D空間音訊之任何應用。相較於先前技術，此所提出之方案的新穎性及優點可被概括如下：

藉由縮減濾波器之複雜度而達成本發明之具體實例的最大經濟性。亦即，實質上縮減濾波器大小。舉例而言，每一旋轉濾波器之大小為數百個樣本（典型地＜＜ 1000個樣本）。與此相比較，HRTF（其包括房間回應）可為大約數千個（500 msec HRTF將需要500/1000 * 48000 = 24,000個樣本，其中取樣速率= 48 kHz）。

所需處理之對應縮減使得可在攜帶型裝置上而非僅僅在桌上型電腦上實現高品質頭部追蹤。根據本發明之具體實例，提供一種用於提供頭部相關轉移函數（HRTF）以應用於輸入音訊信號來用於將音訊定位至一組頭戴式耳機之方法。該方法涉及：在參考位置處存取針對收聽者個別化之複數個雙耳房間脈衝回應（BRIR）；針對收聽者以對應於相對於收聽者之額外位置來存取複數個頭部相關轉移函數（HRTF）對；藉由將用於額外位置之複數個HRTF中之每一者除以用於參考位置之HRTF或BRIR中之一者，導出用於將用於相對於收聽者之參考位置之HRTF或BRIR轉換為額外位置中之每一者的複數個轉移函數；接收指示頭部定向改變之信號，且回應於並對應於該信號而選擇複數個轉移函數中之一對轉移函數；及將參考位置BRIR及複數個轉移函數中之經選擇的該對轉移函數應用於輸入音訊信號，以在一組頭戴式耳機中定位音訊。

根據另一具體實例，提供一種用於空間音訊呈現之頭戴式耳機，且其包括：第一資料庫，其具有對應於參考音訊源部位之第一雙耳聲脈衝回應（BAIR）對；頭部感測器，其識別頭部定向資訊；旋轉濾波器之第二資料庫，其儲存於記憶體中，經組態用於修改第一BAIR對以對應於第二群揚聲器部位，其具有不同於第一部位且自頭部定向資訊導出的經界定方位角、仰角及傾角值中之至少一者；及處理器，其經組態以將旋轉濾波器與第一BRIR對組合來將輸出雙耳音訊信號產生至頭戴式耳機之換能器，其中旋轉濾波器包含用於將用於第一位置之BAIR轉換至第二且不同位置的轉移函數，且其中用於第二位置之BAIR對應於針對收聽者產生之BAIR對，且藉由將用於第二位置之各別BAIR對除以用於參考位置之BAIR對而導出該等轉移函數。

儘管已經出於理解清晰之目的而相當詳細地描述了前述發明，但將顯而易見的是，可在所附申請專利範圍之範圍內實踐某些改變及修改。因此，本具體實例將被視為說明性而非限制性，且本發明並不限於本文中所給出之細節，而是可在所附申請專利範圍之範圍及等效物內對本發明進行修改。

102‧‧‧收聽者

104到115‧‧‧方位角

122到128‧‧‧揚聲器部位

200‧‧‧系統

202‧‧‧頭部追蹤感測器

204‧‧‧方位角區塊

208‧‧‧旋轉濾波器資料庫

210‧‧‧BRIR資料庫

215‧‧‧輸入音訊

216‧‧‧DSP處理器

220‧‧‧頭戴式耳機換能器

302、304‧‧‧轉移函數對

400‧‧‧系統

402、404、406、408‧‧‧BRIR濾波器

502、504、506、508‧‧‧耳間時間延遲（ITD）

510、514、516、518‧‧‧時域FIR旋轉濾波器

520、522、524、526‧‧‧脈衝回應之零延遲版本

702‧‧‧提取裝置

704‧‧‧影像感測器

706‧‧‧處理器

710‧‧‧遠端伺服器

712‧‧‧選擇處理器

714‧‧‧記憶體

715到718‧‧‧行

720‧‧‧HRTF產生區塊

730‧‧‧音訊呈現裝置

735‧‧‧頭戴式耳機

901‧‧‧距離球面/球面柵格

902‧‧‧收聽者

903、950、952、954、956‧‧‧位置

904‧‧‧頭部

905到907、930‧‧‧向量

908‧‧‧水平面

909、910‧‧‧平面

912到915‧‧‧量測點

918、951、961‧‧‧經內插點

922到924、928、955‧‧‧點

960、962、964、966‧‧‧經量測點

1001‧‧‧第二球面柵格

1002‧‧‧房間

1004‧‧‧收聽者

1006‧‧‧揚聲器

1008‧‧‧直接聲波

1009、1011‧‧‧反射音訊波

圖1A為根據本發明之具體實例的繪示用於產生稀疏HRTF或BRIR資料庫的在圍繞收聽者之頭部之方位角上之各種揚聲器部位的圖解。

圖1B為根據本發明之具體實例的繪示用於產生稀疏BRIR資料庫的在仰角上之各種揚聲器部位的圖形表示。

圖2為根據本發明之一個具體實例的繪示具有頭部追蹤特徵之頭戴式耳機電路系統的圖解。

圖3為根據本發明之一個具體實例的繪示用於指定部位之單一虛擬揚聲器之處理的圖解。

圖4為繪示用於處理無頭部追蹤之立體聲輸入信號之習知系統的圖解。

圖5為根據本發明之一個具體實例的繪示具有頭部追蹤之立體聲輸入的圖解。

圖6A為根據本發明之具體實例的反映經由俘獲系統產生稀疏HRTF柵格之流程圖。

圖6B為根據本發明之具體實例的反映具有應用於經選擇HRTF對之頭部追蹤修改之回放系統的流程圖。

圖7為根據本發明之具體實例的用於產生用於客製化之HRTF、獲取用於客製化之收聽者性質、為收聽者選擇客製化HRTF、提供適應於與相對使用者頭部移動一起運作之旋轉濾波器且呈現由HRTF修改之音訊的系統的圖解。

圖8為根據本發明之具體實例的繪示藉由獲取及量測而產生HRTF資料集之方法的流程圖。

圖9A為根據本發明之一個具體實例的繪示圍繞收聽者產生稀疏球面柵格之圖解。

圖9B為根據本發明之一個具體實例的繪示應用於圍繞收聽者的圖9A之球面柵格的內插之結果的圖解。

圖9C為根據本發明之具體實例的繪示藉由頭部移動及關聯旋轉濾波器選擇而產生之合成向量的圖解。

圖10為根據本發明之具體實例的繪示不同距離處之球面資料庫的圖解。

圖11為根據本發明之具體實例的繪示產生客製化HRTF時的房間內之直接聲音及反射的圖解。

Claims

一種用於提供頭部相關轉移函數（HRTF）以應用於輸入音訊信號來用於將音訊定位至一組頭戴式耳機之方法，其包含：在參考位置處存取針對收聽者所個別化之複數個雙耳聲脈衝回應（BAIR）對；與相對於該收聽者之額外位置相對應地針對該收聽者存取複數個雙耳聲脈衝回應（BAIR）對；藉由將用於該等額外位置之該複數個雙耳聲脈衝回應（BAIR）對中之每一者除以用於該參考位置之該雙耳聲脈衝回應（BAIR）對，來導出用於將用於相對於該收聽者之該參考位置之雙耳聲脈衝回應（BAIR）轉換至該等額外位置中之每一者的複數個轉移函數；接收指示頭部定向改變之信號，且回應於並對應於該信號而選擇該複數個轉移函數中之一對轉移函數；及將該參考位置的雙耳聲脈衝回應（BAIR）對及該複數個轉移函數中經選擇的該對轉移函數應用於該輸入音訊信號，以在該組頭戴式耳機中定位該音訊。
如請求項1所述之方法，其中該頭部定向改變為該頭部相對於該參考位置之旋轉、傾度與偏度及傾角中之至少一者。
如請求項1所述之方法，其中在該參考位置處針對該收聽者所個別化之該雙耳聲脈衝回應（BAIR）對對應於脈衝回應長度，該脈衝回應長度為針對該複數個頭部相關轉移函數對之回應長度的至少4倍。
如請求項1所述之方法，其中用於額外位置之該複數個雙耳聲脈衝回應（BAIR）對至少包含自針對該等位置中之一些之經量測回應所導出的HRTF。
如請求項4所述之方法，其中用於額外位置之該複數個雙耳聲脈衝回應（BAIR）對包含藉由在頻域中進行之內插所導出的HRTF，其在該內插被應用於經量測之該等HRTF中之一者或多者時。
如請求項1所述之方法，其中用於該收聽者之該複數個雙耳聲脈衝回應（BAIR）對形成第一球面柵格之至少部分，其含有用於在距該收聽者之第一距離處的該第一球面柵格上之音訊源位置的複數個頭部相關轉移函數對。
如請求項6所述之方法，其中該複數個雙耳聲脈衝回應（BAIR）對包含用於該收聽者之頭部相關轉移函數（HRTF）對，且包括一第二球面柵格，該第二球面柵格含有用於在距該收聽者之第二距離處的該球面柵格上之音訊源位置的複數個頭部相關轉移函數對，且該方法進一步涉及藉由針對位在相對於該第一球面柵格及該第二球面柵格之該第一距離與該第二距離之間的一距離處的音訊源位置進行內插，以產生用於應用於輸入音訊信號之所得HRTF。
如請求項7所述之方法，其中藉由將針對該等額外位置量測或內插之HRTF除以包括用於該參考位置之一房間音訊回應對的該參考頭部相關轉移函數，導出用於額外位置之該複數個頭部相關轉移函數對。
如請求項1所述之方法，其中在該參考位置處針對收聽者所個別化之該複數個雙耳聲脈衝回應（BAIR）對及在額外位置處針對該收聽者所個別化之該複數個雙耳聲脈衝回應（BAIR）對至少部分地藉由下述而產生的：記錄由該頭部相對於靜止揚聲器位置之移動所造成的該等回應以及由相對於靜止頭部位置之揚聲器移動所造成的該等回應。
一種用於空間音訊呈現之頭戴式耳機，其包含：第一資料庫，其具有對應於參考音訊源部位之第一雙耳房間脈衝回應（BRIR）對；頭部感測器，其識別頭部定向資訊；旋轉器之第二資料庫，其儲存於記憶體中，經組態用於修改該第一BRIR對以對應於第二群揚聲器部位，其具有不同於該等第一部位且自該頭部定向資訊所導出的經界定方位角、仰角及傾角值中之至少一者，其；及處理器，其經組態以將該等旋轉濾波器與該第一BRIR對組合以將輸出雙耳音訊信號產生至該頭戴式耳機之換能器，其中該等旋轉濾波器包含用於將用於第一位置之HRTF轉換至第二且不同位置的轉移函數，且其中用於該第二位置之該等HRTF對應於針對收聽者所產生之HRTF對，且藉由將用於該第二位置之該等各別HRTF對除以用於該參考位置之該等BRIR對而導出該等轉移函數。
如請求項10所述之頭戴式耳機，其中該等BRIR對之長度為該等HRTF對之長度的至少4倍。
如請求項10所述之頭戴式耳機，其中在進行相除之前，該等BRIR對之長度首先被截斷至大致為該等HRTF對之長度。
如請求項10所述之頭戴式耳機，其中該BRIR對藉由針對該收聽者之客製量測而判定的。
如請求項10所述之頭戴式耳機，其中該等BRIR對及該等HRTF對至少部分地藉由下述而產生的：記錄由該頭部相對於靜止揚聲器部位之移動所造成的該等回應以及由相對於靜止頭部位置之揚聲器移動所造成的該等回應。
如請求項10所述之頭戴式耳機，其中該等BRIR對及HRTF對根據將由該收聽者對其頭部所拍攝之至少一個相片相對於與收聽者頭部之影像所匹配的各別BRIR對及HRTF對之資料庫進行匹配而導出的。
如請求項10所述之頭戴式耳機，其中該等各別BRIR對為該等HRTF對之長度的至少4倍。
如請求項15所述之頭戴式耳機，其中該等HRTF對形成第二資料集之一部分，且至少部分地藉由頻域內插以自一稀疏填充之HRTF資料集而產生的。
一種經組態用於雙耳呈現之雙耳空間音訊呈現系統，其包含：頭部相關轉移函數（HRTF）之第一資料庫，其儲存於記憶體中，用於修改音訊信號以在該雙耳呈現系統中產生對於該音訊自具有方位角及仰角中之至少一者之部位所產生的感知；旋轉濾波器之第二資料庫，其包含用以將用於第一參考位置之雙耳房間脈衝回應（BRIR）轉換至用於一第二且不同位置之BRIR的轉移函數且儲存於記憶體中，並且進一步經組態用於修改該等BRIR以對應於具有不同於該第一參考位置之至少一經界定方位角及仰角的第二群虛擬揚聲器部位，其中該等旋轉濾波器藉由將該第一資料庫中之該複數個HRTF中之每一者除以用於該第一參考位置之該BRIR而導出的；數位信號處理器（DSP），其經組態以將來自該第二資料庫的該等旋轉濾波器中之經選擇旋轉濾波器與來自該第一資料庫的該等脈衝回應中之經選擇脈衝回應組合，以產生用於該第二群揚聲器部位組的雙耳房間脈衝回應（BRIR）；及音訊呈現電路系統，其經組態用於運用對於該第二群揚聲器部位之經判定BRIR來修改音訊信號。
如請求項18所述之系統，其中該等第一部位對應於房間內之多聲道揚聲器之部位，其中聲道數目包括至少兩個，並且其中用於該參考位置之該等BRIR對及該第一資料庫中之該等HRTF對至少部分地藉由下述而產生的：記錄由該頭部相對於靜止揚聲器部位之移動所造成的該等回應以及由相對於靜止頭部位置之揚聲器移動所造成的該等回應。
如請求項18所述之系統，其中來自該音訊呈現電路系統之輸出被提供至頭戴式耳機，且其中該第一資料庫及該第二資料庫被包含於該等頭戴式耳機中之一者或經耦接至該等頭戴式耳機之模組中。