TW201804315A

TW201804315A - 虛擬、擴充及混合實境

Info

Publication number: TW201804315A
Application number: TW106117430A
Authority: TW
Inventors: 艾瑞克維瑟; 金萊軒; 拉格胡佛沛瑞
Original assignee: 高通公司
Priority date: 2016-07-15
Filing date: 2017-05-25
Publication date: 2018-02-01
Also published as: CN109416585B; US20180020312A1; BR112019000398A2; WO2018013237A1; BR112019000398A8; US9906885B2; KR20190028697A; CN109416585A; EP3485346A1; SG11201810874YA; KR102609668B1; JP2019527956A

Abstract

本發明提供一種用於輸出虛擬聲音的方法，該方法包括在一或多個麥克風處偵測一環境中之一音訊信號。該方法亦包括在一處理器處判定該音訊信號之一聲源的一部位及基於該音訊信號而估計該環境之一或多個聲學特性。該方法進一步包括基於該一或多個聲學特性而將一虛擬聲音插入至該環境中。該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。

Description

虛擬、擴充及混合實境

本發明大體上係關於擴充實境。

虛擬實境應用正變得愈來愈流行。舉例而言，不同裝置可包括使得使用者能夠可有聲地且在視覺上經歷虛擬環境之特徵。為了說明，使用者可使用裝置以玩視訊遊戲。裝置之顯示螢幕可向使用者呈現與視訊遊戲相關聯之虛擬物件，且裝置之揚聲器可向使用者輸出與視訊遊戲相關聯之聲音(例如，虛擬聲音)。如本文所使用，「虛擬物件」對應於經由虛擬實境應用(例如，視訊遊戲)對於使用者可見但將在無虛擬實境應用之情況下另外不對於使用者可見(例如，在「真實世界」中將不對於使用者可見)的物件。「虛擬聲音」對應於經由虛擬實境應用對於使用者可聽但將在無虛擬實境應用之情況下另外不對於使用者可聽(例如，在「真實世界」中將不對於使用者可聽)的聲音。在某些情境下，個人可能不能夠滿意地享受真實世界體驗。作為非限制性實例，若個人正看著相對遠的蜂鳥，則該個人可嘗試聽到由蜂鳥產生的聲音(例如，蜂鳴聲)；然而，個人與蜂鳥之間的距離可防止個人聽到來自蜂鳥的蜂鳴聲。

根據一項實施，一種用於輸出虛擬聲音的設備包括經組態以偵測一環境中之一音訊信號的一或多個麥克風。該設備亦包括耦接至該一或多個麥克風之一處理器。該處理器經組態以判定該音訊信號之一聲源的一部位。該處理器經進一步組態以基於該音訊信號而估計該環境之一或多個聲學特性。該處理器亦經組態以基於該一或多個聲學特性而將一虛擬聲音插入至該環境中。該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。根據另一實施，一種用於輸出虛擬聲音的方法包括在一或多個麥克風處偵測一環境中之一音訊信號。該方法亦包括在一處理器處判定該音訊信號之一聲源的一部位及基於該音訊信號而估計該環境之一或多個聲學特性。該方法進一步包括基於該一或多個聲學特性而將一虛擬聲音插入至該環境中。該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。根據另一實施，一種非暫時性電腦可讀媒體包括用於輸出虛擬聲音之指令。該等指令在由一處理器執行時使得該處理器執行包含以下操作之操作：判定該音訊信號之一聲源的一部位及基於該音訊信號而估計該環境之一或多個聲學特性。該等操作進一步包括基於該一或多個聲學特性而將一虛擬聲音插入至該環境中。該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。根據另一實施，一種用於輸出虛擬聲音的設備包括用於偵測一環境中之一音訊信號的構件。該設備亦包括用於判定該音訊信號之一聲源之一部位的構件及用於基於該音訊信號而估計該環境之一或多個聲學特性的構件。該設備進一步包括用於基於該一或多個聲學特性而將一虛擬聲音插入至該環境中之構件。該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。根據另一實施，一種用於輸出聲音的設備包括一記憶體及耦接至該記憶體之一處理器。該處理器經組態以判定一環境之一或多個部位處的一或多個聲學特性。該處理器經進一步組態以接收指示一特定物件之一使用者選擇及接收一特定部位之一使用者指示。該處理器亦經組態以基於該一或多個聲學特性而判定自該特定部位產生之一聲音的一或多個音訊屬性。該處理器經進一步組態以將與該特定物件相關聯之一虛擬聲音插入至該環境中。該虛擬聲音具有該一或多個音訊屬性。根據另一實施，一種用於輸出聲音的方法包括判定一環境之一或多個部位處的一或多個聲學特性。該方法進一步包括接收指示一特定物件之一使用者選擇及接收一特定部位之一使用者指示。該方法亦包括基於該一或多個聲學特性而判定自該特定部位產生之一聲音的一或多個音訊屬性。該方法進一步包括將與該特定物件相關聯之一虛擬聲音插入至該環境中。該虛擬聲音具有該一或多個音訊屬性。根據另一實施，一種非暫時性電腦可讀媒體包括用於輸出聲音之指令。該等指令在由一處理器執行時使得該處理器執行包括判定一環境之一或多個部位處的一或多個聲學特性的操作。該等操作進一步包括接收指示一特定物件之一使用者選擇及接收一特定部位之一使用者指示。該等操作亦包括基於該一或多個聲學特性而判定自該特定部位產生之一聲音的一或多個音訊屬性。該等操作進一步包括將與該特定物件相關聯之一虛擬聲音插入至該環境中。該虛擬聲音具有該一或多個音訊屬性。根據另一實施，一種用於輸出聲音的設備包括用於判定一環境之一或多個部位處之一或多個聲學特性的構件。該設備進一步包括用於接收指示一特定物件之一使用者選擇的構件及用於接收一特定部位之一使用者指示的構件。該設備亦包括用於基於該一或多個聲學特性而判定自該特定部位產生之一聲音之一或多個音訊屬性的構件。該設備進一步包括用於將與該特定物件相關聯之一虛擬聲音插入至該環境中的構件。該虛擬聲音具有該一或多個音訊屬性。

相關申請案之交叉參考本申請案主張在2016年7月15日申請之題為「虛擬、擴充及混合實境(VIRTUAL, AUGMENTED, AND MIXED REALITY)」的美國臨時專利申請案第62/363,104號之優先權，該案之全文係以引用之方式併入。參看圖1，展示可操作以將虛擬聲音及虛擬影像組合至真實世界環境中之系統100。系統100包括位於聲學環境150中之裝置102。根據一項實施，裝置102包括經組態以產生虛擬實境場景、混合實境場景或擴充實境場景之頭戴式耳機。如本文所使用，「虛擬實境場景」係包括虛擬組件(例如，一或多個虛擬聲音及/或一或多個虛擬物件)之場景。通常，在虛擬實境場景中不存在真實世界組件(例如，真實世界聲音或真實世界物件)。如本文所使用，「擴充實境場景」係包括一或多個虛擬組件及一或多個真實世界組件之場景。如本文所使用，「混合實境場景」係包括一或多個虛擬組件及一或多個真實世界組件之場景。通常，在混合實境場景中，虛擬組件具有類似於真實世界組件之屬性的屬性(例如，特性)，以使得使用人類感官區分開虛擬組件與真實世界組件可係困難的。舉例而言，混合實境場景包括虛擬組件與真實世界組件之相對「平滑」或無縫共混。裝置102包括一記憶體104、一或多個麥克風106、一或多個攝影機108、一或多個揚聲器110、一顯示螢幕112、一處理器114及一聲音特性資料庫116。裝置102之組件可耦接在一起。作為非限制性實例，一或多個麥克風106可耦接至處理器114，記憶體104可耦接至處理器114，一或多個攝影機108可耦接至處理器114等。如本文所使用，「耦接」可包括「通信耦接」、「電耦接」或「實體耦接」及其組合。兩個裝置(或組件)可經由一或多個其他裝置、組件、線、匯流排、網路(例如，有線網路、無線網路或其組合)等直接地或間接地耦接(例如，通信耦接、電耦接或實體耦接)。作為說明性、非限制性實例，電耦接之兩個裝置(或組件)可包括於相同裝置或不同裝置中，且可經由電子裝置、一或多個連接件或電感耦合而連接。在一些實施中，以通信方式(諸如，以電通信)耦接之兩個裝置(或組件)可(諸如)經由一或多個線、匯流排、網路等直接地或間接地發送且接收電信號(數位信號或類比信號)。包括於裝置102中之組件僅係出於說明之目的，且不被理解為係限制性的。根據一項實施，裝置102可包括額外(或更少)組件。作為非限制性實例，裝置102亦可包括音量調整器、一或多個生物回饋感測器或其他感測器(例如，加速計)、一或多個通信組件(例如，用於無線通信之射頻(RF)收發器)等。處理器114包括部位估計電路122、音訊分析電路124、虛擬聲音產生電路126、虛擬聲源產生電路128、視訊播放裝置160及音訊播放裝置162。包括於處理器114中之組件僅係出於說明之目的，且不被理解為係限制性的。根據一些實施，處理器114中之兩個或多於兩個組件可組合成單個組件或單個處理單元。聲學環境150包括「真實」(例如，真實世界)物件及真實聲音。舉例而言，聲學環境150包括聲源130及聲源132。每一聲源130、132可係產生聲音之物件。聲源之非限制性實例係動物、人、汽車、機器等。聲源130可根據角度部位(α₁ )而離裝置102某段距離(D₁ )。聲源132可根據角度部位(α₂ )而離裝置102某段距離(D₂ )。儘管在一些實施中角度部位包括角座標(例如，115度)，但在其他實施中，角度部位可包括兩個角度座標之間的區，諸如第一角座標191 (例如，90度)與第二角座標192 (例如，135度)之間的區190。聲源130可經組態以產生音訊信號140，且聲源132可經組態以產生音訊信號142。如下文所解釋，每一音訊信號140、142可具有一或多個聲音特性。處理器114之部位估計電路122可經組態以判定聲源130、132之視覺參數。為了說明，一或多個攝影機108可捕捉聲學環境150之視覺表示170。一或多個攝影機108可接近於音訊捕捉裝置(例如，接近於一或多個麥克風106)。首先(例如，在添加混合實境應用之前，如下文所描述)，聲學環境150之視覺表示170可描繪聲學環境150中之真實物件。舉例而言，聲學環境150之視覺表示170可首先描繪聲源130及聲源132。視訊播放裝置160可回應於一或多個攝影機108捕捉聲學環境150之視覺表示170而處理(例如，「顯現」)聲學環境150之視覺表示170。在聲學環境150之視覺表示170由視訊播放裝置160處理之後，部位估計電路122可使用部位估計技術以基於顯現而判定聲源130離裝置102之距離(D₁ )及聲源130之角度部位(α₁ )。部位估計電路122亦可使用部位估計技術以基於顯現而判定聲源130離裝置102之距離(D₂ )及聲源130之角度部位(α₂ )。視訊播放裝置160可在顯示螢幕112上顯示聲學環境150之視覺表示170。關於圖3更詳細地描述在顯示螢幕112上顯示聲學環境150之視覺表示170。處理器114之音訊分析電路124可經組態以判定音訊信號140、142之聲音特性164、166。為了說明，一或多個麥克風106可經組態以偵測音訊信號140、142。音訊分析電路124可回應於一或多個麥克風106偵測到音訊信號140而判定音訊信號140之聲音特性164。舉例而言，音訊分析電路124可判定音訊信號140之至少一個混響特性。根據一項實施，至少一個混響特性可包括音訊信號140之直達混響比(direct-to-reverberation，DRR)。音訊分析電路124可將音訊信號140之聲音特性164 (連同由部位估計電路122判定之聲源130的對應視覺參數)儲存於聲音特性資料庫116中。聲音特性資料庫116可使聲音特性與聲源部位資訊相關聯。儘管聲音特性164描述為混響特性，但在其他實施中，聲音特性164可包括一或多個其他混響特性、房間脈衝回應(RIR)、頭部相關轉移函數(HRTF)、一或多個其他特性或其組合。以類似方式，音訊分析電路124可回應於一或多個麥克風106偵測到音訊信號142而判定音訊信號142之聲音特性166。舉例而言，音訊分析電路124可判定音訊信號142之至少一個混響特性。根據一項實施，至少一個混響特性可包括音訊信號142之DRR。音訊分析電路124可將音訊信號142之聲音特性166 (連同由部位估計電路122判定之聲源132的對應視覺參數)儲存於聲音特性資料庫116中。根據一項實施，聲音特性164、166可基於聲學環境150之特性而受影響。處理器114可判定聲學環境150對應於室內環境、室外環境抑或部分封閉環境等。聲音特性164、166之混響分量可(諸如)在聲源130、132相比於在聲源130、132在電梯中時位於開放空間中時由聲學環境150之特性改變。音訊播放裝置162可產生聲學環境150之音訊表示172。首先(例如，在添加混合實境應用之前，如下文所描述)，聲學環境150之音訊表示172可包括與音訊信號140相關聯之聲音及與音訊信號142相關聯之聲音。可使用一或多個揚聲器110輸出聲學環境150之音訊表示172。舉例而言，音訊播放裝置162可使用一或多個揚聲器110 (例如，頭戴式耳機)向頭戴式耳機(例如，裝置102)之使用者提供聲學環境150之音訊表示172。音訊表示172中的與音訊信號140相關聯之聲音可產生為基於角度部位(α₁ )而具有到達方向及基於距離(D₁ )而具有音量(例如，聲音位準)。舉例而言，若距離(D₁ )相對較大，則與音訊信號140相關聯之聲音的音量可相對低。因此，音訊播放裝置162可基於聲源130之視覺參數及聲音特性164而產生與音訊信號140相關聯之聲音。在其他實施中，音訊播放裝置162可使用如由一或多個麥克風106偵測到之音訊信號140以在音訊表示172中產生與音訊信號140相關聯之聲音。舉例而言，音訊播放裝置可藉由「播放」由一或多個麥克風106偵測到之音訊信號140來產生與音訊信號140相關聯之聲音。音訊表示172中的與音訊信號142相關聯之聲音可產生為基於角度部位(α₂ )而具有到達方向及基於距離(D₂ )而具有音量(例如，聲音位準)。因此，音訊播放裝置162可基於聲源132之視覺參數及聲音特性166而產生與音訊信號142相關聯之聲音。在其他實施中，音訊播放裝置162可藉由「播放」由一或多個麥克風106偵測到之音訊信號142來產生與音訊信號142相關聯之聲音。根據一項實施，可基於音訊裝置之使用者起始式播放而產生音訊信號140、142中之一或多者。作為非限制性實例，聲源130可包括擴音器，且使用者起始式播放可包括自擴音器產生音訊信號140。為了說明，參看圖5中之第一實例500，擴音器502可置放於使用者之手上。擴音器502可使用擴音器502來在環境之不同部位處產生音訊信號。頭戴式耳機可基於由擴音器502產生之聲音而判定聲學特性(例如，房間脈衝回應(RIR)及頭部相關轉移函數(HRTF))。舉例而言，頭戴式耳機可包括經組態以偵測由擴音器502產生之每一音訊信號的一或多個麥克風。使用者使用者將其手及因此擴音器502移動至環境之不同部位以判定聲學特性。頭戴式耳機亦可基於RIR及HRTF而更新濾波器以在環境內產生虛擬聲音。在頭戴式耳機判定環境之不同部位處的一或多個聲學特性之後，使用者可將指示特定物件之使用者選擇提供至頭戴式耳機。為了說明，參看第二實例520，使用者可將鋼琴504之使用者選擇提供至頭戴式耳機。使用者亦可提供環境之特定部位的使用者指示。舉例而言，使用者可將可穿戴式感測器穿戴於使用者之手指上。可穿戴式感測器可指示特定部位。頭戴式耳機可基於不同部位處之聲學特性而判定自特定部位產生之聲音的一或多個音訊屬性。舉例而言，頭戴式耳機可使用RIR及HRTF以判定與由可穿戴式感測器指示之部位相關聯的音訊屬性。頭戴式耳機可產生與特定物件(例如，鋼琴504)相關聯之虛擬聲音(例如，鋼琴聲音)。虛擬聲音可具有一或多個音訊屬性，且頭戴式耳機可基於虛擬聲音而輸出聲音信號。另外，使用者可向頭戴式耳機提供指示另一特定物件之使用者選擇。為了說明，參看第二實例520，使用者可將小提琴506之使用者選擇提供至頭戴式耳機。使用者亦可經由可穿戴式感測器提供第二特定部位之使用者指示。頭戴式耳機可基於不同部位處之聲學特性而判定自第二特定部位產生之聲音的一或多個音訊屬性。頭戴式耳機可產生與小提琴506相關聯之第二虛擬聲音(例如，小提琴聲音)。虛擬聲音可具有一或多個音訊屬性，且頭戴式耳機可基於虛擬聲音而輸出聲音信號。根據一項實施，若特定時間量已發生(例如，足以產生濾波之時間已發生)，則物件聲音可在使用者之手不在對應虛擬物件之部位處的情況下保持(例如，連續地被播放)。舉例而言，若頭戴式耳機已判定了使用者之手之位置處的特性(例如，混響特性、RIR及HRTF)，則可使用者移動他或她的手在之後在該位置處連續地播放虛擬聲音。因此返回參看圖1，音訊分析電路124可基於與使用者之手位置相關聯的音訊播放而產生音訊信號140之聲音特性164。根據一項實施，可在無音訊裝置之使用者起始式播放的情況下產生音訊信號140、142中之一或多者。作為非限制性實例，聲源132可包括產生音訊信號142之動物(或不處於使用者之控制下的其他物件)。處理器114可經組態以產生虛擬組件(例如，虛擬物件及/或虛擬聲音)，將一或多個虛擬組件應用於顯示螢幕112處所顯示之聲學環境150的視覺表示170以產生混合或擴充視覺場景，且將一或多個虛擬組件應用於在一或多個揚聲器110處所輸出之聲學環境150之音訊表示172以產生混合或擴充音訊。舉例而言，虛擬聲音產生電路126可經組態以產生虛擬聲音144，且虛擬聲源產生電路128可經組態以產生虛擬聲源134。為了說明，虛擬聲源產生電路128可產生虛擬聲源134，且視訊播放裝置160可經組態以藉由將虛擬聲源134插入至視覺表示170中來修改聲學環境150之視覺表示170。經修改視覺表示170可顯示於顯示螢幕112處，如關於圖3所進一步詳細描述。基於經修改視覺表示170，部位估計電路122可經組態以判定虛擬聲源134之視覺參數。為了說明，部位估計電路122可使用部位估計技術以判定對應於虛擬聲源134離裝置102之距離(D₃ )及虛擬聲源134之角度部位(α₃ )的視覺參數。虛擬聲音產生電路126可經組態以分別基於音訊信號140、142之聲音特性164、166中的一或多者而產生虛擬聲音144，其方式係使得虛擬聲音144可由裝置102之使用者感知為來自虛擬聲源134。為了說明，虛擬聲源134可係鳥，且虛擬聲音144可包括鳥啁啾聲音。鳥啁啾聲音可自聲音資料庫擷取且由虛擬聲音產生電路126修改以增強使用者之對虛擬聲音144來源於虛擬聲源134的感知。舉例而言，虛擬聲音產生電路126可基於音訊信號140、142之混響特性(例如，儲存於聲音特性資料庫116中之聲音特性164、166)而判定虛擬聲音144之一或多個混響特性。為了說明，虛擬聲音產生電路126可比較虛擬聲源134之部位(例如，距離(D₃ )及角度部位(α₃ ))與與聲音特性之資料庫中之聲音特性164、166相關聯的視覺參數。若虛擬聲音產生電路126判定距離(D₂ )大體上類似於距離(D₃ )，則虛擬聲音產生電路126可產生大體上類似於音訊信號142之混響特性的虛擬聲音144之混響特性。如關於圖2更詳細地解釋，虛擬聲音產生電路126可判定聲源130、132是否位於一或多個聲學區域(諸如聲學環境150之第一區域或聲學環境150之第二區域)中。若虛擬聲源134與聲源130位於相同區域中，則虛擬聲音144之聲音特性168可大體上類似於音訊信號140之聲音特性164。若虛擬聲源134與聲源132位於相同區域中，則虛擬聲音144之聲音特性168可大體上類似於音訊信號142之聲音特性166。若虛擬聲源134與聲源130位於不同區域中，則虛擬聲音144之聲音特性168可不同於音訊信號140之聲音特性164。若虛擬聲源134與聲源132位於不同區域中，則虛擬聲音144之聲音特性168可不同於音訊信號142之聲音特性166。虛擬聲音產生電路126亦可經組態以基於與虛擬聲音144相關聯之虛擬聲源134的部位而判定虛擬聲音144之到達方向。舉例而言，虛擬聲音產生電路126可(自部位估計電路122)判定虛擬聲源134之角度部位(α₃ )。基於角度部位(α₃ )，虛擬聲音產生電路126可平移虛擬聲音144使得裝置102之使用者聽到虛擬聲音144，如同虛擬聲音144來自虛擬聲源134之方向一般。因此，虛擬聲音產生電路126可基於一或多個混響特性(例如，聲音特性168)及到達方向而產生虛擬聲音144。音訊播放裝置162可經組態以藉由將虛擬聲源134插入至音訊表示172中來修改聲學環境150之音訊表示172。可在一或多個揚聲器110處輸出經修改聲學環境150之音訊表示172。舉例而言，音訊播放裝置162可在頭戴式耳機之一或多個擴音器處(基於虛擬聲音144而)輸出聲音信號。如上文所描述，鳥啁啾聲音可自聲音資料庫擷取。自聲音資料庫擷取之鳥啁啾聲音可包括音訊信號之數位表示。虛擬聲音產生電路126可經組態以基於聲音特性164、166而在空間上對音訊信號之數位表示進行濾波以產生經空間濾波音訊檔案。虛擬聲源產生電路128可經組態以基於經空間濾波音訊檔案而產生經空間濾波音訊信號及將經空間濾波音訊信號發送至一或多個揚聲器110。一或多個揚聲器110可經組態以將經空間濾波音訊信號作為經空間濾波聲音投射。經空間濾波聲音可包括虛擬聲音144。根據一項實施，虛擬聲音144包括電腦產生之聲音。根據一項實施，一或多個攝影機108可經組態以捕捉視覺場景，諸如聲學環境150之視覺描繪。在虛擬聲源產生電路128將虛擬聲源134之影像插入至聲學環境150之視覺表示170 (例如，視覺場景)中之後，部位估計電路122可判定虛擬聲源134在視覺場景中之部位。部位可指示虛擬聲源134離一或多個攝影機108之距離(D₃ )及虛擬聲源134相對於一或多個攝影機108之角度部位(α₃ )。根據一項實施，部位估計電路122可至少部分地基於對應於視覺場景之深度圖而判定距離(D₃ )。如上文及關於圖2所描述，虛擬聲音產生電路126可基於虛擬聲源134之部位而判定虛擬聲音144之一或多個聲音特性(例如，聲音特性168)。虛擬聲音產生電路126可基於一或多個聲音特性而產生虛擬聲音144，且音訊播放裝置162可藉由將聲學環境150之聲學表示172修改成包括虛擬聲音144來基於虛擬聲音144而(在一或多個揚聲器110處)輸出聲音信號。圖1之系統100可使得能夠將虛擬物件插入於聲學環境150之視覺表示170中以在顯示螢幕112處產生視覺混合實境場景。舉例而言，聲學環境150中不存在之物件可實際上插入至聲學環境150之視覺表示170中以增強使用者享受。另外，系統100可使得能夠將虛擬物件插入於聲學環境之音訊表示172中以在一或多個揚聲器110處產生音訊混合實境。根據一項實施，虛擬聲音可添加至虛擬物件，諸如虛擬聲源134。根據一項實施，虛擬聲音可添加至真實世界物件，諸如聲源130及/或聲源132。將虛擬聲音添加至真實世界物件可使得使用者能夠「聽到」來自相對遠的物件的聲音(例如，聽到來自在無虛擬實境應用之情況下另外不對於使用者可聽之物件的聲音)。圖2相對於圖1之裝置102的部位描繪不同區域中之真實世界聲源及虛擬聲源。圖1之聲學環境150說明為包括包括第一區域202及第二區域204之複數個區域。根據其他實施，聲學環境150可包括多於兩個區域。區域202、204可包括具有位於裝置102之麥克風106處或接近其之中心點的同心圓。舉例而言，麥克風106可包括麥克風之圓形陣列，其中每一麥克風經定位以在不同方向上捕捉音訊。第一區域202比第二區域204接近裝置102。儘管圖2以同心圓形式描繪兩個區域202、204，但本文中所描述之技術可在使用具有不同幾何佈置之區域的情況下適用。作為非限制性實例，區域202、204中之每一者可包括具有位於裝置102處之中心點的矩形區段。裝置102之處理器114可經組態以基於角度部位及距離而判定特定聲源位於第一區域202抑或第二區域204中。舉例而言，音訊分析電路124可基於第一聲源130與該裝置102 (例如，麥克風106)之間的距離(D₁ )且基於第一聲源130 (例如，相對於麥克風106)之第一角度部位而判定第一聲源130位於第一區域202中。以類似方式，處理器114可基於第二聲源132與該裝置102之間的距離(D₂ )且基於第二聲源132 (例如，相對於麥克風106)之第二角度部位而判定第二聲源132位於第二區域204中。如參看圖1所描述，處理器114可判定對應於第一音訊信號140之第一聲音特性164及對應於第二音訊信號142之第二聲音特性166。處理器114可基於虛擬聲源134於裝置102之間的(D₃ )且基於虛擬聲源134之第三角度部位(α₃ )而判定虛擬聲音信號144來源於位於第二區域204中之來源(虛擬聲源134)。為了產生虛擬聲音信號144，處理器114可自虛擬聲音之資料庫擷取對應於虛擬源(例如，鳥啁啾啁啾之聲音信號)，且可將第二聲音特性166應用於所擷取聲音信號，以使得來自第二區域204之虛擬聲音144的聲音特性模仿來自第二聲源132之真實世界聲音(音訊信號142)的聲音特性。替代地，若虛擬聲源134經判定為在第一區域202中而非在第二區域204中，則處理器114可替代地將第一聲音特性164應用於所擷取聲音信號，以使得來自第一區域204之虛擬聲音144的聲音特性模仿來自第一聲源130之真實世界聲音(音訊信號140)的聲音特性。藉由基於相同區域中之一或多個其他聲源的所量測(例如，所感測、所計算、所偵測到等)聲音特性而選擇虛擬聲音之一或多個聲音特性，相比於使用用以判定虛擬聲音之聲音特性的另一技術，虛擬聲音可由使用者以減小之計算複雜度感知為更真實。舉例而言，可基於虛擬聲音之距離及到達方向且進一步基於聲學環境之一或多個特性(例如，吊頂或牆壁之存在或不存在及離其之距離，反射性或吸收性結構或材料之存在或不存在及及離其之距離，等)而藉由存取聲音資料之所儲存表來獨立於其他聲音信號而執行對虛擬聲音之聲音特性的判定。藉由使用真實世界聲音之所量測聲音特性及來自類似空間部位(例如，相同區域)之聲音具有類似聲音特性(例如，相同混響特性)的近似，可相比於上文所描述之基於表的方法產生更真實的虛擬聲音。圖3自可操作以將虛擬聲音及虛擬影像組合至真實世界環境中之頭戴式耳機的視角而描繪混合實境場景。裝置102自使用者之視角描繪為具有左顯示螢幕302、右顯示螢幕303、麥克風310、311、312及313 (例如，麥克風之陣列)及擴音器320至323 (例如，揚聲器之陣列)的頭戴式耳機。顯示屏幕302至303可集合地對應於圖1之顯示螢幕112，麥克風310至313可對應於圖1之麥克風106，且擴音器320至323可對應於圖1之揚聲器110。裝置102在包括比第二樹342更接近裝置102之第一樹340的環境中。環境亦包括第一聲源330及第二聲源332。裝置102可經組態以向裝置102之穿戴者提供虛擬實境體驗、混合實境體驗或混合實境體驗中之一或多者。舉例而言，左顯示螢幕302可為使用者之左眼顯示左場景，且右顯示螢幕303可為使用者之右眼顯示右場景來實現立體視覺。在一些實施中，顯示屏幕302及303係不透明的，且產生具有一或多個嵌入虛擬物件(例如，虛擬來源354)之視覺場景(例如，包括第一聲源330之影像350及第二聲源332之影像352)的表示。在一些實施中，顯示器302及303將一或多個嵌入虛擬物件重疊至視覺場景上。在一些實施中，裝置102可包括單個顯示器而非可提供三維(3D)視圖或可提供二維(2D)視圖之兩個顯示器302至303。裝置102可經組態以藉由虛擬物件加強視覺環境、藉由虛擬聲音加強聲學環境或其組合。作為一第一實例，裝置102可產生待由使用者感知為來源於真實世界聲源處之虛擬聲音。裝置102可判定第二樹342將用作虛擬聲音之來源(例如，遊戲應用中之唱歌的樹)。舉例而言，可(諸如)經由識別使用者指向、追蹤使用者眼部移動或凝視、或使用者之語音識別(例如，識別第二樹342)基於使用者而選擇第二樹342。在一第一實施中，裝置102可偵測來自第一聲源330之第一聲音(例如，狗吠)及來自第二聲源332之第二聲音(例如，人談話)。裝置102可判定對應於第一聲源330之第一距離340及到達方向且可判定對應於第二聲源332之第二距離342及到達方向。裝置102可判定第一聲音之第一聲音特性及第二聲音之第二聲音特性。裝置102可(例如，經由深度圖)判定離第二樹342之距離至比對第二距離342相對更接近第一距離340 (或第二樹342在與第一聲源330相同之區域中及與第二聲源332不同之區域中，諸如圖2中所描述)。裝置102可基於來自第一聲源330之第一聲音的第一聲音特性而選擇虛擬聲音(例如，唱歌之樹的話音)之聲音特性。在第一實例之一第二實施中，裝置102之使用者可將聲源(例如，擴音器)定位於第二樹342處或附近。裝置102可基於(例如，經由所選音訊信號之使用者起始式播放)自聲源接收之音訊信號而判定第一聲音特性。裝置102可將第一聲音特性用作虛擬聲音(例如，唱歌之樹的話音)之聲音特性。在第一實例之一第三實施中，裝置102可實施對虛擬聲音之聲音特性的基於表之判定，而不使用聲學環境中之真實世界聲音的聲音特性。裝置102可估計離第二樹342之距離及方向，估計一或多個聲學條件(例如，裝置102在封閉空間抑或開放空間中)，且起始一或多個表查詢操作及計算以產生虛擬聲音之聲音特性。作為一第二實例，裝置102可產生待作為真實世界聲音之來源向使用者顯示的虛擬聲源。舉例而言，第三聲源334可部分或完全地隱藏、遮蔽或以其他方式在視覺上難以感知。裝置102可自第三聲源334偵測音訊信號且可基於偵測到之聲音的一或多個特性而估計第三聲源334之部位。在估計第三聲源334之部位之後，裝置102可將虛擬聲源354添加至顯示屏幕302至303上，以使得使用者能夠在視覺上辨別聲音之來源。在第二實例之一第一實施中，裝置102可至少部分地藉由比較一或多個聲音特性偵測到之音訊信號與聲學環境之其他音訊信號的聲音特性(諸如來自第一聲源330及來自第二聲源332之具有儲存於圖1之資料庫116中之特性的音訊信號)來估計第三聲源334之部位。可基於比較且基於距離340及342而估計自裝置102至第三聲源334之距離(例如，可基於與偵測到之聲音之聲音特性的類似性而使用離聲源之距離或包括聲源之區域來估計離第三聲源334之距離)。可(諸如)經由裝置102之不同麥克風310至313處的音訊信號之相位差藉由裝置102估計到達方向。在第二實例之一第二實施中，裝置102可至少部分地藉由比較偵測到之音訊信號的一或多個聲音特性與所播放音訊信號之聲音特性來估計第三聲源334之部位。舉例而言，裝置102可基於(例如，經由場景中之一或多個部位處對來自擴音器之所選音訊信號的使用者起始式播放)自一或多個聲源接收之一或多個音訊信號而判定或可在資料庫116中儲存聲音特性。作為一第三實例，裝置102可產生待作為虛擬聲音之來源向使用者顯示的虛擬聲音及虛擬聲源。舉例而言，裝置102可藉由添加第三聲源334作為虛擬聲源及添加來自第三聲源334之虛擬聲音來擴充聲學及視覺環境。裝置102可(例如，基於遊戲設置情境而)選擇第三聲源334之部位，且可在顯示器302至303中之適當部位處顯示虛擬聲源354之視覺表示，以看起來如同第三聲源334在真實世界視覺場景中一般。裝置102可(例如，基於來自一或多個類似定位之真實世界聲源的音訊信號而)使用上文所描述之實施中的一或多者來選擇來自虛擬聲源334之虛擬聲音的一或多個聲音特性。參看圖4A，展示將虛擬物件插入至基於一或多個偵測到之聲音之場景中的實例。圖4A描繪第一場景400及第二場景420。第一場景400係不具有混合實境處理之環境的視覺描繪，如經由頭戴式耳機402之顯示螢幕404所見。第二場景420係具有混合實境處理之環境的視覺描繪，如經由頭戴式耳機402之顯示螢幕404所見。頭戴式耳機402可對應於圖1之裝置102。舉例而言，頭戴式耳機402可包括與裝置102類似之組件，且以與裝置102大體上類似之方式操作。頭戴式耳機402包括一或多個顯示屏幕404及一或多個麥克風406。一或多個顯示屏幕404可對應於圖1之顯示螢幕112、圖3之顯示屏幕302、303或其組合。一或多個麥克風406可對應於圖1之一或多個麥克風106。一或多個麥克風406可偵測場景400、420中之聲音。舉例而言，一或多個麥克風406可偵測鳥聲音410 (例如，啁啾)、人類話音聲音412 (例如，談話)及猴聲音414。可使用關於圖1所描述之音訊分析技術來判定鳥聲音410之聲源的部位。舉例而言，頭戴式耳機402內之處理器(未展示)可識別鳥聲音410且判定鳥聲音410來自朝向第一場景400之左上方部分的部位。可使用關於圖1所描述之音訊分析技術來判定人類話音聲音412之聲源的部位。舉例而言，頭戴式耳機402內之處理器可識別人類話音聲音412且判定人類話音聲音412來自朝向第一場景400之中心的部位。可使用關於圖1所描述之音訊分析技術來判定猴聲音之聲源的部位。舉例而言，頭戴式耳機402內之處理器可識別猴聲音414且判定猴聲音414來自朝向第一場景400之右上方部分的部位。儘管聲音410、412、414可由一或多個麥克風406偵測到，但聲源可不對頭戴式耳機402之攝影機可見。舉例而言，發出鳥聲音410之鳥可由樹中之樹葉遮蔽攝影機，發出人類話音聲音412之人類可由霧遮蔽攝影機，且發出猴聲音414之猴可由另一樹中之樹葉遮蔽攝影機。頭戴式耳機402可將圖1之混合實境處理技術應用於第一場景400以產生第二場景420。舉例而言，處理器可以與圖1之虛擬聲源產生電路128大體上類似的方式操作，且插入產生鳥聲音410之虛擬鳥430。類似地，處理器可插入產生人類話音聲音412之虛擬人類432，且可插入產生猴聲音414之虛擬猴434。可使用關於圖1所描述之混合實境處理技術來經由一或多個顯示屏幕404在第二場景420處顯示虛擬鳥430、虛擬人類432及虛擬猴434。因此，可使用混合實境處理技術來虛擬物件430、432、434將插入至場景中以改良使用者體驗。舉例而言，若使用者可聽到聲音但無法看見與聲音相關之聲源，則頭戴式耳機402可在接近於產生聲音之處的部位處插入虛擬來源(經由一或多個顯示屏幕404可見)以改良使用者體驗。參看圖4B，展示將虛擬物件插入至基於一或多個偵測到之聲音之場景中的另一實例。圖4B描繪由裝置452 (例如，安全攝影機)捕捉之場景。舉例而言，裝置452可捕捉場景之視覺描繪。根據一項實施，裝置452可對應於圖1之裝置102 (或包括於其中)。舉例而言，裝置452可包括與裝置102類似之組件，且以與裝置102大體上類似之方式操作。由裝置452捕捉之場景可包括嬰兒床448。裝置452可包括經組態以偵測音訊信號之一或多個麥克風(未展示)。舉例而言，一或多個麥克風可偵測嬰兒聲音450。裝置452內之處理器可判定音訊信號之聲源的部位。舉例而言，裝置452內之處理器可判定音訊信號之聲源的部位。為了說明，處理器可判定嬰兒聲音450之聲音特性。聲音特性可包括混響特性，諸如直達混響比(DRR)。基於聲音特性，處理器可判定聲源離裝置452之距離。舉例而言，處理器可判定聲源位於第一區域(例如，近場區域)中抑或位於第二區域(例如，遠場區域)中。處理器亦可估計嬰兒聲音450之到達方向。聲源之部位可基於到達方向及與聲源相關聯之區域。舉例而言，到達方向可指示來自一或多個麥克風之聲源的方向，且與聲源相關聯之區域可指示聲源離一或多個麥克風多遠。裝置452可基於嬰兒聲音而估計環境之一或多個聲學特性。根據一項實施，裝置可基於一或多個聲學特性而產生虛擬聲音。舉例而言，裝置452可產生具有自聲源之部位產生的聲音之一或多個音訊屬性的虛擬嬰兒聲音462。處理器可基於虛擬嬰兒聲音462而在遠端部位處輸出聲音信號。舉例而言，顯示螢幕490可位於與裝置452 (例如，安全攝影機)不同之部位處。為了說明，裝置452可位於房屋之一個房間中，且顯示螢幕490可位於房屋之另一房間中。裝置490可在位於容納之包括顯示螢幕490之房間中的一或多個揚聲器處輸出虛擬嬰兒聲音462。根據一項實施，裝置452可經組態以基於音訊信號而將聲源分類為特定物件。舉例而言，裝置452可將嬰兒聲音450之聲源分類成嬰兒。裝置452可產生特定物件之虛擬影像。舉例而言，裝置452可產生虛擬嬰兒460。裝置452亦可將虛擬影像插入至環境之視覺描繪中。為了說明，裝置452可在顯示螢幕490處將虛擬嬰兒460插入至視覺描繪中。虛擬嬰兒可位於視覺描繪中之對應於聲源之位置的特定部位處。舉例而言，虛擬嬰兒460可位於嬰兒床448 (例如，在其中產生嬰兒聲音450)中。參看圖6，描繪說明擴充聲學環境之表示之方法600的流程圖。可在包括麥克風及處理器的裝置(諸如圖1之裝置102)處執行方法600。在602處，在麥克風處偵測音訊信號。舉例而言，音訊信號可對應於在裝置102之麥克風106偵測到的圖1之音訊信號140或142。在604處，在處理器處判定音訊信號之聲音特性。舉例而言，圖1之處理器114可基於音訊信號140而判定第一聲音特性164。在606處，基於音訊信號之聲音特性而產生虛擬聲音，且在608處，將虛擬聲音插入至聲學環境之表示中以供在音訊播放裝置處播放。舉例而言，圖1之虛擬聲音產生電路126可產生表示虛擬聲音且添加至聲學環境之表示172以供在音訊播放裝置162處播放的資料。將虛擬聲音插入至聲學環境之表示中可包括在擴充實境、虛擬實境、或混合實境頭戴式耳機之一或多個擴音器(例如，耳機)處輸出虛擬聲音。在一些實施中，聲音特性可包括音訊信號之至少一個混響特性。至少一個混響特性可包括音訊信號之直達混響比。可基於音訊信號之至少一個混響特性而判定虛擬聲音之一或多個混響特性，且可基於與虛擬聲音相關聯之虛擬聲源的部位而估計虛擬聲音之到達方向。可基於一或多個混響特性及到達方向而產生虛擬聲音。替代地或另外，方法600可包括基於聲音特性而判定音訊信號之聲源位於聲學環境之第一區域抑或聲學環境之第二區域中。第一區域(例如，圖2之第一區域202)可比第二區域(例如，圖2之第二區域204)接近麥克風。可就與虛擬聲音相關聯之虛擬聲源位於第一區域抑或第二區域中進行判定。虛擬聲音之一或多個特性可基於聲源之部位及虛擬聲源之部位。舉例而言，若聲源位於第一區域中且虛擬聲源位於第一區域中，則虛擬聲音之特性可大體上類似於音訊信號之聲音特性，且若聲源位於第一區域中且虛擬聲源位於第二區域中，則虛擬聲音之特性可不同於音訊信號之聲音特性。作為另一實例，若聲源位於第二區域中且虛擬聲源位於第二區域中，則虛擬聲音之特性可大體上類似於音訊信號之聲音特性，且若聲源位於第二區域中且虛擬聲源位於第一區域中，則虛擬聲音之特性可不同於音訊信號之聲音特性。可基於音訊裝置之使用者起始式播放而產生音訊信號。舉例而言，可使用擴音器或在虛擬聲音之虛擬聲源之部位處或接近其置放於聲學環境中之其他聲音產生器來產生音訊信號。音訊信號可由麥克風捕捉，且經處理以判定對應於部位且可處於增強之真實性應用於虛擬聲音的聲音特性(例如，到達方向、混響特性等)。舉例而言，可識別在麥克風處所捕捉之音訊信號與擴音器播放出之音訊信號之間的差異，且該等差異可用以判定聲音自該部位至麥克風之傳送轉移特性。替代地，可在無音訊裝置之使用者起始式播放的情況下產生音訊信號。舉例而言，音訊信號可在虛擬聲音之虛擬聲源的部位處或附近由聲學環境中之聲音產生元件產生。可在由麥克風捕捉之聲音中偵測一或多個音訊信號，且可估計音訊信號之一或多個來源的部位。來自接近於虛擬聲音之來源之部位或與其共置的來源之音訊信號的聲音特性可用以產生虛擬聲音之聲音特性。在一特定實施中，音訊播放裝置併入於經組態以產生虛擬實境場景、擴充實境場景或混合實境場景中之至少一者的頭戴式耳機中，諸如參看圖3所描述。聲學環境之視覺表示可使用一或多個攝影機捕捉且顯示於頭戴式耳機處，且與虛擬聲音相關聯之虛擬聲源可插入至視覺表示中。在其他實施中，音訊播放裝置可不實施於具有視覺顯示器之頭戴式耳機中，且可替代地併入於另一裝置(例如，行動電話或音樂播放器裝置)中。參看圖7，描繪說明擴充聲學環境之表示之方法700的流程圖。可在包括麥克風及處理器的裝置(諸如圖1之裝置102)處執行方法700。相比於圖6，圖7之方法的實施可判定虛擬聲音之不基於所接收音訊信號之聲音特性的特性。在702處使用一或多個攝影機捕捉視覺場景。一或多個攝影機接近於音訊捕捉裝置。音訊捕捉裝置可併入於經組態以產生虛擬實境場景、擴充實境場景或混合實境場景中之至少一者的頭戴式耳機中。在704處判定虛擬聲源在視覺場景中之部位。部位指示虛擬聲源離一或多個攝影機之距離及虛擬聲源相對於一或多個攝影機之角度部位。在706處，基於虛擬聲源之部位而判定虛擬聲音之一或多個聲音特性。一或多個聲音特性可包括虛擬聲音之至少一個混響特性。在一些實施中，虛擬聲音之一或多個特性係進一步基於聲學環境之特性。舉例而言，可判定聲學環境之特性。聲學環境之特性可指示聲學環境係室內環境抑或室外環境。在一些實施中，虛擬聲源之部位可與使聲音特性與部位資訊相關聯之資料庫中的部位資訊比較，且可基於比較而判定虛擬聲音之一或多個聲音特性。在708處，基於一或多個聲音特性而產生虛擬聲音，且在710處，將虛擬聲音插入至聲學環境之表示中以供在音訊播放裝置處播放。方法700可包括將虛擬聲源插入至視覺場景之表示中及顯示視覺場景之表示。插入虛擬聲音可包括在頭戴式耳機之一或多個擴音器處輸出對應於虛擬聲音之聲音信號。圖8描繪產生虛擬音訊信號之方法800的實例。可在包括音訊播放裝置之裝置(諸如圖1之裝置102)處執行方法800。方法800包括在802處選擇待與人工聲音(例如，虛擬聲音)相關聯之物件。舉例而言，如參看圖3所描述，可選擇第二樹342。可基於使用者輸入，諸如經由識別使用者之手指指向物件、追蹤使用者眼部移動或朝向物件之凝視、或使用者之語音識別(例如，識別向物件添加虛擬聲音之命令)而選擇物件。在804處判定物件之部位。可基於深度圖或其他視覺處理技術而判定物件之部位。物件之部位對應於(諸如)參看圖2所描述之特定區域。在806處，判定與特定區域相關聯之一或多個聲音混響參數及與特定區域相關聯之一或多個到達方向(DOA)參數。舉例而言，可基於來自特定區域之真實世界記錄聲音而判定聲音混響參數及DOA參數。作為另一實例，可基於來自特定區域之真實世界、所播放聲音而判定聲音混響參數及DOA參數。作為另一實例，聲音區域混響參數係基於而物件視覺深度及DOA資訊，且基於經預編譯聲學查找表。在808處，可基於一或多個聲音混響參數及一或多個DOA參數而產生音訊濾波器。在810處，可將音訊濾波器應用於與物件相關聯之「清晰」聲音以產生人工聲音。舉例而言，音訊濾波器可由圖1之虛擬聲源產生電路128產生且應用。在812處，可在頭戴式耳機處(諸如圖1之揚聲器110或圖3之擴音器320至323處)輸出人工聲音。舉例而言，可在頭戴式耳機耳機上(例如，在圖3之擴音器320至321處)播放人工聲音。圖9描繪在真實世界環境中產生虛擬物件之方法900的實例。可在包括視訊播放裝置之裝置(諸如圖1之裝置102)處執行方法900。方法900包括在902處偵測聲學環境中之聲音。舉例而言，參看圖1，一或多個麥克風106可偵測聲學環境150中之音訊信號。在904處，可判定聲音之一或多個聲音混響參數，且可判定聲音之到達方向(DOA)。舉例而言，參看圖1，音訊分析電路124可判定聲音之一或多個混響參數。根據一項實施，音訊分析電路124可判定聲音之DRR。另外，部位估計電路122可判定聲音之DOA。舉例而言，部位估計電路122可判定聲音之角度部位。在906處，可基於一或多個聲音混響參數及DOA而判定聲音之聲源的部位。部位可指示聲源之深度及聲源之方向。舉例而言，參看圖1，部位估計電路可基於一或多個聲音混響參數及DOA而判定聲源之部位。根據一項實施，DRR及角度部位可由處理器使用以判定聲音之深度及方向。在908處，可判定虛擬物件之應與聲音相關聯的視覺特性。視覺物件可基於聲音、部位及聲學環境之視覺表示。舉例而言，參看圖1，處理器114可判定虛擬物件之著色方案、虛擬物件之顏色方案、虛擬物件之大小方案或其組合，以使得虛擬物件「共混」至「真實視覺場景」中。方案可基於部位。作為非限制性實例，若處理器114判定聲源之部位相對遠，則處理器114可選擇對應於相對小大小之視覺特性。在910處，可基於視覺特性而產生虛擬物件。舉例而言，參看圖1，虛擬聲源產生電路128可基於在908處所描述之視覺特性(例如，不同方案)而產生虛擬物件。在912處，可將虛擬物件插入至聲學環境之視覺表示中。舉例而言，視訊播放裝置160可將虛擬物件該至聲學環境150之視覺表示170中。圖9之方法900可使得能夠將虛擬物件插入於場景之視覺表示中以產生視覺混合實境場景。舉例而言，「真實世界」中不存在之虛擬物件可實際上插入於視覺表示中以增強使用者享受。圖10描繪產生經空間濾波聲音之方法1000的實例。可在包括音訊播放裝置之裝置(諸如圖1之裝置102)處執行方法1000。方法1000包括在1002處在麥克風處偵測第一音訊信號。第一音訊信號可由聲學環境中之聲源產生。舉例而言，音訊信號可對應於在裝置102之麥克風106處偵測到的圖1之音訊信號140或142。方法1000亦包括在1004處判定第一音訊信號之特性。舉例而言，參看圖1，處理器114可基於音訊信號140而判定聲音特性164。方法1000亦包括在1006處基於特性而在空間上對第二音訊信號之數位表示進行濾波以產生經空間濾波音訊檔案。舉例而言，參看圖1，虛擬聲音產生電路126可基於聲音特性164而在空間上對音訊信號之數位表示進行濾波以產生經空間濾波音訊檔案。方法1000亦包括在1008處將經空間濾波音訊信號發送至揚聲器。經空間濾波音訊信號可基於經空間濾波音訊檔案。舉例而言，參看圖1，虛擬聲源產生電路128可基於經空間濾波音訊檔案而產生經空間濾波音訊信號，且可將經空間濾波音訊信號發送至一或多個揚聲器110。方法1000亦包括在1010處在揚聲器處將經空間濾波音訊信號作為經空間濾波聲音投射。舉例而言，參看圖1，一或多個揚聲器110可將經空間濾波音訊信號作為經空間濾波聲音投射。經空間濾波聲音可包括虛擬聲音144。根據一項實施，虛擬聲音144包括電腦產生之聲音。圖11描繪輸出聲音之方法1100的實例。可在包括音訊播放裝置之裝置(諸如，圖1之裝置102)處執行方法1100。方法1100包括在1102處判定環境之一或多個部位處的一或多個聲學特性。舉例而言，參看圖5，擴音器502經組態以穿戴於使用者之手處，且可在環境之不同部位處產生音訊信號。為了說明，使用者可移動其手且擴音器502可在使用者之手所位於之處產生音訊信號。使用者之頭戴式耳機可包括經組態以偵測由擴音器投射之音訊信號的一或多個麥克風。基於偵測到之音訊信號，頭戴式耳機可判定環境之不同部位處的一或多個聲學特性。方法1100亦包括在1104處接收指示特定物件之使用者選擇。舉例而言，參看圖5，頭戴式耳機可接收指示使用者已選擇鋼琴504的使用者選擇。方法1100亦包括在1106處接收特定部位之使用者指示。可穿戴式感測器可經組態以偵測特定部位、產生特定部位之使用者指示且將特定部位之使用者指示發送至處理器(例如，頭戴式耳機)。舉例而言，參看圖5，頭戴式耳機可(經由使用者之手上的可穿戴式感測器)接收使用者正指向特定部位(例如，使用者之面部前方大約兩呎)的使用者指示。方法1100亦包括在1108處基於一或多個聲學特性而判定自特定部位產生之聲音的一或多個音訊屬性。舉例而言，參看圖5，頭戴式耳機可判定使用者之面部前方大約兩呎所產生的聲音之音訊屬性。為了說明，當擴音器502在使用者之面部前方大約兩呎時，頭戴式耳機可判定自擴音器502產生之聲音的音訊屬性。方法1100亦包括在1110處將與特定物件相關聯之虛擬聲音插入至環境中。虛擬聲音具有一或多個音訊屬性。舉例而言，參看圖5，頭戴式耳機可在擴音器在使用者之面部前方大約兩呎時產生包括由擴音器502產生的聲音之音訊屬性的虛擬鋼琴聲音。作為另一實例，頭戴式耳機可比較一或多個聲學特性與記憶體中之一或多個條目。每一條目可與不同聲音相關聯。頭戴式耳機可在將虛擬聲音插入至環境中之前基於比較而自特定條目擷取虛擬聲音。在產生(或自記憶體擷取)虛擬聲音之後，頭戴式耳機可將虛擬聲音(例如，鋼琴聲音)插入至環境中。圖12描繪產生虛擬聲音之方法1200的實例。可在包括音訊播放裝置之裝置(諸如圖1之裝置102)處執行方法1200。方法1200包括在1202處在一或多個麥克風處偵測環境中之音訊信號。舉例而言，參看圖1，一或多個麥克風106可偵測音訊信號140。方法1200亦包括在1204處在處理器處判定音訊信號之聲源的部位。舉例而言，參看圖1，裝置102可判定音訊信號140之聲源130的部位。舉例而言，裝置可判定音訊信號140之聲音特性。基於聲音特性，裝置102可聲源130位於聲學環境150之第一區域抑或聲學環境150之第二區域中。第一區域可比第二區域接近。方法1200亦包括在1206處基於音訊信號而估計環境之一或多個聲學特性。舉例而言，參看圖1，音訊分析電路124可基於偵測到之音訊信號140而估計聲學環境150之一或多個聲學特性。方法1200亦包括在1208處基於一或多個聲學特性而將虛擬聲音插入至環境中。虛擬聲音具有自聲源之部位產生之聲音的一或多個音訊屬性。舉例而言，參看圖1，虛擬聲源產生電路128可基於聲學環境之聲學特性而產生虛擬聲音。作為另一實例，處理器114可比較一或多個聲學特性與記憶體104中之一或多個條目。每一條目可與不同虛擬聲音相關聯。處理器114亦可在將虛擬聲音插入至環境中之前基於比較而自特定條目擷取虛擬聲音。在產生(或自記憶體擷取)虛擬聲音之後，虛擬聲音產生電路126可將虛擬聲音插入於聲學環境150中。參看圖13，描繪裝置102之方塊圖。在一特定實施中，裝置102包括處理器114 (例如，CPU)。處理器114包括部位估計電路122、音訊分析電路124、虛擬聲音產生電路126、虛擬聲源產生電路128、視訊播放裝置160及音訊播放裝置162。裝置102包括耦接至處理器114之記憶體104。另外，聲音特性資料庫116可耦接至處理器114 (例如，可由處理器114存取)。裝置102亦包括經由收發器1341耦接至天線1342之無線介面1340。裝置102可包括耦接至顯示器控制器1326之顯示螢幕112。一或多個揚聲器110、一或多個麥克風106或兩者可耦接至寫碼解碼器(CODEC) 1334。寫碼解碼器1334可包括數位至類比轉換器(DAC) 1302及類比至數位轉換器(ADC) 1304。在一特定實施中，寫碼解碼器1334可自一或多個麥克風106接收類比信號且使用類比至數位轉換器1304來將類比信號轉換成數位信號。寫碼解碼器1334可自處理器114接收數位信號，且寫碼解碼器1334可使用數位至類比轉換器1302將數位信號轉換成類比信號且可將類比信號提供至一或多個揚聲器110。記憶體104可包括可由處理器114、裝置102之另一處理單元或其組合執行以執行本文中所揭示之方法及程序(諸如圖6至圖10之方法600至1000中的一或多者)的指令1368。可經由專用硬體(例如，電路)、藉由用以執行一或多個任務之處理器執行指令(例如，指令1368)或其組合實施本文中所揭示之設備/系統的一或多個組件。作為一實例，記憶體104或處理器114之一或多個組件可係記憶體裝置，諸如隨機存取記憶體(RAM)、磁電阻隨機存取記憶體(MRAM)、自旋力矩轉移MRAM(STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可擦除可程式化唯讀記憶體(EPROM)、電可擦除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除式磁碟或緊密光碟唯讀記憶體(CD-ROM)。記憶體裝置可包括在由電腦(例如，寫碼解碼器1334中之處理器、處理器114及/或裝置102中之另一處理單元)執行時可使得電腦執行本文所描述之方法中的一或多者之至少一部分的指令(例如，指令1368)。作為一實例，記憶體104或處理器114之一或多個組件可係包括指令(例如，指令1368)之非暫時性電腦可讀媒體，指令在由電腦(例如，寫碼解碼器1334中之處理器、處理器114及/或另一處理單元)執行時可使得電腦執行本文所揭示之方法中之一或多者的至少一部分。在一特定實施中，裝置102可包括於系統級封裝或系統單晶片裝置1322 (諸如，行動台數據機(MSM))中。在一特定實施中，處理器114、顯示控制器1326、記憶體104、寫碼解碼器1334及無線介面1340包括於系統級封裝或系統單晶片裝置1322中。在一特定實施中，諸如觸控螢幕及/或小鍵盤之輸入裝置1330及電源供應器1344耦接至系統單晶片裝置1322。此外，在一特定實施中，如圖13中所說明，顯示螢幕112、輸入裝置1330、一或多個揚聲器110、一或多個麥克風106、天線1342、一或多個攝影機108及電源供應器1344在系統單晶片裝置1322外部。然而，顯示螢幕1328、一或多個攝影機108、輸入裝置1330、一或多個揚聲器110、一或多個麥克風106、天線1342及電源供應器1344中之每一者可耦接至系統單晶片裝置1322之組件，諸如介面或控制器。在一說明性實例中，裝置102對應於頭戴式耳機、行動通信裝置、智慧型電話、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、顯示裝置、電視、遊戲控制台、音樂播放器、無線電、數位視訊播放器、光學光碟播放器、調諧器、攝影機、導航裝置、解碼器系統、編碼器系統、有人操縱載具或無人操縱載具(諸如汽車或航空載具)內之裝置或其任何組合。結合所描述實施，用以產生虛擬聲音之第一設備包括用於偵測環境中之音訊信號的構件。舉例而言，用於偵測音訊信號之構件可包括圖1及圖13之一或多個麥克風106、一或多個其他感測器或其組合。第一設備亦可包括用於判定環境中之音訊信號的聲源之部位的構件。舉例而言，用於判定聲源之部位的構件可包括圖1及圖13之部位估計電路122、圖1及圖13之處理器、一或多個其他裝置或其組合。第一設備亦可包括用於基於音訊信號而估計環境之一或多個聲學特性的構件。舉例而言，用於估計聲學特性之構件可包括圖1及圖13之音訊分析電路124、圖1及圖13之處理器、一或多個其他裝置或其組合。第一設備亦可包括用於基於一或多個聲學特性而將虛擬聲音插入至環境中之構件。虛擬聲音可具有自聲源之部位產生之聲音的一或多個音訊屬性。舉例而言，用於將虛擬聲音插入至環境中之構件可包括圖1及圖13之虛擬聲音產生電路126、圖1及圖13之處理器、一或多個其他裝置或其組合。結合所描述實施，用以輸出聲音之第二設備包括用於判定環境之一或多個部位處之一或多個聲學特性的構件。舉例而言，用於判定一或多個聲學特性之構件可包括圖1及圖13之音訊分析電路124、圖1及圖13之處理器、一或多個其他裝置或其組合。第二設備亦可包括用於接收指示特定物件之使用者選擇的構件。舉例而言，用於接收使用者選擇之構件可包括使用者介面(例如，圖13之輸入裝置1330)、一或多個其他裝置或其組合。第二設備亦可包括用於接收特定部位之使用者指示的構件。舉例而言，用於接收使用者指示之構件可包括使用者介面(例如，圖13之輸入裝置1330)、一或多個其他裝置或其組合。第二設備亦可包括用於基於一或多個聲學特性而判定自特定部位產生之聲音之一或多個音訊屬性的構件。舉例而言，用於判定一或多個音訊屬性之構件可包括圖1及圖13之音訊分析電路124、圖1及圖13之處理器、一或多個其他裝置或其組合。第二設備亦可包括用於將與特定物件相關聯之虛擬聲音插入至環境中的構件。虛擬聲音可具有一或多個音訊屬性。舉例而言，用於將虛擬聲音插入至環境中之構件可包括圖1及圖13之虛擬聲音產生電路126、圖1及圖13之處理器、一或多個其他裝置或其組合。第二設備亦可包括用於偵測特定部位、產生特定部位之使用者指示且將特定部位之使用者指示發送至用於接收使用者指示之構件的構件。舉例而言，用於偵測、產生且發送之構件可包括可穿戴式感測器、一或多個其他裝置或其組合。結合所描述實施，用以擴充聲學環境之表示的第三設備包括用於偵測音訊信號之構件。舉例而言，用於偵測之構件可包括圖1及圖13之一或多個麥克風106、一或多個其他感測器或其組合。第三設備亦可包括用於判定音訊信號之聲音特性的構件。舉例而言，用於判定聲音特性之構件可包括圖1及圖13之音訊分析電路124、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第三設備亦可包括用於基於音訊信號之聲音特性而產生虛擬聲音的構件。舉例而言，用於產生虛擬聲音之構件可包括圖1及圖13之虛擬聲音產生電路126、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第三設備亦可包括用於基於虛擬聲音而輸出聲音信號以供由音訊播放裝置播放的構件。舉例而言，用於輸出之構件可包括圖1及圖13之一或多個揚聲器110、一或多個其他感測器或其組合。結合所描述實施，用以產生虛擬聲音之第四設備包括用於捕捉視覺場景之構件。用於捕捉之構件可接近於音訊捕捉裝置。舉例而言，用於捕捉之構件可包括圖1及圖13之一或多個攝影機108、一或多個其他感測器或其組合。第四設備亦可包括用於判定視覺場景中之虛擬聲源之部位的構件。部位可指示虛擬聲源離用於捕捉之構件的距離及虛擬聲源關於用於捕捉之構件的角度部位。舉例而言，用於判定虛擬聲源之部位的構件可包括圖1及圖13之部位估計電路122、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第四設備亦可包括用於基於虛擬聲源之部位而判定虛擬聲音之一或多個聲音特性的構件。舉例而言，用於判定一或多個聲音特性之構件可包括圖1及圖13之音訊分析電路124、圖1及圖13之虛擬聲音產生電路126、圖1及圖13之聲音特性資料庫116、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第四設備亦可包括用於基於一或多個聲音特性而產生虛擬聲音之構件。舉例而言，用於產生虛擬聲音之構件可包括圖1及圖13之虛擬聲音產生電路126、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第四設備亦可包括用於基於虛擬聲音而輸出聲音信號之構件。舉例而言，用於輸出之構件可包括圖1及圖13之一或多個揚聲器110、一或多個其他感測器或其組合。結合所描述實施，第五設備包括用於偵測第一音訊信號之構件。第一音訊信號可由聲學環境中之聲源產生。舉例而言，用於偵測之構件可包括圖1及圖13之一或多個麥克風106、一或多個其他感測器或其組合。第五設備亦可包括用於判定第一音訊信號之特性的構件。舉例而言，用於判定特性之構件可包括圖1及圖13之音訊分析電路124、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第五設備亦可包括用於基於特性而在空間上對第二音訊信號之數位表示進行濾波以產生經空間濾波音訊檔案的構件。舉例而言，用於空間上濾波之構件可包括圖1及圖13之虛擬聲音產生電路126、圖1及圖13之處理器114、一或多個其他裝置、在非暫時性計算機可讀存儲媒體處執行指令之處理器、或其組合。第五設備亦可包括用於投射經空間濾波聲音之構件。經空間濾波聲音可基於發送至用於投射之構件的經空間濾波音訊信號，且經空間濾波音訊信號可基於經空間濾波音訊檔案。舉例而言，用於投射之構件可包括圖1及圖13之一或多個揚聲器110、一或多個其他聲音輸出裝置或其組合。熟習此項技術者將進一步瞭解，各種說明性邏輯區塊、組態、模組、電路及結合本文中所揭示之態樣所描述的演算法步驟可實施為電子硬體、由諸如硬體處理器之處理裝置執行的電腦軟體，或兩者之組合。上文大體上就功能性而言描述各種說明性組件、區塊、組態、模組、電路及步驟。此功能性經實施為硬體或是軟體取決於特定應用及強加於整個系統之設計約束。對於每一特定應用而言，熟習此項技術者可以變化之方式實施所描述功能性，而不應將該等實施決策解釋為導致脫離本發明之範疇。結合本文中所揭示之態樣所描述的方法或演算法之步驟可直接體現於硬體、由處理器執行之軟體模組或其兩者之組合中。軟體模組可存在於記憶體裝置中，諸如隨機存取記憶體(RAM)、磁電阻隨機存取記憶體(MRAM)、自旋力矩轉移MRAM(STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可擦除可程式化唯讀記憶體(EPROM)、電可擦除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除式磁碟或緊密光碟唯讀記憶體(CD-ROM)。例示性記憶體裝置耦接至處理器，使得處理器可自記憶體裝置讀取資訊及將資訊寫入至記憶體裝置。在替代例中，記憶體裝置可與處理器成一體。處理器及儲存媒體可駐留於ASIC中。ASIC可駐留於計算裝置或使用者終端機中。在替代例中，處理器及儲存媒體可作為離散組件駐留於計算裝置或使用者終端機中。提供所揭示態樣之先前描述以使得熟習此項技術者能夠製作或使用所揭示態樣。熟習此項技術者將易於瞭解對此等態樣之各種修改，且本文中所定義之原理可在不脫離本發明之範疇的情況下應用於其他態樣。因此，本發明並不意欲限於本文中所展示之態樣或實例，而應符合與如由以下申請專利範圍所定義之原理及新穎特徵相一致的最廣泛的可能範疇。

100‧‧‧系統
102‧‧‧裝置
104‧‧‧記憶體
106‧‧‧麥克風
108‧‧‧攝影機
110‧‧‧揚聲器
112‧‧‧顯示螢幕
114‧‧‧處理器
116‧‧‧聲音特性資料庫
122‧‧‧部位估計電路
124‧‧‧音訊分析電路
126‧‧‧虛擬聲音產生電路
128‧‧‧虛擬聲源產生電路
130‧‧‧第一聲源
132‧‧‧第二聲源
134‧‧‧虛擬聲源
140‧‧‧第一音訊信號
142‧‧‧第二音訊信號
144‧‧‧虛擬聲音/虛擬聲音信號
150‧‧‧聲學環境
160‧‧‧視訊播放裝置
162‧‧‧音訊播放裝置
164‧‧‧第一聲音特性
166‧‧‧第二聲音特性
168‧‧‧聲音特性
170‧‧‧視覺表示
172‧‧‧音訊表示/聲學表示
190‧‧‧區
191‧‧‧第一角座標
192‧‧‧第二角座標
202‧‧‧第一區域
204‧‧‧第二區域
302‧‧‧左顯示螢幕
303‧‧‧右顯示螢幕
310‧‧‧麥克風
311‧‧‧麥克風
312‧‧‧麥克風
313‧‧‧麥克風
320‧‧‧擴音器
321‧‧‧擴音器
322‧‧‧擴音器
323‧‧‧擴音器
330‧‧‧第一聲源
332‧‧‧第二聲源
334‧‧‧第三聲源
340‧‧‧第一樹/第一距離
342‧‧‧第二樹/第二距離
350‧‧‧影像
352‧‧‧影像
354‧‧‧虛擬聲源
400‧‧‧第一場景
402‧‧‧頭戴式耳機
404‧‧‧顯示螢幕
406‧‧‧麥克風
410‧‧‧鳥聲音
412‧‧‧人類話音聲音
414‧‧‧猴聲音
420‧‧‧第二場景
430‧‧‧虛擬鳥/虛擬物件
432‧‧‧虛擬人類/虛擬物件
434‧‧‧虛擬猴/虛擬物件
448‧‧‧嬰兒床
450‧‧‧嬰兒聲音
452‧‧‧裝置
460‧‧‧虛擬嬰兒
462‧‧‧虛擬嬰兒聲音
490‧‧‧顯示螢幕
500‧‧‧第一實例
502‧‧‧擴音器
504‧‧‧鋼琴
506‧‧‧小提琴
520‧‧‧第二實例
600‧‧‧擴充聲學環境之表示之方法
700‧‧‧擴充聲學環境之表示之方法
800‧‧‧產生虛擬音訊信號之方法
900‧‧‧在真實世界環境中產生虛擬物件之方法
1000‧‧‧產生經空間濾波聲音之方法
1100‧‧‧輸出聲音之方法
1200‧‧‧產生虛擬聲音之方法
1302‧‧‧數位至類比轉換器(DAC)
1304‧‧‧類比至數位轉換器(ADC)
1322‧‧‧系統級封裝/系統單晶片裝置
1326‧‧‧顯示控制器
1330‧‧‧輸入裝置
1334‧‧‧編解碼器
1340‧‧‧無線介面
1341‧‧‧收發器
1342‧‧‧天線
1344‧‧‧電源供應器
1368‧‧‧指令
D₁‧‧‧距離
D₂‧‧‧距離
D₃‧‧‧距離
α₁‧‧‧角度部位
α₂‧‧‧角度部位
α₃‧‧‧角度部位

圖1係可操作以將虛擬聲音及虛擬影像組合至真實世界環境中之系統。圖2相對於可操作以將虛擬聲音及虛擬影像組合至真實世界環境中之系統的部位描繪不同區域中的真實世界聲源及虛擬聲源。圖3自可操作以將虛擬聲音及虛擬影像組合至真實世界環境中之頭戴式耳機的視角而描繪擴充實境場景。圖4A描繪將一或多個虛擬物件插入至基於一或多個偵測到之聲音的場景中之方法的實例。圖4B描繪將一或多個虛擬物件插入至基於一或多個偵測到之聲音的場景中之方法的另一實例。圖5描繪將一或多個虛擬聲音插入至環境中的實例。圖6係擴充聲學環境之表示之方法的流程圖。圖7係擴充聲學環境之表示之另一方法的流程圖。圖8係產生人工聲音之方法的流程圖。圖9係在真實世界環境中產生虛擬物件之方法的流程圖。圖10係產生經空間濾波聲音之方法的流程圖。圖11係輸出聲音之方法的流程圖。圖12係產生虛擬聲音之方法的流程圖。圖13說明包括可操作以執行關於圖1至圖13所描述之技術之組件的裝置。

1200‧‧‧產生虛擬聲音之方法

Claims

一種用於輸出虛擬聲音的設備，該設備包含：一或多個麥克風，其經組態以偵測一環境中之一音訊信號；及一處理器，其耦接至該一或多個麥克風，該處理器經組態以進行以下操作：判定該音訊信號之一聲源的一部位；基於該音訊信號而估計該環境之一或多個聲學特性；及基於該一或多個聲學特性而將一虛擬聲音插入至該環境中，該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。
如請求項1之設備，其中該處理器經進一步組態以在將該虛擬聲音插入至該環境中之前產生該虛擬聲音。
如請求項1之設備，其中該處理器經進一步組態以進行以下操作：比較該一或多個聲學特性與一記憶體中之一或多個條目，每一條目與一不同虛擬聲音相關聯；及在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音。
如請求項1之設備，其中該處理器經進一步組態以進行以下操作：基於該音訊信號而將該聲源分類為一特定物件；產生該特定物件之一虛擬影像；及在該聲源在該環境中之該部位處插入該虛擬影像。
如請求項1之設備，其進一步包含耦接至該處理器之一攝影機，該攝影機經組態以捕捉該環境。
如請求項5之設備，其中該攝影機包括一安全攝影機。
如請求項5之設備，其中該攝影機、該一或多個麥克風及該處理器整合至一頭戴式耳機中。
如請求項7之設備，其中該頭戴式耳機經組態以顯示對該環境之一視覺描繪。
如請求項1之設備，其中該處理器經進一步組態以進行以下操作：判定該音訊信號之一聲音特性；基於該聲音特性而判定該聲源位於該環境之一第一區域抑或該環境之一第二區域中，其中該第一區域比該第二區域接近該一或多個麥克風；及估計該音訊信號之一到達方向，其中該部位係基於該到達方向及與該聲源相關聯之一區域。
如請求項9之設備，其中該聲音特性包含該音訊信號之至少一個混響特性。
如請求項10之設備，其中該至少一個混響特性包含該音訊信號之一直達混響比。
一種用於輸出虛擬聲音的方法，該方法包含：在一或多個麥克風處偵測一環境中之一音訊信號；在一處理器處判定該音訊信號之一聲源的一部位；基於該音訊信號而估計該環境之一或多個聲學特性；及基於該一或多個聲學特性而將一虛擬聲音插入至該環境中，該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。
如請求項12之方法，其進一步包含在將該虛擬聲音插入至該環境中之前產生該虛擬聲音。
如請求項12之方法，其進一步包含：比較該一或多個聲學特性與一記憶體中之一或多個條目，每一條目與一不同虛擬聲音相關聯；及在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音。
如請求項12之方法，其進一步包含：基於該音訊信號而將該聲源分類為一特定物件；產生該特定物件之一虛擬影像；及在該聲源在該環境中之該部位處插入該虛擬影像。
如請求項12之方法，其進一步包含經由一攝影機捕捉該環境。
如請求項16之方法，其中該攝影機包括一安全攝影機。
如請求項16之方法，其中該攝影機、該一或多個麥克風及該處理器整合至一頭戴式耳機中。
如請求項18之方法，其進一步包含在該頭戴式耳機處顯示對該環境之一視覺描繪。
如請求項12之方法，其中判定該聲源之該部位包含：判定該音訊信號之一聲音特性；基於該聲音特性而判定該聲源位於該環境之一第一區域抑或該環境之一第二區域中，其中該第一區域比該第二區域接近該一或多個麥克風；及估計該音訊信號之一到達方向，其中該部位係基於該到達方向及與該聲源相關聯之一區域。
如請求項20之方法，其中該聲音特性包含該音訊信號之至少一個混響特性。
如請求項21之方法，其中該至少一個混響特性包含該音訊信號之一直達混響比。
一種非暫時性電腦可讀媒體，其包含用於輸出虛擬聲音之指令，該等指令在由一處理器執行時使得該處理器執行包含以下操作之操作：判定一環境中之一音訊信號之一聲源的一部位，該音訊信號係在一或多個麥克風處偵測；基於該音訊信號而估計該環境之一或多個聲學特性；及基於該一或多個聲學特性而將一虛擬聲音插入至該環境中，該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。
如請求項23之非暫時性電腦可讀媒體，其中該等操作進一步包含在將該虛擬聲音插入至該環境中之前產生該虛擬聲音。
如請求項23之非暫時性電腦可讀媒體，其中該等操作進一步包含：比較該一或多個聲學特性與一記憶體中之一或多個條目，每一條目與一不同虛擬聲音相關聯；及在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音。
如請求項23之非暫時性電腦可讀媒體，其中該等操作進一步包含：基於該音訊信號而將該聲源分類為一特定物件；產生該特定物件之一虛擬影像；及在該聲源在該環境中之該部位處插入該虛擬影像。
如請求項23之非暫時性電腦可讀媒體，其中該等操作進一步包含使得一攝影機捕捉該環境。
如請求項27之非暫時性電腦可讀媒體，其中該攝影機包括一安全攝影機。
一種用於輸出虛擬聲音的設備，該設備包含：用於偵測一環境中之一音訊信號的構件；用於判定該環境中之一音訊信號的一聲源之一部位的構件；用於基於該音訊信號而估計該環境之一或多個聲學特性的構件；及用於基於該一或多個聲學特性而將一虛擬聲音插入至該環境中之構件，該虛擬聲音具有自該聲源之該部位產生之一聲音的一或多個音訊屬性。
如請求項29之設備，其進一步包含：用於基於該音訊信號而將該聲源分類為一特定物件之構件；用於產生該特定物件之一虛擬影像的構件；及用於在該聲源在該環境中之該部位處插入該虛擬影像的構件。
一種用於輸出聲音的設備，該設備包含：一記憶體；及一處理器，其耦接至該記憶體，該處理器經組態以進行以下操作：判定一環境之一或多個部位處的一或多個聲學特性；接收指示一特定物件之一使用者選擇；接收一特定部位之一使用者指示；基於該一或多個聲學特性而判定自該特定部位產生之一聲音的一或多個音訊屬性；及將與該特定物件相關聯之一虛擬聲音插入至該環境中，該虛擬聲音具有該一或多個音訊屬性。
如請求項31之設備，其中該處理器經進一步組態以在將該虛擬聲音插入至該環境中之前產生該虛擬聲音。
如請求項31之設備，其中該處理器經進一步組態以進行以下操作：比較該一或多個聲學特性與一記憶體中之一或多個條目，每一條目與一不同虛擬聲音相關聯；及在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音。
如請求項31之設備，其進一步包含耦接至該處理器之一可穿戴式感測器，該可穿戴式感測器經組態以進行以下操作：偵測該特定部位；及產生該特定部位之該使用者指示；及將該特定部位之該使用者指示發送至該處理器。
如請求項34之設備，其中該可穿戴式感測器經進一步組態以穿戴於一使用者之手處。
如請求項31之設備，其進一步包含：一或多個揚聲器，其耦接至該處理器，該一或多個揚聲器經組態以在該環境之不同部位處產生音訊信號；及一或多個麥克風，其耦接至該處理器，該一或多個麥克風經組態以偵測每一音訊信號；其中該處理器經組態以基於由該一或多個揚聲器產生之偵測到的音訊信號而判定該一或多個部位處之該一或多個聲學特性。
如請求項36之設備，其中該一或多個揚聲器經進一步組態以穿戴於一使用者之手處。
一種用於輸出聲音的方法，該方法包含：判定一環境之一或多個部位處的一或多個聲學特性；接收指示一特定物件之一使用者選擇；接收一特定部位之一使用者指示；基於該一或多個聲學特性而判定自該特定部位產生之一聲音的一或多個音訊屬性；及將與該特定物件相關聯之一虛擬聲音插入至該環境中，該虛擬聲音具有該一或多個音訊屬性。
如請求項38之方法，其進一步包含在將該虛擬聲音插入至該環境中之前產生該虛擬聲音。
如請求項38之方法，其進一步包含：比較該一或多個聲學特性與一記憶體中之一或多個條目，每一條目與一不同虛擬聲音相關聯；及在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音。
如請求項38之方法，其進一步包含：使用一可穿戴式感測器來偵測該特定部位；在該可穿戴式感測器處產生該特定部位之該使用者指示；及將該特定部位之該使用者指示自該可穿戴式感測器發送至一處理器。
如請求項41之方法，其中該可穿戴式感測器經組態以穿戴於一使用者之手處。
如請求項38之方法，其進一步包含：使用一或多個揚聲器來在該環境之不同部位處產生音訊信號；及使用一或多個麥克風來偵測每一音訊信號；其中基於由該一或多個揚聲器產生之偵測到的音訊信號而判定該一或多個部位處之該一或多個聲學特性。
如請求項43之方法，其中該一或多個揚聲器經進一步組態以穿戴於一使用者之手處。
一種非暫時性電腦可讀媒體，其包含用於輸出聲音之指令，該等指令在由一處理器執行時使得該處理器執行包含以下操作之操作：判定一環境之一或多個部位處的一或多個聲學特性；接收指示一特定物件之一使用者選擇；接收一特定部位之一使用者指示；基於該一或多個聲學特性而判定自該特定部位產生之一聲音的一或多個音訊屬性；及將與該特定物件相關聯之一虛擬聲音插入至該環境中，該虛擬聲音具有該一或多個音訊屬性。
如請求項45之非暫時性電腦可讀媒體，其中該等操作進一步包含在將該虛擬聲音插入至該環境中之前產生該虛擬聲音。
如請求項45之非暫時性電腦可讀媒體，其中該等操作進一步包含：比較該一或多個聲學特性與一記憶體中之一或多個條目，每一條目與一不同虛擬聲音相關聯；及在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音。
如請求項45之非暫時性電腦可讀媒體，其中該特定部位之該使用者指示係自一可穿戴式感測器接收。
如請求項48之非暫時性電腦可讀媒體，其中該可穿戴式感測器經組態以穿戴於一使用者之手處。
如請求項45之非暫時性電腦可讀媒體，其中該等操作進一步包含：起始使用一或多個揚聲器來在該環境之不同部位處產生音訊信號；及使用一或多個麥克風來偵測每一音訊信號；其中基於由該一或多個揚聲器產生之偵測到的音訊信號而判定該一或多個部位處之該一或多個聲學特性。
如請求項50之非暫時性電腦可讀媒體，其中該一或多個揚聲器經進一步組態以穿戴於一使用者之手處。
一種用於輸出聲音的設備，該設備包含：用於判定一環境之一或多個部位處之一或多個聲學特性的構件；用於接收指示一特定物件之一使用者選擇的構件；用於接收一特定部位之一使用者指示的構件；用於基於該一或多個聲學特性而判定自該特定部位產生之一聲音之一或多個音訊屬性的構件；及用於將與該特定物件相關聯之一虛擬聲音插入至該環境中的構件，該虛擬聲音具有該一或多個音訊屬性。
如請求項52之設備，其進一步包含用於在將該虛擬聲音插入至該環境中之前產生該虛擬聲音之構件。
如請求項52之設備，其進一步包含：用於比較該一或多個聲學特性與一記憶體中之一或多個條目的構件，每一條目與一不同虛擬聲音相關聯；及用於在將該虛擬聲音插入至該環境中之前基於該比較而自一特定條目擷取該虛擬聲音之構件。
如請求項52之設備，其進一步包含用於偵測該特定部位、產生該特定部位之該使用者指示且將該特定部位之該使用者指示發送至用於接收該使用者指示之該構件的構件。
如請求項55之設備，其中用於偵測該特定部位之該構件經組態以穿戴於一使用者之手處。
如請求項52之設備，其進一步包含：用於在該環境之不同部位處產生音訊信號的構件；及用於偵測每一音訊信號之構件；其中基於由用於產生音訊信號之該構件產生之偵測到的音訊信號而判定該一或多個部位處之該一或多個聲學特性。
如請求項57之設備，其中用於產生該音訊信號之該構件經組態以穿戴於一使用者之手處。