TW202203207A

TW202203207A - 用於擴展現實共享空間的音訊控制

Info

Publication number: TW202203207A
Application number: TW110122087A
Authority: TW
Inventors: 羅伯特塔茨; 史考特貝斯; 梅拉德塔瓦科里; 葛哈德萊特麥爾
Original assignee: 美商高通公司
Priority date: 2020-07-09
Filing date: 2021-06-17
Publication date: 2022-01-16
Also published as: US20220303666A1; BR112022026763A2; KR20230035262A; US20220014839A1; CN115917640A; WO2022010628A1; EP4179526A1; US11399229B2

Abstract

提供用於音訊信號處理的方法、系統、電腦可讀取媒體和裝置。一些配置包括決定至少一個麥克風信號中的第一音訊活動是語音活動；決定語音活動是否是在設備上活動的應用通信期中的參與者的語音活動；至少基於決定語音活動是否是應用通信期中的參與者的語音活動的結果，來產生用於消除第一音訊活動的抗雜訊信號；及經由揚聲器來產生是基於抗雜訊信號的聲信號。對與共享的虛擬空間有關的應用進行描述。

Description

用於擴展現實共享空間的音訊控制

本案內容的各態樣係關於音訊信號處理。

以電腦為媒介的現實系統正在被開發以允許計算設備根據由使用者所體驗的來增強或增加、移除或減去、替代或替換或通常修改現有的現實。舉幾個實例，以電腦為媒介的現實系統可以包括虛擬實境（VR）系統、增強現實（AR）系統和混合現實（MR）系統等。以電腦為媒介的現實系統的感知的成功大體而言係關於以下此種系統的能力：在視訊和音訊兩者態樣提供現實沉浸式體驗，使得視訊和音訊體驗以由使用者認為是自然的和期望的方式來對準。儘管人類的視覺系統比人類的聽覺系統更敏感（例如，在場景內的各種物件的感知的定位態樣），確保足夠的聽覺體驗是確保現實沉浸式體驗的越來越重要的因素，特別是隨著視訊體驗得到改良以允許使得使用者能夠更好地辨識音訊內容的來源的對視訊物件的更好的定位。

在VR技術中，虛擬的資訊可以是使用頭戴式顯示器來呈現給使用者的，使得使用者可以在其眼前的螢幕上視覺地體驗人工的世界。在AR技術中，現實世界是經由可以疊加（例如，覆加）在現實世界中的實體物件上的視覺物件來增強的。增強可以在現實生活的環境中插入新的視覺物件及/或掩飾視覺物件。在MR技術中，在真實的或合成的/虛擬的與由使用者視覺地體驗的之間的界限正在變得難以辨別。

用於VR、AR及/或MR的硬體可以包括向使用者呈現視覺的場景的一或多個螢幕和用於提供相應的音訊環境的一或多個發出聲音的換能器（例如，揚聲器）。此種硬體亦可以包括用於擷取使用者的聲環境及/或使用者的講話的一或多個麥克風，及/或可以包括用於決定使用者的位置、方位及/或移動的一或多個感測器。

根據通用配置進行音訊信號處理的方法包括以下步驟：決定至少一個麥克風信號中的第一音訊活動是語音活動；決定語音活動是否是在設備上活動的應用通信期中的參與者的語音活動；至少基於決定該語音活動是否是應用通信期中的參與者的語音活動的結果，來產生用於消除第一音訊活動的抗雜訊信號；及經由揚聲器來產生是基於抗雜訊信號的聲信號。亦揭示包括當由至少一個處理器執行時使得至少一個處理器執行此種方法的代碼的電腦可讀取儲存媒體。

根據通用配置的裝置包括被配置為儲存至少一個麥克風信號的記憶體；及耦合到該記憶體的處理器。該處理器被配置為取得該至少一個麥克風信號以及執行用於以下操作的電腦可執行指令：決定該至少一個麥克風信號中的第一音訊活動是語音活動；決定該語音活動是否是在設備上活動的應用通信期中的參與者的語音活動；至少基於決定語音活動是否是應用通信期中的參與者的語音活動的結果，來產生用於消除第一音訊活動的抗雜訊信號；及使得揚聲器產生是基於抗雜訊信號的聲信號。

術語「擴展現實」（或者XR）是包括經由電腦技術和可穿戴設備來產生的真實與虛擬相結合的環境和人機互動，以及包括如增強現實（AR）、混合現實（MR）和虛擬實境（VR）的此種表現形式的通用術語。

XR體驗可以是經由在參與者的設備（例如，可穿戴設備，諸如本文中描述的實例中的一或多個實例）上執行的應用程式之中的互動來在多個參與者之中共享的。此種XR體驗可以包括共享空間，在該共享空間內，參與者可以彼此口頭地（以及可能視覺地）進行交流，好像該等參與者在空間上彼此接近，儘管該等參與者在現實世界中可能彼此遠離。在每個參與者的設備上，應用程式的活動通信期接收共享空間的音訊內容（以及可能是視覺內容）以及根據在共享空間內的參與者的視角（例如，聲音的到達的音量及/或方向、視覺元素的位置等）來將其呈現給參與者。可以是以此種方式來共享的XR體驗的實例包括遊戲體驗和視訊電話體驗（例如，虛擬的會議室或其他開會空間）。

XR共享空間中的參與者可能位於實體空間中，該實體空間是與不是XR共享空間中的參與者的人來共享的。XR共享空間（例如，共享的虛擬空間）中的參與者可能期望彼此口頭地進行交流，而未被可能在附近的非參與者的語音分散注意力。例如，參與者可能在咖啡店或共享的辦公室中；在機場或其他封閉的公共空間中；或者在飛機、公共汽車、火車或其他形式的公共交通工具上）。當出席者參與XR會議開會或玩家參與XR遊戲時，在附近的非參與者的語音可能會分散注意力。可以期望的是，經由篩選出非參與者的語音來減少此種注意力分散。此種篩選的一個方法是在每個參與者的耳朵處提供主動雜訊消除（ANC），以消除環境聲，包括非參與者語音。為了讓參與者能夠聽到彼此，麥克風可以用於擷取參與者的語音，以及無線傳輸可以用於在參與者之中共享所擷取的語音。

不加選擇地消除環境聲可能聽覺上將XR共享空間的參與者與其實際的環境隔離，然而此舉可能不是期望的。此種方法亦可能阻礙身體上彼此相距很近的參與者聽覺上聽到對方的語音，而不是僅僅電子地，此舉可能不是期望的。可能期望提供對非參與者語音的消除，而不消除所有環境聲及/或同時允許附近的參與者聽到彼此。可以期望為對於此種消除的例外做準備，諸如例如，當期望XR共享空間的參與者與非參與者交談時。

現在若干說明性的配置是相對於附圖描述的，其構成本文的部分。儘管下文描述了在其中可以實現本案內容的一或多個態樣的特定的配置，但是亦可以使用其他配置以及在未背離本案內容的範疇或所附申請專利範圍的精神的情況下進行各種修改。儘管本文中所論述的特定的實例主要關於遊戲應用程式，但是將理解的是，所揭示的原理、方法和裝置更通常地係關於共享的虛擬空間，在共享的虛擬空間中，參與者可以身體上是本端的及/或彼此相距遙遠，諸如在虛擬的會議室中的參加會議者、在博物館中或在城市街道上共享增強現實體驗的旅遊團的成員、在工廠裡的虛擬的培訓組的指導者和受訓者等，以及在此種上下文中對該等原理的使用是特別地預期的以及據此揭示的。

圖1A圖示根據包括任務T10、任務T20、任務T30和任務T40的通用配置的用於語音處理的方法M100的流程圖。任務T10決定至少一個麥克風信號中的第一音訊活動（例如，第一次或從第一方向偵測到的音訊活動）是語音活動。任務T20決定語音活動是否是在設備上活動的應用通信期中的參與者的語音活動。至少基於決定語音活動是否是應用通信期中的參與者的語音活動的結果，任務T30產生用於消除第一音訊活動的抗雜訊信號。任務T40經由揚聲器來產生基於抗雜訊信號的聲信號。

圖1B圖示根據通用配置的包括語音活動偵測器VAD10、ANC系統ANC10和音訊輸出級AO10的用於語音處理的裝置A100的方塊圖。裝置A100可以是被配置為執行用於存取XR共享空間的應用程式的設備（例如，如本文中描述的設備D10）的部分。語音活動偵測器VAD10決定在至少一個麥克風信號AS10中的音訊活動是語音活動（例如，基於信號AS10的包絡）。參與者決定邏輯PD10決定偵測到的語音活動是否是設備的使用者的語音活動（例如，基於音量水平及/或定向的聲音處理）。在一個實例中，參與者決定邏輯PD10經由將來自外部麥克風（例如，被指向為感測周圍的環境的麥克風）的信號的能量與來自內部麥克風（例如，被指向使用者的耳道處或在使用者的耳道內的麥克風）或骨傳導麥克風的信號的能量進行比較，來決定偵測到的語音活動是否是設備的使用者的語音活動（亦稱作「自身語音」）。至少基於經由參與者決定邏輯PD10進行的該決定，ANC系統ANC10（例如，經由反轉麥克風信號AS10的相位）產生用於消除語音活動的抗雜訊信號。音訊輸出級AO10驅動揚聲器產生基於抗雜訊信號的聲信號。裝置A100可以實現為要穿戴在使用者的頭上（例如，在使用者的一個或兩個耳朵處）的設備的部分。麥克風信號AS10可以是由位於使用者的耳朵附近的麥克風來提供的，以擷取環境聲音，以及揚聲器可以位於使用者的耳道處或在使用者的耳道內。

在如圖2所示的第一實例中，多個玩家正在圍桌而坐玩XR棋盤遊戲。玩家之每一者玩家（此處，玩家1、玩家2和玩家3）穿戴相應的設備D10-1、D10-2或D10-3，該相應的設備D10-1、D10-2或D10-3包括被指向穿戴者的耳道處或位於穿戴者的耳道內的至少一個外部麥克風和至少一個揚聲器。當不是玩家的其他人經過桌子時，一些玩家可能停下來觀看。非玩家無法感知整個的XR遊戲體驗，因為例如該等非玩家沒有頭戴式耳機。當非玩家經過時，該等非玩家可以互相交談。當非玩家說話時，設備D10-1、D10-2和D10-3中的各者偵測到語音活動以及執行主動雜訊消除（ANC）操作，以消除在相應的玩家的耳朵處的偵測到的語音活動。當非玩家停止說話時，ANC操作亦停止，以允許玩家聽到周圍的環境。設備的外部麥克風可能期望被安置在穿戴者的耳朵附近，以獲得更好的ANC效能。

設備D10-1、設備D10-2和設備D10-3中的各者可以實現為可聽設備或「可聽戴設備」（亦稱為「智慧頭戴式耳機」、「智慧聽筒」或「智慧耳機」）。被設計為穿戴在耳朵上或在耳朵中的此種設備正在變得越來越流行，以及已經用於多種用途，包括無線傳輸和健康追蹤。如圖3A所示，可聽戴設備的硬體架構通常包括用於將聲音重現到使用者的耳朵的揚聲器；用於感測使用者的語音及/或環境聲音的麥克風；和用於處理輸入以及與另一設備（例如，智慧手機）進行通訊的信號處理電路系統（包括一或多個處理器）。如本文中描述的應用通信期可以是在此種處理電路系統上及/或在其他設備上活動的。可聽戴設備亦可以包括一或多個感測器：例如，用於追蹤心率，用於追蹤身體活動（例如，身體運動），或用於偵測接近度。此種設備可以被實現為例如執行方法M100。

圖3B圖示作為要穿戴在使用者的右耳處的可聽戴設備的設備D10-1、設備D10-2或設備D10-3的實現方式D12R的圖片。此種設備D12R可以包括用於將設備縛牢在耳甲艇及/或耳朵的耳廓中的掛鉤或翼之中的任何一者；用於提供被動聲隔離的小耳塞；用於使用者控制的一或多個開關及/或觸摸感測器；一或多個另外的麥克風（例如，用於感測聲誤差信號）；及一或多個近距離感測器（例如，用於偵測設備正在被穿戴著）。例如，此種設備可以被實現為例如包括裝置A100。

圖4圖示作為XR頭戴式耳機的設備D10-1、設備D10-2或設備D10-3的實現方式D14的實例。除了高靈敏度麥克風、一或多個定向揚聲器和一或多個處理器之外，此種設備亦可以包括一或多個骨傳導換能器。此種設備可以包括一或多個眼球追蹤攝像頭（例如，用於目光偵測）、一或多個追蹤及/或記錄攝像頭及/或一或多個後置攝像頭。此種設備可以包括一或多個LED燈、一或多個「夜視」（例如，紅外線）感測器及/或一或多個環境光感測器。此種設備可以包括連接（例如，經由WiFi或蜂巢資料網路）及/或用於將視覺資訊光學地投影到設備的使用者的系統。為了支援沉浸式體驗，此種頭戴式耳機可以偵測使用者的頭部在三個自由度（3DOF）中的方位-頭部圍繞從上到下的軸的旋轉（偏航）、頭部在從前到後的平面中的傾斜（俯仰）以及頭部在側對側的平面中的傾斜（滾轉）-以及相應地調整所提供的音訊環境。如本文中描述的應用通信期可以在設備的處理器上是活動的。包括一或多個外部麥克風、一或多個揚聲器和一或多個處理器以及可以用於實現設備D10-1、設備D10-2或設備D10-3的頭戴式設備（HMD）的其他實例包括例如智慧眼鏡。

HMD可以包括用於更好的雜訊消除（例如，以允許要從多個位置偵測環境聲音）的多個麥克風。多個麥克風的陣列亦可以包括來自被配置用於無線通訊的多於一個設備的麥克風：例如，在HMD和智慧手機上；在HMD（例如，眼鏡）和可穿戴設備（例如，手錶、耳塞、健身追蹤器、智慧服裝、智慧珠寶等）上；在穿戴在參與者的左耳朵和右耳朵處的耳塞上等。另外地或替代地，來自位於靠近使用者的耳朵的HMD上的若干麥克風的信號可以用於估計使用者可能正在聽到的聲信號（例如，環境聲音與增強的聲音的比例，每個類型的傳入的聲音的品質），隨後酌情調整特定的頻率或平衡，以提高在環境聲音上的增強的聲音的可聽性（例如，增加在右側的遊戲聲音的低頻率，以補償偵測到的在右側開過的卡車的環境聲音的掩蔽效應）。

在如圖5所示的第二實例中，四個玩家正在圍桌而坐玩XR棋盤遊戲。玩家之每一者玩家（此處，玩家1、玩家2、玩家3和玩家4）穿戴相應的設備D20-1、設備D20-2、設備D20-3或設備D20-4（例如，如本文中描述的可聽戴設備、頭戴式耳機或其他HMD），該相應的設備D20-1、設備D20-2、設備D20-3或設備D20-4包括至少一個麥克風、至少一個揚聲器和無線收發機。當玩家中的一個玩家說話時（此處，玩家3），玩家的設備偵測到語音活動。該玩家的設備亦偵測到該玩家正在說話（例如，基於音量水平及/或定向的聲音處理），以及使用其無線收發機將該偵測以信號傳輸給其他玩家的設備（例如，經由聲音、光或無線電）。該信號被圖示為無線指示WL10。因為語音屬於玩家中的一個玩家，所以沒有ANC回應於偵測到的語音活動而被設備啟用。

該實例亦可以擴展到包括由遠端參與者在XR共享空間中進行的參與。圖6A圖示此種擴展，在其中兩個另外的玩家（玩家5和玩家6）亦正在從各自的遠端位置來參與。每個遠端玩家穿戴相應的設備D20-5或設備D20-6（例如，如本文中描述的可聽戴設備、頭戴式耳機或其他HMD），該相應的設備D20-5或設備D20-6包括至少一個麥克風、至少一個揚聲器和無線收發機。當六個玩家中的一個玩家說話時（此處，玩家3），附近的玩家的設備（若有的話）可以偵測到語音活動。該玩家的設備亦偵測到該玩家正在說話（例如，基於音量水平及/或定向的聲音處理），以及使用無線收發機將該偵測以信號傳輸給其他玩家的設備及/或將該玩家的語音傳輸給其他玩家的設備。例如，無線收發機可以經由聲音、光或無線電來將該偵測以信號傳輸給附近的玩家（若有的話），以及可以經由無線電來將該玩家的語音傳輸給不在附近的玩家（例如，經由諸如例如WiFi或蜂巢資料網路的區域網路或廣域網路）。因為語音屬於玩家中的一個玩家，所以沒有ANC回應於偵測到的語音活動而被設備啟用。

圖6B圖示類似的擴展，在其中三個出席者正在XR共享空間（例如，虛擬的會議室）中同時在共享的實體空間（例如，飛機、火車或其他模式的公共交通工具）中參與。在本實例中，出席者1的實體位置是口頭上遠離出席者2和出席者3的實體位置。對於在可能具有高水平的平穩的背景雜訊（例如，如在該實例中）的共享的實體空間中的使用，可以期望操作ANC系統ANC10，除了如本文中描述的對語音的選擇性的消除之外，以在消除平穩的雜訊的預設模式下操作。

圖6C圖示裝置A100的實現方式A200的方塊圖，裝置A100包括語音活動偵測器VAD10、參與者決定邏輯PD10的實現方式PD20、收發機TX10、ANC系統ANC10和音訊輸出級AO10。圖7A圖示裝置A200的實現方式A250的方塊圖，在其中參與者決定邏輯PD20的實現方式PD25包括自身語音偵測器SV10。若參與者決定邏輯PD20（例如，自身語音偵測器SV10）決定偵測到的語音活動是設備的使用者的語音活動（例如，如上文參照圖1B描述的），收發機TX10傳輸對該決定的指示，以及參與者決定邏輯PD20不啟用用於消除語音活動的ANC系統ANC10。類似地，回應於收發機TX10接收關於另一參與者正在說話的指示，參與者決定邏輯PD20不啟用用於消除語音活動的ANC系統ANC10。否則，參與者決定邏輯PD20啟用ANC系統ANC10以消除偵測到的語音活動。如上文描述的，收發機TX10亦可以被配置為傳輸參與者的語音（例如，經由無線電以及可能經由諸如例如WiFi或蜂巢資料網路的區域網路及/或廣域網路）。裝置A200可以被包括在例如如本文中描述的可聽戴設備、頭戴式耳機或其他HMD內。

圖7B圖示亦包括任務T50和任務T60的方法M100的實現方式M200的流程圖。任務T50決定在至少一個麥克風信號中的第二音訊活動（例如，與第一次不同的第二次偵測到的音訊活動，或被偵測為來自與第一方向不同的第二方向的音訊活動）是應用通信期中的參與者的語音活動（例如，玩家或設備的使用者的語音活動）。回應於至少決定第二音訊活動是應用通信期中的參與者的語音活動，任務T60決定不消除第二音訊活動。如本文中描述的可聽戴設備、頭戴式耳機或其他HMD可以被實現為執行方法M200。

圖8A圖示亦包括任務T50和任務T70的方法M100的實現方式M300的流程圖。回應於至少決定第二音訊活動是應用通信期中的參與者的語音活動，任務T70無線地傳輸關於參與者正在說話的指示。關於參與者正在說話的指示可以包括第二語音活動（例如，使用者的語音）。圖8B圖示方法M200和方法M300的實現方式M310的流程圖。

圖9A圖示亦包括任務T45、任務T55和任務T65的方法M100的實現方式M400的流程圖。任務T45決定在至少一個麥克風信號中的第二音訊活動是語音活動。從設備，任務T55無線地接收關於應用通信期中的參與者（例如，玩家或設備的使用者）正在說話的指示。回應於該指示，任務T55決定不消除第二音訊活動。

如上文描述的，參與者的設備（例如，自身語音偵測器SV10）可以被配置為基於例如音量水平及/或定向的聲音處理來偵測到參與者正在說話。另外地或替代地，參與者的語音可以是向參與者的自己的相應的設備（例如，作為存取控制安全措施）進行註冊的，使得該設備（例如，參與者決定邏輯PD20、任務T50）可以被實現為經由辨識參與者的聲音來偵測到該參與者正在說話。

在如圖10所示的第三實例中，四個玩家圍桌而坐正在玩XR棋盤遊戲。玩家之每一者玩家（此處，玩家1、玩家2、玩家3和玩家4）穿戴相應的設備D30-1、設備D30-2、設備D30-3或設備D30-4，該相應的設備D30-1、設備D30-2、設備D30-3或設備D30-4包括至少一個麥克風、至少一個揚聲器和無線收發機。在此種情況下，系統被配置為辨識玩家之每一者玩家的語音（使用例如用於說話者（語音）辨識的隱瑪律可夫模型（HMM）、高斯混合模型（GMM）、線性預測譯碼（LPC）及/或一或多個其他已知的方法）。例如，每個玩家可能已經向遊戲伺服器註冊其聲音（例如，經由在遊戲開始之前在註冊步驟中說話）。

當玩家中的一個玩家說話時，玩家的設備偵測語音活動，以及設備中的一或多個設備將語音活動傳輸給伺服器（例如，經由WiFi或蜂巢資料網路）。例如，設備可以被配置為在偵測到該設備的穿戴者正在說話之後將語音活動傳輸給伺服器（例如，基於音量水平及/或定向的聲音處理）。該傳輸可以包括擷取的聲音，或者替代地該傳輸可以包括從擷取的聲音提取的辨識參數的值。回應於傳輸的語音活動，伺服器將關於語音活動被辨識為玩家的講話（例如，語音活動與已經向遊戲註冊的語音中的一個語音相匹配）的指示無線地傳輸給設備。因為語音屬於玩家中的一個玩家，所以沒有ANC回應於偵測到的語音活動來被設備啟用。

作為由伺服器進行的說話者辨識的替代方式，設備中的一或多個設備可以被配置為在本端執行說話者辨識，以及將對說話者辨識的相應的指示無線地傳輸給未執行說話者辨識的任何其他玩家的設備。例如，設備可以在偵測到該設備的穿戴者正在說話之後執行說話者辨識（例如，基於音量水平及/或定向的聲音處理），以及在辨識出語音活動是註冊的玩家的講話之後將指示無線地傳輸給其他設備。在本事件中，因為聲音屬於玩家中的一個玩家，所以沒有ANC回應於偵測到的語音活動來被設備啟用。

當身體上在場的玩家說話時，VAD被觸發以及該等身體上在場的玩家的語音與向遊戲註冊的語音相匹配，允許其他註冊的使用者（本端的和遠端的兩者）聽到該等身體上在場的玩家的聲音。當遠端的玩家說話時，VAD再次被觸發以及被匹配，所以註冊的使用者可以聽到，以及該遠端的玩家的語音是經由其他玩家的設備來播放的。當非玩家說話時，因為偵測到的語音活動不是任何玩家的講話，所以不將其傳輸給遠端的玩家。

對於在其中辨識玩家的語音的實現方式，可能發生非玩家想要看到以及聽到遊戲中正在發生著什麼。在此種情況下，對於非玩家而言拿起另一頭戴式耳機，戴上該另一頭戴式耳機，則現在查看遊戲中正在發生著什麼，此舉可以是可能的。但是當非玩家與在該非玩家旁邊的人談話時，註冊的玩家聽不到談話，因為非玩家的語音未向應用程式（例如，遊戲）註冊。因為非玩家的語音是無法被設備及/或被遊戲伺服器辨識出的，所以回應於偵測到非玩家的語音活動，玩家的設備繼續啟用ANC以消除該語音活動。

另外地或替代地，該系統可以被配置為辨識參與者之每一者參與者的臉以及使用該資訊來將由參與者進行的講話與由非參與者進行的講話區分開。例如，每個玩家可能已經向遊戲伺服器（例如，經由在遊戲開始之前在註冊步驟中提交自己照片）註冊其臉，以及每個設備（例如，參與者決定邏輯PD20、任務T50）可以被實現為辨識每個其他玩家的臉（例如，使用特徵臉、HMM、費舍臉（Fisherface）演算法及/或一或多個其他已知的方法）。相同的註冊程序可以應用於其他用途，諸如會議伺服器。每個設備可以被配置為拒絕來自在其中沒有辨識出的參與者在場的方向的語音活動及/或拒絕來自未辨識出的偵測到的臉的語音活動。

圖9B圖示包括參與者決定邏輯PD20的實現方式PD30的裝置A200的實現方式A300的方塊圖，參與者決定邏輯PD20的實現方式PD30包括說話者辨識器SR10。參與者決定邏輯PD30決定至少一個麥克風信號AS10中的音訊活動是語音活動，以及決定偵測到的語音活動是否是設備的使用者的語音活動（例如，基於音量水平及/或定向的聲音處理）。若參與者決定邏輯PD30決定使用者正在說話，則說話者辨識器SR10決定偵測到的語音活動是否被辨識為註冊的說話者的講話（例如，經由如本文中描述的語音辨識及/或臉部辨識）。若說話者辨識器SR10決定匹配，則收發機TX10傳輸對該決定的指示，以及語音活動偵測器VAD20不啟用ANC系統ANC10。類似地，回應於收發機TX10接收關於另一玩家正在說話的指示，參與者決定邏輯PD30不啟用ANC系統ANC10。否則，參與者決定邏輯PD30啟用ANC系統ANC10以消除偵測到的語音活動。如上文描述的，收發機TX10亦可以被配置為傳輸參與者的語音（例如，經由無線電以及可能經由諸如例如WiFi或蜂巢資料網路的區域網路及/或廣域網路）。裝置A300可以被包括在例如如本文中描述的可聽戴設備、頭戴式耳機或其他HMD內。

上文描述的用例中的任何用例可以被實現為在同時發生的由參與者進行的講話與由非參與者進行的講話之間進行區分。例如，參與者的設備可以被實現為包括兩個或更多個麥克風的陣列，以允許來自多個源的傳入的聲信號要被區分開，以及根據到達的方向來分別地被接受或被消除（例如，經由使用波束成形和零波束成形來導引和引導波束和零）。

設備及/或應用程式亦可以被配置為允許使用者選擇要聽到何者語音及/或要阻止何者語音。例如，使用者可以手動地選擇阻止一或多個選擇的參與者，或僅聽到一或多個參與者，或阻止所有參與者。此種配置可以是在設備的設置中及/或在應用程式的設置（例如，團隊配置）中提供的。

應用通信期可以具有如上文描述的預設上下文，在其中非參與者的語音是使用ANC來阻止的，但是參與者的語音不被阻止。可能期望亦為應用通信期的其他上下文做準備。例如，可能期望為在其中一或多個參與者語音亦可以使用ANC來被阻止的上下文做準備。此種上下文的若干實例（其可能是在應用程式的通信期設置中指示的）是下文描述的。

在一些上下文中，參與者的語音可以被禁用。參與者可能期望在短時間內暫時離開XR共享空間，使得將會被阻止的一或多個外部聲音現在對於參與者而言是可以聽到的。在此種場合下，要不是對於仍然停留在XR共享空間中的參與者而言非參與者的語音繼續被阻止的話，可能期望的是，對於參與者而言能夠聽到非參與者的語音。例如，玩家可能期望能夠與非玩家進行談話（例如，如圖11所示），而不打擾其他玩家。可能期望的是，在談話期間以及對於其他玩家而言，在談話的玩家的語音（在本實例中，玩家3）以及非玩家的語音被阻止。

用於在操作模式之間切換的一個方法是要對至少一個麥克風信號實現關鍵字偵測。在本方法中，玩家說出關鍵字或關鍵短語（例如，「暫停」、「讓我聽」）以離開共享空間模式以及進入暫時離開模式，以及玩家說出相應的不同的關鍵字或關鍵短語（例如，「遊戲」、「恢復」、「安靜」）以離開暫時離開模式以及重新進入共享空間模式。在一個此種實例中，語音活動偵測器VAD10被實現為包括關鍵字偵測器，該關鍵字偵測器被配置為偵測指定的關鍵字或關鍵短語以及根據相應的指示的模式來控制ANC操作。當指示暫時離開模式時，關鍵字偵測器可以使得參與者決定邏輯PD10防止揚聲器產生聲ANC信號（例如，經由回應於語音活動偵測來阻止對ANC系統的啟用，或經由其他方式來禁用ANC系統）。（亦可能期望的是，在暫時離開模式期間，參與者的設備降低與XR共享空間相關的音訊的音量水平，諸如遊戲聲音及/或遠端參與者的語音。）當指示共享空間模式時，關鍵字偵測器可以使得參與者決定邏輯PD10使揚聲器能夠產生聲ANC信號（例如，經由回應於語音活動偵測來允許對ANC系統的啟用，或經由其他方式重新啟用ANC系統）。關鍵字偵測器亦可以被實現為使得參與者決定邏輯PD10將對設備的操作模式中的改變的指示傳輸給其他玩家的設備（例如，經由收發機TX10），以便其他玩家的設備可以根據由玩家的設備指示的操作模式來允許或阻止由玩家進行的語音活動。

用於在操作模式之間切換的另一方法是要回應於使用者移動（例如，身體位置的改變）來實現對操作模式的改變。對於圍繞遊戲台而坐成一圈的玩家，例如，玩家可以經由移動或將身體探出由玩家共享的圓圈，來從遊戲模式切換到暫時離開模式，以及可以經由移動回圓圈中來離開暫時離開模式以及重新進入遊戲模式（例如，允許VAD/ANC恢復）。在一個實例中，玩家的設備包括藍芽模組（或與此種模組相關聯，諸如在玩家的智慧手機中），該藍芽模組被配置為指示對亦包括藍芽模組（或與其相關聯）的附近的玩家的設備的接近度的量測。該玩家的設備亦可以被實現為將對設備的操作模式的改變的指示傳輸給其他玩家的設備（例如，經由收發機TX10），以便其他玩家的設備可以根據由該玩家的設備指示的操作模式來允許或阻止由該玩家進行的語音活動。

在另一實例中，參與者的設備包括慣性量測單元（IMU），該IMU可以包括一或多個加速度計、陀螺儀及/或磁力計。此種單元可以用來追蹤使用者的頭部相對於例如對應於共享的虛擬空間的方向的方位上的改變。對於如在圖11中的場景，例如，玩家的設備的IMU可以被實現為追蹤玩家的頭部相對於遊戲台的中心的方位，以當差超過第一閾值角度（例如，加上或減去一百度）時指示改變到暫時離開模式，以及當差降低到第二閾值角度以下（例如，加上或減去八十度）時指示返回到遊戲模式。對於如在圖6A中的遠端玩家場景，對應於共享的虛擬空間的方向亦可以分配給每個遠端玩家或是由每個遠端玩家來選擇的，使得遠端玩家可以經由以類似的方式轉過臉不面對遊戲方向來從遊戲模式切換到暫時離開模式。參與者的設備亦可以被實現為將對設備的操作模式中的改變的指示傳輸給其他參與者的設備（例如，經由收發機TX10），以便其他參與者的設備可以根據由該參與者的設備指示的操作模式來允許或阻止由該參與者進行的語音活動。

為了支援沉浸式XR體驗，可能期望的是，IMU偵測在三個自由度（3DOF）中或在六個自由度（6DOF）中的運動。如圖12所示，6DOF包括3DOF的三個旋轉運動（偏航、俯仰和滾轉），以及亦有三個平移運動：向前/向後（浪湧）、向上/向下（升沉），以及向左/向右（搖擺）。

用於在操作模式之間切換的進一步的方法是基於來自經由攝像頭擷取的視訊的資訊（例如，玩家的設備的前置攝像頭）。在一個實例中，參與者的設備被實現為從經由攝像頭（例如，設備的攝像頭）擷取的視訊來決定正在說話的人的身份及/或相對的方向。在視訊擷取中偵測到的臉可以經由在語音活動與臉的運動（例如，嘴部運動，諸如嘴唇的運動）之間的時間及/或方向上的相關性來與偵測到的語音活動相關聯。如上文描述的，系統可以被配置為辨識參與者之每一者參與者的面孔以及使用該資訊來將由參與者進行的講話與由非參與者進行的講話區分開。

設備可以配置為對來自面向與使用者相同的方向的攝像頭的視訊進行分析，以及從正在說話的人的目光方向來決定此人是否正在與使用者說話。圖13圖示來自玩家3的設備的前置攝像頭的視訊的實例。玩家1和玩家2是在攝像頭的視野範圍內，以及該玩家的視訊亦包括在共享的虛擬空間內的指定位置處的遠端玩家4的替身。在本實例中，該玩家正在看著正在說話的非玩家的方向，該正在說話的非玩家的目光朝著玩家。（該玩家的設備亦可以被配置為決定該玩家的目光朝著正在說話的非玩家。）該玩家的設備可以被配置為回應於該目光偵測來從遊戲模式切換到暫時離開模式，從而允許該玩家聽到非玩家。該玩家的設備亦可以被配置為將對模式改變的指示傳輸給其他玩家的設備，以便儘管該玩家正在對非玩家說話，但是該玩家的語音是對於該等其他玩家而言是經由ANC消除的，以及是被遠端玩家阻止的（及/或是不傳輸給遠端玩家）。

玩家的設備可以被配置為回應於玩家回頭看向遊戲或看另一玩家，或回應於關於不再偵測到正在說話的非玩家的目光，來從暫時離開模式切換回遊戲模式。玩家的設備亦可以被配置為將對模式改變的指示傳輸給其他玩家的設備，以便該玩家的語音不再被消除。

圖14圖示來自玩家3的設備的前置攝像頭的視訊的實例，該視訊可以用來將來自正在說話的非玩家1的方向的講話與來自正在說話的非玩家3的方向的講話區分開，正在說話的非玩家1的目光朝著該玩家，正在說話的非玩家3的目光未朝著該玩家。該設備可以被實現為執行定向的音訊處理（例如，波束成形、零波束成形），以允許使用者與非玩家1進行談話，同時減弱非玩家3的講話。

可能期望實現如本文中描述的模式改變偵測（例如，經由如上文描述的關鍵字偵測、使用者運動偵測，及/或目光偵測）以包括滯後及/或時間訊窗。在指示從一個模式到另一模式的改變之前，例如，可能期望確認模式改變條件在某個時間間隔（例如，半秒、一秒或兩秒）內持續。另外地或替代地，可能期望的是，與用於指示返回到遊戲模式相比，使用較高的模式改變閾值（例如，在使用者方位參數上，諸如在使用者的面對的方向與共享的虛擬空間的中心之間的角度）用於指示從遊戲模式退出。為了確保穩健的操作，模式改變偵測可以被實現為要求兩個或更多個觸發條件（例如，關鍵字、使用者運動、辨識出的非玩家臉等）的同時發生以改變模式。

圖15A圖示亦包括任務T80、任務T90、任務T100和任務T110的方法M100的實現方式M500的流程圖。任務T80偵測模式改變條件（例如，經由如上文描述的關鍵字偵測、使用者運動偵測及/或目光偵測）。回應於偵測模式改變條件，任務T90無線地傳輸對模式改變的指示。任務T100決定至少一個麥克風信號中的第三音訊活動是語音活動。回應於偵測模式改變條件，任務T110決定不消除第三音訊活動（例如，經由不執行用於消除第三音訊活動的ANC操作）。方法M500亦可以實現為方法M200、方法M300或方法M400中的任何方法的實現方式。

圖15B圖示亦包括任務T120、任務T130、任務T140和任務T150的方法M100的實現方式M600的流程圖。從設備，任務T120無線地接收對模式改變的指示。任務T130決定至少一個麥克風信號中的第三音訊活動是由使用者進行的語音活動。回應於對模式改變的指示，任務T140產生用於消除第三音訊活動的第三抗雜訊信號。經由揚聲器，任務T150產生是基於第三抗雜訊信號的聲信號。方法M600亦可以實現為方法M200、方法M300或方法M400中的任何方法的實現方式。

在傳統的遊戲玩法中，隊友沒有辦法秘密地共享資訊，除非彼此靠近以及耳語。可能期望支援在其中兩個或更多個隊友（例如，無論是附近的還是遠端的）可以私下地論述虛擬的策略而不會被對方的團隊的成員偷聽的操作模式。例如，可能期望在AR遊戲環境內使用臉部辨識和ANC來支援團隊隱私及/或增強團隊發聲（例如，經由將隊友的耳語放大到玩家的耳朵）。此種模式亦可以擴展，以便隊友可以私下地共享虛擬的策略計畫，而對方的團隊的成員不能夠看到該等計畫。（相同的實例可以應用於例如在如本文中描述的另一XR共享空間體驗期間的子群組的成員，諸如在更大的委員會的虛擬的會議期間的小組委員會的成員。）

圖16圖示在其中玩家3正在面對隊友玩家1和非隊友玩家2，同時另一非隊友玩家4在附近的實例。在另一實例中，在同一團隊的兩個玩家可能均戴著耳機以及坐在遊戲台的同一側，但是彼此不是真的靠近。玩家中的一個玩家在看隊友，此舉觸發臉部辨識（例如，經由目光偵測）。在圖16的實例中，玩家1的目光朝著玩家3。回應於觸發器，系統經由臉辨識（基於例如先前的臉部註冊步驟）來決定玩家1和玩家3是隊友，此舉完成了對模式改變條件到團隊隱私模式的偵測。例如，玩家1的設備可以將玩家3的臉辨識為隊友，反之亦然。如圖17所示，甚至可以為僅虛擬地在場的遠端隊友實現此種團隊隱私模式。

回應於模式改變條件，系統將對設備的操作模式的改變中的指示傳輸給其他玩家的設備。例如，在此種情況下，玩家1的設備及/或玩家3的設備可以被實現為回應於模式改變條件來將對設備的操作模式中的改變的指示傳輸給其他玩家的設備（例如，經由收發機TX10）。回應於模式改變指示，非隊友的設備根據指示的操作模式來阻止由玩家1和玩家3（以及可能由被辨識為其隊友的其他玩家）進行的語音活動。一個隊友現在可以私下地論述（或者甚至耳語）以及在視覺上與其他隊友共享策略計畫/資料，而對方的團隊不會聽到/看到該隊友和其他隊友，此情形是因為對方的團隊成員的設備啟用ANC以消除語音活動。在隊友的設備之中，模式改變指示可以使得設備放大隊友語音活動（例如，以放大隊友耳語）。將視線從隊友身上移開恢復正常的遊戲操作，在其中所有玩家發聲可以被所有玩家聽到。在相關的上下文中，特定的參與者（例如，教練）的語音是僅對一或多個選擇的其他參與者而言聽得見的，以及對於其他參與者而言是被阻止的。

XR共享空間不需要是開放的空間，諸如會議室。例如，其可以包括虛擬的牆壁或其他虛擬的聲屏障，若其是真實的則其將會減少防止一個參與者聽到另一參與者。在此種例子中，該應用程式可以被配置為追蹤參與者的運動（例如，使用來自IMU（慣性量測單元）和同步映射和定位（SLAM）演算法的資料），以及相應地更新參與者在XR共享空間內的位置。該應用程式可以進一步被配置為根據XR共享空間的特徵（諸如將會阻止或以其他方式修改聲音的結構或表面（例如，消音器、引起混響等）（若客觀存在的話））來修改參與者的音訊體驗。

圖18圖示可以是在如本文中描述的設備（例如，設備D10-1、設備D20-2或設備D30-1）內實現的系統900的方塊圖。系統900可以被實現為包括如本文中描述的裝置（例如，裝置A100、裝置A200、裝置A250、裝置A300）的實現方式及/或執行如本文中描述的方法（例如，方法M100、方法M200、方法M300、方法M310、方法M400、方法M500、方法M600）的實現方式。系統900包括可以被配置為例如執行如本文中描述的方法的處理器402（例如，一或多個處理器）。系統900亦包括耦合到處理器402的記憶體120、感測器110（例如，設備800的環境光感測器、方位及/或追蹤感測器）、視覺感測器130（例如，紅外線（IR）感測器、追蹤和記錄攝像頭、眼球追蹤攝像頭和設備800的後置攝像頭）、顯示設備100（例如，設備的光學/投影）、音訊擷取設備112（例如，設備的高靈敏度麥克風）、揚聲器470（例如，設備的耳機、設備的定向的揚聲器）、一或多個收發機480和一或多個天線490。

除非經由其上下文來明確地限制，術語「信號」在本文中用於指示其通常含義中的任何通常含義，包括如在電線、匯流排或其他傳輸媒體上表示的記憶體位置（或記憶體位置的集合）的狀態。除非經由其上下文來明確地限制，否則術語「產生」在本文中用於指示其通常含義中的任何通常含義，諸如計算或以其他方式產生。除非經由上下文來明確地限制，術語「計算」在本文中用於指示其通常含義中的任何通常含義，諸如計算、評估、估計及/或從複數個值中選擇。除非經由其上下文來明確地限制，否則術語「獲得」用於指示其通常含義中的任何通常含義，諸如計算、推導、（例如，從外部設備）接收及/或（例如，從儲存元件的陣列）取得。除非經由其上下文來明確地限制，否則術語「選擇」用於指示其通常含義中的任何通常含義，諸如標識、指示、應用及/或使用兩個或更多個的集合中的至少一個和不到所有。除非經由上下文來明確地限制，否則術語「決定」用於指示其通常含義中的任何通常含義，諸如決定、建立、推斷、計算、選擇及/或評價。在本說明書和申請專利範圍中使用術語「包括」的地方，不排除其他元素或操作。術語「基於」（如在「A是基於B」中）用於指示其通常含義中的任何通常含義，包括情況（i）「源自」（例如，「B的A的前身」），（ii）「至少基於」（例如，「A是至少基於B」）以及，若在特定的上下文中適當的話，（iii）「等於」（例如，「A等於B」）。類似地，術語「回應於」用於指示其通常含義中的任何通常含義，包括「回應於至少」。除非另有指示，否則「A、B和C中的至少一者」、「A、B和C中的一者或多者」、「A、B和C之中的至少一者」和「A、B和C之中的一者或多者」指示「A及/或B及/或C」。除非另有指示，否則術語「A、B和C中的各者」和「A、B和C之中的各者」指示「A和B和C。」

除非以其他方式指示，否則具有特定的特徵的裝置的操作的任何揭示內容亦明確地意欲揭示具有類似的特徵的方法（反之亦然），以及根據特定的配置的裝置的操作的任何揭示內容亦明確地意欲揭示根據類似的配置的方法（反之亦然）。術語「配置」可以是參考如經由其特定的上下文指示的方法、裝置及/或系統使用的。術語「方法」、「過程」、「程序」和「技術」是通用地和可交換地使用的，除非經由特定的上下文另有指示。具有多個子任務的「任務」亦是方法。術語「裝置」和「設備」亦可以是通用地和可交換地使用的，除非經由特定的上下文另有指示。術語「元素」和「模組」通常用於指示更大的配置的一部分。除非經由其上下文明確地限制，否則術語「系統」在本文中用於指示其通常含義中的任何通常含義，包括「相互作用以為共同的目的服務的一組元素」。

除非經由定冠詞最初引入，否則用於修改請求項元素的序數術語（例如，「第一」、「第二」、「第三」等）本身不指示該請求項元素相對於另一請求項元素的任何優先順序或順序，而是僅僅將請求項元素與（要不是使用序數術語的話）具有相同的名稱的另一請求項元素區分開。除非經由其上下文來明確地限制，否則術語「複數個」和「集合」中的各者在本文中用於指示大於一的整型量。

如本文中所揭示的裝置或系統的實現方式的各種元件可以體現在被認為適合於預期的應用的硬體與軟體及/或與韌體的任何組合中。例如，此種元件可以製造為位於例如同一晶片上或晶片組中的兩個或更多個晶片之中的電子元件及/或光學元件。此種元件的一個實例是固定的或可程式設計的邏輯元件的陣列，諸如電晶體或邏輯閘，以及該等元件中的任何元件可以實現為一或多個此種陣列。該等元件中的任何兩個或更多個、甚至所有元件可以是在相同的一個陣列或多個陣列內實現的。此種一個陣列或多個陣列可以是在一或多個晶片內（例如，在包括兩個或更多個晶片的晶片組內）實現的。

如本文中所揭示的處理器或用於處理的其他構件可以製造為位於例如同一晶片上或晶片組中的兩個或更多個晶片之中的一或多個電子元件及/或光學元件。此種元件的一個實例是固定的或可程式設計的邏輯元件的陣列，諸如電晶體或邏輯閘，以及該等元件中的任何元件可以實現為一或多個此種陣列。此種一個陣列或多個陣列可以是在一或多個晶片內（例如，在包括兩個或更多個晶片的晶片組內）實現的。此種陣列的實例包括固定或可程式設計的邏輯元件的陣列，諸如微處理器、嵌入式處理器、IP核、DSP（數位信號處理器）、FPGA（現場可程式設計閘陣列）、ASSP（專用標準產品）和ASIC（特殊應用積體電路）。如本文中所揭示的處理器或用於處理的其他構件亦可以體現為一或多個電腦（例如，包括被程式設計以執行一或多個指令集合或指令序列的一或多個陣列的機器）或其他處理器。如本文中描述的處理器有可能用於執行任務或執行與方法M100（或如參照本文中描述的裝置或系統的操作所揭示的另一方法）的實現方式的程序沒有直接地有關的其他指令集合，諸如與在其中嵌入處理器的設備或系統的另一操作有關的任務（例如，語音通訊設備，諸如智慧手機或智慧揚聲器）。如本文中揭示的方法的部分亦可能是在一或多個其他處理器的控制之下執行的。

本文中所揭示的方法的任務之每一者任務可以是直接地體現在硬體中、在由處理器執行的軟體模組中，或在該兩者的組合中的。在如本文中所揭示的方法的實現方式的典型的應用中，邏輯元件（例如，邏輯閘）的陣列被配置為執行該方法的各種任務中的一個、多於一個，或甚至所有任務。任務中的一或多個（可能所有）任務亦可以實現為是由包括邏輯元件（例如，處理器、微處理器、微控制器或其他有限狀態機）的陣列的機器（例如，電腦）可讀取的及/或可執行的、體現在電腦程式產品（例如，諸如磁碟、快閃記憶體或其他非揮發性記憶體卡、半導體記憶體晶片等的一或多個資料儲存媒體）中的代碼（例如，一或多個指令集合）。如本文中所揭示的方法的實現方式的任務亦可以是由多於一個此種陣列或機器來執行的。在該等或其他實現方式中，任務可以是在用於無線通訊的諸如蜂巢式電話的設備或具有此種通訊能力的其他設備內執行的。此種設備可以被配置為（例如，使用諸如VoIP的一或多個協定）與電路交換的及/或封包交換的網路進行通訊。例如，此種設備可以包括被配置為接收及/或傳輸經編碼的訊框的RF電路系統。

在一或多個示例性實施例中，本文中描述的操作可以是在硬體、軟體、韌體，或其任何組合中來實現的。若是在軟體中實現的，則此種操作可以作為一或多個指令或代碼儲存在電腦可讀取媒體上或在其上傳輸。術語「電腦可讀取媒體」包括電腦可讀取儲存媒體和通訊（例如，傳輸）媒體兩者。經由實例而非限制的方式，電腦可讀取儲存媒體可以包括儲存元素的陣列，諸如半導體記憶體（其可以包括但不限於動態或靜態RAM、ROM、EEPROM及/或快閃RAM），或鐵電記憶體、磁阻記憶體、雙向記憶體、聚合記憶體或相變記憶體；CD-ROM或其他光碟儲存；及/或磁碟儲存或其他磁性儲存設備。此種儲存媒體可以以指令或資料結構的形式儲存可以由電腦存取的資訊。通訊媒體可以包括可以用於以指令或資料結構的形式攜帶期望的程式碼並且可以由電腦存取的任何媒體，包括促進電腦程式從一個地方轉移到另一個地方的傳送的任何媒體。此外，任何連接適當地稱為電腦可讀取媒體。例如，若軟體是使用同軸電纜、光纖電纜、雙絞線、數位用戶線路（DSL），或諸如紅外線、無線電及/或微波的無線技術來從網站、伺服器，或其他遠端源傳輸的，則該同軸電纜、光纖電纜、雙絞線、DSL，或諸如紅外線、無線電及/或微波的無線技術是包括在媒體的定義中的。磁碟和光碟，如本文中使用的，包括壓縮光碟（CD）、鐳射光碟、光碟、數位多功能光碟（DVD）、軟碟和藍光光碟^TM （藍光光碟協會，尤尼弗薩爾城，加利福尼亞州），其中磁碟通常磁性地複製資料，而光碟則利用鐳射來光學地複製資料。上述的組合亦應當被包括在電腦可讀取媒體的範疇內。

在一個實例中，非暫時性電腦可讀取儲存媒體包括當由至少一個處理器執行時使得至少一個處理器執行如本文中描述的音訊信號處理的方法的代碼。

提供前面的描述以使得熟習此項技術者能夠進行或使用所揭示的實現方式。對該等實現方式的各種修改對於熟習此項技術者而言將是顯而易見的，以及在未背離本案內容的範疇的情況下，本文中所定義的一般原理可以應用於其他實現方式。因此，本案內容不意欲受限於本文中所展示的實現方式，而是符合可能與如經由所附請求項限定的原理和新穎的特徵相一致的最寬的範疇。

100:顯示設備 110:感測器 112:音訊擷取設備 120:記憶體 130:視覺感測器 402:處理器 470:揚聲器 480:收發機 490:天線 900:系統 A100:裝置 A200:裝置 A250:裝置 A300:裝置 ANC10:ANC系統 AO10:音訊輸出級 AS10:麥克風信號 D10-1:設備 D10-2:設備 D10-3:設備 D12R:設備 D14:實現方式 D20-1:設備 D20-2:設備 D20-3:設備 D20-4:設備 D20-5:設備 D20-6:設備 D30-1:設備 D30-2:設備 D30-3:設備 D30-4:設備 M100:方法 M200:方法 M300:方法 M310:方法 M400:方法 M500:方法 M600:方法 PD10:參與者決定邏輯 PD20:參與者決定邏輯 PD25:實現方式 PD30:參與者決定邏輯 SR10:說話者辨識器 SV10:自身語音偵測器 T10:任務 T100:任務 T110:任務 T120:任務 T130:任務 T140:任務 T150:任務 T20:任務 T30:任務 T40:任務 T45:任務 T50:任務 T55:任務 T60:任務 T65:任務 T70:任務 T80:任務 T90:任務 TX10:收發機 VAD10:語音活動偵測器 WL10:無線指示

本案內容的各態樣是經由實例來說明的。在附圖中，類似的元件符號指示類似的元素。

圖1A圖示根據通用配置的用於語音處理的方法M100的流程圖。

圖1B圖示根據通用配置的用於語音處理的裝置A100的方塊圖。

圖2圖示圍桌而坐正在玩XR棋盤遊戲的多個玩家的實例。

圖3A圖示可聽戴設備的硬體架構的實例的方塊圖。

圖3B圖示作為可聽戴設備的設備D10-1、設備D10-2或設備D10-3的實現方式D12R的圖片。

圖4圖示作為XR頭戴式耳機的設備D10-1、設備D10-2或設備D10-3的實現方式D14的實例。

圖5圖示圍桌而坐正在玩XR棋盤遊戲的四個玩家的實例。

圖6A圖示圖5中的實例的延伸，在其中兩個另外的參與者亦從各自的遠端位置來參與。

圖6B圖示當在共享的實體空間中時參與視訊電話應用程式的三個人的實例。

圖6C圖示裝置A100的實現方式A200的方塊圖。

圖7A圖示裝置A200的實現方式A250的方塊圖。

圖7B圖示方法M100的實現方式M200的流程圖。

圖8A圖示方法M100的實現方式M300的流程圖。

圖8B圖示方法M200和M300的實現方式M310的流程圖。

圖9A圖示方法M100的實現方式M400的流程圖。

圖9B圖示裝置A200的實現方式A300的方塊圖。

圖10圖示在其中四個玩家是圍桌而坐正在玩XR棋盤遊戲的實例。

圖11圖示玩家與非玩家進行談話的實例。

圖12圖示經由6DOF來指示的六度。

圖13圖示來自玩家的設備的前置攝像頭的視訊的實例。

圖14圖示來自玩家的設備的前置攝像頭的視訊的另一實例。

圖15A圖示方法M100的實現方式M500的流程圖。

圖15B圖示方法M100的實現方式M600的流程圖。

圖16圖示在其中在另一非隊友玩家在附近的情況下，玩家正在面對隊友玩家和非隊友玩家的實例。

圖17圖示在其中在共享的虛擬空間中玩家正在面對虛擬地在場的隊友玩家的實例。

圖18圖示可以是在如本文中描述的設備內實現的系統900的方塊圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

A200:裝置

ANC10:ANC系統

AO10:音訊輸出級

AS10:麥克風信號

PD20:參與者決定邏輯

TX10:收發機

VAD10:語音活動偵測器

Claims

一種用於音訊信號處理的裝置，該裝置包括：一記憶體，其被配置為儲存至少一個麥克風信號；及一處理器，其耦合到該記憶體，並且被配置為取得該至少一個麥克風信號以及執行用於進行以下操作的電腦可執行指令：決定在該至少一個麥克風信號中的第一音訊活動是語音活動；決定該語音活動是否是在一設備上活動的一應用通信期中的一參與者的語音活動；至少基於該決定該語音活動是否是一應用通信期中的一參與者的語音活動的一結果，來產生用於消除該第一音訊活動的一抗雜訊信號；及使得一揚聲器產生是基於該抗雜訊信號的一聲信號。
根據請求項1之裝置，其中該處理器亦被配置為執行用於進行以下操作的電腦可執行指令：決定該至少一個麥克風信號中的第二音訊活動是該應用通信期中的一參與者的語音活動；及回應於至少該關於該第二音訊活動是該應用通信期中的一參與者的語音活動的決定，來決定不消除該第二音訊活動。
根據請求項1之裝置，其中該處理器亦被配置為執行用於進行以下操作的電腦可執行指令：決定該至少一個麥克風信號中的第二音訊活動是該應用通信期中的一參與者的語音活動；及回應於至少該關於該第二音訊活動是該應用通信期中的一參與者的語音活動的決定，來引起對關於該應用通信期中的一參與者正在說話的一指示的無線傳輸。
根據請求項3之裝置，其中該處理器亦被配置為執行用於回應於至少該關於該第二音訊活動是該應用通信期中的一參與者的語音活動的決定，來決定不消除該第二音訊活動的電腦可執行指令。
根據請求項1之裝置，其中該處理器亦被配置為執行用於進行以下操作的電腦可執行指令：決定該至少一個麥克風信號中的第二音訊活動是語音活動；接收關於該應用通信期中的一參與者正在說話的一無線指示；及回應於該指示來決定不消除該第二音訊活動。
根據請求項1之裝置，其中該處理器亦被配置為執行用於進行以下操作的電腦可執行指令：決定該至少一個麥克風信號中的第三音訊活動是語音活動；偵測一模式改變條件；回應於所偵測到的該模式改變條件，來引起對一模式改變的一指示的無線傳輸；及回應於所偵測到的該模式改變條件，來決定不消除該第三音訊活動。
根據請求項6之裝置，其中該偵測一模式改變條件是基於一臉部辨識操作或一目光偵測操作中的至少一者的一結果。
根據請求項6之裝置，其中該偵測一模式改變條件是基於一關鍵字偵測或對位置或方位中的至少一者的一改變的一偵測中的至少一者的一結果。
根據請求項1之裝置，其中該處理器亦被配置為執行用於進行以下操作的電腦可執行指令：接收對一模式改變的一無線指示；決定該至少一個麥克風信號中的第三音訊活動是該應用通信期中的一參與者的語音活動；回應於對一模式改變的該無線指示來產生用於消除該第三音訊活動的一第三抗雜訊信號；及使得該揚聲器產生是基於該第三抗雜訊信號的一聲信號。
根據請求項1之裝置，其中該活動的應用通信期是一遊戲應用程式的一通信期。
根據請求項1之裝置，其中該決定該語音活動是否是一參與者的語音活動的該結果是關於該語音活動是一參與者的語音活動的一決定，並且其中用於產生該抗雜訊信號的該等電腦可執行指令包括用於亦基於該應用通信期的一上下文來產生該抗雜訊信號的電腦可執行指令。
根據請求項11之裝置，其中該上下文指示該參與者是一對手。
根據請求項11之裝置，其中該上下文指示該參與者的語音當前是禁用的。
根據請求項11之裝置，其中該上下文指示該參與者處於與另一參與者的一隱私模式。
根據請求項11之裝置，其中該上下文指示該參與者的語音是經由一虛擬的屏障來阻止的。
根據請求項1之裝置，其中該活動的應用通信期是用於共享一虛擬空間的一應用程式的一通信期。
一種音訊信號處理的方法，該方法包括以下步驟：決定至少一個麥克風信號中的第一音訊活動是語音活動；決定該語音活動是否是在一設備上活動的一應用通信期中的一參與者的語音活動；至少基於該決定該語音活動是否是該應用通信期中的一參與者的語音活動的一結果，來產生用於消除該第一音訊活動的一抗雜訊信號；及經由一揚聲器來產生是基於該抗雜訊信號的一聲信號。
根據請求項17之方法，其中該方法亦包括以下步驟：決定該至少一個麥克風信號中的第二音訊活動是該應用通信期中的一參與者的語音活動；及回應於至少該決定該第二音訊活動是該應用通信期中的一參與者的語音活動，來決定不消除該第二音訊活動。
根據請求項17之方法，其中該方法亦包括以下步驟：決定該至少一個麥克風信號中的第二音訊活動是該應用通信期中的一參與者的語音活動；及回應於至少該決定該第二音訊活動是該應用通信期中的一參與者的語音活動，來無線地傳輸關於該應用通信期中的一參與者正在說話的一指示。
根據請求項19之方法，其中該方法亦包括以下步驟：回應於至少該決定該第二音訊活動是該應用通信期中的一參與者的語音活動，來決定不消除該第二音訊活動。
根據請求項17之方法，其中該方法亦包括以下步驟：決定該至少一個麥克風信號中的第二音訊活動是語音活動；無線地接收關於該應用通信期中的一參與者正在說話的一指示；及回應於該指示來決定不消除該第二音訊活動。
根據請求項17之方法，其中該方法亦包括以下步驟：決定該至少一個麥克風信號中的第三音訊活動是語音活動；偵測一模式改變條件；回應於該偵測一模式改變條件，無線地傳輸對一模式改變的一指示；及回應於該偵測一模式改變條件，來決定不消除該第三音訊活動。
根據請求項22之方法，其中該偵測一模式改變條件是基於一臉部辨識操作或一目光偵測操作中的至少一者的一結果。
根據請求項22之方法，其中該偵測一模式改變條件是基於一關鍵字偵測和對位置或方位中的至少一者的一改變的一偵測中的至少一者的一結果。
根據請求項17之方法，其中該方法亦包括以下步驟：無線地接收對一模式改變的一指示；決定該至少一個麥克風信號中的第三音訊活動是該應用通信期中的一參與者的語音活動；回應於該對一模式改變的指示來產生用於消除該第三音訊活動的一第三抗雜訊信號；及經由一揚聲器來產生是基於該第三抗雜訊信號的一聲信號。
根據請求項17之方法，其中該活動的應用通信期是一遊戲應用程式的一通信期。
根據請求項17之方法，其中該決定該語音活動是否是一參與者的語音活動的該結果是關於該語音活動是一參與者的語音活動的一決定，以及其中該產生該抗雜訊信號亦是基於該應用通信期的一上下文。
根據請求項27之方法，其中該上下文指示該參與者是一對手。
根據請求項17之方法，該活動的應用通信期是用於共享一虛擬空間的一應用程式的一通信期。
一種非暫時性電腦可讀取儲存媒體，其包括當由至少一個處理器執行時使得該至少一個處理器執行音訊信號處理的一方法的代碼，該方法包括以下步驟：決定至少一個麥克風信號中的第一音訊活動是語音活動；決定該語音活動是否是在一設備上活動的一應用通信期中的一參與者的語音活動；至少基於該決定該語音活動是否是該應用通信期中的一參與者的語音活動的一結果，來產生用於消除該第一音訊活動的一抗雜訊信號；及經由一揚聲器來產生是基於該抗雜訊信號的一聲信號。