TW202134856A

TW202134856A - 選擇性調整聲音播放

Info

Publication number: TW202134856A
Application number: TW109140404A
Authority: TW
Inventors: 傑森非洛斯; 費迪南德奧利維里; 尼爾斯古恩瑟彼得斯
Original assignee: 美商高通公司
Priority date: 2019-12-12
Filing date: 2020-11-18
Publication date: 2021-09-16
Also published as: EP4073625A1; US20220382509A1; CN114787766A; WO2021118770A1

Abstract

一種用於管理聲音播放的裝置包括一或多個處理器，該一或多個處理器經組態以在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示。該一或多個處理器亦經組態以基於接收到該使用者-裝置互動的該指示，起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低該多揚聲器音訊播放系統的一播放聲音。

Description

選擇性調整聲音播放

本申請案主張於2019年12月12日申請之希臘臨時專利申請案第20190100555號，發明名稱為「 SELECTIVE ADJUSTMENT OF SOUND PLAYBACK」之優先權，其全文以引用方式併入本文中。

本揭露通常關於聲音播放。

技術的進展已導致更小且更強大的計算裝置。例如，目前存在小型、輕量、且易於由使用者攜帶的各種可攜式個人計算裝置，包括無線電話（諸如行動電話及智慧型手機）、平板電腦、及膝上型電腦。此等裝置可透過無線網路傳達語音及資料封包。此外，許多此類裝置合併額外功能性，諸如數位靜物相機、數位視訊攝影機、及音訊檔案播放器。再者，此類裝置可處理可執行指令，包括軟體應用程式，諸如可用以存取網際網路的網路瀏覽器應用程式。因此，此等裝置可包括顯著的計算能力。

計算裝置可包括係語音啟動或為使用者輸出音訊（例如，氣象更新）的音訊介面裝置，諸如家庭自動化系統。藉由另一音訊系統（諸如家庭娛樂系統）的聲音播放可干擾音訊介面裝置的操作。例如，音訊介面裝置可能在區分使用者的語音與來自家庭娛樂系例如，音訊介面裝置可能在區分使用者的語音與來自家庭娛樂系統的播放聲音時經歷錯誤統的播放聲音時經歷錯誤。舉另一實例，使用者可能無法透過家庭娛舉另一實例，使用者可能無法透過家庭娛樂系統的播放聲音聽到來自音訊介面裝置的輸出樂系統的播放聲音聽到來自音訊介面裝置的輸出。對音訊介面裝置之對音訊介面裝置之操作的干擾可能不利地影響使用者體驗。操作的干擾可能不利地影響使用者體驗。

在一特定態樣中，一種用於管理聲音播放的裝置包括一或多個處理器，該一或多個處理器經組態以在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示。該一或多個處理器亦經組態以基於接收到該使用者-裝置互動的該指示，起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低該多揚聲器音訊播放系統的一播放聲音。

在另一特定態樣中，一種用於管理聲音播放的方法包括在一多揚聲器音訊播放系統的一聲音播放操作期間在一裝置接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示。該方法亦包括基於接收到該使用者-裝置互動的該指示，在該裝置起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音。

在另一特定態樣中，一種儲存指令的電腦可讀儲存裝置，該等指令在由一或多個處理器執行時，導致該一或多個處理器在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示。該等指令在由該一或多個處理器執行時，亦導致該一或多者處理器基於接收到該使用者多個處理器執行時，亦導致該一或多者處理器基於接收到該使用者-裝裝置互動的該指示，起始該聲音播放操作的一選擇性調整以基於該使用置互動的該指示，起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音。者的一位置降低一播放聲音。

在另一特定態樣中，一種設備包括用於在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示的構件。該設備亦包括用於起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音的構件，該選擇性調整係基於接收到該使用者-裝置互動的該指示而起始。

在檢視包括下列章節的整個申請案之後，本揭露的其他態樣、優點、及特徵將變得顯而易見：圖式簡單說明、實施方式、及申請專利範圍。

揭示選擇性調整聲音播放的系統及方法。多揚聲器音訊播放系統執行播放信號（例如，音樂）的聲音播放。在多揚聲器音訊播放系統的聲音播放期間，偵測使用者與音訊介面裝置之間的使用者-裝置互動例如，使用者-裝置互動包括使用者說出音訊介面裝置的語音啟動關鍵字（例如，「你好助理 (Hello Assistant)」）或使用者作出特定手勢以喚醒音訊介面裝置。計算裝置基於使用者的位置起始聲音播放的選擇性調整。在一特定實例中，選擇性調整係藉由停用最接近使用者之位置的揚聲器而執行。在另一實例中，使用波束成形以執行選擇性調整。聲音播放的選擇性調整降低在使用者的位置、在音訊介聲音播放的選擇性調整降低在使用者的位置、在音訊介面裝置的位置、或在二者的播放聲音面裝置的位置、或在二者的播放聲音。在一特定實例中，選擇性調整在一特定實例中，選擇性調整不會降低在其他使用者的位置的播放聲音不會降低在其他使用者的位置的播放聲音。為了說明，若偵測到使用為了說明，若偵測到使用者在汽車的駕駛座上，執行選擇性調整使得多揚聲器音訊播放系統的者在汽車的駕駛座上，執行選擇性調整使得多揚聲器音訊播放系統的播放聲音在駕駛座降低且不對汽車中的乘客降低。播放聲音在駕駛座降低且不對汽車中的乘客降低。

音訊介面裝置的操作由於播放聲音的選擇性調整而改善。在一特定實例中，音訊介面裝置在辨識使用者的語音上經歷更少錯誤（例如，無錯誤），因為未從接收使用者之語音的相同地點接收到（或以降低音量接收到）播放聲音。在另一實例中，當播放聲音在使用者的位置降低時，使用者能夠較佳地聽到音訊介面的輸出。

本揭露的特定態樣於下文參照圖式描述。在說明中，共同特徵係藉由共同參考數字指定。如本文所使用的，各種術語僅用於描述特定實施方案的目的，且未意圖成為實施方案的限制。例如，除非上下文另有明確指示，單數形式「一(a/an)」及「該(the)」亦意圖包括複數形式。進一步地，本文描述的一些特徵在一些實施方案中係單數的且在其他實施方案中係複數的。為了說明，圖1繪示包括一或多個處理器（圖1中的「（多個）處理器」130）的裝置102，其指示在一些實施方案中，裝置102包括單一處理器130，且在其他實施方案中，裝置102包括多個處理器130。為易於參考本文，除非描述相關於特徵之多者的態樣，通常將此類特徵介紹成「一或多個」特徵且隨後以單數型參考。

可進一步瞭解用語「包含(comprise/comprises/comprising)」可與「包括(include/includes/including)」互換地使用。額外地，應理解用語「其中(wherein)」可與「其中(where)」互換地使用。如本文中所使用的，「例示性(exemplary)」可指示實例、實施方案、及/或態樣，且不應解讀成限制或指示偏好或較佳的實施方案。如本文中所使用的，用以修飾元件（諸如結構、組件、操作等）的序數用語（例如，「第一(first)」、「第二(second)」、「第三(third)」等）並非藉由本身指示該元件相對於另一元件的任何優先性或順序，而僅係使具有相同名稱的元件彼此區分（但由於序數用語的使用）。如本文中所使用的，用語「組(set)」係指特定元件的一或多者，且用語「複數(plurality)」係指特定元件的多者（例如，二或更多者。

如本文中所使用的，「耦接(coupled)」可包括「通訊耦接(communicatively coupled)」、「電耦接(electrically coupled)」、「實體耦接(physically coupled)」，且亦可（或可替代地）包括任何其組合。二個裝置（或組件）可直接或經由一或多個其他裝置、組件、導線、匯流排、網路（例如，有線網路、無線網路、或其組合）等間接耦接（例如，通訊耦接、電耦接、或實體耦接）。可將電耦接的二個裝置（或組件）包括在相同裝置中或在不同裝置中，且可經由電子器件、一或多個連接器、或電感耦合連接，作為說明性非限制性實例。在一些實施方案中，通訊耦接（諸如，採電通訊）的二個裝置（或組件）可直接或間接（諸如經由一或多個導線、匯流排、網路等）發送及接收電信號（數位信號或類比信號）。如本文所使用的，「直接耦接(directly coupled)」可包括在沒有中間元件的情況下耦接（例如，通訊耦接、電耦接、或實體耦接）的二個裝置。

在本揭露中，諸如「判定determining)」、「計算(calculating)」、「評估(estimating)」、「移位（shifting）」、「調整(adjusting)」等的用語可用以描述一或多個操作如何執行。應注意此類用語不應解讀成限制，且可利用其他技術執行類似操作。額外地，當參考至本文時，「產生(generating)」、「計算(calculating)」、「評估(estimating)」、「使用(using)」、「選擇(selecting)」、「存取(accessing)」、及「判定(determining)」可互換地使用。例如，「產生」、「計算」、「評估」、或「判定」參數（或信號）可指主動產生、評估、計算、或判定參數（或信號）或可指使用、選擇、或存取已產生（諸如藉由另一組件或裝置）的參數（或信號）。

參照圖1，揭示可操作以執行聲音播放的選擇性調整且通常指定為100之系統的特定說明性態樣。系統100包括耦接至使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合的裝置102。系統100亦包括音訊介面裝置104、攝影機122、麥克風124、或其組合。多揚聲器音訊播放系統136包括揚聲器控制器108（例如，有波束成形能力的揚聲器系統）及複數個揚聲器120。在圖1中將多揚聲器音訊播放系統136繪示成包括五個揚聲器120A至120E，作為一說明性實例。在其他實例中，多揚聲器音訊播放系統136可包括少於五個的揚聲器或多於五個的揚聲器。

在圖1中將裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、攝影機122、麥克風124、及揚聲器120繪示成分開裝置，作為一說明性實例。在其他實施方案中，裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、攝影機122、麥克風124、或揚聲器120的二或更多者係整合至單一裝置中。在一特定態樣中，裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、攝影機122、麥克風124、或揚聲器120的一或多者包括或係整合至計算裝置、語音助理、物聯網(IoT)控制器、IoT裝置、汽車、車輛、整合式助理應用程式、氣候控制系統、照明系統、電氣系統、灑水器系統、家庭自動化系統、安全系統、器具、播放裝置、電視機、媒體裝置、虛擬實境(VR)頭戴裝置、擴增實境(AR)頭戴裝置、混合實境(MR)頭戴裝置、延展實境(XR)頭戴裝置、頭戴式顯示器(HMD)、音訊裝置、無線揚聲器及語音啟動裝置、或其組合中。

應注意在下文描述中，將藉由圖1之系統100執行的各種功能描述成係藉由某些組件或模組執行。然而，組件及模組的此劃分僅用於說明。在一替代態樣中，可將在本文中描述成由特定組件或模組執行的功能分開在多個組件或模組之中。另外，在一替代態樣中，可將圖1的二或更多個組件或模組整合至單一組件或模組中。繪示於圖1中的各組件或模組可使用硬體（例如，現場可程式閘陣列(FPBA)裝置、特定應用積體電路(ASIC)、數位信號處理器(DSP)、控制器等）、軟體（例如，可由處理器執行的指令）、或任何其組合實施。

音訊介面裝置104包括揚聲器、麥克風、或二者。音訊介面裝置104經組態以接收來自使用者112的音訊信號153（例如，經由麥克風）、輸出音訊信號155（例如，經由揚聲器）、或二者。在一些實例中，音訊介面裝置104的一或多個麥克風擷取對應於使用者112之語音的輸入聲音163，並提供表示輸入聲音163的音訊信號153至音訊介面裝置104。在一些實例中，音訊介面裝置104提供音訊信號155至一或多個揚聲器，且揚聲器產生對應於音訊信號155的輸出聲音165。在音訊介面裝置104包括一或多個麥克風的實施方案中，音訊介面裝置104可經組態以參與在其中音訊介面裝置104接收音訊信號153（例如，「你好助理，將溫度設定成七十度(Hello Assistant, set the temperature to 70 degrees)」）而不輸出任何音訊信號的使用者互動。在音訊介面裝置104包括一或多個揚聲器的實施方案中，音訊介面裝置104可經組態以參與在其中音訊介面裝置104輸出音訊信號155（例如，「你今天的晨間通勤的交通正常(your morning commute has regular traffic today)」）而不接收任何音訊信號的使用者互動。在音訊介面裝置104包括一或多個揚聲器及一或多個麥克風的實施方案中，音訊介面裝置104可進一步經組態以參與在其中音訊介面裝置104接收音訊信號153（例如，「你好助理，現在幾點？(Hello Assistant, what time is it?）」並輸出音訊信號155（例如，「現在下午三點(It is 3 pm)」）的使用者互動。

使用者位置偵測器110經組態以判定指示使用者112之位置的使用者位置資料131。使用者位置資料131可指示使用者112的實際位置（例如，座標）、使用者112的相對位置（例如，與另一物體的方向或距離）、或二者。在一特定實例中，使用者位置偵測器110經組態以在由音訊介面裝置104接收的音訊信號153的一部分（例如，「你好助理」）上執行到達方向分析，以產生指示使用者112相對於音訊介面裝置104的位置的使用者位置資料131。在一些實例中，使用者位置偵測器110經組態以從與使用者112關聯的行動裝置接收全球定位系統(GPS)座標，並產生指示GPS座標的使用者位置資料131。

使用者-裝置互動偵測器106經組態以回應於偵測到使用者112與音訊介面裝置104的使用者-裝置互動而產生互動指示133。在一特定實例中，使用者-裝置互動偵測器106經組態以回應於判定音訊信號153的一部分對應於啟動命令（例如，「你好助理」）而偵測使用者-裝置互動。在一些實例中，使用者-裝置互動偵測器106經組態以回應於判定由音訊介面裝置104的攝影機擷取的一或多個影像指示使用者112執行啟動手勢（例如，揮手）而偵測使用者-裝置互動。

揚聲器控制器108經組態以執行對應於可能從裝置102接收或可能從另一來源接收的播放信號151（例如，電視機音訊輸出、音樂系統輸出等）的聲音播放操作145。例如，揚聲器控制器108經組態以提供對應於播放信號151的輸出信號141至揚聲器120。雖然第一輸出信號141A提供至第一揚聲器120A且第二輸出信號141B提供至第二揚聲器120B係為了說明的目的而描繪，應瞭解可將其他輸出信號提供至其他揚聲器，如下文進一步描述的。在一特定態樣中，揚聲器控制器108經組態以支援各種空間音訊組態，諸如立體聲組態、5.1環繞音效組態、7.1環繞音效組態、或另一類型的空間音訊組態。在一特定實例中，播放信號151係針對特定空間音訊組態編碼，且揚聲器控制器108基於播放信號151產生對應於特定音訊組態的輸出信號141。在另一實例中，播放信號151對應於單聲道信號，且揚聲器控制器108藉由執行單聲道信號的音訊處理而產生對應於特定空間音訊組態的輸出信號141。

裝置102包括耦接至記憶體132的一或多個處理器130。處理器130包括調整起始器134。在一特定態樣中，處理器130係包括在積體電路中。調整起始器134經組態以回應於接收到互動指示133，基於使用者位置資料131起始聲音播放操作145的選擇性調整143。在一特定實例中，選擇性調整143包括調整揚聲器120的一些者（但非全部）的輸出位準（例如，音量）。在一特定態樣中，選擇性調整143包括停用較接近使用者112之揚聲器120的一或多者。在一特定態樣中，選擇性調整143包括產生「無聲(silent)」區。在無聲區中，與無聲區外側相比，將聲音播放操作145的播放聲音降低（例如，無聲）。在一特定態樣中，使用波束成形技術以產生無聲區，諸如藉由調整輸出信號141的一或多者使得由一或多個揚聲器輸出的聲音在無聲區內彼此相消干涉（例如，不在無聲區外側導致實質的相消干涉）。

在操作期間，揚聲器控制器108起始對應於播放信號151的聲音播放操作145。在一實例中，播放信號151對應於家庭娛樂系統的輸出。為了說明，播放信號151可對應於使用者112及使用者114正在觀看之電影的音訊輸出。在聲音播放操作145期間，揚聲器控制器108產生對應於播放信號151的輸出信號141，並將輸出信號141提供至揚聲器120。在一特定實例中，揚聲器控制器108分別提供輸出信號141A、輸出信號141B、輸出信號141C（未圖示）、輸出信號141D（未圖示）、及輸出信號141E（未圖示）至揚聲器120A、揚聲器120B、揚聲器120C、揚聲器120D、及揚聲器120E。輸出信號141可基於多揚聲器音訊播放系統136的組態設定（例如，環繞音效組態、通道平衡設定等）、揚聲器控制器108的組態設定、揚聲器120的組態設定、或其組合。提供將揚聲器控制器108發送輸出信號141至五個揚聲器作為一說明性實例。在其他實例中，揚聲器控制器108可提供輸出信號141至少於五個的揚聲器或至多於五個的揚聲器。

使用者-裝置互動偵測器106偵測使用者112與音訊介面裝置104之間的使用者-裝置互動。在一特定態樣中，使用者-裝置互動係由使用者112執行以啟動音訊介面裝置104。在一實例中，使用者-裝置互動偵測器106回應於判定在音訊介面裝置104接收之音訊信號153（例如，表示輸入聲音163）的一部分對應於啟動音訊介面裝置104的啟動命令（例如，「你好助理」）而偵測使用者-裝置互動。在此實例中，使用者-裝置互動包括在音訊介面裝置104接收對應於啟動命令之使用者的語音（例如，輸入聲音163）。在另一實例中，使用者-裝置互動偵測器106回應於判定由攝影機122擷取的一或多個影像指示使用者112作出啟動音訊介面裝置104的啟動手勢（例如，揮手）而偵測使用者-裝置互動。在此實例中，使用者-裝置互動包括在一或多個影像中指示的使用者手勢（例如，啟動手勢）。

在一特定態樣中，使用者-裝置互動係基於使用者112與音訊介面裝置104、麥克風124、或攝影機122的一或多者的接近度。在一些實例中，使用者-裝置互動偵測器106回應於判定在音訊介面裝置104接收之音訊信號153（或在麥克風124接收之音訊信號）的一部分對應於從在音訊介面裝置104（或麥克風124）之臨限距離內的使用者接收的使用者語音而偵測使用者-裝置互動。在另一實例中，使用者-裝置互動偵測器106回應於判定由攝影機122擷取的一或多個影像指示偵測到使用者112在音訊介面裝置104、攝影機122、或二者的臨限距離內而偵測使用者-裝置互動。將音訊信號及攝影機影像提供為用於判定使用者112與音訊介面裝置104、麥克風124、或攝影機122的一或多者的接近度的說明性實例。在其他實例中，使用者112的接近度可基於其他資訊判定，諸如使用者112之行動裝置的GPS座標。使用者-裝置互動偵測器106回應於偵測到使用者-裝置互動而提供互動指示133至裝置102。

回應於接收到互動指示133，調整起始器134將檢索使用者112的使用者位置資料131。在一些實施方案中，使用者位置偵測器110執行與參考使用者-裝置互動偵測器106所描述之操作類似的一或多個操作，以判定使用者位置資料131。在其他實施方案中，使用者位置偵測器110以不同於使用者-裝置互動偵測器106的方式判定使用者位置資料131。例如，使用者-裝置互動偵測器106可基於判定一或多個影像指示偵測到使用者112係在音訊介面裝置104的、攝影機122的，或二者的臨限距離內而判定使用者112與攝影機122的接近度，然而使用者位置偵測器110可基於與使用者112關聯之使用者裝置的GPS座標判定使用者位置資料131。在一特定態樣中，使用者-裝置互動偵測器106偵測使用者-裝置互動而無需判定使用者112與另一物體的接近度，且使用者位置偵測器110判定使用者位置資料131。

使用者位置資料131包括使用者112的地理位置（例如，座標）或相對位置。在一特定態樣中，使用者位置資料131指示使用者112相對於音訊介面裝置104、攝影機122、麥克風124、或揚聲器120的一或多者的方向、距離、或二者。在一些實例中，使用者位置偵測器110執行在音訊介面裝置104的一或多個麥克風接收之音訊信號153（例如，「你好助理」）的音訊分析（例如，到達方向(DoA)分析），以判定使用者112相對於音訊介面裝置104的方向、距離、或二者。使用者位置偵測器110基於使用者112相對於音訊介面裝置104的方向、距離、或二者判定使用者位置資料131。在一特定態樣中，使用者位置偵測器110有權存取揚聲器120相對於音訊介面裝置104的位置。在此態樣中，使用者位置偵測器110基於使用者112相對於音訊介面裝置104的方向、距離、或二者及揚聲器120相對於音訊介面裝置104的位置判定使用者112相對於揚聲器120的使用者位置資料131。

調整起始器134回應於接收到互動指示133，基於使用者位置資料131起始聲音播放操作145的選擇性調整143。例如，調整起始器134執行選擇性調整143以藉由降低輸出信號141與使用者112的語音之間的音訊干擾（例如，對應於音訊信號153的其餘部分）的可能性、降低輸出信號141與待由音訊介面裝置104輸出的音訊信號155之間的音訊干擾的可能性、或二者而改善使用者體驗。在一特定實例中，使用者位置偵測器110判定使用者位置資料131指示相較於揚聲器120B、揚聲器120C、及揚聲器120E，使用者112更接近揚聲器120A及揚聲器120D。使用者位置偵測器110回應於基於使用者位置資料131判定在聲音播放操作145期間來自揚聲器120的輸出可能干擾音訊介面裝置104的操作而起始選擇性調整143。

在一些實施方案中，選擇性調整143包括波束成形以產生無聲區，諸如參照圖2A及圖2B的實例進一步描述的。在其他實施方案中，選擇性調整143包括停用或以其他方式降低來自一或多個揚聲器的聲音以產生無聲區，諸如參照圖5進一步描述的。在一些實例中，選擇性調整143降低對應於音訊信號153的一部分（例如，「現在幾點？」）的使用者112的語音與揚聲器120A及揚聲器120D之各者的輸出之間的音訊干擾。在某個實例中，選擇性調整143降低對應於音訊信號155的輸出聲音165與揚聲器120A及揚聲器120D之各者的輸出之間的音訊干擾。

在一特定態樣中，選擇性調整143包括基於使用者位置資料131產生或更新一或多個濾波器137。將一或多個濾波器137施加至輸出信號141以在提供經濾波音訊信號至揚聲器120之前產生一或多個經濾波音訊信號。在一特定實例中，在將輸出信號141A的經濾波部分提供至揚聲器120A之前，將濾波器137A（未圖示）施加至輸出信號141A的一部分。舉另一特定實例，在將輸出信號141D的經濾波部分提供至揚聲器120D之前，將濾波器137D（未圖示）施加至輸出信號141D的一部分。在一特定態樣中，濾波器137係基於波束成形技術。

在一特定態樣中，選擇性調整143包括在將音訊的部分串流至多揚聲器音訊播放系統136之前調整與該音訊的部分關聯的一或多個參數。在一特定實例中，與輸出信號141A的部分關聯的一或多個參數（諸如波束成形權重）係經在將輸出信號141A的部分提供至揚聲器120A之前調整，使得由揚聲器120A投射的聲音導致與由揚聲器120B投射的聲音、由揚聲器120E投射的聲音、由揚聲器120C投射的聲音、或其組合的相消干涉。在一些實例中，與輸出信號141A的部分關聯的增益參數係在將輸出信號141A的部分提供至揚聲器120A之前調整，使得由揚聲器120A投射之聲音的音量降低。

在一些實施方案中，調整起始器134藉由將使用者位置資料131提供至揚聲器控制器108（諸如經由包括使用者位置資料131的請求135（例如，調整請求）），且揚聲器控制器108執行選擇性調整143而起始選擇性調整143，而非在裝置102產生或執行選擇性調整。在其他實施方案中，調整起始器134藉由基於使用者位置資料131產生濾波器137（或參數）並經由請求135將濾波器137（或參數）提供至揚聲器控制器108而啟動選擇性調整143。在此態樣中，揚聲器控制器108將濾波器137（或參數）施加至輸出信號141的部分。在裝置102將輸出信號141提供至揚聲器控制器108的一些實施方案中，調整起始器134藉由基於濾波器137（或參數）濾波（或調整）輸出信號141的一或多者的部分而起始選擇性調整143。為了說明，調整起始器134可經由請求135將輸出信號141的一或多者的經濾波（經調整）部分及輸出信號141之其他者的未濾波（或未調整）部分提供至揚聲器控制器108。因此，從調整起始器134發送至揚聲器控制器108的請求135（例如，調整請求）可指示使用者位置資料131、濾波器137、參數、輸出信號141的一或多者的經濾波（或經調整）部分、輸出信號141之其他者的未濾波（或未調整）部分、或其組合。

揚聲器控制器108輸出輸出信號141的一或多者的經濾波（或經調整）部分、輸出信號141之其他者的未濾波（或未調整）部分、或其組合。在揚聲器120A及120D最接近使用者112及音訊介面裝置104的一特定實例中，揚聲器控制器108藉由提供輸出信號141A的經濾波（或經調整）部分至揚聲器120A及提供輸出信號141D的經濾波（或經調整）部分至揚聲器120D而在使用者112及音訊介面裝置104的近處產生無音區，且亦提供輸出信號141B的未濾波（或未調整）部分至揚聲器120B、提供輸出信號141C的未濾波（或未調整）部分至揚聲器120C、及提供輸出信號141E的未濾波（或未調整）部分至揚聲器120E。

在一特定態樣中，在選擇性調整143之後，音訊介面裝置104接收對應於使用者112之語音（例如，「現在幾點？」）的音訊信號153（例如，音訊信號153的一部分）。音訊信號153（例如，音訊信號153的部分）具有回應於聲音播放操作145的輸出信號141而降低之來自揚聲器120所投射之聲音的干擾（例如，無干擾）。在一特定態樣中，在選擇性調整143之後，音訊介面裝置104輸出音訊信號155。使用者112能夠在降低來自對應於由揚聲器120輸出之輸出信號141的聲音的干擾（例如，無干擾）的情況下聽到相對應於音訊信號155的輸出聲音165。在一特定態樣中，在選擇性調整143之後，使用者114及無聲區外側的其他使用者的聆聽體驗相對不改變（例如，完全不改變）。

系統100因此在不影響使用者114的聆聽體驗的情況下藉由聲音播放操作145降低音訊介面裝置104之操作中的干擾而改善使用者112的使用者體驗。例如，在使用者114可繼續聆聽家庭娛樂系統的聲音播放的同時，使用者112具有使用音訊介面裝置104的經改善使用者體驗（例如，具有降低的干擾）。

參照圖2A，系統200包括亦包括揚聲器120A、揚聲器120B、及揚聲器120C之音訊介面裝置104（例如，條形音箱(sound bar)）的實例。在其他實例中，音訊介面裝置104可包括少於三個的揚聲器或多於三個的揚聲器。如所繪示的，音訊介面裝置104經組態以合併參考圖1的裝置102、使用者-裝置互動偵測器106、揚聲器控制器108、及使用者位置偵測器110描述的功能性。然而，在其他實施方案中，參考裝置102、使用者-裝置互動偵測器106、揚聲器控制器108、或使用者位置偵測器110描述的一或多個操作可由在音訊介面裝置104外部的另一裝置執行。

在系統200中，音訊介面裝置104經組態以執行造成無聲區204在揚聲器120A與使用者112之間產生的選擇性調整143。例如，選擇性調整143避免降低揚聲器120B及揚聲器120C的輸出。揚聲器120A的輸出在揚聲器120A與使用者112之間的區域中抵銷（例如，基於雜訊抵銷技術）揚聲器120B及揚聲器120C的輸出，諸如參照圖3C進一步描述的。無聲區204降低對應於音訊信號153的一部分（例如，「現在幾點？」）的使用者112的語音（例如，輸入聲音163）與揚聲器120B及揚聲器120C之各者的輸出之間的音訊干擾。例如，選擇性調整143包括將在使用者112的位置、揚聲器120A、或二者感知的揚聲器120B及揚聲器120C的聲音輸出降低，同時避免將分別在使用者114及使用者214的位置感知之來自揚聲器120B及揚聲器120C的聲音輸出降低。在此實例中，使用者114及使用者214的聆聽體驗相對不改變（例如，完全不改變），同時降低對使用者112之語音的干擾。在一特定態樣中，選擇性調整143係回應於在音訊信號153的第一部分中偵測到啟動字（例如，「你好助理」）而起始，使得音訊信號153的其餘部分（例如，「現在幾點？」）可在將來自聲音播放操作145的干擾降低（例如，無干擾）的情況下接收。

參照圖2B，系統250包括其包括揚聲器120A、揚聲器120B、揚聲器120C、及揚聲器120D之音訊介面裝置104（例如，語音助理裝置）的另一實例。在其他實例中，音訊介面裝置104可包括少於三個的揚聲器或多於三個的揚聲器。選擇性調整143包括在揚聲器120A與使用者112之間產生無聲區204。例如，揚聲器120A的輸出可在揚聲器120A與使用者112之間實質抵銷揚聲器120B、揚聲器120C、及揚聲器120D之一或多者的輸出，諸如參照圖3C進一步描述的。

系統200及250因此在不影響使用者114及使用者214的聆聽體驗的情況下藉由聲音播放操作145降低音訊介面裝置104之操作中的干擾而改善使用者112的使用者體驗。例如，使用者112具有在與音訊介面裝置104互動的同時不實質影響使用者114及使用者214之聆聽體驗的經改善使用者體驗（例如，具有降低的干擾）。

參照圖3A，顯示可藉由圖1之系統100執行之操作的實例300。在一特定態樣中，實例300之操作的一或多者係由圖1的裝置102、處理器130、調整起始器134、揚聲器控制器108、音訊介面裝置104、使用者位置偵測器110、使用者-裝置互動偵測器106、系統100、或其組合執行。

在一特定實例中，圖1的使用者-裝置互動偵測器106執行關鍵字偵測304。為了說明，使用者-裝置互動偵測器106在音訊信號153的一部分中偵測到啟動命令（例如，關鍵字，諸如「你好助理」），如參照圖1所描述的。使用者-裝置互動偵測器106回應於偵測到啟動命令（例如，「你好助理」）而產生互動指示133。

如參照圖1所描述的，使用者位置偵測器110回應於接收到互動指示133而判定使用者位置資料131。在一特定實例中，使用者位置偵測器110藉由基於包括啟動命令之音訊信號153的部分執行DOA評估306而判定使用者位置資料131。

調整起始器134基於使用者位置資料131產生濾波器137，如參照圖1所描述的。例如，調整起始器134藉由使用波束成形技術以基於使用者位置資料131產生濾波器137而執行與產生無聲區308關聯的操作，使得無聲區在已由濾波器137濾波的音訊資料播出時在使用者112的位置產生。在其他實例中，取代執行波束成形或除了執行波束成形外，調整起始器134產生濾波器137以藉由降低或停用最接近使用者位置的（多個）揚聲器的聲音輸出而產生無聲區。

揚聲器控制器108藉由將濾波器137施加至輸出信號141的一或多者的部分並將輸出信號141的一或多者的經濾波部分提供至用於播出的對應揚聲器而執行區域化閃避310。如本文所使用的，「閃避(ducking)」係指降低輸出信號141的一或多者在無聲區中的聲音位準（例如，音量）。在一特定態樣中，閃避係使用波束成形執行，如參照圖3C進一步描述的。在一特定態樣中，閃避係藉由調整增益位準執行，如參照圖4進一步描述的。在一特定態樣中，閃避係藉由停用一或多個揚聲器執行，如參照圖5A至圖5B進一步描述的。

參照圖3B，顯示可藉由圖1之系統100執行之操作的實例350。實例350的操作與圖3A之實例300的操作的不同處在於使用者-裝置互動偵測器106（或系統100的另一組件）執行音訊信號153的空間音訊上混(upmixing) 302以產生上混信號337。使用者-裝置互動偵測器106基於上混信號337執行關鍵字偵測304。系統100因此對音訊來源未針對空間音訊播放格式化的傳統系統提供支援。

圖3C描繪可藉由圖1之系統100執行之波束成形的簡化視覺實例。例如，揚聲器控制器108將圖1之輸出信號141A的第一部分提供至揚聲器120A並將圖1之輸出信號141B的第二部分提供至揚聲器120B。在一特定態樣中，輸出信號141A的第一部分包括藉由施加濾波器137A至輸出信號141A的未濾波部分而產生的輸出信號141A的經濾波部分。在一特定態樣中，輸出信號141B的第二部分包括藉由施加濾波器137B至輸出信號141B的未濾波部分而產生的輸出信號141B的經濾波部分。

在一特定態樣中，揚聲器控制器108或調整起始器134使用音訊技術（例如，雜訊抵銷、波束成形、或二者）產生濾波器137A、濾波器137B、或二者，使得藉由揚聲器120A之經濾波輸出信號141A的第一部分的播出在無聲區204中降低（例如，抵銷）經濾波輸出信號141B之藉由揚聲器120B的播出所產生的聲音。

參照圖4，聲音播放操作145的選擇性調整的實例400在一或多者揚聲器（例如，圖2A或圖2B的揚聲器120A）藉由從播放與聲音播放操作145關聯的音訊平滑地轉變成播放輸出聲音165（例如，藉由播出音訊信號155而對使用者112輸出語音介面訊息），接著在已播放輸出聲音165之後藉由平滑地轉變回播放音訊而在第一音訊信號（例如，輸出信號141A）與第二音訊信號（例如，音訊信號155）之間執行淡入淡出的實施方案中顯示。揚聲器控制器108在上昇時間412之前起始聲音播放操作145。例如，揚聲器控制器108基於播放信號151提供輸出信號141至揚聲器120。上昇時間412之前的第一時間週期對應於施加至播放信號151以產生輸出信號141的增益402（例如，100%）。

調整起始器134在上昇時間412起始聲音播放操作145的選擇性調整143。例如，在上昇時間412與時間414之間的第二時間週期期間，對應於播放信號151的聲音在無聲區204中逐漸降低。在一特定態樣中，第二時間週期對應於將降低增益402施加至輸出信號141A及將增加增益404施加至用於由揚聲器120A輸出的音訊信號155。例如，逐漸減少圖1之輸出信號141A的增益402減少對應於由揚聲器120A輸出之播放信號151之聲音的位準，且逐漸增加施加至音訊信號155的增益404增加對應於由揚聲器120A輸出之音訊信號155之輸出聲音165的位準。

在一特定實例中，除了包括音訊介面裝置104的語音介面訊息外，音訊信號155亦包括執行與藉由揚聲器120B投射之聲音相消干涉的聲音。在另一實例中，在揚聲器120A輸出音訊信號155的同時，揚聲器120D輸出輸出信號141D之執行與藉由揚聲器120B投射之聲音相消干涉的經濾波部分。

調整起始器134在時間414與釋放時間416之間的第三時間週期期間，繼續聲音播放操作145的選擇性調整143。例如，在第三時間週期期間，降低對應於由揚聲器120A輸出之播放信號151的聲音（例如，無聲音）。在一特定態樣中，第三時間週期對應於將低增益402（例如，0%）施加至播放信號151及將高增益404（例如，100%）施加至用於由揚聲器120A輸出的音訊信號155。

調整起始器134在釋放時間416與時間418之間的第四時間週期期間，逐漸恢復聲音播放操作145的選擇性調整143。例如，在第四時間週期期間，逐漸增加對應於由揚聲器120A輸出之播放信號151的聲音。在一特定態樣中，第四時間週期對應於將遞增增益402施加至播放信號151及將低增益404（例如，0%）施加至用於由揚聲器120A輸出的音訊信號155。例如，在音訊信號155已由揚聲器120A播放之後，逐漸增加圖1之輸出信號141A的增益402增加對應於由揚聲器120A輸出之播放信號151的聲音的位準。

調整起始器134在時間418完全恢復聲音播放操作145的選擇性調整143。例如，在第五時間週期期間，在時間418之後，對應於播放信號151的聲音完全恢復。在一特定態樣中，第五時間週期對應於高增益402（例如，110%）施加至用於由揚聲器120A輸出的輸出信號141A。

參照圖5A至圖5B，顯示可由圖1之系統100執行之由選擇性調整143引起之無聲區的產生的實例。在圖5A至圖5B中，選擇性調整143包括起始閃避504。例如，閃避504包括停用如使用者位置資料131、音訊介面裝置104的位置、或二者所指示之最接近使用者112的位置附近的揚聲器120的一或多者（例如，關斷其音量）。

在圖5A中，使用者112的位置足夠接近揚聲器120A以致於來自揚聲器120A的音訊播放可能干擾使用者112瞭解來自音訊介面裝置104之音訊輸出（例如，來自音訊介面裝置104的語音介面訊息）的能力，而揚聲器120B至E足夠遠離使用者112以致於不太可能干擾使用者112瞭解來自音訊介面裝置104之音訊輸出的能力。調整起始器134基於判定如使用者位置資料131所指示的使用者112的位置係在揚聲器120A之位置的臨限內（例如，距離該位置小於臨限距離）而起始選擇性調整143以停用揚聲器120A（例如，關斷其音量）。例如，調整起始器134發送指示揚聲器120A將停用的請求135至揚聲器控制器108。揚聲器控制器108回應於接收到指示揚聲器120A的請求135而停用揚聲器120A。

在圖5B中，使用者112的位置足夠接近揚聲器120D及揚聲器120E以致於來自揚聲器120D及揚聲器120E的音訊播放可能干擾使用者112瞭解來自音訊介面裝置104之音訊輸出（例如，來自音訊介面裝置104的語音介面訊息）的能力，而揚聲器120A至C足夠遠離使用者112以致於不太可能干擾使用者112瞭解來自音訊介面裝置104之音訊輸出的能力。調整起始器134回應於判定使用者112的位置在揚聲器120D的位置的臨限內且亦在揚聲器120E的位置的臨限內而啟動選擇性調整143以停用揚聲器120D及揚聲器120E（例如，關斷其音量）。例如，調整起始器134發送指示揚聲器120D及揚聲器120E將停用的請求135至揚聲器控制器108。揚聲器控制器108回應於接收到指示揚聲器120D及揚聲器120E的請求135而停用揚聲器120D及揚聲器120E。

參照圖6，顯示執行聲音播放之選擇性調整且通常指定為600的方法。在一特定態樣中，方法600的一或多個操作係藉由圖1的調整起始器134、處理器130、裝置102、系統100、或其組合執行。

方法600包括在602在多揚聲器音訊播放系統的聲音播放操作期間接收使用者與音訊介面裝置之間的使用者-裝置互動的指示。例如，圖1的調整起始器134在多揚聲器音訊播放系統136的聲音播放操作145期間接收到指示在使用者112與音訊介面裝置104之間偵測到使用者-裝置互動的互動指示133，諸如參照圖1所描述的。

方法600亦包括在604基於接收到使用者-裝置互動的指示，起始聲音播放操作的選擇性調整以基於使用者的位置降低播放聲音。例如，圖1的調整起始器134基於接收到互動指示133而起始聲音播放操作145的選擇性調整143，以基於使用者位置資料131降低播放聲音，諸如參考在圖1至圖5中描繪的各種實例的一或多者所描述的。

方法600因此在不影響使用者114的聆聽體驗的情況下藉由聲音播放操作145降低音訊介面裝置104之操作中的干擾而改善圖1之使用者112的使用者體驗。例如，使用者112具有在與音訊介面裝置104互動的同時不實質影響使用者114之聆聽體驗的經改善使用者體驗（例如，具有降低的干擾）。

圖7係車輛700的說明性實例。根據一個實施方案，車輛700係自動駕駛汽車。根據其他實施方案，車輛700可係汽車、卡車、摩托車、飛機、水面載具等。車輛700包括螢幕720（例如，顯示器）、揚聲器120、裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合。揚聲器120、裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、及使用者位置偵測器110係使用虛線顯示，以指示此等組件對車輛700的乘員可能不係可見的。裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合可整合至車輛700中或耦接至車輛700。

在一特定態樣中，將裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合耦接至螢幕720，並回應於偵測到本文描述的各種事件而提供輸出至螢幕720。例如，使用者-裝置互動偵測器106提供指示偵測到使用者-裝置互動的第一輸出至螢幕720。舉另一實例，調整起始器134提供指示正在執行聲音播放操作145的選擇性調整143的第二輸出至螢幕720。

在一特定態樣中，調整起始器134執行聲音播放操作145的選擇性調整，以使車輛700的一個乘員能與音訊介面裝置104（例如，導航裝置、自動化語音助理、或二者）互動，而不干擾車輛700的其他乘員的聆聽體驗。車輛700可具有每一者在各乘員位置的多個麥克風或攝影機，用以偵測與音訊介面裝置104互動（例如，對其說話）之使用者的使用者位置。在一些實例中，調整起始器134可在其餘乘員的聲音播放不受實質影響的同時為分別與音訊介面裝置104互動之車輛700的多個乘員起始閃避或建立無聲區。

因此，相關於圖1至圖6描述的技術促成車輛700之聲音播放操作145的選擇性調整，以降低音訊介面裝置104之操作中的干擾。

圖8係語音控制揚聲器系統800的說明性實例。語音控制揚聲器系統800可具有無線網路連接性，並經組態以執行助理操作。裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合可包括在語音控制揚聲器系統800中。語音控制揚聲器系統800亦包括揚聲器802。在一特定態樣中，揚聲器802對應於圖1的揚聲器120。在操作期間，回應於接收到口頭命令，語音控制揚聲器系統800可執行助理操作。助理操作可包括調整溫度、播放音樂、關燈等。在一特定態樣中，語音控制揚聲器系統800對應於音訊介面裝置104。在一特定態樣中，語音控制揚聲器系統800執行聲音播放操作的選擇性調整以降低音訊介面裝置104之操作中的干擾。在一特定實例中，語音控制揚聲器系統800執行播放信號151（例如，音樂播放）及音訊信號155（例如，語音助理音訊）的淡入淡出，如參照圖4所描述的。

參照圖9，描繪且通常指定為900之裝置之特定說明性實施方案的方塊圖。在各種實施方案中，裝置900可具有比圖9所繪示的組件更多或更少的組件。在一說明性實施方案中，裝置900對應於圖1的裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合。在一說明性實施方案中，裝置900可執行參照圖1至圖8描述的一或多個操作。

在一特定實施方案中，裝置900包括處理器906（例如，中央處理單元(CPU)）。裝置900可包括一或多個額外處理器910（例如，一或多個DSP）。處理器910可包括音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、調整起始器134、或其組合。在一特定態樣中，圖1的處理器130對應於處理器906、處理器910、或其組合。

裝置900可包括記憶體952及CODEC 934。記憶體952可包括可由一或多個額外處理器910（或處理器906）執行以實施參照圖1至圖8描述的一或多個操作的指令956。在一實例中，記憶體952對應於圖1的記憶體132且包括儲存指令956的電腦可讀儲存裝置。指令956在由一或多個處理器（例如，處理器130、處理器906、或處理器910，作為說明性實例）執行時，導致一或多個處理器在多揚聲器音訊播放系統的聲音播放操作期間接收使用者與音訊介面裝置之間的使用者-裝置互動的指示。指令956在由一或多個處理器執行時，亦導致一或多者處理器基於接收到使用者-裝置互動的指示，起始聲音播放操作的選擇性調整以基於使用者的位置降低播放聲音。

記憶體952可包括程式資料958。在一特定態樣中，程式資料958包括或指示濾波器137、播放信號151、互動指示133、使用者位置資料131、請求135、或其組合。裝置900可包括經由收發器950耦接至天線942的無線控制器940。裝置900可包括耦接至顯示器控制器926的顯示器928。

一或多個揚聲器936及一或多個麥克風946可耦接至CODEC 934。在一特定態樣中，揚聲器936包括圖1的揚聲器120、圖8的揚聲器802、或其組合。在一特定態樣中，麥克風946包括圖1的麥克風124。CODEC 934可包括數位轉類比轉換器902及類比轉數位轉換器904。在一特定實施方案中，CODEC 934可接收來自麥克風946的類比信號、使用類比轉數位轉換器904將類比信號轉換成數位信號、並提供數位信號至處理器910。處理器910（例如，語音及音樂編碼解碼器）可處理數位信號，且數位信號可進一步由音訊介面裝置104、使用者-裝置互動偵測器106、使用者位置偵測器110、調整起始器134、或其組合處理。在一特定實施方案中，處理器910（例如，語音及音樂編碼解碼器）可提供數位信號至CODEC 934。CODEC 934可使用數位轉類比轉換器902將數位信號轉換成類比信號，並可將類比信號提供至揚聲器936。裝置900可包括輸入裝置930。在一特定態樣中，輸入裝置930包括圖1的攝影機122。

在一特定實施方案中，裝置900可包括在系統級封裝或系統單晶片裝置922中。在一特定實施方案中，將記憶體952、處理器906、處理器910、顯示器控制器926、CODEC 934、無線控制器940、及收發器950包括在系統級封裝或系統單晶片裝置922中。在一特定實施方案中，將輸入裝置930及電力供應器944耦接至系統級封裝或系統單晶片裝置922。另外，在一特定實施方案中，如圖9所繪示，顯示器928、輸入裝置930、揚聲器936、麥克風946、天線942、及電力供應器944係在系統級封裝或系統單晶片裝置922的外部。在一特定實施方案中，顯示器928、輸入裝置930、揚聲器936、麥克風946、天線942、及電力供應器944之各者可耦接至系統級封裝或系統單晶片裝置922的組件，諸如介面或控制器。

裝置900可包括語音啟動裝置、音訊裝置、無線揚聲器及語音啟動裝置、可攜式電子裝置、汽車、車輛、計算裝置、通訊裝置、物聯網(IoT)裝置、虛擬實境(VR)裝置、擴增實境(AR)裝置、智慧型揚聲器、行動通訊裝置、智慧型手機、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、顯示裝置、電視機、遊戲主控台、音樂播放器、收音機、數位視訊播放器、數位視訊光碟(DVD)播放器、調諧器、攝影機、導航裝置、或任何其組合。在一特定態樣中，將處理器906、處理器910、或其組合包括在積體電路中。

結合所描述的實施方案，一種設備包括用於在多揚聲器音訊播放系統的聲音播放操作期間接收使用者與音訊介面裝置之間的使用者-裝置互動的指示的構件。例如，用於接收的構件包括圖1的使用者-裝置互動偵測器106、裝置102、處理器130、調整起始器134、系統100、處理器906、處理器910、一或多個經組態以接收使用者-裝置互動之指示的其他電路或組件、或其任何組合。

該設備亦包括用於起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音的構件，該選擇性調整基於接收到該使用者-裝置互動的該指示而起始。例如，用於起始選擇性調整的構件包括圖1的調整起始器134、揚聲器控制器108、裝置102、處理器130、系統100、處理器906、處理器910、一或多個經組態以起始聲音播放操作的選擇性調整的其他電路或組件、或其任何組合。

參照圖10，描繪基地台1000（例如，基地台裝置）的特定說明性實例的方塊圖。在各種實施方案中，基地台1000可具有比圖10所繪示的組件更多的組件或更少的組件。在一說明性實例中，基地台1000可包括裝置102、音訊介面裝置104、使用者-裝置互動偵測器106、揚聲器控制器108、使用者位置偵測器110、或其組合。在一說明性實例中，基地台1000可根據參照圖1至圖9描述之方法或系統的一或多者操作。

基地台1000可係無線通訊系統的部分。無線通訊系統可包括多個基地台及多個無線裝置。無線通訊系統可係長期演進技術(Long Term Evolution, LTE)系統、分碼多重存取(CDMA)系統、全球行動通訊系統(GSM)系統、無線區域網路(wireless local area network, WLAN)系統、或一些其他的無線系統。CDMA系統可實施寬頻CDMA (WCDMA)、CDMA 1X、演進資料最佳化(Evolution-Data Optimized, EVDO)、分時同步CDMA (Time Division Synchronous CDMA, TD-SCDMA)、或CDMA的一些其他版本。

無線裝置亦可稱為使用者裝備(UE)、移動電台、終端、存取終端、訂戶單元、電台等。無線裝置可包括蜂巢式電話、智慧型手機、平板電腦、無線數據機、個人數位助理(PDA)、手持裝置、膝上型電腦、智慧型筆電、輕省型筆電、平板電腦、無線電話、無線本地迴路(WLL)站台、藍牙裝置等。無線裝置可包括或對應於圖9的裝置900。

各種功能可由基地台1000的一或多個組件（及/或在未顯示的其他組件中）執行，諸如發送及接收訊息及資料（例如，音訊資料）。在一特定實例中，基地台1000包括處理器1006（例如，CPU）。基地台1000可包括轉碼器1010。轉碼器1010可包括音訊CODEC 1008。例如，轉碼器1010可包括經組態以執行音訊CODEC 1008之操作的一或多個組件（例如，電路系統）。作為另一實例，轉碼器1010可經組態以執行一或多個電腦可讀指令以執行音訊CODEC 1008的操作。雖然將音訊CODEC 1008繪示成轉碼器1010的組件，在其他實例中，音訊CODEC 1008的一或多個組件可包括在處理器1006、另一處理組件、或其組合中。例如，解碼器1038（例如，聲碼器解碼器）可包括在接收器資料處理器1064中。作為另一實例，編碼器1036（例如，聲碼器編碼器）可包括在傳輸資料處理器1082中。

轉碼器1010可運作以在二或更多個網路之間轉碼訊息及資料。轉碼器1010可經組態以將訊息及音訊資料從第一格式（例如，數位格式）轉換成第二格式。為了說明，解碼器1038可解碼具有第一格式的經編碼信號，且編碼器1036可將經解碼信號編碼成具有第二格式的經編碼信號。額外地或替代地，轉碼器1010可經組態以執行資料速率調適。例如，轉碼器1010可降頻轉換資料速率或昇頻轉換資料速率而不改變格式音訊資料。為了說明，轉碼器1010可將每秒64千位元(Kbit/s)信號降頻轉換成16 Kbit/s信號。音訊CODEC 1008可包括編碼器1036及解碼器1038。在一特定態樣中，音訊CODEC 1008包括調整起始器134。

基地台1000可包括記憶體1032。記憶體1032（諸如電腦可讀儲存裝置）可包括指令。指令可包括可由處理器1006、轉碼器1010、或其組合執行以執行參照圖1至圖9之方法及系統描述的一或多個操作的一或多個指令。基地台1000可包括耦接至天線陣列的多個傳輸器及接收器（例如，收發器），諸如第一收發器1052及第二收發器1054。天線陣列可包括第一天線1042及第二天線1044。天線陣列可經組態以與一或多個無線裝置無線通訊，諸如圖9的裝置900。例如，第二天線1044可接收來自無線裝置的資料串流1014（例如，位元串流）。資料串流1014可包括訊息、資料（例如，經編碼語音資料）、或其組合。

基地台1000可包括網路連接1060，諸如回載連接。網路連接1060可經組態以與核心網路或無線通訊網路的一或多個基地台通訊。例如，基地台1000可經由網路連接1060接收來自核心網路的第二資料串流（例如，訊息或音訊資料）。基地台1000可處理第二資料串流以產生訊息或音訊資料並經由天線陣列的一或多個天線提供訊息或音訊資料至一或多個無線裝置或經由網路連接1060提供訊息或音訊資料至另一基地台。在一特定實施方案中，網路連接1060可係廣域網路(WAN)連接，作為說明性非限制性實例。在一些實施方案中，核心網路可包括或對應於公用交換電話網路(PSTN)、封包基幹網路、或二者。

基地台1000可包括耦接至網路連接1060及處理器1006的媒體閘道器1070。媒體閘道器1070可經組態以在不同電信技術的媒體串流之間轉換。例如，媒體閘道器1070可在不同的傳輸協定、不同的編碼方案、或二者之間轉換。為了說明，媒體閘道器1070可從PCM信號轉換成即時傳輸協定(RTP)信號，作為說明性非限制性實例。媒體閘道器1070可在分封切換網路（例如，網際網路協定上的語音(VoIP)網路、IP多媒體子系統(IMS)、第四代(4G)無線網路（諸如LTE、WiMAX、及UMB等））、電路切換網路（例如，PSTN）、及混成網路（例如，第二代(2G)無線網路（諸如，GSM、GPRS、EDGE）、第三代(3G)無線網路（諸如WCDMA、EV-DO、及HSPA）等）之間轉換資料。

額外地，媒體閘道器1070可包括轉碼器（諸如，轉碼器1010），並可經組態以在編碼解碼器不相容時轉碼資料。例如，媒體閘道器1070可在適應性多重速率(ARM)編碼解碼器與G.911編碼解碼器之間轉碼，作為說明性非限制性實例。媒體閘道器1070可包括路由器及複數個實體介面。在一些實施方案中，媒體閘道器1070亦可包括控制器（未圖示）。在一特定實施方案中，媒體閘道器控制器可在媒體閘道器1070的外部、或在基地台1000的外部、或在二者的外部。媒體閘道器控制器可控制並協調多個媒體閘道器的操作。媒體閘道器1070可接收來自媒體閘道器控制器的控制信號，並可運作以在不同傳輸技術之間橋接，並可將服務加至終端使用者能力及連接。

基地台1000可包括耦接至收發器1052、1054、接收器資料處理器1064、及處理器1006的解調變器1062，且接收器資料處理器1064可耦接至處理器1006。解調變器1062可經組態以解調變接收自收發器1052、1054的經調變信號，並提供經解調變資料至接收器資料處理器1064。接收器資料處理器1064可經組態以從經解調變資料提取訊息或音訊資料，並將該訊息或該音訊資料發送至處理器1006。

基地台1000可包括傳輸資料處理器1082及傳輸多輸入多輸出(MIMO)處理器1084。傳輸資料處理器1082可耦接至處理器1006及傳輸MIMO處理器1084。傳輸MIMO處理器1084可耦接至收發器1052、1054及處理器1006。在一些實施方案中，傳輸MIMO處理器1084可耦接至媒體閘道器1070。傳輸資料處理器1082可經組態以接收來自處理器1006的訊息或音訊資料，並基於編解碼方案（諸如CDMA或正交分頻多工(OFDM)）編解碼訊息或音訊資料，作為說明性非限制性實例。傳輸資料處理器1082可將經編解碼資料提供至傳輸MIMO處理器1084。

經編解碼資料可使用CDMA或OFDM技術與其他資料（諸如引導資料）多工以產生經多工資料。經多工資料接著可基於特定調變方案（例如，二元相移鍵控（「BPSK」）、正交相移鍵控（「QSPK」）、M階相移鍵控（「M-PSK」）、M階正交調幅（「M-QAM」）等）由傳輸資料處理器1082調變（亦即，符號映射）以產生調變符號。在一特定實施方案中，經編解碼資料及其他資料可使用不同的調變方案調變。各資料串流的資料速率、編解碼、及調變可由處理器1006所執行的指令判定。

傳輸MIMO處理器1084可經組態以接收來自傳輸資料處理器1082的調變符號，且可進一步處理調變符號並可在資料上執行波束成形。例如，傳輸MIMO處理器1084可將波束成形權重施加至調變符號。波束成形權重可對應於調變符號自其傳輸之天線陣列的一或多個天線。

在操作期間，基地台1000的第二天線1044可接收資料串流1014。第二收發器1054可從第二天線1044接收資料串流1014，並可將資料串流1014提供至解調變器1062。解調變器1062可解調變資料串流1014的經調變信號，並提供經解調變資料至接收器資料處理器1064。接收器資料處理器1064從經解調變資料提取音訊資料，並將該經提取音訊資料提供至處理器1006。

處理器1006可將音訊資料提供至轉碼器1010以用於轉碼。轉碼器1010的解碼器1038可將音訊資料從第一格式解碼成經解碼音訊資料，且編碼器1036可將經解碼音訊資料編碼成第二格式。在一些實施方案中，編碼器1036可使用比從無線裝置接收的資料速率更高的資料速率（例如，昇頻轉換）或更低的資料速率（例如，降頻轉換）編碼音訊資料。在其他實施方案中，音訊資料可能未經轉碼。雖然將轉碼（例如，解碼及編碼）繪示成由轉碼器1010執行，但轉碼操作（例如，解碼及編碼）可由基地台1000的多個組件執行。例如，解碼可由接收器資料處理器1064執行，且編碼可由傳輸資料處理器1082執行。在其他實施方案中，處理器1006可將音訊資料提供至媒體閘道器1070，以用於轉換成另一傳輸協定、編解碼方案、或二者。媒體閘道器1070可經由網路連接1060將經轉換資料提供至另一基地台或核心網路。

調整起始器134可接收互動指示133及使用者位置資料131。調整起始器134可起始選擇性調整143。例如，調整起始器134可產生濾波器137。在一特定實例中，編碼器1036可基於濾波器137產生經編碼音訊資料。在編碼器1036產生的經編碼音訊資料（諸如，經轉碼資料）可經由處理器1006提供至傳輸資料處理器1082或網路連接1060。

來自轉碼器1010的經轉碼音訊資料可提供至傳輸資料處理器1082以用於根據調變方案（諸如，OFDM）編解碼以產生調變符號。傳輸資料處理器1082可提供調變符號至傳輸MIMO處理器1084以用於進一步處理及波束成形。傳輸MIMO處理器1084可施加波束成形權重且可將調變符號提供至天線陣列的一或多個天線，諸如經由第一收發器1052至第一天線1042。因此，基地台1000可提供對應於從無線裝置接收之資料串流1014的經轉碼資料串流1016至另一無線裝置。經轉碼資料串流1016可具有與資料串流1014不同的編碼格式、資料速率、或二者。在其他實施方案中，可將經轉碼資料串流1016提供至網路連接1060以用於傳輸至另一基地台或核心網路。

基地台1000可包括儲存指令的電腦可讀儲存裝置（例如，記憶體1032），當該等指令由處理器（例如，處理器1006或轉碼器1010）執行時，導致處理器在多揚聲器音訊播放系統的聲音播放操作期間接收使用者與音訊介面裝置之間的使用者-裝置互動的指示。該等指令在由一或多個處理器執行時，亦導致一或多者處理器基於接收到使用者-裝置互動的指示，起始聲音播放操作的選擇性調整以基於使用者的位置降低播放聲音。

所屬技術領域中具有通常知識者將進一步理解可將結合本文揭示之實施方案描述的各種說明性邏輯區塊、組態、模組、電路、及演算法步驟實施為電子硬體、由處理器執行的電腦軟體、或二者的組合。各種說明性組件、區塊、組態、模組、電路、及步驟已就其等之功能性於上文大致描述。此類功能性是否實施為硬體或處理器可執行指令係取決於特定應用及外加在整體系統上的設計限制。技術人員可針對各特定應用以不同方式實施所描述的功能性，此類實施方案決策不應解讀為導致脫離本揭露的範疇。

結合本文揭示之實施方案所描述的方法或演算法的頻率可直接以硬體、以由處理器執行的軟體模組、或以二者的組合具現。軟體模組可駐留在隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電可抹除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除磁碟、光碟唯讀記憶體(CD-ROM)、或本技術中已知的任何其他形式的非暫態儲存媒體中。實例儲存媒體耦接至處理器，使得處理器可從該儲存媒體讀取資訊及寫入資訊至該儲存媒體。在替代方案中，該儲存媒體可與該處理器成一整體。處理器及儲存媒體可駐留於特殊應用積體電路(ASIC)中。ASIC可駐留於計算裝置或使用者終端中。在替代方案中，處理器及儲存媒體可作為離散組件駐留於計算裝置或使用者終端中。

所揭示態樣之先前描述的提供使所屬技術領域中具有通常知識者能製造或使用所揭示的態樣。所屬技術領域中具有通常知識者將輕易明白此等態樣的各種修改，且本文所定義的原理可施用至其他態樣而不脫離本揭露的範疇。因此，本揭露未意圖受限於本文所示的態樣，而係應符合與如藉由以下的申請專利範圍定義的原理及新穎特徵一致的最大可能範疇。

100:系統 102:裝置 104:音訊介面裝置 106:使用者-裝置互動偵測器 108:揚聲器控制器 110:使用者位置偵測器 112:使用者 114:使用者 120:揚聲器 120A:揚聲器；第一揚聲器 120B:揚聲器；第二揚聲器 120C:揚聲器 120D:揚聲器 120E:揚聲器 122:攝影機 124:麥克風 130:處理器 131:使用者位置資料 132:記憶體 133:互動指示 134:調整起始器 135:請求 136:多揚聲器音訊播放系統 137:濾波器 137A:濾波器 137B:濾波器 137D:濾波器 141:輸出信號 141A:第一輸出信號；輸出信號 141B:第二輸出信號；輸出信號 141C:輸出信號 141D:輸出信號 141E:輸出信號 143:選擇性調整 145:聲音播放操作 151:播放信號 153:音訊信號 155:音訊信號 163:輸入聲音 165:輸出聲音 200:系統 204:無聲區 214:使用者 250:系統 300:實例 302:空間音訊上混 304:關鍵字偵測 306:DOA評估 308:產生無聲區 310:區域化閃避 337:上混信號 350:實例 400:實例 402:增益 404:增益 412:上昇時間 414:時間 416:釋放時間 418:時間 504:閃避 600:方法 602:步驟 604:步驟 700:車輛 720:螢幕 800:語音控制揚聲器系統 802:揚聲器 900:裝置 902:數位轉類比轉換器 904:類比轉數位轉換器 906:處理器 910:處理器 922:系統級封裝或系統單晶片裝置 926:顯示器控制器 928:顯示器 930:輸入裝置 934:CODEC 936:揚聲器 940:無線控制器 942:天線 944:電力供應器 946:麥克風 950:收發器 952:記憶體 956:指令 958:程式資料 1000:基地台 1006:處理器 1008:音訊CODEC 1010:轉碼器 1014:資料串流 1016:經轉碼資料串流 1032:記憶體 1036:編碼器 1038:解碼器 1042:第一天線 1044:第二天線 1052:第一收發器；收發器 1054:第二收發器；收發器 1060:網路連接 1062:解調變器 1064:接收器資料處理器 1070:媒體閘道器 1082:傳輸資料處理器 1084:傳輸多輸入多輸出(MIMO)處理器

圖1係可操作以執行聲音播放之選擇性調整之系統的特定說明性態樣的方塊圖；圖2A係圖1之系統之揚聲器組態的說明性實例；圖2B係圖1之系統之揚聲器組態的另一說明性實例；圖3A係可由圖1之系統執行之操作的說明性實例；圖3B係可由圖1之系統執行之操作的另一說明性實例；圖3C係可由圖1之系統執行之波束成形的說明性實例；圖4係可由圖1之系統執行之播放聲音的選擇性調整的說明性之系統執行之播放聲音的選擇性調整的說明性實例；圖5A係可由圖1之系統執行之播放聲音的選擇性調整的說明之系統執行之播放聲音的選擇性調整的說明性實例；圖5B係可由圖1之系統執行之播放聲音的選擇性調整的說明之系統執行之播放聲音的選擇性調整的說明性實例；圖6係繪示聲音播放之選擇性調整之方法的流程圖；圖7係合併圖1之系統之態樣的車輛的說明性實例；圖8係合併圖1之系統之態樣的語音控制揚聲器系統的說明性實例；圖9係合併圖1之系統之態樣的裝置的說明性實例的方塊圖；及圖10係合併圖1之系統之態樣的基地台的方塊圖。

100:系統

102:裝置

104:音訊介面裝置

106:使用者-裝置互動偵測器

108:揚聲器控制器

110:使用者位置偵測器

112:使用者

114:使用者

120A:揚聲器；第一揚聲器

120B:揚聲器；第二揚聲器

120C:揚聲器

120D:揚聲器

120E:揚聲器

122:攝影機

124:麥克風

130:處理器

131:使用者位置資料

132:記憶體

133:互動指示

134:調整起始器

135:請求

136:多揚聲器音訊播放系統

137:濾波器

141A:第一輸出信號；輸出信號

141B:第二輸出信號；輸出信號

143:選擇性調整

145:聲音播放操作

151:播放信號

153:音訊信號

155:音訊信號

163:輸入聲音

165:輸出聲音

Claims

一種用於管理聲音播放之裝置，該裝置包含：一或多個處理器，其經組態以：在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示；及基於接收到該使用者-裝置互動的該指示，起始該聲音播放操作的一選擇性調整以基於該使用者的一位置而降低該多揚聲器音訊播放系統的一播放聲音。
如請求項1之裝置，其中該音訊介面裝置包括一語音啟動裝置。
如請求項1之裝置，其中該聲音播放操作的該選擇性調整包括降低該多揚聲器音訊播放系統的一或多個第一揚聲器的一播放聲音，及避免降低該多揚聲器音訊播放系統的一或多個第二揚聲器的一播放聲音。
如請求項3之裝置，其中降低該一或多個第一揚聲器的該播放聲音包括停用該一或多個第一揚聲器。
如請求項1之裝置，其中該一或多個處理器進一步經組態以：偵測該使用者相對於該音訊介面裝置的該位置；及基於該使用者相對於該音訊介面裝置的該位置選擇該多揚聲器音訊播放系統的一或多個第一揚聲器，其中該聲音播放操作的該選擇性調整包括降低該多揚聲器音訊播放系統的該一或多個第一揚聲器的一播放聲音，及避免降低該多揚聲器音訊播放系統的一或多個第二揚聲器的一播放聲音。
如請求項1之裝置，其中該一或多個處理器進一步經組態以基於一音訊信號在該音訊介面裝置的一到達方向而偵測該使用者相對於該音訊介面裝置的該位置，且其中該音訊信號對應於該使用者的語音。
如請求項6之裝置，其中該使用者-裝置互動包括在該音訊介面裝置接收該使用者的該語音。
如請求項1之裝置，其中該一或多個處理器進一步經組態以基於藉由一攝影機擷取之該使用者的一影像而偵測該使用者的該位置。
如請求項8之裝置，其中該使用者-裝置互動包括在該影像中指示的一使用者手勢。
如請求項1之裝置，其中該一或多個處理器經組態以在將音訊的一部分串流至該多揚聲器音訊播放系統之前，藉由調整與音訊之該部分關聯的一或多個參數而執行該聲音播放操作的該選擇性調整。
如請求項1之裝置，其中該一或多個處理器經組態以藉由發送一調整請求至該多揚聲器音訊播放系統以執行該聲音播放操作的該選擇性調整而起始該聲音播放操作的該選擇性調整。
如請求項11之裝置，其中該調整請求指示該使用者的該位置。
如請求項1之裝置，其中該多揚聲器音訊播放系統包括一有波束成形能力的揚聲器系統或條形音箱(sound bar)。
如請求項1之裝置，其中該音訊介面裝置包括一麥克風、一揚聲器、或二者。
如請求項1之裝置，其中一家庭自動化系統包括該音訊介面裝置及該多揚聲器音訊播放系統。
如請求項1之裝置，其中該一或多個處理器係包括在一積體電路中。
如請求項1之裝置，其中該一或多個處理器係包括在一車輛中。
如請求項1之裝置，其中該一或多個處理器係實施在一音訊裝置中，且其中該音訊裝置包括具有一整合式助理應用程式的一無線揚聲器及語音啟動裝置。
如請求項1之裝置，其進一步包含：一天線；及一收發器，其耦接至該天線並經組態以接收來自該音訊介面裝置的該指示、以將一控制信號發送至該多揚聲器音訊播放系統、或二者。
如請求項19之裝置，其中該一或多個處理器、該天線、及該收發器係整合至一行動裝置中。
如請求項19之裝置，其中該一或多個處理器、該天線、及該收發器係整合至一基地台中。
一種聲音播放之方法，該方法包含：在一多揚聲器音訊播放系統的一聲音播放操作期間在一裝置接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示；及基於接收到該使用者-裝置互動的該指示，在該裝置起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音。
如請求項22之方法，其中該聲音播放操作的該選擇性調整降低在該音訊介面裝置的一位置、在該使用者的該位置、或在二者的一播放聲音，並避免降低在一第二使用者的一位置的一播放聲音。
如請求項23之方法，其進一步包含：基於該使用者的該位置產生一或多個濾波器，該一或多個濾波器經組態以經由波束成形降低在該音訊介面裝置的該位置、在該使用者的該位置、或在二者的該播放聲音；及在該聲音播放操作期間，將該一或多個濾波器發送至該多揚聲器音訊播放系統。
如請求項23之方法，其進一步包含：將一或多個濾波器施加至一或多個音訊信號以產生一或多個經濾波音訊信號；及發送該一或多個經濾波音訊信號至該多揚聲器音訊播放系統的一或多個第一揚聲器以經由波束成形降低在該音訊介面裝置的該位置、在該使用者的該位置、或在二者的該播放聲音。
如請求項23之方法，其中該聲音播放操作的該選擇性調整降低該多揚聲器音訊播放系統的一或多個第一揚聲器的一播放聲音，並避免降低該多揚聲器音訊播放系統的一或多個第二揚聲器的一播放聲音。
一種儲存指令的電腦可讀儲存裝置，該等指令在由一或多個處理器執行時，導致該一或多個處理器：在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示；及基於接收到該使用者-裝置互動的該指示，起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音。
如請求項27之電腦可讀儲存裝置，其中該等指令在由該一或多個處理器執行時，進一步導致該一或多個處理器基於一音訊信號在該音訊介面裝置的一到達方向而偵測該使用者相對於該音訊介面裝置的該位置，其中該聲音播放操作的該選擇性調整包括降低在該音訊介面裝置的一位置、在該使用者的該位置、或在二者的一播放聲音，及避免降低在一第二使用者的一位置的一播放聲音。
一種設備，其包含：用於在一多揚聲器音訊播放系統的一聲音播放操作期間接收一使用者與一音訊介面裝置之間的一使用者-裝置互動的一指示的構件；及用於起始該聲音播放操作的一選擇性調整以基於該使用者的一位置降低一播放聲音的構件，該選擇性調整係基於接收到該使用者-裝置互動的該指示而起始。
如請求項29之設備，其中將用於接收的該構件及用於起始的該構件係整合至一家庭自動化系統、一語音啟動裝置、一無線揚聲器及語音啟動裝置、一可攜式電子裝置、一汽車、一車輛、一計算裝置、一通訊裝置、一物聯網(IoT)裝置、一虛擬實境(VR)裝置、一基地台、或其組合中之至少一者中。