TW201626778A

TW201626778A - 聲音調節技術

Info

Publication number: TW201626778A
Application number: TW104130454A
Authority: TW
Inventors: 羅伯特布魯克斯; 肯特比吉斯; 契索
Original assignee: 惠普發展公司有限責任合夥企業
Priority date: 2014-09-30
Filing date: 2015-09-15
Publication date: 2016-07-16
Also published as: CN106797413B; TWI584629B; EP3202125A4; US10283114B2; WO2016053316A1; EP3202125B1; US20170249939A1; CN106797413A; EP3202125A1

Abstract

此處揭示之具體實施例可用以產生相對應於由耦接至一通訊裝置的一麥克風陣列檢測得的一使用者的話語及其它聲音的一本地聲音信號，及用以調節該等本地聲音信號而分開該使用者的該等話語與其它聲音用以生成一經調節的聲音信號。該等經調節的聲音信號係經評估而針對該等經調節的聲音信號產生一本地品質評分，及當該等經調節的聲音信號的本地品質評分係低於與該通訊裝置相關聯的一臨界值時，可產生一本地回授訊息指示一本地使用者位置改變。該本地回授訊息可包括針對該使用者移動到另一個位置用以改良該等經調節的聲音信號之品質的指令。

Description

聲音調節技術

本發明係有關於聲音調節技術。

發明背景

有各種技術存在用於調節由通訊裝置檢測得的聲音用於分開一使用者的語音與周圍或背景雜音，用以改良遠端語音通訊的效果。聲音調節，諸如回音消除及雜訊消除，藉由自該聲音信號去除讓人分心的音訊假影而能夠顯著地提高一主講者的語音清晰度。

依據本發明之一實施例，係特地提出一種通訊裝置，其包含：一麥克風陣列用以檢測聲音及用以產生相對應於該等聲音的聲音信號，其中該等聲音包含一使用者的話語及其它聲音；及耦接至該麥克風陣列的一音訊處理器用以在該等聲音信號上執行聲音調節而分開該使用者的該等話語與該等其它聲音用以生成經調節的聲音信號，用以監視該等經調節的聲音信號之聲音調節品質，及用以產生相對於該麥克風陣列的一方向性使用者位置改變相對應的使用者回授信號而變更該聲音調節品質。

100‧‧‧通訊裝置

105‧‧‧顯示器

110‧‧‧處理器

115‧‧‧圖形處理器、圖形共處理器

120‧‧‧資料儲存器/記憶體

125‧‧‧輸入/輸出中樞器

130‧‧‧網路介面

140‧‧‧相機

150‧‧‧音訊編解碼器

160‧‧‧音訊處理器

161‧‧‧聲音調節引擎

163‧‧‧聲音調節最佳化器

170、170-1~2‧‧‧麥克風陣列

175‧‧‧揚聲器

180‧‧‧遠端通訊裝置

181‧‧‧智慧型電話

183‧‧‧行動電話

185‧‧‧市內電話

187‧‧‧膝上型/桌上型電腦

189‧‧‧平板電腦

190‧‧‧通訊網路

200‧‧‧場景

205、205-1~4‧‧‧使用者

210‧‧‧房間、環境

220‧‧‧最佳敏感度區域

225‧‧‧最佳聲音調節區域

227‧‧‧經更新的或經校正的最佳聲音調節區域、經校正區域

300‧‧‧資訊流程

301‧‧‧聲音信號

303、315‧‧‧經調節的聲音信號

305‧‧‧品質回授信號

307‧‧‧影像

309‧‧‧遠端裝置品質回授信號

311‧‧‧使用者回授訊息

313‧‧‧視覺回授信號

317‧‧‧音訊回授信號

400、500、600‧‧‧方法

405-1‧‧‧音訊回授訊息

405-2‧‧‧使用者回授訊息

415、415-1~4‧‧‧視覺指示符

510-550‧‧‧方塊

610-690‧‧‧動作

圖1為依據本文揭示之各種實施例一通訊裝置的示意圖，該通訊裝置包括具有聲音調節最佳化功能的一音訊處理器。

圖2描繪依據本文揭示之一實施例於一通訊裝置內之一麥克風陣列的一最佳聲音調節區域。

圖3描繪依據本文揭示之一實施例用於一通訊裝置內最佳化聲音調節之一系統中的資訊流。

圖4例示依據本文揭示之實施例用於指示使用者位置改變之回授訊息。

圖5為依據本文揭示之實施例用於最佳化聲音調節之一方法之流程圖。

圖6為依據本文揭示之實施例用於操作具有聲音調節最佳化功能之一方法之流程圖。

較佳實施例之詳細說明

此處描述之各種具體實施例包括用於通訊裝置內最佳化聲音調節之系統、裝置、及方法的技術。聲音調節可包括各種類型之數位或類比濾波及聲音處理操作，諸如雜訊消除、回音消除等。

聲音調節經常使用一特定麥克風陣列或操作環境執行。據此，因一特定麥克風陣列於一特定操作環境可能具有特定操作特性之集合，相對應的聲音處理操作可以是該等操作特性之特定操作。舉例言之，一麥克風陣列可以一特定模式操作而具有一最佳敏感度區域。當於該模式操作時，該麥克風陣列將對源自於該區域的聲音為最敏感，該區域相對於該麥克風陣列可能特別定位(例如，該區域可經組配以包括一關注使用者於一會議室中的位置)。如此用於其中麥克風係以一特定模式操作的情況，針對該麥克風陣列的聲音處理可以最佳化。據此，於一模式操作用以檢測在一特定室內講台演講的一使用者之用於一麥克風陣列的聲音調節很有可能係與經操作用以檢測在一會議室內位在不同位置的多個使用者之用於該麥克風陣列的聲音調節不同。

當該麥克風陣列係針對不同場景(例如，不同操作模式)操作時，最佳敏感度的區域將不同。據此，施用於一個最佳敏感度區域的聲音調節將與施用於另一個最佳敏感度區域的聲音調節不同。此外，針對源自於該麥克風陣列的最佳敏感度區域之各個部分的聲音，該聲音調節將或多或少有效。當使用者自或環繞個別最佳敏感度區域移動時，施加的聲音處理效果可能降級或低於最佳。本文揭示之具體實施例能評估聲音調節之品質用以推論對使用者位置之校正，而改良或維持經調節的聲音之可接受的品質，如此，改良當期望的聲音(例如，使用者的語音)傳送到一遠端裝置時可區別該聲音的清晰程度。

於若干實施例中，需要的使用者位置改變可透過各種音訊及視覺方向指示符而通訊給該等使用者，該等方向指示符可導引該使用者回到與該麥克風陣列之一特定操作模式及/或操作特性與條件相關聯的該最佳聲音調節區域。據此，於通訊連線階段期間，諸如電訊會議，一使用者可被導引到相對於該麥克風陣列之一特定位置所在，因而雜訊/回音消除操作給遠端收聽者產生一最佳聲音品質。

於後文本文揭示之詳細說明部分中，參考附圖，附圖構成其中一部分，及於其中例示顯示如何實施本文揭示之實施例。此等實施例係以足夠細節描述以使得熟諳技藝人士能夠實施本文揭示之實施例，須瞭解能夠利用其它實施例，且不背離本文揭示之範圍可做出處理、電氣、及/或結構變化。

圖1描繪通訊裝置100之示意圖，該裝置可用與一或多個遠端通訊裝置180經由一或多個通訊網路190通訊。如此處描述，通訊裝置100可包括能夠檢測及處理聲音及產生及發送相對應信號的任何行動或固定式計算裝置。舉例言之，通訊裝置100可包括裝置，諸如膝上型電腦、桌上型電腦、平板電腦、智慧型電話、透過IP語音(VoIP)電話、視訊電話、智慧型電視等。

網路190可以是適合用於傳輸信號自通訊裝置100至遠端通訊裝置180的任何有線或無線電子通訊媒體及/或協定。舉例言之，網路190可包括區域網路(LAN)、無線本地區域網路(WLAN)、微波接取全球互通服務(WiMAX)網路、乙太網路、網際網路、PSTN等。據此，遠端通訊裝置180可包括能夠經由網路190發送與接收電子通訊信號的任何合宜電子通訊裝置。此等遠端通訊裝置180可包括，但非限制性，智慧型電話181、行動電話183、市內電話185、膝上型/桌上型電腦187、平板電腦189等。

如圖1中例示，通訊裝置100可包括多個組件。於所顯示的一特例中，通訊裝置100可包括一處理器110其可取回及儲存電腦可執行指令於資料儲存器/記憶體120。處理器110可執行該等指令用於實現作業系統功能，以及在資料儲存器/記憶體120中具體實施為電腦可讀取碼的其它功能。舉例言之，處理器110可執行各種驅動裝置、控制器、應用程式規劃介面(API)用以輔助在通訊裝置100之各個組件間之控制與通訊。資料儲存器/記憶體120表示任何形式之依電性或非依電性記憶體可讀取媒體，諸如SRAM、DRAM、快閃記憶體、硬碟驅動裝置、固態驅動裝置等。於此等具體實施例中，通訊裝置100之各個組件的功能可實現為處理器110執行儲存於資料儲存器/記憶體120中之指令。如此，通訊裝置100之各個組件的功能可實現為可執行代碼或代碼段。

除了處理器110之外，通訊裝置100也可包括一顯示裝置105，諸如電腦顯示器、觸控螢幕顯示器、LED顯示器、或投影器。顯示裝置105能通訊式耦合至處理器110及/或圖形共處理器115用以接收由通訊裝置100之各個組件的功能所產生的相對應於視覺表示型態或圖形的電子信號。舉例言之，顯示器105可由處理器110使用以顯示一圖形使用者介面(GUI)或自一作業系統或其它應用程式執行所得的其它視覺指示符。

通訊裝置100可包括一輸入/輸出中樞器125用來與其它組件通訊及控制之。舉例言之，如圖顯示，處理器110可控制一相機140及使用網路介面130經由輸入/輸出中樞器125發送信號。此外，處理器110可經由輸入/輸出中樞器125耦接至一音訊編解碼器150。

音訊編解碼器150可包括用於編碼與解碼音訊信號之功能。於一個實施例中，音訊編解碼器150可耦接至一音訊處理器160用以將音訊信號轉換成可由處理器110或通訊裝置100之某個其它組件所能使用的一或多個電子格式。於此等實施例中，音訊處理器160可回應於接收自麥克風陣列170的聲音信號而產生音訊信號。接收自麥克風陣列170的聲音信號可相對應於由麥克風陣列170檢測得的聲音。據此，在音訊信號經編碼且用來與遠端通訊裝置180通訊之前，音訊處理器160可施用各種處理功能用以修改或改良所得音訊信號的品質。舉例言之，音訊處理器160可包括一聲音調節引擎161之功能，用以在接收自麥克風陣列170的聲音信號上施用各種雜訊及/或回音消除操作。音訊處理器160之此種功能可提高最終發送給遠端通訊裝置180的語音或其它期望聲音的清晰度。

於各種實施例中，由聲音調節引擎161施用至聲音信號的特定類型之雜訊及/或回音消除操作對麥克風陣列170之類型、組態、及/或操作模式可以是專一性。據此，當一使用者或其它音源係實體上位在該特定麥克風陣列170相關聯的一最佳敏感度區段以內時，聲音調節引擎161 可以是最有效。如圖顯示，通訊裝置100可包括多個麥克風陣列170-1及170-2，使得取決於來源麥克風陣列170，聲音調節引擎161可施用不同聲音調節操作給聲音信號。

於各種實施例中，音訊處理器160也可包括聲音調節最佳化器163之功能。聲音調節最佳化器163能評估由聲音調節引擎161產生的經調節的聲音信號，用以決定所施用的聲音調節之品質或功效。若聲音調節之品質或功效降級，則聲音調節最佳化器163可產生一使用者回授訊息。

使用者回授訊息可包括指令，處理器110能執行該等指令用以產生使用者位置改變之視覺或音訊指示，用以導引該使用者到與該特定麥克風陣列170及/或使用的聲音調節相關聯的最佳聲音調節區域。舉例言之，使用者回授訊息可包括指令讓該使用者移動靠近或遠離該麥克風陣列170。同理，回授訊息可包括指令讓該使用者相對於麥克風陣列170移左、移右、移上、或移下，直到聲音來源諸如使用者嘴巴係落入於最佳區段內部為止。於此等實施例中，回授訊息可包括指令讓處理器110在顯示器105上產生視覺指示符，諸如箭頭或閃光，其將指引該使用者將音源置於針對該特定麥克風陣列170的最佳實體區域內。同理，回授訊息可包括指令讓處理器110使用揚聲器175產生提示音用來導引該使用者。於此等實施例中，提示音可包括錄音的或合成的口語用以發出指令，諸如「移前」、「移後」、「移左」、「移右」等，用以指示該使用者回到相對於該麥克風陣列170的最佳區段。

圖2例示一種場景200，其中一通訊裝置100係設置於一特定環境210內。為求簡明，環境210於此處係指一房間210。然而，環境210可包括任何類型的開放或封閉位置，諸如戶外位置、汽車內部、會議室、房子、辦公室等。於該顯示的實施例中，通訊裝置100係位在房間210內部的一特定位置。於操作期間(例如，電訊會議或視訊會議正在連線階段)，通訊裝置100可使用麥克風陣列170檢測來自一或多個使用者205的本地聲音，用於發送給一或多個其它遠端裝置(圖中未顯示)。如此處描述，麥克風陣列170根據其內部麥克風的實體及電子組態及/或操作模式可具有一最佳敏感度區域。麥克風陣列170的最佳敏感度區域於圖2中係例示為區域220。區域220係例示為大致向前延伸遠離麥克風陣列170。然而，於其它實施例中，麥克風陣列170可經組配以或可經操作以改變最佳敏感度區域220的方向、形狀、及配置。

為了進一步改良由麥克風陣列170檢測得的語音或其它聲音的聲音品質，雖然並未明確描繪於圖2，通訊裝置100也可包括參考音訊處理器160、聲音調節引擎161、及聲音調節最佳化器162描述的功能，如此處描述。於此等實施例中，麥克風陣列170可檢測房間210內的聲音及產生相對應的聲音信號。此等聲音信號可包括電氣信號，其可包括經調諧的電壓及/或電流。音訊處理器160可施用各種濾波至由麥克風陣列170所提供的聲音信號用以選取或拒絕聲音信號的某些面向。過濾或變更聲音信號用以改良或以其它方式改變聲音信號的品質之處理，此處稱作為「聲音調節」。

聲音調節引擎161可施加一或多個濾波技術用以隔離或改良由麥克風陣列170檢測得使用者話語的保真度。如此處使用，「話語」一詞可指由一使用者產生的任何聲音或發聲。此等濾波技術可包括基於頻率、振幅、功率等處理聲音信號的數位及/或類比濾波。於依據本文揭示的各種實施例中，濾波技術可包括雜訊消除用以分開期望的聲音(例如，來自特定使用者的話語、樂器的聲音等)與背景聲音/雜訊(例如，交通、空調系統(HVAC)風扇、周圍對話等)。於其它實施例中，濾波技術可包括回音消除，其可分開期望的聲音與由房間210組態、通訊裝置100、及其它環境因素造成的回音。雜訊消除及回音消除兩者皆可用於分離相對應於一特定使用者205的語音或其它目標音源的聲音。

由麥克風陣列170產生的若干聲音信號可能更適合特定聲音調節條件。舉例言之，在一聲音信號中若相對應於一使用者的期望語音的信號振幅係過小(例如，太過安靜)或過大(例如，太過大聲)，則一特定聲音調節功能發揮的功效可能非最佳或不足。包括或相對應於一使用者205的聲音之聲音信號中的變化可隨一特定使用者205相對於麥克風陣列170及/或相對應的最佳敏感度區域220的定位而改變。由靠近麥克風陣列170的使用者205-1說出的話語及由遠離麥克風陣列170的使用者205-4說出的話語可源自於最佳敏感度區域220內部的一位置，但相對應地所得聲音信號可由聲音調節引擎161較不有效地或次最佳地處理。同理，來自位在最佳敏感度區域220外部的一使用者205-2的話語的相對應聲音信號也可能不適用於藉聲音調節引擎161施加有效聲音調節(例如，雜訊消除及/或回音消除)技術。相反地，通訊裝置100及/或聲音調節引擎161可包括聲音調節功能，其將對檢測自位在區域220內部的一最佳聲音調節區段225中之使用者的話語之相對應聲音信號發揮最佳效能。據此，為了讓由使用者205-1、205-2、及/或205-4說出的話語之相對應聲音信號獲得最佳調節，使用者205-1、205-2、及/或205-4將需移動至最佳聲音調節區段225。本文揭示之實施例可包括參考聲音調節最佳化器163描述的功能，用以提供回授，其導引使用者205或其它音源移動至房間210內部的最佳聲音調節區段225內。

圖3例示依據本文揭示之一具體實施例的資訊流300。當麥克風陣列170為作用態時，如同當通訊裝置100已經開始與一遠端通訊裝置180(例如，視訊電話)的通訊連線階段時，其可提供聲音信號於301給聲音調節引擎161(參考1)。於若干實施例中，於301的聲音信號可包括相對應於由麥克風陣列170檢測得的聲音之原始及/或經濾波的聲音信號。聲音調節引擎161可調節聲音信號用以產生經調節的聲音信號於303(參考2)。如此處描述，經調節的聲音信號303可包括得自施用各種信號處理濾波，諸如雜訊消除、回音消除等所得聲音信號301之已變更版本。

一旦產生經調節的聲音信號303，其可提供給聲音調節最佳化器163。聲音調節最佳化器163可評估經調節的聲音信號303用以決定經調節的聲音信號的品質。於一個實施例中，評估經調節的聲音信號303可包括決定聲音調節引擎161分開使用者的話語的聲音或其它目標聲音與其它非期望的聲音之功效。據此，經調節的聲音信號303的評估可包括測量信號對雜訊比。於一個特定實施例中，聲音調節最佳化器163可比較經調節的聲音信號303的信號對雜訊比或品質之其它測量值與一經預先決定的或動態決定的臨界值。

若經調節的聲音信號303之信號對雜訊比係經決定為高於該臨界值，則聲音調節最佳化器163可發送該經調節的聲音信號給處理器110。於圖3中，於311的經調節的聲音信號係顯示為連同使用者回授信號一起發送。然而，其中該等經調節的聲音信號經決定為具有足夠品質或否則為最佳之情況下，該等經調節的聲音信號(參考6)可獨立發送處理器110。然後，處理器110可通過網路介面130發送該等經調節的聲音信號給一或多個遠端通訊裝置180於315(參考7)。

其中聲音調節最佳化器163決定經調節的聲音信號303之品質係低於某個臨界值或於通訊連線階段期間已經變成降級之情況下，其可產生一品質回授信號於305(參考3)。於此等具體實施例中，聲音調節最佳化器163可藉品質回授信號305給聲音調節引擎161指示其須調整目前聲音調節功能或施用不同聲音調節技術。據此，回應於品質回授信號305，聲音調節引擎161可改變施加至輸入聲音信號301的雜訊消除及/或回音消除濾波。於通訊連線階段期間，藉聲音調節引擎161發送新近經調節的聲音信號303返回聲音調節最佳化器163用於評估，可重複該處理程序。據此，於通訊連線階段期間，聲音調節引擎161及聲音調節最佳化器163可即時或接近即時操作用以試圖校正次最佳經調節的聲音信號。

於經調節的聲音信號303為可接受之情況下，如前文描述，經調節的聲音信號315可前傳給接收遠端通訊裝置180。但若聲音調節引擎161改變或調諧聲音調節功能，而經調節的聲音信號303仍然無法為人接受，則聲音調節最佳化器163可對使用者相對於麥克風陣列170的定位決定一校正，其可能改良經調節的聲音信號303的品質。所決定的校正能用以產生一使用者回授訊息，其可並列或串列伴隨發送給處理器110的目前經調節的聲音信號311(參考6)。使用者回授訊息可包括指令，處理器110可執行該等指令用以產生指令而導引使用者205到與相對應麥克風陣列170及/或聲音調節技術相關聯的一最佳聲音調節區域225。此等指令可包括給使用者205移動接近或遠離麥克風陣列170及/或最佳敏感度區域220的指示。

處理器110可處理使用者回授訊息用以產生控制信號用於提供視覺或音訊回授給使用者205。舉例言之，根據使用者回授訊息於311，處理器110可產生音訊回授信號於317(參考8)給揚聲器175用以產生提示音，其可導引一使用者205返回最佳聲音調節區域225。舉例言之，提示音可包括紀錄的或合成的語音指令，其指示使用者205改變位置直到他或她相對於針對麥克風陣列170的最佳聲音調節區域225係在正確位置為止。

於其它具體實施例中，處理器110可以使用者回授訊息311為基礎而產生視覺回授信號313(參考9)。於此等實施例中，處理器110及/或圖形處理器115可產生一視覺指示，其可顯示給使用者205用以將其導引回最佳聲音調節區域225。於若干實施例中，視覺指示可包括一圖形使用者介面(GUI)具有箭頭或其它方向指示符相對應於回到區域225所需使用者定位的改變。箭頭或其它方向指示符可維持顯示及/或照光直到使用者205係在相對於麥克風170的正確定位為止。於又其它實施例中，視覺回授信號313使得顯示器105顯示由相機140所產生的先前擷取的或即時的房間210之視訊影像(例如，視訊會議期間擷取的影像)。處理器110或圖形處理器115可渲染一GUI疊置於房間210之影像上方。GUI可包括區域225(例如，環繞房間210在區域225內的該區之一輪廓外形，或該區域之若干其它強調)之所在位置的視覺指示符，讓使用者205可移動至房間210的相對應區域。舉例言之，房間210之即時影像可包括使用者205之一影像，其顯示該使用者205係在最佳聲音調節區域225內部或外部。

於另一個實施例中，視覺方向指示符，諸如箭頭，可重疊於房間210之影像上方用以指示使用者205須於哪個方向移動而返回最佳聲音調節區域225。當聲音調節最佳化器163評估從相對應於使用者205講話的聲音信號301所得的經調節的聲音信號303具有可接受的品質時，其可改變使用者回授訊息311，使得處理器110可停止在顯示器105上顯示視覺指示符。

根據使用通訊裝置100及/或麥克風陣列170於一特定房間210內執行的測試或校準，可預先決定最佳聲音調節區域225之所在位置。由聲音調節最佳化器163評估經調節的聲音信號303之臨界值品質可相對應於測試結果。然而，發送給遠端通訊裝置180的結果所得之經調節的聲音信號315針對遠端聲音再生系統而言可能次最佳。為了考慮遠端通訊裝置180的能力，本文揭示之具體實施例可包括聲音調節最佳化器163的功能用於接收遠端裝置品質回授信號309(參考4)。回應於遠端裝置回授信號309，聲音調節最佳化器163可產生相對應的使用者回授訊息於311，用以進一步導引一使用者205更加靠近一先前決定的最佳聲音調節區域225之中心或一新區域，先前決定的最佳聲音調節區域225可能或可能不重疊該新區域。使用遠端裝置品質回授信號309，聲音調節最佳化器163可進一步精製最佳聲音調節區域225，使得根據麥克風陣列170之特性、聲音調節引擎161之聲音調節功能、及遠端通訊裝置180之聲音再生能力可產生最佳可能的經調節的聲音信號315。

圖4例示前文參考圖1至圖3描述的各種特徵及元件。舉例言之，通訊裝置100之顯示器105係例示顯示具有視覺指示符415的一使用者回授訊息405-2。於所顯示的本特定實施例中，視覺指示符415包括多個箭頭，使用者205可使用該等箭頭導引自身返回最佳聲音調節區域225。同理，揚聲器175係例示為發射音訊回授訊息405-1，其可包括提示音用以導引使用者205返回最佳聲音調節區域225。如此處描述，音訊回授訊息405-1之提示音可包括語音指令或其它聲音，其指示使用者205須移動以便維持於或返回到最佳聲音調節區域225的方向。

也如圖4中例示者為根據品質回授信號305及遠端裝置品質回授信號309，最佳聲音調節區域225的精製。聲音調節最佳化器163可重新界定最佳聲音調節區域225成為一經更新的或經校正的最佳聲音調節區域227。雖然經校正的最佳聲音調節區域227係顯示為包含在先前最佳聲音調節區域225內部，但於本文揭示之各種實施例中，經校正的區域227可以或可不重疊或包含在原先區域225內部。

本文揭示之各種實施例包括參考聲音調節最佳化器163描述的功能。聲音調節最佳化器163可實現為硬體與軟體的任一種組合。為求清晰目的，聲音調節最佳化器163曾被描述為通訊裝置100的音訊處理器160之組件。然而，聲音調節最佳化器163也可實現為一獨立應用程式，具體實施為可由處理器110執行的一或多個類型的電腦可執行代碼用以支援外部應用程式或作業系統的功能。據此，聲音調節最佳化器163可在通用計算裝置上執行，諸如桌上型電腦、膝上型電腦、平板電腦、智慧型電話、智慧型電視等。為了進一步例示聲音調節最佳化器163之部分功能，圖4為可媲美聲音調節最佳化器163之功能的方法500實例之流程圖。

如圖5顯示，方法500可始於方塊510，其中聲音調節最佳化器163可接收一經調節的聲音信號。經調節的聲音信號可以是雜訊消除、回音消除、及其它音訊濾波器施加至由麥克風陣列170回應於外部刺激或音訊輸入，諸如檢測得的本地聲音所產生的原始或未經處理的聲音信號。於方塊520，聲音調節最佳化器163可評估經調節的聲音信號之品質。經調節的聲音信號之品質的評估可包括藉此可判斷品質的任何度量或量表。於若干實施例中，經調節的聲音信號之品質可由數值量表諸如信號對雜訊比表示。據此，經調節的聲音信號之品質的評估可包括該數值量表與一臨界值的比較。經調節的聲音信號之品質的臨界值可相對應於相關一房間210及/或一麥克風陣列170界定的一區域。

聲音調節引擎161可將其聲音調節能力(例如，聲音調節之品質評分)映射至房間210內的位置。舉例言之，聲音調節引擎161可決定於房間之特定位置檢測得的聲音可被調節至某個品質。經調節的聲音信號之品質可根據客觀或主觀標準而決定為可接受或不可接受。導致不可接受的經調節的聲音信號之所在位置可被界定為最佳聲音調節區域的外部。導致可接受的經調節的聲音信號之所在位置可被界定為最佳聲音調節區域。

經調節的聲音信號藉此被評估的標準可單純基於一使用者205的判斷，經調節的聲音信號在特定類型的遠端通訊裝置180導致提示音，其清晰地且易理解地表示一使用者話語的意義。於其它實施例中，該等標準可以更為客觀。舉例言之，所得提示音之振幅，又稱音量，唯有係落入於一特定範圍(例如，正常人類聽覺範圍)以內時才定義為可接受的。

其中聲音調節最佳化器163評估經調節的聲音信號之品質的實施例中，然後可決定經調節的聲音信號之品質是否為可接受的，於決定530。若該品質為可接受的，則聲音調節最佳化器163能夠繼續接收與監視經調節的聲音信號，及可重複510至530之處理。但若於決定530，聲音調節最佳化器163決定經調節的聲音信號之品質為不可接受的，則於540聲音調節最佳化器163可決定一使用者位置改變。決定一使用者位置改變可包括分析由聲音調節最佳化器163使用的量表用以決定經調節的聲音信號之品質的特徵。聲音調節最佳化器163可包括或已經存取資訊，其指示或映射經調節的聲音信號之品質到在房間內相對於麥克風陣列170及/或最佳聲音調節區域225的所在位置之相關性。使用此項資訊，聲音調節最佳化器163可決定使用者205應該如何改變位置以移動更靠近區域225(或經校正的區域227)。

於550，聲音調節最佳化器163可產生一使用者回授訊息用以指示使用者位置改變。於各種實施例中，使用者回授訊息可由通訊裝置100或其若干組件使用而產生一回授信號。回授信號可轉換成音訊或視覺回授信號，可用以產生視覺指示符或音訊指示符而導引使用者205到最佳聲音調節區域225。

於依據本文揭示之各種具體實施例中，聲音調節引擎161及聲音調節最佳化器163可實現為通訊裝置100的組件。據此，聲音調節最佳化器163之功能可含括於通訊裝置100之一或多個其它組件。舉例言之，如圖中例示，聲音調節引擎161及聲音調節最佳化器163可含括於音訊處理器160內。但聲音調節引擎161及/或聲音調節最佳化器163的功能可實現為硬體與軟體的組合(例如，在處理器110上執行的應用程式)。另外，音訊處理器160、聲音調節引擎161及/或聲音調節最佳化器163的功能可於一或多個特定應用積體電路(ASIC)實現。

圖6為依據本文揭示用於操作通訊裝置100其包括聲音調節最佳化功能的一種方法600之流程圖。方法600可始於610，其中該通訊裝置開始與一或多個遠端通訊裝置的通訊連線階段。舉例言之，通訊裝置100可起始或參與使用各種電子通訊協定及媒體的電訊會議或視訊會議。

於620，通訊裝置100可使其產生相對應於通訊連線階段的本地聲音信號。舉例言之，通訊裝置100可檢測在通訊連線階段之對話期間使用麥克風陣列170檢測得的一(多)使用者205的話語。麥克風陣列170可產生相對應於本地使用者205的話語之原始及/或經處理的聲音信號。

於630，通訊裝置可調節本地聲音信號用以產生一經調節的聲音信號。經調節的聲音可來自於多種操作或濾波(例如，雜訊/回音消除操作)施用至本地聲音信號上。經調節的聲音信號意圖用以產生相對應提示音，其以足夠的品質及清晰度而再生由麥克風陣列170檢測得的聲音，因而容易理解及以其它方式由利用遠端通訊裝置180參與通訊連線階段的遠端使用者容易瞭解。

於640，通訊裝置100可對經調節的聲音信號產生一品質評分。如此處描述，經調節的聲音信號之品質可基於施用至本地聲音信號用以分開期望的聲音與非期望的聲音之聲音調節效果。舉例言之，品質評分可相對應於一使用者能夠區別主講者的語音相較於周圍或背景雜音的清晰程度。若於決定650，通訊裝置100決定經調節的聲音信號之品質評分係高於一臨界值，則於660，經調節的聲音信號可發送給一遠端通訊裝置。但若於決定650，通訊裝置100決定經調節的聲音信號之品質評分係低於該預定品質臨界值，則通訊裝置100可產生相對應於一使用者位置改變的一回授信號。

回授信號可包括指令，其可用以產生音訊或視覺指示符，用於導引使用者到麥克風陣列170及/或通訊裝置100的相關位置，其中所施用的聲音調節可能更有效地產生一可接受的經調節的聲音信號品質。於此等實施例中，通訊裝置100可即時或接近即時監控於660傳輸給遠端裝置的經調節的聲音信號之品質，因而給使用者提供指南用於改進作用態通訊連線階段期間所發送的音訊的品質。據此，本文揭示之實施例優異地許可使用者對其位置作校正，而確保針對通訊連線階段的其它參與者最佳可能的音訊品質。

於660，其中經調節的聲音信號具有足夠品質的情況下，通訊裝置100可發送經調節的聲音信號給遠端通訊裝置而不產生一本地回授信號。於670，回應於經調節的聲音信號，通訊裝置100可自遠端通訊裝置180接收一品質回授信號指示所傳輸的經調節的聲音信號之品質的評估。

於決定680，通訊裝置100可決定來自遠端裝置的品質回授信號是否指示經調節的聲音信號之品質係高於一臨界值。若遠端品質回授信號指示品質為可接受的，則通訊裝置可繼續產生相對應於通訊連線階段的本地聲音信號及重複動作620-640，直到遠端品質回授信號指示經調節的聲音信號之品質係低於該臨界值為止。於此種情況下，通訊裝置100可產生相對應於一使用者位置改變的一回授信號，如前文描述。只要通訊連線階段為作用態，動作610至690可重複。

此等及其它變更、修改、添加、及改良可落入於隨附之申請專利範圍之範疇內。如於此處詳細說明部分及後文申請專利範圍全文中使用，除非脈絡另行明白指示否則「一(a)」、「一(an)」、及「該」包括複數形。又，如於此處詳細說明部分及後文申請專利範圍全文中使用，除非脈絡另行明白指示否則「於」之意義包括「於其內」及「於其上」。

100‧‧‧通訊裝置

140‧‧‧相機

170‧‧‧麥克風陣列

175‧‧‧揚聲器

200‧‧‧場景

205-1~4‧‧‧使用者

210‧‧‧房間

220‧‧‧最佳敏感度區域

Claims

一種通訊裝置，其包含：一麥克風陣列用以檢測聲音及用以產生相對應於該等聲音的聲音信號，其中該等聲音包含一使用者的話語及其它聲音；及耦接至該麥克風陣列的一音訊處理器用以在該等聲音信號上執行聲音調節而分開該使用者的該等話語與該等其它聲音而生成經調節的聲音信號，用以監視該等經調節的聲音信號之聲音調節品質，及用以產生相對於該麥克風陣列的一方向性使用者位置改變相對應的使用者回授信號而變更該聲音調節品質。
如請求項1之通訊裝置，其進一步包含耦接至該音訊處理器的一揚聲器用以產生相對應於該等使用者回授信號其指示該方向性使用者位置改變的提示音。
如請求項2之通訊裝置，其中該等提示音包含口頭語言指令。
如請求項1之通訊裝置，其進一步包含耦接至該音訊處理器的一顯示裝置用以產生相對應於該等使用者回授信號其指示該方向性使用者位置改變的視覺指示符。
如請求項4之通訊裝置，其進一步包含一相機用以擷取該通訊裝置設置於其中的一環境之一影像，及其中該視覺指示符包括該環境之該影像及方向指示符疊置於該影像上其指示該方向性使用者位置改變。
如請求項1之通訊裝置，其中該等其它聲音包含雜訊或回音，及該聲音調節品質包含於該等經調節的聲音信號中該等話語與該雜訊或該等回音之該分開的一度量。
如請求項1之通訊裝置，其進一步包含耦接至該音訊處理器之一網路介面用以經由一相對應於通訊網路發送該等經調節的聲音信號到一遠端通訊裝置，及其中為了產生該等使用者回授信號，該音訊處理器自該遠端通訊裝置接收一遠端回授信號包含該等話語與該等其它聲音之該分開的一度量之一指示。
一種非暫態儲存媒體包含可由包含一麥克風陣列之一計算裝置的一處理器執行的指令，該等指令可執行用以：接收一經調節的聲音信號，其中該經調節的聲音信號為在由包含一使用者的一話語之該麥克風陣列所產生的一聲音信號上執行一雜訊消除或回音消除操作的一產物；評估該經調節的聲音信號之一品質；決定該經調節的聲音信號之該品質已經降級；及針對該使用者決定一方向性使用者位置改變用以校正該已降級的經調節的聲音信號。
如請求項8之儲存媒體，其中該等指示係進一步可執行用以產生一使用者回授訊息而指示該方向性使用者位置改變。
如請求項8之儲存媒體，其中該方向性使用者位置改變包含相對於該麥克風陣列的一方向之一指示。
一種於一通訊裝置內最佳化聲音調節之處理器具體實施方法，其包含：產生一本地聲音信號相對應於由耦接至該通訊裝置之一麥克風陣列所檢測的一使用者的話語及其它聲音；調節該本地聲音信號用以將該使用者的該等話語與該等其它聲音分開而產生一經調節的聲音信號；評估該經調節的聲音信號用以產生針對該經調節的聲音信號之一本地品質評分；當該經調節的聲音信號之該本地品質評分係低於與該通訊裝置相關聯的一臨界值時，產生一本地回授訊息指示一本地方向性使用者位置改變。
如請求項11之方法，其進一步包含：發送該經調節的聲音信號給一遠端裝置；接收回應於該經調節的聲音信號來自該遠端裝置之一遠端品質回授信號；及當該遠端品質回授信號指示該經調節的聲音信號的該品質係低於與該遠端裝置相關聯的一臨界值時，產生一二次回授訊息指示一二次方向性使用者位置改變。
如請求項11之方法，其中該本地品質評分為於該經調節的聲音信號中該等話語與該等其它聲音分開之一度量。
如請求項11之方法，其中該本地回授訊息包含針對該使用者相對於該麥克風陣列於至少一個方向移動的指令。
如請求項11之方法，其進一步包含產生該本地方向性使用者位置改變的一視覺或音訊指示。