TWI466108B

TWI466108B - 音訊處理方法與音訊處理裝置

Info

Publication number: TWI466108B
Application number: TW101127645A
Authority: TW
Inventors: Kim Yeung Sip
Original assignee: Acer Inc
Priority date: 2012-07-31
Filing date: 2012-07-31
Publication date: 2014-12-21
Also published as: TW201405551A

Description

音訊處理方法與音訊處理裝置

本發明是有關於一種音訊處理方法與音訊處理裝置，且特別是有關於一種結合影像處理的音訊處理方法與音訊處理裝置。

隨著技術的進步，智慧型手機或具有語音處理功能的行動裝置可提供語音通訊或語音控制的功能。在語音相關的訊號處理當中，如何取得訊雜比(signal to noise ratio)較高的聲音訊號始終是一個重要的問題。一般來說，為了清晰的取得使用者的聲音訊號，必須限制使用者接近收音器來說話。例如，使用者必須使用可收音的耳機，或者是用手持的方式將收音器接近嘴巴。然而，如何讓這些限制減少，但也同時能接收清晰的聲音訊號是這個領域的研究人員所關心的議題。

在本發明的實施例中提出一種音訊處理方法與音訊處理裝置，用以提高聲音訊號的訊雜比。

本發明在一實施例中提出一種音訊處理方法，用於音訊處理裝置。此音訊處理裝置包括多個收音裝置，此方法包括：透過影像擷取單元取得使用者的影像；根據所述的影像取得使用者相對於音訊處理裝置的音源方向；以及根據所述的音源方向對收音裝置取得的多個第一聲音訊號執行波束成型(beamforming)演算法，以取得來自音源方向的第二聲音訊號。

在一實施例中，上述根據影像取得使用者相對於音訊處理裝置的音源方向的步驟包括：從影像中偵測使用者的嘴巴部份；以及根據嘴巴部份取得使用者相對於音訊處理裝置的音源方向。

在一實施例中，上述的音訊處理方法更包括：取得使用者的預設影像，並將此預設影像儲存在資料庫中。上述根據影像取得使用者相對於音訊處理裝置的音源方向的步驟包括：偵測影像中至少一個測試人臉部份；根據資料庫辨識所述測試人臉部份中屬於使用者的第一測試人臉部份；以及根據第一測試人臉部份取得使用者相對於音訊處理裝置的音源方向。

在一實施例中，上述的音訊處理方法更包括：取得多個第三聲音訊號以及每一個第三聲音訊號的強度；取得這些強度中的一個最大強度，並取得第三聲音訊號中對應於最大強度的最大強度聲音訊號；根據最大強度聲音訊號取得音源方向；以及，根據音源方向辨識使用者。

在一實施例中，上述在透過影像擷取單元取得使用者的影像的步驟之前還更包括：取得第三聲音訊號；判斷第三聲音訊號是否包括一個關鍵字；以及，若第三聲音訊號包括此關鍵字，執行所述取得使用者的影像的步驟。

以另外一個角度來說，本發明一實施例還提出一種音訊處理裝置，此音訊處理裝置包括多個收音裝置與處理單元。這些收音裝置是用以接收多個第一聲音訊號。處理單元是耦接至收音裝置，用以透過影像擷取單元取得使用者的影像。處理單元也用以根據所述的影像取得使用者相對於音訊處理裝置的音源方向，並且根據此音源方向對第一聲音訊號執行波束成型(beamforming)演算法，以取得來自此音源方向的第二聲音訊號。

在一實施例中，上述的處理單元還用以從影像中偵測使用者的嘴巴部份，並且根據嘴巴部份取得使用者相對於音訊處理裝置的音源方向。

在一實施例中，上述的處理單元更用以取得使用者的預設影像，並將預設影像儲存在一個資料庫中。處理單元更用以偵測影像中的至少一個測試人臉部份，並且根據此資料庫辨識所述測試人臉部份中屬於使用者的第一測試人臉部份。處理單元還用以根據第一測試人臉部份取得使用者相對於音訊處理裝置的音源方向。

在一實施例中，上述的處理單元更用以取得多個第三聲音訊號以及每一個第三聲音訊號的強度。處理單元更用以取得這些強度中的一個最大強度，並取得第三聲音訊號中對應於此最大強度的最大強度聲音訊號。處理單元更用以根據最大強度聲音訊號取得音源方向，並且根據音源方向辨識使用者。

在一實施例中，上述的處理單元更用以取得一個第三聲音訊號，並且判斷第三聲音訊號是否包括一個關鍵字。若第三聲音訊號包括此關鍵字，處理單元更用以執行所述取得使用者的影像的步驟。

基於上述，本發明實施例提出的音訊處理方法與音訊處理裝置，可以用影像處理的方式自動地取得使用者的音源方向，以便透過音訊處理的方式提高聲音訊號的訊雜比。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是根據一實施例說明音訊處理裝置的範例示意圖。

音訊處理裝置100包括處理單元110、收音裝置121~123與影像擷取單元130。例如，音訊處理裝置100為智慧型手機。然而，在其他實施例中，處理單元110也可為個人電腦、筆記型電腦、平板電腦、伺服器、具有麥克風的網路攝影機等，本發明並不在此限。

處理單元110用以執行多個指令並處理聲音訊號。例如，處理單元110為中央處理器(central processing unit，CPU)。然而，處理單元110也可為微處理器或特殊應用積體電路(application-specific integrated circuit，ASIC)，本發明並不在此限。

收音裝置121~123是耦接至處理單元110，用以接收聲音訊號。例如，收音裝置121~123為麥克風。在此實施例中，音訊處理裝置100配置了三個收音裝置121~123。然而，在其他實施例中，音訊處理裝置100也可以配置數目更多或更少的收音裝置，本發明並不在此限。

影像擷取單元130是用以拍攝數位影像。例如，影像擷取單元130是包括了感光元件、鏡頭、快門與光圈的裝置。在一實施例中，影像擷取單元130也可以是配置在音訊處理裝置100之外，而處理單元110可以透過一個通訊介面取得影像擷取單元130所拍攝的影像，本發明並不在此限。

在其他實施例中，音訊處理裝置100也可以配置顯示單元、鍵盤、通訊介面、記憶體、或者是全球定位系統(global positioning system，GPS)，本發明並不在此限。

圖2是根據一實施例說明接收不同音源方向的聲音訊號的範例示意圖。

請參照圖2，音訊處理裝置100例如為一個智慧型手機，收音裝置121~123則為麥克風。值得注意的是，收音裝置121~123彼此之間有一段距離，因此不同的收音裝置在接收同一個聲音訊號時會有不同的延遲。舉例來說，發出聲音訊號201的使用者離收音裝置122較近(相對於收音裝置121與123)，因此收音裝置122會先接收到聲音訊號201。在收音裝置122接收到聲音訊號201的一段時間以後，收音裝置121與123也會接收到聲音訊號201。由於不同的收音裝置對同一個聲音訊號接收的時間並不相同，因此音訊處理裝置100可以使用波束成型(beamforming)演算法來處理聲音訊號201。例如，音訊處理裝置100可採用延遲與總和(delay-and-sum)演算法來處理聲音訊號201，藉此提高聲音訊號201的訊雜比。然而，在執行波束成型演算法時，音訊處理裝置100必需得知發出聲音訊號201的使用者相對於音訊處理裝置100的音源方向，這是因為不同的音源方向會影響波束成型演算法的結果。在本實施例中，音源方向可以用水平角度以及垂直角度來表示。例如，聲音訊號201與聲音訊號202有相對應不同的水平角度，但有相同的垂直角度。當使用延遲與總和演算法時，聲音訊號的處理可以用方程式(1)來表示。

其中，M為收音裝置的個數(在本實施例中為3)，t表示時間。d_i 為第i個收音裝置到下一個收音裝置的距離。θ表示聲音訊號對於收音裝置的角度(可以是水平角度或是垂直角度)。λ為聲音訊號的波長。x_i (t)為第i個收音裝置在時間t所接收到的聲音訊號。因此，將不同的收音裝置在時間t所接收到的聲音訊號x_i (t)做延遲處理與平均值運算以後，便可以取得聲音訊號y(t)。

由於收音裝置121~123形成一個平面，因此音訊處理裝置100可以處理的音源方向包括了水平方向與垂直方向。然而，音訊處理裝置100可以處理的音源方向跟收音裝置121~123的配置位置有關，本發明並不限制收音裝置121~123的配置位置。另一方面，其他實施例中，處理單元110也可以使用其他的波束成型演算法，本發明並不在此限。

圖3A與圖3B是根據一實施例說明取得使用者相對於音源處理裝置的音源方向的示意圖。

請參照圖3A，處理單元110會透過影像擷取單元130取得一特定人選的影像，例如使用者301的影像。並且，處理單元110會根據所取得影像辨識出使用者301的位置並取得使用者301相對於音訊處理裝置100的音源方向303(為了簡化，只繪示垂直角度)。接下來，處理單元110可以根據音源方向303來對聲音訊號121~123所接收到的聲音訊號(亦稱第一聲音訊號，例如為方程式(1)中所述的x_i (t))執行波束成型演算法，以取得來自音源方向303的聲音訊號(亦稱第二聲音訊號，例如為方程式(1)中所述的y(t))。換言之，處理單元110是先用影像處理的方式取得音源方向303，再用音訊處理的方式來提高所取得聲音訊號的訊雜比。

本實施例中，處理單元110是先偵測使用者301的一個嘴巴部分，並且根據這個嘴巴部分來取得音源方向303。舉例來說，在影像擷取單元130取得使用者301的影像以後，處理單元110會先取得影像中的多個特徵值(feature value)，並且可以透過機器學習的方式來偵測出嘴巴部份。在偵測出嘴巴部份以後，便可以根據嘴巴部份在影像中的位置，取得音源方向303。然而，在其他實施例中，處理單元110也可以透過偵測使用者301的人臉部份、身體部份、或是使用者301身上所穿戴的特殊配件，來取得音源方向303，本發明並不在此限。而處理單元110所使用機器學習方式可以是支持向量機(support vector machine，SVM)或是適應性增強(adaptive boosting,AdaBoost)演算法，但本發明並不在此限。或者，處理單元110也可以使用其他影像處理方式取得嘴巴部份或人臉部份，本發明並不限制處理單元110是否要使用機器學習的方式。

請參照圖3B，當使用者301移動位置以後，處理單元110也可以用影像處理的方式繼續追蹤使用者301的新位置，並取得音源方向305。接著，處理單元110便可以根據音源方向305對聲音訊號304執行波束成型演算法。藉此，不管使用者301的位置在哪裡，音訊處理裝置100都可以提高來自於使用者301的聲音訊號的訊雜比。

圖4是根據一實施例說明影像中有多個使用者的範例實施例中。

請參照圖4，當影像擷取單元130拍攝的影像中有多個使用者時(例如，影像400包括了使用者301與401)，處理單元110可以用影像處理的方式鎖定其中一個使用者。具體來說，使用者301可以事先輸入自己的預設影像(例如，臉部影像)。處理單元110會取得此預設影像，並把此預設影像儲存在一個資料庫中。例如，此資料庫是建立在音訊處理裝置100的儲存單元(未繪示)中。在另一實施例中，此資料庫是紀錄在遠端的伺服器中，處理單元110也可以透過網路傳輸的方式來存取這個資料庫，本發明並不在此限。當取得影像400以後，處理單元110可執行一個人臉偵測演算法來取得影像400中的測試人臉部份411與412。處理單元110會根據所述的資料庫來比對測試人臉部份411、412與使用者301事先輸入的預設影像，藉此辨識出測試人臉部份412(亦稱第一測試人臉部份)是屬於使用者301。接下來，處理單元110便可以根據測試人臉部份412取得使用者301相對於音訊處理裝置100的音源方向。

在另一實施例中，處理單元110也可以根據聲音訊號的強度來鎖定一個使用者。具體來說，處理單元110會接收來自於使用者301的聲音訊號和來自於使用者401的聲音訊號(亦統稱為多個第三聲音訊號)，並且取得這些聲音訊號的強度。處理單元110會取得這些強度中最大的一個(亦稱為最大強度)，並且取得對應此最大強度的聲音訊號(亦稱為最大強度聲音訊號)。在此假設使用者301的聲音訊號的強度大於使用者401的聲音訊號的強度，也就是說，使用者301的聲音訊號為最大強度聲音訊號。接下來，處理單元110便可以根據最大強度聲音訊號取得一個音源方向，並且辨識出在此音源方向的使用者301。換言之，在一實施例中，當處理單元110偵測到收音裝置121~123所接收到的聲音訊號中包括多個使用者的聲音訊號時，會鎖定在講話最大聲的使用者。接下來，處理單元110便可以透過影像處理的方式持續的追蹤講話最大聲的使用者相對於音訊處理裝置100的音源方向。

在另一實施例中，處理單元110也可以用關鍵字來啟動上述取得音源方向的步驟。舉例來說，在處理單元110取得收音裝置121~123所接收到聲音訊號(亦稱第三聲音訊號)後，會辨識這些聲音訊號中是否包括一個關鍵字(例如，炸彈)。若處理單元110判斷這些聲音訊號中包括了此關鍵字，便會控制影像擷取單元130取得一個影像，並開始執行上述根據影像取得音源方向的步驟。也就是說，音訊處理裝置100可以被當作一個監聽系統，用以在使用者沒察覺的情況下紀錄使用者說的話。值得注意的是，此關鍵字可以包含一或多個字，本發明並不在此限。

在另一實施例中，關鍵字及預設影像的資料庫可綜合使用。例如，若處理單元110判斷所擷取的關鍵字包含一個特定人選的姓名，例如判斷接收到「小美」的關鍵字。在一實施例中，並不限定特定人選「小美」是音訊處理裝置100的擁有者。在影像擷取單元130取得影像之後，會先比對影像中是否有符合「小美」的特定人選，若有，則以特定人選小美相對於音訊處理裝置100的方向為音源方向。

圖5是根據一實施例說明音訊處理方法的流程圖。

請參照圖5，在步驟S502中，處理單元110會透過影像擷取單元取得特定人選的影像。在步驟S504中，處理單元110會根據所述影像取得特定人選相對於音訊處理裝置的音源方向。在步驟S506中，處理單元110會根據所述音源方向對收音裝置取得的聲音訊號執行波束成型演算法，以取得來自所述音源方向的聲音訊號。然而，圖5中各步驟已詳細說明如上，在此便不再贅述。

綜上所述，本發明實施例提出的音訊處理方法與音訊處理裝置，是先用影像處理的方式取得一個音源方向，再用音訊處理的方式來提高聲音訊號的訊雜比。藉此，在一實施例中，並不限制特定人選一定要靠近收音裝置，但也可以自動地鎖定特定人選並且取得清晰的聲音訊號。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧音訊處理裝置

110‧‧‧處理單元

121~123‧‧‧收音裝置

130‧‧‧影像擷取單元

201、202、302、304‧‧‧聲音訊號

301、401‧‧‧使用者

303、305‧‧‧音源方向

400‧‧‧影像

411、412‧‧‧測試人臉部份

S502、S504、S506‧‧‧音訊處理方法的步驟

圖1是根據一實施例說明音訊處理裝置的範例示意圖。

圖5是根據一實施例說明音訊處理方法的流程圖。

S502、S504、S506‧‧‧音訊處理方法的步驟

Claims

一種音訊處理方法，用於一音訊處理裝置，其中該音訊處理裝置包括多個收音裝置，該方法包括：透過一影像擷取單元，取得一特定人選的一影像；根據該影像，取得該特定人選相對於該音訊處理裝置的一音源方向；以及根據該音源方向對該些收音裝置取得的多個第一聲音訊號執行一波束成型(beamforming)演算法，以取得來自該音源方向的一第二聲音訊號。
如申請專利範圍第1項所述之音訊處理方法，其中根據該影像，取得該特定人選相對於該音訊處理裝置的該音源方向的步驟包括：從該影像中，偵測該使用者的一嘴巴部份；以及根據該嘴巴部份，取得該特定人選相對於該音訊處理裝置的該音源方向。
如申請專利範圍第1項所述之音訊處理方法，更包括：取得該特定人選的一預設影像，並將該預設影像儲存在一資料庫中，其中根據該影像，取得該特定人選相對於該音訊處理裝置的該音源方向的步驟包括：偵測該影像中的至少一測試人臉部份；根據該資料庫，辨識所述測試人臉部份中，屬於特定人選的一第一測試人臉部份；以及根據該第一測試人臉部份，取得該特定人選相對於該音訊處理裝置的該音源方向。
如申請專利範圍第1項所述之音訊處理方法，更包括：取得多個第三聲音訊號以及每一該些第三聲音訊號的一強度；取得該些強度中的一最大強度，並取得該些第三聲音訊號中對應於該最大強度的一最大強度聲音訊號；根據該最大強度聲音訊號取得該音源方向。
如申請專利範圍第1項所述之音訊處理方法，其中在透過該影像擷取單元，取得該特定人選的該影像的步驟之前還更包括：取得一第三聲音訊號；判斷該第三聲音訊號是否包括一關鍵字；以及若該第三聲音訊號包括該關鍵字，執行所述取得該特定人選的該影像的步驟。
一種音訊處理裝置，包括：多個收音裝置，用以接收多個第一聲音訊號；以及一處理單元，耦接至該些收音裝置，用以透過一影像擷取單元取得一特定人選的一影像，其中，該處理單元用以根據該影像取得該特定人選相對於該音訊處理裝置的一音源方向，並且根據該音源方向對該些第一聲音訊號執行一波束成型(beamforming)演算法，以取得來自該音源方向的一第二聲音訊號。
如申請專利範圍第6項所述之音訊處理裝置，其中該處理單元還用以從該影像中偵測該特定人選的一嘴巴部份，並且根據該嘴巴部份取得該特定人選相對於該音訊處理裝置的該音源方向。
如申請專利範圍第6項所述之音訊處理裝置，其中該處理單元更用以取得該特定人選的一預設影像，並將該預設影像儲存在一資料庫中，該處理單元更用以偵測該影像中的至少一測試人臉部份，根據該資料庫辨識所述測試人臉部份中屬於該特定人選的一第一測試人臉部份，以及根據該第一測試人臉部份，取得該特定人選相對於該音訊處理裝置的該音源方向。
如申請專利範圍第6項所述之音訊處理裝置，其中該處理單元更用以取得多個第三聲音訊號以及每一該些第三聲音訊號的一強度，該處理單元更用以取得該些強度中的一最大強度，並取得該些第三聲音訊號中對應於該最大強度的一最大強度聲音訊號，該處理單元更用以根據該最大強度聲音訊號取得該音源方向，並且根據該音源方向辨識該特定人選。
如申請專利範圍第6項所述之音訊處理裝置，其中該處理單元更用以取得一第三聲音訊號，判斷該第三聲音訊號是否包括一關鍵字，若該第三聲音訊號包括該關鍵字，該處理單元更用以執行所述取得該特定人選的該影像的步驟。