TWI520127B

TWI520127B - 應用於音訊裝置的控制器與相關的操作方法

Info

Publication number: TWI520127B
Application number: TW102130888A
Authority: TW
Inventors: 黃宏吉; 胡正倫
Original assignee: 晨星半導體股份有限公司
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2016-02-01
Also published as: US20150063580A1; US9336793B2; TW201508735A

Description

應用於音訊裝置的控制器與相關的操作方法

本發明係關於一種應用於音訊裝置的控制器與相關的操作方法，尤指一種能以低運算量有效改善收音效果的音訊裝置控制器與相關操作方法。

能收集及/或播放聲音的音訊裝置已在現代資訊生活中扮演重要的角色；再者，具有聲控功能的裝置也可視為音訊裝置。舉例而言，音訊裝置可以涵蓋手機、數位相機/攝影機、可發音並接受聲控的導航/定位裝置、穿戴式/手持式/可攜式的計算機/電子書/電子字典/電腦、具有聲控功能的電視、音響、多媒體播放器、玩具乃至於互動藝術作品等等。

請參考第1圖，其所示意的是一習知的音訊裝置10，其可播放聲音，並可接受聲控。音訊裝置10包括有麥克風12a與12b，揚聲器14a與14b，一控制器20，一音訊輸出模組23與一播放模組24。麥克風12a與12b用以收音，並將收集到的聲音轉換為訊號Si_L與Si_R。訊號Si_L與Si_R會被傳輸至控制器20。

控制器20包括一波束成型(beam forming)模組16、一回音消除(echo cancellation)模組18與一語音辨識模組22。音訊輸出模組23可提供訊號Sp_L與Sp_R作為音源訊號，播放模組24可依據訊號Sp_L與Sp_R進行播放，例如說是依據訊號Sp_L與Sp_R分別驅動揚聲器14a與14b，以將訊號Sp_L與Sp_R播放為聲音。

為了實現聲控的功能，音訊裝置10必須聚焦於使用者的位置以集中收集使用者發出的聲控命令，並避免揚聲器14a與14b的播音影響收音，因為揚聲器14a與14b播出的聲音會形成回音，並被麥克風12a與12b接收。在習知音訊裝置10的控制器20中，波束成型模組16便是要利用訊號Si_L與Si_R進行波束成型處理，並據以提供訊號Sm1；波束成型的目的是在訊號Sm1中加強某一聚焦區域內的聲音，並減抑其他非聚焦區域的聲音干擾。回音消除模組18則依據訊號Sp_R來對訊號Sm1進行回音消除，據以提供訊號Sm2。然後，語音辨識模組22便可利用訊號Sm2來進行語音辨識，由訊號Sm2中辨識出是否有聲控命令及命令的內容，使控制器20能據以控制音訊裝置10。

由第1圖可知，習知音訊裝置10係在進行波束成型之後進行回音消除。在此習知架構下，雖然控制器20僅需單一回音消除模組18而降低運算量，但波束成型會破壞回音的線性特性，產生非線性的訊號，使回音消除模組18無法完全消除回音，連帶影響語音辨識的正確性與辨識率。

為克服習知技術的缺點，本發明的目的之一係提供一種可運用於一音訊裝置的控制器。本發明控制器可接收由兩麥克風分別提供的一第一收音訊號與一第二收音訊號，並包括一回音消除模組與一波束成型模組。回音消除模組對第一收音訊號進行回音消除並據以提供一中介訊號。波束成型模組耦接回音消除模組與第二收音訊號，以中介訊號與第二收音訊號進行波束成型(beam forming)處理，據以提供一輸出訊號；其中，第二收音訊號不經回音消除處理。控制器更可包括一語音辨識模組，耦接該波束成型模組，對輸出訊號進行語音辨識，並依據語音辨識的結果控制音訊裝置。

本發明音訊裝置可以包括一或多個揚聲器、一音訊輸出模組與一播放模組。音訊輸出模組用以為各揚聲器提供一音源訊號，播放模組依據各音訊訊號來使各揚聲器播放對應的聲音，而回音消除模組則可依據音源訊號來對第一收音訊號進行回音消除。

本發明的目的之一係提供一種應用於一音訊裝置的操作方法，包括：分別自一第一麥克風與一第二麥克風接收一第一收音訊號與一第二收音訊號，對第一收音訊號進行一回音消除處理並據以提供一中介訊號，以及，依據中介訊號與第二收音訊號進行一波束成型處理並據以提供一輸出訊號；其中，第二收音訊號係未經回音消除處理。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下：

10、30、50‧‧‧音訊裝置

12a-12b、32a-32b、52a-52b‧‧‧麥克風

14a-14b、34a-34b、54a-54b‧‧‧揚聲器

16、36、56‧‧‧波束成型模組

18、38a-38b、58‧‧‧回音消除模組

20、40、60‧‧‧控制器

22、42、62‧‧‧語音辨識模組

23、43、63‧‧‧音訊輸出模組

24、44、64‧‧‧播放模組

Si_L/Si_R、Sm1、Sm2、Sp_L/Sp_R、Sm_R/Sm_L、Si_a/Si_b、Sp_a/Sp_b、S1、S2‧‧‧訊號

100‧‧‧流程

102-108‧‧‧步驟

第1圖示意的是一習知音訊裝置的控制器架構。

第2圖示意的是一音訊裝置及其控制器。

第3圖示意的是依據本發明一實施例的音訊裝置及其控制器。

第4圖舉例比較第1圖至第3圖的回音消除效果與運算量。

第5圖示意的是依據本發明一實施例的操作方法流程。

請參考第2圖，其所示意的是一音訊裝置30。音訊裝置30亦可播放聲音並接受聲控，其包括有麥克風32a與32b，揚聲器34a與34b，一控制器40，一音訊輸出模組43與一播放模組44。麥克風32a與32b用以收音，據以提供電子訊號Si_L與Si_R，並傳輸至控制器40。

控制器40包括兩回音消除模組38a與38b、一波束成型模組36與一語音辨識模組42。音訊輸出模組43可提供訊號Sp_L與Sp_R作為音源訊號，播放模組44依據訊號Sp_L與Sp_R控制揚聲器34a與34b，以將訊號Sp_L與Sp_R播放為聲音。

為了實現聲控的功能，音訊裝置30同樣必須聚焦收音，並避免揚聲器34a與34b的播放回音干擾收音。在音訊裝置30的控制器40中，回音消除模組38a與38b會先依據訊號Sp_L與Sp_R而分別從訊號Si_L與Si_R中消除回音，並產生訊號Sm_L與Sm_R。然後，由波束成型模組36利用訊號Sm_L與Sm_R進行波束成型處理，並據以產生訊號Sm2，作為一輸出訊號。如此，語音辨識模組42便可利用訊號Sm2來進行語音辨識，以使控制器40能據以控制音訊裝置30。

異於第1圖習知技術，第2圖的控制器架構係先進行兩路的均衡回音消除，再進行波束成型，以避免回音特性被波束成型破壞。不過，第2圖兩路均衡回音消除可能需耗費較多運算量。

請參考第3圖，其所示意的是依據本發明一實施例的音訊裝置50。舉例而言，音訊裝置50可以是一個可播放聲音且可接受聲控的裝置，例如一聲控電視或一聲控的多媒體播放器。音訊裝置50可以包括一或多個麥克風(例如麥克風52a與52b)，一或多個揚聲器(例如揚聲器54a與54b)，一音訊輸出模組63，一播放模組64以及一控制器60。麥克風52a與52b用以收音，並分別將收集到的聲音轉換為電子訊號Si_a與Si_b(可視為第一與第二收音訊號)，傳輸至控制器60。

控制器60可以是一處理器或控制器晶片，也可以包括控制器晶片的週邊支援電路及/或硬體，如揮發性及/或非揮發性記憶體等等。控制器60可包括單一回音消除模組58、一波束成型模組56與一語音辨識模組62。在音訊裝置50中，音訊輸出模組63可提供訊號Sp_a與Sp_b(可視為音源訊號)，播放模組64則依據訊號Sp_a與Sp_b驅動揚聲器54a與54b，以將訊號Sp_a與Sp_b播放為對應的聲音。舉例而言，音訊輸出模組63可以包括音訊編解碼(audio codec)模組，用以從一立體聲的音源串流(未繪示)中提取出不同聲道的訊號以分別作為不同揚聲器的音源訊號，例如揚聲器54a與54b的訊號Sp_a與Sp_b。

音訊裝置50可聚焦收音，並抑制揚聲器播音所導致的回音。舉例而言，為了實現聲控的功能，音訊裝置50可聚焦於使用者的位置以集中收集使用者發出的聲控命令，並避免揚聲器54a與54b的播音影響收音。在控制器60中，回音消除模組58耦接於麥克風52a、波束成型模組56與音訊輸出模組63，接收訊號Sp_a，以參考訊號Sp_a來對訊號Si_a進行回音消除，並據以提供訊號S1作為一中介訊號。波束成型模組56耦接回音消除模組58、麥克風52b與語音辨識模組62，可利用訊號S1與麥克風52b的訊號Si_b進行波束成型處理，據以提供一訊號S2作為一輸出訊號。語音辨識模組62耦接波束成型模組56，對訊號S2進行語音辨識，使控制器60得以依據語音辨識的結果控制音訊裝置50。

由第3圖可知，本發明控制器60係將回音消除安排在波束成型之前，如此，便可避免波束成型的非線性訊號影響回音消除的效果，也進一步防止波束成型干擾語音辨識率與正確性。舉例而言，回音消除可利用正規化最小平方誤差(NLMS，Normalized Least Mean Square)演算法來進行，但在對某一輸入之音源訊號進行回音消除時，若該訊號經過越多的處理(例如空間反射、非線性共振及/或波束成型等等)，便越難以利用處理後的音源訊號經由NLMS演算法去逼近輸入回音的適應性濾波器係數。所以，若將波束成型置於回音消除之前，會讓回音消除模組更難學習到消除回音的濾波器係數，而使回音更難消除。相較之下，本發明的控制器架構係將波束成型安排在回音消除之後，因此能有效防止波束成型破壞回音消除的效果。

再者，本發明控制器60可以實現單一回音消除模組58，因此，控制器60的運算量可以縮減，避免第2圖中多個回音消除所需的額外運算量。雖然控制器60只對麥克風52a提供的訊號Si_a進行回音消除，並未對麥克風52b的訊號Si_b進行回音消除，但依據本發明實施例，訊號Si_b中的回音仍會被波束成型模組56的波束成型處理抑制、消除，因此，整體而言，訊號Si_a與Si_b中的回音均不會干擾語音辨識的辨識率。

波束成型的目的之一是增強聚焦區的聲音並相對地抑制非聚焦區的聲音；舉例而言，聚焦區可以位在麥克風54a與54b的幾何中心線上。也就是說，聚焦區距離麥克風54a與54b的距離是相近的，因此在聚焦區發出的聲音表現在訊號Si_a與Si_b中也是類似的，若一聲音在訊號Si_a與Si_b中有不同的表現，或者只表現在訊號Si_a與Si_b其中之一，則可判斷其並非聚焦區發出的聲音。於本發明實施例中，雖然麥克風52b的訊號Si_b未經回音消除，但因訊號Si_b的回音只出現在麥克風54b傳入的訊號Si_b內，而沒有出現在回音消除模組58傳送的訊號S1內，故會被波束成型模組56認定為非聚焦區的聲音；如此，波束成型模組56的波束成型處理便會將訊號Si_b的回音濾除。

請參考第4圖，其係舉例比較第1圖至第3圖控制器的回音消除效果與運算量。第4圖中，回音消除效果係以回音往返損耗的增強(ERLE，Echo Return Loss Enhancement)來量化；數值越高者，回音消除的效果越好。運算量則以回音消除所需的時脈來表示；數值越低者，所需消耗的運算量越少。由第4圖可知，本發明(第3圖)的控制器架構可兼顧回音消除效果與低運算量，不僅回音消除效果優良，且使用的運算量也很低。

在第3圖實施例中，語音辨識模組62也可以是其他功能的模組，例如說是錄音模組(用以將訊號S2記錄至非揮發性記憶體)、傳輸模組(將訊號S2傳輸至網路)及/或音訊處理模組，例如編碼模組(將訊號S2編碼為串流)或頻譜轉換模組(將訊號S2轉換至頻域)等等。控制器60的各模組可以用專屬硬體實現，以及/或者，用硬體處理器執行軟體及/或韌體程式碼來實現。

請參考第五圖，其所示意的是依據本發明一實施例的流程100，其可運用於第3圖音訊裝置。流程100的主要步驟可說明如下。

步驟102：由複數麥克風接收複數個收音訊號，例如說是由麥克風52a與52b(第3圖)分別取得訊號Si_a與Si_b。

步驟104：於複數個收音訊號中，對部份的一或多個收音訊號進行回音消除處理，對剩下的一或多個收音訊號則不經回音消除處理。舉例而言，於第3圖的例子中，便係依據訊號Sp_a來對訊號Si_a進行回音消除處理以形成訊號S1(中介訊號)，訊號Si_b則不經回音消除處理。

步驟106：併用回音消除後的訊號(如訊號S1)與未經回音消除的訊號(如訊號Si_b)進行波束成型處理，據以提供一輸出訊號，如第3圖中的訊號S2。

步驟108：運用步驟106所提供的輸出訊號。舉例而言，可對輸出訊號S2進行語音辨識，並依據語音辨識結果控制音訊裝置50。

總結來說，本發明可推廣如下：本發明控制器可接收一麥克風陣列(可包括多個麥克風)所提供的複數個收音訊號，對其中的部份(一或多個)收音訊號進行回音消除處理，其餘的(一或多個)收音訊號則不需經由回音消除處理；再者，利用回音消除後的收音訊號與未經回音消除的收音訊號整合進行波束成型處理，以達成聚焦收音與回音消除。換言之，本發明係對不同麥克風提供的訊號採用不均衡的回音消除，再搭配波束成型來整合實現聚焦收音與回音消除。相較於習知技術，本發明可避免回音消除受到波束成型影響，且不需對所有聲道的麥克風進行回音消除，故可兼顧優秀的回音消除效果與精簡的運算量。

綜上所述，雖然本發明已以較佳實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

50‧‧‧音訊裝置

52a-52b‧‧‧麥克風

54a-54b‧‧‧揚聲器

56‧‧‧波束成型模組

58‧‧‧回音消除模組

60‧‧‧控制器

62‧‧‧語音辨識模組

63‧‧‧音訊輸出模組

64‧‧‧播放模組

Si_a、Si_b、S1、S2、Sp_a、Sp_b‧‧‧訊號

Claims

一種應用於一音訊裝置的控制器，該控制器接收兩麥克風分別提供的一第一收音訊號與一第二收音訊號，並包含：一回音消除模組，對該第一收音訊號進行一回音消除處理(echo cancelation)並據以提供一中介訊號；以及一波束成型模組，依據該中介訊號與該第二收音訊號進行一波束成型(beam forming)處理並據以提供一輸出訊號，其中該第二收音訊號不經該回音消除處理，該音訊裝置包含一音訊輸出模組與一播放模組，該播放模組係依據該音訊輸出模組輸出之一音源訊號進行播放，該回音消除模組係依據該音源訊號對該第一收音訊號進行該回音消除處理。
如申請專利範圍第1項的控制器，更包含：一語音辨識模組，對該輸出訊號進行一語音辨識。
如申請專利範圍第2項的控制器，係依據該語音辨識的結果控制該音訊裝置。
一種應用於一音訊裝置的操作方法，包含：分別自一第一麥克風與一第二麥克風接收一第一收音訊號與一第二收音訊號；對該第一收音訊號進行一回音消除處理並據以提供一中介訊號；以及依據該中介訊號與該第二收音訊號進行一波束成型處理並據以提供一輸出訊號，其中該第二收音訊號不經該回音消除處理，該音訊裝置包含一音訊輸出模組與一播放模組，該播放模組係依據該音訊輸出模組輸出之一音源訊號進行播放，其中，對該第一收音訊號進行該回音消除處理並據以提供該中介訊號之步驟，係依據該音源訊號進行。
如申請專利範圍第4項的操作方法，更包含：對該輸出訊號進行一語音辨識。
如申請專利範圍第5項的操作方法，更包含：依據該語音辨識的結果控制該音訊裝置。