TWI736117B

TWI736117B - 聲音定位裝置與方法

Info

Publication number: TWI736117B
Application number: TW109102649A
Authority: TW
Inventors: 李明唐; 朱仲石
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-08-11
Also published as: US20210227318A1; CN113156370B; TW202129631A; CN113156370A; US11184703B2

Abstract

本發明揭露了一種聲音定位裝置，能夠適當地決定語音來向。該聲音定位裝置包含：一空間特徵產生器，用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號；一語音偵測器，用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號；一角度選擇器，用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度；以及一角度取回器，用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，再依據該聲源偵測結果、該至少一語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。

Description

聲音定位裝置與方法

本發明是關於定位裝置與方法，尤其是關於聲音定位裝置與方法。

麥克風陣列常用於免持裝置或會議裝置，該些裝置通常會利用聲音定位技術來估測聲音來向（或說聲音角度），以強化收訊。

由於麥克風陣列的複數個麥克風是分開地設置，因此不同麥克風收到同一聲音訊號的時間會有時間差；當該聲音訊號的入射角度不同時，該時間差也會不同。一種常見的聲音定位技術是基於上述時間差來計算多種聲音訊號之入射角度的空間特徵，再依該些空間特徵的強度來估測聲音角度。一些常見的計算空間特徵的技術見於下列參考文獻：參考文獻1：J.H. DiBiase, “A high-accuracy, low-latency technique for talker localization in reverberant environments using microphone arrays”, 2000。參考文獻2：H.L. Van Trees, “Optimum array processing – Part IV of detection, estimation, and modulation theory”, Chapter 6, 2002。

為了提升在雜訊干擾下角度估測的準確性，在計算空間特徵前或在決定聲音角度時，語音偵測（speech detection）技術可被採用以提升穩定性，如美國專利公開案US 2002/0097885 A1所述。然而，當音樂或嘈雜（babble）型的雜訊能量增加時，語音偵測技術的誤判機率會隨之提高，這使得目前的聲音定位技術容易將雜訊來向誤認為語音來向；此外，嘈雜環境會降低語音偵測技術的成功率，使得目前的聲音定位技術難以適當地決定語音來向。

另有一先前技術（美國專利US 6,990,193 B2）揭示了回音消除技術，但未解決前述問題。

本揭露之一目的在於揭示一種聲音定位裝置與方法，能夠適當地決定語音角度。

本揭露之聲音定位裝置的一實施例包含一空間特徵產生器、一語音偵測器、一角度選擇器與一角度取回器。該空間特徵產生器用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號，其中該N與該M均為大於一的整數。該語音偵測器用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號。該角度選擇器用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度。該角度取回器用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，再依據該聲源偵測結果、該至少一語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。

本揭露之聲音定位裝置的另一實施例同樣包含一空間特徵產生器、一語音偵測器、一角度選擇器與一角度取回器。該空間特徵產生器用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號，其中該N與該M均為大於一的整數。該語音偵測器用來依據該M個空間特徵訊號的X個空間特徵訊號產生X個語音偵測訊號，其中該X為不大於該M的正整數。該角度選擇器用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度。該角度取回器用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，再依據該聲源偵測結果、該X個語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。

本揭露之聲音定位方法的一實施例是由一角度取回器來執行。該實施例包含下列步驟：依據M個空間特徵訊號判斷目前是否有任何聲源存在，其中該M個空間特徵訊號是依據一麥克風陣列之N個麥克風的訊號而產生，該N與該M均為大於一的整數；依據至少一語音偵測訊號判斷目前是否有語音存在，其中該至少一語音偵測訊號是依據該N個麥克風的訊號的至少其中之一或該M個空間特徵訊號的至少其中之一而產生；若判斷目前沒有任何聲源存在，輸出一候選角度訊號作為一估測角度訊號，其中該候選角度訊號是依據該M個空間特徵訊號而產生，用來指出一候選聲音角度；若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至一儲存電路，並輸出該候選角度訊號作為該估測角度訊號；以及若判斷目前有該至少一聲源存在且沒有語音存在，從該儲存電路取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。

有關本發明的特徵、實作與功效，茲配合圖式作較佳實施例詳細說明如下。

本揭露提供一種聲音定位裝置與方法，能夠適當地決定語音來向。

圖1顯示本揭露之聲音定位裝置的一實施例。圖1之聲音定位裝置100包含一空間特徵產生器110、一語音偵測器120、一角度選擇器130與一角度取回器140。空間特徵產生器110用來依據一麥克風陣列10之N個麥克風的訊號（S _MIC-1~S _MIC-N）產生M個空間特徵訊號（S _SF-1~ S _SF-M）分別對應M個角度，其中該N與該M均為大於一的整數，且該N與該M可相等或相異。語音偵測器120用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號（S _SP）；依實施需求，語音偵測器120可設計來偵測人聲或其它聲音。角度選擇器130用來依據該M個空間特徵訊號輸出一候選角度訊號（S _CA）指出一候選聲音角度；舉例而言，角度選擇器130選擇該M個空間特徵訊號中具有最大特徵值者（或說對應最大強度者）作為該候選角度訊號。角度取回器140用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，該聲源偵測結果可以是硬體的一訊號或是軟體/韌體的一演算法運算結果；之後，角度取回器140依據該聲源偵測結果、該至少一語音偵測訊號與該候選角度訊號來輸出一估測角度訊號（S _EA）。

請參閱圖1。空間特徵產生器110可使用已知或自行開發的技術來產生該M個空間特徵訊號；舉例而言，空間特徵產生器110使用下列演算法的至少其中之一來產生該M個空間特徵訊號：一可控響應功率（Steered Response Power, SRP）演算法；一廣義互相關（Generalized Cross Correlation, GCC）演算法；以及一相位變換廣義互相關（Generalized Cross Correlation-Phase Transform, GCC-PHAT）演算法。上述演算法之介紹見於前述參考文獻1。另外，為提升角度估測的連續性，空間特徵產生器110可選擇性地使用一已知或自行開發的遞迴（recursive）演算法，以對該M個空間特徵訊號執行一平滑處理。

請參閱圖1。語音偵測器120用來偵測訊號是否帶有特定特徵（例如：音調（pitch）或能量）以產生該至少一語音偵測訊號。語音偵測器120可藉由已知技術（例如：https://en.wikipedia.org/wiki/Voice_activity_detection）或自行開發的技術來實現。

請參閱圖1。角度取回器140執行複數個步驟以決定該估測角度訊號，該複數個步驟的一實施例如圖2所示，包含： S210：依據該M個空間特徵訊號判斷目前是否有任何聲源存在。於一實作範例中，步驟S210包含下列步驟的至少其中之一以判斷是否有任何聲源存在：一第一步驟，用來依據該M個空間特徵訊號的一最大值、該M個空間特徵訊號的一平均值以及一第一門檻值來判斷目前是否有任何聲源存在；一第二步驟，用來依據該最大值、該M個空間特徵訊號的一最小值以及一第二門檻值來判斷目前是否有任何聲源存在；以及一第三步驟，用來依據該最大值與一第三門檻值判斷目前是否有任何聲源存在。舉例而言，該第一步驟用來判斷該最大值是否大於該第一門檻值與該平均值的乘積，以在該判斷的結果為“是”時，判斷有聲源存在；該第二步驟用來判斷該最大值是否大於該第二門檻值與該最小值的乘積，以在該判斷的結果為“是”時，判斷有聲源存在；以及該第三步驟用來判斷該最大值是否大於該第三門檻值，以在該判斷的結果為“是”時，判斷有聲源存在。本領域人士可依實施需求決定上述第一、第二與第三門檻。 S220：依據該至少一語音偵測訊號判斷目前是否有語音存在。 S230：若判斷目前沒有任何聲源存在，輸出該候選角度訊號作為該估測角度訊號。 S240：若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至儲存電路20，並輸出該候選角度訊號作為該估測角度訊號。 S250：若判斷目前有該至少一聲源存在且沒有語音存在，從該儲存電路取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。

由於本領域具有通常知識者可利用已知及/或自行開發的技術，依據本揭露來實現角度取回器140，冗餘的說明在此省略。

圖3顯示本揭露之聲音定位裝置的另一實施例。圖3之聲音定位裝置300包含一空間特徵產生器310、一語音偵測器320、一角度選擇器330以及一角度取回器340。空間特徵產生器310用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號，其中該N與該M均為大於一的整數。語音偵測器320用來依據該M個空間特徵訊號的X個空間特徵訊號產生X個語音偵測訊號（S _SP-1~S _SP-X），其中該X為不大於該M的正整數。角度選擇器330用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度。角度取回器340用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，再依據該聲源偵測結果、該X個語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。

請參閱圖3。於一實作範例中，空間特徵產生器310使用前述可控響應功率演算法來產生該M個空間特徵訊號。於一實作範例中，語音偵測器320使用已知或自行開發的技術來偵測訊號是否帶有特定特徵以產生該X個語音偵測訊號。於一實作範例中，角度取回器340執行複數個步驟以決定該估測角度訊號，該複數個步驟的一實施例包含：依據該M個空間特徵訊號判斷目前是否有任何聲源存在；依據該X個語音偵測訊號判斷目前是否有語音存在；若判斷目前沒有任何聲源存在，輸出該候選角度訊號作為該估測角度訊號；若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至儲存電路20，並輸出該候選角度訊號作為該估測角度訊號；以及若判斷目前有該至少一聲源存在且沒有語音存在，從儲存電路20取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。

由於本領域具有通常知識者能夠參酌圖1~2之實施例的揭露來瞭解圖3之實施例的細節與變化，亦即圖1~2之實施例的技術特徵可合理應用於圖3之實施例，因此，重複及冗餘的說明在此省略。

圖4顯示本揭露之聲音定位方法的一實施例，是由一角度取回器（例如：前述角度取回器140/340）來執行。圖4的實施例包含下列步驟： S410：依據M個空間特徵訊號判斷目前是否有任何聲源存在，其中該M個空間特徵訊號是依據一麥克風陣列之N個麥克風的訊號而產生，該N與該M均為大於一的整數。 S420：依據至少一語音偵測訊號判斷目前是否有語音存在，其中該至少一語音偵測訊號是依據該N個麥克風的訊號的至少其中之一或該M個空間特徵訊號的至少其中之一而產生。 S430：若判斷目前沒有任何聲源存在，輸出一候選角度訊號作為一估測角度訊號，其中該候選角度訊號是依據該M個空間特徵訊號而產生，用來指出一候選聲音角度。 S440：若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至一儲存電路，並輸出該候選角度訊號作為該估測角度訊號。 S450：若判斷目前有該至少一聲源存在且沒有語音存在，從該儲存電路取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。

由於本領域具有通常知識者能夠參酌圖1~3之實施例的揭露來瞭解圖4之實施例的細節與變化，亦即圖1~3之實施例的技術特徵可合理應用於圖4之實施例，因此，重複及冗餘的說明在此省略。

請注意，在實施為可能的前提下，本技術領域具有通常知識者可選擇性地實施前述任一實施例中部分或全部技術特徵，或選擇性地實施前述複數個實施例中部分或全部技術特徵的組合，以增加本發明實施時的彈性。

綜上所述，本發明能夠藉由角度取回器的運作，適當地決定語音來向。

雖然本發明之實施例如上所述，然而該些實施例並非用來限定本發明，本技術領域具有通常知識者可依據本發明之明示或隱含之內容對本發明之技術特徵施以變化，凡此種種變化均可能屬於本發明所尋求之專利保護範疇，換言之，本發明之專利保護範圍須視本說明書之申請專利範圍所界定者為準。

10 麥克風陣列 20 儲存電路 100 聲音定位裝置 110 空間特徵產生器 120 語音偵測器 130 角度選擇器 140 角度取回器 S _MIC-1~S _MIC-NN個麥克風的訊號 S _SF-1~ S _SF-MM個空間特徵訊號 S _SP語音偵測訊號 S _CA候選角度訊號 S _EA估測角度訊號 S210~S250 步驟 300 聲音定位裝置 310 空間特徵產生器 320 語音偵測器 330 角度選擇器 340 角度取回器 S _SP-1~S _SP-XX個語音偵測訊號 S410~S450 步驟

［圖1］顯示本揭露之聲音定位裝置的一實施例；［圖2］顯示圖1之角度取回器所執行之複數個步驟的一實施例；［圖3］顯示本揭露之聲音定位裝置的另一實施例；以及［圖4］顯示本揭露之聲音定位方法的一實施例。

10 麥克風陣列 20 儲存電路 100 聲音定位裝置 110 空間特徵產生器 120 語音偵測器 130 角度選擇器 140 角度取回器 S _MIC-1~S _MIC-NN個麥克風的訊號 S _SF-1~ S _SF-MM個空間特徵訊號 S _SP語音偵測訊號 S _CA候選角度訊號 S _EA估測角度訊號

Claims

一種聲音定位裝置，包含：一空間特徵產生器，用來依據一麥克風陣列之N個麥克風的訊號以及一預設演算法產生M個空間特徵訊號，其中該N與該M均為大於一的整數；一語音偵測器，用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號；一角度選擇器，用來依據該M個空間特徵訊號以及一預設選擇規則輸出一候選角度訊號指出一候選聲音角度；以及一角度取回器，用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，再依據該聲源偵測結果、該至少一語音偵測訊號、該候選角度訊號以及一預設判斷規則來輸出一估測角度訊號。
如申請專利範圍第1項所述之聲音定位裝置，其中該角度取回器執行複數個步驟以決定該估測角度訊號，該複數個步驟包含：依據該M個空間特徵訊號判斷目前是否有任何聲源存在；依據該至少一語音偵測訊號判斷目前是否有語音存在；若判斷目前沒有任何聲源存在，輸出該候選角度訊號作為該估測角度訊號；若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至一儲存電路，並輸出該候選角度訊號作為該估測角度訊號；以及若判斷目前有該至少一聲源存在且沒有語音存在，從該儲存電路取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
如申請專利範圍第2項所述之聲音定位裝置，其中判斷目前是否有任何聲源存在的步驟包含下列步驟的至少其中之一：一第一步驟，用來依據該M個空間特徵訊號的一最大值、該M個空間特徵訊號的一平均值以及一第一門檻值來判斷目前是否有任何聲源存在；一第二步驟，用來依據該最大值、該M個空間特徵訊號的一最小值以及一第二門檻值來判斷目前是否有任何聲源存在；以及一第三步驟，用來依據該最大值與一第三門檻值判斷目前是否有任何聲源存在。
如申請專利範圍第3項所述之聲音定位裝置，其中該第一步驟用來判斷該最大值是否大於該第一門檻值與該平均值的乘積；該第二步驟用來判斷該最大值是否大於該第二門檻值與該最小值的乘積；以及該第三步驟用來判斷該最大值是否大於該第三門檻值。
一種聲音定位裝置，包含：一空間特徵產生器，用來依據一麥克風陣列之N個麥克風的訊號以及一預設演算法產生M個空間特徵訊號，其中該N與該M均為大於一的整數；一語音偵測器，用來依據該M個空間特徵訊號的X個空間特徵訊號產生X個語音偵測訊號，其中該X為不大於該M的正整數；一角度選擇器，用來依據該M個空間特徵訊號以及一預設選擇規則輸出一候選角度訊號指出一候選聲音角度；以及一角度取回器，用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在，再依據該聲源偵測結果、該X個語音偵測訊號、該候選角度訊號以及一預設判斷規則來輸出一估測角度訊號。
如申請專利範圍第5項所述之聲音定位裝置，其中該角度取回器執行複數個步驟以決定該估測角度訊號，該複數個步驟包含：依據該M個空間特徵訊號判斷目前是否有任何聲源存在；依據該X個語音偵測訊號判斷目前是否有語音存在；若判斷目前沒有任何聲源存在，輸出該候選角度訊號作為該估測角度訊號；若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至一儲存電路，並輸出該候選角度訊號作為該估測角度訊號；以及若判斷目前有該至少一聲源存在且沒有語音存在，從該儲存電路取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
如申請專利範圍第6項所述之聲音定位裝置，其中判斷目前是否有任何聲源存在的步驟包含下列步驟的至少其中之一：一第一步驟，用來判斷該M個空間特徵訊號的一最大值是否大於該M個空間特徵訊號的一平均值與一第一門檻值的乘積，以決定目前是否有任何聲源存在；一第二步驟，用來判斷該最大值是否大於該M個空間特徵訊號的一最小值與一第二門檻值的乘積，以決定目前是否有任何聲源存在；以及一第三步驟，用來判斷該最大值是否大於一第三門檻值，以決定目前是否有任何聲源存在。
一種聲音定位方法，是由一角度取回器依據一預設判斷規則來執行，該聲音定位方法包含：依據M個空間特徵訊號判斷目前是否有任何聲源存在，其中該M個空間特徵訊號是依據一麥克風陣列之N個麥克風的訊號以及一預設演算法而產生，該N與該M均為大於一的整數；依據至少一語音偵測訊號判斷目前是否有語音存在，其中該至少一語音偵測訊號是依據該N個麥克風的訊號的至少其中之一或該M個空間特徵訊號的至少其中之一而產生；若判斷目前沒有任何聲源存在，輸出一候選角度訊號作為一估測角度訊號，其中該候選角度訊號是依據該M個空間特徵訊號以及一預設選擇規則而產生，用來指出一候選聲音角度；若判斷目前有至少一聲源存在且有語音存在，儲存該候選角度訊號至一儲存電路，並輸出該候選角度訊號作為該估測角度訊號；以及若判斷目前有該至少一聲源存在且沒有語音存在，從該儲存電路取回一先前儲存的候選角度訊號，並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
如申請專利範圍第8項所述之聲音定位方法，其中判斷目前是否有任何聲源存在的步驟包含下列步驟的至少其中之一：一第一步驟，用來依據該M個空間特徵訊號的一最大值、該M個空間特徵訊號的一平均值以及一第一門檻值來判斷目前是否有任何聲源存在；一第二步驟，用來依據該最大值、該M個空間特徵訊號的一最小值以及一第二門檻值來判斷目前是否有任何聲源存在；以及一第三步驟，用來依據該最大值與一第三門檻值判斷目前是否有任何聲源存在。
如申請專利範圍第9項所述之聲音定位方法，其中該第一步驟用來判斷該最大值是否大於該第一門檻值與該平均值的乘積；該第二步驟用來判斷該最大值是否大於該第二門檻值與該最小值的乘積；以及該第三步驟用來判斷該最大值是否大於該第三門檻值。