TWI594234B

TWI594234B - A method and device for detecting near-end voice signal

Info

Publication number: TWI594234B
Application number: TW105100647A
Authority: TW
Inventors: Min Liang; Bo Han
Original assignee: China Academy Telecommunications Technology
Priority date: 2015-03-09
Filing date: 2016-01-11
Publication date: 2017-08-01
Also published as: TW201633292A; CN106033673B; WO2016141773A1; CN106033673A

Description

一種近端語音信號檢測方法及裝置

本發明屬於語音信號檢測技術領域，尤其是關於一種近端語音信號檢測方法及裝置。

聲學回波抵消器(Acoustic Echo canceller，AEC)是電話會議系統、免提通信終端等設備的一個重要模組，用來抵消由揚聲器到麥克風的聲學耦合回饋效應，即揚聲器到麥克風之間的聲學回波。

在聲學回波抵消器中，用一個濾波器對回波路徑進行自我調整地數學建模，並由此合成一個聲學回波的有效估計，然後在麥克風的接收信號的輸出信號中減去該聲學回波的有效估計，從而實現聲學回波抵消的目的。當麥克風的接收信號中出現近端語音信號時，即發生雙講(Double-Talk，DT)情形，由於它與遠端語音信號統計上不相關，因而其猶如一個突發的雜訊，使得濾波器的係數將偏離實際聲學回波路徑所對應的真值而發生發散現象。這便相應地增大了回波殘留量，使聲學回波抵消器的性能惡化。為使聲學回波抵消器的工作性能穩定可靠，準確而及時地檢測出麥克風接收信號中是否發生雙講，是一項非常重要和必要的任務。在DT發生的條件下，濾波器係數的自我調整學習必須停止進行，以避免在該情況下濾波器係數持續學習所致的發散現象。

為克服這一問題，一種自然的處理方法是：濾波器的濾波器係數向量的學習演算法應該在發生雙講的情況下被停止執行，而在未發生雙講時將持續進行。由此，雙講檢測器(DTD)便應運而生。目前，雙講檢測器主要是基於互相關(Cross-Correlation)準則實現的。在基於互相關準則的DTD中，較典型的技術方案有以下兩種：

第一種方案，利用聲學回波抵消器中的誤差信號e(n)和遠端語音信號向量(n)之間互相關來進行雙講檢測，誤差信號e(n)和遠端語音信號向量(n)之間互相關係數如下：

在由放大器超載和編碼解碼器引入的非線性失真可以忽略不計，以及環境雜訊是平穩的假設條件下(在無特別注明的情況下，以下均假設該條件成立)，式(1)變為：

其中，=[h(0),h(1),...,h(L-1)]^T，為聲學回波的回波路徑中線性部分的衝擊回應，L為回波路徑的長度；=[(0),(1),...,(L-1)]^T為濾波器的衝擊回應；R_XX=E{(n)．(n)}為遠端語音信號的自相關矩陣。

式(2)中的高度依賴於回波路徑的變化，因而適合用於檢測聲學回波路徑是否發生變化，而不是用來檢測雙講是否發生。

第二種方案，利用遠端語音信號向量(n)和麥克風輸出信號y(n)之間的互相關來構造一個決策統計量用於雙講檢測。向量(n)和y(n)之間的互相關可表達為：

考慮到麥克風輸出信號y(n)的方差可表示成下式：

其中和分別為環境雜訊和近端語音信號的功率。

在無DT，即u(n)=0時，式(4)即為：

將決策統計量ξ_Benesty定義為用式(5)除以式(4)後再開方，即：

根據式(6)可以確定，在無雙講時，決策統計量ξ_Benesty取值為1；在有雙講時，決策統計量ξ_Benesty取值小於1。因此可定義一個門限值參數T_Benesty，當ξ_Benesty<T_Benesty，則確定發生雙講；否則，確定無雙講發生。

還可以利用誤差信號e(n)和麥克風輸出信號y(n)之間的互相關來構造DTD的決策統計量，具體地，將誤差信號e(n)和麥克風輸出信號y(n)之間的互相關定義為：

構造的決策統計量ξ_Iqbal如下：

在濾波器收斂時，濾波器的衝擊回應趨於回波路徑的衝擊回應，即→。那麼在無雙講的情況下ξ_Iqbal 1，而在有雙講時ξ_Iqbal<1。因此可定義一個門限值參數T_Iqbal，當ξ_Iqbal<T_Iqbal，則確定發生雙講；否則，就確定未發生雙講。

上述介紹的雙講檢測技術都是基於以下兩個假設：1、聲學回波路徑中非線性失真很小而忽略不計；2、環境雜訊是平穩的。然而實際系統中，由於放大器超載和編碼解碼器所引發的非線性失真不可忽略，使得相關技術中的基於互相關技術的雙講檢測技術的性能較差。此外，實際環境中的雜訊也並非是平穩的，這一非平穩性也將進一步加劇該類雙講檢測技術性能的惡化程度，乃至有時無法正常檢測出是否發生雙講。

本發明的一些實施例提供了一種近端語音信號檢測方法及裝置，用以提高雙講檢測性能。

本發明的一些實施例提供了一種近端語音信號檢測方法，包括：接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號被線性或非線性變換後所得到的信號，該第二輸入信號為該移動終端接收到的近端信號；提取該第一輸入信號的第一聲紋特徵以及該第二輸入信號的第二聲紋特徵；確定該第一聲紋特徵與該第二聲紋特徵之間的距離；以及根據該距離確定該第二輸入信號中是否存在近端語音信號。

可選地，該第一輸入信號為該移動終端的自我調整濾波器輸出的回波估計信號，該回波估計信號是該自我調整濾波器對該遠端信號進行線性或非線性濾波得到的。

可選地，該第一輸入信號為該遠端信號被線性延時後得到的信號。

可選地，該根據該距離確定該第二輸入信號中是否存在近端語音信號，包括：判斷該距離是否小於第一門限值，若是，則確定該第二輸入信號中不存在近端語音信號，否則，確定該第二輸入信號中存在近端語音信號。

可選地，該確定該第二輸入信號中存在近端語音信號之後，還包括：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

本發明的一些實施例提供了一種近端語音信號檢測方法，包括：接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號，該第二輸入信號為該移動終端接收到的近端信號；以及檢測該第一輸入信號是否大於第二門限值，以及檢測該第二輸入信號是否大於第三門限值；若該第一輸入信號大於該第二門限值，且該第二輸入信號大於該第三門限值，則提取該第一輸入信號的第一聲紋特徵，以及提取該第二輸入信號的第二聲紋特徵，確定該第一聲紋特徵與該第二聲紋特徵之間的距離，並根據該距離確定該第二輸入信號中是否存在近端語音信號。

可選的，檢測該第一輸入信號是否大於第二門限值，以及檢測該第二輸入信號是否大於第三門限值，包括：檢測該第一輸入信號在第一時間點是否大於該第二門限值，以及檢測該第二輸入信號在第二時間點是否大於該第三門限值，其中，該第二時間點為該第一時間點經過延時後的時間點。

可選地，該根據該距離確定該第二輸入信號中是否存在近端語音信號，包括：若該距離小於第四門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號，否則，確定該第二輸入信號在該第二時間點存在近端語音信號。

可選地，還包括：若該第二輸入信號小於該第三門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號；或者，若該第一輸入信號小於該第二門限值，且該第二輸入信號大於該第三門限值，則確定該第二輸入信號在該第二時間點存在近端語音信號。

可選地，確定該第二輸入信號中存在近端語音信號之後，還包括：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

本發明的一些實施例提供了一種近端語音信號檢測裝置，包括：接收單元，用於接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號被線性或非線性變換後所得到的信號，該第二輸入信號為該移動終端接收到的近端信號；提取單元，用於提取該第一輸入信號的第一聲紋特徵以及該第二輸入信號的第二聲紋特徵；以及確定單元，用於確定該第一聲紋特徵與該第二聲紋特徵之間的距離，並根據該距離確定該第二輸入信號中是否存在近端語音信號。

可選地，該確定單元具體用於：判斷該距離是否小於第一門限值，若是，則確定該第二輸入信號中不存在近端語音信號，否則，確定該第二輸入信號中存在近端語音信號。

可選地，該確定單元還用於：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

本發明的一些實施例提供了一種近端語音信號檢測裝置，包括：接收單元，用於接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號，該第二輸入信號為該移動終端接收到的近端信號；檢測單元，用於檢測該第一輸入信號是否大於第二門限值以及檢測該第二輸入信號是否大於第三門限值；以及確定單元，用於在確定該第一輸入信號大於該第二門限值且該第二輸入信號大於該第三門限值時，提取該第一輸入信號的第一聲紋特徵，以及提取該第二輸入信號的第二聲紋特徵，確定該第一聲紋特徵與該第二聲紋特徵之間的距離，並根據該距離確定該第二輸入信號中是否存在近端語音信號。

可選地，該檢測單元用於：檢測該第一輸入信號在第一時間點是否大於該第二門限值，以及檢測該第二輸入信號在第二時間點是否大於該第三門限值，其中，該第二時間點為該第一時間點經過延時後的時間點。

可選地，該確定單元具體用於：若該距離小於第四門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號，否則，確定該第二輸入信號在該第二時間點存在近端語音信號。

可選地，該確定單元還用於：若該第二輸入信號小於該第三門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號；或者，若該第一輸入信號小於該第二門限值，且該第二輸入信號大於該第三門限值，則確定該第二輸入信號在該第二時間點存在近端語音信號。

根據本發明的一些實施例提供的方法及裝置，提取遠端信號的第一聲紋特徵，以及近端信號中的第二聲紋特徵之後，通過對比第一聲紋特徵與第二聲紋特徵確定是否發生雙講。由於本發明的一些實施例是根據遠端信號和近端信號的聲紋特徵來進行近端語音信號的判決，即判斷是否發生雙講，沒有像現有技術一樣基於互相關技術以及兩個假設(1、聲學回波路徑中非線性失真很小而忽略不計；2、環境雜訊是平穩的)來進行雙講檢測，因此一定程度上避免了現有技術中以假設聲學回波路徑中非線性失真很小而忽略不計以及假設環境雜訊平穩為前提條件去檢測是否發生雙講時產生的誤判等情況，從而更準確的實現雙講檢測。

201-204、301-306、601-603‧‧‧步驟

101‧‧‧揚聲器

102‧‧‧自我調整濾波器

103‧‧‧雙講檢測器

104‧‧‧麥克風

801‧‧‧接收單元

802‧‧‧提取單元

803‧‧‧確定單元

901‧‧‧接收單元

902‧‧‧檢測單元

903‧‧‧確定單元

圖1為現有技術中聲學回波抵消器的結構示意圖；圖2為本發明的一些實施例提供的一種近端語音信號檢測方法流程示意圖；圖3為本發明的一些實施例提供的聲紋特徵提取流程示意圖；圖4為本發明的一些實施例提供的一種近端語音信號檢測方法流程示意圖；圖5為本發明的一些實施例提供的一種近端語音信號檢測裝置結構圖；圖6為本發明的一些實施例提供的一種近端語音信號檢測方法流程示意圖；圖7為本發明的一些實施例提供的第二種近端語音信號檢測裝置應用場景示意圖；圖8為本發明的一些實施例提供的一種近端語音信號檢測裝置結構圖；圖9為本發明的一些實施例提供的一種近端語音信號檢測裝置結構圖。

如圖1所示，為現有技術中聲學回波抵消器的結構示意圖，包括揚聲器101，自我調整濾波器102，雙講檢測器103，麥克風104。遠端語音信號x(n)從揚聲器101輸出時，揚聲器101中放大器超載和編碼解碼器會導致遠端語音信號x(n)非線性失真；遠端語音信號x(n)從揚聲器101傳輸到麥克風104的過程中，揚聲器101傳輸到麥克風104之間的聲學回波路徑也會對遠端語音信號x(n)產生影響。

現假設導致遠端語音信號x(n)非線性失真的非線性衝擊回應很小，可以忽略不計，那麼有：

其中，y(n)為麥克風104的接收信號，u(n)為近端語音信號，v(n)為系統雜訊，x1(n)為遠端語音信號x(n)經過非線性衝擊回應後的語音信號，它們均為零均值；x2(n)為回波信號，由下式確定：

其中，=[h(0),h(1),...,h(L-1)]^T，為揚聲器101到麥克風104之間的聲學回波路徑中線性部分的衝擊回應，L為回波路徑的長度；

這時用自我調整濾波器102對揚聲器101饋入麥克風104的回波信號x2(n)進行估計，得估計信號(n)如下：

其中，=[(0),(1),...,(L-1)]^T，為自我調整濾波器102的係數向量。

將(n)從麥克風104的輸出信號y(n)中減去，獲得相應的誤差信號e(n)為：

自我調整濾波器102的係數向量是通過自我調整演算法學習獲得的，在收斂於的條件下，誤差信號e(n)中的回波信號x2(n)會被抵消，從而達到消除回波信號的目的。當近端語音信號u(n)出現，即發生雙講時，由於近端語音信號u(n)與遠端語音信號x(n)之間統計上不相關，因此近端語音信號u(n)對於遠端語音信號x(n)來說猶如一個突發干擾信號，致使自我調整濾波器102的係數向量的自我調整學習演算法發散，由此導致誤差信號e(n)中將出現較大的殘留回波。

目前通過檢測雙講是否發生，並在檢測到雙講發生時停止自我調整濾波器102的係數向量的更新，從而避免導致誤差信號e(n)中將出現較大的殘留回波。

現有技術中，在檢測雙講是否發生時，都是基於以下兩個假設：1、聲學回波路徑中非線性失真很小而忽略不計；2、環境雜訊是平穩的。然而，實際情況中，聲學回波路徑中非線性失真往往很大，或者環境雜訊非常不平穩，導致基於這兩個假設條件的雙講檢測技術的性能很不穩定，有時無法正常檢測出是否發生雙講。

本發明的一些實施例中將摒棄這兩個假設條件，從另外一個角度去實現雙講檢測，下面詳細描述本發明的一些實施例提供的雙講檢測方法是如何檢測雙講是否發生。需要說明的是，本發明的一些實施例提供的雙講檢測方法並不僅僅是應用於帶有聲學回波抵消器的電話會議系統、免提通信終端等設備，還可以應用於其他設備和系統，在此並不限定其應用場景。

如圖2所示，本發明的一些實施例提供的一種近端語音信號檢測方法，該方法包括：步驟201：接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號被線性或非線性變換後所得到的信號，該第二輸入信號為該移動終端接收到的近端信號；步驟202：提取該第一輸入信號的第一聲紋特徵以及該第二輸入信號的第二聲紋特徵；步驟203：確定該第一聲紋特徵與該第二聲紋特徵之間的距離；以及步驟204：根據該距離確定該第二輸入信號中是否存在近端語音信號。

本發明的一些實施例中的移動終端可以為手機、平板電腦、會議電話等設備。

在步驟201中，第一輸入信號為移動終端接收到的遠端信號被線性或非線性變換後所得到的信號。遠端信號是經過編碼、調製，並需要被揚聲器等設備播放的信號。

第二輸入信號，即近端信號，是由麥克風等音訊接收感測器接收到的信號，可能包括遠端信號經過回聲路徑形成的聲學回波信號、環境雜訊信號以及近端語音信號中的一種或多種組合，第二輸入信號中的聲學回波信號是需要消除的信號。第二輸入信號中包含由遠端信號經過回聲路徑形成的聲學回波信號時，會產生一定的延時，導致與遠端信號之間不同步，如果不對遠端信號進行延時處理，直接採用遠端信號與第二輸入信號進行雙講檢測，會降低檢測的準確性。因此需要將遠端信號進行線性變換或非線性變換，形成與第二輸入信號中聲學回波信號同步的第一輸入信號。

實現將遠端信號進行線性變換或非線性變換形成第一輸入信號的方法有多種。第一輸入信號可以為移動終端的自我調整濾波器輸出的回波估計信號，該回波估計信號是該自我調整濾波器對該遠端信號進行線性或非線性濾波得到的；也可以通過延時單元對遠端語音信號延時，將延時後的遠端語音信號作為第一輸入信號。需要說明的是，該延時單元對信號的延時與回波路徑的延時相匹配，可以通過聲學回聲路徑延時估計演算法確定出延時單元，也可以通過其他方法確定出延時單元，本發明對此並不限定。

在步驟201中，獲得第一輸入信號以及第二輸入信號之前，還可以檢測輸入的第一輸入信號和\或第二輸入信號中是否有語音信號，在未獲得第一輸入信號或者獲得的第一輸入信號中不包含語音信號時，移動終端中的自我調整濾波器的濾波器係數可以停止係數的更新，以便節省功耗；獲得的第一輸入信號中包含語音信號時，若第二輸入信號中存在近端語音信號時，移動終端中的自我調整濾波器的濾波器係數可以停止係數的更新，若第二輸入信號中不存在近端語音信號時，可以直接確定未發生雙講，此時移動終端中的自我調整濾波器需要根據殘差信號進行濾波器係數的更新。

檢測輸入的第一輸入信號和\或第二輸入信號中是否有語音信號的方法有多種，例如可以通過語音活動檢測(Voice activity detection，VAD)來檢測輸入的信號是否包含語音信號。

步驟202中，在獲得第一輸入信號以及第二輸入信號之後，分別提取第一輸入信號的第一聲紋特徵以及第二輸入信號第二聲紋特徵。

聲紋(Voiceprint)是攜帶語音資訊的聲波頻譜，由於人在講話時使用的發生器在尺寸和形態方面各自有差異，所以任何兩個人的聲紋都存在差異；另一方面，人耳能在吵雜的背景雜訊中及各種變異的情況下聽到語音信號，該特性是得益於這樣一個事實：耳蝸實質上相當於一個濾波器組，其濾波作用是在對數頻率尺度上進行的，從而使得人耳對低頻信號比對高頻信號更敏感。綜合考慮人耳的聽覺感知和人的語音產生的機理，在本發明的一些實施例中選擇Mel頻率的倒譜系數(Mel-Frequency Cepstral Coefficient，MFCC)作為語音信號的聲紋特徵參數，用來進行雙講檢測。其基本原理是：首先分別提取第一輸入信號和第二輸入信號的MFCC特徵參數向量，然後計算它們之間的距離，根據距離判斷有無發生雙講。在未發生雙講的情況下，第二輸入信號中僅含回波信號，因而第一輸入信號和第二輸入信號的MFCC特徵參數向量間的距離較小；在發生雙講的情況下，第二輸入信號中不僅含近端語音信號u(n)，而且還可能包含回波信號(在有遠端語音信號的前提下)，此時第一輸入信號和第二輸入信號的MFCC特徵參數向量間的距離較大。由於聲紋特徵參數對聲學回波路徑中的非線性失真和雜訊干擾具有較強的不敏感特性，因而本發明提出的基於聲紋特徵參數之DTD對環境雜訊和聲學回波路徑中的非線性退變，具有較好的魯棒性。

需要說明的是，本發明的一些實施例中從音訊信號中提取的聲紋特徵包括但不限於MFCC，可以是能有效表徵和鑒別信號的任何特徵參數，並且該類參數對信號的雜訊污染和非線性畸變具有較好的抵免性。

針對一個輸入信號，根據預加重函數對該輸入信號進行預加重，獲得預加重後的輸入信號；通過窗函數對該預加重後的輸入信號進行加窗，並計算該加窗後的輸入信號的頻譜；通過Mel濾波器組對該加窗後的輸入信號的頻譜進行濾波，並對濾波後的該加窗後的輸入信號的頻譜進行離散余弦變換，獲得該輸入信號的聲紋特徵。

具體地，如圖3所示，本發明的一些實施例提供的提取聲紋特徵流程圖。

步驟301：預加重處理；將輸入信號通過預加重函數進行預加重處理，預加重函數為：z(n)=x(n)-α．x(n-1) (13)

其中，0.9<α<1.0為預加重係數，α一般取0.95，x(n)為輸入信號，可以為第一輸入信號或者第二輸入信號，z(n)為預加重後的輸入信號。對輸入信號進行預加重可以提升信號的高頻分量進而補償聲門脈衝形狀和口唇輻射對語音信號產生的影響，從而提高檢測的準確性。

步驟302：加窗；通過窗函數對預加重後的輸入信號進行加窗，獲得加窗後的輸入信號z(n)w(n)；其中w(n)為長度N的窗函數，可以為漢明窗函數、高斯窗函數、矩形窗函數等。

步驟303：計算頻譜；對加窗後的輸入信號進行離散傅立葉轉換，獲得第t訊框輸入信號的頻譜Z(t,k)：

步驟304：Mel濾波器組濾波；採用M組Mel濾波器{H_m(k)，m=0,1,2,…,M-1}對Z(t,k)進行處理，每個Mel濾波器的輸出能量E(t,m)為：

這裡H_m(k)為Mel濾波器組第m個濾波器的頻響函數，它定義為：

其中f_m為第m個Mel濾波器的中心頻率，它由下式定義：

式(17)中f_low和f_high分別為Mel濾波器組的最低和最高頻率， Fs為取樣速率，M為濾波器組的數目，函數。

步驟305：取對數；首先對式(17)取對數，獲得Mel濾波器組中每個濾波器輸出的對數能量S(t,m)：S(t,m)=log_eE(t,m)，m=0,1,…,M-1 (18)

步驟306：離散余弦變換：然後對(18)式經離散余弦變換(DCT)變換得MFCC的係數如下：

由此提取到輸入信號的的聲紋特徵向量(t)為：

根據上述提取信號聲紋特徵的流程，可以提取第一輸入信號的第一聲紋特徵，以及第二輸入信號第二聲紋特徵。

在步驟203中，根據式(20)計算第一聲紋特徵與第二聲紋特徵之間的距離D：

其中，∥．∥為向量的範數，可為1-範數、2-範數或者∞-範數。

最後，在步驟204中，當第一聲紋特徵與第二聲紋特徵之間的距離D大於或等於門限值T時(為了與其他門限值相區別，此處可稱該門限值為第一門限值)，確定第二輸入信號中包含近端語音信號，即發生雙講，否則確定未發生雙講，即處於單講狀態，具體如式(21)所示：

在確定發生雙講之後，向移動終端的自我調整濾波器發送指示資訊，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

根據以上圖2所示流程的描述，圖4和圖5分別示出了兩種具體應用場景的示意圖。

圖4示出了利用麥克風輸出信號y(n)和自我調整濾波器輸出信號(n)來進行雙講檢測的實施例。如圖4所示，遠端輸入信號x(n)經過自我調整濾波器濾波後形成(n)，y(n)為麥克風輸出信號。對麥克風輸出信號y(n)和(n)分別進行聲紋特徵提取，對所提取的聲紋特徵向量進行匹配處理，若兩路信號的聲紋特徵向量是模式匹配的，則判為單講狀態；否則，判為雙講狀態。這裡所提取的聲紋特徵向量可以是MFCC型特徵參數，也可以是能有效表徵和鑒別輸入信號的任何其它類型的特徵參數。所採用的「模式匹配」技術可以是特徵向量間的距離匹配技術，也可以是特徵向量間的其它「相似度」匹配技術。

圖5給出了利用麥克風輸出信號y(n)和遠端輸入信號x(n)來進行雙講檢測的實施例。如圖所示，對x(n)通過延時單元進行延時處理後進行特徵提取，所延時的長度由聲學回聲路徑延時估計演算法決定，並對y(n)進行特徵提取；然後，對所提取的聲紋特徵向量進行匹配處理，若兩路信號的聲紋特徵向量是模式匹配的，則判為單講狀態；否則，判為雙講狀態。這裡所提取的聲紋特徵向量可以是MFCC型特徵參數，也可以是能有效表徵和鑒別輸入信號的任何其它類型的特徵參數。所採用的「模式匹配」技術可以是特徵向量間的距離匹配技術，也可以是特徵向量間的其它「相似度」匹配技術。

上述實施例中，通過將第一輸入信號的第一聲紋特徵與第二輸入信號的第二聲紋特徵進行比較，在第一聲紋特徵與第二聲紋特徵相近時，認為第一輸入信號與第二輸入信號中均包含遠端信號，且第二輸入信號中不包含近端語音信號，因此可以認為並未發生雙講，否則認為發生雙講。

由於語音信號是非平穩信號，表現在時域或頻域上為非連續信號。因此並不需要一直檢測第一輸入信號的第一聲紋特徵，或第二輸入信號的第二聲紋特徵，可以先檢測第一輸入信號或第二輸入信號中是否有語音信號，如果存在語音信號，則提取第一輸入信號或第二輸入信號的聲紋特徵。下面通過具體的實施例來詳細描述。

如圖6所示，本發明的一些實施例提供的一種近端語音信號檢測方法，包括：步驟601：接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號，該第二輸入信號為該移動終端接收到的近端信號；步驟602：檢測該第一輸入信號是否大於第二門限值，以及檢測該第二輸入信號是否大於第三門限值；以及步驟603：若該第一輸入信號大於該第二門限值，且該第二輸入信號大於該第三門限值，則提取該第一輸入信號的第一聲紋特徵，以及提取該第二輸入信號的第二聲紋特徵，確定該第一聲紋特徵與該第二聲紋特徵之間的距離，並根據該距離確定該第二輸入信號中是否存在近端語音信號。

在步驟601中接收到的第一輸入信號為遠端信號。遠端信號是經過編碼、調製，並需要被揚聲器等設備播放的信號。

第二輸入信號，即近端信號，是由麥克風等音訊接收感測器接收到的信號，可能包括遠端信號經過回聲路徑形成的聲學回波信號、環境雜訊信號以及近端語音信號中的一種或多種組合，第二輸入信號中的聲學回波信號是需要消除的信號。

在步驟602中，分別檢測第一輸入信號以及第二輸入信號中是否具有語音信號特徵的信號，檢測的方法有多種，可以通過語音活性檢測演算法進行檢測，也可以通過其他方法進行檢測，本發明的一些實施例對此並不限定。

在步驟602中，第二門限值可以是預設的信號能量與雜訊能量比的短時能量差，當檢測到第一輸入信號的短時能量差高於第二門限值時，確定第一輸入信號為語音信號。對應的，第三門限值可以是預設的信號能量與雜訊能量比的短時能量差

在步驟602中，由於第二輸入信號中包含由遠端信號經過回聲路徑形成的聲學回波信號時，會產生一定的延時，導致與第一輸入信號之間不同步，第二輸入信號相對於第一輸入信號有一定的滯後。如果不對第一輸入信號進行延時處理，直接檢測第一輸入信號是否大於該第二門限值，那麼需要將第一輸入信號的檢測結果與第二輸入信號在經過延時後的檢測結果相比較；如果對第一輸入信號進行延時處理，那麼需要將第一輸入信號的檢測結果與同一時間點第二輸入信號的檢測結果相比較。

綜上所述，檢測第一輸入信號在第一時間點是否大於該第二門限值，以及檢測第二輸入信號在第二時間點是否大於第三門限值，其中，第二時間點為第一時間點經過延時後的時間點，延時的時間長度可以根據實際情況確定。由上面的描述可知，延時的時間長度的取值可以分為下面兩種情況：第一種，不對第一輸入信號進行延時處理，此時延時的時間長度大於0，即第二時間點為第一時間點之後的時間點；延時的時間長度的具體取值可以根據遠端信號在回波路徑中的延時確定；第二種，對第一輸入信號進行延時處理，此時延時的時間長度等於0，即第二時間點與第一時間點重合。

最後，在步驟603中，對第一輸入信號和第二輸入信號的檢測結果可以分為以下三種情況：

一、若第二輸入信號小於第三門限值，則確定第二輸入信號在第二時間點不存在近端語音信號；

二、若第一輸入信號小於第二門限值，且第二輸入信號大於第三門限值，則確定第二輸入信號在第二時間點存在近端語音信號。

三、若第一輸入信號大於第二門限值，且第二輸入信號大於第三門限值，則提取第一輸入信號的第一聲紋特徵，以及提取第二輸入信號的第二聲紋特徵，確定第一聲紋特徵與第二聲紋特徵的距離，根據距離確定該第二輸入信號中是否存在近端語音信號。

第三種情況中，若第一聲紋特徵與第二聲紋特徵的距離小於第四門限值，則確定第二輸入信號在第二時間點不存在近端語音信號，否則，確定第二輸入信號在該第二時間點存在近端語音信號。其中，這裡的「第四門限值」與圖2所示流程中的「第一門限值」取值可以相同也可以不同。

具體如何提取第一輸入信號的第一聲紋特徵，以及提取第二輸入信號的第二聲紋特徵，可以參考前一實施例的描述，在此不再贅述。

當確定第二輸入信號中存在近端語音信號之後，向移動終端的自我調整濾波器發送指示資訊，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

根據以上圖6所示流程的描述，圖7示出了兩種具體應用場景的示意圖。

圖7給出了基於VAD並利用麥克風輸出信號y(n)和遠端輸入信號x(n)來進行雙講檢測的實施例。如圖所示，對遠端輸入信號x(n)進行VAD監測，如果有語音信號，則對信號x(n)提取聲紋特徵向量VPx，否則，不作處理。對下行鏈路中的麥克風輸出信號y(n)進行VAD監測，如果有語音信號，則對信號y(n)提取聲紋特徵向量VPy，否則，不作處理。在聲紋特徵向量VPx可使用時開始等待直到聲紋特徵向量VPy可使用時即刻進行模式匹配處理。具體如下：為了方便，標記下行鏈路的VAD在第t個時刻的值為DL_VAD(t)，上行鏈路的VAD在第t個時刻的值為UL_VAD(t)，如果DL_VAD(t)=0並且UL_VAD(t)=1時，則判定為雙講；如果DL_VAD(t)=0並且UL_VAD(t)=0時，則判定為單講；如果DL_VAD(t)=1並且UL_VAD(t+t0)=1(這裡t0>0)時，則按聲紋識別技術判決是否為雙講。這裡所提取的聲紋特徵向量可以是MFCC型特徵參數，也可以是能有效表徵和鑒別輸入信號的任何其它類型的特徵參數。所採用的「模式匹配」技術可以是特徵向量間的距離匹配技術，也可以是特徵向量間的其它「相似度」匹配技術。

針對上述方法流程，本發明的一些實施例還提供一種近端語音信號檢測裝置，該裝置的具體內容可以參照上述方法實施，在此不再贅述。

如圖8所示，本發明的一些實施例提供了一種近端語音信號檢測裝置，包括：接收單元801，用於接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號被線性或非線性變換後所得到的信號，該第二輸入信號為該移動終端接收到的近端信號；提取單元802，用於提取該第一輸入信號的第一聲紋特徵以及該第二輸入信號的第二聲紋特徵；以及確定單元803，用於確定該第一聲紋特徵與該第二聲紋特徵之間的距離，並根據該距離確定該第二輸入信號中是否存在近端語音信號。

可選地，該確定單元803具體用於：判斷該距離是否小於第一門限值，若是，則確定該第二輸入信號中不存在近端語音信號，否則，確定該第二輸入信號中存在近端語音信號。

可選地，該確定單元803還用於：向該移動終端的自我調整濾波器發送指示資訊，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

如圖9所示，本發明的一些實施例提供了一種近端語音信號檢測裝置，包括：接收單元901，用於接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號，該第二輸入信號為該移動終端接收到的近端信號；檢測單元902，用於檢測該第一輸入信號是否大於第二門限值，以及檢測該第二輸入信號是否大於第三門限值；以及確定單元903，用於在確定該第一輸入信號大於該第二門限值，且該第二輸入信號大於該第三門限值時，提取該第一輸入信號的第一聲紋特徵，以及提取該第二輸入信號的第二聲紋特徵，確定該第一聲紋特徵與該第二聲紋特徵之間的距離，並根據該距離確定該第二輸入信號中是否存在近端語音信號。

可選地，該檢測單元902用於：檢測該第一輸入信號在第一時間點是否大於該第二門限值，以及檢測該第二輸入信號在第二時間點是否大於該第三門限值，其中，該第二時間點為該第一時間點經過延時之後的時間點。

可選地，該確定單元903具體用於：若該距離小於第四門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號，否則，確定該第二輸入信號在該第二時間點存在近端語音信號。

可選地，該確定單元903還用於：若該第二輸入信號小於該第三門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號；或者，若該第一輸入信號小於該第二門限值，且該第二輸入信號大於該第三門限值，則確定該第二輸入信號在該第二時間點存在近端語音信號。

可選地，該確定單元903還用於：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。

綜上所述，根據本發明的一些實施例提供的方法及裝置，本發明的一些實施例中通過提取遠端語音信號的第一聲紋特徵，以及音訊接收設備的輸出信號中的第二聲紋特徵，通過對比第一聲紋特徵與第二聲紋特徵確定是否發生雙講。通過本發明的一些實施例提供的方法，避免了現有技術中以假設聲學回波路徑中非線性失真很小而忽略不計以及假設環境雜訊平穩為前提條件去檢測是否發生雙講時產生的誤判等情況，從而更準確的實現雙講檢測。

本領域內的技術人員應明白，本發明的一些實施例可提供為方法、系統、或電腦程式產品。因此，本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用存儲介質(包括但不限於磁碟記憶體和光學記憶體等)上實施的電腦程式產品的形式。

本發明是參照根據本發明的一些實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器，使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式指令也可存儲在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中，使得存儲在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上，使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

顯然，本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣，倘若本發明的這些修改和變型屬於本發明的申請專利範圍及其等同技術的範圍之內，則本發明也意圖包含這些改動和變型在內。

201-204‧‧‧步驟

Claims

一種近端語音信號檢測方法，包括：接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號被變換後所得到的信號，該第二輸入信號為該移動終端接收到的近端信號；提取該第一輸入信號的第一聲紋特徵向量以及該第二輸入信號的第二聲紋特徵向量；確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的差的範數，以確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的距離；以及比較該距離與第一門限值，以確定該第二輸入信號中是否存在近端語音信號；其中，在該接收第一輸入信號以及第二輸入信號前，該方法還包括：檢測第一輸入信號中是否存在語音信號。
如請求項1所述的近端語音信號檢測方法，其中，該第一輸入信號為該移動終端的自我調整濾波器輸出的回波估計信號，其中，該回波估計信號是該自我調整濾波器對該遠端信號進行線性或非線性濾波得到的。
如請求項1所述的近端語音信號檢測方法，其中，該第一輸入信號為該遠端信號被線性延時後得到的信號。
如請求項1所述的近端語音信號檢測方法，其中，該比較該距離與第一門限值，以確定該第二輸入信號中是否存在近端語音信號，包括：判斷該距離是否小於該第一門限值，若是，則確定該第二輸入信號中不存在近端語音信號，否則，確定該第二輸入信號中存在近端語音信號。
如請求項1至4中任一項所述的近端語音信號檢測方法，其中，該確定該第二輸入信號中存在近端語音信號之後，還包括：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。
如請求項1所述的近端語音信號檢測方法，其中，該第一、第二聲紋特徵向量為表達語音特性的特徵向量，包括語音信號幀的Mel頻率的倒譜系數。
一種近端語音信號檢測方法，包括：接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號，該第二輸入信號為該移動終端接收到的近端信號；以及檢測該第一輸入信號是否大於第二門限值，以及檢測該第二輸入信號是否大於第三門限值；若該第一輸入信號大於該第二門限值，且該第二輸入信號大於該第三門限值，則提取該第一輸入信號的第一聲紋特徵向量，以及提取該第二輸入信號的第二聲紋特徵向量，確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的差的範數，以確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的距離，並比較該距離與第四門限值，以確定該第二輸入信號中是否存在近端語音信號；其中，在該接收第一輸入信號以及第二輸入信號前，該方法還包括：檢測第一輸入信號中是否存在語音信號。
如請求項7所述的近端語音信號檢測方法，其中，檢測該第一輸入信號是否大於第二門限值，以及檢測該第二輸入信號是否大於第三門限值，包括：檢測該第一輸入信號在第一時間點是否大於該第二門限值，以及檢測該第二輸入信號在第二時間點是否大於該第三門限值，其中，該第二時間點為該第一時間點經過延時後的時間點。
如請求項8所述的近端語音信號檢測方法，其中，該比較該距離與第四門限值，以確定該第二輸入信號中是否存在近端語音信號，包括：若該距離小於該第四門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號，否則，確定該第二輸入信號在該第二時間點存在近端語音信號。
如請求項8所述的近端語音信號檢測方法，還包括：若該第二輸入信號小於該第三門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號；或者，若該第一輸入信號小於該第二門限值，且該第二輸入信號大於該第三門限值，則確定該第二輸入信號在該第二時間點存在近端語音信號。
如請求項7至10中任一項所述的近端語音信號檢測方法，其中，確定該第二輸入信號中存在近端語音信號之後，還包括：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。
如請求項7所述的近端語音信號檢測方法，其中，該第一、第二聲紋特徵向量為表達語音特性的特徵向量，包括語音信號幀的Mel頻率的倒譜系數。
一種近端語音信號檢測裝置，包括：接收單元，用於接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號被變換後所得到的信號，該第二輸入信號為該移動終端接收到的近端信號；提取單元，用於提取該第一輸入信號的第一聲紋特徵向量以及該第二輸入信號的第二聲紋特徵向量；以及確定單元，用於確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的差的範數，以確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的距離，並比較該距離與第一門限值，以確定該第二輸入信號中是否存在近端語音信號；其中，該接收單元還用於在該接收第一輸入信號以及第二輸入信號前，檢測第一輸入信號中是否存在語音信號。
如請求項13所述的近端語音信號檢測裝置，其中，該第一輸入信號為該移動終端的自我調整濾波器輸出的回波估計信號，該回波估計信號是該自我調整濾波器對該遠端信號進行線性或非線性濾波得到的。
如請求項13所述的近端語音信號檢測裝置，其中，該第一輸入信號為該遠端信號被線性延時後得到的信號。
如請求項13所述的近端語音信號檢測裝置，其中，該確定單元具體用於：判斷該距離是否小於該第一門限值，若是，則確定該第二輸入信號中不存在近端語音信號，否則，確定該第二輸入信號中存在近端語音信號。
如請求項13至16中任一項所述的近端語音信號檢測裝置，其中，該確定單元還用於：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。
如請求項13所述的近端語音信號檢測裝置，其中，該第一、第二聲紋特徵向量為表達語音特性的特徵向量，包括語音信號幀的Mel頻率的倒譜系數。
一種近端語音信號檢測裝置，包括：接收單元，用於接收第一輸入信號以及第二輸入信號，其中，該第一輸入信號為移動終端接收到的遠端信號，該第二輸入信號為該移動終端接收到的近端信號；檢測單元，用於檢測該第一輸入信號是否大於第二門限值以及檢測該第二輸入信號是否大於第三門限值；以及確定單元，用於在確定該第一輸入信號大於該第二門限值且該第二輸入信號大於該第三門限值時，提取該第一輸入信號的第一聲紋特徵向量，以及提取該第二輸入信號的第二聲紋特徵向量，確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的差的範數，以確定該第一聲紋特徵向量與該第二聲紋特徵向量之間的距離，並比較該距離與第四門限值，以確定該第二輸入信號中是否存在近端語音信號；其中，該接收單元還用於在該接收第一輸入信號以及第二輸入信號前，檢測第一輸入信號中是否存在語音信號。
如請求項19所述的近端語音信號檢測裝置，其中，該檢測單元用於：檢測該第一輸入信號在第一時間點是否大於該第二門限值，以及檢測該第二輸入信號在第二時間點是否大於該第三門限值，其中，該第二時間點為該第一時間點經過延時後的時間點。
如請求項20所述的近端語音信號檢測裝置，其中，該確定單元具體用於：若該距離小於該第四門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號，否則，確定該第二輸入信號在該第二時間點存在近端語音信號。
如請求項20所述的近端語音信號檢測裝置，其中，該確定單元還用於：若該第二輸入信號小於該第三門限值，則確定該第二輸入信號在該第二時間點不存在近端語音信號；或者，若該第一輸入信號小於該第二門限值，且該第二輸入信號大於該第三門限值，則確定該第二輸入信號在該第二時間點存在近端語音信號。
如請求項19至22中任一項所述的近端語音信號檢測裝置，其中，該確定單元還用於：向該移動終端的自我調整濾波器發送指示資訊，其中，該指示資訊用於指示該自我調整濾波器暫停更新濾波器係數。
如請求項19所述的近端語音信號檢測裝置，其中，該第一、第二聲紋特徵向量為表達語音特性的特徵向量，包括語音信號幀的Mel頻率的倒譜系數。