TWI663595B

TWI663595B - 語音干擾濾除方法、語音干擾濾除裝置及電腦可讀存儲介質

Info

Publication number: TWI663595B
Application number: TW107111700A
Authority: TW
Inventors: 林燕星
Original assignee: 新加坡商雲網科技新加坡有限公司
Priority date: 2017-05-31
Filing date: 2018-04-02
Publication date: 2019-06-21
Also published as: CN108986831A; CN108986831B; TW201903756A; US10643635B2; US20180350386A1

Abstract

一種語音干擾濾除方法，其中，該方法包括步驟：通過音訊採集單元獲取外部環境中的第一音訊信號，該第一音訊信號中包括使用者語音信號；獲取音訊輸出單元輸出的第二音訊信號；過濾該第一音訊信號中的語音音區以得到第一背景音訊信號，過濾該第二音訊信號中的語音音區以得到第二背景音訊信號；通過對比第一背景音訊信號和第二背景音訊信號，得到時間差T和擴音參數X；對該第二音訊信號進行時間補償、放大和反相操作以得到第三音訊信號；合成該第一音訊信號與該第三音訊信號，得到與使用者語音信號接近的第四音訊信號。本發明還提供一種電子裝置、電腦可讀存儲介質。本發明可以避免使用者的控制語音受到音訊輸出單元聲源干擾的情況。

Description

語音干擾濾除方法、語音干擾濾除裝置及電腦可讀存儲介質

本發明涉及語音處理技術領域，尤其是涉及一種語音干擾濾除的方法、電子裝置及電腦可讀存儲介質。

隨著科技的發展，具有播放功能的電子裝置（如智慧電視、電腦、手機等）因具備豐富的功能與複雜的選項，傳統的控制方法（如遙控器控制、觸摸控制、鍵鼠控制）已不足以帶來便捷的控制與直覺式使用者體驗，因此多數產品開始導入語音控制。

然而，使用者在利用該電子裝置播放電影或音樂時，若想要通過語音控制該電子裝置，則必須關閉正在播放的電影或音樂，否則使用者所發出的控制語音容易受到該電子裝置所產生的音源干擾，其控制語音無法被該電子裝置精確識別，降低了使用者語音控制的控制效率和準確率。

鑒於以上內容，有必要提供一種語音干擾濾除的方法、電子裝置及電腦可讀存儲介質，可以讓使用者所發出的控制語音不會受到該電子裝置輸出的音源干擾，使得控制語音被該電子裝置精確識別，提高了使用者語音控制的控制效率。

本發明實施方式提供一種語音干擾濾除的方法，包括步驟：通過該音訊採集單元獲取外部環境中的第一音訊信號，該第一音訊信號中包括使用者語音信號；獲取該音訊輸出單元輸出的第二音訊信號；過濾該第一音訊信號中的語音音區以得到第一背景音訊信號，過濾該第二音訊信號中的語音音區以得到第二背景音訊信號；通過對比該第一背景音訊信號和該第二背景音訊信號，得到該第一音訊信號和該第二音訊信號之間的時間差T和擴音參數X；依據該時間差T及該擴音參數X，對該第二音訊信號進行時間補償、放大和反相操作以得到第三音訊信號；合成該第一音訊信號與該第三音訊信號，得到與該使用者語音信號接近的第四音訊信號。

本發明實施方式還提供一種電子裝置，該電子裝置包括記憶體、處理器、音訊採集單元、音訊輸出單元及存儲在該記憶體上並可在該處理器上運行的電腦程式，該電腦程式被該處理器執行時實現如該語音干擾濾除的方法的步驟。

進一步地，本發明實施方式還提供一種電腦可讀存儲介質，該電腦可讀存儲介質上存儲有電腦程式，該電腦程式被處理器執行時實現如該語音干擾濾除的方法的步驟。

相較於現有技術，所述之語音干擾濾除的方法、電子裝置及電腦可讀存儲介質，能夠使得使用者的控制語音被該電子裝置精確識別，提高了使用者語音控制的控制效率。

參閱圖1所示，是本發明實施例之電子裝置2的架構圖。在本實施例中，該電子裝置2中包括語音干擾濾除系統10、記憶體20、處理器30、音訊採集單元40及音訊輸出單元50。該電子裝置2可以是智慧家電、智慧手機、電腦等。

其中，該記憶體20至少包括一種類型的可讀存儲介質，該可讀存儲介質包括快閃記憶體、硬碟、多媒體卡、卡型記憶體（例如，SD或DX記憶體等）、隨機訪問記憶體（RAM）、靜態隨機訪問記憶體（SRAM）、唯讀記憶體（ROM）、電可擦除可程式設計唯讀記憶體（EEPROM）、可程式設計唯讀記憶體（PROM）、磁性記憶體、磁片、光碟等。該處理器30可以是中央處理器（Central Processing Unit，CPU）、控制器、微控制器、微處理器、或其他資料處理晶片等。

參閱圖2所示，是該語音干擾濾除系統10的程式模組圖。

該語音干擾濾除系統10包括獲取模組100、過濾模組200、對比模組300、修改模組400以及合成模組500。該模組被配置成由一個或多個處理器（本實施例為處理器30）執行，以完成本發明。本發明所稱的模組是完成特定功能的電腦程式段。該記憶體20用於存儲該語音干擾濾除系統10的程式碼等資料。該處理器30用於執行該記憶體20中存儲的程式碼。

該獲取模組100用於通過該音訊採集單元40獲取外部環境中的第一音訊信號，該第一音訊信號中包括使用者語音信號。

該獲取模組100還用於獲取該音訊輸出單元50輸出的第二音訊信號。在本實施例中，該第二音訊信號是從該電子裝置2內部獲取，而不是在該音訊輸出單元50輸出時從外部採集。

該過濾模組200用於過濾該第一音訊信號中的語音音區以得到第一背景音訊信號，過濾該第二音訊信號中的語音音區以得到第二背景音訊信號。在本實施例中，該語音音區是指人類正常聲音頻率對應的音區，例如80~1000HZ音區。

該對比模組300用於對比該第一背景音訊信號和該第二背景音訊信號，得到該第一音訊信號和該第二音訊信號之間的時間差T和擴音參數X。

在本實施例中，該對比模組300取樣該第一背景音訊信號以提取該第一背景音訊信號中多個取樣點的第一特徵值序列，及取樣該第二背景音訊信號以提取該第二背景音訊信號中多個取樣點的第二特徵值序列。

其中，計算該第一特徵值序列與該第二特徵值序列的方法包括：

設定一固定區間作為計算能量值的時間區間，區間長度為t。

在該第一背景音訊信號與該第二背景音訊信號的相同時間點，以該區間長度t設置連續n個該固定區間。在本實施例中，以n=10為例。

計算該第一背景音訊信號中設置的10個固定區間的能量值，得到第一區間能量序列，記為。依據各固定區間內音訊信號的振幅大小為該固定區間計算一對應的能量值，其中，為第一個固定區間的能量值、為第二個固定區間的能量值，以此類推。

同樣地，計算該第二背景音訊信號中設置的10個固定區間的能量值，得到第二區間能量序列，。其中，為第一個固定區間的能量值、為第二個固定區間的能量值，以此類推。

針對該第一背景音訊信號和該第二背景音訊信號，依序將每一固定區間的能量值與後一固定區間的能量值進行比較，得到多個特徵值。特徵值的計算公式如下：

其中，為第個該固定區間的能量值。

根據該第一區間能量序列計算得到多個特徵值，以取得第一特徵值序列。

根據該第二區間能量序列計算得到多個特徵值，以取得第二特徵值序列。

該對比模組300還用於對比該第一特徵值序列與該第二特徵值序列，得到一數值k，使得。

例如，若，，可以看出、、…、，此時該數值k為2。

該時間差T等於該區間長度t與該數值k的乘積。

該對比模組300還用於根據該數值k計算該擴音參數X。

計算該擴音參數X的公式如下:

其中，為該第一背景音訊信號中第n個該固定區間的能量值，為該第二背景音訊信號中第n個該固定區間的能量值。例如：

，，當k=2時，。此時，該擴音參數X=1.1971。

該修改模組400用於依據該時間差T及該擴音參數X，對該第二音訊信號進行時間補償、放大和反相操作以得到第三音訊信號。公式如下：

其中，為該第三音訊信號，為該第二音訊信號。

該合成模組500用於合成該第一音訊信號與該第三音訊信號，得到與該使用者語音信號接近的第四音訊信號。

其中，為該第四音訊信號，為該第一音訊信號，為該第三音訊信號。在本實施例中，該第四音訊信號為已經消除背景雜訊的使用者控制語音，可以直接輸入至該電子裝置2語音辨識系統進行辨識進而控制該電子裝置2。

參閱圖3所示，是本發明實施例之語音干擾濾除的方法的步驟流程圖。該語音干擾濾除的方法應用於該電子裝置2中，通過處理器30執行記憶體20中存儲的程式碼實現。

步驟S302，通過該音訊採集單元40獲取外部環境中的第一音訊信號，該第一音訊信號中包括使用者語音信號。

步驟S304，獲取該音訊輸出單元50輸出的第二音訊信號。

步驟S306，過濾該第一音訊信號中的語音音區以得到第一背景音訊信號，過濾該第二音訊信號中的語音音區以得到第二背景音訊信號。

步驟S308，通過對比該第一背景音訊信號和該第二背景音訊信號，得到該第一音訊信號和該第二音訊信號之間的時間差T和擴音參數X。

步驟S310，依據該時間差T及該擴音參數X，對該第二音訊信號進行時間補償、放大和反相操作以得到第三音訊信號。

步驟S312，合成該第一音訊信號與該第三音訊信號，得到與該使用者語音信號接近的第四音訊信號。

以上實施例僅用以說明本發明的技術方案而非限制，儘管參照較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神和範圍。

2‧‧‧電子裝置

10‧‧‧語音干擾濾除系統

20‧‧‧記憶體

30‧‧‧處理器

40‧‧‧音訊採集單元

50‧‧‧音訊輸出單元

100‧‧‧獲取模組

200‧‧‧過濾模組

300‧‧‧對比模組

400‧‧‧修改模組

500‧‧‧合成模組

S302~S312‧‧‧語音干擾濾除方法的步驟流程

圖1是本發明實施例之電子裝置的架構圖。

圖2是本發明實施例之語音干擾濾除系統的程式模組圖。

圖3是本發明實施例之語音干擾濾除方法的步驟流程圖。

Claims

一種語音干擾濾除方法，用於電子裝置中，該電子裝置包含至少一個音訊採集單元和至少一個音訊輸出單元，其中，該方法包括步驟：通過該音訊採集單元獲取外部環境中的第一音訊信號，該第一音訊信號中包括使用者語音信號；獲取該音訊輸出單元輸出的第二音訊信號；過濾該第一音訊信號中的語音音區以得到第一背景音訊信號，過濾該第二音訊信號中的語音音區以得到第二背景音訊信號；通過對比該第一背景音訊信號和該第二背景音訊信號，得到該第一音訊信號和該第二音訊信號之間的時間差T和擴音參數X；依據該時間差T及該擴音參數X，對該第二音訊信號進行時間補償、放大和反相操作以得到第三音訊信號；及合成該第一音訊信號與該第三音訊信號，得到與該使用者語音信號接近的第四音訊信號。
如請求項1所述之語音干擾濾除方法，其中，該得到該第一音訊信號和該第二音訊信號之間的時間差T和擴音參數X的步驟還包括：取樣該第一背景音訊信號以提取該第一背景音訊信號中多個取樣點的第一特徵值序列，及取樣該第二背景音訊信號以提取該第二背景音訊信號中多個取樣點的第二特徵值序列；根據該第一特徵值序列和該第二特徵值序列，計算得到該第一背景音訊信號和該第二背景音訊信號之間的時間差T；根據該時間差T，補償該第二背景音訊信號並將補償後的第二背景音訊信號和該第一背景音訊信號進行對比，以得到該擴音參數X。
如請求項2所述之語音干擾濾除方法，其中，該取樣該第一背景音訊信號以提取該第一背景音訊信號中多個取樣點的第一特徵值序列，及取樣該第二背景音訊信號以提取該第二背景音訊信號中多個取樣點的第二特徵值序列的步驟還包括：設定一固定區間作為計算能量值的時間區間，區間長度為t；在該第一背景音訊信號與該第二背景音訊信號的相同時間點以該區間長度t設置連續n個該固定區間；計算該第一背景音訊信號中設置的n個區間的能量值，得到第一區間能量序列，記為
; 計算該第二背景音訊信號中設置的n個區間內的能量，得到第二區間能量序列，記為
; 針對該第一背景音訊信號和該第二背景音訊信號，將每一固定區間內的能量與後一固定區間內的能量進行比較，得到多個特徵值，從而得到第一特徵值序列
和第二特徵值序列
。
如請求項3所述語音干擾濾除方法，其中，特徵值
的計算公式如下：
其中，
為第
個該固定區間的能量值。
如請求項3所述之語音干擾濾除方法，其中，該根據該第一特徵值序列和該第二特徵值序列，計算得到該第一背景音訊信號和該第二背景音訊信號之間的時間差T的步驟還包括：對比該第一特徵值序列
與該第二特徵值序列
，得到一數值k，使得
；該時間差T等於該區間長度t與該數值k的乘積。
如請求項5所述之語音干擾濾除方法，其中，計算該擴音參數X的公式為：
其中，
為該第一背景音訊信號中第n個該固定區間的能量值，
為該第二背景音訊信號中第n個該固定區間內的能量值。
如請求項1所述之語音干擾濾除方法，其中，該第三音訊信號的計算公式為：
其中，
為該第三音訊信號，
為該第二音訊信號。
一種電腦可讀存儲介質，其用於存儲多條程式指令，該些程式指令當由語音干擾濾除裝置執行時，使得該語音干擾濾除裝置實現如請求項1至7中任一項所述之語音干擾濾除方法的步驟。
一種語音干擾濾除裝置，包括：至少一個音訊採集單元和至少一個音訊輸出單元、記憶體、處理器及存儲在該記憶體上並可在該處理器上運行的電腦程式，該電腦程式被該處理器執行時實現如請求項1至7中任一項所述之語音干擾濾除方法的步驟。