TWI745845B

TWI745845B - 耳機及耳機組

Info

Publication number: TWI745845B
Application number: TW109103058A
Authority: TW
Inventors: 江彥達; 林宏錡; 張朝森
Original assignee: 美律實業股份有限公司
Priority date: 2020-01-31
Filing date: 2020-01-31
Publication date: 2021-11-11
Also published as: CN111464918A; US10972844B1; CN111464918B; TW202131706A

Abstract

本發明提供一種耳機及耳機組。耳機包括處理電路及濾波模組。處理電路取得第一語音訊號，並對第一語音訊號執行前處理操作以產生第二語音訊號。濾波模組包括高通、低通及帶通濾波器。處理電路更經配置以：從高通、低通及帶通濾波器分別接收第一、第二及第三訊號；對第二及第三訊號執行降噪操作，以產生第四訊號；以及對第一及第四訊號執行訊號合成操作，以將第一及第四訊號合成為輸出語音訊號。

Description

耳機及耳機組

本發明是有關於一種語音處理裝置，且特別是有關於一種耳機及耳機組。

隨著科技的發展，使用耳機控制智慧型裝置的語音助理已然成為人們生活中最為常見的行為之一。然而，若僅透過耳機的麥克風接收使用者的語音，將可能因為環境噪音的干擾而影響語音辨識的結果。為了改善耳機的語音辨識表現，各家廠商無不致力於研發相關的技術。

例如，習知一技術可利用加速規訊號輔助聲音活動偵測(voice activity detection，VAD)技術以判定在麥克風的時域訊號中，語音訊號與噪聲訊號的分界處，如圖1所示。

在圖1中，可看出在經由上述技術處理麥克風的時域訊號110(其包括語音成分110a及噪聲成分110b)之後，可將時域訊號110區分為多段噪聲訊號(例如噪聲訊號112)與語音訊號(例如語音訊號114)。然而，由各語音訊號(例如語音訊號114)可看出，其個別仍包括噪聲成分110b。換言之，此種作法並無法完全消除噪聲成分。

此外，習知有另一技術利用加速規接收本質上不帶有環境噪音的骨傳導音訊號以隔絕外部噪聲，再以此骨傳導音訊號取代麥克風訊號的低頻部分，藉以濾除低頻的噪聲。然而，由於加速規訊號的採樣頻率較低，且骨傳導音訊號本質上缺乏口腔與鼻腔中的共鳴，故相較於麥克風透過空氣所接收到的訊號來的悶且模糊，因而可能導致所合成的語音訊號具有較差的音質。

因此，對於本領域技術人員而言，如何設計一種可提升語音訊號品質的技術方案實為一項重要議題。

有鑑於此，本發明提供一種耳機及耳機組，其可用於解決上述技術問題。

本發明提供一種耳機，其包括處理電路及濾波模組。處理電路從至少一麥克風取得一第一語音訊號，並對第一語音訊號執行一前處理操作以產生一第二語音訊號。濾波模組包括一高通濾波器、一低通濾波器及一帶通濾波器，其中高通濾波器對第二語音訊號執行一高通濾波操作以產生一第一訊號，低通濾波器對第二語音訊號執行一低通濾波操作以產生一第二訊號，帶通濾波器從至少一加速規接收對應於第一語音訊號的一骨傳導音訊號，並對骨傳導音訊號執行一帶通濾波操作以產生一第三訊號。處理電路更經配置以：從高通濾波器、低通濾波器及帶通濾波器分別接收第一訊號、第二訊號及第三訊號；對第二訊號及第三訊號執行一降噪操作，以產生一第四訊號；以及對第一訊號及第四訊號執行一訊號合成操作，以將第一訊號及第四訊號合成為一輸出語音訊號。

本發明提供一種耳機組，包括第一耳機及第二耳機。第一耳機包括至少一第一麥克風。第二耳機包括至少一第二麥克風、處理電路及濾波模組。至少一第二麥克風與至少一第一麥克風形成一麥克風陣列。處理電路從麥克風陣列取得一第一語音訊號，並對第一語音訊號執行一前處理操作以產生一第二語音訊號。濾波模組包括一高通濾波器、一低通濾波器及一帶通濾波器，其中高通濾波器對第二語音訊號執行一高通濾波操作以產生一第一訊號，低通濾波器對第二語音訊號執行一低通濾波操作以產生一第二訊號，帶通濾波器從至少一加速規接收對應於第一語音訊號的一骨傳導音訊號，並對骨傳導音訊號執行一帶通濾波操作以產生一第三訊號。處理電路更經配置以：從高通濾波器、低通濾波器及帶通濾波器分別接收第一訊號、第二訊號及第三訊號；對第二訊號及第三訊號執行一降噪操作，以產生一第四訊號；以及對第一訊號及第四訊號執行一訊號合成操作，以將第一訊號及第四訊號合成為一輸出語音訊號。

基於上述，本發明的耳機及耳機組可提供具更佳音質的輸出語音訊號，從而有助於後續的語音辨識操作。

110:時域訊號

110a:語音成分

110b:噪聲成分

112:噪聲訊號

114:語音訊號

202:濾波模組

202a:高通濾波器

202b:低通濾波器

202c:帶通濾波器

204:處理電路

210,411,421:加速規

220,412,422:麥克風

301:前處理模組

301a:切換模組

301b:波束成形模組

302:降噪模組

302a:訊號分離模組

302b:子空間語音增強模組

303:訊號合成模組

400:耳機組

200,410,420:耳機

BT:骨傳導音訊號

NS:噪聲訊號

OS:輸出語音訊號

S1:第一訊號

S2:第二訊號

S3:第三訊號

S4:第四訊號

SS1:第一特定訊號

SS2:第二特定訊號

VO1:第一語音訊號

VO2:第二語音訊號

圖1是習知結合加速規訊號及VAD技術以消除噪聲的示意圖。

圖2是依據本發明之一實施例繪示的耳機示意圖。

圖3是依據圖2繪示的耳機內硬體及軟體模組的示意圖。

圖4是依據本發明之一實施例繪示的耳機組示意圖。

請參照圖2，其是依據本發明之一實施例繪示的耳機示意圖。如圖2所示，耳機200例如是一入耳式耳機，並可包括濾波模組202及處理電路204，其中濾波模組202可接收來自加速規210的骨傳導音訊號BT，而濾波模組202及處理電路204可接收來自於麥克風220的第一語音訊號VO1。

在圖2中，加速規210及麥克風220可設置於耳機200之外。例如，加速規210及麥克風220可設置於與耳機200屬於同一有線/無線耳機組的另一耳機中。在此情況下，上述另一耳機可透過相關的有線/無線通訊協定將骨傳導音訊號BT、第一語音訊號VO1及其他的訊號發送至耳機200，但可不限於此。

此外，在一些實施例中，加速規210及麥克風220亦可設置於耳機200中，並如圖2所示方式耦接於濾波模組202及處理電路204。另外，在不同的實施例中，麥克風220可包括單一個麥克風，或是由多個麥克風單元形成的麥克風陣列。

在本發明的實施例中，第一語音訊號VO1可對應於骨傳導音訊號BT。具體而言，在一實施例中，假設佩戴有上述耳機或耳機組的使用者藉由說話等方式而發出/產生人聲訊號，而麥克風220可在接收上述人聲訊號後相應地將人聲訊號轉換為第一語音訊號VO1。於此同時，加速規210可擷取使用者在發出上述人聲訊號的過程中，因說話所產生的振動以產生骨傳導音訊號BT。

基於骨傳導音訊號BT及第一語音訊號VO1，本發明耳機200中的濾波模組202及處理電路204可協同進行本發明提出的技術方案，從而提供具較佳音質的輸出語音訊號，其相關細節將在之後詳述。

在本發明的實施例中，耦接於濾波模組202的處理電路204例如是一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器(microprocessor)、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、現場可程式閘陣列電路(Field Programmable Gate Array，FPGA)、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器(Advanced RISC Machine，ARM)的處理器以及類似品。

請參照圖3，其是依據圖2繪示的耳機內硬體及軟體模組的示意圖。在本發明的實施例中，濾波模組202可包括高通濾波器202a、低通濾波器202b及帶通濾波器202c。此外，處理電路204可存取所需的軟體模組、程式碼來實現本發明提出的技術方案。為使本案技術更易於理解，以下將假設處理電路204所存取的軟體模組包括如圖3所示的前處理模組301、降噪模組302及訊號合成模組303。應了解的是，圖3所示內容並非上述各軟體模組與濾波模組202之間的實際耦接關係，而僅是用於便於說明本發明中的訊號傳遞/處理機制而作如此呈現。

在圖3中，處理電路204可從麥克風220取得第一語音訊號VO1，並執行前處理模組301以對第一語音訊號VO1執行前處理操作以產生第二語音訊號VO2。

在本發明的實施例中，用於執行上述前處理操作的前處理模組301可包括切換模組301a及波束成形模組301b，其中切換模組301a可用於判斷麥克風220是否僅包括單一麥克風。若是，則切換模組301a可將第一語音訊號VO1作為第二語音訊號VO2而輸出至高通濾波器202a及低通濾波器202b。

在另一實施例中，若切換模組301a判定麥克風220未僅包括單一麥克風(即，麥克風220包括一麥克風陣列)，則處理電路204可執行波束成形模組301b以對第一語音訊號VO1執行波束成形操作，以產生噪聲訊號NS及第一特定訊號SS1，其中第一特定訊號包括第一音訊成分及第一噪聲成分。

在一實施例中，第一特定訊號SS1例如是在第一語音訊號VO1中對應於發出第一語音訊號VO1的聲源方向的一部分訊號，而噪聲訊號NS例如是未對應於上述聲源方向的其他部分訊號。從另一觀點而言，上述波束成形操作可理解為一種在物理空間上的消噪方式，但可不限於此。之後，波束成形模組301b可將第一特定訊號SS1作為第二語音訊號VO2輸出至高通濾波器202a及低通濾波器202b。

簡言之，若麥克風220僅包括單一麥克風，則前處理模組301即直接將第一語音訊號VO1輸出至高通濾波器202a及低通濾波器202b。另一方面，若麥克風220為麥克風陣列，則處理電路204可將經波束成形操作所取得的第一特定訊號SS1輸出至高通濾波器202a及低通濾波器202b。

之後，在取得第二語音訊號VO2之後，高通濾波器202a可對第二語音訊號VO2執行高通濾波操作以產生第一訊號S1，而低通濾波器202b可對第二語音訊號VO2執行低通濾波操作以產生第二訊號S2。在一實施例中，高通濾波器202a與低通濾波器202b的分頻點可介於1kHz及2kHz之間。例如，若分頻點經設定為1500Hz，則第一訊號S1例如是第二語音訊號VO2中高於1500Hz的訊號成分，而第二訊號例如是第二語音訊號VO2中低於1500Hz的訊號成分。

此外，在從加速規210取得骨傳導音訊號BT之後，帶通濾波器202c可對骨傳導音訊號BT執行帶通濾波操作以產生第三訊號S3。在一實施例中，帶通濾波器202c的通帶可介於20Hz至1000Hz之間，即一般人聲訊號的頻率範圍。

之後，處理電路204可從高通濾波器202a、低通濾波器202b及帶通濾波器202c分別接收第一訊號S1、第二訊號S2及第三訊號S3。並且，處理電路204可執行降噪模組302以對第二訊號S2及第三訊號S3執行降噪操作，以產生第四訊號S4。

在一實施例中，降噪模組302可基於第二訊號S2及第三訊號S3產生第二特定訊號SS2，其中第二特定訊號SS2可包括彼此分離的第二音訊成分及第二噪聲成分。之後，降噪模組302可再依據噪聲訊號NS從第二特定訊號SS2中獲取第二音訊成分以作為第四訊號S4。

在圖3中，降噪模組302可包括訊號分離模組302a及子空間語音增強模組302b，其中訊號分離模組302a可執行訊號分離操作以基於第二訊號S2及第三訊號S3產生第二特定訊號SS2，而子空間語音增強模組302b可執行子空間語音增強操作以依據噪聲訊號NS從第二特定訊號SS2中獲取第二音訊成分以作為第四訊號S4。

在一實施例中，訊號分離模組302a可基於獨立成分分析(independent componcnts analysis，ICA)的盲訊號分離演算法產生第二特定訊號SS2，或是基於主成分分析(principal components analysis，PCA)演算法產生第二特定訊號SS2，但可不限於此。上述ICA的相關細節可參照「Alaa Tharwat,Independent component analysis：An introduction,Applied Computing and Informatics,2018.」的內容，而PCA的相關細節可參照「Renevey R.Vetter,N.Virag and J.Vesin,“Single channel speech enhancement using principal component analysis and MDL subspace selection,”in Proceedings of the 6th European Conference on Speech Communication and Technology(EUROSPEECH’99),1999,vol.5,pp.2411-2414」的內容，於此不另贅述。

詳細而言，由於訊號分離模組302a係基於第二訊號S2(其可理解為第二語音訊號VO2中低於分頻點的低頻成分)及第三訊號S3(其例如是骨傳導音訊號BT中介於20Hz至1000Hz之間的低頻成分)進行上述訊號分離操作，因此相較於僅使用第二訊號S2進行訊號分離操作的方式可達到更佳的訊號分離效能。從另一觀點而言，若僅有第三訊號S3亦無法執行上述訊號分離操作。因此，本案可理解為透過在執行訊號分離操作時同時考慮第二訊號S2及第三訊號S3的方式來改善訊號分離效能。從另一觀點而言，上述訊號分離操作可理解為一種統計方法上的消噪方式。

之後，在第一實施例中，若麥克風220包括麥克風陣列，則波束成形模組301b可相應地提供噪聲訊號NS至子空間語音增強模組302b。在此情況下，子空間語音增強模組302b可執行子空間語音增強(subspace speech enhancer)演算法以依據噪聲訊號NS從第二特定訊號SS2中獲取第二音訊成分。

從另一觀點而言，上述子空間語音增強操作可理解為一種向量空間上的消噪方式。具體而言，子空間語音增強模組302b可依據噪聲訊號NS而將第二特定訊號SS2中含有噪聲的子空間消除，藉以達到消除環境噪音並保留第二音訊成分的效果。上述子空間語音增強演算法的細節可參照「Kris Hermus,Patrick Wambacq,Hugo Van hamme,A Review of Signal Subspace Speech Enhancement and Its Application to Noise Robust Speech,EURASIP Journal on Advances in Signal Processing,2006」的內容，於此不另贅述。

此外，在第二實施例中，若麥克風220僅包括單一麥克風，則波束成形模組301b可能無法提供噪聲訊號NS至子空間語音增強模組302b。在此情況下，子空間語音增強模組302b仍可執行子空間語音增強演算法而直接從第二特定訊號SS2中獲取第二音訊成分以作為第四訊號S4。

之後，處理電路204可執行訊號合成模組303以對第一訊號S1及第四訊號S4執行訊號合成操作，以將第一訊號S1及第四訊號S4合成為輸出語音訊號OS。在一實施例中，上述訊號合成操作對應的截止頻率可介於1kHz及2kHz之間。藉此，可避免上述訊號合成操作對普遍低於1kHz的人聲訊號造成衰減。

進一步而言，由於訊號分離模組302a係基於第二訊號S2及第三訊號S3進行上述訊號分離操作，而第二訊號S2及第三訊號S3可理解為對應於使用者所發出的人聲訊號中的低頻成分，因此訊號分離模組302a及子空間語音增強模組302b所執行的操作可對人聲訊號中的低頻訊號達到更佳的噪聲消除效果。

因此，在將子空間語音增強模組302b提供的第四訊號S4與高通濾波器202a提供的第一訊號S1(其對應於使用者所發出的人聲訊號中高於分頻點的高頻訊號)進行上述訊號合成操作之後，可讓輸出語音訊號OS的低頻訊號具有較低的噪聲訊號，又由於高頻噪聲指向性高，可以透過波束成形模組301b大幅濾除，不需要透過降噪模組302執行降噪，因此降噪模組302僅需要執行低頻訊號中的降噪運算，可以有效提升運算的速度，進而有助於進行後續的語音辨識操作。

請參照圖4，其是依據本發明之一實施例繪示的耳機組示意圖。在圖4中，耳機組400可包括耳機410及420，其中耳機410可包括加速規411、麥克風412、濾波模組202及處理電路204，而耳機420可包括加速規421及麥克風422。應了解的是，為便於理解，圖4耳機410中的濾波模組202及處理電路204係以圖3所繪示的方式呈現。

在本實施例中，麥克風412及422可耦接於處理電路204。由於麥克風412及422可形成一麥克風陣列，故在處理電路202從此麥克風陣列接收第一語音訊號VO1之後，處理電路204可執行切換模組301a以將來自此麥克風陣列的第一語音訊號VO1提供予波束成形模組301b進行先前實施例中教示的波束成形操作。此外，在帶通濾波器202c接收來自加速規411及421的骨傳導音訊號BT之後，可依先前實施例教示的內容進行帶通濾波操作。之後，濾波模組202及處理電路204可依據先前實施例的教示進行相關的訊號處理，進而產生具較佳音質的輸出語音訊號OS，其細節於此不另贅述。

應了解的是，即便麥克風412及422個別僅包括單一個麥克風，麥克風412及422仍可被視為一麥克風陣列，故波束成形模組301b仍可基於第一語音訊號VO1進行波束成形操作。

綜上所述，有別於習知直接以骨傳導音訊號取代低頻訊號的作法，本發明的耳機係將骨傳導音訊號作為執行訊號分離操作時的參考，藉以提升訊號分離的效能，並進而改善降噪的效果。藉此，本發明可提供具更佳音質的輸出語音訊號，從而有助於後續的語音辨識操作。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

202:濾波模組 202a:高通濾波器 202b:低通濾波器 202c:帶通濾波器 204:處理電路 210:加速規 220:麥克風 301:前處理模組 301a:切換模組 310b:波束成形模組 302:降噪模組 302a:訊號分離模組 302b:子空間語音增強模組 303:訊號合成模組 BT:骨傳導音訊號 NS:噪聲訊號 OS:輸出語音訊號 S1:第一訊號 S2:第二訊號 S3:第三訊號 S4:第四訊號 SS1:第一特定訊號 SS2:第二特定訊號 VO1:第一語音訊號 VO2:第二語音訊號

Claims

一種耳機，包括：一處理電路，其從至少一麥克風取得一第一語音訊號，並對該第一語音訊號執行一前處理操作以產生一第二語音訊號；以及一濾波模組，其包括一高通濾波器，一低通濾波器及一帶通濾波器，其中該高通濾波器對該第二語音訊號執行一高通濾波操作以產生一第一訊號，該低通濾波器對該第二語音訊號執行一低通濾波操作以產生一第二訊號，該帶通濾波器從至少一加速規接收對應於該第一語音訊號的一骨傳導音訊號，並對該骨傳導音訊號執行一帶通濾波操作以產生一第三訊號；其中該處理電路更經配置以：從該高通濾波器，該低通濾波器及該帶通濾波器分別接收該第一訊號，該第二訊號及該第三訊號；對該第二訊號及該第三訊號執行一降噪操作，以產生一第四訊號；以及對該第一訊號及該第四訊號執行一訊號合成操作，以將該第一訊號及該第四訊號合成為一輸出語音訊號，其中該降噪操作包括：基於該第二訊號及該第三訊號產生一第二特定訊號，其中該第二特定訊號包括一第二音訊成分及一第二噪聲成分；以及從該第二特定訊號中獲取該第二音訊成分以作為該第四訊號。
如請求項1所述的耳機，其中該處理電路執行的該前處理操作包括：反應於判定該至少一麥克風僅包括單一麥克風，將該第一語音訊號作為該第二語音訊號而輸出至該高通濾波器及該低通濾波器。
如請求項1所述的耳機，其中反應於判定該至少一麥克風形成一麥克風陣列，該處理電路更經配置以：對該第一語音訊號執行一波束成形操作，以產生一噪聲訊號及一第一特定訊號，其中該第一特定訊號包括一第一音訊成分及一第一噪聲成分；將該第一特定訊號作為該第二語音訊號輸出至該高通濾波器及該低通濾波器。
如請求項3所述的耳機，其中該降噪操作更包括：依據該噪聲訊號從該第二特定訊號中獲取該第二音訊成分以作為該第四訊號。
如請求項4所述的耳機，其中該處理電路執行子空間語音增強演算法以依據該噪聲訊號從該第二特定訊號中獲取該第二音訊成分。
如請求項1所述的耳機，其中該處理電路基於獨立成分分析的盲訊號分離演算法或主成分分析演算法產生該第二特定訊號。
如請求項1所述的耳機，其中該高通濾波器與該低通濾波器的分頻點介於1kHz及2kHz之間。
如請求項1所述的耳機，其中該帶通濾波器的通帶介於20Hz至1000Hz之間。
如請求項1所述的耳機，更包括該至少一麥克風及該至少一加速規。
如請求項1所述的耳機，其中該耳機為一入耳式耳機。
如請求項1所述的耳機，其中該訊號合成操作對應的截止頻率介於1kHz及2kHz之間。
一種耳機組，包括：一第一耳機，其包括至少一第一麥克風；一第二耳機，其包括：至少一第二麥克風，其與該至少一第一麥克風形成一麥克風陣列；一處理電路，其從該麥克風陣列取得一第一語音訊號，並對該第一語音訊號執行一前處理操作以產生一第二語音訊號；以及一濾波模組，其包括一高通濾波器，一低通濾波器及一帶通濾波器，其中該高通濾波器對該第二語音訊號執行一高通濾波操作以產生一第一訊號，該低通濾波器對該第二語音訊號執行一低通濾波操作以產生一第二訊號，該帶通濾波器從至少一加速規接收對應於該第一語音訊號的一骨傳導音訊號，並對該骨傳導音訊號執行一帶通濾波操作以產生一第三訊號；其中該處理電路更經配置以：從該高通濾波器，該低通濾波器及該帶通濾波器分別接收該第一訊號，該第二訊號及該第三訊號；對該第二訊號及該第三訊號執行一降噪操作，以產生一第四訊號；以及對該第一訊號及該第四訊號執行一訊號合成操作，以將該第一訊號及該第四訊號合成為一輸出語音訊號，其中該降噪操作包括：基於該第二訊號及該第三訊號產生一第二特定訊號，其中該第二特定訊號包括一第二音訊成分及一第二噪聲成分；以及從該第二特定訊號中獲取該第二音訊成分以作為該第四訊號。
如請求項12所述的耳機組，其中該處理電路執行的該前處理操作包括：因應於該麥克風陣列而對該第一語音訊號執行一波束成形操作，以產生一噪聲訊號及一第一特定訊號，其中該第一特定訊號包括一第一音訊成分及一第一噪聲成分；將該第一特定訊號作為該第二語音訊號輸出至該高通濾波器及該低通濾波器。
如請求項13所述的耳機組，其中該降噪操作更包括：依據該噪聲訊號從該第二特定訊號中獲取該第二音訊成分以作為該第四訊號。
如請求項14所述的耳機，其中該處理電路基於子空間語音增強演算法依據該噪聲訊號從該第二特定訊號中獲取該第二音訊成分。
如請求項12所述的耳機組，其中該處理電路基於獨立成分分析的盲訊號分離演算法或主成分分析演算法產生該第二特定訊號。
如請求項12所述的耳機組，其中該高通濾波器與該低通濾波器的分頻點介於1kHz及2kHz之間。
如請求項12所述的耳機組，其中該帶通濾波器的通帶介於20Hz至1000Hz之間。
如請求項12所述的耳機組，其中該訊號合成操作對應的截止頻率介於1kHz及2kHz之間。