TW201629950A

TW201629950A - 針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風

Info

Publication number: TW201629950A
Application number: TW105100429A
Authority: TW
Inventors: 大衛Ｐ羅素; 尼爾Ｄ沃倫
Original assignee: 樓氏電子有限公司
Priority date: 2015-01-07
Filing date: 2016-01-07
Publication date: 2016-08-16
Also published as: US10045140B2; US20180332416A1; CN107112012B; US20160196838A1; DE112016000287T5; CN107112012A; WO2016112113A1; US10469967B2

Abstract

本發明提供用於在低功耗關鍵字偵測及雜訊抑制中利用數位麥克風之系統及方法。一實例性方法包含接收一第一聲學信號，其表示藉由一數位麥克風捕獲之至少一個聲音。該第一聲學信號包含以一第一時脈頻率傳輸之緩衝資料。該數位麥克風可提供話音活動偵測。該實例性方法亦包含接收至少一個第二聲學信號，其表示藉由一第二麥克風捕獲之該至少一個聲音，該至少一個第二聲學信號包含即時資料。該第一及該第二聲學信號提供至一音訊處理系統，其可包含雜訊抑制及關鍵字偵測。可以一更高、第二時脈頻率發送緩衝部分以自該第二聲學信號消除該第一聲學信號之一延遲。提供該等信號亦可包含延遲該第二聲學信號。

Description

針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風

[相關申請案之交叉參考]

本申請案主張2015年1月7日申請之美國臨時專利申請案第62/100,758號之權益。前述申請案之標的出於所有目的以引用的方式併入本文中。

本申請案大體上係關於音訊處理且更具體而言，係關於用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之系統及方法。

關鍵字偵測之一典型方法係一個三階段程序。第一階段係發聲偵測。首先，一極低功耗「永遠開啟」實施方案不斷監測周圍聲音且判定一個人是否開始說出一可能關鍵字(通常藉由偵測人類發聲)。當偵測到一可能關鍵字發聲時，第二階段開始。

第二階段執行關鍵字辨識。此操作消耗更多功耗，此係因為此操作比發聲偵測計算上更密集。當完成一說話之檢查(例如，關鍵字辨識)時，結果可係一關鍵字匹配(在此情況下將進入第三階段)或無匹配(在此情況下第一、最低功耗階段重新開始)。

第三階段係用於使用自動語音辨識(ASR)分析關鍵字辨識之後的任何語音。此第三階段係一非常計算密集程序且，因此，可大幅受益於對包含該語音之音訊之部分之信號雜訊比(SNR)之改良。該SNR通常使用雜訊抑制(NS)信號處理最佳化，其可需要自多個麥克風獲得音訊輸入。

一數位麥克風(DMIC)之用途係熟知。該DMIC通常包含一信號處理部分。一數位信號處理器(DSP)係通常用以執行用於偵測關鍵字之計算。使得某一形式之數位信號處理器(DSP)在相同積體電路(晶片)上執行關鍵字偵測計算作為該DMIC自身之信號處理部分可具有系統功耗優點。例如，當在該第一階段中時，該DMIC可自一內部振盪器操作，因此，節省將一外部時脈供應至該DMIC之功耗及將DMIC資料輸出(通常為一脈衝密度調變(PDM)信號)傳輸至一外部DSP裝置之功耗。

亦已知在該DMIC上實施關鍵字辨識之後續階段對於最低功耗或系統成本可不係最佳。關鍵字辨識之後續階段係計算密集且，因此，消耗顯著動態功耗及晶粒區域。然而，DMIC信號處理晶片通常使用具有比最佳可用數位程序顯著更高之動態功耗及每閘或每記憶體位元更大區域之一程序幾何結構來實施。

找到一最佳實施方案(其利用在DMIC中實施關鍵字辨識之該第一階段之潛在功耗節省)可起因於衝突要求而有挑戰性。為最佳化功耗，DMIC以一「永遠開啟」分立方式操作，而無需在未偵測到發聲時將音訊資料傳輸至一外部裝置。當偵測到發聲時，DMIC需要提供一信號至一外部裝置來指示此情況。與此情況之發生同時或在此情況之發生之後，DMIC需要開始提供音訊資料至(若干)外部裝置來執行後續階段。最佳地，音訊資料介面需要滿足以下要求：傳輸對應於時間(其顯著在發聲偵測之前)的音訊資料、以一外部提供的時脈(樣品)速率傳輸即時音訊資料、且簡化多麥克風雜訊抑制處理。另外，與針對實施關鍵字辨識之該第一階段之DMIC的即時音訊資料相關聯的延時需要實質上與針對習知DMIC之延時相同，該介面需要與現有介面相容、該接面需要指示當使用該內部振盪器操作時使用之該時脈(樣品)速率、且不應該發生音訊漏失。

具有實施關鍵字辨識之該第一階段之一DMIC的一介面可在很大程度上起因於呈現在發聲偵測之前顯著緩衝之音訊資料之要求而有挑戰性。此緩衝音訊資料先前以藉由該內部振盪器判定之一取樣率獲取。因此，當該緩衝音訊資料連同即時音訊資料一起提供為一單一、相連音訊串流之部分時，可難以使得此即時音訊資料具有與一習知DMIC中之延時相同的延時或難以使用習知多麥克風雜訊抑制技術。

此「發明內容」經提供以介紹在下文「實施方式」中進一步描述之以一簡化形式之概念之一選擇。此「發明內容」不意欲識別所申請之標的之關鍵特徵或基本特徵，亦不意欲用作為判定所申請之標的之範疇之一援助。

本發明提供用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之系統及方法。一實例性方法包含接收一第一聲學信號，其表示藉由一數位麥克風捕獲之至少一個聲音，該第一聲學信號包含在一單一頻道上傳輸之具有一第一時脈頻率之緩衝資料。該實例性方法亦包含接收至少一個第二聲學信號，其表示藉由至少一個第二麥克風捕獲之該至少一個聲音。該至少一個第二聲學信號可包含即時資料。在一些實施例中，該至少一個第二麥克風可係一類比麥克風。該至少一個第二麥克風亦可係不具有話音活動偵測功能性之一數位麥克風。

該實例性方法進一步包含將該第一聲學信號及該至少一個第二聲學信號提供至一音訊處理系統。該音訊處理系統可至少提供雜訊抑制。

在一些實施例中，發送具有高於該第一時脈頻率的一第二時脈頻率之該緩衝資料以自該第二聲學信號消除該第一聲學信號之一延遲。

提供該等信號可包含延遲該第二聲學信號。

將自結合以下圖式之以下描述明白本發明之其他實例性實施例及態樣。

100‧‧‧實例性系統/系統

110‧‧‧行動裝置

120‧‧‧麥克風/數位麥克風

130‧‧‧基於雲端之計算資源/計算雲端/雲端

150‧‧‧使用者

160‧‧‧雜訊

210‧‧‧處理器

220‧‧‧音訊處理系統

230‧‧‧記憶體儲存器

240‧‧‧通信裝置

300‧‧‧系統

302‧‧‧傳感器

304‧‧‧放大器

306‧‧‧類比轉數位轉換器

308‧‧‧脈衝密度調變器

310‧‧‧緩衝器

312‧‧‧時脈(CLK)輸入/CLK線

314‧‧‧資料(DATA)輸出

316‧‧‧額外發聲偵測器(DET)輸出/DET線

320‧‧‧發聲偵測器

350‧‧‧(外部或主機)DSP/DSP/主機DSP

500‧‧‧例示性電腦系統/電腦系統

510‧‧‧處理器單元

520‧‧‧主記憶體

530‧‧‧大量資料儲存器

540‧‧‧可攜式儲存裝置

550‧‧‧輸出裝置

560‧‧‧使用者輸入裝置

570‧‧‧圖形顯示器系統

580‧‧‧周邊裝置

590‧‧‧單一匯流排

實施例以實例的方式繪示且不限於附圖之圖中，在圖式中相似元件符號指示類似元件。

圖1係繪示根據各種實例性實施例之一系統之一方塊圖，該系統可用以實施用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之方法。

圖2係一實例性行動裝置之一方塊圖，其中可實踐用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之方法。

圖3係展示根據各種實例性實施例之用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之一系統的一方塊圖。

圖4係展示根據一實例性實施例之用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之一方法之步驟的一流程圖。

圖5係可用以實施所揭示之技術之實施例的一實例性電腦系統。

本發明提供用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風的實例性系統及方法。可使用經組態以至少捕獲音訊信號且可允許改良所捕獲的音訊中的自動語音辨識之行動音訊裝置來實踐本發明技術的各種實施例。

在各種實施例中，行動裝置係手持式裝置(諸如，筆記本電腦、平板電腦、平板手機、智慧型電話、個人數位助理、媒體播放器、行動電話、視訊攝影機及其類似者)。該等行動裝置可在靜止及可攜式環境中使用。該等靜止環境可包含住宅及商業建築及其類似者。例如，該等靜止環境可進一步包含起居室、臥室、家庭影院、會議室、演藝廳、商業事務所及其類似者。可攜式環境可包含移動運載工具、移動個人、其他運輸構件及其類似者。

現在參考圖1，展示其中可實踐本發明之方法之一實例性系統100。系統100可包含一行動裝置110。在各種實施例中，行動裝置110包含經組態以自一使用者150接收話音輸入/聲學信號之(若干)麥克風(例如，(若干)傳感器)120。

話音輸入/聲學聲音可被一雜訊160污染。雜訊源可包含街道雜訊、周圍雜訊、來自除一(若干)預期揚聲器外之實體之語音及其類似者。例如，雜訊源可包含一工作空調、通風機、電視機、行動電話、立體音訊系統及其類似者。特定種類之雜訊可產生於機器(例如，汽車)與操作(例如)一道路、軌道、輪胎、輪、風扇、雨刷、引擎、排放裝置、娛樂系統、風、雨、波浪之環境之操作兩者及其類似雜訊。

在一些實施例中，行動裝置110交換地連接至一或多個基於雲端之計算資源130(亦稱為一(若干)計算雲端130或一雲端130)。(若干)基於雲端之計算資源130可包含在一遠端位置處可用且可在一網路(例如，網際網路或一蜂巢式電話網路)上存取的計算資源(硬體及軟體)。在各種實施例中，(若干)基於雲端之計算資源130由多個使用者共用且可基於需求動態地重新分配。(若干)基於雲端之計算資源130可包含一或多個伺服器場/群集，其包含電腦伺服器之一集合(其可與網路開關及/或路由器共置)。

圖2係展示根據各種實例性實施例之行動裝置110之組件的一方塊圖。在該繪示實施例中，行動裝置110包含一或多個麥克風120、一處理器210、音訊處理系統220、一記憶體儲存器230、及一或多個通信裝置240。在特定實施例中，行動裝置110亦包含行動裝置110之操作所需之額外或其他組件。在其他實施例中，行動裝置110包含執行與參考圖2描述之該等功能相似或等效的功能之更少組件。

在各種實施例中，(其中(若干)麥克風120包含間隔較小(例如，相隔1cm至2cm)之全向麥克風)，一光束形成技術可用以模擬一面向前及一面向後方向麥克風回應。在一些實施例中，可使用所模擬之面向前及面向後方向麥克風獲得一位準差異。該位準差異可用以在(例如)時間頻率域中之語音與雜訊之間辨別，其可進一步在雜訊及/或回聲減少中使用。雜訊減少可包含雜訊消除及/或雜訊抑制。在特定實施例中，一些麥克風120主要用以偵測語音且其他麥克風主要用以偵測雜訊。在其他實施例中，一些麥克風用以偵測雜訊與語音兩者。

在一些實施例中，一旦接收(例如，藉由(若干)麥克風120捕獲)聲學信號，聲學信號將轉換為電信號，電信號又藉由音訊處理系統220轉換為用於根據一些實施例來處理之數位信號。所處理之信號可傳輸至處理器210用於進一步處理。在一些實施例中，一些麥克風120係可操作以捕獲聲學信號且輸出一數位信號的(若干)數位麥克風。(若干)數位麥克風之一些數位麥克風可提供用於話音活動偵測(在本文中亦稱為發聲偵測)且用於顯著在該發聲偵測之前的音訊資料之緩衝。

音訊處理系統220可操作以處理一音訊信號。在一些實施例中，聲學信號藉由(若干)麥克風120捕獲。在特定實施例中，藉由(若干)麥克風120偵測之聲學信號藉由音訊處理系統220使用以將所要的語音(例如，關鍵字)與雜訊分離來提供更穩健的自動語音辨識(ASR)。

適於執行雜訊抑制之一實例性音訊處理系統在於2010年7月8日申請之名稱為「Method for Jointly Optimizing Noise Reduction and Voice Quality in a Mono or Multi-Microphone System」之美國專利申請案第12/832,901號(現為美國專利第8,473,287號，其出於所有目的以引用的方式併入本文中)中更詳細地討論。以實例的方式且無限制，在於2008年6月30日申請之名稱為「System and Method for Providing Noise Suppression Utilizing Null Processing Noise Subtraction」之美國專利申請案第12/215,980號(現為美國專利第9,185,487號)且在於2007年1月29日申請之名稱為「System and Method for Utilizing Omni-Directional Microphones for Speech Enhancement」之美國專利申請案第11/699,732號(現為美國專利第8,194,880號)中(其等全部內容以引用的方式併入本文中)描述雜訊抑制方法。

亦在共同指派的於2013年1月28日申請之名稱為「Restoration of Noise-Reduced Speech」之美國專利申請案第13/751,907號(現為美國專利第8,615,394號)(其全部內容以引用的方式併入本文中)中描述用於雜訊減少語音之恢復的各種方法。

處理器210可包含可操作以執行儲存在記憶體儲存器230中的電腦程式之硬體及/或軟體。處理器210可使用浮點運算、複數運算、及用於實施本發明之實施例所需之其他運算。在一些實施例中，行動裝置110之處理器210包含(例如)一數位信號處理器(DSP)、影像處理器、音訊處理器、通用處理器及其類似者之至少一者。

在各種實施例中，實例行動裝置110可操作以在一或多個有線或無線通信網路上(例如，經由通信裝置240)通信。在一些實施例中，行動裝置110在一有線或無線通信網路上發送至少音訊信號(語音)。在特定實施例中，行動裝置110囊封及/或編碼用於在一無線網絡(例如，一蜂巢式網路)上傳輸的至少一個數位信號。

該數位信號可在網際網路協定套組(TCP/IP)及/或使用者資料報協定(UDP)上囊封。有線及/或無線通信網路可係電路交換及/或封包交換。在各種實施例中，(若干)有線通信網路在電腦系統、軟體應用與使用者之間提供通信及資料交換，且包含任何數量之網路配接器、中繼器、集線器、開關、橋接器、路由器及防火牆。(若干)無線通信網路包含任何數量之無線存取點、基地台、中繼器及其類似者。有線及/或無線通信網路可符合一(若干)行業標準(該行業標準係專屬)及其組合。可使用各種其他適合有線及/或無線通信網路、其他協定及其組合。

圖3係展示根據各種實例性實施例之適於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風的一系統300之一方塊圖。系統300包含耦合至一(外部或主機)DSP 350之(若干)麥克風(亦在本文中多樣地稱為(若干)DMIC)120。在一些實施例中，數位麥克風120包含一傳感器302、一放大器304、一類比轉數位轉換器306及一脈衝密度調變器(PDM)308。在特定實施例中，數位麥克風120包含一緩衝器310及一發聲偵測器320。在其他實施例中，DMIC 120與一習知立體DMIC介面介接。該習知立體DMIC介面包含一時脈(CLK)輸入(或CLK線)312及一資料(DATA)輸出314。該資料輸出包含一左頻道及一右頻道。在一些實施例中，該DMIC介面包含一額外發聲偵測器(DET)輸出(或DET線)316。CLK輸入312可藉由DSP 350供應。DSP 350可接收DATA輸出314及DET輸出316。在一些實施例中，數位麥克風120通常經由PDM 308產生一即時數位音訊資料串流。提供發聲偵測的一實例性數位麥克風在於2015年7月13日申請之名稱為「Microphone Apparatus and Method with Catch-up Buffer」之美國專利申請案第14797310號(其揭示內容出於所有目的以引用的方式併入本文中)中更詳細地討論。

實例1

在各種實施例中，在第一階段情況下，DMIC 120在一內部振盪器上操作，該內部振盪器判定在此情況期間之內部取樣率。在第一階段情況下，在發聲偵測之前，CLK線312係靜態(通常為一邏輯0)。DMIC 120在DATA輸出314與DET輸出316兩者上輸出一靜態信號(通常為一邏輯0)。內部地，自其內部振盪器操作之DMIC 120可操作以分析音訊資料以判定是否已發生一發聲。內部地，DMIC 120將音訊資料緩衝至一再循環記憶體(例如，使用緩衝器310)中。在特定實施例中，該再循環記憶體具有一預定數量(通常為約100k PDM)之樣品。

在各種例示性實施例中，當DMIC 120偵測到一發聲時，DMIC 120開始在DET輸出316上輸出PDM 308樣品時脈(衍生自該內部振盪器)。DSP 350可操作以偵測DET線316上的活動。DSP 350可使用此信號判定具有用於進一步運算的一足夠的準確度的DMIC 120之內部取樣率。接著，DSP 350可在CLK線312上輸出適於自DMIC 120經由習知DMIC 120介面協定接收即時PDM 308音訊資料之一時脈。在一些實施例中，該時脈係以與用於雜訊抑制的其他DMIC之時脈相同的速率。

在一些實施例中，DMIC 120藉由自該內部取樣率立即切換至所提供的CLK線312之取樣率而回應於CLK輸入312之存在。在特定實施例中，DMIC 120可操作以在DATA輸出314之一第一頻道(例如，左頻道)上立即開始供應即時PDM 308資料，且在第二(例如，右)頻道上供應延遲(通常約為100k PDM樣品)緩衝PDM 308資料。DMIC 120可在接收該CLK時停止在該DET信號上提供內部時脈。

在一些實施例中，在已傳輸整個(通常約為100k樣品)緩衝之後，DMIC 120切換至在DATA輸出314之第二(在該實例中，右)頻道上發送該即時音訊資料或一靜態信號(通常為一邏輯0)以節省功耗。

在各種實施例中，DSP 350累積緩衝資料且接著視需要使用先前量測的DMIC 120內部取樣率與主機CLK取樣率的比率而以將緩衝資料匹配至即時音訊資料之一方式處理緩衝資料。例如，DSP 350可將緩衝資料轉換為與主機CLK取樣率相同的速率。熟習此項技術者應瞭解實際取樣率轉換可能並非最佳。相反地，處理資訊之進一步下游頻率域可基於所量測的比率在頻率上偏置。緩衝資料可為關鍵字辨識之目的預擱置至即時音訊資料。亦可視需要預擱置至用於ASR之資料。

在各種實施例中，因為即時音訊資料未延遲，所以該即時資料具有一低延時且可與來自用於雜訊抑制或其他目的之其他麥克風之該即時音訊資料組合。

將CLK信號返回至一靜態狀態可用以將DMIC 120返回至該第一階段處理狀態。

實例2

在第一階段情況下，DMIC 120在判定PDM 308取樣率之一內部振盪器上操作。在一些例示性實施例中，在第一階段情況下，在發聲偵測之前，CLK輸入312係靜態(通常為一邏輯0)。DMIC 120可在DATA輸出314與DET輸出316兩者上輸出一靜態信號(通常為一邏輯0)。內部地，自其內部振盪器操作之DMIC 120可操作以分析音訊資料以判定是否發生一發聲且亦內部地將音訊資料緩衝至一再循環記憶體中。該再循環記憶體可具有一預定數量(通常約為100k PDM)之樣品。

在一些實施例中，當DMIC 120偵測到發聲時，DMIC 120開始在DET輸出316上輸出一PDM取樣率時脈(衍生自其內部振盪器)。DSP 350可偵測DET線316上的活動。接著，DSP 350可使用DET輸出判定具有用於進一步運算的一足夠的準確度的DMIC 120之內部取樣率。接著，DSP 350可在CLK線312上輸出一時脈。在特定實施例中，該時脈係以比內部振盪器取樣率更高的一速率，且適於自DMIC 120經由習知DMIC 120介面協定接收即時PDM 308音訊資料。在一些實施例中，提供至CLK線312的該時脈係以與用於雜訊抑制的其他DMIC之時脈相同的速率。

在一些實施例中，DMIC 120藉由在DATA輸出314之一第一頻道(例如，左頻道)上立即開始供應緩衝PDM 308資料而回應於CLK線312 處之該時脈之存在。因為CLK頻率係大於內部取樣頻率，所以資料之延遲自緩衝長度逐漸減少至零。當該延遲達到零時，DMIC 120藉由將其取樣率自內部振盪器之取樣率立即切換至藉由CLK線312提供的速率而回應。DMIC 120亦可在DATA輸出314之頻道之一者上立即開始供應即時PDM 308資料。此刻，DMIC 120亦停止在DET輸出316信號上提供內部時脈。

在一些實施例中，DSP 350可累積緩衝資料且基於感測DET輸出316信號何時停止而判定DATA已自緩衝資料切換至即時音訊資料之一點。接著，DSP 350可使用先前量測的DMIC 120內部取樣率與CLK取樣率的比率來邏輯地取樣緩衝資料之轉換速率以匹配即時音訊資料之轉換速率。

在此實例中，一旦完全接收緩衝資料且已發生切換至即時音訊，即時音訊資料便將具有一低延時且可與來自用於雜訊抑制或其他目的之其他麥克風之該即時音訊資料組合。

與一些其他實施例比較，藉由實例2繪示之各種實施例可具有一缺點：自發聲偵測至即時操作需要一更長時間，其在該即時操作期間需要比階段一操作之速率更高的一速率，且亦可需要準確偵測在緩衝與即時音訊資料之間轉變的時間。

另一方面，根據實例2之各種實施例具有僅需要使用立體習知DMIC 120介面之一個頻道之優點，保留另一頻道可由一第二DMIC 120使用。

實例3

在第一階段情況下，DMIC 120可在判定PDM 308取樣率之一內部振盪器上操作。在第一階段情況下，在發聲偵測之前，CLK輸入312係靜態(通常在一邏輯0處)。DMIC 120在DATA輸出314與DET輸出316兩者上輸出一靜態信號(通常為一邏輯0)。內部地，自內部振盪器操作之DMIC 120可操作以分析音訊資料以判定是否發生一發聲且亦藉由內部將彼資料緩衝至具有一預定數量(通常約為100k PDM)之樣品的一再循環記憶體(例如，緩衝器310)中。

當DMIC 120偵測到一發聲時，DMIC 120開始在DET輸出316上輸出PDM 308取樣率時脈(衍生自其內部振盪器)。DSP 350可偵測DET線316上的活動。接著，DSP 350可使用DET輸出316信號判定具有用於進一步運算的一足夠的準確度的DMIC 120之內部取樣率。接著，主機DSP 350可在CLK線312上輸出適於自DMIC 120經由習知DMIC 120介面協定接收即時PDM 308音訊資料的一時脈。此時脈可係以與用於雜訊抑制的其他DMIC之時脈相同的速率。

在一些實施例中，DMIC 120藉由在DATA輸出314之一第一頻道(例如，左頻道)上立即開始供應緩衝PDM 308資料而回應於CLK輸入312之存在。此刻，DMIC 120亦停止在DET輸出316信號上提供內部時脈。當資料之緩衝器310耗盡時，DMIC 120在DATA輸出314之頻道之一者上開始供應即時PDM 308資料。

DSP 350累積緩衝資料，基於計數所接收的樣品之數量而標記DATA已自緩衝資料切換至即時音訊資料之一點。接著，DSP 350使用先前量測的DMIC 120內部取樣率與CLK取樣率的比率來邏輯地取樣緩衝資料之轉換速率以匹配即時音訊資料之轉換速率。

在一些實施例中，即使在完全接收緩衝資料且已發生切換至即時音訊之後，DMIC 120資料仍保持在一高延時處。在一些實施例中，該延時等於樣品中的緩衝大小乘以CLK線312之取樣率。因為其他麥克風具有低延時，所以另一麥克風無法與此資料使用用於習知雜訊抑制。

在一些實施例中，來自麥克風之信號之間的不匹配藉由將一延遲添加至用於雜訊抑制的其他麥克風之各者而消除。在延遲之後，來自DMIC 120及其他麥克風之串流可經組合用於雜訊抑制或其他目的。添加至其他麥克風的該延遲可基於DMIC 120之已知延遲特性(例如，起因於緩衝之延時等等)而判定或可(例如)基於比較自DMIC 120接收之音訊資料與自其他麥克風接收之音訊資料(例如，比較時序、取樣率時脈等等)而在演算法上量測。

與實例1之較佳實施例比較，實例3之各種實施例具有以下缺點：自發聲偵測至即時操作需要一更長時間，且當即時操作時，具有顯著額外延時。實例3之實施例具有僅需要使用立體習知DMIC介面之一個頻道之優點，保留另一頻道可由一第二DMIC使用。

圖4係繪示根據一實例性實施例之用於針對低功耗關鍵字偵測及雜訊抑制而利用數位麥克風之一方法400的一流程圖。在方塊402中，實例性方法400可以接收一聲學信號開始，該聲學信號表示由一數位麥克風捕獲之至少一個聲音。該聲學信號可包含在一單一頻道上傳輸之具有一第一(低)時脈頻率的緩衝資料。在方塊404中，實例性方法可繼續接收至少一個第二聲學信號，其表示由至少一個第二麥克風捕獲之該至少一個聲音。在各種實施例中，該至少一個第二聲學信號包含即時資料。

在方塊406中，緩衝資料可經分析以判定緩衝資料包含一話音。在方塊408中，實例性方法400可繼續發送具有一第二時脈頻率之緩衝資料以自該第二聲學信號消除該聲學信號之一延遲。該第二時脈頻率係高於該第一時脈頻率。在方塊410中，實例性方法400可將該第二聲學信號延遲一預定時間週期。可替代方塊408執行方塊410用於消除該延遲。在方塊412中，實例性方法400可繼續將該第一聲學信號及該至少一個第二聲學信號提供至一音訊處理系統。該音訊處理系統可包含雜訊抑制及關鍵字偵測。

圖5繪示可用以實施本發明之一些實施例的一例示性電腦系統 500。圖5之電腦系統500可在計算系統、網路、伺服器或其組合之相似背景下實施。圖5之電腦系統500包含一或多個處理器單元510及主記憶體520。主記憶體520部分儲存用於藉由(若干)處理器單元510執行之指令及資料。在此實例中，主記憶體520在操作時儲存可執行碼。圖5之電腦系統500進一步包含一大量資料儲存器530、可攜式儲存裝置540、輸出裝置550、使用者輸入裝置560、一圖形顯示器系統570及周邊裝置580。

圖5中展示之組件係描繪為經由一單一匯流排590連接。該等組件可通過一或多個資料運輸構件連接。(若干)處理器單元510及主記憶體520經由一局部微處理器匯流排連接，且大量資料儲存器530、(若干)周邊裝置580、可攜式儲存裝置540及圖形顯示器系統570經由一或多個輸入/輸出(I/O)匯流排連接。

大量資料儲存器530(其可使用一磁碟驅動器、固態驅動器或一光碟驅動器實施)係用於儲存用於藉由(若干)處理器單元510使用之資料及指令的非揮發性儲存裝置。大量資料儲存器530儲存用於為將該系統軟體載入至主記憶體520中之目的而實施本發明之實施例的該軟體。

可攜式儲存裝置540結合一可攜式非揮發性儲存媒體(諸如一快閃驅動器、軟磁碟、光碟、數位視訊光碟或通用串列匯流排(USB)儲存裝置)一起操作以自圖5之電腦系統500輸入資料及碼且將資料及碼輸出至圖5之電腦系統500。用於實施本發明之實施例的該系統軟體儲存在此一可攜式媒體中且經由可攜式儲存裝置540輸入至電腦系統500。

使用者輸入裝置560可提供一使用者介面之一部分。使用者輸入裝置560可包含一或多個麥克風、一文數字小鍵盤(諸如一鍵盤，用於輸入文數字及其他資訊)、或一指向裝置(諸如一滑鼠、一軌跡球、記錄針或游標方向鍵)。使用者輸入裝置560亦可包含一觸控螢幕。另外，如圖5中所展示之電腦系統500包含輸出裝置550。適合輸出裝置550包含揚聲器、印表機、網路介面及監測器。

圖形顯示器系統570包含一液晶顯示器(LCD)或其他適合顯示器裝置。圖形顯示器系統570可組態以接收文本及圖形資訊且處理用於輸出至該顯示器裝置之資訊。

周邊裝置580可包含電腦支持裝置之任何類型以添加額外功能性至該電腦系統。

在圖5之電腦系統500中提供之組件係通常存在於可適於與本發明之實施例一起使用且意欲表示此項技術中眾所周知之此等電腦組件之一寬泛類別的電腦系統中之組件。因此，圖5之電腦系統500可係一個人電腦(PC)、手持式電腦系統、電話、行動電腦系統、工作站、平板電腦、平板手機、行動電話、伺服器、小型電腦、主機電腦、隨身或任何其他電腦系統。電腦亦可包含不同匯流排組態，網路平台、多處理器平台及其類似者。可使用包含UNIX、LINUX、WINDOWS、MAC OS、PALM OS、QNX ANDROID、IOS、CHROME、TIZEN之各種作業系統及其他適合作業系統。

用於各種實施例之處理可在基於雲端的軟體中實施。在一些實施例中，電腦系統500實施為一基於雲端的計算環境(諸如在一計算雲端內操作的一虛擬機器)。在其他實施例中，電腦系統500可自身包含一基於雲端的計算環境，其中電腦系統500之功能性以一分佈式方式執行。因此，如將在下文中更詳細描述，當組態為一計算雲端時，電腦系統500可包含呈各種形式之複數個計算裝置。

一般而言，一基於雲端的計算環境係一資源，其通常組合處理器之一大分組(諸如在網頁伺服器內)之計算功耗及/或組合電腦記憶體或儲存裝置之一大分組之儲存容量。提供基於雲端的資源的系統可僅僅由其所有者利用或此等系統可被外部使用者(其在計算基礎建設內部署應用以獲得大計算或儲存資源之益處)存取。

雲端可(例如)藉由網頁伺服器之一網路(該等網頁伺服器包括複數個計算裝置(諸如電腦系統500)，其中各伺服器(或至少其複數個伺服器)提供處理器及/或儲存資源)形成。此等伺服器可管理由多個使用者(例如，雲端資源客戶或其他使用者)提供的工作負荷。通常，各使用者對雲端提出即時變動(有時大幅變動)之工作負荷需求。此等變動之本質及程度通常取決於與使用者相關聯的業務的類型。

上文參考實例性實施例描述本發明技術。因此，對實例性實施例之其他變動意欲由本發明涵蓋。

Claims

一種用於音訊處理之方法，該方法包括：接收一第一聲學信號，其表示藉由一數位麥克風捕獲之至少一個聲音，該第一聲學信號包含在一單一頻道上傳輸之具有一第一時脈頻率之緩衝資料；接收至少一個第二聲學信號，其表示藉由至少一個第二麥克風捕獲之該至少一個聲音，該至少一個第二聲學信號包含即時資料；及將該第一聲學信號及該至少一個第二聲學信號提供至一音訊處理系統。
如請求項1之方法，其中該提供包含發送具有一第二時脈頻率之該緩衝資料用於自該至少一個第二聲學信號消除該第一聲學信號之一延遲，該第二時脈頻率係高於該第一時脈頻率。
如請求項1之方法，其中該提供包含將該至少一個第二聲學信號延遲一預定時間週期。
如請求項3之方法，其中基於該數位麥克風之一或多個特性判定該預定時間週期。
如請求項4之方法，其中該一或多個特性包含該數位麥克風之延時。
如請求項5之方法，其中該延時包含歸因於針對該緩衝資料之緩衝之延遲。
如請求項3之方法，其中基於比較該第一聲學信號與該至少一個第二聲學信號來判定該預定時間週期。
如請求項7之方法，其中該比較包括比較該第一聲學信號及該至少一個第二聲學信號之取樣率。
如請求項1之方法，其進一步包括，在該提供之前，接收已偵測話音活動之一指示。
如請求項9之方法，其中該指示藉由與該數位麥克風相關聯的一話音活動偵測器提供。
如請求項1之方法，其中該至少一個第二麥克風係一類比麥克風。
如請求項1之方法，其中該音訊處理系統基於該第一聲學信號及該至少一個第二聲學信號提供雜訊抑制。
如請求項12之方法，其中該雜訊抑制係基於該第一聲學信號與該至少一個第二聲學信號之間的位準差異。
如請求項1之方法，其中該第一聲學信號包含一脈衝密度調變(PDM)信號。
一種用於音訊處理之系統，該系統包括：一處理器；及一記憶體，其通信地與該處理器耦合，該記憶體儲存指令，當藉由該處理器執行時，該等指令執行一方法，其包括：接收一第一聲學信號，其表示藉由一數位麥克風捕獲之至少一個聲音，該第一聲學信號包含在一單一頻道上傳輸之具有一第一時脈頻率之緩衝資料；接收至少一個第二聲學信號，其表示藉由至少一個第二麥克風捕獲之該至少一個聲音，該至少一個第二聲學信號包含即時資料；及將該第一聲學信號及該至少一個第二聲學信號提供至一音訊處理系統。
如請求項15之系統，其中該音訊處理系統包含基於該第一聲學信號及該至少一個第二聲學信號之雜訊抑制及關鍵字偵測中之至少一者。
如請求項15之系統，其中該提供包含發送具有一第二時脈頻率之該緩衝資料用於自該至少一個第二聲學信號消除該第一聲學信號之一延遲，該第二時脈頻率係高於該第一時脈頻率。
如請求項15之系統，其中該提供包含將該至少一個第二聲學信號延遲一預定時間週期。
如請求項18之系統，其中基於該數位麥克風之一或多個特性判定該預定時間週期。
如請求項18之系統，其中藉由比較該第一聲學信號與該至少一個第二聲學信號來判定該預定時間週期。
如請求項15之系統，其進一步包括，在該提供之前，接收已偵測話音活動之一指示。
如請求項21之系統，其中該指示藉由與該數位麥克風相關聯的一話音活動偵測器提供。
如請求項15之系統，其中該至少一個第二麥克風係一類比麥克風。
一種非暫態電腦可讀儲存媒體，其已於其上體現指令，當藉由至少一個處理器執行時，該等指令執行一方法之步驟，該方法包括：接收一第一聲學信號，其表示藉由一數位麥克風捕獲之至少一個聲音，該第一聲學信號包含在一單一頻道上傳輸之具有一第一時脈頻率之緩衝資料；接收至少一個第二聲學信號，其表示藉由至少一個第二麥克風捕獲之該至少一個聲音，該至少一個第二聲學信號包含即時資料；及將該第一聲學信號及該至少一個第二聲學信號提供至一音訊處理系統。