TW202226230A

TW202226230A - 將麥克風信號靜音和取消靜音之方法

Info

Publication number: TW202226230A
Application number: TW110142936A
Authority: TW
Inventors: 啟昇陳; 倫階曾; 卡斯特羅艾莉爾阿雷拉諾德
Original assignee: 新加坡商創新科技有限公司
Priority date: 2020-12-29
Filing date: 2021-11-18
Publication date: 2022-07-01
Also published as: US20220206739A1; CN114697810A; EP4024893A1; US11947868B2

Abstract

茲提出一種用於將麥克風靜音及取消靜音之方法。所述方法包含設置一處理器、接收一輸入麥克風信號、以一取樣率來量測所述輸入麥克風信號的一音量位準、計算一靜音臨界位準、檢查所述音量位準是否高於或等於所述靜音臨界位準，並且在判斷所述音量位準高於或等於所述靜音臨界位準之後重置一靜音延遲計時器並且獲得所述輸入麥克風信號、或是在判斷所述音量位準並未高於或等於所述靜音臨界位準之後檢查所述靜音延遲計時器是否正在運行，並且若所述靜音延遲計時器並未運行，則衰減所述輸入麥克風信號、或是若所述靜音延遲計時器仍在運行，則獲得所述輸入麥克風信號、以及將所述輸入麥克風信號或是被衰減的輸入麥克風信號寫入一輸出緩衝器。

Description

將麥克風信號靜音和取消靜音之方法

本發明大致是有關於麥克風信號的靜音及取消靜音，並且更特別是有關於利用語音活動偵測器的麥克風信號的靜音及取消靜音。

麥克風在例如電話通話或網際網路通話(具有或不具有視訊，其利用例如是Zoom、Skype及Microsoft Teams的通訊軟體)的語音或視訊通話期間被使用。通常，麥克風在所述通話期間一直被致能的。然而，總是致能的麥克風會拾訊非所要背景雜訊或是來自環境的無意音訊，此導致對於所述通話中的遠端方的干擾及影響。為了避免此問題，通常在所述通話期間，使用者將會在其不說話時靜音其麥克風，因而背景聲音/雜訊將不會被所述通話中的其他遠端方聽見。所述麥克風亦可以是預設靜音的，以便於最小化對於其他使用者的擾亂。但使用者在其開始說話時可能常常忘記取消靜音所述麥克風。

因此，可看出所需的是一種分別在使用者並未說話以及在使用者正在說話時將麥克風信號靜音及取消靜音之方法。再者，其它所期望的特點及特徵從結合所附的圖式及本揭露內容的此背景所做的後續的詳細說明及所附的請求項來看將會變成明顯的。

在本發明的一特點中，提出一種用於將麥克風靜音及取消靜音之方法。所述方法包含設置一處理器、接收一輸入麥克風信號、以一取樣率來量測所述輸入麥克風信號的一音量位準、計算一靜音臨界位準、檢查所述音量位準是否高於或等於所述靜音臨界位準、以及在判斷所述音量位準高於或等於所述靜音臨界位準之後重置一靜音延遲計時器並且獲得所述輸入麥克風信號、或是在判斷所述音量位準並未高於或等於所述靜音臨界位準之後檢查所述靜音延遲計時器是否正在運行，並且若所述靜音延遲計時器並未運行，則衰減所述輸入麥克風信號、或是若所述靜音延遲計時器仍在運行，則獲得所述輸入麥克風信號、以及將所述輸入麥克風信號或是被衰減的輸入麥克風信號寫入一輸出緩衝器。

在本發明的另一特點中，提出一種包含可藉由一處理器讀取的一非暫態儲存媒體的軟體產品，所述非暫態儲存媒體具有儲存於其上的一組指令以用於將一輸入麥克風信號靜音及取消靜音。所述軟體產品包含一第一序列的指令，當藉由所述處理器執行時，其使得所述處理器接收一輸入麥克風信號、一第二序列的指令，當藉由所述處理器執行時，其使得所述處理器以一取樣率來量測所述輸入麥克風信號的一音量位準、一第三序列的指令，當藉由所述處理器執行時，其使得所述處理器計算一靜音臨界位準、一第四序列的指令，當藉由所述處理器執行時，其使得所述處理器檢查所述音量位準是否高於或等於所述靜音臨界位準，並且在判斷所述音量位準高於或等於所述靜音臨界位準之後重置一靜音延遲計時器並且獲得所述輸入麥克風信號、或是在判斷所述音量位準並未高於或等於所述靜音臨界位準之後檢查所述靜音延遲計時器是否正在運行，並且若所述靜音延遲計時器並未運行，則衰減所述輸入麥克風信號、或是若所述靜音延遲計時器仍在運行，則獲得所述輸入麥克風信號、以及一第五序列的指令，當藉由所述處理器執行時，其使得所述處理器將所述輸入麥克風信號或是被衰減的輸入麥克風信號寫入一輸出緩衝器。

以下詳細說明在本質上僅僅是範例而已，因而並不欲限制本發明或本申請案以及本發明的用途。再者，並沒有意圖來藉由在本發明的先前背景或是以下的詳細說明中所呈現的任何理論來界定。所述各種實施例之一意圖是呈現一種將麥克風信號靜音及取消靜音之方法。

參照圖1，描繪根據各種實施例的一種用於將麥克風信號靜音及取消靜音之方法的流程圖100被展示。一裝置被設置有一處理器。所述處理器在步驟110中接收一輸入麥克風信號，並且所述麥克風信號的音量位準在步驟120中被量測。在一實施例中，所述輸入麥克風信號可以是在頻域中。來自一頻帶的麥克風信號的頻帶幅度可藉由取複數的輸入麥克風信號的均方根(RMS)乘上一幅度縮放因數來加以量測。所述頻帶可以是從一下限頻率(例如250Hz)到一上限頻率(例如輸入麥克風信號的奈奎斯特頻率或8000Hz，以較低者為準)。所述幅度縮放因數考慮到所述音訊的取樣率。在一實施例中，所述幅度縮放因數可以是所述取樣率及音框尺寸的函數的平方根的倒數。藉由乘上所述幅度縮放因數，所述頻帶幅度變成對於不同的取樣率及音框尺寸而言是不變的。

目前音量位準藉由利用具有一上升響應時間以及一釋放響應時間的一平滑化函數以平滑化所述頻帶幅度來獲得的。上升響應是平滑化值相較於其先前值將會增加有多快速/緩慢的響應，並且釋放響應是平滑化值相較於其先前值將會減少有多快速/緩慢的響應。在一實施例中，所述上升響應時間以及釋放響應時間是16msec。所述麥克風信號的音量位準即時地被量測，其具有16kHz的取樣率、512的音框尺寸、16msec的上升響應時間以及16msec的釋放響應時間，使得所述麥克風信號的音量位準可以每32msec而被判斷出。如同將在以下進一步詳細描述的，有利的是此將會容許所述麥克風信號能夠在沒有語音損失下幾乎立刻被取消靜音。根據系統資源及限制，其它適當的取樣率及音框尺寸亦可被利用。例如，48kHz的取樣率及512的音框尺寸容許所述麥克風信號的音量位準能夠每10.67msec而被判斷出。

在步驟130中，所述處理器根據語音活動偵測(VAD)設定來計算一靜音臨界位準。在一實施例中，所述靜音臨界位準根據五個不同的VAD模式中之一者來設定。所述模式是自動校準、透過預設的手動校準、透過預設位準的手動校準、透過客製值的手動校準、以及即時自動調整。在一實施例中，預設較佳模式是所述即時自動調整模式。

當所述模式被設定為自動校準時，使用者被要求在音訊校準進行中保持無聲一定的持續期間(例如至少3秒)。在自動校準期間，所述處理器量測波峰環境雜訊位準，並且根據所量測到的位準來調整所述靜音臨界位準。波峰雜訊可對於每200ms的麥克風信號來加以量測，並且被儲存在具有尺寸為8的循環緩衝器中。此與對於獲取最後1.6sec(8×200ms)之波峰雜訊相同，其每200ms更新一次。一按鈕可被做成可供使用者利用來開始所述校準。儘管自動校準可給予環境聲音/雜訊位準的更正確量測，但其需要使用者在每次通話開始時都要進行此校準。

當所述模式被設定為透過預設的手動校準時，使用者被要求考量其語音位準(例如大聲、適中、輕聲)、環境雜訊位準(例如高、適中或低背景雜訊)、以及使用中的麥克風(例如頭戴式耳機麥克風、耳塞式耳機麥克風、前額麥克風、遠場麥克風)來選擇不同的預設。所述靜音臨界位準根據預先定義的預設值來設定，所述預設值本機地預先調諧以對應所選預設。

當所述模式被設定為透過預設位準的手動校準時，使用者是被要求選擇客製的預設，例如但不限於特定的麥克風類型及模型以及環境類型。例如，使用者可被呈現麥克風選項，例如是“Creative Labs Live! Cam Sync HD 1080p Webcam麥克風”、“Lewitt LCT 640 TS麥克風”、“Audio Technica AE2300麥克風”、“Panasonic Dynamic麥克風WM-530”、等等。使用者亦可被呈現環境選項，例如“市場”、“購物中心”、“辦公室”、等等。所述靜音臨界位準是根據對應所選的客製的預設的預設位準而被設定的。

當所述模式被設定為透過客製值的手動校準時，所述靜音臨界位準根據雜訊底線以及使用者定義的固定偏移而被設定的。一滑動件可被呈現給使用者以容許使用者能夠調整用於所述VAD的偏移值。所述雜訊底線可藉由追蹤頻帶幅度的最小位準，利用具有緩慢的上升響應及快速的釋放響應的一平滑化函數來加以量測。上升響應是平滑化值相較於其先前值將會有多快速/緩慢的增加的響應，並且釋放響應是平滑化值相較於其先前值將會有多快速/緩慢的減少的響應。在一較佳實施例中，所述上升響應時間是10sec，並且所述釋放響應時間是50msec。

當所述模式被設定為即時自動調整時，所述靜音臨界位準持續即時地被更新。在靜音狀況期間，所述靜音臨界位準根據瞬間的波峰雜訊而定。在一較佳實施例中，平滑化利用一1msec的上升響應時間以及一2000msec的釋放響應時間而施加。波峰雜訊可針對於每一個200ms的麥克風信號來加以量測，並且被儲存在一具有尺寸為8的循環緩衝器中。此與對於獲取最後1.6sec(8×200ms)之波峰雜訊相同，其每200ms更新一次。在靜音至取消靜音的轉變期間，先前的靜音臨界位準值可被儲存為一靜音臨界(最小)值。在取消靜音至靜音的轉變期間，所述循環緩衝器被清除。在取消靜音狀況期間，所述靜音臨界位準是根據平均音量位準而定。在一較佳實施例中，平均音量位準是藉由利用一200msec的上升響應時間以及一200msec的釋放響應時間來平滑化所量測到的頻帶幅度而被計算出。若所計算出的平均音量位準加上預先定義的固定偏移低於所儲存的靜音臨界(最小)值，則所述靜音臨界(最小)值將會被使用。在一較佳實施例中，平滑化利用一2000msec的上升響應時間以及一2000msec的釋放響應時間而被施加的。有利的是，在自動調整模式中沒有供使用者設定或選擇之配置設定。

在步驟140中，所述處理器檢查所述音量位準是否大於或等於所述靜音臨界位準。當所述檢查指出所述音量位準大於或等於所述靜音臨界位準時，所述靜音延遲計時器在步驟150中重置。當所量測到的音量位準低於所述靜音臨界位準時，所述靜音延遲計時器控制何時所述麥克風將會自動地靜音(藉由衰減所述麥克風信號)。每當所量測到的音量位準高於或等於所述靜音臨界位準時，所述靜音延遲計時器在步驟150中重置。當所量測到的音量位準低於所述靜音臨界位準時，所述靜音延遲計時器將會繼續在步驟180中運行，直到所述計時器逾時為止。當所述計時器逾時，所述輸入麥克風信號將會在步驟190中被充分衰減以達成將所述麥克風靜音的效果。所述靜音延遲計時器設定可應用於所有五個模式，並且使用者將會能夠設定一較佳值。在一實施例中，所述預設值是1秒。1秒的靜音延遲表示若1秒內沒有偵測到語音活動，則所述麥克風將會被靜音。所述靜音延遲計時器有利地容許減少由於使用者在通話期間短暫地暫停其語音而造成所述麥克風不必要地短暫靜音，此大為強化所述通話的整體感受。在步驟160中，原始的麥克風信號被獲得，並且在回到步驟110之前，在步驟170中被寫入一輸出緩衝器。當所述原始的麥克風信號被寫入所述輸出緩衝器時，將所述麥克風信號取消靜音的效果被達成。當所述麥克風信號在步驟190中被衰減，並且在步驟170中被寫入輸出緩衝器時，將所述麥克風信號靜音的效果被達成。

在另一方面，當所述音量位準在步驟140中並未大於或等於所述靜音臨界位準時，所述處理器將會在步驟180中檢查所述靜音延遲計時器是否正在運行。當所述檢查指出所述靜音延遲計時器正在運行時，所述程序前進到步驟160，接著步驟170。在另一方面，當所述靜音延遲計時器並未運行時(逾時)，所述麥克風是在步驟190中藉由衰減所述麥克風信號而被靜音，並且所述程序在回到步驟110之前先行前進到步驟170。在流程圖100中的方法持續地量測所述輸入麥克風信號。

在一實施例中，一視覺指示器被顯示給使用者以了解目前靜音狀態。當使用者選擇及調整其VAD設定時，所述麥克風信號將會同時被分析並且靜音狀態被顯示，使得使用者可依此對於所述VAD設定做出改變。由於當使用者先前選擇及調整其VAD設定時的環境狀況可能不同於實際通話期間的實際環境狀況，因此在通話的整個持續期間都顯示目前靜音狀態容許使用者能夠知道即時靜音狀態，並且若必要的話，使用者可依此對於所述VAD設定做出改變。

在靜音狀況期間，所述麥克風信號被衰減以具有類似麥克風的靜音效果。在一較佳實施例中，動態衰減技術被實施，其考慮即時麥克風信號的強度，而不是施加一固定衰減來將所述麥克風信號靜音。當使用者並未在說話並且所述麥克風信號位準是低的(例如在背景雜訊因此是低的情節中)，較小衰減將會被施加來達成所述麥克風信號的目標靜音音訊位準。當使用者並未在說話並且麥克風信號位準是高的(例如在背景雜訊位準因此是高的情節中)，更多衰減將會被施加來達成所述麥克風信號的目標靜音音訊位準。所述麥克風信號的目標靜音音訊位準被決定成使得所述位準足夠低到讓人無法聽到音訊，但又足夠高到通訊應用程式仍然可偵測到被衰減的麥克風信號的存在。所述衰減位準根據所述輸入麥克風信號在靜音狀況期間的目標音訊位準(例如約-66dB)以及目前量測到的音量位準而被計算出，其中平滑化利用一2000msec的上升響應時間以及一200msec的釋放響應時間而被施加的。有利的是，此避免某些通訊應用程式由於不能夠在通訊期間偵測到麥克風信號的存在，而認為使用者的麥克風或音訊系統設置可能有問題。

儘管在所述流程圖中的步驟是依序被給出，但應該體認到的是某些步驟可同時、或是用不同序列來執行。所述步驟可用硬體、軟體、韌體、或是其之任意組合來實施。

因此，可看出的是已經提出一種分別在使用者並未說話以及在使用者正在說話時將麥克風信號靜音及取消靜音之方法。本發明之一優點是其提供一種方式讓裝置自動地分別在使用者並未說話以及在使用者正在說話時將麥克風靜音及取消靜音。有利的是，所述麥克風幾乎立刻被取消靜音，而無語音損失。

儘管範例實施例已經在本實施例的先前詳細說明中被呈現，但應該體認到的是存在大量變化。應該進一步體認到的是，所述範例實施例只是例子而已，因而並不欲以任何方式來限制本發明的範疇、可利用性、操作、或是配置。而是，先前詳細說明將會提供熟習此項技術者便利的規劃以用於實施本發明範例的實施例，所理解的是各種改變可在範例實施例中所述的步驟及操作方法的功能及配置上達成，而不脫離如同在所附請求項中闡述的本發明的範疇。

100:流程圖 110:步驟 120:步驟 130:步驟 140:步驟 150:步驟 160:步驟 170:步驟 180:步驟 190:步驟

[圖1]是描繪根據各種實施例的一種用於將麥克風信號靜音及取消靜音之方法的流程圖。

100:流程圖

110:步驟

120:步驟

130:步驟

140:步驟

150:步驟

160:步驟

170:步驟

180:步驟

190:步驟

Claims

一種用於將麥克風信號靜音及取消靜音之方法，其包括：設置處理器；接收輸入麥克風信號；以取樣率來量測所述輸入麥克風信號的音量位準；計算靜音臨界位準；檢查所述音量位準是否高於或等於所述靜音臨界位準，並且在判斷所述音量位準高於或等於所述靜音臨界位準之後重置靜音延遲計時器並且獲得所述輸入麥克風信號、或是在判斷所述音量位準並未高於或等於所述靜音臨界位準之後檢查所述靜音延遲計時器是否正在運行，並且若所述靜音延遲計時器並未運行，則衰減所述輸入麥克風信號、或是若所述靜音延遲計時器仍在運行，則獲得所述輸入麥克風信號；以及將所述輸入麥克風信號或是被衰減的所述輸入麥克風信號寫入輸出緩衝器。
如請求項1之方法，其中所述輸入麥克風信號在頻域中，並且量測所述輸入麥克風信號的音量位準的步驟藉由取所述輸入麥克風信號的均方根乘上幅度縮放因數。
如請求項2之方法，其中所述幅度縮放因數是所述取樣率及音框尺寸的函數的平方根的倒數。
如請求項1之方法，其中所述輸入麥克風信號的所述音量位準每32毫秒被判斷出。
如請求項1之方法，其中計算所述靜音臨界位準的步驟包括檢查語音活動偵測模式，並且獲得用於計算所述靜音臨界位準的一組參數。
如請求項5之方法，其中所述語音活動偵測模式從由自動校準、透過預設的手動校準、透過預設位準的手動校準、透過客製值的手動校準、以及即時自動調整所構成的群組中所選出，並且其中所述即時自動調整模式由預設所選出。
如請求項1之方法，其中所述靜音延遲計時器被配置為1秒。
如請求項1之方法，其進一步包括獲得用於使用者的所述靜音延遲計時器的較佳值、以及配置所述靜音延遲計時器至所述較佳值的步驟。
如請求項1之方法，其進一步包括顯示視覺指示器以顯示目前靜音狀態的步驟。
如請求項1之方法，其中衰減所述輸入麥克風信號的步驟包括根據所述輸入麥克風信號的目標音訊位準以及所述音量位準來決定衰減值，並且其中所述輸入麥克風信號的所述目標音訊位準足夠低到人無法聽到述音訊，但是足夠高到通訊應用程式仍然偵測到被衰減的所述輸入麥克風信號的存在。
一種包含藉由處理器讀取的非暫態儲存媒體的軟體產品，所述非暫態儲存媒體具有儲存於其上的一組指令以用於將輸入麥克風信號靜音及取消靜音，其包括：第一序列的指令，當藉由所述處理器執行時，其使得所述處理器接收輸入麥克風信號；第二序列的指令，當藉由所述處理器執行時，其使得所述處理器以取樣率來量測所述輸入麥克風信號的音量位準；第三序列的指令，當藉由所述處理器執行時，其使得所述處理器計算靜音臨界位準；第四序列的指令，當藉由所述處理器執行時，其使得所述處理器檢查所述音量位準是否高於或等於所述靜音臨界位準，並且在判斷所述音量位準高於或等於所述靜音臨界位準之後重置靜音延遲計時器並且獲得所述輸入麥克風信號、或是在判斷所述音量位準並未高於或等於所述靜音臨界位準之後檢查所述靜音延遲計時器是否正在運行，並且若所述靜音延遲計時器並未運行，則衰減所述輸入麥克風信號、或是若所述靜音延遲計時器仍在運行，則獲得所述輸入麥克風信號；以及第五序列的指令，當藉由所述處理器執行時，其使得所述處理器將所述輸入麥克風信號或是被衰減的所述輸入麥克風信號寫入輸出緩衝器。
如請求項11之軟體產品，其中所述輸入麥克風信號在頻域中，並且所述輸入麥克風信號的所述音量位準藉由取所述輸入麥克風信號的均方根乘上幅度縮放因數來量測。
如請求項12之軟體產品，其中所述幅度縮放因數是所述取樣率及音框尺寸的函數的平方根的倒數。
如請求項11之軟體產品，其中所述輸入麥克風信號的所述音量位準每32毫秒被判斷出。
如請求項11之軟體產品，其中所述靜音臨界位準根據語音活動偵測模式以及一組參數而被計算出。
如請求項15之軟體產品，其中所述語音活動偵測模式從由自動校準、透過預設的手動校準、透過預設位準的手動校準、透過客製值的手動校準、以及即時自動調整所構成的群組中所選出，並且其中所述即時自動調整模式由預設所選出。
如請求項11之軟體產品，其中所述靜音延遲計時器被配置為1秒。
如請求項11之軟體產品，其進一步包括一序列的指令，當藉由所述處理器執行時，其使得所述處理器獲得用於使用者的所述靜音延遲計時器的較佳值，並且配置所述靜音延遲計時器至所述較佳值。
如請求項11之軟體產品，其進一步包括一序列的指令，當藉由所述處理器執行時，其使得所述處理器顯示視覺指示器以顯示目前靜音狀態。
如請求項11之軟體產品，其中所述輸入麥克風信號被衰減根據所述輸入麥克風信號的目標音訊位準以及所述音量位準而定的衰減值，並且其中所述輸入麥克風信號的所述目標音訊位準足夠低到人無法聽到音訊，但是足夠高到通訊應用程式仍然偵測到被衰減的所述輸入麥克風信號的存在。