TW201443875A

TW201443875A - 收音方法及收音系統

Info

Publication number: TW201443875A
Application number: TW102116969A
Authority: TW
Inventors: Che-Chaun Liang
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2013-05-14
Filing date: 2013-05-14
Publication date: 2014-11-16
Also published as: US20140343929A1

Abstract

一種收音方法，用於一電子裝置中，所述電子裝置包括兩麥克風及一攝像頭，其特徵在於，所述方法包括：將所述攝像頭前面的空間劃分為若干區塊；計算出每一區塊到所述兩麥克風之間的收音延遲；確定一使用者的臉部位於所述若干區塊中的一特定區塊；根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束；所述兩麥克風收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。本發明還公開了一種收音系統。

Description

收音方法及收音系統

本發明涉及語音處理領域，尤指一種收音方法及收音系統。

隨著科技的發展，筆記型電腦（Notebook PC）、平板電腦（Tablet PC）、智慧手機（Smartphone）等電子設備，對語音錄入的要求越來越高，清晰、低噪的語音既可以給使用者帶來良好的使用體驗，也可以提高語音辨識應用的準確度。因此，如何降低環境的噪音和其他干擾源對語音錄入的干擾一直是語音處理領域的研究重點和難點，現有的降噪手段常常需要較為繁複的運算才能取得足夠的收音品質，然而，反復的運算對硬體設備的要求更高，所需運算時間也會更多，不適宜即時運算的需要。

鑒於以上內容，有必要提供一種收音方法及收音系統，可以在保證收音品質的前提下提高收音效率，減少運算時間。

一種收音方法，用於一電子裝置中，所述電子裝置包括兩麥克風及一攝像頭，所述方法包括：

空間劃分步驟，將所述攝像頭前面的空間劃分為若干區塊；

延遲計算步驟，計算出每一區塊到所述兩麥克風之間的收音延遲；

區塊確定步驟，確定一使用者的臉部位於所述若干區塊中的一特定區塊；

波束計算步驟，根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束；及

語音收集步驟，所述兩麥克風收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。

優選地，所述延遲計算步驟包括：

根據公式∆=|D1-D2|/C計算出每一區塊到所述兩麥克風之間的收音延遲，其中，∆表示每一區塊到所述兩麥克風之間的收音延遲，D1和D2分別表示每一區塊的中心點到所述兩麥克風的距離，C表示音速常量。

優選地，所述收音方法還包括：

語音監視步驟，監視所述兩麥克風收集到的語音信號的差異是否超過一閥值；及

波束修正步驟，若所述兩麥克風收集到的語音信號的差異超過所述閥值，則利用粒子群優化演算法重新計算指向所述特定區塊的波束。

優選地，所述收音方法還包括：

使用者偵測步驟，偵測在所述空間中是否出現多個候選使用者；及

使用者篩選步驟，若所述空間中出現多個候選使用者，則從所述多個候選使用者中篩選出所述使用者。

優選地，所述使用者篩選步驟包括：

偵測所述多個候選使用者的嘴部變化，選取其中嘴部變化最大的候選使用者作為所述使用者。

一種收音系統，用於一電子裝置中，所述電子裝置包括兩麥克風及一攝像頭，所述系統包括：

空間劃分模組，用於將所述攝像頭前面的空間劃分為若干區塊；

延遲計算模組，用於計算出每一區塊到所述兩麥克風之間的收音延遲；

區塊確定模組，用於確定一使用者的臉部位於所述若干區塊中的一特定區塊；

波束計算模組，用於根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束；及

語音收集模組，用於控制所述兩麥克風收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。

優選地，所述延遲計算模組用於根據公式∆=|D1-D2|/C計算出每一區塊到所述兩麥克風之間的收音延遲，其中，∆表示每一區塊到所述兩麥克風之間的收音延遲，D1和D2分別表示每一區塊的中心點到所述兩麥克風的距離，C表示音速常量。

優選地，所述收音系統還包括：

語音監視模組，用於監視所述兩麥克風收集到的語音信號的差異是否超過一閥值；及

波束修正模組，用於當所述兩麥克風收集到的語音信號的差異超過所述閥值時，利用粒子群優化演算法重新計算指向所述特定區塊的波束。

優選地，所述收音系統還包括：

使用者偵測模組，用於偵測在所述空間中是否出現多個候選使用者；及

使用者篩選模組，用於當所述空間中出現多個候選使用者時，從所述多個候選使用者中篩選出所述使用者。

優選地，所述使用者篩選模組用於偵測所述多個候選使用者的嘴部變化，選取其中嘴部變化最大的候選使用者作為所述使用者。

相較於習知技術，用於上述電子裝置中的收音方法及收音系統，藉由偵測使用者人臉所在的特定空間區塊確定收音延遲，再套用該收音延遲計算出指向所述特定空間區塊的波束，對該波束範圍內的語音進行採集並對該波束範圍以外的噪音進行抑制，這樣，既保證了所述電子裝置的收音品質，也避免了聲源定位所需的龐大運算量，使得運算更為即時和精準。

10．．．電子裝置

11．．．顯示構件

12．．．基底構件

101．．．中央處理器

102．．．存儲裝置

103．．．麥克風

104．．．攝像頭

20．．．收音系統

201．．．空間劃分模組

202．．．延遲計算模組

203．．．使用者偵測模組

204．．．使用者篩選模組

205．．．區塊確定模組

206．．．波束計算模組

207．．．語音收集模組

208．．．語音監視模組

209．．．波束修正模組

圖1為本發明一種實施方式中的電子裝置的立體圖。

圖2為本發明一種實施方式中的電子裝置的功能框圖。

圖3為本發明一種實施方式中的收音系統的功能框圖。

圖4為本發明一種實施方式中的電子裝置的攝像頭前面空間被劃分為若干區塊後的示意圖。

圖5為本發明一種實施方式中的計算一區塊與兩麥克風的示意圖。

圖6和圖7為本發明一種實施方式中的收音方法的流程圖。

請參閱圖1，圖中示意性的示出了根據本發明一種實施方式的電子裝置10的立體圖。在圖1所示的實施例中，所述電子裝置10是一台筆記本電腦，但是本領域的技術人員應當理解，所述電子裝置10可以為任何類型的電子設備，例如但不限於平板個人電腦、個人數位助理（PDA）、臺式電腦、遊戲裝置、數位視訊播放機、無線電設備、電視機、咖啡機，或任何其他類型的可擕式或非可擕式電子設備。

所述電子裝置10包括顯示構件11和基底構件12，所述顯示構件11可轉動地耦合至所述基底構件12上，所述顯示構件11可以相對所述基底構件12在打開和關閉這兩個位置之間轉動。所述顯示構件11包括顯示器，用於提供視覺化的使用者介面。

所述基底構件12是所述電子裝置10的主體部分，用於收納和集成包括主機板、中央處理器（CPU）、隨機訪存存儲裝置（RAM）、唯讀存儲裝置（ROM）、圖形加速器、磁片、擴展卡等電子器件。所述基底構件12的工作面上設有鍵盤、觸控板等輸入裝置。

所述顯示構件11的正面安裝有兩麥克風103和一攝像頭104，當所述顯示構件11正對使用者的時候，所述兩麥克風103和所述攝像頭104也正對使用者，以便接收使用者發出的語音以及偵測使用者的臉部。在一實施例中，所述兩麥克風103和所述攝像頭104位於同一水準方向上。

請參閱圖2，圖中示意性的示出了根據本發明一種實施方式的電子裝置10的功能框圖，所述電子裝置10包括一中央處理器101、一存儲裝置102、兩麥克風103和一攝像頭104。一收音系統20可運行於所述電子裝置10中。

所述中央處理器101用於處理資料和控制管理所述電子裝置10的全部功能元件，包括所述存儲裝置102、所述兩麥克風103和所述攝像頭104。

所述存儲裝置102用於存儲資料，可以包括隨機存取存儲裝置（RAM）、快閃存儲裝置、磁片等存儲裝置。

所述兩麥克風103用於採集使用者發出的語音。

所述攝像頭104用於偵測人的臉部。

所述收音系統20用於控制所述電子裝置10來執行語音錄入任務。

請參閱圖3，圖中示意性的使出了根據本發明一種實施方式的收音系統20的功能框圖，所述收音系統20包括空間劃分模組201、延遲計算模組202、使用者偵測模組203、使用者篩選模組204、區塊確定模組205、波束計算模組206、語音收集模組207、語音監視模組208及波束修正模組209。所述收音系統20可以由存儲於所述存儲裝置102中的程式指令來實現，也可以是由固化在硬體晶片中的程式指令來實現。

所述空間劃分模組201，用於將所述攝像頭104前面的空間劃分為若干區塊。在如圖4所示的一個例子中，所述空間劃分模組201將所述攝像頭104前面的空間劃分成為3x3x3一共27個區塊。

所述延遲計算模組202，用於計算出每一區塊到所述兩麥克風103之間的收音延遲。如圖5所示，D1和D2分別表示一個區塊的中心點到所述兩麥克風103的距離，所述延遲計算模組202根據公式∆=|D1-D2|/C計算出每一區塊到所述兩麥克風103之間的收音延遲，其中，∆表示每一區塊到所述兩麥克風之間的收音延遲，C表示音速常量。所述延遲計算模組202計算出每一區塊到所述兩麥克風103之間的收音延遲後，將每一區塊對應的收音延遲作為參數存儲於所述存儲裝置102中，便於以後讀取使用。

所述使用者偵測模組203，用於偵測在所述空間中是否出現多個候選使用者。所述使用者偵測模組203主要適用於會議室、多人語音聊天等場景。

所述使用者篩選模組204，用於當所述空間中出現多個候選使用者時，從所述多個候選使用者中篩選出一個活動使用者。所述使用者篩選模組204偵測所述多個候選使用者的嘴部變化，選取其中嘴部變化最大的候選使用者作為所述活動使用者。

所述區塊確定模組205，用於確定所述活動使用者的臉部位於所述若干區塊中的一特定區塊。

所述波束計算模組206，用於根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束。在一實施例中，所述波束計算模組206可以將所述收音延遲帶入波束成形演算法（Beam Forming）來計算出指向所述特定區塊的波束。

所述語音收集模組207，用於控制所述兩麥克風103收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。

所述語音監視模組208，用於監視所述兩麥克風103收集到的語音信號的差異是否超過一閥值。

所述波束修正模組209，用於當所述兩麥克風103收集到的語音信號的差異超過所述閥值時，重新計算指向所述特定區塊的波束。在一實施例中，所述波束修正模組209利用粒子群優化演算法（Particle Swam Optimization Algorithm）來重新計算指向所述特定區塊的波束，粒子群優化演算法具有收斂快、設定參數少的優點，可以以較少的反覆運算次數尋找到最優解。

請參閱圖6和圖7，圖中示意性的示出了根據本發明一種實施方式的收音方法的流程圖。所述方法包括以下步驟：

步驟S601，將所述攝像頭104前面的空間劃分為若干區塊。在如圖4所示的一個例子中，所述空間劃分模組201將所述攝像頭104前面的空間劃分成為3x3x3一共27個區塊。

步驟S602，計算出每一區塊到所述兩麥克風103之間的收音延遲。如圖5所示，D1和D2分別表示一個區塊的中心點到所述兩麥克風103的距離，所述延遲計算模組202根據公式∆=|D1-D2|/C計算出每一區塊到所述兩麥克風103之間的收音延遲，其中，∆表示每一區塊到所述兩麥克風之間的收音延遲，C表示音速常量。計算出每一區塊到所述兩麥克風103之間的收音延遲後，將每一區塊對應的收音延遲作為參數存儲於所述存儲裝置102中，便於以後讀取使用。

步驟S603，偵測在所述空間中是否出現多個候選使用者，若是，則進入步驟S604，若否，則進入步驟S605。

步驟S604，從所述多個候選使用者中篩選出一個活動使用者。偵測所述多個候選使用者的嘴部變化，選取其中嘴部變化最大的候選使用者作為所述活動使用者。

步驟S605，確定所述活動使用者的臉部位於所述若干區塊中的一特定區塊。

步驟S606，根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束。在一實施例中，將所述收音延遲帶入波束成形演算法（Beam Forming）來計算出指向所述特定區塊的波束。

步驟S607，控制所述兩麥克風103收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。

步驟S608，監視所述兩麥克風103收集到的語音信號的差異是否超過一閥值，若是，則進入步驟S609，若否，則結束。

步驟S609，重新計算指向所述特定區塊的波束。在一實施例中，利用粒子群優化演算法（Particle Swam Optimization Algorithm）來重新計算指向所述特定區塊的波束，粒子群優化演算法具有收斂快、設定參數少的優點，可以以較少的反覆運算次數尋找到最優解。

步驟S610，控制所述兩麥克風103收集在重新計算出的所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。

相教於習知技術，用於上述電子裝置10中的收音系統20及收音方法，藉由偵測使用者人臉所在的特定空間區塊確定收音延遲，再套用該收音延遲計算出指向所述特定空間區塊的波束，對該波束範圍內的語音進行採集並對該波束範圍以外的噪音進行抑制，這樣，既保證了所述電子裝置10的收音品質，也避免了聲源定位所需的龐大運算量，使得運算更為即時和精準。

綜上所述，本發明確已符合發明專利之要件，遂依法提出專利申請。惟，以上所述者僅為本發明之較佳實施方式，自不能以此限制本案之申請專利範圍。舉凡熟悉本案技藝之人士爰依本發明之精神所作之等效修飾或變化，皆應涵蓋於以下申請專利範圍內。

103．．．麥克風

104．．．攝像頭

Claims

一種收音方法，用於一電子裝置中，所述電子裝置包括兩麥克風及一攝像頭，所述方法包括：
空間劃分步驟，將所述攝像頭前面的空間劃分為若干區塊；
延遲計算步驟，計算出每一區塊到所述兩麥克風之間的收音延遲；
區塊確定步驟，確定一使用者的臉部位於所述若干區塊中的一特定區塊；
波束計算步驟，根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束；及
語音收集步驟，所述兩麥克風收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。
如申請專利範圍第1項所述之收音方法，其中所述延遲計算步驟包括：
根據公式∆=|D1-D2|/C計算出每一區塊到所述兩麥克風之間的收音延遲，其中，∆表示每一區塊到所述兩麥克風之間的收音延遲，D1和D2分別表示每一區塊的中心點到所述兩麥克風的距離，C表示音速常量。
如申請專利範圍第2項所述之收音方法，其中所述收音方法還包括：
語音監視步驟，監視所述兩麥克風收集到的語音信號的差異是否超過一閥值；及
波束修正步驟，若所述兩麥克風收集到的語音信號的差異超過所述閥值，則利用粒子群優化演算法重新計算指向所述特定區塊的波束。
如申請專利範圍第2項所述之收音方法，其中所述收音方法還包括：
使用者偵測步驟，偵測在所述空間中是否出現多個候選使用者；及
使用者篩選步驟，若所述空間中出現多個候選使用者，則從所述多個候選使用者中篩選出所述使用者。
如申請專利範圍第4項所述之收音方法，其中所述使用者篩選步驟包括：
偵測所述多個候選使用者的嘴部變化，選取其中嘴部變化最大的候選使用者作為所述使用者。
一種收音系統，用於一電子裝置中，所述電子裝置包括兩麥克風及一攝像頭，所述系統包括：
空間劃分模組，用於將所述攝像頭前面的空間劃分為若干區塊；
延遲計算模組，用於計算出每一區塊到所述兩麥克風之間的收音延遲；
區塊確定模組，用於確定一使用者的臉部位於所述若干區塊中的一特定區塊；
波束計算模組，用於根據所述特定區塊對應的收音延遲，計算出指向所述特定區塊的波束；及
語音收集模組，用於控制所述兩麥克風收集在所述波束範圍中的語音並抑制在所述波束範圍以外的噪音。
如申請專利範圍第6項所述之收音系統，其中所述延遲計算模組用於根據公式∆=|D1-D2|/C計算出每一區塊到所述兩麥克風之間的收音延遲，其中，∆表示每一區塊到所述兩麥克風之間的收音延遲，D1和D2分別表示每一區塊的中心點到所述兩麥克風的距離，C表示音速常量。
如申請專利範圍第7項所述之收音系統，其中所述收音系統還包括：
語音監視模組，用於監視所述兩麥克風收集到的語音信號的差異是否超過一閥值；及
波束修正模組，用於當所述兩麥克風收集到的語音信號的差異超過所述閥值時，利用粒子群優化演算法重新計算指向所述特定區塊的波束。
如申請專利範圍第7項所述之收音系統，其中所述收音系統還包括：
使用者偵測模組，用於偵測在所述空間中是否出現多個候選使用者；及
使用者篩選模組，用於當所述空間中出現多個候選使用者時，從所述多個候選使用者中篩選出所述使用者。
如申請專利範圍第9項所述之收音系統，其中所述使用者篩選模組用於偵測所述多個候選使用者的嘴部變化，選取其中嘴部變化最大的候選使用者作為所述使用者。