TW202207219A

TW202207219A - 雙二階式聲音偵測系統

Info

Publication number: TW202207219A
Application number: TW109127586A
Authority: TW
Inventors: 林義雄; 陳浩銘
Original assignee: 香港商吉達物聯科技股份有限公司
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2022-02-16
Also published as: CN114203198A

Abstract

本發明提供一種雙二階式聲音偵測系統，包含麥克風、音訊偵測裝置、雙二階預處理裝置、特徵提取裝置、特徵縮減裝置、及事件偵測裝置。該麥克風接收環境中的聲音訊號。該音訊偵測裝置將該聲音訊號轉換輸出數位音訊訊號。該雙二階預處理裝置將該數位音訊訊號預處理並輸出包含所需頻段的預處理訊號。該特徵提取裝置將該預處理訊號中的特徵值分群成複數個子集後輸出特徵分群訊號。該特徵縮減裝置將該等子集進行重要性排序並輸出特徵排序訊號。該事件偵測裝置依據該等子集的重要性從該聲音訊號中進行比對並將輸出一具有辨識結果的事件偵測訊號。

Description

雙二階式聲音偵測系統

本發明提供一種聲音偵測系統，尤其指一種雙二階式聲音偵測系統。

現實生活中通常有許多聲音事件一起發生，重疊在一起，若將聲音事件各別擷取出來，將可利用於各種應用中，例如：跌倒聲辨識可應用於緊急救護、嬰兒哭鬧聲辨識可應用於嬰兒照護、蛙鳴聲辨識可應用於生態分析、腳步聲辨識可應用於居家安全等。

由於聲音事件偵測（Sound Event Detection）技術可涵蓋所有種類之聲音，因此具有非常大的發展性。其中，聲音事件偵測中的訊號前處理（Signal Preprocessing）是一個重要的模組，通常使用於訊號前處理的濾波器會使用一個固定係數或形態的濾波器，會使濾波器無法彈性調整，導致當濾波效果不佳時，聲音事件偵測的品質會大幅下滑。

本發明的主要目的，在於提供一種雙二階式聲音偵測系統包含一麥克風、一音訊偵測裝置、一雙二階預處理裝置、一特徵提取裝置、一特徵縮減裝置、以及一事件偵測裝置。該麥克風接收環境中的聲音訊號。該音訊偵測裝置將該聲音訊號經由類比-數位轉換器轉換輸出一數位音訊訊號。該雙二階預處理裝置的輸入端連接至該音訊偵測裝置的輸出端，該雙二階預處理裝置包括1至N階雙二階濾波器，該數位音訊訊號經過該1至N階雙二階濾波器後，該1至N階雙二階濾波器輸出一包含所需頻段的預處理訊號。該特徵提取裝置的輸入端連接至該雙二階預處理裝置的輸出端，該特徵提取裝置將該預處理訊號中的特徵值分群成複數個子集後輸出一特徵分群訊號。該特徵縮減裝置的輸入端連接至該特徵提取裝置的輸出端，該特徵縮減裝置將該等子集進行重要性排序並輸出一特徵排序訊號。該事件偵測裝置的輸入端連接至該特徵縮減裝置的輸出端，該事件偵測裝置依據該特徵排序訊號中的重要性排序從該聲音訊號中進行比對並輸出一具有辨識結果的事件偵測訊號。

是以，本發明相較於先前技術的硬體更加彈性，並且能使事件偵測的品質上升。

有關本發明之詳細說明及技術內容，現就配合圖式說明如下。再者，本發明中之圖式，為說明方便，其比例未必照實際比例繪製，該等圖式及其比例並非用以限制本創作之範圍，在此先行敘明。

於本發明中所述的「裝置」、「器」、「模組」及其對應執行的功能，可以由單一晶片或複數個晶片的組合協同執行，該等晶片配置的數量非屬本發明所欲限定的範圍。此外，所述的晶片可以為但不限定於處理器（Processor）、中央處理器（Central Processing Unit, CPU）、微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor, DSP）、特殊應用積體電路（Application Specific Integrated Circuits, ASIC）、可程式化邏輯裝置（Programmable Logic Device, PLD）等裝置的組合，於本發明中不予以限制。前述的晶片，可各別或共有記憶單元，該記憶單元用以協助進行資料的保存。所述的記憶單元於一可行的實施例中可以為（但不限定於）快取記憶體（Cache memory）、動態隨機存取記憶體（DRAM）、持續性記憶體（Persistent Memory）等可以做為儲存資料和取出資料用途之裝置或其組合，於本發明中不予以限制。

以下針對本發明的其中一實施例進行說明，請參閱「圖1」，為本發明雙二階式聲音偵測系統，如圖所示：

請參酌「圖1」，本實施例揭示雙二階式聲音偵測系統100，主要包括麥克風10、音訊偵測裝置20、雙二階預處理裝置30、特徵提取裝置40、特徵縮減裝置50、以及事件偵測裝置60。

所述的麥克風10主要用於接收環境中的聲音訊號。麥克風10於其他實施例中例如可以為拾音器、或是其他可以用以接收環境音波的裝置。於本發明中經由麥克風10所輸出的聲音訊號亦可定義為麥克風訊號，先行敘明於此。

所述的音訊偵測裝置20主要用於將麥克風10所接收的聲音訊號經由類比-數位轉換器（Analog To Digital Converter, ADC）轉換輸出一數位音訊訊號。具體而言，音訊偵測裝置20包含類比-數位轉換器（圖未示），類比-數位轉換器將接收到的麥克風訊號轉換成數位音訊訊號後輸出至雙二階預處理裝置30。於其他實施例中，所述的麥克風10可以與音訊偵測裝置20共構為一個收音模組，使接收聲音訊號與轉換數位訊號的功能於收音模組中一併實現。

所述的雙二階預處理裝置30主要作為訊號前處理（Signal Preprocessing）的功能，因此能藉由濾波取得需要的聲音頻段，在此將經過訊號前處理的訊號定義為預處理訊號。於一實施例中，雙二階預處理裝置30包括1至N階雙二階濾波器32，具體而言，1至N階雙二階濾波器32的1階雙二階濾波器321的輸入端連接至音訊偵測裝置20，數位音訊訊號經過1至N階雙二階濾波器32以進行濾波，最後，由1至N階雙二階濾波器32的N階雙二階濾波器32N輸出包含所需聲音頻段的預處理訊號至特徵提取裝置40。前述1至N階雙二階濾波器32的雙二階濾波器與階層配置如下，請一併參閱參閱「圖2」、「圖3」： 1階雙二階濾波器321的輸出端連接至2階雙二階濾波器322的輸入端；2階雙二階濾波器322的輸出端連接至3階雙二階濾波器323的輸入端，依此類推，N-1階雙二階濾波器32N-1的輸出端連接至N階雙二階濾波器32N的輸入端。於一實施例中，請參酌「圖4」，所述的雙二階預處理裝置30能藉由一係數控制器CC控制該1至N階雙二階濾波器32的係數，該係數控制器CC的輸出端連接至該1至N階雙二階濾波器32使控制各別該1至N階雙二階濾波器32的係數。

於再一實施例中，雙二階預處理裝置能依據輸入的訊號自動進行係數更新並輸出預處理訊號，本實施例中1至N階雙二階濾波器與前實施例的階層配置、雙二階濾波器以及訊號輸入及輸出的內容相同，因此不再贅述，先行敘明於此。請參酌「圖5」，所述的雙二階預處理裝置70依序包括一頻寬偵測器72、一輸入端連接至頻寬偵測器72的係數修正器74、以及輸入端連接至係數修正器74的1至N階雙二階濾波器76，係數修正器74的另一輸入端連接至麥克風10，於係數修正器74與麥克風10之間設置有一頻率偵測器（Frequency Detector）（圖未示）；其中， 1階雙二階濾波器的另一輸入端連接至音訊偵測裝置20，由1至N階雙二階濾波器76的N階雙二階濾波器輸出包含所需聲音頻段的預處理訊號至特徵提取裝置40。

請復參閱「圖1」，所述的特徵提取裝置40主要用於將特徵值分群成複數個子集。特徵提取裝置40的輸入端連接至雙二階預處理裝置30的輸出端，將預處理訊號經過演算法後進行分群，所述的演算法可以（但不限定是）梅爾頻率倒譜係數（Mel-Frequency Cepstral Coefficients, MFCCs）、線性預測（Linear predictive coding, LPC）、感知線性預測（Perceptual Linear Prediction Coefficients, PLPC）、線性預測倒譜係數（linear prediction cepstral coefficients, LPCC ）等搭配人工神經網路（Artificial Neural Network, ANN）藉此先進行提取特徵值後再進行分類/分群的運算，於本發明中不予以限制。特徵提取裝置40將預處理訊號中的特徵值分群成複數個子集後輸出特徵分群訊號至特徵縮減裝置50。

所述的特徵縮減裝置50主要用於將特徵分群訊號中的複數個子集進行重要性排序。所述的特徵縮減裝置50的輸入端連接至特徵提取裝置的輸出端，將特徵分群訊號經過演算法運算後進行重要性排序或關聯性排序，所述的演算法可以（但不限定是）最小冗餘最大相關性（Minimum redundancy maximum relevance, mRMR）可作為將子集中特徵值的關聯性進行比對以降低後方運算負擔的演算法，於本發明中不予以限制。特徵縮減裝置將該等子集進行重要性排序後輸出特徵排序訊號至事件偵測裝置60。

所述的事件偵測裝置60主要用於依據特徵排序訊號中的重要性排序從聲音訊號中進行比對，確認是否包含預期目標的聲音後輸出辨識結果。事件偵測裝置60的輸入端連接至特徵縮減裝置50的輸出端，依據子集的重要性排序比對並經由演算法自聲音訊號中取得對應的聲音，所述的演算法可以（但不限定是）隱藏式馬可夫模型(hidden Markov model, HMM)、高斯和支持向量混合(Hybrid GMM-SVM)、深層類神經網路(DNN)、高斯混和模型(GMM)、支持向量機(SVM)等能應用於資料探勘/機械學習/人工智慧並藉此取得相對應資料的演算法，於本發明中不予以限制。事件偵測裝置60藉由演算法比對對應的聲音並輸出辨識結果，該辨識結果於此定義為事件偵測訊號。

以上針對本發明硬體架構的一具體實施例進行說明，有關於本發明的運作將於下面進行更進一步的說明，請參閱「圖6」，為本發明雙二階式聲音偵測系統100的流程示意圖，如圖所示：

於本發明執行前，雙二階式聲音偵測系統100預設有一聲音事件目標，聲音事件目標例如是：腳步聲、打呼聲、風聲、嬰兒哭泣聲、玻璃破碎聲等，於本發明中不予以限制。

首先，麥克風10接收環境中的聲音訊號並輸出麥克風訊號至音訊偵測裝置20（步驟S201）。

麥克風訊號經由音訊偵測裝置20中的類比-數位轉換器輸出成數位音訊訊號至雙二階預處理裝置30（步驟S202）。

雙二階預處理裝置30將接收到的數位音訊訊號輸入至1階雙二階濾波器321，經過1至N階雙二階濾波器32後由N階雙二階濾波器32N輸出所需頻段的預處理訊號至特徵提取裝置40（步驟S203）。於一實施例中，所述的1至N階雙二階濾波器32的係數可以為出廠設定或經由係數控制器進行係數控制/調整，於本發明中不予以限制。本實施例中1至N階雙二階濾波器32的係數公式請一併參閱「圖2」、「圖3」，所述1至N階雙二階濾波器32的各別雙二階濾波器321-32N係依據下列的式子對數位音訊訊號進行濾波：

；其中，

、

、

係為第

階、第

階、及第

階時點所接收到的數位音訊訊號，

、

、

係為第

階、第

階、及第

階時點輸出的錯誤整型訊號，

、

、

、

、

係為各別雙二階濾波器321-32N的係數。

於一實施例中，若聲音事件目標的預設為嬰兒哭泣聲時，並且為1至4階雙二階濾波器的情況下，1至4階雙二階濾波器的係數設定個別為： 1階：係數

=0.5671,

=1.1342,

=0.5671,

=0.9396,

=0.3288。 2階：係數

=0.5671,

=1.1342,

=0.5671,

=0.9396,

=0.3288。 3階：係數

=0.8940,

=-1.7879,

=0.8940,

=-1.7768,

=0.7990。 4階：係數

=0.8940,

=-1.7879,

=0.8940,

=-1.7768,

=0.7990。

依據前述的係數設定，4階雙二階濾波器輸出的數位音訊訊號主要為0.2kHz至1.2kHz的聲音頻段。

於另一實施例中，若聲音事件目標的預設為玻璃破碎聲時，並且為1至4階雙二階濾波器的情況下，1至4階雙二階濾波器的係數設定個別為： 1階：係數

=0.0976,

=0.1952,

=0.0976,

=-0.9427,

=0.3332。 2階：係數

=0.0976,

=0.1952,

=0.0976,

=-0.9427,

=0.3332。 3階：係數

=0.9932,

=-1.9865,

=0.9932,

=-1.9865,

=0.9866。 4階：係數

=0.9932,

=-1.9865,

=0.9932,

=-1.9865,

=0.9866。

依據前述的係數設定，4階雙二階濾波器輸出的數位音訊訊號主要為0.01kHz至0.4kHz的聲音頻段。

接續，特徵提取裝置40將預處理訊號中的特徵值分群成複數個子集後輸出一特徵分群訊號至特徵縮減裝置50（步驟S204）。於一實施例中，特徵值分群的運算使用梅爾頻率倒譜係數進行分析，先對接收的數位音訊訊號進行預加重（Pre-emphasis，亦可稱預強化）、分幀加窗（Frame Blocking and Windowing）後，再通過傅立葉轉換（FFT）得到對應的頻譜，再將取得的頻譜通過梅爾（Mel）濾波器組得到梅爾（Mel）頻譜，藉由梅爾頻譜進行倒譜分析（取對數，逆變換），獲得梅爾頻率倒譜係數MFCCs後依據取得的特徵值藉由人工神經網路進行分群成複數個子集。

特徵縮減裝置50將特徵分群訊號的子集進行重要性排序後輸出特徵排序訊號至事件偵測裝置60（步驟S205）。於一實施例中，重要性排序的運算使用最小冗餘最大相關性對特徵分群訊號的子集進行最大化特徵與分類變數之間的相關性，並最小化特徵與特徵之間的相關性後，再藉由相互資訊（Mutual Information, MI）作對度量的標準取得子集的重要性排名。

最後，事件偵測裝置60接收特徵排序訊號並依據重要性排名從聲音訊號中將特徵值進行比對，於比對完並取得與聲音事件目標相對應聲音的辨識結果後，事件偵測裝置60輸出包含辨識結果的事件偵測訊號（步驟S206）。於一實施例中，本發明比對的演算法使用隱藏式馬可夫模型作為聲學模型（Acoustic model）去進行建模，並藉由前向式演算法（Forward algorithm）、後向式演算法（Backward search）或維特比演算法（Viterbi algorithm）等去進行訓練分析，經由隱藏式馬可夫模型將重要性排名與聲音事件目標進行比對後，自聲音訊號中比對出是否包含與聲音事件目標對應的聲音並輸出一包含辨識結果的事件偵測訊號。

於另外一實施例中，在本發明雙二階預處理裝置70具有頻寬偵測器72、係數修正器74、1至N階雙二階濾波器76的情況下，前述步驟S203由步驟S2031-2034取代，請參酌「圖7」，為本發明另一實施例的流程示意圖，該流程示意圖並未揭示步驟S201、S205、S206；於本實施例中，已敘述之步驟與相同的公式不再贅述，於此先行敘明。

接續步驟S202，雙二階預處理裝置70將接收到的數位音訊訊號輸入至1至N階雙二階濾波器76與頻寬偵測器72（步驟S2031）。

頻寬偵測器72偵測數位音訊訊號的頻寬並運算輸出一與數位音訊訊號中心頻率相同頻寬的頻寬訊號至係數修正器74（步驟S2032）。所述的中心頻率由頻寬偵測器72依據下列的式子經由數位音訊訊號獲得：

其中，

為n階段由音訊偵測裝置20輸出至頻寬偵測器72的數位音訊訊號，

為頻寬偵測器72輸出的中心頻率，

共有M個輸出，M為預設的輸出數量。

係數修正器74依據頻寬訊號與所接收麥克風訊號的頻率計算並輸出一係數修正訊號至1至N階雙二階濾波器76（步驟S2033）。請參酌「圖2」，所述的係數修正器74依據下列式子修正1至N階雙二階濾波器76中各別雙二階濾波器的係數：

其中，

為中心角頻率數值，

為固有頻率參數，

、

為各別雙二階濾波器的係數。

前述的中心角頻率數值以及固有頻率參數由係數修正器34依據下列的式子獲得：

其中，

為由頻寬偵測器72輸入的中心頻率，

為由麥克風10所輸入的麥克風訊號的頻率，Q為預設的品質參數，

為中心角頻率數值，

為固有頻率參數。前述提及的品質參數基於品質因素而決定；固有頻率參數基於固有頻率因子而決定。

接續，1至N階雙二階濾波器76依據接收到的係數修正訊號修正係數，並依據修正後的係數將下一階段接收的數位音訊訊號進行預處理(濾波)(

、

視為已知參數)後輸出預處理訊號至特徵提取裝置40（步驟S2034）。此步驟後將接續步驟S204，於此敘明。

綜上所述，比起習知技術，本發明相較於先前技術的硬體更加彈性，並且能使事件偵測的品質上升。

以上已將本發明做一詳細說明，惟，以上所述者，僅為本發明之一較佳實施例而已，當不能以此限定本發明實施之範圍，即凡依本發明申請專利範圍所作之均等變化與修飾，皆應仍屬本發明之專利涵蓋範圍內。

100:雙二階式聲音偵測系統 10:麥克風 20:音訊偵測裝置 30:雙二階預處理裝置 32:1至N階雙二階濾波器 321-32N:雙二階濾波器 40:特徵提取裝置 50:特徵縮減裝置 60:事件偵測裝置 70:雙二階預處理裝置 72:頻寬偵測器 74:係數修正器 76:1至N階雙二階濾波器 CC:係數控制器 S201-206:步驟 S2031-2034:步驟

圖1，本發明雙二階式聲音偵測系統的方塊示意圖。

圖2，為本發明中雙二階濾波器的方塊示意圖。

圖3，為本發明1至N階雙二階濾波器階層配置的方塊示意圖。

圖4，一實施例的雙二階預處理裝置的方塊示意圖。

圖5，另一實施例的雙二階預處理裝置的方塊示意圖。

圖6，本發明雙二階式聲音偵測系統的流程示意圖。

圖7，本發明另一實施例的流程示意圖。

100:雙二階式聲音偵測系統

10:麥克風

20:音訊偵測裝置

30:雙二階預處理裝置

40:特徵提取裝置

50:特徵縮減裝置

60:事件偵測裝置

Claims

一種雙二階式聲音偵測系統：一麥克風，接收環境中的聲音訊號；一音訊偵測裝置，將該聲音訊號經由類比-數位轉換器轉換輸出一數位音訊訊號；一雙二階預處理裝置，輸入端連接至該音訊偵測裝置的輸出端，該雙二階預處理裝置包括1至N階雙二階濾波器，該數位音訊訊號經過該1至N階雙二階濾波器後，該1至N階雙二階濾波器輸出一包含所需頻段的預處理訊號；一特徵提取裝置，輸入端連接至該雙二階預處理裝置的輸出端，該特徵提取裝置將該預處理訊號中的特徵值分群成複數個子集後輸出一特徵分群訊號；一特徵縮減裝置，輸入端連接至該特徵提取裝置的輸出端，該特徵縮減裝置將該等子集進行重要性排序並輸出一特徵排序訊號；以及一事件偵測裝置，輸入端連接至該特徵縮減裝置的輸出端，該事件偵測裝置依據該特徵排序訊號中的重要性排序從該聲音訊號中進行比對並輸出一具有辨識結果的一事件偵測訊號。
如申請專利範圍第1項所述的雙二階式聲音偵測系統，其中，該1階雙二階濾波器輸入端連接至該音訊偵測裝置以接收該數位音訊訊號，該數位音訊訊號經過該1至N階雙二階濾波器後由該N階雙二階濾波器輸出該預處理訊號。
如申請專利範圍第2項所述的雙二階式聲音偵測系統，其中，各別該雙二階濾波器係依據下列的式子對該數位音訊訊號進行濾波：
；其中，
、
、
係為第
階、第
階、及第
階時點所接收到的該數位音訊訊號，
、
、
係為第
階、第
階、及第
階時點輸出的該預處理訊號，
、
、
、
、
係為各別該雙二階濾波器的係數。
如申請專利範圍第3項所述的雙二階式聲音偵測系統，其中，該雙二階預處理裝置進一步包含一係數控制器，該係數控制器的輸出端連接至該1至N階雙二階濾波器控制該1至N階雙二階濾波器的係數。
如申請專利範圍第3項所述的雙二階式聲音偵測系統，其中，該雙二階預處理裝置包含一頻寬偵測器、一輸入端連接至該頻寬偵測器輸出端的係數修正器、以及輸入端連接至該係數修正器的該1至N階雙二階濾波器，該係數修正器的另一輸入端連接至該麥克風的輸出端；其中，該頻寬偵測器偵測該數位音訊訊號的頻寬並輸出一與該數位音訊訊號中心頻率相同頻寬的一頻寬訊號，該係數修正器依據該頻寬訊號與該聲音訊號的頻率計算並輸出一用於修正該1至N階雙二階濾波器係數的係數修正訊號，該1至N階雙二階濾波器依據該係數修正訊號更新係數，並根據修正後的係數將下一階段接收的該數位音訊訊號進行預處理後輸出該預處理訊號。
如申請專利範圍第5項所述的雙二階式聲音偵測系統，其中，該係數修正器與該麥克風之間具有一頻率偵測器。
如申請專利範圍第5項所述的雙二階式聲音偵測系統，其中，該係數修正器依據下列式子修正該雙二階濾波器的係數：

其中，
為中心角頻率數值，
為固有頻率參數，
、
、
、
、
為該雙二階濾波器的係數。
如申請專利範圍第7項所述的雙二階式聲音偵測系統，其中，該中心角頻率數值以及該固有頻率參數由該係數修正器依據下列的式子獲得：

其中，
為由該頻寬偵測器輸入的中心頻率，
為由該麥克風輸入的頻率，Q為預設的品質參數，
為中心角頻率數值，
為固有頻率參數。
如申請專利範圍第8項所述的雙二階式聲音偵測系統，其中，所述的品質參數基於品質因素而決定，所述的固有頻率參數基於固有頻率因子而決定。
如申請專利範圍第8項中的雙二階式聲音偵測系統，其中，該中心頻率係由該頻寬偵測器依據下列的式子經由該數位音訊訊號獲得：

其中，
為n階段由該音訊偵測裝置輸出的該數位音訊訊號，
為該頻寬偵測器輸出的該中心頻率，
共有M個輸出，M為預設的輸出數量。