TWI460717B

TWI460717B - 蛙鳴辨識方法

Info

Publication number: TWI460717B
Application number: TW100128077A
Authority: TW
Inventors: Wen Ping Chen; Ya Zhong Chen; Wen Chih Lin; Song Shyong Chen; Cheng Chung Chang
Original assignee: Univ Nat Kaohsiung Applied Sci
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2014-11-11
Also published as: TW201308315A

Description

蛙鳴辨識方法

本發明係關於一種聲音辨識方法，尤其是一種蛙鳴之辨識方法。

不同生物發音時皆具有不同的聲紋，該發音之聲紋可使用類比數位轉換方式，表示為一音頻，該音頻會隨著時間作不規則的變化，且不同發音之音頻，彼此也具有相異之動態變化。為了判斷該聲音係由何種生物發出，必須將採集到之音頻，與辨識系統內建之音頻樣本進行比對，以判斷發聲之物種為何種生物，然而，聲音音頻的蒐集容易受到雜訊的干擾，當面臨相似聲音之音頻時，也具有辨識困難的問題。

根據H. Tyagi等學者於2006年之發表於Proceedings of the Thirteenth European Signal Processing Conference之論文Automatic identification of bird calls using spectral ensemble average voice prints中，揭示一種動物聲紋辨識之研究，該聲紋之擷取是根據每個音框個別的音頻，求取整體頻率的平均值，辨識15種鳥類的音頻。然而，因為某些物種之音頻變化是非固定的，求取整體的平均頻譜會遺失時間與頻率的相對關係。

此外，該論文之音頻取樣方法結合一動態時軸扭曲法(Dynamic Time Warping,DTW)，該動態時軸扭曲法是以音框為單位，將標準樣本與測試樣本作時軸上的校正，雖然該結合方式保留了時間上的訊息，但音框之單位時間範圍較短，會導致頻譜穩定性不足，進而影響該聲音之辨識效能。有鑑於此，為了提高辨識效果，必須要有一套更適宜的辨識方法。

本發明之主要目的係提供一種蛙鳴辨識方法，該辨識方法可提供較高之辨識率。

為達到前述發明目的，本發明所運用之技術手段包含有：一種蛙鳴辨識方法，係包含：一音節切割步驟，係判斷蛙鳴之一聲音訊號之音節端點，並將該聲音訊號由該端點切割為數音節；一特徵參數擷取步驟，係根據切割後之數音節，得到一音長特徵參數與一頻譜特徵參數；一辨識模組建立步驟，係將該數音長特徵參數及數頻譜特徵參數，建立一音長特徵資料庫及一頻譜特徵資料庫，該音長特徵資料庫係以音長作為標準建立之依據，該頻譜特徵資料庫之建立步驟為：(a)一頻譜分割步驟，係將該頻譜特徵參數中之連續性的音節頻譜切割成連續之數音框；(b)一階層分類步驟，係將該數音框歸類至數階層，且同一階層中之數音框具有連續性；(c)一階層平均頻譜計算步驟，係將各階層之數音框的頻譜取平均值；(d)一頻譜比較步驟，係將該數音框與該數階層之平均頻譜進行比較，以得知該數音框與該數階層之平均頻譜的差異度；(e)一頻譜分配步驟，係根據數音框與數階層之平均頻譜之差距進行音框的重新分配，將該數音框分配至相對具有較小差距之該階層，當該數音框產生階層之變動時，便回到該平均頻譜計算步驟，當該數音框不再產生階層變動時，便完成該頻譜特徵資料庫建立步驟；及一音節比對步驟，係將一待測聲音訊號進行該音節切割步驟與特徵參數擷取步驟，取得該音長特徵參數及頻譜特徵參數，再與該音長特徵資料庫及頻譜特徵資料庫之音長特徵參數及頻譜特徵參數進行辨識，輸出一辨識資料。

本發明之蛙鳴辨識方法，其中，該音節切割步驟係包含：一資料前處理步驟，係對該聲音訊號使用一預強調、取音框及加窗之動作；一訊號轉換步驟，係將該聲音訊號之音框由時域訊號轉換為頻域訊號；一平均能量計算步驟，係在該數音框之頻域訊號中進行一平均能量值之計算；一機率密度計算步驟，係於該數音框之每一頻率加上數倍之平均能量值，並計算出各該音框之機率密度函數；一熵值運算步驟，係根據該各音框之機率密度函數，計算該數音框個別之負熵值；及一端點偵測步驟，係利用該數音框之負熵值，判斷出各該音框中音節的端點。

本發明之蛙鳴辨識方法，其中，該特徵參數擷取步驟，係將該切割後之音節以離散傅立葉轉換為一頻域訊號，接著再利用一低通倒濾波器(Lifter)，將該頻域訊號轉換到倒頻譜上，並再進行一次離散傅立葉轉換，得到一頻譜特徵參數。

本發明之蛙鳴辨識方法，其中，該階層平均頻譜計算步驟之數學方程式為：其中，S _i (k) 為第i 個階層中頻率k 的平均能量，X _n (k) 代表第n 個音框頻率k 之能量值，L _i 為第i 個階層中音框的數目。

本發明之蛙鳴辨識方法，其中，該頻譜比較步驟之比較方式係以一歐基里德距離計算，數學方程式為：其中，d _j ⁱ 為第j 個音框對第i 個階層的距離，S _i (k) 為第i 個階層中頻率k 的平均能量，X _j (k) 代表第j 個音框頻率k 之能量值，N 為訊號總點數，且該音框頻率k 為離散值。

本發明之蛙鳴辨識方法，其中，該機率密度計算步驟之數學方程式為：其中，M 為傅立葉轉換點數，E(f _i ) 為頻率成分f _i 之頻譜能量，p _i ’ 為其對應之機率密度，β 為倍數值，u 為音框中整段訊號之平均能量點。

為讓本發明之上述及其他目的、特徵及優點能更明顯易懂，下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下：請參閱第1圖所示，本發明之蛙鳴辨識方法，係包含一音節切割步驟S1、一特徵參數擷取步驟S2、一辨識模組建立步驟S3及一音節比對步驟S4。

該音節切割步驟S1，係於一青蛙之聲音訊號在進行擷取一特徵參數之前，為了使該聲音訊號能夠更易於處理，以得到更正確之特徵參數，而對該聲音訊號所作之轉換與運算之處理。在本實施例中，該音節切割步驟S1之實施流程如第2圖所示，包含一資料前處理步驟S11、一訊號轉換步驟S12、一平均能量計算步驟S13、一機率密度計算步驟S14、一熵值運算步驟S14及一端點偵測步驟S15。

該資料前處理步驟S11，係使用習知之預強調(Pre-emphasis)、取音框(Frame)或加窗(Window)等動作。在本實施例中，係將數蛙鳴之聲音訊號進行一預強調之處理，將各該聲音訊號透過一高通濾波器(High Pass Filter)，以補償該聲音訊號從發聲到錄音接收的這段過程中，高頻部分因頻率增加而產生能量衰減的情形。由於該聲音訊號點與點之間的變化過於劇烈，為求穩定性，需將該聲音訊號作一音框切割處理，連續之數音框間通常會重疊若干部分，以保有時間內之該聲音訊號的特性，在本實施例中，該音框長度為512個取樣點，該音框間重疊256個取樣點。為了消除該音框兩旁端點之邊緣效應，係將該數音框加窗，使該聲音訊號之頻譜能量峰點較為明顯且圓滑。

該訊號轉換步驟S12，係將該聲音訊號由時域訊號轉換為頻域訊號，該轉換方式可利用習知之離散傅立葉轉換對該數音框進行處理，以獲取該數音框之頻譜能量，得到相對之數頻域訊號。

該平均能量計算步驟S13，係在該數音框之頻域訊號中進行一平均能量值之計算，以作為下一步驟之前置作業。其中，該平均能量計算之數學式表示如下：

其中，u 為音框中整段訊號之平均能量點，A(n) 為第n 的點的振幅值，N 為訊號總點數。

該機率密度計算步驟S14，係於該數音框之每一頻率加上數倍之平均能量值，並計算出不同之機率密度函數。該機率密度函數之數學式表示如下：

其中，M 為傅立葉轉換點數，E(f _i ) 為頻率成分f _i 之頻譜能量，p _i ’ 為其對應之機率密度，β 為倍數值，在本實施例中設定為10。

在該機率計算步驟S14中，加入數倍之平均能量值，係為了正確判斷各該音框之音節的正確起始點，以進行下一步驟之熵(entropy)值運算。由於熵值為一亂度值，在該數音框之無聲段時，其值相當不穩定，容易受到雜訊干擾而難以定義該邊界，導致無法正確判斷各該音框之音節起始端，故必須加入數倍之該平均能量值，使得該數音框之無聲段頻譜能量趨於該數倍之平均能量值，以利下一步驟熵值的運算。

該熵值運算步驟S15，係根據該各音框之機率密度函數，計算該數音框個別之負熵值，該數學式表示如下：

其中，H’ 為平均能量熵值。

該端點偵測步驟S16，係利用上一步驟所得到之該數音框之熵值，判斷出各該音框中音節的端點。在該端點偵測步驟S16中，係從該數音框中，找出各該音框之最大熵值及其位置，設為H _n (m) ，並由該H _n (m) 處依序讀取H _n (m +e)與H _n (m -s) 之熵值，其中，該e 與s 為一遞增值，並判斷H _n (m)/A 是否大於H _n (m +e) 與H _n (m -s) 。當H _n (m)/A 小於H _n (m +e) 與H _n (m -s) 時，該e 與s 繼續遞增值；當H _n (m)/A 大於H _n (m +e) 與H _n (m -s) 時，該e 與s 停止遞增，並記錄H _n (m +e) 與H _n (m -s) 為第n 個音節，再進行下一個音框之音節端點偵測。其中，A 為一常數值，在本實施例中設為10。

更詳言之，各該音框之熵值與音頻範圍可表示成一座標之型態，若縱座標表示為一熵值度數，橫座標表示為一音頻範圍，該端點偵測步驟S16由各該音框之縱座標找出最大熵值後，由該最大熵值處往該橫座標之二側移動並進行計算，當H _n (m)/A 小於H _n (m +e) 與H _n (m -s) 時，表示H _n (m +e) 與H _n (m -s) 處之熵值仍為一較大值，還在一有聲段內，當H _n (m)/A 大於H _n (m +e) 與H _n (m -s) 時，表示H _n (m +e) 與H _n (m -s) 處之熵值已趨於一較小值，可能已在一無聲段內，故當H _n (m)/A 等於H _n (m +e) 與H _n (m -s) 時，該音節之範圍便坐落於該H _n (m +e) 與H _n (m -s) 之間。

該特徵參數擷取步驟S2中，係根據切割後之音節，得到一音長特徵參數P1與一頻譜特徵參數P2。該音長特徵參數P1係根據切割後之音節，判斷各音節之鳴叫長度，並將各該鳴叫長度記錄為該音長特徵參數P1。由於該切割後的音節基本上仍屬於時域訊號，故先將該切割後之音節以習知之離散傅立葉轉換，轉換為一頻域訊號，且該頻域訊號為離散值，接著再利用習知之低通倒濾波器(Lifter)，將該頻域訊號轉換到倒頻譜上，並再進行一次離散傅立葉轉換，得到一頻譜特徵參數P2。

該辨識模組建立步驟S3，係將該數音長特徵參數P1及數頻譜特徵參數P2進行辨識模組的建立。在本實施例中，由於不同蛙類具有不同之音長特徵參數P1，故將該數音長特徵參數P1依照音長的不同進行分類，將類似長度之音長歸為同一群集，並建立一音長特徵資料庫，該分類之方法可為習知之任何分類方法，在此並不設限。

該辨識模組建立步驟S3，針對該頻譜特徵參數P2的辨識模組建立，包含一頻譜分割步驟S31、一階層分類步驟S32、一階層平均頻譜計算步驟S33、一頻譜比較步驟S34及一頻譜分配步驟S35。

該頻譜分割步驟S31，係將該頻譜特徵參數P2中之連續性的音節頻譜切割成數音框，在本實施例中，該切割後形成7個音框。

該階層分類步驟S32，係將該數音框歸類至數階層，且同一階層中之數音框具有較高之相關性。在本實施例中，該階層設為3，並將音框11至音框17分別歸類至該階層21至階層23中。其中，在第一次歸類時，該音框11至音框17依照時間關係先後歸類至該階層21至階層23中。

該階層平均頻譜計算步驟S33，係將各階層之數音框的頻譜取平均值，該取平均值之數學式如下：

其中，S _i (k) 為第i 個階層中頻率k 的平均能量，X _n (k) 代表第n 個音框頻率k 之能量值，L _i 為第i 個階層中音框的數目。

該頻譜比較步驟S34，係將該數音框1與該數階層2之平均頻譜進行比較，以得知該數音框1與該數階層2之平均頻譜的差異度。該比較方式可以是習知任何比較法則，在本實施例中，係以一歐基里德距離(Euclidian Distance)計算，該數學式如下：

其中，該d _j ⁱ 為第j 個音框對第i 個階層的距離，且該音框頻率k 為離散值。

該頻譜分配步驟S35，係根據數音框與數階層之平均頻譜之差距進行音框的分配，將該數音框分配至相對具有較小能量差之該階層，當該數音框產生階層之變動時，便回到該平均頻譜計算步驟S13，當該數音框不再產生階層變動時，便完成該頻譜特徵參數P2之一頻譜特徵資料庫之建立，完成該辨識模組建立步驟S3。

更詳言之，為使該頻譜特徵參數P2之特徵資料庫建立方式更佳清楚，以下係以一流程分解圖說明。請參閱第4a至4d圖所示，第4a圖係為該頻譜特徵參數P2與音框1之示意圖，在該頻譜分割步驟S31中，該頻譜特徵參數P2在本實施例被切割為七等分，形成音框11至音框17，該音框11至音框17間彼此具有一時間之連續性，換言之，相鄰之兩音框間具有較高的相關度。

如第4b圖所示，在該階層分類步驟S32中，係將該音框11至音框17分成數階層2，在本實施例中，假設該階層2數定義為三，故該音框11至音框17可隨意被分類至該階層21至階層23內，其中，該同一階層2之音框1較佳具有高度相關性，如本實施例中，將該音框11至音框13分類至該階層21，該音框14至音框15分類至該階層22，該音框16至音框17分類至該階層23，完成該階層分類步驟S32。

在該階層平均頻譜計算步驟S33中，如第4c圖所示，將該階層21之音框11至音框13以一數學式計算出一第一階層平均頻譜31，同理，由該階層22之音框14至音框15得到一第二階層平均頻譜32，及該階層23之音框16至音框17得到一第二階層平均頻譜33。

在該頻譜比較步驟S34中，係將該數音框1分別與各數階層平均頻譜3進行計算比對，以得到各該數音框1與各數階層平均頻譜3之差異度。換言之，在本實施例中，由於該階層2數為三，具有三階層平均頻譜3，故各該數音框皆需進行三次比對，求得該音框11至音框17與階層平均頻譜31至階層平均頻譜33個別之差異度。

在該頻譜分配步驟S35中，係將該數音框1分配至具有較小差異之該階層2內。如第4d圖所示，在本實施例中，該音框16與各數階層平均頻譜3相比後，該音框16與該第二階層平均頻譜具有較小之差異度，故在該頻譜分配步驟S35中，將該音框16分配至該第二階層22內，完成該頻譜分配步驟S35。接著，便回到該階層平均頻譜計算步驟S33，重新計算各該階層之平均頻譜，並再進行該頻譜比較步驟S34，當回到該頻譜分配步驟S35後，假設在該頻譜分配步驟S35下，該音框11至音框17之階層2以不再變動，表示該頻譜特徵參數P2之頻譜特徵資料庫架設完成。

該音節比對步驟S4，係將一待測聲音訊號進行上述之該音節切割步驟S1與特徵參數擷取步驟S2，再進行一音長辨識及頻譜辨識。

在本實施例中，由於該辨識模組建立步驟S3之該音長特徵資料庫與頻譜特徵資料庫建立之前，同樣也經過該音節切割步驟S1與特徵參數擷取步驟S2，故該待測聲音訊號經過上述二步驟後，也會得到相同資料格式之音長特徵參數P1與一頻譜特徵參數P2。此外，在該辨識模組建立步驟S3中，建立了該音長特徵資料庫與頻譜特徵資料庫，故該待測聲音訊號之音長特徵參數P1與一頻譜特徵參數P2可進入該二資料庫進行比對與辨識。該比對順序在此並不設限，較佳可先進行音長比對，以找出與該待測聲音訊號類似音長之蛙類，若仍無法確定是何種蛙類，可再進行頻譜比對，如本實施例中，將該待測聲音訊號之頻譜特徵參數P2利用數學式(5)，計算該待測聲音訊號之音框頻譜與頻譜特徵資料庫中之頻譜資料之差異度，並從該頻譜特徵資料庫找出該差異度最小之頻譜資料，該比較方式可以是如頻譜資料庫中分成數階層彼此相比，或是整個完整的頻譜特徵參數相比，在此並不設限。再將該差異度最小之頻譜資料輸出，成為最終之辨識結果。

本發明之蛙鳴辨識方法，具有音長判斷與頻譜判斷，可增加判斷之準確度，具有提升蛙鳴辨識之功效。

雖然本發明已利用上述較佳實施例揭示，然其並非用以限定本發明，任何熟習此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

〔本發明〕

1‧‧‧數音框

11至17‧‧‧音框

2‧‧‧數階層

21至23‧‧‧階層

3‧‧‧數階層平均頻譜

31至33‧‧‧階層平均頻譜

P1‧‧‧音長特徵參數

P2‧‧‧頻譜特徵參數

第1圖：本發明蛙鳴辨識方法流程圖。

第2圖：本發明音節切割步驟流程圖。

第3圖：本發明辨識模組建立步驟流程圖。

第4a圖：本發明辨識模組建立步驟示意圖。

第4b圖：本發明辨識模組建立步驟示意圖。

第4c圖：本發明辨識模組建立步驟示意圖。

第4d圖：本發明辨識模組建立步驟示意圖。

Claims

一種蛙鳴辨識方法，係包含：一音節切割步驟，係判斷蛙鳴之一聲音訊號之音節端點，並將該聲音訊號由該端點切割為數音節；一特徵參數擷取步驟，係根據切割後之數音節，得到一音長特徵參數與一頻譜特徵參數；一辨識模組建立步驟，係將該數音長特徵參數及數頻譜特徵參數，建立一音長特徵資料庫及一頻譜特徵資料庫，該音長特徵資料庫係以音長作為標準建立之依據，該頻譜特徵資料庫之建立步驟為：(a)一頻譜分割步驟，係將該頻譜特徵參數中之連續性的音節頻譜切割成連續之數音框；(b)一階層分類步驟，係將該數音框歸類至數階層，且同一階層中之數音框具有連續性；(C)一階層平均頻譜計算步驟，係將各階層之數音框的頻譜取平均值；(d)一頻譜比較步驟，係將該數音框與該數階層之平均頻譜進行比較，以得知該數音框與該數階層之平均頻譜的差異度；(e)一頻譜分配步驟，係根據數音框與數階層之平均頻譜之差距進行音框的重新分配，將該數音框分配至相對具有較小差距之該階層，當該數音框產生階層之變動時，便回到該平均頻譜計算步驟，當該數音框不再產生階層變動時，便完成該頻譜特徵資料庫建立步驟；及一音節比對步驟，係將一待測聲音訊號進行該音節切割步驟與特徵參數擷取步驟，取得該音長特徵參數及頻譜特徵參數，再與該音長特徵資料庫及頻譜特徵資料庫之音長特徵參數及頻譜特徵參數進行辨識，輸出一辨識資料。
依申請專利範圍第1項所述之蛙鳴辨識方法，其中，該音節切割步驟係包含：一資料前處理步驟，係對該聲音訊號使用一預強調、取音框及加窗之動作；一訊號轉換步驟，係將該聲音訊號之音框由時域訊號轉換為頻域訊號；一平均能量計算步驟，係在該數音框之頻域訊號中進行一平均能量值之計算；一機率密度計算步驟，係於該數音框之每一頻率加上數倍之平均能量值，並計算出各該音框之機率密度函數；一熵值運算步驟，係根據該各音框之機率密度函數，計算該數音框個別之負熵值；及一端點偵測步驟，係利用該數音框之負熵值，判斷出各該音框中音節的端點。
依申請專利範圍第1項所述之蛙鳴辨識方法，其中，該特徵參數擷取步驟，係將該切割後之音節以離散傅立葉轉換為一頻域訊號，接著再利用一低通倒濾波器(Lifter)，將該頻域訊號轉換到倒頻譜上，並再進行一次離散傅立葉轉換，得到一頻譜特徵參數。
依申請專利範圍第1項所述之蛙鳴辨識方法，其中，該階層平均頻譜計算步驟之數學方程式為：其中，S _i (k) 為第i 個階層中頻率k 的平均能量，X _n (k) 代表第n 個音框頻率k 之能量值，L _i 為第i 個階層中音框的數目。
依申請專利範圍第1項所述之蛙鳴辨識方法，其中，該頻譜比較步驟之比較方式係以一歐基里德距離計算，數學方程式為：其中，d _j ⁱ 為第j 個音框對第i 個階層的距離，S _i (k) 為第i 個階層中頻率k 的平均能量，X _j (k) 代表第j 個音框頻率k 之能量值，N 為訊號總點數，且該音框頻率k 為離散值。
依申請專利範圍第2項所述之蛙鳴辨識方法，其中，該機率密度計算步驟之數學方程式為：其中，M 為傅立葉轉換點數，E(f _i ) 為頻率成分f _i 之頻譜能量，p _i ’ 為其對應之機率密度，β 為倍數值，u 為音框中整段訊號之平均能量點。