TWI460717B - 蛙鳴辨識方法 - Google Patents

蛙鳴辨識方法 Download PDF

Info

Publication number
TWI460717B
TWI460717B TW100128077A TW100128077A TWI460717B TW I460717 B TWI460717 B TW I460717B TW 100128077 A TW100128077 A TW 100128077A TW 100128077 A TW100128077 A TW 100128077A TW I460717 B TWI460717 B TW I460717B
Authority
TW
Taiwan
Prior art keywords
sound
spectrum
average
sound box
frequency
Prior art date
Application number
TW100128077A
Other languages
English (en)
Other versions
TW201308315A (zh
Inventor
Wen Ping Chen
Ya Zhong Chen
Wen Chih Lin
Song Shyong Chen
Cheng Chung Chang
Original Assignee
Univ Nat Kaohsiung Applied Sci
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Kaohsiung Applied Sci filed Critical Univ Nat Kaohsiung Applied Sci
Priority to TW100128077A priority Critical patent/TWI460717B/zh
Publication of TW201308315A publication Critical patent/TW201308315A/zh
Application granted granted Critical
Publication of TWI460717B publication Critical patent/TWI460717B/zh

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

蛙鳴辨識方法
本發明係關於一種聲音辨識方法,尤其是一種蛙鳴之辨識方法。
不同生物發音時皆具有不同的聲紋,該發音之聲紋可使用類比數位轉換方式,表示為一音頻,該音頻會隨著時間作不規則的變化,且不同發音之音頻,彼此也具有相異之動態變化。為了判斷該聲音係由何種生物發出,必須將採集到之音頻,與辨識系統內建之音頻樣本進行比對,以判斷發聲之物種為何種生物,然而,聲音音頻的蒐集容易受到雜訊的干擾,當面臨相似聲音之音頻時,也具有辨識困難的問題。
根據H. Tyagi等學者於2006年之發表於Proceedings of the Thirteenth European Signal Processing Conference之論文Automatic identification of bird calls using spectral ensemble average voice prints中,揭示一種動物聲紋辨識之研究,該聲紋之擷取是根據每個音框個別的音頻,求取整體頻率的平均值,辨識15種鳥類的音頻。然而,因為某些物種之音頻變化是非固定的,求取整體的平均頻譜會遺失時間與頻率的相對關係。
此外,該論文之音頻取樣方法結合一動態時軸扭曲法(Dynamic Time Warping,DTW),該動態時軸扭曲法是以音框為單位,將標準樣本與測試樣本作時軸上的校正,雖然該結合方式保留了時間上的訊息,但音框之單位時間範圍較短,會導致頻譜穩定性不足,進而影響該聲音之辨識效能。有鑑於此,為了提高辨識效果,必須要有一套更適宜的辨識方法。
本發明之主要目的係提供一種蛙鳴辨識方法,該辨識方法可提供較高之辨識率。
為達到前述發明目的,本發明所運用之技術手段包含有:一種蛙鳴辨識方法,係包含:一音節切割步驟,係判斷蛙鳴之一聲音訊號之音節端點,並將該聲音訊號由該端點切割為數音節;一特徵參數擷取步驟,係根據切割後之數音節,得到一音長特徵參數與一頻譜特徵參數;一辨識模組建立步驟,係將該數音長特徵參數及數頻譜特徵參數,建立一音長特徵資料庫及一頻譜特徵資料庫,該音長特徵資料庫係以音長作為標準建立之依據,該頻譜特徵資料庫之建立步驟為:(a)一頻譜分割步驟,係將該頻譜特徵參數中之連續性的音節頻譜切割成連續之數音框;(b)一階層分類步驟,係將該數音框歸類至數階層,且同一階層中之數音框具有連續性;(c)一階層平均頻譜計算步驟,係將各階層之數音框的頻譜取平均值;(d)一頻譜比較步驟,係將該數音框與該數階層之平均頻譜進行比較,以得知該數音框與該數階層之平均頻譜的差異度;(e)一頻譜分配步驟,係根據數音框與數階層之平均頻譜之差距進行音框的重新分配,將該數音框分配至相對具有較小差距之該階層,當該數音框產生階層之變動時,便回到該平均頻譜計算步驟,當該數音框不再產生階層變動時,便完成該頻譜特徵資料庫建立步驟;及一音節比對步驟,係將一待測聲音訊號進行該音節切割步驟與特徵參數擷取步驟,取得該音長特徵參數及頻譜特徵參數,再與該音長特徵資料庫及頻譜特徵資料庫之音長特徵參數及頻譜特徵參數進行辨識,輸出一辨識資料。
本發明之蛙鳴辨識方法,其中,該音節切割步驟係包含:一資料前處理步驟,係對該聲音訊號使用一預強調、取音框及加窗之動作;一訊號轉換步驟,係將該聲音訊號之音框由時域訊號轉換為頻域訊號;一平均能量計算步驟,係在該數音框之頻域訊號中進行一平均能量值之計算;一機率密度計算步驟,係於該數音框之每一頻率加上數倍之平均能量值,並計算出各該音框之機率密度函數;一熵值運算步驟,係根據該各音框之機率密度函數,計算該數音框個別之負熵值;及一端點偵測步驟,係利用該數音框之負熵值,判斷出各該音框中音節的端點。
本發明之蛙鳴辨識方法,其中,該特徵參數擷取步驟,係將該切割後之音節以離散傅立葉轉換為一頻域訊號,接著再利用一低通倒濾波器(Lifter),將該頻域訊號轉換到倒頻譜上,並再進行一次離散傅立葉轉換,得到一頻譜特徵參數。
本發明之蛙鳴辨識方法,其中,該階層平均頻譜計算步驟之數學方程式為: 其中,S i (k) 為第i 個階層中頻率k 的平均能量,X n (k) 代表第n 個音框頻率k 之能量值,L i 為第i 個階層中音框的數目。
本發明之蛙鳴辨識方法,其中,該頻譜比較步驟之比較方式係以一歐基里德距離計算,數學方程式為: 其中,d j i 為第j 個音框對第i 個階層的距離,S i (k) 為第i 個階層中頻率k 的平均能量,X j (k) 代表第j 個音框頻率k 之能量值,N 為訊號總點數,且該音框頻率k 為離散值。
本發明之蛙鳴辨識方法,其中,該機率密度計算步驟之數學方程式為: 其中,M 為傅立葉轉換點數,E(f i ) 為頻率成分f i 之頻譜能量,p i 為其對應之機率密度,β 為倍數值,u 為音框中整段訊號之平均能量點。
為讓本發明之上述及其他目的、特徵及優點能更明顯易懂,下文特舉本發明之較佳實施例,並配合所附圖式,作詳細說明如下: 請參閱第1圖所示,本發明之蛙鳴辨識方法,係包含一音節切割步驟S1、一特徵參數擷取步驟S2、一辨識模組建立步驟S3及一音節比對步驟S4。
該音節切割步驟S1,係於一青蛙之聲音訊號在進行擷取一特徵參數之前,為了使該聲音訊號能夠更易於處理,以得到更正確之特徵參數,而對該聲音訊號所作之轉換與運算之處理。在本實施例中,該音節切割步驟S1之實施流程如第2圖所示,包含一資料前處理步驟S11、一訊號轉換步驟S12、一平均能量計算步驟S13、一機率密度計算步驟S14、一熵值運算步驟S14及一端點偵測步驟S15。
該資料前處理步驟S11,係使用習知之預強調(Pre-emphasis)、取音框(Frame)或加窗(Window)等動作。在本實施例中,係將數蛙鳴之聲音訊號進行一預強調之處理,將各該聲音訊號透過一高通濾波器(High Pass Filter),以補償該聲音訊號從發聲到錄音接收的這段過程中,高頻部分因頻率增加而產生能量衰減的情形。由於該聲音訊號點與點之間的變化過於劇烈,為求穩定性,需將該聲音訊號作一音框切割處理,連續之數音框間通常會重疊若干部分,以保有時間內之該聲音訊號的特性,在本實施例中,該音框長度為512個取樣點,該音框間重疊256個取樣點。為了消除該音框兩旁端點之邊緣效應,係將該數音框加窗,使該聲音訊號之頻譜能量峰點較為明顯且圓滑。
該訊號轉換步驟S12,係將該聲音訊號由時域訊號轉換為頻域訊號,該轉換方式可利用習知之離散傅立葉轉換 對該數音框進行處理,以獲取該數音框之頻譜能量,得到相對之數頻域訊號。
該平均能量計算步驟S13,係在該數音框之頻域訊號中進行一平均能量值之計算,以作為下一步驟之前置作業。其中,該平均能量計算之數學式表示如下:
其中,u 為音框中整段訊號之平均能量點,A(n) 為第n 的點的振幅值,N 為訊號總點數。
該機率密度計算步驟S14,係於該數音框之每一頻率加上數倍之平均能量值,並計算出不同之機率密度函數。該機率密度函數之數學式表示如下:
其中,M 為傅立葉轉換點數,E(f i ) 為頻率成分f i 之頻譜能量,p i 為其對應之機率密度,β 為倍數值,在本實施例中設定為10。
在該機率計算步驟S14中,加入數倍之平均能量值,係為了正確判斷各該音框之音節的正確起始點,以進行下一步驟之熵(entropy)值運算。由於熵值為一亂度值,在該數音框之無聲段時,其值相當不穩定,容易受到雜訊干擾而難以定義該邊界,導致無法正確判斷各該音框之音節起始端,故必須加入數倍之該平均能量值,使得該數音框之無聲段頻譜能量趨於該數倍之平均能量值,以利下一步驟熵值的運算。
該熵值運算步驟S15,係根據該各音框之機率密度函數,計算該數音框個別之負熵值,該數學式表示如下:
其中,H’ 為平均能量熵值。
該端點偵測步驟S16,係利用上一步驟所得到之該數音框之熵值,判斷出各該音框中音節的端點。在該端點偵測步驟S16中,係從該數音框中,找出各該音框之最大熵值及其位置,設為H n (m) ,並由該H n (m) 處依序讀取H n (m +e)與H n (m -s) 之熵值,其中,該es 為一遞增值,並判斷H n (m)/A 是否大於H n (m +e)H n (m -s) 。當H n (m)/A 小於H n (m +e)H n (m -s) 時,該es 繼續遞增值;當H n (m)/A 大於H n (m +e)H n (m -s) 時,該es 停止遞增,並記錄H n (m +e)H n (m -s) 為第n 個音節,再進行下一個音框之音節端點偵測。其中,A 為一常數值,在本實施例中設為10。
更詳言之,各該音框之熵值與音頻範圍可表示成一座標之型態,若縱座標表示為一熵值度數,橫座標表示為一音頻範圍,該端點偵測步驟S16由各該音框之縱座標找出最大熵值後,由該最大熵值處往該橫座標之二側移動並進行計算,當H n (m)/A 小於H n (m +e)H n (m -s) 時,表示H n (m +e)H n (m -s) 處之熵值仍為一較大值,還在一有聲段內,當H n (m)/A 大於H n (m +e)H n (m -s) 時,表示H n (m +e)H n (m -s) 處之熵值已趨於一較小值,可能已在一無聲段內,故當H n (m)/A 等於H n (m +e)H n (m -s) 時,該音節之範圍便坐落 於該H n (m +e)H n (m -s) 之間。
該特徵參數擷取步驟S2中,係根據切割後之音節,得到一音長特徵參數P1與一頻譜特徵參數P2。該音長特徵參數P1係根據切割後之音節,判斷各音節之鳴叫長度,並將各該鳴叫長度記錄為該音長特徵參數P1。由於該切割後的音節基本上仍屬於時域訊號,故先將該切割後之音節以習知之離散傅立葉轉換,轉換為一頻域訊號,且該頻域訊號為離散值,接著再利用習知之低通倒濾波器(Lifter),將該頻域訊號轉換到倒頻譜上,並再進行一次離散傅立葉轉換,得到一頻譜特徵參數P2。
該辨識模組建立步驟S3,係將該數音長特徵參數P1及數頻譜特徵參數P2進行辨識模組的建立。在本實施例中,由於不同蛙類具有不同之音長特徵參數P1,故將該數音長特徵參數P1依照音長的不同進行分類,將類似長度之音長歸為同一群集,並建立一音長特徵資料庫,該分類之方法可為習知之任何分類方法,在此並不設限。
該辨識模組建立步驟S3,針對該頻譜特徵參數P2的辨識模組建立,包含一頻譜分割步驟S31、一階層分類步驟S32、一階層平均頻譜計算步驟S33、一頻譜比較步驟S34及一頻譜分配步驟S35。
該頻譜分割步驟S31,係將該頻譜特徵參數P2中之連續性的音節頻譜切割成數音框,在本實施例中,該切割後形成7個音框。
該階層分類步驟S32,係將該數音框歸類至數階層,且同一階層中之數音框具有較高之相關性。在本實施例中 ,該階層設為3,並將音框11至音框17分別歸類至該階層21至階層23中。其中,在第一次歸類時,該音框11至音框17依照時間關係先後歸類至該階層21至階層23中。
該階層平均頻譜計算步驟S33,係將各階層之數音框的頻譜取平均值,該取平均值之數學式如下:
其中,S i (k) 為第i 個階層中頻率k 的平均能量,X n (k) 代表第n 個音框頻率k 之能量值,L i 為第i 個階層中音框的數目。
該頻譜比較步驟S34,係將該數音框1與該數階層2之平均頻譜進行比較,以得知該數音框1與該數階層2之平均頻譜的差異度。該比較方式可以是習知任何比較法則,在本實施例中,係以一歐基里德距離(Euclidian Distance)計算,該數學式如下:
其中,該d j i 為第j 個音框對第i 個階層的距離,且該音框頻率k 為離散值。
該頻譜分配步驟S35,係根據數音框與數階層之平均頻譜之差距進行音框的分配,將該數音框分配至相對具有較小能量差之該階層,當該數音框產生階層之變動時,便回到該平均頻譜計算步驟S13,當該數音框不再產生階層變動時,便完成該頻譜特徵參數P2之一頻譜特徵資料庫之建立,完成該辨識模組建立步驟S3。
更詳言之,為使該頻譜特徵參數P2之特徵資料庫建 立方式更佳清楚,以下係以一流程分解圖說明。請參閱第4a至4d圖所示,第4a圖係為該頻譜特徵參數P2與音框1之示意圖,在該頻譜分割步驟S31中,該頻譜特徵參數P2在本實施例被切割為七等分,形成音框11至音框17,該音框11至音框17間彼此具有一時間之連續性,換言之,相鄰之兩音框間具有較高的相關度。
如第4b圖所示,在該階層分類步驟S32中,係將該音框11至音框17分成數階層2,在本實施例中,假設該階層2數定義為三,故該音框11至音框17可隨意被分類至該階層21至階層23內,其中,該同一階層2之音框1較佳具有高度相關性,如本實施例中,將該音框11至音框13分類至該階層21,該音框14至音框15分類至該階層22,該音框16至音框17分類至該階層23,完成該階層分類步驟S32。
在該階層平均頻譜計算步驟S33中,如第4c圖所示,將該階層21之音框11至音框13以一數學式計算出一第一階層平均頻譜31,同理,由該階層22之音框14至音框15得到一第二階層平均頻譜32,及該階層23之音框16至音框17得到一第二階層平均頻譜33。
在該頻譜比較步驟S34中,係將該數音框1分別與各數階層平均頻譜3進行計算比對,以得到各該數音框1與各數階層平均頻譜3之差異度。換言之,在本實施例中,由於該階層2數為三,具有三階層平均頻譜3,故各該數音框皆需進行三次比對,求得該音框11至音框17與階層平均頻譜31至階層平均頻譜33個別之差異度。
在該頻譜分配步驟S35中,係將該數音框1分配至具有較小差異之該階層2內。如第4d圖所示,在本實施例中,該音框16與各數階層平均頻譜3相比後,該音框16與該第二階層平均頻譜具有較小之差異度,故在該頻譜分配步驟S35中,將該音框16分配至該第二階層22內,完成該頻譜分配步驟S35。接著,便回到該階層平均頻譜計算步驟S33,重新計算各該階層之平均頻譜,並再進行該頻譜比較步驟S34,當回到該頻譜分配步驟S35後,假設在該頻譜分配步驟S35下,該音框11至音框17之階層2以不再變動,表示該頻譜特徵參數P2之頻譜特徵資料庫架設完成。
該音節比對步驟S4,係將一待測聲音訊號進行上述之該音節切割步驟S1與特徵參數擷取步驟S2,再進行一音長辨識及頻譜辨識。
在本實施例中,由於該辨識模組建立步驟S3之該音長特徵資料庫與頻譜特徵資料庫建立之前,同樣也經過該音節切割步驟S1與特徵參數擷取步驟S2,故該待測聲音訊號經過上述二步驟後,也會得到相同資料格式之音長特徵參數P1與一頻譜特徵參數P2。此外,在該辨識模組建立步驟S3中,建立了該音長特徵資料庫與頻譜特徵資料庫,故該待測聲音訊號之音長特徵參數P1與一頻譜特徵參數P2可進入該二資料庫進行比對與辨識。該比對順序在此並不設限,較佳可先進行音長比對,以找出與該待測聲音訊號類似音長之蛙類,若仍無法確定是何種蛙類,可再進行頻譜比對,如本實施例中,將該待測聲音訊號之頻譜特徵 參數P2利用數學式(5),計算該待測聲音訊號之音框頻譜與頻譜特徵資料庫中之頻譜資料之差異度,並從該頻譜特徵資料庫找出該差異度最小之頻譜資料,該比較方式可以是如頻譜資料庫中分成數階層彼此相比,或是整個完整的頻譜特徵參數相比,在此並不設限。再將該差異度最小之頻譜資料輸出,成為最終之辨識結果。
本發明之蛙鳴辨識方法,具有音長判斷與頻譜判斷,可增加判斷之準確度,具有提升蛙鳴辨識之功效。
雖然本發明已利用上述較佳實施例揭示,然其並非用以限定本發明,任何熟習此技藝者在不脫離本發明之精神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
〔本發明〕
1‧‧‧數音框
11至17‧‧‧音框
2‧‧‧數階層
21至23‧‧‧階層
3‧‧‧數階層平均頻譜
31至33‧‧‧階層平均頻譜
P1‧‧‧音長特徵參數
P2‧‧‧頻譜特徵參數
第1圖:本發明蛙鳴辨識方法流程圖。
第2圖:本發明音節切割步驟流程圖。
第3圖:本發明辨識模組建立步驟流程圖。
第4a圖:本發明辨識模組建立步驟示意圖。
第4b圖:本發明辨識模組建立步驟示意圖。
第4c圖:本發明辨識模組建立步驟示意圖。
第4d圖:本發明辨識模組建立步驟示意圖。

Claims (6)

  1. 一種蛙鳴辨識方法,係包含:一音節切割步驟,係判斷蛙鳴之一聲音訊號之音節端點,並將該聲音訊號由該端點切割為數音節;一特徵參數擷取步驟,係根據切割後之數音節,得到一音長特徵參數與一頻譜特徵參數;一辨識模組建立步驟,係將該數音長特徵參數及數頻譜特徵參數,建立一音長特徵資料庫及一頻譜特徵資料庫,該音長特徵資料庫係以音長作為標準建立之依據,該頻譜特徵資料庫之建立步驟為:(a)一頻譜分割步驟,係將該頻譜特徵參數中之連續性的音節頻譜切割成連續之數音框;(b)一階層分類步驟,係將該數音框歸類至數階層,且同一階層中之數音框具有連續性;(C)一階層平均頻譜計算步驟,係將各階層之數音框的頻譜取平均值;(d)一頻譜比較步驟,係將該數音框與該數階層之平均頻譜進行比較,以得知該數音框與該數階層之平均頻譜的差異度;(e)一頻譜分配步驟,係根據數音框與數階層之平均頻譜之差距進行音框的重新分配,將該數音框分配至相對具有較小差距之該階層,當該數音框產生階層之變動時,便回到該平均頻譜計算步驟,當該數音框不再產生階層變動時,便完成該頻譜特徵資料庫建立步驟;及 一音節比對步驟,係將一待測聲音訊號進行該音節切割步驟與特徵參數擷取步驟,取得該音長特徵參數及頻譜特徵參數,再與該音長特徵資料庫及頻譜特徵資料庫之音長特徵參數及頻譜特徵參數進行辨識,輸出一辨識資料。
  2. 依申請專利範圍第1項所述之蛙鳴辨識方法,其中,該音節切割步驟係包含:一資料前處理步驟,係對該聲音訊號使用一預強調、取音框及加窗之動作;一訊號轉換步驟,係將該聲音訊號之音框由時域訊號轉換為頻域訊號;一平均能量計算步驟,係在該數音框之頻域訊號中進行一平均能量值之計算;一機率密度計算步驟,係於該數音框之每一頻率加上數倍之平均能量值,並計算出各該音框之機率密度函數;一熵值運算步驟,係根據該各音框之機率密度函數,計算該數音框個別之負熵值;及一端點偵測步驟,係利用該數音框之負熵值,判斷出各該音框中音節的端點。
  3. 依申請專利範圍第1項所述之蛙鳴辨識方法,其中,該特徵參數擷取步驟,係將該切割後之音節以離散傅立葉轉換為一頻域訊號,接著再利用一低通倒濾波器(Lifter),將該頻域訊號轉換到倒頻譜上,並再進行一次離散傅立葉轉換,得到一頻譜特徵參數。
  4. 依申請專利範圍第1項所述之蛙鳴辨識方法,其中,該 階層平均頻譜計算步驟之數學方程式為: 其中,S i (k) 為第i 個階層中頻率k 的平均能量,X n (k) 代表第n 個音框頻率k 之能量值,L i 為第i 個階層中音框的數目。
  5. 依申請專利範圍第1項所述之蛙鳴辨識方法,其中,該頻譜比較步驟之比較方式係以一歐基里德距離計算,數學方程式為: 其中,d j i 為第j 個音框對第i 個階層的距離,S i (k) 為第i 個階層中頻率k 的平均能量,X j (k) 代表第j 個音框頻率k 之能量值,N 為訊號總點數,且該音框頻率k 為離散值。
  6. 依申請專利範圍第2項所述之蛙鳴辨識方法,其中,該機率密度計算步驟之數學方程式為: 其中,M 為傅立葉轉換點數,E(f i ) 為頻率成分f i 之頻譜能量,p i 為其對應之機率密度,β 為倍數值,u 為音框中整段訊號之平均能量點。
TW100128077A 2011-08-05 2011-08-05 蛙鳴辨識方法 TWI460717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW100128077A TWI460717B (zh) 2011-08-05 2011-08-05 蛙鳴辨識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100128077A TWI460717B (zh) 2011-08-05 2011-08-05 蛙鳴辨識方法

Publications (2)

Publication Number Publication Date
TW201308315A TW201308315A (zh) 2013-02-16
TWI460717B true TWI460717B (zh) 2014-11-11

Family

ID=48169890

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100128077A TWI460717B (zh) 2011-08-05 2011-08-05 蛙鳴辨識方法

Country Status (1)

Country Link
TW (1) TWI460717B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117190A (en) * 2009-11-12 2011-05-16 Nat Cheng Kong University Sound recognition for frog vocalizations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117190A (en) * 2009-11-12 2011-05-16 Nat Cheng Kong University Sound recognition for frog vocalizations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黃仁壯 ,"生物聲紋自動辨識", 中華大學資訊工程學系碩士班碩士論文 , 2004.09 *

Also Published As

Publication number Publication date
TW201308315A (zh) 2013-02-16

Similar Documents

Publication Publication Date Title
JP3744934B2 (ja) 音響区間検出方法および装置
Almajai et al. Visually derived wiener filters for speech enhancement
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
US8036884B2 (en) Identification of the presence of speech in digital audio data
US9093056B2 (en) Audio separation system and method
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
CN105118502A (zh) 语音识别系统的端点检测方法及系统
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
US8762147B2 (en) Consonant-segment detection apparatus and consonant-segment detection method
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
RU2712652C1 (ru) Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
US20090089051A1 (en) Vocal fry detecting apparatus
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
CN114694640A (zh) 基于音频频谱图的异常声音提取识别方法及装置
Xie et al. Detection of anuran calling activity in long field recordings for bio-acoustic monitoring
TWI460717B (zh) 蛙鳴辨識方法
Sorokin et al. Gender recognition from vocal source
Kotnik et al. Noise robust F0 determination and epoch-marking algorithms
Abdolali et al. A novel method for speech segmentation based on speakers' characteristics
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms
JP5272141B2 (ja) 音声処理装置およびプログラム
CN112735386B (zh) 一种基于声门波信息的语音识别方法
Glover et al. Real-time segmentation of the temporal evolution of musical sounds

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees