TW202103148A - 隨選聲音片段偵測方法 - Google Patents

隨選聲音片段偵測方法 Download PDF

Info

Publication number
TW202103148A
TW202103148A TW108124127A TW108124127A TW202103148A TW 202103148 A TW202103148 A TW 202103148A TW 108124127 A TW108124127 A TW 108124127A TW 108124127 A TW108124127 A TW 108124127A TW 202103148 A TW202103148 A TW 202103148A
Authority
TW
Taiwan
Prior art keywords
sound
peak
template
regional
sound signal
Prior art date
Application number
TW108124127A
Other languages
English (en)
Other versions
TWI716029B (zh
Inventor
林至善
Original Assignee
佑華微電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 佑華微電子股份有限公司 filed Critical 佑華微電子股份有限公司
Priority to TW108124127A priority Critical patent/TWI716029B/zh
Application granted granted Critical
Publication of TWI716029B publication Critical patent/TWI716029B/zh
Publication of TW202103148A publication Critical patent/TW202103148A/zh

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本揭露提供一種隨選聲音片段偵測方法,包含:將至少一選定聲音片段輸入一模板生成模組以產生一模板庫;以及,將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果;其中,該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段。本方法可突破現有語音辨識技術的限制,能夠以任何聲音片段,包含語音或非語音,作為使用者與電子產品,或電子產品與電子產品之間的溝通媒介,其應用層面更加廣泛。

Description

隨選聲音片段偵測方法
本發明係有關一種隨選聲音片段偵測方法。
由於智慧電子產品的日益普及,越來越多的電子產品也加入語音辨識技術以提昇人機介面的方便性,因此,除了電腦、手機外,越來越多的家電用品、汽車、甚至電子玩具也都能接受語音指令,並且執行相對地計算或作動。近年來的智慧音箱更是箇中翹楚,在市場上日益獲得青睞。然而,目前市場上的聲音指令,往往只限於語音,換言之,即透過人類的語言來控制電子產品的運作。在更多的應用上,若是能突破現有語音辨識技術的限制,能夠以任何聲音片段,包含語音或非語音,作為使用者與電子產品,或電子產品與電子產品之間的溝通媒介,則其應用層面將更加廣泛。
本發明之實施例揭露一種隨選聲音片段偵測方法,包含下列步驟:生成模板步驟,係將至少一選定聲音片段輸入一模板生成模組以產生一模板庫,該模板庫包含至少一模板,每個模板對應一選定聲音片段;以及,音訊偵測步驟,係將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果;其中,該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段;其中,該生成模板步驟更包括:將該至少一選定聲音片段輸入至一特徵萃取單元,以產生該選定聲音片段的特徵值組;以及,將該選定聲音片段的特徵值組輸入一模板建立單元,以產生一模板對應於該選定聲音片段,所有模板構成該模板庫;該音訊偵測步驟更包含:將該待測聲音訊號輸入至一特徵萃取單元,以產生該待測聲音訊號的特徵值組;將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元,以產生一吻合度表;以及,將該吻合度表輸入至一最終判斷單元,以決定是否觸發。
在一較佳實施例中,該最終判斷單元係將該待測聲音訊號與該模板庫中每一模板的吻合度減去該模板的一觸發門檻值,取其差值最大者且為正值者判斷為觸發的選定聲音片段;若其最大差值為負值,則判斷無觸發;其中,每一模板的觸發門檻值為互相獨立而且可調整。
在一較佳實施例中,該特徵萃取單元係執行下列等步驟,包含: 將一聲音訊號輸入至一頻譜生成單元,以產生一個二維能量頻譜;以及,將該二維能量頻譜輸入至一區域峰值萃取單元,以產生一區域峰值組。
在一較佳實施例中,該模板建立單元係執行下列等步驟,包含:將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元,以產生一對應於該選定聲音片段之區域峰值組位元陣列;將該選定聲音片段之區域峰值組輸入至一區域峰值計數器,以得到該選定聲音片段之區域峰值數;該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板。
在一較佳實施例中,該區域峰值組簡化單元係執行下列等步驟,包含:產生一個二維位元陣列,其長度與寬度皆與該二維能量頻譜相同;將該二維位元陣列上,與區域峰值組中之各區域峰值所在座標相同座標的位元設為1,其餘座標的位元設為0;所得之二維位元陣列即為該區域峰值組位元陣列。
在一較佳實施例中,該模板比對單元係執行下列等步驟,包含:在該待測聲音訊號之區域峰值組中,將一個區域峰值選為候選吻合峰值;以該候選吻合峰值為參考點,與一模板之區域峰值組位元陣列進行峰值吻合比對;若被判斷為吻合,則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數,反之,則標示為其他,且不予納入計數;重複上述步驟,直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止;計算該待測聲音訊號的區域峰值組與該模板的吻合度,至此完成計算該待測聲音訊號與一模板的吻合度;清除該待測聲音訊號之區域峰值組的標示,並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止,即獲得該吻合度表。
在一較佳實施例中,該峰值吻合比對係指在一模板的區域峰值組位元陣列上,以該候選吻合峰值之座標為參考點,若在一特定搜尋範圍內搜尋到位元值為1,則將該候選吻合峰值判斷為吻合,並將該位元設為0,以避免重複吻合;其中該特定搜尋範圍係指以該候選吻合峰值為中心的一矩形。
在一較佳實施例中,該吻合度計算係指計算該待測聲音訊號之區域峰值組與一模板的吻合峰值數佔該模板之區域峰值數的比例。
在一較佳實施例中,該頻譜生成單元係執行下列等步驟,包含:將一聲音訊號進行音框化,以產生至少一音框化聲音訊號;將每個音框化聲音訊號加窗,產生一加窗音框化聲音訊號;將每個加窗音框化聲音訊號透過時頻轉換,產生一個二維頻譜;將該二維頻譜透過頻譜能量計算,產生一個二維能量頻譜;其中,音框化後,相鄰音框間會有部分重疊;加窗時所用之窗函數係為一漢寧窗;在時頻轉換時,所用之轉換函數為實數快速傅立葉轉換;在頻譜能量計算時,所用之計算方式為絕對值函數。
在一較佳實施例中,該區域峰值萃取單元係執行下列等步驟,包含:在該二維能量頻譜上的一特定頻帶內,選定一個頻點為候選峰值;以該候選峰值為參考點,進行區域能量比較;若該候選峰值被判斷為勝出,則將其標示為區域峰值,反之,則標示為其他;重複以上步驟,直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止;此時,所有區域峰值的集合即構成該區域峰值組;其中,該區域能量比較係指若該候選峰值之能量大於一特定範圍內所有其他頻點的能量,則將該候選峰值判斷為勝出;其中,該特定範圍係指以該候選峰值為中心的一矩形。
以下藉由特定的具體實施例說明本發明之實施方式,熟悉此技術之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。本發明亦可藉由其他不同的具體實例加以施行或應用,本發明說明書中的各項細節亦可基於不同觀點與應用在不悖離本發明之精神下進行各種修飾與變更。
其中,本說明書所附圖式繪示之結構、比例、大小等,均僅用以配合說明書所揭示之內容,以供熟悉此技術之人士瞭解與閱讀,並非用以限定本發明可實施之限定條件,故不具技術上之實質意義,任何結構之修飾、比例關之改變或大小之調整,在不影響本發明所能產生之功效及所能達成之目的下,均應落在本發明所揭示之技術內容得能涵蓋之範圍內。
如圖1所示,本發明之實施例揭露一種隨選聲音片段偵測方法,包含下列步驟:生成模板步驟100,係將至少一選定聲音片段輸入一模板生成模組以產生一模板庫;以及,音訊偵測步驟200,係將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果;其中,該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段;其中,該生成模板步驟100更包括:將該至少一選定聲音片段輸入至一特徵萃取單元,以產生該選定聲音片段的特徵值組(步驟110);以及,將該選定聲音片段的特徵值組輸入一模板建立單元,以產生一模板對應於該選定聲音片段,所有模板構成該模板庫(步驟120);該音訊偵測步驟200更包含:將該待測聲音訊號輸入至一特徵萃取單元,以產生該待測聲音訊號的特徵值組(步驟210);將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元,以產生一吻合度表(步驟220);以及,將該吻合度表輸入至一最終判斷單元,以決定是否觸發(步驟230)。
值得說明的是,該模板庫包含至少一模板,每個模板係對應於一選定聲音片段;換言之,一個選定聲音片段相對應地產生一模板。因此,該最終判斷單元係將該待測聲音訊號與該模板庫中每一模板的吻合度減去該模板的一觸發門檻值,取其差值最大者且為正值者判斷為觸發的選定聲音片段;若其最大差值為負值,則判斷無觸發;其中,每一模板的觸發門檻值為互相獨立而且可調整。
圖2為本發明之隨選聲音片段偵測方法中對於聲音訊號的特徵萃取的流程示意圖;如圖2所示,該特徵萃取單元係執行下列等步驟,包含: 將一聲音訊號輸入至一頻譜生成單元,以產生一個二維能量頻譜(步驟110a);以及,將該二維能量頻譜輸入至一區域峰值萃取單元,以產生一區域峰值組(步驟110b)。
圖3為本發明之隨選聲音片段偵測方法中建立模板的流程示意圖;如圖3所示,該模板建立單元係執行下列等步驟,包含:將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元,以產生一對應於該選定聲音片段之區域峰值組位元陣列(步驟120a);將該選定聲音片段之區域峰值組輸入至一區域峰值計數器,以得到該選定聲音片段之區域峰值數(步驟120b);該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板(步驟120c)。
圖4為本發明之隨選聲音片段偵測方法中區域峰值組簡化的流程示意圖;如圖4所示,該區域峰值組簡化單元係執行下列等步驟,包含:產生一個二維位元陣列,其長度與寬度皆與該二維能量頻譜相同(步驟120a-1);將該二維位元陣列上,與區域峰值組中之各區域峰值所在座標相同座標的位元設為1,其餘座標的位元設為0(步驟120a-2);所得之二維位元陣列即為該區域峰值組位元陣列。
值得說明的是,前述步驟210中將該待測聲音訊號萃取特徵值組的流程與圖2中的將該選定聲音片段萃取特徵值組的流程一致,在此不再贅述。
圖5為本發明之隨選聲音片段偵測方法中模板比對的流程示意圖;如圖5所示,該模板比對單元係執行下列等步驟,包含:在該待測聲音訊號之區域峰值組中,將一個區域峰值選為候選吻合峰值(步驟220a);以該候選吻合峰值為參考點,與一模板之區域峰值組位元陣列進行峰值吻合比對(步驟220b);若被判斷為吻合,則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數(步驟220c),反之,則標示為其他,且不予納入計數;重複上述步驟,直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止(步驟220d);計算該待測聲音訊號的區域峰值組與該模板的吻合度,至此完成計算該待測聲音訊號與一模板的吻合度(步驟220e);清除該待測聲音訊號之區域峰值組的標示,並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止,即獲得該吻合度表(步驟220f)。
值得說明的是,該峰值吻合比對係指在一模板的區域峰值組位元陣列上,以該候選吻合峰值之座標為參考點,若在一特定搜尋範圍內搜尋到位元值為1,則將該候選吻合峰值判斷為吻合,並將該位元設為0,以避免重複吻合;其中該特定搜尋範圍係指以該候選吻合峰值為中心的一矩形。
在一較佳實施例中,該吻合度計算係指計算該待測聲音訊號之區域峰值組與一模板的吻合峰值數佔該模板之區域峰值數的比例。
承前所述,圖6為本發明之隨選聲音片段偵測方法中產生二維能量頻譜的流程示意圖;如圖6所示,該頻譜生成單元係執行下列等步驟,包含:將一聲音訊號進行音框化,以產生至少一音框化聲音訊號(步驟110a-1);將每個音框化聲音訊號加窗,產生一加窗音框化聲音訊號(步驟110a-2);將每個加窗音框化聲音訊號透過時頻轉換,產生一個二維頻譜(步驟110a-3);將該二維頻譜透過頻譜能量計算,產生一個二維能量頻譜(步驟110a-4)。
值得說明的是,所謂音框(frame)係先將 N 個取樣點集合成一個觀測單位,稱為音框,通常 N 的值是 256 或 512,涵蓋的時間約為 20~30 ms 左右。為了避免相鄰兩音框的變化過大,通常會讓兩相鄰音框之間有一段重疊區域。值得說明的是,上述之N值、涵蓋的時間長度、以及音框之間是否重疊皆只是習知用來說明本發明之實施例,但在實際應用時並不限於此。
再者,所謂加窗,係指將每一個音框乘上一窗函數,例如,漢寧窗(Hann window),以增加音框左端和右端的連續性,但不限於此。另一方面,在一較佳實施例中,在時頻轉換時所使用的轉換方法為實數快速傅立葉轉換,但也不限於此。同樣地,在一較佳實施例中,在頻譜能量計算時所使用的計算函式為絕對值函式,但也不限於此。
承前所述,圖7為本發明之隨選聲音片段偵測方法中區域峰值萃取的流程示意圖;如圖7所示,該區域峰值萃取單元係執行下列等步驟,包含:在該二維能量頻譜上的一特定頻帶內,選定一個頻點為候選峰值(步驟110b-1);以該候選峰值為參考點,進行區域能量比較(步驟110b-2);若該候選峰值被判斷為勝出,則將其標示為區域峰值(步驟110b-3),反之,則標示為其他;重複以上步驟,直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止(步驟110b-4);此時,所有區域峰值的集合即構成該區域峰值組;其中,該區域能量比較係指若該候選峰值之能量大於一特定範圍內所有其他頻點的能量,則將該候選峰值判斷為勝出;其中,該特定範圍係指以該候選峰值為中心的一矩形。
儘管已參考本申請的許多說明性實施例描述了實施方式,但應瞭解的是,本領域技術人員能夠想到多種其他改變及實施例,這些改變及實施例將落入本公開原理的精神與範圍內。尤其是,在本公開、圖式以及所附申請專利的範圍之內,對主題結合設置的組成部分及/或設置可作出各種變化與修飾。除對組成部分及/或設置做出的變化與修飾之外,可替代的用途對本領域技術人員而言將是顯而易見的。
100:生成模板 110:將至少一選定聲音片段輸入至一特徵萃取單元,以產生該選定聲音片段的特徵值組 120:將一選定聲音片段的特徵值組輸入一模板建立單元,以產生一對應模板,所有模板構成一模板庫 200:音訊偵測 210:將一待測聲音訊號輸入至一特徵萃取單元,以產生該待測聲音訊號的特徵值組 220:將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元,以產生一吻合度表 230:將該吻合度表輸入至一最終判斷單元,以決定是否觸發 110a:將一聲音訊號輸入至一頻譜生成單元,以產生一個二維能量頻譜 110b:將該二維能量頻譜輸入至一區域峰值萃取單元,以產生一區域峰值組 120a:將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元,以產生一對應於該選定聲音片段之區域峰值組位元陣列 120b:將該選定聲音片段之區域峰值組輸入至一區域峰值計數器,以得到該選定聲音片段之區域峰值數 120c:該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板 120a-1:產生一個二維位元陣列,其長度與寬度皆與該二維能量頻譜相同 120a-2:將該二維位元陣列上,與區域峰值組中之各區域峰值所在座標相同座標的位元設為1,其餘座標的位元設為0 220a:在該待測聲音訊號之區域峰值組中,將一個區域峰值選為候選吻合峰值 220b:以該候選吻合峰值為參考點,與一模板之區域峰值組位元陣列進行峰值吻合比對 220c:若被判斷為吻合,則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數,反之,則標示為其他,且不予納入計數 220d:重複上述步驟,直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止 220e:計算該待測聲音訊號的區域峰值組與該模板的吻合度,至此完成計算該待測聲音訊號與一模板的吻合度 220f:清除該待測聲音訊號之區域峰值組的標示,並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止,即獲得該吻合度表 110a-1:將一聲音訊號進行音框化,以產生至少一音框化聲音訊號 110a-2:將每個音框化聲音訊號加窗,產生一加窗音框化聲音訊號 110a-3:將每個加窗音框化聲音訊號透過時頻轉換,產生一個二維頻譜 110a-4:將該二維頻譜透過頻譜能量計算,產生一個二維能量頻譜 110b-1:在該二維能量頻譜上的一特定頻帶內,選定一個頻點為候選峰值 110b-2:以該候選峰值為參考點,進行區域能量比較 110b-3:若該候選峰值被判斷為勝出,則將其標示為區域峰值,反之,則標示為其他; 110b-4:重複以上步驟,直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止;所有區域峰值的集合即構成該區域峰值組
圖1為本發明之一種隨選聲音片段偵測方法的流程示意圖; 圖2為本發明之一種隨選聲音片段偵測方法中對於聲音訊號的特徵萃取的流程示意圖; 圖3為本發明之一種隨選聲音片段偵測方法中建立模板的流程示意圖 圖4為本發明之一種隨選聲音片段偵測方法中區域峰值組簡化的流程示意圖; 圖5為本發明之一種隨選聲音片段偵測方法中模板比對的流程示意圖; 圖6為本發明之一種隨選聲音片段偵測方法中產生二維能量頻譜的流程示意圖; 圖7為本發明之一種隨選聲音片段偵測方法中區域峰值萃取的流程示意圖。
100:生成模板
110:將至少一選定聲音片段輸入至一特徵萃取單元,以產生該選定聲音片段的特徵值組
120:將一選定聲音片段的特徵值組輸入一模板建立單元,以產生一對應模板,所有模板構成一模板庫
200:音訊偵測
210:將一待測聲音訊號輸入至一特徵萃取單元,以產生該待測聲音訊號的特徵值組
220:將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元,以產生一吻合度表
230:將該吻合度表輸入至一最終判斷單元,以決定是否觸發

Claims (16)

  1. 一種隨選聲音片段偵測方法,包含下列步驟: 生成模板步驟,係將至少一選定聲音片段輸入一模板生成模組以產生一模板庫,該模板庫包含至少一模板,每個模板對應一選定聲音片段;以及, 音訊偵測步驟,係將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果; 其中,該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段; 其中,該生成模板步驟更包括:將該至少一選定聲音片段輸入至一特徵萃取單元,以產生該選定聲音片段的特徵值組;以及,將該選定聲音片段的特徵值組輸入一模板建立單元,以產生一模板對應於該選定聲音片段,所有模板構成該模板庫; 該音訊偵測步驟更包含:將該待測聲音訊號輸入至一特徵萃取單元,以產生該待測聲音訊號的特徵值組;將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元,以產生一吻合度表;以及,將該吻合度表輸入至一最終判斷單元,以決定是否觸發。
  2. 如申請專利範圍第1項所述之隨選聲音片段偵測方法,其中,該最終判斷單元係將該待測聲音訊號與該模板庫中每一模板的吻合度減去該模板的一觸發門檻值,取其差值最大者且為正值者判斷為觸發的選定聲音片段;若其最大差值為負值,則判斷無觸發。
  3. 如申請專利範圍第2項所述之隨選聲音片段偵測方法,其中,每一模板的觸發門檻值為互相獨立而且可調整。
  4. 如申請專利範圍第1項所述之隨選聲音片段偵測方法,其中,該特徵萃取單元係執行下列等步驟,包含: 將一聲音訊號輸入至一頻譜生成單元,以產生一個二維能量頻譜;以及, 將該二維能量頻譜輸入至一區域峰值萃取單元,以產生一區域峰值組。
  5. 如申請專利範圍第1項所述之隨選聲音片段偵測方法,其中,該模板建立單元係執行下列等步驟,包含: 將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元,以產生一對應於該選定聲音片段之區域峰值組位元陣列; 將該選定聲音片段之區域峰值組輸入至一區域峰值計數器,以得到該選定聲音片段之區域峰值數; 該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板。
  6. 如申請專利範圍第5項所述之隨選聲音片段偵測方法,其中,該區域峰值組簡化單元係執行下列等步驟,包含: 產生一個二維位元陣列,其長度與寬度皆與該二維能量頻譜相同; 將該二維位元陣列上,與區域峰值組中之各區域峰值所在座標相同座標的位元設為1,其餘座標的位元設為0; 所得之二維位元陣列即為該區域峰值組位元陣列。
  7. 如申請專利範圍第1項所述之隨選聲音片段偵測方法,其中,該模板比對單元係執行下列等步驟,包含: 在該待測聲音訊號之區域峰值組中,將一個區域峰值選為候選吻合峰值; 以該候選吻合峰值為參考點,與一模板之區域峰值組位元陣列進行峰值吻合比對; 若被判斷為吻合,則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數,反之,則標示為其他,且不予納入計數; 重複上述步驟,直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止; 計算該待測聲音訊號的區域峰值組與該模板的吻合度,至此完成計算該待測聲音訊號與一模板的吻合度; 清除該待測聲音訊號之區域峰值組的標示,並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止,即獲得該吻合度表。
  8. 如申請專利範圍第7項所述之隨選聲音片段偵測方法,其中,該峰值吻合比對係指在一模板的區域峰值組位元陣列上,以該候選吻合峰值之座標為參考點,若在一特定搜尋範圍內搜尋到位元值為1,則將該候選吻合峰值判斷為吻合,並將該位元設為0,以避免重複吻合;其中該特定搜尋範圍係指以該候選吻合峰值為中心的一矩形。
  9. 如申請專利範圍第7項所述之隨選聲音片段偵測方法,其中,該吻合度計算係指計算該待測聲音訊號之區域峰值組與一模板的吻合峰值數佔該模板之區域峰值數的比例。
  10. 如申請專利範圍第4項所述之隨選聲音片段偵測方法,其中,該頻譜生成單元係執行下列等步驟,包含: 將一聲音訊號進行音框化,以產生至少一音框化聲音訊號; 將每個音框化聲音訊號加窗,產生一加窗音框化聲音訊號; 將每個加窗音框化聲音訊號透過時頻轉換,產生一個二維頻譜; 將該二維頻譜透過頻譜能量計算,產生一個二維能量頻譜; 其中,音框化後,相鄰音框間會有部分重疊。
  11. 如申請專利範圍第10項所述之隨選聲音片段偵測方法,其中,在進行加窗函數時所使用的函數為漢寧窗。
  12. 如申請專利範圍第10項所述之隨選聲音片段偵測方法,其中,在時頻轉換時所使用的轉換方法為實數快速傅立葉轉換。
  13. 如申請專利範圍第10項所述之隨選聲音片段偵測方法,其中,在頻譜能量計算時所使用的計算函式為絕對值函式。
  14. 如申請專利範圍第4項所述之隨選聲音片段偵測方法,其中,該區域峰值萃取單元係執行下列等步驟,包含: 在該二維能量頻譜上的一特定頻帶內,選定一個頻點為候選峰值;以該候選峰值為參考點,進行區域能量比較; 若該候選峰值被判斷為勝出,則將其標示為區域峰值,反之,則標示為其他; 重複以上步驟,直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止;此時,所有區域峰值的集合即構成該區域峰值組。
  15. 如申請專利範圍第14項所述之隨選聲音片段偵測方法,其中,該區域能量比較係指若該候選峰值之能量大於一特定範圍內所有其他頻點的能量,則將該候選峰值判斷為勝出。
  16. 如申請專利範圍第15項所述之隨選聲音片段偵測方法,其中,該特定範圍係指以該候選峰值為中心的一矩形。
TW108124127A 2019-07-09 2019-07-09 隨選聲音片段偵測方法 TWI716029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108124127A TWI716029B (zh) 2019-07-09 2019-07-09 隨選聲音片段偵測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108124127A TWI716029B (zh) 2019-07-09 2019-07-09 隨選聲音片段偵測方法

Publications (2)

Publication Number Publication Date
TWI716029B TWI716029B (zh) 2021-01-11
TW202103148A true TW202103148A (zh) 2021-01-16

Family

ID=75234763

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108124127A TWI716029B (zh) 2019-07-09 2019-07-09 隨選聲音片段偵測方法

Country Status (1)

Country Link
TW (1) TWI716029B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264824B2 (en) * 2013-07-31 2016-02-16 Starkey Laboratories, Inc. Integration of hearing aids with smart glasses to improve intelligibility in noise
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム
CA2990888A1 (en) * 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for generating a database
GB201718894D0 (en) * 2017-11-15 2017-12-27 X-System Ltd Russel space
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface

Also Published As

Publication number Publication date
TWI716029B (zh) 2021-01-11

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
Chen et al. Rapid: A multimodal and device-free approach using noise estimation for robust person identification
CN102741919B (zh) 用于使用声学信号提供用户接口的方法和设备、包括用户接口的装置
WO2019137115A1 (zh) 音乐分类方法及节拍点检测方法、存储设备及计算机设备
CN100575894C (zh) 复杂噪声基底下短时特征声信号时频域辨识与检测方法
WO2020037555A1 (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其系统
WO2017152531A1 (zh) 一种基于超声波的凌空手势识别方法及系统
CN104992712B (zh) 能识别音乐自动成谱的方法
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN109256146A (zh) 音频检测方法、装置及存储介质
CN102054480A (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
JP2012226080A5 (zh)
CN104103280B (zh) 基于动态时间归整算法的离线语音端点检测的方法和装置
CN110162193A (zh) 一种触碰定位装置及方法
CN102799892A (zh) 一种mfcc水下目标特征提取和识别方法
WO2023005409A1 (zh) 设备确定方法及设备确定系统
CN108182418A (zh) 一种基于多维声波特征的键击识别方法
CN106033669B (zh) 语音识别方法及装置
CN107274892A (zh) 说话人识别方法及装置
WO2016078439A1 (zh) 一种语音处理的方法及装置
TWI716029B (zh) 隨選聲音片段偵測方法
CN105869656A (zh) 一种语音信号清晰度的确定方法及装置
TWI659410B (zh) Audio recognition method and device
TW202042217A (zh) 嬰兒哭聲偵測方法