TW202103148A

TW202103148A - 隨選聲音片段偵測方法

Info

Publication number: TW202103148A
Application number: TW108124127A
Authority: TW
Inventors: 林至善
Original assignee: 佑華微電子股份有限公司
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2021-01-16
Also published as: TWI716029B

Abstract

本揭露提供一種隨選聲音片段偵測方法，包含：將至少一選定聲音片段輸入一模板生成模組以產生一模板庫；以及，將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果；其中，該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段。本方法可突破現有語音辨識技術的限制，能夠以任何聲音片段，包含語音或非語音，作為使用者與電子產品，或電子產品與電子產品之間的溝通媒介，其應用層面更加廣泛。

Description

隨選聲音片段偵測方法

本發明係有關一種隨選聲音片段偵測方法。

由於智慧電子產品的日益普及，越來越多的電子產品也加入語音辨識技術以提昇人機介面的方便性，因此，除了電腦、手機外，越來越多的家電用品、汽車、甚至電子玩具也都能接受語音指令，並且執行相對地計算或作動。近年來的智慧音箱更是箇中翹楚，在市場上日益獲得青睞。然而，目前市場上的聲音指令，往往只限於語音，換言之，即透過人類的語言來控制電子產品的運作。在更多的應用上，若是能突破現有語音辨識技術的限制，能夠以任何聲音片段，包含語音或非語音，作為使用者與電子產品，或電子產品與電子產品之間的溝通媒介，則其應用層面將更加廣泛。

本發明之實施例揭露一種隨選聲音片段偵測方法，包含下列步驟：生成模板步驟，係將至少一選定聲音片段輸入一模板生成模組以產生一模板庫，該模板庫包含至少一模板，每個模板對應一選定聲音片段；以及，音訊偵測步驟，係將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果；其中，該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段；其中，該生成模板步驟更包括：將該至少一選定聲音片段輸入至一特徵萃取單元，以產生該選定聲音片段的特徵值組；以及，將該選定聲音片段的特徵值組輸入一模板建立單元，以產生一模板對應於該選定聲音片段，所有模板構成該模板庫；該音訊偵測步驟更包含：將該待測聲音訊號輸入至一特徵萃取單元，以產生該待測聲音訊號的特徵值組；將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元，以產生一吻合度表；以及，將該吻合度表輸入至一最終判斷單元，以決定是否觸發。

在一較佳實施例中，該最終判斷單元係將該待測聲音訊號與該模板庫中每一模板的吻合度減去該模板的一觸發門檻值，取其差值最大者且為正值者判斷為觸發的選定聲音片段；若其最大差值為負值，則判斷無觸發；其中，每一模板的觸發門檻值為互相獨立而且可調整。

在一較佳實施例中，該特徵萃取單元係執行下列等步驟，包含：將一聲音訊號輸入至一頻譜生成單元，以產生一個二維能量頻譜；以及，將該二維能量頻譜輸入至一區域峰值萃取單元，以產生一區域峰值組。

在一較佳實施例中，該模板建立單元係執行下列等步驟，包含：將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元，以產生一對應於該選定聲音片段之區域峰值組位元陣列；將該選定聲音片段之區域峰值組輸入至一區域峰值計數器，以得到該選定聲音片段之區域峰值數；該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板。

在一較佳實施例中，該區域峰值組簡化單元係執行下列等步驟，包含：產生一個二維位元陣列，其長度與寬度皆與該二維能量頻譜相同；將該二維位元陣列上，與區域峰值組中之各區域峰值所在座標相同座標的位元設為1，其餘座標的位元設為0；所得之二維位元陣列即為該區域峰值組位元陣列。

在一較佳實施例中，該模板比對單元係執行下列等步驟，包含：在該待測聲音訊號之區域峰值組中，將一個區域峰值選為候選吻合峰值；以該候選吻合峰值為參考點，與一模板之區域峰值組位元陣列進行峰值吻合比對；若被判斷為吻合，則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數，反之，則標示為其他，且不予納入計數；重複上述步驟，直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止；計算該待測聲音訊號的區域峰值組與該模板的吻合度，至此完成計算該待測聲音訊號與一模板的吻合度；清除該待測聲音訊號之區域峰值組的標示，並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止，即獲得該吻合度表。

在一較佳實施例中，該峰值吻合比對係指在一模板的區域峰值組位元陣列上，以該候選吻合峰值之座標為參考點，若在一特定搜尋範圍內搜尋到位元值為1，則將該候選吻合峰值判斷為吻合，並將該位元設為0，以避免重複吻合；其中該特定搜尋範圍係指以該候選吻合峰值為中心的一矩形。

在一較佳實施例中，該吻合度計算係指計算該待測聲音訊號之區域峰值組與一模板的吻合峰值數佔該模板之區域峰值數的比例。

在一較佳實施例中，該頻譜生成單元係執行下列等步驟，包含：將一聲音訊號進行音框化，以產生至少一音框化聲音訊號；將每個音框化聲音訊號加窗，產生一加窗音框化聲音訊號；將每個加窗音框化聲音訊號透過時頻轉換，產生一個二維頻譜；將該二維頻譜透過頻譜能量計算，產生一個二維能量頻譜；其中，音框化後，相鄰音框間會有部分重疊；加窗時所用之窗函數係為一漢寧窗；在時頻轉換時，所用之轉換函數為實數快速傅立葉轉換；在頻譜能量計算時，所用之計算方式為絕對值函數。

在一較佳實施例中，該區域峰值萃取單元係執行下列等步驟，包含：在該二維能量頻譜上的一特定頻帶內，選定一個頻點為候選峰值；以該候選峰值為參考點，進行區域能量比較；若該候選峰值被判斷為勝出，則將其標示為區域峰值，反之，則標示為其他；重複以上步驟，直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止；此時，所有區域峰值的集合即構成該區域峰值組；其中，該區域能量比較係指若該候選峰值之能量大於一特定範圍內所有其他頻點的能量，則將該候選峰值判斷為勝出；其中，該特定範圍係指以該候選峰值為中心的一矩形。

以下藉由特定的具體實施例說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。本發明亦可藉由其他不同的具體實例加以施行或應用，本發明說明書中的各項細節亦可基於不同觀點與應用在不悖離本發明之精神下進行各種修飾與變更。

其中，本說明書所附圖式繪示之結構、比例、大小等，均僅用以配合說明書所揭示之內容，以供熟悉此技術之人士瞭解與閱讀，並非用以限定本發明可實施之限定條件，故不具技術上之實質意義，任何結構之修飾、比例關之改變或大小之調整，在不影響本發明所能產生之功效及所能達成之目的下，均應落在本發明所揭示之技術內容得能涵蓋之範圍內。

如圖1所示，本發明之實施例揭露一種隨選聲音片段偵測方法，包含下列步驟：生成模板步驟100，係將至少一選定聲音片段輸入一模板生成模組以產生一模板庫；以及，音訊偵測步驟200，係將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果；其中，該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段；其中，該生成模板步驟100更包括：將該至少一選定聲音片段輸入至一特徵萃取單元，以產生該選定聲音片段的特徵值組(步驟110)；以及，將該選定聲音片段的特徵值組輸入一模板建立單元，以產生一模板對應於該選定聲音片段，所有模板構成該模板庫(步驟120)；該音訊偵測步驟200更包含：將該待測聲音訊號輸入至一特徵萃取單元，以產生該待測聲音訊號的特徵值組(步驟210)；將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元，以產生一吻合度表(步驟220)；以及，將該吻合度表輸入至一最終判斷單元，以決定是否觸發(步驟230)。

值得說明的是，該模板庫包含至少一模板，每個模板係對應於一選定聲音片段；換言之，一個選定聲音片段相對應地產生一模板。因此，該最終判斷單元係將該待測聲音訊號與該模板庫中每一模板的吻合度減去該模板的一觸發門檻值，取其差值最大者且為正值者判斷為觸發的選定聲音片段；若其最大差值為負值，則判斷無觸發；其中，每一模板的觸發門檻值為互相獨立而且可調整。

圖2為本發明之隨選聲音片段偵測方法中對於聲音訊號的特徵萃取的流程示意圖；如圖2所示，該特徵萃取單元係執行下列等步驟，包含：將一聲音訊號輸入至一頻譜生成單元，以產生一個二維能量頻譜(步驟110a)；以及，將該二維能量頻譜輸入至一區域峰值萃取單元，以產生一區域峰值組(步驟110b)。

圖3為本發明之隨選聲音片段偵測方法中建立模板的流程示意圖；如圖3所示，該模板建立單元係執行下列等步驟，包含：將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元，以產生一對應於該選定聲音片段之區域峰值組位元陣列(步驟120a)；將該選定聲音片段之區域峰值組輸入至一區域峰值計數器，以得到該選定聲音片段之區域峰值數(步驟120b)；該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板(步驟120c)。

圖4為本發明之隨選聲音片段偵測方法中區域峰值組簡化的流程示意圖；如圖4所示，該區域峰值組簡化單元係執行下列等步驟，包含：產生一個二維位元陣列，其長度與寬度皆與該二維能量頻譜相同(步驟120a-1)；將該二維位元陣列上，與區域峰值組中之各區域峰值所在座標相同座標的位元設為1，其餘座標的位元設為0(步驟120a-2)；所得之二維位元陣列即為該區域峰值組位元陣列。

值得說明的是，前述步驟210中將該待測聲音訊號萃取特徵值組的流程與圖2中的將該選定聲音片段萃取特徵值組的流程一致，在此不再贅述。

圖5為本發明之隨選聲音片段偵測方法中模板比對的流程示意圖；如圖5所示，該模板比對單元係執行下列等步驟，包含：在該待測聲音訊號之區域峰值組中，將一個區域峰值選為候選吻合峰值(步驟220a)；以該候選吻合峰值為參考點，與一模板之區域峰值組位元陣列進行峰值吻合比對(步驟220b)；若被判斷為吻合，則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數(步驟220c)，反之，則標示為其他，且不予納入計數；重複上述步驟，直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止(步驟220d)；計算該待測聲音訊號的區域峰值組與該模板的吻合度，至此完成計算該待測聲音訊號與一模板的吻合度(步驟220e)；清除該待測聲音訊號之區域峰值組的標示，並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止，即獲得該吻合度表(步驟220f)。

值得說明的是，該峰值吻合比對係指在一模板的區域峰值組位元陣列上，以該候選吻合峰值之座標為參考點，若在一特定搜尋範圍內搜尋到位元值為1，則將該候選吻合峰值判斷為吻合，並將該位元設為0，以避免重複吻合；其中該特定搜尋範圍係指以該候選吻合峰值為中心的一矩形。

承前所述，圖6為本發明之隨選聲音片段偵測方法中產生二維能量頻譜的流程示意圖；如圖6所示，該頻譜生成單元係執行下列等步驟，包含：將一聲音訊號進行音框化，以產生至少一音框化聲音訊號(步驟110a-1)；將每個音框化聲音訊號加窗，產生一加窗音框化聲音訊號(步驟110a-2)；將每個加窗音框化聲音訊號透過時頻轉換，產生一個二維頻譜(步驟110a-3)；將該二維頻譜透過頻譜能量計算，產生一個二維能量頻譜(步驟110a-4)。

值得說明的是，所謂音框(frame)係先將 N 個取樣點集合成一個觀測單位，稱為音框，通常 N 的值是 256 或 512，涵蓋的時間約為 20~30 ms 左右。為了避免相鄰兩音框的變化過大，通常會讓兩相鄰音框之間有一段重疊區域。值得說明的是，上述之N值、涵蓋的時間長度、以及音框之間是否重疊皆只是習知用來說明本發明之實施例，但在實際應用時並不限於此。

再者，所謂加窗，係指將每一個音框乘上一窗函數，例如，漢寧窗(Hann window)，以增加音框左端和右端的連續性，但不限於此。另一方面，在一較佳實施例中，在時頻轉換時所使用的轉換方法為實數快速傅立葉轉換，但也不限於此。同樣地，在一較佳實施例中，在頻譜能量計算時所使用的計算函式為絕對值函式，但也不限於此。

承前所述，圖7為本發明之隨選聲音片段偵測方法中區域峰值萃取的流程示意圖；如圖7所示，該區域峰值萃取單元係執行下列等步驟，包含：在該二維能量頻譜上的一特定頻帶內，選定一個頻點為候選峰值(步驟110b-1)；以該候選峰值為參考點，進行區域能量比較(步驟110b-2)；若該候選峰值被判斷為勝出，則將其標示為區域峰值(步驟110b-3)，反之，則標示為其他；重複以上步驟，直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止(步驟110b-4)；此時，所有區域峰值的集合即構成該區域峰值組；其中，該區域能量比較係指若該候選峰值之能量大於一特定範圍內所有其他頻點的能量，則將該候選峰值判斷為勝出；其中，該特定範圍係指以該候選峰值為中心的一矩形。

儘管已參考本申請的許多說明性實施例描述了實施方式，但應瞭解的是，本領域技術人員能夠想到多種其他改變及實施例，這些改變及實施例將落入本公開原理的精神與範圍內。尤其是，在本公開、圖式以及所附申請專利的範圍之內，對主題結合設置的組成部分及/或設置可作出各種變化與修飾。除對組成部分及/或設置做出的變化與修飾之外，可替代的用途對本領域技術人員而言將是顯而易見的。

100:生成模板 110:將至少一選定聲音片段輸入至一特徵萃取單元，以產生該選定聲音片段的特徵值組 120:將一選定聲音片段的特徵值組輸入一模板建立單元，以產生一對應模板，所有模板構成一模板庫 200:音訊偵測 210:將一待測聲音訊號輸入至一特徵萃取單元，以產生該待測聲音訊號的特徵值組 220:將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元，以產生一吻合度表 230:將該吻合度表輸入至一最終判斷單元，以決定是否觸發 110a:將一聲音訊號輸入至一頻譜生成單元，以產生一個二維能量頻譜 110b:將該二維能量頻譜輸入至一區域峰值萃取單元，以產生一區域峰值組 120a:將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元，以產生一對應於該選定聲音片段之區域峰值組位元陣列 120b:將該選定聲音片段之區域峰值組輸入至一區域峰值計數器，以得到該選定聲音片段之區域峰值數 120c:該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板 120a-1:產生一個二維位元陣列，其長度與寬度皆與該二維能量頻譜相同 120a-2:將該二維位元陣列上，與區域峰值組中之各區域峰值所在座標相同座標的位元設為1，其餘座標的位元設為0 220a:在該待測聲音訊號之區域峰值組中，將一個區域峰值選為候選吻合峰值 220b:以該候選吻合峰值為參考點，與一模板之區域峰值組位元陣列進行峰值吻合比對 220c:若被判斷為吻合，則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數，反之，則標示為其他，且不予納入計數 220d:重複上述步驟，直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止 220e:計算該待測聲音訊號的區域峰值組與該模板的吻合度，至此完成計算該待測聲音訊號與一模板的吻合度 220f:清除該待測聲音訊號之區域峰值組的標示，並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止，即獲得該吻合度表 110a-1:將一聲音訊號進行音框化，以產生至少一音框化聲音訊號 110a-2:將每個音框化聲音訊號加窗，產生一加窗音框化聲音訊號 110a-3:將每個加窗音框化聲音訊號透過時頻轉換，產生一個二維頻譜 110a-4:將該二維頻譜透過頻譜能量計算，產生一個二維能量頻譜 110b-1:在該二維能量頻譜上的一特定頻帶內，選定一個頻點為候選峰值 110b-2:以該候選峰值為參考點，進行區域能量比較 110b-3:若該候選峰值被判斷為勝出，則將其標示為區域峰值，反之，則標示為其他； 110b-4:重複以上步驟，直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止；所有區域峰值的集合即構成該區域峰值組

圖1為本發明之一種隨選聲音片段偵測方法的流程示意圖；圖2為本發明之一種隨選聲音片段偵測方法中對於聲音訊號的特徵萃取的流程示意圖；圖3為本發明之一種隨選聲音片段偵測方法中建立模板的流程示意圖圖4為本發明之一種隨選聲音片段偵測方法中區域峰值組簡化的流程示意圖；圖5為本發明之一種隨選聲音片段偵測方法中模板比對的流程示意圖；圖6為本發明之一種隨選聲音片段偵測方法中產生二維能量頻譜的流程示意圖；圖7為本發明之一種隨選聲音片段偵測方法中區域峰值萃取的流程示意圖。

100:生成模板

110:將至少一選定聲音片段輸入至一特徵萃取單元，以產生該選定聲音片段的特徵值組

120:將一選定聲音片段的特徵值組輸入一模板建立單元，以產生一對應模板，所有模板構成一模板庫

200:音訊偵測

210:將一待測聲音訊號輸入至一特徵萃取單元，以產生該待測聲音訊號的特徵值組

220:將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元，以產生一吻合度表

230:將該吻合度表輸入至一最終判斷單元，以決定是否觸發

Claims

一種隨選聲音片段偵測方法，包含下列步驟：生成模板步驟，係將至少一選定聲音片段輸入一模板生成模組以產生一模板庫，該模板庫包含至少一模板，每個模板對應一選定聲音片段；以及，音訊偵測步驟，係將該模板庫與一待測聲音訊號輸入一音訊偵測模組以產生一偵測結果；其中，該偵測結果係包含該待測聲音訊號與該至少一選定聲音片段之各個聲音片段的吻合度、以及判定所觸發的選定聲音片段；其中，該生成模板步驟更包括：將該至少一選定聲音片段輸入至一特徵萃取單元，以產生該選定聲音片段的特徵值組；以及，將該選定聲音片段的特徵值組輸入一模板建立單元，以產生一模板對應於該選定聲音片段，所有模板構成該模板庫；該音訊偵測步驟更包含：將該待測聲音訊號輸入至一特徵萃取單元，以產生該待測聲音訊號的特徵值組；將該模板庫以及該待測聲音訊號的特徵值組輸入至一模板比對單元，以產生一吻合度表；以及，將該吻合度表輸入至一最終判斷單元，以決定是否觸發。
如申請專利範圍第1項所述之隨選聲音片段偵測方法，其中，該最終判斷單元係將該待測聲音訊號與該模板庫中每一模板的吻合度減去該模板的一觸發門檻值，取其差值最大者且為正值者判斷為觸發的選定聲音片段；若其最大差值為負值，則判斷無觸發。
如申請專利範圍第2項所述之隨選聲音片段偵測方法，其中，每一模板的觸發門檻值為互相獨立而且可調整。
如申請專利範圍第1項所述之隨選聲音片段偵測方法，其中，該特徵萃取單元係執行下列等步驟，包含：將一聲音訊號輸入至一頻譜生成單元，以產生一個二維能量頻譜；以及，將該二維能量頻譜輸入至一區域峰值萃取單元，以產生一區域峰值組。
如申請專利範圍第1項所述之隨選聲音片段偵測方法，其中，該模板建立單元係執行下列等步驟，包含：將該選定聲音片段之區域峰值組輸入至一區域峰值組簡化單元，以產生一對應於該選定聲音片段之區域峰值組位元陣列；將該選定聲音片段之區域峰值組輸入至一區域峰值計數器，以得到該選定聲音片段之區域峰值數；該選定聲音片段之區域峰值組位元陣列與區域峰值數即構成對應於該選定聲音片段之模板。
如申請專利範圍第5項所述之隨選聲音片段偵測方法，其中，該區域峰值組簡化單元係執行下列等步驟，包含：產生一個二維位元陣列，其長度與寬度皆與該二維能量頻譜相同；將該二維位元陣列上，與區域峰值組中之各區域峰值所在座標相同座標的位元設為1，其餘座標的位元設為0；所得之二維位元陣列即為該區域峰值組位元陣列。
如申請專利範圍第1項所述之隨選聲音片段偵測方法，其中，該模板比對單元係執行下列等步驟，包含：在該待測聲音訊號之區域峰值組中，將一個區域峰值選為候選吻合峰值；以該候選吻合峰值為參考點，與一模板之區域峰值組位元陣列進行峰值吻合比對；若被判斷為吻合，則標示該候選吻合峰值為吻合峰值並進行吻合峰值計數，反之，則標示為其他，且不予納入計數；重複上述步驟，直到該待測聲音訊號之區域峰值組中的所有峰值皆標示完畢為止；計算該待測聲音訊號的區域峰值組與該模板的吻合度，至此完成計算該待測聲音訊號與一模板的吻合度；清除該待測聲音訊號之區域峰值組的標示，並重複上述步驟直到完成計算該待測聲音訊號與該模板庫中的每一個模板的吻合度為止，即獲得該吻合度表。
如申請專利範圍第7項所述之隨選聲音片段偵測方法，其中，該峰值吻合比對係指在一模板的區域峰值組位元陣列上，以該候選吻合峰值之座標為參考點，若在一特定搜尋範圍內搜尋到位元值為1，則將該候選吻合峰值判斷為吻合，並將該位元設為0，以避免重複吻合；其中該特定搜尋範圍係指以該候選吻合峰值為中心的一矩形。
如申請專利範圍第7項所述之隨選聲音片段偵測方法，其中，該吻合度計算係指計算該待測聲音訊號之區域峰值組與一模板的吻合峰值數佔該模板之區域峰值數的比例。
如申請專利範圍第4項所述之隨選聲音片段偵測方法，其中，該頻譜生成單元係執行下列等步驟，包含：將一聲音訊號進行音框化，以產生至少一音框化聲音訊號；將每個音框化聲音訊號加窗，產生一加窗音框化聲音訊號；將每個加窗音框化聲音訊號透過時頻轉換，產生一個二維頻譜；將該二維頻譜透過頻譜能量計算，產生一個二維能量頻譜；其中，音框化後，相鄰音框間會有部分重疊。
如申請專利範圍第10項所述之隨選聲音片段偵測方法，其中，在進行加窗函數時所使用的函數為漢寧窗。
如申請專利範圍第10項所述之隨選聲音片段偵測方法，其中，在時頻轉換時所使用的轉換方法為實數快速傅立葉轉換。
如申請專利範圍第10項所述之隨選聲音片段偵測方法，其中，在頻譜能量計算時所使用的計算函式為絕對值函式。
如申請專利範圍第4項所述之隨選聲音片段偵測方法，其中，該區域峰值萃取單元係執行下列等步驟，包含：在該二維能量頻譜上的一特定頻帶內，選定一個頻點為候選峰值；以該候選峰值為參考點，進行區域能量比較；若該候選峰值被判斷為勝出，則將其標示為區域峰值，反之，則標示為其他；重複以上步驟，直到該二維能量頻譜上該特定頻帶內的所有頻點被標示完畢為止；此時，所有區域峰值的集合即構成該區域峰值組。
如申請專利範圍第14項所述之隨選聲音片段偵測方法，其中，該區域能量比較係指若該候選峰值之能量大於一特定範圍內所有其他頻點的能量，則將該候選峰值判斷為勝出。
如申請專利範圍第15項所述之隨選聲音片段偵測方法，其中，該特定範圍係指以該候選峰值為中心的一矩形。