TW201640492A

TW201640492A - 一種音頻訊息檢索方法及裝置

Info

Publication number: TW201640492A
Application number: TW104142268A
Authority: TW
Inventors: Dong Yi; ye-ming Xiao; Rong Liu; Lun Zhang; ru-feng Chu
Original assignee: Alibaba Group Services Ltd
Priority date: 2015-05-11
Filing date: 2015-12-16
Publication date: 2016-11-16
Also published as: US10127309B2; US20160335347A1; CN106294331A; TWI691952B; CN106294331B; WO2016183214A1

Abstract

本發明提供一種音頻訊息檢索方法及裝置。方法包括：取得待檢索音頻片段的聲譜圖；提取聲譜圖中至少一個能量極值點的局部特徵，以構成待檢索音頻片段的局部特徵序列；根據待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。本發明可以降低漏匹配的機率，提高檢索結果的準確度。

Description

一種音頻訊息檢索方法及裝置

本發明係有關於音頻處理技術領域，特別是有關於一種音頻訊息檢索方法及裝置。

音樂檢索研究始於上世紀90年代，2000年後開始逐步成熟且走進實際應用。已有的音樂檢索方法大多基於聲譜圖進行分析，可分為兩類：基於極值點的方法和基於紋理分析的方法。

一種基於紋理分析的音樂檢索方法，首先對音樂片段採用短時傅立葉轉換以產生聲譜圖，然後將該聲譜圖分解為32個子帶，並計算相鄰子帶的梯度極性，從而將原始訊號壓縮為緊致的二進位編碼，在檢索時採用雜湊表進行加速。基於紋理分析的音樂檢索方法對塊狀雜訊不穩固，且運算複雜度較高，檢索時間較長。於是提出一種對塊狀雜訊更穩固，且檢索速度較快的方法，即基於極值點的方法。

基於極值點的方法，首先對音樂片段採用短時傅立葉轉換以產生聲譜圖，然後檢測聲譜圖中的極大值點，然後直接根據相鄰極值點對的頻率和時間差產生雜湊表。在檢索時，首先使用雜湊表匹配待檢索音樂片段和音樂庫之間對應的匹配點，然後根據匹配點的時間座標估計每首音樂的偏移量和置信度，置信度最大且超過閾值的音樂即為檢索結果。但是，該方法中極值點的檢測對隨機雜訊和椒鹽雜訊比較敏感，容易在頻率和時間方向上產生偏移，極值點的輕微偏移會完全改變雜湊值，這會導致漏匹配，影響檢索結果的準確度。

本發明的多個方面提供一種音頻訊息檢索方法及裝置，用以降低漏匹配的機率，提高檢索結果的準確度。

本發明的一方面，提供一種音頻訊息檢索方法，包括：取得待檢索音頻片段的聲譜圖；提取所述聲譜圖中至少一個能量極值點的局部特徵，以構成所述待檢索音頻片段的局部特徵序列；根據所述待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。

本發明的另一方面，提供一種音頻訊息檢索裝置，包括：獲取模組，用於取得待檢索音頻片段的聲譜圖；提取模組，用於提取所述聲譜圖中至少一個能量極值點的局部特徵，以構成所述待檢索音頻片段的局部特徵序列；檢索模組，用於根據所述待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。

本發明的又一方面，提供一種音頻特徵庫建構方法，包括：取得音頻檔的聲譜圖；提取所述音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成所述音頻檔的局部特徵序列；將所述音頻檔的局部特徵序列儲存到音頻特徵庫中。

本發明的又一方面，提供一種音頻特徵庫建構裝置，包括：取得模組，用於取得音頻檔的聲譜圖；提取模組，用於提取所述音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成所述音頻檔的局部特徵序列；儲存模組，用於將所述音頻檔的局部特徵序列儲存到音頻特徵庫中。

在本發明中，取得待檢索音頻片段的聲譜圖，提取聲譜圖中至少一個能量極值點的局部特徵，構成該待檢索音頻片段的局部特徵序列，根據待檢索音頻片段的局部特徵序列進行檢索，取得檢索結果。本發明在檢索過程中使用的是聲譜圖中能量極值點的局部特徵，而不是能量極值點，相當於放寬了在時間座標和頻率座標上的匹配範圍，能夠增加匹配中的點數，意味著能量極值點的局部特徵要比能量極值點對隨機雜訊和椒鹽雜訊的敏感性低，即使發生輕微偏移也不會對匹配結果產生太大影響，解決了現有技術中因極值點偏移導致漏匹配的問題，有利於提高檢索結果的準確度。

1‧‧‧訊息

2‧‧‧硬體

3‧‧‧使用者

4‧‧‧軟體

5‧‧‧儲存

6‧‧‧模組

7‧‧‧伺服器

8‧‧‧取得

9‧‧‧較佳

10‧‧‧存取

11‧‧‧網際網路

12‧‧‧產生

13‧‧‧建構

14‧‧‧雜訊

15‧‧‧穩固

16‧‧‧USB

17‧‧‧行動硬碟

18‧‧‧記憶體

為了更清楚地說明本發明實施例中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹，顯而易見地，下面描述中的附圖是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖取得其他的附圖。

圖1為本發明一實施例提供的音頻訊息檢索方法的流程示意圖；圖2為本發明一實施例提供的音頻訊號的時域波形圖；圖3為圖2所示音頻訊號的聲譜圖；圖4為本發明一實施例提供的被雜訊污染的音頻訊號的能量極值點分佈圖；圖5為本發明一實施例提供的未被雜訊污染的音頻訊號的能量極值點分佈圖；圖6為本發明一實施例提供的相同能量極值點及不同能量極值點根據其局部特徵計算出的漢明距離的分佈示意圖；圖7為本發明一實施例提供的音頻訊息檢索裝置的結構示意圖；圖8為本發明另一實施例提供的音頻訊息檢索裝置的結構示意圖；圖9為本發明一實施例提供的音頻特徵庫建構裝置的結構示意圖。

為使本發明實施例的目的、技術方案和優點更加清楚，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所取得的所有其他實施例，都屬於本發明保護的範圍。

圖1為本發明一實施例提供的音頻訊息檢索方法的流程示意圖。如圖1所示，該方法包括：

101、取得待檢索音頻片段的聲譜圖。

102、提取聲譜圖中至少一個能量極值點的局部特徵，以構成待檢索音頻片段的局部特徵序列。

103、根據待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。

本實施例提供一種音頻訊息檢索方法，主要用於對待檢索音頻片段進行檢索，獲取與待檢索音頻片段相關的資訊。該方法的主要原理是利用待檢索音頻片段的能量極值點的局部特徵代替能量極值點，根據能量極值點的局部特徵進行檢索，利用能量極值點的局部特徵比極值點對隨機雜訊和椒鹽雜訊的敏感性低的優勢，解決了現有技術中因極值點偏移導致漏匹配的問題，提高了檢索結果的準確度。

下面對本實施例進行詳細介紹：聲音為週期性機械波，人耳能感知到的頻率範圍為20到20000赫茲(Hz)，頻率越小音調越低，頻率越大則音調越高。通過在時間軸上對各種頻率進行組合，即可形成不同的音頻訊號。為區分不同的音頻訊號，研究者一般對訊號在某段時間內進行頻譜分解，然後分析每一時段的頻譜特性。

音頻訊號在電腦中使用一組採樣和量化過的一維訊號表示，取樣速率通常為但不限於：11025Hz，量化級別通常為但不限於：16。如圖2所示，為一段長度為12秒的音頻訊號的時域波形，該音頻訊號的取樣速率為11025Hz，量化等級為16，圖2的橫軸為時間，縱軸為訊號強度。對圖2所示音頻訊號進行短時傅立葉轉換(STFT)，可得到其聲譜圖，如圖3所示。圖3的橫軸為時間，縱軸為頻率，圖3右側的灰度條為能量與灰度值的對應關係，不同灰度值代表不同能量。將圖2與圖3進行比對可知，與時域波形圖相比，聲譜圖更直觀，更能反映出音頻訊號在各時段、各頻率的能量分佈。

在瞭解音頻訊號的基礎上，當使用者需要進行音頻訊息檢索時，可以獲取待檢索音頻片段。例如，使用者可以錄製一段音頻，如一句話、幾句音樂或一段旋律等作為待檢索音頻片段。或者，使用者可以從網際網路上下載一段音頻，如一首完整音樂、一段音樂片段、一首鈴聲或一段演講內容等作為待檢索音頻片段。或者，使用者還可以獲取本地的音頻，如一首鈴聲、一段演講內容或一段音樂等作為待檢索音頻片段。之後，對待檢索音頻片段進行時頻變換，如短時傅裡葉變換，從而取得待檢索音頻片段的聲譜圖。

雖然音頻訊號的特性大部分包含在其聲譜圖中，但聲譜圖包含的資料量較大，且易受雜訊影響，因此不宜直接將聲譜圖用於音頻檢索。為了提升檢索過程對雜訊的穩固性和減小計算量，本實施例主要關注聲譜圖中的能量極值點。圖4和圖5顯示了同一段音頻訊號的能量極值點的分佈，其中，圖4所示為被雜訊污染的音頻訊號的能量極值點分佈，圖5所示為未被雜訊污染的音頻訊號的能量極值點分佈。從圖4和圖5中可以看出，同一段音頻訊號的能量極值點大致分佈在相同的位置，基本能反映音頻訊號的特性，雖然局部有偏移，但整體上相對穩定，由此可見，通過聲譜圖中的能量極值點能夠區分出相同音頻訊號和不同音頻訊號，聲譜圖上的能量極值點可代替聲譜圖用於音頻檢索過程。

進一步對圖4和圖5進行分析可得出：因受雜訊影響，圖4和圖5所示能量極值點中在時間座標和頻率座標上能嚴格匹配上的點數低於總點數的10%，而如果採用能量極值點周圍的特性，即放寬在時間座標和頻率座標上的限制，大致能匹配上的點數可達總點數的50%。由於匹配上的點數越多，匹配結果就會越精確，基於此，為匹配上更多的點，本實施例採用能量極值點周圍的特性來代表能量極值點，使得檢索過程基於能量極值點周圍的特性進行。能量極值點周圍的特性稱為能量極值點的局部特徵，該局部特徵可以是各種類型的特徵，例如紋理特徵、邊緣特徵等。

於是，在取得待檢索音頻片段的聲譜圖後，提取聲譜圖中至少一個能量極值點的局部特徵，以構成該檢索音頻片段的局部特徵序列，以便用於後續檢索步驟。

考慮到能量極值點的數量較多，本實施例優先採用相對簡單的特徵來表達能量極值點的局部特性，從而達到降低資料量和比對損耗的目的。例如，可以採用局部二值模式(Local Binary Pattern，LBP)特徵、梯度方向長條圖(Histogram of Oriented Gradient，HoG)特徵、Haar特徵等來表達能量極值點的局部特徵。針對LBP特徵、HoG特徵及Haar特徵，可以採用相應的演算法來獲取。由於獲取LBP特徵、HoG特徵及Haar特徵的過程屬於現有技術，在此不再贅述。

本實施例提供一種提取聲譜圖中至少一個能量極值點的局部特徵的方法，包括：首先，對聲譜圖進行極值點檢測，以取得至少一個能量極值點；例如，可以採用濾波器在待檢索音頻片段的聲譜圖上進行極大值濾波，以取得聲譜圖上能量極大值的位置；濾波器的大小和形狀可以根據具體應用進行調整；接著，確定至少一個能量極值點中每個能量極值點在聲譜圖上所屬的圖像塊；例如，可以在聲譜圖上取以每個能量極值點為中心的視窗區域，作為每個能量極值點所屬的圖像塊，視窗區域的大小不做限定，可根據具體應用適應性設置；提取每個能量極值點所屬的圖像塊的特徵，以構成待檢索音頻片段的局部特徵序列。也就是說，將能量極值點所屬圖像塊的特徵作為能量極值點的局部特徵。

進一步，提取每個能量極值點所屬的圖像塊的特徵的過程具體為：對每個能量塊所屬的圖像塊，按照指定的編碼次數，對圖像塊中圖元點代表的能量值之間的大小關係進行隨機編碼，以取得該圖像塊的特徵，將該圖像塊的特徵作為待檢索音頻片段的局部特徵序列中的一個局部特徵。

具體的，預先指定編碼次數，每次隨機從圖像塊中獲取兩個圖元點，對隨機獲取的兩個圖元點代表的能量之間的大小關係進行編碼，以取得一個編碼結果，當編碼次數達到指定的編碼次數時，根據所有編碼結果取得圖像塊的特徵。

其中，上述編碼可以是二進位編碼。例如，若第一個獲取的圖元點代表的能量大於第二個獲取的圖元點代表的能量時，可以編碼為1；若第一個獲取的圖元點代表的能量小於或等於第二個獲取的圖元點代表的能量時，可以編碼為0。或者，若第一個獲取的圖元點代表的能量大於第二個獲取的圖元點代表的能量時，可以編碼為0；若第一個獲取的圖元點代表的能量小於或等於第二個獲取的圖元點代表的能量時，可以編碼為1。

基於上述二進位編碼，根據所有編碼結果取得圖像塊的特徵的過程具體為：按照編碼先後順序依次將所有編碼結果結合起來作為一個二進位序列，該二進位序列即為圖像塊的特徵。

當對隨機選取的兩個圖元代表的能量值之間的大小進行二進位編碼時，上述指定編碼次數與上述二進位序列的長度相同，例如，可以是33位元、256位元等，一次編碼處理的結果作為二進位序列的一位元。

在取得待檢索音頻片段的局部特徵序列後，根據待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。這裡的檢索結果可以是各種與待檢索音頻片段相關的資訊，檢索結果包括但不限於：待檢索音頻片段所屬的音頻檔的資訊。例如，檢索結果還可以包括：待檢索音頻片段在所屬音頻檔中的時間偏移量。

上述檢索過程的實質是利用能量極值點的局部特徵在預先建立的音樂特徵庫中進行匹配，根據匹配度輸出與該待檢索音頻片段有關的資訊。其中，音頻特徵庫中儲存有大量音頻檔的局部特徵序列。關於音頻特徵庫的建立過程在後續實施方式中進行詳述。

上述檢索過程具體包括：將待檢索音頻片段的局部特徵序列與音頻特徵庫中每個音頻檔的局部特徵序列進行匹配，以取得待檢索音頻片段與音頻特徵庫中與該待檢索音頻片段相似的音頻檔之間的匹配點對；為便於描述，將音頻特徵庫中與待檢索音頻片段相似的音頻檔稱為相似音頻檔；相似音頻檔為一個或多個；根據上述待檢索音頻片段與相似音頻檔之間的匹配點對，獲取待檢索音頻片段與相似音頻檔的匹配度；獲取最大匹配度對應的相似音頻檔的資訊作為檢索結果。

可選的，除了獲取待檢索音頻片段與相似音頻檔的匹配度之外，還可以根據上述待檢索音頻片段與相似音頻檔之間的匹配點對，獲取待檢索音頻片段在相似音頻檔中的時間偏移量；進一步，還可以獲取最大匹配度對應的時間偏移量作為檢索結果。

在一可選實施方式中，待檢索音頻片段的局部特徵序列包括待檢索音頻片段中每個能量極值點的局部特徵；相應的，每個音頻檔的局部特徵序列包括該音頻檔中每個能量極值點的局部特徵。進一步，待檢索音頻片段的局部特徵序列還可以包括待檢索音頻片段中每個能量極值點的時間座標和頻率座標；相應的，每個音頻檔的局部特徵序列還可以包括該音頻檔中每個能量極值點的時間座標和頻率座標。例如，可以將待檢索音頻片段中每個能量極值點的資訊記為( )，並將音頻檔中每個能量極值點的資訊記為( )。其中，f表示頻率座標，t表示時間座標，b為局部特徵，k為待檢索音頻片段中極值點的序號，l為音頻檔中能量極值點的序號。

可選的，可以根據能量極值點的局部特徵之間的距離，來判斷待檢索音頻片段是否與音頻檔相似以及在相似時存在的匹配點對。所述距離可以採用但不限於：漢明距離。

本發明發明人經過大量實驗發現：局部特徵之間的漢明距離可以表徵能量極值點是否匹配。實驗過程具體為：對於大量來自同一音頻源的兩個音頻片段，兩個音頻片段的區別在於：一個是未被雜訊污染的訊號，一個是被雜訊污染的訊號，分別計算兩個音頻片段中所有能量極值點的局部特徵之間的漢明距離，其漢明距離的分佈如圖6所示，其中實線表示相同能量極值點之間的漢明距離的分佈，虛線表示不同能量極值點之間的漢明距離的分佈。從圖6中可以看出，相同能量極值點之間的漢明距離明顯小於不同能量極值點之間的漢明距離，因此漢明距離可用來判斷兩個能量極值點是否匹配。

基於上述，一種取得待檢索音頻片段與相似音頻檔之間的匹配點對的實施方式包括：根據待檢索音頻片段中每個能量極值點的頻率座標和音頻檔中每個能量極值點的頻率座標，確定待檢索音頻片段中每個能量極值點對應於該音頻檔中的極值點子集；例如，可以從( )中選擇頻率座標在頻率範圍[-T _f +T _f]內的能量極值點構成極值點子集；T _f為頻率誤差閾值；根據待檢索音頻片段中每個能量極值點的局部特徵和所對應的極值點子集中各能量極值點的局部特徵，獲取待檢索音頻片段中每個能量極值點與所對應極值點子集的距離，待檢索音頻片段中每個能量極值點與所對應的極值點子集的距離是指待檢索音頻片段中每個能量極值點與對應極值點子集中各能量極值點的距離中的最小距離；若待檢索音頻片段中的能量極值點與所對應的極值點子集的距離中存在小於預設特徵閾值的距離，則將該音頻檔作為待檢索音頻片段的相似音頻檔，並將小於預設特徵閾值的距離對應的待檢索音頻片段中的能量極值點和該音頻檔中的能量極值點作為匹配點對。

值得說明的是，若待檢索音頻片段中所有能量極值點與所對應的極值點子集的距離中不存在小於預設特徵閾值的距離，說明待檢索音頻片段與該音頻檔不相似，可以將該音頻檔忽略，不用進行後續處理，以便節約檢索資源。

進一步，在取得匹配點對後，根據匹配點對，獲取待檢索音頻片段與相似音頻檔之間的相似度及時間偏移量的方式可以有多種。例如，可以用匹配點對的個數來衡量兩者之間的相似度，用匹配點對的時間座標的均值的差異作為時間偏移量。或者，可以對匹配點對的個數、以及匹配點對在時間座標上的差異以及在頻率座標上的差異進行加權處理，取得相似度及時間偏移量等。

考慮到匹配點對中有可能包括誤匹配的點，若直接根據匹配點對計算匹配度和時間偏移量，有可能導致計算結果不穩固，因此，本實施例提供一種具有穩固效果的方法，即採用隨機抽樣一致演算法(RANSAC)或霍夫變換(Hough Transform)演算法，對待檢索音頻片段與相似音頻檔之間的匹配點對進行處理，以獲取待檢索音頻片段與所述相似音頻檔的匹配度。值得說明的是，若需要還可以獲取待檢索音頻片段在相似音頻檔中的時間偏移量。

其中，隨機抽樣一致演算法是一種基於隨機採樣的穩固的模型參數估計方法。在本實施例中的應用原理是：每次隨機從待檢索音頻片段與所述相似音頻檔之間的匹配點對中選取部分匹配點對，根據隨機選取的部分匹配點對的時間座標進行模型擬合，取得待檢索音頻片段在相似音頻檔中的候選時間偏移量，並將此次選取的匹配點對中的非雜訊點對的個數作為待檢索音頻片段與相似音頻檔的候選匹配度；經過多次模型擬合，取得多個候選時間偏移量和候選匹配度；從中選擇最大候選匹配度作為待檢索音頻片段與相似音頻檔的匹配度，將最大候選匹配度對應的候選時間偏移量作為待檢索音頻片段在相似音頻檔中的時間偏移量。

上述模型擬合的公式具體為：t _y=t _x+o，其中，o表示時間偏移量。

由於經過多次模型擬合，每次都隨機選擇部分匹配點對，終會有一次選擇使用的匹配點對都是非雜訊點，進而給出合理的結果，可以降低雜訊影響，對雜訊具有穩固性。另外，該演算法記憶體消耗小，尤其適用於對記憶體消耗有要求的場景。

由上述可見，本發明技術方案對雜訊具有更好的穩固性，且記憶體消耗更小，能檢索時長更短的音頻片段。

在進行檢索之前，本實施例提供的方法還包括：建構音頻特徵庫的步驟。一種構成音頻特徵庫的方式包括：取得音頻檔的聲譜圖；例如，可以對音頻檔進行時頻變換，如短時傅立葉轉換，以取得其聲譜圖；提取音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成音頻檔的局部特徵序列；將音頻檔的局部特徵序列儲存到音頻特徵庫中。

可選的，上述提取音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成音頻檔的局部特徵序列，包括：首先對音頻檔的聲譜圖進行極值點檢測，以取得至少一個能量極值點；例如，可以採用濾波器在音頻檔的聲譜圖上進行極大值濾波，以取得聲譜圖上能量極大值的位置；濾波器的大小和形狀可以根據具體應用進行調整；接著，確定至少一個能量極值點中每個能量極值點在聲譜圖上所屬的圖像塊；例如，可以在聲譜圖上取以每個能量極值點為中心的視窗區域，作為每個能量極值點所屬的圖像塊，視窗區域的大小不做限定，可根據具體應用適應性設置；之後，提取每個能量極值點所屬的圖像塊的特徵，以構成音頻檔的局部特徵序列。也就是說，將能量極值點所屬圖像塊的特徵作為能量極值點的局部特徵。

值得說明的是，上述音頻檔的數量越多，該音頻特徵庫儲存到資訊就越豐富。另外，隨著時間的推移，可以隨機對音頻特徵庫進行更新。

需要說明的是，對於前述的各方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本發明並不受所描述的動作順序的限制，因為依據本發明，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於較佳實施例，所涉及的動作和模組並不一定是本發明所必須的。

在上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。

圖7為本發明一實施例提供的音頻訊息檢索裝置的結構示意圖。如圖7所示，該裝置包括：獲取模組71、提取模組72和檢索模組73。

獲取模組71，用於取得待檢索音頻片段的聲譜圖。

提取模組72，用於提取獲取模組71獲取的聲譜圖中至少一個能量極值點的局部特徵，以構成待檢索音頻片段的局部特徵序列。

檢索模組73，用於根據提取模組72獲取的待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。

在一可選實施方式中，提取模組72具體用於：對聲譜圖進行極值點檢測，以取得至少一個能量極值點；確定至少一個能量極值點中每個能量極值點在聲譜圖上所屬的圖像塊；提取每個能量極值點所屬的圖像塊的特徵，以構成待檢索音頻片段的局部特徵序列。

進一步，提取模組72在確定至少一個能量極值點中每個能量極值點在聲譜圖上所屬的圖像塊時，具體用於：在聲譜圖上取以每個能量極值點為中心的視窗區域，作為每個能量極值點所屬的圖像塊。

進一步，提取模組72在提取每個能量極值點所屬的圖像塊的特徵，以構成待檢索音頻片段的局部特徵序列時，具體用於：對每個能量極值點所屬的圖像塊，按照指定的編碼次數，對圖像塊中圖元點代表的能量值之間的大小關係進行隨機編碼，以取得圖像塊的特徵，將圖像塊的特徵作為待檢索音頻片段的局部特徵序列中的一個局部特徵。

更進一步，提取模組72具體用於：每次隨機從圖像塊中獲取兩個圖元點，對兩個圖元點代表的能量值之間的大小關係進行編碼，以取得一個編碼結果，直到編碼次數達到指定的編碼次數時，根據所有編碼結果取得圖像塊的特徵。

在一可選實施方式中，檢索模組73具體用於：將待檢索音頻片段的局部特徵序列與音頻特徵庫中每個音頻檔的局部特徵序列進行匹配，以取得待檢索音頻片段與相似音頻檔之間的匹配點對，相似音頻檔是指音頻特徵庫中與待檢索音頻片段相似的音頻檔；根據待檢索音頻片段與相似音頻檔之間的匹配點對，獲取待檢索音頻片段與相似音頻檔的匹配度；獲取最大匹配度對應的相似音頻檔的資訊作為檢索結果。

進一步，檢索模組73在取得待檢索音頻片段與相似音頻檔之間的匹配點對時，具體用於：根據待檢索音頻片段中每個能量極值點的頻率座標和音頻檔中每個能量極值點的頻率座標，確定待檢索音頻片段中每個能量極值點對應於音頻檔中的極值點子集；根據待檢索音頻片段中每個能量極值點的局部特徵和對應的極值點子集中各能量極值點的局部特徵，獲取待檢索音頻片段中每個能量極值點與對應的極值點子集的距離，待檢索音頻片段中每個能量極值點與對應的極值點子集的距離是指待檢索音頻片段中每個能量極值點與對應的極值點子集中各能量極值點的距離中的最小距離；若待檢索音頻片段中的能量極值點與對應的極值點子集的距離中存在小於預設特徵閾值的距離，則將音頻檔作為待檢索音頻片段的相似音頻檔，並將小於預設特徵閾值的距離對應的待檢索音頻片段中的能量極值點和音頻檔中的能量極值點作為匹配點對。

進一步，檢索模組73在獲取待檢索音頻片段與相似音頻檔的匹配度時，具體用於：採用隨機抽樣一致演算法或霍夫變換演算法，對待檢索音頻片段與相似音頻檔之間的匹配點對進行處理，以獲取待檢索音頻片段與相似音頻檔的匹配度。

進一步，檢索模組73還用於：根據待檢索音頻片段與相似音頻檔之間的匹配點對，獲取待檢索音頻片段在相似音頻檔中的時間偏移量；獲取最大匹配度對應的時間偏移量作為檢索結果。

在一可選實施方式中，如圖8所示，該音頻訊息檢索裝置還包括：建構模組74。

建構模組74，用於建構音頻特徵庫。

建構模組74具體用於採用以下方式建構音頻特徵庫：取得音頻檔的聲譜圖；提取音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成音頻檔的局部特徵序列；將音頻檔的局部特徵序列儲存到音頻特徵庫中。

本實施例提供的音頻訊息檢索裝置，取得待檢索音頻片段的聲譜圖，提取聲譜圖中至少一個能量極值點的局部特徵，構成該待檢索音頻片段的局部特徵序列，根據待檢索音頻片段的局部特徵序列進行檢索，取得檢索結果。本實施例提供的音頻訊息檢索裝置在檢索過程中使用的是聲譜圖中能量極值點的局部特徵，而不是能量極值點，相當於放寬了在時間座標和頻率座標上的匹配範圍，能夠增加匹配中的點數，意味著能量極值點的局部特徵要比能量極值點對隨機雜訊和椒鹽雜訊的敏感性低，即使發生輕微偏移也不會對匹配結果產生太大影響，解決了現有技術中因極值點偏移導致漏匹配的問題，有利於提高檢索結果的準確度。

圖9為本發明一實施例提供的音頻特徵庫建構裝置的結構示意圖。如圖9所示，該裝置包括：取得模組91、提取模組92和儲存模組93。

取得模組91，用於取得音頻文件的聲譜圖。

提取模組92，用於提取取得模組91取得的音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成音頻檔的局部特徵序列。

儲存模組93，用於將提取模組92所提取的音頻檔的局部特徵序列儲存到音頻特徵庫中。

提取模組92具體用於：對音頻檔的聲譜圖進行極值點檢測，以取得至少一個能量極值點；例如，可以採用濾波器在音頻檔的聲譜圖上進行極大值濾波，以取得聲譜圖上能量極大值的位置；濾波器的大小和形狀可以根據具體應用進行調整；接著，確定至少一個能量極值點中每個能量極值點在聲譜圖上所屬的圖像塊；例如，可以在聲譜圖上取以每個能量極值點為中心的視窗區域，作為每個能量極值點所屬的圖像塊，視窗區域的大小不做限定，可根據具體應用適應性設置；之後，提取每個能量極值點所屬的圖像塊的特徵，以構成音頻檔的局部特徵序列。也就是說，將能量極值點所屬圖像塊的特徵作為能量極值點的局部特徵。

進一步，提取模組92在用於提取每個能量極值點所屬的圖像塊的特徵時，具體用於：對每個能量塊所屬的圖像塊，按照指定的編碼次數，對圖像塊中圖元點代表的能量值之間的大小關係進行隨機編碼，以取得該圖像塊的特徵，將該圖像塊的特徵作為待檢索音頻片段的局部特徵序列中的一個局部特徵。

本實施例提供的音頻特徵庫建構裝置，取得待檢索音頻檔的聲譜圖，提取聲譜圖中至少一個能量極值點的局部特徵，構成該待檢索音頻檔的局部特徵序列，將待檢索音頻檔的局部特徵序列儲存到音頻特徵庫中，以建構音頻特徵庫。本實施例提供的音頻特徵庫中儲存的是聲譜圖中能量極值點的局部特徵，而不是能量極值點，相當於在匹配過程中放寬了在時間座標和頻率座標上的匹配範圍，能夠增加匹配中的點數，意味著能量極值點的局部特徵要比能量極值點對隨機雜訊和椒鹽雜訊的敏感性低，即使發生輕微偏移也不會對匹配結果產生太大影響，解決了現有技術中因極值點偏移導致漏匹配的問題，有利於提高檢索結果的準確度。所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統，裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本發明所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本發明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能單元的形式實現。

上述以軟體功能單元的形式實現的集成的單元，可以儲存在一個電腦可讀取儲存介質中。上述軟體功能單元儲存在一個儲存介質中，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的儲存介質包括：USB、行動硬碟、唯讀記憶體(Read-Only Memory，ROM)、隨機存取記憶體(Random Access Memory，RAM)、磁碟或者光碟等各種可以儲存程式碼的介質。

最後應說明的是：以上實施例僅用以說明本發明的技術方案，而非對其限制；儘管參照前述實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分技術特徵進行等同替換；而這些修改或者替換，並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。

Claims

一種音頻訊息檢索方法，包括：取得待檢索音頻片段的聲譜圖；提取所述聲譜圖中至少一個能量極值點的局部特徵，以構成所述待檢索音頻片段的局部特徵序列；根據所述待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。
根據請求項第1項所述的方法，其中，所述提取所述聲譜圖中至少一個能量極值點的局部特徵，以構成所述待檢索音頻片段的局部特徵序列，包括：對所述聲譜圖進行極值點檢測，以取得所述至少一個能量極值點；確定所述至少一個能量極值點中每個能量極值點在所述聲譜圖上所屬的圖像塊；提取所述每個能量極值點所屬的圖像塊的特徵，以構成所述待檢索音頻片段的局部特徵序列。
根據請求項第2項所述的方法，其中，所述確定所述至少一個能量極值點中每個能量極值點在所述聲譜圖上所屬的圖像塊，包括：在所述聲譜圖上取以所述每個能量極值點為中心的視窗區域，作為所述每個能量極值點所屬的圖像塊。
根據請求項第2項所述的方法，其中，所述提取所述每個能量極值點所屬的圖像塊的特徵，以構成所述待檢索音頻片段的局部特徵序列，包括：對所述每個能量極值點所屬的圖像塊，按照指定的編碼次數，對所述圖像塊中圖元點代表的能量值之間的大小關係進行隨機編碼，以取得所述圖像塊的特徵，將所述圖像塊的特徵作為所述待檢索音頻片段的局部特徵序列中的一個局部特徵。
根據請求項第4項所述的方法，其中，所述按照指定的編碼次數，對所述圖像塊中圖元點代表的能量值之間的大小關係進行隨機編碼，以取得所述圖像塊的特徵，包括：每次隨機從所述圖像塊中獲取兩個圖元點，對所述兩個圖元點代表的能量值之間的大小關係進行編碼，以取得一個編碼結果，直到編碼次數達到所述指定的編碼次數時，根據所有編碼結果取得所述圖像塊的特徵。
根據請求項第1-5項任一項所述的方法，其中，所述根據所述待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果，包括：將所述待檢索音頻片段的局部特徵序列與音頻特徵庫中每個音頻檔的局部特徵序列進行匹配，以取得所述待檢索音頻片段與相似音頻檔之間的匹配點對，所述相似音頻檔是指所述音頻特徵庫中與所述待檢索音頻片段相似的音頻檔；根據所述待檢索音頻片段與所述相似音頻檔之間的匹配點對，獲取所述待檢索音頻片段與所述相似音頻檔的匹配度；獲取最大匹配度對應的相似音頻檔的資訊作為所述檢索結果。
根據請求項第6項所述的方法，其中，所述將所述待檢索音頻片段的局部特徵序列與音頻特徵庫中每個音頻檔的局部特徵序列進行匹配，以取得所述待檢索音頻片段與相似音頻檔之間的匹配點對，包括：根據所述待檢索音頻片段中每個能量極值點的頻率座標和所述音頻檔中每個能量極值點的頻率座標，確定所述待檢索音頻片段中每個能量極值點對應於所述音頻檔中的極值點子集；根據所述待檢索音頻片段中每個能量極值點的局部特徵和所述對應的極值點子集中各能量極值點的局部特徵，獲取所述待檢索音頻片段中每個能量極值點與所述對應的極值點子集的距離，所述待檢索音頻片段中每個能量極值點與所述對應的極值點子集的距離是指所述待檢索音頻片段中每個能量極值點與所述對應的極值點子集中各能量極值點的距離中的最小距離；若所述待檢索音頻片段中的能量極值點與所述對應的極值點子集的距離中存在小於預設特徵閾值的距離，則將所述音頻檔作為所述待檢索音頻片段的相似音頻檔，並將所述小於預設特徵閾值的距離對應的所述待檢索音頻片段中的能量極值點和所述音頻檔中的能量極值點作為匹配點對。
根據請求項第7項所述的方法，其中，所述根據所述待檢索音頻片段與所述相似音頻檔之間的匹配點對，獲取所述待檢索音頻片段與所述相似音頻檔的匹配度，包括：採用隨機抽樣一致演算法或霍夫變換演算法，對所述待檢索音頻片段與所述相似音頻檔之間的匹配點對進行處理，以獲取所述待檢索音頻片段與所述相似音頻檔的匹配度。
根據請求項第6項所述的方法，其中，還包括：根據所述待檢索音頻片段與所述相似音頻檔之間的匹配點對，獲取所述待檢索音頻片段在所述相似音頻檔中的時間偏移量；獲取最大匹配度對應的時間偏移量作為所述檢索結果。
根據請求項第7項所述的方法，其中，還包括：建構所述音頻特徵庫；所述建構所述音頻特徵庫，包括：取得所述音頻檔的聲譜圖；提取所述音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成所述音頻檔的局部特徵序列；將所述音頻檔的局部特徵序列儲存到所述音頻特徵庫中。
一種音頻特徵庫建構方法，包括：取得音頻檔的聲譜圖；提取所述音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成所述音頻檔的局部特徵序列；將所述音頻檔的局部特徵序列儲存到音頻特徵庫中。
一種音頻訊息檢索裝置，包括：獲取模組，用於取得待檢索音頻片段的聲譜圖；提取模組，用於提取所述聲譜圖中至少一個能量極值點的局部特徵，以構成所述待檢索音頻片段的局部特徵序列；檢索模組，用於根據所述待檢索音頻片段的局部特徵序列進行檢索，以取得檢索結果。
根據請求項第12項所述的裝置，其中，所述提取模組具體用於：對所述聲譜圖進行極值點檢測，以取得所述至少一個能量極值點；確定所述至少一個能量極值點中每個能量極值點在所述聲譜圖上所屬的圖像塊；提取所述每個能量極值點所屬的圖像塊的特徵，以構成所述待檢索音頻片段的局部特徵序列。
根據請求項第13項所述的裝置，其中，所述提取模組具體用於：在所述聲譜圖上取以所述每個能量極值點為中心的視窗區域，作為所述每個能量極值點所屬的圖像塊。
根據請求項第13項所述的裝置，其中，所述提取模組具體用於：對所述每個能量極值點所屬的圖像塊，按照指定的編碼次數，對所述圖像塊中圖元點代表的能量值之間的大小關係進行隨機編碼，以取得所述圖像塊的特徵，將所述圖像塊的特徵作為所述待檢索音頻片段的局部特徵序列中的一個局部特徵。
根據請求項第15項所述的裝置，其中，所述提取模組具體用於：每次隨機從所述圖像塊中獲取兩個圖元點，對所述兩個圖元點代表的能量值之間的大小關係進行編碼，以取得一個編碼結果，直到編碼次數達到所述指定的編碼次數時，根據所有編碼結果取得所述圖像塊的特徵。
根據請求項第12-16項任一項所述的裝置，其中，所述檢索模組具體用於：將所述待檢索音頻片段的局部特徵序列與音頻特徵庫中每個音頻檔的局部特徵序列進行匹配，以取得所述待檢索音頻片段與相似音頻檔之間的匹配點對，所述相似音頻檔是指所述音頻特徵庫中與所述待檢索音頻片段相似的音頻檔；根據所述待檢索音頻片段與所述相似音頻檔之間的匹配點對，獲取所述待檢索音頻片段與所述相似音頻檔的匹配度；獲取最大匹配度對應的相似音頻檔的資訊作為所述檢索結果。
根據請求項第17項所述的裝置，其中，所述檢索模組具體用於：根據所述待檢索音頻片段中每個能量極值點的頻率座標和所述音頻檔中每個能量極值點的頻率座標，確定所述待檢索音頻片段中每個能量極值點對應於所述音頻檔中的極值點子集；根據所述待檢索音頻片段中每個能量極值點的局部特徵和所述對應的極值點子集中各能量極值點的局部特徵，獲取所述待檢索音頻片段中每個能量極值點與所述對應的極值點子集的距離，所述待檢索音頻片段中每個能量極值點與所述對應的極值點子集的距離是指所述待檢索音頻片段中每個能量極值點與所述對應的極值點子集中各能量極值點的距離中的最小距離；若所述待檢索音頻片段中的能量極值點與所述對應的極值點子集的距離中存在小於預設特徵閾值的距離，則將所述音頻檔作為所述待檢索音頻片段的相似音頻檔，並將所述小於預設特徵閾值的距離對應的所述待檢索音頻片段中的能量極值點和所述音頻檔中的能量極值點作為匹配點對。
根據請求項第18項所述的裝置，其中，所述檢索模組具體用於：採用隨機抽樣一致演算法或霍夫變換演算法，對所述待檢索音頻片段與所述相似音頻檔之間的匹配點對進行處理，以獲取所述待檢索音頻片段與所述相似音頻檔的匹配度。
根據請求項第17項所述的裝置，其中，所述檢索模組還用於：根據所述待檢索音頻片段與所述相似音頻檔之間的匹配點對，獲取所述待檢索音頻片段在所述相似音頻檔中的時間偏移量；獲取最大匹配度對應的時間偏移量作為所述檢索結果。
根據請求項第18項所述的裝置，其中，還包括：建構模組，用於建構所述音頻特徵庫；所述建構模組具體用於：取得所述音頻檔的聲譜圖；提取所述音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成所述音頻檔的局部特徵序列；將所述音頻檔的局部特徵序列儲存到所述音頻特徵庫中。
一種音頻特徵庫建構裝置，包括：取得模組，用於取得音頻檔的聲譜圖；提取模組，用於提取所述音頻檔的聲譜圖中至少一個能量極值點的局部特徵，以構成所述音頻檔的局部特徵序列；儲存模組，用於將所述音頻檔的局部特徵序列儲存到音頻特徵庫中。