TWI659410B

TWI659410B - Audio recognition method and device

Info

Publication number: TWI659410B
Application number: TW106112617A
Authority: TW
Inventors: 杜志軍; 王楠
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-06-28
Filing date: 2017-04-14
Publication date: 2019-05-11
Also published as: JP2019526070A; CN106910494A; EP3477632A1; CN106910494B; TW201801066A; US20210125628A1; US20190115044A1; KR20190021421A; US11133022B2; WO2018001125A1; JP6750048B2; EP3477632A4; US10910000B2; KR102220964B1

Abstract

本申請提供了一種音頻識別方法和裝置，其中，該方法包括：對待識別音頻資料進行分幀處理，得到多幀音頻資料；根據幀與幀之間和幀內的音頻變化趨勢，計算得到所述待識別音頻資料每一幀的特徵值；將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。利用本申請實施例提供的技術方案，可以大大提高抗干擾的能力、識別成功率和識別結果的準確度。

Description

音頻識別方法和裝置

本申請屬於資料處理技術領域，尤其關於一種音頻識別方法和裝置。

隨著智慧化水準的不斷提高，人們越來越多的生活都透過智能終端等實現。例如，近些年剛出現的電視互動、音頻識別等等。舉例而言，在播放車載電台，聽到電台中放一首歌，想知道這首歌的名字，如果按照以前的處理方式，最多是錄下來，然後問問朋友，或者是聽一下歌詞，然後網上搜索一下。

然而，隨著智慧化水準和識別技術的不斷發展，人們現在已經可以透過智能終端中直接實現對音頻的識別，只要開啟終端中的音樂識別功能，然後就可以自動識別出當前歌曲的歌名或者歌手等，更有甚至可以直接連接到音樂軟體播放該歌曲。

上述就是基於音頻指紋的電視互動或音樂識別的簡單實現場景，但是這一切都需要依賴於較為精準的音頻識別技術，目前，主流的音頻識別技術是：提取特徵點對，利用特徵點對對音頻進行識別判斷，具體地，如圖1所示，首先將音樂轉換成語譜圖，在語譜圖上提取若干個如圖1所示的極值點。為了減少識別的難度，提升識別的效率，可以採取點對的方式進行識別，即，兩個極值點構成一個點對，如圖1所示示出了8個點對，識別時，如果存在一樣的點對則認為存在一個正確的匹配。

然而，由於受雜訊的影響，極值點不一定都在一致的位置出現，因此點對可以匹配上的機率比較低，另外，這些極值點容易受到雜訊的干擾，不是特別穩定，在雜訊較大的時候不能獲取較為穩定的識別結果。

針對現有的音頻識別技術中所存在的匹配成功率低、以及由於抗噪能力較弱而導致的識別準確率低的問題，目前未提出有效的解決方案。

本申請目的在於提供一種音頻識別方法和裝置，可以有效提高匹配成功率和識別結果的準確度。

本申請提供一種音頻識別方法和裝置是這樣實現的：一種音頻識別方法，所述方法包括：對待識別音頻資料進行分幀處理，得到多幀音頻資料；根據幀與幀之間和幀內的音頻變化趨勢，計算得到所述待識別音頻資料每一幀的特徵值；將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。

一種音頻識別裝置裝置，所述裝置包括：分幀模組，用於對待識別音頻資料進行分幀處理，得到多幀音頻資料；計算模組，用於根據幀與幀之間和幀內的音頻變化趨勢，計算得到所述待識別音頻資料每一幀的特徵值；匹配識別模組，用於將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。

本申請提供的一種音頻識別方法和裝置，透過根據幀與幀之間和幀內的音頻變化趨勢，計算得到待識別音頻資料每一幀的特徵值，然後將每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，從而得到識別結果，即，在頻域不是提取極值點，而是利用幀與幀之間、幀內之間的比較關係，獲得一個相對穩定的編碼結果，從而可以有效地對抗雜訊的干擾，使得識別結果更為準確。利用本申請實施方案，不僅可以大大提高抗干擾的能力，還可以有效提高識別成功率和識別結果的準確度。

701‧‧‧分幀模組

702‧‧‧計算模組

703‧‧‧匹配識別模組

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請中記載的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是現有的基於提取特徵點對的音頻識別方法示意圖；圖2是本申請提供的音頻識別方法一種實施例的方法流程圖；圖3是本申請提供的特徵向量示意圖；圖4是本申請提供的音頻特徵值對照表示意圖；圖5是本申請提供的待識別音頻資料識別匹配示意圖；圖6是本申請提供的二進位位元位求和示意圖；圖7是本申請提供的音頻識別裝置的模組結構示意圖。

為了使本技術領域的人員更好地理解本申請中的技術方案，下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本申請保護的範圍。

圖2是本申請所述一種音頻識別方法一個實施例的方法流程圖。雖然本申請提供了如下述實施例或附圖所示的方法操作步驟或裝置結構，但基於常規或者無需創造性的勞動在所述方法或裝置中可以包括更多或者更少的操作步驟或模組單元。在邏輯性上不存在必要因果關係的步驟或結構中，這些步驟的執行順序或裝置的模組結構不限於本申請實施例描述及附圖所示的執行順序或模組結構。所述的方法或模組結構的在實際中的裝置或終端產品應用時，可以按照實施例或者附圖所示的方法或模組結構連接進行循序執行或者並行執行(例如並行處理器或者多執行緒處理的環境，甚至分散式處理環境)。

具體的如圖2所述，本申請一種實施例提供的一種音頻識別方法可以包括：

S1：對待識別音頻資料進行分幀處理，得到多幀音頻資料；待識別的音頻資料可以是音頻識別軟體所錄取的一小段語音，或者是在電視互動上的一段語音，一般主要是為了識別出這段語音的出處。在錄取後，可以將其進行分幀處理，例如，可以每30ms作為一幀資料，當然，具體選擇多少ms作為一幀音頻資料的長度，本申請不作限定，可以按照實際需要選擇，20ms，25ms，40ms等都可以。但是需要保證的是，待識別音頻資料分幀處理的規則需要與預先建立的音頻特徵值對照表時的分幀原則相同。

進一步的，因為在進行匹配識別的時候，由於分幀的影響，難免會出現偏差，為了減少偏差的影響，在分幀處理的時候，需要設定幀與幀之間是重疊的，以30ms作為一幀為例進行說明，第一幀是0到30ms，那麼第二幀就是16ms到45ms，第三幀就是30ms到60ms，即，按照相鄰幀以預定毫秒數重疊的劃分規則，對所述待識別音頻資料進行分幀處理，也就是說，相鄰幀之間是重疊的，從而避免了幀劃分造成的偏差對匹配結果的影響。

在進行後續的資料處理前，可以對每一幀音頻資料進行快速傅立葉轉換(Fast Fourier Transform，簡稱為FFT)變換，從而將音頻資料轉換至頻域，在頻域對信號進行分析。

S2：根據幀與幀之間和幀內的音頻變化趨勢，計算得到所述待識別音頻資料每一幀的特徵值；在確定特徵的過程中，可以針對上述FFT變換後得到的頻域結果，利用MFCC特徵參數提取演算法，獲得預定維數的特徵向量(例如12維)，之所以採用MFCC特徵參數提取演算法，是因為MFCC特徵在語音辨識中能夠提取出信號中的明顯變化區域，具有較好的區分性。MFCC是Mel頻率倒譜系數的縮寫，其中，Mel頻率是基於人耳聽覺特性提出來的，它與Hz頻率成非線性對應關係。Mel頻率倒譜系數(MFCC)則是利用它們之間的這種關係，計算得到的Hz頻譜特徵，由於Mel頻率與Hz頻率之間非線性的對應關係，使得MFCC隨著頻率的提高，其計算精度隨之下降。因此，在應用中常常只使用低頻MFCC，而丟棄中高頻MFCC。

在經過MFCC特徵計算之後，每一幀的信號就會變成一個預定維數的向量，假設是12維的向量，那麼可以如圖3所示，第i幀信號就可以表示為(d _i0,d _i1...d _i10,d _i11)，d為float型數據。進一步的，為了後續比較和匹配更為簡單，可以對得到的向量進行編碼，轉換為二進位序列或者是與二進位序列對應的正數，具體地，按照圖3所示的幀的特徵向量表示，可以按照以下方式進行編碼轉換：

diff=-n*t1-mt2+mt3+n2*t4

其中，d _i-2,j表示第i-2幀音頻資料第j個維度的向量值，d _i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值， d _i-1,j表示第i-1幀音頻資料第j個維度的向量值、d _i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d _i+1,j表示第i+1幀音頻資料第j個維度的向量值、d _i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d _i+2,j表示第i+2幀音頻資料第j個維度的向量值、d _i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值，t1、t2、t3、t4、diff表示中間參量、Bit _i,j表示第i幀音頻資料二進位序列第j個位元位的取值，n、m為定量係數。

由上述公式可以看出，二進位序列計算的過程中，是依據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值計算得到的，即，先將待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料；然後，根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值，將每一幀音頻資料的向量資料轉換為一個二進位序列。

具體地，公式中是根據前後兩幀資料的向量值，以及同一幀內相鄰向量值計算得到的，這樣就有效地將幀與幀之間、幀內之間的關係加入了特徵值的計算中。

然而，值得注意是，上述n、m就可以按照需要選取，例如，可以分別取值為2和3，那麼對應的：diff=-2*t1-t2+t3+2*t4。

進一步的，上述所列舉的例子和公式中，是以相鄰兩幀之間作為計算依據的，在實際執行的時候，也可以是相鄰的三幀或者四幀等等，可以根據實際的計算精度和處理器的處理能力選取合適的幀數，當然，當幀數選取不同的時候，上述公式也需要進行適應性的調整，但是調整的思路是近似的，本申請對此不作限定。

按照上述方式計算得到二進位序列的過程中，如果原本向量維度是N，那麼計算得到的二進位序列的位數就是N-1，例如，如果得到的是12維的特徵向量，那麼得到的二進位序列就是11位。

在本例中，可以以得到的二進位序列作為特徵值，也可以二進位序列所對應的十進位作為特徵值，舉例而言，如果某一幀音頻資料的二進位序列為00000000101，那麼可以以00000000101作為最終的特徵值，也可以5作為最終的特徵值。

總的來說，可以利用一幀內相鄰關係的係數做比較，成為幀內係數的比較，然後利用前後兩幀的比較資訊，綜合這些前後幀和幀內的資訊形成最後的值diff，這個值與0的比較結果構成最終對應位的編碼值。具體地，一幀信號經MFCC變成12維的特徵係數向量後，再經過編碼變成11位的二值序列(Bit _i,0,Bit _i,1...Bit _i,10)，如果將該二進位序列轉換為十進位，那麼對應的取值範圍就是0到2的11次方。

S3：將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。

為了實現對音頻資料的有效匹配，需要預先建立一個音頻特徵值對照表，這個對照表中所記錄就是每一幀資料和這幀資料所對應的特徵值，當然，如果音頻特徵值對照表中是以二進位方式表示特徵值的，那麼相應的在音頻識別的時候，待識別音頻資料也就轉換為二進位序列作為特徵值，如果音頻特徵值對照表中是以十進位方式表示特徵值的，那麼相應的在音頻識別的時候，待識別音頻資料也就轉換為十進位作為特徵值。

具體地，可以按照以下方式建立音頻特徵值對照表包括：步驟1：獲取樣本資料，其中，所述樣本資料包括多段樣本音頻；步驟2：對所述多段樣本音頻中的各段樣本音頻進行分幀處理，得到每段樣本音頻的多幀音頻資料；步驟3：根據幀與幀之間和幀內的音頻變化趨勢，計算得到每段樣本音頻每一幀的特徵值；步驟4：以特徵值作為根節點，按照每段樣本音頻每一幀的特徵值，將每段樣本音頻每一幀增加至對應的根節點之後，形成對應關係；步驟5：將所述對應關係作為所述音頻特徵值對照表。

上述建立音頻特徵值對照表的過程中，計算特徵值的過程和所涉及到的原理和方式與求取待識別音頻資料的特徵值是相同的，在此不再贅述。差別就在於，在建立音頻特徵值對照表的時候，需要以特徵值作為根節點，按照每段樣本音頻每一幀的特徵值，將每段樣本音頻每一幀增加至對應的根節點之後，形成對應關係。具體地，假設原始獲取的是12維的向量，那麼最終得到的建立音頻特徵值對照表可以如圖4所示。

為了使得後續可以快速識別，不僅可以包括如圖4所示的音頻特徵值對照表，還可以特徵陣列，記錄的是每段樣本音頻的特徵值。

因為向量是12維的，那麼特徵值就有2048(2的11次方)種可能性，因此音頻特徵值對照表就對應有2048個根節點。每個根節點的後續儲存就是所有特徵值與之對應的音頻資料幀(即，哪個聲音信號的哪一幀)。舉例：第0個根節點，對應儲存所有特徵值為0的指紋資訊，如第i個聲音的第j幀對應特徵值為0，第k個聲音的第l幀特徵值為0，則第0個根節點下將儲存這些聲音片段資訊(i,j)(k,l)。

為了實現最終的檢索識別，可以透過建立投票矩陣的方式確定較為準確的匹配結果，具體地，可以包括：建立投票矩陣，其中，投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的，即，該投票矩陣可以是一個二維矩陣，該二維矩陣的維數代表了資料庫中有多少樣本音頻，即資料庫中有多少聲音信號，以及每個聲音信號最長有多少資料幀。在建立完投票矩陣之後，可以對待識別音頻資料的每一幀執行以下操作：從音頻特徵值對照表中，查找出與當前幀的特徵值相同的一幀或多幀音頻資料，在所述投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記；然後，將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。

具體地，可以如圖5所示，對於待識別音頻資料，計算出該段音頻資料每個幀的特徵值後，可以依次根據音頻特徵值對照表進行投票操作。具體地，對於待識別音頻資料的每一幀信號，先找到其特徵值v，並在特徵索引表中找到對應的根節點，該節點下儲存了所有特徵值為v的聲音資訊，例如，待識別音頻資料第一幀的特徵值為2046，那麼找到音頻特徵值對照表的第2046個根節點，該節點下儲存了第k-1個聲音信號的第l幀的特徵為2046，因此，可以在投票矩陣中的(k-1,l)處做+1操作，這一+1操作就表示投票，而該投票操作的意思就是這段待識別音頻資料可能來自第k-1個聲音源的第l幀附近。

對該待識別音頻資料的所有幀的特徵值進行投票後，可以統計最終的投票結果，以確定哪些聲音的哪些幀獲得的投票較多，說明待識別信號與資料庫中的這些聲音段最為相似。

然而，值得注意的是，在投票的時候是存在一個換算過程的，即，如果匹配出待識別音頻資料的第1幀與第5個樣本音頻的第3幀的特徵值相同，那麼後續如果匹配出待識別音頻資料的第4幀與第5個樣本音頻的第6幀的特徵值相同，那麼這個時候標記的位置也是第5個樣本音頻的第3幀。即，所有的匹配的結果都投票在某個樣本音頻第一次被匹配出的位置。或者說，如果匹配出待識別音頻資料的第3幀與第8個樣本音頻的第6幀的特徵值相同(這是第一次與該樣本音頻匹配上)，那麼後續如果匹配出待識別音頻資料的第4幀與第8個樣本音頻的第7幀的特徵值相同，那麼這個時候標記的位置也是第8個樣本音頻的第6幀。即，所有的匹配的結果都投票在某個樣本音頻第一次被匹配出的位置。

當然，也可以有其它的匹配方式，例如，待識別音頻資料每一幀特徵值的匹配都是直接對應到某一個樣本音頻，然後最終統計與每個樣本音頻的匹配度，這樣操作也是可行的。但是相對於匹配出某一樣本音頻的某一幀作為起始幀的方式，確定某一幀的方式顯然是更為精確的。

在實際實現的時候，有時可以匹配出多個滿足條件的結果，為了使得最終的結果更為準確，可以設定一個匹配閾值(T)，只有超出該閾值T，才進行後續的精確匹配。例如：如果找到第i個聲音的第3幀處獲取的投票大於閾值，那麼從第3幀開始進行片段的特徵值比較。如圖6所示，假設voice_i的第3幀的特徵值為f3，待識別信號的第一幀的特徵值為f0，那麼比較方式就是將f3和f0轉成二進位序列後，統計對應位不同的個數，當然這種比較可以透過查表的方式進行。具體比較的時候，是用11位的二進位序列進行比較，這個11位的二進位序列其實對應一個十進位的特徵值，因此，兩個特徵值的相似性比較，先將其還原到二進位的序列，統計這兩個序列對應位不同的個數。因為待識別的音頻資料中一般有多幀的資料，可以將多幀的比較結果相加，將最終統計結果最小值對應的投票位置確定為識別結果。

即，可以將待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，查找出與所述待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻，然後，從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果，具體地，可以對該一段或多段樣本音頻中的每段音頻執行以下操作：確定待識別音頻資料的幀數，並獲取所述待識別音頻資料每一幀的二進位序列，確定所述待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數；將一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。

例如：二進位序列一為0010001，二進位序列二為1010000，那麼比較結果就是1。

上例所提供的音頻資料識別方法具有較好的穩固性，同時提出的識別方法識別速度較快，且可以應用在後續的電視互動、音樂識別等場景中，在本例中，在頻域不是提取極值點，而是利用幀與幀之間、幀內之間的比較關係，獲得一個相對穩定的編碼結果，這種編碼方式可以有效對抗一些雜訊的干擾，因為具有較好的音頻識別效果。

基於同一發明構思，本發明實施例中還提供了一種音頻識別裝置，如下面的實施例所述。由於音頻識別裝置解決問題的原理與音頻識別方法相似，因此音頻識別裝置的實施可以參見音頻識別方法的實施，重複之處不再贅述。以下所使用的，術語“單元”或者“模組”可以實現預定功能的軟體和/或硬體的組合。儘管以下實施例所描述的裝置較佳地以軟體來實現，但是硬體，或者軟體和硬體的組合的實現也是可能並被構想的。圖7是本發明實施例的音頻識別裝置的一種結構框圖，如圖7所示，可以包括：分幀模組701、計算模組702和匹配識別模組703，下面對該結構進行說明。

分幀模組701，可以用於對待識別音頻資料進行分幀處理，得到多幀音頻資料；計算模組702，可以用於根據幀與幀之間和幀內的音頻變化趨勢，計算得到所述待識別音頻資料每一幀的特徵值；匹配識別模組703，可以用於將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。

在一個實施方式中，上述音頻識別裝置還可以包括：對照表建立模組，用於預先建立音頻特徵值對照表，所述對照表建立模組包括：獲取單元，用於獲取樣本資料，其中，所述樣本資料包括多段樣本音頻；分幀單元，用於對所述多段樣本音頻中的各段樣本音頻進行分幀處理，得到每段樣本音頻的多幀音頻資料；計算單元，用於根據幀與幀之間和幀內的音頻變化趨勢，計算得到每段樣本音頻每一幀的特徵值；關係確定單元，用於以特徵值作為根節點，按照每段樣本音頻每一幀的特徵值，將每段樣本音頻每一幀增加至對應的根節點之後，形成對應關係；生成單元，用於將所述對應關係作為所述音頻特徵值對照表。

在一個實施方式中，匹配識別模組703可以包括：建立單元，用於建立投票矩陣，其中，所述投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的；執行單元，用於對所述待識別音頻資料每一幀執行以下操作：從所述音頻特徵值對照表中，查找出與當前幀的特徵值相同的一幀或多幀音頻資料，在所述投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記；結果生成單元，用於將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。

在一個實施方式中，計算模組702可以包括：第一轉換單元，用於將所述待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料；第二轉換單元，用於根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值，將每一幀音頻資料的向量資料轉換為一個二進位序列；特徵值生成單元，用於將轉換得到的二進位序列作為對應的一幀音頻資料的特徵值，或者將二進位序列對應的十進位數值作為對應的一幀資料的特徵值。

在一個實施方式中，第二轉換單元具體可以用於按照以下公式，將每一幀音頻資料的向量資料轉換為一個二進位序列：

diff=-n*t1-mt2+mt3+n2*t4

其中，d _i-2,j表示第i-2幀音頻資料第j個維度的向量值，d _i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值，d _i-1,j表示第i-1幀音頻資料第j個維度的向量值、d _i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d _i+1,j表示第i+1幀音頻資料第j個維度的向量值、d _i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d _i+2,j表示第i+2幀音頻資料第j個維度的向量值、d _i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值，t1、t2、t3、t4、diff表示中間參量、Bit _i,j表示第i幀音頻資料二進位序列第j個位元位的取值，n、m為定量係數。

在一個實施方式中，第一轉換單元具體可以用於透過MCFF特徵參數提取演算法，將所述待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料。

在一個實施方式中，預定維數可以是12。

在一個實施方式中，匹配識別模組703可以包括：識別單元，用於將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，查找出與所述待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻；匹配單元，用於從所述一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果。

在一個實施方式中，匹配單元可以包括：執行子單元，用於對所述一段或多段樣本音頻中的每段音頻執行以下操作：確定所述待識別音頻資料的幀數，並獲取所述待識別音頻資料每一幀的二進位序列，獲取當前段樣本音頻與所述待識別音頻資料對應的每一幀資料的二進位序列，確定所述待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數；匹配子單元，用於將所述一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。

在一個實施方式中，分幀模組701具體可以用於按照相鄰幀以預定毫秒數重疊的劃分規則，對所述待識別音頻資料進行分幀處理。

本申請提供的一種音頻識別方法和裝置，透過根據幀與幀之間和幀內的音頻變化趨勢，計算得到待識別音頻資料每一幀的特徵值，然後將每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，從而得到識別結果，即，在頻域不是提取極值點，而是利用幀與幀之間、幀內之間的比較關係，獲得一個相對穩定的編碼結果，從而可以有效地對抗雜訊的干擾，使得識別結果更為準確。利用本申請實施方案，不僅可以大大提高抗干擾的能力，有效提高識別成功率和識別結果的準確度。

本申請中各個實施例所涉及的上述描述僅是本申請中的一些實施例中的應用，在某些標準、模型、方法的基礎上略加修改後的實施方式也可以實行上述本申請各實施例的方案。當然，在符合本申請上述各實施例的中所述的處理方法步驟的其他無創造性的變形，仍然可以實現相同的申請，在此不再贅述。

雖然本申請提供了如實施例或流程圖所述的方法操作步驟，但基於常規或者無創造性的勞動可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時，可以按照實施例或者附圖所示的方法循序執行或者並行執行(例如並行處理器或者多執行緒處理的環境)。

上述實施例闡明的裝置或模組，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。為了描述的方便，描述以上裝置時以功能分為各種模組分別描述。在實施本申請時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。當然，也可以將實現某功能的模組由多個子模組或子單元組合實現。

本申請中所述的方法、裝置或模組可以以電腦可讀程式碼方式實現控制器按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以透過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。

本申請所述裝置中的部分模組可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、對象、元件、資料結構、類等等。也可以在分散式運算環境中實踐本申請，在這些分散式運算環境中，由透過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。

透過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的硬體的方式來實現。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，也可以透過資料移轉的實施過程中體現出來。該電腦軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，移動終端，伺服器，或者網路設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。

本說明書中的各個實施例採用遞進的方式描述，各個實施例之間相同或相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。本申請的全部或者部分可用於眾多通用或專用的電腦系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或可擕式設備、平板型設備、移動通信終端、多處理器系統、基於微處理器的系統、可程式設計的電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式運算環境等等。

雖然透過實施例描繪了本申請，本領域普通技術人員知道，本申請有許多變形和變化而不脫離本申請的精神，希望所附的申請專利範圍包括這些變形和變化而不脫離本申請的精神。

Claims

一種音頻識別方法，其特徵在於，該方法包括：對待識別音頻資料進行分幀處理，得到多幀音頻資料；根據幀與幀之間和幀內的音頻變化趨勢，計算得到該待識別音頻資料每一幀的特徵值，包括：將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料；根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值，將每一幀音頻資料的向量資料轉換為一個二進位序列；將轉換得到的二進位序列作為對應的一幀音頻資料的特徵值，或者將二進位序列對應的十進位數值作為對應的一幀音頻資料的特徵值；以及將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，該音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。
根據申請專利範圍第1項所述的方法，其中，預先建立音頻特徵值對照表包括：獲取樣本資料，其中，該樣本資料包括多段樣本音頻；對該多段樣本音頻中的各段樣本音頻進行分幀處理，得到每段樣本音頻的多幀音頻資料；根據幀與幀之間和幀內的音頻變化趨勢，計算得到每段樣本音頻每一幀的特徵值；以特徵值作為根節點，按照每段樣本音頻每一幀的特徵值，將每段樣本音頻每一幀增加至對應的根節點之後，形成對應關係；將該對應關係作為該音頻特徵值對照表。
根據申請專利範圍第2項所述的方法，其中，將該每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，包括：建立投票矩陣，其中，該投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的；對該待識別音頻資料每一幀執行以下操作：從該音頻特徵值對照表中，查找出與當前幀的特徵值相同的一幀或多幀音頻資料，在該投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記；將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。
根據申請專利範圍第1項所述的方法，其中，根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值，將每一幀音頻資料的向量資料轉換為一個二進位序列，包括：按照以下公式，將每一幀音頻資料的向量資料轉換為一個二進位序列： diff=-n*t1-mt2+mt3+n2*t4其中，d _i-2,j表示第i-2幀音頻資料第j個維度的向量值，d _i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值，d _i-1,j表示第i-1幀音頻資料第j個維度的向量值、d _i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d _i+1,j表示第i+1幀音頻資料第j個維度的向量值、d _i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d _i+2,j表示第i+2幀音頻資料第j個維度的向量值、d _i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值，t1、t2、t3、t4、diff表示中間參量、Bit _i,j表示第i幀音頻資料二進位序列第j個位元位的取值，n、m為定量係數。
根據申請專利範圍第1項所述的方法，其中，將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料，包括：透過MFCC特徵參數提取演算法，將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料。
根據申請專利範圍第1項所述的方法，其中，該預定維數為12。
根據申請專利範圍第1項所述的方法，其中，將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，包括：將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，查找出與該待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻；從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果。
根據申請專利範圍第7項所述的方法，其中，從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果，包括：對該一段或多段樣本音頻中的每段音頻執行以下操作：確定該待識別音頻資料的幀數，並獲取該待識別音頻資料每一幀的二進位序列，獲取當前段樣本音頻與該待識別音頻資料對應的每一幀資料的二進位序列，確定該待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數；將該一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。
根據申請專利範圍第1至8項中任一項所述的方法，其中，對待識別音頻資料進行分幀處理，包括：按照相鄰幀以預定毫秒數重疊的劃分規則，對該待識別音頻資料進行分幀處理。
一種音頻識別裝置，其特徵在於，包括：分幀模組，用於對待識別音頻資料進行分幀處理，得到多幀音頻資料；計算模組，用於根據幀與幀之間和幀內的音頻變化趨勢，計算得到該待識別音頻資料每一幀的特徵值；以及匹配識別模組，用於將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，得到識別結果，其中，該音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的，其中，該計算模組包括：第一轉換單元，用於將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料；第二轉換單元，用於根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值，將每一幀音頻資料的向量資料轉換為一個二進位序列；以及特徵值生成單元，用於將轉換得到的二進位序列作為對應的一幀音頻資料的特徵值，或者將二進位序列對應的十進位數值作為對應的一幀音頻資料的特徵值。
根據申請專利範圍第10項所述的裝置，其中，還包括：對照表建立模組，用於預先建立音頻特徵值對照表，該對照表建立模組包括：獲取單元，用於獲取樣本資料，其中，該樣本資料包括多段樣本音頻；分幀單元，用於對該多段樣本音頻中的各段樣本音頻進行分幀處理，得到每段樣本音頻的多幀音頻資料；計算單元，用於根據幀與幀之間和幀內的音頻變化趨勢，計算得到每段樣本音頻每一幀的特徵值；關係確定單元，用於以特徵值作為根節點，按照每段樣本音頻每一幀的特徵值，將每段樣本音頻每一幀增加至對應的根節點之後，形成對應關係；生成單元，用於將該對應關係作為該音頻特徵值對照表。
根據申請專利範圍第11項所述的裝置，其中，該匹配識別模組包括：建立單元，用於建立投票矩陣，其中，該投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的；執行單元，用於對該待識別音頻資料每一幀執行以下操作：從該音頻特徵值對照表中，查找出與當前幀的特徵值相同的一幀或多幀音頻資料，在該投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記；結果生成單元，用於將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。
根據申請專利範圍第10項所述的裝置，其中，該第二轉換單元具體用於按照以下公式，將每一幀音頻資料的向量資料轉換為一個二進位序列： diff=-n*t1-mt2+mt3+n2*t4其中，d _i-2,j表示第i-2幀音頻資料第j個維度的向量值，d _i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值，d _i-1,j表示第i-1幀音頻資料第j個維度的向量值、d _i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d _i+1,j表示第i+1幀音頻資料第j個維度的向量值、d _i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d _i+2,j表示第i+2幀音頻資料第j個維度的向量值、d _i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值，t1、t2、t3、t4、diff表示中間參量、Bit _i,j表示第i幀音頻資料二進位序列第j個位元位的取值，n、m為定量係數。
根據申請專利範圍第10項所述的裝置，其中，該第一轉換單元具體用於透過MFCC特徵參數提取演算法，將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料。
根據申請專利範圍第10項所述的裝置，其中，該預定維數為12。
根據申請專利範圍第10項所述的裝置，其中，該匹配識別模組包括：識別單元，用於將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別，查找出與該待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻；匹配單元，用於從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果。
根據申請專利範圍第16項所述的裝置，其中，該匹配單元包括：執行子單元，用於對該一段或多段樣本音頻中的每段音頻執行以下操作：確定該待識別音頻資料的幀數，並獲取該待識別音頻資料每一幀的二進位序列，獲取當前段樣本音頻與該待識別音頻資料對應的每一幀資料的二進位序列，確定該待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數；匹配子單元，用於將該一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。
根據申請專利範圍第11至17項中任一項所述的裝置，其中，該分幀模組具體用於按照相鄰幀以預定毫秒數重疊的劃分規則，對該待識別音頻資料進行分幀處理。