TWI659410B - Audio recognition method and device - Google Patents

Audio recognition method and device Download PDF

Info

Publication number
TWI659410B
TWI659410B TW106112617A TW106112617A TWI659410B TW I659410 B TWI659410 B TW I659410B TW 106112617 A TW106112617 A TW 106112617A TW 106112617 A TW106112617 A TW 106112617A TW I659410 B TWI659410 B TW I659410B
Authority
TW
Taiwan
Prior art keywords
frame
audio
audio data
data
sample
Prior art date
Application number
TW106112617A
Other languages
English (en)
Other versions
TW201801066A (zh
Inventor
杜志軍
王楠
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201801066A publication Critical patent/TW201801066A/zh
Application granted granted Critical
Publication of TWI659410B publication Critical patent/TWI659410B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申請提供了一種音頻識別方法和裝置,其中,該方法包括:對待識別音頻資料進行分幀處理,得到多幀音頻資料;根據幀與幀之間和幀內的音頻變化趨勢,計算得到所述待識別音頻資料每一幀的特徵值;將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中,所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。利用本申請實施例提供的技術方案,可以大大提高抗干擾的能力、識別成功率和識別結果的準確度。

Description

音頻識別方法和裝置
本申請屬於資料處理技術領域,尤其關於一種音頻識別方法和裝置。
隨著智慧化水準的不斷提高,人們越來越多的生活都透過智能終端等實現。例如,近些年剛出現的電視互動、音頻識別等等。舉例而言,在播放車載電台,聽到電台中放一首歌,想知道這首歌的名字,如果按照以前的處理方式,最多是錄下來,然後問問朋友,或者是聽一下歌詞,然後網上搜索一下。
然而,隨著智慧化水準和識別技術的不斷發展,人們現在已經可以透過智能終端中直接實現對音頻的識別,只要開啟終端中的音樂識別功能,然後就可以自動識別出當前歌曲的歌名或者歌手等,更有甚至可以直接連接到音樂軟體播放該歌曲。
上述就是基於音頻指紋的電視互動或音樂識別的簡單實現場景,但是這一切都需要依賴於較為精準的音頻識別技術,目前,主流的音頻識別技術是:提取特徵點對,利用特徵點對對音頻進行識別判斷,具體地,如圖1所示, 首先將音樂轉換成語譜圖,在語譜圖上提取若干個如圖1所示的極值點。為了減少識別的難度,提升識別的效率,可以採取點對的方式進行識別,即,兩個極值點構成一個點對,如圖1所示示出了8個點對,識別時,如果存在一樣的點對則認為存在一個正確的匹配。
然而,由於受雜訊的影響,極值點不一定都在一致的位置出現,因此點對可以匹配上的機率比較低,另外,這些極值點容易受到雜訊的干擾,不是特別穩定,在雜訊較大的時候不能獲取較為穩定的識別結果。
針對現有的音頻識別技術中所存在的匹配成功率低、以及由於抗噪能力較弱而導致的識別準確率低的問題,目前未提出有效的解決方案。
本申請目的在於提供一種音頻識別方法和裝置,可以有效提高匹配成功率和識別結果的準確度。
本申請提供一種音頻識別方法和裝置是這樣實現的:一種音頻識別方法,所述方法包括:對待識別音頻資料進行分幀處理,得到多幀音頻資料;根據幀與幀之間和幀內的音頻變化趨勢,計算得到所述待識別音頻資料每一幀的特徵值;將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中, 所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。
一種音頻識別裝置裝置,所述裝置包括:分幀模組,用於對待識別音頻資料進行分幀處理,得到多幀音頻資料;計算模組,用於根據幀與幀之間和幀內的音頻變化趨勢,計算得到所述待識別音頻資料每一幀的特徵值;匹配識別模組,用於將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中,所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。
本申請提供的一種音頻識別方法和裝置,透過根據幀與幀之間和幀內的音頻變化趨勢,計算得到待識別音頻資料每一幀的特徵值,然後將每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,從而得到識別結果,即,在頻域不是提取極值點,而是利用幀與幀之間、幀內之間的比較關係,獲得一個相對穩定的編碼結果,從而可以有效地對抗雜訊的干擾,使得識別結果更為準確。利用本申請實施方案,不僅可以大大提高抗干擾的能力,還可以有效提高識別成功率和識別結果的準確度。
701‧‧‧分幀模組
702‧‧‧計算模組
703‧‧‧匹配識別模組
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附 圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是現有的基於提取特徵點對的音頻識別方法示意圖;圖2是本申請提供的音頻識別方法一種實施例的方法流程圖;圖3是本申請提供的特徵向量示意圖;圖4是本申請提供的音頻特徵值對照表示意圖;圖5是本申請提供的待識別音頻資料識別匹配示意圖;圖6是本申請提供的二進位位元位求和示意圖;圖7是本申請提供的音頻識別裝置的模組結構示意圖。
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。
圖2是本申請所述一種音頻識別方法一個實施例的方法流程圖。雖然本申請提供了如下述實施例或附圖所示的方法操作步驟或裝置結構,但基於常規或者無需創造性的勞動在所述方法或裝置中可以包括更多或者更少的操作步驟或模組單元。在邏輯性上不存在必要因果關係的步驟或結構中,這些步驟的執行順序或裝置的模組結構不限於本申請實施例描述及附圖所示的執行順序或模組結構。所述的方法或模組結構的在實際中的裝置或終端產品應用時,可以按照實施例或者附圖所示的方法或模組結構連接進行循序執行或者並行執行(例如並行處理器或者多執行緒處理的環境,甚至分散式處理環境)。
具體的如圖2所述,本申請一種實施例提供的一種音頻識別方法可以包括:
S1:對待識別音頻資料進行分幀處理,得到多幀音頻資料;待識別的音頻資料可以是音頻識別軟體所錄取的一小段語音,或者是在電視互動上的一段語音,一般主要是為 了識別出這段語音的出處。在錄取後,可以將其進行分幀處理,例如,可以每30ms作為一幀資料,當然,具體選擇多少ms作為一幀音頻資料的長度,本申請不作限定,可以按照實際需要選擇,20ms,25ms,40ms等都可以。但是需要保證的是,待識別音頻資料分幀處理的規則需要與預先建立的音頻特徵值對照表時的分幀原則相同。
進一步的,因為在進行匹配識別的時候,由於分幀的影響,難免會出現偏差,為了減少偏差的影響,在分幀處理的時候,需要設定幀與幀之間是重疊的,以30ms作為一幀為例進行說明,第一幀是0到30ms,那麼第二幀就是16ms到45ms,第三幀就是30ms到60ms,即,按照相鄰幀以預定毫秒數重疊的劃分規則,對所述待識別音頻資料進行分幀處理,也就是說,相鄰幀之間是重疊的,從而避免了幀劃分造成的偏差對匹配結果的影響。
在進行後續的資料處理前,可以對每一幀音頻資料進行快速傅立葉轉換(Fast Fourier Transform,簡稱為FFT)變換,從而將音頻資料轉換至頻域,在頻域對信號進行分析。
S2:根據幀與幀之間和幀內的音頻變化趨勢,計算得到所述待識別音頻資料每一幀的特徵值;在確定特徵的過程中,可以針對上述FFT變換後得到的頻域結果,利用MFCC特徵參數提取演算法,獲得預定維數的特徵向量(例如12維),之所以採用MFCC特徵參數提取演算法,是因為MFCC特徵在語音辨識中能夠提 取出信號中的明顯變化區域,具有較好的區分性。MFCC是Mel頻率倒譜系數的縮寫,其中,Mel頻率是基於人耳聽覺特性提出來的,它與Hz頻率成非線性對應關係。Mel頻率倒譜系數(MFCC)則是利用它們之間的這種關係,計算得到的Hz頻譜特徵,由於Mel頻率與Hz頻率之間非線性的對應關係,使得MFCC隨著頻率的提高,其計算精度隨之下降。因此,在應用中常常只使用低頻MFCC,而丟棄中高頻MFCC。
在經過MFCC特徵計算之後,每一幀的信號就會變成一個預定維數的向量,假設是12維的向量,那麼可以如圖3所示,第i幀信號就可以表示為(d i0,d i1...d i10,d i11),d為float型數據。進一步的,為了後續比較和匹配更為簡單,可以對得到的向量進行編碼,轉換為二進位序列或者是與二進位序列對應的正數,具體地,按照圖3所示的幀的特徵向量表示,可以按照以下方式進行編碼轉換:
diff=-n*t1-mt2+mt3+n2*t4
其中,d i-2,j 表示第i-2幀音頻資料第j個維度的向量值,d i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值, d i-1,j 表示第i-1幀音頻資料第j個維度的向量值、d i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d i+1,j 表示第i+1幀音頻資料第j個維度的向量值、d i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d i+2,j 表示第i+2幀音頻資料第j個維度的向量值、d i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值,t1、t2、t3、t4、diff表示中間參量、Bit i,j 表示第i幀音頻資料二進位序列第j個位元位的取值,nm為定量係數。
由上述公式可以看出,二進位序列計算的過程中,是依據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值計算得到的,即,先將待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料;然後,根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值,將每一幀音頻資料的向量資料轉換為一個二進位序列。
具體地,公式中是根據前後兩幀資料的向量值,以及同一幀內相鄰向量值計算得到的,這樣就有效地將幀與幀之間、幀內之間的關係加入了特徵值的計算中。
然而,值得注意是,上述nm就可以按照需要選取,例如,可以分別取值為2和3,那麼對應的:diff=-2*t1-t2+t3+2*t4。
進一步的,上述所列舉的例子和公式中,是以相鄰兩 幀之間作為計算依據的,在實際執行的時候,也可以是相鄰的三幀或者四幀等等,可以根據實際的計算精度和處理器的處理能力選取合適的幀數,當然,當幀數選取不同的時候,上述公式也需要進行適應性的調整,但是調整的思路是近似的,本申請對此不作限定。
按照上述方式計算得到二進位序列的過程中,如果原本向量維度是N,那麼計算得到的二進位序列的位數就是N-1,例如,如果得到的是12維的特徵向量,那麼得到的二進位序列就是11位。
在本例中,可以以得到的二進位序列作為特徵值,也可以二進位序列所對應的十進位作為特徵值,舉例而言,如果某一幀音頻資料的二進位序列為00000000101,那麼可以以00000000101作為最終的特徵值,也可以5作為最終的特徵值。
總的來說,可以利用一幀內相鄰關係的係數做比較,成為幀內係數的比較,然後利用前後兩幀的比較資訊,綜合這些前後幀和幀內的資訊形成最後的值diff,這個值與0的比較結果構成最終對應位的編碼值。具體地,一幀信號經MFCC變成12維的特徵係數向量後,再經過編碼變成11位的二值序列(Bit i,0,Bit i,1...Bit i,10),如果將該二進位序列轉換為十進位,那麼對應的取值範圍就是0到2的11次方。
S3:將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中,所述音頻特徵值對照表是根據樣本資料幀與幀之間和 幀內的音頻變化趨勢建立的。
為了實現對音頻資料的有效匹配,需要預先建立一個音頻特徵值對照表,這個對照表中所記錄就是每一幀資料和這幀資料所對應的特徵值,當然,如果音頻特徵值對照表中是以二進位方式表示特徵值的,那麼相應的在音頻識別的時候,待識別音頻資料也就轉換為二進位序列作為特徵值,如果音頻特徵值對照表中是以十進位方式表示特徵值的,那麼相應的在音頻識別的時候,待識別音頻資料也就轉換為十進位作為特徵值。
具體地,可以按照以下方式建立音頻特徵值對照表包括:步驟1:獲取樣本資料,其中,所述樣本資料包括多段樣本音頻;步驟2:對所述多段樣本音頻中的各段樣本音頻進行分幀處理,得到每段樣本音頻的多幀音頻資料;步驟3:根據幀與幀之間和幀內的音頻變化趨勢,計算得到每段樣本音頻每一幀的特徵值;步驟4:以特徵值作為根節點,按照每段樣本音頻每一幀的特徵值,將每段樣本音頻每一幀增加至對應的根節點之後,形成對應關係;步驟5:將所述對應關係作為所述音頻特徵值對照表。
上述建立音頻特徵值對照表的過程中,計算特徵值的過程和所涉及到的原理和方式與求取待識別音頻資料的特 徵值是相同的,在此不再贅述。差別就在於,在建立音頻特徵值對照表的時候,需要以特徵值作為根節點,按照每段樣本音頻每一幀的特徵值,將每段樣本音頻每一幀增加至對應的根節點之後,形成對應關係。具體地,假設原始獲取的是12維的向量,那麼最終得到的建立音頻特徵值對照表可以如圖4所示。
為了使得後續可以快速識別,不僅可以包括如圖4所示的音頻特徵值對照表,還可以特徵陣列,記錄的是每段樣本音頻的特徵值。
因為向量是12維的,那麼特徵值就有2048(2的11次方)種可能性,因此音頻特徵值對照表就對應有2048個根節點。每個根節點的後續儲存就是所有特徵值與之對應的音頻資料幀(即,哪個聲音信號的哪一幀)。舉例:第0個根節點,對應儲存所有特徵值為0的指紋資訊,如第i個聲音的第j幀對應特徵值為0,第k個聲音的第l幀特徵值為0,則第0個根節點下將儲存這些聲音片段資訊(i,j)(k,l)。
為了實現最終的檢索識別,可以透過建立投票矩陣的方式確定較為準確的匹配結果,具體地,可以包括:建立投票矩陣,其中,投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的,即,該投票矩陣可以是一個二維矩陣,該二維矩陣的維數代表了資料庫中有多少樣本音頻,即資料庫中有多少聲音信號,以及每個聲音信號最長有多少資料幀。在建立完投票矩陣之後,可以對待識別音 頻資料的每一幀執行以下操作:從音頻特徵值對照表中,查找出與當前幀的特徵值相同的一幀或多幀音頻資料,在所述投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記;然後,將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。
具體地,可以如圖5所示,對於待識別音頻資料,計算出該段音頻資料每個幀的特徵值後,可以依次根據音頻特徵值對照表進行投票操作。具體地,對於待識別音頻資料的每一幀信號,先找到其特徵值v,並在特徵索引表中找到對應的根節點,該節點下儲存了所有特徵值為v的聲音資訊,例如,待識別音頻資料第一幀的特徵值為2046,那麼找到音頻特徵值對照表的第2046個根節點,該節點下儲存了第k-1個聲音信號的第l幀的特徵為2046,因此,可以在投票矩陣中的(k-1,l)處做+1操作,這一+1操作就表示投票,而該投票操作的意思就是這段待識別音頻資料可能來自第k-1個聲音源的第l幀附近。
對該待識別音頻資料的所有幀的特徵值進行投票後,可以統計最終的投票結果,以確定哪些聲音的哪些幀獲得的投票較多,說明待識別信號與資料庫中的這些聲音段最為相似。
然而,值得注意的是,在投票的時候是存在一個換算過程的,即,如果匹配出待識別音頻資料的第1幀與第5個樣本音頻的第3幀的特徵值相同,那麼後續如果匹配出待識別音頻資料的第4幀與第5個樣本音頻的第6幀的特 徵值相同,那麼這個時候標記的位置也是第5個樣本音頻的第3幀。即,所有的匹配的結果都投票在某個樣本音頻第一次被匹配出的位置。或者說,如果匹配出待識別音頻資料的第3幀與第8個樣本音頻的第6幀的特徵值相同(這是第一次與該樣本音頻匹配上),那麼後續如果匹配出待識別音頻資料的第4幀與第8個樣本音頻的第7幀的特徵值相同,那麼這個時候標記的位置也是第8個樣本音頻的第6幀。即,所有的匹配的結果都投票在某個樣本音頻第一次被匹配出的位置。
當然,也可以有其它的匹配方式,例如,待識別音頻資料每一幀特徵值的匹配都是直接對應到某一個樣本音頻,然後最終統計與每個樣本音頻的匹配度,這樣操作也是可行的。但是相對於匹配出某一樣本音頻的某一幀作為起始幀的方式,確定某一幀的方式顯然是更為精確的。
在實際實現的時候,有時可以匹配出多個滿足條件的結果,為了使得最終的結果更為準確,可以設定一個匹配閾值(T),只有超出該閾值T,才進行後續的精確匹配。例如:如果找到第i個聲音的第3幀處獲取的投票大於閾值,那麼從第3幀開始進行片段的特徵值比較。如圖6所示,假設voice_i的第3幀的特徵值為f3,待識別信號的第一幀的特徵值為f0,那麼比較方式就是將f3和f0轉成二進位序列後,統計對應位不同的個數,當然這種比較可以透過查表的方式進行。具體比較的時候,是用11位的二進位序列進行比較,這個11位的二進位序列其實 對應一個十進位的特徵值,因此,兩個特徵值的相似性比較,先將其還原到二進位的序列,統計這兩個序列對應位不同的個數。因為待識別的音頻資料中一般有多幀的資料,可以將多幀的比較結果相加,將最終統計結果最小值對應的投票位置確定為識別結果。
即,可以將待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,查找出與所述待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻,然後,從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果,具體地,可以對該一段或多段樣本音頻中的每段音頻執行以下操作:確定待識別音頻資料的幀數,並獲取所述待識別音頻資料每一幀的二進位序列,確定所述待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數;將一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。
例如:二進位序列一為0010001,二進位序列二為1010000,那麼比較結果就是1。
上例所提供的音頻資料識別方法具有較好的穩固性,同時提出的識別方法識別速度較快,且可以應用在後續的電視互動、音樂識別等場景中,在本例中,在頻域不是提取極值點,而是利用幀與幀之間、幀內之間的比較關係,獲得一個相對穩定的編碼結果,這種編碼方式可以有效對抗一些雜訊的干擾,因為具有較好的音頻識別效果。
基於同一發明構思,本發明實施例中還提供了一種音頻識別裝置,如下面的實施例所述。由於音頻識別裝置解決問題的原理與音頻識別方法相似,因此音頻識別裝置的實施可以參見音頻識別方法的實施,重複之處不再贅述。以下所使用的,術語“單元”或者“模組”可以實現預定功能的軟體和/或硬體的組合。儘管以下實施例所描述的裝置較佳地以軟體來實現,但是硬體,或者軟體和硬體的組合的實現也是可能並被構想的。圖7是本發明實施例的音頻識別裝置的一種結構框圖,如圖7所示,可以包括:分幀模組701、計算模組702和匹配識別模組703,下面對該結構進行說明。
分幀模組701,可以用於對待識別音頻資料進行分幀處理,得到多幀音頻資料;計算模組702,可以用於根據幀與幀之間和幀內的音頻變化趨勢,計算得到所述待識別音頻資料每一幀的特徵值;匹配識別模組703,可以用於將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中,所述音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。
在一個實施方式中,上述音頻識別裝置還可以包括:對照表建立模組,用於預先建立音頻特徵值對照表,所述對照表建立模組包括:獲取單元,用於獲取樣本資料,其中,所述樣本資料包括多段樣本音頻;分幀單元,用於對 所述多段樣本音頻中的各段樣本音頻進行分幀處理,得到每段樣本音頻的多幀音頻資料;計算單元,用於根據幀與幀之間和幀內的音頻變化趨勢,計算得到每段樣本音頻每一幀的特徵值;關係確定單元,用於以特徵值作為根節點,按照每段樣本音頻每一幀的特徵值,將每段樣本音頻每一幀增加至對應的根節點之後,形成對應關係;生成單元,用於將所述對應關係作為所述音頻特徵值對照表。
在一個實施方式中,匹配識別模組703可以包括:建立單元,用於建立投票矩陣,其中,所述投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的;執行單元,用於對所述待識別音頻資料每一幀執行以下操作:從所述音頻特徵值對照表中,查找出與當前幀的特徵值相同的一幀或多幀音頻資料,在所述投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記;結果生成單元,用於將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。
在一個實施方式中,計算模組702可以包括:第一轉換單元,用於將所述待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料;第二轉換單元,用於根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值,將每一幀音頻資料的向量資料轉換為一個二進位序列;特徵值生成單元,用於將轉換得到的二進位序列作為對應的一幀音頻資料的特徵值,或者將二進位序列對應的十進位數值作為對應的一幀資料的特徵值。
在一個實施方式中,第二轉換單元具體可以用於按照以下公式,將每一幀音頻資料的向量資料轉換為一個二進位序列:
diff=-n*t1-mt2+mt3+n2*t4
其中,d i-2,j 表示第i-2幀音頻資料第j個維度的向量值,d i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值,d i-1,j 表示第i-1幀音頻資料第j個維度的向量值、d i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d i+1,j 表示第i+1幀音頻資料第j個維度的向量值、d i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d i+2,j 表示第i+2幀音頻資料第j個維度的向量值、d i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值,t1、t2、t3、t4、diff表示中間參量、Bit i,j 表示第i幀音頻資料二進位序列第j個位元位的取值,nm為定量係數。
在一個實施方式中,第一轉換單元具體可以用於透過MCFF特徵參數提取演算法,將所述待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料。
在一個實施方式中,預定維數可以是12。
在一個實施方式中,匹配識別模組703可以包括:識別單元,用於將所述待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,查找出與所述待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻;匹配單元,用於從所述一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果。
在一個實施方式中,匹配單元可以包括:執行子單元,用於對所述一段或多段樣本音頻中的每段音頻執行以下操作:確定所述待識別音頻資料的幀數,並獲取所述待識別音頻資料每一幀的二進位序列,獲取當前段樣本音頻與所述待識別音頻資料對應的每一幀資料的二進位序列,確定所述待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數;匹配子單元,用於將所述一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。
在一個實施方式中,分幀模組701具體可以用於按照相鄰幀以預定毫秒數重疊的劃分規則,對所述待識別音頻資料進行分幀處理。
本申請提供的一種音頻識別方法和裝置,透過根據幀與幀之間和幀內的音頻變化趨勢,計算得到待識別音頻資料每一幀的特徵值,然後將每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,從而得到識別結果,即,在頻域不是提取極值點,而是利用幀與幀之間、幀內 之間的比較關係,獲得一個相對穩定的編碼結果,從而可以有效地對抗雜訊的干擾,使得識別結果更為準確。利用本申請實施方案,不僅可以大大提高抗干擾的能力,有效提高識別成功率和識別結果的準確度。
本申請中各個實施例所涉及的上述描述僅是本申請中的一些實施例中的應用,在某些標準、模型、方法的基礎上略加修改後的實施方式也可以實行上述本申請各實施例的方案。當然,在符合本申請上述各實施例的中所述的處理方法步驟的其他無創造性的變形,仍然可以實現相同的申請,在此不再贅述。
雖然本申請提供了如實施例或流程圖所述的方法操作步驟,但基於常規或者無創造性的勞動可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式,不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時,可以按照實施例或者附圖所示的方法循序執行或者並行執行(例如並行處理器或者多執行緒處理的環境)。
上述實施例闡明的裝置或模組,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。為了描述的方便,描述以上裝置時以功能分為各種模組分別描述。在實施本申請時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。當然,也可以將實現某功能的模組由多個子模組或子單元組合實現。
本申請中所述的方法、裝置或模組可以以電腦可讀程 式碼方式實現控制器按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
本申請所述裝置中的部分模組可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、對象、元件、資料結構、類等等。也可以在分散式運算環境中實踐本申請,在這些分散式運算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中,程式模組可以位於包括存放裝 置在內的本地和遠端電腦儲存媒體中。
透過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的硬體的方式來實現。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,也可以透過資料移轉的實施過程中體現出來。該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,移動終端,伺服器,或者網路設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。
本說明書中的各個實施例採用遞進的方式描述,各個實施例之間相同或相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。本申請的全部或者部分可用於眾多通用或專用的電腦系統環境或配置中。例如:個人電腦、伺服器電腦、手持設備或可擕式設備、平板型設備、移動通信終端、多處理器系統、基於微處理器的系統、可程式設計的電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式運算環境等等。
雖然透過實施例描繪了本申請,本領域普通技術人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本申請的精神。

Claims (18)

  1. 一種音頻識別方法,其特徵在於,該方法包括:對待識別音頻資料進行分幀處理,得到多幀音頻資料;根據幀與幀之間和幀內的音頻變化趨勢,計算得到該待識別音頻資料每一幀的特徵值,包括:將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料;根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值,將每一幀音頻資料的向量資料轉換為一個二進位序列;將轉換得到的二進位序列作為對應的一幀音頻資料的特徵值,或者將二進位序列對應的十進位數值作為對應的一幀音頻資料的特徵值;以及將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中,該音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的。
  2. 根據申請專利範圍第1項所述的方法,其中,預先建立音頻特徵值對照表包括:獲取樣本資料,其中,該樣本資料包括多段樣本音頻;對該多段樣本音頻中的各段樣本音頻進行分幀處理,得到每段樣本音頻的多幀音頻資料;根據幀與幀之間和幀內的音頻變化趨勢,計算得到每段樣本音頻每一幀的特徵值;以特徵值作為根節點,按照每段樣本音頻每一幀的特徵值,將每段樣本音頻每一幀增加至對應的根節點之後,形成對應關係;將該對應關係作為該音頻特徵值對照表。
  3. 根據申請專利範圍第2項所述的方法,其中,將該每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,包括:建立投票矩陣,其中,該投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的;對該待識別音頻資料每一幀執行以下操作:從該音頻特徵值對照表中,查找出與當前幀的特徵值相同的一幀或多幀音頻資料,在該投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記;將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。
  4. 根據申請專利範圍第1項所述的方法,其中,根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值,將每一幀音頻資料的向量資料轉換為一個二進位序列,包括:按照以下公式,將每一幀音頻資料的向量資料轉換為一個二進位序列: diff=-n*t1-mt2+mt3+n2*t4其中,d i-2,j 表示第i-2幀音頻資料第j個維度的向量值,d i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值,d i-1,j 表示第i-1幀音頻資料第j個維度的向量值、d i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d i+1,j 表示第i+1幀音頻資料第j個維度的向量值、d i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d i+2,j 表示第i+2幀音頻資料第j個維度的向量值、d i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值,t1、t2、t3、t4、diff表示中間參量、Bit i,j 表示第i幀音頻資料二進位序列第j個位元位的取值,nm為定量係數。
  5. 根據申請專利範圍第1項所述的方法,其中,將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料,包括:透過MFCC特徵參數提取演算法,將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料。
  6. 根據申請專利範圍第1項所述的方法,其中,該預定維數為12。
  7. 根據申請專利範圍第1項所述的方法,其中,將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,包括:將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,查找出與該待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻;從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果。
  8. 根據申請專利範圍第7項所述的方法,其中,從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果,包括:對該一段或多段樣本音頻中的每段音頻執行以下操作:確定該待識別音頻資料的幀數,並獲取該待識別音頻資料每一幀的二進位序列,獲取當前段樣本音頻與該待識別音頻資料對應的每一幀資料的二進位序列,確定該待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數;將該一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。
  9. 根據申請專利範圍第1至8項中任一項所述的方法,其中,對待識別音頻資料進行分幀處理,包括:按照相鄰幀以預定毫秒數重疊的劃分規則,對該待識別音頻資料進行分幀處理。
  10. 一種音頻識別裝置,其特徵在於,包括:分幀模組,用於對待識別音頻資料進行分幀處理,得到多幀音頻資料;計算模組,用於根據幀與幀之間和幀內的音頻變化趨勢,計算得到該待識別音頻資料每一幀的特徵值;以及匹配識別模組,用於將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,得到識別結果,其中,該音頻特徵值對照表是根據樣本資料幀與幀之間和幀內的音頻變化趨勢建立的,其中,該計算模組包括:第一轉換單元,用於將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料;第二轉換單元,用於根據每一幀音頻資料的向量資料相鄰維度之間的向量值和相鄰幀的向量值,將每一幀音頻資料的向量資料轉換為一個二進位序列;以及特徵值生成單元,用於將轉換得到的二進位序列作為對應的一幀音頻資料的特徵值,或者將二進位序列對應的十進位數值作為對應的一幀音頻資料的特徵值。
  11. 根據申請專利範圍第10項所述的裝置,其中,還包括:對照表建立模組,用於預先建立音頻特徵值對照表,該對照表建立模組包括:獲取單元,用於獲取樣本資料,其中,該樣本資料包括多段樣本音頻;分幀單元,用於對該多段樣本音頻中的各段樣本音頻進行分幀處理,得到每段樣本音頻的多幀音頻資料;計算單元,用於根據幀與幀之間和幀內的音頻變化趨勢,計算得到每段樣本音頻每一幀的特徵值;關係確定單元,用於以特徵值作為根節點,按照每段樣本音頻每一幀的特徵值,將每段樣本音頻每一幀增加至對應的根節點之後,形成對應關係;生成單元,用於將該對應關係作為該音頻特徵值對照表。
  12. 根據申請專利範圍第11項所述的裝置,其中,該匹配識別模組包括:建立單元,用於建立投票矩陣,其中,該投票矩陣是按照樣本音頻的數量和每段樣本音頻的幀數建立的;執行單元,用於對該待識別音頻資料每一幀執行以下操作:從該音頻特徵值對照表中,查找出與當前幀的特徵值相同的一幀或多幀音頻資料,在該投票矩陣中與當前幀的音頻特徵值相同的一幀或多幀音頻資料的對應位置進行投票標記;結果生成單元,用於將投票標記數最高且超出預設閾值的樣本音頻作為識別結果。
  13. 根據申請專利範圍第10項所述的裝置,其中,該第二轉換單元具體用於按照以下公式,將每一幀音頻資料的向量資料轉換為一個二進位序列: diff=-n*t1-mt2+mt3+n2*t4其中,d i-2,j 表示第i-2幀音頻資料第j個維度的向量值,d i-2,j+1表示第i-2幀音頻資料第j+1個維度的向量值,d i-1,j 表示第i-1幀音頻資料第j個維度的向量值、d i-1,j+1表示第i-1幀音頻資料第j+1個維度的向量值、d i+1,j 表示第i+1幀音頻資料第j個維度的向量值、d i+1,j+1表示第i+1幀音頻資料第j+1個維度的向量值、d i+2,j 表示第i+2幀音頻資料第j個維度的向量值、d i+2,j+1表示第i+2幀音頻資料第j+1個維度的向量值,t1、t2、t3、t4、diff表示中間參量、Bit i,j 表示第i幀音頻資料二進位序列第j個位元位的取值,nm為定量係數。
  14. 根據申請專利範圍第10項所述的裝置,其中,該第一轉換單元具體用於透過MFCC特徵參數提取演算法,將該待識別音頻資料的每一幀音頻資料轉換為一個預定維數的向量資料。
  15. 根據申請專利範圍第10項所述的裝置,其中,該預定維數為12。
  16. 根據申請專利範圍第10項所述的裝置,其中,該匹配識別模組包括:識別單元,用於將該待識別音頻資料每一幀的特徵值與預先建立的音頻特徵值對照表進行匹配識別,查找出與該待識別音頻資料的匹配度大於預設閾值的一段或多段樣本音頻;匹配單元,用於從該一段或多段樣本音頻中確定出匹配度最高的樣本音頻作為識別結果。
  17. 根據申請專利範圍第16項所述的裝置,其中,該匹配單元包括:執行子單元,用於對該一段或多段樣本音頻中的每段音頻執行以下操作:確定該待識別音頻資料的幀數,並獲取該待識別音頻資料每一幀的二進位序列,獲取當前段樣本音頻與該待識別音頻資料對應的每一幀資料的二進位序列,確定該待識別音頻資料每一幀的二進位序列與所述與待識別音頻資料對應的每一幀資料的二進位序列之間相同位元位置位元值不同的位數;匹配子單元,用於將該一段或多段樣本音頻中位元值不同的位數最少的樣本音頻作為識別結果。
  18. 根據申請專利範圍第11至17項中任一項所述的裝置,其中,該分幀模組具體用於按照相鄰幀以預定毫秒數重疊的劃分規則,對該待識別音頻資料進行分幀處理。
TW106112617A 2016-06-28 2017-04-14 Audio recognition method and device TWI659410B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201610487584.9 2016-06-28
CN201610487584.9A CN106910494B (zh) 2016-06-28 2016-06-28 一种音频识别方法和装置

Publications (2)

Publication Number Publication Date
TW201801066A TW201801066A (zh) 2018-01-01
TWI659410B true TWI659410B (zh) 2019-05-11

Family

ID=59206235

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106112617A TWI659410B (zh) 2016-06-28 2017-04-14 Audio recognition method and device

Country Status (7)

Country Link
US (2) US10910000B2 (zh)
EP (1) EP3477632A4 (zh)
JP (1) JP6750048B2 (zh)
KR (1) KR102220964B1 (zh)
CN (1) CN106910494B (zh)
TW (1) TWI659410B (zh)
WO (1) WO2018001125A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
CN116614841B (zh) * 2023-07-17 2023-10-27 中汽智联技术有限公司 一种路侧数据质量评估方法和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN104462537A (zh) * 2014-12-24 2015-03-25 北京奇艺世纪科技有限公司 一种音频数据分类方法及装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748763A (en) 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US7529659B2 (en) * 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US6968337B2 (en) * 2001-07-10 2005-11-22 Audible Magic Corporation Method and apparatus for identifying an unknown work
US7328153B2 (en) 2001-07-20 2008-02-05 Gracenote, Inc. Automatic identification of sound recordings
US7505911B2 (en) 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
WO2003091990A1 (en) 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US7336890B2 (en) 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
US7323629B2 (en) 2003-07-16 2008-01-29 Univ Iowa State Res Found Inc Real time music recognition and display system
US20070071330A1 (en) 2003-11-18 2007-03-29 Koninklijke Phillips Electronics N.V. Matching data objects by matching derived fingerprints
JP2007534008A (ja) * 2004-02-26 2007-11-22 メディアガイド・インコーポレイテッド 放送音声またはビデオプログラム信号の自動検出及び識別のための方法及び装置
DE102004023436B4 (de) 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
GB2414369B (en) 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
US7567899B2 (en) 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
WO2008083315A2 (en) 2006-12-31 2008-07-10 Personics Holdings Inc. Method and device configured for sound signature detection
JP4436858B2 (ja) 2007-04-09 2010-03-24 シャープ株式会社 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
US8131083B2 (en) 2007-04-09 2012-03-06 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method having storage section, divided into a plurality of regions, for storing identification information for identifying reference image
WO2008150544A1 (en) 2007-06-06 2008-12-11 Dolby Laboratories Licensing Corporation Improving audio/video fingerprint search accuracy using multiple search combining
WO2009000073A1 (en) 2007-06-22 2008-12-31 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
CN101493918A (zh) * 2008-10-21 2009-07-29 深圳市牧笛科技有限公司 在线音乐盗版监控方法和系统
US8996538B1 (en) * 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
JP4788810B2 (ja) * 2009-08-17 2011-10-05 ソニー株式会社 楽曲同定装置及び方法、楽曲同定配信装置及び方法
US9025428B2 (en) 2010-04-14 2015-05-05 Qualcomm Incorporated Allocating and receiving tones for a frame
US9275141B2 (en) * 2010-05-04 2016-03-01 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置
US20140310006A1 (en) * 2011-08-29 2014-10-16 Telefonica, S.A. Method to generate audio fingerprints
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
CN103093761B (zh) * 2011-11-01 2017-02-01 深圳市世纪光速信息技术有限公司 音频指纹检索方法及装置
KR20130104878A (ko) * 2012-03-15 2013-09-25 주식회사 다이렉트미디어 에너지 및 통계적 필터링을 이용한 음악 검색 방법, 장치 및 시스템
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
JP5994974B2 (ja) 2012-05-31 2016-09-21 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、プログラム及び情報処理方法
US20140074469A1 (en) * 2012-09-11 2014-03-13 Sergey Zhidkov Apparatus and Method for Generating Signatures of Acoustic Signal and Apparatus for Acoustic Signal Identification
US9401153B2 (en) 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
EP2731030A1 (en) 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Music information searching method and apparatus thereof
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) * 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US9728205B2 (en) * 2013-03-15 2017-08-08 Facebook, Inc. Generating audio fingerprints based on audio signal complexity
CN104252480B (zh) * 2013-06-27 2018-09-07 深圳市腾讯计算机系统有限公司 一种音频信息检索的方法和装置
CN103440313B (zh) * 2013-08-27 2018-10-16 复旦大学 基于音频指纹特征的音乐检索系统
US9390727B2 (en) * 2014-01-13 2016-07-12 Facebook, Inc. Detecting distorted audio signals based on audio fingerprinting
CN105513587B (zh) * 2014-09-22 2020-07-24 联想(北京)有限公司 一种mfcc提取方法及装置
US9740775B2 (en) 2015-03-13 2017-08-22 TCL Research America Inc. Video retrieval based on optimized selected fingerprints
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN104462537A (zh) * 2014-12-24 2015-03-25 北京奇艺世纪科技有限公司 一种音频数据分类方法及装置

Also Published As

Publication number Publication date
JP2019526070A (ja) 2019-09-12
CN106910494A (zh) 2017-06-30
EP3477632A1 (en) 2019-05-01
CN106910494B (zh) 2020-11-13
TW201801066A (zh) 2018-01-01
US20210125628A1 (en) 2021-04-29
US20190115044A1 (en) 2019-04-18
KR20190021421A (ko) 2019-03-05
US11133022B2 (en) 2021-09-28
WO2018001125A1 (zh) 2018-01-04
JP6750048B2 (ja) 2020-09-02
EP3477632A4 (en) 2020-01-08
US10910000B2 (en) 2021-02-02
KR102220964B1 (ko) 2021-03-02

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
JP2021516369A (ja) 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
US11133022B2 (en) Method and device for audio recognition using sample audio and a voting matrix
CN110070859B (zh) 一种语音识别方法及装置
Baloul et al. Challenge-based speaker recognition for mobile authentication
CN114582325A (zh) 音频检测方法、装置、计算机设备、存储介质
CN113409827B (zh) 基于局部卷积块注意力网络的语音端点检测方法及系统
Ariff et al. Study of adam and adamax optimizers on alexnet architecture for voice biometric authentication system
Jiang et al. Mobile phone identification from speech recordings using weighted support vector machine
Zeng et al. Spatio-temporal representation learning enhanced source cell-phone recognition from speech recordings
Rituerto-González et al. End-to-end recurrent denoising autoencoder embeddings for speaker identification
CN108962389A (zh) 用于风险提示的方法及系统
CN113257238B (zh) 预训练模型的训练方法、编码特征获取方法及相关装置
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN111951791B (zh) 声纹识别模型训练方法、识别方法、电子设备及存储介质
Lei et al. An Energy and Memory Efficient Speaker Verification System Based on Binary Neural Networks
JP6139430B2 (ja) 信号処理装置、方法及びプログラム
CN115985347B (zh) 基于深度学习的语音端点检测方法、装置和计算机设备
Meng et al. Speech Feature Parameter Extraction and Recognition Based on Interpolation
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.
Narendra et al. Representation of speech signals using Hartley group delay function
CN116978360A (zh) 语音端点检测方法、装置和计算机设备