TWI712033B - 聲音識別方法、裝置、電腦裝置及存儲介質 - Google Patents

聲音識別方法、裝置、電腦裝置及存儲介質 Download PDF

Info

Publication number
TWI712033B
TWI712033B TW108108730A TW108108730A TWI712033B TW I712033 B TWI712033 B TW I712033B TW 108108730 A TW108108730 A TW 108108730A TW 108108730 A TW108108730 A TW 108108730A TW I712033 B TWI712033 B TW I712033B
Authority
TW
Taiwan
Prior art keywords
image
sound
preset
voice
time
Prior art date
Application number
TW108108730A
Other languages
English (en)
Other versions
TW202034306A (zh
Inventor
林忠億
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Priority to TW108108730A priority Critical patent/TWI712033B/zh
Publication of TW202034306A publication Critical patent/TW202034306A/zh
Application granted granted Critical
Publication of TWI712033B publication Critical patent/TWI712033B/zh

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供一種聲音識別方法,所述方法包括:獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖;對所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像;使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。

Description

聲音識別方法、裝置、電腦裝置及存儲介質
本發明涉及語音辨識技術領域,具體涉及一種聲音識別方法、聲音識別裝置、電腦裝置及電腦可讀存儲介質。
隨著電子設備之普及,為提高控制電子設備之便利性,越來越多之電子設備載入了語音控制功能,可使電子設備之使用更加便利。例如,智慧手機、智慧家居、智慧車載系統,使用者可藉由語音來控制電子設備並執行相應之功能。因此,對語音辨識之準確性有很高之要求,習知之語音辨識方法是將收集到之聲音資訊轉換為聲音資訊之時頻圖,然後將聲音資訊之時頻圖利用影像處理之方法,將時頻圖直接壓縮調整到影像處理模型要求之長寬比,圖像於壓縮之過程中,圖像資訊損失嚴重,導致聲音資訊之丟失。因此需要提供一種新之聲音識別方法,使得聲音資訊於轉換成圖像於進行壓縮處理之過程中,圖像資訊損失降低,提高聲音識別之轉換率。
鑒於以上內容,有必要提出一種聲音識別方法及裝置、電腦裝置與電腦可讀存儲介質,使得聲音識別於轉換成圖像之過程中,圖像資訊之損失降低,提高聲音識別之轉換率,從而提高了聲音識別之準確率。
本申請之第一方面提供聲音識別方法,所述方法包括: 獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖;對所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像;使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。
所述獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖之方法為:獲取音訊資訊後,將所述音訊資訊進行取樣得到數位化聲音文檔,再經過傅裡葉變換得到聲音信號時頻圖。
對所述時頻圖進行壓縮分段整理之方法包括:獲取聲音信號時頻圖後,截取預設頻率範圍與預設時間範圍內之時頻圖,獲取時頻圖上不同頻率對應之聲音強度資訊,將不同頻率對應之聲音強度資訊進行資料整理,將整理後之聲音強度為向量元素組成一個一維向量,所述一維向量之長度與所述預設頻率範圍相同;將所述一維向量以預設間隔進行切分,得到多段一維向量;將切分後之所有一維向量組合為一個二維向量,將所述二維向量組成之二維矩陣用圖像表示;判斷所述圖像大小是否與預設圖像大小一致,如果一致則使用圖像識別方法進行識別,如果不一致,則藉由補白之方式將所述圖像補成與預設圖像相同之大小。
所述預設頻率範圍與所述預設圖像大小以及人耳能辨別之聲音頻率範圍相關,預設頻率範圍為F,所述預設圖像大小為L×L,人耳能辨別之聲音頻率之最大值為20000Hz,最小值為20Hz,所述預設頻率範圍之計算方程為:
Figure 108108730-A0305-02-0003-2
其中人耳所能感覺到之聲音範圍為人耳能辨別之聲音頻率之最大值減去最小值,若人耳能感覺到之聲音範圍除以圖像尺寸L不能整除,則取商之整數部分加1。
所述將不同頻率對應之聲音強度資訊進行資料整理之方法為:將相同頻率上之聲音強度進行統計學整理,使用之統計學整理之方法包括算數平均數、加權平均、取最大值之方法中之任一方法。
藉由補白之方式將所述圖像補成與預設圖像相同之大小之方法為:所述圖像為由聲音強度為元素組成之二維矩陣,所述矩陣之大小為N×L,所述預設圖像之大小為L×L,若N與L不相等,則將所述矩陣擴充成L×L大小之矩陣,擴充後矩陣中之空白元素用0補齊。
所述使用圖像識別之方法識別所述聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊包括:所述圖像識別方法為卷積神經網路識別方法;將所述聲音圖像導入卷積神經網路經過卷積層、池化層與全連接層之處理後,得到圖像資訊增強後之聲音圖像;將增強後之聲音圖像與預設資料庫中之圖像進行比對,所述預設資料庫中之每張圖像資訊均代表一種聲音;藉由與預設資料庫中之圖像進行比對得到所述聲音圖像對應之聲音資訊。
本申請之第二方面提供一種聲音識別裝置,所述裝置包括:聲音獲取模組:獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖;聲音處理模組:對所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像; 聲音識別模組:使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。
本申請之第三方面提供一種電腦裝置,所述電腦裝置包括處理器,所述處理器用於執行記憶體中存儲的電腦程式時實現如前所述聲音識別方法。
本申請之第四方面提供一種電腦可讀存儲介質,其上存儲有電腦程式,所述電腦程式被處理器執行時實現如前所述聲音識別方法。
本發明聲音識別方法使得聲音資訊於轉換成圖像之過程中,圖像資訊之損失降低,提高聲音識別之轉換率,從而提高了聲音識別之準確率。
1:電腦裝置
2:用戶終端
10:聲音識別裝置
101:聲音獲取模組
102:聲音處理模組
103:聲音識別模組
20:記憶體
30:處理器
40:電腦程式
步驟S1-S3:方法步驟
圖1是本發明實施例一提供之聲音識別方法之應用環境架構示意圖。
圖2是本發明實施例二提供之聲音識別方法流程圖。
圖3是本發明實施例三提供之聲音識別裝置之結構示意圖。
圖4是本發明實施例四提供之電腦裝置示意圖。
為能夠更清楚地理解本發明之上述目的、特徵與優點,下面結合附圖與具體實施例對本發明進行詳細描述。需要說明之是,於不衝突之情況下,本申請之實施例及實施例中之特徵可相互組合。
於下面之描述中闡述了很多具體細節以便於充分理解本發明,所描述之實施例僅僅是本發明一部分實施例,而不是全部之實施例。基於本發明中之實施例,本領域普通技術人員於沒有做出創造性勞動前提下所獲得之所有其他實施例,均屬於本發明保護之範圍。
除非另有定義,本文所使用之所有之技術與科學術語與屬於本發明之技術領域之技術人員通常理解之含義相同。本文中於本發明之說明書中所使用之術語僅是為描述具體之實施例之目不是旨在於限制本發明。
實施例一
本發明中之聲音識別方法應用於電腦裝置1中,所述電腦裝置1與至少一個用戶終端2藉由網路建立通信連接。所述網路可是有線網路,亦可是無線網路,例如無線電、無線保真(Wireless Fidelity,WIFI)、蜂窩、衛星、廣播等。
所述電腦裝置1可為安裝有聲音識別軟體之電子設備,所述電腦裝置中存儲有預設資料庫,所述預設資料中存儲有每種聲音對應之圖像資訊。例如個人電腦、伺服器等,其中,所述伺服器可以是單一之伺服器、伺服器集群或雲伺服器等。
所述用戶終端2是語音辨識功能之各種智慧電子設備,包括但不限於智慧手機、平板電腦、膝上型便捷電腦、臺式電腦、智慧家居、智慧車載系統等。
藉由用戶終端2獲取原始聲音後,將所述原始聲音發送至電腦裝置1中轉換成時頻圖後進行壓縮分段整理後得到聲音圖像,使用圖像識別之方法識別所述聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊,然後將所述聲音發送給用戶終端2。
於本發明之其他實施方式中,所述電腦裝置1進行之所有步驟全部放於用戶終端2中完成。
實施例二
請參閱圖2所示,是本發明第二實施例提供之聲音識別方法之流程圖。根據不同之需求,所述流程圖中步驟之順序可改變,某些步驟可省略。
步驟S1,獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖。
本實施方式中,將音訊資訊轉換成數位化之時頻圖之方法為:獲取音訊資訊後,將所述音訊資訊進行取樣得到數位化聲音文檔,再經過數學變換得到時頻圖。
所述音訊資訊為聲音之原始檔,沒有經過壓縮轉換。
所述數學變換為傅裡葉轉換。
於本發明一實施方式中,所述音訊資訊可是從聲音收集設備獲取所述聲音收集設備包括手機之麥克風,智慧車載設備之語音收集裝置,智慧家居中之語音收集設備。所述聲音收集設備於收集聲音之過程中不能使用聲音壓縮合成軟體,且由聲音收集設備收集後之音訊文檔不能儲存為失真壓縮之音訊格式,例如mp3格式、avi格式、divx格式,應該儲存為wav格式。
將.wav格式之音訊文檔進行取樣,將所述音訊文檔進行取樣得到數位化聲音文檔,再經過傅裡葉變換轉換成時頻圖之方法屬於習知技術,於此不再詳述。
其他實施例中,所述原始音訊資訊亦可是從預設記憶體中獲取。
步驟S2,對所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像。
對所述時頻圖進行壓縮分段整理之方法包括:獲取聲音信號時頻圖後,截取預設頻率範圍與預設時間範圍內之時頻圖,獲取時頻圖上不同頻率對應之聲音強度資訊,將不同頻率對應之聲音強度資訊進行資料整理,將整理後之聲音強度為向量元素組成一個一維向量,所述一維向量之長度與所述預設頻率範圍相同;將所述一維向量以預設間隔進行切分,得到多段一維向量; 將切分後之所有一維向量組合為一個二維向量,將所述二維向量組成之二維矩陣用圖像表示;判斷所述圖像大小是否與預設圖像大小一致,如果一致則使用圖像識別方法進行識別,如果不一致,則藉由補白之方式將所述圖像補成與預設圖像相同之大小。
所述預設頻率範圍與所述預設圖像大小以及人耳能辨別之聲音頻率範圍相關,預設頻率範圍為F,所述預設圖像大小為L×L,人耳能辨別之聲音頻率之最大值為20000Hz,最小值為20Hz,所述預設頻率範圍之計算方程為:
Figure 108108730-A0305-02-0008-14
其中人耳所能感覺到之聲音範圍為人耳能辨別之聲音頻率之最大值減去最小值,若人耳能感覺到之聲音範圍除以圖像尺寸L不能整除,則取商之整數部分加1。
所述將不同頻率對應之聲音強度資訊進行資料整理之方法為:將相同頻率上之聲音強度進行統計學整理,使用之統計學整理之方法包括算數平均數、加權平均、取最大值之方法中之任一方法。
所述圖像為由聲音強度為元素組成之二維矩陣,所述矩陣之大小為N×L,所述預設圖像之大小為L×L,若N與L不相等,則將所述矩陣擴充成L×L大小之矩陣,擴充後矩陣中之空白元素用0補齊。
於本發明之一實施方式中,所述圖像識別方法為基於卷積神經網路之VGGNet模型,所述資料模型之圖像尺寸為224×224。按照所述資料模型之圖像尺寸為224×224,人耳能辨別之聲音頻率之最大值為20000Hz,最小值為20Hz,以及預設頻率範圍之計算方程
Figure 108108730-A0305-02-0009-4
計算得到預設頻率範圍為20160。所述預設時間範圍為3ms。
獲取時間範圍為3ms範圍內之聲音頻率對應之聲音強度資訊,將相同頻率上之聲音強度進行統計學整理,於本實施方式中採用加權平均之統計學方法,將整理後之聲音強度作為為向量元素組成一維向量,所述一維向量之長度為20160,所述一維向量中之元素為所述聲音強度。
將所述一維向量以預設間隔,即圖像尺寸L,進行切分,得到90段長度為224之一維向量。
將90段之長度為224之一維向量組合成一個維度為90×224之二維矩陣,將所述二維矩陣用圖像表示。
所述圖像之大小為90×224,與所述資料模型之圖像尺寸為224×224不符,需要對圖像邊緣進行補白處理,所述補白處理方法為,將所述二維矩陣由90×224擴大成224×224,所述二維舉證中缺少之元素用0補齊。
步驟S3,使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。
所述圖像識別方法為卷積神經網路識別方法;將所述聲音圖像導入卷積神經網路經過卷積層、池化層與全連接層之處理後,得到圖像資訊增強後之聲音圖像;將增強後之聲音圖像與預設資料庫中之圖像進行比對,所述預設資料庫中之每張圖像資訊均代表一種聲音;藉由與預設資料庫中之圖像進行比對得到所述聲音圖像對應之聲音資訊。
於本發明之一實施方式中,將聲音圖像代入卷積神經網路,所述神經網路使用之模型為VGGNet,經過卷積層、池化層與全連接層之處理後,得到圖像資訊增強後之聲音圖像。將所述增強後之聲音圖像與聲音圖像資料中之圖像進行比對,找到與所述聲音圖像對應之資料中之聲音圖像,查找所述資料庫中之聲音圖像代表之聲音資訊。
上述圖2詳細介紹了本發明之聲音識別方法,下面結合第3-4圖,對實現所述聲音識別方法之軟體裝置之功能模組以及實現所述聲音識別方法之硬體裝置架構進行介紹。
應所述瞭解,所述實施例僅為說明之用,於專利申請範圍上並不受此結構之限制。
實施例三
圖3為本發明聲音識別裝置較佳實施例之結構圖。
於一些實施例中,聲音識別裝置10運行於電腦裝置中。所述電腦裝置藉由網路連接了多個用戶終端。所述聲音識別裝置10可包括多個由程式碼段所組成之功能模組。所述聲音識別裝置10中之各個程式段之程式碼可存儲於電腦裝置之記憶體中,並由所述至少一個處理器所執行,以實現聲音識別功能。
本實施例中,所述聲音識別裝置10根據其所執行之功能,可被劃分為多個功能模組。參閱圖3所示,所述功能模組可包括:聲音獲取模組101、聲音處理模組102、聲音識別模組103。本發明所稱之模組是指一種能夠被至少一個處理器所執行並且能夠完成固定功能之一系列電腦程式段,其存儲於記憶體中。於本實施例中,關於各模組之功能將於後續之實施例中詳述。
聲音獲取模組101:由聲音收集設備獲取音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖。
將音訊資訊轉換成數位化之時頻圖之方法為:獲取音訊資訊後,將所述音訊資訊進行取樣得到數位化聲音文檔, 再經過數學變換得到時頻圖。
所述音訊資訊為聲音之原始檔,沒有經過壓縮轉換。
所述數學變換為傅裡葉轉換。
於本發明一實施方式中,所述音訊資訊可是從聲音收集設備獲取所述聲音收集設備包括手機之麥克風,智慧車載設備之語音收集裝置,智慧家居中之語音收集設備。所述聲音收集設備於收集聲音之過程中不能使用聲音壓縮合成軟體,且由聲音收集設備收集後之音訊文檔不能儲存為失真壓縮之音訊格式,例如mp3格式、avi格式、divx格式,應該儲存為wav格式。
將.wav格式之音訊文檔進行取樣,將所述音訊文檔進行取樣得到數位化聲音文檔,再經過傅裡葉變換轉換成時頻圖之方法屬於習知技術,於此不再詳述。
其他實施例中,所述原始音訊資訊亦可是從預設記憶體中獲取。
聲音處理模組102:將所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像;對所述時頻圖進行壓縮分段整理之方法包括:獲取聲音信號時頻圖後,截取預設頻率範圍與預設時間範圍內之時頻圖,獲取時頻圖上不同頻率對應之聲音強度資訊,將不同頻率對應之聲音強度資訊進行資料整理,將整理後之聲音強度為向量元素組成一個一維向量,所述一維向量之長度與所述預設頻率範圍相同;將所述一維向量以預設間隔進行切分,得到多段一維向量;將切分後之所有一維向量組合為一個二維向量,將所述二維向量組成之二維矩陣用圖像表示;判斷所述圖像大小是否與預設圖像大小一致,如果一致則使用圖像識別方法進行識別,如果不一致,則藉由補白之方式將所述圖像補成與預設圖像相同之大小。
所述預設頻率範圍與所述預設圖像大小以及人耳能辨別之聲音頻 率範圍相關,預設頻率範圍為F,所述預設圖像大小為L×L,人耳能辨別之聲音頻率之最大值為20000Hz,最小值為20Hz,所述預設頻率範圍之計算方程為:
Figure 108108730-A0305-02-0012-16
其中人耳所能感覺到之聲音範圍為人耳能辨別之聲音頻率之最大值減去最小值,若人耳能感覺到之聲音範圍除以圖像尺寸L不能整除,則取商之整數部分加1。
所述將不同頻率對應之聲音強度資訊進行資料整理之方法為:將相同頻率上之聲音強度進行統計學整理,使用之統計學整理之方法包括算數平均數、加權平均、取最大值之方法中之任一方法。
所述圖像為由聲音強度為元素組成之二維矩陣,所述矩陣之大小為N×L,所述預設圖像之大小為L×L,若N與L不相等,則將所述矩陣擴充成L×L大小之矩陣,擴充後矩陣中之空白元素用0補齊。
於本發明之一實施方式中,所述圖像識別方法為基於卷積神經網路之VGGNet模型,所述資料模型之圖像尺寸為224×224。按照所述資料模型之圖像尺寸為224×224,人耳能辨別之聲音頻率之最大值為20000Hz,最小值為20Hz,以及預設頻率範圍之計算方程:
Figure 108108730-A0305-02-0012-6
計算得到得到預設頻率範圍為20160。所述預設時間範圍為3ms。
獲取時間範圍為3ms範圍內之聲音頻率對應之聲音強度資訊,將相同頻率上之聲音強度進行統計學整理,於本實施方式中採用加權平均之統計學方法,將整理後之聲音強度作為為向量元素組成一維向量,所述一維向量之長度為20160,所述一維向量中之元素為所述聲音強度。
將所述一維向量以預設間隔,即圖像尺寸L進行切分,得到90段長度為224之一維向量。
將90段之長度為224之一維向量組合成一個維度為90×224之二 維矩陣,將所述二維矩陣用圖像表示。
所述圖像之大小為90×224,與所述資料模型之圖像尺寸為224×224不符,需要對圖像邊緣進行補白處理,所述補白處理方法為,將所述二維矩陣由90×224擴大成224×224,所述二維舉證中缺少之元素用0補齊。
聲音識別模組103:使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。
所述圖像識別方法為卷積神經網路識別方法;將所述聲音圖像導入卷積神經網路經過卷積層、池化層與全連接層之處理後,得到圖像資訊增強後之聲音圖像;將增強後之聲音圖像與預設資料庫中之圖像進行比對,所述預設資料庫中之每張圖像資訊均代表一種聲音;藉由與預設資料庫中之圖像進行比對得到所述聲音圖像對應之聲音資訊。
於本發明之一實施方式中,將聲音圖像代入卷積神經網路,所述神經網路使用之模型為VGGNet,經過卷積層、池化層與全連接層之處理後,得到圖像資訊增強後之聲音圖像。將所述增強後之聲音圖像與聲音圖像資料中之圖像進行比對,找到與所述聲音圖像對應之資料中之聲音圖像,查找所述資料庫中之聲音圖像代表之聲音資訊。
實施例四
圖4為本發明電腦裝置較佳實施例之示意圖。
所述電腦裝置1包括記憶體20、處理器30以及存儲於所述記憶體20中並可於所述處理器30上運行之電腦程式40,例如聲音識別程式。所述處理器30執行所述電腦程式40時實現上述聲音識別方法實施例中之步驟,例如圖2所示之步驟S1~S3。或者,所述處理器30執行所述電腦程式40時實現上述聲音識別裝置實施例中各模組/單元之功能,例如圖3中之單元101-103。
示例性所述電腦程式40可被分割成一個或多個模組/單元,所述一個或者多個模組/單元被存儲於所述記憶體20中,並由所述處理器30執行,以完成本發明。所述一個或多個模組/單元可是能夠完成特定功能之一系列電腦程式指令段,所述指令段用於描述所述電腦程式40於所述電腦裝置1中之執行過程。例如,所述電腦程式40可被分割成圖3中之聲音獲取模組101、聲音處理模組102、聲音識別模組103。各模組具體功能參見實施例三。
所述電腦裝置1可是桌上型電腦、筆記本、掌上型電腦及雲端伺服器等計算設備。本領域技術人員可理解,所述示意圖僅僅是電腦裝置1之示例,並不構成對電腦裝置1之限定,可包括比圖示更多或更少之部件,或者組合某些部件,或者不同之部件,例如所述電腦裝置1還可包括輸入輸出設備、網路接入設備、匯流排等。
所稱處理器30可是中央處理單元(Central Processing Unit,CPU),還可是其他通用處理器、數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現成可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可是微處理器或者所述處理器30亦可是任何常規之處理器等,所述處理器30是所述電腦裝置1之控制中心,利用各種介面與線路連接整個電腦裝置1之各個部分。
所述記憶體20可用於存儲所述電腦程式40與/或模組/單元,所述處理器30藉由運行或執行存儲於所述記憶體20內之電腦程式與/或模組/單元,以及調用存儲於記憶體20內之資料,實現所述電腦裝置1之各種功能。所述記憶體20可主要包括存儲程式區與存儲資料區,其中,存儲程式區可存儲作業系統、至少一個功能所需之應用程式(比如聲音播放功能、圖像播放功能等)等;存儲資料區可存儲根據電腦裝置1之使用所創建之資料(比如音訊資料、電話本等)等。此外,記憶體20可包括高速隨機存取記憶體,還可包括非易失性記憶體,例如硬碟機、記憶體、插接式硬碟機,智慧存儲卡(Smart Media Card,SMC), 安全數位(Secure Digital,SD)卡,快閃記憶體卡(Flash Card)、至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。
所述電腦裝置1集成之模組/單元如果以軟體功能單元之形式實現並作為獨立之產品銷售或使用時,可存儲於一個電腦可讀取存儲介質中。基於這樣之理解,本發明實現上述實施例方法中之全部或部分流程,亦可藉由電腦程式來指令相關之硬體來完成,所述之電腦程式可存儲於一電腦可讀存儲介質中,所述電腦程式於被處理器執行時,可實現上述各個方法實施例之步驟。其中,所述電腦程式包括電腦程式代碼,所述電腦程式代碼可為原始程式碼形式、物件代碼形式、可執行檔或某些中間形式等。所述電腦可讀介質可包括:能夠攜帶所述電腦程式代碼之任何實體或裝置、記錄介質、U盤、移動硬碟機、磁片、光碟、電腦記憶體、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、電載波信號、電信信號以及軟體分發介質等。需要說明之是,所述電腦可讀介質包含之內容可根據司法管轄區內立法與專利實踐之要求進行適當之增減,例如於某些司法管轄區,根據立法與專利實踐,電腦可讀介質不包括電載波信號與電信信號。
於本發明所提供之幾個實施例中,應所述理解到,所揭露之電腦裝置與方法,可藉由其它之方式實現。例如,以上所描述之電腦裝置實施例僅僅是示意性例如,所述單元之劃分,僅僅為一種邏輯功能劃分,實際實現時可有另外之劃分方式。
另外,於本發明各個實施例中之各功能單元可集成於相同處理單元中,亦可是各個單元單獨物理存於,亦可兩個或兩個以上單元集成於相同單元中。上述集成之單元既可採用硬體之形式實現,亦可採用硬體加軟體功能模組之形式實現。
對於本領域技術人員而言,顯然本發明不限於上述示範性實施例之細節,且在不背離本發明之精神或基本特徵之情況下,能夠以其他之具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示範性且是非 限制性本發明之範圍由所附權利要求而不是上述說明限定,因此旨在將落於權利要求之等同要件之含義與範圍內之所有變化涵括在本發明內。不應將權利要求中之任何附圖標記視為限制所涉及之權利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除複數。電腦裝置權利要求中陳述之多個單元或電腦裝置亦可由同一個單元或電腦裝置藉由軟體或者硬體來實現。第一,第二等詞語用以表示名稱,而並不表示任何特定之順序。
最後應說明之是,以上實施例僅用以說明本發明之技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域之普通技術人員應當理解,可對本發明之技術方案進行修改或等同替換,而不脫離本發明技術方案之精神與範圍。
步驟S1-S3:方法步驟

Claims (10)

  1. 一種聲音識別方法,所述方法包括,獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖;對所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像,其中,所述分段整理的方法包括:獲取聲音信號時頻圖後,截取預設頻率範圍與預設時間範圍內之時頻圖,獲取時頻圖上不同頻率對應之聲音強度資訊,將不同頻率對應之聲音強度資訊進行資料整理,將整理後之聲音強度作為向量元素組成一個一維向量,所述一維向量之長度與所述預設頻率範圍相同,將所述一維向量以預設間隔進行切分,得到多段一維向量,將切分後之所有一維向量組合為一個二維向量,將所述二維向量組成之二維矩陣用圖像表示;使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。
  2. 如申請專利範圍第1項所述之聲音識別方法,其中,所述獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖之方法為:獲取音訊資訊後,將所述音訊資訊進行取樣得到數位化聲音文檔,再經過傅裡葉變換得到聲音信號時頻圖。
  3. 如申請專利範圍第1項所述之聲音識別方法,其中,對所述時頻圖進行壓縮分段整理之方法還包括:判斷所述圖像大小是否與預設圖像大小一致,如果一致則使用圖像識別方法進行識別,如果不一致,則藉由補白之方式將所述圖像補成與預設圖像相同之大小。
  4. 如申請專利範圍第3項所述之聲音識別方法,其中,所述預設頻率範圍與所述預設圖像大小以及人耳能辨別之聲音頻率範圍相關,預設頻率範圍為F,所述預設圖像大小為L×L,人耳能辨別之聲音頻率之最大值為20000Hz, 最小值為20Hz,所述預設頻率範圍之計算方程為:
    Figure 108108730-A0305-02-0018-9
    其中人耳所能感覺到之聲音範圍為人耳能辨別之聲音頻率之最大值減去最小值,若人耳能感覺到之聲音範圍除以圖像尺寸L不能整除,則取商之整數部分加1。
  5. 如申請專利範圍第3項所述之聲音識別方法,其中,所述將不同頻率對應之聲音強度資訊進行資料整理之方法為:將相同頻率上之聲音強度進行統計學整理,使用之統計學整理之方法包括算數平均數、加權平均、取最大值之方法中之任一方法。
  6. 如申請專利範圍第3項所述之聲音識別方法,其中,藉由補白之方式將所述圖像補成與預設圖像相同之大小之方法為:所述圖像為由聲音強度為元素組成之二維矩陣,所述矩陣之大小為N×L,所述預設圖像之大小為L×L,若N與L不相等,則將所述矩陣擴充成L×L大小之矩陣,擴充後矩陣中之空白元素用0補齊。
  7. 如申請專利範圍第1項所述之聲音識別方法,其中,所述使用圖像識別之方法識別所述聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊包括:所述圖像識別方法為卷積神經網路識別方法;將所述聲音圖像導入卷積神經網路經過卷積層、池化層與全連接層之處理後,得到圖像資訊增強後之聲音圖像;將增強後之聲音圖像與預設資料庫中之圖像進行比對,所述預設資料庫中之每張圖像資訊均代表一種聲音;藉由與預設資料庫中之圖像進行比對得到所述聲音圖像對應之聲音資訊。
  8. 一種聲音識別裝置,所述裝置包括:聲音獲取模組:獲取原始音訊資訊後,將所述音訊資訊轉換成數位化之時頻圖;聲音處理模組:對所述時頻圖進行壓縮分段整理後得到所述時頻圖對應之聲音圖像,其中,所述分段整理的方法包括:獲取聲音信號時頻圖後,截取預設頻率範圍與預設時間範圍內之時頻圖,獲取時頻圖上不同頻率對應之聲音強度資訊,將不同頻率對應之聲音強度資訊進行資料整理,將整理後之聲音強度為向量元素組成一個一維向量,所述一維向量之長度與所述預設頻率範圍相同,將所述一維向量以預設間隔進行切分,得到多段一維向量,將切分後之所有一維向量組合為一個二維向量,將所述二維向量組成之二維矩陣用圖像表示;聲音識別模組:使用圖像識別之方法識別所述聲音圖像得到圖像資訊增強後之聲音圖像,於預設資料庫中查找與圖像資訊增強後之聲音圖像對應之聲音資訊。
  9. 一種電腦裝置,其中所述電腦裝置包括處理器,所述處理器用於執行記憶體中存儲之電腦程式時實現如請求項1-7中任一項所述之聲音識別方法。
  10. 一種電腦可讀存儲介質,其上存儲有電腦程式,其中所述電腦程式被處理器執行時實現如請求項1-7中任一項所述之聲音識別方法。
TW108108730A 2019-03-14 2019-03-14 聲音識別方法、裝置、電腦裝置及存儲介質 TWI712033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108108730A TWI712033B (zh) 2019-03-14 2019-03-14 聲音識別方法、裝置、電腦裝置及存儲介質

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108108730A TWI712033B (zh) 2019-03-14 2019-03-14 聲音識別方法、裝置、電腦裝置及存儲介質

Publications (2)

Publication Number Publication Date
TW202034306A TW202034306A (zh) 2020-09-16
TWI712033B true TWI712033B (zh) 2020-12-01

Family

ID=73643631

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108108730A TWI712033B (zh) 2019-03-14 2019-03-14 聲音識別方法、裝置、電腦裝置及存儲介質

Country Status (1)

Country Link
TW (1) TWI712033B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070291958A1 (en) * 2006-06-15 2007-12-20 Tristan Jehan Creating Music by Listening
TW201013640A (en) * 2008-05-29 2010-04-01 Qualcomm Inc Systems, methods, apparatus, and computer program products for spectral contrast enhancement
WO2013002674A1 (ru) * 2011-06-30 2013-01-03 Kocharov Daniil Aleksandrovich Система и способ распознавания речи
TW201643688A (zh) * 2015-03-19 2016-12-16 英特爾公司 基於聲學攝影機之視聽場景分析的技術
CN106898358A (zh) * 2017-03-07 2017-06-27 武汉大学 从时频分析角度出发的鲁棒数字音频水印算法
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
US10147433B1 (en) * 2015-05-03 2018-12-04 Digimarc Corporation Digital watermark encoding and decoding with localization and payload replacement
US10236006B1 (en) * 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070291958A1 (en) * 2006-06-15 2007-12-20 Tristan Jehan Creating Music by Listening
TW201013640A (en) * 2008-05-29 2010-04-01 Qualcomm Inc Systems, methods, apparatus, and computer program products for spectral contrast enhancement
WO2013002674A1 (ru) * 2011-06-30 2013-01-03 Kocharov Daniil Aleksandrovich Система и способ распознавания речи
TW201643688A (zh) * 2015-03-19 2016-12-16 英特爾公司 基於聲學攝影機之視聽場景分析的技術
US10147433B1 (en) * 2015-05-03 2018-12-04 Digimarc Corporation Digital watermark encoding and decoding with localization and payload replacement
US10236006B1 (en) * 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
CN106898358A (zh) * 2017-03-07 2017-06-27 武汉大学 从时频分析角度出发的鲁棒数字音频水印算法
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching

Also Published As

Publication number Publication date
TW202034306A (zh) 2020-09-16

Similar Documents

Publication Publication Date Title
CN112364860B (zh) 字符识别模型的训练方法、装置和电子设备
TW202046107A (zh) 使用者終端硬體檢測方法、裝置、電腦裝置及存儲介質
CN108682421B (zh) 一种语音识别方法、终端设备及计算机可读存储介质
CN112884005B (zh) 一种基于sptag及卷积神经网的图像检索方法及装置
CN110826567B (zh) 光学字符识别方法、装置、设备及存储介质
CN106681716B (zh) 智能终端及其应用程序的自动分类方法
CN113704243A (zh) 数据分析方法、装置、计算机装置及存储介质
CN111694926A (zh) 基于场景动态配置的交互处理方法、装置、计算机设备
CN110532107B (zh) 接口调用方法、装置、计算机设备及存储介质
CN107590248B (zh) 搜索方法、装置、终端和计算机可读存储介质
US20240037914A1 (en) Machine learning method and computing device for art authentication
CN112016502A (zh) 安全带检测方法、装置、计算机设备及存储介质
CN112149708A (zh) 数据模型选择优化方法、装置、计算机装置及存储介质
CN108053034B (zh) 模型参数处理方法、装置、电子设备及存储介质
CN113918598A (zh) 一种乘积量化搜索方法、装置、终端和存储介质
CN107506407B (zh) 一种文件分类、调用的方法及装置
TWI712033B (zh) 聲音識別方法、裝置、電腦裝置及存儲介質
CN111768799B (zh) 声音识别方法、装置、计算机装置及存储介质
CN115953803A (zh) 人体识别模型的训练方法及装置
CN112037814B (zh) 一种音频指纹的提取方法、装置、电子设备及存储介质
TWI754241B (zh) 指紋圖像的特徵提取方法、裝置及電腦可讀存儲介質
CN112036501A (zh) 基于卷积神经网络的图片的相似度检测方法及其相关设备
CN113010728A (zh) 一种歌曲推荐方法、系统、智能设备及存储介质
CN111460214A (zh) 分类模型训练方法、音频分类方法、装置、介质及设备
CN113093967A (zh) 数据生成方法、装置、计算机装置及存储介质