TWI807203B - 聲音辨識方法及使用其之電子裝置 - Google Patents

聲音辨識方法及使用其之電子裝置 Download PDF

Info

Publication number
TWI807203B
TWI807203B TW109125475A TW109125475A TWI807203B TW I807203 B TWI807203 B TW I807203B TW 109125475 A TW109125475 A TW 109125475A TW 109125475 A TW109125475 A TW 109125475A TW I807203 B TWI807203 B TW I807203B
Authority
TW
Taiwan
Prior art keywords
voiceprint
data
voiceprint data
processor
electronic device
Prior art date
Application number
TW109125475A
Other languages
English (en)
Other versions
TW202205257A (zh
Inventor
梁珮琳
Original Assignee
華碩電腦股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 華碩電腦股份有限公司 filed Critical 華碩電腦股份有限公司
Priority to TW109125475A priority Critical patent/TWI807203B/zh
Priority to US17/381,267 priority patent/US11900946B2/en
Publication of TW202205257A publication Critical patent/TW202205257A/zh
Application granted granted Critical
Publication of TWI807203B publication Critical patent/TWI807203B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本案提供一種聲音辨識方法,包含收集複數聲音訊號;擷取每一聲音訊號之聲紋特徵;對聲紋特徵進行資料處理,以轉換為N維矩陣,且N為大於等於2之整數;對N維矩陣進行特徵標準化處理,以獲得複數聲紋資料;對這些聲紋資料進行分類,以產生一分群結果;根據分群結果,找出每一聚類的質心,將每一質心附近之聲紋資料進行註冊。本案更提供一種使用此聲音辨識方法之電子裝置。

Description

聲音辨識方法及使用其之電子裝置
本案係有關一種聲音辨識方法及使用此聲音辨識方法的電子裝置。
開發聲音辨識模型通常需要尋找大量的人來錄製聲音資料庫,需要耗費非常多的人力成本,且訓練完的聲音模型還需要透過使用者自行註冊資料,才能進行後續的聲音辨識。除此之外,聲音模型實驗數據的驗證準確度與實際驗證數據常有很大的出入,實際準確度會因為使用者的聲音狀態、聲音大小、環境吵雜程度等受到影響,導致聲音辨識的準確度有其瓶頸存在。
本案提供一種聲音辨識方法,包含:收集複數聲音訊號;擷取每一聲音訊號之聲紋特徵;對聲紋特徵進行資料處理,以轉換為N維矩陣,且N為大於等於2之整數;對N維矩陣進行特徵標準化處理,以獲得複數聲紋資料;對這些聲紋資料進行分類,以產生一分群結果;根據分群結果,找出每一聚類的質心,將每一質心附近之聲紋資料進行註冊。
本案更提供一種電子裝置,包含一收音器及一處理器。收音器用以收集複數聲音訊號,處理器電性連接收音器,此處理器用以:擷取每一聲音訊號之聲紋特徵,對該聲紋特徵進行資料處理,以轉換為N維矩陣,且N為大於等於2之整數;對N維矩陣進行特徵標準化處理,以獲得複數聲紋資料;對這些聲紋資料進行分類,以產生一分群結果;以及根據分群結果,找出每一聚類的質心,將每一該質心附近之些聲紋資料進行註冊。
綜上所述,本案透過少量的聲音訊號即可註冊使用者之聲紋資料並準確辨識,並透過使用者實際使用環境之聲音訊號進行分類辨識,故可解決過去需要使用者自行提供聲音並註冊的流程,以及實驗數據與實際驗證數據不一致的問題,進而提高辨識準確度。
圖1為根據本案一實施例之電子裝置的方塊示意圖,請參閱圖1所示,一電子裝置10包含有至少一收音器以及一處理器14。收音器係用以感應收集來自使用者的聲音訊號。處理器14電性連接收音器,以接收聲音訊號,並根據聲音訊號進行後續辨識與應用。在一實施例中,收音器為麥克風12,電子裝置10可為筆記型電腦、行動電話、個人數位助理(PDA)、平板電腦、桌上型電腦、導航裝置等具有運算能力之電子裝置,但不以此為限。在一實施例中,處理器14可為中央處理單元(CPU)或是微處理器。
在一實施例中,處理器14內之軟體架構更進一步如圖2所示,處理器14包含一聲紋模組141、一降維模組142、一正規化模組143、一分類演算法模組144以及一質心(centroid)運算模組145。聲紋模組141訊號連接降維模組142,降維模組142訊號連接正規化模組143,正規化模組143訊號連接分類演算法模組144,分類演算法模組144訊號連接質心運算模組145。
圖3為根據本案一實施例之聲音辨識方法的流程示意圖,請同時參閱圖1至圖3所示,處理器14用以執行包含步驟S10至步驟S20的聲音辨識方法。首先,如步驟S10所示,處理器14透過麥克風12收集複數聲音訊號,使麥克風12接收到的聲音訊號傳輸至聲紋模組141。如步驟S12所示,聲紋模組141係擷取每一聲音訊號之聲紋特徵,以取得複數聲紋特徵。在一實施例中,聲紋模組141可以透過現有公開的聲紋資料庫進行訓練。
如步驟S14所示,聲紋模組141取得之聲紋特徵會傳送至降維模組142,降維模組142對所有聲紋特徵進行資料處理,將來自同一麥克風12之使用者的聲紋特徵進行排列,以轉換為N維矩陣,且N為大於等於2之整數。在一實施例中,降維模組142係利用t-分布式隨機鄰近嵌入法(t-distributed stochastic neighbor embedding,t-SNE)進行降維處理,以獲得對應之N維矩陣。在一實施例中,N維矩陣係可為二維矩陣,或是二維以上的矩陣。
如步驟S16所示,正規化模組143對N維矩陣進行特徵標準化處理,讓聲紋特徵按比例縮放並落在一特定的區間內,以獲得複數聲紋資料。在一實施例中,正規化模組143係透過標準化(Standardization)、均值移除(mean removal)及方差比例縮放(variance scaling)等方式進行特徵標準化處理。
經過正規化模組143處理後之聲紋資料會傳送至分類演算法模組144,如步驟S18所示,分類演算法模組144對聲紋資料進行分類,以根據聲紋特徵動態調整一分類閥值,進而產生一分群結果,此分群結果包含數個聚類。其中,在步驟S18對所有聲紋資料進行分類之步驟更進一步如圖4所示之步驟S181至步驟S184,請同時參閱圖4所示,如步驟S181,根據聲紋資料,分類演算法模組144先透過手肘方法(elbow method)計算出一分群數目以及相鄰之斜率。如步驟S182所示,分類演算法模組144判斷相鄰斜率是否有驟變產生。在斜率出現驟變時,參閱圖5a所示,在分群數目等於6時斜率出現驟變,所以可以得到分群數目為6,然後如步驟S183所示,分類演算法模組144根據分群數目並透過一分層聚類演算法進行分類,亦即,在斜率出現驟變時,分類演算法模組144會將手肘方法取得的分群數目(分群數目為6)套用在分層聚類演算法中,並利用此分層聚類演算法進行分群,以產生分群結果,如圖6a所示,此分群結果包含編號0~5的6個聚類;在此實施例中,由於編號5的聚類不集中,所以會忽略此聚類,並輸出5個聚類的分類結果。請同時參閱圖5b所示,在斜率無驟變產生時,如步驟S184所示,不採用分群數目,分類演算法模組144直接透過分層聚類演算法進行分群,以產生分群結果,如圖6b所示,此分群結果包含編號0~4的5個聚類。在一實施例中,分層聚類演算法係為一利用層次的平衡迭代規約和聚類(Balanced Iterative Reducing and Clustering Using Hierarchies,BIRCH)演算法。
其中,上述圖5a和圖5b的斜率曲線示意圖以及圖6a和圖6b的分群結果示意圖,僅為說明本案技術內容之具體實施態樣,當不能以此為限,是否有驟變產生或是分群結果的聚類數目可依據實際狀況而會呈現出不同的結果。
請同時參閱圖1至圖3所示,在產生分群結果之後,如步驟S20所示,質心運算模組145根據分群結果,找出每一聚類的質心(中心點),並將每一質心附近之數筆聲紋資料進行註冊,例如有5個聚類,就會找出每個聚類各自的質心以及距離質心最近的數筆聲紋資料,以記錄每一質心附近之該些聲紋資料及聲紋資料所對應之一識別編號。在一實施例中,由於每個聚類都有一個質心,此質心為對應聚類中最具代表性的元組,所以,確定聚類質心的方法是:計算每個聚類的數學平均值元組,然後在每個聚類中找到最接近此平均值元組的那個元組作為聚類質心。
在一實施例中,如圖7所示,處理器14內之軟體架構更進一步包含一性別辨識模組146,性別辨識模組146訊號連接於分類演算法模組144以及質心運算模組145之間。請同時參閱圖7及圖8所示,在步驟S18中,分類演算法模組144對聲紋資料進行分類,以產生分群結果之步驟後,更可先進行步驟S22,性別辨識模組146對聲紋資料進行性別辨識,排除少數不一致的聲紋資料或雜訊,以取得每一筆聲紋資料之性別數據,並根據此性別數據更新分群結果,再將更新後的分群結果傳送至質心運算模組145中進行步驟S20之運算,以取得每一聚類質心及其附近之聲紋資料,進而完成註冊。其餘之步驟及詳細說明係與前述實施例相同,故可參酌前面說明,於此不再贅述。在一實施例中,本案可透過自行蒐集之性別資料庫來訓練性別辨識模組146。
因此,本案為一種無須使用者進行註冊之聲音辨識方法,可以免去使用者註冊這個步驟,透過使用者少量的聲音訊號自行學習出使用者的聲紋特徵。本案並可透過少量聲音訊號來註冊使用者的聲紋資料並準確進行辨識,以解決傳統作法需要蒐集大量的聲音訊號。再者,本案另可解決實驗數據與實際驗證數據不一致的問題,由於使用者實際使用與錄製的聲音常會有音量大小聲、咬字、周遭環境音量等差異,本案透過使用者實際使用環境之聲音進行分類辨識,以解決現有技術所遭遇之問題。
綜上所述,本案透過少量的聲音訊號即可註冊使用者之聲紋資料並準確辨識,以及透過使用者實際使用環境之聲音訊號進行分類辨識,故可解決過去必須透過使用者自行提供聲音並註冊的流程,以及實驗數據與實際驗證數據不一致的問題,進而提高辨識準確度。
以上所述的實施例僅係為說明本案的技術思想及特點,其目的在使熟悉此項技術者能夠瞭解本案的內容並據以實施,當不能以之限定本案的專利範圍,即大凡依本案所揭示的精神所作的均等變化或修飾,仍應涵蓋在本案的申請專利範圍內。
10:電子裝置 12:麥克風 14:處理器 141:聲紋模組 142:降維模組 143:正規化模組 144:分類演算法模組 145:質心運算模組 146:性別辨識模組 S10~S22:步驟 S181~S184:步驟
圖1為根據本案一實施例之電子裝置的方塊示意圖。 圖2為根據本案一實施例之處理器的系統架構示意圖。 圖3為根據本案一實施例之聲音辨識方法的流程示意圖。 圖4為根據本案一實施例對聲紋資料進行分類的流程示意圖。 圖5a為根據本案一實施例之斜率出現驟變的曲線示意圖。 圖5b為根據本案一實施例之斜率無出現驟變的曲線示意圖。 圖6a為根據本案一實施例使用手肘方法及分層聚類演算法進行分類的分群結果示意圖。 圖6b為根據本案一實施例使用分層聚類演算法進行分類的分群結果示意圖。 圖7為根據本案另一實施例之處理器的系統架構示意圖。 圖8為根據本案另一實施例之聲音辨識方法的流程示意圖。
S10~S20:步驟

Claims (14)

  1. 一種聲音辨識方法,包含: 收集複數聲音訊號; 擷取每一該聲音訊號之聲紋特徵; 對該聲紋特徵進行資料處理,以轉換為一N維矩陣,且該N為大於等於2之整數; 對該N維矩陣進行特徵標準化處理,以獲得複數聲紋資料; 對該些聲紋資料進行分類,以產生一分群結果;以及 根據該分群結果,找出每一聚類的質心,將每一該質心附近之該些聲紋資料進行註冊。
  2. 如請求項1所述之聲音辨識方法,其中在產生該分群結果之步驟後,更包含:對該些聲紋資料進行性別辨識,取得每一該聲紋資料之性別數據,並根據該性別數據更新該分群結果。
  3. 如請求項1所述之聲音辨識方法,其中在該聲紋特徵進行資料處理之步驟中,係利用t-分布式隨機鄰近嵌入法(t-distributed stochastic neighbor embedding,t-SNE)進行降維處理,以獲得該N維矩陣。
  4. 如請求項1所述之聲音辨識方法,其中在對該些聲紋資料進行分類之步驟中,更包含: 根據該些聲紋資料,透過手肘方法(elbow method)計算出一分群數目以及相鄰之斜率; 在該斜率出現驟變時,根據該分群數目,透過一分層聚類演算法進行分群,以產生該分群結果;以及 在該斜率無驟變時,直接透過該分層聚類演算法進行分群,以產生該分群結果。
  5. 如請求項4所述之聲音辨識方法,其中該分層聚類演算法係為一利用層次的平衡迭代規約和聚類(Balanced Iterative Reducing and Clustering Using Hierarchies,BIRCH)演算法。
  6. 如請求項1所述之聲音辨識方法,其中在對該些聲紋資料進行分類之步驟中,更包含:根據該聲紋特徵動態調整一分類閥值,以對該些聲紋資料進行分類,產生該分群結果。
  7. 如請求項1所述之聲音辨識方法,其中在將每一該質心附近之該些聲紋資料進行註冊之步驟中,更包含:記錄每一該質心附近之該些聲紋資料及該些聲紋資料所對應之一識別編號。
  8. 一種電子裝置,包含: 一收音器,用以收集複數聲音訊號;以及 一處理器,電性連接該收音器,該處理器用以: 擷取每一該聲音訊號之聲紋特徵; 對該聲紋特徵進行資料處理,以轉換為一N維矩陣,且該N為大於等於2之整數; 對該N維矩陣進行特徵標準化處理,以獲得複數聲紋資料; 對該些聲紋資料進行分類,以產生一分群結果;以及 根據該分群結果,找出每一聚類的質心,將每一該質心附近之該些聲紋資料進行註冊。
  9. 如請求項8所述之電子裝置,其中該處理器在產生該分群結果之後,更對該些聲紋資料進行性別辨識,取得每一該聲紋資料之性別數據,並根據該性別數據更新該分群結果。
  10. 如請求項8所述之電子裝置,其中該處理器係利用一t-分布式隨機鄰近嵌入法對該聲紋特徵進行降維處理,以獲得該N維矩陣。
  11. 如請求項8所述之電子裝置,其中該處理器對該些聲紋資料進行分類時,更包含:根據該些聲紋資料,該處理器透過手肘方法計算出一分群數目以及相鄰之斜率;在該斜率出現驟變時,根據該分群數目,透過一分層聚類演算法進行分群,以產生該分群結果;以及在該斜率無驟變時,直接透過該分層聚類演算法進行分群,以產生該分群結果。
  12. 如請求項11所述之電子裝置,其中該分層聚類演算法係為一利用層次的平衡迭代規約和聚類演算法。
  13. 如請求項8所述之電子裝置,其中該處理器在對該些聲紋資料進行分類時,該處理器更可根據該聲紋特徵動態調整一分類閥值,以對該些聲紋資料進行分類,產生該分群結果。
  14. 如請求項8所述之電子裝置,其中該處理器更可記錄每一該質心附近之該些聲紋資料及該些聲紋資料所對應之一識別編號,以完成該註冊。
TW109125475A 2020-07-28 2020-07-28 聲音辨識方法及使用其之電子裝置 TWI807203B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109125475A TWI807203B (zh) 2020-07-28 2020-07-28 聲音辨識方法及使用其之電子裝置
US17/381,267 US11900946B2 (en) 2020-07-28 2021-07-21 Voice recognition method and electronic device using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109125475A TWI807203B (zh) 2020-07-28 2020-07-28 聲音辨識方法及使用其之電子裝置

Publications (2)

Publication Number Publication Date
TW202205257A TW202205257A (zh) 2022-02-01
TWI807203B true TWI807203B (zh) 2023-07-01

Family

ID=80003416

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109125475A TWI807203B (zh) 2020-07-28 2020-07-28 聲音辨識方法及使用其之電子裝置

Country Status (2)

Country Link
US (1) US11900946B2 (zh)
TW (1) TWI807203B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN105488227A (zh) * 2015-12-29 2016-04-13 惠州Tcl移动通信有限公司 一种电子设备及其基于声纹特征处理音频文件的方法
CN105989849A (zh) * 2015-06-03 2016-10-05 乐视致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US20180027351A1 (en) * 2015-02-03 2018-01-25 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
TW202000089A (zh) * 2018-06-27 2020-01-01 醫博科技股份有限公司 睡眠品質改善方法與枕具

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
EP3483761A1 (en) 2017-11-10 2019-05-15 M-cubator GmbH & Co KG Methods and systems for generating user identifying data and for using the user identifying data for authenticating the user
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108091323B (zh) * 2017-12-19 2020-10-13 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
CN108806696B (zh) * 2018-05-08 2020-06-05 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
CN108763420B (zh) 2018-05-24 2021-04-20 广州视源电子科技股份有限公司 数据对象的分类方法、装置、终端和计算机可读存储介质
CN109785825B (zh) 2018-12-29 2021-07-30 长虹美菱日电科技有限公司 一种语音识别的算法及储存介质、应用其的电器
CN109637547B (zh) * 2019-01-29 2020-11-03 北京猎户星空科技有限公司 音频数据标注方法、装置、电子设备及存储介质
CN109960799B (zh) 2019-03-12 2021-07-27 中南大学 一种面向短文本的优化分类方法
CN111009262A (zh) 2019-12-24 2020-04-14 携程计算机技术(上海)有限公司 语音性别识别的方法及系统
AU2021254787A1 (en) * 2020-04-15 2022-10-27 Pindrop Security, Inc. Passive and continuous multi-speaker voice biometrics
US11664033B2 (en) * 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
US20180027351A1 (en) * 2015-02-03 2018-01-25 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
CN105989849A (zh) * 2015-06-03 2016-10-05 乐视致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
CN105488227A (zh) * 2015-12-29 2016-04-13 惠州Tcl移动通信有限公司 一种电子设备及其基于声纹特征处理音频文件的方法
TW202000089A (zh) * 2018-06-27 2020-01-01 醫博科技股份有限公司 睡眠品質改善方法與枕具

Also Published As

Publication number Publication date
TW202205257A (zh) 2022-02-01
US20220036902A1 (en) 2022-02-03
US11900946B2 (en) 2024-02-13

Similar Documents

Publication Publication Date Title
Mouawad et al. Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model
EP3806089B1 (en) Mixed speech recognition method and apparatus, and computer readable storage medium
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN109166586B (zh) 一种识别说话人的方法及终端
WO2019200782A1 (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
WO2019227574A1 (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
WO2014082496A1 (zh) 客户端特征的识别方法、装置及存储介质
WO2020024396A1 (zh) 音乐风格识别方法、装置、计算机设备及存储介质
Monge-Alvarez et al. Audio-cough event detection based on moment theory
WO2019237518A1 (zh) 模型库建立方法、语音识别方法、装置、设备及介质
WO2022134798A1 (zh) 基于自然语言的断句方法、装置、设备及存储介质
WO2019233361A1 (zh) 对音乐进行音量调节的方法及设备
CN112562693B (zh) 一种基于聚类的说话人确定方法、确定装置及电子设备
CN113223536A (zh) 声纹识别方法、装置及终端设备
WO2021143016A1 (zh) 近似数据处理方法、装置、介质及电子设备
Islam et al. Soundsemantics: exploiting semantic knowledge in text for embedded acoustic event classification
CN109933202B (zh) 一种基于骨传导的智能输入方法和系统
TWI807203B (zh) 聲音辨識方法及使用其之電子裝置
Altalbe RETRACTED ARTICLE: Audio fingerprint analysis for speech processing using deep learning method
JP6646216B2 (ja) 情報処理装置、類似データ検索方法、及び類似データ検索プログラム
TW202145037A (zh) 電子裝置與語音識別方法
Jin et al. End-to-end dnn-cnn classification for language identification
Матиченко et al. The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space
CN115083439B (zh) 车辆鸣笛声识别方法、系统、终端及存储介质
Zang et al. Fast global kernel fuzzy c-means clustering algorithm for consonant/vowel segmentation of speech signal