TW202205257A - 聲音辨識方法及使用其之電子裝置 - Google Patents
聲音辨識方法及使用其之電子裝置 Download PDFInfo
- Publication number
- TW202205257A TW202205257A TW109125475A TW109125475A TW202205257A TW 202205257 A TW202205257 A TW 202205257A TW 109125475 A TW109125475 A TW 109125475A TW 109125475 A TW109125475 A TW 109125475A TW 202205257 A TW202205257 A TW 202205257A
- Authority
- TW
- Taiwan
- Prior art keywords
- voiceprint
- data
- clustering
- voiceprint data
- processor
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 12
- 235000018185 Betula X alpestris Nutrition 0.000 claims 1
- 235000018212 Betula X uliginosa Nutrition 0.000 claims 1
- 238000007635 classification algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Telephonic Communication Services (AREA)
Abstract
本案提供一種聲音辨識方法,包含收集複數聲音訊號;擷取每一聲音訊號之聲紋特徵;對聲紋特徵進行資料處理,以轉換為N維矩陣,且N為大於等於2之整數;對N維矩陣進行特徵標準化處理,以獲得複數聲紋資料;對這些聲紋資料進行分類,以產生一分群結果;根據分群結果,找出每一聚類的質心,將每一質心附近之聲紋資料進行註冊。本案更提供一種使用此聲音辨識方法之電子裝置。
Description
本案係有關一種聲音辨識方法及使用此聲音辨識方法的電子裝置。
開發聲音辨識模型通常需要尋找大量的人來錄製聲音資料庫,需要耗費非常多的人力成本,且訓練完的聲音模型還需要透過使用者自行註冊資料,才能進行後續的聲音辨識。除此之外,聲音模型實驗數據的驗證準確度與實際驗證數據常有很大的出入,實際準確度會因為使用者的聲音狀態、聲音大小、環境吵雜程度等受到影響,導致聲音辨識的準確度有其瓶頸存在。
本案提供一種聲音辨識方法,包含:收集複數聲音訊號;擷取每一聲音訊號之聲紋特徵;對聲紋特徵進行資料處理,以轉換為N維矩陣,且N為大於等於2之整數;對N維矩陣進行特徵標準化處理,以獲得複數聲紋資料;對這些聲紋資料進行分類,以產生一分群結果;根據分群結果,找出每一聚類的質心,將每一質心附近之聲紋資料進行註冊。
本案更提供一種電子裝置,包含一收音器及一處理器。收音器用以收集複數聲音訊號,處理器電性連接收音器,此處理器用以:擷取每一聲音訊號之聲紋特徵,對該聲紋特徵進行資料處理,以轉換為N維矩陣,且N為大於等於2之整數;對N維矩陣進行特徵標準化處理,以獲得複數聲紋資料;對這些聲紋資料進行分類,以產生一分群結果;以及根據分群結果,找出每一聚類的質心,將每一該質心附近之些聲紋資料進行註冊。
綜上所述,本案透過少量的聲音訊號即可註冊使用者之聲紋資料並準確辨識,並透過使用者實際使用環境之聲音訊號進行分類辨識,故可解決過去需要使用者自行提供聲音並註冊的流程,以及實驗數據與實際驗證數據不一致的問題,進而提高辨識準確度。
圖1為根據本案一實施例之電子裝置的方塊示意圖,請參閱圖1所示,一電子裝置10包含有至少一收音器以及一處理器14。收音器係用以感應收集來自使用者的聲音訊號。處理器14電性連接收音器,以接收聲音訊號,並根據聲音訊號進行後續辨識與應用。在一實施例中,收音器為麥克風12,電子裝置10可為筆記型電腦、行動電話、個人數位助理(PDA)、平板電腦、桌上型電腦、導航裝置等具有運算能力之電子裝置,但不以此為限。在一實施例中,處理器14可為中央處理單元(CPU)或是微處理器。
在一實施例中,處理器14內之軟體架構更進一步如圖2所示,處理器14包含一聲紋模組141、一降維模組142、一正規化模組143、一分類演算法模組144以及一質心(centroid)運算模組145。聲紋模組141訊號連接降維模組142,降維模組142訊號連接正規化模組143,正規化模組143訊號連接分類演算法模組144,分類演算法模組144訊號連接質心運算模組145。
圖3為根據本案一實施例之聲音辨識方法的流程示意圖,請同時參閱圖1至圖3所示,處理器14用以執行包含步驟S10至步驟S20的聲音辨識方法。首先,如步驟S10所示,處理器14透過麥克風12收集複數聲音訊號,使麥克風12接收到的聲音訊號傳輸至聲紋模組141。如步驟S12所示,聲紋模組141係擷取每一聲音訊號之聲紋特徵,以取得複數聲紋特徵。在一實施例中,聲紋模組141可以透過現有公開的聲紋資料庫進行訓練。
如步驟S14所示,聲紋模組141取得之聲紋特徵會傳送至降維模組142,降維模組142對所有聲紋特徵進行資料處理,將來自同一麥克風12之使用者的聲紋特徵進行排列,以轉換為N維矩陣,且N為大於等於2之整數。在一實施例中,降維模組142係利用t-分布式隨機鄰近嵌入法(t-distributed stochastic neighbor embedding,t-SNE)進行降維處理,以獲得對應之N維矩陣。在一實施例中,N維矩陣係可為二維矩陣,或是二維以上的矩陣。
如步驟S16所示,正規化模組143對N維矩陣進行特徵標準化處理,讓聲紋特徵按比例縮放並落在一特定的區間內,以獲得複數聲紋資料。在一實施例中,正規化模組143係透過標準化(Standardization)、均值移除(mean removal)及方差比例縮放(variance scaling)等方式進行特徵標準化處理。
經過正規化模組143處理後之聲紋資料會傳送至分類演算法模組144,如步驟S18所示,分類演算法模組144對聲紋資料進行分類,以根據聲紋特徵動態調整一分類閥值,進而產生一分群結果,此分群結果包含數個聚類。其中,在步驟S18對所有聲紋資料進行分類之步驟更進一步如圖4所示之步驟S181至步驟S184,請同時參閱圖4所示,如步驟S181,根據聲紋資料,分類演算法模組144先透過手肘方法(elbow method)計算出一分群數目以及相鄰之斜率。如步驟S182所示,分類演算法模組144判斷相鄰斜率是否有驟變產生。在斜率出現驟變時,參閱圖5a所示,在分群數目等於6時斜率出現驟變,所以可以得到分群數目為6,然後如步驟S183所示,分類演算法模組144根據分群數目並透過一分層聚類演算法進行分類,亦即,在斜率出現驟變時,分類演算法模組144會將手肘方法取得的分群數目(分群數目為6)套用在分層聚類演算法中,並利用此分層聚類演算法進行分群,以產生分群結果,如圖6a所示,此分群結果包含編號0~5的6個聚類;在此實施例中,由於編號5的聚類不集中,所以會忽略此聚類,並輸出5個聚類的分類結果。請同時參閱圖5b所示,在斜率無驟變產生時,如步驟S184所示,不採用分群數目,分類演算法模組144直接透過分層聚類演算法進行分群,以產生分群結果,如圖6b所示,此分群結果包含編號0~4的5個聚類。在一實施例中,分層聚類演算法係為一利用層次的平衡迭代規約和聚類(Balanced Iterative Reducing and Clustering Using Hierarchies,BIRCH)演算法。
其中,上述圖5a和圖5b的斜率曲線示意圖以及圖6a和圖6b的分群結果示意圖,僅為說明本案技術內容之具體實施態樣,當不能以此為限,是否有驟變產生或是分群結果的聚類數目可依據實際狀況而會呈現出不同的結果。
請同時參閱圖1至圖3所示,在產生分群結果之後,如步驟S20所示,質心運算模組145根據分群結果,找出每一聚類的質心(中心點),並將每一質心附近之數筆聲紋資料進行註冊,例如有5個聚類,就會找出每個聚類各自的質心以及距離質心最近的數筆聲紋資料,以記錄每一質心附近之該些聲紋資料及聲紋資料所對應之一識別編號。在一實施例中,由於每個聚類都有一個質心,此質心為對應聚類中最具代表性的元組,所以,確定聚類質心的方法是:計算每個聚類的數學平均值元組,然後在每個聚類中找到最接近此平均值元組的那個元組作為聚類質心。
在一實施例中,如圖7所示,處理器14內之軟體架構更進一步包含一性別辨識模組146,性別辨識模組146訊號連接於分類演算法模組144以及質心運算模組145之間。請同時參閱圖7及圖8所示,在步驟S18中,分類演算法模組144對聲紋資料進行分類,以產生分群結果之步驟後,更可先進行步驟S22,性別辨識模組146對聲紋資料進行性別辨識,排除少數不一致的聲紋資料或雜訊,以取得每一筆聲紋資料之性別數據,並根據此性別數據更新分群結果,再將更新後的分群結果傳送至質心運算模組145中進行步驟S20之運算,以取得每一聚類質心及其附近之聲紋資料,進而完成註冊。其餘之步驟及詳細說明係與前述實施例相同,故可參酌前面說明,於此不再贅述。在一實施例中,本案可透過自行蒐集之性別資料庫來訓練性別辨識模組146。
因此,本案為一種無須使用者進行註冊之聲音辨識方法,可以免去使用者註冊這個步驟,透過使用者少量的聲音訊號自行學習出使用者的聲紋特徵。本案並可透過少量聲音訊號來註冊使用者的聲紋資料並準確進行辨識,以解決傳統作法需要蒐集大量的聲音訊號。再者,本案另可解決實驗數據與實際驗證數據不一致的問題,由於使用者實際使用與錄製的聲音常會有音量大小聲、咬字、周遭環境音量等差異,本案透過使用者實際使用環境之聲音進行分類辨識,以解決現有技術所遭遇之問題。
綜上所述,本案透過少量的聲音訊號即可註冊使用者之聲紋資料並準確辨識,以及透過使用者實際使用環境之聲音訊號進行分類辨識,故可解決過去必須透過使用者自行提供聲音並註冊的流程,以及實驗數據與實際驗證數據不一致的問題,進而提高辨識準確度。
以上所述的實施例僅係為說明本案的技術思想及特點,其目的在使熟悉此項技術者能夠瞭解本案的內容並據以實施,當不能以之限定本案的專利範圍,即大凡依本案所揭示的精神所作的均等變化或修飾,仍應涵蓋在本案的申請專利範圍內。
10:電子裝置
12:麥克風
14:處理器
141:聲紋模組
142:降維模組
143:正規化模組
144:分類演算法模組
145:質心運算模組
146:性別辨識模組
S10~S22:步驟
S181~S184:步驟
圖1為根據本案一實施例之電子裝置的方塊示意圖。
圖2為根據本案一實施例之處理器的系統架構示意圖。
圖3為根據本案一實施例之聲音辨識方法的流程示意圖。
圖4為根據本案一實施例對聲紋資料進行分類的流程示意圖。
圖5a為根據本案一實施例之斜率出現驟變的曲線示意圖。
圖5b為根據本案一實施例之斜率無出現驟變的曲線示意圖。
圖6a為根據本案一實施例使用手肘方法及分層聚類演算法進行分類的分群結果示意圖。
圖6b為根據本案一實施例使用分層聚類演算法進行分類的分群結果示意圖。
圖7為根據本案另一實施例之處理器的系統架構示意圖。
圖8為根據本案另一實施例之聲音辨識方法的流程示意圖。
S10~S20:步驟
Claims (14)
- 一種聲音辨識方法,包含: 收集複數聲音訊號; 擷取每一該聲音訊號之聲紋特徵; 對該聲紋特徵進行資料處理,以轉換為一N維矩陣,且該N為大於等於2之整數; 對該N維矩陣進行特徵標準化處理,以獲得複數聲紋資料; 對該些聲紋資料進行分類,以產生一分群結果;以及 根據該分群結果,找出每一聚類的質心,將每一該質心附近之該些聲紋資料進行註冊。
- 如請求項1所述之聲音辨識方法,其中在產生該分群結果之步驟後,更包含:對該些聲紋資料進行性別辨識,取得每一該聲紋資料之性別數據,並根據該性別數據更新該分群結果。
- 如請求項1所述之聲音辨識方法,其中在該聲紋特徵進行資料處理之步驟中,係利用t-分布式隨機鄰近嵌入法(t-distributed stochastic neighbor embedding,t-SNE)進行降維處理,以獲得該N維矩陣。
- 如請求項1所述之聲音辨識方法,其中在對該些聲紋資料進行分類之步驟中,更包含: 根據該些聲紋資料,透過手肘方法(elbow method)計算出一分群數目以及相鄰之斜率; 在該斜率出現驟變時,根據該分群數目,透過一分層聚類演算法進行分群,以產生該分群結果;以及 在該斜率無驟變時,直接透過該分層聚類演算法進行分群,以產生該分群結果。
- 如請求項4所述之聲音辨識方法,其中該分層聚類演算法係為一利用層次的平衡迭代規約和聚類(Balanced Iterative Reducing and Clustering Using Hierarchies,BIRCH)演算法。
- 如請求項1所述之聲音辨識方法,其中在對該些聲紋資料進行分類之步驟中,更包含:根據該聲紋特徵動態調整一分類閥值,以對該些聲紋資料進行分類,產生該分群結果。
- 如請求項1所述之聲音辨識方法,其中在將每一該質心附近之該些聲紋資料進行註冊之步驟中,更包含:記錄每一該質心附近之該些聲紋資料及該些聲紋資料所對應之一識別編號。
- 一種電子裝置,包含: 一收音器,用以收集複數聲音訊號;以及 一處理器,電性連接該收音器,該處理器用以: 擷取每一該聲音訊號之聲紋特徵; 對該聲紋特徵進行資料處理,以轉換為一N維矩陣,且該N為大於等於2之整數; 對該N維矩陣進行特徵標準化處理,以獲得複數聲紋資料; 對該些聲紋資料進行分類,以產生一分群結果;以及 根據該分群結果,找出每一聚類的質心,將每一該質心附近之該些聲紋資料進行註冊。
- 如請求項8所述之電子裝置,其中該處理器在產生該分群結果之後,更對該些聲紋資料進行性別辨識,取得每一該聲紋資料之性別數據,並根據該性別數據更新該分群結果。
- 如請求項8所述之電子裝置,其中該處理器係利用一t-分布式隨機鄰近嵌入法對該聲紋特徵進行降維處理,以獲得該N維矩陣。
- 如請求項8所述之電子裝置,其中該處理器對該些聲紋資料進行分類時,更包含:根據該些聲紋資料,該處理器透過手肘方法計算出一分群數目以及相鄰之斜率;在該斜率出現驟變時,根據該分群數目,透過一分層聚類演算法進行分群,以產生該分群結果;以及在該斜率無驟變時,直接透過該分層聚類演算法進行分群,以產生該分群結果。
- 如請求項11所述之電子裝置,其中該分層聚類演算法係為一利用層次的平衡迭代規約和聚類演算法。
- 如請求項8所述之電子裝置,其中該處理器在對該些聲紋資料進行分類時,該處理器更可根據該聲紋特徵動態調整一分類閥值,以對該些聲紋資料進行分類,產生該分群結果。
- 如請求項8所述之電子裝置,其中該處理器更可記錄每一該質心附近之該些聲紋資料及該些聲紋資料所對應之一識別編號,以完成該註冊。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109125475A TWI807203B (zh) | 2020-07-28 | 2020-07-28 | 聲音辨識方法及使用其之電子裝置 |
US17/381,267 US11900946B2 (en) | 2020-07-28 | 2021-07-21 | Voice recognition method and electronic device using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109125475A TWI807203B (zh) | 2020-07-28 | 2020-07-28 | 聲音辨識方法及使用其之電子裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202205257A true TW202205257A (zh) | 2022-02-01 |
TWI807203B TWI807203B (zh) | 2023-07-01 |
Family
ID=80003416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109125475A TWI807203B (zh) | 2020-07-28 | 2020-07-28 | 聲音辨識方法及使用其之電子裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11900946B2 (zh) |
TW (1) | TWI807203B (zh) |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN107211061B (zh) * | 2015-02-03 | 2020-03-31 | 杜比实验室特许公司 | 用于空间会议回放的优化虚拟场景布局 |
CN105989849B (zh) | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
CN105488227B (zh) * | 2015-12-29 | 2019-09-20 | 惠州Tcl移动通信有限公司 | 一种电子设备及其基于声纹特征处理音频文件的方法 |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
EP3483761A1 (en) | 2017-11-10 | 2019-05-15 | M-cubator GmbH & Co KG | Methods and systems for generating user identifying data and for using the user identifying data for authenticating the user |
CN107978311B (zh) * | 2017-11-24 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN108091323B (zh) * | 2017-12-19 | 2020-10-13 | 想象科技(北京)有限公司 | 用于自语音中识别情感的方法与装置 |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
CN108763420B (zh) | 2018-05-24 | 2021-04-20 | 广州视源电子科技股份有限公司 | 数据对象的分类方法、装置、终端和计算机可读存储介质 |
TWI674082B (zh) * | 2018-06-27 | 2019-10-11 | 醫博科技股份有限公司 | 睡眠品質改善方法與枕具 |
CN109785825B (zh) | 2018-12-29 | 2021-07-30 | 长虹美菱日电科技有限公司 | 一种语音识别的算法及储存介质、应用其的电器 |
CN109637547B (zh) * | 2019-01-29 | 2020-11-03 | 北京猎户星空科技有限公司 | 音频数据标注方法、装置、电子设备及存储介质 |
CN109960799B (zh) | 2019-03-12 | 2021-07-27 | 中南大学 | 一种面向短文本的优化分类方法 |
CN111009262A (zh) | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
JP2023521768A (ja) * | 2020-04-15 | 2023-05-25 | ピンドロップ セキュリティー、インコーポレイテッド | 受動的かつ継続的なマルチ話者音声生体認証 |
US11664033B2 (en) * | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
-
2020
- 2020-07-28 TW TW109125475A patent/TWI807203B/zh active
-
2021
- 2021-07-21 US US17/381,267 patent/US11900946B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220036902A1 (en) | 2022-02-03 |
TWI807203B (zh) | 2023-07-01 |
US11900946B2 (en) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mouawad et al. | Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model | |
US11996091B2 (en) | Mixed speech recognition method and apparatus, and computer-readable storage medium | |
Jahangir et al. | Text-independent speaker identification through feature fusion and deep neural network | |
Krishnan et al. | Emotion classification from speech signal based on empirical mode decomposition and non-linear features: Speech emotion recognition | |
WO2019200782A1 (zh) | 样本数据分类方法、模型训练方法、电子设备及存储介质 | |
KR100671505B1 (ko) | 베이즈법을 적용한 악기신호의 인식 및 장르분류 방법 | |
WO2019227574A1 (zh) | 语音模型训练方法、语音识别方法、装置、设备及介质 | |
US10685008B1 (en) | Feature embeddings with relative locality for fast profiling of users on streaming data | |
WO2020024396A1 (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
WO2014082496A1 (zh) | 客户端特征的识别方法、装置及存储介质 | |
CN102024455A (zh) | 说话人识别系统及其方法 | |
WO2019233361A1 (zh) | 对音乐进行音量调节的方法及设备 | |
CN113223536A (zh) | 声纹识别方法、装置及终端设备 | |
Barkana et al. | Environmental noise classifier using a new set of feature parameters based on pitch range | |
CN106297768B (zh) | 一种语音识别方法 | |
Altalbe | RETRACTED ARTICLE: Audio fingerprint analysis for speech processing using deep learning method | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
TWI807203B (zh) | 聲音辨識方法及使用其之電子裝置 | |
TW202145037A (zh) | 電子裝置與語音識別方法 | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
Haritaoglu et al. | Using deep learning with large aggregated datasets for COVID-19 classification from cough | |
JP2017162230A (ja) | 情報処理装置、類似データ検索方法、及び類似データ検索プログラム | |
CN115083439A (zh) | 车辆鸣笛声识别方法、系统、终端及存储介质 | |
He et al. | Underdetermined mixing matrix estimation based on joint density-based clustering algorithms | |
CN111951791A (zh) | 声纹识别模型训练方法、识别方法、电子设备及存储介质 |