TWI807203B

TWI807203B - 聲音辨識方法及使用其之電子裝置

Info

Publication number: TWI807203B
Application number: TW109125475A
Authority: TW
Inventors: 梁珮琳
Original assignee: 華碩電腦股份有限公司
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-07-01
Also published as: TW202205257A; US20220036902A1; US11900946B2

Abstract

本案提供一種聲音辨識方法，包含收集複數聲音訊號；擷取每一聲音訊號之聲紋特徵；對聲紋特徵進行資料處理，以轉換為N維矩陣，且N為大於等於2之整數；對N維矩陣進行特徵標準化處理，以獲得複數聲紋資料；對這些聲紋資料進行分類，以產生一分群結果；根據分群結果，找出每一聚類的質心，將每一質心附近之聲紋資料進行註冊。本案更提供一種使用此聲音辨識方法之電子裝置。

Description

聲音辨識方法及使用其之電子裝置

本案係有關一種聲音辨識方法及使用此聲音辨識方法的電子裝置。

開發聲音辨識模型通常需要尋找大量的人來錄製聲音資料庫，需要耗費非常多的人力成本，且訓練完的聲音模型還需要透過使用者自行註冊資料，才能進行後續的聲音辨識。除此之外，聲音模型實驗數據的驗證準確度與實際驗證數據常有很大的出入，實際準確度會因為使用者的聲音狀態、聲音大小、環境吵雜程度等受到影響，導致聲音辨識的準確度有其瓶頸存在。

本案提供一種聲音辨識方法，包含：收集複數聲音訊號；擷取每一聲音訊號之聲紋特徵；對聲紋特徵進行資料處理，以轉換為N維矩陣，且N為大於等於2之整數；對N維矩陣進行特徵標準化處理，以獲得複數聲紋資料；對這些聲紋資料進行分類，以產生一分群結果；根據分群結果，找出每一聚類的質心，將每一質心附近之聲紋資料進行註冊。

本案更提供一種電子裝置，包含一收音器及一處理器。收音器用以收集複數聲音訊號，處理器電性連接收音器，此處理器用以：擷取每一聲音訊號之聲紋特徵，對該聲紋特徵進行資料處理，以轉換為N維矩陣，且N為大於等於2之整數；對N維矩陣進行特徵標準化處理，以獲得複數聲紋資料；對這些聲紋資料進行分類，以產生一分群結果；以及根據分群結果，找出每一聚類的質心，將每一該質心附近之些聲紋資料進行註冊。

綜上所述，本案透過少量的聲音訊號即可註冊使用者之聲紋資料並準確辨識，並透過使用者實際使用環境之聲音訊號進行分類辨識，故可解決過去需要使用者自行提供聲音並註冊的流程，以及實驗數據與實際驗證數據不一致的問題，進而提高辨識準確度。

圖1為根據本案一實施例之電子裝置的方塊示意圖，請參閱圖1所示，一電子裝置10包含有至少一收音器以及一處理器14。收音器係用以感應收集來自使用者的聲音訊號。處理器14電性連接收音器，以接收聲音訊號，並根據聲音訊號進行後續辨識與應用。在一實施例中，收音器為麥克風12，電子裝置10可為筆記型電腦、行動電話、個人數位助理（PDA）、平板電腦、桌上型電腦、導航裝置等具有運算能力之電子裝置，但不以此為限。在一實施例中，處理器14可為中央處理單元（CPU）或是微處理器。

在一實施例中，處理器14內之軟體架構更進一步如圖2所示，處理器14包含一聲紋模組141、一降維模組142、一正規化模組143、一分類演算法模組144以及一質心（centroid）運算模組145。聲紋模組141訊號連接降維模組142，降維模組142訊號連接正規化模組143，正規化模組143訊號連接分類演算法模組144，分類演算法模組144訊號連接質心運算模組145。

圖3為根據本案一實施例之聲音辨識方法的流程示意圖，請同時參閱圖1至圖3所示，處理器14用以執行包含步驟S10至步驟S20的聲音辨識方法。首先，如步驟S10所示，處理器14透過麥克風12收集複數聲音訊號，使麥克風12接收到的聲音訊號傳輸至聲紋模組141。如步驟S12所示，聲紋模組141係擷取每一聲音訊號之聲紋特徵，以取得複數聲紋特徵。在一實施例中，聲紋模組141可以透過現有公開的聲紋資料庫進行訓練。

如步驟S14所示，聲紋模組141取得之聲紋特徵會傳送至降維模組142，降維模組142對所有聲紋特徵進行資料處理，將來自同一麥克風12之使用者的聲紋特徵進行排列，以轉換為N維矩陣，且N為大於等於2之整數。在一實施例中，降維模組142係利用t-分布式隨機鄰近嵌入法（t-distributed stochastic neighbor embedding，t-SNE）進行降維處理，以獲得對應之N維矩陣。在一實施例中，N維矩陣係可為二維矩陣，或是二維以上的矩陣。

如步驟S16所示，正規化模組143對N維矩陣進行特徵標準化處理，讓聲紋特徵按比例縮放並落在一特定的區間內，以獲得複數聲紋資料。在一實施例中，正規化模組143係透過標準化(Standardization)、均值移除(mean removal)及方差比例縮放(variance scaling)等方式進行特徵標準化處理。

經過正規化模組143處理後之聲紋資料會傳送至分類演算法模組144，如步驟S18所示，分類演算法模組144對聲紋資料進行分類，以根據聲紋特徵動態調整一分類閥值，進而產生一分群結果，此分群結果包含數個聚類。其中，在步驟S18對所有聲紋資料進行分類之步驟更進一步如圖4所示之步驟S181至步驟S184，請同時參閱圖4所示，如步驟S181，根據聲紋資料，分類演算法模組144先透過手肘方法（elbow method）計算出一分群數目以及相鄰之斜率。如步驟S182所示，分類演算法模組144判斷相鄰斜率是否有驟變產生。在斜率出現驟變時，參閱圖5a所示，在分群數目等於6時斜率出現驟變，所以可以得到分群數目為6，然後如步驟S183所示，分類演算法模組144根據分群數目並透過一分層聚類演算法進行分類，亦即，在斜率出現驟變時，分類演算法模組144會將手肘方法取得的分群數目（分群數目為6）套用在分層聚類演算法中，並利用此分層聚類演算法進行分群，以產生分群結果，如圖6a所示，此分群結果包含編號0～5的6個聚類；在此實施例中，由於編號5的聚類不集中，所以會忽略此聚類，並輸出5個聚類的分類結果。請同時參閱圖5b所示，在斜率無驟變產生時，如步驟S184所示，不採用分群數目，分類演算法模組144直接透過分層聚類演算法進行分群，以產生分群結果，如圖6b所示，此分群結果包含編號0～4的5個聚類。在一實施例中，分層聚類演算法係為一利用層次的平衡迭代規約和聚類（Balanced Iterative Reducing and Clustering Using Hierarchies，BIRCH）演算法。

其中，上述圖5a和圖5b的斜率曲線示意圖以及圖6a和圖6b的分群結果示意圖，僅為說明本案技術內容之具體實施態樣，當不能以此為限，是否有驟變產生或是分群結果的聚類數目可依據實際狀況而會呈現出不同的結果。

請同時參閱圖1至圖3所示，在產生分群結果之後，如步驟S20所示，質心運算模組145根據分群結果，找出每一聚類的質心（中心點），並將每一質心附近之數筆聲紋資料進行註冊，例如有5個聚類，就會找出每個聚類各自的質心以及距離質心最近的數筆聲紋資料，以記錄每一質心附近之該些聲紋資料及聲紋資料所對應之一識別編號。在一實施例中，由於每個聚類都有一個質心，此質心為對應聚類中最具代表性的元組，所以，確定聚類質心的方法是：計算每個聚類的數學平均值元組，然後在每個聚類中找到最接近此平均值元組的那個元組作為聚類質心。

在一實施例中，如圖7所示，處理器14內之軟體架構更進一步包含一性別辨識模組146，性別辨識模組146訊號連接於分類演算法模組144以及質心運算模組145之間。請同時參閱圖7及圖8所示，在步驟S18中，分類演算法模組144對聲紋資料進行分類，以產生分群結果之步驟後，更可先進行步驟S22，性別辨識模組146對聲紋資料進行性別辨識，排除少數不一致的聲紋資料或雜訊，以取得每一筆聲紋資料之性別數據，並根據此性別數據更新分群結果，再將更新後的分群結果傳送至質心運算模組145中進行步驟S20之運算，以取得每一聚類質心及其附近之聲紋資料，進而完成註冊。其餘之步驟及詳細說明係與前述實施例相同，故可參酌前面說明，於此不再贅述。在一實施例中，本案可透過自行蒐集之性別資料庫來訓練性別辨識模組146。

因此，本案為一種無須使用者進行註冊之聲音辨識方法，可以免去使用者註冊這個步驟，透過使用者少量的聲音訊號自行學習出使用者的聲紋特徵。本案並可透過少量聲音訊號來註冊使用者的聲紋資料並準確進行辨識，以解決傳統作法需要蒐集大量的聲音訊號。再者，本案另可解決實驗數據與實際驗證數據不一致的問題，由於使用者實際使用與錄製的聲音常會有音量大小聲、咬字、周遭環境音量等差異，本案透過使用者實際使用環境之聲音進行分類辨識，以解決現有技術所遭遇之問題。

綜上所述，本案透過少量的聲音訊號即可註冊使用者之聲紋資料並準確辨識，以及透過使用者實際使用環境之聲音訊號進行分類辨識，故可解決過去必須透過使用者自行提供聲音並註冊的流程，以及實驗數據與實際驗證數據不一致的問題，進而提高辨識準確度。

以上所述的實施例僅係為說明本案的技術思想及特點，其目的在使熟悉此項技術者能夠瞭解本案的內容並據以實施，當不能以之限定本案的專利範圍，即大凡依本案所揭示的精神所作的均等變化或修飾，仍應涵蓋在本案的申請專利範圍內。

10:電子裝置 12:麥克風 14:處理器 141:聲紋模組 142:降維模組 143:正規化模組 144:分類演算法模組 145:質心運算模組 146:性別辨識模組 S10~S22:步驟 S181~S184:步驟

圖1為根據本案一實施例之電子裝置的方塊示意圖。圖2為根據本案一實施例之處理器的系統架構示意圖。圖3為根據本案一實施例之聲音辨識方法的流程示意圖。圖4為根據本案一實施例對聲紋資料進行分類的流程示意圖。圖5a為根據本案一實施例之斜率出現驟變的曲線示意圖。圖5b為根據本案一實施例之斜率無出現驟變的曲線示意圖。圖6a為根據本案一實施例使用手肘方法及分層聚類演算法進行分類的分群結果示意圖。圖6b為根據本案一實施例使用分層聚類演算法進行分類的分群結果示意圖。圖7為根據本案另一實施例之處理器的系統架構示意圖。圖8為根據本案另一實施例之聲音辨識方法的流程示意圖。

S10~S20:步驟

Claims

一種聲音辨識方法，包含：收集複數聲音訊號；擷取每一該聲音訊號之聲紋特徵；對該聲紋特徵進行資料處理，以轉換為一N維矩陣，且該N為大於等於2之整數；對該N維矩陣進行特徵標準化處理，以獲得複數聲紋資料；對該些聲紋資料進行分類，以產生一分群結果；以及根據該分群結果，找出每一聚類的質心，將每一該質心附近之該些聲紋資料進行註冊。
如請求項1所述之聲音辨識方法，其中在產生該分群結果之步驟後，更包含：對該些聲紋資料進行性別辨識，取得每一該聲紋資料之性別數據，並根據該性別數據更新該分群結果。
如請求項1所述之聲音辨識方法，其中在該聲紋特徵進行資料處理之步驟中，係利用t-分布式隨機鄰近嵌入法（t-distributed stochastic neighbor embedding，t-SNE）進行降維處理，以獲得該N維矩陣。
如請求項1所述之聲音辨識方法，其中在對該些聲紋資料進行分類之步驟中，更包含：根據該些聲紋資料，透過手肘方法（elbow method）計算出一分群數目以及相鄰之斜率；在該斜率出現驟變時，根據該分群數目，透過一分層聚類演算法進行分群，以產生該分群結果；以及在該斜率無驟變時，直接透過該分層聚類演算法進行分群，以產生該分群結果。
如請求項4所述之聲音辨識方法，其中該分層聚類演算法係為一利用層次的平衡迭代規約和聚類（Balanced Iterative Reducing and Clustering Using Hierarchies，BIRCH）演算法。
如請求項1所述之聲音辨識方法，其中在對該些聲紋資料進行分類之步驟中，更包含：根據該聲紋特徵動態調整一分類閥值，以對該些聲紋資料進行分類，產生該分群結果。
如請求項1所述之聲音辨識方法，其中在將每一該質心附近之該些聲紋資料進行註冊之步驟中，更包含：記錄每一該質心附近之該些聲紋資料及該些聲紋資料所對應之一識別編號。
一種電子裝置，包含：一收音器，用以收集複數聲音訊號；以及一處理器，電性連接該收音器，該處理器用以：擷取每一該聲音訊號之聲紋特徵；對該聲紋特徵進行資料處理，以轉換為一N維矩陣，且該N為大於等於2之整數；對該N維矩陣進行特徵標準化處理，以獲得複數聲紋資料；對該些聲紋資料進行分類，以產生一分群結果；以及根據該分群結果，找出每一聚類的質心，將每一該質心附近之該些聲紋資料進行註冊。
如請求項8所述之電子裝置，其中該處理器在產生該分群結果之後，更對該些聲紋資料進行性別辨識，取得每一該聲紋資料之性別數據，並根據該性別數據更新該分群結果。
如請求項8所述之電子裝置，其中該處理器係利用一t-分布式隨機鄰近嵌入法對該聲紋特徵進行降維處理，以獲得該N維矩陣。
如請求項8所述之電子裝置，其中該處理器對該些聲紋資料進行分類時，更包含：根據該些聲紋資料，該處理器透過手肘方法計算出一分群數目以及相鄰之斜率；在該斜率出現驟變時，根據該分群數目，透過一分層聚類演算法進行分群，以產生該分群結果；以及在該斜率無驟變時，直接透過該分層聚類演算法進行分群，以產生該分群結果。
如請求項11所述之電子裝置，其中該分層聚類演算法係為一利用層次的平衡迭代規約和聚類演算法。
如請求項8所述之電子裝置，其中該處理器在對該些聲紋資料進行分類時，該處理器更可根據該聲紋特徵動態調整一分類閥值，以對該些聲紋資料進行分類，產生該分群結果。
如請求項8所述之電子裝置，其中該處理器更可記錄每一該質心附近之該些聲紋資料及該些聲紋資料所對應之一識別編號，以完成該註冊。