TWI745843B

TWI745843B - 由電腦實施的語音命令驗證方法及電子裝置

Info

Publication number: TWI745843B
Application number: TW109102926A
Authority: TW
Inventors: 伊芙琳柯尼亞瓦堤; 沙席拉吉索馬拉金
Original assignee: 美律實業股份有限公司
Priority date: 2019-09-21
Filing date: 2020-01-30
Publication date: 2021-11-11
Also published as: US11227601B2; CN111462763B; CN111462763A; US20210090577A1; TW202113802A

Abstract

本發明提供一種由電腦實施的語音命令驗證方法。所述方法包括：獲得聲音訊號流；計算聲音訊號流的訊號雜訊比（SNR）值；將聲音訊號流轉換成梅爾頻率倒頻譜係數（MFCC）流；根據梅爾頻率倒頻譜係數流及根據由高斯混合模型-通用背景模型（GMM-UBM）產生的多個樣本流中的一者計算與梅爾頻率倒頻譜係數流對應的動態時間扭曲（DTW）距離；根據梅爾頻率倒頻譜係數流及樣本流計算與梅爾頻率倒頻譜係數流對應的對數似然比（LLR）值作為高斯混合模型-通用背景模型得分；根據高斯混合模型-通用背景模型得分、動態時間扭曲距離及訊號雜訊比值判斷聲音訊號流是否通過語音命令驗證；反應於判定聲音訊號流通過語音命令驗證，判定聲音訊號流是自合法使用者發出的語音流。

Description

由電腦實施的語音命令驗證方法及電子裝置

本揭露是有關於一種電子設備以及用於所述電子設備的由電腦實施的方法，且更具體而言，是有關於一種用於判斷所接收的語音命令的聲音訊號流是來自於合法使用者還是非法使用者的由電腦實施的語音命令驗證方法以及使用所述方法的電子設備。

通用背景模型（Universal Background Model，UBM）是生物特徵驗證系統中使用的用於表示在作出接受或拒絕決定時欲相對於個人特定的特徵特性的模型進行比較的一般的、個人獨立的特徵特性的模型。舉例而言，在說話者驗證系統中，UBM是利用來自大量說話者的言語樣本進行訓練的用於表示一般言語特性的說話者獨立(Speaker-independent)的高斯混合模型（Gaussian Mixture Model，GMM）。利用來自特定登記的說話者的言語樣本n所訓練的說話者特定(speaker-specific)的GMM，可形成在說話者特定的GMM模型與UBM的匹配得分之間的未知言語樣本的似然比(likelihood-ratio)測試。換言之，未知言語樣本可使用前述高斯混合模型-通用背景模型（Gaussian Mixture Model with Universal Background Model，GMM-UBM）的方法來驗證。

由所提出的發明提供的一種由電腦實施的語音命令驗證方法及使用所述由電腦實施的語音命令驗證方法的電子裝置能夠根據對應的GMM-UBM得分、動態時間扭曲（Dynamic Time Warping，DTW）距離及訊號雜訊比（Signal-to-Noise Ratio，SNR）值，對語音命令的所獲得的聲音訊號流實行驗證流程以使得對語音命令的驗證的準確性將得到改善。

根據本發明概念，提供一種由電腦實施的語音命令驗證方法。所述由電腦實施的語音命令驗證方法包括：獲得聲音訊號流；計算所述聲音訊號流的訊號雜訊比（SNR）值；將所述聲音訊號流轉換成梅爾頻率倒頻譜係數（Mel-Frequency Cepstral Coefficient，MFCC）流；根據所述MFCC流及根據由高斯混合模型-通用背景模型（GMM-UBM）產生的多個樣本流中的一者計算與所述MFCC流對應的動態時間扭曲（DTW）距離；根據所述MFCC流及所述樣本流計算與所述MFCC流對應的對數似然比（Log-likelihood ratio，LLR）值作為與所述聲音訊號流對應的GMM-UBM得分；根據所述GMM-UBM得分、所述DTW距離及所述SNR值判斷所述聲音訊號流是否通過語音命令驗證；反應於判定所述聲音訊號流通過所述語音命令驗證，判定所述聲音訊號流是自合法使用者發出的語音流；以及反應於判定所述聲音訊號流未通過所述語音命令驗證，判定所述聲音訊號流是自非法使用者發出的語音流。

根據本發明又一概念，提供一種電子裝置。所述電子裝置包括麥克風裝置、儲存裝置以及處理器。所述麥克風裝置接收聲音以產生聲音訊號流。所述儲存裝置用以儲存程式及由高斯混合模型-通用背景模型（GMM-UBM）產生的多個樣本流。所述處理器用以執行所述程式以實施一種語音命令驗證方法，其中所述處理器計算所述聲音訊號流的訊號雜訊比（SNR）值，將所述聲音訊號流轉換成梅爾頻率倒頻譜係數（MFCC）流。另外，所述處理器根據所述MFCC流及所述多個樣本流計算與所述MFCC流對應的對數似然比（LLR）值作為與所述聲音訊號流對應的GMM-UBM得分，其中所述處理器更根據所述MFCC流及所述多個樣本流中的一者計算與所述MFCC流對應的動態時間扭曲（DTW）距離。接著，所述處理器根據所述GMM-UBM得分、所述DTW距離及所述SNR值判斷所述聲音訊號流是否通過語音命令驗證，其中反應於判定所述聲音訊號流通過所述語音命令驗證，所述處理器判定所述聲音訊號流是自合法使用者發出的語音流，其中反應於判定所述聲音訊號流未通過所述語音命令驗證，所述處理器判定所述聲音訊號流是自非法使用者發出的語音流。

基於前述實施例，所提供的由電腦實施的語音命令驗證方法及使用所述由電腦實施的語音命令驗證方法的電子裝置能夠：計算所獲得的聲音訊號流的SNR；根據與所述聲音訊號流對應的MFCC流以及由GMM-UBM產生的多個樣本流計算LLR值作為與所述聲音訊號流對應的GMM-UBM得分；並通過根據所述GMM-UBM得分、對應的DTW距離及SNR值判斷所述聲音訊號流是否通過語音命令驗證來判斷所述聲音訊號流是自合法使用者發出的語音流還是自非法使用者發出的語音流，以使得用於抵抗聲音訊號流中的雜訊的能力將得到提高且語音命令（由麥克風裝置接收的聲音）的驗證的準確性將得到提高。

為使前述內容更易於理解，以下詳細闡述附有圖式的若干實施例。

現在將詳細參照本發明的當前較佳實施例，該些當前較佳實施例的實例在附圖中予以例示。盡可能地，在圖式及說明中使用相同的參考編號指代相同或相似的部件。

在本實施例中，電子裝置使用本實施例所提供的語音命令方法來對所接收的聲音實行驗證流程以判定所接收的聲音是否對應於自合法使用者發出的語音命令。舉例而言，電子裝置可為智慧型電話、虛擬助理（例如，谷歌助理、或iOS/macOS的希瑞（Siri））、車輛中央控制裝置、家庭自動化系統（例如，亞馬遜的艾利克斯（Alexa）或對傳入/接收的聲音實行語音識別以對自身或/及其他對應連接的其他電子裝置執行相關操作（例如，語音控制操作）的其他類型的電子裝置。

圖1示出根據本發明實施例的電子裝置的方塊圖。參照圖1，在實施例中，電子裝置10包括麥克風裝置110、處理器130、儲存裝置140。在又一實施例中，電子裝置10更包括輸入/輸出（input/output，I/O）裝置150及通訊電路單元160。在再一實施例中，電子裝置10更包括語音命令管理電路單元120。

麥克風裝置110用以接收聲音並產生對應的聲音訊號流。

儲存裝置140（或非暫態電腦可讀取記錄媒體）用以儲存程式、使用者資料及系統資料。程式中的一些程式是安裝於電子裝置中的應用程式，且程式中的一些程式是用於管理電子裝置的整體操作的韌體/軟體/應用程式（例如，用於使用在所提出的發明的實施例中提供的語音命令驗證方法來實施語音命令驗證的程式）。使用者資料是指自電子裝置的使用者或自其他電子裝置輸入或發送的資料。系統資料是指與對電子裝置10實行的管理操作相關的資料。在實施例中，系統資料包括UBM語音資料庫141及合法使用者語音資料庫142。UBM語音資料庫141記錄自不同使用者發出的多個不同的樣本語音/言語。在另一實施例中，UBM語音資料庫141更記錄多個不同的背景聲音。此外，合法使用者語音資料庫142記錄自具有控制電子裝置10的控制權的一或多個合法使用者發出的語音或言語。

在實施例中，處理器130可包括電子裝置10的中央處理單元（central processing unit，CPU），且因此控制電子裝置10的總體操作。在某些實施例中，處理器130通過加載儲存於儲存裝置140中的軟體或韌體以及執行所加載的軟體或韌體（例如，將處理器130程式化）、進而以實施例中提供的語音命令驗證方法來達成此結果。處理器130可為或可包括一或多個可程式化通用或專用微處理器、數位訊號處理器（digital signal processor，DSP）、可程式化控制器、應用專用積體電路（application specific integrated circuit，ASIC）、可程式化邏輯裝置（programmable logic device，PLD）等或者該些裝置的組合。

I/O裝置150包括輸入裝置及輸出裝置，其中輸入裝置用以根據使用者施加在輸入/輸出裝置上的輸入操作來產生輸入資料或輸入指令。所產生的輸入資料或輸入指令可被發送至處理器130，且處理器130可記錄輸入資料或實行與輸入指令對應的操作。輸入裝置可包括例如多個物理按鈕、鍵盤、鼠標、觸控螢幕或其他合適的輸入裝置。輸出裝置用以根據自處理器發送的指令輸出媒體內容（例如，影像內容、聲音內容或視訊內容）。輸出裝置可包括例如螢幕、揚聲器、投影儀、列印機、觸控螢幕或其他合適的輸出裝置。

在實施例中，通訊電路單元160包括用以支援無線保真（Wireless Fidelity，WiFi）系統及藍芽通訊技術中的一者或其組合的無線通訊電路模組，但並非僅限於此。另外，通訊電路單元160可更包括用以建立與網際網路或本地網路的連接的網路介面卡（network interface card，NIC）。換言之，通訊電路單元160可建立與網際網路、本地網路及/或另一電子裝置的有線或無線連接。處理器130可自網際網路、本地網路及/或另一電子裝置接收經由所建立的連接傳送的資料（例如，聲音訊號流或其他類型的資料）。

在另一實施例中，通訊電路單元160可更包括用以經由實體連接線連接至其他電子裝置的連接介面。連接介面可為包括多個埠的電路介面，例如，符合視訊圖形陣列（Video Graphics Array，VGA）標準、數位視覺介面（Digital Visual Interface，DVI）標準、高清晰度多媒體介面（High Definition Multimedia Interface，HDMI）標準或其他合適的標準的埠。然而，本揭露並非僅限於此。舉例而言，在又一實施例中，連接介面可包括可與通用串列匯流排（Universal Serial Bus，USB）標準或其他合適的標準相容的埠。

在實施例中，可將與所提供的語音命令驗證方法對應的程式實施為硬體電路單元（例如，語音命令管理電路單元120）。語音命令管理電路單元120例如可包括SNR計算電路121、MFCC轉換電路122、DTW計算電路123、使用者驗證電路124及語音命令映射電路125。SNR計算電路121用以計算與所輸入的聲音訊號流對應的SNR。MFCC轉換電路122用以將所輸入的聲音訊號流轉換成MFCC聲音訊號流（亦稱為MFCC流）。DTW計算電路123用以計算所輸入的聲音訊號流與多個樣本流中的一個樣本流之間的DTW距離。使用者驗證電路124用以對與所接收的聲音對應的聲音訊號流實行驗證，進而驗證聲音是否是自授權使用者（合法使用者）發出的語音命令。語音命令映射電路125用以將聲音訊號流映射至所記錄的語音命令，進而根據所映射的語音命令實行對應的操作。

圖2示出根據本發明實施例的藉由GMM-UBM方法進行的對合法使用者的樣本聲音流的登記以及輸入使用者語音的對應識別的示意圖。參照圖2，合法使用者的樣本聲音流的登記包括步驟210至步驟240。更詳言之，將各種說話者（不同使用者）的多個言語輸入至GMM模型中（步驟210）以產生通用背景模型（UBM）樣本聲音流（亦稱為第一樣本流）（步驟230）。此外，輸入合法說話者（合法使用者）的言語，且經由所產生的與各種說話者的言語對應的UBM而對合法說話者的言語實行UBM適配（步驟220），進而藉由進一步GMM建模來獲得另一樣本聲音流（亦稱為第二樣本流）（步驟240）。換言之，第一樣本流是利用大量說話者的言語訓練的說話者獨立的GMM，且第一樣本流表示一般言語特性。第二樣本流是利用合法說話者的言語訓練的說話者特定的GMM，且第二樣本流表示合法使用者/說話者的言語特性。

在另一態樣中，對所輸入的使用者語音「UV」的識別包括步驟250至步驟270。更詳言之，麥克風裝置110可接收聲音（例如，所輸入的使用者語音「UV」）且接著產生對應的聲音訊號流。所產生的聲音訊號流將被發送至處理器130（或語音命令管理電路單元120）以用於實行預處理（步驟250）。預處理包括但不限於例如聲音淨化操作、聲音訊號流的SNR計算、聲音訊號流的MFCC轉換以及聲音訊號流與樣本流中的一個樣本流之間的DTW距離計算。接著，處理器130（或語音命令管理電路單元120）根據預處理的聲音流（例如，藉由對聲音訊號流進行轉換而獲得的MFCC流）、UBM樣本流（第一樣本流）及合法說話者GMM樣本流（第二樣本流）計算「UV」的GMM-UBM得分（步驟260）。接下來，處理器130（或語音命令管理電路單元120）根據所計算的GMM-UBM得分、對應的DTW距離及一或多個對應的門檻值來判斷所輸入的使用者語音「UV」是否是自合法使用者發出的（步驟270）。所述一或多個對應的門檻值包括LLR門檻值及驗證門檻值中的至少一者。應提及，第一樣本流可儲存於UBM語音資料庫141中，且第二樣本流可儲存於合法使用者語音資料庫142中。

圖3示出根據本發明實施例的由電腦實施的語音命令驗證方法的流程圖。參照圖3，在步驟S31中，處理器130（或語音命令管理電路單元120）獲得聲音訊號流。具體而言，如上所述，聲音訊號流是自麥克風裝置110獲得的。在另一實施例中，通訊電路單元160可經由所建立的連接自另一個電子裝置接收聲音訊號流。舉例而言，使用者可對連接至電子裝置10的通訊電路單元160的他的智慧型手機說話，智慧型手機可向通訊電路單元160傳送對應的聲音訊號流，且接著通訊電路單元160可向處理器130（或語音命令管理電路單元120）發送所接收的聲音訊號流。

接下來，在步驟S32中，處理器130（或SNR計算電路121）計算聲音訊號流的訊號雜訊比（SNR）值。由於聲音訊號流的SNR的計算是此項技術領域中眾所習知的技術，而不是所提出的發明的主要概念，因此此處將省略相關細節。

接下來，在步驟S33中，處理器130（或MFCC轉換電路122）將聲音訊號流轉換成梅爾頻率倒頻譜係數（MFCC）流。由於聲音訊號流的MFCC轉換是此項技術中眾所習知的技術，而不是所提出的發明的主要概念，因此此處將省略相關細節。

接下來，在步驟S34中，處理器130（或DTW計算電路123）根據MFCC流及由高斯混合模型-通用背景模型（GMM-UBM）產生的樣本流（例如，第一樣本流及第二樣本流）中的一個樣本流（例如，第二樣本流）計算與MFCC流對應的動態時間扭曲（DTW）距離（也稱，動態時間規整距離）。由於DTW距離計算是用於兩個資料流的時間特徵的時間序列比較的眾所習知的技術，而不是所提出的發明的主要概念，因此此處將省略相關細節。

接下來，在步驟S35中，處理器130（或使用者驗證電路124）根據MFCC流及樣本流計算與MFCC流對應的對數似然比（LLR）值作為與聲音訊號流對應的GMM-UBM得分。

具體而言，所述計算是基於以下公式（F1）：

（F1）

T 表示MFCC流的時間訊框的總量；t 表示聲音流的多個時間訊框中的一者；Θ_UBM 表示與特定時間訊框t 對應的UBM樣本流（第一樣本流）的特徵值；Θ_speaker 表示與特定時間訊框t 對應的合法說話者GMM樣本流（第二樣本流）的特徵值；p() 表示概率函數；y_t 表示與特定時間訊框t 對應的MFCC流的特徵值。在計算出LLR值之後，處理器130（或使用者驗證電路124）將所計算的LLR值識別為與聲音訊號流對應的GMM-UBM得分。

接下來，在步驟S36中，處理器130（或使用者驗證電路124）根據GMM-UBM得分、DTW距離及SNR值判斷聲音訊號流是否通過語音命令驗證。步驟S36的細節將由圖4A至圖4B闡述。

圖4A示出根據本發明實施例的圖3中的步驟S36的流程圖。參照圖4A，在此實施例中，步驟S36包括步驟S411至步驟S416。

具體而言，在步驟S411中，處理器130（或使用者驗證電路124）根據SNR值計算LLR門檻值。

更詳言之，藉由將一門檻值（亦稱為常數「C」）乘以SNR函數（即，LLR門檻值=（SNR函數）*C）來計算LLR門檻值，其中根據第一常數、第二常數、第三常數及SNR值來計算SNR函數的值。門檻值是自開發資料集憑經驗發現的，舉例而言，發現門檻值是4300。

SNR函數的值的計算是基於以下公式（F2）：

f(SNR)=y1(x)=0.1048x² -2.8479x+20.217 （F2）

其中，SNR函數是「f（SNR）」或「y1（x）」，且x 表示以分貝為單位的聲音訊號流的SNR值。此外，第一常數是0.1048；第二常數是-2.8479；且第三常數是20.217。此外，在此公式（F2）中存在一個約束條件，即因應於x（即，SNR值）大於14.7（分貝）將會將第一參數f(SNR)直接設定成1（即，當x>14.7分貝時，f(SNR)=1；當x>14.7分貝時，LLR門檻值 = f(SNR)*C = C）。

在計算出LLR門檻值之後，在步驟S412中，處理器130（或使用者驗證電路124）判斷GMM-UBM得分是否大於LLR門檻值。反應於判定GMM-UBM得分大於LLR門檻值（步驟S412:是），將執行步驟S413；反應於判定GMM-UBM得分不大於LLR門檻值（步驟S412:否），將執行步驟S416。步驟S412可被稱為「第一層驗證」。

在步驟S416中，處理器130（或使用者驗證電路124）判定聲音訊號流未通過語音命令驗證。

在步驟S413中，處理器130（或使用者驗證電路124）計算出DTW距離的倒數（即1/（DTW距離））作為與聲音訊號流對應的最終得分。

接下來，在步驟S414中，處理器130（或使用者驗證電路124）判斷最終得分是否大於驗證門檻值。驗證門檻值可經由實驗預先確定，例如，驗證門檻值可根據與各種驗證門檻值對應的檢測錯誤權衡曲線（DET）及/或等錯誤率（Equal Error Rate，EER）的結果來判定。步驟S414可被稱為「第二層驗證」。

反應於判定最終得分大於驗證門檻值，將執行步驟S415；反應於判定最終得分不大於驗證門檻值，將執行步驟S416。

在步驟S415中，處理器130（或使用者驗證電路124）判定聲音訊號流通過語音命令驗證。

圖4B示出根據本發明又一實施例的圖3中的步驟S36的流程圖。參照圖4B，在此實施例中，步驟S36包括步驟S421至步驟S426。

具體而言，在步驟S421中，處理器130（或使用者驗證電路124）根據SNR值計算第一參數及第二參數。更詳言之，第一參數是藉由將門檻值乘以SNR函數來計算的，其中SNR函數的值是根據第一常數、第二常數、第三常數及SNR值來計算的。第一參數是在圖4A所示實施例中闡述的LLR門檻值（即，f(SNR)*C），且在此處將省略第一參數的細節。

第二參數是根據第四常數、第五常數及SNR值計算的。

具體而言，第二參數的計算是基於以下公式（F3）：

g(SNR)=y2(x)=-30085x+450851 （F3）

其中，第二參數是又一SNR函數（即，「g(SNR)」或「y2(x)」），且x 表示以分貝為單位的聲音訊號流的SNR值。此外，第四常數是-30085；第五常數是450851。此外，在此公式（F3）中存在兩個約束條件：（1）因應於x（即，SNR值）小於10（分貝）將會將第二參數g(SNR)直接設定成150000（即，當x>10分貝時，g(SNR) = 150000）；（2）因應於x（即，SNR值）大於14.7（分貝）將會將第二參數g(SNR)直接設定成第一參數的兩倍（即，當x>14.7分貝時，g(SNR) = 2*f(SNR)*C）。

在計算出第一參數及第二參數之後，在步驟S422中，處理器130（或使用者驗證電路124）根據DTW距離、GMM-UBM得分、第一參數及第二參數計算最終得分。具體而言，最終得分是基於以下公式（F4）計算的：

最終得分 = [1/(DTW 距離 )]*{[(GMM-UBM 得分 )/g(SNR)]+0.5} （F4）

其中，GMM-UBM得分是在步驟S35中計算的LLR值，且DTW距離是在步驟S34中計算的。

在獲得所計算的最終得分之後，在步驟S423中，處理器130（或使用者驗證電路124）判斷最終得分是否大於驗證門檻值。驗證門檻值可經由實驗預先確定，例如，驗證門檻值可根據與各種驗證門檻值對應的檢測錯誤權衡曲線（DET）及/或等錯誤率（EER）的結果來判定。

反應於判定最終得分大於驗證門檻值，將執行步驟S424；反應於判定最終得分不大於驗證門檻值，將執行步驟S425。

在步驟S424中，處理器130（或使用者驗證電路124）判定聲音訊號流通過語音命令驗證。在步驟S425中，處理器130（或使用者驗證電路124）判定聲音訊號流未通過語音命令驗證。

返回參照圖3，反應於判定聲音訊號流通過語音命令驗證（S36:是），將執行步驟S37；反應於判定聲音訊號流未通過語音命令驗證（S36:否），將執行步驟S38。

在步驟S37中，處理器130（或使用者驗證電路124）判定聲音訊號流是自合法使用者發出的語音流。換言之，處理器130（或使用者驗證電路124）可批准此經授權的合法使用者（例如，在圖2所示實施例中闡述的登記期間註冊的使用者）發出的語音命令。

在步驟S38中，處理器130（或使用者驗證電路124）判定聲音訊號流是自非法使用者發出的語音流。換言之，處理器130（或使用者驗證電路124）可拒絕由此非法使用者發出的語音命令（例如，使用者在圖2所示實施例中闡述的登記期間未註冊）。

圖5示出根據本發明實施例的判定由非法使用者或合法使用者發出的語音命令的結果的示意圖。參照圖5，在實例>EX1>中，假設使用者30發出語音（命令）UV2，且電子裝置10判定此語音UV2不是由合法使用者發出的語音命令，且接著拒絕語音UV2。處理器130（或使用者驗證電路124）可進一步指示I/O裝置150播放（或顯示）指示拒絕的媒體內容（例如，電子裝置10藉由播放語音內容RV2「使用者未授權」來進行回應）。

在實例>EX2>中，假設使用者20發出語音（命令）UV1，且電子裝置10判定此語音UV1是由合法使用者「夏娃（Eve）」發出的語音命令，且接著批准語音UV1。處理器130（或使用者驗證電路124）可給予由此合法使用者（經授權的使用者/登記過的使用者）發出的語音命令控制權。處理器130（或使用者驗證電路124）可進一步指示I/O裝置150播放（或顯示）指示批准的媒體內容（例如，電子裝置10藉由播放語音內容RV1「歡迎！夏娃，我能幫忙嗎？」來進行回應）。

圖6A示出應用傳統GMM-UBM方法的語音識別的檢測錯誤權衡（DET）曲線的示意圖。圖6B示出應用由本發明實施例提供的語音命令方法的語音識別的檢測錯誤權衡（DET）曲線的示意圖。一同參照圖6A及圖6B，顯而易見，關於圖6A中的中間區MR1及圖6B中的中間區MR2，語音識別/驗證的效能得到改善。應提及，經校準的DET曲線圖6B是藉由由前述實施例提供的本發明的GMM-UBM方法獲得的。

舉例而言，在圖6A中的中間區MR1中，對於「未命中概率」5%而言，點C1（X1，5）在具有10分貝SNR的聲音訊號流的DET曲線上；點C2（X2，5）在具有11分貝SNR的聲音訊號流的DET曲線上；點C3（X3，5）在具有12分貝SNR的聲音訊號流的DET曲線上。此外，在圖6B中的中間區MR2中，對於「未命中概率」5%而言，點C1’（X1’，5）在具有10分貝SNR的聲音訊號流的DET曲線上；點C2’（X2’，5）在具有11分貝SNR的聲音訊號流的DET曲線上；點C3’（X3’，5）在具有12分貝SNR的聲音訊號流的DET曲線上。藉由比較關於「未命中概率」5%的點的x座標（表示錯誤報警概率(false alarm probability)），可發現X1’小於X1，X2’小於X2，且X3’小於X3。換言之，在相同的未命中概率情況下（例如，5%），藉由所提出的發明的實施例提供的本發明GMM-UBM方法，錯誤報警概率將降低（效能得到改善）。

對於另一實例而言，在圖6A中的中間區MR1中，對於「錯誤報警概率」5%而言，點D1（5，Y1）在具有10分貝SNR的聲音訊號流的DET曲線上；點D2（5，Y2）在具有11分貝SNR的聲音訊號流的DET曲線上；點D3（5，Y3）在具有12分貝SNR的聲音訊號流的DET曲線上。此外，在圖6B中的中間區MR2中，對於「錯誤報警概率」5%而言，點D1’（5，Y1’）在具有10分貝SNR的聲音訊號流的DET曲線上；點D2’（5，Y2’）在具有11分貝SNR的聲音訊號流的DET曲線上；點D3’（5，Y3’）在具有12分貝SNR的聲音訊號流的DET曲線上。藉由比較關於「錯誤報警概率」5%的點的y座標（表示未命中概率），可發現Y1’小於Y1，Y2’小於Y2，且Y3’小於Y3。換言之，在相同的錯誤報警概率情況下（例如，5%），藉由由所提出的發明的實施例提供的本發明GMM-UBM方法，未命中概率將降低（效能得到改善）。

應注意，根據圖6A及圖6B，可發現以下證據：藉由應用在本發明實施例中提供的改善的GMM-UBM方法，語音識別/驗證流程中的「錯誤報警概率」及「未命中概率」將降低以使得語音命令識別/驗證的準確性提高且電子裝置的總體效能得到改善。

基於前述實施例，所提供的由電腦實施的語音命令驗證方法及使用所述由電腦實施的語音命令驗證方法的電子裝置能夠：計算所獲得的聲音訊號流的SNR；根據與所述聲音訊號流對應的MFCC流以及由GMM-UBM產生的樣本流計算LLR值作為與所述聲音訊號流對應的GMM-UBM得分；並通過根據所述GMM-UBM得分、對應的DTW距離及SNR值判斷所述聲音訊號流是否通過語音命令驗證來判斷所述聲音訊號流是自合法使用者發出的語音流還是自非法使用者發出的語音流，以使得用於抵抗聲音訊號流中的雜訊的能力將提高且語音命令（由麥克風裝置接收的聲音）的驗證的準確性將提高。

對於熟習此項技術者而言將顯而易見的是，在不背離本揭露的範圍或精神的條件下，可對所揭露的實施例作出各種修改及變化。有鑒於上述，本揭露旨在涵蓋修改及變化，只要其落於隨附申請專利範圍及其等效範圍的範圍內即可。

10:電子裝置 20、30:使用者 110:麥克風裝置 120:語音命令管理電路單元 121:SNR計算電路 122:MFCC轉換電路 123:DTW計算電路 124:使用者驗證電路 125:語音命令映射電路 130:處理器 140:儲存裝置 141:UBM語音資料庫 142:合法使用者語音資料庫 150:輸入/輸出/裝置 160:通訊電路單元 210、220、230、240、250、260、270、S31、S32、S33、S34、S35、S36、S37、S38、S411、S412、S413、S414、S415、S416、S421、S422、S423、S424、S425:步驟 <EX1>、<EX2>:實例 C1、C1’、C2、C2’、C3、C3’、D1、D1’、D2、D2’、D3、D3’:點 MR1、MR2:中間區 RV1、RV2:語音內容 UV:使用者語音 UV1、UV2:語音（命令）

圖1示出根據本發明實施例的電子裝置的方塊圖。圖2示出根據本發明實施例的藉由GMM-UBM方法進行的對合法使用者的樣本聲音流的登記以及輸入使用者語音的對應識別的示意圖。圖3示出根據本發明實施例的由電腦實施的語音命令驗證方法的流程圖。圖4A示出根據本發明實施例的圖3中的步驟S36的流程圖。圖4B示出根據本發明又一實施例的圖3中的步驟S36的流程圖。圖5示出根據本發明實施例的判定由非法使用者或合法使用者發出的語音命令的結果的示意圖。圖6A示出應用傳統GMM-UBM方法的語音識別的檢測錯誤權衡（Detection Error Tradeoff，DET）曲線的示意圖。圖6B示出應用由本發明實施例提供的語音命令方法的語音識別的檢測錯誤權衡（DET）曲線的示意圖。

S31、S32、S33、S34、S35、S36、S37、S38:步驟

Claims

一種由電腦實施的語音命令驗證方法，包括：獲得聲音訊號流；計算所述聲音訊號流的訊號雜訊比（SNR）值；將所述聲音訊號流轉換成梅爾頻率倒頻譜係數（MFCC）流；根據所述梅爾頻率倒頻譜係數流及根據由高斯混合模型-通用背景模型（GMM-UBM）產生的多個樣本流中的一者計算與所述梅爾頻率倒頻譜係數流對應的動態時間扭曲（DTW）距離；根據所述梅爾頻率倒頻譜係數流及所述樣本流計算與所述梅爾頻率倒頻譜係數流對應的對數似然比（LLR）值作為與所述聲音訊號流對應的高斯混合模型-通用背景模型得分；根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過語音命令驗證；反應於判定所述聲音訊號流通過所述語音命令驗證，判定所述聲音訊號流是自合法使用者發出的語音流；以及反應於判定所述聲音訊號流未通過所述語音命令驗證，判定所述聲音訊號流是自非法使用者發出的語音流。
如申請專利範圍第1項所述的語音命令驗證方法，更包括：反應於判定所述聲音訊號流是自所述合法使用者發出的語音流，授予自所述合法使用者發出的一或多個其他語音流的語音命令權利；以及反應於判定所述聲音訊號流是自所述非法使用者發出的語音流，拒絕授予自所述非法使用者發出的一或多個其他語音流的所述語音命令權利。
如申請專利範圍第2項所述的語音命令驗證方法，其中所述根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的步驟包括：根據所述訊號雜訊比值計算對數似然比門檻值；判斷所述高斯混合模型-通用背景模型得分是否大於所述對數似然比門檻值；反應於判定所述高斯混合模型-通用背景模型得分大於所述對數似然比門檻值，計算所述動態時間扭曲距離的倒數作為與所述聲音訊號流對應的最終得分；判斷所述最終得分是否大於驗證門檻值；以及反應於判定所述最終得分大於所述驗證門檻值，判定所述聲音訊號流通過所述語音命令驗證。
如申請專利範圍第3項所述的語音命令驗證方法，其中所述根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的步驟更包括：反應於判定所述高斯混合模型-通用背景模型得分不大於所述對數似然比門檻值，判定所述聲音訊號流未通過所述語音命令驗證；以及反應於判定所述最終得分不大於所述驗證門檻值，判定所述聲音訊號流未通過所述語音命令驗證。
如申請專利範圍第3項所述的語音命令驗證方法，其中所述對數似然比門檻值是藉由將一門檻值乘以訊號雜訊比函數來計算，其中所述訊號雜訊比函數的值是根據第一常數、第二常數、第三常數及所述訊號雜訊比值來計算，其中因應於所述訊號雜訊比值大於14.7分貝，所述訊號雜訊比函數的所述值被直接設定成1。
如申請專利範圍第2項所述的語音命令驗證方法，其中所述根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的步驟包括：根據所述訊號雜訊比值計算第一參數及第二參數；根據所述動態時間扭曲距離、所述高斯混合模型-通用背景模型得分、所述第一參數及所述第二參數計算最終得分；判斷所述最終得分是否大於驗證門檻值；以及反應於判定所述最終得分大於所述驗證門檻值，判定所述聲音訊號流通過所述語音命令驗證。
如申請專利範圍第6項所述的語音命令驗證方法，其中所述根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的步驟更包括：反應於判定所述最終得分不大於所述驗證門檻值，判定所述聲音訊號流未通過所述語音命令驗證。
如申請專利範圍第6項所述的語音命令驗證方法，其中所述第一參數是藉由將一門檻值乘以訊號雜訊比函數來計算，其中所述訊號雜訊比函數的值是根據第一常數、第二常數、第三常數及所述訊號雜訊比值來計算，其中因應於所述訊號雜訊比值大於14.7分貝，所述訊號雜訊比函數的所述值被直接設定成1，其中所述第二參數是根據第四常數、第五常數及所述訊號雜訊比值來計算，其中因應於所述訊號雜訊比值大於14.7分貝，所述第二參數被直接設定成所述第一參數的兩倍。
一種電子裝置，包括：麥克風裝置，其中所述麥克風裝置接收聲音以產生聲音訊號流；儲存裝置，用以儲存程式及由高斯混合模型-通用背景模型（GMM-UBM）產生的多個樣本流；以及處理器，用以執行所述程式以實施一種語音命令驗證方法，其中所述處理器計算所述聲音訊號流的訊號雜訊比（SNR）值，其中所述處理器將所述聲音訊號流轉換成梅爾頻率倒頻譜係數（MFCC）流，其中所述處理器根據所述梅爾頻率倒頻譜係數流及根據所述多個樣本流中的一者計算與所述梅爾頻率倒頻譜係數流對應的動態時間扭曲（DTW）距離，其中所述處理器根據所述梅爾頻率倒頻譜係數流及所述多個樣本流計算與所述梅爾頻率倒頻譜係數流對應的對數似然比（LLR）值作為與所述聲音訊號流對應的高斯混合模型-通用背景模型得分，其中所述處理器根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過語音命令驗證，其中反應於判定所述聲音訊號流通過所述語音命令驗證，所述處理器判定所述聲音訊號流是自合法使用者發出的語音流，其中反應於判定所述聲音訊號流未通過所述語音命令驗證，所述處理器判定所述聲音訊號流是自非法使用者發出的語音流。
如申請專利範圍第9項所述的電子裝置，其中反應於判定所述聲音訊號流是自所述合法使用者發出的語音流，所述處理器授予自所述合法使用者發出的一或多個其他語音流的語音命令權利，反應於判定所述聲音訊號流是自所述非法使用者發出的語音流，所述處理器拒絕授予自所述非法使用者發出的一或多個其他語音流的所述語音命令權利。
如申請專利範圍第10項所述的電子裝置，其中在所述處理器根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的操作中，所述處理器根據所述訊號雜訊比值計算對數似然比門檻值，其中所述處理器判斷所述高斯混合模型-通用背景模型得分是否大於所述對數似然比門檻值，其中反應於判定所述高斯混合模型-通用背景模型得分大於所述對數似然比門檻值，所述處理器計算所述動態時間扭曲距離的倒數作為與所述聲音訊號流對應的最終得分，其中所述處理器判斷所述最終得分是否大於驗證門檻值，其中反應於判定所述最終得分大於所述驗證門檻值，所述處理器判定所述聲音訊號流通過所述語音命令驗證。
如申請專利範圍第11項所述的電子裝置，其中在所述處理器根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的操作中，反應於判定所述高斯混合模型-通用背景模型得分不大於所述對數似然比門檻值，所述處理器判定所述聲音訊號流未通過所述語音命令驗證，其中反應於判定所述最終得分不大於所述驗證門檻值，所述處理器判定所述聲音訊號流未通過所述語音命令驗證。
如申請專利範圍第11項所述的電子裝置，其中所述對數似然比門檻值是藉由將一門檻值乘以訊號雜訊比函數來計算，其中所述訊號雜訊比函數的值是根據第一常數、第二常數、第三常數及所述訊號雜訊比值來計算，其中因應於所述訊號雜訊比值大於14.7分貝，所述訊號雜訊比函數的所述值被直接設定成1。
如申請專利範圍第10項所述的電子裝置，其中在所述處理器根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的操作中，所述處理器根據所述訊號雜訊比值計算第一參數及第二參數，其中所述處理器根據所述動態時間扭曲距離、所述高斯混合模型-通用背景模型得分、所述第一參數及所述第二參數計算最終得分，其中所述處理器判斷所述最終得分是否大於驗證門檻值，其中反應於判定所述最終得分大於所述驗證門檻值，所述處理器判定所述聲音訊號流通過所述語音命令驗證。
如申請專利範圍第14項所述的電子裝置，其中在所述處理器根據所述高斯混合模型-通用背景模型得分、所述動態時間扭曲距離及所述訊號雜訊比值判斷所述聲音訊號流是否通過所述語音命令驗證的操作中，反應於判定所述最終得分不大於所述驗證門檻值，所述處理器判定所述聲音訊號流未通過所述語音命令驗證。
如申請專利範圍第14項所述的電子裝置，其中所述第一參數是藉由將一門檻值乘以訊號雜訊比函數來計算，其中所述訊號雜訊比函數的值是根據第一常數、第二常數、第三常數及所述訊號雜訊比值來計算，其中因應於所述訊號雜訊比值大於14.7分貝，所述訊號雜訊比函數的所述值被直接設定成1，其中所述第二參數是根據第四常數、第五常數及所述訊號雜訊比值來計算，其中因應於所述訊號雜訊比值大於14.7分貝，所述第二參數被直接設定成所述第一參數的兩倍。