TW202326706A

TW202326706A - 語音喚醒方法和相關裝置

Info

Publication number: TW202326706A
Application number: TW111133409A
Authority: TW
Inventors: 許肇凌; 鄭堯文; 魏誠寬
Original assignee: 聯發科技股份有限公司
Priority date: 2021-12-24
Filing date: 2022-09-02
Publication date: 2023-07-01
Also published as: TWI839834B; CN116343797A; US20230206924A1

Abstract

本發明提供一種語音喚醒方法和相關裝置。本發明的語音喚醒方法用於喚醒電子裝置，語音喚醒方法包含：執行說話人識別功能以分析用戶語音並取得用戶語音的預定義識別；執行聲紋提取功能，取得用戶語音的聲紋片段；通過聲紋片段執行設備端訓練功能以生成更新參數；以及利用更新參數校準說話人驗證模型，以使用說話人驗證模型分析喚醒語句幷決定是否喚醒電子裝置。本發明的語音喚醒方法及相應裝置可以提高語音驗證準確性。

Description

語音喚醒方法和相關裝置

本發明係提供一種可接收語音的裝置，尤指一種提高語音驗證準確性的語音喚醒方法及相應裝置。

利用先進的技術，電子裝置可以提供語音喚醒功能，並且可以通過驗證語音命令是否由電子裝置的授權的所有者産生來開啓或關閉電子裝置。因此，授權擁有者的聲音必須手動登記以提取聲紋，然後儲存在電子裝置中。當電子裝置接收到未知用戶的測試語音時，電子裝置的說話人驗證引擎（speaker verification engine）驗證測試語音是否屬於授權的所有者，電子裝置的關鍵詞檢測引擎檢測測試語音是否包含預定義的關鍵詞。電子裝置根據驗證結果和檢測結果喚醒特定功能，例如點亮電子裝置的顯示器。然而，由於用戶的身體狀態和/或心理狀態，用戶的聲紋會隨著時間的推移而緩慢變化，使得電子裝置的傳統語音喚醒功能可能無法響應在很久之前登記的聲紋正確驗證授權的所有者。

本發明係提供一種提高語音驗證準確性的語音喚醒方法及相應裝置，以解決上述之問題。

本發明之申請專利範圍係揭露一種語音喚醒方法，用於喚醒電子裝置，語音喚醒方法包含執行說話人識別功能以分析用戶語音並取得用戶語音的預定義識別；執行聲紋提取功能，取得用戶語音的聲紋片段；通過聲紋片段執行設備端訓練功能以生成更新參數；以及利用更新參數校準說話人驗證模型，以使用說話人驗證模型分析喚醒語句幷決定是否喚醒電子裝置。

本發明之申請專利範圍另揭露一種語音喚醒設備，用於喚醒電子裝置，語音喚醒設備包含：語音接收器，用於接收用戶語音；以及操作處理器，與語音接收器電連接，操作處理器用於執行說話人識別功能，用於分析用戶語音並取得用戶語音的預定義識別，執行聲紋提取功能，以取得用戶語音的聲紋片段，通過聲紋片段執行設備端訓練功能，以生成更新參數，並利用更新參數校準說話人驗證模型，以便說話人驗證模型用於分析喚醒語句幷決定是否喚醒電子裝置。

本發明之語音喚醒方法及相應裝置可以提高語音驗證準確性。

在下面的描述中，闡述了許多具體細節。然而，應當理解，可以在沒有這些具體細節的情況下實踐本發明的實施例。在其他情況下，未詳細示出公知的電路、結構和技術，以免混淆對本說明書的理解。然而，所屬領域具有通常知識者將理解，可以在沒有這種具體細節的情況下實踐本發明。具有所包含的描述的所屬領域具有通常知識者將能夠實現適當的功能而無需過度的實驗。

以下描述是實施本發明的最佳預期模式。該描述是爲了說明本發明的一般原理，不應理解爲限制性的。本發明的範圍最好通過參考所附申請專利範圍來確定。

請參考第1圖。第1圖是根據本發明實施例的語音喚醒設備10的功能框圖。語音喚醒設備10可應用於智慧手機或智慧音箱等電子裝置11，視設計需求而定。電子裝置11可以是一種具有集成虛擬助手的揚聲器和語音命令設備，其在一個“關鍵字”的幫助下提供交互動作和免提激活。語音喚醒設備10和電子裝置11可以實現在同一個産品中，也可以是兩個分開的産品，通過有綫方式或無線方式相互連接。語音喚醒設備10不手動登記用戶語音。語音喚醒設備10可以分析用戶語音是否符合普通通信中的關鍵詞，幷識別出符合關鍵詞的用戶語音以進一步驗證。

語音喚醒設備10可以包含語音接收器12和操作處理器14。語音接收器12可以從外部麥克風接收用戶語音，或者可以是用於接收用戶語音的麥克風。運算處理器14可電性連接語音接收器12，用以執行本發明的語音喚醒方法。請一幷參考第2圖和第3圖。第2圖爲本發明實施例語音喚醒方法的流程圖。第3圖爲本發明實施例語音喚醒設備10的應用示意圖。第2圖所示的語音喚醒方法可應用於第1圖所示的語音喚醒設備10。

首先，步驟S100可以執行關鍵詞檢測功能來判斷用戶語音是否包含關鍵詞。關鍵字可由使用者預先設定，並儲存於語音喚醒設備10的內存中。若使用者語音中不包含關鍵字，則執行步驟S102，以使電子裝置11處于休眠模式。若用戶語音包含關鍵詞，則步驟S104可將電子裝置11從休眠模式切換至喚醒模式，幷采集更多包含關鍵詞的用戶語音。在步驟S100、S102和S104中，關鍵詞檢測功能不識別或驗證用戶語音，僅通過機器學習判斷用戶語音是否包含關鍵詞。

然後，步驟S106可以執行說話人識別功能，對包含關鍵字的用戶語音進行分析，取得用戶語音的預定義識別。說話人識別功能可以識別更多用戶語音中的一個或一些屬於預定義的識別，例如電子裝置11的所有者。在一個可能的實施例中，說話人識別功能可以分析更多用戶語音的出現周期和出現頻率的至少一個。如果出現周期大于預設周期閾值和/或出現頻率高于預設頻率閾值，則說話人識別功能可以確定相關用戶語音屬于預定義的識別。

在確定屬於預定義識別的用戶語音後，步驟S108和S110可以執行聲紋提取功能（voiceprint extraction function ），取得確定的用戶語音的聲紋片段，並通過聲紋片段執行設備端訓練功能（on-device training function），生成更新參數。然後，步驟S112和S114可以利用更新參數來校準說話人驗證模型，說話人驗證模型可以用來分析喚醒語句幷決定是否喚醒電子裝置11。聲紋提取功能可以利用頻譜分析或任何適用的技術來取得聲紋段。設備端訓練功能可以隨時通過聲紋片段分析用戶語音的變化，立即校準說話人驗證模型。

語音喚醒設備10不手動登記用戶語音，且其可識別更多用戶語音中的哪些由電子裝置11的擁有者發出。當識別出擁有者時，可以提取屬于所有者的用戶語音的聲紋片段，幷將其應用於設備端訓練功能來校準說話人驗證模型，因此說話人驗證模型可以準確地驗證後續喚醒語句以喚醒電子裝置11。說話人驗證模型可以具有說話人驗證功能和關鍵詞檢測功能。說話人驗證功能可以決定喚醒語句符合或不符合預定義的標識。關鍵字檢測功能可以判斷喚醒語句是否包含關鍵字。若喚醒語句符合預設識別且包含關鍵字，則可據以喚醒電子裝置11。

請參考第4圖和第5圖。第4圖爲本發明另一實施例的語音喚醒方法的流程圖。第5圖爲本發明另一實施例的語音喚醒設備10的應用示意圖。第4圖所示的語音喚醒設備10可應用於第1圖所示的語音喚醒方法。首先，步驟S200可以執行語音登記和相關的聲紋提取。語音接收器12登記並接收的用戶語音可以是登記的所有者語音。登記的所有者語音應用於說話人驗證模型以提高驗證準確性，幷進一步應用於說話人識別功能以校準說話人驗證模型。然後，執行步驟S202和S204，通過語音接收器12接收喚醒語句，幷通過說話人驗證模型驗證喚醒語句，以決定是否喚醒電子裝置11。

如果喚醒語句被驗證，則步驟S206、S208和S210可以識別喚醒語句是否符合登記的所有者語音的預定義識別，並提取喚醒語句的聲紋片段與登記的所有者語音的聲紋進行比較，幷通過提取的聲紋片段執行設備端訓練功能以生成更新參數。當生成更新參數時，步驟S212可以利用更新參數來校準說話人驗證模型。然而，在一些可能的實施例中，說話人驗證模型可以通過步驟S200中取得的聲紋提取來校準，使得說話人驗證模型可以分析符合登記的所有者語音的喚醒語句，以決定是否喚醒電子裝置11。

說話人驗證模型可以具有與上述實施例具有相同特徵的說話人驗證功能和關鍵詞檢測功能，爲簡單起見，在此不再贅述。需要說明的是，可以收集說話人驗證模型的部分驗證結果，選擇應用於說話人識別功能的部分聲紋片段、聲紋提取功能和設備端訓練功能，進一步校準說話人驗證模型。語音喚醒設備10可實時獲知電子裝置11的擁有者的語音變化，以校正說話人驗證模型，無論擁有者語音是否登記。

請參考第6圖。第6圖是根據本發明實施例的說話人識別功能的示意圖。如果沒有語音登記，說話人識別功能可以通過記錄電子裝置11的通信內容從用戶語音中收集更多的關鍵詞話語。較大數量的關鍵詞話語可以通過說話人識別功能分成若干組，例如通過預定義識別具有關鍵詞的第一語音組，通過未定義識別具有關鍵詞的第二語音組，具有相似詞的第三語音組以及具有不同單詞的第四語音組。第一語音組可以包含質量好的關鍵詞話語和質量差的關鍵詞話語，從而可以執行關鍵詞質量控制功能，從第一語音組中選擇一些質量好的關鍵詞話語，這些具有良好的質量的關鍵詞話語可應用於聲紋提取功能和設備端訓練功能。

在一些可能的實施例中，語音登記和相關聲紋提取的結果可以可選地應用於說話人識別功能，說話人識別功能可以分析較大數量的關鍵詞話語和登記語音的聲紋之一，以識別關鍵字話語是否屬於所有者。說話人識別功能可以通過多種方式識別用戶語音的預定義識別。例如，如果登記聲紋可用，監督方式可以分析登記的所有者語音的特定關鍵字，以識別用戶語音的預定義識別；如果沒有登記，並且聲紋是通過其他來源取得的，例如日常電話，則監督方式可以分析登記的所有者語音的聲紋，以識別用戶語音的預定義識別。在無監督方式下，說話人識別功能可以從用戶語音中收集更多關鍵詞話語並執行聚類功能（clustering function）或任何類似的功能來識別用戶語音的預定義識別。

此外，語音喚醒設備10可以選擇性地計算每個關鍵詞話語在說話人驗證功能和關鍵詞檢測功能中的得分，幷進一步計算每個關鍵詞話語的信噪比和其他可用的質量得分。然後，關鍵字質量控制功能可以利用決策者（decision maker）分析每個關鍵字話語的信噪比，以及每個關鍵字話語在說話人驗證功能和關鍵字檢測功能中的得分，以決定更多關鍵字話語中的每個是否可以是應用於設備端訓練功能的候選話語。所述其他可用質量分數可以可選地是使用一些if/else來管理語音質量和噪聲質量的簡單啓發式邏輯。

設備端訓練功能可以增強登記語音和/或喚醒語句以增強穩健的聲紋。可以調整多個用戶語音的至少一個參數，以增強每個用戶語音的各種類型，從而通過分析各種類型的聲紋片段來區分多個用戶語音。例如，設備端訓練功能的資料增強過程可以包含各種技術，例如混合噪聲、改變語速、調整混響或語調、增加或減少響度、或改變音高或口音，這取決于設計需求。在第3圖和第5圖所示的實施例中，設備端訓練功能可以重新訓練和更新生成的聲紋作爲說話人模型（可以解釋爲用戶語音的聲紋片段）用於說話人驗證模型，幷進一步重新訓練和更新說話人驗證模型以增強語音提取功能。

語音提取功能可用於提取用戶語音的特徵。設備端訓練功能的優化過程可以最大化嵌入特徵向量（embedded feature vector）訓練集中不同用戶發音的相同關鍵字之間的距離（distance）。喚醒語句可以由關鍵字和聲紋組成。多個用戶的喚醒語句中的關鍵詞是相同的，可以通過最大化上述距離來去除。來自多個用戶的喚醒語句中的聲紋是不同的，可以嵌入用於說話人驗證模型。此外，通常可以使用反向傳播功能（back propagation function）來重新訓練聲紋提取功能。如果設備端訓練功能不與反向傳播功能配合，則在設備端訓練功能的過程中只能更新說話人模型；生成的新說話人模型可用於選擇性地更新原始說話人模型或存儲爲新說話人模型。更新的或新的說話人模型、以前的說話人模型、登記的說話人模型以及來自各種來源（例如電話）的說話人模型可以應用於說話人驗證模型。

如果設備端訓練功能與反向傳播功能協作，可以在設備端訓練功能的過程中更新說話人模型和聲紋提取功能；訓練集中特定用戶(例如電子裝置11的擁有者)所念出的相同關鍵詞與其他用戶之間的距離可以最大化，幷且可以將特定用戶與其他用戶區分開來，從而更新的或新的說話人模型、先前的說話人模型、登記的說話人模型、以及來自各種來源的說話人模型都可以應用於說話人驗證模式，以準確地喚醒電子裝置11。

請參考第7圖和第8圖。第7圖和第8圖爲本發明其他實施例的語音喚醒設備10的應用示意圖。語音喚醒設備10可以具有降噪功能，降噪功能可以通過多種方式實現，例如基于神經網絡模型或隱馬爾可夫模型的方法，或者基于維納濾波器的信號處理等方式。降噪功能可以記錄環境噪聲，學習噪聲統計，以便在降噪功能開啓或關閉時自行更新降噪功能。在一些實施例中，當語音喚醒設備10未關機時，無論開啓或關閉降噪功能，語音喚醒設備10都可以一直記錄環境噪音以自我更新降噪功能。當喚醒語句不太可能來自電子裝置11的所有者時，可以優選地應用用於降噪功能的設備端訓練功能，從而不會發生所有者語音的錯誤消除。

例如，當語音喚醒設備10接收到喚醒語句時，可以可選地應用降噪功能來降低喚醒語句中的噪聲以作爲開始。若說話人驗證模型判斷喚醒語句符合預設識別且包含關鍵字，則可將相關分數或任何可用信號選擇性地輸出至說話人識別功能，以喚醒電子裝置11。如果說話人驗證模型確定喚醒語句不符合預定義識別或不包含關鍵字，則可以將分數或相關可用信號輸出到說話人識別功能。如果說話人識別功能識別出喚醒語句不屬于電子裝置11的擁有者，則可以應用設備端訓練功能來相應地更新降噪功能，如第7圖所示。

如第8圖所示，降噪功能可以降低喚醒語句中的噪聲，說話人驗證模型可以判斷喚醒語句是否符合預定義的標識幷包含關鍵字，用於將分數或可用信號輸出給說話人識別功能。如果說話人識別功能識別出喚醒語句屬于電子裝置11的擁有者，則可以執行聲紋提取功能和設備端訓練功能來校準說話人驗證模型。如果說話人識別功能識別出喚醒語句不屬于電子裝置11的擁有者，則可以執行另一個設備端訓練功能來校準降噪功能。

綜上所述，本發明的語音喚醒方法和語音喚醒設備能夠采集更多用戶語音，幷通過設備端訓練功能對用戶語音進行分析，從而校準或更新說話人驗證模型。所有者語音登記是可選的；說話人識別可以爲聲紋提取功能和設備端訓練功能識別更多用戶語音中的部分，或者爲聲紋提取功能和設備端訓練功能識別部分驗證結果和語音登記。降噪功能可用於過濾環境噪聲幷輸出去噪信號。說話人識別功能可識別不屬于擁有者的用戶語音，以通過設備端訓練功能更新降噪功能，使電子裝置11能準確地被本發明的語音喚醒方法及語音喚醒設備喚醒。

呈現以上描述是爲了使所屬領域具有通常知識者能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對于所屬領域具有通常知識者來說將是顯而易見的，幷且本文定義的一般原理可以應用於其他實施例。因此，本發明不旨在限于所示和描述的特定實施例，而是要符合與本文公開的原理和新穎特徵相一致的最寬範圍。在以上詳細描述中，爲了提供對本發明的透徹理解，說明瞭各種具體細節。然而，所屬領域具有通常知識者將理解，可以實踐本發明。

如上所述的本發明的實施例可以以各種硬體、軟體代碼或兩者的組合來實現。例如，本發明的一個實施例可以是集成到視訊壓縮晶片中的一個或多個電路或集成到視訊壓縮軟體中以執行本文描述的處理的程式代碼。本發明的實施例還可以是要數位信號處理器(DSP)上執行以執行這裏描述的處理的程式代碼。本發明還可以涉及由計算機處理器、數位信號處理器、微處理器或現場可程式化門陣列(FPGA)執行的許多功能。這些處理器可以被配置爲通過執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。軟體代碼或韌體代碼可以以不同的程式語言和不同的格式或樣式開發。軟體代碼也可以針對不同的目標平臺進行編譯。然而，軟體代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式將不脫離本發明的精神和範圍。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

10:語音喚醒設備 11:電子裝置 12:語音接收器 14:操作處理器 S100~S114:步驟

第1圖是根據本發明實施例的語音喚醒設備的功能框圖。第2圖爲本發明實施例語音喚醒方法的流程圖。第3圖爲本發明實施例語音喚醒設備的應用示意圖。第4圖爲本發明另一實施例的語音喚醒方法的流程圖。第5圖爲本發明另一實施例的語音喚醒設備的應用示意圖。第6圖是根據本發明實施例的說話人識別功能的示意圖。第7圖爲本發明其他實施例的語音喚醒設備的應用示意圖。第8圖爲本發明其他實施例的語音喚醒設備的應用示意圖。

S100~S114:步驟

Claims

一種語音喚醒方法，用於喚醒一電子裝置，該語音喚醒方法包含：執行一說話人識別功能以分析一用戶語音並取得該用戶語音的一預定義識別；執行一聲紋提取功能，取得該用戶語音的一聲紋片段；通過該聲紋片段執行一設備端訓練功能以生成一更新參數；以及利用該更新參數校準一說話人驗證模型，以使用該說話人驗證模型分析一喚醒語句幷決定是否喚醒該電子裝置。
如請求項1所述之語音喚醒方法，其中，該說話人驗證模型包含一說話人驗證功能和一關鍵詞檢測功能，該說話人驗證功能判斷該喚醒語句是否符合該預定義識別，該關鍵詞檢測功能判斷該喚醒語句是否包含一關鍵字。
如請求項1所述之語音喚醒方法，還包含：執行一關鍵詞檢測功能，判斷該用戶語音是否包含一關鍵詞；以及通過包含該關鍵字的該用戶語音執行該說話人識別功能。
如請求項1所述之語音喚醒方法，其中，該說話人識別功能分析該用戶語音的一出現周期和一出現頻率中的至少一項，以確定該用戶語音是否屬于該預定義識別。
如請求項1所述之語音喚醒方法，還包含：判斷該用戶語音是否符合一登記語音；以及利用符合該登記語音的該用戶語音執行該說話人識別功能。
如請求項5所述之語音喚醒方法，其中，該說話人驗證模型分析符合該登記語音的該用戶語音，以決定是否喚醒該電子裝置。
如請求項5所述之語音喚醒方法，還包含：提取該用戶語音的該聲紋片段，與該登記語音的一聲紋進行對比。
如請求項1所述之語音喚醒方法，其中，該設備端訓練功能隨時分析該用戶語音的一變化以立即校準該說話人驗證模型。
如請求項1所述之語音喚醒方法，其中，執行該說話人識別功能以分析該用戶語音包含：從該用戶語音中收集更多的關鍵詞話語；將該更多的關鍵詞話語劃分爲屬於該預定義識別的一第一語音組和不屬於該預定義識別的一第二語音組；以及執行一關鍵詞質量控制功能，從該第一語音組中選出一些質量較好的關鍵詞話語，從而將上述關鍵詞話語應用於該聲紋提取功能和該設備端訓練功能。
如請求項9所述之語音喚醒方法，其中，記錄該電子裝置的一通訊內容，以收集該更多的關鍵詞話語。
如請求項1所述之語音喚醒方法，其中，該說話人識別功能分析一登記語音的一特定關鍵詞，以識別該用戶語音的該預定義識別。
如請求項1所述之語音喚醒方法，其中，該說話人識別功能分析一登記語音的一聲紋，以識別該用戶語音的該預定義識別。
如請求項1所述之語音喚醒方法，其中，該說話人識別功能從該用戶語音中收集更多的關鍵詞話語並執行聚類功能以識別該用戶語音的該預定義識別。
如請求項9所述之語音喚醒方法，其中，該關鍵詞質量控制功能利用一決策器分析每個關鍵詞話語的一信噪比、該關鍵詞話語在說話人驗證功能中的一得分，以及該關鍵詞話語在一關鍵字檢測功能中的一得分，以決定該關鍵字話語是否應用於該設備端訓練功能。
如請求項1所述之語音喚醒方法，其中，該設備端訓練功能調整多個用戶語音的至少一個參數以增加每個用戶語音的各種類型，幷分析各種類型的一聲紋片段以區分該多個用戶語音。
如請求項1所述之語音喚醒方法，其中，該設備端訓練功能調整多個用戶語音的至少一個參數以增加每個用戶語音的各種類型，幷通過該各種類型校準該設備端訓練功能以在該多個用戶語音中將一特定用戶語音與其他用戶語音區分開。
如請求項1所述之語音喚醒方法，還包含：開啓或關閉一降噪功能時持續接收一環境噪音；以及執行該設備端訓練功能以分析該環境噪聲以更新該降噪功能。
如請求項17所述之語音喚醒方法，其中，當該喚醒語句符合該預定標識幷且包含一關鍵字時，該降噪功能將該喚醒語句傳輸到該說話人驗證模型以進行分析。
一種語音喚醒設備，用於喚醒一電子裝置，該語音喚醒設備包含：一語音接收器，用於接收一用戶語音；以及一操作處理器，與該語音接收器電連接，該操作處理器用於執行一說話人識別功能，用於分析該用戶語音並取得該用戶語音的一預定義識別，執行一聲紋提取功能，以取得該用戶語音的一聲紋片段，通過該聲紋片段執行一設備端訓練功能，以生成一更新參數，並利用該更新參數校準一說話人驗證模型，以便該說話人驗證模型用於分析一喚醒語句幷決定是否喚醒該電子裝置。