TWI684912B

TWI684912B - 語音喚醒裝置及方法

Info

Publication number: TWI684912B
Application number: TW108100752A
Authority: TW
Inventors: 王及德; 黃文昱
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-02-11
Also published as: US11250849B2; US20200219502A1; TW202026855A

Abstract

一種語音喚醒裝置，應用於電子裝置中，包含：語音活動偵測電路、儲存電路及智慧偵測電路。語音活動偵測電路接收聲音輸入訊號並偵測聲音輸入訊號中之語音活動。儲存電路配置以儲存預設語音樣本。智慧偵測電路接收聲音輸入訊號，以針對語音活動進行時域偵測以及頻域偵測，以產生音節及音頻特徵偵測結果，並進一步與預設語音樣本比較，以在音節及音頻特徵偵測結果與預設語音樣本相符時產生喚醒訊號至電子裝置之處理電路，俾喚醒處理電路。藉此智慧偵測電路可降低誤喚醒處理電路的機率，縮減整體語音喚醒裝置的平均功耗，以達到真待機的狀態。

Description

語音喚醒裝置及方法

本發明係有關於一種語音喚醒技術，且特別是有關於一種語音喚醒裝置及方法。

近年來，由於科技的進步，使用者可透過語音進行電子裝置的控制，例如使用者可透過語音喚醒電子裝置。通常語音喚醒機制，是依靠特定的語音指令觸發。現在的技術，往往僅能讓語音接收的模組判斷是否接收到語音訊息。語音是否屬於指令，仍須仰賴電子裝置中的處理器判斷。然而，在這樣的情形下，處理器將時常需要進行判斷而無法進入真正的待機狀態，對於電子裝置整體的功率消耗將有相當大的影響。

因此，如何設計一個新的語音喚醒裝置及方法，以解決上述的缺失，乃為此一業界亟待解決的問題。

發明內容旨在提供本揭示內容的簡化摘要，以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述，且其用意並非在指出本發明實施例的重要/ 關鍵元件或界定本發明的範圍。

本發明內容之一目的是在提供一種語音喚醒裝置及方法，藉以改善先前技術的問題。

為達上述目的，本發明內容之一技術態樣係關於一種語音喚醒裝置，應用於電子裝置中，包含：語音活動偵測電路、儲存電路以及智慧偵測電路。語音活動偵測電路配置以接收聲音輸入訊號並偵測聲音輸入訊號中之一語音活動。儲存電路配置以儲存預設語音樣本。智慧偵測電路配置以接收聲音輸入訊號，以針對語音活動進行時域偵測以及頻域偵測，以產生音節及音頻特徵偵測結果，並進一步將音節及音頻特徵偵測結果與預設語音樣本比較，以在音節及音頻特徵偵測結果與預設語音樣本相符時產生喚醒訊號至電子裝置之處理電路，俾喚醒處理電路。

為達上述目的，本發明內容之另一技術態樣係關於一種語音喚醒方法，應用於電子裝置之語音喚醒裝置中，包含：藉由語音活動偵測電路接收聲音輸入訊號並偵測聲音輸入訊號中之語音活動；藉由智慧偵測電路接收聲音輸入訊號，以針對語音活動進行時域偵測以及頻域偵測，以產生音節及音頻特徵偵測結果；藉由智慧偵測電路將音節及音頻特徵偵測結果與儲存單元儲存之預設語音樣本比較；以及藉由智慧偵測電路在音節及音頻特徵偵測結果與預設語音樣本相符時產生喚醒訊號至電子裝置之處理電路，俾喚醒處理電路。

本發明的語音喚醒裝置及方法可藉由時域及頻域偵測，快速辨識出語音活動中的音節數目以及母音與子音，並與預設語音樣本進行比較以判斷是否符合喚醒指令，進一步在符合時喚醒電子裝置的處理電路。因此，處理電路可不必須在有語音活動產生時即被喚醒而進行辨識，大幅降低電子裝置的功耗。藉由智慧偵測電路可降低誤喚醒處理電路的機率，縮減整體語音喚醒裝置的平均功率，以達到真待機的狀態(例如：小於0.5瓦特)。

1‧‧‧電子裝置

100‧‧‧處理電路

101‧‧‧聲音輸入訊號

103‧‧‧語音活動

110‧‧‧語音喚醒裝置

111‧‧‧預設語音樣本

112‧‧‧語音活動偵測電路

113‧‧‧喚醒訊號

114‧‧‧儲存電路

116‧‧‧智慧偵測電路

200‧‧‧時域偵測電路

201‧‧‧時域音節偵測結果

202‧‧‧頻域偵測電路

204‧‧‧決定電路

203‧‧‧頻域音節及音頻特徵偵測結果

300‧‧‧降低取樣單元

301‧‧‧波形

302‧‧‧子訊框分割單元

304‧‧‧移動平均濾波器

306‧‧‧高通濾波器

308‧‧‧移動平均濾波器

310‧‧‧偵測單元

320‧‧‧降低取樣單元

321‧‧‧波形

322‧‧‧自相關運算單元

324‧‧‧累加器

326‧‧‧偵測單元

400‧‧‧降低取樣單元

401‧‧‧頻帶能量分布

402‧‧‧濾波器

404‧‧‧子訊框分割單元

406‧‧‧第一最大值擷取單元

408‧‧‧第二最大值擷取單元

420‧‧‧降低取樣單元

422‧‧‧快速傅立葉轉換運算單元

500‧‧‧比較器

501‧‧‧時域比較結果

502‧‧‧比較器

503‧‧‧頻域比較結果

504‧‧‧加權單元

505‧‧‧加權總合

506‧‧‧加權單元

508‧‧‧總和運算單元

510‧‧‧決定單元

600‧‧‧語音喚醒方法

601-606‧‧‧步驟

W1、W2‧‧‧權重

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1A圖為本發明一實施例中，一種電子裝置的方塊圖；第1B圖為本發明一實施例中，聲音輸入訊號101的示意圖；第2圖為本發明一實施例中，智慧偵測電路更詳細的方塊圖；第3A圖為本發明一實施例中，時域偵測電路的方塊圖；第3B圖為本發明一實施例中，經由時域偵測電路處理後的波形的示意圖；第3C圖為本發明一實施例中，時域偵測電路的方塊圖；第3D圖為本發明一實施例中，經由時域偵測電路處理後的波形的示意圖；第4A圖為本發明一實施例中，頻域偵測電路的方塊圖；第4B圖分別為本發明一實施例中，經由頻域偵測電路處理後的頻帶能量分布的示意圖；第4C圖為本發明一實施例中，頻域偵測電路的方塊圖；第5圖為本發明一實施例中，決定電路更詳細的方塊圖；以及第6圖為本發明一實施例中，語音喚醒方法的流程圖。

請參照第1A圖。第1A圖為本發明一實施例中，一種電子裝置1的方塊圖。電子裝置1可為例如，但不限於電視、顯示器、桌上型電腦、筆記型電腦或是行動裝置如智慧型手機或平板電腦。電子裝置1包含處理電路100以及語音喚醒裝置110。

處理電路100電性耦接於語音喚醒裝置110以及其他可設置於電子裝置1中的電路模組，例如但不限於通訊電路、顯示電路、電源電路等(未繪示)，並在工作狀態下配置以處理此些電路的相關資訊並進行控制。於一實施例中，處理電路100在進入例如休眠或待機狀態時，將幾乎不運作，而具有相當低的功率消耗(例如：小於0.5瓦特)。

語音喚醒裝置110配置以接收聲音輸入訊號101，以偵測聲音輸入訊號101中是否具有預設的喚醒指令，以在聲音輸入訊號101具有預設的喚醒指令時將處理電路100喚醒，以使處理電路100由休眠或待機狀態回復為工作狀態。

語音喚醒裝置110包含：語音活動偵測電路112、儲存電路114以及智慧偵測電路116。

語音活動偵測電路112配置以接收聲音輸入訊號 101，並進行語音的偵測。

請參照第1B圖。第1B圖為本發明一實施例中，聲音輸入訊號101的示意圖。在第1B圖中，橫軸為時間，縱軸為聲音訊號的振幅。

於一實施例中，聲音輸入訊號101中可能同時包含環境的聲音以及語音。語音活動偵測電路112將根據聲音輸入訊號101經由特定的演算法偵測一段時間的語音活動103。舉例而言，語音活動偵測電路112可透過例如，但不限於頻譜消去法(spectral subtraction)進行降噪、對聲音訊號的區塊提取特徵以及將該區塊的計算值與預設閾值來進行分類等步驟，確定是否具有語音活動103的區塊。然而，上述的步驟僅為一實施方式，本發明的語音活動偵測電路112的偵測方式並不為此所限。

儲存電路114配置以儲存預設語音樣本111。其中，預設語音樣本111可為使用者定義的樣本，或是離線學習(offline training)所產生的樣本，且此樣本對應於喚醒指令的內容。舉例而言，當喚醒指令為「OK Google」時，此樣本將為「OK Google」的語音內容，包含例如，但不限於音節的數目以及母音和子音發聲方式。

智慧偵測電路116配置以接收聲音輸入訊號101，以針對語音活動103進行時域偵測以及頻域偵測，並產生音節及音頻特徵偵測結果。於一實施例中，智慧偵測電路116可在語音活動偵測電路112偵測到語音活動103後，由於自語音活動偵測電路112接收到該語音活動103而驅動開始進行偵測。

於另一實施例中，智慧偵測電路116亦可在語音活動偵測電路112接收到聲音輸入訊號101的同時，也由於接收到聲音輸入訊號101而驅動開始進行偵測。

進一步地，智慧偵測電路116在產生音節及音頻特徵偵測結果後，將自儲存電路114擷取預設語音樣本111進行比較。在音節及音頻特徵偵測結果與預設語音樣本111相符時，智慧偵測電路116將產生喚醒訊號113至處理電路100，俾喚醒處理電路100。

以下將搭配第2圖，對智慧偵測電路116的結構與運作方式進行更詳細的說明。

請參照第2圖。第2圖為本發明一實施例中，智慧偵測電路116更詳細的方塊圖。於一實施例中，智慧偵測電路116更包含時域偵測電路200、頻域偵測電路202以及決定電路204。

時域偵測電路200配置以接收聲音輸入訊號101，以對該語音活動103偵測時域上的至少一時域能量波峰，以根據時域能量波峰產生時域音節偵測結果201。於不同的實施例中，時域偵測電路200所進行的時域偵測可為例如，但不限於能量計算偵測(power calculation)、零交越偵測(zero-crossing detection)、音節偵測(syllable detection)或延遲自相關偵測(delay auto-correlation)。

請同時參照第3A圖以及第3B圖。第3A圖為本發明一實施例中，時域偵測電路200的方塊圖。第3B圖為本發明一實施例中，經由時域偵測電路200處理後的波形301的示意圖。

如第3A圖所示，在一實施例中，時域偵測電路200可藉由音節偵測電路實現，並可包含降低取樣單元300、子訊框分割單元302、移動平均濾波器304、高通濾波器306、移動平均濾波器308以及偵測單元310，以分別進行降低取樣、子訊框的尋找與分割、使波形平滑的波形重整、高通濾波以及再次使波形平滑的波形重整後，產生如第3B圖所示的最終波形301。其中，在第3B圖中，橫軸為時間，縱軸為能量強度。進一步地，偵測單元310對於波形301設置一個預設閾值，找出超過此預設閾值的能量波峰，據以判斷音節的數目，產生時域音節偵測結果201。於本實施例中，由於喚醒指令為「OK Google」，因此將可偵測到四個音節。

請同時參照第3C圖以及第3D圖。第3C圖為本發明一實施例中，時域偵測電路200的方塊圖。第3D圖為本發明一實施例中，經由時域偵測電路200處理後的波形321的示意圖。

如第3C圖所示，在另一實施例中，時域偵測電路200可藉由延遲自相關偵測電路實現，並可包含降低取樣單元320、自相關運算單元322、累加器324以及偵測單元326，以分別進行降低取樣、自相關運算以及累加運算後，產生如第3D圖所示的最終波形321。其中，在第3D圖中，橫軸為時間，縱軸為能量強度。進一步地，偵測單元326計算波形321的能量波峰數目，據以判斷音節的數目，產生時域音節偵測結果 201。於本實施例中，由於喚醒指令為「OK Google」，因此將可偵測到四個音節。

頻域偵測電路202配置以接收聲音輸入訊號101，以對該語音活動103偵測頻域上的至少一頻域能量波峰，以根據頻域能量波峰產生頻域音節及音頻特徵偵測結果203。於不同的實施例中，頻域偵測電路202所進行的頻域偵測可為例如，但不限於濾波器組(filter bank)濾波偵測或快速傅立葉轉換(Fast Fourier Transform；FFT)濾波偵測。

請同時參照第4A圖以及第4B圖。第4A圖為本發明一實施例中，頻域偵測電路202的方塊圖。第4B圖分別為本發明一實施例中，經由頻域偵測電路202處理後的頻帶能量分布401的示意圖。

如第4A圖所示，在一實施例中，頻域偵測電路202可藉由濾波器組電路實現，並可包含降低取樣單元400、多組對應不同頻段且涵蓋範圍約自50赫茲至1千赫茲的濾波器402、各對應一個濾波器402的子訊框分割單元404、各對應一個子訊框分割單元404的第一最大值擷取單元406以及第二最大值擷取單元408，以分別進行降低取樣、頻帶濾波、子訊框的尋找與分割、針對各頻帶的能量最大值擷取，產生如第4B圖所示的頻帶能量分布401。其中，在第4B圖中，橫軸對應不同的多個濾波器402的編號，縱軸為對應的能量強度最大值。

進一步地，第二最大值擷取單元406對於第一最大值擷取單元404所擷取的最大值再進行擷取，以判斷出頻域上的能量波峰，據以判斷音節的數目。

於一實施例中，語音中的母音將呈現特定的諧波，而子音則不具有諧波。因此，根據部分頻段的諧波特徵，亦可由第二最大值擷取單元406偵測出母音與子音的存在，進而產生頻域音節及音頻特徵偵測結果203。

請參照第4C圖。第4C圖為本發明一實施例中，頻域偵測電路202的方塊圖。

如第4C圖所示，在一實施例中，頻域偵測電路202可藉由快速傅立葉轉換濾波電路實現，並可包含降低取樣單元420以及快速傅立葉轉換運算單元422，以分別進行降低取樣以及快速傅立葉轉換，以產生頻譜分析圖，進而找出不同頻段中的能量波峰，據以判斷音節的數目。

進一步地，語音中的母音將呈現特定的諧波，而子音則不具有諧波。因此，根據部分頻段的諧波特徵，亦可由快速傅立葉轉換運算單元422的運算結果偵測出母音與子音的存在，進而產生頻域音節及音頻特徵偵測結果203。

決定電路204分別將時域音節偵測結果201以及頻域音節及音頻特徵偵測結果203與預設語音樣本111進行比較。

請參照第5圖。第5圖為本發明一實施例中，決定電路204更詳細的方塊圖。

於本實施例中，決定電路204包含比較器500、比較器502、加權單元504、加權單元506、總和運算單元508以及決定單元510。

比較器500配置以對時域音節偵測結果201以及預設語音樣本111進行比較，以產生時域比較結果501。於一實施例中，時域比較結果501可以例如，但不限於分數的方式產生，並由加權單元504根據權重W1進行加權。

比較器502配置以對頻域音節及音頻特徵偵測結果203以及預設語音樣本111進行比較，以產生頻域比較結果503。於一實施例中，頻域比較結果503可以例如，但不限於分數的方式產生，並由加權單元506根據權重W2進行加權。

總和運算單元508進一步將加權單元504以及加權單元506的加權結果加總，以產生加權總合505。決定單元510判斷加權總合505是否符合對應預設語音樣本之預設範圍，以在符合預設範圍時(例如：差異在預設語音樣本的正負20%以內)，判斷包括時域和頻域的音節及音頻特徵偵測結果與預設語音樣本111相符，並產生喚醒訊號113。

因此，本發明的語音喚醒裝置110可藉由時域及頻域偵測，快速辨識出語音活動中的音節數目以及母音與子音，並與預設語音樣本111進行比較以判斷是否符合喚醒指令，進一步在符合時喚醒電子裝置1的處理電路100。因此，處理電路100可不必須在有語音活動產生時即被喚醒而進行辨識，大幅降低電子裝置1的功耗。

第6圖為本發明一實施例中，語音喚醒方法600的流程圖。語音喚醒方法600可應用於第1A圖的語音喚醒裝置110中。

語音喚醒方法600包含下列步驟(應瞭解到，在本實施方式中所提及的步驟，除特別敘明其順序者外，均可依實際需要調整其前後順序，甚至可同時或部分同時執行)。

於步驟601，藉由語音活動偵測電路112接收聲音輸入訊號101並偵測聲音輸入訊號101中之語音活動103。

於步驟602，藉由智慧偵測電路116接收聲音輸入訊號101，以針對語音活動103進行時域偵測以及頻域偵測，以產生音節及音頻特徵偵測結果。

於步驟603，藉由智慧偵測電路116將音節及音頻特徵偵測結果與儲存單元114儲存之預設語音樣本111比較。

於步驟604，藉由智慧偵測電路116判斷音節及音頻特徵偵測結果與預設語音樣本111。

當音節及音頻特徵偵測結果與預設語音樣本111並不相符時，於步驟605，智慧偵測電路116不產生喚醒訊號113。

而當音節及音頻特徵偵測結果與預設語音樣本111相符時，於步驟606，藉由智慧偵測電路116產生喚醒訊號113至電子裝置1之處理電路100，俾喚醒處理電路100。

雖然上文實施方式中揭露了本發明的具體實施例，然其並非用以限定本發明，本發明所屬技術領域中具有通常知識者，在不悖離本發明之原理與精神的情形下，當可對其進行各種更動與修飾，因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。