TWI684912B - 語音喚醒裝置及方法 - Google Patents

語音喚醒裝置及方法 Download PDF

Info

Publication number
TWI684912B
TWI684912B TW108100752A TW108100752A TWI684912B TW I684912 B TWI684912 B TW I684912B TW 108100752 A TW108100752 A TW 108100752A TW 108100752 A TW108100752 A TW 108100752A TW I684912 B TWI684912 B TW I684912B
Authority
TW
Taiwan
Prior art keywords
voice
detection
syllable
circuit
wake
Prior art date
Application number
TW108100752A
Other languages
English (en)
Other versions
TW202026855A (zh
Inventor
王及德
黃文昱
Original Assignee
瑞昱半導體股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞昱半導體股份有限公司 filed Critical 瑞昱半導體股份有限公司
Priority to TW108100752A priority Critical patent/TWI684912B/zh
Priority to US16/662,157 priority patent/US11250849B2/en
Application granted granted Critical
Publication of TWI684912B publication Critical patent/TWI684912B/zh
Publication of TW202026855A publication Critical patent/TW202026855A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

一種語音喚醒裝置,應用於電子裝置中,包含:語音活動偵測電路、儲存電路及智慧偵測電路。語音活動偵測電路接收聲音輸入訊號並偵測聲音輸入訊號中之語音活動。儲存電路配置以儲存預設語音樣本。智慧偵測電路接收聲音輸入訊號,以針對語音活動進行時域偵測以及頻域偵測,以產生音節及音頻特徵偵測結果,並進一步與預設語音樣本比較,以在音節及音頻特徵偵測結果與預設語音樣本相符時產生喚醒訊號至電子裝置之處理電路,俾喚醒處理電路。藉此智慧偵測電路可降低誤喚醒處理電路的機率,縮減整體語音喚醒裝置的平均功耗,以達到真待機的狀態。

Description

語音喚醒裝置及方法
本發明係有關於一種語音喚醒技術,且特別是有關於一種語音喚醒裝置及方法。
近年來,由於科技的進步,使用者可透過語音進行電子裝置的控制,例如使用者可透過語音喚醒電子裝置。通常語音喚醒機制,是依靠特定的語音指令觸發。現在的技術,往往僅能讓語音接收的模組判斷是否接收到語音訊息。語音是否屬於指令,仍須仰賴電子裝置中的處理器判斷。然而,在這樣的情形下,處理器將時常需要進行判斷而無法進入真正的待機狀態,對於電子裝置整體的功率消耗將有相當大的影響。
因此,如何設計一個新的語音喚醒裝置及方法,以解決上述的缺失,乃為此一業界亟待解決的問題。
發明內容旨在提供本揭示內容的簡化摘要,以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述,且其用意並非在指出本發明實施例的重要/ 關鍵元件或界定本發明的範圍。
本發明內容之一目的是在提供一種語音喚醒裝置及方法,藉以改善先前技術的問題。
為達上述目的,本發明內容之一技術態樣係關於一種語音喚醒裝置,應用於電子裝置中,包含:語音活動偵測電路、儲存電路以及智慧偵測電路。語音活動偵測電路配置以接收聲音輸入訊號並偵測聲音輸入訊號中之一語音活動。儲存電路配置以儲存預設語音樣本。智慧偵測電路配置以接收聲音輸入訊號,以針對語音活動進行時域偵測以及頻域偵測,以產生音節及音頻特徵偵測結果,並進一步將音節及音頻特徵偵測結果與預設語音樣本比較,以在音節及音頻特徵偵測結果與預設語音樣本相符時產生喚醒訊號至電子裝置之處理電路,俾喚醒處理電路。
為達上述目的,本發明內容之另一技術態樣係關於一種語音喚醒方法,應用於電子裝置之語音喚醒裝置中,包含:藉由語音活動偵測電路接收聲音輸入訊號並偵測聲音輸入訊號中之語音活動;藉由智慧偵測電路接收聲音輸入訊號,以針對語音活動進行時域偵測以及頻域偵測,以產生音節及音頻特徵偵測結果;藉由智慧偵測電路將音節及音頻特徵偵測結果與儲存單元儲存之預設語音樣本比較;以及藉由智慧偵測電路在音節及音頻特徵偵測結果與預設語音樣本相符時產生喚醒訊號至電子裝置之處理電路,俾喚醒處理電路。
本發明的語音喚醒裝置及方法可藉由時域及頻域偵測,快速辨識出語音活動中的音節數目以及母音與子音, 並與預設語音樣本進行比較以判斷是否符合喚醒指令,進一步在符合時喚醒電子裝置的處理電路。因此,處理電路可不必須在有語音活動產生時即被喚醒而進行辨識,大幅降低電子裝置的功耗。藉由智慧偵測電路可降低誤喚醒處理電路的機率,縮減整體語音喚醒裝置的平均功率,以達到真待機的狀態(例如:小於0.5瓦特)。
1‧‧‧電子裝置
100‧‧‧處理電路
101‧‧‧聲音輸入訊號
103‧‧‧語音活動
110‧‧‧語音喚醒裝置
111‧‧‧預設語音樣本
112‧‧‧語音活動偵測電路
113‧‧‧喚醒訊號
114‧‧‧儲存電路
116‧‧‧智慧偵測電路
200‧‧‧時域偵測電路
201‧‧‧時域音節偵測結果
202‧‧‧頻域偵測電路
204‧‧‧決定電路
203‧‧‧頻域音節及音頻特徵偵測結果
300‧‧‧降低取樣單元
301‧‧‧波形
302‧‧‧子訊框分割單元
304‧‧‧移動平均濾波器
306‧‧‧高通濾波器
308‧‧‧移動平均濾波器
310‧‧‧偵測單元
320‧‧‧降低取樣單元
321‧‧‧波形
322‧‧‧自相關運算單元
324‧‧‧累加器
326‧‧‧偵測單元
400‧‧‧降低取樣單元
401‧‧‧頻帶能量分布
402‧‧‧濾波器
404‧‧‧子訊框分割單元
406‧‧‧第一最大值擷取單元
408‧‧‧第二最大值擷取單元
420‧‧‧降低取樣單元
422‧‧‧快速傅立葉轉換運算單元
500‧‧‧比較器
501‧‧‧時域比較結果
502‧‧‧比較器
503‧‧‧頻域比較結果
504‧‧‧加權單元
505‧‧‧加權總合
506‧‧‧加權單元
508‧‧‧總和運算單元
510‧‧‧決定單元
600‧‧‧語音喚醒方法
601-606‧‧‧步驟
W1、W2‧‧‧權重
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1A圖為本發明一實施例中,一種電子裝置的方塊圖;第1B圖為本發明一實施例中,聲音輸入訊號101的示意圖;第2圖為本發明一實施例中,智慧偵測電路更詳細的方塊圖;第3A圖為本發明一實施例中,時域偵測電路的方塊圖;第3B圖為本發明一實施例中,經由時域偵測電路處理後的波形的示意圖;第3C圖為本發明一實施例中,時域偵測電路的方塊圖;第3D圖為本發明一實施例中,經由時域偵測電路處理後的波形的示意圖;第4A圖為本發明一實施例中,頻域偵測電路的方塊圖;第4B圖分別為本發明一實施例中,經由頻域偵測電路處理後的頻帶能量分布的示意圖; 第4C圖為本發明一實施例中,頻域偵測電路的方塊圖;第5圖為本發明一實施例中,決定電路更詳細的方塊圖;以及第6圖為本發明一實施例中,語音喚醒方法的流程圖。
請參照第1A圖。第1A圖為本發明一實施例中,一種電子裝置1的方塊圖。電子裝置1可為例如,但不限於電視、顯示器、桌上型電腦、筆記型電腦或是行動裝置如智慧型手機或平板電腦。電子裝置1包含處理電路100以及語音喚醒裝置110。
處理電路100電性耦接於語音喚醒裝置110以及其他可設置於電子裝置1中的電路模組,例如但不限於通訊電路、顯示電路、電源電路等(未繪示),並在工作狀態下配置以處理此些電路的相關資訊並進行控制。於一實施例中,處理電路100在進入例如休眠或待機狀態時,將幾乎不運作,而具有相當低的功率消耗(例如:小於0.5瓦特)。
語音喚醒裝置110配置以接收聲音輸入訊號101,以偵測聲音輸入訊號101中是否具有預設的喚醒指令,以在聲音輸入訊號101具有預設的喚醒指令時將處理電路100喚醒,以使處理電路100由休眠或待機狀態回復為工作狀態。
語音喚醒裝置110包含:語音活動偵測電路112、儲存電路114以及智慧偵測電路116。
語音活動偵測電路112配置以接收聲音輸入訊號 101,並進行語音的偵測。
請參照第1B圖。第1B圖為本發明一實施例中,聲音輸入訊號101的示意圖。在第1B圖中,橫軸為時間,縱軸為聲音訊號的振幅。
於一實施例中,聲音輸入訊號101中可能同時包含環境的聲音以及語音。語音活動偵測電路112將根據聲音輸入訊號101經由特定的演算法偵測一段時間的語音活動103。舉例而言,語音活動偵測電路112可透過例如,但不限於頻譜消去法(spectral subtraction)進行降噪、對聲音訊號的區塊提取特徵以及將該區塊的計算值與預設閾值來進行分類等步驟,確定是否具有語音活動103的區塊。然而,上述的步驟僅為一實施方式,本發明的語音活動偵測電路112的偵測方式並不為此所限。
儲存電路114配置以儲存預設語音樣本111。其中,預設語音樣本111可為使用者定義的樣本,或是離線學習(offline training)所產生的樣本,且此樣本對應於喚醒指令的內容。舉例而言,當喚醒指令為「OK Google」時,此樣本將為「OK Google」的語音內容,包含例如,但不限於音節的數目以及母音和子音發聲方式。
智慧偵測電路116配置以接收聲音輸入訊號101,以針對語音活動103進行時域偵測以及頻域偵測,並產生音節及音頻特徵偵測結果。於一實施例中,智慧偵測電路116可在語音活動偵測電路112偵測到語音活動103後,由於自語音活動偵測電路112接收到該語音活動103而驅動開始進行 偵測。
於另一實施例中,智慧偵測電路116亦可在語音活動偵測電路112接收到聲音輸入訊號101的同時,也由於接收到聲音輸入訊號101而驅動開始進行偵測。
進一步地,智慧偵測電路116在產生音節及音頻特徵偵測結果後,將自儲存電路114擷取預設語音樣本111進行比較。在音節及音頻特徵偵測結果與預設語音樣本111相符時,智慧偵測電路116將產生喚醒訊號113至處理電路100,俾喚醒處理電路100。
以下將搭配第2圖,對智慧偵測電路116的結構與運作方式進行更詳細的說明。
請參照第2圖。第2圖為本發明一實施例中,智慧偵測電路116更詳細的方塊圖。於一實施例中,智慧偵測電路116更包含時域偵測電路200、頻域偵測電路202以及決定電路204。
時域偵測電路200配置以接收聲音輸入訊號101,以對該語音活動103偵測時域上的至少一時域能量波峰,以根據時域能量波峰產生時域音節偵測結果201。於不同的實施例中,時域偵測電路200所進行的時域偵測可為例如,但不限於能量計算偵測(power calculation)、零交越偵測(zero-crossing detection)、音節偵測(syllable detection)或延遲自相關偵測(delay auto-correlation)。
請同時參照第3A圖以及第3B圖。第3A圖為本發明一實施例中,時域偵測電路200的方塊圖。第3B圖為本發明 一實施例中,經由時域偵測電路200處理後的波形301的示意圖。
如第3A圖所示,在一實施例中,時域偵測電路200可藉由音節偵測電路實現,並可包含降低取樣單元300、子訊框分割單元302、移動平均濾波器304、高通濾波器306、移動平均濾波器308以及偵測單元310,以分別進行降低取樣、子訊框的尋找與分割、使波形平滑的波形重整、高通濾波以及再次使波形平滑的波形重整後,產生如第3B圖所示的最終波形301。其中,在第3B圖中,橫軸為時間,縱軸為能量強度。進一步地,偵測單元310對於波形301設置一個預設閾值,找出超過此預設閾值的能量波峰,據以判斷音節的數目,產生時域音節偵測結果201。於本實施例中,由於喚醒指令為「OK Google」,因此將可偵測到四個音節。
請同時參照第3C圖以及第3D圖。第3C圖為本發明一實施例中,時域偵測電路200的方塊圖。第3D圖為本發明一實施例中,經由時域偵測電路200處理後的波形321的示意圖。
如第3C圖所示,在另一實施例中,時域偵測電路200可藉由延遲自相關偵測電路實現,並可包含降低取樣單元320、自相關運算單元322、累加器324以及偵測單元326,以分別進行降低取樣、自相關運算以及累加運算後,產生如第3D圖所示的最終波形321。其中,在第3D圖中,橫軸為時間,縱軸為能量強度。進一步地,偵測單元326計算波形321的能量波峰數目,據以判斷音節的數目,產生時域音節偵測結果 201。於本實施例中,由於喚醒指令為「OK Google」,因此將可偵測到四個音節。
頻域偵測電路202配置以接收聲音輸入訊號101,以對該語音活動103偵測頻域上的至少一頻域能量波峰,以根據頻域能量波峰產生頻域音節及音頻特徵偵測結果203。於不同的實施例中,頻域偵測電路202所進行的頻域偵測可為例如,但不限於濾波器組(filter bank)濾波偵測或快速傅立葉轉換(Fast Fourier Transform;FFT)濾波偵測。
請同時參照第4A圖以及第4B圖。第4A圖為本發明一實施例中,頻域偵測電路202的方塊圖。第4B圖分別為本發明一實施例中,經由頻域偵測電路202處理後的頻帶能量分布401的示意圖。
如第4A圖所示,在一實施例中,頻域偵測電路202可藉由濾波器組電路實現,並可包含降低取樣單元400、多組對應不同頻段且涵蓋範圍約自50赫茲至1千赫茲的濾波器402、各對應一個濾波器402的子訊框分割單元404、各對應一個子訊框分割單元404的第一最大值擷取單元406以及第二最大值擷取單元408,以分別進行降低取樣、頻帶濾波、子訊框的尋找與分割、針對各頻帶的能量最大值擷取,產生如第4B圖所示的頻帶能量分布401。其中,在第4B圖中,橫軸對應不同的多個濾波器402的編號,縱軸為對應的能量強度最大值。
進一步地,第二最大值擷取單元406對於第一最大值擷取單元404所擷取的最大值再進行擷取,以判斷出頻域上的能量波峰,據以判斷音節的數目。
於一實施例中,語音中的母音將呈現特定的諧波,而子音則不具有諧波。因此,根據部分頻段的諧波特徵,亦可由第二最大值擷取單元406偵測出母音與子音的存在,進而產生頻域音節及音頻特徵偵測結果203。
請參照第4C圖。第4C圖為本發明一實施例中,頻域偵測電路202的方塊圖。
如第4C圖所示,在一實施例中,頻域偵測電路202可藉由快速傅立葉轉換濾波電路實現,並可包含降低取樣單元420以及快速傅立葉轉換運算單元422,以分別進行降低取樣以及快速傅立葉轉換,以產生頻譜分析圖,進而找出不同頻段中的能量波峰,據以判斷音節的數目。
進一步地,語音中的母音將呈現特定的諧波,而子音則不具有諧波。因此,根據部分頻段的諧波特徵,亦可由快速傅立葉轉換運算單元422的運算結果偵測出母音與子音的存在,進而產生頻域音節及音頻特徵偵測結果203。
決定電路204分別將時域音節偵測結果201以及頻域音節及音頻特徵偵測結果203與預設語音樣本111進行比較。
請參照第5圖。第5圖為本發明一實施例中,決定電路204更詳細的方塊圖。
於本實施例中,決定電路204包含比較器500、比較器502、加權單元504、加權單元506、總和運算單元508以及決定單元510。
比較器500配置以對時域音節偵測結果201以及 預設語音樣本111進行比較,以產生時域比較結果501。於一實施例中,時域比較結果501可以例如,但不限於分數的方式產生,並由加權單元504根據權重W1進行加權。
比較器502配置以對頻域音節及音頻特徵偵測結果203以及預設語音樣本111進行比較,以產生頻域比較結果503。於一實施例中,頻域比較結果503可以例如,但不限於分數的方式產生,並由加權單元506根據權重W2進行加權。
總和運算單元508進一步將加權單元504以及加權單元506的加權結果加總,以產生加權總合505。決定單元510判斷加權總合505是否符合對應預設語音樣本之預設範圍,以在符合預設範圍時(例如:差異在預設語音樣本的正負20%以內),判斷包括時域和頻域的音節及音頻特徵偵測結果與預設語音樣本111相符,並產生喚醒訊號113。
因此,本發明的語音喚醒裝置110可藉由時域及頻域偵測,快速辨識出語音活動中的音節數目以及母音與子音,並與預設語音樣本111進行比較以判斷是否符合喚醒指令,進一步在符合時喚醒電子裝置1的處理電路100。因此,處理電路100可不必須在有語音活動產生時即被喚醒而進行辨識,大幅降低電子裝置1的功耗。
第6圖為本發明一實施例中,語音喚醒方法600的流程圖。語音喚醒方法600可應用於第1A圖的語音喚醒裝置110中。
語音喚醒方法600包含下列步驟(應瞭解到,在本實施方式中所提及的步驟,除特別敘明其順序者外,均 可依實際需要調整其前後順序,甚至可同時或部分同時執行)。
於步驟601,藉由語音活動偵測電路112接收聲音輸入訊號101並偵測聲音輸入訊號101中之語音活動103。
於步驟602,藉由智慧偵測電路116接收聲音輸入訊號101,以針對語音活動103進行時域偵測以及頻域偵測,以產生音節及音頻特徵偵測結果。
於步驟603,藉由智慧偵測電路116將音節及音頻特徵偵測結果與儲存單元114儲存之預設語音樣本111比較。
於步驟604,藉由智慧偵測電路116判斷音節及音頻特徵偵測結果與預設語音樣本111。
當音節及音頻特徵偵測結果與預設語音樣本111並不相符時,於步驟605,智慧偵測電路116不產生喚醒訊號113。
而當音節及音頻特徵偵測結果與預設語音樣本111相符時,於步驟606,藉由智慧偵測電路116產生喚醒訊號113至電子裝置1之處理電路100,俾喚醒處理電路100。
雖然上文實施方式中揭露了本發明的具體實施例,然其並非用以限定本發明,本發明所屬技術領域中具有通常知識者,在不悖離本發明之原理與精神的情形下,當可對其進行各種更動與修飾,因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。
1‧‧‧電子裝置
100‧‧‧處理電路
101‧‧‧聲音輸入訊號
103‧‧‧語音活動
110‧‧‧語音喚醒裝置
111‧‧‧預設語音樣本
112‧‧‧語音活動偵測電路
113‧‧‧喚醒訊號
114‧‧‧儲存電路
116‧‧‧智慧偵測電路

Claims (8)

  1. 一種語音喚醒裝置,應用於一電子裝置中,包含:一語音活動偵測電路,配置以接收一聲音輸入訊號並偵測該聲音輸入訊號中之一語音活動;一儲存電路,配置以儲存一預設語音樣本;以及一智慧偵測電路,包含:一時域偵測電路,配置以接收該聲音輸入訊號,以對該語音活動偵測一時域上的至少一時域能量波峰,以根據該至少一時域能量波峰產生一時域音節偵測結果;一頻域偵測電路,配置以接收該聲音輸入訊號,以對該語音活動偵測一頻域上的至少一頻域能量波峰以及一諧波特徵,以根據該至少一頻域能量波峰以及該諧波特徵產生一頻域音節及音頻特徵偵測結果;以及一決定電路,分別將該時域音節偵測結果以及該頻域音節及音頻特徵偵測結果與該預設語音樣本進行比較,以在該時域音節偵測結果以及該頻域音節及音頻特徵偵測結果與該預設語音樣本相符時產生產生一喚醒訊號至該電子裝置之一處理電路,俾喚醒該處理電路。
  2. 如請求項1所述之語音喚醒裝置,其中該決定電路將該時域音節偵測結果與該預設語音樣本的一時域比較結果以及該頻域音節及音頻特徵偵測結果與該預設語音樣本的一頻域比較結果分別進行加權,以產生一加權總合,並 在該加權總合符合對應該預設語音樣本之一預設範圍時產生該喚醒訊號。
  3. 如請求項1所述之語音喚醒裝置,其中該時域偵測電路配置為進行一能量計算偵測(power calculation)、一零交越偵測(zero-crossing detection)、一音節偵測(syllable detection)或一延遲自相關偵測(delay auto-correlation)。
  4. 如請求項1所述之語音喚醒裝置,其中該頻域偵測電路配置為進行一濾波器組(filter bank)濾波偵測或一快速傅立葉轉換(Fast Fourier Transform;FFT)濾波偵測。
  5. 如請求項1所述之語音喚醒裝置,其中該預設語音樣本為一使用者定義樣本或一離線學習(offline training)樣本。
  6. 如請求項1所述之語音喚醒裝置,其中該智慧偵測電路是由於自該語音活動偵測電路接收到該語音活動而驅動。
  7. 如請求項1所述之語音喚醒裝置,其中該智 慧偵測電路是與該語音活動偵測電路在接收到該聲音輸入訊號時同時驅動。
  8. 一種語音喚醒方法,應用於一電子裝置之一語音喚醒裝置中,包含:藉由一語音活動偵測電路接收一聲音輸入訊號並偵測該聲音輸入訊號中之一語音活動;藉由一智慧偵測電路接收該聲音輸入訊號,以針對該語音活動進行一時域偵測以及一頻域偵測,以產生一音節及音頻特徵偵測結果;藉由該智慧偵測電路之一時域偵測電路接收該聲音輸入訊號,以對該語音活動偵測一時域上的至少一時域能量波峰,以根據該至少一時域能量波峰產生一時域音節偵測結果;藉由該智慧偵測電路之一頻域偵測電路接收該聲音輸入訊號,以對該語音活動偵測一頻域上的至少一頻域能量波峰以及一諧波特徵,以根據該至少一頻域能量波峰以及該諧波特徵產生一頻域音節及音頻特徵偵測結果;以及藉由該智慧偵測電路之一決定電路分別將該時域音節偵測結果以及該頻域音節及音頻特徵偵測結果與一儲存電路儲存之一預設語音樣本進行比較,以在該時域音節偵測結果以及該頻域音節及音頻特徵偵測結果與該預設語音樣本相符時產生一喚醒訊號至該電子裝置之一處理電路,俾喚醒該處理電路。
TW108100752A 2019-01-08 2019-01-08 語音喚醒裝置及方法 TWI684912B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108100752A TWI684912B (zh) 2019-01-08 2019-01-08 語音喚醒裝置及方法
US16/662,157 US11250849B2 (en) 2019-01-08 2019-10-24 Voice wake-up detection from syllable and frequency characteristic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108100752A TWI684912B (zh) 2019-01-08 2019-01-08 語音喚醒裝置及方法

Publications (2)

Publication Number Publication Date
TWI684912B true TWI684912B (zh) 2020-02-11
TW202026855A TW202026855A (zh) 2020-07-16

Family

ID=70413520

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108100752A TWI684912B (zh) 2019-01-08 2019-01-08 語音喚醒裝置及方法

Country Status (2)

Country Link
US (1) US11250849B2 (zh)
TW (1) TWI684912B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151032A (zh) * 2020-09-15 2020-12-29 济南雪景网络技术有限公司 一种语音消息的智能处理方法
CN113920988B (zh) * 2021-12-03 2022-03-22 深圳比特微电子科技有限公司 语音唤醒方法、装置及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU761131B2 (en) * 1998-05-21 2003-05-29 University Of Surrey Split band linear prediction vocodor
US20070265840A1 (en) * 2005-02-02 2007-11-15 Mitsuyoshi Matsubara Signal processing method and device
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN108877827A (zh) * 2017-05-15 2018-11-23 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
US20020103636A1 (en) * 2001-01-26 2002-08-01 Tucker Luke A. Frequency-domain post-filtering voice-activity detector
US7127392B1 (en) * 2003-02-12 2006-10-24 The United States Of America As Represented By The National Security Agency Device for and method of detecting voice activity
WO2012025784A1 (en) * 2010-08-23 2012-03-01 Nokia Corporation An audio user interface apparatus and method
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120294459A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals in Consumer Audio and Control Signal Processing Function
ES2757700T3 (es) * 2011-12-21 2020-04-29 Huawei Tech Co Ltd Detección y codificación de altura tonal muy débil
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US10311865B2 (en) * 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
US9613626B2 (en) * 2015-02-06 2017-04-04 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
JP6844472B2 (ja) * 2017-08-24 2021-03-17 トヨタ自動車株式会社 情報処理装置
KR20230015513A (ko) * 2017-12-07 2023-01-31 헤드 테크놀로지 에스아에르엘 음성인식 오디오 시스템 및 방법
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
KR20190084789A (ko) * 2018-01-09 2019-07-17 엘지전자 주식회사 전자 장치 및 그 제어 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU761131B2 (en) * 1998-05-21 2003-05-29 University Of Surrey Split band linear prediction vocodor
US20070265840A1 (en) * 2005-02-02 2007-11-15 Mitsuyoshi Matsubara Signal processing method and device
CN108877827A (zh) * 2017-05-15 2018-11-23 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备

Also Published As

Publication number Publication date
US11250849B2 (en) 2022-02-15
US20200219502A1 (en) 2020-07-09
TW202026855A (zh) 2020-07-16

Similar Documents

Publication Publication Date Title
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
TWI474317B (zh) 訊號處理裝置以及訊號處理方法
US9775113B2 (en) Voice wakeup detecting device with digital microphone and associated method
US20160135047A1 (en) User terminal and method for unlocking same
US20140180682A1 (en) Noise detection device, noise detection method, and program
CN104091603B (zh) 基于基频的端点检测系统及其计算方法
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
TWI684912B (zh) 語音喚醒裝置及方法
CN104409078A (zh) 异常声音检测和识别系统
CN105096946A (zh) 基于语音激活检测的唤醒装置及方法
CN103543814A (zh) 信号处理装置以及信号处理方法
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
CN108682432B (zh) 语音情感识别装置
CN110297042A (zh) 一种基于声音识别的裁床断刀检测方法、装置及设备
Jaafar et al. Automatic syllables segmentation for frog identification system
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
CN115510909A (zh) 一种dbscan进行异常声音特征的无监督算法
CN108847218B (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
US10236000B2 (en) Circuit and method for speech recognition
KR100714721B1 (ko) 음성 구간 검출 방법 및 장치
GB2576960A (en) Speaker recognition
WO2003065352A1 (en) Method and apparatus for speech detection using time-frequency variance
CN111435593B (zh) 语音唤醒装置及方法