TW201403588A - 電能有效型聲音致動 - Google Patents

電能有效型聲音致動 Download PDF

Info

Publication number
TW201403588A
TW201403588A TW102115391A TW102115391A TW201403588A TW 201403588 A TW201403588 A TW 201403588A TW 102115391 A TW102115391 A TW 102115391A TW 102115391 A TW102115391 A TW 102115391A TW 201403588 A TW201403588 A TW 201403588A
Authority
TW
Taiwan
Prior art keywords
state
audio signal
speech recognition
stage
waveform
Prior art date
Application number
TW102115391A
Other languages
English (en)
Inventor
Stephan Rosner
Chen Liu
Jens Olson
Original Assignee
Spansion Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spansion Llc filed Critical Spansion Llc
Publication of TW201403588A publication Critical patent/TW201403588A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本發明提供一種聲音致動系統。該聲音致動系統包括:第一級,其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;以及第二級,其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號,以及在處於該第二狀態時,若是該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號。

Description

電能有效型聲音致動
描述於本文之具體實施例大體有關於基於接收語音訊號所觸發的致動系統。
語音辨識系統經常包含語音辨識引擎,其係比較部份接收訊號與儲存資訊以判斷使用者對著裝置說什麼。這些語音辨識系統中之一些被設計成在任何時間能夠回應使用者的語音。結果,語音辨識引擎必須一直保持有作用(active)使得它可監視語音的周遭環境。
由於經常在語音辨識引擎的大部份時間不會收到語音,因此,語音辨識引擎在監視周遭環境時會浪費電力。特別是,在常常以電池供電的無線及行動裝置中,電力的浪費為系統設計人員的重大關注。
有些語音辨識引擎的省電是藉由以多狀態裝置來操作。在處於低功率狀態時,語音辨識引擎只用足夠的電力來偵測先前已指定為觸發子(trigger)的某些特定字語。一旦偵測到該等字語中之一個,語音辨識引擎便轉變為全面運轉狀態(fully-operational state),此時它可辨識字語的完整詞彙。雖然多狀態實作提供一些省電,然而這 經常只是溫和的節省,因為辨識字語之完整詞彙所需組件有許多也需要偵測指定為觸發子的特定字語。因此,即使處於低功率狀態,這些組件仍須保持有作用。
描述於本文之具體實施例包括用於聲音致動的方法、系統及電腦可讀取媒體。在具體實施例中,提供一種聲音致動系統。該聲音致動系統包括:第一級,其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;以及第二級,其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號,以及在處於該第二狀態時,若是該音頻訊號之波形(profile)的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號。
在另一具體實施例中,提供一種聲音致動方法。該方法包括:用聲音致動系統的第一級,比較音頻訊號的至少一能量特性與至少一臨界值;如果該音頻訊號滿足該臨界值,則使該聲音致動系統由該第一狀態轉變為該第二狀態;在該聲音致動系統之該第二級處於該第二狀態時,用該聲音致動系統之該第二級,比較該音頻訊號之波形的至少一部份與至少一預定波形;以及如果該音頻訊號之波形的該至少一部份實質匹配該至少一預定波形,則使該聲音致動系統的語音辨識引擎由第一狀態轉變為第二狀態。
在又一具體實施例中,提供一種聲音致動 系統。該聲音致動系統包括:麥克風,經組態成輸出對應至接收聲波之類比電子訊號;類比數位轉換器,經組態成將該類比電子訊號轉換成數位訊號;第一級,其係經組態成如果該數位訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;第二級,其係經組態成可由待命狀態轉變為全面運轉狀態以回應該第一致動訊號,以及在處於該全面運轉狀態時,如果該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號;以及語音辨識引擎,其係經組態成基於該第二致動訊號由第一狀態轉變為第二狀態。
由以下的詳細說明可明白以上及其他的優 點及特徵。應注意,【發明內容】及【發明摘要】係闡述被本發人想到的一或更多而不是所有的本發明具體實施例。
100‧‧‧習知語音辨識系統
102‧‧‧麥克風
104‧‧‧類比數位(A/D)轉換器
106‧‧‧語音辨識引擎
200‧‧‧聲音致動系統
202‧‧‧麥克風
204‧‧‧類比/數位轉換器
206‧‧‧第一級
208‧‧‧第二級
210‧‧‧第三級
212‧‧‧控制模組
300‧‧‧曲線
400‧‧‧曲線
402,404‧‧‧預定義臨界值
430‧‧‧顯示單元
500‧‧‧第二級
502‧‧‧時間及/或頻率分析模組
504‧‧‧喚醒判斷模組
600‧‧‧示範曲線
700‧‧‧第二級
702‧‧‧特徵萃取模組
704‧‧‧模版匹配模型
706‧‧‧事件鑑定模組
800‧‧‧第三級
802‧‧‧控制模組
804‧‧‧語音辨識引擎
806‧‧‧聲學模型
808‧‧‧關鍵字語發現文法模組
900‧‧‧流程圖
902‧‧‧把音頻訊號轉換成電子訊號
904‧‧‧把類比電子訊號轉換成數位訊號
906‧‧‧比較接收訊號的能量特性(s)與預定臨界值(s)
908‧‧‧有效致動?
910‧‧‧結束
912‧‧‧使第二級由第一狀態轉變為第二狀態
914‧‧‧比較音頻訊號之波形的至少一部份與至少一預定波形
916‧‧‧有效致動?
918‧‧‧結束
920‧‧‧喚醒字語判斷狀態致能?
922‧‧‧語音引擎轉變為電力全開狀態
924‧‧‧語音引擎轉變為喚醒字語偵測狀態
926‧‧‧接收音頻訊號中存在喚醒字語?
928‧‧‧結束
930‧‧‧語音引擎轉變為全面運轉狀態
1000‧‧‧狀態圖
1002‧‧‧待命狀態
1004‧‧‧喚醒字語判斷狀態
1006‧‧‧全面運轉狀態
1100‧‧‧示範電腦系統
1102‧‧‧顯示介面
1104‧‧‧處理器裝置
1106‧‧‧通訊基礎建設
1108‧‧‧主記憶體
1110‧‧‧次級記憶體
1112‧‧‧硬碟驅動器
1114‧‧‧可移除儲存驅動器
1118‧‧‧可移除儲存單元
1120‧‧‧介面
1122‧‧‧可移除儲存單元
1124‧‧‧通訊介面
1126‧‧‧通訊路徑
併入本文及形成本專利說明書之一部份的附圖係圖解說明本發明以及進一步與說明一起用來解釋本發明的原理以及使得熟諳此藝者可做出及使用本發明。
第1圖為習知語音辨識系統的方塊圖。
第2圖根據本發明之具體實施例圖示聲音致動系統的方塊圖。
第3圖及第4圖的曲線根據本發明的具體實施例圖示第一級的示範操作。
第5圖根據本發明之具體實施例圖示第二級的方塊圖。
第6圖的示範曲線根據本發明之具體實施 例圖示示範波形。
第7圖根據本發明之具體實施例圖示第二 級的方塊圖。
第8圖根據本發明之具體實施例圖示耦合 至控制模組之第三級的方塊圖。
第9圖根據本發明之具體實施例圖示提供 用於聲音致動方法之示範步驟的流程圖。
第10圖的狀態圖根據本發明之具體實施例 圖示語音辨識引擎的操作。
第11圖圖示示範電腦系統,其中聲音致動 系統或其一部份的具體實施例可實作成為電腦可讀取代碼。
此時參考附圖來描述本發明。附圖中,相 同或功能類似的元件大體用相同的元件符號表示。另外,元件符號最左邊的數字(或數個)大體為首先出現該元件符號的附圖編號。
應瞭解,旨在用來解釋申請專利範圍的是 【實施方式】,而不是【發明內容】與【發明摘要】。【發明內容】與【發明摘要】係闡述本發明人可想到的一或更多但不是所有的本發明示範具體實施例,因而不是想要以任何方式來限定本發明及其申請專利範圍。
第1圖為習知語音辨識系統100的方塊 圖。語音辨識系統100包含麥克風102、類比數位(A/D)轉換器104、及語音辨識引擎106。如第1圖所示,麥克風102接收聲波以及輸出對應電子訊號給類比/數位轉換器104。類比/數位轉換器104把接收訊號由類比訊號轉換為數位訊號。
語音辨識引擎106接收由類比/數位轉換器104輸出的訊號。語音辨識引擎106經組態成可辨識存在於接收數位訊號之中的一或更多字語。例如,語音辨識引擎106可載入聲學模型(acoustic model)及關鍵字語(keyword)或文法發現網路(grammar spotting network)的程式館(library),以判斷接收數位訊號中是否存在一或更多字語。例如,語音辨識引擎106可比較部份的數位訊號與表示特定字語(或數個)的一或更多聲學模型,以判斷接收訊號中是否存在某些字語。語音辨識引擎106可用軟體在處理器上實現。替換地,語音辨識引擎106可用數位訊號處理器(DSP)或可編程硬體(例如,現場可程式閘陣列(FPGA))實現。
在一具體實作中,麥克風102、類比/數位轉換器104及語音辨識引擎106各自可實作成為獨立的模組或積體電路(IC)裝置封裝件(例如,經由印刷電路板(PCB)耦合者)。替換地,麥克風102、類比/數位轉換器104及語音辨識引擎106中之一或更多可一起實作於單一模組或IC裝置封裝件中。
雖然語音辨識引擎系統100可監視周遭環 境以及辨識在任何時間被麥克風102收到之語音中的字語,但此操作通常要求語音辨識系統100以全功率運行。 特別是,語音辨識系統100的所有組件必須一直在運行,使得它可辨識及回應在任何時間收到的語音訊號。語音辨識系統100在沒有收到語音訊號時所花掉的功率會被浪費掉。浪費掉的功率為系統設計人員的重大關切,特別是經常是以電池來供電的無線或行動系統。
在一替代具體實作中,語音辨識引擎106可為多狀態裝置。在此實作中,語音辨識引擎106初始保持在低功率狀態,此時其係企圖識別接收音頻訊號內的特定預定字語。如果識別訊號中有該等特定字語,則語音辨識引擎106轉變為全面運轉狀態。在處於全面運轉狀態時,語音辨識引擎106可辨識字語的完整詞彙。雖然此實作減少被語音辨識系統100浪費掉的功率,然而這只是溫和地減少,因為即使在低功率狀態下,語音辨識引擎106中仍有許多耗電組件保持通電。
類似概念可在某些無線或行動裝置中實現。例如,此一裝置初始可保持在低功率狀態,但是讓特定的組件集合仍有作用。這些組件用來分析接收封包的前文及/或酬載(payload),以判斷是否使裝置轉變為所有組件都有作用的全面運轉狀態。例如,實現該等裝置可根據IEEE 802.11標準。雖然這些裝置減少被浪費掉的功率,然而它們用無線傳送器要求使用者來觸發裝置。
在描述於本文的具體實施例中,提供一種 電能有效型聲音致動系統。該聲音致動系統可為多級式。 各級致動下一級使得最耗電裝置的有作用時間最少。在一具體實施例中,第一級可為比較接收音頻訊號之能量特性(或數個)與一或更多個別預定臨界值的能量比較器。如果符合或超過該等預定臨界值,第一級可致動第二級以分析接收訊號之波形的至少一部份以判斷是否為聲音致動系統的有效觸發子。在另一具體實施例中,只需要有能量偵測作用的第一級監視潛在語音訊號的周遭,從而比習知系統更省電。
第2圖根據本發明之具體實施例圖示聲音致動系統200的方塊圖。聲音致動系統200包含麥克風202、類比/數位轉換器204、第一級206、第二級208和第三級210、以及控制模組212。麥克風202與類比/數位轉換器204可實質類似於語音辨識系統100中在說明第1圖時提及的麥克風102與A/D 104。
第一級206由類比/數位轉換器204接收數位版的接收音頻訊號。在一具體實施例中,第一級206經組態成可分析接收音頻訊號的至少一能量特性以判斷接收訊號是否包含語音。例如,第一級206可經組態成可比較接收音頻訊號的一或更多能量特性與一或更多個別臨界值。如果接收音頻訊號的能量特性符合或超過該一或更多臨界值,則第一級206輸出致動第二級208的第一致動訊號。在這樣做時,第一級206監視周遭環境以判斷是否收到語音訊號。
在一具體實施例中,第一級206一直在運行。不過,如以下所詳述的,與聲音致動系統200的其餘部份相比,第一級206消耗相對少的功率。因此,第一級206的一直運行不會導致大量的功率被聲音致動系統200浪費掉。以外用第3圖及第4圖進一步描述第一級206的示範操作。
第二級208接收第一級206所輸出的第一致動訊號。在一具體實施例中,第二級208可為多狀態裝置。 例如,第二級208可具有至少兩種狀態。第二級208的第一狀態可為第二級208中只有辨識第一致動訊號所需組件保持有作用的待命狀態。一旦收到第一致動訊號,第二級208可轉變為第二狀態。例如,第二狀態可為全面運轉狀態。
在處於全面運轉狀態時,第二級208可經組態成可分析接收音頻訊號的至少一波形以判斷訊號中是否存在“喚醒”字語。喚醒字語為聲音致動系統200視為觸發子而導致整個語音辨識引擎被致動的字語。例如而不是限定,可預定字語“在…上”、“致動”及“喚醒”為致動的有效觸發子。例如,當第二級208處於電力全開狀態(fully-powered state)時,第二級208可比較接收音頻訊號的至少一部份波形與均為喚醒字語的一或更多預定義波形。 如果接收音頻訊號分別與至少一預定波形實質匹配,則第二級208可輸出第二致動訊號。以下用第6圖至第8圖詳述第二級208的示範操作。
第三級210接收由第二級208輸出的第二致動訊號。在一具體實施例中,第三級210包含語音辨識引擎。在另一具體實施例中,語音辨識引擎可為多狀態裝置。 例如,語音辨識引擎的第一狀態可為只有辨識第二致動訊號所需組件保持有作用的待命狀態。一旦收到第二致動訊號,語音辨識引擎可轉變為全面運轉狀態。在處於全面運轉狀態時,語音辨識引擎能夠辨識接收音頻訊號內之字語的完整詞彙。因此,在此具體實施例中,第二致動訊號用作致動語音辨識引擎的觸發子。不過,可能想要提供有更高精度的喚醒字語辨識。例如,會在容易誤判為否定(false negative)或誤判為肯定(false positive)之環境中的系統可受益於更精確的喚醒字語偵測。
在一具體實施例中,語音辨識引擎反而基於第二致動訊號由待命狀態轉變為喚醒字語偵測狀態。在處於喚醒字語偵測狀態時,語音辨識引擎可經組態成可特別辨識音頻訊號中的喚醒字語。在這樣做時,只載入辨識喚醒字語所需之聲學、關鍵字語及/或文法模型的集合。此外,由於放置較少的模型,因此,辨識功能可消耗較少電力,這是因為需要進行較少的接收音頻訊號與不同模型之比較。因此,與全面運轉狀態相比,語音辨識引擎在處於喚醒字語偵測狀態時可使用較少的功率。在另一具體實施例中,語音辨識引擎可經組態成根據音頻訊號內是否有喚醒字語的辨識,可由喚醒字語偵測狀態轉變為待命狀態或者是全面運轉狀態。特別是,如果確定接收音頻訊號中存 在喚醒字語,則語音辨識引擎可轉變為全面運轉狀態。如果沒有,則語音辨識引擎可轉變為待命狀態。以下在說明第8圖及第10圖時,會詳述第三級210的操作。
因此,在一具體實施例中,系統200有3級,其中只有第一級206一直在運行。因為與級208及210相比,第一級206為相對低功率的裝置,因此,系統200可提供優於習知系統的實質省電。例如,在一具體實施例中,以級206-210各自在處於全面運轉狀態時所使用的總功率為分母,第一級206可使用約百分之5的總功率,第二級208可使用約百分之20,而第三級210可使用約百分之75。因此,藉由確保最耗電裝置(亦即,第三級210)的有作用時間最少,系統200能夠提供顯著的省電。
第3圖根據本發明之一具體實施例圖示描繪第一級之示範操作的曲線300。如第3圖的示範具體實施例所示,第一級可為能量比較器,其係比較接收音頻訊號的能階(energy level)與預定義臨界值。例如,如第3圖所示,一旦接收音頻訊號能階到達E*,第一級的輸出便由邏輯0切換到邏輯1。在第3圖的具體實施例中,邏輯1的輸出可用作第一致動訊號。
第4圖根據本發明之另一具體實施例圖示描繪第一級之另一示範操作的曲線400。在圖示於第4圖的具體實施例中,第一級分析接收音頻訊號的高頻能量/低頻能量比。在另一具體實施例中,第一級可儲存一對預定義臨界值402及404。當該能量比在臨界值402及404 之間時,第一級可輸出第一致動訊號。臨界值402及404的範圍可為常見語音訊號的能量比。因此,當接收音頻訊號的能量比落在此範圍外時,第一級206可判斷接收音頻訊號不是語音訊號,因而第一級208不輸出第一致動訊號。因此,第3圖及第4圖圖示觸發第一級206以輸出第一致動訊號的不同方式。在第3圖中,能階用作觸發子,而在第4圖中,高頻能量/低頻能量比用作觸發子。
在另一具體實施例中,第一級可使用圖示於第3圖及第4圖之觸發子的組合。例如,接收音頻訊號可能需要滿足包含於第3圖及第4圖用於第一級206的臨界值以產生致動訊號。
第5圖根據本發明之一具體實施例圖示第二級500的示範方塊圖。第二級500包含時間及/或頻率分析模組502與喚醒判斷模組504。在一具體實施例中,時間及/或頻率分析模組502可計算接收音頻訊號的時域及/或頻域波形。例如,接收音頻訊號的時域波形可圖示成振幅隨著時間改變的音頻訊號曲線。此外,時間及/或頻率分析模組502藉由計算時域波形的全時間傅立葉轉換可產生頻域波形。
第6圖為根據本發明之一具體實施例圖示示範波形的示範曲線600。在第6圖的實施例中,時域及/或頻域分析模組502可計算接收音頻訊號的時域及頻域分析。因此,曲線600顯示3個變數:振幅、頻率及時間。時域及/或頻域分析模組502輸出算出的波形給喚醒判斷模 組504。
喚醒判斷模組504可比較接收波形與一或更多預定波形。在一具體實施例中,喚醒判斷模組504基於預定波形的比較可判斷接收音頻訊號是否包含語音。特別是,藉由比較接收波形與先前已產生的波形,喚醒判斷模組504可判斷接收音頻訊號是否包含語音。該等預定波形的產生可基於與語音有關的模型建立及/或實驗結果。另外,喚醒判斷模組504也可判斷音頻訊號是否包含一或更多喚醒字語。例如,喚醒判斷模組504可比較接收波形的至少一部份與已知喚醒字語的波形。如果音頻訊號包含聲音或語音及/或一或更多喚醒字語,則喚醒判斷模組504輸出第二致動訊號,例如,邏輯1。
第7圖根據本發明之另一具體實施例圖示第二級700的方塊圖。第二級702包含特徵萃取模組702、模版匹配模型704、以及事件鑑定模組706。特徵萃取模組702經組態成可以頻域呈現接收音頻訊號。例如而不是限定,特徵萃取模組702可計算接收音頻訊號的梅爾頻標倒頻譜參數(mel-frequency cepstrum coefficients,MFCC)。由於這個處理,特徵萃取模組702可用該等係數確定構成該MFC的MFCC。然後,該等係數可輸出至模版匹配模組704。模版匹配模組704可匹配接收係數與表示語音訊號的一或更多波形。例如,模版匹配模組704可匹配接收係數與已知喚醒字語的係數。
在另一具體實施例中,模版匹配模組704 可實施維特比解碼法(Viterbi decoding scheme)。藉由應用維特比解碼法於接收音頻訊號,模版匹配模組704可識別存在於音頻訊號之中的一或更多喚醒字語。模版匹配模組704輸出模版匹配操作的結果給事件鑑定模組706。
基於接收自模版匹配模組704的結果,事件鑑定模組706鑑定接收音頻訊號是否包含一或更多喚醒字語。如果是,則事件鑑定模組706輸出第二致動訊號給第三級210。
第8圖根據本發明之一具體實施例圖示耦合至控制模組802之第三級800的方塊圖。第三級800包含接收聲學模型806及關鍵字語發現文法模組808的語音辨識引擎804。語音辨識引擎804經組態成可辨識內含於接收音頻訊號的字語。如上述,根據本文所描述的語音辨識引擎可為多狀態裝置。例如,在一具體實施例中,語音辨識引擎804能夠根據3種狀態來操作:(1)待命狀態,(2)喚醒字語偵測狀態,以及(3)全面運轉狀態。
第10圖為圖示語音辨識引擎804之操作的狀態圖1000。在處於待命狀態1002時,語音辨識引擎804只有使辨識第二致動訊號所需要的足夠組件有作用。因此,在處於待命狀態時,語音辨識引擎804可使用最少的電力。一旦由第二級收到第二致動訊號,語音辨識引擎804便基於控制模組802所輸出的控制訊號,而轉變為喚醒字語判斷狀態1004或者是全面運轉狀態1006。在處於喚醒字語判斷狀態1004時,語音辨識引擎804只載入聲學模型 806與關鍵字語發現模型808,而且只進行特別辨識喚醒字語所需的比較。當特定模型已載入時,處於喚醒字語偵測狀態1004的語音辨識引擎804可判斷接收音頻訊號內是否存在一或更多喚醒字語。若有的話,則語音辨識引擎804可轉變為全面運轉狀態1006,其中語音辨識引擎載入能夠辨識完整詞彙中之字語的所有聲學模型806及發現全功能文法模組808。若沒有,則語音辨識引擎804轉變回到待命狀態1002。在一具體實施例中,一旦語音辨識引擎804進入全面運轉狀態1006,它保持在此狀態直到特定功能完成及/或經過預定的時間。
控制模組802經組態成可輸出致能語音辨識引擎804進入喚醒判斷狀態1004的控制訊號。在一具體實施例中,控制模組802可基於各種因素來判斷是否致能語音辨識引擎804進入喚醒字語判斷狀態1004。例如,至少部份基於使用者的輸入,控制模組802可輸出控制訊號。在此一具體實施例中,使用者在操作期間可控制語音辨識引擎804是否進入喚醒字語偵測狀態1004。
控制模組802為視需要。在第三級800不包含控制模組802的具體實施例中,可設計時可確定關於語音辨識引擎804是否能夠進入喚醒字語偵測狀態的判斷。 例如,在設計時,可大體確定裝置會使用的狀態種類。因此,可預先決定致能喚醒字語判斷狀態是否恰當。例如,可將某些裝置設計成可用於吵雜的環境(例如,設計成可用於戶外的玩具)。由於這種環境容易發生誤判為肯定,因此 可預先決定應致能喚醒字語偵測。另一方面,例如,如果可將裝置設計成可用於安靜的環境,致能喚醒字語偵測狀態可能不適合。
因此,在第8圖的具體實施例中,語音辨識引擎804可達成兩個目的。語音辨識引擎804可用來準確地檢查是否已實際接收包含喚醒字語的音頻訊號以及也可用來辨識字語的完整詞彙。
第9圖根據本發明之一具體實施例圖示提供聲音致動方法之示範步驟的流程圖900。熟諳此藝者基於以下說明可明白其他的結構及操作具體實施例。圖示於第9圖的步驟不一定以圖示的順序出現。以下詳述第9圖的步驟。
在步驟902,將接收音頻訊號轉換成電子訊號。例如,在第2圖中,麥克風202可以把接收聲波轉換成電子訊號。
在步驟904,將類比電子訊號轉換成數位訊號。例如,在第2圖中,類比/數位轉換器204可以把接收類比電子訊號轉換成數位訊號。
在步驟906,可比較接收訊號的一或更多能量特性與各個預定臨界值。例如,在第2圖中,第一級206可比較接收音頻訊號的一或更多能量特性與各個預定臨界值。例如,第一級206可分析接收音頻訊號的能階以及比較該能階與預定臨界值,例如,如第3圖所示。另外或替換地,第一級206可比較接收音頻訊號的高頻能量/低頻能 量比與一或更多臨界值以判斷接收音頻訊號是否為聲音訊號,例如,如第4圖所示。
在步驟908,判斷接收音頻訊號的一或更多能量特性是否為有效致動。例如,第一級206可在接收訊號的能階超過臨界值及/或其高頻能量/低頻能量比落在預定範圍內的情況下,判斷接收訊號是否包含語音。如果已接收有效致動,則第一級206可輸出第一致動訊號,並且流程圖900前進到步驟912。如果不是,則流程圖900在步驟910結束。
在步驟912,使第二級由第一狀態轉變為第二狀態。例如,在第2圖中,第二級208可由待命狀態轉變為運轉狀態以回應第一級206所輸出的第一致動訊號。
在步驟914,比較音頻訊號的至少一部份波形與至少一預定波形。例如,在第2圖中,第二級208可比較接收音頻訊號的至少一部份與至少一預定波形。例如,第二級208可計算接收音頻訊號的時域及/或頻域波形以及拿它與預定時域及/或頻域波形做比較。另外或替換地,第二級208可由該至少一部份音頻訊號萃取MFCC以及拿這些係數與預定波形(或數個)做比較。
在步驟916,判斷音頻訊號的波形至少有一部份產生有效致動。例如,有效致動可為該至少一部份波形與預定波形匹配。如果該音頻訊號的該至少一部份波形不產生有效致動,則流程圖900在步驟918結束。另一方面,如果確定有有效致動,則流程圖900前進到步驟920。
在步驟920,判斷語音辨識引擎的喚醒字語判斷狀態是否致能。若否,則流程圖900前進到步驟922,而語音辨識引擎轉變為電力全開狀態。若如此,則在步驟924,語音辨識引擎轉變為喚醒字語偵測狀態。例如,如在說明第8圖時所述,藉由輸出控制訊號給語音辨識引擎804,控制模組802可致能語音辨識引擎804進入喚醒字語判斷狀態。
在步驟926,判斷接收音頻訊號中是否存在一或更多喚醒字語。例如,在第8圖中,語音辨識引擎804可判斷接收音頻訊號中是否存在一或更多喚醒字語。如果沒有,則流程圖900在步驟928結束。另一方面,如果接收音頻訊號中存在一或更多喚醒字語,則流程圖900前進到步驟930。在步驟930,語音辨識引擎轉變為全面運轉狀態。例如,在第8圖中,如果語音辨識引擎804判斷接收音頻訊號中存在一或更多喚醒字語,則語音辨識引擎804可轉變為全面運轉狀態,此時語音辨識引擎804可辨識字語中的完整詞彙。
第11圖圖示示範電腦系統1100,其中提供整合行動伺服器應用或彼之一部份的系統具體實施例可實作成為電腦可讀取代碼。例如,第二級208及/或第三級210在電腦系統1100中的實現可用硬體、軟體、韌體、有指令儲存於其上的有形電腦可讀取儲存媒體或彼等之組合,以及可在一或更多電腦系統或其他處理系統中實現。硬體、軟體或兩者之任何組合可具體化第2圖、第5圖及第7圖 至第10圖的模組、程序及組件中之任一者。
如果使用可編程邏輯,則該邏輯可在通售處理平台或專用設備上執行。本技藝一般技術人員明白,所揭示之專利標的的具體實施例可用各種電腦系統組態實施,包括多核心多處理器系統、迷你電腦、主機電腦、與分散功能鏈結或成叢集的電腦,以及可虛擬嵌入任何裝置的普及或微型電腦。
例如,有至少一處理器裝置及記憶體的計算裝置可用來實現上述具體實施例。處理器裝置可為單一處理器、多個處理器、彼等之組合。處理器裝置可具有一或更多處理器”核心”。
本發明的各種具體實施例系基於示範電腦系統1100來描述。在閱讀此描述後,熟諳此藝者會明白如何用其他電腦系統及/或電腦架構來實現本發明。雖然操作可被描述成順序處理,操作中之一些事實上可並行、同時及/或在分散環境中執行,以及程式碼儲存於本地或遠端供單一或多處理器機器存取。此外,在有些具體實施例中,可重排操作的順序而不脫離所揭示之專利標的的精神。
熟諳此藝者應瞭解,處理器裝置1104也可為多核心/多處理器系統中的單一處理器,該系統係單獨操作,或在叢集或伺服器群中操作的計算裝置叢集。處理器裝置1104連接至通訊基礎建設1106,例如,例如匯流排、訊息佇列、網路、或多核心訊息傳遞機制。
電腦系統1100也包含主記憶體1108,例 如,隨機存取記憶體(RAM),以及也可包含次級記憶體1110。次級記憶體1110可包含,例如,硬碟驅動器1112、可移除儲存驅動器1114。可移除儲存驅動器1114可包括軟碟、磁帶機、光碟機、快閃記憶體、或其類似物。可移除儲存驅動器1114以習知方式讀及/或寫可移除儲存單元1118。可移除儲存單元1118可包括被可移除儲存驅動器1114讀寫的軟碟、磁帶機、光碟機、等等。熟諳此藝者應瞭解,可移除儲存單元1118包括有電腦軟體及/或資料儲存於其中的電腦可使用儲存媒體。
電腦系統1100(視需要)包含顯示介面1102(它可包含輸入/輸出裝置,例如鍵盤、滑鼠等等),其係饋送來自通訊基礎建設1106(或未圖示的視框緩衝器)的圖形、文字及其他資料供顯示於顯示單元430上。
在替代實作中,次要存儲器1110可包含其他類似構件以允許電腦程式或其他指令載入電腦系統1100。此類構件可包含,例如,可移除儲存單元1122與介面1120。此類構件的實施例可包含程式匣(program cartridge)與匣介面(例如,出現於視頻遊戲裝置之中者),可移除記憶體晶片(例如,EPROM或PROM)及相關插座,以及允許軟體及數據由可移除儲存單元1122傳輸至電腦系統1100的其他可移除儲存單元1122及介面1120。
電腦系統1100也可包含通信介面1124。通信介面1124允許軟體及資料在電腦系統1100、外部裝置之間傳輸。通信介面1124可包含數據機、網絡介面(例如, 乙太網路卡)、通信埠、PCMCIA插槽及卡、或其類似物。經由通信介面1124傳輸之軟體及資料的訊號形式可為能夠被通信介面1124收到的電子、電磁、光學或其他訊號。該等訊號系經由通信路徑1126提供給通信介面1124。通信路徑1126攜載訊號而且可用電線或纜線、光纖、電話線、行動電話鏈路、紅外線鏈路或其他通信頻道實現。
在本文,術語”電腦程式媒體”及”電腦可使用媒體”大體用來指稱諸如可移除儲存單元1118、可移除儲存單元1122及裝入硬碟驅動器1112的硬碟之類的媒體。電腦程式媒體及電腦可使用媒體也可稱為記憶體,例如可為記憶半導體(例如,DRAM等)的主記憶體1108及次級記憶體1110。
電腦程式(也被稱作電腦控制邏輯)係儲存於主記憶體1108及/或次級記憶體1110中。也可經由通訊介面1124來接收電腦程式。該等電腦程式在執行時使得電腦系統1100可實作本發明,如本文所述。特別是,該等電腦程式在執行時使得處理器裝置1104可實現本發明的方法,例如第4圖及第5圖之流程圖所圖示之方法的級。因此,該等電腦程式為電腦系統1100的控制器。在本發明用軟體實現時,該軟體可儲存於電腦程式產品以及用可移除儲存驅動器1114、介面1120以及硬碟驅動器1112、或通訊介面1124載入電腦系統1100。
本發明的具體實施例也針對包含儲存於任何電腦可使用媒體上之軟體的電腦程式產品。該等軟體在 一或更多數據處理裝置中執行時造成數據處理裝置(或數個)可以本文所述的方式操作。本發明的具體實施例利用任何電腦可使用或可讀取媒體。電腦可使用媒體的實施例包含(但不受限於):主要儲存裝置(例如,任何類型的隨機存取記憶體),次要儲存裝置(例如,硬盤、軟盤、CD ROMS、抽取磁盤(ZIP disk)、磁帶、磁性儲存裝置、及光學儲存裝置、MEMS、奈米技術儲存裝置、等等)、以及通信媒體(例如,有線及無線通信網絡、局域網、廣域網、企業內網絡、等等)。
以上已藉助圖解說明特定功能及其關係之具體實作的功能建立區塊(functional building block)來說明本發明。該等功能建立區塊的邊界係任意定義以便說明。 只要可適當地執行該等特定功能及其關係,可定義替代邊界。
前面特定具體實施例的描述將完整地揭露本發明的一般性質,以致於他者藉由應用本技藝的知識,在不需過度實驗下,可輕易修改該等特定具體實施例及/或改造成可用於各種應用系統,而不脫離本發明的一般概念。因此,希望基於本文提出的教導及指導的此類改造及修改都落在揭示具體實施例的等價意思及範圍內。應瞭解,本文的用語或術語是用來說明而不是限制,使得熟諳此藝者可按照該等教導及指導來解釋本專利說明書的用語或術語。
900‧‧‧流程圖
902‧‧‧把音頻訊號轉換成電子訊號
904‧‧‧把類比電子訊號轉換成數位訊號
906‧‧‧比較接收訊號的能量特性(s)與預定臨界值(s)
908‧‧‧有效致動?
910‧‧‧結束
912‧‧‧使第二級由第一狀態轉變為第二狀態
914‧‧‧比較音頻訊號之波形的至少一部份與至少一預定波形
916‧‧‧有效致動?
918‧‧‧結束
920‧‧‧喚醒字語判斷狀態致能?
922‧‧‧語音引擎轉變為電力全開狀態
924‧‧‧語音引擎轉變為喚醒字語偵測狀態
926‧‧‧接收音頻訊號中存在喚醒字語?
928‧‧‧結束
930‧‧‧語音引擎轉變為全面運轉狀態

Claims (20)

  1. 一種聲音致動系統,其係包含:第一級,其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;以及第二級,其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號,以及在處於該第二狀態時,若是該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號。
  2. 如申請專利範圍第1項所述之聲音致動系統,其更包含:語音辨識引擎,其係耦合至該第二級以及經組態成基於該第二致動訊號而由第一狀態轉變為第二狀態。
  3. 如申請專利範圍第2項所述之聲音致動系統,其中該語音辨識引擎之該第二狀態為全面運轉狀態。
  4. 如申請專利範圍第2項所述之聲音致動系統,其中該語音辨識之該第二狀態為喚醒字語偵測狀態,以及其中該語音辨識經組態成如果該語音辨識引擎辨識該音頻訊號中的至少一喚醒字語,係轉變為全面運轉狀態。
  5. 如申請專利範圍第4項所述之聲音致動系統,其中該語音辨識引擎經組態成如果該語音引擎沒有辨識到該音頻訊號中的至少一喚醒字語,係轉變為該第一狀態。
  6. 如申請專利範圍第4項所述之聲音致動系統,其更包 含:控制模組,其係經組態成致能該語音辨識引擎轉變為該喚醒字語偵測狀態。
  7. 如申請專利範圍第6項所述之聲音致動系統,其中該控制模組係經組態成至少基於使用者的輸入,致能該語音辨識引擎轉變為該喚醒字語偵測狀態。
  8. 如申請專利範圍第1項所述之聲音致動系統,其中該第一級經組態成比較該音頻訊號的能階與該等至少一臨界值中之臨界值。
  9. 如申請專利範圍第1項所述之聲音致動系統,其中該第一級係經組態成比較該音頻訊號的高頻能量/低頻能量比與該等一或更多臨界值中之一臨界值。
  10. 如申請專利範圍第1項所述之聲音致動系統,其中該第二級係經組態成比較時域波形或頻域波形中之至少一者與該至少一預定波形。
  11. 如申請專利範圍第1項所述之聲音致動系統,其中該第二級係經組態成萃取該音頻訊號的特徵以及比較該特徵與該至少一預定波形。
  12. 一種聲音致動方法,其係包含下列步驟:用聲音致動系統的第一級,比較音頻訊號的至少一能量特性與至少一臨界值;如果該音頻訊號滿足該臨界值,則使該聲音致動系統由第一狀態轉變為第二狀態;在該聲音致動系統之該第二級處於該第二狀態 時,用該聲音致動系統之該第二級,比較該音頻訊號之波形的至少一部份與至少一預定波形;以及如果該音頻訊號之波形的該至少一部份實質匹配該至少一預定波形,則使該聲音致動系統的語音辨識引擎由第一狀態轉變為第二狀態。
  13. 如申請專利範圍第12項所述之方法,其中該語音辨識引擎之該第二狀態為全面運轉狀態。
  14. 如申請專利範圍第12項所述之方法,其中該語音辨識之該第二狀態為喚醒字語偵測狀態,該方法更包括:在該語音辨識引擎處於該喚醒字語偵測狀態時,用該語音辨識引擎判斷該音頻訊號中是否存在至少一喚醒字語;以及如果該音頻訊號中存在至少一喚醒字語,則使該語音辨識引擎由該喚醒字語偵測狀態轉變為全面運轉狀態。
  15. 如申請專利範圍第14項所述之方法,其更包含:致能該語音辨識狀態轉變為該喚醒字語偵測狀態。
  16. 如申請專利範圍第12項所述之方法,其中比較音頻訊號之至少一能量特性的步驟包括:比較該音頻訊號的能階與該等至少一臨界值中之臨界值。
  17. 如申請專利範圍第12項所述之方法,其中比較音頻訊號之至少一能量特性的步驟包括: 比較該音頻訊號的高頻能量/低頻能量比與該等一或更多臨界值中之臨界值。
  18. 如申請專利範圍第12項所述之方法,其中比較該音頻訊號之波形之至少一部份的步驟包括:比較時域波形或頻域波形中之至少一者與該至少一預定波形。
  19. 如申請專利範圍第12項所述之方法,其中比較該音頻訊號之波形之至少一部份的步驟包括:萃取該音頻訊號之特徵;以及比較該特徵與該至少一預定波形。
  20. 一種聲音致動系統,其係包含:麥克風,經組態成輸出對應至接收聲波之類比電子訊號;類比數位轉換器,經組態成將該類比電子訊號轉換成數位訊號;第一級,其係經組態成如果該數位訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;第二級,其係經組態成由一待命狀態轉變為全面運轉狀態以回應該第一致動訊號,以及在處於該全面運轉狀態時,如果該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號;以及語音辨識引擎,其係經組態成基於該第二致動訊號由第一狀態轉變為第二狀態。
TW102115391A 2012-06-15 2013-04-30 電能有效型聲音致動 TW201403588A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/524,584 US9142215B2 (en) 2012-06-15 2012-06-15 Power-efficient voice activation

Publications (1)

Publication Number Publication Date
TW201403588A true TW201403588A (zh) 2014-01-16

Family

ID=49756701

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102115391A TW201403588A (zh) 2012-06-15 2013-04-30 電能有效型聲音致動

Country Status (3)

Country Link
US (2) US9142215B2 (zh)
TW (1) TW201403588A (zh)
WO (1) WO2013188007A1 (zh)

Families Citing this family (181)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US10565862B2 (en) * 2012-11-27 2020-02-18 Comcast Cable Communications, Llc Methods and systems for ambient system control
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
KR20150121038A (ko) * 2013-02-27 2015-10-28 오디언스 인코포레이티드 음성 제어식 통신 커넥션
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9202463B2 (en) * 2013-04-01 2015-12-01 Zanavox Voice-activated precision timing
US9530410B1 (en) 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US20140343949A1 (en) * 2013-05-17 2014-11-20 Fortemedia, Inc. Smart microphone device
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US20150031416A1 (en) * 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
WO2015030474A1 (ko) 2013-08-26 2015-03-05 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 방법
WO2015048254A1 (en) * 2013-09-25 2015-04-02 Robert Bosch Gmbh Speech detection circuit and method
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US20150112690A1 (en) * 2013-10-22 2015-04-23 Nvidia Corporation Low power always-on voice trigger architecture
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
ITTO20130910A1 (it) 2013-11-08 2015-05-09 St Microelectronics Srl Dispositivo trasduttore acustico microelettromeccanico con migliorate funzionalita' di rilevamento e relativo apparecchio elettronico
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN104715757A (zh) * 2013-12-13 2015-06-17 华为技术有限公司 一种终端声控操作方法及装置
WO2015094369A1 (en) * 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
WO2015100430A1 (en) 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
US9460735B2 (en) 2013-12-28 2016-10-04 Intel Corporation Intelligent ancillary electronic device
KR102018152B1 (ko) * 2014-03-31 2019-09-04 인텔 코포레이션 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴
KR101933289B1 (ko) 2014-04-01 2018-12-27 애플 인크. 링 컴퓨팅 디바이스를 위한 디바이스 및 방법
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
KR102299330B1 (ko) 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method
FR3030177B1 (fr) 2014-12-16 2016-12-30 Stmicroelectronics Rousset Dispositif electronique comprenant un module de reveil d'un appareil electronique distinct d'un coeur de traitement
US9652017B2 (en) * 2014-12-17 2017-05-16 Qualcomm Incorporated System and method of analyzing audio data samples associated with speech recognition
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US9613626B2 (en) * 2015-02-06 2017-04-04 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10339958B2 (en) * 2015-09-09 2019-07-02 Arris Enterprises Llc In-home legacy device onboarding and privacy enhanced monitoring
US11126525B2 (en) 2015-09-09 2021-09-21 Arris Enterprises Llc In-home legacy device onboarding and privacy enhanced monitoring
US9542941B1 (en) 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US11956503B2 (en) * 2015-10-06 2024-04-09 Comcast Cable Communications, Llc Controlling a device based on an audio input
US10057642B2 (en) 2015-10-06 2018-08-21 Comcast Cable Communications, Llc Controlling the provision of power to one or more devices
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10651827B2 (en) * 2015-12-01 2020-05-12 Marvell Asia Pte, Ltd. Apparatus and method for activating circuits
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
WO2017184169A1 (en) * 2016-04-22 2017-10-26 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106297777B (zh) * 2016-08-11 2019-11-22 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN107767861B (zh) * 2016-08-22 2021-07-02 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018086033A1 (en) * 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
US10079015B1 (en) 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
EP3574499B1 (en) * 2017-01-26 2022-01-05 Cerence Operating Company Methods and apparatus for asr with embedded noise reduction
US10096319B1 (en) * 2017-03-13 2018-10-09 Amazon Technologies, Inc. Voice-based determination of physical and emotional characteristics of users
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10861462B2 (en) 2018-03-12 2020-12-08 Cypress Semiconductor Corporation Dual pipeline architecture for wakeup phrase detection with speech onset detection
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
CN108509225B (zh) 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
EP3811360A4 (en) 2018-06-21 2021-11-24 Magic Leap, Inc. PORTABLE SYSTEM VOICE PROCESSING
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
KR102040406B1 (ko) * 2018-07-27 2019-11-05 (주)휴맥스 스마트 디바이스 및 그 제어 방법
KR102093030B1 (ko) * 2018-07-27 2020-03-24 (주)휴맥스 스마트 디바이스 및 그 제어 방법
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
KR20200059054A (ko) * 2018-11-20 2020-05-28 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN109474879B (zh) * 2018-11-28 2021-06-15 深圳市酷开网络科技股份有限公司 麦克风测试方法、装置及存储介质
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109712621B (zh) * 2018-12-27 2021-03-16 维沃移动通信有限公司 一种语音交互控制方法及终端
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
CN111435593B (zh) * 2019-01-14 2023-08-01 瑞昱半导体股份有限公司 语音唤醒装置及方法
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
WO2020180719A1 (en) 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20220017007A (ko) * 2019-07-01 2022-02-11 엘지전자 주식회사 음성인식 방법 및 그 장치
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
CN110706703A (zh) * 2019-10-16 2020-01-17 珠海格力电器股份有限公司 一种语音唤醒方法、装置、介质和设备
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN112927685A (zh) * 2019-12-06 2021-06-08 瑞昱半导体股份有限公司 动态语音辨识方法及其装置
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN113393865B (zh) * 2020-03-13 2022-06-03 阿里巴巴集团控股有限公司 功耗控制、模式配置与vad方法、设备及存储介质
CN111429901B (zh) * 2020-03-16 2023-03-21 云知声智能科技股份有限公司 一种面向IoT芯片的多级语音智能唤醒方法及系统
US11917384B2 (en) * 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
CN111599352B (zh) * 2020-06-01 2021-03-30 聆感智能科技(深圳)有限公司 语音唤醒方法、装置、计算机设备和存储介质
US11810593B2 (en) * 2020-06-23 2023-11-07 Amazon Technologies, Inc. Low power mode for speech capture devices
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US20220139379A1 (en) * 2020-11-02 2022-05-05 Aondevices, Inc. Wake word method to prolong the conversational state between human and a machine in edge devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112669822B (zh) * 2020-12-16 2022-11-25 爱驰汽车有限公司 音频处理方法、装置、电子设备和存储介质
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
DE69941686D1 (de) * 1999-01-06 2010-01-07 Koninkl Philips Electronics Nv Spracheingabegerät mit aufmerksamkeitsspanne
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
US20030171932A1 (en) * 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
GB2405949A (en) * 2003-09-12 2005-03-16 Canon Kk Voice activated device with periodicity determination
US7418392B1 (en) * 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
US8095081B2 (en) * 2004-04-29 2012-01-10 Sony Ericsson Mobile Communications Ab Device and method for hands-free push-to-talk functionality
US8315865B2 (en) 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
US20070057798A1 (en) * 2005-09-09 2007-03-15 Li Joy Y Vocalife line: a voice-operated device and system for saving lives in medical emergency
KR100744301B1 (ko) * 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
JP4675840B2 (ja) 2006-06-29 2011-04-27 三菱電機株式会社 リモートコントローラ並びに家電機器
WO2010078386A1 (en) 2008-12-30 2010-07-08 Raymond Koverzin Power-optimized wireless communications device
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
JP5039214B2 (ja) * 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
EP2639793B1 (en) * 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US20140122078A1 (en) * 2012-11-01 2014-05-01 3iLogic-Designs Private Limited Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain

Also Published As

Publication number Publication date
US20160086603A1 (en) 2016-03-24
US20130339028A1 (en) 2013-12-19
US9142215B2 (en) 2015-09-22
WO2013188007A1 (en) 2013-12-19

Similar Documents

Publication Publication Date Title
TW201403588A (zh) 電能有效型聲音致動
CN107622770B (zh) 语音唤醒方法及装置
EP3522153B1 (en) Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor
CN111566730B (zh) 低功率设备中的语音命令处理
US9613626B2 (en) Audio device for recognizing key phrases and method thereof
TWI802602B (zh) 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統
KR101770932B1 (ko) 모바일 디바이스용 상시 연결형 오디오 제어
US20170194001A1 (en) Microphone circuit assembly and system with speech recognition
TW202206975A (zh) 具機器學習之低功率環境計算系統
EP2788978B1 (en) Low power integrated circuit to analyze a digitized audio stream
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN111755002B (zh) 语音识别装置、电子设备和语音识别方法
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN105976808A (zh) 一种智能语音识别系统及方法
US11250854B2 (en) Method and apparatus for voice interaction, device and computer-readable storage medium
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
US20210224078A1 (en) Systems and Methods for Generating Wake Signals from Known Users
Wang [Retracted] Audio Signal Acquisition and Processing System Based on Model DSP Rapid Design
TWI748587B (zh) 聲音事件偵測系統及方法
US20240062756A1 (en) Systems, methods, and devices for staged wakeup word detection
CN107909996B (zh) 语音辨识方法以及电子装置
EP3836137A1 (en) Electronic apparatus and controlling method therefor
CN117594049A (zh) 用于利用持续学习的唤醒词检测的系统、方法和装置
CN110580908A (zh) 一种支持不同语种的命令词检测方法及设备