TW201403588A - 電能有效型聲音致動 - Google Patents
電能有效型聲音致動 Download PDFInfo
- Publication number
- TW201403588A TW201403588A TW102115391A TW102115391A TW201403588A TW 201403588 A TW201403588 A TW 201403588A TW 102115391 A TW102115391 A TW 102115391A TW 102115391 A TW102115391 A TW 102115391A TW 201403588 A TW201403588 A TW 201403588A
- Authority
- TW
- Taiwan
- Prior art keywords
- state
- audio signal
- speech recognition
- stage
- waveform
- Prior art date
Links
- 230000004913 activation Effects 0.000 title abstract 6
- 230000005236 sound signal Effects 0.000 claims abstract description 89
- 230000007704 transition Effects 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本發明提供一種聲音致動系統。該聲音致動系統包括:第一級,其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;以及第二級,其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號,以及在處於該第二狀態時,若是該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號。
Description
描述於本文之具體實施例大體有關於基於接收語音訊號所觸發的致動系統。
語音辨識系統經常包含語音辨識引擎,其係比較部份接收訊號與儲存資訊以判斷使用者對著裝置說什麼。這些語音辨識系統中之一些被設計成在任何時間能夠回應使用者的語音。結果,語音辨識引擎必須一直保持有作用(active)使得它可監視語音的周遭環境。
由於經常在語音辨識引擎的大部份時間不會收到語音,因此,語音辨識引擎在監視周遭環境時會浪費電力。特別是,在常常以電池供電的無線及行動裝置中,電力的浪費為系統設計人員的重大關注。
有些語音辨識引擎的省電是藉由以多狀態裝置來操作。在處於低功率狀態時,語音辨識引擎只用足夠的電力來偵測先前已指定為觸發子(trigger)的某些特定字語。一旦偵測到該等字語中之一個,語音辨識引擎便轉變為全面運轉狀態(fully-operational state),此時它可辨識字語的完整詞彙。雖然多狀態實作提供一些省電,然而這
經常只是溫和的節省,因為辨識字語之完整詞彙所需組件有許多也需要偵測指定為觸發子的特定字語。因此,即使處於低功率狀態,這些組件仍須保持有作用。
描述於本文之具體實施例包括用於聲音致動的方法、系統及電腦可讀取媒體。在具體實施例中,提供一種聲音致動系統。該聲音致動系統包括:第一級,其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;以及第二級,其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號,以及在處於該第二狀態時,若是該音頻訊號之波形(profile)的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號。
在另一具體實施例中,提供一種聲音致動方法。該方法包括:用聲音致動系統的第一級,比較音頻訊號的至少一能量特性與至少一臨界值;如果該音頻訊號滿足該臨界值,則使該聲音致動系統由該第一狀態轉變為該第二狀態;在該聲音致動系統之該第二級處於該第二狀態時,用該聲音致動系統之該第二級,比較該音頻訊號之波形的至少一部份與至少一預定波形;以及如果該音頻訊號之波形的該至少一部份實質匹配該至少一預定波形,則使該聲音致動系統的語音辨識引擎由第一狀態轉變為第二狀態。
在又一具體實施例中,提供一種聲音致動
系統。該聲音致動系統包括:麥克風,經組態成輸出對應至接收聲波之類比電子訊號;類比數位轉換器,經組態成將該類比電子訊號轉換成數位訊號;第一級,其係經組態成如果該數位訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;第二級,其係經組態成可由待命狀態轉變為全面運轉狀態以回應該第一致動訊號,以及在處於該全面運轉狀態時,如果該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號;以及語音辨識引擎,其係經組態成基於該第二致動訊號由第一狀態轉變為第二狀態。
由以下的詳細說明可明白以上及其他的優
點及特徵。應注意,【發明內容】及【發明摘要】係闡述被本發人想到的一或更多而不是所有的本發明具體實施例。
100‧‧‧習知語音辨識系統
102‧‧‧麥克風
104‧‧‧類比數位(A/D)轉換器
106‧‧‧語音辨識引擎
200‧‧‧聲音致動系統
202‧‧‧麥克風
204‧‧‧類比/數位轉換器
206‧‧‧第一級
208‧‧‧第二級
210‧‧‧第三級
212‧‧‧控制模組
300‧‧‧曲線
400‧‧‧曲線
402,404‧‧‧預定義臨界值
430‧‧‧顯示單元
500‧‧‧第二級
502‧‧‧時間及/或頻率分析模組
504‧‧‧喚醒判斷模組
600‧‧‧示範曲線
700‧‧‧第二級
702‧‧‧特徵萃取模組
704‧‧‧模版匹配模型
706‧‧‧事件鑑定模組
800‧‧‧第三級
802‧‧‧控制模組
804‧‧‧語音辨識引擎
806‧‧‧聲學模型
808‧‧‧關鍵字語發現文法模組
900‧‧‧流程圖
902‧‧‧把音頻訊號轉換成電子訊號
904‧‧‧把類比電子訊號轉換成數位訊號
906‧‧‧比較接收訊號的能量特性(s)與預定臨界值(s)
908‧‧‧有效致動?
910‧‧‧結束
912‧‧‧使第二級由第一狀態轉變為第二狀態
914‧‧‧比較音頻訊號之波形的至少一部份與至少一預定波形
916‧‧‧有效致動?
918‧‧‧結束
920‧‧‧喚醒字語判斷狀態致能?
922‧‧‧語音引擎轉變為電力全開狀態
924‧‧‧語音引擎轉變為喚醒字語偵測狀態
926‧‧‧接收音頻訊號中存在喚醒字語?
928‧‧‧結束
930‧‧‧語音引擎轉變為全面運轉狀態
1000‧‧‧狀態圖
1002‧‧‧待命狀態
1004‧‧‧喚醒字語判斷狀態
1006‧‧‧全面運轉狀態
1100‧‧‧示範電腦系統
1102‧‧‧顯示介面
1104‧‧‧處理器裝置
1106‧‧‧通訊基礎建設
1108‧‧‧主記憶體
1110‧‧‧次級記憶體
1112‧‧‧硬碟驅動器
1114‧‧‧可移除儲存驅動器
1118‧‧‧可移除儲存單元
1120‧‧‧介面
1122‧‧‧可移除儲存單元
1124‧‧‧通訊介面
1126‧‧‧通訊路徑
併入本文及形成本專利說明書之一部份的附圖係圖解說明本發明以及進一步與說明一起用來解釋本發明的原理以及使得熟諳此藝者可做出及使用本發明。
第1圖為習知語音辨識系統的方塊圖。
第2圖根據本發明之具體實施例圖示聲音致動系統的方塊圖。
第3圖及第4圖的曲線根據本發明的具體實施例圖示第一級的示範操作。
第5圖根據本發明之具體實施例圖示第二級的方塊圖。
第6圖的示範曲線根據本發明之具體實施
例圖示示範波形。
第7圖根據本發明之具體實施例圖示第二
級的方塊圖。
第8圖根據本發明之具體實施例圖示耦合
至控制模組之第三級的方塊圖。
第9圖根據本發明之具體實施例圖示提供
用於聲音致動方法之示範步驟的流程圖。
第10圖的狀態圖根據本發明之具體實施例
圖示語音辨識引擎的操作。
第11圖圖示示範電腦系統,其中聲音致動
系統或其一部份的具體實施例可實作成為電腦可讀取代碼。
此時參考附圖來描述本發明。附圖中,相
同或功能類似的元件大體用相同的元件符號表示。另外,元件符號最左邊的數字(或數個)大體為首先出現該元件符號的附圖編號。
應瞭解,旨在用來解釋申請專利範圍的是
【實施方式】,而不是【發明內容】與【發明摘要】。【發明內容】與【發明摘要】係闡述本發明人可想到的一或更多但不是所有的本發明示範具體實施例,因而不是想要以任何方式來限定本發明及其申請專利範圍。
第1圖為習知語音辨識系統100的方塊
圖。語音辨識系統100包含麥克風102、類比數位(A/D)轉換器104、及語音辨識引擎106。如第1圖所示,麥克風102接收聲波以及輸出對應電子訊號給類比/數位轉換器104。類比/數位轉換器104把接收訊號由類比訊號轉換為數位訊號。
語音辨識引擎106接收由類比/數位轉換器104輸出的訊號。語音辨識引擎106經組態成可辨識存在於接收數位訊號之中的一或更多字語。例如,語音辨識引擎106可載入聲學模型(acoustic model)及關鍵字語(keyword)或文法發現網路(grammar spotting network)的程式館(library),以判斷接收數位訊號中是否存在一或更多字語。例如,語音辨識引擎106可比較部份的數位訊號與表示特定字語(或數個)的一或更多聲學模型,以判斷接收訊號中是否存在某些字語。語音辨識引擎106可用軟體在處理器上實現。替換地,語音辨識引擎106可用數位訊號處理器(DSP)或可編程硬體(例如,現場可程式閘陣列(FPGA))實現。
在一具體實作中,麥克風102、類比/數位轉換器104及語音辨識引擎106各自可實作成為獨立的模組或積體電路(IC)裝置封裝件(例如,經由印刷電路板(PCB)耦合者)。替換地,麥克風102、類比/數位轉換器104及語音辨識引擎106中之一或更多可一起實作於單一模組或IC裝置封裝件中。
雖然語音辨識引擎系統100可監視周遭環
境以及辨識在任何時間被麥克風102收到之語音中的字語,但此操作通常要求語音辨識系統100以全功率運行。
特別是,語音辨識系統100的所有組件必須一直在運行,使得它可辨識及回應在任何時間收到的語音訊號。語音辨識系統100在沒有收到語音訊號時所花掉的功率會被浪費掉。浪費掉的功率為系統設計人員的重大關切,特別是經常是以電池來供電的無線或行動系統。
在一替代具體實作中,語音辨識引擎106可為多狀態裝置。在此實作中,語音辨識引擎106初始保持在低功率狀態,此時其係企圖識別接收音頻訊號內的特定預定字語。如果識別訊號中有該等特定字語,則語音辨識引擎106轉變為全面運轉狀態。在處於全面運轉狀態時,語音辨識引擎106可辨識字語的完整詞彙。雖然此實作減少被語音辨識系統100浪費掉的功率,然而這只是溫和地減少,因為即使在低功率狀態下,語音辨識引擎106中仍有許多耗電組件保持通電。
類似概念可在某些無線或行動裝置中實現。例如,此一裝置初始可保持在低功率狀態,但是讓特定的組件集合仍有作用。這些組件用來分析接收封包的前文及/或酬載(payload),以判斷是否使裝置轉變為所有組件都有作用的全面運轉狀態。例如,實現該等裝置可根據IEEE 802.11標準。雖然這些裝置減少被浪費掉的功率,然而它們用無線傳送器要求使用者來觸發裝置。
在描述於本文的具體實施例中,提供一種
電能有效型聲音致動系統。該聲音致動系統可為多級式。
各級致動下一級使得最耗電裝置的有作用時間最少。在一具體實施例中,第一級可為比較接收音頻訊號之能量特性(或數個)與一或更多個別預定臨界值的能量比較器。如果符合或超過該等預定臨界值,第一級可致動第二級以分析接收訊號之波形的至少一部份以判斷是否為聲音致動系統的有效觸發子。在另一具體實施例中,只需要有能量偵測作用的第一級監視潛在語音訊號的周遭,從而比習知系統更省電。
第2圖根據本發明之具體實施例圖示聲音致動系統200的方塊圖。聲音致動系統200包含麥克風202、類比/數位轉換器204、第一級206、第二級208和第三級210、以及控制模組212。麥克風202與類比/數位轉換器204可實質類似於語音辨識系統100中在說明第1圖時提及的麥克風102與A/D 104。
第一級206由類比/數位轉換器204接收數位版的接收音頻訊號。在一具體實施例中,第一級206經組態成可分析接收音頻訊號的至少一能量特性以判斷接收訊號是否包含語音。例如,第一級206可經組態成可比較接收音頻訊號的一或更多能量特性與一或更多個別臨界值。如果接收音頻訊號的能量特性符合或超過該一或更多臨界值,則第一級206輸出致動第二級208的第一致動訊號。在這樣做時,第一級206監視周遭環境以判斷是否收到語音訊號。
在一具體實施例中,第一級206一直在運行。不過,如以下所詳述的,與聲音致動系統200的其餘部份相比,第一級206消耗相對少的功率。因此,第一級206的一直運行不會導致大量的功率被聲音致動系統200浪費掉。以外用第3圖及第4圖進一步描述第一級206的示範操作。
第二級208接收第一級206所輸出的第一致動訊號。在一具體實施例中,第二級208可為多狀態裝置。
例如,第二級208可具有至少兩種狀態。第二級208的第一狀態可為第二級208中只有辨識第一致動訊號所需組件保持有作用的待命狀態。一旦收到第一致動訊號,第二級208可轉變為第二狀態。例如,第二狀態可為全面運轉狀態。
在處於全面運轉狀態時,第二級208可經組態成可分析接收音頻訊號的至少一波形以判斷訊號中是否存在“喚醒”字語。喚醒字語為聲音致動系統200視為觸發子而導致整個語音辨識引擎被致動的字語。例如而不是限定,可預定字語“在…上”、“致動”及“喚醒”為致動的有效觸發子。例如,當第二級208處於電力全開狀態(fully-powered state)時,第二級208可比較接收音頻訊號的至少一部份波形與均為喚醒字語的一或更多預定義波形。
如果接收音頻訊號分別與至少一預定波形實質匹配,則第二級208可輸出第二致動訊號。以下用第6圖至第8圖詳述第二級208的示範操作。
第三級210接收由第二級208輸出的第二致動訊號。在一具體實施例中,第三級210包含語音辨識引擎。在另一具體實施例中,語音辨識引擎可為多狀態裝置。
例如,語音辨識引擎的第一狀態可為只有辨識第二致動訊號所需組件保持有作用的待命狀態。一旦收到第二致動訊號,語音辨識引擎可轉變為全面運轉狀態。在處於全面運轉狀態時,語音辨識引擎能夠辨識接收音頻訊號內之字語的完整詞彙。因此,在此具體實施例中,第二致動訊號用作致動語音辨識引擎的觸發子。不過,可能想要提供有更高精度的喚醒字語辨識。例如,會在容易誤判為否定(false negative)或誤判為肯定(false positive)之環境中的系統可受益於更精確的喚醒字語偵測。
在一具體實施例中,語音辨識引擎反而基於第二致動訊號由待命狀態轉變為喚醒字語偵測狀態。在處於喚醒字語偵測狀態時,語音辨識引擎可經組態成可特別辨識音頻訊號中的喚醒字語。在這樣做時,只載入辨識喚醒字語所需之聲學、關鍵字語及/或文法模型的集合。此外,由於放置較少的模型,因此,辨識功能可消耗較少電力,這是因為需要進行較少的接收音頻訊號與不同模型之比較。因此,與全面運轉狀態相比,語音辨識引擎在處於喚醒字語偵測狀態時可使用較少的功率。在另一具體實施例中,語音辨識引擎可經組態成根據音頻訊號內是否有喚醒字語的辨識,可由喚醒字語偵測狀態轉變為待命狀態或者是全面運轉狀態。特別是,如果確定接收音頻訊號中存
在喚醒字語,則語音辨識引擎可轉變為全面運轉狀態。如果沒有,則語音辨識引擎可轉變為待命狀態。以下在說明第8圖及第10圖時,會詳述第三級210的操作。
因此,在一具體實施例中,系統200有3級,其中只有第一級206一直在運行。因為與級208及210相比,第一級206為相對低功率的裝置,因此,系統200可提供優於習知系統的實質省電。例如,在一具體實施例中,以級206-210各自在處於全面運轉狀態時所使用的總功率為分母,第一級206可使用約百分之5的總功率,第二級208可使用約百分之20,而第三級210可使用約百分之75。因此,藉由確保最耗電裝置(亦即,第三級210)的有作用時間最少,系統200能夠提供顯著的省電。
第3圖根據本發明之一具體實施例圖示描繪第一級之示範操作的曲線300。如第3圖的示範具體實施例所示,第一級可為能量比較器,其係比較接收音頻訊號的能階(energy level)與預定義臨界值。例如,如第3圖所示,一旦接收音頻訊號能階到達E*,第一級的輸出便由邏輯0切換到邏輯1。在第3圖的具體實施例中,邏輯1的輸出可用作第一致動訊號。
第4圖根據本發明之另一具體實施例圖示描繪第一級之另一示範操作的曲線400。在圖示於第4圖的具體實施例中,第一級分析接收音頻訊號的高頻能量/低頻能量比。在另一具體實施例中,第一級可儲存一對預定義臨界值402及404。當該能量比在臨界值402及404
之間時,第一級可輸出第一致動訊號。臨界值402及404的範圍可為常見語音訊號的能量比。因此,當接收音頻訊號的能量比落在此範圍外時,第一級206可判斷接收音頻訊號不是語音訊號,因而第一級208不輸出第一致動訊號。因此,第3圖及第4圖圖示觸發第一級206以輸出第一致動訊號的不同方式。在第3圖中,能階用作觸發子,而在第4圖中,高頻能量/低頻能量比用作觸發子。
在另一具體實施例中,第一級可使用圖示於第3圖及第4圖之觸發子的組合。例如,接收音頻訊號可能需要滿足包含於第3圖及第4圖用於第一級206的臨界值以產生致動訊號。
第5圖根據本發明之一具體實施例圖示第二級500的示範方塊圖。第二級500包含時間及/或頻率分析模組502與喚醒判斷模組504。在一具體實施例中,時間及/或頻率分析模組502可計算接收音頻訊號的時域及/或頻域波形。例如,接收音頻訊號的時域波形可圖示成振幅隨著時間改變的音頻訊號曲線。此外,時間及/或頻率分析模組502藉由計算時域波形的全時間傅立葉轉換可產生頻域波形。
第6圖為根據本發明之一具體實施例圖示示範波形的示範曲線600。在第6圖的實施例中,時域及/或頻域分析模組502可計算接收音頻訊號的時域及頻域分析。因此,曲線600顯示3個變數:振幅、頻率及時間。時域及/或頻域分析模組502輸出算出的波形給喚醒判斷模
組504。
喚醒判斷模組504可比較接收波形與一或更多預定波形。在一具體實施例中,喚醒判斷模組504基於預定波形的比較可判斷接收音頻訊號是否包含語音。特別是,藉由比較接收波形與先前已產生的波形,喚醒判斷模組504可判斷接收音頻訊號是否包含語音。該等預定波形的產生可基於與語音有關的模型建立及/或實驗結果。另外,喚醒判斷模組504也可判斷音頻訊號是否包含一或更多喚醒字語。例如,喚醒判斷模組504可比較接收波形的至少一部份與已知喚醒字語的波形。如果音頻訊號包含聲音或語音及/或一或更多喚醒字語,則喚醒判斷模組504輸出第二致動訊號,例如,邏輯1。
第7圖根據本發明之另一具體實施例圖示第二級700的方塊圖。第二級702包含特徵萃取模組702、模版匹配模型704、以及事件鑑定模組706。特徵萃取模組702經組態成可以頻域呈現接收音頻訊號。例如而不是限定,特徵萃取模組702可計算接收音頻訊號的梅爾頻標倒頻譜參數(mel-frequency cepstrum coefficients,MFCC)。由於這個處理,特徵萃取模組702可用該等係數確定構成該MFC的MFCC。然後,該等係數可輸出至模版匹配模組704。模版匹配模組704可匹配接收係數與表示語音訊號的一或更多波形。例如,模版匹配模組704可匹配接收係數與已知喚醒字語的係數。
在另一具體實施例中,模版匹配模組704
可實施維特比解碼法(Viterbi decoding scheme)。藉由應用維特比解碼法於接收音頻訊號,模版匹配模組704可識別存在於音頻訊號之中的一或更多喚醒字語。模版匹配模組704輸出模版匹配操作的結果給事件鑑定模組706。
基於接收自模版匹配模組704的結果,事件鑑定模組706鑑定接收音頻訊號是否包含一或更多喚醒字語。如果是,則事件鑑定模組706輸出第二致動訊號給第三級210。
第8圖根據本發明之一具體實施例圖示耦合至控制模組802之第三級800的方塊圖。第三級800包含接收聲學模型806及關鍵字語發現文法模組808的語音辨識引擎804。語音辨識引擎804經組態成可辨識內含於接收音頻訊號的字語。如上述,根據本文所描述的語音辨識引擎可為多狀態裝置。例如,在一具體實施例中,語音辨識引擎804能夠根據3種狀態來操作:(1)待命狀態,(2)喚醒字語偵測狀態,以及(3)全面運轉狀態。
第10圖為圖示語音辨識引擎804之操作的狀態圖1000。在處於待命狀態1002時,語音辨識引擎804只有使辨識第二致動訊號所需要的足夠組件有作用。因此,在處於待命狀態時,語音辨識引擎804可使用最少的電力。一旦由第二級收到第二致動訊號,語音辨識引擎804便基於控制模組802所輸出的控制訊號,而轉變為喚醒字語判斷狀態1004或者是全面運轉狀態1006。在處於喚醒字語判斷狀態1004時,語音辨識引擎804只載入聲學模型
806與關鍵字語發現模型808,而且只進行特別辨識喚醒字語所需的比較。當特定模型已載入時,處於喚醒字語偵測狀態1004的語音辨識引擎804可判斷接收音頻訊號內是否存在一或更多喚醒字語。若有的話,則語音辨識引擎804可轉變為全面運轉狀態1006,其中語音辨識引擎載入能夠辨識完整詞彙中之字語的所有聲學模型806及發現全功能文法模組808。若沒有,則語音辨識引擎804轉變回到待命狀態1002。在一具體實施例中,一旦語音辨識引擎804進入全面運轉狀態1006,它保持在此狀態直到特定功能完成及/或經過預定的時間。
控制模組802經組態成可輸出致能語音辨識引擎804進入喚醒判斷狀態1004的控制訊號。在一具體實施例中,控制模組802可基於各種因素來判斷是否致能語音辨識引擎804進入喚醒字語判斷狀態1004。例如,至少部份基於使用者的輸入,控制模組802可輸出控制訊號。在此一具體實施例中,使用者在操作期間可控制語音辨識引擎804是否進入喚醒字語偵測狀態1004。
控制模組802為視需要。在第三級800不包含控制模組802的具體實施例中,可設計時可確定關於語音辨識引擎804是否能夠進入喚醒字語偵測狀態的判斷。
例如,在設計時,可大體確定裝置會使用的狀態種類。因此,可預先決定致能喚醒字語判斷狀態是否恰當。例如,可將某些裝置設計成可用於吵雜的環境(例如,設計成可用於戶外的玩具)。由於這種環境容易發生誤判為肯定,因此
可預先決定應致能喚醒字語偵測。另一方面,例如,如果可將裝置設計成可用於安靜的環境,致能喚醒字語偵測狀態可能不適合。
因此,在第8圖的具體實施例中,語音辨識引擎804可達成兩個目的。語音辨識引擎804可用來準確地檢查是否已實際接收包含喚醒字語的音頻訊號以及也可用來辨識字語的完整詞彙。
第9圖根據本發明之一具體實施例圖示提供聲音致動方法之示範步驟的流程圖900。熟諳此藝者基於以下說明可明白其他的結構及操作具體實施例。圖示於第9圖的步驟不一定以圖示的順序出現。以下詳述第9圖的步驟。
在步驟902,將接收音頻訊號轉換成電子訊號。例如,在第2圖中,麥克風202可以把接收聲波轉換成電子訊號。
在步驟904,將類比電子訊號轉換成數位訊號。例如,在第2圖中,類比/數位轉換器204可以把接收類比電子訊號轉換成數位訊號。
在步驟906,可比較接收訊號的一或更多能量特性與各個預定臨界值。例如,在第2圖中,第一級206可比較接收音頻訊號的一或更多能量特性與各個預定臨界值。例如,第一級206可分析接收音頻訊號的能階以及比較該能階與預定臨界值,例如,如第3圖所示。另外或替換地,第一級206可比較接收音頻訊號的高頻能量/低頻能
量比與一或更多臨界值以判斷接收音頻訊號是否為聲音訊號,例如,如第4圖所示。
在步驟908,判斷接收音頻訊號的一或更多能量特性是否為有效致動。例如,第一級206可在接收訊號的能階超過臨界值及/或其高頻能量/低頻能量比落在預定範圍內的情況下,判斷接收訊號是否包含語音。如果已接收有效致動,則第一級206可輸出第一致動訊號,並且流程圖900前進到步驟912。如果不是,則流程圖900在步驟910結束。
在步驟912,使第二級由第一狀態轉變為第二狀態。例如,在第2圖中,第二級208可由待命狀態轉變為運轉狀態以回應第一級206所輸出的第一致動訊號。
在步驟914,比較音頻訊號的至少一部份波形與至少一預定波形。例如,在第2圖中,第二級208可比較接收音頻訊號的至少一部份與至少一預定波形。例如,第二級208可計算接收音頻訊號的時域及/或頻域波形以及拿它與預定時域及/或頻域波形做比較。另外或替換地,第二級208可由該至少一部份音頻訊號萃取MFCC以及拿這些係數與預定波形(或數個)做比較。
在步驟916,判斷音頻訊號的波形至少有一部份產生有效致動。例如,有效致動可為該至少一部份波形與預定波形匹配。如果該音頻訊號的該至少一部份波形不產生有效致動,則流程圖900在步驟918結束。另一方面,如果確定有有效致動,則流程圖900前進到步驟920。
在步驟920,判斷語音辨識引擎的喚醒字語判斷狀態是否致能。若否,則流程圖900前進到步驟922,而語音辨識引擎轉變為電力全開狀態。若如此,則在步驟924,語音辨識引擎轉變為喚醒字語偵測狀態。例如,如在說明第8圖時所述,藉由輸出控制訊號給語音辨識引擎804,控制模組802可致能語音辨識引擎804進入喚醒字語判斷狀態。
在步驟926,判斷接收音頻訊號中是否存在一或更多喚醒字語。例如,在第8圖中,語音辨識引擎804可判斷接收音頻訊號中是否存在一或更多喚醒字語。如果沒有,則流程圖900在步驟928結束。另一方面,如果接收音頻訊號中存在一或更多喚醒字語,則流程圖900前進到步驟930。在步驟930,語音辨識引擎轉變為全面運轉狀態。例如,在第8圖中,如果語音辨識引擎804判斷接收音頻訊號中存在一或更多喚醒字語,則語音辨識引擎804可轉變為全面運轉狀態,此時語音辨識引擎804可辨識字語中的完整詞彙。
第11圖圖示示範電腦系統1100,其中提供整合行動伺服器應用或彼之一部份的系統具體實施例可實作成為電腦可讀取代碼。例如,第二級208及/或第三級210在電腦系統1100中的實現可用硬體、軟體、韌體、有指令儲存於其上的有形電腦可讀取儲存媒體或彼等之組合,以及可在一或更多電腦系統或其他處理系統中實現。硬體、軟體或兩者之任何組合可具體化第2圖、第5圖及第7圖
至第10圖的模組、程序及組件中之任一者。
如果使用可編程邏輯,則該邏輯可在通售處理平台或專用設備上執行。本技藝一般技術人員明白,所揭示之專利標的的具體實施例可用各種電腦系統組態實施,包括多核心多處理器系統、迷你電腦、主機電腦、與分散功能鏈結或成叢集的電腦,以及可虛擬嵌入任何裝置的普及或微型電腦。
例如,有至少一處理器裝置及記憶體的計算裝置可用來實現上述具體實施例。處理器裝置可為單一處理器、多個處理器、彼等之組合。處理器裝置可具有一或更多處理器”核心”。
本發明的各種具體實施例系基於示範電腦系統1100來描述。在閱讀此描述後,熟諳此藝者會明白如何用其他電腦系統及/或電腦架構來實現本發明。雖然操作可被描述成順序處理,操作中之一些事實上可並行、同時及/或在分散環境中執行,以及程式碼儲存於本地或遠端供單一或多處理器機器存取。此外,在有些具體實施例中,可重排操作的順序而不脫離所揭示之專利標的的精神。
熟諳此藝者應瞭解,處理器裝置1104也可為多核心/多處理器系統中的單一處理器,該系統係單獨操作,或在叢集或伺服器群中操作的計算裝置叢集。處理器裝置1104連接至通訊基礎建設1106,例如,例如匯流排、訊息佇列、網路、或多核心訊息傳遞機制。
電腦系統1100也包含主記憶體1108,例
如,隨機存取記憶體(RAM),以及也可包含次級記憶體1110。次級記憶體1110可包含,例如,硬碟驅動器1112、可移除儲存驅動器1114。可移除儲存驅動器1114可包括軟碟、磁帶機、光碟機、快閃記憶體、或其類似物。可移除儲存驅動器1114以習知方式讀及/或寫可移除儲存單元1118。可移除儲存單元1118可包括被可移除儲存驅動器1114讀寫的軟碟、磁帶機、光碟機、等等。熟諳此藝者應瞭解,可移除儲存單元1118包括有電腦軟體及/或資料儲存於其中的電腦可使用儲存媒體。
電腦系統1100(視需要)包含顯示介面1102(它可包含輸入/輸出裝置,例如鍵盤、滑鼠等等),其係饋送來自通訊基礎建設1106(或未圖示的視框緩衝器)的圖形、文字及其他資料供顯示於顯示單元430上。
在替代實作中,次要存儲器1110可包含其他類似構件以允許電腦程式或其他指令載入電腦系統1100。此類構件可包含,例如,可移除儲存單元1122與介面1120。此類構件的實施例可包含程式匣(program cartridge)與匣介面(例如,出現於視頻遊戲裝置之中者),可移除記憶體晶片(例如,EPROM或PROM)及相關插座,以及允許軟體及數據由可移除儲存單元1122傳輸至電腦系統1100的其他可移除儲存單元1122及介面1120。
電腦系統1100也可包含通信介面1124。通信介面1124允許軟體及資料在電腦系統1100、外部裝置之間傳輸。通信介面1124可包含數據機、網絡介面(例如,
乙太網路卡)、通信埠、PCMCIA插槽及卡、或其類似物。經由通信介面1124傳輸之軟體及資料的訊號形式可為能夠被通信介面1124收到的電子、電磁、光學或其他訊號。該等訊號系經由通信路徑1126提供給通信介面1124。通信路徑1126攜載訊號而且可用電線或纜線、光纖、電話線、行動電話鏈路、紅外線鏈路或其他通信頻道實現。
在本文,術語”電腦程式媒體”及”電腦可使用媒體”大體用來指稱諸如可移除儲存單元1118、可移除儲存單元1122及裝入硬碟驅動器1112的硬碟之類的媒體。電腦程式媒體及電腦可使用媒體也可稱為記憶體,例如可為記憶半導體(例如,DRAM等)的主記憶體1108及次級記憶體1110。
電腦程式(也被稱作電腦控制邏輯)係儲存於主記憶體1108及/或次級記憶體1110中。也可經由通訊介面1124來接收電腦程式。該等電腦程式在執行時使得電腦系統1100可實作本發明,如本文所述。特別是,該等電腦程式在執行時使得處理器裝置1104可實現本發明的方法,例如第4圖及第5圖之流程圖所圖示之方法的級。因此,該等電腦程式為電腦系統1100的控制器。在本發明用軟體實現時,該軟體可儲存於電腦程式產品以及用可移除儲存驅動器1114、介面1120以及硬碟驅動器1112、或通訊介面1124載入電腦系統1100。
本發明的具體實施例也針對包含儲存於任何電腦可使用媒體上之軟體的電腦程式產品。該等軟體在
一或更多數據處理裝置中執行時造成數據處理裝置(或數個)可以本文所述的方式操作。本發明的具體實施例利用任何電腦可使用或可讀取媒體。電腦可使用媒體的實施例包含(但不受限於):主要儲存裝置(例如,任何類型的隨機存取記憶體),次要儲存裝置(例如,硬盤、軟盤、CD ROMS、抽取磁盤(ZIP disk)、磁帶、磁性儲存裝置、及光學儲存裝置、MEMS、奈米技術儲存裝置、等等)、以及通信媒體(例如,有線及無線通信網絡、局域網、廣域網、企業內網絡、等等)。
以上已藉助圖解說明特定功能及其關係之具體實作的功能建立區塊(functional building block)來說明本發明。該等功能建立區塊的邊界係任意定義以便說明。
只要可適當地執行該等特定功能及其關係,可定義替代邊界。
前面特定具體實施例的描述將完整地揭露本發明的一般性質,以致於他者藉由應用本技藝的知識,在不需過度實驗下,可輕易修改該等特定具體實施例及/或改造成可用於各種應用系統,而不脫離本發明的一般概念。因此,希望基於本文提出的教導及指導的此類改造及修改都落在揭示具體實施例的等價意思及範圍內。應瞭解,本文的用語或術語是用來說明而不是限制,使得熟諳此藝者可按照該等教導及指導來解釋本專利說明書的用語或術語。
900‧‧‧流程圖
902‧‧‧把音頻訊號轉換成電子訊號
904‧‧‧把類比電子訊號轉換成數位訊號
906‧‧‧比較接收訊號的能量特性(s)與預定臨界值(s)
908‧‧‧有效致動?
910‧‧‧結束
912‧‧‧使第二級由第一狀態轉變為第二狀態
914‧‧‧比較音頻訊號之波形的至少一部份與至少一預定波形
916‧‧‧有效致動?
918‧‧‧結束
920‧‧‧喚醒字語判斷狀態致能?
922‧‧‧語音引擎轉變為電力全開狀態
924‧‧‧語音引擎轉變為喚醒字語偵測狀態
926‧‧‧接收音頻訊號中存在喚醒字語?
928‧‧‧結束
930‧‧‧語音引擎轉變為全面運轉狀態
Claims (20)
- 一種聲音致動系統,其係包含:第一級,其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;以及第二級,其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號,以及在處於該第二狀態時,若是該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號。
- 如申請專利範圍第1項所述之聲音致動系統,其更包含:語音辨識引擎,其係耦合至該第二級以及經組態成基於該第二致動訊號而由第一狀態轉變為第二狀態。
- 如申請專利範圍第2項所述之聲音致動系統,其中該語音辨識引擎之該第二狀態為全面運轉狀態。
- 如申請專利範圍第2項所述之聲音致動系統,其中該語音辨識之該第二狀態為喚醒字語偵測狀態,以及其中該語音辨識經組態成如果該語音辨識引擎辨識該音頻訊號中的至少一喚醒字語,係轉變為全面運轉狀態。
- 如申請專利範圍第4項所述之聲音致動系統,其中該語音辨識引擎經組態成如果該語音引擎沒有辨識到該音頻訊號中的至少一喚醒字語,係轉變為該第一狀態。
- 如申請專利範圍第4項所述之聲音致動系統,其更包 含:控制模組,其係經組態成致能該語音辨識引擎轉變為該喚醒字語偵測狀態。
- 如申請專利範圍第6項所述之聲音致動系統,其中該控制模組係經組態成至少基於使用者的輸入,致能該語音辨識引擎轉變為該喚醒字語偵測狀態。
- 如申請專利範圍第1項所述之聲音致動系統,其中該第一級經組態成比較該音頻訊號的能階與該等至少一臨界值中之臨界值。
- 如申請專利範圍第1項所述之聲音致動系統,其中該第一級係經組態成比較該音頻訊號的高頻能量/低頻能量比與該等一或更多臨界值中之一臨界值。
- 如申請專利範圍第1項所述之聲音致動系統,其中該第二級係經組態成比較時域波形或頻域波形中之至少一者與該至少一預定波形。
- 如申請專利範圍第1項所述之聲音致動系統,其中該第二級係經組態成萃取該音頻訊號的特徵以及比較該特徵與該至少一預定波形。
- 一種聲音致動方法,其係包含下列步驟:用聲音致動系統的第一級,比較音頻訊號的至少一能量特性與至少一臨界值;如果該音頻訊號滿足該臨界值,則使該聲音致動系統由第一狀態轉變為第二狀態;在該聲音致動系統之該第二級處於該第二狀態 時,用該聲音致動系統之該第二級,比較該音頻訊號之波形的至少一部份與至少一預定波形;以及如果該音頻訊號之波形的該至少一部份實質匹配該至少一預定波形,則使該聲音致動系統的語音辨識引擎由第一狀態轉變為第二狀態。
- 如申請專利範圍第12項所述之方法,其中該語音辨識引擎之該第二狀態為全面運轉狀態。
- 如申請專利範圍第12項所述之方法,其中該語音辨識之該第二狀態為喚醒字語偵測狀態,該方法更包括:在該語音辨識引擎處於該喚醒字語偵測狀態時,用該語音辨識引擎判斷該音頻訊號中是否存在至少一喚醒字語;以及如果該音頻訊號中存在至少一喚醒字語,則使該語音辨識引擎由該喚醒字語偵測狀態轉變為全面運轉狀態。
- 如申請專利範圍第14項所述之方法,其更包含:致能該語音辨識狀態轉變為該喚醒字語偵測狀態。
- 如申請專利範圍第12項所述之方法,其中比較音頻訊號之至少一能量特性的步驟包括:比較該音頻訊號的能階與該等至少一臨界值中之臨界值。
- 如申請專利範圍第12項所述之方法,其中比較音頻訊號之至少一能量特性的步驟包括: 比較該音頻訊號的高頻能量/低頻能量比與該等一或更多臨界值中之臨界值。
- 如申請專利範圍第12項所述之方法,其中比較該音頻訊號之波形之至少一部份的步驟包括:比較時域波形或頻域波形中之至少一者與該至少一預定波形。
- 如申請專利範圍第12項所述之方法,其中比較該音頻訊號之波形之至少一部份的步驟包括:萃取該音頻訊號之特徵;以及比較該特徵與該至少一預定波形。
- 一種聲音致動系統,其係包含:麥克風,經組態成輸出對應至接收聲波之類比電子訊號;類比數位轉換器,經組態成將該類比電子訊號轉換成數位訊號;第一級,其係經組態成如果該數位訊號的至少一能量特性滿足至少一臨界值,則輸出第一致動訊號;第二級,其係經組態成由一待命狀態轉變為全面運轉狀態以回應該第一致動訊號,以及在處於該全面運轉狀態時,如果該音頻訊號之波形的至少一部份實質匹配至少一預定波形,則輸出第二致動訊號;以及語音辨識引擎,其係經組態成基於該第二致動訊號由第一狀態轉變為第二狀態。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/524,584 US9142215B2 (en) | 2012-06-15 | 2012-06-15 | Power-efficient voice activation |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201403588A true TW201403588A (zh) | 2014-01-16 |
Family
ID=49756701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102115391A TW201403588A (zh) | 2012-06-15 | 2013-04-30 | 電能有效型聲音致動 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9142215B2 (zh) |
TW (1) | TW201403588A (zh) |
WO (1) | WO2013188007A1 (zh) |
Families Citing this family (181)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9031847B2 (en) * | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US10565862B2 (en) * | 2012-11-27 | 2020-02-18 | Comcast Cable Communications, Llc | Methods and systems for ambient system control |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9256269B2 (en) * | 2013-02-20 | 2016-02-09 | Sony Computer Entertainment Inc. | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
KR20150121038A (ko) * | 2013-02-27 | 2015-10-28 | 오디언스 인코포레이티드 | 음성 제어식 통신 커넥션 |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9202463B2 (en) * | 2013-04-01 | 2015-12-01 | Zanavox | Voice-activated precision timing |
US9530410B1 (en) | 2013-04-09 | 2016-12-27 | Google Inc. | Multi-mode guard for voice commands |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20140343949A1 (en) * | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
US9712923B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | VAD detection microphone and method of operating the same |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US20150031416A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
WO2015030474A1 (ko) | 2013-08-26 | 2015-03-05 | 삼성전자 주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
WO2015048254A1 (en) * | 2013-09-25 | 2015-04-02 | Robert Bosch Gmbh | Speech detection circuit and method |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US20150112690A1 (en) * | 2013-10-22 | 2015-04-23 | Nvidia Corporation | Low power always-on voice trigger architecture |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
ITTO20130910A1 (it) | 2013-11-08 | 2015-05-09 | St Microelectronics Srl | Dispositivo trasduttore acustico microelettromeccanico con migliorate funzionalita' di rilevamento e relativo apparecchio elettronico |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
CN104715757A (zh) * | 2013-12-13 | 2015-06-17 | 华为技术有限公司 | 一种终端声控操作方法及装置 |
WO2015094369A1 (en) * | 2013-12-20 | 2015-06-25 | Intel Corporation | Transition from low power always listening mode to high power speech recognition mode |
WO2015100430A1 (en) | 2013-12-24 | 2015-07-02 | Digimarc Corporation | Methods and system for cue detection from audio input, low-power data processing and related arrangements |
US9460735B2 (en) | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
KR102018152B1 (ko) * | 2014-03-31 | 2019-09-04 | 인텔 코포레이션 | 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴 |
KR101933289B1 (ko) | 2014-04-01 | 2018-12-27 | 애플 인크. | 링 컴퓨팅 디바이스를 위한 디바이스 및 방법 |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP2016024212A (ja) * | 2014-07-16 | 2016-02-08 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US9549273B2 (en) * | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
KR102299330B1 (ko) | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US9775113B2 (en) * | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
FR3030177B1 (fr) | 2014-12-16 | 2016-12-30 | Stmicroelectronics Rousset | Dispositif electronique comprenant un module de reveil d'un appareil electronique distinct d'un coeur de traitement |
US9652017B2 (en) * | 2014-12-17 | 2017-05-16 | Qualcomm Incorporated | System and method of analyzing audio data samples associated with speech recognition |
US10719115B2 (en) * | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
TW201640322A (zh) | 2015-01-21 | 2016-11-16 | 諾爾斯電子公司 | 用於聲音設備之低功率語音觸發及方法 |
US9613626B2 (en) * | 2015-02-06 | 2017-04-04 | Fortemedia, Inc. | Audio device for recognizing key phrases and method thereof |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10339958B2 (en) * | 2015-09-09 | 2019-07-02 | Arris Enterprises Llc | In-home legacy device onboarding and privacy enhanced monitoring |
US11126525B2 (en) | 2015-09-09 | 2021-09-21 | Arris Enterprises Llc | In-home legacy device onboarding and privacy enhanced monitoring |
US9542941B1 (en) | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US11956503B2 (en) * | 2015-10-06 | 2024-04-09 | Comcast Cable Communications, Llc | Controlling a device based on an audio input |
US10057642B2 (en) | 2015-10-06 | 2018-08-21 | Comcast Cable Communications, Llc | Controlling the provision of power to one or more devices |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10651827B2 (en) * | 2015-12-01 | 2020-05-12 | Marvell Asia Pte, Ltd. | Apparatus and method for activating circuits |
US11437020B2 (en) | 2016-02-10 | 2022-09-06 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
WO2017184169A1 (en) * | 2016-04-22 | 2017-10-26 | Hewlett-Packard Development Company, L.P. | Communications with trigger phrases |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US11600269B2 (en) | 2016-06-15 | 2023-03-07 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
CN106297777B (zh) * | 2016-08-11 | 2019-11-22 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
CN107767861B (zh) * | 2016-08-22 | 2021-07-02 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
WO2018086033A1 (en) * | 2016-11-10 | 2018-05-17 | Nuance Communications, Inc. | Techniques for language independent wake-up word detection |
KR102591413B1 (ko) * | 2016-11-16 | 2023-10-19 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
US10079015B1 (en) | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10403279B2 (en) * | 2016-12-21 | 2019-09-03 | Avnera Corporation | Low-power, always-listening, voice command detection and capture |
US10916243B2 (en) * | 2016-12-27 | 2021-02-09 | Amazon Technologies, Inc. | Messaging from a shared device |
CN106653022B (zh) * | 2016-12-29 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
EP3574499B1 (en) * | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
US10096319B1 (en) * | 2017-03-13 | 2018-10-09 | Amazon Technologies, Inc. | Voice-based determination of physical and emotional characteristics of users |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
JP2018167339A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 発話制御プログラム、情報処理装置及び発話制御方法 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10861462B2 (en) | 2018-03-12 | 2020-12-08 | Cypress Semiconductor Corporation | Dual pipeline architecture for wakeup phrase detection with speech onset detection |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
CN108509225B (zh) | 2018-03-28 | 2021-07-16 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
EP3811360A4 (en) | 2018-06-21 | 2021-11-24 | Magic Leap, Inc. | PORTABLE SYSTEM VOICE PROCESSING |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
KR102040406B1 (ko) * | 2018-07-27 | 2019-11-05 | (주)휴맥스 | 스마트 디바이스 및 그 제어 방법 |
KR102093030B1 (ko) * | 2018-07-27 | 2020-03-24 | (주)휴맥스 | 스마트 디바이스 및 그 제어 방법 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10878811B2 (en) * | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) * | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
KR20200059054A (ko) * | 2018-11-20 | 2020-05-28 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
CN109474879B (zh) * | 2018-11-28 | 2021-06-15 | 深圳市酷开网络科技股份有限公司 | 麦克风测试方法、装置及存储介质 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN109712621B (zh) * | 2018-12-27 | 2021-03-16 | 维沃移动通信有限公司 | 一种语音交互控制方法及终端 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
CN111435593B (zh) * | 2019-01-14 | 2023-08-01 | 瑞昱半导体股份有限公司 | 语音唤醒装置及方法 |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
WO2020180719A1 (en) | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20220017007A (ko) * | 2019-07-01 | 2022-02-11 | 엘지전자 주식회사 | 음성인식 방법 및 그 장치 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
CN110706703A (zh) * | 2019-10-16 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、介质和设备 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN112927685A (zh) * | 2019-12-06 | 2021-06-08 | 瑞昱半导体股份有限公司 | 动态语音辨识方法及其装置 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN113393865B (zh) * | 2020-03-13 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 功耗控制、模式配置与vad方法、设备及存储介质 |
CN111429901B (zh) * | 2020-03-16 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种面向IoT芯片的多级语音智能唤醒方法及系统 |
US11917384B2 (en) * | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
CN111599352B (zh) * | 2020-06-01 | 2021-03-30 | 聆感智能科技(深圳)有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
US11810593B2 (en) * | 2020-06-23 | 2023-11-07 | Amazon Technologies, Inc. | Low power mode for speech capture devices |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US20220139379A1 (en) * | 2020-11-02 | 2022-05-05 | Aondevices, Inc. | Wake word method to prolong the conversational state between human and a machine in edge devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112669822B (zh) * | 2020-12-16 | 2022-11-25 | 爱驰汽车有限公司 | 音频处理方法、装置、电子设备和存储介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11915698B1 (en) * | 2021-09-29 | 2024-02-27 | Amazon Technologies, Inc. | Sound source localization |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
DE69941686D1 (de) * | 1999-01-06 | 2010-01-07 | Koninkl Philips Electronics Nv | Spracheingabegerät mit aufmerksamkeitsspanne |
US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
US20030171932A1 (en) * | 2002-03-07 | 2003-09-11 | Biing-Hwang Juang | Speech recognition |
GB2405949A (en) * | 2003-09-12 | 2005-03-16 | Canon Kk | Voice activated device with periodicity determination |
US7418392B1 (en) * | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
US8095081B2 (en) * | 2004-04-29 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Device and method for hands-free push-to-talk functionality |
US8315865B2 (en) | 2004-05-04 | 2012-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptive conversation detection employing minimal computation |
US20070057798A1 (en) * | 2005-09-09 | 2007-03-15 | Li Joy Y | Vocalife line: a voice-operated device and system for saving lives in medical emergency |
KR100744301B1 (ko) * | 2006-06-01 | 2007-07-30 | 삼성전자주식회사 | 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법 |
JP4675840B2 (ja) | 2006-06-29 | 2011-04-27 | 三菱電機株式会社 | リモートコントローラ並びに家電機器 |
WO2010078386A1 (en) | 2008-12-30 | 2010-07-08 | Raymond Koverzin | Power-optimized wireless communications device |
US8359020B2 (en) * | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
JP5039214B2 (ja) * | 2011-02-17 | 2012-10-03 | 株式会社東芝 | 音声認識操作装置及び音声認識操作方法 |
EP2639793B1 (en) * | 2012-03-15 | 2016-04-20 | Samsung Electronics Co., Ltd | Electronic device and method for controlling power using voice recognition |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
-
2012
- 2012-06-15 US US13/524,584 patent/US9142215B2/en active Active
-
2013
- 2013-04-23 WO PCT/US2013/037800 patent/WO2013188007A1/en active Application Filing
- 2013-04-30 TW TW102115391A patent/TW201403588A/zh unknown
-
2015
- 2015-09-21 US US14/860,133 patent/US20160086603A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20160086603A1 (en) | 2016-03-24 |
US20130339028A1 (en) | 2013-12-19 |
US9142215B2 (en) | 2015-09-22 |
WO2013188007A1 (en) | 2013-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201403588A (zh) | 電能有效型聲音致動 | |
CN107622770B (zh) | 语音唤醒方法及装置 | |
EP3522153B1 (en) | Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor | |
CN111566730B (zh) | 低功率设备中的语音命令处理 | |
US9613626B2 (en) | Audio device for recognizing key phrases and method thereof | |
TWI802602B (zh) | 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統 | |
KR101770932B1 (ko) | 모바일 디바이스용 상시 연결형 오디오 제어 | |
US20170194001A1 (en) | Microphone circuit assembly and system with speech recognition | |
TW202206975A (zh) | 具機器學習之低功率環境計算系統 | |
EP2788978B1 (en) | Low power integrated circuit to analyze a digitized audio stream | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN111755002B (zh) | 语音识别装置、电子设备和语音识别方法 | |
CN113674746B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN105976808A (zh) | 一种智能语音识别系统及方法 | |
US11250854B2 (en) | Method and apparatus for voice interaction, device and computer-readable storage medium | |
CN111862943A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
US20210224078A1 (en) | Systems and Methods for Generating Wake Signals from Known Users | |
Wang | [Retracted] Audio Signal Acquisition and Processing System Based on Model DSP Rapid Design | |
TWI748587B (zh) | 聲音事件偵測系統及方法 | |
US20240062756A1 (en) | Systems, methods, and devices for staged wakeup word detection | |
CN107909996B (zh) | 语音辨识方法以及电子装置 | |
EP3836137A1 (en) | Electronic apparatus and controlling method therefor | |
CN117594049A (zh) | 用于利用持续学习的唤醒词检测的系统、方法和装置 | |
CN110580908A (zh) | 一种支持不同语种的命令词检测方法及设备 |