TW202228007A

TW202228007A - 語音助理系統

Info

Publication number: TW202228007A
Application number: TW110121835A
Authority: TW
Inventors: 林功藝
Original assignee: 神盾股份有限公司
Priority date: 2021-01-13
Filing date: 2021-06-16
Publication date: 2022-07-16
Also published as: TWI790647B; CN216145422U; WO2022151651A1; CN113411723A; TWM619473U

Abstract

本發明提出一種語音助理系統。此語音助理系統包括麥克風模組以及訊號處理器。麥克風模組適於配戴於使用者上，並反應於使用者的喉內發聲而產生類比聲音訊號。訊號處理器操作於一話語收音模式或一關鍵詞檢測模式。訊號處理器操作於話語收音模式的功耗高於訊號處理器操作於關鍵詞檢測模式的功耗。當訊號處理器操作於關鍵詞檢測模式，訊號處理器根據類比聲音訊號的多筆類比取樣電壓進行關鍵詞檢測。反應於在關鍵詞檢測模式中檢測到關鍵詞，訊號處理器自關鍵詞檢測模式切換為話語收音模式。

Description

語音助理系統

本發明是有關於一種語音助理系統，且特別是有關於一種具有無線麥克風裝置的語音助理系統。

隨著語音辨識技術的進步，語音助理已經被廣泛應用於現代人的生活之中。語音助理是運行在終端裝置上的一種軟體程式，其能夠和使用者進行語音交流而完成使用者所指派的任務，例如資訊搜索、電器控制或操控終端裝置的其他應用程式等等。可想而知，若使用者可以隨心所欲地使用語音助理，可對生活或工作帶來極大的助益。舉例而言，使用者可透過語音助理隨時進行資訊搜索而即時獲取需要的資訊。目前，使用者皆需要對收音裝置清楚地且大聲地說出語音指令，以順利與語音助理進行語音交流。然而，於一些需要保持安靜的情境中，例如會議情境或公眾環境，使用者並不適合大聲地說出語音指令來操控語音助理，以避免打擾他人。此外，若要讓使用者可隨時隨地與語音助理進行溝通，使用者需要隨時隨身配戴收音裝置來擷取使用者下達的語音指令。因此，如何有效延長配戴於使用者身上的收音裝置的續航力也是一大考驗。

有鑑於此，本發明提供一種語音助理系統，其可大幅節省無線麥克風裝置的功耗而增加無線麥克風裝置的續航力，以使得透過此無線麥克風裝置接收語音訊息的語音助理的應用範圍可更廣泛且不受到限制。

本發明實施例提出一種語音助理系統，其包括麥克風模組以及訊號處理器。麥克風模組適於配戴於使用者上，並反應於使用者的喉內發聲而產生類比聲音訊號。訊號處理器操作於話語收音模式或關鍵詞檢測模式。訊號處理器操作於話語收音模式的功耗高於訊號處理器操作於關鍵詞檢測模式的功耗。當訊號處理器操作於關鍵詞檢測模式，訊號處理器根據類比聲音訊號的多筆類比取樣電壓進行關鍵詞檢測。反應於在關鍵詞檢測模式中檢測到關鍵詞，訊號處理器自關鍵詞檢測模式切換為話語收音模。

本發明實施例提出一種語音助理系統，其包括終端裝置、麥克風模組以及訊號處理器。麥克風模組適於配戴於使用者上，並反應於使用者的喉內發聲而產生類比聲音訊號。訊號處理器操作於話語收音模式或關鍵詞檢測模式。訊號處理器操作於話語收音模式的功耗高於訊號處理器操作於關鍵詞檢測模式的功耗。

當訊號處理器操作於關鍵詞檢測模式，訊號處理器根據類比聲音訊號的多筆類比取樣電壓進行關鍵詞檢測。反應於在關鍵詞檢測模式中檢測到關鍵詞，訊號處理器自關鍵詞檢測模式切換為話語收音模式。在切換至話語收音模式之後，訊號處理器對類比聲音訊號進行音訊處理而產生經處理數位音訊數據。訊號處理器將經處理數位音訊數據提供給終端裝置所運行的語音助理程序。

基於上述，於本發明的實施例中，語音助理系統的訊號處理器可切換操作於關鍵詞檢測模式與話語收音模式。當無線麥克風裝置的訊號處理器操作於關鍵詞檢測模式時，訊號處理器在禁能高功耗元件的情況下根據麥克風模組提供的類比聲音訊號判斷是否檢測到關鍵詞。反應於在關鍵詞檢測模式中檢測到關鍵詞，訊號處理器可自關鍵詞檢測模式切換為話語收音模式而啟動高功耗元件。基此，當使用者意圖使用語音助理而說出關鍵詞時，無線麥克風裝置才從關鍵詞檢測模式切換為話語收音模式，以利用高功耗元件對麥克風模組提供的類比聲音訊號進行數位音訊處理，以避免高功耗元件於非必要時持續運作而浪費無線麥克風裝置的電力，從而延長無線麥克風裝置的續航力。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

為了使本發明的內容可以被更容易明瞭，以下特舉實施例做為本發明確實能夠據以實施的範例。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，是代表相同或類似部件。

應當理解，當元件被稱為“直接在另一元件上”或“直接連接到”另一元件時，不存在中間元件。如本文所使用的，“連接”可以指物理及/或電性連接。再者，“電性連接”或“耦合”可以是二元件間存在其它元件。

圖1是依照本發明一實施例的語音助理系統的示意圖。請參照圖1，語音助理系統10可包括無線麥克風裝置100與終端裝置200。終端裝置200用以運行一語音助理程序，其例如是桌上型電腦、筆記型電腦、智慧型手機、平板電腦、智慧音箱等等，本發明對此並不限制。無線麥克風裝置100可經由無線通訊技術連接終端裝置200。

舉例而言，無線麥克風裝置100可經由藍芽、Wi-Fi或ZigBee等無線通訊技術與終端裝置200連接，本發明對此無線通訊技術的種類並不限制。無線麥克風裝置100用以感測使用者的喉內發聲，以讓使用者可利用無線麥克風裝置100與終端裝置200所運行的語音助理程序進行語音互動。

於本實施例中，無線麥克風裝置100可包括麥克風模組110、訊號處理器120，以及電池130。

麥克風模組110適於配戴於使用者上，並反應於使用者的喉內發聲而產生類比聲音訊號。喉內發聲為旁人聽不到的聲波振福。麥克風模組110可包括用以感測使用者的發聲的膜片，其例如是微機電系統(MEMS)麥克風。於一實施例中，無線麥克風裝置100可以是可感測到頭頸部骨骼或肌肉振動的骨感式麥克風。麥克風模組110接觸使用者的肌膚並適於配戴於使用者的喉嚨上或耳後。麥克風模組110可感測到使用者以極低音量所發出的聲音。更詳細而言，圖2是依照本發明一實施例的語音助理系統的使用情境示意圖。請參照圖2，無線麥克風裝置100可配戴於使用者耳後乳突骨的附近。當使用者發出聲音時，麥克風模組110可透過膜片感應到的使用者的骨骼或肌肉振動而據以產生類比聲音訊號。因此，透過與使用者肌膚接觸的麥克風模組110感測使用者的發聲，使用者可以旁人無法清楚聽到的音量下達語音訊息給終端裝置200所運行的語音助理程序。

電池130耦接麥克風模組110與訊號處理器120，並用以作為無線麥克風裝置100的電力來源。換言之，電池130可提供電力給麥克風模組110與訊號處理器120。

訊號處理器120可切換操作於話語收音模式或關鍵詞檢測模式。訊號處理器120操作於話語收音模式的功耗高於訊號處理器操作於關鍵詞檢測模式的功耗。也就是說，訊號處理器120可操作於功耗較高的話語收音模式或操作於功耗較低的關鍵詞檢測模式。於一實施例中，訊號處理器120包括高功耗元件121，並接收麥克風模組110所產生的類比聲音訊號。當訊號處理器120操作於關鍵詞檢測模式時，高功耗元件121被禁能而停止運作。當訊號處理器120操作於話語收音模式時，高功耗元件121被致能來對麥克風模組110提供的類比聲音訊號進行音訊處理。於一實施例中，高功耗元件121可包括類比數位轉換器、數位信號處理器、功率放大器或其組合。

因此，當訊號處理器120操作於關鍵詞檢測模式時，用以對克風模組110提供的類比聲音訊號進行音訊處理的高功耗元件121不會消耗電池130的電量。需說明的是，訊號處理器120是根據使用者是否說出關鍵詞而決定是否從關鍵詞檢測模式切換為話語收音模式。因此，當使用者沒有說出關鍵詞時，訊號處理器120會維持操作於功耗較低的關鍵詞檢測模式中。當使用者說出關鍵詞時，訊號處理器120會切換為操作於功耗較高的話語收音模式中。對應於不同語音助理程序，上述關鍵詞例如是Alexa、Cortana、Hey Siri、OK Google或其他自定義關鍵詞等等，本發明對此不限制。

於一實施例中，當訊號處理器120操作於關鍵詞檢測模式，訊號處理器120可基於人工神經網路（artificial neural network，ANN）而根據類比聲音訊號的多筆類比取樣電壓進行關鍵詞檢測。詳細而言，訊號處理器120可對類比聲音訊號進行類比訊號取樣而獲取多筆類比取樣電壓。於一實施例中，訊號處理器120可包括實現人工神經網路的類比人工智慧（AI）電路，而此人工神經網路經配置接收多筆類比取樣電壓來進行關鍵詞檢測。相較於數位AI電路，可實現類比乘加器的類比AI電路的功耗更低。也就是說，訊號處理器120可於關鍵詞檢測模式中透過將多筆類比取樣電壓提供給類比AI電路來持續偵測使用者是否說出關鍵詞。

於是，反應於在關鍵詞檢測模式中檢測到關鍵詞，訊號處理器120可自關鍵詞檢測模式切換為話語收音模式而啟動高功耗元件121。在切換至話語收音模式之後，訊號處理器120可利用高功耗元件121對類比聲音訊號進行音訊處理而產生經處理數位音訊數據。無線麥克風裝置100將經處理數位音訊數據提供給終端裝置200所運行的語音助理程序，使得語音助理程序可依據經處理數位音訊數據執行相關功能，例如資訊搜索、電器控制或控制終端裝置200的其他應用程式等等。

另一方面，反應於在關鍵詞檢測模式中未檢測到關鍵詞，訊號處理器120維持操作於關鍵詞檢測模式而禁能高功耗元件121。也就是說，若使用者沒有說出關鍵詞，訊號處理器120可長時間維持操作於關鍵詞檢測模式中來節省電力消耗。也就是說，當配戴無線麥克風裝置100的使用者沒有想要使用語音助理時，使用者並不會說出關鍵詞而控制無線麥克風裝置100的訊號處理器120一直維持操作於關鍵詞檢測模式中。當使用者想要使用語音助理時，使用者可以極低音量說出關鍵詞而控制無線麥克風裝置100的訊號處理器120切換為操作於話語收音模式，使得操作於話語收音模式的訊號處理器120可對麥克風模組110提供的類比聲音訊號進行類比數位轉換與數位音訊處理。換言之，高功耗元件121只有在使用者對語音助理下達語音訊息時才會被致能來運作，其餘時段是被禁能的。因此，可大幅節省語音助理系統10中的無線麥克風裝置110的電力消耗，好讓使用者可以長時間配戴無線麥克風裝置110且不需要頻繁對無線麥克風裝置110進行充電。

圖3是依照本發明一實施例的無線麥克風裝置的示意圖。請參照圖3，無線麥克風裝置100可包括麥克風模組110、訊號處理器120、電池130，以及無線收發器140。

相較於圖1的實施例，於本實施例中，無線麥克風裝置100可更包括無線收發器140。無線收發器140耦接訊號處理器120並與終端裝置200建立無線通訊連結。具體而言，無線收發器140可用以傳輸數據至終端裝置200或從終端裝置200接收數據。無線收發器140可包括天線或其他通訊相關電路，其例如是藍牙收發器，但本發明並不限制於此。於此，無線收發器140可將操作於話語收音模式中的訊號處理器120產生的經處理數位音訊數據傳輸至終端裝置200，使得終端裝置200所運行的語音助理程序可依據經處理數位音訊數據進行語音辨識而獲取使用者下達的語音訊息。

此外，於本實施例中，訊號處理器120可包括類比取樣電路122、類比式記憶體123，以及語音辨識電路124。

於一實施例中，類比取樣電路122可包括一或多個類比取樣維持電路（analog sampling-and-hold circuit）。類比取樣電路122可依據取樣頻率而對類比聲音訊號進行取樣與保持，藉以輸出已取樣及保持過後的多筆類比取樣電壓。於一實施例中，麥克風模組110的振膜可感測到使用者的骨骼或肌肉振動，使麥克風模組110據以輸出類比聲音訊號至訊號處理器120。類比取樣電路122耦接麥克風模組110。類比取樣電路122接收麥克風模組110產生的類比聲音訊號，並取樣類比聲音訊號而產生多筆類比取樣電壓。於一實施例中，類比取樣電路122例如可以16k Hz的取樣頻率來取樣類比聲音訊號。

類比式記憶體123耦接類比取樣電路122，並記錄來自類比取樣電路122的多筆類比取樣電壓。於一實施例中，類比式記憶體123可以是電荷耦合裝置（charge coupled device，CCD）記憶體。類比式記憶體123可以是三相CCD記憶體或四相CCD記憶體，本發明對此不限制。詳細而言，類比式記憶體123可分別將多筆類比取樣電壓轉換為對應的電荷，以將多筆類比取樣電壓各自對應的電荷量記錄下來。基於將多個時脈訊號施加於CCD記憶體上的多個閘級電極而產生的電荷轉移效應，類比式記憶體123可將多筆類比取樣電壓依照取樣順序暫存下來。

或者，於一實施例中，類比式記憶體123可以是相變記憶體（Phase-change memory，PCM）。詳細而言，多筆類比取樣電壓可分別轉換為具有對應脈波寬度的電流脈波，而這些電流脈波可被施加於類比式記憶體123中的多個記憶單元的電極上，使各記憶單元中的相變材料發生物理相態的變化而具有對應的電阻狀態。透過將多筆類比取樣電壓轉換為相變記憶體中多個記憶單元所對應電阻狀態，類比式記憶體123中可將多筆類比取樣電壓記錄下來。

於一實施例中，類比式記憶體123可記錄於一個預設取樣時段內取樣獲取的多筆類比取樣電壓。上述預設取樣時段例如是250ms，但本發明對此不限制。

語音辨識電路124耦接類比式記憶體123。語音辨識電路124可自類比式記憶體123獲取對應至一預設取樣時段的多筆類比取樣電壓。語音辨識電路124可基於人工神經網路而對這些類比取樣電壓進行特徵擷取，以判斷是否檢測到關鍵詞。可知的，人工神經網路包括排列於多個層的多個神經元，這些神經元分別會依據權重資訊進行乘法運算與加法運算，而這些層的輸出可視為擷取到特徵向量。於一實施例中，語音辨識電路124可包括實現類比乘加器的類比AI電路，其可根據人工神經網路對多筆類比取樣電壓進行類比AI運算，以對這些類比取樣電壓進行特徵擷取。最終，語音辨識電路124可依據這些類比取樣電壓的特徵向量進行分類操作而判斷是否檢測到關鍵詞。

於一實施例中，關鍵詞可由多個音節組成，這些音節至少包括第一音節與第二音節。語音辨識電路124可基於人工神經網路判斷多筆類比取樣電壓中的多筆第一取樣電壓是否符合關鍵詞的第一音節。第一取樣電壓是於一預設取樣時段內進行類比取樣而產生，且類比式記憶體123可同時地暫存於一預設取樣時段內進行類比取樣而產生的多筆取樣電壓。舉例而言，基於人說出一個音節大概需要花費1/4秒，因而可假設預設取樣時段為250ms。假設取樣頻率為16k HZ（亦即一秒取樣16k筆類比取樣電壓），則類比式記憶體123所暫存之對應至預設取樣時段的第一取樣電壓共有4k筆。首先，第一取樣電壓輸入至語音辨識電路124，語音辨識電路124可判斷多筆第一取樣電壓是否符合關鍵詞的第一音節。

接著，反應於基於人工神經網路判定多筆類比取樣電壓中的第一取樣電壓符合關鍵詞的第一音節，語音辨識電路124才可基於人工神經網路判斷類比取樣電壓中的多筆第二取樣電壓是否符合關鍵詞的第二音節。反之，反應於基於人工神經網路判定多筆類比取樣電壓中的第一取樣電壓並未符合關鍵詞的第一音節，語音辨識電路124會再次基於人工神經網路判斷類比取樣電壓中的多筆第二取樣電壓是否符合關鍵詞的第一音節。

於一實施例中，語音辨識電路124使用第一神經網路權重數據判斷多筆類比取樣電壓中的第一取樣電壓是否符合關鍵詞的第一音節。並且，語音辨識電路124使用第二神經網路權重數據判斷多筆類比取樣電壓中的第二取樣電壓是否符合關鍵詞的第二音節。亦即，對應於不同發音的第一音節與第二音節，語音辨識電路124可使用不同的經訓練的神經網路權重數據來進行判斷。

也就是說，當語音辨識電路124判定多筆第一取樣電壓符合關鍵詞的第一音節時，語音辨識電路124才會接續判斷後續的其他取樣電壓是否符合關鍵詞的第二音節。否則，語音辨識電路124會繼續判斷類比式記憶體123所暫存的類比取樣電壓是否符合關鍵詞的第一音節。換言之，於一實施例中，當語音辨識電路124基於人工神經網路判定類比取樣電壓依照特定順序符合關鍵詞的多個音節，語音辨識電路124判定檢測到關鍵詞。

舉例而言，以關鍵詞為「ok！google」為例，此關鍵詞會包括4個音節「o」、「k」、「goo」、「gle」。語音辨識電路124可先依據對應至「o」的第一神經網路權重數據來判定第1筆至第i筆類比取樣電壓是否符合關鍵詞的第一音節「o」。若是，語音辨識電路124可依據對應至「k」的第二神經網路權重數據來判定第(i+1)筆至第2i筆類比取樣電壓是否符合關鍵詞的第二音節「k」。若否，語音辨識電路124可再次依據對應至「o」的第一神經網路權重數據來判定第(i+1)筆至第2i筆類比取樣電壓是否符合關鍵詞的第一音節「o」。

若語音辨識電路124判定第(i+1)筆至第2i筆類比取樣電壓未符合關鍵詞的第二音節「k」，語音辨識電路124可再次依據對應至「o」的第一神經網路權重數據來判定第(2i+1)筆至第3i筆類比取樣電壓是否符合關鍵詞的第一音節「o」。若語音辨識電路124判定第(i+1)筆至第2i筆類比取樣電壓符合關鍵詞的第二音節「k」，語音辨識電路124接著可依據對應至「goo」的第三神經網路權重數據來判定第(2i+1)筆至第3i筆類比取樣電壓是否符合關鍵詞的第三音節「goo」。

若語音辨識電路124判定第(2i+1)筆至第3i筆類比取樣電壓未符合關鍵詞的第三音節「goo」，語音辨識電路124可再次依據對應至「o」的第一神經網路權重數據來判定第(3i+1)筆至第4i筆類比取樣電壓是否符合關鍵詞的第一音節「o」。若語音辨識電路124判定第(2i+1)筆至第3i筆類比取樣電壓符合關鍵詞的第三音節「goo」，語音辨識電路124接著可依據對應至「gle」的第四神經網路權重數據來判定第(3i+1)筆至第4i筆類比取樣電壓是否符合關鍵詞的第四音節「gle」。

若語音辨識電路124判定第(3i+1)筆至第4i筆類比取樣電壓未符合關鍵詞的第四音節「gle」，語音辨識電路124可再次依據對應至「o」的第一神經網路權重數據來判定第(4i+1)筆至第5i筆類比取樣電壓是否符合關鍵詞的第一音節「o」。若語音辨識電路124判定第(3i+1)筆至第4i筆類比取樣電壓符合關鍵詞的第四音節「gle」，語音辨識電路124可判定檢測到關鍵詞「ok！google」。

於一實施例中，若語音辨識電路124判定並未檢測到關鍵詞，訊號處理器120可維持操作於關鍵詞檢測模式中。相對的，若語音辨識電路124判定檢測到關鍵詞，訊號處理器120可從關鍵詞檢測模式切換為話語收音模式而致能高功耗元件121。

舉例而言，於一實施例中，語音辨識電路124可提供通知訊號給訊號處理器120中的電源控制電路，好讓電源控制電路決定是否將電池130的電力供應至高功耗元件121。由此可知，類比取樣電路122、類比式記憶體123，以及語音辨識電路124可於關鍵詞檢測模式中持續偵測使用者是否說出關鍵詞。當語音辨識電路124判定檢測到關鍵詞時，無線麥克風裝置100才會使用高功耗元件121來處理類比聲音訊號以及將經處理數位音訊數據傳輸至終端裝置200。

圖4是依照本發明一實施例的語音助理系統的示意圖。圖5是依照本發明一實施例的語音助理系統的使用情境示意圖。請參照圖4與圖5，除了相似於圖1實施例的無線麥克風裝置100與終端裝置200之外，語音助理系統10可更包括耳機300。耳機300適於配戴於使用者的耳部，並可播放來自終端裝置200的音訊數據。

於一實施例中，當使用者沒有意圖要使用語音助理程序時，即便使用者一直說話，但無線麥克風裝置100的訊號處理器120還是維持操作於關鍵詞檢測模式中，而不會浪費電力來進行數位音訊處理以及傳輸數據至終端裝置200。當使用者想要使用語音助理程序進行資料搜尋時，使用者可以極低音量先說出關鍵詞。反應於偵測到關鍵詞，無線麥克風裝置100中操作於關鍵詞檢測模式的訊號處理器120可切換為操作於話語收音模式而啟動高功耗元件121。

接著，使用者可以極低音量說出詢問問題，此時，高功耗元件121已經被啟用來對類比聲音訊號進行音訊處理而產生經處理數位音訊數據。經處理數位音訊數據可發送至終端裝置200，致使終端裝置200的語音助理可依據經處理數位音訊數據進行語音辨識並執行資訊搜索。最後，終端裝置200可將使用者詢問問題的回答回傳至耳機300，並由耳機300播放回答給使用者。在此情況下，使用者可在不打擾他人或甚至是他人沒有察覺的情況下使用語音助理來查詢資料。

圖6是依照本發明一實施例的無線麥克風裝置的示意圖。請參照圖6，相較於圖3實施例，於本實施例中，高功耗元件121可包括功率放大器121a、類比數位轉換器121b，以及數位信號處理器121c。功率放大器121a、類比數位轉換器121b，以及數位信號處理器121c用以根據麥克風模組110提供的類比聲音訊來產生經處理數位音訊數據。

相對於類比取樣電路122、類比式記憶體123，以及語音辨識電路124，功率放大器121a、類比數位轉換器121b，以及數位信號處理器121c的操作需要消耗相對高的電力。然而，由於本發明實施例的功率放大器121a、類比數位轉換器121b，以及數位信號處理器121c可僅於話語收音模式中被啟動，因而使得無線麥克風裝置100的續航力可大幅提昇。

綜上所述，於本發明實施例中，在使用者沒有說出關鍵詞的情況下，無線麥克風裝置可維持操作於關鍵詞檢測模式，並利用功耗較低的類比電路來偵測使用者是否說出關鍵詞。反應於使用者說出關鍵詞，無線麥克風裝置才切換為操作於話語收音模式而啟用高功耗元件。接著，無線麥克風裝置可利用高功耗元件進行進行數位音訊處理而產生經處理音訊資料，接著將經處理音訊資料發送給終端裝置。基此，高功耗元件只會在需要時刻被啟動而消耗電力，因而使得無線麥克風裝置不會很快地將電池的電量使用完畢，從而大幅延長無線麥克風裝置的續航力。藉此，與此無線麥克風裝置搭配使用的語音助理程序的應用範圍可更加不受到限制，使用者可更隨心所欲地使用語音助理。

最後應說明的是：以上各實施例僅用以說明本發明的技術方案，而非對其限制；儘管參照前述各實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分或者全部技術特徵進行等同替換；而這些修改或者替換，並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。

10:語音助理系統 100:無線麥克風裝置 200:終端裝置 300:耳機 110:麥克風模組 120:訊號處理器 130:電池 140:無線收發器 121:高功耗元件 122:類比取樣電路 123:類比式記憶體 124:語音辨識電路 121a:功率放大器 121b:類比數位轉換器 121c:數位信號處理器

圖1是依照本發明一實施例的語音助理系統的示意圖。圖2是依照本發明一實施例的語音助理系統的使用情境示意圖。圖3是依照本發明一實施例的無線麥克風裝置的示意圖。圖4是依照本發明一實施例的語音助理系統的示意圖。圖5是依照本發明一實施例的語音助理系統的使用情境示意圖。圖6是依照本發明一實施例的無線麥克風裝置的示意圖。

10:語音助理系統

100:無線麥克風裝置

200:終端裝置

110:麥克風模組

120:訊號處理器

130:電池

121:高功耗元件

Claims

一種語音助理系統，包括：一麥克風模組，適於配戴於一使用者上，並反應於所述使用者的喉內發聲而產生一類比聲音訊號；以及一訊號處理器，操作於一話語收音模式或一關鍵詞檢測模式，其中所述訊號處理器操作於所述話語收音模式的功耗高於所述訊號處理器操作於所述關鍵詞檢測模式的功耗，其中，當所述訊號處理器操作於所述關鍵詞檢測模式，所述訊號處理器根據所述類比聲音訊號的多筆類比取樣電壓進行關鍵詞檢測，反應於在所述關鍵詞檢測模式中檢測到一關鍵詞，所述訊號處理器自所述關鍵詞檢測模式切換為所述話語收音模式。
如請求項1所述的語音助理系統，其中所述麥克風模組接觸所述使用者的肌膚並適於配戴於所述使用者的喉嚨上或耳後。
如請求項1所述的語音助理系統，其中所述喉內發聲為旁人聽不到的聲波振福。
如請求項1所述的語音助理系統，其中所述訊號處理器基於一人工神經網路而根據所述類比聲音訊號的多筆類比取樣電壓進行所述關鍵詞檢測。
如請求項1所述的語音助理系統，其中所述訊號處理器包括一高功耗元件，所述訊號處理器自所述關鍵詞檢測模式切換為所述話語收音模式而啟動所述高功耗元件。
如請求項5所述的語音助理系統，其中反應於在所述關鍵詞檢測模式中未檢測到所述關鍵詞，所述訊號處理器維持操作於所述關鍵詞檢測模式而禁能所述高功耗元件。
如請求項5所述的語音助理系統，其中在切換至所述話語收音模式之後，所述訊號處理器利用所述高功耗元件對所述類比聲音訊號進行音訊處理而產生經處理數位音訊數據。
如請求項5所述的語音助理系統，其中所述高功耗元件包括一類比數位轉換器、一數位信號處理器、一功率放大器或其組合。
如請求項1所述的語音助理系統，更包括：一無線收發器，耦接所述訊號處理器，與一終端裝置建立無線通訊連結，以將操作於所述話語收音模式中的所述訊號處理器產生的經處理數位音訊數據傳輸至所述終端裝置。
如請求項1所述的語音助理系統，其中所述訊號處理器包括：一語音辨識電路，基於一人工神經網路而對所述類比取樣電壓進行特徵擷取，以判斷是否檢測到所述關鍵詞。
如請求項10所述的語音助理系統，其中所述訊號處理器還包括：一類比取樣電路，耦接所述麥克風模組，取樣所述類比聲音訊號而產生多筆類比取樣電壓；以及一類比式記憶體，耦接所述類比取樣電路，記錄所述類比取樣電壓。
如請求項11所述的語音助理系統，其中所述類比式記憶體包括一電荷耦合裝置(charge coupled device，CCD)記憶體或一相變記憶體（Phase-change memory，PCM）。
如請求項10所述的語音助理系統，其中所述語音辨識電路基於所述人工神經網路判斷所述類比取樣電壓中的多筆第一取樣電壓是否符合所述關鍵詞的第一音節，其中，反應於基於所述人工神經網路判定所述類比取樣電壓中的所述第一取樣電壓符合所述關鍵詞的所述第一音節，所述語音辨識電路基於所述人工神經網路判斷所述類比取樣電壓中的多筆第二取樣電壓是否符合所述關鍵詞的第二音節。
如請求項13所述的語音助理系統，其中所述語音辨識電路使用第一神經網路權重數據判斷所述類比取樣電壓中的所述第一取樣電壓是否符合所述關鍵詞的所述第一音節，並使用第二神經網路權重數據判斷所述類比取樣電壓中的所述第二取樣電壓是否符合所述關鍵詞的所述第二音節。
如請求項10所述的語音助理系統，其中當所述語音辨識電路基於所述人工神經網路判定所述類比取樣電壓依照一特定順序符合所述關鍵詞的多個音節，所述語音辨識電路判定檢測到所述關鍵詞。
一種語音助理系統，包括：一終端裝置；一麥克風模組，適於配戴於一使用者上，並反應於所述使用者的喉內發聲而產生一類比聲音訊號；以及一訊號處理器，操作於一話語收音模式或一關鍵詞檢測模式，其中所述訊號處理器操作於所述話語收音模式的功耗高於所述訊號處理器操作於所述關鍵詞檢測模式的功耗，其中，當所述訊號處理器操作於所述關鍵詞檢測模式，所述訊號處理器根據所述類比聲音訊號的多筆類比取樣電壓進行關鍵詞檢測，反應於在所述關鍵詞檢測模式中檢測到一關鍵詞，所述訊號處理器自所述關鍵詞檢測模式切換為所述話語收音模式，在切換至所述話語收音模式之後，所述訊號處理器對所述類比聲音訊號進行音訊處理而產生經處理數位音訊數據，其中，所述訊號處理器將所述經處理數位音訊數據提供給所述終端裝置所運行的一語音助理程序。
如請求項16所述的語音助理系統，其中所述麥克風模組接觸所述使用者的肌膚並適於配戴於所述使用者的喉嚨上或耳後。
如請求項16所述的語音助理系統，其中所述喉內發聲為旁人聽不到的聲波振福。
如請求項16所述的語音助理系統，其中所述訊號處理器基於一人工神經網路而根據所述類比聲音訊號的多筆類比取樣電壓進行所述關鍵詞檢測。
如請求項16所述的語音助理系統，其中所述訊號處理器包括一高功耗元件，所述訊號處理器自所述關鍵詞檢測模式切換為所述話語收音模式而啟動所述高功耗元件。
如請求項20所述的語音助理系統，其中反應於在所述關鍵詞檢測模式中未檢測到所述關鍵詞，所述訊號處理器維持操作於所述關鍵詞檢測模式而禁能所述高功耗元件。
如請求項20所述的語音助理系統，其中在切換至所述話語收音模式之後，所述訊號處理器利用所述高功耗元件對所述類比聲音訊號進行所述音訊處理。
如請求項20所述的語音助理系統，其中所述高功耗元件包括一類比數位轉換器、一數位信號處理器、一功率放大器或其組合。
如請求項16所述的語音助理系統，其中更包括一無線收發器，所述無線收發器耦接所述訊號處理器並與所述終端裝置建立無線通訊連結，以將操作於所述話語收音模式中的所述訊號處理器產生的經處理數位音訊數據傳輸至所述終端裝置。
如請求項16所述的語音助理系統，其中所述訊號處理器包括：一語音辨識電路，基於所述人工神經網路而對所述類比取樣電壓進行特徵擷取，以判斷是否檢測到所述關鍵詞。
如請求項25所述的語音助理系統，其中所述訊號處理器還包括：一類比取樣電路，耦接所述麥克風模組，取樣所述類比聲音訊號而產生多筆類比取樣電壓；以及一類比式記憶體，耦接所述類比取樣電路，記錄所述類比取樣電壓。
如請求項26所述的語音助理系統，其中所述類比式記憶體包括一電荷耦合裝置(charge coupled device，CCD)記憶體或一相變記憶體（Phase-change memory，PCM）。
如請求項25所述的語音助理系統，其中所述語音辨識電路基於所述人工神經網路判斷所述類比取樣電壓中的多筆第一取樣電壓是否符合所述關鍵詞的第一音節，其中，反應於基於所述人工神經網路判定所述類比取樣電壓中的所述第一取樣電壓符合所述關鍵詞的所述第一音節，所述語音辨識電路基於所述人工神經網路判斷所述類比取樣電壓中的多筆第二取樣電壓是否符合所述關鍵詞的第二音節。
如請求項28所述的語音助理系統，其中所述語音辨識電路使用第一神經網路權重數據判斷所述類比取樣電壓中的所述第一取樣電壓是否符合所述關鍵詞的所述第一音節，並使用第二神經網路權重數據判斷所述類比取樣電壓中的所述第二取樣電壓是否符合所述關鍵詞的所述第二音節。
如請求項25所述的語音助理系統，其中當所述語音辨識電路基於所述人工神經網路判定所述類比取樣電壓依照一特定順序符合所述關鍵詞的多個音節，所述語音辨識電路判定檢測到所述關鍵詞。