TW201717655A

TW201717655A - 語音控制方法及語音控制系統

Info

Publication number: TW201717655A
Application number: TW104136558A
Authority: TW
Inventors: 蔡錦和; 許銀雄
Original assignee: 宏碁股份有限公司
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2017-05-16
Also published as: US20170133013A1

Abstract

一種語音控制方法及語音控制系統。所述語音控制方法適用於連結至區域網路的語音控制裝置。所述語音控制方法包括下列步驟。透過網際網路接收語音資料。對語音資料執行語音辨識動作以獲得語音資料中的控制指令。透過網際網路傳送反應於控制指令的語音回應信息。依據控制指令以透過區域網路控制至少一個電子裝置。

Description

語音控制方法及語音控制系統

本發明是有關於一種語音控制方法，且特別是有關於一種可供遠端操作語音助理的語音控制方法及語音控制系統。

目前市面上的作業系統多有提供個人語音助理系統。這些個人語音助理系統除了可提供對答的功能之外，由於聲音控制具有人性化且簡單操作的特點，利用聲控來控制其他裝置的方式越來越普遍。例如，智慧家庭服務或是物聯網即有提供聲控功能。

然而，一般個人語音助理系統的設計僅考慮使用者位於裝置附近的情況，故也僅是透過配置在裝置上的收音器及發音器以與使用者進行對話。一旦使用者不在裝置附近，便無法使用個人語音助理系統的功能。現有技術雖可藉由藍牙裝置來操作個人語音助理系統，但受限於藍牙技術的傳輸距離，仍只能提供在近端的使用者對個人語音助理系統進行操作。

本發明提供一種語音控制方法及語音控制系統，其可讓位於遠端的使用者能夠使用語音對語音助理模組進行操作，進而透過語音助理模組來控制位於同一區域網路中的其他電子裝置。

本發明提出一種語音控制方法，其適用於連結至區域網路的語音控制裝置。所述語音控制方法包括下列步驟。透過網際網路接收語音資料，對語音資料執行語音辨識動作以獲得語音資料中的控制指令，透過網際網路傳送反應於控制指令的語音回應信息，以及依據控制指令以透過區域網路控制至少一個電子裝置。

本發明另提出一種語音控制系統，其包括使用者裝置、至少一個電子裝置以及語音控制裝置。使用者裝置透過網際網路發出語音資料。電子裝置包括第一通訊單元，其連結至區域網路。語音控制裝置包括第二通訊單元、儲存單元以及處理單元。第二通訊單元連結至區域網路。儲存單元記錄多個模組。處理單元耦接第二通訊單元以及儲存單元，用以存取並執行儲存單元中記錄的所述模組。所述模組包括語音通信模組以及語音助理模組。語音通信模組透過網際網路接收語音資料。語音助理模組對語音資料執行語音辨識動作以獲得語音資料中的控制指令。其中，語音通信模組透過網際網路傳送反應於控制指令的語音回應信息，且語音助理模組依據控制指令以透過區域網路控制所述電子裝置。

基於上述，本發明實施例將透過網際網路所接收的語音資料橋接至語音助理，讓使用者可在遠端利用語音來對語音助理模組進行操作，進而透過語音助理模組來控制位於同一區域網路中的其他電子裝置。此外，由於語音辨識動作是由語音控制裝置來執行，故使用者裝置所配置的元件可得以簡化。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

網際網路語音協定（Voice over Internet Protocol，以下簡稱VoIP）技術可藉由網路來傳輸語音到遠端裝置，但僅應用於使用者之間的溝通。利用VoIP技術可將語音透過網路傳輸到遠端的特性，本發明實施例進一步地將透過網際網路所接收的語音資料橋接至語音助理，以實現語音助理的遠端聲控功能，讓使用者能夠藉由語音而在遠端對語音助理進行操作，進而控制與語音助理連結至同一區域網路的其他電子裝置（例如與同一私有網路連結的智慧家電裝置）。另一方面，考量到智慧家電裝置的操作便利所衍伸的安全問題，本發明實施例還可利用聲紋辨識來確認使用者是否為合法使用者，並對合法使用者設定不同等級的使用權限，以適應性地依據使用權限和使用情境來決定語音控制裝置對於其他電子裝置的控制設定。

在以下實施例中，圖1至圖4用以說明遠端聲控功能的部分，圖5至圖8則用以說明安全性考量的控制設定。

圖1是依照本發明一實施例所繪示的語音控制系統的方塊圖。請參照圖1，本實施例的語音控制系統10包括語音控制裝置100、至少一個電子裝置200以及使用者裝置300。為了便於說明，在圖1中僅繪示出一個電子裝置200作為示意。其中，語音控制裝置100例如是桌上型電腦、筆記型電腦等電子裝置，其具有基本的網路連線及運算能力。另外，電子裝置200例如是智慧家電裝置（例如智慧型電視、智慧型燈泡、投影機等）或其他電子裝置。至於使用者裝置300則例如是桌上型電腦、筆記型電腦等電子裝置，或亦可以是平板電腦、智慧型手機等行動裝置。語音控制裝置100可透過網際網路接收使用者裝置300所發出的語音資料，並可透過區域網路而與電子裝置200連結，以讓使用者裝置300可接收使用者的語音信號，並將此語音信號透過網路而直接傳送至語音控制裝置100，藉以遠端執行語音控制裝置100的聲控功能。

值得一提的是，本發明實施例的語音控制裝置100設置於一私有網路（例如家用網路等區域網路）中，並例如作為此私有網路中的伺服器。因此，相對於一般設置於外部網路的伺服器而言，本發明實施例可避免外部裝置侵入或是不當操作的問題。

具體而言，語音控制裝置100包括通訊單元110、儲存單元120以及處理單元130。通訊單元110例如是有線網路介面卡或是支援電機電子工程師學會（Institute of Electrical and Electronics Engineers，IEEE）802.11b/g/n等通訊協定的無線網路介面卡，或支援其他網路協定的網路通訊模組，其可用以經由網路來傳送資料或接收資料。在本實施例中，通訊單元110可用以連結網際網路，讓語音控制裝置100可經由網際網路以將資料傳送至使用者裝置300，以及經由網際網路以從使用者裝置300接收資料。此外，通訊單元110並可連結區域網路，以提供語音控制裝置100經由區域網路來控制位於同一區域網路中的電子裝置200（例如，智慧家庭中的智慧家電產品，其隸屬於同一家用網路）。

儲存單元120例如是各種非揮發性（non-volatile）記憶體或其組合，例如唯讀記憶體（Read-Only Memory，ROM）及/或快閃記憶體（flash memory）。另外，儲存單元120也可包括硬碟、光碟或外接式儲存裝置（如記憶卡、隨身碟等）等儲存媒體或其組合，在此並不對儲存單元120的體現方式加以限制。在本實施例中，儲存單元120用以記錄語音通信模組122以及語音助理模組124。這些模組例如是儲存在儲存單元120中的程式，其可載入語音控制裝置100的處理單元130，而由處理單元130執行語音接收、辨識及控制等功能。需說明的是，本實施例中所述儲存單元120並未限制是單一記憶體元件，上述模組亦可以分開儲存在兩個或兩個以上相同或不同型態之記憶體元件中。

另外，儲存單元120還可包括語音資料庫（未繪示），並可選擇性地包括聲紋資料庫（未繪示）。語音資料庫用以記錄多個預設音頻信號，並可例如對應於多個字彙或音序等。聲紋資料庫用以記錄多個預設聲紋，這些預設聲紋可分別對應於不同的使用者。簡單來說，這些預設聲紋所對應的使用者可視為是被允許存取語音控制裝置100的合法使用者。

處理單元130例如是中央處理單元，或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置或這些裝置的組合。處理單元130耦接通訊單元110以及儲存單元120，其用以存取並執行儲存單元120中記錄的模組，並控制語音控制裝置100的整體運作，從而實現本實施例的語音控制方法。本實施例中所述處理單元130並未限制是單一處理元件，也可以是由兩個或兩個以上之處理元件共同執行。

電子裝置200包括通訊單元210。通訊單元210例如是有線網路介面卡或是支援電機電子工程師學會（Institute of Electrical and Electronics Engineers，IEEE）802.11b/g/n等通訊協定的無線網路介面卡，或支援其他網路協定的網路通訊模組，其可用以經由網路來傳送資料或接收資料。在本實施例中，通訊單元210可連結區域網路以提供電子裝置200接收來自語音控制裝置100的控制指令，並使電子裝置200可依據控制指令而執行對應的操作。

另外，電子裝置200還可包括儲存單元（未繪示）以及處理單元（未繪示）。其中，電子裝置200的儲存單元例如是各種非揮發性（non-volatile）記憶體或其組合，例如唯讀記憶體（Read-Only Memory，ROM）及/或快閃記憶體（flash memory），或也可包括硬碟、光碟或外接式儲存裝置（如記憶卡、隨身碟等）等儲存媒體或其組合，其可用以儲存接收到的控制指令。至於電子裝置200的處理單元則例如是中央處理單元，或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置或這些裝置的組合，其用以控制電子裝置200的整體運作。

圖2是依照本發明一實施例所繪示的語音控制方法的流程圖，其適用於圖1的語音控制系統10。以下即搭配語音控制系統10中的各項元件，說明本實施例方法的詳細流程。

請參照圖1和圖2，在步驟S202中，語音通信模組122透過網際網路接收語音資料。上述的語音資料例如是基於VoIP的語音資料，且是經數位化後的語音信號。

語音通信模組122例如是接收由使用者裝置300經由網際網路所發出的語音資料。在一實施例中，語音通信模組122例如是Skype、Line等VoIP應用程式。因此，當語音控制裝置100和使用者裝置300皆執行VoIP應用程式，且使用者在遠端操作使用者裝置300並透過VoIP以和語音控制裝置100建立通話時，使用者發出的語音訊號便可透過使用者裝置300上的VoIP應用程式而轉換成基於VoIP的語音資料，並且被傳送至語音通信模組122。從另一角度而言，本實施例的語音控制裝置100可透過應用程式來接收語音資料。

在步驟S204中，語音助理模組124對語音資料執行語音辨識動作以獲得語音資料中的控制指令。詳言之，語音助理模組124例如包括語音識別器，其可具有語音辨識與分析功能。在本實施例中，語音助理模組124可比對語音資料是否符合語音資料庫中的預設音頻信號的至少其中之一。當上述比對結果為是時，語音助理模組124便可將與語音資料符合的預設音頻信號視為控制指令。進一步來說，上述的預設音頻信號可以對應於聲學模型和/或語言模型，其中，聲學模型例如是一個或多個發音上的最小單位（例如，KK音標或注音符號（Phonetic Symbol）等）的組合。至於語言模型則例如是特定語言（例如英文或中文等）的常用語法規則。因此，語音助理模組124可從語音資料中擷取聲學特徵，並將聲學特徵與語音資料庫所包括的聲學模型和語言模型進行比對，據以判斷出與語音資料相應的字彙或音節，並獲得語音資料中的控制指令。

在本實施例中，語音助理模組124例如是使用單一的語音資料庫以對語音資料進行辨識。在另一實施例中，語音助理模組124則可對不同使用者分別建立的語音資料庫，以使用與使用者相對應的語音資料庫來對此使用者的語音資料進行辨識。在此架構下，語音助理模組124還可藉由學習機制以對特定使用者的語音辨識進行優化。此部分的細節將於之後的實施例中再行描述。

此外，在其他實施例中，語音助理模組124也可透過網路連接至一雲端伺服器，且語音助理模組124可與雲端伺服器通信，以在判斷語音資料中的控制指令必須透過連接網路才能處理時，由雲端伺服器來協助處理此控制指令。

之後，在步驟S206中，語音通信模組122透過網際網路傳送反應於控制指令的語音回應信息，以及，在步驟S208中，語音助理模組124依據控制指令以透過區域網路控制電子裝置200。上述的語音回應信息例如是由語音助理模組124依據控制指令所產生，並於之後由語音通信模組122將語音回應信息回傳至使用者裝置300。換言之，語音回應信息的資料格式可與語音資料相同。在本實施例中，語音回應信息也例如是基於VoIP的資料格式。

藉此，使用者裝置300可在接收到語音回應信息之後，例如透過語音輸出單元（例如揚聲器）而直接將基於VoIP的語音回應信息轉換成類比形式的語音信號並輸出，以向遠端使用者呈現關於此控制指令的語音辨識結果或是關於電子裝置200的控制資訊。或者，使用者裝置300也可利用顯示單元（例如螢幕）而以文字的方式來呈現語音辨識結果或相關的控制資訊。上述在使用者裝置300端呈現語音回應信息的方式可依實務上的需求而定，本發明對此不限制。

如此一來，本實施例透過VoIP技術在使用者裝置300和語音控制裝置100之間傳送語音資料以及語音回應信息，可讓使用者透過使用者裝置300以遠端操作語音控制裝置100的語音助理模組124，從而實現語音控制裝置100與遠端操作的使用者裝置300之間的語音互動。

另一方面，由於語音控制裝置100和電子裝置200可分別經由通訊單元110與通訊單元210而連結至同一區域網路，因此，在語音助理模組124獲得語音資料中的控制指令之後，也可據以透過區域網路來控制電子裝置200，從而使電子裝置200執行與控制指令相應的動作。藉此，使用者便可在遠端以聲控的方式來對智慧家庭服務中的家電進行控制。

圖3是依照本發明一實施例所繪示的語音控制系統的方塊圖，其繪示出語音控制裝置100的詳細架構。請參照圖3，語音控制系統30包括語音控制裝置100、至少一個電子裝置200（圖3中僅繪示出一個電子裝置200以便於說明）以及使用者裝置300。語音控制系統30與圖1的語音控制系統10類似，故相同或相似之處不再贅述。

在本實施例中，語音控制裝置100的儲存單元120還用以記錄系統語音輸入模組126以及系統語音輸出模組128，其可分別用以橋接語音通信模組122與語音助理模組124之間的語音資料傳輸。

具體而言，語音通信模組122可透過網際網路接收語音資料，並將語音資料提供至系統語音輸入模組126。系統語音輸入模組126可對語音資料進行格式轉換，並將經過格式轉換後的語音資料提供至語音助理模組124。若以語音通信模組122接收的是基於VoIP的語音資料為例，則系統語音輸入模組126例如是將基於VoIP的語音資料轉換成具有系統語音輸入規格的語音資料，以提供給語音助理模組124以進行辨識。

在語音助理模組124對語音資料進行的語音辨識動作完成之後，語音助理模組124可獲得控制指令，並依據控制指令產生語音回應信息，以及將語音回應信息提供至系統語音輸出模組128。系統語音輸出模組128可對語音回應信息進行格式轉換，並將經過格式轉換後的語音回應信息提供至語音通信模組122。上述的語音回應信息例如具有系統語音輸出規格，故系統語音輸出模組128可例如將具有系統語音輸出規格的語音回應信息轉換成基於VoIP的語音回應信息，以將語音回應信息提供至語音通信模組122，並由語音通信模組122透過網際網路以將語音回應信息傳送至使用者裝置300。

值得一提的是，本發明實施例僅由語音控制裝置100來對語音資料進行語音辨識，使用者裝置300無需執行語音辨識動作，故也不需要在使用者裝置300上特別配置具有強大運算能力的處理器以及記錄大量預設語音音頻信號的語音資料庫，因此能夠簡化使用者裝置300的設計。此外，藉由VoIP技術來傳輸語音，還可避免網路上的防火牆及網路設定可能阻擋網路連線的問題。

另外，考量遠端聲控功能的安全性問題以及語音辨識的準確度，在一些實施例中，語音助理模組124還可透過聲紋辨識以確認使用者身分，並針對使用者提供個別的語音資料庫以進行控制指令的比對，藉此避免因使用者的口音或說話習慣不同而影響控制指令辨識的準確度。

在此舉一實施例進行說明。圖4是依照本發明一實施例所繪示的語音控制方法的流程圖，其繪示出語音助理模組124對語音資料執行語音辨識動作的詳細步驟。本實施例適用於圖1的語音控制系統10，而與前述實施例的不同之處在於，本實施例的語音控制裝置100更包括聲紋資料庫以及多個語音資料庫，其可分別記錄於儲存單元130中。其中，聲紋資料庫可記錄多個預設聲紋，這些預設聲紋分別對應所述語音資料庫，且各語音資料庫可記錄多個預設音頻信號。

請參照圖4，在步驟S402中，語音助理模組124依據語音資料的特徵參數以獲得語音資料中的聲紋資訊。舉例而言，語音助理模組124可藉由線性預測係數（Linear Prediction Coefficient，LPC)、梅爾頻率倒頻譜係數（Mel-Frequency Cepstral Coefficient，MFCC）等運算，以提取語音資料的特徵參數並作為聲紋資訊。

在步驟S404中，語音助理模組124比對聲紋資訊是否符合聲紋資料庫中的多個預設聲紋的其中之一。若是，則語音助理模組124判定此聲紋資訊對應的是合法使用者，且在步驟S406中，語音助理模組124獲得與聲紋資訊符合的預設聲紋所對應的語音資料庫，並將此語音資料庫視為語音資料對應的特定語音資料庫。若否，則語音助理模組124可判定此聲紋資訊不具有語音控制裝置100的存取權限，故不再對此語音資料進行後續處理，並回到步驟S402以重新接收語音資料。

接著，在步驟S408中，語音助理模組124比對語音資料是否符合特定語音資料庫中的多個預設音頻信號的至少其中之一。若是，則在步驟S410中，語音助理模組124將與語音資料符合的預設音頻信號視為控制指令。若否，則語音助理模組124可判定此語音資料中的控制指令並非權限中的控制指令，故不執行此控制指令，並回到步驟S402。

值得一提的是，在一實施例中，語音控制裝置100還可提供機器學習機制，以依據使用者的輸入操作來對上述的特定語音資料庫進行更新。例如，在使用者裝置300接收到語音控制裝置100所回傳的語音回應信息時，使用者裝置300還可例如提供一輸入介面，讓使用者能夠透過例如文字輸入的方式來回饋對於語音辨識結果的修正意見。藉此，語音控制裝置100可透過數據訓練來調整此特定語音資料庫中的聲學模型和/或語言模型，從而優化對此使用者的語音辨識的準確度。

接下來則說明語音控制裝置如何利用聲紋資訊、提示命令以及環境資訊等參數以實現基於安全性考量的控制設定。其中，本發明實施例除了可利用前述的聲紋辨識來確認使用者是否為合法使用者之外，還可對使用者設定不同的使用權限，並藉由語音資料中的提示命令獲得使用者狀態（例如使用者是在家或是外出等位置資訊），藉以利用使用者狀態和/或環境資訊適時地調整使用權限以及判斷目前的使用情境。藉此，本發明實施例除了可判斷使用者對於語音控制的權限之外，還能夠在特定的使用情境下進一步限制語音控制裝置對使用者所提供的聲控功能，或是使語音控制裝置自動執行特定的操作模式。因此，可以有效兼顧智慧家庭服務的操作便利性以及安全性。

圖5是依照本發明一實施例所繪示的語音控制系統的方塊圖。請參照圖5，語音控制系統50包括語音控制裝置500以及至少一個電子裝置200（圖5中僅繪示出一個電子裝置200以便於說明）。語音控制裝置500包括通訊單元510、儲存單元520以及處理單元530。其中，儲存單元520用以記錄語音通信模組522、語音助理模組524、權限設定模組526以及控制模組528，其例如是儲存在儲存單元520中的程式，並可載入語音控制裝置500的處理單元530，而由處理單元530執行語音辨識、權限設定及控制等功能。另外，電子裝置200則包括通訊單元210、儲存單元（未繪示）以及處理單元（未繪示）。本實施例的各個元件分別與前述實施例類似，故相同或相似之處不再贅述。

詳細來說，語音通信模組522可用以接收語音資料。在本實施例中，語音通信模組522例如可透過收音裝置（例如麥克風或其他收音器）直接接收使用者所發出的語音信號，並由語音通信模組522對語音信號進行數位化處理以獲得語音資料。換言之，本實施例的使用者與語音控制裝置500位在同一房間、會議室等空間之中。在其他實施例中，語音通信模組522也可透過網際網路接收來自使用者裝置（例如圖1實施例中的使用者裝置300）的語音資料，且此語音資料例如是基於VoIP的語音資料。此部分的實施細節與前述實施例類似，故不再重複說明。

語音助理模組524可對語音資料執行語音辨識動作以獲得語音資料對應的聲紋資訊以及提示命令。語音助理模組524例如是透過擷取語音資料中的特徵參數以獲得聲紋資訊，其可用以確認使用者身分。另外，語音助理模組524例如是透過比對語音資料以及語音資料庫以獲得提示命令。在本實施例中，所述提示命令例如包括『外出中』、『在家中』等特定字句的位置資訊，其可用以記錄為使用者狀態。上述語音助理模組524執行語音辨識動作以獲得語音資料對應的聲紋資訊以及提示命令的詳細流程可與圖4的實施例類似，故其細節請參照前述。

權限設定模組526可依據聲紋資訊以及提示命令，以決定聲紋資訊對應的權限資訊。具體而言，權限設定模組526可對使用者（分別對應於不同聲紋資訊）設定不同的權限等級。這些權限等級可用以決定受控於此聲紋資訊（對應使用者）的電子裝置200的裝置數量、功能數量或其組合，並可例如以查找表的方式儲存於儲存單元520中。

至於控制模組528則可依據權限資訊、提示命令以及環境資訊的至少其中之一，以透過區域網路控制電子裝置200。換句話說，本實施例可透過權限資訊以及環境資訊的組合來設定多種使用情境，從而使控制模組528依照不同的使用情境來對電子裝置200進行控制。

例如，當語音控制系統50包括一個電子裝置200時，權限等級的高低可決定此聲紋資訊可控制電子裝置200的功能數量的多寡。再如語音控制系統50包括多個電子裝置200的情況，權限等級的高低除了能夠決定此聲紋資訊可控制每一電子裝置200的功能數量多寡之外，還能夠決定此聲紋資訊在語音控制系統50中可控制的電子裝置200的裝置數量。從另一角度而言，當權限等級較高時，對應於聲紋資訊的語音資料可控制語音控制系統50的能力較強，而當權限等級較低時，對應於聲紋資訊的語音資料可控制語音控制系統50的能力則受到限制。

因此，在本實施例中，當語音助理模組524獲得聲紋資訊時，權限設定模組526便可依據聲紋資訊查找資料庫，以從多個權限等級中選擇其中之一以作為此聲紋資訊所對應的權限資訊。此外，權限設定模組526還可根據提示命令中是否包含使用者的位置資訊，以適應性地提高或降低權限資訊的權限等級。

在此以圖6的實施例對決定權限資訊的詳細步驟進行說明。圖6是依照本發明一實施例所繪示的語音控制方法的流程圖，其適用於圖5的語音控制系統50。

請參照圖6，在步驟S602中，權限設定模組526依據聲紋資訊，選擇多個權限等級的其中之一以設定為權限資訊。換言之，權限設定模組526可先查找資料庫中此聲紋資訊所對應的預設權限等級，並設定為目前的權限資訊。

在步驟S604中，權限設定模組526提供聲紋資訊對應的使用者狀態。所述使用者狀態例如是記錄於儲存單元520中，或是可記錄於其他的暫存器。

接著，在步驟S606中，權限設定模組526將提示命令包括的位置資訊記錄至使用者狀態。詳言之，權限設定模組526可判斷提示命令是否包括位置資訊，並當提示命令包括位置資訊時，權限設定模組526可將位置資訊記錄至使用者狀態。所述位置資訊可例如是前述的『外出中』、『在家中』等特定字句。

之後，在步驟S608中，權限設定模組526判斷使用者狀態是否依據位置資訊而變更，且當使用者狀態依據位置資訊而變更時，在步驟S610中，權限設定模組526更新權限資訊的權限等級。其中，上述對於權限資訊的更新動作例如是由權限設定模組526依據使用者狀態以將第一權限資訊調整為所述權限等級的其中之另一。

另一方面，若使用者狀態並未變更，則進入步驟S612，權限設定模組526不執行權限資訊的更新動作。

舉例來說，當語音通信模組522透過語音控制裝置500的收音單元直接接收到一合法使用者的語音資料時，權限設定模組526可依照此使用者的聲紋資訊而對應查找出權限資訊。另外，權限設定模組526並可將此聲紋資訊對應的使用者狀態預設成『在家中』。當權限設定模組526判斷提示命令包括『外出中』或其他與『在家中』不同的位置資訊時，權限設定模組526可將上述的位置資訊（例如『外出中』）記錄至使用者狀態。此時，由於使用者狀態因位置資訊而發生變更，故權限設定模組526會調整權限資訊的權限等級。在此實施例中，當使用者狀態從『在家中』而被切換成『外出中』時，權限設定模組526例如是降低權限資訊的權限等級。另一方面，當提示命令未包括位置資訊、或是提示命令只包括『在家中』的位置資訊時，權限設定模組526則不變更使用者狀態，也因此不對權限資訊進行更新/調整，而直接將目前的權限等級設定為此聲紋資訊對應的權限資訊。

藉此，本實施例可提供使用者透過聲控的方式以將使用者狀態（例如使用者是否為外出）告知語音控制裝置500，再由語音控制裝置500決定是否依據使用者狀態來調整權限資訊的權限等級。從另一角度而言，本實施例透過調整權限資訊以限制不在家中的使用者對於控制語音控制裝置500的使用權限以及操作模式。

在另一實施例中，當語音控制裝置500接收到多個使用者的語音資料時，若判斷具有高使用權限的使用者在家，則權限設定模組526可對應地提高具有低使用權限的使用者所對應的權限資訊的權限等級。

以語音控制裝置100分別接收到第一使用者的第一語音資料以及第二使用者的第二語音資料的情況為例，若第一使用者和第二使用者皆為合法使用者，且相對於第二使用者而言，第一使用者對應的權限資訊的權限等級較高，則當權限設定模組526判斷第一提示命令包括『在家中』的字句時，權限設定模組526可將『在家中』記錄至第一使用者的使用者狀態，並提高第二使用者對應的權限資訊的權限等級，例如讓第二使用者可透過語音控制來操作的電子裝置200的功能數量增加。

上述情境可以圖7的流程圖來表示。圖7是依照本發明一實施例所繪示的語音控制方法的流程圖，其適用於圖5的語音控制系統50。

請參照圖7，在步驟S702中，語音通信模組522接收第一語音資料。在步驟S704中，語音助理模組524對第一語音資料執行語音辨識動作以獲得第一語音資料對應的第一聲紋資訊以及第一提示命令。在步驟S706中，權限設定模組526依據第一聲紋資訊以及第一提示命令，以決定第一聲紋資訊對應的第一權限資訊。此外，在步驟S708中，語音通信模組522接收第二語音資料。在步驟S710中，語音助理模組524對第二語音資料執行語音辨識動作以獲得第二語音資料對應的第二聲紋資訊以及第二提示命令。其中第二聲紋資訊與第一聲紋資訊不同。在步驟S712中，權限設定模組526依據第二聲紋資訊以及第二提示命令，以決定第二聲紋資訊對應的第二權限資訊。

上述決定第一權限資訊的步驟（即步驟S702、S704、S706）以及決定第二權限資訊的步驟（即步驟S708、S710、S712）的實施細節已於前述實施例中有詳細說明，故請參照前述。另外值得一提的是，上述決定第一權限資訊的步驟和決定第二權限資訊的步驟的執行順序可依實務上的需求而定，例如，步驟S708、S710、S712可與步驟S702、S704、S706同時或之前進行，本發明對此不限制。

接著，在步驟S714中，權限設定模組526判斷第一聲紋資訊對應的使用者狀態是否記錄特定位置資訊且第一權限資訊是否高於第二權限資訊。當第一聲紋資訊對應的使用者狀態記錄特定位置資訊且第一權限資訊高於第二權限資訊時，在步驟S716中，權限設定模組526依據第一權限資訊以提高第二權限資訊的權限等級。而若步驟S14的判斷結果為否，則在步驟S718中，權限設定模組526不對第二權限資訊的權限等級進行調整。

在另一實施例中，語音控制裝置500還可在使用者意圖控制特定電子裝置（例如特定家電），亦即辨識出提示命令中包括一特定電子裝置200的情況下，提醒最高權限等級的使用者。具體而言，控制模組528可判斷提示命令中是否包括電子裝置200的裝置資訊（例如電子裝置200的名稱），若是，則控制模組528可搜尋所述預設聲紋中對應於最高權限等級的特定聲紋，並將提示信息傳送至此特定聲紋所對應的使用者。上述的提示信息可例如透過使用者的使用者裝置來接收。或者，當控制模組528判斷此使用者與語音控制裝置500本身位於同一空間當中時，控制模組528也可直接控制由裝置本身的輸出單元（例如揚聲器、螢幕、LED燈）來提示此使用者。本發明並不限制提示信息的呈現方式。

此外，在其他實施例中，語音控制裝置500還可依據環境資訊以決定語音控制裝置500對於電子裝置200的控制模式。上述的環境資訊可包括時間資訊，其例如是一時間區間或是一特定時間點。

舉例來說，語音控制裝置500的一種自動操作模式為當語音控制裝置500允許存取的合法使用者都不在家時，語音控制裝置500會在下午六點時自動開啟玄關的燈光。控制模組528可持續偵測時間，並當在下午六點時，判斷語音控制裝置500允許存取的合法使用者所對應的使用者狀態是否都不是被記錄成『在家中』的位置資訊。若皆不是，控制模組528判斷這些使用者都不在家，並執行上述開啟玄關燈光的自動操作。

上述情境可以圖8的流程圖來表示。圖8是依照本發明一實施例所繪示的語音控制方法的流程圖，並適用於圖5的語音控制系統50。

請參照圖8，在步驟S802中，當偵測到環境資訊為一特定時間點時，控制模組528獲得預設聲紋分別對應的多個使用者狀態。在步驟S804中，控制模組528判斷各使用者狀態是否被設定為特定位置資訊。當所述使用者位置狀態皆未被設定為特定位置資訊時，在步驟S806中，控制模組528執行此特定時間點對應的操作模式以控制電子裝置200。

在另一範例中，語音控制裝置500可被設置於會議室。其中，語音控制裝置500可提供聲控功能以提供使用者控制會議室中的投影機以及音訊輸出設備，並可在午休期間限制使用者使用上述的聲控功能。例如，一般音訊輸出設備的輸出音量可讓使用者在一強度區間內進行調整，但在午休期間，使用者則例如被限制而僅能將輸出音量控制在上述強度區間的最大強度的一半或以下。另一方面，對於具有不同權限資訊的使用者而言，在午休期間，語音控制裝置500也可選擇性地禁止具有較低權限等級的使用者在午休期間操作投影機以及音訊輸出設備的所有功能。

換言之，上述範例中的控制模組528可偵測環境資訊是否符合一特定時間區間（例如上述的午休期間），且當環境資訊符合此特定時間區間時，控制模組528可依據權限資訊以限制執行語音資料對於電子裝置200的控制動作。

基於上述的實施例，本發明實施例另提出一種語音控制方法。請參照圖9，圖9是依照本發明一實施例所繪示的語音控制方法的流程圖，其適用於圖5的語音控制系統50。在步驟S902中，語音通信模組522接收語音資料。在步驟S904中，語音助理模組524對語音資料執行語音辨識動作以獲得語音資料對應的聲紋資訊以及提示命令。在步驟S906中，權限設定模組526依據聲紋資訊以及提示命令，以決定聲紋資訊對應的權限資訊。在步驟S908中，控制模組528依據權限資訊、提示命令以及環境資訊的至少其中之一，以透過區域網路控制電子裝置200。

綜上所述，本發明實施例利用VoIP技術可將語音透過網路傳輸到遠端的特性，將透過網際網路所接收的語音資料橋接至語音助理，讓使用者可在遠端利用語音來對語音控制裝置的語音助理模組進行操作，進而透過語音助理模組來控制位於同一區域網路中的其他電子裝置，從而實現語音助理的遠端聲控功能。由於語音辨識動作是由語音控制裝置來執行，故使用者裝置所配置的元件可得以簡化。另一方面，本發明實施例還可利用聲紋辨識來確認使用者是否為合法使用者，並對合法使用者設定不同等級的使用權限。此外，藉由使用者狀態和/或環境資訊以適時地調整使用權限以及判斷目前的使用情境，本發明實施例可進一步限制語音控制裝置所提供的聲控功能或是自動執行特定的操作模式。藉此，可使智慧家庭在提升便利性的同時也能夠兼顧不同情境下的操作安全性。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10、30、50‧‧‧語音控制系統
100、500‧‧‧語音控制裝置
110、210、510‧‧‧通訊單元
120、520‧‧‧儲存單元
122、522‧‧‧語音通信模組
124、524‧‧‧語音助理模組
126‧‧‧系統語音輸入模組
128‧‧‧系統語音輸出模組
130、530‧‧‧處理單元
200‧‧‧電子裝置
300‧‧‧使用者裝置
526‧‧‧權限設定模組
528‧‧‧控制模組
S202~S208、S402~S410、S602~S612、S702~S718、S802~S806、S902~S908‧‧‧方法步驟

圖1是依照本發明一實施例所繪示的語音控制系統的方塊圖。圖2是依照本發明一實施例所繪示的語音控制方法的流程圖。圖3是依照本發明一實施例所繪示的語音控制系統的方塊圖。圖4是依照本發明一實施例所繪示的語音控制方法的流程圖。圖5是依照本發明一實施例所繪示的語音控制系統的方塊圖。圖6是依照本發明一實施例所繪示的語音控制方法的流程圖。圖7是依照本發明一實施例所繪示的語音控制方法的流程圖。圖8是依照本發明一實施例所繪示的語音控制方法的流程圖。圖9是依照本發明一實施例所繪示的語音控制方法的流程圖。

S202~S208‧‧‧方法步驟

Claims

一種語音控制方法，適用於連結至一區域網路的一語音控制裝置，該語音控制方法包括：透過一網際網路接收一語音資料；對該語音資料執行一語音辨識動作以獲得該語音資料中的一控制指令；透過該網際網路傳送反應於該控制指令的一語音回應信息；以及依據該控制指令，透過該區域網路控制至少一電子裝置。
如申請專利範圍第1項所述的語音控制方法，其中透過該網際網路接收該語音資料的步驟包括：接收由一使用者裝置經由該網際網路所發出的該語音資料。
如申請專利範圍第2項所述的語音控制方法，其中透過該網際網路傳送反應於該控制指令的該語音回應信息的步驟包括：透過該網際網路傳送該語音回應信息至該使用者裝置。
如申請專利範圍第1項所述的語音控制方法，其中該語音控制裝置包括一語音資料庫，該語音資料庫記錄多個預設音頻信號，且對該語音資料執行該語音辨識動作以獲得該語音資料中的該控制指令的步驟包括：比對該語音資料是否符合該語音資料庫中的該些預設音頻信號的至少其中之一；以及若是，將與該語音資料符合的預設音頻信號視為該控制指令。
如申請專利範圍第1項所述的語音控制方法，其中該語音控制裝置包括一聲紋資料庫以及多個語音資料庫，該聲紋資料庫記錄多個預設聲紋，該些預設聲紋分別對應該些語音資料庫，各該些語音資料庫記錄多個預設音頻信號，且對該語音資料執行該語音辨識動作以獲得該語音資料中的該控制指令的步驟包括：依據該語音資料的特徵參數以獲得該語音資料中的一聲紋資訊；比對該聲紋資訊是否符合該聲紋資料庫中的該些預設聲紋的其中之一；若是，獲得與該聲紋資訊符合的預設聲紋所對應的一語音資料庫，並將該語音資料庫視為該語音資料對應的一特定語音資料庫；比對該語音資料是否符合該特定語音資料庫中的該些預設音頻信號的至少其中之一；以及若是，將與該語音資料符合的預設音頻信號視為該控制指令。
如申請專利範圍第5項所述的語音控制方法，更包括：依據一輸入操作以對該特定語音資料庫進行更新。
如申請專利範圍第1項所述的語音控制方法，其中透過該網際網路接收該語音資料的步驟包括：透過一應用程式接收該語音資料。
如申請專利範圍第1項所述的語音控制方法，其中該語音資料為基於網際網路語音協定的語音資料。
如申請專利範圍第1項所述的語音控制方法，其中該語音控制裝置包括一語音通信模組、一系統語音輸入模組、一語音助理模組以及一系統語音輸出模組，其中，該語音通信模組透過該網際網路接收該語音資料，並將該語音資料提供至該系統語音輸入模組，該系統語音輸入模組對該語音資料進行格式轉換，並將經過格式轉換後的該語音資料提供至該語音助理模組，該語音助理模組依據該控制指令產生該語音回應信息，並將該語音回應信息提供至該系統語音輸出模組，該系統語音輸出模組對該語音回應信息進行格式轉換，並將經過格式轉換後的該語音回應信息提供至該語音通信模組，以及該語音通信模組透過該網際網路傳送該語音回應信息。
一種語音控制系統，包括：一使用者裝置，透過一網際網路發出一語音資料；至少一電子裝置，包括：一第一通訊單元，連結至一區域網路；以及一語音控制裝置，包括：一第二通訊單元，連結至該區域網路；一儲存單元，記錄多個模組；以及一處理單元，耦接該第二通訊單元以及該儲存單元，用以存取並執行該儲存單元中記錄的該些模組，該些模組包括：一語音通信模組，透過該網際網路接收該語音資料；以及一語音助理模組，對該語音資料執行一語音辨識動作以獲得該語音資料中的一控制指令，其中，該語音通信模組透過該網際網路傳送反應於該控制指令的一語音回應信息，且該語音助理模組依據該控制指令以透過該區域網路控制該至少一電子裝置。