TWI639153B - 電子裝置及其透過語音辨識喚醒的方法 - Google Patents
電子裝置及其透過語音辨識喚醒的方法 Download PDFInfo
- Publication number
- TWI639153B TWI639153B TW105113280A TW105113280A TWI639153B TW I639153 B TWI639153 B TW I639153B TW 105113280 A TW105113280 A TW 105113280A TW 105113280 A TW105113280 A TW 105113280A TW I639153 B TWI639153 B TW I639153B
- Authority
- TW
- Taiwan
- Prior art keywords
- electronic device
- sound feature
- threshold
- false
- processor
- Prior art date
Links
Abstract
一種透過語音辨識喚醒一電子裝置的方法,包括以下步驟:接收一目前聲音訊號;擷取目前聲音訊號之一目前聲音特徵;判斷是否有儲存一前一聲音訊號之一前一聲音特徵;當儲存有前一聲音特徵時,則根據前一聲音特徵對應一誤接受(False Acceptance)的情況或一誤拒絕(False Rejection)的情況以及目前聲音特徵與前一聲音特徵之間之一相似度,調整一信心門檻值,或者當儲存有該前一聲音特徵時,則根據該前一聲音特徵對應該誤接受的情況或該誤拒絕的情況以及該目前聲音特徵與該前一聲音特徵之間之該相似度,決定是否喚醒電子裝置。
Description
本發明是有關於一種電子裝置及其喚醒的方法,且特別是有關於一種電子裝置及其透過語音辨識喚醒的方法。
近年來,由於科技的進步,使用者可透過語音進行電子裝置的控制,例如使用者可透過語音喚醒電子裝置。但是,由於各項因素的影響,往往會造成誤接受(False Acceptance)的情況(也就是電子裝置在非預期的情況下被喚醒),或者造成誤拒絕(False Rejection)的情況(也就是使用者欲透過語音喚醒電子裝置,但卻無法成功喚醒電子裝置)。舉例來說,吵雜的環境聲音有可能在非預期的情況下喚醒電子裝置。或者,使用者在與別人交談,但是講話的聲音卻在非預期的情況下喚醒電子裝置。或者,由於使用者的口音問題而造成無法成功喚醒電子裝置。一般來說,欲改善上述問題必須線上調整(On-line adaptation)關鍵詞組語音模型或預先訓練特定使用者之關鍵詞組語音模型,但是線上調
整或是預先訓練關鍵詞組語音模型的複雜度高,不符合成本考量。且若在調整或是預先訓練關鍵詞組語音模型時發生錯誤,則可能造成關鍵詞組語音模型無法使用。因此,如何有效改善誤接受及誤拒絕的情況來增加成功喚醒電子裝置的機率,乃業界所努力的方向之一。
本發明係有關於一種電子裝置及其透過語音辨識喚醒的方法,可調整透過語音辨識喚醒電子裝置的準確率。
根據本發明之一方面,提出一種透過語音辨識喚醒一電子裝置的方法。方法包括以下步驟:接收一目前聲音訊號;擷取目前聲音訊號之一目前聲音特徵;判斷是否有儲存一前一聲音訊號之一前一聲音特徵;當儲存有前一聲音特徵時,則根據前一聲音特徵對應一誤接受的情況或一誤拒絕的情況以及目前聲音特徵與前一聲音特徵之間之一相似度,調整一信心門檻值,或者當儲存有該前一聲音特徵時,則根據該前一聲音特徵對應該誤接受的情況或該誤拒絕的情況以及該目前聲音特徵與該前一聲音特徵之間之該相似度,決定是否喚醒電子裝置。
根據本發明之另一方面,提出一種電子裝置。電子裝置包括儲存裝置、聲音接收裝置及處理器。聲音接收裝置用以接收一目前聲音訊號。處理器用以擷取目前聲音訊號之一目前聲音特徵,並判斷儲存裝置中是否有儲存一前一聲音訊號之一前一
聲音特徵。當儲存裝置儲存有前一聲音特徵時,則處理器根據前一聲音特徵對應一誤接受的情況或一誤拒絕的情況以及該聲音特徵與前一聲音特徵之間之一相似度,調整一信心門檻值,或者當儲存有該前一聲音特徵時,則根據該前一聲音特徵對應該誤接受的情況或該誤拒絕的情況以及該目前聲音特徵與該前一聲音特徵之間之該相似度,決定是否喚醒該電子裝置。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉較佳實施例,並配合所附圖式,作詳細說明如下:
S101~S110、S201~S214、S301~S314、S401~S411、S501~S515‧‧‧流程步驟
100‧‧‧電子裝置
101‧‧‧儲存裝置
102‧‧‧聲音接收裝置
103‧‧‧處理器
104‧‧‧使用者介面
1021‧‧‧麥克風
1022‧‧‧語音活動偵測電路
1023‧‧‧類比數位轉換器
第1圖繪示根據本發明一實施例之電子裝置之方塊圖。
第2圖繪示根據本發明另一實施例之電子裝置之方塊圖。
第3圖繪示根據本發明一實施例之透過語音辨識喚醒電子裝置的方法之流程圖。
第4圖繪示關鍵詞組語音模型之一例之示意圖。
第5圖繪示維特比演算法之示意圖。
第6A及6B圖繪示根據本發明另一實施例之透過語音辨識喚醒電子裝置的方法之流程圖。
第7圖繪示動態時間扭曲演算法之示意圖。
第8A及8B圖繪示根據本發明另一實施例之透過語音辨識喚醒電子裝置的方法之流程圖。
第9圖繪示根據本發明另一實施例之透過語音辨識喚醒電子
裝置的方法之流程圖。
第10A及10B圖繪示根據本發明另一實施例之透過語音辨識啟動電子裝置之特定功能的方法之流程圖。
請參考第1圖,第1圖繪示根據本發明一實施例之電子裝置100之方塊圖。電子裝置100包括一儲存裝置101、一聲音接收裝置102、一處理器103以及選擇性的包括一使用者介面104。儲存裝置101用以儲存資料,儲存裝置101例如為記憶體。聲音接收裝置102用以接收聲音,並將類比聲音訊號轉換成數位聲音訊號。儲存裝置101及聲音接收裝置102耦接至處理器103,處理器103用以接收聲音接收裝置102所輸出之數位聲音訊號,並擷取此數位聲音訊號之聲音特徵,以及存取儲存裝置101並管理儲存於儲存裝置101之資料。使用者介面104用以接收使用者之輸入,以及提供輸出資訊,使用者介面104例如為觸控面板。
請參考第2圖,第2圖繪示根據本發明另一實施例之電子裝置100之方塊圖。在此實施例中,聲音接收裝置102例如可以一麥克風1021、一語音活動偵測(Voice Activity Detection,VAD)電路1022及一類比/數位轉換器(Analog to DigitalConverter)1023來實施。麥克風1021用以接收聲音。類比/數位轉換器1023用以將類比聲音訊號轉換成數位聲音訊號。語
音活動偵測電路1022用以偵測聲音,並當偵測到聲音時,發出一訊號至處理器103。例如當語音活動偵測電路1022偵測到聲音時,發出訊號(例如是中斷訊號(interrupt))至處理器103以喚醒處理器103或通知處理器103,使處理器103處理類比/數位轉換器1023輸出之數位聲音訊號。
請參考第1及3圖,第3圖繪示根據本發明一實施例之透過語音辨識喚醒電子裝置100的方法之流程圖。在此實施例中,處理器103可判斷目前聲音訊號之目前聲音特徵是否為誤接受或誤拒絕的情況,當所述目前聲音特徵為誤接受或誤拒絕的情況時,儲存所述目前聲音特徵做後續使用。
在步驟S101,聲音接收裝置102接收一目前聲音訊號。所述目前聲音訊號例如係根據使用者目前正在說話的聲音所得到。在步驟S102,處理器103擷取所述目前聲音訊號之目前聲音特徵。
在步驟S103,處理器103透過一匹配演算法比較上述目前聲音特徵與一關鍵詞組語音模型以得到一信心分數。也就是說,處理器103比較所述目前聲音特徵與所述關鍵詞組語音模型之關鍵詞組的相似程度得到所述信心分數,以根據此信心分數決定所述目前聲音特徵是否可以喚醒電子裝置100。當所述目前聲音特徵與所述關鍵詞組語音模型的關鍵詞組的相似程度高,則所述信心分數高,代表使用者講話的內容與所述關鍵詞組語音模型的關鍵詞組一樣或非常類似,因此使用者可能欲透過語音喚醒
電子裝置100。當所述目前聲音特徵與所述關鍵詞組語音模型的關鍵詞組的相似程度低,則所述信心分數低,代表使用者講話的內容與所述關鍵詞組語音模型的關鍵詞組差異大,因此使用者並非要透過語音來喚醒電子裝置100。
在一實施例中,匹配演算法可為維特比(Viterbi)演算法。請參考第4及5圖,第4圖繪示關鍵詞組語音模型之示意圖,第5圖繪示維特比演算法之一例之示意圖。假設上述關鍵詞組語音模型包括六個狀態,依序為sil、State 0、State 1、State 2、State 3及sil,其中各個狀態上的箭頭代表狀態的轉移,每個狀態的轉移包含一轉移機率(未標示)。在第5圖中,橫軸為目前聲音之音框fr0~fr12,縱軸為狀態s0~s5,狀態s0~s5分別對應至所述關鍵詞組語音模型之六個狀態sil、State 0、State 1、State 2、State 3及sil。處理器103可根據維特比演算法找出一最佳路徑使得整段路徑的分數為最大,其中最短路徑上之每一格之分數的總和即為所述信心分數。在另一實施例中,匹配演算法可為任意一種演算法,只要可計算所述目前聲音特徵與所述關鍵詞組語音模型中的關鍵詞組的相似程度即可。
在得到前述信心分數之後,接著進入步驟S104,處理器103判斷此信心分數是否大於或等於一信心門檻值。此信心門檻值代表所述目前聲音特徵可以喚醒電子裝置100的難易度。
當所述信心門檻值越低,則表示所述目前聲音特徵與所述關鍵詞組語音模型中的關鍵詞組的相似程度不需太高即可喚醒電子裝
置100,因此電子裝置100較容易被所述目前聲音特徵喚醒。當所述信心門檻值越高,則表示所述目前聲音特徵與所述關鍵詞組語音模型中的關鍵詞組的相似程度高才可喚醒電子裝置100,因此電子裝置100較不易被所述目前聲音特徵喚醒。
當所述信心分數大於或等於所述信心門檻值,則進入步驟S105;當所述信心分數小於所述信心門檻值,則進入步驟S106。在步驟S105,處理器103喚醒電子裝置100。當電子裝置100被喚醒之後,使用者可以各種操作方式操作電子裝置100。
舉例來說,使用者可透過語音操作電子裝置100。在另一實施例中,使用者透過按鍵操作電子裝置100、或者透過電子裝置100提供的使用者介面104操作電子裝置100,例如透過觸碰觸控螢幕操作電子裝置100。在步驟S106,處理器103不喚醒電子裝置100。
當處理器103判斷所述信心分數大於或等於所述信心門檻值而喚醒電子裝置100之後(也就是步驟S104及S105之後)。接著進入步驟S107,處理器103判斷所述目前聲音特徵是否對應誤接受的情況。上述之誤接受的情況為電子裝置100在非預期的情況下被喚醒。其判斷方式可包括在所述目前聲音特徵喚醒電子裝置100後,使用者是否於一特定時間內關掉喚醒之電子裝置100。假設在所述目前聲音特徵喚醒電子裝置100時,使用者於特定時間內關掉喚醒之電子裝置100。在這種情況中,代表使用者並不想喚醒電子裝置100,但是電子裝置100卻被所述目
前聲音特徵喚醒,故可判斷為誤接受的情況。接著,進入步驟S108,處理器103儲存所述目前聲音特徵至儲存裝置101並記錄所述目前聲音特徵為對應到誤接受的情況。
當處理器103判斷所述信心分數小於所述信心門檻值而不喚醒電子裝置100之後(也就是步驟S104及S106之後)。
接著進入步驟S109,處理器103判斷所述目前聲音特徵是否對應所述誤拒絕的情況。上述之誤拒絕的情況為使用者欲透過語音喚醒電子裝置100,但卻無法成功喚醒電子裝置100。其判斷方式可包括在所述目前聲音特徵未喚醒電子裝置100,且所述目前聲音特徵與所述關鍵詞組語音模型比較而得到之所述信心分數小於所述信心門檻值且其差值在一預定範圍內。在這種情況中,由於所述信心分數小於所述信心門檻值且其差值在預定範圍內(也就是所述信心分數很接近所述信心門檻值),代表使用者想要喚醒電子裝置100,但是電子裝置100卻沒有被所述目前聲音特徵所喚醒,故可判斷為誤拒絕的情況。接著,進入步驟S110,處理器103儲存所述目前聲音特徵至儲存裝置101並記錄所述目前聲音特徵為對應到誤拒絕的情況。
請參考第1、3、6A及6B圖,第6A及6B圖繪示根據本發明另一實施例之透過語音辨識喚醒電子裝置100的方法之流程圖。在此實施例中,處理器103更判斷儲存裝置101中是否有儲存一前一聲音訊號之一前一聲音特徵,並當儲存裝置101儲存有所述前一聲音特徵時,決定是否根據所述前一聲音特徵及
目前聲音特徵喚醒電子裝置100。
在聲音接收裝置102接收一目前聲音訊號,以及處理器103擷取所述目前聲音訊號之一目前聲音特徵之後(也就是步驟S201及S202之後),進入步驟S211。
在步驟S211,處理器103判斷儲存裝置101中是否有儲存一前一聲音訊號之一前一聲音特徵。當儲存裝置101儲存有所述前一聲音特徵時,則進入步驟S212;當儲存裝置101未儲存有所述前一聲音特徵時,則進入步驟S203。
在步驟S212,處理器103計算所述目前聲音特徵與所述前一聲音特徵之間之一相似度。也就是說,由於儲存裝置101儲存有所述前一聲音特徵,因此處理器103根據所述前一聲音特徵及所述目前聲音特徵來決定是否喚醒電子裝置100。在一實施例中,處理器103可透過動態時間扭曲(Dynamic Time Warping,DTW)演算法計算所述前一聲音特徵與所述目前聲音特徵之間之所述相似度。請參考第7圖,第7圖繪示動態時間扭曲演算法之示意圖。在第7圖中,P=P1,…,Ps,…,Pk,Ps=(is,js),其中P為翹曲函數(Warping function)。處理器103可透過動態時間扭曲演算法計算目前聲音特徵向量與前一聲音特徵向量之最短距離,該最短距離即為所述相似度。在另一實施例中,處理器103可透過任意一種演算法計算所述前一聲音特徵與所述目前聲音特徵之間之所述相似度,只要可計算兩個聲音特徵之間之相似度即可,在此並不限制。
在計算出所述相似度之後,接著進入步驟S213,處理器103判斷所述目前聲音特徵與所述前一聲音特徵之間之所述相似度是否大於或等於一相似度門檻值。當所述相似度大於或等於此相似度門檻值,則表示所述目前聲音特徵與所述前一聲音特徵之間的相似度高。也就是,使用者目前說話的內容與前一次說話的內容相似度高;當所述相似度小於所述相似度門檻值,則表示所述目前聲音特徵與所述前一聲音特徵之間的相似度低。也就是,使用者目前說話的內容與前一次說話的內容相似度低。當所述相似度大於或等於所述相似度門檻值,則進入步驟S214;當所述相似度小於所述相似度門檻值,則進入步驟S203。
在步驟S214,處理器103根據所述前一聲音特徵對應誤接受的情況或誤拒絕的情況,決定是否喚醒電子裝置100。
也就是說,由於所述目前聲音特徵與所述前一聲音特徵之間的所述相似度高,故處理器103根據所述前一聲音特徵來決定是否喚醒電子裝置100。
當所述前一聲音特徵為對應到誤接受的情況,且所述目前聲音特徵與所述前一聲音特徵之間的大於或等於所述相似度門檻值(也就是所述目前聲音特徵與所述前一聲音特徵之間的相似度高)時,則處理器103不喚醒電子裝置100。由於所述前一聲音特徵係對應到誤接受的情況,表示使用者前一次說話的內容並非要喚醒電子裝置100,但是卻喚醒電子裝置100。因此,當所述前一聲音特徵為對應到誤接受的情況且使用者目前說話
的內容與前一次說話的內容類似,則處理器103可判斷使用者目前並非想要喚醒電子裝置100,故不喚醒電子裝置100。
當所述前一聲音特徵為對應到誤拒絕的情況,且所述目前聲音特徵與所述前一聲音特徵之間的大於或等於所述相似度門檻值(也就是所述目前聲音特徵與所述前一聲音特徵之間的相似度高)時,則處理器103喚醒電子裝置100。由於所述前一聲音特徵係對應到誤拒絕的情況,表示使用者前一次說話的內容事實上想要喚醒電子裝置100,但是卻未成功喚醒電子裝置100。
因此,當所述前一聲音特徵為對應到誤拒絕的情況且使用者目前說話的內容與前一次說話的內容類似,則處理器103可判斷使用者目前想喚醒電子裝置100,故喚醒電子裝置100。
在步驟S203,由於儲存裝置101未儲存有所述前一聲音特徵或是所述目前聲音特徵與所述前一聲音特徵之間之所述相似度小於所述相似度門檻值,因此處理器103不用根據所述前一聲音特徵及所述目前聲音特徵來決定是否喚醒電子裝置100,而是根據所述目前聲音特徵與所述關鍵詞組語音模型決定是否喚醒電子裝置100。處理器103根據所述目前聲音特徵與所述關鍵詞組語音模型決定是否喚醒電子裝置100之流程如下所述,於步驟S203,處理器103透過匹配演算法比較所述目前聲音特徵與所述關鍵詞組語音模型以得到信心分數。接著,進入步驟S204,處理器103判斷此信心分數是否大於或等於信心門檻值,來決定喚醒電子裝置100(步驟S205)或不喚醒電子裝置100(步驟
S206),並判斷所述目前聲音特徵為誤接受的情況(步驟S207)或誤拒絕的情況(步驟S210)。當所述目前聲音特徵為誤接受的情況或誤拒絕的情況時,儲存所述目前聲音特徵(步驟S208或步驟S210)。
如此一來,當儲存裝置101儲存有所述前一聲音特徵時,處理器103透過所述目前聲音特徵與所述前一聲音特徵之間的所述相似度以及所述前一聲音特徵所對應的情況,即可判斷是否要喚醒電子裝置100(如步驟S211至S214),而不用將所述目前聲音特徵與所述關鍵詞組語音模型比較(如步驟S203),故可降低運算量,提升語音喚醒電子裝置100之效率及正確率。
請參考第1、6A、6B、8A及8B圖,第8A及8B圖繪示根據本發明另一實施例之透過語音辨識喚醒電子裝置100的方法之流程圖。在此實施例中,處理器103可根據前一聲音特徵對應誤接受的情況或誤拒絕的情況,調整信心門檻值。
步驟S301、S302、S311、S312及S313類似於第6A圖之步驟S201、S202、S211、S212及S213。不同的是,在步驟S313,處理器103判斷所述目前聲音特徵與所述前一聲音特徵之間的所述相似度大於或等於所述相似度門檻值之後,進入步驟S314,處理器103根據所述前一聲音特徵對應誤接受的情況或誤拒絕的情況,調整所述信心門檻值。
詳細來說,在步驟S314,當所述前一聲音特徵為對應到誤接受的情況,且所述目前聲音特徵與所述前一聲音特徵之
間的大於或等於所述相似度門檻值(也就是所述目前聲音特徵與所述前一聲音特徵之間的相似度高)時,處理器103將調高所述信心門檻值。原因在於由於所述前一聲音特徵係對應到誤接受的情況,表示使用者前一次說話的內容並非要喚醒電子裝置100,但是卻喚醒電子裝置100。在這種情況下,很有可能是因為所述信心門檻值太低而導致聲音特徵容易喚醒電子裝置100,故調高所述信心門檻值,以降低發生誤接受的情況。
當所述前一聲音特徵為對應到誤拒絕的情況,且所述目前聲音特徵與所述前一聲音特徵之間的大於或等於所述相似度門檻值(也就是所述目前聲音特徵與所述前一聲音特徵之間的相似度高)時,處理器103將調低所述信心門檻值。原因在於由於所述前一聲音特徵係對應到誤拒絕的情況,表示使用者前一次說話的內容事實上想要喚醒電子裝置100,但是卻未成功喚醒電子裝置100。在這種情況下,很有可能是因為所述信心門檻值太高而導致聲音特徵不容易喚醒電子裝置100,故調低所述信心門檻值,以降低發生誤拒絕的情況。
於執行完步驟S314之後,接著進入步驟S303。處理器103根據所述目前聲音特徵與所述關鍵詞組語音模型決定是否喚醒電子裝置100,流程如下所述,於步驟S303,處理器103透過所述匹配演算法比較所述目前聲音特徵與所述關鍵詞組語音模型以得到信心分數。接著,進入步驟S304,處理器103判斷所述信心分數是否大於或等於所述信心門檻值,來決定喚醒電子
裝置100(步驟S305)或不喚醒電子裝置100(步驟S306),並判斷所述目前聲音特徵為誤接受的情況(步驟S307)或誤拒絕的情況(步驟S310)。當所述目前聲音特徵為誤接受的情況或誤拒絕的情況時,儲存所述目前聲音特徵(步驟S308或步驟S310)。
在本實施例中,當儲存裝置101儲存有所述前一聲音特徵時,處理器103可透過所述目前聲音特徵與所述前一聲音特徵之間的所述相似度以及所述前一聲音特徵所對應的情況來調整所述信心門檻值。當調高所述信心門檻值,則可減少誤接受的情況;當調低所述信心門檻值,則可減少誤拒絕的情況。如此一來,透過調整所述信心門檻值可有效地改善誤接受及誤拒絕的情況以增加在預期的情況下成功喚醒電子裝置100的機率及正確率。
請參考第1、3及9圖,第9圖繪示根據本發明另一實施例之透過語音辨識喚醒電子裝置100的方法之流程圖。在此實施例中,處理器103可根據使用者互動的情況調整上述信心門檻值。步驟S401至S410類似於第3圖之步驟S101至S110。不同的是,在處理器103判斷出所述目前聲音特徵對應誤接受的情況,並儲存所述目前聲音特徵至儲存裝置101(步驟S407及S408),或是處理器103判斷出所述目前聲音特徵對應誤拒絕的情況,並儲存所述目前聲音特徵至儲存裝置101(步驟S409及S410)之後,進入步驟S411。在步驟S411中,處理器103可根據所述使用者互動的情況調整所述信心門檻值。例如,處理器103可判
斷電子裝置100每次被喚醒之後是否又馬上被使用者關掉(也就是誤接受的情況),或者可判斷使用者是否每次都透過一相同的聲音內容欲喚醒電子裝置100,但都未成功(也就是誤拒絕的情況)。
若上述情況連續發生,很有可能是因為所述信心門檻值太高或太低所造成,因此,處理器103可依據上述情況連續發生之次數是否過多來決定是否調整所述信心門檻值。
具體來說,處理器103係判斷連續發生誤接受情況之次數或連續發生誤拒絕情況之次數是否大於一次數門檻值,來決定是否需要調整所述信心門檻值。所述次數門檻值可由設計者自行定義。當連續誤接受之次數大於所述次數門檻值,表示很有可能是因為所述信心門檻值太低而導致聲音特徵容易喚醒電子裝置100,則處理器103調高所述信心門檻值,以降低發生誤接受的情況。當連續誤拒絕之次數大於所述次數門檻值,表示很有可能是因為所述信心門檻值太高而導致聲音特徵不容易喚醒電子裝置100,則處理器103調低所述信心門檻值,以降低發生誤拒絕的情況。
如此一來,處理器103可依據前述之使用者互動的情況調整所述信心門檻值,以減少發生誤接受或誤拒絕的情況。
請參考第1及10A及10B圖,第10A及10B圖繪示根據本發明另一實施例之透過語音辨識啟動電子裝置100之特定功能的方法之流程圖。在此實施例中,在電子裝置100被喚醒後,處理器103更可透過語音辨識啟動電子裝置100之特定功
能。也就是說,在電子裝置100被喚醒後,聲音接收裝置102更接收一目前聲音訊號。接著,處理器103更判斷儲存裝置101中是否有儲存一前一聲音訊號之一前一聲音特徵。當儲存裝置101中儲存有所述前一聲音訊號之所述前一聲音特徵時,處理器103決定是否根據所述前一聲音特徵啟動電子裝置100之特定功能。
當儲存裝置101中未儲存有所述前一聲音訊號之所述前一聲音特徵時,處理器103決定是否根據所述目前聲音特徵啟動電子裝置100之所述特定功能。
在步驟S501,喚醒電子裝置100。在一實施例中,使用者透過按下按鍵喚醒電子裝置100、或者透過觸碰觸控螢幕喚醒電子裝置100。在另一實施例中,使用者透過語音喚醒電子裝置100,透過語音喚醒電子裝置100的方法如前所述,在此不多贅述。
在步驟S502,聲音接收裝置102接收一目前聲音訊號。使用者可說出特定的語音指令以啟動電子裝置100之特定功能。舉例來說,所述特定的語音指令至少可包括「配對(Pairing)」、「檢查電池(Check battery)」及「是否連線(Am I connected)」其中之一。所述目前聲音訊號即為使用者所說之特定語音指令所對應的聲音訊號。於步驟S503,處理器103擷取所述目前聲音訊號之一目前聲音特徵。
接著進入步驟S504,處理器103判斷儲存裝置101中是否有儲存一前一聲音訊號之一前一聲音特徵。當儲存裝置
101儲存有所述前一聲音特徵時,則進入步驟S505;當儲存裝置101未儲存有所述前一聲音特徵時,則進入步驟S508。
在步驟S505,處理器103計算所述目前聲音特徵與所述前一聲音特徵之間之一相似度。在計算出所述相似度之後,接著進入步驟S506,處理器103判斷所述目前聲音特徵與所述前一聲音特徵之間之所述相似度是否大於或等於一相似度門檻值。當所述相似度大於或等於所述相似度門檻值,則進入步驟S507;當所述相似度小於所述相似度門檻值,則進入步驟S508。
在步驟S507,處理器103根據所述前一聲音特徵對應誤接受的情況或誤拒絕的情況,決定是否啟動電子裝置100之特定功能。當所述前一聲音特徵為對應到誤接受的情況,且所述目前聲音特徵與所述前一聲音特徵之間的所述相似度大於或等於所述相似度門檻值時,則處理器103不啟動電子裝置100之特定功能。由於所述前一聲音特徵係對應到誤接受的情況,表示使用者前一次說話的內容並非要啟動電子裝置100之特定功能,但是卻啟動電子裝置100之此特定功能。因此,當所述前一聲音特徵為對應到所述誤接受的情況且使用者目前說話的內容與前一次說話的內容類似,則處理器103可判斷使用者目前並非想要啟動電子裝置100之此特定功能,故不啟動電子裝置100之此特定功能。當所述前一聲音特徵為對應到誤拒絕的情況,且所述目前聲音特徵與所述前一聲音特徵之間的所述相似度大於或等於所述相似度門檻值時,則處理器103啟動電子裝置100之此特定功
能。由於所述前一聲音特徵係對應到誤拒絕的情況,表示使用者前一次說話的內容事實上想要啟動電子裝置100之所述特定功能,但是卻未成功啟動電子裝置100之所述特定功能。因此,當所述前一聲音特徵為對應到誤拒絕的情況且使用者目前說話的內容與前一次說話的內容類似,則處理器103可判斷使用者目前想啟動電子裝置100之所述特定功能,故啟動電子裝置100之所述特定功能。舉例來說,當所述目前聲音特徵所對應的特定的語音指令為「配對(Pairing)」,所述前一聲音特徵為對應到誤拒絕的情況,且所述目前聲音特徵與所述前一聲音特徵之間的所述相似度大於或等於所述相似度門檻值時,則處理器103根據所述目前聲音特徵啟動確認電子裝置100與其他電子裝置的無線通訊配對是否成功之功能。
在步驟S508,處理器103透過匹配演算法比較所述目前聲音特徵與所述關鍵詞組語音模型以得到信心分數。也就是說,當儲存裝置101未儲存有所述前一聲音特徵或是所述目前聲音特徵與所述前一聲音特徵之間的相似度低,處理器103不需根據所述前一聲音特徵來決定是否啟動電子裝置100之特定功能。
處理器103係將所述目前聲音特徵與所述關鍵詞組語音模型比較,決定是否根據所述目前聲音特徵啟動電子裝置100之所述特定功能。
在步驟S508得到所述信心分數之後,接著進入步驟S509,處理器103判斷所述信心分數是否大於或等於所述信心門
檻值。當所述信心分數大於或等於所述信心門檻值,則進入步驟S513;當所述信心分數小於所述信心門檻值,則進入步驟S510。
在步驟S513,處理器103根據所述目前聲音特徵啟動電子裝置100之所述特定功能。舉例來說,處理器103根據目前聲音特徵至少啟動確認電子裝置100與其他電子裝置的無線通訊配對是否成功之功能、啟動檢查電子裝置100的電池電量之功能,或啟動檢查電子裝置100的網路是否連線之功能之一。更清楚來說,假設聲音接收裝置102接收到的所述目前聲音特徵所對應的特定的語音指令為「配對(Pairing)」,則處理器103根據所述目前聲音特徵啟動確認電子裝置100與其他電子裝置的無線通訊配對是否成功之功能。假設聲音接收裝置102接收到的所述目前聲音特徵所對應的特定的語音指令為「檢查電池(Check battery)」,則處理器103根據所述目前聲音特徵啟動檢查電子裝置100的電池電量之功能。假設聲音接收裝置102接收到的所述目前聲音特徵所對應的特定的語音指令為「是否連線(Am I connected)」,則處理器103根據所述目前聲音特徵啟動檢查電子裝置100的網路是否連線之功能。
接著進入步驟S514,處理器103判斷所述目前聲音特徵是否對應誤接受的情況。上述之誤接受的情況為處理器103在非預期的情況下啟動電子裝置100之特定功能。其判斷方式可包括在處理器103透過所述目前聲音特徵啟動電子裝置100之特定功能後,使用者是否於特定時間內關掉該特定功能。若使用者
於所述特定時間內關掉該特定功能,表示使用者並不想啟動該特定功能,但是該特定功能卻被所述目前聲音特徵所啟動,故可判斷為誤接受的情況。接著,進入步驟S515,處理器103儲存所述目前聲音特徵至儲存裝置101並記錄所述目前聲音特徵為對應到誤接受的情況。
在步驟S510,處理器103不根據所述目前聲音特徵啟動電子裝置100之所述特定功能。接著進入步驟S511,處理器103判斷所述目前聲音特徵是否對應誤拒絕的情況。上述之誤拒絕的情況為使用者欲透過目前聲音啟動電子裝置100之特定功能,但卻無法成功啟動該特定功能。其判斷方式可包括在所述目前聲音特徵未啟動電子裝置100之所述特定功能,且所述目前聲音特徵與所述關鍵詞組語音模型比較而得到之所述信心分數小於所述信心門檻值且其差值在預定範圍內。在這種情況中,由於所述信心分數小於所述信心門檻值且其差值在所述預定範圍內(也就是所述信心分數很接近所述信心門檻值),代表使用者想要透過所述目前聲音啟動電子裝置100之所述特定功能,但是電子裝置100之所述特定功能卻沒有被所述目前聲音特徵所啟動,故可判斷為誤拒絕的情況。接著,進入步驟S512,處理器103儲存所述目前聲音特徵至儲存裝置101並記錄所述目前聲音特徵為對應到誤拒絕的情況。
在此實施例中,語音辨識可被應用在啟動電子裝置100之特定功能。在電子裝置100被喚醒之後,使用者可透過語
音辨識啟動電子裝置100之所述特定功能,處理器103可根據目前聲音特徵啟動電子裝置100之所述特定功能,並可記錄該目前聲音特徵是因誤接受的情況而啟動該特定功能,或是誤拒絕的情況而未啟動該特定功能。因此,當電子裝置100接收到使用者下一次聲音時,若先前之聲音特徵已被儲存,則處理器103可依據所述下一次聲音之聲音特徵與儲存之聲音特徵的相似程度,以及所述儲存之聲音特徵所對應的情況,來決定是否啟動電子裝置100之所述特定功能,不需透過比較關鍵詞組語音模型,故可提升透過語音啟動電子裝置100之特定功能之效率。
本發明上述實施例所揭露之透過語音辨識喚醒電子裝置的方法,當儲存裝置儲存有前一聲音特徵時,可根據所述前一聲音特徵對應誤接受的情況或誤拒絕的情況,以及目前聲音特徵與所述前一聲音特徵之間之相似度決定是否喚醒電子裝置,因此可提高喚醒電子裝置之效率。另外,本發明亦可根據所述前一聲音特徵對應誤接受的情況或誤拒絕的情況,以及所述目前聲音特徵與所述前一聲音特徵之間之相似度來調整信心門檻值,以減少誤接受的情況或誤拒絕的情況發生的機率,不需要線上調整關鍵詞組語音模型或預先訓練關鍵詞組語音模型即可改善誤接受的情況或誤拒絕的情況,因此調整的複雜度低,且可有效降低誤接受或誤拒絕的情況以提高成功喚醒電子裝置的機率及正確率。
綜上所述,雖然本發明已以較佳實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識
者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (20)
- 一種透過語音辨識喚醒一電子裝置的方法,包括:接收一目前聲音訊號;擷取該目前聲音訊號之一目前聲音特徵;判斷是否有儲存一前一聲音訊號之一前一聲音特徵;其中當儲存有該前一聲音特徵時,則根據該前一聲音特徵對應一誤接受(False Acceptance)的情況或一誤拒絕(False Rejection)的情況以及該目前聲音特徵與該前一聲音特徵之間之一相似度,調整一信心門檻值,判斷一信心分數是否大於或等於該信心門檻值,以決定是否喚醒該電子裝置;其中該誤接受的情況係該電子裝置在非預期的情況下被喚醒,該誤拒絕的情況係欲喚醒該電子裝置,但該電子裝置未被喚醒。
- 如申請專利範圍第1項所述之方法,其中當該前一聲音特徵為該誤接受的情況且該相似度大於或等於一相似度門檻值時,調高該信心門檻值,或當該前一聲音特徵為該誤接受的情況且該相似度大於或等於該相似度門檻值時,不喚醒該電子裝置。
- 如申請專利範圍第1項所述之方法,其中當該前一聲音特徵為該誤拒絕的情況且該相似度大於或等於一相似度門檻值時,調低該信心門檻值,或當該前一聲音特徵為該誤拒絕的情況且該相似度大於或等於該相似度門檻值時,喚醒該電子裝置。
- 如申請專利範圍第1項所述之方法,其中係透過動態時間 扭曲(Dynamic Time Warping,DTW)演算法計算該相似度。
- 如申請專利範圍第1項所述之方法,其中當不儲存有該前一聲音訊號之該前一聲音特徵時,該方法更包括:透過一匹配演算法比較該目前聲音特徵與一關鍵詞組語音模型以得到該信心分數;判斷該信心分數是否大於或等於該信心門檻值;當該信心分數大於或等於該信心門檻值,則喚醒該電子裝置;以及當該信心分數小於該信心門檻值,則不喚醒該電子裝置。
- 如申請專利範圍第5項所述之方法,其中於喚醒該電子裝置之後,更包括:判斷該目前聲音特徵是否為一誤接受的情況;其中當該目前聲音特徵為該誤接受的情況時,則儲存該目前聲音特徵及根據一使用者互動調整該信心門檻值。
- 如申請專利範圍第5項所述之方法,其中於不喚醒該電子裝置之後,更包括:判斷該目前聲音特徵是否為一誤拒絕的情況;其中當該目前聲音特徵為該誤拒絕的情況時,則儲存該目前聲音特徵及根據一使用者互動調整該信心門檻值。
- 如申請專利範圍第7項所述之方法,其中於判斷該目前聲音特徵是否為該誤拒絕的情況的步驟中,包括:判斷該信心分數與該信心門檻值的差值是否在一預定範圍 內;當該信心分數與該信心門檻值的差值在該預定範圍內,則判斷該目前聲音特徵為該誤拒絕的情況。
- 如申請專利範圍第5項所述之方法,其中該匹配演算法為維特比(Viterbi)演算法。
- 如申請專利範圍第6或7項所述之方法,其中該使用者互動包括一連續誤接受之次數或一連續誤拒絕之次數,於根據該使用者互動調整該信心門檻值的步驟中,包括:判斷該連續誤接受之次數是否大於一次數門檻值或判斷該連續誤拒絕之次數是否大於該次數門檻值;當該連續誤接受之次數大於該次數門檻值,則調高該信心門檻值;以及當該連續誤拒絕之次數大於該次數門檻值,則調低該信心門檻值。
- 一種電子裝置,包括:一儲存裝置;一聲音接收裝置,用以接收一目前聲音訊號;一處理器,用以擷取該目前聲音訊號之一目前聲音特徵,並判斷該儲存裝置中是否有儲存一前一聲音訊號之一前一聲音特徵,當該儲存裝置儲存有該前一聲音特徵時,則該處理器根據該前一聲音特徵對應一誤接受的情況或一誤拒絕的情況以及該目前聲音特徵與該前一聲音特徵之間之一相似度,調整一信心門檻 值,判斷一信心分數是否大於或等於該信心門檻值,以決定是否喚醒該電子裝置;其中該誤接受的情況係該電子裝置在非預期的情況下被喚醒,該誤拒絕的情況係欲喚醒該電子裝置,但該電子裝置未被喚醒。
- 如申請專利範圍第11項所述之電子裝置,其中該處理器用以當該前一聲音特徵為該誤接受的情況且該相似度大於或等於一相似度門檻值時,調高該信心門檻值,或當該前一聲音特徵為該誤接受的情況且該相似度大於或等於該相似度門檻值時,不喚醒該電子裝置。
- 如申請專利範圍第11項所述之電子裝置,其中該處理器用以當該前一聲音特徵為該誤拒絕的情況且該相似度大於或等於一相似度門檻值時,調低該信心門檻值,或當該前一聲音特徵為該誤拒絕的情況且該相似度大於或等於該相似度門檻值時,喚醒該電子裝置。
- 如申請專利範圍第11項所述之電子裝置,其中該處理器用以透過動態時間扭曲(Dynamic Time Warping,DTW)演算法計算該相似度。
- 如申請專利範圍第11項所述之電子裝置,其中該處理器用以透過一匹配演算法比較該目前聲音特徵與一關鍵詞組語音模型以得到該信心分數,並判斷該信心分數是否大於或等於該信心門檻值; 其中當該信心分數大於或等於該信心門檻值時,該處理器喚醒該電子裝置,以及當該信心分數小於該信心門檻值時,該處理器不喚醒該電子裝置。
- 如申請專利範圍第15項所述之電子裝置,其中於該處理器喚醒該電子裝置之後,該處理器更用以判斷該目前聲音特徵是否為一誤接受的情況,以及當該目前聲音特徵為該誤接受的情況時,則該處理器儲存該目前聲音特徵至該儲存裝置並根據一使用者互動調整該信心門檻值。
- 如申請專利範圍第15項所述之電子裝置,其中於該處理器不喚醒該電子裝置之後,該處理器更用以判斷該目前聲音特徵是否為一誤拒絕的情況,以及當該目前聲音特徵為該誤拒絕的情況時,則該處理器儲存該目前聲音特徵至該儲存裝置並根據一使用者互動調整該信心門檻值。
- 如申請專利範圍第17項所述之電子裝置,其中該處理器判斷該信心分數與該信心門檻值的差值是否在一預定範圍內,當該信心分數與該信心門檻值的差值在該預定範圍內,則該處理器判斷該目前聲音特徵為該誤拒絕的情況。
- 如申請專利範圍第15項所述之電子裝置,其中該匹配演算法為維特比(Viterbi)演算法。
- 如申請專利範圍第16或17項所述之電子裝置,其中該使用者互動包括一連續誤接受之次數或一連續誤拒絕之次數,該處理器更用以判斷該連續誤接受之次數是否大於一次數門檻值 或判斷該連續誤拒絕之次數是否大於該次數門檻值,當該連續誤接受之次數大於該次數門檻值時,調高該信心門檻值,以及當該連續誤拒絕之次數大於該次數門檻值時,調低該信心門檻值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610334567.1A CN106653010B (zh) | 2015-11-03 | 2016-05-19 | 电子装置及其透过语音辨识唤醒的方法 |
US15/215,670 US10147444B2 (en) | 2015-11-03 | 2016-07-21 | Electronic apparatus and voice trigger method therefor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562249973P | 2015-11-03 | 2015-11-03 | |
US62/249,973 | 2015-11-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201717192A TW201717192A (zh) | 2017-05-16 |
TWI639153B true TWI639153B (zh) | 2018-10-21 |
Family
ID=59367032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105113280A TWI639153B (zh) | 2015-11-03 | 2016-04-28 | 電子裝置及其透過語音辨識喚醒的方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI639153B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444199B (zh) * | 2017-05-27 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
TWI682385B (zh) * | 2018-03-16 | 2020-01-11 | 緯創資通股份有限公司 | 語音服務控制裝置及其方法 |
CN112509596A (zh) * | 2020-11-19 | 2021-03-16 | 北京小米移动软件有限公司 | 唤醒控制方法、装置、存储介质及终端 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201502872A (zh) | 2013-07-08 | 2015-01-16 | Acer Inc | 電子裝置及其喚醒方法 |
TW201535157A (zh) | 2014-01-31 | 2015-09-16 | Hewlett Packard Development Co | 語音輸入命令之技術 |
-
2016
- 2016-04-28 TW TW105113280A patent/TWI639153B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201502872A (zh) | 2013-07-08 | 2015-01-16 | Acer Inc | 電子裝置及其喚醒方法 |
TW201535157A (zh) | 2014-01-31 | 2015-09-16 | Hewlett Packard Development Co | 語音輸入命令之技術 |
Also Published As
Publication number | Publication date |
---|---|
TW201717192A (zh) | 2017-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653010B (zh) | 电子装置及其透过语音辨识唤醒的方法 | |
TWI639153B (zh) | 電子裝置及其透過語音辨識喚醒的方法 | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
US10332524B2 (en) | Speech recognition wake-up of a handheld portable electronic device | |
US9892729B2 (en) | Method and apparatus for controlling voice activation | |
ES2817841T3 (es) | Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
TWI601032B (zh) | 應用於聲控裝置的控制器與相關方法 | |
US10880833B2 (en) | Smart listening modes supporting quasi always-on listening | |
CN105575395A (zh) | 语音唤醒方法及装置、终端及其处理方法 | |
BR102014003975B1 (pt) | Sistema e método para detecção de palavra-chave em discurso de um dispositivo | |
WO2016160123A1 (en) | Controlling electronic device based on direction of speech | |
US11302324B2 (en) | Speech processing method and apparatus therefor | |
WO2014029208A1 (zh) | 电子设备的闹钟控制方法和电子设备 | |
WO2021179854A1 (zh) | 声纹唤醒方法及装置、设备、存储介质 | |
WO2016183961A1 (zh) | 智能设备的界面切换方法、系统、设备及非易失性计算机存储介质 | |
KR20190096308A (ko) | 전자기기 | |
TW202022849A (zh) | 語音資料的識別方法、裝置及系統 | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
EP3896691A1 (en) | Speech interaction method, device and system | |
WO2023006033A1 (zh) | 语音交互方法、电子设备及介质 | |
CN112885341A (zh) | 一种语音唤醒方法、装置、电子设备和存储介质 | |
CN112989101A (zh) | 适用于听力障碍患者的提醒方法、装置、设备及存储介质 | |
US10425819B2 (en) | Apparatus and method for controlling outbound communication | |
WO2024055831A1 (zh) | 一种语音交互方法、装置及终端 |