TWI682385B - 語音服務控制裝置及其方法 - Google Patents
語音服務控制裝置及其方法 Download PDFInfo
- Publication number
- TWI682385B TWI682385B TW107108937A TW107108937A TWI682385B TW I682385 B TWI682385 B TW I682385B TW 107108937 A TW107108937 A TW 107108937A TW 107108937 A TW107108937 A TW 107108937A TW I682385 B TWI682385 B TW I682385B
- Authority
- TW
- Taiwan
- Prior art keywords
- voice data
- value
- voice
- threshold
- confidence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000001186 cumulative effect Effects 0.000 claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本發明提供一種語音服務控制裝置及其方法。在此方法中,取得語音資料。辨識該語音資料中的關鍵字,以決定該關鍵字對應的信心值,而此信心值是該關鍵字相對於對語音服務提出要求之喚醒關鍵字的符合程度。反應於信心值小於辨識門檻值,判斷累計失敗次數,而語音服務係反應於偵測到大於辨識門檻值的信心值而被要求提供,且累計失敗次數是時間區間中語音資料與至少一個先前語音資料的信心值小於辨識門檻值的累計次數。依據累計失敗次數、以及語音資料與先前語音資料的信心值之運算關係,調整辨識門檻值。藉此,便能讓使用者順利啟動語音服務。
Description
本發明是有關於一種聲控技術,且特別是有關於一種基於聲控技術的語音服務控制裝置及其方法。
近年來,各家網路服務供應商紛紛推出語音助理及其相關語音服務,且家電業者亦推出具備聲控功能的家電設備,還有其他電子設備業者亦將其產品結合聲控功能,讓使用者能透過聲音控制各類型電子裝置的運作行為(例如,開啟電源、播報氣象、播放音樂等)。而為了滿足用戶需求並提升產品可用價值,有些業者甚至開放相關原始碼,讓第三方開發者能自行客製化服務或結合周邊應用服務。在這些原始碼中,開發者可自行設定喚醒關鍵字(例如, Alexa、Cortana、Hey Siri、OK Google等),以透過特定喚醒關鍵字來對伺服器或程式提出要求,從而取得對應語音服務。
然而,不同地區的使用者對於喚醒關鍵字的發音方式及口音不盡相同,且不同聲控裝置(例如,電腦、手機、智慧喇叭等)可能使用不同收音裝置(例如,麥克風)或透過不同收音演算法辨識語音資料,因此同一位使用者對不同聲控裝置說出相同喚醒關鍵字可能會造成不同結果(例如,使用者對裝置A呼叫可成功獲得對應語音服務,但使用者對裝置B呼叫卻不能成功發出要求)。由此可知,現有語音服務控制技術仍存在缺陷。
有鑑於此,本發明提供一種語音服務控制裝置及其方法,其透過學習使用者幾次對於喚醒關鍵字的呼叫,有效避免啟動語音服務的失敗情況。
本發明的語音服務控制方法,其包括下列步驟。取得語音資料。辨識該語音資料中的關鍵字,以決定該關鍵字對應的信心值,而此信心值是該關鍵字相對於對語音服務提出要求之喚醒關鍵字的符合程度。反應於信心值小於辨識門檻值,判斷累計失敗次數,而語音服務係反應於偵測到大於辨識門檻值的信心值而被要求提供,且累計失敗次數是時間區間中語音資料與至少一個先前語音資料的信心值小於辨識門檻值的累計次數。依據累計失敗次數、以及語音資料與先前語音資料的信心值的運算關係,調整辨識門檻值。
而本發明的語音服務控制裝置,其包括收音裝置及處理器。收音裝置接收語音資料。處理器耦接收音裝置,並經配置用以執行下列步驟。辨識該語音資料中的關鍵字,以決定該關鍵字對應的信心值,而此信心值是該關鍵字相對於對語音服務提出要求之喚醒關鍵字的符合程度。反應於信心值小於辨識門檻值,判斷累計失敗次數,而語音服務係反應於偵測到大於辨識門檻值的信心值而被要求提供,且累計失敗次數是時間區間中語音資料與至少一個先前語音資料的信心值小於辨識門檻值的累計次數。依據累計失敗次數、以及語音資料與先前語音資料的信心值的運算關係,調整辨識門檻值。
基於上述,辨識門檻值是影響啟動語音服務的重要關鍵。而本發明實施例的語音服務控制及其方法,即是反應於多次未成功要求語音服務的情況,而基於這幾次要求失敗之語音資料對應的信心值來降低辨識門檻值,讓使用者後續的呼叫能成功要求語音服務。另一方面,若發生使用者未呼叫卻成功對語音服務提出要求的情況,本發明實施例更能適時地提高辨識門檻值,使外界聲音較難以成功要求提供語音服務。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例之語音服務系統1的示意圖。請參照圖1,此語音服務系統1包括語音服務控制裝置110及語音服務提供伺服器150。
語音服務控制裝置110可以是智慧型手機、平板電腦、桌上型電腦、筆記型電腦、語音助理、智慧多媒體裝置、智慧喇叭、或智慧家電等裝置,語音服務控制裝置110並包括但不僅限於收音裝置111、輸入輸出介面112、處理器113及記憶體114。
收音裝置111包括但不僅限於全向性麥克風、指向性麥克風或其他可接收聲波(例如,人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器,於本實施例中,收音裝置111反應於聲波之接收而產生數位的語音資料(或稱音訊資料)。
輸入輸出介面112可以是支援諸如Wi-Fi、行動通訊、乙太網路等通訊技術的網路介面卡、或各類型串列或並列匯流排等傳輸介面,於本實施例中,輸入輸出介面112與外界接收及發送資料。
處理器113耦接收音裝置111及輸入輸出介面112,處理器並可以是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processing,DSP)、可程式化控制器、特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。在本發明實施例中,處理器113用以執行語音服務控制裝置110的所有作業,可取得而處理收音裝置111所產生的語音資料,並透過輸入輸出介面112進行傳輸資料。
記憶體114耦接處理器113,記憶體114並可以是任何型態的固定或可移動隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash Memory)或類似元件或上述元件之組合的儲存器,記憶體114並用於儲存用於執行本發明實施例之語音服務控制方法(待後續實施例詳述)的軟體程式、相關語音資料、及相關數值(例如,信心值、辨識門檻值、各種變異值、最高界限值等,並待後續實施例詳述)、信心值相關方程式等資料,而這些軟體程式、資料、數值、方程式可供處理器113載入後執行或使用。
語音服務提供伺服器150可以是個人電腦、筆記型電腦、工作站或各類型伺服器。語音服務提供伺服器150接收服務要求,並基於語音轉文字及語意分析技術辨識服務要求內的語音資料,以理解服務要求的內容。語音服務提供伺服器150會判斷服務要求的內容是否與其所具備的語音功能(例如,關鍵字查詢、撥放音樂、行事曆提醒等)匹配,從而提供對應的語音服務。
為了方便理解本發明的操作流程,以下將舉諸多實施例詳細說明。圖2是依據本發明一實施例說明一種語音服務控制方法之流程圖。請參照圖2,下文中,將搭配圖1中各裝置及語音服務控制裝置110中各項元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
處理器113透過收音裝置111取得語音資料(步驟S210)之後,即可辨識此語音資料中的關鍵字,以決定此關鍵字對應的信心值(步驟S220)。於本實施例中,處理器113透過語音轉文字及語意分析技術對語音資料進行辨識,從而得出語音資料的語句內容。而此處理器113會偵測此語句內容中是否是或具有符合特定喚醒關鍵字(例如, Alexa、Cortana、Hey Siri、OK Google等),且此特定喚醒關鍵字係用於對語音服務提出要求的啟動要件。然而,處理器113辨識到的語句內容難免會有些許誤差。因此,處理器113需要先判斷語句內容相對於喚醒關鍵字的符合程度(即,信心值,通常介於零到一),再決定是否提出服務要求。假設收音裝置111接收到使用者呼叫喚醒關鍵字的聲波,則自聲波轉換成的語音資料將會包括相關於此喚醒關鍵字的關鍵字(包含於語句內容中)。處理器113會進一步判斷此關鍵字相對於喚醒關鍵字的符合程度,以作為當次語音資料的信心值。
值得注意的是,此信心值是決定處理器113是否發出服務要求的重要關鍵。處理器113會判斷當次語音資料的信心值是否大於辨識門檻值(介於零到一,例如,0.6、0.55等)。若信心值大於辨識門檻值,則處理器113將發出服務要求。相反而言,若信心值小於辨識門檻值,處理器113不會(或忽略、禁能)發出服務要求。在現有技術中,此辨識門檻值是固定的。因此,若使用者透過呼叫喚醒關鍵字無法順利讓聲控裝置產生服務時,即使相同的使用者重複呼叫該喚醒關鍵字,則現有聲控裝置仍可能因為對應信心值皆小於固定的辨識門檻值而一直無法發出服務要求。
為了解決前述問題,本發明實施例係透過對使用者數次對於喚醒關鍵字的呼叫進行訓練,以學習使用者呼叫對應的信心值,再依據這些信心值調整辨識門檻值,以下將具體說明。
反應於信心值小於辨識門檻值,處理器113判斷累計失敗次數(步驟S230)。此累計失敗次數是一段時間區間(例如,3秒、5秒等)中當次語音資料與至少一筆先前語音資料的信心值小於辨識門檻值的累計次數。其中,每當處理器113判斷當次語音資料的信心值小於辨識門檻值,便將此累計失敗次數加一。
需說明的是,在一些實施例中,累計失敗次數是一段時間區間中語音資料與連續取得的至少一筆先前語音資料的信心值小於辨識門檻值的累計次數。也就是說,處理器113要連續偵測到使用者呼叫喚醒關鍵字,才會累計此累計失敗次數。不過,在一些實際情況下,使用者可能在某幾次的呼叫中無意間參雜其他非喚醒關鍵字的語句內容,造成使用者需要再重複呼叫喚醒關鍵字幾次。因此,連續偵測的機制略為嚴格但較能避免誤判情況,而應用本發明實施例者可視情況自行調整是否要設有連續性的條件。另一方面,每當某段時間區間到期時,處理器113會將累計失敗次數歸零,以重新累計此累計失敗次數。
處理器113接著將依據累計失敗次數、以及語音資料與先前語音資料的信心值的一運算關係,來調整辨識門檻值(步驟S240)。具體而言,處理器113會判斷當前累計失敗次數是否大於次數門檻值(大於一的整數,例如,2、3、5次等)。反應於於此累計失敗次數未大於次數門檻值,處理器113將繼續辨識後續的語音資料。而反應於此累計失敗次數大於次數門檻值,處理器113將依據語音資料與先前語音資料的信心值的該運算關係降低辨識門檻值。
在一實施例中,處理器113會取得語音資料與數筆先前語音資料的信心值中最大的至少一者(例如,兩者、三者等),再將語音資料與先前語音資料中的至少一者(即,先前取得的信心值最大的至少一者)的信心值與辨識門檻值的平均值作為調整後的辨識門檻值。由於語音資料與數筆先前語音資料的信心值皆小於初始的辨識門檻值,因此處理器113將這些信心值與初始的辨識門檻值平均後所得之值會小於初始辨識門檻值,從而降低辨識門檻值。例如,這些信心值有0.5、0.56、0.45、0.3,則處理器113從中取出最大的二個信心值0.5與0.56與當前辨識門檻值0.6予以平均而得出0.53,以作為調整之辨識門檻值。
進一步地,在另一實施例中,處理器113取得語音資料與先前語音資料的信心值中大於最低界限值的至少一者,而此最低界限值係辨識門檻值減去第一變異值(介於零至一,例如,0.05、0.08等)。接著,處理器113可將挑選的上述信心值直接或再挑選其中最大的至少一者與辨識門檻值的平均值作為調整後的辨識門檻值。例如,假設這些信心值有0.2、0.5、0.56、0.45、0.3,而最低界限值為辨識門檻值0.6減去第一變異值0.05而為0.55,則處理器113將選擇大於0.55 的信心值0.56與當前辨識門檻值0.6予以平均而得出0.58,以作為調整之辨識門檻值。此實施例的作法特點在於進一步設定調降信心值的地板門檻值,以避免後續辨識門檻值不慎被調整過低而造成並沒有正確說出關鍵字(或因環境噪音)但卻能隨意啟動聲控裝置服務的誤作動問題。
需說明的是,前述實施例係以平均方式來決定辨識門檻值,然調整辨識門檻值的方式還可能有很多種。例如,對信心值與辨識門檻值分別賦予權重值、將這些信心值中的最大者減去第一變異值來作為辨識門檻值等方式,端視應用者之實際需求而調整,但採用的方式仍須考量取得的信心值,以避免處理器113需要進行更多次訓練。
藉此,辨識門檻值經調降後將可能更加接近或小於使用者呼叫所對應語音資料的信心值,從而能提出語音服務的要求。
另一方面,前述說明是關於調降辨識門檻值。然而,在一些情況中,辨識門檻值可能過低,而導致環境聲的信心值高於辨識門檻值,並使得聲控裝置誤判而發出服務要求。而為了降低前述情況的發生機會,反應於語音資料的信心值未小於辨識門檻值,處理器113會透過輸入輸出介面112而對語音服務提供伺服器150發送服務要求。此服務要求包括收音裝置111取得的語音資料。而語音服務提供伺服器150將確認此語音資料所記錄的語句內容是否符合其所提供的語音功能(例如,明天天氣如何?下午的行程有哪些?撥放流行音樂等),並將確認結果記錄在對應於此服務要求的服務回應且發送到語音服務控制裝置110。
處理器113透過輸入輸出介面112接收此服務回應,並判斷此服務回應是否相關於語音資料未匹配語音服務提供伺服器150所提供的語音功能。而反應於服務回應相關於語音資料未匹配語音功能,表示對於信心值的判斷是誤判情況,處理器113將會調整辨識門檻值。於本實施例中,處理器113設有一個最高界限值,此最高界限值是依據辨識門檻值所決定的且大於辨識門檻值。例如,最高界限值是辨識門檻值加上第二變異值(介於零至一,例如,0.05、0.03等,在一些實施例中相等於第一變異值)。反應於語音資料的信心值小於最高界限值,處理器113會將語音資料的信心值作為辨識門檻值。由於能成功提出服務要求對應的信心值須大於辨識門檻值,因此將辨識門檻值設為此信心值將能提高辨識門檻值。另一方面,反應於語音資料的信心值未小於最高界限值,處理器113會將最高界限值作為辨識門檻值,使辨識門檻值不會一次調整過高。也就是說,本發明實施例係透過學習這些導致誤判情況發生的信心值,來進一步調高辨識門檻值,往後具有此信心值的環境聲將無法再啟動語音服務。
需說明的是,調高辨識門檻值的方式還可能有很多種,例如,將信心值加上第二變異值來作為辨識門檻值、將辨識門檻值加上第二變異值的一半來作為調整後的辨識門檻值等,端視應用者之實際需求而調整。
另一方面,若語音資料有匹配語音功能,則此服務回應包括對應的語音服務(例如,傳送天氣資訊、今日行程內容、音樂串流等),使處理器113能執行此語音服務對應的語音功能(例如,顯示天氣資訊、顯示今日行程、撥放音樂等)。
值得說明的是,前述實施例的語音服務控制裝置110係相關於遠端或以有線連接的方式連接到語音服務提供伺服器150。然而,在一些實施例中,語音服務控制裝置110可提供離線的語音服務,因此處理器113可直接判斷語音資料是否匹配於語音功能,並能據以提供語音服務。也就是說,服務要求與服務回應都是透過處理器113所決定,且可不設置輸入輸出介面112。
而為了幫助讀者更加理解本發明實施例的精神,以下將另舉一應用情境說明。
請參照圖3是此應用情境之流程圖,並假設辨識門檻值為0.6,第一變異值及第二變異值皆為0.05,且次數門檻值為兩次。收音裝置111接收到使用者的呼叫而生成語音資料,處理器113便開始辨識語音資料(步驟S310),並判斷是否偵測到喚醒關鍵字(步驟S315)。若沒有偵測到喚醒關鍵字,則返回步驟S310,處理器113繼續辨識下一次接收的語音資料。若有偵測到喚醒關鍵字,處理器113取得語音資料對應的信心值(步驟S320),並判斷此信心值是否大於辨識門檻值(步驟S325)?假設信心值為0.5而未大於辨識門檻值,則代表未能成功(不用)提出服務要求(步驟S330)。處理器113進一步判斷累計失敗次數是否大於次數門檻值(步驟S335)?假設累計失敗次數為三次,則處理器113將依據方程式(1)來調整辨識門檻值(步驟S340):
…(1) 限制於
其中
LB為辨識門檻值,
代表取最大的二者,V
i、V
i-1、V
i-2分別是當前語音資料及前兩次成功偵測到喚醒關鍵字之先前語音資料對應的信心值,而σ
1為第一變異值(即,0.05)。例如,V
i、V
i-1、V
i-2之值分別為0.56、0.55、0.5,則處理器將取得信心值V
i、V
i-1(0.56、0.55皆大於或等於
LB-σ
1),並將此兩個信心值V
i、V
i-1代入方程式(1)中,以得出調整之辨識門檻值為0.57(相較於初始值0.6還低)。
另一方面,假設下一次接收到的語音資料對應的信心值為0.63,則此信心值大於調整之辨識門檻值(0.57),代表處理器113會成功對語音服務提供伺服器150提出服務要求(步驟S350)。處理器113透過輸入輸出介面112接收服務回應後,將判斷此服務回應是否對應於任何語音功能?(步驟S355)
假設此次語音資料是源自於環境聲,因此無法對應到任何語音功能,則處理器113會依據方程式(2)與(3)來調整辨識門檻值(步驟S370):
…(2)
…(3) 其中σ
2為第二變異值(即,0.05),UB為最高界限值(即,辨識門檻值0.57加上第二變異值0.05而為0.62),V則為當前語音資料的信心值(即,0.63)。由於當前語音資料的信心值大於最高界限值,因此最高界限值將作為調整之辨識門檻值。
另一方面,此次語音資料是源自於人聲,且其語音資料能對應到一個語音功能,則處理器113將維持辨識門檻值,並執行對應語音功能(步驟S360)。
綜上所述,本發明實施例的語音服務控制裝置及其方法,判斷使用者對於喚醒關鍵字的幾次呼叫是否重複失敗,再依據這些失敗呼叫對應的信心值之運算關係來調低辨識門檻值,讓使用者能成功啟動語音服務。另一方面,為了避免辨識門檻值會一直低於環境聲對應的信心值所造成的誤判情況,本發明實施例還會判斷語音資料是否真的對語音功能提出要求,並在未匹配於語音功能的情況下調高辨識門檻值。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1:語音服務系統 110:語音服務控制裝置 111:收音裝置 112:輸入輸出介面 113:處理器 114:記憶體 150:語音服務提供伺服器 S210~S240、S310~S370:步驟
圖1是依據本發明一實施例之語音服務系統的示意圖。 圖2是依據本發明一實施例之語音服務控制方法的流程圖。 圖3是一應用情境之流程圖。
S210~S240:步驟
Claims (20)
- 一種語音服務控制方法,包括:取得一語音資料;辨識該語音資料中的關鍵字,以決定該關鍵字對應的一信心值,其中該信心值是該關鍵字相對於對語音服務提出要求之喚醒關鍵字的符合程度;反應於該信心值小於一辨識門檻值,判斷一累計失敗次數,其中該語音服務係反應於偵測到大於該辨識門檻值的信心值而被要求提供,且該累計失敗次數是一時間區間中該語音資料與至少一先前語音資料的信心值小於該辨識門檻值的累計次數;以及依據該累計失敗次數、以及該語音資料與該至少一先前語音資料的信心值之一運算關係,調整該辨識門檻值。
- 如申請專利範圍第1項所述的語音服務控制方法,其中依據該累計失敗次數、以及該語音資料與該至少一先前語音資料的信心值的該運算關係調整該辨識門檻值的步驟,包括:判斷該累計失敗次數是否大於一次數門檻值,其中該次數門檻值大於一;以及反應於該累計失敗次數大於該次數門檻值,依據該語音資料與該至少一先前語音資料的信心值的該運算關係降低該辨識門檻值。
- 如申請專利範圍第2項所述的語音服務控制方法,其中依據該語音資料與該至少一先前語音資料的信心值的該運算關係降低該辨識門檻值的步驟包括:將該語音資料與該至少一先前語音資料中至少一者的信心值與該辨識門檻值的平均值作為調整後的該辨識門檻值。
- 如申請專利範圍第3項所述的語音服務控制方法,其中將該語音資料與該至少一先前語音資料中至少一者的信心值與該辨識門檻值的平均值作為調整後的該辨識門檻值之前,更包括:取得該語音資料與該至少一先前語音資料的信心值中最大的至少一者。
- 如申請專利範圍第3項所述的語音服務控制方法,其中將該語音資料與該至少一先前語音資料中至少一者的信心值與該辨識門檻值的平均值作為更新後的該辨識門檻值之前,更包括:取得該語音資料與該至少一先前語音資料的信心值中大於一最低界限值的至少一者,其中該最低界限值係該辨識門檻值減去一變異值。
- 如申請專利範圍第1項所述的語音服務控制方法,其中該累計失敗次數是該時間區間中該語音資料與連續取得的該至少一先前語音資料的信心值小於該辨識門檻值的累計次數。
- 如申請專利範圍第1項所述的語音服務控制方法,其中決定該關鍵字對應的該信心值之後,更包括:反應於該語音資料的信心值未小於該辨識門檻值,發送一服 務要求,其中該服務要求包括該語音資料;接收回應於該服務要求的一服務回應;判斷該服務回應是否相關於該語音資料未匹配至少一語音功能;以及反應於該服務回應相關於該語音資料未匹配該至少一語音功能,調整該辨識門檻值。
- 如申請專利範圍第7項所述的語音服務控制方法,其中調整該辨識門檻值的步驟包括:依據該辨識門檻值決定一最高界限值,其中該最高界限值大於該辨識門檻值;以及依據該最高界限值提高該辨識門檻值。
- 如申請專利範圍第8項所述的語音服務控制方法,其中依據該最高界限值提高該辨識門檻值的步驟包括:反應於該語音資料的信心值小於該最高界限值,將該語音資料的信心值作為該辨識門檻值;以及反應於該語音資料的信心值未小於該最高界限值,將該最高界限值作為該辨識門檻值。
- 如申請專利範圍第8項所述的語音服務控制方法,其中該最高界限值係該辨識門檻值加上一變異值。
- 一種語音服務控制裝置,包括:一收音裝置,取得一語音資料;以及一處理器,耦接該收音裝置,並經配置用以執行: 辨識該語音資料中的關鍵字,以決定該關鍵字對應的一信心值,其中該信心值是該關鍵字相對於對語音服務提出要求之喚醒關鍵字的符合程度;反應於該信心值小於一辨識門檻值,判斷一累計失敗次數,其中該語音服務係反應於偵測到大於該辨識門檻值的信心值而被要求提供,且該累計失敗次數是一時間區間中該語音資料與至少一先前語音資料的信心值小於該辨識門檻值的累計次數;以及依據該累計失敗次數、以及該語音資料與該至少一先前語音資料的信心值的一運算關係,調整該辨識門檻值。
- 如申請專利範圍第11項所述的語音服務控制裝置,其中該處理器經配置用以執行:判斷該累計失敗次數是否大於一次數門檻值,其中該次數門檻值大於一;以及反應於該累計失敗次數大於該次數門檻值,依據該語音資料與該至少一先前語音資料的信心值降低該辨識門檻值。
- 如申請專利範圍第12項所述的語音服務控制裝置,其中該處理器經配置用以執行:將該語音資料與該至少一先前語音資料中至少一者的信心值與該辨識門檻值的平均值作為調整後的該辨識門檻值。
- 如申請專利範圍第13項所述的語音服務控制裝置,其該處理器經配置用以執行: 取得該語音資料與該至少一先前語音資料的信心值中最大的至少一者。
- 如申請專利範圍第13項所述的語音服務控制裝置,其中該處理器經配置用以執行:取得該語音資料與該至少一先前語音資料的信心值中大於一最低界限值的至少一者,其中該最低界限值係該辨識門檻值減去一變異值。
- 如申請專利範圍第11項所述的語音服務控制裝置,其中該累計失敗次數是該時間區間中該語音資料與連續取得的該至少一先前語音資料的信心值小於該辨識門檻值的累計次數。
- 如申請專利範圍第11項所述的語音服務控制裝置,更包括:一輸入輸出介面,耦接該處理器,並用以收發資料;而該處理器經配置用以執行:反應於該語音資料的信心值未小於該辨識門檻值,透過該輸入輸出介面發送一服務要求,其中該服務要求包括該語音資料;透過該輸入輸出介面接收回應於該服務要求的一服務回應;判斷該服務回應是否相關於該語音資料未匹配至少一語音功能;以及反應於該服務回應相關於該語音資料未匹配該至少一語 音功能,調整該辨識門檻值。
- 如申請專利範圍第17項所述的語音服務控制裝置,其中該處理器經配置用以執行:依據該辨識門檻值決定一最高界限值,其中該最高界限值大於該辨識門檻值;以及依據該最高界限值提高該辨識門檻值。
- 如申請專利範圍第18項所述的語音服務控制裝置,其中該處理器經配置用以執行:反應於該語音資料的信心值小於該最高界限值,將該語音資料的信心值作為該辨識門檻值;以及反應於該語音資料的信心值未小於該最高界限值,將該最高界限值作為該辨識門檻值。
- 如申請專利範圍第18項所述的語音服務控制裝置,其中該最高界限值係該辨識門檻值加上一變異值。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107108937A TWI682385B (zh) | 2018-03-16 | 2018-03-16 | 語音服務控制裝置及其方法 |
CN201810325210.6A CN110277095B (zh) | 2018-03-16 | 2018-04-12 | 语音服务控制装置及其方法 |
US16/018,066 US10755696B2 (en) | 2018-03-16 | 2018-06-26 | Speech service control apparatus and method thereof |
EP18184443.2A EP3540730B1 (en) | 2018-03-16 | 2018-07-19 | Speech service control apparatus and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107108937A TWI682385B (zh) | 2018-03-16 | 2018-03-16 | 語音服務控制裝置及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201939482A TW201939482A (zh) | 2019-10-01 |
TWI682385B true TWI682385B (zh) | 2020-01-11 |
Family
ID=63012890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107108937A TWI682385B (zh) | 2018-03-16 | 2018-03-16 | 語音服務控制裝置及其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10755696B2 (zh) |
EP (1) | EP3540730B1 (zh) |
CN (1) | CN110277095B (zh) |
TW (1) | TWI682385B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128155B (zh) * | 2019-12-05 | 2020-12-01 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
KR20210079004A (ko) * | 2019-12-19 | 2021-06-29 | 삼성전자주식회사 | 컴퓨팅 장치 및 그 동작 방법 |
CN111816178B (zh) * | 2020-07-07 | 2024-09-06 | 云知声智能科技股份有限公司 | 语音设备的控制方法、装置和设备 |
EP4191577A4 (en) * | 2020-09-25 | 2024-01-17 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD |
CN112509596B (zh) * | 2020-11-19 | 2024-07-09 | 北京小米移动软件有限公司 | 唤醒控制方法、装置、存储介质及终端 |
CN117711395B (zh) * | 2023-06-30 | 2024-10-11 | 荣耀终端有限公司 | 语音交互方法及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
TW201717192A (zh) * | 2015-11-03 | 2017-05-16 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
US20170324866A1 (en) * | 2016-05-06 | 2017-11-09 | Genesys Telecommunications Laboratories, Inc. | System and method for chat automation |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
KR100679044B1 (ko) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | 사용자 적응형 음성 인식 방법 및 장치 |
US8396715B2 (en) * | 2005-06-28 | 2013-03-12 | Microsoft Corporation | Confidence threshold tuning |
WO2012020717A1 (ja) * | 2010-08-10 | 2012-02-16 | 日本電気株式会社 | 音声区間判定装置、音声区間判定方法および音声区間判定プログラム |
US20130185068A1 (en) * | 2010-09-17 | 2013-07-18 | Nec Corporation | Speech recognition device, speech recognition method and program |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US20140337031A1 (en) | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
JP2015045689A (ja) * | 2013-08-27 | 2015-03-12 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム |
JP2015155975A (ja) * | 2014-02-20 | 2015-08-27 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
CN106653010B (zh) * | 2015-11-03 | 2020-07-24 | 络达科技股份有限公司 | 电子装置及其透过语音辨识唤醒的方法 |
CN105912725A (zh) * | 2016-05-12 | 2016-08-31 | 上海劲牛信息技术有限公司 | 一种通过自然语言交互调用海量智慧应用的系统 |
CN107659847B (zh) * | 2016-09-22 | 2019-10-15 | 腾讯科技(北京)有限公司 | 语音互动方法和装置 |
US10169319B2 (en) * | 2016-09-27 | 2019-01-01 | International Business Machines Corporation | System, method and computer program product for improving dialog service quality via user feedback |
WO2018097969A1 (en) | 2016-11-22 | 2018-05-31 | Knowles Electronics, Llc | Methods and systems for locating the end of the keyword in voice sensing |
-
2018
- 2018-03-16 TW TW107108937A patent/TWI682385B/zh active
- 2018-04-12 CN CN201810325210.6A patent/CN110277095B/zh active Active
- 2018-06-26 US US16/018,066 patent/US10755696B2/en active Active
- 2018-07-19 EP EP18184443.2A patent/EP3540730B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
TW201717192A (zh) * | 2015-11-03 | 2017-05-16 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
US20170324866A1 (en) * | 2016-05-06 | 2017-11-09 | Genesys Telecommunications Laboratories, Inc. | System and method for chat automation |
Also Published As
Publication number | Publication date |
---|---|
EP3540730A1 (en) | 2019-09-18 |
US10755696B2 (en) | 2020-08-25 |
TW201939482A (zh) | 2019-10-01 |
US20190287518A1 (en) | 2019-09-19 |
CN110277095B (zh) | 2021-06-18 |
EP3540730B1 (en) | 2020-07-08 |
CN110277095A (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI682385B (zh) | 語音服務控制裝置及其方法 | |
US20200310751A1 (en) | System and method of managing device sound level | |
CN109378000B (zh) | 语音唤醒方法、装置、系统、设备、服务器及存储介质 | |
KR101981878B1 (ko) | 스피치의 방향에 기초한 전자 디바이스의 제어 | |
US10410635B2 (en) | Dual mode speech recognition | |
WO2014096506A1 (en) | Method, apparatus, and computer program product for personalizing speech recognition | |
CN111566730B (zh) | 低功率设备中的语音命令处理 | |
US10705789B2 (en) | Dynamic volume adjustment for virtual assistants | |
US10147444B2 (en) | Electronic apparatus and voice trigger method therefor | |
US20180285068A1 (en) | Processing method of audio control and electronic device thereof | |
CN109982228B (zh) | 一种麦克风故障检测方法及移动终端 | |
US9929709B1 (en) | Electronic device capable of adjusting output sound and method of adjusting output sound | |
JP2004511823A (ja) | 動的再構成可能音声認識システムとその方法 | |
CN112470217A (zh) | 用于确定要执行语音识别的电子装置的方法及电子装置 | |
US20180174574A1 (en) | Methods and systems for reducing false alarms in keyword detection | |
JP2017509009A (ja) | オーディオストリームの中の音楽の追跡 | |
WO2019228138A1 (zh) | 音乐播放方法、装置、存储介质及电子设备 | |
CA3151297A1 (en) | Keyword detection | |
TWI679632B (zh) | 語音偵測方法以及語音偵測裝置 | |
JP2003241788A (ja) | 音声認識装置及び音声認識システム | |
US11610596B2 (en) | Adjustment method of sound output and electronic device performing the same | |
US11205433B2 (en) | Method and apparatus for activating speech recognition | |
CN113163053B (zh) | 电子装置及播放控制方法 | |
TWI718513B (zh) | 電子裝置與語音辨識切換方法 | |
KR102052634B1 (ko) | 호출음 인식장치 및 호출음 인식방법 |