TW202029181A - 語音識別用於特定目標喚醒的方法及裝置 - Google Patents
語音識別用於特定目標喚醒的方法及裝置 Download PDFInfo
- Publication number
- TW202029181A TW202029181A TW108103170A TW108103170A TW202029181A TW 202029181 A TW202029181 A TW 202029181A TW 108103170 A TW108103170 A TW 108103170A TW 108103170 A TW108103170 A TW 108103170A TW 202029181 A TW202029181 A TW 202029181A
- Authority
- TW
- Taiwan
- Prior art keywords
- target
- voice
- module
- specific target
- wake
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Abstract
本發明公開一種語音識別用於特定目標喚醒的方法及裝置,其中方法包括如下步驟:接收特定目標的語音訊息,提取其中的語音特徵;將特定目標的語音特徵作為以鑑別式訓練的HVS模型的輸入數據並進行訓練,得到特定目標聲學模型,並儲存特定目標聲學模型;接收待測目標的語音訊息,提取其中的語音特徵;將待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練,得到待測目標的聲學模型;比對待測目標的聲學模型與特定目標的聲學模型,若兩者有關聯則將待測目標的語音特徵使用語言模型進行語言解碼,並根據語言解碼結果判斷是否喚醒。本發明採用鑑別式訓練的HVS模型作為聲學模型,可精準且快速地判斷目標,進而達到喚醒的功用。
Description
本發明涉及一種語音識別領域,尤其涉及一種語音識別的方法及裝置。
近年來,智慧音箱逐漸改變人們生活的方式,智慧音箱作為語音助理可協助用戶執行生活上的任務,例如幫忙叫車、購物、提醒事項、記錄資訊等等,儘管智慧音箱帶來生活上更多便利,然而智慧音箱仍有許多安全隱患,有時智慧音箱無法有效地判別使用者是否為初始設定的用戶而進行信用卡下訂商品的可能性,因此,為了防止有心人士使用,目前市面上許多智慧音箱會採用語音識別的方式作為防護措施。
一般的智慧音箱通常採用語音喚醒的方式喚醒智慧音箱進而執行後續任務,所謂語音喚醒的方式通常是從一段連續的語音中自動擷取一些使用者預先註冊的語音指令(喚醒詞)。傳統上使用隱藏式馬可夫模型(Hidden Markov Model,HMM)的技術,利用單獨的音素(Phoneme)、音節的特徵向量比對,找出機率最大(最有可能)的單字,後來,又結合高斯混合模型(Gaussian Mixture Model,GMM)形成經典的GMM-HMM模型。現有的GMM-HMM模型常採用最大相似度訓練方法(Maximum Likelihood),然而此種方法在某些因素下容易使得競爭者答案機率大於正確答案機率,則導致正確率的下降,因此仍有進步改善的空間。
本發明的目的是針對習知技術存在的缺陷和不足,提出一種語音識別用於特定目標喚醒的實現方法,利用特定目標的喚醒詞結合採用鑑別式訓練的潛藏向量狀態模型(Hidden Vector State Model,簡稱HVS Model),實現對特定目標的身分識別監測,從而達到特定目標語音喚醒之目的。
為實現上述目的,本發明的方法包括以下步驟:
S1:接收一特定目標的語音訊息並對所述特定目標的語音訊息進行預處理,提取所述特定目標的一語音特徵;
S2:將所述特定目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型(HVS Model)的輸入數據並進行訓練,得到一特定目標聲學模型,並儲存所述特定目標聲學模型;
S3:接收一待測目標的語音訊息並對所述待測目標的語音訊息進行預處理,提取所述待測目標的一語音特徵;
S4:將所述待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練,得到一待測目標的聲學模型;
S5:比對所述待測目標的聲學模型與所述特定目標的聲學模型之間的關聯性,若兩者有關聯則將所述待測目標的語音特徵使用至少一語言模型進行語言解碼,並根據語言解碼結果判斷是否喚醒。
具體地,所述特定目標的語音訊息與所述待測目標的語音訊息中包括至少一喚醒詞。
具體地,所述預處理包括:將語音訊息進行雜訊抑制處理及回音消除處理。
具體地,所述語音特徵利用梅爾倒頻譜係數(MFCC)的方式取得。
具體地,所述鑑別式訓練採用最大互信息法進行訓練。
具體地,所述語言模型包括一詞庫模型或一文法模型或及其組合。
具體地,所述根據語言解碼結果判斷是否達到語音識別的喚醒,其步驟包含:將所述待測目標的語音特徵進行語言解碼;判斷待測目標語音訊息其中是否包含所述喚醒詞;若包含所述喚醒詞則語音識別喚醒啟動,若沒有包含所述喚醒詞則語音識別喚醒未啟動。
本發明之另一目的在於提出一種語音識別用於特定目標喚醒的裝置。
為實現上述目的,本發明的裝置包括:
一採集模組,包括多個麥克風陣列,用於接收特定目標與待測目標的語音訊息,其中所述語音訊息包含一喚醒詞;
一提取模組,連接所述採集模組,用於提取所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵;
一訓練模組,連接所述提取模組,用於將所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵作為以最大互信息法訓練的潛藏向量狀態模型的輸入數據,並獲取訓練後的特定目標的聲學模型與待測目標的聲學模型;
一存儲模組,連接所述訓練模組,用於保存訓練完成的特定目標的聲學模型;
一解碼模組,連接所述提取模組,用於將所述待測目標的語音訊息進行語言解碼;以及
一處理器模組,連接所述訓練模組、所述存儲模組與所述解碼模組,用於比對所述存儲模組中的特定目標的聲學模型與待測目標的聲學模型,以及根據比對結果判斷是否啟動所述解碼模組進行待測目標的語音訊息的語言解碼,並根據語言解碼後的待測目標的語音訊息確認是否包含喚醒詞以喚醒所述裝置。
具體地,所述裝置進一步包括一註冊模組,所述註冊模組連接所述採集模組與所述存儲模組,所述註冊模組用於啟動保存特定目標的聲學模型到所述存儲模組。
具體地,所述裝置進一步包括包括一無線通訊模組,其中,所述無線通訊模組用於進行外部通訊連接。
如上所述,本發明語音識別用於特定目標喚醒的方法及裝置採用鑑別式訓練的潛藏向量狀態模型作為聲學模型,使用鑑別式訓練除了最大化正確答案的出現機率外,也會將競爭者的出現機率降低,增加其正確答案與競爭者之間的鑑別能力,能夠快速且準確地判斷待測目標是否為特定目標,進而達到喚醒的功用。
為詳細說明本發明之技術內容、構造特徵、所達成的目的及功效,以下茲例舉實施例並配合圖式詳予說明。
請參閱第1圖,第1圖為本發明實施例公開的一種語音識別用於特定目標喚醒之方法流程示意圖,包括如下步驟:
步驟S101:接收一特定目標的語音訊息並對所述特定目標的語音訊息進行預處理,提取所述特定目標的一語音特徵;
具體的,此步驟中特定目標指的是進行語音識別中達到喚醒條件的註冊用戶,而語音訊息為事先準備好的文本,此文本內容中會包含預設的一喚醒詞,特定目標先朗讀文本內容並經由本發明實施例一語音識別裝置100的一採集模組11收集特定目標的語音訊息。
具體的,此步驟中所收集的語音訊息為類比語音訊號,需要將類比語音訊號轉成數位語音訊號才可進行後續語音識別處理。另外,在語音訊息中可能會包含其他環境噪音,因此也需要對語音訊息進行預處理,濾除無用的環境噪音並取得有效的語音訊號,所述預處理包含對數位語音訊號進行雜訊抑制處理及回音消除處理,上述預處理可以參照目前現有降噪處理的技術。
具體的,完成預處理後的語音訊號需要提取特定目標的語音特徵,本發明實施例中採用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, 簡稱MFCC)的方式擷取特定目標的語音特徵,將預處理後的語音訊號切割為多個音框(Frame blocking)、針對需要加重語音訊號的部分進行預強調(Pre-emphasis)、進行加窗(Window)等作業,得到更加清晰、明確的一段語音特徵。
步驟S102:將所述特定目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型(Hidden Vector State Model, 簡稱HVS Model)的輸入數據並進行訓練,得到一特定目標聲學模型,並儲存所述特定目標聲學模型;
具體的,此步驟中將特定目標的語音特徵作為輸入資料進行聲學模型的訓練,在本發明實施例中採用潛藏向量狀態模型並使用鑑別式訓練的方式進行訓練,鑑別式訓練不以最大化訓練聲學語料的相似度為目標,而以最小化分類(或辨識)錯誤為目標,增進辨識率。
其中鑑別式訓練是以最大互信息法(Maximum Mutual Information, 簡稱MMI)為準則進行訓練,其能夠將最大化正確答案出現的機率提高,並有效的降低競爭者出現的機率,並增加正確答案與競爭者的鑑別性。
具體的,此步驟中儲存所述特定目標聲學模型指的是儲存到本發明實施例語音識別裝置100的一存儲模組14。
步驟S103:接收一待測目標的語音訊息並對所述待測目標的語音訊息進行預處理,提取所述待測目標的一語音特徵;
具體的,此步驟中待測目標指的是欲進行語音識別比對的使用人,待測目標輸出一段語音訊息,並經由本發明實施例語音識別裝置100的一採集模組11收集待測目標的語音訊息。
具體的,此步驟中對待測目標的語音訊息進行預處理,並提取所述待測目標的語音特徵,其處理步驟等同於上述對特定目標的語音訊息進行預處理,並提取所述特定目標的語音特徵的流程。
步驟S104:將所述待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練,得到一待測目標的聲學模型;
具體的,此步驟中對待測目標的語音特徵作為輸入資料進行聲學模型的訓練,在本發明實施例中採用潛藏向量狀態模型並使用鑑別式訓練的方式進行訓練,鑑別式訓練是以最大互信息法(Maximum Mutual Information, 簡稱MMI)為準則進行訓練。
步驟S105:比對所述待測目標的聲學模型與所述特定目標的聲學模型之間的關聯性,若兩者有關聯則將所述待測目標的語音特徵使用至少一語言模型進行語言解碼,並根據語言解碼結果判斷是否喚醒。
具體的,此步驟中當待測目標的聲學模型符合特定目標的聲學模型則進行語言解碼,假若待測目標的聲學模型不符合特定目標的聲學模型則不進行任何動作,所述語言解碼使用待測目標的語音特徵作為輸入資料進行語言模型的訓練,在本發明實施例中語言模型包含一詞庫模型及一文法模型。
當待測目標的聲學模型判別為特定目標的聲學模型,則代表此時待測目標為特定目標,因此進行語言解碼確認待測目標的語音訊息是否包含喚醒詞。將待測目標的語音特徵進行詞庫模型與文法模型的訓練,解析得到待測目標的語音訊息內容,然後再判斷待測目標的語音訊息內容是否包含喚醒詞,若包含喚醒詞則語音識別喚醒啟動,若沒有包含喚醒詞則語音識別喚醒未啟動。
請參閱第二圖,本發明實施例一語音識別用於特定目標喚醒的裝置。一語音識別裝置100包含一採集模組11、一提取模組12、一訓練模組13、一存儲模組14、一解碼模組15、一處理器模組16、一註冊模組17以及一無線通訊模組18。
所述採集模組11與提取模組12和註冊模組17連接,其中採集模組11設置多個麥克風用於接收特定目標與待測目標的語音訊息,收集的語音訊息為類比語音訊號需要轉化成數位語音訊號,同時將數位語音訊號進行雜訊抑制處理及回音消除處理,然後將處理完的數位語音訊息傳送到提取模組12。
所述特定目標的定義是根據本發明語音識別用於特定目標喚醒的對象,所述待測目標的定義是語音識別裝置100進行語音識別的對象。
所述特定目標的語音訊息中包含一預設的喚醒詞。
所述提取模組12與採集模組11、訓練模組13以及解碼模組15連接,提取模組12用於接收採集模組11處理後的語音訊息,並提取其中特定目標與待測目標的語音特徵,再傳送到訓練模組13進行聲學模型訓練或是傳送到解碼模組15進行解碼。
所述提取特定目標與待測目標的語音特徵是採用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, 簡稱MFCC)的方式擷取其語音訊息的語音特徵。
所述訓練模組13與提取模組12、存儲模組14以及處理器模組16連接。所述訓練模組13用於接收提取模組12提取完的特定目標與待測目標的語音特徵,並將特定目標與待測目標的語音特徵作為以最大互信息法訓練的潛藏向量狀態模型的輸入數據,最後獲取訓練後的聲學模型,並根據特定目標與待測目標進行不同步驟。若是特定目標則將特定目標的聲學模型傳送到存儲模組14,若是待測目標則將待測目標的聲學模型傳送到處理器模組16。
所述存儲模組14與訓練模組13、處理器模組16以及註冊模組17連接。所述存儲模組14用於保存訓練模組13訓練完成的特定目標的聲學模型。在本發明實施例中,當特定目標進行註冊模組17的操作,則訓練模組13訓練後的特定目標的聲學模型會傳送到存儲模組14進行保存。另外,當處理器模組16進行待測目標與特定目標的聲學模型比對時,則存儲模組14將保存的特定目標的聲學模型傳送到處理器模組16。
所述解碼模組15與提取模組12及處理器模組16連接。所述解碼模組15用於將待測目標的語音訊息進行語言解碼,更具體的說明,提取模組12將待測目標的語音特徵作為以詞庫模型及文法模型的輸入資料進行訓練,並將結果傳送到處理器模組16。
所述處理器模組16與訓練模組13、存儲模組14、解碼模組15與無線通訊模組18連接。所述處理器模組16用於比對特定目標的聲學模型與待測目標的聲學模型,並根據兩個聲學模型的比對結果判斷是否啟動所述解碼模組15進行語言解碼,更具體的說明,當訓練模組13傳送待測目標的聲學模型則處理器模組16同時從存儲模組14中取得特定目標的聲學模型,並在處理器模組16中進行這兩個聲學模型的比對。
當確認特定目標的聲學模型與待測目標的聲學模型有關連,即代表待測目標為特定目標,因此進行待測目標的語音訊息語言解碼判斷其中是否包含喚醒詞,故處理器模組16會啟動解碼模組15,並由解碼模組15進行語言解碼。
所述解碼模組15從提取模組12中獲取待測目標的語音特徵,並將語言解碼的運算結果回傳給處理器模組16,處理器模組16會根據待測目標的聲學模型以及語言解碼後結果判斷待測目標的語音訊息中是否包含喚醒詞。
當處理器模組16得到待測目標的語音訊息中包含喚醒詞則執行語音識別裝置100的喚醒,反之則不執行。
所述註冊模組17與採集模組11以及存儲模組14連接。所述註冊模組17用於提供特定目標進行語音識別裝置100的註冊,其中註冊模組17包含一啟動元件以及一顯示元件,當特定目標碰觸啟動元件則同時啟動存儲模組14,表示採集模組11此次收集到的語音訊息經過訓練模組13訓練後的聲學模型需要保存到存儲模組14,另外,當特定目標碰觸啟動元件則顯示元件啟動提供特定目標確認目前是否為註冊階段。
在本發明實施例中,所述啟動元件為一種按鈕,所述顯示元件為一種發光二極體。
所述無線通訊模組18與處理器模組16連接。所述無線通訊模組18用於當處理器模組16確認喚醒語音識別裝置100成功後進行與外部通訊連接。
在本發明實施例中,所述無線通訊模組18包含一種WiFi模組或一種藍牙模組。
如上所述,本發明語音識別用於特定目標喚醒的方法及裝置採用鑑別式訓練的潛藏向量狀態模型作為聲學模型,使用最大互信息法的鑑別式訓練除了最大化正確答案的出現機率外,也會將競爭者的出現機率降低,增加其正確答案與競爭者之間的鑑別能力,能夠快速且準確地判斷待測目標是否為特定目標,進而達到喚醒的功用。
100:語音識別裝置11:採集模組12:提取模組13:訓練模組14:存儲模組15:解碼模組16:處理器模組17:註冊模組18:無線通訊模組S101~S105:流程步驟
第1圖係本發明語音識別用於特定目標喚醒之方法流程示意圖。
第2圖係本發明語音識別用於特定目標喚醒之裝置示意圖。
100:語音識別裝置
11:採集模組
12:提取模組
13:訓練模組
14:存儲模組
15:解碼模組
16:處理器模組
17:註冊模組
18:無線通訊模組
Claims (10)
- 一種語音識別用於特定目標喚醒的方法,其特徵在於,包括如下步驟:S1:接收一特定目標的語音訊息並對所述特定目標的語音訊息進行預處理,提取所述特定目標的一語音特徵;S2:將所述特定目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型(HVS Model)的輸入數據並進行訓練,得到一特定目標聲學模型,並儲存所述特定目標聲學模型;S3:接收一待測目標的語音訊息並對所述待測目標的語音訊息進行預處理,提取所述待測目標的一語音特徵;S4:將所述待測目標的語音特徵作為以鑑別式訓練的潛藏向量狀態模型的輸入數據並進行訓練,得到一待測目標的聲學模型;S5:比對所述待測目標的聲學模型與所述特定目標的聲學模型之間的關聯性,若兩者有關聯則將所述待測目標的語音特徵使用至少一語言模型進行語言解碼,並根據語言解碼結果判斷是否喚醒。
- 如申請專利範圍第1項所述之語音識別用於特定目標喚醒的方法,其特徵在於,所述特定目標的語音訊息與所述待測目標的語音訊息中包括至少一喚醒詞。
- 如申請專利範圍第1項所述之語音識別用於特定目標喚醒的方法,其特徵在於,所述預處理包括:將語音訊息進行雜訊抑制處理及回音消除處理。
- 如申請專利範圍第1項所述之語音識別用於特定目標喚醒的方法,其特徵在於,所述語音特徵利用梅爾倒頻譜係數(MFCC)的方式取得。
- 如申請專利範圍第1項所述之語音識別用於特定目標喚醒的方法,其特徵在於,所述鑑別式訓練採用最大互信息法(MMI)進行訓練。
- 如申請專利範圍第1項所述之語音識別用於特定目標喚醒的方法,其特徵在於,所述語言模型包括一詞庫模型或一文法模型或及其組合。
- 如申請專利範圍第2項所述之語音識別用於特定目標喚醒的方法,其特徵在於,所述根據語言解碼結果判斷是否達到語音識別的喚醒,其步驟包含:將所述待測目標的語音特徵進行語言解碼;判斷待測目標語音訊息其中是否包含所述喚醒詞;若包含所述喚醒詞則語音識別喚醒啟動,若沒有包含所述喚醒詞則語音識別喚醒未啟動。
- 一種語音識別用於特定目標喚醒的裝置,其特徵在於,所述裝置包括:一採集模組,包括多個麥克風陣列,用於接收特定目標與待測目標的語音訊息,其中所述語音訊息包含一喚醒詞;一提取模組,連接所述採集模組,用於提取所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵;一訓練模組,連接所述提取模組,用於將所述特定目標以及所述待測目標的語音訊息其中的MFCC語音特徵作為以最大互信息法訓練的潛藏向量狀態模型的輸入數據,並獲取訓練後的特定目標的聲學模型與待測目標的聲學模型;一存儲模組,連接所述訓練模組,用於保存訓練完成的特定目標的聲學模型;一解碼模組,連接所述提取模組,用於將所述待測目標的語音訊息進行語言解碼;以及一處理器模組,連接所述訓練模組、所述存儲模組與所述解碼模組,用於比對所述存儲模組中的特定目標的聲學模型與待測目標的聲學模型,以及根據比對結果判斷是否啟動所述解碼模組進行待測目標的語音訊息的語言解碼,並根據語言解碼後的待測目標的語音訊息確認是否包含喚醒詞以喚醒所述裝置。
- 如申請專利範圍第8項所述之語音識別用於特定目標喚醒的裝置,其特徵在於,進一步包括一註冊模組,所述註冊模組連接所述採集模組與所述存儲模組,所述註冊模組用於啟動保存特定目標的聲學模型到所述存儲模組。
- 如申請專利範圍第8項所述之語音識別用於特定目標喚醒的裝置,其特徵在於,進一步包括一無線通訊模組,其中,所述無線通訊模組用於進行外部通訊連接。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108103170A TW202029181A (zh) | 2019-01-28 | 2019-01-28 | 語音識別用於特定目標喚醒的方法及裝置 |
US16/420,305 US10930283B2 (en) | 2019-01-28 | 2019-05-23 | Sound recognition device and sound recognition method applied therein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108103170A TW202029181A (zh) | 2019-01-28 | 2019-01-28 | 語音識別用於特定目標喚醒的方法及裝置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202029181A true TW202029181A (zh) | 2020-08-01 |
Family
ID=71732625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108103170A TW202029181A (zh) | 2019-01-28 | 2019-01-28 | 語音識別用於特定目標喚醒的方法及裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10930283B2 (zh) |
TW (1) | TW202029181A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202029181A (zh) * | 2019-01-28 | 2020-08-01 | 正崴精密工業股份有限公司 | 語音識別用於特定目標喚醒的方法及裝置 |
CN112466294B (zh) * | 2020-11-24 | 2021-12-14 | 北京百度网讯科技有限公司 | 声学模型的生成方法、装置及电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558749B1 (en) * | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US9747926B2 (en) * | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
CN105741838B (zh) * | 2016-01-20 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN111971742A (zh) * | 2016-11-10 | 2020-11-20 | 赛轮思软件技术(北京)有限公司 | 与语言无关的唤醒词检测的技术 |
US20180293221A1 (en) * | 2017-02-14 | 2018-10-11 | Microsoft Technology Licensing, Llc | Speech parsing with intelligent assistant |
KR102411766B1 (ko) * | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
US10623246B1 (en) * | 2018-03-27 | 2020-04-14 | Amazon Technologies, Inc. | Device configuration by natural language processing system |
TW202029181A (zh) * | 2019-01-28 | 2020-08-01 | 正崴精密工業股份有限公司 | 語音識別用於特定目標喚醒的方法及裝置 |
-
2019
- 2019-01-28 TW TW108103170A patent/TW202029181A/zh unknown
- 2019-05-23 US US16/420,305 patent/US10930283B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10930283B2 (en) | 2021-02-23 |
US20200243079A1 (en) | 2020-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
EP3210205B1 (en) | Sound sample verification for generating sound detection model | |
US9330667B2 (en) | Method and system for endpoint automatic detection of audio record | |
WO2017071182A1 (zh) | 一种语音唤醒方法、装置及系统 | |
US9646610B2 (en) | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
CN105206271A (zh) | 智能设备的语音唤醒方法及实现所述方法的系统 | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
CN101772015A (zh) | 移动终端语音密码开机的方法 | |
CN110223711B (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN110610707A (zh) | 语音关键词识别方法、装置、电子设备和存储介质 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
TW202029181A (zh) | 語音識別用於特定目標喚醒的方法及裝置 | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
WO2020073839A1 (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN110808050A (zh) | 语音识别方法及智能设备 |