TWI730584B - 關鍵詞的檢測方法以及相關裝置 - Google Patents
關鍵詞的檢測方法以及相關裝置 Download PDFInfo
- Publication number
- TWI730584B TWI730584B TW109100644A TW109100644A TWI730584B TW I730584 B TWI730584 B TW I730584B TW 109100644 A TW109100644 A TW 109100644A TW 109100644 A TW109100644 A TW 109100644A TW I730584 B TWI730584 B TW I730584B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- voice
- voice signal
- keyword
- target
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 131
- 238000001514 detection method Methods 0.000 claims abstract description 459
- 238000012545 processing Methods 0.000 claims description 156
- 238000004422 calculation algorithm Methods 0.000 claims description 139
- 230000008569 process Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 24
- 230000008030 elimination Effects 0.000 claims description 24
- 238000003379 elimination reaction Methods 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 33
- 238000000605 extraction Methods 0.000 description 25
- 230000003993 interaction Effects 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 12
- 238000013461 design Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 239000000654 additive Substances 0.000 description 9
- 230000000996 additive effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000009432 framing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 206010071299 Slow speech Diseases 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 208000010415 Low Vision Diseases 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000004303 low vision Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/25—Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
一種關鍵詞的檢測方法,包括:獲取待檢測語音訊號的增強語音訊號,其對應於目標語速;對增強語音訊號進行變速處理,得到第一變速語音訊號,其對應於第一語速;根據第一變速語音訊號獲取第一語音特徵訊號;透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,其用於表示待檢測語音訊號中是否存在目標關鍵詞;若根據關鍵詞檢測結果確定存在目標關鍵詞,則執行目標關鍵詞所對應的操作。本發明還公開了一種關鍵詞檢測裝置。本發明可以對增強後的訊號再進行變速處理,能夠提升對快語速語音或者慢語速語音中關鍵詞的檢出率。
Description
本發明係關於音頻處理技術領域,特別有關一種關鍵詞的檢測方法以及相關裝置。
隨著智慧型語音設備開始推廣,透過語音命令與智慧型設備進行人機互動成為重要功能。在語音互動應用中,基於產品功耗、互動體驗以及私密性等考慮,用戶需要透過語音關鍵詞來喚醒智慧型設備進而進行下一步人機語音互動。
目前,對於智慧型語音設備而言,需要預先設定至少一個關鍵詞,在用戶喚醒該智慧型語音設備時,應採用正常的語速唸出相應的關鍵詞。通常情況下,對於一個四字關鍵詞而言,採用正常語速唸出來大致需要用時0.5秒左右。
然而,很多情況下,用戶難以保證唸出來的關鍵詞語速恆定,比如,用戶只用了0.2秒的時間就將一個四字關鍵詞唸出來,或者,用戶用了將近1.5秒的時間將一個四字關鍵詞唸出來,這樣的情況下,智慧型語音設備往往難以檢測出當前的語音中是否包含關鍵詞,導致關鍵詞的檢出率低下。
本發明實施例提供了一種關鍵詞的檢測方法以及相關裝置,可以對語音訊號進行增強從而有效地提升語音識別品質,進而對增強後的訊號再進行變速處理,由此提升對快語速語音或者慢語速語音中關鍵詞的檢出率。
有鑒於此,本發明第一方面提供一種關鍵詞的檢測方法,包括:
獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;
對所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;
根據所述第一變速語音訊號獲取第一語音特徵訊號;
透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;
若根據所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作。
本發明第二方面提供一種關鍵詞檢測裝置,包括:
獲取模組,用於獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;
變速模組,用於對所述獲取模組獲取的所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;
所述獲取模組,還用於根據所述變速模組變速後得到的所述第一變速語音訊號獲取第一語音特徵訊號;
所述獲取模組,還用於透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;
執行模組,用於若根據所述獲取模組獲取的所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作。
在一種可能的設計中,在本發明實施例的第二方面的第一種實現方式中,
所述獲取模組,具體用於獲取所述待檢測語音訊號;
透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號。
在一種可能的設計中,在本發明實施例的第二方面的第二種實現方式中,
所述獲取模組,具體用於透過單個語音輸入設備接收所述待檢測語音訊號;
透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對所述待檢測語音訊號進行處理,得到所述增強語音訊號,其中,所述所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述噪聲消除算法用於對所述待檢測語音訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理。
在一種可能的設計中,在本發明實施例的第二方面的第三種實現方式中,
所述獲取模組,具體用於透過多個語音輸入設備接收所述待檢測語音訊號;
透過回聲消除算法和/或混響消除算法,對所述待檢測語音訊號進行處理,得到第一待處理訊號,其中,所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理,其中,所述第一待處理訊號包括多路訊號;
透過波束形成算法對所述第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,所述第二待處理訊號包括一路訊號;
透過噪聲消除算法對所述第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到所述增強語音訊號。
在一種可能的設計中,在本發明實施例的第二方面的第四種實現方式中,
所述變速模組,具體用於將所述增強語音訊號寫入至第一先進先出(first in first out, FIFO)緩存;
當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;
對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;
將所述目標變速語音訊號寫入至第二FIFO緩存;
所述獲取模組,具體用於從所述第二FIFO緩存中讀取所述目標變速語音訊號;
根據所述目標變速語音訊號生成所述第一語音特徵訊號,其中,所述第一語音特徵訊號包括梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficents,MFCC)特徵訊號、濾波器組(Filter banks,Fbanks)以及線性預測倒譜係數(Linear Prediction Cepstrum Coefficient,LPCC)中的至少一種。
在一種可能的設計中,在本發明實施例的第二方面的第五種實現方式中,
所述變速模組,具體用於根據所述待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀;
根據所述第一語音幀、所述第一樣本數以及合成步長,計算得到自然連續語音幀;
根據所述待處理語音訊號以及所述分析幀步長確定第二語音幀;
根據所述第二語音幀以及所述自然連續語音幀,獲取第二樣本數;
根據所述待處理語音訊號、所述第二樣本數以及分析幀步長,確定待匹配語音幀;
根據所述第一語音幀以及所述待匹配語音幀確定所述目標變速語音訊號。
在一種可能的設計中,在本發明實施例的第二方面的第六種實現方式中,
所述變速模組,具體用於採用如下方式計算所述第二樣本數:
其中,所述表示所述第二樣本數,所述表示兩個語音幀的最小互平均幅度差分函數係數,所述表示第個語音幀,所述表示樣本數,所述表示所述自然連續語音,所述表示可移動的最大樣本數,所述表示待匹配的所述第二語音幀,所述表示所述取最小值時的變量值,所述為大於或等於1,且小於或等於所述的整數。
在一種可能的設計中,在本發明實施例的第二方面的第七種實現方式中,所述關鍵詞檢測裝置還包括確定模組;
所述確定模組,用於所述獲取模組透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,若所述關鍵詞檢測結果為第一字元,則根據所述第一字元確定所述待檢測語音訊號中存在所述目標關鍵詞;
所述確定模組,還用於所述獲取模組透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,若所述關鍵詞檢測結果為第二字元,則根據所述第二字元確定所述待檢測語音訊號中不存在所述目標關鍵詞。
在一種可能的設計中,在本發明實施例的第二方面的第八種實現方式中,所述關鍵詞檢測裝置還包括確定模組;
所述確定模組,用於所述獲取模組透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,根據所述關鍵詞檢測結果確定目標概率值;
所述確定模組,還用於若所述目標概率值大於或等於關鍵詞概率閾值,則確定所述待檢測語音訊號中存在所述目標關鍵詞;
所述確定模組,還用於若所述目標概率值小於所述關鍵詞概率閾值,則確定所述待檢測語音訊號中不存在所述目標關鍵詞。
在一種可能的設計中,在本發明實施例的第二方面的第九種實現方式中,
所述獲取模組,還用於獲取待檢測語音訊號的增強語音訊號之後,根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
所述獲取模組,具體用於透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號以及所述第二語音特徵訊號所對應的關鍵詞檢測結果。
在一種可能的設計中,在本發明實施例的第二方面的第十種實現方式中,所述關鍵詞檢測裝置還包括判斷模組和執行模組;
所述判斷模組,用於所述獲取模組獲取待檢測語音訊號的增強語音訊號之後,判斷當前是否處於回聲訊號消除狀態;
所述執行模組,用於若所述判斷模組判斷得到當前處於所述回聲訊號消除狀態,則執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟,並執行所述透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果的步驟;
所述執行模組,用於若所述判斷模組判斷得到當前未處於所述回聲訊號消除狀態,則執行所述根據所述第一變速語音訊號獲取第一語音特徵訊號的步驟,並且執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟。
在一種可能的設計中,在本發明實施例的第二方面的第十一種實現方式中,
所述獲取模組,還用於獲取待檢測語音訊號的增強語音訊號之後,根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
所述變速模組,還用於對所述增強語音訊號進行變速處理,得到第二變速語音訊號,其中,所述第二變速語音訊號對應於第三語速,所述第三語速大於所述目標語速,且所述第三語速大於所述第一語速,所述第一語速小於所述目標語速;
根據所述第二變速語音訊號獲取第三語音特徵訊號;
所述獲取模組,具體用於透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第三語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號、所述第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。
本發明第三方面提供一種智慧型設備,所述智慧型設備用於執行上述第一方面、第二方面或上述任一可能的實現方式中的關鍵詞的檢測技術。具體地,所述智慧型設備可以包括用於執行第一方面、第二方面或上述任一可能的實現方式中關鍵詞的檢測方法的技術。
本發明的第四方面提供了一種計算機可讀儲存媒體,所述計算機可讀儲存媒體中儲存有指令,當其在計算機上運行時,使得計算機執行上述各方面所述的技術。
從以上技術方案可以看出,本發明實施例對應於以下優點:
本發明實施例中,提供了一種關鍵詞的檢測方法,關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號,其中,增強語音訊號對應於目標語速,然後關鍵詞檢測裝置對增強語音訊號進行變速處理,得到第一變速語音訊號,其中,第一變速語音訊號對應於第一語速,第一語速與目標語速不一致,再根據第一變速語音訊號獲取第一語音特徵訊號,最後關鍵詞檢測裝置透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,其中,關鍵詞檢測結果用於表示待檢測語音訊號中是否存在目標關鍵詞,若根據關鍵詞檢測結果確定存在目標關鍵詞,則執行目標關鍵詞所對應的操作。透過上述方式,在檢測關鍵詞之前需要對待檢測語音訊號進行訊號增強處理以及變速處理,對語音訊號進行增強可以有效地提升語音識別品質,進而對增強後的訊號再進行變速處理,能夠提升對快語速語音或者慢語速語音中關鍵詞的檢出率。
本發明實施例提供了一種關鍵詞的檢測方法以及相關裝置,可以對語音訊號進行增強從而有效地提升語音識別品質,進而對增強後的訊號再進行變速處理,由此提升對快語速語音或者慢語速語音中關鍵詞的檢出率。
本發明的說明書和申請專利範圍及圖式中的術語“第一”、“第二”、“第三”、“第四”等(如果存在)是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的資料在適當情況下可以互換,以便這裡描述的本發明的實施例例如能夠以除了在這裡圖示或描述的那些以外的順序實施。此外,術語“包括”和“對應於”以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
應理解,本發明主要應用於人機互動場景,具體為語音互動場景。語音互動創造了全新的伴隨式場景,比如說早晨起床後我們可以一邊洗刷一遍聽廣播,晚上跑步的同時還可以聽音樂,語音互動解放了人的手和眼睛,透過語音互動我們可以做到“一心二用”,這極大的提高了我們在某些場景下的效率,語音互動充分抓住了人類不方便使用手和眼睛的場景。另外隨著智慧型設備影響的擴大,用戶群逐步向老齡人群、低齡人群以及身體殘障人群滲透擴散的趨勢非常明顯,而對這些新進入人群而言,原有的觸控互動方式或許並不太適合,用戶習慣也未形成,例如老年人視力下降、手指也不夠靈活;低齡兒童還不能掌握手寫等能力也不適合長時間看電子螢幕;弱視或盲人更希望接受語音訊息和發出語音指令,因此語音互動也更適合拓展智慧型設備新的用戶人群。
語音互動還具有很多優點,比如互動速度快(透過圖形互動界面設置一個鬧鐘可能需要3分鐘,而語音互動下只需要30秒),操作簡單(釋放雙手,不需要去繁瑣的打開應用程式,只需先找到一首歌,然後點擊播放,可以一邊看書,一邊說“放音樂”或者“下一首”),個性化定制(可以根據之前的背景,理解問題),成本較低(需要麥克風,揚聲器,處理器等,而這些設備的相對低價,提供了喚醒萬物的前提)。
語音互動場景包含但不僅限於家裡(比如透過語音控制家居),車上(相比操作手機的不安全性,語音互動也具有絕對的優勢)以及路上(在習慣了埋頭看手機走路後,能夠一邊語音控制播放歌曲或者查收郵件)。
基於語音互動的智慧型設備已經實用化,在諸如家電、汽車以及手機等設備上已經有廣泛應用,其中,很多設備都具有語音喚醒功能,用於螢幕解鎖或者作為啟動應用的輔助手段。其中,語音喚醒是這樣一項技術,當設備處於待機狀態時,在非常低的功耗條件下,在後台不間斷運行一個裝置,對某個預先定義的關鍵詞進行檢測,當檢測到用戶說出這個詞時,將該設備喚醒,從而使得該設備進入正常工作狀態。
為了便於理解,本發明提出了一種關鍵詞檢測的方法,該方法應用於第1圖所示的關鍵詞檢測系統,請參閱第1圖,第1圖為本發明實施例中關鍵詞檢測系統的一個架構示意圖,如圖所示,用戶透過麥克風輸入一段語音,關鍵詞檢測裝置將這段語音轉換為待檢測語音訊號,然後對待檢測語音訊號進行增強處理,得到增強語音訊號,其中,增強語音訊號對應於原始的語速。接下來,關鍵詞檢測裝置對增強語音訊號進行變速處理,得到第一變速語音訊號。通常情況下,如果原始的語速過快,則透過變速處理後可以降低原始語速,反之,如果原始的語速過慢,則透過變速處理後可以提升原始的語速。關鍵詞檢測裝置從變速後的語音訊號中提取語音特徵訊號,再將語音特徵訊號輸入至已經訓練好的關鍵詞檢測模型,由關鍵詞檢測模型輸出相應的關鍵詞檢測結果,從而可以確定用戶說的這段語音中是否包含有目標關鍵詞。可以理解的是,關鍵詞檢測裝置可以部署於智慧型設備,也可以部署於伺服器,若部署在智慧型設備,則智慧型設備可以在離線的狀態下檢測語音中是否包含目標關鍵詞。若部署在伺服器,則智慧型設備在採集到用戶的語音後,在聯網的狀態下同步或者異步將該語音發送至伺服器,由伺服器檢測語音中是否包含目標關鍵詞。
需要說明的是,客戶端部署於智慧型設備上,其中,智慧型設備包含但不僅限於平板電腦、筆記型電腦、掌上電腦、手機、語音互動設備及個人電腦(personal computer,PC),此處不做限定。其中,語音互動設備包含但不僅限於智慧型音響以及智慧型家電。語音互動設備還具有如下特點:
1. 網路化功能,各種語音互動設備可以透過區域網路連接到一起,還可以透過家庭閘道器連接埠同製造商的服務站點相連,最終可以同網際網路相連,實現訊息的共享。
2. 智能化,語音互動設備可以根據周圍環境的不同自動做出響應,不需要人為干預。
3. 開放性以及兼容性,由於用戶的語音互動設備可能來自不同的廠商,語音互動設備需要具有開發性和兼容性。
4. 節能化,智慧型家電可以根據周圍環境自動調整工作時間以及工作狀態,從而實現節能。
5. 易用性,由於複雜的控制操作流程已由內嵌在語音互動設備中的控制器解決,因此用戶只需了解非常簡單的操作。語音互動設備並不是單指某一個設備,而應是一個技術系統,隨著人類應用需求和語音互動設備智能化的不斷發展,其內容將會更加豐富,根據實際應用環境的不同語音互動設備的功能也會有所差異,但一般應具備智能控制技術。
應理解,本發明將結合第2圖介紹關鍵詞的檢測流程,請參閱第2圖,第2圖為本發明實施例中關鍵詞檢測的一個流程示意圖,如圖所示,具體地,音頻採集模組S1是由麥克風以及模數轉換器等設備所構成的音頻採集前端,該音頻採集模組S1可以只有單個麥克風,也可以是多個麥克風構成的麥克風陣列,透過音頻採集模組S1採集聲音訊號,並發送到語音增強模組S2。語音增強模組S2接收麥克風數位訊號,透過回聲消除、波速形成、噪聲抑制以及混響消除等算法對目標語音訊號進行增強,形成增強語音訊號,並送到語音訊號變速模組S3對語音進行變速處理,得到變速語音訊號。聲學特徵提取模組S4對收到的變速語音訊號進行特徵提取。關鍵詞檢測模組S5透過實時檢測輸入的語音特徵訊號,判斷語音中是否包含目標關鍵詞。
結合上述介紹,下面將對本發明中關鍵詞的檢測方法進行介紹,請參閱第3圖,本發明實施例中關鍵詞的檢測方法一個實施例包括:
101、獲取待檢測語音訊號的增強語音訊號,其中,增強語音訊號對應於目標語速;
本實施例中,用戶透過輸入裝置(比如麥克風)說一段語音,由關鍵詞檢測裝置對語音進行處理,得到待檢測語音訊號,然後對待檢測語音訊號進行語音增強處理,從而得到增強語音訊號,這裡的增強語音訊息對應於目標語速。
語速是人類特有的語言表達定義,人們在使用具有傳播或溝通意義的詞彙表達或傳播訊息時,語速即為單位時間內所包括的詞彙容量。需要說明的是,本發明中的語音類型可以是中文、英文、日文、德文和法文等,此處不對語音類型進行限定。
102、對增強語音訊號進行變速處理,得到第一變速語音訊號,其中,第一變速語音訊號對應於第一語速,第一語速與目標語速不一致;
本實施例中,關鍵詞檢測裝置對增強語音訊號進行變速處理,得到第一變速語音訊號,這裡的第一變速語音訊號對應於第一語速,第一語速可以快於目標語速,或者,第一語速可以慢於目標語速。
103、根據第一變速語音訊號獲取第一語音特徵訊號;
本實施例中,關鍵詞檢測裝置從第一變速語音訊號中提取第一語音特徵訊號。具體地,語音訊號是一種常見的時間序列,它以離散訊號的形式被編碼,然後使用一定的檔案格式來儲存。在與語音有關的應用中,幾乎所有的應用都要涉及到語音特徵的提取,例如語音文本轉換、說話人識別以及語音情感識別等等。語音特徵提取就是從數位訊號中提取出與主要訊息相關的內容,一般會從時域和頻域兩個不同的角度去進行,這些特徵可以從不同的角度去分類。通常在進行特徵提取之前,都要對原始語音訊號序列做一系列的預處理。常用的有以下幾個:
1. 聲道轉換(channel conversion)是指將多個聲道的語音訊號轉換為單聲道語音,如果本身就是單聲道語音訊號,則不需要進行轉換。
2. 預加重(pre-emphasis)的目的就是隻保留一定頻率範圍的訊號。實際上這個過程起到了高通濾波器的作用。一階高通濾波器對高頻訊號有著很好的放大作用,而且會大幅度壓縮低頻訊號的幅度;同時,還會產生一個相位滯後的效應,這個對高頻訊號尤為明顯。
3. 重採樣(resample)是指根據一類象元的訊息內插出另一類象元訊息的過程。實際中,我們遇到的語音訊號可能來自不同的設備,它們在錄製的時候所設置的參數也不盡相同,最重要的一個就是採樣率。根據奈奎斯特(Nyquist)採樣定律,採樣頻率需要大於等於訊號本身最大頻率分量的2倍,才能保證能夠拿採樣之後的資料來恢復訊號。
4. 組幀(framing)是指把相關的訊息組合在一幀內。雖然數位語音訊號是一個隨時間變化的隨機序列,從全域來看它並不是一個平穩隨機過程。但是在較短的時間內,可以認為它是一個近似平穩的隨機過程。而一般認為這段時間的的長度是25毫秒至32毫秒。也就是說,可以按照25毫秒至32毫秒的幀長,把一個離散序列進行分組,每一組就是一幀。此外,為了保證語音訊號的連續性,一般讓相鄰兩幀之間存在一定的重疊。重疊部分一般占幀長的1/3至1/2。
5. 加窗(windowing)往往與組幀一起使用。對每一幀,選擇一個窗函數,窗函數的寬度就是幀長。常用的窗函數有矩形窗、漢明窗、漢寧窗以及高斯窗等。
需要說明的是,在實際應用中,可以按照上述順序執行預操作的流程,也可以根據情況選擇操作的執行順序,此處僅為一個示意。
104、透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,其中,關鍵詞檢測結果用於表示待檢測語音訊號中是否存在目標關鍵詞。
本實施例中,將提取得到的第一語音特徵訊號輸入至關鍵詞檢測模型,由關鍵詞檢測模型輸出關鍵詞檢測結果。根據該關鍵詞檢測結果可以確定待檢測語音訊號中是否存在目標關鍵詞,即用戶說的語音中是否有目標關鍵詞。比如目標關鍵詞為“小騰快醒”,當檢測到語音中有“小騰快醒”這個目標關鍵詞,則會喚醒設備進行相應的操作。
105、若根據關鍵詞檢測結果確定存在目標關鍵詞,則執行目標關鍵詞所對應的操作。
本實施例中,如果關鍵詞檢測結果表明待檢測語音訊號中存在目標關鍵詞,就可以執行相應的操作。比如,目標關鍵詞為“開燈”,則智慧型設備會相應的亮起燈。
本發明實施例中,提供了一種關鍵詞的檢測方法,關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號,其中,增強語音訊號對應於目標語速,然後關鍵詞檢測裝置對增強語音訊號進行變速處理,得到第一變速語音訊號,其中,第一變速語音訊號對應於第一語速,第一語速與目標語速不一致,再根據第一變速語音訊號獲取第一語音特徵訊號,最後關鍵詞檢測裝置透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,其中,關鍵詞檢測結果用於表示待檢測語音訊號中是否存在目標關鍵詞,若根據關鍵詞檢測結果確定存在目標關鍵詞,則執行目標關鍵詞所對應的操作。透過上述方式,在檢測關鍵詞之前需要對待檢測語音訊號進行訊號增強處理以及變速處理,對語音訊號進行增強可以有效地提升語音識別品質,進而對增強後的訊號再進行變速處理,能夠提升對快語速語音或者慢語速語音中關鍵詞的檢出率。
可選地,在上述第3圖對應的實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第一個可選實施例中,獲取待檢測語音訊號的增強語音訊號,可以包括:
獲取待檢測語音訊號;
透過語音增強算法對待檢測語音訊號進行處理,得到增強語音訊號。
本實施例中,由於在通訊過程中語音受到來自周圍環境以及傳輸媒介引入的噪聲,使接收到的待檢測語音訊號並非純淨的原始語音訊號,而是受噪聲污染的帶噪語音訊號。這裡的“噪音”定義為所需待檢測語音訊號之外的干擾訊號。其中,干擾訊號可以是窄帶的、寬頻的、白噪聲的、有色噪聲的、聲學的、電學的、加性的或者乘性的,還可以是其它無關的語音。
根據與輸入語音訊號的關係,噪聲可分為加性噪聲和非加性噪聲兩類。對某些非加性噪聲而言,可以透過一定的變換轉換成加性噪聲。語音處理中的加性噪聲大體上可以分為週期性噪聲、脈衝噪聲、寬頻噪聲和同聲道其他語音的干擾等。其中,週期性噪聲主要來源於發動機等週期性運轉的機械,電氣干擾也會引起週期性噪聲。特點是頻譜上有許多離散的線譜。實際訊號受多種因素的影響,線譜分量通常轉變為窄帶譜結構,而且通常這些窄帶譜都是時變的,位置也不固定。必須採用自適應濾波的方法才能有效地區分這些噪聲分量。脈衝噪聲來源於爆炸、撞擊、放電及突發性干擾等。特徵是時間上的寬度很窄。在時域消除脈衝噪聲過程如下:根據帶噪語音訊號幅度的平均值確定閾值。當訊號超出這一閾值時判別為脈衝噪聲。然後對訊號進行適當的衰減,就可完全消除噪聲分量,也可以使用內插方法將脈衝噪聲在時域上進行平滑。寬頻噪聲來源很多,熱噪聲、氣流噪聲、各種隨機噪聲源以及量化噪聲都可以視為寬頻噪聲。寬頻噪聲與語音訊號在時域和頻域上基本上重疊,只有在無話期間,噪聲分量才單獨存在。因此消除這種噪聲比較困難。對於平穩的寬頻噪聲,通常可以認為是白色高斯噪聲。干擾語音訊號和待傳語音訊號同時在一個頻道中傳輸所造成的語音干擾稱為同聲道語音干擾。區別有用語音和干擾語音的基本方法是利用它們的基音差別。考慮到一般情況下兩種語音的基音不同,也不成整數倍,這樣可以用梳狀濾波器提取基音和各次諧波,再恢復出有用語音訊號。傳輸噪聲是傳輸系統的電路噪聲。處理這種噪聲可以採用同態處理的方法,把非加性噪聲變換為加性噪聲來處理。
針對待檢測語音訊號中的噪音,可以採用如下幾種類型的語音增強算法對待檢測語音訊號進行處理,從而得到增強語音訊號。可以理解的是,採用語音增強算法可以提高預處理的抗噪聲能力,提高輸入訊號的信噪比。
第一種為基於譜減法的語音增強算法,譜減法是利用噪聲的統計平穩性以及加性噪聲與語音不相關的特點而提出的一種語音增強方法。此類語音增強方法將估計的對象放在短時譜幅度上。
第二種為自適應濾波法的語音增強算法,利用自適應濾波法在輸入過程的統計特性未知或是輸入過程的統計特性變化時,能夠調整自己的參數,以滿足某種最佳準則的要求。
第三種為基於統計的語音增強算法,統計方法較充分地利用語音和噪音的統計特性,一般要建立模型庫,需要訓練過程中獲得初始統計參數,它與關鍵詞檢測系統的聯繫很密切。如短時對數譜的最小均方誤差(Minimum Mean Squared Error,MMSE)的語音增強算法,可利用聽覺掩蔽效應達到語音可懂度和清晰度的折中,適用信噪比的範圍較廣。
第四種為其他類型的語音增強算法,例如小波變換算法、卡亨南-洛維變換(Karhunen-Loéve transform,KLT)算法、離散餘弦變換(Discrete Cosine Transform,DCT)算法以及人工神經網路算法等。
其次,本發明實施例中,提供了一種獲取增強語音訊息的方法,即關鍵詞檢測裝置獲取待檢測語音訊號,然後關鍵詞檢測裝置透過語音增強算法對待檢測語音訊號進行處理,得到增強語音訊號。透過上述方式,能夠利用語音增強算法實現語音增強,其中,語音增強是指當待檢測語音訊號被各種各樣的噪聲干擾、甚至淹沒後,從噪聲背景中提取有用的語音訊號,並且抑制和降低噪聲干擾,由此可以從待檢測語音訊號中提取盡可能純淨的原始語音,從而提升目標關鍵詞檢測的準確率,因此,採用語音增強技術對待檢測語音訊號進行預處理,可有效地改善系統性能,提高系統的識別率和抗干擾能力。
可選地,在上述第3圖對應的第一個實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第二個可選實施例中,獲取待檢測語音訊號,可以包括:
透過單個語音輸入設備接收待檢測語音訊號;
透過語音增強算法對待檢測語音訊號進行處理,得到增強語音訊號,可以包括:
透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對待檢測語音訊號進行處理,得到增強語音訊號,其中,回聲消除算法用於對待檢測語音訊號中的回聲訊號進行消除處理,噪聲消除算法用於對待檢測語音訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,混響消除算法用於對待檢測語音訊號中的混響進行消除處理。
本實施例中,基於第2圖所示的音頻採集模組S1和語音增強模組S2一般具有比較強的耦合關係,比如針對單麥克風音頻採集系統,一般需要採用不同的語音增強模組S2以達到最佳的語音增強效果。當採用單麥克風系統時,語音增強模組的一個實施例如圖 4所示,請參閱第4圖,第4圖為本發明實施例中對單麥克風訊號進行語音增強的一個實施例示意圖,如圖所示,首先將單個語音輸入設備接收的待檢測語音訊號輸入至單路回聲消除器A1中,其中,單個語音輸入設備具體可以是單個麥克風。
單路回聲消除器A1採用回聲消除算法對待檢測語音訊號中的回聲訊號進行消除處理,具體地,回聲消除算法包含但不僅限於遞推最小二乘法(recursive least square,RLS)以及最小均方算法(least mean square,LMS),單路回聲消除器A1採用RLS自適應濾波器或者LMS自適應濾波器,對單個麥克風收到的回聲訊號進行自適應跟蹤和濾除,以達到盡可能減小自身播放的聲音對接收到的目標關鍵詞語音的干擾。
噪聲消除器A2包括採用維納濾波(wiener filtering)或者譜減法等算法對穩態噪聲進行抑制,或者採用神經網路語音增強算法對穩態和非穩態噪聲進行抑制,以減小環境噪聲對目標關鍵詞語音的干擾。維納濾波一種基於最小均方誤差準則,對平穩過程的最優估計器。這種濾波器的輸出與期望輸出之間的均方誤差為最小,因此,它是一個最佳濾波系統,它可用於提取被平穩噪聲所污染的訊號。從連續的(或離散的)輸入資料中濾除噪聲和干擾以提取有用訊息的過程稱為濾波,這是訊號處理中經常採用的主要方法之一,具有十分重要的應用價值,而相應的裝置稱為濾波器。根據濾波器的輸出是否為輸入的線性函數,可將它分為線性濾波器和非線性濾波器兩種。維納濾波器是一種線性濾波器。
混響消除器A3可以是基於倒譜域的房間衝激響應估計,然後進行自適應逆濾波去混響。大多數去混響的算法都是基於短分時析,不可避免地帶來了截斷效應,如果對混響語音進行逆濾波,則要求房間衝激響應滿足最小相位。根據訊號最小相位分解的原理,將接收到的含噪帶混響的語音訊號分解成最小相位部分和全通部分,對其中的最小相位部分進行複倒譜域的濾波處理,再與全通部分進行合成以實現混響的去除。所得到的增強語音訊號被送到語音訊號變速模組S3。
可以理解的是,單路回聲消除器、噪聲消除器以及混響消除器對待檢測語音訊號的處理順序可以根據情況進行調整,比如,待檢測語音訊號先經過噪聲消除器的處理,再經過混響消除器的處理,最後經過單路回聲消除器的處理,第4圖所示的順序僅為一個示意,並不應理解為對本發明的限定。
再次,本發明實施例中,介紹了一種對單個麥克風採集到的待檢測語音訊號進行語音增強的方法,即關鍵詞檢測裝置首先透過單個語音輸入設備接收待檢測語音訊號,然後透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對待檢測語音訊號進行處理,得到增強語音訊號。透過上述方式,可以採用回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種實現單通道語音的增強,對單通道語音的增強處理較為簡易,既能夠採集到待檢測語音訊號,又能夠高效地對待檢測語音訊號進行增強處理,從而提升方案的可行性和可操作性。
可選地,在上述第3圖對應的第一個實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第三個可選實施例中,獲取待檢測語音訊號,可以包括:
透過多個語音輸入設備接收待檢測語音訊號;
透過語音增強算法對待檢測語音訊號進行處理,得到增強語音訊號,可以包括:
透過回聲消除算法和/或混響消除算法,對待檢測語音訊號進行處理,得到第一待處理訊號,其中,回聲消除算法用於對待檢測語音訊號中的回聲訊號進行消除處理,混響消除算法用於對待檢測語音訊號中的混響進行消除處理,其中,第一待處理訊號包括多路訊號;
透過波束形成算法對第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,第二待處理訊號包括一路訊號;
透過噪聲消除算法對第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到增強語音訊號。
本實施例中,基於第2圖所示的音頻採集模組S1和語音增強模組S2一般具有比較強的耦合關係,比如針對多麥克風音頻採集系統,一般需要採用不同的語音增強模組S2以達到最佳的語音增強效果。當採用多麥克風音頻採集系統時,語音增強模組的一個實施例如圖 5所示,請參閱第5圖,第5圖為本發明實施例中對多麥克風訊號進行語音增強的一個實施例示意圖,如圖所示,首先將多個語音輸入設備接收的待檢測語音訊號輸入至多路回聲消除器B1中,其中,多個語音輸入設備具體可以是多陣列麥克風。第5圖以4個麥克風的陣列為例,在實際應用中,麥克風陣列可以大於等於2個麥克風。
多路回聲消除器B1採用回聲消除算法對待檢測語音訊號中的回聲訊號進行消除處理,回聲消除算法包含但不僅限於RLS以及LMS,具體地,多路回聲消除器B1對輸入的每一路麥克風訊號分別進行回聲消除,得到4路消除掉回聲之後的語音訊號,並送入到多路混響消除器B2中。
多路混響消除器B2採用加權預測誤差(weighted prediction error,WPE)或者其他算法對每一路麥克風訊號中的混響進行抑制,以減小房間中的混響對目標關鍵詞語音的清晰度的干擾,從而得到第一待處理訊號,第一待處理訊號為多路語音訊號。
消除回聲和混響之後的4路第一待處理訊號繼續送到波束形成器B3中,波束形成器B3採用例如廣義旁瓣相消(Generalized Sidelobe Cancellation, GSC)或者最小方差無失真響應(minimum variance distortionless response,MVDR)自適應波束形成器,對目標關鍵詞語音進行空間濾波,以減小空間中來自其他方向的噪聲對關鍵詞語音的干擾,得到第二待處理訊號,第二待處理訊號有一路語音訊號。麥克風陣列的技術在抑制一些具有方向性的干擾語音上應用較廣。波束形成也就是這麼來的。因為對期望方向的語音訊號進行保留,抑制非期望方向的訊號,其實就是在做語音訊號的波束形成。對於麥克風陣列波束形成的研究主要可分成三類,分別為固定波束形成、自適應波束形成和後置濾波算法。
波束形成器B3輸出一路目標方向的第二待處理訊號,並送入到噪聲消除器B4中,進一步抑制穩態噪聲(例如空調或者冰箱的平穩噪聲),最終得到增強語音訊號。
可以理解的是,多路回聲消除器以及多路混響消除器對待檢測語音訊號的處理順序可以根據情況進行調整,比如,待檢測語音訊號先經過多路混響消除器的處理,再經過多路回聲消除器,第5圖所示的順序僅為一個示意,並不應理解為對本發明的限定。
再次,本發明實施例中,介紹了一種對多個麥克風採集到的待檢測語音訊號進行語音增強的方法,即關鍵詞檢測裝置首先透過多個語音輸入設備接收待檢測語音訊號,然後透過回聲消除算法和/或混響消除算法,對待檢測語音訊號進行處理,得到第一待處理訊號,再透過波束形成算法對第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,第二待處理訊號包括一路訊號,最後關鍵詞檢測裝置透過噪聲消除算法對第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到增強語音訊號。透過上述方式,可以實現對多陣列語音的增強,多陣列語音增強方法的優勢在於考慮了聲源的位置訊息,可以實現空間濾波,所以對具有方向性的噪聲具有較好的抑制效果,從而提升方案的可行性和可操作性。
可選地,在上述第3圖對應的實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第四個可選實施例中,對增強語音訊號進行變速處理,得到第一變速語音訊號,可以包括:
將增強語音訊號寫入至第一先進先出FIFO緩存;
當達到第一FIFO緩存的儲存閾值時,從第一FIFO緩存中讀取待處理增強語音訊號,其中,待處理增強語音訊號的時長小於或等於增強語音訊號的時長;
對待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,目標變速語音訊號的時長小於或等於第一變速語音訊號的時長;
將目標變速語音訊號寫入至第二FIFO緩存;
根據第一變速語音訊號獲取第一語音特徵訊號,包括:
從第二FIFO緩存中讀取目標變速語音訊號;
根據目標變速語音訊號生成第一語音特徵訊號,其中,第一語音特徵訊號包括梅爾頻率倒譜係數MFCC特徵訊號、濾波器組Fbanks以及線性預測倒譜係數LPCC中的至少一種。
本實施例中,將介紹如何利用先進先出(First Input First Output,FIFO)緩存對增強語音訊號進行變速處理。即關鍵詞檢測裝置在獲取到增強語音訊號之後,可以採用訊號變採樣、疊接相加法(overlap-add,OLA)、同步疊接相加法(synchronous over lap-add,SOLA)、時域基音同步疊接相加法(time domain pitch synchronous over lap-add,TD-PSOLA)以及波形相似疊接相加法(waveform similarity over-lap add,WSOLA)中的任一項對增強語音訊號進行變速,從而得到第一變速語音訊號。本發明將以採用WSOLA對增強語音訊號進行變速為例進行介紹,應理解,這並不構成對本發明的限定。
如果對增強語音訊號進行減速有利於檢測出快語速語音中的目標關鍵詞,則可以採用WSOLA算法可以將增強語音訊號的語速變慢,然後再將第一變速語音訊號送到特徵提取器中以提取聲學特徵。為了便於理解,請參閱第6圖,第6圖為本發明實施例中對增強語音訊號進行變速處理的一個流程示意圖,如圖所示,一個基於WSOLA的處理流程具體為:
步驟201中,首先將增強語音訊號進行分幀處理,得到麥克風語音幀,例如每16毫秒長度為一個麥克風語音幀。可以理解的是,在實際應用中,也可以不對增強語音訊號進行分幀處理,步驟201為一個可選的步驟。
若需要進行分幀,則應將不定長的音頻切分成固定長度的小段,這一步稱為分幀。一般取10毫秒至30毫秒為一幀,為了避免窗邊界對訊號的遺漏,因此對幀做偏移時候,要有幀迭(即幀與幀之間需要重疊一部分)。 一般取幀長的一半作為幀移,也就是每次位移一幀的二分之一後再取下一幀,這樣可以避免幀與幀之間的特性變化太大。通常的選擇是25毫秒每幀,幀迭為10毫秒。接下來的操作是對單幀進行的,分幀往往是因為語音訊號快速變化,而傅立葉變換適用於分析平穩的訊號。因此,在語音識別中,一般把幀長取為10毫秒至30毫秒,這樣一幀內既有足夠多的週期,又不會變化太劇烈。每幀語音訊號通常要與一個平滑的窗函數相乘,讓幀兩端平滑地衰減到零,這樣可以降低傅立葉變換後旁瓣的強度,取得更高品質的頻譜。幀和幀之間的時間差常常取為10毫秒,這樣幀與幀之間會有重疊,否則,由於幀與幀連接處的訊號會因為加窗而被弱化,這部分的訊息就丟失了。傅立葉變換是逐幀進行的,為的是取得每一幀的頻譜。
步驟202中,將增強語音訊號寫入至第一FIFO緩存,該增強語音訊號可以是分幀後語音訊號,也可以是未分幀的語音訊號,此處不做限定。將增強語音訊號按時序存入到指定大小的一段輸入至第一FIFO緩存中。FIFO儲存器分為寫入專用區和讀取專用區,其中,第一FIFO緩存即為寫入專用區,因此第一FIFO緩存也可稱為輸入FIFO緩存。可以理解的是,讀操作與寫操作可以異步進行,寫入專用區上寫入的增強語音訊號按照寫入的順序從讀取專用區中讀出。
步驟203中,實時判斷第一FIFO緩存中的增強語音訊號是否達到變速算法所需要的最小語音長度,通常情況下,第一FIFO緩存中可以儲存200毫秒的增強語音訊號,變速算法只要有100毫秒就可以執行,所以如果增強語音訊號達到100毫秒,則進入步驟204,反之,則繼續執行步驟202,即繼續往第一FIFO緩存中寫入增強語音訊號。在實際應用中,可以檢測第一FIFO緩存是否達到變速算法所需的最小語音長度,如果達到,則可以將這部分增強語音訊號取出來進行後續處理。如果第一FIFO緩存中還有剩餘的增強語音訊號,那麼還可以等後續增強語音訊號的輸入,湊夠100毫秒後進行下一次處理。
步驟204中,當第一FIFO緩存測資料長度達到變速算法所需要的最小語音長度時,則開始對第一FIFO緩存中的增強語音訊號進行一次變速處理,並將變速之後的第一變速語音訊號寫入至第二FIFO緩存。第二FIFO緩存即為讀取專用區。可以理解的是,一次變速處理的資料量大小即為變速算法所需要的最小語音長度,假設變速算法所需要的最小語音長度為100毫秒的增強語音訊號,那麼這100毫秒的增強語音訊號即為待處理增強語音訊號,可以理解的是,待處理增強語音訊號的時長小於或等於增強語音訊號的時長。於是可以對待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,目標變速語音訊號的時長小於或等於第一變速語音訊號的時長,也就是說,目標變速語音訊號是第一變速語音訊號的一部分,當所有增強語音訊號變速完成後,即可得到完整的第一變速語音訊號。
步驟205中, 從第二FIFO緩存中讀取目標變速語音訊號,從目標變速語音訊號提取聲學特徵,重複執行步驟202至步驟204,直到提取到第一變速語音訊號中所有的特徵訊號,即得到第一語音特徵訊號,其中,第一語音特徵訊號包括梅爾頻率倒譜係數MFCC特徵訊號、濾波器組Fbanks以及線性預測倒譜係數LPCC中的至少一種。
可以理解的是,第一語音特徵訊號包括梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficents,MFCC)特徵訊號、濾波器組(Filter banks,Fbanks)以及線性預測倒譜係數(Linear Prediction Cepstrum Coefficient,LPCC)中的至少一種。其中,MFCC梅爾頻率是基於人耳聽覺特性提出來的,它與赫茲頻率成非線性對應關係。MFCC則是利用它們之間的這種關係,計算得到的赫茲頻譜特徵。主要用於語音資料特徵提取和降低運算維度。FBank特徵提取要在預處理之後進行,這時語音訊號已經分幀,我們需要逐幀提取FBank特徵。FBank以類似於人耳的方式對語音訊號進行處理,可以提高語音識別的性能。通常情況下,MFCC是在FBank的基礎上進行的,所以MFCC的計算量更大,且FBank特徵相關性較高,MFCC具有更好的判別度。LPCC是基於線性頻標的,它在所有頻率上都是線性的逼近語音,而這與人的聽覺特性是不一致的,而且LPCC包含了語音高頻部分的大部分噪音細節。
其次,本發明實施例中,介紹了一種對增強語音訊號進行變速處理的流程,即關鍵詞檢測裝置先將增強語音訊號寫入至第一FIFO緩存,當達到第一FIFO緩存的儲存閾值時,從第一FIFO緩存中讀取待處理增強語音訊號,然後關鍵詞檢測裝置對待處理語音訊號進行變速處理,得到目標變速語音訊號,再將目標變速語音訊號寫入至第二FIFO緩存,關鍵詞檢測裝置從第二FIFO緩存中讀取目標變速語音訊號,最後可以根據目標變速語音訊號生成第一語音特徵訊號。透過上述方式,利用FIFO緩存對語音訊號進行處理,能夠保證語音訊號的連貫性,採用FIFO對連續的語音訊號流進行緩存,可以防止在儲存操作時丟失資料。此外,將語音訊號集中起來進行處理和儲存,可避免頻繁的匯流排操作,減輕處理器的負擔。
可選地,在上述第3圖對應的第四個實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第五個可選實施例中,對待處理語音訊號進行變速處理,得到目標變速語音訊號,可以包括:
根據待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀;
根據第一語音幀、第一樣本數以及合成步長,計算得到自然連續語音幀;
根據待處理語音訊號以及分析幀步長確定第二語音幀;
根據第二語音幀以及自然連續語音幀,獲取第二樣本數;
根據待處理語音訊號、第二樣本數以及分析幀步長,確定待匹配語音幀;
根據第一語音幀以及待匹配語音幀確定目標變速語音訊號。
本實施例中,將介紹對待處理語音訊號進行變速處理的方式,其中,變速處理的實現方式為分幀迭代計算,為了便於介紹,下面將結合圖式對變速處理的方式進行說明。請參閱第7a圖,第7a圖為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖,如圖所示,表示輸入的待處理語音訊號,表示第一樣本數,即為需要對第k幀計算的左右移動樣本數,且左右移動不超過,即。表示分析幀步長,即預先設定的輸入語音幀,其中,取值越大表示語速越加快,取值越小表示語速越減慢,表示第一語音幀,表示輸出的語音訊號,表示第一語音幀對應的輸出語音幀,輸入的待處理語音訊號中第k幀長度為N的語音幀為:
對該第一語音幀加一個三角窗之後得到一個輸出語音幀:
請參閱第7c圖,第7c圖為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖,如圖所示,如果要將兩個語音幀進行疊加,需要令這兩個語音幀最為相似,也就是說,所求的第二樣本數能夠使得自然連續語音幀與最為相似。請參閱第7d圖,第7d圖為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖,如圖所示,計算得到第二樣本數之後。可以根據待處理語音訊號、第二樣本數以及分析幀步長,確定待匹配語音幀,表示待匹配語音幀,即:
再次,本發明實施例中,介紹了一種利用WSOLA對語音訊號進行減速處理的方法,即先根據待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀,然後根據第一語音幀、第一樣本數以及合成步長,計算得到自然連續語音幀,再根據待處理語音訊號以及分析幀步長確定第二語音幀,根據第二語音幀以及自然連續語音幀,獲取第二樣本數,然後根據待處理語音訊號、第二樣本數以及分析幀步長,確定第二語音幀,最後根據第一語音幀以及第二語音幀確定目標變速語音訊號。透過上述方式,對輸入的語音訊號分解成語音幀後不直接疊加,而是在一定的範圍內查找待疊加的語音幀,該語音幀要符合與原位置處語音幀波形最相似的條件,從而得到失真度較低的合成語音幀。
可選地,在上述第3圖對應的第五個實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第六個可選實施例中,根據第二語音幀以及自然連續語音幀,獲取第二樣本數,可以包括:
採用如下方式計算第二樣本數:
其中,表示第二樣本數,表示兩個語音幀的最小互平均幅度差分函數係數,表示第個語音幀,表示樣本數,表示自然連續語音,表示可移動的最大樣本數,表示待匹配的第二語音幀,表示取最小值時的變量值,為大於或等於1,且小於或等於的整數。
本實施例中,將具體說明如何計算得到最相似的兩個語音幀。計算兩個語音幀最相似的方式可以是,計算具有最小歸一化互相關係數,或者計算具有最小互平均幅度差分函數(cross average magnitude difference function,cross-AMDF)係數的。
以計算兩個語音幀的最小cross-AMDF為例,即:
進一步地,本發明實施例中,提供了一種根據第二語音幀以及自然連續語音幀,獲取第二樣本數的具體方式,即採用最小互平均幅度差分函數係數可以得到最相似的兩幀語音幀。透過上述方式,將最相似的兩幀語音幀合成為一幀,不但可以降低原本的語速,還能夠減少失真度,從而提升方案的可行性和可操作性。
可選地,在上述第3圖對應的實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第七個可選實施例中,透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果之後,還可以包括:
若關鍵詞檢測結果為第一字元,則根據第一字元確定待檢測語音訊號中存在目標關鍵詞;
若關鍵詞檢測結果為第二字元,則根據第二字元確定待檢測語音訊號中不存在目標關鍵詞。
本實施例中,在將第一語音特徵訊號輸入至關鍵詞檢測模型之後,可以透過該關鍵詞檢測模型輸出關鍵詞檢測結果,其中,關鍵詞檢測結果可以為二元符號,假設關鍵詞檢測結果為第一字元(比如1),則表示待檢測語音訊號中存在目標關鍵詞。假設關鍵詞檢測結果為第二字元(比如0),則表示待檢測語音訊號中不存在目標關鍵詞。
可以理解的是,關鍵詞檢測模型可以是傳統的隱馬爾科夫模型,還可以包含以下一種或者多種神經網路模型,前饋神經網路(feed forward neural networks,FFNN)、徑向神經網路(radial basis function,RBF)、霍普菲爾網路(hopfield network,HN)、馬爾可夫鏈(markov chain,MC)、玻爾茲曼機(boltzmann machines,BM)、受限玻爾茲曼機(restricted boltzmann machines,RBM)、自編碼機(autoencoders,AE)、稀疏自編碼機(sparse autoencoders,SAE)、深度神經網路算法(deep neural network,DNN)、變分自編碼機(variational autoencoders,VAE)、去噪自編碼機(denoising autoencoders,DAE)、深度信念網路(deep belief networks,DBN)、卷積神經網路(convolutional neural networks,CNN)、解卷積網路(deconvolutional networks,DN)、深度卷積逆向圖網路(deep convolutional inverse graphics networks,DCIGN)、生成式對抗網路(generative adversarial networks,GAN)、循環神經網路(recurrent neural networks,RNN)、長短期記憶(long short term memory,LSTM)、門循環單元(gated recurrent units,GRU)、深度殘差網路(deep residual networks,DRN)、神經圖靈機(neural Turing machines,NTM)、回聲狀態網路(echo state networks,ESN)、極限學習機(extreme learning machines,ELM)、液態機(liquid state machines,LSM)以及支持向量機(support vector machines,SVM)。
其次,本發明實施例中,介紹了一種確定關鍵詞檢測結果的方法,即透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果之後,若關鍵詞檢測結果為第一字元,則根據第一字元確定待檢測語音訊號中存在目標關鍵詞,若關鍵詞檢測結果為第二字元,則根據第二字元確定待檢測語音訊號中不存在目標關鍵詞。透過上述方式,由關鍵詞檢測模型直接輸出二元符號,二元符號可以直接表示出是否具有目標關鍵詞的結果,更為直觀,從而提升了檢測的效率。
可選地,在上述第3圖對應的實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第八個可選實施例中,透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果之後,還可以包括:
根據關鍵詞檢測結果確定目標概率值;
若目標概率值大於或等於關鍵詞概率閾值,則確定待檢測語音訊號中存在目標關鍵詞;
若目標概率值小於關鍵詞概率閾值,則確定待檢測語音訊號中不存在目標關鍵詞。
本實施例中,在將第一語音特徵訊號輸入至關鍵詞檢測模型之後,可以透過該關鍵詞檢測模型輸出關鍵詞檢測結果,其中,關鍵詞檢測結果可以是目標概率值,比如0.6或者0.8,通常情況下,概率值越大表示檢測到目標關鍵詞的概率越大。因此,可以根據目標概率值確定是否包含目標關鍵詞,如果目標概率值大於或等於關鍵詞概率閾值,則確定待檢測語音訊號中存在目標關鍵詞。反之,如果目標概率值小於關鍵詞概率閾值,則確定待檢測語音訊號中不存在目標關鍵詞。
可以理解的是,關鍵詞檢測模型可以是傳統的隱馬爾科夫模型,還可以包含以下一種或者多種神經網路模型,FFNN、RBF、HN、MC、BM、RBM、AE、SAE、DNN、VAE、DAE、DBN、CNN、DN、CIGN、GAN、RNN、LSTM、GRU、DRN、NTM、ESN、ELM、LSM以及SVM。
其次,本發明實施例中,介紹了另一種確定關鍵詞檢測結果的方法,即透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果之後,根據關鍵詞檢測結果確定目標概率值,若目標概率值大於或等於關鍵詞概率閾值,則確定待檢測語音訊號中存在目標關鍵詞,若目標概率值小於關鍵詞概率閾值,則確定待檢測語音訊號中不存在目標關鍵詞。透過上述方式,由關鍵詞檢測模型輸出可能具有目標關鍵詞的概率,根據概率的大小來確定最終的結果,這樣的話更有利於提升檢測的準確率。
可選地,在上述第3圖以及第3圖對應的第一至第八個實施例中任一項的基礎上,本發明實施例提供關鍵詞的檢測方法第九個可選實施例中,獲取待檢測語音訊號的增強語音訊號之後,還可以包括:
根據增強語音訊號獲取第二語音特徵訊號,其中,第二語音特徵訊號對應於第二語速,第二語速與目標語速一致;
透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,包括:
透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果;
或,
透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果;
或,
透過關鍵詞檢測模型獲取第一語音特徵訊號以及第二語音特徵訊號所對應的關鍵詞檢測結果。
本實施例中,將介紹一種同時包含變速處理以及不變速處理的關鍵詞檢測方法。為了便於介紹,請參閱第8圖,第8圖為本發明實施例中基於兩路語音訊號進行關鍵詞檢測的一個實施例示意圖,如圖所示,首先由音頻採集模組C1採集待檢測語音訊號,然後由語音增強模組C2對待檢測語音訊號進行增強處理,得到增強語音訊號。接下來將分成兩路語音訊號分別進行處理。其中,第一路為不對增強後的語音訊號進行變速處理,即語音增強模組C2將增強語音訊號輸入至1號聲學特徵提取模組C3,由此輸出第二語音特徵訊號,其中,第二語音特徵訊號對應於第二語速,第二語速與目標語速一致,即不對第二語音特徵訊號的語速進行處理。在透過1號關鍵詞檢測模組C4對第二語音特徵訊號進行關鍵詞檢測。
第二路為語音訊號變速模組C5對增強後的語音訊號進行變速處理(可以是加速處理,也可以是減速處理),即語音增強模組C2將增強語音訊號輸入至語音訊號變速模組C5,語音訊號變速模組C5對增強語音訊號進行變速處理,得到第一變速語音訊號,第一變速語音訊號對應於第一語速,第一語速與目標語速不一致(可以是快於目標語速,或者可以是慢於目標語速)。透過2號聲學特徵提取模組C6從第一變速語音訊號中提取第一語音特徵訊號,採用2號關鍵詞檢測模組C7對第一語音特徵訊號進行關鍵詞檢測。當快語速關鍵詞在正常語速的情況下沒有被檢測出來的話,另外一路減慢語速之後則有可能被檢測出來。
可以理解的是,在實際應用中,為了節省檢測時間,進一步提升檢測效率,檢測結果判決模組C8會實時對1號關鍵詞檢測模組C4和2號關鍵詞檢測模組C7的輸出結果進行監測,當1號關鍵詞檢測模組C4或者2號關鍵詞檢測模組C7中有一個模組檢測到關鍵詞時,則聲明檢測到了目標關鍵詞,並重置整個系統,而不必等待另一個關鍵詞檢測模組也檢測到目標關鍵詞。
其次,本發明實施例中,介紹了一種對兩路語音訊號進行處理的方式。即關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號之後,可以根據增強語音訊號獲取第二語音特徵訊號,然後透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,或者透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果,又或者透過關鍵詞檢測模型獲取第一語音特徵訊號以及第二語音特徵訊號所對應的關鍵詞檢測結果。透過上述方式,可以同時對變速和不變速的兩路增強語音訊號提取特徵,然後同時檢測這兩路訊號中是否有關鍵詞。當至少一路語音訊號被檢測出有目標關鍵詞時,就可以判定具有目標關鍵詞,一方面可以提升檢測的準確率,另一方面還可以提升檢測效率。
可選地,在上述第3圖對應的第九個實施例的基礎上,本發明實施例提供關鍵詞的檢測方法第十個可選實施例中,獲取待檢測語音訊號的增強語音訊號之後,還可以包括:
判斷當前是否處於回聲訊號消除狀態;
若當前處於回聲訊號消除狀態,則執行根據增強語音訊號獲取第二語音特徵訊號的步驟,並執行透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果的步驟;
若當前未處於回聲訊號消除狀態,則執行根據第一變速語音訊號獲取第一語音特徵訊號的步驟,並且執行根據增強語音訊號獲取第二語音特徵訊號的步驟。
本實施例中,在同時處理多路語音訊號的情況下,處理器的計算量會有所增加,為了減少特定場景下算法的計算量,提出了一種可切換語音訊號處理模式的方法。為了便於介紹,請參閱第9圖,第9圖為本發明實施例中控制多路語音訊號檢測關鍵詞的一個實施例示意圖,如圖所示,第9圖在第8圖的基礎上又增加了一種變速通路開關模組D5,變速通路開關模組D5用於在特定的場景下關閉變速通路。
具體地,當語音增強模組D2中正在進行單路或多路回聲消除時,則可以斷開變速通路,即語音增強模組D2獲取到增強語音訊號之後,需要判斷當前是否處於回聲訊號消除狀態,如果當前處於回聲訊號消除狀態,則檢測結果判決模組D9隻根據1號關鍵詞檢測模組D4的檢測結果來判斷是否檢測到目標關鍵詞。也就是說,語音增強模組D2將增強語音訊號輸入至1號聲學特徵提取模組D3,由此輸出第二語音特徵訊號,其中,第二語音特徵訊號對應於第二語速,第二語速與目標語速一致,即不對第二語音特徵訊號的語速進行處理。在透過1號關鍵詞檢測模組D4對第二語音特徵訊號進行關鍵詞檢測。
當語音增強模組D2未進行單路或多路回聲消除時,才同時監測常速通路和變速通路的結果。即語音增強模組D2獲取到增強語音訊號之後,需要判斷當前是否處於回聲訊號消除狀態,如果當前未處於回聲訊號消除狀態,則檢測結果判決模組D9可以根據1號關鍵詞檢測模組D4的檢測結果和/或2號關鍵詞檢測模組D8的檢測結果共同判斷是否檢測到目標關鍵詞。也就是說,一路語音訊號處理流程為,語音增強模組D2將增強語音訊號輸入至1號聲學特徵提取模組D3,由此輸出第二語音特徵訊號,其中,第二語音特徵訊號對應於第二語速,第二語速與目標語速一致,即不對第二語音特徵訊號的語速進行處理。在透過1號關鍵詞檢測模組D4對第二語音特徵訊號進行關鍵詞檢測。另一路語音訊號處理流程為,語音訊號變速模組D6對增強後的語音訊號進行變速處理(可以是加速處理,也可以是減速處理),即語音增強模組D2將增強語音訊號輸入至語音訊號變速模組D6,語音訊號變速模組D6對增強語音訊號進行變速處理,得到第一變速語音訊號,第一變速語音訊號對應於第一語速,第一語速與目標語速不一致(可以是快於目標語速,或者可以是慢於目標語速)。透過2號聲學特徵提取模組D7從第一變速語音訊號中提取第一語音特徵訊號,採用2號關鍵詞檢測模組D8對第一語音特徵訊號進行關鍵詞檢測。當快語速關鍵詞在正常語速的情況下沒有被檢測出來的話,另外一路減慢語速之後則有可能被檢測出來。
需要說明的是,一種特定場景可以是,例如在智慧型音箱中,當音箱在播放音樂時,喇叭的回聲會被麥克風採集到進而干擾麥克風採集的語音,這時語音增強模組中的回聲消除模組需要打開以消除回聲,從而導致處理器的負荷增加,此時可以透過變速通路開關模組關閉變速通路以節省計算量。
再次,本發明實施例中,提供了一種切換語速處理模式的方式,即關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號之後,還可以判斷當前是否處於回聲訊號消除狀態,若當前處於回聲訊號消除狀態,則執行兩路訊號同時檢測目標關鍵詞的流程,反之,若當前未處於回聲訊號消除狀態,則不進行變速處理,而是直接對當前收到的語音訊號進行檢測即可。透過上述方式,可以在特定場景下關閉語速變速處理的模式,當回聲被麥克風採集到進而干擾麥克風採集的語音時,需要優先消除回聲,因此會導致處理器的工作負荷增加,這時關閉語音訊號變速處理的模式可以有效地節省處理器的計算量。
可選地,在上述第3圖以及第3圖對應的第一至第八個實施例中任一項的基礎上,本發明實施例提供關鍵詞的檢測方法第十一個可選實施例中,獲取待檢測語音訊號的增強語音訊號之後,還可以包括:
根據增強語音訊號獲取第二語音特徵訊號,其中,第二語音特徵訊號對應於第二語速,第二語速與目標語速一致;
對增強語音訊號進行變速處理,得到第二變速語音訊號,其中,第二變速語音訊號對應於第三語速,第三語速大於目標語速,且第三語速大於第一語速,第一語速小於目標語速;
根據第二變速語音訊號獲取第三語音特徵訊號;
透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,可以包括:
透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果;
或,
透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果;
或,
透過關鍵詞檢測模型獲取第三語音特徵訊號所對應的關鍵詞檢測結果;
或,
透過關鍵詞檢測模型獲取第一語音特徵訊號、第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。
本實施例中,將介紹一種同時包含語速加快處理、語速減慢處理以及語速不變速處理的關鍵詞檢測方法。為了便於介紹,請參閱第10圖,第10圖為本發明實施例中基於三路語音訊號進行關鍵詞檢測的一個實施例示意圖,如圖所示,首先由音頻採集模組E1採集待檢測語音訊號,然後由語音增強模組E2對待檢測語音訊號進行增強處理,得到增強語音訊號。接下來將分成三路語音訊號分別進行處理。其中,第一路為不對增強後的語音訊號進行變速處理,即語音增強模組E2將增強語音訊號輸入至1號聲學特徵提取模組E3,由此輸出第二語音特徵訊號,其中,第二語音特徵訊號對應於第二語速,第二語速與目標語速一致,即不對第二語音特徵訊號的語速進行處理。在透過1號關鍵詞檢測模組E4對第二語音特徵訊號進行關鍵詞檢測。
第二路為語音訊號變速模組E5對增強後的語音訊號進行加速處理,即語音增強模組E2將增強語音訊號輸入至1號語音訊號變速模組E5,1號語音訊號變速模組E5對增強語音訊號進行加速處理,得到第一變速語音訊號,第一變速語音訊號對應於第一語速,第一語速慢於目標語速。透過2號聲學特徵提取模組E6從第一變速語音訊號中提取第一語音特徵訊號,採用2號關鍵詞檢測模組E7對第一語音特徵訊號進行關鍵詞檢測。
第三路為語音訊號變速模組E8對增強後的語音訊號進行減速處理,即語音增強模組E8將增強語音訊號輸入至2號語音訊號變速模組E8,2號語音訊號變速模組E8對增強語音訊號進行加速處理,得到第二變速語音訊號,第二變速語音訊號對應於第三語速,第三語速快於目標語速。透過3號聲學特徵提取模組E9從第二變速語音訊號中提取第三語音特徵訊號,採用3號關鍵詞檢測模組E10對第三語音特徵訊號進行關鍵詞檢測。
可以理解的是,在實際應用中,為了節省檢測時間,進一步提升檢測效率,檢測結果判決模組E11會實時對1號關鍵詞檢測模組C4、2號關鍵詞檢測模組C7和3號關鍵詞檢測模組C10的輸出結果進行監測,當1號關鍵詞檢測模組C4、2號關鍵詞檢測模組C7和3號關鍵詞檢測模組C10中有一個模組檢測到關鍵詞時,則聲明檢測到了目標關鍵詞,並重置整個系統,而不必等待另一個關鍵詞檢測模組也檢測到目標關鍵詞。
再次,本發明實施例中,介紹了一種對三路語音訊號進行處理的方式。即關鍵詞檢測裝置根據增強語音訊號獲取第二語音特徵訊號,並且對增強語音訊號進行變速處理,得到第二變速語音訊號,然後關鍵詞檢測裝置透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,或者透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果,或者透過關鍵詞檢測模型獲取第三語音特徵訊號所對應的關鍵詞檢測結果,又或者透過關鍵詞檢測模型獲取第一語音特徵訊號、第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。透過上述方式,可以同時對變快、變慢和不變速的三路增強語音訊號提取特徵,然後同時檢測這三路訊號中是否有關鍵詞。當至少一路語音訊號被檢測出有目標關鍵詞時,就可以判定具有目標關鍵詞,一方面可以更大程度上提升檢測的準確率,另一方面還可以更大程度上提升檢測效率。
下面對本發明中的關鍵詞檢測裝置進行詳細描述,請參閱第11圖,第11圖為本發明實施例中關鍵詞檢測裝置一個實施例示意圖,關鍵詞檢測裝置30包括:
獲取模組301,用於獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;
變速模組302,用於對所述獲取模組獲取的所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;
所述獲取模組301,還用於根據所述變速模組變速後得到的所述第一變速語音訊號獲取第一語音特徵訊號;
所述獲取模組301,還用於透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;
執行模組303,用於若根據所述獲取模組301獲取的所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作。
本實施例中,獲取模組301獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速,變速模組302對所述獲取模組獲取的所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致,所述獲取模組301根據所述變速模組變速後得到的所述第一變速語音訊號獲取第一語音特徵訊號,所述獲取模組301透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞,若根據所述獲取模組301獲取的所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行模組303執行所述目標關鍵詞所對應的操作。
本發明實施例中,提供了一種關鍵詞檢測裝置,該關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號,其中,增強語音訊號對應於目標語速,然後關鍵詞檢測裝置對增強語音訊號進行變速處理,得到第一變速語音訊號,其中,第一變速語音訊號對應於第一語速,第一語速與目標語速不一致,再根據第一變速語音訊號獲取第一語音特徵訊號,最後關鍵詞檢測裝置透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,其中,關鍵詞檢測結果用於表示待檢測語音訊號中是否存在目標關鍵詞。透過上述方式,在檢測關鍵詞之前需要對待檢測語音訊號進行訊號增強處理以及變速處理,對語音訊號進行增強可以有效地提升語音識別品質,進而對增強後的訊號再進行變速處理,能夠提升對快語速語音或者慢語速語音中關鍵詞的檢出率。
可選地,在上述第11圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述獲取模組301,具體用於獲取所述待檢測語音訊號;
透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號。
其次,本發明實施例中,提供了一種獲取增強語音訊息的方法關鍵詞檢測裝置,即獲取待檢測語音訊號,然後關鍵詞檢測裝置透過語音增強算法對待檢測語音訊號進行處理,得到增強語音訊號。透過上述方式,能夠利用語音增強算法實現語音增強,其中,語音增強是指當待檢測語音訊號被各種各樣的噪聲干擾、甚至淹沒後,從噪聲背景中提取有用的語音訊號,並且抑制和降低噪聲干擾,由此可以從待檢測語音訊號中提取盡可能純淨的原始語音,從而提升目標關鍵詞檢測的準確率,因此,採用語音增強技術對待檢測語音訊號進行預處理,可有效地改善系統性能,提高系統的識別率和抗干擾能力。
可選地,在上述第11圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述獲取模組301,具體用於透過單個語音輸入設備接收所述待檢測語音訊號;
透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對所述待檢測語音訊號進行處理,得到所述增強語音訊號,其中,所述所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述噪聲消除算法用於對所述待檢測語音訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理。
再次,本發明實施例中,介紹了一種對單個麥克風採集到的待檢測語音訊號進行語音增強的關鍵詞檢測裝置,即關鍵詞檢測裝置首先透過單個語音輸入設備接收待檢測語音訊號,然後透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對待檢測語音訊號進行處理,得到增強語音訊號。透過上述方式,可以採用回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種實現單通道語音的增強,對單通道語音的增強處理較為簡易,既能夠採集到待檢測語音訊號,又能夠高效地對待檢測語音訊號進行增強處理,從而提升方案的可行性和可操作性。
可選地,在上述第11圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述獲取模組301,具體用於透過多個語音輸入設備接收所述待檢測語音訊號;
透過回聲消除算法和/或混響消除算法,對所述待檢測語音訊號進行處理,得到第一待處理訊號,其中,所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理,其中,所述第一待處理訊號包括多路訊號;
透過波束形成算法對所述第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,所述第二待處理訊號包括一路訊號;
透過噪聲消除算法對所述第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到所述增強語音訊號。
再次,本發明實施例中,介紹了一種對多個麥克風採集到的待檢測語音訊號進行語音增強的關鍵詞檢測裝置,即關鍵詞檢測裝置首先透過多個語音輸入設備接收待檢測語音訊號,然後透過回聲消除算法和/或混響消除算法,對待檢測語音訊號進行處理,得到第一待處理訊號,再透過波束形成算法對第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,第二待處理訊號包括一路訊號,最後關鍵詞檢測裝置透過噪聲消除算法對第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到增強語音訊號。透過上述方式,可以實現對多陣列語音的增強,多陣列語音增強方法的優勢在於考慮了聲源的位置訊息,可以實現空間濾波,所以對具有方向性的噪聲具有較好的抑制效果,從而提升方案的可行性和可操作性。
可選地,在上述第11圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述變速模組302,具體用於將所述增強語音訊號寫入至第一先進先出FIFO緩存;
當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;
對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;
將所述目標變速語音訊號寫入至第二FIFO緩存;
所述獲取模組301,具體用於從所述第二FIFO緩存中讀取所述目標變速語音訊號;
根據所述目標變速語音訊號生成所述第一語音特徵訊號,其中,所述第一語音特徵訊號包括梅爾頻率倒譜係數MFCC特徵訊號、濾波器組Fbanks以及線性預測倒譜係數LPCC中的至少一種。
其次,本發明實施例中,介紹了一種對增強語音訊號進行變速處理的關鍵詞檢測裝置,即關鍵詞檢測裝置先將增強語音訊號寫入至第一FIFO緩存,當達到第一FIFO緩存的儲存閾值時,從第一FIFO緩存中讀取待處理增強語音訊號,然後關鍵詞檢測裝置對待處理語音訊號進行變速處理,得到目標變速語音訊號,再將目標變速語音訊號寫入至第二FIFO緩存,關鍵詞檢測裝置從第二FIFO緩存中讀取目標變速語音訊號,最後可以根據目標變速語音訊號生成第一語音特徵訊號。透過上述方式,利用FIFO緩存對語音訊號進行處理,能夠保證語音訊號的連貫性,採用FIFO對連續的語音訊號流進行緩存,可以防止在儲存操作時丟失資料。此外,將語音訊號集中起來進行處理和儲存,可避免頻繁的匯流排操作,減輕處理器的負擔。
可選地,在上述第11圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述變速模組302,具體用於根據所述待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀;
根據所述第一語音幀、所述第一樣本數以及合成步長,計算得到自然連續語音幀;
根據所述待處理語音訊號以及所述分析幀步長確定第二語音幀;
根據所述第二語音幀以及所述自然連續語音幀,獲取第二樣本數;
根據所述待處理語音訊號、所述第二樣本數以及分析幀步長,確定待匹配語音幀;
根據所述第一語音幀以及所述待匹配語音幀確定所述目標變速語音訊號。
再次,本發明實施例中,介紹了一種利用WSOLA對語音訊號進行減速處理的關鍵詞檢測裝置,即先根據待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀,然後根據第一語音幀、第一樣本數以及合成步長,計算得到自然連續語音幀,再根據待處理語音訊號以及分析幀步長確定第二語音幀,根據第二語音幀以及自然連續語音幀,獲取第二樣本數,然後根據待處理語音訊號、第二樣本數以及分析幀步長,確定第二語音幀,最後根據第一語音幀以及第二語音幀確定目標變速語音訊號。透過上述方式,對輸入的語音訊號分解成語音幀後不直接疊加,而是在一定的範圍內查找待疊加的語音幀,該語音幀要符合與原位置處語音幀波形最相似的條件,從而得到失真度較低的合成語音幀。
可選地,在上述第11圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述變速模組302,具體用於採用如下方式計算所述第二樣本數:
其中,所述表示所述第二樣本數,所述表示兩個語音幀的最小互平均幅度差分函數係數,所述表示第個語音幀,所述表示樣本數,所述表示所述自然連續語音,所述表示可移動的最大樣本數,所述表示待匹配的所述第二語音幀,所述表示所述取最小值時的變量值,所述為大於或等於1,且小於或等於所述的整數。
進一步地,本發明實施例中,提供了一種根據第二語音幀以及自然連續語音幀,獲取第二樣本數的具體方式,即採用最小互平均幅度差分函數係數可以得到最相似的兩幀語音幀。透過上述方式,將最相似的兩幀語音幀合成為一幀,不但可以降低原本的語速,還能夠減少失真度,從而提升方案的可行性和可操作性。
可選地,在上述第11圖所對應的實施例的基礎上,請參閱第12圖,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,所述關鍵詞檢測裝置30還包括確定模組304;
所述確定模組304,用於所述獲取模組301透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,若所述關鍵詞檢測結果為第一字元,則根據所述第一字元確定所述待檢測語音訊號中存在所述目標關鍵詞;
所述確定模組303,還用於所述獲取模組301透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,若所述關鍵詞檢測結果為第二字元,則根據所述第二字元確定所述待檢測語音訊號中不存在所述目標關鍵詞。
其次,本發明實施例中,介紹了一種確定關鍵詞檢測結果的關鍵詞檢測裝置,即透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果之後,若關鍵詞檢測結果為第一字元,則根據第一字元確定待檢測語音訊號中存在目標關鍵詞,若關鍵詞檢測結果為第二字元,則根據第二字元確定待檢測語音訊號中不存在目標關鍵詞。透過上述方式,由關鍵詞檢測模型直接輸出二元符號,二元符號可以直接表示出是否具有目標關鍵詞的結果,更為直觀,從而提升了檢測的效率。
可選地,在上述第12圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,所述關鍵詞檢測裝置30還包括確定模組304;
所述確定模組304,用於所述獲取模組301透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,根據所述關鍵詞檢測結果確定目標概率值;
所述確定模組304,還用於若所述目標概率值大於或等於關鍵詞概率閾值,則確定所述待檢測語音訊號中存在所述目標關鍵詞;
所述確定模組304,還用於若所述目標概率值小於所述關鍵詞概率閾值,則確定所述待檢測語音訊號中不存在所述目標關鍵詞。
其次,本發明實施例中,介紹了另一種確定關鍵詞檢測結果的關鍵詞檢測裝置,即透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果之後,根據關鍵詞檢測結果確定目標概率值,若目標概率值大於或等於關鍵詞概率閾值,則確定待檢測語音訊號中存在目標關鍵詞,若目標概率值小於關鍵詞概率閾值,則確定待檢測語音訊號中不存在目標關鍵詞。透過上述方式,由關鍵詞檢測模型輸出可能具有目標關鍵詞的概率,根據概率的大小來確定最終的結果,這樣的話更有利於提升檢測的準確率。
可選地,在上述第11圖或第12圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述獲取模組301,還用於獲取待檢測語音訊號的增強語音訊號之後,根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
所述獲取模組301,具體用於透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號以及所述第二語音特徵訊號所對應的關鍵詞檢測結果。
其次,本發明實施例中,介紹了一種對兩路語音訊號進行處理的關鍵詞檢測裝置。即關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號之後,可以根據增強語音訊號獲取第二語音特徵訊號,然後透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,或者透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果,又或者透過關鍵詞檢測模型獲取第一語音特徵訊號以及第二語音特徵訊號所對應的關鍵詞檢測結果。透過上述方式,可以同時對變速和不變速的兩路增強語音訊號提取特徵,然後同時檢測這兩路訊號中是否有關鍵詞。當至少一路語音訊號被檢測出有目標關鍵詞時,就可以判定具有目標關鍵詞,一方面可以提升檢測的準確率,另一方面還可以提升檢測效率。
可選地,在上述第11圖或第12圖所對應的實施例的基礎上,請參閱第13圖,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,所述關鍵詞檢測裝置30還包括判斷模組305;
所述判斷模組305,用於所述獲取模組301獲取待檢測語音訊號的增強語音訊號之後,判斷當前是否處於回聲訊號消除狀態;
所述執行模組303,還用於若所述判斷模組305判斷得到當前處於所述回聲訊號消除狀態,則執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟,並執行所述透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果的步驟;
所述執行模組303,用於若所述判斷模組305判斷得到當前未處於所述回聲訊號消除狀態,則執行所述根據所述第一變速語音訊號獲取第一語音特徵訊號的步驟,並且執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟。
再次,本發明實施例中,提供了一種切換語速處理模式的關鍵詞檢測裝置,即關鍵詞檢測裝置獲取待檢測語音訊號的增強語音訊號之後,還可以判斷當前是否處於回聲訊號消除狀態,若當前處於回聲訊號消除狀態,則執行兩路訊號同時檢測目標關鍵詞的流程,反之,若當前未處於回聲訊號消除狀態,則不進行變速處理,而是直接對當前收到的語音訊號進行檢測即可。透過上述方式,可以在特定場景下關閉語速變速處理的模式,當回聲被麥克風採集到進而干擾麥克風採集的語音時,需要優先消除回聲,因此會導致處理器的工作負荷增加,這時關閉語音訊號變速處理的模式可以有效地節省處理器的計算量。
可選地,在上述第11圖或第12圖所對應的實施例的基礎上,本發明實施例提供的關鍵詞檢測裝置30的另一實施例中,
所述獲取模組301,還用於獲取待檢測語音訊號的增強語音訊號之後,根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
所述變速模組302,還用於對所述增強語音訊號進行變速處理,得到第二變速語音訊號,其中,所述第二變速語音訊號對應於第三語速,所述第三語速大於所述目標語速,且所述第三語速大於所述第一語速,所述第一語速小於所述目標語速;
根據所述第二變速語音訊號獲取第三語音特徵訊號;
所述獲取模組301,具體用於透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第三語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號、所述第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。
再次,本發明實施例中,介紹了一種對三路語音訊號進行處理的關鍵詞檢測裝置。即關鍵詞檢測裝置根據增強語音訊號獲取第二語音特徵訊號,並且對增強語音訊號進行變速處理,得到第二變速語音訊號,然後關鍵詞檢測裝置透過關鍵詞檢測模型獲取第一語音特徵訊號所對應的關鍵詞檢測結果,或者透過關鍵詞檢測模型獲取第二語音特徵訊號所對應的關鍵詞檢測結果,或者透過關鍵詞檢測模型獲取第三語音特徵訊號所對應的關鍵詞檢測結果,又或者透過關鍵詞檢測模型獲取第一語音特徵訊號、第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。透過上述方式,可以同時對變快、變慢和不變速的三路增強語音訊號提取特徵,然後同時檢測這三路訊號中是否有關鍵詞。當至少一路語音訊號被檢測出有目標關鍵詞時,就可以判定具有目標關鍵詞,一方面可以更大程度上提升檢測的準確率,另一方面還可以更大程度上提升檢測效率。
本發明實施例還提供了另一種智慧型設備,如第14圖所示,為了便於說明,僅示出了與本發明實施例相關的部分,具體技術細節未揭示的,請參照本發明實施例方法部分。該智慧型設備可以為包括手機、平板電腦、個人數位助理(personal digital assistant,PDA)、銷售智慧型設備(point of sales,POS)、車載電腦等任意智慧型設備設備,以智慧型設備為手機為例:
第14圖示出的是與本發明實施例提供的智慧型設備相關的手機的部分結構的方塊圖。參考第14圖,手機包括:射頻(radio frequency,RF)電路410、儲存器420、輸入單元430、顯示單元440、傳感器450、音頻電路460、無線保真(wireless fidelity,WiFi)模組470、處理器480、以及電源490等部件。所屬技術領域具有通常知識者可以理解,第14圖中示出的手機結構並不構成對手機的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件佈置。
下面結合第14圖對手機的各個構成部件進行具體的介紹:
RF電路410可用於收發訊息或通話過程中,訊號的接收和發送,特別地,將基地台的下行訊息接收後,給處理器480處理;另外,將設計上行的資料發送給基地台。通常,RF電路410包括但不限於天線、至少一個放大器、收發信機、耦合器、低噪聲放大器(low noise amplifier,LNA)、雙工器等。此外,RF電路410還可以透過無線通訊與網路和其他設備通訊。上述無線通訊可以使用任一通訊標準或協議,包括但不限於全球行動通訊系統 (global system of mobile communication,GSM)、通用分組無線服務(general packet radio service,GPRS)、分碼多工(code division multiple access,CDMA)、寬頻分碼多工(wideband code division multiple access, WCDMA)、長期演進 (long term evolution,LTE)、電子郵件、簡訊服務(short messaging service,SMS)等。
儲存器420可用於儲存軟體程式以及模組,處理器480透過運行儲存在儲存器420的軟體程式以及模組,從而執行手機的各種功能應用以及資料處理。儲存器420可主要包括儲存程式區和儲存資料區,其中,儲存程式區可儲存操作系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等;儲存資料區可儲存根據手機的使用所創建的資料(比如音頻資料、電話本等)等。此外,儲存器420可以包括高速隨機存取儲存器,還可以包括非揮發性儲存器,例如至少一個磁碟儲存器件、快閃記憶體器件、或其他揮發性固態儲存器件。
輸入單元430可用於接收輸入的數位或字元訊息,以及產生與手機的用戶設置以及功能控制有關的鍵訊號輸入。具體地,輸入單元430可包括觸控面板431以及其他輸入設備432。觸控面板431,也稱為觸摸屏,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板431上或在觸控面板431附近的操作),並根據預先設定的程式驅動相應的連接裝置。可選的,觸控面板431可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,並檢測觸摸操作帶來的訊號,將訊號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸訊息,並將它轉換成觸點坐標,再送給處理器480,並能接收處理器480發來的命令並加以執行。此外,可以採用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸控面板431。除了觸控面板431,輸入單元430還可以包括其他輸入設備432。具體地,其他輸入設備432可以包括但不限於物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、滑鼠、操作桿等中的一種或多種。
顯示單元440可用於顯示由用戶輸入的訊息或提供給用戶的訊息以及手機的各種選單。顯示單元440可包括顯示面板441,可選的,可以採用液晶顯示器(liquid crystal display,LCD)、有機發光二極體(organic light-emitting diode,OLED)等形式來配置顯示面板441。進一步的,觸控面板431可覆蓋顯示面板441,當觸控面板431檢測到在其上或附近的觸摸操作後,傳送給處理器480以確定觸摸事件的類型,隨後處理器480根據觸摸事件的類型在顯示面板441上提供相應的視覺輸出。雖然在第14圖中,觸控面板431與顯示面板441是作為兩個獨立的部件來實現手機的輸入和輸入功能,但是在某些實施例中,可以將觸控面板431與顯示面板441集成而實現手機的輸入和輸出功能。
手機還可包括至少一種傳感器450,比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器可包括環境光傳感器及接近傳感器,其中,環境光傳感器可根據環境光線的明暗來調節顯示面板441的亮度,接近傳感器可在手機移動到耳邊時,關閉顯示面板441和/或背光。作為運動傳感器的一種,加速計傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用於識別手機姿態的應用(比如橫豎屏切換、相關遊戲、磁力計姿態校準)、振動識別相關功能(比如計步器、敲擊)等; 至於手機還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路460、揚聲器461,傳聲器462可提供用戶與手機之間的音頻連接埠。音頻電路460可將接收到的音頻資料轉換後的電訊號,傳輸到揚聲器461,由揚聲器461轉換為聲音訊號輸出;另一方面,傳聲器462將收集的聲音訊號轉換為電訊號,由音頻電路460接收後轉換為音頻資料,再將音頻資料輸出處理器480處理後,經RF電路410以發送給比如另一手機,或者將音頻資料輸出至儲存器420以便進一步處理。
WiFi屬短距離無線傳輸技術,手機透過WiFi模組470可以幫助用戶收發電子郵件、瀏覽網頁和訪問流式媒體等,它為用戶提供了無線的寬頻網際網路訪問。雖然第14圖示出了WiFi模組470,但是可以理解的是,其並不屬手機的必須構成,完全可以根據需要在不改變發明的本質的範圍內而省略。
處理器480是手機的控制中心,利用各種連接埠和線路連接整個手機的各個部分,透過運行或執行儲存在儲存器420內的軟體程式和/或模組,以及調用儲存在儲存器420內的資料,執行手機的各種功能和處理資料,從而對手機進行整體監控。可選的,處理器480可包括一個或多個處理單元;可選的,處理器480可集成應用處理器和調製解調處理器,其中,應用處理器主要處理操作系統、用戶界面和應用程式等,調製解調處理器主要處理無線通訊。可以理解的是,上述調製解調處理器也可以不集成到處理器480中。
手機還包括給各個部件供電的電源490(比如電池),可選的,電源可以透過電源管理系統與處理器480邏輯相連,從而透過電源管理系統實現管理充電、放電、以及功耗管理等功能。
儘管未示出,手機還可以包括攝像鏡頭、藍牙模組等,在此不再贅述。
在本發明實施例中,該智慧型設備所包括的處理器480還具有以下功能:
獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;
對所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;
根據所述第一變速語音訊號獲取第一語音特徵訊號;
透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;
若根據所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作。
可選地,處理器480具體用於執行如下步驟:
獲取所述待檢測語音訊號;
透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號。
可選地,處理器480具體用於執行如下步驟:
透過單個語音輸入設備接收所述待檢測語音訊號;
所述透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號,包括:
透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對所述待檢測語音訊號進行處理,得到所述增強語音訊號,其中,所述所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述噪聲消除算法用於對所述待檢測語音訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理。
可選地,處理器480具體用於執行如下步驟:
透過多個語音輸入設備接收所述待檢測語音訊號;
所述透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號,包括:
透過回聲消除算法和/或混響消除算法,對所述待檢測語音訊號進行處理,得到第一待處理訊號,其中,所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理,其中,所述第一待處理訊號包括多路訊號;
透過波束形成算法對所述第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,所述第二待處理訊號包括一路訊號;
透過噪聲消除算法對所述第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到所述增強語音訊號。
可選地,處理器480具體用於執行如下步驟:
將所述增強語音訊號寫入至第一先進先出FIFO緩存;
當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;
對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;
將所述目標變速語音訊號寫入至第二FIFO緩存;
從所述第二FIFO緩存中讀取所述目標變速語音訊號;
根據所述目標變速語音訊號生成所述第一語音特徵訊號,其中,所述第一語音特徵訊號包括梅爾頻率倒譜係數MFCC特徵訊號、濾波器組Fbanks以及線性預測倒譜係數LPCC中的至少一種。
可選地,處理器480具體用於執行如下步驟:
根據所述待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀;
根據所述第一語音幀、所述第一樣本數以及合成步長,計算得到自然連續語音幀;
根據所述待處理語音訊號以及所述分析幀步長確定第二語音幀;
根據所述第二語音幀以及所述自然連續語音幀,獲取第二樣本數;
根據所述待處理語音訊號、所述第二樣本數以及分析幀步長,確定待匹配語音幀;
根據所述第一語音幀以及所述待匹配語音幀確定所述目標變速語音訊號。
可選地,處理器480具體用於執行如下步驟:
採用如下方式計算所述第二樣本數:
其中,所述表示所述第二樣本數,所述表示兩個語音幀的最小互平均幅度差分函數係數,所述表示第個語音幀,所述表示樣本數,所述表示所述自然連續語音,所述表示可移動的最大樣本數,所述表示待匹配的所述第二語音幀,所述表示所述取最小值時的變量值,所述為大於或等於1,且小於或等於所述的整數。
可選地,處理器480還用於執行如下步驟:
若所述關鍵詞檢測結果為第一字元,則根據所述第一字元確定所述待檢測語音訊號中存在所述目標關鍵詞;
若所述關鍵詞檢測結果為第二字元,則根據所述第二字元確定所述待檢測語音訊號中不存在所述目標關鍵詞。
可選地,處理器480還用於執行如下步驟:
根據所述關鍵詞檢測結果確定目標概率值;
若所述目標概率值大於或等於關鍵詞概率閾值,則確定所述待檢測語音訊號中存在所述目標關鍵詞;
若所述目標概率值小於所述關鍵詞概率閾值,則確定所述待檢測語音訊號中不存在所述目標關鍵詞。
可選地,處理器480還用於執行如下步驟:
根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
處理器480具體用於執行如下步驟:
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號以及所述第二語音特徵訊號所對應的關鍵詞檢測結果。
可選地,處理器480還用於執行如下步驟:
判斷當前是否處於回聲訊號消除狀態;
若當前處於所述回聲訊號消除狀態,則執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟,並執行所述透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果的步驟;
若當前未處於所述回聲訊號消除狀態,則執行所述根據所述第一變速語音訊號獲取第一語音特徵訊號的步驟,並且執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟。
可選地,處理器480還用於執行如下步驟:
根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
對所述增強語音訊號進行變速處理,得到第二變速語音訊號,其中,所述第二變速語音訊號對應於第三語速,所述第三語速大於所述目標語速,且所述第三語速大於所述第一語速,所述第一語速小於所述目標語速;
根據所述第二變速語音訊號獲取第三語音特徵訊號;
處理器480具體用於執行如下步驟:
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第三語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號、所述第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。
第15圖是本發明實施例提供的一種伺服器結構示意圖,該伺服器500可因配置或性能不同而產生比較大的差異,可以包括一個或一個以上中央處理器(central processing units,CPU)522(例如,一個或一個以上處理器)和儲存器532,一個或一個以上儲存應用程式542或資料544的儲存媒體530(例如一個或一個以上海量儲存設備)。其中,儲存器532和儲存媒體530可以是短暫儲存或持久儲存。儲存在儲存媒體530的程式可以包括一個或一個以上模組(圖示沒標出),每個模組可以包括對伺服器中的一系列指令操作。更進一步地,中央處理器522可以設置為與儲存媒體530通訊,在伺服器500上執行儲存媒體530中的一系列指令操作。
伺服器500還可以包括一個或一個以上電源526,一個或一個以上有線或無線網路連接埠550,一個或一個以上輸入輸出連接埠558,和/或,一個或一個以上操作系統541,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述實施例中由伺服器所執行的步驟可以基於該第15圖所示的伺服器結構。
在本發明實施例中,該伺服器所包括的CPU 522還具有以下功能:
獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;
對所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;
根據所述第一變速語音訊號獲取第一語音特徵訊號;
透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞。
可選地,CPU 522具體用於執行如下步驟:
獲取所述待檢測語音訊號;
透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號。
可選地,CPU 522具體用於執行如下步驟:
透過單個語音輸入設備接收所述待檢測語音訊號;
所述透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號,包括:
透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對所述待檢測語音訊號進行處理,得到所述增強語音訊號,其中,所述所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述噪聲消除算法用於對所述待檢測語音訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理。
可選地,CPU 522具體用於執行如下步驟:
透過多個語音輸入設備接收所述待檢測語音訊號;
所述透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號,包括:
透過回聲消除算法和/或混響消除算法,對所述待檢測語音訊號進行處理,得到第一待處理訊號,其中,所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理,其中,所述第一待處理訊號包括多路訊號;
透過波束形成算法對所述第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,所述第二待處理訊號包括一路訊號;
透過噪聲消除算法對所述第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到所述增強語音訊號。
可選地,CPU 522具體用於執行如下步驟:
將所述增強語音訊號寫入至第一先進先出FIFO緩存;
當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;
對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;
將所述目標變速語音訊號寫入至第二FIFO緩存;
從所述第二FIFO緩存中讀取所述目標變速語音訊號;
根據所述目標變速語音訊號生成所述第一語音特徵訊號,其中,所述第一語音特徵訊號包括梅爾頻率倒譜係數MFCC特徵訊號、濾波器組Fbanks以及線性預測倒譜係數LPCC中的至少一種。
可選地,CPU 522具體用於執行如下步驟:
根據所述待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀;
根據所述第一語音幀、所述第一樣本數以及合成步長,計算得到自然連續語音幀;
根據所述待處理語音訊號以及所述分析幀步長確定第二語音幀;
根據所述第二語音幀以及所述自然連續語音幀,獲取第二樣本數;
根據所述待處理語音訊號、所述第二樣本數以及分析幀步長,確定待匹配語音幀;
根據所述第一語音幀以及所述待匹配語音幀確定所述目標變速語音訊號。
可選地,CPU 522具體用於執行如下步驟:
採用如下方式計算所述第二樣本數:
其中,所述表示所述第二樣本數,所述表示兩個語音幀的最小互平均幅度差分函數係數,所述表示第個語音幀,所述表示樣本數,所述表示所述自然連續語音,所述表示可移動的最大樣本數,所述表示待匹配的所述第二語音幀,所述表示所述取最小值時的變量值,所述為大於或等於1,且小於或等於所述的整數。
可選地,CPU 522還用於執行如下步驟:
若所述關鍵詞檢測結果為第一字元,則根據所述第一字元確定所述待檢測語音訊號中存在所述目標關鍵詞;
若所述關鍵詞檢測結果為第二字元,則根據所述第二字元確定所述待檢測語音訊號中不存在所述目標關鍵詞。
可選地,CPU 522還用於執行如下步驟:
根據所述關鍵詞檢測結果確定目標概率值;
若所述目標概率值大於或等於關鍵詞概率閾值,則確定所述待檢測語音訊號中存在所述目標關鍵詞;
若所述目標概率值小於所述關鍵詞概率閾值,則確定所述待檢測語音訊號中不存在所述目標關鍵詞。
可選地,CPU 522還用於執行如下步驟:
根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
CPU 522具體用於執行如下步驟:
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號以及所述第二語音特徵訊號所對應的關鍵詞檢測結果。
可選地,CPU 522還用於執行如下步驟:
判斷當前是否處於回聲訊號消除狀態;
若當前處於所述回聲訊號消除狀態,則執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟,並執行所述透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果的步驟;
若當前未處於所述回聲訊號消除狀態,則執行所述根據所述第一變速語音訊號獲取第一語音特徵訊號的步驟,並且執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟。
可選地,CPU 522還用於執行如下步驟:
根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致;
對所述增強語音訊號進行變速處理,得到第二變速語音訊號,其中,所述第二變速語音訊號對應於第三語速,所述第三語速大於所述目標語速,且所述第三語速大於所述第一語速,所述第一語速小於所述目標語速;
根據所述第二變速語音訊號獲取第三語音特徵訊號;
CPU 522具體用於執行如下步驟:
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第三語音特徵訊號所對應的所述關鍵詞檢測結果;
或,
透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號、所述第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以透過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是透過一些連接埠,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個計算機可讀取儲存媒體中。基於這樣的理解,本發明的技術方案本質上或者說對習知技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品儲存在一個儲存媒體中,包括複數指令用以使得一台計算機設備(可以是個人電腦,伺服器,或者網路設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的儲存媒體包括:隨身碟、可攜式硬碟、唯讀記憶體(read-only memory,ROM)、隨機存取記憶體(random access memory,RAM)、磁碟或者光碟等各種可以儲存程式程式碼的媒體。
以上所述,以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,所屬技術領域具有通常知識者應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。
30:喚醒詞檢測裝置
101~105:步驟
201~205:步驟
301:獲取模組
302:變速模組
303:執行模組
304:確定模組
305:判斷模組
410:RF電路
420:儲存器
430:輸入單元
431:觸控面板
432:其他輸入設備
440:顯示單元
441:顯示面板
450:傳感器
460:音頻電路
461:揚聲器
462:傳聲器
470:WiFi模組
480:處理器
490:電源
500:伺服器
522:中央處理器
526:電源
530:儲存媒體
532:儲存器
541:操作系統
542:應用程式
544:資料
550:有線或無線網路連接埠
558:輸入輸出連接埠
A1:單路回聲消除器
A2:噪聲消除器
A3:混響消除器
B1:多路回聲消除器
B2:多路混響消除器
B3:波束形成器
B4:噪聲消除器
C1:音頻採集模組
C2:語音增強模組
C3:聲學特徵提取模組1
C4:關鍵詞檢測模組1
C5:語音訊號變速模組
C6:聲學特徵提取模組2
C7:關鍵詞檢測模組2
C8:檢測結果判決模組
D1:音頻採集模組
D2:語音增強模組
D3:聲學特徵提取模組1
D4:關鍵詞檢測模組1
D5:變速通路開關模組
D6:語音訊號變速模組
D7:聲學特徵提取模組2
D8:關鍵詞檢測模組2
D9:檢測結果判決模組
E1:音頻採集模組
E2:語音增強模組
E3:聲學特徵提取模組1
E4:關鍵詞檢測模組1
E5:語音訊號變速模組1
E6:聲學特徵提取模組2
E7:關鍵詞檢測模組2
E8:語音訊號變速模組2
E9:聲學特徵提取模組3
E10:關鍵詞檢測模組3
E11:檢測結果判決模組
S1:音頻採集模組
S2:語音增強模組
S3:語音訊號變速模組
S4:聲學特徵提取模組
S5:關鍵詞檢測模組
[第1圖]為本發明實施例中關鍵詞檢測系統的一個架構示意圖;
[第2圖]為本發明實施例中關鍵詞檢測的一個流程示意圖;
[第3圖]為本發明實施例中關鍵詞的檢測方法一個實施例示意圖;
[第4圖]為本發明實施例中對單麥克風訊號進行語音增強的一個實施例示意圖;
[第5圖]為本發明實施例中對多麥克風訊號進行語音增強的一個實施例示意圖;
[第6圖]為本發明實施例中對增強語音訊號進行變速處理的一個流程示意圖;
[第7a圖]為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖;
[第7b圖]為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖;
[第7c圖]為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖;
[第7d圖]為本發明實施例中基於波形相似疊接相加法進行變速處理的一個實施例示意圖;
[第8圖]為本發明實施例中基於兩路語音訊號進行關鍵詞檢測的一個實施例示意圖;
[第9圖]為本發明實施例中控制多路語音訊號檢測關鍵詞的一個實施例示意圖;
[第10圖]為本發明實施例中基於三路語音訊號進行關鍵詞檢測的一個實施例示意圖;
[第11圖]為本發明實施例中關鍵詞檢測裝置一個實施例示意圖;
[第12圖]為本發明實施例中關鍵詞檢測裝置另一個實施例示意圖;
[第13圖]為本發明實施例中關鍵詞檢測裝置另一個實施例示意圖;
[第14圖]為本發明實施例中智慧型設備一個結構示意圖;
[第15圖]為本發明實施例中伺服器一個結構示意圖。
101~105:步驟
Claims (15)
- 一種關鍵詞的檢測方法,包括:獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;對所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;根據所述第一變速語音訊號獲取第一語音特徵訊號;透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;以及若根據所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作,其中所述對所述增強語音訊號進行變速處理,得到第一變速語音訊號,包括:將所述增強語音訊號寫入至第一先進先出(first in first out,FIFO)緩存;當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;以及將所述目標變速語音訊號寫入至第二FIFO緩存。
- 如請求項1所述的檢測方法,其中所述獲取待檢測語音訊號的增強語音訊號,包括: 獲取所述待檢測語音訊號;以及透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號。
- 如請求項2所述的檢測方法,其中所述獲取所述待檢測語音訊號,包括:透過單個語音輸入設備接收所述待檢測語音訊號;所述透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號,包括:透過回聲消除算法、噪聲消除算法以及混響消除算法中的至少一種,對所述待檢測語音訊號進行處理,得到所述增強語音訊號,其中,所述所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述噪聲消除算法用於對所述待檢測語音訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理。
- 如請求項2所述的檢測方法,其中所述獲取所述待檢測語音訊號,包括:透過多個語音輸入設備接收所述待檢測語音訊號;所述透過語音增強算法對所述待檢測語音訊號進行處理,得到所述增強語音訊號,包括:透過回聲消除算法和/或混響消除算法,對所述待檢測語音訊號進行處理,得到第一待處理訊號,其中,所述回聲消除算法用於對所述待檢測語音訊號中的回聲訊號進行消除處理,所述混響消除算法用於對所述待檢測語音訊號中的混響進行消除處理,其中,所述第一待處理訊號包括多路訊號;透過波束形成算法對所述第一待處理訊號進行空間濾波處理,得到第二待處理訊號,其中,所述第二待處理訊號包括一路訊號;以及 透過噪聲消除算法對所述第二待處理訊號中的穩態噪聲和/或非穩態噪聲進行抑制處理,得到所述增強語音訊號。
- 如請求項1所述的檢測方法,其中所述根據所述第一變速語音訊號獲取第一語音特徵訊號,包括:從所述第二FIFO緩存中讀取所述目標變速語音訊號;以及根據所述目標變速語音訊號生成所述第一語音特徵訊號,其中,所述第一語音特徵訊號包括梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficents,MFCC)特徵訊號、濾波器組(Filter banks,Fbanks)以及線性預測倒譜係數(Linear Prediction Cepstrum Coefficient,LPCC)中的至少一種。
- 如請求項5所述的檢測方法,其中所述對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,包括:根據所述待處理語音訊號、第一樣本數以及分析幀步長確定第一語音幀;根據所述第一語音幀、所述第一樣本數以及合成步長,計算得到自然連續語音幀;根據所述待處理語音訊號以及所述分析幀步長確定第二語音幀;根據所述第二語音幀以及所述自然連續語音幀,獲取第二樣本數;根據所述待處理語音訊號、所述第二樣本數以及分析幀步長,確定待匹配語音幀;以及根據所述第一語音幀以及所述待匹配語音幀確定所述目標變速語音訊號。
- 如請求項1所述的檢測方法,其中所述透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,所述方法還包括:若所述關鍵詞檢測結果為第一字元,則根據所述第一字元確定所述待檢測語音訊號中存在所述目標關鍵詞;以及若所述關鍵詞檢測結果為第二字元,則根據所述第二字元確定所述待檢測語音訊號中不存在所述目標關鍵詞。
- 如請求項1所述的檢測方法,其中所述透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果之後,所述方法還包括:根據所述關鍵詞檢測結果確定目標概率值;若所述目標概率值大於或等於關鍵詞概率閾值,則確定所述待檢測語音訊號中存在所述目標關鍵詞;以及若所述目標概率值小於所述關鍵詞概率閾值,則確定所述待檢測語音訊號中不存在所述目標關鍵詞。
- 如請求項1至9中任一項所述的檢測方法,其中所述獲取待檢測語音訊號的增強語音訊號之後,所述方法還包括:根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致; 所述透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,包括:透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;或,透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;或,透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號以及所述第二語音特徵訊號所對應的關鍵詞檢測結果。
- 如請求項10所述的檢測方法,其中所述獲取待檢測語音訊號的增強語音訊號之後,所述方法還包括:判斷當前是否處於回聲訊號消除狀態;若當前處於所述回聲訊號消除狀態,則執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟,並執行所述透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果的步驟;以及若當前未處於所述回聲訊號消除狀態,則執行所述根據所述第一變速語音訊號獲取第一語音特徵訊號的步驟,並且執行所述根據所述增強語音訊號獲取第二語音特徵訊號的步驟。
- 如請求項1至9中任一項所述的檢測方法,其中所述獲取待檢測語音訊號的增強語音訊號之後,所述方法還包括:根據所述增強語音訊號獲取第二語音特徵訊號,其中,所述第二語音特徵訊號對應於第二語速,所述第二語速與所述目標語速一致; 對所述增強語音訊號進行變速處理,得到第二變速語音訊號,其中,所述第二變速語音訊號對應於第三語速,所述第三語速大於所述目標語速,且所述第三語速大於所述第一語速,所述第一語速小於所述目標語速;以及根據所述第二變速語音訊號獲取第三語音特徵訊號;所述透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,包括:透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的所述關鍵詞檢測結果;或,透過所述關鍵詞檢測模型獲取所述第二語音特徵訊號所對應的所述關鍵詞檢測結果;或,透過所述關鍵詞檢測模型獲取所述第三語音特徵訊號所對應的所述關鍵詞檢測結果;或,透過所述關鍵詞檢測模型獲取所述第一語音特徵訊號、所述第二語音特徵訊號以及第三語音特徵訊號所對應的關鍵詞檢測結果。
- 一種關鍵詞檢測裝置,包括:獲取模組,用於獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;變速模組,用於對所述獲取模組獲取的所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致; 所述獲取模組,還用於根據所述變速模組變速後得到的所述第一變速語音訊號獲取第一語音特徵訊號;所述獲取模組,還用於透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;以及執行模組,用於若根據所述獲取模組獲取的所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作,其中所述變速模組具體用於:將所述增強語音訊號寫入至第一先進先出(first in first out,FIFO)緩存;當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;以及將所述目標變速語音訊號寫入至第二FIFO緩存。
- 一種智慧型設備,包括:儲存器、收發器、處理器以及匯流排系統;其中,所述儲存器用於儲存程式;所述處理器用於執行所述儲存器中的程式,包括如下步驟:獲取待檢測語音訊號的增強語音訊號,其中,所述增強語音訊號對應於目標語速;對所述增強語音訊號進行變速處理,得到第一變速語音訊號,其中,所述第一變速語音訊號對應於第一語速,所述第一語速與所述目標語速不一致;根據所述第一變速語音訊號獲取第一語音特徵訊號; 透過關鍵詞檢測模型獲取所述第一語音特徵訊號所對應的關鍵詞檢測結果,其中,所述關鍵詞檢測結果用於表示所述待檢測語音訊號中是否存在目標關鍵詞;以及若根據所述關鍵詞檢測結果確定存在所述目標關鍵詞,則執行所述目標關鍵詞所對應的操作,其中所述匯流排系統用於連接所述儲存器以及所述處理器,以使所述儲存器以及所述處理器進行通訊,其中所述對所述增強語音訊號進行變速處理,得到第一變速語音訊號,包括:將所述增強語音訊號寫入至第一先進先出(first in first out,FIFO)緩存;當達到所述第一FIFO緩存的儲存閾值時,從所述第一FIFO緩存中讀取待處理增強語音訊號,其中,所述待處理增強語音訊號的時長小於或等於所述增強語音訊號的時長;對所述待處理語音訊號進行變速處理,得到目標變速語音訊號,其中,所述目標變速語音訊號的時長小於或等於所述第一變速語音訊號的時長;以及將所述目標變速語音訊號寫入至第二FIFO緩存。
- 一種計算機可讀儲存媒體,包括指令,當其在計算機上運行時,使得計算機執行如請求項1至12中任一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023586.6 | 2019-01-10 | ||
CN201910023586.6A CN109671433B (zh) | 2019-01-10 | 2019-01-10 | 一种关键词的检测方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202026913A TW202026913A (zh) | 2020-07-16 |
TWI730584B true TWI730584B (zh) | 2021-06-11 |
Family
ID=66150569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109100644A TWI730584B (zh) | 2019-01-10 | 2020-01-08 | 關鍵詞的檢測方法以及相關裝置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11749262B2 (zh) |
EP (1) | EP3910627B1 (zh) |
CN (1) | CN109671433B (zh) |
TW (1) | TWI730584B (zh) |
WO (1) | WO2020143652A1 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671433B (zh) * | 2019-01-10 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN110163347A (zh) * | 2019-05-24 | 2019-08-23 | 刘斌 | 一种煤矿井下人体姿态监测方法 |
CN110176245A (zh) * | 2019-05-29 | 2019-08-27 | 贾一焜 | 一种语音降噪系统 |
CN110364141B (zh) * | 2019-06-04 | 2021-09-28 | 杭州电子科技大学 | 基于深度单分类器的电梯典型异常声音报警方法 |
CN110399798B (zh) * | 2019-06-25 | 2021-07-20 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110246490B (zh) * | 2019-06-26 | 2022-04-19 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN110503944B (zh) * | 2019-08-29 | 2021-09-24 | 思必驰科技股份有限公司 | 语音唤醒模型的训练和使用方法及装置 |
CN110782335B (zh) * | 2019-09-19 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能处理信贷数据的方法、装置及存储介质 |
CN110689887B (zh) * | 2019-09-24 | 2022-04-22 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110767223B (zh) * | 2019-09-30 | 2022-04-12 | 大象声科(深圳)科技有限公司 | 一种单声道鲁棒性的语音关键词实时检测方法 |
WO2021134550A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个语音识别输出的人类合并和训练 |
WO2021134546A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 提高语音识别率的输入法 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
CN111368205B (zh) * | 2020-03-09 | 2021-04-06 | 腾讯科技(深圳)有限公司 | 数据推荐方法、装置、计算机设备及存储介质 |
CN111477239B (zh) * | 2020-03-31 | 2023-05-09 | 厦门快商通科技股份有限公司 | 一种基于gru神经网络的去除噪声方法及系统 |
CN111522971A (zh) * | 2020-04-08 | 2020-08-11 | 广东小天才科技有限公司 | 一种直播教学中辅助用户听课的方法及装置 |
CN111653272A (zh) * | 2020-06-01 | 2020-09-11 | 重庆科技学院 | 一种基于深度信念网络的车载语音增强算法 |
CN111816162B (zh) * | 2020-07-09 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 一种语音变化信息检测方法、模型训练方法以及相关装置 |
CN111836165A (zh) * | 2020-07-10 | 2020-10-27 | 深圳市昂思科技有限公司 | 一种有源降噪系统中电声器件频率响应曲线的补偿方法 |
CN112721933B (zh) * | 2020-07-28 | 2022-01-04 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112435668A (zh) * | 2020-11-06 | 2021-03-02 | 联想(北京)有限公司 | 一种语音识别方法、装置及存储介质 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
CN113228164A (zh) * | 2021-04-02 | 2021-08-06 | 深圳市锐明技术股份有限公司 | 一种基于语音识别的安全预警方法、装置及终端设备 |
CN113763933B (zh) * | 2021-05-06 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
CN114401062B (zh) * | 2021-12-31 | 2023-05-30 | 北京升哲科技有限公司 | 信噪比调整方法、装置、电子设备及存储介质 |
CN114549930B (zh) * | 2022-02-21 | 2023-01-10 | 合肥工业大学 | 一种基于轨迹数据的快速路短时车头间距预测方法 |
CN114360526B (zh) * | 2022-03-16 | 2022-06-17 | 杭州研极微电子有限公司 | 音频检测设备、方法、装置及存储介质 |
CN114863916A (zh) * | 2022-04-26 | 2022-08-05 | 北京小米移动软件有限公司 | 语音识别模型训练方法、语音识别方法、装置及存储介质 |
CN115314824B (zh) * | 2022-10-12 | 2022-12-27 | 深圳市婕妤达电子有限公司 | 用于助听器的信号处理方法、装置、电子设备及存储介质 |
CN117594060A (zh) * | 2023-10-31 | 2024-02-23 | 北京邮电大学 | 音频信号内容分析方法、装置、设备及存储介质 |
CN118335090A (zh) * | 2024-05-16 | 2024-07-12 | 南京龙垣信息科技有限公司 | 一种声纹验证多模态唤醒方法及设备 |
CN118230737B (zh) * | 2024-05-23 | 2024-07-19 | 深圳市创达电子有限公司 | 一种停车场语音识别智能反馈方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI362017B (en) * | 2007-12-07 | 2012-04-11 | Chyong Wen Jang | Intelligent conversion method with system for chinese and the international phonetic alphabet pa |
CN102855884A (zh) * | 2012-09-11 | 2013-01-02 | 中国人民解放军理工大学 | 基于短时连续非负矩阵分解的语音时长调整方法 |
CN103472990A (zh) * | 2013-08-27 | 2013-12-25 | 小米科技有限责任公司 | 设备控制方法、装置和设备 |
CN108682429A (zh) * | 2018-05-29 | 2018-10-19 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1141698C (zh) * | 1999-10-29 | 2004-03-10 | 松下电器产业株式会社 | 对输入语音进行语音识别的音程标准化装置 |
JP2003534570A (ja) * | 2000-05-26 | 2003-11-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 適応ビームフォーマーにおいてノイズを抑制する方法 |
CN1221937C (zh) | 2002-12-31 | 2005-10-05 | 北京天朗语音科技有限公司 | 语速自适应的语音识别系统 |
CN1212602C (zh) | 2003-09-12 | 2005-07-27 | 中国科学院声学研究所 | 基于语音增强的语音识别方法 |
KR100547445B1 (ko) * | 2003-11-11 | 2006-01-31 | 주식회사 코스모탄 | 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법 |
US8275148B2 (en) * | 2009-07-28 | 2012-09-25 | Fortemedia, Inc. | Audio processing apparatus and method |
KR20130037910A (ko) * | 2011-10-07 | 2013-04-17 | 목포대학교산학협력단 | OpenVG 기반 다중 레이어 중첩부분의 위치좌표 결정 방법 |
US20130121498A1 (en) * | 2011-11-11 | 2013-05-16 | Qsound Labs, Inc. | Noise reduction using microphone array orientation information |
CN104412320B (zh) * | 2012-06-26 | 2017-11-17 | 雅马哈株式会社 | 使用音频波形数据的自动演奏技术 |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
US20160275961A1 (en) * | 2015-03-18 | 2016-09-22 | Qualcomm Technologies International, Ltd. | Structure for multi-microphone speech enhancement system |
CN106128477B (zh) * | 2016-06-23 | 2017-07-04 | 南阳理工学院 | 一种口语识别校正系统 |
KR102072235B1 (ko) * | 2016-12-08 | 2020-02-03 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
CN106910500B (zh) | 2016-12-23 | 2020-04-17 | 北京小鸟听听科技有限公司 | 对带麦克风阵列的设备进行语音控制的方法及设备 |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403299B2 (en) * | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
US10460722B1 (en) * | 2017-06-30 | 2019-10-29 | Amazon Technologies, Inc. | Acoustic trigger detection |
US10573301B2 (en) * | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN109671433B (zh) * | 2019-01-10 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
-
2019
- 2019-01-10 CN CN201910023586.6A patent/CN109671433B/zh active Active
-
2020
- 2020-01-08 WO PCT/CN2020/070835 patent/WO2020143652A1/zh unknown
- 2020-01-08 TW TW109100644A patent/TWI730584B/zh active
- 2020-01-08 EP EP20738838.0A patent/EP3910627B1/en active Active
-
2021
- 2021-06-10 US US17/343,746 patent/US11749262B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI362017B (en) * | 2007-12-07 | 2012-04-11 | Chyong Wen Jang | Intelligent conversion method with system for chinese and the international phonetic alphabet pa |
CN102855884A (zh) * | 2012-09-11 | 2013-01-02 | 中国人民解放军理工大学 | 基于短时连续非负矩阵分解的语音时长调整方法 |
CN103472990A (zh) * | 2013-08-27 | 2013-12-25 | 小米科技有限责任公司 | 设备控制方法、装置和设备 |
CN108682429A (zh) * | 2018-05-29 | 2018-10-19 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210304735A1 (en) | 2021-09-30 |
TW202026913A (zh) | 2020-07-16 |
EP3910627A1 (en) | 2021-11-17 |
CN109671433B (zh) | 2023-06-16 |
US11749262B2 (en) | 2023-09-05 |
EP3910627A4 (en) | 2022-06-15 |
CN109671433A (zh) | 2019-04-23 |
EP3910627B1 (en) | 2024-06-12 |
WO2020143652A1 (zh) | 2020-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI730584B (zh) | 關鍵詞的檢測方法以及相關裝置 | |
CN110491404B (zh) | 语音处理方法、装置、终端设备及存储介质 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN110335620B (zh) | 一种噪声抑制方法、装置和移动终端 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN111179961B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
WO2021196905A1 (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
CN110021307B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
JP7498560B2 (ja) | システム及び方法 | |
WO2021022094A1 (en) | Per-epoch data augmentation for training acoustic models | |
CN109147763B (zh) | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 | |
US11917384B2 (en) | Method of waking a device using spoken voice commands | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
US11222652B2 (en) | Learning-based distance estimation | |
CN113132193B (zh) | 智能设备的控制方法、装置、电子设备以及存储介质 | |
JP2022544065A (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
Jaroslavceva et al. | Robot Ego‐Noise Suppression with Labanotation‐Template Subtraction | |
WO2020102943A1 (zh) | 手势识别模型的生成方法、装置、存储介质及电子设备 | |
CN114758672A (zh) | 一种音频生成方法、装置以及电子设备 | |
CN114694667A (zh) | 语音输出方法、装置、计算机设备及存储介质 | |
Yağanoğlu et al. | Real-time Parental Voice Recognition System For Persons Having Impaired Hearing | |
CN116320872A (zh) | 耳机的模式切换方法、装置、电子设备及存储介质 |