TW201835895A - 低功率隨時聽取語音命令的檢測及擷取 - Google Patents
低功率隨時聽取語音命令的檢測及擷取 Download PDFInfo
- Publication number
- TW201835895A TW201835895A TW106144833A TW106144833A TW201835895A TW 201835895 A TW201835895 A TW 201835895A TW 106144833 A TW106144833 A TW 106144833A TW 106144833 A TW106144833 A TW 106144833A TW 201835895 A TW201835895 A TW 201835895A
- Authority
- TW
- Taiwan
- Prior art keywords
- vad
- digital audio
- threshold
- audio signal
- adc
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title description 42
- 230000000694 effects Effects 0.000 claims abstract description 44
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims description 103
- 238000000034 method Methods 0.000 claims description 38
- 230000007246 mechanism Effects 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 15
- 230000007958 sleep Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000872 buffer Substances 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M3/00—Conversion of analogue values to or from differential modulation
- H03M3/30—Delta-sigma modulation
- H03M3/458—Analogue/digital converters using delta-sigma modulation as an intermediate step
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Telephone Function (AREA)
Abstract
一種用於檢測和擷取語音命令的系統,該系統包含:語音活動檢測器(VAD),被配置用以接收VAD接收的數位音頻信號;確定VAD接收的數位音頻信號的振幅;將VAD接收的數位音頻信號的振幅與第一閾值及第二閾值進行比較;不提供(withhold)當VAD接收的數位音頻信號的振幅不超過第一閾值或第二閾值時,VAD中斷信號;當VAD接收的數位音頻信號的振幅超過第一閾值及第二閾值時,產生VAD中斷信號;以及當VAD接收的數位音頻信號的振幅在第一閾值與第二閾值之間時,執行VAD接收的數位音頻信號的頻譜分析。
Description
本發明針對語音檢測及語音命令的擷取的系統及方法。
許多消費性電子裝置具有透過人聲發出的語音命令全部或部分地控制的功能。這種語音控制允許用戶在不使用用戶的雙手以及在裝置上使用較少按鈕或開關的情況下操作裝置。
這樣的裝置可能需要隨時聽取模式,使得裝置可以「聽到」並擷取語音命令。因此,在隨時聽取模式下,裝置開啟並等待語音命令。隨時聽取功能的品質通常由兩個度量標準來衡量:總體平均電流消耗和語音命令錯誤檢測(misdetection)率。
本發明的實施例解決現有裝置中的缺點。
所揭示的標的的實施例針對低功率、隨時聽取的語音命令檢測和擷取系統。藉由利用較低電流操作狀態,系統可以降低系統的整體平均電流消耗。在最低電流操作狀態下,系統等待語音活動的跡象。每個隨後的狀態具有逐漸較高的語音命令檢測的置信度,直到檢測、辨識及處理語音命令的最高電流操作狀態。
因此,用於檢測及擷取語音命令的系統的至少一些實施例可以包括:語音活動檢測器(VAD),其被配置用以接收VAD接收的數位音頻信號;確定VAD接收的數位音頻信號的振幅;將VAD接收的數位音頻信號的振幅與第一閾值及第二閾值進行比較;當VAD接收的數位音頻信號的振幅不超過第一閾值或第二閾值時,不提供(withhold)VAD中斷信號;當VAD接收的數位音頻信號的振幅超過第一閾值及第二閾值時,產生VAD中斷信號;以及當VAD接收的數位音頻信號的振幅在第一閾值與第二閾值之間時,執行VAD接收的數位音頻信號的頻譜分析。
在另一態樣中,檢測和擷取語音命令的方法的至少一些實施例可以包括:由語音活動檢測器(VAD)接收VAD接收的數位音頻信號;由VAD確定VAD接收的數位音頻信號的振幅;透過VAD將VAD接收的數位音頻信號的振幅與第一閾值及第二閾值進行比較;當VAD接收的數位音頻信號的振幅不超過第一閾值及第二閾值時,由VAD不提供VAD中斷信號;當VAD接收的數位音頻信號的振幅超過第一閾值及第二閾值時,由VAD產生VAD中斷信號;以及當VAD接收的數位音頻信號的振幅在第一閾值與第二閾值之間時,由VAD對VAD接收的數位音頻信號執行頻譜分析。
因此,當與現有裝置進行比較時,所描述的系統及方法可以在較低的平均電流消耗下提供較低的語音命令錯誤檢測率。
如在本申請案中所描述的,本發明的實施例針對低功率、隨時聽取的語音命令檢測及擷取系統。所揭示的技術包括利用不同的電流量的多個離散的操作狀態。操作狀態的特徵在於各個子系統的集體狀態。在最低電流操作狀態下,系統等待語音活動的跡象。每個隨後的狀態具有逐漸較高的語音命令檢測的置信度,直到檢測、辨識及處理語音命令的最高電流操作狀態。
藉由利用較低電流操作狀態,系統可以減少系統的整體平均電流消耗。此外,透過選擇性地使用全部或只是一些可用的操作狀態,系統可以降低語音命令錯誤檢測率。舉例來說,系統可以避免休眠來擷取片語的開始而非刪減(truncate)。因此,當相較於現有裝置時,所描述的系統可以在較低的平均電流消耗下提供較低的語音命令錯誤檢測率。
因此,所揭示的技術可用於任何語音啟動和受控系統,包括例如有線和無線頭戴式耳機、穿戴式產品、揚聲器條、遊戲控制器以及諸如電話和平板電腦的行動裝置。這些語音啟動和受控系統可能包括智慧型個人助理或其他軟體代理者。
圖1是顯示根據本發明實施例的低功率、隨時聽取的語音命令檢測和擷取系統的部分的功能方塊圖。如圖1所示,語音命令檢測及擷取系統100可以包括類比數位轉換器(ADC)101、降頻濾波器102、語音RAM(語音隨機存取記憶體)103及語音活動檢測器(voice-activity detector,VAD)方塊104,其輸出到數位信號處理器(DSP)106的語音辨識模組105。降頻濾波器102和語音RAM 103可以各自是DSP 106的一部分或緊密耦合到DSP 106。ADC 101、降頻濾波器(decimation filter)102、語音RAM 103、VAD方塊104及DSP 106各自由時脈系統107控制,該時脈系統107包括多個時脈產生機構且在以下更詳細地討論。
VAD方塊104可以包括樣本組合方塊108、振幅VAD(振幅語音活動檢測器)方塊109、頻譜分析方塊110及控制方塊111。頻譜分析方塊110可以包括VAD RAM (語音活動檢測器隨機存取記憶體)112、快速傅立葉轉換(FFT)方塊113、頻譜低通濾波器(頻譜LPF)114及頻譜VAD(頻譜語音活動檢測器)方塊115。可以透過可編程參數來實作VAD方塊104的特徵。因為VAD方塊104最好以硬體來實作,因此在本文稱為硬體VAD。即使如此,在實施例中,VAD方塊104可以用軟體或韌體來實作。
ADC 101可以是立體聲ADC,其從可能包括語音信號的類比音頻輸入產生例如2Msps(mega-samples per second,百萬樣本/秒)的數位音頻信號123。ADC 101可以使用例如脈波密度調變(pulse-density modulation,PDM),脈波編碼調變(pulse-code modulation,PCM)或其他技術來從類比音頻輸入122產生數位音頻信號123。
ADC 101可包括喚醒電路118,以檢測音頻活動並用以針對ADC 101的其餘部分且因而VAD方塊104的提供啟動功能。因此,喚醒電路118可將類比音頻輸入122與閾值作比較以確定是否存在有音頻活動的發作位準(onset level)。當類比音頻輸入122低於音頻活動的發作位準時,ADC 101的其餘部分不活動。但是,當類比音頻輸入122高於音頻活動的發作位準時,ADC 101的其餘部分是活動的。此閾值在此有時被稱為喚醒發作(wakeup-onset)閾值。
因此,ADC 101可以具有兩種模式。在其中一模式中,ADC101使用喚醒電路118來比較電位,但不產生數位樣本。因此,ADC 101的轉換器部分可以在該電位比較模式或休眠模式中完全斷電,從而為ADC 101提供低功率狀態。較佳地,在休眠模式中,喚醒電路118處於低功率模式,意指喚醒電路118每通道正消耗喚醒電路118及ADC 101在兩者皆為現用(active)時所消耗的功率之大約15%以下的功率。較佳地,喚醒電路118每通道消耗小於喚醒電路118及ADC 101在兩者皆處於現用時所消耗的功率之大約12%以下的功率。甚至較佳地,喚醒電路118每通道消耗當喚醒電路118及ADC 101兩者皆為現用時所消耗的功率之大約8%的功率。在第二模式或現用模式下,ADC 101從類比音頻輸入122產生數位信號。
圖2是顯示喚醒電路的部分的電路圖。如圖2所示,喚醒電路118可以包括具有附加增益級120及比較器級121的音頻前置放大器119。比較器級121可以例如是施密特觸發器。因此,喚醒電路可以採用類比音頻輸入122,利用音頻前置放大器119及附加增益級120對類比音頻輸入122升壓,並將經調節的類比音頻輸入與語音位準閾值與比較器級121進行比較。如果經調節的類比音頻輸入超過語音位準閾值,則喚醒電路啟動ADC 101的其餘部分以產生樣本。語音位準閾值可以是以上論及的喚醒發作閾值。
除了提升信號之外,音頻前置放大器119及附加增益級120可以例如透過共模抑制或電源抑制(power-supply rejection)或兩者來調節類比音頻輸入122。較佳地,音頻前置放大器119的增益及附加增益級120的增益都是可編程的。作為說明,音頻前置放大器119可以被編程或預設為具有例如+ 6dB、+ 10dB、+ 16dB及+ 26dB的增益,且附加增益級120可以被編程或預設具有例如+ 20dB的增益。亦可編程或預設其他值。
回到圖1,如本領域所理解的,從類比信號導出的數位信號包括多個樣本,其中取樣的數量取決於ADC的取樣率。降頻濾波器102將數位音頻信號123的取樣率降低到例如16 ksps(每秒千樣本(kilo-samples per second))。
所產生的減少的數位音頻樣本124被儲存在語音RAM 103中,供由DSP 106的語音辨識模組105進行的未來語音辨識之用。較佳地,語音RAM 103被配置為循環緩衝器以連續擷取以先進先出(FIFO)格式所減少的數位音頻樣本124。在語音RAM 103是DSP 106的一部分或緊密耦合到DSP106的配置中,當數位信號處理器需要處理語音RAM 103時,該配置降低了系統開銷。
此外,可以在語音RAM 103中擷取任何數量的通道;因此擷取的通道不侷限於路由到VAD方塊104的一或多個通道。多通道擷取允許VAD方塊104在其懷疑存在有語音時中斷DSP 106,且它允許DSP 106後置處理多通道音頻(multi-channel audio),供別處的語音辨識之用,諸如在ASIC或主機上。
減少的數位音頻樣本124(此處有時稱為VAD接收的數位音頻信號)在樣本組合方塊108處被組合成例如單聲道8 ksps流。樣本組合方塊108可以例如選擇減少的數位音頻信號124的一個通道並從所選擇的通道採取每隔一個樣本。為了組合樣本,樣本組合方塊108可以替代地或者亦具有具延遲元件及線性組合電路的波束成形能力。不管樣本組合方塊108所使用的方法如何,結果都是組合數位音頻信號125,其具有比由降頻濾波器102所產生的減少的數位音頻樣本124更低的取樣率。
振幅VAD方塊109藉由分析來自樣本組合方塊108的結果來確定組合數位音頻信號125的振幅。
控制方塊111判定頻譜分析方塊110是否被觸發、VAD中斷信號(語音活動檢測器中斷信號)116是否被發送到DSP 106的語音辨識模組105以開始語音辨識、或兩者皆非。換言之,控制方塊111基於振幅VAD方塊109的輸出來判定是否具有足夠的資訊來確定是否提升VAD中斷信號116。如果它沒有足夠的資訊,則控制方塊111觸發頻譜分析方塊110提供額外資訊。舉例來說,控制方塊111可以包括信號振幅的低通濾波器及二個比較器。相較於具有相對上閾值的二個比較器中的第二個相比,二個比較器中的第一個可以具有相對低的閾值。若由振幅VAD方塊109所確定的信號振幅超過下閾值而不是上閾值,則控制方塊111決定頻譜分析方塊110將被啟動。若信號振幅超過上閾值,則控制方塊111可決定產生VAD中斷信號116,而不管來自頻譜分析方塊110的頻譜VAD判定。或者,如果信號振幅超過上閾值,則控制方塊111可決定產生VAD中斷信號116且不啟動頻譜分析方塊110。然而,若由振幅VAD方塊109所確定的信號振幅沒有超過下閾值,則控制方塊111決定VAD中斷信號116將不會被產生且不會啟動頻譜分析方塊110。
舉例來說,當到ADC 101的類比音頻輸入122具有足夠低的音量時,其信號振幅(由來自組合數位音頻信號125的振幅VAD方塊109確定)將不會超過控制方塊111的下閾值。因此,控制方塊111既不會觸發頻譜分析方塊110也不會產生VAD中斷信號116。然而,若類比音頻輸入122足夠大聲,則其由組合數位音頻信號125所確定的信號振幅將超過控制方塊111的上閾值。因此,控制方塊111將產生VAD中斷信號116以發信號給DSP 106的語音辨識模組105以進入以下針對圖4描述的語音辨識狀態407。否則,若類比音頻輸入122的信號振幅超過下閾值而不是上閾值,則控制方塊111啟動頻譜分析方塊110並等待在確定是否產生VAD中斷信號116之前的那些結果。
來自樣本組合方塊108的組合數位音頻信號125被儲存在VAD RAM 112中。此基本上可與亦在振幅VAD方塊109處被接收的組合數位音頻信號125同時發生。VAD RAM 112可以是例如1024字,20位元的RAM。在此示例配置中,VAD RAM 112的512個字可以被用作為用於原地(in-place)256點FFT的FFT工作記憶體。因此,VAD RAM 112的256個字可以用於儲存輸入樣本,且VAD RAM 112的256個字可以用於儲存256個頻率倉(frequency bin)的頻譜振幅。此只是一個示例配置,但是,也可以使用其他配置。
FFT方塊113執行儲存在VAD RAM 112中的組合數位音頻信號125的快速傅立葉轉換。作為示例實作,FFT可以是256點FFT且由8個基數-2(radix-2)FFT階所組成。FFT方塊113可以將每個頻率倉的結果功率寫入VAD RAM 112。以8 ksps取樣及256點FFT的示例為例,FFT會每32 ms(毫秒)執行一次。換言之,在此示例中,FFT窗大小是32 ms。
頻譜LPF 114計算,其中x是最後一級FFT結果的大小;y是對應頻率倉的儲存頻譜振幅;N是平滑因數,其可以減小隨機雜訊的影響;y'是y的新更新的值。頻譜LPF 114亦可包括累加器,該累加器對頻譜振幅進行求和以計算平均振幅。
當被控制方塊111啟動時,頻譜分析方塊110判定控制方塊111是否應藉由使用頻譜LPF 114的結果來產生VAD中斷信號116。該判定利用語音信號具有多個諧波的情況,該等語音信號包括作為類比音頻輸入122的一部分的語音命令。具體來說,在來自VAD RAM 112的組合數位音頻信號125通過FFT方塊113及頻譜LPF 114之後,將每個頻率的結果頻譜振幅除以由FFT所產生的所有頻率倉的平均振幅。如於本發明中所使用的,給定頻率的頻譜振幅與所有頻率倉的平均振幅的比率被稱為相對振幅。
作為一個示例方法,頻譜VAD方塊115對具有高於某一特定閾值的相對振幅的頻率倉的數量進行計數。較佳地,此高振幅閾值在大約1.5倍與大約五倍的平均振幅之間。較佳地,此高振幅閾值在大約兩倍與大約四倍的平均振幅之間。甚至較佳地,高振幅閾值大約是平均振幅的三倍。如果高振幅倉計數超過特定量(在此稱為倉計數閾值),則頻譜VAD方塊115判定控制方塊111應該產生VAD中斷信號116。較佳地,此倉計數閾值是在大約兩個與大約十五個倉之間。較佳地,倉計數閾值在大約三個與大約十二個倉之間。甚至較佳地,倉計數閾值在大約五個與大約十個倉之間。
作為另一示例方法,為判定控制方塊111是否應該產生VAD中斷信號116,頻譜VAD方塊115評估峰值距離。在這種情況下,峰值倉的振幅高於其鄰居且頻率倉的相對振幅高於閾值。較佳地,此相對振幅閾值在大約1.5倍與大約五倍的平均振幅之間。較佳地,相對振幅閾值在大約兩倍與大約四倍的平均振幅之間。甚至較佳地,相對振幅閾值是大約三倍的平均振幅。如果第一峰值倉(即具有最低頻率的峰值倉)與最後峰值倉(即,具有最高頻率的峰值倉)之間的距離超過一特定值,則頻譜VAD區方塊115判定控制區方塊111應產生VAD中斷信號116。較佳地,此峰值距離閾值在大約0.5kHz與大約5kHz之間。較佳地,峰值距離閾值在大約1 kHz與大約3 kHz之間。甚至較佳地,峰值距離閾值為約2 kHz。
頻譜VAD方塊115可以使用所描述的示例方法中的任一或二者。亦可以使用其他類似的方法。較佳地,高振幅閾值、倉計數閾值、相對振幅閾值及峰值距離閾值各自為諸如例如透過用戶界面之用戶可編程的。
頻譜VAD方塊115還可以確定頻率倉中的最高峰值振幅和最高峰值的位置(即哪個頻率倉具有最高峰值)。如果最高峰值振幅及其位置在一特定時間間隔(諸如兩秒或更長時間)內不變化,則類比音頻輸入122可能包括固定音調雜訊,諸如飛機機艙內的背景雜訊。因此,確定最高峰值振幅及其位置使頻譜VAD能夠篩選固定音調雜訊。當被篩選出來時,當頻譜VAD方塊115判定控制方塊111是否應產生VAD中斷信號116時,不包括固定音調雜訊。
圖3是來自人類語音的音頻信號的示例圖,其中垂直軸代表信號振幅且水平軸代表時間。如圖3所示,例如由ADC 101接收的來話(incoming)語音命令300可以包括觸發片語301或關鍵片語、以及命令片語302以及觸發片語301與命令片語302之間稱為觸發片語之端點303的區域。命令片語302亦可以具有命令片語的端點304。觸發片語301可以是例如由用戶發出之旨在啟動智慧型個人助理或以其他方式提醒主機命令即將由用戶給出的片語。以目前的智慧型個人助理為例,觸發片語301可以是例如「OK Google」、「Hey Siri」、「Hello Jarvis」或「Hey Cortana」。命令片語302的例子是「今天的天氣怎麼樣?」。即使如此,語音命令300沒有必要包括觸發片句301和命令片句302。
回到圖1,VAD中斷信號116觸發DSP 106的語音辨識模組105進行語音辨識演算法。舉例來說,DSP 106可能有三個階段的語音辨識:具有靜音檢測(silence detection)的VAD磁滯;具有靜音檢測的語音辨識關鍵片語剖析1x;以及透過關鍵片語剖析> 1x、主機傳輸及靜音檢測的軟體活動檢測。
在具有靜音檢測的VAD磁滯中,語音辨識模組105透過VAD方塊104建立硬體VAD判定的較長期磁滯。例如,可以在超過FFT窗大小的項上構建磁滯。作為一種可能實作的例子,在上述8 ksps樣本和256點FFT的例子中,FFT窗大小為32ms。因此,硬體VAD決定的磁滯可建立在比32ms窗長數倍的項上。例如,磁滯可以針對一個至少比FFT窗長兩倍的項而建立。較佳地,該項是FFT窗大小的五到十倍。使用靜音檢測,語音辨識模組105確定分析的訊框是否包含語音信號。若否,則該訊框被視為靜音訊框。
在具有靜音檢測的語音辨識關鍵片語剖析1x中,語音辨識模組105剖析所分析的訊框以尋找觸發片語301,而語音辨識模組105亦執行如上所述的靜音檢測。
在使用關鍵片語剖析> 1x、主機傳輸及靜音檢測的軟體活動檢測中,語音辨識模組105針對觸發片語301剖析所分析的訊框,而語音辨識模組105亦執行靜音檢測如上所述。另外,當觸發片語301被檢測或辨識時,語音辨識模組105可以將語音命令資訊傳送給主機。例如,語音命令資訊可以是觸發片語301或與觸發片語301相對應的信號、命令片語302或相對於命令片語302的信號、或者給主機的一些其他命令以回應檢測到的觸發片語301或此等任何組合來作用。
通常以比關鍵片語剖析1x更快的處理速度來執行關鍵片語剖析> 1x。舉例來說,關鍵片語剖析1x可以由以12 MHz操作的DSP 106來執行,而關鍵片語剖析> 1x可以由以大於12 MHz,例如高達98 MHz,的速度操作的DSP 106來執行。這在下文關於時脈系統107加以描述。較快的處理速度可以例如使剖析程序及時趕上語音RAM 103的循環緩衝器的指針。
圖4是顯示語音辨識模組(例如圖1中所示的DSP 106的語音辨識模組105)的示例程序400的流程圖。語音辨識模組以軟體VAD狀態401開始。接下來,語音辨識模組確定402所分析的訊框是否是靜音訊框(silence frame),意指該訊框不包含語音信號。若該訊框不是靜音訊框,則該程序轉移到語音辨識狀態,其將詳述於下。若該訊框是靜音訊框,則該程序確定403是否存在有靜音逾時。舉例來說,如果循環緩衝區被充填以靜音訊框或者若滿足靜音磁滯(silence hysteresis)閾值,則可能發生靜音逾時。較佳地,靜音磁滯閾值是用戶可編程的。若不存在有靜音逾時(timeout),則程序返回到軟體VAD狀態401。若存在有靜音逾時,則程序進行到暫停狀態404,其中DSP保持閒置,直到它接收到來自VAD方塊104的VAD中斷信號116。當語音辨識模組從VAD方塊104接收405 VAD中斷信號116時,DSP離開閒置狀態並進入諸如12 MHz模式的更活動模式406。該程序接著轉移到完整的語音辨識狀態407。
在語音辨識狀態407中,DSP 106的語音辨識模組105剖析(408)所分析的訊框以尋找觸發片語301。因此,方塊408代表軟體VAD決定。若觸發片語被辨識,則該程序開放(409)到主機的語音連接鏈路,以將語音命令資訊傳送到主機以供進一步處理或回應於觸發片語301而動作。如上所述,語音命令資訊可以是發送給主機的命令片語302。如果觸發片語未被辨識,則該程序返回到軟體VAD狀態401並如上所述地繼續。換言之,語音辨識模組確定402分析的訊框是否是如上所述的靜音訊框。若程序確定403發生了靜音逾時,則在語音辨識狀態407期間開始的語音辨識將隨著程序進行到暫停狀態404而停止操作以等待來自VAD方塊104的VAD中斷信號116,如上所述。
因此,軟體VAD狀態401藉由VAD方塊104建立硬體VAD判定的較長期磁滯。所描述的實作可以是多數投票判定系統,而且可以如上述地僅用硬體VAD判定來工作,如以上針對圖1的VAD方塊104的描述,或者該實作可以將其他基於訊框的檢測併到軟體中。
當系統正在聽取時,語音樣本正被儲存到循環緩衝器或FIFO中,例如上面針對圖1所討論的語音RAM 103。在軟體中以每訊框為基礎讀取FIFO或歷史緩衝器。視模式而定,FIFO的深度可能會有所不同。該軟體被構造為盡可能多地消耗資料,並且偶爾會根據狀態動態調節DSP 106。例如,在等待軟體VAD事件時,由於所使用的演算法不需要大量的周期,所以DSP速度可能相當低。但是當檢測到足夠的話音活動以證明運作完整的話音辨識狀態407時,可以增加DSP速度。
軟體中的基於訊框的判定可能會引入相對於來自ADC 101的即時樣本的少量延遲。軟體必須讀入FIFO並從該點追溯地操作語音辨識演算法語音命令300首先被檢測到。DSP速度也可以增加到「趕上(catch up)」即時,並且一旦未完成訊框的數量低於界定的閾值,DSP速度就會降低。例如,當未完成訊框的數量回到一時,DSP可能視為即時「趕上」。
當語音辨識狀態407和剖析狀態408辨識觸發片語時,系統可進行端點演算法來檢測觸發片語的端點,諸如圖3中所示的端點303,然後丟棄所有資料於觸發片語結束之前、或取決於以及包括觸發片語的結束。此允許系統清除一定數量的FIFO,然後重新調整FIFO記憶體的儲存空間以供一次性檢測,如下所述。系統繼續使用軟體VAD判定來確定在第一次語音辨識之後用戶是否繼續講話,同時緩衝FIFO中的樣本。
在稱為一次性(one-shot)檢測的特徵中,使用連續語音剖析來確定用戶在發出觸發片語301之後是否繼續說話。因此,針對單發檢測,系統緩衝資料以負責開放在檢測到觸發片語301之後到主機的語音連接。軟體VAD判定允許系統確定用戶是否曾在一次性逾時範圍以內(在檢測到觸發片語之後的特定時間段)說話,而且還可以用於在觸發片語301被檢測到之後丟棄一定量的前導(leading)靜音。以此方式,可以吸收延遲。而且,一旦檢測到一次性片語的端點,語音RAM 103中的任何無關樣本將被丟棄或被假定為靜音。在這種情況下,一次性片語意味著檢測到的觸發片語301加上一次性逾時範圍以內的任何額外語音,例如像是命令片語302。因此,用於與諸如智慧型個人助理的主機互動的任何後續語音封包,實質上可以被即時趕上,使得互動更加的會話式。
如上所述,時脈系統107包括多個時脈產生機構。時脈產生機構最好消耗不同的電流量以產生時脈且為非同步的。舉例來說,第一時脈產生機構或休眠模式時脈機構可在沒有晶體振盪器操作下利用鎖相迴路(PLL)電路來產生例如12.288 MHz的時脈。作為另一個例子,第二時脈產生機構或低功率時脈機構可以在晶體振盪器操作下利用PLL電路產生例如12.288 MHz的時脈。第三時脈產生機構或高功率時脈機構可利用第二時脈產生機構來導出例如高達98MHz的時脈。如此處所描述,第一時脈產生機構比第二時脈產生機構具有更低的電流消耗,且第二時脈產生機構具有比第三時脈產生機構更低的電流消耗。類似地,第三時脈產生機構比第二時脈產生機構更快,且第二時脈產生機構比第一時脈產生機構更強健(robust)。
時脈系統107被配置為在可用時脈產生機構之間切換。因此,為了降低電流消耗,可以使用第一時脈產生機構來取代第二時脈產生機構或第三時脈產生機構。類似地,可以使用第二時脈產生機構來取代第三時脈產生機構以降低電流消耗。因此,舉例來說,當VAD方塊104為現用但DSP 106未進行語音辨識演算法時,可以使用第一時脈產生機構。舉例來說,當DSP 106已接收到來自VAD方塊104的VAD中斷信號116之後正在進行語音辨識演算法時,可以使用第二時脈產生機構。而且舉例來說,當需要或期望更高的處理速度時,可以使用第三時脈產生機構。此可存在於,例如,當程序開放到主機的語音連接鏈接時,以> 1x關鍵片語剖析模式操作時,或者當語音辨識演算法需要更多周期在1x關鍵片語剖析模式操作時。亦可以使用其他配置。由於數位音頻邏輯一般操作於12 MHz,因此可以使用任何此等示例時脈。
當時脈系統107在時脈產生機構之間切換時,其最好同時針對包括DSP 106、語音RAM 103、VAD方塊104、降頻濾波器102以及ADC 101的整個語音命令檢測及擷取系統100切換。由於ADC 101資料速率是12.288 MHz源的分數,12.288 MHz源切換於分數時脈的特定相位。
圖5中顯示時脈切換事件的示例,其中,示例性切換事件由箭頭517來標記。如圖5所示,當在目前非同步時脈源與新非同步時脈源之間切換時,諸如時脈系統107的時脈系統可以在特定階段有效地停止目前時脈源並等待新時脈源的邊緣。此允許時脈系統在時脈產生機構的特定階段切換於時脈源之間。因此,時脈系統提供不同時脈速率之間的時脈邊緣對齊。
非同步時脈源之間的切換允許相對較低功率的時脈被用於一些特徵或者在系統的某些情況下,且更高品質的時脈被用於其他特徵或在其他情況下。此外,針對系統的所有態樣同時切換時脈源允許在時脈切換的時刻僅透過錯過的樣本時間引入連續的樣本擷取。
如上所述,低功率隨時聽取語音命令檢測及擷取系統100包括多個離散的操作狀態。再參見圖1,作為一個示例實作,六個示例操作狀態可以以增加電流消耗的順序描述如下。 示例操作狀態
示例操作狀態1:休眠模式等待硬體振幅觸發
在這種狀態下,ADC 101比較電位,但不針對VAD方塊104或語音RAM 103產生樣本。當音頻活動的電位超過指定的最小電位時,喚醒電路118觸發ADC的其餘部分101來產生樣本。如上所述,當ADC 101處於此電位比較模式時,ADC 101的轉換器部分可能沒有汲取任何電力。於是,VAD方塊104及語音RAM 103是非現用的。時脈處於休眠模式,且DSP 106閒置。
示例操作狀態2:等待硬體振幅語音觸發的隨時聽取狀態
在這種狀態下,ADC 101從類比音頻輸入122產生用於VAD方塊104及語音RAM 103的樣本。語音RAM 103將樣本寫入其循環緩衝器。時脈處於低功耗模式,且DSP 106閒置。VAD方塊104處於振幅檢測模式,意指振幅VAD方塊109是現用的。因此,返回到上述用於控制方塊111的操作的示例,到ADC 101的類比音頻輸入122的信號振幅不會超過控制方塊111的下閾值。因此,控制方塊111既不觸發頻譜分析方塊110,也不產生VAD中斷信號116。
示例操作狀態3:等待硬體頻譜語音觸發的隨時聽取狀態
在這種狀態下,ADC 101從類比音頻輸入122產生用於VAD方塊104及語音RAM 103的樣本。語音RAM 103將樣本寫入其循環緩衝器。時脈處於低功耗模式,並且DSP 106閒置。VAD方塊104處於頻譜檢測模式,意指頻譜分析方塊110是現用的。因此,返回到上述用於控制方塊111的操作的示例,到ADC 101的類比音頻輸入122的信號振幅超過控制方塊111的下閾值而不是上閾值。因此,控制方塊111啟動頻譜分析方塊110並等待那些結果。
示例操作狀態4:低電流語音檢測
在這種狀態下,ADC 101從類比音頻輸入122產生用於VAD方塊104及語音RAM 103的樣本。語音RAM 103將樣本寫入其循環緩衝器,且時脈處於低功率模式。VAD方塊104處於頻譜檢測模式或振幅檢測模式。因此,返回到上述用於控制方塊111的操作的示例,到ADC 101的類比音頻輸入122的信號振幅超過控制方塊111的下閾值及上閾值。因此,控制方塊111產生VAD中斷信號116,而不管來自頻譜分析方塊110的頻譜VAD判定。DSP 106處於具有靜音檢測的VAD磁滯模式,意指,例如,DSP 106繼續進行由圖4所示之元件401-405所代表的程序。
示例操作狀態5:低電流語音辨識
在這種狀態下,ADC 101從類比音頻輸入122產生用於VAD方塊104及語音RAM 103的樣本。語音RAM 103將樣本寫入其循環緩衝器,且DSP 106讀取緩衝器。時脈處於低功耗模式。如上所述,VAD方塊104處於頻譜檢測模式或振幅檢測模式,VAD方塊104已經產生VAD中斷信號116。DSP 106處於語音辨識狀態407,其中DSP 106的語音辨識演算法針對觸發片語301剖析所分析的訊框。因此,例如,DSP 106繼續執行由圖4所示的元件401-408所代表的程序,包括利用元件408處產生「否」判定的靜音檢測。
示例操作狀態6:低電流語音命令處理
在這種狀態下,ADC 101從類比音頻輸入122產生用於VAD方塊104及語音RAM 103的樣本。語音RAM 103將樣本寫入其循環緩衝器,且由DSP 106讀取緩衝器。時脈處於高功耗模式。如上所述,VAD方塊104處於頻譜檢測模式或振幅檢測模式。DSP 106的語音辨識演算法利用在圖4的元件408處產生的「是」決定來剖析所分析的訊框以尋找觸發片語301。因此,例如,DSP 106繼續進行由圖4所示之元件401-409所代表的程序,包括靜音檢測。
在實施例中,這些操作狀態可以被獨立地啟用或禁用。因此,在這樣的實施例中,系統可以選擇使用全部或僅僅一些可用的操作狀態。例如,為了減少雜訊環境中的錯誤振幅觸發,系統可以選擇相對較高的狀態,諸如上述的操作狀態3、4、5或6,並避免相對較低的操作狀態,諸如上述的操作狀態1或2。而且,為了避免休眠且確保觸發片語301的開始被擷取且不被截斷(truncated),系統可以避免相對較低的操作狀態,諸如上述的操作狀態1。另一方面,為了減少電流消耗,系統可以在相對較高的操作狀態下選擇相對較低的狀態,例如上述的操作狀態1、2、3、4或5。 說明性的示例
以下提供所揭示的技術的說明性示例。這些技術的實施例可以包括以下描述的示例中的一或多個以及任何組合。
示例1包括用於檢測及擷取語音命令的系統,該系統包括語音活動檢測器(VAD),該語音活動檢測器被配置用以:接收VAD接收的數位音頻信號;確定VAD接收的數位音頻信號的振幅;將VAD接收的數位音頻信號的振幅與第一閾值及第二閾值進行比較;當VAD接收的數位音頻信號的振幅不超過第一閾值或第二閾值時,不提供VAD中斷信號;當VAD接收的數位音頻信號的振幅超過第一閾值及第二閾值時,產生VAD中斷信號;以及當VAD接收的數位音頻信號的振幅在第一閾值與第二閾值之間時,執行VAD接收的數位音頻信號的頻譜分析。
示例2包括示例1的系統,還包括被配置用以接收類比音頻輸入的類比數位轉換器(ADC),該ADC具有轉換器部分,該轉換器部分被配置用以從該類比音頻輸入以ADC取樣率產生數位音頻信號。
示例3包括示例2的系統,其中,該ADC包括喚醒電路,該喚醒電路被配置用以:確定該類比音頻輸入是否具有音頻活動的發作位準;且當該類比音頻輸入不具有音頻活動的該發作位準時,將ADC置於休眠模式,在該模式中,該ADC的轉換器部分不產生數位音頻信號;且當該類比音頻輸入具有音頻活動的發作位準時,將該ADC置於現用模式,在該模式中,該ADC的轉換器部分產生數位音頻信號。
示例4包括示例3的系統,其中,為確定該類比音頻輸入是否具有音頻活動的發作位準,該喚醒電路被配置用以將該類比音頻輸入與喚醒發作閾值進行比較。
示例5包括示例3-4中任一者的系統,其中,該喚醒電路包括:音頻前置放大器增益級,被配置用以增強該類比音頻輸入;以及比較器級,被配置用以將該增強的類比音頻輸入與指示音頻活動的發作位準的喚醒發作閾值進行比較。
示例6包括示例3-5中任一者的系統,其中,當該ADC處於該休眠模式時,該ADC的該轉換器部分未被供電,且其中,當該ADC處於該現用模式時,該ADC的該轉換器部分被供電。
示例7包括示例2-6中任一者的系統,還包括在該ADC與該VAD之間的降頻濾波器,該降頻濾波器被配置用以接收數位音頻信號並處理該數位音頻信號以產生具有降低的取樣率的降低的數位音頻樣本,該降低的取樣率低於該ADC取樣率。
示例8包括示例1-7中任一者的系統,其中,該VAD包括:樣本組合方塊,被配置用以接收具有取樣率的該VAD接收的數位音頻信號作為輸入並處理該VAD接收的數位音頻信號以產生具有振幅的組合數位音頻信號,該組合數位音頻信號具有低於該VAD接收的數位音頻信號之該取樣率的取樣率;振幅VAD方塊,被配置用以確定該組合數位音頻信號的振幅;頻譜分析方塊,被配置用以執行該VAD接收的數位音頻信號的頻譜分析;以及包含二比較器的控制方塊,該控制方塊被配置用以:將該VAD接收的數位音頻信號的該振幅與第一閾值及第二閾值比較,不提供VAD中斷信號,且當該VAD接收的數位音頻信號的該振幅不超過該第一閾值或該第二閾值時啟動該頻譜分析方塊,以及當該VAD接收的數位音頻信號的該振幅超過該第一閾值及該第二閾值時產生該VAD中斷信號。
示例9包括示例8的系統,其中,該頻譜分析方塊包括:VAD隨機存取記憶體(RAM),其被配置用以從該樣本組合方塊接收並儲存該組合數位音頻信號;快速傅立葉轉換(FFT)方塊,被配置用以對儲存在該VAD RAM中的該組合數位音頻信號執行FFT並輸出FFT結果;頻譜低通濾波器(LPF),其被配置用以確定該等FFT結果的平均振幅;以及頻譜VAD方塊,其被配置用以評估該頻譜LPF的結果並基於該頻譜LPF之該等結果的評估來對該控制方塊發信號以產生VAD中斷信號或繼續不提供VAD中斷信號。
示例10包括示例1-9中任一者的系統,還包括數位信號處理器(DSP),其被配置用以針對觸發片語從該VAD接收該VAD中斷信號並分析該VAD接收的數位音頻信號。
示例11包括示例10的系統,還包括語音隨機存取記憶體(RAM),其被配置用以以先進先出(FIFO)格式接收及儲存該VAD接收的數位音頻信號,該語音RAM被配置用以由DSP所存取。
示例12包括示例10-11中任一者的系統,還包括時脈系統,該時脈系統包含多個非同步時脈產生機構,該非同步時脈產生機構的每一者具有不同的電流消耗,該時脈系統被配置用以切換於該等非同步時脈產生機制之間。
示例13包括一種檢測及擷取語音命令的方法,包含:由語音活動檢測器(VAD)接收VAD接收的數位音頻信號;由該VAD確定該VAD接收的數位音頻信號的振幅;由該VAD將該VAD接收的數位音頻信號的該振幅與第一閾值及第二閾值進行比較;當該VAD接收的數位音頻信號的該振幅不超過該第一閾值或該第二閾值時,由該VAD不提供VAD中斷信號;當該VAD接收的數位音頻信號的該振幅超過該第一閾值及該第二閾值時,由該VAD產生該VAD中斷信號;以及當該VAD接收的數位音頻信號的該振幅在該第一閾值與該第二閾值之間時,由該VAD對該VAD接收的數位音頻信號進行頻譜分析。
示例14包括示例13的方法,還包括:由類比數位轉換器(ADC)接收類比音頻輸入;由喚醒電路確定該類比音頻輸入是否具有音頻活動的發作位準;以及當該類比音頻輸入不具有音頻活動的發作位準時,將該ADC置於休眠模式,在該模式中,該ADC的轉換器部分不產生數位音頻信號;以及當該類比音頻輸入具有音頻活動的發作位準時,將該ADC置於現用模式,其中,該ADC的轉換器部分從該類比音頻輸入以ADC取樣率產生數位音頻信號。
示例15包括示例14的方法,其中,由喚醒電路確定該類比音頻輸入是否具有音頻活動的發作位準包括將該類比音頻輸入與喚醒發作閾值比較。
示例16包括示例14-15中任一者的方法,還包括:當該ADC處於該休眠模式時,不供電(unpowering)給該ADC的該轉換器部分;以及在該ADC處於該現用模式中時為該ADC的該轉換器部分供電。
示例17包括示例14-16中任一者的方法,還包括:由數位信號處理器(DSP)從該VAD接收該VAD中斷信號;以及由該DSP分析該VAD接收的數位音頻信號以檢測觸發片語。
示例18包括示例13-17中任一者的方法,還包括透過語音隨機存取記憶體(RAM)接收及儲存以先進先出(FIFO)格式的該VAD接收的數位音頻信號。
示例19包括示例18的方法,還包括當該DSP檢測到觸發片語時,在該觸發片語的端點之前丟棄該語音RAM上的所有資料。
示例20包括示例17-19中任一者的方法,還包括:當該DSP檢測到觸發片語時,確定用戶在該觸發片語之後的預先指定的逾時時段期間是否曾講話。
所揭示的發明標的之先前描述的版本具有許多對於本領域具有通常技藝者而言已經描述或為顯而易見的優點。即使如此,所有此等優點或特徵在所揭示的裝置、系統或方法的所有版本中都非必需的。此外,本書面描述參照特定的特徵。應該理解的是,本說明書中的揭示內容包括那些特定特徵的所有可能的組合。例如,在特定態樣或實施例的上下文中揭示了特定特徵的情況下,在可能的範圍內,還可以在其他態樣和實施例的上下文中使用該特徵。
再者,本發明的實施例可以在特別創建的硬體上、在韌體、數位信號處理器上或在包括根據編程指令操作的處理器的專門編程的通用電腦上操作。本文使用的術語「處理器」旨在包括微處理器、微型電腦、ASIC及專用硬體控制器。本發明的一或多個態樣可以體現於電腦可用資料及電腦可執行指令中,諸如在由一或多個電腦(包括監視模組)或其他裝置執行的一個或多個程序模組中。通常,程序模組包括常式、程式、物件、組件、資料結構等,其在由電腦或其他裝置中的處理器所執行時執行特定的任務或實作特定的抽象資料類型。電腦可執行指令可以被儲存在諸如硬碟、光碟、可移式儲存媒體、固態記憶體、RAM等非暫態式電腦可讀媒體上。如將由熟於此技藝之人士所體認者,程式模組的功能可根據需要於各種實施例中組合或分配。此外,該功能可以全部或部分地以韌體或硬體等同物來實作,例如積體電路、現場可編程閘陣列(FPGA)等。可以使用特定的資料結構來更有效地實作本發明的一或多個態樣,且此種資料結構被考量於本文描述的電腦可執行指令和電腦可用資料的範圍內。
此外,在本申請案中使用術語「包括」及其語法等同物意指可選地存在其他組件、特徵、步驟、程序、操作等。例如,「包含」或「包含」組成A、B及C的物品可以僅包含組成A、B及C,或者其可以包含組成A、B及C以及一或多種其他組成。而且,當在本申請案中提到具有二或更多個定義的步驟或操作的方法時,所定義的步驟或操作可以以任何順序或同時執行,除非上下文排除了該些可能性。
另外,儘管為了說明的目的已經說明且描述本發明的特定實施例,但應該理解,可以在不脫離本發明的精神和範圍的情況下進行各種修改。因此,除了所附申請專利範圍之外,本發明不應受到限制。
100‧‧‧語音命令檢測及擷取系統
101‧‧‧類比數位轉換器(ADC)
102‧‧‧降頻濾波器
103‧‧‧語音RAM(語音隨機存取記憶體)
104‧‧‧語音活動檢測器(VAD)方塊
105‧‧‧語音辨識模組
106‧‧‧數位信號處理器(DSP)
107‧‧‧時脈系統
108‧‧‧樣本組合方塊
109‧‧‧振幅VAD(振幅語音活動檢測器)方塊
110‧‧‧頻譜分析方塊
111‧‧‧控制方塊
112‧‧‧VAD RAM (語音活動檢測器隨機存取記憶體)
113‧‧‧快速傅立葉轉換(FFT)方塊
114‧‧‧頻譜低通濾波器(頻譜LPF)
115‧‧‧頻譜VAD(頻譜語音活動檢測器)方塊
116‧‧‧VAD中斷信號(語音活動檢測器中斷信號)
118‧‧‧喚醒電路
119‧‧‧音頻前置放大器
120‧‧‧附加增益級
121‧‧‧比較器級
122‧‧‧類比音頻輸入
123‧‧‧數位音頻信號
124‧‧‧數位音頻樣本
125‧‧‧組合數位音頻信號
圖1是根據本發明實施例的語音命令檢測和及擷取系統的功能方塊圖。
圖2是可以被包括於圖1所示的語音辨識模組中的喚醒電路的電路圖。
圖3顯示來自人類語音的音頻信號的示例圖,其中,垂直軸代表信號振幅且水平軸代表時間。
圖4是顯示圖1所示的語音辨識模組的示例程序的流程圖。
圖5顯示根據語音命令檢測及擷取系統的特徵的時脈切換事件的示例。
在以下的詳細說明中,模式1xx的參考標號通常顯示於圖1及圖2中,而在圖3中,一般顯示3xx參考標號。類似地,4xx參考標號一般顯示於圖4中,且5xx參考標號一般顯示於圖5中。
Claims (19)
- 一種用於檢測及擷取語音命令的系統,該系統包含語音活動檢測器(VAD),該語音活動檢測器被配置用以: 接收VAD接收的數位音頻信號; 確定該VAD接收的數位音頻信號的振幅; 將該VAD接收的數位音頻信號的振幅與第一閾值及第二閾值進行比較; 當該VAD接收的數位音頻信號的該振幅不超過該第一閾值或該第二閾值時,不提供VAD中斷信號; 當該VAD接收的數位音頻信號的該振幅超過該第一閾值及該第二閾值時,產生該VAD中斷信號;以及 當該VAD接收的數位音頻信號的該振幅在該第一閾值與該第二閾值之間時,執行該VAD接收的數位音頻信號的頻譜分析。
- 如申請專利範圍第1項之系統,還包含被配置用以接收類比音頻輸入的類比數位轉換器(ADC),該ADC具有轉換器部分,該轉換器部分被配置用以從該類比音頻輸入以ADC取樣率產生數位音頻信號。
- 如申請專利範圍第2項之系統,其中,該ADC包括喚醒電路,該喚醒電路被配置用以: 確定該類比音頻輸入是否具有音頻活動的發作位準;且 當該類比音頻輸入不具有音頻活動的該發作位準時,將該ADC置於休眠模式,其中,該ADC的該轉換器部分不產生數位音頻信號;且 當該類比音頻輸入具有音頻活動的該發作位準時,將該ADC置於現用模式,其中,該ADC的該轉換器部分產生數位音頻信號。
- 如申請專利範圍第3項之系統,其中,為確定該類比音頻輸入是否具有音頻活動的發作位準,該喚醒電路被配置用以將該類比音頻輸入與喚醒發作閾值進行比較。
- 如申請專利範圍第3項之系統,其中,該喚醒電路包含: 音頻前置放大器增益級,被配置用以增強該類比音頻輸入;以及 比較器級,被配置用以將該增強的類比音頻輸入與指示音頻活動的該發作位準的喚醒發作閾值進行比較。
- 如申請專利範圍第3項之系統,其中,當該ADC處於該休眠模式時,該ADC的該轉換器部分未被供電,且其中,當該ADC處於該現用模式時,該ADC的該轉換器部分被供電。
- 如申請專利範圍第2項之系統,還包括在該ADC與該VAD之間的降頻濾波器,該降頻濾波器被配置用以接收該數位音頻信號並處理該數位音頻信號以產生具有降低的取樣率的降低的數位音頻樣本,該降低的取樣率低於該ADC取樣率。
- 如申請專利範圍第1項之系統,其中,該VAD包含: 樣本組合方塊,被配置用以接收具有取樣率的該VAD接收的數位音頻信號作為輸入並處理該VAD接收的數位音頻信號以產生具有振幅的組合數位音頻信號,該組合數位音頻信號具有低於該VAD接收的數位音頻信號之該取樣率的取樣率; 振幅VAD方塊,被配置用以確定該組合數位音頻信號的振幅; 頻譜分析方塊,被配置用以執行該VAD接收的數位音頻信號的頻譜分析;以及 控制方塊,包含二比較器,該控制方塊被配置用以: 將該VAD接收的數位音頻信號的該振幅與第一閾值及第二閾值比較, 不提供VAD中斷信號,且當該VAD接收的數位音頻信號的該振幅不超過該第一閾值或該第二閾值時啟動該頻譜分析方塊,以及 當該VAD接收的數位音頻信號的該振幅超過該第一閾值及該第二閾值時產生該VAD中斷信號。
- 如申請專利範圍第8項之系統,其中,該頻譜分析方塊包含: VAD隨機存取記憶體(RAM),被配置用以從該樣本組合方塊接收並儲存該組合數位音頻信號; 快速傅立葉轉換(FFT)方塊,被配置用以對儲存在該VAD RAM中的該組合數位音頻信號執行FFT並輸出FFT結果; 頻譜低通濾波器(LPF),被配置用以確定該等FFT結果的平均振幅;以及 頻譜VAD方塊,被配置用以評估該頻譜LPF的結果並基於該頻譜LPF之該等結果的評估來對該控制方塊發信號以產生VAD中斷信號或繼續不提供VAD中斷信號。
- 如申請專利範圍第1項之系統,還包括數位信號處理器(DSP),其被配置用以針對觸發片語從該VAD接收該VAD中斷信號並分析該VAD接收的數位音頻信號。
- 如申請專利範圍第10項之系統,還包含語音隨機存取記憶體(RAM),其被配置用以以先進先出(FIFO)格式接收及儲存該VAD接收的數位音頻信號,該語音RAM被配置用以由該DSP所存取。
- 如申請專利範圍第10項之系統,還包含時脈系統,該時脈系統包含多個非同步時脈產生機構,該非同步時脈產生機構的每一者具有不同的電流消耗,該時脈系統被配置用以切換於該等非同步時脈產生機制之間。
- 一種檢測及擷取語音命令的方法,包含: 由語音活動檢測器(VAD)接收VAD接收的數位音頻信號; 由該VAD確定該VAD接收的數位音頻信號的振幅; 由該VAD將該VAD接收的數位音頻信號的該振幅與第一閾值及第二閾值進行比較; 當該VAD接收的數位音頻信號的該振幅不超過該第一閾值或該第二閾值時,由該VAD不提供VAD中斷信號; 當該VAD接收的數位音頻信號的該振幅超過該第一閾值及該第二閾值時,由該VAD產生VAD中斷信號;以及 當該VAD接收的數位音頻信號的該振幅在該第一閾值與該第二閾值之間時,由該VAD對該VAD接收的數位音頻信號進行頻譜分析。
- 如申請專利範圍第13項之方法, 還包含: 由類比數位轉換器(ADC)接收類比音頻輸入; 由喚醒電路確定該類比音頻輸入是否具有音頻活動的發作位準;以及 當該類比音頻輸入不具有音頻活動的發作位準時,將該ADC置於休眠模式,其中,該ADC的該轉換器部分不產生數位音頻信號;以及 當該類比音頻輸入具有音頻活動的該發作位準時,將該ADC置於現用模式,其中,該ADC的轉換器部分從該類比音頻輸入以ADC取樣率產生數位音頻信號。
- 如申請專利範圍第14項之方法,其中,由喚醒電路確定該類比音頻輸入是否具有音頻活動的發作位準包含將該類比音頻輸入與喚醒發作閾值比較。
- 如申請專利範圍第14項之方法,還包含: 當該ADC處於該休眠模式時,不供電給該ADC的該轉換器部分;以及 在該ADC處於該現用模式中時為該ADC的該轉換器部分供電。
- 如申請專利範圍第14項之方法,還包含: 由數位信號處理器(DSP)從該VAD接收該VAD中斷信號;以及 由該DSP分析該VAD接收的數位音頻信號以檢測觸發片語。
- 如申請專利範圍第17項之方法,還包括透過語音隨機存取記憶體(RAM)接收及儲存以先進先出(FIFO)格式的該VAD接收的數位音頻信號,且當該DSP檢測到觸發片語時,在該觸發片語的端點之前丟棄該語音RAM上的所有資料。
- 如申請專利範圍第17項之方法,還包括:當該DSP檢測到觸發片語時,確定用戶在該觸發片語之後的預先指定的逾時時段期間是否曾講話。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662437598P | 2016-12-21 | 2016-12-21 | |
US62/437,598 | 2016-12-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201835895A true TW201835895A (zh) | 2018-10-01 |
Family
ID=62562629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106144833A TW201835895A (zh) | 2016-12-21 | 2017-12-20 | 低功率隨時聽取語音命令的檢測及擷取 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10403279B2 (zh) |
JP (1) | JP7129422B2 (zh) |
KR (1) | KR102501601B1 (zh) |
CN (1) | CN110520927A (zh) |
DE (1) | DE112017006411T5 (zh) |
GB (1) | GB2573424B (zh) |
TW (1) | TW201835895A (zh) |
WO (1) | WO2018119138A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890104A (zh) * | 2019-11-26 | 2020-03-17 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7337699B2 (ja) * | 2017-03-23 | 2023-09-04 | ジョイソン セイフティ システムズ アクイジション エルエルシー | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 |
US11189273B2 (en) * | 2017-06-29 | 2021-11-30 | Amazon Technologies, Inc. | Hands free always on near field wakeword solution |
CN110800045B (zh) * | 2017-10-24 | 2024-09-20 | 北京嘀嘀无限科技发展有限公司 | 用于不间断应用唤醒和语音识别的系统和方法 |
CN107808670B (zh) * | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
US10916252B2 (en) * | 2017-11-10 | 2021-02-09 | Nvidia Corporation | Accelerated data transfer for latency reduction and real-time processing |
US20190237067A1 (en) * | 2018-01-31 | 2019-08-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-channel voice recognition for a vehicle environment |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
DE102018212902A1 (de) * | 2018-08-02 | 2020-02-06 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug |
US10861457B2 (en) * | 2018-10-26 | 2020-12-08 | Ford Global Technologies, Llc | Vehicle digital assistant authentication |
CN112740321A (zh) * | 2018-11-20 | 2021-04-30 | 深圳市欢太科技有限公司 | 唤醒设备的方法、装置、存储介质及电子设备 |
CN111261143B (zh) * | 2018-12-03 | 2024-03-22 | 嘉楠明芯(北京)科技有限公司 | 一种语音唤醒方法、装置及计算机可读存储介质 |
TWI713016B (zh) * | 2019-01-03 | 2020-12-11 | 瑞昱半導體股份有限公司 | 語音偵測處理系統與語音偵測方法 |
CN111414071B (zh) * | 2019-01-07 | 2021-11-02 | 瑞昱半导体股份有限公司 | 处理系统与语音检测方法 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
US11650625B1 (en) * | 2019-06-28 | 2023-05-16 | Amazon Technologies, Inc. | Multi-sensor wearable device with audio processing |
CN110196914B (zh) * | 2019-07-29 | 2019-12-27 | 上海肇观电子科技有限公司 | 一种将人脸信息录入数据库的方法和装置 |
US11380321B2 (en) | 2019-08-01 | 2022-07-05 | Semiconductor Components Industries, Llc | Methods and apparatus for a voice detector |
KR20210112726A (ko) * | 2020-03-06 | 2021-09-15 | 엘지전자 주식회사 | 차량의 좌석별로 대화형 비서를 제공하는 방법 |
CN111816216A (zh) * | 2020-08-25 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音活性检测方法和装置 |
CN112382312A (zh) * | 2020-09-23 | 2021-02-19 | 福建信通慧安科技有限公司 | 目标探测器及目标探测方法 |
KR20220059629A (ko) * | 2020-11-03 | 2022-05-10 | 현대자동차주식회사 | 차량 및 그의 제어방법 |
US12086501B2 (en) * | 2020-12-09 | 2024-09-10 | Cerence Operating Company | Automotive infotainment system with spatially-cognizant applications that interact with a speech interface |
US20220208185A1 (en) * | 2020-12-24 | 2022-06-30 | Cerence Operating Company | Speech Dialog System for Multiple Passengers in a Car |
CN113470660A (zh) * | 2021-05-31 | 2021-10-01 | 翱捷科技(深圳)有限公司 | 一种基于路由器流量的语音唤醒阈值调整方法及系统 |
CN114125676A (zh) * | 2022-01-10 | 2022-03-01 | 苏州芯仪微电子科技有限公司 | 信号处理asic电路及微机电系统骨振动传感器 |
CN115019835A (zh) * | 2022-05-27 | 2022-09-06 | 江西省天轴通讯有限公司 | 一种设备智能管理方法、系统、存储介质及设备 |
CN115547312B (zh) * | 2022-11-30 | 2023-03-21 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61156298A (ja) * | 1984-12-28 | 1986-07-15 | 日本電気株式会社 | 時定数を変動させる可変閾値型音声検出器 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US7031916B2 (en) | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
US7606330B2 (en) * | 2002-09-27 | 2009-10-20 | Broadcom Corporation | Dual-rate single band communication system |
CN100548060C (zh) | 2006-02-06 | 2009-10-07 | 海信集团有限公司 | Tetra集群手机语音处理方法 |
US8311814B2 (en) * | 2006-09-19 | 2012-11-13 | Avaya Inc. | Efficient voice activity detector to detect fixed power signals |
WO2010078386A1 (en) * | 2008-12-30 | 2010-07-08 | Raymond Koverzin | Power-optimized wireless communications device |
KR20160036104A (ko) * | 2011-12-07 | 2016-04-01 | 퀄컴 인코포레이티드 | 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로 |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
CN103578470B (zh) * | 2012-08-09 | 2019-10-18 | 科大讯飞股份有限公司 | 一种电话录音数据的处理方法及系统 |
KR20240132105A (ko) * | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
US20150356982A1 (en) * | 2013-09-25 | 2015-12-10 | Robert Bosch Gmbh | Speech detection circuit and method |
US10133332B2 (en) * | 2014-03-31 | 2018-11-20 | Intel Corporation | Location aware power management scheme for always-on-always-listen voice recognition system |
TWI569263B (zh) | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
-
2017
- 2017-09-15 US US15/706,178 patent/US10403279B2/en active Active
- 2017-12-20 GB GB1909295.6A patent/GB2573424B/en active Active
- 2017-12-20 WO PCT/US2017/067712 patent/WO2018119138A1/en active Application Filing
- 2017-12-20 KR KR1020197021179A patent/KR102501601B1/ko active IP Right Grant
- 2017-12-20 CN CN201780086471.0A patent/CN110520927A/zh active Pending
- 2017-12-20 JP JP2019555430A patent/JP7129422B2/ja active Active
- 2017-12-20 DE DE112017006411.2T patent/DE112017006411T5/de active Pending
- 2017-12-20 TW TW106144833A patent/TW201835895A/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890104A (zh) * | 2019-11-26 | 2020-03-17 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
CN110890104B (zh) * | 2019-11-26 | 2022-05-03 | 思必驰科技股份有限公司 | 语音端点检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110520927A (zh) | 2019-11-29 |
GB201909295D0 (en) | 2019-08-14 |
GB2573424B (en) | 2022-06-29 |
WO2018119138A1 (en) | 2018-06-28 |
KR102501601B1 (ko) | 2023-02-17 |
GB2573424A (en) | 2019-11-06 |
US20180174583A1 (en) | 2018-06-21 |
US10403279B2 (en) | 2019-09-03 |
DE112017006411T5 (de) | 2019-09-05 |
KR20190100270A (ko) | 2019-08-28 |
JP2020502593A (ja) | 2020-01-23 |
JP7129422B2 (ja) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201835895A (zh) | 低功率隨時聽取語音命令的檢測及擷取 | |
US9959865B2 (en) | Information processing method with voice recognition | |
US10824391B2 (en) | Audio user interface apparatus and method | |
US10535365B2 (en) | Analog voice activity detection | |
US10909977B2 (en) | Apparatus and method for power efficient signal conditioning for a voice recognition system | |
US9775113B2 (en) | Voice wakeup detecting device with digital microphone and associated method | |
US9406313B2 (en) | Adaptive microphone sampling rate techniques | |
US9043211B2 (en) | Low power activation of a voice activated device | |
US8972252B2 (en) | Signal processing apparatus having voice activity detection unit and related signal processing methods | |
US9992745B2 (en) | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate | |
JP2020502593A5 (ja) | 音声コマンドを検出及びキャプチャするシステムと方法 | |
US20140358552A1 (en) | Low-power voice gate for device wake-up | |
CN109346075A (zh) | 通过人体振动识别用户语音以控制电子设备的方法和系统 | |
US10332543B1 (en) | Systems and methods for capturing noise for pattern recognition processing | |
CN116830191A (zh) | 基于热词属性调配自动语音识别参数 | |
GB2553040A (en) | Sensor input recognition |