TWI722349B - 語音活動偵測系統 - Google Patents
語音活動偵測系統 Download PDFInfo
- Publication number
- TWI722349B TWI722349B TW107144627A TW107144627A TWI722349B TW I722349 B TWI722349 B TW I722349B TW 107144627 A TW107144627 A TW 107144627A TW 107144627 A TW107144627 A TW 107144627A TW I722349 B TWI722349 B TW I722349B
- Authority
- TW
- Taiwan
- Prior art keywords
- area
- voice activity
- judgment
- activity detection
- function
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 165
- 230000000694 effects Effects 0.000 title claims abstract description 93
- 230000006870 function Effects 0.000 claims abstract description 113
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 35
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000005314 correlation function Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000037433 frameshift Effects 0.000 claims 1
- 230000004913 activation Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 9
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 6
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010009232 Clang associations Diseases 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000003989 dielectric material Substances 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
一種語音活動偵測 (VAD)系統,其包含:輸入處理模組,係設置以接收聲音訊號,將聲音訊號轉換成類比訊號以及後續的數位訊號;基於能量的偵測模組,係設置以接收類比/ 數位訊號中的一個並決定語音活動判斷;基於面積函數的偵測模組,係設置以從數位訊號導出( derive)面積相關函數並根據面積相關函數利用機器學習方法輸出基於面積的判斷;以及VAD 判斷模組,係設置以基於來自於基於能量的偵測模組的語音活動判斷以及來自於基於面積函數的偵測模組的基於面積的判斷產生最終的語音活動偵測判斷。
Description
本發明係涉及語音活動偵測 (VAD)技術。本發明的實施例涉及低複雜性的語音活動偵測 (VAD)裝置、系統、以及方法。
語音活動偵測 (VAD)是一種用於演說過程的技術,在演說過程中,人的語音的出現與否受到偵測。習知技術如下列: • 存儲壓縮:結合有損或無損壓縮,可以離線完成。 • 頻道頻寬縮減:例如,GSM、G.729、組合舒適噪音產生器(comfort noise generator, CNG); 此任務必須即時完成,其中該遺留方案(hangover scheme)至關重要。 • 近端語音偵測:作為控制迴音消除(AEC)模型訓練的手段; 這項任務必須即時完成。
近年來,語音活動偵測(VAD)已被用作喚醒觸發器,是更複雜的關鍵詞語音偵測(例如,由語音識別供應商所提供的)的前段。該任務必須即時完成,使得進行進一步語音處理的處理器可以及時被激活到高功率模式。
大多數商業上可用的低複雜度語音活動偵測(VAD)裝置、系統和方法應用了基於能量的方法來偵測語音活動。在賦予非常少的計算資源的情況下,基於能量的VAD忠實地在大致上安靜的或相當嘈雜的環境中偵測語音。 然而,這種VAD容易對任何突然的能量變化,包括腳步聲、擊鍵、紙張摩擦、椅子吱吱聲、勺子在碗或杯子中叮噹聲等產生反應。由於在可攜式設備裡的電池的壽命有限,由於誤判而導致的頻繁喚醒會增加不必要的電能浪費,這對可攜式設備是不可接受的。
為了從伴隨有突然的能量變化的其他聲音區分出語音,本領域技術人員經常應用頻率分析。然而,傅里葉轉換以及其他類似運算需要大量的計算,這對於一個經常開啟的可攜式設備而言是不可接受的。零交越率被廣泛使用且相對便宜。濾除非常低頻的機器噪聲可能是有用的,但不包括含有高頻率的其他噪聲(可能與某些輔音(consonants)同時發生)。另一個突出的特徵是可以通過自動相關方法提取的聲調。高相關性表明傳入的聲音可能是元音(vowels)。 但是一些非語音聲音,例如音調,也具有高相關性。高計算複雜性也阻礙了從低功率消耗應用中提取基於自相關的聲調。
因此,需要一種能夠降低誤判並且能夠防止系統被不必要地激活至高功率消耗模式的低複雜度方法。
本發明係涉及語音活動偵測 (VAD)。本發明的實施例係涉及低複雜度的語音活動偵測 (VAD)裝置、系統及方法。更精確地,本發明的一些實施例係基於聲道面積函數而針對數位取樣的聲音波形(digitally sampled acoustic waveforms)提取其特徵,並在機器學習內利用所提取的特徵來達成語音活動偵測。本發明的實施例能夠提供低複雜度的語音活動偵測 (VAD)系統及方法,以增進VAD應用的效率。
在一些實施例中,為了準備給機器學習使用, 音頻訊號被分為三類:乾淨的聲音、嘈雜的聲音(嘈雜環境中的聲音)和噪音。然後,從音頻訊號的音框(frames)或短音段(short segments)提取特徵。例如,上述特徵可用聲道面積函數表示,例如對數面積比 (LARs, log area ratios)和/或衍生特徵。然後此方法將這些音框分為三類:乾淨的聲音、嘈雜的聲音(嘈雜環境中的聲音)和噪音。這些音框架的資訊被提供到機器學習過程,例如,神經網路或邏輯斯回歸以訓練分類器。發明人已認知到神經網路已成功地運用於圖像辨識,且對數面積比是圖形取向的特徵,其描述了能夠用來訓練神經網路以學習如何分辨語音及非語音的聲道形狀。相較於習知技藝,本發明的實施例得以提供低複雜度且高效率的語音活動偵測 (VAD)系統及方法。傳統的語音應用已經使用了基於頻譜的特徵,例如線譜對(LSP)和梅爾頻率倒譜係數(MFCC)及其衍生物。 但是,需要兩個快速傅里葉轉換(FFT)來計算梅爾頻率倒譜係數。例如,本發明的一些實施例利用衍生的線性預估係數面積函數(linear predictive coefficients (LPC)-derived area-functions),例如線性預估係數(LPCs),在頻率分析中,其相較於傅里葉轉換具有較低的複雜度。
在一些實施例中,語音活動偵測 (VAD)系統包含了輸入處理模組,係設置以接收聲音訊號, 將聲音訊號轉換成類比訊號,以及後續的數位訊號;基於能量的偵測模組係設置以接收類比 / 數位訊號中的一個並決定語音活動判斷;基於面積函數的偵測模組係設置以從數位訊號導出( derive)面積相關函數並根據面積相關函數利用機器學習方法輸出基於面積的判斷; VAD 判斷模組係設置以基於來自於基於能量的偵測模組的語音活動判斷以及來自於基於面積函數的偵測模組的基於面積的判斷產生最終的語音活動偵測判斷。
根據本發明的一些實施例,語音活動偵測 (VAD)系統包含:麥克風介面電路,其設置以用於耦合麥克風以接收聲音訊號,並將聲音訊號轉換成類比訊號;類比至數位轉換器,係設置以接收類比訊號以產生數位訊號;以及訊號處理電路,係設置以接收數位訊號並決定數位訊號是否代表人的語音。訊號處理電路包含了基於聲能的偵測模組,其設置以接收類比訊號或數位訊號中的一個,並提供語音活動判斷,語音活動判斷指示聲音訊號是否在可聽能量範圍內。訊號處理電路亦包含了基於面積函數的偵測模組,基於面積函數的偵測模組係設置以基於面積相關函數從數位訊號提取聲音訊號的特徵,並且利用機器學習方法來決定基於面積的判斷,基於面積的判斷指示了音頻訊號是否代表了人的語音。 機器學習方法包含由複數個被標記的面積相關函數所訓練的複數個係數 。訊號處理電路亦包含語音活動偵測 (VAD) 判斷模組,VAD判斷模組係設置以基於來自於基於能量的偵測模組的語音活動判斷以及來自於基於面積函數的偵測模組的基於面積的判斷來產生最終的語音活動偵測判斷。語音活動偵測 (VAD)系統亦可包含資源有限的設備,資源有限的設備係設置以接收最終的語音活動偵測判斷以改變資源有限的設備的操作模式。
在上述的VAD系統的一些實施例中,面積相關函數能夠包含複數個對數面積比、一對數面積函數、一面積函數、以及一矢狀距離函數中的一個。 在一些實施例中,基於面積函數的偵測模組係設置以執行:以預加重因子(pre-emphasis factor)過濾數位訊號以得到預加重訊號;藉由窗函數(window function)使預加重訊號的音框架(frame)加權至窗化訊號(windowed signal); 使窗化訊號轉換為複數個反射係數(reflection coefficients);使複數個反射係數轉換為面積相關函數; 將面積相關函數提供至已訓練的分類器(trained classified)以識別語音的開始;以及給出基於面積的判斷。在一些實施例中,已訓練的分類器係由神經網路或邏輯斯回歸離線訓練。
根據本發明的一些實施例 ,語音活動偵測 (VAD) 系統包含輸入處理模組,輸入處理模組係設置以透過麥克風接收聲音訊號。 輸入處理模組係設置以將聲音訊號轉換成類比訊號以及後續的數位訊號。VAD 系統也能夠包含基於能量的偵測模組以及基於面積函數的偵測模組。基於能量的偵測模組係設置以接收類比/數位訊號中的一個並決定語音活動判斷。基於面積函數的偵測模組係設置以從 數位訊號導出(derive)面積相關函數並且根據面積相關函數利用機器學習方法輸出基於面積的判斷。機器學習方法能夠包含由複數個被標記的面積相關函數訓練的複數個係數。 VAD 系統也能夠包含VAD判斷模組,VAD判斷模組係設置以基於來自於基於能量的偵測模組的語音活動判斷以及來自於基於面積函數的偵測模組的基於面積的判斷產生最終的語音活動偵測判斷。最終的語音活動偵測判斷能夠接著被傳送至資源有限的設備以改變該設備的操作模式。
在各種實施例中,語音活動判斷能夠具有軟判斷值或硬判斷值。
根據實施例,基於能量的偵測模組可以是軟體模組以接收數位訊號。或者,基於能量的偵測模組可以是硬體區塊。例如,基於能量的偵測模組可以是數位硬體區塊以接收數位訊號。在另一示例中,基於能量的偵測模組可以是類比硬體區塊以接收類比訊號。
在各種實施例中,面積相關函數可以是複數個對數面積比。或者,面積相關函數可以是對數面積函數、面積函數、以及矢狀距離函數中的一個。
在一些實施例中,基於面積函數的偵測模組係設置以執行下列步驟:(a) 以預加重因子過濾數位訊號以得到預加重訊號; (b) 藉由窗函數(window function)使預加重訊號的音框架(frame)加權至窗化訊號(windowed signal); (c) 使窗化訊號轉換為複數個反射係數(reflection coefficients);(d)使複數個反射係數轉換為面積相關函數;(e) 將面積相關函數提供至已訓練的分類器(trained classified)以識別語音的開始;以及(f)給出基於面積的判斷。
在各種實施例中,預加重因子的範圍可以是0.5至0.99,且音框架的移位範圍可以從1 毫秒至20毫秒。
在各種實施例中,窗函數可以是Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、Kaiser窗、 Nuttall窗、Parzen窗、Taylor窗、以及Tukey窗中的一個。
在一些實施例中,已訓練的分類器可以藉由神經網路離線訓練。在其他實施例中,已訓練的分類器可以藉由邏輯斯回歸離線訓練。
在各種實施例中,基於面積的判斷可以是軟判斷值。或者,基於面積的判斷可以是硬判斷值。
在一些實施例中,基於面積函數的偵測模組係設置以更進一步產生線性估測誤差並包含此誤差以作為基於面積的判斷中的特徵。
在一些實施例中,語音活動偵測 (VAD)系統也可以包含基於零交越的偵測模組 ,其設置以基於零交越率(zero crossing rate)產生第二判斷,其中VAD 判斷模組在最終判斷過程內(final decision process)包含第二判斷。根據實施例,第二判斷可以是軟判斷值,或者第二判斷是硬判斷值。
在一些實施例中,資源有限的設備可以是低耗裝置,低耗裝置的操作模式可以包含閒置模式以及喚醒模式。在一些實施例中,資源有限的設備可以是語音存儲裝置,且操作模式可以包含閒置模式和錄音模式。在另外的實施例中,資源有限的設備可以是語音傳送裝置,且操作模式可以包含閒置模式和傳送模式。
第1圖係繪示根據本發明各種實施例之一語音激活系統之方框圖。如第1圖所示,語音激活系統100包含了麥克風120、麥克風介面電路130、類比至數位轉換器140、訊號處理電路150、以及具有兩個操作模式160的一裝置。根據本發明的其他實施例,語音激活系統100包含了聲音換能器(acoustic transducer)、聲音偵測計、類比至數位轉換器、以及處理單元。
如第1圖所示,麥克風120以及麥克風介面電路130係設置以捕捉與聲波110相關的聲能以產生類比訊號131。根據本發明的實施例,聲波110能夠在能夠包含人可聽頻率範圍的頻率範圍內。可以使用許多不同種類的麥克風,以運用不同的方法來將聲波的空氣壓力變化轉換成電訊號。電容式麥克風以振動隔板作為電容板。駐極體(electret )麥克風是一種靜電電容式麥克風,其使用具有永久嵌入的靜電偶極矩的介電材料。麥克風介面電路130可以包含傳統的電路元件以和麥克風120一起使用,來捕獲語聲波110相關的聲能來產生類比訊號131。
類比至數位轉換器140將類比訊號131轉換成數位訊號141。
在第1圖中,訊號處理電路150接收數位訊號141以決定數位訊號141是否代表人的語音,並提供語音活動偵測 (VAD) 訊號151到語音激活裝置160。在發明的實施例中,訊號處理電路150可以包含處理器,例如簡化指令集電腦(RISC, reduced instruction set computer) 或數位訊號處理器(DSP)。
在一些實施例中,語音激活裝置160可以是資源有限的設備,且最終的語音活動偵測判斷被傳送至資源有限的設備以改變資源有限的設備的操作模式。例如,資源有限的設備可以是低耗裝置,且操作模式可以包含閒置模式及喚醒模式。低耗裝置可以被設置以維持在低耗能的閒置模式,並且可以當偵測到語音時被激活到喚醒模式。在另一示例中,資源有限的設備可以是語音存儲裝置,且操作模式可以包含閒置模式以及錄音模式。語音存儲裝置可以被設置以維持在低耗能的閒置模式,並且可以當偵測到語音時被激活以開始錄音。在又一示例中,資源有限的設備可以是語音傳送裝置,且操作模式可以包含閒置模式及傳送模式。在這些示例中,語音傳送裝置可以被設置以維持在低耗能的閒置模式,且可以當偵測到語音時被激活以開始傳送。
第2圖係繪示根據本發明各種實施例之一語音活動偵測系統之方框圖。在第2圖中,語音活動偵測 (VAD) 系統200可以包含輸入處理模組210、基於能量(例如聲能)的偵測模組220、基於面積函數的偵測模組230、以及VAD判斷模組250。該系統可以更進一步地包含基於零交越的偵測模組240。
輸入處理模組210將聲音訊號轉換成類比訊號,以及後續的無DC取樣的數位訊號(DC-free sampled digital signals) 。相較於第1圖,輸入處理模組210可以對應麥克風120、麥克風介面電路130、以及類比至數位轉換器140。
第2圖亦在方框201繪示了訊號處理電路150的一個示例,其包含了基於能量的偵測模組220、基於面積函數的偵測模組230、可選的基於零交越的偵測模組240、以及 VAD 判斷模組250。
基於能量的偵測模組220持續地估計了無DC訊號(DC-free signals)的短期方均根(short-term root-mean-square) 以及長期方均根(long-term root-mean-square, RMS_LT)。該模組比較了短期方均根以及長期方均根來決定初步的語音活動偵測判斷。在一些實施例中,初步的語音活動偵測判斷能夠指示無DC訊號係在聲頻(sound frequency)範圍內,例如,約300 Hz至3000 Hz。基於能量的偵測模組係設置以產生語音活動判斷。語音活動判斷能夠提供硬判斷值以及軟判斷值。例如,硬判斷值 “0”能夠指示出訊號並非在聲頻範圍內,且硬判斷值 “1” 能夠指示出訊號在聲頻範圍。軟判斷值可以是介於0 和1之間的值,並估計該訊號在聲頻範圍內的可能性。僅僅作為一示例,可以在4毫秒至64毫秒期間估計訊號的短期方均根,且可以在100毫秒至600毫秒期間估計訊號的長期方均根。在一些實施例中,兩個閾值(THR0 以及THR1)可被定義為長期方均根的函數。例如,THR0 = a0* RMS_LT + b0以及THR1 = a1* RMS_LT + b1,其中a0以及a1大於1,b0以及b1係預定的偏移量(offset),且THR1大於等於THR0。當短期方均根超過閾值THR1,該判斷為1;當短期方均根低於閾值THR0,該判斷為0。若短期方均根介於THR0以及THR1之間,可以將軟判斷插入(interpolate)在0和1之間。在THR0 = THR1的特殊情況下,只允許硬判斷值。
根據實施例,基於能量的偵測模組可以是接收數位訊號的軟體模組。或者,基於能量的偵測模組可以是硬體區塊。例如,基於能量的偵測模組可以是接收數位訊號的數位硬體區塊。在另一示例中,基於能量的偵測模組可以是接收類比訊號的類比硬體區塊。
基於面積函數的偵測模組230係設置以提取音頻訊號的特徵(features),並利用此資訊來決定(determine)此音頻訊號是否代表人的語音。音頻訊號的特徵可以線性預估係數(LPC)、反射係數(RC)以及對數面積比(LAR)來表示。在一些實施例中,基於面積函數的偵測模組230提供了與對數面積比(LAR)相關的資訊。線性估計編碼(linear predictive coding)係一種用於音頻訊號處理以及演說處理的工具,其利用線性預估係數的資訊以壓縮形式(compressed form)表示演說的數位訊號的頻譜包絡線(spectral envelope) 。這是演說分析技術(speech analysis techniques)的一種,為了以低位元率編碼高品質演說並提供演說參數的準確估計。反射係數以及對數面積比(LAR)是線性預估係數的代表。
在一些實施例中,基於面積函數的偵測模組230係設置以提取對數面積比 (LARs) 和/或相關的值,並利用此資訊來決定VAD 可控制訊號(VAD enable control signal)。在一些實施例中,基於面積函數的偵測模組230首先決定音頻訊號,然後提取音頻訊號的線性預估係數,並且將線性預估係數轉換成對數面積比(LAR)。
基於零交越的偵測模組240係設置以產生基於零交越的判斷(zero-crossing-based decision),以作為硬判斷值或軟判斷值。例如,基於零交越的偵測模組240能包含計數器以在一時段內追蹤訊號的符號改變(sign changes)次數。其可以軟體模組、數位硬體區塊或混合訊號硬體區塊(mixed-signal hardware block)來實現。
VAD 判斷模組250係設置以接收從基於能量的偵測模組220以及基於面積函數的偵測模組230來的結果來產生最終的語音活動偵測判斷。例如,最終的語音活動偵測判斷可以指示出所偵測的是人語音或人語音的起始。在一些實施例中,語音活動偵測 (VAD) 系統也可以包含基於零交越的偵測模組 240 ,基於零交越的偵測模組 240係設置以根據零交越率產生第二判斷。在這樣的狀況下。VAD 判斷模組 250 可以在最終判斷過程中包含第二判斷 。根據實施例,第二判斷可以具有軟判斷值或硬判斷值。最終的語音活動偵測判斷 260可以是VAD判斷旗( decision flag)。在一些實施例中,最終的語音活動偵測判斷 260 可以是來自於基於能量的偵測模組 220、基於面積函數的偵測模組 230以及基於零交越的偵測模組 240的中間判斷(intermediate decisions)的函數。例如, d_結果 = d_能量 * d_面積 * d_零交越, 其中「d_結果」係最終判斷,「d_能量」係基於能量的判斷,「d_面積」係基於面積函數的判斷,以及「d_零交越」係基於零交越的判斷。若d_結果超過一預定的閾值,最終判斷為1(即VAD-開啟);否則最終判斷為0(即VAD-關閉)。對於硬判斷,輸出會是0或1;對於軟判斷,輸出的值的範圍會在0至1之間。 第2圖中,VAD 判斷模組可以提供反饋路徑252至基於面積函數的偵測以及基於能量的偵測。最終判斷可以反饋至這兩個偵測模組,以用來調整判斷模組內的一些參數和/或閾值。
最終的語音活動偵測判斷(即, 最終的語音活動偵測判斷訊號260)可以接著被傳送至資源有限的設備270以改變該裝置的操作模式。在一些實施例中,資源有限的設備可以是低耗裝置,且低耗裝置的操作模式可以包含閒置模式以及喚醒模式。在一些實施例中,資源有限的設備可以是語音存儲裝置,且操作模式可以包含閒置模式和錄音模式。在其他的實施例中,資源有限的設備可以是語音傳送裝置,且操作模式可以包含閒置模式以及傳送模式。
VAD 判斷模組250可以給出可VAD的控制訊號(VAD enable control signal),即, VAD-ON訊號,當確認了語音的開始。可VAD的控制訊號(VAD enable control signal)可以用來激活資源有限的設備。資源有限的設備 可以是具有兩個操作模式的低耗裝置:閒置模式以及喚醒模式。在以VAD-ON訊號進行觸發前,低耗裝置在閒置模式下作動以耗損最小電力,但其功能不全。在以VAD-ON判斷觸發後,低耗裝置以喚醒模式作動,其功能全開,但需要更多電力。一旦VAD判斷關閉,低耗裝置回到閒置模式。
例如,資源有限的設備可以是具有兩個操作模式的語音存儲裝置: 閒置模式 (VAD-OFF) 以及錄音模式(VAD-ON)。藉由將基於面積的判斷與其他的判斷結合,錯誤的觸發次數得以降低,因此,降低整體存儲使用量。
做為另一示例,資源有限的設備可以是具有兩個操作模式的語音傳送裝置:閒置模式(VAD-OFF)以及傳送模式(VAD-ON)。藉由將基於面積的判斷與其他判斷結合,錯誤的觸發次數得以降低,因此,降低整體傳輸頻寬。
藉由將基於面積的判斷與其他判斷結合,像是基於能量的判斷以及基於零交越的判斷,錯誤的觸發次數得以降低,因此,降低整體電力耗損。
第3圖係繪示根據本發明各種實施例之一基於面積函數的偵測模組之方框圖。如第3圖所示,基於面積函數的偵測模組300係得以被用作為基於面積函數的偵測模組230的示例模組。在一些實施例中,基於面積函數的偵測模組300可以包含預分析單元(pre-emphasis unit)310以及窗單元(windowing unit)320以預決定(preconditioning)音頻訊號。基於面積函數的偵測模組300也可以具有線性預估係數單元330、線性預估係數至反射係數單元(LPC-to-RC unit )340以及反射係數至對數面積比單元( RC-to-LAR unit)350以提取音頻訊號的對數面積比。基於面積函數的偵測模組300也可以具有對數面積函數單元360以及面積函數/矢狀距離函數單元370。除此之外,基於面積函數的偵測模組300也可以具有分類單元380。在下述更詳細地描述這些單元的功能。
在預分析單元310內,數位訊號301以預加重因子p過濾以得到預加重訊號311。 數位訊號301以x[1], x[2], …, x[n-1], x[n]表示。接下來,預加重訊號311, xp [n] 得以如下來表示。其中預加重因子p = 0.5 ~ 0.99。 在一些實施例中,預加重訊號31可以抑制低頻訊號並加強高頻訊號。預加重因子p可以根據應用來選擇。
窗單元320係設置以藉由窗函數w
[n
]將預加重訊號311的音框架加權至窗化訊號321。窗函數的示例可以包含Blackman窗、Blackman-Harris窗、 Bohman窗、 Chebyshev窗、 Gaussian窗、 Hamming窗、 Hanning窗、 Kaiser窗、 Nuttall窗、 Parzen窗、 Taylor窗、Tukey窗等, 窗化訊號321可表示如下。根據實施例,窗函數可以根據,例如, Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、 Kaiser窗、Nuttall窗、Parzen窗、Taylor窗、Tukey窗等來決定。
線性預估係數單元330係設置以由窗化訊號321提取線性預估係數。在一些實施例中,線性預估係數可以利用例如L-D 遞迴法(Levinson-Durbin recursion)來推導。預估誤差(prediction error, LPC_ERR)可以是該過程的副產物(by-product)。
線性預估係數至反射係數單元(LPC-to-RC unit )340係設置以利用例如L-D 遞迴法將線性預估係數轉換為反射係數(RCs, k(i))。請注意反射係數可在線性預估係數單元內以相同的遞迴法來得到。
面積函數/矢狀距離函數單元370也可以被設置以從對數面積比導出矢狀距離或徑函數(sagittal distance or diameter function (SDF))。矢狀距離或徑函數 (SDF) 可表示為:
分類單元380可以是已離線訓練的分類器以基於一或多個面積相關函數(例如,LARs、LAF、 AF或 SDF)識別語音的開始並給出可VAD的控制訊號 (或是基於面積的判斷)。
在一些實施例中,用來訓練分類單元380的方法可以包含收集對數面積比和/或一或多個導出的特徵(LAF、 AF或SDF)並得到這些特徵的一階微分來作為額外的特徵。此方法也可包含將音框架分成三類:乾淨的聲音、嘈雜的聲音(嘈雜環境中的聲音)和噪音。 接著,分類器可以利用機器學習來訓練(例如,神經網路、邏輯斯回歸等),將進一步在後面描述。
為了準備機器學習,挑選音頻訊號來代表三種分類:乾淨的聲音、嘈雜的聲音(嘈雜環境中的聲音)和噪音。接著,從音框架或短切割(short segment)提取音頻訊號的特徵。例如,這些特徵可以對數面積函數和/或一些所導出的其他特徵(例如, LAF、 AF或 SDF) 來表示。然後,這個方法將音框架分成三類:乾淨的聲音、嘈雜的聲音(嘈雜環境中的聲音)和噪音。關於這些音框架的資訊被提供到機器學習過程,例如:神經網路或邏輯斯回歸,以訓練分類器。
在一些實施例中,可以應用神經網路來執行離線機器學習。第4圖係繪示示例的雙層前饋(two-layer feed-forward)神經網路之方框圖,根據本發明的實施例,其也可用來建構基於面積函數的偵測模組。在第4圖所示的示例中,前饋神經網路400包含輸入埠410 (input port 410)、隱藏層420 (hidden layer 420) 、輸出層430 (output layer 430)以及輸出埠440 (output port 440)。在此網路中,資訊僅在一方向上往前移動,從輸入結點、通過隱藏結點並到達輸出結點。在第4圖中,W代表權重向量(weighting vector), b代表偏權因子( bias factor)。
在一些實施例中,隱藏層420可以具有sigmoid神經元(neurons),且輸出層430可以具有softmax神經元。sigmoid神經元具有由sigmoid函數所定義的輸出關係,其為具有S形曲線或sigmoid曲線的數學函數。Sigmoid函數具有所有實數的域,返回值根據應用通常從0到1或者從-1到1單調增加。各種各樣的sigmoid函數可以用作人工神經元(artificial neurons)的激活函數,包括邏輯和雙曲正切函數。
在輸出層430中, softmax神經元具有由softmax函數所定義的輸出關係。softmax函數或歸一化指數函數[1]:198是邏輯函數的推廣,它將任意實數值的K維向量z「壓縮」為實數值的K維向量σ(z),其中 每個條目都在範圍(0,1)中,並且所有條目(entries)加起來為1。softmax函數的輸出可用於表示分類分佈 - 即,K個不同可能結果的概率分佈。softmax函數通常用於基於神經網路的分類器的最後一層。在第4圖中,W表示權重向量,b表示偏權因子。
為了實現合理的分類,應在第一隱藏層中分配至少10個神經元。 如果使用更多隱藏層,則可以在其他的隱藏層中使用任意數量的神經元。 給定更多計算資源,可以分配更多的神經元或層。 在其隱藏層中提供足夠的神經元,可以提高性能。也可以應用更複雜的網路(例如,卷積神經網路或遞迴式神經網路)來實現更好的性能。在其隱藏層中給定足夠的神經元,它可以任意地對向量進行分類。
第5圖係繪示根據本發明實施例之基於邏輯回歸的示例性基於面積函數的偵測模組之方框圖。如第5圖所示,基於面積函數的偵測模組500包含輸入預處理階段501、資料增強單元510、特徵選擇單元520、訓練資料單元530、測試資料單元540、模型訓練和調整單元550、評估模型性能單元560、超參數選擇/ 調整單元570和峰值優化單元580。
第5圖示出了透過機器學習開發語音活動偵測分類器的訊號路徑。在資料增強單元510中,當前和過去預測器之間的關係用於將原始特徵映射到更適合於此語音偵測問題的維度。特徵選擇單元520係設置以選擇在先前單元中找到的最佳特徵映射。它為最終建模設置了最佳候選者,並將映射的資料集傳遞給後續單元。然後將整個資料集拼接成兩個子集“訓練資料”530和“測試資料”540,以構建監督學習的交叉驗證的機器學習模型。用於測試的資料百分比可在5%-20%之間。模型訓練/調整單元550包含邏輯斯回歸分類器,其藉由將特徵乘以函數的權重,將它們相加,並將結果通過sigmoid激活函數來執行訓練集上的前向傳遞。評估模型性能單元560係設置以藉由計算訓練和測試資料集的模型的當前狀態的交叉熵誤差(cross-entropy error)來獲得模型的損失。超參數選擇/調整單元570可以包括手工挑選(例如,學習速率、λ值等)和可優化參數。一旦錯誤傳遞回該單元,它就透過與錯誤成比例地調整每個權重的值來對模型執行優化傳遞。峰值優化條件單元580在每個時期跟踪誤差並計算模型的準確度和召回率。然後,它將結果與容差值進行比較,以決定是否執行優化步驟。在訓練過程結束時,產生已訓練的語音活動偵測(VAD)模型590。
可以透過執行n階(例如3階)多項式特徵映射在上述的特徵,例如:乾淨的聲音、嘈雜的聲音和噪音,來產生最終訓練集。其包含了m個(例如 91個)特徵 ,這些特徵在考慮訓練資料中的非線性關係時收斂於更充分的判斷邊界。 邏輯斯回歸算法的概要部分是: o 代價函數(Cost function) : =權重;o 梯度下降法(Gradient descent):
第6圖係繪示能夠根據本發明實現各種實施例之一設備之簡易方框圖。第6圖僅是結合本公開的實施例的說明,並不限制申請專利範圍中所述的本公開的範圍。 本領域普通技術人員將認識到其他變型、修改和替代方案。 在一個實施例中,計算機系統600通常包括監視器610(或圖形人機介面610),計算機620,使用者輸出設備630,使用者輸入設備640,通訊介面650等。
第6圖是能夠體現本公開的計算機系統的代表。 例如,語音激活系統100可以利用類似於第6圖中所繪示的系統600的系統來實現。 訊號處理電路150的功能可以由第6圖中描述的一個或多個處理器來執行。麥克風介面電路130、類比至數位轉換器140和語音激活裝置160可以是類似於系統600的系統中的外圍設備。此外,機器學習系統的離線訓練可以在類似於第6圖所繪示的系統600的系統中執行。
如第6圖所示,計算機620可以包括透過總線子系統690( bus subsystem 690)與多個外圍設備通訊的處理器660。這些外圍設備可以包括使用者輸出設備630、使用者輸入設備640、通訊介面650、 存儲子系統,例如隨機存取記憶體(RAM)670和磁碟驅動器(或非揮發性記憶體)680。
使用者輸入設備640可以包括用於向計算機系統620輸入訊號的所有可能類型的設備和機構。這些設備和機構可以包括鍵盤、小鍵盤、結合到顯示器中的觸摸屏、音頻輸入設備,例如語音識別系統、麥克風、 和其他類型的輸入設備。 在各種實施例中,使用者輸入設備640通常體現為計算機滑鼠、軌跡球、軌跡板、搖桿、無線遙控器、繪圖平板、語音命令系統、眼睛追蹤系統等。 使用者輸入設備640通常允許使用者透過諸如點擊按鈕等的命令選擇出現在監視器610上的物件、圖標、文本等。
使用者輸出設備630包括用於從計算機620輸出資訊的所有可能類型的設備和機構。這些設備和機構可以包括顯示器(例如,監視器610),諸如音頻輸出設備的非可視顯示器等。
通訊介面650提供了至其他通訊網路和設備的介面。 通訊介面650可以用作從其他系統接收資料和向其他系統傳送資料的介面。 通訊介面650的實施例通常包括乙太網路卡、數據機(電話,衛星,電纜,ISDN)、(非同步)數位用戶線(DSL)單元、FireWire介面、USB介面等。 例如,通訊介面650可以耦合到計算機網路、FireWire總線等。 在其他實施例中,通訊介面650可以物理地集成在計算機620的主機板上,並且可以是軟體程式,例如軟DSL等。
在各種實施例中,計算機系統600還可以包括能夠透過網路進行通訊的軟體,例如HTTP、TCP / IP、RTP / RTSP協議等。在本公開的其他實施例中,也可以使用其他通訊軟體和傳輸協議,例如IPX,UDP等。 在一些實施例中,計算機620包括來自Intel的一個或多個Xeon微處理器作為處理器660。此外,在一個實施例中,計算機620包括基於UNIX的操作系統。 處理器660還可以包括專用處理器,例如數位訊號處理器(DSP)、精簡指令集計算機(RISC)等。
RAM 670和磁碟驅動器680是有形存儲媒體的示例,其存儲諸如本公開的實施例之類的資料,包括可執行計算機編碼、人類可讀編碼等。 其他類型的有形存儲媒體包括軟碟、可移動硬碟、諸如CD-ROM、DVD和條碼的光學存儲媒體、諸如快閃記憶體、唯讀記憶體(ROMS)、電池備援記憶體、網路化存儲設備等。 RAM 670和磁碟驅動器680可以是設置以存儲提供本公開的功能的基本程式設計和資料結構。
提供本公開的功能的軟體編碼模組和指令可以存儲在RAM 670和磁碟驅動器680中。這些軟體模組可以由處理器660來執行。RAM 670和磁碟驅動器680還可以提供存儲庫來存儲根據本公開所使用的資料。
RAM 670和磁碟驅動器680可以包括多個記憶體,多個記憶體包括用於在程式執行期間存儲指令和資料的主隨機存取記憶體(RAM)和存儲固定非暫態指令的唯讀記憶體(ROM)。RAM 670和磁碟驅動器680可以包括檔案儲存子系統,其為程式和資料檔案提供持久(非易失性)存儲。RAM 670和磁碟驅動器680還可以包括可移動存儲系統,例如可移動快閃記憶體。
總線子系統690提供用於使計算機620的各種元件和子系統按預期彼此通訊的機制。 雖然總線子系統690示意性地示為單個總線,但總線子系統的其他實施例可以使用多個總線。
第6圖是能夠體現本公開的計算機系統的代表。對於本領域普通技術人員來說顯而易見的是,許多其他硬體和軟體配置適用於本公開。例如,計算機可以是桌上型的、可攜式、機架式(rack-mounted)或平板式配置。另外,計算機可以是一系列聯網計算機。此外,可以考慮使用其他微處理器,例如Pentium™或Itanium™微處理器;來自Advanced Micro Devices,Inc的Opteron™或AthlonXP™微處理器等。此外,可以考慮其他類型的操作系統,例如來自Microsoft Corporation的Windows、WindowsXP、WindowsNT等、來自Sun Microsystems的Solaris、LINUX、UNIX等。在其他實施例中,上述技術可以在晶片或輔助處理板上實現。
本公開的各種實施例可以軟體或硬體中的邏輯形式或兩者的組合來實現。邏輯可以存儲在計算機可讀或機器可讀的非暫態存儲媒體中,作為適於指示計算機系統的處理器執行本公開的實施例中公開的一組步驟的一組指令。 該邏輯可以形成計算機程式產品的一部分,該計算機程序產品適於指導資料處理設備執行本公開的實施例中公開的一組步驟。基於本文提供的揭示和教示,本領域普通技術人員將理解實現本公開的其他方式和/或方法。
這裡描述的資料結構和編碼可以部分或完全存儲在計算機可讀存儲媒體和/或硬體模組和/或硬體設備上。 計算機可讀存儲媒體包括但不限於易失性記憶體、非易失性記憶體、磁性和光學存儲設備,例如磁碟驅動器、磁帶、CD(光碟)、DVD(數位影音光碟或數位影碟)、現在已知或以後將開發的、能夠存儲編碼和/或資料的其他媒體。 這裡描述的硬體模組或裝置包括但不限於專用集成電路(ASIC)、現場可程式化邏輯閘陣列(FPGA)、專用或共享處理器、和/或現在已知或以後開發的其他硬體模組或裝置。
這裡描述的方法和過程可以部分或完全體現為存儲在計算機可讀存儲媒體或設備中的編碼和/或資料,從而當計算機系統讀取並執行編碼和/或資料時,計算機系統執行相關的方法和過程。所述方法和過程還可以部分或完全體現在硬體模組或裝置中,使得當激活硬體模組或裝置時,它們執行相關聯的方法和過程。可以使用編碼、資料和硬體模組或裝置的組合來體現本文公開的方法和過程。
本文已經描述了某些實施例。 然而,對這些實施例的各種修改是可能的,並且本文提出的原理也可以應用於其他實施例。 另外,在不脫離申請專利範圍的範疇的情況下,各種元件和/或方法步驟/方法塊可以在不同於具體公開的那些的配置中實現。鑑於這些教示,本領域普通技術人員將容易地想到其他實施例和修改。因此,當結合以上說明書和圖式閱讀時,以下申請專利範圍旨在涵蓋所有這樣的實施例和修改。
100‧‧‧語音激活系統110‧‧‧聲波120‧‧‧麥克風130‧‧‧麥克風介面電路131‧‧‧類比訊號140‧‧‧類比至數位轉換器141‧‧‧數位訊號150‧‧‧訊號處理電路151‧‧‧VAD訊號160‧‧‧聲音激活設備200‧‧‧語音活動偵測系統201‧‧‧方框210‧‧‧輸入處理模組220‧‧‧基於能量的偵測模組230‧‧‧基於面積函數的偵測模組240‧‧‧基於零交越的偵測模組250‧‧‧VAD判斷模組252‧‧‧反饋路徑270‧‧‧資源有限的設備300‧‧‧基於面積函數的偵測模組301‧‧‧數位訊號310‧‧‧預分析單元311‧‧‧預加重訊號320‧‧‧窗單元321‧‧‧窗化訊號330‧‧‧線性預估係數單元340‧‧‧LPC至RC單元350‧‧‧RC至LAR單元360‧‧‧對數面積函數單元370‧‧‧面積函數/矢狀距離函數單元380‧‧‧分類單元400‧‧‧前饋神經網路410‧‧‧輸入埠420‧‧‧隱藏層430‧‧‧輸出層440‧‧‧輸出埠501‧‧‧輸入預處理階段510‧‧‧資料增強單元520‧‧‧特徵選擇單元530‧‧‧訓練資料單元540‧‧‧測試資料單元550‧‧‧模型訓練和調整單元560‧‧‧評估模型性能單元570‧‧‧超參數選擇/調整單元580‧‧‧峰值優化單元590‧‧‧已訓練的語音活動偵測模型600‧‧‧計算機系統610‧‧‧監視器620‧‧‧計算機630‧‧‧使用者輸出設備640‧‧‧使用者輸入設備650‧‧‧通訊介面660‧‧‧處理器670‧‧‧隨機存取記憶體680‧‧‧磁碟驅動器690‧‧‧總線子系統AF/SDF‧‧‧面積函數/矢狀距離或徑函數LPC ERR‧‧‧預估誤差Mic‧‧‧麥克風LPCs‧‧‧線性預估係數RCs‧‧‧反射係數LARs‧‧‧對數面積比LAF‧‧‧對數面積函數W‧‧‧權重向量b‧‧‧偏權因子
為了更完整理解本揭露,應參考下列的詳細描述以及所附圖式,其中:
第1圖係繪示根據本發明各種實施例之一語音激活系統(voice activated system)之方框圖。
第2圖係繪示根據本發明各種實施例之一語音活動偵測系統之方框圖。
第3圖係繪示根據本發明各種實施例之一基於面積函數的偵測模組之方框圖。
第4圖係繪示根據本發明各種實施例之一神經網路示例之方框圖。
第5圖係繪示根據本發明各種實施例之一邏輯斯回歸方法示例之流程圖。
第6圖係繪示能夠根據本發明實現各種實施例之一設備之簡易方框圖。
200‧‧‧語音活動偵測系統
201‧‧‧方框
210‧‧‧輸入處理模組
220‧‧‧基於能量的偵測模組
230‧‧‧基於面積函數的偵測模組
240‧‧‧基於零交越的偵測模組
250‧‧‧VAD判斷模組
252‧‧‧反饋路徑
270‧‧‧資源有限的設備
Claims (27)
- 一種語音活動偵測(voice activity detection, VAD)系統,包含: 一麥克風介面電路,係設置以用於耦合一麥克風以接收一聲音訊號,並將該聲音訊號轉換為一類比訊號; 一類比至數位轉換器,係設置以接收該類比訊號,以產生一數位訊號;以及 一訊號處理電路,係設置以接收該數位訊號並決定該數位訊號是否代表人的語音,其中該訊號處理電路包含: 一基於聲能的偵測模組(acoustic-energy-based detection module),係設置以接收該類比訊號或該數位訊號並且提供一語音活動判斷(sound activity decision),該語音活動判斷指示該聲音訊號是否在一可聽能量範圍內; 一基於面積函數的偵測模組(area-function-based detection module),係設置以基於面積相關函數從該數位訊號提取該聲音訊號的特徵,並利用一機器學習方法以決定一基於面積的判斷(area-based decision),該基於面積的判斷指示該聲音訊號是否代表人的語音,其中該機器學習方法包含由複數個被標記的面積相關函數所訓練的複數個係數;以及 一語音活動偵測 (VAD) 判斷模組,係根據來自於該基於聲能的偵測模組的該語音活動判斷以及來自於該基於面積函數的偵測模組的該基於面積的判斷,以產生一最終的語音活動偵測判斷;以及 一資源有限的設備,係設置以接收該最終的語音活動偵測判斷以改變該資源有限的設備的一操作模式。
- 如申請專利範圍第1項所述之語音活動偵測系統,其中該面積相關函數包含複數個對數面積比、一對數面積函數(log area function)、一面積函數、以及一矢狀距離函數(sagittal distance function)中的一個。
- 如申請專利範圍第1項所述之語音活動偵測系統,其中該基於面積函數的偵測模組係設置以執行: 以一預加重因子(pre-emphasis factor)過濾該數位訊號以得到一預加重訊號; 藉由一窗函數(window function)將該預加重訊號的一音框架(frame)加權至一窗化訊號(windowed signal); 使該窗化訊號轉換為複數個反射係數(reflection coefficients); 使該複數個反射係數轉換為該面積相關函數; 將該面積相關函數提供至一已訓練的分類器(trained classified)以識別語音的開始;以及 給出該基於面積的判斷。
- 如申請專利範圍第3項所述之語音活動偵測系統,其中該已訓練的分類器係由一神經網路(neural network)或一邏輯斯回歸(logistic regression)離線訓練。
- 一種語音活動偵測 (VAD)系統,包含: 一輸入處理模組,係設置以透過一麥克風接收一聲音訊號,該輸入處理模組係設置以將該聲音訊號轉換為一類比訊號,以及隨後的一數位訊號; 一基於能量的偵測模組(energy-based detection module),係設置以接收該類比訊號或該數位訊號,並且決定一語音活動判斷; 一基於面積函數的偵測模組,係設置以由該數位訊號導出( derive)一面積相關函數,並且根據該面積相關函數利用一機器學習方法輸出一基於面積的判斷,其中該機器學習方法包含由複數個被標記的面積相關函數訓練的複數個係數;以及 一VAD 判斷模組,係設置以基於來自於該基於能量的偵測模組的該語音活動判斷以及來自於該基於面積函數的偵測模組的該基於面積的判斷產生一最終的語音活動偵測判斷,其中該最終的語音活動偵測判斷接著被傳送至一資源有限的設備以改變該資源有限的設備的一操作模式。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該基於能量的偵測模組係一軟體模組(software module)以接收該數位訊號。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該基於能量的偵測模組係為一數位硬體區塊(digital hardware block)以接收該數位訊號。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該基於能量的偵測模組係為一類比硬體區塊(analog hardware block)以接收該類比訊號。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該面積相關函數係複數個對數面積比(log-area-ratio)。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該面積相關函數包含複數個對數面積比、一對數面積函數、一面積函數、以及一矢狀距離函數中的一個。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該語音活動判斷係為一軟判斷值(soft decision value)。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該語音活動判斷係為一硬判斷值(hard decision value)。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該基於面積函數的偵測模組係設置以執行下列步驟: 藉由一窗函數(window function)將該預加重訊號的一音框架(frame)加權至一窗化訊號(windowed signal); 使該窗化訊號轉換為複數個反射係數(reflection coefficients); 使該複數個反射係數轉換為該面積相關函數; 將該面積相關函數提供至一已訓練的分類器(trained classified)以識別語音的開始;以及 給出該基於面積的判斷。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該預加重因子之範圍為 0.5至0.99。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該音框架移位之範圍從1 毫秒 至20毫秒。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該窗函數係Blackman窗、Blackman-Harris窗、Bohman窗、Chebyshev窗、Gaussian窗、Hamming窗、Hanning窗、Kaiser窗、 Nuttall窗、Parzen窗、Taylor窗、以及Tukey窗中的一個。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該已訓練的分類器係經由一神經網路離線訓練。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該已訓練的分類器係經由一邏輯斯回歸離線訓練。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該基於面積的判斷係為一軟判斷值。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該基於面積的判斷係為一 硬判斷值。
- 如申請專利範圍第13項所述之語音活動偵測系統,其中該基於面積函數的偵測模組係設置以進一步產生一線性估測誤差(linear predictive error), 並包含該線性估測誤差以作為該基於面積的判斷中的一特徵。
- 如申請專利範圍第5項所述之語音活動偵測系統,進一步包含一基於零交越的偵測模組(zero-crossing-based detection module),其設置以基於零交越率(zero crossing rate)產生一第二判斷,其中該VAD 判斷模組在一最終判斷過程內(final decision process)包含該第二判斷。
- 如申請專利範圍第22項所述之語音活動偵測系統,其中該第二判斷係為一軟判斷值。
- 如申請專利範圍第22項所述之語音活動偵測系統,其中該第二判斷係為一硬判斷值。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該資源有限的設備係一低耗裝置(low power device) 且該操作模式包含一閒置模式(idle mode)以及一喚醒模式(wake up mode)。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該資源有限的設備係一語音存儲裝置(voice storage device) ,以及該操作模式包含一閒置模式以及一錄音模式(recording mode)。
- 如申請專利範圍第5項所述之語音活動偵測系統,其中該資源有限的設備係一語音傳送裝置,且該操作模式包含一閒置模式以及一傳送模式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/021,724 | 2018-06-28 | ||
US16/021,724 US10460749B1 (en) | 2018-06-28 | 2018-06-28 | Voice activity detection using vocal tract area information |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202001874A TW202001874A (zh) | 2020-01-01 |
TWI722349B true TWI722349B (zh) | 2021-03-21 |
Family
ID=68315000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107144627A TWI722349B (zh) | 2018-06-28 | 2018-12-11 | 語音活動偵測系統 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10460749B1 (zh) |
KR (1) | KR102288928B1 (zh) |
CN (1) | CN110660413B (zh) |
TW (1) | TWI722349B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11742879B2 (en) * | 2019-03-13 | 2023-08-29 | Samsung Electronics Co., Ltd. | Machine-learning error-correcting code controller |
US12119840B2 (en) * | 2019-03-13 | 2024-10-15 | Samsung Electronics Co., Ltd. | Machine-learning error-correcting code controller |
US11587552B2 (en) * | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
CN113393865B (zh) * | 2020-03-13 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 功耗控制、模式配置与vad方法、设备及存储介质 |
US11276388B2 (en) * | 2020-03-31 | 2022-03-15 | Nuvoton Technology Corporation | Beamforming system based on delay distribution model using high frequency phase difference |
US11462218B1 (en) * | 2020-04-29 | 2022-10-04 | Amazon Technologies, Inc. | Conserving battery while detecting for human voice |
CN111863036B (zh) * | 2020-07-20 | 2022-03-01 | 北京百度网讯科技有限公司 | 语音检测的方法和装置 |
CN112420051A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 设备的确定方法、装置及存储介质 |
CN115472177A (zh) * | 2021-06-11 | 2022-12-13 | 瑞昱半导体股份有限公司 | 用于梅尔频率倒谱系数的实现的优化方法 |
US11908454B2 (en) | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
CN115547312B (zh) * | 2022-11-30 | 2023-03-21 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016174659A1 (en) * | 2015-04-27 | 2016-11-03 | Snapaid Ltd. | Estimating and using relative head pose and camera field-of-view |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
CN1617605A (zh) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
BRPI0607646B1 (pt) * | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
CN100521708C (zh) * | 2005-10-26 | 2009-07-29 | 熊猫电子集团有限公司 | 移动信息终端的语音识别与语音标签记录和调用方法 |
TWI299855B (en) * | 2006-08-24 | 2008-08-11 | Inventec Besta Co Ltd | Detection method for voice activity endpoint |
US20080059170A1 (en) * | 2006-08-31 | 2008-03-06 | Sony Ericsson Mobile Communications Ab | System and method for searching based on audio search criteria |
KR100718846B1 (ko) * | 2006-11-29 | 2007-05-16 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
CN101221762A (zh) * | 2007-12-06 | 2008-07-16 | 上海大学 | 一种mp3压缩域音频分割方法 |
DE112014000709B4 (de) * | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9269368B2 (en) * | 2013-03-15 | 2016-02-23 | Broadcom Corporation | Speaker-identification-assisted uplink speech processing systems and methods |
CN103236260B (zh) * | 2013-03-29 | 2015-08-12 | 京东方科技集团股份有限公司 | 语音识别系统 |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
CN107564544A (zh) * | 2016-06-30 | 2018-01-09 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
CN106356076B (zh) * | 2016-09-09 | 2019-11-05 | 北京百度网讯科技有限公司 | 基于人工智能的语音活动性检测方法和装置 |
US10650803B2 (en) * | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
-
2018
- 2018-06-28 US US16/021,724 patent/US10460749B1/en active Active
- 2018-11-30 KR KR1020180152961A patent/KR102288928B1/ko active IP Right Grant
- 2018-12-11 TW TW107144627A patent/TWI722349B/zh active
-
2019
- 2019-05-10 CN CN201910389235.7A patent/CN110660413B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016174659A1 (en) * | 2015-04-27 | 2016-11-03 | Snapaid Ltd. | Estimating and using relative head pose and camera field-of-view |
Non-Patent Citations (3)
Title |
---|
Carlo Magi, "MATHEMATICAL METHODS FOR LINEAR PREDICTIVE SPECTRAL MODELLING OF SPEECH", Helsinki University of Technology, Department of Signal Processing and Acoustics, Espoo, Finland 2009, ISBN 978-951-22-9963-8 ISSN 1797-4267 |
Carlo Magi, "MATHEMATICAL METHODS FOR LINEAR PREDICTIVE SPECTRAL MODELLING OF SPEECH", Helsinki University of Technology, Department of Signal Processing and Acoustics, Espoo, Finland 2009, ISBN 978-951-22-9963-8 ISSN 1797-4267 Tamanna Islam, "Interpolation of Linear Prediction", Department of Electrical Engineering, McGill University, Montreal, Canada, April 2000 * |
Tamanna Islam, "Interpolation of Linear Prediction", Department of Electrical Engineering, McGill University, Montreal, Canada, April 2000 |
Also Published As
Publication number | Publication date |
---|---|
CN110660413B (zh) | 2022-04-15 |
KR102288928B1 (ko) | 2021-08-11 |
US10460749B1 (en) | 2019-10-29 |
KR20200001960A (ko) | 2020-01-07 |
TW202001874A (zh) | 2020-01-01 |
CN110660413A (zh) | 2020-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI722349B (zh) | 語音活動偵測系統 | |
Han et al. | Learning spectral mapping for speech dereverberation and denoising | |
El Choubassi et al. | Arabic speech recognition using recurrent neural networks | |
WO2019113130A1 (en) | Voice activity detection systems and methods | |
Hu et al. | Segregation of unvoiced speech from nonspeech interference | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
O'Shaughnessy | Acoustic analysis for automatic speech recognition | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
Jung et al. | Linear-scale filterbank for deep neural network-based voice activity detection | |
Zhu et al. | 1-D Local binary patterns based VAD used INHMM-based improved speech recognition | |
Amrouche et al. | An efficient speech recognition system in adverse conditions using the nonparametric regression | |
Li et al. | Recurrent neural networks and acoustic features for frame-level signal-to-noise ratio estimation | |
Haton | Automatic speech recognition: A Review | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
O'Shaughnessy | Review of analysis methods for speech applications | |
Aibinu et al. | Evaluating the effect of voice activity detection in isolated Yoruba word recognition system | |
KR102418256B1 (ko) | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 | |
Jadhav et al. | Review of various approaches towards speech recognition | |
Faycal et al. | Comparative performance study of several features for voiced/non-voiced classification | |
Trivedi | A survey on English digit speech recognition using HMM | |
Ouyang | Single-Channel Speech Enhancement Based on Deep Neural Networks | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Essa et al. | Combined classifier based Arabic speech recognition | |
Venkateswarlu et al. | The performance evaluation of speech recognition by comparative approach | |
Sandanalakshmi et al. | A novel speech to text converter system for mobile applications |