TWI756817B - 語音活動偵測裝置與方法 - Google Patents
語音活動偵測裝置與方法 Download PDFInfo
- Publication number
- TWI756817B TWI756817B TW109130731A TW109130731A TWI756817B TW I756817 B TWI756817 B TW I756817B TW 109130731 A TW109130731 A TW 109130731A TW 109130731 A TW109130731 A TW 109130731A TW I756817 B TWI756817 B TW I756817B
- Authority
- TW
- Taiwan
- Prior art keywords
- voice activity
- detection
- activity detection
- circuit
- voice
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 228
- 230000000694 effects Effects 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000007774 longterm Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本發明揭露一種語音活動偵測裝置與方法,能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據。該語音活動偵測裝置包含一環境偵測電路、一語音活動偵測電路以及一語音活動決策電路。該環境偵測電路用來處理一聲音輸入訊號以產生一環境偵測結果。該語音活動偵測電路用來依據複數種語音活動偵測演算法分析該聲音輸入訊號,以產生複數個語音活動偵測結果。該語音活動決策電路用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。
Description
本發明是關於語音活動偵測裝置與方法,尤其是關於能夠適應性地採用不同語音活動偵測演算法的其中之一的語音活動偵測裝置與方法。
許多電子裝置(例如:移動式裝置像是智慧型手機(smart phone)、智慧手錶(smart watch)、智慧音箱(smart speaker)等)可藉由語音辨識(speech recognition)功能來判斷使用者說出的指令(commands),並據以執行對應的操作。為避免漏掉使用者說出的指令,電子裝置可令語音辨識功能保持在持續聆聽(always listening)的狀態;然而,大部分的時間裡,語音辨識功能所接收的聲音訊號並非使用者指令,因此,為減少不必要的處理與耗電,電子裝置可藉由語音活動偵測(voice activity detection, VAD)來判斷是否有語音出現,並據以控制語音辨識功能的運作。更明確地說,當有語音出現時,電子裝置會喚醒(wake up)語音辨識功能以判斷是否有使用者指令;當沒有語音出現時,電子裝置可關閉語音辨識功能以減少耗電。一般語音喚醒系統(voice wake-up system)的運作流程圖如圖1所示,包含:
步驟S110:依據輸入訊號偵測語音活動,以及禁能語音辨識功能。
步驟S120:判斷是否有語音活動;若是,至步驟S130;若否,回到步驟S110。
步驟S130:喚醒語音辨識功能,並執行語音辨識。
步驟S140:判斷是否有使用者指令;若是,至步驟S150;若否,回到步驟S110。
步驟S150:依據使用者指令執行相對應的操作,然後回到步驟S110。
在實際應用時,語音活動偵測可能運作在具有許多不同的背景雜訊(background noise)的環境中,這些背景雜訊可分為穩態(stationary)雜訊與非穩態(non-stationary)雜訊。穩態雜訊的能量隨時間的變化幅度不大,像是風扇聲、安靜的辦公室的聲響等,這種雜訊對語音活動偵測的影響較小;而非穩態雜訊的能量隨時間的變化幅度大,像是電視聲、街道交通工具聲、人群講話聲等。許多非穩態雜訊的特徵(characteristic)與人聲的特徵相近,會影響語音活動偵測的效能(performance),使偵測準確度(accuracy)下降。
語音活動偵測的效能可按兩種指標值被評估,一種是「將語音誤判為雜訊」的指標值(簡稱錯失(miss)指標值),另一種是「將雜訊誤判為語音」的指標值(簡稱誤觸發(false trigger)指標值),這二種指標值之間的關係通常是一權衡(trade off)關係。當錯失指標值上升時,使用者可能要常常重複說出指令,這會造成使用經驗變差;當誤觸發指標值上升時,電子裝置會被迫執行不必要訊號處理與資料傳輸,這會造成耗電量上升。
一般的電子裝置採用固定的語音活動偵測演算法,而固定不變的語音活動偵測演算法可能在某種背景雜訊的環境下的表現較好,但在另一種背景雜訊的環境下的表現較差。因此,本領域需要一種能因應不同環境條件來分別採用不同語音活動偵測演算法的技術,以在不同環境條件下都達到良好的語音活動偵測表現。
本揭露的目的之一在於提供一種語音活動偵測裝置與方法,以避免先前技術的問題。
本揭露的語音活動偵測裝置的一實施例能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據。該實施例包含一環境偵測電路、一語音活動偵測電路以及一語音活動決策電路。該環境偵測電路用來處理一聲音輸入訊號以產生一環境偵測結果。該語音活動偵測電路用來依據複數種語音活動偵測演算法分析該聲音輸入訊號,以產生複數個語音活動偵測結果。該語音活動決策電路用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。
本揭露的語音活動偵測裝置的另一實施例能夠依據一環境偵測結果選擇複數種語音活動偵測演算法的其中之一,再據以產生一語音活動偵測結果作為是否有語音活動的根據。該語音活動裝置偵測裝置包含一環境偵測電路以及一語音活動偵測電路。該環境偵測電路用來處理一聲音輸入訊號以產生一環境偵測結果。該語音活動偵測暨決策電路用來依據該環境偵測結果選擇複數種語音活動偵測演算法的其中之一作為一有效語音活動偵測演算法,再依據該有效語音活動偵測演算法分析該聲音輸入訊號,以產生一語音活動偵測結果作為是否有語音活動的根據。
本揭露的語音活動偵測方法的一實施例能夠依據一環境偵測結果選擇複數種語音活動偵測結果/演算法的其中之一,包含下列步驟:接收並處理一聲音輸入訊號以產生該環境偵測結果;以及依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一作為一最終語音活動偵測結果,或者依據該環境偵測結果選擇該複數種語音活動偵測演算法的其中之一並據以產生該最終語音活動偵測結果,其中該複數個語音活動偵測結果是分別依據該複數種語音活動偵測演算法而產生。
有關本發明的特徵、實作與功效,茲配合圖式作較佳實施例詳細說明如下。
本揭露揭示一種語音活動偵測(voice activity detection, VAD)裝置與方法,能夠因應不同環境條件分別採用不同語音活動偵測結果/演算法,以達到良好的語音活動偵測表現。
圖2顯示本揭露之語音活動偵測裝置的一實施例,能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據。圖2的語音活動偵測裝置200包含一環境偵測電路210、一語音活動偵測電路220以及一語音活動決策電路。環境偵測電路210用來處理一聲音輸入訊號以產生一環境偵測結果。語音活動偵測電路220用來依據複數種語音活動偵測演算法分析該聲音輸入訊號,以產生複數個語音活動偵測結果;語音活動偵測電路220本身可為一已知或自行開發的電路,該複數種語音活動偵測演算法可為已知或自行開發的演算法,不同演算法的效能(例如:錯失值與誤觸發值)通常不同。語音活動決策電路230用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。
圖3顯示圖2之環境偵測電路210的一實施例,包含一訊號分析電路310、一能量變化偵測電路320以及一變化資訊決策電路330。該些電路分述如下。
請參閱圖3。訊號分析電路310用來依據該聲音輸入訊號產生
M個處理訊號,其中該
M個處理訊號為
M個頻帶訊號或
M個頻域訊號,
M為正整數。更詳細地說,在處理該聲音輸入訊號的過程中,訊號分析電路310會持續接收並取樣該聲音輸入訊號;在得到該聲音輸入訊號的J個取樣值(例如:複數個取樣值)足以形成一個音框(frame)後,訊號分析電路310再據以產生此音框的M個處理訊號。於一實作範例中,訊號分析電路310包含至少一濾波電路用來依據該聲音輸入訊號產生每個音框的
M個頻帶訊號;舉例而言,該至少一濾波電路包含
M個濾波器,每個濾波器產生一頻帶訊號,從而該
M個濾波器產生該
M個頻帶訊號。於另一實作範例中,訊號分析電路310包含至少一轉換電路(例如:快速傅立葉轉換(Fast Fourier Transform)電路)用來依據該聲音輸入訊號產生每個音框的
M個頻域訊號。
請參閱圖3。能量變化偵測電路320用來依據每個音框的
M個處理訊號進行計算,以產生每個音框的
個能量變化值,共產生
L個音框的
X個能量變化值,其中該
X等於
M乘以
L,
L為一音框個數。於一實作範例中,能量變化偵測電路320執行複數個步驟如圖4所示,包含:
步驟S410:依據該
L個音框的每一個的
M個處理訊號進行計算,以得到
X個訊號能量值。舉例而言,步驟S410依據底下式(1)計算每個頻帶/頻域訊號在每個音框裡的能量(例如:每個頻帶訊號在每個音框裡
N個取樣點的能量總和,每個取樣點對應一取樣週期像是
或
),以得到
M×
L=
X個訊號能量值(
E
m,l )。
式(1)
式(1)中,
l為音框索引(frame index)介於1與
L之間,
m為頻帶/頻域訊號索引介於1與
M之間,
M為對應第
l個音框的頻帶/頻域訊號的個數,
N為第
m個頻帶/頻域訊號在第
l個音框裡的資料點數,
x
m ,
l (
k)為第
m個頻帶/頻域訊號在第
l個音框裡的第
k個點的值。
步驟S420:依據該
X個訊號能量值與一短期音框個數(
p
st )計算
X個短期能量值,以及依據該
X個訊號能量值與一長期音框個數(
p
lt )計算
X個長期能量值。舉例而言,步驟S420依據底下式(2)計算該
X個短期平均能量值(
E_
st
m ,
l )與該
X個長期平均能量值(
E_
lt
m ,
l )。
式(2)
步驟S430:依據該
X個短期能量值與該
X個長期能量值得到
X個能量關係值。舉例而言,步驟S430依據底下式(3)計算該
X個能量關係值。
式(3)
步驟S440:比較該X個能量關係值的每一個與一能量閾值(
thr
m )以產生該X個能量變化值。舉例而言,若一能量關係值(
)大於該能量閾值,步驟S440令一能量變化值(
fg_
E_
var
m ,
l )為1代表能量變化大;若該能量關係值不大於該能量閾值,步驟S440令該能量變化值為0代表能量變化小。
請參閱圖3。變化資訊決策電路330用來處理該
X個能量變化值以產生
L個能量變化偵測值,接著比較該
L個能量變化偵測值的每一個與一變化閾值以產生
L個比較結果,然後依據該
L個比較結果產生該環境偵測結果。於一實作範例中,變化資訊決策電路330將該
X個能量變化值中每一音框(對應音框索引的每個值)的
M個能量變化值相加如底下式(4)所示,以產生
L個能量變化偵測值(
S_E_var
l );接著變化資訊決策電路330比較該
L個能量變化偵測值的每一個與一變化閾值(
thr)以產生
L個比較結果(
fg_S
l )如底下式(5)所示;若該
L個比較結果顯示複數個能量變化偵測值(例如:該
L個能量變化偵測值)中所有的/多數的能量變化偵測值大於該變化閾值,變化資訊決策電路330判斷目前環境的能量變化大;若該
L個比較結果顯示該複數個能量變化偵測值中所有的/多數的能量變化偵測值小於該變化閾值,變化資訊決策電路330判斷目前環境的能量變化小。
式(4)
fg_S
l 代表
與
thr之間的比較結果 式(5)
請參閱圖2與圖3。語音活動決策電路230依據一預設規則與該
L個比較結果的變化,選擇該複數個語音活動偵測結果的其中之一。該預設規則在該
L個比較結果的變化大於一預設變化程度時(亦即:目前環境的能量變化大時),選擇該複數個語音活動偵測結果中的一偵測結果;該預設規則在該
L個比較結果的變化小於該預設變化程度時(亦即:目前環境的能量變化小時),選擇該複數個語音活動偵測結果中的另一偵測結果。舉例而言,以音高為基礎的語音活動偵測(pitch-based VAD)以及以能量為基礎的語音活動偵測(energy-based VAD)的特性如底下表1所示;若語音活動決策電路230先考量低錯失值(miss value)再考量低誤觸發值(false trigger value),在目前環境能量變化大的情況下,語音活動決策電路230選擇以能量為基礎的語音活動偵測結果,而在目前環境能量變化小的情況下,語音活動決策電路230選擇以音高為基礎的語音活動偵測結果。
表1
環境能量變化大的情況下的錯失值 | 環境能量變化大的情況下的誤觸發值 | 環境能量變化小的情況下的錯失值 | 環境能量變化小的情況下的誤觸發值 | |
以音高為基礎的語音活動偵測 | 高 | 低 | 低 | 低 |
以能量為基礎的語音活動偵測 | 低 | 高 | 低 | 高 |
圖5顯示圖2之環境偵測電路210的另一實施例,包含一特徵萃取電路510與一分類電路520。特徵萃取電路510用來依據至少一特徵萃取演算法處理該聲音輸入訊號,以產生至少一雜訊特徵,該至少一特徵萃取演算法為已知或自行開發的分析技術,像是梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficient, MFCC)、線性預測編碼(Linear Predictive Coding, LPC)、線性預測倒譜系數(Linear Predictive Cepstral Coefficient, LPCC)等。分類電路520用來依據該至少一雜訊特徵決定至少一雜訊類型作為該環境偵測結果;舉例而言,分類電路520依據特徵萃取電路510提供的雜訊特徵,透過已訓練好的統計模型如隱藏式馬可夫模型(Hidden Markov Model, HMM)與高斯混和模型(Gaussian Mixture Model, GMM),或透過機器學習方法(machine learning)如支援向量機(Support Vector Machine, SVM)與神經網路(Neural Network, NN),得到相對應的雜訊類型作為該環境偵測結果。
請參閱圖2與圖5。語音活動決策電路230依據一預設規則與該至少一雜訊類型選擇該複數個語音活動偵測結果的其中之一。該預設規則在該雜訊類型為一非穩態(non-stationary)雜訊類型時,選擇該複數個語音活動偵測結果中的一偵測結果;該預設規則在該雜訊類型為一穩態(stationary)雜訊類型時,選擇該複數個語音活動偵測結果中的另一偵測結果。舉例而言,若語音活動決策電路230先考量低錯失值再考量低誤觸發值,當雜訊類型為音樂聲時(非穩態雜訊類型時),語音活動決策電路230選擇以能量為基礎的語音活動偵測結果;當雜訊類型為風扇聲時(穩態雜訊類型),語音活動決策電路230選擇以音高為基礎的語音活動偵測結果。
圖6顯示本揭露之語音活動偵測裝置的另一實施例,能夠依據一環境偵測結果選擇複數種語音活動偵測演算法的其中之一,從而依據所選擇的語音活動偵測演算法來產生一語音活動偵測結果作為是否有語音活動的根據。圖6的語音活動裝置偵測裝置600包含一環境偵測電路610與一語音活動偵測暨決策電路620。該些電路說明於下。
環境偵測電路610的一實施例為圖3或圖5的環境偵測電路210。語音活動偵測暨決策電路620用來依據環境偵測電路610的環境偵測結果,選擇該複數種語音活動偵測演算法的其中之一作為一有效語音活動偵測演算法,再依據該有效語音活動偵測演算法分析該聲音輸入訊號,以產生一語音活動偵測結果作為是否有語音活動的根據。舉例而言,當環境偵測電路610為圖3的環境偵測電路210時,語音活動偵測暨決策電路620依據一預設規則與該
L個比較結果的變化,選擇該複數種語音活動偵測演算法的其中之一作為該有效語音活動偵測演算法;該預設規則在該
L個比較結果的變化大於一預設變化程度時,選擇該複數個語音活動偵測演算法中的一演算法(例如:以能量為基礎的語音活動偵測演算法),該預設規則在該
L個比較結果的變化小於該預設變化程度時,選擇該複數個語音活動偵測演算法的另一演算法(例如:以音高為基礎的語音活動偵測演算法)。另舉例而言,當環境偵測電路610為圖5的環境偵測電路210時,語音活動偵測暨決策電路620依據一預設規則與該至少一雜訊類型選擇該複數種語音活動偵測演算法的其中之一作為該有效語音活動偵測演算法;該預設規則在該雜訊類型為一非穩態雜訊類型時,選擇該複數個語音活動偵測演算法中的一演算法(例如:以能量為基礎的語音活動偵測演算法),該預設規則在該雜訊類型為一穩態雜訊類型時,選擇該複數個語音活動偵測演算法中的另一演算法(例如:以音高為基礎的語音活動偵測演算法)。值得注意的是,利用該有效語音活動偵測演算法分析該聲音輸入訊號的技術可為已知或自行開發的技術。
由於本領域具有通常知識者能夠參酌圖2之實施例的揭露來瞭解圖6之實施例的細節與變化,亦即圖2之實施例的技術特徵可合理地應用於圖6之實施例中,因此,重複及冗餘之說明在此予以節略。
圖7顯示本揭露之語音活動偵測方法的一實施例,是由圖2的語音活動偵測裝置200或圖6的語音活動偵測裝置600來執行。圖7的語音活動偵測方法包含下列步驟:
步驟S710:接收並處理一聲音輸入訊號以產生該環境偵測結果;以及
步驟S720:依據該環境偵測結果選擇複數個語音活動偵測結果的其中之一作為一最終語音活動偵測結果,或者依據該環境偵測結果選擇複數種語音活動偵測演算法的其中之一並據以產生該最終語音活動偵測結果,其中該複數個語音活動偵測結果是分別依據該複數種語音活動偵測演算法而產生。
由於本領域具有通常知識者能夠參酌圖2與圖6之實施例的揭露來瞭解圖7之實施例的細節與變化,亦即圖2與圖6之實施例的技術特徵可合理地應用於圖7之實施例中,因此,重複及冗餘之說明在此予以節略。
請注意,在實施為可能的前提下,本技術領域具有通常知識者可選擇性地實施前述任一實施例中部分或全部技術特徵,或選擇性地實施前述複數個實施例中部分或全部技術特徵的組合,藉此增加本發明實施時的彈性。
綜上所述,本發明能夠因應不同環境條件來分別採用不同語音活動偵測結果/演算法,以在不同環境條件下都達到良好的語音活動偵測表現。
雖然本發明之實施例如上所述,然而該些實施例並非用來限定本發明,本技術領域具有通常知識者可依據本發明之明示或隱含之內容對本發明之技術特徵施以變化,凡此種種變化均可能屬於本發明所尋求之專利保護範疇,換言之,本發明之專利保護範圍須視本說明書之申請專利範圍所界定者為準。
S110~S150:步驟
200:語音活動偵測裝置
210:環境偵測電路
220:語音活動偵測電路
230:語音活動決策電路
310:訊號分析電路
320:能量變化偵測電路
330:變化資訊決策電路
S410~S440:步驟
510:特徵萃取電路
520:分類電路
600:語音活動裝置偵測裝置
610:環境偵測電路
620:語音活動偵測暨決策電路
S710~S720:步驟
[圖1]顯示一般的語音喚醒系統的運作流程圖;
[圖2]顯示本揭露之語音活動偵測裝置的一實施例;
[圖3]顯示圖2之環境偵測電路的一實施例;
[圖4]顯示圖3之能量變化偵測電路所執行的步驟;
[圖5]顯示圖2之環境偵測電路的另一實施例;
[圖6]顯示本揭露之語音活動偵測裝置的另一實施例;以及
[圖7]顯示本揭露之語音活動偵測方法的一實施例。
200:語音活動偵測裝置
210:環境偵測電路
220:語音活動偵測電路
230:語音活動決策電路
Claims (8)
- 一種語音活動偵測裝置,能夠依據一環境偵測結果選擇複數個語音活動偵測結果的其中之一作為是否有語音活動的根據,該語音活動裝置偵測裝置包含:一環境偵測電路,用來處理一聲音輸入訊號以產生該環境偵測結果;一語音活動偵測電路,用來依據複數種語音活動偵測演算法分析該聲音輸入訊號,以產生該複數個語音活動偵測結果;以及一語音活動決策電路,用來依據該環境偵測結果選擇該複數個語音活動偵測結果的其中之一。
- 如請求項1之語音活動偵測裝置,其中該環境偵測電路包含:一訊號分析電路,用來依據該聲音輸入訊號產生L個音框的每一個的M個處理訊號,其中該M個處理訊號為M個頻帶訊號或M個頻域訊號,該M為正整數,該L為一音框個數;一能量變化偵測電路,用來依據該L個音框的每一個的該M個處理訊號進行計算,以產生該L個音框的X個能量變化值,其中該X等於該M乘以L;以及一變化資訊決策電路,用來處理該X個能量變化值以產生L個能量變化偵測值,接著比較該L個能量變化偵測值的每一個與一變化閾值以產生L個比較結果,再依據該L個比較結果產生該環境偵測結果,其中該L個能量變化偵測值分別對應該L個音框。
- 如請求項2之語音活動偵測裝置,其中該訊號分析電路包含至少一濾波電路用來依據該聲音輸入訊號產生該L個音框的每一個的該M個頻帶訊 號,或者該訊號分析電路包含至少一轉換電路用來依據該聲音輸入訊號產生該L個音框的每一個的該M個頻域訊號。
- 如請求項2之語音活動偵測裝置,其中該變化資訊決策電路將該L個音框的每一個的M個能量變化值相加,以產生該L個能量變化偵測值。
- 如請求項2之語音活動偵測裝置,其中該語音活動決策電路依據一預設規則與該L個比較結果,選擇該複數個語音活動偵測結果的其中之一;該預設規則在該L個比較結果的多數個大於一變化閾值時,選擇該複數個語音活動偵測結果中的一偵測結果,該預設規則在該L個比較結果的多數個小於該變化閾值時,選擇該複數個語音活動偵測結果中的另一偵測結果。
- 如請求項1之語音活動偵測裝置,其中該環境偵測電路包含:一特徵萃取電路,用來依據至少一特徵萃取演算法處理該聲音輸入訊號,以產生至少一雜訊特徵;以及一分類電路,用來依據該至少一雜訊特徵決定至少一雜訊類型作為該環境偵測結果。
- 如請求項6之語音活動偵測裝置,其中該語音活動決策電路依據一預設規則與該至少一雜訊類型選擇該複數個語音活動偵測結果的其中之一;該預設規則在該雜訊類型為一非穩態(non-stationary)雜訊類型時,選擇該複數個語音活動偵測結果中的一偵測結果,該預設規則在該雜訊類型為一穩態(stationary)雜訊類型時,選擇該複數個語音活動偵測結果中的另一偵測結果。
- 一種語音活動偵測裝置,能夠依據一環境偵測結果選擇複數種語音活動偵測演算法的其中之一,該語音活動裝置偵測裝置包含: 一環境偵測電路,用來處理一聲音輸入訊號以產生該環境偵測結果;以及一語音活動偵測暨決策電路,用來依據該環境偵測結果選擇該複數種語音活動偵測演算法的其中之一作為一有效語音活動偵測演算法,再依據該有效語音活動偵測演算法分析該聲音輸入訊號,以產生一語音活動偵測結果作為是否有語音活動的根據。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109130731A TWI756817B (zh) | 2020-09-08 | 2020-09-08 | 語音活動偵測裝置與方法 |
US17/465,888 US11875779B2 (en) | 2020-09-08 | 2021-09-03 | Voice activity detection device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109130731A TWI756817B (zh) | 2020-09-08 | 2020-09-08 | 語音活動偵測裝置與方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI756817B true TWI756817B (zh) | 2022-03-01 |
TW202211213A TW202211213A (zh) | 2022-03-16 |
Family
ID=80470120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109130731A TWI756817B (zh) | 2020-09-08 | 2020-09-08 | 語音活動偵測裝置與方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11875779B2 (zh) |
TW (1) | TWI756817B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001073751A1 (en) * | 2000-03-28 | 2001-10-04 | Tellabs Operations, Inc. | Speech presence measurement detection techniques |
US20200184944A1 (en) * | 2017-07-18 | 2020-06-11 | INVISIO Communications A/S | An audio device with adaptive auto-gain |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
US7769585B2 (en) * | 2007-04-05 | 2010-08-03 | Avidyne Corporation | System and method of voice activity detection in noisy environments |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
EP2491548A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER |
WO2012083552A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for voice activity detection |
CN104871436B (zh) * | 2012-12-18 | 2018-03-16 | 摩托罗拉解决方案公司 | 用于减轻在数字无线电接收器中的反馈的方法和设备 |
US11450336B1 (en) * | 2020-11-25 | 2022-09-20 | Dialpad, Inc. | System and method for smart feedback cancellation |
-
2020
- 2020-09-08 TW TW109130731A patent/TWI756817B/zh active
-
2021
- 2021-09-03 US US17/465,888 patent/US11875779B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001073751A1 (en) * | 2000-03-28 | 2001-10-04 | Tellabs Operations, Inc. | Speech presence measurement detection techniques |
US6671667B1 (en) * | 2000-03-28 | 2003-12-30 | Tellabs Operations, Inc. | Speech presence measurement detection techniques |
US20200184944A1 (en) * | 2017-07-18 | 2020-06-11 | INVISIO Communications A/S | An audio device with adaptive auto-gain |
Also Published As
Publication number | Publication date |
---|---|
US11875779B2 (en) | 2024-01-16 |
TW202211213A (zh) | 2022-03-16 |
US20220076659A1 (en) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200227071A1 (en) | Analysing speech signals | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
Moattar et al. | A simple but efficient real-time voice activity detection algorithm | |
CN108538310B (zh) | 一种基于长时信号功率谱变化的语音端点检测方法 | |
US20150228277A1 (en) | Voiced Sound Pattern Detection | |
US20060053009A1 (en) | Distributed speech recognition system and method | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
EP2083417B1 (en) | Sound processing device and program | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
US20240194220A1 (en) | Position detection method, apparatus, electronic device and computer readable storage medium | |
Shuiping et al. | Design and implementation of an audio classification system based on SVM | |
EP3574499A1 (en) | Methods and apparatus for asr with embedded noise reduction | |
GB2576960A (en) | Speaker recognition | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
WO2016173675A1 (en) | Suitability score based on attribute scores | |
TWI756817B (zh) | 語音活動偵測裝置與方法 | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
US11205433B2 (en) | Method and apparatus for activating speech recognition | |
CN116830191A (zh) | 基于热词属性调配自动语音识别参数 | |
CN112216285A (zh) | 多人会话检测方法、系统、移动终端及存储介质 |