KR20060131705A - 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 - Google Patents
복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 Download PDFInfo
- Publication number
- KR20060131705A KR20060131705A KR1020060118896A KR20060118896A KR20060131705A KR 20060131705 A KR20060131705 A KR 20060131705A KR 1020060118896 A KR1020060118896 A KR 1020060118896A KR 20060118896 A KR20060118896 A KR 20060118896A KR 20060131705 A KR20060131705 A KR 20060131705A
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- speech
- signal
- statistical model
- voice
- Prior art date
Links
- 238000013179 statistical model Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 11
- 230000000694 effects Effects 0.000 title claims abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 6
- 238000003657 Likelihood-ratio test Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
Abstract
Description
Claims (6)
- 복소수 감마 통계 모델(complex gamma statistical model)에 기초한 음성 검출(VAD; Voice Activity Detection) 방법으로서,입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계;상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계; 및상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식을 이용하여 계산하는 단계- 여기서, 가설 H0과 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수, 와 는 각각 잡음 Nk 및 순수 음 성 Sk의 분산, , Xk (R)와 Xk (I)는 Xk의 실수부와 허수부를 나타냄 -를 포함하는 방법.
- 복소수 감마 통계 모델(complex gamma statistical model)에 기초한 음성 검출기(Voice Activity Detector)로서,입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호로 부터 잡음 신호의 파워를 추정하는 잡음 파워 추정부;상기 잡음 파워 추정부에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 우도비 결정부; 및상기 우도비 결정부에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식을 이용하여 계산하는 결정 규칙 계산부- 여기서, 가설 H0과 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수, 와 는 각각 잡음 Nk 및 순수 음성 Sk의 분산, , Xk (R)와 Xk (I)는 Xk의 실수부와 허수부를 나타냄 -를 포함하는 음성 검출기.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060118896A KR100718749B1 (ko) | 2006-11-29 | 2006-11-29 | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060118896A KR100718749B1 (ko) | 2006-11-29 | 2006-11-29 | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060131705A true KR20060131705A (ko) | 2006-12-20 |
KR100718749B1 KR100718749B1 (ko) | 2007-05-15 |
Family
ID=37811643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060118896A KR100718749B1 (ko) | 2006-11-29 | 2006-11-29 | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100718749B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100866580B1 (ko) * | 2007-02-21 | 2008-11-03 | 인하대학교 산학협력단 | 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 |
CN112017674A (zh) * | 2020-08-04 | 2020-12-01 | 杭州联汇科技股份有限公司 | 一种基于音频特征检测广播音频信号中噪声的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100284772B1 (ko) * | 1999-02-20 | 2001-03-15 | 윤종용 | 음성 검출 장치 및 그 방법 |
KR100513175B1 (ko) * | 2002-12-24 | 2005-09-07 | 한국전자통신연구원 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
KR100530261B1 (ko) * | 2003-03-10 | 2005-11-22 | 한국전자통신연구원 | 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법 |
-
2006
- 2006-11-29 KR KR1020060118896A patent/KR100718749B1/ko active IP Right Grant
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100866580B1 (ko) * | 2007-02-21 | 2008-11-03 | 인하대학교 산학협력단 | 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 |
CN112017674A (zh) * | 2020-08-04 | 2020-12-01 | 杭州联汇科技股份有限公司 | 一种基于音频特征检测广播音频信号中噪声的方法 |
CN112017674B (zh) * | 2020-08-04 | 2024-02-02 | 杭州联汇科技股份有限公司 | 一种基于音频特征检测广播音频信号中噪声的方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100718749B1 (ko) | 2007-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8380497B2 (en) | Methods and apparatus for noise estimation | |
Chang et al. | Voice activity detection based on multiple statistical models | |
KR100513175B1 (ko) | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 | |
Cohen | Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging | |
CN109643552B (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
Davis et al. | Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold | |
Li et al. | An improved voice activity detection using higher order statistics | |
CN109410977B (zh) | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 | |
JP2008534989A (ja) | 音声アクティビティ検出装置および方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
US20040158462A1 (en) | Pitch candidate selection method for multi-channel pitch detectors | |
EP2148325A1 (en) | Method for determining the presence of a wanted signal component | |
KR100718846B1 (ko) | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 | |
CN105513614A (zh) | 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 | |
Zhang et al. | A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator | |
KR102136700B1 (ko) | 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법 | |
KR100718749B1 (ko) | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 | |
US7343284B1 (en) | Method and system for speech processing for enhancement and detection | |
Lee et al. | Statistical model-based VAD algorithm with wavelet transform | |
Chang et al. | Likelihood ratio test with complex laplacian model for voice activity detection. | |
Górriz et al. | Improved MO-LRT VAD based on bispectra Gaussian model | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 | |
Hizlisoy et al. | Noise robust speech recognition using parallel model compensation and voice activity detection methods | |
Sanam et al. | Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function | |
Davis et al. | A low complexity statistical voice activity detector with performance comparisons to ITU-T/ETSI voice activity detectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130325 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140508 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150429 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160503 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170508 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180910 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20191111 Year of fee payment: 13 |