KR20040056977A - 복소수 라플라시안 통계모델을 이용한 음성 검출기 및음성 검출 방법 - Google Patents
복소수 라플라시안 통계모델을 이용한 음성 검출기 및음성 검출 방법 Download PDFInfo
- Publication number
- KR20040056977A KR20040056977A KR1020020083728A KR20020083728A KR20040056977A KR 20040056977 A KR20040056977 A KR 20040056977A KR 1020020083728 A KR1020020083728 A KR 1020020083728A KR 20020083728 A KR20020083728 A KR 20020083728A KR 20040056977 A KR20040056977 A KR 20040056977A
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- voice
- signal
- laplacian
- speech
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 9
- 238000013179 statistical model Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 8
- 238000003657 Likelihood-ratio test Methods 0.000 abstract description 10
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 16
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Complex Calculations (AREA)
Abstract
본 발명은 복소수 라플라시안 통계 모듈을 이용한 음성 검출기에 관한 것이다. 본 발명의 음성검출기는 입력된 음성에 대하여 고속 푸리에 변환을 수행하여 시간 영역의 음성신호를 주파수 영역에서 분석할 수 있도록 하는 고속 주파수 푸리에 변환기, 상기 고속 주파수 푸리에 변환기로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성으로부터 잡음 신호의 파워 를 추정하는 잡음 파워 추정부, 상기 잡음 파워 추정부로부터 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 음성검출기(VAD)의 결정 규칙을 계산하는 가능성 비율 테스트(LRT) 계산부를 포함한다.
Description
본 발명은 음성 검출기 및 음성 검출 방법에 관한 것으로서, 특히 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법에 관한 것이다.
3GPP 및 3GPP2 등에서 제안되고 있는 많은 광대역 음성(speech) 코덱들이 가변율 전송(variable rate transmission) 기술을 요구한다. 이러한 가변율 전송을 위해, 음성 코덱(codec)은 음성이 없는 경우에 적은 비트를 할당할 수 있는 음성 검출기(voice activity detector)를 채택해야 한다. 즉, 음성 검출(voice Activity Detection, 이하 'VAD'라 함) 기술이 가변율 음성 부호화(variable rate speechcoding) 및 잡음 향상 기술에서 필수 불가결한 요소로 취급되고 있다.
최근 잡음이 섞인 음성(noisy speech; 이하 '잡음 음성'이라 함)으로부터 잡음과 음성을 분류하는 VAD 알고리즘의 성능을 향상시키기 위해 많은 방법들이 제안되고 있는데, 그 중 하나가 음성의 스펙트럼은 잡음의 스펙트럼보다 빨리 변한다는 직관(intuition)을 이용한 스펙트럼 비규칙성 측정 기반 모델(spectral irregularity measure-based model)이다. 그러나, 이 모델에 따르면 음성과 같은 스펙트럼을 가지는 잡음이 포함될 경우, 시스템의 성능이 극도로 떨어질 수 있다는 문제점이 있다.
한편, 통계적 모델을 채택하여 VAD의 성능을 향상시키기 위한 새로운 알고리즘이 "A statistical model-based voice activity detection",IEEE Signal Processing Letters, Vol. 6, No. 1 pp1-3, Jan. 1999 by J.Sohn, N.S. Kim and W.Sung의 논문(이하 '참조문헌 1'이라 함)에 제안되었다. 상기 모델은 가설의 집합에 적용되는 가능성 비율 테스트(likelihood ratio test; 이하 'LRT'라 함)로부터 VAD의 결정 규칙(decision rule)을 추출한다.
VAD 알고리즘은 주로 이산 푸리에 변환(discrete Fourier transform; 이하 'DFT'라 함) 영역에서 동작하는데, 종래의 VAD 알고리즘은 복소수 가우시안 밀도(complex Gaussian density)에 의해 규정되는 순수 음성(clean speech)과 잡음의 스펙트럼 분포를 사용하였다.
그러나, DFT 계수를 복소수 가우시안 분포를 사용하여 순수 음성과 잡음을 모델링할 경우 정확성에 일정 정도 한계가 있었기 때문에, DFT 계수를 모델링할 새로운 분포 모델이 요구되고 있다.
본 발명은 복소수 라플라시안 모델을 채택한 음성 검출기 및 검출 방법을 제공하기 위한 것으로서, 라플라시안 모델과 가우시안 모델의 성능을 비교한다.
도 1은 음성 스펙트럼의 라플라시안 누적 밀도 함수 및 가우시안 누적 밀도 함수를 경험적인 누적 밀도 함수와 비교한 곡선이다.
도 2는 라플라시안 모델과 가우시안 모델을 각각 적용한 음성 검출기의 수신기 동작 특성을 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 음성 검출기를 나타내는 도면이다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 복소수 라플라시안 통계 모듈을 이용한 음성 검출기는
입력된 음성에 대하여 고속 푸리에 변환을 수행하여, 시간영역의 음성신호를 주파수 영역에서 분석할 수 있도록 하는 고속 주파수 푸리에 변환기;
상기 고속 주파수 푸리에 변환기로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 잡음 파워 추정부;
상기 잡음 파워 추정부(20)로부터 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD(voice activity detection)의 결정 규칙을 계산하는 가능성 비율 테스트(LRT) 계산부를 포함한다.
또한, 본 발명의 특징에 따른 복소수 라플라시안 통계 모듈을 이용한 음성 검출 방법은
잡음에 오염된 음성에 대하여 고속 푸리에 변환을 수행하여, 주파수 영역에서 분석할 수 있도록 출력하는 단계;
상기 단계에서 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 단계;
상기 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD의 결정 규칙을 계산하는 단계를 포함한다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 실시예는 다양한 잡음 조건에서 잡음에 오염된 음성신호의 DFT 계수를 VAD에 적용하기 위해 복소수 라플라시안 모델을 제안한다.
본 발명의 실시예에서는 먼저 다양한 잡음에 오염된 음성 조건하에서 적합 양호성(Goodness Of Fit; 이하 'GOF'라 함) 테스트를 적용함으로써 라플라시안 모델과 가우시안 모델을 비교한 후, 가능성 비율 테스트(Likelihood Ration Test; 이하 'LRT'라 함에 기반한 결정 규칙(Decision Rule)을 고려한다.
1. 통계적 모델
먼저, 잡음 신호 X(t)와 음성 신호 S(t)의 합이 X(t)라고 가정한다. 이때, 가설 H0와 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타낸다. 즉, 가설 H0와 H1에서, X(t)는 다음의 수학식 1과 수학식 2를 만족한다.
여기서, X(t) = [X0(t), X1(t), ..., XM-1(t)]T, N(t) = [N0(t), N1(t), ..., NM-1(t)]T, S(t) = [S0(t), S1(t), ..., SM-1(t)]T는 각각 잡음 음성, 잡음 및 순수 음성의 이산 푸리에 변환(DFT) 계수이다.
상기한 통계적 모델은 적절한 DFT 계수 분포를 선택함으로써 완료된다. 본 발명의 실시예에서는 DFT 계수의 적절한 분포로서 가우시안 확률 밀도 함수(probabilistic density function, 이하 'PDF"라 함)를 채택하는 대신 복소수 라플라시안 확률밀도 함수를 채택하였다.
복소수 가우시안 PDF에서, 양 가설(H0, H1)에 의해 결정되는 잡음 스펙트럼 요소(noisy spectral component)의 분포는 다음의 수학식 3과 수학식 4와 같이 주어진다.
여기서,와는 각각 잡음 Nk와 순수 음성 Sk의 분산(variance)을 나타낸다.
한편, 복소수 라플라시안 PDF에서, DFT 계수 Xk의 실수부(real part)와 허수부(imaginary part)를 각각 Xk(R)와 Xk(I)로 가정하면, Xk(R)와 Xk(I)는 다음의 수학식 5와 6과 같이 분포된다.
여기서,는 Xk의 분산을 나타낸다. Xk의 실수부와 허수부가 독립적이라고 가정하면, 수학식 7과 같은 확률 밀도 함수 p(Xk)를 구할 수 있다.
상기 수학식 7을 사용하여, 다음의 수학식 8과 9와 같은 잡음 DFT 계수의 분포를 구할 수 있다.
성공적인 VAD 동작을 위해서, 본 발명의 실시예에서는 H0와 H1에 의해 결정되는 잡음 스펙트럼 요소를 위한 통계적 적합성 테스트(statistical fitting test)를 수행한다.
확률밀도함수(PDF)의 선택을 위해, 본 발명의 실시예에서는 GOF 테스트로서 잘 알려진 Kolomogorov-Sriminov 테스트(이사, 'KS 테스트'라 함)를 적용한다. KS 테스트를 적용함으로써, 각 통계적인 가정에 대한 신뢰성 있는 관측을 보장할 수 있다.
KS 테스트는 경험적인(empirical) 누적 분포 함수(cumulative distribution function; 이하 'CDF'라 함) Fx를 소정의 분포 함수 F와 비교한다. 경험적 CDF는 R.C. Reininger와 D.Gibson이 발표한 논문(이하. '참조논문 2'이라 함)인 "Distributions of the two dimensional DCT coefficients for images,"IEEE Trans. Communications., Vol. Com-31, No. 6, June 1983를 사용하였다.
상기 논문에 기초한 경험적 CDF는가 잡음음성의 DFT 계수를 나타내는 벡터라고 가정할 때, 다음의 수학식 10으로 나타낼 수 있다.
여기서,은 데이터 X의 순서 통계(order statistic)이다. 이러한 순서 통계를 계산하기 위해, 본 발명의 실시예에서는 X의 원소(element)를 분류하여, X의 가장 작은 원소인 X(0)에서부터 가장 큰 원소인 X(N-1)까지 순서대로 배열한다.
잡음 환경을 모의 실험하기 위해, 서로 다른 4명의 남성과 여성 화자로부터, 64초구간의 음성 자료(speech material)를 수집하였으며, NOISEX-92 데이터베이스로부터 추출한 백색 잡음(white noise)과 차량 잡음(vehicular noise)을 신호대 잡음비(SNR)가 10dB인 순수 음성 신호에 첨가하였다. 수집한 상기 데이터를 사용하여, 표본 평균과 분산을 계산하였으며, 주어진 라플라시안 분포와 가우시안 분포에 적용하였다.
도 1은 잡음 음성 스펙트럼(실수부)의 라플라시안 CDF 및 가우시안 CDF를 경험적인 CDF와 비교한 그래프로서, (a)와 (b)는 각각 H1이 백색 잡음(SNR=10dB)과 차량 잡음(SNR=20)인 경우를 나타낸다.
도 1로부터, 백색 잡음 및 차량 잡음 환경 모두에서 라플라시안 CDF의 곡선이 가우시안 CDF의 곡선 보다 경험적인 CDF 곡선에 가깝다는 것을 알 수 있다.
경험적인 CDF와 주어진 분포 사이의 거리 측정을 규정하기 위해, 본 발명의 실시예에서는 상기 참조논문 2에서 제안한 KS 테스트 통계량(statistic)을 사용한다.
KS 테스트 통계량(T)는 다음의 수학식 11과 같이 정의된다.
여기서, 표본 포인트{Xi}에서 구한 Fx(Xi)와 F(Xi) 사이의 최대 차이가 거리에 해당한다.
몇몇 분포에 대하여 데이터를 테스트하는 경우, 최소의 KS 통계량을 나타내는 분포는 주어진 데이터에 가장 적합한 것으로 고려될 수 있다. 표 1은 다양한 잡음 환경하의 잡음 음성의 DFT 계수를 위한 KS 테스트의 결과를 나타낸다. 표 1에서 G와 L은 각각 가우시안 분포와 라플라시안 분포를 나타낸다.
표 1로부터, 모든 잡음 환경 하에서 라플라시안 모델의 KS 통계량(T)이 가우시안 모델의 KS 통계량 보다 적음을 알 수 있다. 따라서, 라플라시안 모델이 가우시안 모델보다 DFT 계수를 모델링하는데 훨씬 정확하다는 것을 알 수 있다.
2. LRT에 기초한 결정 규칙
본 발명의 실시예는 가정된 통계적 모델에 기초하여, k번째 주파수 빈(bin)에 대한 가능성 비율(likelihood ratio; 이하 'LR'이라 함)을 수학식 12와 같이 계산하였다.
VAD를 위한 결정 규칙(decision rule)은 개별 주파수 채널에 대한 LR의 기하학적 평균으로 정의될 수 있으며, 이것은 다음의 수학식 13과 같이 나타낼 수 있다.
여기서,은 결정을 위한 문턱값이다.
H0및 H1에 대한 종래의 가우시안 분포에서 LR은 다음의 수학식 14에 의해 구해진다.
여기서,이고,이다.
한편, 라플라시안 모델에 기초하여 계산된 LR은 다음의 수학식 15와 같다.
여기서, VAD의 성공 또는 실패 여부는 통계적인 모델뿐만 아니라 잡음 파워(noise power)와 음성 파워(speech power)에 대한 적절한 추정에 의해서도 결정된다.
3. 실험 결과
본 발명의 실시예에서는 라플라시안 모델의 성능과 가우시안 모델의 성능을 비교하기 위해, 각 통계적 모델에 대한 음성 감지 확률(P d )과 오류(false alarm) 확률(P f )을 조사하였다.
도 2는 5dB SNR에서 라플라시안 모델과 가우시안 모델을 적용한 VAD의 수신기 동작 특성을 나타내는 그래프로서, (a)와 (b)는 백색 잡음과 차량 잡음인 경우를 나타낸다. 도 2에서, 세로축과 가록축이 각각 음성 감지 확률(P d )과 오류(false alarm) 확률(P f )을 나타낸다.
도2에 도시한 수신기 동작 특성으로부터, 두 통계 모델의P d 와P f 사이에는트레이드-오프가 존재한다는 것을 알 수 있으며, 음성 감지 확률(P d )이 정상 영역(90% 이상)에 있으면, 복소수 라플라시안 모델 기반의 결정 규칙인 복소수 가우시안 기반의 결정 규칙보다 더 좋다는 것을 알 수 있다.
이상에서 설명한 바와 같이, 다양한 잡음 환경에서 복소수 라플라시안 모델 기반의 VAD가 복소수 가우시안 기반의 VAD 보다 더 좋은 성능을 나타낸다는 것을 알 수 있다.
다음은 본 발명의 실시예에 따른 복소수 라플라시안 모델을 적용한 음성 검출기에 대하여 설명한다.
도 3은 본 발명의 실시예에 따른 음성 검출기를 나타내는 도면이다.
도 3에 도시한 바와 같이, 본 발명의 실시예에 따른 음성 검출기는 고속 푸리에 변환기(10, Fast Fourier Transformer; FFT), 잡음 파워 추정부(20), LRT 계산부(30)를 포함한다.
FFT(10)는 입력된 음성을 고속 푸리에 변환하여, 음성신호를 주파수 영역에서 분석할 수 있도록 잡음에 오염된 음성(X(k))을 출력한다. 잡음 파워 추정부(20)는 상기 FFT(10)로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워를 추정한다. LRT(Likelihood Ratio Test) 계산부(30)는 상기 잡음 파워 추정부(20)로부터 추정된 잡음 신호의 파워와 기정의된 음성신호의 존재가설(H0, H1)에 대한 복소수 라플라시안 확률 통계 모델로부터 VAD의 결정 규칙을 계산한다.
이때, 결정 규칙은 앞서 설명한 바와 같이, 개별 주파수 빈에 대한 가능성 비율들(Likelihood ratios)에 대한 기하 평균으로 정의되며, 라플라시안 모델의 가능성 비율은 수학식 15에 의해 결정된다.
이상에서 본 발명의 실시예에 대하여 설명하였으나, 본 발명은 상기한 실시예에만 한정되는 것은 아니며, 그 외의 다양한 변경이나 변형이 가능하다.
이상에서 설명한 바와 같이, 본 발명의 음성 검출기는 라플라시안 통계 분포를 사용하기 때문에, 복소수 가우시안 기반의 VAD 보다 더 좋은 성능을 나타낼 수 있다.
Claims (5)
- 입력된 음성에 대하여 고속 푸리에 변환을 수행하여, 시간영역의 음성신호를 주파수 영역에서 분석할 수 있도록 하는 고속 주파수 푸리에 변환기;상기 고속 주파수 푸리에 변환기로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 잡음 파워 추정부;상기 잡음 파워 추정부(20)로부터 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD(voice activity detection)의 결정 규칙을 계산하는 가능성 비율 테스트(LRT) 계산부를 포함하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출기.
- 제1항에 있어서,상기 결정 규칙은 k 번째 주파수에 대한 가능성 비율()의 기하학적 평균이며, 상기 가능성 비율은 다음의 식, - 가설 H0와 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수를 나타냄-으로 결정되는 것을 특징으로 하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출기.
- 제2항에 있어서,상기 라플라시안 통계 모듈을 적용한 가능성 비율은 다음의 수학식으로-여기서,이고, Xk(R)와 Xk(I)는 Xk의 실수부와 허수부를 나타냄-결정되는 것을 특징으로 하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출기.
- 입력된 음성에 대하여 고속 푸리에 변환을 수행하여, 시간영역의 음성신홀르 주파수 영역에서 분석할 수 있도록 잡음 음성(X(k))을 출력하는 단계;상기 단계에서 출력되는 주파수 영역 상의 잡음 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 단계;상기 추정된 잡음에 오염된 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD의 결정 규칙을 계산하는 단계를 포함하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출방법.
- 제4항에 있어서,상기 결정 규칙은 k 번째 주파수에 대한 가능성 비율의 기하학적 평균이며, 상기 가능성 비율은 다음의 식-여기서, 가설 H0와 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수,, Xk(R)와 Xk(I)는 Xk의 실수부와 허수부를 나타냄-으로 결정되는 것을 특징으로 하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0083728A KR100513175B1 (ko) | 2002-12-24 | 2002-12-24 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
US10/699,126 US20040122667A1 (en) | 2002-12-24 | 2003-10-30 | Voice activity detector and voice activity detection method using complex laplacian model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0083728A KR100513175B1 (ko) | 2002-12-24 | 2002-12-24 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040056977A true KR20040056977A (ko) | 2004-07-01 |
KR100513175B1 KR100513175B1 (ko) | 2005-09-07 |
Family
ID=32588928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0083728A KR100513175B1 (ko) | 2002-12-24 | 2002-12-24 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040122667A1 (ko) |
KR (1) | KR100513175B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100718749B1 (ko) * | 2006-11-29 | 2007-05-15 | 인하대학교 산학협력단 | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 |
KR100718846B1 (ko) * | 2006-11-29 | 2007-05-16 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
KR100745977B1 (ko) * | 2005-09-26 | 2007-08-06 | 삼성전자주식회사 | 음성 구간 검출 장치 및 방법 |
KR100866580B1 (ko) * | 2007-02-21 | 2008-11-03 | 인하대학교 산학협력단 | 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 |
KR100877225B1 (ko) * | 2007-10-05 | 2009-01-07 | 한국항공우주연구원 | 자승신호크기를 제한하는 검파기 |
CN109801646A (zh) * | 2019-01-31 | 2019-05-24 | 北京嘉楠捷思信息技术有限公司 | 一种基于融合特征的语音端点检测方法和装置 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
KR100631608B1 (ko) * | 2004-11-25 | 2006-10-09 | 엘지전자 주식회사 | 음성 판별 방법 |
GB2426166B (en) * | 2005-05-09 | 2007-10-17 | Toshiba Res Europ Ltd | Voice activity detection apparatus and method |
JP4903863B2 (ja) | 2006-07-05 | 2012-03-28 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | ノイズフロア推定のための方法及び装置 |
KR100766543B1 (ko) * | 2006-10-04 | 2007-10-12 | 주식회사 팬택 | 다중 사용자 환경의 초광대역 무선 통신 시스템을 위한간섭 제어 방법 |
JP5088050B2 (ja) * | 2007-08-29 | 2012-12-05 | ヤマハ株式会社 | 音声処理装置およびプログラム |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8611556B2 (en) | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
US8244528B2 (en) * | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8682612B2 (en) * | 2008-12-18 | 2014-03-25 | Abb Research Ltd | Trend analysis methods and system for incipient fault prediction |
US8626498B2 (en) | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
EP3493205B1 (en) * | 2010-12-24 | 2020-12-23 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting a voice activity in an input audio signal |
CN103646649B (zh) * | 2013-12-30 | 2016-04-13 | 中国科学院自动化研究所 | 一种高效的语音检测方法 |
KR101568937B1 (ko) * | 2014-07-01 | 2015-11-13 | 한양대학교 산학협력단 | 볼테라 필터를 이용한 비선형 반향 신호 억제 장치 및 방법 |
CN110895929B (zh) * | 2015-01-30 | 2022-08-12 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
KR102302621B1 (ko) | 2015-03-09 | 2021-09-16 | 한국전자통신연구원 | 고차 라플라시안 오브 가우시안 커널을 이용한 이미지의 특징점 추출 장치 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867574A (en) * | 1997-05-19 | 1999-02-02 | Lucent Technologies Inc. | Voice activity detection system and method |
-
2002
- 2002-12-24 KR KR10-2002-0083728A patent/KR100513175B1/ko not_active IP Right Cessation
-
2003
- 2003-10-30 US US10/699,126 patent/US20040122667A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100745977B1 (ko) * | 2005-09-26 | 2007-08-06 | 삼성전자주식회사 | 음성 구간 검출 장치 및 방법 |
US7711558B2 (en) | 2005-09-26 | 2010-05-04 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting voice activity period |
KR100718749B1 (ko) * | 2006-11-29 | 2007-05-15 | 인하대학교 산학협력단 | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 |
KR100718846B1 (ko) * | 2006-11-29 | 2007-05-16 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
KR100866580B1 (ko) * | 2007-02-21 | 2008-11-03 | 인하대학교 산학협력단 | 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 |
KR100877225B1 (ko) * | 2007-10-05 | 2009-01-07 | 한국항공우주연구원 | 자승신호크기를 제한하는 검파기 |
CN109801646A (zh) * | 2019-01-31 | 2019-05-24 | 北京嘉楠捷思信息技术有限公司 | 一种基于融合特征的语音端点检测方法和装置 |
CN109801646B (zh) * | 2019-01-31 | 2021-11-16 | 嘉楠明芯(北京)科技有限公司 | 一种基于融合特征的语音端点检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20040122667A1 (en) | 2004-06-24 |
KR100513175B1 (ko) | 2005-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100513175B1 (ko) | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 | |
US8155953B2 (en) | Method and apparatus for discriminating between voice and non-voice using sound model | |
US7596496B2 (en) | Voice activity detection apparatus and method | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Karray et al. | Towards improving speech detection robustness for speech recognition in adverse conditions | |
US8380497B2 (en) | Methods and apparatus for noise estimation | |
US7072833B2 (en) | Speech processing system | |
US20040158462A1 (en) | Pitch candidate selection method for multi-channel pitch detectors | |
US20050182624A1 (en) | Method and apparatus for constructing a speech filter using estimates of clean speech and noise | |
EP0470245A1 (en) | SPECTRAL EVALUATION PROCEDURE FOR IMPROVING RESISTANCE TO NOISE IN VOICE RECOGNITION. | |
US7343284B1 (en) | Method and system for speech processing for enhancement and detection | |
US5787408A (en) | System and method for determining node functionality in artificial neural networks | |
KR100718846B1 (ko) | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 | |
Lee et al. | Statistical model-based VAD algorithm with wavelet transform | |
Chang et al. | Likelihood ratio test with complex laplacian model for voice activity detection. | |
Fang et al. | Integrating statistical uncertainty into neural network-based speech enhancement | |
Ayat et al. | An improved wavelet-based speech enhancement by using speech signal features | |
KR100718749B1 (ko) | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 | |
Hizlisoy et al. | Noise robust speech recognition using parallel model compensation and voice activity detection methods | |
Kubichek et al. | Speech quality assessment using expert pattern recognition | |
Deng et al. | Voice activity detection based on conjugate subspace matching pursuit and likelihood ratio test | |
Navakpour et al. | An efficient voice activity detector in non-stationary noises incorporating evidence theory to combine multiple statistical models | |
KR101543300B1 (ko) | 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 | |
Pwint et al. | A new speech/non-speech classification method using minimal Walsh basis functions | |
KR100909492B1 (ko) | 서포트 벡터 머신의 확률 출력을 이용한 음성 향상 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20091228 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |