KR100866580B1 - 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 - Google Patents

균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 Download PDF

Info

Publication number
KR100866580B1
KR100866580B1 KR1020070017236A KR20070017236A KR100866580B1 KR 100866580 B1 KR100866580 B1 KR 100866580B1 KR 1020070017236 A KR1020070017236 A KR 1020070017236A KR 20070017236 A KR20070017236 A KR 20070017236A KR 100866580 B1 KR100866580 B1 KR 100866580B1
Authority
KR
South Korea
Prior art keywords
voice
signal
noise
speech
voice detection
Prior art date
Application number
KR1020070017236A
Other languages
English (en)
Other versions
KR20080077717A (ko
Inventor
장준혁
김동국
장근원
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070017236A priority Critical patent/KR100866580B1/ko
Publication of KR20080077717A publication Critical patent/KR20080077717A/ko
Application granted granted Critical
Publication of KR100866580B1 publication Critical patent/KR100866580B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

본 발명은 균등최강력(Uniformly Most Powerful; UMP) 테스트에 기초한 음성 검출 방법 및 음성 검출 시스템에 관한 것으로서, 보다 구체적으로는 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계와, 상기 주파수 영역으로 변환된 음성 신호의 묵음 구간으로부터 잡음 신호의 분산을 추정하는 단계와, 상기 추정 단계에서 추정된 잡음 신호의 상기 분산에 기초하여, 고정된 거짓 경고 확률 값을 이용하여 임계값을 계산하는 단계와, 상기 임계값 계산 단계에서 계산된 상기 임계값 및 프레임 단위로 구해진 잡음 음성 신호의 크기의 기하평균을 이용하여 음성 검출 결정 값을 계산하는 단계와, 상기 결정 값 계산 단계에서 계산된 상기 결정 값이 0보다 크면 음성이 존재하는 것으로, 아니면 음성이 존재하지 않는 것으로 판단하는 단계를 포함하는 음성 검출 방법 및 이를 구현한 음성 검출 시스템에 관한 것이다.
본 발명은, 균등최강력 테스트를 이용한 새로운 음성 검출 방법 및 음성 검출 시스템을 제안함으로써, 선행 SNR 값을 구하지 않고서도 기존의 음성 검출 방법에 비하여 음성 검출 성능을 향상시킬 수 있다.
균등최강력 테스트(UMP 테스트), 음성 검출, 가우시안 분포, 고속 푸리에 변 환기, 잡음 신호 분산 추정부, 임계값 계산부, 음성 검출 결정 값 계산부, 음성 검출 판단부, 선행 신호 대 잡음비(SNR), 배블 잡음, 백색 잡음, 거짓 경고 확률, 음성 검출 확률

Description

균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출 시스템{A METHOD AND A SYSTEM FOR DETECTING VOICE ACTIVITY BASED ON UMP TEST}
도 1은 배블 잡음에 오염된 음성 신호에서의
Figure 112007015200357-pat00001
의 분포를 나타내는 도면
도 2는 백색 잡음에 오염된 음성 신호에서의
Figure 112007015200357-pat00002
의 분포를 나타내는 도면.
도 3 및 도 4는 각각 배블 잡음 및 백색 잡음에 오염된 음성에 대하여 제안된 음성 검출 방법의 실제 수행 과정을 나타내는 도면으로서, 각각의 도면에서 맨 위의 도면은 실험에 사용된 잡음 음성 신호의 파형을 나타내는 도면이고, 두 번째 도면은
Figure 112007015200357-pat00003
의 값과 임계값과의 관계를 나타내는 도면이며, 세 번째 도면은 두 값의 비교 후 음성의 유무를 판별한 결과를 나타내는 도면.
도 5는 배블 잡음이 더해진 음성 신호에서의 ROC 곡선을 나타내는 도면.
도 6은 백색 잡음이 더해진 음성 신호에서의 ROC 곡선을 나타내는 도면.
도 7은 본 발명의 실시예에 따른 음성 검출 시스템을 나타내는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
Speech : 잡음 음성 신호
LRT : 우도비 테스트
VAD : 음성 검출
gau ump : 본 발명에 따른 음성 검출 방법
gaussian : 기존의 음성 검출 방법
false-alarm probability : 거짓 경고 확률
speech detection probability : 음성 검출 확률
10 : 고속 푸리에 변환기
20 : 잡음 신호 분산 추정부
30 : 임계값 계산부
40 : 음성 검출 결정 값 계산부
50 : 음성 검출 판단부
본 발명은 음성 검출 방법 및 음성 검출 시스템에 관한 것으로서, 특히 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출 시스템에 관한 것이다.
음성 검출(VAD; Voice Activity Detection)은, 잡음이 섞여 있는 음성신호에서 음성이 존재하는 부분과 잡음만 존재하는 부분을 판별하는 기술을 지칭하는 것으로, 음성 코딩, 음성 인식, 잡음이 섞인 음성의 품질 향상, 핸즈프리 회의, 및 에코 제거와 같은 다양한 음성 통신 시스템에 대한 애플리케이션을 가지고 있는 매우 중요한 기술이며, 현재에도 활발히 연구가 이루어지고 있다.
최근에 연구되고 있는 여러 가지 통계적 기반 음성 검출 기술들의 특징을 살펴보면 다음과 같다. 우선, 입력된 신호들의 전력 스펙트럼(power spectrum)을 분석한 후, 이를 가우시안(Gaussian) 분포나 라플라시안(Laplacian) 분포 또는 감마(gamma) 분포 형태의 확률 밀도 함수 (probability density function, pdf)를 갖는다고 가정을 한다. 이러한 분포는 이산 푸리에 변환(discrete Fourier transform; DFT) 영역에서의 통계모델로 이용하게 된다. 음성의 DFT 영역에서의 통계적 분포를 분석하여 잡음 또는 잡음에 오염된 음성에 대한 우도비 테스트(likelihood ratio test; LRT) 식을 세우며, 이를 통하여 최종 결정 규칙을 도출하여 음성을 검출하게 된다.
이와 같은 통계 모델에 기초한 음성 검출 방법은 "A Statistical Model-Based Voice Activity Detection"(손종서, 김남수, 성원용, IEEE Signal Process, Letter, Vol. 6. No. 1, pp. 1-3, 1999) 논문에서 처음 시도되었는데, 음성을 검출하는 설계 기술은 Ephraim과 Malah의 연구에서 시작되었다. 그 이후에 나온 통계적 모델을 바탕으로 한 여러 가지 음성 검출 방법에서도 Ephraim과 Malah의 연구 기술이 기본 토대로 이용되었다. 통계 모델을 기반으로 하는 음성 검출 방법에서, 결정 규칙을 도출할 때 중요한 파라미터로 선행 신호 대 잡음비(a priori SNR)와 사후 신호 대 잡음비(a posteriori SNR)가 사용된다. Ephraim과 Malah가 제안한 기술은, 바로 이 2가지 신호 대 잡음비 변수를 추정하는데 DD(decision-directed) 추정 방법을 사용하겠다는 것이었다. DD 추정 방법은, 기존의 maximum likelihood(ML) 추정 방법을 이용하는 것보다 더 효율적인 추정치를 제공하며, 음 악 잡음(musical noise)을 줄이는 효과도 나타내는 것으로 확인되었다.
여기서 주목할 점은, 기존의 여러 음성 검출 방법에서의 핵심은 선행 SNR 변수를 추정하는 데 있다는 것이다. 기존의 여러 음성 검출 방법에서는, 선행 SNR 변수의 정확한 추정이 음성 검출 성능의 향상을 가져오기 때문이다.
본 발명은, 기존의 음성 검출 방법에서 채택하고 있는 선행 SNR 변수를 이용하는 방법 대신에, 균등최강력(Uniformly Most Powerful; UMP) 테스트에 기초한 향상된 음성 검출 방법 및 음성 검출 시스템을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 음성 검출 방법은,
순수 음성과 잡음의 DFT 계수가 가우시안 분포를 따른다고 가정하며,
Figure 112007015200357-pat00004
(여기서, M은 전체 주파수 대역의 개수이고, T는 전치행렬을 나타냄)이 잡음에 오염된 음성 신호(잡음 음성 신호)의 이산 푸리에 변환(DFT) 계수의 벡터를 나타내고,
Figure 112007015200357-pat00005
가 k번째 bin의 DFT 계수를 나타내는 경우에 있어서,
균등최강력(Uniformly Most Powerful; UMP) 테스트에 기초한 음성 검출(VAD; Voice Activity Detection) 방법으로서,
(1) 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;
(2) 상기 주파수 영역으로 변환된 음성 신호의 묵음 구간으로부터 잡음 신호 의 분산(
Figure 112007015200357-pat00006
)을 추정하는 단계;
(3) 상기 추정 단계에서 추정된 잡음 신호의 상기 분산(
Figure 112007015200357-pat00007
)에 기초하여, 고정된 거짓 경고(false alarm) 확률 값(
Figure 112007015200357-pat00008
)을 이용하여 다음 수학식 1에 의해 임계값(
Figure 112007015200357-pat00009
)을 계산하는 단계;
Figure 112007015200357-pat00010
(4) 상기 임계값 계산 단계에서 계산된 상기 임계값(
Figure 112007015200357-pat00011
) 및 상기 잡음 음성 신호의 크기에 대하여 프레임 단위로 구해진 기하평균(geometric mean)을 이용하여 다음 수학식 2에 의해 음성 검출 결정 값(D)을 계산하는 단계; 및
Figure 112007015200357-pat00012
(5) 상기 결정 값 계산 단계에서 계산된 상기 결정 값(D)이 0보다 크면 음성이 존재하는 것으로, 아니면 음성이 존재하지 않는 것으로 판단하는 단계
를 포함하는 것을 그 특징으로 한다.
본 발명의 또 다른 특징에 따른 음성 검출 시스템은,
순수 음성과 잡음의 DFT 계수가 가우시안 분포를 따른다고 가정하며,
Figure 112007015200357-pat00013
(여기서, M은 전체 주파수 대역의 개수이고, T는 전치행렬을 나타냄)가 잡음에 오염된 음성 신호(잡음 음성 신호) 의 이산 푸리에 변환(DFT) 계수의 벡터를 나타내고,
Figure 112007015200357-pat00014
가 k번째 bin의 DFT 계수를 나타내는 경우에 있어서,
균등최강력(Uniformly Most Powerful; UMP) 테스트에 기초한 음성 검출 시스템(Voice Activity Detecting System)으로서,
(1) 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;
(2) 상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호의 묵음 구간으로부터 잡음 신호의 분산(
Figure 112007015200357-pat00015
)을 추정하는 잡음 신호 분산 추정부;
(3) 상기 잡음 신호 분산 추정부에 의해 추정된 상기 잡음 신호의 분산(
Figure 112007015200357-pat00016
)에 기초하여, 고정된 거짓 경고(false alarm) 확률 값(
Figure 112007015200357-pat00017
)을 이용하여 다음 수학식 1에 의해 임계값(
Figure 112007015200357-pat00018
)을 계산하는 임계값 계산부;
<수학식 1>
Figure 112007015200357-pat00019
(4) 상기 임계값 계산부에 의해 계산된 상기 임계값(
Figure 112007015200357-pat00020
) 및 상기 잡음 음성 신호의 크기에 대하여 프레임 단위로 구해진 기하평균(geometric mean)을 이용하여 다음 수학식 2에 의해 음성 검출 결정 값(D)을 계산하는 음성 검출 결정 값 계산부; 및
<수학식 2>
Figure 112007015200357-pat00021
(5) 상기 음성 검출 결정 값 계산부에서 계산된 상기 결정 값(D)이 0보다 크면 음성이 존재하는 것으로, 아니면 음성이 존재하지 않는 것으로 판단하는 음성 검출 판단부
를 포함하는 것을 그 특징으로 한다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
먼저, 통계적 음성 검출 방법에 대해서 간단히 설명한 후, 본 발명에 따른 UMP 테스트에 기초한 음성 검출 방법에 대하여 상세히 설명하기로 한다.
1. 통계적 음성 검출 방법
음성 신호를 분석하기 위해서, 음성 신호에는 비상관 잡음(uncorrelated noise)이 섞여 있다는 가정을 한다. 이러한 가정으로부터 각각의 프레임별 신호의 형태를 다음과 같은 두 가지로 가정할 수 있다.
Figure 112007015200357-pat00022
여기서,
Figure 112007015200357-pat00023
는 잡음에 오염된 음성 신호(잡음 음성 신호)의 DFT 계수 벡터를 나타내고,
Figure 112007015200357-pat00024
는 잡음 신호의 DFT 계수 벡터를 나타내며,
Figure 112007015200357-pat00025
는 원래 음성 신호의 DFT 계수 벡 터를 나타낸다. 상기 수학식들에서 M은 전체 주파수 대역의 개수이고 T는 전치행렬을 나타낸다.
잡음 음성 신호의 번째 bin의 DFT 계수는
Figure 112007015200357-pat00026
로 표시하는데, 이것은
Figure 112007015200357-pat00027
와 같이 실수부와 허수부의 합으로 표현할 수 있으며, 실수부와 허수부는 각각 독립이라고 가정한다.
실수부와 허수부의 분포가 각각 가우시안 분포 형태를 갖는다고 가정하면, 실수부와 허수부가 서로 독립이기 때문에 두 부분을 곱함으로써 다음 수학식 3 및 수학식 4와 같은
Figure 112007015200357-pat00028
의 분포를 얻을 수 있다.
Figure 112007015200357-pat00029
Figure 112007015200357-pat00030
여기서,
Figure 112007015200357-pat00031
Figure 112007015200357-pat00032
의 분산 값을 나타내고, u와 v는 각각 실수부와 허수부의 값을 나타낸다.
가우시안 분포를 가정한 기존의 음성 검출 방법은, H0과 H1 상태에서의
Figure 112007015200357-pat00033
의 확률 밀도 함수를 통하여 우도비 테스트(LRT) 식을 구하게 된다. 이러한 방법을 통하여 구한 식은 다음 수학식 5와 같다.
Figure 112007015200357-pat00034
여기서,
Figure 112007015200357-pat00035
는 잡음 신호에 대한 분산이며,
Figure 112007015200357-pat00036
Figure 112007015200357-pat00037
는 각각 선행 SNR과 사후 SNR을 뜻한다.
상기 수학식 5를 참조하면, 음성 검출을 위해 필요한 파라미터는 선행 SNR과 사후 SNR이다. 선행 SNR은 DD 추정 방식을 이용하여 구할 수 있으며, 사후 SNR은 입력된 신호의 잡음과 잡음 음성 신호를 이용하여 구할 수 있다.
2. 균등최강력 테스트( UMP 테스트)
다음으로 본 발명에서 이용하고 있는 균등최강력(UMP) 테스트에 대하여 예를 들어 간단히 설명하기로 한다.
Figure 112007015200357-pat00038
상기 두 가지 가설 상태에서, A의 값은 알지 못하나 A > 0인 상태를 갖는다고 하자. 여기서, w[n]은 분산이
Figure 112007015200357-pat00039
인 백색 가우시안 잡음(white Gaussian noise; WGN)이다. 이러한 가설을 통하여 H1의 결정식을 유도하면 다음 수학식 6과 같다.
Figure 112007015200357-pat00040
양 변에 로그를 취하면 다음 수학식 7 또는 수학식 8을 얻을 수 있다.
Figure 112007015200357-pat00041
Figure 112007015200357-pat00042
상기 수학식 8에서 A > 0이므로, 다시 정리하면 다음 수학식 9를 얻는다.
Figure 112007015200357-pat00043
여기서 중요한 점은, A의 정확한 값을 알지 못하더라도 어떠한 상태인지를 결정할 수 있다는 것이다. 이런 테스트의 형태를 균등최강력(UMP) 테스트라고 부른다. 주의할 점은, UMP 테스트는 특정한 A의 값이 0보다 큰 값만을 갖거나 혹은 0보다 작은 값만을 갖는 경우, 즉 one-sided 테스트에서만 적용할 수 있다는 것이다.
3. UMP 테스트를 이용한 음성 검출 방법
이제 본격적으로 UMP 테스트를 이용한 새로운 음성 검출 방법을 유도한다. 본 발명에서 제안하고 있는 새로운 음성 검출 방법도 기존의 음성 검출 방법에서와 동일한 가정으로부터 출발한다. 즉, 음성과 잡음의 분포는 가우시안 분포를 따른다고 가정한다.
앞서 유도했던 수학식 5를 다시 살펴보기로 한다.
Figure 112007015200357-pat00044
상기 수학식 10에서, 잡음의 분산인
Figure 112007015200357-pat00045
는 입력된 음성 신호의 처음 시작되는 묵음 구간을 통해 구할 수 있다. 그리고 음성의 분산 값인
Figure 112007015200357-pat00046
의 값은 그 값이 항상 0보다 큰 값을 갖고 있음을 알고 있다. 즉, 우리는
Figure 112007015200357-pat00047
의 값을 안다고 가정할 수 있고, 알려지지 않은 변수
Figure 112007015200357-pat00048
는 양의 값을 갖는다는 것을 알고 있다. 즉, 두 값을 통하여 UMP 테스트를 설계할 수 있게 된다.
상기 수학식 10을 UMP 테스트를 통하여 정리하면 다음 수학식 11과 같다.
Figure 112007015200357-pat00049
상기 수학식 11을 더 정리하면 다음 수학식 12를 얻게 된다.
Figure 112007015200357-pat00050
상기 수학식 12에서 z = Xk이므로 최종적으로 다음 수학식 13을 얻게 된다.
Figure 112007015200357-pat00051
마지막으로, 상기 수학식 13에 대하여 프레임 단위로 기하평균(geometric mean)을 구함으로써 최종 결정 식인 수학식 14를 얻을 수 있다.
Figure 112007015200357-pat00052
상기 수학식 14의 좌변에서, 잡음 음성 신호
Figure 112007015200357-pat00053
의 절대값을 구하기 위하여 입력된 잡음 음성 신호
Figure 112007015200357-pat00054
를 실수부와 허수부로 나누어 다루는 대신, 본 발명에서는 크기 분포를 기반으로 다루었다. 즉, 음성을
Figure 112007015200357-pat00055
와 같이, 크기
Figure 112007015200357-pat00056
와 위상
Figure 112007015200357-pat00057
로 표현하고, 이를 바탕으로
Figure 112007015200357-pat00058
의 분포를 식으로 구해보면, k번째 주파수 bin의 크기
Figure 112007015200357-pat00059
의 분포는,
Figure 112007015200357-pat00060
가 가우시안 분포를 따르므로, 아래 수학식 15와 같은 Rayleigh 분포를 갖게 됨을 알 수 있다.
Figure 112007015200357-pat00061
여기서,
Figure 112007015200357-pat00062
는 단위 계단 함수(unit-step function)이다.
또한, 각각의 주파수 bin에 대한 크기의 제곱인
Figure 112007015200357-pat00063
의 분포를 구하면, 다음 수학식 16과 같은 지수 분포 형태를 갖는다.
Figure 112007015200357-pat00064
상기 수학식 15를 이용하여 잡음만 존재하는 경우와 잡음과 음성이 섞여 존재하는 경우의 두 가지 가설에 대해 식을 재정리하면 다음 수학식 17 및 수학식 18과 같다.
Figure 112007015200357-pat00065
Figure 112007015200357-pat00066
상기 수학식 17 및 수학식 18을 이용하여, 입력된 음성 신호의 분포 형태를 잡음만 존재하는 경우와 잡음과 음성이 섞여 존재하는 경우로 나누어 분석할 수 있 다. 즉, 위 두 식을 통하여 최종 결정 식인 상기 수학식 14를 수행할 수 있다.
4. 임계값 결정
상기 수학식 14에는 임계값
Figure 112007015200357-pat00067
가 존재하는데, 이 값을 결정하는 것이 음성을 검출하는 데에 있어서 또 하나의 중요한 요소이다.
본 발명에서는, 다음 수학식 19와 같이, 거짓 경고(false alarm, FA) 확률(오탐률)을 이용하여 임계값을 구한다.
Figure 112007015200357-pat00068
Figure 112007015200357-pat00069
의 값은 2-degree Chi-squared 분포 형태로 이루어지는데, 이러한 거짓 경고 확률을 통해서 임계값을 얻을 수 있다.
임계값을 구하기 위하여
Figure 112007015200357-pat00070
라 두고,
Figure 112007015200357-pat00071
을 이용하여 상기 수학식 19를 정리하면 다음 수학식 20과 같다.
Figure 112007015200357-pat00072
상기 수학식 20을
Figure 112007015200357-pat00073
에 대해서 정리하면, 임계값에 대한 최종 결과식인 수학식 21을 얻을 수 있다.
Figure 112007015200357-pat00074
수학식 21에서 주목할 점은, 고정된 거짓 경고 확률(오탐률) 상태에서 임계값은 오직 잡음 신호의 분산에만 의존한다는 것이다.
5. 실험 결과
본 발명에서 제안한 UMP 테스트에 기초한 음성 검출 방법의 성능을 테스트하기 위하여 여러 가지 실험을 하였다. 실험 방법은 음성 신호에 배블 잡음(babble noise)과 백색 잡음(white noise)의 두 가지 잡음 신호를 섞어서 이를 제안한 음성 검출 방법에 적용하는 것이었다. 그리고 각각의 잡음이 섞인 정도를 각각 0dB, 5dB, 10dB, 15dB로 달리하여 실험하였다. 본 발명의 음성 검출 방법과 가우시안 분포를 기반으로 하는 기존의 음성 검출 방법과의 비교를 통하여 제안한 음성 검출 방법의 성능을 객관적으로 평가하여 보았다. 성능을 테스트하기 위해서는 음성 검출 확률(
Figure 112007015200357-pat00075
)과 거짓 경고 확률(
Figure 112007015200357-pat00076
)을 알아야 한다.
Figure 112007015200357-pat00077
는 음성 프레임에 대하여 실제로 정확하게 음성이라고 판단한 확률을 뜻하며,
Figure 112007015200357-pat00078
는 비음성을 음성이라 잘못 판단한 확률을 뜻한다.
Figure 112007015200357-pat00079
Figure 112007015200357-pat00080
의 값을 계산하기 위하여, 32초의 음성을 10 ms 단위로 수동 레이블링하여 기준으로 삼았다. 수동 표시된 실제 음성의 비율은 54.97%이고, 이 중 46.46%는 유성음(voiced sounds)이며 8.41%는 무성음(unvoiced sounds)이었다. 잡음 음성 신호를 만들기 위해, 백색 잡음 및 배블 잡음을 NOISEX-92 잡음으로부터 SNR을 변화시키면서 원래의 음성 신호에 첨가하였다. 음성 검출 테스트는 10 ms의 프레임에 대하여 수행하였다.
(1) 잡음 음성 신호의 크기
Figure 112007015200357-pat00081
의 분포
먼저, 본 발명에서 제안한 UMP 테스트를 이용하여 구한 우도비 테스트 식에서
Figure 112007015200357-pat00082
의 분포가 Rayleigh 분포를 따르는지를 확인하였다. 이를 위하여, 배블 잡음과 백색 잡음에 오염된 음성 신호에서 k가 8일 경우의
Figure 112007015200357-pat00083
분포 값을 구하였다. 수동으로 확인한 음성과 비음성 구간별로 나눈 후, 각각의 경우의 분포를 그려보았다.
도 1은 배블 잡음이 섞인 음성 신호에서의
Figure 112007015200357-pat00084
의 분포를 보여준다. 도 1의 가장 위의 분포는 입력 SNR이 0dB일 때의 분포이며, 차례대로 5dB, 10dB, 15dB의 분포를 나타낸다. 좌측의 분포는 입력 신호가 잡음만이 존재하는 가설 H0 상태의 분포이며 우측의 분포는 H1 상태의 분포이다. y축의 값은 각각의 분포를 정규화 하여 나타내었다. 실선은
Figure 112007015200357-pat00085
을 토대로 그린 Rayleigh 분포이다.
도 2는 백색 잡음에 오염된 음성 신호에서의
Figure 112007015200357-pat00086
의 분포를 나타낸 도면이며, 실험 방법은 도 1의 경우와 동일하다.
도 1과 도 2를 살펴보면,
Figure 112007015200357-pat00087
의 분포가 Rayleigh 분포 형태를 가짐을 확인 할 수 있다. H0의 분포는 0에 가까운 값을 많이 갖는 상태이며 H1의 분포는 H0의 분포에 비하여 큰 값으로 분포가 더 퍼져 있음을 알 수 있다. 이 두 가지 분포를 비교하여 본 발명에서 제안한 음성 검출을 할 수 있게 된다.
(2) 음성 검출
본 발명에서 제안한 방법을 이용하여 음성 검출을 하는 과정을 제시하고자 한다. 도 3 및 도 4는 각각 배블 잡음 및 백색 잡음에 오염된 음성에 대하여 제안된 음성 검출 방법의 실제 수행 과정을 나타낸 것이다. 각각에서 첫 번째 도면은 실험에 사용한 잡음 음성 신호의 파형을 나타내는 도면이다. 두 번째 도면은
Figure 112007015200357-pat00088
의 값과 임계값과의 관계를 나타내는 것이고, 마지막 세 번째 도면은 두 값의 비교 후 음성의 유무를 판별한 것이다. 음성일 경우 1을 비음성일 경우 0의 값을 갖는다.
(3) ROC 곡선
본 발명에서 제안한 음성 검출 방법의 성능을 알아보기 위해서,
Figure 112007015200357-pat00089
의 분포와 임계값
Figure 112007015200357-pat00090
을 통하여 검출 확률
Figure 112007015200357-pat00091
와 거짓 경고 확률
Figure 112007015200357-pat00092
을 구할 수 있다. 이 두 가지 값의 관계를 표현한 것이 수신기 동작 특성(receiver operating characteristic; ROC) 곡선이다. 도 5는 배블 잡음이 더해진 음성 신호에서의 ROC 곡선을 나타낸 도면이다. 각각 SNR이 0dB에서 15dB까지의 경우를 나타내고 있다. ROC 곡선을 통하여 음성 검출 방법의 성능을 알아볼 수 있는데, 가우시안 분포를 가정한 기존의 음성 검출 방법의 ROC를 함께 비교하여 제시함으로써, 본 발명에서 제안한 방식의 음성 검출 방법과 기존의 음성 검출 방법의 성능을 비교하였다.
x축은 거짓 경고 확률
Figure 112007015200357-pat00093
을 나타내고, y축은 음성 검출 확률
Figure 112007015200357-pat00094
을 나타낸다. 배블 잡음이 섞인 경우의 ROC 곡선을 살펴보면 기존의 검출 방법에 비하여 성능이 우수함을 확인할 수 있다. 입력 신호의 SNR 값이 작을 경우에는 확연히 더 좋은 성능을 보임을 확인할 수 있으며, SNR이 클 경우에는
Figure 112007015200357-pat00095
값이 작을 때 일부 구간에서 기존의 음성 검출 방법에 비해 뒤처지는 경향이 있으나, 기존의 음성 검출 방법보다 더욱 빠르게
Figure 112007015200357-pat00096
값이 1에 근접함을 알 수 있다.
도 6은 백색 잡음이 더해진 음성 신호에서의 ROC 곡선을 나타내는 도면이다. 도면으로부터
Figure 112007015200357-pat00097
값이 매우 작은 경우를 제외하면 전반적으로 기존의 음성 검출 방법보다 우수한 성능을 가짐을 확인할 수 있다.
다음은 본 발명의 실시예에 따른, 균등최강력 테스트를 이용한 새로운 음성 검출 시스템에 대하여 설명한다.
도 7은 본 발명의 실시예에 따른 음성 검출 시스템을 나타내는 도면이다. 도 7에 도시한 바와 같이, 본 발명의 실시예에 따른 음성 검출 시스템은 고속 푸리에 변환기(10, Fast Fourier Transformer; FFT), 잡음 신호 분산 추정부(20), 임계값 계산부(30), 음성 검출 결정 값 계산부(40), 및 음성 검출 판단부(50)를 포함한다.
고속 푸리에 변환기(10)는 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시킨다. 잡음 신호 분산 추정 부(20)는 상기 고속 푸리에 변환기(10)에 의해 주파수 영역으로 변환된 상기 음성 신호의 묵음 구간으로부터 잡음 신호의 분산(
Figure 112007015200357-pat00098
)을 추정한다. 임계값 계산부(30)는 상기 잡음 신호 분산 추정부(20)에 의해 추정된 상기 잡음 신호의 분산(
Figure 112007015200357-pat00099
)에 기초하여, 고정된 거짓 경고 확률 값(
Figure 112007015200357-pat00100
)을 이용하여 수학식 1(
Figure 112007015200357-pat00101
)에 의해 임계값(
Figure 112007015200357-pat00102
)을 계산한다. 음성 검출 결정 값 계산부(40)는 상기 임계값 계산부(30)에 의해 계산된 임계값(
Figure 112007015200357-pat00103
) 및 상기 잡음 음성 신호의 크기에 대하여 프레임 단위로 구해진 기하평균 이용하여 수학식 2(
Figure 112007015200357-pat00104
)에 의해 음성 검출 결정 값(D)을 계산한다. 마지막으로, 음성 검출 판단부(50)는 상기 음성 검출 결정 값 계산부(40)에서 계산된 상기 결정 값(D)이 0보다 크면 음성이 존재하는 것으로, 아니면 음성이 존재하지 않는 것으로 판단한다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명은, 균등최강력 테스트를 이용한 새로운 음성 검출 방법 및 음성 검출 시스템을 제안함으로써, 선행 SNR 값을 구하지 않고서도 기존의 음성 검출 방법에 비하여 음성 검출 성능을 향상시킬 수 있다.

Claims (2)

  1. 순수 음성과 잡음의 DFT 계수가 가우시안 분포를 따른다고 가정하며,
    Figure 112008038291634-pat00105
    (여기서, M은 전체 주파수 대역의 개수이고, T는 전치행렬을 나타냄)가 잡음에 오염된 음성 신호의 이산 푸리에 변환(DFT) 계수의 벡터를 나타내고,
    Figure 112008038291634-pat00106
    가 k번째 bin의 DFT 계수를 나타내는 경우에 있어서,
    균등최강력(Uniformly Most Powerful; UMP) 테스트에 기초한 음성 검출(VAD; Voice Activity Detection) 방법으로서,
    입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;
    상기 주파수 영역으로 변환된 음성 신호의 묵음 구간으로부터 잡음 신호의 분산(
    Figure 112008038291634-pat00107
    )을 추정하는 단계;
    상기 추정 단계에서 추정된 잡음 신호의 상기 분산(
    Figure 112008038291634-pat00108
    )에 기초하여, 고정된 거짓 경고(false alarm) 확률 값(
    Figure 112008038291634-pat00109
    )을 이용하여 다음 수학식 1에 의해 임계값(
    Figure 112008038291634-pat00110
    )을 계산하는 단계;
    <수학식 1>
    Figure 112008038291634-pat00111
    상기 임계값 계산 단계에서 계산된 상기 임계값(
    Figure 112008038291634-pat00112
    ) 및 상기 잡음 음성 신호의 크기에 대하여 프레임 단위로 구해진 기하평균(geometric mean)을 이용하여 다음 수학식 2에 의해 음성 검출 결정 값(D)을 계산하는 단계; 및
    <수학식 2>
    Figure 112008038291634-pat00113
    여기서, γk는 사후 SNR을 의미함.
    상기 결정 값 계산 단계에서 계산된 상기 결정 값(D)이 0보다 크면 음성이 존재하는 것으로, 아니면 음성이 존재하지 않는 것으로 판단하는 단계
    를 포함하는 방법.
  2. 순수 음성과 잡음의 DFT 계수가 가우시안 분포를 따른다고 가정하며,
    Figure 112008038291634-pat00114
    (여기서, M은 전체 주파수 대역의 개수이고, T는 전치행렬을 나타냄)가 잡음에 오염된 음성신호의 이산 푸리에 변환(DFT) 계수의 벡터를 나타내고,
    Figure 112008038291634-pat00115
    가 k번째 bin의 DFT 계수를 나타내는 경우에 있어서,
    균등최강력(Uniformly Most Powerful; UMP) 테스트에 기초한 음성 검출 시스템(Voice Activity Detecting System)으로서,
    입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;
    상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호의 묵음 구간으로부터 잡음 신호의 분산(
    Figure 112008038291634-pat00116
    )을 추정하는 잡음 신호 분산 추정부;
    상기 잡음 신호 분산 추정부에 의해 추정된 상기 잡음 신호의 분산(
    Figure 112008038291634-pat00117
    )에 기초하여, 고정된 거짓 경고(false alarm) 확률 값(
    Figure 112008038291634-pat00118
    )을 이용하여 다음 수학식 1에 의해 임계값(
    Figure 112008038291634-pat00119
    )을 계산하는 임계값 계산부;
    <수학식 1>
    Figure 112008038291634-pat00120
    상기 임계값 계산부에 의해 계산된 상기 임계값(
    Figure 112008038291634-pat00121
    ) 및 상기 잡음 음성 신호의 크기에 대하여 프레임 단위로 구해진 기하평균(geometric mean)을 이용하여 다음 수학식 2에 의해 음성 검출 결정 값(D)을 계산하는 음성 검출 결정 값 계산부; 및
    <수학식 2>
    Figure 112008038291634-pat00122
    여기서, γk는 사후 SNR을 의미함.
    상기 음성 검출 결정 값 계산부에서 계산된 상기 결정 값(D)이 0보다 크면 음성이 존재하는 것으로, 아니면 음성이 존재하지 않는 것으로 판단하는 음성 검출 판단부
    를 포함하는 음성 검출 시스템.
KR1020070017236A 2007-02-21 2007-02-21 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 KR100866580B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070017236A KR100866580B1 (ko) 2007-02-21 2007-02-21 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070017236A KR100866580B1 (ko) 2007-02-21 2007-02-21 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템

Publications (2)

Publication Number Publication Date
KR20080077717A KR20080077717A (ko) 2008-08-26
KR100866580B1 true KR100866580B1 (ko) 2008-11-03

Family

ID=39880150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070017236A KR100866580B1 (ko) 2007-02-21 2007-02-21 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템

Country Status (1)

Country Link
KR (1) KR100866580B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2811741C1 (ru) * 2023-05-12 2024-01-16 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2858068A4 (en) * 2012-05-31 2016-02-24 Toyota Motor Co Ltd SOUND SOUND DETECTION DEVICE, NOISE GENERATION EQUIPMENT, NOISE REDUCTION APPARATUS, APPARATUS FOR ESTIMATING SOUND SOURCE DEVICE, DEVICE FOR RECOGNIZING A DEACTIVATIVE VEHICLE, AND NOISE REDUCTION METHOD
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040056977A (ko) * 2002-12-24 2004-07-01 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및음성 검출 방법
KR20060131705A (ko) * 2006-11-29 2006-12-20 인하대학교 산학협력단 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040056977A (ko) * 2002-12-24 2004-07-01 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및음성 검출 방법
KR20060131705A (ko) * 2006-11-29 2006-12-20 인하대학교 산학협력단 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
장근원,김동국,장준혁, "UMP 테스트에 근거한 새로운 통계적 음성검출기", 한국음향학회지, 제26권제1호, pp.16-24, 2007년1월

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2811741C1 (ru) * 2023-05-12 2024-01-16 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи

Also Published As

Publication number Publication date
KR20080077717A (ko) 2008-08-26

Similar Documents

Publication Publication Date Title
Davis et al. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold
EP1547061B1 (en) Multichannel voice detection in adverse environments
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US6321194B1 (en) Voice detection in audio signals
CN104464722B (zh) 基于时域和频域的语音活性检测方法和设备
EP3411876B1 (en) Babble noise suppression
WO2018049282A1 (en) Robust noise estimation for speech enhancement in variable noise conditions
US20020165713A1 (en) Detection of sound activity
Mousazadeh et al. AR-GARCH in presence of noise: Parameter estimation and its application to voice activity detection
KR100631608B1 (ko) 음성 판별 방법
Sakhnov et al. Approach for Energy-Based Voice Detector with Adaptive Scaling Factor.
EP1751740B1 (en) System and method for babble noise detection
US20120265526A1 (en) Apparatus and method for voice activity detection
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
KR100866580B1 (ko) 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템
Lee et al. Statistical model-based VAD algorithm with wavelet transform
Jiang et al. A new voice activity detection method using maximized Sub-band SNR
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
KR20000056371A (ko) 가능성비 검사에 근거한 음성 유무 검출 장치
Ngo et al. A flexible speech distortion weighted multi-channel Wiener filter for noise reduction in hearing aids
KR100530261B1 (ko) 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법
Asgari et al. Voice activity detection using entropy in spectrum domain
Dahlan et al. Unbiased noise estimator for Q-spectral subtraction based speech enhancement
Deng et al. Likelihood ratio sign test for voice activity detection
Eaton et al. Noise-robust detection of peak-clipping in decoded speech

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121008

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130913

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141022

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20171128

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190429

Year of fee payment: 11