KR20060131705A

KR20060131705A - 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기

Info

Publication number: KR20060131705A
Application number: KR1020060118896A
Authority: KR
Inventors: 장준혁
Original assignee: 인하대학교 산학협력단
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2006-12-20
Also published as: KR100718749B1

Abstract

본 발명은 복소수 감마 통계 모델을 이용한 음성 검출기 및 음성 검출 방법에 관한 것으로서, 보다 구체적으로는 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계와, 상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계와, 상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계와, 상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 계산하는 단계를 포함하는 음성 검출 방법 및 이를 구현한 음성 검출기에 관한 것이다.

본 발명은, 복소수 감마 통계 모델을 음성 검출에 이용함으로써, 잡음의 유형 및 SNR 조건에 따라서 기존의 가우시안 통계 모델을 사용하는 경우에 비해 더 좋은 성능을 제공할 수 있다.

음성 검출, 음성 검출기, 복소수 감마 통계 모델, 고속 푸리에 변환기, 잡음 파워 추정부, 우도비 결정부, 결정 규칙 계산부, 평탄화된 형태, 평탄화 파라미터, 잡음의 유형, 백색 잡음, 차량 잡음, 배블 잡음, 신호 대 잡음비(SNR)

Description

복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성 검출기{A METHOD AND A SYSTEM FOR DETECTING VOICE ACTIVITY BASED ON A COMPLEX GAMMA STATISTICAL MODEL}

도 1은 백색 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 1(a) 및 (b)는 각각 가설 H₀인 경우의 DFT 계수의 실수부와 허수부를, 도 1(c) 및 (d)는 각각 가설 H₁인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면.

도 2는 차량 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 2(a) 및 (b)는 각각 가설 H₀인 경우의 DFT 계수의 실수부와 허수부를, 도 2(c) 및 (d)는 각각 가설 H₁인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면.

도 3은 배블 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 3(a) 및 (b)는 각각 가설 H₀인 경우의 DFT 계수의 실수부와 허수부를, 도 3(c) 및 (d)는 각각 가설 H₁인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면.

도 4는 백색 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 4(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타내는 도면.

도 5는 차량 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 5(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타내는 도면.

도 6은 배블 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 6(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타내는 도면.

도 7은 본 발명의 실시예에 따른 음성 검출기의 구성을 나타내는 도면.

<도면의 주요 부분에 대한 부호의 설명>

10 : 고속 푸리에 변환기

20 : 잡음 파워 추정부

30 : 우도비 결정부

40 : 결정 규칙 계산부

본 발명은 음성 검출 방법 및 음성 검출기에 관한 것으로서, 특히 복소수 감마 통계 모델에 기초한 음성 검출기 및 음성 검출 방법에 관한 것이다.

음성 검출(VAD; Voice Activity Detection)은, 활성 음성(active speech)을 비음성으로부터 구분하는 고전적인 문제를 지칭하는 것으로, 음성 코딩, 음성 인식, 잡음이 섞인 음성의 향상, 핸즈프리 회의, 및 에코 제거와 같은 다양한 음성 통신 시스템에 대한 애플리케이션을 가지고 있다. 특히, VAD는, 통신 대역폭의 용량 및 커버리지를 향상시키는 가장 정밀한 방식 중 하나인 가변 음성 코딩의 주요한 부분이 되어 왔다. 이러한 이유로, 다양한 유형의 VAD 알고리즘이 제안되어 왔다. VAD에 대한 초기 알고리즘들은 대부분 선형 예측 코딩(LPC; linear prediction coding) 파라미터들, 에너지 레벨들, 포먼트 형상, 영 교차 비율(ZCR; zero crossing rate), 켑스트럴 특성(cepstral features), 음성 신호의 적응 모델링, 및 주기성 평가에 기초하고 있다. 보다 최근에는, 패턴 인식 및 LPC 잔여의 고차 큐뮬런트(higher order cumulants)에 기초한 VAD 접근법이 새로운 전략으로서 제안되어 왔다. 예를 들면, 특히 에너지 차이, ZCR, 및 스펙트럼 차이를 ITU-T G.729 Annex B에 적용시켜 왔다. 유사한 접근법을, 3세대 파트너십 프로젝트2(3GPP2; 3rd Generation Partnership Project2), ITU-T G.723.1 및 유럽 전화통신 표준 협회(European Telecommunications Standards Institutes) 적응형 다-비율(AMR; Adaptive Multi-Rate) VAD 옵션 2에서 선택 가능한 모드 보코더에 적용하는 시도도 있었다.

최근에, 일련의 가설이 적용된 우도비 테스트(LRT; Likelihood Ratio Test)로부터 구해지는 결정 규칙과 함께, 통계 모델을 이용함으로써 VAD의 성능을 개선하려는 노력이 이루어져 왔다. VAD 알고리즘에 기초한 통계 모델은 Ephraim과 Malah의 연구로부터 비롯되었다. 일부 연구자들은 가우시안 통계 모델을 VAD에 적용하는 알고리즘을 시도하였는데, 여기서 파라미터들의 평가가 DD(decision-directed) 접근법에 의해 수행되었다. 이 알고리즘은, 비록 관련 파라미터들의 최적화가 요구되기는 하였으나, 기존의 알고리즘에 비해 높은 검출 정확도를 나타내었다. 통계 모델에 기초한 방법은 소프트 결정 스킴(soft decision scheme)과 결합됨으로써 더욱 개선되었다.

잘 알려진 바와 같이, DFT 도메인에서 주로 동작하는 기존의 VAD 알고리즘의 대부분은 순수 음성(clean speech)과 잡음의 스펙트럼이 가우시안 분포에 의해 특성지어진다고 가정한다. 그러나 순수 음성과 잡음의 DFT 계수를 가우시안 분포를 사용하여 모델링할 경우 잡음의 유형과 레벨에 따라 정확성에 일정 정도 한계가 있었기 때문에, DFT 계수를 모델링할 새로운 분포 모델이 요구되고 있다.

본 발명은 상기와 같은 문제 인식에서 비롯된 것으로서, 순수 음성과 잡음의 DFT 계수를 기존의 가우시안 통계 모델 대신에 복소수 감마 통계 모델을 사용하여 모델링한 음성 검출 방법 및 음성 검출기를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출 방법은,

(1) 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;

(2) 상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계;

(3) 상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계; 및

(4) 상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식 1을 이용하여 계산하는 단계

- 여기서, 가설 H₀과 H₁은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, X_k는 k 번째 이산 푸리에 계수,

, X_k _(R)와 X_k _(I)는 X_k의 실수부와 허수부를 나타냄 -

를 포함하는 것을 그 특징으로 한다.

본 발명의 또 다른 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출 방법은,

상기 음성 검출에 대한 결정 규칙을 계산하는 단계에서,

상기 수학식 1 대신에 다음 수학식 2를 이용하여 계산하는 것을 그 특징으로 한다.

- 여기서,

이며,

은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -

상기 평탄화 파라미터

을 0.9로 설정한 것을 그 특징으로 한다.

한편, 상기한 목적을 달성하기 위한 본 발명의 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출기는,

(1) 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;

(2) 상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호로부터 잡음 신호의 파워를 추정하는 잡음 파워 추정부;

(3) 상기 잡음 파워 추정부에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 우도비 결정부; 및

(4) 상기 우도비 결정부에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식 1을 이용하여 계산하는 결정 규칙 계산부

<수학식 1>

, X_k _(R)와 X_k _(I)는 X_k의 실수부와 허수부를 나타냄 -

를 포함하는 것을 그 특징으로 한다.

본 발명의 또 다른 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출기는,

상기 음성 검출에 대한 결정 규칙을 계산하는 결정 규칙 계산부에서,

<수학식 2>

- 여기서,

이며,

상기 평탄화 파라미터

을 0.9로 설정한 것을 그 특징으로 한다.

이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.

본 발명의 실시예는 다양한 잡음 조건에서 잡음에 오염된 음성신호의 DFT 계수를 VAD에 적용하기 위해 복소수 감마 모델에 기초한 방법을 제안한다.

본 발명의 실시예에서는 먼저 다양한 잡음에 오염된 음성 조건하에서 적합도(Goodness Of Fit; 이하 'GOF'라 함) 테스트를 적용함으로써 복소수 감마 모델을 가우시안 모델 및 복소수 라플라시안 모델과 비교한 후, 우도비 테스트(Likelihood Ration Test; 이하 'LRT'라 함)에 기반한 결정 규칙(Decision Rule)을 고려한다.

1. 통계적 모델

먼저, 잡음 신호 N(t)와 음성 신호 S(t)의 합이 X(t)라고 가정하고, 이때 가설 H₀과 H₁이 각각 음성 신호가 없는 경우와 음성 신호가 있는 경우를 나타낸다고 하면, 가설 H₀과 H₁에서, X(t)는 각각 다음의 수학식 3 및 4를 만족한다.

여기서,

,

는 각각 잡음이 섞인 음성, 잡음, 순수 음성의 DFT 계수이다.

상기한 통계적 모델은 적절한 DFT 계수 분포를 선택함으로써 완료된다. 본 발명의 실시예에서는 DFT 계수의 적절한 분포로서 가우시안 확률 밀도 함수(probabilistic density function, 이하 'PDF"라 함)를 채택하는 대신 복소수 감마 확률 밀도 함수를 채택하였다.

(1) 가우시안 통계 모델

가우시안 PDF에서, 양 가설(H0, H1)에 의해 결정되는 잡음 스펙트럼 성분(noisy spectral component)의 분포는 다음의 수학식 5 및 6과 같이 주어진다.

여기서,

와

는 각각 잡음 N_k 및 순수 음성 S_k의 분산(variance)을 나타낸 다.

(2) 복소수 라플라시안 통계 모델

다음으로, 복소수 라플라시안 PDF에서, DFT 계수 X_k의 실수부(real part)와 허수부(imaginary part)를 각각 X_k _(R)와 X_k _(I)로 가정하면, X_k _(R)와 X_k _(I)는 다음의 수학식 7 및 8과 같이 분포된다.

여기서,

는 X_k의 분산을 나타낸다. 만약 X_k의 실수부 및 허수부가 서로 독립적이라고 더 가정하면, X_k의 분포는 다음 수학식 9와 같이 될 수 있다.

상기 수학식 9로부터, 양 가설(H0, H1)에 의해 결정되는 DFT 계수의 분포는 다음 수학식 10 및 11과 같이 주어질 수 있다.

(3) 복소수 감마 통계 모델

마지막으로 복소수 감마 PDF에 대해 살펴본다. 각각의 DFT 계수의 실수부와 허수부 X_k _(R)와 X_k _(I)는 각각 다음의 수학식 12 및 13에 따라 분포된다.

만약 실수부와 허수부가 라플라시안 경우에서처럼 서로 독립적이라고 더 가정하면, DFT 계수 X_k의 분포는 다음 수학식 14와 같이 주어진다.

수학식 14를 2개의 가설 H₀과 H₁에 적용하면, DFT 계수의 분포는 다음 수학식 15 및 16과 같이 얻어진다.

성공적인 VAD 동작을 위해서, 본 발명의 실시예에서는 H₀과 H₁에 의해 결정되는 잡음 스펙트럼 요소를 위한 통계적 적합성 테스트(statistical fitting test)를 수행한다. 확률 밀도 함수(PDF)의 선택을 위해, 본 발명의 실시예에서는 적합도 테스트(GOF test; Goodness-of-Fit test)로서 잘 알려진 Kolomogorov-Sriminov 테스트(이하, 'KS 테스트'라 함)를 적용한다. KS 테스트를 적용함으로써, 각 통계적인 가정에 대한 신뢰성 있는 관측을 보장할 수 있다. KS 테스트는 경험적인(empirical) 누적 분포 함수(cumulative distribution function; 이하 'CDF'라 함) F_x를 소정의 분포 함수 F와 비교한다.

가 잡음이 섞인 음성의 DFT 계수를 나타내는 벡터라고 가정할 때, 다음의 수학식 17로서 나타낼 수 있는 함수를 경험적 CDF로서 사용하였다.

여기서,

은 데이터 X의 순서 통계(order statistics)이다. 순서 통계를 계산하기 위해, X의 원소들을 분류하고 정렬하여, X의 가장 작은 원소인 X₍₁₎에서부터 X의 가장 큰 원소인 X_(N)까지 순서대로 배열한다.

잡음 환경을 모의 실험하기 위해, 서로 다른 4명의 남성과 여성 화자로부터, 64초 구간의 음성 자료(speech material)를 수집하였으며, NOISEX-92 데이터베이스로부터 추출한 백색 잡음(white noise), 차량 잡음(vehicular noise), 및 배블 잡음(babble noise)을 신호 대 잡음비(SNR)가 10dB인 순수 음성 신호에 첨가하였다. 수집한 상기 데이터를 사용하여, 표본 평균과 분산을 계산하였으며, 주어진 감마 분포, 라플라시안 분포 및 가우시안 분포에 적용하였다.

경험적인 CDF와 주어진 분포 사이의 거리 측정을 규정하기 위해, 본 발명의 실시예에서는 KS 테스트 통계량(statistic)을 사용한다. KS 테스트 통계량(T)은 다음의 수학식 18과 같이 정의된다.

여기서, 표본 포인트Xi에서 구한 F_x(X_i)와 F(X_i) 사이의 최대 차이가 거리에 해당한다. 몇 가지 분포에 대하여 데이터를 테스트하는 경우, 최소의 KS 통계량을 나타내는 분포가 주어진 데이터에 가장 적합한 것으로 고려될 수 있다.

도 1 내지 도 3은 각각 다양한 잡음 조건 하에서 평가된 KS 통계량의 결과를 도시한다. 결과를 요약하면, 다음과 같은 사항들을 발견할 수 있다.

(1) 도 1은 백색 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 1(a) 및 (b)는 각각 가설 H₀인 경우의 DFT 계수의 실수부와 허수부를, 도 1(c) 및 (d)는 각각 가설 H₁인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면이다. 도 1에 따르면, 라플라시안 모델이 모든 SNR 레벨에서 H₀에 가장 적합하며, 가우시안 모델이 다음으로 적합하다. 백색 잡음이 가우시안 분포되어지는지 여부가 의문일 수 있다. 이에 대해, 프레임 길이가 10ms로 제한되기 때문에, 백색 잡음에 대한 DFT 계수가 나머지 모델들보다 라플라시안에 의해 보다 잘 근사화되어진다는 것을 확인할 수 있다. 큰 프레임 길이(>200ms)에 대해서는, DFT 계수의 PDF는 가우시안으로 접근할 수 있으나, 이러한 프레임 길이는 (VAD를 포함하는) 실시간 신호 처리 애플리케이션에 적합하지 않다.

가설 H₁에 대해서도, 라플라시안 모델이 SNR = 20 dB를 제외하고는 가장 적합했다. 특히, 감마 PDF로부터 계산된 KS 통계치는 SNR이 증가할수록 작아지는 반면에, 다른 모델들은 보다 큰 값들을 생성했다. 마지막으로, 감마 모델의 KS 통계치는 SNR = 20 dB에서 가장 최소였다. 이러한 이유로, H₁ 하에서 백색 잡음이 섞인 음성이 순수 음성 스펙트럼에 접근할수록 감마 모델이 점점 적합해진다는 결론을 얻을 수 있다.

2) 도 2는 차량 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 2(a) 및 (b)는 각각 가설 H₀인 경우의 DFT 계수의 실수부와 허수부를, 도 2(c) 및 (d)는 각각 가설 H₁인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면이다. 도 2로부터, H₀이 참일 경우 SNR = 20 dB를 제외하고는 모든 경우에서 감마 모델의 KS 통계량이 라플라시안 및 가우시안 모델들의 KS 통계량보다 더 작다는 것을 확인할 수 있다. 차량 잡음에 대한 거의 모든 경우에서, 가우시안 분포 가정은 잡음이 섞인 음성의 DFT 스펙트럼을 특징짓는데 좋지 못한 선택인 것으로 관찰되었다.

3) 도 3은 배블 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 3(a) 및 (b)는 각각 가설 H₀인 경우의 DFT 계수의 실수부와 허수부를, 도 3(c) 및 (d)는 각각 가설 H₁인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면이다. 도 3에서는, 가설 H₁ 하에서 얻 어진 결과가 가설 H₀ 하에서 생성된 결과와 상당히 다른 경향을 나타내고 있다. H₀에 대해서는, 라플라시안 모델의 KS 통계량이 거의 모든 SNR 값들에서 최소였으며, 감마 모델의 KS 통계량이 항상 최대였다. 반면에, H₁이 참일 경우에는 감마 모델이 잡음이 섞인 음성의 DFT 계수의 분포에 가장 적합한 것으로 관찰되었다. 또한, 가우시안 모델의 성능은 거의 모든 조건에서 가장 나쁜 것으로 관찰되었다.

KS 테스트 결과를 요약하면, 잡음이 섞인 음성의 DFT 스펙트럼에 대하여 잡음의 유형 및 SNR 레벨에 따라 서로 다른 통계 모델을 적용하는 것이 유리할 수 있다는 것을 알 수 있다. 특히, 본 발명에서 관심을 갖고 있는 감마 모델에 주목해 보면, 1) 백색 잡음이 섞인 음성이 순수 음성 스펙트럼에 접근하는 경우, 2) 차량 잡음이 섞인 음성의 거의 모든 경우, 및 3) 배블 잡음이 섞인 음성에서 가설 H₁이 참인 경우에 감마 모델이 가우시안 모델 및 라플라시안 모델보다 더 적합한 것으로 관찰되었다.

2. LRT 에 기초한 결정 규칙

본 발명의 실시예는 가정된 통계적 모델에 기초하여, k번째 주파수 빈(bin)에 대한 우도비(likelihood ratio; 이하 'LR'이라 함)를 다음 수학식 19와 같이 정의하였다.

VAD에 대한 결정 규칙은 개별 주파수 빈에 대하여 계산된 LR들의 기하 평균으로서 다음 수학식 20과 같이 구해질 수 있다.

여기서, M은 주파수 빈의 전체 수를 나타내며, η은 검출 임계치를 나타낸다.

H₀과 H₁ 모두에 대하여 가우시안 PDF가 음성 분포 모델링에 대하여 사용되는 경우에, LR은 다음 수학식 21에 의해 주어진다.

여기서,

이고,

이며, 이들은 각각 선행 SNR(a priori SNR) 및 후행 SNR(a posteriori SNR)로 지칭된다.

한편, 라플라시안 PDF의 경우에는, LR이 다음 수학식 22와 같이 구해진다.

실질적으로, 수학식 22를 직접 적용하는 대신에,

를 순간 진폭 스펙트럼 |X_k|로 대체하는 것이 보다 유리하다고 알려져 있다. 이 접근법은 순간 형태(instantaneous form)로서 지칭된다.

LRT의 성능을 보다 향상시키기 위하여, LR을 평탄화된 형태(smoothed form)로 지칭될 수 있는 다음 수학식 23과 같은 형태로 수정하는 대안적인 방법을 제안한다.

여기서,

이며,

은 평탄화 파라미터(smoothing parameter)이다. 평탄화된 형태에서는, 진폭 스펙트럼에 대하여 보다 평탄한 평가치가 순간 값 대신에 적용된다. 다수의 실험을 통하여, 평탄화된 형태가 순간 형태보다 우수하며, 특히 LRT의 성능은 평탄화 파라미터

의 선택에 크게 의존하는데,

의 값으로는 0.9를 선택하는 것이 바람직한 결과를 준다는 것을 관찰하였다.

마지막으로, 감마 PDF에 대한 LR의 공식은 앞서 언급한 수학식 1과 같이 주어진다(참조를 위하여 수학식 1을 다시 기재함).

<수학식 1>

라플라시안 모델의 경우와 유사하게, 상기 수학식 1을 대응하는 평탄화된 형태인 앞서 언급한 수학식 2와 같이 변환할 수 있다(참조를 위하여 수학식 2를 다시 기재함).

<수학식 2>

여기서,

이며,

은 감마 모델에 대한 평탄화 파라미터로서, 다수의 실험을 통하여 그 값을 0.9로 선택하는 것이 바람직한 결과를 주는 것으로 관찰되었다.

3. 실험 결과

본 발명의 실시예에서는 감마 모델의 성능을 라플라시안 모델의 성능 및 가우시안 모델의 성능과 비교하기 위해, 각 통계적 모델에 대한 음성 검출 확률(P_d)과 거짓 경고(false alarm) 확률(P_f)을 조사하였다.

도 4 내지 도 6은 각각 다양한 잡음 조건 및 SNR 조건 하에서의 각각의 통계 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 각 그래프에서 가로축은 음성 검출 확률(P_d)을, 세로축은 거짓 경고 확률(P_f)을 나타낸다. 도 4 내지 6으로부터 다음과 같은 사항들을 관찰할 수 있다.

(1) 도 4는 백색 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 4(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타낸다. 도 4로부터 알 수 있는 바와 같이, 백색 잡음의 경우에는 라플라시안 모델에 기초한 VAD 알고리즘이 다른 통계 모델에 기초한 VAD 알고리즘보다 우수하였다. 또한, 감마 모델에 기초한 VAD 알고리즘도 테스트된 조건들의 대부분에서 가우시안 모델의 VAD 알고리즘보다 더 좋은 성능을 보였다.

(2) 도 5는 차량 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 5(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타낸다. 도 5에서 확인할 수 있는 바와 같이, 차량 잡음의 경우에는 ROC 곡선이 서로 상대적으로 인접한 결과를 보였다. 그러나 P_f < 0.02의 경우에는 감마 모델에 기초한 VAD 알고리즘이 다른 모델들보다 다소 우수한 성능을 나타내는 것으로 관찰되었다. 또한, SNR이 증가함에 따라 검출 정확도에서의 차이가 더 커지는 것으로 관찰되었다.

(3) 도 6은 배블 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 6(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타낸다. 도 6으로부터, 라플라시안 모델을 결합한 VAD 알고리즘이 감마 및 가우시안 모델을 결합한 VAD 알고리즘보다 우수한 성능을 보이는 것을 확인할 수 있다. SNR이 작아질수록 성능의 차이는 더 커졌다.

이상에서 설명한 바와 같이, 잡음 조건 및 SNR 조건에 따라서 복소수 감마 모델에 기초한 VAD 알고리즘이 가장 좋은 성능을 나타내는 경우가 있는 것으로 관찰되었다(적어도 기존에 흔히 사용되고 있는 가우시안 모델에 기초한 VAD 알고리즘보다는 대부분의 경우에서 좋은 성능을 나타내고 있다).

다음은 본 발명의 실시예에 따른 복소수 감마 모델을 적용한 음성 검출기에 대하여 설명한다.

도 7은 본 발명의 실시예에 따른 음성 검출기의 구성을 나타내는 도면이다. 도 7에 도시한 바와 같이, 본 발명의 실시예에 따른 음성 검출기는 고속 푸리에 변환기(10, Fast Fourier Transformer; FFT), 잡음 파워 추정부(20), 우도비 결정부(30), 및 결정 규칙 계산부(40)를 포함한다.

고속 푸리에 변환기(10)는 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시킨다. 잡음 파워 추정부(20)는 상기 고속 푸리에 변환기(10)에 의해 주파수 영역으로 변환된 상기 음성 신호로부터 잡음 신호의 파워를 추정한다. 우도비 결정부(30)는 상기 잡음 파워 추정부(20)에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비를 결정한다. 마지막으로, 결정 규칙 계산부(40)는 상기 우도비 결정부(30)에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙을 상기 수학식 1을 이용하여 계산한다.

본 발명의 실시예에 따른 음성 검출기의 또 다른 구성으로서, 상기 음성 검출에 대한 결정 규칙을 계산하는 결정 규칙 계산부(40)에서, 상기 수학식 1 대신에 상기 수학식 2를 이용하여 계산하는 음성 검출기의 구성도 가능하며, 특히 평탄화 파라미터

을 0.9로 설정하도록 더욱 한정한 형태의 음성 검출기도 고려할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

본 발명은, 기존의 가우시안 통계 모델 대신에 복소수 감마 통계 모델을 사용하는 음성 검출 방법 및 음성 검출기를 제안함으로써, 잡음의 유형 및 SNR 조건에 따라서 음성 검출 성능을 향상시킬 수 있다.

Claims

복소수 감마 통계 모델(complex gamma statistical model)에 기초한 음성 검출(VAD; Voice Activity Detection) 방법으로서,

입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;

상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계;

상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계; 및

상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식을 이용하여 계산하는 단계

- 여기서, 가설 H₀과 H₁은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, X_k는 k 번째 이산 푸리에 계수,
와
는 각각 잡음 N_k 및 순수 음 성 S_k의 분산,
, X_k _(R)와 X_k _(I)는 X_k의 실수부와 허수부를 나타냄 -

를 포함하는 방법.
제1항에 있어서,

상기 음성 검출에 대한 결정 규칙을 계산하는 단계에서, 상기 수학식 대신에 다음 수학식을 이용하여 계산하는 방법.

- 여기서,
이며,
은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -
제2항에 있어서,

상기 평탄화 파라미터
을 0.9로 설정한 방법.
복소수 감마 통계 모델(complex gamma statistical model)에 기초한 음성 검출기(Voice Activity Detector)로서,

입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;

상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호로 부터 잡음 신호의 파워를 추정하는 잡음 파워 추정부;

상기 잡음 파워 추정부에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 우도비 결정부; 및

상기 우도비 결정부에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식을 이용하여 계산하는 결정 규칙 계산부

- 여기서, 가설 H₀과 H₁은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, X_k는 k 번째 이산 푸리에 계수,
와
는 각각 잡음 N_k 및 순수 음성 S_k의 분산,
, X_k _(R)와 X_k _(I)는 X_k의 실수부와 허수부를 나타냄 -

를 포함하는 음성 검출기.
제4항에 있어서,

상기 음성 검출에 대한 결정 규칙을 계산하는 결정 규칙 계산부에서,

상기 수학식 대신에 다음 수학식을 이용하여 계산하는 음성 검출기.

- 여기서,
이며,
은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -
제5항에 있어서,

상기 평탄화 파라미터
을 0.9로 설정한 음성 검출기.