KR20040056977A

KR20040056977A - 복소수 라플라시안 통계모델을 이용한 음성 검출기 및음성 검출 방법

Info

Publication number: KR20040056977A
Application number: KR1020020083728A
Authority: KR
Inventors: 이미숙; 황대환; 장준혁; 김남수
Original assignee: 한국전자통신연구원
Priority date: 2002-12-24
Filing date: 2002-12-24
Publication date: 2004-07-01
Also published as: US20040122667A1; KR100513175B1

Abstract

본 발명은 복소수 라플라시안 통계 모듈을 이용한 음성 검출기에 관한 것이다. 본 발명의 음성검출기는 입력된 음성에 대하여 고속 푸리에 변환을 수행하여 시간 영역의 음성신호를 주파수 영역에서 분석할 수 있도록 하는 고속 주파수 푸리에 변환기, 상기 고속 주파수 푸리에 변환기로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성으로부터 잡음 신호의 파워 를 추정하는 잡음 파워 추정부, 상기 잡음 파워 추정부로부터 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 음성검출기(VAD)의 결정 규칙을 계산하는 가능성 비율 테스트(LRT) 계산부를 포함한다.

Description

복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법{A Voice Activity Detector Employing Complex Laplacian Model}

본 발명은 음성 검출기 및 음성 검출 방법에 관한 것으로서, 특히 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법에 관한 것이다.

3GPP 및 3GPP2 등에서 제안되고 있는 많은 광대역 음성(speech) 코덱들이 가변율 전송(variable rate transmission) 기술을 요구한다. 이러한 가변율 전송을 위해, 음성 코덱(codec)은 음성이 없는 경우에 적은 비트를 할당할 수 있는 음성 검출기(voice activity detector)를 채택해야 한다. 즉, 음성 검출(voice Activity Detection, 이하 'VAD'라 함) 기술이 가변율 음성 부호화(variable rate speechcoding) 및 잡음 향상 기술에서 필수 불가결한 요소로 취급되고 있다.

최근 잡음이 섞인 음성(noisy speech; 이하 '잡음 음성'이라 함)으로부터 잡음과 음성을 분류하는 VAD 알고리즘의 성능을 향상시키기 위해 많은 방법들이 제안되고 있는데, 그 중 하나가 음성의 스펙트럼은 잡음의 스펙트럼보다 빨리 변한다는 직관(intuition)을 이용한 스펙트럼 비규칙성 측정 기반 모델(spectral irregularity measure-based model)이다. 그러나, 이 모델에 따르면 음성과 같은 스펙트럼을 가지는 잡음이 포함될 경우, 시스템의 성능이 극도로 떨어질 수 있다는 문제점이 있다.

한편, 통계적 모델을 채택하여 VAD의 성능을 향상시키기 위한 새로운 알고리즘이 "A statistical model-based voice activity detection",IEEE Signal Processing Letters, Vol. 6, No. 1 pp1-3, Jan. 1999 by J.Sohn, N.S. Kim and W.Sung의 논문(이하 '참조문헌 1'이라 함)에 제안되었다. 상기 모델은 가설의 집합에 적용되는 가능성 비율 테스트(likelihood ratio test; 이하 'LRT'라 함)로부터 VAD의 결정 규칙(decision rule)을 추출한다.

VAD 알고리즘은 주로 이산 푸리에 변환(discrete Fourier transform; 이하 'DFT'라 함) 영역에서 동작하는데, 종래의 VAD 알고리즘은 복소수 가우시안 밀도(complex Gaussian density)에 의해 규정되는 순수 음성(clean speech)과 잡음의 스펙트럼 분포를 사용하였다.

그러나, DFT 계수를 복소수 가우시안 분포를 사용하여 순수 음성과 잡음을 모델링할 경우 정확성에 일정 정도 한계가 있었기 때문에, DFT 계수를 모델링할 새로운 분포 모델이 요구되고 있다.

본 발명은 복소수 라플라시안 모델을 채택한 음성 검출기 및 검출 방법을 제공하기 위한 것으로서, 라플라시안 모델과 가우시안 모델의 성능을 비교한다.

도 1은 음성 스펙트럼의 라플라시안 누적 밀도 함수 및 가우시안 누적 밀도 함수를 경험적인 누적 밀도 함수와 비교한 곡선이다.

도 2는 라플라시안 모델과 가우시안 모델을 각각 적용한 음성 검출기의 수신기 동작 특성을 나타내는 도면이다.

도 3은 본 발명의 실시예에 따른 음성 검출기를 나타내는 도면이다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 복소수 라플라시안 통계 모듈을 이용한 음성 검출기는

입력된 음성에 대하여 고속 푸리에 변환을 수행하여, 시간영역의 음성신호를 주파수 영역에서 분석할 수 있도록 하는 고속 주파수 푸리에 변환기;

상기 고속 주파수 푸리에 변환기로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 잡음 파워 추정부;

상기 잡음 파워 추정부(20)로부터 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD(voice activity detection)의 결정 규칙을 계산하는 가능성 비율 테스트(LRT) 계산부를 포함한다.

또한, 본 발명의 특징에 따른 복소수 라플라시안 통계 모듈을 이용한 음성 검출 방법은

잡음에 오염된 음성에 대하여 고속 푸리에 변환을 수행하여, 주파수 영역에서 분석할 수 있도록 출력하는 단계;

상기 단계에서 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 단계;

상기 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD의 결정 규칙을 계산하는 단계를 포함한다.

이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.

본 발명의 실시예는 다양한 잡음 조건에서 잡음에 오염된 음성신호의 DFT 계수를 VAD에 적용하기 위해 복소수 라플라시안 모델을 제안한다.

본 발명의 실시예에서는 먼저 다양한 잡음에 오염된 음성 조건하에서 적합 양호성(Goodness Of Fit; 이하 'GOF'라 함) 테스트를 적용함으로써 라플라시안 모델과 가우시안 모델을 비교한 후, 가능성 비율 테스트(Likelihood Ration Test; 이하 'LRT'라 함에 기반한 결정 규칙(Decision Rule)을 고려한다.

1. 통계적 모델

먼저, 잡음 신호 X(t)와 음성 신호 S(t)의 합이 X(t)라고 가정한다. 이때, 가설 H₀와 H₁은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타낸다. 즉, 가설 H₀와 H₁에서, X(t)는 다음의 수학식 1과 수학식 2를 만족한다.

여기서, X(t) = [X₀(t), X₁(t), ..., X_M-1(t)]^T, N(t) = [N₀(t), N₁(t), ..., N_M-1(t)]^T, S(t) = [S₀(t), S₁(t), ..., S_M-1(t)]^T는 각각 잡음 음성, 잡음 및 순수 음성의 이산 푸리에 변환(DFT) 계수이다.

상기한 통계적 모델은 적절한 DFT 계수 분포를 선택함으로써 완료된다. 본 발명의 실시예에서는 DFT 계수의 적절한 분포로서 가우시안 확률 밀도 함수(probabilistic density function, 이하 'PDF"라 함)를 채택하는 대신 복소수 라플라시안 확률밀도 함수를 채택하였다.

복소수 가우시안 PDF에서, 양 가설(H₀, H₁)에 의해 결정되는 잡음 스펙트럼 요소(noisy spectral component)의 분포는 다음의 수학식 3과 수학식 4와 같이 주어진다.

여기서,와는 각각 잡음 N_k와 순수 음성 S_k의 분산(variance)을 나타낸다.

한편, 복소수 라플라시안 PDF에서, DFT 계수 X_k의 실수부(real part)와 허수부(imaginary part)를 각각 X_k(R)와 X_k(I)로 가정하면, X_k(R)와 X_k(I)는 다음의 수학식 5와 6과 같이 분포된다.

여기서,는 X_k의 분산을 나타낸다. X_k의 실수부와 허수부가 독립적이라고 가정하면, 수학식 7과 같은 확률 밀도 함수 p(X_k)를 구할 수 있다.

상기 수학식 7을 사용하여, 다음의 수학식 8과 9와 같은 잡음 DFT 계수의 분포를 구할 수 있다.

성공적인 VAD 동작을 위해서, 본 발명의 실시예에서는 H₀와 H₁에 의해 결정되는 잡음 스펙트럼 요소를 위한 통계적 적합성 테스트(statistical fitting test)를 수행한다.

확률밀도함수(PDF)의 선택을 위해, 본 발명의 실시예에서는 GOF 테스트로서 잘 알려진 Kolomogorov-Sriminov 테스트(이사, 'KS 테스트'라 함)를 적용한다. KS 테스트를 적용함으로써, 각 통계적인 가정에 대한 신뢰성 있는 관측을 보장할 수 있다.

KS 테스트는 경험적인(empirical) 누적 분포 함수(cumulative distribution function; 이하 'CDF'라 함) Fx를 소정의 분포 함수 F와 비교한다. 경험적 CDF는 R.C. Reininger와 D.Gibson이 발표한 논문(이하. '참조논문 2'이라 함)인 "Distributions of the two dimensional DCT coefficients for images,"IEEE Trans. Communications., Vol. Com-31, No. 6, June 1983를 사용하였다.

상기 논문에 기초한 경험적 CDF는가 잡음음성의 DFT 계수를 나타내는 벡터라고 가정할 때, 다음의 수학식 10으로 나타낼 수 있다.

여기서,은 데이터 X의 순서 통계(order statistic)이다. 이러한 순서 통계를 계산하기 위해, 본 발명의 실시예에서는 X의 원소(element)를 분류하여, X의 가장 작은 원소인 X₍₀₎에서부터 가장 큰 원소인 X_(N-1)까지 순서대로 배열한다.

잡음 환경을 모의 실험하기 위해, 서로 다른 4명의 남성과 여성 화자로부터, 64초구간의 음성 자료(speech material)를 수집하였으며, NOISEX-92 데이터베이스로부터 추출한 백색 잡음(white noise)과 차량 잡음(vehicular noise)을 신호대 잡음비(SNR)가 10dB인 순수 음성 신호에 첨가하였다. 수집한 상기 데이터를 사용하여, 표본 평균과 분산을 계산하였으며, 주어진 라플라시안 분포와 가우시안 분포에 적용하였다.

도 1은 잡음 음성 스펙트럼(실수부)의 라플라시안 CDF 및 가우시안 CDF를 경험적인 CDF와 비교한 그래프로서, (a)와 (b)는 각각 H₁이 백색 잡음(SNR=10dB)과 차량 잡음(SNR=20)인 경우를 나타낸다.

도 1로부터, 백색 잡음 및 차량 잡음 환경 모두에서 라플라시안 CDF의 곡선이 가우시안 CDF의 곡선 보다 경험적인 CDF 곡선에 가깝다는 것을 알 수 있다.

경험적인 CDF와 주어진 분포 사이의 거리 측정을 규정하기 위해, 본 발명의 실시예에서는 상기 참조논문 2에서 제안한 KS 테스트 통계량(statistic)을 사용한다.

KS 테스트 통계량(T)는 다음의 수학식 11과 같이 정의된다.

여기서, 표본 포인트{X_i}에서 구한 Fx(X_i)와 F(X_i) 사이의 최대 차이가 거리에 해당한다.

몇몇 분포에 대하여 데이터를 테스트하는 경우, 최소의 KS 통계량을 나타내는 분포는 주어진 데이터에 가장 적합한 것으로 고려될 수 있다. 표 1은 다양한 잡음 환경하의 잡음 음성의 DFT 계수를 위한 KS 테스트의 결과를 나타낸다. 표 1에서 G와 L은 각각 가우시안 분포와 라플라시안 분포를 나타낸다.

표 1로부터, 모든 잡음 환경 하에서 라플라시안 모델의 KS 통계량(T)이 가우시안 모델의 KS 통계량 보다 적음을 알 수 있다. 따라서, 라플라시안 모델이 가우시안 모델보다 DFT 계수를 모델링하는데 훨씬 정확하다는 것을 알 수 있다.

2. LRT에 기초한 결정 규칙

본 발명의 실시예는 가정된 통계적 모델에 기초하여, k번째 주파수 빈(bin)에 대한 가능성 비율(likelihood ratio; 이하 'LR'이라 함)을 수학식 12와 같이 계산하였다.

VAD를 위한 결정 규칙(decision rule)은 개별 주파수 채널에 대한 LR의 기하학적 평균으로 정의될 수 있으며, 이것은 다음의 수학식 13과 같이 나타낼 수 있다.

여기서,은 결정을 위한 문턱값이다.

H₀및 H₁에 대한 종래의 가우시안 분포에서 LR은 다음의 수학식 14에 의해 구해진다.

여기서,이고,이다.

한편, 라플라시안 모델에 기초하여 계산된 LR은 다음의 수학식 15와 같다.

여기서, VAD의 성공 또는 실패 여부는 통계적인 모델뿐만 아니라 잡음 파워(noise power)와 음성 파워(speech power)에 대한 적절한 추정에 의해서도 결정된다.

3. 실험 결과

본 발명의 실시예에서는 라플라시안 모델의 성능과 가우시안 모델의 성능을 비교하기 위해, 각 통계적 모델에 대한 음성 감지 확률(P _d )과 오류(false alarm) 확률(P _f )을 조사하였다.

도 2는 5dB SNR에서 라플라시안 모델과 가우시안 모델을 적용한 VAD의 수신기 동작 특성을 나타내는 그래프로서, (a)와 (b)는 백색 잡음과 차량 잡음인 경우를 나타낸다. 도 2에서, 세로축과 가록축이 각각 음성 감지 확률(P _d )과 오류(false alarm) 확률(P _f )을 나타낸다.

도2에 도시한 수신기 동작 특성으로부터, 두 통계 모델의P _d 와P _f 사이에는트레이드-오프가 존재한다는 것을 알 수 있으며, 음성 감지 확률(P _d )이 정상 영역(90% 이상)에 있으면, 복소수 라플라시안 모델 기반의 결정 규칙인 복소수 가우시안 기반의 결정 규칙보다 더 좋다는 것을 알 수 있다.

이상에서 설명한 바와 같이, 다양한 잡음 환경에서 복소수 라플라시안 모델 기반의 VAD가 복소수 가우시안 기반의 VAD 보다 더 좋은 성능을 나타낸다는 것을 알 수 있다.

다음은 본 발명의 실시예에 따른 복소수 라플라시안 모델을 적용한 음성 검출기에 대하여 설명한다.

도 3에 도시한 바와 같이, 본 발명의 실시예에 따른 음성 검출기는 고속 푸리에 변환기(10, Fast Fourier Transformer; FFT), 잡음 파워 추정부(20), LRT 계산부(30)를 포함한다.

FFT(10)는 입력된 음성을 고속 푸리에 변환하여, 음성신호를 주파수 영역에서 분석할 수 있도록 잡음에 오염된 음성(X(k))을 출력한다. 잡음 파워 추정부(20)는 상기 FFT(10)로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워를 추정한다. LRT(Likelihood Ratio Test) 계산부(30)는 상기 잡음 파워 추정부(20)로부터 추정된 잡음 신호의 파워와 기정의된 음성신호의 존재가설(H₀, H₁)에 대한 복소수 라플라시안 확률 통계 모델로부터 VAD의 결정 규칙을 계산한다.

이때, 결정 규칙은 앞서 설명한 바와 같이, 개별 주파수 빈에 대한 가능성 비율들(Likelihood ratios)에 대한 기하 평균으로 정의되며, 라플라시안 모델의 가능성 비율은 수학식 15에 의해 결정된다.

이상에서 본 발명의 실시예에 대하여 설명하였으나, 본 발명은 상기한 실시예에만 한정되는 것은 아니며, 그 외의 다양한 변경이나 변형이 가능하다.

이상에서 설명한 바와 같이, 본 발명의 음성 검출기는 라플라시안 통계 분포를 사용하기 때문에, 복소수 가우시안 기반의 VAD 보다 더 좋은 성능을 나타낼 수 있다.

Claims

입력된 음성에 대하여 고속 푸리에 변환을 수행하여, 시간영역의 음성신호를 주파수 영역에서 분석할 수 있도록 하는 고속 주파수 푸리에 변환기;

상기 고속 주파수 푸리에 변환기로부터 출력되는 주파수 영역 상의 잡음에 오염된 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 잡음 파워 추정부;

상기 잡음 파워 추정부(20)로부터 추정된 잡음 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD(voice activity detection)의 결정 규칙을 계산하는 가능성 비율 테스트(LRT) 계산부를 포함하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출기.
제1항에 있어서,

상기 결정 규칙은 k 번째 주파수에 대한 가능성 비율()의 기하학적 평균이며, 상기 가능성 비율은 다음의 식

, - 가설 H₀와 H₁은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수를 나타냄-으로 결정되는 것을 특징으로 하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출기.
제2항에 있어서,

상기 라플라시안 통계 모듈을 적용한 가능성 비율은 다음의 수학식으로

-여기서,이고, X_k(R)와 X_k(I)는 X_k의 실수부와 허수부를 나타냄-결정되는 것을 특징으로 하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출기.
입력된 음성에 대하여 고속 푸리에 변환을 수행하여, 시간영역의 음성신홀르 주파수 영역에서 분석할 수 있도록 잡음 음성(X(k))을 출력하는 단계;

상기 단계에서 출력되는 주파수 영역 상의 잡음 음성(X(k))으로부터 잡음 신호의 파워()를 추정하는 단계;

상기 추정된 잡음에 오염된 신호의 파워와 복소수 라플라시안 확률 통계 모델로부터 VAD의 결정 규칙을 계산하는 단계를 포함하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출방법.
제4항에 있어서,

상기 결정 규칙은 k 번째 주파수에 대한 가능성 비율의 기하학적 평균이며, 상기 가능성 비율은 다음의 식

-여기서, 가설 H₀와 H₁은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, X_k는 k 번째 이산 푸리에 계수,, X_k(R)와 X_k(I)는 X_k의 실수부와 허수부를 나타냄-으로 결정되는 것을 특징으로 하는 복소수 라플라시안 통계 모듈을 이용한 음성 검출 방법.