KR20080105334A

KR20080105334A - 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법

Info

Publication number: KR20080105334A
Application number: KR1020070052793A
Authority: KR
Inventors: 장준혁; 박윤식; 조규행
Original assignee: 인하대학교 산학협력단
Priority date: 2007-05-30
Filing date: 2007-05-30
Publication date: 2008-12-04

Abstract

본 발명은 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법에 관한 것으로서, 보다 구체적으로는 (1) 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 확률 밀도 함수(PDF)를 따른다고 가정하고, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구하는 제1 단계와, (2) 상기 제1 단계에서 구한 상기 GSAP를 이용하여 잡음 스펙트럼을 추정하는 제2 단계와, (3) 상기 제1 단계에서 구한 상기 GSAP 및 상기 제2 단계에서 추정한 상기 잡음 스펙트럼을 이용하여 잡음 제거 이득을 수정하는 제3 단계와, (4) 상기 제2 단계에서 추정한 상기 잡음 스펙트럼 및 상기 제3 단계에서 수정한 상기 잡음 제거 이득을 이용하여 잡음이 섞인 음성의 음질을 향상시키는 제4 단계를 포함하는 것을 그 구성상의 특징으로 한다.

본 발명의 음성 향상 방법에 따르면, 복소 라플라시안 PDF를 소프트 디시전 방법과 접목시킴으로써, 즉 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 PDF를 따른다고 가정하고 전역 음성 부재 확률(GSAP)을 구한 후, 이를 이용하여 잡음 스펙트럼을 추정하고 잡음 제거 이득을 수정함으로써 잡음이 섞인 음성의 품질을 크게 향상시킬 수 있다.

음성 향상, 복소 라플라시안, 가우시안, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP), 잡음 스펙트럼 추정, 잡음 제거 이득 수정, 누적 분포 함수(CDF), 소프트 디시전, 하드 디시전

Description

복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법{A NOISY SPEECH ENHANCEMENT METHOD USING DETECTING METHOD USING A COMPLEX LAPLACIAN PROBABILITY DENSITY FUNCTION}

도 1은 가정 H₁(음성 존재)의 경우에 오염된 음성 스펙트럼(실수부)에 대한 가우시안 및 라플라시안 누적 분포 함수를 실험적 누적 분포 함수와 비교하여 나타내는 도면으로서, 도 1a는 백색 잡음이 SNR = 10dB로 부가된 경우를 나타내고, 도 1b는 차량 잡음이 SNR = 10dB로 부가된 경우를 나타내는 도면.

<도면 중 주요 부분에 대한 부호의 설명>

Laplacian : 라플라시안 CDF

Gaussian : 가우시안 CDF

empirical CDF : 실험적 CDF

본 발명은 음성 향상 방법에 관한 것으로서, 특히 복소 라플라시안 확률 밀 도 함수를 이용한 음성 향상 방법에 관한 것이다.

음성 향상 방법은 가변 전송률의 음성 부호화나 자동 음성 인식에서 중요한 요소이다. 최근에는 소프트 디시전(soft decision)이 적용된 잡음 제거 이득이, 초기의 음성 검출기(Voice Activity Detector; VAD)에 의해 각 프레임을 음성/비음성 구분하는 하드 디시전(hard decision)보다 향상된 성능을 보이는 것으로 나타나면서 음성 향상 방법에 소프트 디시전을 적용하여 음성 향상 방법의 성능을 개선하려는 많은 시도가 이루어지고 있다.

또한, 이산 푸리에 변환(Discrete Fourier Transform; DFT)은 오염된 음성 향상을 위해 가장 널리 사용되고 있는 방법으로서, 깨끗한 음성과 잡음 스펙트럼이 복소 가우시안(Complex Gaussian) 확률 밀도 함수(Probability Density Function; PDF)를 따른다고 가정하고 있다. 하지만, 최근의 연구결과에 따르면, 깨끗한 음성과 잡음의 DFT 계수는 가우시안 PDF보다 감마 (Gamma) PDF와 라플라시안(Laplacian) PDF에 의해 보다 정확하게 표현될 수 있다고 확인되고 있으며, 그 결과 복소 라플라시안 PDF는 다양한 잡음 환경에서 VAD를 위해 잡음으로 오염된 음성에 대한 DFT 계수의 PDF로서 사용되고 있다.

이와 같은 연구 결과들을 고려해 볼 때, 복소 라플라시안 PDF를 소프트 디시전 방법과 접목하여 이용함으로써 잡음이 섞인 음성의 품질 향상을 시도해 볼 필요가 있다.

본 발명은, 상기와 같은 필요성의 인식에서 비롯된 것으로서, 복소 라플라시 안 PDF를 소프트 디시전 방법과 접목시킴으로써, 즉 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 PDF를 따른다고 가정하고 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구한 후, 이를 이용하여 잡음 스펙트럼을 추정하고 잡음 제거 이득을 수정함으로써 잡음이 섞인 음성의 품질을 향상시킬 수 있는 음성 향상 방법을 제안하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 음성 향상 방법은,

(1) 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 확률 밀도 함수(Probability Density Function; PDF)를 따른다고 가정하고, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구하는 제1 단계;

(2) 상기 제1 단계에서 구한 상기 GSAP를 이용하여 잡음 스펙트럼을 추정하는 제2 단계;

(3) 상기 제1 단계에서 구한 상기 GSAP 및 상기 제2 단계에서 추정한 상기 잡음 스펙트럼을 이용하여 잡음 제거 이득을 수정하는 제3 단계;

(4) 상기 제2 단계에서 추정한 상기 잡음 스펙트럼 및 상기 제3 단계에서 수정한 상기 잡음 제거 이득을 이용하여 잡음이 섞인 음성의 음질을 향상시키는 제4 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 제1 단계에서, 상기 GSAP(

)는 다음과 같은 수학식을 이용하여 구할 수 있다.

여기서,

이고,

는 k번째 주파수 성분의 우도비로서, 아래 수학식과 같이 주어진다.

여기서,

로서 정의된다.

이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.

본 발명의 상세한 설명에서는, 먼저 음성의 통계적 분석을 통해 오염된 음성의 DFT 계수가 가우시안 분포보다는 라플라시안 분포에 의해 보다 정확하게 표현될 수 있다는 것을 확인한 후, 이에 기초하여 복소 라플라시안 PDF와 소프트 디시전을 접목한 본 발명에 따른 음성 향상 방법을 상세히 설명하기로 한다.

1. 오염된 음성의 통계적 분석

잡음신호 n이 깨끗한 음성신호 s에 인가되어 만들어진 오염된 음성신호 x에 대하여, 음성과 비음성일 때의 각각의 가정을 다음 수학식 1과 같이 표현할 수 있다.

와

,

는 각각 오염된 음성과 잡음, 깨끗한 음성신호의 DFT 계수를 의미한다.

계수의 통계적 모델은 적절한 DFT 계수 분포를 명시해 줌으로써 이용될 수 있다. 본 발명에서는 DFT 계수의 분포를 위해 서로 다른 두 개의 PDF를 비교하여 보았다. 먼저, 음성 분석에서 DFT 계수의 분포를 나타내기 위해 가장 많이 사용되는 복소 가우시안 PDF가 선택되었다.

음성 향상을 위한 적절한 통계적 모델을 적용하기 위해서는 주어진 오염된 음성 스펙트럼에 가장 가까운 모델을 선택해야 한다. 이를 위해, 다양한 잡음 조건 하에서 가정 H₀과 H₁에 따라 오염된 음성 스펙트럼의 통계적 적합도 테스트가 수행되었다. 적합도 테스트로서는, 일련의 깨끗한 음성 분포로부터 최소 평균 제곱 오차 추정치를 구하는 방법 대신에, 일반적으로 GOF로 알려진 Kolmogorov-Smirnov(KS) 테스트를 선택하여 각각의 가정 하에서 신뢰할 수 있는 분석을 도출하 였다.

가 오염된 음성의 DFT 계수를 나타내는 벡터라면, KS 테스트는 실험적 누적 분포 함수(Cumulative Distribution Function; CDF) F_X를 주어진 분포 함수 F와 비교한다. 실험적 CDF는 다음 수학식 2와 같이 정의된다.

여기서, X_(n)(n = 0, …, N-1)는 데이터 X의 차수 통계이다. 차수 통계를 구하기 위해 X의 성분들을 분류 배열하면, X₍₀₎는 가장 작고 X_(N-1)는 가장 큰 성분이 된다. 잡음 환경의 시뮬레이션을 위해 각각 서로 다른 4명의 남성 및 여성으로부터 추출한 64초의 깨끗한 음성 데이터에 NOISEX-92 데이터베이스의 백색 잡음(white noise)과 차량 잡음(vehicle noise)을 신호 대 잡음비(Signal-to-Noise Ratio; SNR) 10 dB로 부가하였다. 이러한 샘플 데이터를 기반으로 샘플의 평균, 분산을 계산하여 라플라시안과 가우시안 분포에 각각 적용하였다. 도 1은 가정 H₁(음성 존재)의 경우에 오염된 음성 스펙트럼(실수부)에 대한 가우시안 및 라플라시안 누적 분포 함수를 실험적 누적 분포 함수와 비교하여 나타내는 도면으로서, 도 1a는 백색 잡음이 SNR = 10dB로 부가된 경우를 나타내고, 도 1b는 차량 잡음이 SNR = 10dB로 부가된 경우를 나타낸다. 도 1을 통하여, 백색 잡음이 부가된 경우 및 차량 잡음이 부가된 경우 모두에 있어서 라플라시안 CDF 곡선이 가우시안 CDF 곡선보다 실험적 CDF에 더 근접하다는 것을 분명하게 확인할 수 있다.

실험적 CDF와 제시된 분포간의 거리 측정을 위해, 다음 수학식 3과 같이 정의되는 KS 통계 T를 사용하였다.

여기서, 거리는 샘플 포인트 X_i에서 평가된 F_X( )와 F( ) 사이의 최대 차이를 의미하며, 여러 분포에 대한 데이터를 테스트할 때, 가장 작은 T를 만드는 PDF가 주어진 데이터에 가장 적합한 분포를 의미한다.

잡음의 유형		백색			차량			배블
SNR(dB)		5	10	15	5	10	15	5	10	15
H₁	가우시안: 실수부	0.043	0.078	0.129	0.211	0.223	0.231	0.129	0.165	0.198
	라플라시안: 실수부	0.031	0.025	0.068	0.164	0.177	0.186	0.071	0.107	0.145
	가우시안: 허수부	0.044	0.081	0.134	0.214	0.225	0.232	0.142	0.173	0.203
	라플라시안: 실수부	0.028	0.026	0.073	0.164	0.178	0.187	0.080	0.116	0.149
H₀	가우시안: 실수부	0.045	0.052	0.063	0.238	0.270	0.311	0.149	0.127	0.136
	라플라시안: 실수부	0.024	0.024	0.023	0.189	0.237	0.277	0.088	0.067	0.078
	가우시안: 허수부	0.051	0.059	0.071	0.243	0.275	0.325	0.153	0.127	0.134
	라플라시안: 실수부	0.019	0.016	0.021	0.243	0.237	0.278	0.093	0.067	0.075

표 1은 다양한 잡음 환경 하에서 오염된 음성의 DFT 계수에 대한 KS 테스트 비교 결과를 나타내고 있다. 표 1로부터, 테스트에 사용된 모든 잡음 환경에서 라플라시안 분포가 가우시안 분포보다 작은 KS 통계 T를 갖는다는 것을 확인할 수 있다. 그러므로 오염된 음성의 DFT 계수에 대한 PDF로서는, 가우시안 PDF보다는 라플라시안 PDF가 더 적합하다는 결론을 내릴 수 있다.

2. 복소 라플라시안 PDF 를 이용한 음성 향상 방법

(1) 전역 음성 부재 확률

X_k _(R)과 X_k _(I)을 각각 DFT 계수 X_k의 실수부와 허수부라고 정의하면, 복소 라플라시안 PDF에 따라 X_k _(R)과 X_k _(I)는 다음 수학식 4와 같은 분포를 갖는다고 가정할 수 있다.

여기서,

는 X_k의 분산이고, X_k의 실수부와 허수부가 서로 독립이라고 가정하면 p(X_k)는 다음 수학식 5와 같다.

실수부와 허수부가 독립이라는 가정을 증명하기 위해, DFT 계수의 실수부와 허수부에 대해 산점도(scatter plots)를 평가하면, 실수부와 허수부의 상관관계는 약하고 독립이라는 가정에 의해 발생되는 에러는 무시할 수 있을 정도로 작다는 결론을 내릴 수 있다.

상기 수학식 5에서 오염된 음성의 DFT 계수 분포는 다음 수학식 6과 같이 음 성이 존재하는 H₀의 경우와 음성이 존재하지 않는 H₁의 경우로 표현된다.

여기서,

와

는 각각 N_k와 S_k의 분산을 의미한다.

입력 신호 X(t)에 대한 전역 음성 부재 확률(GSAP)은 다음 수학식 7과 같이 계산될 수 있다.

여기서,

는 음성 부재에 대한 사전확률(a priori probability)이다.

각 주파수의 스펙트럼 성분은 통계적으로 독립이라고 가정했기 때문에, 상기 수학식 7은 다음 수학식 8과 같이 표현될 수 있다.

여기서,

이고,

는 k번째 주파수 성분의 우도비로서, 다음 수학식 9와 같다.

여기서,

이다.

(2) GSAP를 이용하여 추정된 잡음과 음성의 전력

상기 수학식 8의 전역 소프트 디시전(global soft decision)의 성능 향상 여부에는, 일반적으로 깨끗한 음성 전력

와 배경 잡음 전력

의 정확한 추정이 중요한 요소로 작용한다. 대체적으로 N(t)과 X(t)가 정상 상태라는 가정 하에

와

을 추정하기 위해 이와 같은 전력 스펙트럼에 long-term smoothing을 적용한다. 따라서

와

의 추정치

와

는 다음 수학식 10과 같다.

여기서,

과

는 스무딩 파라미터이다.

상기 수학식 10은,

와

가 입력신호 X(t)에 의존하지 않는 일종의 관련된 파라미터에 의한 예측된 추정치라는 것을 내포하고 있다. 상기 수학식 10의 X(t)와 N(t)에 적용한 통계적 가정에 기초하면, 다음 수학식 11을 같이 도출할 수 있다.

여기서, 다음 수학식 12가 성립된다.

여기서,

로서 정의된다.

상기 수학식 12는, 잡음 전력 스펙트럼의 추정치가 비음성 구간뿐만 아니라 음성 구간에서도 갱신되는 특징을 보여 주고 있다. 이것은, 일반적으로 비음성 구간에서만 잡음 전력을 갱신해주는 기존의 방법과는 구별되는 점이다. 그러나 부정확한 잡음 전력이 음성의 왜곡을 크게 발생시킬 수 있기 때문에, 음성 부재 확률(SAP)이 임계값 p_th보다 클 경우에만

을 갱신하도록 하였다. 본 발명의 일 실시예에서는 p_th = 0.7로 설정하였다.

(3) GSAP를 이용하여 수정된 잡음 제거 이득

는 t번째 프레임에서 추정된 깨끗한 음성의 스펙트럼을 의미한다. 기존의 일반적인 스펙트럼 향상 기법은, 오염된 음성신호의 각각의 스펙트럼 성분에 특정 잡음 제거 이득을 적용함으로써 추정된 깨끗한 음성 신호

을 얻었다. 본 발명에서는, 잡음 제거 이득을 구하는 여러 방법들 중에서 음성 향상 후 음질을 저해하는 뮤지컬 잡음을 제거하는데 우수한 성능을 보이는, 다음 수학식 13과 같은 Ephraim과 Malah에 의해 제안된 EMSR(Ephraim and Malah Suppression Rule)을 선택하였다.

여기서,

와

는 각각 선행 SNR(a priori SNR)과 사후 SNR(a posteriori SNR)을 나타내며, 잡음 제거 이득 G( )는 다음 수학식 14와 같다.

여기서, M[ ]은 다음 수학식 15와 같다.

상기 수학식 15에서 I₀, I₁은 각각 0차, 1차 수정 베셀(modified Bessel) 함수를 의미한다. EMSR에서 지배적 파라미터로 사용되는 선행 SNR을 추정하는 decision-directed 방법은 뮤지컬 잡음을 제거하는데 우수한 성능을 가지고 있다.

와

의 추정치

와

를 decision-directed 방법을 이용하여 구하면 다음 수학식 16과 같다.

여기서,

는 가중치 파라미터이고, P[x]는

이고,

을 의미하는 연산자이다.

상기 수학식 13에서 입력된 오염 음성의 스펙트럼에서 잡음이 제거된 스펙트럼 추정치

는, 음성/비음성의 경우를 고려한 소프트 디시전을 적용하면 다음 수학식 17과 같이 나타낼 수 있다.

상기 수학식 17을 이용하여, 기존의 수학식 13의 잡음 제거 이득을 수정하면 소프트 디시전이 적용된 잡음 제거 이득

는 다음 수학식 18과 같다.

3. 실험 결과

본 발명에서 제안한 복소 라플라시안 PDF 기반의 소프트 디시전이 적용된 음성 향상 방법의 성능을 평가하기 위해, 다양한 잡음 조건 하에서 객관적인 테스트를 수행하였다. 각각 5명의 남성과 여성 화자가 발음하도록 한 10개의 문장이 테스트에 사용되었으며, NOISEX-92 데이터베이스의 백색 잡음, 배블 잡음, 차량 잡음이 다양한 SNR로 깨끗한 음성에 부가되었다.

잡음의 유형	방법	SNR(dB)
잡음의 유형	방법	5	10	15
백색 잡음	음성 향상 비적용	1.50	1.80	2.61
	기존의 방법	1.71	1.85	2.81
	제안된 방법	1.81	1.90	2.87
차량 잡음	음성 향상 비적용	2.37	2.50	2.64
	기존의 방법	2.60	2.65	2.81
	제안된 방법	2.68	2.71	2.84
배블 잡음	음성 향상 비적용	1.81	2.03	2.21
	기존의 방법	1.97	2.22	2.36
	제안된 방법	2.09	2.30	2.44

표 2는 본 발명에서 제안된 음성 향상 방법(제안된 방법)과 기존의 음성 향상 방법(기존의 방법)의 PESQ 수치를 비교한 표이다. 표 2의 결과로부터, 대부분의 잡음 환경에서 본 발명에서 제안된 음성 향상 방법이 기존의 음성 향상 방법보다 향상된 결과를 보인다는 것을 분명하게 확인할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims

(1) 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 확률 밀도 함수(Probability Density Function; PDF)를 따른다고 가정하고, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구하는 제1 단계;

(2) 상기 제1 단계에서 구한 상기 GSAP를 이용하여 잡음 스펙트럼을 추정하는 제2 단계;

(3) 상기 제1 단계에서 구한 상기 GSAP 및 상기 제2 단계에서 추정한 상기 잡음 스펙트럼을 이용하여 잡음 제거 이득을 수정하는 제3 단계;

(4) 상기 제2 단계에서 추정한 상기 잡음 스펙트럼 및 상기 제3 단계에서 수정한 상기 잡음 제거 이득을 이용하여 잡음이 섞인 음성의 음질을 향상시키는 제4 단계

를 포함하는 음성 향상 방법.
제1항에 있어서,

상기 제1 단계에서, 상기 GSAP(
)는 다음과 같은 수학식을 이용하여 구하는 음성 향상 방법.

여기서,
이고,
는 k번째 주파수 성분의 우도비로서, 아래 수학식과 같이 주어짐.

여기서,
로서 정의됨.