KR100741355B1

KR100741355B1 - 인지 가중 필터를 이용한 전처리 방법

Info

Publication number: KR100741355B1
Application number: KR1020060096954A
Authority: KR
Inventors: 장준혁
Original assignee: 인하대학교 산학협력단
Priority date: 2006-10-02
Filing date: 2006-10-02
Publication date: 2007-07-20
Also published as: KR20060109418A

Abstract

본 발명은 인지 가중 필터를 이용한 전처리 방법에 관한 것으로서, 인지 가중 필터에 대하여 듣기 테스트를 통해 주관적으로 인지 가중 상수 값을 결정하는 단계 및 결정된 인지 가중 상수 값을 갖는 인지 가중 필터를 이용하여 음성 코덱에 입력될 입력 음성에 대하여 전처리를 행하는 단계를 포함한다.

본 발명에 따른 전처리 방법에 의하면, 인지 가중 필터를 포함하는 인지적으로 개선된 전처리 과정을 통해 가청 양자화 오차를 줄임으로써, 대부분의 조건에서 종래의 방법들에 비해 코덱 출력에서 주관적으로 향상된 음성 신호를 얻을 수 있었다.

음성 향상, 음성 수정, 전처리 단계, 인지 가중 필터, 인지 가중 상수 값, 가청 양자화 오차, 코덱

Description

인지 가중 필터를 이용한 전처리 방법{A PREPROCESSING METHOD USING A PERCEPTUAL WEIGHTING FILTER}

도 1은 통상적인 음성향상 처리에 대한 흐름을 도시한 도면.

도 2는 본 발명의 일 실시예에 따라 인지 가중 필터를 적용한 경우를 인지 가중 필터를 적용하지 않은 경우와 비교하는 도면.

<도면 중 주요 부분에 대한 부호의 설명>

110 : 전처리 단계

120 : 음성 향상 단계

130 : 후처리 단계

본 발명은 음성 처리를 위한 전처리 방법에 관한 것으로서, 보다 구체적으로는 인지 가중 필터를 이용한 전처리 방법 및 전처리기에 관한 것이다.

일반적으로, 저 전송률 음성 코더(low-bit-rate speech coder)의 성능은, 배경 잡음, 음향학적 에코들, 음악 소리 또는 간섭하는 화자의 음성과 같은 다양한 간섭 신호들이 존재하는 경우 심각하게 저하된다. 이러한 현상은 주로 가정된 음 성 생성 모델(코더에서 사용된 다수의 코드북은 많은 양의 음성 데이터 및 순수 음성 신호에 맞추어 특정된 파라미터 검색에 대한 범위에 기초하여 트레이닝 되기 때문에, 음성 생성 모델이 코드북 트레이닝에서 사용됨)로부터의 이탈에 의해 초래된다. 저 전송률 코딩에 대해 원하지 않는 왜곡을 감소시키는 방법의 성공적인 응용 중의 하나는, 한국특허 등록번호 제10-304666호 등에 개시된 것과 같은 음성향상 방법(speech enhancement technique)의 적용이다. 그러나, 이들 음성향상 방법들은 정상 배경 잡음(stationary background noise)의 존재 하에서는 음성향상에 효과적이라고 밝혀져 왔지만, 음향학적 에코들, 음악 소리 또는 간섭 음성과 같은 간섭 신호들의 존재 하에서는 그 성능이 많이 저하된다는 문제점이 있다. 이것은 주로 이러한 종래의 접근법들이 음성 코더의 특성들을 이용할 수 없는 개방 루프 분석법(open loop analysis)을 채택하기 때문이다.

본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, 인지 가중 필터를 포함하는 인지적으로 개선된 전처리 과정을 통해 가청 양자화 오차를 줄임으로써 코덱의 출력에서 향상된 음성을 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 전처리 방법은, 입력-출력 특성을 모델링한 전달 함수가 벡터 Q인 음성 코덱(출력 = Q(입력))에 입력될 입력 음성에 대하여 적용되는 방법으로서,

에 의해 주어지는 인지 가중 필터에 대하여 듣기 테스트를 통해 주관적으로 인지 가중 상수

값을 결정하는 단계(여기서,

는 p-차 선형 예측 분석 필터이고,

는 선형 예측 계수임); 및

상기 결정 단계에서 결정된 상기

값을 갖는 상기 인지 가중 필터를 이용하여 음성 코덱에 입력될 입력 음성에 대하여

를 적용하여 전처리하는 단계(여기서,

은 본 발명에 따라 전처리된 입력 음성, X는 전처리되기 전의 입력 음성, I는 N X N 항등 매트릭스, K는 양의 상수 수정 인자,

, W_Q는 양자화 오차들에 대한 인지 가중 필터의 대각 매트릭스임)를 포함함을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세히 설명하기 로 한다.

도 1은 통상적인 음성향상 방법에 대한 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 통상적인 음성향상 처리는 전처리 단계(110), 음성향상 단계(120) 및 후처리 단계(130)로 구성된다. 통상적으로, 전처리 단계(110)에서는 잡음이 섞여서 입력되는 음성신호에 대해 프리-엠퍼시스(pre-emphasis)와 고속 푸리에 변환(FFT; Fast Fourier Transform)이 행해진다. 음성향상 단계(120)에서는 전처리 단계(110)에서 전처리된 입력 음성 신호에 대해 여러 가지 음성향상 방법들을 적용하여 실제적인 음성향상 처리를 행하게 되며, 후처리 단계(130)에서는 음성향상 단계(120)에서 음성향상 처리된 신호에 대해 역 고속 푸리에 변환(IFFT)과 디-엠퍼시스(de-emphasis)가 행해지게 된다. 본 발명은 상기 단계들 중 전처리 단계(110)에 관한 것으로, 잡음이 섞여서 입력되는 음성신호에 대해 단순히 프리-엠퍼시스와 고속 푸리에 변환을 행하는 것에 머무는 것이 아니라, 인지 가중 필터를 적용하여 입력 음성을 수정함으로써 가청 양자화 오차를 줄여 음성향상을 꾀하는 발명이다. 본 발명의 구체적인 내용, 즉 본 발명에 따른 전처리 단계(110)에 대해서 아래에서 더욱 상세하게 설명하기로 한다.

시스템 매트릭스를 위한 시스템 식별

먼저 시스템 매트릭스 평가에 대한 기본 이론을 간단히 검토한다. 일반화된 AbS(Analysis-by-Synthesis) 패러다임을 사용하면, 입력 음성 신호는 코더에 입력되기 전에 수정되어 수신기 측에서 최소한의 왜곡을 가지고 재생성될 수 있도록 한 다. 본 발명에 따른 접근법에서는, 인코더에 적용하기 전에 입력 벡터 x를 수정하여 음성 코더에 더 적합한 수정 입력 벡터를 생성한다. y=[y(0), y(1), …, y(M-1)]^T를 입력 벡터 x를 수정함으로써 얻어지는 신호 샘플들이라고 하고, z=[z(0), z(1), …, z(M-1)]^T를 y가 코더에서 적용되고 난 후 디코더에서 재합성되는 경우에 생성되는 출력 벡터라고 하자. 또한, Y=[Y(0), Y(1), …, Y(N-1)]^T와 Z=[Z(0), Z(1), …, Z(N-1)]^T를 각각 y와 z의 변환 도메인 표현(transform domain representation)이라고 하자. 일반성을 잃지 않고도, Z=Q(Y_a)이고, Y_a ^T=[Y_p ^T|Y^T|Y_f ^T]는 확대된 입력 벡터이며, Q(·)는 코덱의 입력-출력 특성을 모델링한 전달 함수를 나타낸다고 가정할 수 있다. 여기서, Y는 현재 프레임의 입력 데이터를 나타내고, Y_p는 이전 데이터를 나타내며, Y_f는 흔히 룩-어헤드 데이터(look-ahead data)라고 지칭되는 미래의 입력 샘플들을 나타낸다. 그런데, 코덱 출력 Z는 주로 현재 입력 Y에 의해 영향을 받으므로, 이전 및 룩-어헤드 데이터의 효과는 별다른 모델링 오차 없이 무시될 수 있다고 가정할 수 있다. 이러한 이유로, Z=Q(Y)라고 가정할 수 있다.

전달 매트릭스 Q의 평가(estimation)는 시스템 식별 기술(system identification technique)을 선택하는 것으로부터 얻어진다. 전달 매트릭스 Q의 평가에 대한 도출을 제공하기 위해, 본 발명에서는 재귀 최소 제곱(recursive least square; RLS) 평가 프로시저를 따른다. 전달 매트릭스 Q의 평가에 대한 보다 상세한 설명은 "A preprocessor for low-bit-rate speech coding" (IEEE Signal Processing Letters, vol. 9(10), October 2002, pp. 318-321, 김남수, 장준혁)을 참조하면 된다.

음성 수정을 위한 인지 가중 필터

통상, 인지 가중 프로시저는 종종 음성 코더 성능에서 향상된 결과를 초래한다. 흔히 사용되는 가중 필터는, 음성 신호 내의 단기 상관 관계(short-term correlation)를 나타내는 선형 예측(LP) 계수들에 기초한다. 대표적인 인지 가중 필터 W(z)는 앞서 살펴본 수학식 1과 같이 주어진다. 수학식 1에서, A(z)는 p-차 LP 분석 필터이고, a_i는 LP 계수인데, 필터 계수들을 계산하기 위해 선형 예측 분석이 사용된다. 또한,

는 인지적으로 가중된 인자로서, 중심 포먼트 주파수를 변경시키지는 않고 포먼트들의 대역폭을 넓히기만 하는데, 특히 주파수 증가분 δf는 δf = (f_s/π) ln

(Hz)로서 주어지며, 여기서 f_s는 헤르츠 단위의 샘플링 주파수이다. 이러한 이유로, 가중 필터는 음성 신호의 포먼트 밸리들을 강조하는 반면에, 포먼트 구조는 강조하지 않는다. 이것은 포먼트들 영역에서 더욱 큰 매칭 오차의 결과를 초래하는데, 포먼트들 영역에서는 스펙트럼 마스킹에 의해 청각 시스템이 양자화 오차에 덜 민감하게 된다.

의 가장 적합한 값은 듣기 테스트들에 의해 주관적으로 선택되는데, 본 발명의 일 실시예에서는 8kHz 샘플링에 대해

가 0.9로 선택된다.

만약 z-도메인에서 W(z)(=

)가 유한 임펄스 응답(finite impulse response; FIR) 시퀀스 형태의 시간 도메인 응답 f(n)을 가진다고 가정하면, f(n)은 다음과 같이 주어진다.

여기서, 본 발명에 따른 일 실시예에서는 p의 값으로 12를 선택하는데, 이 값은 실험적으로 선택된 값이다. p의 값으로 12를 선택함으로써, 임펄스 응답이 더 지속함에도 불구하고, f(n)을 단지 처음 12개 샘플로만 잘라내게 된다. 그 결과, 모음 세그먼트에 충분하고 적합한 평탄화된 스펙트럼을 얻게 되는데, 상기 스펙트럼은 주관적인 음성 품질의 관점에서 적합한 것으로 간주된다.

이 때문에, 값이 0인 충분한 샘플들을 가지고 f(n)을 보충하여 N-포인트 시퀀스를 형성하고, 이에 대해 이산 푸리에 변환(DFT)을 사용함으로써 W(e^j ^ω)를 계산할 수 있다.

을 제공하는 0으로 메워진 f(n) 시퀀스의 DFT를 취한다. 주어진 Q에 대해, 입력 벡터 X의 수정은 다음 기준에 따라 획 득된다:

.

종래 음성 수정에 대한 기준으로, "A preprocessor for low-bit-rate speech coding"(IEEE Signal Processing Letters, vol. 9(10), October 2002, pp. 318-321, 김남수, 장준혁)에서는 다음과 같은 목적 함수가 사용되었다.

여기서, K는 음성 수정에 대한 (양의 상수인) 수정 인자로 지칭되며, W는 인지 가중 필터이며,

(#는 Hermitian 연산을 의미함)이다.

본 발명에서는 상기 목적 함수 대신에, 양자화 오차에 대하여 인지 가중 필터를 포함하는 다음과 같은 새로운 목적 함수를 제안한다.

여기서, W_Q는 양자화 오차들에 대한 인지 가중 필터의 대각 매트릭스(diagonal matrix)를 나타낸다. J(Y)를 Y에 관하여 편미분 하면,

여기서,

이고, I는 N x N 항등 매트릭스(identity matrix)이다. 상기 수학식 6을 0으로 두고 풀면, 다음과 같은 해를 얻을 수 있다.

수학식 7로부터, 본 발명에 따른 접근법에서 G_W는 KW_Q를 대신하고 있다는 것을 확인할 수 있다. 상기 유도식을 정리하면, G_W는 인지 가중된 수정 인자가 되는데, 이것은 개별적인 음성 수정 인자가 각각의 주파수 빈에 할당되는 것을 의미하며, 보다 강인하고 현실적이라고 생각된다.

수학식 4의 목적 함수로부터, 수정 및 양자화 오차들의 양이 양의 상수 수정 인자 K에 의해 제어된다는 것을 분명하게 확인할 수 있다. 만약 K가 큰 값이면, 양자화 오차에 보다 중요성이 놓이며, 입력 음성의 보다 큰 수정이 허용된다. 그러나, 상기 수학식 4에서는 고정된 K가 모든 주파수 성분들에 대해 동일하게 적용되게 되므로, 인지 가중 원리의 장점을 최대한으로 활용할 수 없다. 음성 신호의 포먼트 밸리들에서의 양자화 잡음은 인간 청취자의 귀에 더욱더 거슬리는 경향이 있다. 이 때문에, 포먼트 밸리들 상에서는 보다 강한 음성 수정이 요구된다. 전술한 바와 같이, 인지 가중 필터는 포먼트 밸리들은 강조하는 반면, 포먼트 부분들은 강조하지 않으므로 이러한 요구에 부합한다. 한편, G_W는 양의 상수 K와 인지 가 중 필터가 결합한 값이기 때문에, 포먼트 밸리들에서는 더욱 강한 음성 수정을 적용하고, 포먼트 영역들에서는 약하게 음성 수정을 적용하는 것이 가능하다. 즉, 본 발명에 따르면 가청 양자화 잡음이 주로 위치하는 포먼트 밸리에 대해서 선택적으로 강한 음성 수정을 적용할 수 있다는 장점을 가진다. 다수의 청취 테스트들을 통해, 인지 가중 필터가 LP 분석에 따른 복잡성에서의 약간의 증가를 대가로 가청 양자화 잡음을 최소화하는 것으로 확인되었다. 구체적인 실험 결과는 도 2를 참조하여 아래에서 상세하게 설명한다.

실험 결과

도 2는 본 발명의 일 실시예에 따라 인지 가중 필터를 적용한 경우를 인지 가중 필터를 적용하지 않은 경우와 비교하는 도면이다.

도 2(a)는 유성음 부분에 초점을 둘 경우, 깨끗한 입력 음성(실선 표시)과 잡음이 섞인 수정된 입력 음성(점선 표시)을 도시한다. 도 2(b)는 잡음이 섞인 수정된 입력 음성에 대해 본 발명에 따른 인지 가중 필터를 적용한 경우(실선 표시)와 적용하지 않은 경우(점선 표시) 각각에 대한 음성 수정의 결과를 도시한다. 그림으로부터, 본 발명에 따라 인지 가중 필터를 적용한 경우, 인지 가중 필터를 적용하지 않은 종래의 방법에 비해 포먼트 밸리들에서 보다 강한 수정이 일어나는 것을 분명하게 확인할 수 있다. 도 2(c)는 본 발명에 따른 인지 가중 필터를 적용한 경우(실선 표시)와 적용하지 않은 경우(점선 표시) 각각에 대한 음성 수정 인자를 도시한다. 그림으로부터, 본 발명에 따른 인지 가중 필터를 적용하는 경우 인지 가중 필터를 적용하지 않은 경우보다 포먼트 밸리들에서의 수정 인자가 훨씬 높게 되는 것을 확인할 수 있다.

본 발명에 따른 접근법의 주관적인 품질은 10명의 다양한 청취자들의 평균 평가점(mean opinion score; MOS)을 사용하여 평가되었다. 20개의 테스트 문장들(10개는 남성 화자에 의해 생성되었고, 나머지 10개는 여성 화자에 의해 생성되었음)이 품질 측정을 위해 사용되었다. 각각의 문장은 8kHz에서 샘플링되었으며, 프레임 크기는 10ms였다. 타깃 음성 코더로서, 우리는 ITU-T 8kb/s 음성 코더 G.729A를 사용하였다. 입력 음성 수정에 대하여, 각각의 프레임의 데이터는 대응 DFT 계수들로 이루어지는 벡터로 변환되었으며, 수정은 80 포인트 DFT 도메인에서 이루어졌다.

잡음이 섞인 환경을 시뮬레이션하기 위해, 우리는 신호대 잡음 비(SNR)를 변화시켜가면서 NOISEX-92 데이터베이스로부터의 배블 잡음(babble noise) 및 백색 잡음을 추가하였다. 또한, 배경 음악 신호 및 함께 대화하는 화자의 음성(간섭 음성)도 입력 음성 품질을 저하하기 위해 사용되었다. MOS 결과가 아래 표 1에 도시된다.

조건 (SNR)	G.729A	종래의 방법	본 발명에 따른 방법
깨끗한 음성	4.12 ± 0.02	4.14 ± 0.02	4.14 ± 0.02
백색 잡음 (5dB)	2.00 ± 0.07	2.18 ± 0.07	2.30 ± 0.07
백색 잡음 (10dB)	2.75 ± 0.08	2.90 ± 0.08	3.11 ± 0.09
배블 잡음 (5dB)	2.70 ± 0.07	2.90 ± 0.10	2.95 ± 0.10
배블 잡음 (10dB)	3.07 ± 0.10	3.17 ± 0.10	3.27 ± 0.10
음악 소리 (5dB)	2.80 ± 0.11	3.12 ± 0.11	3.25 ± 0.11
음악 소리 (10dB)	3.20 ± 0.12	3.35 ± 0.12	3.50 ± 0.11
간섭 음성 (5dB)	2.52 ± 0.10	2.80 ± 0.10	2.85 ± 0.10
간섭 음성 (10dB)	3.02 ± 0.10	3.15 ± 0.11	3.17 ± 0.11

여기서, 상기 결과는 95% 신뢰 구간을 가지며, 종래의 방법은 "A preprocessor for low-bit-rate speech coding" (IEEE Signal Processing Letters, vol. 9(10), October 2002, pp. 318-321, 김남수, 장준혁)에 따른 방법을 나타낸다.

표에서 모든 점수들은 K = 0.2에서 얻어졌다. 표에 나타난 결과들로부터, 본 발명에 따른 접근법이 대부분의 테스트 환경에서 종래의 방법에 비해 향상된 결과를 가져다준다는 것을 확인할 수 있다. 성능 향상은 다른 경우에 비해 백색 잡음 및 음악 소리가 더해지는 조건에서 더욱 큰 것으로 확인되었다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

본 발명에 따르면, 인지 가중 필터를 포함하는 인지적으로 개선된 전처리 과정을 통해 가청 양자화 오차를 줄임으로써, 대부분의 조건에서 종래의 방법들에 비해 코덱 출력에서 주관적으로 향상된 음성 신호를 얻을 수 있었다.

Claims

입력-출력 특성을 모델링한 전달 함수가 벡터 Q인 음성 코덱(출력 = Q(입력))에 입력될 입력 음성에 대한 전처리 방법에 있어서,

아래 식에 의해 주어지는 인지 가중 필터에 대하여 듣기 테스트를 통해 인지 가중 상수
값을 주관적으로 결정하는 단계; 및

(여기서,
는 p-차 선형 예측 분석 필터이고,
는 선형 예측 계수임)

상기 결정 단계에서 결정된 상기
값을 갖는 상기 인지 가중 필터를 이용하여 음성 코덱에 입력될 입력 음성에 대하여 다음 식을 적용하여 전처리하는 단계

(여기서,
은 본 발명에 따라 전처리된 입력 음성, X는 전처리되기 전의 입력 음성, I는 N X N 항등 매트릭스, K는 양의 상수 수정 인자,
, W_Q는 양자화 오차들에 대한 인지 가중 필터의 대각 매트릭스이며, #은 Hermitian 연산을 나타냄)

를 포함하는 전처리 방법.
제1항에 있어서,

상기
값은 0.9로 결정되는 전처리 방법.
삭제