KR100442825B1

KR100442825B1 - 음성 인식을 위한 환경 보상 방법

Info

Publication number: KR100442825B1
Application number: KR1019970032370A
Authority: KR
Inventors: 김남수; 김상룡; 공병구; 김도영
Original assignee: 삼성전자주식회사
Priority date: 1997-07-11
Filing date: 1997-07-11
Publication date: 2005-02-03
Also published as: KR19990009830A

Abstract

본 발명은 음성 인식 시스템에 관한 것으로, 특히 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 기법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서의 음성인식 시스템의 성능을 향상시킬 수 있도록, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ; 상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20) ; 상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ; 상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치

Description

음성 인식을 위한 환경 보상 방법

본 발명은 음성 인식 시스템에 관한 것으로, 특히 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 기법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼이 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서 음성 인식 시스템의 성능을 향상시킬 수 있는, 음성 인식을 위한 환경 보상 방법에 관한 것이다.

일반적으로, 음성 인식 시스템은 미리 채집하여둔 음성 데이터를 이용하여 인식에 쓰이는 각 파라메타를 학습시켜 인식에 사용한다.

따라서, 음성 인식 시스템의 성능은 미리 채집한 음성 데이터(이하 학습 데이터라 칭한다)에 의하여 크게 좌우된다.

그런데, 실제 음성 인식 시스템이 동작될 때를 생각해 보면, 학습 데이터에포함되지 않은 음성의 발성, 발음시 주변 잡음의 차이, 또는 전화선 등과 같은 선로에 의해서 발생되는 왜곡으로 인하여 성능이 저하됨을 알 수 있다.

이 때문에, 가장 최적의 음성 인식 시스템 구축은, 인식 시스템의 파라메타를 실제로 인식 시스템이 사용되는 환경에서 학습시킴으로써, 이루어질 수 있다.

그러나, 주변의 잡음 또는 선로에 의한 왜곡은, 인식 시스템 사용 중에 수시로 변화하기 때문에, 특정 환경에 국한하여 인식기의 파라메타를 학습시키는 것은, 인식기 사용 중 더 큰 성능 저하를 가져올 수 있다.

이러한 문제점을 해결하기 위하여, 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 보상하는 방법들이 고안되었으며, 부분적인 성공을 거두고 있다.

이러한 방법들은, 음성의 스펙트럼이 잡음 또는 선로에 의한 왜곡으로 인하여, 오염되는 과정을 수학적으로 모델링함으로써, 실제의 음성 스펙트럼을 추정한다.

이들 방법들은, 주변 잡음 또는 선로에 의한 왜곡의 특성을 가정하여 수학적으로 모델링하기 때문에, 실제의 잡음 또는 선로에 의한 왜곡의 특성과는, 차이를 발생시키게 되는 문제점이 있다.

이와 같이, 실제의 환경인 잡음 또는 선로에 의한 왜곡이, 가정된 환경 특성과 차이를 보이게 되는 경우, 이는 음성 인식 시스템의 성능에 큰 영향을 미칠 수 있게 된다.

따라서, 사전에 환경에 대한 정보를 적절히 반영할 수 있는 기법이 요구된다.

이에 본 발명은 상기한 바와 같은 종래의 제 문제점들을 해소시키기 위하여 창안된 것으로, 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 방법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서 음성 인식 시스템의 성능을 향상시킬 수 있는, 음성 인식을 위한 환경 보상 방법을 제공하는데 그 목적이 있다.

도 1 은 본 발명에 따른 음성 인식을 위한 환경 보상 방법의 동작 흐름도이다.

상기한 바와 같은 목적을 달성하기 위한 본 발명은, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ; 상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20) ; 상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ; 상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치

가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는 음성인식 시스템 과정(40)으로 이루어짐을 특징으로 한다.

본 발명의 목적에 따른, 음성 인식을 위한 환경 보상 방법의 동작 원리를 첨부된 도면을 참조하여, 상세히 설명하면 다음과 같다.

먼저, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 얻는 로그 스펙트럼 과정(10)을 수행한다.

상기 로그 스펙트럼 과정(10)에서는, 음성을 일정 구간 블럭화하여 고속 푸리에 변환(Fast Fourier Transform 이하 FFT라 칭함)을 취한다.

이때, 블럭화된 구간을 프레임(frame)이라 하는데, 고속 푸리에 변환(FFT)에 의하여 각 프레임마다, 일정 갯수의 고속 푸리에 변환 계수가 생성된다.

특정 프레임에서 추출된 고속 푸리에 변환 계수들을 {f(1), f(2), …, f(Q)}이라 하면, f(i)는 i번째 기본 주파수 대역에서의 고속 푸리에 변환 계수가 된다.

상기와 같이, 각 기본 주파수 대역의 고속 푸리에 변환 계수들이 구해지면, 이들을 특정 갯수만큼 결합하여 스펙트럼을 구하게 된다.

S = [ S1, S2, …, SN ]을 현재 프레임의 스펙트럼이라 하면, 이는 고속 푸리에 변환 계수들로부터 다음과 같은 관계식을 통하여 구해진다.

[수학식 1]

이때, B_i와 E_i는 i번째 대역을 나타내며, N 은 스펙트럼의 전체 대역수를 나타낸다.

상기와 같이 스펙트럼이 구해지면, 이에 로그(log)를 취하여 로그 스펙트럼을 구한다.

z = [ z₁, z₂, …, z_N]을 현재 프레임의 로그 스펙트럼이라 하면,

[수학식 2]

상기와 같이, 입력된 음성의 각 프레임에서 로그 스펙트럼이 추출되면, 이어서 환경변수 추정 과정(20)을 수행한다.

환경변수란, 부가 잡음과 선로에 의한 왜곡의 특성을 결정하는 변수로, 음질 향상에 중요한 요소이다.

n = [ n₁, n₂, …, n_N]을 부가 잡음의 로그 스펙트럼이라 하고, q = [ q₁, q₂, …, q_N]를 선로에 의한 왜곡의 로그 스펙트럼이라고 하자.

우선, 부가 잡음(n)의 분포가 가우스 분포

를 따른다고 가정한다.

이때, 부가 잡음의 평균

과 분산

은 추정해야 할 변수이다.

한편, 선로에 의한 왜곡(q)은 고정된 상수로, 역시 추정해야 할 변수이다.

이와 같은 상황에서, 환경변수란

를 말하며, 이들은 주어진 음성 데이터로부터 추정된다.

상기 환경변수의 추정을 위해서는, 오염되지 않은 음성의 로그 스펙트럼에 대한 분포가 필요한데, 이는 사전에 많은 양의 오염되지 않은 음성 데이터를 수집하여, 그를 바탕으로 구해진다.

x = [ x₁, x₂, …, x_N]을 오염되지 않은 음성의 로그 스펙트럼이라 하면, 일반적으로 이의 분포, P(x)는 다음과 같이 나타낸다.

[수학식 3]

이때,

는 각각 k번째 가우스 분포의 평균과 분산을 나타내고, P(k)는 k번째 가우스 분포의 가중치를 표시한다.

는 환경보상 기법의 수행 이전에 미리 구하여 고정되게 하는데, 이들을 구할때는 일반적으로 벡터 양자화(Vector Quantization 이하 VQ 라 칭함) 방법을 사용한다.

즉, 미리 수집된 오염되지 않은 음성으로부터 로그 스펙트럼을 추출하고, 이들을 M개의 군으로 나눈다.

상기 M개의 군으로 나눈 각 군에서, 소속된 로그 스펙트럼의 평균과 분산을 구하여, k번째 가우스 분포의 평균과 분산

으로 사용한다.

또한, 각 군에 소속된 로그 스펙트럼의 수에 따라 k번째 가우스 분포의 가중치인 p(k)를 정하게 된다.

상기와 같이, 환경변수 추정 과정(20)에서 각 환경변수의 주정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30)을 수행한다.

상기 환경변수 추정 과정(20)에서 추정된 환경변수의 값들을

라 하자.

우선, 오염되지 않은 음성이 k번째 군에 속해있을 때, 구해진 환경변수에 의해 오염된 음성의 로그 스펙트럼의 평균과 분산

이 구해지는데, 이들은 추정된 환경변수의 값

과 k번째 가우스 분포의 평균과 분산

의 관계식으로 표현되며, 음성의 오염 과정에 따라 다르게 나타난다.

오염된 음성 로그 스펙트럼의 평균과 분산

이 구해지면, 음성 로그 스펙트럼의 각 군에 대한 확률값(Pk)을 수학식 4 와 같이 구하게 된다.

[수학식 4]

이때,

는 현재 프레임의 오염된 음성 로그 스펙트럼(z)을 가우스 분포인

에 적용했을 때의 값을 나타낸다.

즉,

[수학식 5]

한편, 음성 로그 스펙트럼의 각 군에 대한 확률값(Pk)이 구해지면, 오염될 음성의 로그 스펙트럼(z)이 주어졌을 때, 오염되지 않은 음성 로그 스펙트럼의 추정치

는 다음과 같이 구해진다.

[수학식 6]

이때,

는, 현재의 환경변수 주정치가

이고, 오염된 음성 로그 스펙트럼이 z 이고, 오염되지 않은 음성이 k번째 군에 속했을 때, 오염되지 않은 음성 로그 스펙트럼의 평균치를 나타낸다.

이와 같이, 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치

가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는, 음성인식 시스템 과정(40)을 수행한다.

상기와 같이 동작하는 환경 보상 방법의 절차 중, 환경변수 추정 과정(20)이 가장 중요한 과정이다.

일반적인 경우에, 오염된 음성 프레임의 열인 Z={z₁, z₂, …, z_t} 를 바탕으로

를 구하게 된다.

여기서, z_t는 t번째 프레임에서의 오염된 음성 로그 스펙트럼을 나타낸다.

그런데, 이와 같은 환경변수 추정은, 현재 주어진 오염된 음성의 로그 스펙트럼 열(Z)만을 이용하기 때문에, 잡음 또는 선로 왜곡에 대한 사전 정보가 있을 경우, 이 정보를 이용할 수 없다는 단점이 있다.

따라서, 이와 같이 잡음 또는 선로 왜곡에 대한 사전 정보가 있을 경우, 이 정보를 상기 환경변수 추정 과정(20)에서 사용하는 방법은 다음과 같다.

먼저, 환경 보상 전에 가지고 있던 환경변수의 값을

라 하자.

상기

는, 미리 수집하여둔 잡음과 선로에 의한 왜곡의 로그 스펙트럼 데이터 통계를 조사하여 얻을 수 있는 정보이다.

가 선확보된 정보로 주어졌을 때, 본 발명에서 제안하는 환경변수 추정 방법은 다음과 같다.

우선,

를 오염된 음성 로그 스펙트럼 열(Z)에 의하여 구해지는 환경변수의 추정치라 하자.

제안된 방법에 의하여 추정되는 환경변수의 값을

라 하면, 상기 환경변수의 값은 각각 다음과 같이 구해진다.

[수학식 7]

상기 수학식 7 에서, 선형 결합의 강도를 조절하는 방법은 다음과 같다.

[수학식 8]

여기서, T는 현재 주어진 오염된 음성 로그 스펙트럼 열(Z)의 길이(프레임수)를 나타내고, τ는 제안된 방법에서 쓰이는 파라메타로, 선 정보를 강조할 경우 크게 하고, 현재 주어진 오염된 음성 로그 스펙트럼을 강조할 경우 작게 선정한다.

한편, 본 발명의 성능을 평가하기 위하여, 화자독립 고립단어 인식 실험을 수행하였다.

인식 대상 단어는 75개의 한국어 단어로, 각 음소가 고루 나타나는 단어들로 이루어졌다.

20명의 남자 화자가 각 단어를 한번씩 발음하여, 인식기의 학습 및 인식 실험에 사용하였다.

사용된 인식기는 히든 마르코프 모델(Hidden Markoy Model 이하 HMM 라 칭함) 방식의 인식기로, 32개의 음소 모델이 기본 단위 모델로 설정되었다.

각 음소 모델은 3개의 상태(state)로 이루어 졌으며, 이들을 바탕으로 각 단어 모델이 구성되었다.

15명 화자의 발음을 각 음소 모델을 학습하는데 사용하였고, 나머지 5명 화자의 음성을 인식 실험에 사용하였다.

각 음성은 4.5 KHz 를 차단 주파수(cut-off-frequency)로 하는 저역 여과기를 통과한 후, 16 KHz의 아날로그/디지탈(A/D) 변환을 통하여 이산화(discretization) 되었다.

18차의 멜 스케일드(mel-scaled) 로그 스펙트럼이 10 ms의 프레임마다 구해지고, 이산 코사인 변환(Discrete Cosine Transform 이하 DCT 라 칭함)을 통하여 12차의 켑스트럼(cepstrum)이 얻어졌다.

매 프레임마다 구해진 12차의 켑스트럼은, 인식기의 특징 벡터로 사용되었다.

여기서, 켑스트럼이란, 신호의 스펙트럼의 크기에 로그(log)를 취한 뒤, 다시 역 푸리에 변환을 취하여 얻어지는 신호의 특징을 나타낸다.

주어진 신호가 N개의 숫자로 이루어진 데이터 즉, 신호 X = [X₁, X₂, …, X_N]라고 하면, 신호 X의 스펙트럼은 X를 푸리에 변환하여 얻을 수 있다.

를 X의 스펙트럼이라고 하면,

로 구할 수 있다.

W에 1부터 N까지의 정수를 대입하면,

을 구할 수 있는데, 각각의

는 복소수가 된다.

각각에서 크기를 취하면,

을 구할 수 있고, 이들의 로그(log)를 취하면,

을 구할 수 있다.

상기와 같이 구한 로그(log) 값의 역 푸리에 변환을 구하면,

를 얻게 되는데, "T"에 정수 1 에서 N 까지를 대입하여 얻어지는 C(1), C(2), …, C(T)를 켑스트럼이라 한다.

통상적으로, n 차의 켑스트럼이라 하면, C(1), C(2), …, C(n)가지만을 구하여 사용하는 것을 말한다.

상기와 같이 켑스트럼을 구하는 과정에서, 신호 X의 스펙트럼의 크기인

을 몇개의 대역으로 묶어서 사용하는 방법을 멜 스케일드 로그 스펙트럼이라 한다.

즉, 1에서 N 까지의 정수를 [1, N₁], [N₁+1, N₂], [N₂+1, N₃], …, [N_m-1, N]의 m개의 구간으로 나누어, 각 구간에서의 스펙트럼을 제곱하여 합한다.

i번째 구간에서

을 얻게 된다.

따라서, 상기 과정을 거치면

을 구하게 되고, 이들에 로그(log)를 취한 값들이 멜 스케일드 로그 스펙트럼이 된다.

한편, 환경 보상은 로그 스펙트럼을 구하는 과정에서 적용되었는데, 이를 위하여 오염되지 않은 음성의 로그 스펙트럼이 128개의 군으로 나누어져, 각 군에서의 평균 및 분산이 사전에 구해졌다.

또한, 인식 실험을 위하여 백색 가우스 잡음(white Gaussian noise)이 생성되었으며, 오염되지 않은 음성 데이터에 부가되었다.

환경 보상의 기본 방법으로는, 벡터 테일러 급수 정의(Vector Taylor Series 이하 VTS 라 칭함) 기법이 사용되었는데, 환경변수에 대한 선 정보를 이용했을 경우와, 그렇지 않은 경우가 비교되었다.

표 1 은 음성 데이터에 백색 가우스 잡음이 부가되었을 때, 각 방법의 인식 결과를 표시한다.

이때, 노 처리(no processing)는 환경 보상을 하지 않았을 때의 인식률을 나타내고, 신호 대 잡음 비(Signal-to-Noise Ratio 이하 SNR 이라 칭함)는 신호에 대한 부가 잡음의 파워(power)의 비를 나타낸 것으로, 구해진 비에 로그(log)를 취하고, 10을 곱하여 데시벨(dB)를 단위로 한 값이다.

[표 1]

실험 결과로부터 알 수 있듯이, 신호 대 잡음 비(SNR)가 낮을 때 환경변수에 대한 선 정보를 이용하는 것이 인식률 향상에 큰 기여를 함을 알 수 있다.

이상에서 상세히 설명한 바와 같이 본 발명은, 음성 인식 시스템이 특정 환경에서 사용될 경우, 그 상황에서의 잡음과 선로에 의한 왜곡 데이터를 미리 수집하여 환경변수 추정에 사용함으로써, 환경변수 주정 및 그에 따른 오염되지 않은 음성 로그 스펙트럼 추정의 정확도를 향상시킬 수 있으며, 이로 인하여 인식률을 향상시킬 수 있다.

따라서, 환경 보상 방법들의 성능을 크게 향상시킬 수 있다.

Claims

잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ;

상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20)과 ;

상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ;

상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치
가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는 음성인식 시스템 과정(40)을 포함하여 이루어짐을 특징으로 하는, 음성 인식을 위한 환경 보상 방법.
제 1 항에 있어서,

제안된 방법에 의하여 추정되는 환경변수의 값을

라 할때,

일반적인 환경변수 추정 방법에 의하여 구해진 환경변수의 추정치에 환경변수에 대한 선 정보를 선형적으로 결합시키는 환경변수 추정 과정(20)은,

와 같은 방법을 사용하여 이루어짐을 특징으로 하는, 음성 인식을 위한 환경 보상 방법.
제 2 항에 있어서,

현재 주어진 오염된 음성 로그 스펙트럼 열(Z)의 길이(프레임 수)를 T 라 하고, 파라메타를 τ 라고 할때,

와 같은 방법을 사용하여, 선 정보를 강조할 경우 크게 선정하고, 현재 주어진 오염된 음성 로그 스펙트럼을 강조할 경우 작게 선정함으로써, 선형 결합의 강도를 조절할 수 있도록 함을 특징으로 하는, 음성 인식을 위한 환경 보상 방법.