KR100835993B1

KR100835993B1 - 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치

Info

Publication number: KR100835993B1
Application number: KR1020060119872A
Authority: KR
Inventors: 김영준
Original assignee: 한국전자통신연구원
Priority date: 2006-11-30
Filing date: 2006-11-30
Publication date: 2008-06-09
Also published as: KR20080049385A

Abstract

음성인식에서 사용되는 잡음전처리중 많은 알고리즘이 음성에 대한 GMM 모델을 기반으로 환경보상을 한다. 하지만 음성과 잡음의 결합 관계에서의 마스킹에 의한 효과를 고려하지 않는다면 전혀 다른 환경 보상이 일어나 오히려 성능을 감소시키게된다.

본 발명은 음성인식에서 많이 사용되고 있는 멜 뱅크의 섭스트럼을 구하는 과정중 하나인 로그 스펙트럼에서의 환경보상 시스템에 대해서 제안한다. 로그 스펙트럼에서 음성의 GMM 모델을 기반으로 이루어지는 환경보상에서 잡음의 크기와 음성의 크기에 따른 마스킹에 따라 잡음과 음성의 결합이 어떻게 이뤄지는지에 대해서 분석하고 이를 기반으로 마스킹 확률을 구하는 방법을 제시하여 이를 잡음전처리 및 환경보상을 이용하는 방법을 제안한다.

본 발명의 음성 인식 전처리 방법은, 잡음의 마스킹 확률을 구하는 단계; 및 상기 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 단계로 이루어지는 것을 특징으로 한다.

음성인식, 잡음처리, 전처리, 마스킹, 로그 스펙트럼

Description

마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리 장치{Pre-processing Method and Device for Clean Speech Feature Estimation based on Masking Probability}

도 1은 로그 스펙트럼 도메인에서 음성이 잡음에 의해 마스킹되는 것을 설명하기 위한 그래프.

도 2는 babble 잡음과 car 잡음 환경에서의 제안된 방법과 종래기술의 방법의 성능을 비교한 그래프.

도 3은 본 발명의 음성 인식 방법과 기존 방법의 성능 비교표.

도 4는 본 발명 일실시예에 따른 음성 인식 전처리 장치를 도시한 블록도.

* 도면의 주요 부분에 대한 부호의 설명

110 : 프레임 형성부 120 : 푸리에 변환부

130 : 멜 뱅크 에너지 추출부 140 : 비선형 변환부

150 : 마스킹 검출부 160 : 플랙시블 필터

170 : 이산코사인 변환부

본 발명은 음성 인식 과정에 있어서 전처리 방법 및 그 장치에 관한 것으로, 특히 잡음 특성에 따라 밴드별로 다른 전처리 방식을 적용하는 전처리 방법 및 그 장치에 관한 것이다.

유실 특성 이론(Missing Feature Theory)이라는 음성인식 잡음전처리 분야에서 잡음에 의해 손상된 밴드(band)를 보정하는 작업이 이루어져 왔다. 하지만 잡음에 의해 손상된 밴드를 찾는데 명확한 기준이 제시되지 않았으며 이를 정량적으로 구할 수도 없었다. 그리고 하드 디시젼(hard decision)에 의해 판단된 손상된 밴드와 그렇지 않은 밴드를 구분하는 방법에 의해 손상되지 않은 밴드를 기준으로 손상된 밴드를 복구하는 방법에만 치중해 왔다. 이러한 방법에서는 손상되지 않은 것으로 판단된 밴드 역시 얼마나 정상적인가에 대한 기준이 명확하지 않아 실제 음성인식의 환경보상에 사용되었을 때 그 성능 향상의 기여도가 매우 미비하였다.

한편, 잡음 신호를 줄이는 정도가 큰 하드 디시젼의 경우, 잡음 소리가 현저히 감소하지만, 음성 신호 보다 잡음이 더 큰 영역의 경우에는 잡음 제거 중에 음성 신호도 제거되어 정보전달의 충실도가 문제되었다.

반면, 잡음 신호의 저감 보다는 음성 신호의 재현을 중시하는 소프트 디시젼의 경우, 음성 신호의 손실이 거의 없어 정보전달의 충실도가 높지만, 상당량의 잡음을 포함하게 되는 문제가 있었다.

본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로서, 잡음의 상태에 따라 적절한 잡음 제거 알고리즘을 적용할 수 있는 음성 인식 전처리 방법 및 그 장치를 제공하는데 그 목적이 있다.

이에 따라 본 발명은 잡음 신호의 억제 효율을 높이면서도 음성 신호 보다 잡음이 더 큰 영역에서는 음성 신호 재현을 충실하게 하는 음성 인식 전처리 방법 및 그 장치를 제공하는데 그 구체화된 목적이 있다.

즉, 음성인식 잡음전처리에서 음성의 분포를 미리 알고 있다고 가정한 경우, 매 프레임 음성의 분포가 잡음에 의해 얼마나 손상되는지에 관한 손상 정도의 기준이라고 할 수 있는 마스킹 확률(Masking Probability)을 계산해 냄으로써 이것을 기준으로 마스킹(masking)에 강인한 알고리즘과의 결합을 이뤄 최적의 음성인식 성능을 내는 것을 목표로 하고 있다.

상기 목적을 달성하기 위한 본 발명의 음성 인식 전처리 방법은, 잡음의 마스킹 확률을 구하는 단계; 및 상기 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 단계로 이루어지는 것을 특징으로 한다. 여기서, 마스킹 확률이 높으면 위터 필터링 같은 소프트 디시젼 함수에 의한 필터링이 중심이 되며, 마스킹 확률이 낮으면 IMM(Interacting Multiple Model) 필터링 같은 하드 디시젼 함수에 의한 필터링이 중심이 된다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 발명의 하기 설명에 있어, 멜뱅크와 클러스터의 차이를 정의하자면, 여러개의 파일로부터 매 시간마다의 맬뱅크를 추출하여 　그것을 모아 벡터 양자화(vector quantization)를 수행할 때, 그렇게 해서 만들어진 것이 코드북이고 이러한 코드북에서의 한 개의 벡터를　클러스터라고 지칭한다.

(실시예)

음성인식의 특징벡터로 많이 사용되는 셉스트럼(cepstrum)을 추출하는 과정은 스펙트럼(spectrum) 추출, 멜뱅크(Mel band)의 적용, 로그(log) 스펙트럼 추출, DCT의 단계를 통하여 이뤄진다. 본 실시예에서는 이중에서 로그 스펙트럼에서 음성이 잡음에 의해 마스킹 효과를 분석하고 마스킹(masking) 정도를 확률적으로 구하는 방법을 제시한다.

도 4에 도시된 바와 같이, 본 실시예에 따른 음성 인식 전처리 장치는 프레임 형성부(110), 푸리에 변환부(120), 멜 뱅크 에너지(filter-bank energy) 추출부(130), 비선형 변환부(140), 이산코사인(discrete cosine) 변환부(170), 마스킹 검출부(150) 및 플랙시블 필터(160)를 포함한다.

상기 프레임 형성부(110)는 음성 신호의 연속적인 단시간 스펙트럼 정보를 얻기 위해서 입력되는 음성 신호를 대략 10msec마다 20 ~ 30 msec 길이의 프레임으로 분리한다.

구현에 따라 각 프레임의 음성 신호에 대해 프리엠퍼시스(pre-emphasis) 처리와 해밍 윈도우(Hanmming window) 처리를 수행하기 위한 부가 처리부를 상기 프레임 형성부(110) 및 푸리에 변환부(120) 사이에 둘 수 있다. 여기서, 프리엠퍼시스 처리는 입력 신호의 고주파 성분을 강조하는 동작이며, 해밍 윈도우 처리는 각 프레임의 경계에서의 불연속성을 최소화하기 위해 상기 프리엠퍼시스 처리된 음성 신호에 윈도우 함수를 곱하는 동작이다.

상기 푸리에 변환부(120)는 상기 푸리에 변환부(110)를 통과한 프레임별 음성 신호에 대해 푸리에 변환(Fourier transform)을 수행하여 스펙트럼 정보를 출력한다. 상기 멜주파수 기반 필터뱅크 에너지 추출부(130)는 상기 푸리에 변환을 통해 얻어진 스펙트럼에 여러 개의 구간을 설정하고, 각 구간별 에너지를 구하여 필터뱅크 에너지를 생성한다.

상기 비선형 변환부(140)는 상기 생성된 필터뱅크 에너지에 로그(log) 함수를 적용하여 로그 필터뱅크 에너지를 출력한다.

상기 마스킹 검출부(150)는 입력되는 음성 신호 프레임 별로 또는 필터뱅크 별로 전체 신호에서 잡음이 차지하는 정도인 마스킹 확률을 구하고, 마스킹 확률에 따라 플랙시블 필터의 조정계수를 결정한다.

상기 플렉시블 필터(160)는 상기 조정계수에 따라 소프트 디시젼 방식의 필터링과 하드 디시젼 방식의 필터링을 소정 규칙에 따라 조합하여 필터링을 수행한다. 여기서 소프트 디시젼 방식의 필터링은 상기 소프트 디시젼 함수의 필터링은 위너(Wiener) 필터링이, 상기 하드 디시젼 함수의 필터링은 IMM(Interacting Multiple Model) 필터링이 될 수 있다. 이 경우 도시한 바와 같이 위너 필터링은 선형적인 로그 필터뱅크 에너지에 적용되며, IMM 필터링은 로그 필터뱅크 에너지에 대하여 적용된다.

상기 이산코사인 변환부(160)는 상기 플렉시블 필터(160)에 의해 잡음 성분이 제거된 로그 필터뱅크 에너지로부터 최종적인 섭스트럽(MFCC) 특징 벡터를 추출한다.

현재 음성 인식 기술 분야에서 널리 사용되고 있는 섭스트럽 특징 벡터는 각 프레임당 12차의 벡터로 표현되며, 섭스트럽 특징 벡터의 각 차수별 분포를 살펴보면, 저차(low order)의 분산이 고차(high order)의 분산에 비해 훨씬 큰 특성을 가진다. 먼저, 일반적인 섭스트럼 특징 벡터를 추출하는 과정을 설명하겠다.

상기 비선형변환부(140)에서 출력되는 로그 필터뱅크 에너지의 D차 로그 스펙트럼은 하기 수학식 1과 같다.

여기서,

은 순수 음성 신호(clean speech)의 로그 스펙트럼을 의미하고,

은 잡음 신호(noise)의 로그 스펙트럼을 의미한다.

우선, IMM 방법에 의한 환경 보상이 이루어진다. IMM방법에서는 음성의 분포는 가우션 혼합 모델(Gaussian Mixture Model : GMM)의 분포를 이룬다고 가정하고 훈련에 의해 그 모델을 우리가 미리 갖고 있게 된다. 음성의 GMM 모델은 하기 수학식 2와 같은 모양을 갖는다.

M : totla number of mixture components

: a priori probability

: a priori mean of kth Gaussian distribution

: a priori covariance matrix of kth Gaussian distribution

반면, 잡음의 모델은 하나의 혼합(mixture)으로 이루어진 가우션(Gaussian) 분포를 가정하면, 스펙트럼 도메인에서 파워 스펙트럴 밀도(power spectral density)는 하기 수학식 3과 같은 관계를 갖는다.

잡음과 음성의 비선형결합인 수학식 1을 IMM에서는 하기 수학식 4와 같은 선형 관계로 모델링 한다.

여기서, {

,

}는 통계적 선형 근사(statistical linear approximation : SLA)방법을 이용하여 구하게 되고, 이렇게 구해진 선형 식을 이용하여 매 프레임 마다 시퀀셜(sequential)하게 환경변수인

을 구하게 된다.

가 구해진 이후 매 프레임 마다 구해진 환경변수를 기반으로 최소 민스퀘어-에러 평가(miminum mean square error estimation : MMSE) 방법을 이용하여 순수 음성 신호의 로그 스펙트럼 크기를 평가(estimation)하게 된다.

다음, 본 발명의 사상에 따라 잡음의 마스킹 효과를 구한다. 로그 스펙트럼 도메인에서 음성과 잡음의 크기에 따른 마스킹(masking) 효과를 보기 위하여 도 1에서 수학식 1의 결합함수를 이용하여 잡음의 크기를 5.0으로 고정시켜놓고 음성의 크기를 0에서 10까지 변화시켜가면서 전체 결합함수의 크기가 어떻게 영향을 받는 지에 대해서 살펴보았다. 도 1에서 나타나듯이 잡음의 크기가 음성에 비해서 많이 커져버린 경우에는 음성의 크기에 무관하게 잡음의 크기만이 전체적인 결합함수의 결과가 된다. 즉, 잡음의 크기를 고정시켜놓고 음성의 크기를 변화시켜가면 어느 순간부터는 음성의 크기 변화가 전체 잡음섞인 신호의 변화에 영향을 미치지 않게되면, 다시말해, 음성이 잡음에 마스킹 되면, 잡음과 음성의 결합함수인 전체 잡음섞인 신호에서는 보이지 않게 된다.

이럴 경우에는 잡음의 크기를 아무리 정확하게 예측하더라도 그 속에서 정확한 음성의 크기를 찾아낼 수 없게 된다. 즉, 잡음을 제거함에 따라 미약한 음성 신호의 일부가 함께 제거되어 음성 신호의 상당한 손실이 발생한다.

GMM을 이용하는 IMM 등의 방법에서는 수학식 1을 선형화하거나 또는 비선형식을 그대로 이용하지만 이렇게 결합식에서의 마스킹 효과로 인해 정확한 음성의 분포를 찾아내기 어려운 경우가 많이 발생하게 된다. 이러한 마스킹 효과는 순수 음성의 예측에 바이어스(bias)를 주게 되어 전체적인 환경보상 방법에서의 성능 저하를 가져온다.

이러한 마스킹 효과에 의한 성능 저하를 극복하기 위해서 마스킹에 의해 영향을 받은 정도를 구해낼 수 있어야 한다. 그것을 목적으로 전체 GMM의 클러스터(cluster)를 마스킹에 의해 영향을 받은 집합

과 그렇지 않은 집합

으로 구분하였다. 그 구분의 기준으로서는 음성의 변화

가 전체적인 결합함수의 변화

에 영향을 주지 못하는 것을 기준으로 하기 수학식 5와 같이 구분할 수 있다.

: small positive threshold

다음, 마스킹에 기반한 특성 평가(Clean Feature Estimation based on Spectral Masking)를 수행한다. 상기 마스킹 검출부(150)는 상기 판단된 잡음 마스킹 클러스터(noise masking cluster)를 기반으로하여 음성이 잡음에 의해 마스킹될 확률인 잡음 마스킹 확률(Noise Masking Probability : NMP)을 하기 수학식 6과 같이 정의한다.

상기 플랙시블 필터(160)에서는, 위에서 구한 NMP를 기반으로 잡음 마스킹에 비교적 강인한 스펙트럼 도메인 알고리즘과의 결합을 하기 수학식 7과 같은 방법으로 달성할 수 있다.

여기서,

,

은 각각 위너 필터(Wiener Filter)와 IMM 방법에 의해 구해진 결과이다. 이렇게 해서 구해진 로그 스펙트럼 도메인 음성

는 마스킹 효과에 강인하여 음성인식의 성능향상에 기여하게 됨을 알 수 있다.

도 3은 본 실시예의 전처리에 따른 필터링 성능을 비교하기 위한 표로서, IMM만을 사용한 경우와, IMM과 SAP(speech absence probability)를 결합한 경우와, 본 실시예의 IMM과 NMP를 적용한 경우를 비교하였다. 상기 표에서 본 실시예의 경우가 종래 기술에 비해 개선된 효과가 있음을 알 수 있다.

이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.

상기 구성의 본 발명에 따른 음성 인식 전처리 방법을 수행함에 의해 잡음의 상태에 따라 적절한 잡음 제거 알고리즘을 적용하여, 잡음 신호의 억제 효율을 높이면서도 음성 신호 보다 잡음이 더 큰 영역에서는 음성 신호 재현을 충실하게 하는 효과가 있다.

즉, 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있다.

Claims

잡음 마스킹 확률을 구하는 단계; 및

상기 잡음 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 단계

를 포함하는 음성 인식 전처리 방법.
제1항에 있어서, 상기 필터링을 수행하는 단계는,

상기 잡음 마스킹 확률이 소정 기준치보다 높으면 소프트 디시젼 함수의 필터링을 적용하고,

상기 잡음 마스킹 확률이 소정 기준치보다 낮으면 하드 디시젼 함수의 필터링을 적용하는 것을 특징으로 하는 음성 인식 전처리 방법.
제2항에 있어서,

상기 소프트 디시젼 함수의 필터링은 위너(Wiener) 필터링이며,

상기 하드 디시젼 함수의 필터링은 IMM(Interacting Multiple Model) 필터링인 것을 특징으로 하는 음성 인식 전처리 방법.
제1항에 있어서,

상기 필터링 함수는 하기 수학식에 따라 결합되는 것을 특징으로 하는 음성 인식 전처리 방법.

(여기서,
는 로그 스펙트럼 도메인 음성,
는 잡음 마스킹 확률,
는 위너 필터링의 결과,
는 IMM 필터링의 결과.)
제1항에 있어서,

상기 잡음 마스킹 확률은 하기 수학식에 의해 구하는 것을 특징으로 하는 음성 인식 전처리 방법.

(여기서,
는 잡음 마스킹 확률,
는 마스킹에 의해 영향을 받은 집합,
는 마스킹에 의해 영향을 받지 않은 집합,
는 환경변수.)
입력되는 음성 신호를 프레임으로 분할하는 프레임 형성부;

프레임별 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 생성하는 푸리에 변환부;

상기 푸리에 변환을 통해 얻어진 스펙트럼에 여러 개의 구간을 설정하고, 각 구간별 에너지를 구하여 필터뱅크 에너지를 생성하는 멜 뱅크 에너지 추출부;

상기 생성된 필터뱅크 에너지에 로그(log) 함수를 적용하여 로그 필터뱅크 에너지를 생성하는 비선형 변환부;

상기 각 구간별 필터뱅크 에너지로부터 잡음 마스킹 확률을 구하는 잡음 마스킹 검출부;

상기 잡음 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 플렉시블 필터; 및

상기 로그 필터뱅크 에너지로부터 최종적인 섭스트럽 특징 벡터를 추출하는 이산 코사인 변환부

를 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
제6항에 있어서, 상기 플렉시블 필터는,

상기 잡음 마스킹 확률이 소정 기준치보다 높으면 소프트 디시젼 함수의 필터링을 적용하고,

상기 잡음의 마스킹 확률이 소정 기준치보다 낮으면 하드 디시젼 함수의 필터링을 적용하는 것을 특징으로 하는 음성 인식 전처리 장치.
제7항에 있어서,

상기 소프트 디시젼 함수의 필터링은 위너(Wiener) 필터링이며,

상기 하드 디시젼 함수의 필터링은 IMM(Interacting Multiple Model) 필터링인 것을 특징으로 하는 음성 인식 전처리 장치.
제6항에 있어서,

상기 플렉시블 필터는 하기 수학식에 따라 필터링을 수행하는 것을 특징으로 하는 음성 인식 전처리 장치.

(여기서,
는 로그 스펙트럼 도메인 음성,
는 잡음 마스킹 확률,
는 위너 필터링의 결과,
는 IMM 필터링의 결과.)
제6항에 있어서,

상기 잡음 마스킹 검출부는 하기 수학식에 따라 상기 잡음 마스킹 확률을 구하는 것을 특징으로 하는 음성 인식 전처리 장치.

(여기서,
는 잡음 마스킹 확률,
는 마스킹에 의해 영향을 받은 집합,
는 마스킹에 의해 영향을 받지 않은 집합,
는 환경변수.)