KR19990011286A

KR19990011286A - 잡음환경하에서 음성인식을 위한 음성구간 검출방법

Info

Publication number: KR19990011286A
Application number: KR1019970034327A
Authority: KR
Inventors: 이종석
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1997-07-22
Filing date: 1997-07-22
Publication date: 1999-02-18
Also published as: KR100240105B1

Abstract

본 발명은 주변 잡음이 음성신호에 혼재할 때 음성구간의 구분실패로 인한 음성인식 성능의 저하를 방지할 수 있는 음성구간 검출 방법에 관한 것이다.

본 발명의 잡음환경하에서 음성인식을 위한 음성구간 검출 방법은 음성발생 모델을 구현하여 잡음이 섞인 음성신호에 대해 잡음 특성 감쇠를 위한 역변환 필터링을 수행하는 제 1단계와, 1단계에서 역변환 필터링된 신호로부터 에너지, 인접 음성 샘플사이의 상관도, 영교차율, 지속시간 등의 파라미더들을 추출하는 제 2단계와, 2단계에서 추출된 파라미터들을 이용하여 음성구간 결정 로직을 구성하여 잡음이 섞인 신호로 부터 음성구간을 검출하는 제 3단계를 포함하는 것을 특징으로 한다.

본 발명에 의하면, 잡음이 섞인 음성신호에서 음성발생 모델의 역변환 필터링에 의하여 잡음 특성을 감쇠시킨 후 음성구간을 검출하므로써, 잡음환경하에서도 음성구간의 검출이 용이한 효과가 있다.

Description

잡음환경하에서 음성인식을 위한 음성구간 검출방법

본 발명은 음성인식시 필수적인 음성구간 검출방법에 관한 것으로, 특히 주변 잡음이 음성신호에 혼재할 때 음성구간의 구분실패로 인한 음성인식 성능의 저하를 방지할 수 있는 음성구간 검출 방법에 관한 것이다.

통상, 음성인식은 기본적으로 인식하고자 하는 음성 패턴과 기준 패턴과의 주사도 판별에 의해 이루어진다. 이때, 인식할 음성 데이터에서 음성구간을 가능한 한 정확히 검출하여야 음성인식의 성능을 높일 수 있다.

음성인식시 필수적인 음성구간 검출방법으로 다양한 기법이 사용되고 있다.

일반적으로 가장 많이 사용되는 방법은 음성신호의 시간축상에서의 특징을 이용한 음성구간 검출방법이다.

다시 말하여, 음성신호는 음성구간에서 높은 에너지를 갖게 되고 음성 샘플 사이에 유사도가 매우 높을 뿐만 아니라, 최소한의 음성 지속 시간이 존재한다. 이와 같은 음성신호의 시간축상에서의 특징을 이용하여 배경잡음과 음성구간을 구분하므로써 음성구간을 검출해 내는 방법이다.

그런데 음성신호에 주변잡음이 심한 경우 음성신호의 상기 특징들이 잡음에 의해 손상되기 때문에 음성구간의 검출이 어려워진다. 예를 들어, 신호 대 잡음비(SNR)가 0 dB인 경우에는 신호와 잡음의 에너지가 같기 때문에 에너지에 의한 잡음과 음성구간 구분은 불가능해진다.

또한, 최근 편리성이나 안전성 등의 이유로 차량전화에서의 음성인식에 의한 다이얼링의 필요가 강력히 대두되고 있는 상황에서 주행중인 차량의 소음은 심한 경우 신호 대 잡음비는 0 dB 이하가 될 수도 있다.

이러한 열악한 상황에서도 음성인식을 높은 성능으로 수행하기 위하여 정확한 음성구간을 검출이 요구되어지고 있다.

본 발명은 상기 사정에 의하여 안출된 것으로, 본 발명의 목적은 주변 잡음이 혼재할 때 음성구간의 구분 실패로 인한 음성인식 성능의 저하를 방지할 수 있는 잡음환경하에서 음성 인식을 위한 음성구간 검출 방법을 제공하는 것이다.

본 발명의 다른 목적은 음성발생 모델의 역변환 필터링 기법을 이용하여 음성신호의 잡음 특성을 감쇠시키므로써 음성구간을 효과적으로 검출할 수 있는 잡음 환경하에서 음성인식을 위한 음성구간 검출 방법을 제공하는 것이다.

도 1은 음성발생 모델을 도시한 블록도.

도 2는 본 발명에 따른 음성구간 검출 방법을 설명하기 위한 음성구간 검출장치를 나타내는 흐름도.

도 3은 본 발명의 실시예에 따른 음성신호 파형을 도시한 도면.

도4는 도2의 음성구간 결정 로직부에서 처리하는 음성구간 결정 과정을 나타내는 흐름도.

* 도면의 주요부분에 대한 부호의 설명

2 : 임펄스 열 발생기 4 : 백색 잡음 발생기

6 : 디지탈 필터 10 : 음성 분석부

12 : 역변환 필터 14 : 검출 파라미터 추출부

16 : 음성구간 결정 로직부 18 : 음성 인식부

상기 목적을 달성하기 위하여, 본 발명에 따른 잡음환경하에서 음성인식을 위한 음성구간 검출 방법은 음성발생 모델을 구현하여 잡음이 섞인 음성신호에 대해 잡음 특성 감쇠를 위한 역변환 필터링을 수행하는 제 1단계와, 1단계에서 역변환 필터링된 신호로부터 에너지, 인접 음성 샘플 사이의 상관도, 영교차율, 지속시간 등의 파라미터들을 추출하는 제 2단계와, 2단계에서 추출된 파라미터들을 이용하여 음성구간 결정 로직을 구성하여 잡음이 섞인 신호로부터 음성구간을 검출하는제 3단계를 포함하는 것을 특징으로 한다.

본 발명의 상기 목적 및 그밖의 목적 및 이점은 후술될 본 발명의 실시에에 대한 상세한 설명을 통하여 보다 명확해질 것이다.

우선, 잡음이 섞인 음성신호에서 신호의 잡음특성 감쇠를 위한 역변환 필터링 기법을 이용하기 위하여 도1에 도시된 바와 같은 음성발생 모델을 구현한다.

일반적으로, 음성은 인간의 성대에서 발생된 공기 흐름이 입, 코, 혀, 입술등의 조음기관인 성도에서 단속되므로서 발생되어진다. 음성은 크게 유성음과 무성음으로 구별이 되는데 이는 음원이 각각 다르기 때문이다.

여기서, 유성음은 성대에서 주기적인 임펄스(Impulse, 또는 Pitch) 형태의 공기 흐름이 입, 혀, 코,치아 등의 조음 기관에서 공기흐름이 조절되어 생성된다.

무성음은 폐에서 나오는 난류성 공기 진동이 조음기관을 통과하면서 조음된다.

이를 모델링하면 다음 도1과 같이 표현할 수 있다.

도1에 도시된 음성 발생 모델은 음원 모델로 유성음 및 무성음을 발생하는 임펄스 열 발생기(Impulse Train Generater, 2) 및 백색 잡음 발생기White Noise Generater, 4)와, 성도 모델인 디지탈 필터(6)를 구비한다.

도1의 음성 발생 모델에서 임펄스 열 발생기(2)에서 발생되는 유성음과 잡음발생기(4)에서 발생되는 무성음은 성도에 해당하는 디지탈 필터(6)를 구동시킴으로써 음성신호가 발생된다.

이 모델에서 발생된 음성신호는 신호의 특성이 명확하게 나타나 음성구간과 비음성구간의 구별이 비교적 쉽다. 그런데, 음성신호에 주변잡음이 강하게 첨가되면 음성신호의 특성이 잡음에 의해 변형되어 잘 나타나지않는다. 따라서 이러한 잡음이 첨가된 음성에 대해 음성인식을 시도하면 좋은 결과를 얻을 수 없다.

음성인식률이 낮아지는 이유는 신호의 왜곡등 여러 가지 이유가 있으나 그 중 대표적인 이유중의 하나가 음성구간의 정확한 검출의 실패에 있다. 이는 음성인식 방법이 기본적으로 음성구간을 검출한 후 음성구간에 대한 유사도에 의해 인식이 수행되기 때문에 음성구간의 검출이 대단히 중요합을 의미한다.

따라서, 잡음이 혼재된 음성신호에서 음성구간을 검출하기 위해서 잡음의 특성을 감쇠시키는 기법이 필요하다.

이를 위하여, 도1의 음성발생 모델에서 발생되는 음성신호에 대해 성도모델의 역필터로 역변환 필터링을 수행한다.

다시 말하여, 도1에 도시된 음성발생 모델에서 성도 모델을 통과한 음성신호에 대해 성도모델의 역필터로 필터링하면 이론적으로 음원신호가 생성된다. 만일 음성신호에 잡음이 섞여 있을 경우 음성신호의 성질과 잡음신호의 성질이 다르기 때문에 성도의 역필터로 필터링하면 정확한 음원신호는 아니지만 음원신호에 근접한 신호를 얻을 수 있게 된다.

따라서, 이신호를 이용하면 음성구간과 잡음구간 간의 구별이 훨씬 용이하게 구현될 수 있게 된다.

이하, 첨부도면 도2 내지 도4를 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하기로 한다.

도2는 본 발명에 따른 음성구간 검출방법을 설명하기 위한 음성구간 검출 장치를 나타내는 블록도로서, 도2의 음성구간 검출 장치는 잡음섞인 음성신호로부터 성도 모델의 필터계수를 구하기 위한 음성 분석부(10), 잡음섞인 음성신호를 역변환 필터링하기 위한 역변환 필터(12), 역변환 필터(12)의 음성신호로부터 음성구간검출 파라미터를 추출하기 위한 검출 파라미터 추출부(14), 검출 파라미터 추출부(14)의 특징 파라미터로부터 음성구간을 검출하는 음성구간 결정 로직부(16), 음성분석부(10)의 성도 모델 필터계수와 음성구간 결정로직(16)의 음성구간 결정정보를 이용하여 음성인식을 수행하는 음성 인식부(18)를 구비한다.

도2에서 입력신호는 음성신호에 잡음이 첨가된 신호로써, 시간축상에서 도3의 (a)에 도시된 파형과 같은 형태를 갖는다.

이는 영어'five two five'의 음성에 대한 신호 파형으로써 신호 대 잡음비(SNR)가 0 dB, 즉 음성신호와 잡음의 에너지가 같은 크기로 존재하는 신호이다.

이 도2의 (a)에 도시된 신호 파형을 살펴보면 어느 부분이 음성인지 구분이 전혀 되지 않는다. 이 신호를 주파수 영역으로 변환하면 도2의 (b)에 도시된 바와 같이 음성 부분과 저주파쪽에 나타나는 잡음영역이 나타난다.

이와 같이 주파수 영역으로 신호를 변환하면 음성구간을 분리할 수 있으나, 음성인식 측면에서 살펴보면 별도의 많은 연산에 의해 주파수 변환을 수행해야 하는 문제가 있다.

따라서, 본 발명에서는 인식 과정에서 사용하는 필터 계수를 이용하여 낮은차수의 역변환 필터를 구현하여 잡음 특성을 감쇠시키게 된다.

상세히 하면, 도2의 음성분석부(10)는 잡음섞인 음성신호로부터 성도모델의 필터계수를 구한다.

이 성도모델 필터계수는 음성 인식부(18)에서 사용하는 파라미터로 보통 10∼12차 계수가 사용된다. 이 계수 중 4차 정도를 이용하여 역변환필터(12)를 구현한다.

이에 따라, 도3의 (a)에 도시된 바와 같은 잡음섞인 신호에 대해 역변환 필터(12)에서 역변환 필터링을 수행하면, 도3의 (c)에 도시된 바와 같은 신호특성이 나타난다.

이 신호는 시간축상에서 표현된 신호로 음성구간과 잡음신호 구간의 구분이 가능해진다.

이를 주파수 영역으로 변환하면 도3의 (d)와 같이 표현된다. 이와 같이, 별도의 특징 파라미터를 구할 필요없이 4차 정도의 간단한 필터에 의하여 역변환 필터링이 가능하기 때문에 좋은 성능을 얻으면서도 구현이 용이한 이점이 있다.

다음으로, 검출 파라미터 추출부(14)는 역변환 필터(12)로부터 출력되는 신호에서 음성구간 검출을 위한 검출 파라미터를 구한다. 이때, 사용하는 파라미터로는 조용한 콴경에서 음성구간을 검출할 때 사용하는 파라미터와 같이 에너지, 인접 음성 샘플의 상관도, 영교차율, 음성 지속시간 등을 이용한다. 여기서, 에너지는 한 프레임을 구성하는 음성 데이터들의 평균 에너지를 의미한다.

인접 샘플과의 상관도는 음성신호의 순간직인 변화량을 나타내며 인접한 두 샘플의 곱한 값을 전 프레임 구간에서 더한 값과 에너지의 비로써 구할 수 있다.

영교차율은 샘플들의 부호 변화량을 특징한 값이다. 음의 지속시간은 연속된 음성 프레임의 개수를 의미한다.

그리고, 음성구간 결정 로직부(16)는 검출 파라미터(14)에서 구한 상기 파라미터들을 이용하여 음성구간을 결정하게 된다.

이를 상세히 하기 위하여, 도4를 참조하여 설명한다.

도4는 도3의 음성구간 결정 로직부(16)에서 처리되는 음성구간 결정과정을 나타내는 흐름도이다. 여기서, 음성구간 결정 로직은 프레임 단위로 수행된다.

먼저, 신호의 에너지 값의 크기를 검사한다. 단계1에서 에너지 값이 제1문턱값 th_EH보다 작으면 잡음 프레임으로 간주하고, 문턱값보다 크면 단계2에서 다시 제2 문턱값 th_EH로 검사한다. 이때, 제2 문턱값 th_EH은 제1 문턱값 th_EH보다큰 값이다.

단계2에서 에너지가 제2 문턱값보다 크면 에너지가 매우 큰 프레임, 즉 음성 프레임으로 설정하고, 지속시간을 한 프레임 증가시킨 후 리턴한다(단계5및 단계6). 단계2에서 에너지가 제2 문턱값보다 작으면 단계3에서 음성 데이터의 상관도를 측정한다.

음성 데이터의 상관도가 th_CO보다크면 유성음 프레임으로 간주하여 단계5에서 음성 프레임으로 간주하고, 단계6에서 지속시간을 한 프레임증가시킨 후 리턴한다.

만일 상관도가 작으면 단계4에서 영교차율을 측정한다. 영교차율이 th_ZCR보다 크면 무성음으로 간주하여 단계5에서 음성 프레임으로 설정하고, 단계6에서 지속시간을 한 프레임 증가시킨 후 리틴한다.

영교차율이 th_ZCR보다 작으면 잡음구간으로 간주한다. 단계1 및 단계4에서 현재 프레임이 잡음신호로 간주되면, 단계7로 진행되어 직전 프레임이 음성 프레임이었는가를 검사한다.

이는 연속된 잡음의 경우와 음성구간이 끝나고 잡음구간이 된 경우가 있다. 직전프레임이 음성 프레임이 아니면 잡음프레임의 연속으로 판단하고 리턴한다.

만일 직전프레임이 음성 프레임이면 단계8에서 이 음성구간이 일정 지속시간(th_DUR)을 유지하였는지를 검사한다.

음성구간이 일정 지속시간을 유지하지 못하였으면 단계10에서 그 기간 동안의 모든 프레임을 잡음구간으로 간주하고 리턴한다. 일정 지속시간을 유지하였으면 단계9에서 그 기간을 모두 음성구간으로 설정하여 음성 인식부(18)로 전송한다.

이와 같이, 음성구간 결정 로직부(16)에서 결정된 정보는 도3의 (e)에 도시된 바와 같은 신호 파형으로 표현되며, 이는 음성 인식부(18)로 전달되어 음성인식이 수행된다.

이상 설명한 바와 같이, 본 발명에 따른 잡음환경하에서 음성인식을 위한 음성구간 검출 방법에 의하면 잡음이 섞인 음성신호에서 음성발생 모델의 역변환 필터링에 의하여 잡음 특성을 감쇠시킨 후 음성구간을 검출하므로써, 잡음환경하에서도 음성구간의 검출이 용이한 효과가 있다.

나아가, 이는 음성인식시 필수적인 음성구간 정보를 잡음환경하에서도 우수하게 검출하기 때문에 음성인식기의 성능을높일 수 있다. 또한, 본 발명에 따른 음성구간 검출 방법은 음성인식시 사용하는 특징 파라미터를 사용하기 때문에 음성 검출을 위하여 별도의 복잡한 연산을 수행할 필요가 없어 간단하게 구현이 가능한 특징이 있다.

Claims

음성발생 모델을 구현하여 잡음이 섞인 음성신호에 대해 잡음 특성 감쇠를 위한 역변환 필터링을 수행하는 제 1단계와;

상기 단계에서 역변환 필터링된 신호로부터 에너지, 인접 음성 샘플 사이의 상관도, 영교차율, 지속시간 등의 파라미터들을 추출하는 제 2단계와;

상기 단계에서 추출된 파라미터들을 이용하여 음성구간 결정 로직을 구성하여 잡음이 섞인 신호로부터 음성구간을 검출하는 제 3단계를 포함하는 것을 특징으로 하는 잡음환경하에서 음성인식을 위한 음성구간 검출 방법.
제 1 항에 있어서, 상기 1단계에서 역변환 필터링은 상기 음성발생 모델의 필터 계수 중 낮은 차수를 이용하여 수행하는 것을 특징으로 하는 잡음환경하에서 음성인식을 위한 음성구간 검출 방법.
제 1 항에 있어서, 상기 3단계에서 상기 음성구간 결정 로직은 상기 에너지 값을 임의의 제1 및 제2 문턱값과 비교하는 (a)단계와,

상기 (a)단계에서 에너지 값이 제2 문턱값보다 작으면 음성 데이터의 상관도를 검사하는 (b)단계와,

상기 (b)단계에서 음성 데이터의 상관도가 임의의 값보다 작으면 영교차율을 검사하는 (c)단계와,

상기 (a)단계에서 에너지 값이 상기 제1 및 제2 문턱값보다 크고, 상기 (b)단계에서 음성 데이터의 상관도가 임의의 값보다 크고, 상기 (c)단계에서 영교차율이 임의의 값보다 크면, 음성 프레임으로 설정하고 지속시간을 증가시키는 (d)단계와,

상기 (c)단계에서 영교차율이 임의의 값보다 작고, 상기 (a)단계에서 에너지값이 제1 문턱값보다 작으면, 직전 프레임이 음성 프레임이었는가를 검사하는 (e)단계와,

상기 (e)단계에서 직전 프레임이 음성 프레임이면 이 음성구간이 일정 지속시간을 유지하였는지를 검사하는 (f)단계와,

상기 (f)단계에서 음성구간이 일정 지속시간을 유지하였으면 그 기간을 음성 구간으로 설정하는 (g)단계를 포함하는 것을 특징으로 하는 잡음환경하에서 음성인식을 위한 음성구간 검출 방법.
제 3 항에 있어서, 상기 (a)단계에서 상기 제1 문턱값은 상기 제2 문턱값보다 작은 것을 특징으로 하는 잡음환경하에서 음성인식을 위한 음성구간 검출 방법.
제 1 항 또는 제 3 항에 있어서, 상기 에너지 값은 한 프레임을 구성하는 음성 데이터들의 평균 에너지 값인것을 특징으로 하는 잡음환경하에서 음성인식을 위한 음성구간 검출 방법.
제 1 항 또는 제 3 항에 있어서, 상기 인접 음성 샘플 사이의 상관도는 인접한 두 음성 샘플의 곱한 값과 전프레임 구간에서 더한 값과의 에너지의 비인 것을 특징으로 하는 잡음환경하에서 음성인식을 위한 음성구간 검출 방법.