KR19990060129A

KR19990060129A - 음성인식 시스템의 음성구간 검출방법

Info

Publication number: KR19990060129A
Application number: KR1019970080350A
Authority: KR
Inventors: 김기백
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1997-12-31
Filing date: 1997-12-31
Publication date: 1999-07-26
Also published as: KR100273395B1

Abstract

본 발명은 음성인식 시스템에서 음성신호를 인식하는 기술에 관한 것으로, 주변 잡음신호의 변화에 관계없이 음성신호의 구간을 정확하게 인식할 수 있도록 하기 위하여, 입력 음성신호에 윈도우를 씌워 프레임별로 분할하고 각 프레임의 에너지를 계산하는 제1과정과; 최초 몇개의 프레임을 대상으로 문턱값을 설정할 때 "평균값 + 평균값에 따라 변화되는 값"으로 문턱값을 설정한 후 그 문턱값을 기준으로 음성신호 구간을 판단하는 제2과정과; 문턱값을 초과하는 신호 중에서 서로 인접된 신호의 에너지 분포를 이용하여 잡음신호를 구별한 다음 그 잡음신호를 제거하는 제3과정을 통해 음성신호의 구간을 인식하도록 하였다.

Description

음성인식 시스템의 음성구간 검출방법

본 발명은 음성인식 시스템에서 음성신호를 인식하는 기술에 관한 것으로, 특히 음성 검출시 사용하는 문턱값을 주변 잡음 에너지의 크기에 따라 적응적으로 설정하여 주변 잡음과 관계없이 일관성 있게 음성을 검출하고, 에너지 분포 특성을 이용하여 음성구간에서 주변 잡음을 제거하는데 적당하도록한 음성인식 시스템의 음성구간 검출방법에 관한 것이다.

종래기술에 의한 음성인식 시스템에서, 음성을 검출하기 위해 음성신호에 윈도우를 씌어서 프레임별로 나누고 각 프레임으로 부터 에너지를 구한다. 최초 n 프레임을 주변 잡음이라고 가정하고, 이 n 프레임을 기준으로 문턱값(P_thr)을 설정하게 되는데 이를 식으로 표현하면 다음과 같다.

P_thr=P_avg+2×P_sd

즉, 주변잡음이라고 가정된 최초 n 프레임에 대해 에너지 평균값을 구하고, 여기에 표준 편차값을 더하여 문턱값을 구한다. 이렇게 구한 문턱값을 근거로 하여 주변잡음의 크기가 작을때와 클 때 음성을 검출하면 도 1의 (a),(b)와 같다.

그러나, 이와 같은 종래의 음성인식 기술에 있어서는 최초 몇 프레임을 음성신호가 아니라고 가정하여 그로부터 에너지의 문턱값을 구한 후 이후에 입력되는 신호에 대하여 그 문턱값을 넘는 에너지를 가진 프레임을 음성신호의 프레임이라고 판단하게 되므로 주변잡음 에너지의 크기가 변화되는 것에 대해 적절히 대응할 수 없게 되고, 이로 인하여 제대로 음성을 검출할 수 없게 되는 결함이 있었다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 음성신호 검출시 사용하는 문턱값을 주변 잡음 에너지의 크기에 따라 적응적으로 설정하여 주변 잡음과 관계없이 일관성 있게 음성을 검출하고, 에너지 분포 특성을 이용하여 음성구간에서 주변 잡음을 적절하게 제거하는 음성구간 검출방법을 제공함에 있다.

도 1의 (a),(b)는 종래의 음성신호 구간 검출방법을 설명하기 위한 파형도.

도 2는 본 발명의 문턱값 설정 방법을 설명하기 위한 입력신호의 파형도.

도 3의 (a),(b)는 본 발명의 음성신호 구간 검출방법을 설명하기 위한 파형도.

도 4는 본 발명에서 문턱값을 초과하는 신호에 포함된 잡음신호를 제거하는 방법을 설명하기 위한 에너지 분포도.

도 5는 본 발명에 의한 음성인식 시스템의 음성구간 검출방법의 신호 흐름도.

***도면의 주요 부분에 대한 부호의 설명***

S1-S7 : 제1-7스텝

본 발명의 목적을 달성하기 위한 음성인식 시스템의 음성구간 검출방법은 입력 음성신호에 윈도우를 씌워 프레임별로 분할하고 각 프레임의 에너지를 계산하는 제1과정(S1-S3)과; 최초 몇개의 프레임을 대상으로 문턱값을 설정할 때 "평균값 + 평균값에 따라 변화되는 값"으로 문턱값을 설정한 후 그 문턱값을 기준으로 현재 입력되는 신호의 구간을 음성신호 구간으로 판단하거나 주변잡음신호 구간으로 판단하는 제2과정(S4-S7)으로 이루어지는 것으로, 이와 같이 이루어진 본 발명의 작용을 첨부한 도 2 내 지 도 5를 참조하여 설명하면 다음과 같다.

음성구간을 검출하기 위해서는 입력되는 음성신호를 각 프레임별로 분할하고 분할된 각 프레임의 에너지값을 주로 이용하게 된다.

종래에 있어서는 음성신호의 문턱값을 설정하는 방식이 주변잡음 에너지에 표준편차를 더하는 방식이므로 주변잡음 에너지의 크기에 적절하게 대응할 수 없었다.

따라서, 본 발명에서는 최초의 잡음 에너지값에 따라 음성신호의 판단기준값인 문턱값을 적절히 조정하여 주변잡음에 크게 영향을 받지 않는 일관성 있는 음성검출을 할 수 있도록 하였다.

예로써, 주변 잡음 에너지의 크기가 도 2와 같은 경우 문턱값(P_thr)은 다음의 식과 같이 설정하게 된다.

P_thr=P_avg+▵P_thr

즉, 본 발명에서는 문턱값을 설정할 때 n 프레임 에너지의 평균값에 표준편차를 더하던 기존의 방법과 달리 에너지의 평균값에 따라 변하는 값(

▵P_thr

)을 더하여 구하도록 하였다. 이와 같은 방식으로 설정된 문턱값을 이용하여 음성신호를 검출하는 예를 도 3의 (a),(b)에 나타내었다.

상기 도 3의 (a),(b)를 살펴보면 기존의 방법과는 달리 주변잡음의 에너지가 클때나 작을때나 일관성 있게 음성신호를 검출하고 있음을 알 수 있다.

한편, 음성신호의 구간을 검출할 때 문턱값을 초과하는 신호라고 판단된 신호에 포함되어 있는 잡음신호를 구별하여 그 잡음신호를 제거할 필요가 있는데, 그 방법의 하나로서 에너지 분포를 이용하면 효과적으로 제거할 수 있게 된다.

예를들어, 에너지 문턱값을 초과하는 프레임의 에너지 분포가 도 4와 같다고 하자. 각 구간을 하나의 펄스라고 간주하면 도 4에서는 두 개의 펄스가 존재하며, 각 펄스로 부터 지속기간(d1,d2), 최대 에너지(pmax1, pmax2), 에너지의 합(psum1, psum2) 등의 정보를 얻을 수 있고, 두 펄스 사이의 간격(gap)도 정보가 된다.

두 펄스에 대한 정보와 그 사이 간격을 근거로 다음과 같은 조건을 검사하여 주변 잡음을 음성구간으로 부터 제외시킬 수 있다.

if gap > SHORT_GAP,

if 3*pmax1 < pmax2 or 3*(psum1/d1) < (psum2/d2)

펄스1을 주변잡음으로 간주

end

elsief pmax1 > 3*pmax2 or (psum1/d1) > 3*(psum2/d2)

펄스2를 주변잡음으로 간주

end

이상에서 상세히 설명한 바와 같이, 본 발명은 음성신호 검출시 사용하는 문턱값을 주변 잡음 에너지의 크기에 따라 적응적으로 설정하여 주변 잡음과 관계없이 일관성 있게 음성신호의 구간을 검출하고, 에너지 분포 특성을 이용하여 음성신호의 구간에서 주변 잡음을 적절하게 제거함으로써 주변의 환경 변화에 관계없이 음성신호의 구간을 정확하게 검출할 수 있는 효과가 있다.

Claims

입력 음성신호에 윈도우를 씌워 프레임별로 분할하고 각 프레임의 에너지를 계산하는 제1과정과; 최초 몇개의 프레임을 대상으로 문턱값을 설정할 때 "평균값 + 평균값에 따라 변화되는 값"으로 문턱값을 설정한 후 그 문턱값을 기준으로 음성신호 구간을 판단하는 제2과정으로 이루어지는 것을 특징으로 하는 음성인식 시스템의 음성구간 검출방법.
제1항에 있어서, 문턱값을 초과하는 신호 중에서 서로 인접된 신호의 에너지 분포를 이용하여 잡음신호를 구별한 다음 그 잡음신호를 제거하는 과정을 더 포함하여 이루어지는 것을 특징으로 하는 음성인식 시스템의 음성구간 검출방법.
제2항에 있어서, 인접된 신호의 에너지 분포에서 이용되는 정보는 각 신호의 지속기간, 최대 에너지, 에너지의 합 정보임을 특징으로 하는 음성인식 시스템의 음성구간 검출방법.