KR950001540B1

KR950001540B1 - 음성신호의 끝점 검출장치

Info

Publication number: KR950001540B1
Application number: KR1019920016900A
Authority: KR
Inventors: 김락용
Original assignee: 주식회사금성사; 이헌조
Priority date: 1992-09-17
Filing date: 1992-09-17
Publication date: 1995-02-25
Also published as: KR940008343A

Abstract

내용없음.

Description

음성신호의 끝점 검출장치

제1도는 종래의 끝점 검출장치를 보인 회로도.

제2도의 (a)(b)는 종래의 끝점 검출장치에서 음성구간을 검출하는 동작을 보인 파형도.

제3도는 본 발명의 끝점 검출장치가 구성된 음성인식기를 보인 회로도.

제4도는 본 발명의 끝점 검출장치를 보인 회로도.

제5도는 본 발명의 끝점 검출장치에서 상위지향부를 보인 회로도.

제6도는 본 발명의 끝점 검출장치에서 하위지향부를 보인 회로도.

제7도는 본 발명의 끝점 검출장치에 의하여 음성구간이 검출되는 것은 보인 파형도.

제8a도-제8c도는 본 발명의 끝점 검출장치에 의하여 검출된 음성구간을 예를들어 보인 파형도.

* 도면의 주요부분에 대한 부호의 설명

20 : 상위지향부 21 : 하위지향부

31, 32 : 프레임 분할부 33, 34 : 에너지 계산부

35 : 임계치 계산부 36 : 에너지 펄스검출부

41 : 발성지속 시간부 42 : 음성크기 임계치부

43 : 타당성 검출부 44 : 펄스 갭부

45 : 펄스지속부 46 : 결합/제거부

본 발명은 음성인식기, 음성합성기 및 음성코딩기등의 기기에서 음성신호 구간의 끝점을 검출하는 음성신호의 끝점 검출장치에 관한 것으로 특히, 전화선로상에서와 같이 임펄스성 잡음 및 혼선이 있는 경우에 성능이 저하됨이 없이 음성구간을 정확히 검출할 수 있도록 하는 음성신호의 끝점 검출장치에 관한 것이다.

종래의 끝점 검출장치는 음성신호의 단시간 에너지(short-time energy) 및 영교차율(zero-crossing rate)을 이용하여 음성신호 구간의 끝점을 검출하는 것으로서 제1도에 도시된 바와 같이, 입력신호(SN)을 윈도우 처리하는 윈도우 함수부(1)와, 상기 윈도우 함수부(1)의 출력신호에서 단시간 에너지 및 영교차율을 구하는 단시간 에너지/영교차율 계산부(2)와, 상기 단시간 에너지/영교차율 계산부(2)의 출력신호에서 묵음 구간으로 가정된 신호의 시작부분의 평균에너지 및 평균 영교차율을 계산하는 묵음구간 평균 에너지/평균 영교차율 계산부(3)와, 상기 묵음구간 평균 에너지/평균 영교차율 계산부(3)의 출력신호에서 임계치(ITU, ITL)를 계산하는 임계치 계산부(4)와, 상기 임계치 계산부(4)가 계산한 임계치에 따라 음성구간을 검출하는 음성구간 검출부(5)와, 상기 음성구간 검출부(5)의 출력신호에서 평균 영교차율을 이용하여 음성구간을 보정하는 음성구간 보정부(6)로 구성하였다.

이와 같이 구성된 종래의 끝점 검출장치는 입력신호(SN)가 윈도우 함수부(1)를 거쳐 단시간 에너지/영교차율 계산부(2)에 입력되어 단시간 에너지 및 영교차율이 계산된다.

그리고 묵음구간 평균 에너지/평균 영교차율 계산부(3)에서 묵음구간으로 가정된 신호의 시작부분에서 평균에너지 및 평균 영교차율과 최대값 에너지를 계산하고, 이를 이용하여 임계치 계산부(4)가 임계치(ITU, ITL)를 계산한다.

여기서 임계치 계산부(4)는 가정된 묵음구간에서 구한 단시간 에너지의 값들의 통계치를 이용하여 임계치(ITU, ITL)를 구하는 것으로서 임계치(ITU, ITL)는 다음의 식과 같다.

I1=TH1*(IMX-IMN)+IMN

I2=TH2*IMN

ITL=Min(I1, I2)

ITU=TH3*ITL

여기서, IMX는 묵음구간에서의 최대 에너지이고, IMN은 평균 에너지이며, TH1-TH3는 환경에 따라 결정되는 상수이다.

이와 같이 하여 계산된 임계치(ITU, ITL)를 이용하여 음성구간 검출부(5)는 제2도의 (a)에 도시된 바와 같이 시간축에 따라 계산된 단시간 에너지의 값들로부터 잠정적인 음성구간(N1-N2)을 구한후, 음성구간 보정부(6)에서 제2도의 (b)에 도시된 바와 같이 묵음구간의 평균 영교차율보다 레벨이 높은 영교차율을 갖는 구간을 음성구간으로 넓혀 보정하여 최종적으로 보성음성구간(N0-N2)을 결정하고 출력한다.

그러나 상기와 같은 종래의 끝점 검출장치는 전화선로와 같이 전송되는 신호의 통과대역이 약 200-3400Hz 정도로 제한될 경우에 영교차율에 대한 정보를 이용할 수 없음은 물론 전화선상의 혼선이 발생되거나 통화감도가 나쁠 경우에 음성구간을 잘못 검출하거나 또는 검출하지 못하게 되는 에러가 발생하였으며, 또한 에너지의 임계치를 이용하여 음성구간을 검출하므로 비교적 에너지가 작은 'ㄱ', 'ㅂ' 및 'ㅌ'의 파열음과 'ㄴ', 'ㄹ' 및 'ㅁ'등의 유음은 잘려나가게 되어 끝점이 짧게 구해지게 되는 등의 문제점이 있었다.

본 발명은 상기와 같은 종래의 제반 문제점들을 해결하기 위하여 창안한 것으로서, 가정된 묵음구간에서 단시간 에너지의 값을 계산하여 임계치를 구하고, 입력된 음성신호에 대하여 가능한 끝점들의 쌍인 에너지 펄스를 구하며, 각각의 시작과 끝점이 쌍들로부터 단어의 발성 지속시간 및 음성의 크기에 대한 임계치 값들을 이용하여 에너지 펄스의 타당성(validity)을 조사한 후 얻어진 에너지 펄스의 쌍들로부터 펄스사이의 갭 및 펄스의 지속시간 정보를 이용하여 펄스를 결합(merge) 및 제거(delete)하면서 음성구간을 검출함으로써 임펄스성 잡음 및 혼선과 통화 감도가 나쁜 전화선로상에서도 성능이 저하됨이 없이 음성구간을 정확히 검출할 수 있도록 끝점 검출장치를 제공하는데 목적이 있는 것으로 이를 첨부된 제3도 내지 제8도의 도면을 참조하여 상세히 설명한다.

제3도는 본 발명의 끝점 검출장치가 구성된 음성인식기를 보인 회로도로서 이에 도시된 바와 같이, 마이크(11)를 통해 입력되는 음성신호에서 저역신호를 통과시켜 잡음을 제거하는 저역통과필터(12)와, 상기 저역통과필터(12)의 출력신호를 디지탈로 변환하는 아날로그/디지탈 변환부(13)와, 상기 아날로그/디지탈 변환부(13)의 출력신호에서 음성구간의 끝점을 검출하는 본 발명의 끝점 검출장치(14)와, 상기 끝점 검출장치(14)의 출력신호를 기준패턴부(15)의 기준패턴과 비교하여 음성을 인식하는 인식부(16)와, 상기 인식부(16)의 인식결과를 출력하는 결정법칙부(17)로 구성된다.

이러한 구성을 가지는 음성인식기는 마이크(11)를 통해 입력되는 음성신호가 저역통과필터(12)를 통과하면서 잡음신호가 제거되고, 아날로그/디지탈 변환부(13)에서 디지탈로 변화되어 끝점 검출장치(14)로 입력된다.

그러면 본 발명의 끝점 검출장치(14)는 입력신호의 끝점을 검출하여 음성구간을 출력하고, 출력한 음성구간을 인식부(16)가 기준패턴부(15)의 기준패턴과 비교하여 음성을 인식하며, 음성의 인식결과를 결정법칙부(17)를 통해 출력한다.

이와 같이 음성인식기등에 사용되는 본 발명의 끝점 검출장치(14)는, 제4도에 도시된 바와 같이 입력 디지탈 신호에서 계산된 임계치를 이용하여 음성구간을 검출하는 상위지향부(20)와, 상기 상위지향부(20)의 출력신호에서 미리 설정된 인식대상 어휘의 정보 및 음성크기에 대한 임계치를 이용하여 가능한 에너지 펄스의 음성구간을 검출하는 하위지향부(21)로 구성하였다.

여기서, 상위지향부(20)는, 제5도에 도시된 바와 같이, 입력 묵음구간신호(BN) 및 입력신호(SN)를 프레임 단위로 각기 분할하는 프레임 분할부(31)(32)와, 상기 프레임 분할부(31)(32)의 출력신호에서 단시간 에너지를 계산하는 에너지 계산부(33)(34)와, 상기 에너지 계산부(33)의 출력신호에서 임계치를 계산하는 임계치 계산부(35)와, 상기 에너지 계산부(34)의 출력신호에서 상기 임계치 계산부(35)의 임계치에 따라 에너지 펄스를 검출하는 에너지 펄스검출부(36)로 구성하였다.

그리고 하위지향부(21)는, 제6도에 도시된 바와 같이, 발성시간 지속부(41)의 발성시간 지속정보 및 음성크기 임계치부(42)의 임계치를 이용하여 음성의 타당성을 검출하는 타당성 검출부(43)와, 상기 타당성 검출부(43)의 출력신호를 펄스갭부(44) 및 펄스지속부(45)에 미리 저장된 정보에 따라서 결합 및 제거하여 단어의 음절수, 초성의 파열음 존재여부 및 잘못 검출된 결과를 수정하는 결합/제거부(46)로 구성하였다.

이와 같이 구성된 본 발명의 끝점 검출장치는 입력 묵음구간신호(BN) 및 입력신호(SN)를 상위지향부(20)의 프레임 분할부(31)(32)가 프레임을 단위로 하여 분할하고, 에너지 계산부(33)(34)가 단시간 에너지를 계산하여 임계치 계산부(35) 및 에너지 펄스검출부(36)로 입력하게 된다.

그러면 임계치 계산부(35)는 에너지 계산부(33)로부터 입력되는 단시간 에너지를 다음의 식과 같이 계산하여 임계치를 구한다.

ITL=IMX-TH1*(IMX-IMN)

ITU= TH2*ITL

ITM2=TH3*ITL+TH4*ITU

ITM1=(ITM1+ITL)/2

여기서, IMX는 묵음구간에서 구한 최대 단시간 에너지이고, IMN은 묵음구간에서 구한 최소 단시간 에너지이며, TH1-TH4는 환경에 따라 설정되는 상수이며, ITM1, ITM2 및 ITU는 임계치이다.

이와 같이 구한 임계치는 미리 설정된 묵음 프레임 길이의 큐(queue) 구조를 갖는 블록에서 미리 설정된 회수만큼 새로이 갱신될 경우마다 다시 계산하여 구하고, 구한 임계치를 이용하여 에너지 펄스검출부(36)는 에너지 계산부(34)의 출력신호에서 제7도에 도시된 바와 같이 에너지 펄스를 검출하여 출력한다.

여기서 에너지 펄스를 검출하여 출력하는 동작을 상세히 설명하면, 제7도에 도시된 파형도에서 단시간 에너지가 임계치(ITM1) 이상으로 된후 ITU 이상으로 될때까지의 지속시간(d1)이 미리 설정된 값보다 작을 경우에는 임계치(ITM1) 이상으로 되는 시점(S1)을 시점으로 하고, 지속시간(t1)이 설정된 값보다 클 경우에는 ITU 이상으로 되는 시점(S2)을 시작점으로 하며, 이와 같이 하여 시작점을 찾으면, 끝나는 점을 찾게되는데, 단시간 에너지의 값이 ITU보다 작아지기 시작하여 임계치(ITM2)보다 작아질때까지의 지속시간(d2)이 미리 설정된 값보다 작을 경우에는 임계치(ITM2) 이하로 되는 시점(E1)을 끝점으로 하고, 주어진 값보다 클 경우에는 ITU 이하로 되는 시점(E2)을 끝점으로 하여 음성구간을 출력한다.

이와 같이 하여 상위지향부(20)에서 출력되는 에너지 펄스의 음성구간은 하위지향부(21)의 타당성 검출부(43)에 입력된다.

그러면 타당성 검출부(43)는 미리 저장된 인식대상 어휘의 음운론적 정보인 발성지속 시간부(41)의 발성지속 시간과 음성크기 임계치부(42)의 음성의 크기에 대한 임계치를 이용하여 상위지향부(20)의 출력신호에서 음성이 될 수 있는 가능한 에너지 펄스만을 추출하여 결합/제거부(46)에 입력시키게 된다.

인식대상 어휘를 구성하는 음절수와 파열음이 초성인 경우등은 두개 또는 그 이상의 에너지 펄스가 발생하는 것으로 결합/제거부(46)는 미리 저장된 펄스 갭부(44)의 펄스 갭시간 및 펄스 지속부(45)의 펄스 지속 시간을 이용하여 제7도와 같이 에너지 펄스를 제거 및 결합하여 최종의 음성구간을 출력한다.

여기서 결합/제거부(46)가 에너지 펄스를 제거 및 결합되는 동작은 제8도의 도면을 참조하여 상세히 설명하면, 예 를들어 ＂녹음＂이라는 단어에서 ＂녹＂과 ＂음＂이 떨어져 발음될 경우에 에너지 펄스는 제8a도에 도시된 바와 같이 2개가 발생된다.

이러한 경우에는 다음의 3가지의 조건식을 만족하는지 판별하고,

d1, d2＞d＿Hmin

Gap＜Gapmax

d1+d2+Gap＜dur＿MAX

여기서, d1 및 d2는 가정된 에너지 펄스의 음성구간의 지속시간이고, d＿Hmin은 음성이 되기 위한 최소한의 발성 지속시간이며, Gap는 에너지 펄스의 음성구간과 음성구간 사이의 시간이며, Gapmax는 2음절로 구성된 단어의 음절사이를 띄워서 발음할 경우에 가장 길게 띄워서 발음할 경우의 시간이며, dur＿MAX는 하나의 단어가 발음될 경우의 최대 지속시간이다.

3가지의 조건식을 모두 만족할 경우에는 최종의 시작점과 끝점의 쌍은 다음과 같다.

{(S1, E1), (S2, E2)}→{(S1, E2)}

그리고 초성이 파열자음일 경우에는 제8b도에 도시된 바와 같이 에너지 펄스가 검출되는 것으로 다음의 3가지 조건식을 만족하는지를 판별하고,

d1＜d＿Lmax

d2＞d＿Hmin

Gap＜Gap＿Lmax

여기서, d＿Lmax는 초성 파열자음의 최대 지속시간이고, d＿Hmin은 음성이 되기 위한 최소한의 발성 지속시간이며, Gap＿Lmax는 초성 파열자음이 있는 단어에서의 초성 파열자음과 중성발음 사이의 최대 차이시간이다.

3가지의 조건식을 모두 만족할 경우에는 최종 출력이 {(S1, E2)}로 된다.

그러나 배경간섭음이나 전화선로상에서 혼선 및 임펄스성 잡음등이 발생하였을 경우에는 제8c도에 도시된 바와 같이 에너지 펄스가 검출되고, 그 검출된 에너지 펄스는 다음의 조건식 d1+d2+Gap＜dur MAX을 만족하지 못하므로 {(S1, E1), (S2, E2)}={ }로서 제거하여 음성구간이 아니라고 출력한다.

이상에서 상세히 설명한 바와 같이 본 발명은 음성구간을 검출하는 상위지향부에 음운론적 정보를 이용하는 하위지향부를 혼합하여 끝점을 검출함으로써 임펄스성 잡음 및 혼선등이 있어도 음성을 정확히 검출할 수 있는 효과가 있다.

Claims

입력 디지탈 신호에서 계산된 임계치를 이용하여 음성구간을 검출하는 상위지향부(20)와, 상기 상위지향부(20)의 출력신호에서 미리 설정된 인식대상 어휘의 정보 및 음성크기에 대한 임계치를 이용하여 가능한 에너지 펄스의 음성구간을 검출하는 하위지향부(21)로 구성함을 특징으로 하는 음성신호의 끝점 검출장치.
제1항에 있어서, 상위지향부(20)는, 입력 묵음구간신호(BN) 및 입력신호(SN)를 프레임 단위로 각기 분할하는 프레임 분할부(31)(32)와, 상기 프레임 분할부(31)(32)의 출력신호에서 단시간 에너지를 계산하는 에너지 계산부(33)(34)와, 상기 에너지 계산부(33)의 출력신호에서 임계치를 계산하는 임계치 계산부(35)와, 상기 에너지 계산부(34)의 출력신호에서 상기 임계치 계산부(35)의 임계치에 따라 에너지 펄스를 검출하는 에너지 펄스검출부(36)로 구성함을 특징으로 하는 음성신호의 끝점 검출장치.
제2항에 있어서, 임계치 계산부(25)는 다음의 식으로 임계치를 계산하는 것을 특징으로 하는 음성신호의 끝점 검출장치.

ITL=IMX-TH1*(IMX-IMN)

ITU= TH2*ITL

ITM2=TH3*ITL+TH4*ITU

ITM1=(ITM1+ITL)/2

여기서, IMX는 묵음구간에서 구한 최대 단시간 에너지이고, IMN은 묵음구간에서 구한 최소 단시간 에너지이며, TH1-TH4는 환경에 따라 설정되는 상수이며, ITM1, ITM2 및 ITU는 임계치이다.
제2항에 있어서, 임계치 계산부(25)는 미리 설정된 묵음 프레임 길이의 큐(queue)구조를 갖는 블록에서 미리 설정된 회수만큼 새로이 갱신될 경우마다 다시 계산하여 구하는 것을 특징으로 하는 음성신호의 끝점 검출장치.
제1항에 있어서, 하위지향부(21)는, 발성시간 지속부(41)의 발성기간 지속정보 및 음성크기 임계치부(42)의 임계치를 이용하여 음성의 타당성을 검출하는 타당성 검출부(43)와, 상기 타당성 검출부(43)의 출력신호를 펄스갭부(44) 및 펄스지속부(45)에 미리 저장된 정보에 따라서 결합 및 제거하여 단어의 음절수, 초성의 파열음 존재여부 및 잘못 검출된 결과를 수정하는 결합/제거부(46)로 구성함을 특징으로 하는 음성신호의 끝점 검출장치.