KR940005047B1

KR940005047B1 - 음성전이구간 검출기

Info

Publication number: KR940005047B1
Application number: KR1019910023997A
Authority: KR
Inventors: 김락용
Original assignee: 주식회사 금성사; 이헌조
Priority date: 1991-12-23
Filing date: 1991-12-23
Publication date: 1994-06-10
Also published as: KR930014263A

Abstract

내용 없음.

Description

음성전이구간 검출기

제1도는 종래 끝점 검출기의 구성도.

제2a도 내지 c도는 종래 끝점 검출기의 파형도.

제3도는 본 발명 음성인식 시스템의 구성도.

제4도는 본 발명 전이구간 검출기의 상세구성도.

제5a도 내지 e도는 본 발명 전이구간 검출기의 파형도.

* 도면의 주요부분에 대한 부호의 설명

1 : 마이크로폰 2 : 저역통과필터(LPF)

3 : A/D변환기 4 : 전이구간 검출기

5 : 거리측정부 6 : 기준패턴부

7 : 결정부 8 : 해밍윈도우부

9 : 자기상관분석기 10 : 피크에너지 프레임 검출기

11 : 거리측정기 12 : 스무딩/미분기

13 : 디시젼 로직

본 발명은 음성인식에 관한 것으로 특히, 소음이 다소 존재하는 경우 소음에 영향을 적게 받는 모음의 피크 에너지 프레임을 기준으로 측정한 상대 거리차 정보를 이용하여 음성의 전이구간을 정확하게 찾도록 한 음성전이구간 검출기에 관한 것이다.

종래의 끝점 검출기는 제1도에 도시한 바와 같이 단시간 에너지와 영교차율(ZCR)을 이용해서 전이구간(끝점)을 검출하는 것으로, 이하 기술내용을 설명한다.

먼저 입력된 신호(Sn)는 윈도우 함수(14), 단구간 에너지 및 영교차율 계산부(15)를 통해 단구간 에너지 및 영교차율을 구하고, 묵음구간이라고 가정하면 신호의 시작부분에서 몇 개의 프레임을 추출하여 구간 평균에너지 및 평균영교차율 계산부(16), 임계치(ITU,ITL,)계산부(17)를 통해 임계치를 구한다.

이와 같이 얻어진 임계치로 음성구간검출부(18)를 통해 에너지 정보를 이용한 음성구간을 구한후 음성구간보정부(19)를 통해 영교차율을 이용한 무성음 부분을 보정한다.

이와 같이하여 얻어진 구간을 최종적인 음성구간으로 출력하는 것으로, 이하 파형도인 제2도 (a)-(c)를 참고로 하여 재설명한다.

묵음구간에서 구한 평균에너지(IMN) 및 전구간에서 구한 최대값(IMX)을 이용하여 제2도 (a)에 도시한 바와 같은 하이 에너지 임계치(ITU) 및 로우 에너지 임계치(ITL)를 구하면 그 식들은 다음과 같다.

여기서 구해진 로우 에너지 임계치(ITL), 하이 에너지 임계치(ITU)를 이용해서 이 임계치를 넘는 구간을 잠정적인 음성구간으로 간주한후 묵음구간의 평균 ZCR(zero-crossing rate)인 제2도(b)에 도시한 바와 같은 ZCR 임계치()보다 큰 ZCR을 갖는 구간으로 넓혀서 무성음으로 시작하고, 끝나는 부분에 대한 보정을 한후 제2도 (c)에 도시한 바와 같이 최종적인 음성구간을 결정한다.

그런데, 상기와 같은 종래의 끝점 검출기에 있어서는 잡음이 다소 심할경우 에너지 정보만을 이용하게 되면 비교적 작은 에너지를 갖는 파열음(ㄱ,ㅂ,ㅌ)등이 잘 검출되지 않게되며, 배경잡음이 무성음과 비슷한 경우 실제로 정확한 끝점보다 더 넓게 음성구간이라고 잘못 결정되는 경우가 발생되는 문제점이 있었다.

본 발명의 목적은 상기와 같은 종래의 문제점을 해결하기 위해서 소음이 다소 존재하는 경우 소음에 영향을 적게 받는 모음의 피크에너지 프레임을 기준으로 측정한 상대거리차 정보를 이용하여 음성의 전이구간을 정확하게 찾도록한 음성전이구간 검출기를 창안한 것으로, 이하 첨부한 도면에 의해 상세히 설명한다.

제3도는 본 발명 음성인식 시스템의 구성도로서 이에 도시한 바와 같이, 마이크로폰(1)을 통한 입력 아날로그신호(S(t))를 저역통과필터(LPF)(2), A/D변환기(3)를 통해 전이구간검출기(4)에 디지털신호로 입력하여 특징을 검출하고, 거리측정부(5)에서 기준패턴부(6)의 출력으로 DTW(Dynamic Time Warping), HMM(Hidden Markov Model)과 같은 인식과정을 수행하여 결정부(7)를 통해 인식결과를 출력하게 구성한다.

제4도는 본 발명 전이구간 검출기의 상세구성도로서 이에 도시한 바와 같이, A/D변환기(3)를 거친 음성신호(S(n))를 해밍윈도우(hamming window)부(8)를 통해 자기상관분석기(9)에 입력시켜 영차(zero-order) 자기상관계수를 구하며, 피크에너지 프레임 검출기(10)를 통해 상기 영차자기 상관계수를 이용하여 최대값을 갖는 프레임을 찾으며, 거리측정기(11)를 통해 상기 찾아진 프레임을 중심으로 해서, 앞, 뒤시간 축으로 상대거리를 측정하고, 그 결과를 선형 스무딩(linear smoothing)/미분기(12)를 통해 디시젼로직(decision logic)(13)에 인가하여 최종적으로 음성의 전이구간을 프레임 번호로서 구해주게 구성한 것으로, 미설명된 M은 시프트 양이고, N은 윈도우 사이즈이다.

제5도는 (a) 내지 (e)는 본 발명 전이구간 검출기의 파형도로서 이에 도시한 바와 같이, (a)는 음성신호 S(n), (b)는 에너지 R(O), (c)는 거리값 d(n), (d)는 스무딩/미분기(12)를 통과한 거리값 d(n), (e)는 전이구간 펄스 P(n)를 나타내며, 이는 음성 "삼"에 대한 일예를 나타낸 것이다.

이하, 상기와 같이 구성된 본 발명의 작용, 효과를 설명한다.

디지털신호로 변환된 음성신호(S(n))는 윈도우 사이즈 N, 시프트양 M을 갖는 해밍윈도우부(8)를 거쳐서 자기상관분석기(9)에서 자기상관계수 및 선형예측계수를 구하며, 단구간 자기상관함수 Rn(K)는 (식 1과)같이 정의된다.

여기서 사용된 윈도우 함수 W(n)는 (식 2)와 같이 주어진다.

이와 같이 자기상관계수중 영차자기상관계수는 그 해당 프레임의 에너지를 의미하며, 피크에너지 프레임 검출기(10)를 통해 영차자기 상관계수가 가장 큰 프레임을 찾는다.

이와 같이 찾아진 프레임에서 거리측정기(11)를 통해 그 이전 프레임과의 상호거리를 구한후 다시 그 다음 프레임과의 거리를 구해 거리배열(distance array)에 그 값을 저장하며, 이때 사용된 거리 측정 함수는 이타쿠라 사이토 디스토션(Itakura-Saito distortion) 방법을 적용한 것으로 그 식은 (식 4)와 같다.

여기서,

즉

여기서,

따라서, d_IS는 (식 6)과 같이 주어지고,는 비교하고자 하는 프레임의 선형예측계수 벡터들이다.

이와 같이하여 구해진 거리값들을 이용해서 음성의 전이구간을 검출하기 위해 불필요한 피크성분을 제거하고, 전이구간을 펄스로서 구분하기 용이하게 하기위해서 선형 스무딩/미분 과정을 거치게 된다.

이와 같이 얻어진 최종 거리 배열값으로부터 음성의 전이구간 및 음성의 끝점을 찾는 디시젼로직(13)을 거쳐 음성의 존재구간, 전이부분에 대한 결과를 프레임 번호로 음성인식부에 넘겨진다.

따라서, 배경 잡음의 통계적 특성이 일정하다고 가정할 때 음성 "삼"에 대한 일예를 들면 음성신호 S(n), 에너지R(o), 거리값 d(n), 거리일차미분값 d(n), 전이구간펄스 P(n)은 제5도(a-e)에 도시한 바와 같다.

이상에서 상세히 설명한 바와 같이 본 발명은 단독음 음성인식 시스템에서 그 성능에 큰 영향을 끼치는 끝점 검출 및 전이구간 검출기의 소음이 존재시 기존의 에너지와 영교차율등의 정보를 이용한 경우 그 성능이 크게 떨어지거나 상대거리 정보를 이용함으로써 끝점 뿐만아니라 전이구간도 정확하게 검출할수 있는 것이다.

Claims

A/D변환기(3)의 음성신호에 윈도우 사이즈(N) 및 쉬프트 양(M)을 부가하는 해밍윈도우부(8)와, 이해밍윈도우부(8)의 음선신호에서 자기 상관계수 및 선형 예측 계수를 구하는 자기상관 분석기(9)와, 이 자기 상관분석기(9)의 자기상관 계수에서 영차자기 상관계수가 최대인 프레임을 찾는 피크 에너지 프레임 검출기(10)와, 이 피크 에너지 프레임 검출기(10)의 최대 프레임에서 양쪽 시간축의 상대 거리를 측정하는 거리측정기(11)와 , 이 거리 측정기(11)의 거리값에서 피크성분을 제거하여 최종 거리값을 출력하는 스무딩/미분기(12)와, 이 스무딩/미분기(12)의 최종 거리값에서 음성의 전이구간 및 끝점을 검출하는 디시젼 로직(13)으로 구성한 것을 특징으로 하는 음성전이구간 검출기.