KR20010091093A

KR20010091093A - 음성 인식 및 끝점 검출방법

Info

Publication number: KR20010091093A
Application number: KR1020000012444A
Authority: KR
Inventors: 신원호
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 2000-03-13
Filing date: 2000-03-13
Publication date: 2001-10-23

Abstract

본 발명은 음성 인식 및 끝점 검출방법에 관한 것으로, 종래 음성 검출시 에너지 파라메터를 이용하는 경우, 그 파라메터들이 사용되는 환경에 따라 성능차를 보이기 때문에 여러가지 파라메터 중 어떤 것을 선택하여 사용해야 할지 결정하기 어려운 문제점이 있다. 따라서 본 발명은 음성 입력시 각 음성에 윈도우를 취하여 프레임별로 음성 인식 및 끝점 검출에 필요한 특징 벡터를 추출하는 제1단계와, 상기에서 추출한 특징벡터와 묵음구간으로 구한 파라메터의 드레쉬홀드값을 비교하여 음성 및 비음성 구간을 판별하는 제2단계와, 상기에서 음성으로 판별시 음성의 지속시간을 이용하여 음성 인식 및 끝점을 검출하는 제3단계와, 상기에서 끝점 검출시 상기 제1단계에서 추출한 특징 벡터를 이용하여 끝점 검출 결과를 출력하는 제4단계와, 상기 제2단계에서 비음성으로 판별시 카트 결정 트리를 이용하여 상기 제2단계의 드레쉬홀드값을 갱신하여 음성 및 비음성 분류시 이용하도록 하는 제5단계로 동작하여, 잡음이 존재하는 환경하에서도 정확한 음성 구간을 찾고, 끝점을 검출하여 인식 및 검출 성능을 향상시키도록 한 것이다.

Description

음성 인식 및 끝점 검출방법{VOICE RECOGNITION AND END POINT DETECTION METHOD}

본 발명은 음성 인식에 관한 것으로, 특히 잡음에 존재하는 주변 잡음 환경하에서 정확한 음성구간을 찾기 위한 음성 인식 및 끝점 검출방법에 관한 것이다.

음성 검출의 기술의 음성 인식의 끝점 검출 용도와 음성 부호화기에서 가변 전송률의 개념에서 이용되고 있다.

이들은 용도는 기본적으로 다르나 공통적으로 음성/비음성의 식별방법을 필요로 한다. 음성 인식에서는 정확한 음성 구간을 검출하여 인식에 이용하기 위하여 사용되어지고 있으며, 음성 부호화기에서는 음성 구간과 비음성 구간에 대하여 전송률을 달리하기 위해 이를 이용하고 있다.

그리고, 에너지를 이용한 끝점 검출 알고리즘의 경우 비교적 간단하면서도 음성 구간을 잘 찾아주므로 음성 인식등에 널리 이용되고 있으며, 이러한 에너지 파라메터 이외에 영교차율이 무성음 부분을 잘 검출하기 위해 사용되고 있다.

그러나 상기에서 에너지 파라메터를 이용하는 경우 잡음이 존재하는 환경에서는 주변 잡음의 영향에 의하여 성능이 많이 저하되며, 정확한 음성구간을 찾기에 불가능한 문제점이 있다.

따라서 이러한 문제점을 보완하기 위하여 다른 파라메터들로 대체하여(예를들면 잡음이 적게 존재하는 주파수 대역의 에너지) 사용되거나 에너지 파라메터와 스무딩되어 사용되어 왔다.

그러나, 상기에서와 같은 종래기술에 있어서, 여러가지 특징 벡터들은 사용되는 환경에 따라 성능차를 보인다. 즉 어떤 파라메터는 어떤 환경에서는 좋은 성능을 나타내나 다른 환경에서는 그렇지 못하며, 또 다른 파라메터는 반대의 특성을 나타내기도 한다. 따라서 주변 환경의 배경 잡음이 고정되어 있지 않은 경우 끝점 검출에 사용할 수 있는 여러가지 파라메터 중 어떤 것을 선택하여야 할지 쉽게 결정하기 어려운 문제점이 있다.

따라서 상기에서와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 잡음 환경에서 끝점 검출의 성능을 개선하고, 아울러 인식 성능을 향상시키도록 한 음성 인식 및 끝점 검출방법을 제공함에 있다.

본 발명의 다른 목적은 음성 검출에 사용되는 다양한 파라메터의 장점을 살릴 수 있도록 한 음성 인식 및 끝점 검출방법을 제공함에 있다.

본 발명의 또 다른 목적은 결정 트리의 분석 결과를 통해 음성 검출에 적합한 파라메터를 설정하도록 한 음성 인식 및 끝점 검출방법을 제공함에 있다.

도 1은 본 발명의 음성 인식 및 끝점 검출방법에 대한 동작 흐름도.

도 2는 도 1에서, 음성/비음성 판단시 필요한 드레쉬홀드값을 갱신하기 위한 CART 결정트리에 대한 상태 천이도.

상기 목적을 달성하기 위한 본 발명은 음성 입력시 각 음성에 윈도우를 취하여 프레임별로 음성 인식 및 끝점 검출에 필요한 특징 벡터를 추출하는 제1단계와, 상기에서 추출한 특징벡터와 묵음구간으로 구한 파라메터의 드레쉬홀드값을 비교하여 음성 및 비음성 구간을 판별하는 제2단계와, 상기에서 음성으로 판별시 음성의 지속시간을 이용하여 음성 인식 및 끝점을 검출하는 제3단계와, 상기에서 끝점 검출시 상기 제1단계에서 추출한 특징 벡터를 이용하여 끝점 검출 결과를 출력하는 제4단계와, 상기 제2단계에서 비음성으로 판별시 카트 결정 트리를 이용하여 상기 제2단계의 드레쉬홀드값을 갱신하여 음성 및 비음성 분류시 이용하도록 하는 제5단계로 이루어진 것을 특징으로 한다.

이하, 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다.

도 1은 본 발명 음성 인식 및 끝점 검출방법에 대한 동작 흐름도로서, 이에 도시한 바와 같이, 음성 입력시 각 음성에 윈도우를 취하여 프레임별로 음성 인식 및 끝점 검출에 필요한 특징 벡터를 추출하는 제1단계와, 상기에서 추출한 특징벡터와 묵음구간으로 구한 파라메터의 드레쉬홀드값을 비교하여 음성 및 비음성 구간을 판별하는 제2단계와, 상기에서 음성으로 판별시 음성의 지속시간을 이용하여 음성 인식 및 끝점을 검출하는 제3단계와, 상기에서 끝점 검출시 상기 제1단계에서 추출한 특징 벡터를 이용하여 끝점 검출 결과를 출력하는 제4단계와, 상기 제2단계에서 비음성으로 판별시 카트 결정 트리를 이용하여 상기 제2단계의 드레쉬홀드값을 갱신하여 음성 및 비음성 분류시 이용하도록 하는 제5단계로 이루어진다.

이와같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.

먼저 음성이 입력되면, 각 음성에 윈도우를 취하여 음성을 프레임별로 나누고, 각각의 프레임별로 음성인식 및 끝점 검출에 필요한 특징 벡터(에너지 파라메터)를 추출한다.(S101)

이후에, 묵음 구간으로 부터 구한 파라미터의 드레쉬홀드(threshold)값을 상기에서 추출한 특징 벡터(에너지 파라메터)와 비교한여 음성 및 비음성을 식별한다.

즉, 추출한 특징 벡터가 드레쉬홀드값 보다 작으면 비음성으로 식별하고, 특징벡터가 드레쉬홀드값 보다 크면 음성으로 식별한다.(S102)

상기에서 음성 또는 비음성으로 식별하고, 이 식별에 따른 음성 출력값 또는 비음성 출력값을 카트 결정 트리로 출력한다. 여기서 음성 및 비음성 출력값은 특징 벡터에 따라 미리 주어지는 값들이다.

상기에서 음성으로 식별되는 경우, 카트 결정 트리를 이용하지 않고, 아울러 드레쉬홀드값을 갱신하지 않고 끝점 검출 알고리즘으로 전달된다.

그러면 상기 끝점 검출 알고리즘은 음성의 지속시간으로 음성으로 간주하거나 끝점인지를 검출한다.

즉, 입력되는 음성의 프레임이 5~10 프레임이 연속중이면 이는 음성으로 간주하고 계속해서 끝점 검출을 시도하고, 입력되는 음성의 프레임이 없으면 끝점으로 검출한다.

이렇게하여 끝점을 검출하면, 이의 결과를 인식기로 넘겨준다.

그러면 상기 인식기에서는 처음에 입력 음성으로 부터 추출한 특징 벡터들을 이용하여 인식 결과를 출력하여 주게 된다.

그리고, 음성/비음성 식별시 비음성으로 판단한 경우, 비음성 출력값을 현재 프레임과 함께 다시 갱신하여 주는 과정을 거친다.

즉, 비음성 출력값을 카트 결정 트리가 받아, 도 2에서와 같이, 연속적인 값을 갖는 데이터에 대하여 값의 크고 작음에 따라 드레쉬홀드값을 분류한다. 이때 상기 카트 결정 트리에서 분류되는 값은 0~1사이의 값이 된다.

이렇게 분류된 값은 드레쉬홀드값이 된다. 결과적으로 드레쉬홀드값이 갱신되어 음성/비음성 판단 구간으로 전달된다.

그러면 음성/비음성 판단 구간에서 갱신된 드레쉬홀드값과 입력되는 에너지 파라미터를 비교하여 입력되는 신호가 음성인지 비음성인지를 판단하게 된다.

결국, 음성 인식시 잡음이 존재하는 환경에 적용하더라도, 카트 결정 트리에서 학습 결과를 이용하여 적합한 파라메터를 선정하고, 이 선정된 파라메터를 이용하여 음성을 인식함으로써, 인식 성능을 향상시킨다.

본 발명은 현재 프레임의 특징 벡터를 이용하여 음성을 인식하고, 끝점을 검출하였는데, 이 이외에 전후 프레임의 값을 이용하면 동적인 시간정보를 이용할 수 있고 보다 안정된 결과를 얻을 수 있으므로 결정 트리의 출력 결정을 2프레임 정도 지연하여 전후 5프레임의 정보를 이용할 수도 있다.

이상에서 상세히 설명한 바와 같이 본 발명은 카트 결정 트리에서 학습 결과를 이용하여 다양한 파라메터 중 입력되는 음성에 적합한 파라메터를 선정하고, 이를 이용하여 음성 인식 및 끝점 검출을 행함으로써, 잡음이 존재하는 환경하에서도 정확한 음성 구간을 찾고, 끝점을 검출하여 인식 및 검출 성능을 향상시키도록 한 효과가 있다.

Claims

입력되는 음성에 대해 프레임별로 음성 인식 및 끝점 검출에 필요한 특징 벡터를 추출하는 제1단계와, 상기에서 추출한 특징벡터와 묵음구간으로 구한 파라메터의 드레쉬홀드값을 비교하여 음성 및 비음성으로 분류하는 제2단계와, 상기에서 음성으로 분류시 음성의 지속시간을 이용하여 음성 인식 및 끝점을 검출하는 제3단계와, 상기에서 끝점 검출시 상기 제1단계에서 추출한 특징 벡터를 이용하여 끝점 검출 결과를 출력하는 제4단계와, 상기 제2단계에서 비음성으로 분류시 카트 결정 트리를 이용하여 상기 제2단계의 드레쉬홀드값을 갱신하여 음성 및 비음성 분류시 이용하도록 하는 제5단계로 이루어진 것을 특징으로 하는 음성 인식 및 끝점 검출방법.
제1항에 있어서, 카트 결정 트리에 의해 갱신되는 드레쉬홀드값은 0~1 사이의 값으로 갱신되도록 한 것을 특징으로 하는 음성 인식 및 끝점 검출방법.