KR20050049207A

KR20050049207A - 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법

Info

Publication number: KR20050049207A
Application number: KR1020030083115A
Authority: KR
Inventors: 이성주
Original assignee: 한국전자통신연구원
Priority date: 2003-11-21
Filing date: 2003-11-21
Publication date: 2005-05-25

Abstract

본 발명은 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법에 관한 것으로, 상기 대화형 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴(dialogue turn)검출부의 상호작용을 통하여 대화체 연속 음성인식 시스템의 끝점 검출성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화하는 것이다.

이에 따라, 본 발명의 대화형 연속 음성인식 시스템은 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부와, 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부와, 상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부와, 상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부 및 상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성된다.

Description

대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법{Dialogue-type Continuous Speech Recognition System and Using It Endpoint Detection Method of Speech}

본 발명은 대화형 사용자 인터페이스 시스템을 위한 대화형 연속 음성인식 시스템 및 이를 이용한 연속음성의 끝점 검출방법에 관한 것으로, 더욱 상세하게는 대화체 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴(dialogue turn)검출부의 상호작용을 통하여 대화체 연속 음성인식 시스템의 끝점 검출성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화한다.

음성의 끝점 검출부는 주로 음성인식 시스템의 전처리부로 이용되는데, 입력신호를 음성과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막고 음성인식 시스템의 인식성능에 많은 영향을 미친다.

일반적으로 고립단어 인식시스템에서는 사용자가 발성한 하나의 단어만을 인식대상으로 하는데 반하여, 대화체 연속 음성인식 시스템은 사용자가 발성한 대화체 연속음성을 인식대상으로 한다.

사용자가 발성한 음성이 대화체 문장일 경우, 음성데이터로부터 상기 문장이 어느 부분에서 끝이 났는지를 판단하는 것은 고립단어 인식시스템의 판단과 양상이 다르게 나타난다.

따라서, 기존의 고립단어 인식시스템에서 사용되는 음성의 끝점 검출방법을 대화체 음성인식 시스템에 적용할 경우 대화체 음성의 끝점을 정확히 검출하지 못하는 문제가 발생한다.

이러한, 문제의 주요원인은 대화체 음성의 경우, 대화체 문장사이의 음성의 포즈(pause)구간이 불규칙적으로 발생하고, 이러한 음성의 포즈구간이 고립단어의 경우에 비하여 상대적으로 길게 발생하기 때문이다.

즉, 사용자 본인이 하고자 하는 말을 상대적으로 긴 포즈구간이 없이 모두 발성한 경우를 제외하고는 대화체 음성시스템이 사용자의 발성 일부분을 인식하여 전체적인 대화형 시스템의 동작흐름에 악영향을 미치게 된다.

이 때문에, 긴 포즈구간을 감당하기 위한 음성의 끝점 검출부의 hangover time을 늘릴 경우에는 전체적인 지연시간이 늘어나게 되고, 동시에 전체 대화형 사용자 인터페이스 시스템의 응답시간이 지연되는 문제점이 있다.

따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 대화형 사용자 인터페이스 시스템을 위한 대화형 연속 음성인식 시스템에서 끝점 검출부, 후처리부, 대화 턴 검출부의 상호작용을 통하여 입력된 음성신호의 끝점검출 성능을 높임으로써 상기 연속 음성인식 시스템의 응답 지연시간을 최적화하고자 하는 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법을 제공함에 있다.

상기와 같은 본 발명의 목적을 달성하기 위한 대화형 연속 음성인식 시스템은, 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부와, 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부와, 상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부와, 상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부 및 상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성된다.

상기와 같은 본 발명의 목적을 달성하기 위한 대화형 연속 음성인식 시스템을 이용한 음성끝점 검출방법은, 끝점 검출모듈 활성 플래그가 온(FLAG ON)되어 입력음성 신호를 버퍼링하고, 상기 버퍼링된 입력신호로부터 일정구간 간격으로 프레이밍 하는 단계와, 상기 프레이밍한 입력신호로부터 음성의 시작점을 검출하는 단계와, 상기 음성의 시작점 검출 후, 연속되는 프레임 입력신호로부터 음성의 끝점을 검출하는 단계 및 상기 음성의 끝점 검출 후, 대화 턴이 검출될 때까지 상기 끝점 검출모듈을 초기화하여 상기 시작점과 끝점을 검출하는 동작을 반복적으로 수행하는 단계로 이루어진다.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명에 따른 대화형 연속 음성인식 시스템의 구성도이다.

도 1에 도시된 바와 같이 대화형 연속 음성인식 시스템은 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부(10), 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부(20), 상기 특징벡터 추출부(20)에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부(30), 상기 음성 인식부(30)의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부(40), 상기 후처리부(40)를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부(50)를 더 포함하여 구성되며, 상기 음성인식 결과 검증이란, 음성 인식부(30)의 출력정보를 기반으로 인식된 문장의 전체 또는 일부분이 신뢰성 있는 결과인가를 검증하는 것으로 상기 음성인식 시스템의 신뢰도와 밀접한 관계가 있다.

또한, 상기 음성 인식부는 발음사전, 음향모델, 탐색모듈, 언어모델로 구성된다.

도 2는 본 발명에 따른 대화형 연속 음성인식 시스템의 음성끝점 검출방법의 흐름도로써, 사용자의 음성이 대화형 사용자 인터페이스 시스템 통해 입력되면 끝점 검출모듈 활성 플래그(FLAG)가 온(ON)되어(S100) 입력음성 신호를 버퍼링하고(S102), 상기 버퍼링된 입력신호로부터 일정구간 간격으로 프레이밍을 한다(S103).

상기 프레이밍(Framing)한 입력신호로부터 먼저, 음성의 시작점을 검출하고(S104), 상기 음성의 시작점이 검출된 다음 연속되는 프레임 입력신호부터 음성의 끝점을 검출하게 된다(S105).

상기 음성의 끝점이 검출된 다음에는 끝점 검출모듈을 초기화하고(S106), 상기 음성의 시작점과 끝점을 검출하는 동작을 반복적으로 수행하게 되는데, 이때 대화체 연속 음성인식 시스템의 후처리부(40) 또는 대화 턴(dialogue turn)검출부(50)에서 끝점 검출모듈 활성 플레그 오프 신호를 발생시키면, 상기 음성의 끝점 검출모듈을 비활성화 하게 된다.

상기 끝점 검출모듈 활성화 플레그 오프 신호는 인식된 음성의 신뢰도가 임계값 이상으로 대화 턴이 검출되는 경우와, 상기 음성의 신뢰도가 임계값 이상이 아닌 경우를 발생하게 된다.

도 3은 본 발명에 따른 대화형 연속 음성인식 시스템의 후처리부와 대화 턴 검출부의 음성끝점 검출방법의 상세 흐름도로써, 상기 끝점 검출모듈 활성화 플레그 오프 신호에 따른 후처리부(40)와 대화 턴 검출부(50)의 끝점 검출부(10) 제어를 상세히 설명한다.

상기 후처리부(40)에 의해 추출된 음성인식 결과의 신뢰도가 측정 임계값 이상인가를 상기 후처리부(40)에서 판단한다(S200).

상기 신뢰도가 측정 임계값 이상일 경우에는, 상기 대화 턴 검출부(50)에서 사용자가 대화 턴을 바꿀 수 있을 정도로 충분히 발성을 하였는지를 확인하여 대화 턴을 검출한다(S201).

상기 대화 턴이 검출되었을 경우, 음성의 끝점 검출모듈 비활성화 플레그를 끝점 검출부(10)로 보내 상기 끝점 검출부(10)를 같은 방법으로 비활성화 시킨다(S202).

이때, 대화 턴은 대화형 인터페이스 시스템으로 넘어가게 되고 시스템이 응답 합성결과를 플레이한 후, 사용자의 음성입력을 받아들이기 위한 끝점 검출부(10)가 다시 활성화된다.

반면, 상기 신뢰도가 측정 임계값 이하인 경우, 상기 후처리부(40)에서 끝점 검출모듈을 비활성화 하여 상기 음성인식 시스템의 부하를 줄이면 대화를 이어나가게 하기 위한 멘트를 상기 대화형 인터페이스 시스템이 플레이한다.

그런 다음, 상기 사용자의 음성입력을 받아들이기 위한 끝점 검출부(10)가 다시 활성화되어 음성의 시작점과 끝점을 검출한다.

또한, 상기 인식된 음성의 신뢰도가 측정 임계값 이상인 경우 상기 대화 턴 검출부(50)에 의해 대화 턴을 검출하게 되는데, 상기 대화 턴 검출을 위해 사용형태소 분석, 구문 분석, 대화 분석 등의 대화 지식을 통하여 대화 턴을 검출하는 지식기반 방법과, 서비스 시나리오를 기반으로 구축된 대화 코퍼스의 통계적 처리를 통해 대화 턴을 검출하는 통계기반 방법 및 상기 지식기반 방법과 통계기반 방법의 대화 턴 검출 방법을 혼용한 하이브리드 방법을 통하여 대화 턴을 검출하게 된다.

상기 본 발명에 따른 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법은 컴퓨터 프로그램으로 제작되어서 하드디스크, 플로피디스크, 광자기디스크, 시디 롬, 롬, 램 등의 기록매체에 저장될 수 있다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 또한 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것을 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다.

이상에 설명한 바와 같이 본 발명에 의하면, 대화체 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴 검출부의 상호작용을 통하여 상기 대화체 음성인식 시스템의 끝점검출 성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화하는 효과가 있다.

도 1은 본 발명에 따른 대화형 연속 음성인식 시스템의 구성도,

도 2는 본 발명에 따른 대화형 연속 음성인식 시스템의 음성끝점 검출방법의 흐름도,

도 3은 본 발명에 따른 대화형 연속 음성인식 시스템의 후처리부와 대화 턴 검출부의 음성끝점 검출방법의 상세 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

10 : 끝점 검출부 20 : 특징벡터 추출부

30 : 음성 인식부 40 : 후처리부

50 : 대화 턴 검출부

Claims

음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부;

상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부;

상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부;

상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부; 및

상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성되는 것을 특징으로 하는 대화형 연속 음성인식 시스템.
제 1항에 있어서, 상기 음성 인식부는

발음사전, 음향모델, 탐색모듈, 언어모델로 구성되는 것을 특징으로 하는 대화형 연속 음성인식 시스템.
(a)끝점 검출모듈 활성 플래그가 온(ON)되어 입력음성 신호를 버퍼링하고, 상기 버퍼링된 입력신호로부터 일정구간 간격으로 프레이밍 하는 단계;

(b)상기 프레이밍한 입력신호로부터 음성의 시작점을 검출하는 단계;

(c)상기 음성의 시작점 검출 후, 연속되는 프레임 입력신호로부터 음성의 끝점을 검출하는 단계; 및

(d)상기 음성의 끝점 검출 후, 대화 턴이 검출될 때까지 상기 끝점 검출모듈을 초기화하여 상기 시작점과 끝점을 검출하는 동작을 반복적으로 수행하는 단계로 이루어지는 것을 특징으로 하는 대화형 연속 음성인식 시스템의 음성끝점 검출방법.
제 3항에 있어서, 상기 (c)단계는

(e)상기 후처리부에서 음성인식 결과의 신뢰도가 측정 임계값 이상인가를 판단하는 단계;

(f)상기 신뢰도가 측정 임계값 이상일 경우, 상기 대화 턴 검출부에서 대화 턴을 검출하는 단계;

(g)상기 대화 턴이 검출되었을 경우, 음성의 끝점 검출모듈 비활성화 플레그를 끝점 검출부로 보내는 단계; 및

(h)상기 신뢰도가 측정 임계값 이하인 경우, 상기 후처리부에서 끝점 검출모듈을 비활성화하여 상기 음성인식 시스템의 부하를 줄이고 사용자의 음성입력을 받아들이기 위한 끝점 검출부가 다시 활성화되는 단계로 이루어지는 것을 특징으로 하는 대화형 연속 음성인식 시스템을 이용한 음성끝점 검출방법.
제 4항에 있어서, 상기 (f)단계는

형태소 분석, 구문 분석, 대화 분석 등의 대화 지식을 통하여 대화 턴을 검출하는 지식기반 방법과, 서비스 시나리오를 기반으로 구축된 대화 코퍼스의 통계적 처리를 통해 대화 턴을 검출하는 통계기반 방법 및 상기 지식기반 방법과 통계기반 방법의 대화 턴 검출 방법을 혼용한 하이브리드 방법에 의해 검출되는 것을 특징으로 하는 대화형 연속 음성인식 시스템을 이용한 음성끝점 검출방법.