KR100349342B1

KR100349342B1 - 음성 인식/합성을 이용한 대화형 자연어 인식 교정 시스템및 방법

Info

Publication number: KR100349342B1
Application number: KR1020000078245A
Authority: KR
Inventors: 서원균; 윤현주; 김병호
Original assignee: 주식회사 삼보정보통신; 주식회사 케이티; 정보통신연구진흥원
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2002-08-21
Also published as: KR20020049149A

Abstract

본 발명은 사용자가 전화상으로 명령한 단어 및 문장 형태의 음성을 인식기가 인식한 대로 음성합성기를 통하여 사용자에게 들려줌으로써 사용자가 스스로 인식이 용이한 형태로 다시 명령하도록 한 대화형 자연어 인식 교정 시스템 및 방법에 관한 것이다.

본 발명은 전화 사용자(1)의 전화망과 음성 포탈 시스템이 속한 IP 망 사이의 신호를 전환하는 PSTN/IP 네트워크 인터페이스(2), 화자독립 전화음성을 인식하는 음성 인식기(3), 인식된 음성 명령 처리 및 인지되지 않은 음성명령 텍스트를 음성합성기를 통해 사용자에게 응답하는 VXML인터프리터를 가진 VXML기반 음성 포탈 시스템(4), 상기 VXML 인터프리터에서 전달된 텍스트를 음성 합성하여 PSTN/IP네트워크 인터페이스로 보내는 음성 합성기(5)로 이루어져 사용자가 인식기의 인식 가능한 단어 및 문장 집합에 대한 사전 인지없이 반복적인 대화를 통하여 인식시스템에 적합한 단어 및 문장 형태의 음성 명령을 할 수 있도록 한 것이다.

Description

음성 인식/합성을 이용한 대화형 자연어 인식 교정 시스템 및 방법{Interactive natural language recognition and adaptation using speech recognition and speech sysnthesis}

본 발명은 사용자가 전화상으로 명령한 단어 및 문장 형태의 음성을 인식기가 인식한 대로 음성합성기를 통하여 사용자에게 들려줌으로써 사용자가 스스로 인식이 용이한 형태로 다시 명령하도록 한 것으로, 특히 사용자가 인식기의 인식 가능한 단어 및 문장 집합에 대한 사전 인지없이 반복적인 대화를 통하여 인식시스템에 적합한 단어 및 문장 형태의 음성 명령을 할 수 있도록 한 음성 인식/합성을 이용한 대화형 자연어 인식 교정 시스템에 관한 것이다.

최근 인터넷 사용자의 급증과 아울러 IP망을 기본으로 하는 전화에 대한 신기술의 발전이 거듭되고 있다.

이에 전화에 대한 부가 서비스가 다양화되고, 고객에 대한 양질의 서비스를 공급하기에 급급한 일반 기업들이 속출되고 있는 실정이다.

자동 응답 서비스(ARS) 또는 콜센터 서비스 사례가 그 예가 되며, 시스템의 운용에 따른 시나리오 및 프로그래밍 기법의 다양성은 또 다른 문제점으로 대두되고 있다.

음성 인식을 기본으로 하는 음성 웹 서비스 시스템, 음성 명령을 통한 사용자의 명령을 시스템에 인식시키는 시스템 등 애플리케이션 방법들이 속출하고 있으며, 이러한 방법들에 있어서 그 정확도나 신뢰성 보장은 또 다른 문제로 인식되고 있다.

이러한 음성 포탈 및 음성 웹 브라우저 서비스의 기반이 되는 기술들에 있어 1999년 ATT, Motorola, Lucent 및 IBM 4개 사가 중심이 되어 전화와 웹을 접목하는 차세대 웹 기술의 표준으로 정의된 VXML 기술을 개발하였고, VXML 문서는 HTML 문서와 같은 유사한 형태로 XML의 일종이며, 대화형으로 웹 서비스가 가능하도록하는 구성 요소들이 정의되어 있다.

기존의 시각적 웹 브라우저의 개념을 타파하고, 음성 서비스와 함께 양방향 작업 수행 환경, 실시간 음성통신 등의 기술들이 접목되어 국내외 여러 음성 포탈 사이트가 증가되고 있다

본 발명은 이와 같은 점에 부응하여 제안한 것으로, 본 발명의 목적은, 음성인식/합성을 이용한 음성 포탈 기술, VXML 기반의 음성 포탈 기술, 화자독립 전화음성을 통한 음성 명령 인식 기술을 제공하여 인지되지 않은 음성인식 명령을 음성 합성하여 사용자에게 응답하고, 재귀적 구조를 갖는 음성인식 교정 시스템 기술을 제공하며, 음성 정보의 데이터베이스화를 이룰 수 있는 음성 인식/합성을 이용한 대화형 자연어 인식 교정 시스템을 제공하는데 있다.

도 1은 본 발명의 자연어 인식 교정 시스템의 블록도

도 2는 본 발명의 VXML서버의 구성을 나타낸 블록도

도 3은 본 발명의 VXML실행 모델의 블록도

도 4는 본 발명에 따른 인터프리터 수행과정을 나타낸 동작 흐름도

〈도면의 주요부분에 대한 부호의 설명〉

1:전화 사용자 2:PSTN/IP 네트워크 인터페이스

3:음성 인식기 4:VXML 기반 음성 포탈 시스템

5:음성 합성기 10:임프리멘테이션 플렛폼

20:VXML인터프리터 30:도큐멘트 서버

40:웹서버

이와 같은 목적을 달성하기 위한 본 발명은, VXML 서버 기술, 음성 인식 모듈, VXML 파서와 FIA(Form Interpretation Algorithm)의 두 부분으로 구성된 인터프리터 기술, 자동 음성 파형을 생성하는 음성 합성 모듈, 외부 인터페이스를 통한 각 프로세서 연동 시스템(PSTN/IP network 인터페이스) 등을 포함하여 구성함을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 상세히 설명하면 다음과 같다.

도 1은 본 발명에 따른 자연어 인식 교정 시스템을 나타낸 것으로, 전화 사용자(1)의 전화망과 음성 포탈 시스템이 속한 IP 망 사이의 신호를 전환하는 PSTN/IP 네트워크 인터페이스(2)와, 화자독립 전화음성을 인식하는 음성 인식기(3)와, 인식된 음성 명령 처리 및 인지되지 않은 음성명령 텍스트를 음성합성기를 통해 사용자에게 응답하는 VXML인터프리터를 가진 VXML기반 음성 포탈 시스템(4)과, 상기 VXML 인터프리터에서 전달된 텍스트를 음성 합성하여 PSTN/IP네트워크 인터페이스로 보내는 음성 합성기(5)로 구성된 것이다.

도 2는 본 발명의 VXML서버의 구성을 나타낸 것으로, VoIP 또는 기존의 전화의 호(call)신호를 처리하며, 사용자 입력과 음성 출력을 처리하는 임프리멘테이션 플렛폼(Implementation Platform)(10)과, 사용자 입력을 감시하는 역할과 세션을 설정하고 유지, 제어하며, 사용자로부터의 호를 검출하여 초기 문서를 수행하고, 환경 설정과 사용자로부터의 브라우징 명령을 처리하는 VXML 인터프리터(Interpreter)(20)와, 인터프리터에 의해 생성된 리퀘스트를 처리하고, 그에 따른 VXML 도큐먼트를 생성하며, CGI에 대응되는 기능 구현하기 위해 DBMS와 FSM(Finite State Machine)을 이용하며, 웹 서버와의 인터페이스도 담당하여 웹 문서에 대한 리퀘스트를 생성하고, 웹 서버로부터 전송 받은 문서를 처리하는 도큐멘트 서버(Document Server)(30)로 구성된다.

도면에서 25는 VXML인터프리터 콘텍트이다.

단, VXML인터프리터(20)는 사용자가 입력한 내용을 리퀘스트(Request) 생성하여 도큐멘트 서버(30)에 전달하며, 이 인터프리터(20)내에 VXML파서(21)가 포함되어 있다.

도 3은 VXML실행 모델을 나타낸 것으로, 임프리멘테이션 플렛폼(10), VXML인터프리터(20)를 갖는 VXML인터프리터 콘텍트(25), 도큐멘트 서버(30)와의 신호 전달 관계를 나타낸 것이다.

이와 같이 구성된 본 발명의 작용을 도 4를 참고로 하여 설명하면 다음과 같다.

먼저, VXML을 이용하여 전화사용자에게 음성 포탈 서비스를 제공하는 시스템에서 사용자의 명령을 받아들이는 방법은 음성인식을 통한 음성명령과 전화의 키패드를 이용하는 방법이 있는데, 키패드를 이용하는 방법은 문자를 입력하는 데 있어 불편하고 입력 시간이 많이 소요되어 사용자에게 편리함을 주지 못하므로 대부분의 음성 포탈 시스템은 음성 명령을 인식하는 방법을 사용한다.

또한, 화자 독립 전화 음성의 인식은 현재 제한된 집합 내에 포함된 단어 인식이 보편화되어 있으며, 사용자가 인식 가능한 단어들에 대하여 사전인지가 없으면 인식 시스템이 기대하지 않는 단어들을 사용자가 사용할 수 있으며 이 경우에는 인식 정도가 낮아지게 된다.

향후 단어 인식이 아닌 문장 인식으로 확대되면 사용자가 사용하는 문장 명령과 인식 시스템의 인식 가능한 문장 형식에 대한 차이가 더욱 커지게 되어 이러한 차이로 인한 인식율 저하는 증가할 것이다.

본 발명에서는 음성의 정확한 전달 즉, 음성 명령인지에 대한 높은 신뢰를 제공한다.

첫째, 사용자의 음성인식 명령을 음성 합성하여 사용자에게 응답하는 기술이다.

화자 독립의 음성 데이터베이스를 구성하여 인식을 하는 경우, 모든 사람의 음성 입력이 모든 분야에 대해서 제대로 인식되는 것은 아직까지 불가능하다.

따라서, 잘못된 음성 혹은 인지되지 않은 음성에 대하여 음성 합성 기술을 이용하여 사용자에게 응답함으로써 확인과 재 음성명령을 할 수 있게 한다.

둘째, 재귀적 구조를 갖는 음성인식 교정 시스템 기술로, 이는 앞서 설명된음성 합성 기술로서 사용자에게 응답하는 과정과 사용자의 재 음성명령의 두 단계 과정을 되풀이함으로써, 사용자가 인식 가능한 음성 발현을 할 수 있도록 실시간으로 교정하는 시스템이다.

보다 빠른 학습을 통하여 인지 가능한 음성명령을 할 수 있게 하는 특징을 갖으며, 사용자의 재 수고를 덜어 주고, 존재하지 않는 항목에 대한 음성 입력을 방지하기 위하여 반복 회수를 제한하는 기법을 구현한다.

셋째, 추후 음성 인식기의 인식 능력을 높일 수 있는 자료로 활용하기 위하여 입력되는 음성 자료를 데이터베이스화하는 기술로, 음성 인식 시스템에서 실시간으로 자료를 활용하여 인식 방법을 교정하도록 음성 인식기를 구성할 수도 있으나, 서버측 부하가 커지고 실시간 서비스가 어려워질 수 있다.

따라서, 별도의 음성 자료 수집 과정이 필요하지 않도록 서비스를 하면서 음성 자료를 추후 활용에 가능한 형태로 데이터베이스화하는 단계가 필요하다.

사용자의 음성명령을 인지하고 응답하며, 재귀적인 구조를 이용한 음성 명령의 교정 시스템은 음성 포탈, 음성 웹 브라우저 및 비시각적 접속 시스템 등에 기본적인 프로세서로서 역할을 담당할 것으로 판단된다.

도 1은 전화사용자(1)가 VXML에 기반한 음성 포탈 시스템(4)에 전화를 걸어 PSTN/IP네트워크 인터페이스(2)를 통해 음성 명령을 하고 그 음성 명령이 음성인식기(3)가 인지할 수 없는 단어 및 문장일 경우 VXML 인터프리터는 음성 인식기(3)가 인식한 텍스트를 음성합성기(5)를 통하여 전화사용자(1)에게 들려주어 사용자는 자신의 음성명령이 음성 인식기(3)에 어떻게 받아들여졌는지를 자체 평가하고 보다 적응되고 교정된 단어 및 문장으로 음성인식기(3)에 다시 명령하게 된다.

이러한 과정은 VXML 인터프리터(20)가 음성인식기(3)를 통해 인식된 음성명령이 의미있는 명령으로 인식될 때까지 재귀적으로 반복되며, 입력되는 음성은 추후 활용을 위해 데이터베이스로 보낸다.

도 2는 웹 서비스를 하기 위하여 서버 시스템을 구현하기 위한 VXML 인터프리터와 외부 인터페이스들이고, 도 3은 VXML의 실행모델이다

실제 VXML을 응용하여 실행하기 위해서는 임프리멘테이션 플렛폼(10), VXML 인터프리터 콘텍트(Interpreter Context)(25), VXML 인터프리터(20), 도큐멘트 서버(Document Server)(30)가 필요하다.

상기 임프리멘테이션 플렛폼(10)은 VoIP 또는 기존의 전화의 호(call) 신호를 처리하여 이벤트를 인터프리터(20)나 VXML 인터프리터 콘텍트(25)에 전달하며, 사용자 입력과 음성 출력을 처리한다.

VXML 인터프리터 콘텍트(25)는 사용자 입력을 감시하는 역할과 세션을 설정하고 유지, 제어하며, 사용자로부터의 호를 검출하여 초기 문서를 수행하고, 환경설정과 사용자로부터의 브라우징 명령을 처리한다.

VXML 인터프리터(Interpreter)(20)는 사용자가 입력한 내용을 리퀘스트(Request) 생성하여 도큐멘트 서버(Document Server)(30)에 전달한다.

먼저, VXML 인터프리터(20)내의 VXML 파서(21)를 이용하여 VXML 태그(Tag)를 각각의 의미에 따라 처리하며, 연속되는 VXML 도큐먼트에 따라 그를 해석하여 처리한다.

즉, 전체 다이얼로그를 제어하여 입출력을 처리하는 임프리멘테이션 플렛폼(10)을 제어한다.

도큐멘트 서버(Document Server)(30)는 VXML 인터프리터(20)에 의해 생성된 리퀘스트를 처리하며, 그에 따른 VXML 도큐멘트를 생성한다.

또한, 도큐멘트 서버(30)는 CGI에 대응되는 기능을 구현하기 위해 DBMS와 FSM(Finite State Machine)을 이용하며, 웹 서버(40)와의 인터페이스도 담당하여 웹 문서에 대한 리퀘스트를 생성하고, 웹 서버(40)로부터 전송 받은 문서를 처리하는데, 이 과정에서 HTML을 VXML로 변환하는 작업을 수행하기도 한다.

도 4는 인터프리터(20)의 수행과정을 나타낸 동작 흐름도로, 최초 임프리멘테이션 플렛폼(10)으로부터 VXML 문서를 처리하라는 이벤트가 전달된다(S1).

따라서, 인터프리터(20)의 VXML 파서(21)가 문서의 구문을 분석하고 오류 여부를 판단한다(S2).

이러한 파싱이 끝나면 FIA가 생성되고 4개의 페이즈(phase)를 거쳐서 문서를 처리하게 된다(S3).

초기 페이즈(Initialization Phase)에서는 각 변수들을 초기화하고 변수들의 참조 테이블을 생성한다(S4).

다음에 셀렉트 페이즈(Select Phase)에서는 가이드(guard)조건을 만족하는 아이템을 선택한다(S5).

그리고 콜렉트 페이즈(Collect Phase)에서는 <prompt> 카운터를 검사하여 원하는 기능을 수행하며 <initial> 엘리멘트를 처리하고, 또한 <block> 엘리멘트를 처리한다(S6).

또한, 프로세스 페이즈(Process Phase)에서는 그전 페이즈(Phase)에서 모은 이벤트나 입력을 처리한다(S7).

그리고 처리할 아이템이 있을 경우 셀렉트 페이즈로 되돌아가서 나머지 과정을 반복한다(S8).

이상에서 설명한 바와 같은 본 발명은 일반 전화망 혹은 IP망에서 제공되는 음성 포탈 서비스에 있어서, 사용자의 불편함을 해소할 수 있으며, 사전 인지없는 음성 시스템에 대화형으로 보다 쉬운 접근이 가능하여 속출하는 음성 포탈 사이트 및 비시각적 접근 시스템의 음성 인식에 문제점을 해결한다고 보면, 시각 장애인을 비롯하여 음성 통신을 요구하는 사용자들의 편의를 제공하고, 그에 따라 음성 인식/합성 기술의 새로운 패러다임으로 간주될 것으로 판단된다.

또한, 활용범위가 넓어지고 있는 음성 포탈 시스템에 있어 사용자의 불편을 최소화하고, 사용자가 해당 음성 포탈 시스템에 대해 인식 가능한 음성 단어 및 문장에 대한 사전 인지없이 대화형으로 음성 포탈 시스템을 활용할 수 있는 효과가 있다.

또한, 본 발명은 화자 종속으로 처리하기에는 대상 화자 규모가 너무 크고, 화자 독립으로 하기에는 임의의 사용자로 인한 인식 기능이 떨어지는 상황에서 점진적으로 인식 능력을 증대시키기 위한 음성 자료를 수집하는 방안으로서의 역할도 큰 효과가 있다.

Claims

전화 사용자의 전화망과 음성 포탈 시스템이 속한 IP 망 사이의 신호를 전환하는 PSTN/IP 네트워크 인터페이스와,

화자독립 전화음성을 인식하는 음성 인식기와,

인식된 음성 명령 처리 및 인지되지 않은 음성명령 텍스트를 음성합성기를 통해 사용자에게 응답하는 VXML인터프리터를 가진 VXML기반 음성 포탈 시스템과, 상기 VXML 인터프리터에서 전달된 텍스트를 음성 합성하여 PSTN/IP네트워크 인터페이스로 보내는 음성 합성기를 포함하여 구성된 것을 특징으로 하는 음성 인식/합성을 이용한 대화형 자연어 인식 교정 시스템.
제 1항에 있어서, 상기 VXML 기반 음성 포탈 시스템이,

VoIP 또는 기존의 전화의 호(call)신호를 처리하며, 사용자 입력과 음성 출력을 처리하는 임프리멘테이션 플렛폼과,

사용자 입력을 감시하는 역할과 세션을 설정하고 유지, 제어하며, 사용자로부터의 호를 검출하여 초기 문서를 수행하고, 환경 설정과 사용자로부터의 브라우징 명령을 처리하는 VXML 인터프리터와,

상기 VXML 인터프리터에 의해 생성된 리퀘스트를 처리하고, 그에 따른 VXML 도큐먼트를 생성하며, CGI에 대응되는 기능 구현하기 위해 DBMS와 FSM을 이용하며, 웹 서버와의 인터페이스도 담당하여 웹 문서에 대한 리퀘스트를 생성하고, 웹 서버로부터 전송 받은 문서를 처리하는 도큐멘트 서버로 된 VXML서버를 포함하여 구성된 것을 특징으로 하는 음성 인식/합성을 이용한 대화형 자연어 인식 교정 시스템.
최초 임프리멘테이션 플렛폼으로부터 VXML 문서를 처리하라는 이벤트가 전달되면, VXML 인터프리터의 VXML 파서가 문서의 구문을 분석하고 오류 여부를 판단하는 제1단계,

파싱이 끝나면 FIA가 생성되고, 초기 페이즈에서 각 변수들을 초기화하고 변수들의 참조 테이블을 생성하는 제2단계,

셀렉트 페이즈에서는 가이드 조건을 만족하는 아이템을 선택하는 제3단계,

콜렉트 페이즈에서 <prompt> 카운터를 검사하여 원하는 기능을 수행하며 <initial> 엘리멘트를 처리하고, 또한 <block> 엘리멘트를 처리하는 제4단계,

프로세스 페이즈(Process Phase)에서 그전 페이즈(Phase)에서 모은 이벤트나 입력을 처리하고, 처리할 아이템이 있을 경우 셀렉트 페이즈로 되돌아가서 나머지 과정을 반복함으로써 인터프리터를 수행하는 제5단계로 이루어진 것을 특징으로 하는 음성 인식/합성을 이용한 대화형 자연어 인식 교정 방법.
제 3항에 있어서, 1회 이상의 음성명령을 하여 음성을 인식하고, 명령 인지 실패시 인식된 음성 텍스트의 음성합성을 하여 사용자에게 응답하며, 교정된 음성 명령의 흐름에 따라 재귀적 음성 인식을 하는 것을 특징으로 하는 음성 인식/합성을 이용한 대화형 자연어 인식 교정 방법.