KR20080052304A

KR20080052304A - 응답 문장 생성 장치 및 방법

Info

Publication number: KR20080052304A
Application number: KR1020070088817A
Authority: KR
Inventors: 박경현; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2006-12-06
Filing date: 2007-09-03
Publication date: 2008-06-11

Abstract

본 발명은 음성 대화 인터페이스에 관한 것으로, 특히 사용자와의 대화를 자연스럽게 하는 응답 문장을 생성하기 위한 장치 및 방법을 제공하는 데 있다.

이를 위하여 본 발명에 따른 응답 문장 생성 방법은, (a) 음성 입력된 질의를 음성 인식하는 단계; (b) 상기 음성 인식된 질의에 상응하는 정보의 필드 값을 추출하는 단계; (c) 사용자와 시스템 간의 이전 대화 내용에 기반하여 상기 추출된 필드 값 중 응답할 필드 값을 결정하는 단계; 및 (d) 상기 결정된 필드 값을 기반으로 응답 문장을 생성하는 단계를 포함한다.

그럼으로써, 본 발명은 사용자와 시스템 간의 보다 자연스러운 대화를 제공할 수 있는 이점이 있다.

음성 인식, 응답 문장, 문장 생성

Description

응답 문장 생성 장치 및 방법{THE METHOD AND APPARATUS FOR MAKING AN ANSWER}

본 발명은 음성 대화 인터페이스에 관한 것으로, 특히 사용자 질의에 대하여 응답 문장을 생성하는 장치 및 방법에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-01, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].

도 1은 종래 음성 인터페이스 시스템의 블록 구성도이다. 도 1을 참조하면, 음성 인식 모듈(100)은 음성 입력된 질의를 음성 인식한 후, 상기 음성 인식 결과를 대화 모델 모듈(110)로 출력한다. 대화 모델 모듈(110)은 정보 데이터 베이스(111)를 참조하여 상기 음성 인식된 질의에 상응하여 출력할 정보를 검색한 후, 이를 문장 생성 모듈(120)로 출력한다. 문장 생성 모듈(120)은 템플릿(Template) 데이터 베이스(121)를 참조하여 응답 문장 생성에 필요한 템플릿을 선택하고, 상기 선택된 템플릿과 상기 출력할 정보를 결합하여 응답 문장을 생성하게 된다.

위와 같은 종래의 음성 인터페이스 시스템은 자연스러운 문장을 생성하여 정보를 제공하기보다는 사용자가 원하는 정보만을 간략히 출력하는 데 초점을 두고 있다. 따라서, 사용자와 시스템 간의 대화에 있어서, 사용자의 질의에 대하여 응답하는 문장이 부자연스럽게 구성된다거나, 불필요한 정보가 반복하여 발성됨으로써 어색한 대화가 이루어지는 불편함이 있다.

따라서, 위와 같은 문제점을 해결하여, 사용자가 원하는 정보를 보다 자연스러운 문장 형식으로 사용자에게 제공하는 방법이 필요하다.

따라서, 본 발명의 목적은, 사용자로부터 입력된 질의에 대하여 자연스러운 대화가 이루어질 수 있는 응답 문장을 생성하기 위한 장치 및 방법을 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 사용자와 시스템 간의 이전 대화 내용을 참조하여, 불필요한 내용을 반복하여 응답하지 않도록 하기 위한 장치 및 방법을 제공하는 데 있다.

또한, 이를 위하여 본 발명에 따른 응답 문장 생성 장치는, 입력된 음성을 음성 인식하는 음성 인식부; 사용자와 시스템 간에 이루어진 이전 대화 내용을 저장하는 대화 이력 관리부; 상기 음성 인식부에서 인식된 질의에 상응하는 정보의 필드 값을 추출한 후, 상기 대화 이력 관리부에 저장된 사용자와 시스템 간의 이전 대화 내용에 기반하여 상기 추출된 필드 값 중 응답할 필드 값을 결정하는 응답 내 용 결정부; 및 상기 결정된 필드 값을 기반으로 응답 문장을 생성하는 응답 문장 생성부를 포함한다.

상술한 바와 같이 본 발명은, 사용자와 시스템 간의 대화 이력을 참조하여 응답할 문장을 생성함으로써 불필요한 내용을 반복하여 응답하지 않을 수 있도록 하는 이점이 있다. 또한, 본 발명은 음성 인식된 질의의 패턴에 기반하여 응답 문장을 생성함으로써 보다 자연스러운 대화를 할 수 있게끔 하는 이점이 있다.

도 2는 본 발명의 일실시 예에 따른 응답 문장 생성 장치의 블록 구성도이다. 이하, 도 2를 참조하여 본 발명이 적용되는 응답 문장 생성 장치의 구성 및 동작에 대하여 상세히 설명한다.

본 발명의 일실시 예에 따른 응답 문장 생성 장치는 음성 인식부(200), 응답 내용 결정부(210), 대화 이력 관리부(211), 정보 데이터 베이스(212), 응답 문장 생성부(220) 및 템플릿 데이터 베이스(221)를 포함한다.

음성 인식부(200)는 사용자로부터 입력된 질의를 음성 인식한 후, 음성 인식된 결과를 응답 내용 결정부(210)로 출력한다. 이 때, 음성을 인식하는 방법은 종래의 다양한 음성 인식 알고리즘을 이용할 수 있다.

응답 내용 결정부(210)는 음성 인식부(200)에서 인식된 사용자의 질의에 대 한 대화 영역을 결정한다. 예를 들어, 음성 인식된 질의가 '오늘 오후에 드라마 뭐해'인 경우에, 응답 내용 결정부(210)는 다양한 대화 영역 중 'TV_guide'를 상기 음성 인식된 질의에 대한 대화 영역으로 결정한다. <표 1>은 본 발명의 일실시 예에 따른 대화 영역 'TV_guide'에 대한 프레임 구조를 보여준다.

Domain	Frame	Slot	Description
TV_guide	program	program	프로그램 명
		code	프로그램 코드
		sub_title	소제목 명
		date	날짜
		day	요일
		start_time	시작 시간
		end_time	끝나는 시간
		duration	길이
		genre	장르
		channel	채널명
		channel_num	채널 번호
		actor	배우
		staff	제작자
		btype	생방송/재방송/스테레오/5.1채널

여기서, 대화 영역을 결정하는 방법은 확률 통계를 이용할 수 있다. 즉, 각 영역별로 대용량의 예제 시나리오를 모아 이를 훈련하여 모델을 생성한 후, 이를 사용하여 그 문장의 영역을 파악할 수 있다. 이러한 확률 통계 방법은 보편적인 방법으로 음성 인식 등과 같은 다양한 응용 분야에 적용되며, 하기에서 설명하는 화행 추출 및 응답 문장의 패턴 결정에도 사용된다.

또한, 응답 내용 결정부(210)는 대화 영역을 결정한 후, 음성 인식된 질의에 대하여 사용자 화행을 추출한다. 예를 들어, 음성 인식된 질의가 '오늘 오후에 드라마 뭐해'인 경우에, 응답 내용 결정부(210)는 상기 질의를 분석하여 사용자 화행 'Search_program'을 추출한다.

또한, 응답 내용 결정부(210)는 상기 추출된 사용자 화행에 기반하여 시스템 화행을 추출한다. 예를 들어, 응답 내용 결정부(210)는 'Search_program'이라는 사용자 화행에 대하여 시스템에서 응답할 화행이 있으면 'Say_program'을, 시스템에서 응답할 화행이 없으면 'Say_empty'를 추출한다.

또한, 응답 내용 결정부(210)는 음성 인식된 사용자의 질의를 분석한 후, 정보 데이터 베이스(212)를 참조하여 음성 인식된 질의에 상응하는 필드 값을 추출한다.

<표 2>는 음성 인식된 질의'오늘 오후에 드라마 뭐해'에 대하여 추출된 필드 값'program(프로그램 명), start_time(시작 시간), end_time(끝나는 시간), channel(채널 명), channel_num(채널 번호)'을 보여준 예이다.

program
start_time
end_time
channel
channel_num

또한, 응답 내용 결정부(210)는 대화 이력 관리부(211)를 참조하여 <표 2>와 같이 추출된 필드 값 중 음성 인식된 질의에 대하여 응답할 필드 값을 결정한다. <표 2>와 같이, 음성 인식된 사용자의 질의'오늘 오후에 드라마 뭐해'에 상응하는 필드 값으로 'program', 'start_time', 'end_time', 'channel' 및 'channel_num'이 추출된 경우, 대화 이력 관리부(211)에 사용자의 이전 질의에 대하여 응답한 필드 값으로 'end_time' 및 'channel_num'이 저장되어 있다면, 이전 질의에 대하여 응답한 필드 값'end_time', 'channel_num'을 제외하고 현재 응답할 필드 값을 결정하게 된다. <표 3>은 위와 같은 예에서 현재 응답할 필드 값이 결정된 예를 보여주는 것으로, 'v'표시가 된 필드 값이 현재 응답할 필드 값으로 결정된 것이다.

program	V
start_time	V
end_time
channel	V
channel_num

<표 3>과 같이 응답할 필드 값이 결정된 경우, 이후, 응답 문장 생성 단계에서 "현재 방송 중인 프로그램은 <channel> 에서 <start_time> 부터 방송하는 <program> 입니다"라는 형식의 응답 문장을 생성할 수 있다.

상기 예와 같은 응답 문장을 생성한 후, 만약 '지금 하고 있는 드라마가 뭐야'라는 질의가 인식된 경우, 응답 내용 결정부(210)는 드라마의 시작 시간'<start_time>' 및 종료 시간'<end_time>'에 대하여는 다시 응답하지 않을 것을 결정할 수 있다. 이는 대화 이력 관리부(211)를 참조하여 이루어지는데, 사용자의 이전 질의에 대하여 시스템에서 드라마의 시작 시간'<start_time>' 및 종료 시간'<end_time>'에 대한 응답을 한 경우, 똑같은 내용의 응답을 반복하지 않게 하여 대화를 좀 더 원활히 하기 위함이다. <표 4>는 '오늘 오후에 드라마 뭐해?'라는 사용자의 질의에 대한 응답 후, '지금 하고 있는 드라마가 뭐야?'라는 사용자의 질의가 있는 경우, 드라마의 시작 시간'<start_time>' 및 종료 시간'<end_time>'에 대하여는 응답하지 않고, 프로그램 제목'<program>'만을 응답할 필드 값으로 결정한 예를 보여준다.

program	V
start_time
end_time
channel
channel_num

<표 4>와 같이 응답할 필드 값이 결정된 경우, 이후 응답 문장 생성 단계에서 "현재 방송 중인 프로그램은 <program> 입니다"라는 형식의 응답 문장을 생성할 수 있다.

한편, 대화 이력 관리부(211)는 응답 내용 결정부(210)에서 사용자의 질의에 대하여 응답하기로 결정한 필드 값을 저장한다. 이후, 상기 저장된 필드 값을 참고로 하여, 응답 내용 결정부(210)에서는 사용자의 이전 질의에 대하여 응답한 필드 값에 대하여는 다시 응답하지 않도록 선택할 수 있게 된다.

응답 문장 생성부(220)는 음성 인식부(200)에서 음성 인식된 질의의 패턴에 기반하여 응답 문장의 패턴을 결정한다. 예를 들어, 음성 인식된 질의 '오늘 오후에 드라마 뭐해'에 대하여, 시스템은 다양한 패턴의 응답 문장을 생성할 수 있다. <표 5>는 템플릿 데이터 베이스(221)에 저장된 문장 패턴에 관한 템플릿을 보여주는 예이다. 음성 인식된 질의에 대하여 동일한 내용을 응답하더라도, 질의의 타입에 따라 그 응답 문장으로 선택되는 템플릿을 달리함으로써, 대화를 보다 자연스럽게 할 수 있다. 바람직하게는, 응답 내용 결정부(210)에서 추출된 시스템 화행 및 응답 내용 결정부(210)에서 응답할 것으로 결정된 필드 값을 기반으로 응답 문장의 패턴을 결정한다. 응답 문장의 형식 결정에 있어서는 상기에서 설명한 확률 통계 방법을 이용할 수 있다.

<start_time> 에 <program> 을 방송합니다.

<start_time> 에 방송하는 <program> 이 있습니다.

<start_time> 에 하는 방송은 <program> 입니다.

또한, 응답 문장 생성부(220)는 응답 내용 결정부(210)에서 응답할 것을 결정한 필드 값과 응답 문장 생성부(220)에서 결정된 응답 문장의 패턴에 따라 응답 문장을 생성한다.

도 3은 본 발명의 일실시 예에 따른 응답 문장 생성 과정을 보여주는 흐름도이다. 이하, 도 3을 참조하여 본 발명의 일실시 예에 따른 응답 문장 생성 과정에 대하여 상세히 설명한다.

단계(300)에서 질의가 음성 입력되면, 단계(310)에서 음성 인식부(200)는 입력된 질의를 음성 인식한 후, 음성 인식된 결과를 응답 내용 결정부(210)로 출력한다. 이 때, 음성을 인식하는 방법은 종래의 다양한 음성 인식 알고리즘을 이용할 수 있다.

단계(320)에서 응답 내용 결정부(210)는 음성 인식된 질의를 분석하고, 정보 데이터 베이스(212)를 참조하여, 응답 문장 생성에 필요한 필드 값들을 추출한 후, 단계(330)로 진행한다.

단계(330)에서 응답 내용 결정부(210)는 음성 인식된 질의에 대한 대화 영역을 결정한 후, 단계(340)로 진행한다. 단계(340)에서 응답 내용 결정부(210)는 상기 결정된 대화 영역 내에서 음성 인식된 질의에 대한 사용자 화행을 추출한 후, 단계(350)로 진행한다. 단계(350)에서 응답 내용 결정부(210)는 상기 추출된 사용자 화행을 기반으로 시스템 화행을 추출한 후, 단계(360)로 진행한다.

단계(360)에서 응답 내용 결정부(210)는 단계(320)에서 추출된 필드 값 중 음성 인식된 사용자의 질의에 대하여 응답할 필드 값을 대화 이력 관리부(211)를 참조하여 결정한다. 즉, 상기 단계(320)에서 추출된 필드 값 중에서 대화 이력 관리부(211)에 사용자의 이전 질의에 대하여 응답한 것으로 저장된 필드 값을 제외하고 현재 응답할 필드 값을 결정할 수 있다.

단계(370)에서 응답 문장 생성부(220)는 음성 인식된 질의의 패턴을 분석한 후, 단계(380)로 진행한다. 음성 인식된 질의의 패턴에 맞는 응답 문장의 패턴 선택은 상기에서 설명한 바와 같이, 확률 통계 방법을 이용할 수 있다. 즉, 대량의 예제 시나리오를 모아 이를 훈련하여 모델을 생성하고, 상기 생성된 모델을 사용하여 문장의 패턴을 파악할 수 있다.

단계(380)에서 응답 문장 생성부(220)는 상기 분석된 음성 인식된 질의의 패턴에 맞는 응답 문장의 패턴을 결정한다. 이 때, 상기 분석된 음성 인식된 질의의 패턴에 맞는 응답 문장의 패턴은 템플릿 데이터 베이스(221)에 미리 저장되어 있는 하나 이상의 문장 패턴 중에서 어느 하나의 것을 선택할 수 있다.

단계(390)에서 응답 문장 생성부(220)는 상기 결정된 응답 문장의 패턴과 단계(360)에서 응답할 것으로 결정된 필드 값을 결합하여 응답 문장을 생성한다.

단계(380)의 응답 문장의 패턴 결정 과정을 도 4를 참조하여 설명한다. 도 4는 본 발명의 일실시 예에 따라 사용자의 질의에 대한 응답 문장의 패턴 결정 과정을 설명하기 위한 예시도이다.

먼저 응답 내용 결정부(210)는 음성 인식된 질의(410)를 분석하고, 정보 데이터 베이스(212)를 참조하여 음성 인식된 질의(410)에 상응하는 필드 값(420)을 추출한다.

응답 내용 결정부(210)는 상기 추출된 필드 값(420) 중 음성 인식된 질의에 대하여 응답할 내용을 대화 이력 관리부(211)를 참조하여 결정한다. 도 4의 예에서는, 사용자의 이전 질의에 대하여 프로그램의 끝나는 시간'end_time' 및 채널번호'channel_num'가 응답한 것으로 대화 이력 관리부(211)에 저장된 경우, 이를 제외하고 현재 응답할 필드를 결정한 것(430)을 보여준다.

한편, 응답 내용 결정부(210)는 음성 인식된 질의(410)에 대한 대화 영역을 추출하고, 상기 추출된 대화 영역 내에서 사용자 화행을 추출한 후, 상기 추출된 사용자 화행을 기반으로 시스템 화행을 추출한다. 응답 문장 생성부(220)는 상기 추출된 시스템 화행 및 상기 추출된 필드 값(420)을 기반으로 현재 응답할 문장의 패턴을 결정할 수 있다. 예를 들어, 음성 인식된 질의 '이거 무슨 프로그램이야'(410a)에 대하여 응답 내용 결정부(210)는 대화 영역'TV_guide'을 추출하고, 상기 추출된 대화 영역'TV_guide' 내에서 사용자 화행'search_program'을 추출하고, 상기 추출된 사용자 화행'TV_guide'를 기반으로 시스템 화행'say_program'을 추출한다. 응답 내용 생성부(22는 상기 추출된 시스템 화행'say_program'과 상기 추출된 필드 값(420)에 따라 템플릿 데이터 베이스(221)를 참조하여 응답 문장의 템플릿을 결정하게 된다. 도 4는 음성 인식된 질의 '이거 무슨 프로그램이야'(410a)에 대하여 결정되는 응답 문장의 템플릿으로 '<channel>에서 <start_time>에 방송하는 프로그램은 <program>입니다'가 결정된 것을 보여준다. 이와 같이 결정된 템플릿에 상기 추출된 필드 값(420)을 결합하면 'OCN에서 오후 8시에 방송하는 프로그램은 CSI:마이애미 시즌3입니다"(440a)와 같은 응답 문장이 생성된다.

같은 방법으로, 사용자의 질의 "데이빗 카루소가 나오는 프로그램이 뭐가 있지"(410b)에 대하여는 "OCN에서 오후 8시에 방송하는 CSI:마이애미 시즌 3이 있습니다"(440b)로, "이거 끝나고 뭐하지"(410c)에 대하여는 "OCN에서 오후 8시에 CSI:마이애미 시즌 3을 방송합니다"(440c)로 각각 다른 응답 문장이 생성될 수 있다. 이처럼, 사용자의 질의의 타입에 따라 응답 문장을 다르게 선택함으로써, 사용자와 시스템 간의 대화를 보다 자연스럽게 할 수 있다.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서, 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.

도 1은 종래 음성 인터페이스 시스템의 블록 구성도,

도 2는 본 발명의 일실시 예에 따른 응답 문장 생성 장치의 블록 구성도,

도 3은 본 발명의 일실시 예에 따른 응답 문장 생성 과정을 보여주는 흐름도,

도 4는 본 발명의 일실시 예에 따라 사용자의 질의에 대한 응답 문장의 패턴 결정 과정을 설명하기 위한 예시도.

Claims

(a) 음성 입력된 질의를 음성 인식하는 단계;

(b) 상기 음성 인식된 질의에 상응하는 정보의 필드 값을 추출하는 단계;

(c) 사용자와 시스템 간의 이전 대화 내용에 기반하여 상기 추출된 필드 값 중 응답할 필드 값을 결정하는 단계; 및

(d) 상기 결정된 필드 값을 기반으로 응답 문장을 생성하는 단계

를 포함하는 응답 문장 생성 방법.
제 1항에 있어서, 상기 (c) 단계는,

사용자의 이전 질의에 대하여 응답한 필드 값을 제외하고 현재 응답할 필드 값을 결정하는 단계

를 포함하는 응답 문장 생성 방법.
제 1항에 있어서, 상기 (d) 단계는,

상기 음성 인식된 질의의 패턴에 따라 응답 문장의 패턴을 결정하는 단계

를 포함하는 응답 문장 생성 방법.
제 3항에 있어서, 상기 (d) 단계는,

미리 정해진 하나 이상의 문장 형식에 대한 템플릿 중 어느 하나의 템플릿을 선택함으로써 응답 문장의 패턴을 결정하는 단계

를 포함하는 응답 문장 생성 방법.
제 3항 또는 제 4항에 있어서,

상기 음성 인식된 질의에 상응하는 대화 영역을 결정하고, 상기 결정된 대화 영역 내에서 사용자 화행을 추출한 후, 상기 추출된 사용자 화행을 기반으로 시스템 화행을 추출하여, 상기 추출된 시스템 화행을 기반으로 응답 문장의 패턴을 결정하는 단계

를 더 포함하는 응답 문장 생성 방법.
입력된 음성을 음성 인식하는 음성 인식부;

사용자와 시스템 간에 이루어진 이전 대화 내용을 저장하는 대화 이력 관리부;

상기 음성 인식부에서 인식된 질의에 상응하는 정보의 필드 값을 추출한 후, 상기 대화 이력 관리부에 저장된 사용자와 시스템 간의 이전 대화 내용에 기반하여 상기 추출된 필드 값 중 응답할 필드 값을 결정하는 응답 내용 결정부; 및

상기 결정된 필드 값을 기반으로 응답 문장을 생성하는 응답 문장 생성부

를 포함하는 응답 문장 생성 장치.
제 6항에 있어서, 상기 응답 내용 결정부는,

사용자의 이전 질의에 대하여 응답한 필드 값을 제외하고 현재 응답할 필드 값을 결정하는

응답 문장 생성 장치.
제 6항에 있어서, 상기 응답 문장 생성부는,

상기 음성 인식된 질의의 패턴에 따라 응답 문장의 패턴을 결정하는

응답 문장 생성 장치.
제 8항에 있어서, 상기 응답 문장 생성부는,

미리 정해진 하나 이상의 문장 형식에 대한 템플릿 중 어느 하나의 템플릿을 선택함으로써 응답 문장의 패턴을 결정하는

응답 문장 생성 장치.
제 8항 또는 제 9항에 있어서,

상기 응답 내용 결정부는, 상기 음성 인식된 질의에 상응하는 대화 영역을 결정하고, 상기 결정된 대화 영역 내에서 사용자 화행을 추출한 후, 상기 추출된 사용자 화행을 기반으로 시스템 화행을 추출하고,

상기 응답 문장 생성부는, 상기 응답 내용 결정부에서 추출된 시스템 화행을 기반으로 응답 문장의 패턴을 결정하는

응답 문장 생성 장치.