KR102621954B1

KR102621954B1 - 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템

Info

Publication number: KR102621954B1
Application number: KR1020220147350A
Authority: KR
Inventors: 정민영; 신사임; 장진예; 김산
Original assignee: 한국전자기술연구원
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2024-01-09

Abstract

관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 대화 방법은, 사용자 발화를 입력 받고, 입력되는 사용자 발화 내용을 기반으로 대화모델을 결정하며, 결정된 대화모델을 이용하여 대화내용을 생성하고, 생성된 대화내용을 음성으로 변환하여 출력한다. 이에 의해, 관련 지식 유무에 따라 각기 다른 대화모델을 운용함으로써, 지식 기반 대화에서 적절하지 않은 대답을 생성하는 대신 공감대화를 생성할 수 있어, 대화에 대한 사용자의 만족도를 높일 수 있게 된다.

Description

관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템{Conversation method and system for operating conversation models according to the presence or absence of related knowledge}

본 발명은 인공지능 기술에 관한 것으로, 더욱 상세하게는 대화모델을 이용하여 사용자와 대화를 수행하는 인공지능 기반 대화 방법 및 시스템에 관한 것이다.

본 성과물은 1. 한국전자기술연구원의 기본연구사업의 미래전략기술개발사업 중, '멀티모달 상호작용 및 지식기반 토론이 가능한 인공지능 복합대화 시스템 기술 연구 과제(과제번호: 401C2906, 기여율: 1/2)', 및 2. 과학기술정보통신부의 사람중심인공지능핵심원천기술개발사업 중, 상황인지 및 사용자 이해를 통한 인공지능 기반 1:1 복합대화 기술 개발 과제(과제고유번호: 1711160479, 기여율: 1/2)' 의 지원을 받아 수행된 결과이다.

기존 인공지능 기반 대화 시스템은 주로 하나의 대화모델을 활용하거나, 풍부하고 정확한 대화를 위해 지식 별로 도메인을 분류하고 각 도메인 별로 대화모델들을 운용하고 있다.

하지만 지식 별로 도메인을 분류한다 할지라도 사용자의 모든 질의에 대해 완전하게 적절히 대답을 하는 것은 불가능하다. 뿐만 아니라, 경우에 따라서는 지식 기반 대화가 적절하지 않은 상황, 이를 테면 감정 수용 기반의 대화가 적절한 상황이 있을 수도 있는데 이를 위한 대응이 미흡하다.

한편 지식 도메인 별로 대화모델을 운용한다는 것은, 대화모델 개발, 학습 및 업데이트 등의 측면에서 많은 비용과 시간을 요한다는 문제도 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 지식 기반 대화에서 적절하지 않은 대답이 생성되는 경우를 줄이기 위한 방안으로, 관련 지식 유무에 따라 각기 다른 종류의 대화모델을 운용하는 대화 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 대화 방법은, 사용자 발화를 입력 받는 단계; 입력되는 사용자 발화 내용을 기반으로 대화모델을 결정하는 단계; 결정된 대화모델을 이용하여 대화내용을 생성하는 단계; 및 생성된 대화내용을 음성으로 변환하여 출력하는 단계;를 포함한다.

결정 단계는, 사용자 발화 단위로 수행될 수 있다. 결정 단계는, 사용자 발화 내용 및 발화 내용과 관련한 지식을 활용하여 대답을 생성하도록 학습된 인공지능 모델인 제1 대화모델 및 사용자 발화 내용만을 활용하여 대답을 생성하도록 학습된 인공지능 모델인 제2 대화모델 중 하나를 결정할 수 있다.

제2 대화모델은, 사용자 발화에 공감하기 위한 대답을 생성하는 대화모델일 수 있다.

본 발명의 실시예에 따른 대화 방법은, 입력되는 사용자 발화 내용을 기초로 관련 지식들을 추출하는 단계;를 더 포함하고, 결정 단계는, 추출된 관련 지식들 중 관련도가 가장 높은 하나를 선정하는 단계; 및 선정된 관련 지식의 관련도를 기초로 대화모델을 선택하는 단계;를 포함할 수 있다.

선택 단계는, 선정된 관련 지식의 관련도가 기준값 이상이면, 제1 대화모델을 선택할 수 있다. 선택 단계는, 선정된 관련 지식의 관련도가 기준값 미만이면, 제2 대화모델을 선택할 수 있다. 기준값은, 이전 대화모델 선택 결과를 기초로 가변될 수 있다.

제1 대화모델과 제2 대화모델은, 대화 도메인 별로 세부 구분되어 있지 않을 수 있다.

본 발명의 다른 실시예에 따른 대화 시스템은, 사용자 발화를 입력 받는 입력부; 입력되는 사용자 발화 내용을 기반으로 대화모델을 결정하고, 결정된 대화모델을 이용하여 대화내용을 생성하는 대화 모듈; 및 생성된 대화내용을 음성으로 변환하여 출력하는 출력부;를 포함한다.

본 발명의 또 다른 실시예에 따른 대화 방법은, 사용자 발화 내용을 기반으로 대화모델을 결정하는 단계; 및 결정된 대화모델을 이용하여 대화내용을 생성하는 단계;를 포함한다.

본 발명의 또 다른 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체에는, 사용자 발화 내용을 기반으로 대화모델을 결정하는 단계; 및 결정된 대화모델을 이용하여 대화내용을 생성하는 단계;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 관련 지식 유무에 따라 각기 다른 대화모델을 운용함으로써, 지식 기반 대화에서 적절하지 않은 대답을 생성하는 대신 공감대화를 생성할 수 있어, 대화에 대한 사용자의 만족도를 높일 수 있게 된다.

또한 본 발명의 실시예들에 따르면, 각 도메인 별로 굳이 지식 대화모델을 생성/운용하지 않아도 되므로, 대화모델 개발, 학습, 업데이트에 소요되는 비용, 시간 및 노력을 줄일 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 인공지능 기반 대화 방법의 설명에 제공되는 흐름도,
도 2는 도 1의 S140단계의 상세 흐름도, 그리고,
도 3은 본 발명의 다른 실시예에 따른 인공지능 기반 대화 시스템의 구성을 도시한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는 관련 지식 유무에 따라 각기 다른 종류의 대화모델을 운용하는 대화 방법/시스템을 제시한다. 사용자 발화 기반 관련 지식을 활용해서 대답하는 경우와 지식을 활용하지 않고 상대방의 발화에 적절히 공감해주는 대답이 가능한 방법/시스템이다.

지식 도메인을 분류해서 세부 대화모델을 결정하는 기존 방식과 달리, 본 발명의 실시예에서는 관련 지식 추출 결과를 기반으로 지식 기반 대화를 생성할지 지식없이 공감대화를 생성할지 결정한다.

도 1은 본 발명의 일 실시예에 따른 인공지능 기반 대화 방법의 설명에 제공되는 흐름도이다. 본 발명의 실시예에 따른 대화 방법에서는 관련 지식 유무를 기준으로 각기 다른 대화모델을 운용한다.

이를 위해 먼저 사용자의 발화를 입력 받고(S110), 입력 받은 사용자 발화 음성을 인식하여 텍스트로 변환 한다(S120).

다음 S110단계와 S120단계를 통해 획득한 사용자 발화 내용을 기초로, 관련 지식들을 추출한다(S130). S130단계에서의 지식 추출은 기보유하고 있는 지식 DB, 웹 상에 구축된 지식 DB 등을 이용하여 수행될 수 있다.

그리고 S130단계에서의 추출 결과를 기반으로, 사용자와 대화를 이어갈 대화모델을 결정한다(S140). S140단계에서 결정할 수 있는 대화모델은 2가지로 분류되며 다음과 같다.

하나는 'S110단계과 S120단계를 통해 획득한 사용자 발화 내용'과 'S130단계를 통해 획득한 발화 내용과 관련한 지식'을 활용하여, 대답을 생성하도록 학습된 인공지능 모델로, 이하에서 지식 대화모델로 표기한다.

다른 하나는 'S130단계를 통해 획득한 발화 내용 관련 지식'은 활용하지 않고, 'S110단계과 S120단계를 통해 획득한 사용자 발화 내용'만을 활용하여 대답을 생성하도록 학습된 인공지능 모델이다. 이 대화모델은 사용자 발화에 공감하기 위한 대답을 생성하는 대화모델로, 이하에서 공감 대화모델로 표기한다.

공감 대화모델은 이를 테면 사용자의 발화에 짧고 빠르게 반응하는 대답인 맞장구를 생성할 수 있다. 맞장구는 'continual', 'understanding', 'agreement', 'emotional response', 'empathic response' 등을 표현하여 주는 대답이다.

공감 대화모델은 대화 도메인에 따라 세부적으로 구분되어 있지 않다. 지식 대화모델도 마찬가지로 대화 도메인에 따라 세부적으로 구분하지 않고 하나로 구현된다.

한편 S130단계에서의 대화모델 결정은 사용자 발화 단위로 수행된다. 이는 사용자 발화시 마다 대화모델이 달라질 수 있음을 의미한다. 이를 테면 대화가 이어지는 중에 지식 대화모델이 활용되다가 어느 순간부터는 공감 대화모델이 활용될 수 있는 것이다. 대화모델의 변경은 S130단계에서 추출되는 관련 지식에 의존하며, 이에 대해서는 도 2를 참조하여 상세히 후술한다.

이후 S140단계에서 결정된 대화모델을 이용하여 대화내용을 생성하고(S150), 생성된 대화내용을 음성으로 변환하여 출력한다(S160).

이하에서 대화모델을 결정하는 S140단계에 대해, 이하에서 도 2를 참조하여 상세히 설명한다. 도 2는 도 1의 S140단계의 상세 흐름도이다.

도시된 바와 같이, 대화모델 결정을 위해 먼저 도 1의 S130단계에서 추출된 관련 지식들 중 관련도가 가장 높은 하나를 선정한다(S141).

도 1의 S130단계에서 사용자 발화 내용을 기초로 관련 지식들을 추출함에 있어서는, 지식들과 발화 내용 간의 관련도가 확률값으로 제시된다. 확률값이 클수록 사용자 발화 내용과 지식의 관련도가 높고, 반대로 확률값이 낮을수록 사용자 발화 내용과 지식의 관련도가 낮음을 의미한다.

다음 S141단계에서 선정된 지식의 관련도와 기준값을 비교한다(S142). 비교 결과 관련도가 기준값 이상이면(S142-Y), 지식 대화모델을 선택한다(S143). 사용자 발화와 관련도가 높은 지식이 있기 때문에, 지식을 기반으로 사용자가 원하는 적절한 대답을 생성할 수 있기 때문이다.

반면 비교 결과 관련도가 기준값 미만이면(S142-N), 공감 대화모델을 선택한다(S144). 사용자 발화와 관련도가 높은 지식이 없기 때문에, 지식을 기반으로 대답을 생성하는 경우 다소 엉뚱한 대답을 생성할 수 있기 때문이다.

지금까지 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다

도 1의 S130단계에서의 지식 추출시에는 사용자의 최종 발화 내용 외에 이전 발화 내용들까지 포함한 대화 히스토리를 참조할 수 있으며, 이 경우 보다 관련도가 높은 관련 지식들을 추출할 수 있을 수 있다.

이는 S150단계에서의 대화내용을 생성하는 경우에도 그대로 적용될 수 있다. 즉 사용자의 최종 발화 내용은 물론 이전 대화 히스토리까지 대화 모델에 입력하여, 다음 대화내용을 생성하는 것이 가능하다.

한편 대화모델 결정을 위해 S142단계에서 지식의 관련도와 비교 대상이 되는 기준값은 이전 대화모델 선택 결과를 기초로 가변되도록 구현할 수 있다. 이를 테면 이전 대화에서 지식 대화모델이 선택된 경우에는 기준값을 조금 낮추어 지식 대화 가능성이 높아지도록 하고, 반대로 이전 대화에서 공감 대화모델이 선택된 경우에는 기준값을 조금 높여 공감 대화 가능성이 높아지도록 하는 것이다.

통상적으로 사람의 대화 내용은 갑작스럽게 바뀌지 않는 경향을 보인다. 즉 지식대화를 시작하면 한동안 지식대화가 유지되며, 공감대화로 바뀌었으면 공감대화가 한동안 이어지는 경향이 있으므로, 이를 반영한 것이다.

도 3은 본 발명의 다른 실시예에 따른 인공지능 기반 대화 시스템의 구성을 도시한 도면이다. 본 발명의 실시예에 따른 대화 시스템은 도시된 바와 같이, 음성 입력부(210), 음성 인식부(220), 대화 모듈(230), 음성 생성부(240) 및 음성 출력부(250)를 포함하여 구성된다.

음성 입력부(210)는 사용자의 발화 음성을 입력 받는 마이크이고, 음성 인식부(220)는 음성 입력부(210)를 통해 입력된 발화 음성을 인식하여 텍스트로 변환하는 STT(Speech-To-Text) 변환 모듈이다.

대화 모듈(230)은 음성 인식부(220)에서 출력되는 사용자 발화 내용을 기초로 관련 지식들을 추출하고, 추출 결과를 바탕으로 사용자와 대화를 이어갈 대화모델을 결정하며, 결정한 대화모델을 이용하여 대화내용을 생성한다. 대화모델을 결정하는 구체적인 방법은 도 2에 제시되어 있다.

음성 생성부(240)는 대화 모듈(230)에서 출력되는 대화내용을 음성 신호로 변환한다. 음성 출력부(250)는 음성 생성부(240)에서 생성되는 음성 신호를 출력하는 스피커이다.

지금까지 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법에 대해 바람직한 실시예들을 들어 상세히 설명하였다

본 발명의 실시예들에서는 지식 기반 대화에서 적절하지 않은 대답이 생성되는 경우를 줄이고, 모든 대화 목적에 적합한 대화모델의 구축 및 운용이 어려움에 착안하여 대화 종류에 따라 대화모델을 분리하되 지식 대화모델에 대해서는 도메인 별로 세부 분류하지 않았다.

본 발명의 실시예들에서 제시한 바와 같이, 지식 기반 대화에서 적절하지 않은 대답을 생성하는 대신 공감대화를 생성하게 되면 사용자의 만족도가 높아지게 될 것이고, 대화 종류에 따라 구분된 대화모델을 활용하여 학습시간 및 성능 면에서 각 모델의 업데이트가 용이하게 될 것이다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

210 : 음성 입력부
220 : 음성 인식부
230 : 대화 모듈
240 : 음성 생성부
250 : 음성 출력부

Claims

사용자 발화를 입력 받는 단계;
입력되는 사용자 발화 내용을 기초로 관련 지식들을 추출하는 단계;
추출된 관련 지식들 중 사용자 발화 내용과의 관련도가 가장 높은 하나를 선정하는 단계;
선정된 관련 지식의 사용자 발화 내용과의 관련도를 기초로, '사용자 발화 내용 및 발화 내용과 관련한 지식을 활용하여 대화내용을 생성하도록 학습된 인공지능 모델인 제1 대화모델' 및 '사용자 발화 내용만을 활용하여 대답을 생성하도록 학습된 인공지능 모델인 제2 대화모델' 중 하나를 선택하는 단계;
선택된 대화모델을 이용하여 대화내용을 생성하는 단계;
생성된 대화내용을 음성으로 변환하여 출력하는 단계;를 포함하는 것을 특징으로 하는 대화 방법.
청구항 1에 있어서,
선정 단계 및 선택 단계는,
사용자 발화 단위로 수행되는 것을 특징으로 하는 대화 방법.
삭제
청구항 1에 있어서,
제2 대화모델은,
사용자 발화에 공감하기 위한 대답을 생성하는 대화모델인 것을 특징으로 하는 대화 방법.
삭제
청구항 1에 있어서,
선택 단계는,
선정된 관련 지식의 사용자 발화 내용과의 관련도가 기준 확률값 이상이면, 제1 대화모델을 선택하는 것을 특징으로 하는 대화 방법.
청구항 6에 있어서,
선택 단계는,
선정된 관련 지식의 사용자 발화 내용과의 관련도가 기준 확률값 미만이면, 제2 대화모델을 선택하는 것을 특징으로 하는 대화 방법.
청구항 1에 있어서,
기준 확률값은,
이전의 대화내용 생성을 위한 대화모델 선택 결과를 기초로 가변되는 것을 특징으로 하는 대화 방법.
청구항 1에 있어서,
제1 대화모델과 제2 대화모델은,
대화 도메인 별로 세부 구분되어 있지 않은 것을 특징으로 하는 대화 방법.
사용자 발화를 입력 받는 입력부;
입력되는 사용자 발화 내용을 기초로 관련 지식들을 추출하고, 추출된 관련 지식들 중 사용자 발화 내용과의 관련도가 가장 높은 하나를 선정하며, 선정된 관련 지식의 사용자 발화 내용과의 관련도를 기초로 '사용자 발화 내용 및 발화 내용과 관련한 지식을 활용하여 대화내용을 생성하도록 학습된 인공지능 모델인 제1 대화모델' 및 '사용자 발화 내용만을 활용하여 대답을 생성하도록 학습된 인공지능 모델인 제2 대화모델' 중 하나를 선택하고, 선택된 대화모델을 이용하여 대화내용을 생성하는 대화 모듈; 및
생성된 대화내용을 음성으로 변환하여 출력하는 출력부;를 포함하는 것을 특징으로 하는 대화 시스템.
사용자 발화 내용을 기초로 관련 지식들을 추출하는 단계;
추출된 관련 지식들 중 사용자 발화 내용과의 관련도가 가장 높은 하나를 선정하는 단계;
선정된 관련 지식의 사용자 발화 내용과의 관련도를 기초로, '사용자 발화 내용 및 발화 내용과 관련한 지식을 활용하여 대화내용을 생성하도록 학습된 인공지능 모델인 제1 대화모델' 및 '사용자 발화 내용만을 활용하여 대답을 생성하도록 학습된 인공지능 모델인 제2 대화모델' 중 하나를 선택하는 단계; 및
선택된 대화모델을 이용하여 대화내용을 생성하는 단계;를 포함하는 것을 특징으로 하는 대화 방법.
사용자 발화 내용을 기초로 관련 지식들을 추출하는 단계;
추출된 관련 지식들 중 사용자 발화 내용과의 관련도가 가장 높은 하나를 선정하는 단계;
선정된 관련 지식의 사용자 발화 내용과의 관련도를 기초로, '사용자 발화 내용 및 발화 내용과 관련한 지식을 활용하여 대화내용을 생성하도록 학습된 인공지능 모델인 제1 대화모델' 및 '사용자 발화 내용만을 활용하여 대답을 생성하도록 학습된 인공지능 모델인 제2 대화모델' 중 하나를 선택하는 단계; 및
선택된 대화모델을 이용하여 대화내용을 생성하는 단계;를 포함하는 것을 특징으로 하는 대화 방법을 수행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.