KR20220067772A

KR20220067772A - 문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법

Info

Publication number: KR20220067772A
Application number: KR1020200154378A
Authority: KR
Inventors: 김종윤; 이주홍
Original assignee: 주식회사 스캐터랩
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2022-05-25
Also published as: KR102448733B1

Abstract

본 발명은 문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법에 관한 것으로, 입력되는 발화 문장과 상기 발화 문장에서부터 이어지는 문맥 문장을 수신하는 수신부, 문맥 전체에 대한 상기 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시키는 학습부 및 상기 문맥 문장에 대해서 상기 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택하는 응답 처리부를 포함한다.

Description

문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법{DIALOG SYSTEM FOR RESPONSE SELECTING CONSIDERING TURN CONFIGURATION IN CONTEXT AND THE METHOD THEREOF}

본 발명은 문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 문맥 전체를 추론하여 질문 문장에 대한 높은 정확도의 적정 응답 문장을 선택하는 기술에 관한 것이다.

최근 들어 네트워크 인프라의 발달과 전자 기기 성능의 향상으로 인하여, 정보 소통 이상의 온라인 서비스가 제공되고 있다.

그 중에서, 사용자 간의 능동적인 소통의 장으로서 채팅 서비스가 제공되고 있으며, 방대한 양의 데이터를 효과적으로 검색할 수 있는 다양한 검색 시스템이 제공되고 있다.

기존의 기능형 AI(Artificial Intelligence) 채팅 서비스의 경우, 사용자가 입력한 텍스트 내용에 대한 지시와 명령을 수행하며, 기존의 ‘심심이’와 같은 관계형 AI(Artificial Intelligence) 채팅 서비스의 경우, 사용자가 입력한 텍스트 내용에 대해 데이터베이스에 기 입력된 내용만을 단순하게 대답하는 형식으로 사용자에게 정보를 전달하는 구조로 서비스 되었다.

이러한 기존 기술은 기 설정된 데이터를 기반으로 채팅 서비스를 제공하는 것이므로, 사용자의 한정된 텍스트에 대해서만 응답하거나, 직전 문장에 대해서만 추론하여 응답을 제공한다는 한계가 존재하였다. 또한, 기존 기술은 문맥을 통한 복잡한 상호작용을 반영하지 못하여 응답 상의 오류가 빈번히 발생한다는 한계가 존재하였다.

한국공개특허 제10-2014-0054494호(2014.05.09. 공개), “대화 서비스 제공 방법 및 장치”

본 발명의 목적은 문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 기반으로 문맥 전체를 추론하여 높은 응답 정확도의 적정 응답을 제공함으로써, 기존 기술에 비해 사용자와 더 넓고 깊은 주제에 대한 대화를 공유하며, 일상적인 대화 또는 공감하는 형식의 대화와 같은 향상된 대화 능력을 제공하고자 한다.

본 발명의 실시예에 따른 문맥 내 턴(turn) 구성을 고려하여 응답을 선택하는 대화 시스템에 있어서, 입력되는 발화 문장과 상기 발화 문장에서부터 이어지는 문맥 문장을 수신하는 수신부, 문맥 전체에 대한 상기 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시키는 학습부 및 상기 문맥 문장에 대해서 상기 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택하는 응답 처리부를 포함한다.

상기 수신부는 사용자에 의해 입력되는 질문 문장인 상기 발화 문장과 상기 발화 문장에 대해 응답 문장 후보군들 중에서 응답으로 출력되는 상기 응답 문장을 포함하는 상기 문맥 문장을 수신할 수 있다. 상기 응답 문장은 상기 응답 처리부에 의해 추정된 응답 정확도에 따라 상기 응답 문장 후보군들 중에서 상기 적정 응답으로 선택된 것일 수 있다.

상기 학습부는 문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 고려하여 상기 응답 선택 모델을 학습시킬 수 있다.

상기 응답 선택 모델은 토큰 임베딩, 턴 임베딩, 위치 임베딩 및 부분 임베딩을 통해 상기 문맥 문장에 대해서만 인코딩하는 상기 문맥 언어 모델 및 상기 응답 문장에 대해서만 인코딩하는 상기 응답 언어 모델을 포함할 수 있다.

상기 응답 선택 모델은 상기 문맥 언어 모델 및 상기 응답 언어 모델을 이용하여 임의의 문맥에 대해서 문맥 문장 뒤의 응답 문장에 높은 점수를 부여하도록 훈련될 수 있다.

상기 턴 임베딩은 질문 문장 및 상기 응답 문장의 각 턴에 대해서 대응되는 임베딩으로 앞 문장부터 시작하여 0, 1, 0, 1을 교차로 부여한 것일 수 있다.

상기 응답 처리부는 문맥과 응답을 각기 다른 상기 문맥 언어 모델 및 상기 응답 언어 모델을 통해 처리하여 출력되는 출력 벡터의 유사도에 따라 응답 정확도를 추정하여 상기 문맥 문장에 대한 상기 적정 응답의 상기 응답 문장을 선택할 수 있다.

본 발명의 실시예에 따른 문맥 내 턴(turn) 구성을 고려하여 응답을 선택하는 대화 방법에 있어서, 입력되는 발화 문장과 상기 발화 문장에서부터 이어지는 문맥 문장을 수신하는 단계, 문맥 전체에 대한 상기 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시키는 단계 및 상기 문맥 문장에 대해서 상기 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택하는 단계를 포함한다.

본 발명의 실시예에 따르면, 턴 임베딩을 고려하여 응답 선택 모델을 학습시킴으로써, 보다 높은 응답 정확도의 적정 응답을 선택할 수 있다.

또한, 본 발명의 실시예에 따르면, 문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 기반으로 문맥 전체를 추론하여 높은 응답 정확도의 적정 응답을 제공함으로써, 기존 기술에 비해 사용자와 더 넓고 깊은 주제에 대한 대화를 공유하며, 일상적인 대화 또는 공감하는 형식의 대화와 같은 향상된 대화 능력을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 대화 시스템의 세부 구성을 블록도로 도시한 것이다.
도 2는 본 발명의 실시예에 따른 문장을 벡터로 표현하는 임베딩 예를 설명하기 위해 도시한 것이다.
도 3은 본 발명의 실시예에 따른 대화 시스템과 사용자 간의 대화 예를 도시한 것이다.
도 4는 본 발명의 실시예에 따른 대화 시스템과 기존 기술의 답변 결과를 도시한 것이다.
도 5는 본 발명의 실시예에 따른 대화 방법의 동작 흐름도를 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 실시예들은 문맥 전체를 추론하여 질문 문장에 대한 높은 정확도의 적정 응답 문장을 선택하는 것을 그 요지로 한다.

본 발명의 실시예에 따른 대화 시스템 및 그 방법은 사용자의 음성을 인식하거나, 사용자가 소지하는 단말 기기를 통해 입력되는 사용자의 채팅을 인식하며, 데이터베이스에 저장되어 유지되는 문맥 언어 모델, 응답 언어 모델 및 응답 선택 모델을 기반으로 문맥 전체를 추론하여 질문 문장에 적합한 적정 응답을 선택하여 제공할 수 있다.

단말 기기는 PC, 스마트폰, 태블릿 PC 등으로, 본 발명의 실시예에 따른 대화 시스템 및 그 방법과 관련된 웹/모바일 사이트의 접속 또는 서비스 전용 어플리케이션의 설치 및 실행이 가능한 모든 단말 장치를 의미할 수 있다. 이 때, 단말 기기는 웹/모바일 사이트 또는 전용 어플리케이션의 제어 하에 서비스 화면 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다.

나아가, 본 발명은 단말 기기를 통한 온라인 또는 어플리케이션(Application) 상의 대화, 채팅에 한정하지 않으며, 사용자의 음성, 제스처, 표정으로부터 인식되는 대화 형태 데이터에 대한 답변 데이터를 제공할 수 있는 다양한 제품 또는 서비스에 적용 가능하다.

이하에서는, 도 1 내지 도 5를 참조하여 본 발명에 대해 보다 상세히 설명하고자 한다.

도 1은 본 발명의 실시예에 따른 대화 시스템의 세부 구성을 블록도로 도시한 것이다.

도 1을 참조하면, 본 발명의 실시예에 따른 대화 시스템은 문맥 전체를 추론하여 질문 문장에 대한 높은 정확도의 적정 응답 문장을 선택한다.

이를 위해, 본 발명의 실시예에 따른 대화 시스템(100)은 수신부(110), 학습부(120) 및 응답 처리부(130)를 포함한다.

이에 앞서, 본 발명의 실시예에 따른 대화 시스템(100)은 사용자의 음성 또는 사용자 단말을 통해 입력되는 사용자의 채팅을 통한 대화 환경에서, 문맥 전체를 추론하여 적정 응답을 선택하는 것을 특징으로 한다.

수신부(110)는 입력되는 발화 문장과 발화 문장에서부터 이어지는 문맥 문장을 수신한다. 문맥 문장은 사용자에 의해 입력되는 질문 문장인 발화 문장과 그에 대한 답변인 응답 문장을 포함한 전체 문맥을 일컫는다.

보다 상세하게, 수신부(110)는 사용자에 의해 입력되는 질문 문장인 발화 문장과, 발화 문장에 대해 응답 문장 후보군들 중에서 자동으로 제시되는 응답 문장 또는 응답 처리부(130)에 의해 추정된 응답 문장을 포함하는 문맥 문장을 수신할 수 있다. 이에, 상기 응답 문장은 질문 문장에 대해 자동 완성으로 제시되는 답변일 수 있으며, 대화 상대방에 의해 입력되는 답변일 수 있고, 응답 처리부(130)에 의해 추정된 응답 정확도에 따라 응답 문장 후보군들 중에서 적정 응답으로 선택된 것일 수 있다.

예를 들면, 수신부(110)는 사용자의 음성 또는 사용자의 채팅에 의해 입력되는 대화 형태 데이터에 기반하여 텍스트 및 형태소뿐만 아니라, 사용자가 사용하는 이모티콘 또는 스티커와 같은 대화 형태 데이터를 인식하고, 그로 인한 사용자의 상황, 감정 및 개념의 대화 환경을 인식할 수 있다.

학습부(120)는 문맥 전체에 대한 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시킨다.

본 발명의 실시예에 따른 데이터베이스(140)는 문맥 언어 모델 및 응답 언어 모델과 이를 포함하는 응답 선택 모델을 포함할 수 있다. 문맥 언어 모델 및 응답 언어 모델은 문장을 적절한 벡터로 대체하기 위한 임베딩을 포함하며, 토큰 임베딩, 턴 임베딩, 위치 임베딩 및 부분 임베딩을 이용하는 것을 특징으로 한다. 이에, 문맥 언어 모델은 문맥 문장에 대해서만 인코딩하는 문맥 인코더일 수 있으며, 응답 언어 모델은 응답 문장에 대해서만 인코딩하는 응답 인코더일 수 있다.

이하에서는 도 2를 참조하여 임베딩에 대해 보다 상세히 설명하고자 한다.

도 2는 본 발명의 실시예에 따른 문장을 벡터로 표현하는 임베딩 예를 설명하기 위해 도시한 것이다.

도 2를 참조하면, 문장을 벡터로 표현하기 위한 임베딩을 도시한 것으로, ‘What are you doing’의 질문 문장에 대한 ‘Watching TV’의 응답 문장을 벡터로 표현하는 임베딩 예를 도시한 것으로, 토큰 임베딩(E_tok), 턴 임베딩(E_turn), 위치 임베딩(E_position) 및 부분 임베딩(E_seg)을 나타낸다.

여기서, 토큰 임베딩(E_tok, 201)은 ‘what’, ‘are’, ‘you’,’do’,’ing’과 ‘watch’, ‘ing’, ‘TV’ 각각의 단어 토큰에 대해 일대일로 대응되는 임베딩을 일컫으며, 턴 임베딩(E_turn, 200)은 ‘What are you doing’의 질문 문장 및 ‘Watching TV’의 응답 문장의 각 턴에 대해서 대응되는 임베딩으로 앞 문장부터 시작하여 문장별로 0, 1, 0, 1을 교차로 부여한 것일 수 있다.

또한, 위치 임베딩(E_position, 202)은 ‘what’, ‘are’, ‘you’,’do’,’ing’과 ‘watch’, ‘ing’, ‘TV’의 문장 내 각각의 단어 위치에 대응되는 임베딩으로 앞 단어부터 시작하여 순번을 부여하는 임베딩을 일컫으며, 부분 임베딩(E_seg, 203)은 문맥과 응답을 구별하기 위해 제안된 것으로, ‘What are you doing’의 질문 문장과 질문 문장에 대한 ‘Watching TV’의 응답 문장의 문맥 부분은 0으로 부여하고, 마지막 문장에 대해서만 1을 부여하는 것일 수 있다.

본 발명의 실시예에 따른 대화 시스템은 턴 임베딩(E_turn, 200)을 사용하여 질문 문장 및 응답 문장의 문맥 문장 전체를 임베딩함으로써, 문맥 내 턴 구성을 고려하여 문맥을 통해서만 추론되는 대화 흐름을 파악하여 보다 높은 응답 정확도의 적정 응답을 선택할 수 있다.

다시 도 1을 참조하면, 본 발명의 실시예에 따른 학습부(120)는 전술한 임베딩을 통해 문맥 문장 및 응답 문장 각각을 인코딩하는 문맥 언어 모델 및 응답 언어 모델을 이용하여 임의의 문맥에 대해서 문맥 문장 뒤의 응답 문장에 높은 점수를 부여하도록 응답 선택 모델을 훈련시킬 수 있으며, 이는 두 벡터의 유사도가 높도록 훈련시킴으로써 수행될 수 있다. 예를 들면, 임의의 문맥이 주어졌을 때, 학습부(120)는 문맥에 대한 정답 문장과 타 문맥에서 추출한 오답 문장을 이용하여 정답 문장을 1 그리고 오답 문장을 0으로 예측하도록 응답 선택 모델을 훈련시킬 수 있다.

더욱이, 학습부(120)는 문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 고려하여 응답 선택 모델을 학습시킬 수 있다.

상기 문맥 - 응답 상호작용은 전체 문맥으로부터 비롯된 문맥 벡터와 응답 벡터 간의 유사도를 계산한다. 상세하게는 전체 문맥에 대해 문맥 언어 모델에 의해 임베딩된 문맥 벡터와 응답 언어 모델에 의해 임베딩된 응답 벡터 간의 문장 유사도를 산출하는 것으로, 문맥과 응답이 기 설정된 범위 내의 대화 흐름에 따라 이뤄지는 지에 대해 문장 유사도를 산출할 수 있다.

상기 직전 턴 - 응답 상호작용은 직전 턴 문장만으로 구성된 문맥 벡터와 응답 벡터 간의 유사도를 계산한다. 상세하게는 직전 턴 문맥 문장에 대해 문맥 언어 모델에 의해 임베딩된 문맥 벡터와 직전 턴 응답 문장에 대해 응답 언어 모델에 의해 임베딩된 응답 벡터 간의 문장 유사도를 산출하는 것으로, 이는 직전 턴의 영향력이 가장 크다는 점에서 비롯된 것이다. 여기서, 직전 턴 문맥 문장은 직전 턴 문맥에서의 질문 문장 및 응답 문장을 포함하는 것일 수 있다.

상기 동일 턴 - 응답 상호작용은 응답 화자와 동일한 화자가 말한 턴의 문장으로만 구성된 문맥 벡터와 응답 벡터의 유사도를 계산한다. 상세하게는 전체 문맥 중에서 응답 화자와 동일한 화자가 말한 턴의 문맥 문장에 대해 문맥 언어 모델에 의해 임베딩된 문맥 벡터와 응답 화자와 동일한 화자가 말한 턴의 응답 문장에 대해 응답 언어 모델에 의해 임베딩된 응답 벡터 간의 문장 유사도를 산출하는 것으로, 이는 동일 화자가 응답 선택 과정에 미치는 영향을 반영하기 위한 것이다.

상기 상대 턴 - 응답 상호작용은 응답 화자의 상대 화자가 말한 턴의 문장으로만 구성된 문맥 벡터와 응답 벡터의 유사도를 계산한다. 상세하게는 전체 문맥 중에서 응답 화자의 상대방인 상대 화자가 말한 턴의 문맥 문장에 대해 문맥 언어 모델에 의해 임베딩된 문맥 벡터와 응답 화자의 상대방인 상대 화자가 말한 턴의 응답 문장에 대해 응답 언어 모델에 의해 임베딩된 응답 벡터 간의 문장 유사도를 산출하는 것으로, 이는 상대 화자가 응답 선택 과정에 미치는 영향을 반영하기 위한 것이다.

상기 응답 - 문맥 상호작용은 응답 벡터에 대해서 서로 다른 문맥 벡터를 후보군으로 삼아 학습시키는 방식으로 문맥 - 응답 상호작용의 역전된 방식이다. 상세하게는 전체 문맥 중에서 응답 문장에 대해 응답 언어 모델에 의해 임베딩된 응답 벡터에 대한 서로 다른 문맥 문장에 대해 문맥 언어 모델에 의해 임베딩된 서로 다른 문맥 벡터를 후보군으로 하여 응답 선택 모델을 학습시키는 방식일 수 있다. 이는 구체적인 응답은 문맥을 추론하기 용이하다는 것으로 예를 들어 ‘사당역 4번 출구에서 보자’라는 응답은 ‘응 그래’라는 응답에 비해 대화 맥락을 유추하기 쉽다.

상기 응답 - 직전 턴 상호작용은 응답 벡터에 대해서 서로 다른 직전 턴 문장으로 구성된 문맥 벡터를 후보군으로 삼아 학습시키는 방식으로 직전 턴 - 응답 상호작용의 역전된 방식이다. 상세하게는 전체 문맥 중에서 응답 문장에 대해 응답 언어 모델에 의해 임베딩된 응답 벡터에 대한 서로 다른 직전 턴 문맥 문장에 대해 문맥 언어 모델에 의해 임베딩된 직전 턴 문맥 벡터를 후보군으로 하여 응답 선택 모델을 학습시키는 방식일 수 있다.

본 발명의 실시예에 따른 대화 시스템(100)의 데이터베이스(140)는 사용자와 상대방 간의 대화로 인해 발생하는 대화 형태 데이터(또는 문맥 문장) 및 그에 대한 답변 데이터(또는 응답 문장)를 누적하여 구축하며, 시스템(100) 내부에 기 저장된 데이터 및 외부 서버로부터 수신되어 업데이트되는 데이터를 저장하여 유지할 수 있다.

응답 처리부(130)는 문맥 문장에 대해서 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택한다.

응답 처리부(130)는 문맥과 응답을 각기 다른 문맥 언어 모델 및 응답 언어 모델을 통해 처리하여 출력되는 문맥 벡터 및 응답 벡터를 포함하는 출력 벡터의 유사도에 따라 응답 정확도를 추정하여 문맥 문장에 대한 적정 응답의 응답 문장을 선택할 수 있다.

도 3은 본 발명의 실시예에 따른 대화 시스템과 사용자 간의 대화 예를 도시한 것이며, 도 4는 본 발명의 실시예에 따른 대화 시스템과 기존 기술의 답변 결과를 도시한 것이다.

본 발명의 실시예에 따른 대화 시스템(100)은 사용자(10)의 자연어 발화를 통해 교신하는 인터페이스일 수 있으며, 대화 시스템의 입력으로는 사용자의 발화 문장이 주어지며, 응답 문장 후보군들 중 가장 적절한 적정 응답이 선택되어 출력될 수 있다.

도 3을 참조하면, 사용자(10)가 ‘오늘 저녁 삼겹살 어때?’와 같은 발화 문장을 입력하는 경우, 대화 시스템(100)은 직전 질문 문장에 대한 응답으로 ‘삼겹살 별로 안 끌리는데’를 출력할 수 있다. 일 예로, 대화 시스템(100)은 사용자(10)에 대한 기본적인 데이터 또는 앞선 문맥을 통해 추론된 결과에 따라 사용자가 삼겹살을 선호하지 않는다는 전제하에 상기와 같은 응답을 적정 응답으로 선택하여 출력할 수 있다.

대화 시스템(100)의 응답에 따라 사용자(10)는 ‘그러면 뭐 먹을거야?’와 같은 문장을 입력하며, 대화 시스템(100)은 ‘뭔가 해물탕? 그런거 먹고 싶어’를 응답으로 출력할 수 있다. 이 때에도 앞선 설명과 동일하게 대화 시스템(100)은 사용자(10)에 대한 기본적인 데이터 또는 앞선 문맥을 통해 추론된 결과에 따라 사용자가 삼겹살 보다는 해물탕을 더욱 선호한다는 전제하에 상기와 같은 응답을 적정 응답으로 선택하여 출력할 수 있다.

대화 시스템(100)의 응답에 따라 사용자(10)는 ‘어디서 볼까 그러면?’과 같은 문장을 입력할 수 있다. 이는 사용자(10)가 대화 시스템(10)이 제시한 삼겹살이 아닌 해물탕의 메뉴를 선택한 것으로 추측할 수 있으며, 이후의 대화에는 메뉴가 아닌 장소에 대한 문맥을 이어 나가는 것이 바람직하다.

이에 따라서 도 4를 참조하면, 대화 시스템(100)은 앞선 문맥 전체를 추론하여 약속 장소에 대한 대화를 위해 ‘사당역 4번 출구’와 같은 장소를 제안한다.

반면에, 기존의 인공지능 기반의 답변 기술인 A사는 ‘삼겹살집에서 보자’를 답변하고, B사는 ‘인터넷에는 이렇게 나와있네요’를 답변하며, C사는 ‘나 오늘 바빠’를 답변하여 인터넷 정보를 제공한다. 이에 따라서, 기존 기술들은 앞선 문장에 대한 오답을 제안하거나, 명령으로 인지하여 온라인 상의 검색 정보를 제공하는 것을 알 수 있다.

앞선 결과와 같이, 본 발명의 실시예에 따른 대화 시스템(100)은 사용자(10)와 대화한 문맥 전체를 추론함으로써, 사용자의 ‘어디서 볼까 그러면?’에 대한 사용자의 의도를 파악하여 높은 응답 정확도의 적정 응답을 제공할 수 있다. 대화 상에서 적정 응답을 구현하는 것에 있어서 가장 중요한 것은 직전 문장만을 고려하는 것이 아니라 문맥 전체를 확인하는 것이다. 기존 기술인 A사, B사 및 C사에서 제시한 답변은 ‘어디서 볼까 그러면?’의 적합한 응답으로 볼 수 없는데, 이것은 직전 문장에 대한 답변을 제공하기 때문이며, 문맥을 통한 복잡한 상호작용을 반영하지 못하기 때문이다.

도 5는 본 발명의 실시예에 따른 대화 방법의 동작 흐름도를 도시한 것이다.

도 5의 방법은 도 1에 도시된 본 발명의 실시예에 따른 대화 시스템에 의해 수행된다.

도 5를 참조하면, 단계 510에서, 입력되는 발화 문장과 발화 문장에서부터 이어지는 문맥 문장을 수신한다. 문맥 문장은 사용자에 의해 입력되는 질문 문장인 발화 문장과 그에 대한 답변인 응답 문장을 포함한 전체 문맥을 일컫는다.

보다 상세하게, 단계 510은 사용자에 의해 입력되는 질문 문장인 발화 문장과, 발화 문장에 대해 응답 문장 후보군들 중에서 자동으로 제시되는 응답 문장 또는 단계 530에 의해 추정된 응답 문장을 포함하는 문맥 문장을 수신할 수 있다. 이에, 상기 응답 문장은 질문 문장에 대해 자동 완성으로 제시되는 답변일 수 있으며, 대화 상대방에 의해 입력되는 답변일 수 있고, 단계 530에 의해 추정된 응답 정확도에 따라 응답 문장 후보군들 중에서 적정 응답으로 선택된 것일 수 있다.

예를 들면, 단계 510은 사용자의 음성 또는 사용자의 채팅에 의해 입력되는 대화 형태 데이터에 기반하여 텍스트 및 형태소뿐만 아니라, 사용자가 사용하는 이모티콘 또는 스티커와 같은 대화 형태 데이터를 인식하고, 그로 인한 사용자의 상황, 감정 및 개념의 대화 환경을 인식할 수 있다.

단계 520에서, 문맥 전체에 대한 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시킨다.

본 발명의 실시예에 따른 데이터베이스는 문맥 언어 모델 및 응답 언어 모델과 이를 포함하는 응답 선택 모델을 포함할 수 있다. 문맥 언어 모델 및 응답 언어 모델은 문장을 적절한 벡터로 대체하기 위한 임베딩을 포함하며, 토큰 임베딩, 턴 임베딩, 위치 임베딩 및 부분 임베딩을 이용하는 것을 특징으로 한다. 이에, 문맥 언어 모델은 문맥 문장에 대해서만 인코딩하는 문맥 인코더일 수 있으며, 응답 언어 모델은 응답 문장에 대해서만 인코딩하는 응답 인코더일 수 있다.

본 발명의 실시예에 따른 단계 520은 전술한 임베딩을 통해 문맥 문장 및 응답 문장 각각을 인코딩하는 문맥 언어 모델 및 응답 언어 모델을 이용하여 임의의 문맥에 대해서 문맥 문장 뒤의 응답 문장에 높은 점수를 부여하도록 응답 선택 모델을 훈련시킬 수 있으며, 이는 두 벡터의 유사도가 높도록 훈련시킴으로써 수행될 수 있다.

더욱이, 단계 520은 문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 고려하여 응답 선택 모델을 학습시킬 수 있다.

단계 530에서, 문맥 문장에 대해서 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택한다.

단계 530은 문맥과 응답을 각기 다른 문맥 언어 모델 및 응답 언어 모델을 통해 처리하여 출력되는 문맥 벡터 및 응답 벡터를 포함하는 출력 벡터의 유사도에 따라 응답 정확도를 추정하여 문맥 문장에 대한 적정 응답의 응답 문장을 선택할 수 있다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

문맥 내 턴(turn) 구성을 고려하여 응답을 선택하는 대화 시스템에 있어서,
입력되는 발화 문장과 상기 발화 문장에서부터 이어지는 문맥 문장을 수신하는 수신부;
문맥 전체에 대한 상기 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시키는 학습부; 및
상기 문맥 문장에 대해서 상기 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택하는 응답 처리부
를 포함하는 대화 시스템.
제1항에 있어서,
상기 수신부는
사용자에 의해 입력되는 질문 문장인 상기 발화 문장과 상기 발화 문장에 대해 응답 문장 후보군들 중에서 응답으로 출력되는 상기 응답 문장을 포함하는 상기 문맥 문장을 수신하는, 대화 시스템.
제2항에 있어서,
상기 응답 문장은
상기 응답 처리부에 의해 추정된 응답 정확도에 따라 상기 응답 문장 후보군들 중에서 상기 적정 응답으로 선택된 것을 특징으로 하는, 대화 시스템.
제1항에 있어서,
상기 학습부는
문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 고려하여 상기 응답 선택 모델을 학습시키는 것을 특징으로 하는, 대화 시스템.
제4항에 있어서,
상기 응답 선택 모델은
토큰 임베딩, 턴 임베딩, 위치 임베딩 및 부분 임베딩을 통해 상기 문맥 문장에 대해서만 인코딩하는 상기 문맥 언어 모델 및 상기 응답 문장에 대해서만 인코딩하는 상기 응답 언어 모델을 포함하는 것을 특징으로 하는, 대화 시스템.
제5항에 있어서,
상기 응답 선택 모델은
상기 문맥 언어 모델 및 상기 응답 언어 모델을 이용하여 임의의 문맥에 대해서 문맥 문장 뒤의 응답 문장에 높은 점수를 부여하도록 훈련되는, 대화 시스템.
제5항에 있어서,
상기 턴 임베딩은
질문 문장 및 상기 응답 문장의 각 턴에 대해서 대응되는 임베딩으로 앞 문장부터 시작하여 0, 1, 0, 1을 교차로 부여하는 것을 특징으로 하는, 대화 시스템.
제1항에 있어서,
상기 응답 처리부는
문맥과 응답을 각기 다른 상기 문맥 언어 모델 및 상기 응답 언어 모델을 통해 처리하여 출력되는 출력 벡터의 유사도에 따라 응답 정확도를 추정하여 상기 문맥 문장에 대한 상기 적정 응답의 상기 응답 문장을 선택하는, 대화 시스템.
문맥 내 턴(turn) 구성을 고려하여 응답을 선택하는 대화 방법에 있어서,
입력되는 발화 문장과 상기 발화 문장에서부터 이어지는 문맥 문장을 수신하는 단계;
문맥 전체에 대한 상기 문맥 문장에 대해 인코딩하는 문맥 언어 모델 및 응답 문장에 대해 인코딩하는 응답 언어 모델을 포함하는 응답 선택 모델을 학습시키는 단계; 및
상기 문맥 문장에 대해서 상기 응답 선택 모델을 통해 출력되는 유사도에 따라 응답 정확도를 추정하여 적정 응답을 선택하는 단계
를 포함하는 대화 방법.
제9항에 있어서,
상기 문맥 문장을 수신하는 단계는
사용자에 의해 입력되는 질문 문장인 상기 발화 문장과 상기 발화 문장에 대해 응답 문장 후보군들 중에서 응답으로 출력되는 상기 응답 문장을 포함하는 상기 문맥 문장을 수신하는, 대화 방법.
제9항에 있어서,
상기 응답 선택 모델을 학습시키는 단계는
문맥 - 응답 상호작용, 직전 턴 - 응답 상호작용, 동일 턴 - 응답 상호작용, 상대 턴 - 응답 상호작용, 응답 - 문맥 상호작용 및 응답 - 직전 턴 상호작용의 여섯 가지 상호작용을 고려하여 상기 응답 선택 모델을 학습시키는 것을 특징으로 하는, 대화 방법.
제11항에 있어서,
상기 응답 선택 모델은
토큰 임베딩, 턴 임베딩, 위치 임베딩 및 부분 임베딩을 통해 상기 문맥 문장에 대해서만 인코딩하는 상기 문맥 언어 모델 및 상기 응답 문장에 대해서만 인코딩하는 상기 응답 언어 모델을 포함하는 것을 특징으로 하는, 대화 방법.
제9항에 있어서,
상기 적정 응답을 선택하는 단계는
문맥과 응답을 각기 다른 상기 문맥 언어 모델 및 상기 응답 언어 모델을 통해 처리하여 출력되는 출력 벡터의 유사도에 따라 응답 정확도를 추정하여 상기 문맥 문장에 대한 상기 적정 응답의 상기 응답 문장을 선택하는, 대화 방법.