KR102060486B1

KR102060486B1 - 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법

Info

Publication number: KR102060486B1
Application number: KR1020180081230A
Authority: KR
Inventors: 남후람; 프로코페브 알렉세이; 정명원
Original assignee: 주식회사 아카인텔리전스
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-12-30
Also published as: US11049498B2; US20200020325A1

Abstract

본 발명은 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법에 관한 것이 개시된다. 상기 방법은, 사용자의 과거의 발언을 이용하여 시맨틱 그래프 데이터베이스를 생성하는 단계: 및 상기 시맨틱 그래프 데이터베이스를 이용하여 상기 사용자의 새로운 발언에 응답하기 위한 챗봇의 발언을 생성하는 단계를 포함하고, 상기 시맨틱 그래프 데이터베이스를 생성하는 단계는, 사용자의 과거의 발언의 하나 이상의 문장에 관한 제1 의존 구문 분석 트리를 생성하는 단계: 소정의 규칙에 따라, 상기 제1 의존 구문 분석 트리의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 제1 의존 구문 분석 트리를 생성하는 단계: 변환된 상기 제1 의존 구문 분석 트리로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 상기 제1 정점과 상기 제2 정점의 사이의 제3 정점으로서 상기 제1 객체와 상기 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제1 데이터 셋을 추출하는 단계: 및 추출된 상기 하나 이상의 제1 데이터 셋의 제1 객체 및 제2 객체를 정점으로 하고, 상기 제1 객체와 상기 제2 객체 간의 관계를 방향성 간선으로 하는 시맨틱 그래프 데이터베이스를 생성하는 단계를 포함하고, 상기 챗봇의 발언을 생성하는 단계는, 상기 사용자의 새로운 발언의 하나 이상의 문장에 관한 제2 의존 구문 분석 트리를 생성하는 단계: 소정의 규칙에 따라, 상기 제2 의존 구문 분석 트리의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계: 변환된 상기 제2 의존 구문 분석 트리로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 상기 제1 정점과 상기 제2 정점의 사이의 제3 정점으로서 상기 제1 객체와 상기 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제2 데이터 셋을 추출하는 단계: 상기 시맨틱 그래프 데이터베이스 내의 하나 이상의 제1 데이터 셋 중 상기 추출된 하나 이상의 제2 데이터 셋과 매칭되는 하나 이상의 제1 데이터 셋을 하나 이상의 발언 후보 데이터 셋으로 추출하는 단계: 자연어 생성 알고리즘을 이용하여, 추출된 상기 하나 이상의 발언 후보 데이터 셋에 상응하는 하나 이상의 대화 후보 문장을 생성하는 단계: 및 상기 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계를 포함한다.

Description

시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법{METHOD FOR GENERATING CHATBOT UTTERANCE BASED ON THE SEMANTIC GRAPH DATABASE}

본 발명은 시맨틱 그래프 데이터베이스(Semantic Graph Database) 기반의 챗봇 발언 생성 방법에 관한 것이다.

최근 인간과 챗봇 간 의사소통이 가능하게 하는 자연어 처리에 대한 수요가 개인 비서, 메신저, 금융, 유통 등 다양한 분야에서 증가하고 있다. 실시간으로 자연어를 처리하는 챗봇에 있어서, 사용자와 챗봇의 대화를 통해서 얻어진 전체 대화 로그를 저장하고 사용자의 요구가 있을 때 정보를 처리하는 방법은 처리할 데이터의 양이 많아서 신속한 자연어 처리에 적합하지 않다. 이에 따라, 정보를 체계적으로 저장하고 사용자의 요구가 있을 때 신속하게 정보를 처리할 수 있게 하는 기술이 필요해지고 있다.

공개특허공보 제 10-2017-0099969호, 2017.09.01

본 발명이 해결하고자 하는 과제는 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법을 제공하는 것이다.

본 발명은 사용자의 발언 전체 로그를 저장 및 검색하여 실시간으로 자연어 처리가 되지 않았던 기존 방법을 개선하고자 체계화 및 조직화된 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법을 제공한다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법은, 사용자의 과거의 발언을 이용하여 시맨틱 그래프 데이터베이스를 생성하는 단계; 및 상기 시맨틱 그래프 데이터베이스를 이용하여 상기 사용자의 새로운 발언에 응답하기 위한 챗봇의 발언을 생성하는 단계를 포함하고, 상기 시맨틱 그래프 데이터베이스를 생성하는 단계는, 사용자의 과거의 발언의 하나 이상의 문장에 관한 제1 의존 구문 분석 트리를 생성하는 단계; 소정의 규칙에 따라, 상기 제1 의존 구문 분석 트리의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 제1 의존 구문 분석 트리를 생성하는 단계; 변환된 상기 제1 의존 구문 분석 트리로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 상기 제1 정점과 상기 제2 정점의 사이의 제3 정점으로서 상기 제1 객체와 상기 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제1 데이터 셋을 추출하는 단계; 및 추출된 상기 하나 이상의 제1 데이터 셋의 제1 객체 및 제2 객체를 정점으로 하고, 상기 제1 객체와 상기 제2 객체 간의 관계를 방향성 간선으로 하는 시맨틱 그래프 데이터베이스를 생성하는 단계를 포함하고, 상기 챗봇의 발언을 생성하는 단계는, 상기 사용자의 새로운 발언의 하나 이상의 문장에 관한 제2 의존 구문 분석 트리를 생성하는 단계; 소정의 규칙에 따라, 상기 제2 의존 구문 분석 트리의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계; 변환된 상기 제2 의존 구문 분석 트리로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 상기 제1 정점과 상기 제2 정점의 사이의 제3 정점으로서 상기 제1 객체와 상기 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제2 데이터 셋을 추출하는 단계; 상기 시맨틱 그래프 데이터베이스 내의 하나 이상의 제1 데이터 셋 중 상기 추출된 하나 이상의 제2 데이터 셋과 매칭되는 하나 이상의 제1 데이터 셋을 하나 이상의 발언 후보 데이터 셋으로 추출하는 단계; 자연어 생성 알고리즘을 이용하여, 추출된 상기 하나 이상의 발언 후보 데이터 셋에 상응하는 하나 이상의 대화 후보 문장을 생성하는 단계; 및 상기 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계를 포함한다.

일부 실시예에서, 상기 소정의 규칙에 따라, 상기 제1 의존 구문 분석 트리의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계는, 상기 복수의 정점에 상응하는 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우, 상기 복수의 정점을 하나의 정점으로 통합한다.

일부 실시예에서, 상기 하나 이상의 제1 데이터 셋의 상기 제1 객체 및 상기 제2 객체는 명사구이고, 상기 제1 객체와 상기 제2 객체 간의 관계는 동사구로 정의된다.

일부 실시예에서, 상기 추출된 상기 하나 이상의 데이터 셋의 제1 객체 및 제2 객체를 정점으로 하고, 상기 제1 객체와 상기 제2 객체 간의 관계를 방향성 간선으로 하는 시맨틱 그래프 데이터베이스를 생성하는 단계는, 상기 방향성 간선이 상기 제1 객체와 상기 제2 객체 간의 관계 정보 및 상기 데이터 셋에 상응하는 문장의 타임 스탬프 정보를 포함한다.

일부 실시예에서, 상기 소정의 규칙에 따라, 상기 제2 의존 구문 분석 트리의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계는, 상기 복수의 정점에 상응하는 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우, 상기 복수의 정점을 하나의 정점으로 통합한다.

일부 실시예에서, 상기 하나 이상의 제2 데이터 셋의 상기 제1 객체 및 상기 제2 객체는 명사구이고, 상기 제1 객체와 상기 제2 객체 간의 관계는 동사구로 정의된다.

일부 실시예에서, 상기 시맨틱 그래프 데이터베이스 내의 하나 이상의 제1 데이터 셋 중 상기 추출된 하나 이상의 제2 데이터 셋과 매칭되는 하나 이상의 제1 데이터 셋을 하나 이상의 발언 후보 데이터 셋으로 추출하는 단계는, 3차원 손실 함수를 이용하여 상기 하나 이상의 발언 후보 데이터 셋을 추출한다.

일부 실시예에서, 상기 3차원 손실 함수는 제1 데이터 셋과 제2 데이터 셋을 입력으로 하고, 상기 제1 데이터 셋과 상기 제2 데이터 셋의 각 요소 간의 거리를 반환한다.

일부 실시예에서, 상기 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계는, 딥러닝 알고리즘을 이용하여, 상기 사용자와 상기 챗봇의 대화의 컨텍스트 및 상기 사용자의 새로운 발언에 대한 상기 하나 이상의 후보 문장의 평가 스코어를 산출하는 단계; 및 상기 평가 스코어가 소정의 기준치 이상인 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계를 포함한다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법에 의하면, 사용자의 과거의 발언을 시맨틱 그래프 데이터베이스로 임베딩하여 체계화 및 조직화된 방식으로 저장할 수 있다.

또한, 사용자의 발언을 시맨틱 그래프 데이터베이스로 만듦으로써, 불필요한 단어를 저장하지 않게 하거나, 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우 하나의 단어 모음으로 저장할 수 있게 된다. 이와 같은 방식으로, 저장할 사용자 과거 발언의 데이터 양을 줄일 수 있어서 사용자의 응답이 필요시 신속하게 사용자 과거 발언을 검색하고 챗봇의 발언을 생성함으로써 사용자와 챗봇의 실시간 대화를 가능하게 한다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 시맨틱 그래프 데이터베이스 기반의 챗봇 발언을 생성하는 방법의 개략적인 순서도이다.
도 2는 본 발명의 실시예에 따른 시맨틱 그래프 데이터베이스를 생성하는 방법의 개략적인 순서도이다.
도 3은 본 발명의 실시예에 따른 의존 구문 분석 트리의 예시도이다.
도 4는 본 발명의 실시예에 따른 시맨틱 그래프 데이터베이스의 예시도이다.
도 5는 본 발명의 실시예에 따른 챗봇의 발언을 생성하는 방법의 개략적인 순서도이다.
도 6은 본 발명의 실시예에 따른 챗봇 서비스 프로그램을 생성하는 컴퓨터 시스템의 개략적인 블록도이다.
도 7은 본 발명의 실시예에 따른 챗봇의 발언을 생성하는 챗봇 시스템을 도시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 시맨틱 그래프 데이터베이스(200) 기반의 챗봇 발언을 생성하는 방법의 개략적인 순서도이다.

도 1을 참조하면, 시맨틱 그래프 데이터 베이스 기반의 챗봇 발언을 생성하는 방법은, 시맨틱 그래프 데이터베이스(200)를 생성하는 단계(S100), 챗봇의 발언을 생성하는 단계(S200)을 포함한다.

단계 S100에서, 컴퓨터는 사용자의 과거의 발언을 이용하여 시맨틱 그래프 데이터베이스(200)를 생성한다.

단계 S200에서, 컴퓨터는 시맨틱 그래프 데이터베이스(200)를 이용하여 사용자의 새로운 발언에 응답하기 위한 챗봇의 발언을 생성한다.

도 2는 본 발명의 실시예에 따른 시맨틱 그래프 데이터베이스(200)를 생성하는 방법의 개략적인 순서도이다.

도 2을 참조하면, 시맨틱 그래프 데이터베이스(200)를 생성하는 방법은, 제1 의존 구문 분석 트리(100)를 생성하는 단계(S110), 변환된 제1 의존 구문 분석 트리(100)를 생성하는 단계(S120), 제1 데이터 셋을 추출하는 단계(S130), 시맨틱 그래프 데이터베이스(200)를 생성하는 단계(S140)을 포함한다.

단계 S110에서, 컴퓨터는 사용자의 과거의 발언의 하나 이상의 문장에 관한 제1 의존 구문 분석 트리(100)를 생성한다.

의존 구문 분석 트리(100)는 사용자의 과거의 발언의 하나 이상의 문장에 포함되어 있는 복수의 단어를 각각 복수의 정점으로 하고, 복수의 단어 사이의 의존 관계에 따라 복수의 정점을 연결한 것이다.

단어 사이의 의존 관계는, 예를 들어, 표 1과 같이 문장에서 단어와 단어가 문법적 또는 의미적으로 어떤 관계로 되어있는지를 알려준다.

의존 관계	설명	의존 관계	설명
nsubj	문장 주어	det	한정사
dobj	직접 목적어	poss	소유격
iobj	간접 목적어	conj	접속어
ccomp	절의 보어	cc	등위 접속사
nmod	명사의 수식어	compound	합성어
amod	형용사의 수식어	punct	구두점

의존 구문 분석 트리(100)는 본 발명이 속하는 기술분야의 통상의 기술자에게 자명한 사항이며, 이에 관한 상세한 설명은 본 발명의 요지를 흐릴 수 있으므로 이하 생략하기로 한다.

일부 실시예에서는, 제1 의존 구문 분석 트리(100)를 생성하기 전에, 사용자의 과거의 발언의 하나 이상의 문장 중에 대명사와 같이 동일 대상을 나타내는 복수의 단어가 있으면 다른 대상을 나타내는 대명사와 구별할 수 있도록 변환한다. 대명사뿐만 아니라 지시대명사와 제3자를 지칭하는 표현에서도 동일 작업을 수행한다. 예를 들어, "Jane likes apple. She is vegetarian."와 "Alice goes to mountain. She likes hiking."의 문장에서 첫번째 문장의 "She"는 "Jane"을 의미하고 두번째 문장의 "She"는 "Alice"를 의미한다. 이 때 첫번째 문장의 "She"와 두번째 문장의 "She"는 각각 다른 대상을 지시하고 있는 대명사로 구별되므로 각각 별개의 표현이 되도록 변환한다.

일부 실시예에서, 컴퓨터는 "and"(109), "the"(110), "also"(113), "which"(114)와 같은 접속사, 관사, 부사, 한정사 등과 같은 단어도 의존 구문 분석 트리(100)의 한 정점으로 포함시킬 수 있다.

단계 S120에서, 컴퓨터는 소정의 규칙에 따라, 제1 의존 구문 분석 트리(100)의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 제1 의존 구문 분석 트리(100)를 생성한다.

일부 실시예에서, 컴퓨터는 제1 의존 구문 분석 트리(100)의 복수의 정점에 상응하는 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우, 복수의 정점을 하나의 정점으로 통합한다. 예를 들어, 컴퓨터는 두 단어가 결합하여 합성어를 형성하거나 소유격과 명사가 결합한 형태의 경우 하나의 정점으로 통합한다.

예를 들어, “우리”와 “할머니”가 결합하여 “우리 할머니”로 통합할 수 있다. 또한, “보따리”와 “짐”이 결합하여 “보따리 짐”으로 통합할 수 있다. 또한, “오고”와 “가다”가 결합하여 “오고 가다”로 통합할 수 있다.

의존 구문 분석 트리(100)의 소정의 복수의 정점을 하나의 정점으로 통합하기 위한 규칙의 예가 이에 제한되는 것은 아니며, 예시되지 않은 다른 임의의 규칙이 적용될 수 있다.

단계 S130에서, 컴퓨터는 변환된 제1 의존 구문 분석 트리(100)로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 제1 정점과 제2 정점의 사이의 제3 정점으로서 제1 객체와 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제1 데이터 셋을 추출한다.

일부 실시예에서, 하나 이상의 제1 데이터 셋의 제1 객체 및 제2 객체는 명사 또는 명사구로 될 수 있고, 제1 객체와 제2 객체 간의 관계는 동사 또는 동사구로 될 수 있다.

단계 S140에서, 컴퓨터는 추출된 하나 이상의 제1 데이터 셋의 제1 객체 및 제2 객체를 정점으로 하고, 제1 객체와 제2 객체 간의 관계를 방향성 간선으로 하는 시맨틱 그래프 데이터베이스(200)를 생성한다.

일부 실시예에, 방향성 간선은 간선의 방향을 이용하여 향후 만들어지는 문장의 주체를 결정할 수 있다.

일부 실시예에서, 방향성 간선은 제1 객체와 제2 객체 간의 관계 정보 뿐만 아니라 데이터 셋에 상응하는 문장의 타임 스탬프 정보를 포함한다. 예를 들어, 사용자가 데이터 셋에 상응하는 문장을 발언하여 제1 객체와 제2 객체 간의 관계를 정의 내린 시점의 시간 정보가 방향성 간선에 포함되게 할 수 있다.

일부 실시예에서, "and"(109), "the"(110), "also"(113), "which"(114)와 같은 접속사, 관사, 부사, 한정사 등과 같은 단어가 시맨틱 그래프 데이터베이스(200)의 한 정점으로 포함되지 않을 수 있다.

도 3은 본 발명의 실시예에 따른 의존 구문 분석 트리(100)의 예시도이다.

도 3을 참조하면, 예시적인 사용자의 발언인 “My brother and I like the new Star Wars and also Star Trek which are coming out this year."의 의존 구문 분석 트리(100)가 도시된다.

예시적인 의존 구문 분석 트리(100)에서는, “My brother and I like the new Star Wars and also Star Trek which are coming out this year." 문장이 "My"(101), "brother"(102), "and"(109), "I"(105), "like"(103), "the"(110), "new"(111), "Star"(112), "Wars"(106), "and"(109), "also"(113), "Star"(112), "Trek"(107), "which"(114), "are"(115), "coming"(108), "out"(116), "this"(118), "year"(117), "."(104)으로 각각의 단어와 문장의 부호로 나누어진다.

예시적인 의존 구문 분석 트리(100)에서, "My"(101), "brother"(102), "and"(109), "I"(105), "like"(103), "the"(110), "new"(111), "Star"(112), "Wars"(106), "and"(109), "also"(113), "Star"(112), "Trek"(107), "which"(114), "are"(115), "coming"(108), "out"(116), "this"(118), "year"(117), "."(104)의 각각의 단어와 문장의 부호가 정점으로 되고 각각의 단어의 의존 관계가 방향성 간선으로 연결되어 있다. 예를 들어, "My"(101)와 "brother"(102)는 소유격(possessive) 관계를, "brother"(102)와 "I"(105)는 접속어(conjunctive) 관계를, "Star"(112)와 "Wars"(106)는 합성어(compound) 관계를 갖는 것으로 분석되고, 방향성 간선에 의해 연결된다.

상술한 바와 같이, 의존 구문 분석 트리(100)의 소정의 복수의 정점이 하나의 정점으로 통합되어 변환될 수 있다. 예시적인 의존 구문 분석 트리(100)에서, "My"(101)와 "brother"(102)가 결합하여 "My brother"(202)로 통합할 수 있다. 또한, "Star"(112)와 "Trek"(107)이 결합하여 "Star Trek"(204)으로 통합할 수 있다. 또한, "are"(115)와 "coming"(108)과 "out"(116)이 결합하여 "are coming out"으로 통합할 수 있다.

도 4는 본 발명의 실시예에 따른 시맨틱 그래프 데이터베이스(200)의 예시도이다.

도 4을 참조하면, 컴퓨터는 예시적인 사용자의 발언인 “My brother and I like the new Star Wars and also Star Trek which are coming out this year."의 의존 구문 분석 트리(100)에서 데이터 셋을 추출하고, 추출된 데이터 셋을 정점과 방향성 간선으로 하는 시맨틱 그래프 데이터베이스(200)를 생성한다.

일부 실시예에서, 예시적으로 추출된 데이터 셋 중 명사와 명사구인 "I"(105), "Star Wars"(201), "My brother"(202), "Star Trek"(204) 및 "this year"(203)가 시맨틱 그래프 데이터베이스(200)의 각 정점으로 배치된다. 또한, 동사와 동사구인 "like"(103)및 "is coming out"이 시맨틱 그래프 데이터베이스(200)의 각 정점 사이에 방향성 간선으로 배치된다.

일부 실시예에서, "is coming out"의 방향성 간선이 "Star Wars"(201)의 정점으로부터 "this year"(203)의 정점 방향으로 배치되어 있다. 방향성 간선은 문장의 주체를 결정할 수 있기 때문에 "Star Wars"(201)와 "this year"(203)의 정점, "is coming out"의 방향성 간선으로 "Star Wars is coming this year"와 같은 문장을 만들어 낼 수 있다.

일부 실시예에서, 컴퓨터는 방향성 간선에 타임 스탬프와 같은 정보를 포함할 수 있다. 예를 들어, 사용자가 "Star Wars"(201)와 "this year"(203)의 정점이 사용한 시점의 시간 정보가 "is coming out"의 방향성 간선에 포함되게 할 수 있다.

도 5는 본 발명의 실시예에 따른 챗봇의 발언을 생성하는 방법의 개략적인 순서도이다.

도 5를 참조하면, 챗봇의 발언을 생성하는 방법은, 제2 의존 구문 분석 트리(100)를 생성하는 단계(S210), 변환된 의존 구문 분석 트리(100)를 생성하는 단계(S220), 제2 트리플 유닛을 추출하는 단계(S230), 발언 후보 트리플 유닛으로 추출하는 단계(S240), 대화 후보 문장을 생성하는 단계(S250), 챗봇의 발언을 생성하는 단계(S260)을 포함한다.

단계 S210에서, 컴퓨터는 사용자의 새로운 발언의 하나 이상의 문장에 관한 제2 의존 구문 분석 트리(100)를 생성한다.

단계 S220에서, 컴퓨터는 소정의 규칙에 따라, 제2 의존 구문 분석 트리(100)의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리(100)를 생성한다.

일부 실시예에서, 컴퓨터는 제2 의존 구문 분석 트리(100)의 복수의 정점에 상응하는 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우, 복수의 정점을 하나의 정점으로 통합한다. 예를 들어, 두 단어가 결합하여 합성어를 형성하거나 소유격과 명사가 결합한 형태의 경우 하나의 정점으로 통합한다.

일부 실시예에서는, 하나 이상의 제2 데이터 셋의 제1 객체 및 제2 객체는 명사구이고, 제1 객체와 제2 객체 간의 관계는 동사구로 정의될 수 있다.

단계 S230에서, 컴퓨터는 변환된 제2 의존 구문 분석 트리(100)로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 제1 정점과 제2 정점의 사이의 제3 정점으로서 제1 객체와 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제2 데이터 셋을 추출한다.

단계 S240에서, 컴퓨터는 시맨틱 그래프 데이터베이스(200) 내의 하나 이상의 제1 데이터 셋 중 추출된 하나 이상의 제2 데이터 셋과 매칭되는 하나 이상의 제1 데이터 셋을 하나 이상의 발언 후보 데이터 셋으로 추출한다.

일부 실시예에서는, 발언 후보 데이터 셋은 3차원 손실 함수를 이용하여 추출된다. 3차원 손실 함수는 제1 데이터 셋과 제2 데이터 셋을 입력으로 하고, 제1 데이터 셋과 제2 데이터 셋의 각 요소 간의 거리를 반환한다.

3차원 손실 함수에 의해 반환되는 각 요소 간의 거리는 [dist1(객체11, 객체21), dist2(관계1, 관계2), dist3(객체12, 객체22)]의 형식으로 표현될 수 있다.

여기서, dist(A, B)는 A와 B의 벡터의 거리를 계산한다. 예를 들어, dist는 내적 공간의 A, B 벡터 간 각도의 코사인 값을 이용하여 측정된 벡터 간의 유사한 정도를 측정하는 코사인 유사도를 계산한다.

객체11은 제1 데이터 셋의 제1 객체이고, 객체21은 제2 데이터 셋의 제1 객체이고, 객체12는 제1 데이터 셋의 제2 객체이고, 객체22는 제2 데이터 셋의 제2 객체이다.

관계1은 제1 데이터 셋에서 제1 객체와 제2 객체 간의 관계이고, 관계2는 제2 데이터 셋에서 제1 객체와 제2 객체 간의 관계이다.

그리고, 손실 함수의 반환 값을 가장 작게 만드는, 예를 들어, dist1, dist2, dist3의 총합이 가장 작은 제1 데이터 셋이 후술하는 대화 후보 문장으로 생성될 후보 데이터 셋으로 선택될 수 있다. 단계 S230에서 복수 개의 제2 데이터 셋이 추출될 경우, 후보 데이터 셋도 복수 개가 추출될 수 있다.

단계 S250에서, 컴퓨터는 자연어 생성(Natural Language Generation) 알고리즘을 이용하여, 추출된 하나 이상의 발언 후보 데이터 셋에 상응하는 하나 이상의 대화 후보 문장을 생성한다. 자연어 생성 알고리즘으로는 본 발명이 속하는 기술분야에서 잘 알려진 다양한 알고리즘이 사용될 수 있다.

단계 S260에서, 컴퓨터는 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성한다.

일부 실시예에서, 컴퓨터는 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성함에 있어서 딥러닝 알고리즘을 이용하여, 사용자와 챗봇의 대화의 컨텍스트 및 사용자의 새로운 발언에 대한 하나 이상의 후보 문장의 평가 스코어를 산출한다. 컴퓨터는 산출된 평가 스코어가 소정의 기준치 이상인 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성한다.

일부 실시예에서, 컴퓨터는 사용자의 새로운 발언에 대해서 사용자와 챗봇의 전체 대화의 컨텍스트 문자열을 만들다. 예를 들어, 컨텍스트 문자열은 전체 대화에서 사용자의 과거 발언으로부터 새로운 발언까지 단어들의 연결일 수 있다.

일부 실시예에서, 컴퓨터는 딥러닝을 이용한 사전에 훈련되어진 스코어 시스템으로 단계 S250에서 생성된 후보 문장의 평가 스코어를 산출한다. 스코어 시스템은, [컨텍스트 문자열, 사용자의 새로운 발언, 후보 문장]의 형식을 입력받아서, 컨텍스트 문자열과 사용자의 새로운 발언을 기준으로 단계 S250에서 생성된 후보 문장의 평가 스코어를 산출한다.

일부 실시예에서, 컴퓨터는 평가 스코어가 높은 후보 문장을 이용하여 챗봇의 발언을 생성할 수 있다.

도 6은 본 발명의 실시예에 따른 챗봇 서비스 프로그램을 생성하는 컴퓨터 시스템(300)의 개략적인 블록도이다.

도 6를 참조하면, 챗봇 서비스 프로그램을 생성하는 컴퓨터 시스템(300)은 메모리(301), 버스(302), 프로세스(303)를 포함한다.

메모리(301)는 상술한 시맨틱 그래프 데이터베이스(200) 기반의 챗봇 발언을 생성하는 방법을 실행시키기 위한 명령어와 데이터를 저장한다.

프로세서(303)는 메모리(301)에 저장되어 있는 명령어와 데이터를 해석하여 연산하고, 챗봇 시스템(400)의 챗봇 엔진으로 출력한다.

버스(302)는 메모리(301)와 프로세서(303)를 연결하여 명령어와 데이터를 전송한다.

도 7은 본 발명의 실시예에 따른 챗봇의 발언을 생성하는 챗봇 시스템(400)을 도시한 도면이다.

도 7를 참조하면, 챗봇의 발언을 생성하는 챗봇 시스템(400)은 사용자 단말기(401), 서비스 서버(402), 챗봇 서버(403)를 포함한다.

서비스 서버(402)는 사용자에게 챗봇 서비스를 제공하고, 사용자 단말기(401)에서 사용자 발언이 입력되면 사용자 발언을 챗봇 서버(403)에 전송한다.

챗봇 서버(403)는 챗봇 엔진, 데이터 베이스를 포함한다. 챗봇 엔진은, 상술한 시맨틱 그래프 데이터베이스(200) 기반의 챗봇 발언을 생성하는 방법으로, 사용자 발언으로부터 챗봇 발언을 생성한다. 데이터 베이스는 서비스 서버로부터 전송된 사용자 발언을 저장하고, 챗봇 발언 생성 시에 챗봇 엔진으로 사용자 발언을 전송한다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

100 : 의존 구문 분석 트리
200 : 시맨틱 그래프 데이터베이스
300 : 컴퓨터 시스템
400 : 챗봇 시스템

Claims

컴퓨터에 의해 실행되는 방법으로서,
사용자의 과거의 발언을 이용하여 시맨틱 그래프 데이터베이스를 생성하는 단계; 및
상기 시맨틱 그래프 데이터베이스를 이용하여 상기 사용자의 새로운 발언에 응답하기 위한 챗봇의 발언을 생성하는 단계를 포함하고,
상기 시맨틱 그래프 데이터베이스를 생성하는 단계는,
사용자의 과거의 발언의 하나 이상의 문장에 관한 제1 의존 구문 분석 트리를 생성하는 단계;
소정의 규칙에 따라, 상기 제1 의존 구문 분석 트리의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 제1 의존 구문 분석 트리를 생성하는 단계;
변환된 상기 제1 의존 구문 분석 트리로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 상기 제1 정점과 상기 제2 정점의 사이의 제3 정점으로서 상기 제1 객체와 상기 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제1 데이터 셋을 추출하는 단계; 및
추출된 상기 하나 이상의 제1 데이터 셋의 제1 객체 및 제2 객체를 정점으로 하고, 상기 제1 객체와 상기 제2 객체 간의 관계를 방향성 간선으로 하는 시맨틱 그래프 데이터베이스를 생성하는 단계를 포함하고,
상기 챗봇의 발언을 생성하는 단계는,
상기 사용자의 새로운 발언의 하나 이상의 문장에 관한 제2 의존 구문 분석 트리를 생성하는 단계;
소정의 규칙에 따라, 상기 제2 의존 구문 분석 트리의 소정의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계;
변환된 상기 제2 의존 구문 분석 트리로부터 i) 소정의 제1 정점에 상응하는 제1 객체, ii) 소정의 제2 정점에 상응하는 제2 객체, 및 iii) 상기 제1 정점과 상기 제2 정점의 사이의 제3 정점으로서 상기 제1 객체와 상기 제2 객체 간의 관계로 정의된 소정의 하나 이상의 제2 데이터 셋을 추출하는 단계;
상기 시맨틱 그래프 데이터베이스 내의 하나 이상의 제1 데이터 셋 중 상기 추출된 하나 이상의 제2 데이터 셋과 매칭되는 하나 이상의 제1 데이터 셋을 하나 이상의 발언 후보 데이터 셋으로 추출하는 단계;
자연어 생성 알고리즘을 이용하여, 추출된 상기 하나 이상의 발언 후보 데이터 셋에 상응하는 하나 이상의 대화 후보 문장을 생성하는 단계; 및
상기 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계를 포함하는 것을 특징으로 하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 소정의 규칙에 따라, 상기 제1 의존 구문 분석 트리의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계는,
상기 복수의 정점에 상응하는 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우, 상기 복수의 정점을 하나의 정점으로 통합하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 하나 이상의 제1 데이터 셋의 상기 제1 객체 및 상기 제2 객체는 명사구이고, 상기 제1 객체와 상기 제2 객체 간의 관계는 동사구로 정의되는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 추출된 상기 하나 이상의 데이터 셋의 제1 객체 및 제2 객체를 정점으로 하고, 상기 제1 객체와 상기 제2 객체 간의 관계를 방향성 간선으로 하는 시맨틱 그래프 데이터베이스를 생성하는 단계는,
상기 방향성 간선이 상기 제1 객체와 상기 제2 객체 간의 관계 정보 및 상기 데이터 셋에 상응하는 문장의 타임 스탬프 정보를 포함하도록 하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 소정의 규칙에 따라, 상기 제2 의존 구문 분석 트리의 복수의 정점을 하나의 정점으로 통합하여 변환된 의존 구문 분석 트리를 생성하는 단계는,
상기 복수의 정점에 상응하는 복수의 단어가 서로 결합하여 하나의 의미를 형성하는 경우, 상기 복수의 정점을 하나의 정점으로 통합하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 하나 이상의 제2 데이터 셋의 상기 제1 객체 및 상기 제2 객체는 명사구이고, 상기 제1 객체와 상기 제2 객체 간의 관계는 동사구로 정의되는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 시맨틱 그래프 데이터베이스 내의 하나 이상의 제1 데이터 셋 중 상기 추출된 하나 이상의 제2 데이터 셋과 매칭되는 하나 이상의 제1 데이터 셋을 하나 이상의 발언 후보 데이터 셋으로 추출하는 단계는,
3차원 손실 함수를 이용하여 상기 하나 이상의 발언 후보 데이터 셋을 추출하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제7항에 있어서,
상기 3차원 손실 함수는 제1 데이터 셋과 제2 데이터 셋을 입력으로 하고, 상기 제1 데이터 셋과 상기 제2 데이터 셋의 각 요소 간의 거리를 반환하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
제1항에 있어서,
상기 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계는,
딥러닝 알고리즘을 이용하여, 상기 사용자와 상기 챗봇의 대화의 컨텍스트 및 상기 사용자의 새로운 발언에 대한 상기 하나 이상의 후보 문장의 평가 스코어를 산출하는 단계; 및
상기 평가 스코어가 소정의 기준치 이상인 하나 이상의 후보 문장을 이용하여 챗봇의 발언을 생성하는 단계를 포함하는,
시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법.
컴퓨터와 결합되어, 제1항 내지 제9항 중 어느 하나의 항의 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.