KR20200068105A

KR20200068105A - 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템

Info

Publication number: KR20200068105A
Application number: KR1020180150097A
Authority: KR
Inventors: 양승원; 황석현
Original assignee: 주식회사 솔트룩스
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-06-15
Also published as: KR102130779B1

Abstract

기계 독해(machine reading comprehension)를 위한 문서를 제공하는 시스템은, 본 발명의 예시적 실시예에 따라, 지식베이스를 참조하여 자연어 질의로부터 적어도 하나의 엔티티를 추출하는 엔티티 추출부, 및 지식베이스로부터 적어도 하나의 엔티티에 관한 엔티티 정보를 획득하고, 엔티티 정보에 기초하여 기계 독해를 위한 적어도 하나의 문서를 생성하는 문서 추출부를 포함할 수 있다.

Description

기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템{SYSTEM OF PROVIDING DOCUMENTS FOR MACHINE READING COMPREHENSION AND QUESTION ANSWERING SYSTEM INCLUDING THE SAME}

본 발명의 기술적 사상은 기계 독해(machine reading comprehension)에 관한 것으로서, 자세하게는 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템에 관한 것이다.

본 발명은 산업자원통상부 로봇산업핵심기술개발사업-인공지능융합로봇시스템기술의 일환으로 (주)아이피엘에서 주관하고 (주)솔트룩스에서 공동 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2018.01.01~2018.12.31, 연구관리 전문기관: 한국산업기술평가관리원, 연구과제명: 가정용 소셜로봇 및 서비스 개발 시스템, 과제 고유번호: 10077633]

사람의 언어를 기계가 이해하도록 자연어를 인식하고 처리하는 것은 자연어 이해(natural language understand)로서 지칭될 수 있고, 자연어 이해는 다양한 분야에 사용될 수 있다. 예를 들면, 자연어 이해는, 사용자의 질의를 인식함으로써 질의에 대한 응답을 자동으로 제공하는 질의 응답 시스템(question and answering system)에 사용될 수 있다.

딥러닝(deep learning) 기술이 발전함에 따라, 질의 및 질의에 대한 응답을 포함하는 문서를 딥러닝 네트워크에 제공하고 딥러닝 네트워크로부터 질의에 대한 응답을 획득하는, 기계 독해(machine reading comprehension)에 대한 연구가 활발하게 진행되고 있다. 이와 같은 기계 독해는 질의뿐만 아니라 질의에 대한 응답을 포함하는 문서가 필수적인 입력으로서 사용되므로, 기계 독해의 활용을 위해서는 질의의 응답을 포함하는 문서, 즉 기계 독해를 위한 문서의 제공이 필수적이다.

본 발명의 기술적 사상은, 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템을 제공한다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상에 따라, 기계 독해(machine reading comprehension)를 위한 문서를 제공하는 시스템은, 지식베이스를 참조하여 자연어 질의로부터 적어도 하나의 엔티티를 추출하는 엔티티 추출부, 및 지식베이스로부터 적어도 하나의 엔티티에 관한 엔티티 정보를 획득하고, 엔티티 정보에 기초하여 기계 독해를 위한 적어도 하나의 문서를 생성하는 문서 추출부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 엔티티 추출부는, 형태소를 분석함으로써 자연어 질의로부터 단어들을 추출하는 형태소 분석부, 단어들에 따라 지식베이스를 참조하여 적어도 하나의 후보 엔티티를 생성하는 엔티티 링킹부, 및 적어도 하나의 후보 엔티티를 필터링함으로써 적어도 하나의 엔티티를 생성하는 엔티티 선정부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 엔티티 링킹부는, 자연어 질의에 포함된 단어들 중 명사에 대응하는 단어를 추출하고, 추출된 단어에 기초하여 지식베이스에서 지식 인스턴스를 검색하고, 검색된 지식 인스턴스에 대응하는 식별자를 후보 엔티티로서 생성할 수 있다.

본 발명의 예시적 실시예에 따라, 엔티티 선정부는, 자연어 질의 및 문서에 따라 기계 독해에 의해서 도출된 응답이 자연어 질의에 대한 적절한 응답인지를 나타내는 보상(reward)을 수신하고, 2이상의 후보 엔티티들로부터 적어도 하나의 엔티티를 선정하도록 보상에 따라 강화 학습될 수 있다.

본 발명의 예시적 실시예에 따라, 문서 추출부는, 적어도 하나의 엔티티에 기초하여 지식베이스에서 적어도 하나의 엔티티에 대응하는 엔티티 정보를 검색하는 정보 검색부, 및 엔티티 정보로부터 적어도 하나의 문서를 생성하는 문서 생성부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 지식베이스는, 지식 인스턴스를 주어로서 포함하고 지식 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는, 트리플(triple)을 포함할 수 있고, 엔티티 정보는, 적어도 하나의 엔티티에 대응하는 지식 인스턴스를 주어로서 가지는 트리플을 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 문서 생성부는, 트리플을 문장으로 변환하고, 문장을 포함하는 적어도 하나의 문서를 생성할 수 있다.

본 발명의 기술적 사상의 일측면에 따라 자연어 질의에 대한 응답을 제공하는 질의 응답 시스템은, 문서 제공 시스템; 및 문서 제공 시스템으로부터 적어도 하나의 문서를 수신하고, 기계 독해(machine reading comprehension)에 기초하여 자연어 질의에 대한 응답을 적어도 하나의 문서에서 추출하는 기계 독해 엔진을 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 기계 독해 엔진은, 워드 벡터 모델에 기초하여 자연어 질의 및 적어도 하나의 문서로부터 워드 벡터들을 추출하는 벡터 추출부, 및 질의 및 응답을 포함하는 문서에 대응하는 워드 벡터들로부터 응답을 출력하도록 학습되고, 벡터 추출부로부터 추출된 워드 벡터를 수신하는 딥러닝 네트워크를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 기계 독해 엔진은, 응답에 대한 피드백을 수신하고, 피드백에 기초하여 문서 제공 시스템에 보상(reward)을 제공할 수 있다.

본 발명의 기술적 사상에 따른 시스템 및 방법에 의하면, 검증된 지식베이스(knowledgebase)를 참조함으로써 기계 독해를 위한 유효한 문서가 자동으로 제공될 수 있고, 기계 독해의 유용성이 현저하게 증가할 수 있다.

또한, 본 발명의 기술적 사상에 따른 시스템 및 방법에 의하면, 기계 독해의 효율성이 증가할 수 있고, 이에 따라 기계 독해에 기반한 질의 응답 시스템의 성능이 현저하게 상승할 수 있다.

본 발명의 예시적 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 아니하며, 언급되지 아니한 다른 효과들은 이하의 기재로부터 본 발명의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 발명의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 발명의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.

도 1은 본 발명의 예시적 실시예에 따른 시스템 및 그 입출력 관계를 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 문서 제공 시스템의 예시를 나타내는 블록도이다.
도 3은 본 발명의 예시적 실시예에 따라 도 2의 문서 제공 시스템의 동작의 예시를 나타내는 도면이다.
도 4는 본 발명의 예시적 실시예에 따라 도 2의 엔티티 추출부의 예시를 나타내는 블록도이다.
도 5는 본 발명의 예시적 실시예에 따라 도 2의 문서 추출부의 예시를 나타내는 블록도이다.
도 6은 본 발명의 예시적 실시예에 따라 도 5의 문서 생성부의 동작의 예시를 나타내는 도면이다.
도 7은 본 발명의 예시적 실시예에 따라 도 1의 기계 독해 엔진의 예시를 나타내는 블록도이다.
도 8은 본 발명의 예시적 실시예에 따라 도 7의 기계 독해 엔진의 동작의 예시를 나타내는 도면이다.
도 9는 본 발명의 예시적 실시예에 따른 질의 응답 방법을 나타내는 순서도이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 아니하는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하 도면 및 설명에서, 하나의 블록으로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다. 또한, 본 명세서에서 "시스템" 또는 "데이터베이스"는 적어도 하나의 프로세서 및 프로세서에 의해서 액세스되는 메모리를 포함하는 컴퓨팅 시스템을 지칭할 수 있다.

도 1은 본 발명의 예시적 실시예에 따른 시스템 및 그 입출력 관계를 나타내는 블록도이다. 도 1에 도시된 바와 같이, 질의 응답 시스템(10)은 자연어 질의(NQ)를 수신할 수 있고, 기계 독해(machine reading comprehension)에 기초하여 자연어 질의(NQ)에 대응하는 응답(ANS)을 출력할 수 있다. 질의 응답 시스템(10)은 지식베이스(20)와 통신가능하게 연결될 수 있고, 이하에서 도면들을 참조하여 후술되는 바와 같이 지식베이스(20)를 사용하여 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 도 1에 도시된 바와 같이, 질의 응답 시스템(10)은 문서 제공 시스템(100) 및 기계 독해 엔진(200)을 포함할 수 있다.

지식베이스(20)는 온톨로지에 기초하여 구조화된 지식 데이터를 포함할 수 있다. 온톨로지(ontology)는 실존하거나 사람이 인식 가능한 것들을 컴퓨터에서 다룰 수 있는 형태로 표현한 것으로서, 온톨로지 구성요소들은, 예컨대 엔티티(entity; E), 클래스(class; C), 속성(property; P), 값(value; V)을 포함할 수 있다. 추가적으로, 온톨로지 구성요소들은, 관계(relation)(엔티티간 속성 또는 클래스간 속성), 함수 텀(function term), 제한(restriction), 규칙(rule), 사건(event) 등을 더 포함할 수 있다. 특정 지식에 대응하는 엔티티는 지식 인스턴스(또는 인스턴스)로서 지칭될 수 있다. 지식베이스(20)는 온톨로지에 기반하여 방대한 지식 데이터를 저장할 수 있고, 예컨대 지식베이스(20)는 RDF(Resource Description Framework)를 사용하여 표현된 지식 데이터를 포함할 수 있으며, 지식 데이터 단위로서 트리플(triple)이 사용될 수 있다. 지식베이스(20)는 쿼리, 예컨대 SPARQL(SPARQL Protocol and RDF Query Language) 쿼리에 응답하여 트리플을 반환할 수 있다. 트리플은 "주어-술어-목적어"로 구성될 수 있고, 지식 인스턴스는 트리플의 주어뿐만 아니라 목적어도 될 수 있고, 일부 실시예들에서 술어도 될 수 있다. 예를 들면, 지식 인스턴스 "이순신"은 트리플 "이순신-국적-조선"이라는 트리플을 가질 수 있다.

문서 제공 시스템(100)은 자연어 질의(NQ)를 수신할 수 있고, 자연어 질의(NQ)에 기초하여 지식베이스(20)로부터 획득된 정보에 기초하여 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 일부 실시예들에서, 문서 제공 시스템(100)은 자연어 질의(NQ)에 포함된 단어들의 형태소를 분석할 수 있고, 형태소 분석 결과에 따라 자연어 질의(NQ)에 포함된 일부 단어에 대응하는 지식 인스턴스를 지식베이스(20)로부터 획득할 수 있고, 획득된 지식 인스턴스에 기초하여 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 일부 실시예들에서, 기계 독해를 위한 문서(DOC)는 자연어 문장들을 포함하는 텍스트 데이터를 지칭할 수 있고, 본 명세서에서 기계 독해를 위한 문서(DOC)는 단순하게 문서(DOC)로서 지칭될 수도 있다. 지식베이스(20)는 검증된 지식 데이터, 즉 지식 인스턴스들을 포함할 수 있고, 이에 따라 문서 제공 시스템(100)은 자연어 질의(NQ)의 응답을 포함하는 문서를 지식베이스(20)의 지식 인스턴스들에 기초하여 생성할 수 있다. 문서 제공 시스템(100)의 예시는 도 2를 참조하여 후술될 것이며, 본 명세서에서 문서 제공 시스템(100)은 기계 독해를 위한 문서(DOC)를 제공하는 시스템으로서 지칭될 수도 있다.

기계 독해 엔진(200)은 자연어 질의(NQ)를 수신할 수 있고, 문서 제공 시스템(100)으로부터 문서(DOC)를 수신할 수 있다. 기계 독해(Machine Reading Comprehension; MRC)는 기계가 다양한 주제의 글을 읽어서 뜻을 이해하는 것을 지칭할 수 있다. 기계 독해 엔진(200)은 딥러닝 네트워크(deep learning network)를 포함할 수 있고, 질의와 질의의 응답을 포함하는 문서를 딥러닝 네트워크에 제공하여 질의에 대응하는 응답을 딥러닝 네트워크로부터 획득할 수 있다. 예를 들면, SQuAD(Stanford Question Answering Dataset)은 영어 환경에서 기계 독해를 위한 데이터 셋을 제공한다. 이와 같은 기계 독해는 매우 복잡한 질문에 대해서도 응답을 제공하는 장점을 가질 수 있으나, 질의에 대한 응답을 포함하는 문서가 입력으로서 요구되는 한계가 있다. 그러나, 전술된 바와 같이, 문서 제공 시스템(100)은 지식베이스(20)에 포함된 지식을 참조하여 문서(DOC)를 생성할 수 있고, 문서(DOC)는 기계 독해를 위해 질의에 대한 응답을 유효하게 포함할 수 있다. 이에 따라, 질의 응답 시스템(10)은 복잡한 자연어 질의(NQ)에 대해서도 정확한 응답(ANS)을 출력할 수 있다.

일부 실시예들에서, 문서 제공 시스템(100) 및 기계 독해 엔진(200)은 분리된 컴퓨팅 시스템들에 각각 구현될 수 있고, 네트워크을 통해 상호 통신하거나 일대일 통신을 위한 전용 채널을 통해 상호 통신할 수도 있다. 또한, 일부 실시예들에서, 질의 응답 시스템(10)은 지식베이스(20)를 포함할 수도 있다. 자연어 질의(NQ) 및 응답(ANS)은 임의의 방식으로 질의 응답 시스템(10)에 수신되거나 질의 응답 시스템(10)으로부터 출력될 수 있다. 예를 들면, 질의 응답 시스템(10)의 적어도 일부는 질의 응답 서비스를 제공하는 공급자에 의해서 운영될 수 있고, 자연어 질의(NQ)는 사용자 단말로부터 네트워크를 통해서 수신될 수 있고, 응답(ANS) 역시 네트워크를 통해서 사용자 단말에 제공될 수 있다. 또한, 질의 응답 시스템(10)은 자연어 질의(NQ)를 생성하는 사용자의 장치(예컨대, 사용자 단말)에 포함될 수도 있고, 네트워크를 통해서 지식베이스(20)와 상호 통신함으로써 응답(ANS)을 사용자에게 제공할 수 있다. 기계 독해 엔진(200)의 예시는 도 7을 참조하여 후술될 것이다.

도 2는 본 발명의 예시적 실시예에 따라 도 1의 문서 제공 시스템(100)의 예시를 나타내는 블록도이고, 도 3은 본 발명의 예시적 실시예에 따라 도 2의 문서 제공 시스템(100')의 동작의 예시를 나타내는 도면이다. 도 1를 참조하여 전술된 바와 같이, 도 2의 문서 제공 시스템(100')은 자연어 질의(NQ)를 수신할 수 있고, 지식베이스(20)에 포함된 지식 데이터를 참조하여 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 도 2에 도시된 바와 같이, 문서 제공 시스템(100')은 엔티티 추출부(120) 및 문서 추출부(140)를 포함할 수 있고, 이하에서 도 2 및 도 3은 도 1을 참조하여 설명될 것이다.

엔티티 추출부(120)는 지식베이스(20)를 참조하여 자연어 질의(NQ)로부터 적어도 하나의 엔티티(ENT)를 추출할 수 있다. 예를 들면, 도 2에 도시된 바와 같이, 엔티티 추출부(120)는 자연어 질의(NQ)를 수신할 수 있고, 지식베이스(20)로부터 지식 인스턴스(K_IN)를 수신할 수 있으며, 엔티티(ENT)를 생성할 수 있다. 엔티티(ENT)는 자연어 질의(NQ)에 포함된 단어(또는 토큰)를 지식 인스턴스(K_IN)에 맵핑함으로써 생성될 수 있고, 지식 인스턴스(K_IN)의 식별자, 예컨대 URI(Uniform Resource Identifier)를 포함할 수 있다. 이와 같이, 자연어 문장에 포함된 단어를 지식 인스턴스(K_IN)에 맵핑하는 동작은 엔티티 링킹(entity linking)으로서 지칭될 수 있다.

도 3을 참조하면, 자연어 질의(NQ)로서 "손흥민의 현재 소속팀은?"이 엔티티 추출부(120)에 제공될 수 있다. 엔티티 추출부(120)는 자연어 질의(NQ)를 형태소 분석함으로써 도 3에 도시된 바와 같이, "손흥민 / 의 / 현재 / 소속 / 팀 / 은 / ?"으로 단어들을 추출할 수 있다. 그 다음에, 엔티티 추출부(120)는 지식 인스턴스(K_IN)를 참조하여 "손흥민"에 대응하는 엔티티 "URI_손흥민" 및 "팀"에 대응하는 엔티티 "URI_팀"을 추출할 수 있다. 도 3에서, "URI_손흥민"은 지식베이스(20)에서 지식 인스턴스 "손흥민"의 식별자를 의미할 수 있고, "URI_팀"은 지식베이스(20)에서 지식 인스턴스 "팀"의 식별자를 의미할 수 있다.

다시 도 2를 참조하면, 문서 추출부(140)는 엔티티 추출부(120)로부터 엔티티(ENT)를 수신할 수 있고, 엔티티(ENT)에 기초하여 엔티티 정보(E_IF)를 지식베이스(20)로부터 수신할 수 있으며, 엔티티 정보(E_IF)에 기초하여 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 엔티티 정보(E_IF)는 엔티티(ENT)에 대응하는 지식 인스턴스와 관련된, 지식베이스(20)에 포함된 정보를 지칭할 수 있다. 일부 실시예들에서, 지식베이스(20)는 지식 인스턴스에 대한 정보로서, 지식 인스턴스를 지식베이스(20)에 추가시 참조된 지식 리소스의 적어도 일부를 내용으로 하는 텍스트 데이터를 포함할 수 있다. 예를 들면, 도 3에 도시된 바와 같이, 지식베이스(20)는 "손흥민은 대한민국의 축구 선수 이다."를 포함하는 텍스트 데이터를 지식 인스턴스 "손흥민"의 정보로서 포함할 수 있고, 문서 추출부(140)는 해당 텍스트 데이터를 엔티티 "URI_손흥민"의 엔티티 정보(E_IF)로서 지식베이스(20)로부터 수신할 수 있다. 또한, 일부 실시예들에서, 지식베이스(20)는 지식 인스턴스를 주어로서 가지는 다수의 트리플들을 포함할 수 있고, 문서 추출부(140)는 다수의 트리플들을 엔티티 "URI_손흥민"의 엔티티 정보(E_IF)로서 지식베이스(20)로부터 수신할 수도 있다. 문서 추출부(140)가 다수의 트리플들을 엔티티 정보(E_IF)로서 수신하는 예시는 도 6을 참조하여 후술될 것이다.

도 4는 본 발명의 예시적 실시예에 따라 도 2의 엔티티 추출부(120)의 예시를 나타내는 블록도이다. 도 2를 참조하여 전술된 바와 같이, 도 4의 엔티티 추출부(120')는 자연어 질의(NQ)를 수신할 수 있고, 지식베이스(20)를 참조하여 자연어 질의(NQ)로부터 적어도 하나의 엔티티(ENT)를 추출할 수 있다. 도 4에 도시된 바와 같이, 엔티티 추출부(120')는 형태소 분석부(122), 엔티티 링킹부(124) 및 엔티티 선정부(126)를 포함할 수 있고, 이하에서 도 4는 도 2를 참조하여 설명될 것이다.

형태소 분석부(122)는 자연어 질의(NQ)를 수신할 수 있고, 자연어 질의(NQ)의 형태소 분석을 수행할 수 있다. 형태소 분석부(122)는 자연어 질의(NQ)를 형태소 분석함으로써 자연어 질의(NQ)로부터 다수의 단어들(또는 토큰들)을 추출할 수 있다. 일부 실시예들에서, 형태소 분석부(122)는 임의의 자연어 처리 방식에 따라 (예컨대, 지식베이스(20)를 참조하여) 자연어 질의(NQ)에 대한 형태소 분석을 직접 수행할 수 있다. 일부 실시예들에서, 형태소 분석부(122)는 도 1의 질의 응답 시스템(10)의 외부에 있는 자연어 처리 시스템에 자연어 질의(NQ)를 제공할 수 있고, 자연어 처리 시스템으로부터 자연어 질의(NQ)로부터 추출된 단어들을 수신할 수도 있다. 이에 따라, 도 3을 참조하여 전술된 예시와 같이, 자연어 질의(NQ)로부터 복수의 단어들이 추출될 수 있고, 복수의 단어들 각각은 고유한 형태소를 가질 수 있다. 형태소 분석부(122)는 자연어 질의(NQ)로부터 추출된 복수의 단어들을 엔티티 링킹부(124)에 제공할 수 있다.

엔티티 링킹부(124)는 형태소 분석부(122)에 의해서 추출된 단어들에 따라 지식베이스(20)를 참조하여 적어도 하나의 후보 엔티티(C_ENT)를 생성할 수 있다. 예를 들면, 엔티티 링킹부(124)는 형태소 분석부(122)에 의해서 추출된 단어를 명칭(또는 레이블)으로서 가지는 지식 인스턴스(K_IN)를 지식베이스(20)로부터 수신할 수 있다. 이에 따라, 자연어 질의(NQ)로부터 추출된 단어가 지식베이스(20)의 지식 인스턴스(K_IN)와 맵핑됨으로써 후보 엔티티(C_ENT)가 생성될 수 있다.

일부 실시예들에서, 엔티티 링킹부(124)는 형태소 분석부(122)로부터 제공되는 단어들 중 명사에 대응하는 단어에 대한 지식 인스턴스(K_IN)를 지식베이스(20)로부터 수신할 수 있다. 예를 들면, 도 3의 예시에서, 엔티티 링킹부(124)는 자연어 질의(NQ)인 "손흥민의 현재 소속팀은?"에서 체언이자 명사인 "손흥민" 및 "팀"에 대응하는 지식 인스턴스들만을 지식베이스(20)로부터 수신할 수 있다.

일부 실시예들에서, 엔티티 링킹부(124)는 단어에 대응하는 지식 인스턴스(K_IN)를 지식베이스(20)에서 검색시 자연어 질의(NQ)의 문맥(context)을 이용할 수 있다. 즉, 엔티티 링킹부(124)는 단어에 대응하는 지식 인스턴스(K_IN)를 검색시 자연어 질의(NQ)에 포함된 적어도 하나의 다른 단어를 사용할 수 있다. 예를 들면, 자연어 질의(NQ)로부터 추출된 단어는 적어도 하나의 동음 이의어를 가질 수 있고, 이에 따라 하나의 단어에 대응하는 다수의 지식 인스턴스들이 지식베이스(20)에서 검색될 수 있다. 이에 따라, 다수의 지식 인스턴스들 중 자연어 질의(NQ)에 포함된 단어의 의미에 부합하는 지식 인스턴스를 선정하는 것이 요구될 수 있다. 이를 위하여, 자연어 질의(NQ)의 문맥이 이용될 수 있고, 문맥, 예컨대 자연어 질의(NQ)에 포함된 다른 단어와 관련성이 높은 지식 인스턴스가 선정될 수 있다. 일부 실시예들에서, 현재 자연어 질의 이전에 동일한 사용자로부터 수신된 자연어 질의가 다수의 지식 인스턴스들 중 하나를 선정할 때 사용될 수도 있다.

엔티티 선정부(126)는 적어도 하나의 후보 엔티티(C_ENT)를 필터링함으로써 적어도 하나의 엔티티(ENT)를 생성할 수 있다. 일부 실시예들에서, 엔티티 링킹부(124)는 자연어 질의(NQ)로부터 추출된 단어들 중 일부에 대응하는 2이상의 후보 엔티티들을 엔티티 선정부(126)에 제공할 수 있다. 엔티티 선정부(126)는 2이상의 후보 엔티티들을 중요도에 따라 필터링함으로써 적어도 하나의 엔티티(ENT)를 생성할 수 있다. 예를 들면, 엔티티 선정부(126)는 딥러닝 네트워크를 포함할 수 있고, 딥러닝 네트워크는 도 1의 질의 응답 시스템(10)의 응답(ANS)이 자연어 질의(NQ)에 대한 적절한 답변인지 여부를 나타내는 보상(RWD)에 따라 강화 학습(reinforcement learning)될 수 있다. 이에 따라, 엔티티 선정부(126)는 2이상의 후보 엔티티들을 필터링함으로써 도 2의 문서 추출부(140)에 제공되는 적어도 하나의 엔티티(ENT)를 생성할 수 있다.

도 5는 본 발명의 예시적 실시예에 따라 도 2의 문서 추출부(140)의 예시를 나타내는 블록도이다. 도 2를 참조하여 전술된 바와 같이, 도 5의 문서 추출부(140')는 도 2의 엔티티 추출부(120)로부터 엔티티(ENT)를 수신할 수 있고, 엔티티(ENT)에 기초하여 엔티티 정보(E_IF)를 지식베이스(20)로부터 수신할 수 있으며, 엔티티 정보(E_IF)에 기초하여 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 도 5에 도시된 바와 같이, 문서 추출부(140')는 정보 검색부(142) 및 문서 생성부(144)를 포함할 수 있고, 이하에서 도 5는 도 2를 참조하여 설명될 것이다.

정보 검색부(142)는 엔티티(ENT)를 수신할 수 있고, 엔티티(ENT)에 기초하여 지식베이스(20)에서 엔티티(ENT)에 대응하는 엔티티 정보(E_IF)를 검색할 수 있다. 도 2를 참조하여 전술된 바와 같이, 엔티티 정보(E_IF)는 엔티티(ENT)에 대응하는 지식 인스턴스와 관련된, 지식베이스(20)에 포함된 정보를 지칭할 수 있다. 일부 실시예들에서, 엔티티 정보(E_IF)는 도 3을 참조하여 전술된 바와 같이 텍스트 데이터를 포함할 수도 있고, 엔티티(ENT)에 대응하는 지식 인스턴스를 주어로 가지는 다수의 트리플들을 포함할 수도 있다. 정보 검색부(142)는 이와 같은 엔티티 정보(E_IF)를 검색하여 문서 생성부(144)에 제공할 수 있다.

문서 생성부(144)는 정보 검색부(142)로부터 엔티티 정보(E_IF)를 수신할 수 있고, 엔티티 정보(E_IF)로부터 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 일부 실시예들에서, 엔티티 정보(E_IF)가 텍스트 데이터를 포함하는 경우, 문서 생성부(144)는 텍스트 데이터를 변환함으로써 문서(DOC)를 생성할 수 있다. 일부 실시예들에서, 엔티티 정보(E_IF)가 다수의 트리플들을 포함하는 경우, 문서 생성부(144)는 다수의 트리플들을 자연어 문장들로 변환하고, 자연어 문장들을 포함하는 문서(DOC)를 생성할 수 있다. 문서 생성부(144)가 다수의 트리플들을 포함하는 엔티티 정보(E_IF)로부터 기계 독해를 위한 문서(DOC)를 생성하는 예시는 도 6을 참조하여 설명될 것이다.

도 6은 본 발명의 예시적 실시예에 따라 도 5의 문서 생성부(144)의 동작의 예시를 나타내는 도면이다. 구체적으로, 도 6은 문서 생성부(144)에 의해서 다수의 트리플들로부터 기계 독해를 위한 문서(DOC)가 생성되는 예시를 나타낸다. 도 5를 참조하여 전술된 바와 같이, 문서 생성부(144)는 엔티티 정보(E_IF)로부터 기계 독해를 위한 문서(DOC)를 생성할 수 있다. 이하에서 도 6은 도 5를 참조하여 설명될 것이다.

도 5를 참조하여 전술된 바와 같이, 정보 검색부(142)에 의해서 다수의 트리플들을 포함하는 엔티티 정보(E_IF)가 지식베이스(20)로부터 검색될 수 있다. 도 6의 좌측을 참조하면, 트리플은 사각형으로 표시된 주어, 원형으로 표시된 목적어, 그리고 사각형과 원형을 연결하는 에지로 표시된 술어를 포함할 수 있다. 도 6의 좌측에서 동일한 무늬의 사각형들로 표시된 바와 같이, 동일한 지식 인스턴스(또는 엔티티)에 대하여 상이한 정보를 각각 나타내는 다수의 트리플들이 엔티티 정보(E_IF)에 포함될 수 있다.

문서 생성부(144)는 엔티티 정보(E_IF)에 포함된 트리플들 각각을 자연어 문장으로 변환할 수 있고, 변환된 자연어 문장들을 포함하는 문서(DOC)를 생성할 수 있다. 예를 들면, 도 6의 우측에 도시된 바와 같이, 자연어 문장은 트리플의 주어 및 술어를 주어로서 가질 수 있고, 트리플의 목적어를 보어로서 가질 수 있다. 이에 따라, 지식베이스(20)의 온톨로지에 따른 구조를 가지는 엔티티 정보(E_IF)는 문서 생성부(144)에 의해서 다수의 자연어 문장들을 포함하는 기계 독해를 위한 문서(DOC)로 변환될 수 있다. 도 6에 도시된 자연어 문장은 예시일 뿐이며, 문서 생성부(144)는 트리플로부터 도 6에 도시된 자연어 문장과 상이한 구조의 자연어 문장을 생성할 수도 있다.

도 7은 본 발명의 예시적 실시예에 따라 도 1의 기계 독해 엔진(200)의 예시를 나타내는 블록도이고, 도 8은 본 발명의 예시적 실시예에 따라 도 7의 기계 독해 엔진(200')의 동작의 예시를 나타내는 도면이다. 도 1을 참조하여 전술된 바와 같이, 도 7의 기계 독해 엔진(200')은 자연어 질의(NQ) 및 문서(DOC)를 수신할 수 있고, 기계 독해에 기초하여 문서(DOC)로부터 추출된 자연어 질의(NQ)에 대한 응답(ANS)을 출력할 수 있다. 도 7에 도시된 바와 같이, 기계 독해 엔진(200')은 벡터 추출부(220) 및 딥러닝 네트워크(240)를 포함할 수 있고, 이하에서 도 7 및 도 8은 도 1을 참조하여 설명될 것이다.

벡터 추출부(220)는 자연어 질의(NQ) 및 문서(DOC)를 수신할 수 있고, 워드 벡터 모델(30)을 참조하여 워드 벡터들, 즉 질의 벡터(V_NQ) 및 문서 벡터(V_DOC)를 추출할 수 있다. 워드 벡터는 딥 러닝(deep learning) 기법을 자연어 처리에 적용하기 위한 것으로서 고유 벡터로서 지칭될 있다. 특정 텀(term)(또는 주제어)을 표현하기 위하여 텀에 대한 고유 벡터를 생성하고, 고유 벡터들은 유한한 자원(예컨대, 100 차원 또는 50 차원 등)의 벡터 공간에서 표현될 수 있다. 이러한 워드 벡터의 값, 즉 차원들 각각의 값은 바이너리 값이 아닌 정수 또는 실수의 값을 가지를 수 있고, 동일 차원의 값이 높을수록 의미적으로 유사한 것으로 간주될 수 있다. 예를 들면, 도 3의 예시에서 "손흥민"은 100차원의 워드 벡터 " [0.5, 0.3, 0.1, 0.32, 0.51, 0.62, ..., 0.12, 0.62]"에 대응할 수 있다. 이와 같이, 텀을 워드 벡터로서 나타내는 것은 워드 임베딩(word embedding)으로 지칭될 수 있으며, 텀은 적어도 하나의 단어를 포함하는 말뭉치(chunk)에 대응할 수 있다. 워드 벡터 모델(30)은 텀들에 대한 워드 벡터들을 제공할 수 있다.

벡터 추출부(220)는 자연어 질의(NQ) 및 문서(DOC)에 포함된 자연어 문장들을 형태소 분석함으로써 텀들을 추출할 수 있고, 추출된 텀들에 대응하는 워드 벡터들을 워드 벡터 모델(30)로부터 획득할 수 있다. 이에 따라, 질의 벡터(V_NQ) 및 문서 벡터(V_DOC) 각각은 워드 벡터들의 집합일 수 있다. 예를 들면, 도 8에 도시된 바와 같이, 벡터 추출부(220)는 도 3의 자연어 질의 "손흥민의 현재 소속팀은"로부터 질의 벡터(V_NQ)로서 " [[0.5, 0.3, 0.1, 0.32, 0.51, 0.62, ..., 0.12, 0.62], [0.23, 0.97, 0.61, 0.32, 0.95, 0.62, ..., 0.51, 0.23], ..., [0.87, 0.161, 0.12, 0.73, 0.43, 0.752, ..., 0.71, 0.133]]"를 생성할 수 있고, 질의 벡터(V_NQ)는 자연어 질의의 길이, 즉 형태소 분석을 통해서 추출된 텀들의 개수인 7개의 워드 벡터들을 포함할 수 있다. 또한, 벡터 추출부(220)는 도 3의 텍스트 데이터 "손흥민은 대한민국의 ..."로부터 생성된 문서(DOC)로부터 문서 벡터(V_DOC)로서 "[[0.5, 0.3, 0.1, 0.32, 0.51, 0.62, ..., 0.12, 0.62], [0.35, 0.127, 0.86, 0.73, 0.28, 0.52, ..., 0.567, 0.2], ..., [0.96, 0.744, 0.24, 0.64, 0.737, 0.54, ..., 0.574, 0.86]]"를 생성할 수 있고, 문서 벡터(V_DOC)는 문서(DOC)의 길이, 즉 형태소 분석을 통해서 추출된 텀들의 개수인 129개의 워드 벡터들을 포함할 수 있다. 일부 실시예들에서, 벡터 추출부(220)는 문서 제공 시스템(100)(예컨대, 도 4의 형태소 분석부(122))으로부터 자연어 질의(NQ)에 대한 형태소 분석 결과를 수신할 수도 있다.

딥러닝 네트워크(240)는 인공 신경망으로서, 질의 및 응답을 포함하는 문서에 대응하는 워드 벡터들로부터 응답을 출력하도록 학습된 상태일 수 있다. 이에 따라, 딥러닝 네트워크(240)는 벡터 추출부(220)로부터 수신된 질의 벡터(V_NQ) 및 문서 벡터(V_DOC)에 대응하는 응답(ANS)을 출력할 수 있다. 예를 들면, 도 8에 도시된 바와 같이, 딥러닝 네트워크는 응답(ANS)에 대응하는 응답 벡터(V_ANS)를 생성할 수 있고, 워드 벡터 모델(30)을 참조하여 응답 벡터(V_ANS)에 대응하는 텀으로서 응답(ANS)을 출력할 수 있다.

일부 실시예들에서, 딥러닝 네트워크(240)는 피드백(FB)을 수신할 수 있다. 피드백(FB)은 응답(ANS)이 자연어 질의(NQ)에 적절한지 여부를 나타낼 수 있고, 일부 실시예들에서 피드백(FB)은 자연어 질의(NQ)를 제공한 사용자 또는 딥러닝 네트워크(240)를 트레이닝하기 위한 시스템으로부터 제공될 수 있다. 딥러닝 네트워크(240)는 피드백(FB)에 기초하여 응답(ANS)이 자연어 질의(NQ)에 적절한 정도를 나타내는 보상(RWD)을 생성할 수 있다. 도 4를 참조하여 전술된 바와 같이, 보상(RWD)은 엔티티 추출부(120')의 엔티티 선정부(126)에 제공될 수 있고, 엔티티 선정부(126)는 보상(RWD)에 기초하여 강화 학습될 수 있다.

도 9는 본 발명의 예시적 실시예에 따른 질의 응답 방법을 나타내는 순서도이다. 일부 실시예들에서, 도 9는 도 1의 질의 응답 시스템(10)에 의해서 수행될 수 있고, 이하에서 도 9는 도 1을 참조하여 설명될 것이다.

도 9를 참조하면, 단계 S10에서 자연어 질의(NQ)를 수신하는 동작이 수행될 수 있다. 예를 들면, 문서 제공 시스템(100)은 다양한 방식으로 질의 응답 시스템(10)에 수신될 수 있고, 자연어 질의(NQ)는 문서 제공 시스템(100) 및 기계 독해 엔진(200)에 제공될 수 있다.

단계 S20에서, 적어도 하나의 엔티티(ENT)를 추출하는 동작이 수행될 수 있다. 예를 들면, 문서 제공 시스템(100)은 자연어 질의(NQ)를 형태소 분석함으로써 복수의 단어들을 추출할 수 있고, 지식베이스(20)에 저장된 지식 인스턴스들을 참조하여 적어도 하나의 엔티티(ENT)를 추출할 수 있다. 일부 실시예들에서, 엔티티(ENT)는 지식베이스(20)에 포함된 지식 인스턴스의 식별자를 포함할 수 있다.

단계 S30에서, 엔티티 정보(E_IF)를 획득하는 동작이 수행될 수 있다. 예를 들면, 문서 제공 시스템(100)은 단계 S20에서 추출된 엔티티(ENT)에 기초하여 지식베이스(20)로부터 엔티티 정보(E_IF)를 수신할 수 있다. 엔티티 정보(E_IF)는, 일부 실시예들에서 엔티티(ENT)에 대응하는 지식 인스턴스의 정보를 나타내는 텍스트 데이터를 포함할 수도 있고, 일부 실시예들에서 엔티티(ENT)에 대응하는 지식 인스턴스를 주어로서 가지는 다수의 트리플들을 포함할 수도 있다.

단계 S40에서, 기계 독해를 위한 문서(DOC)를 생성하는 동작이 수행될 수 있다. 예를 들면, 문서 제공 시스템(100)은 단계 S30에서 획득된 엔티티 정보(E_IF)로부터 문서(DOC)를 생성할 수 있다. 일부 실시예들에서 엔티티 정보(E_IF)가 엔티티(ENT)에 대한 정보를 나타내는 텍스트 데이터를 포함하는 경우, 문서 제공 시스템(100)은 텍스트 데이터를 변환함으로써 문서(DOC)를 생성할 수 있다. 일부 실시예들에서, 엔티티 정보(E_IF)가 다수의 트리플들을 포함하는 경우, 문서 제공 시스템(100)은 다수의 트리플들을 다수의 자연어 문장들로 변환하고, 다수의 자연어 문장들을 포함하는 문서(DOC)를 생성할 수 있다.

단계 S50에서, 자연어 질의(NQ) 및 문서(DOC)를 워드 벡터들로 변환하는 동작이 수행될 수 있다. 예를 들면, 기계 독해 엔진(200)은 자연어 질의(NQ) 및 문서(DOC)를 형태소 분석함으로써 다수의 텀들을 추출할 수 있고, 워드 벡터 모델(30)을 사용하여 다수의 텀들에 대응하는 워드 벡터들을 획득할 수 있다. 이에 따라, 자연어 질의(NQ) 및 문서(DOC) 각각은 다수의 워드 벡터들을 포함하는 워드 벡터들의 집합(예컨대, 도 8의 V_NQ, V_DOC)으로 변환될 수 있다.

단계 S60에서, 기계 독해를 수행함으로써 응답을 출력하는 동작이 수행될 수 있다. 예를 들면, 기계 독해 엔진(200)은 단계 S50에서 변환된 워드 벡터들로부터 응답(ANS)에 대응하는 워드 벡터를 생성할 수 있고, 생성된 워드 벡터로부터 워드 벡터 모델(30)을 참조하여 응답(ANS)을 출력할 수 있다. 일부 실시예들에서, 기계 독해 엔진(200)은 피드백(FB)을 수신할 수 있고, 피드백(FB)에 기초하여 보상(RWD)을 생성하여 문서 제공 시스템(100)에 제공할 수도 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들이 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

기계 독해(machine reading comprehension)를 위한 문서를 제공하는 시스템으로서,
지식베이스를 참조하여 자연어 질의로부터 적어도 하나의 엔티티를 추출하도록 구성된 엔티티 추출부; 및
상기 지식베이스로부터 상기 적어도 하나의 엔티티에 관한 엔티티 정보를 획득하고, 상기 엔티티 정보에 기초하여 상기 기계 독해를 위한 적어도 하나의 문서를 생성하도록 구성된 문서 추출부를 포함하는 시스템.
청구항 1에 있어서,
상기 엔티티 추출부는,
형태소를 분석함으로써 상기 자연어 질의로부터 단어들을 추출하도록 구성된 형태소 분석부;
상기 단어들에 따라 상기 지식베이스를 참조하여 적어도 하나의 후보 엔티티를 생성하도록 구성된 엔티티 링킹부; 및
상기 적어도 하나의 후보 엔티티를 필터링함으로써 상기 적어도 하나의 엔티티를 생성하도록 구성된 엔티티 선정부를 포함하는 것을 특징으로 하는 시스템.
청구항 2에 있어서,
상기 엔티티 링킹부는, 상기 자연어 질의에 포함된 단어들 중 명사에 대응하는 단어를 추출하고, 추출된 상기 단어에 기초하여 상기 지식베이스에서 지식 인스턴스를 검색하고, 검색된 지식 인스턴스에 대응하는 식별자를 후보 엔티티로서 생성하도록 구성된 것을 특징으로 하는 시스템.
청구항 2에 있어서,
상기 엔티티 선정부는, 상기 자연어 질의 및 상기 문서에 따라 상기 기계 독해에 의해서 도출된 응답이 상기 자연어 질의에 대한 적절한 응답인지를 나타내는 보상(reward)을 수신하고, 2이상의 후보 엔티티들로부터 적어도 하나의 엔티티를 선정하도록 상기 보상에 따라 강화 학습된 것을 특징으로 하는 시스템.
청구항 1에 있어서,
상기 문서 추출부는,
상기 적어도 하나의 엔티티에 기초하여 상기 지식베이스에서 상기 적어도 하나의 엔티티에 대응하는 상기 엔티티 정보를 검색하도록 구성된 정보 검색부; 및
상기 엔티티 정보로부터 상기 적어도 하나의 문서를 생성하도록 구성된 문서 생성부를 포함하는 것을 특징으로 하는 시스템.
청구항 5에 있어서,
상기 지식베이스는, 지식 인스턴스를 주어로서 포함하고 상기 지식 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는, 트리플(triple)을 포함하고,
상기 엔티티 정보는, 상기 적어도 하나의 엔티티에 대응하는 지식 인스턴스를 주어로서 가지는 트리플을 포함하는 것을 특징으로 하는 시스템.
청구항 6에 있어서,
상기 문서 생성부는, 상기 트리플을 문장으로 변환하고, 상기 문장을 포함하는 상기 적어도 하나의 문서를 생성하도록 구성된 것을 특징으로 하는 시스템.
자연어 질의에 대한 응답을 제공하는 질의 응답 시스템으로서,
청구항 1의 시스템; 및
상기 청구항 1의 시스템으로부터 상기 적어도 하나의 문서를 수신하고, 기계 독해(machine reading comprehension)에 기초하여 상기 자연어 질의에 대한 응답을 상기 적어도 하나의 문서에서 추출하도록 구성된 기계 독해 엔진을 포함하는 질의 응답 시스템.
청구항 8에 있어서,
상기 기계 독해 엔진은,
워드 벡터 모델에 기초하여 상기 자연어 질의 및 상기 적어도 하나의 문서로부터 워드 벡터들을 추출하도록 구성된 벡터 추출부; 및
질의 및 응답을 포함하는 문서에 대응하는 워드 벡터들로부터 응답을 출력하도록 학습되고, 상기 벡터 추출부로부터 추출된 워드 벡터를 수신하도록 구성된 딥러닝 네트워크를 포함하는 것을 특징으로 하는 질의 응답 시스템.
청구항 8에 있어서,
상기 기계 독해 엔진은, 상기 응답에 대한 피드백을 수신하도록 구성되고, 상기 피드백에 기초하여 상기 청구항 1의 시스템에 보상(reward)을 제공하도록 구성된 것을 특징으로 하는 질의 응답 시스템.