KR102256007B1

KR102256007B1 - 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법

Info

Publication number: KR102256007B1
Application number: KR1020190113798A
Authority: KR
Inventors: 백승빈; 이명기; 이정환
Original assignee: (주)플랜아이
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2021-05-25
Also published as: KR20210032253A

Abstract

본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 관한 것으로서, 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 1 질의 형태소 분석기; 상기 토큰화된 자연어 질의를 사용하여 상기 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 자연어 질의 & 문서 매칭 엔진; 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 문서 내 자연어 응답 위치 추출 엔진;을 포함하는 것을 특징으로 한다.

Description

자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법{System and method for searching documents and providing an answer to a natural language question}

본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법에 관한 것으로서, 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법에 관한 것이다.

일반적인 검색 시스템은 데이터베이스 내에서 검색어와 가장 유사한 형태를 가지는 문서나 콘텐츠를 찾아 나열하고 있으나, 자연어 질의(사람이 일상생활에서 물어보는 형태의 질의)에 대한 응답을 찾아주지는 못한다.

문서 검색이란 사용자가 입력한 검색 키워드를 바탕으로 문서의 집합으로부터 관련 문서를 찾아내는 것인데, 대량의 문서 집합으로부터 검색 키워드를 포함한 문서를 고속으로 찾아내기 위하여 전치 인덱스라고 불리는 것을 일반적으로 사용하고 있으며, 전치 인덱스의 확장 버전으로 단어의 위치에 주목하는 구문 검색 방법이 있는데, 구체적으로는 먼저 전치 인덱스를 만들고 문서 번호에 덧붙여 단어 위치도 함께 표시하여 구문 검색을 가능하게 할 수 있다.

그러나, 일반적인 문석 검색에서 사용자는 필요한 문서를 얻기 위해 필요한 문서를 대표하는 검색어를 생성하고, 검색 후 필요한 문서를 포함하고 있다고 생각되는 콘텐츠를 탐색 및 선택하며, 선택한 콘텐츠 내에서 필요한 문서를 탐색하는 과정을 거치게 되는데, 개인의 검색 능력에 영향을 받기 때문에 필요한 정보를 찾지 못하거나 정보 탐색에 많은 시간을 소모하게 되는 불편함이 있다.

자연어 처리(Natural Language Processing) 분야는 순환 신경망(RNN: Recurrent Neural Network)에 기반한 모델이 대부분이었으나, 최근, 병렬로 입력 데이터를 한꺼번에 처리하여 문맥과 같은 의미적 연결을 다룰 수 있는 트랜스포머(Transformer) 기술이 등장하였고, 이러한 트랜스포머의 인코더를 이용하여 더욱 더 발전된 모델인 BERT(Bidirectional Encoder Representations from Transformers)가 등장하였다.

그러나 자연어 처리를 위해서는 아주 많은 컴퓨팅 자원이 필요하고, 웹 검색과 같이 대량의 문서 검색에는 적용하기 어렵다는 문제점이 있다.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, 2018, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

본 발명은 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 것을 목적으로 한다.

또한 본 발명의 다른 목적은 웹 검색과 같은 방대한 검색에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 것이다.

또한 본 발명의 다른 목적은 대량의 데이터가 저장된 데이터베이스에 대해서도 자연어 응답 위치 추출이 적용되는 전문 검색이 가능하도록 하는 것이다.

본 발명이 해결하고자 하는 과제는 상기 목적으로만 제한하지 아니하고, 위에서 명시적으로 나타내지 아니한 다른 기술적 과제는 이하 본 발명의 구성 및 작용을 통하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 쉽게 이해할 수 있을 것이다.

본 발명에서는, 상기 과제를 해결하기 위하여 이하의 구성을 포함한다.

본 발명은 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 2 질의 형태소 분석기를 더 포함하고, 상기 문서 내 자연어 응답 위치 추출 엔진은 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 한다.

본 발명의 제 1 질의 형태소 분석기는 자연어 질의에서 품사를 분석하고, 제 2 질의 형태소 분석기는 자연어 질의에서 자소를 분석하는 것을 특징으로 한다.

본 발명의 상기 문서 내 자연어 응답 위치 추출 엔진은 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하는 것을 특징으로 한다.

본 발명의 상기 문서 내 자연어 응답 위치 추출 엔진은 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 한다.

본 발명의 상기 자연어 질의 & 문서 매칭 엔진은 상기 토큰화된 자연어 질의를 사용하여 적어도 하나 이상의 문서를 선별하고, 스코어 알고리즘을 적용하는 것을 특징으로 한다.

본 발명은 수집된 대량의 문서를 토큰화하고 색인화하여 상기 데이터베이스에 저장하는 문서용 형태소 분석기를 더 포함하는 것을 특징으로 한다.

또한 본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 방법에 관한 것으로서, 제 1 질의 형태소 분석기에서 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계; 자연어 질의 & 문서 매칭 엔진에서 상기 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 단계; 문서 내 자연어 응답 위치 추출 엔진에서 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 단계;를 포함하는 것을 특징으로 한다.

본 발명은 제 2 질의 형태소 분석기에서 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계를 더 포함하고, 상기 문서 내 자연어 응답 위치 추출 엔진은 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 한다.

또한 본 발명은 상기 자연어 질의를 통한 문서 검색 및 응답 제공 방법을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램일 수 있다.

본 발명의 효과는 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하게 하는 것이다.

또한 본 발명의 다른 효과는, 웹 검색과 같은 방대한 검색에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 것이다.

또한 본 발명의 또 다른 효과는, 대량의 데이터가 저장된 데이터베이스에 대해서도 자연어 응답 위치 추출이 적용되는 전문 검색이 가능하도록 하는 것이다.

본 발명에 의한 효과는 상기 효과로만 제한하지 아니하고, 위에서 명시적으로 나타내지 아니한 다른 효과는 이하 본 발명의 구성 및 작용을 통하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 쉽게 이해할 수 있을 것이다.

도 1은 데이터베이스 내에서 검색어와 가장 비슷한 형태를 가지는 문서나 콘텐츠를 찾아 나열하는 일반적인 검색 시스템을 도시한다.
도 2는 자연어 처리를 적용하여 문서를 검색하는 일반적인 검색 시스템을 도시한다.
도 3은 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 시스템을 도시한다.
도 4는 본 발명의 문서내 자연어 응답 위치 추출 엔진의 내부 구성도를 도시한다.
도 5는 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 방법의 흐름도를 도시한다.

이하 본 발명의 바람직한 실시예에 따른 전체적인 구성 및 작용에 대해 설명하기로 한다. 이러한 실시예는 예시적인 것으로서 본 발명의 구성 및 작용을 제한하지는 아니하고, 실시예에서 명시적으로 나타내지 아니한 다른 구성 및 작용도 이하 본 발명의 실시예를 통하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 쉽게 이해할 수 있는 경우는 본 발명의 기술적 사상으로 볼 수 있을 것이다.

일반적인 범용 검색엔진에 비하여 전문 검색엔진은 소량의 데이터가 저장된 데이터베이스에 대해서 적용되고 있으나, 본 발명은 대량의 데이터가 저장되는 데이터베이스에 대해서도 전문 검색엔진이 적용 가능하도록 하고, 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 한다.

도 1은 데이터베이스 내에서 검색어와 가장 비슷한 형태를 가지는 문서나 콘텐츠를 찾아 나열하는 일반적인 검색 시스템을 도시한다.

도 1을 참조하면, 웹 검색을 위한 일반적인 검색 시스템은 문서용 형태소 분석기(100), 문서 데이터베이스(200), 질의 형태소 분석기(300), 자연어 질의 & 문서 매칭 엔진(400)을 구비하고, 웹 검색을 위하여 여러 사이트로부터 대량의 문서들(문서 1, 문서 2, 문서 3, …)을 수집하고, 수집한 문서들에 대해서 검색이 용이하도록 문서용 형태소 분석기(100)는 형태소 분석과 색인 등을 수행하여 문서 데이터베이스(200)에 저장하게 된다.

상기 질의 형태소 분석기(300)는 사용자로부터 자연어 질의를 입력받는 경우 상기 자연어 질의를 토큰화하는데, 토큰화에서는 주로 형태소 분석을 수행하고, 상기 자연어 질의 & 문서 매칭 엔진(400)은 상기 문서 데이터베이스(200)에 저장된 문서들에 대해서 검색을 수행하며, 상기 토큰화된 질의를 사용하여 상기 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하게 된다.

문서 데이터베이스(200)에 저장되어 있는 대량의 문서들로부터 검색 키워드를 포함한 문서를 고속으로 찾아내기 위하여 전치 인덱스를 일반적으로 사용하고 있으며, 전치 인덱스에서 문서 번호에 덧붙여 단어 위치도 함께 표시하여 구문 검색을 가능하게 할 수도 있으나, 대량의 문서들에 대해서 자연어 처리에 의한 구문 검색은 과도한 컴퓨팅 자원이 소모될 수 있으므로, 본 발명에서는 과도한 컴퓨팅 자원의 소모를 저감하기 위하여 검색 단계를 후술하는 바와 같이 단계적으로 분리할 수 있다.

또한 상기 자연어 질의 & 문서 매칭 엔진(300)은 스코어 알고리즘으로 tf-idf(term frequency-inverse document frequency) 또는 bm25 알고리즘을 사용하여 적어도 하나 이상의 문서를 선별할 수 있다.

도 2는 자연어 처리를 적용하여 문서를 검색하는 일반적인 검색 시스템을 도시한다.

도 2를 참조하면, 소량의 문서들이 저장된 문서 데이터베이스(200)에 대해서는 문서내 자연어 응답 위치 추출 엔진(500)이 질의에 맞는 응답과 응답의 위치를 쉽게 추론할 수 있으나, 대량의 문서들이 저장된 데이터베이스(200)에 대해서는 문서내 자연어 응답 위치 추출 엔진(500)이 질의에 맞는 응답과 응답의 위치를 추론하기 위하여 과도한 컴퓨팅 자원이 소모될 수 있으므로, 본 발명에서는 과도한 컴퓨팅 자원의 소모를 저감하기 위하여 검색 단계를 후술하는 바와 같이 단계적으로 분리할 수 있다.

도 3은 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 시스템을 도시한다.

도 3을 참조하면, 본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 관한 것으로서, 문서용 형태소 분석기(100), 문서 데이터베이스(200), 제 1 질의 형태소 분석기(310) , 제 2 질의 형태소 분석기(320), 자연어 질의 & 문서 매칭 엔진(400), 문서 내 자연어 응답 위치 추출 엔진(500)을 포함하고 있다.

제 1 질의 형태소 분석기(310)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데, 대량의 문서들 중에서 사용자의 질의와 관련된 문서를 빠르게 찾을 수 있도록 하기 위해서는 문자 그대로의 의미뿐만 아니라 한국어의 특성을 반영해야 한다. 이에 따라 제 1 질의 형태소 분석기(310)는 한국어의 특성을 반영하기 위해서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려하게 된다.

상기 자연어 질의 & 문서 매칭 엔진(400)은 상기 토큰화된 자연어 질의를 사용하여 상기 문서 데이터베이스(200) 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별할 수 있고, 제 1 질의 형태소 분석기(310)에서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려함에 따라 대량의 문서들로부터 사용자의 질의와 관련된 문서를 좀 더 빠르게 찾아낼 수 있다.

상기 자연어 질의 & 문서 매칭 엔진(400)에서는 검색 키워드의 빈도(Term Frequency)와 문서 빈도의 역수(Inverse Document Frequency)를 사용하는 스코어 알고리즘을 적용하여 발견한 문서에 적절한 순위를 매기고 있으며, 상기 스코어 알고리즘으로는 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘과 bm25 알고리즘이 사용될 수 있다.

제 2 질의 형태소 분석기(320)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데, 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 내에서 사용자의 질의와 관련된 응답의 위치를 정확하게 찾을 수 있도록 하기 위해서는 글자 하나 하나를 색인할 수 있어야 한다. 이에 따라 제 2 질의 형태소 분석기(320)는 사용자의 질의로부터 자소를 분석하여 사용하게 된다.

상기 문서 내 자연어 응답 위치 추출 엔진(500)은 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 구성으로서, 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하고, 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하게 된다.

상기 문서 내 자연어 응답 위치 추출 엔진(500)은 상기 문서 데이터베이스(200) 내의 모든 문서에 대해서 문서 내에서 단락의 위치에 대해서 임베딩을 수행하지 아니하고, 상기 선별된 문서인 소량의 문서에 대해서 문서 내에서 단락의 위치에 대해서 임베딩을 수행하여 질의에 맞는 응답의 위치를 추론함으로써, 결과적으로 본 발명은 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것이 가능해진다.

또한 웹 검색을 해보면, 표시되는 형식이나 사이트의 종류가 다를 뿐만 아니라 대량의 문서들이 수집될 수 있는데, 이러한 대량의 문서들에 대해서도 본 발명은 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출할 수 있게 된다.

도 4는 본 발명의 문서내 자연어 응답 위치 추출 엔진의 내부 구성도를 도시한다.

도 4를 참조하면, 본 발명의 문서 내 자연어 응답 위치 추출 엔진(500)은 트랜스포머가 양방향으로 활용되는 BERT(Bidirectional Encoder Representation from Transformers) 모델을 사용하여 구현될 수 있으며, BERT 모델은 트랜스포머 인코더를 쌓아 놓은 훈련된 모델로서, 토큰에 대한 변환, 문장 각각에 대한 위치, 단어의 문장에 대한 위치에 대해서 임베딩이 이루어질 수 있다.

도 5는 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 방법의 흐름도를 도시한다.

도 5를 참조하면, 본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 방법에 관한 것으로서, 문서용 형태소 분석기(100)에서 대량의 문서를 토큰화하고 색인화하여 문서 데이터베이스(200)에 저장하고(S100), 제 1 질의 형태소 분석기(310)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계(S200)를 수행한다.

자연어 질의 & 문서 매칭 엔진(400)은 상기 토큰화된 자연어 질의를 사용하여 상기 문서 데이터베이스(200) 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하며(S300), 제 1 질의 형태소 분석기(310)에서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려함에 따라 대량의 문서들로부터 사용자의 질의와 관련된 문서를 좀 더 빠르게 찾아낼 수 있다.

제 2 질의 형태소 분석기(320)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데(S400), 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 내에서 사용자의 질의와 관련된 응답의 위치를 정확하게 찾을 수 있도록 하기 위해서는 글자 하나 하나를 색인할 수 있어야 한다. 이에 따라 제 2 질의 형태소 분석기(320)는 사용자의 질의로부터 자소를 분석하여 사용하게 된다.

문서 내 자연어 응답 위치 추출 엔진은 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 단계(S400)를 수행하게 된다.

또한 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 방법은 컴퓨터프로그램으로서 매체에 저장되어 구현될 수도 있다.

100: 문서용 형태소 분석기
200: 문서 데이터베이스
300: 질의 형태소 분석기
310: 제 1 질의 형태소 분석기
320: 제 2 질의 형태소 분석기
400: 자연어 질의 & 문서 매칭 엔진
500: 문서내 자연어 응답 위치 추출 엔진

Claims

자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 있어서,
사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 1 질의 형태소 분석기;
상기 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 자연어 질의 & 문서 매칭 엔진;
상기 사용자로부터 입력된 자연어 질의를 토큰화하는 제 2 질의 형태소 분석기;
제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 복수의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 문서 내 자연어 응답 위치 추출 엔진;을 포함하고,
제 1 질의 형태소 분석기는 자연어 질의에서 품사를 분석하고,
제 2 질의 형태소 분석기는 자연어 질의에서 자소를 분석하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
삭제
삭제
제 1 항에 있어서,
상기 문서 내 자연어 응답 위치 추출 엔진은 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
제 4 항에 있어서,
상기 문서 내 자연어 응답 위치 추출 엔진은 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
제 1 항에 있어서,
상기 자연어 질의 & 문서 매칭 엔진은 상기 토큰화된 자연어 질의를 사용하여 적어도 하나 이상의 문서를 선별하고, 스코어 알고리즘을 적용하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
제 1 항에 있어서,
수집된 대량의 문서를 토큰화하고 색인화하여 상기 데이터베이스에 저장하는 문서용 형태소 분석기를 더 포함하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
자연어 질의를 통한 문서 검색 및 응답 제공 방법에 있어서,
제 1 질의 형태소 분석기에서 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계;
자연어 질의 & 문서 매칭 엔진에서 상기 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 단계;
제 2 질의 형태소 분석기에서 상기 사용자로부터 입력된 자연어 질의를 토큰화하는 단계;
문서 내 자연어 응답 위치 추출 엔진에서 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 복수의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 단계;를 포함하고,
제 1 질의 형태소 분석기는 자연어 질의에서 품사를 분석하고,
제 2 질의 형태소 분석기는 자연어 질의에서 자소를 분석하는하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 방법.
삭제
제 8 항의 자연어 질의를 통한 문서 검색 및 응답 제공 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터프로그램.