KR102256007B1 - 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 - Google Patents

자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 Download PDF

Info

Publication number
KR102256007B1
KR102256007B1 KR1020190113798A KR20190113798A KR102256007B1 KR 102256007 B1 KR102256007 B1 KR 102256007B1 KR 1020190113798 A KR1020190113798 A KR 1020190113798A KR 20190113798 A KR20190113798 A KR 20190113798A KR 102256007 B1 KR102256007 B1 KR 102256007B1
Authority
KR
South Korea
Prior art keywords
natural language
query
document
response
language query
Prior art date
Application number
KR1020190113798A
Other languages
English (en)
Other versions
KR20210032253A (ko
Inventor
백승빈
이명기
이정환
Original Assignee
(주)플랜아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)플랜아이 filed Critical (주)플랜아이
Priority to KR1020190113798A priority Critical patent/KR102256007B1/ko
Publication of KR20210032253A publication Critical patent/KR20210032253A/ko
Application granted granted Critical
Publication of KR102256007B1 publication Critical patent/KR102256007B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 관한 것으로서, 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 1 질의 형태소 분석기; 상기 토큰화된 자연어 질의를 사용하여 상기 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 자연어 질의 & 문서 매칭 엔진; 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 문서 내 자연어 응답 위치 추출 엔진;을 포함하는 것을 특징으로 한다.

Description

자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법{System and method for searching documents and providing an answer to a natural language question}
본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법에 관한 것으로서, 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법에 관한 것이다.
일반적인 검색 시스템은 데이터베이스 내에서 검색어와 가장 유사한 형태를 가지는 문서나 콘텐츠를 찾아 나열하고 있으나, 자연어 질의(사람이 일상생활에서 물어보는 형태의 질의)에 대한 응답을 찾아주지는 못한다.
문서 검색이란 사용자가 입력한 검색 키워드를 바탕으로 문서의 집합으로부터 관련 문서를 찾아내는 것인데, 대량의 문서 집합으로부터 검색 키워드를 포함한 문서를 고속으로 찾아내기 위하여 전치 인덱스라고 불리는 것을 일반적으로 사용하고 있으며, 전치 인덱스의 확장 버전으로 단어의 위치에 주목하는 구문 검색 방법이 있는데, 구체적으로는 먼저 전치 인덱스를 만들고 문서 번호에 덧붙여 단어 위치도 함께 표시하여 구문 검색을 가능하게 할 수 있다.
그러나, 일반적인 문석 검색에서 사용자는 필요한 문서를 얻기 위해 필요한 문서를 대표하는 검색어를 생성하고, 검색 후 필요한 문서를 포함하고 있다고 생각되는 콘텐츠를 탐색 및 선택하며, 선택한 콘텐츠 내에서 필요한 문서를 탐색하는 과정을 거치게 되는데, 개인의 검색 능력에 영향을 받기 때문에 필요한 정보를 찾지 못하거나 정보 탐색에 많은 시간을 소모하게 되는 불편함이 있다.
자연어 처리(Natural Language Processing) 분야는 순환 신경망(RNN: Recurrent Neural Network)에 기반한 모델이 대부분이었으나, 최근, 병렬로 입력 데이터를 한꺼번에 처리하여 문맥과 같은 의미적 연결을 다룰 수 있는 트랜스포머(Transformer) 기술이 등장하였고, 이러한 트랜스포머의 인코더를 이용하여 더욱 더 발전된 모델인 BERT(Bidirectional Encoder Representations from Transformers)가 등장하였다.
그러나 자연어 처리를 위해서는 아주 많은 컴퓨팅 자원이 필요하고, 웹 검색과 같이 대량의 문서 검색에는 적용하기 어렵다는 문제점이 있다.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, 2018, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
본 발명은 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 것을 목적으로 한다.
또한 본 발명의 다른 목적은 웹 검색과 같은 방대한 검색에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 것이다.
또한 본 발명의 다른 목적은 대량의 데이터가 저장된 데이터베이스에 대해서도 자연어 응답 위치 추출이 적용되는 전문 검색이 가능하도록 하는 것이다.
본 발명이 해결하고자 하는 과제는 상기 목적으로만 제한하지 아니하고, 위에서 명시적으로 나타내지 아니한 다른 기술적 과제는 이하 본 발명의 구성 및 작용을 통하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 쉽게 이해할 수 있을 것이다.
본 발명에서는, 상기 과제를 해결하기 위하여 이하의 구성을 포함한다.
본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 관한 것으로서, 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 1 질의 형태소 분석기; 상기 토큰화된 자연어 질의를 사용하여 상기 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 자연어 질의 & 문서 매칭 엔진; 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 문서 내 자연어 응답 위치 추출 엔진;을 포함하는 것을 특징으로 한다.
본 발명은 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 2 질의 형태소 분석기를 더 포함하고, 상기 문서 내 자연어 응답 위치 추출 엔진은 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 한다.
본 발명의 제 1 질의 형태소 분석기는 자연어 질의에서 품사를 분석하고, 제 2 질의 형태소 분석기는 자연어 질의에서 자소를 분석하는 것을 특징으로 한다.
본 발명의 상기 문서 내 자연어 응답 위치 추출 엔진은 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하는 것을 특징으로 한다.
본 발명의 상기 문서 내 자연어 응답 위치 추출 엔진은 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 한다.
본 발명의 상기 자연어 질의 & 문서 매칭 엔진은 상기 토큰화된 자연어 질의를 사용하여 적어도 하나 이상의 문서를 선별하고, 스코어 알고리즘을 적용하는 것을 특징으로 한다.
본 발명은 수집된 대량의 문서를 토큰화하고 색인화하여 상기 데이터베이스에 저장하는 문서용 형태소 분석기를 더 포함하는 것을 특징으로 한다.
또한 본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 방법에 관한 것으로서, 제 1 질의 형태소 분석기에서 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계; 자연어 질의 & 문서 매칭 엔진에서 상기 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 단계; 문서 내 자연어 응답 위치 추출 엔진에서 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 단계;를 포함하는 것을 특징으로 한다.
본 발명은 제 2 질의 형태소 분석기에서 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계를 더 포함하고, 상기 문서 내 자연어 응답 위치 추출 엔진은 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 한다.
또한 본 발명은 상기 자연어 질의를 통한 문서 검색 및 응답 제공 방법을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램일 수 있다.
본 발명의 효과는 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하게 하는 것이다.
또한 본 발명의 다른 효과는, 웹 검색과 같은 방대한 검색에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 하는 것이다.
또한 본 발명의 또 다른 효과는, 대량의 데이터가 저장된 데이터베이스에 대해서도 자연어 응답 위치 추출이 적용되는 전문 검색이 가능하도록 하는 것이다.
본 발명에 의한 효과는 상기 효과로만 제한하지 아니하고, 위에서 명시적으로 나타내지 아니한 다른 효과는 이하 본 발명의 구성 및 작용을 통하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 쉽게 이해할 수 있을 것이다.
도 1은 데이터베이스 내에서 검색어와 가장 비슷한 형태를 가지는 문서나 콘텐츠를 찾아 나열하는 일반적인 검색 시스템을 도시한다.
도 2는 자연어 처리를 적용하여 문서를 검색하는 일반적인 검색 시스템을 도시한다.
도 3은 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 시스템을 도시한다.
도 4는 본 발명의 문서내 자연어 응답 위치 추출 엔진의 내부 구성도를 도시한다.
도 5는 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 방법의 흐름도를 도시한다.
이하 본 발명의 바람직한 실시예에 따른 전체적인 구성 및 작용에 대해 설명하기로 한다. 이러한 실시예는 예시적인 것으로서 본 발명의 구성 및 작용을 제한하지는 아니하고, 실시예에서 명시적으로 나타내지 아니한 다른 구성 및 작용도 이하 본 발명의 실시예를 통하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 쉽게 이해할 수 있는 경우는 본 발명의 기술적 사상으로 볼 수 있을 것이다.
일반적인 범용 검색엔진에 비하여 전문 검색엔진은 소량의 데이터가 저장된 데이터베이스에 대해서 적용되고 있으나, 본 발명은 대량의 데이터가 저장되는 데이터베이스에 대해서도 전문 검색엔진이 적용 가능하도록 하고, 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것을 가능하도록 한다.
도 1은 데이터베이스 내에서 검색어와 가장 비슷한 형태를 가지는 문서나 콘텐츠를 찾아 나열하는 일반적인 검색 시스템을 도시한다.
도 1을 참조하면, 웹 검색을 위한 일반적인 검색 시스템은 문서용 형태소 분석기(100), 문서 데이터베이스(200), 질의 형태소 분석기(300), 자연어 질의 & 문서 매칭 엔진(400)을 구비하고, 웹 검색을 위하여 여러 사이트로부터 대량의 문서들(문서 1, 문서 2, 문서 3, …)을 수집하고, 수집한 문서들에 대해서 검색이 용이하도록 문서용 형태소 분석기(100)는 형태소 분석과 색인 등을 수행하여 문서 데이터베이스(200)에 저장하게 된다.
상기 질의 형태소 분석기(300)는 사용자로부터 자연어 질의를 입력받는 경우 상기 자연어 질의를 토큰화하는데, 토큰화에서는 주로 형태소 분석을 수행하고, 상기 자연어 질의 & 문서 매칭 엔진(400)은 상기 문서 데이터베이스(200)에 저장된 문서들에 대해서 검색을 수행하며, 상기 토큰화된 질의를 사용하여 상기 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하게 된다.
문서 데이터베이스(200)에 저장되어 있는 대량의 문서들로부터 검색 키워드를 포함한 문서를 고속으로 찾아내기 위하여 전치 인덱스를 일반적으로 사용하고 있으며, 전치 인덱스에서 문서 번호에 덧붙여 단어 위치도 함께 표시하여 구문 검색을 가능하게 할 수도 있으나, 대량의 문서들에 대해서 자연어 처리에 의한 구문 검색은 과도한 컴퓨팅 자원이 소모될 수 있으므로, 본 발명에서는 과도한 컴퓨팅 자원의 소모를 저감하기 위하여 검색 단계를 후술하는 바와 같이 단계적으로 분리할 수 있다.
또한 상기 자연어 질의 & 문서 매칭 엔진(300)은 스코어 알고리즘으로 tf-idf(term frequency-inverse document frequency) 또는 bm25 알고리즘을 사용하여 적어도 하나 이상의 문서를 선별할 수 있다.
도 2는 자연어 처리를 적용하여 문서를 검색하는 일반적인 검색 시스템을 도시한다.
도 2를 참조하면, 소량의 문서들이 저장된 문서 데이터베이스(200)에 대해서는 문서내 자연어 응답 위치 추출 엔진(500)이 질의에 맞는 응답과 응답의 위치를 쉽게 추론할 수 있으나, 대량의 문서들이 저장된 데이터베이스(200)에 대해서는 문서내 자연어 응답 위치 추출 엔진(500)이 질의에 맞는 응답과 응답의 위치를 추론하기 위하여 과도한 컴퓨팅 자원이 소모될 수 있으므로, 본 발명에서는 과도한 컴퓨팅 자원의 소모를 저감하기 위하여 검색 단계를 후술하는 바와 같이 단계적으로 분리할 수 있다.
도 3은 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 시스템을 도시한다.
도 3을 참조하면, 본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 관한 것으로서, 문서용 형태소 분석기(100), 문서 데이터베이스(200), 제 1 질의 형태소 분석기(310) , 제 2 질의 형태소 분석기(320), 자연어 질의 & 문서 매칭 엔진(400), 문서 내 자연어 응답 위치 추출 엔진(500)을 포함하고 있다.
제 1 질의 형태소 분석기(310)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데, 대량의 문서들 중에서 사용자의 질의와 관련된 문서를 빠르게 찾을 수 있도록 하기 위해서는 문자 그대로의 의미뿐만 아니라 한국어의 특성을 반영해야 한다. 이에 따라 제 1 질의 형태소 분석기(310)는 한국어의 특성을 반영하기 위해서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려하게 된다.
상기 자연어 질의 & 문서 매칭 엔진(400)은 상기 토큰화된 자연어 질의를 사용하여 상기 문서 데이터베이스(200) 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별할 수 있고, 제 1 질의 형태소 분석기(310)에서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려함에 따라 대량의 문서들로부터 사용자의 질의와 관련된 문서를 좀 더 빠르게 찾아낼 수 있다.
상기 자연어 질의 & 문서 매칭 엔진(400)에서는 검색 키워드의 빈도(Term Frequency)와 문서 빈도의 역수(Inverse Document Frequency)를 사용하는 스코어 알고리즘을 적용하여 발견한 문서에 적절한 순위를 매기고 있으며, 상기 스코어 알고리즘으로는 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘과 bm25 알고리즘이 사용될 수 있다.
제 2 질의 형태소 분석기(320)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데, 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 내에서 사용자의 질의와 관련된 응답의 위치를 정확하게 찾을 수 있도록 하기 위해서는 글자 하나 하나를 색인할 수 있어야 한다. 이에 따라 제 2 질의 형태소 분석기(320)는 사용자의 질의로부터 자소를 분석하여 사용하게 된다.
상기 문서 내 자연어 응답 위치 추출 엔진(500)은 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 구성으로서, 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하고, 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하게 된다.
상기 문서 내 자연어 응답 위치 추출 엔진(500)은 상기 문서 데이터베이스(200) 내의 모든 문서에 대해서 문서 내에서 단락의 위치에 대해서 임베딩을 수행하지 아니하고, 상기 선별된 문서인 소량의 문서에 대해서 문서 내에서 단락의 위치에 대해서 임베딩을 수행하여 질의에 맞는 응답의 위치를 추론함으로써, 결과적으로 본 발명은 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것이 가능해진다.
또한 웹 검색을 해보면, 표시되는 형식이나 사이트의 종류가 다를 뿐만 아니라 대량의 문서들이 수집될 수 있는데, 이러한 대량의 문서들에 대해서도 본 발명은 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출할 수 있게 된다.
도 4는 본 발명의 문서내 자연어 응답 위치 추출 엔진의 내부 구성도를 도시한다.
도 4를 참조하면, 본 발명의 문서 내 자연어 응답 위치 추출 엔진(500)은 트랜스포머가 양방향으로 활용되는 BERT(Bidirectional Encoder Representation from Transformers) 모델을 사용하여 구현될 수 있으며, BERT 모델은 트랜스포머 인코더를 쌓아 놓은 훈련된 모델로서, 토큰에 대한 변환, 문장 각각에 대한 위치, 단어의 문장에 대한 위치에 대해서 임베딩이 이루어질 수 있다.
도 5는 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 방법의 흐름도를 도시한다.
도 5를 참조하면, 본 발명은 자연어 질의를 통한 문서 검색 및 응답 제공 방법에 관한 것으로서, 문서용 형태소 분석기(100)에서 대량의 문서를 토큰화하고 색인화하여 문서 데이터베이스(200)에 저장하고(S100), 제 1 질의 형태소 분석기(310)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계(S200)를 수행한다.
제 1 질의 형태소 분석기(310)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데, 대량의 문서들 중에서 사용자의 질의와 관련된 문서를 빠르게 찾을 수 있도록 하기 위해서는 문자 그대로의 의미뿐만 아니라 한국어의 특성을 반영해야 한다. 이에 따라 제 1 질의 형태소 분석기(310)는 한국어의 특성을 반영하기 위해서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려하게 된다.
자연어 질의 & 문서 매칭 엔진(400)은 상기 토큰화된 자연어 질의를 사용하여 상기 문서 데이터베이스(200) 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하며(S300), 제 1 질의 형태소 분석기(310)에서 사용자의 질의로부터 품사를 분석하여 문자의 형태는 같더라도 품사가 다른 경우도 고려함에 따라 대량의 문서들로부터 사용자의 질의와 관련된 문서를 좀 더 빠르게 찾아낼 수 있다.
상기 자연어 질의 & 문서 매칭 엔진(400)에서는 검색 키워드의 빈도(Term Frequency)와 문서 빈도의 역수(Inverse Document Frequency)를 사용하는 스코어 알고리즘을 적용하여 발견한 문서에 적절한 순위를 매기고 있으며, 상기 스코어 알고리즘으로는 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘과 bm25 알고리즘이 사용될 수 있다.
제 2 질의 형태소 분석기(320)는 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 형태소 분석을 통하여 토큰화를 수행하는데(S400), 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 내에서 사용자의 질의와 관련된 응답의 위치를 정확하게 찾을 수 있도록 하기 위해서는 글자 하나 하나를 색인할 수 있어야 한다. 이에 따라 제 2 질의 형태소 분석기(320)는 사용자의 질의로부터 자소를 분석하여 사용하게 된다.
문서 내 자연어 응답 위치 추출 엔진은 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 단계(S400)를 수행하게 된다.
상기 문서 내 자연어 응답 위치 추출 엔진(500)은 상기 자연어 질의 & 문서 매칭 엔진(400)에서 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 구성으로서, 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하고, 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하게 된다.
상기 문서 내 자연어 응답 위치 추출 엔진(500)은 상기 문서 데이터베이스(200) 내의 모든 문서에 대해서 문서 내에서 단락의 위치에 대해서 임베딩을 수행하지 아니하고, 상기 선별된 문서인 소량의 문서에 대해서 문서 내에서 단락의 위치에 대해서 임베딩을 수행하여 질의에 맞는 응답의 위치를 추론함으로써, 결과적으로 본 발명은 대량의 문서에 대해서 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출하는 것이 가능해진다.
또한 웹 검색을 해보면, 표시되는 형식이나 사이트의 종류가 다를 뿐만 아니라 대량의 문서들이 수집될 수 있는데, 이러한 대량의 문서들에 대해서도 본 발명은 자연어 질의에 의한 검색과 문서 내 응답 위치를 추출할 수 있게 된다.
또한 본 발명의 자연어 질의를 통한 문서 검색 및 응답 제공 방법은 컴퓨터프로그램으로서 매체에 저장되어 구현될 수도 있다.
100: 문서용 형태소 분석기
200: 문서 데이터베이스
300: 질의 형태소 분석기
310: 제 1 질의 형태소 분석기
320: 제 2 질의 형태소 분석기
400: 자연어 질의 & 문서 매칭 엔진
500: 문서내 자연어 응답 위치 추출 엔진

Claims (10)

  1. 자연어 질의를 통한 문서 검색 및 응답 제공 시스템에 있어서,
    사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 제 1 질의 형태소 분석기;
    상기 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 자연어 질의 & 문서 매칭 엔진;
    상기 사용자로부터 입력된 자연어 질의를 토큰화하는 제 2 질의 형태소 분석기;
    제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 복수의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 문서 내 자연어 응답 위치 추출 엔진;을 포함하고,
    제 1 질의 형태소 분석기는 자연어 질의에서 품사를 분석하고,
    제 2 질의 형태소 분석기는 자연어 질의에서 자소를 분석하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 문서 내 자연어 응답 위치 추출 엔진은 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 문서 내에서 단락의 위치에 대해서 임베딩을 수행하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
  5. 제 4 항에 있어서,
    상기 문서 내 자연어 응답 위치 추출 엔진은 상기 임베딩된 단락의 위치를 사용하여 상기 선별된 적어도 하나 이상의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
  6. 제 1 항에 있어서,
    상기 자연어 질의 & 문서 매칭 엔진은 상기 토큰화된 자연어 질의를 사용하여 적어도 하나 이상의 문서를 선별하고, 스코어 알고리즘을 적용하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
  7. 제 1 항에 있어서,
    수집된 대량의 문서를 토큰화하고 색인화하여 상기 데이터베이스에 저장하는 문서용 형태소 분석기를 더 포함하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 시스템.
  8. 자연어 질의를 통한 문서 검색 및 응답 제공 방법에 있어서,
    제 1 질의 형태소 분석기에서 사용자로부터 자연어 질의가 입력되면 상기 자연어 질의를 토큰화하는 단계;
    자연어 질의 & 문서 매칭 엔진에서 상기 토큰화된 자연어 질의를 사용하여 데이터베이스 내의 모든 문서와 유사도 검사를 수행하여 적어도 하나 이상의 문서를 선별하는 단계;
    제 2 질의 형태소 분석기에서 상기 사용자로부터 입력된 자연어 질의를 토큰화하는 단계;
    문서 내 자연어 응답 위치 추출 엔진에서 제 2 질의 형태소 분석기에서 토큰화된 자연어 질의를 사용하여 상기 선별된 복수의 문서 각각에 대하여 질의에 맞는 응답의 위치를 추론하는 단계;를 포함하고,
    제 1 질의 형태소 분석기는 자연어 질의에서 품사를 분석하고,
    제 2 질의 형태소 분석기는 자연어 질의에서 자소를 분석하는하는 것을 특징으로 하는 자연어 질의를 통한 문서 검색 및 응답 제공 방법.
  9. 삭제
  10. 제 8 항의 자연어 질의를 통한 문서 검색 및 응답 제공 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터프로그램.
KR1020190113798A 2019-09-16 2019-09-16 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 KR102256007B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190113798A KR102256007B1 (ko) 2019-09-16 2019-09-16 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190113798A KR102256007B1 (ko) 2019-09-16 2019-09-16 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20210032253A KR20210032253A (ko) 2021-03-24
KR102256007B1 true KR102256007B1 (ko) 2021-05-25

Family

ID=75257104

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190113798A KR102256007B1 (ko) 2019-09-16 2019-09-16 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102256007B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230146398A (ko) 2022-04-12 2023-10-19 주식회사 엘지유플러스 바트 모델을 활용한 시퀀셜 텍스트 요약 처리 장치 및 그 제어방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230046086A (ko) 2021-09-29 2023-04-05 한국전자통신연구원 중요 문장 기반 검색 서비스 제공 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101988396B1 (ko) 2017-12-20 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리 생성 및 리소스 랭킹을 위한 시스템 및 이를 포함하는 질의 응답 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020027088A (ko) * 2000-10-06 2002-04-13 정우성 구문 분석에 의거한 자연어 처리 기술 및 그 응용
KR101686068B1 (ko) * 2015-02-24 2016-12-14 한국과학기술원 개념 그래프 매칭을 이용한 질의응답 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101988396B1 (ko) 2017-12-20 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리 생성 및 리소스 랭킹을 위한 시스템 및 이를 포함하는 질의 응답 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김선미 외 2인, 단어 연관성 가중치를 적용한 연관 문서 추천 방법, 멀티미디어학회논문지 22(2), 2019.02, 250-259페이지. 1부.*
윤보현 외 1인, 개념 속성 기반 정보 검색, 한국컴퓨터정보학회논문지 10(3), 2005.7. 1-10페이지. 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230146398A (ko) 2022-04-12 2023-10-19 주식회사 엘지유플러스 바트 모델을 활용한 시퀀셜 텍스트 요약 처리 장치 및 그 제어방법

Also Published As

Publication number Publication date
KR20210032253A (ko) 2021-03-24

Similar Documents

Publication Publication Date Title
Resnik et al. The web as a parallel corpus
Gupta et al. A survey of text mining techniques and applications
US9639609B2 (en) Enterprise search method and system
Bernardini et al. A WaCky introduction
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US20110307432A1 (en) Relevance for name segment searches
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
US10678820B2 (en) System and method for computerized semantic indexing and searching
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
US9262510B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
Nikas et al. Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models
US11409814B2 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
KR102088619B1 (ko) 검색 결과별 가변적 사용자 인터페이스 제공 시스템 및 방법
KR101238927B1 (ko) 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법
JP2010282403A (ja) 文書検索方法
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
US20080033953A1 (en) Method to search transactional web pages
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
US11150871B2 (en) Information density of documents
An et al. Enriching ontology for deep Web search
Vitório et al. Ulysses-RFSQ: A novel method to improve legal information retrieval based on relevance feedback
KR102111989B1 (ko) 자연어 질의에 대하여 시계열 정보를 제공하는 시스템 및 방법
Manna et al. Information retrieval-based question answering system on foods and recipes

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant