KR20220109188A - Ommited - Google Patents

Ommited Download PDF

Info

Publication number
KR20220109188A
KR20220109188A KR1020210012552A KR20210012552A KR20220109188A KR 20220109188 A KR20220109188 A KR 20220109188A KR 1020210012552 A KR1020210012552 A KR 1020210012552A KR 20210012552 A KR20210012552 A KR 20210012552A KR 20220109188 A KR20220109188 A KR 20220109188A
Authority
KR
South Korea
Prior art keywords
knowledge structure
sentence
query word
initial
search
Prior art date
Application number
KR1020210012552A
Other languages
Korean (ko)
Inventor
이세중
Original Assignee
이세중
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이세중 filed Critical 이세중
Priority to KR1020210012552A priority Critical patent/KR20220109188A/en
Publication of KR20220109188A publication Critical patent/KR20220109188A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

An AI-based sentence search method and system are presented. The prior literature sentence search method, according to an embodiment of the present invention, comprises the step of: extracting sentences in units of paragraphs from prior literature; obtaining an initial sentence search result by indexing the extracted sentence and searching for a sentence suitable for an input initial query word; extracting core concepts of a predetermined number of upper sentences from the initial sentence search result through natural language processing, and then extracting similarity information between the core concepts; generating a knowledge structure using similarity information between the core concepts; searching for core concepts of the constructed knowledge structure; adding a concept between the searched core concept in the knowledge structure and the initial query to a query word set; and re-performing the preceding sentence search by utilizing the expanded query word set. The present invention dramatically improves the sentence search performance of prior literature.

Description

인공지능 기반의 문장 검색 방법 및 시스템{OMMITED}AI-based sentence search method and system {OMMITED}

본 발명은 인공지능 기반의 구조 생성 방법을 활용한 문장 검색 방법 및 시스템에 관한 것으로, 더욱 상세하게는 인공지능을 활용한 지식 구조 생성 기술과 지식 구조 내 개념간의 유사도 정보를 활용한 문장 검색 방법 및 시스템에 관한 것이다. The present invention relates to a sentence search method and system using an artificial intelligence-based structure generation method, and more particularly, to a sentence search method and It's about the system.

일반적으로 검색 서비스를 제공하는 검색 웹사이트는 사용자로부터 질의어가 입력되면 상기 질의어에 대응하는 검색 결과(예를 들면, 상기 질의어를 포함하는 웹 사이트, 상기 질의어를 포함하는 기사, 상기 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공한다.In general, a search website that provides a search service provides a search result corresponding to a query when a query is input by a user (eg, a website including the query, an article including the query, and a file name including the query) images with , etc.) are provided to the user.

제한된 시간 안에 많은 판단을 수행해야 하는 시간적 제약으로 인하여 효율적인 의사 결정 지원 시스템이 되기 위하여 검색된 문서들 속에서 가장 핵심적인 문장들만 추출하여 사용자에게 제공해야 할 필요가 있다. 기존의 문장 검색 방법은 외부 리소스나 온톨로지로부터 관련 단어를 추출하는 방법이나, 상위에 검색된 문서로부터 기계적으로 관련 단어를 추출하는 방법 등이 사용되었다. In order to become an efficient decision support system due to the time constraint of performing many judgments within a limited time, it is necessary to extract only the most essential sentences from the searched documents and provide them to the user. Existing sentence search methods include a method of extracting related words from an external resource or ontology, or a method of mechanically extracting related words from a document searched above.

지식 구조 검색 활용 방법의 경우, 초기 검색된 콘텐츠들의 지식 구조들을 각각 구축하고 지식 구조 내에서 초기 질의어들의 거리를 측정하여, 해당 정보를 근접성으로 정의하여 초기 검색 결과를 재정렬 하였다. 그러나 초기에 검색된 문서 이외에 숨겨진 다른 문서들은 검색하지 못한다는 단점이 있다. In the case of the knowledge structure search utilization method, the initial search results were rearranged by constructing the knowledge structures of the initially searched contents, measuring the distance of the initial query words within the knowledge structure, and defining the corresponding information as proximity. However, there is a disadvantage that other hidden documents other than the initially searched document cannot be retrieved.

그리고, 지식 구조를 활용한 서비스의 경우, 다양한 카테고리를 사용자에게 추천할 수 있게 하는 추천 서비스와 위키피디아를 기반으로 구축한 지식 구조를 바탕으로 문제 생성을 자동으로 하는 교육 서비스가 있다. 그러나 선행 분야에서의 지식 구조를 활용한 서비스를 제공하기에는 부족한 기능을 가진다. And, in the case of a service using a knowledge structure, there are a recommendation service that can recommend various categories to users, and an education service that automatically creates a problem based on a knowledge structure built on Wikipedia. However, it has insufficient functions to provide a service utilizing the knowledge structure in the prior field.

대한민국 특허 등록번호 10-1538998호Republic of Korea Patent Registration No. 10-1538998

본 발명은 인공지능 기반의 문장 검색 방법 및 시스템에 관하여 기술하며, 보다 구체적으로 초기 질의어를 통해 상위에 검색된 복수 개의 선행 관련 문장로부터 통합된 지식 구조를 자동으로 생성하고, 생성된 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출하여 선행 문서의 문장 검색 성능을 보다 획기적으로 향상시키는 기술을 제공한다. The present invention relates to an artificial intelligence-based sentence search method and system, and more specifically, automatically generates an integrated knowledge structure from a plurality of preceding related sentences searched above through an initial query word, and expands the query word from the generated knowledge structure. It provides a technology to more dramatically improve the sentence search performance of a preceding document by automatically extracting keywords related to

실시예들은 복수 개의 리소스들로부터 통합된 지식 구조를 인공지능 기반의 텍스트 분석 기법을 통해 자동으로 구축함으로써, 각 리소스들에 대한 지식 구조를 각각 구축하여 통합하기 위해 고려해야 하는 통계적 방법들을 생략할 수 있고, 초기 질의어와 관련된 단어들을 묵시적으로 파악하여 초기 검색되지 못한 문서의 검색을 가능하게 하는 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법 및 시스템을 제공하는데 있다. The embodiments automatically build an integrated knowledge structure from a plurality of resources through an artificial intelligence-based text analysis technique, thereby omitting statistical methods that must be considered in order to build and integrate a knowledge structure for each resource. , to provide a method and system for searching prior literature sentences using an artificial intelligence-based knowledge structure creation method that implicitly identifies words related to initial query words and enables searches of documents that have not been initially searched for.

일 실시예에 따른 선행 문헌 문장 검색 방법은, 선행 문헌으로부터 문단 단위의 문장을 추출하는 단계; 추출된 상기 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 단계; 상기 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 상기 핵심 개념들 간의 유사도 정보를 추출하는 단계; 상기 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 단계; 구축된 상기 지식 구조의 핵심 개념을 탐색하는 단계; 탐색된 상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 단계; 및 확장된 상기 질의어 셋을 활용하여 선행 문장 검색을 재수행하는 단계를 포함하여 이루어질 수 있다. According to an embodiment, a method of searching for a text in a prior literature includes extracting a sentence in a paragraph unit from a prior document; obtaining an initial sentence search result by indexing the extracted sentence and searching for an input initial query word and a suitable sentence; extracting key concepts through natural language processing for a predetermined number of upper sentences from the initial sentence search result, and then extracting similarity information between the core concepts; generating a knowledge structure using similarity information between the core concepts; searching for a core concept of the constructed knowledge structure; adding a concept between the found core concept in the knowledge structure and the initial query word to a query word set; and re-performing a preceding sentence search by using the extended set of query words.

상기 초기 문장 검색 결과를 획득하는 단계는, 사용자가 입력한 초기 질의어와 적합한 문장들을 TF-IDF, BM25, LM 기법을 통해 검색 후, 종합하여 검색 결과를 획득할 수 있다. In the obtaining of the initial sentence search result, the initial query word input by the user and suitable sentences may be searched through TF-IDF, BM25, and LM techniques, and then synthesized to obtain a search result.

상기 핵심 개념들 간의 유사도 정보를 추출하는 단계는, 상기 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출하는 단계; 및 추출된 상기 핵심 개념들을 이용하여 인공지능 기반의 Word2Vec 알고리즘을 수행하여 각 핵심 개념들을 벡터로 변환하는 임베딩 작업을 수행하는 단계를 포함하여 이루어질 수 있다. The extracting of the similarity information between the core concepts may include: extracting core concepts through natural language processing of a predetermined number of upper sentences from the initial sentence search result; and performing an AI-based Word2Vec algorithm using the extracted core concepts to perform an embedding operation for converting each core concept into a vector.

상기 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 단계는, 상기 기설정된 수의 상위 문장들로부터 추출된 상기 핵심 개념들 간의 거리 매트릭스를 구축하고 얻어진 각 거리간의 유사도를 각 열(row)의 수치로 사용하여 유사도 행렬을 생성하는 단계; 및 상기 유사도 행렬을 이용하여 상기 지식 구조를 생성하는 단계를 포함할 수 있다. The step of generating a knowledge structure using the similarity information between the core concepts includes constructing a distance matrix between the core concepts extracted from the predetermined number of upper sentences and displaying the obtained similarity between the respective distances in each row. generating a similarity matrix using the numerical value of ; and generating the knowledge structure using the similarity matrix.

상기 지식 구조의 핵심 개념을 탐색하는 단계는, 페이지랭크(PageRank) 알고리즘을 활용하여 상기 지식 구조에서 가장 핵심적인 키워드를 탐색할 수 있다. In the step of searching for the core concept of the knowledge structure, the most essential keyword in the knowledge structure may be searched by using a PageRank algorithm.

상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 단계는, 상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이에 놓여있는 개념어를 질의어 셋(set)에 추가할 수 있다. In the step of adding the concept between the core concept in the knowledge structure and the initial query word to the query word set, the concept word lying between the core concept in the knowledge structure and the initial query word can be added to the query word set. have.

상기 초기 질의어를 통해 상위에 검색된 복수 개의 선행 관련 문장로부터 통합된 상기 지식 구조를 자동으로 생성하고, 생성된 상기 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출할 수 있다. The integrated knowledge structure may be automatically generated from a plurality of precedent-related sentences searched above through the initial query word, and keywords related to query word expansion may be automatically extracted from the generated knowledge structure.

다른 실시예에 따른 선행 문헌 문장 검색 시스템은, 선행 문헌으로부터 문단 단위의 문장을 추출하는 문장 추출부; 추출된 상기 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 문장 검색부; 상기 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 상기 핵심 개념들 간의 유사도 정보를 추출하는 유사도 정보 추출부; 상기 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 지식 구조 생성부; 구축된 상기 지식 구조의 핵심 개념을 탐색하는 핵심 개념 탐색부; 및 탐색된 상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 질의어 확장부를 포함하고, 확장된 상기 질의어 셋을 활용하여 선행 문장 검색을 재수행할 수 있다. A prior literature sentence search system according to another embodiment includes: a sentence extracting unit for extracting a paragraph-by-paragraph sentence from a prior document; a sentence search unit that indexes the extracted sentence and searches for an input initial query word and a suitable sentence, and obtains an initial sentence search result; a similarity information extraction unit that extracts key concepts from the initial sentence search result through natural language processing for a predetermined number of upper sentences, and then extracts similarity information between the core concepts; a knowledge structure generating unit generating a knowledge structure by using the similarity information between the core concepts; a core concept search unit for searching for a core concept of the constructed knowledge structure; and a query word extension unit for adding a concept between the core concept in the searched knowledge structure and the initial query word to a query word set, and the preceding sentence search may be performed again by using the expanded query word set.

상기 문장 검색부는, 사용자가 입력한 초기 질의어와 적합한 문장들을 TF-IDF, BM25, LM 기법을 통해 검색 후, 종합하여 검색 결과를 획득할 수 있다.The sentence search unit may obtain a search result by synthesizing the initial query word and suitable sentences input by the user through TF-IDF, BM25, and LM techniques.

상기 유사도 정보 추출부는, 상기 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 인공지능 기반의 Word2Vec 알고리즘을 수행하여 각 핵심 개념들을 벡터로 변환하는 임베딩 작업을 수행할 수 있다.The similarity information extraction unit extracts core concepts from a preset number of upper sentences from the initial sentence search result through natural language processing, and then performs an artificial intelligence-based Word2Vec algorithm to convert each core concept into a vector. An embedding operation is performed. can do.

상기 핵심 개념 탐색부는, 페이지랭크(PageRank) 알고리즘을 활용하여 상기 지식 구조에서 가장 핵심적인 키워드를 탐색할 수 있다.The core concept search unit may search for the most essential keyword in the knowledge structure by using a PageRank algorithm.

상기 질의어 확장부는, 상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이에 놓여있는 개념어를 질의어 셋(set)에 추가할 수 있다.The query word extension unit may add a concept word placed between the core concept in the knowledge structure and the initial query word to a query word set.

상기 초기 질의어를 통해 상위에 검색된 복수 개의 선행 관련 문장로부터 통합된 상기 지식 구조를 자동으로 생성하고, 생성된 상기 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출할 수 있다.The integrated knowledge structure may be automatically generated from a plurality of precedent-related sentences searched above through the initial query word, and keywords related to query word expansion may be automatically extracted from the generated knowledge structure.

또 다른 실시예에 따른 문장 검색 방법은, 복수의 문헌으로부터 문단 단위의 문장을 추출하는 단계; 추출된 상기 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 단계; 상기 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 상기 핵심 개념들 간의 유사도 정보를 추출하는 단계; 상기 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 단계; 구축된 상기 지식 구조의 핵심 개념을 탐색하는 단계; 탐색된 상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 단계; 및 확장된 상기 질의어 셋을 활용하여 문장 검색을 재수행하는 단계를 포함하여 이루어질 수 있다. A sentence retrieval method according to another embodiment includes extracting sentences in units of paragraphs from a plurality of documents; obtaining an initial sentence search result by indexing the extracted sentence and searching for an input initial query word and a suitable sentence; extracting key concepts through natural language processing for a predetermined number of upper sentences from the initial sentence search result, and then extracting similarity information between the core concepts; generating a knowledge structure using similarity information between the core concepts; searching for a core concept of the constructed knowledge structure; adding a concept between the found core concept in the knowledge structure and the initial query word to a query word set; and re-performing the sentence search by using the extended set of query words.

상기 초기 질의어를 통해 상위에 검색된 복수 개의 관련 문장로부터 통합된 상기 지식 구조를 자동으로 생성하고, 생성된 상기 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출할 수 있다.The integrated knowledge structure may be automatically generated from a plurality of related sentences searched above through the initial query word, and keywords related to query word expansion may be automatically extracted from the generated knowledge structure.

실시예들에 따르면 복수 개의 리소스들로부터 통합된 지식 구조를 인공지능 기반의 텍스트 분석 기법을 통해 자동으로 구축함으로써, 각 리소스들에 대한 지식 구조를 각각 구축하여 통합하기 위해 고려해야 하는 통계적 방법들을 생략할 수 있는 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법 및 시스템을 제공할 수 있다.According to embodiments, by automatically building an integrated knowledge structure from a plurality of resources through an artificial intelligence-based text analysis technique, statistical methods that must be considered in order to build and integrate a knowledge structure for each resource can be omitted. It is possible to provide a method and system for searching prior literature sentences using an artificial intelligence-based knowledge structure generation method that can

실시예들에 따르면 초기 질의어와 관련된 단어들을 묵시적으로 파악함으로써, 초기 검색되지 못한 문서의 검색을 가능하게 함과 더불어 보다 향상된 검색 성능을 확보할 수 있다. 이는, 특히 전문어 및 다양한 형태의 축약어 및 유의어가 존재하는 선행 분야에서 활발하게 사용될 수 있는 검색 서비스를 제공하는 데에 사용될 수 있다. According to embodiments, by implicitly identifying words related to the initial query, it is possible to search for documents that have not been initially searched and to secure improved search performance. In particular, it can be used to provide a search service that can be actively used in the prior field in which technical terms and various forms of abbreviations and synonyms exist.

도 1은 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템을 개략적으로 나타내는 블록도이다.
도 2는 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법을 나타내는 흐름도이다.
1 is a block diagram schematically illustrating a prior literature sentence search system using an artificial intelligence-based knowledge structure generation method according to an embodiment.
2 is a flowchart illustrating a method of searching for a text in a prior literature using an artificial intelligence-based knowledge structure generation method according to an embodiment.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.Hereinafter, embodiments will be described with reference to the accompanying drawings. However, the described embodiments may be modified in various other forms, and the scope of the present invention is not limited by the embodiments described below. In addition, various embodiments are provided in order to more completely explain the present invention to those of ordinary skill in the art. The shapes and sizes of elements in the drawings may be exaggerated for clearer description.

본 실시예들은 초기 질의어를 통해 상위에 검색된 복수 개의 선행 관련 문장(예를 들어, 의학 교과서 혹은 의학 저널 내 질의어와 관련된 문장이나 문단)로부터 통합된 지식 구조를 자동으로 생성하고, 생성된 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출하여, 선행 문서의 문장 검색 성능을 보다 획기적으로 향상시키는 방법 및 그 시스템에 관한 것이다. In the present embodiments, an integrated knowledge structure is automatically generated from a plurality of precedent related sentences (eg, sentences or paragraphs related to a query word in a medical textbook or medical journal) searched above through an initial query word, and from the generated knowledge structure The present invention relates to a method and system for remarkably improving sentence search performance of a preceding document by automatically extracting keywords related to query word expansion.

본 실시예에서 제안하는 문장 검색 방법은 기존의 외부 리소스나 온톨로지로부터 관련 단어를 추출하는 방법이나 상위에 검색된 문서로부터 기계적으로 관련 단어를 추출하는 방법과 달리, 상위에 검색된 문서로부터 지식 구조를 구축하고 해당 지식 구조 내 질의어와 연관된 단어들을 확장된 질의어로 사용하여 검색 성능을 향상시키는 데에 기존 질의어 확장 방법들과 차이가 있다. Unlike the method of extracting related words from the existing external resources or ontology or the method of mechanically extracting related words from documents searched above, the sentence search method proposed in this embodiment builds a knowledge structure from the documents searched above and It is different from the existing query word extension methods in improving search performance by using words related to the query word in the corresponding knowledge structure as the extended query word.

또한, 본 실시예에서 제안하는 방법은 기존의 지식 구조를 활용한 방법 대비 다음과 같은 대비점이 있다. In addition, the method proposed in this embodiment has the following contrasts compared to the method using the existing knowledge structure.

기존의 지식 구조 생성 방법은 BoW(Bag-of-words)와 Word frequency 기반으로 문서 내의 주요한 키워드를 추출하고 두 키워드 사이의 co-occurrence 정보를 측정하여 단어의 유사도을 측정하였다. 이는 단일 문서에서 지식 구조를 추출하는 것은 가능하였으나, 복수 개의 문서로부터 하나의 통합된 지식 구조를 구축하기 어렵다는 단점이 있다. 이에, 본 실시예에서는 Word2Vec이라는 CNN(Convolutional Neural Network) 기반의 자연어 처리를 위한 인공지능 기반 기술을 활용하여 복수 개의 문서로부터 통합 지식 구조를 자동으로 구축할 수 있다. 본 실시예에서 제안하는 지식 구조 생성 방법을 활용하면, 종래 기술 대비 복수 개의 문서 혹은 문장을 기반으로 한 지식 구조를 자동으로 생성할 수 있다는 장점을 가지고 있다. The existing knowledge structure generation method extracts major keywords in a document based on BoW (Bag-of-words) and word frequency, and measures the similarity of words by measuring co-occurrence information between the two keywords. Although it is possible to extract a knowledge structure from a single document, there is a disadvantage in that it is difficult to construct a single integrated knowledge structure from a plurality of documents. Accordingly, in the present embodiment, an integrated knowledge structure can be automatically constructed from a plurality of documents by using an artificial intelligence-based technology for natural language processing based on a Convolutional Neural Network (CNN) called Word2Vec. When the method for generating a knowledge structure proposed in this embodiment is used, there is an advantage that a knowledge structure based on a plurality of documents or sentences can be automatically generated compared to the prior art.

또한, 기존의 지식 구조 검색 활용 방법은 초기 검색된 콘텐츠들의 지식 구조들을 각각 구축하고 지식 구조 내에서 초기 질의어들의 거리를 측정하여, 해당 정보를 근접성으로 정의하여 초기 검색 결과를 재정렬 하였다. 그러나 초기에 검색된 문서 이외에 숨겨진 다른 문서들은 검색하지 못한다는 단점이 있다. 본 실시예에서는 초기 검색된 문장로부터 통합된 지식 구조를 구축하고, 이를 문서의 재정렬이 아닌 질의어 확장에 사용하기 때문에, 기존 특허 대비 초기에 검색되지 못한 문서들을 검색하는 데에 사용할 수 있다는 장점을 가지고 있다. In addition, in the existing knowledge structure search utilization method, the initial search results were rearranged by constructing the knowledge structures of the initially searched contents, measuring the distances of initial query words within the knowledge structures, and defining the corresponding information as proximity. However, there is a disadvantage that other hidden documents other than the initially searched document cannot be retrieved. In this embodiment, since an integrated knowledge structure is built from the initially searched sentences and used for query extension rather than rearrangement of documents, it has the advantage that it can be used to search documents that were not initially searched compared to existing patents. .

그리고, 기존의 지식 구조를 활용한 서비스는 다양한 카테고리를 사용자에게 추천할 수 있게 하는 추천 서비스와 위키피디아를 기반으로 구축한 지식 구조를 바탕으로 문제 생성을 자동으로 하는 교육 서비스가 제공된다. 그러나, 선행 분야에서의 지식 구조를 활용한 서비스를 제공하지 못한다. 본 실시예에서는 선행 분야의 의사 결정을 검색을 통해 지원하는 서비스를 통해 선행 분야에서의 지식 구조를 활용한 서비스를 제공하고자 한다. In addition, as for the service using the existing knowledge structure, a recommendation service that can recommend various categories to users and an education service that automatically creates a problem based on the knowledge structure built on Wikipedia are provided. However, it cannot provide a service utilizing the knowledge structure in the prior field. In this embodiment, it is intended to provide a service utilizing the knowledge structure in the prior field through a service that supports decision making in the prior field through a search.

본 발명의 목적은 자연어로 이루어진 선행 문헌 문장들로부터 핵심 개념어들과 그 개념어들간의 관계를 인공지능 기반의 알고리즘을 통해 계산하여 지식 구조를 구축하고, 구축된 지식 구조로부터 질의어와 연관된 개념어들을 확장하는 질의어 확장, 그리고 확장된 질의어를 활용하여 의사 결정을 지원하기 위한 선행 문장 검색 서비스를 제공하는 것이다. It is an object of the present invention to construct a knowledge structure by calculating key concept words and relationships between them from prior literature sentences made of natural language through an artificial intelligence-based algorithm, and to expand concept words related to query words from the constructed knowledge structure. It is to provide a query word extension and a preceding sentence search service to support decision making by using the expanded query word.

도 1은 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템을 개략적으로 나타내는 블록도이다. 1 is a block diagram schematically showing a system for searching for a text in a prior literature using an artificial intelligence-based method for generating a knowledge structure according to an embodiment.

도 1을 참조하면, 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템(100)은 문장 추출부(110), 문장 검색부(120), 유사도 정보 추출부(130), 지식 구조 생성부(140), 핵심 개념 탐색부(150) 및 질의어 확장부(160)를 포함하여 이루어질 수 있다. 또한, 실시예에 따라 사용자에게 검색 페이지를 구성하고 제공하는 화면 구성부(170) 및 각종 정보를 저장하는 데이터 베이스(180)를 더 포함할 수 있다. Referring to FIG. 1 , a prior literature sentence search system 100 using an artificial intelligence-based knowledge structure generation method according to an embodiment includes a sentence extraction unit 110 , a sentence search unit 120 , and a similarity information extraction unit ( 130 ), the knowledge structure generating unit 140 , the core concept search unit 150 , and the query word expansion unit 160 . In addition, according to an embodiment, it may further include a screen configuration unit 170 that configures and provides a search page to a user, and a database 180 that stores various kinds of information.

보다 구체적으로, 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템은 선행 문헌으로부터 문단 단위의 문장을 추출하는 문장 추출부(110), 추출된 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 문장 검색부(120), 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 핵심 개념들 간의 유사도 정보를 추출하는 유사도 정보 추출부(130), 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 지식 구조 생성부(140), 구축된 지식 구조의 핵심 개념을 탐색하는 핵심 개념 탐색부(150), 및 탐색된 지식 구조 내 핵심 개념과 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 질의어 확장부(160)를 포함하고, 문장 검색부(120) 또는 별도의 문장 재검색부를 통해 확장된 질의어 셋을 활용하여 선행 문장 검색을 재수행할 수 있다. More specifically, the prior literature sentence search system using the artificial intelligence-based knowledge structure generation method according to an embodiment includes a sentence extraction unit 110 that extracts a paragraph unit sentence from a preceding document, and indexes the extracted sentence and inputs it. The sentence search unit 120 for obtaining an initial sentence search result by searching for an initial query word and a suitable sentence to be used. After extracting key concepts through natural language processing for a preset number of upper sentences from the initial sentence search result, A similarity information extraction unit 130 for extracting similarity information, a knowledge structure generation unit 140 for generating a knowledge structure using similarity information between core concepts, a core concept search unit for searching a core concept of the constructed knowledge structure ( 150), and a query word expansion unit 160 that adds a concept between a core concept in the searched knowledge structure and an initial query word to a query word set, and is expanded through the sentence search unit 120 or a separate sentence re-search unit The search for the preceding sentence can be re-performed by using the set of query words.

이에 따라 사용자는 단말을 이용하여 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템(또는 서버)에 네트워크를 통해 접속하여 사용자가 원하는 다양한 선행 문장을 검색할 수 있다. 여기에서는 선행 문장의 검색을 하나의 예로써 설명하고 있으나 선행 문장에 한정되지 않으며, 일반적인 문장 또는 특정 분야의 문장의 검색을 하도록 구성될 수 있다. Accordingly, the user can search for various preceding sentences desired by the user by accessing the prior literature sentence search system (or server) through the network using the artificial intelligence-based knowledge structure generation method according to an embodiment using the terminal. . Here, the search for the preceding sentence is described as an example, but the present invention is not limited to the preceding sentence, and may be configured to search for a general sentence or a sentence in a specific field.

일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템은 아래에서 하나의 예를 들어 보다 구체적으로 설명하기로 한다. A prior literature text search system using an artificial intelligence-based knowledge structure generation method according to an embodiment will be described in more detail with an example below.

도 2는 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법을 나타내는 흐름도이다. 2 is a flowchart illustrating a method of searching for a text in a prior literature using an artificial intelligence-based knowledge structure generation method according to an embodiment.

도 2를 참조하면, 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법은 인공지능을 활용한 지식 구조 생성 기술과 지식 구조 내 개념간의 유사도 정보를 활용한 선행 문장 검색 방법으로, 다음과 같이 수행될 수 있다. Referring to FIG. 2 , in the prior literature sentence search method using the AI-based knowledge structure generation method according to an embodiment, the preceding sentence using the knowledge structure generation technology using artificial intelligence and similarity information between concepts in the knowledge structure As a search method, it may be performed as follows.

일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법은 선행 문헌으로부터 문단 단위의 문장을 추출하는 단계(210), 추출된 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 단계(220), 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 핵심 개념들 간의 유사도 정보를 추출하는 단계(230), 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 단계(240), 구축된 지식 구조의 핵심 개념을 탐색하는 단계(250), 탐색된 지식 구조 내 핵심 개념과 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 단계(260), 및 확장된 질의어 셋을 활용하여 선행 문장 검색을 재수행하는 단계(270)를 포함하여 이루어질 수 있다. In the preceding document sentence search method using the artificial intelligence-based knowledge structure generation method according to an embodiment, a sentence in a paragraph unit is extracted from the precedent document ( 210 ), the extracted sentence is indexed, and a sentence suitable for the input initial query word Searching for , obtaining an initial sentence search result (220), extracting key concepts from a preset number of upper sentences from the initial sentence search result through natural language processing, and then extracting similarity information between the core concepts (230) ), generating a knowledge structure using similarity information between core concepts (240), searching for a core concept of the constructed knowledge structure (250), and defining the concept between the core concept and the initial query word in the searched knowledge structure. The step of adding to the query word set (260), and the step of re-performing the search for the preceding sentence using the extended query word set (270) may be performed.

본 실시예들은 기존의 지식 구조 구축 방법과는 달리, 복수 개의 리소스들로부터 통합된 지식 구조를 인공지능 기반의 텍스트 분석 기법을 통해 자동으로 구축할 수 있다. 따라서 각 리소스들에 대한 지식 구조를 각각 구축하여 통합하기 위해 고려해야 하는 통계적 방법들을 생략할 수 있다. Unlike the existing knowledge structure construction methods, the present embodiments can automatically build an integrated knowledge structure from a plurality of resources through an AI-based text analysis technique. Therefore, statistical methods that must be considered in order to build and integrate a knowledge structure for each resource can be omitted.

또한, 지식 구조를 통한 질의어 확장 방법은 초기 질의어와 관련된 단어들을 묵시적으로 파악하여 제공할 수 있게 하여, 초기 검색되지 못한 문서의 검색을 가능하게 함과 더불어 보다 향상된 검색 성능을 확보할 수 있다. In addition, the query word expansion method through the knowledge structure can implicitly identify and provide words related to the initial query word, thereby enabling a search for documents that have not been initially searched and securing improved search performance.

이는, 특히 전문어 및 다양한 형태의 축약어 및 유의어가 존재하는 선행 분야에서 활발하게 사용될 수 있는 검색 서비스를 제공하는 데에 사용될 수 있다. In particular, it can be used to provide a search service that can be actively used in the prior field in which technical terms and various forms of abbreviations and synonyms exist.

아래에서 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법을 보다 구체적으로 설명하기로 한다. Hereinafter, a method of searching for a text in a prior literature using an artificial intelligence-based knowledge structure generation method according to an embodiment will be described in more detail.

일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법은 도 1에서 설명한 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템을 이용하여 구체적으로 설명할 수 있다. 여기서, 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템(100)은 문장 추출부(110), 문장 검색부(120), 유사도 정보 추출부(130), 지식 구조 생성부(140), 핵심 개념 탐색부(150) 및 질의어 확장부(160)를 포함하여 이루어질 수 있다. The prior literature sentence search method using the artificial intelligence-based knowledge structure generation method according to an embodiment uses the prior literature sentence search system using the artificial intelligence-based knowledge structure generation method according to the embodiment described in FIG. can be specifically explained. Here, the prior literature sentence search system 100 using the artificial intelligence-based knowledge structure generation method according to an embodiment includes the sentence extraction unit 110 , the sentence search unit 120 , the similarity information extraction unit 130 , and the knowledge The structure creation unit 140 , the core concept search unit 150 , and the query word expansion unit 160 may be included.

단계(210)에서, 문장 추출부(110)는 선행 문헌으로부터 문단 단위의 문장을 추출할 수 있다. 예를 들어, 문장 추출부(110)는 온라인에서 수집된 복수의 선행 문헌으로부터 문단 단위의 문장을 추출할 수 있다. In step 210 , the sentence extraction unit 110 may extract sentences in units of paragraphs from the prior literature. For example, the sentence extraction unit 110 may extract sentences in units of paragraphs from a plurality of prior documents collected online.

선행 문헌으로부터 문단 단위의 문장을 추출하는 방법은 아래와 같이 수행될 수 있다. A method of extracting a sentence in a paragraph unit from a prior literature may be performed as follows.

E-book 파일 형식 변환을 위해 .azw3, .azw 형식을 .pdf, .txt, .doc로 변환할 수 있다. You can convert .azw3, .azw format to .pdf, .txt, .doc for E-book file format conversion.

텍스트 및 이미지 추출을 위해 PDFbox 라이브러리를 통한 텍스트/이미지를 추출할 수 있다. You can extract text/images via PDFbox library for text and image extraction.

텍스트 전처리(Pre-processing)를 위해 OpenNLP 라이브러리를 통한 텍스트 문장 및 문단 구분 전처리를 수행할 수 있다. For text pre-processing, text sentence and paragraph division pre-processing can be performed through the OpenNLP library.

레퍼런스 추출을 위해 책 마지막의 참고문헌을 추출할 수 있다. For reference extraction, the bibliography at the end of the book can be extracted.

레퍼런스 웹 크롤링을 위해 참고문헌의 제목 및/또는 초록을 웹에서 크롤링할 수 있다. For crawling the reference web, the titles and/or abstracts of the references may be crawled from the web.

위와 같은 과정을 통해, 문헌에서 추출된 텍스트로부터 문단을 추출해 내고 이를 한 문장로 정의할 수 있다. Through the above process, it is possible to extract a paragraph from the text extracted from the literature and define it as one sentence.

단계(220)에서, 문장 검색부(120)는 추출된 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득할 수 있다. 예컨대, 문장 검색부(120)는 BoW(Bag-of-words) 기반의 검색 엔진을 이용하여 초기 문장 검색 결과 획득할 수 있다. In operation 220 , the sentence search unit 120 indexes the extracted sentence and searches for an input initial query word and a suitable sentence to obtain an initial sentence search result. For example, the sentence search unit 120 may obtain an initial sentence search result using a bag-of-words (BoW) based search engine.

문장 검색부(120)는 앞에서 획득한 문단 단위의 문장들을 인덱싱하며 사용자가 입력한 초기 질의어와 적합한 문장들을 TF-IDF, BM25, LM 기법을 통해 검색하고, 이를 종합하여 검색 결과를 반환할 수 있다. The sentence search unit 120 indexes the sentences of the paragraph unit obtained above, searches for the initial query word input by the user and suitable sentences through the TF-IDF, BM25, and LM techniques, and synthesizes them to return a search result. .

단계(230)에서, 유사도 정보 추출부(130)는 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 핵심 개념들 간의 유사도 정보를 추출할 수 있다. In step 230 , the similarity information extraction unit 130 extracts core concepts from a preset number of upper sentences from the initial sentence search result through natural language processing, and then extracts similarity information between the core concepts.

예를 들어, 유사도 정보 추출부(130)는 상위 M개의 문장을 자연어 처리를 통해 핵심 개념들을 추출한 후, 인공지능 기반으로 각 핵심 개념들을 벡터 스페이스 모델로 변환하는 임베딩 작업을 수행할 수 있다. For example, the similarity information extraction unit 130 may extract core concepts from the top M sentences through natural language processing, and then perform an embedding operation of converting each core concept into a vector space model based on artificial intelligence.

보다 구체적으로, 유사도 정보 추출부(130)는 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출할 수 있다. 이후, 추출된 핵심 개념들을 이용하여 인공지능 기반의 Word2Vec 알고리즘을 수행하여 각 핵심 개념들을 벡터로 변환하는 임베딩 작업을 수행할 수 있다. More specifically, the similarity information extraction unit 130 may extract core concepts through natural language processing of a preset number of upper sentences from the initial sentence search result. Thereafter, by using the extracted core concepts, the AI-based Word2Vec algorithm is performed to perform an embedding operation for converting each core concept into a vector.

Word2vec(mikolov et al., 2013)은 말뭉치(Corpus)를 입력으로 받아서 말뭉치의 단어를 벡터로 표현하는 임베딩을 학습하는데 사용하는 자연어 처리를 위한 인공지능 방법의 하나이다. 즉, 검색된 상위 M개의 문장들을 자연어 처리하여 명사를 추출한 후, Word2vec에 입력하면 해당 말뭉치의 속한 핵심 개념들 간의 연관 관계를 학습하여 벡터로 표현할 수 있다. Word2vec (mikolov et al., 2013) is one of the artificial intelligence methods for natural language processing used to learn embeddings that receive a corpus as an input and express the words in the corpus as a vector. That is, after extracting nouns by natural language processing of the searched top M sentences, if they are input into Word2vec, the relationship between core concepts belonging to the corresponding corpus can be learned and expressed as a vector.

단계(240)에서, 지식 구조 생성부(140)는 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성할 수 있다. In operation 240 , the knowledge structure generator 140 may generate a knowledge structure by using similarity information between core concepts.

예컨대, 지식 구조 생성부(140)는 생성된 단어-벡터 행렬을 활용하여 유사한 개념을 연결하면 상위 M개의 문장에 대한 지식 구조를 생성할 수 있다. For example, the knowledge structure generator 140 may generate a knowledge structure for the top M sentences by connecting similar concepts using the generated word-vector matrix.

보다 구체적으로, 지식 구조 생성부(140)는 기설정된 수의 상위 문장들로부터 추출된 핵심 개념들 간의 거리 매트릭스를 구축하고 얻어진 각 거리간의 유사도를 각 열(row)의 수치로 사용하여 유사도 행렬을 생성하고, 유사도 행렬을 이용하여 지식 구조를 생성할 수 있다. More specifically, the knowledge structure generating unit 140 constructs a distance matrix between core concepts extracted from a predetermined number of upper sentences, and uses the obtained similarity between distances as a numerical value for each row to generate a similarity matrix. and may generate a knowledge structure using the similarity matrix.

한편, 이러한 문장 검색 방법은 선행 문헌 문장뿐 아니라 다양한 문장 검색에 사용될 수 있다. On the other hand, such a sentence search method can be used to search for various sentences as well as the previous literature sentences.

다른 실시예에 따른 문장 검색 방법은, 복수의 문헌으로부터 문단 단위의 문장을 추출하는 단계, 추출된 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 단계, 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 핵심 개념들 간의 유사도 정보를 추출하는 단계, 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 단계, 구축된 지식 구조의 핵심 개념을 탐색하는 단계, 탐색된 지식 구조 내 핵심 개념과 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 단계, 및 확장된 질의어 셋을 활용하여 문장 검색을 재수행하는 단계를 포함하여 이루어질 수 있다. A sentence search method according to another embodiment includes the steps of extracting a sentence in a paragraph unit from a plurality of documents, indexing the extracted sentence and searching for an input initial query word and a suitable sentence to obtain an initial sentence search result; After extracting core concepts through natural language processing of a preset number of upper sentences from the sentence search result, extracting similarity information between core concepts, generating a knowledge structure using similarity information between core concepts, It includes the steps of exploring the core concept of the knowledge structure, adding a concept between the core concept in the searched knowledge structure and the initial query word to the query word set, and re-performing the sentence search using the expanded query word set. can be done by

초기 질의어를 통해 상위에 검색된 복수 개의 관련 문장로부터 통합된 지식 구조를 자동으로 생성하고, 생성된 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출할 수 있다.An integrated knowledge structure may be automatically generated from a plurality of related sentences searched above through an initial query word, and keywords related to query extension may be automatically extracted from the generated knowledge structure.

다른 실시예에 따른 문장 검색 방법은 선행 문헌 문장 대신 일반적인 또는 특정 문장을 사용하는 것으로, 앞에서 설명한 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 방법과 그 구성이 유사하여 중복되는 설명은 생략하기로 한다. The sentence search method according to another embodiment uses a general or specific sentence instead of a preceding document sentence, and the structure is similar to the preceding document sentence search method using the AI-based knowledge structure generation method according to the embodiment described above. Therefore, the overlapping description will be omitted.

또한, 다른 실시예에 따른 문장 검색 시스템은 문헌으로부터 문단 단위의 문장을 추출하는 문장 추출부, 추출된 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 문장 검색부, 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 핵심 개념들 간의 유사도 정보를 추출하는 유사도 정보 추출부, 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 지식 구조 생성부, 구축된 지식 구조의 핵심 개념을 탐색하는 핵심 개념 탐색부, 및 탐색된 지식 구조 내 핵심 개념과 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 질의어 확장부를 포함하고, 확장된 질의어 셋을 활용하여 문장 검색을 재수행할 수 있다.In addition, the sentence search system according to another embodiment includes a sentence extraction unit for extracting a sentence in a paragraph unit from a document, a sentence search for obtaining an initial sentence search result by indexing the extracted sentence and searching for an input initial query word and a suitable sentence. After extracting core concepts through natural language processing of a preset number of upper sentences from the initial sentence search result, a similarity information extraction unit that extracts similarity information between core concepts, and a knowledge structure using similarity information between core concepts It includes a knowledge structure generating unit that generates, a core concept search unit that searches for a core concept of the constructed knowledge structure, and a query word extension that adds a concept between a core concept in the searched knowledge structure and an initial query word to a query word set, and , it is possible to re-perform the sentence search by using the extended query set.

다른 실시예에 따른 문장 검색 시스템은 선행 문헌 문장 대신 일반적인 또는 특정 분야의 문장을 사용하는 것으로, 앞에서 설명한 일 실시예에 따른 인공지능 기반의 지식 구조 생성 방법을 활용한 선행 문헌 문장 검색 시스템과 그 구성이 유사하여 중복되는 설명은 생략하기로 한다.The sentence retrieval system according to another embodiment uses a sentence of a general or specific field instead of a sentence of a prior literature. Similar and overlapping descriptions will be omitted.

이상과 같이, 실시예들에 따르면 기존의 외부 리소스나 온톨로지로부터 관련 단어를 추출하는 방법이나 상위에 검색된 문서로부터 기계적으로 관련 단어를 추출하는 방법과 달리, 상위에 검색된 문서로부터 지식 구조를 구축하고 해당 지식 구조 내 질의어와 연관된 단어들을 확장된 질의어로 사용하여 검색 성능을 향상시킬 수 있다. As described above, according to the embodiments, unlike a method of extracting a related word from an existing external resource or ontology or a method of mechanically extracting a related word from a document searched above, a knowledge structure is constructed from a document searched above and corresponding Search performance can be improved by using words related to the query in the knowledge structure as the extended query.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that may include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or device, to be interpreted by or to provide instructions or data to the processing device. may be embodied in The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible by those skilled in the art from the above description. For example, the described techniques are performed in a different order than the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (4)

문장 추출부에서 문단 단위의 문장을 추출하는 단계;
문장 검색부에서 추출된 상기 문장을 인덱싱하며 입력되는 초기 질의어와 적합한 문장을 검색하여, 초기 문장 검색 결과를 획득하는 단계;
유사도 정보 추출부에서 상기 초기 문장 검색 결과에서 기설정된 수의 상위 문장들을 자연어 처리를 통해 핵심 개념들을 추출한 후, 상기 핵심 개념들 간의 유사도 정보를 추출하는 단계;
지식 구조 생성부에서 상기 핵심 개념들 간의 유사도 정보를 이용하여 지식 구조를 생성하는 단계;
핵심 개념 탐색부에서 구축된 상기 지식 구조의 핵심 개념을 탐색하는 단계;
질의어 확장부에서 탐색된 상기 지식 구조 내 핵심 개념과 상기 초기 질의어 사이의 개념을 질의어 셋(set)에 추가하는 단계; 및
상기 문장 검색부에서 확장된 상기 질의어 셋을 활용하여 선행 문장 검색을 재수행하는 단계;를 포함하는 것을 특징으로 하는 문장 검색 방법.
extracting sentences in units of paragraphs by a sentence extraction unit;
obtaining an initial sentence search result by indexing the sentence extracted by the sentence search unit and searching for an input initial query word and a suitable sentence;
extracting, by a similarity information extracting unit, key concepts from a predetermined number of upper sentences in the initial sentence search result through natural language processing, and then extracting similarity information between the core concepts;
generating a knowledge structure by using the similarity information between the core concepts in a knowledge structure generating unit;
searching for a core concept of the knowledge structure built in a core concept search unit;
adding a concept between a core concept in the knowledge structure found in a query word extension unit and the initial query word to a query word set; and
and re-performing a previous sentence search by using the extended query word set by the sentence search unit.
제1항에 있어서,
상기 초기 질의어를 통해 상위에 검색된 복수 개의 선행 관련 문장로부터 통합된 상기 지식 구조를 자동으로 생성하고, 생성된 상기 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출하는 것을 특징으로 하는 문장 검색 방법.
The method of claim 1,
A method for searching sentences, characterized in that the integrated knowledge structure is automatically generated from a plurality of preceding related sentences searched at the upper level through the initial query word, and keywords related to query word expansion are automatically extracted from the generated knowledge structure.
제1항에 있어서,
상기 지식 구조의 핵심 개념을 탐색하는 단계는,
페이지랭크(PageRank) 알고리즘을 활용하여 상기 지식 구조에서 가장 핵심적인 키워드를 탐색하는 것을 특징으로 하는 문장 검색 방법.
The method of claim 1,
The step of exploring the core concept of the knowledge structure is
A sentence search method, characterized in that by using a PageRank algorithm to search for the most essential keywords in the knowledge structure.
제3항에 있어서,
상기 초기 질의어를 통해 상위에 검색된 복수 개의 관련 문장로부터 통합된 상기 지식 구조를 자동으로 생성하고, 생성된 상기 지식 구조로부터 질의어 확장에 관련된 키워드를 자동으로 추출하는 것을 특징으로 하는 문장 검색 방법.
4. The method of claim 3,
A sentence search method, characterized in that the integrated knowledge structure is automatically generated from a plurality of related sentences searched above through the initial query word, and keywords related to query word expansion are automatically extracted from the generated knowledge structure.
KR1020210012552A 2021-01-28 2021-01-28 Ommited KR20220109188A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210012552A KR20220109188A (en) 2021-01-28 2021-01-28 Ommited

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210012552A KR20220109188A (en) 2021-01-28 2021-01-28 Ommited

Publications (1)

Publication Number Publication Date
KR20220109188A true KR20220109188A (en) 2022-08-04

Family

ID=82836991

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210012552A KR20220109188A (en) 2021-01-28 2021-01-28 Ommited

Country Status (1)

Country Link
KR (1) KR20220109188A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101538998B1 (en) 2013-09-13 2015-07-24 한국과학기술원 Method and apparatus for providing search service based on knowladge service

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101538998B1 (en) 2013-09-13 2015-07-24 한국과학기술원 Method and apparatus for providing search service based on knowladge service

Similar Documents

Publication Publication Date Title
US8775442B2 (en) Semantic search using a single-source semantic model
Gollapalli et al. Extracting keyphrases from research papers using citation networks
Wang et al. Targeted disambiguation of ad-hoc, homogeneous sets of named entities
KR102059743B1 (en) Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction
WO2012149500A2 (en) Multilingual search for transliterated content
WO2016121048A1 (en) Text generation device and text generation method
Wu et al. Searching services" on the web": A public web services discovery approach
Bouadjenek et al. Using social annotations to enhance document representation for personalized search
KR101651780B1 (en) Method and system for extracting association words exploiting big data processing technologies
JP2017220204A (en) Method and system for matching images with content using whitelists and blacklists in response to search query
Shah et al. Literature study on multi-document text summarization techniques
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
Boughareb et al. A graph-based tag recommendation for just abstracted scientific articles tagging
JP5869948B2 (en) Passage dividing method, apparatus, and program
CN104376034B (en) Information processing equipment, information processing method and program
Gero et al. Word centrality constrained representation for keyphrase extraction
Babu GL et al. Extractive Summarization of Telugu Text Using Modified Text Rank and Maximum Marginal Relevance
KR20220109188A (en) Ommited
KR20220109952A (en) Ommited
JP7122773B2 (en) DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM
KR102261710B1 (en) Method, apparatus and computer readable medium for managing multilingual tourism contents based on artificial intelligence
JP2010009237A (en) Multi-language similar document retrieval device, method and program, and computer-readable recording medium
JPH1166078A (en) Retrieval request embodiment method/device and storage medium storing retrieval, request embodiment program
KR20230135372A (en) Intelligent search system using AI-powered NLP
JP2009140113A (en) Dictionary editing device, dictionary editing method, and computer program