KR101654717B1 - Method for producing structured query based on knowledge database and apparatus for the same - Google Patents

Method for producing structured query based on knowledge database and apparatus for the same Download PDF

Info

Publication number
KR101654717B1
KR101654717B1 KR1020140170333A KR20140170333A KR101654717B1 KR 101654717 B1 KR101654717 B1 KR 101654717B1 KR 1020140170333 A KR1020140170333 A KR 1020140170333A KR 20140170333 A KR20140170333 A KR 20140170333A KR 101654717 B1 KR101654717 B1 KR 101654717B1
Authority
KR
South Korea
Prior art keywords
query
correct answer
natural language
knowledge database
type
Prior art date
Application number
KR1020140170333A
Other languages
Korean (ko)
Other versions
KR20160066236A (en
Inventor
이경일
함영경
양성권
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020140170333A priority Critical patent/KR101654717B1/en
Publication of KR20160066236A publication Critical patent/KR20160066236A/en
Application granted granted Critical
Publication of KR101654717B1 publication Critical patent/KR101654717B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Abstract

본 발명은 자연어로 구성된 질의문을 구조화된 질의로 변환하는 방법에 관한 것으로, 본 발명에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법은 자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 단계; 및 상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고, 상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 단계를 포함한다. 본 발명에 따르면, 자연어 질의문의 구문적, 문법적 분석 결과를 활용하여 구조화된 질의를 생성하여 보다 사용자 친화적인 정보를 제공할 수 있으며, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다. 궁극적으로 기계가 인식 가능한 질의로 변환하기 때문에 자연어를 통한 인간과 기계 간의 의사소통을 지원할 수 있다. The present invention relates to a method for converting a query composed of natural language into a structured query, and a method for generating a structured query based on a knowledge database according to the present invention is a method for classifying natural query sentences according to a predetermined analysis unit, Determining an attribute of the query and determining a sentence format of the query using the attribute; And a query module configured to determine a type of correct answer to the query statement based on the determined attribute based on a knowledge database that is a query target of the query statement and to generate a query structured in the sentence format with respect to the knowledge database according to the determined correct answer type . According to the present invention, structured queries can be generated by using syntactic and grammatical analysis results of a natural language query to provide more user-friendly information, and it is possible to provide all the data models that are not restricted to specific data models The query is generated based on the knowledge database, so that the correct answer can be obtained from various raw information. Ultimately, because the machine translates into a recognizable query, it can support human-machine communication through natural language.

Description

지식 데이터베이스 기반 구조화된 질의 생성 방법 및 장치{Method for producing structured query based on knowledge database and apparatus for the same} TECHNICAL FIELD The present invention relates to a method and apparatus for generating a structured query based on a knowledge database,

본 발명은 자연어로 구성된 질의문을 구조화된 질의로 변환하는 방법에 관한 것이다. The present invention relates to a method for converting a query composed of natural language into a structured query.

현재 검색 엔진에서 주로 사용되는 기술은 키워드를 기반한다. 사용자가 자연어로서 문장 형태의 질의를 입력하면 자연어 처리 기술을 통해 주요한 키워드를 추출하고 보유하고 있는 웹 문서 집합에서 해당 키워드를 포함하는 웹 문서들을 반환한다. Currently, the technology that is commonly used in search engines is keyword based. If the user inputs a sentence type query as a natural language, the main keywords are extracted through the natural language processing technique and the web documents containing the keyword are returned from the set of the web documents.

이때의 자연어란 일반인이 일상에서 사용하는 한국어, 영어, 일본어 등을 의미하며 기계가 이해하는 프로그래밍 언어, 데이터 질의 언어 등과 대비된다. 자연어는 반드시 완벽한 문법을 구사하지 않아도 사람 간의 의사소통에 큰 문제가 없으나, 검색 엔진의 경우 키워드의 포함여부에 따른 결과만을 제시하므로 사용자가 원하는 정보를 얻기 위하여 구체적인 질의를 입력하면 획득할 수 있는 정보가 제한되며, 제공하는 정보의 정확도도 떨어지게 된다.In this case, natural language means Korean, English, Japanese, etc. used by ordinary people in daily life, and contrasts with a programming language and data query language understood by machines. Although natural language does not necessarily have a perfect grammar, there is no big problem in human communication. However, in case of a search engine, only the result according to the inclusion of keywords is presented. Therefore, if a user inputs a specific query in order to obtain desired information, And the accuracy of information provided is also reduced.

즉, 사용자가 입력하는 자연어를 지식 데이터베이스에서 인식가능 하도록 하기 위해서는 지식 데이터베이스가 인식 가능한 질의로 변환하는 시스템이 필요하다. 이때, 자연어를 구조화된 질의로 변환하기 위해 결정된 규칙에 따라 단순 변환하게 되면 다양한 사용자의 다양한 표현 방식에 따라 논리적 오류가 발생할 수 있으며, 질의에 대한 정답을 얻기 위한 지식 데이터베이스의 구조에 따라서도 적용이 불가능한 문제가 발생한다. That is, a system for converting a knowledge database into a recognizable query is needed in order to make the knowledge database know the natural language inputted by the user. In this case, simple conversion according to the determined rules to convert the natural language into the structured query may cause a logical error according to various expression methods of various users. Also, it may be applied according to the structure of the knowledge database to obtain the correct answer to the query An impossible problem arises.

본 발명은 상기 기술적 과제를 해결하기 위하여 도출된 것으로 자연어 기반의 질의를 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 구조화된 질의로 변환하는 방법을 제안하는 것을 목적으로 한다. It is an object of the present invention to provide a method for converting a natural language-based query into a structured query that can include all data models rather than a query limited to a specific data model.

보다 상세하게는 질의문에 포함된 키워드뿐 아니라 질의문의 구문적, 문법적 분석 결과를 활용하여 질문을 보다 구체적으로 이해하여 구조화된 질의로 변환하는 방법을 제안하는 것을 목적으로 한다. More specifically, the present invention aims to provide a method of converting a query into a structured query by using a keyword in a query, as well as syntactic and grammatical analysis results of a query to understand the question in more detail.

상기 기술적 과제를 해결하기 위한 본 실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법은 자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 단계; 및 상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고, 상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 단계를 포함한다. According to an embodiment of the present invention, there is provided a method for generating a structured query based on a knowledge database, the method comprising the steps of: dividing a natural language query according to a predetermined analysis unit to determine attributes of a separated unit syntax; Determining a sentence form of the inquiry; And a query module configured to determine a type of correct answer to the query statement based on the determined attribute based on a knowledge database that is a query target of the query statement and to generate a query structured in the sentence format with respect to the knowledge database according to the determined correct answer type .

상기 판단하는 단계는 상기 자연어 질의문을 형태소 단위로 분리하여 상기 분리된 형태소간의 언어적 연관관계에 따라 상기 형태소를 서로 연관짓고, 상기 생성하는 단계는 상기 형태소의 연관관계에 따라 상기 질의문에 대한 정답의 유형을 판단하는 것이 바람직하다.Wherein the determining step comprises: dividing the natural language query into morpheme units and associating the morphemes with each other according to a linguistic association between the separated morphemes; and the generating step comprises: It is desirable to determine the type of correct answer.

상기 판단하는 단계는 상기 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 프레임의 상기 질의문에 대한 정답과의 관계를 분석하고, 상기 생성하는 단계는 상기 프레임의 상기 접답과의 관계에 따라 상기 질의문에 대한 정답 유형을 판단하는 것이 바람직하다.Wherein the determining step separates the natural language query sentence into a frame having a predetermined semantic unit and analyzes a relationship between the natural language query sentence and a correct answer to the query sentence of the frame, It is preferable to determine the correct answer type for the query.

상기 판단하는 단계는 상기 자연어 질의문에 포함된 개체명의 속성을 분석하고, 상기 생성하는 단계는 상기 개체명의 속성에 따른 상기 질의문에 대한 정답 유형을 판단하는 것이 바람직하다.The determining step may analyze an attribute of an entity name included in the natural language query, and the generating step may determine a correct answer type for the query based on the attribute of the entity name.

상기 생성하는 단계는 상기 질의문에 대한 정답의 유형 후보를 도출하고, 상기 지식 데이터베이스를 참조하여 상기 도출된 정답의 유형 후보로부터 상기 정답의 유형을 판단하는 것이 바람직하다.The generating step may derive a type candidate of the correct answer to the query statement and determine the type of the correct answer from the type candidate of the derived correct answer with reference to the knowledge database.

상기 생성하는 단계는 상기 정답의 유형을 이용하여 상기 구조화된 질의의 기본을 생성하고, 상기 판단된 문장 형식에 따라 미리 결정된 규칙으로 상기 구조화된 질의의 기본을 상기 구조화된 질의로 변환하는 것이 바람직하다.The generating step may generate the basis of the structured query using the type of the correct answer and convert the basis of the structured query into the structured query in a predetermined rule according to the determined sentence format .

상기 생성하는 단계는 상기 자연어 질의문에 포함된 시간 또는 공간적 정보를 이용하여 상기 구조화된 질의를 구체화하는 것이 바람직하다.Preferably, the generating step further specifies the structured query using time or spatial information included in the natural language query.

본 발명에 따르면, 자연어 질의문의 구문적, 문법적 분석 결과를 활용하여 구조화된 질의를 생성하여 보다 사용자 친화적인 정보를 제공할 수 있으며, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다. 궁극적으로 기계가 인식 가능한 질의로 변환하기 때문에 자연어를 통한 인간과 기계 간의 의사소통을 지원할 수 있다. According to the present invention, structured queries can be generated by using syntactic and grammatical analysis results of a natural language query to provide more user-friendly information, and it is possible to provide all the data models that are not restricted to specific data models The query is generated based on the knowledge database, so that the correct answer can be obtained from various raw information. Ultimately, because the machine translates into a recognizable query, it can support human-machine communication through natural language.

도 1은 본 발명의 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 장치를 포함하는 전체 시스템을 나타내는 도이다.
도 2는 본 발명에 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법을 나타내는 흐름도이다.
도 3은 본 발명에 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법의 판단 단계를 보다 상세히 나타나는 흐름도이다.
도 4는 본 발명에 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 방법의 생성 단계를 보다 상세히 나타나는 흐름도이다.
1 is a diagram illustrating an entire system including a structured query generation apparatus based on a knowledge database according to an embodiment of the present invention.
2 is a flowchart illustrating a method for generating a structured query based on a knowledge database according to an embodiment of the present invention.
FIG. 3 is a flowchart illustrating the determination step of the knowledge database-based structured query generation method according to an embodiment of the present invention in more detail.
FIG. 4 is a flowchart illustrating in greater detail a generation step of a knowledge database based structured query generation method according to an exemplary embodiment of the present invention.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. The following merely illustrates the principles of the invention. Therefore, those skilled in the art will be able to devise various apparatuses which, although not explicitly described or shown herein, embody the principles of the invention and are included in the concept and scope of the invention. It is also to be understood that all conditional terms and examples recited in this specification are, in principle, expressly intended for the purpose of enabling the inventive concept to be understood, and are not intended to be limiting as to such specifically recited embodiments and conditions .

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. BRIEF DESCRIPTION OF THE DRAWINGS The above and other objects, features and advantages of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, in which: .

또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세하게 설명한다.In the following description, a detailed description of known technologies related to the present invention will be omitted when it is determined that the gist of the present invention may be unnecessarily blurred. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 따른 지식 데이터베이스 기반 구조화된 질의 생성 장치를 포함하는 전체 시스템을 나타내는 도이다.1 is a diagram illustrating an entire system including a structured query generation apparatus based on a knowledge database according to an embodiment of the present invention.

도 1을 참조하면, 본 실시예에 따른 시스템은 사용자 또는 외부 시스템(10)으로부터 질의를 입력 받는 질의 처리부(100), 입력된 자연어 기반의 질의문을 분석하는 질의 분석부(200), 분석된 결과를 통해 구조화된 질의를 생성하는 질의 생성부(300)를 포함하며, 질의의 생성에 기반이되는 지식 데이터베이스(400)를 포함한다.Referring to FIG. 1, a system according to an embodiment of the present invention includes a query processing unit 100 for receiving a query from a user or an external system 10, a query analysis unit 200 for analyzing a query query based on the input natural language, And a query generation unit 300 for generating a structured query through a result, and includes a knowledge database 400 based on generation of a query.

본 실시에에서 질의문은 사용자 또는 외부 시스템으로부터 입력되는 자연어 기반의 질의문으로, 일반인이 일상에서 사용하는 한국어, 영어, 일본어 등을 의미하며 기계가 이해하는 프로그래밍 언어, 데이터 질의 언어 등과 대비된다.In this embodiment, the query is a query based on a natural language inputted from a user or an external system. The query refers to Korean, English, Japanese, and the like used by ordinary people in everyday life, and contrasts with programming languages and data query languages understood by machines.

자연어는 반드시 완벽한 문법을 구사하지 않아도 사람 간의 의사소통에 큰 문제가 없다. 반면 본 발명에서 제안하는 시스템의 결과로 생성되는 지식 데이터베이스(400) 기반의 질의는 기계가 이해하는 형식적이고, 구조적인 언어를 의미한다.Natural language does not necessarily have perfect grammar, but there is no big problem in human communication. Meanwhile, the query based on the knowledge database 400 generated as a result of the system proposed in the present invention means a formal and structured language understood by the machine.

현재, 검색 엔진에서 주로 사용되는 기술은 키워드를 기반한다. 사용자가 문장 형태의 질의를 입력하면 자연어 처리 기술을 통해 주요한 키워드를 추출하고 보유하고 있는 웹 문서 집합에서 해당 키워드를 포함하는 웹 문서들을 반환한다. 또한, 애플이나 삼성의 인터페이스는 모바일 장비 상에 있는 데이터, 어플리케이션 등에 국한된 질문이나 명령어를 처리한다. Currently, the most commonly used techniques in search engines are keyword based. When a user inputs a sentence type query, key words are extracted through a natural language processing technique and the web documents including the keyword are returned from the set of the web documents. In addition, the Apple or Samsung interface handles questions and commands specific to data, applications, etc. on the mobile device.

반면 본 발명의 시스템은 질문을 특정 데이터베이스(400) 모델에 제한된 질의가 아닌 모든 데이터베이스(400) 모델을 포괄할 수 있는 지식 데이터베이스(400) 질의로 변환한다. 또한, 키워드뿐 아니라 질문의 구문적, 문법적 분석 결과를 활용하여 질문을 보다 구체적으로 이해하여 변환한다. The system of the present invention, on the other hand, transforms the query into a knowledge database (400) query that can encompass all database (400) models, rather than queries limited to a particular database (400) model. In addition, we use the results of syntactic and grammatical analysis of questions as well as keywords to understand and translate the questions more specifically.

본 발명에서 질의의 대상이 되는 지식 데이터베이스(400)는 시맨틱 웹(Semantic Web)일 수 있다. 시맨틱 웹이란 현재 사용되는 인터넷 등과 같은 분산 환경에서 리소스, 예컨대 웹문서, 각종 파일, 각종 응용 서비스 등에 관한 정보와 자원 사이의 관계-의미 정보(semantics)를 기계적으로 처리할 수 있는 온톨로지(ontology) 정보로서 표현하는 기술을 의미한다. `In the present invention, the knowledge database 400 to be a query object may be a Semantic Web. The Semantic Web is a relationship between information and resources related to resources such as a web document, various files, various application services, and the like in a distributed environment such as the Internet currently used - ontology information capable of mechanically processing semantics And the like. `

지식 데이터베이스(400)는 데이터 관리를 위하여 가장 보편적으로 사용되고 있는 모델이며, 이를 관리하는 데이터베이스(400) 관리 시스템들(DBMSs: Database Management Systems)은 구조적 질의어를 지원하고 있다. 다만 이러한 데이터메이스 관리 시스템들의 경우 각각 자료를 기술하는 관점이나 언어적 특성이 다르기 때문에 변환 과정을 통해 본래 의도했던 것과 다른 결과물이 나오는 오류를 범할 가능성이 있다. The knowledge database 400 is the most commonly used model for data management, and the database management system (DBMSs) that manage the knowledge database 400 supports a structural query language. However, these data mace management systems are likely to incur errors that result in different results than originally intended through the conversion process because of the different viewpoints and linguistic characteristics of the data.

따라서, 본 발명에 따른 질의 분석부(200)와 질의 생성부(300)는 지식 데이터베이스(400) 기반의 구조화된 질의를 생성하는 방법을 수행하여, 질문을 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식베이스 질의로 변환한다. 또한, 키워드뿐 아니라 질문의 구문적, 문법적 분석 결과를 활용하여 질문을 보다 구체적으로 이해하여 변환한다.Therefore, the query analyzer 200 and the query generator 300 according to the present invention perform a method of generating a structured query based on the knowledge database 400, Into a knowledge base query that can cover the model. In addition, we use the results of syntactic and grammatical analysis of questions as well as keywords to understand and translate the questions more specifically.

이하 도 2 내지 도 4를 참조하여, 보다 상세히 설명한다.This will be described in more detail below with reference to Figs. 2 to 4. Fig.

도 2는 본 발명에 따른 지식 데이터베이스(400) 기반 구조화된 질의 생성 방법을 나타내는 흐름도이다.FIG. 2 is a flowchart illustrating a structured query generation method based on the knowledge database 400 according to the present invention.

도 2를 참조하면, 본 실시예에 따른 지식 데이터베이스(400) 기반 구조화된 질의 생성 방법은 판단 단계(S100), 생성 단계(S200)를 포함한다.Referring to FIG. 2, the structured query generation method based on the knowledge database 400 according to the present embodiment includes a determination step S100 and a generation step S200.

본 실시예에서 판단 단계(S100)는 자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단한다.In the present embodiment, the determination step S100 determines the attribute of the unit sentence separated by separating the natural language query according to a predetermined analysis unit, and determines the sentence form of the query using the attribute.

즉, 질의 분석부(200)는 질문 처리부(100)로부터 전달 받은 자연어로 작성된 질문을 언어학적으로 분석한다. In other words, the query analyzer 200 analyzes the question generated in the natural language transmitted from the question processor 100 linguistically.

도 3을 참조하여 질의 분석부(200)에 의한 판단 단계(S100)를 보다 상세히 설명한다.The determination step S100 by the query analysis unit 200 will be described in more detail with reference to FIG.

본 실시예에 따른 판단 단계(S100)는 형태소 분석 단계(S110), 구문 분석을 통한 트리 생성 단계(S120), 프레임 분석을 통한 질의문과 정답 관계 도출 단계(S130), 개체명 분석 단계(S140), 문장 형식 분석 단계(S150), 분석 결과 통합 단계(S160)를 포함한다.The determination step S100 according to the present embodiment includes a morphological analysis step S110, a tree generation step S120 through a syntax analysis, a query statement and a correct answer relation step S130 through a frame analysis, an object name analysis step S140, A sentence format analysis step S150, and an analysis result integration step S160.

본 실시예에서 형태소 분석 단계(S110)는 형태소 분석부(210)가 자연어 질문의 형태소를 분석하여 형태소 목록을 생성한다.In this embodiment, the morpheme analysis step (S110) analyzes the morpheme of the natural language question by the morpheme analysis unit 210 to generate a morpheme list.

이하, 본 실시예에서는 자연어 질의문으로 "세계 최초로 1927년 8월 사회주의 계열과 민족주의 계열의 여성 운동가들이 세계 최초로 경상북도 영천에서 통합해 조직한 단체는?"이라는 질의문이 질문처리부에 의해 입력되었을 때의 질의 생성에 대하여 설명한다. Hereinafter, in the present embodiment, when a question statement "What is the world's first organization of women's activists of the socialist and nationalist families in Yeoncheon, Gyeongsangbuk-do in August 1927" Will be described.

따라서, 형태소 분석 단계(S110)는 자연어 질의문을 형태소 단위로 분석한다. 즉, 표 1과 같이 분석될 수 있다.Accordingly, the morpheme analysis step (S110) analyzes the natural language query in morpheme units. That is, it can be analyzed as shown in Table 1.

`세계`[`세계`/NN:0:2] `최초로`[`최초`/NN:3:5+`로`/J:5:6] `1927년`[`1927`/SN:7:11+`년`/NN:11:12] `8월`[`8`/SN:13:14+`월`/NN:14:15] `사회주의`[`사회주의`/NN:16:20] `계열과`[`계열`/NN:21:23+`과`/J:23:24] `민족주의`[`민족주의`/NN:25:29] `계열의`[`계열`/NN:30:32+`의`/J:32:33] `여성`[`여성`/NN:34:36] `운동가들이`[`운동가`/NN:37:40+`들`/X:40:41+`이`/J:41:42] `세계`[`세계`/NN:43:45] `최초로`[`최초`/NN:46:48+`로`/J:48:49] `경상북도`[`경상북도`/NN:50:54] `영천에서`[`영천`/NN:55:57+`에서`/J:57:59] `통합해`[`통합`/NN:60:62+`해`/X:62:63] `조직한`[`조직`/NN:64:66+`한`/X:66:67] `단체는?`[`단체`/NN:68:70+`는`/J:70:71+`?`/S:71:72]JN: 5: 6] `1927` [`1927` / SN: 7] for the first time [` first `/ NN: 3: 5 + Socialism `/ NN: 14: 15]` `Socialism` `/ NN: 14: 15` `` Nationality `/ NN: 25: 29]` `family` `/` Nationality `/ Nationality` / NN: 25: NN: 37: 40 + `` `` `` `` `` `` `` `` `` `` ` / J: 41: 42] 'World' ['World' / NN: 43: 45] [JNN: 55: 57] "from the Yeongcheon / NN: 55: 57 +" to the "integrated" / N: 60: 62 + `Sun` / X: 62: 63] `Organizations` [`Organization` / NN: 64: 66 + `/ NN: 68: 70 +` `/ J: 70: 71 +`? `/ S: 71: 72]

이때, NN은 명사를 의미하며, J는 조사를 의미하는 태그로 예를 들어, ' 세계`[`세계`/NN:0:2]'은 `세계`는 명사(NN)이고 문장의 0~2 번째에 있다는 의미이며, `최초로`는 명사와 조사의 조합으로 이루어져 있음을 의미한다. In this case, NN means a noun, and J is a tag that means an investigation. For example, 'world' [world / NN: 0: 2] Means that it is in the second, and `first 'means it is a combination of nouns and investigations.

구문 분석을 통한 트리 생성 단계(S120)는 구문 분석부(220)가 자연어 질문의 구문을 분석하여 구문 트리를 생성한다. 이때의 생성되는 데이터구조는 아래의 표 2와 같이 표현될 수 있다. In the tree generation step (S120) through parsing, the syntax analysis unit (220) analyzes the syntax of the natural language query to generate a syntax tree. The generated data structure at this time can be expressed as shown in Table 2 below.

{"id" : 0, "text" : "세계", "head" : 1, "label" : "NP", "mod" : [] },
{"id" : 1, "text" : "최초로", "head" : 14, "label" : "NP_AJT", "mod" : [0] },
{"id" : 2, "text" : "1927년", "head" : 3, "label" : "NP", "mod" : [] },
{"id" : 3, "text" : "8월", "head" : 14, "label" : "NP_AJT", "mod" : [2] },
{"id" : 4, "text" : "사회주의", "head" : 5, "label" : "NP", "mod" : [] },
{"id" : 5, "text" : "계열과", "head" : 7, "label" : "NP_CNJ", "mod" : [4] },
{"id" : 6, "text" : "민족주의", "head" : 7, "label" : "NP", "mod" : [] },
{"id" : 7, "text" : "계열의", "head" : 9, "label" : "NP_MOD", "mod" : [5, 6] },
{"id" : 8, "text" : "여성", "head" : 9, "label" : "NP", "mod" : [] },
{"id" : 9, "text" : "운동가들이", "head" : 14, "label" : "NP_SBJ", "mod" : [7, 8] },
{"id" : 10, "text" : "세계", "head" : 11, "label" : "NP", "mod" : [] },
{"id" : 11, "text" : "최초로", "head" : 14, "label" : "NP_AJT", "mod" : [10] },
{"id" : 12, "text" : "경상북도", "head" : 13, "label" : "NP", "mod" : [] },
{"id" : 13, "text" : "영천에서", "head" : 14, "label" : "NP_AJT", "mod" : [12] },
{"id" : 14, "text" : "통합해", "head" : 15, "label" : "VP", "mod" : [1, 3, 9, 11, 13] },
{"id" : 15, "text" : "조직한", "head" : 16, "label" : "VP_MOD", "mod" : [14] },
{"id" : 16, "text" : "단체는?", "head" : -1, "label" : "ROOT", "mod" : [15] }
{"id": 0, "text": "world", "head": 1, "label": "NP", "mod"
{"id": 1, "text": "first", "head": 14, "label": "NP_AJT", "mod"
{"id": 2, "text": "1927", "head": 3, "label": "NP", "mod"
{"id": 3, "text": "August", "head": 14, "label": "NP_AJT", "mod"
{"id": 4, "text": "socialism", "head": 5, "label": "NP", "mod"
{"id": 5, "text": "series and", "head": 7, "label": "NP_CNJ", "mod"
{"id": 6, "text": "nationalism", "head": 7, "label": "NP", "mod"
{"id": 7, "text": "series", "head": 9, "label": "NP_MOD"
{"id": 8, "text": "female", "head": 9, "label": "NP", "mod"
{"id": 9, "text": "activists", "head": 14, "label": "NP_SBJ"
{"id": 10, "text": "world", "head": 11, "label": "NP", "mod"
{"id": 11, "text": "first", "head": 14, "label": "NP_AJT", "mod"
{"id": 12, "text": "Gyeongsangbuk-do", "head": 13, "label": "NP", "mod"
{"id": 13, "text": "from Yeongcheon", "head": 14, "label": "NP_AJT", "mod"
{"id": 14, "text": "integrate", "head": 15, "label": "VP", "mod": [1, 3, 9, 11,
{"id": 15, "text": "organized", "head": 16, "label": "VP_MOD"
{"id": 16, "text": "group?", "head": -1, "label": "ROOT", "mod"

표 2는 어절 간의 구문관계를 표현한 것으로 id는 어절의 id를 의미한다. Text는 어절을 의미한다. Head는 부모 어절을 의미하고, Label은 어절의 구문적 역할을 의미하며, Mod는 자식 어절을 의미한다. 즉, 이 예시하는 질의문의 최상위 어절은 ROOT의 역할을 하는 16번 어절 `단체는?`이며, 자식 어절로는 15번 어절인 `조직한`을 가지고 있다. 이렇게 서로 연결된 어절 간의 관계를 구문트리라고 한다. Table 2 shows the syntactic relationship between the words. Id is the id of the word. Text means a word. Head means parent word, Label means the syntactic role of the word, and Mod means child word. In other words, the most upper - level word of this example query has the word `16 group`, which serves as the ROOT, and the child word `group` has 15 words. The relationship between these connected words is called a syntax tree.

다음, 프레임 분석을 통한 질의문과 정답 관계 도출 단계(S130)는 프레임 분석부(230)가 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 프레임의 상기 질의문에 대한 정답과의 관계를 분석한다.In step S130, the frame analyzing unit 230 separates the natural language query into a frame, which is a predefined semantic unit, to determine the relationship between the query and the correct answer to the query in the frame Analyze.

이때 질의문과 프레임의 관계라 함은, 정답을 제약하기 위한 조건으로서 상술한 실시예에 따르면, 표 3과 같이 표현될 수 있다.At this time, the relation between the query and the frame may be expressed as Table 3 according to the above embodiment as a condition for constraining the correct answer.

C:0 / X:AT_VARIABLE / PT_SUPERATIVE:PT_SUPERATIVE / 세계 최초로:AT_STRING
C:1 / X:AT_VARIABLE / PT_TEMPORAL:PT_TEMPORAL / 1927년 8월:AT_STRING
C:2 / X:AT_VARIABLE / PT_SUPERATIVE:PT_SUPERATIVE / 세계 최초로:AT_STRING
C:3 / X:AT_VARIABLE / PT_LOCATION:PT_LOCATION / 영천에서:AT_STRING
C:4 / X:AT_VARIABLE / PT_LOCATION:PT_LOCATION / 경상북도:AT_STRING
C:5 / X:AT_VARIABLE / PT_TYPE:PT_TYPE / 단체:AT_STRING
C:6 / 운동가들이:AT_STRING / 통합하어:PT_LEXICAL / X:AT_VARIABLE
C: 0 / X: AT_VARIABLE / PT_SUPERATIVE: PT_SUPERATIVE / world first: AT_STRING
C: 1 / X: AT_VARIABLE / PT_TEMPORAL: PT_TEMPORAL / August 1927: AT_STRING
C: 2 / X: AT_VARIABLE / PT_SUPERATIVE: PT_SUPERATIVE / world first: AT_STRING
C: 3 / X: AT_VARIABLE / PT_LOCATION: PT_LOCATION / from Yeongcheon: AT_STRING
C: 4 / X: AT_VARIABLE / PT_LOCATION: PT_LOCATION / Gyeongsangbuk-do: AT_STRING
C: 5 / X: AT_VARIABLE / PT_TYPE: PT_TYPE / Organization: AT_STRING
C: 6 / Athletes: AT_STRING / Integrated: PT_LEXICAL / X: AT_VARIABLE

표 3은 질의문 문장의 프레임을 분석한 결과로, C는 프레임에 나타나는 변수(X)에 대한 제약 조건의 id를 의미한다. 5번 조건을 예로 들면, C:5는 질의에 의한 정답인 변수(AT_VARIABLE) X의 타입(PT_TYPE)은 `단체`라는 것을 의미한다. 6번 조건은 `운동가들이` X를 `통합`했다는 의미이다. 또한 1번 조건은 `1927년 8월`에 일어난 일이라는 것을 의미한다.Table 3 shows the result of analyzing the frame of the query sentence, and C denotes the constraint id of the variable (X) appearing in the frame. In the case of the 5th condition, for example, C: 5 means that the type (PT_TYPE) of the variable (AT_VARIABLE) X that is the correct answer by the query is `group`. The sixth condition means `the activists` integrated `X '. Also, condition 1 means that it happened in August 1927.

개체명 분석 단계(S140)는 개체명 분석부(240)가 자연어 질의문에 포함된 개체명의 속성을 분석한다. 이때 개체명은 개체명을 관리하는 사전을 통해 식별될 수 있으며, 식별된 개체명의 속성을 분석한다. In the object name analysis step S140, the object name analysis unit 240 analyzes the object name attribute included in the natural language query. At this time, the entity name can be identified through the dictionary managing the entity name, and the attribute of the identified entity name is analyzed.

상술한 질의문에 따른 개체명 분석 결과는 표 4와 같이 표현될 수 있다.The result of analyzing the object name according to the above query can be expressed as shown in Table 4.

1927년 8월:DT,사회주의:TR,민족주의:TR,경상북도:LC,영천:LCAugust 1927: DT, Socialism: TR, Nationalism: TR, Gyeongsangbuk-do: LC, Yeongcheon: LC

여기서 인식된 개체명으로 `1927년 8월`이라는 시간(DT)을 나타내는 개체명. `경상북도`라는 공간(LC)을 나타내는 개체명으로 그 속성을 분석한다. The name of the object that represents the time (DT) named `August 1927` as the recognized object name. Analyzes its properties with the object name representing the space (LC) called `Gyeongbukbukdo`.

문장 형식 분석 단계(S150)는 문장 형식 분석부(250)가 형태소의 속성, 개체명의 속성을 통한 문장의 주어 술어 관계를 파악하고 미리 결정된 형식 기준에 따라 문장 형식을 분석한다. 본 실시예에서는 분석된 문장 형식이 생성되는 구조화된 질의의 구조를 결정할 수 있다.In the sentence form analysis step S150, the sentence form analyzer 250 grasps the subject predicate relation of the sentence through the attribute of the morpheme and the attribute of the entity name, and analyzes the sentence form according to a predetermined format criterion. In this embodiment, the structure of the structured query in which the analyzed sentence format is generated can be determined.

다음 분석 결과 통합 단계(S160)는 분석 결과 통합부(S260)가 형태소 분석부(210), 구문 분석부(220), 프레임 분석부(230), 개체명 분석부(240), 문장 형식 분석부(250)의 결과를 통합하여 질의 생성부(300)에 전달한다.In the following analysis result integration step S160, the analysis result integration unit S260 includes the morphological analysis unit 210, the syntax analysis unit 220, the frame analysis unit 230, the object name analysis unit 240, (250) and transmits the combined result to the query generation unit (300).

이하, 생성 단계(S200)에 대하여 도 4를 참조하여 보다 상세히 설명한다. Hereinafter, the generation step S200 will be described in more detail with reference to FIG.

도 4를 참조하면 본 실시예에 따른 생성 단계(S200)는 정답 유형 후보 도출 단계(S210), 정답 유형 판단 단계(S220), 질의 기본 생성 단계(S230), 구조화된 질의 생성 단계(S240), 질의 구체화 단계(S250), 질의 통합 단계(S260)를 포함한다.Referring to FIG. 4, the generating step S200 includes a correct answer type candidate obtaining step S210, a correct answer type determining step S220, a query basic creating step S230, a structured query creating step S240, A query specification step S250, and a query integration step S260.

정답 유형 후보 도출 단계(S210)는 정답 유형 판단부(310)가 언어분석결과를 기반으로 자연어 질문에서 얻고자 정답의 유형을 판단한다. 먼저 언어분석결과를 통해 다수의 정답유형 후보를 도출한다. In the correct answer type candidate derivation step S210, the correct answer type determination unit 310 determines the type of the correct answer to obtain from the natural language question based on the language analysis result. First, a number of correct answer candidates are derived through the language analysis results.

본 실시예에서는 프레임 분석부(230)의 결과에서 변수의 조건에 대한 정보를 얻을 수 있으며, 본 실시예에서 `C:5 / X:AT_VARIABLE / PT_TYPE:PT_TYPE / 단체:AT_STRING`를 보면 변수 X의 타입이 `단체`라는 문자와 관련 있다는 정보를 얻을 수 있다. 프레임 분석 결과에서 이러한 타입은 여러 개가 나올 수 있으며, 이를 정답 유형 후보로 결정할 수 있다.In the present embodiment, information on the condition of the variable can be obtained from the result of the frame analyzer 230. In the present embodiment, `C: 5 / X: AT_VARIABLE / PT_TYPE: PT_TYPE / You can get information that the type is related to the `group 'character. Several types of these types can be extracted from the frame analysis results, and this can be determined as a candidate for the correct answer type.

다음, 정답 유형 판단 단계(S220)는 정답 유형 판단부(310)가 지식 데이터베이스(400)를 참조하여 정답 유형을 판단한다. 즉, 질의에 대상이 되는 지식 데이터베이스(400)의 데이터 구조들을 참조하고, 가장 적합한 정답 유형을 선택할 수 있다. 따라서, 본 실시예에서는 지식 데이터베이스(400) 각각의 구조적 특징에 대응되는 정답 유형을 찾고 이로부터 구조화된 질의를 생성하므로, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스(400)를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다Next, in the correct answer type determination step S220, the correct answer type determination unit 310 refers to the knowledge database 400 to determine the correct answer type. That is, the data structures of the knowledge database 400 to be subjected to the query can be referred to, and the most suitable correct answer type can be selected. Accordingly, in this embodiment, since the correct answer type corresponding to the structural characteristic of each knowledge database 400 is found and a structured query is generated therefrom, a knowledge database (not shown) 400), so that correct answers can be obtained from a variety of raw information

본 실시예에서는 앞서 도출된 여러 개의 정답 유형 후보를 포함하는 후보를 지식 데이터베이스(400)에서 찾는다. 찾아진 후보가 하나이면 그것을 선정하고, 없는 경우 최상의 후보를로 선정한다. 예를 들어 두 개 이상 나오는 경우 프레임 분석 결과의 PT_LEXICAL의 값과 관련된 속성이 있는 후보를 선정할 수 있다. In the present embodiment, candidates including a plurality of correct answer type candidates derived above are searched in the knowledge database 400. If there is one candidate, select it. If not, select the best candidate. For example, if two or more occur, candidates with attributes related to the PT_LEXICAL value of the frame analysis result can be selected.

정답 유형 기반 구조화된 질의 기본 생성 단계(S230)는 정답 유형 판단부(310)가 도출된 정답유형을 기반으로 지식베이스 기반 구조화된 질의의 기본을 생성한다.The correct answer type basic structured query basic creation step S230 generates a basic of a knowledge base based structured query based on the correct answer type derived by the correct answer type determination unit 310. [

구조화된 질의 생성 단계(S240)는 프레임 변환부(320)가, 질의 분석 결과 자연어 질문의 문장형식에 따라 정해진 규칙으로 지식베이스 질의를 생성한다.In the structured query generation step S240, the frame conversion unit 320 generates a knowledge base query with a predetermined rule according to the sentence format of the natural language query as a result of the query analysis.

상술한 질의문에 따라 생성되는 구조화된 질의는 아래의 표 5와 같이 표현될 수 있다.The structured query generated according to the above query can be expressed as shown in Table 5 below.

?stmt rdf:type rdf:Statement .
?stmt rdf:object ?X .
?stmt rdf:predicate xbp:founderOf .
?stmt rdf:subject ?ins_1393423910 .
?ins_1393423910 xbp:name ?ins_name_1393423910 .
FILTER regex(?ins_name_1393423910, "운동가")
? stmt rdf: type rdf: Statement.
? stmt rdf: object? X.
? stmt rdf: predicate xbp: founderOf.
? stmt rdf: subject? ins_1393423910.
? ins_1393423910 xbp: name? ins_name_1393423910.
FILTER regex (? Ins_name_1393423910, "activist")

질의 구체화 단계(S250)는 부가정보 변환부(330)가 자연어 질의문에 포함된 시간 또는 공간적 정보를 이용하여 상기 구조화된 질의를 구체화한다.In the query specification step S250, the additional information conversion unit 330 specifies the structured query using time or spatial information included in the natural language query.

상술한 질의문에 따라 생성되는 구체화된 구조화된 질의는 아래의 표 6와 같이 표현될 수 있다.The materialized structured query generated according to the above query can be expressed as shown in Table 6 below.

?stmt xbp:occursOn ?tem_966484835 .
?tem_966484835 xbp:name ?tem_name_966484835 .
FILTER regex(?tem_name_966484835, "1927년 8월")
?stmt xbp:occursIn ?loc_144315937 .
?loc_144315937 xbp:name ?loc_name_144315937 .
FILTER regex(?loc_name_144315937, "영천")
?stmt xbp:ranking ?sup_1008915696 .
FILTER regex(?sup_1008915696, "세계 최초")
? stmt xbp: occursOn? tem_966484835.
? tem_966484835 xbp: name? tem_name_966484835.
FILTER regex (? Tem_name_966484835, "August 1927")
? stmt xbp: occursIn? loc_144315937.
• loc_144315937 xbp: name • loc_name_144315937.
FILTER regex (? Loc_name_144315937, "Yeongcheon")
? stmt xbp: ranking? sup_1008915696.
FILTER regex (? Sup_1008915696, "world first")

질의 통합 단계(S260)는 질의 조합부(340)가 정답 유형 판단부(310), 프레임 변환부(320), 부가정보 변환부(330)에서 각각 생성된 지식 데이터베이스(400)기반 질의의 부분을 조합하여 다수의 질의를 생성하여 질의 처리부(100)에 전달한다.In the query integration step S260, the query combination unit 340 determines a part of the knowledge database 400 based query generated in the correct answer type determination unit 310, the frame conversion unit 320, and the additional information conversion unit 330, And transmits the generated query to the query processing unit 100.

상술한 질의문에 따라 생성되는 조합되는 구조화된 질의는 아래의 표 7과 같이 표현될 수 있다.The combined structured queries generated according to the above query can be expressed as shown in Table 7 below.

SELECT ?name
WHERE {
?X xbp:name ?name .

?X rdf:type xbc:Organization .

?stmt rdf:type rdf:Statement .
?stmt rdf:object ?X .
?stmt rdf:predicate xbp:founderOf .

?stmt rdf:subject ?ins_1393423910 .
?ins_1393423910 xbp:name ?ins_name_1393423910 .
FILTER regex(?ins_name_1393423910, "운동가")

?stmt xbp:occursOn ?tem_966484835 .
?tem_966484835 xbp:name ?tem_name_966484835 .
FILTER regex(?tem_name_966484835, "1927년 8월")
?stmt xbp:occursIn ?loc_144315937 .
?loc_144315937 xbp:name ?loc_name_144315937 .
FILTER regex(?loc_name_144315937, "영천")
?stmt xbp:ranking ?sup_1008915696 .
FILTER regex(?sup_1008915696, "세계 최초")
}
SELECT? Name
WHERE {
? X xbp: name? Name.

? X rdf: type xbc: Organization.

? stmt rdf: type rdf: Statement.
? stmt rdf: object? X.
? stmt rdf: predicate xbp: founderOf.

? stmt rdf: subject? ins_1393423910.
? ins_1393423910 xbp: name? ins_name_1393423910.
FILTER regex (? Ins_name_1393423910, "activist")

? stmt xbp: occursOn? tem_966484835.
? tem_966484835 xbp: name? tem_name_966484835.
FILTER regex (? Tem_name_966484835, "August 1927")
? stmt xbp: occursIn? loc_144315937.
• loc_144315937 xbp: name • loc_name_144315937.
FILTER regex (? Loc_name_144315937, "Yeongcheon")
? stmt xbp: ranking? sup_1008915696.
FILTER regex (? Sup_1008915696, "world first")
}

질의 생성부(300)를 통해 생성된 지식 데이터베이스(400) 기반 구조화된 질의는 다시 질의 처리부(100)로 전달되어 최종적으로 외부 시스템 또는 사용자에게 반환된다. 외부 시스템 또는 사용자는 생성된 질의를 지식 데이터베이스(400)에 요청하면 지식 데이터베이스(400)는 “근우회”와 같은 정답을 반환한다.The structured query based on the knowledge database 400 generated through the query generation unit 300 is transmitted again to the query processing unit 100 and finally returned to the external system or user. When the external system or the user requests the generated query to the knowledge database 400, the knowledge database 400 returns the correct answer such as " anniversary. &Quot;

본 발명에 따르면, 자연어 질의문의 구문적, 문법적 분석 결과를 활용하여 구조화된 질의를 생성하여 보다 사용자 친화적인 정보를 제공할 수 있으며, 특정 데이터 모델에 제한된 질의가 아닌 모든 데이터 모델을 포괄할 수 있는 지식 데이터베이스를 기반으로 질의를 생성하므로, 다양한 원시 정보로부터 정답을 획득 할 수 있다. 궁극적으로 기계가 인식 가능한 질의로 변환하기 때문에 자연어를 통한 인간과 기계 간의 의사소통을 지원할 수 있다.According to the present invention, structured queries can be generated by using syntactic and grammatical analysis results of a natural language query to provide more user-friendly information, and it is possible to provide all the data models that are not restricted to specific data models The query is generated based on the knowledge database, so that the correct answer can be obtained from various raw information. Ultimately, because the machine translates into a recognizable query, it can support human-machine communication through natural language.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. It will be apparent to those skilled in the art that various modifications, substitutions and substitutions are possible, without departing from the scope and spirit of the invention as disclosed in the accompanying claims. will be.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the embodiments disclosed in the present invention and the accompanying drawings are intended to illustrate and not to limit the technical spirit of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments and the accompanying drawings . The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

Claims (8)

자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 단계; 및
상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고,
상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 단계를 포함하고,
상기 판단하는 단계는 상기 자연어 질의문을 형태소 단위로 분리하여 구문 트리를 생성하고, 상기 구문 트리를 이용하여 상기 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 자연어 질의문의 정답을 제약하는 조건을 도출하고,
상기 생성하는 단계는 상기 정답을 제약하는 조건에 따라 상기 지식 데이터베이스의 데이터 구조를 참조하여 선택된 정답 유형에 따라 구조화된 질의를 생성하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
Determining a property of the separated unit syntax by separating the natural language query statement according to a predetermined analysis unit, and determining the sentence form of the inquiry query using the attribute; And
Determining a type of a correct answer to the query according to the determined attribute based on a knowledge database to be a query object of the query,
And generating a structured query in the sentence format for the knowledge database according to the determined correct answer type,
Wherein the natural language query sentence is divided into morpheme units and a syntactic tree is generated, and the natural language query sentence is divided into frames, each of which is a predefined semantic unit, using the syntax tree to restrict the correct answer of the natural language query The condition is derived,
Wherein the generating step generates a structured query according to a selected correct answer type with reference to a data structure of the knowledge database according to a condition limiting the correct answer.
삭제delete 삭제delete 제 1 항에 있어서,
상기 판단하는 단계는 상기 자연어 질의문에 포함된 개체명의 속성을 분석하고,
상기 생성하는 단계는 상기 개체명의 속성에 따른 상기 질의문에 대한 정답 유형을 판단하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
The method according to claim 1,
Wherein the determining includes analyzing attributes of entity names included in the natural language query,
Wherein the generating step determines the correct answer type for the query statement according to the attribute of the entity name.
제 1 항에 있어서,
상기 생성하는 단계는 상기 질의문에 대한 정답의 유형 후보를 도출하고,
상기 지식 데이터베이스를 참조하여 상기 도출된 정답의 유형 후보로부터 상기 정답의 유형을 판단하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
The method according to claim 1,
Wherein the generating step derives a type candidate of a correct answer to the query statement,
And the type of the correct answer is determined from the type candidate of the correct answer derived by referring to the knowledge database.
제 1 항에 있어서,
상기 생성하는 단계는 상기 정답의 유형을 이용하여 상기 구조화된 질의의 기본을 생성하고,
상기 판단된 문장 형식에 따라 미리 결정된 규칙으로 상기 구조화된 질의의 기본을 상기 구조화된 질의로 변환하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
The method according to claim 1,
Wherein the generating step generates the basis of the structured query using the type of the correct answer,
And converting the basis of the structured query into the structured query in a predetermined rule according to the determined sentence format.
제 1 항에 있어서,
상기 생성하는 단계는 상기 자연어 질의문에 포함된 시간 또는 공간적 정보를 이용하여 상기 구조화된 질의를 구체화하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 방법.
The method according to claim 1,
Wherein the step of generating the structured query specifies the structured query using time or spatial information included in the natural language query.
자연어 질의문을 미리 결정된 분석 단위에 따라 분리하여 분리된 단위 구문의 속성을 판단하고, 상기 속성을 이용하여 상기 질의문의 문장 형식을 판단하는 질의 분석부; 및
상기 질의문의 질의 대상인 지식 데이터베이스를 기반으로, 상기 판단된 속성에 따른 상기 질의문에 대한 정답의 유형을 판단하고,
상기 판단된 정답의 유형에 따라 상기 지식 데이터베이스에 대하여 상기 문장 형식으로 구조화된 질의를 생성하는 질의 생성부를 포함하고,
상기 질의 분석부는 상기 자연어 질의문을 형태소 단위로 분리하여 구문 트리를 생성하고, 상기 구문 트리를 이용하여 상기 자연어 질의문을 미리 정의된 의미 단위인 프레임으로 분리하여 상기 자연어 질의문의 정답을 제약하는 조건을 도출하고,
상기 질의 생성부는 상기 정답을 제약하는 조건에 따라 상기 지식 데이터베이스의 데이터 구조를 참조하여 선택된 정답 유형에 따라 구조화된 질의를 생성하는 것을 특징으로 하는 지식 데이터베이스 기반 구조화된 질의 생성 장치.
A query analyzer for determining the attribute of the separated unit syntax by separating the natural query sentence according to a predetermined analysis unit and determining the sentence form of the query sentence using the attribute; And
Determining a type of a correct answer to the query according to the determined attribute based on a knowledge database to be a query object of the query,
And a query generation unit configured to generate a structured query in the sentence format for the knowledge database according to the determined correct answer type,
Wherein the query analyzing unit generates a syntax tree by separating the natural language query sentence into morpheme units and separates the natural language query sentence into frames of a predefined semantic unit using the syntax tree to restrict the correct answer of the natural language query ≪ / RTI >
Wherein the query generator generates a structured query based on the selected correct answer type with reference to the data structure of the knowledge database according to a condition constraining the correct answer.
KR1020140170333A 2014-12-02 2014-12-02 Method for producing structured query based on knowledge database and apparatus for the same KR101654717B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140170333A KR101654717B1 (en) 2014-12-02 2014-12-02 Method for producing structured query based on knowledge database and apparatus for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140170333A KR101654717B1 (en) 2014-12-02 2014-12-02 Method for producing structured query based on knowledge database and apparatus for the same

Publications (2)

Publication Number Publication Date
KR20160066236A KR20160066236A (en) 2016-06-10
KR101654717B1 true KR101654717B1 (en) 2016-09-06

Family

ID=56190593

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140170333A KR101654717B1 (en) 2014-12-02 2014-12-02 Method for producing structured query based on knowledge database and apparatus for the same

Country Status (1)

Country Link
KR (1) KR101654717B1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101987915B1 (en) * 2017-12-22 2019-06-12 주식회사 솔트룩스 System for generating template used to generate query to knowledge base from natural language question and question answering system including the same
KR102143157B1 (en) * 2018-11-26 2020-08-11 주식회사 솔트룩스 System and method for generating paraphrase sentence based on ontology
KR102368336B1 (en) * 2019-12-31 2022-02-25 주식회사 하나금융티아이 Method and appartus for generalize query pattern
CN111241285B (en) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 Method, device, equipment and storage medium for identifying question answer type
KR102267068B1 (en) * 2020-12-29 2021-06-21 주식회사 젠티 System and method extracting information from time series database according to natural language queries

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087401A (en) 2005-09-23 2007-04-05 Fuji Xerox Co Ltd System and method for indexing, and system and method and program for generating questionnaire template
KR101097360B1 (en) * 2010-06-24 2011-12-23 (주)미디어포스 Method for applying to format for sql

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100546743B1 (en) * 2003-10-02 2006-01-26 한국전자통신연구원 Method for automatically creating a question and indexing the question-answer by language-analysis and the question-answering method and system
KR101709055B1 (en) * 2010-12-09 2017-02-23 한국전자통신연구원 Apparatus and Method for Question Analysis for Open web Question-Answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087401A (en) 2005-09-23 2007-04-05 Fuji Xerox Co Ltd System and method for indexing, and system and method and program for generating questionnaire template
KR101097360B1 (en) * 2010-06-24 2011-12-23 (주)미디어포스 Method for applying to format for sql

Also Published As

Publication number Publication date
KR20160066236A (en) 2016-06-10

Similar Documents

Publication Publication Date Title
US9448995B2 (en) Method and device for performing natural language searches
US10025819B2 (en) Generating a query statement based on unstructured input
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
KR102033395B1 (en) Question answering system and method for structured knowledge-base using deep natrural language question analysis
CN106716408B (en) Semantic text search
US10585924B2 (en) Processing natural-language documents and queries
US9213771B2 (en) Question answering framework
Usbeck et al. Hawk–hybrid question answering using linked data
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
US20170357625A1 (en) Event extraction from documents
KR101107760B1 (en) System and Method for Intelligent Searching and Question-Answering
KR101040119B1 (en) Apparatus and Method for Search of Contents
KR101654717B1 (en) Method for producing structured query based on knowledge database and apparatus for the same
KR20160060253A (en) Natural Language Question-Answering System and method
KR20160007040A (en) Method and system for searching by using natural language query
JP2011118689A (en) Retrieval method and system
KR20100066919A (en) Triple indexing and searching scheme for efficient information retrieval
De Melo et al. UWN: A large multilingual lexical knowledge base
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
KR101478016B1 (en) Apparatus and method for information retrieval based on sentence cluster using term co-occurrence
WO2012091541A1 (en) A semantic web constructor system and a method thereof
Bai et al. RDF snippets for Semantic Web search engines
KR100659370B1 (en) Method for constructing a document database and method for searching information by matching thesaurus
Iqbal et al. A Negation Query Engine for Complex Query Transformations
Vickers Ontology-based free-form query processing for the semantic web

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20190805

Year of fee payment: 4