KR20180094664A - Method for information extraction from text data and apparatus therefor - Google Patents

Method for information extraction from text data and apparatus therefor Download PDF

Info

Publication number
KR20180094664A
KR20180094664A KR1020170021100A KR20170021100A KR20180094664A KR 20180094664 A KR20180094664 A KR 20180094664A KR 1020170021100 A KR1020170021100 A KR 1020170021100A KR 20170021100 A KR20170021100 A KR 20170021100A KR 20180094664 A KR20180094664 A KR 20180094664A
Authority
KR
South Korea
Prior art keywords
morpheme
entity
sentence
type
information
Prior art date
Application number
KR1020170021100A
Other languages
Korean (ko)
Inventor
이근배
유환조
류성한
남대환
한상도
권순철
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020170021100A priority Critical patent/KR20180094664A/en
Publication of KR20180094664A publication Critical patent/KR20180094664A/en

Links

Images

Classifications

    • G06F17/2785
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F17/2755
    • G06F17/3061
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

A method and apparatus for extracting information from text data are disclosed. The present invention relates to the method for extracting information performed in the apparatus for extracting information from text data includes the steps of: determining a first entity and a second entity by analyzing a morpheme and a part-of-speech of a sentence included in the text data; generating context information of the sentence by analyzing the context of the first entity and the second entity with an analysis result of the morpheme and the part-of-speech of the sentence; generating a relational word representing a relation between the first entity and the second entity through the context information of the sentence; and generating a triple of the sentence based on the first entity, the second entity, and the relational word. Accordingly, the present invention can efficiently extract the triple with high accuracy to construct a knowledge base.

Description

텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치{METHOD FOR INFORMATION EXTRACTION FROM TEXT DATA AND APPARATUS THEREFOR}TECHNICAL FIELD [0001] The present invention relates to a method and an apparatus for extracting information from text data,

본 발명은 텍스트 데이터에서 정보를 추출하는 기술에 관한 것으로, 더욱 상세하게는 구조화되지 않은 텍스트 데이터에서 신경망을 기반으로 정보를 추출하는 방법 및 장치에 관한 것이다.The present invention relates to a technique for extracting information from text data, and more particularly to a method and apparatus for extracting information from a neural network based on unstructured text data.

인터넷(Internet)에 존재하는 웹 문서(web document)에는 많은 텍스트 데이터(text data)가 존재하고, 이와 같은 대부분의 텍스트 데이터는 정보를 기술하는 구조(structure) 또는 스키마(schema)를 포함하지 않는다. 즉, 웹 문서는 대부분의 비구조화(unstructured)된 텍스트 데이터로 구성된다. 예를 들어, 어떤 텍스트 데이터에 두 개의 개체(entity)가 포함되어 있고, 두 개의 개체 사이의 관계(relation)를 나타내는 동사구 또는 명사구가 있을 때, 비구조화된 텍스트 데이터는 해당 관계를 나타내는 구조가 기술되어 있지 않기 때문에 컴퓨터가 이러한 관계 정보를 직접 활용하는데 어려움을 겪게 된다. 이러한, 웹 문서 상의 비구조화된 텍스트 데이터의 규모는 계속적으로 증가하고 있다.There are many text data in a web document existing on the Internet, and most of such text data does not include a structure or a schema describing information. That is, a web document is composed of most unstructured text data. For example, when there are two entities in some text data and there is a verb phrase or a noun phrase that represents a relation between two entities, It is difficult for the computer to directly utilize such relationship information. The scale of unstructured text data on web documents is continuously increasing.

이에 따라, 비구조화된 텍스트 데이터는 그 의미가 명확하지 않기 때문에, 개방형 정보 추출(open information extraction) 기술과 같이 정보를 추출하기 위한 추가적인 처리를 거친 후에 여러 응용프로그램(application program)에서 사용 될 수 있다. 즉, 개방형 정보 추출(open information extraction) 기술은 비구조화된 텍스트 데이터에서 구조화된 텍스트 데이터를 추출하는 기술을 의미한다. 구체적으로, 개방형 정보 추출 기술은 비구조화된 텍스트 데이터에서 트리플(triple)을 추출하는 기술이다.Accordingly, since the unstructured text data is not clear in its meaning, it can be used in various application programs after an additional processing for extracting information, such as an open information extraction technique . That is, an open information extraction technique refers to a technique for extracting structured text data from unstructured text data. Specifically, the open information extraction technique is a technique for extracting triples from unstructured text data.

여기서, 트리플은 2개의 개체(entity)와 그 사이의 관계(relation)로 구성되며, 지식 베이스(knowledge base)를 구성하는 단위를 의미한다. 이를 통해, 개방형 정보 추출 기술을 기반으로 구축된 지식 베이스는 추후에 사용자의 질문에 대한 정답을 도출해주는 질의응답(question answering) 시스템 등의 응용프로그램에서 사용될 수 있다.Here, a triple consists of two entities and a relationship between them, which means a unit constituting a knowledge base. Through this, the knowledge base constructed based on the open information extraction technology can be used in an application program such as a question answering system which derives correct answers to the user's question in the future.

기존의 개방형 정보추출 기술은 언어 구조에 기반한 패턴을 이용하여 트리플을 추출하였다. 이러한 언어 구조에 기반한 패턴은 개발자에 의해 직접 만든 규칙 또는 다량의 데이터에서 빈번하게 나타나는 문장 구조를 이용한 것이다. 하지만, 언어 구조에 기반한 패턴은 보통의 자연어 문장에서 자주 나타나는 것을 수집한 것이기 때문에 단순한 문장에 대해서는 트리플을 정확히 추출할 수 있으나, 문장의 구조가 복잡한 문장에서는 트리플 추출의 어려움이 있다.Existing open information extraction techniques extract triples using patterns based on language structure. Patterns based on these language structures are based on rules that are created by the developers themselves or that appear frequently in large amounts of data. However, since the pattern based on the language structure collects frequently appearing in ordinary natural language sentences, the triple can be accurately extracted for a simple sentence, but it is difficult to extract a triple in a sentence complex structure.

또한, 언어 구조에 기반한 패턴을 수집하는 과정은 전문적인 지식이 필요하기 때문에 비전문가 인력을 활용하여 패턴을 확장하는데 어려움이 있다. 그리고, 기존의 개방형 정보 추출 기술은 의존 구문 분석이나 의미역 결정 같은 특정한 언어의 종속적인 기술을 이용한다. 그로 인해, 개방형 정보 추출 기술이 적용되는 시스템의 입력 언어가 바뀔 때 마다, 특정 언어에 종속된 기술들을 모두 교체해야 하는 문제가 있다.In addition, the process of collecting patterns based on language structure requires specialized knowledge, which makes it difficult to extend patterns using non-expert workers. In addition, existing open information extraction techniques use specific language-dependent techniques such as dependency parsing or semantic determination. Therefore, whenever the input language of the system to which the open information extraction technology is applied is changed, there is a problem that all the technologies dependent on the specific language must be replaced.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 웹 문서 상에 존재하는 비구조화된 텍스트 데이터에서 신경망을 기반으로 트리플의 추출이 가능한 신경망 기반의 정보 추출 방법 및 장치를 제공하는 데 있다.It is an object of the present invention to solve the above problems and to provide a method and apparatus for extracting triples based on a neural network from unstructured text data existing on a web document.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법은 텍스트 데이터(text data)로부터 정보를 추출하는 장치에서 수행되는 정보 추출 방법으로서, 상기 텍스트 데이터에 포함된 문장의 형태소 및 품사를 분석하여 제1 개체(entity) 및 제2 개체를 결정하는 단계, 상기 문장의 형태소 및 품사를 분석한 결과와 상기 제1 개체 및 상기 제2 개체의 문맥을 분석하여 상기 문장의 문맥 정보를 생성하는 단계, 상기 문장의 문맥 정보를 통해 상기 제1 개체 및 상기 제2 개체 간의 관계를 나타내는 관계어(relation)를 생성하는 단계 및 상기 제1 개체, 상기 제2 개체 및 상기 관계어를 기반으로 상기 문장의 트리플(triple)을 생성하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method for extracting information on text data, the method comprising: extracting information from text data; Analyzing the morpheme and parts of speech of the sentence and analyzing the context of the first entity and the second entity and analyzing the context information of the sentence by analyzing the context of the sentence, Generating a relation indicating a relationship between the first entity and the second entity through context information of the sentence, and generating a relation based on the first entity, the second entity, And generating a triple of the sentence.

여기서, 상기 문맥 정보는 상기 문장에 포함된 복수의 형태소들 각각을 형태소에 의한 문맥적 의미, 품사에 의한 문맥적 의미 및 개체 여부에 의한 문맥적 의미를 포함하는 벡터로 변환하여 생성될 수 있다.Here, the context information may be generated by converting each of a plurality of morphemes included in the sentence into a vector including a contextual meaning by morpheme, a contextual meaning by parts of speech, and a contextual meaning by object existence.

여기서, 상기 관계어를 생성하는 단계는 상기 문맥 정보를 기반으로 상기 문장에 포함된 복수의 형태소들 중 상기 제1 개체 및 상기 제2 개체의 문맥적 의미에 상응하는 적어도 하나의 형태소를 포함하는 제1 유형의 형태소를 선택하는 단계, 상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 기반으로 상기 제1 유형의 형태소에 대한 제2 유형의 형태소를 생성하는 단계 및 상기 제1 유형의 형태소 및 상기 제2 유형의 형태소를 결합하여 상기 관계어를 생성하는 단계를 포함할 수 있다.Here, the step of generating the relational word may include a step of, based on the context information, generating at least one morpheme corresponding to the contextual meaning of the first entity and the second entity among the plurality of morphemes included in the sentence. Selecting a type of morpheme, generating a second type of morpheme for the first type of morpheme based on a probability of generating a morpheme capable of being combined with the first type of morpheme, And combining the second type of morpheme to generate the relational word.

여기서, 상기 제1 유형의 형태소를 선택하는 단계는 상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미가 부합되는 정도를 나타내는 점수(score)를 산출하는 단계 및 상기 문장에 포함된 복수의 형태소들 중 상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소를 상기 제1 유형의 형태소로 선택하는 단계를 포함하되, 상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소는 가장 높은 점수를 가지는 형태소의 순서대로 선택될 수 있다.Here, the step of selecting the morpheme of the first type may include a step of selecting a morpheme of a first type and a morpheme of a second morpheme based on the contextual meaning of the first entity and the second entity, ) And selecting the at least one morpheme of which the score is equal to or greater than a predetermined threshold value among the plurality of morphemes included in the sentence as the morpheme of the first type, The at least one morpheme that is greater than or equal to the value may be selected in the order of the morpheme having the highest score.

여기서, 상기 점수는 상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미에 상응하는 벡터에 로지스틱 함수(logistic function)을 적용하여 산출될 수 있다.Here, the score may be calculated by applying a logistic function to a contextual meaning of the first entity and the second entity and a vector corresponding to the contextual meaning of each of the plurality of morphemes included in the sentence have.

여기서, 상기 텍스트 데이터의 정보 추출 방법은 상기 제1 유형의 형태소에 포함된 상기 적어도 하나의 형태소의 점수 중에서 가장 낮은 점수를 상기 적어도 하나의 형태소를 기반으로 형성되는 관계어의 신뢰도로 산출하는 단계를 더 포함할 수 있다.Here, the method of extracting the text data may include calculating the lowest score among the scores of the at least one morpheme included in the morpheme of the first type as the reliability of the relational word formed based on the at least one morpheme .

여기서, 상기 제2 유형의 형태소를 생성하는 단계는 상기 정보를 추출하는 장치의 데이터베이스에 포함된 복수의 형태소들 중 상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출하는 단계, 상기 산출된 생성 확률이 가장 큰 형태소를 선택하는 단계 및 상기 선택된 형태소를 상기 제1 유형의 형태소와 결합되는 상기 제2 유형의 형태소로 생성하는 단계를 포함할 수 있다.The generating of the morpheme of the second type may include calculating a generation probability of a morpheme capable of being combined with the morpheme of the first type among a plurality of morphemes included in the database of the apparatus for extracting the information, Selecting the morpheme with the highest probability of occurrence and generating the selected morpheme as the morpheme of the second type combined with the morpheme of the first type.

여기서, 상기 생성 확률은 상기 제1 유형의 형태소의 문맥적 의미에 상응하는 벡터에 소프트맥스 함수(softmax function)를 적용하여 산출될 수 있다.Here, the generation probability may be calculated by applying a softmax function to a vector corresponding to the contextual meaning of the morpheme of the first type.

여기서, 상기 텍스트 데이터 정보 추출 방법은 상기 문장의 형태소 및 품사를 분석한 결과와 상기 트리플의 형태소 및 품사를 분석한 결과의 비교를 기반으로 교사 학습(supervised learning)을 수행하는 단계를 더 포함할 수 있다.Here, the method of extracting text data information may further include performing supervised learning based on a result of analyzing the morpheme and part-of-speech of the sentence and a comparison of the result of analyzing the morpheme and part-of-speech of the triple have.

여기서, 상기 교사 학습을 수행하는 단계는 상기 트리플의 관계어에 포함된 형태소 중 기능적 역할을 수행하는 품사에 해당하는 형태소를 제1 목록에 저장하는 단계, 상기 트리플의 관계어에 포함된 형태소 중 상기 제1 목록에 포함되지 않은 적어도 하나의 형태소와 동일한 형태소가 상기 문장에 존재하는 지를 판단하는 단계 및 상기 적어도 하나의 형태소 중 상기 문장에 존재하는 형태소를 제2 목록에 저장하는 단계를 포함할 수 있다.The step of performing the teacher learning may include storing a morpheme corresponding to a part of speech performing a functional role in a morpheme included in a relation word of the triple in a first list, Determining whether the same morpheme as the at least one morpheme not included in the first list exists in the sentence and storing the morpheme in the sentence among the at least one morpheme in the second list .

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 텍스트 데이터의 정보 추출 장치는 텍스트 데이터(text data)로부터 정보를 추출하는 방법을 수행하는 텍스트 데이터의 정보 추출 장치로서, 텍스트 데이터(text data)로부터 정보를 추출하는 방법을 수행하는 텍스트 데이터의 정보 추출 장치로서, 프로세서(processor) 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고, 상기 적어도 하나의 명령은 상기 텍스트 데이터에 포함된 문장의 형태소 및 품사를 분석하여 제1 개체(entity) 및 제2 개체를 결정하고, 상기 문장의 형태소 및 품사를 분석한 결과와 상기 제1 개체 및 상기 제2 개체의 문맥을 분석하여 상기 문장의 문맥 정보를 생성하고, 상기 문장의 문맥 정보를 통해 상기 제1 개체 및 상기 제2 개체 간의 관계를 나타내는 관계어(relation)를 생성하고, 그리고 상기 제1 개체, 상기 제2 개체 및 상기 관계어를 기반으로 상기 문장의 트리플(triple)을 생성하도록 실행된다.According to another aspect of the present invention, there is provided an apparatus for extracting information on text data, which extracts information from text data, And a memory for storing at least one instruction executed through the processor, wherein the at least one instruction is a text data stored in the text file, Analyzing the morpheme and parts of the sentence included in the data to determine a first entity and a second entity, analyzing the morpheme and parts of speech of the sentence, and analyzing the context of the first entity and the second entity To generate context information of the sentence, and to determine a relationship between the first entity and the second entity through context information of the sentence It is generated indicating the relationship between control (relation), and the run and to generate the triple (triple) of the statement based on the first object, the second object and the related word.

여기서, 상기 문맥 정보는 상기 문장에 포함된 복수의 형태소들 각각을 형태소에 의한 문맥적 의미, 품사에 의한 문맥적 의미 및 개체 여부에 의한 문맥적 의미를 포함하는 벡터로 변환하여 생성될 수 있다.Here, the context information may be generated by converting each of a plurality of morphemes included in the sentence into a vector including a contextual meaning by morpheme, a contextual meaning by parts of speech, and a contextual meaning by object existence.

여기서, 상기 적어도 하나의 명령은 상기 관계어를 생성하는 과정에서, 상기 문맥 정보를 기반으로 상기 문장에 포함된 복수의 형태소들 중 상기 제1 개체 및 상기 제2 개체의 문맥적 의미에 상응하는 적어도 하나의 형태소를 포함하는 제1 유형의 형태소를 선택하고, 상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 기반으로 상기 제1 유형의 형태소에 대한 제2 유형의 형태소를 생성하고, 그리고 상기 제1 유형의 형태소 및 상기 제2 유형의 형태소를 결합하여 상기 관계어를 생성하도록 실행될 수 있다.Here, the at least one command may include at least one instruction corresponding to the contextual meaning of the first entity and the second entity among a plurality of morphemes included in the sentence, based on the context information, Selecting a first type of morpheme including one morpheme and generating a second type morpheme for the first type morpheme based on a probability of generating a morpheme capable of combining with the first type morpheme, And combining the morpheme of the first type and the morpheme of the second type to generate the relational word.

여기서, 상기 적어도 하나의 명령은 상기 제1 유형의 형태소를 선택하는 과정에서, 상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미가 부합되는 정도를 나타내는 점수(score)를 산출하고, 그리고 상기 문장에 포함된 복수의 형태소들 중 상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소를 상기 제1 유형의 형태소로 선택하도록 실행되고, 상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소는 가장 높은 점수를 가지는 형태소의 순서대로 선택될 수 있다.The at least one command may include at least one of a contextual meaning of the first entity and the second entity and a contextual meaning of each of the plurality of morphemes included in the sentence match And selecting the at least one morpheme of which the score is equal to or greater than a predetermined threshold value as the morpheme of the first type among a plurality of morphemes included in the sentence, The at least one morpheme whose score is equal to or greater than a predetermined threshold value can be selected in the order of the morpheme having the highest score.

여기서, 상기 점수는 상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미에 상응하는 벡터에 로지스틱 함수(logistic function)을 적용하여 산출될 수 있다.Here, the score may be calculated by applying a logistic function to a contextual meaning of the first entity and the second entity and a vector corresponding to the contextual meaning of each of the plurality of morphemes included in the sentence have.

여기서, 상기 적어도 하나의 명령은 상기 제1 유형의 형태소에 포함된 상기 적어도 하나의 형태소의 점수 중에서 가장 낮은 점수를 상기 적어도 하나의 형태소를 기반으로 형성되는 관계어의 신뢰도로 산출하도록 더 실행될 수 있다.Wherein the at least one instruction may further be executed to calculate a lowest score among the scores of the at least one morpheme included in the morpheme of the first type to the reliability of the relational word formed based on the at least one morpheme .

여기서, 상기 적어도 하나의 명령은 상기 제2 유형의 형태소를 생성하는 과정에서, 상기 정보를 추출하는 장치의 데이터베이스에 포함된 복수의 형태소들 중 상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출하고, 상기 산출된 생성 확률이 가장 큰 형태소를 선택하고, 그리고 상기 선택된 형태소를 상기 제1 유형의 형태소와 결합되는 상기 제2 유형의 형태소로 생성하도록 실행될 수 있다.Here, the at least one command may be a command for generating a morpheme of the first type among a plurality of morphemes included in the database of the apparatus for extracting the information, in the process of generating the morpheme of the second type, And selecting the morpheme having the greatest calculated generation probability and generating the selected morpheme as the morpheme of the second type combined with the morpheme of the first type.

여기서, 상기 생성 확률은 상기 제1 유형의 형태소의 문맥적 의미에 상응하는 벡터에 소프트맥스 함수(softmax function)를 적용하여 산출될 수 있다.Here, the generation probability may be calculated by applying a softmax function to a vector corresponding to the contextual meaning of the morpheme of the first type.

여기서, 상기 적어도 하나의 명령은 상기 문장의 형태소 및 품사를 분석한 결과와 상기 트리플의 형태소 및 품사를 분석한 결과의 비교를 기반으로 교사 학습(supervised learning)을 수행하도록 더 실행될 수 있다.Here, the at least one instruction may be further executed to perform supervised learning based on a result of analyzing the morpheme and part-of-speech of the sentence and a result of analyzing morpheme and part-of-speech of the triple.

여기서, 상기 적어도 하나의 명령은 상기 교사 학습을 수행하는 과정에서, 상기 트리플의 관계어에 포함된 형태소 중 기능적 역할을 수행하는 품사에 해당하는 형태소를 제1 목록에 저장하고, 상기 트리플의 관계어에 포함된 형태소 중 상기 제1 목록에 포함되지 않은 적어도 하나의 형태소와 동일한 형태소가 상기 문장에 존재하는 지를 판단하고, 그리고 상기 적어도 하나의 형태소 중 상기 문장에 존재하는 형태소를 제2 목록에 저장하도록 실행될 수 있다.Here, the at least one instruction may include a morpheme corresponding to a part of speech performing a functional role among the morpheme included in the relation word of the triple in the course of performing the teacher learning, Determining whether a morpheme that is the same as at least one morpheme not included in the first list is present in the sentence and storing morphemes present in the sentence among the at least one morpheme in a second list Lt; / RTI >

본 발명에 의하면, 웹 문서 상에 존재하는 비구조화된 텍스트 데이터에서 신경망을 기반으로 정확도가 높은 트리플을 효율적으로 추출할 수 있는 효과가 있고, 이를 통해 질의 응답 시스템과 같은 응용프로그램에 적용되는 지식 베이스를 구축할 수 있다.According to the present invention, it is possible to efficiently extract a triple having high accuracy based on a neural network from unstructured text data existing on a web document, thereby enabling a knowledge base Can be constructed.

또한, 본 발명에 의하면, 질의 응답 시스템에 적용되는 지식베이스에 포함된 트리플의 정확도를 향상시킴으로써, 사용자에게 제공되는 질의 응답 서비스에 대한 성능을 향상시킬 수 있는 효과가 있다.In addition, according to the present invention, the accuracy of the triple included in the knowledge base applied to the query response system is improved, thereby improving the performance of the query response service provided to the user.

도 1은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치를 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법이 응용 프로그램에 적용되는 과정을 도시한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 도시한 개념도이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 트리플의 관계어 및 신뢰도를 산출하는 방법을 도시한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 교사 학습을 위한 훈련 데이터를 구축하는 방법을 도시한 개념도이다.
도 6은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 도시한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 문맥 정보를 생성하는 방법을 도시한 개념도이다.
도 8은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 관계어를 생성하는 방법을 도시한 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 복수의 형태소들로 구성된 개체의 의미를 선택하는 제1 실시예를 도시한 개념도이다.
도 10은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 복수의 형태소들로 구성된 개체의 의미를 선택하는 제2 실시예를 도시한 개념도이다.
도 11은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 제1 개체 및 제2 개체의 의미를 표현하는 벡터를 생성하는 방법을 도시한 개념도이다.
도 12는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 상태를 갱신하는 방법을 도시한 개념도이다.
도 13은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 제1 유형의 형태소를 선택하는 방법을 도시한 흐름도이다.
도 14는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 제2 유형의 형태소를 생성하는 방법을 도시한 흐름도이다.
도 15는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 형태소의 생성 확률 및 신뢰도를 산출하는 방법을 도시한 개념도이다.
도 16은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 교사 학습을 위한 훈련 데이터를 구축하는 방법을 도시한 흐름도이다.
1 is a block diagram illustrating an information extraction apparatus for performing a method of extracting text data according to an embodiment of the present invention.
FIG. 2 is a conceptual diagram illustrating a process in which an information extraction method of text data according to an embodiment of the present invention is applied to an application program.
3 is a conceptual diagram illustrating a method of extracting text data information according to an embodiment of the present invention.
4 is a conceptual diagram illustrating a method of calculating a relational word and reliability of a triple in a method of extracting text data according to an embodiment of the present invention.
FIG. 5 is a conceptual diagram illustrating a method for constructing training data for teacher learning in a text data information extraction method according to an embodiment of the present invention. Referring to FIG.
6 is a flowchart illustrating a method of extracting text data information according to an embodiment of the present invention.
7 is a conceptual diagram illustrating a method for generating context information in a text data information extraction method according to an embodiment of the present invention.
8 is a flowchart illustrating a method of generating a relational word in a method of extracting text data according to an embodiment of the present invention.
9 is a conceptual diagram illustrating a first embodiment for selecting the meaning of an entity composed of a plurality of morphemes in the method of extracting text data according to an embodiment of the present invention.
10 is a conceptual diagram illustrating a second embodiment for selecting the meaning of an entity composed of a plurality of morphemes in the method of extracting text data according to an embodiment of the present invention.
11 is a conceptual diagram illustrating a method of generating a vector representing the meaning of a first entity and a second entity in a method of extracting text data according to an embodiment of the present invention.
FIG. 12 is a conceptual diagram illustrating a method for updating a state in a text data information extraction method according to an embodiment of the present invention.
13 is a flowchart illustrating a method of selecting a first type morpheme in the method of extracting text data according to an embodiment of the present invention.
14 is a flowchart illustrating a method of generating a second type morpheme in the method of extracting text data according to an embodiment of the present invention.
FIG. 15 is a conceptual diagram illustrating a method of calculating a morpheme creation probability and reliability in a text data information extraction method according to an embodiment of the present invention.
16 is a flowchart illustrating a method of constructing training data for teacher learning in a text data information extraction method according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In order to facilitate the understanding of the present invention, the same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

도 1은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치를 도시한 블록도이다.1 is a block diagram illustrating an information extraction apparatus for performing a method of extracting text data according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치(100)는 적어도 하나의 프로세서(110), 메모리(120) 및 네트워크와 연결되어 통신을 수행하는 네트워크 인터페이스 장치(130)를 포함할 수 있다. 또한, 정보 추출 장치(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 정보 추출 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.Referring to FIG. 1, an information extraction apparatus 100 for extracting text data information according to the present invention includes at least one processor 110, a memory 120, and a network interface device 130). The information extraction device 100 may further include an input interface device 140, an output interface device 150, a storage device 160, and the like. Each component included in the information extraction apparatus 100 may be connected by a bus 170 and communicate with each other.

프로세서(110)는 메모리(120) 및/또는 저장 장치(160)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU) 또는 본 발명에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120)와 저장 장치(160)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및/또는 랜덤 액세스 메모리(random access memory, RAM)로 구성될 수 있다. 여기서, 프로세서(110)를 통해 실행되는 프로그램 명령은 본 발명에서 제안하는 텍스트 데이터의 정보 추출 방법을 수행하는 복수의 단계들을 포함할 수 있다.The processor 110 may execute a program command stored in the memory 120 and / or the storage device 160. The processor 110 may refer to a central processing unit (CPU), a graphics processing unit (GPU), or a dedicated processor on which the methods of the present invention are performed. The memory 120 and the storage device 160 may be composed of a volatile storage medium and / or a non-volatile storage medium. For example, memory 120 may be comprised of read only memory (ROM) and / or random access memory (RAM). Here, the program instructions executed through the processor 110 may include a plurality of steps for performing the information extraction method of the text data proposed in the present invention.

이하에서는, 도 2를 참조하여 본 발명에서 제안하는 텍스트 데이터의 정보 추출 방법이 수행되는 전체적인 흐름 및 텍스트 데이터의 정보 추출 방법이 질의 응답 시스템과 같은 응용 프로그램에 적용되는 일 예가 설명될 수 있다.Hereinafter, an overall flow in which an information extraction method of text data is performed and an information extraction method of text data proposed in the present invention are applied to an application program such as a query response system, with reference to FIG. 2.

도 2는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법이 응용 프로그램에 적용되는 과정을 도시한 개념도이다.FIG. 2 is a conceptual diagram illustrating a process in which an information extraction method of text data according to an embodiment of the present invention is applied to an application program.

도 2를 참조하면, 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법은 정보 추출 장치(100)에서 수행될 수 있고, 이는 도 1을 참조하여 설명된 정보 추출 장치(100)와 동일할 수 있다.2, a method of extracting text data information according to an embodiment of the present invention may be performed by the information extracting apparatus 100, which is the same as the information extracting apparatus 100 described with reference to FIG. 1 .

먼저, 정보 추출 장치(100)는 텍스트 데이터(1)로부터 텍스트 데이터(1)에 포함된 복수의 문장들 중 정보를 추출하기 위한 문장(2)을 획득할 수 있다. 구체적으로, 정보 추출 장치(100)는 인터넷(internet)을 통해 웹(web)에 접속할 수 있고, 웹 상에 존재하는 웹 문서로부터 텍스트 데이터를 획득할 수 있다. 여기서, 텍스트데이터는 복수의 문장들을 포함하는 데이터를 의미할 수 있다.First, the information extraction apparatus 100 can acquire a sentence (2) for extracting information from a plurality of sentences included in the text data (1) from the text data (1). Specifically, the information extraction apparatus 100 can access the web via the Internet and obtain text data from a web document existing on the web. Here, the text data may mean data including a plurality of sentences.

이후, 정보 추출 장치(100)는 획득된 문장(2)에서 트리플(3)을 추출할 수 있다. 여기서, 트리플(3)은 2개의 개체(entity)들 및 2개의 개체들 간의 관계를 나타내는 관계어(relation)를 포함할 수 있고, 지식베이스(knowledge base)를 구성하는 단위를 의미할 수 있다. 이후, 정보 추출 장치(100)는 추출된 트리플(3)을 지식 베이스(200)로 전송할 수 있다. 이후, 지식베이스(200)는 사용자로부터 수신되는 질의(4)에 대한 응답(50)을 제공하는 질의 응답 시스템(300)과 연동될 수 있다. 즉, 질의 응답 시스템(300)은 사용자로부터 수신되는 질의(4)에 대하여 지식베이스(200)를 기반으로 응답(5)을 제공할 수 있다.Thereafter, the information extraction apparatus 100 can extract the triple 3 from the obtained sentence 2. Here, the triple 3 may include a relation representing two entities and a relation between two entities, and may denote a unit constituting a knowledge base. Thereafter, the information extracting apparatus 100 can transmit the extracted triple 3 to the knowledge base 200. The knowledge base 200 may then interact with the query response system 300 providing a response 50 to the query 4 received from the user. That is, the query response system 300 may provide a response (5) based on the knowledge base 200 for the query (4) received from the user.

상술한 바와 같은 과정을 통해, 정보 추출 장치(100)는 지식베이스(200)를 구성하는 트리플(3)을 추출할 수 있고, 질의 응답 시스템(300)에 사용되는 지식베이스(200)에 트리플(3)을 제공함으로써, 지식베이스(200)를 구축할 수 있다. 본 발명에서 제안하는 정보 추출 방법은 정보 추출 장치(100)에서 트리플(3)을 추출하는 구체적인 방법에 대한 것이다.The information extracting apparatus 100 can extract the triple 3 constituting the knowledge base 200 and input the triple 3 to the knowledge base 200 used in the query response system 300. [ 3, the knowledge base 200 can be constructed. The information extraction method proposed by the present invention is directed to a specific method of extracting the triple 3 from the information extraction apparatus 100.

이하에서는, 도 3 내지 도 4를 참조하여 본 발명에서 제안하는 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치에 포함된 복수의 모듈들 및 각 모듈에 의해 수행되는 정보 추출 방법이 개략적으로 설명될 수 있다.Hereinafter, a plurality of modules included in the information extracting apparatus for performing the information extracting method of the text data proposed by the present invention and an information extracting method performed by each module will be schematically described with reference to FIGS. 3 to 4 .

도 3은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 도시한 개념도이다.3 is a conceptual diagram illustrating a method of extracting text data information according to an embodiment of the present invention.

도 3을 참조하면, 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치(100)는 형태소 분석 및 품사 부착 모듈(101), 개체 추출 모듈(102) 및 신경망 기반 관계 추출 모듈(103)을 포함할 수 있다. 여기서, 정보 추출 장치(100)에 포함된 복수의 모듈들은 물리적인 구성일 수도 있으나, 정보 추출 장치(100)에서 수행되는 동작들의 이해를 돕기 위해 구분된 논리적인 구성을 의미할 수 있다. 즉, 정보 추출 장치(100)에 포함된 복수의 모듈들은 도 1을 참조하여 설명된 프로세서(110)에 의해 수행되는 동작들을 기능에 기초하여 구분된 논리적인 구성으로 볼 수도 있다.3, an information extraction apparatus 100 for performing an information extraction method of text data includes a morpheme analysis and parts attaching module 101, an object extraction module 102, and a neural network-based relation extraction module 103 . Here, the plurality of modules included in the information extraction apparatus 100 may be a physical configuration, but may mean a logical configuration separated to facilitate understanding of the operations performed by the information extraction apparatus 100. [ That is, the plurality of modules included in the information extraction apparatus 100 may view the operations performed by the processor 110 described with reference to FIG. 1 as a logical configuration separated based on the functions.

먼저, 정보 추출 장치(100)는 정보를 추출하기 위한 문장(2)을 획득할 수 있다. 여기서, 문장(2)은 도 1을 참조하여 설명된 텍스트 데이터(1)에 포함된 복수의 문장들 중 하나의 문장일 수 있다. 이후, 정보 추출 장치(100)는 형태소 분석 및 품사 부착 모듈(101)을 통해 문장(2)의 형태소를 분석하고, 분석된 결과에 품사에 대한 정보를 추가할 수 있다.First, the information extraction apparatus 100 can acquire a sentence (2) for extracting information. Here, the sentence (2) may be one of a plurality of sentences included in the text data (1) described with reference to Fig. Thereafter, the information extraction apparatus 100 may analyze the morpheme of the sentence (2) through the morpheme analysis and the part-of-speech attaching module (101), and add information about the part-of-speech to the analyzed result.

이후, 정보 추출 장치(100)는 형태소 분석 및 품사 부착 모듈(101)에서 출력되는 결과를 개체 추출 모듈(102) 및 신경망 기반 관계 추출 모듈(103)로 전송되도록 형태소 분석 및 품사 부착 모듈(101)을 제어할 수 있다. 이후, 정보 추출 장치(100)는 개체 추출 모듈(102)를 통해 형태소 분석 및 품사 부착 모듈(101)의 결과에서 제1 개체(3-1) 및 제2 개체(3-2)를 추출할 수 있다. 또한, 정보 추출 장치(100)는 제1 개체(3-1) 및 제2 개체(3-2)를 신경망 기반 관계 추출 모듈(103)로 전송하도록 개체 추출 모듈(102)을 제어할 수 있다.Thereafter, the information extraction apparatus 100 performs a morphological analysis and part-of-speech attaching module 101 so as to transmit the morphological analysis and the results output from the part-of-speech attaching module 101 to the object extracting module 102 and the neural- Can be controlled. The information extraction apparatus 100 then extracts the first entity 3-1 and the second entity 3-2 from the morphological analysis and the results of the parts addition module 101 through the entity extraction module 102 have. The information extraction apparatus 100 may also control the entity extraction module 102 to transmit the first entity 3-1 and the second entity 3-2 to the neural network based relationship extraction module 103. [

이후, 정보 추출 장치(100)는 신경망 기반 관계 추출 모듈(103)을 통해 제1 개체(3-1) 및 제2 개체(3-2) 간의 관계를 나타내는 관계어(3-3)를 생성할 수 있다. 즉, 정보 추출 장치(100)는 제1 개체(3-1), 제2 개체(3-2) 및 관계어(3-3)를 기반으로 트리플(3)을 생성함으로써, 문장(2)에서 트리플(3)을 추출할 수 있다. 또한, 정보 추출 장치(100)는 신경망 기반 관계 추출 모듈(103)을 통해 관계어(3-3)가 제1 개체(3-1) 및 제2 개체(3-2)와 부합되는 정도를 나타내는 신뢰도(6)을 산출할 수 있다. 정보 추출 장치(100)에서 신경망 기반 관계 추출 모듈(103)을 통해 관계어(3-3)를 생성하는 방법 및 신뢰도(6)를 산출하는 방법은 도 4를 참조하여 구체적으로 설명될 수 있다.Thereafter, the information extraction apparatus 100 generates a relational word 3-3 indicating the relationship between the first entity 3-1 and the second entity 3-2 through the neural network-based relationship extraction module 103 . That is, the information extraction apparatus 100 generates the triple 3 based on the first entity 3-1, the second entity 3-2, and the relational word 3-3, The triple 3 can be extracted. The information extracting apparatus 100 further includes a neural network-based relation extracting module 103 for extracting a relation between the relational word 3-3 and the first entity 3-1 and the second entity 3-2, The reliability 6 can be calculated. A method of generating the relational word 3-3 through the neural network-based relationship extraction module 103 in the information extraction apparatus 100 and a method of calculating the reliability 6 can be specifically described with reference to FIG.

도 4는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 트리플의 관계어 및 신뢰도를 산출하는 방법을 도시한 개념도이다.4 is a conceptual diagram illustrating a method of calculating a relational word and reliability of a triple in a method of extracting text data according to an embodiment of the present invention.

도 4를 참조하면, 정보 추출 장치(100)의 신경망 기반 관계 추출 모듈(103)은 문맥 분석 모듈(103-1), 초기 상태 계산 모듈(103-2), 상태 갱신 모듈(103-3), 형태소 선택 모듈(103-4), 형태소 생성 모듈(103-5) 및 신뢰도 계산 모듈(103-6)을 포함할 수 있다. 여기서, 신경망 기반 관계 추출 모듈(103)에 포함된 복수의 모듈들은 도 3에서 설명한 바와 같이, 물리적인 구성일 수도 있으나 수행되는 기능에 따라 구분된 논리적인 구성을 의미할 수도 있다.4, the neural network-based relation extraction module 103 of the information extraction apparatus 100 includes a context analysis module 103-1, an initial state calculation module 103-2, a state update module 103-3, A morpheme selection module 103-4, a morpheme generation module 103-5, and a reliability calculation module 103-6. Here, the plurality of modules included in the neural network-based relation extraction module 103 may be a physical configuration as described with reference to FIG. 3, but may also mean a logical configuration separated according to functions to be performed.

먼저, 신경망 기반 관계 추출 모듈(103)의 문맥 분석 모듈(103-1)은 문장의 형태소 및 품사(7)와 개체 쌍의 형태소 및 품사(8)를 수신할 수 있다. 여기서, 문장의 형태소 및 품사(7)는 도 3에서 설명된 형태소 분석 및 품사 부착 모듈(101)에 의해 생성된 결과일 수 있다. 또한, 개체 쌍의 형태소 및 품사(8)는 도 3에서 설명된 개체 추출 모듈(102)에 의해 생성된 결과일 수 있다.First, the context analysis module 103-1 of the neural network-based relation extraction module 103 may receive the morpheme and the part of speech 7 of the sentence and the morpheme and the part of speech 8 of the entity pair. Here, the morpheme and the part of speech 7 of the sentence may be the result of the morphological analysis and the part-of-speech attaching module 101 described in Fig. In addition, the morpheme and part of speech 8 of the entity pair may be the result produced by the entity extraction module 102 described in FIG.

이후, 신경망 기반 관계 추출 모듈(103)은 문맥 분석 모듈(103-1)을 통해 문장의 형태소 및 품사(7)와 개체 쌍의 형태소 및 품사(8)의 문맥을 분석할 수 있다. 이후, 신경망 기반 관계 추출 모듈(103)은 문맥 분석 모듈(103-1)에서 분석된 문맥에 대한 정보(이하, "문맥 정보"라 함)를 초기 상태 계산 모듈(103-2)로 전송하도록 문맥 분석 모듈(103-1)을 제어할 수 있다. 또한, 신경망 기반 관계 추출 모듈(103)은 문맥 정보를 형태소 선택 모듈(103-4)로 전송하도록 문맥 분석 모듈(103-1)을 제어할 수 있다.Then, the neural network-based relation extracting module 103 can analyze the morpheme and the part of speech 7 of the sentence and the context of the morpheme and part of speech 8 of the entity pair through the context analysis module 103-1. Thereafter, the neural network-based relation extraction module 103 transmits context information (hereinafter referred to as "context information") analyzed by the context analysis module 103-1 to the initial state calculation module 103-2 The analysis module 103-1 can be controlled. In addition, the neural network-based relation extraction module 103 may control the context analysis module 103-1 to transmit the context information to the morpheme selection module 103-4.

이에 따라, 초기 상태 계산 모듈(103-2)은 문맥 분석 모듈(103-1)로부터 문맥 정보를 수신할 수 있다. 또한, 초기 상태 계산 모듈(103-2)은 개체 추출 모듈(102)로부터 개체 쌍의 형태소 및 품사(8)를 수신할 수 있다. 이후, 초기 상태 계산 모듈(103-2)은 문맥 정보 및 개체 쌍의 형태소 및 품사(8)를 기반으로 형태소 선택을 위한 초기 상태를 계산할 수 있다. 이후, 초기 상태 계산 모듈(103-2)은 계산된 초기 상태를 상태 갱신 모듈(103-3)로 전송할 수 있다.Accordingly, the initial state calculation module 103-2 can receive the context information from the context analysis module 103-1. In addition, the initial state calculation module 103-2 may receive the morpheme and part of speech 8 of the entity pair from the entity extraction module 102. The initial state calculation module 103-2 may then calculate the initial state for morpheme selection based on the context information and the morpheme and the part of speech 8 of the entity pair. Then, the initial state calculation module 103-2 can transmit the calculated initial state to the state update module 103-3.

한편, 형태소 선택 모듈(103-4)은 문맥 분석 모듈(103-1)로부터 문맥 정보를 수신할 수 있다. 이후, 형태소 선택 모듈(103-4)은 문맥 정보를 기반으로 형태소를 선택할 수 있다. 이후, 형태소 선택 모듈(103-4)은 선택된 형태소를 상태 갱신 모듈(103-3)로 전송할 수 있다. 이에 따라, 상태 갱신 모듈(103-3)은 형태소 선택 모듈(103-4)로부터 선택된 형태소를 수신할 수 있다.On the other hand, the morpheme selection module 103-4 may receive the context information from the context analysis module 103-1. Thereafter, the morpheme selection module 103-4 can select a morpheme based on the context information. Thereafter, the morpheme selection module 103-4 may transmit the selected morpheme to the status update module 103-3. Thus, the status update module 103-3 can receive the morpheme selected from the morpheme selection module 103-4.

이후, 상태 갱신 모듈(103-3)은 초기 상태 및 선택된 형태소를 기반으로 선택 형태소 및 현재 상태(9)를 생성할 수 있다. 이후, 상태 갱신 모듈(103-3)은 선택 형태소 및 현재 상태(9)를 형태소 생성 모듈(103-5) 및 신뢰도 계산 모듈(103-6)로 전송할 수 있다. 이에 따라, 형태소 생성 모듈(103-5) 및 신뢰도 계산 모듈(103-6)은 상태 갱신 모듈(103-3)로부터 선택 형태소 및 현재 상태(9)를 수신할 수 있다.Thereafter, the state update module 103-3 may generate the selection morpheme and the current state 9 based on the initial state and the selected morpheme. Thereafter, the state update module 103-3 may transmit the selected morpheme and the current state 9 to the morpheme generation module 103-5 and the reliability calculation module 103-6. Accordingly, the morpheme generation module 103-5 and the reliability calculation module 103-6 can receive the selection morpheme and the current state 9 from the status update module 103-3.

먼저, 형태소 생성 모듈(103-5)은 선택 형태소 및 현재 상태(9)를 기반으로 선택된 형태소와 결합되는 형태소를 생성할 수 있다. 구체적으로, 형태소 생성 모듈(103-5)은 생성 형태소 사전(103-7)에 미리 저장된 복수의 형태소들에 기초하여 형태소를 생성할 수 있다.First, the morpheme generation module 103-5 may generate a morpheme that is combined with the morpheme selected based on the selection morpheme and the current state (9). Specifically, the morpheme generation module 103-5 can generate morphemes based on a plurality of morphemes previously stored in the generated morpheme dictionary 103-7.

한편, 신뢰도 계산 모듈(103-6)은 선택 형태소 및 현재 상태(9)를 기반으로 선택된 형태소에 대한 신뢰도를 계산할 수 있고, 계산된 신뢰도를 형태소 선택 모듈(103-4)로 전송할 수 있다. 또한, 신뢰도 계산 모듈(103-6)은 관계를 구성하는 선택된 형태소에 대해 계산된 신뢰도 중 가장 작은 값을 해당 관계의 최종 신뢰도로 출력할 수 있다. 이후, 형태소 선택 모듈(103-5)은 신뢰도 계산 모듈(103-6)로부터 신뢰도가 수신된 경우 선택된 형태소 및 생성된 형태소를 기반으로 관계어(3-3)를 생성할 수 있다.On the other hand, the reliability calculation module 103-6 may calculate the reliability of the morpheme selected based on the selected morpheme and the current state 9, and may transmit the calculated reliability to the morpheme selection module 103-4. Also, the reliability calculation module 103-6 can output the smallest value among the reliability calculated for the selected morpheme constituting the relation as the final reliability of the relation. Thereafter, the morpheme selection module 103-5 can generate the relation word 3-3 based on the selected morpheme and the generated morpheme when the reliability is received from the reliability calculation module 103-6.

상술한 바와 같은 과정을 통해, 본 발명에서 제안하는 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치(100)는 문장(2)에서 트리플(3)을 생성할 수 있다. 이하에서는, 도 5를 참조하여 정보 추출 장치(100)에서 트리플(3)을 기반으로 교사 학습(supervised learning)을 위한 학습 데이터가 구축되는 방법이 설명될 수 있다.Through the above process, the information extracting apparatus 100 performing the information extracting method of the text data proposed in the present invention can generate the triple 3 in the sentence (2). Hereinafter, a method for constructing learning data for supervised learning based on the triple 3 in the information extraction apparatus 100 can be described with reference to FIG.

도 5는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 교사 학습을 위한 훈련 데이터를 구축하는 방법을 도시한 개념도이다.FIG. 5 is a conceptual diagram illustrating a method of constructing training data for teacher learning in a text data information extraction method according to an embodiment of the present invention. Referring to FIG.

도 5를 참조하면, 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치(100)는 문장(2) 및 트리플(3)을 기반으로 교사 학습을 위한 훈련 데이터를 구축할 수 있다.5, an information extraction apparatus 100 for performing an information extraction method of text data according to an embodiment of the present invention constructs training data for teacher learning based on the sentence 2 and the triple 3 can do.

먼저, 정보 추출 장치(100)는 문장-트리플(10)을 문장(2) 및 트리플(3)로 분류할 수 있다. 이후, 정보 추출 장치(100)는 형태소 분석 및 품사 부착 모듈(101)을 통해 문장(2) 및 트리플(3)을 분석하여 제1 개체 형태소 및 품사(11), 제2 개체 형태소 및 품사(12), 문장 형태소 및 품사(13) 및 관계 형태소 및 품사(14)를 생성할 수 있다. 이후, 정보 추출 장치(100)는 문장 형태소 및 품사(13)를 선택 형태소 대응 모듈(103)로 전송할 수 있다. 또한, 정보 추출 장치(100)는 관계 형태소 및 품사(14)를 선택 형태소 대응 모듈(104) 및 생성 형태소 구분 모듈(105)로 전송할 수 있다.First, the information extraction apparatus 100 can classify the sentence-triple 10 into sentences 2 and 3. The information extracting apparatus 100 then analyzes the sentence 2 and the triple 3 through the morpheme analysis and parts attaching module 101 and analyzes the sentence 2 and the triple 3 to obtain the first entity morpheme and part of speech 11, ), A sentence morpheme and parts of speech (13), and a related morpheme and parts of speech (14). Thereafter, the information extraction apparatus 100 may transmit the sentence morpheme and part-of-speech 13 to the selected morpheme corresponding module 103. [ The information extraction apparatus 100 may also transmit the morpheme morpheme and parts morpheme 14 to the selected morpheme corresponding module 104 and the generated morpheme classification module 105.

이에 따라, 생성 형태소 구분 모듈(105)은 관계 형태소 및 품사(14)에서 생성된 형태소가 생성 형태소 사전(103-7)에 포함된 형태소인 경우, 생성된 형태소를 생성 형태소 목록(16)에 저장할 수 있다. 또한, 생성 형태소 구분 모듈(105)은 관계 형태소 및 품사(14)에서 생성된 형태소가 생성 형태소 사전(103-7)에 포함된 형태소인 경우, 생성된 형태소를 선택 형태소 대응 모듈(104)로 전송할 수 있다.Accordingly, when the morpheme generated by the morpheme morpheme and part-of-speech 14 is a morpheme included in the generated morpheme dictionary 103-7, the generated morphological classification module 105 stores the generated morpheme in the morpheme list 16 . In addition, when the morpheme generated by the morpheme morpheme and part-of-speech 14 is a morpheme included in the generated morpheme dictionary 103-7, the generated morphological classification module 105 transmits the generated morpheme to the selected morpheme corresponding module 104 .

한편, 선택 형태소 대응 모듈(104)은 문장 형태소 및 품사(13), 관계 형태소 및 품사(14) 및 생성된 형태소를 수신할 수 있다. 이후, 선택 형태소 모듈(104)은 관계어에 포함된 형태소가 문장 형태소 및 품사(13)에 포함된 복수의 형태소들에 포함된 형태소와 일치하는 지를 판단할 수 있다. 이후, 선택 형태소 대응 모듈(104)는 관계어에 포함된 형태소가 문장 형태소 및 품사(13)에 포함된 복수의 형태소들 형태소와 일치하는 경우, 관계어에 포함된 형태소를 선택 형태소 목록(15)에 저장할 수 있다. 이때, 선택 형태소 대응 모듈(104)은 관계어에 포함된 형태소 중 생성 형태소 목록에 저장된 형태소는 제외시킬 수 있다.On the other hand, the selective morpheme corresponding module 104 can receive the sentence morpheme and the part of speech 13, the related morpheme and part of speech 14, and the generated morpheme. Thereafter, the selection morpheme module 104 can determine whether the morpheme included in the relational word matches the morpheme included in the sentence morpheme and the plurality of morphemes included in the part-of-speech 13. Then, when the morpheme included in the relational word matches with the morpheme morpheme included in the sentence morpheme and the part-of-speech 13, the selected morpheme corresponding module 104 compares the morpheme included in the relational word with the selected morpheme list 15, Lt; / RTI > At this time, the selected morpheme-corresponding module 104 may exclude morpheme stored in the generated morpheme list of the morpheme included in the relational word.

이하에서는, 도 6 내지 도 16을 참조하여 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법이 보다 구체적으로 설명될 수 있다. 또한, 이하에서 설명되는 텍스트 데이터의 정보 추출 방법은 도 1 내지 도 5를 참조하여 설명된 정보 추출 장치(100)에서 수행될 수 있다.Hereinafter, a method of extracting text data information according to an embodiment of the present invention will be described in more detail with reference to FIGS. 6 to 16. FIG. In addition, a method of extracting text data information, which will be described below, may be performed in the information extracting apparatus 100 described with reference to FIGS.

도 6은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 도시한 흐름도이다.6 is a flowchart illustrating a method of extracting text data information according to an embodiment of the present invention.

도 6을 참조하면, 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치는 텍스트 데이터에 포함된 문장의 형태소 및 품사를 분석하여 제1 개체 및 제2 개체를 결정할 수 있다(S100). 구체적으로, 정보 추출 장치는 도 3을 참조하여 설명된 형태소 분석 및 품사 부착 모듈(101) 및 개체 추출 모듈(102)을 이용하여 제1 개체 및 제2 개체를 결정할 수 있다.Referring to FIG. 6, an information extracting apparatus for performing a method of extracting information on text data according to an embodiment of the present invention analyzes a morpheme and parts of speech included in text data to determine a first object and a second object (S100). Specifically, the information extracting apparatus can determine the first entity and the second entity using the morphological analysis and part-of-parts attaching module 101 and the entity extracting module 102 described with reference to FIG.

예를 들어, 텍스트 데이터에 포함된 문장이 "나는 오늘 학교에 갔다"인 경우, 정보 추출 장치는 형태소 분석 및 품사 부착 모듈(102)을 이용하여 문장의 형태소 및 품사를 분석하여 '나'(대명사)+ '는'(조사)+ '오늘'(명사)+ '학교'(명사)+ '에'(조사) '가다'(동사)+ '았'(어미)+ '다'(어미)라는 결과를 획득할 수 있다. 이후, 정보 추출 장치는 개체 추출 모듈(102)을 이용하여 분석 및 품사 부착 모듈(102)의 결과에서 제1 개체 및 제2 개체를 결정할 수 있다. 여기서, 정보 추출 장치는 품사가 "명사"인 형태소 중에서 제1 개체 및 제2 개체로 결정할 수 있다.For example, if the sentence contained in the text data is "I went to school today ", the information extraction device analyzes the morpheme and parts of speech of the sentence using the morpheme analysis and parts attaching module 102, ) + 'Is' (investigation) + 'today' (noun) + 'school' (noun) + 'to' (survey) 'governing' (verb) + 'was' (mother) + 'da' Results can be obtained. Thereafter, the information extraction device can determine the first entity and the second entity in the result of the analysis and parts addition module 102 using the entity extraction module 102. Here, the information extraction device can determine the first entity and the second entity among the morpheme where the part-of-speech is the "noun ".

이후, 정보 추출 장치는 문장의 형태소 및 품사를 분석한 결과와 제1 개체 및 제2 개체의 문맥을 분석하여 문장의 문맥 정보를 생성할 수 있다(S200). 구체적으로, 정보 추출 장치는 도 4를 참조하여 설명된 문맥 분석 모듈(103-1)을 이용하여 문장의 문맥 정보를 생성할 수 있다. 여기서, 문맥 정보는 문장에 포함된 복수의 형태소들 각각을 형태소에 의한 문맥적 의미, 품사에 의한 문맥적 의미 및 개체 여부에 의한 문맥적 의미를 포함하는 벡터(vector)로 변환하여 생성될 수 있다. 구체적으로, 문맥 정보가 생성되는 방법은 이하에서 도 7을 참조하여 설명될 수 있다.Thereafter, the information extraction device may generate the context information of the sentence by analyzing the result of analyzing the morpheme and parts of speech of the sentence and the context of the first entity and the second entity (S200). Specifically, the information extraction apparatus can generate the context information of the sentence using the context analysis module 103-1 described with reference to FIG. Here, the context information may be generated by converting each of a plurality of morphemes contained in a sentence into a vector including a contextual meaning by morpheme, a contextual meaning by parts of speech, and a contextual meaning by whether or not the individual . Specifically, how the context information is generated can be described below with reference to FIG.

도 7은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 문맥 정보를 생성하는 방법을 도시한 개념도이다.7 is a conceptual diagram illustrating a method for generating context information in a text data information extraction method according to an embodiment of the present invention.

도 7을 참조하면, 정보 추출 장치는 문장에 포함된 복수의 형태소들 각각에 대한 의미를 벡터의 형태로 변환하는 방식을 이용하여 문맥 정보를 생성할 수 있다. 예를 들어, 정보 추출 장치에서 문맥 정보를 생성하기 위한 문장이 "김연아는 대한민국의 피겨스케이팅 선수이다"이고, 제1 개체가 "김연아"이고 제2 개체가 "대한민국"인 것으로 가정할 수 있다.Referring to FIG. 7, the information extraction apparatus can generate context information using a method of converting the meaning of each of a plurality of morphemes included in a sentence into a form of a vector. For example, it can be assumed that the sentence for generating context information in the information extraction device is "Kim is a Korean figure skater ", and that the first entity is" Kim Yu-na "and the second entity is" Korea ".

이와 같은 경우, 정보 추출 장치는 형태소 "김연아"(1001)의 품사가 "고유명사"(1002)에 해당하고, 제1 개체(1003)에 해당하는 것을 고려하여 제1 의미 정보(1000)를 생성할 수 있다. 또한, 정보 추출 장치는 형태소 "는"(1101)의 품사가 "보조사"(1102)에 해당하고, 제1 개체 및 제2 개체가 아닌 비개체(1103)에 해당하는 것을 고려하여 제2 의미 정보(1100)를 생성할 수 있다. 또한, 정보 추출 장치는 형태소 "대한민국"(1201)의 품사가 "고유명사"(1202)에 해당하고, 제2 개체(1203)에 해당하는 것을 고려하여 제3 의미 정보(1200)를 생성할 수 있다. 이와 같은 과정을 통해, 정보 추출 장치는 문장에 포함된 형태소 별로 의미 정보를 생성할 수 있다.In such a case, the information extraction apparatus generates the first semantic information 1000 considering the part of the morpheme "Kim Yu-na" 1001 corresponds to the "proper noun" 1002 and corresponds to the first entity 1003 can do. In addition, the information extracting apparatus may be configured such that the part of the morpheme "1101 " corresponds to the " assistant" 1102 and corresponds to the non-entity 1103 other than the first entity and the second entity, Lt; RTI ID = 0.0 > 1100 < / RTI > In addition, the information extraction apparatus can generate the third semantic information 1200 in consideration of the fact that the part of speech in the morpheme "Republic of Korea" 1201 corresponds to the "proper noun" 1202 and corresponds to the second entity 1203 have. Through this process, the information extraction device can generate semantic information for each morpheme included in the sentence.

이후, 정보 추출 장치는 생성된 의미 정보를 벡터의 형태로 변환할 수 있다. 즉, 정보 추출 장치는 제1 의미 정보(1000)를 벡터의 형태로 변환하여 제1 벡터 정보(2000)를 생성할 수 있다. 예를 들어, 정보 추출 장치는 제1 의미 정보(1000)에 포함된 형태소 "김연아"(1001)의 의미를 벡터로 변환하여 제1 벡터(2001)를 생성할 수 있다. 또한, 정보 추출 장치는 제1 의미 정보(1000)에 포함된 형태소 "김연아"(1001)에 대한 "고유명사"(1002)로써의 의미를 벡터로 변환하여 제2 벡터(2002)를 생성할 수 있다. 또한, 정보 추출 장치는 제1 의미 정보(1000)에 포함된 형태소 "김연아"(1001)에 대한 "제1 개체"(1003)로써의 의미를 벡터로 변환하여 제3 벡터(2003)를 생성할 수 있다. 이후, 정보 추출 장치는 제1 벡터(2001), 제2 벡터(2002) 및 제3 벡터(2003)를 포함하는 제1 벡터 정보(2000)를 생성할 수 있다.Thereafter, the information extraction device can convert the generated semantic information into a vector form. That is, the information extracting apparatus can generate the first vector information 2000 by converting the first semantic information 1000 into a vector form. For example, the information extraction apparatus can generate the first vector 2001 by converting the meaning of the morpheme "Kim Yeon-a" 1001 included in the first semantic information 1000 into a vector. The information extraction apparatus can also generate the second vector 2002 by converting the meaning of the "proper noun" 1002 of the morpheme "Kim Yu-na" 1001 included in the first semantic information 1000 into a vector have. In addition, the information extraction device converts the meaning of the "first entity" 1003 of the morpheme "Kim Yeon-a" 1001 included in the first semantic information 1000 into a vector to generate a third vector 2003 . The information extraction device may then generate the first vector information 2000 including the first vector 2001, the second vector 2002 and the third vector 2003.

이후, 정보 추출 장치는 제1 벡터 정보(2000)에 포함된 제1 벡터(2001), 제2 벡터(2002) 및 제3 벡터(2003)를 결합하여 문장에 포함된 형태소 "김연아"에 대한 제1 문맥 정보(3000)를 생성할 수 있다. 이와 같은 방법을 기반으로 정보 추출 장치는 문장에 포함된 복수의 형태소들에 대하여 복수의 문맥 정보들을 생성할 수 있다. 이후, 정보 추출 장치는 복수의 문맥 정보들을 포함하는 문장의 문맥 정보를 생성할 수 있다.Thereafter, the information extracting apparatus combines the first vector 2001, the second vector 2002 and the third vector 2003 included in the first vector information 2000, 1 context information 3000 can be generated. Based on such a method, the information extraction apparatus can generate a plurality of context information for a plurality of morphemes contained in a sentence. Thereafter, the information extraction device may generate context information of a sentence including a plurality of context information.

다시, 도 6을 참조하면 정보 추출 장치는 문장의 문맥 정보를 통해 제1 개체 및 제2 개체 간의 관계를 나타내는 관계어를 생성할 수 있다(S300). 정보 추출 장치에서 관계어를 생성하는 구체적인 방법을 도 8을 참조하여 설명될 수 있다.Referring again to FIG. 6, the information extraction device may generate a relational word indicating a relationship between the first entity and the second entity through the context information of the sentence (S300). A specific method of generating a relational word in the information extracting apparatus can be described with reference to FIG.

도 8은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 관계어를 생성하는 방법을 도시한 흐름도이다.8 is a flowchart illustrating a method of generating a relational word in a method of extracting text data according to an embodiment of the present invention.

도 8을 참조하면, 정보 추출 장치는 관계어를 생성하기 위해 문맥 정보를 기반으로 문장에 포함된 복수의 형태소들 중 제1 개체 및 제2 개체의 문맥적 의미에 상응하는 적어도 하나의 형태소를 포함하는 제1 유형의 형태소를 선택할 수 있다(S310). 즉, 정보 추출 장치는 문장에 포함된 복수의 형태소들 중에서 제1 개체 및 제2 개체의 문맥적 의미에 부합되는 정도를 나타내는 점수(score)를 산출할 수 있고, 산출된 점수를 기반으로 제1 유형의 형태소를 선택할 수 있다. 이와 관련된 설명은 도 13에서 구체적으로 설명될 수 있다.8, the information extraction apparatus includes at least one morpheme corresponding to a contextual meaning of a first entity and a second entity among a plurality of morphemes contained in a sentence, based on context information, to generate a relational word The morpheme of the first type may be selected (S310). That is, the information extraction device can calculate a score indicating the degree of correspondence with the contextual meaning of the first entity and the second entity among a plurality of morphemes included in the sentence, and based on the calculated score, You can choose the type of morpheme. The description related to this can be specifically described in Fig.

우선적으로, 정보 추출 장치는 제1 개체 및 제2 개체 중에서 복수의 형태소들로 구성된 개체가 있는지를 확인할 수 있다. 예를 들어, 정보 추출 장치는 제1 개체가 "빌 게이츠"인 경우, 제1 개체가 형태소 "빌" 및 형태소 "게이츠"로 구성된 것을 확인할 수 있다. 이와 같은 경우, 정보 추출 장치는 형태소 "빌" 및 형태소 "게이츠"에 대한 의미 중 더 적합한 의미를 선택할 수 있다. 여기서, 정보 추출 장치는 형태소에 대하여 산출된 점수를 기반으로 제1 개체 및 제2 개체에 대하여 적합한 정도를 판단할 수 있다.First, the information extracting apparatus can check whether there is a plurality of morphemes among the first entity and the second entity. For example, the information extraction device can confirm that when the first entity is "Bill Gates ", the first entity is composed of a morpheme" bill "and a morpheme" gates. In such a case, the information extraction device may select a more appropriate meaning among the meanings of the morpheme "bill" and the morpheme "gates". Here, the information extracting apparatus can determine a suitable degree for the first entity and the second entity based on the score calculated for the morpheme.

한편, 제1 개체 및 제2 개체 중 적어도 하나의 개체가 복수의 형태소들을 포함하는 경우, 정보 추출 장치에서 복수의 형태소들 각각에 대한 의미 중 제1 유형의 형태소를 선택하기 위해 사용되는 의미를 선택하는 구체적인 방법은 이하에서 도 9 내지 도 12를 참조하여 설명될 수 있다.On the other hand, when at least one entity of the first entity and the second entity includes a plurality of morphemes, the information extraction device selects a meaning used for selecting a morpheme of the first type among the plurality of morphemes A specific method for carrying out the present invention can be described below with reference to Figs. 9 to 12.

도 9는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 복수의 형태소들로 구성된 개체의 의미를 선택하는 제1 실시예를 도시한 개념도이다.9 is a conceptual diagram illustrating a first embodiment for selecting the meaning of an entity composed of a plurality of morphemes in the method of extracting text data according to an embodiment of the present invention.

도 9를 참조하면, 정보 추출 장치는 제1 개체 및 제2 개체 중 하나가 "빌 게이츠"인 경우, 형태소 "빌"의 의미를 표현한 벡터 및 형태소 "게이츠"의 의미를 표현한 벡터에 대하여 최대 풀링(max pooling) 연산을 적용할 수 있다. 여기서, 정보 추출 장치는 최대 풀링 연산 외에 평균 풀링(average pooling) 연산을 적용할 수도 있다.9, when the first entity and the second entity are "Bill Gates ", the information extracting apparatus extracts a vector representing the meaning of the morpheme" bill "and a vector representing the meaning of the morpheme" (max pooling) operation can be applied. Here, the information extracting apparatus may apply an average pooling operation in addition to the maximum pooling operation.

예를 들어, 정보 추출 장치는 형태소 "빌"의 의미를 표현한 벡터에 포함된 복수의 원소 값들 중 상대적으로 큰 값인 "3.5" 및 "4.1"을 선택할 수 있다. 또한, 정보 추출 장치는 형태소 "게이츠"의 의미를 표현한 벡터에 포함된 복수의 원소 값들 중 상대적으로 큰 값인 "5.6"을 선택할 수 있다. 이후, 정보 추출 장치는 선택된 원소 값인 "3.5", "4.1" 및 "5.6"을 포함하는 벡터를 생성할 수 있다. 이와 같은 과정을 통해, 정보 추출 장치는 형태소 "빌 게이츠"의 의미를 표현한 벡터를 생성할 수 있다.For example, the information extraction apparatus can select "3.5" and "4.1", which are relatively large values among a plurality of element values included in the vector representing the meaning of the morpheme "bill". Further, the information extracting apparatus can select "5.6" which is a relatively large value among a plurality of element values included in the vector expressing the meaning of the morpheme "gates". Thereafter, the information extracting apparatus can generate vectors including the selected element values "3.5 "," 4.1 ", and "5.6 ". Through this process, the information extraction device can generate a vector representing the meaning of the morpheme "Bill Gates".

이하에서는, 도 10을 참조하여 복수의 형태소들로 구성된 개체의 의미를 선택하는 다른 실시예가 더 설명될 수 있다.Hereinafter, another embodiment for selecting the meaning of an entity composed of a plurality of morphemes can be further described with reference to FIG.

도 10은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 복수의 형태소들로 구성된 개체의 의미를 선택하는 제2 실시예를 도시한 개념도이다.10 is a conceptual diagram illustrating a second embodiment for selecting the meaning of an entity composed of a plurality of morphemes in the method of extracting text data according to an embodiment of the present invention.

도 10을 참조하면, 정보 추출 장치는 제1 개체 및 제2 개체 중 하나가 "피겨스케이팅 선수"인 경우, 형태소 "피겨스케이팅"의 의미를 표현한 벡터 및 형태소 "선수"의 의미를 표현한 벡터에 대하여 최대 풀링 연산을 적용할 수 있다.Referring to FIG. 10, when the first entity and the second entity are a "figure skater ", the information extracting apparatus searches for a vector representing the meaning of the morpheme" figure skating " A maximum pooling operation can be applied.

예를 들어, 정보 추출 장치는 형태소 "피겨스케이팅"의 의미를 표현한 벡터에 포함된 복수의 원소 값들 중 상대적으로 큰 값인 "3.5" 및 "4.1"을 선택할 수 있다. 또한, 정보 추출 장치는 형태소 "선수"의 의미를 표현한 벡터에 포함된 복수의 원소 값들 중 상대적으로 큰 값인 "5.6"을 선택할 수 있다. 이후, 정보 추출 장치는 선택된 원소 값인 "3.5", "4.1" 및 "5.6"을 포함하는 벡터를 생성할 수 있다. 이와 같은 과정을 통해, 정보 추출 장치는 형태소 "피겨스케이팅 선수"의 의미를 표현한 벡터를 생성할 수 있다.For example, the information extraction apparatus can select "3.5" and "4.1", which are relatively large values among a plurality of element values included in the vector representing the meaning of the morpheme "figure skating". Further, the information extraction apparatus can select "5.6" which is a relatively large value among a plurality of element values included in the vector representing the meaning of the morpheme "player". Thereafter, the information extracting apparatus can generate vectors including the selected element values "3.5 "," 4.1 ", and "5.6 ". Through this process, the information extraction device can generate a vector representing the meaning of the morpheme "figure skater".

도 9 내지 도 10을 참조하여 설명된 바와 같이, 정보 추출 장치는 제1 개체 및 제2 개체 중 적어도 하나의 개체가 복수의 형태소들로 구성되는 경우, 복수의 형태소들의 의미들 중 하나의 의미를 선택할 수 있다. 즉, 정보 추출 장치는 복수의 형태소들의 의미를 표현하는 벡터들을 병합하는 방식에 기초하여 하나의 의미를 표현하는 벡터로 생성할 수 있다. 이하에서는, 도 11을 참조하여 정보 추출 장치에서 제1 개체 및 제2 개체의 문맥적 의미를 분석하는 방법이 설명될 수 있다.As described with reference to Figs. 9 to 10, when at least one entity of the first entity and the second entity is composed of a plurality of morphemes, one of the meanings of the plurality of morphemes You can choose. That is, the information extracting apparatus can generate a vector representing one meaning based on a method of merging vectors representing the meaning of a plurality of morphemes. Hereinafter, a method of analyzing the contextual meaning of the first entity and the second entity in the information extraction apparatus can be described with reference to FIG.

도 11은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 제1 개체 및 제2 개체의 의미를 표현하는 벡터를 생성하는 방법을 도시한 개념도이다.11 is a conceptual diagram illustrating a method of generating a vector representing the meaning of a first entity and a second entity in a method of extracting text data according to an embodiment of the present invention.

도 11을 참조하면, 정보 추출 장치는 제1 개체 및 제2 개체의 의미를 표현하는 벡터를 생성하기 위해 제1 개체 및 제2 개체 중에서 복수의 형태소들로 구성된 개체가 있는지를 확인할 수 있다.Referring to FIG. 11, the information extracting apparatus may check whether there is a plurality of morphemes among the first entity and the second entity to generate a vector representing the meaning of the first entity and the second entity.

예를 들어, 제1 개체가 "김연아"이고, 제2 개체가 "피겨스케이팅 선수"인 것으로 가정할 수 있다. 이때, 정보 추출 장치는 제2 개체가 "피겨스케이팅 선수"이므로 복수의 형태소들로 구성된 것을 확인할 수 있다. 이후, 정보 추출 장치는 도 9 내지 도 10을 참조하여 설명된 방법을 기반으로 제2 개체 "피겨스케이팅 선수"의 의미를 표현하는 벡터를 생성할 수 있다.For example, it can be assumed that the first entity is "Kim Yu-na" and the second entity is "figure skater". At this time, the information extracting apparatus can confirm that the second entity is composed of a plurality of morphemes since it is a "figure skater. &Quot; Thereafter, the information extraction device may generate a vector representing the meaning of the second object "figure skater" based on the method described with reference to Figs. 9-10.

이후, 정보 추출 장치는 제1 개체인 "김연아"의 의미를 표현하는 벡터 및 제2 개체인 "피겨스케이팅 선수"의 의미를 표현하는 벡터를 병합함으로써, 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터를 생성할 수 있다. 본 발명에서 제1 개체인 "김연아"의 의미를 표현하는 벡터 및 제2 개체인 "피겨스케이팅 선수"의 의미를 표현하는 벡터를 병합하는 과정은 완전 연결 층을 통과함으로써 수행될 수 있다. 상기와 같은 과정을 통해, 정보 추출 장치는 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터를 생성할 수 있다.Then, the information extracting device extracts the contextual meaning of the first entity and the second entity by merging the vector expressing the meaning of the first entity "Kim Yu-na" and the vector expressing the meaning of the second entity "the figure skater" Can be generated. In the present invention, the process of merging the vector expressing the meaning of the first entity "Kim Yu-na" and the vector expressing the meaning of the second entity "figure skater" can be performed by passing through the complete connection layer. Through the above process, the information extraction device can generate a vector representing the contextual meaning of the first entity and the second entity.

다시, 도 8을 참조하면 정보 추출 장치는 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터에 기초하여 문장에 포함된 복수의 형태소들 중 제1 개체 및 제2 개체의 문맥적 의미에 상응하는 적어도 하나의 형태소를 포함하는 제1 유형의 형태소를 선택할 수 있다.Referring again to FIG. 8, the information extracting apparatus extracts the contextual meaning of the first entity and the second entity among a plurality of morphemes included in the sentence based on the vector representing the contextual meaning of the first entity and the second entity, And select a first type of morpheme that includes at least one corresponding morpheme.

예를 들어, 문장이 "대한민국의 전 국가대표 피겨스케이팅 선수인 김연아는 2014 러시아 소치 동계올림픽을 마지막으로 현역에서 은퇴했다."인 것으로 가정할 수 있다. 또한, 문장에서 제1 개체가 "김연아"이고, 제2 개체가 "대한민국"인 것으로 가정할 수 있다. 이때, 정보 추출 장치는 제1 개체인 "김연아" 및 제2 개체인 "대한민국"의 문맥적 의미에 기초하여 문장에 포함된 복수의 형태소들 중 "피겨스케이팅" 및 "선수"를 제1 유형의 형태소로 선택할 수 있다.For example, it can be assumed that the sentence is "Kim Yeon-a, the national figure skater of the Republic of Korea, who finally retired from active duty at the Sochi 2014 Winter Olympics in Russia." It can also be assumed in the sentence that the first entity is "Kim Yu-na" and the second entity is "Korea". At this time, the information extracting apparatus extracts "figure skating" and "player" among a plurality of morphemes included in the sentence based on the contextual meaning of the first entity "Kim Yu-na" and the second entity " You can choose morpheme.

이후, 정보 추출 장치는 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터 및 선택된 제1 유형의 형태소에 대한 의미를 표현하는 벡터를 기반으로 상태를 갱신할 수 있다. 구체적으로, 정보 추출 장치에서 상태를 갱신하는 방법은 도 12를 참조하여 설명될 수 있다.Thereafter, the information extraction device may update the state based on a vector representing the contextual meaning of the first entity and the second entity, and a vector representing the meaning of the selected first type of morpheme. Specifically, a method of updating the state in the information extracting apparatus can be described with reference to FIG.

도 12는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 상태를 갱신하는 방법을 도시한 개념도이다.FIG. 12 is a conceptual diagram illustrating a method for updating a state in a text data information extraction method according to an embodiment of the present invention.

도 12를 참조하면, 정보 추출 장치는 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터에 제1 유형의 형태소의 의미를 표현하는 벡터를 반영하여 정보 추출 장치 내의 상태를 갱신할 수 있다. 본 발명에서 정보 추출 장치는 문장에서 선택되는 형태소의 의미를 표현하는 벡터를 순환 신경망에 적용하여 상태를 갱신시킬 수 있다. 여기서, 상태를 갱신하는 것은 정보 추출 장치에서 분석되는 결과물을 누적시키는 것을 의미할 수 있다.Referring to FIG. 12, the information extraction device may update the state in the information extraction device by reflecting a vector representing the meaning of the first type morpheme to a vector representing the contextual meaning of the first entity and the second entity . In the present invention, the information extracting apparatus can update the state by applying a vector representing the meaning of the morpheme selected in the sentence to the circular neural network. Here, updating the state may mean accumulating the result analyzed by the information extracting apparatus.

다시 말해, 정보 추출 장치에서 갱신하는 상태는 이전에 선택된 형태소에 대한 정보를 누적하는 것을 의미할 수 있다. 이에 따라, 정보 추출 장치는 최종적으로 누적된 형태소에 대한 정보에 기초하여 분석되는 다음 형태소를 선택할 수 있다. 이후, 정보 추출 장치는 관계를 구성하기 위한 형태소가 모두 선택되었음을 판단하기 위한 기준이 되는 미리 설정된 형태소가 선택되는 경우까지, 반복적으로 형태소를 선택할 수 있다.In other words, the state of updating in the information extracting apparatus may mean accumulating information on a previously selected morpheme. Accordingly, the information extraction apparatus can select the next morpheme to be analyzed based on the information on the finally accumulated morpheme. Thereafter, the information extraction apparatus can repeatedly select the morpheme until a preset morpheme is selected as a criterion for judging that all morphemes for constituting the relation have been selected.

예를 들어, 정보 추출 장치는 EOR(end of relation)의 심볼(symbol)을 가지는 형태소가 선택되는 경우, 관계를 구성하기 위한 형태소가 모두 선택된 것으로 판단할 수 있다. 이후, 정보 추출 장치는 EOR의 심볼을 가지는 형태소가 선택되기 전까지 선택된 적어도 하나의 형태소를 기반으로 관계를 생성할 수 있다.For example, when a morpheme having a symbol of an end of relation (EOR) is selected, the information extraction apparatus can determine that all the morphemes for constructing the relation are selected. Thereafter, the information extraction apparatus can generate a relation based on at least one morpheme selected until a morpheme having a symbol of EOR is selected.

이하에서는, 도 13을 참조하여 정보 추출 장치에서 제1 유형의 형태소가 선택되는 방법이 구체적으로 설명될 수 있다.Hereinafter, with reference to FIG. 13, a method in which the first type morpheme is selected in the information extracting apparatus can be specifically described.

도 13은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 제1 유형의 형태소를 선택하는 방법을 도시한 흐름도이다.13 is a flowchart illustrating a method of selecting a first type morpheme in the method of extracting text data according to an embodiment of the present invention.

도 13을 참조하면, 정보 추출 장치는 제1 개체 및 제2 개체의 문맥적 의미와 문장에 포함된 복수의 형태소들 각각의 문맥적 의미가 부합되는 정도를 나타내는 점수를 산출할 수 있다(S311). 여기서, 점수는 제1 개체, 제2 개체 및 문장에 포함된 복수의 형태소들 각각의 문맥적 의미에 상응하는 벡터에 로지스틱 함수(logistic function)를 적용하여 산출될 수 있다. 예를 들어, 점수는 0 내지 1 사이의 실수 값으로 산출될 수 있다.Referring to FIG. 13, the information extraction apparatus may calculate the contextual meaning of the first entity and the second entity, and a score indicating the degree to which the contextual meaning of each of the plurality of morphemes contained in the sentence is matched (S311) . Here, the score can be calculated by applying a logistic function to a vector corresponding to the contextual meaning of each of a plurality of morphemes included in the first entity, the second entity, and the sentence. For example, the score can be calculated as a real value between 0 and 1.

구체적으로, 정보 추출 장치에서 점수가 산출되는 과정의 일 예를 들면, 정보 추출 장치는 상태 벡터와 복수의 형태소들 중 제1 유형의 형태소의 벡터를 기반으로 점수를 산출할 수 있다. 여기서, 초기의 상태 벡터는 개체 쌍의 벡터를 의미할 수 있다. 또한, 제1 유형의 형태소의 벡터는 제1 유형의 형태소의 문맥을 분석한 결과에 대한 정보를 나타내는 벡터를 의미할 수 있다.More specifically, for example, the information extraction device may calculate a score based on a state vector and a vector of a first type of morpheme among the plurality of morphemes. Here, the initial state vector may mean a vector of entity pairs. In addition, the vector of the first type morpheme may mean a vector representing information on the result of analyzing the context of the first type morpheme.

이후, 정보 추출 장치는 문장에 포함된 복수의 형태소들 중 점수가 미리 설정된 임계값 이상인 적어도 하나의 형태소를 제1 유형의 형태소로 선택할 수 있다(S312). 여기서, 정보 추출 장치는 문장에 포함된 복수의 형태소들 중 점수가 미리 설정된 임계값 이상인 적어도 하나의 형태소가 복수개인 경우, 복수개의 형태소들 중 가장 높은 점수를 가지는 형태소부터 순차적으로 선택할 수 있다.Thereafter, the information extraction device may select at least one morpheme having a score of a predetermined threshold value or more among a plurality of morphemes included in the sentence as the morpheme of the first type (S312). Here, if the plurality of morphemes included in the sentence include at least one morpheme having a score equal to or greater than a predetermined threshold value, the information extracting apparatus can sequentially select morpheme having the highest score among the plurality of morphemes.

예를 들어, 문장에 포함된 복수의 형태소들을 "국가대표", "피겨스케이팅", "선수", "대회", "출전" 및 EOR 등인 것으로 가정할 수 있다. 이에 대하여, 정보 추출 장치는 문장에 포함된 복수의 형태소들에 대하여 제1 개체 및 제2 개체의 문맥적 의미에 부합되는 정도를 나타내는 점수를 산출할 수 있다. 이때, 문장에 포함된 복수의 형태소들에 대한 점수는 "국가대표[0.7]", "피겨스케이팅[0.2]", "선수[0.1]", "대회[0.1]", "출전[0.6], EOR[0.3] 등으로 산출될 수 있다.For example, a plurality of morphemes included in a sentence can be assumed to be "national representative", "figure skating", "player", "tournament", "exhibition", and EOR. On the other hand, the information extraction apparatus can calculate a score indicating the degree of matching with the contextual meaning of the first entity and the second entity with respect to a plurality of morphemes included in the sentence. In this case, the scores for the plural morphemes included in the sentence are expressed as "national representative [0.7]", "figure skating [0.2]", "player [0.1]", "tournament [ EOR [0.3] and so on.

이후, 정보 추출 장치는 복수의 형태소들 중 미리 설정된 임계값 이상인 적어도 하나의 형태소를 선택할 수 있다. 여기서, 미리 설정된 임계값이 0.5인 경우, 정보 추출 장치는 복수의 형태소들 중 점수가 미리 설정된 임계값 이상인 형태소에 해당하는 "국가대표" 및 "출전"을 확인할 수 있다.Thereafter, the information extracting apparatus can select at least one morpheme that is equal to or larger than a preset threshold value among a plurality of morpheme units. Here, when the preset threshold value is 0.5, the information extracting apparatus can confirm "national representative" and "exhibition" corresponding to the morpheme where the score among the plurality of morphemes is equal to or larger than a preset threshold value.

이후, 정보 추출 장치는 "국가대표" 및 "출전" 중에서 더 높은 점수를 가지는 형태소인 "국가대표"를 우선적으로 선택할 수 있다. 이후, 정보 추출 장치는 형태소 "국가대표"를 기반으로 상태 벡터를 갱신할 수 있다. 이후, 정보 추출 장치는 형태소 "국가대표"를 선택한 방법과 동일한 방법으로, 적어도 하나의 형태소를 선택할 수 있고, 선택된 적어도 하나의 형태소를 기반으로 제1 유형의 형태소를 선택할 수 있다.Thereafter, the information extraction apparatus can preferentially select the "national representative", which is a morpheme having a higher score among "national representative" and "exhibition". Thereafter, the information extraction device may update the state vector based on the morpheme "national representative". Thereafter, the information extraction device can select at least one morpheme in the same manner as the morpheme "national representative" is selected, and can select the first type morpheme based on the selected at least one morpheme.

이와 같은 방법으로, 정보 추출 장치는 제1 유형의 형태소에 대한 벡터를 기반으로 상태 벡터를 갱신할 수 있다. 이때, 정보 추출 장치는 선택된 형태소가 EOR의 심볼을 가지는 형태소가 선택되는 경우, EOR의 심볼을 가지는 형태소가 선택되기 전까지 선택된 적어도 하나의 형태소를 순차적으로 연결하여 관계를 생성할 수 있다.In this way, the information extraction device can update the state vector based on the vector for the first type of morpheme. At this time, when the morpheme having the EOR symbol is selected, the information extracting apparatus can generate the relation by sequentially connecting at least one morpheme selected until the morpheme having the EOR symbol is selected.

또한, 정보 추출 장치는 EOR의 심볼을 가지는 형태소가 선택되지 않았으나, 산출된 점수가 미리 설정된 임계값 이상인 형태소가 존재하지 않는 경우, 이미 선택된 적어도 하나의 형태소를 제거할 수 있다. 이후, 정보 추출 장치는 복수의 형태소들 중 새로운 형태소를 선택할 수 있다.In addition, if the morpheme having the EOR symbol is not selected but the calculated score is not equal to or greater than the predetermined threshold value, the information extracting apparatus can remove at least one morpheme already selected. Thereafter, the information extraction apparatus can select a new morpheme among the plurality of morphemes.

상기와 같은 방법을 통해, 정보 추출 장치는 복수의 형태소들에 대한 점수를 산출할 수 있고, 이를 기반으로 관계를 구성하기 위한 제1 유형의 형태소를 선택할 수 있다.Through the above-described method, the information extraction apparatus can calculate scores for a plurality of morphemes, and can select a first type morpheme for constructing a relation based on the scores.

한편, 정보 추출 장치에서 상기에서 설명된 방법을 통해 생성되는 관계는 복수의 형태소들을 포함할 수 있다. 즉, 정보 추출 장치에서 생성되는 관계는 <제1 형태소, 제2 형태소>의 구조와 같이 복수의 형태소들을 포함할 수 있다. 이하에서는, 복수의 형태소들을 포함하는 관계의 신뢰도가 결정되는 구체적인 방법이 설명될 수 있다.Meanwhile, the relation generated by the above-described method in the information extracting apparatus may include a plurality of morphemes. That is, the relation generated by the information extracting apparatus may include a plurality of morphemes as in the structure of the <first morpheme and the second morpheme>. In the following, a specific method by which the reliability of the relationship including the plurality of morphemes is determined can be described.

예를 들어, 하나의 관계는 <제1 형태소, 제2 형태소>의 구조와 같이 복수의 형태소들을 포함하는 구조로 생성될 수 있다. 구체적으로, 정보 추출 장치에서 분석되는 제1 문장을 "대한민국의 전 국가대표 피겨스케이팅 선수인 김연아는 2014 러시아 소치 동계올림픽을 마지막으로 현역에서 은퇴했다."라고 가정할 수 있다. 또한, 제1 문장에서 '김연아'를 제1 개체로 가정할 수 있고, '대한민국'을 제2 개체로 가정할 수 있다. 이와 같은 경우, 제1 문장의 제1 개체 및 제2 개체에 대한 관계어는 '의 피겨스케이팅 선수'로 생성될 수 있다.For example, one relationship can be created with a structure including a plurality of morphemes, such as a structure of < first morpheme, second morpheme >. Specifically, it can be assumed that the first sentence analyzed by the information extracting apparatus is "Kim Yeon-a, the national figure skater of the Republic of Korea, who finally retired from the 2014 Winter Olympics in Sochi, Russia." In the first sentence, 'Kim Yu-na' can be assumed as the first entity, and 'Korea' can be assumed as the second entity. In such a case, the relation words for the first entity and the second entity in the first sentence can be generated as a 'figure skater'.

이와 같이, 정보 추출 장치에서 생성된 관계어는 복수의 형태소 쌍으로 구성될 수 있다. 구체적으로, 제1 개체 및 제2 개체에 대한 관계어는 <의, 피겨스케이팅>, <NULL, 선수> 및 <이다, EOR>과 같이 3개의 형태소 쌍들로 구성될 수 있다. 이때, 3개의 형태소 쌍들에서 '피겨스케이팅', '선수' 및 'EOR'의 점수가 각각 0.4, 0.7, 0.3인 경우, 가장 낮은 점수인 0.3을 관계어인 '의 피겨스케이팅 선수'의 신뢰도로 결정할 수 있다.As described above, the relation word generated by the information extracting apparatus can be composed of a plurality of morpheme pairs. Specifically, the relation terms for the first entity and the second entity may be composed of three morpheme pairs such as <,, <, NULL, player> and <EOR>. In this case, when the scores of 'figure skating', 'player' and 'EOR' in the three morpheme pairs are 0.4, 0.7, and 0.3, respectively, the lowest score of 0.3 can be determined by the confidence of the figure skater have.

즉, 정보 추출 장치는 제1 유형의 형태소에 포함된 적어도 하나의 형태소의 점수 중에서 가장 낮은 점수를 적어도 하나의 형태소를 기반을 형성되는 관계어의 신뢰도로 산출할 수 있다.That is, the information extracting apparatus can calculate the lowest score among the scores of at least one morpheme included in the morpheme of the first type as the reliability of the relative word formed based on at least one morpheme.

상술한 바에 따르면, 정보 추출 장치는 문장에 포함된 복수의 형태소들에 대하여 1차적으로 점수를 산출하고, 미리 설정된 임계값을 기반으로 제1 유형의 형태소를 선택하는 것으로 설명되었다. 그러나, 정보 추출 장치에서 제1 유형의 형태소를 선택하는 방법이 이에 한정되는 것은 아니다. 즉, 정보 추출 장치는 문장에 포함된 복수의 형태소들 중 임의의 형태소를 선택한 후, 선택된 형태소에 대한 점수를 산출하고, 산출된 점수가 미리 설정된 임계값 이상인 경우, 해당하는 형태소를 최종적인 제1 유형의 형태소로 결정할 수도 있다.According to the above description, the information extracting apparatus has been described as calculating a score primarily for a plurality of morphemes contained in a sentence, and selecting a morpheme of a first type based on a predetermined threshold value. However, the method for selecting the morpheme of the first type in the information extracting apparatus is not limited thereto. That is, the information extraction apparatus selects an arbitrary morpheme among a plurality of morpheme included in the sentence, calculates a score for the selected morpheme, and if the calculated score is equal to or greater than a predetermined threshold value, Type morpheme.

반면, 정보 추출 장치는 임의로 선택된 형태소의 점수가 미리 설정된 임계값 미만인 경우, 문장에 포함된 복수의 형태소들 중 임의의 형태소를 다시 선택할 수 있다. 이후, 정보 추출 장치는 다시 선택된 형태소의 점수를 산출하고, 산출된 점수에 기초하여 제1 유형의 형태소를 결정할 수도 있다.On the other hand, if the score of the morpheme selected at random is less than a predetermined threshold value, the information extraction apparatus can again select any morpheme among the plurality of morphemes included in the sentence. Thereafter, the information extraction device may calculate the score of the selected morpheme again and determine the morpheme of the first type based on the calculated score.

다시, 도 8을 참조하면 정보 추출 장치는 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 기반으로 제1 유형의 형태소에 대한 제2 유형의 형태소를 생성할 수 있다(S320). 정보 추출 장치에서 제2 유형의 형태소가 생성되는 방법은 이하에서 도 14를 참조하여 구체적으로 설명될 수 있다.Referring again to FIG. 8, the information extraction apparatus may generate a second type morpheme for the first type morpheme based on the generation probability of the morpheme capable of being combined with the first type morpheme (S320). The manner in which the second type of morpheme is generated in the information extraction apparatus can be described in detail with reference to Fig. 14 below.

도 14는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 제2 유형의 형태소를 생성하는 방법을 도시한 흐름도이다.14 is a flowchart illustrating a method of generating a second type morpheme in the method of extracting text data according to an embodiment of the present invention.

도 14를 참조하면, 정보 추출 장치는 데이터베이스에 포함된 복수의 형태소들 중 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출할 수 있다(S321). 여기서, 생성 확률은 제1 유형의 형태소의 문맥적 의미에 상응하는 벡터에 소프트맥스 함수(softmax function)를 적용하여 산출될 수 있다.Referring to FIG. 14, the information extraction apparatus can calculate the generation probability of a morpheme capable of being combined with a morpheme of a first type among a plurality of morphemes included in the database (S321). Here, the generation probability can be calculated by applying a softmax function to a vector corresponding to the contextual meaning of the morpheme of the first type.

여기서, 데이터베이스는 정보 추출 장치에 포함된 데이터베이스를 의미할 수 있고, 미리 설정된 품사에 해당하는 복수의 형태소들이 미리 저장될 수 있다. 예를 들어, 미리 설정된 품사는 조사 또는 조사에 상응하는 품사일 수 있다. 즉, 데이터베이스에 포함된 복수의 형태소들은 "의?, "에", "인" 및 "이다"등과 같은 형태소일 수 있다.Here, the database may refer to a database included in the information extracting apparatus, and a plurality of morphemes corresponding to predetermined parts of speech may be stored in advance. For example, a pre-established part-of-speech may be a part of a person corresponding to an investigation or investigation. That is, a plurality of morphemes included in the database may be morphemes such as "?,?,?,?,?,?, And?

이후, 정보 추출 장치는 산출된 생성 확률이 가장 큰 형태소를 선택할 수 있다(S322). 예를 들어, 정보 추출 장치는 제1 유형의 형태소가 "피겨스케이팅 선수"인 경우, 제1 유형의 형태소인 "피겨스케이팅" 및 "선수"와 결합 가능한 형태소의 생성 확률을 산출할 수 있다.Thereafter, the information extraction apparatus can select the morpheme having the largest generation probability (S322). For example, the information extraction device can calculate the probability of generating a morpheme that can be combined with the first type morphemes "figure skating" and "athlete " when the first type morpheme is a" figure skater ".

이후, 정보 추출 장치는 선택된 형태소를 제1 유형의 형태소와 결합되는 제2 유형의 형태소로 생성할 수 있다(S324). 예를 들어, 제1 유형의 형태소가 "피겨스케이팅" 및 "선수"인 경우, 정보 추출 장치는 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 기반으로 "피겨스케이팅"에 대한 제2 유형의 형태소인 "의" 및 "선수"에 대한 제2 유형의 형태소인 "NULL"을 생성할 수 있다.Thereafter, the information extraction device may generate the selected morpheme as a morpheme of the second type combined with the morpheme of the first type (S324). For example, if the first type of morpheme is "figure skating" and "athlete ", then the information extraction device may generate a second type of " NULL ", which is a second type of morpheme for the morphemes "of" and "player ".

다시, 도 8을 참조하면, 정보 추출 장치는 제1 유형의 형태소 및 제2 유형의 형태소를 결합하여 관계어를 생성할 수 있다(S330). 즉, 정보 추출 장치는 도 13을 참조하여 설명된 방법으로 선택된 제1 유형의 형태소 및 도 14를 참조하여 설명된 방법으로 생성된 제2 유형의 형태소를 결합하여 관계어를 생성할 수 있다.Referring again to FIG. 8, the information extraction device may generate a relational word by combining morphemes of a first type and morphemes of a second type (S330). That is, the information extracting apparatus can combine the morpheme of the first type selected by the method described with reference to Fig. 13 and the morpheme of the second type generated by the method described with reference to Fig. 14 to generate the relational word.

이하에서, 도 15를 참조하여 도 13 및 도 14에서 설명된 데이터베이스에 포함된 복수의 형태소들의 생성 확률 및 문장에 포함된 복수의 형태소들의 신뢰도가 산출되는 과정이 설명될 수 있다. 여기서, 복수의 형태소들의 신뢰도는 상기에서 설명된 복수의 형태소들에 대한 점수를 의미할 수 있다.Hereinafter, with reference to FIG. 15, the process of calculating the probability of generating a plurality of morphemes included in the database illustrated in FIGS. 13 and 14 and the reliability of a plurality of morphemes included in the sentence can be described. Here, the reliability of a plurality of morphemes may mean a score for a plurality of morphemes described above.

도 15는 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 형태소의 생성 확률 및 신뢰도를 산출하는 방법을 도시한 개념도이다.FIG. 15 is a conceptual diagram illustrating a method of calculating a morpheme creation probability and reliability in a text data information extraction method according to an embodiment of the present invention.

도 15를 참조하면, 정보 추출 장치는 제1 유형의 형태소에 대하여 제1 개체 및 제2 개체와 부합되는 정도를 나타내는 점수를 산출할 수 있다. 이후, 정보 추출 장치는 제1 유형의 형태소에 포함된 적어도 하나의 형태소의 점수 중 가장 낮은 점수를 제1 유형의 형태소에 대한 신뢰도로 산출할 수 있다. 즉, 정보 추출 장치는 제1 유형의 형태소에 대한 의미를 표현하는 벡터 및 현재 상태를 의미하는 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터에 대하여 로지스틱 함수를 적용할 수 있고, 이와 같은 방법을 통해 제1 유형의 형태소의 신뢰도가 "0.7"인 것으로 산출할 수 있다.Referring to FIG. 15, the information extracting apparatus may calculate a score indicating a degree of matching with the first entity and the second entity with respect to the first type morpheme. Thereafter, the information extracting apparatus can calculate the lowest score among the scores of at least one morpheme included in the morpheme of the first type as the reliability for the morpheme of the first type. That is, the information extraction apparatus can apply a logistic function to a vector expressing the meaning of the morpheme of the first type and a vector representing the contextual meaning of the first entity and the second entity, which mean the current state, Through the same method, the reliability of the morpheme of the first type can be calculated to be "0.7 ".

한편, 정보 추출 장치는 데이터베이스에 포함된 복수의 형태소들 중 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출할 수 있다. 즉, 정보 추출 장치는 제1 유형의 형태소의 의미를 표현하는 벡터 및 현재 상태를 의미하는 제1 개체 및 제2 개체의 문맥적 의미를 표현하는 벡터에 대하여 소프트맥스 함수를 적용할 수 있고, 이와 같은 방법을 통해 데이터베이스에 포함된 복수의 형태소들 중 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출할 수 있다.On the other hand, the information extraction apparatus can calculate the generation probability of the morpheme capable of being combined with the morpheme of the first type among a plurality of morphemes included in the database. That is, the information extraction apparatus can apply a soft max function to a vector representing the meaning of the first type morpheme and a vector representing the contextual meaning of the first entity and the second entity, which means the current state, The generation probability of a morpheme that can be combined with the first type morpheme among the plurality of morphemes included in the database can be calculated through the same method.

예를 들어, 제1 유형의 형태소와 결합 가능한 형태소 중 형태소 "이다"는 "0.02"의 생성 확률이 산출될 수 있고, 형태소 "를"은 ?0.75"의 생성 확률이 산출될 수 있고, 형태소가 존재하지 않을 "NULL"은 "0.06"의 생성 확률이 산출될 수 있다. 이에 따라, 정보 추출 장치는 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률 중 가장 큰 생성 확률을 가지는 형태소 "를"을 제2 유형의 형태소로 선택할 수 있다.For example, of the morphemes that can be combined with the first type of morpheme, the morpheme "is" can be calculated as "0.02", the morpheme "can be calculated as" 0.75 " 0.06 ", which is not present, can be calculated. Thus, the information extracting apparatus can extract the morpheme having the largest generation probability among morpheme generation probabilities that can be combined with the first type morpheme The second type of morpheme can be selected.

따라서, 상술한 바와 같은 과정을 통해 정보 추출 장치는 제1 유형의 형태소 및 제2 유형의 형태소를 결합하여 관계어를 생성하는 과정에 대하여 예를 들어 살펴보면 다음과 같을 수 있다.Accordingly, the process of generating the relation word by combining the morpheme of the first type and the morpheme of the second type through the above-described process can be exemplified as follows.

예를 들어, 제1 유형의 형태소가 "피겨스케이팅 선수"인 경우, 정보 추출 장치는 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출할 수 있다. 즉, 정보 추출 장치는 제1 유형의 형태소에 포함된 "피겨스케이팅" 및 "선수"와 결한 가능한 형태소에 대한 생성 확률을 산출할 수 있다. 이후, 정보 추출 장치는 산출된 생성 확률이 가장 높은 3개의 형태소인 "의", "NULL" 및 "이다"를 생성할 수 있다. 즉, 정보 추출 장치에서 생성된 제2 유형의 형태소는 "의", "NULL" 및 "이다"일 수 있다. 이후, 정보 추출 장치는 제1 유형의 형태소와 제2 유형의 형태소를 결합하여 "의 피겨스케이팅 선수이다"라는 관계어를 생성할 수 있다.For example, if the first type of morpheme is a "figure skater ", the information extraction device can calculate the probability of generating a morpheme capable of being combined with a morpheme of the first type. That is, the information extracting apparatus can calculate the generation probability for the morpheme capable of associating with "figure skating" and "player" included in the morpheme of the first type. Thereafter, the information extracting apparatus can generate the three morphemes ""," NULL ", and "is" That is, the second type of morphemes generated by the information extraction device may be ""," NULL " Thereafter, the information extraction device may combine the morpheme of the first type and the morpheme of the second type to create a relation word "is a figure skater of ".

다시, 도 6을 참조하면 정보 추출 장치는 제1 개체, 제2 개체 및 관계어를 기반으로 문장의 트리플을 생성할 수 있다(S400). 즉, 정보 추출 장치는 제1 개체, 제2 개체 및 관계어를 포함하는 트리플을 생성할 수 있다. 예를 들어, 제1 개체가 "김연아"이고, 제1 개체가 "대한민국"이고, 관계어가 "의 피겨스케이팅 선수이다"인 경우, 정보 추출 장치는 <김연아, 대한민국, 의 피겨스케이팅 선수이다> 라는 트리플을 생성할 수 있다.Referring again to FIG. 6, the information extraction device may generate a triple of sentences based on the first entity, the second entity, and the relational word (S400). That is, the information extracting apparatus can generate a triple including a first entity, a second entity, and a relational word. For example, if the first entity is "Kim Yu-na", the first entity is "Korea", and the relationship word is "figure skater of", the information extraction device is a figure skater You can create a triple.

도 6 내지 도 15를 참조하여 상술한 바와 같이, 정보 추출 장치는 문장에 포함된 복수의 형태소들을 분석하여 트리플을 생성할 수 있다. 또한, 정보 추출 장치는 문장의 형태소 및 품사를 분석한 결과와 트리플의 형태소 및 품사를 분석한 결과를 기반으로 교사 학습(supervised learning)을 수행할 수 있다. 이하에서, 도 16을 참조하여 정보 추출 장치에서 교사 학습을 위한 훈련 데이터가 구축되는 방법이 설명될 수 있다.As described above with reference to Figs. 6 to 15, the information extraction apparatus can analyze a plurality of morphemes contained in a sentence to generate a triple. In addition, the information extraction device can perform supervised learning based on the result of analyzing the morpheme and part-of-speech of the sentence and the result of analyzing the morpheme and part-of-speech of the triple. Hereinafter, with reference to FIG. 16, a method of constructing training data for teacher learning in the information extracting apparatus can be described.

도 16은 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법에서 교사 학습을 위한 훈련 데이터를 구축하는 방법을 도시한 흐름도이다.16 is a flowchart illustrating a method of constructing training data for teacher learning in a text data information extraction method according to an embodiment of the present invention.

도 16을 참조하면, 정보 추출 장치는 트리플의 관계어에 포함된 형태소 중 기능적 역할을 수행하는 품사에 해당하는 형태소를 제1 목록에 저장할 수 있다(S510). 여기서, 기능적 역할을 수행하는 품사는 조사, 어미 및 용언 등의 품사를 의미할 수 있다.Referring to FIG. 16, the information extraction apparatus may store a morpheme corresponding to a part of speech that performs a functional role among the morphemes included in the relation word of the triple, in a first list (S510). Here, a part-of-speech that performs a functional role can mean part-of-speech, such as an inquiry, a mother and a verb.

예를 들어, 정보 추출 장치는 문장이 트리플의 관계어가 "의 기업인이다"인 경우, 조사, 어미 및 용언 중 적어도 하나의 품사에 해당하는 형태소 "의" 및 형태소 "이다"를 제1 목록에 저장할 수 있다. 여기서, 제1 목록은 도 5를 참조하여 설명된 생성 형태소 목록(16)과 동일한 의미일 수 있다.For example, when the sentence is a business word of " business entrepreneur "of the triple sentence, the information extracting apparatus stores the morpheme" and morpheme "of the morpheme corresponding to at least one part of speech, . Here, the first list may have the same meaning as the generated morpheme list 16 described with reference to FIG.

이후, 정보 추출 장치는 트리플의 관계어에 포함된 형태소 중 제1 목록에 포함되지 않은 적어도 하나의 형태소와 동일한 형태소가 문장에 존재하는 지를 판단할 수 있다(S520).Thereafter, the information extraction device may determine whether the same morpheme as the at least one morpheme not included in the first list among the morpheme included in the relational word of the triple exists in the sentence (S520).

예를 들어, 문장이 "빌 게이츠는 미국의 기업인이다"이고, 트리플이 <빌 게이츠, 미국, 의 기업인이다>인 것으로 가정할 수 있다. 이와 같은 경우, 정보 추출 장치는 트리플의 관계어인 "의 기업인이다"에서 조사에 해당하는 형태소 "의" 및 형태소 "이다"를 제1 목록에 저장할 수 있다. 이후, 정보 추출 장치는 "의 기업인이다"에서 제1 목록에 포함되지 않은 적어도 하나의 형태소가 형태소 "기업인"인 것으로 확인할 수 있다. 이후, 정보 추출 장치는 문장에 포함된 복수의 형태소들 중 형태소 "기업인"이 존재하는 지를 판단할 수 있다.For example, suppose the sentence is "Bill Gates is an American businessman", and Triple is "Bill Gates, America, Businessman". In such a case, the information extracting apparatus can store the morpheme "and the morpheme" corresponding to the investigation in the "entrepreneur of the triple relation word" "in the first list. Thereafter, the information extracting apparatus can confirm that at least one morpheme not included in the first list is " entrepreneur "of the morpheme" entrepreneur ". Thereafter, the information extraction device can determine whether a morpheme "business person" exists among a plurality of morphemes included in the sentence.

이후, 정보 추출 장치는 적어도 하나의 형태소 중 문장에 존재하는 형태소를 제2 목록에 저장할 수 있다(S530). 즉, 정보 추출 장치는 단계 S520에서 설명된 예에서 형태소 "기업인"이 문장인 "빌 게이츠는 미국의 기업인이다"에 존재하므로, 형태소 "기업인"을 제2 목록에 저장할 수 있다.Thereafter, the information extraction apparatus may store the morpheme existing in at least one morpheme in the second list (S530). That is, the information extracting apparatus can store the morpheme "business person" in the second list since the morpheme "business person" in the example described in step S520 exists in the sentence "Bill Gates is a business person in the United States of America".

상기와 같은 과정을 통해, 정보 추출 장치는 문장 및 문장으로부터 생성된 트리플을 기반으로 제1 목록 및 제2 목록을 구축할 수 있다. 이후, 정보 추출 장치는 트리플에 포함된 제1 개체 및 제2 개체가 결정되는 경우, 미리 구축된 제1 목록 및 제2 목록을 기반으로 트리플에 포함되는 관계어를 생성할 수 있다.Through the above process, the information extraction device can construct the first list and the second list based on the triple generated from the sentence and the sentence. Thereafter, when the first entity and the second entity included in the triple are determined, the information extracting apparatus can generate a relational word included in the triple based on the first list and the second list constructed in advance.

도 6 내지 도 16을 참조하여 설명된, 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법은 도 1 내지 도 5를 참조하여 설명된 본 발명의 일 실시예에 따른 텍스트 데이터의 정보 추출 방법을 수행하는 정보 추출 장치에서 수행될 수 있다. 아울러, 도 2 내지 도 5를 참조하여 설명된 정보 추출 장치에 포함된 복수의 모듈들은 도 6 내지 도 16을 참조하여 설명된 텍스트 데이터의 정보 추출 방법을 수행할 수 있다.The method of extracting text data according to an embodiment of the present invention, which has been described with reference to FIGS. 6 to 16, is a method of extracting information on text data according to an embodiment of the present invention described with reference to FIGS. 1 to 5 In the information extraction apparatus. In addition, a plurality of modules included in the information extracting apparatus described with reference to FIGS. 2 to 5 may perform the information extraction method of text data described with reference to FIGS. 6 to 16. FIG.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.The methods according to the present invention can be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the computer readable medium may be those specially designed and constructed for the present invention or may be available to those skilled in the computer software.

컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of computer readable media include hardware devices that are specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those generated by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate with at least one software module to perform the operations of the present invention, and vice versa.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined in the appended claims. It will be possible.

Claims (20)

텍스트 데이터(text data)로부터 정보를 추출하는 장치에서 수행되는 정보 추출 방법으로서,
상기 텍스트 데이터에 포함된 문장의 형태소 및 품사를 분석하여 제1 개체(entity) 및 제2 개체를 결정하는 단계;
상기 문장의 형태소 및 품사를 분석한 결과와 상기 제1 개체 및 상기 제2 개체의 문맥을 분석하여 상기 문장의 문맥 정보를 생성하는 단계;
상기 문장의 문맥 정보를 통해 상기 제1 개체 및 상기 제2 개체 간의 관계를 나타내는 관계어(relation)를 생성하는 단계; 및
상기 제1 개체, 상기 제2 개체 및 상기 관계어를 기반으로 상기 문장의 트리플(triple)을 생성하는 단계를 포함하는 텍스트 데이터의 정보 추출 방법.
1. An information extraction method performed in an apparatus for extracting information from text data,
Determining a first entity and a second entity by analyzing the morpheme and parts of speech of the sentence included in the text data;
Analyzing the morpheme and parts of speech of the sentence and the context of the first entity and the second entity to generate context information of the sentence;
Generating a relation indicating a relation between the first entity and the second entity through context information of the sentence; And
And generating a triple of the sentence based on the first entity, the second entity, and the relational word.
청구항 1에 있어서,
상기 문맥 정보는,
상기 문장에 포함된 복수의 형태소들 각각을 형태소에 의한 문맥적 의미, 품사에 의한 문맥적 의미 및 개체 여부에 의한 문맥적 의미를 포함하는 벡터로 변환하여 생성되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 방법.
The method according to claim 1,
The context information includes:
Wherein each of the plurality of morphemes included in the sentence is generated by converting the morpheme contained in the sentence into a vector including a contextual meaning by morpheme, a contextual meaning by parts of speech, and a contextual meaning by object existence. Way.
청구항 1에 있어서,
상기 관계어를 생성하는 단계는,
상기 문맥 정보를 기반으로 상기 문장에 포함된 복수의 형태소들 중 상기 제1 개체 및 상기 제2 개체의 문맥적 의미에 상응하는 적어도 하나의 형태소를 포함하는 제1 유형의 형태소를 선택하는 단계;
상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 기반으로 상기 제1 유형의 형태소에 대한 제2 유형의 형태소를 생성하는 단계; 및
상기 제1 유형의 형태소 및 상기 제2 유형의 형태소를 결합하여 상기 관계어를 생성하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터의 정보 추출 방법.
The method according to claim 1,
Wherein the generating the relational word comprises:
Selecting a first type morpheme including at least one morpheme corresponding to a contextual meaning of the first entity and the second entity among a plurality of morphemes included in the sentence based on the context information;
Generating a second type of morpheme for the first type of morpheme based on generation probabilities of the morpheme capable of being combined with the first type of morpheme; And
And combining the morpheme of the first type and the morpheme of the second type to generate the relational word.
청구항 3에 있어서,
상기 제1 유형의 형태소를 선택하는 단계는,
상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미가 부합되는 정도를 나타내는 점수(score)를 산출하는 단계; 및
상기 문장에 포함된 복수의 형태소들 중 상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소를 상기 제1 유형의 형태소로 선택하는 단계를 포함하되,
상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소는 가장 높은 점수를 가지는 형태소의 순서대로 선택되는 것을 특징으로 하는 텍스트 데이터 정보 추출 방법.
The method of claim 3,
Wherein selecting the first type of morpheme comprises:
Calculating a score indicating a degree of correspondence between the contextual meaning of the first entity and the second entity and the contextual meaning of each of the plurality of morphemes included in the sentence; And
Selecting the at least one morpheme of the plurality of morphemes included in the sentence as the morpheme of the first type whose score is equal to or greater than a preset threshold value,
Wherein the at least one morpheme having the score equal to or greater than a predetermined threshold value is selected in order of the morpheme having the highest score.
청구항 4에 있어서,
상기 점수는,
상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미에 상응하는 벡터에 로지스틱 함수(logistic function)을 적용하여 산출되는 것을 특징으로 하는 텍스트 데이터 정보 추출 방법.
The method of claim 4,
The above-
Wherein the text data is calculated by applying a logistic function to a contextual meaning of the first entity and the second entity and a vector corresponding to a contextual meaning of each of a plurality of morphemes included in the sentence. Information extraction method.
청구항 4에 있어서,
상기 텍스트 데이터의 정보 추출 방법은,
상기 제1 유형의 형태소에 포함된 상기 적어도 하나의 형태소의 점수 중에서 가장 낮은 점수를 상기 적어도 하나의 형태소를 기반으로 형성되는 관계어의 신뢰도로 산출하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터 정보 추출 방법.
The method of claim 4,
The method of extracting text data includes:
Further comprising calculating the lowest score among the scores of the at least one morpheme included in the morpheme of the first type as the reliability of the relative word formed based on the at least one morpheme, Extraction method.
청구항 3에 있어서,
상기 제2 유형의 형태소를 생성하는 단계는,
상기 정보를 추출하는 장치의 데이터베이스에 포함된 복수의 형태소들 중 상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출하는 단계;
상기 산출된 생성 확률이 가장 큰 형태소를 선택하는 단계; 및
상기 선택된 형태소를 상기 제1 유형의 형태소와 결합되는 상기 제2 유형의 형태소로 생성하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터의 정보 추출 방법.
The method of claim 3,
Wherein generating the second type morpheme comprises:
Calculating a generation probability of a morpheme capable of being combined with a morpheme of the first type among a plurality of morphemes included in a database of the apparatus for extracting the information;
Selecting the morpheme having the largest generation probability; And
And generating the selected morpheme as the morpheme of the second type combined with the morpheme of the first type.
청구항 7에 있어서,
상기 생성 확률은,
상기 제1 유형의 형태소의 문맥적 의미에 상응하는 벡터에 소프트맥스 함수(softmax function)를 적용하여 산출되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 방법.
The method of claim 7,
The generation probability is a probability
Wherein a softmax function is applied to a vector corresponding to a contextual meaning of the first type morpheme.
청구항 1에 있어서
상기 텍스트 데이터 정보 추출 방법은,
상기 문장의 형태소 및 품사를 분석한 결과와 상기 트리플의 형태소 및 품사를 분석한 결과의 비교를 기반으로 교사 학습(supervised learning)을 수행하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터의 정보 추출 방법.
Claim 1
The method of extracting text data information comprises:
Further comprising the step of performing supervised learning based on a result of analyzing the morpheme and part of speech of the sentence and a comparison of the result of analyzing the morpheme and parts of speech of the triple, .
상기 청구항 9에 있어서,
상기 교사 학습을 수행하는 단계는,
상기 트리플의 관계어에 포함된 형태소 중 기능적 역할을 수행하는 품사에 해당하는 형태소를 제1 목록에 저장하는 단계;
상기 트리플의 관계어에 포함된 형태소 중 상기 제1 목록에 포함되지 않은 적어도 하나의 형태소와 동일한 형태소가 상기 문장에 존재하는 지를 판단하는 단계; 및
상기 적어도 하나의 형태소 중 상기 문장에 존재하는 형태소를 제2 목록에 저장하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터의 정보 추출 방법.
The method of claim 9,
Wherein the performing the teacher learning comprises:
Storing a morpheme corresponding to a part of speech performing a functional role in a morpheme included in a relational word of the triple in a first list;
Determining whether a morpheme identical to at least one morpheme not included in the first list among the morphemes included in the relational word of the triple exists in the sentence; And
And storing the morpheme in the sentence among the at least one morpheme in a second list.
텍스트 데이터(text data)로부터 정보를 추출하는 방법을 수행하는 텍스트 데이터의 정보 추출 장치로서,
프로세서(processor); 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고,
상기 적어도 하나의 명령은,
상기 텍스트 데이터에 포함된 문장의 형태소 및 품사를 분석하여 제1 개체(entity) 및 제2 개체를 결정하고;
상기 문장의 형태소 및 품사를 분석한 결과와 상기 제1 개체 및 상기 제2 개체의 문맥을 분석하여 상기 문장의 문맥 정보를 생성하고;
상기 문장의 문맥 정보를 통해 상기 제1 개체 및 상기 제2 개체 간의 관계를 나타내는 관계어(relation)를 생성하고; 그리고
상기 제1 개체, 상기 제2 개체 및 상기 관계어를 기반으로 상기 문장의 트리플(triple)을 생성하도록 실행되는 텍스트 데이터의 정보 추출 장치.
An apparatus for extracting information of text data that performs a method of extracting information from text data,
A processor; And
Wherein at least one instruction executed through the processor includes a memory,
Wherein the at least one instruction comprises:
Determining a first entity and a second entity by analyzing the morpheme and parts of speech of the sentence included in the text data;
Analyzing the morpheme and parts of speech of the sentence and the context of the first entity and the second entity to generate context information of the sentence;
Generating a relation indicating a relation between the first entity and the second entity through the context information of the sentence; And
And a triple of the sentence is generated based on the first entity, the second entity, and the relational word.
청구항 11에 있어서,
상기 문맥 정보는,
상기 문장에 포함된 복수의 형태소들 각각을 형태소에 의한 문맥적 의미, 품사에 의한 문맥적 의미 및 개체 여부에 의한 문맥적 의미를 포함하는 벡터로 변환하여 생성되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 장치.
The method of claim 11,
The context information includes:
Wherein each of the plurality of morphemes included in the sentence is generated by converting the morpheme contained in the sentence into a vector including a contextual meaning by morpheme, a contextual meaning by parts of speech, and a contextual meaning by object existence. Device.
청구항 11에 있어서,
상기 적어도 하나의 명령은,
상기 관계어를 생성하는 과정에서, 상기 문맥 정보를 기반으로 상기 문장에 포함된 복수의 형태소들 중 상기 제1 개체 및 상기 제2 개체의 문맥적 의미에 상응하는 적어도 하나의 형태소를 포함하는 제1 유형의 형태소를 선택하고;
상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 기반으로 상기 제1 유형의 형태소에 대한 제2 유형의 형태소를 생성하고; 그리고
상기 제1 유형의 형태소 및 상기 제2 유형의 형태소를 결합하여 상기 관계어를 생성하도록 실행되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 장치.
The method of claim 11,
Wherein the at least one instruction comprises:
Wherein the context information includes at least one morpheme corresponding to a contextual meaning of the first entity and the second entity among a plurality of morphemes included in the sentence based on the context information, Select a type of morpheme;
Generating a second type of morpheme for the first type of morpheme based on a probability of occurrence of the morpheme capable of being combined with the first type of morpheme; And
And combining the morpheme of the first type and the morpheme of the second type to generate the relational word.
청구항 13에 있어서,
상기 적어도 하나의 명령은,
상기 제1 유형의 형태소를 선택하는 과정에서, 상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미가 부합되는 정도를 나타내는 점수(score)를 산출하고; 그리고
상기 문장에 포함된 복수의 형태소들 중 상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소를 상기 제1 유형의 형태소로 선택하도록 실행되고,
상기 점수가 미리 설정된 임계값 이상인 상기 적어도 하나의 형태소는 가장 높은 점수를 가지는 형태소의 순서대로 선택되는 것을 특징으로 하는 텍스트 데이터 정보 추출 장치.
14. The method of claim 13,
Wherein the at least one instruction comprises:
A score indicating a degree of correspondence between the contextual meaning of the first entity and the second entity and the contextual meaning of each of the plurality of morphemes included in the sentence in a process of selecting the first type of morpheme, &Lt; / RTI &gt; And
And the at least one morpheme of the plurality of morphemes included in the sentence is selected as the morpheme of the first type,
Wherein the at least one morpheme whose score is equal to or greater than a predetermined threshold value is selected in the order of the morpheme having the highest score.
청구항 14에 있어서,
상기 점수는,
상기 제1 개체 및 상기 제2 개체의 문맥적 의미와 상기 문장에 포함된 복수의 형태소들 각각의 문맥적 의미에 상응하는 벡터에 로지스틱 함수(logistic function)을 적용하여 산출되는 것을 특징으로 하는 텍스트 데이터 정보 추출 장치.
15. The method of claim 14,
The above-
Wherein the text data is calculated by applying a logistic function to a contextual meaning of the first entity and the second entity and a vector corresponding to a contextual meaning of each of a plurality of morphemes included in the sentence. Information extraction device.
청구항 14에 있어서,
상기 적어도 하나의 명령은,
상기 제1 유형의 형태소에 포함된 상기 적어도 하나의 형태소의 점수 중에서 가장 낮은 점수를 상기 적어도 하나의 형태소를 기반으로 형성되는 관계어의 신뢰도로 산출하도록 더 실행되는 것을 특징으로 하는 텍스트 데이터 정보 추출 장치.
15. The method of claim 14,
Wherein the at least one instruction comprises:
Wherein the score of the at least one morpheme included in the morpheme of the first type is further calculated as the reliability of the relative word formed based on the at least one morpheme, .
청구항 13에 있어서,
상기 적어도 하나의 명령은,
상기 제2 유형의 형태소를 생성하는 과정에서, 상기 정보를 추출하는 장치의 데이터베이스에 포함된 복수의 형태소들 중 상기 제1 유형의 형태소와 결합 가능한 형태소의 생성 확률을 산출하고;
상기 산출된 생성 확률이 가장 큰 형태소를 선택하고; 그리고
상기 선택된 형태소를 상기 제1 유형의 형태소와 결합되는 상기 제2 유형의 형태소로 생성하도록 실행되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 장치.
14. The method of claim 13,
Wherein the at least one instruction comprises:
Calculating a generation probability of a morpheme capable of being combined with the morpheme of the first type among a plurality of morphemes included in the database of the device for extracting the information in the process of generating the morpheme of the second type;
Selecting a morpheme having the largest generation probability; And
And to generate the selected morpheme as the morpheme of the second type combined with the morpheme of the first type.
청구항 17에 있어서,
상기 생성 확률은,
상기 제1 유형의 형태소의 문맥적 의미에 상응하는 벡터에 소프트맥스 함수(softmax function)를 적용하여 산출되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 장치.
18. The method of claim 17,
The generation probability is a probability
And a softmax function is applied to a vector corresponding to a contextual meaning of the first type morpheme.
청구항 11에 있어서
상기 적어도 하나의 명령은,
상기 문장의 형태소 및 품사를 분석한 결과와 상기 트리플의 형태소 및 품사를 분석한 결과의 비교를 기반으로 교사 학습(supervised learning)을 수행하도록 더 실행되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 장치.
Claim 11
Wherein the at least one instruction comprises:
Wherein the supervised learning is further performed to perform supervised learning based on a result of analyzing the morpheme and part-of-speech of the sentence and a comparison of a result of analyzing the morpheme and part-of-speech of the triple.
상기 청구항 19에 있어서,
상기 적어도 하나의 명령은,
상기 교사 학습을 수행하는 과정에서, 상기 트리플의 관계어에 포함된 형태소 중 기능적 역할을 수행하는 품사에 해당하는 형태소를 제1 목록에 저장하고;
상기 트리플의 관계어에 포함된 형태소 중 상기 제1 목록에 포함되지 않은 적어도 하나의 형태소와 동일한 형태소가 상기 문장에 존재하는 지를 판단하고; 그리고
상기 적어도 하나의 형태소 중 상기 문장에 존재하는 형태소를 제2 목록에 저장하도록 실행되는 것을 특징으로 하는 텍스트 데이터의 정보 추출 장치.
The method of claim 19,
Wherein the at least one instruction comprises:
Storing a morpheme corresponding to a part of speech that performs a functional role among the morphemes included in the relational word of the triple in the course of performing the teacher learning;
Determining whether a morpheme identical to at least one morpheme not included in the first list among the morphemes included in the relational word of the triple exists in the sentence; And
And the morpheme existing in the sentence among the at least one morpheme is stored in the second list.
KR1020170021100A 2017-02-16 2017-02-16 Method for information extraction from text data and apparatus therefor KR20180094664A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170021100A KR20180094664A (en) 2017-02-16 2017-02-16 Method for information extraction from text data and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170021100A KR20180094664A (en) 2017-02-16 2017-02-16 Method for information extraction from text data and apparatus therefor

Publications (1)

Publication Number Publication Date
KR20180094664A true KR20180094664A (en) 2018-08-24

Family

ID=63454453

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170021100A KR20180094664A (en) 2017-02-16 2017-02-16 Method for information extraction from text data and apparatus therefor

Country Status (1)

Country Link
KR (1) KR20180094664A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885627A (en) * 2019-02-13 2019-06-14 北京航空航天大学 The method and device of relationship between a kind of neural metwork training entity
CN111126039A (en) * 2019-12-25 2020-05-08 贵州大学 Relation extraction-oriented sentence structure information acquisition method
KR20200058263A (en) * 2018-11-13 2020-05-27 울산과학기술원 Neural network-based auto-slot filling method and apparatus
KR20200067713A (en) * 2018-12-04 2020-06-12 숭실대학교산학협력단 System and method for detecting of Incorrect Triple
KR20200084745A (en) * 2018-12-27 2020-07-13 (주)아크릴 Method and Apparatus for Visualizing semantic Elements relationship
CN111785350A (en) * 2020-06-30 2020-10-16 易联众信息技术股份有限公司 Information extraction method, application, device and medium
CN112015859A (en) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 Text knowledge hierarchy extraction method and device, computer equipment and readable medium
KR20210059572A (en) * 2019-11-15 2021-05-25 한국전자통신연구원 System and method for tagging slot using knowledge extraction based unsupervised
CN112860855A (en) * 2021-02-04 2021-05-28 京东数字科技控股股份有限公司 Information extraction method and device and electronic equipment
KR20230143704A (en) 2022-04-06 2023-10-13 서울대학교산학협력단 Device and method for extraction of damage mechanism from bridge inspection reports

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200058263A (en) * 2018-11-13 2020-05-27 울산과학기술원 Neural network-based auto-slot filling method and apparatus
KR20200067713A (en) * 2018-12-04 2020-06-12 숭실대학교산학협력단 System and method for detecting of Incorrect Triple
KR20200084745A (en) * 2018-12-27 2020-07-13 (주)아크릴 Method and Apparatus for Visualizing semantic Elements relationship
CN109885627A (en) * 2019-02-13 2019-06-14 北京航空航天大学 The method and device of relationship between a kind of neural metwork training entity
CN112015859A (en) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 Text knowledge hierarchy extraction method and device, computer equipment and readable medium
CN112015859B (en) * 2019-05-31 2023-08-18 百度在线网络技术(北京)有限公司 Knowledge hierarchy extraction method and device for text, computer equipment and readable medium
KR20210059572A (en) * 2019-11-15 2021-05-25 한국전자통신연구원 System and method for tagging slot using knowledge extraction based unsupervised
CN111126039A (en) * 2019-12-25 2020-05-08 贵州大学 Relation extraction-oriented sentence structure information acquisition method
CN111126039B (en) * 2019-12-25 2022-04-01 贵州大学 Relation extraction-oriented sentence structure information acquisition method
CN111785350A (en) * 2020-06-30 2020-10-16 易联众信息技术股份有限公司 Information extraction method, application, device and medium
CN112860855A (en) * 2021-02-04 2021-05-28 京东数字科技控股股份有限公司 Information extraction method and device and electronic equipment
CN112860855B (en) * 2021-02-04 2024-02-06 京东科技控股股份有限公司 Information extraction method and device and electronic equipment
KR20230143704A (en) 2022-04-06 2023-10-13 서울대학교산학협력단 Device and method for extraction of damage mechanism from bridge inspection reports

Similar Documents

Publication Publication Date Title
KR20180094664A (en) Method for information extraction from text data and apparatus therefor
US11568855B2 (en) System and method for defining dialog intents and building zero-shot intent recognition models
CN108363790B (en) Method, device, equipment and storage medium for evaluating comments
US9977778B1 (en) Probabilistic matching for dialog state tracking with limited training data
CN107085581B (en) Short text classification method and device
US9773053B2 (en) Method and apparatus for processing electronic data
US20200364299A1 (en) Systems and methods for unsupervised autoregressive text compression
CN111984766B (en) Missing semantic completion method and device
CN110457708B (en) Vocabulary mining method and device based on artificial intelligence, server and storage medium
JP2018190188A (en) Summary creating device, summary creating method and computer program
KR20180138321A (en) Method and apparatus for machine translation using neural network and method for learning the appartus
US11170169B2 (en) System and method for language-independent contextual embedding
Gómez-Adorno et al. A graph based authorship identification approach
JP2018022496A (en) Method and equipment for creating training data to be used for natural language processing device
WO2020005601A1 (en) Semantic parsing of natural language query
US20220414463A1 (en) Automated troubleshooter
KR102088357B1 (en) Device and Method for Machine Reading Comprehension Question and Answer
CN112131876A (en) Method and system for determining standard problem based on similarity
CN111160041A (en) Semantic understanding method and device, electronic equipment and storage medium
US20220147719A1 (en) Dialogue management
Mudge The design of a proofreading software service
CN113536784A (en) Text processing method and device, computer equipment and storage medium
KR101983477B1 (en) Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification
Han et al. Lexicalized neural unsupervised dependency parsing
JP2022088540A (en) Method for generating user interest image, device, electronic apparatus and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application