KR101012504B1 - Method of extracting Triplets by searching dependency grammar setence tree - Google Patents

Method of extracting Triplets by searching dependency grammar setence tree Download PDF

Info

Publication number
KR101012504B1
KR101012504B1 KR1020080106383A KR20080106383A KR101012504B1 KR 101012504 B1 KR101012504 B1 KR 101012504B1 KR 1020080106383 A KR1020080106383 A KR 1020080106383A KR 20080106383 A KR20080106383 A KR 20080106383A KR 101012504 B1 KR101012504 B1 KR 101012504B1
Authority
KR
South Korea
Prior art keywords
syntax tree
verb
searching
relation
triple
Prior art date
Application number
KR1020080106383A
Other languages
Korean (ko)
Other versions
KR20100047475A (en
Inventor
최기선
최동현
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020080106383A priority Critical patent/KR101012504B1/en
Priority to PCT/KR2009/005265 priority patent/WO2010050675A2/en
Publication of KR20100047475A publication Critical patent/KR20100047475A/en
Application granted granted Critical
Publication of KR101012504B1 publication Critical patent/KR101012504B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Abstract

본 발명은 문법적으로 올바른 평서문의 문장으로부터 온톨로지를 구축하기 위한 관계 트리플의 정보를 자동으로 추출해내는 방법 및 시스템에 관한 것으로,The present invention relates to a method and system for automatically extracting information of a relation triple for constructing an ontology from sentences of grammatically correct evaluation sentences.

본 발명에 따른 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법은, 대상 문장을 구문 분석하여 의존 문법 구문 트리를 생성하는 제1 단계; 상기 제1 단계 후 생성된 의존 문법 구문 트리를 전처리하여 관계 추출을 위한 형태로 변환하는 제2 단계; 및, 상기 제2 단계에서 변환된 의존 문법 구문 트리를 포스트오더(postorder) 방식으로 탐색하여 자동으로 관계 트리플을 추출하는 제3 단계를 포함한다.According to another aspect of the present invention, there is provided a method of automatically extracting a triple relationship tree by searching a dependency grammar syntax tree, the method comprising: a first step of parsing a target sentence to generate a dependency grammar syntax tree; A second step of preprocessing the generated dependent grammar syntax tree after the first step and converting the dependency grammar syntax tree into a form for relationship extraction; And a third step of automatically searching for the dependency grammar syntax tree converted in the second step in a postorder manner and automatically extracting the relation triple.

의존 문법 구문 트리, 관계 트리플 Dependency Grammar Syntax Tree, Relationship Triple

Description

의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법{Method of extracting Triplets by searching dependency grammar setence tree}Method of extracting triplets by searching dependency grammar setence tree}

본 발명은 문법적으로 올바른 평서문의 문장으로부터 온톨로지를 구축하기 위한 관계 트리플의 정보를 자동으로 추출해 내는 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for automatically extracting information of a relation triple for constructing an ontology from sentences of grammatically correct evaluation sentences.

현재까지는 일반적으로 관계 트리플을 추출하기 위하여 문법적인 패턴(lexico-syntactic pattern)을 주로 사용하였다. Marti Hearst의 1992년 논문 'Automatic Acquisition of Hyponyms from Large Text Corpora'에 이러한 방식이 처음으로 제안되었다. 즉, 여러 가지의 문법적 패턴을 만들어 놓고, 주어진 문장의 형태가 정의된 패턴의 형태와 일치하면 그 패턴을 이용하여 관계 트리플을 추출하게 된다.Until now, the lexico-syntactic pattern has been mainly used to extract the relation triple. This was first proposed in Marti Hearst's 1992 paper Automatic Acquisition of Hyponyms from Large Text Corpora. In other words, if various grammatical patterns are made and the form of a given sentence matches the defined pattern, the relation triple is extracted using the pattern.

예를 들면, "The cat is a dog" 라는 문장으로부터 <cat, ISA, dog> 라는 형태의 트리플을 추출하기 위하여, 기존 방식으로는 ISA 패턴 "<인수 1> is a <인 수 2>" 를 만들고, 이를 각 문장에 적용시키게 된다. 그러나 이런 방식은 크게 두 가지 문제점을 가지고 있다.For example, to extract a triple of the form <cat, ISA, dog> from the sentence "The cat is a dog", the ISA pattern "<argument 1> is a <argument 2>" is conventionally used. And apply it to each sentence. However, this method has two major problems.

첫째, "London, which has the biggest airport in England, is a city." 와 같은 문장은 이런 문법적 패턴을 사용하여 정보를 추출할 수 없다. 설령 *와 같은 wildcard를 사용하더라도, "London" 과 "is" 사이에 너무나 많은 단어가 들어가 있어 적절히 걸러 내기가 불가능하다.First, "London, which has the biggest airport in England, is a city." Statements such as, cannot use this grammatical pattern to extract information. Even if you use a wildcard like *, there are too many words between "London" and "is" that make it impossible to filter properly.

둘째, 이런 패턴을 사용하는 방식으로는 <인수 1, 설정된 관계, 인수 2>와 같은 형태의 트리플만을 추출해낼 수 있다. 즉, 인수 1과 인수 2를 추가적으로 수식하는 수식 관계의 정보는 모두 사라지게 된다.Second, using this pattern, only triples of the form <argument 1, set relationship, argument 2> can be extracted. That is, the information on the mathematical relationship that additionally modifies the arguments 1 and 2 is lost.

본 발명은 상기한 바와 같은 과제를 해결하기 위해 안출된 것으로, 현재 대부분 수동으로 운영되는 온톨로지 구축 작업의 일정 부분을 자동화하여 비용 및 시간을 크게 절감할 수 있는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법을 제공하는 것을 그 목적으로 한다.The present invention has been devised to solve the above problems, and it is possible to automate a part of ontology construction work which is mostly operated manually, and to automatically reduce the cost and time, thereby automatically relying on search of the dependent grammar syntax tree. It is an object to provide a triple extraction method.

상기한 바와 같은 목적을 달성하기 위한 본 발명에 따른 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법은,In order to achieve the above object, the automatic relation triple extraction method by searching the dependency grammar syntax tree according to the present invention,

대상 문장을 구문 분석하여 의존 문법 구문 트리를 생성하는 제1 단계; 상기 제1 단계 후 생성된 의존 문법 구문 트리를 전처리하여 관계 추출을 위한 형태로 변환하는 제2 단계; 및, 상기 제2 단계에서 변환된 의존 문법 구문 트리를 포스트오더(postorder) 방식으로 탐색하여 자동으로 관계 트리플을 추출하는 제3 단계를 포함한다.A first step of parsing the target sentence to generate a dependent grammar syntax tree; A second step of preprocessing the generated dependent grammar syntax tree after the first step and converting the dependency grammar syntax tree into a form for relationship extraction; And a third step of automatically searching for the dependency grammar syntax tree converted in the second step in a postorder manner and automatically extracting the relation triple.

또한, 상기 제1 단계는 의존 문법 구문 분석기를 이용하여 의존 문법 구문 트리를 생성하는 것을 특징으로 한다.The first step may include generating a dependency grammar syntax tree using a dependency grammar parser.

또한, 상기 제2 단계는, 미리 정의된 텀 사전을 이용하여 상기 대상 문장에서 텀을 표시하고 구축하는 과정, 상기 의존 문법 구문 트리에서 주어가 될 수 있 는 개체명을 인식하는 과정, 상기 의존 문법 구문 트리에서 To-부정사 및 동명사가 있는 경우, 이를 별도로 표시하는 과정, 상기 의존 문법 구문 트리에서 연결 접속사를 처리하는 과정, 상기 의존 문법 구문 트리에 관계 대명사가 있는 경우, 관계 대명사를 대용할 수 있는 명사를 탐색하는 과정, 같은 동작에 대하여 2개 이상의 관계 트리플들을 하나로 묶는 데 사용할 Action을 표시하는 과정, 부정 또는 빈도의 정보를 그것이 수식하는 동사 노드에 합치는 과정을 포함한다.The second step may include displaying and constructing a term in the target sentence using a predefined term dictionary, recognizing an entity name that may be given in the dependent grammar syntax tree, and the dependent grammar. If there are To-negatives and the same nouns in the syntax tree, the process of displaying them separately, the process of processing connected conjunctions in the dependent grammar syntax tree, and if there are relational pronouns in the dependent grammar syntax tree, the relation pronouns can be substituted. Searching for nouns, indicating the action to be used to group two or more relation triples together for the same action, and combining the negative or frequency information with the verb node it modifies.

여기서, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사가 아닐 때, 상기 두 단어를 의존 문법 구문 트리의 하나의 노드를 묶는 것을 특징으로 한다.Here, the process of processing the connection conjunction, when the parts of two words connected by the connection conjunction is the same, when the parts of the word is not a verb, characterized in that the two words are tied to a node of the grammar syntax tree dependent on the two words. do.

또한, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사인 경우, 상기 동사가 모두 주어와 목적어를 각각 보유하면 문장을 나누는 것을 특징으로 한다.In addition, the process of processing the connected conjunctions, if the two parts of the word connected by the connected conjunctions is the same, and if the parts of the word is a verb, characterized in that if the verbs all have a subject and an object, the sentences are divided. .

또한, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사인 경우, 먼저 나온 동사만 주어를 갖고 뒤에 나온 동사가 주어를 가지지 않으면 두 동사를 하나의 노드로 묶는 것을 특징으로 한다.In addition, the process of processing the connected conjunction, if the two parts of the word connected by the connected conjunction is the same part of speech, if the part of the word is a verb, only the first verb has a subject and if the following verb does not have a subject two verbs It is characterized by grouping into one node.

또한, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사인 경우, 먼저 나온 동사가 주어와 목적어를 모두 보유하고, 뒤에 나온 동사가 주어를 보유하지 않으면 주어를 복사하여 아래쪽 동사에 붙이고 두 문장을 나누는 것을 특징으로 한다.In addition, the process of processing the connected conjunction is, if the two parts of the word connected by the connected conjunction is the same part of speech, the part of the word is a verb, the first verb has both the subject and the object, the following verb If not, copy the subject, attach it to the lower verb, and divide the two sentences.

또한, 상기 관계 대명사를 대용할 수 있는 명사를 탐색하는 과정은 상기 관계 대명사가 지칭하는 명사에 대하여 링크를 걸어주는 것을 특징으로 한다.In addition, the process of searching for a noun that can substitute for the relative pronoun may be characterized by giving a link to a noun designated by the relative pronoun.

또한, 상기 Action을 표시하는 과정에서, 상기 Action은 품사가 동사인 두 노드로서 주어와 목적어가 연결되어 하나 이상의 의미 관계를 가지며, 상기 두 노드를 제외한 자식 노드들 중 하나 이상의 텀을 보유하는 자식 노드가 존재하는 경우 그 노드를 Action으로 표시하는 것을 특징으로 한다.In addition, in the process of displaying the action, the action is a two node whose parts of speech are verbs, the subject and the object are connected to each other, and have one or more semantic relations, and a child node having one or more terms among the child nodes except the two nodes. If is present, the node is characterized by displaying as an Action.

또한, 상기 Action으로 표시된 노드의 동사를 동명사로 변환하여 관계 트리플을 추출하고 상기 동명사를 사용하여 인수 1 또는 인수 2를 수식하는 구조로 변환하여 표현함으로써 2개의 트리플 정보를 하나의 트리플 정보로 변환하는 것을 특징으로 한다.In addition, by extracting the relationship triple by converting the verb of the node indicated by the action to the same name, and converting the expression of the triplet information into a structure that modifies the argument 1 or the argument 2 using the same name to convert two triple information into one triple information It is characterized by.

상기 제3 단계에서 상기 의존 문법 구문 트리에 있는 각각의 노드는 Reserved Term(이하 'RT), Reserved Clue(이하 'RC), Relation Queue(이하 'RQ')의 세가지 데이터 구조를 보유하며, 상기 RT는 하나의 텀만을 보유하며, 상기 RC는 문자열을 보유하며, 상기 RQ는 Relation Block(여기서, Relation Block은 관계 트리플이 1개 이상 모인 집합)의 리스트를 보유하는 것을 특징으로 한다.In the third step, each node in the dependent grammar syntax tree has three data structures: Reserved Term (hereinafter 'RT'), Reserved Clue (hereinafter 'RC') and Relation Queue (hereinafter 'RQ'). Holds only one term, the RC holds a string, and the RQ holds a list of Relation Blocks (where the Relation Block is a set of one or more relation triples).

상기한 바와 같은 본 발명에 따른 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법에 의하면,According to the automatic relationship triple extraction method by searching the dependency grammar syntax tree according to the present invention as described above,

일반적인 문장으로부터 온톨로지를 구축하는 데 있어서 상당 부분을 자동화 함으로써 시간 및 비용을 크게 절감할 수 있다. 또한 일반적인 문법적 패턴 기반 방식을 사용하였을 때 나타나는 long-distance problem(문장 상에서 멀리 떨어져 있는 단어들간의 관계 트리플을 추출할 수 없는 문제)를 해소하는 효과가 있다.Significant time and cost savings can be achieved by automating much of the ontology building from common sentences. In addition, it has the effect of solving the long-distance problem (a problem that cannot extract the relation triples between words that are far apart in the sentence) when using the general grammatical pattern-based method.

이하, 첨부된 도을 참조하여 본 발명의 실시예를 상세히 설명한다. 본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하게 하지 않기 위해 생략한다.Hereinafter, with reference to the accompanying drawings will be described an embodiment of the present invention; In describing the present invention, detailed descriptions of related well-known functions or configurations are omitted in order not to obscure the gist of the present invention.

본 발명은 문법이 올바르고 모든 지시대명사 문제가 해결된 평서문을 대상으로 하여, 그 문장으로부터 관계 트리플을 추출하는 것을 목적으로 한다. 본 발명은 어떤 문장의 의존 구문 문법 트리에서 서로 연결되어 있는 단어들 사이에 어떠한 관계가 존재할 수 있다는 점에 착안하여, 의존 구문 문법 트리를 postorder 방식으로 검색하여 관계 트리플들을 추출해 낸다. 이러한 관계 트리플 추출은 본 명세서에서 기재된 내용을 수행하는 알고리즘이 수록된 컴퓨터 프로그램에 의해 수행될 수 있으며, 또는 알고리즘이 수록된 기록 매체를 이용하여 컴퓨터에 의해 수행될 수 있다.An object of the present invention is to extract a relational triple from a sentence that is correct in grammar and has solved all descriptive pronoun problems. The present invention is focused on the fact that there can be any relationship between words connected to each other in the dependent syntax grammar tree of a sentence, and extracts the relation triples by searching the dependent syntax grammar tree in a postorder manner. Such relationship triple extraction may be performed by a computer program containing an algorithm for performing the contents described herein, or may be performed by a computer using a recording medium containing the algorithm.

관계 트리플은 <인수 1, 설정된 관계, 인수 2>의 세 가지 요소로 나뉘어져 있는데, 인수 1과 인수 2는 서로 관계가 있는 두 가지의 개념이며, 설정된 관계는 인수 1과 인수 2가 맺고 있는 관계의 종류이다.The relationship triple is divided into three elements: <argument 1, set relationship, and argument 2>. Arguments 1 and 2 are two related concepts, and the set relationship is the relationship between the arguments 1 and 2 It's kind.

이하, 상기 <인수 1, 설정된 관계, 인수 2>를 [arg1, rel, arg2]으로 표기하며, 인수 1은 'arg1', 인수 2는 'arg2', 설정된 관계는 'rel'으로도 표기한다.Hereinafter, the <argument 1, the set relationship, the argument 2> is expressed as [arg1, rel, arg2], the argument 1 is expressed as 'arg1', the argument 2 is expressed as 'arg2', and the set relationship is expressed as 'rel'.

대상 문장이 주어졌을 경우, 주어진 문장에서 관계 트리플을 추출하기 위하여 크게 아래의 세 가지 단계를 거친다(도 3 참조):Given a target sentence, there are three major steps to extract the relation triples from the given sentence (see Figure 3):

제1 단계; 대상 문장을 구문 분석하여 의존 문법 구문 트리를 생성한다.First step; Parse the target statement to create a dependent grammar syntax tree.

제2 단계; 생성된 의존 문법 구문 트리를 전처리하여 관계 추출을 위한 형태로 변환한다.Second step; The generated dependency grammar syntax tree is preprocessed and converted into a form for relationship extraction.

제3 단계; 변환된 의존 문법 구문 트리를 포스트오더(postorder) 방식으로 탐색하여 자동으로 관계 트리플을 추출한다.Third step; Automatically extract relation triples by searching the transformed dependent grammar syntax tree in a postorder fashion.

상기 제1 단계에서 단어 간의 수식 관계들을 명확히 파악하여 트리플 정보 추출을 위해 의존 문법 구문 트리는 의존 문법 구문 분석기를 이용하여 생성한다.(도 3의 1. Parsing 참조)In the first step, the dependency grammar syntax tree is generated using the dependency grammar parser for triple information extraction by clearly identifying the mathematical relations between words (see 1. Parsing of FIG. 3).

상기 제2 단계에서 전처리는 다음의 일곱 과정을 거친다.(도 3의 2. Preprocessing 참조)In the second step, preprocessing is performed through the following seven processes (see 2. Preprocessing of FIG. 3).

1. 텀 표시 및 구축1. Display and build the term

미리 정의된 텀 사전을 이용하여 텀을 표시 및 구축한다. 여기서 '텀'이란, 실제 구축될 온톨로지에서 대응될 개념이 존재하는 것을 의미한다. 예를 들어, 'James buys a company'와 같은 경우, 'James'와 'company'가 텀이 된다.Display and build a term using a predefined term dictionary. Here, the term 'term' means that there is a concept corresponding to the ontology to be constructed. For example, in the case of 'James buys a company', 'James' and 'company' become terms.

2. 개체명 인식2. Object Name Recognition

개체명을 인식하고 표시한다. 여기서 개체명이란, 사람 이름, 기관 이름 등과 같이 실생활에 존재하는 어떤 물체와 대응되는 것을 말한다.(예: 'James', 'Microsoft' 등)Recognize and display object names. Here, an entity name refers to an object that exists in real life, such as a person's name or an institution's name (e.g. 'James', 'Microsoft', etc.).

3. To-부정사 및 동명사 표시3. To-negative and noun

To-부정사 및 동명사는 그 자체로써 Action으로 표시되어 다른 주어와 관계 설정이 되어야 하며, 또한 그 Action 자체의 주어 및 목적어를 따로 보유할 수 있다. 따라서 이러한 특수 처리를 해주기 위하여 To-부정사 및 동명사에 대해서는 별도의 표시를 하여 관계 추출 시 고려한다.The To-negative and the same nouns are themselves marked as Actions and must be associated with other subjects, and they can have their own subjects and objects. Therefore, To-negative and same-named verbs are marked separately for consideration in the extraction of relations for this special treatment.

4. 연결접속사 처리4. Connection Connection

연결접속사에 대하여 처리해 준다. 연결접속사로 연결된 것의 경우, 단순 나열의 경우와, 추출된 관계에서 트리플의 인수 1 또는 인수 2들을 공유할 경우가 존재하기 때문이다. 또한 관계 추출 시, 나열형의 경우에는 하나의 동사로 인해 관계가 설정되어 관계 설정은 동일하지만 인수 1 또는 인수 2는 다른 여러 개의 관계가 추출될 수 있고, 이를 처리해 주어야 하기 때문이다.Process the connection connection. This is because there is a case in which the connection is made with a connection, in the case of simple enumeration, and in the extracted relationship, the arguments 1 or 2 of the triples are shared. Also, when extracting a relationship, in case of enumeration type, the relationship is set by one verb, and the relationship setting is the same, but argument 1 or argument 2 can extract several other relationships, and they have to deal with them.

의존 관계에서 연결접속사가 나타났을 경우, 다음과 같은 규칙에 따라 이를 처리한다.If a connection appears in a dependency, it is handled according to the following rules.

(1) 연결된 두 단어의 품사가 같고, 동사가 아닐 때: 두 노드를 의존 문법 구문 트리의 한 노드로 묶는다.(1) When the parts of two connected words are the same and are not verbs: Combine the two nodes into one node of the dependent grammar syntax tree.

(2) 연결된 두 단어의 품사가 같고, 동사일 때:(2) When the parts of the two connected words are the same and are verbs:

a. 두 동사가 모두 주어(subject), 목적어(object)를 각각 보유할 때: 문장을 자른다.a. When both verbs have a subject and an object: Truncate the sentence.

b. 먼저 나온 동사가 주어만 갖고, 뒤에 나온 동사가 주어를 가지지 않을 때: 주어를 공유하면서 뒤에 나온 동사의 목적어 또한 공유하는 경우이므로 두 동사를 한 노드로 묶는다. b. When the first verb only has a subject, and the later verb does not have a subject: When sharing a subject and sharing the object of the later verb, combine the two verbs into one node.

c. 먼저 나온 동사가 주어와 목적어를 모두 보유하고, 뒤에 나온 동사가 주어를 보유하지 않을 때: 두 동사가 주어만 공유하는 경우이므로 주어를 복사하여 아래쪽 동사에 붙이고, 두 문장을 자른다.c. When the first verb holds both the subject and the object, and the later verb does not have the subject: Since two verbs share only the subject, copy and paste the subject into the lower verb and cut the two sentences.

5. 관계대명사 대용 해소5. Resolution of substitute pronouns

Triple 추출 시 문제가 생기지 않도록 which, who 등의 관계대명사에 대하여 대용어(anaphora) 문제를 해결하여 준다. 즉, 그것들이 지칭하고 있는 명사에 대하여 링크를 걸어준다.The problem of anaphora is solved for relative pronouns such as which and who to avoid problems in triple extraction. That is, they link to the nouns they refer to.

6. Action의 표시6. Display of Action

Action은 만들어질 온톨로지의 개념이며, 어떤 것의 동작 또는 바뀌는 상태 를 표현한다. Action은 같은 동작에 대한 2개 또는 그 이상의 관계 트리플들을 하나로 묶어 주는 데 사용된다.Action is the concept of ontology to be created and expresses the action or changing state of something. Action is used to group two or more relation triples for the same action.

도 2를 참조하면, 첫번째 결과(Result 1)는 삼성이 세미나를 개최했고, 또한 삼성이 무엇인가를 런던에서 개최하였다는 것을 의미하나, 삼성이 런던에서 세미나를 개최했다는 것을 의미하지는 않는다 - 즉, 결과값이 중요한 내용들을 잃어버리게 된다. 이는 두 개의 관계 트리플이 실제로는 모두 삼성의 동일한 동작에 대하여 서술하고 있음에도 불구하고, Action의 개념을 사용하지 않고서는 이런 두 가지 종류의 정보가 같은 동작에 대하여 서술하고 있다는 것을 표현할 수 없기 때문이다. 따라서, 추후 관계 추출 과정에서 먼저 'hold'를 명사 형태인 'Holding'으로 바꾸어 Action임을 표현하여 관계 트리플 (Samsung, Process, Holding)을 추출하고, 두 개의 관계 트리플을 Holding의 제약 조건으로 사용하여, 2개의 트리플의 정보를 하나의 트리플로 변환하여 표현한다.(Result 2)Referring to FIG. 2, the first result (Result 1) means that Samsung held a seminar and also that Samsung held something in London, but it does not mean that Samsung held a seminar in London-that is, The results lose important content. This is because, although the two relationship triples actually describe the same behavior of Samsung, it is impossible to express that these two kinds of information describe the same behavior without using the concept of Action. Therefore, in the process of extracting the relationship, first, 'hold' is changed to 'Holding', which is a noun form, to express the action triplet to extract the relationship triple (Samsung, Process, Holding), and to use the two relationship triple as constraints of holding. The information of two triples is converted into one triple and expressed. (Result 2)

여기서, Action으로 표시해야 할 노드의 조건은 다음과 같다: 품사가 동사인 노드로서 기본적으로 주어와 목적어가 곧바로 연결되어 하나 이상의 의미 관계를 가지며, 또한 이 두 노드를 제외한 자식 노드들 중 자손에 하나 이상의 Term을 보유하는 노드가 존재할 경우.Here, the condition of the node to be expressed as Action is as follows: The part of the verb is a verb and basically the subject and the object are directly connected to each other and have one or more semantic relations. If there is a node with more than one term.

7. 부정/빈도의 표시7. Indication of negation / frequency

부정/빈도의 정보를 그것이 수식하고 있는 동사 노드에 합친다. 부정/빈도의 정보는 그것이 수식하고 있는 동사 노드에서 추출된 관계 트리플의 의미 값에 큰 영향을 주기 때문이다.Combine negative / frequency information with verb nodes that it modifies. This is because the information of negation / frequency greatly affects the semantic value of the relation triple extracted from the verb node that it modifies.

상기 제3 단계의 자동으로 관계 트리플을 추출하는 단계는 다음과 같은 방식으로 수행한다.(도 3의 3. Extracting Triplets 참조)The extracting of the relation triple in the third step is performed in the following manner (see 3. Extracting Triplets in FIG. 3).

전처리 과정을 통하여 얻어진 의존 문법 구문 트리는 postorder 방식으로 탐색하여 관계 트리플을 추출한다. 각 노드는 Reserved Term(RT), Reserved Clue(RC), Relation Queue(RQ)의 세 가지 데이터 구조를 보유한다. 상기 Clue는 의존 구문 문법 트리 상에서 관계가 설정된 두 텀을 연결하는 연결선 상에 존재하는 모든 문자열을 말한다. 이는 각각 구문 트리의 아래 쪽에 존재하는 텀 또는 아래에서 설정된 관계의 정보를 구문 트리의 윗 부분에서 다른 정보들과 연결해 주기 위하여 사용된다. 여기서 RT는 단 하나의 Term만을 보유할 수 있으며, RC는 문자열을 보유할 수 있고, RQ는 Relation Block의 List를 보유한다. Relation Block은 Relation Triple(arg1, rel, arg2)의 1개 또는 그 이상의 집합을 의미하며, Relation Block이 보유하는 Relation Triple은 개념적으로 서로 같은 arg1을 공유한다. 이하, 추가적인 언급이 없을 경우, Relation Queue에 Triple을 넣는다는 것은 Relation Triple을 단 하나 보유한 Relation Block을 제작하여 집어넣는 것을 의미한다. Relation Block RB의 첫 번째 트리플을 RB[1]로 표기하고, 두 번째 트리플을 RB[2]로 표기한다. (도 4 참조)The dependency grammar syntax tree obtained through the preprocessing is searched in postorder to extract the relation triple. Each node has three data structures: Reserved Term (RT), Reserved Clue (RC), and Relation Queue (RQ). The Clue refers to all strings existing on a connection line connecting two terms having a relationship on a dependency syntax grammar tree. This is used to connect the information of the term or the relationship set at the bottom of the syntax tree with other information at the top of the syntax tree, respectively. In this case, RT can hold only one term, RC can hold a string, and RQ holds a list of relation blocks. A relation block refers to one or more sets of relation triples (arg1, rel, arg2), and the relation triples held by the relation block conceptually share the same arg1. Unless stated otherwise, adding a triple to the relation queue means making and inserting a relation block containing only one relation triple. Mark the first triple of the relation block RB as RB [1] and the second triple as RB [2]. (See Figure 4)

현재 탐색되고 있는 노드를 T, 대상 노드의 자식 노드를 C, 어떤 노드 A의 Term을 A[Term], RT를 A[RT], RC를 A[RC], RQ를 A[RQ]로 표현하도록 하자. 그러면 각 노드의 RT, RC 및 RQ를 다음의 경우에 따라서 바꾼다. Final Relation Queue(FRQ)는 최종 Relation set을 보유한다.Represent the node currently being searched as T, the child node of the target node as C, the Term of any Node A as A [Term], RT as A [RT], RC as A [RC], and RQ as A [RQ]. lets do it. Then change the RT, RC and RQ of each node according to the following cases. The Final Relation Queue (FRQ) holds the final relation set.

관계 트리플 추출은 아래 서술된 규칙에 의하여 진행된다.The relation triple extraction is performed according to the rules described below.

Case 1. 대상 노드가 Term일 경우Case 1. If the target node is Term

Case 1.1 대상 노드의 자식이 없을 경우: Case 1.1 If there are no children of the target node:

부모 노드로 정보를 전달하기 위하여 RT에 해당 노드의 Term을 넣는다.(도 5 참조)In order to transfer information to the parent node, the node's Term is put in RT (see Fig. 5).

Case 1.2 대상 노드의 자식이 존재할 경우Case 1.2 When Child of Target Node Exists

Case 1.2.1 대상 노드가 which, who 등에 의해 reference될 경우Case 1.2.1 When a target node is referenced by which, who, etc.

자식 중 동사인 것의 RT 및 RQ 내용을 복사해 온다.Copies the RT and RQ contents of the verb of the child.

Case 1.2.2 대상 노드의 자식들의 RT및 RQ의 내용이 모두 Empty일 경우Case 1.2.2 When the contents of RT and RQ of the target node's children are all empty

자식 노드로부터 전달되어 온 정보가 존재하지 않는 경우이다. RT에 해당 노드의 Term을 넣는다. (도 6 참조)It is the case that there is no information transmitted from child node. Put the Term of the node in RT. (See Figure 6)

Case 1.2.3 대상 노드의 자식들의 RT의 내용이 Empty가 아닌 것이 존재할 경우Case 1.2.3 When the contents of RT of children of target node is not empty

자식 노드로부터 관계 설정에 사용될 텀이 전달되어 왔고, 이를 사용하여 현재 탐색중인 노드와의 관계를 설정해 주어야 할 경우이다. RT의 내용이 Empty가 아닌 자식 C에 대하여, T[RQ]에 다음의 관계를 추가한다: (도 7 참조)It is the case that the term to be used for establishing the relationship has been delivered from the child node, and it is necessary to set the relationship with the node currently being searched using this. For a child C whose contents of RT are not Empty, add the following relationship to T [RQ]: (see Figure 7).

Case 1.2.3.1 문장에서 T의 위치가 C의 앞일 경우: (T[Term], C[RC], C[RT])In case 1.2.3.1, the position of T is before C: (T [Term], C [RC], C [RT])

Case 1.2.3.2 문장에서 C의 위치가 T의 앞일 경우: (C[RT], C[RC], T[Term]) If the position of C in front of Case 1.2.3.2 is before T: (C [RT], C [RC], T [Term])

Case 1.2.4 대상 노드의 자식들의 RQ가 Empty가 아닌 것이 존재할 경우Case 1.2.4 When RQ of Children of Target Node Is Not Empty

이 경우, 자식 노드로부터 대상 노드와 관계 설정이 되기 위하여 전달되어 온 텀이 이미 다른 텀과 관계 설정이 되어 있는 상태이다. 따라서 대상 노드와 전달되어 온 텀 간에 관계를 설정하고, 전달되어 온 텀의 RQ의 내용을 사용하여 설정된 관계에 대해 제한 조건을 준다.In this case, the term transmitted from the child node to establish the relationship with the target node has already been established with the other term. Therefore, it establishes a relationship between the target node and the delivered term, and gives a constraint on the established relationship using the contents of the delivered RQ.

Empty가 아닌 자식 C에 대하여, T[RQ]에 다음의 관계를 추가한다:For non-empty child C, add the following relationship to T [RQ]:

C[RQ]의 각각의 모든 원소 t에 대하여, For each and every element t of C [RQ],

(T[Term], C[RC], RB[1][arg1] and (RB[1][rel] RB[1][arg2]) and (RB[2][rel] RB[2][arg2]) and ...)(T [Term], C [RC], RB [1] [arg1] and (RB [1] [rel] RB [1] [arg2]) and (RB [2] [rel] RB [2] [arg2 ]) and ...)

(이하, (T[Term], C[RC], t[arg1] and (t[rel] t[arg2])와 같은 표기는 위와 같이 각각의 Relation Block의 모든 원소를 사용하여 제약 조건을 처리해 줌을 의미한다.)(Hereinafter, notation like (T [Term], C [RC], t [arg1] and (t [rel] t [arg2]) handles the constraint using all elements of each Relation Block as above. Means.)

이 경우, RB[1][arg1]은 전달되어 온 텀이고, (RB[1][arg1], RB[1][rel], RB[1][arg2]) 등은 미리 설정되어 있던 관계이다. (도 8의 Traverse 5 참조)In this case, RB [1] [arg1] is the term that has been passed, and (RB [1] [arg1], RB [1] [rel], RB [1] [arg2]), etc., have been set in advance. . (See Traverse 5 in Figure 8)

Case 2. 대상 노드가 텀이 아닐 경우Case 2. If the target node is not a term

이 경우, 대상 노드 자체는 아무런 정보를 가지고 있지 않으며, 자손에 위치하는 텀의 정보를 위로 전달해 주거나, 또는 자손들간에 관계를 맺어 주는 역할을 한다.In this case, the target node itself does not have any information, and serves to convey information of the term located in the offspring, or to establish a relationship between the offspring.

Case 2.1 대상 노드의 자식이 없을 경우 Case 2.1 No Child of Target Node

자식으로부터 전해져 올 정보도 없고, 자신이 전달할 정보도 없다. 아무 일도 하지 않는다. (예: 관사)There is no information from the child and no information to convey. Does nothing. (E.g. articles)

Case 2.2 대상 노드의 자식이 존재할 경우Case 2.2 When Child of Target Node Exists

Case 2.2.1 대상 노드의 자식들의 RT및 RQ의 내용이 모두 Empty일 경우Case 2.2.1 When the contents of RT and RQ of the target node's children are all empty

이 경우 역시, 자식으로부터 전달되는 정보도 없고 부모 노드로 전달할 정보도 존재하지 않는 경우이다. 역시 아무 일도 하지 않는다.In this case, too, there is no information to be transmitted from the child and no information to be transmitted to the parent node exists. Does nothing too.

Case 2.2.2 대상 노드가 To-부정사의 동사 부분 또는 동명사일 경우Case 2.2.2 The target node is the verb part or the same name of the To-negative

이 경우는 대상 노드의 동사 부분을 Action으로 만들고, 대상 노드에 연결된 자식들을 새로이 만들어진 Action과 Triple로 만들어 준다. 또한 추출된 모든 관계들을 하나의 Relation Block으로 만들어 준다. 아래의 Traverse 4는 2개의 Triple이 하나의 Relation block으로 묶인 것을 나타내어 준다. (도 9의 Traverse 4 참조)In this case, make the verb part of the target node into an Action, and the children connected to the target node into the newly created Action and Triple. It also makes all extracted relations into one relation block. Traverse 4 below shows that two triples are grouped into one relation block. (See Traverse 4 in Figure 9)

Case 2.2.3 대상 노드에 주어의 의존 관계를 가지는 자식 노드가 존재하며 조동사가 아닐 경우Case 2.2.3 A child node exists that has a dependency of its subject on the target node and is not an auxiliary verb

Case 2.2.3.1 대상 노드에 목적어의 의존 관계를 가지는 자식 노드가 존재할 경우Case 2.2.3.1 A child node exists that has a dependency of an object on the target node

Case 2.2.3.1.1 대상 노드가 Action 노드로 표시되어 있을 경우Case 2.2.3.1.1 When a target node is marked as an Action node

이 경우, Action 노드 표시 기준에 의하여 자식들 중 RT또는 RQ가 Empty가 아닌 노드가 반드시 하나 이상 존재한다. 이런 경우, 일반적인 방법으로는 관계 트리플이 2가지 이상 산출되고, 이러한 트리플들 간의 연관성을 표시하기 힘들게 되 므로, 대신 대상 노드를 Action로 만들고, 대상 Action에 대한 수식의 형태로 관계들을 표현해 주게 된다. 즉, 동사를 Action의 형태로 변형시킨 것과 주어를 Process의 관계로 연결해 주고, 제약 조건으로 목적어 및 다른 자식이 가지고 있는 정보를 추가한다. 이를 위해 다음의 과정을 수행한다.In this case, at least one node whose RT or RQ is not Empty among the children by the Action node indication criterion necessarily exists. In this case, two or more relation triples are calculated by the general method, and it is difficult to indicate the association between the triples. Instead, the target node is made into an action and the relations are expressed in the form of a formula for the target action. In other words, the verb is transformed into Action form and the subject is connected in Process, and the object and information of other children are added as constraints. To do this, perform the following steps.

RT또는 RQ가 Empty가 아닌 각각의 자식 노드들 C에 대하여, 다음을 T[RQ]에 추가한다.For each child node C whose RT or RQ is not Empty, add the following to T [RQ]:

주어의 의존 관계를 가지는 자식 노드를 S, 목적어의 의존 관계를 가지는 자식 노드를 O라고 하면 각각의 to(Triple of Object) in O[RQ], tc(Triple of Child) in C[RQ]에 대하여,If the child node having the dependency of the subject is S and the child node having the dependency of the object is O, for each to (Triple of Object) in O [RQ] and tc (Triple of Child) in C [RQ] ,

a. (S[RT], Process, T[Term](in Noun Form) AND (Objective O[Term]) AND (C[Clue] C[Term])) (도 10의 Traverse 6 참조)a. (S [RT], Process, T [Term] (in Noun Form) AND (Objective O [Term]) AND (C [Clue] C [Term])) (See Traverse 6 of FIG. 10)

b. (S[RT], Process, T[Term](in Noun Form) AND (Objective to[arg1] and (to[rel] to[arg2])) AND (C[Clue] C[Term])) (도 11의 Traverse 8 참조)b. (S [RT], Process, T [Term] (in Noun Form) AND (Objective to [arg1] and (to [rel] to [arg2])) AND (C [Clue] C [Term])) 11 see Traverse 8)

c. (S[RT], Process, T[Term](in Noun Form) AND (Objective O[Term]) AND (C[Clue] tc[arg1] and (tc[rel] tc[arg2])) (도 12의 Traverse 8 참조) c. (S [RT], Process, T [Term] (in Noun Form) AND (Objective O [Term]) AND (C [Clue] tc [arg1] and (tc [rel] tc [arg2])) See Traverse 8)

d. (S[RT], Process, T[Term](in Noun Form) AND (Objective to[arg1] and (to[rel] to[arg2])) AND (C[Clue] tc[arg1] and (tc[rel] tc[arg2])) (도 13의 Traverse 10 참조)d. (S [RT], Process, T [Term] (in Noun Form) AND (Objective to [arg1] and (to [rel] to [arg2])) AND (C [Clue] tc [arg1] and (tc [ rel] tc [arg2]))) (see Traverse 10 in FIG. 13)

Case 2.2.3.1.2 대상 노드가 Action 노드가 아닐 경우Case 2.2.3.1.2 If the target node is not an Action node

이 경우는 단순히 주어와 목적어간의 관계를 설정해 주면 된다.In this case, simply set the relationship between the subject and the object.

Case 2.2.3.1.2.1 추출된 관계가 isA일 경우Case 2.2.3.1.2.1 If the extracted relationship is isA

어떤 노드의 RQ가 empty가 아니라는 것은 그 노드가 무엇인가에 의해 수식되고 있다는 뜻이다. isA관계에 의해 수식되는 노드와 수식되지 않는 노드가 묶일 경우, 분류 체계에서 수식되는 노드가 수식되지 않는 노드의 자식이 됨은 자명하다. 즉, 수식받지 않는 쪽, 다시 말해서 RQ가 Empty인 쪽이 'arg1'이 되고, 수식받는 쪽, 다시 말해 RQ가 Empty가 아닌 쪽이 'arg2'가 된다. 만약 두 노드가 모두 수식받지 않는다면, 자연스레 A is a B의 형태가 되므로 주어가 arg1, 목적어가 arg2의 자리에 위치하게 된다.If a node's RQ is not empty, that node is being modified by something. When a node that is modified by an isA relationship and an unqualified node are bound, it is obvious that the node that is modified in the classification system becomes a child of an unmodified node. That is, the unqualified side, that is, the side where RQ is Empty becomes 'arg1', and the side receiving the modifier, that is, the side where RQ is not empty, becomes 'arg2'. If neither node is modified, it naturally takes the form A is a B so that the subject is placed in place of arg1 and the object in arg2.

이를 실제로 나타내기 위해 아래와 같은 관계 설정 절차가 성립된다.(도 14의 Traverse 6 참조)In order to actually show this, the following relationship establishing procedure is established (see Traverse 6 of FIG. 14).

만약 S[RQ]가 empty일 경우, O[RQ]가 empty이면, (S[RT], isA, O[RT])를 추가하고, 아니면 O[RQ]의 각각의 트리플 to에 대하여 (S[RT], isA, to[arg1])과 (S[RT], to[설정된 관계], to[arg2])를 T[RQ]에 추가한다.If S [RQ] is empty, if O [RQ] is empty, add (S [RT], isA, O [RT]), or (S [for each triple to of O [RQ]). RT], isA, to [arg1]) and (S [RT], to [set relation], to [arg2]) are added to T [RQ].

만약 S[RQ]가 empty가 아닐 경우, S[RQ]의 각각의 트리플 ts에 대하여 (O[RT], isA, ts[arg1])과 (O[RT], ts[rel], ts[arg2])를 T[RQ]에 추가한다. (도 15의 Traverse 6 참조)If S [RQ] is not empty, then (O [RT], isA, ts [arg1]) and (O [RT], ts [rel], ts [arg2) for each triple ts of S [RQ]. ]) Is added to T [RQ]. (See Traverse 6 in FIG. 15)

Case 2.2.3.1.2.2 추출된 관계가 isA가 아닐 경우Case 2.2.3.1.2.2 If the extracted relationship is not isA

이 경우는 단순히 주어와 목적어간 관계 설정을 해 주면 된다. 이 때, clue는 단순히 의존 구문 문법 트리 상에서 주어와 목적어의 사이에 있는 것으로 설정 하여 준다. (도 16 참조)In this case, simply establish the relationship between the subject and the object. At this point, clue simply sets it between the subject and the object in the dependency syntax tree. (See Figure 16)

다음을 T[RQ]에 추가한다:Add the following to T [RQ]:

(S[RT], S[RC] + T[term] + O[RC], O[RT]) (+는 String Concatenation(문자열 연결)을 의미한다.)(S [RT], S [RC] + T [term] + O [RC], O [RT]) (+ means String Concatenation.)

For each to(Triple of Object) in O[RQ],For each to (Triple of Object) in O [RQ],

(S[RT], S[RC] + T[term] + O[RC], to[arg1] AND (to[rel] to[arg2]))(S [RT], S [RC] + T [term] + O [RC], to [arg1] AND (to [rel] to [arg2]))

Case 2.2.3.2 대상 노드에 목적어의 의존 관계를 가지는 자식 노드가 존재하지 않을 경우Case 2.2.3.2 When a target node does not have a child node with object dependencies

이 경우도 마찬가지로 RT 및 RQ가 empty가 아닌 자식 노드들과 관계를 설정해 주면 된다.In this case, RT and RQ do not need to be empty but have relations with child nodes.

Case 2.2.3.2.1 추출된 관계가 isA일 경우, 처리 방식은 Case 2.2.3.1.2.1과 동일하다.Case 2.2.3.2.1 If the extracted relationship is isA, the processing is the same as Case 2.2.3.1.2.1.

isA의 관계의 특성상, 다음이 성립한다.In the characteristic of the relationship of isA, the following is true.

만약 S[RQ]가 empty일 경우, 만약 C[RQ]가 empty이면 (S[RT], isA, C[RT])를, 아니면 C[RQ]의 각각의 트리플 tc에 대하여 (S[RT], isA, tc[arg1])과 (S[RT]. tc[rel], tc[arg2])를 T[RQ]에 추가한다.If S [RQ] is empty, if C [RQ] is empty then (S [RT], isA, C [RT]), or for each triple tc of C [RQ] (S [RT] , isA, tc [arg1]) and (S [RT] .tc [rel], tc [arg2]) are added to T [RQ].

만약 S[RQ]가 empty가 아닐 경우, S[RQ]의 각각의 트리플 ts에 대하여 (C[RT], isA, ts[arg1])과 (C[RT], ts[rel], ts[arg2])를 T[RQ]에 추가한다.If S [RQ] is not empty, then (C [RT], isA, ts [arg1]) and (C [RT], ts [rel], ts [arg2) for each triple ts of S [RQ]. ]) Is added to T [RQ].

Case 2.2.3.2.2 추출된 관계가 isA가 아닐 경우, 처리 방식은 Case 2.2.3.1.2.2와 동일하다.Case 2.2.3.2.2 If the extracted relationship is not isA, the processing is the same as in Case 2.2.3.1.2.2.

대상 노드의 자식들 중 RT나 RQ가 empty가 아닌 자식들 C에 대하여, (S[RT], S[RC] + T[term] + C[RC], C[RT])를 T[RQ]에 추가하고, 또한 C[RQ]의 각각의 트리플 tc에 대하여 (S[RT], S[RC] + T[term] + C[RC], tc[arg1] AND (tc[rel] tc[arg2]))를 T[RQ]에 추가한다.For children C of the target node whose RT or RQ is not empty, (S [RT], S [RC] + T [term] + C [RC], C [RT]) is set to T [RQ]. In addition, and also for each triple tc of C [RQ] (S [RT], S [RC] + T [term] + C [RC], tc [arg1] AND (tc [rel] tc [arg2) ])) Is added to T [RQ].

Case 2.2.4 대상 노드에 주어의 의존 관계를 가지는 자식 노드가 존재하지 않거나 조동사일 경우Case 2.2.4 A child node with subject dependencies does not exist in the target node or is an auxiliary verb

이 경우는 일반적으로 RT및 RQ에 내용을 가지는 자식은 하나이다. 이 자식의 내용을 복사해 오고, clue에 대상 노드의 내용을 추가한다. 대상 노드가 자식 노드보다 앞에 나올 경우 clue를 앞에 추가하고, 뒤에 나올 경우 clue를 뒤에 추가한다. 이런 경우는 대개 in이나, for과 같은 전치사의 경우이다.In this case, one child usually has contents in RT and RQ. Copies the contents of this child and adds the contents of the target node to clue. If the target node comes before the child node, add clue to the front. If it comes after, add clue to the back. This is usually the case with prepositions such as in or for.

상기 설명된 Case들을 도 3을 참조하여 설명한다.Cases described above will be described with reference to FIG. 3.

도 3의 예제에서 3. Extracting Triplets에서 이루어지는 과정이 여기에 해당된다. post-order traversing에 의해 첫 번째로 살펴보게 되는 node는 "James"이다. Case 1.1에 의해 "James◎노드의 RT는 James가 된다. 이후 탐색하게 되는 노드 "a"는 case 2.1에 해당하므로 아무 일도 하지 않는다. 이후 탐색되는 노드 "which"는 관계대명사이므로 그것이 가리키는 노드의 정보("company")를 자기 자신의 RT로 복사한다. 이후 탐색되는 "has"는 조동사이므로 case 2.2.4에 의해 RT가 "company", RC가 "has"가 된다. 노드 "seminar"에는 Case 1.1이 적용되고, 이는 노드 "London"에도 마찬가지이다. 노드 "in"에는 case 2.2.4가 적용된다. 8번째로 탐색되는 노드 "hold"에는 case 2.2.3.1.1이 적용되며, 9번째 노드 "company"에는 case 1.2.1이 적용되고, 마지막 노드 "visit"에는◎case 2.2.3.1.2.2가 적용되어 최종 결과를 얻게 된다In the example of FIG. 3, this is the process performed in 3. Extracting Triplets. The first node to look at by post-order traversing is "James". According to Case 1.1, the RT of the James ◎ node becomes James. The node "a" retrieved afterwards corresponds to case 2.1. It does nothing. The node "which" retrieved afterwards is a relative pronoun. Copies ("company") to its own RT, since the search for "has" is an auxiliary verb, so RT is "company" and RC is "has" by case 2.2.4. The same applies to node "London": case 2.2.4 applies to node "in", case 2.2.3.1.1 applies to node "hold", which is searched for the eighth node, and to node 9 " case "is applied to" company "and ◎ case 2.2.3.1.2.2 is applied to the last node" visit "to get the final result.

이상과 같이 본 발명에 따른 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법을 예시한 도을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시예와 도에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상 범위내에서 당업자에 의해 다양한 변형이 이루어질 수 있음은 물론이다.As described above, the automatic relation triple extraction method by searching the dependency grammar syntax tree according to the present invention has been described with reference to the drawings, but the present invention is not limited by the embodiments and the drawings disclosed herein, and the present invention. Of course, various modifications can be made by those skilled in the art within the scope of the technical idea.

도 1은 본 발명에 따른 관계 트리플 추출 순서를 도시한 순서도이다.1 is a flow chart illustrating a relation triple extraction order according to the present invention.

도 2는 Action의 개념을 사용할 때와 사용하지 않았을 때의 트리플 추출 예시이다.2 is an example of triple extraction when the concept of Action is used and when it is not used.

도 3은 전체적인 관계 추출 과정의 예시이다.3 is an example of the overall relationship extraction process.

도 4는 관계 추출 과정에서 사용된 단어들의 정의를 설명한 표이다.4 is a table illustrating definitions of words used in a relationship extraction process.

도 5는 규칙의 case 1.1의 예시이다.5 is an illustration of case 1.1 of a rule.

도 6은 규칙의 case 1.2.2의 예시이다.6 is an illustration of case 1.2.2 of the rule.

도 7은 규칙의 case 1.2.3의 예시이다.7 is an illustration of case 1.2.3 of the rule.

도 8은 규칙의 case 1.2.4의 예시이다.8 is an illustration of case 1.2.4 of the rule.

도 9는 규칙의 case 2.2.2의 예시이다.9 is an illustration of case 2.2.2 of a rule.

도 10은 규칙의 case 2.2.3.1.1의 a의 예시이다.10 is an example of a of case 2.2.3.1.1 of a rule.

도 11은 규칙의 case 2.2.3.1.1의 b의 예시이다.11 is an example of b of case 2.2.3.1.1 of a rule.

도 12는 규칙의 case 2.2.3.1.1의 c의 예시이다.12 is an example of c of case 2.2.3.1.1 of a rule.

도 13은 규칙의 case 2.2.3.1.1의 d의 예시이다.13 is an example of d of case 2.2.3.1.1 of a rule.

도 14는 규칙의 case 2.2.3.1.2.1에서 주어의 RQ가 Empty인 경우의 예시이다.14 shows an example in which the RQ of the subject is empty in case 2.2.3.1.2.1 of the rule.

도 15는 규칙의 case 2.2.3.1.2.1에서 목적어의 RQ가 Empty인 경우의 예시이다.FIG. 15 shows an example in which the RQ of the object is empty in case 2.2.3.1.2.1 of the rule.

도 16은 규칙의 case 2.2.3.1.2.2의 예시이다.16 is an illustration of case 2.2.3.1.2.2 of the rule.

Claims (11)

대상 문장을 구문 분석하여 의존 문법 구문 트리를 생성하는 제1 단계;A first step of parsing the target sentence to generate a dependent grammar syntax tree; 상기 제1 단계 후 생성된 의존 문법 구문 트리를 전처리하여 관계 추출을 위한 형태로 변환하는 제2 단계; 및,A second step of preprocessing the generated dependent grammar syntax tree after the first step and converting the dependency grammar syntax tree into a form for relationship extraction; And, 상기 제2 단계에서 변환된 의존 문법 구문 트리를 포스트오더(postorder) 방식으로 탐색하여 자동으로 관계 트리플을 추출하는 제3 단계A third step of automatically searching for the dependent triplet syntax tree converted in the second step in a postorder manner and automatically extracting the relation triple 를 포함하는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.Automatic relationship triple extraction method by searching the dependency grammar syntax tree comprising a. 청구항 1에 있어서,The method according to claim 1, 상기 제1 단계는 의존 문법 구문 분석기를 이용하여 의존 문법 구문 트리를 생성하는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.The first step is an automatic relationship triple extraction method of searching a dependency grammar syntax tree using a dependency grammar parser. 청구항 1에 있어서, 상기 제2 단계는,The method of claim 1, wherein the second step, 미리 정의된 텀 사전을 이용하여 상기 대상 문장에서 텀을 표시하고 구축하는 과정,Displaying and constructing a term in the target sentence using a predefined term dictionary; 상기 의존 문법 구문 트리에서 주어가 될 수 있는 개체명을 인식하는 과정,Recognizing a subject name that can be given in the dependent syntax syntax tree; 상기 의존 문법 구문 트리에서 To-부정사 및 동명사가 있는 경우, 이를 별도로 표시하는 과정,If there is a To-negative and the same name in the dependency grammar syntax tree, the process of displaying it separately, 상기 의존 문법 구문 트리에서 연결 접속사를 처리하는 과정,Process of connecting conjunctions in the dependent grammar syntax tree, 상기 의존 문법 구문 트리에 관계 대명사가 있는 경우, 관계 대명사를 대용할 수 있는 명사를 탐색하는 과정,Searching for a noun that can substitute for a relative pronoun when there is a relative pronoun in the dependent grammar syntax tree, 같은 동작에 대하여 2개 이상의 관계 트리플들을 하나로 묶는 데 사용할 Action을 표시하는 과정,Displaying the Action to use to group two or more relation triples together for the same action, 부정 또는 빈도의 정보를 그것이 수식하는 동사 노드에 합치는 과정The process of combining negative or frequency information with the verb node it modifies 을 포함하는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.Automatic relation triple extraction method by searching the dependency grammar syntax tree comprising a. 청구항 3에 있어서,The method according to claim 3, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사가 아닐 때, 상기 두 단어를 의존 문법 구문 트리의 하나의 노드를 묶는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.The process of processing the connected conjunction is characterized in that when the parts of two words connected to the connected conjunction are the same parts of speech and the part of the word is not a verb, the two words are bound by one node of the grammar syntax tree. Automatic relation triple extraction method by searching grammar syntax tree. 청구항 3에 있어서,The method according to claim 3, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사인 경우, 상기 동사가 모두 주어와 목적어를 각각 보유하면 문장을 나누는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.The process of processing the connected conjunction is, if the two parts of the word connected by the connected conjunction is the same part of speech, if the part of the word is a verb, the dependent grammar, characterized in that if the verbs have both the subject and the object, the sentence is divided A method of extracting automatic relation triples by searching the syntax tree. 청구항 3에 있어서,The method according to claim 3, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사인 경우, 먼저 나온 동사만 주어를 갖고 뒤에 나온 동사가 주어를 가지지 않으면 두 동사를 하나의 노드로 묶는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.The process of processing the conjunctive adjunct includes two parts of the verb connected to the conjunctive adjunct, and if the part of the word is a verb, only the first verb is given and the second verb does not have a subject. Automatic triple extraction method by searching dependent grammar syntax tree characterized by grouping by node. 청구항 3에 있어서,The method according to claim 3, 상기 연결 접속사를 처리하는 과정은, 상기 연결 접속사로 연결된 두 단어의 품사가 같고, 상기 단어의 품사가 동사인 경우, 먼저 나온 동사가 주어와 목적어를 모두 보유하고, 뒤에 나온 동사가 주어를 보유하지 않으면 주어를 복사하여 아래쪽 동사에 붙이고 두 문장을 나누는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.The process of processing the conjunctive adjunct is that if the part of speech of two words connected with the conjunctive adjunct is the same and the part of the word is a verb, the first verb holds both the subject and the object, and the later verb does not have the subject. If not, the automatic relation triple extraction method by searching the dependent grammar syntax tree characterized by copying the subject, appending it to the lower verb, and dividing the two sentences. 청구항 3에 있어서,The method according to claim 3, 상기 관계 대명사를 대용할 수 있는 명사를 탐색하는 과정은 상기 관계 대명사가 지칭하는 명사에 대하여 링크를 걸어주는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.The process of searching for a noun that can substitute for the relative pronoun is an automatic relation triple extraction method by searching for a dependency grammar syntax tree characterized by linking to a noun designated by the relative pronoun. 청구항 3에 있어서,The method according to claim 3, 상기 Action을 표시하는 과정에서, 상기 Action은 품사가 동사인 두 노드로서 주어와 목적어가 연결되어 하나 이상의 의미 관계를 가지며, 상기 두 노드를 제외한 자식 노드들 중 하나 이상의 텀을 보유하는 자식 노드가 존재하는 경우 그 노드를 Action으로 표시하는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.In the process of displaying the action, the action is two nodes in which the part-of-speech is a verb, and the subject and the object are connected to each other and have one or more semantic relations, and there is a child node having one or more terms among the child nodes except the two nodes. If it is, the automatic relationship triple extraction method by searching the dependency grammar syntax tree characterized in that the node is represented as an Action. 청구항 9에 있어서,The method according to claim 9, 상기 Action으로 표시된 노드의 동사를 동명사로 변환하여 관계 트리플을 추출하고 상기 동명사를 사용하여 인수 1 또는 인수 2를 수식하는 구조로 변환하여 표현함으로써 2개의 트리플 정보를 하나의 트리플 정보로 변환하는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.Converts the verb of the node indicated by the action into a same name verb, extracts a relation triple, and converts two triple information into one triple information by converting the expression triple into a structure that modifies the argument 1 or the argument 2 using the same name. Automatic relation triple extraction by searching dependent syntax syntax tree. 청구항 1에 있어서,The method according to claim 1, 상기 제3 단계에서 상기 의존 문법 구문 트리에 있는 각각의 노드는 Reserved Term(이하 RT), Reserved Clue(이하 RC), Relation Queue(이하 RQ)의 세가지 데이터 구조를 보유하며, 상기 RT는 하나의 텀만을 보유하며, 상기 RC는 문자열을 보유하며, 상기 RQ는 Relation Block(여기서, Relation Block은 관계 트리플이 1개 이상 모인 집합)의 리스트를 보유하는 것을 특징으로 하는 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법.In the third step, each node in the dependent grammar syntax tree has three data structures: Reserved Term (RT), Reserved Clue (RC), and Relation Queue (hereinafter RQ). Only, where RC holds a string, and RQ holds a list of Relation Blocks (where Relation Block is a set of one or more relation triples). Relationship triple extraction method.
KR1020080106383A 2008-10-29 2008-10-29 Method of extracting Triplets by searching dependency grammar setence tree KR101012504B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080106383A KR101012504B1 (en) 2008-10-29 2008-10-29 Method of extracting Triplets by searching dependency grammar setence tree
PCT/KR2009/005265 WO2010050675A2 (en) 2008-10-29 2009-09-16 Method for automatically extracting relation triplets through a dependency grammar parse tree

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080106383A KR101012504B1 (en) 2008-10-29 2008-10-29 Method of extracting Triplets by searching dependency grammar setence tree

Publications (2)

Publication Number Publication Date
KR20100047475A KR20100047475A (en) 2010-05-10
KR101012504B1 true KR101012504B1 (en) 2011-02-08

Family

ID=42129409

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080106383A KR101012504B1 (en) 2008-10-29 2008-10-29 Method of extracting Triplets by searching dependency grammar setence tree

Country Status (2)

Country Link
KR (1) KR101012504B1 (en)
WO (1) WO2010050675A2 (en)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102497539B1 (en) * 2016-01-22 2023-02-08 서울대학교산학협력단 An ontology based knowledge base construction method using semantic role labeling
CN108874778B (en) * 2018-06-15 2023-01-17 广东蔚海数问大数据科技有限公司 Semantic entity relation extraction method and device and electronic equipment
CN108920614B (en) * 2018-06-28 2021-08-20 北京奇虎科技有限公司 Method, device and system for inquiring data online
CN109241538B (en) * 2018-09-26 2022-12-20 上海德拓信息技术股份有限公司 Chinese entity relation extraction method based on dependency of keywords and verbs
KR102588185B1 (en) * 2018-09-28 2023-10-13 한국전자통신연구원 Knowledge graph-based sentence analysis method
CN110069639B (en) * 2019-04-01 2023-07-07 东华大学 Method for constructing thyroid ultrasound field ontology
CN110134762B (en) * 2019-04-23 2023-07-11 南京邮电大学 False information identification system and false information identification method based on event topic analysis
CN110502642B (en) * 2019-08-21 2024-01-23 武汉工程大学 Entity relation extraction method based on dependency syntactic analysis and rules
CN111160030B (en) * 2019-12-11 2023-09-19 北京明略软件系统有限公司 Information extraction method, device and storage medium
JP7343820B2 (en) * 2020-04-10 2023-09-13 日本電信電話株式会社 Text data analysis information generation device, text data analysis information generation method, and text data analysis information generation program using ontology
CN111651528A (en) * 2020-05-11 2020-09-11 北京理工大学 Open entity relation extraction method based on generative countermeasure network
CN112434532A (en) * 2020-11-05 2021-03-02 西安交通大学 Power grid environment model supporting man-machine bidirectional understanding and modeling method
KR102423072B1 (en) * 2020-11-26 2022-07-20 주식회사 와이즈넛 Apparatus for extracting knowledge triple based on artificial intelligent and method thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088529A (en) * 2001-08-02 2001-09-28 정회경 System and method for editing and formatting electronic document
KR20030013656A (en) * 2001-08-08 2003-02-15 한국전자통신연구원 Dynamic query language tuning system and method
KR20060064443A (en) * 2004-12-08 2006-06-13 한국전자통신연구원 Apparatus for automatic translation through 2-step syntactic analysis and method thereof
KR20080019439A (en) * 2006-08-28 2008-03-04 한국과학기술정보연구원 System and method for knowledge extension and inference service based on dbms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088529A (en) * 2001-08-02 2001-09-28 정회경 System and method for editing and formatting electronic document
KR20030013656A (en) * 2001-08-08 2003-02-15 한국전자통신연구원 Dynamic query language tuning system and method
KR20060064443A (en) * 2004-12-08 2006-06-13 한국전자통신연구원 Apparatus for automatic translation through 2-step syntactic analysis and method thereof
KR20080019439A (en) * 2006-08-28 2008-03-04 한국과학기술정보연구원 System and method for knowledge extension and inference service based on dbms

Also Published As

Publication number Publication date
WO2010050675A3 (en) 2010-06-24
KR20100047475A (en) 2010-05-10
WO2010050675A2 (en) 2010-05-06

Similar Documents

Publication Publication Date Title
KR101012504B1 (en) Method of extracting Triplets by searching dependency grammar setence tree
Siddharthan Syntactic simplification and text cohesion
US20160048504A1 (en) Conversion of interlingua into any natural language
Boguslavsky et al. Dependency treebank for Russian: Concept, tools, types of information
Bond et al. The combined wordnet bahasa
CN108665141B (en) Method for automatically extracting emergency response process model from emergency plan
JP2004070928A (en) Method and system for developing transition dictionary for use in machine translation system of transition base
US10140292B2 (en) Device and computerized method for picture based communication
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
CN106021224A (en) Bilingual discourse annotation method
Warner Ellipsis Conditions and the Status of the English Copula.
Shiwen et al. Rule-based machine translation
Borsley Constructions, functional heads and comparative correlatives
Bosch et al. Preparation and usage of Xhosa lexicographical data for a multilingual, federated environment
Mărănduc et al. A Romanian dependency treebank
Novák Coreference Resolution System Not Only for Czech.
Austin Lexical functional grammar
Pretkalniņa et al. Universal Dependency treebank for Latvian: A pilot
Krizhanovsky Transformation of Wiktionary entry structure into tables and relations in a relational database schema
Verma et al. Representation of knowledge from software requirements expressed in natural language
KR101052004B1 (en) Translation service provision method and system
Ramos et al. Using Semantically Annotated Corpora to Build Collocation Resources.
Habash et al. Hybrid natural language generation from lexical conceptual structures
Augustinus et al. The IPP effect in Afrikaans: a corpus analysis
Vitas et al. Derivational morphology in an e-dictionary of Serbian

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131231

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151229

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161227

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20200106

Year of fee payment: 10