KR101241330B1 - Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof - Google Patents

Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof Download PDF

Info

Publication number
KR101241330B1
KR101241330B1 KR1020100114364A KR20100114364A KR101241330B1 KR 101241330 B1 KR101241330 B1 KR 101241330B1 KR 1020100114364 A KR1020100114364 A KR 1020100114364A KR 20100114364 A KR20100114364 A KR 20100114364A KR 101241330 B1 KR101241330 B1 KR 101241330B1
Authority
KR
South Korea
Prior art keywords
relationship
predicate
argument
pas
pattern
Prior art date
Application number
KR1020100114364A
Other languages
Korean (ko)
Other versions
KR20120053207A (en
Inventor
정창후
최성필
최윤수
전홍우
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020100114364A priority Critical patent/KR101241330B1/en
Publication of KR20120053207A publication Critical patent/KR20120053207A/en
Application granted granted Critical
Publication of KR101241330B1 publication Critical patent/KR101241330B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

PAS(Predicate-Argument Structure, 술어-논항 구조) 기반의 어휘적 패턴을 이용한 관계 추출 방법 및 장치가 제공된다.
본 발명에 따른 개체간 관계 예측 방법은 문장의 predicate-argument(술어-논항) 관계를 분석하여 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS 패턴을 얻는 과정; 상기 추출된 predicate-argument 패턴을 참조하여 predicate 단어와 argument 단어, predicate의 종류, 그리고 predicate와 argument 사이의 관계 레이블을 이용하여 자질벡터를 생성하는 과정; 상기 자질벡터를 기계학습기에 입력하여 개체간의 의미적 연관관계를 식별하는 과정을 포함하는 것을 특징으로 한다.
본 발명에 따른 관계 식별 방법 및 장치는 문장의 의미가 핵심 역할을 수행하는 정보추출, 자동요약, 질의응답과 같은 고수준 자연어 처리 애플리케이션에서 PAS 패턴은 유용하게 사용될 수 있다.
Provided are a method and apparatus for extracting a relationship using a lexical pattern based on a PAS (Predicate-Argument Structure).
According to an embodiment of the present invention, there is provided a method of predicting a relationship between objects to obtain a PAS pattern representing a significant relationship between two entities in a sentence by analyzing a predicate-argument relationship of a sentence; Generating a feature vector by using the extracted predicate-argument pattern by using a predicate word, an argument word, a kind of predicate, and a relationship label between the predicate and the argument; And inputting the feature vector into a machine learner to identify semantic relations between objects.
In the method and apparatus for identifying a relationship according to the present invention, the PAS pattern may be usefully used in a high-level natural language processing application such as information extraction, automatic summary, and question and answer, in which the meaning of a sentence plays a key role.

Description

술어-논항구조 기반의 관계 식별 방법 및 장치{Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof}Method for recognizing relation based on predicate-argument structure (PAS) and apparatus approximately}

본 발명은 문서 내에 존재하는 개체들 간의 관계를 식별하는 방법에 관한 것으로서, 더욱 상세하게는 PAS(Predicate-Argument Structure, 술어-논항 구조) 기반의 어휘적 패턴을 이용한 관계 식별 방법 및 장치에 관한 것이다.
The present invention relates to a method of identifying a relationship between entities existing in a document, and more particularly, to a method and apparatus for identifying a relationship using a lexical pattern based on a predicate-argument structure (PAS). .

자연어 처리 및 텍스트 마이닝 분야에서 정보 추출(Information Extraction)은 핵심적인 영역으로 인식되고 있다. 정보 추출의 최종 목표는 비정형적인 텍스트 데이터 내에서 테이블화된 정형 데이터를 추출 및 변환하기 위해서 텍스트 내에 존재하는 중요하고 연관성 있는 정보를 식별하는 것이다. 이러한 정보 추출 기술을 구성하는 요소 기술로서 (1) 개체명 인식(Named-Entity Recognition), (2) 관계 추출(Relation Extraction), (3) 대용어 참조 해소(Co-reference Resolution)가 있다. 이 중 관계 추출은 현재까지도 가장 난이도가 높은 미해결 분야로 인식되고 있다.Information extraction is a key area in natural language processing and text mining. The final goal of information extraction is to identify important and relevant information present in the text to extract and transform the tabular structured data within the unstructured text data. The element technologies constituting such information extraction techniques include (1) Named-Entity Recognition, (2) Relationship Extraction, and (3) Co-reference Resolution. Among these, relationship extraction is recognized as the most difficult unsolved field to date.

현재까지 관계추출의 성능을 높이기 위해서 다양한 지도 학습(Supervised Learning) 기반의 관계 추출 기법이 소개되었다. 이들은 (1) 규칙기반 방법(Rule-based Methods), (2) 자질기반 방법(Feature-based Methods), (3) 커널기반 방법(Kernel-based Methods)의 세 가지 유형으로 분류될 수 있다. So far, various supervised learning based relationship extraction techniques have been introduced to improve the performance of relationship extraction. They can be classified into three types: (1) rule-based methods, (2) feature-based methods, and (3) kernel-based methods.

이들 중 비교적 최근에 개발된 방법으로서, 관계추출에 특화된 커널 함수를 새롭게 구성하여 이를 기반으로 SVM(Support Vector Machine)에 적용하는 커널기반 방법의 효과가 주목받고 있다. 관계추출 분야에서 커널기반 방법의 특징은 한 문장에 존재하는 두 개체간의 관계를 가장 잘 표현하고, 이를 포함하는 두 관계 포함 문장들 간의 유사도를 가장 효과적으로 계산하는 커널을 구성하기만 하면, 그 성능이 매우 높게 나타난다는 것이다.As a relatively recently developed method, the effects of a kernel-based method of newly constructing a kernel function specialized for relation extraction and applying it to a support vector machine (SVM) are attracting attention. The characteristics of kernel-based methods in the field of relation extraction are that the performance of the kernel is best represented by constructing a kernel that best expresses the relationship between two entities in a sentence, and calculates the similarity between two relation-containing statements that includes it most effectively. It is very high.

본 발명에서는 PAS(Predicate-Argument Structure, 술어-논항 구조) 패턴 기반의 어휘 자질들을 활용하여 관계 추출 성능을 향상시키는 방법을 제시한다.
The present invention proposes a method for improving relation extraction performance using lexical features based on PAS (Predicate-Argument Structure) pattern.

본 발명은 문장 내에 존재하는 개체들 사이의 관계를 유의미하게 표현해주는 PAS 패턴을 활용하여 관계를 예측하는 방법을 제공하는 것을 그 목적으로 한다. An object of the present invention is to provide a method for predicting a relationship by using a PAS pattern that significantly represents a relationship between entities existing in a sentence.

본 발명의 다른 목적을 상기의 방법에 적합한 장치를 제공하는 것에 있다.Another object of the present invention is to provide an apparatus suitable for the above method.

상기의 목적을 달성하기 위한 본 발명에 따른 개체간 관계 식별 방법은In order to achieve the above object, a method of identifying relationships between entities according to the present invention is

문장 내에 존재하는 두 개체간의 관계 식별 방법에 있어서,In the method of identifying a relationship between two entities in a sentence,

문장의 predicate-argument(술어-논항) 관계를 분석하여 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS 패턴을 얻는 과정;Analyzing a predicate-argument relationship of a sentence to obtain a PAS pattern representing a meaningful relationship between two entities in the sentence;

상기 추출된 PAS 패턴을 참조하여 predicate 단어와 argument 단어, predicate의 종류, 그리고 predicate와 argument 사이의 관계 레이블을 이용하여 자질벡터를 생성하는 과정;Generating a feature vector by referring to the extracted PAS pattern by using a predicate word, an argument word, a kind of predicate, and a relationship label between the predicate and the argument;

상기 자질벡터를 기계학습기에 입력하여 개체간의 의미적 연관관계를 식별하는 과정을 포함하는 것을 특징으로 한다.And inputting the feature vector into a machine learner to identify semantic relations between objects.

여기서, HPSG(Head-Driven Phrase Structure Grammar)를 사용하는 파서를 이용하여 문장의 predicate-argument 관계를 분석하는 것을 특징으로 한다.Here, the predicate-argument relationship of the sentence may be analyzed by using a parser using a head-driven structure structure grammar (HPSG).

또한, 상기 기계학습기는 SVM(Support Vector Machine)의 RBF(Radias Basis Function)인 것을 특징으로 한다.In addition, the machine learning machine is characterized in that the RBF (Radias Basis Function) of the SVM (Support Vector Machine).

상기의 다른 목적을 달성하기 위한 본 발명에 따른 개체간 관계 식별 장치는Apparatus for identifying a relationship between entities according to the present invention for achieving the above another object is

문장 내에 존재하는 두 개체간의 관계 식별 장치에 있어서,In the apparatus for identifying a relationship between two entities in a sentence,

문장의 predicate-argument 관계를 분석하여 두 개체를 연결하는 predicate-argument 관계 그래프를 얻는 파서;A parser that analyzes the predicate-argument relationship of a statement and obtains a predicate-argument relationship graph connecting the two entities;

상기 파서의 출력으로부터 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS만을 추출하여 PAS 패턴을 구성하는 PAS 패턴 추출기;A PAS pattern extractor configured to extract a PAS representing a significant relationship between two entities existing in a sentence from the output of the parser to form a PAS pattern;

상기 PAS 패턴 상에서 연결되는 predicate 단어와 argument 단어, predicate의 종류, 그리고 predicate와 argument 사이의 관계 레이블을 이용하여 자질 벡터를 생성하는 자질 벡터 생성기;A feature vector generator for generating a feature vector using a predicate word and an argument word connected on the PAS pattern, a kind of predicate, and a relationship label between the predicate and the argument;

상기 자질 벡터를 이용하여 관계 추출 모델을 생성하는 관계 모델 학습기; 및A relationship model learner for generating a relationship extraction model using the feature vectors; And

상기 관계 추출 모델과 실행 집합으로부터 생성된 자질 벡터를 이용하여 두 개체 사이의 관계를 예측하는 관계 예측기를 포함하는 것을 특징을 한다.And a relationship predictor for predicting the relationship between the two entities using the feature vector generated from the relationship extraction model and the execution set.

본 발명에 따른 관계 인식 장치는 개체의 고유한 특성 정보를 이용하여 개체가 가지고 있는 중요한 식별 정보를 추출하는 개체 자질 추출기를 더 구비하며, 여기서, 상기 자질 벡터 생성기는 상기 PAS 패턴 추출기와 개체 자질 추출기의 결과를 이용하여 최종적인 자질 벡터를 구성하는 것을 특징으로 한다.
The apparatus for recognizing a relationship according to the present invention further includes an object feature extractor for extracting important identification information of an object using unique property information of the object, wherein the feature vector generator includes the PAS pattern extractor and the object feature extractor. The final feature vector is constructed using the result of.

본 발명의 관계 식별 방법 및 장치는 문장을 구성하는 각 단어에 대한 predicate-argument 관계를 이용하여 문장 내에 존재하는 각 단어 간의 유의미한 관계를 표현하고 있는 PAS 구조를 자질 벡터로 사용하여 문장에 있는 단어들 사이의 의미적 연관관계를 파악할 수 있는 효과를 갖는다. The relationship identification method and apparatus of the present invention uses a PAS structure expressing a significant relationship between each word present in a sentence using a predicate-argument relationship for each word constituting the sentence, as a feature vector. It has the effect of grasping the semantic relation between them.

따라서, 본 발명에 따른 관계 식별 방법 및 장치는 문장의 의미가 핵심 역할을 수행하는 정보추출, 자동요약, 질의응답과 같은 고수준 자연어 처리 애플리케이션에서 유용하게 사용될 수 있다.
Accordingly, the method and apparatus for identifying a relationship according to the present invention can be usefully used in high-level natural language processing applications such as information extraction, automatic summaries, and question and answer, in which the meaning of sentences plays a key role.

도 1은 본 발명에 따른 관계 식별 방법을 보이는 흐름도이다.
도 2는 Enju 파서를 이용한 문장 분석 결과의 예를 도시한다.
도 3은 Enju 파서에서 제공된 결과를 이용하여 얻어지는 각 단어의 predicate-argument 관계 그래프를 도시한다.
도 4는 도 3에 도시된 관계그래프로부터 실제적으로 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS만을 추출하여 패턴을 구성한 것을 도시한다.
도 5는 본 발명에서 개발된 PAS 기반의 관계 식별 장치의 구성을 도시한다.
1 is a flowchart illustrating a relationship identification method according to the present invention.
2 shows an example of sentence analysis results using the Enju parser.
Figure 3 shows a predicate-argument relationship graph of each word obtained using the results provided by the Enju parser.
FIG. 4 illustrates a configuration of a pattern by extracting only PAS representing a meaningful relationship between two entities actually present in a sentence from the relationship graph shown in FIG. 3.
5 illustrates a configuration of the PAS-based relationship identification device developed in the present invention.

PAS는 predicate-argument 관계를 이용하여 문장 내에 존재하는 각 단어 간의 유의미한 연관관계를 표현하는 구조이다. 그리고 PAS 패턴은 문장을 구성하는 모든 단어에 대한 predicate-argument 관계 그래프에서, 중요하게 지정된 개체와 개체를 연결하는 최소 집합의 predicate-argument로 구성된 순서 열을 의미한다. PAS is a structure that expresses a significant association between each word in a sentence using a predicate-argument relationship. In addition, the PAS pattern refers to an ordered sequence consisting of a minimum set of predicate-arguments that connect objects with important objects in a predicate-argument relationship graph for all words constituting the sentence.

이러한 특성 때문에 PAS 패턴은 문장 내에서 상호작용하는 두 개체 간의 연관 관계를 표현해주는 중요한 자질 정보가 된다. 따라서 한 개체로부터 시작해서 다른 개체로까지의 의미적 연결고리를 제공해주는 PAS 패턴을 이용하여 관계 식별을 수행할 수 있다.Because of these characteristics, the PAS pattern becomes important feature information that expresses the association between two entities interacting within a sentence. Thus, relationship identification can be performed using the PAS pattern, which provides a semantic link from one entity to another.

도 1은 본 발명에 따른 관계 식별 방법을 보이는 흐름도이다. 도 1을 참조하면, 본 발명에 따른 관계 인식 방법은 파서를 이용하여 predicate-argument 관계 그래프를 얻는 과정(s102), predicate-argument 관계 그래프로부터 PAS 패턴을 얻는 과정(s104), PAS 패턴으로부터 자질벡터를 생성하는 과정(s106) 그리고 자질 벡터를 이용하여 개체간의 의미적 연관 관계를 식별하는 과정(s108)을 포함한다.1 is a flowchart illustrating a relationship identification method according to the present invention. Referring to FIG. 1, in the relation recognition method according to the present invention, a process of obtaining a predicate-argument relationship graph using a parser (s102), a process of obtaining a PAS pattern from a predicate-argument relationship graph (s104), and a feature vector from the PAS pattern Generating (S106) and identifying a semantic association between the entities using the feature vector (S108).

s102과정에서는 문장의 predicate-argument 관계를 분석하여 predicate-argument 관계 그래프를 얻는다. 본 발명에서는 Enju 파서를 이용하여 문장을 분석하였다. Enju 파서는 Tokyo 대학 Computer Science부의 Tsujii laboratory에서 개발한 HPSG를 사용하는 파서이다. In step s102, a predicate-argument relationship graph is obtained by analyzing a predicate-argument relationship of a sentence. In the present invention, the sentence was analyzed using the Enju parser. The Enju parser is an HPSG parser developed by the Tsujii laboratory of the University of Tokyo's Computer Science.

도 2는 Enju 파서를 이용한 문장 분석 결과의 예를 도시한다. 2 shows an example of sentence analysis results using the Enju parser.

도 2를 참조하면, Enju 파서는 문장을 입력으로 받아서 문장을 구성하는 각 단어의 predicate-argument 관계를 분석하여 제공한다. 행으로 나열된 predicate-argument 분석 결과의 각 필드에 대한 설명은 아래의 표와 같다.Referring to FIG. 2, the Enju parser receives a sentence as an input and analyzes and provides a predicate-argument relationship of each word constituting the sentence. The table below describes each field of the result of predicate-argument analysis.

열 번호Column number 상세 설명detailed description 1One predicate 단어predicate word 22 predicate 단어의 기본형the basic form of a predicate word 33 predicate 단어의 품사parts of predicate words 44 predicate 단어의 기본형의 품사Part-of-speech of the basic form of a predicate word 55 문장에서 predicate 단어의 위치Position of predicate word in sentence 66 predicate 종류 predicate types 77 predicate와 argument 사이의 관계 레이블Label of relationship between predicate and argument 88 argument 단어argument word 99 argument 단어의 기본형argument base type 1010 argument 단어의 품사argument The part of speech of the word 1111 argument 단어의 기본형의 품사argument The part-of-speech of the base type of the word 1212 문장에서 argument 단어의 위치Position of word argument in sentence

상기의 표에서 설명한 내용을 바탕으로 “Radon_exposure is the second leading cause of lung_cancer in the general population.” 문장에 대한 분석 결과인 도 2의 2번째 행과 3번째 행을 설명하면, 우선 단어 ‘is’는 동사로서 argument 1과 2를 갖는데 그 중 argument 1은 명사인 단어 ‘radon_exposure’를 지칭하고 argument 2는 또 다른 명사인 단어 ‘cause’를 지칭한다는 사실을 나타낸다. Referring to the second and third row of FIG. 2, which is an analysis result of the sentence “Radon_exposure is the second leading cause of lung_cancer in the general population.” It has arguments 1 and 2 as verbs, of which argument 1 refers to the noun word radon_exposure and argument 2 refers to the other noun word cause.

분석 결과의 1번째 행은 단순히 문장의 root predicate를 표현하는 것이고, 4번째 행부터는 2번째와 3번째 행을 해석한 것과 같은 방식으로 해석하면 된다.The first line of the analysis simply expresses the root predicate of the statement, and the fourth line can be interpreted in the same way as the second and third lines.

도 3은 Enju 파서에서 제공된 결과를 이용하여 얻어지는 각 단어의 predicate-argument 관계 그래프를 도시한다.Figure 3 shows a predicate-argument relationship graph of each word obtained using the results provided by the Enju parser.

s104과정에서는 predicate-argument 관계 그래프로부터 문장 내에 존재하는 두 개체간의 유의미한 관계를 표현하는 PAS만을 추출하여 PAS 패턴을 구성한다.In step s104, the PAS pattern is constructed by extracting only the PAS representing a meaningful relationship between two entities in the sentence from the predicate-argument relationship graph.

도 4는 도 3에 도시된 관계그래프로부터 실제적으로 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS만을 추출하여 패턴을 구성한 것을 도시한다. 도 4를 참조하면, 화살표의 연결은 한 개체로부터 상호작용하는 다른 개체로까지의 predicate-argument 관계를 추적할 수 있다는 것을 의미한다. FIG. 4 illustrates a configuration of a pattern by extracting only PAS representing a meaningful relationship between two entities actually present in a sentence from the relationship graph shown in FIG. 3. Referring to FIG. 4, the linking of the arrows means that the predicate-argument relationship can be tracked from one entity to another interacting entity.

따라서 ‘radon_exposure’와 ‘lung_cancer’ 사이의 관계를 추적해보면 ‘is cause of’와 같은 중요한 어휘적 패턴을 기반으로 관계가 형성되어 있음을 알 수 있다. 다시 한 번 말하지만, 이러한 패턴은 두 개체 간의 상호작용을 식별하는데 중요한 자질로 사용될 수 있다.Therefore, if we trace the relationship between radon_exposure and lung_cancer, we can see that the relationship is formed based on an important lexical pattern such as is cause of. Again, this pattern can be used as an important feature in identifying interactions between two entities.

결과적으로 개체 1과 개체 2의 관계는 두 개체를 유의미한 관계로 연결해주는 PAS 패턴에 의하여 식별될 수 있다. As a result, the relationship between entity 1 and entity 2 can be identified by the PAS pattern connecting the two entities in a meaningful relationship.

따라서 관계별로 나타나는 패턴의 집합을 구축하여 이 패턴 집합을 관계 예측의 근거 자질로 활용하면 개체 간의 관계를 추출하는 관계 추출 시스템에 활용할 수 있다.Therefore, by constructing a set of patterns that appear for each relationship and using the set of patterns as a basis for relationship prediction, it can be used for a relationship extraction system that extracts relationships between objects.

s106과정에서는 PAS 패턴으로부터 기계학습을 위한 자질벡터를 생성한다. PAS 패턴을 어휘 자질로 활용하기 위해서, 본 발명에서는 predicate-argument 구조, 즉 도 4에서 화살표로 연결되는 predicate 단어와 argument 단어, predicate의 종류, 그리고 predicate와 argument 사이의 관계 레이블을 이용하여 벡터 값을 생성하였다. In step s106, feature vectors for machine learning are generated from the PAS pattern. In order to use the PAS pattern as a lexical feature, the present invention uses a predicate-argument structure, that is, a vector value using a predicate word, an argument word connected by an arrow in FIG. 4, a kind of predicate, and a relation label between the predicate and the argument. Generated.

s108과정에서는 생성된 자질 벡터를 이용하여 기계학습을 수행하여 관계 식별을 수행한다. 본 발명에서는 이 벡터 값을 SVM(Support Vector machine)의 내장 커널 중 하나인 RBF(Radial Basis Function) 커널을 이용하여 관계 식별을 수행하였다.In step s108, machine learning is performed using the generated feature vector to perform relationship identification. In the present invention, relationship identification was performed using the Radial Basis Function (RBF) kernel, which is one of the built-in kernels of the support vector machine (SVM).

도 5는 본 발명에서 개발된 PAS 기반의 관계 식별 장치의 구성을 도시한다. 도 5를 참조하면, 본 발명에 따른 PAS 기반의 관계 식별 장치는 통합자질 처리 모듈(100) 및 SVM 모듈(200)을 포함한다.5 illustrates a configuration of the PAS-based relationship identification device developed in the present invention. Referring to FIG. 5, the PAS-based relationship identification apparatus according to the present invention includes an integrated feature processing module 100 and an SVM module 200.

통합자질 처리 모듈(100)은 기반 언어 분석 도구로서 구문 분석기(Parser, 104), 기저구 인식기(Chunker, 112), 품사 태거(POS-tagger, 114)를 사용하였다. 다양한 형태의 언어자질 추출을 위해서 기저구 인식기(112) 및 품사 태거(114)를 독립적으로 개발하여 시스템에 결합하였고, 구문 분석기(104)는 Enju Parser를 도입하여 시스템에 이식시켰다. The integrated feature processing module 100 used a parser (Parser, 104), a basal phrase recognizer (Chunker, 112), and a part-of-speech tag (POS-tagger, 114). In order to extract various types of language features, the basal recognizer 112 and the part of speech tagger 114 were independently developed and combined with the system, and the parser 104 introduced Enju Parser and implanted into the system.

통합 자질 처리 모듈(100)은 이렇게 개발된 언어 분석 도구를 이용하여 기계 학습을 위한 자질 벡터를 생성한다. 구문 분석기(104)를 이용하는 PAS 패턴 추출기(106)는 문장의 predicate-argument 관계를 분석하여 두 개체를 연결하는 PAS 패턴을 추출한다. The integrated feature processing module 100 generates feature vectors for machine learning using the language analysis tool developed as described above. The PAS pattern extractor 106 using the parser 104 analyzes a predicate-argument relationship of sentences and extracts a PAS pattern connecting two entities.

그리고 개체 자질 추출기(116)는 개체의 고유한 특성 정보를 이용하여 개체가 가지고 있는 중요한 식별 정보를 추출한다. PAS 패턴 추출기(106)와 개체 자질 추출기(116)의 결과를 이용하여 통합 자질 처리 모듈은 최종적인 자질 벡터를 구성한다. 그렇지만, 학습 집합(102)이나 실행 집합(110)에서 개체의 특성 정보가 존재하지 않는 경우에는 PAS 패턴 단독으로 자질 벡터를 구성할 수도 있다. The object feature extractor 116 extracts important identification information of the object by using the characteristic information of the object. Using the results of the PAS pattern extractor 106 and the object feature extractor 116, the integrated feature processing module constructs the final feature vector. However, when the characteristic information of the entity does not exist in the learning set 102 or the execution set 110, the feature vector may be configured by the PAS pattern alone.

이렇게 구성된 자질 벡터는 기계학습 알고리즘인 SVM(Support Vector Machine) 모듈(200)의 내장(built-in) 커널(202)을 이용한 관계모델 학습기(204)와 관계 예측기(208)의 입력으로 사용된다. 관계모델 학습기(204)는 학습 집합으로부터 생성된 자질 벡터를 이용하여 관계추출 모델(206)을 생성하고, 관계 예측기(208)는 관계추출 모델(206)과 통합자질 처리모듈(100)로부터 생성된 자질 벡터를 이용하여 실제적으로 두 개체 사이의 관계가 무엇인지를 예측한다.The feature vectors configured as described above are used as inputs of the relationship model learner 204 and the relationship predictor 208 using the built-in kernel 202 of the SVM module 200, which is a machine learning algorithm. The relationship model learner 204 generates a relationship extraction model 206 using the feature vectors generated from the training set, and the relationship predictor 208 generates the relationship extraction model 206 and the integrated feature processing module 100. Use the feature vectors to predict what the relationship between the two entities really is.

< 실시예><Example>

PAS 패턴이 관계 예측의 유용한 자질로 활용될 수 있는지의 가능성을 검사해보기 위해서 AIMed 컬렉션을 대상으로 다음과 같이 실험을 수행하였다.In order to examine the possibility that the PAS pattern can be used as a useful feature of relationship prediction, the following experiments were conducted on the AIMed collection.

첫 번째로 개체 간의 유의미한 관계를 표현해주는 모든 PAS 패턴을 대상으로 관계 식별 실험을 수행하였다. 여기서 대상으로 삼은 패턴은 어휘적 패턴뿐만 아니라 괄호나 쉼표와 같은 기호적 패턴까지도 포함하였다.  First, a relationship identification experiment was performed on all PAS patterns that express meaningful relationships among individuals. The pattern targeted here included not only lexical patterns but also symbolic patterns such as parentheses and commas.

두 번째로 개체 간의 유의미한 관계가 가장 잘 표현되는 동사구가 포함된 패턴만을 대상으로 실험을 수행하였다. 동사구를 일정 수준 이상으로 추상화하면 관계 종류가 될 정도로 동사구는 관계 식별에 중요한 단서가 될 수 있다.Second, experiments were conducted on only patterns containing verb phrases that best represented significant relationships among individuals. If a verb phrase is abstracted above a certain level, the verb phrase can be an important clue for identifying a relationship so that it becomes a kind of relationship.

libsvm을 이용하여 위에서 제시한 두 가지 실험을 수행하였는데, 실험 결과는 표 2와 같다.The two experiments presented above were performed using libsvm, and the experimental results are shown in Table 2.

옵션 값Option value 결과 값Result value costcost gammagamma accuracyaccuracy 모든 패턴All patterns 512.0512.0 0.00781250.0078125 86.247886.2478 동사구포함패턴Pattern containing verbs 8.08.0 0.50.5 87.149987.1499

본 실시예를 통해서, 개체 간의 관계를 추출할 때 두 개체를 연결하는 PAS 패턴이 아주 유용한 단서가 될 수 있음을 파악하였고, 더불어서 동사구와 같은 핵심 단어가 포함된 패턴이 성능 향상에 좀 더 기여할 수 있음을 확인하였다. 따라서 관계 추출 시스템을 개발할 때 본 발명을 통하여 얻어진 결과들을 활용하면 좀 더 성능 좋은 관계 추출 시스템을 개발할 수 있다.Through this embodiment, we found that the PAS pattern that connects two entities can be a very useful clue when extracting the relationship between entities. In addition, patterns containing key words such as verb phrases can contribute more to performance. It was confirmed that there is. Therefore, when developing a relationship extraction system, a better performance relationship extraction system can be developed by utilizing the results obtained through the present invention.

본 발명에서는 문장 내에 존재하는 개체 간의 유의미한 관계를 표현해주는 PAS 패턴을 활용하여 관계 추출 시스템을 개발하였고, 실험을 통하여 PAS 패턴이 관계 추출을 위한 중요한 자질로 활용될 수 있음을 증명하였다.In the present invention, a relationship extraction system was developed using a PAS pattern expressing a meaningful relationship between entities in a sentence, and through experiments, it was proved that the PAS pattern could be used as an important feature for relationship extraction.

향후 연구로는 본 발명에서 증명한 PAS 패턴의 관계 식별력을 기존의 다른 자질 활용 방법, 예를 들면 구문트리의 유사성을 이용하는 방법과 결합하여 혼합 커널을 구성하는 방법에 대한 연구가 필요하다. In the future, a study on a method of constructing a mixed kernel by combining the relationship discrimination power of the PAS pattern demonstrated in the present invention with other existing methods of utilizing features, for example, using the similarity of syntax trees, is required.

구문적 유사성을 활용하는 구문트리 기법과 의미적 유사성을 활용하는 PAS 패턴 기법을 결합하면 보다 성능 좋은 관계 추출 시스템을 개발할 수 있을 것으로 사료된다.By combining the syntax tree technique using syntactic similarity and the PAS pattern technique using semantic similarity, we can develop a better relation extraction system.

100...통합자질 처리모듈 200...SVM 모듈
102...학습집합 104...구문분석기
106...PAS 패턴 추출기 108...자질벡터 생성기
110...실행집합 112...기저구인식기
114...품사태거 116...개체자질 추출기
202...내장 커널 204...관계모델 학습기
206...관계추출모델 208...관계 예측기
100 ... Integrated Quality Processing Module 200 ... SVM Module
102 Learning Set 104 Parser
106 ... PAS Pattern Extractor 108 ... Feature Vector Generator
110.Run Set 112 ... Basic Recognizer
114 ... 116 ... Object Feature Extractor
202 Built-in kernel 204 Relationship model learner
206 Relationship Extraction Model 208 Relationship Predictor

Claims (5)

문장의 predicate-argument(술어-논항) 관계를 분석하여 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS 패턴을 추출하는 과정;
추출된 PAS 패턴을 참조하여 predicate 단어와 argument 단어, predicate의 종류, 그리고 predicate와 argument 사이의 관계 레이블을 이용하여 자질벡터를 생성하는 과정; 및
상기 자질벡터를 관계별로 나타나는 PAS 패턴의 집합으로부터 구축된 관계 추출 모델을 가지는 기계학습기에 입력하여 개체간의 의미적 연관관계를 식별하는 과정을 포함하는 관계 식별 방법.
Analyzing a predicate-argument relationship of a sentence and extracting a PAS pattern representing a meaningful relationship between two entities in the sentence;
Generating a feature vector by referring to the extracted PAS pattern by using a predicate word, an argument word, a kind of predicate, and a relationship label between the predicate and the argument; And
And inputting the feature vector into a machine learner having a relationship extraction model constructed from a set of PAS patterns appearing for each relationship to identify semantic relations between entities.
제1항에 있어서,
HPSG(Head-Driven Phrase Structure Grammar)를 사용하는 파서를 이용하여 문장의 predicate-argument 관계를 분석하는 것을 특징으로 하는 관계 식별 방법.
The method of claim 1,
A relationship identification method comprising analyzing a predicate-argument relationship of a sentence using a parser using a head-driven structure structure gradient (HPSG).
제1항에 있어서,
상기 기계학습기는 SVM(Support Vector Machine)의 RBF(Radias Basis Function)인 것을 특징으로 하는 관계 식별 방법.
The method of claim 1,
The machine learner is a relationship identification method, characterized in that the RBF (Radias Basis Function) of the SVM (Support Vector Machine).
문장의 predicate-argument 관계를 분석하여 두 개체를 연결하는 predicate-argument 관계 그래프를 얻는 파서;
상기 파서의 출력으로부터 문장 내에 존재하는 두 개체 간의 유의미한 관계를 표현하는 PAS만을 추출하여 PAS 패턴을 구성하는 PAS 패턴 추출기;
상기 PAS 패턴상에서 연결되는 predicate 단어와 argument 단어, predicate의 종류, 그리고 predicate와 argument 사이의 관계 레이블을 이용하여 자질 벡터를 생성하는 지질 벡터 생성기;
상기 자질 벡터 및 관계별로 나타나는 PAS 패턴의 집합으로부터 관계 추출 모델을 생성하는 관계 모델 학습기; 및
상기 관계 추출 모델과 실행 집합으로부터 생성된 자질 벡터를 이용하여 두 개체 사이의 관계를 예측하는 관계 예측기를 포함하는 관계 식별 장치.
A parser that analyzes the predicate-argument relationship of a statement and obtains a predicate-argument relationship graph connecting the two entities;
A PAS pattern extractor configured to extract a PAS representing a significant relationship between two entities existing in a sentence from the output of the parser to form a PAS pattern;
A lipid vector generator for generating a feature vector using a predicate word and an argument word connected on the PAS pattern, a kind of predicate, and a relationship label between the predicate and the argument;
From the set of PAS patterns appearing for each feature vector and relationship A relationship model learner for generating a relationship extraction model; And
And a relationship predictor for predicting a relationship between two entities using the feature vector generated from the relationship extraction model and the execution set.
제4항에 있어서,
개체의 고유한 특성 정보를 이용하여 개체가 가지고 있는 중요한 식별 정보를 추출하는 개체 자질 추출기를 더 구비하며,
여기서, 상기 자질 벡터 생성기는 상기 PAS 패턴 추출기와 개체 자질 추출기의 결과를 이용하여 최종적인 자질 벡터를 구성하는 것을 특징으로 하는 관계 식별 장치.
5. The method of claim 4,
It further comprises an object feature extractor for extracting important identification information of the object using the unique characteristic information of the object,
Wherein the feature vector generator configures a final feature vector using the results of the PAS pattern extractor and the feature feature extractor.
KR1020100114364A 2010-11-17 2010-11-17 Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof KR101241330B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100114364A KR101241330B1 (en) 2010-11-17 2010-11-17 Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100114364A KR101241330B1 (en) 2010-11-17 2010-11-17 Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof

Publications (2)

Publication Number Publication Date
KR20120053207A KR20120053207A (en) 2012-05-25
KR101241330B1 true KR101241330B1 (en) 2013-03-11

Family

ID=46269475

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100114364A KR101241330B1 (en) 2010-11-17 2010-11-17 Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof

Country Status (1)

Country Link
KR (1) KR101241330B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101396131B1 (en) 2013-11-18 2014-05-19 한국과학기술정보연구원 Apparatus and method for measuring relation similarity based pattern

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101644044B1 (en) * 2015-02-24 2016-08-01 한국과학기술원 System and method for concept and relation paraphrasing
KR101663673B1 (en) * 2015-06-16 2016-10-14 한림대학교 산학협력단 The method and apparatus for analyzing sentence based on semantic role labeling using 2 step analyzing procedure
WO2017122904A1 (en) * 2016-01-11 2017-07-20 한국과학기술원 Open information extraction method and system for extracting reified ternary relationship
KR101813683B1 (en) * 2016-08-17 2017-12-29 창원대학교 산학협력단 Method for automatic correction of errors in annotated corpus using kernel Ripple-Down Rules
KR101882585B1 (en) * 2016-11-29 2018-07-26 한양대학교 산학협력단 Method and system for classifying natural language sentence/paragraph readability in educational environment for hri
CN108182175B (en) * 2017-12-29 2021-01-05 中国银联股份有限公司 Text quality index obtaining method and device
KR102143745B1 (en) * 2018-10-11 2020-08-12 주식회사 엔씨소프트 Method and system for error correction of korean using vector based on syllable
KR102236639B1 (en) * 2020-07-27 2021-04-06 주식회사 엔씨소프트 Method and system for error correction of korean using vector based on syllable

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A. Yakushiji et. al., ‘Automatic Construction of Predicate-argument Structure Patterns for Biomedical Information Extraction,' In Proc. of the 2006 CEM in NLP, pp. 284-292. 2006.07.22.
A. Yakushiji et. al., 'Automatic Construction of Predicate-argument Structure Patterns for Biomedical Information Extraction,' In Proc. of the 2006 CEM in NLP, pp. 284-292. 2006.07.22. *
박경미, 문영성, ‘부분 구문 분석 결과에 기반한 두 단계 부분 의미 분석 시스템,’ 정보처리학회논문지, vol. 17-B, no. 1, pp. 85-92, 2010.02.31.
박경미, 문영성, '부분 구문 분석 결과에 기반한 두 단계 부분 의미 분석 시스템,' 정보처리학회논문지, vol. 17-B, no. 1, pp. 85-92, 2010.02.31. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101396131B1 (en) 2013-11-18 2014-05-19 한국과학기술정보연구원 Apparatus and method for measuring relation similarity based pattern

Also Published As

Publication number Publication date
KR20120053207A (en) 2012-05-25

Similar Documents

Publication Publication Date Title
KR101241330B1 (en) Method for recognizing relation based on PAS(Predicate-Argument Structure) and apparatus thereof
US9697477B2 (en) Non-factoid question-answering system and computer program
Gupta et al. Analyzing the dynamics of research by extracting key aspects of scientific papers
de Caseli et al. Alignment-based extraction of multiword expressions
Yıldırım et al. The impact of NLP on Turkish sentiment analysis
US10275454B2 (en) Identifying salient terms for passage justification in a question answering system
Besançon et al. LIMA: A Multilingual Framework for Linguistic Analysis and Linguistic Resources Development and Evaluation.
US9678941B2 (en) Domain-specific computational lexicon formation
Antony et al. Kernel based part of speech tagger for kannada
Ogren et al. ClearTK: A UIMA toolkit for statistical natural language processing
Pal et al. Automatic building and using parallel resources for SMT from comparable corpora
Bechara et al. Miniexperts: An svm approach for measuring semantic textual similarity
Reshadat et al. A new open information extraction system using sentence difficulty estimation
Agerri et al. Developing new linguistic resources and tools for the Galician language
Sammons et al. Illinois CCG TAC 2015 Event Nugget, Entity Discovery and Linking, and Slot Filler Validation Systems.
Kim et al. Extracting clinical relations in electronic health records using enriched parse trees
KR20120048101A (en) Apparatus and method for contructing verbal phrase translation pattern using bilingual paraelle corpus
Pham et al. A hybrid approach for biomedical event extraction
Kumar et al. Punjabi to UNL enconversion system
Ketui et al. A rule-based method for thai elementary discourse unit segmentation (ted-seg)
Mohseni et al. A Persian Part-Of-Speech Tagger Based on Morphological Analysis.
Stoyanova et al. Wordnet-based cross-language identification of semantic relations
Chitra et al. Genetic algorithm based feature selection for paraphrase recognition
Dhuria Natural language processing: An approach to parsing and semantic analysis
Mathur Improving classification results using class imbalance solutions & evaluating the generalizability of rationale extraction techniques

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee