KR20220072988A - Apparatus for extracting knowledge triple based on artificial intelligent and method thereof - Google Patents

Apparatus for extracting knowledge triple based on artificial intelligent and method thereof Download PDF

Info

Publication number
KR20220072988A
KR20220072988A KR1020200160615A KR20200160615A KR20220072988A KR 20220072988 A KR20220072988 A KR 20220072988A KR 1020200160615 A KR1020200160615 A KR 1020200160615A KR 20200160615 A KR20200160615 A KR 20200160615A KR 20220072988 A KR20220072988 A KR 20220072988A
Authority
KR
South Korea
Prior art keywords
sentence
information
subject
knowledge
extraction module
Prior art date
Application number
KR1020200160615A
Other languages
Korean (ko)
Other versions
KR102423072B1 (en
Inventor
조수현
이새벽
장정훈
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020200160615A priority Critical patent/KR102423072B1/en
Publication of KR20220072988A publication Critical patent/KR20220072988A/en
Application granted granted Critical
Publication of KR102423072B1 publication Critical patent/KR102423072B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법에 관한 것으로, 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 제1 공개정보 추출모듈과, 제1 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 제2 공개정보 추출모듈과, 제2 공개정보 추출모듈로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 상호정보 추출모듈과, 제1 및 제2 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상호정보 추출모듈로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 정보결합모듈을 포함함으로써, 종단간 학습이 가능한 지식 트리플을 추출할 수 있을 뿐만 아니라 도메인 제약 문제를 해결할 수 있는 효과가 있다.The present invention relates to an artificial function-based knowledge triple extraction apparatus and method for expanding a knowledge base, which receives unstructured, atypical text data in sentence units from the outside and uses preset artificial intelligence (AI) based on it. A first public information extraction module for extracting relation information of each sentence using a machine learning method, and a preset artificial intelligence ( A second public information extraction module that extracts subject and object information of each sentence according to each relationship of each sentence using an AI-based machine learning method, and the second public information extraction module extracted from the second public information extraction module When the subject and object information of each sentence is provided and the subject or object of each sentence is a pronoun, using a preset artificial intelligence (AI)-based machine learning method and co-reference resolution technology based on this information A mutual information extraction module for constructing a cross-referencing resolution model that connects the subject or object of a pronoun to the same subject or object, and extracting mutual information about the subject or object of each sentence through the constructed cross-reference resolution model; By combining the relationship information of each sentence extracted from the first and second public information extraction modules, the subject and object information, and the mutual information about the subject or object of each sentence extracted from the mutual information extraction module, the domain influence of the unstructured text data By including the information combining module for extracting the knowledge base extension data for the public domain that is not received, it is possible to extract a knowledge triple capable of end-to-end learning, as well as to solve the domain constraint problem.

Description

지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법{APPARATUS FOR EXTRACTING KNOWLEDGE TRIPLE BASED ON ARTIFICIAL INTELLIGENT AND METHOD THEREOF}Artificial function-based knowledge triple extraction device and method for expanding knowledge base

본 발명은 지식 베이스(Knowledge Base) 확장을 위하여 인공기능(Artificial Intelligent, AI) 기반으로 지식 트리플(Knowledge Triple)을 추출하는 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for extracting a knowledge triple based on artificial intelligence (AI) for expanding a knowledge base.

일반적으로, 자연어처리(Natural Language Processing, NLP) 기술은 통계적 기반의 형태소 분석, 개체명 인식, 개체관계 추출, 상호참조 해결 등을 파이프라인으로 연결하여 최종적으로 원하는 결과물을 출력하는 형태로 수행하고 있다.In general, natural language processing (NLP) technology is performed in the form of outputting a desired result by connecting statistical-based morpheme analysis, entity name recognition, entity relationship extraction, cross-reference resolution, etc. through a pipeline. .

최근에는 딥러닝(Deep Learning)을 자연어처리에 적용하는 사례가 많아지면서, 각 작업을 종단간 학습으로 해결하는 방법들이 많이 시도되고 있다. 하지만, 지식 베이스(Knowledge Base) 확장 문제를 종단간으로 학습하기 위해서는 원문 문장과 지식 트리플(Knowledge Triple), 그리고 각 개체들 간의 상호참조 정보가 포함된 많은 양의 데이터를 필요로 한다.Recently, as the cases of applying deep learning to natural language processing increase, methods to solve each task through end-to-end learning are being tried. However, in order to learn the knowledge base extension problem end-to-end, a large amount of data including original sentences, knowledge triples, and cross-reference information between each entity is required.

종래의 지식 베이스 확장 기법에서 사용되는 지식 베이스 확장 생성 기술은 관계 정보를 미리 정의해야 하며, 언급된 주체와 대상의 정보를 구축된 지식 정보와 매칭함으로써, 정의되지 않은 관계인 경우와 신조어나 지식 베이스에 등록되지 않은 객체들로 인하여 데이터의 도메인에 대한 제약이 존재하는 문제점이 있다.The knowledge base extension generation technology used in the conventional knowledge base extension technique needs to define relational information in advance, and by matching the mentioned subject and target information with the built knowledge information, it can be applied to undefined relationships and new words or knowledge bases. There is a problem in that there are restrictions on the domain of data due to unregistered objects.

국내 등록특허 제10-2050244호(2019.11.29. 공고)Domestic Registered Patent No. 10-2050244 (2019.11.29. Announcement)

본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 문장 단위의 구조화되지 않은 텍스트 데이터에서 자연어처리 기술 및 인공지능(AI) 기반의 기계 학습방법을 사용하여, 지식베이스(Knowledge Base)를 확장하기 위해 문장의 주체(Subject) 및 대상(Object)과 이를 서술한 관계(Relation) 정보를 가진 지식 트리플(Knowledge Triple)을 추출할 수 있도록 한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법을 제공하는데 있다.The present invention has been devised to solve the above problems, and an object of the present invention is to use a natural language processing technology and an artificial intelligence (AI)-based machine learning method in sentence-unit unstructured text data, Base), artificial function-based knowledge for expanding the knowledge base so that it is possible to extract the subject and object of the sentence and the knowledge triple with the relation information that describes it. To provide a triple extraction device and method therefor.

본 발명의 다른 목적은 공개정보 추출(Information Extraction)과 상호참조해결(Co-reference resolution) 기술을 이용하여 종단간 학습이 가능한 지식 트리플을 추출할 수 있도록 한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법을 제공하는데 있다.Another object of the present invention is to use information extraction and co-reference resolution technology to extract knowledge triples capable of end-to-end learning based on artificial function-based knowledge for expanding the knowledge base. To provide a triple extraction device and method therefor.

본 발명의 또 다른 목적은 도메인 제약에 대한 문제를 해결하기 위해 일반적인 지식베이스 확장 기법을 사용하는 것이 아닌 술부를 통해 직접 관계를 추출하고 주체와 대상을 식별하는 공개정보 추출 기법과 주체 및 대상을 대명사 및 기타 참조 표현이 있을 경우 모호성을 해결하기 위한 상호참조해결 기법을 사용함으로써 도메인 제약 문제를 해결할 수 있도록 한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법을 제공하는데 있다.Another object of the present invention is to extract a relationship directly through a predicate rather than using a general knowledge base extension technique to solve the problem of domain restrictions, and a public information extraction technique to identify the subject and the subject, and pronoun the subject and the subject And to provide an artificial function-based knowledge triple extraction apparatus and method for expanding a knowledge base that can solve a domain constraint problem by using a cross-reference resolution technique for resolving ambiguity when there are other reference expressions.

전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 제1 공개정보 추출모듈; 상기 제1 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 제2 공개정보 추출모듈; 상기 제2 공개정보 추출모듈로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 상호정보 추출모듈; 및 상기 제1 및 제2 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 상호정보 추출모듈로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 정보결합모듈을 포함하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치를 제공하는 것이다.In order to achieve the above object, the first aspect of the present invention is to receive unstructured, unstructured text data in sentence units from the outside and use a preset artificial intelligence (AI)-based machine learning method based on this to obtain each sentence. a first public information extraction module for extracting relation information; Subject of each sentence according to each relationship of each sentence using a preset artificial intelligence (AI) based machine learning method based on receiving the relation information of each sentence extracted from the first public information extraction module and a second public information extraction module for extracting object information; The subject and target information of each sentence extracted from the second public information extraction module is provided, and based on this, each using a preset artificial intelligence (AI)-based machine learning method and co-reference resolution technology When the subject or object of a sentence is a pronoun, a cross-reference resolution model is established that connects the subject or object of the corresponding pronoun to the same subject or object, and through the constructed cross-reference resolution model, the cross-reference resolution model a mutual information extraction module for extracting information; and the relationship information of each sentence extracted from the first and second public information extraction modules, subject and object information, and mutual information about the subject or object of each sentence extracted from the mutual information extraction module, to obtain atypical text data It is to provide an artificial function-based knowledge triple extraction device for knowledge base extension including an information combining module for extracting knowledge base extension data for the public domain that is not affected by their domains.

여기서, 상기 제1 및 제2 공개정보 추출모듈과 상기 상호정보 추출모듈에 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.Here, the AI-based machine learning method applied to the first and second public information extraction modules and the mutual information extraction module is a neural network, a support vector machine (SVM), and a multi-layer perception (MLP). ), and it is preferably made of at least one artificial intelligence learning method of deep learning.

바람직하게, 상기 정보결합모듈로부터 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어질 수 있다.Preferably, the knowledge base extension data for the public domain extracted from the information combining module is a knowledge triple capable of end-to-end learning having knowledge of the subject and object of each sentence and the relational information describing it in order to expand the knowledge base. may be included.

바람직하게, 상기 상호정보 추출모듈에 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어질 수 있다.Preferably, the cross-reference resolution technology applied to the mutual information extraction module may include a natural language processing technology that finds words used in different expressions for the subject or object of each sentence and connects them to the same subject or object. .

본 발명의 제2 측면은, 지식 베이스(Knowledge Base) 확장을 위하여 인공기능(AI) 기반으로 지식 트리플(Knowledge Triple)을 추출하는 방법으로서, (a) 제1 공개정보 추출모듈을 통해 외부로부터 입력된 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 단계; (b) 제2 공개정보 추출모듈을 통해 상기 단계(a)에서 추출된 각 문장의 관계 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 단계; (c) 상호정보 추출모듈을 통해 상기 단계(b)에서 추출된 각 문장의 주체와 대상 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우, 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축한 후, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 단계; 및 (d) 정보결합모듈을 통해 상기 단계(a) 및 단계(b)에서 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 단계(c)에서 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 단계를 포함하는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 제공하는 것이다.A second aspect of the present invention is a method of extracting a knowledge triple based on an artificial function (AI) for expanding a knowledge base, (a) input from the outside through a first public information extraction module extracting relation information of each sentence using a preset artificial intelligence (AI)-based machine learning method based on unstructured and atypical text data in units of sentences; (b) each according to each relationship of each sentence using a preset artificial intelligence (AI)-based machine learning method based on the relationship information of each sentence extracted in step (a) through the second public information extraction module extracting subject and object information of the sentence; (c) AI-based machine learning method and co-reference resolution technology preset based on the subject and target information of each sentence extracted in step (b) through the mutual information extraction module When the subject or object of each sentence is a pronoun using extracting mutual information about a subject or object; and (d) relationship information of each sentence extracted in steps (a) and (b) through the information combining module, subject and subject information, and mutual information about the subject or object of each sentence extracted in step (c) It is to provide an artificial function-based knowledge triple extraction method for expanding the knowledge base, comprising extracting the knowledge base extension data for the public domain that is not affected by the domain of the unstructured text data by combining the information. .

여기서, 상기 단계(a) 내지 단계(c)에서 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.Here, the artificial intelligence (AI)-based machine learning method applied in the steps (a) to (c) is a neural network, a support vector machine (SVM), a multi-layer perception (MLP), and deep learning ( It is preferable to use at least one artificial intelligence learning method among deep learning).

바람직하게, 상기 단계(d)에서 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어질 수 있다.Preferably, the knowledge base extension data for the public domain extracted in step (d) is knowledge capable of end-to-end learning having knowledge of the subject and object of each sentence and relational information describing it in order to expand the knowledge base. It may include triples.

바람직하게, 상기 단계(c)에서 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어질 수 있다.Preferably, the cross-reference resolution technology applied in step (c) may include a natural language processing technology that finds words used in different expressions for the subject or object of each sentence and connects them to the same subject or object. .

본 발명의 제3 측면은, 상술한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.A third aspect of the present invention provides a computer-readable recording medium in which a program capable of executing the artificial function-based knowledge triple extraction method for expanding the knowledge base described above is recorded.

본 발명에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법은 컴퓨터로 판독할 수 있는 기록매체에 컴퓨터로 판독할 수 있는 코드로 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체에는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.The artificial function-based knowledge triple extraction method for expanding the knowledge base according to the present invention can be implemented as a computer-readable code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored.

예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피 디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.For example, computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, removable storage device, and non-volatile memory (Flash Memory). , and optical data storage devices.

이상에서 설명한 바와 같은 본 발명의 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법에 따르면, 문장 단위의 구조화되지 않은 텍스트 데이터에서 자연어처리 기술 및 인공지능(AI) 기반의 기계 학습방법을 사용하여, 지식베이스(Knowledge Base)를 확장하기 위해 문장의 주체(Subject) 및 대상(Object)과 이를 서술한 관계(Relation) 정보를 가진 지식 트리플(Knowledge Triple)을 추출할 수 있는 이점이 있다.According to the artificial function-based knowledge triple extraction apparatus and method for expanding the knowledge base of the present invention as described above, natural language processing technology and artificial intelligence (AI)-based machine learning method from unstructured text data in sentence units It has the advantage of being able to extract the Knowledge Triple with the subject and object of the sentence and the relation information that describes it in order to expand the knowledge base using .

또한, 본 발명에 따르면, 공개정보 추출(Information Extraction)과 상호참조해결(Co-reference resolution) 기술을 이용하여 종단간 학습이 가능한 지식 트리플을 추출할 수 있는 이점이 있다.In addition, according to the present invention, there is an advantage in that it is possible to extract a knowledge triple capable of end-to-end learning using information extraction and co-reference resolution techniques.

또한, 본 발명에 따르면, 도메인 제약에 대한 문제를 해결하기 위해 일반적인 지식베이스 확장 기법을 사용하는 것이 아닌 술부를 통해 직접 관계를 추출하고 주체와 대상을 식별하는 공개정보 추출 기법과 주체 및 대상을 대명사 및 기타 참조 표현이 있을 경우 모호성을 해결하기 위한 상호참조해결 기법을 사용함으로써 도메인 제약 문제를 해결할 수 있는 이점이 있다.In addition, according to the present invention, in order to solve the problem of domain restrictions, a public information extraction technique that directly extracts a relationship through a predicate and identifies a subject and a subject, rather than using a general knowledge base extension technique, and a subject and a subject are pronouns and other reference representations, there is an advantage in solving the domain constraint problem by using the cross-referencing technique to resolve ambiguity.

또한, 본 발명에 따르면, 비정형 데이터인 원시 텍스트 데이터의 도메인과 특징에 관계없이 비정형 데이터인 텍스트 데이터에서 지식 트리플을 추출할 수 있고, 추출된 지식 트리플인 정형 데이터를 통하여 다양한 자연어 문제인 챗봇, 문서 요약, 질문 생성, 답변 생성 등에서 도움을 줄 수 있으며, 비정형 데이터인 텍스트의 실질적인 의미를 찾아낼 수 있는 이점이 있다.In addition, according to the present invention, it is possible to extract a knowledge triple from text data, which is unstructured data, regardless of the domain and characteristics of raw text data, which is unstructured data, and through the extracted structured data, which is a knowledge triple, various natural language problems such as chatbots and document summary , question generation, answer generation, etc., and has the advantage of discovering the actual meaning of text, which is unstructured data.

도 1은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치를 설명하기 위한 전체적인 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 설명하기 위한 전체적인 흐름도이다.
도 3 내지 도 8은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 구조적으로 설명하기 위한 일 예를 나타낸 도면들이다.
1 is an overall block diagram for explaining an artificial function-based knowledge triple extraction apparatus for expanding a knowledge base according to an embodiment of the present invention.
2 is an overall flowchart illustrating an artificial function-based knowledge triple extraction method for expanding a knowledge base according to an embodiment of the present invention.
3 to 8 are diagrams illustrating an example for structurally explaining an artificial function-based knowledge triple extraction method for expanding a knowledge base according to an embodiment of the present invention.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.The above-described objects, features and advantages will be described below in detail with reference to the accompanying drawings, and accordingly, those of ordinary skill in the art to which the present invention pertains will be able to easily implement the technical idea of the present invention. In describing the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description will be omitted.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Terms including an ordinal number such as 1st, 2nd, etc. may be used to describe various elements, but the elements are not limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component. The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, but these may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the entire specification, when a part "includes" a certain element, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .

이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the embodiments of the present invention illustrated below may be modified in various other forms, and the scope of the present invention is not limited to the embodiments described below. The embodiments of the present invention are provided to more completely explain the present invention to those of ordinary skill in the art.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.Each block in the accompanying block diagram and combinations of steps in the flowchart may be executed by computer program instructions (execution engine), which may be executed by a processor of a general-purpose computer, special-purpose computer, or other programmable data processing equipment. It may be mounted so that the instructions, which are executed by the processor of a computer or other programmable data processing equipment, create means for performing the functions described in each block of the block diagram or in each step of the flowchart. These computer program instructions may also be stored in a computer-usable or computer-readable memory that may direct a computer or other programmable data processing equipment to implement a function in a particular manner, and thus the computer-usable or computer-readable memory. It is also possible to produce an article of manufacture containing instruction means for performing the functions described in each block of the block diagram or each step of the flowchart, the instructions stored in the block diagram.

그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.And, since the computer program instructions may be mounted on a computer or other programmable data processing equipment, a series of operating steps are performed on the computer or other programmable data processing equipment to create a computer-executed process to create a computer or other program It is also possible that instructions for performing the possible data processing equipment provide steps for carrying out the functions described in each block of the block diagram and in each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.In addition, each block or step may represent a module, segment, or portion of code comprising one or more executable instructions for executing specified logical functions, and in some alternative embodiments the blocks or steps referred to in some alternative embodiments. It should be noted that it is also possible for functions to occur out of sequence. For example, it is possible that two blocks or steps shown one after another may be performed substantially simultaneously, and also the blocks or steps may be performed in the reverse order of the corresponding functions, if necessary.

도 1은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치를 설명하기 위한 전체적인 블록 구성도이다.1 is an overall block diagram for explaining an artificial function-based knowledge triple extraction apparatus for expanding a knowledge base according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치는, 크게 제1 공개정보 추출모듈(100), 제2 공개정보 추출모듈(200), 상호정보 추출모듈(300), 및 정보결합모듈(400) 등을 포함하여 이루어진다. 한편, 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치는 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 가질 수도 있다.Referring to FIG. 1 , an artificial function-based knowledge triple extraction apparatus for expanding a knowledge base according to an embodiment of the present invention includes a first public information extraction module 100 , a second public information extraction module 200 , It consists of a mutual information extraction module 300, and an information combining module 400, and the like. On the other hand, since the components shown in FIG. 1 are not essential, the artificial function-based knowledge triple extraction apparatus for expanding the knowledge base according to an embodiment of the present invention has more or fewer components than that. may be

이하, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치의 구성요소들에 대해 구체적으로 살펴보면 다음과 같다.Hereinafter, the components of the artificial function-based knowledge triple extraction apparatus for expanding the knowledge base according to an embodiment of the present invention will be described in detail as follows.

제1 공개정보 추출모듈(100)은 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 기능을 수행한다.The first public information extraction module 100 receives unstructured, unstructured text data in sentence units from the outside, and based on this, uses a preset artificial intelligence (AI)-based machine learning method to determine the relationship between each sentence. It performs the function of extracting information.

제2 공개정보 추출모듈(200)은 제1 공개정보 추출모듈(100)로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 기능을 수행한다.The second public information extraction module 200 receives the relation information of each sentence extracted from the first public information extraction module 100 and uses a preset artificial intelligence (AI)-based machine learning method based on this information for each sentence. It performs a function of extracting subject and object information of each sentence according to each relationship of

상호정보 추출모듈(300)은 제2 공개정보 추출모듈(200)로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 기능을 수행한다.The mutual information extraction module 300 receives the subject and target information of each sentence extracted from the second public information extraction module 200, and based on this, a preset artificial intelligence (AI)-based machine learning method and cross-reference resolution ( When the subject or object of each sentence is a pronoun by using Co-reference resolution) technology, a cross-reference resolution model is constructed that connects the subject or object of the corresponding pronoun to the same subject or object, and the constructed cross-reference resolution model is used. It performs the function of extracting mutual information about the subject or object of each sentence through

이때, 상호정보 추출모듈(300)에 적용된 상호참조해결 기술은 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어짐이 바람직하다.At this time, it is preferable that the cross-reference resolution technology applied to the mutual information extraction module 300 includes a natural language processing technology that finds words used in different expressions for the subject or object of each sentence and connects them to the same subject or object. do.

즉, 상기 상호참조해결 기술은 임의의 개체(entity)에 대하여 다른 표현으로 사용되는 단어들을 찾아 서로 같은 개체로 연결해주는 자연어처리 문제로서, 하나의 개체를 다른 단어로 표현하는 경우는 별명, 약어, 대명사, 한정사구 등이 있으며, 이들 간의 참조 관계를 올바르게 찾아낼 수 있으면 담화나 문서 내에서 언급하는 대상에 대한 정보를 일관성 있게 유지할 수 있고, 정확하게 전달할 수 있다.That is, the cross-reference resolution technique is a natural language processing problem that finds words used in different expressions for an entity and connects them to the same entity. There are pronouns and determinant phrases, and if the reference relationship between them can be found correctly, information about the object mentioned in the discourse or document can be maintained consistently and accurately conveyed.

따라서, 상기 상호참조해결 기술은 문서에서 등장하는 개체를 이해하는데 매우 중요한 역할을 하며, 예컨대, 질의응답, 문서요약, 기계 번역, 정보 추출 등에 응용될 수 있다.Accordingly, the cross-reference resolution technique plays a very important role in understanding the entities appearing in the document, and can be applied to, for example, question-and-answer, document summary, machine translation, information extraction, and the like.

한편, 제1 및 제2 공개정보 추출모듈(100 및 200)과 상호정보 추출모듈(300)에 적용된 인공지능(AI) 기반의 기계 학습방법은 예컨대, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및/또는 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.On the other hand, the AI-based machine learning method applied to the first and second public information extraction modules 100 and 200 and the mutual information extraction module 300 is, for example, a neural network, a support vector machine (SVM). ), MLP (Multi Layer Perception), and / or it is preferably made of at least one artificial intelligence learning method of deep learning (Deep Learning).

그리고, 정보결합모듈(400)은 제1 및 제2 공개정보 추출모듈(100 및 200)로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상호정보 추출모듈(300)로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인(Domain) 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 기능을 수행한다.And, the information combining module 400 is the relationship information of each sentence extracted from the first and second public information extraction modules 100 and 200, subject and object information, and each sentence extracted from the mutual information extraction module 300 By combining mutual information on subjects or objects, it performs a function of extracting knowledge base extension data for the public domain that is not affected by the domain of atypical text data.

이때, 정보결합모듈(400)로부터 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는 예컨대, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플(Knowledge Triple)을 포함하여 이루어짐이 바람직하다.At this time, the knowledge base extension data for the public domain extracted from the information combining module 400 is, for example, capable of end-to-end learning having knowledge of the subject and object of each sentence and the relational information describing it in order to expand the knowledge base. It is preferable to include a Knowledge Triple.

이하에는 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 구체적으로 설명하기로 한다.Hereinafter, an artificial function-based knowledge triple extraction method for expanding a knowledge base according to an embodiment of the present invention will be described in detail.

도 2는 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 설명하기 위한 전체적인 흐름도이고, 도 3 내지 도 8은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 구조적으로 설명하기 위한 일 예를 나타낸 도면들이다.2 is an overall flowchart for explaining an artificial function-based knowledge triple extraction method for expanding a knowledge base according to an embodiment of the present invention, and FIGS. 3 to 8 are a knowledge base expansion according to an embodiment of the present invention. It is a diagram showing an example for structurally explaining the artificial function-based knowledge triple extraction method for

도 1 내지 도 8을 참조하면, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법은, 먼저, 제1 공개정보 추출모듈(100)을 통해 외부로부터 입력된 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출한다(S100).1 to 8 , in the artificial function-based knowledge triple extraction method for expanding the knowledge base according to an embodiment of the present invention, first, a sentence input from the outside through the first public information extraction module 100 Based on the unstructured and atypical text data of the unit, relation information of each sentence is extracted using a preset artificial intelligence (AI)-based machine learning method (S100).

이후에, 제2 공개정보 추출모듈(200)을 통해 상기 단계S100에서 추출된 각 문장의 관계 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출한다(S200).Thereafter, based on the relationship information of each sentence extracted in step S100 through the second public information extraction module 200, using a preset artificial intelligence (AI)-based machine learning method according to each relationship of each sentence Subject and object information of each sentence is extracted (S200).

예컨대, 도 4에 도시된 바와 같이, "오바마는 트럼프에게 전화를 했다. 그러나 그는 오바마의 전화를 받지 않았다."라는 입력 텍스트에서 제1 및 제2 공개정보 추출모듈(100 및 200)을 통해 공개정보인 각 문장의 관계(Relation) 및 주체(Subject)와 대상(Object) 정보{즉, ("오바마", "전화를 했다.", "트럼프"), ("그", "전화를 받지 않았다", "오바마")}를 추출한다.For example, as shown in Fig. 4, in the input text "Obama called Trump. But he did not answer Obama's call." Relation and subject and object information of each sentence as information ", "Obama")}.

그런 다음, 상호정보 추출모듈(300)을 통해 상기 단계S200에서 추출된 각 문장의 주체와 대상 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우, 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축한 후, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출한다(S300).Then, based on the subject and target information of each sentence extracted in step S200 through the mutual information extraction module 300, a preset artificial intelligence (AI)-based machine learning method and co-reference resolution When the subject or object of each sentence is a pronoun using technology, a cross-reference resolution model is constructed that connects the subject or object of the corresponding pronoun to the same subject or object, and then each sentence through the constructed cross-reference resolution model Mutual information about the subject or object of the is extracted (S300).

이때, 상기 단계S300에서 적용된 상호참조해결 기술은 예컨대, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어짐이 바람직하다.In this case, it is preferable that the cross-reference resolution technique applied in step S300 includes, for example, a natural language processing technique that finds words used in different expressions for the subject or object of each sentence and connects them to the same subject or object.

한편, 상기 단계S100 내지 단계S300에서 적용된 인공지능(AI) 기반의 기계 학습방법은 예컨대, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및/또는 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.On the other hand, the artificial intelligence (AI)-based machine learning method applied in the steps S100 to S300 is, for example, a neural network, a support vector machine (SVM), a multi-layer perception (MLP), and/or deep learning (Deep). Learning), it is preferable to use at least one artificial intelligence learning method.

전술한 상기 단계S300에서의 상호참조해결 부분은 전술한 상기 단계S100 및 단계S200에서의 공개정보 추출 부분에서 추출된 지식 트리플(Knowledge Triple) 정보 중에서 주체(Subject)나 대상(Object)이 대명사인 경우 이를 해결하기 위한 분석 과정이다.The cross-reference resolution part in the step S300 described above is when the subject or the object is a pronoun among the knowledge triple information extracted in the public information extraction part in the steps S100 and S200 described above. This is an analysis process to solve this problem.

즉, 상기 단계S100 및 단계S200에서 공개정보 추출된 정보가 대명사인 경우 텍스트에서 정보를 추출하여도 사용이 불가능하기 때문이다. 예컨대, 도 5에 도시된 바와 같이, 상기 단계S300에서의 상호참조 해결을 통해 추출된 각 문장의 공개정보를 {(오바마, 오바마), (그, 트럼프)}로 연결하여 언급을 묶어줄 수 있다.That is, when the information extracted from public information in steps S100 and S200 is a pronoun, it is impossible to use it even if information is extracted from the text. For example, as shown in FIG. 5 , the public information of each sentence extracted through the cross-reference resolution in step S300 can be linked with {(Obama, Obama), (He, Trump)} to tie the comments. .

그리고, 상기 단계S300에서 구축된 상호참조 해결모델은 정확도를 높이기 위해 제1 및 제2 공개정보 추출모듈(100 및 200)에서 분석한 각 문장의 각 관계 정보에 따른 각 문장의 주체(Subject)와 대상(Object)의 특징을 상호참조 해결모델의 입력데이터에 추가하여 정보를 제공한다.In addition, the cross-referencing resolution model built in step S300 includes the subject of each sentence according to each relational information of each sentence analyzed by the first and second public information extraction modules 100 and 200 in order to increase the accuracy. Information is provided by adding the characteristics of the object to the input data of the cross-reference resolution model.

즉, 제1 및 제2 공개정보 추출모듈(100 및 200)의 결과를 이용하여 상호참조 해결모델을 학습하는 방법은 도 6에 도시된 바와 같다. 이를 통해 제1 및 제2 공개정보 추출모듈(100 및 200)의 결과를 참조함으로써, 상호참조 해결모델의 정확도가 올라간다.That is, a method of learning the cross-reference solving model using the results of the first and second public information extraction modules 100 and 200 is shown in FIG. 6 . Through this, by referring to the results of the first and second public information extraction modules 100 and 200, the accuracy of the cross-reference solution model is increased.

다음으로, 정보결합모듈(400)을 통해 상기 단계S100 및 단계S200에서 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 단계S300에서 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출한다(S400).Next, through the information combining module 400, the relationship information of each sentence extracted in steps S100 and S200, the subject and target information, and the mutual information about the subject or object of each sentence extracted in the step S300 are combined. , extracts the knowledge base extension data for the public domain that is not affected by the domain of the unstructured text data (S400).

이때, 상기 단계S400에서 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는 예컨대, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플(Knowledge Triple)을 포함하여 이루어짐이 바람직하다.At this time, the knowledge base extension data for the public domain extracted in step S400 is, for example, the knowledge triple ( It is preferable to include the Knowledge Triple).

예컨대, 도 7 및 도 8에 도시된 바와 같이, 상기 단계S100 및 단계S200에서 제1 및 제2 공개정보 추출모듈(100 및 200)을 통해 외부로부터 입력된 비정형의 텍스트 데이터에서 주체, 관계와 대상의 관계인 지식 트리플(Knowledge Triple) 정보를 추출한 후, 추출된 지식 트리플 정보에서 사용할 수 없는 대명사의 정보를 상기 단계S300에서 상호정보 추출모듈(300)을 통해 해결함으로써, 사전 지식의 필요가 없으며, 비정형 데이터인 텍스트들의 도메인의 영향을 받지 않는 공개 도매인을 위한 지식 베이스 확장을 할 수 있다.For example, as shown in FIGS. 7 and 8 , in the unstructured text data input from the outside through the first and second public information extraction modules 100 and 200 in the steps S100 and S200, the subject, the relationship, and the object After extracting the knowledge triple information, which is a relationship of You can extend the knowledge base for open wholesalers that are not affected by the domain of data-in-texts.

한편, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.On the other hand, the artificial function-based knowledge triple extraction method for expanding the knowledge base according to an embodiment of the present invention can also be implemented as computer-readable codes on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored.

예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.For example, computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, removable storage device, and non-volatile memory (Flash Memory). , and optical data storage devices.

또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.In addition, the computer-readable recording medium may be distributed in computer systems connected through a computer communication network, and stored and executed as readable codes in a distributed manner.

전술한 본 발명에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.Although a preferred embodiment of the artificial function-based knowledge triple extraction apparatus and method for expanding the knowledge base according to the present invention has been described above, the present invention is not limited thereto, and the claims and detailed description of the invention and accompanying It is possible to carry out various modifications within the scope of one drawing, and this also belongs to the present invention.

100 : 제1 공개정보 추출모듈,
200 : 제2 공개정보 추출모듈,
300 : 상호정보 추출모듈,
400 : 정보결합모듈
100: first public information extraction module;
200: a second public information extraction module;
300: mutual information extraction module,
400: information combination module

Claims (9)

외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 제1 공개정보 추출모듈;
상기 제1 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 제2 공개정보 추출모듈;
상기 제2 공개정보 추출모듈로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 상호정보 추출모듈; 및
상기 제1 및 제2 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 상호정보 추출모듈로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 정보결합모듈을 포함하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치.
A first public information extraction module that receives unstructured, unstructured text data in sentence units from the outside and extracts relation information of each sentence using a preset artificial intelligence (AI)-based machine learning method based on it ;
Subject of each sentence according to each relation of each sentence using a preset artificial intelligence (AI) based machine learning method based on receiving the relation information of each sentence extracted from the first public information extraction module and a second public information extraction module for extracting object information;
By receiving the subject and target information of each sentence extracted from the second public information extraction module, and using a preset artificial intelligence (AI)-based machine learning method and co-reference resolution technology based on this, each When the subject or object of a sentence is a pronoun, a cross-reference resolution model is established that connects the subject or object of the corresponding pronoun to the same subject or object, and through the constructed cross-reference resolution model, the cross-reference resolution model a mutual information extraction module for extracting information; and
By combining the relation information, subject and subject information of each sentence extracted from the first and second public information extraction module, and the mutual information about the subject or object of each sentence extracted from the mutual information extraction module, An artificial function-based knowledge triple extraction device for knowledge base extension including an information combining module for extracting knowledge base extension data for the public domain that is not affected by the domain.
제1 항에 있어서,
상기 제1 및 제2 공개정보 추출모듈과 상기 상호정보 추출모듈에 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어지는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치.
According to claim 1,
The AI-based machine learning method applied to the first and second public information extraction modules and the mutual information extraction module includes a neural network, a support vector machine (SVM), a multi-layer perception (MLP), and an artificial function-based knowledge triple extraction device for expanding a knowledge base, characterized in that it comprises at least one artificial intelligence learning method of deep learning.
제1 항에 있어서,
상기 정보결합모듈로부터 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어진 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치.
According to claim 1,
The knowledge base extension data for the public domain extracted from the information combining module includes a knowledge triple capable of end-to-end learning that has knowledge of the subject and object of each sentence and the relational information that describes it in order to expand the knowledge base. Artificial function-based knowledge triple extraction device for knowledge base expansion, characterized in that made.
제1 항에 있어서,
상기 상호정보 추출모듈에 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어진 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치.
According to claim 1,
The cross-reference resolution technology applied to the mutual information extraction module includes a natural language processing technology that finds words used in different expressions for the subject or object of each sentence and connects them to the same subject or object. An artificial function-based knowledge triple extraction device for base extension.
지식 베이스(Knowledge Base) 확장을 위하여 인공기능(AI) 기반으로 지식 트리플(Knowledge Triple)을 추출하는 방법으로서,
(a) 제1 공개정보 추출모듈을 통해 외부로부터 입력된 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 단계;
(b) 제2 공개정보 추출모듈을 통해 상기 단계(a)에서 추출된 각 문장의 관계 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 단계;
(c) 상호정보 추출모듈을 통해 상기 단계(b)에서 추출된 각 문장의 주체와 대상 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우, 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축한 후, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 단계; 및
(d) 정보결합모듈을 통해 상기 단계(a) 및 단계(b)에서 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 단계(c)에서 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 단계를 포함하는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법.
As a method of extracting a knowledge triple based on artificial function (AI) to expand the knowledge base,
(a) Relation of each sentence using a preset artificial intelligence (AI)-based machine learning method based on unstructured, unstructured text data in sentence units input from the outside through the first public information extraction module extracting information;
(b) each sentence according to each relation of each sentence using a preset artificial intelligence (AI)-based machine learning method based on the relation information of each sentence extracted in step (a) through the second public information extraction module extracting subject and object information of the sentence;
(c) AI-based machine learning method and co-reference resolution technology preset based on the subject and target information of each sentence extracted in step (b) through the mutual information extraction module When the subject or object of each sentence is a pronoun using extracting mutual information about a subject or object; and
(d) relationship information of each sentence extracted in steps (a) and (b) through the information combining module, subject and subject information, and mutual information about the subject or object of each sentence extracted in step (c) and extracting the knowledge base extension data for the public domain that is not affected by the domain of the unstructured text data by combining the artificial function-based knowledge triple extraction method for the knowledge base extension.
제5 항에 있어서,
상기 단계(a) 내지 단계(c)에서 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어지는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법.
6. The method of claim 5,
The artificial intelligence (AI)-based machine learning method applied in the steps (a) to (c) is a neural network, a support vector machine (SVM), a multi-layer perception (MLP), and deep learning. ), an artificial function-based knowledge triple extraction method for expanding the knowledge base, characterized in that it consists of at least one artificial intelligence learning method.
제5 항에 있어서,
상기 단계(d)에서 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어진 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법.
6. The method of claim 5,
The knowledge base extension data for the public domain extracted in step (d) includes a knowledge triple capable of end-to-end learning that has knowledge of the subject and object of each sentence and relational information describing it in order to expand the knowledge base Artificial function-based knowledge triple extraction method for knowledge base expansion, characterized in that made by
제5 항에 있어서,
상기 단계(c)에서 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어진 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법.
6. The method of claim 5,
The cross-reference resolution technology applied in step (c) is knowledge characterized in that it includes a natural language processing technology that finds words used in different expressions for the subject or object of each sentence and connects them to the same subject or object An artificial function-based knowledge triple extraction method for base extension.
제5 항 내지 제8 항 중 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium in which a program capable of executing the method of any one of claims 5 to 8 by a computer is recorded.
KR1020200160615A 2020-11-26 2020-11-26 Apparatus for extracting knowledge triple based on artificial intelligent and method thereof KR102423072B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200160615A KR102423072B1 (en) 2020-11-26 2020-11-26 Apparatus for extracting knowledge triple based on artificial intelligent and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200160615A KR102423072B1 (en) 2020-11-26 2020-11-26 Apparatus for extracting knowledge triple based on artificial intelligent and method thereof

Publications (2)

Publication Number Publication Date
KR20220072988A true KR20220072988A (en) 2022-06-03
KR102423072B1 KR102423072B1 (en) 2022-07-20

Family

ID=81983493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200160615A KR102423072B1 (en) 2020-11-26 2020-11-26 Apparatus for extracting knowledge triple based on artificial intelligent and method thereof

Country Status (1)

Country Link
KR (1) KR102423072B1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100047475A (en) * 2008-10-29 2010-05-10 한국과학기술원 Method of extracting triplets by searching dependency grammar setence tree
KR20150084706A (en) * 2015-06-26 2015-07-22 경북대학교 산학협력단 Apparatus for knowledge learning of ontology and method thereof
KR20160108886A (en) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 Method and apparatus for expanding knowledge base using open information extraction
US20170109655A1 (en) * 2015-10-16 2017-04-20 Hiroaki Miyazaki Artificial intelligence apparatus autonomously expanding knowledge by inputting language
KR20180108257A (en) * 2017-03-24 2018-10-04 (주)아크릴 Method for extending ontology using resources represented by the ontology
US10482384B1 (en) * 2018-11-16 2019-11-19 Babylon Partners Limited System for extracting semantic triples for building a knowledge base
KR102050244B1 (en) 2017-10-16 2019-11-29 한국과학기술원 Interactive chatbot operation method and system based on natural language processing for activation of messenger group chat room

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100047475A (en) * 2008-10-29 2010-05-10 한국과학기술원 Method of extracting triplets by searching dependency grammar setence tree
KR20160108886A (en) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 Method and apparatus for expanding knowledge base using open information extraction
KR20150084706A (en) * 2015-06-26 2015-07-22 경북대학교 산학협력단 Apparatus for knowledge learning of ontology and method thereof
US20170109655A1 (en) * 2015-10-16 2017-04-20 Hiroaki Miyazaki Artificial intelligence apparatus autonomously expanding knowledge by inputting language
KR20180108257A (en) * 2017-03-24 2018-10-04 (주)아크릴 Method for extending ontology using resources represented by the ontology
KR102050244B1 (en) 2017-10-16 2019-11-29 한국과학기술원 Interactive chatbot operation method and system based on natural language processing for activation of messenger group chat room
US10482384B1 (en) * 2018-11-16 2019-11-19 Babylon Partners Limited System for extracting semantic triples for building a knowledge base

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박성식. 듀얼 포인터 네트워크를 사용한 문장 내 모든 개체 간의 관계 추출. 강원대학교대학원 컴퓨터정보통신공학과 공학석사학위논문. 강원대학교. 2020.2.* *

Also Published As

Publication number Publication date
KR102423072B1 (en) 2022-07-20

Similar Documents

Publication Publication Date Title
CN107818085B (en) Answer selection method and system for reading understanding of reading robot
US9460386B2 (en) Passage justification scoring for question answering
CN109325040B (en) FAQ question-answer library generalization method, device and equipment
Yaghoobzadeh et al. Multi-level representations for fine-grained typing of knowledge base entities
Kenny Human and machine translation
US20210174204A1 (en) System and method for natural language processing using neural network
CN104573099A (en) Topic searching method and device
KR20180092733A (en) Generating method of relation extraction training data
CN112199473A (en) Multi-turn dialogue method and device in knowledge question-answering system
CN112685550B (en) Intelligent question-answering method, intelligent question-answering device, intelligent question-answering server and computer readable storage medium
CN111079408A (en) Language identification method, device, equipment and storage medium
CN110675863A (en) Voice corpus generation method and device and voice recognition method and device
CN105373527B (en) Omission recovery method and question-answering system
KR102423072B1 (en) Apparatus for extracting knowledge triple based on artificial intelligent and method thereof
CN117373591A (en) Disease identification method and device for electronic medical record, electronic equipment and storage medium
CN109872718A (en) The answer acquisition methods and device of voice data, storage medium, computer equipment
Agirre et al. Ubc: Cubes for english semantic textual similarity and supervised approaches for interpretable sts
KR101983477B1 (en) Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification
CN114896973A (en) Text processing method and device and electronic equipment
CN110992939B (en) Language model training method, decoding method, device, storage medium and equipment
CN111126066B (en) Method and device for determining Chinese congratulation technique based on neural network
CN110609995B (en) Method and device for constructing Tibetan language question-answer corpus
Ali et al. Urdu noun phrase chunking: HMM based approach
KR102661819B1 (en) Methods for Understanding Context of Temporal Relations Based on Open-domain Information
CN111460766A (en) Method and device for identifying contradictory speech block boundaries

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right