KR102423072B1 - 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법 - Google Patents

지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법 Download PDF

Info

Publication number
KR102423072B1
KR102423072B1 KR1020200160615A KR20200160615A KR102423072B1 KR 102423072 B1 KR102423072 B1 KR 102423072B1 KR 1020200160615 A KR1020200160615 A KR 1020200160615A KR 20200160615 A KR20200160615 A KR 20200160615A KR 102423072 B1 KR102423072 B1 KR 102423072B1
Authority
KR
South Korea
Prior art keywords
sentence
subject
information
extraction module
information extraction
Prior art date
Application number
KR1020200160615A
Other languages
English (en)
Other versions
KR20220072988A (ko
Inventor
조수현
이새벽
장정훈
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020200160615A priority Critical patent/KR102423072B1/ko
Publication of KR20220072988A publication Critical patent/KR20220072988A/ko
Application granted granted Critical
Publication of KR102423072B1 publication Critical patent/KR102423072B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법에 관한 것으로, 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 제1 공개정보 추출모듈과, 제1 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 제2 공개정보 추출모듈과, 제2 공개정보 추출모듈로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 상호정보 추출모듈과, 제1 및 제2 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상호정보 추출모듈로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 정보결합모듈을 포함함으로써, 종단간 학습이 가능한 지식 트리플을 추출할 수 있을 뿐만 아니라 도메인 제약 문제를 해결할 수 있는 효과가 있다.

Description

지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법{APPARATUS FOR EXTRACTING KNOWLEDGE TRIPLE BASED ON ARTIFICIAL INTELLIGENT AND METHOD THEREOF}
본 발명은 지식 베이스(Knowledge Base) 확장을 위하여 인공기능(Artificial Intelligent, AI) 기반으로 지식 트리플(Knowledge Triple)을 추출하는 장치 및 그 방법에 관한 것이다.
일반적으로, 자연어처리(Natural Language Processing, NLP) 기술은 통계적 기반의 형태소 분석, 개체명 인식, 개체관계 추출, 상호참조 해결 등을 파이프라인으로 연결하여 최종적으로 원하는 결과물을 출력하는 형태로 수행하고 있다.
최근에는 딥러닝(Deep Learning)을 자연어처리에 적용하는 사례가 많아지면서, 각 작업을 종단간 학습으로 해결하는 방법들이 많이 시도되고 있다. 하지만, 지식 베이스(Knowledge Base) 확장 문제를 종단간으로 학습하기 위해서는 원문 문장과 지식 트리플(Knowledge Triple), 그리고 각 개체들 간의 상호참조 정보가 포함된 많은 양의 데이터를 필요로 한다.
종래의 지식 베이스 확장 기법에서 사용되는 지식 베이스 확장 생성 기술은 관계 정보를 미리 정의해야 하며, 언급된 주체와 대상의 정보를 구축된 지식 정보와 매칭함으로써, 정의되지 않은 관계인 경우와 신조어나 지식 베이스에 등록되지 않은 객체들로 인하여 데이터의 도메인에 대한 제약이 존재하는 문제점이 있다.
국내 등록특허 제10-2050244호(2019.11.29. 공고)
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 문장 단위의 구조화되지 않은 텍스트 데이터에서 자연어처리 기술 및 인공지능(AI) 기반의 기계 학습방법을 사용하여, 지식베이스(Knowledge Base)를 확장하기 위해 문장의 주체(Subject) 및 대상(Object)과 이를 서술한 관계(Relation) 정보를 가진 지식 트리플(Knowledge Triple)을 추출할 수 있도록 한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법을 제공하는데 있다.
본 발명의 다른 목적은 공개정보 추출(Information Extraction)과 상호참조해결(Co-reference resolution) 기술을 이용하여 종단간 학습이 가능한 지식 트리플을 추출할 수 있도록 한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 도메인 제약에 대한 문제를 해결하기 위해 일반적인 지식베이스 확장 기법을 사용하는 것이 아닌 술부를 통해 직접 관계를 추출하고 주체와 대상을 식별하는 공개정보 추출 기법과 주체 및 대상을 대명사 및 기타 참조 표현이 있을 경우 모호성을 해결하기 위한 상호참조해결 기법을 사용함으로써 도메인 제약 문제를 해결할 수 있도록 한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법을 제공하는데 있다.
전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 제1 공개정보 추출모듈; 상기 제1 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 제2 공개정보 추출모듈; 상기 제2 공개정보 추출모듈로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 상호정보 추출모듈; 및 상기 제1 및 제2 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 상호정보 추출모듈로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 정보결합모듈을 포함하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치를 제공하는 것이다.
여기서, 상기 제1 및 제2 공개정보 추출모듈과 상기 상호정보 추출모듈에 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.
바람직하게, 상기 정보결합모듈로부터 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어질 수 있다.
바람직하게, 상기 상호정보 추출모듈에 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어질 수 있다.
본 발명의 제2 측면은, 지식 베이스(Knowledge Base) 확장을 위하여 인공기능(AI) 기반으로 지식 트리플(Knowledge Triple)을 추출하는 방법으로서, (a) 제1 공개정보 추출모듈을 통해 외부로부터 입력된 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 단계; (b) 제2 공개정보 추출모듈을 통해 상기 단계(a)에서 추출된 각 문장의 관계 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 단계; (c) 상호정보 추출모듈을 통해 상기 단계(b)에서 추출된 각 문장의 주체와 대상 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우, 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축한 후, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 단계; 및 (d) 정보결합모듈을 통해 상기 단계(a) 및 단계(b)에서 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 단계(c)에서 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 단계를 포함하는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 제공하는 것이다.
여기서, 상기 단계(a) 내지 단계(c)에서 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.
바람직하게, 상기 단계(d)에서 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어질 수 있다.
바람직하게, 상기 단계(c)에서 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어질 수 있다.
본 발명의 제3 측면은, 상술한 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법은 컴퓨터로 판독할 수 있는 기록매체에 컴퓨터로 판독할 수 있는 코드로 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체에는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피 디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.
이상에서 설명한 바와 같은 본 발명의 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법에 따르면, 문장 단위의 구조화되지 않은 텍스트 데이터에서 자연어처리 기술 및 인공지능(AI) 기반의 기계 학습방법을 사용하여, 지식베이스(Knowledge Base)를 확장하기 위해 문장의 주체(Subject) 및 대상(Object)과 이를 서술한 관계(Relation) 정보를 가진 지식 트리플(Knowledge Triple)을 추출할 수 있는 이점이 있다.
또한, 본 발명에 따르면, 공개정보 추출(Information Extraction)과 상호참조해결(Co-reference resolution) 기술을 이용하여 종단간 학습이 가능한 지식 트리플을 추출할 수 있는 이점이 있다.
또한, 본 발명에 따르면, 도메인 제약에 대한 문제를 해결하기 위해 일반적인 지식베이스 확장 기법을 사용하는 것이 아닌 술부를 통해 직접 관계를 추출하고 주체와 대상을 식별하는 공개정보 추출 기법과 주체 및 대상을 대명사 및 기타 참조 표현이 있을 경우 모호성을 해결하기 위한 상호참조해결 기법을 사용함으로써 도메인 제약 문제를 해결할 수 있는 이점이 있다.
또한, 본 발명에 따르면, 비정형 데이터인 원시 텍스트 데이터의 도메인과 특징에 관계없이 비정형 데이터인 텍스트 데이터에서 지식 트리플을 추출할 수 있고, 추출된 지식 트리플인 정형 데이터를 통하여 다양한 자연어 문제인 챗봇, 문서 요약, 질문 생성, 답변 생성 등에서 도움을 줄 수 있으며, 비정형 데이터인 텍스트의 실질적인 의미를 찾아낼 수 있는 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치를 설명하기 위한 전체적인 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 설명하기 위한 전체적인 흐름도이다.
도 3 내지 도 8은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 구조적으로 설명하기 위한 일 예를 나타낸 도면들이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.
도 1은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치를 설명하기 위한 전체적인 블록 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치는, 크게 제1 공개정보 추출모듈(100), 제2 공개정보 추출모듈(200), 상호정보 추출모듈(300), 및 정보결합모듈(400) 등을 포함하여 이루어진다. 한편, 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치는 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 가질 수도 있다.
이하, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치의 구성요소들에 대해 구체적으로 살펴보면 다음과 같다.
제1 공개정보 추출모듈(100)은 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 기능을 수행한다.
제2 공개정보 추출모듈(200)은 제1 공개정보 추출모듈(100)로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 기능을 수행한다.
상호정보 추출모듈(300)은 제2 공개정보 추출모듈(200)로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 기능을 수행한다.
이때, 상호정보 추출모듈(300)에 적용된 상호참조해결 기술은 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어짐이 바람직하다.
즉, 상기 상호참조해결 기술은 임의의 개체(entity)에 대하여 다른 표현으로 사용되는 단어들을 찾아 서로 같은 개체로 연결해주는 자연어처리 문제로서, 하나의 개체를 다른 단어로 표현하는 경우는 별명, 약어, 대명사, 한정사구 등이 있으며, 이들 간의 참조 관계를 올바르게 찾아낼 수 있으면 담화나 문서 내에서 언급하는 대상에 대한 정보를 일관성 있게 유지할 수 있고, 정확하게 전달할 수 있다.
따라서, 상기 상호참조해결 기술은 문서에서 등장하는 개체를 이해하는데 매우 중요한 역할을 하며, 예컨대, 질의응답, 문서요약, 기계 번역, 정보 추출 등에 응용될 수 있다.
한편, 제1 및 제2 공개정보 추출모듈(100 및 200)과 상호정보 추출모듈(300)에 적용된 인공지능(AI) 기반의 기계 학습방법은 예컨대, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및/또는 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.
그리고, 정보결합모듈(400)은 제1 및 제2 공개정보 추출모듈(100 및 200)로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상호정보 추출모듈(300)로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인(Domain) 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 기능을 수행한다.
이때, 정보결합모듈(400)로부터 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는 예컨대, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플(Knowledge Triple)을 포함하여 이루어짐이 바람직하다.
이하에는 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 설명하기 위한 전체적인 흐름도이고, 도 3 내지 도 8은 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법을 구조적으로 설명하기 위한 일 예를 나타낸 도면들이다.
도 1 내지 도 8을 참조하면, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법은, 먼저, 제1 공개정보 추출모듈(100)을 통해 외부로부터 입력된 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출한다(S100).
이후에, 제2 공개정보 추출모듈(200)을 통해 상기 단계S100에서 추출된 각 문장의 관계 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출한다(S200).
예컨대, 도 4에 도시된 바와 같이, "오바마는 트럼프에게 전화를 했다. 그러나 그는 오바마의 전화를 받지 않았다."라는 입력 텍스트에서 제1 및 제2 공개정보 추출모듈(100 및 200)을 통해 공개정보인 각 문장의 관계(Relation) 및 주체(Subject)와 대상(Object) 정보{즉, ("오바마", "전화를 했다.", "트럼프"), ("그", "전화를 받지 않았다", "오바마")}를 추출한다.
그런 다음, 상호정보 추출모듈(300)을 통해 상기 단계S200에서 추출된 각 문장의 주체와 대상 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우, 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축한 후, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출한다(S300).
이때, 상기 단계S300에서 적용된 상호참조해결 기술은 예컨대, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어짐이 바람직하다.
한편, 상기 단계S100 내지 단계S300에서 적용된 인공지능(AI) 기반의 기계 학습방법은 예컨대, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및/또는 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어짐이 바람직하다.
전술한 상기 단계S300에서의 상호참조해결 부분은 전술한 상기 단계S100 및 단계S200에서의 공개정보 추출 부분에서 추출된 지식 트리플(Knowledge Triple) 정보 중에서 주체(Subject)나 대상(Object)이 대명사인 경우 이를 해결하기 위한 분석 과정이다.
즉, 상기 단계S100 및 단계S200에서 공개정보 추출된 정보가 대명사인 경우 텍스트에서 정보를 추출하여도 사용이 불가능하기 때문이다. 예컨대, 도 5에 도시된 바와 같이, 상기 단계S300에서의 상호참조 해결을 통해 추출된 각 문장의 공개정보를 {(오바마, 오바마), (그, 트럼프)}로 연결하여 언급을 묶어줄 수 있다.
그리고, 상기 단계S300에서 구축된 상호참조 해결모델은 정확도를 높이기 위해 제1 및 제2 공개정보 추출모듈(100 및 200)에서 분석한 각 문장의 각 관계 정보에 따른 각 문장의 주체(Subject)와 대상(Object)의 특징을 상호참조 해결모델의 입력데이터에 추가하여 정보를 제공한다.
즉, 제1 및 제2 공개정보 추출모듈(100 및 200)의 결과를 이용하여 상호참조 해결모델을 학습하는 방법은 도 6에 도시된 바와 같다. 이를 통해 제1 및 제2 공개정보 추출모듈(100 및 200)의 결과를 참조함으로써, 상호참조 해결모델의 정확도가 올라간다.
다음으로, 정보결합모듈(400)을 통해 상기 단계S100 및 단계S200에서 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 단계S300에서 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출한다(S400).
이때, 상기 단계S400에서 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는 예컨대, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플(Knowledge Triple)을 포함하여 이루어짐이 바람직하다.
예컨대, 도 7 및 도 8에 도시된 바와 같이, 상기 단계S100 및 단계S200에서 제1 및 제2 공개정보 추출모듈(100 및 200)을 통해 외부로부터 입력된 비정형의 텍스트 데이터에서 주체, 관계와 대상의 관계인 지식 트리플(Knowledge Triple) 정보를 추출한 후, 추출된 지식 트리플 정보에서 사용할 수 없는 대명사의 정보를 상기 단계S300에서 상호정보 추출모듈(300)을 통해 해결함으로써, 사전 지식의 필요가 없으며, 비정형 데이터인 텍스트들의 도메인의 영향을 받지 않는 공개 도매인을 위한 지식 베이스 확장을 할 수 있다.
한편, 본 발명의 일 실시예에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
전술한 본 발명에 따른 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.
100 : 제1 공개정보 추출모듈,
200 : 제2 공개정보 추출모듈,
300 : 상호정보 추출모듈,
400 : 정보결합모듈

Claims (9)

  1. 외부로부터 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 입력받아 이를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 제1 공개정보 추출모듈;
    상기 제1 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 제2 공개정보 추출모듈;
    상기 제2 공개정보 추출모듈로부터 추출된 각 문장의 주체와 대상 정보를 제공받아 이를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축하고, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 상호정보 추출모듈; 및
    상기 제1 및 제2 공개정보 추출모듈로부터 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 상호정보 추출모듈로부터 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 정보결합모듈을 포함하되,
    상기 제1 및 제2 공개정보 추출모듈과 상기 상호정보 추출모듈에 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어지고,
    상기 정보결합모듈로부터 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어지며,
    상기 상호정보 추출모듈에 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어지며,
    상기 상호정보 추출모듈을 통해 구축된 상호참조 해결모델은, 정확도를 높이기 위해 상기 제1 및 제2 공개정보 추출모듈에서 추출된 각 문장의 각 관계 정보에 따른 각 문장의 주체(Subject)와 대상(Object)의 특징을 입력데이터에 추가하는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1 공개정보 추출모듈, 제2 공개정보 추출모듈, 상호정보 추출모듈, 및 정보결합모듈을 포함하는 장치를 이용하여 지식 베이스(Knowledge Base) 확장을 위한 인공기능(AI) 기반의 지식 트리플(Knowledge Triple)을 추출하는 방법으로서,
    (a) 상기 제1 공개정보 추출모듈을 통해 외부로부터 입력된 문장 단위의 구조화되지 않은 비정형의 텍스트 데이터를 바탕으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 관계(Relation) 정보를 추출하는 단계;
    (b) 상기 제2 공개정보 추출모듈을 통해 상기 단계(a)에서 추출된 각 문장의 관계 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법을 이용하여 각 문장의 각 관계에 따른 각 문장의 주체(Subject)와 대상(Object) 정보를 추출하는 단계;
    (c) 상기 상호정보 추출모듈을 통해 상기 단계(b)에서 추출된 각 문장의 주체와 대상 정보를 기반으로 기 설정된 인공지능(AI) 기반의 기계 학습방법 및 상호참조해결(Co-reference resolution) 기술을 이용하여 각 문장의 주체나 대상이 대명사인 경우, 해당 대명사의 주체나 대상을 서로 같은 주체나 대상으로 연결하는 상호참조 해결모델을 구축한 후, 상기 구축된 상호참조 해결모델을 통해 각 문장의 주체나 대상에 대한 상호정보를 추출하는 단계; 및
    (d) 상기 정보결합모듈을 통해 상기 단계(a) 및 단계(b)에서 추출된 각 문장의 관계 정보, 주체와 대상 정보 및 상기 단계(c)에서 추출된 각 문장의 주체나 대상에 대한 상호정보를 결합하여, 비정형 텍스트 데이터들의 도메인 영향을 받지 않는 공개 도메인을 위한 지식 베이스 확장 데이터를 추출하는 단계를 포함하되,
    상기 단계(a) 내지 단계(c)에서 적용된 인공지능(AI) 기반의 기계 학습방법은, 신경망(Neural Network), SVM(Support Vector Machine), MLP(Multi Layer Perception), 및 딥러닝(Deep Learning) 중 적어도 하나의 인공지능 학습방법으로 이루어지고,
    상기 단계(d)에서 추출된 공개 도메인을 위한 지식 베이스 확장 데이터는, 지식 베이스를 확장하기 위해 각 문장의 주체 및 대상과 이를 서술한 관계 정보의 지식을 가지고 있는 종단간 학습이 가능한 지식 트리플을 포함하여 이루어지며,
    상기 단계(c)에서 적용된 상호참조해결 기술은, 각 문장의 주체나 대상에 대하여 다른 표현으로 사용되는 단어들을 찾아, 서로 같은 주체나 대상으로 연결해주는 자연어처리 기술을 포함하여 이루어지며,
    상기 단계(c)에서 구축된 상호참조 해결모델은, 정확도를 높이기 위해 상기 제1 및 제2 공개정보 추출모듈에서 추출된 각 문장의 각 관계 정보에 따른 각 문장의 주체(Subject)와 대상(Object)의 특징을 입력데이터에 추가하는 것을 특징으로 하는 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 제5 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020200160615A 2020-11-26 2020-11-26 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법 KR102423072B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200160615A KR102423072B1 (ko) 2020-11-26 2020-11-26 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200160615A KR102423072B1 (ko) 2020-11-26 2020-11-26 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220072988A KR20220072988A (ko) 2022-06-03
KR102423072B1 true KR102423072B1 (ko) 2022-07-20

Family

ID=81983493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200160615A KR102423072B1 (ko) 2020-11-26 2020-11-26 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102423072B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109655A1 (en) 2015-10-16 2017-04-20 Hiroaki Miyazaki Artificial intelligence apparatus autonomously expanding knowledge by inputting language
US10482384B1 (en) 2018-11-16 2019-11-19 Babylon Partners Limited System for extracting semantic triples for building a knowledge base

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101012504B1 (ko) * 2008-10-29 2011-02-08 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출방법
KR101662433B1 (ko) * 2015-03-09 2016-10-05 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
KR20150084706A (ko) * 2015-06-26 2015-07-22 경북대학교 산학협력단 온톨로지의 지식 학습 장치 및 그의 방법
KR101991320B1 (ko) * 2017-03-24 2019-06-21 (주)아크릴 온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법
KR102050244B1 (ko) 2017-10-16 2019-11-29 한국과학기술원 메신저 단체 채팅방 활성화를 위한 자연어 처리 기반 대화형 챗봇 운용 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109655A1 (en) 2015-10-16 2017-04-20 Hiroaki Miyazaki Artificial intelligence apparatus autonomously expanding knowledge by inputting language
US10482384B1 (en) 2018-11-16 2019-11-19 Babylon Partners Limited System for extracting semantic triples for building a knowledge base

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박성식. 듀얼 포인터 네트워크를 사용한 문장 내 모든 개체 간의 관계 추출. 강원대학교대학원 컴퓨터정보통신공학과 공학석사학위논문. 강원대학교. 2020.2.*

Also Published As

Publication number Publication date
KR20220072988A (ko) 2022-06-03

Similar Documents

Publication Publication Date Title
Yaghoobzadeh et al. Multi-level representations for fine-grained typing of knowledge base entities
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN114580382A (zh) 文本纠错方法以及装置
Kenny Human and machine translation
CN104573099A (zh) 题目的搜索方法及装置
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN112199473A (zh) 一种知识问答系统中的多轮对话方法与装置
Yang et al. Deep learning and its applications to natural language processing
CN105095178A (zh) 实现文本语义容错理解的方法及系统
CN110675863A (zh) 语音语料生成方法及装置、语音识别方法及装置
Kocoń et al. Evaluating KGR10 Polish word embeddings in the recognition of temporal expressions using BiLSTM-CRF
US11934815B2 (en) Method and system for translation of codes based on semantic similarity
CN105373527B (zh) 一种省略恢复方法及问答系统
KR102423072B1 (ko) 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법
Zhang et al. Selective decoding for cross-lingual open information extraction
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
Agirre et al. Ubc: Cubes for english semantic textual similarity and supervised approaches for interpretable sts
CN114896973A (zh) 一种文本处理方法、装置及电子设备
CN110992939B (zh) 语言模型训练方法、解码方法、装置、存储介质及设备
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
Ali et al. Urdu noun phrase chunking: HMM based approach
Gardie et al. Anyuak Language Named Entity Recognition Using Deep Learning Approach
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
JP6668222B2 (ja) 並べ替え装置、並べ替え方法、及び並び替えプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right