KR102098255B1 - 지식 임베딩 기반 지식 보강 시스템 및 방법 - Google Patents
지식 임베딩 기반 지식 보강 시스템 및 방법 Download PDFInfo
- Publication number
- KR102098255B1 KR102098255B1 KR1020180153013A KR20180153013A KR102098255B1 KR 102098255 B1 KR102098255 B1 KR 102098255B1 KR 1020180153013 A KR1020180153013 A KR 1020180153013A KR 20180153013 A KR20180153013 A KR 20180153013A KR 102098255 B1 KR102098255 B1 KR 102098255B1
- Authority
- KR
- South Korea
- Prior art keywords
- knowledge
- data
- instances
- input data
- learning
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
지식 베이스의 지식 데이터를 보강하기 위한 시스템은, 본 발명의 예시적 실시예에 따라, 학습 대상인 제1 지식 데이터 및 보강 대상인 위한 제2 지식 데이터를 지식 베이스에서 선별하는 큐레이션 수행부, 제1 지식 데이터 및 제2 지식 데이터에 기초하여 학습 모델을 위한 제1 입력 데이터 및 제2 입력 데이터를 각각 생성하는 입력 데이터 생성부, 및 제1 입력 데이터에 따라 학습된 학습 모델을 구축하고, 제2 입력 데이터에 대응하는 출력 데이터를 학습 모델로부터 획득하는 학습 모델 운용부를 포함할 수 있고, 큐레이션 수행부는, 출력 데이터에 기초하여 보강된 지식 데이터를 지식 베이스에 제공할 수 있다.
Description
본 발명의 기술적 사상은 지식 베이스에 관한 것으로서, 자세하게는 지식 임베딩 기반 지식 보강 시스템 및 방법에 관한 것이다.
본 발명은 과학기술정보통신부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 (주)솔트룩스에서 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2018.01.01~2018.12.31, 연구관리 전문기관: 정보통신기술진흥센터, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식 베이스 및 추론 기술 개발, 과제 고유번호: 2013-0-00109]
본 발명의 배경기술은 대한민국 등록특허공보 제10-1739540호(2017.06.08.)에 개시되어 있다.
지식 데이터를 저장하고 저장된 지식 데이터를 제공하는 지식 베이스(knowledge base)가 구축될 수 있다. 예를 들면, 지식 베이스는 구조화된 지식 데이터를 포함할 수 있고, 지식 데이터는 다양한 방식으로 생성될 수 있다. 방대한 양의 지식에 기인하여, 지식 베이스 구축을 위하여 사람에 의한 큐레이션 작업은 한계가 있을 수 있고, 이에 따라 자동화된 기법들이 활용될 수 있다. 그러나, 지식 리소스를 제공하는 지식 도메인의 불완전성, 지식 리소스의 오류, 지식 베이스의 구축에 사용되는 스키마의 한계 등 다양한 원인들에 기인하여 지식 베이스는 일부 불완전한 지식 데이터를 포함할 수 있고, 이에 따라 지식 베이스에 포함된 지식, 즉 지식 데이터를 보강하는 것이 요구될 수 있다.
지식 데이터를 저장하고 저장된 지식 데이터를 제공하는 지식 베이스(knowledge base)가 구축될 수 있다. 예를 들면, 지식 베이스는 구조화된 지식 데이터를 포함할 수 있고, 지식 데이터는 다양한 방식으로 생성될 수 있다. 방대한 양의 지식에 기인하여, 지식 베이스 구축을 위하여 사람에 의한 큐레이션 작업은 한계가 있을 수 있고, 이에 따라 자동화된 기법들이 활용될 수 있다. 그러나, 지식 리소스를 제공하는 지식 도메인의 불완전성, 지식 리소스의 오류, 지식 베이스의 구축에 사용되는 스키마의 한계 등 다양한 원인들에 기인하여 지식 베이스는 일부 불완전한 지식 데이터를 포함할 수 있고, 이에 따라 지식 베이스에 포함된 지식, 즉 지식 데이터를 보강하는 것이 요구될 수 있다.
본 발명의 기술적 사상은, 지식 임베딩에 기반하여 지식 베이스의 지식 데이터를 보강하기 위한 지식 보강 시스템 및 방법을 제공한다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상에 따라 지식 베이스의 지식 데이터를 보강하기 위한 시스템은, 학습 대상인 제1 지식 데이터 및 보강 대상인 위한 제2 지식 데이터를 지식 베이스에서 선별하는 큐레이션 수행부, 제1 지식 데이터 및 제2 지식 데이터에 기초하여 학습 모델을 위한 제1 입력 데이터 및 제2 입력 데이터를 각각 생성하는 입력 데이터 생성부, 및 제1 입력 데이터에 따라 학습된 학습 모델을 구축하고, 제2 입력 데이터에 대응하는 출력 데이터를 학습 모델로부터 획득하는 학습 모델 운용부를 포함할 수 있고, 큐레이션 수행부는, 출력 데이터에 기초하여 보강된 지식 데이터를 지식 베이스에 제공할 수 있다.
본 발명의 예시적 실시예에 따라, 큐레이션 수행부는, 미리 정의된 규칙에 기초하여 지식 베이스에서 제2 지식 데이터를 선별하는 보강 대상 선별부, 제2 지식 데이터에 포함된 제2 지식 인스턴스들에 기초하여, 제1 지식 데이터를 선별하는 학습 대상 선별부, 및 출력 데이터에 기초하여 보강된 지식을 생성하는 보강 지식 반영부를 포함할 수 있다.
본 발명의 예시적 실시예에 따라, 학습 대상 선별부는, 지식 베이스에서 제2 지식 인스턴스들 각각으로부터 미리 정의된 개수의 관계들 이하의 거리에 있는 제1 지식 인스턴스들을 포함하는 제1 지식 데이터를 선별할 수 있다.
본 발명의 예시적 실시예에 따라, 보강 대상 선별부는, 지식 베이스에서 지식 인스턴스들 사이 조대(coarse) 관계를 세분화된(subdivided) 관계로 정제하기 위하여, 조대 관계를 가지는 제2 지식 인스턴스들을 포함하는 제2 지식 데이터를 선별할 수 있다.
본 발명의 예시적 실시예에 따라, 보강 대상 선별부는, 지식 베이스에서 지식 인스턴스들 사이 관계를 검증하기 위하여, 단방향 관계를 가지는 제2 지식 인스턴스들을 포함하는 제2 지식 데이터를 선별할 수 있다.
본 발명의 예시적 실시예에 따라, 보강 대상 선별부는, 지식 베이스에서 지식 인스턴스들 사이 신규 관계를 형성하기 위하여, 상호 공통 정보의 크기가 미리 정의된 기준치 이상인 제2 지식 인스턴스들을 포함하는 제2 지식 데이터를 선별할 수 있다.
본 발명의 예시적 실시예에 따라, 입력 데이터 생성부는, 지식 베이스로부터 제1 지식 데이터 및 제2 지식 데이터를 획득하기 위한 쿼리를 생성하는 쿼리 생성부, 제1 지식 데이터를 필터링하고, 필터링된 제1 지식 데이터를 제1 입력 데이터로 변환하는 학습 데이터 생성부, 및 제2 지식 데이터에 포함된 제2 지식 인스턴스들을 제2 입력 데이터로 변환하는 테스트 데이터 생성부를 포함할 수 있다.
본 발명의 예시적 실시예에 따라, 지식 베이스는, 지식 인스턴스를 주어로서 포함하고 지식 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는 트리플(triple)을 포함할 수 있고, 학습 데이터 생성부는, 제1 지식 데이터에 포함된 제1 지식 인스턴스들을 주어로서 가지는 트리플들 중 지식 인스턴스가 아닌 목적어를 가지는 트리플을 제거함으로써 제1 지식 데이터를 필터링할 수 있다.
본 발명의 예시적 실시예에 따라, 학습 데이터 생성부 및 테스트 데이터 생성부는, 지식 벡터 모델에 기초하여, 지식 벡터들을 포함하는 제1 입력 데이터 및 제2 입력 데이터를 각각 생성할 수 있다.
본 발명의 예시적 실시예에 따라, 지식 베이스의 구축에 사용된 스키마에 기초하여 출력 데이터를 검증하는 출력 데이터 검증부를 더 포함할 수 있고, 큐레이션 수행부는, 검증된 출력 데이터에 기초하여 보강된 지식 데이터를 지식 베이스에 제공할 수 있다.
본 발명의 기술적 사상에 따른 시스템 및 방법에 의하면, 지식 베이스에 포함된 지식들에 따라 학습된 학습 모델을 사용함으로써 지식 베이스의 자체적인 보강이 가능할 수 있다.
또한, 본 발명의 기술적 사상에 따른 시스템 및 방법에 의하면, 지식 베이스의 불완전한 지식 데이터가 보강됨에 따라 지식 베이스의 신뢰도 및 활용도를 현저하게 상승시킬 수 있다.
본 발명의 예시적 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 아니하며, 언급되지 아니한 다른 효과들은 이하의 기재로부터 본 발명의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 발명의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 발명의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 본 발명의 예시적 실시예에 따른 시스템 및 그 입출력 관계를 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 큐레이션 수행부의 예시를 나타내는 도면이다.
도 3는 본 발명의 예시적 실시예에 따라 도 2의 보강 대상 선별부의 동작의 예시를 나타내는 도면이다.
도 4는 본 발명의 예시적 실시예에 따라 도 2의 학습 대상 선별부의 동작의 예시를 나타낸다.
도 5는 본 발명의 예시적 실시예에 따라 도 1의 입력 데이터 생성부의 예시를 나타내는 블록도이다.
도 6은 본 발명의 예시적 실시예에 따라 도 5의 학습 데이터 생성부의 동작의 예시를 나타내는 순서도이다.
도 7은 본 발명의 예시적 실시예에 따라 도 1의 학습 모델 운용부의 예시를 나타내는 도면이다.
도 8은 본 발명의 예시적 실시예에 따른 지식 보강 시스템을 나타내는 블록도이다.
도 9는 본 발명의 예시적 실시예에 따른 지식 보강 방법을 나타내는 순서도이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 큐레이션 수행부의 예시를 나타내는 도면이다.
도 3는 본 발명의 예시적 실시예에 따라 도 2의 보강 대상 선별부의 동작의 예시를 나타내는 도면이다.
도 4는 본 발명의 예시적 실시예에 따라 도 2의 학습 대상 선별부의 동작의 예시를 나타낸다.
도 5는 본 발명의 예시적 실시예에 따라 도 1의 입력 데이터 생성부의 예시를 나타내는 블록도이다.
도 6은 본 발명의 예시적 실시예에 따라 도 5의 학습 데이터 생성부의 동작의 예시를 나타내는 순서도이다.
도 7은 본 발명의 예시적 실시예에 따라 도 1의 학습 모델 운용부의 예시를 나타내는 도면이다.
도 8은 본 발명의 예시적 실시예에 따른 지식 보강 시스템을 나타내는 블록도이다.
도 9는 본 발명의 예시적 실시예에 따른 지식 보강 방법을 나타내는 순서도이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 아니하는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하 도면 및 설명에서, 하나의 블록으로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다. 또한, 본 명세서에서 "시스템" 또는 "데이터베이스"는 적어도 하나의 프로세서 및 프로세서에 의해서 액세스되는 메모리를 포함하는 컴퓨팅 시스템을 지칭할 수 있다.
도 1은 본 발명의 예시적 실시예에 따른 시스템 및 그 입출력 관계를 나타내는 블록도이다. 도 1에 도시된 바와 같이, 지식 보강 시스템(100)은 지식 베이스(200) 및 학습 모델(300)과 통신 가능하게 연결될 수 있다. 후술되는 바와 같이, 지식 보강 시스템(100)은 지식 베이스(200)에 포함된 지식 데이터에 기초하여 학습된 학습 모델(300)을 사용하여 지식 베이스(200)에 포함된 불완전한 지식 데이터를 보강할 수 있다. 도 1에 도시된 블록들(100, 200, 300)은 네트워크를 통해서 상호 통신할 수도 있고, 일대일 통신을 위한 전용 채널을 통해서 상호 통신할 수도 있다. 또한, 도 1에 도시된 블록들(100, 200, 300) 중 2개 이상이 하나의 시스템(예컨대, 컴퓨팅 시스템)에 포함될 수 있고, 일부 실시예들에서 학습 모델(300)은 지식 보강 시스템(100)에 포함될 수도 있다. 본 명세서에서, 지식 보강 시스템(100)은 단순하게 시스템으로서 지칭될 수도 있다.
지식 베이스(200)는 온톨로지에 기초하여 구조화된 지식(또는 지식 데이터)을 포함할 수 있다. 온톨로지(ontology)는 실존하거나 사람이 인식 가능한 것들을 컴퓨터에서 다룰 수 있는 형태로 표현한 것으로서, 온톨로지 구성요소들은, 예컨대 엔티티(entity; E)(또는 인스턴스(instance)), 클래스(class; C), 속성(property; P), 값(value; V)을 포함할 수 있다. 추가적으로, 온톨로지 구성요소들은, 관계(relation)(엔티티간 속성 또는 클래스간 속성), 함수 텀(function term), 제한(restriction), 규칙(rule), 사건(event) 등을 더 포함할 수 있다. 지식 베이스(200)는 온톨로지에 기반하여 방대한 지식 데이터를 저장할 수 있고, 예컨대 지식 베이스(200)는 RDF(Resource Description Framework)를 사용하여 표현된 지식 데이터를 포함할 수 있다. 일 실시예들에서, 지식 데이터 단위로서 트리플(triple)이 사용될 수 있고, 지식 베이스(200)는 쿼리, 예컨대 SPARQL(SPARQL Protocol and RDF Query Language) 쿼리에 응답하여 트리플을 반환할 수 있다. 트리플은 "주어-술어-목적어"로 구성될 수 있고, 인스턴스는 트리플의 주어뿐만 아니라 목적어도 될 수 있고, 일부 실시예들에서 술어도 될 수 있다. 인스턴스는 특정 지식을 나타내는 데이터 단위로 정의될 수 있고, 본 명세서에서 지식 인스턴스로서 지칭될 수도 있다. 예를 들면, 트리플 "이순신-국적-조선"에서 "이순신" 및 "조선"은 지식 인스턴스들일 수 있다.
지식 베이스(200)는 다양한 방식들에 의해서 구축될 수 있다. 예를 들면, 지식 베이스(200)는 다양한 지식 리소스를 보유하는 지식 도메인으로부터 제공되는 지식 리소스를 바탕으로 구축될 수 있다. 지식 도메인은, 비제한적인 예시로서, 위키피디아(www.wikipedia.org)와 같이 사용자에 정보를 제공하는 주체를 지칭할 수도 있고, 특정 분야의 지식들을 저장하고 있는 서버를 지칭할 수도 있고, 뉴스와 같은 기사들을 저장하고 있는 서버들 지칭할 수도 있으며, 지식 베이스(200)와 상이한 다른 지식 베이스를 지칭할 수도 있다. 지식 도메인은 지식 베이스(200)와 상이한 구조에 기초하여 지식 리소스를 포함할 수 있고, 이에 따라 지식 도메인으로부터 제공되는 지식 리소스는 지식 베이스(200)의 구조, 즉 지식 베이스(200)의 온톨로지에 부합하는 지식 데이터로 변환될 수 있고, 변환된 지식 데이터가 지식 베이스(200)에 포함(즉, 저장)될 수 있다.
지식 도메인에 포함된 방대한 양의 지식 리소스에 기인하여, 지식 리소스를 지식 베이스(200)에 반영하는 과정에서 사람에 의한 큐레이션 작업은 한계가 있을 수 있다. 이에 따라, 지식 리소스를 지식 베이스에 반영하는 과정, 예컨대 지식 리소스를 변환하는 과정은 미리 정의된 규칙(예컨대, 도 8의 500)에 기초하여 자동으로 수행될 수 있다. 이에 따라, 지식 리소스를 제공하는 지식 도메인의 불완정성, 지식 리소스의 오류, 미리 정의된 규칙의 한계 등 다양한 요인들에 기인하여 지식 베이스(200)는 일부 불완전한 지식 데이터를 포함할 수 있다. 예를 들면, 지식 베이스(200)는 불완전한 지식 데이터, 예컨대 세분화된(subdivided) 관계가 아닌 조대(coarse) 관계를 가지는 지식 인스턴스들, 상호 관계가 형성되지 아니한 지식 인스턴스들, 잘못된 관계를 가지는 지식 인스턴스들 등을 포함할 수 있다.
학습 모델(300)은 인공 신경망을 포함할 수 있다. 인공 신경망은 뉴런(neuron)(또는 뉴런 모델)들이 상호연결된 집합들을 구현하는 구조를 지칭할 수 있다. 인공 뉴런은 입력 데이터에 대한 단순 연산들을 수행함으로써 출력을 생성할 수 있고, 출력은 다른 인공 뉴런에 입력으로서 전달될 수 있다.
지식 보강 시스템(100)은 지식 베이스(200)에 포함된 불완전한 지식 데이터, 즉 제2 지식 데이터(KD2)를 선별할 수 있고, 제2 지식 데이터(KD2)를 보강함으로써 지식 베이스(200)의 신뢰도 및 활용도를 상승시킬 수 있다. 이를 위하여, 지식 보강 시스템(100)은 학습 모델(300)을 활용할 수 있고, 학습 모델(300)을 학습시키기 위한 지식 데이터, 즉 제1 지식 데이터(KD1)를 선별할 수 있고, 제1 지식 데이터(KD1)에 기초하여 학습 모델(300)을 학습시킬 수 있다. 도 1에 도시된 바와 같이, 지식 보강 시스템(100)은 큐레이션 수행부(120), 입력 데이터 생성부(140) 및 학습 모델 운용부(160)를 포함할 수 있다.
큐레이션 수행부(120)는 학습 대상인 제1 지식 데이터(KD1) 및 보강 대상인 제2 지식 데이터(KD2)를 지식 베이스(200)에서 선별할 수 있다. 예를 들면, 큐레이션 수행부(120)는 미리 정의된 규칙에 기초하여 지식 베이스(200)에서 제2 지식 데이터(KD2)를 선별할 수 있고, 선별된 제2 지식 데이터(KD2)에 기초하여 제1 지식 데이터(KD1)를 선별할 수 있다. 큐레이션 수행부(120)는 선별된 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)에 대한 정보를 입력 데이터 생성부(140)에 제공할 수 있다. 예를 들면, 큐레이션 수행부(120)는 제1 지식 데이터(KD1)에 포함된 지식 인스턴스들(본 명세서에서 제1 지식 인스턴스들로서 지칭될 수도 있다) 및 제2 지식 데이터(KD2)에 포함된 지식 인스턴스들(본 명세서에서 제2 지식 인스턴스들로서 지칭될 수도 있다)에 대한 식별자들, 예컨대 URI(Uniform Resource Identifier)들을 입력 데이터 생성부(140)에 제공할 수 있다.
큐레이션 수행부(120)는 또한, 학습 모델 운용부(160)로부터 출력 데이터(D_OUT)를 수신할 수 있고, 출력 데이터(D_OUT)에 기초하여 제2 지식 데이터(KD2)를 보강한 지식 데이터를 지식 베이스(200)에 제공할 수 있다. 예를 들면, 출력 데이터(D_OUT)는 제2 지식 데이터(KD2)에 포함된 제2 지식 인스턴스들 사이 관계에 대한 정보를 포함할 수 있고, 큐레이션 수행부(120)는 제2 지식 인스턴스들 및 출력 데이터(D_OUT)에 포함된 관계에 기초하여 트리플을 생성할 수 있으며, 생성된 트리플을 지식 베이스(200)에 제공할 수 있다. 큐레이션 수행부(120)의 예시는 도 2를 참조하여 후술될 것이다.
입력 데이터 생성부(140)는 큐레이션 수행부(120)로부터 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)에 대한 정보를 수신할 수 있고, 이에 기초하여 지식 베이스(200)로부터 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)를 획득할 수 있다. 입력 데이터 생성부(140)는 제1 지식 데이터(KD1)에 기초하여 학습 모델(300)을 위한 제1 입력 데이터(D_IN1)를 생성할 수 있고, 제2 지식 데이터(KD2)에 기초하여 학습 모델(300)을 위한 제2 입력 데이터(D_IN2)를 생성할 수 있다. 제1 입력 데이터(D_IN1) 및 제2 입력 데이터(D_IN2)는 학습 모델(300)에서 처리가능한 포맷을 가질 수 있고, 예컨대 복수의 차원들에 대응하는 값들을 가지는 벡터들을 포함할 수 있다. 입력 데이터 생성부(140)의 예시는 도 5를 참조하여 후술될 것이다.
학습 모델 운용부(160)는 입력 데이터 생성부(140)로부터 제1 입력 데이터(D_IN1)를 수신할 수 있고, 제1 입력 데이터(D_IN1)에 따라 학습시킴으로써 학습 모델(300)을 구축할 수 있다. 또한, 학습 모델 운용부(160)는 입력 데이터 생성부(140)로부터 제2 입력 데이터(D_IN2)를 수신할 수 있고, 제2 입력 데이터(D_IN2)를 학습 모델(300)에 제공함으로써 출력 데이터(D_OUT)를 획득할 수 있으며, 출력 데이터(D_OUT)를 큐레이션 수행부(120)에 제공할 수 있다. 일부 실시예들에서, 학습 모델 운용부(160)는 학습 모델(300)로부터 수신된 데이터를 가공함으로써 출력 데이터(D_OUT)를 생성하여 큐레이션 수행부(120)에 제공할 수도 있다. 학습 모델 운용부(160)의 예시는 도 7을 참조하여 후술될 것이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 큐레이션 수행부(120)의 예시를 나타내는 도면이다. 도 1을 참조하여 전술된 바와 같이, 도 2의 큐레이션 수행부(120')는 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)를 지식 베이스(200)에서 선별할 수 있고, 출력 데이터(D_OUT)에 기초하여 보강된 지식 데이터를 지식 베이스(200)에 제공할 수 있다. 도 2에 도시된 바와 같이, 큐레이션 수행부(120')는 학습 대상 선별부(122), 보강 대상 선별부(124) 및 보강 지식 반영부(126)를 포함할 수 있고, 이하에서 도 2는 도 1을 참조하여 설명될 것이다.
학습 대상 선별부(122)는 학습 대상인 제1 지식 데이터(KD1)를 지식 베이스(200)에서 선별할 수 있고, 선별된 제1 지식 데이터(KD1)에 포함된 제1 지식 인스턴스(INS1)를 출력할 수 있다. 예를 들면, 학습 대상 선별부(122)는, 일부 실시예들에서 지식 베이스(200)에 포함된 임의의 지식 인스턴스들을 포함하는 제1 지식 데이터(KD1)를 선별할 수도 있고, 일부 실시예들에서 특정 도메인에 포함되는 지식 인스턴스들을 포함하는 제1 지식 데이터(KD1)를 선별할 수도 있고, 일부 실시예들에서 도 1의 지식 보강 시스템(100)에 의해서 보강이 완료된 지식 데이터로서 제1 지식 데이터(KD1)를 선별할 수도 있으며, 일부 실시예들에서 보강 대상 선별부(124)로부터 제공된 정보에 기초하여 제1 지식 데이터(KD1)를 선별할 수도 있다. 학습 대상 선별부(122)의 동작의 예시는 도 4를 참조하여 후술될 것이다.
보강 대상 선별부(124)는 미리 정의된 규칙에 기초하여 지식 베이스(200)에서 제2 지식 데이터(KD2)를 선별할 수 있고, 선별된 제2 지식 데이터(KD2)에 포함된 제2 지식 인스턴스(INS2)를 출력할 수 있다. 도 1을 참조하여 전술된 바와 같이, 불완전한 지식 데이터는 다양한 형태를 가질 수 있고, 이에 따라 제2 지식 데이터(KD2)를 선별하기 위한 규칙은 다양한 선별 기준들을 정의할 수 있다. 보강 대상 선별부(124)의 동작의 예시는 도 3을 참조하여 후술될 것이다.
보강 지식 반영부(126)는 보강 대상 선별부(124)로부터 제2 지식 데이터(KD2)에 포함되는 제2 지식 인스턴스(INS2)(또는 제2 지식 인스턴스(INS2)에 대한 정보)를 수신할 수 있고, 출력 데이터(D_OUT)를 수신할 수 있다. 보강 지식 반영부(126)는 제2 지식 인스턴스(INS2) 및 출력 데이터(D_OUT)에 기초하여 보강된 지식 데이터를 생성할 수 있고, 보강된 지식 데이터를 지식 베이스(200)에 제공할 수 있다. 일부 실시예들에서, 보강 지식 반영부(126)는 2개의 제2 지식 인스턴스들(또는 그것들의 정보)을 수신할 수 있고, 출력 데이터(D_OUT)는 양 제2 지식 인스턴스들 사이 관계에 대한 정보를 포함할 수 있다. 보강 지식 반영부(126)는 출력 데이터(D_OUT)에 포함된 정보에 기초하여 양 제2 지식 인스턴스들의 관계를 변경하거나 설정함으로써 보강된 지식 데이터(예컨대, 트리플)를 생성하여 지식 베이스(200)에 제공할 수 있다.
도 3는 본 발명의 예시적 실시예에 따라 도 2의 보강 대상 선별부(124)의 동작의 예시를 나타내는 도면이다. 도 2를 참조하여 전술된 바와 같이, 보강 대상 선별부(124)는 미리 정의된 규칙에 기초하여 지식 베이스(200)에서 제2 지식 데이터(KD2)를 선별할 수 있고, 선별된 제2 지식 데이터(KD2)에 포함된 제2 지식 인스턴스(INS2)를 출력할 수 있다. 도 3에 도시된 보강 대상 선별부(124)의 동작들은 예시들에 불과하며, 도 3의 동작들은 순차적으로 수행될 수도 있고, 2이상의 동작들이 병렬적으로 수행될 수도 있다. 또한, 일부 실시예들에서 보강 대상 선별부(124)는 도 3에 도시된 동작들 중 적어도 일부만을 수행할 수도 있다. 이하에서, 도 3은 도 2를 참조하여 설명될 것이다.
도 3을 참조하면, 단계 S32에서 보강 대상 선별부(124)는 정제 대상을 선별할 수 있다. 본 명세서에서 지식 데이터의 정제는 추상화된 지식을 구체화하는 작업을 지칭할 수 있다. 예를 들면, 도 1을 참조하여 전술된 바와 같이 외부의 지식 리소스로부터 지식 베이스(200)를 구축하는 과정에서, 지식 인스턴스들이 생성될 수 있고, 지식 인스턴스들 사이 관계가 설정될 수 있다. 지식 리소스의 불명, 지식 베이스 스키마의 한계 등에 기인하여 일부 지식 인스턴스들은 상호 관계가 있으나 구체적으로 어떠한 관계인지 여부가 불명인 상태일 수 있다. 이에 따라, 그러한 지식 인스턴스들은 조대(coarse) 관계, 예컨대 "related to"와 같이 표현되는 관계를 가지도록 설정될 수 있다. 지식 베이스(200)에서 이러한 조대 관계의 지식 인스턴스들이 증가하는 경우, 지식 인스턴스들 및 그것들의 관계를 포함하는 지식 데이터의 정확도가 감소할 수 있고, 결과적으로 지식 베이스(200)의 신뢰도 및 활용도가 감소할 수 있다. 예를 들면, 지식 베이스(200)는 지식 인스턴스 "이성계" 및 지식 인스턴스 "이방원"이 "related to"로 연결된 지식 데이터, 즉 트리플 "이성계-related to-이방원"을 포함할 수 있고, 트리플 "이성계-related to-이방원"을 트리플 "이성계-아들-이방원"으로 세분화하는 것이 요구될 수 있다.
보강 대상 선별부(124)는, 지식 인스턴스들 사이 조대 관계를 세분화된(subdivided) 관계로 변경하기 위하여, 정제 대상인 지식 데이터로서 제2 지식 데이터(KD2)를 선별할 수 있다. 이에 따라, 제2 지식 데이터(KD2)는 조대 관계를 가지는 제2 지식 인스턴스들을 포함할 수 있다. 일부 실시예들에서, 보강 대상 선별부(124)는 조대 관계를 가지는 제2 지식 인스턴스들을 지식 베이스(200)에서 검색함으로써 제2 지식 데이터(KD2)를 선별할 수 있다.
단계 S34에서, 보강 대상 선별부(124)는 검증 대상을 선별할 수 있다. 본 명세서에서 지식 데이터의 검증은 지식 데이터에 포함된 정보를 검증하는 작업을 지칭할 수 있다. 예를 들면, 외부의 지식 리소스로부터 지식 베이스(200)를 구축하는 과정에서, 지식 리소스의 오류 등에 기인하여 지식 인스턴스들 사이 관계가 부정확할 수 있다. 이에 따라, 보강 대상 선별부(124)는 지식 베이스(200)에서 지식 인스턴스들 사이 관계를 검증하기 위하여 지식 데이터를 선별할 수 있다. 예를 들면, 지식 데이터로서 트리플 "이성계-아들-이방원"은, 지식 인스턴스 "이성계" 및 지식 인스턴스 "이방원"로부터 관계(또는 술어) "아들"이 도출되는지 여부에 따라 검증될 수 있다.
일부 실시예들에서, 보강 대상 선별부(124)는 단방향 관계를 가지는 제2 지식 인스턴스들을 포함하는 제2 지식 데이터(KD2)를 선별할 수 있다. 즉, 2개의 지식 인스턴들이 단방향의 관계만을 가지는 경우보다 양방향의 관계를 가지는 경우 양 지식 인스턴스들 사이 관계는 보다 높은 신뢰도를 가지는 것으로 추정될 수 있으므로, 단방향의 관계만을 가지는 제2 지식 인스턴스들이 제2 지식 데이터(KD2)에 포함될 수 있다. 예를 들면, 지식 베이스(200)에 지식 데이터로서 트리플 "이성계-아들-이방원"을 포함하는 반면, 트리플 "이방원-아버지-이성계"를 포함하지 아니하는 경우, 지식 인스턴스 "이성계" 및 지식 인스턴스 "이방원"은 제2 지식 인스턴스들로서 제2 지식 데이터(KD2)에 포함될 수 있다.
단계 S36에서, 보강 대상 선별부(124)는 확장 대상을 선별할 수 있다. 본 명세서에서 지식 데이터의 확장은 신규 지식을 추가하는 작업을 지칭할 수 있다. 예를 들면, 현실 세계에서 상호 관계를 가지는 지식들임에도 불구하고 지식 베이스(200)에서 해당 지식들에 대응하는 지식 인스턴스들이 어떠한 관계도 가지지 아니하는 경우가 있을 수 있다. 이에 따라, 보강 대상 선별부(124)는 지식 베이스(200)에서 상호 관계가 없는 지식 인스턴스들 사이 관계를 설정하기 위하여 지식 데이터를 선별할 수 있다. 예를 들면, 지식 인스턴스 "이성계" 및 지식 인스턴스 "이방원"은 지식 베이스(200)에서 아무 관계가 없을 수 있고, 관계 "아들"이 추가됨으로써 트리플 "이성계-아들-이방원"이 신규 지식 데이터로서 지식 베이스(200)에 부가될 수 있다.
일부 실시예들에서, 보강 대상 선별부(124)는 상호 공통 정보의 크기가 미리 정의된 기준치 이상인 제2 지식 인스턴스들을 포함하는 제2 지식 데이터(KD2)를 식별할 수 있다. 예를 들면, 보강 대상 선별부(124)는 하나의 지식 인스턴스와 관계된, 즉 동일한 트리플에서 자신과 연결된 다른 지식 인스턴스들을 검색할 수 있고, 공통으로 연결된 지식 인스턴스들의 개수가 미리 정의된 기준치 이상인 제2 지식 인스턴스들을 식별할 수 있다. 즉, 상호 공유하는 정보의 크기가 클수록 양 지식 인스턴스들은 관계를 가질 가능성이 높으므로, 보강 대상 선별부(124)는 기준치 이상의 공통된 지식 인스턴스들을 가지는 제2 지식 인스턴스들을 포함하는 제2 지식 데이터(KD2)를 선별할 수 있다.
도 4는 본 발명의 예시적 실시예에 따라 도 2의 학습 대상 선별부(122)의 동작의 예시를 나타낸다. 도 2를 참조하여 전술된 바와 같이, 학습 대상 선별부(122)는 학습 대상인 제1 지식 데이터(KD1)를 지식 베이스(200)에서 선별할 수 있고, 선별된 제1 지식 데이터(KD1)에 포함된 제1 지식 인스턴스(INS1)를 출력할 수 있다. 이하에서 도 4는 도 2를 참조하여 설명될 것이다.
일부 실시예들에서, 학습 대상 선별부(122)는 보강의 대상인 제2 지식 데이터(KD2)에 기초하여 제1 지식 데이터(KD1)를 식별할 수 있다. 예를 들면, 제2 지식 데이터(KD2)에 포함된 제2 지식 인스턴스들을 보강하기 위하여, 학습 대상 선별부(122)는 제2 지식 인스턴스들과 관계된 지식 데이터를 학습의 대상인 제1 지식 데이터(KD1)로서 선별할 수 있다. 이를 위하여, 학습 대상 선별부(122)는 제2 지식 데이터(KD2)에 포함된 제2 지식 인스턴스에 기초하여 제1 지식 데이터(KD1)에 포함되는 제1 지식 인스턴스들을 선별할 수 있다.
도 4를 참조하면, 학습 대상 선별부(122)는 지식 베이스(200)에서 제2 지식 데이터(KD2)에 포함된 제2 지식 인스턴스들 각각으로부터 미리 정의된 개수의 관계들 이하의 거리에 있는 지식 인스턴스들을 제1 지식 인스턴스들로서 포함하는 제1 지식 데이터(KD1)를 선별할 수 있다. 예를 들면, 도 4에 도시된 바와 같이, 제2 지식 인스턴스(INS2)는 다수의 지식 인스턴스들과 관계를 가질 수 있고, 해당 다수의 지식 인스턴스들 각각은 또 다른 지식 인스턴스들과 관계를 가질 수 있다. 도 4에서 원들로서 도시된 바와 같이, 제2 지식 인스턴스(INS2)로부터의 거리, 즉 관계들의 개수(또는 도 4의 에지들의 개수)에 따라 지식 인스턴스들을 배치하는 경우, 제2 인스턴스(INS2)를 루트(root)로하는 트리 구조가 형성될 수 있다. 미리 정의된 관계(즉, 에지)의 개수가 3인 경우, 도 4에서 레벨 L1 내지 레벨 L3에 대응하는 지식 인스턴스들이 제1 지식 인스턴스들로서 제1 지식 데이터(KD1)에 포함될 수 있는 한편, 레벨 L4에 대응하는 지식 인스턴스들은 제1 지식 데이터(KD1)에 포함되지 아니할 수 있다. 일부 실시예들에서, 제2 지식 인스턴스(INS2) 역시 제1 지식 데이터(KD1)에 포함될 수 있다. 이에 따라, 학습 대상 선별부(122)는 제1 지식 인스턴스들 및 제1 지식 인스턴스들 사이 관계들을 포함하는 제1 지식 데이터(KD1)를 학습의 대상으로서 선별할 수 있다.
도 5는 본 발명의 예시적 실시예에 따라 도 1의 입력 데이터 생성부(140)의 예시를 나타내는 블록도이다. 도 2를 참조하여 전술된 바와 같이, 도 5의 입력 데이터 생성부(140')는 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)를 지식 베이스(200)로부터 획득할 수 있고, 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)에 기초하여 제1 입력 데이터(D_IN1) 및 제2 입력 데이터(D_IN2)를 각각 생성할 수 있다. 도 5에 도시된 바와 같이, 입력 데이터 생성부(140')는 쿼리 생성부(142), 학습 데이터 생성부(144) 및 테스트 데이터 생성부(146)를 포함할 수 있고, 도 5는 도 1을 참조하여 설명될 것이다.
쿼리 생성부(142)는 큐레이션 수행부(120)로부터 제1 지식 인스턴스(INS1) 및 제2 지식 인스턴스(INS2)(또는 그러한 지식 인스턴스들에 대한 정보)를 수신할 수 있고, 제1 지식 데이터(KD1) 및 제2 지식 데이터(KD2)를 획득하기 위한 쿼리(QRY)를 생성할 수 있다. 지식 베이스(200)는 쿼리(QRY)에 응답하여 제1 지식 데이터(KD1) 및/또는 제2 지식 데이터(KD2)를 반환할 수 있다.
학습 데이터 생성부(144)는 지식 베이스(200)로부터 제1 지식 데이터(KD1)를 수신할 수 있고, 제1 지식 데이터(KD1)에 기초하여 제1 입력 데이터(D_IN1)를 생성할 수 있다. 전술된 바와 같이, 제1 지식 데이터(KD1)는 학습 대상일 수 있고, 제1 입력 데이터(D_IN1)는 학습 모델(예컨대, 도 1의 300)에 학습을 위해서 제공되는 입력 데이터일 수 있다. 학습 데이터 생성부(144)의 동작의 예시는 도 6을 참조하여 후술될 것이다.
테스트 데이터 생성부(146)는 지식 베이스(200)로부터 제2 지식 데이터(KD2)를 수신할 수 있고, 제2 지식 데이터(KD2)에 기초하여 제2 입력 데이터(D_IN2)를 생성할 수 있다. 전술된 바와 같이, 제2 지식 데이터(KD2)는 보강 대상일 수 있고, 제2 입력 데이터(D_IN2)는 학습 모델(예컨대, 도 1의 300)의 출력을 획득하기 위해 제공되는 입력 데이터일 수 있다.
일부 실시예들에서, 제1 입력 데이터(D_IN1) 및 제2 입력 데이터(D_IN2)는 다차원의 지식 벡터들을 각각 포함할 수 있다. 예를 들면, 학습 데이터 생성부(144)는 벡터 모델(또는 지식 벡터 모델)(예컨대, 도 6의 400)에 기초하여 지식 벡터들을 포함하는 제1 입력 데이터(D_IN1)를 생성할 수 있고, 테스트 데이터 생성부(146) 역시 벡터 모델에 기초하여 지식 벡터들을 포함하는 제2 입력 데이터(D_IN2)를 생성할 수 있다. 지식 벡터는 딥 러닝(deep learning) 기법을 지식 데이터의 처리에 적용하기 위한 것으로서 고유 벡터로서 지칭될 있다. 특정 지식 인스턴스를 표현하기 위하여 지식 인스턴스에 대한 고유 벡터를 생성하고, 고유 벡터들은 유한한 자원(예컨대, 100 차원 또는 50 차원 등)의 벡터 공간에서 표현될 수 있다. 이러한 지식 벡터의 값, 즉 차원들 각각의 값은 바이너리 값이 아닌 정수 또는 실수의 값을 가지를 수 있고, 동일 차원의 값이 높을수록 의미적으로 유사한 것으로 간주될 수 있다. 이와 같이, 지식 인스턴스를 지식 벡터로서 나타내는 것은 지식 임베딩(knowledge embedding)으로 지칭될 수 있으며, 지식 인스턴스는 자신을 나타내는 고유한 정보(예컨대, 식별자, 태그 정보)에 기초하여 지식 벡터로 표현될 수 있다. 벡터 모델(또는 지식 벡터 모델)은 지식 인스턴스들에 대한 지식 벡터들을 제공할 수 있다.
도 6은 본 발명의 예시적 실시예에 따라 도 5의 학습 데이터 생성부(144)의 동작의 예시를 나타내는 순서도이다. 도 5를 참조하여 전술된 바와 같이, 학습 데이터 생성부(144)는 제1 지식 데이터(KD1)에 기초하여 제1 입력 데이터(D_IN1)를 생성할 수 있다. 이하에서 도 6은 도 5를 참조하여 설명될 것이다.
도 6을 참조하면, 단계 S62에서 학습 데이터 생성부(144)는 제1 지식 데이터를 필터링할 수 있다. 예를 들면, 학습 데이터 생성부(144)는 제1 지식 데이터(KD1)에 포함된 제1 지식 인스턴스들을 주어로서 가지는 트리플들 중 지식 인스턴스가 아닌 목적어를 가지는 트리플들을 제거함으로써 제1 지식 데이터(KD1)를 필터링할 수 있다. 예를 들면, 지식 인스턴스 "이순신"을 주어로서 가지는 트리플 "이순신-출생-1545.04.28."은 "이순신"의 생년월일인 값 "1545.04.28."을 목적어로서 가질 수 있고, 이와 같이 지식 인스턴스가 아닌 값을 포함하는 트리플은 학습 모델(300)의 학습에 영향을 미치지 아니할 수 있고, 이에 따라 이러한 트리플은 제1 지식 데이터(KD1)에서 제거될 수 있다.
단계 S64에서, 학습 데이터 생성부(144)는 제1 입력 데이터(D_IN1)를 생성할 수 있다. 예를 들면, 도 5를 참조하여 전술된 바와 같이, 학습 데이터 생성부(144)는 벡터 모델(400)을 참조하여, 필터링된 제1 지식 데이터(KD1)로부터 제1 입력 데이터(D_IN1)를 생성할 수 있다. 예를 들면, 학습 데이터 생성부(144)는 제1 지식 데이터(KD1)에 포함된 제1 지식 인스턴스의 식별자에서, 지1 지식 인스턴스에 고유한 값을 제외한 부분을 제거할 수 있고, 제1 지식 인스턴스에 고유한 값을 포함하거나 제1 지식 인스턴스의 고유한 값으로부터 변환된 지식 벡터를 포함하는 제1 입력 데이터(D_IN1)를 생성할 수 있다.
도 7은 본 발명의 예시적 실시예에 따라 도 1의 학습 모델 운용부(160)의 예시를 나타내는 도면이다. 구체적으로, 도 7의 학습 모델 운용부(160')는 도 1의 학습 모델(300)을 포함하는 예시를 나타낸다. 도 1을 참조하여 전술된 바와 같이, 도 7의 학습 모델 운용부(160')는 제1 입력 데이터(D_IN1) 및 제2 입력 데이터(D_IN2)를 학습 모델에 제공할 수 있고, 학습 모델로부터 출력 데이터(D_OUT)를 획득할 수 있다. 도 7에 도시된 바와 같이, 학습 모델 운용부(160')는 학습 파라미터 설정부(162) 및 학습 모델 저장부(164)를 포함할 수 있고, 이하에서 도 7은 도 1을 참조하여 설명될 것이다.
도 7을 참조하면, 학습 파라미터 설정부(162)는 학습 모델의 다양한 파라미터들(PAR)을 설정할 수 있다. 예를 들면, 학습 파라미터 설정부(162)는 학습 모델이 처리할 입력 데이터의 크기로서, 제1 입력 데이터(D_IN1) 및 제2 입력 데이터(D_IN2)에 포함된 벡터에 요구되는 차원의 개수를 설정할 수 있다. 또한, 학습 파라미터 설정부(162)는 학습 모델 내에서 처리가 반복되는 횟수를 설정할 수도 있다.
학습 모델 저장부(164)는 학습 모델을 포함할 수 있고, 학습 파라미터 설정부(162)가 제공하는 파라미터들(PAR)에 따라 정의된 조건에서 제1 입력 데이터(D_IN1)를 학습할 수 있고, 제2 입력 데이터(D_IN2)에 응답하여 출력 데이터(D_OUT를 생성할 수 있다. 예를 들면, 지식 데이터의 정제 과정에서, 학습 모델 저장부(164)는 조대 관계인 제2 인스턴스들에 대응하는 제2 입력 데이터(D_IN2)를 수신할 수 있고, 세분화된 관계에 대한 정보를 포함하는 출력 데이터(D_OUT)를 출력할 수 있다. 또한, 지식 데이터의 검증 과정에서, 학습 모델 저장부(164)는 2개의 제2 인스턴스들에 대응하는 제2 입력 데이터(D_IN2)를 수신할 수 있고, 양 제2 인스턴스들의 관계에 대한 정보를 포함하는 출력 데이터(D_OUT)를 출력할 수 있다. 그 다음에 지식 베이스(200)에서의 양 제2 인스턴스들 사이 관계 및 출력 데이터(D_OUT)가 나타내는 관계를 비교함으로써 제2 지식 데이터(KD2)가 검증될 수 있다. 또한, 지식 데이터의 확장 과정에서, 학습 모델 저장부(164)는 2개의 제2 인스턴스들에 대응하는 제2 입력 데이터(D_IN2)를 수신할 수 있고, 양 제2 인스턴스들의 관계에 대한 정보를 포함하는 출력 데이터(D_OUT)를 출력할 수 있다.
일부 실시예들에서, 제1 입력 데이터(D_IN1) 및/또는 제2 입력 데이터(D_IN2)가 지식 벡터들을 포함하는 경우, 학습 모델 저장부(164)에 포함된 학습 모델은 지식 벡터를 출력할 수 있고, 학습 모델 저장부(164)는 지식 벡터를 지식 벡터 모델(예컨대, 도 6의 400)을 참조하여 적어도 하나의 지식 인스턴스로 변환함으로써 출력 데이터(D_OUT)를 생성할 수 있다. 또한, 일부 실시예들에서, 학습 모델은 다수의 출력들 및 이에 대응하는 다수의 스코어들을 출력할 수 있고, 스코어는 학습 모델의 해당 출력의 정확도를 나타내는 수치에 대응할 수 있다. 이에 따라, 출력 데이터(D_OUT)는 제1 입력 데이터(D_IN1)로부터 추론된 다수의 후보 결과들 및 그에 대한 정확도들을 포함할 수 있다.
도 8은 본 발명의 예시적 실시예에 따른 지식 보강 시스템(100')을 나타내는 블록도이다. 구체적으로, 도 8의 지식 보강 시스템(100')은 지식 베이스 스키마(500)에 기초하여 학습 모델(300)로부터 출력된 출력 데이터(D_OUT)를 검증할 수 있다. 도 8에 도시된 바와 같이, 지식 보강 시스템(100')은, 도 1의 지식 보강 시스템(100)과 유사하게, 큐레이션 수행부(120"), 입력 데이터 생성부(140") 및 학습 모델 운용부(160")를 포함할 수 있고, 출력 데이터 검증부(180)를 더 포함할 수 있다. 이하에서, 도 8에 대한 설명 중 도 1에 대한 설명과 중복되는 내용은 생략될 것이다.
지식 베이스 스키마(500)는, 도 1을 참조하여 전술된 바와 같이, 지식 베이스(200)를 구축시 사용된 것으로서 다양한 기준들을 정의할 수 있다. 예를 들면, 지식 베이스 스키마(500)는 지식 인스턴스들이 가지는 속성들(예컨대, 관계들, 술어들)의 범위를 정의할 수도 있고, 지식 인스턴스들이 가지는 속성들의 도메인을 정의할 수도 있다. 출력 데이터(D_OUT)는 출력 데이터 검증부(180)에 의해서 지식 베이스 스키마(500)에 기초하여 검증될 수 있고, 큐레이션 수행부(120")는 검증된 출력 데이터(D_OUT')에 기초하여 보강된 지식 데이터를 지식 베이스(200)에 제공할 수 있다.
출력 데이터 검증부(180)는 지식 베이스 스키마(500)에 기초하여 출력 데이터(D_OUT)를 검증할 수 있다. 예를 들면, 출력 데이터 검증부(180)는 다수의 후보 결과들을 포함하는 출력 데이터(D_OUT)를 수신할 수 있고, 후보 결과들 각각을 지식 베이스 스키마(500)에 기초하여 검증할 수 있다. 일부 실시예들에서, 출력 데이터 검증부(180)는 지식 베이스 스키마(500)에 기초하여 후보 결과들 각각이 제2 지식 인스턴스들이 가지는 속성들의 범위에 포함되는지 여부를 검증할 수 있다. 또한, 일부 실시예들에서, 출력 데이터 검증부(180)는 지식 베이스 스키마(500)에 기초하여 후보 결과들 각각이 가지는 속성들의 도메인에 포함되는지 여부를 검증할 수 있다. 일부 실시예들에서, 출력 데이터 검증부(180)는 다수의 후보 결과들 중 검증에 통과하고 가장 높은 스코어에 대응하는 결과를 검증된 출력 데이터(D_OUT')로서 큐레이션 수행부(120")에 제공할 수 있다. 또한, 일부 실시예들에서, 출력 데이터 검증부(180)는 출력 데이터(D_OUT)에 다수의 후보 결과들이 포함되는 경우, 미리 정해진 개수의 상위 후보 결과들에 대해서 검증을 수행할 수도 있다.
도 9는 본 발명의 예시적 실시예에 따른 지식 보강 방법을 나타내는 순서도이다. 일부 실시예들에서, 도 9의 방법은 도 1의 지식 보강 시스템(100)에 의해서 수행될 수 있고, 이하에서 도 9는 도 1을 참조하여 설명될 것이다.
도 9를 참조하면, 단계 S10에서 제2 지식 데이터(KD2)를 선별하는 동작이 수행될 수 있다. 예를 들면, 큐레이션 수행부(120)는 보강이 필요한 지식 데이터로서 제2 지식 데이터(KD2)를 지식 베이스(200)에서 선별할 수 있다. 도면들을 참조하여 전술된 바와 같이, 제2 지식 데이터(KD2)는, 예컨대 정제, 검증 및 확장이 가능한 지식 데이터를 지칭할 수 있다. 큐레이션 수행부(120)는 지식 베이스(200)에서 제2 지식 인스턴스들을 검색함으로써 제2 지식 데이터(KD2)를 식별할 수 있다.
단계 S20에서, 제1 지식 데이터(KD1)를 선별하는 동작이 수행될 수 있다. 예를 들면, 큐레이션 수행부(120)는 학습의 대상인 지식 데이터로서 제1 지식 데이터(KD1)를 지식 베이스(200)에서 선별할 수 있다. 도 2를 참조하여 전술된 바와 같이, 제1 지식 데이터(KD1)는 다양한 방식으로 큐레이션 수행부(120)에 의해서 선별될 수 있다. 일부 실시예들에서, 단계 S20은 도 9에 도시된 바와 상이하게, 단계 S10보다 먼저 혹은 단계 S10과 병렬적으로 수행될 수도 있다.
단계 S30에서, 제1 입력 데이터(D_IN1)를 생성하는 동작이 수행될 수 있다. 예를 들면, 입력 데이터 생성부(140)는 학습 모델(300)의 학습을 위한 입력으로서 제공되는 제1 입력 데이터(D_IN1)를, 단계 S20에서 선별된 제1 지식 데이터(KD1)로부터 생성할 수 있다. 일부 실시예들에서, 입력 데이터 생성부(140)는 제1 지식 데이터(KD1)를 필터링할 수 있고, 필터링된 제1 지식 데이터(KD1)로부터 제1 입력 데이터(D_IN1)를 생성할 수 있다.
단계 S40에서, 제1 입력 데이터(D_IN1)를 학습하는 동작이 수행될 수 있다. 예를 들면, 학습 모델 운용부(160)는 단계 S30에서 생성된 제1 입력 데이터(D_IN1)를 학습 모델(300)에 제공함으로써 학습 모델(300)이 제1 입력 데이터(D_IN1)를 학습하도록 할 수 있다. 이에 따라, 학습 모델(300)은 지식 베이스(200)에 포함된 제1 지식 데이터(KD1)에 대응하는 제1 입력 데이터(D_IN1)가 학습된 상태에 있을 수 있다.
단계 S50에서, 제2 입력 데이터를 생성하는 동작이 수행될 수 있다. 예를 들면, 입력 데이터 생성부(140)는 학습 모델(300)의 출력을 획득하기 위한 입력으로서 제공되는 제2 입력 데이터(D_IN2)를, 단계 S10에서 선별된 제2 지식 데이터(KD2)로부터 생성할 수 있다.
단계 S60에서, 출력 데이터(D_OUT)를 획득하는 동작이 수행될 수 있다. 예를 들면, 학습 모델 운용부(160)는 학습 모델(300)로부터 제2 입력 데이터(D_IN2)에 대응하는 출력 데이터(D_OUT)를 수신할 수 있다. 도면들을 참조하여 전술된 바와 같이, 일부 실시예들에서 출력 데이터(D_OUT)는 지식 인스턴스들 사이 관계에 대한 정보를 포함할 수 있다. 또한, 일부 실시예들에서 출력 데이터(D_OUT)는 지식 인스턴스들 사이 다수의 후보 관계들 및 다수의 스코어들을 포함할 수도 있다. 또한, 일부 실시예들에서 출력 데이터(D_OUT)는 지식 베이스 스키마(예컨대, 도 8의 500)에 의해서 검증될 수도 있다.
단계 S70에서, 제2 지식 데이터(KD2)를 보강하는 동작이 수행될 수 있다. 예를 들면, 큐레이션 수행부(120)는 학습 모델 운용부(160)로부터 출력 데이터(D_OUT)를 수신할 수 있고, 출력 데이터(D_OUT)에 기초하여 제2 지식 데이터(KD2)를 보강, 예컨대 정재, 검증 및/또는 확장할 수 있다. 일부 실시예들에서, 큐레이션 수행부(120)는 보강된 지식 데이터를 지식 베이스(200)에 제공할 수도 있다.
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들이 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
Claims (10)
- 지식 베이스의 지식 데이터를 보강하기 위한 시스템으로서,
학습 대상인 제1 지식 데이터 및 보강 대상인 위한 제2 지식 데이터를 상기 지식 베이스에서 선별하도록 구성된 큐레이션 수행부;
상기 제1 지식 데이터 및 상기 제2 지식 데이터에 기초하여 학습 모델을 위한 제1 입력 데이터 및 제2 입력 데이터를 각각 생성하도록 구성된 입력 데이터 생성부; 및
상기 제1 입력 데이터에 따라 학습된 학습 모델을 구축하고, 상기 제2 입력 데이터에 대응하는 출력 데이터를 상기 학습 모델로부터 획득하도록 구성된 학습 모델 운용부를 포함하고,
상기 큐레이션 수행부는, 상기 출력 데이터에 기초하여 보강된 지식 데이터를 상기 지식 베이스에 제공하도록 구성되고,
상기 큐레이션 수행부는,
미리 정의된 규칙에 기초하여 상기 지식 베이스에서 상기 제2 지식 데이터를 선별하도록 구성된 보강 대상 선별부;
상기 제2 지식 데이터에 포함된 제2 지식 인스턴스들에 기초하여, 상기 제1 지식 데이터를 선별하도록 구성된 학습 대상 선별부; 및
상기 출력 데이터에 기초하여 보강된 지식을 생성하도록 구성된 보강 지식 반영부를 포함하고,
상기 보강 대상 선별부는, 상기 지식 베이스에서 지식 인스턴스들 사이 조대(coarse) 관계를 세분화된(subdivided) 관계로 정제하기 위하여, 조대 관계를 가지는 상기 제2 지식 인스턴스들을 포함하는 상기 제2 지식 데이터를 선별하도록 구성된 것을 특징으로 하는 시스템. - 삭제
- 청구항 1에 있어서,
상기 학습 대상 선별부는, 상기 지식 베이스에서 상기 제2 지식 인스턴스들 각각으로부터 미리 정의된 개수의 관계들 이하의 거리에 있는 제1 지식 인스턴스들을 포함하는 상기 제1 지식 데이터를 선별하도록 구성된 것을 특징으로 하는 시스템. - 삭제
- 청구항 1에 있어서,
상기 보강 대상 선별부는, 상기 지식 베이스에서 지식 인스턴스들 사이 관계를 검증하기 위하여, 단방향 관계를 가지는 상기 제2 지식 인스턴스들을 포함하는 상기 제2 지식 데이터를 선별하도록 구성된 것을 특징으로 하는 시스템. - 청구항 1에 있어서,
상기 보강 대상 선별부는, 상기 지식 베이스에서 지식 인스턴스들 사이 신규 관계를 형성하기 위하여, 상호 공통 정보의 크기가 미리 정의된 기준치 이상인 상기 제2 지식 인스턴스들을 포함하는 상기 제2 지식 데이터를 선별하도록 구성된 것을 특징으로 하는 시스템. - 삭제
- 지식 베이스의 지식 데이터를 보강하기 위한 시스템으로서,
학습 대상인 제1 지식 데이터 및 보강 대상인 위한 제2 지식 데이터를 상기 지식 베이스에서 선별하도록 구성된 큐레이션 수행부;
상기 제1 지식 데이터 및 상기 제2 지식 데이터에 기초하여 학습 모델을 위한 제1 입력 데이터 및 제2 입력 데이터를 각각 생성하도록 구성된 입력 데이터 생성부; 및
상기 제1 입력 데이터에 따라 학습된 학습 모델을 구축하고, 상기 제2 입력 데이터에 대응하는 출력 데이터를 상기 학습 모델로부터 획득하도록 구성된 학습 모델 운용부를 포함하고,
상기 큐레이션 수행부는, 상기 출력 데이터에 기초하여 보강된 지식 데이터를 상기 지식 베이스에 제공하도록 구성되고,
상기 입력 데이터 생성부는,
상기 지식 베이스로부터 상기 제1 지식 데이터 및 상기 제2 지식 데이터를 획득하기 위한 쿼리를 생성하도록 구성된 쿼리 생성부;
상기 제1 지식 데이터를 필터링하고, 필터링된 상기 제1 지식 데이터를 상기 제1 입력 데이터로 변환하도록 구성된 학습 데이터 생성부; 및
상기 제2 지식 데이터에 포함된 제2 지식 인스턴스들을 상기 제2 입력 데이터로 변환하도록 구성된 테스트 데이터 생성부를 포함하고,
상기 지식 베이스는, 지식 인스턴스를 주어로서 포함하고 상기 지식 인스턴스에 대한 정보를 술어 및 목적어로서 포함하는 트리플(triple)을 포함하고,
상기 학습 데이터 생성부는, 상기 제1 지식 데이터에 포함된 제1 지식 인스턴스들을 주어로서 가지는 트리플들 중 지식 인스턴스가 아닌 목적어를 가지는 트리플을 제거함으로써 상기 제1 지식 데이터를 필터링하도록 구성된 것을 특징으로 하는 시스템. - 청구항 8에 있어서,
상기 학습 데이터 생성부 및 상기 테스트 데이터 생성부는, 지식 벡터 모델에 기초하여, 지식 벡터들을 포함하는 상기 제1 입력 데이터 및 상기 제2 입력 데이터를 각각 생성하도록 구성된 것을 특징으로 하는 시스템. - 청구항 8에 있어서,
상기 지식 베이스의 구축에 사용된 스키마에 기초하여 상기 출력 데이터를 검증하도록 구성된 출력 데이터 검증부를 더 포함하고,
상기 큐레이션 수행부는, 검증된 상기 출력 데이터에 기초하여 상기 보강된 지식 데이터를 상기 지식 베이스에 제공하도록 구성된 것을 특징으로 하는 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180153013A KR102098255B1 (ko) | 2018-11-30 | 2018-11-30 | 지식 임베딩 기반 지식 보강 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180153013A KR102098255B1 (ko) | 2018-11-30 | 2018-11-30 | 지식 임베딩 기반 지식 보강 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102098255B1 true KR102098255B1 (ko) | 2020-04-07 |
Family
ID=70290652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180153013A KR102098255B1 (ko) | 2018-11-30 | 2018-11-30 | 지식 임베딩 기반 지식 보강 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102098255B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021211794A1 (en) * | 2020-04-15 | 2021-10-21 | Elsevier, Inc. | Targeted probing of memory networks for knowledge base construction |
KR20220083424A (ko) * | 2020-12-11 | 2022-06-20 | 경희대학교 산학협력단 | Rdf 그래프 임베딩 방법 및 이를 실행하는 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020390A (ja) * | 2008-07-08 | 2010-01-28 | Toyota Central R&D Labs Inc | 感情推定装置及び感情推定プログラム |
JP2013161472A (ja) * | 2012-02-09 | 2013-08-19 | Yahoo Japan Corp | 質問回答サービスにおける質問の難易度とユーザの知識レベルとを推定する推定装置、方法及びプログラム |
KR20130140847A (ko) * | 2011-03-08 | 2013-12-24 | 인터내셔널 비지네스 머신즈 코포레이션 | 질의-응답 시스템을 사용하는 문제 해결을 위한 의사결정-지원 애플리케이션 및 시스템 |
KR101739538B1 (ko) * | 2016-01-25 | 2017-05-25 | 주식회사 솔트룩스 | 기계 학습 및 규칙에 기반한 감성 분석 시스템 및 방법 |
KR101739540B1 (ko) * | 2016-01-27 | 2017-06-08 | 주식회사 솔트룩스 | 통합 지식베이스 구축 시스템 및 방법 |
KR20180108257A (ko) * | 2017-03-24 | 2018-10-04 | (주)아크릴 | 온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법 |
-
2018
- 2018-11-30 KR KR1020180153013A patent/KR102098255B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020390A (ja) * | 2008-07-08 | 2010-01-28 | Toyota Central R&D Labs Inc | 感情推定装置及び感情推定プログラム |
KR20130140847A (ko) * | 2011-03-08 | 2013-12-24 | 인터내셔널 비지네스 머신즈 코포레이션 | 질의-응답 시스템을 사용하는 문제 해결을 위한 의사결정-지원 애플리케이션 및 시스템 |
JP2013161472A (ja) * | 2012-02-09 | 2013-08-19 | Yahoo Japan Corp | 質問回答サービスにおける質問の難易度とユーザの知識レベルとを推定する推定装置、方法及びプログラム |
KR101739538B1 (ko) * | 2016-01-25 | 2017-05-25 | 주식회사 솔트룩스 | 기계 학습 및 규칙에 기반한 감성 분석 시스템 및 방법 |
KR101739540B1 (ko) * | 2016-01-27 | 2017-06-08 | 주식회사 솔트룩스 | 통합 지식베이스 구축 시스템 및 방법 |
KR20180108257A (ko) * | 2017-03-24 | 2018-10-04 | (주)아크릴 | 온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021211794A1 (en) * | 2020-04-15 | 2021-10-21 | Elsevier, Inc. | Targeted probing of memory networks for knowledge base construction |
KR20220083424A (ko) * | 2020-12-11 | 2022-06-20 | 경희대학교 산학협력단 | Rdf 그래프 임베딩 방법 및 이를 실행하는 장치 |
KR102531266B1 (ko) | 2020-12-11 | 2023-05-10 | 경희대학교 산학협력단 | Rdf 그래프 임베딩 방법 및 이를 실행하는 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449858B (zh) | 一种神经网络模型的处理方法以及相关设备 | |
CN108710662B (zh) | 语言转换方法和装置、存储介质、数据查询系统和方法 | |
KR101987915B1 (ko) | 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템 | |
US20220277188A1 (en) | Systems and methods for classifying data sets using corresponding neural networks | |
KR102098255B1 (ko) | 지식 임베딩 기반 지식 보강 시스템 및 방법 | |
CN114900346B (zh) | 基于知识图谱的网络安全测试方法及系统 | |
Niu et al. | Scaling inference for markov logic via dual decomposition | |
Papadakis et al. | JedAI3: beyond batch, blocking-based Entity Resolution. | |
Ren et al. | Activeiter: Meta diagram based active learning in social networks alignment | |
CN106445913A (zh) | 基于MapReduce的语义推理方法及系统 | |
Basgalupp et al. | Evolving decision trees with beam search-based initialization and lexicographic multi-objective evaluation | |
Chen et al. | A new multiobjective evolutionary algorithm for community detection in dynamic complex networks | |
CN113220820A (zh) | 基于图的高效sparql查询应答方法、装置和设备 | |
WO2023024474A1 (zh) | 一种数据集的确定方法、装置、计算机设备以及存储介质 | |
CN109684588B (zh) | 一种资产管理系统及方法 | |
CN106845787A (zh) | 一种数据自动交换方法及装置 | |
CN114385827A (zh) | 面向会议知识图谱的检索方法 | |
KR20210088421A (ko) | 점진적 학습을 위한 기계 학습 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
Simiński et al. | Towards a practical approach to discover internal dependencies in rule-based knowledge bases | |
Guédi et al. | A Practical Application of Relational Concept Analysis to Class Model Factorization: Lessons Learned from a Thematic Information System. | |
Szymczak et al. | Coreference detection in XML metadata | |
Oplatkova et al. | Different Approaches For Constant Estimation In Analytic Programming. | |
Shamsfard et al. | Omega: Ontology matching enhanced by genetic algorithm | |
Vai et al. | Representing knowledge by neural networks for qualitative analysis and reasoning | |
Kalyonova et al. | Introduction to Multimodal Data Analysis Approach for Creation of Library Catalogues of Heterogeneous Objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |