KR101473982B1 - Knowledge base generating apparatus and knowledge base generating method thereof - Google Patents
Knowledge base generating apparatus and knowledge base generating method thereof Download PDFInfo
- Publication number
- KR101473982B1 KR101473982B1 KR1020120114352A KR20120114352A KR101473982B1 KR 101473982 B1 KR101473982 B1 KR 101473982B1 KR 1020120114352 A KR1020120114352 A KR 1020120114352A KR 20120114352 A KR20120114352 A KR 20120114352A KR 101473982 B1 KR101473982 B1 KR 101473982B1
- Authority
- KR
- South Korea
- Prior art keywords
- knowledge
- unit
- basic
- knowledge base
- base
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 지식베이스 구축장치 및 이의 지식베이스 구축방법에 관한 것으로, 일부 기본 지식만을 포함하는 단위 지식베이스를 여러 개 생성하여 독립적으로 추론을 수행한 후 병합하여 최종 지식베이스를 구축함으로써 간편하고 빠르게 지식베이스를 구축할 수 있도록 한 것이다.The present invention relates to a knowledge base establishing apparatus and a method for constructing a knowledge base thereof, and more particularly, to a method and system for constructing a knowledge base, which comprises generating a plurality of unit knowledge bases containing only basic knowledge, independently performing inference, So that the base can be constructed.
Description
본 발명은 지식베이스(knowledge base) 구축 기술에 관련한 것으로, 특히 온톨로지(ontology) 기반의 지식베이스 구축장치 및 이의 지식베이스 구축방법에 관한 것이다.The present invention relates to a knowledge base construction technique, and more particularly, to a knowledge base construction apparatus based on an ontology and a method of constructing a knowledge base thereof.
정보 검색의 대표적인 형태인 웹 검색 엔진은 키워드 기반 검색 기법을 기반으로 하고 있으며, 웹상의 문서들을 수집하여, 해당 문서에서 출현 빈도가 높은 단어들을 인덱싱하고, 사용자가 입력한 키워드와 일치하는 단어를 많이 포함하고 있는 문서의 위치를 찾아주는 방식이다.The web search engine, which is a typical form of information retrieval, is based on a keyword-based retrieval technique. It collects documents on the web, indexes frequently occurring words in the document, and searches for words And finds the location of the included document.
이러한 키워드 기반 정보 검색 기술은 사용자가 입력한 키워드의 의미는 고려하지 않고 사용자가 입력한 키워드와 동일한 키워드를 포함하는 문서만을 찾아주는 방식이기 때문에 키워드를 포함하는 문서를 빠짐없이 찾아주는 재현율(recall rate)은 높지만, 사용자가 입력한 키워드와 정확히 의미가 일치하는 문서를 찾아주는 정확율(precision rate)은 낮을 수밖에 없다.Since the keyword-based information retrieval technology is a method of retrieving only documents including the same keyword as the keyword inputted by the user without considering the meaning of the keyword inputted by the user, the recall rate ) Is high, but the precision rate for finding a document that exactly matches the keyword entered by the user is inevitably low.
이러한 문제점을 해결하기 위해, 국내공개특허 제10-2011-0125872호(2011. 11. 22) 등에서 제시한 바와 같은 의미 기반 검색(semantic search) 기술이 등장하게 되었다. 의미 기반 검색 기술과 키워드 기반 검색 기술의 가장 큰 차이점은, 인덱스의 구조에서 찾을 수 있다.In order to solve such a problem, a semantic search technique as disclosed in, for example, Korean Patent Laid-Open No. 10-2011-0125872 (November 22, 2011) has emerged. The biggest difference between semantic-based search technology and keyword-based search technology can be found in the structure of the index.
키워드 기반 검색 기술은 형태소 분석 등의 과정을 통해 문서로부터 키워드(토큰)를 추출해 내고, 이들을 해당 문서의 인덱스로 저장하게 된다. 반면에 의미 기반 검색 기술은 문서로부터 시맨틱 네트워크(semantic network)를 추출하고, 이를 그래프 구조로 지식베이스에 저장하고, 검색시에는 지식베이스에 질의하는 방식을 취하게 된다. 따라서, 검색 결과가 해당 문서일 수도 있으며, 해당 문서가 기술하고 있는 개체일 수도 있다. Keyword-based retrieval technology extracts keywords (tokens) from documents through morphological analysis and stores them as indexes of corresponding documents. On the other hand, semantic-based retrieval technology extracts a semantic network from a document, stores it in a knowledge base in a graph structure, and queries the knowledge base in retrieval. Therefore, the search result may be the corresponding document, or it may be the entity described in the document.
매우 다양한 관점의 의미 기반 검색 기술이 개발되고 있으나, 의미 기반 검색 기술은 시맨틱 네트워크로 정보가 표현되도록 재구성되어 지식 베이스에 저장되고, 질의하는 형태를 가진다.Semantic - based retrieval technology has been developed in a wide variety of perspectives, but semantic - based retrieval techniques are reconstructed to represent information in a semantic network, stored in a knowledge base, and queryed.
시맨틱 네트워크는 개념(concept)과 개념간의 관계가 표현된 지식 표현 방법 중 하나이다. 따라서, 의미 기반 검색에서는 검색 대상이 되는 개체(웹 문서 자체일 수도 있으며, 웹 문서가 기술하고 있는 영화, 사람 등의 사물일 수도 있음) 관련 정보(메타데이터)를 웹 문서에서 추출하고 추출된 정보를 시맨틱 네트워크 형태로 표현하여 지식베이스를 구축하는 과정이 매우 중요하다.Semantic networks are one of the ways of expressing knowledge expressed the relationship between concepts and concepts. Therefore, in semantic-based retrieval, relevant information (metadata) is extracted from a web document, and the extracted information (metadata, The process of constructing a knowledge base by expressing it in the form of a semantic network is very important.
키워드 기반 검색 기술에서 지식베이스를 구축할 때는 추출된 명시적 (explicit)인 메타 데이터부터 논리적으로 유도 가능한 암묵적(implicit) 지식까지 모든 지식을 직접 생성하여 지식베이스 내에 표현하였다.In constructing a knowledge base in keyword - based retrieval technology, all knowledge, from extracted explicit metadata to implicit knowledge that can be derived logically, is directly generated and expressed in the knowledge base.
의미 기반 검색 기술에서 지식베이스를 구축할 때 기본 지식에 해당되는 추출된 메타 데이터만을 지식베이스에 표현하고, 추론엔진이 기본 지식으로부터 유도 가능한 파생 지식을 논리적으로 추론하여 자동 추가한다면 작업이 간단해질 것이다.When constructing a knowledge base in semantic-based retrieval technology, only the extracted metadata corresponding to the basic knowledge can be expressed in the knowledge base, and the task will be simplified if the inference engine logically deduces the derivation knowledge that can be derived from the basic knowledge .
한편, 논리추론에 필요한 시간은 일반적으로 추론의 기반이 되는 기본 지식의 양의 증가분에 대해 지수적으로 증가한다. 즉, 기본 지식의 양이 두배가 되면 추론에 걸리는 시간은 2의 지수 제곱배로 증가한다.On the other hand, the time required for logical inference increases exponentially with the increase in the amount of basic knowledge on which inference is generally based. In other words, when the amount of basic knowledge doubles, the time required for reasoning increases by an exponent of 2.
따라서, 일부 기본 지식만을 포함하는 지식 베이스를 여러 개 생성하여 독립적으로 추론을 수행한 후 병합하면 최종 지식베이스 구축 시간을 단축할 수 있을 것이다. 더 나아가 독립적 추론을 병렬적으로 처리하면 추가적인 이득을 볼 수 있을 것이다.Therefore, it is possible to shorten the time of building the final knowledge base by generating several knowledge bases containing only some basic knowledge, performing independent inference, and merging. Further, parallel processing of independent reasoning may provide additional benefits.
본 발명은 일부 기본 지식만을 포함하는 단위 지식베이스를 여러 개 생성하여 독립적으로 추론을 수행한 후 병합하여 최종 지식베이스를 구축함으로써 간편하고 빠르게 지식베이스를 구축할 수 있는 지식베이스 구축장치 및 이의 지식베이스 구축방법을 제공함을 그 목적으로 한다.The present invention relates to a knowledge base construction apparatus and a knowledge base construction apparatus capable of constructing a plurality of unit knowledge bases including only a part of basic knowledge, independently performing inference, merging and building a final knowledge base, And to provide a method of constructing the same.
본 발명의 또 다른 목적은 여러개의 단위 지식베이스에 대한 추론을 병렬적으로 수행한 후 병합하여 최종 지식베이스를 구축함으로써 보다 간편하고 빠르게 지식베이스를 구축할 수 있는 지식베이스 구축장치 및 이의 지식베이스 구축방법을 제공하는 것이다.It is still another object of the present invention to provide a knowledge base construction apparatus and a knowledge base construction method capable of constructing a knowledge base more easily and easily by constructing a final knowledge base by performing inferences on several unit knowledge bases in parallel and then merging Method.
상기한 목적을 달성하기 위한 본 발명의 일 양상에 따르면, 지식베이스 구축장치가 웹 문서들로부터 기본 지식들을 추출하는 기본 지식 추출부와; 기본 지식 추출부에 의해 추출된 기본 지식들을 기반으로 단위 지식베이스들을 생성하는 단위 지식베이스 생성부와; 단위 지식베이스 생성부에 의해 생성된 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론하는 단위 지식베이스 추론부와; 단위 지식베이스 추론부에 의해 각 기본 지식에 연관된 파생 지식들이 추론된 단위 지식베이스들을 병합하여 최종의 지식베이스를 구축하는 지식베이스 구축부를; 포함하여 이루어지는 것을 특징으로 한다.According to an aspect of the present invention, a knowledge base construction apparatus includes a basic knowledge extraction unit for extracting basic knowledge from web documents; A unit knowledge base generating unit for generating unit knowledge bases based on the basic knowledge extracted by the basic knowledge extracting unit; A unit knowledge base reasoning unit deducing derived knowledge related to each basic knowledge included in the unit knowledge bases generated by the unit knowledge base generating unit; A knowledge base constructing unit for constructing a final knowledge base by merging unit knowledge bases inferred from the derived knowledge related to each basic knowledge by the unit knowledge base reasoning unit; And the like.
본 발명의 부가적인 양상에 따르면, 지식베이스 구축장치가 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론시, 다수의 단위 지식베이스에 대해 병렬적으로 추론하는 것을 특징으로 한다.According to a further aspect of the present invention, the knowledge base constructing apparatus deduces inferred knowledge related to each basic knowledge included in the unit knowledge bases in parallel to a plurality of unit knowledge bases.
본 발명은 일부 기본 지식만을 포함하는 단위 지식베이스를 여러 개 생성하여 독립적으로 추론을 수행한 후 병합하여 최종 지식베이스를 구축함으로써 간편하고 빠르게 지식베이스를 구축할 수 있는 효과가 있다.The present invention has the effect of constructing a plurality of unit knowledge bases containing only some basic knowledge, performing independent inference, merging and building a final knowledge base, and building a knowledge base easily and quickly.
더 나아가, 본 발명은 여러개의 단위 지식베이스에 대한 추론을 병렬적으로 수행한 후 병합하여 최종 지식베이스를 구축함으로써 보다 간편하고 빠르게 지식베이스를 구축할 수 있는 효과가 있다.Furthermore, the present invention has the effect of constructing a knowledge base more easily by constructing a final knowledge base by performing inferences on a plurality of unit knowledge bases in parallel and merging them.
도 1 은 본 발명에 따른 지식베이스 구축장치의 일 실시예의 구성을 도시한 블럭도이다.
도 2 는 본 발명에 따른 지식베이스 구축장치에 이한 지식베이스 온톨로지 구조의 일 예를 도시한 도면이다.
도 3 은 본 발명에 따른 지식베이스 구축방법의 일 실시예의 구성을 도시한 흐름도이다.1 is a block diagram showing a configuration of an embodiment of a knowledge base establishing apparatus according to the present invention.
FIG. 2 is a diagram illustrating an example of a knowledge base ontology structure applied to a knowledge base construction apparatus according to the present invention.
3 is a flowchart showing a configuration of an embodiment of a knowledge base establishing method according to the present invention.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.
본 발명 명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.The terms used throughout the specification of the present invention have been defined in consideration of the functions of the embodiments of the present invention and can be sufficiently modified according to the intentions and customs of the user or operator. It should be based on the contents of.
도 1 은 본 발명에 따른 지식베이스 구축장치의 일 실시예의 구성을 도시한 블럭도이다. 도 1 에 도시한 바와 같이, 이 실시예에 따른 지식베이스 구축장치(100)는 기본 지식 추출부(110)와, 단위 지식베이스 생성부(120)와, 단위 지식베이스 추론부(130)와, 지식베이스 구축부(140)를 포함하여 이루어진다.1 is a block diagram showing a configuration of an embodiment of a knowledge base establishing apparatus according to the present invention. 1, the knowledge
기본 지식 추출부(110)는 웹 문서들로부터 기본 지식들을 추출한다. 웹 문서는 네트워크로부터 수집될 수 있다. 여기서, 추론에 의해 유도되지 않는 명시적인(explicit) 지식을 기본 지식이라 하고, 추론에 의해 유도되는 암묵적인(implicit) 지식은 파생 지식이라 한다.The basic
최근 지식베이스 구축에 가장 많이 활용되는 W3C에서 표준으로 제안한 웹 온톨로지 언어(OWL : Web Ontology Language)는 클래스(class), 개체(individual), 속성(property)으로 구성된다.Recently, the Web Ontology Language (OWL) proposed by W3C as the most widely used standard for knowledge base construction consists of class, individual, and property.
클래스(class)는 개념(concept)이라고도 표현되며, 개념적으로 같은 단어들의 집합을 표현할 수 있는 대표 용어를 말한다. 예를들면, '컴퓨터' 개념은 하위 개념으로 'pc', '워크스테이션'등이 될 수 있다. A class is also referred to as a concept and is a representative term that can conceptually represent the same set of words. For example, the concept of 'computer' can be sub-concept 'pc', 'workstation', and so on.
개체(individual)는 인스턴스(instnce)라고도 표현되며, 클래스에 포함되지 않는 용어를 말한다. 예를들면, '사람'은 클래스이지만 '사람 이름'은 개체이다.An individual is also referred to as an instance (instnce), which is a term not included in the class. For example, 'person' is a class, but 'person name' is an object.
속성(property)은 관계(relation)라고도 표현되며, 두 용어간의 관계를 설명하기 위해 사용된다.A property is also referred to as a relation and is used to describe the relationship between two terms.
지식은 주어(subject), 서술어(predicate), 목적어(object)로 구성된 트라이플(triple)들의 집합으로 표현된다. 그리고, 여러 트라이플들이 연결되어 시맨틱 네트워크(semantic network)가 구성된다. Knowledge is expressed as a set of triples composed of subject, predicate, and object. Then, several triples are connected to form a semantic network.
예를들면, 배우 'AAA'가 영화에서 부당거래를 연출했다는 지식은 "AAA(subject) - 연출하다(predicate) - 부당거래(object)", "AAA - instanceOf(관계) - 사람", "부당거래 - instanceOf(관계) - 영화" 등의 트라이플들로 표현할 수 있다.For example, the knowledge that the actor 'AAA' has produced an unfair transaction in the film is known as' AAA (subject) - Predicate - Objection (object) ',' AAA - instanceOf Transaction - instanceOf (relationship) - movie ".
의미 기반 검색(semantic search)에서는 사용자가 "AAA 연출 영화"라는 키워드 검색문을 입력하면, 검색 시스템이 사용자 키워드와 지식 베이스 개체간 매핑을 통해 "AAA"과 "연출하다" 그리고 "영화" 클래스의 인스턴스를 포함하는 부분 시맨틱 네트워크(즉, 트라이플의 집합)를 탐색/추출하여 "부당거래"를 검색 결과로 제공하게 된다.In a semantic search, when a user inputs a keyword search phrase "AAA directed movie", the search system searches for "AAA" and "direct" and "movie" classes through mapping between user keywords and knowledge base objects Search / extracts a partial semantic network (i.e., a set of triples) containing the instance, and provides an "unreasonable transaction" as a search result.
본 발명에 따른 지식베이스 구축장치(100)는 이러한 의미 기반 검색을 위한 지식 베이스를 생성하기 위한 것으로, 먼저 기본 지식 추출부(110)를 통해 웹 문서들로부터 추론에 의해 유도되지 않는 명시적인(explicit) 지식인 기본 지식들을 추출한다.The knowledge
웹 문서는 영화, 사람 등 어떤 대상 또는 개체에 대한 다양한 데이터를 HTML 태그(Tag)를 이용하여 기술할 수 있으며, 사람에게 일목요연하게 보여주기 위해 특정 데이터에 특정 HTML 태그를 사용할 수 있다.A web document can describe various data about a certain object or an object such as a movie or a person using an HTML tag and can use a specific HTML tag for specific data in order to show it to a person at a glance.
예를 들면, 영화에 대한 정보를 제공하는 웹 문서의 경우, 영화제목, 감독, 주연배우, 장르, 주제 등에 대한 정보를 포함할 수 있으며, 각각의 정보를 다음과 같은 HTML의 'meta' 태그 등을 사용해 설명할 수 있다. For example, a web document providing information about a movie may include information about a movie title, a director, a star actor, a genre, a subject, and the like, and each information may include the following 'meta' tags .
<meta name="Subject" content="홈페이지 주제 입력" /><meta name = "Subject" content = "Enter homepage topic" />
<meta name="Title" content="홈페이지 이름 입력" /><meta name = "Title" content = "Enter name of homepage" />
<meta name="Description" content="설명문 입력" /><meta name = "Description" content = "Enter comment" />
<meta name="Keywords" content="키워드 입력" /><meta name = "Keywords" content = "Enter Keyword" />
<meta name="Author" content="만든사람 이름" /><meta name = "Author" content = "Created name" />
<meta name="Publisher" content="만든단체/회사 이름" /><meta name = "Publisher" content = "Organization / Company Name" />
<meta name="Other Agent" content="웹책임자 이름" /><meta name = "Other Agent" content = "Web Officer Name" />
<meta name="Classification" content="카테고리위치(분류)" /><meta name = "Classification" content = "Category Location (Classification)" />
<meta name="Generator" content="생성프로그램(에디터)" /><meta name = "Generator" content = "Generator (Editor)" />
<meta name="Reply-To(Email)" content="메일주소 입력" /><meta name = "Reply-To (Email)" content = "Enter email address" />
<meta name="Filename" content="파일이름 입력" /><meta name = "Filename" content = "Enter file name" />
<meta name="Author-Date(Date)" content="제작일" /><meta name = "Author-Date (Date)" content = "Date Created" />
<meta name="Location" content="위치" /><meta name = "Location" content = "Location" />
<meta name="Distribution" content="배포자" /><meta name = "Distribution" content = "Distributor" />
<meta name="Copyright" content="저작권" /><meta name = "Copyright" content = "Copyright" />
따라서, 기본 지식 추출부(110)는 웹 문서에서 'meta' 태그 등과 같은 특정 태그를 이용하여 기본 지식들을 기계적으로 추출할 수 있다. 기본 지식 추출부(110)에 의해 추출된 기본 지식 데이터는 테이블 형태의 관계형 데이터베이스(relational database)로 저장할 수 있다.Accordingly, the basic
만약, 기본 지식이 웹 온톨로지 언어(OWL : Web Ontology Language)의 프리미티브 클래스(Primitive Class)로 선언되고, 파생 지식은 웹 온톨로지 언어(OWL : Web Ontology Language)의 디파인드 클래스(Defined Class)로 선언되었다고 가정하면, 기본 지식 추출부(110)가 웹 문서의 메타(Meta) 데이터로부터 프리미티브 클래스로 선언된 기본 지식 및 기본 지식에 정의된 속성(property)을 추출하도록 구현될 수 있다.If a basic knowledge is declared as a primitive class of a Web Ontology Language (OWL) and a derived knowledge is declared as a Defined Class of a Web Ontology Language (OWL) Assuming that the basic
예컨대, 기본 지식 추출부(110)는 메타 데이터 추출부(111)와, 텍스트 분석부(112)와, 기본 지식 저장부(113)를 포함할 수 있다.For example, the basic
메타 데이터 추출부(111)는 웹 사이트 등에서 수집된 웹 문서를 저장하는 웹 문서 저장DB에 저장된 웹 문서로부터 메타 데이터를 추출한다.The
텍스트 분석부(112)는 메타 데이터 추출부(111)에 의해 추출된 메타 데이터로부터 비정형 텍스트를 분석하여, 비정형 텍스트가 아닌 기본 지식들을 추출한다.The
기본 지식 저장부(113)는 텍스트 분석부(112)에 의해 추출된 기본 지식들의 중복성을 체크하여, 중복되지 않는 기본 지식들을 기본 지식DB에 저장한다.The basic
단위 지식베이스 생성부(120)는 기본 지식 추출부(110)에 의해 추출된 기본 지식들을 기반으로 단위 지식베이스들을 생성하여 단위 지식베이스 DB에 저장한다. 이 때, 단위 지식베이스는 전체 검색 대상이 아닌 일부 검색 대상에 대한 기본 지식들만을 포함하는 지식베이스를 말한다.The unit knowledge
예컨대, 단위 지식베이스 생성부(120)를 통해 1000개의 웹 문서에 대해서 10개씩 나누어 각각 10개의 웹문서들에 대한 기본 지식들만을 포함하는 100개의 단위 지식베이스를 생성하도록 구현될 수 있다.For example, the unit knowledge
예를 들면, 배우 'AAA'가 주연으로 출연한 영화 'BBB'에 관련된 정보를 포함하는 어떤 단위 지식베이스에는 도 2 에 도시한 지식베이스 온톨로지에 따라, "사람" 클래스의 인스턴스로 "AAA"가 생성되고, 기본 프라퍼티인 "주연"을 이용하여 "AAA - 주연 - BBB"와 같은 명시적인(explicit) 지식인 기본 지식이 포함될 수 있다.For example, some unit knowledge base including information related to the movie "BBB" starring as actor "AAA" includes "AAA" as an instance of the "person" class according to the knowledge base ontology shown in FIG. 2 And basic knowledge that is an explicit knowledge such as "AAA - Leader - BBB" can be included using the base property "Leader".
이후, 이러한 명시적인 기본 지식으로부터 "AAA"는 "영화배우", "주연배우" 클래스의 인스턴스라는 암묵적인(implicit) 지식인 파생 지식이 추론되는데, 단위 지식베이스에는 명시적인 지식인 기본 지식만 포함되고, 암묵적인 지식인 파생 지식은 포함되지 않는다.From this explicit basic knowledge, it is deduced that the "AAA" derives a derivative knowledge that is an implicit knowledge that it is an instance of "movie actors" and "star actors". The unit knowledge base includes only basic knowledge of explicit knowledge, Knowledge derived knowledge is not included.
한편, 배우 'AAA'가 주연으로 출연한 또 다른 영화 'CCC'에 관련된 정보를 포함하는 또 다른 단위 지식베이스에는 "AAA - 주연 - CCC"와 같은 명시적인(explicit) 지식인 기본 지식이 포함될 수 있다.On the other hand, another unit knowledge base that includes information related to another movie 'CCC' starring actor 'AAA' may include basic knowledge such as 'AAA - Casting - CCC' .
추후, 이 두 단위 지식베이스는 각각 추론 과정을 통해 암묵적인 지식인 파생 지식이 추론된 후 병합되어 배우 'AAA"에 관련된 모든 지식이 하나의 지식 베이스로 통합되게 되어 최종 지식베이스를 생성하는 데 걸리는 시간을 단축하게 된다.In the future, these two unit knowledge bases are merged after inferential intellectual derivation knowledge is inferred through inference process, and all knowledge related to 'AAA' is integrated into one knowledge base, .
단위 지식베이스 추론부(130)는 단위 지식베이스 생성부(120)에 의해 생성된 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론한다. 예를 들면, 위에 설명한 "AAA - 주연 - BBB"와 같은 명시적인(explicit) 지식인 기본 지식으로부터 단위 지식베이스 추론부(130)에 의해 "AAA"는 "영화배우", "주연배우" 클래스의 인스턴스라는 암묵적인(implicit) 지식인 파생 지식이 추론될 수 있다.The unit knowledge
예컨대, 기본 지식들과, 각 기본 지식에 연관된 파생 지식 및 파생 지식 추론을 위한 속성(property)들이 정의되고, 기본 지식이 웹 온톨로지 언어(OWL : Web Ontology Language)의 프리미티브 클래스(Primitive Class)로 선언되고, 파생 지식은 웹 온톨로지 언어(OWL : Web Ontology Language)의 디파인드 클래스(Defined Class)로 선언되었다고 가정하면, 단위 지식베이스 추론부(130)가 스키마 모델링 정보 DB에 저장된 파생 지식 추론을 위한 속성(property)을 참조해 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론하도록 구현될 수 있다.For example, the basic knowledge, the derivation knowledge related to each basic knowledge and the properties for inference of the derived knowledge are defined, and the basic knowledge is declared as the primitive class of the Web Ontology Language (OWL) Assuming that the derived knowledge is declared as a Defined Class of the Web Ontology Language (OWL), the unit knowledge
이 때, 단위 지식베이스 추론부(130)가 프리미티브 클래스의 인스턴스로 생성된 것들 중에서 특정 속성(property) 값을 갖는 것들을 프리미티브 클래스의 인스턴스로 표현하여 각 기본 지식에 연관된 파생 지식들을 추론하도록 구현될 수 있다.At this time, the unit knowledge
이렇게 구현함에 의해 추론을 통한 파생 지식 유도에 필요한 시간이 기본 지식의 양에 대해 지수적으로 증가하기 때문에 하나의 큰 크기의 지식베이스 전체를 추론하는 것보다 작은 크기의 여러 단위 지식베이스로 쪼개어 추론을 적용함으로써 전체적으로는 선형적인 추론 시간 단축 효과를 얻을 수 있다.In this way, since the time required to induce a derivative knowledge through inference increases exponentially with the amount of basic knowledge, it is possible to divide the whole knowledge base into several smaller unit knowledge bases, This leads to a reduction in the linear reasoning time overall.
한편, 단위 지식베이스 추론부(130)가 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론시, 다수의 단위 지식베이스에 대해 병렬적으로 추론하도록 구현하여, 파생 지식 추론시 속도를 더욱 향상을 할 수 있는 추가적인 이득을 가질 수 있다. Meanwhile, when the unit knowledge
지식베이스 구축부(140)는 단위 지식베이스 추론부(130)에 의해 각 기본 지식에 연관된 파생 지식들이 추론된 단위 지식베이스들을 병합하여 최종의 지식베이스를 구축한다. 지식베이스 구축부(140)는 최종의 지식베이스를 지식 베이스 DB에 저장한다.The knowledge
예컨대, 지식베이스 구축부(140)가 클래스(Class), 인스턴스(Individual) 및 속성(property)을 포함하는 모든 지식 개체가 고유한 식별자(URI : Uniform Resorce Identifier)를 가지는 URI 기반으로 단위 지식베이스들을 기계적으로 병합(merge)하도록 구현될 수 있다.For example, if the knowledge
한편, 발명의 부가적인 양상에 따르면, 지식베이스 구축장치(100)가 지식베이스 스키마(Schema) 모델링부(150)를 더 포함할 수 있다. 지식베이스 스키마 모델링부(150)는 기본 지식들과, 각 기본 지식에 연관된 파생 지식 및 파생 지식 추론을 위한 속성(property)을 정의하고, 기본 지식들과, 각 기본 지식에 연관된 파생 지식 및 파생 지식 추론을 위한 속성(property)을 정의한 스키마 모델링 정보를 스키마 모델링 정보DB에 저장한다. 기본 지식 추출부(110)는 스키마 모델링 정보DB에 저장된 스키마 모델링 정보를 참조해 기본 지식을 추출한다.According to a further aspect of the present invention, the knowledge
예컨대, 지식베이스 스키마 모델링부(150)가 기본 지식은 웹 온톨로지 언어(OWL : Web Ontology Language)의 프리미티브 클래스(Primitive Class)로 선언하고, 파생 지식은 웹 온톨로지 언어(OWL : Web Ontology Language)의 디파인드 클래스(Defined Class)로 선언하도록 구현될 수 있다.For example, the knowledge base
한편, 발명의 부가적인 양상에 따르면, 지식베이스 구축장치(100)가 웹 문서 수집부(160)를 더 포함할 수 있다. 웹 문서 수집부(160)는 네트워크로부터 웹 문서들을 수집한다.According to a further aspect of the present invention, the knowledge
본 발명은 기본 지식과 파생 지식을 구분하여 지식베이스 스키마(즉, 온톨로지)를 모델링하고, 웹 문서에서 추출된 메타데이터를 이용하여 기본 지식들을 포함하는 여러개의 단위 지식베이스를 생성하고, 각 단위 지식베이스에 대한 논리 추론을 통해 기본 지식들에 대한 파생 지식들을 추론하고, 이들을 병합하여 최종 지식베이스를 생성한다.The present invention models a knowledge base schema (i.e., an ontology) by classifying a basic knowledge and a derived knowledge, generates a plurality of unit knowledge bases including basic knowledge using metadata extracted from a web document, We derive the derived knowledge about the basic knowledge through logical reasoning about the base, and merge them to generate the final knowledge base.
즉, 본 발명은 작은 크기의 단위 지식베이스를 여러 개 만들고, 이들 각각에 독립적으로, 더 나아가 병렬적으로 추론을 적용하여 파생 지식을 유도한 후 병합하여 최종 단일 지식베이스를 구축함으로써 대용량의 지식베이스를 빠르게 구축할 수 있다.That is, according to the present invention, a plurality of unit knowledge bases having a small size are generated, and derivative knowledge is induced independently of each of the unit knowledge bases, and furthermore, parallel inference is applied, Can be built quickly.
또한, 복잡한 파생 지식의 유도를 추론엔진 즉, 단위 지식베이스 추론부(130)가 담당함으로써 메타 데이터의 마이그레이션을 담당하는 웹 문서 수집부(160)의 복잡도를 크게 줄여 전체 장치 구현이 쉬워진다.In addition, since the inference engine, that is, the unit knowledge
이상에서 설명한 바와 같은 본 발명에 따른 지식베이스 구축장치의 지식베이스 구축 동작을 도 3 을 통해 알아본다. 도 3 은 본 발명에 따른 지식베이스 구축방법의 일 실시예의 구성을 도시한 흐름도이다.The knowledge base building operation of the knowledge base building apparatus according to the present invention as described above will be described with reference to FIG. 3 is a flowchart showing a configuration of an embodiment of a knowledge base establishing method according to the present invention.
먼저, 스키마(Schema) 모델링단계(310)에서 지식베이스 구축장치가 기본 지식들과, 각 기본 지식에 연관된 파생 지식 및 파생 지식 추론을 위한 속성(property)을 정의한다. 기본 지식, 파생 지식 및 파생 지식 추론을 위한 속성 정의와 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.First, in the
그 다음, 웹 문서 수집단계(320)에서 지식베이스 구축장치가 네트워크로부터 웹 문서들을 수집한다. 웹 문서 수집과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.Next, in the web
그 다음, 기본 지식 추출단계(330)에서 지식베이스 구축장치가 웹 문서들로부터 기본 지식들을 추출한다. 기본 지식 추출과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.Next, in the basic
그 다음, 단위 지식베이스 생성단계(340)에서 지식베이스 구축장치가 기본 지식 추출단계(330)에 의해 추출된 기본 지식들을 기반으로 단위 지식베이스들을 생성한다. 단위 지식베이스 생성과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.Then, in the unit knowledge
그 다음, 단위 지식베이스 추론단계(350)에서 지식베이스 구축장치가 단위 지식베이스 생성단계(340)에 의해 생성된 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론한다. 파생 지식 추론과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.Then, in the unit knowledge
그 다음, 지식베이스 구축단계(360)에서 지식베이스 구축장치가 단위 지식베이스 추론단계(350)에 의해 각 기본 지식에 연관된 파생 지식들이 추론된 단위 지식베이스들을 병합하여 최종의 지식베이스를 구축한다. 단위 지식베이스들의 병합과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.Next, in the knowledge
따라서, 이와 같이 구현함에 의해 본 발명은 일부 기본 지식만을 포함하는 단위 지식베이스를 여러 개 생성하여 독립적으로 추론을 수행한 후 병합하여 최종 지식베이스를 구축함으로써 간편하고 빠르게 지식베이스를 구축할 수 있다.Therefore, according to the present invention, a plurality of unit knowledge bases including only some basic knowledge can be generated, independently inferred, and merged to construct a final knowledge base, thereby making it possible to construct a knowledge base easily and quickly.
더 나아가, 본 발명은 여러개의 단위 지식베이스에 대한 추론을 병렬적으로 수행한 후 병합하여 최종 지식베이스를 구축함으로써 보다 간편하고 빠르게 지식베이스를 구축할 수 있으므로, 상기에서 제시한 본 발명의 목적을 달성할 수 있다.Furthermore, the present invention can construct a knowledge base more easily by constructing a final knowledge base by performing inferences for a plurality of unit knowledge bases in parallel and merging them, Can be achieved.
본 발명은 첨부된 도면에 의해 참조되는 바람직한 실시예를 중심으로 기술되었지만, 이러한 기재로부터 후술하는 특허청구범위에 의해 포괄되는 범위내에서 본 발명의 범주를 벗어남이 없이 다양한 변형이 가능하다는 것은 명백하다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. .
본 발명은 지식베이스(knowledge base) 구축 기술분야 및 이의 응용 기술분야에서 산업상으로 이용 가능하다.INDUSTRIAL APPLICABILITY The present invention is industrially applicable in the field of knowledge base construction technology and its application technology field.
100 : 지식베이스 구축장치 110 : 기본 지식 추출부
111 : 메타 데이터 추출부 112 : 텍스트 분석부
113 : 기본 지식 저장부 120 : 단위 지식베이스 생성부
130 : 단위 지식베이스 추론부 140 : 지식베이스 구축부
150 : 스키마 모델링부 160 : 웹 문서 수집부100: knowledge base establishing apparatus 110: basic knowledge extracting unit
111: Metadata extraction unit 112: Text analysis unit
113: basic knowledge storage unit 120: unit knowledge base generation unit
130: unit knowledge base reasoning unit 140: knowledge base building unit
150: Schema modeling unit 160: Web document collecting unit
Claims (12)
기본 지식 추출부에 의해 추출된 기본 지식들을 기반으로 단위 지식베이스들을 생성하는 단위 지식베이스 생성부와;
단위 지식베이스 생성부에 의해 생성된 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론하는 단위 지식베이스 추론부와;
단위 지식베이스 추론부에 의해 각 기본 지식에 연관된 파생 지식들이 추론된 단위 지식베이스들을 병합하여 최종의 지식베이스를 구축하는 지식베이스 구축부를;
포함하여 이루어지는 것을 특징으로 하는 지식베이스 구축장치.A basic knowledge extraction unit for extracting basic knowledge from web documents;
A unit knowledge base generating unit for generating unit knowledge bases based on the basic knowledge extracted by the basic knowledge extracting unit;
A unit knowledge base reasoning unit deducing derived knowledge related to each basic knowledge included in the unit knowledge bases generated by the unit knowledge base generating unit;
A knowledge base constructing unit for constructing a final knowledge base by merging unit knowledge bases inferred from the derived knowledge related to each basic knowledge by the unit knowledge base reasoning unit;
Wherein the knowledge base construction apparatus comprises:
지식베이스 구축장치가:
기본 지식들과, 각 기본 지식에 연관된 파생 지식 및 파생 지식 추론을 위한 클래스(class) 속성(property)을 정의하는 지식베이스 스키마(Schema) 모델링부를;
더 포함하는 것을 특징으로 하는 지식베이스 구축장치.The method according to claim 1,
Knowledge base building device:
A knowledge base schema modeling unit that defines basic properties, a class property for derivation knowledge related to each basic knowledge and inferred knowledge inference;
Further comprising the steps of:
단위 지식베이스 추론부가:
파생 지식 추론을 위한 클래스 속성(property)을 참조해 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론하는 것을 특징으로 하는 지식베이스 구축장치.3. The method of claim 2,
Unit knowledge base reasoning part:
And derives derived knowledge related to each basic knowledge included in the unit knowledge bases by referring to a class property for inference knowledge inference.
지식베이스 스키마 모델링부가:
기본 지식은 웹 온톨로지 언어(OWL : Web Ontology Language)의 프리미티브 클래스(Primitive Class)로 선언하고, 파생 지식은 웹 온톨로지 언어(OWL : Web Ontology Language)의 디파인드 클래스(Defined Class)로 선언하는 것을 특징으로 하는 지식베이스 구축장치.3. The method of claim 2,
Knowledge base schema modeling part:
The basic knowledge is defined as a primitive class of a Web Ontology Language (OWL), and the derived knowledge is declared as a Defined Class of a Web Ontology Language (OWL) And the knowledge base construction apparatus.
단위 지식베이스 추론부가:
프리미티브 클래스의 인스턴스로 생성된 것들 중에서 특정 클래스(class) 속성(property) 값을 갖는 것들을 프리미티브 클래스의 인스턴스로 표현하여 각 기본 지식에 연관된 파생 지식들을 추론하는 것을 특징으로 하는 지식베이스 구축장치.5. The method of claim 4,
Unit knowledge base reasoning part:
Wherein a primitive class instance having a specific class property value is represented as an instance of a primitive class to deduce derived knowledge related to each basic knowledge.
기본 지식 추출부가:
웹 문서의 메타(Meta) 데이터로부터 프리미티브 클래스로 선언된 기본 지식 및 기본 지식에 정의된 클래스(class) 속성(property)을 추출하는 것을 특징으로 하는 지식베이스 구축장치.6. The method of claim 5,
Basic knowledge extraction unit:
Wherein a class property defined in a basic knowledge and basic knowledge declared as a primitive class is extracted from meta data of a web document.
단위 지식베이스 추론부가:
단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론시, 다수의 단위 지식베이스에 대해 병렬적으로 추론하는 것을 특징으로 하는 지식베이스 구축장치.The method according to claim 1,
Unit knowledge base reasoning part:
Wherein inferring knowledge related to each basic knowledge included in unit knowledge bases is inferred in parallel to a plurality of unit knowledge bases inferring.
지식베이스 구축부가:
클래스(Class), 인스턴스(Individual) 및 클래스(class) 속성(property)을 포함하는 모든 지식 개체가 고유한 식별자(URI : Uniform Resorce Identifier)를 가지는 URI 기반으로 단위 지식베이스들을 기계적으로 병합하는 것을 특징으로 하는 지식베이스 구축장치.The method according to claim 1,
Knowledge base building part:
It is possible to mechanically merge unit knowledge bases based on URIs in which all knowledge entities including class, instance, and class properties have a unique URI (Uniform Resource Identifier) And the knowledge base construction apparatus.
지식베이스 구축장치가:
네트워크로부터 웹 문서들을 수집하는 웹 문서 수집부를;
더 포함하는 것을 특징으로 하는 지식베이스 구축장치.9. The method according to any one of claims 1 to 8,
Knowledge base building device:
A web document collection unit for collecting web documents from a network;
Further comprising the steps of:
기본 지식 추출단계에 의해 추출된 기본 지식들을 기반으로 단위 지식베이스들을 생성하는 단위 지식베이스 생성단계와;
단위 지식베이스 생성단계에 의해 생성된 단위 지식베이스들에 포함되는 각 기본 지식에 연관된 파생 지식들을 추론하는 단위 지식베이스 추론단계와;
단위 지식베이스 추론단계에 의해 각 기본 지식에 연관된 파생 지식들이 추론된 단위 지식베이스들을 병합하여 최종의 지식베이스를 구축하는 지식베이스 구축단계를;
포함하여 이루어지는 것을 특징으로 하는 지식베이스 구축장치의 지식베이스 구축방법.A basic knowledge extraction step of extracting basic knowledge from web documents;
A unit knowledge base generation step of generating unit knowledge bases based on the basic knowledge extracted by the basic knowledge extraction step;
A unit knowledge base inferring step of deriving the derived knowledge related to each basic knowledge included in the unit knowledge bases generated by the unit knowledge base generating step;
A knowledge base constructing step of constructing a final knowledge base by merging unit knowledge bases inferred from the derived knowledge related to each basic knowledge by unit knowledge base inference step;
Wherein the knowledge base comprises a plurality of knowledge bases.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120114352A KR101473982B1 (en) | 2012-10-15 | 2012-10-15 | Knowledge base generating apparatus and knowledge base generating method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120114352A KR101473982B1 (en) | 2012-10-15 | 2012-10-15 | Knowledge base generating apparatus and knowledge base generating method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140047952A KR20140047952A (en) | 2014-04-23 |
KR101473982B1 true KR101473982B1 (en) | 2014-12-24 |
Family
ID=50654280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120114352A KR101473982B1 (en) | 2012-10-15 | 2012-10-15 | Knowledge base generating apparatus and knowledge base generating method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101473982B1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101686067B1 (en) * | 2014-11-24 | 2016-12-13 | 한국과학기술원 | System and method for discovering implicit relationships to augment web-scale knowledge base constructed from the web |
KR20190138037A (en) | 2018-06-04 | 2019-12-12 | 한국과학기술원 | An information retrieval system using knowledge base of cyber security and the method thereof |
KR102309375B1 (en) * | 2019-06-26 | 2021-10-06 | 주식회사 카카오 | Apparatus and method for knowledge graph indexing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050051864A (en) * | 2003-11-28 | 2005-06-02 | 한국전자통신연구원 | System and method for knowledge modeling using ontology |
US20070022142A1 (en) * | 2005-07-20 | 2007-01-25 | International Business Machines Corporation | System and method to generate domain knowledge for automated system management by combining designer specifications with data mining activity |
KR101068676B1 (en) * | 2010-05-14 | 2011-09-28 | 한국과학기술원 | Ontology modeling apparatus and method for connecting person to resource |
-
2012
- 2012-10-15 KR KR1020120114352A patent/KR101473982B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050051864A (en) * | 2003-11-28 | 2005-06-02 | 한국전자통신연구원 | System and method for knowledge modeling using ontology |
US20070022142A1 (en) * | 2005-07-20 | 2007-01-25 | International Business Machines Corporation | System and method to generate domain knowledge for automated system management by combining designer specifications with data mining activity |
KR101068676B1 (en) * | 2010-05-14 | 2011-09-28 | 한국과학기술원 | Ontology modeling apparatus and method for connecting person to resource |
Also Published As
Publication number | Publication date |
---|---|
KR20140047952A (en) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US10324967B2 (en) | Semantic text search | |
Ben Ellefi et al. | RDF dataset profiling–a survey of features, methods, vocabularies and applications | |
Auer et al. | Dbpedia: A nucleus for a web of open data | |
Rinaldi | An ontology-driven approach for semantic information retrieval on the web | |
CA2897886C (en) | Methods and apparatus for identifying concepts corresponding to input information | |
Sawadogo et al. | Metadata management for textual documents in data lakes | |
Aleman-Meza et al. | Ranking documents semantically using ontological relationships | |
El-Gayar et al. | Enhanced search engine using proposed framework and ranking algorithm based on semantic relations | |
KR101473982B1 (en) | Knowledge base generating apparatus and knowledge base generating method thereof | |
List et al. | The tijah xml-ir system at inex 2003 | |
Rome et al. | Towards a formal concept analysis approach to exploring communities on the world wide web | |
Corby et al. | Ontology-based approximate query processing for searching the semantic web with corese | |
Nayak et al. | Discovering interesting information with advances in web technology | |
Stoilos et al. | An ontology-based interactive system for understanding user queries | |
Omerovic et al. | Concept modeling: From origins to multimedia | |
Quamar et al. | Discovery and creation of rich entities for knowledge bases | |
Majid et al. | Semantics in social tagging systems: A review | |
Khattak et al. | Context-aware search in dynamic repositories of digital documents | |
Kesorn et al. | Semantic restructuring of natural language image captions to enhance image retrieval | |
Lingwal | Noise reduction and content retrieval from web pages | |
Alghamdi et al. | Object-based methodology for XML data partitioning (OXDP) | |
Lomotey et al. | Terms analytics service for CouchDB: a document-based NoSQL | |
Kambau et al. | Unified concept-based multimedia information retrieval technique | |
Echarte et al. | Self-adaptation of ontologies to folksonomies in semantic web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181025 Year of fee payment: 5 |