KR101016110B1 - System and method for extracting ontology instance using ontology property - Google Patents

System and method for extracting ontology instance using ontology property Download PDF

Info

Publication number
KR101016110B1
KR101016110B1 KR1020080063192A KR20080063192A KR101016110B1 KR 101016110 B1 KR101016110 B1 KR 101016110B1 KR 1020080063192 A KR1020080063192 A KR 1020080063192A KR 20080063192 A KR20080063192 A KR 20080063192A KR 101016110 B1 KR101016110 B1 KR 101016110B1
Authority
KR
South Korea
Prior art keywords
ontology
data
instance
structural
unstructured
Prior art date
Application number
KR1020080063192A
Other languages
Korean (ko)
Other versions
KR20100003087A (en
Inventor
정하용
김문식
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020080063192A priority Critical patent/KR101016110B1/en
Publication of KR20100003087A publication Critical patent/KR20100003087A/en
Application granted granted Critical
Publication of KR101016110B1 publication Critical patent/KR101016110B1/en

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법에 관한 것으로, 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여, 기계(예 : 컴퓨터 프로그램)가 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법을 제공하고자 한다.The present invention relates to an ontology instance extraction system and method using ontology properties, the machine (for example, a computer program) can perform a process based on semantics using the properties of the ontology from structural data and unstructured data, etc. An ontology instance extraction system using ontology properties for extracting a formal ontology instance and a method thereof are provided.

이를 위하여, 본 발명은 온톨로지 인스턴스 추출 시스템에 있어서, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 구조적 데이터 해석 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 비구조적 데이터 해석 수단; 및 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 수단을 포함한다.To this end, the present invention is an ontology instance extraction system, comprising: ontology storage means for storing the already built ontology; Structural data analysis means for generating ontology-based triple data from the structural data using the ontology property of the ontology storage means; Unstructured data analysis means for generating ontology based triple data from unstructured data using the ontology property of the ontology storage means; And ontology instance extracting means for extracting ontology instances from the ontology-based triple data generated by the structural data analyzing means and the unstructured data analyzing means by using the ontology property of the ontology storing means.

온톨로지, 인스턴스, 프로퍼티, 시맨틱 웹, 통합, 구조적, 비구조적 Ontology, instance, property, semantic web, integration, structural, unstructured

Description

온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법{System and method for extracting ontology instance using ontology property}System and method for extracting ontology instance using ontology property}

본 발명은 구조적 데이터 및 비구조적 데이터 등에서 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 웹 문서를 비롯하여 기하급수적으로 증가하는 전자문서 환경에서 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여, 해당 문서의 내용을 컴퓨터가 이해하여 처리할 수 있도록 하는 온톨로지 인스턴스를 자동으로 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법에 관한 것이다.The present invention relates to an ontology instance extraction system and method using ontology properties for extracting ontology instances using properties of ontology from structural data and unstructured data, more specifically, exponentially increased including web documents. Ontology instance extraction using ontology properties to automatically extract ontology instances that allow the computer to understand and process the contents of the document using structural properties and unstructured data in an electronic document environment. A system and method thereof are provided.

인터넷, 특히 웹의 발전은 구조적 데이터 및 비구조적 데이터를 폭발적으로 증가시켰다. 하지만, 기존의 정보 시스템들은 문서의 의미나 내용과는 상관없이 문 서에 어떤 글자가 나타나는지, 또는 문서의 길이가 어느 정도인지 등과 같은 외형적인 정보를 이용하여 정보를 처리할 수밖에 없었다. 기존의 인트라넷 환경에서는 문서의 수가 한정적이었기 때문에, 정보 시스템은 문서를 검색하거나 가공하는 것을 도와주고, 실제 문서의 내용을 확인하여 정확한 문서를 찾고 가공하는 것은 사용자의 몫이었다. 하지만, 웹 환경에서 기하급수적으로 증가하는 문서의 양은 더 이상 사람이 문서의 내용을 확인하기 어렵게 만들고 있다.The development of the Internet, especially the web, has exploded in structured and unstructured data. However, existing information systems have no choice but to process information by using external information such as what characters appear in the document or how long the document is, regardless of the meaning or content of the document. Because of the limited number of documents in the existing intranet environment, the information system helped to search and process the documents, and it was up to the user to find and process the correct documents by checking the contents of the actual documents. However, the exponentially increasing amount of documents in the Web environment makes it difficult for people to see the contents of documents.

이에 대한 해결책으로 웹상의 정보들에 잘 정의된 공용의 의미를 부여해서, 사람뿐만 아니라 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있게끔 하자는 "시맨틱 웹"이 제안되었다. 그리고 이러한 시맨틱 웹을 위해 "잘 정의된 공용의 의미 체계"인 "온톨로지"가 하나 둘씩 속속 구축되게 되었다. 이러한 온톨로지에 정의된 의미들을 이용하여 작성된 시맨틱 웹 문서들은 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있기 때문에, 정보 시스템들이 내용에 기반하여 문서를 검색하거나 가공하는 것이 가능해졌다.As a solution, the "Semantic Web" has been proposed to give well-defined common meanings to information on the Web so that not only people but also computer programs can understand and process the contents of documents. And "Ontology", a well-defined common semantic system, was built one by one for this semantic web. Semantic web documents created using the semantics defined in the ontology can be processed by computer programs by understanding the contents of the document, thereby enabling information systems to search or process the document based on the content.

하지만, 문제는 이미 셀 수 없을 만큼 많은, 그리고 앞으로도 수없이 생산될 기존의 구조적 데이터 및 비구조적 데이터를 시맨틱 웹 데이터로 바꾸는 일이다. 이를 위해서는 구조적 데이터 및 비구조적 데이터로부터, 데이터의 외적인 정보인 메타데이터가 아닌 데이터의 내적인 내용을 온톨로지에 맞추어 기술하기 위해, 온톨로지 인스턴스를 추출하는 방안이 절실히 필요하다.The problem, however, is the transformation of already structured and unstructured and unstructured data into semantic web data. To do this, it is urgently needed to extract ontology instances from structural and unstructured data to describe the internal content of the data, rather than metadata that is external information of the data, to the ontology.

이를 위한 종래 기술의 일예로서, 구조적 및 비구조적 데이터로부터 온톨로지 인스턴스를 추출하는 방식의 대한민국특허 10-729103호(비구조 웹문서로부터 온 톨로지 인스턴스를 자동으로 추출하기 위한 시스템 및 그 방법)가 있다.As an example of the prior art for this purpose, there is Korea Patent No. 10-729103 (system and method for automatically extracting the ontology instance from an unstructured web document) of the method to extract the ontology instance from the structural and unstructured data. .

상기 종래 기술은 유비쿼터스(Ubiquitous) 환경 및 차세대 웹 환경에서 인터넷상에 존재하는 비구조 웹 문서 및 데이터베이스의 다양한 정보로부터 도메인 온톨로지 추론에 필요한 온톨로지의 인스턴스를 실시간으로 혹은 비실시간으로 자동 추출(생성) 및 저장할 수 있는 온톨로지 인스턴스 자동 추출 시스템 및 그 방법에 관한 것이다.The prior art automatically extracts (creates) an instance of ontology necessary for domain ontology inference in real time or in real time from various information of unstructured web documents and databases existing on the Internet in ubiquitous environment and next generation web environment. The present invention relates to an ontology instance automatic extraction system and a method thereof.

상기 종래 기술(온톨로지 인스턴스 추출 시스템)은, 도메인에 해당하는 웹 문서를 수집하기 위한 도메인별 정보수집수단과, 상기 수집된 웹 문서로부터 정보 추출 규칙에 의해 정보를 추출하기 위한 정보추출수단과, 상기 추출된 정보에서 온톨로지 스키마에 맞는 의미적 정보를 매칭(선별)하고, 매칭된 의미적 정보를 검색이 용이한 형태의 데이터로 변환하기 위한 정보생성수단과, 상기 변환된 의미적 데이터를 검색이 용이한 인덱스로 저장ㆍ관리하기 위한 저장수단, 및 기 정의된 규칙에 의거하여 상기 저장수단에 저장된 의미적 데이터를 온톨로지에 매핑시켜 온톨로지 인스턴스 데이터로 활용하는 정보매핑수단을 포함한다.The prior art (ontology instance extraction system), domain-specific information collecting means for collecting a web document corresponding to a domain, information extraction means for extracting information by the information extraction rule from the collected web document, and Information generating means for matching (selecting) semantic information matching the ontology schema from the extracted information, and converting the matched semantic information into data in an easy-to-search form, and easy to retrieve the converted semantic data. Storage means for storing and managing at one index, and information mapping means for mapping semantic data stored in the storage means to ontology based on predefined rules and using the ontology instance data.

이처럼 종래 기술로는 특정한 도메인에 한하여 미리 정의된 패턴 등을 이용하여 정보를 추출하는 래퍼(Wrapper)를 이용하거나, 특정한 구조적 데이터를 통째로 인스턴스로 변환하는 방법 등이 있다.As such, the related art uses a wrapper for extracting information using a predefined pattern or the like for a specific domain, or converts specific structural data into an instance.

그러나 상기와 같은 종래 기술은 특정 도메인마다 서로 다른 규칙을 이용하여야 하기 때문에 도메인마다 규칙을 정의하는데 많은 시간이 소요될 뿐만 아니라 비경제적인 단점이 있고, 그에 따라 특정 도메인이나 특정 시스템으로 그 사용 범위가 제한적인 문제점이 있으며, 또한 구조적 데이터로부터 추출된 데이터 및 비구조적 데이터로부터 추출된 데이터 간의 통합 없이 각 데이터로부터 온톨로지 인스턴스를 추출하기 때문에 추출된 온톨로지 인스턴스에 대한 정확도(정밀도)가 떨어지는 단점이 있으며, 이러한 단점을 해결하고자 하는 것이 본 발명의 과제이다.However, the above-described conventional technology requires not only a lot of time to define rules for each domain, but also has an uneconomical disadvantage because it requires the use of different rules for specific domains. There is a problem, and since the ontology instance is extracted from each data without integration between the data extracted from the structural data and the data extracted from the unstructured data, the accuracy (precision) of the extracted ontology instance is inferior. It is a problem of the present invention to be solved.

따라서 본 발명은 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여, 기계(예 : 컴퓨터 프로그램)가 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법을 제공하는데 그 목적이 있다.Accordingly, the present invention uses ontology properties to extract a formal ontology instance in which a machine (for example, a computer program) can perform semantic based processing using structural properties and unstructured data. It is an object of the present invention to provide an instance extraction system and method thereof.

또한, 본 발명은 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하되, 상기 구조적 데이터로부터 생성된 온톨로지 기반 트리플 데이터와 상기 비구조적 데이터로부터 생성된 온톨로지 기반 트리플 데이터를 통합하여 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법을 제공하는데 그 목적이 있다.In addition, the present invention extracts an ontology instance using properties of the ontology from structural data and unstructured data, and integrates ontology-based triple data generated from the structural data and ontology-based triple data generated from the unstructured data. An object of the present invention is to provide an ontology instance extraction system and method using ontology properties for extracting ontology instances.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects and advantages of the present invention which are not mentioned above can be understood by the following description, and will be more clearly understood by the embodiments of the present invention. Also, it will be readily appreciated that the objects and advantages of the present invention may be realized by the means and combinations thereof indicated in the claims.

상기 목적을 달성하기 위한 본 발명의 시스템은, 온톨로지 인스턴스 추출 시스템에 있어서, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 구조적 데이터 해석 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 비구조적 데이터 해석 수단; 및 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 수단을 포함한다.A system of the present invention for achieving the above object, Ontology instance extraction system, Ontology storage means for storing the pre-established ontology; Structural data analysis means for generating ontology-based triple data from the structural data using the ontology property of the ontology storage means; Unstructured data analysis means for generating ontology based triple data from unstructured data using the ontology property of the ontology storage means; And ontology instance extracting means for extracting ontology instances from the ontology-based triple data generated by the structural data analyzing means and the unstructured data analyzing means by using the ontology property of the ontology storing means.

또한, 상기 온톨로지 인스턴스 추출 수단은, 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 온톨로지 저장 수단에 저장하는 기능을 더 수행한다.The ontology instance extracting means further extracts the ontology instance to generate instance extension tripled data, and recursively stores the generated instance extension tripled data in the ontology storage means.

한편, 상기 목적을 달성하기 위한 본 발명의 방법은, 온톨로지 인스턴스 추출 방법에 있어서, 기 구축된 온톨로지를 온톨로지 저장 수단에 저장하는 온톨로지 저장 단계; 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 구조적 데이터 해석 단계; 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 비구조적 데이터 해석 단계; 및 상기 구조적 데이터 해석 단계와 상기 비구조적 데이터 해석 단계에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하는 온톨로지 인스턴스 추출 단계를 포함한다.On the other hand, the method of the present invention for achieving the above object, Ontology instance extraction method, the ontology storage step of storing the pre-established ontology in the ontology storage means; A structural data analysis step of generating ontology-based triple data from structural data using the properties of the previously constructed ontology; An unstructured data analysis step of generating ontology-based triple data from unstructured data by using the properties of the built ontology; And an ontology instance extraction step of extracting an ontology instance from the ontology-based triple data generated in the structural data analysis step and the unstructured data analysis step by using the built-in ontology property.

또한, 상기 온톨로지 인스턴스 추출 단계는, 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 온톨로지 저장 수단에 저장하는 과정을 더 수행한다.The ontology instance extracting step may further include extracting the ontology instance to generate instance extension tripled data and recursively storing the generated instance extension tripled data in the ontology storage means.

상기와 같은 본 발명은, 구조적 데이터 및 비구조적 데이터로부터 컴퓨터 프로그램이 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 인스턴스를 자동으로 추출할 수 있는 효과가 있다.As described above, the present invention has an effect of automatically extracting a formal ontology instance in which a computer program can perform semantic based processing from structural data and unstructured data.

즉, 본 발명은 인터넷 환경을 통해 폭발적으로 증가하는 구조적 데이터 및 비구조적 데이터들로부터 자동적으로 온톨로지 인스턴스를 추출함으로써, 컴퓨터 프로그램들이 구조적 데이터 및 비구조적 데이터들을 의미에 기반한 정보로서 이용할 수 있도록 만들 수 있다.In other words, the present invention can automatically extract ontology instances from the structural and unstructured data exploding through the Internet environment, so that computer programs can use the structured and unstructured data as information based on meaning. .

그에 따라, 본 발명은 구조적 데이터 및 비구조적 데이터를 의미기반 정보 자원으로서 사용할 수 있도록 할 수 있을 뿐만 아니라, 그것들 간의 관계를 제공함으로써 정보 검색, 자원 공유, 정보 요약, 문서 번역, 개인화, 자원 관리, 및 매쉬업 등의 다양한 응용시스템들이 의미에 기반한 결과를 제공할 수 있도록 할 수 있다.Accordingly, the present invention not only makes it possible to use structured data and unstructured data as semantic based information resources, but also provides relationships between them to provide information retrieval, resource sharing, information summary, document translation, personalization, resource management, And various application systems such as mashups can provide semantic based results.

또한, 본 발명은 자동적으로 구조적 데이터 및 비구조적 데이터로부터 다양한 어휘를 수집하여 온톨로지에 할당하고 그 온톨로지를 확장함으로써, 온톨로지의 구축, 관리, 확장, 및 보수에도 큰 도움을 줄 수 있다.In addition, the present invention automatically collects various vocabularies from structural data and unstructured data, assigns them to ontologies, and extends the ontology, thereby greatly helping the construction, management, expansion, and maintenance of the ontology.

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되어 있는 상세한 설명을 통하여 보다 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.BRIEF DESCRIPTION OF THE DRAWINGS The above and other objects, features and advantages of the present invention will become more apparent from the following detailed description of the present invention when taken in conjunction with the accompanying drawings, It can be easily carried out. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 본 발명의 이해를 돕기 위하여 시맨틱 웹 기술에 대해 좀 더 살펴보기로 한다.First, the semantic web technology will be described in more detail to help understanding of the present invention.

팀 버너스-리(Tim Berners-Lee)는 1989년에 웹(World Wide Web)을 처음으로 제안하여, 기존에 널리 쓰이고 있던 클라이언트-서버(Client-Server) 구조와 HTML(HyperText Markup Language)의 마크업 언어로 인터넷 환경에서 어디에서나 개인의 정보를 웹에 올릴 수 있고, 브라우저를 통해 그 정보에 접근할 수 있는 정보의 공유 인프라를 갖출 수 있도록 하였다. 이에 따라, 수많은 정보가 인터넷에 올려지게 되고 유통되는 과정을 거치면서 대량의 정보가 인터넷상에 존재하게 되었고, 이를 상호 공유함으로써 사회 발전과 기술 발전을 촉진하고, 결과적으로 정보사회의 혁신을 이끄는 계기가 되었다.Tim Berners-Lee first proposed the World Wide Web in 1989, marking the existing client-server architecture and HyperText Markup Language (HTML). The language allows users to post personal information anywhere on the Internet and to have a shared infrastructure for accessing that information through a browser. As a result, a great deal of information has been put on the Internet and distributed, and a great deal of information has existed on the Internet. The sharing of this information promotes social and technological development, and as a result, leads the innovation of the information society. Became.

그러나 정보의 양이 방대해짐으로써 자신이 원하는 정보를 찾기에 드는 노력과 시간이 점점 더 많아지는 현상이 발생하게 되었고, 웹을 이용한 다양한 응용 프로그램 및 서비스가 등장하면서 이 역시 유효하고 적절하게 찾아 이용하기에는 많은 어려움이 발생하게 되었다.However, the enormous amount of information has led to more and more efforts to find the information they want, and the emergence of various applications and services using the web has made it difficult and effective to find and use. Many difficulties have arisen.

특히, 기존의 웹을 기반으로 한 검색 방법은 키워드에 의한 검색이 주류로서, 주로 단어의 빈도수나 어휘 정보를 이용하여 웹 문서의 우선순위를 결정하는 방식으로, 정작 사용자가 원하는 웹 문서를 찾는 데는 한계가 있다. 또한, 관련된 웹 문서를 확장하거나 통합, 공유하는 것이 매우 어렵다. 이러한 문제점은 기존의 웹과 마크업 언어가 인간 중심이고 인간이 보고 이해할 수 있도록 웹 브라우저의 표현 기술에 초점을 맞추고 있기 때문이다. 결국, 기존의 웹은 컴퓨터가 스스로 필요한 정보를 효과적으로 추출하고, 해석하고, 가공하는 기능을 충분히 제공하지 못하는 인간 중심의 정보 처리 기술이라고 할 수 있다.In particular, the existing web-based search method is mainly searched by keywords, and the method of determining the priority of web documents using frequency of words or lexical information is mainly used to find a desired web document. There is a limit. In addition, it is very difficult to expand, integrate and share related web documents. This problem is because the existing web and markup languages are human-centered and focus on the expression technology of the web browser for humans to see and understand. As a result, the existing web is a human-centered information processing technology that does not provide enough functions for a computer to effectively extract, interpret, and process necessary information on its own.

이후, 기존의 웹을 확장하여 컴퓨터가 이해할 수 있는 잘 정의된 의미를 기 반으로 의미적 상호 운용성(semantic interoperability)을 실현하고 인간과 컴퓨터 간의 효과적인 협동 체제를 구축할 수 있는 기술로서 시맨틱(Semantic) 웹이 등장하게 되었다.Later, Semantic is a technology that can extend the existing web to realize semantic interoperability based on well-defined meanings that can be understood by computers, and to build an effective cooperative system between humans and computers. The web has come.

팀 버너스-리는 시맨틱 웹이 기존의 웹과 완전히 구별되는 새로운 웹의 개념이 아니라 현재 웹을 확장하여 웹에 올라오는 정보에 잘 정의된 의미를 부여하고 이를 통해 컴퓨터와 사람이 협동적으로 작업을 수행할 수 있도록 하는 패러다임이라고 그 역할을 정의하였다. 시맨틱 웹은 웹상에 존재하는 정보를 사람뿐만 아니라 기계(컴퓨터)가 의미를 파악하여 사용자의 요구에 적합한 지능형 서비스를 제공하거나, 사람과 기계 또는 기계와 기계 상호 간에 협업을 원활히 수행함으로써 사람을 대신하여 자동적인 서비스가 가능한 웹을 말한다.Tim Berners-Lee is not the concept of a new web that is completely different from the existing web, but rather extends the current web to give well-defined meaning to the information on the web, thereby helping computers and people work collaboratively. The role is defined as a paradigm that can be performed. The Semantic Web is designed to understand the meaning of information on the web, not only by people, but also by machines (computers) to provide intelligent services that meet the needs of users, or to facilitate collaboration between people and machines. It is a web with automatic service.

즉, 시맨틱 웹은 컴퓨터가 정보 자원의 의미를 이해하고, 자동화하고, 통합하고, 재사용할 수 있는 차세대 웹 기술로서, 다음의 3가지 주요 요소로 이루어진다.In other words, the semantic web is a next-generation web technology that enables a computer to understand, automate, integrate, and reuse the meaning of information resources.

1) 온톨로지(ontology)1) Ontology

온톨로지는 공유된 개념화에 대한 형식적 명세 체계로서, 도메인 어휘의 의미 정보를 제공한다. 온톨로지는 일종의 지식 표현으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있다. 추론 등의 처리를 위해서는 온톨로지의 공리(axiom)와 규칙(rule) 체계가 필요하다.Ontology is a formal specification system for shared conceptualization and provides semantic information of domain vocabulary. Ontology is a kind of knowledge expression, and the computer can understand the concept represented by the ontology and process the knowledge. In order to deal with inferences, the ontology's axiom and rule system are needed.

2) 의미적으로 주석화된 웹(semantically annotated Web)2) semantically annotated web

의미적으로 주석화된 웹이란 온톨로지로 주석화된 웹으로, 일종의 지식 베이 스(knowledge base)이다. 시맨틱 웹에서는 인터넷의 분산 정보 자원을 의미적으로 통합하는 거대한 지식 베이스를 구축할 수 있다. 좁은 의미에서 기업 또는 기관의 정보 자원에 대한 지식 베이스를 구축할 수도 있다.A semantically annotated web is an ontology annotated web, which is a knowledge base. The Semantic Web can build a huge knowledge base that semantically integrates the distributed information resources of the Internet. In a narrow sense, it may be possible to build a knowledge base of information resources of a company or institution.

3) 에이전트(agent)3) agent

에이전트(agent)는 사람(사용자)을 대신하여 정보 자원을 수집·검색하고 추론하며, 다른 에이전트와 상호 정보를 교환하는 등의 일을 수행하는 지능형 에이전트이다. 지능형 에이전트는 시맨틱 웹 기반 응용 시스템의 핵심이라 할 수 있다.An agent is an intelligent agent that collects, retrieves and infers information resources on behalf of a person (user), and exchanges information with other agents. Intelligent agents are the core of semantic web-based application systems.

시맨틱 웹은 온톨로지와 에이전트 기술을 활용하여 의미적 상호 운용성을 실현하며, 그에 따라 기존의 정보 표현 중심의 웹을 지식 기반 의미 중심의 웹으로 도약시킬 수 있게 되었다.The semantic web realizes semantic interoperability by using ontology and agent technology, and thus, the semantic web can leap from the information-based web to the knowledge-based semantic web.

도 1은 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템의 일실시예 구성도이다.1 is a configuration diagram of an ontology instance extraction system using an ontology property according to the present invention.

도 1에 도시된 바와 같이, 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템은, 온톨로지 저장소(80)의 온톨로지 프로퍼티를 이용하여 데이터베이스나 테이블 등의 정형화된 구조적 데이터(10)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)하기 위한 구조적 데이터 해석 모듈(20), 상기 온톨로지 저장소(80)의 온톨로지 프로퍼티를 이용하여 자연어 문서 등의 비구조적 데이터(30)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)하기 위한 비구조적 데이터 해석 모듈(40), 및 상기 구조적 데이터 해석 모듈(20)과 상기 비구조적 데 이터 해석 모듈(40)에서 생성(추출)된 온톨로지 기반 트리플 데이터(50)로부터, 상기 온톨로지 저장소(80)의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 모듈(60)을 포함한다.As shown in FIG. 1, the ontology instance extraction system using ontology properties according to the present invention uses ontology properties of the ontology repository 80 from ontology-based triple data from formal structural data 10 such as a database or a table. The ontology-based triple data 50 is generated from the unstructured data 30 such as a natural language document using the structural data analysis module 20 for generating (extracting) the ontology property of the ontology repository 80. From the unstructured data analysis module 40 for extraction and the ontology-based triple data 50 generated (extracted) from the structural data analysis module 20 and the unstructured data analysis module 40, Ontology instance for extracting the ontology instance by using the ontology property of the ontology repository 80 Extraction module 60.

이때, 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템은, 상기 각 구성 요소의 동작을 지원, 즉 온톨로지 프로퍼티를 이용할 수 있도록 지원하기 위하여, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장소(80)를 구비한다.At this time, the ontology instance extraction system using the ontology properties according to the present invention, to support the operation of each component, that is, to support the use of the ontology properties, ontology storage 80 that stores the built ontologies Equipped.

그리고 상기 온톨로지 인스턴스 추출 모듈(60)은 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터(70)를 생성하여, 상기 생성한 인스턴스 확장 트리플 데이터(70)를 재귀적으로 상기 온톨로지 저장소(80)에 저장하는 기능을 더 수행함으로써, 상기 생성된 인스턴스 확장 트리플 데이터(70)가 상기 각 구성 요소의 이후 동작을 재귀적으로 지원할 수 있도록 한다.The ontology instance extraction module 60 extracts the ontology instance to generate instance extension triple data 70 and recursively stores the generated instance extension triple data 70 in the ontology storage 80. By further performing the function, the generated instance extension triple data 70 can recursively support the subsequent operation of each component.

다음으로, 상기 구조적 데이터 해석 모듈(20), 비구조적 데이터 해석 모듈(40), 및 온톨로지 인스턴스 추출 모듈(60)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.Next, the structure and operation of the structural data analysis module 20, the unstructured data analysis module 40, and the ontology instance extraction module 60 will be described in detail.

먼저, 상기 구조적 데이터 해석 모듈(20)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.First, the configuration and operation of the structural data analysis module 20 will be described in more detail.

상기 구조적 데이터 해석 모듈(20)은 정형화된 언어나 규격을 통해서 생성된 구조적 데이터(10)를 해석하여 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결 시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)하여 상기 온톨로지 인스턴스 추출 모듈(60)로 전달한다.The structural data analysis module 20 analyzes the structural data 10 generated through a formal language or standard and connects it with a built-on ontology of the ontology repository 80 to generate (extract) the ontology-based triple data 50. ) To the ontology instance extraction module 60.

여기서, 온톨로지 기반 트리플 데이터(50)는 데이터의 표현을 (Subject, Predicate, Object)의 트리플 형식으로 나타내면서 각각의 엔티티들을 온톨로지와 연결한 데이터를 의미한다. 예를 들어, (홍길동, 나이, 28)과 같은 트리플 데이터는 “홍길동”이라는 객체의 “나이”라는 속성이 “28”이라는 값을 가진다는 것을 의미한다.Here, the ontology-based triple data 50 refers to data in which each entity is connected to the ontology while representing the data in a triple format of (Subject, Predicate, Object). For example, triple data such as (Hong Gil Dong, Age, 28) means that the property "Age" of the object "Hong Gil Dong" has a value of "28".

따라서 데이터베이스와 같은 구조적 데이터(10)로부터 트리플 데이터를 생성하기 위해서는, 하나의 레코드를 특정할 수 있는 프라이머리 키 필드의 값을 “Subject”로, 각 필드 명을 “Predicate”로, 각 필드의 값을 “Object”로 하는 n개(n은 자연수)의 트리플을 만들면 된다. 예를 들어, 임의의 데이터베이스 테이블에 필드가 (ID, 이름, 나이, 성별)과 같이 존재하고, 프라이머리 키는 ID이며, 특정한 하나의 레코드의 필드 값이 (0651, 김길동, 28, 남)과 같이 존재할 때, 이것을 해석하여 트리플 데이터로 표현하면 (0651, 이름, 김길동), (0651, 나이, 28), 및 (0651, 성별, 남)과 같이 트리플 데이터를 생성할 수 있다.Therefore, in order to generate triple data from the structural data 10 such as a database, the value of the primary key field that can specify one record is “Subject”, each field name is “Predicate”, and the value of each field. You can make n triples (where n is a natural number) with "Object". For example, in any database table, a field exists like (ID, Name, Age, Gender), the primary key is ID, and the field value of one particular record is (0651, Kim Gil-dong, 28, M). When present together, this data can be interpreted and expressed as triple data to generate triple data such as (0651, name, Kim Gil-dong), (0651, age, 28), and (0651, gender, male).

그리고 상기와 같은 방법으로 생성된 트리플 데이터에서, “Subject”와 “Object” 부분은 온톨로지 저장소(80)에서 그 의미에 해당하는 적절한 인스턴스를 찾아서 연결하고, “Predicate” 부분은 온톨로지 저장소(80)에서 그 의미에 해당하는 적절한 프로퍼티를 찾아서 연결함으로써, 온톨로지 기반 트리플 데이터(50)를 생성할 수 있다.In the triple data generated by the above method, the “Subject” and “Object” parts find and connect an appropriate instance corresponding to the meaning in the ontology store 80, and the “Predicate” part in the ontology store 80. The ontology-based triple data 50 may be generated by finding and connecting an appropriate property corresponding to the meaning.

이제, 상기 비구조적 데이터 해석 모듈(40)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.Now, the configuration and operation of the unstructured data analysis module 40 will be described in more detail.

상기 비구조적 데이터 해석 모듈(40)은 정형화된 언어나 규격을 통해서 생성되지 않은 자연어 문서 등의 비구조적 데이터(30)를 해석하여 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)하여 상기 온톨로지 인스턴스 추출 모듈(60)로 전달한다.The unstructured data analysis module 40 analyzes unstructured data 30 such as a natural language document that is not generated through a standardized language or standard, and connects the ontology-based ontology of the ontology repository 80 to ontology-based triple data. Generate (50) and deliver it to the ontology instance extraction module 60.

여기서, 자연어 문서와 같은 비구조적 데이터(30)로부터 트리플 데이터를 생성하기 위해서는, 기 구축된 고유명사 사전, 또는 기 구축된 전문용어 사전, 또는 공지의 형태소 분석, 또는 공지의 개체명 인식 등의 방식을 이용하거나 이들 방식들 중에서 적어도 하나 이상의 방식을 이용하여 개체명 혹은 의미단위(문장 내에서 하나의 객체로서 독립된 의미를 가지는 단위)를 추출한 후, 온톨로지 프로퍼티를 이용하여 트리플 데이터를 생성하거나, 공지의 구문구조 분석, 온톨로지 프로퍼티, 및 트리플 패턴 적용 등의 방식을 이용하여 트리플 데이터를 생성한다. 예를 들어, 임의의 자연어 문장이 “MBC에서 올 하반기 방영할 또 다른 ‘일지매’의 주인공으로는 이준기가 낙점됐다.”와 같을 때, 이것을 트리플 데이터로 표현하면 (MBC, 방영, 일지매), (일지매, 주인공, 이준기)와 같이 트리플 데이터를 생성할 수 있다.Here, in order to generate the triple data from the unstructured data 30 such as a natural language document, a pre-built proper noun dictionary, a pre-built terminology dictionary, a known morpheme analysis, or a known entity name recognition method, etc. After extracting the entity name or semantic unit (unit having independent meaning as one object in the sentence) using at least one or more of these methods, triple data is generated using ontology properties, or Triple data is generated using methods such as syntax analysis, ontology properties, and triple pattern application. For example, when an arbitrary natural language sentence is "Lee Jun-gi was the main character of another 'Iljimae' to air in the second half of this year," expressed as triple data (MBC, aired, Iljimae), ( Triple data can be generated as shown in Iljimae, Main Character, Lee Joon Ki).

그리고 상기와 같은 방법으로 생성된 트리플 데이터에서, “Subject”와 “Object” 부분은 온톨로지 저장소(80)에서 그 의미에 해당하는 적절한 인스턴스를 찾아서 연결하고, “Predicate” 부분은 온톨로지 저장소(80)에서 그 의미에 해당하는 적절한 프로퍼티를 찾아서 연결함으로써, 온톨로지 기반 트리플 데이터(50)를 생성할 수 있다.In the triple data generated by the above method, the “Subject” and “Object” parts find and connect an appropriate instance corresponding to the meaning in the ontology store 80, and the “Predicate” part in the ontology store 80. The ontology-based triple data 50 may be generated by finding and connecting an appropriate property corresponding to the meaning.

이제, 상기 온톨로지 인스턴스 추출 모듈(60)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.Now, the configuration and operation of the ontology instance extraction module 60 will be described in more detail.

상기 온톨로지 인스턴스 추출 모듈(60)은 상기 온톨로지 기반 트리플 데이터(50)로부터 온톨로지 저장소(80)의 프로퍼티 정보를 이용하여 새로운 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터(70)를 생성하고, 상기 생성된 인스턴스 확장 트리플 데이터(70)를 재귀적으로 상기 온톨로지 저장소(80)에 저장하는 기능을 더 수행함으로써, 상기 생성된 인스턴스 확장 트리플 데이터(70)가 상기 각 구성 요소의 이후 동작을 재귀적으로 지원할 수 있도록 한다.The ontology instance extraction module 60 extracts a new ontology instance from the ontology-based triple data 50 using property information of an ontology repository 80 to generate instance extension triple data 70, and generates the generated instance. By further performing the function of recursively storing the extended triple data 70 in the ontology storage 80, the generated instance extended triple data 70 can recursively support the subsequent operation of each component. do.

여기서, 상기 온톨로지 저장소(80)는 트리플 형태로 이루어지는데, 크게 스키마와 지식베이스 부분으로 나뉜다. 스키마는 지식의 개념적 구조를 나타내는 부분으로서, (Class, Property, Class) 혹은 (Class, Property, Data Type)의 형태를 가진다. 그리고 지식베이스는 실제 데이터나 지식을 표현하는 부분으로서, (Instance, Property, Instance) 혹은 (Instance, Property, Data Value)의 형태를 가진다. 예를 들어, 스키마는 (드라마, 주인공, 연기자)와 같은 개념적 구조를 나타내는 트리플 데이터로 이루어지고, 지식베이스는 (일지매, 주인공, 이준기)와 같이 실제 데이터를 표현하는 트리플 데이터로 이루어진다.Here, the ontology repository 80 is formed in a triple form, and is largely divided into a schema and a knowledge base. A schema represents the conceptual structure of knowledge, and has the form of (Class, Property, Class) or (Class, Property, Data Type). And the knowledge base is a part that represents actual data or knowledge, and has a form of (Instance, Property, Instance) or (Instance, Property, Data Value). For example, a schema consists of triple data representing a conceptual structure such as (drama, protagonist, actor), and a knowledge base consists of triple data representing actual data, such as (Iljimae, protagonist, Lee Joon-ki).

그리고 온톨로지 인스턴스 추출 모듈(60)의 추출 대상은 상기 온톨로지 기반 트리플 데이터(50)로서 데이터들은 전부 트리플로 구성되어 있고, 일부 데이터는 온톨로지와 연결되어 있지만, 일부 데이터는 온톨로지와 연결되어 있지 않다.The ontology instance extraction module 60 extracts the ontology-based triple data 50 and the data are all tripled, and some data is connected to the ontology, but some data is not connected to the ontology.

이때, 상기 온톨로지 인스턴스 추출 모듈(60)에서는 상기 온톨로지 기반 트리플 데이터(50)에서 “Predicate”는 온톨로지의 프로퍼티(Property)와 연결되어 있지만 “Subject”는 온톨로지와 연결되어 있지 않은 트리플들을 추출한다. 그 중에서 “Subject”가 같은 트리플들을 그룹화하면, 하나의 “Subject”에는 n개의 “Predicate”가 온톨로지의 프로퍼티(Property)와 연결되어 있을 것이고 n개의 “Object”를 갖고 있을 것이다. 이와 같은 트리플들은 어느 클래스(Class)에 해당하는지는 알 수 없지만, 그 속성은 알 수 있는 “Subject”들을 나타낸다.At this time, the ontology instance extraction module 60 extracts triples in the ontology-based triple data 50 that “Predicate” is connected to a property of an ontology but “Subject” is not connected to an ontology. If "Subject" grouped the same triples, one "Subject" would have n "Predicates" associated with the ontology's properties and have n "Objects". These triples do not know which class they belong to, but their attributes represent known “Subjects”.

그리고 상기 추출된 트리플들을 온톨로지 저장소(80)의 기 구축된 온톨로지와 비교한다. 상기 온톨로지 저장소(80)의 기 구축된 온톨로지와 비교하여 상기 추출된 “Subject”가 같은 트리플의 n개 프로퍼티(Property)를 모두 가지고 있는 클래스(Class)를 추출한다. 이때, n개 프로퍼티(Property)를 모두 가지고 있는 클래스(Class)가 하나뿐이라면 추출된 트리플의 “Subject”를 해당 클래스(Class)의 인스턴스(Instance)로서 추출한다. 그리고 n개 프로퍼티(Property)를 모두 가지고 있는 클래스(Class)가 두 개 이상인 경우에는 클래스(Class)가 제약조건을 통해 정의되어 있는지를 확인한다. 클래스(Class)가 제약조건을 통해 정의되어 있을 경우 상기 추출된 트리플들의 “Object” 값이 해당 제약조건을 만족하는 경우에만 추출된 트리플의 “Subject”를 해당 클래스(Class)의 인스턴스(Instance)로서 추출하여 인스턴스 확장 트리플 데이터(70)를 생성한다. 즉, 온톨로지 프로퍼티를 통해 파악할 수 있는 객체의 속성을 통해 그 객체가 온톨로지의 어떤 클래스(Class)에 해당하는 인스턴스(Instance)인지 추출하는 것이다.Then, the extracted triples are compared with the established ontology of the ontology reservoir 80. The extracted “Subject” extracts a class that has all n properties of the same triple compared to the previously constructed ontology of the ontology repository 80. At this time, if there is only one class that has all n properties, the extracted “Subject” of the extracted triple is extracted as an instance of the class. If there are two or more classes that have all n properties, check whether the class is defined through constraints. When a class is defined through a constraint, the extracted triple's “Subject” is used as an instance of the class only when the “Object” value of the extracted triples satisfies the constraint. Extract and generate instance extension triple data 70. In other words, it extracts which class of ontology the instance is based on the property of the object that can be identified through the ontology property.

한편, 상기 온톨로지 기반 트리플 데이터(50)는 상기 구조적 데이터 해석 모듈(20)과 상기 비구조적 데이터 해석 모듈(40)을 통해서 생성되므로, 서로 다른 데이터 소스를 통해서 생성된 데이터를 온톨로지 인스턴스 추출 모듈(60)에서 하나로 통합하여 온톨로지 인스턴스를 정확하게 추출할 수 있다.On the other hand, since the ontology based triple data 50 is generated through the structural data analysis module 20 and the unstructured data analysis module 40, the ontology instance extraction module 60 generates data generated through different data sources. ) Can be integrated into one to accurately extract ontology instances.

일반적으로 데이터베이스와 같은 구조적 데이터들은 객체의 잘 변하지 않는 전형적인 속성(예를 들어, 사람의 이름, 생년월일, 소속 등)이 그 대상이고, 비구조적 데이터들은 객체의 일시적이거나 새로운 속성(예를 들어, 연예인의 새로운 출연작, 결혼 발표, 운동선수의 소속팀 이적 등)이 그 대상인 경우가 많다. 따라서 어느 하나의 데이터 소스를 통해서는 그 클래스(Class)를 알기 어려워 온톨로지 인스턴스로 추출되기 어려운 객체도 서로 다른 데이터 소스로부터 추출된 객체의 속성을 통해 클래스(Class)를 파악해 온톨로지 인스턴스로 추출될 수 있다. 예를 들어, “연기자”라는 클래스(Class)는 “소속”이 “방송사” 클래스(Class)이고, “드라마” 클래스(Class)에 “출연”한다는 것이 온톨로지 스키마에 정의되어 있는 경우, “이준기”라는 객체의 “소속”은 “MBC”라는 “방송사”라는 것을 인물 DB라는 구조적 데이터에서 추출할 수 있고, “일지매”라는 “드라마”에 “출연”한다는 것을 뉴스 문서라는 비구조적 데이터에서 추출할 수 있다면, 두 데이터 소스로부터 추출된 “이준기”라는 객체의 속성을 통해 그것이 “연기자” 클래스(Class)라는 것을 알 수 있다.In general, structural data, such as databases, are objects whose typical properties do not change (for example, a person's name, date of birth, affiliation, etc.), while unstructured data is a temporary or new property of an object (eg entertainers). New appearances, wedding announcements, and transfers of athletes' teams are often targeted. Therefore, an object that is difficult to know as an ontology instance because the class is difficult to know through any one data source can be extracted as an ontology instance by grasping the class through the properties of objects extracted from different data sources. . For example, if the class named "Actor" is defined in the ontology schema that "Affiliation" is a "Broadcaster" Class, and "Appears" in a "Drama" Class, The object can be extracted from the structural data called "MBC" called "broadcaster" from the character DB, and from the unstructured data called news document that it can "appear" to the "drama" called "Iljimae". If so, the property of the object named "junki" extracted from the two data sources indicates that it is a "actor" class.

다음으로, 본 발명에 따른 시스템이 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하는 방법에 대하여 도 2를 참조하여 그 동작 흐름을 간략하게 살펴보기로 한다.Next, a method of extracting an ontology instance using an ontology property by the system according to the present invention will be briefly described with reference to FIG. 2.

도 2는 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 방법에 대한 일실시예 흐름도이다.2 is a flowchart illustrating an ontology instance extraction method using ontology properties according to the present invention.

먼저, 온톨로지 프로퍼티를 이용할 수 있도록 지원하기 위하여, 온톨로지 저장소(80)가 기 구축된 온톨로지를 저장하고 있다(201).First, in order to support the use of the ontology property, the ontology storage 80 stores the pre-established ontology (201).

이후, 구조적 데이터 해석 모듈(20)이 상기 기 구축된 온톨로지의 온톨로지 프로퍼티를 이용하여 구조적 데이터(10)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다(202).Thereafter, the structural data analysis module 20 generates (extracts) the ontology-based triple data 50 from the structural data 10 by using the ontology properties of the previously constructed ontology.

즉, 상기 구조적 데이터 해석 모듈(20)은 정형화된 언어나 규격을 통해서 생성된 구조적 데이터(10)를 해석하여 상기 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다.That is, the structural data analysis module 20 interprets the structural data 10 generated through the formalized language or standard, and connects the ontology-based triple data 50 by connecting with the already built ontology of the ontology repository 80. Create (extract).

그리고 비구조적 데이터 해석 모듈(40)이 상기 기 구축된 온톨로지의 온톨로지 프로퍼티를 이용하여 비구조적 데이터(30)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다(203).The unstructured data analysis module 40 generates (extracts) the ontology-based triple data 50 from the unstructured data 30 by using the ontology properties of the previously constructed ontology.

즉, 상기 비구조적 데이터 해석 모듈(40)은 정형화된 언어나 규격을 통해서 생성되지 않은 자연어 문서 등의 비구조적 데이터(30)를 해석하여 상기 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다.That is, the unstructured data analysis module 40 analyzes unstructured data 30 such as a natural language document that is not generated through a formal language or standard, and connects the ontology ontology of the ontology repository 80 to ontology. The base triple data 50 is generated (extracted).

이후, 온톨로지 인스턴스 추출 모듈(60)이 상기 구조적 데이터 해석 모듈(20)과 상기 비구조적 데이터 해석 모듈(40)에서 생성(추출)된 온톨로지 기반 트리플 데이터(50)로부터 상기 기 구축된 온톨로지의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터(70)를 생성한다(204).Thereafter, the ontology instance extraction module 60 generates ontology properties of the built ontology from the ontology-based triple data 50 generated (extracted) by the structural data analysis module 20 and the unstructured data analysis module 40. The ontology instance is extracted using the generated instance extension triple data 70 (204).

그리고 상기 온톨로지 인스턴스 추출 모듈(60)은 부가적으로 상기 생성된 인스턴스 확장 트리플 데이터(70)를 재귀적으로 상기 온톨로지 저장소(80)에 저장하는 기능을 더 수행(205)함으로써, 상기 생성된 인스턴스 확장 트리플 데이터(70)가 상기 각 구성 요소의 이후 동작을 재귀적으로 지원할 수 있도록 한다.In addition, the ontology instance extraction module 60 additionally performs a function of recursively storing the generated instance extension triple data 70 in the ontology storage 80 (205), thereby expanding the generated instance. Triple data 70 enables recursively to support the subsequent operation of each component.

한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.On the other hand, the method of the present invention as described above can be written in a computer program. And the code and code segments constituting the program can be easily inferred by a computer programmer in the art. In addition, the written program is stored in a computer-readable recording medium (information storage medium), and read and executed by a computer to implement the method of the present invention. The recording medium may include any type of computer readable recording medium.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art to which the present invention pertains. It is not limited by the drawings.

본 발명은 시맨틱 검색 시스템, 시맨틱 어노테이션 시스템, 및 시맨틱 메타데이터 추출 시스템 등과 같은 의미 기반 정보 시스템에 이용될 수 있다.The present invention can be used in semantic based information systems such as semantic search systems, semantic annotation systems, and semantic metadata extraction systems.

도 1은 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템의 일실시예 구성도,1 is a configuration diagram of an ontology instance extraction system using an ontology property according to the present invention;

도 2는 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 방법에 대한 일실시예 흐름도이다.2 is a flowchart illustrating an ontology instance extraction method using ontology properties according to the present invention.

* 도면의 주요 부분에 대한 부호 설명* Explanation of symbols on the main parts of the drawing

10 : 구조적 데이터 20 : 구조적 데이터 해석 모듈10: structural data 20: structural data analysis module

30 : 비구조적 데이터 40 : 비구조적 데이터 해석 모듈30: unstructured data 40: unstructured data analysis module

50 : 온톨로지 기반 트리플 데이터 60 : 온톨로지 인스턴스 추출 모듈50: ontology based triple data 60: ontology instance extraction module

70 : 인스턴스 확장 트리플 데이터 80 : 온톨로지 저장소70: instance extension triple data 80: ontology repository

Claims (11)

온톨로지 인스턴스 추출 시스템에 있어서,In the ontology instance extraction system, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 수단;Ontology storage means for storing the constructed ontology; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 구조적 데이터 해석 수단;Structural data analysis means for generating ontology-based triple data from the structural data using the ontology property of the ontology storage means; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 비구조적 데이터 해석 수단; 및Unstructured data analysis means for generating ontology based triple data from unstructured data using the ontology property of the ontology storage means; And 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 수단Ontology instance extracting means for extracting ontology instances from ontology-based triple data generated by the structural data analyzing means and the unstructured data analyzing means by using the ontology properties of the ontology storing means 을 포함하는 온톨로지 인스턴스 추출 시스템.Ontology instance extraction system comprising a. 제 1 항에 있어서,The method of claim 1, 상기 온톨로지 인스턴스 추출 수단은,The ontology instance extraction means, 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 온톨로지 저장 수단에 저장하는 기능을 더 수행하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.And extracting the ontology instance to generate instance extension tripled data, and recursively storing the generated instance extension tripled data in the ontology storage means. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 온톨로지 인스턴스 추출 수단은,The ontology instance extraction means, 서로 다른 데이터 소스를 통해 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터를 하나로 통합하여 온톨로지 인스턴스를 추출하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.Ontology instance extraction system characterized in that to extract the ontology instance by integrating the ontology-based triple data generated by the structural data analysis means and the unstructured data analysis means through different data sources into one. 제 3 항에 있어서,The method of claim 3, wherein 상기 온톨로지 인스턴스 추출 수단은,The ontology instance extraction means, 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터를 해석하여 속성을 파악한 후에, 상기 온톨로지 저장 수단의 기 구축된 온톨로지와 비교하여 프로퍼티 정보를 이용하여 새로운 온톨로지 인스턴스를 추출하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.After analyzing the ontology-based triple data generated by the structural data analysis means and the non-structural data analysis means to grasp the property, the new ontology instance is extracted using property information by comparing with the ontology of the ontology storage means. Ontology instance extraction system, characterized in that. 제 3 항에 있어서,The method of claim 3, wherein 상기 구조적 데이터 해석 수단은,The structural data analysis means, 구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 온톨로지 저장 수단의 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.Ontology instance extraction system, characterized in that to generate the ontology-based triple data by analyzing the structural data to generate the triple data and connected with the instance and properties of the pre-established ontology of the ontology storage means. 제 3 항에 있어서,The method of claim 3, wherein 상기 비구조적 데이터 해석 수단은,The unstructured data analysis means, 비구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 온톨로지 저장 수단의 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.Ontology instance extraction system, characterized in that to generate the ontology-based triple data by analyzing the unstructured data to generate the triple data and connected with the instance and properties of the pre-established ontology of the ontology storage means. 온톨로지 인스턴스 추출 방법에 있어서,In the ontology instance extraction method, 기 구축된 온톨로지를 온톨로지 저장 수단에 저장하는 온톨로지 저장 단계;An ontology storage step of storing the constructed ontology in an ontology storage means; 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 구조적 데이터 해석 단계;A structural data analysis step of generating ontology-based triple data from structural data using the properties of the previously constructed ontology; 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 비구조적 데이터 해석 단계; 및An unstructured data analysis step of generating ontology-based triple data from unstructured data by using the properties of the built ontology; And 상기 구조적 데이터 해석 단계와 상기 비구조적 데이터 해석 단계에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하는 온톨로지 인스턴스 추출 단계An ontology instance extraction step of extracting an ontology instance from the ontology-based triple data generated in the structural data analysis step and the unstructured data analysis step by using the properties of the built ontology. 를 포함하는 온톨로지 인스턴스 추출 방법.Ontology instance extraction method comprising a. 제 7 항에 있어서,The method of claim 7, wherein 상기 온톨로지 인스턴스 추출 단계는,The ontology instance extraction step, 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 온톨로지 저장 수단에 저장하는 과정을 더 수행하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.And extracting the ontology instance to generate instance extension tripled data, and recursively storing the generated instance extension tripled data in the ontology storage means. 제 7 항 또는 제 8 항에 있어서,9. The method according to claim 7 or 8, 상기 온톨로지 인스턴스 추출 단계는,The ontology instance extraction step, 서로 다른 데이터 소스를 통해 상기 구조적 데이터 해석 단계와 상기 비구조적 데이터 해석 단계에서 생성된 온톨로지 기반 트리플 데이터를 하나로 통합하여 온톨로지 인스턴스를 추출하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.The ontology instance extraction method of extracting an ontology instance by integrating ontology-based triple data generated in the structural data analysis step and the unstructured data analysis step through different data sources into one. 제 9 항에 있어서,The method of claim 9, 상기 구조적 데이터 해석 단계는,The structural data analysis step, 구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.The ontology instance extraction method of generating ontology-based triple data by interpreting structural data, generating triple data, and connecting the pre-established instance and property of the ontology. 제 9 항에 있어서,The method of claim 9, 상기 비구조적 데이터 해석 단계는,The unstructured data analysis step, 비구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.The ontology instance extraction method of generating ontology-based triple data by interpreting unstructured data, generating triple data, and connecting the pre-established instance and property of the ontology.
KR1020080063192A 2008-06-30 2008-06-30 System and method for extracting ontology instance using ontology property KR101016110B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080063192A KR101016110B1 (en) 2008-06-30 2008-06-30 System and method for extracting ontology instance using ontology property

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080063192A KR101016110B1 (en) 2008-06-30 2008-06-30 System and method for extracting ontology instance using ontology property

Publications (2)

Publication Number Publication Date
KR20100003087A KR20100003087A (en) 2010-01-07
KR101016110B1 true KR101016110B1 (en) 2011-02-17

Family

ID=41813040

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080063192A KR101016110B1 (en) 2008-06-30 2008-06-30 System and method for extracting ontology instance using ontology property

Country Status (1)

Country Link
KR (1) KR101016110B1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807181A (en) * 2009-02-17 2010-08-18 日电(中国)有限公司 Method and equipment for restoring inconsistent body
KR101318250B1 (en) * 2012-02-10 2013-10-15 (주)프람트테크놀로지 Inference query processing using hyper cube
KR101226162B1 (en) * 2012-07-30 2013-01-24 한국과학기술정보연구원 Method and apparatus for converting ontology date to graph data
KR102497539B1 (en) * 2016-01-22 2023-02-08 서울대학교산학협력단 An ontology based knowledge base construction method using semantic role labeling
KR102125455B1 (en) * 2019-12-18 2020-06-23 한국건설기술연구원 System for establishing data of harbor management based on bim and method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065196A (en) * 2003-12-24 2005-06-29 한국전자통신연구원 Large-sacle ontology generation system
KR100725643B1 (en) 2006-06-09 2007-06-07 한국과학기술정보연구원 A research worker result report construction and service system, and method thereof and media that can record computer program for method thereof
KR20080019439A (en) * 2006-08-28 2008-03-04 한국과학기술정보연구원 System and method for knowledge extension and inference service based on dbms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065196A (en) * 2003-12-24 2005-06-29 한국전자통신연구원 Large-sacle ontology generation system
KR100725643B1 (en) 2006-06-09 2007-06-07 한국과학기술정보연구원 A research worker result report construction and service system, and method thereof and media that can record computer program for method thereof
KR20080019439A (en) * 2006-08-28 2008-03-04 한국과학기술정보연구원 System and method for knowledge extension and inference service based on dbms

Also Published As

Publication number Publication date
KR20100003087A (en) 2010-01-07

Similar Documents

Publication Publication Date Title
Chiarcos et al. Towards open data for linguistics: Linguistic linked data
Ferrández et al. The QALL-ME framework: A specifiable-domain multilingual question answering architecture
Sánchez-Rada et al. Onyx: A linked data approach to emotion representation
Kumar et al. Automated ontology generation from a plain text using statistical and NLP techniques
Kumar et al. Intelligent model view controller based semantic webservice call through mishmash text featuring technique
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
KR101016110B1 (en) System and method for extracting ontology instance using ontology property
Albarghothi et al. Automatic construction of e-government services ontology from Arabic webpages
El-ghobashy et al. A proposed framework for Arabic semantic annotation tool
Peponakis In the Name of the Name: RDF literals, ER attributes and the potential to rethink the structures and visualizations of catalogs
Westphal et al. Countering language attrition with PanLex and the Web of Data
Martinez-Rodriguez et al. Extraction of RDF statements from text
Al-Khalifa et al. The Arabic language and the semantic web: Challenges and opportunities
Zeni et al. Annotating legal documents with GaiusT 2.0
Lin et al. A rule based open information extraction method using cascaded finite-state transducer
Sidi et al. Malayik: An ontological approach to knowledge transformation in malay unstructured documents
Raithatha Knowledge Extraction for Semantic Web
Karkaletsis et al. Populating ontologies in biomedicine and presenting their content using multilingual generation
Czerski et al. What NEKST?—semantic search engine for polish internet
JP4635585B2 (en) Question answering system, question answering method, and question answering program
Autayeu et al. Lightweight parsing of classifications into lightweight ontologies
Zhang et al. A semantics enabled intelligent semi-structured document processor
Yarushkina et al. The Method for Improving the Quality of Information Retrieval Based on Linguistic Analysis of Search Query
Litvin et al. A New Approach to Automatic Ontology Generation from the Natural Language Texts with Complex Inflection Structures in the Dialogue Systems Development
Canim et al. A knowledge and reasoning toolkit for cognitive applications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140205

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150205

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160203

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170203

Year of fee payment: 7