KR20100003087A

KR20100003087A - 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법

Info

Publication number: KR20100003087A
Application number: KR1020080063192A
Authority: KR
Inventors: 정하용; 김문식
Original assignee: 주식회사 케이티
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2010-01-07
Also published as: KR101016110B1

Abstract

본 발명은 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법에 관한 것으로, 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여, 기계(예 : 컴퓨터 프로그램)가 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법을 제공하고자 한다.

이를 위하여, 본 발명은 온톨로지 인스턴스 추출 시스템에 있어서, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 구조적 데이터 해석 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 비구조적 데이터 해석 수단; 및 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 수단을 포함한다.

온톨로지, 인스턴스, 프로퍼티, 시맨틱 웹, 통합, 구조적, 비구조적

Description

온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법{System and method for extracting ontology instance using ontology property}

본 발명은 구조적 데이터 및 비구조적 데이터 등에서 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 웹 문서를 비롯하여 기하급수적으로 증가하는 전자문서 환경에서 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여, 해당 문서의 내용을 컴퓨터가 이해하여 처리할 수 있도록 하는 온톨로지 인스턴스를 자동으로 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법에 관한 것이다.

인터넷, 특히 웹의 발전은 구조적 데이터 및 비구조적 데이터를 폭발적으로 증가시켰다. 하지만, 기존의 정보 시스템들은 문서의 의미나 내용과는 상관없이 문 서에 어떤 글자가 나타나는지, 또는 문서의 길이가 어느 정도인지 등과 같은 외형적인 정보를 이용하여 정보를 처리할 수밖에 없었다. 기존의 인트라넷 환경에서는 문서의 수가 한정적이었기 때문에, 정보 시스템은 문서를 검색하거나 가공하는 것을 도와주고, 실제 문서의 내용을 확인하여 정확한 문서를 찾고 가공하는 것은 사용자의 몫이었다. 하지만, 웹 환경에서 기하급수적으로 증가하는 문서의 양은 더 이상 사람이 문서의 내용을 확인하기 어렵게 만들고 있다.

이에 대한 해결책으로 웹상의 정보들에 잘 정의된 공용의 의미를 부여해서, 사람뿐만 아니라 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있게끔 하자는 "시맨틱 웹"이 제안되었다. 그리고 이러한 시맨틱 웹을 위해 "잘 정의된 공용의 의미 체계"인 "온톨로지"가 하나 둘씩 속속 구축되게 되었다. 이러한 온톨로지에 정의된 의미들을 이용하여 작성된 시맨틱 웹 문서들은 컴퓨터 프로그램도 문서의 내용을 이해하여 처리할 수 있기 때문에, 정보 시스템들이 내용에 기반하여 문서를 검색하거나 가공하는 것이 가능해졌다.

하지만, 문제는 이미 셀 수 없을 만큼 많은, 그리고 앞으로도 수없이 생산될 기존의 구조적 데이터 및 비구조적 데이터를 시맨틱 웹 데이터로 바꾸는 일이다. 이를 위해서는 구조적 데이터 및 비구조적 데이터로부터, 데이터의 외적인 정보인 메타데이터가 아닌 데이터의 내적인 내용을 온톨로지에 맞추어 기술하기 위해, 온톨로지 인스턴스를 추출하는 방안이 절실히 필요하다.

이를 위한 종래 기술의 일예로서, 구조적 및 비구조적 데이터로부터 온톨로지 인스턴스를 추출하는 방식의 대한민국특허 10-729103호(비구조 웹문서로부터 온 톨로지 인스턴스를 자동으로 추출하기 위한 시스템 및 그 방법)가 있다.

상기 종래 기술은 유비쿼터스(Ubiquitous) 환경 및 차세대 웹 환경에서 인터넷상에 존재하는 비구조 웹 문서 및 데이터베이스의 다양한 정보로부터 도메인 온톨로지 추론에 필요한 온톨로지의 인스턴스를 실시간으로 혹은 비실시간으로 자동 추출(생성) 및 저장할 수 있는 온톨로지 인스턴스 자동 추출 시스템 및 그 방법에 관한 것이다.

상기 종래 기술(온톨로지 인스턴스 추출 시스템)은, 도메인에 해당하는 웹 문서를 수집하기 위한 도메인별 정보수집수단과, 상기 수집된 웹 문서로부터 정보 추출 규칙에 의해 정보를 추출하기 위한 정보추출수단과, 상기 추출된 정보에서 온톨로지 스키마에 맞는 의미적 정보를 매칭(선별)하고, 매칭된 의미적 정보를 검색이 용이한 형태의 데이터로 변환하기 위한 정보생성수단과, 상기 변환된 의미적 데이터를 검색이 용이한 인덱스로 저장ㆍ관리하기 위한 저장수단, 및 기 정의된 규칙에 의거하여 상기 저장수단에 저장된 의미적 데이터를 온톨로지에 매핑시켜 온톨로지 인스턴스 데이터로 활용하는 정보매핑수단을 포함한다.

이처럼 종래 기술로는 특정한 도메인에 한하여 미리 정의된 패턴 등을 이용하여 정보를 추출하는 래퍼(Wrapper)를 이용하거나, 특정한 구조적 데이터를 통째로 인스턴스로 변환하는 방법 등이 있다.

그러나 상기와 같은 종래 기술은 특정 도메인마다 서로 다른 규칙을 이용하여야 하기 때문에 도메인마다 규칙을 정의하는데 많은 시간이 소요될 뿐만 아니라 비경제적인 단점이 있고, 그에 따라 특정 도메인이나 특정 시스템으로 그 사용 범위가 제한적인 문제점이 있으며, 또한 구조적 데이터로부터 추출된 데이터 및 비구조적 데이터로부터 추출된 데이터 간의 통합 없이 각 데이터로부터 온톨로지 인스턴스를 추출하기 때문에 추출된 온톨로지 인스턴스에 대한 정확도(정밀도)가 떨어지는 단점이 있으며, 이러한 단점을 해결하고자 하는 것이 본 발명의 과제이다.

따라서 본 발명은 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여, 기계(예 : 컴퓨터 프로그램)가 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은 구조적 데이터 및 비구조적 데이터 등으로부터 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하되, 상기 구조적 데이터로부터 생성된 온톨로지 기반 트리플 데이터와 상기 비구조적 데이터로부터 생성된 온톨로지 기반 트리플 데이터를 통합하여 온톨로지 인스턴스를 추출하기 위한, 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 시스템은, 온톨로지 인스턴스 추출 시스템에 있어서, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 구조적 데이터 해석 수단; 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 비구조적 데이터 해석 수단; 및 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 수단을 포함한다.

또한, 상기 온톨로지 인스턴스 추출 수단은, 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 온톨로지 저장 수단에 저장하는 기능을 더 수행한다.

한편, 상기 목적을 달성하기 위한 본 발명의 방법은, 온톨로지 인스턴스 추출 방법에 있어서, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 단계; 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 구조적 데이터 해석 단계; 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 비구조적 데이터 해석 단계; 및 상기 구조적 데이터 해석 단계와 상기 비구조적 데이터 해석 단계에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하는 온톨로지 인스턴스 추출 단계를 포함한다.

또한, 상기 온톨로지 인스턴스 추출 단계는, 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 기 구축된 온톨로지에 저장하는 과정을 더 수행한다.

상기와 같은 본 발명은, 구조적 데이터 및 비구조적 데이터로부터 컴퓨터 프로그램이 의미에 기반한 처리를 수행할 수 있는 정형적인 온톨로지 인스턴스를 자동으로 추출할 수 있는 효과가 있다.

즉, 본 발명은 인터넷 환경을 통해 폭발적으로 증가하는 구조적 데이터 및 비구조적 데이터들로부터 자동적으로 온톨로지 인스턴스를 추출함으로써, 컴퓨터 프로그램들이 구조적 데이터 및 비구조적 데이터들을 의미에 기반한 정보로서 이용할 수 있도록 만들 수 있다.

그에 따라, 본 발명은 구조적 데이터 및 비구조적 데이터를 의미기반 정보 자원으로서 사용할 수 있도록 할 수 있을 뿐만 아니라, 그것들 간의 관계를 제공함으로써 정보 검색, 자원 공유, 정보 요약, 문서 번역, 개인화, 자원 관리, 및 매쉬업 등의 다양한 응용시스템들이 의미에 기반한 결과를 제공할 수 있도록 할 수 있다.

또한, 본 발명은 자동적으로 구조적 데이터 및 비구조적 데이터로부터 다양한 어휘를 수집하여 온톨로지에 할당하고 그 온톨로지를 확장함으로써, 온톨로지의 구축, 관리, 확장, 및 보수에도 큰 도움을 줄 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되어 있는 상세한 설명을 통하여 보다 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.

먼저, 본 발명의 이해를 돕기 위하여 시맨틱 웹 기술에 대해 좀 더 살펴보기로 한다.

팀 버너스-리(Tim Berners-Lee)는 1989년에 웹(World Wide Web)을 처음으로 제안하여, 기존에 널리 쓰이고 있던 클라이언트-서버(Client-Server) 구조와 HTML(HyperText Markup Language)의 마크업 언어로 인터넷 환경에서 어디에서나 개인의 정보를 웹에 올릴 수 있고, 브라우저를 통해 그 정보에 접근할 수 있는 정보의 공유 인프라를 갖출 수 있도록 하였다. 이에 따라, 수많은 정보가 인터넷에 올려지게 되고 유통되는 과정을 거치면서 대량의 정보가 인터넷상에 존재하게 되었고, 이를 상호 공유함으로써 사회 발전과 기술 발전을 촉진하고, 결과적으로 정보사회의 혁신을 이끄는 계기가 되었다.

그러나 정보의 양이 방대해짐으로써 자신이 원하는 정보를 찾기에 드는 노력과 시간이 점점 더 많아지는 현상이 발생하게 되었고, 웹을 이용한 다양한 응용 프로그램 및 서비스가 등장하면서 이 역시 유효하고 적절하게 찾아 이용하기에는 많은 어려움이 발생하게 되었다.

특히, 기존의 웹을 기반으로 한 검색 방법은 키워드에 의한 검색이 주류로서, 주로 단어의 빈도수나 어휘 정보를 이용하여 웹 문서의 우선순위를 결정하는 방식으로, 정작 사용자가 원하는 웹 문서를 찾는 데는 한계가 있다. 또한, 관련된 웹 문서를 확장하거나 통합, 공유하는 것이 매우 어렵다. 이러한 문제점은 기존의 웹과 마크업 언어가 인간 중심이고 인간이 보고 이해할 수 있도록 웹 브라우저의 표현 기술에 초점을 맞추고 있기 때문이다. 결국, 기존의 웹은 컴퓨터가 스스로 필요한 정보를 효과적으로 추출하고, 해석하고, 가공하는 기능을 충분히 제공하지 못하는 인간 중심의 정보 처리 기술이라고 할 수 있다.

이후, 기존의 웹을 확장하여 컴퓨터가 이해할 수 있는 잘 정의된 의미를 기 반으로 의미적 상호 운용성(semantic interoperability)을 실현하고 인간과 컴퓨터 간의 효과적인 협동 체제를 구축할 수 있는 기술로서 시맨틱(Semantic) 웹이 등장하게 되었다.

팀 버너스-리는 시맨틱 웹이 기존의 웹과 완전히 구별되는 새로운 웹의 개념이 아니라 현재 웹을 확장하여 웹에 올라오는 정보에 잘 정의된 의미를 부여하고 이를 통해 컴퓨터와 사람이 협동적으로 작업을 수행할 수 있도록 하는 패러다임이라고 그 역할을 정의하였다. 시맨틱 웹은 웹상에 존재하는 정보를 사람뿐만 아니라 기계(컴퓨터)가 의미를 파악하여 사용자의 요구에 적합한 지능형 서비스를 제공하거나, 사람과 기계 또는 기계와 기계 상호 간에 협업을 원활히 수행함으로써 사람을 대신하여 자동적인 서비스가 가능한 웹을 말한다.

즉, 시맨틱 웹은 컴퓨터가 정보 자원의 의미를 이해하고, 자동화하고, 통합하고, 재사용할 수 있는 차세대 웹 기술로서, 다음의 3가지 주요 요소로 이루어진다.

1) 온톨로지(ontology)

온톨로지는 공유된 개념화에 대한 형식적 명세 체계로서, 도메인 어휘의 의미 정보를 제공한다. 온톨로지는 일종의 지식 표현으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있다. 추론 등의 처리를 위해서는 온톨로지의 공리(axiom)와 규칙(rule) 체계가 필요하다.

2) 의미적으로 주석화된 웹(semantically annotated Web)

의미적으로 주석화된 웹이란 온톨로지로 주석화된 웹으로, 일종의 지식 베이 스(knowledge base)이다. 시맨틱 웹에서는 인터넷의 분산 정보 자원을 의미적으로 통합하는 거대한 지식 베이스를 구축할 수 있다. 좁은 의미에서 기업 또는 기관의 정보 자원에 대한 지식 베이스를 구축할 수도 있다.

3) 에이전트(agent)

에이전트(agent)는 사람(사용자)을 대신하여 정보 자원을 수집·검색하고 추론하며, 다른 에이전트와 상호 정보를 교환하는 등의 일을 수행하는 지능형 에이전트이다. 지능형 에이전트는 시맨틱 웹 기반 응용 시스템의 핵심이라 할 수 있다.

시맨틱 웹은 온톨로지와 에이전트 기술을 활용하여 의미적 상호 운용성을 실현하며, 그에 따라 기존의 정보 표현 중심의 웹을 지식 기반 의미 중심의 웹으로 도약시킬 수 있게 되었다.

도 1은 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템의 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템은, 온톨로지 저장소(80)의 온톨로지 프로퍼티를 이용하여 데이터베이스나 테이블 등의 정형화된 구조적 데이터(10)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)하기 위한 구조적 데이터 해석 모듈(20), 상기 온톨로지 저장소(80)의 온톨로지 프로퍼티를 이용하여 자연어 문서 등의 비구조적 데이터(30)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)하기 위한 비구조적 데이터 해석 모듈(40), 및 상기 구조적 데이터 해석 모듈(20)과 상기 비구조적 데 이터 해석 모듈(40)에서 생성(추출)된 온톨로지 기반 트리플 데이터(50)로부터, 상기 온톨로지 저장소(80)의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 모듈(60)을 포함한다.

이때, 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템은, 상기 각 구성 요소의 동작을 지원, 즉 온톨로지 프로퍼티를 이용할 수 있도록 지원하기 위하여, 기 구축된 온톨로지를 저장하고 있는 온톨로지 저장소(80)를 구비한다.

그리고 상기 온톨로지 인스턴스 추출 모듈(60)은 상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터(70)를 생성하여, 상기 생성한 인스턴스 확장 트리플 데이터(70)를 재귀적으로 상기 온톨로지 저장소(80)에 저장하는 기능을 더 수행함으로써, 상기 생성된 인스턴스 확장 트리플 데이터(70)가 상기 각 구성 요소의 이후 동작을 재귀적으로 지원할 수 있도록 한다.

다음으로, 상기 구조적 데이터 해석 모듈(20), 비구조적 데이터 해석 모듈(40), 및 온톨로지 인스턴스 추출 모듈(60)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.

먼저, 상기 구조적 데이터 해석 모듈(20)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.

상기 구조적 데이터 해석 모듈(20)은 정형화된 언어나 규격을 통해서 생성된 구조적 데이터(10)를 해석하여 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결 시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)하여 상기 온톨로지 인스턴스 추출 모듈(60)로 전달한다.

여기서, 온톨로지 기반 트리플 데이터(50)는 데이터의 표현을 (Subject, Predicate, Object)의 트리플 형식으로 나타내면서 각각의 엔티티들을 온톨로지와 연결한 데이터를 의미한다. 예를 들어, (홍길동, 나이, 28)과 같은 트리플 데이터는 “홍길동”이라는 객체의 “나이”라는 속성이 “28”이라는 값을 가진다는 것을 의미한다.

따라서 데이터베이스와 같은 구조적 데이터(10)로부터 트리플 데이터를 생성하기 위해서는, 하나의 레코드를 특정할 수 있는 프라이머리 키 필드의 값을 “Subject”로, 각 필드 명을 “Predicate”로, 각 필드의 값을 “Object”로 하는 n개(n은 자연수)의 트리플을 만들면 된다. 예를 들어, 임의의 데이터베이스 테이블에 필드가 (ID, 이름, 나이, 성별)과 같이 존재하고, 프라이머리 키는 ID이며, 특정한 하나의 레코드의 필드 값이 (0651, 김길동, 28, 남)과 같이 존재할 때, 이것을 해석하여 트리플 데이터로 표현하면 (0651, 이름, 김길동), (0651, 나이, 28), 및 (0651, 성별, 남)과 같이 트리플 데이터를 생성할 수 있다.

그리고 상기와 같은 방법으로 생성된 트리플 데이터에서, “Subject”와 “Object” 부분은 온톨로지 저장소(80)에서 그 의미에 해당하는 적절한 인스턴스를 찾아서 연결하고, “Predicate” 부분은 온톨로지 저장소(80)에서 그 의미에 해당하는 적절한 프로퍼티를 찾아서 연결함으로써, 온톨로지 기반 트리플 데이터(50)를 생성할 수 있다.

이제, 상기 비구조적 데이터 해석 모듈(40)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.

상기 비구조적 데이터 해석 모듈(40)은 정형화된 언어나 규격을 통해서 생성되지 않은 자연어 문서 등의 비구조적 데이터(30)를 해석하여 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)하여 상기 온톨로지 인스턴스 추출 모듈(60)로 전달한다.

여기서, 자연어 문서와 같은 비구조적 데이터(30)로부터 트리플 데이터를 생성하기 위해서는, 기 구축된 고유명사 사전, 또는 기 구축된 전문용어 사전, 또는 공지의 형태소 분석, 또는 공지의 개체명 인식 등의 방식을 이용하거나 이들 방식들 중에서 적어도 하나 이상의 방식을 이용하여 개체명 혹은 의미단위(문장 내에서 하나의 객체로서 독립된 의미를 가지는 단위)를 추출한 후, 온톨로지 프로퍼티를 이용하여 트리플 데이터를 생성하거나, 공지의 구문구조 분석, 온톨로지 프로퍼티, 및 트리플 패턴 적용 등의 방식을 이용하여 트리플 데이터를 생성한다. 예를 들어, 임의의 자연어 문장이 “MBC에서 올 하반기 방영할 또 다른 ‘일지매’의 주인공으로는 이준기가 낙점됐다.”와 같을 때, 이것을 트리플 데이터로 표현하면 (MBC, 방영, 일지매), (일지매, 주인공, 이준기)와 같이 트리플 데이터를 생성할 수 있다.

이제, 상기 온톨로지 인스턴스 추출 모듈(60)의 구성 및 그 동작에 대해 보다 상세하게 살펴보기로 한다.

상기 온톨로지 인스턴스 추출 모듈(60)은 상기 온톨로지 기반 트리플 데이터(50)로부터 온톨로지 저장소(80)의 프로퍼티 정보를 이용하여 새로운 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터(70)를 생성하고, 상기 생성된 인스턴스 확장 트리플 데이터(70)를 재귀적으로 상기 온톨로지 저장소(80)에 저장하는 기능을 더 수행함으로써, 상기 생성된 인스턴스 확장 트리플 데이터(70)가 상기 각 구성 요소의 이후 동작을 재귀적으로 지원할 수 있도록 한다.

여기서, 상기 온톨로지 저장소(80)는 트리플 형태로 이루어지는데, 크게 스키마와 지식베이스 부분으로 나뉜다. 스키마는 지식의 개념적 구조를 나타내는 부분으로서, (Class, Property, Class) 혹은 (Class, Property, Data Type)의 형태를 가진다. 그리고 지식베이스는 실제 데이터나 지식을 표현하는 부분으로서, (Instance, Property, Instance) 혹은 (Instance, Property, Data Value)의 형태를 가진다. 예를 들어, 스키마는 (드라마, 주인공, 연기자)와 같은 개념적 구조를 나타내는 트리플 데이터로 이루어지고, 지식베이스는 (일지매, 주인공, 이준기)와 같이 실제 데이터를 표현하는 트리플 데이터로 이루어진다.

그리고 온톨로지 인스턴스 추출 모듈(60)의 추출 대상은 상기 온톨로지 기반 트리플 데이터(50)로서 데이터들은 전부 트리플로 구성되어 있고, 일부 데이터는 온톨로지와 연결되어 있지만, 일부 데이터는 온톨로지와 연결되어 있지 않다.

이때, 상기 온톨로지 인스턴스 추출 모듈(60)에서는 상기 온톨로지 기반 트리플 데이터(50)에서 “Predicate”는 온톨로지의 프로퍼티(Property)와 연결되어 있지만 “Subject”는 온톨로지와 연결되어 있지 않은 트리플들을 추출한다. 그 중에서 “Subject”가 같은 트리플들을 그룹화하면, 하나의 “Subject”에는 n개의 “Predicate”가 온톨로지의 프로퍼티(Property)와 연결되어 있을 것이고 n개의 “Object”를 갖고 있을 것이다. 이와 같은 트리플들은 어느 클래스(Class)에 해당하는지는 알 수 없지만, 그 속성은 알 수 있는 “Subject”들을 나타낸다.

그리고 상기 추출된 트리플들을 온톨로지 저장소(80)의 기 구축된 온톨로지와 비교한다. 상기 온톨로지 저장소(80)의 기 구축된 온톨로지와 비교하여 상기 추출된 “Subject”가 같은 트리플의 n개 프로퍼티(Property)를 모두 가지고 있는 클래스(Class)를 추출한다. 이때, n개 프로퍼티(Property)를 모두 가지고 있는 클래스(Class)가 하나뿐이라면 추출된 트리플의 “Subject”를 해당 클래스(Class)의 인스턴스(Instance)로서 추출한다. 그리고 n개 프로퍼티(Property)를 모두 가지고 있는 클래스(Class)가 두 개 이상인 경우에는 클래스(Class)가 제약조건을 통해 정의되어 있는지를 확인한다. 클래스(Class)가 제약조건을 통해 정의되어 있을 경우 상기 추출된 트리플들의 “Object” 값이 해당 제약조건을 만족하는 경우에만 추출된 트리플의 “Subject”를 해당 클래스(Class)의 인스턴스(Instance)로서 추출하여 인스턴스 확장 트리플 데이터(70)를 생성한다. 즉, 온톨로지 프로퍼티를 통해 파악할 수 있는 객체의 속성을 통해 그 객체가 온톨로지의 어떤 클래스(Class)에 해당하는 인스턴스(Instance)인지 추출하는 것이다.

한편, 상기 온톨로지 기반 트리플 데이터(50)는 상기 구조적 데이터 해석 모듈(20)과 상기 비구조적 데이터 해석 모듈(40)을 통해서 생성되므로, 서로 다른 데이터 소스를 통해서 생성된 데이터를 온톨로지 인스턴스 추출 모듈(60)에서 하나로 통합하여 온톨로지 인스턴스를 정확하게 추출할 수 있다.

일반적으로 데이터베이스와 같은 구조적 데이터들은 객체의 잘 변하지 않는 전형적인 속성(예를 들어, 사람의 이름, 생년월일, 소속 등)이 그 대상이고, 비구조적 데이터들은 객체의 일시적이거나 새로운 속성(예를 들어, 연예인의 새로운 출연작, 결혼 발표, 운동선수의 소속팀 이적 등)이 그 대상인 경우가 많다. 따라서 어느 하나의 데이터 소스를 통해서는 그 클래스(Class)를 알기 어려워 온톨로지 인스턴스로 추출되기 어려운 객체도 서로 다른 데이터 소스로부터 추출된 객체의 속성을 통해 클래스(Class)를 파악해 온톨로지 인스턴스로 추출될 수 있다. 예를 들어, “연기자”라는 클래스(Class)는 “소속”이 “방송사” 클래스(Class)이고, “드라마” 클래스(Class)에 “출연”한다는 것이 온톨로지 스키마에 정의되어 있는 경우, “이준기”라는 객체의 “소속”은 “MBC”라는 “방송사”라는 것을 인물 DB라는 구조적 데이터에서 추출할 수 있고, “일지매”라는 “드라마”에 “출연”한다는 것을 뉴스 문서라는 비구조적 데이터에서 추출할 수 있다면, 두 데이터 소스로부터 추출된 “이준기”라는 객체의 속성을 통해 그것이 “연기자” 클래스(Class)라는 것을 알 수 있다.

다음으로, 본 발명에 따른 시스템이 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하는 방법에 대하여 도 2를 참조하여 그 동작 흐름을 간략하게 살펴보기로 한다.

도 2는 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 방법에 대한 일실시예 흐름도이다.

먼저, 온톨로지 프로퍼티를 이용할 수 있도록 지원하기 위하여, 온톨로지 저장소(80)가 기 구축된 온톨로지를 저장하고 있다(201).

이후, 구조적 데이터 해석 모듈(20)이 상기 기 구축된 온톨로지의 온톨로지 프로퍼티를 이용하여 구조적 데이터(10)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다(202).

즉, 상기 구조적 데이터 해석 모듈(20)은 정형화된 언어나 규격을 통해서 생성된 구조적 데이터(10)를 해석하여 상기 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다.

그리고 비구조적 데이터 해석 모듈(40)이 상기 기 구축된 온톨로지의 온톨로지 프로퍼티를 이용하여 비구조적 데이터(30)로부터 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다(203).

즉, 상기 비구조적 데이터 해석 모듈(40)은 정형화된 언어나 규격을 통해서 생성되지 않은 자연어 문서 등의 비구조적 데이터(30)를 해석하여 상기 온톨로지 저장소(80)의 기 구축된 온톨로지와 연결시켜 온톨로지 기반 트리플 데이터(50)를 생성(추출)한다.

이후, 온톨로지 인스턴스 추출 모듈(60)이 상기 구조적 데이터 해석 모듈(20)과 상기 비구조적 데이터 해석 모듈(40)에서 생성(추출)된 온톨로지 기반 트리플 데이터(50)로부터 상기 기 구축된 온톨로지의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터(70)를 생성한다(204).

그리고 상기 온톨로지 인스턴스 추출 모듈(60)은 부가적으로 상기 생성된 인스턴스 확장 트리플 데이터(70)를 재귀적으로 상기 온톨로지 저장소(80)에 저장하는 기능을 더 수행(205)함으로써, 상기 생성된 인스턴스 확장 트리플 데이터(70)가 상기 각 구성 요소의 이후 동작을 재귀적으로 지원할 수 있도록 한다.

한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다.　또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

본 발명은 시맨틱 검색 시스템, 시맨틱 어노테이션 시스템, 및 시맨틱 메타데이터 추출 시스템 등과 같은 의미 기반 정보 시스템에 이용될 수 있다.

도 1은 본 발명에 따른 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출 시스템의 일실시예 구성도,

* 도면의 주요 부분에 대한 부호 설명

10 : 구조적 데이터 20 : 구조적 데이터 해석 모듈

30 : 비구조적 데이터 40 : 비구조적 데이터 해석 모듈

50 : 온톨로지 기반 트리플 데이터 60 : 온톨로지 인스턴스 추출 모듈

70 : 인스턴스 확장 트리플 데이터 80 : 온톨로지 저장소

Claims

온톨로지 인스턴스 추출 시스템에 있어서,

기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 수단;

상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 구조적 데이터 해석 수단;

상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하기 위한 비구조적 데이터 해석 수단; 및

상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터로부터, 상기 온톨로지 저장 수단의 온톨로지 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하기 위한 온톨로지 인스턴스 추출 수단

을 포함하는 온톨로지 인스턴스 추출 시스템.
제 1 항에 있어서,

상기 온톨로지 인스턴스 추출 수단은,

상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 온톨로지 저장 수단에 저장하는 기능을 더 수행하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.
제 1 항 또는 제 2 항에 있어서,

상기 온톨로지 인스턴스 추출 수단은,

서로 다른 데이터 소스를 통해 상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터를 하나로 통합하여 온톨로지 인스턴스를 추출하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.
제 3 항에 있어서,

상기 온톨로지 인스턴스 추출 수단은,

상기 구조적 데이터 해석 수단과 상기 비구조적 데이터 해석 수단에서 생성된 온톨로지 기반 트리플 데이터를 해석하여 속성을 파악한 후에, 상기 온톨로지 저장 수단의 기 구축된 온톨로지와 비교하여 프로퍼티 정보를 이용하여 새로운 온톨로지 인스턴스를 추출하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.
제 3 항에 있어서,

상기 구조적 데이터 해석 수단은,

구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 온톨로지 저장 수단의 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.
제 3 항에 있어서,

상기 비구조적 데이터 해석 수단은,

비구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 온톨로지 저장 수단의 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 시스템.
온톨로지 인스턴스 추출 방법에 있어서,

기 구축된 온톨로지를 저장하고 있는 온톨로지 저장 단계;

상기 기 구축된 온톨로지의 프로퍼티를 이용하여 구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 구조적 데이터 해석 단계;

상기 기 구축된 온톨로지의 프로퍼티를 이용하여 비구조적 데이터로부터 온톨로지 기반 트리플 데이터를 생성하는 비구조적 데이터 해석 단계; 및

상기 구조적 데이터 해석 단계와 상기 비구조적 데이터 해석 단계에서 생성 된 온톨로지 기반 트리플 데이터로부터, 상기 기 구축된 온톨로지의 프로퍼티를 이용하여 온톨로지 인스턴스를 추출하는 온톨로지 인스턴스 추출 단계

를 포함하는 온톨로지 인스턴스 추출 방법.
제 7 항에 있어서,

상기 온톨로지 인스턴스 추출 단계는,

상기 온톨로지 인스턴스를 추출하여 인스턴스 확장 트리플 데이터를 생성하여, 상기 생성된 인스턴스 확장 트리플 데이터를 재귀적으로 상기 기 구축된 온톨로지에 저장하는 과정을 더 수행하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.
제 7 항 또는 제 8 항에 있어서,

상기 온톨로지 인스턴스 추출 단계는,

서로 다른 데이터 소스를 통해 상기 구조적 데이터 해석 단계와 상기 비구조적 데이터 해석 단계에서 생성된 온톨로지 기반 트리플 데이터를 하나로 통합하여 온톨로지 인스턴스를 추출하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.
제 9 항에 있어서,

상기 구조적 데이터 해석 단계는,

구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.
제 9 항에 있어서,

상기 비구조적 데이터 해석 단계는,

비구조적 데이터를 해석하여 트리플 데이터를 생성하여 상기 기 구축된 온톨로지의 인스턴스 및 프로퍼티와 연결시켜 온톨로지 기반 트리플 데이터를 생성하는 것을 특징으로 하는 온톨로지 인스턴스 추출 방법.