KR102151858B1

KR102151858B1 - 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 방법 및 시스템

Info

Publication number: KR102151858B1
Application number: KR1020180160898A
Authority: KR
Inventors: 현순주; 김동재
Original assignee: 한국과학기술원
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-09-03
Also published as: KR20200072851A

Abstract

링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 방법 및 시스템이 제시된다. 본 발명에서 제안하는 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 방법은 기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 단계, 지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하는 단계, 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 단계, 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 단계 및 축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 단계를 포함한다.

Description

링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 방법 및 시스템{Method and System for Enrichment of Ontology Instances Using Linked Data and Supplemental String Data}

본 발명은 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 시스템에 관한 것으로서, 구체적으로는 링크드 데이터를 이용해 새로운 인스턴스 및 트리플을 추출하여 1차적으로 확장하고 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 문자열 데이터를 이용하여 검증 및 최종 확장시키는 방법 및 시스템에 관한 것이다.

온톨로지의 정의는 공유된 개념화에 대한 정형화되고 명시적인 체계로 사람과 프로그램 간 지식을 공유하기 용이하게 해주는 데이터 모델이다. 보통 어떤 도메인의 지식 또는 시스템에 대하여 표현을 할 때 사용할 수 있다. 온톨로지는 개념, 인스턴스, 관계와 같은 엔티티(entity)들로 이루어져 있고 가지고 있는 지식을 바탕으로 추론을 할 수 있다. 최근 들어 스마트 홈, 센서 네트워크 등의 IoT(Internet of Things) 분야에 대한 연구 및 서비스가 활발히 이루어지며 온톨로지를 이용하는 방법이 많이 쓰이고 있다.

온톨로지를 구축하거나 이미 구축된 온톨로지를 수정하는 일은 도메인 전문가들이 주로 맡게 된다. 하지만 사람이 직접 이 일을 하는 것은 부담이 크며 수행하는 시간도 오래 걸린다. 이러한 문제점을 해결하기 위해 온톨로지를 자동으로 확장하는 방법이 많이 고안되었다.

그런데, 고안된 대부분의 온톨로지 자동 확장 방법은 문자열 데이터를 기반으로 이루어진다. 온톨로지를 확장할 때 사용되는 문자열 데이터는 온톨로지를 이루고 있는 개념, 인스턴스, 관계들을 이용해 구성된 키워드를 웹에 검색하고, 검색되어 나온 결과를 크롤링하여 축적된다. 이러한 방법은 키워드가 어떻게 구성되어 있는지에 따라 축적된 문자열 데이터 중 유용한 데이터의 비율이 달라진다. 또한 온톨로지를 확장하는 과정에서, 웹 문서들이 똑같은 관계를 다른 식으로 표현하기도 하기 때문에 인스턴스 간 새로운 관계를 찾기 어려운 문제가 있다.

이와 같이, 효율적인 확장을 할 수 있도록 링크드 데이터와 문자열 데이터를 모두 이용하는 온톨로지 인스턴스 확장 시스템이 필요하다.

본 발명이 이루고자 하는 기술적 과제는 먼저 온톨로지와 비슷한 도메인의 참조 온톨로지를 이용하여 확장을 한 후 새로 추가된 인스턴스와 기존에 있던 인스턴스 간 잠재관계를 추출할 때 문자열 데이터를 이용하는, 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템을 제공하는 데 그 목적이 있다. 또한, 본 발명은 문자열 데이터를 축적할 때 좁은 검색 공간 내에서 결과를 가져올 수 있도록 키워드를 구성하는 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템을 제공하는 데 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일 측면에 있어서, 본 발명에서 제안하는 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 방법은 기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 단계, 지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하는 단계, 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 단계, 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 단계 및 축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 단계를 포함한다.

기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 단계는 각 온톨로지를 읽는 단계, 각 온톨로지를 RDF 트리플들로 변환하는 단계, 변환된 RDF 트리플들 중 불필요한 지식을 담고 있는 트리플들을 필터링하는 단계 및 나머지 RDF 트리플들을 이용하여 지식 맵을 생성하는 단계를 포함한다.

지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하는 단계는 기존 온톨로지 및 참조 온톨로지의 개념들을 매핑할 뿐만 아니라 각 개념들이 가지는 인스턴스들 간에 유사도가 제일 높은 것끼리 매핑하고, 유사도를 계산하는 방법으로 구문(syntactic) 유사도, 언어(linguistic) 유사도, 인스턴스 유사도에 각각 다른 가중치를 두어 계산한다.

지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 단계는 매핑된 참조 온톨로지의 개념이 갖는 인스턴스들 중에서 기존 온톨로지의 개념이 가지고 있지 않은 인스턴스들을 추출하는 단계, 추출된 인스턴스들과 관련이 있고, 기존 온톨로지와 유효한 관계를 나타내는 트리플들 중 새로운 인스턴스를 포함하는 트리플을 추출하는 단계 및 기존 온톨로지에 유효한 트리플이 되도록 인스턴스와 서술부를 변환하는 단계를 포함한다.

새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 단계는 찾고자 하는 잠재관계의 주어, 서술어, 목적어 및 온톨로지를 나타내는 최상위 개념의 인스턴스로 구성되고, 온톨로지의 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계(inverse property)를 제외한 다른 개념으로부터 들어오는 관계가 없는 키워드를 생성한다.

축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 단계는 축적된 문자열 데이터는 크롤링된 웹 문서의 제목 및 요약 부분에 잠재 관계의 주어, 서술어, 목적어가 포함된 정도를 이용하여 신뢰값을 계산하고, 신뢰값이 높은 잠재관계를 최종적으로 트리플로 만들어 기존 온톨로지에 추가한다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장 시스템은 기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 온톨로지 전처리부, 지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하고, 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 인스턴스 추출부, 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 웹데이터 축적부 및 축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 잠재관계 추출부를 포함한다.

본 발명의 실시예들에 따르면 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템은 기존 온톨로지와 참조 온톨로지 간의 유사한 개념을 매핑하고, 매핑된 참조 온톨로지의 개념이 가지고 있는 인스턴스와 관련 트리플 중 기존 온톨로지에 없으며 유효한 것들을 추출하여 기존 온톨로지를 확장할 수 있다. 또한, 상기와 같은 본 발명에 따른 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템은 참조 온톨로지로부터 추출된 새로운 인스턴스와 기존 온톨로지가 가지고 있던 인스턴스 간에 생길 수 있는 잠재관계에 대해서 키워드를 만들고, 검색 엔진으로부터 결과로 나온 웹 문서들을 크롤링하여 축적한 문자열 데이터를 이용해 잠재관계의 유효성을 검증하고 최종 확장할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 온톨로지 전처리 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 인스턴스 및 트리플 추출 과정 중 유사 개념 매핑 과정을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 인스턴스 및 트리플 추출 과정 중 트리플 추출 과정을 설명하기 위한 흐름도이다.

이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템의 구성을 나타내는 도면이다.

본 실시예에 따른 온톨로지 인스턴스 확장 시스템(100)은 프로세서(110), 버스(120), 네트워크 인터페이스(130), 메모리(140) 및 데이터베이스(150)를 포함할 수 있다. 메모리(140)는 운영체제(141) 및 온톨로지 인스턴스 확장 루틴(142)을 포함할 수 있다. 프로세서(110)는 온톨로지 전처리부(111), 인스턴스 추출부(112), 웹데이터 축적부(113), 잠재관계 추출부(114)를 포함할 수 있다. 온톨로지 인스턴스 확장 시스템(100)은 온톨로지를 1차적으로 링크드 데이터를 이용하여 확장하고 그 후 웹 크롤링을 통해 얻은 문자열 데이터를 이용하여 최종 확장할 수 있다.

또한, 본 발명의 실시예에 따른 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 시스템은 확장을 하고자 하는 기존 온톨로지(151)와 확장에 쓰일 기존 온톨로지와 비슷한 도메인의 온톨로지인 참조 온톨로지(152)를 포함할 수 있다. 상기 온톨로지들은 RDF(Resource Description Framework) 또는 OWL(Ontology Web Language)로 만들어진 온톨로지이어야 한다. 또한, 온톨로지의 개념들이 인스턴스를 포함하고 있어야 한다.

다른 실시예들에서 온톨로지 인스턴스 확장 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 온톨로지 인스턴스 확장 시스템(100)은 디스플레이나 트랜시버(transceiver)와 같은 다른 구성요소들을 포함할 수도 있다.

메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(140)에는 운영체제(141)와 온톨로지 인스턴스 확장 루틴(142)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(130)를 통해 메모리(140)에 로딩될 수도 있다.

버스(120)는 온톨로지 인스턴스 확장 시스템(100)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(120)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.

네트워크 인터페이스(130)는 온톨로지 인스턴스 확장 시스템(100)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(130)는 온톨로지 인스턴스 확장 시스템(100)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.

데이터베이스(150)는 링크드 데이터와 문자열 데이터를 이용한 온톨로지 인스턴스 확장을 위해 필요한 모든 정보를 저장 및 유지하는 역할을 할 수 있다. 도 1에서는 온톨로지 인스턴스 확장 시스템(100)의 내부에 데이터베이스(150)를 구축하여 포함하는 것으로 도시하고 있으나, 이에 한정되는 것은 아니며 시스템 구현 방식이나 환경 등에 따라 생략될 수 있고 혹은 전체 또는 일부의 데이터베이스가 별개의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재하는 것 또한 가능하다.

프로세서(110)는 기본적인 산술, 로직 및 온톨로지 인스턴스 확장 시스템(100)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 네트워크 인터페이스(130)에 의해, 그리고 버스(120)를 통해 프로세서(110)로 제공될 수 있다. 프로세서(110)는 온톨로지 전처리부(111), 인스턴스 추출부(112), 웹데이터 축적부(113), 잠재관계 추출부(114)를 위한 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(140)와 같은 기록 장치에 저장될 수 있다.

온톨로지 전처리부(111), 인스턴스 추출부(112), 웹데이터 축적부(113), 잠재관계 추출부(114)는 도 2의 단계들(210~250)을 수행하기 위해 구성될 수 있다.

온톨로지 인스턴스 확장 시스템(100)은 온톨로지 전처리부(111), 인스턴스 추출부(112), 웹데이터 축적부(113), 잠재관계 추출부(114)를 포함할 수 있다.

온톨로지 전처리부(111)는 기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만든다. 각 온톨로지를 RDF 트리플들로 변환하여 변환된 RDF 트리플들 중 불필요한 지식을 담고 있는 트리플들을 필터링하고, 나머지 RDF 트리플들을 이용하여 지식 맵을 생성한다.

인스턴스 추출부(112)는 지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하고, 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출한다. 기존 온톨로지 및 참조 온톨로지의 개념들을 매핑할 뿐만 아니라 각 개념들이 가지는 인스턴스들 간에 유사도가 제일 높은 것끼리 매핑하고, 유사도를 계산하는 방법으로 구문(syntactic) 유사도, 언어(linguistic) 유사도, 인스턴스 유사도에 각각 다른 가중치를 두어 계산한다. 인스턴스 추출부(112)는 매핑된 참조 온톨로지의 개념이 갖는 인스턴스들 중에서 기존 온톨로지의 개념이 가지고 있지 않은 인스턴스들을 추출한다. 추출된 인스턴스들과 관련이 있고, 기존 온톨로지와 유효한 관계를 나타내는 트리플들 중 새로운 인스턴스를 포함하는 트리플을 추출하고, 기존 온톨로지에 유효한 트리플이 되도록 인스턴스와 서술부를 변환한다.

웹데이터 축적부(113)는 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적한다. 웹데이터 축적부(113)는 찾고자 하는 잠재관계의 주어, 서술어, 목적어 및 온톨로지를 나타내는 최상위 개념의 인스턴스로 구성되고, 온톨로지의 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계(inverse property)를 제외한 다른 개념으로부터 들어오는 관계가 없는 키워드를 생성한다. 다시 말해, 잠재관계를 찾기 위해 만든 키워드를 구성하는 요소로 잠재관계의 주어, 서술어, 목적어, 온톨로지를 나타내는 최상위 개념의 인스턴스가 있는 것이며, 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계를 제외한 다른 개념으로부터 들어오는 관계가 없는 개념을 의미한다.

잠재관계 추출부(114)는 축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증한다. 축적된 문자열 데이터는 크롤링된 웹 문서의 제목 및 요약 부분에 잠재 관계의 주어, 서술어, 목적어가 포함된 정도를 이용하여 신뢰값을 계산하고, 신뢰값이 높은 잠재관계를 최종적으로 트리플로 만들어 기존 온톨로지에 추가한다.

도 2는 본 발명의 일 실시예에 따른 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 방법을 설명하기 위한 흐름도이다.

제안하는 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 방법은 기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 단계(210), 지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하는 단계(220), 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 단계(230), 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 단계(240) 및 축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 단계(250)를 포함한다.

단계(210)에서, 온톨로지 전처리부를 통해 기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만든다. 각 온톨로지를 RDF 트리플들로 변환하여 변환된 RDF 트리플들 중 불필요한 지식을 담고 있는 트리플들을 필터링하고, 나머지 RDF 트리플들을 이용하여 지식 맵을 생성한다.

단계(220)에서, 인스턴스 추출부를 통해 지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑한다. 기존 온톨로지와 참조 온톨로지 간 유사한 개념끼리 매핑한다. 이 과정에서 온톨로지 전처리부에서 만들어진 개념-인스턴스 맵이 사용된다. 기존 온톨로지 및 참조 온톨로지의 개념들을 매핑할 뿐만 아니라 각 개념들이 가지는 인스턴스들 간에 유사도가 제일 높은 것끼리 매핑하고, 유사도를 계산하는 방법으로 구문(syntactic) 유사도, 언어(linguistic) 유사도, 인스턴스 유사도에 각각 다른 가중치를 두어 계산한다.

단계(230)에서, 인스턴스 추출부를 통해 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출한다. 매핑된 참조 온톨로지의 개념이 갖는 인스턴스들 중에서 기존 온톨로지의 개념이 가지고 있지 않은 인스턴스들을 추출한다. 이 과정 또한 개념-인스턴스 맵이 사용되며 기존 온톨로지의 개념이 갖고 있는 인스턴스들에 대해 매칭된 참조 온톨로지의 개념이 갖고 있는 인스턴스들 중 유사도가 가장 높은 인스턴스들을 제외하는 작업을 반복한다. 제외되지 않고 남아 있는 인스턴스들이 기존 온톨로지의 개념의 새로운 인스턴스가 되어 추출된다. 참조 온톨로지로부터 추출된 새로운 인스턴스에 대한 트리플 중 기존 온톨로지에 유효한 트리플들이 있다면 추출한다. 다시 말해, 추출된 인스턴스들과 관련이 있고, 기존 온톨로지와 유효한 관계를 나타내는 트리플들 중 새로운 인스턴스를 포함하는 트리플을 추출하고, 기존 온톨로지에 유효한 트리플이 되도록 인스턴스와 서술부를 변환한다.

단계(240)에서, 웹데이터 축적부를 통해 새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적한다. 찾고자 하는 잠재관계의 주어, 서술어, 목적어 및 온톨로지를 나타내는 최상위 개념의 인스턴스로 구성되고, 온톨로지의 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계(inverse property)를 제외한 다른 개념으로부터 들어오는 관계가 없는 키워드를 생성한다. 다시 말해, 잠재관계를 찾기 위해 만든 키워드를 구성하는 요소로 잠재관계의 주어, 서술어, 목적어, 온톨로지를 나타내는 최상위 개념의 인스턴스가 있는 것이며, 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계를 제외한 다른 개념으로부터 들어오는 관계가 없는 개념을 의미한다.

단계(250)에서, 잠재관계 추출부를 통해 축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증한다. 축적된 문자열 데이터는 크롤링된 웹 문서의 제목 및 요약 부분에 잠재 관계의 주어, 서술어, 목적어가 포함된 정도를 이용하여 신뢰값을 계산하고, 신뢰값이 높은 잠재관계를 최종적으로 트리플로 만들어 기존 온톨로지에 추가한다. 도 3 내지 도 5를 참조하여 링크드 데이터와 문자열 데이터를 이용하는 온톨로지 인스턴스 확장 방법을 더욱 상세히 설명한다.

도 3은 본 발명의 일 실시예에 따른 온톨로지 전처리 과정을 설명하기 위한 흐름도이다.

도 3은 본 발명의 일 실시예에 따른 온톨로지 인스턴스 확장 시스템의 온톨로지 전처리부의 동작 흐름도이다. 온톨로지 확장을 시작할 때 확장하고자 하는 기존 온톨로지와 확장에 쓰일 참조 온톨로지 파일(.owl)을 입력으로 받는다(310). 각 온톨로지 파일은 RDF 트리플들의 집합으로 변환된다(320). 즉, <주어> <서술어> <목적어> 형태의 문자열들로 변환된다.

변환된 트리플들은 불필요한 트리플들을 제외하는 필터링 과정을 거친다(330). 만약 트리플이 RDF 언어 자체에서 제공하는 'Class', 'Resource'와 같은 기본 개념을 포함하거나, 이름이 없는 자원을 포함하거나, 서술어의 주어 또는 목적어가 무엇인지에 관한 정보를 담고 있다면 제외시킨다.

그 다음 필터링된 트리플들을 이용해 개념-인스턴스 맵, 개념-관계 맵, 개념-트리플 맵을 생성한다(340). 개념-인스턴스 맵은 각 개념에 어떤 인스턴스들이 포함되어 있는지를 나타낸다. 개념-관계 맵은 온톨로지 상에서 개념들 간에 어떤 관계(서술어)로 이어져 있는지를 나타낸다. 개념-트리플 맵은 각 개념이 가지고 있는 인스턴스들에 대한 트리플들이 어떤 것들이 있는지를 나타낸다. 이렇게 생성된 지식 맵들은 인스턴스 추출부에서 사용된다.

도 4는 본 발명의 일 실시예에 따른 인스턴스 및 트리플 추출 과정 중 유사 개념 매핑 과정을 설명하기 위한 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 온톨로지 인스턴스 확장 시스템의 인스턴스 추출부의 동작 흐름도이다.

기존 온톨로지와 참조 온톨로지 간 유사 개념을 찾기 위해 총 3개의 유사도를 계산한다. 도 4에 도시된 바와 같이 먼저 두 개념 간 구문 유사도를 계산한다(410). 구문 유사도는 두 개념의 이름을 비교하여 얼마나 문자 구성이 유사한 지 이용하는 유사도이다.

구문 유사도를 계산한 후 두 개념 간 언어 유사도를 계산한다(420). 이 유사도는 두 개념이 얼마나 의미적으로 비슷한 지를 이용하는 유사도이다. 이를 계산하기 위해 '워드넷'이라는 매우 큰 온톨로지를 이용하고 두 개념의 워드넷 상에서의 거리를 이용해 유사도를 계산한다.

마지막으로 두 개념 간 인스턴스 유사도를 계산한다(430). 인스턴스 유사도는 각 개념이 가지고 있는 인스턴스들을 비교하여 인스턴스들이 얼마나 유사한 지를 이용하는 유사도이다. 인스턴스 간의 유사도는 구문 유사도를 이용하여 계산하며 각 인스턴스마다 가장 높은 유사도의 평균을 구한 것이 두 개념 간 인스턴스 유사도가 된다.

위 계산된 3가지의 유사도 값에 각각 다른 가중치를 곱하여 더한 값이 두 개념 간 최종 유사도 값이다. 본 발명의 일 실시예에 따르면, 인스턴스 유사도에 가장 높은 가중치를 주었다. 기존 온톨로지의 개념과 참조 온톨로지의 개념들 중 임계값을 넘으며 가장 높은 유사도를 가지는 쌍이 서로 매칭되는 개념이 된다.

도 5는 본 발명의 일 실시예에 따른 인스턴스 및 트리플 추출 과정 중 트리플 추출 과정을 설명하기 위한 흐름도이다.

도 5에 도시된 바와 같이 먼저 기존 온톨로지의 관계와 유사한 관계가 참조 온톨로지에 있는지 확인한다(510). 이때 온톨로지 전처리부에서 생성한 각 온톨로지의 개념-관계 맵을 사용한다. 개념-관계 맵에는 온톨로지 내에 개념들이 어떤 관계로 이어져 있는지 <개념1> <서술어> <개념2>와 같은 형식으로 나타내어져 있다. 기존 온톨로지와 참조 온톨로지의 관계들을 비교하면서 개념1, 서술어, 개념2가 동일하거나 유사도가 높은 관계가 있는지 확인한다.

만약 기존 온톨로지와 유사한 관계가 참조 온톨로지에 존재한다면 해당 관계로부터 생긴 트리플들을 가져온다. 가져온 트리플들 중 새로운 인스턴스를 포함하는 트리플들 외에 다른 트리플들은 제외하는 필터링 과정을 거친다(520). 이러한 필터링 작업을 거침으로써 기존 온톨로지에 이미 존재하는 트리플을 추출하지 않을 수 있다.

마지막으로 필터링된 트리플들에 대해 기존 온톨로지에 추가되어도 유효하도록 인스턴스와 서술부를 변환해준다(530). 예를 들어, 기존 온톨로지에 <사람>이라는 인스턴스와 <보유하다>라는 서술어가 있고 각각이 참조 온톨로지의 <인간>, <가지고 있다>와 유사하다면 참조 온톨로지로부터 추출한 <인간> <가지고 있다> <이름>은 기존 온톨로지에 맞게 <사람> <보유하다> <이름>으로 변환되어 추가된다.

웹데이터 축적부는 인스턴스 추출부에서 추가한 새로운 인스턴스와 기존 온톨로지가 가지고 있던 인스턴스 간에 생길 수 있는 잠재관계에 대해 키워드를 만든다. 예를 들어, 키워드는 [최상위 인스턴스 + 새로운 인스턴스 + 서술어 + 기존 인스턴스] 형태로 구성될 수 있다. 최상위 인스턴스는 최상위 개념의 인스턴스이며 최상위 개념은 다른 개념으로 나가는 관계만 있고 역관계 외에는 들어오는 관계가 없는 개념을 의미한다. 보통 최상위 개념 및 인스턴스는 온톨로지가 어떤 도메인의 지식을 담고 있는지 나타내는 경우가 많다. 따라서 키워드에 최상위 인스턴스를 포함시킴으로써 키워드의 검색 범위를 기존 온톨로지의 도메인으로 좁힐 수 있다.

만들어진 키워드는 검색 엔진에 쿼리로 보내진다. 웹데이터 축적부는 검색 결과로 나온 웹 문서들을 크롤링하여 문자열 데이터를 축적한다. 이때 검색 결과로 나온 웹 문서들의 제목과 요약 파트만을 크롤링해온다.

잠재관계 추출부는 웹데이터 축적부에서 모은 문자열 데이터를 분석하여 잠재관계가 유효한지 아닌지를 검증 및 확장한다. 잠재관계의 유효성 검증은 문자열 데이터 내에 찾고자 하는 잠재관계의 요소(새로운 인스턴스, 서술어, 기존 인스턴스)가 얼마나 포함되었는지를 이용해 신뢰값을 계산한다. 예를 들어, 축적된 웹 문서들에 대해 제목과 요약 파트에 잠재관계의 모든 요소들이 포함되어 있다면 1, 두 인스턴스들만을 포함하고 있다면 0.7, 그 외에는 0의 값을 주어 더한 것을 총 웹 문서의 개수로 나눈 값을 신뢰값으로 계산한다. 신뢰값이 임계값보다 크면 유효한 잠재관계라 판단되어 트리플로 만들어주고 최종적으로 온톨로지에 추가함으로써 확장을 마무리한다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 단계;
지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하는 단계;
지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 단계;
새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 단계; 및
축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 단계
를 포함하고,
지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 단계는,
매핑된 참조 온톨로지의 개념이 갖는 인스턴스들 중에서 기존 온톨로지의 개념이 가지고 있지 않은 인스턴스들을 추출하는 단계;
추출된 인스턴스들과 관련이 있고, 기존 온톨로지와 유효한 관계를 나타내는 트리플들 중 새로운 인스턴스를 포함하는 트리플을 추출하는 단계; 및
기존 온톨로지에 유효한 트리플이 되도록 인스턴스와 서술부를 변환하는 단계
를 포함하는 온톨로지 인스턴스 확장 방법.
제1항에 있어서,
기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 단계는,
각 온톨로지를 읽는 단계;
각 온톨로지를 RDF 트리플들로 변환하는 단계;
변환된 RDF 트리플들 중 불필요한 지식을 담고 있는 트리플들을 필터링하는 단계; 및
나머지 RDF 트리플들을 이용하여 지식 맵을 생성하는 단계
를 포함하는 온톨로지 인스턴스 확장 방법.
제1항에 있어서,
지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하는 단계는,
기존 온톨로지 및 참조 온톨로지의 개념들을 매핑할 뿐만 아니라 각 개념들이 가지는 인스턴스들 간에 유사도가 제일 높은 것끼리 매핑하고,
유사도를 계산하는 방법으로 구문(syntactic) 유사도, 언어(linguistic) 유사도, 인스턴스 유사도에 각각 다른 가중치를 두어 계산하는
를 포함하는 온톨로지 인스턴스 확장 방법.
삭제
제1항에 있어서,
새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 단계는,
찾고자 하는 잠재관계의 주어, 서술어, 목적어 및 온톨로지를 나타내는 최상위 개념의 인스턴스로 구성되고, 온톨로지의 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계(inverse property)를 제외한 다른 개념으로부터 들어오는 관계가 없는 키워드를 생성하는
온톨로지 인스턴스 확장 방법.
제1항에 있어서,
축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 단계는,
축적된 문자열 데이터는 크롤링된 웹 문서의 제목 및 요약 부분에 잠재 관계의 주어, 서술어, 목적어가 포함된 정도를 이용하여 신뢰값을 계산하고, 신뢰값이 높은 잠재관계를 최종적으로 트리플로 만들어 기존 온톨로지에 추가하는
온톨로지 인스턴스 확장 방법.
기존 온톨로지와 참조 온톨로지를 전처리하는 과정을 거쳐 지식 맵을 만드는 온톨로지 전처리부;
지식 맵을 이용하여 기존 온톨로지의 개념과 유사도가 가장 높은 참조 온톨로지의 개념을 매핑하고, 지식 맵을 이용하여 기존 온톨로지의 개념 각각에 매핑된 참조 온톨로지의 개념이 갖고 있는 인스턴스 중 기존 온톨로지에 존재하지 않는 새로운 인스턴스 및 트리플을 추출하는 인스턴스 추출부;
새로운 인스턴스와 기존 인스턴스 간에 생길 수 있는 잠재관계를 찾기 위해 키워드를 만들고, 웹 상에서 검색 후 검색결과를 문자열 데이터로 축적하는 웹데이터 축적부; 및
축적된 문자열 데이터를 분석하여 잠재관계가 유효한지 검증하는 잠재관계 추출부
를 포함하고,
인스턴스 추출부는,
매핑된 참조 온톨로지의 개념이 갖는 인스턴스들 중에서 기존 온톨로지의 개념이 가지고 있지 않은 인스턴스들을 추출하고,
추출된 인스턴스들과 관련이 있고, 기존 온톨로지와 유효한 관계를 나타내는 트리플들 중 새로운 인스턴스를 포함하는 트리플을 추출하고,
기존 온톨로지에 유효한 트리플이 되도록 인스턴스와 서술부를 변환하는
온톨로지 인스턴스 확장 시스템.
제7항에 있어서,
온톨로지 전처리부는,
각 온톨로지를 RDF 트리플들로 변환하여 변환된 RDF 트리플들 중 불필요한 지식을 담고 있는 트리플들을 필터링하고, 나머지 RDF 트리플들을 이용하여 지식 맵을 생성하는
온톨로지 인스턴스 확장 시스템.
제7항에 있어서,
인스턴스 추출부는,
기존 온톨로지 및 참조 온톨로지의 개념들을 매핑할 뿐만 아니라 각 개념들이 가지는 인스턴스들 간에 유사도가 제일 높은 것끼리 매핑하고,
유사도를 계산하는 방법으로 구문(syntactic) 유사도, 언어(linguistic) 유사도, 인스턴스 유사도에 각각 다른 가중치를 두어 계산하는
온톨로지 인스턴스 확장 시스템.
삭제
제7항에 있어서,
웹데이터 축적부는,
찾고자 하는 잠재관계의 주어, 서술어, 목적어 및 온톨로지를 나타내는 최상위 개념의 인스턴스로 구성되고, 온톨로지의 최상위 개념은 다른 개념으로 나아가는 관계를 하나 이상 가지고 있고, 역관계(inverse property)를 제외한 다른 개념으로부터 들어오는 관계가 없는 키워드를 생성하는
온톨로지 인스턴스 확장 시스템.
제7항에 있어서,
잠재관계 추출부는,
축적된 문자열 데이터는 크롤링된 웹 문서의 제목 및 요약 부분에 잠재 관계의 주어, 서술어, 목적어가 포함된 정도를 이용하여 신뢰값을 계산하고, 신뢰값이 높은 잠재관계를 최종적으로 트리플로 만들어 기존 온톨로지에 추가하는
온톨로지 인스턴스 확장 시스템.