KR20120097840A

KR20120097840A - 벡터 공간 모델을 이용한 ｒｄｆ 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체

Info

Publication number: KR20120097840A
Application number: KR1020110017313A
Authority: KR
Inventors: 박형근; 이경일
Original assignee: 주식회사 솔트룩스
Priority date: 2011-02-25
Filing date: 2011-02-25
Publication date: 2012-09-05
Also published as: KR101267038B1

Abstract

본 발명은 벡터 공간 모델을 이용한 RDF 트리플 선택 방법에 관한 것으로, SPARQL 질의문을 수신하는 단계; SPARQL 질의문으로부터 키워드를 추출하는 단계; RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성하는 단계; 벡터 공간 모델을 이용하여 키워드 및 가상문서들을 벡터화하고, 벡터화된 키워드 및 벡터화된 가상문서들의 크기 및 각도에 따라서 키워드 및 가상문서들 간의 유사도를 결정하는 단계; 유사도의 결정 결과를 기초로 하여 키워드와 의미적으로 연관된 가상문서들을 선택하는 단계; 및 선택된 가상문서들을 이용하여 키워드에 대한 추론 처리를 실행하는 단계를 포함함으로써, 추론 처리 결과의 완전성 및 검색 속도를 향상시킬 수 있는 효과가 있다.

Description

벡터 공간 모델을 이용한 ＲＤＦ 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체 {Method and apparatus for selecting RDF triple using vector space model}

본 발명은 벡터 공간 모델을 이용한 RDF 트리플 선택 방법에 관한 것으로, 더욱 상세하게는 SPARQL 질의문을 기초로 한 추론 결과의 완전성을 향상시키기 위한 벡터 공간 모델을 이용한 RDF 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

시맨틱 웹(Semantic Web)은 현재의 인터넷과 같은 분산 환경에서 자원(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보를 기계가 처리할 수 있는 온톨로지 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 기술을 말한다.

또한, RDF(Resource Description Framework)는 W3C(http://www.w3.org/TR/rdf-concepts/)에서 표준으로 정한 웹 상에 있는 정보를 표현하는 체계로서, 이질적이고 분산된 웹 상의 데이터를 RDF로 표현하여 응용 프로그램들이 쉽게 처리 및 관리할 수 있도록 하는 모델(Model)이다. RDF의 표현 구조는 주어부(Subject), 서술부(Predicate) 및 목적부(Object)로 구성되는 트리플(Triple) 형태이고, 트리플의 각 구성요소는 URI(Unique Resource Identifiler)로 표현되는 웹 상의 자원이다. 관련된 RDF 트리플들의 묶음을 RDF 그래프(Graph)라 한다.

또한, 벡터 공간 모델(Vector Space Model)은 정보 필터링, 문서 내에서의 정보 검색, 색인과 유사도를 계산하기 위한 수학 모델이다. 벡터 공간 모델은 검색하려는 키워드 혹은 검색 대상이 되는 문서를 벡터로 나타낼 수 있고, 이를 위해서 주로 tf-idf(term frequency-inverse document frequency) 가중치가 이용된다. tf-idf 가중치는 tf * idf이고, 여기서 tf는 문서 내에서 해당 키워드가 나타나는 횟수이고, idf는 전체 문서의 수에 대해 해당 키워드가 포함된 문서들의 수로 나눈 값의 로그값이다.

벡터 공간 모델을 이용한 문서 또는 키워드 간의 유사도는 벡터의 내적 공식에서 코사인 값이 0에 가까우면 유사성이 없고 1에 가까우면 유사성이 높은 것이다. 예를 들어, 문서 d1 및 키워드 w의 벡터를 V(d1), V(w)라 표현하면 유사도 Sim(d1, w) = V(d1)?V(w) / |V(d1)||V(w)|가 된다. 예를 들어, 도 1을 참조하면, 문서 d1의 벡터가 문서 d2의 벡터보다 키워드 w의 벡터에 더 가까이 위치해 있으므로, 문서 d1이 키워드 w에 대하여 보다 유사한 문서라고 볼 수 있다.

한편, 이러한 RDF 트리플들을 추론 처리하여 필요한 데이터를 획득하기 위해서는, RDF 쿼리 언어인 SPARQL 질의문을 이용하여, 분산된 RDF 저장소들에 저장되어 있는 대량의 데이터들로부터 의미적으로 연관되어 있는 RDF 트리플들을 찾아와야 한다.

기존의 RDF 트리플 조회는 RDF 트리플들을 저장소에 색인한 후 SPARQL 질의문 내에 있는 트리플들의 자원과 키워드 매칭하여 관련된 RDF 트리플들을 조회하여 왔다. 그러나, 이는 추론 처리를 위해 의미적인 연관성이 있는 RDF 트리플을 추출하는 것이 아니라 단순한 연결성에 의해서 찾아오는 것으로서 단순 연결에 의한 RDF 트리플에 기반하여 추론 처리가 수행되므로 추론 처리 결과의 품질이 제한적이라는 문제점이 있다.

본 발명이 해결하고자 하는 기술적 과제는, 추론 처리를 위해서 필요한 RDF 데이터들을 추출하는데 있어 단순 키워드 매칭에 의한 RDF 트리플 추출보다 더욱 풍부한 속성 및 자원들을 찾아내어 의미적으로 연관성이 높은 RDF 트리플들을 더 많이 발견해 내고, 이를 기반으로 추론 처리 결과의 완전성을 향상시키기 위한 벡터 공간 모델을 이용한 RDF 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것이다.

상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 방법은, SPARQL 질의문을 수신하는 단계; 상기 SPARQL 질의문으로부터 키워드를 추출하는 단계; RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성하는 단계; 벡터 공간 모델을 이용하여 상기 키워드 및 상기 가상문서들을 벡터화하고, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들의 크기 및 각도에 따라서 상기 키워드 및 상기 가상문서들 간의 유사도를 결정하는 단계; 상기 유사도의 결정 결과를 기초로 하여 상기 키워드와 의미적으로 연관된 가상문서들을 선택하는 단계; 및 상기 선택된 가상문서들을 이용하여 상기 키워드에 대한 추론 처리를 실행하는 단계를 포함하는 것을 특징으로 한다.

상기 가상문서들의 각각은, 상기 동일한 주어부와 의미적으로 연관되는 모든 서술부 및 목적부를 포함할 수 있다.

상기 벡터화는, tf-idf (term frequency-inverse document frequency) 가중치를 이용하여 수행될 수 있다.

상기 유사도는, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 내적을 계산하고, 상기 내적으로부터 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 각도의 코사인 값을 계산하여 결정될 수 있다.

상기 키워드와 의미적으로 연관된 가상문서들은, 상기 유사도의 크기 순으로 정책에 따라 결정되는 소정의 개수만큼 선택될 수 있다.

상기 SPARQL 질의문은, 사용자로부터 직접 입력되거나 또는 응용 프로그램을 처리하는 과정에서 생성될 수 있다.

상기 추론 처리의 결과는, 사용자에게 직접 출력되거나 또는 응용 프로그램을 처리하는 과정에서 제공될 수 있다.

상기 RDF 저장소는 분산되어 있는 복수 개의 저장소들일 수 있다.

또한, 상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, SPARQL 질의문을 수신하는 질의수신부; 상기 SPARQL 질의문으로부터 키워드를 추출하는 질의분석부; RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성하는 가상문서생성부; 벡터 공간 모델을 이용하여 상기 키워드 및 상기 가상문서들을 벡터화하고, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 각도에 따라서 상기 키워드 및 상기 가상문서들 간의 유사도를 결정하는 유사도결정부; 상기 유사도의 결정 결과를 기초로 하여 상기 키워드와 의미적으로 연관된 가상문서들을 선택하는 가상문서선택부; 및 상기 선택된 가상문서들을 이용하여 상기 키워드에 대한 추론 처리를 실행하는 추론처리부를 포함하는 것을 특징으로 한다.

또한, 상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 방법은 그 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

본 발명의 일 실시예에 따르면, SPARQL 질의문에서 추출된 키워드 및 RDF 저장소에 저장된 RDF 트리플들의 구성요소를 기초로 하여 생성된 가상문서들 간에 벡터 공간 모델을 적용하여 유사도가 높은 가상문서의 RDF 트리플들을 선택함으로써, 추론 처리에 필요한 RDF 데이터들을 추출하는데 있어 단순 키워드 매칭에 의한 RDF 트리플 추출보다 더욱 풍부한 속성 및 자원들을 찾아내어 의미적으로 연관성이 높은 RDF 트리플들을 더 많이 발견해 내고 이를 기반으로 추론 처리 결과의 완전성을 향상시킬 수 있을 뿐만 아니라 검색 속도도 향상시키는 효과가 있다.

도 1은 벡터 공간 모델에 따른 키워드와 문서들 간의 벡터 공간을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 장치를 도시한 블록도이다.
도 3은 도 2의 가상문서 생성부에서 생성되는 가상문서들을 예시적으로 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 방법을 도시한 흐름도이다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

RDF 트리플은 데이터베이스, 웹 혹은 문서 내로부터 추출되어 생성된 URI 기반의 자원인 주어부(subject), 서술부(predicate), 목적부(object)로 표현된다. 이들 주어부(subject), 서술부(predicate), 목적부(object) 중 같은 자원을 공유함으로써 다른 RDF 트리플과 연관 관계를 가질 수 있다.

예를 들어, 1번 RDF 트리플이 (a, isA, c)이고, 2번 RDF 트리플이 (c, isA, e)이면, c가 같은 자원이므로 1번 RDF 트리플 및 2번 RDF 트리플은 (a, isA, e)의 연관 관계를 가질 수 있다.

SPARQL 질의문에 따른 효율적인 추론 처리를 위해서는 RDF 저장소로부터 의미적으로 연관 관계를 가지는 RDF 트리플들을 더욱 많이 찾아낼 필요가 있다.

도 2는 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 장치를 도시한 블록도이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 장치(200)는 SPARQL 질의문에서 추출된 키워드 및 RDF 저장소(240)에 저장되어 있는 RDF 트리플들의 구성요소를 기초로 하여 생성된 가상문서들에 대해서 벡터 공간 모델을 적용함으로써 키워드와 유사도가 높은 가상문서들의 RDF 트리플들을 선택하기 위한 장치이다.

이를 위하여, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치(200)는 응용처리부(210), 질의결과생성부(220) 및 RDF 저장소(240)를 포함한다.

응용처리부(210)는 SPARQL 질의문을 수신하여 질의결과생성부(220)로 전달하고, 질의결과생성부(220)에서 수행된 추론 처리의 결과를 수신하는 모듈이다. 이를 위하여, 응용처리부(210)는 예를 들어 질의수신부(212) 및 질의결과처리부(214)를 포함할 수 있다.

질의수신부(212)는 사용자에 의해 직접 입력되거나 또는 응용 프로그램을 처리하는 과정에서 생성되는 SPARQL 질의문을 수신하는 모듈이다.

질의결과처리부(214)는 질의결과생성부(220)에 의해 생성되는 추론 처리의 결과를 사용자에게 직접 출력하거나 또는 SPARQL 질의문을 송신한 응용 프로그램으로 제공하는 모듈이다.

질의결과생성부(220)는 응용처리부(210)로부터 수신되는 SPARQL 질의문을 기초로 하여 추론 처리를 수행하고, 수행된 추론 처리의 결과를 응용처리부(210)로 전송하기 위한 모듈이다. 구체적으로, 질의결과생성부(220)는 RDF 저장소(240)에 저장되어 있는 RDF 트리플들을 주어부, 서술부 또는 목적부에 포함된 동일한 자원 단위로 묶은 가상문서들을 생성하고, SPARQL 질의문에서 추출된 키워드 및 가상문서들 간의 유사도를 분석하여 의미적으로 연관성이 높은 가상문서들을 선택한 후에, 선택된 가상문서들을 이용하여 SPARQL 질의문에 대한 추론 처리를 수행할 수 있다.

이를 위하여, 질의결과생성부(220)는 예를 들어 질의분석부(222), 가상문서생성부(224), 유사도결정부(226), 가상문서생성부(228) 및 추론처리부(230)를 포함할 수 있다.

질의분석부(222)는 질의수신부(212)에서 수신되는 SPARQL 질의문으로부터 키워드를 추출한다. 추출되는 키워드는 SPARQL 질의문을 구성하는 트리플들 내의 자원들일 수 있다. 또한, SPARQL 질의문은 복수의 트리플들 또는 복수의 자원들을 포함할 수 있기 때문에, 그에 따라서 추출되는 키워드의 개수도 늘어날 수 있다.

가상문서생성부(224)는, 추론 처리에 필요한 의미적 연결성이 있는 RDF 트리플들을 더욱 많이 추출하기 위해서, RDF 저장소(240)에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성한다. 예를 들어, 가상문서생성부(224)는 동일한 주어부를 가지는 RDF 트리플들을 묶은 가상문서를 생성할 수 있고, 이 경우 해당 주어부에 대한 모든 서술부 및 목적부들이 함께 묶일 수 있다.

도 3은 도 2의 가상문서 생성부(224)에서 생성되는 가상문서들을 예시적으로 도시한 도면이다.

도 3을 참조하면, 가상문서 생성부(224,300)가 생성하는 가상문서들은 예를 들어 1번 가상문서(310), 2번 가상문서(320) 및 3번 가상문서(330)일 수 있다.

1번 가상문서(310)는 주어부가 a인 RDF 트리플들을 포함하고 있고, 2번 가상문서(320)는 주어부가 c인 RDF 트리플들을 포함하고 있으며, 3번 가상문서(330)는 주어부가 m인 RDF 트리플들을 포함하고 있다.

또한, 1번 가상문서(310)의 RDF 트리플(a b c)(312)의 목적부와 2번 가상문서(320)의 RDF 트리플(c o u)(322)의 주어부는 동일한 URI 자원으로 연결 가능하기 때문에, 1번 가상문서(310)와 2번 가상문서(320)는 새로운 또 하나의 가상문서로서 RDF 트리플들의 집합이 될 수도 있다.

한편, 가상문서 생성부(224)에서 생성되는 가상문서들은 가상문서 생성부(224) 내부에 저장될 수도 있고, RDF 저장소(240)에 저장될 수도 있으며, 또는 가상문서 생성부(224) 및 RDF 저장소(240)에 분산되어 저장될 수도 있다.

다시 도 2로 돌아오면, 유사도결정부(226)는 벡터 공간 모델을 이용하여 질의분석부(222)에서 추출된 키워드 및 가상문서생성부(224)에서 생성된 가상문서들을 벡터화하고, 벡터화된 키워드(이하, 키워드 벡터) 및 벡터화된 가상문서들(이하, 가상문서 벡터들)의 크기 및 각도에 따라서 키워드 및 가상문서들 간의 유사도를 결정한다.

유사도 결정을 위한 벡터 공간 모델에서의 벡터화는 tf-idf (term frequency-inverse document frequency) 가중치를 이용하여 수행될 수 있다. tf-idf 가중치는 tf * idf이고, 여기서 tf는 문서 내에서 해당 키워드가 나타나는 횟수이고, idf는 전체 문서의 수에 대해 해당 키워드가 포함된 문서들의 수로 나눈 값의 로그값이다.

벡터 공간 모델을 이용한 문서 또는 키워드 간의 유사도는 벡터의 내적 공식에서 코사인 값이 0에 가까우면 유사성이 없고 1에 가까우면 유사성이 높은 것이다. 예를 들어, 문서 d1 및 키워드 w의 벡터를 V(d1), V(w)라 표현하면 유사도 Sim(d1, w) = V(d1)?V(w) / |V(d1)||V(w)|가 된다.

예를 들어, 유사도결정부(226)는 키워드 벡터와 각 가상문서 벡터들과의 내적들을 계산하고, 계산된 내적들로부터 키워드 벡터와 각 가상문서 벡터들 간의 각도들의 코사인 값들을 계산하여 키워드와 각 가상문서들 간의 유사도를 결정할 수 있다. 벡터들 간의 각도의 코사인 값이 1에 가까우면 키워드와 해당 가상문서는 유사한 것으로 결정된다.

유사도결정부(226)의 유사도 결정에 관하여 도 3의 예시를 참조하여 설명한다. 만일 SPARQL 질의문 내의 키워드로서 a와 u 자원이 있다고 가정하면, 1번 가상문서(310)와 3번 가상문서(330)는 a 자원과 u 자원을 모두 포함하고 있는데 비하여(314,332,334), 2번 가상문서(320)는 u 자원만을 포함하고 있기 때문에(322), 유사도결정부(226)의 유사도 판단에 의하면 2번 가상문서(320)에 비해서 1번 가상문서(310)와 3번 가상문서(330)의 유사도가 높을 가능성이 많다. 한편, SPARQL 질의문 내의 자원이 많을수록 그 자원을 모두 포함하는 문서들의 수는 줄어들고, 그 문서들은 SPARQL 질의문과 연관성이 높은 정보를 많이 가지고 있을 것이므로 유사도 높은 가상문서를 발견할 가능성이 높아질 것이다.

가상문서선택부(228)는 유사도결정부(226)에서의 유사도 결정 결과를 기초로 하여 SPARQL 질의문에서 추출된 키워드와 의미적으로 연관된 가상문서들을 선택한다. 키워드와 의미적으로 연관된 가상문서들은 유사도결정부(226)에서 결정된 유사도의 크기 순서에 따라서 선택될 수 있다. 또한 키워드와 의미적으로 연관된 가상문서들은 가상문서선택부(228)를 제어하는 사용자의 정책에 따라서 소정의 개수만큼 선택되도록 설정될 수 있다.

추론처리부(230)는 가상문서선택부(228)에서 선택된 가상문서들을 이용하여 키워드에 대한 추론 처리를 실행한다. 추론 처리는 공리(Axiom) 기반 추론이나 규칙(Rule) 기반 추론 등 다양한 방식에 의해 수행될 수 있다. 추론 처리의 결과는 사용자에게 직접 출력되거나(예를 들어, 사용자 단말기 등을 통하여) 또는 응용 프로그램을 처리하는 과정에서 제공될 수 있다.

상술한 바에 따르면, 추론처리부(230)는 해당 키워드와 의미적으로 연관되는 매우 풍부한 RDF 트리플들을 대상으로 하여 추론 처리를 실행할 수 있기 때문에, 추론 결과의 완전성을 향상시킬 수 있다.

RDF 저장소(240)는 이질적이고 분산되어 있는 데이터베이스, 웹 혹은 문서 등으로부터 변환되어 생성된 RDF 트리플들을 저장하기 위한 모듈이다. 웹 상의 데이터들은 다양한 변환 엔진들에 의해서 RDF 트리플의 형태로 변환될 수 있다. 웹 상의 데이터들을 수집하여 RDF 트리플의 형태로 RDF 저장소(240)에 저장하는 과정에 대해서는 본 발명의 범위를 벗어나는 것이므로 구체적인 설명은 생략된다. 다만, RDF 저장소(240)는 하나의 저장소일 수도 있고, 혹은 분산되어 있는 복수 개의 저장소들을 포함할 수도 있다.

도 4는 본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 방법을 도시한 흐름도이다.

도 4를 참조하면, 단계 402에서, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, SPARQL 질의문을 수신한다. SPARQL 질의문은 사용자로부터 직접 입력되거나 또는 응용 프로그램을 처리하는 과정에서 생성될 수 있다.

단계 404에서, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, 단계 402에서 수신된 SPARQL 질의문으로부터 키워드를 추출한다. 키워드는 SPARQL 질의문을 구성하는 적어도 하나의 트리플의 구성요소들로부터 추출될 수 있다.

단계 406에서, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성한다. 예를 들어, 가상문서는 동일한 주어부를 가지는 RDF 트리플들을 함께 묶은 집합일 수 있고, 이 경우에 가상문서에는 동일한 주어부와 의미적으로 연관되는 모든 서술부 및 목적부가 포함될 수 있다. 또한, RDF 저장소는 하나일 수도 있고 혹은 분산되어 있는 복수 개의 저장소들일 수도 있다.

단계 408에서, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, 벡터 공간 모델을 이용하여 키워드 및 가상문서들을 벡터화하고, 벡터화된 키워드 및 벡터화된 가상문서들의 크기 및 각도에 따라서 키워드 및 가상문서들 간의 유사도를 결정한다. 여기서, 벡터화는 예를 들어 tf-idf (term frequency-inverse document frequency) 가중치를 이용하여 수행될 수 있다. 또한, 유사도는 예를 들어 벡터화된 키워드 및 벡터화된 가상문서들 간의 내적을 계산하고, 계산된 내적으로부터 벡터화된 키워드 및 벡터화된 가상문서들 간의 각도의 코사인 값을 계산하여 결정될 수 있다.

단계 410에서, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, 단계 408에서의 유사도 결정 결과를 기초로 하여 키워드와 의미적으로 연관된 가상문서들을 선택한다. 키워드와 의미적으로 연관된 가상문서들은 유사도의 크기 순으로 정책에 따라서 설정된 소정의 개수만큼 선택될 수 있다.

단계 412에서, 벡터 공간 모델을 이용한 RDF 트리플 선택 장치는, 단계 410에서 선택된 가상문서들을 이용하여 키워드에 대한 추론 처리를 실행한다. 추론 처리의 결과는 사용자에게 직접 출력되거나 또는 응용 프로그램을 처리하는 과정에서 제공될 수 있다.

본 발명의 일 실시예에 따른 벡터 공간 모델을 이용한 RDF 트리플 선택 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

SPARQL 질의문을 수신하는 단계;
상기 SPARQL 질의문으로부터 키워드를 추출하는 단계;
RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성하는 단계;
벡터 공간 모델을 이용하여 상기 키워드 및 상기 가상문서들을 벡터화하고, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들의 크기 및 각도에 따라서 상기 키워드 및 상기 가상문서들 간의 유사도를 결정하는 단계;
상기 유사도의 결정 결과를 기초로 하여 상기 키워드와 의미적으로 연관된 가상문서들을 선택하는 단계; 및
상기 선택된 가상문서들을 이용하여 상기 키워드에 대한 추론 처리를 실행하는 단계를 포함하는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 가상문서들의 각각은, 상기 동일한 주어부와 의미적으로 연관되는 모든 서술부 및 목적부를 포함하는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 벡터화는, tf-idf (term frequency-inverse document frequency) 가중치를 이용하여 수행되는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 유사도는, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 내적을 계산하고, 상기 내적으로부터 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 각도의 코사인 값을 계산하여 결정되는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 키워드와 의미적으로 연관된 가상문서들은, 상기 유사도의 크기 순으로 정책에 따라 결정되는 소정의 개수만큼 선택되는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 SPARQL 질의문은, 사용자로부터 직접 입력되거나 또는 응용 프로그램을 처리하는 과정에서 생성되는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 추론 처리의 결과는, 사용자에게 직접 출력되거나 또는 응용 프로그램을 처리하는 과정에서 제공되는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
제1항에 있어서,
상기 RDF 저장소는 분산되어 있는 복수 개의 저장소들인 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법.
SPARQL 질의문을 수신하는 질의수신부;
상기 SPARQL 질의문으로부터 키워드를 추출하는 질의분석부;
RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성하는 가상문서생성부;
벡터 공간 모델을 이용하여 상기 키워드 및 상기 가상문서들을 벡터화하고, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 각도에 따라서 상기 키워드 및 상기 가상문서들 간의 유사도를 결정하는 유사도결정부;
상기 유사도의 결정 결과를 기초로 하여 상기 키워드와 의미적으로 연관된 가상문서들을 선택하는 가상문서선택부; 및
상기 선택된 가상문서들을 이용하여 상기 키워드에 대한 추론 처리를 실행하는 추론처리부를 포함하는 것을 특징으로 하는 벡터 공간 모델을 이용한 RDF 트리플 선택 장치.
프로세서에서 SPARQL 질의문을 수신하는 단계;
상기 SPARQL 질의문으로부터 키워드를 추출하는 단계;
RDF 저장소에 저장된 RDF 트리플들에 대하여, 동일한 주어부, 서술부, 또는 목적부를 가지는 RDF 트리플들을 함께 묶은 집합인 가상문서들을 생성하는 단계;
벡터 공간 모델을 이용하여 상기 키워드 및 상기 가상문서들을 벡터화하고, 상기 벡터화된 키워드 및 상기 벡터화된 가상문서들 간의 각도에 따라서 상기 키워드 및 상기 가상문서들 간의 유사도를 결정하는 단계;
상기 유사도의 결정 결과를 기초로 하여 상기 키워드와 의미적으로 연관된 가상문서들을 선택하는 단계; 및
상기 선택된 가상문서들을 이용하여 상기 키워드에 대한 추론 처리를 실행하는 단계를 포함하는 벡터 공간 모델을 이용한 RDF 트리플 선택 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.