KR100963623B1 - 시맨틱 웹 자원의 랭킹처리방법 - Google Patents

시맨틱 웹 자원의 랭킹처리방법 Download PDF

Info

Publication number
KR100963623B1
KR100963623B1 KR1020080037877A KR20080037877A KR100963623B1 KR 100963623 B1 KR100963623 B1 KR 100963623B1 KR 1020080037877 A KR1020080037877 A KR 1020080037877A KR 20080037877 A KR20080037877 A KR 20080037877A KR 100963623 B1 KR100963623 B1 KR 100963623B1
Authority
KR
South Korea
Prior art keywords
class
rdf
attribute
weight
ranking
Prior art date
Application number
KR1020080037877A
Other languages
English (en)
Other versions
KR20090112157A (ko
Inventor
노상규
박현정
박진수
Original Assignee
재단법인서울대학교산학협력재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인서울대학교산학협력재단 filed Critical 재단법인서울대학교산학협력재단
Priority to KR1020080037877A priority Critical patent/KR100963623B1/ko
Priority to US12/989,572 priority patent/US20110040717A1/en
Priority to PCT/KR2009/002116 priority patent/WO2009131386A2/ko
Publication of KR20090112157A publication Critical patent/KR20090112157A/ko
Application granted granted Critical
Publication of KR100963623B1 publication Critical patent/KR100963623B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

개시된 내용은 시맨틱 웹 자원의 랭킹처리방법에 관한 것으로서, (1) 온톨로지 구축을 지원하는 다양한 툴을 사용하여 RDF 지식베이스를 구축하는 단계와, (2) 도메인을 구성하는 여러 클래스들과 이들 클래스간의 관계를 기술하는 속성들로 이루어진 스키마 상에서 클래스별로 객체타입 속성에 대한 목적부 가중치와 주어부 가중치, 데이터타입 속성에 대한 가중치를 설정하는 단계와, (3) (1) 단계에서 구축된 RDF 지식베이스에서 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하는 단계와, (4) (2) 단계에서 설정된 가중치와 (3) 단계에서 추출한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성하는 단계, 및 (5) (4) 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구하는 단계를 수행한다.
따라서, 본 발명은 속성 중심으로 링크 구조를 분석하여 랭킹 점수로 활용할 때 발생되는 강한 결합 모임 현상을 해결할 수 있으며, RDF 링크 방향의 임의성에 의한 스키마의 다양성 문제를 링크 방향과 무관한 자원간의 상호 작용성 개념을 도입하여 해결함으로써 시맨틱 웹 자원을 효율적으로 랭킹하는 방법을 제공한다.
랭킹, 자원 중요도, 시맨틱 웹, RDF, 클래스, 가중치

Description

시맨틱 웹 자원의 랭킹처리방법{Ranking processing method for semantic web resources}
본 발명은 시맨틱 웹 자원의 랭킹처리방법에 관한 것이다.
보다 상세하게는 시맨틱 웹 자원(resources), 즉 RDF(Resource Description Framework) 자원을 실질적인 중요도에 따라 정렬하기 위한 시맨틱 웹 자원의 랭킹처리방법에 관한 것이다.
최근 들어 정보의 홍수 속에서 살아가는 우리들은 필요한 정보를 신속하고 정확하게 찾기 위해 검색엔진을 빈번하게 사용한다. 그러나 검색 결과로 너무나 많은 정보들이 제시되기 때문에 이 중에서 진정으로 원하는 정보를 고르기 위해 많은 시간과 노력을 허비하고 있다. 웹이 발전할수록 더욱 많은 정보가 축적될 것이므로 이러한 문제를 해결하기 위해 검색된 결과를 사용자의 의도에 맞게 정렬하는 방법에 대한 많은 연구가 진행되어 왔으며, 앞으로도 이러한 연구의 중요성은 더욱 커질 것으로 보인다.
독립된 문서들의 무한한 모임을 대상으로 하는 전통적인 검색 시스템에서는 주로 검색 키워드가 문서 안에서 발견되는 횟수에 의해 문서의 중요도가 결정되어 왔다.
이후 문서와 문서가 하이퍼링크로 연결된 월드 와이드 웹(World Wide Web)에서는 거대한 웹 그래프의 문서간 링크 구조를 분석하여 객관적인 중요도 점수를 산출하는 방법이 사용되었다.
대표적인 예로 1998년에 등장하여 주목을 받아 온 구글(Google)의 페이지랭크(PageRank) 알고리즘을 들 수 있다. 구글의 페이지랭크와 같은 링크 분석 방법은 웹 그래프의 링크 구조에 내재되어 있는 정보를 이용하여 보다 객관적인 방법으로 높은 결과들을 제시한다. 페이지랭크는 임의의 페이지를 가리키는 다른 페이지들이 많을수록(즉 다른 페이지들에 의해 많이 링크될수록), 그리고 이러한 다른 페이지들의 중요도가 높을수록 해당 페이지의 중요도가 올라간다.
그리고 웹 페이지를 링크 구조에 기반하여 랭킹하는 또 다른 알고리즘으로는 Kleinberg의 HITS(Hypertext Induced Topic Selection) 알고리즘을 들 수 있다. 페이지랭크와는 다르게 HITS 알고리즘은 권위(authority)와 허브(hub)라는 개념(권위는 다른 페이지들에 의해 링크되는 정도, 허브는 다른 페이지들을 링크하는 정도)을 도입하여 웹 페이지의 중요도를 결정하는 방법을 제안한 것으로서, 각 페이지에 대해 권위 점수와 허브 점수라는 두 가지 종류의 점수를 계산한다. 한 페이지의 권위 점수가 높으면 이것은 특정 주제에 대한 권위 페이지라서 많은 페이지들이 이 페이지를 참조하고, 높은 허브 정보를 가진 페이지는 많은 권위 페이지들을 참조한다.
이와 같은 예에서 알 수 있는 바와 같이 링크 구조를 분석하여 랭킹 점수로 활용하는 방법은 월드 와이드 웹의 만족도를 높여주는 핵심적인 역할을 해오고 있으며, 많은 사람들이 이러한 알고리즘의 우수성과 효율성에 대해 상당부분 인지하고 있다.
한편, RDF 데이터모델은 시맨틱 웹의 근간을 이루므로 시맨틱 웹의 거의 모든 정보는 RDF 그래프로 표현 가능하다. RDF 그래프는 자원을 노드(node)로, 속성(property or predicate)을 링크(link)로 나타내어 웹 페이지를 노드로, 문서간 하이퍼링크를 링크로 나타내는 웹 그래프와 비슷하다. 그러므로 월드 와이드 웹의 링크 구조 분석 기술을 시맨틱 웹의 RDF 그래프에 적용하는 것에 관한 연구는 매우 중요한 의의를 가진다고 할 수 있다.
그런데 월드 와이드 웹 그래프는 순전히 웹 페이지들과 한 가지 종류의 재귀적 속성(recursive property)- 이를 테면, '참조하다(refers to)'라는 속성 -으로 이루어진 하나의 거대한 클래스로 간주될 수 있다. 반면에 RDF 스키마(schema)에는 다양한 종류의 클래스와 속성들이 존재하고 속성을 나타내는 각 링크는 해당 속성이 수동 또는 능동 표현이냐에 따라 정 반대의 방향을 가질 수도 있다. 결과적으로 RDF 스키마를 기초로 축적되는 자원 인스턴스에 대한 RDF 그래프는 월드 와이드 웹 그래프보다 사이즈가 훨씬 작은 경우에도 매우 이질적(heterogeneous)일 수 있다.
Mukherjea와 Bamba는 이러한 시맨틱 웹 속성의 다양성에 주목하여 월드 와이 드 웹의 HITS 알고리즘을 수정하였고, RDF 지식 베이스에 대한 질의 결과를 랭킹하는 것에 이것을 적용하였다. 이들은 Kleinberg가 정의한 웹 페이지의 권위 점수와 허브 점수를 응용하여 시맨틱 웹 자원의 목적부 점수(objectivity score)와 주어부 점수(subjectivity score)를 정의하였다. 그리고 각 점수를 계산할 때 두 자원을 연결하는 속성의 특성에 따라 하나의 자원이 다른 자원에 미치는 영향력을 조절하기 위해 목적부 가중치(weight)와 주어부 가중치라는 개념을 도입하였다. 이를 바탕으로 실제로 몇 가지의 시맨틱 웹 시스템을 구현하여 알고리즘의 실용 가능성을 입증하였다.
그러나 이와 같은 속성 중심으로 링크 구조를 분석하여 랭킹 점수로 활용하는 방법은, 실제로는 별로 중요하지 않은 노드들인데도 이들 사이에 링크 연결이 많으면, 이 노드보다 더 중요하지만 링크 연결이 적은 노드들보다 높은 점수를 받게 되는 강한 결합 모임 현상(Tightly-Knit Community Effect)이 발생되는 한계점이 노출되었다.
그리고 주어진 도메인에 대해 대부분의 지식이 기술되어 있는 지식베이스에서만 타당한 결과를 보여준다는 문제점도 발생하였다. 이것은 노드 수에 대한 링크 수의 비율이 너무 낮거나, 어떤 자원에 대해서는 자세히 기술하면서 몇몇 자원에 대해서는 정보가 아주 빈약한 경우에는 의외의 결과가 나올 수 있다는 것을 의미한다.
본 발명의 목적은 전술한 문제점을 해결할 수 있도록, 시맨틱 웹 자원, 즉 RDF 자원을 실질적인 중요도에 따라 정렬하기 위한 시맨틱 웹 자원의 랭킹처리방법을 제공하는 데 있다.
본 발명의 다른 목적은, RDF 자원을 정렬할 때 속성 중심으로 결정했던 기존의 방식과 달리 클래스 중심으로 전환하여 각 클래스에 속하는 자원의 중요도에 영향을 미치는 속성들의 상대적인 비중을 고려하여 속성의 가중치를 결정하는 시맨틱 웹 자원의 랭킹처리방법을 제공하는 데 있다.
이러한 목적을 달성하기 위한 본 발명에 따른 시맨틱 웹 자원의 랭킹처리방법은, (1) 온톨로지 구축을 지원하는 다양한 툴을 사용하여 RDF 지식베이스를 구축하는 단계와; (2) 도메인을 구성하는 여러 클래스들과 이들 클래스간의 관계를 기술하는 속성들로 이루어진 스키마 상에서 클래스별로 객체타입 속성에 대한 목적부 가중치와 주어부 가중치, 데이터타입 속성에 대한 가중치를 설정하는 단계와; (3) (1) 단계에서 구축된 RDF 지식베이스에서 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하는 단계와; (4) (2) 단계에서 설정된 가중치와 (3) 단계에서 추출한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성하는 단계; 및 (5) (4) 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구하는 단계를 포함하는 것을 특징 으로 한다.
그리고 (5) 단계 이후, (6) 온톨로지 구축 지원 툴을 통해 랭킹 점수에 따른 결과를 얻기 위한 SPARQL 쿼리가 입력되는지를 확인하는 단계와; (7) SPARQL 쿼리가 입력되면, 해당 SPARQL 쿼리의 결과에 접근하는 단계; 및 (8) (5) 단계에서 계산된 랭킹 점수에 의한 쿼리 결과를 정렬하고, 이를 스크린상에 디스플레이하는 단계를 더 수행하도록 구성하는 것이 바람직하다.
그리고 (2) 단계의 가중치 설정은, 객체속성만을 고려하여 각 클래스별로 가중치의 합이 1이 되도록 설정하거나, 객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정하는 것이 바람직하다.
이상에서와 같이 본 발명의 시맨틱 웹 자원의 랭킹처리방법에 따르면, 랭킹을 필요로 하는 대부분의 질의가 결국은 하나의 클래스에 속하는 자원들을 검색하는 것이라는 점과 RDF 스키마에는 다양한 클래스가 존재한다는 점과 클래스마다 다른 기준을 적용하는 사람들의 평가 방식 등을 고려하여, RDF 자원을 정렬할 때 속성 중심으로 결정했던 종래의 방식과 달리 클래스 중심으로 전환하고, 각 클래스에 속하는 자원의 중요도에 영향을 미치는 속성들의 상대적인 비중을 고려하여 속성의 가중치를 결정함으로써, 종래의 속성 중심으로 링크 구조를 분석하여 랭킹 점수로 활용할 때 발생되는 강한 결합 모임 현상을 해결할 수 있으며, 링크 방향과 무관한 자원간의 상호 작용성 개념을 도입함으로써 RDF 링크 방향의 임의성에 의한 스키마 의 다양성 문제에 대한 해결책을 제시하는 효과가 있다.
또한, 기존 연구에서 제외되었던 데이터 타입 속성을 자원 중요도 계산에 포함시킬 수 있고, 기존 연구에서 등한시되었던 행렬 연산에 대한 수학적인 분석을 전개하여 계산 과정을 더욱 단순화하였으며, RDF 그래프로 표현되는 다양한 도메인에 적용할 수 있으므로 대학 랭킹이나 쇼핑몰 순위 등 실제 생활에서 접하게 되는 여러 가지 랭킹 이슈들에도 적용이 가능한 효과가 있다.
또한, 한 도메인에 대한 RDF 스키마는 결국 같은 정보를 전달하고 있어도 각 링크의 방향에 따라, 예를 들면 속성을 능동으로 또는 수동으로 표현하느냐에 따라 수많은 형태로 표현될 수 있고, RDF 스키마 형태가 달라지면 각 자원의 목적부와 주어부 점수가 영향을 받아 월드 와이드 웹의 권위 점수와 허브 점수가 가지고 있던 본래 의미를 잃게 되기 때문에 링크 방향과 무관하게 자원간의 링크 연결에 의한 상호 작용성을 고려하여 자원의 중요도를 결정하는 본 발명은, RDF를 기본적인 데이터 모델로 하는 시맨틱 웹에 매우 적합하며, RDF 그래프로 표현되는 시맨틱 웹의 다양한 도메인에 적용이 가능한 효과가 있다. 즉, 본 발명은 월드 와이드 웹 링크분석 기술을 RDF 그래프에 적용할 때 가장 큰 걸림돌이라고 할 수 있는 RDF 스키마의 다양성을 해결하는 효과를 제공한다.
본 발명의 상세한 설명에 앞서 본 발명에 사용되는 몇 가지 용어에 대하여 기술하면 다음과 같다.
"시맨틱 웹(semantic web)"은 메타데이터 개념을 이용하여 웹 문서에 시맨틱 정보를 덧붙이고 이를 소프트웨어 에이전트가 자동으로 추출하여 정보의 공유나 확장이 가능하도록 하는 패러다임을 조성하는 것으로서, Tim Berners-Lee는 시맨틱 웹이 기존의 웹과 완전히 구별되는 새로운 웹의 개념이 아니라 컴퓨터가 정보의 의미를 이해할 수 있어 사람과의 협동적인 작업 및 자동화된 서비스가 가능하게 되는 현재 웹의 확장된 형태라고 정의하였다.
"온톨로지(ontology)"는 시맨틱 웹을 구현하기 위한 언어로서, 웹 상에서 어플리케이션간의 지식공유와 처리를 가능하게 하는 중요한 역할을 하며, Tom Gruber는 온톨로지를 해당 도메인에 대해 공유되고 있는 개념화의 형식적이고 구체적인 표현이라고 정의하였다.
"RDF(Resource Description Framework)"는 표현하고자 하는 온갖 개념을 자원으로 보고 이러한 자원을 서로 구별하기 위한 식별자로 URIref(Uniform Resource Identifier reference)를 사용하여 자원의 속성이나 자원과 자원 간의 관계를 기술하는 데이터 모델로서, 기본 단위는 '주어부(subject)-서술부(predicate or property)-목적부(object)'의 세 부분으로 이루어져 흔히 트리플(triple)이라 불리는 서술문(statement)이다. RDF 서술문은 노트와 링크로 이루어지는 RDF 그래프로도 표현되는데, 노드는 서술문의 주어부와 목적부에 자원이 오는 경우에 해당되며, 링크는 서술문의 서술부에 해당된다.
"RDF 스키마(schema)"는 RDF를 프레임 기반으로 확장한 것으로서, 2004년 2월에 W3C(World Wide Web Consortium) 권고안이 되었으며, 도메인의 구성 및 상호 작용을 묘사하는데 필요한 기본 어휘와 가정들을 정의할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 시맨틱 웹 자원의 랭킹처리방법을 상세하게 설명한다.
도 1은 본 발명에 따른 시맨틱 웹 자원의 랭킹처리방법의 동작과정을 설명하기 위한 순서도로서, 자원 중요도를 계산하는 알고리즘을 설명하는 S10 단계 내지 S50 단계와, 자원 중요도를 계산한 결과를 SPARQL 쿼리에 따라 정렬하여 보여주는 과정을 설명하는 S60 단계 내지 S80 단계로 구분될 수 있다.
우선 프로티지(
Figure 112008029125551-pat00001
) 외에 각종 온톨로지 구축을 지원하는 다양한 툴을 사용하여 RDF 지식베이스를 구축한다(S10). 온톨로지를 구축할 때부터 축적되는 인스턴스 자원들을 중요도에 따라 랭킹할 필요를 고려하여 설계하는 것이 가장 이상적이며, 이미 구축되어 있는 RDF 지식베이스를 대상으로 적용할 수도 있다.
RDF 지식베이스를 구축한 이후, 도메인을 구성하는 여러 클래스들과 이들 클래스간의 관계를 기술하는 속성들로 이루어진 스키마 상에서 클래스별로 객체타입 속성에 대한 목적부 가중치와 주어부 가중치, 데이터타입 속성에 대한 가중치를 설정한다(S20).
클래스는 공통되는 속성들을 갖는 개체들을 하나로 묶어 일컫는 개념이며, 이 안에 속하는 하나하나의 개체들을 인스턴스라 부른다. 본 발명의 랭킹 대상이 되는 자원들은 이러한 클래스에 속하는 인스턴스들이다. 같은 클래스에 속하는 자원들은 같은 기준에 의해 중요도를 평가해야 하며, 중요도 평가 기준은 한 클래스 에 연결된 속성들의 상대적인 비중을 고려하여 결정하는 것이 본 발명의 핵심적인 아이디어이다.
클래스 레벨에서 각 속성의 가중치가 결정되면 인스턴스를 연결하는 속성의 가중치는 자동적으로 결정된다. RDF의 속성은 크게 목적부에 자원이 오는 객체속성과 목적부에 단순한 문자열이 오는 데이터타입속성으로 이루어져 있다. 전술한 종래의 기존연구에서는 데이터타입속성은 제외시켜 왔다. 기존연구에서처럼 객체속성만을 고려하여 중요도를 계산하려면 이 S20 단계에서 객체속성만을 가지고 각 클래스별로 가중치의 합이 1이 되도록 가중치를 설정(후술되는 도 3 설명 참조)하면 되고, 데이터타입 속성까지 고려하여 링크 분석에 포함시키려면 객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정(후술되는 도 4 및 도 5 설명 참조)하면 된다.
주어부와 목적부에 모두 IR(클래스에 속하는 인스턴스 자원들)에 속하는 자원들이 오는 속성 링크만을 포함시킨 인스턴스 그래프(instance_Graph)를 위한 가중치 설정식은 다음과 같다.
Figure 112008029125551-pat00002
RDF 스키마 상에서 클래스별로 이 클래스와 연결된 속성들의 상대적인 비중을 고려하여 목적부와 주어부 가중치를 설정한다. 수학식 1은 클래스 C의 가중치 설정조건을 나타내며, objWt(D,C)는 도메인이 클래스 D이고 레인지(range)가 클래스 C인 속성이 목적부 가중치이고, subWt(C,D)는 도메인이 클래스 C이고 레인지가 클래스 D인 속성의 주어부 가중치이다.
다음으로 인스턴스 그래프에 주어부에는 IR에 속하는 자원이 오고 목적부에는 SD(자원이 아닌 문자열 데이터)에 속하는 데이터가 오는 속성 링크까지 포함시킨 인스턴스 데이터 그래프(instance_data_Graph)를 위한 가중치 설정식은 다음과 같다.
Figure 112008029125551-pat00003
dpWtq는 C에 연결된 데이터타입 속성 q에 대한 주어부 가중치이다. 모든 q에 대하여 dpWtq=0이면 수학식 2는 수학식 1과 같아진다.
이와 같이 S20 단계를 통해 스키마 상에서 클래스별로 가중치를 설정한 이후, S10 단계에서 구축된 RDF 지식베이스에서 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출한다(S30).
그리고 상술한 S20 단계에서 설정된 가중치와 S30 단계에서 추출한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성한 후(S40), 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 이를 토대로 자원 중요도 점수 벡터를 구한다(S50).
클래스 중심 속성 가중치 행렬의 생성에 있어서, 시맨틱 웹에 대한 기존 알 고리즘에서는 ClaRITwo(Class-oriented Resource Importance-Two)와 같이 목적부와 주어부 가중치 행렬, 2개를 만들어 계산하는 데 비하여 ClaRIOne(Class-oriented Resource Importance-One)에서는 하나의 가중치 행렬을 가지고 이 행렬의 제일 고유벡터를 구해 자원중요도를 계산한다. 월드와이드웹의 링크분석 기술을 시맨틱 웹에 적용할 때 가장 어려운 점이 RDF 링크 방향의 임의성 때문에 발생하는 스키마의 다양성 문제다. ClaRIOne은 스키마에 따라 달라지는 목적부와 주어부 점수가 아닌, 링크 방향과 무관한 하나의 중요도 점수를 계산하고 이것이 사람들의 평가방식과 유사하다는데 그 가치가 있다. ClaRITwo도 기존 알고리즘에 비해 강한 결합 모임을 효과적으로 해결하는 우수성을 가지고 있지만 RDF 링크의 방향성이 임의적이기 때문에 발생하는 스키마의 다양성에 대해서는 ClaRIOne이 ClaRITwo 보다 상대적으로 우수한 성질을 가지고 있기 때문에 본 발명에서는 ClaRIOne을 중심으로 설명하기로 한다.
우선 반복적인 자원 중요도 계산을 위하여 인스턴스 그래프 G=(V,E)에서 V는 N개의 자원으로 이루어진 자원 집합 V={1,2,...,N}이고, E는 V 안에 존재하는 임의의 자원 r(0≤r≤N)과 k(0≤k≤N)를 연결하는 방향성 있는 링크의 집합이라 할 때, S20 단계를 통해 클래스 별로 가중치를 설정한 이후 ClaRIOne은 다음의 단계로 계산되는데, 가중치 행렬 M을 다음과 같이 정의한다.
Mrk = wrk,
단, wrk(0≤wrk≤1)는 자원 r의 중요도 점수를 계산할 때 자원 k의 중요도 점 수에 곱해지는 가중치이다. 이것은 해당 속성의 상대적인 중요도에 따라 결정되며 자원 r과 k를 연결하는 속성 링크의 목적부 또는 주어부 가중치가 된다. 다음 알고리즘에서 gr은 r(0≤r≤N)의 중요도 점수이며, 위첨자가 붙지 않은 g는 N개 자원의 중요도 점수를 나타내는 (N×1) 벡터이다.
① 초기화 : g0 r= 1, (1≤r≤N).
② 이터레이션(iteration) : g가 수렴할 때까지 i = 1,2,...,m에 대하여 다음을 반복한다.
a. 각 자원 r에 대하여, 다음의 식을 계산한다.
Figure 112008029125551-pat00004
b. gi ·를 정규화하여 gi를 얻는다, 정규화 조건은 다음 식과 같다.
Figure 112008029125551-pat00005
③ gm 을 반환한다.
이와 같은 반복적인 알고리즘은 각 단계에서 구해지는 백터들이 일정한 방향으로 수렴(convergence)하는 성질에 기초하고 있다. 벡터의 방향이 정해지면 각 자원의 점수를 나타내는 벡터 성분들의 순위가 더 이상 바뀌지 않으므로 최종 벡터 가 자원의 랭킹 용도로 사용될 수 있는 것이다.
유일한 제일 고유값(dominant eigenvalue)이 존재하고 대각화 가능한 행렬을 M이라 하고, M의 제일 고유벡터(domonant eigenvector)와 수직이 아닌 임의의 벡터를 z라 할 때, Miz는 차수 i가 증가함에 따라 M의 제일 고유벡터 방향으로 수렴하는 성질(행렬수렴성 1이라 함)이 있다.
그리고 유일한 제일 고유값이 존재하고 대각화 가능하지 않은 행렬을 M이라 하고, M의 제일 고유값에 대한 고유벡터와 일반화된 고유벡터들의 부공간(subspace)에 수직이 아닌 임의의 벡터를 z라 할 때, Miz는 차수 i가 증가함에 따라 M의 제일 고유벡터 방향으로 수렴하는 성질(행렬수렴성 2라 함)이 있다.
또한, 비음(nonenegative)이고 프리미티브(primitive)한 행렬을 A라 하면 A에 대해 유일한 양(positive)의 제일 고유값이 존재한다는 Perron-Frobenius 정리가 있다.
수학식 3을 N개 자원에 대한 행렬식으로 바꾸면, gi ·= Mgi -1이다. i=1일 때, g1 ·= Mg0이고, n1을 정규화 과정중에 곱해지는 상수라 하면, g1=n1Mg0가 된다. i=2일 때에는 g2 ·= Mg1 = n1M2g0이고, n2를 정규화 상수라 하면 g2=n1n2M2g0가 된다. 이런 식으로 i번째 반복 단계까지 계속하면 중요도 벡터 gi는 Mig0 방향의 단위벡터가 됨 을 알 수 있다. M은 비음인 가중치 행렬이므로 대부분의 그래프 응용문제에서처럼 링크 연결도가 충분히 크다고 가정하면 프리미티브하다고 볼 수 있으므로 Perron-Frobenius 정리에 의해 M은 유일한 양의 제일 고유값을 갖는다. 결과적으로 행렬수렴성 1과 2를 앞의 Mig0 에 적용하면 g0가 각각의 조건에 맞을 때 궁극적인 중요도 벡터는 M의 제일 단위 고유벡터가 된다.
이러한 본 발명의 클래스 중심 속성 가중치 행렬의 예를 도 2를 참고하여 설명한다.
간단하게 도 2와 같은 도메인이 있고, 각 클래스에 속하는 인스턴스가 하나씩만 있다고 가정할 때, 도 2에 대해 링크 방향성과 무관한 ClaRIOne의 자원 중요도 계산에서는 다음과 같이 행렬 M이 구성된다.
Figure 112008029125551-pat00006
이제 전술한 S50 단계를 통해 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구한 이후, 온톨로지 구축 지원 툴을 통해 랭킹 점수에 따른 결과를 얻기 위한 SPARQL 쿼리가 입력되는지를 확인하고(S60), SPARQL 쿼리가 입력되면, 해당 SPARQL 쿼리의 결과에 접근한다(S70).
그리고 S50 단계에서 계산된 랭킹 점수에 의한 쿼리 결과를 정렬하고, 이를 스크린상에 디스플레이한다(S80).
즉 이미 계산해 놓은 중요도를 가지고 SPARQL 쿼리가 왔을 때 해당 결과를 중요도에 따라 다시 정렬해서 보여주는 것이다. 예를 들어 온톨로지 구축 지원 툴인 프로티지(
Figure 112008029125551-pat00007
) 안에 SPARQL 쿼리 탭이 있고 여기에 쿼리를 입력하면 이에 대한 결과가 보여지는데, 이 결과를 프로티지(
Figure 112008029125551-pat00008
)-OWL(Ontology Web Language) API에 의해 받아서 다시 정렬한 후, MS Visual Basic을 이용하여 스크린상에 보여줄 수 있다는 의미이다.
한편, 도 3은 전술한 도 1에서 객체속성만을 고려하여 자원 중요도를 계산하는 과정을 설명하기 위한 순서도이다.
도시된 바와 같이, 온톨로지 구축을 지원하는 다양한 툴을 사용하여 RDF 지식베이스를 구축한 이후(S110), RDF 지식베이스 스키마에서 클래스별로 객체속성만을 고려하여 각 클래스별로 가중치의 합이 1이 되도록 설정한다(S120).
이후 S110 단계에서 구축된 RDF 지식베이스에서 데이터타입 속성을 제외하여 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하고(S130), S120 단계에서 설정된 객체속성만을 고려한 가중치와 S130 단계에서 추출한 데이터타입 속성을 제외한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성한다(S140).
그리고 S140 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구한다(S150).
도 4는 전술한 도 1에서 객체속성만을 고려하여 구한 중요도와 정규화한 데이터타입 속성값을 반영하여 최종 자원 중요도를 계산하는 과정을 설명하기 위한 순서도이다.
도시된 바와 같이, 온톨로지 구축을 지원하는 다양한 툴을 사용하여 RDF 지식베이스를 구축한 이후(S210), RDF 지식베이스 스키마에서 클래스별로 객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정한다(S220).
이후 S210 단계에서 구축된 RDF 지식베이스에서 데이터타입 속성을 포함하여 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하고(S230), S220 단계에서 설정된 가중치에서 데이터속성을 제외한 객체속성에 대한 가중치를 재조정한다(S240).
그리고 S240 단계에서 재조정된 가중치와 데이터타입 속성을 제외한 객체속성 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성한 후(S250), S250 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산한다(S260).
또한 S230 단계에서 추출한 데이터타입 속성 RDF 트리플의 속성값을 정규화한다(S270).
그리고 S260 단계에서 계산한 제일 고유벡터에 의한 자원 중요도의 정규화값과 S270 단계에서 계산한 데이터타입 속성의 정규화값을 합산하여 자원 중요도 점수 벡터를 구한다(S280).
도 5는 전술한 도 1에서 객체속성과 데이터타입 속성을 고려하여 자원 중요 도를 계산하는 과정을 설명하기 위한 순서도이다.
도시된 바와 같이, 온톨로지 구축을 지원하는 다양한 툴을 사용하여 RDF 지식베이스를 구축한 이후(S310), RDF 지식베이스 스키마에서 클래스별로 객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정한다(S320).
이후 S310 단계에서 구축된 RDF 지식베이스에서 데이터타입 속성을 포함하여 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하고(S330), S330 단계에서 추출한 데이터타입 속성 RDF 트리플에 대한 속성값을 정규화하고, 해당 링크의 가중치를 계산한다(S340).
그리고 S340 단계에서 설정된 가중치와 S330 단계에서 추출한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성한 후(S350), S350 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구한다(S360).
이와 같이 구성된 본 발명에 따른 시맨틱 웹 자원의 랭킹처리방법을 적용하여 실험한 결과에 대하여 보다 상세하게 설명하면 다음과 같다.
객체속성만을 반영한 도 3을 참조하여 속성중심으로 가중치를 설정하는 기존의 방법(PreRI : Predicate-oriented Resource Importance)과 클래스 중심으로 가중치를 설정하는 방법들(ClaRIOne, ClaRITwo)을 비교분석하며, 객체속성과 데이터타입 속성을 모두 고려한 도 4 및 도 5를 참조하여 ClaRIOne 방식으로 링크 구조를 분석하여 얻은 점수와 데이터타입속성 값을 정규화하여 미리 설정된 가중치대로 합 산하는 방법(도 4)과, 데이터타입 속성값을 인스턴스별 링크 가중치로 변환하여 링크 분석에 처음부터 포함시켜 계산하는 방법(도 5)에 대하여 설명한다.
먼저, 객체속성만을 반영한 도 3은 도 6과 같은 스키마를 가진 도메인을 대상으로 하고 있으며, 온톨로지 구성에 있어서 RDF 스키마 이상에서 제공되는 클래스 간 위계구조와 속성 간 위계구조는 단순화하여 모두 한 계층만 있는 것으로 가정하였다. 속성들에 대한 가중치는 각각의 경우에 적합하게 도 7 및 도 8과 같이 설정하였으며, 컨텍스트에 따라 다른 가중치를 사용할 수도 있을 것이다. 설정된 가중치 값에 따라 각 방법의 결과가 약간씩 달라질 수는 있겠지만 전반적인 효과성의 비교에는 큰 영향을 주지 않을 것으로 판단된다.
도 9는 도 6의 클래스들의 인스턴스 수와 이들에 대한 정보를 기술하는 트리플 수를 보여준다.
여기에서의 세 가지 방식은 모두 같은 트리플 집합을 사용하였다. 모든 트리플 정보를 구성함에 있어 인스턴스와 속성의 이름은 간결성을 위해 URL과 '#'이 없는 단편 식별자(fragment identifier) 형태를 사용하였고, 인스턴스 이름은 '클래스이름-클래스번호-인스턴스 번호'형식으로 부여하였다. 인스턴스 번호가 작을수록 도 8의 기준에 의해 대략 높은 점수를 가지도록 속성값을 설정하였다. 즉, 임의의 속성에 대해 인스턴스마다 같은 수의 링크 연결을 만들어줄 때에는 인스턴스 번호가 작은 인스턴스일수록 인스턴스 번호가 작은, 다른 클래스의 인스턴스들과 연결하였다. 또는 인스턴스 번호가 작을수록 임의의 속성에 해당하는 링크 연결을 많이 만들어 주었다.
그리고 ClaRITwo와 ClaRIOne에 의한 강한 결합 모임 현상의 해소를 관찰할 수 있는 대상으로 연구원 클래스를 선정하였다. 연구원 인스턴스들의 속성값을 분석해 보면 대략 도 10과 같다. '연구원1-1'은 논문을 10편 발표한 반면에 '연구원1-25'는 발표한 논문이 하나도 없다. 강한 결합을 형성하기 위해 '연구원21-25'는 동호회에, '연구원17-25'는 홈피에 연결하였고 동호회와 홈피, 홈피와 홈피, 홈피와 다른 클래스 간에도 링크를 만들어 주었다. '연구원1-25'는 연구원 중요도 평가에 반영되지 않는 동호회에는 5개나 가입되어 있다.
이와 같이 구성된 데이터 집합에 대해 세 가지의 랭킹 알고리즘(PreRI, ClaRITwo, ClaRIOne)이 각 인스턴스 자원들을 어떻게 랭킹하는지를 살펴보고, 클래스중심 가중치 설정 방법이 다른 클래스에 대해서도 주어진 트리플 정보에 부합하는 랭킹 순위를 보여주는지와, 특정한 한 자원의 중요도에 영향을 주는 링크 정보를 추가하거나 삭제했을 때 실제로 해당 자원의 랭킹 점수에 영향이 있는지 등의 기본적인 평가도 수행한다.
적용 결과를 보면 PreRI에 의한 연구원 클래스의 랭킹 결과는 도 11과 같다. 목적부 점수가 모두 0인 것은 도 6의 스키마에서 알 수 있는 바와 같이 연구원 클래스에 속하는 인스턴스는 트리플의 목적부가 될 수 없고 주어부에만 올 수 있기 때문이다. 연구원 클래스에 연결되는 링크 구조를 이렇게 디자인한 것은 기존 연구에서 목적부나 주어부 점수를 따로따로 비교하든지, 아니면 임의로 설정한 비율대로 두 가지 점수를 합하여 랭킹에 사용했기 때문에 본 발명에서 제안하고 있는 ClaRITwo나 ClaRIOne과의 비교를 좀더 객관적으로 수행하기 위해서이다. 속성 중 심으로 가중치를 설정했을 때에는 논문을 7편 발표하고 책을 1권 저술한 '연구원1-3'이나, 논문을 6편 발표한 '연구원1-4'보다 논문을 한 편도 쓰지 않은 '연구원1-25'가 훨씬 높게 랭크 되었음을 살펴볼 수 있다. 그리고 동호회나 홈피로 연결된 다른 연구원들의 중요도도 높이 평가되어 있음을 볼 수 있다.
반면에 도 12에서는 일련번호 순서가 랭크 순위와 거의 일치함을 확인할 수 있다. 여기에서도 도 11과 같은 이유로 목적부 점수는 모두 0이다. 목적부 점수와 주어부 점수가 다 양의 값을 갖는 클래스 예로 도 13에 특허 클래스의 랭킹 결과를 제시하였다.
ClaRITwo에서는 스키마에 따라 목적부 점수나 주어부 점수가 모든 인스턴스에 대해 0인 경우가 발생하며 '분야' 클래스의 경우에는 두 가지 모두 0으로 계산되었다. 이것은 도 6의 스키마에서 살펴볼 수 있는 바와 같이 일단 분야 클래스에 속하는 자원은 목적부에만 올 수 있으므로 주어부 점수는 0인 것이 당연하다. 그리고 목적부 점수가 0인 것은 분야의 이웃 클래스인 저널, 키워드, 책 클래스에서 분야로 향하는 링크 말고는 다른 나가는 링크가 없기 때문인 것으로 추측된다. 이처럼 ClaRITwo는 강한 결합 모임 효과를 해소하는 장점은 있지만 스키마에 따라 평가가 이루어지지 않는 클래스가 발생하기도 하는 단점이 있다.
도 14는 ClaRIOne에 의한 연구원 클래스의 랭킹 결과를 보여준다. ClaRIOne도 대략 일련번호가 랭킹 순위와 일치하며 '연구원1-25'가 정상적으로 평가되었음을 알 수 있다. 일련번호가 정확히 랭킹 순위와 일치하지 않는 것은 연구원 클래스와 논문 클래스의 인스턴스 수가 많아 데이터를 구성할 때 미세한 부분까지 고려 하여 복잡한 연결관계를 정확히 비례하도록 짜기 힘들어서인 것으로 예상된다. 그렇지만 연구원 중요도에서 가장 비중이 높은 논문 편수를 고려해보면 논문을 적게 쓴 연구원이 많이 쓴 연구원보다 높이 랭크된 경우는 없다.
ClaRIOne에 의한 특허 클래스의 랭킹 결과는 도 15와 같으며 랭킹 순위는 ClaRITwo처럼 일련번호 순과 같다. ClaRITwo에서는 평가가 되지 않았던 분야 클래스도 도 16과 같은 결과를 보여주었다.
이와 같이 클래스 인스턴스의 수가 많거나 링크 연결이 복잡한 부분이 있기 때문에 자원의 인스턴스 번호 순서가 정확하게 랭킹 순위와 같아지도록 데이터를 구성하기는 어려운 면이 있었지만, 거의 일치하도록 조정하였다. 그러므로 랭킹 순위가 인스턴스 번호 순서와 같아질수록 타당한 알고리즘이라고 가정할 수 있으며, 이러한 가정 위에 순위의 상관관계를 검증하는 Spearman의 rho 상관계수를 연구원 클래스에 대해 계산해 보면 도 17과 같다.
Spearman의 rho는 영국의 심리학자 스피어맨(Spearman)에 의하여 개발되었으며, 순위의 상관관계(rank correlation)를 알아봄으로써 변수 사이의 독립성을 검정하는 방법이다. 상관분석에서 흔히 사용하는 측정치 대신에 각 표본에 매겨진 순위(rank)를 사용하는 순위검정의 한 종류이며, 변수 사이의 독립성과 종속성뿐만 아니라 관계의 방향까지도 판단할 수 있게 해준다.
Figure 112008029125551-pat00009
ρ의 값이 1이면 두 변수가 완전히 일치하는 정(正)의 상관관계를 나타내고, -1이면 서로 완전한 부(負)의 상관관계임을 나타내며, 0이면 서로 독립적임을 나타낸다. 두 변수의 사이에 상관관계가 없다는 가설, 즉 독립적이라는 것을 검정할 때의 ρ의 임계치는 표본의 크기 n과 유의수준 α에 따라 달라지는데, n=25일 때, α값 0.1, 0.05, 0.01에 대한 각각의 임계치는 순서대로 0.26, 0.34, 0.47이다. 표본으로부터 얻은 ρ가 임계치보다 크면 두 변수 간에 상관관계가 있는 것이며, 임계치보다 작으면 두 변수간에 상관관계가 없다고 판정한다.
도 17에서 첫 번째 열 A는 인스턴스 번호 순서, 즉 도 8의 관점에서 정당한 랭킹 결과를 나타내고, 열 X, Y, Z는 각각 PreRI, ClaRITwo, ClaRIOne의 랭킹 순위를 나타낸다. PreRI, ClaRITwo, ClaRIOne의 rho 상관계수는 순서대로 -0.328, 0.997, 0.997으로 계산되었다. n=25이므로 PreRI는 유의수준 10%에서 부(負)의 상관관계를, ClaRITwo와 ClaRIOne은 유의수준이 1%일 때도 강한 정(正)의 상관관계를 나타내고 있음을 알 수 있다. 이것은 속성 중심으로 가중치를 설정하는 PreRI가 강한 결합이 있는 경우에 시스템 사용자가 의도하는 바와는 전혀 다른 랭킹 결과를 제시하고 있음을 보여준다. 반면에 ClaRITwo와 ClaRIOne은 강한 결합이 있는 경우에도 사용자의 랭킹 의도를 거의 100% 반영하고 있다.
전체 클래스에 대한 rho 상관계수는 도 18에 정리되어 있다. PreRI와 ClaRITwo의 랭킹 점수는 ClaRIOne과의 비교를 위해 목적부와 주어부 점수를 합산하여 계산하였다. 링크 방향에 영향을 받아 PreRI와 ClaRITwo에서는 평가가 이루어지지 않은 분야 클래스를 제외하고, 인스턴스 수에 비례하는 가중치에 의해 각 클 래스의 rho 상관계수를 가중 평균한 결과를 보면, 0.495, 0.845, 0.952로 ClaRIOne이 가장 우수한 결과를 나타내고 있다.
이처럼 클래스 중심으로 가중치를 설정하면 아무리 강한 결합을 보이는 노드들이 있어도 중요도에 영향을 미치지 않는 링크들은 제외시키는 효과가 있으므로 훨씬 안정적이라고 할 수 있다. 강한 결합 모임 말고도 기존 연구의 다른 한계점인 정보 표현의 완전성에 대해서도 효율적인 지침을 제시한다. 온톨로지 스키마 상에서 중요도에 영향을 미치는 속성들에 대해서는 누락된 정보가 없어야 정확한 랭킹 점수를 얻을 수 있다는 것은 당연한 결과인 것이다. 어떤 자원이 흔하기 때문에 높은 점수를 받는 현상도 결국 강한 결합 모임 효과와 맥락을 같이 한다.
클래스 중심의 알고리즘에서는 목적부나 주어부 점수인 부분적인 중요도를 주고 받으며 계산되는 ClaRITwo 보다, 전체적인 하나의 중요도를 가지고 계산되는 ClaRIOne이 랭킹 능력면에서 더 우수하며 링크 방향에 의한 스키마의 다양성에 대해서도 민감하지 않아 가장 우수한 알고리즘인 것으로 판단된다. ClaRIOne은 특정 자원의 중요 속성에 대한 링크 연결을 추가하거나 삭제했을 때에도 예상되는 바와 같이 증가하거나 감소한 중요도 점수를 보여주었다.
다음에는, 객체속성과 데이터타입 속성을 모두 고려한 도 4 및 도 5의 방식은 도 6에서 강한 결합을 만들어 주기 위해 사용한 '동호회'와 '홈피' 클래스를 제거하고 데이터타입속성을 추가한 도 19와 같은 도메인을 바탕으로 한다.
여기에서는 데이터타입 속성 반영 비율이 높으면서 클래스 인스턴스의 수가 적지 않은 '책' 클래스를 선정하여 도 4의 링크 구조를 분석하여 얻은 점수와 데이 터타입속성 값을 정규화하여 미리 설정된 가중치대로 합산하는 방법과, 도 5의 데이터타입 속성값을 인스턴스별 링크 가중치로 변환하여 링크 분석에 처음부터 포함시켜 계산하는 방법의 적용 결과를 살펴보았다. 데이터타입 속성인 '판매부수'에 대한 인스턴스별 속성값은 실험 결과를 보여주는 도 21과 도 22에 함께 제시되어 있다. 도 20은 도 19의 도메인에서 사용된 클래스들의 인스턴스 수와 이러한 인스턴스들간의 관계 및 데이터타입속성 값을 기술한 트리플의 총 수를 보여준다. 괄호 안에 있는 수는 데이터타입 속성에 대한 더미 자원의 수를 나타낸다.
도 21은 도 19에서 ClaRIOne에 의해 객체속성만을 반영하여 구한 책 인스턴스들의 링크분석 결과를 정규화한 점수와 데이터타입 속성인 '판매부수'값을 정규화한 점수를 설정된 가중치대로 합산한 내용을 보여준다.
도 22는 책 인스턴스들의 판매부수 속성값을 정규화하여 인스턴스별 링크가중치로 변환한 후 ClaRIOne에 의한 링크 분석에 처음부터 포함시켜 계산한 결과를 보여준다. 도 21의 랭킹 점수를 도 22의 링크분석 점수와 비교할 때 최대값은 더 크고 최소값은 더 작음을 볼 수 있다. 이것은 판매부수 값의 차이가 반영된 결과로 보이며, 판매부수 값도 일련번호가 낮을수록 높게 설정되어 랭킹 순위에는 변동이 없는 것을 볼 수 있다.
여기에서, 상술한 본 발명에서는 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경할 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명에 따른 시맨틱 웹 자원의 랭킹처리방법의 동작과정을 설명하기 위한 순서도,
도 2는 클래스 중심 가중치 설정 예를 설명하기 위한 도면,
도 3은 객체속성만을 고려하여 자원 중요도를 계산하는 과정을 설명하기 위한 순서도,
도 4는 객체속성만을 고려하여 구한 중요도와 정규화한 데이터타입 속성값을 반영하여 최종 자원 중요도를 계산하는 과정을 설명하기 위한 순서도,
도 5는 객체속성과 데이터타입 속성을 고려하여 자원 중요도를 계산하는 과정을 설명하기 위한 순서도,
도 6은 도 3의 방식에 적용되는 클래스 구성의 예를 나타낸 도면,
도 7과 도 8은 도 6의 클래스별 PreRI와 ClaRIOne/ClaRITwo 가중치를 각각 나타낸 도면,
도 9는 도 6의 클래스들의 인스턴스와 트리플 수를 나타낸 도면,
도 10은 도 6의 연구원 클래스의 인스턴스별 속성값을 나타낸 도면,
도 11은 도 6의 연구원 클래스의 PreRI에 의한 랭킹 결과를 나타낸 도면,
도 12와 도 13은 도 6의 연구원 클래스와 특허 클래스의 ClaRITwo에 의한 랭킹 결과를 각각 나타낸 도면,
도 14 내지 도 16은 도 6의 연구원 클래스, 특허 클래스, 분야 클래스의 ClaRIOne에 의한 랭킹 결과를 각각 나타낸 도면,
도 17은 도 6의 연구원 클래스에 대한 Spearman의 rho 상관계수 계산을 나타낸 도면,
도 18은 도 6의 전체 클래스에 대한 Spearman의 rho 상관계수 계산을 나타낸 도면,
도 19는 도 4 및 도 5의 방식에 적용되는 클래스 구성의 예를 나타낸 도면,
도 20은 도 19의 클래스들의 인스턴스와 트리플 수를 나타낸 도면,
도 21은 도 19의 책 클래스에 대한 도 4의 방식에 따른 랭킹 결과를 나타낸 도면,
도 22는 도 19의 책 클래스에 대한 도 5의 방식에 따른 랭킹 결과를 나타낸 도면이다.

Claims (7)

  1. (1) RDF 지식베이스를 구축하는 단계;
    (2) 도메인을 구성하는 여러 클래스들과 이들 클래스간의 관계를 기술하는 속성들로 이루어진 스키마 상에서 클래스별로 객체타입 속성에 대한 목적부 가중치와 주어부 가중치, 데이터타입 속성에 대한 가중치를 설정하는 단계;
    (3) 상기 (1) 단계에서 구축된 RDF 지식베이스에서 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하는 단계;
    (4) 상기 (2) 단계에서 설정된 가중치와 상기 (3) 단계에서 추출한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성하는 단계; 및
    (5) 상기 (4) 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구하는 단계를 포함하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
  2. 제 1 항에 있어서, 상기 (5) 단계 이후,
    (6) 랭킹 점수에 따른 결과를 얻기 위한 SPARQL 쿼리가 입력되는지를 확인하는 단계;
    (7) SPARQL 쿼리가 입력되면, 해당 SPARQL 쿼리의 결과에 접근하는 단계; 및
    (8) 상기 (5) 단계에서 계산된 랭킹 점수에 의한 쿼리 결과를 정렬하고, 이를 스크린 상에 디스플레이하는 단계를 더 수행하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
  3. 제 1 항에 있어서, 상기 (2) 단계의 가중치 설정은,
    객체속성만을 고려하여 각 클래스별로 가중치의 합이 1이 되도록 설정하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
  4. 제 1 항에 있어서, 상기 (2) 단계의 가중치 설정은,
    객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
  5. (a) RDF 지식베이스를 구축하는 단계;
    (b) RDF 지식베이스 스키마에서 클래스별로 객체속성만을 고려하여 각 클래스별로 가중치의 합이 1이 되도록 설정하는 단계;
    (c) 상기 (a) 단계에서 구축된 RDF 지식베이스에서 데이터타입 속성을 제외하여 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하는 단계;
    (d) 상기 (b) 단계에서 설정된 객체속성만을 고려한 가중치와 상기 (c) 단계에서 추출한 데이터타입 속성을 제외한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성하는 단계; 및
    (e) 상기 (d) 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구하는 단계를 포함하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
  6. (A) RDF 지식베이스를 구축하는 단계;
    (B) RDF 지식베이스 스키마에서 클래스별로 객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정하는 단계;
    (C) 상기 (A) 단계에서 구축된 RDF 지식베이스에서 데이터타입 속성을 포함하여 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하는 단계;
    (D) 상기 (B) 단계에서 설정된 가중치에서 데이터속성을 제외한 객체속성에 대한 가중치를 재조정하는 단계;
    (E) 상기 (D) 단계에서 재조정된 가중치와 데이터타입 속성을 제외한 객체속성 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성하는 단계;
    (F) 상기 (E) 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하는 단계;
    (G) 상기 (C) 단계에서 추출한 데이터타입 속성 RDF 트리플의 속성값을 정규화하는 단계; 및
    (H) 상기 (F) 단계에서 계산한 제일 고유벡터에 의한 자원 중요도의 정규화값과 상기 (G) 단계에서 계산한 데이터타입 속성의 정규화값을 합산하여 자원 중요도 점수 벡터를 구하는 단계를 포함하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
  7. (가) RDF 지식베이스를 구축하는 단계;
    (나) RDF 지식베이스 스키마에서 클래스별로 객체속성과 데이터타입 속성에 대한 가중치의 합이 1이 되도록 설정하는 단계;
    (다) 상기 (가) 단계에서 구축된 RDF 지식베이스에서 데이터타입 속성을 포함하여 주어부, 서술부, 목적부의 세 부분으로 이루어지는 RDF 트리플을 추출하는 단계;
    (라) 상기 (다) 단계에서 추출한 데이터타입 속성 RDF 트리플에 대한 속성값을 정규화하고, 해당 링크의 가중치를 계산하는 단계;
    (마) 상기 (라) 단계에서 설정된 가중치와 상기 (다) 단계에서 추출한 RDF 트리플을 토대로 클래스 중심 속성 가중치 행렬을 생성하는 단계; 및
    (바) 상기 (마) 단계에서 생성된 클래스 중심 속성 가중치 행렬을 연산하여 제일 고유벡터를 계산하고, 자원 중요도 점수 벡터를 구하는 단계를 포함하는 것을 특징으로 하는 시맨틱 웹 자원의 랭킹처리방법.
KR1020080037877A 2008-04-23 2008-04-23 시맨틱 웹 자원의 랭킹처리방법 KR100963623B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020080037877A KR100963623B1 (ko) 2008-04-23 2008-04-23 시맨틱 웹 자원의 랭킹처리방법
US12/989,572 US20110040717A1 (en) 2008-04-23 2009-04-22 Process for ranking semantic web resoruces
PCT/KR2009/002116 WO2009131386A2 (ko) 2008-04-23 2009-04-22 시맨틱 웹 자원의 랭킹처리방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080037877A KR100963623B1 (ko) 2008-04-23 2008-04-23 시맨틱 웹 자원의 랭킹처리방법

Publications (2)

Publication Number Publication Date
KR20090112157A KR20090112157A (ko) 2009-10-28
KR100963623B1 true KR100963623B1 (ko) 2010-06-15

Family

ID=41217273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080037877A KR100963623B1 (ko) 2008-04-23 2008-04-23 시맨틱 웹 자원의 랭킹처리방법

Country Status (3)

Country Link
US (1) US20110040717A1 (ko)
KR (1) KR100963623B1 (ko)
WO (1) WO2009131386A2 (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126184A1 (ja) * 2007-03-16 2008-10-23 Fujitsu Limited 文書重要度算出プログラム
US9251157B2 (en) * 2009-10-12 2016-02-02 Oracle International Corporation Enterprise node rank engine
US9659265B2 (en) * 2009-10-12 2017-05-23 Oracle International Corporation Methods and systems for collecting and analyzing enterprise activities
US8793208B2 (en) 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
KR101081870B1 (ko) * 2009-12-18 2011-11-09 한국과학기술정보연구원 온톨로지 기반 인스턴스 식별 시스템 및 그 방법
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
KR100995861B1 (ko) * 2010-06-25 2010-11-23 한국과학기술정보연구원 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
AU2011201127A1 (en) * 2011-03-14 2012-10-04 Moxy Studios Pty Ltd Collaborative Knowledge Management
US9552352B2 (en) 2011-11-10 2017-01-24 Microsoft Technology Licensing, Llc Enrichment of named entities in documents via contextual attribute ranking
KR101259417B1 (ko) * 2011-11-17 2013-04-30 한국과학기술정보연구원 집단지성을 활용한 하이브리드형 유망기술 추출 시스템 및 방법
CN102662998B (zh) * 2012-03-14 2015-07-15 华侨大学 一种基于百度百科的文本语义主题抽取方法
US8747115B2 (en) * 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
KR101372580B1 (ko) * 2012-05-16 2014-03-13 주식회사 오비고 브라우저 ui를 제공하기 위한 방법, 단말 장치, 서버 및 컴퓨터 판독 가능한 기록 매체
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
US9229930B2 (en) * 2012-08-27 2016-01-05 Oracle International Corporation Normalized ranking of semantic query search results
JP5928248B2 (ja) * 2012-08-27 2016-06-01 富士通株式会社 評価方法、情報処理装置およびプログラム
US9535996B1 (en) 2012-08-30 2017-01-03 deviantArt, Inc. Selecting content objects for recommendation based on content object collections
US8898154B2 (en) 2012-09-19 2014-11-25 International Business Machines Corporation Ranking answers to a conceptual query
US10810245B2 (en) * 2013-01-17 2020-10-20 Adobe Inc. Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
US20150169701A1 (en) * 2013-01-25 2015-06-18 Google Inc. Providing customized content in knowledge panels
US9710568B2 (en) * 2013-01-29 2017-07-18 Oracle International Corporation Publishing RDF quads as relational views
US9836503B2 (en) 2014-01-21 2017-12-05 Oracle International Corporation Integrating linked data with relational data
CN104268215B (zh) * 2014-09-25 2017-06-06 北京理工大学 一种关联数据查询结果排序方法
US9703830B2 (en) * 2014-10-09 2017-07-11 International Business Machines Corporation Translation of a SPARQL query to a SQL query
US10282485B2 (en) 2014-10-22 2019-05-07 International Business Machines Corporation Node relevance scoring in linked data graphs
US9684699B2 (en) * 2014-12-03 2017-06-20 Sas Institute Inc. System to convert semantic layer metadata to support database conversion
WO2016094649A1 (en) * 2014-12-10 2016-06-16 Kyndi, Inc. Weighted subsymbolic data encoding
CN106250392A (zh) * 2016-07-15 2016-12-21 北京奇虎科技有限公司 数据排行的方法及装置
US10878058B2 (en) * 2017-06-16 2020-12-29 T-Mobile Usa, Inc. Systems and methods for optimizing and simulating webpage ranking and traffic
US11017038B2 (en) 2017-09-29 2021-05-25 International Business Machines Corporation Identification and evaluation white space target entity for transaction operations
KR102324196B1 (ko) * 2019-09-18 2021-11-11 주식회사 솔트룩스 지식 베이스 보강을 위한 시스템 및 방법
CN112132416A (zh) * 2020-09-02 2020-12-25 深圳市勘察研究院有限公司 基于PageRank算法的工程勘察质量精细化评价方法
CN113792344B (zh) * 2021-09-17 2024-06-04 平安国际智慧城市科技股份有限公司 数据的脱敏处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070037808A (ko) * 2005-10-04 2007-04-09 중앙대학교 산학협력단 자동화된 통합 프레임워크를 위한 확장된 시멘틱 웹 서비스검색방법
KR20080007740A (ko) * 2006-07-18 2008-01-23 제주대학교 산학협력단 웹 온톨로지 검색/분류 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100492785B1 (ko) * 2003-10-09 2005-06-07 한국전자통신연구원 온톨로지 모델의 처리 시스템 및 방법, 그 프로그램이기록된 기록매체
US8510321B2 (en) * 2006-08-03 2013-08-13 International Business Machines Corporation Information retrieval from relational databases using semantic queries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070037808A (ko) * 2005-10-04 2007-04-09 중앙대학교 산학협력단 자동화된 통합 프레임워크를 위한 확장된 시멘틱 웹 서비스검색방법
KR20080007740A (ko) * 2006-07-18 2008-01-23 제주대학교 산학협력단 웹 온톨로지 검색/분류 시스템 및 방법

Also Published As

Publication number Publication date
WO2009131386A2 (ko) 2009-10-29
WO2009131386A3 (ko) 2010-03-04
US20110040717A1 (en) 2011-02-17
KR20090112157A (ko) 2009-10-28

Similar Documents

Publication Publication Date Title
KR100963623B1 (ko) 시맨틱 웹 자원의 랭킹처리방법
Elmeleegy et al. Mashup advisor: A recommendation tool for mashup development
US7779001B2 (en) Web page ranking with hierarchical considerations
Menczer et al. Topical web crawlers: Evaluating adaptive algorithms
Göksedef et al. Combination of Web page recommender systems
KR101130533B1 (ko) 이종 관계에 기초하여 객체들의 유사성을 결정하기 위한방법 및 시스템
Pham et al. S3g2: A scalable structure-correlated social graph generator
Derhami et al. Applying reinforcement learning for web pages ranking algorithms
Mu et al. Query-focused personalized citation recommendation with mutually reinforced ranking
Prajapati A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining
US20170124206A1 (en) High precision set expansion for large concepts
An et al. A heuristic approach on metadata recommendation for search engine optimization
Kumar et al. A study on web structure mining
Yang et al. HNRWalker: recommending academic collaborators with dynamic transition probabilities in heterogeneous networks
Sangeetha et al. Page ranking algorithms used in Web Mining
Subhashini et al. A review on ontology ranking algorithms
JP2009211429A (ja) 情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体
Aggarwal et al. Improving the efficiency of weighted page content rank algorithm using clustering method
Bar-Yossef et al. Estimating the impressionrank of web pages
Bama et al. Improved pagerank algorithm for web structure mining
Lv et al. Text information retrieval based on concept semantic similarity
Saber et al. Google pagerank algorithm: using efficient damping factor
Chang et al. Authorrank: a new scheme for identifying field-specific key researchers
Lempel et al. Rank-stability and rank-similarity of web link-based ranking algorithms
Jiang et al. Applying associative relationship on the clickthrough data to improve web search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130531

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140609

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150601

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160204

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170524

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180521

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190520

Year of fee payment: 10