KR20080007740A - 웹 온톨로지 검색/분류 시스템 및 방법 - Google Patents

웹 온톨로지 검색/분류 시스템 및 방법 Download PDF

Info

Publication number
KR20080007740A
KR20080007740A KR1020060066759A KR20060066759A KR20080007740A KR 20080007740 A KR20080007740 A KR 20080007740A KR 1020060066759 A KR1020060066759 A KR 1020060066759A KR 20060066759 A KR20060066759 A KR 20060066759A KR 20080007740 A KR20080007740 A KR 20080007740A
Authority
KR
South Korea
Prior art keywords
ontology
web
domain
module
ranking
Prior art date
Application number
KR1020060066759A
Other languages
English (en)
Other versions
KR100800460B1 (ko
Inventor
김판구
공현장
황명권
박경린
Original Assignee
제주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제주대학교 산학협력단 filed Critical 제주대학교 산학협력단
Priority to KR1020060066759A priority Critical patent/KR100800460B1/ko
Publication of KR20080007740A publication Critical patent/KR20080007740A/ko
Application granted granted Critical
Publication of KR100800460B1 publication Critical patent/KR100800460B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 웹 온톨로지 검색/분류 시스템 및 그 방법에 대한 것으로서, 웹 데이터를 읽어들여 HTML로 구성된 웹페이지 구문을 분석하고 OWL 또는 RDF로 된 웹 온톨로지 파일을 수집하는 웹 페이지 크롤러, 수집된 온톨로지의 도메인을 파악하고 도메인과 온톨로지의 내용에 기반하여 분류하는 온톨로지 분류모듈, 상기 온톨로지 각각에 대한 내용에 의거하여 우선순위를 부여하고, 상기 부여된 순위와 온톨로지 도메인을 이용하여 온톨로지 분류를 위한 색인 온톨로지를 구축하는 랭킹 모듈, 및 상기 분류된 온톨로지와 부여된 랭킹에 따라 사용자의 질의에 해당하는 온톨로지 결과를 사용자에게 제공하는 온톨로지 검색모듈을 포함하며, 웹 온톨로지의 재사용성을 위해 웹의 곳곳에 산재되어 있는 온톨로지를 검색하고 분류하여, 온톨로지를 구축하고자 하는 경우에는 기존 작성된 온톨로지를 최대한 이용할 수 있게 된다.
온톨로지, HTML 파서, 온톨로지 파서, 랭킹 모듈, 색인 온톨로지

Description

웹 온톨로지 검색/분류 시스템 및 방법{System and method for retrieving/classifying web ontology}
도 1은 본 발명에 따른 웹 온톨로지 검색/분류 시스템의 구성 블록도이다.
도 2는 온톨로지의 도메인을 결정하기 위한 워드넷 계층 구조도이다.
도3은 본 발명에 따른 웹 온톨로지 검색/분류 시스템의 웹 페이지 크롤러에서 진행되는 흐름도이다.
도4는 본 발명의 웹 온톨로지의 도메인 선정 및 랭킹 부여를 위한 온톨로지 분류 모듈과 랭킹 모듈의 처리과정을 나타낸 흐름도이다.
도5는 본 발명의 웹 온톨로지 검색/분류 시스템에서 검색모듈의 처리과정을 나타낸 흐름도이다.
≪도면의 주요부분에 대한 부호의 설명≫
10 : 웹 페이지 크롤러 15 : HTML 파서
20 : 분류 모듈 25 : 온톨로지 파서
30 : 랭킹 모듈 40 : 검색 모듈
50 : 저장 모듈
본 발명은 웹 온톨로지 검색/분류 시스템 및 그 방법에 대한 것으로서, 더욱 상세하게는 웹 온톨로지를 검색하고 분류하여 이를 효율적으로 사용자에게 제공하기위한 것으로써, 웹상에 산재되어 있는 온톨로지를 수집하고 각각의 온톨로지 내용을 평가하여 온톨로지를 사용하고자 하는 사용자에게 온톨로지 사용을 적합하게 하는 웹 온톨로지 검색, 분류 시스템 및 그 방법에 대한 것이다.
기존의 웹이 온톨로지 기반의 메타 데이터에 의해 표현될 수 있는 시멘틱 웹으로 발전함에 따라 대량의 정보를 사람이 처리하던 것이 자동화된 에이전트를 통해 처리될 수 있는 방안이 고려되고 있다.
시멘틱 웹을 표현하기 위한 수단으로, RDF(Resource Description Format)가 표준으로 사용되고 있고, OWL(Web Ontology Language) 또한 RDF로 표현할 수 없는 어휘들을 수용하여 온톨로지들의 병합 및 추론을 위한 방법을 제공하기 위해 현재 표준으로 널리 사용되고 있다.
온톨로지를 표현할 수 있는 언어들에 대한 접근 방법, 및 처리방법에 대한 연구가 필요함에 따라, 대개 온톨로지 언어로 표현된 문서를 접근하고 처리하는 방법은 XML 데이터 모델을 이용하여 RDF, DAML-OIL, OWL에 대한 시멘틱 정보를 표현하고 있다.
통상적으로 온톨로지는 용어를 정의하고 용어 사이의 관계를 정의하고 있는 일종의 사전과도 같은 것으로써, 컴퓨터와 컴퓨터 사이에서 의사소통이 이루어질때, 주고 받는 메시지에 담긴 의미를 컴퓨터가 이해할 수 있도록 도와준다.
웹 온톨로지를 이용하면, 인터넷상에서 검색을 할때 찾고자 하는 의미에 맞는 내용을 찾을수 있고, 기계가 스스로 정보를 이해하고 처리함으로써 자동으로 전자상거래가 이루어지는 것도 가능해진다.
한국공개특허공보 10-2005-34475호에 의하면, 서로 다른 온톨로로지 언어에 대해 각각의 필요한 어휘들만을 하나의 온톨로지 객체 모델로 생성하여 각 온톨로지 언어 사이에서 손실되는 정보를 없애고 각 온톨로지 언어에서 제공되는 어휘에 대한 정보를 모두 수용하여 온톨로지 저작과 병합 그리고 추론을 지원하는 온톨로지 모델의 처리 시스템과 방법이 개시되어 있다.
또한, 한국공개특허공보 10-2005-46973호에는 웹 온톨로지의 저장, 관리를 위한 데이터베이스와의 연계 기술을 제안하고 있다.
그러나, 종래 기술에서 웹에서의 정보 검색에는 문서 검색이나 이미지 검색등과 같은 검색 시스템에 대한 많은 방법이 제안되고 구현되어 사용되어지고 있지만, 온톨로지에 대한 검색과 분류의 기능을 지원하지 못하고 사용자의 온톨로지의 효율적 재사용을 지원하기 위한 온톨로지 검색 및 분류는 제안하지 못하는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 웹 온톨로지의 검색과 분류를 통하여 이를 사용자가 효율적으로 재사용할 수 있도록 하는 시스템과 방법을 제공하며, 온톨로지의 내용에 대한 정확한 도메인을 파악하고 각 온톨로지 개념정의의 정확성, 구성의 일치성 등의 내용상의 충실성을 평가하여 궁 극적으로 사용자가 원하는 가장 적합한 온톨로지를 제공하기 위한 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 웹 온톨로지 검색/분류 시스템은, 웹 데이터를 읽어들여 HTML로 구성된 웹페이지 구문을 분석하고 OWL 또는 RDF로 된 웹 온톨로지 파일을 수집하는 웹 페이지 크롤러, 수집된 온톨로지의 도메인을 파악하고 도메인과 온톨로지의 내용에 기반하여 분류하는 온톨로지 분류모듈, 상기 온톨로지 각각에 대한 내용에 의거하여 우선순위를 부여하고, 상기 부여된 순위와 온톨로지 도메인을 이용하여 온톨로지 분류를 위한 색인 온톨로지를 구축하는 랭킹 모듈, 및 상기 분류된 온톨로지와 부여된 랭킹에 따라 사용자의 질의에 해당하는 온톨로지 결과를 사용자에게 제공하는 온톨로지 검색모듈을 포함한다.
또한, 본 발명에 따른 웹 온톨로지 검색/분류 시스템에 있어서, 상기 웹 페이지 크롤러는 HTML 파서를 포함하여 상기 읽어들인 웹페이지에서 HTML 구문을 분석하여 확장자가 owl 또는 rdf인 구문을 파악하고, 파악된 구문의 링크를 따라 최종 웹에 산재되어 있는 온톨로지를 찾아 온톨로지 수집을 수행하는 것을 특징으로 하는 것이다.
또한, 본 발명에 따른 웹 온톨로지 검색/분류 시스템에 있어서, 상기 온톨로지 분류모듈에서는 상기 웹 페이지 크롤러를 통하여 수집된 온톨로지가 포함하고 있는 개념들과 계층구조, 관계를 분석하고 온톨로지가 기술하고 있는 도메인을 판단하는 온톨로지 파서를 포함하는 것을 특징으로 하는 것이다.
또한, 본 발명에 따른 웹 온톨로지 검색/분류 시스템에 있어서, 상기 온톨로지 분류 모듈과 랭킹 모듈은 분석된 웹 온톨로지의 개념, 구조, 관계를 워드넷의 개념들과 매칭하여 각각 도메인과 랭킹을 결정하는 것을 특징으로 하는 것이다.
또한, 본 발명에 따른 웹 온톨로지 검색/분류 시스템에 있어서, 상기 온톨로지 분류 모듈과 랭킹 모듈에 의하여 결정된 도메인과 랭킹에 따라 구축된 색인 온톨로지를 저장하는 저장 모듈을 더 포함하는 것을 특징으로 하는 것이다.
한편, 본 발명에 따른 웹 온톨로지 검색/분류 방법은, (a)웹을 통하여 수집된 웹 페이지들을 분석하여 웹 온톨로지를 판단하는 단계, (b)웹 온톨로지가 포함하는 개념들과 계층구조 및 관계를 분석하는 단계, (c)상기 분석된 개념들을 워드넷과 매칭하여 웹 온톨로지의 도메인 개념을 결정하는 단계, (d)워드넷에서 정의된 개념들의 정의 및 관계를 이용하여 웹 온톨로지의 랭킹을 결정하는 단계, 및 (e)사용자가 질의한 개념과 일치하는 웹 온톨로지를 순위별로 제공하는 단계를 포함한다.
또한, 본 발명에 따른 웹 온톨로지 검색/분류 방법에 있어서, 상기 (c), (d) 단계는, 온톨로지 크롤러에 의해서 수집된 온톨로지를 로드하는 단계, 도메인 선정 알고리즘에 의하여 온톨로지 도메인을 선정하는 단계, 도메인 기반에 따른 색인 온톨로지를 구축하는 단계, 랭킹모듈에서 온톨로지가 표현하고 있는 내용을 분석하여 워드넷 정보와 개념간의 유사도를 비교하는 단계, 및 상기 내용 분석 결과에 의거하여 온톨로지 랭킹을 부여하고 색인 온톨로지를 확장하는 단계를 포함하는 것을 특징으로 하는 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.
도 1은 본 발명에 따른 웹 온톨로지 검색/분류 시스템의 구성 블록도이다.
도1을 참조하면, 본 발명에 따른 웹 온톨로지 검색/분류 시스템은 웹 페이지 크롤러(10), 온톨로지 분류모듈(20), 온톨로지 랭킹모듈(30), 온톨로지 검색모듈(40)을 포함하며, 시스템 환경은 웹 환경에 적합하다.
도1에서, 웹 페이지 크롤러(10)는 웹 데이터를 읽어들여서 HTML로 구성된 웹페이지 구문을 분석하여 OWL 또는 RDF로 된 웹 온톨로지 파일을 수집한다.
상기 수집된 온톨로지는 온톨로지 분류모듈(20)을 거쳐 온톨로지의 도메인이 파악되고 도메인과 온톨로지의 내용에 기반하여 분류된다.
이렇게 분류된 온톨로지는 온톨로지 랭킹모듈(30)에서 각각 온톨로지에 대한 내용에 의거하여 우선순위를 부여하고, 이렇게 부여된 순위와 온톨로지 도메인을 이용하여 온톨로지 분류를 위한 색인 온톨로지를 구축한다.
상기 분류된 온톨로지와 부여된 랭킹에 따라 각각의 온톨로지는 검색 모듈(40)에서 사용자의 질의에 해당하는 온톨로지 결과를 사용자에게 제공한다.
이러한 방식으로 웹에 산재되어 있는 온톨로지는 수집되고, 분류된 후 효율적으로 사용자에게 제공된다.
여기에서, 상기 온톨로지 검색/분류 시스템은 상기 온톨로지 분류 모듈(20)과 랭킹 모듈(30)에 의하여 결정된 도메인과 랭킹에 따라 구축된 색인 온톨로지를 저장하는 저장 모듈(50)을 더 포함한다.
본 발명에 따른 온톨로지 검색/분류 시스템에서, 상기 온톨로지 크롤러(10)는 웹에 있는 모든 OWL/RDF(S) 온톨로지를 저장 모듈(Repository, 20)로 가져오는 핵심적인 역할을 한다.
상기 OWL/RDF(S) 온톨로지를 가져오기 위해서는 먼저 HTML 문서를 분석한다.
따라서, 온톨로지 크롤러(10) 내부에는 HTML 파서(15)가 있고, HTML 문서내의 링크 중에서 웹 페이지로 파악된 문서는 링크 저장 큐(Link Saving Queue)에 저장하고, 분석을 완료한 웹 페이지나 온톨로지와 상관없는 문서는 폐기한다.
그리고, 링크된 문서의 헤더분석을 통해 OWL/RDF(S) 온톨로지로 파악된 문서들은 분류모듈(20)로 보내진다.
분류모듈(20)은 크롤러(10)를 통해 웹에서 가져온 온톨로지를 분석하여 해당 도메인을 파악한다.
온톨로지가 정의하고 있는 개념들을 분석하기 위해 상기 분류모듈(20)에는 OWL/RDF(S) 온톨로지를 분석하는 온톨로지 파서(25)가 있고, 파악된 개념들을 워드넷의 개념들과 매칭을 시킨다.
여기에서, 워드넷은 범용의 대형 온톨로지로서 미국의 프린스턴 대학(Princeton University)에서 개발되었고, 42,000개 이상의 어휘에 대해 정의하고 있다. 특히, 각 어휘에 대한 유의어, 반의어, 상/하위어에 대해 상세히 기술되어 있다.
온톨로지의 도메인 개념을 파악하는 수식은 다음과 같다.
Figure 112006050758780-PAT00001
(수식 1)
위의 수식은 Resnik 방식으로, 온톨로지의 도메인 개념을 모두 포함하는 워드넷의 최소상위개념을 찾기 위한 수식이다.
도 2는 위 수식을 이용하여 온톨로지의 도메인을 결정하기 위한 워드넷 계층 구조의 개략도이다.
도2와 같이 워드넷 내의 개념 중에서 온톨로지에 정의된 모든 개념들을 포함하는 최소의 상위개념을 상기 수식을 적용하여 추출함으로써 도메인을 결정한다.
이런 방식으로 도메인이 파악되면 온톨로지 저장모듈(50)로 온톨로지가 전달이 되고, 각 온톨로지들에 대한 색인(Index)을 위해 색인 온톨로지를 새롭게 구축한다.
색인 온톨로지는 워드넷과 개념 및 계층 구조가 같고, 속성은 "hasURI"와 "hasConsistency"를 갖고 있으며, 분류모듈(20)에서 분석된 도메인 온톨로지는 "hasURI"의 값인 온톨로지의 위치와 함께 색인 온톨로지 개념의 인스턴스로 저장되고, 그런 다음 랭킹모듈(30)로 분류된 도메인 온톨로지가 전달된다.
특정 도메인으로 분류된 온톨로지라 할지라도 그 내용의 완전성은 차이가 있다. 동일 도메인에 두개 이상의 온톨로지가 정의되어 있을 때, 검색 시에 순위를 부여함으로써 더 향상된 정보제공을 할 수 있다.
본 시스템에서는 워드넷 내에 일치하는 도메인의 개념들을 기준으로 도메인 온톨로지가 개념들을 얼마나 체계적으로 잘 정의하고 있는지 Jaccard 유사도 측정 수식을 사용하여 유사도를 측정하였다.
아래표는 도메인이 'automobile'인 온톨로지를 워드넷의 'car'도메인과 매칭한 결과이다.
car sedan bus wagon taxi ...
automobile 1 0.20 0.20 0.20 0
sedan 0.20 1 0 0 0
bus 0.20 0 1 0 0
cab 0.20 0 0 0 1
상기 표의 결과를 이용하여 일치하는 개념들만을 이용하여 다시 Jaccard 유사도 수식을 통해 수치 계산한다.
본 발명의 시스템은 유사도 측정을 위해 Jaccard 수식을 이용하였다. 본 수식은 개념들의 유사도 측정이 용이하고, 가장 보편적으로 사용되고 있다.
Figure 112006050758780-PAT00002
(수식 2)
Jaccard 수식은 최소 0과 최대 1 사이의 값을 갖으며, 0은 두 개념이 서로 전혀 연관이 없음을 의미하고, 1은 두 개념이 서로 동의어임을 나타낸다.
그리고 그 값을 색인 온톨로지의 각 개념에 대한 속성인 "hasConsistency"의 값으로 입력한다.
상기 표의 결과에 대하여 Jaccard 유사도 측정 수식을 이용하면, 워드넷의 'car'도메인에는 41개의 개념이 포함되어 있고, 'automobile' 온톨로지와 4개가 일치하므로 hasConsistency의 값은 약 0.10이 저장된다.
검색모듈(40)은 상기 설명한 과정을 통해 도메인으로 분류된 온톨로지들을 검색하는 부분이다.
사용자가 원하는 도메인 개념을 입력받아 워드넷과 매칭을 시키게 된다.
워드넷에는 모든 개념들의 Synset_ID를 갖는데, Synset_ID가 동일하다는 것은 동의어를 의미한다.
사용자가 입력한 개념에 해당하는 Synset_ID를 통해 동의어들을 파악하고, 이들 중 대표개념을 이용하여 색인 온톨로지를 검색한다.
색인 온톨로지는 워드넷의 대표개념들을 이용하여 상/하위 계층구조를 갖고 있고, 각 도메인 온톨로지의 주소는 도메인 개념의 인스턴스로 생성되어 있다. 생성된 인스턴스들은 자신의 주소와 완전성의 정도를 수치로 포함하고 있는데, 검색 결과는 인스턴스 이름, 주소, 그리고 정확성을 이용하여 우선순위에 따라 검색된 온톨로지들을 보여준다.
이제, 본 발명에 따른 웹 온톨로지 검색/분류 방법에 대하여 상세하게 설명한다.
본 발명에 따른 웹 온톨로지 검색/분류 방법은, 웹을 통하여 수집된 웹 페이지들을 분석하여 웹 온톨로지를 판단하는 단계, 웹 온톨로지가 포함하는 개념들과 계층구조 및 관계를 분석하는 단계, 상기 분석된 개념들을 워드넷과 매칭하여 웹 온톨로지의 도메인 개념을 결정하는 단계, 워드넷에서 정의된 개념들의 정의 및 관계를 이용하여 웹 온톨로지의 랭킹을 결정하는 단계, 및 사용자가 질의한 개념과 일치하는 웹 온톨로지를 순위별로 제공하는 단계를 포함한다.
도3은 본 발명에 따른 웹 온톨로지 검색/분류 시스템의 웹 페이지 크롤러(10)에서 진행되는 흐름도이다.
도3을 참조하면, 본 발명에 따른 웹 온톨로지 검색 및 분류 방법에 있어서, 웹에 산재되어 있는 온톨로지를 수집하는 순서도를 보여주고 있다.
본 발명에 따른 웹 온톨로지 수집에서, 수집된 웹 페이지는 HTML 파서(15)에 의해, HTML구문을 분석하여 .owl 과 .rdf 의 구문이 파악된다(S31, S32).
이때, .owl 과 .rdf 의 구문이 존재하지 않는 경우에는 시스템에서는 웹 온톨로지에 대한 정보를 처리하지 않는다.
그리고, 상기 파악된 구문의 링크를 따라 최종 웹에 산재되어 있는 온톨로지를 찾게 되고, 웹 페이지 크롤러(10)는 지속적으로 웹 페이지를 분석하고 관련 구문에 대하여 링크들을 순회하면서 온톨로지 수집을 수행한다(S33).
이때, 찾아서 수집되는 온톨로지가 시스템에 이미 존재하는지를 판단하여(S34), 시스템에 이미 저장되어 존재하는 온톨로지인 경우에는 온톨로지에 대한 저장을 하지 않으며, 새롭게 수집되는 온톨로지에 대해서만 온톨로지로서 저장이 된다(S35).
도4는 본 발명의 웹 온톨로지의 도메인 선정 및 랭킹 부여를 위한 온톨로지 분류 모듈(20)과 랭킹 모듈(30)의 처리과정을 나타낸 흐름도이다.
도4를 참조하면, 온톨로지 크롤러(10)에 의해서 수집된 온톨로지를 로드하 고, 도메인 선정 알고리즘에 의하여 수집된 온톨로지들은 가장 먼저 온톨로지 분류모듈(30)에 의해 각 온톨로지의 도메인이 선정된다(S41, S42).
이때 사용되는 온톨로지에 대한 도메인 선정 알고리즘은 상기 수식1과 같다.
상기 수식1을 이용하여 온톨로지의 대표 주제인 도메인이 선정되며, 이렇게 선정된 도메인에 기반하여 각각의 온톨로지는 새롭게 색인 온톨로지로 구축되어 관리된다(S43).
랭킹모듈(30)에서는 온톨로지가 표현하고 있는 내용을 분석하여 워드넷 정보와 개념간의 유사도를 비교한다(S44).
수집된 온톨로지들은 온톨로지 랭킹 모듈(30)에 의해 온톨로지가 표현하고 있는 내용을 분석하여 온톨로지의 내용이 평가되고, 이렇게 평가된 기준에 의거하여 각각의 온톨로지에 랭킹이 부여된다(S45).
도4의 과정에서 수집된 온톨로지는 온톨로지 분류 모듈(20)과 랭킹모듈(30)을 거쳐, 온톨로지의 내용이 분석된 후, 분석된 도메인과 랭킹을 표현하는 온톨로지 관리를 위한 색인 온톨로지를 구축하여 확장된다(S46).
이후, 사용자에게 색인 온톨로지에 기반한 효율적인 온톨로지 제공이 가능하다.
도5는 본 발명의 웹 온톨로지 검색/분류 시스템에서 검색모듈의 처리과정을 나타낸 흐름도이다.
도5를 참조하면, 검색모듈(40)에서는 사용자가 원하는 도메인 개념을 입력 받아(S51), 사용자가 입력한 개념과 동일한 위드넷의 개념에 해당하는 동일 도메인을 검색한다(S52).
이때, 해당되는 도메인을 시스템에서 찾을 수 없는 경우에는 온톨로지 검색이 실패로 결정된다(S53).
상기 동일 도메인이 파악되어 검색되는 경우에는 색인 온톨로지를 순회함으로써, 검색된 도메인들에 부여된 랭킹을 파악하고, 사용자의 질의에 해당하는 온톨로지 검색결과를 랭킹 순위에 의거하여 사용자에게 제공한다.(S54, S55).
이상에서 본 발명은 기재된 구체적인 실시예에 대해서만 상세히 설명되었지만 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.
상술한 바와 같이, 본 발명에 따른 온톨로지 검색/분류 시스템과 방법은 웹 온톨로지의 재사용성을 위해 웹의 곳곳에 산재되어 있는 온톨로지를 검색하거나 분류하고, 온톨로지를 구축하고자 하는 경우에는 기존 작성된 온톨로지를 최대한 이용할 수 있게 된다.

Claims (7)

  1. 웹 데이터를 읽어들여 HTML로 구성된 웹페이지 구문을 분석하고 OWL 또는 RDF로 된 웹 온톨로지 파일을 수집하는 웹 페이지 크롤러;
    수집된 온톨로지의 도메인을 파악하고 도메인과 온톨로지의 내용에 기반하여 분류하는 온톨로지 분류모듈;
    상기 온톨로지 각각에 대한 내용에 의거하여 우선순위를 부여하고, 상기 부여된 순위와 온톨로지 도메인을 이용하여 온톨로지 분류를 위한 색인 온톨로지를 구축하는 랭킹 모듈; 및
    상기 분류된 온톨로지와 부여된 랭킹에 따라 사용자의 질의에 해당하는 온톨로지 결과를 사용자에게 제공하는 온톨로지 검색모듈을 포함하는 웹 온톨로지 검색/분류 시스템.
  2. 제 1 항에 있어서,
    상기 웹 페이지 크롤러는 HTML 파서를 포함하여 상기 읽어들인 웹페이지에서 HTML 구문을 분석하여 확장자가 owl 또는 rdf인 구문을 파악하고, 파악된 구문의 링크를 따라 최종 웹에 산재되어 있는 온톨로지를 찾아 온톨로지 수집을 수행하는 것을 특징으로 하는 웹 온톨로지 검색/분류 시스템.
  3. 제 1 항에 있어서,
    상기 온톨로지 분류모듈에는 상기 웹 페이지 크롤러를 통하여 수집된 온톨로지가 포함하고 있는 개념들과 계층구조, 관계를 분석하고 온톨로지가 기술하고 있는 도메인을 판단하는 온톨로지 파서를 포함하는 것을 특징으로 하는 웹 온톨로지 검색/분류시스템.
  4. 제 1 항에 있어서,
    상기 온톨로지 분류 모듈과 랭킹 모듈은 분석된 웹 온톨로지의 개념, 구조, 관계를 워드넷의 개념들과 매칭하여 각각 도메인과 랭킹을 결정하는 것을 특징으로 하는 웹 온톨로지 검색/분류 시스템.
  5. 제 1 항에 있어서,
    상기 온톨로지 분류 모듈과 랭킹 모듈에 의하여 결정된 도메인과 랭킹에 따라 구축된 색인 온톨로지를 저장하는 저장 모듈을 더 포함하는 것을 특징으로 하는 웹 온톨로지 검색/분류 시스템.
  6. (a)웹을 통하여 수집된 웹 페이지들을 분석하여 웹 온톨로지를 판단하는 단계;
    (b)웹 온톨로지가 포함하는 개념들과 계층구조 및 관계를 분석하는 단계;
    (c)상기 분석된 개념들을 워드넷과 매칭하여 웹 온톨로지의 도메인 개념을 결정하는 단계;
    (d)워드넷에서 정의된 개념들의 정의 및 관계를 이용하여 웹 온톨로지의 랭킹을 결정하는 단계; 및
    (e)사용자가 질의한 개념과 일치하는 웹 온톨로지를 순위별로 제공하는 단계를 포함하는 웹 온톨로지 검색/분류 방법.
  7. 제 6 항에 있어서,
    상기 (c), (d) 단계는,
    온톨로지 크롤러에 의해서 수집된 온톨로지를 로드하는 단계;
    도메인 선정 알고리즘에 의하여 온톨로지 도메인을 선정하는 단계;
    도메인 기반에 따른 색인 온톨로지를 구축하는 단계;
    랭킹모듈에서 온톨로지가 표현하고 있는 내용을 분석하여 워드넷 정보와 개념간의 유사도를 비교하는 단계; 및
    상기 내용 분석 결과에 의거하여 온톨로지 랭킹을 부여하고 색인 온톨로지를 확장하는 단계를 포함하는 것을 특징으로 하는 웹 온톨로지 검색/분류 방법.
KR1020060066759A 2006-07-18 2006-07-18 웹 온톨로지 검색/분류 시스템 및 방법 KR100800460B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060066759A KR100800460B1 (ko) 2006-07-18 2006-07-18 웹 온톨로지 검색/분류 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060066759A KR100800460B1 (ko) 2006-07-18 2006-07-18 웹 온톨로지 검색/분류 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20080007740A true KR20080007740A (ko) 2008-01-23
KR100800460B1 KR100800460B1 (ko) 2008-02-04

Family

ID=39220791

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060066759A KR100800460B1 (ko) 2006-07-18 2006-07-18 웹 온톨로지 검색/분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100800460B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009131386A2 (ko) * 2008-04-23 2009-10-29 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
KR101069207B1 (ko) * 2008-12-15 2011-09-30 한국과학기술원 전자 문서에 의미 정보를 부착하는 시스템 및 방법
KR101137153B1 (ko) * 2010-02-25 2012-04-19 주식회사 케이티 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법
CN101340463B (zh) * 2008-08-22 2012-04-25 深圳市迅雷网络技术有限公司 一种确定网络资源类型的方法和装置
KR101229401B1 (ko) * 2010-12-23 2013-02-05 전남대학교산학협력단 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
CN103279458A (zh) * 2013-02-22 2013-09-04 电子科技大学 一种领域本体的构建及实例化方法
KR101444832B1 (ko) * 2010-08-09 2014-09-30 충북대학교 산학협력단 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법
CN105528204A (zh) * 2015-01-27 2016-04-27 北京理工大学 领域本体的构建方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101301077B1 (ko) * 2011-01-14 2013-09-03 경북대학교 산학협력단 온톨로지 정렬 방법 및 이를 적용한 온톨로지 정렬 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067224A (ja) 1999-08-25 2001-03-16 Fujitsu Ltd オントロジ構築装置およびオントロジ構築プログラム記憶媒体
KR100643979B1 (ko) * 2000-05-18 2006-11-13 엘지전자 주식회사 인터넷을 이용한 정보검색 결과 제공방법
KR100433584B1 (ko) * 2000-12-12 2004-06-04 한국전자통신연구원 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법
KR100551689B1 (ko) * 2003-11-15 2006-02-13 한국전자통신연구원 웹 온톨로지 저장/관리 시스템 및 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009131386A2 (ko) * 2008-04-23 2009-10-29 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
WO2009131386A3 (ko) * 2008-04-23 2010-03-04 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
KR100963623B1 (ko) * 2008-04-23 2010-06-15 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
CN101340463B (zh) * 2008-08-22 2012-04-25 深圳市迅雷网络技术有限公司 一种确定网络资源类型的方法和装置
KR101069207B1 (ko) * 2008-12-15 2011-09-30 한국과학기술원 전자 문서에 의미 정보를 부착하는 시스템 및 방법
KR101137153B1 (ko) * 2010-02-25 2012-04-19 주식회사 케이티 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법
KR101444832B1 (ko) * 2010-08-09 2014-09-30 충북대학교 산학협력단 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법
KR101229401B1 (ko) * 2010-12-23 2013-02-05 전남대학교산학협력단 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
CN103279458A (zh) * 2013-02-22 2013-09-04 电子科技大学 一种领域本体的构建及实例化方法
CN105528204A (zh) * 2015-01-27 2016-04-27 北京理工大学 领域本体的构建方法和装置

Also Published As

Publication number Publication date
KR100800460B1 (ko) 2008-02-04

Similar Documents

Publication Publication Date Title
US11776084B2 (en) Patent mapping
KR100800460B1 (ko) 웹 온톨로지 검색/분류 시스템 및 방법
US9659071B2 (en) Patent mapping
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
EP1988476B1 (en) Hierarchical metadata generator for retrieval systems
US8473473B2 (en) Object oriented data and metadata based search
Fortuna et al. Semi-automatic data-driven ontology construction system
Sleiman et al. Tex: An efficient and effective unsupervised web information extractor
Liu et al. Configurable indexing and ranking for XML information retrieval
CN102609512A (zh) 异构信息知识挖掘与可视化分析系统及方法
US20160041975A1 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
Sivakumar Effectual web content mining using noise removal from web pages
AU2013270517B2 (en) Patent mapping
EP1774432A2 (en) Patent mapping
Zhao et al. Forestry big data platform by Knowledge Graph
CN114443928A (zh) 一种网络文本数据爬虫方法与系统
KR102096328B1 (ko) 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Beniwal et al. Data mining with linked data: past, present, and future
Fudholi et al. Code (common ontology development): A knowledge integration approach from multiple ontologies
Chen et al. CDTC: Automatically establishing the trace links between class diagrams in design phase and source code
Lomotey et al. Terms analytics service for CouchDB: a document-based NoSQL
Lehtonen Preparing heterogeneous XML for full-text search
Cross et al. Automatic ontology creation using adaptation
Marin-Castro et al. VR-Tree: A novel tree-based approach for modeling Web Query Interfaces

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130103

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131213

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160112

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170103

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180105

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190116

Year of fee payment: 12