KR100794302B1 - 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법 - Google Patents

의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법 Download PDF

Info

Publication number
KR100794302B1
KR100794302B1 KR1020050092852A KR20050092852A KR100794302B1 KR 100794302 B1 KR100794302 B1 KR 100794302B1 KR 1020050092852 A KR1020050092852 A KR 1020050092852A KR 20050092852 A KR20050092852 A KR 20050092852A KR 100794302 B1 KR100794302 B1 KR 100794302B1
Authority
KR
South Korea
Prior art keywords
information
search
semantic
module
document
Prior art date
Application number
KR1020050092852A
Other languages
English (en)
Other versions
KR20070037809A (ko
Inventor
최옥경
한상용
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020050092852A priority Critical patent/KR100794302B1/ko
Publication of KR20070037809A publication Critical patent/KR20070037809A/ko
Application granted granted Critical
Publication of KR100794302B1 publication Critical patent/KR100794302B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색시스템과 정보검색방법에 관한 것으로, 사용자가 입력한 검색정보의 입력단어를 확인하는 검색정보 분석모듈과, 상기 검색정보 분석모듈을 통해 분석된 결과에 따라 해당 입력단어의 동음어 또는 동의어를 확인하고 다수의 동음어가 존재할 경우 해당 동음어들 중 사용자가 요구하는 입력단어를 확인받기 위한 재질의문을 완성하는 정보검색모듈로 된 e-엔진 온톨로지 서버; 상기 정보검색모듈이 재질의를 통해 확인한 입력단어와 이 입력단어의 동의어와 관련한 정보를 일반 웹 검색사이트를 통해 검색하는 검색모듈을 구비한 인터페이스 매니지먼트 서버; 단어 정보 및 웹 페이지 정보를 저장하는 저장모듈과, 상기 정보검색모듈이 검색한 입력단어 또는 문장 속 입력단어와 이 입력단어들의 동의어를 상기 저장모듈에서 검색하는 RQL 시멘틱 검색모듈을 구비한 컨텐츠 DB 서버; 및 상기 정보검색모듈이 검색한 정보 및 상기 RQL 시멘틱 검색모듈이 검색한 정보를 사용자의 상기 검색정보에 근접한 순위로 분류하여 그 결과를 상기 인터페이스 매니지먼트 서버를 통해 사용자에게 전송하고, 상기 컨텐츠 DB 서버에 저장하는 자동분류모듈을 구비한 시멘틱 매니지먼트 서버;로 이루어진 것이다.

Description

의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색시스템과 정보검색방법{Information query system based semantic web and searching method thereof}
도 1은 시멘틱 웹의 전체적인 구조를 도시한 블록도이고,
도 2는 본 발명에 따른 정보검색시스템의 구성을 도시한 블록도이고,
도 3은 도 2에 도시된 정보검색시스템의 상세 구성을 도시한 블록도이고,
도 4는 본 발명에 따른 e-엔진 온톨로지 서버의 구성을 도시한 블록도이고,
도 5는 XML 문서와 RDF 문서를 분리해서 Semantic Distance 값을 측정한 것을 비교 분석한 모습을 도시한 도면이고,
도 6은 본 발명에 따른 정보검색방법을 순차 도시한 플로우차트이고,
도 7은 본 발명에 따른 정보검색시스템 및 정보검색방법의 실험예에서 검색한 웹페이지의 검색결과물들을 기재한 리스트이고,
도 8은 본 발명에 따른 정보검색시스템 및 정보검색방법의 실험예에서 단계별로 진행되는 검색방법의 순서를 예시한 도면이고,
도 9는 본 발명에 따른 정보검색시스템 및 정보검색방법의 실험예의 결과를 확인할 수 있는 리스트이다.
본 발명은 의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색시스템과 정보검색방법에 관한 것이다.
현재 대부분의 웹정보는 HTML(HyperText Markup Language)을 사용한 자료로 인간의 소비를 전제로 개발되었다. 반면에 시멘틱(Semantic)은 문서의 의미를 지정하는 역할이며 여기서 시멘틱 웹이란 인간뿐만 아니라 기계도 정보를 이해할 수 있도록 하는 고수준의 자동화 및 지능화 기술이다. 기계가 정보를 인식하여 처리하기 위해서는 가공되지 않은 원래의 데이터로 분해 후 재처리가 필요한데, 시멘틱 웹은 웹상에 존재하는 데이터들을 컴퓨터 판독이 용이하게 표현하고 데이터 간의 연관관계를 체계적으로 정의하여 전자상거래를 비롯한 다양한 응용영역에서 자동화되고 통합화된 데이터의 공유를 제공한다.
도 1은 시멘틱 웹의 전체적인 구조를 표시하고 있다. 최하위 Unicode, URL 부분은 기본적인 웹 리소스 레이어이다. 그 위 XML + NS + xmlschema 부분은 컴퓨터 판독이 용이한 XML을 사용하여 임의의 문서구조를 지정하여 데이터의 구문론적 구조를 나타내는 레이어이다.
RDF + rdfschema 부분은 의미(semantic)를 나타내는 데이터에 대한 추론을 가능하게 하는 레이어이다. 온톨로지(Ontology)는 용어사이의 관계를 정의하고 있는 일종의 사전과 같은 것으로서, 상기 RDF 스키마(rdfschema)는 개체와 속성사이의 관계성을 정의하고 있는 일종의 온톨로지를 표현하는 것이다.
계속해서, Logic, Proof, Trust 레이러를 통하여 검증되고 논리적인 규칙성을 갖는 웹을 표현하며, Digital Signature 레이어를 통하여 보안 관련 문제를 해결할 수 있다.
상기 온톨로지는 현재 많은 응용분야에서 필수적인 요소로 대두되고 있다. 현재 에이전트 시스템이나 지식 베이스 시스템, 전자상거래 플랫폼에서 사용되고 있는 온톨로지는 차세대 웹인 시멘틱 웹의 발전을 더욱더 증진시킬 것으로 기대된다. 시멘틱 웹의 정의를 기계가 이해할 수 있는 개념화된 구조적 웹이라고 본다면, 온톨로지는 공통된 개념들 속에서 기계가 이해할 수 있는 스펙들의 집합이라고 정의할 수 있다.
지난 몇 년간 온톨로지 관련 언어는 계속 발전해 왔으며, XML 구문을 바탕으로 한 XOL(Ontology Exchange Language), SHOE(Simple HTML Ontology Extension), OML(Ontology Interface Layer), DAML + OIL(DARPA Agent Makup Language + OIL) 등이 있다.
RDF는 웹 자원의 실체를 기술하기 위한 표준 모형을 제시하며 이는 데이터에 대한 해석을 가능하게 해준다. 또한 RDF 스키마는 해석의 가능성을 확장시켜 데이터의 기계처리가 가능한 의미에 기반한 자동화된 정보 접근과 메타데이터를 이용한 휴리스틱의 제공을 확장시켰다. 그러나, 시멘틱 웹의 기술실현을 위해서는 RDF는 데이터의 의미의 집중적인 분석과 확장이 필요했다. 따라서 RDF가 가지고 있는 부족한 면을 만족시킬 수 있는 DAML-OIL과 같은 의미부여언어가 등장하게 되었다.
DAML-OIL 언어는 RDF 스키마의 프리미티브이고 정형적인 의미에 대한 새로운 모델링을 추가한 방식으로, RDF와 RDF 스키마를 기반으로 이 두 언어에 부족한 모델링 요소를 확장, 강화하여 개발한 시멘틱 웹 마크업 언어이다. 특징으로는 메타데이터 의미적 호환성의 근간이 되는 RDF 스키마에 동의요소, 역관계, union, intersection 등의 다양한 표현력을 부가하여 논리적 추론이 가능한 온톨로지 구축이 용이하다.
SHOE는 HTML의 확장형태로 웹페이지에 필요한 태그들을 추가하여 의미정보를 부가한다. SHOE Ontology, SHOE Inference, SHOE Instance로 구성되며 사용하기 쉽고 온톨로지를 공유함으로써 웹 사용자들 간의 상호 운용성을 제공해 주는 장점이 있다. 그러나 DAML-OIL처럼 추상클래스, 다중상속, 제약조건 등과 같은 기능을 제공하지 않는 등 다른 온톨로지 언어에 비해 발전속도가 늦어지고 있는 실정이다. SHOE는 Knowledge Annotator, Expose, Knoledg Base, SHOE Search 등으로 구성된다.
RQL은 RDF와 RDF 스키마를 위한 선언적 질의 언어로서 처음으로 제안됐다. 이것은 유럽 IST 프로젝트의 C-Web에 의해 개발됐고, 그리스의 FORTH 컴퓨터 과학협회에 의해 MESMUSES 프로젝트의 일환으로 수행됐다. RQL은 OQL의 구문을 채택한 함수 언어이다. RDF 스키마의 질의에 의해 수행된 결과는 다시 적법한 RDF 코드가 된다.
RQL은 핵심 질의들의 집합, 기본 필터들의 집합으로 정의되고, 함수적 구성과 반복을 통해 새로운 질의를 구성할 수 있다.
RDF는 SQL과 유사한 select-from-where을 사용하여 정보를 재구성하거나 필 터링 할 수 있다. 또한 SQL의 필터는 임의의 깊이에서 그래프를 검색하기 위해 경로표현식을 사용한다.
다음의 질의는 클래스에서 "*name"과 매칭되는 이름의 특성값을 찾기 위한 RDF 질의이다. 클래스와 특성의 변구를 구분하기 위해 RQL에서는 클래스 변수를 $로, 특성변수는 @로 정의한다.
select Y, $Y
from {X} @P {Y : $Y}
where @P like "* name "
웹 기술의 발전동향을 살펴보면, 초창기 HTML의 등장으로 디스플레이 중심의 웹 분서 개발이 가능하게 되었다. HTML의 등장으로 인터넷은 급속하게 확산되었고 정보공유의 의미로서 웹의 역할은 점점 더 크게 부각되었지만, HTML은 구조와 내용을 하나의 문서에 표현하여 구조적 확장이 전혀 이루어지지 못하는 문제점이 있었다. 이에 구조와 내용이 분리된 XML(eXtensible Markup Language)을 통해 사용자가 임의로 태그를 생성할 수 있는 기반이 구축되었으나, XML은 동일한 의미의 메타데이터를 서로 다르게 작성하여 동일문서가 상이한 문서로 분류되는 문제점을 야기시켰다. 또한, XML은 구조적 메타데이터에만 치중한 나머지 내용에 의미가 결합되지 않고 의미론적 연결이 전형 이루어지지 않았으며 인간중심의 웹 문서로 치우치는 단점을 가지게 되었다.
위와 같은 웹 문서는 주로 인간소비위주로 디자인되고 개발되어 왔기에 그러한 처리를 해주는 기계는 웹 정보를 거의 이해하지 못하였다. 현재 웹 상의 정보를 분석하고 재사용을 자동화하려는 노력은 시도되고 있지만 아직까지는 그 결과가 미흡한 상태다. 이에 의미있는 웹으로의 전환의 필요성이 점점 대두되기 시작하였다.
따라서, 과거의 웹에 대한 기술개발 및 표준 개발과 더불어, 시멘틱 웹과 웹 서비스로 3세대 웹을 준비하고 있는 지금, 데이터 또는 문서들이 가지고 있는 정보자원들에 대하여 상호 운용이 가능하고 의미론적 통합이 가능한 형태로 개발된다면, 또한 그러한 형태의 정보들이 같은 도메인 내에서 사용하는 메타데이터라면 일정한 룰을 적용하여 새로운 정보를 도출해 낼 수 있을 것이며, 그러한 정보는 지금의 검색엔진에서 찾아내는 무의미하고 부정확한 검색결과가 아니라 사실에 기반한 지식이 될 수 있을 것이다.
그러나 현재의 웹 검색 모델은 HTML과 XML로 웹 문서가 이루어져 검색 결과의 효율성, 정확성 측면에서 사용자가 요구하는 결과를 가져올 수가 없다.
이에 본 발명은 상기와 같은 문제를 해소하기 위하여 안출된 것으로, 웹 검색 시 검색결과의 재현율과 정확률을 높이고, 사용자가 의도한 웹 검색결과에 부합하는 보다 정확하고 효율적인 정보전달이 가능하도록 의미론적 데이터의 해석 및 분석이 가능한 시멘틱 웹 기반의 정보검색시스템과 정보검색방법 제공을 기술적 과제로 한다.
상기의 기술적 과제를 달성하기 위한 본 발명은,
사용자가 입력한 검색정보의 입력단어를 확인하는 검색정보 분석모듈과, 상기 검색정보 분석모듈을 통해 분석된 결과에 따라 해당 입력단어의 동음어 또는 동의어를 확인하고 다수의 동음어가 존재할 경우 해당 동음어들 중 사용자가 요구하는 입력단어를 확인받기 위한 재질의문을 완성하는 정보검색모듈로 된 e-엔진 온톨로지 서버;
상기 정보검색모듈이 재질의를 통해 확인한 입력단어와 이 입력단어의 동의어와 관련한 정보를 일반 웹 검색사이트를 통해 검색하는 검색모듈을 구비한 인터페이스 매니지먼트 서버;
단어 정보 및 웹 페이지 정보를 저장하는 저장모듈과, 상기 정보검색모듈이 검색한 입력단어 또는 문장 속 입력단어와 이 입력단어들의 동의어를 상기 저장모듈에서 검색하는 RQL 시멘틱 검색모듈을 구비한 컨텐츠 DB 서버; 및
상기 정보검색모듈이 검색한 정보 및 상기 RQL 시멘틱 검색모듈이 검색한 정보를 사용자의 상기 검색정보에 근접한 순위로 분류하여 그 결과를 상기 인터페이스 매니지먼트 서버를 통해 사용자에게 전송하고, 상기 컨텐츠 DB 서버에 저장하는 자동분류모듈을 구비한 시멘틱 매니지먼트 서버;
로 이루어진 의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색시스템이다.
또한, 상기의 기술적 과제를 달성하기 위한 본 발명은
사용자가 검색을 위해 입력한 입력단어를 포함하는 검색정보의 시멘틱 정보를 확인하여, 온톨로지 정보가 저장된 데이터베이스에서 해당 입력단어의 동음어를 확인하는 시멘틱 정보확인단계;
상기 시멘틱 정보확인단계를 통해 상기 입력단어의 동음어가 둘 이상 있을 경우, 사용자에게 재질의를 해 온톨로지를 확정하는 온톨로지 확정단계;
상기 온톨로지 확정단계를 통해 확정된 동음어의 의미와 유사한 유사어를 확인하여, 검색에 필요한 도메인 시멘틱 정보를 완성하는 유사어 확인단계;
상기 도메인 시멘틱 정보를 검색정보로 하여 일반 웹검색 사이트를 통해 검색하는 인터넷 검색단계;
RDF 문서를 저장하는 데이터베이스에서 상기 도메인 시멘틱 정보와 관련된 정보를 검색하는 RDF 문서 검색단계; 및
상기 인터넷 검색단계를 통해 검색된 결과물과 상기 RDF 문서 검색단계를 통해 검색된 결과물을 순위화하는 검색결과물 순위결정단계;
를 포함하는 의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색방법이다.
이하 본 발명을 첨부된 예시도면에 의거하여 상세히 설명한다.
도 2는 본 발명에 따른 정보검색시스템의 구성을 도시한 블록도 인바, 이를 참조하여 설명한다.
본 발명에 따른 정보검색시스템(100)은 검색결과의 재현율(recall)과 정확율(precision)을 높이기 위해 인터페이스 매니지먼트 서버(110)을 제공한다. 최상위 어플리케이션인 상기 인터페이스 매니지먼트 서버(110)은 사용자(10)가 원하는 정보에 대한 검색정보를 입력하면 e-엔진 온톨로지 서버(120)에서 제공하는 도메인 시멘틱 정보(Domain Semantic Info.)를 이용하여 웹에서 관련 페이지들을 검색한다. 이때 시멘틱 매니지먼트 서버(130)은 앞서 검색된 페이지들(D1)과 컨텐츠 DB 서버(140)의 RDF 문서 정보들(D2)을 가져와 자동분류 및 순위를 결정한 후 그 결과를 상기 인터페이스 매니지먼트 서버(110)로 전송한다. 상기 인터페이스 매니지먼트 서버(110)은 상기 시멘틱 매니지먼트 서버(130)로부터 전송된 최종결과를 사용자(10)에게 제공한다.
도 3은 도 2에 도시된 정보검색시스템의 상세 구성을 도시한 블록도이고, 도 4는 본 발명에 따른 e-엔진 온톨로지 서버의 구성을 도시한 블록도 인바, 이를 참조하여 설명한다.
상기 e-엔진 온톨로지 서버(120)는 월드맵(121 ; 이하 정보검색모듈)과 컨텐츠 매니지먼트 모듈(122 ; 이하 검색정보 분석모듈)로 구성되며 상기 검색정보 분석모듈(122)은 e-엔진 신텐틱 레이어(Syntactic Layer ; XML), e-엔진 시멘틱 레이어(Semantic Layer ; RDF)를 포함한다. 상술된 구성을 갖는 상기 e-엔진 온톨로지 서버(120)는 웹상의 정보를 단순한 데이터 차원으로 처리하면서도 검색된 데이터들에 의미론적 가치를 적용하여, 최종적으로 검색 및 생성된 정보가 사용자가 요구하는 가치를 지닌 상태로 향상될 수 있도록 하는 알고리즘을 포함한다.
상기 e-엔진 신텐틱 레이어는 임의의 문서구조를 지정할 수 있는 반면에 문서구조가 갖는 의미에 대해서는 정의하지 못하며 표현한 문서의 의미를 해석하는 역할은 하지 않는다. 즉, 상기 e-엔진 신텐틱 레이어는 문서구조를 이루는 각 단어들의 구문적 차원에서의 정의만을 수행하며, 데이터 표현층에서 XML로서 구현된다.
상기 e-엔진 시멘틱 레이어는 웹이 포함하고 있는 내용을 이해하고 조작하기 위해, 사람이 아닌 컴퓨터가 정보의 의미를 이해할 수 있는 자원을 제공한다. 즉, 컴퓨터가 정보의 의미를 이해하기 위해 해당 데이터에 대한 추론을 규정하는 규칙과 이 규칙을 표현할 수 있는 언어를 제공한다. 이러한 언어로는 웹상의 정보와 다른 정보와의 관계를 표현하기 위한 RDF(Resource Description Framework)가 있다.
상기 RDF는 프레임워크와 스키마를 통해 구현된다.
계속해서, 상기 정보검색모듈(121)은 상기 검색정보 분석모듈(122)에서 구문론적ㆍ의미론적으로 처리된 웹상의 정보를 지식으로서의 가치를 지닌 상태로 향상시킨다.
서로 다른 두 개의 데이터가 의미상으로 보면 같은 의미의 구조와 명칭을 가질 수 있다. 예를들어 "영화"라는 데이터가 있을 때 이 태그를 <movie>는 물론 <cinema> 또는 <screen>으로도 표현할 수 있다. 따라서, 위의 세 단어는 의미상으로 보면 같은 의미의 태그이고 이를 하나의 추상적인 스키마(Abstract Schema)로 통합하거나 의미론적으로 연결한다. 상기 정보검색모듈(121)은 이러한 표준 규약 및 존재론에 대한 역할을 담당한다.
한편, 온톨로지는 유형별로 세분화하면 도메인 온톨로지, 메타데이터 온톨로지, 개념적 온톨로지로 구분할 수 있다. 도메인 온톨로지는 특정 분야에 한정되는 온톨로지이고, 메타데이터 온톨로지는 온라인 정보자원의 내용을 기술하기 위한 온톨로지이다. 개념적 온톨로지는 프레임 온톨로지와 같이 여러 개념을 객체 지향적으로 표현할 때 쓰이는 프레임, 슬롯 등과 같은 메타 수준의 온톨로지로 어떤 특정 영역에서의 개념에 관한 것이라기보다는 다른 개념을 온톨로지로 표현하는데 쓰이는 개념 표현을 위한 온톨로지를 말한다.
상기 정보검색모듈(121)은 컨텐츠 매니저, 스키마 매니저, 시소러스 매니저로 구성된다. 상기 컨텐츠 매니저는 시멘틱 메타데이터에 대한 정의ㆍ의미론적 데이터 검색을 위한 분류 모델 정의ㆍ메타데이터 간의 관계를 정의해 놓은 레이어로 표준 데이터 분류 모델이 정의되어 있어 상기 인터페이스 매니지먼트 서버(110)에게 일관된 분류 체계를 제공해 준다.
상기 스키마 매니저는 상기 컨텐츠 매니저의 표준 분류 모델과 시소러스 매니저의 의미론적 통합 모델에 대한 표준 데이터 타입 및 형식이 정의되어 있다.
상기 시소러스 매니저는 전자상거래 국제 표준에 따라 식별ㆍ속성 표준을 정의한 일종의 백과사전으로 스키마 통합이나 유사 용어들에 대한 통일 및 재구성의 역할을 담당한다. 즉 의미론적 유사어에 대한 통합화 기능이 있다. 이러한 통합화 기능에서 가장 중요한 것은 상호 이질적 온톨로지 간의 변환작업이다. 즉 온톨로지 통합에 있어 가장 중요한 점이 상이한 두 온톨로지 간의 병목현상을 해결하는 일인데 이러한 온톨로지 변환을 위해서 하나의 온톨로지를 이용하여 표현한 정보 또는 서비스를 스키마 매니저와 시소러스 매니저의 표준을 이용하여 변환한다. 또한 기존 시스템들 대부분이 구문적 변환만을 다루었으나 본 발명에 따른 정보검색시스템(100)은 의미론적 변환을 위한 새로운 기법으로 DAML + OIL 지식의 자동추론 기법을 이용하여 병합한다.
결과적으로, 상술한 구성을 갖는 e-엔진 온톨로지 서버(120)는 사용자가 검색을 희망하는 단어 또는 문장을 입력하면, 해당 단어 및 문장을 확인하고, 확인된 결과를 근거로 하기 컨텐츠 DB 서버(140)를 검색하여 필요한 도메인 시멘틱 정보를 추출한다.
이러한 구성을 통해, 종래 웹 검색 엔진이 질문의 의미론적 연결을 고려하지 않음으로서, "OEM"이라는 검색어가 "주문자 부착상표 방식" 인지 아니면 "회사끼리의 파트너 프로그램인 마크로미디어 한국 - 파트너 : 파트너 프로그램" 인지 아니면 "Object Embedding Method" 인지를 알 수가 없던 종래 문제를 극복할 수 있다.
상기 인터페이스 매니지먼트 서버(110)는 검색의 정확성을 높이기 위해 상기 e-엔진 온톨로지 서버(120)의 도메인 시멘틱 정보를 가져와 사용자에게 재질의를 통한 정확한 검색결과를 유도한다. 한편, 상기 인터페이스 매니지먼트 서버(110)는 검색의 효율성을 증진시키고자 검색매니저(111 ; 이하 검색모듈), 분류매니저(112 ; 이하 분류모듈), 사용자 인터페이스 매니저(113 ; 이하 사용자 인터페이스 모듈)를 포함한다.
상기 검색모듈(111)는 e-엔진 온톨로지 서버(120)가 가지고 있는 의미론적인 메타데이터 정보를 바탕으로 사용자가 입력한 검색어와 관련된 도메인 시멘틱 정보를 가져온다. 만일 여러 개의 도메인 시멘틱 정보가 검색되었다면 사용자에게 해당 시멘틱 정보에 대한 주제어와 설명을 제시하여 원하는 메타데이터 정보를 선택할 수 있도록 한다. 만일 사용자가 재질의를 통해 "주문자 부착상표 방식의 OEM"을 선택하였다면 선택된 도메인 정보와 사용자 질의를 바탕으로 웹 사이트 정보를 검색하고 이를 사용자에게 제공해 준다.
한편, 사용자(10)가 원하는 정보를 찾는 검색방법으로는 특정 검색어나 주제어를 입력하여 관련 웹 페이지들을 찾는 검색어 입력방식과 찾고자 하는 단어를 모르거나, 찾고자 하는 정보 등이 광범위할 때 이용할 수 있는 주제별 검색방식이 있다.
상기 분류모듈(112)의 주제별 검색 방식은 계층적 구조방식의 기존 검색 기법과는 차별화하여 상기 컨텐츠 DB서버(140)가 보유하고 있는 문서정보를 바탕으로 유연한 구조의 네트워크 방식을 택한다. XML 문서는 계층적 구조의 분류학적 방식으로 용어들 간의 상호 연관관계를 표시해 주기 힘들다. 따라서, RDF 문서를 바탕으로 한 용어 간의 관계성을 구분해 주는 유연한 네트워크 구조 방식을 택하여 보다 정확하고 효율적인 문서 검색이 가능하도록 한다.
상기 사용자 인터페이스 모듈(113)는 다양한 사용자 검색 입력 화면과 온톨로지 정보 선택 화면을 제공하며 최종 정보 검색결과 단계에서는 시멘틱 매니지먼트 서버(130)로부터 자동 분류 및 순위화한 결과값을 반환받은 후 최종 결과를 나타내주는 화면을 사용자에게 제공한다.
도 10은 종래 코사인 유사도를 구하는 식과, 상기 코사인 유사도를 표현한 도면이다.
종래 상기 분류 및 순위화는 종래 벡터 모델과 코사인 유사도(Cosine Similarity)를 통해 이루어졌다.
벡터 모델은 질의나 문헌의 색인어에 비이진 가중치를 할당한다. 이 용어 가중치는 궁극적으로 사용자 질의와 시스템에 저장되어 있는 각 문헌과의 유사도를 계산하는데 사용되는데 검색된 문헌을 이 유사도 값의 내림차순으로 정렬함으로써 벡터공간 모델은 질의 용어에 부분 정합되는 문헌을 검색하게 된다. 벡터 모델에서는 문서와 질의어를 벡터공간 상에서 한점으로 취급한다. 벡터공간은 문헌 콜렉션에 나타나는 색인어에 의해 결정된다.
벡터 모델에서 용어 문헌 쌍(ki, dj)의 가중치 Wi,j는 양의 비이진 값이며, 질의 색인어도 가중치를 가진다. [ki, q]의 가중치를 Wi, q >= 0이라 하면, 질의 벡터는 (w1, q, w2, q .....wi, q)로 정의되며, 여기서 t는 시스템 내의 전체 색인어 수이다. 문헌벡터는 (w1, j, w2, j, .....wi, j)로 표현된다.
따라서, 문헌 dj와 사용자 질의 q는 도 10(b)와 같이 t 차원 벡터로 표시된다. 벡터 모델에서 문헌 dj와 질의 q의 유사도 측정은 두 벡터와의 상관도로 구할 수 있으며, 이 상관도의 예로 두 벡터 간 사이각의 코사인 값으로 정량화 할 수 있다.
상기 시멘틱 매니지먼트 서버(130)는 정보추출 에이전트(133 ; 이하 정보추출모듈)를 이용하여 상기 검색모듈(111)을 통해 검색된 결과 중 관련 웹 페이지들 을 추출하고 Wrapper(132 ; 이하 변환모듈)를 통해 자료 중심의 XML 문서로 변환시킨 후 자동분류모듈(131)을 이용하여 페이지를 자동 분류하고 그 결과를 상기 컨텐츠 DB 서버(140)에 저장한다. 여기서 정보를 자동 분류하고 순위를 부여하기 위해선 관련 페이지들의 유사도를 측정하여야 하는데 이러한 유사도 측정을 위해 본 발명에서는 각 용어들(i) 간의 동의어 관계를 측정한 term relationship 변수, 용어 간에 관계성을 측정한 Semantic Distance 변수를 이용한다.
상기 term relationship 변수는 각 용어가 가지는 유사도 범위를 이용하여 측정하는데 범위는 1에서 9 사이의 값을 가지며 유사성이 높을수록 1에 가깝고 유사성이 떨어질수록 9에 가까워진다. 각 범위의 비교 대상요소는 검색어, 추출된 문서에 포함된 용어, 온톨로지를 통해 추출된 검색어의 동의어, 온톨로지를 통해 추출된 문서에 포함된 용어의 동의어이다.
상기 term relationship의 정의는 다음과 같다.
Figure 112005055979251-pat00001
Figure 112005055979251-pat00002
; term relationship
Figure 112005055979251-pat00003
; 문서(i)에서 용어(j)의 발생수
Figure 112005055979251-pat00004
; 용어(j)들간의 유사도 측정 변수
상기 각 용어들 간의 유사도 측정 변수는 다음 표 1과 같은 기준에 의해서 그 값이 결정된다. Ratio 변수의 범위는 1-9 사이의 값으로 지정하였으며, 유사성이 높을수록 1에 가깝고 유사성이 떨어질수록 9에 가까워진다.
비교범위 설명 값(Ration)
1 A와 B의 완전 일치 1
2 C와 B의 완전 일치 2
3 A와 D의 완전 일치 3
4 C와 D의 완전 일치 4
5 A와 B의 부분 일치 5
6 C와 B의 부분 일치 6
7 A와 D의 부분 일치 7
8 C와 D의 부분 일치 8
9 A와 B의 불 일치 9
A ; 검색어 B ; 추출된 문서에 포함된 용어(태그)
C ; 온톨로지를 통해 추출된 A의 동의어
D ; 온톨로지를 통해 추출된 B의 동의어
Semantic Distance 변수는 각 문서가 가지는 구조들의 각 수평 노드간의 근접도(
Figure 112005055979251-pat00005
)와 각 수직 노드간의 근접도(
Figure 112005055979251-pat00006
)를 이용하여 가중치를 결정한다. 도 5는 XML 문서와 RDF 문서를 분리해서 Semantic Distance 값을 측정한 것을 비교 분석한 모습을 도시한 도면이다.
여기서 XML 문서와 RDF 문서간의 Semantic Distance 변수값이 다르게 나타나는 이유는 XML 문서는 트리구조의 계층적 방식이고 RDF 문서는 그래프 구조방식으로, "저자(Author)와 출판자(Publisher)가 모두 Berners Lee인 책(book)"을 찾는다고 했을 때 RDF 문서에선 저자와 창작자(creator) 사이의 수평 노드간 거리가 "1"로 매우 밀접한 관련이 있지만 XML 문서에선 수평 노드간 거리가 "3"으로 관련성이 떨어지게 된다.
상기 Semantic Distance(용어간의 관계성, 즉 거리에 따른 근접도를 측정)의 정의는 다음과 같다.
Figure 112005055979251-pat00007
Figure 112005055979251-pat00008
Figure 112005055979251-pat00009
Figure 112005055979251-pat00010
Figure 112005055979251-pat00011
; 각 노드간의 수평 근접도,
Figure 112005055979251-pat00012
; 각 용어간의 수평 근접도
Figure 112005055979251-pat00013
; 문서내의 각 트리의 level 측정변수
Figure 112005055979251-pat00014
; 문서(i)에서 용어(j)가 위치한 곳의 level 값
Figure 112005055979251-pat00015
; 문서(i)에서 최대 level 값
Figure 112005055979251-pat00016
Figure 112005055979251-pat00017
; 각 노드간의 수직 근접도
Figure 112005055979251-pat00018
; 수직 근접도 결정인자(0 < F < 1)
Figure 112005055979251-pat00019
; 각 용어간의 수직노드 거리
자동 분류 및 순위화를 위한 가중치 부여 비례 반영치(
Figure 112005055979251-pat00020
)는 다음과 같다.
Figure 112005055979251-pat00021
Figure 112005055979251-pat00022
; 각 용어들(i) 간의 동의어 관계를 측정한 term relationship 변수
Figure 112005055979251-pat00023
; 용어 간의 관계성(relationship)을 측정한 semantic distance 변수
계속해서, 상기 컨텐츠 DB 서버(140)는 RQL 시멘틱 검색엔진(141 ; 이하 RQL 시멘틱 검색모듈)과 저장매니저(142 ; 이하 저장모듈)로 구성된다.
상기 RQL 시멘틱 검색모듈(141)은 상기 e-엔진 온톨로지 서버(110)를 통해 추출된 도메인 시멘틱 정보의 내용에 따라 DB를 검색하여 그 결과물을 상기 시멘틱 매니지먼트 서버(130)로 보내고, 상기 시멘틱 매니지먼트 서버(130)는 상기 인터페이스 매니지먼트 서버(120)의 웹 검색 결과물과 더불어 이들을 분류 및 순위를 결정한다.
상기 RQL 시멘틱 검색모듈(141)은 RQL 컨버터(141a)와 엔진분석기(141c)로 구성된다.
상기 RQL 컨버터(141a)는 RQL(RDF Query Language)을 사용하여 질의문을 생성한다. RQL은 RDF와 RDF스키마를 위한 질의 언어로 RDF/RDF 스키마로 표현된 지식을 기반으로 에이전트 간에 질의를 던져서 사용자가 원하는 응답을 받아내는 방식이다.
상기 엔진분석기(141c)는 상기 RQL 컨버터(141a)를 통해 나온 결과를 상기 저장모듈(142)로 보낸 후 각 구성요소를 분석ㆍ저장한다.
상기 저장모듈(142)은 상기 e-엔진 온톨로지 서버(120)의 온톨로지 정보를 바탕으로 상기 시멘틱 매니지먼트 서버(130)을 통해 분류된 웹 문서들을 RDF와 DAML-OIL 형식으로 변환하여 각 페이지의 URL 정보와 함께 저장한다. 저장된 정보는 저장모듈(142)에 구성된 저장정보확인수단(142a)을 통해 확인할 수 있으며, 여기서 해당 정보의 수정이 가능하다.
계속해서, 상술된 정보검색시스템(100)을 기반으로 실시되는 본 발명에 따른 정보검색방법에 대해 설명한다.
본 발명에 따른 정보검색방법은 앞서 기술한 바와 같이, 단순히 의미론적 데이터 검색이 가능한 RDF 문서의 유무만을 가지고 가중치를 부여하고 이를 순위화 함으로서 검색결과에 대한 정확률과 재현율이 떨어진다는 종래 검색방법의 문제점을 해소하고, 의미있는 정보가 검색될 가능성이 있지만 검색대상에서 제외되던 반구조적 문서나 비구조적 문서들을 검색 대상으로 하여 보다 정확한 검색결과를 제공할 수 있다.
이를 위해 본 발명에 따른 정보검색방법은 HTML, XML과 같은 문서형식과 RDF 형식이 포함된 문서들을 구분하지 않고 가중치 부여 비례 반영치(
Figure 112005055979251-pat00024
)와 벡터모델의 코사인 유사도를 이용한 순위 측정 알고리즘을 이용한다.
도 6은 본 발명에 따른 정보검색방법을 순차 도시한 플로우차트 인바, 이를 참조하여 설명하며, 상기 정보검색방법을 설명함에 있어 실시예를 적용하여 이를 기술하도록 한다.
S10 ; 사용자 검색대상 정보입력 단계
본 발명에 따른 정보검색시스템(100)에 접속한 사용자(10)는 검색내용 입력창에 알고자 하는 검색대상에 대한 정보를 입력한다. 이때, 정보입력을 위한 기본적인 웹페이지 형식 및 구조 등은 상기 사용자 인터페이스 모듈(113)에서 제공하고, 이외에도 상기 사용자 인터페이스 모듈(113)는 검색결과를 사용자(10)에 제공하게 되는 형식 및 구조 또한 담당한다.
본 발명에 따른 정보검색시스템(100)을 이용한 정보검색방법을 보다 상세히 설명하기 위해 상기 검색정보를 "제일제당의 OEM이 부착된 식품"으로 한 예시를 들어 기술하도록 한다.
S20 ; 상기 검색정보의 시멘틱 정보확인단계
검색정보는 상기 e-엔진 온톨로지 서버(120)로 전송된다.
상기 검색정보를 받은 e-엔진 온톨로지 서버(120)는 상기 검색정보 분석모듈(122) 기반 하에 관련 온톨로지를 검색하고 이를 제공하는 상기 정보검색모듈(121)을 포함한다. 따라서, 상기 e-엔진 온톨로지 서버(120)는 상기 검색정보인 "제일제당의 OEM이 부착된 식품"과 관련된 도메인 시멘틱 정보 즉, 온톨로지를 확인한다.
검색정보인 "제일제당의 OEM이 부착된 식품"을 해석함에 있어, 상기 스키마 매니저는 상기 검색정보의 형식을 확인하고(본 실시예에서, 상기 검색정보는 스트링(string) 형식을 취함), 상기 컨텐츠 매니저에서는 "제일제당", "OEM" 및 "식품" 의 의미를 확인한다. 상기 시소러스 매니저는 상기 컨텐츠 매니저에서 확인한 각 단어들의 의미와 유사한 동의어 및 다의어(동음어)를 검색한다.
S30 ; 관련 온톨로지의 재질의를 통한 온톨로지 확정단계
상기 e-엔진 온톨로지 서버(120)는 검색정보를 구성하는 단어들 중 다의어(동음어)를 선택한 후 이를 사용자(10)에게 재질의를 통해 검색범위를 한정한다.
즉, 검색정보를 구성하는 단어 중, "OEM"은 "주문자 부착 상표 방식", "회사끼리의 파트너 프로그램인 Macromedia 한국 - 파트너:파트너 프로그램" 또는 "Object Embedding Method"의 의미를 갖는 바, 본 발명에 따른 정보검색시스템(100)은 사용자(10)에게 "OEM"에 관한 상기 세 가지 의미를 제시하여 검색범위를 좁힌다.
사용자(10)는 제시된 세 가지 예시들 중 사용자(10)가 검색하고자 하는 대상인 "주문자 부착 상표 방식"을 선택한다. 물론, 상기 e-엔진 온톨로지 서버(120)는 사용자(10)에 의해 선택된 "OEM"의 의미를 가지고 실제 검색에 필요한 도메인 시멘틱 정보를 완성하여 상기 인터페이스 매니지먼트 서버(110)로 전송한다.(S35)
S40 ; 검색정보를 구성한 용어의 유사어 확인단계
상기 시소러스 매니저는 상기 온톨로지 확정단계를 통해 확정된 다의어의 의미와, 기타 검색정보를 구성하는 다른 단어들의 의미를 갖는 단어들을 상기 컨텐츠 DB 서버(140)에서 검색한다.
이후, 상기 도메인 시멘틱 정보에 유사어 정보를 포함한 후 상기 인터페이스 매니지먼트 서버(110)로 전송한다.
S50 ; 인터넷 검색단계
상기 인터페이스 매니지먼트 서버(110)은 상기 검색모듈(111)를 통해 상기 e-엔진 온톨로지 서버(120)로부터 전송된 도메인 시멘틱 정보를 근거로 인터넷을 검색한다. 일반적으로, 인터넷 검색은 종래 검색엔진인 구글, 야후 및 알타비스타 등이 활용될 수 있으며, 상기 검색모듈(111)는 해당 도메인 시멘틱 정보 내에서 상기 검색엔진의 검색이 최적화될 수 있도록 적합한 질의를 형성하여 정확한 검색결과를 유도한다.
S60 ; 관련페이지 분류단계
정보 추출 에이전트가 반환받은 URI에서 Broken Link(존재하지 않는 사이트)를 제거한다.
S70 ; RQL을 이용한 RDF 문서 검색단계
본 발명에 따른 정보검색시스템과 정보검색방법에서는 RQL을 이용한 RDF 문서 검색 방법을 위해서 Jena API를 사용하였다.
상기 Jena는 시멘틱 웹 응용을 위한 자바 프레임워크로 RDF, RDF(s), OWL과 같은 시멘틱 웹 문서를 다룰 수 있는 프로그래밍 환경을 제공한다. Jena는 공개소스로 RQL, OWL API, RDQL(A Query Language for RDF)의 요소들을 포함한다.
S80 ; 검색결과물 순위결정단계
검색결과물인 URI 정보는 상기 시멘틱 매니지먼트 모듈(130)로 전송되며, 상기 정보추출에이전트(133)를 통해 관련 웹페이지들이 추출된다. 이렇게 추출된 웹페이지는 상기 변환모듈(132)에 의해 자료중심의 XML 문서로 변환되고, 상기 자동분류모듈(131)로서 순위가 부여되어 저장된다.
검색결과물에 대한 순위 부여는 본 발명에 따른 term relationship 변수와 semantic distance 변수를 통해 연산된다.
S90 ; 검색결과 출력단계
상술된 과정을 통해 검색된 검색결과는 상기 인터페이스 매니지먼트 서버(110)을 통해 사용자(10)에게 전송되며, 사용자는 원하는 검색결과에 근접한 결과를 확인할 수 있다.
상술된 본 발명에 따른 정보검색방법을 적용한 실험예를 설명하여 본 발명의 효과를 확인한다.
본 발명에 따른 정보검색방법에서는 RDF 문서와 일반 웹 문서를 분류하여 검색하던 종래 방식에서 진일보하여 두 문서 간에 구분을 두지 않고 동일하게 취급한다. 모든 문서들은 온톨로지 정보를 이용하여 동의어 집합요소들을 반영한 순위측정 알고리즘에 의해 성능측정이 이루어지게 되며 최종적으로 순위가 매겨지게 된다.
Figure 112005055979251-pat00025
Figure 112005055979251-pat00026
; 가중치 부여 비례 반영치
상기 수식은 의미론적 메타정보를 사용한 RDF 문서와 XML, HTML과 같은 문서들의 자동 분류 및 순위를 부여하기 위한 순위 측정 알고리즘으로 기존 벡터모델의 코사인 유사도와 가중치 부여 비례 반영치(
Figure 112005055979251-pat00027
)로 이루어진다.
본 실험예에서는 구글(Google)에서 "the book which the author is berners Lee"이라는 검색어를 가지고 검색한 페이지 중 10위 안에 있는 10개의 문서와 2개의 XML, RDF 문서를 가지고 성능 분석을 하였다. 검색한 웹페이지의 결과문서들은 도 7과 같으며 각 번호는 문서번호에 해당한다.
성능비교는 도 8에 따른 단계별 검색방법의 순서에 따라 진행되며 진행순서를 상세히 살펴보면 다음과 같다.
1단계; 일반 검색엔진(구글)을 이용하여 상위 10개의 문서를 검색한다. 검색된 문서들을 상기 정보추출에이전트(133)를 이용하여 불필요한 웹페이지를 추출한다. 여기서 문서 3, 9, 11번의 경우 잘못된 링크정보로, 웹 페이지 리스트에서 제거한다.
2단계; RQL을 이용하여 RDF 문서를 검색한다. 검색결과 person_book.rdf 문서가 검색되었다.
3단계: 상기 정보추출에이전트(133)를 통해 얻어진 9개의 일반 웹 문서와 RDF 문서를 새로운 유사도 측정모델을 이용하여 실시한 후 그 결과를 가지고 순위를 매긴다.
먼저 기본 벡터 모델의 유사도 측정공식을 이용하여 순위화를 하기 위해 위에서 명시한 7개의 웹 문서와 2개의 XML, RDF 문서를 바탕으로 각각의 벡터 기반 코사인 유사도 값을 계산하였다.
4단계 ; 용어 간의 관계성을 측정하기 위해 html 문서를 XML 문서로 변환한다. 이때 html 문서를 XML 문서로 변환하기 위해 html to XML Wrapper(132) 이용하여 여기서 나온 XML 문서들과 콘텐츠 DB 서버(140)에서 가져온 RDF 문서를 가지고 순위 측정 알고리즘을 이용한 유사도 측정을 한다. 그 결과 도 9와 같이 기존 코사인 유사도를 이용한 순위결과와 다른 결과가 나온 것을 볼 수 있으며 이를 바탕으로 각각의 문서에 대한 순위를 재조정하고 문서에 대한 자동 분류가 이루어진다.
현재의 검색엔진은 문장에 포함된 단어의 가중치 뿐만 아니라 동의어에 대한 가중치 및 관련성을 전혀 고려하지 않고 있다. 또한 벡터 기반의 코사인 유사도를 이용한 경우 도 9에서 보는 바와 같이 RDF 문서가 4위로서 일반 웹 문서에 비해 순위가 낮게 나온 것을 볼 수 있다. 그 이유는 벡터 모델의 코사인 유사도를 이용할 경우 각 용어들(i) 간의 동의어 관계를 측정한 term relationship 변수, 용어간에 관계성, 즉 거리에 따른 근접도를 측정한 semantic distance 변수가 검색 모델에 전혀 반영되지 않았기 때문이다. 이에 기존 벡터모델을 이용한 새로운 순위 측정 알고리즘을 이용하여 유사도 측정을 한 결과 기존에 4순위였던 RDF 문서가 1순위로 올라가고 기존 1순위였던 6번 문서가 3순위를 기록한 결과를 볼 수 있으며 보다 높은 정확률과 재현율로 사용자가 신뢰할 수 있는 결과를 가지게 된다.
이상 상기와 같은 본 발명에 따르면, 차세대 웹으로 대두되고 있는 시멘틱 웹 요소들을 이용한 통합 정보 검색 시스템을 제시하여 정보추출기법과 자동분류기법을 이용한 검색의 효율성과 정확성을 증진시키고 반구조문서 뿐만아니라 비구조 문서의 처리를 극대화시키는 효과를 갖는다.
또한, 온톨로지의 확립, 데이터 표준화, 데이터 통합화, 시멘틱 연결방법을 통해 의미론적 데이터 검색 및 HTML, XML, RDF와 같은 문서유형의 구분을 두지 않고 의미론적 통합이 가능하다.
또한, 문서의 구조, 동의어, 문맥어의 형태를 이용한 시멘틱 매니지먼트 서버의 자동분류기법을 통해 추출된 웹 페이지들의 관련성을 증진시켰고, e-엔진 온톨로지 서버는 검색의 정확률과 재현율을 높이기 위해 그래픽 방식의 유연한 구조방식을 채택하여 유연성, 확장성, 상호 운용성을 증진시켰다.

Claims (5)

  1. 사용자가 입력한 검색정보의 입력단어를 확인하는 검색정보 분석모듈과, 상기 검색정보 분석모듈을 통해 분석된 결과에 따라 해당 입력단어의 동음어 또는 동의어를 확인하고 다수의 동음어가 존재할 경우 해당 동음어들 중 사용자가 요구하는 입력단어를 확인받기 위한 재질의문을 완성하는 정보검색모듈로 된 e-엔진 온톨로지 서버;
    상기 정보검색모듈이 재질의를 통해 확인한 입력단어와 이 입력단어의 동의어와 관련한 정보를 일반 웹 검색사이트를 통해 검색하는 검색모듈을 구비한 인터페이스 매니지먼트 서버;
    단어 정보 및 웹 페이지 정보를 저장하는 저장모듈과, 상기 정보검색모듈이 검색한 입력단어 또는 문장 속 입력단어와 이 입력단어들의 동의어를 상기 저장모듈에서 검색하는 RQL 시멘틱 검색모듈을 구비하고, 하기 시멘틱 매니지먼트 서버를 통해 분류된 정보를 온톨로지 정보를 바탕으로 RDF와 DAML-OIL 형식으로 변환하여 저장하는 컨텐츠 DB 서버; 및
    상기 정보검색모듈이 검색한 정보 및 상기 RQL 시멘틱 검색모듈이 검색한 정보를 사용자의 상기 검색정보에 근접한 순위로 분류하여 그 결과를 상기 인터페이스 매니지먼트 서버를 통해 사용자에게 전송하고 상기 컨텐츠 DB 서버에 저장하는 자동분류모듈과, 검색된 정보를 XML 문서로 변환하는 변환모듈을 구비한 시멘틱 매니지먼트 서버;
    로 이루어지되, 상기 자동분류모듈은
    상기 정보검색모듈이 검색한 정보 및 상기 RQL 시멘틱 검색모듈이 검색한 정보의 순위분류 시, 그 순위 분류기준을 용어 간의 관계성(Semantic Distance ; Dj) 대비 용어들 간의 동의어 관계(Term Relationship ; Rj)의 결과값과, CosSim(dj, q)과의 곱의 연산값을 기준으로 하여 검색한 정보의 순위를 분류하되;
    상기 용어 간의 관계성(Dj)은,
    Figure 112007060402430-pat00072
    Figure 112007060402430-pat00073
    ,
    Figure 112007060402430-pat00074
    ,
    Figure 112007060402430-pat00075
    Figure 112007060402430-pat00076
    ; 각 노드간의 수평 근접도,
    Figure 112007060402430-pat00077
    ; 각 용어간의 수평 근접도
    Figure 112007060402430-pat00078
    ; 문서내의 각 트리의 level 측정변수
    Figure 112007060402430-pat00079
    ; 문서(i)에서 용어(j)가 위치한 곳의 level 값
    Figure 112007060402430-pat00080
    ; 문서(i)에서 최대 level 값
    Figure 112007060402430-pat00081
    Figure 112007060402430-pat00082
    ; 각 노드간의 수직 근접도
    Figure 112007060402430-pat00083
    ; 수직 근접도 결정인자(0 < F < 1)
    Figure 112007060402430-pat00084
    ; 각 용어간의 수직노드 거리
    이고;
    상기 용어들 간의 동의어 관계(Rj)는,
    Figure 112007060402430-pat00085
    Figure 112007060402430-pat00086
    ; term relationship
    Figure 112007060402430-pat00087
    ; 문서(i)에서 용어(j)의 발생수
    Figure 112007060402430-pat00088
    ; 용어(j)들간의 유사도 측정 변수
    인 것을 특징으로 하는 의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색시스템.
  2. 삭제
  3. 삭제
  4. 사용자가 검색을 위해 입력한 입력단어를 포함하는 검색정보의 시멘틱 정보를 확인하여, 온톨로지 정보가 저장된 데이터베이스에서 해당 입력단어의 동음어를 확인하는 시멘틱 정보확인단계;
    상기 시멘틱 정보확인단계를 통해 상기 입력단어의 동음어가 둘 이상 있을 경우, 사용자에게 재질의를 해 온톨로지를 확정하는 온톨로지 확정단계;
    상기 온톨로지 확정단계를 통해 확정된 동음어의 의미와 유사한 유사어를 확인하여, 검색에 필요한 도메인 시멘틱 정보를 완성하는 유사어 확인단계;
    상기 도메인 시멘틱 정보를 검색정보로 하여 일반 웹검색 사이트를 통해 검색하는 인터넷 검색단계;
    RDF 문서를 저장하는 데이터베이스에서 상기 도메인 시멘틱 정보와 관련된 정보를 검색하는 RDF 문서 검색단계;
    상기 인터넷 검색단계를 통해 검색된 HTML을 XML로 변환하는 변환단계; 및
    상기 인터넷 검색단계를 통해 검색된 결과물과 상기 RDF 문서 검색단계를 통해 검색된 결과물을 순위화하되, 그 순위결정 기준을 용어 간의 관계성(Semantic Distance ; Dj) 대비 용어들 간의 동의어 관계(Term Relationship ; Rj)의 결과값과, CosSim(dj, q)과의 곱의 연산값을 기준으로 하여 검색한 정보의 순위를 분류하고;
    상기 용어 간의 관계성(Dj)은,
    Figure 712007001820749-pat00089
    Figure 712007001820749-pat00090
    ,
    Figure 712007001820749-pat00091
    ,
    Figure 712007001820749-pat00092
    Figure 712007001820749-pat00093
    ; 각 노드간의 수평 근접도,
    Figure 712007001820749-pat00094
    ; 각 용어간의 수평 근접도
    Figure 712007001820749-pat00095
    ; 문서내의 각 트리의 level 측정변수
    Figure 712007001820749-pat00096
    ; 문서(i)에서 용어(j)가 위치한 곳의 level 값
    Figure 712007001820749-pat00097
    ; 문서(i)에서 최대 level 값
    Figure 712007001820749-pat00098
    Figure 712007001820749-pat00099
    ; 각 노드간의 수직 근접도
    Figure 712007001820749-pat00100
    ; 수직 근접도 결정인자(0 < F < 1)
    Figure 712007001820749-pat00101
    ; 각 용어간의 수직노드 거리
    이고;
    상기 용어들 간의 동의어 관계(Rj)는,
    Figure 712007001820749-pat00102
    Figure 712007001820749-pat00103
    ; term relationship
    Figure 712007001820749-pat00104
    ; 문서(i)에서 용어(j)의 발생수
    Figure 712007001820749-pat00105
    ; 용어(j)들간의 유사도 측정 변수
    인 것을 특징으로 하는 의미론적 데이터 통합을 위한 시멘틱 웹 기반의 정보검색방법.
  5. 삭제
KR1020050092852A 2005-10-04 2005-10-04 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법 KR100794302B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050092852A KR100794302B1 (ko) 2005-10-04 2005-10-04 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050092852A KR100794302B1 (ko) 2005-10-04 2005-10-04 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법

Publications (2)

Publication Number Publication Date
KR20070037809A KR20070037809A (ko) 2007-04-09
KR100794302B1 true KR100794302B1 (ko) 2008-01-11

Family

ID=38159392

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050092852A KR100794302B1 (ko) 2005-10-04 2005-10-04 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법

Country Status (1)

Country Link
KR (1) KR100794302B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110127862A (ko) * 2010-05-20 2011-11-28 주식회사 케이티 컨텐츠 검색을 위한 자동 완성 문장 제공 방법 및 시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915295B1 (ko) * 2008-01-22 2009-09-03 성균관대학교산학협력단 검색 결과 자동 분류 시스템 및 그 방법
KR100971881B1 (ko) * 2008-07-02 2010-07-22 팅크웨어(주) 소수를 사용한 검색 방법 및 장치
CN106844445B (zh) * 2016-12-16 2020-08-14 天津大学 基于语义的资源描述框架rdf图划分方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040020933A (ko) * 2001-06-22 2004-03-09 노사 오모이구이 지식 검색, 관리, 전달 및 프리젠테이션을 위한 시스템 및방법
KR20050032937A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040020933A (ko) * 2001-06-22 2004-03-09 노사 오모이구이 지식 검색, 관리, 전달 및 프리젠테이션을 위한 시스템 및방법
KR20050032937A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Elsevier 논문2003년
IEEE 논문2005.01.03
IEEE 논문2005.07.04

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110127862A (ko) * 2010-05-20 2011-11-28 주식회사 케이티 컨텐츠 검색을 위한 자동 완성 문장 제공 방법 및 시스템
KR101654151B1 (ko) 2010-05-20 2016-09-06 주식회사 케이티 컨텐츠 검색을 위한 자동 완성 문장 제공 방법 및 시스템

Also Published As

Publication number Publication date
KR20070037809A (ko) 2007-04-09

Similar Documents

Publication Publication Date Title
Ding et al. Ontology Library Systems: The key to successful Ontology Reuse.
Clark et al. Automatically structuring domain knowledge from text: An overview of current research
US20090327338A1 (en) Hierarchy extraction from the websites
Singh et al. Ontology development using Hozo and Semantic analysis for information retrieval in Semantic Web
KR100794323B1 (ko) 자동화된 통합 프레임워크를 위한 확장된 시멘틱 웹 서비스검색방법
KR100794302B1 (ko) 의미론적 데이터 통합을 위한 시멘틱 웹 기반의정보검색시스템과 정보검색방법
Moraes et al. Prequery discovery of domain-specific query forms: A survey
Balasubramaniam Hybrid fuzzy-ontology design using FCA based clustering for information retrieval in semantic web
Xu et al. Application of rough concept lattice model in construction of ontology and semantic annotation in semantic web of things
Neumaier et al. Data integration for open data on the web
Kim et al. Ontology construction using online ontologies based on selection, mapping and merging
Ye et al. Learning object models from semistructured web documents
Korger et al. The SECCO ontology for the retrieval and generation of security concepts
Kwon et al. Recommendation of e-commerce sites by matching category-based buyer query and product e-catalogs
Tudhope et al. Pattern based mapping and extraction via CIDOC CRM
Sjachyn et al. Semantic component selection-SemaCS
Prasad et al. Faceted infrastructure for semantic digital libraries
Kamel Boulos et al. Towards a semantic medical web: healthcybermap’s Dublin Core Ontology in Protégé-2000
KONYS An approach for ontology-based information extraction system selection and evaluation
Powell et al. Semantically enhancing collections of library and non-library content
Ebietomere et al. Semantic Search Engine in Industry 4.0
Yumusak et al. A discovery and analysis engine for semantic web
Agarwal et al. Semantic web: golden era of information
Charbel Semantic representation of a heterogeneous document corpus for an innovative information retrieval model: Application to the construction industry
Mukhopadhyay et al. A Model Approach to Build Basic Ontology

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
E902 Notification of reason for refusal
B701 Decision to grant
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130103

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131231

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee