KR101038337B1 - 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진 - Google Patents

온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진 Download PDF

Info

Publication number
KR101038337B1
KR101038337B1 KR1020080095269A KR20080095269A KR101038337B1 KR 101038337 B1 KR101038337 B1 KR 101038337B1 KR 1020080095269 A KR1020080095269 A KR 1020080095269A KR 20080095269 A KR20080095269 A KR 20080095269A KR 101038337 B1 KR101038337 B1 KR 101038337B1
Authority
KR
South Korea
Prior art keywords
ontology
data
agent
analysis
search
Prior art date
Application number
KR1020080095269A
Other languages
English (en)
Other versions
KR20090033150A (ko
Inventor
조광현
Original Assignee
조광현
주식회사 시맨틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조광현, 주식회사 시맨틱스 filed Critical 조광현
Publication of KR20090033150A publication Critical patent/KR20090033150A/ko
Application granted granted Critical
Publication of KR101038337B1 publication Critical patent/KR101038337B1/ko

Links

Images

Abstract

본 발명은 온톨로지를 이용하여 검색 데이터베이스를 구축하는 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진에 관한 것이다.
본 발명의 검색엔진은 인터넷상에서 웹 페이지들을 수집하는 게더링 에이전트(GA)와, 수치로 치환할 수 없는 데이터를 분석하여 벡터형태 수치값으로 변환할 수 있도록 하는 분석 에이전트(AA)와, 수치로 치환되는 데이터를 분석하여 단어들과의 관계를 벡터형태의 수치값으로 저장하는 벡터 분석 에이전트(VAA)와 데이터를 정제하여 사용가능한 형태로 변경하는 필터링 에이전트(FA)로 이루어져 수집된 웹 페이지들을 온톨로지로 분석하여 하나의 웹 페이지에 다수의 인덱스를 생성하는 인덱싱부; 상기 인덱싱부에 의해 생성된 각 웹 페이지들의 인덱스를 저장하고 있는 인덱스 데이터베이스; 및 사용자의 검색어 입력에 따라 상기 인덱스 데이터베이스를 검색하여 온톨로지에 기반한 문서검색을 처리하는 검색 에이전트로 구성된다.
온톨로지, 검색엔진, 인덱스, 추론, 관계, 웹 페이지

Description

온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진{ONTOLOGY BASED INDEX METHOD AND SEARCH ENGINE USING THE SAME}
본 발명은 웹 검색기술에 관한 것으로, 더욱 상세하게는 온톨로지를 이용하여 검색 데이터베이스를 구축하는 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진에 관한 것이다.
일반적으로, 네이버, 드림위즈, 다음, 야후 등과 같은 통상의 포탈(검색) 사이트는 웹 사이트 정보를 소정의 기준에 따라 분류 및 저장하기 위한 데이터베이스와, 웹 상을 지속적으로 순회하면서 새로운 웹 사이트 정보를 기계적으로 수집하기 위한 검색로봇, 수집된 데이터를 데이터베이스화하여 포탈(검색) 사이트를 이용하는 이용자로 하여금 검색할 수 있도록 하는 검색엔진으로 구성되어 포탈 (검색)사이트 이용자가 키워드를 입력하면 검색엔진이 데이터베이스를 검색하여 키워드에 유사한 사이트들의 목록을 제공하고 있다.
도 1은 일반적인 검색엔진의 전체 구조를 도시한 도면이다.
도 1을 참조하면, 인터넷 검색엔진은 웹상에 존재하는 문서에 대한 검색을 가능하게 하는 정보검색시스템으로서, 자료수집(S1), 색인(S2), 검색(S3) 부분으로 크게 나눌 수 있다. 자료수집(S1) 부분에서는 스파이더(spiders), 크라울러 등으로 불리는 문서 수집 프로그램(12)이 링크정보를 바탕으로 월드와이드웹(www) 네트워크(11)에 연결되어 있는 전세계의 컴퓨터에 저장되어 있는 웹 문서를 수집하여 데이터베이스(13)에 저장한다.
색인(S2) 부분에서는 검색을 빠르게 하고 저장할 데이터의 용량을 줄이기 위하여 인덱스모듈(14)이 수집한 웹 문서의 색인(index) 정보를 인덱스 데이터베이스(16)에 저장하게 된다.
그리고 검색(S3) 부분에서는 검색자(17)가 원하는 정보가 입력될 때마다 검색엔진(18)이 인덱스 데이터 베이스(16)에 저장된 색인정보를 검색하고, 순위결정시스템(20)이 검색결과에 대한 순위를 결정하여 순위에 따른 검색결과를 검색자(17)에게 제공한다. 이때 검색엔진(18)은 검색의 성능을 높이기 위해 스파이더 컨트롤(19)을 통해 스파이더 프로그램(12)을 제어하고, 인덱스모듈(14)과 분석모듈(15)이 수집된 웹 문서를 분석하여 인덱싱을 처리한다.
이러한 인터넷 검색엔진은 검색방법에 따라 디렉토리 검색엔진, 키워드 검색엔진, 그리고 메타 검색엔진으로 구분된다. 디렉토리 검색엔진은 자료들을 주제어나 카테고리별로 구분하여 분류하고 설명 및 평가를 덧붙여 데이터베이스를 구축한 검색엔진을 말한다. 키워드 검색엔진은 웹문서 수집프로그램에 의해 웹문서를 수집하고 수집한 문서를 색인과정을 거쳐 검색엔진의 데이터 베이스에 저장해놓고 사용 자의 질의어에 대해 키워드 매칭방식으로 원하는 정보를 검색해준다. 메타 검색엔진은 다른 검색엔진으로부터 검색자의 질의어에 따른 검색내용을 취합한 후 검색자에게 보여주기 때문에 검색자는 다양한 검색결과를 얻을 수 있고, 기존의 검색엔진에서 질의어에 대한 결과를 종합하여 결과를 보여주기 때문에 내부적으로 데이터를 저장할 공간이 필요하지 않는 장점이 있다.
한편, 온톨로지는 사람이 가지고 있는 지식을 컴퓨터가 처리하고 나아가서는 이해할 수 있는 형식으로 표현된 지식이다. 온톨로지는 사람의 지식을 서술논리(Description Logic)를 기반으로 표현하는데, 통상 OWL(Web Ontology Language)를 주로 사용한다.
온톨로지 추론은 Subsumption Relation를 추론하는 기능과 Instantiation 관계를 추론하는 기능을 포함하는데, OWL-DL 온톨로지 추론은 사람이 가지고 있는 지식을 SHIQ 서술논리로 표현하였을 때 사운드하면서도 컴플리트한 알고리즘을 적용하여 적절한 시간내에 Subsumption과 Instantiation을 추론하는 것이다.
정보검색시스템에서의 일반적인 목표는 저장되어 있는 다량의 정보들 중에서 사용자가 요구하는 정보와 문서를 어떻게 하면 사용자의 의도를 정확히 파악하여 효율적인 검색으로 누락되지 않고 요구문서를 사용자에게 제대로 전달할 수 있는가 하는 것이다.
그런데 구글 등과 같은 종래의 검색엔진은 게더링부터 인덱싱까지의 프로세스 사이에 별도의 다른 인덱싱 과정이 없이 ‘A,B,C,D…’순으로 인덱싱되어 하나의 웹 페이지에 하나의 인덱싱이 있다.
따라서 종래의 검색엔진에서는 사용자가 입력한 키워드에 대응하여 엉뚱한 웹 페이지들이 검색되어 검색이 불편하고, 원하는 정보를 얻기까지 수차의 키워드 입력을 반복해야 하는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 온톨로지 추론을 통해 하나의 웹 페이지에 다양한 방식으로 인덱싱을 구축하여 사용자가 입력한 키워드에 대한 의미검색(Meaning Search)을 가능하게 하여 사용자 의도에 적합한 정보를 신속히 검색할 수 있도록 하는 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진을 제공하는 것이다.
상기와 같은 목적을 달성하기 위하여 본 발명의 검색엔진은, 인터넷상에서 웹 페이지들을 수집하는 게더링 에이전트(GA)와, 수치로 치환할 수 없는 데이터를 분석하여 벡터형태 수치값으로 변환할 수 있도록 하는 분석 에이전트(AA)와, 수치로 치환되는 데이터를 분석하여 단어들과의 관계를 벡터형태의 수치값으로 저장하는 벡터 분석 에이전트(VAA)와 데이터를 정제하여 사용가능한 형태로 변경하는 필터링 에이전트(FA)로 이루어져 수집된 웹 페이지들을 온톨로지로 분석하여 하나의 웹 페이지에 다수의 인덱스를 생성하는 인덱싱부; 상기 인덱싱부에 의해 생성된 각 웹 페이지들의 인덱스를 저장하고 있는 인덱스 데이터베이스; 및 사용자의 검색어 입력에 따라 상기 인덱스 데이터베이스를 검색하여 온톨로지에 기반한 문서검색을 처리하는 검색 에이전트를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 본 발명의 인덱스 방법은 인터넷으로부터 정적 웹 페이지와 동적 웹 페이지를 수집하여 온톨로지를 위한 데이터를 구축하는 웹 페이지 수집단계; 상기 웹 페이지 수집단계에서 구축된 데이터를 온톨로지 기본 데이터로부터수집할 데이터와 삭제할 데이터를 구분하여 온톨로지 분석 데이터를 생성하는 전처리 단계; 상기 온톨로지 분석 데이터에서 삭제할 찌꺼기 데이터들을 하위로 내리거나 정제해내는 필터링 단계; 상기 필터링된 온톨로지 분석 데이터에서 각 단어들 사이의 관계를 추론하는 관계추론 단계; 상기 관계가 정의된 온톨로지 분석 데이터에 성격을 부여하는 성격부여 단계; 상기 성격이 부여된 온톨로지 분석 데이터를 성격에 따라 분류하는 분류 단계; 상기 분류된 온톨로지 분석 데이터를 수치로 분석하는 벡터 분석 단계; 및 상기 수치로 분석된 온톨로지 분석 데이터들을 좌표화하여 그래프 데이터로 처리하는 그래프 처리 단계를 구비한 것을 특징으로 한다.
상기 웹 페이지 수집단계는 정적 게더링 에이전트(GA.OB.S:Gathering Agent for Ontology Basic Data at Static Web pages)가 신문사, 포럼, 사설과 같은 일정한 소스 형식을 띠면서 정적 규칙에 의해 운영되는 웹 페이지의 데이터로부터 온톨로지 구축을 위한 데이터를 수집하는 단계와, 동적 게더링 에이전트(GA.OB.D:Gathering Agent for Ontology Basic Data at Dynamic Web pages)가 블로그, 일반 웹 페이지와 같은 동적인 비선형 데이터로부터 온톨로지 구축을 위한 데이터를 수집하는 단계로 이루어진다.
본 발명의 온톨로지를 이용한 인덱스 방법은 게더링부터 인덱싱까지 프로세스 사이에 추가 인덱싱이 존재하여 하나의 웹 페이지에 수 백개의 인덱싱이 존재한다. 그리고 이 인덱싱들은 단어(Web Word)와 단락중심의 인덱싱이다.
따라서 구글과 같은 종래의 검색엔진은 하나의 인덱싱 방식에 따라 저장된 DB에서 검색결과를 제공하지만, 본 발명이 적용된 검색엔진은 하나의 웹페이지에는 단어의미를 파악하는 온톨로지 개념이 수 백개 존재하여 의미검색(Meaning Search)이 가능한 효과가 있다.
본 발명과 본 발명의 실시에 의해 달성되는 기술적 과제는 다음에서 설명하는 본 발명의 바람직한 실시예들에 의하여 보다 명확해질 것이다. 다음의 실시예들은 단지 본 발명을 설명하기 위하여 예시된 것에 불과하며, 본 발명의 범위를 제한하기 위한 것은 아니다.
도 2는 본 발명에 따른 온톨로지 기반 검색엔진의 전체 구조를 도시한 도면이다.
본 발명에 따른 온톨로지 기반 검색엔진은 도 2에 도시된 바와 같이, 다수의 사용자들(110)이 인터넷(102)을 통해 접속할 수 있는 온톨로지 기반 검색 사이트(200)에 구현되어 있다. 온톨로지 기반 검색사이트(200)는 클라이언트 인터페이스(202), 검색에이전트(SA;204), 인덱스 데이터베이스(206), 정적 인터넷(102-1)이나 동적 인터넷(102-2)으로부터 웹 페이지들을 수집하여 분석한 후 인덱싱하는 인덱싱부(210), 정책 에이전트(PA:220), 닥터 에이전트(DA;222), 모니터링 에이전트(MA;224)로 구성되고, 인덱싱부(210)는 정적 웹페이지 게더링 에이전트(GA;211)와 동적 웹페이지 게더링 에이전트(GA;212), 필터링 에이전트(FA;213), 분석 에이전트(AA;214), 벡터분석 에이전트(VAA;215)로 구성된다.
도 2를 참조하면, 본 발명에 따른 검색엔진에는 8개의 에이전트로 구성된 메인 솔루션 그룹이 있는데, 모든 에이전트들의 상위에 위치하는 정책 에이전트(Policy Agent:PA;220)는 해당 에이전트들에게 특정 기능수행을 요청하고 지휘하는 역할을 정책기능을 담당한다. 게더링 에이전트(Gathering Agnet:GA; 211,212)는 웹 페이지들을 수집하는데, 정적 웹페이지 게더링 에이전트(211)는 신문사, 포럼, 사설과 같은 일정한 소스 형식을 띠면서 정적 규칙에 의해 운영되는 웹 페이지(102-1)의 데이터로부터 웹 페이지를 수집하고, 동적 웹 페이지 게더링 에이전트(212)는 블로그, 일반 웹 페이지와 같은 동적 인터넷(102-2)으로부터 시맨틱 웹 페이지를 수집한다.
분석 에이전트(Analysis Agent:AA;214)는 수치로 치환할 수 없는 데이터를 분석하여 벡터형태 수치값으로 변환하기 위한 것이며, 벡터 분석 에이전트(Vector Analysis Agent:VAA;215)는 수치로 치환되는 데이터를 분석하여 단어들과의 관계를 벡터형태의 수치값으로 저장한다.
그리고 필터링 에이전트(Filter Agent:FA;213)는 데이터를 정제하여 사용 가능한 형태로 변경하고, 검색 에이전트(Search Agent:SA;204)는 온톨로지 검색을 처리하고, 모니터링 에이전트(Monitoring Agent:MA;224)는 인텍싱부(210)의 계산오류를 발견하거나 수정된 데이터를 모니터링하여 정책 에이전트(220)로 전달하는 툴이며, 닥터 에이전트(Doctor Agent:DA;222)는 정책 에이전트(220)의 요청에 따라 인덱싱부(210)의 업 데이트 확인과 오류를 치료하는 역할을 담당한다.
도 3은 본 발명에 따라 온톨로지를 이용하여 인덱싱하는 절차를 도시한 순서도이고, 도 4는 본 발명에 따라 온톨로지를 이용하여 인덱싱하는 온톨로지 솔루션의 예이다.
본 발명에 따라 온톨로지를 이용하여 인덱싱하는 절차는 도 3에 도시된 바와 같이, 웹 페이지 수집 단계(S301), 전처리 단계(S302), 필터링 단계(S303), 관계추론단계(S304), 성격부여단계(S305), 분류단계(S306), 벡터분석단계(S307), 그래프 처리단계(S308)로 구성되어 온톨로지 기반의 인덱스 DB를 생성한다.
웹 페이지 수집단계(S301)는 도 4에 도시된 바와 같이, 정적 인터넷(102-1)으로부터 정적 웹 페이지를 수집하고, 동적 인터넷(102-2)으로부터 동적 웹 페이지를 수집하여 온톨로지 데이터(402)를 구축한다. 여기서, 정적 웹페이지는 시간에 따라 데이터 내용이 변하지 않는 성격의 웹 페이지이고, 동적 웹 페이지는 블로그와 같이 내용이 자주 갱신되는 웹 페이지이다. 도 4를 참조하면, 웹 페이지 수집단계(S301)는 정제되지 않은 동적, 정적 웹 페이지를 가져와 정책 에이전트의 도움으로 정제되지 않은 동적, 정적 웹 페이지 데이터를 온톨로지 데이터(402)로 저장한다. 이를 위해 정적 게더링 에이전트(GA.OB.S:Gathering Agent for Ontology Basic Data at Static Web pages) 솔루션(401a)은 신문사, 포럼, 사설과 같은 일정한 소스 형식을 띠면서 정적 규칙에 의해 운영되는 웹 페이지의 데이터로부터 온톨로지 구축을 위한 데이터를 수집하고, 동적 게더링 에이전트(GA.OB.D:Gathering Agent for Ontology Basic Data at Dynamic Web pages) 솔루션(401b)은 블로그, 일반 웹 페이지와 같은 동적인 비선형 데이터로부터 온톨로지 구축을 위한 데이터를 수집한다.
전처리 단계(S302)는 도 4에 도시된 바와 같이, 웹 페이지 수집단계(S301)에서 수집된 온톨로지 데이터(402)를 온톨로지 기본 데이터(404)로 저장하기 위한 단계이다. 이를 위해 분석 에이전트(AA.OB:Analysis Agent for Ontology Basic Data) 솔루션(403)은 수집된 온톨로지 데이터(402)의 기본 데이터에서 수집할 데이터와 삭제할 데이터를 구분하여 온톨로지 분석 데이터(404)를 생성한다.
필터링 단계(S303)는 온톨로지 분석 데이터(404)에서 삭제할 찌꺼기 데이터 들을 하위로 내리거나 정제해내는 단계로서, 온톨로지로 구축할 필요없는 데이터를 정제한다. 이를 위해 필터링 에이전트(FA.O.D:Filter Agent for Ontology Data) 솔루션(405)은 온톨로지 분석 데이터(404)에서 삭제할 데이터들을 정제하여 필터링된 온톨로지 분석 데이터(406)를 생성한다.
관계추론 단계(S304)는 필터링된 온톨로지 분석 데이터(406)에서 각 단어들의 관계(예컨대, 단어A와 단어B의 관계)를 분석한 데이터를 추출하기 위한 단계이다. 이를 위한 온톨로지 관계분석 에이전트(AA.OR: Analysis Agent for Ontology Relation Data) 솔루션(407)은 필터링된 온톨로지 분석 데이터(406)에서 단어A와 단어B의 의미관계를 파악하여 관계가 정의된 온톨로지 분석 데이터(408)를 생성한다.
성격부여 단계(S305)는 관계가 정의된 온톨로지 분석 데이터(408)에 성격을 부여한 데이터를 추출하기 위한 것이다. 이를 위한 온톨로지 성격 분석 에이전트(AA.OC:Analysis Agent for Ontology Character Data) 솔루션(409)은 관계가 정의된 온톨로지 분석 데이터(408)에 성격을 부여하여 성격이 부여된 온톨로지 분석 데이터(410)를 생성한다. 예컨대, 'A'- 정치 80%, 경제 20%로 하고,'B'- 문화 70%, 엔터테인먼트 30% 등으로 각 웹 페이지에 성격을 부여한다.
분류 단계(S306)는 성격이 부여된 온톨로지 분석 데이터(410)를 분류한 데이터로 추출하기 위한 단계이다. 이를 위한 분류 분석 에이전트(AA.G.O: Analysis Agent for Grouping at Ontology Data) 솔루션(411)은 성격이 부여된 온톨로지 분석 데이터(410)를 성격의 백분율(%)에 따라서 분류하여 분류된 온톨로지 분석 데이 터(412)를 생성한다.
벡터분석 단계(S307)는 분류된 온톨로지 분석 데이터(412)를 수치분석된 데이터로 저장하기 위한 단계이다. 이를 위한 벡터분석 에이전트(VAA.O:Vector Analysis Agent for Ontology Data) 솔루션(413)은 분류된 온톨로지 분석 데이터(412)를 수치분석하여 온톨로지 벡터 분석 데이터(414)를 생성한다.
예컨대, 다음 표1과 같이 '한국'에 대해 수치분석할 수 있다.
한국 한국 -1020
한국 중국 -1030
한국&중국 -1040
그래프처리 단계(S308)는 수치 분석된 온톨로지 벡터 분석 데이터(414)를 좌표화하여 그래프 처리된 온톨로지 분석 데이터(416)로 저장하기 위한 단계이다. 그래프 분석 에이전트(AA.OG:Analysis Agent for Ontology Graph Data) 솔루션(415)은 앞서 수치 분석된 온톨로지 벡터 분석 데이터(414)를 그래프 데이터로 처리하여 그래프 처리된 온톨로지 분석 데이터를 생성한다.
이상에서 본 발명은 도면에 도시된 일 실시예를 참고로 설명되었으나, 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
도 1은 일반적인 검색엔진의 구조를 도시한 도면,
도 2는 본 발명에 따른 온톨로지 기반 검색엔진의 전체 구조를 도시한 도면,
도 3은 본 발명에 따라 온톨로지를 이용하여 인덱싱하는 절차를 도시한 순서도,
도 4는 본 발명에 따라 온톨로지를 이용하여 인덱싱하는 예를 도시한 도면.

Claims (9)

  1. 삭제
  2. 인터넷상에서 웹 페이지들을 수집하는 게더링 에이전트(GA)와, 수치로 치환할 수 없는 데이터를 분석하여 벡터형태 수치값으로 변환할 수 있도록 하는 분석 에이전트(AA)와, 수치로 치환되는 데이터를 분석하여 단어들과의 관계를 벡터형태의 수치값으로 저장하는 벡터 분석 에이전트(VAA)와, 데이터를 정제하여 사용가능한 형태로 변경하는 필터링 에이전트(FA)로 이루어져 수집된 웹 페이지들을 온톨로지로 분석하여 하나의 웹 페이지에 다수의 인덱스를 생성하는 인덱싱부;
    상기 인덱싱부에 의해 생성된 각 웹 페이지들의 인덱스를 저장하고 있는 인덱스 데이터베이스;
    사용자의 검색어 입력에 따라 상기 인덱스 데이터베이스를 검색하여 온톨로지에 기반한 문서검색을 처리하는 검색 에이전트;
    상기 인덱싱부에 속하는 에이전트들과 상기 검색 에이전트의 상위에 위치하여 해당 에이전트들에게 특정 기능수행을 요청하고 지휘하는 정책기능을 담당하는 정책 에이전트(PA);
    상기 인덱싱부에서의 계산오류를 발견하거나 수정된 데이터를 모니터링하여 상기 정책 에이전트로 전달하는 모니터링 에이전트(MA); 및
    상기 정책 에이전트의 요청에 따라 상기 인덱싱부(210)의 업 데이트를 확인하고 오류를 치료하는 역할을 담당하는 닥터 에이전트(DA)를 구비한 것을 특징으로 하는 온톨로지 기반 검색엔진.
  3. 삭제
  4. 인터넷으로부터 정적 웹 페이지와 동적 웹 페이지를 수집하여 온톨로지를 위한 데이터를 구축하는 웹 페이지 수집단계;
    상기 웹 페이지 수집단계에서 구축된 데이터를 온톨로지 기본 데이터로부터수집할 데이터와 삭제할 데이터를 구분하여 온톨로지 분석 데이터를 생성하는 전처리 단계;
    상기 온톨로지 분석 데이터에서 삭제할 찌꺼기 데이터들을 하위로 내리거나 정제해내는 필터링 단계;
    상기 필터링된 온톨로지 분석 데이터에서 각 단어들 사이의 관계를 추론하는 관계추론 단계;
    상기 관계가 정의된 온톨로지 분석 데이터에 성격을 부여하는 성격부여 단 계;
    상기 성격이 부여된 온톨로지 분석 데이터를 성격에 따라 분류하는 분류 단계;
    상기 분류된 온톨로지 분석 데이터를 수치로 분석하는 벡터 분석 단계; 및
    상기 수치로 분석된 온톨로지 분석 데이터들을 좌표화하여 그래프 데이터로 처리하는 그래프 처리 단계를 구비한 것을 특징으로 하는 온톨로지 기반 인덱스 방법.
  5. 제4항에 있어서, 상기 웹 페이지 수집단계는
    정적 게더링 에이전트(GA.OB.S:Gathering Agent for Ontology Basic Data at Static Web pages)가 신문사, 포럼, 사설과 같은 일정한 소스 형식을 띠면서 정적 규칙에 의해 운영되는 웹 페이지의 데이터로부터 온톨로지 구축을 위한 데이터를 수집하는 단계와,
    동적 게더링 에이전트(GA.OB.D:Gathering Agent for Ontology Basic Data at Dynamic Web pages)가 블로그, 일반 웹 페이지와 같은 동적인 비선형 데이터로부터 온톨로지 구축을 위한 데이터를 수집하는 단계로 이루어진 것을 특징으로 하는 온톨로지 기반 인덱스 방법.
  6. 제4항에 있어서, 상기 관계추론 단계는
    온톨로지 관계분석 에이전트(AA.OR: Analysis Agent for Ontology Relation Data)가 필터링된 온톨로지 분석 데이터에서 단어A와 단어B의 의미관계를 파악하여 관계가 정의된 온톨로지 분석 데이터를 생성하는 것을 특징으로 하는 온톨로지 기반 인덱스 방법.
  7. 제4항에 있어서, 상기 성격부여 단계는
    온톨로지 성격 분석 에이전트(AA.OC:Analysis Agent for Ontology Character Data)가 관계가 정의된 온톨로지 분석 데이터에서 각 웹 페이지를 정치나 경제, 문화와 같은 성격으로 구분한 후 각 성격에 백분율을 부여하여 각 웹 페이지에 성격을 부여하는 것을 특징으로 하는 온톨로지 기반 인덱스 방법.
  8. 제4항에 있어서, 상기 벡터분석 단계는
    벡터분석 에이전트(VAA.O:Vector Analysis Agent for Ontology Data)가 분류된 온톨로지 분석 데이터를 수치 분석하여 온톨로지 벡터 분석 데이터를 생성하는 것을 특징으로 하는 온톨로지 기반 인덱스 방법.
  9. 제4항에 있어서, 상기 그래프처리 단계는
    그래프 분석 에이전트(AA.OG:Analysis Agent for Ontology Graph Data)가 수치 분석된 온톨로지 벡터 분석 데이터를 그래프 데이터로 처리하여 그래프 처리된 온톨로지 분석 데이터를 생성하는 것을 특징으로 하는 온톨로지 기반 인덱스 방법.
KR1020080095269A 2007-09-27 2008-09-29 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진 KR101038337B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20070097333 2007-09-27
KR1020070097333 2007-09-27

Publications (2)

Publication Number Publication Date
KR20090033150A KR20090033150A (ko) 2009-04-01
KR101038337B1 true KR101038337B1 (ko) 2011-06-01

Family

ID=40759657

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080095269A KR101038337B1 (ko) 2007-09-27 2008-09-29 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진

Country Status (1)

Country Link
KR (1) KR101038337B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100987761B1 (ko) * 2008-12-15 2010-10-13 한국과학기술정보연구원 통합 데이터베이스 구축을 위한 데이터 정제 시스템 및방법과 이를 위한 기록매체
US20160148227A1 (en) 2011-06-03 2016-05-26 Nudgit, Inc. System and methods for demand-driven transactions
KR101913861B1 (ko) * 2012-02-24 2018-12-28 한양대학교 에리카산학협력단 온톨로지 기반 데이터 센터 관리 시스템
US11151982B2 (en) 2020-03-23 2021-10-19 Sorcero, Inc. Cross-context natural language model generation
CN116910186B (zh) * 2023-09-12 2023-11-21 南京信息工程大学 一种文本索引模型构建方法、索引方法、系统和终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060103165A (ko) * 2005-03-23 2006-09-28 조광현 분류된 웹 사이트 검색 시스템 및 방법
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
KR100729103B1 (ko) * 2006-05-29 2007-06-14 주식회사 케이티 비구조 웹문서로부터 온톨로지 인스턴스를 자동으로추출하기 위한 시스템 및 그 방법
KR20070091091A (ko) * 2007-08-20 2007-09-07 한국정보통신대학교 산학협력단 자원의 시맨틱 공간 매핑을 이용한 시맨틱 자원 검색 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060103165A (ko) * 2005-03-23 2006-09-28 조광현 분류된 웹 사이트 검색 시스템 및 방법
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
KR100729103B1 (ko) * 2006-05-29 2007-06-14 주식회사 케이티 비구조 웹문서로부터 온톨로지 인스턴스를 자동으로추출하기 위한 시스템 및 그 방법
KR20070091091A (ko) * 2007-08-20 2007-09-07 한국정보통신대학교 산학협력단 자원의 시맨틱 공간 매핑을 이용한 시맨틱 자원 검색 방법

Also Published As

Publication number Publication date
KR20090033150A (ko) 2009-04-01

Similar Documents

Publication Publication Date Title
Segev et al. Context-based matching and ranking of web services for composition
US20080195568A1 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
CN1169195A (zh) 存取信息的方法和/或系统
KR101038337B1 (ko) 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진
KR100800460B1 (ko) 웹 온톨로지 검색/분류 시스템 및 방법
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
Hoeber Web information retrieval support systems: The future of web search
Tsay Knowledge flow out of the domain of information science: a bibliometric and citation analysis study
Maciołek et al. Cluo: Web-scale text mining system for open source intelligence purposes
KR101044633B1 (ko) 시맨틱 웹 기반 인덱스 방법 및 이를 이용한 검색엔진
Zhao et al. Forestry big data platform by Knowledge Graph
Aliakbary et al. Web page classification using social tags
Kadry et al. On the improvement of weighted page content rank
KR101665649B1 (ko) 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Moumtzidou et al. Discovery of environmental nodes in the web
Schatten et al. Big data analytics and the social web: A tutorial for the social scientist
Alfred et al. A robust framework for web information extraction and retrieval
Musunuru litreviewer: A Python Package for Review of Literature (RoL)
Raghavan et al. Information retrieval as a domain: visualizations based on two data sets
Alejo-Machado et al. Bibliometric study of the scientific research on “Learning to Rank” between 2000 and 2013
Nowick et al. A model search engine based on cluster analysis of user search terms
Tanvir et al. Design and Implementation of Web Crawler utilizing Unstructured data
Theeramunkong et al. A framework for constructing a thai medical knowledge base
CN116936124B (zh) 一种健康医疗标准体系构建方法、系统及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee