KR20120071645A

KR20120071645A - 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법

Info

Publication number: KR20120071645A
Application number: KR1020100133268A
Authority: KR
Inventors: 양형정; 신형욱
Original assignee: 전남대학교산학협력단
Priority date: 2010-12-23
Filing date: 2010-12-23
Publication date: 2012-07-03
Also published as: KR101229401B1

Abstract

검색 결과를 링크형태가 아닌 융합된 정보를 사용자에게 즉시 제공하여 검색결과를 다시 검색해야하는 사용자들의 불편을 해소할 수 있도록, 베이즈정리를 사용하여 특정 정보를 가진 웹 페이지의 특징여부를 분류하고 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하고 온톨로지 데이터사전을 구축하여 단어들이 어떤 항목과 연관을 가지며 어떤 단어와 동일한 뜻으로 사용할 수 있는지 작성하고 다양한 단어를 하나로 통일하기 위한 고유의 명칭을 작성하는 전처리단계와, 사용자가 키워드를 입력하면 크롤러가 순환하면서 웹 페이지 주소를 가져오고 래퍼는 주소를 참조하여 웹 페이지 데이터를 추출하고 웹 페이지의 정보에 분류한 특징을 포함하고 있는지 여부를 판단하고 불용어와 중복어를 제거한 후 각 어간의 원형을 복원하는 작업을 수행하는 정보추출단계와, 온톨로지 데이터 사전에 따라 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리를 통하여 학습된 통계를 토대로 나이브베이즈 방법을 사용하여 키워드에 합당한 웹 페이지 인지를 분석하는 신뢰도 평가단계와, 저장된 데이터들을 정해진 다수의 카테고리로 검색하여 통합된 하나의 새로운 명칭을 부여하는 메타데이터 구축단계를 포함하는 웹페이지의 이질적 데이터 정보융합 제공방법을 제공한다.

Description

웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법 {System for Integrating Heterogeneous Web Information and Method of The Same}

본 발명은 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 관한 것으로서, 보다 상세하게는 각기 다른 데이터를 가지고 있는 웹페이지들의 정보를 명칭과 값으로 구분하여 다수의 웹페이지를 하나의 웹페이지로 통합하는 과정을 거쳐 테이블 형태의 웹페이지로 사용자에게 제공하여 정보가 범람하는 웹에서 사용자의 불편함을 해소하고 검색시간의 단축 및 정확하고 가독성이 우수한 검색이 가능한 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 관한 것이다.

최근 광범위한 인터넷의 보급으로 인하여 웹(Web)은 정보의 창고이자 정보의 바다가 되었다. 인터넷은 사용자에게 정보검색의 편리함과 다양한 지식을 접할 수 있는 기회를 제공하면서 이면으로는 폭발적인 정보의 증가로 사용자는 원하는 정보를 얻기 위하여 많은 시간과 노력을 할애하여야 한다. 또한 다양한 검색 엔진들이 각각의 다른 형태의 정보를 제공하기 때문에 사용자의 불편함은 날로 커지고 있는 실정이다. 이러한 실정은 인터넷에 익숙한 젊은 계층의 사용자보다 인터넷에 익숙하지 못한 기성세대 사용자들의 불편함을 더욱 심하게 만들었다. 이 같은 이유로 인터넷에 익숙하지 못한 사용자들은 정보를 제공받는데 소외되어 가고, 웹에 존재하는 정보가 커지면 커질수록 사용자의 불편은 더욱 가시화될 전망이다.

따라서, 나날이 증가하는 정보의 홍수에서 데이터를 효율적이고 사용자에게 정확한 정보를 제공하는 시스템이 요구되었고, 이러한 요구사항을 충족하기 위하여 사용자의 편의를 제공하기 위한 방법으로 메타데이터와 의미기반의 시맨틱 웹(Semantic web)이 등장하게 되었다.

시맨틱 웹은 현재의 인터넷과 같은 분산 환경에서 리소스(웹 문서, 각종 파일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지(Ontology) 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술이다. 웹의 창시자인 팀 버너스 리가 1998년 제안했고 현재 W3C에 의해 표준화 작업이 진행 중이다.

기존의 웹의 HTML로 작성된 문서는 컴퓨터가 의미정보를 해석할 수 있는 메타데이터(Metedata)보다는 사람의 눈으로 보기에 용이한 시각정보에 대한 메타데이터와 자연어로 기술된 문장으로 이루어져 있다. 예를 들어 "바나나는 노란색이다."라는 예에서 볼 수 있듯 이라는 태그는 단지 바나나와 노란색이라는 단어를 강조하기 위해 사용되고, 이 HTML을 받아서 처리하는 기계(컴퓨터)는 "바나나"라는 개념과 "노란색"이라는 개념이 어떤 관계를 가지는지 해석할 수 없으며, 단지 태그로 둘러싸인 구절을 다르게 표시하여 시각적으로 강조를 할 뿐이다. 게다가 바나나가 노란색이라는 것을 서술하는 예의 문장은 자연어로 작성되었으며 기계는 단순한 문자열로 해석하여 화면에 표시한다.

시맨틱 웹은 XML에 기반을 둔 시맨틱 마크업 언어를 기반으로 한다. 가장 단순한 형태인 RDF는 "<Subject, Predicate, Object>"의 트리플 형태로 개념을 표현한다. 위의 예를 트리플로 표현하면 "<urn:바나나, urn:색, urn:노랑>"과 같이 표현할 수 있으며, 이렇게 표현된 트리플을 컴퓨터가 해석하여 "urn:바나나"라는 개념은 "urn:노랑"이라는 "urn:색"을 가지고 있다는 개념을 해석하고 처리하게 된다. 이를 위해서 의미 정보를 포함한 메타데이터의 필요성이 더욱 커지고 있다.

메타데이터는 데이터에 관한 구조화된 데이터로서 문헌의 일부가 아닌 문헌 자체에 관한 데이터이며, 자원과는 독립적으로 존재하면서 다양한 접근 점과 네트워크 주소를 포함한 레코드라고 할 수 있다. 즉, 메타데이터란 어떠한 개체나 자원(물리적인 것이든 전자적인 것이든 상관없음)에 대한 기술 정보(descriptive information)이다. 메타데이터는 여러 요소로 나누어지는데 그 각각은 정보자원의 독특한 측면을 기술하며, 단순화를 거쳤기 때문에 생성과 유지가 쉽고, 누구나 이해가 쉬우며, 국제적으로 인정되는 형식을 갖추면서 이후 확장성을 가질 수 있는 융통성 있는 구조로 이루어진다.

온톨로지(Ontology)란 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다. 온톨로지는 일단 합의된 지식을 나타내므로 어느 개인에게 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념이고, 프로그램이 이해할 수 있어야 하므로 여러 가지 정형화가 존재한다. 이는 전산학과 정보 과학에서, 특정한 영역을 표현하는 데이터 모델로서 특정한 영역(Domain)에 속하는 개념과, 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의된다. 예를 들어 "종-속-과-목-강-문-계"로 분류되는 생물과 생물 사이의 종의 관계, 영어 단어 사이의 관계 같은 것을 정형 어휘로 기술하면 각각 온톨로지라고 할 수 있다. 정형 언어(Formal Language)로 기술된 어휘의 집합인 온톨로지는 추론(Reasoning, Inference)을 하는 데에 사용된다.

웹의 등장은 전통적인 정보검색을 비롯하여 지식관리와 일반 상거래 등 사회 전 분야의 변혁을 초래하였다. 특히 웹 정보 검색은 소장 자료를 대상으로 하는 제한된 검색에서 웹을 통해 접근할 수 있는 전자자원을 대상으로 하는 검색을 가능하게 하였다. 웹의 급속한 발달로 인해 검색 대상 범위의 확대는 보다 정교한 검색을 필요로 하게 되었으며, 지능화된 정보 검색 시스템 개발을 촉진하는 계기가 되었다. 이런 계기를 바탕으로 웹 자원을 효과적으로 관리할 수 있는 정보 검색의 새로운 도구의 필요성이 대두되었다. 온톨로지는 시맨틱 웹을 구현할 수 있는 도구로써 지식개념을 의미적으로 연결할 수 있는 도구이다.

온톨로지는 자연어의 기계 번역과 인공지능 분야에서 활용되며, 최근에는 특정 분야의 인터넷 자원과 그 사이의 관계를 기술하는 온톨로지를 사용하는 시맨틱 웹과 이것에서 파생된 시맨틱 웹 서비스 등의 핵심 요소로서 주목받고 있다.

시맨틱 웹과 메타데이터의 결합은 개발자들에게는 체계적인 문서를 구성하는데 있어서 편리한 룰 모델이 되고, 체계적인 문서 구조와 특정한 태그를 사용한 문서의 내용 기술 방법은 사용자들에게는 원하는 정보를 빠르고 정확하게 찾아내는데 도움이 된다. 따라서 더욱 진보화된 정보의 검색을 위하여 시맨틱웹을 이용한 메타데이터의 구성에 관한 연구가 활발히 진행되고 있다. 그러나 웹에 존재하는 정보들은 각기 다른 카테고리의 다양한 의미의 언어로 구성되어 있고, 같은 카테고리의 단어라 할지라도 다른 음절을 표기하여 사용하는 경우도 많다. 또한 각기 다른 구조의 이질의 데이터들은 사용자들의 빠르고 효율적인 정보검색에 어려움을 만들어 내고 있다. 따라서 동음이의어와 이음동의어를 구별할 수 있고, 분산된 다양한 이질의 데이터들을 하나로 통합하고, 사용자들에게 제공할 수 있는 에이전트가 필요한 실정이다.

웹 검색 기술은 나날이 발전하고 있다. 그중에서도 차세대 웹의 표준으로 주목받고 있는 시맨틱 웹은 인간의 언어를 컴퓨터가 이해하고 질의에 대한 답을 제시한다는 측면에서 정보검색 분야의 기술 발전에 많은 기대를 안고 있다. 이러한 기대를 안고 시맨틱 웹은 검색의 기술을 더욱 발전시키고, 사용자에게 정확하고 다양한 검색이라는 편의를 제공하기 위하여 활발한 연구가 진행되고 있다.

시맨틱 웹은 메타데이터, 온톨로지, 검색어의 범위선정 등이 적절한 조합을 이룰 때 제대로 발휘할 수 있으며, 포털사이트를 제공하는 국내외의 많은 업체들이 시맨틱 웹을 구성하기 위하여 가장 많이 사용되는 방법은 데이터베이스의 분산된 데이터들을 연관성 있는 주제로 통합하여 제공하는 데이터 그리드(Data Grid), 데이터 통합(Data Integration), 자연어 검색어 기반으로 검색어와 가장 유사한 목록을 보여주는 통합검색의 3가지로 나누어진다.

데이터 그리드(Data Grid)는 그리드(Grid)라는 개념을 데이터(Data)에 접목한 것으로 주로 분산된 데이터베이스를 하나의 데이터베이스로 통합하는 의미로 사용한다. 즉, 데이터 그리드(Data Grid)는 대량의 분산된 데이터를 제어하고, 계산을 담당하는 그리드 컴퓨팅 시스템(Grid Computing System)과 때때로 결합하는 데이터들을 분배하는 역할을 하는 컴퓨터 시스템이다. 데이터 그리드(Data Grid)는 분산 병렬 컴퓨팅의 한 분야로서, 원거리 통신망(WAN, Wide Area Network)으로 연결된 서로 다른 기종의(heterogeneous) 컴퓨터들을 묶어 가상의 대용량 고성능 컴퓨터를 구성하여 고도의 연산(computation intensive jobs) 혹은 대용량 연산(data intensive jobs)을 수행하는 그리드 컴퓨팅(Grid Computing)을 응용하여 발전되었다.

데이터 통합(Data Integration)은 데이터 그리드(Data Grid)와 크게 다르지 않지만 데이터의 흐름을 제어하는 프로세스를 사용하여 분산된 정보들을 통합하여 제공하는 일련의 방법론이다. 데이터 통합은 다른 종류의 데이터를 하나의 관점으로 결합하여 사용자에게 제공하기 위하여 상업적(두개의 비슷한 성향의 회사의 데이터베이스 공유)이면서 또한 과학적(연구 결과를 결합하여 새로운 생물정보학의 결과를 도출)인 두 가지 측면에서 접근한다.

데이터 통합(Data Integration)을 사용한 웹 어플리케이션은 사용자가 도시의 범죄율, 날씨, 호텔, 인구통계와 같은 사항을 고려해 가상의 데이터 통합을 위하여 가상 스키마(Virtual Schema)를 제작하고 사용자들이 원하는 질의의 정보들을 하나로 묶는 방법으로 모델화하고, 모델화된 정보를 토대로 래퍼(Wrapper) 또는 어댑터(Adapter)라는 방법을 사용하여 가상의 정보를 실제 데이터베이스로 병합하는 방법으로 데이터 통합(Data Integration)을 실현한다. 이러한 중간 제어 시스템의 사용 여부가 데이터 그리드(Data Grid)와 가장 차별화되는 데이터 통합(Data Integration)의 특징이다.

기존의 월드와이드웹(WWW)의 검색엔진은 그 분류기준에 따라 다양하게 나눌 수 있지만, 가장 일반적인 분류법은 검색방법에 따라 주제(Subject) 검색과 주제어(Keyword) 검색, 두 가지로 나누며, 주제 검색은 해당 검색엔진이 이미 설정해 놓은 주제 분류를 따라 점차 깊이를 더해 가면서 최종 자료에 접근하는 검색방법이며, 주제어 검색은 검색엔진이 미리 설정해 놓은 주제 없이 사용자에 의한 키워드 입력을 통해 최종 자료에 접근해 가능 방법이다.

주제 검색은 '메뉴 검색'으로 칭하기도 하는데, 초기 탑 메뉴(Top menu)가 있고 그 가운데 어느 하나를 선택해서 한 단계 내려가면 또 다른 하위메뉴를 만나고, 이런 형식으로 계속해서 4~5 단계까지 깊이를 더해 가면 최종자료에 접근할 수 있는 주제 이동을 통한 검색이다. 주제검색은 데이터베이스(DB)의 규모가 작은 경우 개발과 검색에 편리하지만, 보유 레코드 수가 작게는 10만개부터 많게는 수천만 개에 이르는 현재의 인터넷 검색엔진에서는 원활한 검색이 불가능하다.

주제어 검색은 일종의 소프트웨어로 기존에 수작업으로 웹 페이지를 찾아다니며 색인하던 작업 을 자동적으로 검색하고, 색인하여 이를 데이터베이스화하는 프로그램인 로봇(Robots, Wanderers, Spiders)이라는 개념을 인터넷 검색엔진에 도입하여 이루어진 것으로, 많게는 하루에 수십만 개의 웹 페이지를 검색, 색인할 수 있는 로봇이 개발되어 대규모 데이터베이스를 만들고, 로봇에 의해 만들어진 데이터베이스는 대부분이 주제어 검색이 가능하도록 설계된다.

따라서 사용자가 힘들게 메뉴 따라 이동할 필요 없이 입력한 키워드를 만족하는 자료를 화면에 바로 출력하므로, 주제 검색에서 주제어 검색으로 인터넷 검색엔진이 전환되었다.

이러한 단계를 넘어서 Web 2.0의 시대에 도달한 현재의 검색엔진은 사용자의 입력을 이해하고, 그에 따른 결과를 사용자가 이해하기 쉽고, 보기 편하게 제공하는 방법으로 시맨틱 웹과 메타데이터가 활발히 연구되고 있다.

국내의 포털사이트는 통합검색이라는 이름으로 메타데이터를 구성하고 사용자에게 제공하는 방법을 선택하고 있으며, 키워드와 연관된 항목들을 추출하여 카테고리를 분류하고 사용자들로 하여금 각 카테고리의 항목들을 선택하여 정보를 제공받을 수 있도록 메타데이터를 구성하고 있다.

그러나 이러한 방법은 단순한 키워드 매칭에 따른 결과를 카테고리로 분류하여 보여주는 것에 지나지 않기 때문에 사용자가 원하는 정보를 얻기 위해서는 많은 링크를 추적하고 결과를 확인해야 하는 불편함이 따른다. 또한 키워드를 입력했을 때, 키워드매칭에 따른 동음이의어와 이음동의어를 구별할 수 있는 방법을 사용하고 있지 않기 때문에 동음이의어를 모두 결과로 출력하는 문제점도 노출하고 있다.

최근의 검색 기술은 시맨틱 웹이라는 카테고리를 추가하여 사용자가 입력한 검색어에 연관된 일종의 소셜 네트워크(Social Network)의 방법으로 메타데이터를 구축하여 사용자의 편의를 제공한다.

이러한 방법은 특정한 키워드에 대한 다양한 결과를 보여줄 수 있다는 장점을 가지지만, 너무 많은 결과가 제시되면 원하는 정보를 찾는데 통합검색보다 더욱 많은 시간이 소요될 수 있으며, 결과에 따른 내용을 보여주는 것이 아니고 통합검색과 마찬가지로 관련됐다고 판단된 문서들을 링크로 제공하고 있기 때문에 사용자는 링크를 추적하여 내용을 확인해야 한다는 문제점이 있다.

기존의 정보융합에 관한 연구방법들은 확장성과 사용자의 주도적인 사용이라는 측면에서 큰 문제점을 가지며, 사용자가 임의로 접근할 수 없는 데이터베이스를 기반으로 한다는 점에서 확장성의 문제를 가지며, 관리자에 의해서만 이루어질 수 있는 데이터베이스 기반의 정보 통합은 사용자의 주도적인 사용을 가로막고 있다.

현재의 인터넷 검색엔진들에 있어서는 동음이의어와 이음동의어를 구별할 수 있는 방법을 필요로 하며, 검색 결과를 링크 형태로 제공하므로 사용자의 불편을 초래하고, 카테고리의 범주를 정확하게 지정해야 하며, 메타데이터를 구성하는 방법을 정확하게 제시하고 결과를 보여줄 수 있는 방법이 필요하고, 사용자가 주도적으로 참여할 수 없는 방식으로 메타데이터가 구성되고, 의미 중의성을 고려하는 것도 중요하지만 메타데이터를 구성하고 사용자에게 제공하는 방법이 우선시 되어야 하는 등의 문제가 있다.

본 발명은 상기와 같은 문제를 해결하기 위하여 안출된 것으로서, 웹 페이지를 대상으로 미리 학습되거나, 특정한 태그를 이용하여 분류된 웹 페이지를 온톨로지 데이터사전을 이용하여 동음이의어와 이음동의어를 구별하여 카테고리를 분류하고, 분산되어 있는 이질의 데이터들의 명칭(Name Entity)과 값(value)을 추출하여 통합된 한 개의 테이블 형태의 웹 페이지로 XML(extensible markup language)형식의 메타데이터를 구축하여 사용자에게 제공하는 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 제공하는데, 그 목적이 있다.

그리고 본 발명의 다른 목적은 온톨로지(Ontology)와 OWL(Web Ontology Language)룰을 사용한 동음이의어와 이음동의어를 구별할 수 있는 데이터사전을 구축하고, 데이터베이스에 독립적인 시스템 구성을 위하여 전처리단계의 학습파트를 제외하고는 모든 데이터를 XML(extensible markup language)과 OWL(Web Ontology Language)형태의 독립된 파일로 구성하며, 검색 결과를 링크형태가 아닌 시스템으로부터 융합된 정보를 사용자에게 즉시 제공하여 검색결과를 다시 검색해야하는 기존 사용자들의 불편을 해소한 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 제공하기 위한 것이다.

본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법은 전처리단계, 정보추출단계, 신뢰도 평가단계, 메타데이터 구축단계를 포함하여 이루어진다.

상기 전처리단계는 학습단계와 데이터사전 구축단계를 포함하여 이루어진다.

상기 학습단계에서는 베이즈정리(Bayes Theorem)를 사용하여 각 특정 정보를 가진 웹 페이지의 특징과, 특정 정보를 가지지 않은 웹 페이지의 특징을 분류하고 각각의 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하도록 이루어진다.

상기 데이터사전 구축단계에서는 의미의 중의성을 해결하고, 정확도 높은 검색을 지원하기 위하여 온톨로지(Ontology) 데이터사전을 구축하여 각 단어들이 어떤 항목과 연관을 가지는지, 어떤 단어와 동일한 뜻으로 사용할 수 있는지를 작성한다.

그리고 상기 데이터사전 구축단계에서는 상기 메타데이터 구축단계에서 다양한 단어들을 하나로 통일하기 위한 고유의 명칭(Name Entity)을 작성한다.

상기 정보추출단계에서는 사용자가 키워드를 입력하면 미리 인덱스된 웹 페이지이거나 분류 가능하게 정의된 태그를 가지는 웹 페이지들의 정보를 크롤러(Crawler)가 순환하면서 웹 페이지 주소를 가져오고, 래퍼(Wrapper)는 웹 페이지 주소를 참조하여 웹 페이지 데이터를 추출한다.

상기 정보추출단계에서는 추출된 웹 페이지들의 정보를 상기 전처리단계의 학습단계에서 분류한 특징을 포함하고 있는지 여부를 판단하고, 불용어(올바르지 않은 용어), 중복어(중복된 용어)와 같은 불필요한 정보를 제거한 후 각 어간의 원형을 복원하는 작업을 수행한다.

상기와 같이 정보추출단계에서 불필요한 정보를 제거하게 되면, 상기 신뢰도 평가단계로 이동하기 전에 불필요한 데이터를 삭제함으로써 저장 공간을 효율적으로 사용하고, 시스템의 속도를 높이는 것이 가능하다.

상기 신뢰도 평가단계에서는 상기 전처리단계에서 미리 정의된 온톨로지 데이터 사전에 따라서 각각의 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리(Bayes Theorem)를 통하여 학습된 통계를 토대로 나이브베이즈(Naive Bayes) 방법을 사용하여 사용자의 키워드에 합당한 웹 페이지 인지를 분석한다.

상기 신뢰도 평가단계에서는 분석된 데이터들이 80%이상의 신뢰도를 갖는 웹 페이지라고 판단될 경우 사용자가 입력한 키워드를 포함하는 문서인지를 판단하고, 사용자의 키워드를 포함한 문서는 메모리에 저장하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행한다.

상기 신뢰도 평가단계에서는 분석된 데이터들이 80%미만의 신뢰도를 갖는 웹 페이지라고 판단될 경우에는 메모리에서 삭제를 하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행한다.

상기 메타데이터 구축단계에서는 메모리에 저장된 데이터들을 상기 전처리단계에서 정해진 다수의 카테고리로 검색하여 통합된 하나의 명칭(Name Entity)을 결정하는 단계를 거치고, 래퍼(Wrapper)에 의해서 새로운 명칭(Name Entity)을 부여한다.

상기 메타데이터 구축단계에서는 같은 카테고리로 분류된 정보들은 서로의 값을 비교하여 인티저(Integer)형태의 값은 가장 큰 값을 구하여 최종 값으로 결정하고, 스트링(String)형태의 값은 가장 길이(Length)가 큰 값을 기준으로 다른 스트링(String)형태와 비교하여 중복된 단어와 같은 의미를 제거한 후 ","를 사용하여 스트링(String)을 추가한다.

상기와 같은 단계를 통하여 메타데이터까지 제작된 데이터는 사용자에게 가독성이 뛰어나고 한 번에 알아볼 수 있는 한 개의 테이블(One Paging Table)형태의 화면(웹 페이지)으로 출력하여 제공된다.

그리고 본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템은 전처리 모듈, 정보추출모듈, 신뢰도 평가 모듈, 메타데이터 구축 모듈을 포함하여 이루어진다.

상기 전처리 모듈은 베이즈정리(Bayes Theorem)를 사용하여 각 특정 정보를 가진 웹 페이지의 특징과, 특정 정보를 가지지 않은 웹 페이지의 특징을 분류하고 각각의 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하도록 이루어지는 학습모듈과, 의미의 중의성을 해결하고, 정확도 높은 검색을 지원하기 위하여 온톨로지(Ontology) 데이터사전을 구축하여 각 단어들이 어떤 항목과 연관을 가지는지, 어떤 단어와 동일한 뜻으로 사용할 수 있는지를 작성하도록 이루어지는 데이터사전 구축 모듈을 포함하여 이루어진다.

그리고 상기 데이터사전 구축 모듈은 상기 메타데이터 구축 모듈에서 다양한 단어들을 하나로 통일하기 위한 고유의 명칭(Name Entity)을 작성한다.

상기 정보추출모듈은 사용자가 키워드를 입력하면 미리 인덱스된 웹 페이지이거나 분류 가능하게 정의된 태그를 가지는 웹 페이지들의 정보를 순환하면서 웹페이지 주소를 가져오는 크롤러(Crawler)와, 웹 페이지 주소를 참조하여 웹 페이지 데이터를 추출하는 래퍼(Wrapper)를 포함하여 이루어진다.

상기 정보추출모듈은 상기 크롤러와 래퍼를 통하여 추출된 웹 페이지들의 정보를 상기 전처리 모듈의 학습모듈에서 분류한 특징을 포함하고 있는지 여부를 판단하고, 불용어(올바르지 않은 용어), 중복어(중복된 용어)와 같은 불필요한 정보를 제거한 후 각 어간의 원형을 복원하는 작업도 수행한다.

상기와 같이 정보추출모듈에서 불필요한 정보를 제거하게 되면, 상기 신뢰도 평가 모듈로 이동하기 전에 불필요한 데이터를 삭제함으로써 저장 공간을 효율적으로 사용하고, 시스템의 속도를 높이는 것이 가능하다.

상기 신뢰도 평가 모듈은 상기 전처리 모듈에서 미리 정의된 온톨로지 데이터 사전에 따라서 각각의 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리(Bayes Theorem)를 통하여 학습된 통계를 토대로 나이브베이즈(Naive Bayes) 방법을 사용하여 사용자의 키워드에 합당한 웹 페이지 인지를 분석한다.

상기 신뢰도 평가 모듈은 분석된 데이터들이 80%이상의 신뢰도를 갖는 웹 페이지라고 판단될 경우 사용자가 입력한 키워드를 포함하는 문서인지를 판단하고, 사용자의 키워드를 포함한 문서는 메모리에 저장하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행한다.

상기 신뢰도 평가 모듈은 분석된 데이터들이 80%미만의 신뢰도를 갖는 웹 페이지라고 판단될 경우에는 메모리에서 삭제를 하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행한다.

상기 메타데이터 구축 모듈은 메모리에 저장된 데이터들을 상기 전처리 모듈에서 정해진 다수의 카테고리로 검색하여 통합된 하나의 명칭(Name Entity)을 결정하고, 래퍼(Wrapper)에 의해서 새로운 명칭(Name Entity)을 부여한다.

상기 메타데이터 구축 모듈은 같은 카테고리로 분류된 정보들은 서로의 값을 비교하여 인티저(Integer)형태의 값은 가장 큰 값을 구하여 최종 값으로 결정하고, 스트링(String)형태의 값은 가장 길이(Length)가 큰 값을 기준으로 다른 스트링(String)형태와 비교하여 중복된 단어와 같은 의미를 제거한 후 ","를 사용하여 스트링(String)을 추가한다.

상기 메타데이터 구축 모듈은 메타데이터까지 제작된 데이터를 사용자에게 가독성이 뛰어나고 한 번에 알아볼 수 있는 한 개의 테이블(One Paging Table)형태의 화면(웹 페이지)으로 출력하여 제공한다.

본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 의하면, 전처리, 정보추출, 정보수정, 신뢰도 평가, 메타데이터 구축의 체계적인 순서로 분산된 이질의 데이터들에 대하여 하나의 문서로 통합하여 사용자들에게 제공하는 방법을 제시한다.

그리고 본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 의하면, 종래의 의미 중의성으로 인하여 이질 데이터의 융합의 어려움, 다중 링크를 통한 사용자의 불편 초래, 사용자가 개입하거나 확장이 용이하지 못한 데이터베이스의 사용이라는 문제점을 해소하는 것이 가능하다.

본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 의하면, 온톨로지 데이터사전을 구축하여 각 항목간의 동음이의어와 이음동의어를 포함한 분류를 진행하고 고유의 명칭(Name Entity)을 부여하여 의미 중의성으로 인한 문제를 해결하고, 검색어를 입력하면 사용자에게 링크를 제공하는 대신에 내부적인 알고리즘들을 사용하여 사용자의 키워드에 맞는 정보를 제공하며, 데이터베이스의 사용을 최소화하기 위하여 오직 전처리에서의 학습에서만 데이터베이스를 사용하고, 온톨로지와 다른 분야의 웹 페이지 데이터만 있다면 바로 학습하여 사용 가능 확장성을 확보하는 것이 가능하다.

나아가 본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 의하면, 사용자가 원하는 정보를 얻기 위해 겪는 불편함을 해소하고, 낭비되는 시간을 줄여주고, 정보검색에 익숙하지 않은 사용자들에게도 편리함을 제공하는 것이 가능하다.

본 발명의 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 의하면, 전방위적으로 적용 가능하기 때문에 다른 분야의 웹 페이지 정보들에 대한 메타데이터의 구축을 적용하고, 나아가서 사진이나 동영상을 매칭할 수 있는 알고리즘을 적용하여 더욱 다양한 정보들을 사용자에게 제공하는 것도 가능하다.

도 1은 본 발명의 일실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템을 개략적으로 나타내는 블럭도이다.
도 2는 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법을 개략적으로 나타내는 순서도이다.
도 3은 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법에 있어서, 학습 모듈에서 이루어지는 학습단계의 과정을 개략적으로 나타내는 순서도이다.
도 4는 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법에 있어서, 정보추출 모듈에서 이루어지는 정보추출단계의 과정을 개략적으로 나타내는 순서도이다.
도 5는 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법에 있어서, 신뢰도 평가 모듈에서 이루어지는 신뢰도 평가단계의 과정을 개략적으로 나타내는 순서도이다.
도 6은 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법에 있어서, 메타데이터 구축 모듈에서 이루어지는 메타데이터 구축단계의 과정을 개략적으로 나타내는 순서도이다.
도 7은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 참(True) 데이터를 담고 있는 웹 페이지 40개의 최상위 14개의 정보를 나타내는 표이다.
도 8은 도 7에 대응하는 거짓(False) 데이터를 담고 있는 웹 페이지 40개의 14개의 정보를 나타내는 표이다.
도 9는 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 특징 온톨로지 데이터사전의 특징 이름에 대한 부분을 나타내는 표이다.
도 10은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 특징 온톨로지 데이터사전의 특징 외 이름에 대한 부분을 나타내는 표이다.
도 11은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 특징 온톨로지 데이터사전 관계도를 나타내는 컴퓨터 화면 이미지이다.
도 12 및 도 13은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 참(True) 데이터를 담고 있는 웹 페이지 40개 및 거짓(False) 데이터를 담고 있는 웹 페이지 40개에 대한 총 80개의 웹 페이지로 이루어진 베이즈정리방법에 의한 학습 데이터를 나타내는 이미지이다.
도 14 및 도 15는 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 크롤러의 웹 페이지 주소 수집을 보여주는 컴퓨터 화면 이미지이다.
도 16은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 래퍼의 정보추출을 보여주는 컴퓨터 화면 이미지이다.
도 17은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 특징을 가지고 있는 웹 페이지에 대한 특징 검사의 결과를 나타내는 컴퓨터 화면 이미지이다.
도 18은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 특징을 하나도 갖지 않은 웹 페이지에 대한 특징 검사의 결과를 나타내는 컴퓨터 화면 이미지이다.
도 19는 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 정보수정을 거치기 전의 데이터를 보여주는 컴퓨터 화면 이미지이다.
도 20은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 정보수정을 행한 이후의 데이터를 보여주는 컴퓨터 화면 이미지이다.
도 21은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 휠체어 정보를 포함하는 웹 페이지에 대한 신뢰도 평가를 행한 결과를 보여주는 컴퓨터 화면 이미지이다.
도 22는 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 휠체어 정보를 포함하지 않는 웹 페이지에 대한 신뢰도 평가를 행한 결과를 보여주는 컴퓨터 화면 이미지이다.
도 23은 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 명칭을 결정한 온톨로지 데이터사정을 보여주는 컴퓨터 화면 이미지이다.
도 24는 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 메타데이터 구축 모듈의 래퍼에 의한 명칭 부여를 보여주는 컴퓨터 화면 이미지이다.
도 25는 본 발명의 일실시예 및 다른 실시예에 따른 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법을 통합형 휠체어 정보를 제공하기 위하여 적용한 경우에 있어서, 최종적으로 사용자에게 제공도는 검색 결과를 보여주는 웹 페이지의 컴퓨터 화면 이미지이다.

다음으로 본 발명에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법의 바람직한 실시예를 도면을 참조하여 상세하게 설명한다.

먼저 본 발명의 일실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공 시스템은 도 1에 나타낸 바와 같이, 전처리 모듈(100), 정보추출모듈(200), 신뢰도 평가 모듈(300), 메타데이터 구축 모듈(400)을 포함하여 이루어진다.

상기 전처리 모듈(10)는 학습모듈(102)과, 데이터사전 구축 모듈(104)을 포함하여 이루어진다.

상기 학습모듈(102)은 베이즈정리(Bayes Theorem)를 사용하여 각 특정 정보를 가진 웹 페이지의 특징과, 특정 정보를 가지지 않은 웹 페이지의 특징을 분류하고 각각의 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하도록 이루어진다.

상기 데이터사전 구축 모듈(104)은 의미의 중의성을 해결하고, 정확도 높은 검색을 지원하기 위하여 온톨로지(Ontology) 데이터사전을 구축하여 각 단어들이 어떤 항목과 연관을 가지는지, 어떤 단어와 동일한 뜻으로 사용할 수 있는지를 작성하도록 이루어진다.

그리고 상기 데이터사전 구축 모듈(104)은 상기 메타데이터 구축 모듈(400)에서 다양한 단어들을 하나로 통일하기 위한 고유의 명칭(Name Entity)을 작성한다.

상기 정보추출모듈(200)은 크롤러(202)와, 래퍼(204)를 포함하여 이루어진다.

상기 크롤러(202)는 사용자가 키워드를 입력하면 미리 인덱스된 웹 페이지이거나 분류 가능하게 정의된 태그를 가지는 웹 페이지들의 정보를 순환하면서 웹페이지 주소를 가져오는 기능을 수행한다.

상기 래퍼(204)는 웹 페이지 주소를 참조하여 웹 페이지 데이터를 추출하는 기능을 수행한다.

상기 신뢰도 평가 모듈(300)은 상기 전처리 모듈(100)에서 미리 정의된 온톨로지 데이터 사전에 따라서 각각의 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리(Bayes Theorem)를 통하여 학습된 통계를 토대로 나이브베이즈(Naive Bayes) 방법을 사용하여 사용자의 키워드에 합당한 웹 페이지 인지를 분석한다.

상기 메타데이터 구축 모듈(400)은 메모리에 저장된 데이터들을 상기 전처리 모듈(100)에서 정해진 다수의 카테고리로 검색하여 통합된 하나의 명칭(Name Entity)을 결정한다.

상기 메타데이터 구축 모듈(400)은 통합된 하나의 명칭을 결정하여 새로운 명칭(Name Entity)을 부여하는 기능을 수행하는 래퍼(404)를 포함하여 이루어진다.

상기 메타데이터 구축 모듈(400)은 메타데이터까지 제작된 데이터를 사용자에게 가독성이 뛰어나고 한 번에 알아볼 수 있는 한 개의 테이블(One Paging Table)형태의 화면(웹 페이지)으로 출력하여 제공한다.

다음으로 상기와 같이 구성되는 본 발명의 일실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템을 이용하여 이루어지는 본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법을 설명한다.

본 발명의 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공방법은 도 2에 나타낸 바와 같이, 전처리단계(S100), 정보추출단계(S200), 신뢰도 평가단계(S300), 메타데이터 구축단계(S400)를 포함하여 이루어진다.

상기 전처리단계(S100)는 상기 전처리 모듈(100)에서 이루어지며, 상기 학습모듈(102)에서 이루어지는 학습단계(S110)와 상기 데이터사전 구축 모듈(104)에서 이루어지는 데이터사전 구축단계(S120)를 포함하여 이루어진다.

상기 학습단계(S110)에서는 베이즈정리(Bayes Theorem)를 사용하여 각 특정 정보를 가진 웹 페이지의 특징과, 특정 정보를 가지지 않은 웹 페이지의 특징을 분류하고 각각의 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하도록 이루어진다.

상기 데이터사전 구축단계(S120)에서는 의미의 중의성을 해결하고, 정확도 높은 검색을 지원하기 위하여 온톨로지(Ontology) 데이터사전을 구축하여 각 단어들이 어떤 항목과 연관을 가지는지, 어떤 단어와 동일한 뜻으로 사용할 수 있는지를 작성한다.

그리고 상기 데이터사전 구축단계(S120)에서는 상기 메타데이터 구축단계(S400)에서 다양한 단어들을 하나로 통일하기 위한 고유의 명칭(Name Entity)을 작성한다.

예를 들면, 상기 전처리단계(S100)에서는 시스템 전반에 걸쳐서 신뢰도 평가, 동음이의어와 이음동의어 구분, 항목별 카테고리의 분류와 같은 지원을 하기 위하여 구성된다.

상기 전처리단계(S100)에서는 신뢰도 평가를 지원하기 위하여 베이즈정리(Bayes theorem)학습에서 특정 정보(예를 들면 휠체어 정보)를 가지고 있는 웹 페이지와 그렇지 않은 웹 페이지의 특징(Feature)을 추출하고, 특징들이 얼마나 높은 빈도로 각 문서에 출현하였는지를 검사하여 각각의 분산을 구하고, 최종적으로 새로운 웹 페이지에서 특징이 발견됐을 경우 얼마만큼의 확률로 새로운 웹 페이지가 특정 정보를 포함하고 있는지, 아닌지를 판단할 수 있는 사후확률과 최대사후확률, 우도를 각각 데이터베이스에 저장한다.

상기 데이터사전 구축단계(S120)에서 작성되는 온톨로지(Ontology) 데이터사전은 각각의 항목들이 이음동의어나 동음이의어를 사용할 수 있기 때문에 이것을 판단할 수 있도록 각각의 특징에 관련된 단어들을 나열하고, 어떠한 관계를 가지는지를 정의한 데이터사전을 구축한다.

또한 상기 전처리단계(S100)에서는 각각의 항목들에 통합된 명칭(Name Entity)을 부여하여 신뢰도 평가에서 이음동의어로 구성된 단어들의 잘못된 신뢰도 평가를 방지하고, 메타데이터를 구축하는 과정에서 각기 다른 언어로 구성된 같은 카테고리의 항목들을 고유의 명칭(Name Entity)으로 부여한다.

상기 학습단계(S110)를 수행하는 상기 학습모듈(102)에서는 베이즈정리(Bayes Theorem)를 사용하여 미리 준비된 특정 정보를 담고 있는 40개의 트레이닝세트(Training Set)과 특정 정보를 담고 있지 않은 40개의 트레이닝세트(Training Set)을 사용하여 학습하고, 20개의 테스트세트(Test Set)을 정확하게 분별해 내어 결과적으로 실제 시스템에 적용했을 때 높은 신뢰도를 가지는 결과를 얻어내기 위하여 사용된다.

도 3에는 상기 학습단계(S110)의 진행과정을 순서도로 나타낸다.

상기 학습단계(S110)에서 학습될 정보는 스태밍 알고리즘(Stemming Algorithm)을 사용하여 출현하는 모든 단어들에 대하여 원형으로 변환하는 작업을 거치고 불용어와 중복어를 제거한 다음, TF-IDF(Term Frequency/Inverted Document Frequency)를 통하여 각각의 출현하는 모든 단어들의 빈도수를 측정하여 가중치를 부여하게 되고, 학습된 자료는 사용자의 키워드 입력을 토대로 얻어진 웹 페이지들에 대하여 특정 정보를 가지는 웹 페이지 인지 아닌지를 가리는 신뢰도를 평가하는 수단으로 사용된다.

상기 학습단계(S110)에서 사용하는 베이즈정리(Bayes Theorem)를 간단하게 정의하면 다음의 수학식 1과 같이 나타내어진다.

상기 수학식 1에서 P(A)는 A의 사전(prior) 확률 또는 경계 확률을 나타내며, 사전(prior)이라는 것은 아직 사건 B에 관한 어떠한 정보도 고려하지 않음을 의미한다.

상기 수학식 1에서 P(A|B)는 B가 주어졌을 때 A의 조건부 확률을 나타내며, B의 특정 값에 의해 결정되기 때문에 사후 확률이라고도 한다.

상기 수학식 1에서 P(B|A)는 A가 주어졌을 때 B의 조건부 확률을 나타낸다.

상기 수학식 1에서 L(A|B)은 B가 고정되었을 때 A의 가능도를 나타내며, 이 경우에 P(B|A)=L(A|B)이다.

그리고 최대 확률을 구하기 위해서는 최대 사후확률(MAP;Maximum a Posterior probability)을 계산하면 되는데, 이 확률은 데이터를 조사했을 때 가장 가능성이 높은 가정으로 다음의 수학식 2를 이용하여 구한다.

상기 최대 사후확률(MAP)보다 더 구체적인 것으로 최대우도(ML;Maximum Likelihood)를 사용하며, 이를 구하기 위해 먼저 가설 공간에 존재하는 모든 가설들이 같은 확률을 가진다고 간주하고, 가설 집합 H의 원소의 수를 |H|로 나타낼 때 다음의 수학식 3과 같이 가정한다.

상기 수학식 3의 가정을 이용하면, P(D|h)P(h)에서 P(h)의 값은 상수가 되므로, P(D|h)를 극대화시키는 최대우도(ML) 확률은 h_ML이라 할 때 다음의 수학식 4와 같이 나타내어진다.

그런데, 각각 등장하는 단어는 모두 같은 빈도로 출현하지 않으므로, 참이라는 문서에 대하여 자주 등장하는 단어는 참, 거짓 여부를 알 수 없는 새로운 문서에 대하여 많은 비중을 차지해야 하며, TF-IDF를 이용한 가중치 방법을 사용하여 계산하면 다음의 수학식 5와 같이 나타내어진다.

상기 수학식 5의 첫번째 식인 TF를 이용한 식에서 n_ij는 문서 d_j에서 단어 t_i가 나타나는 횟수를 나타내고, 분모는 문서 d_i내의 모든 단어의 횟수를 의미한다.

상기 수학식 5의 두번째 식인 역 문서 빈도를 계산하는 IDF를 이용한 식에서 분자는 언어 자료 내의 전체 문서 숫자를 의미하고, 분모는 단어 t_i가 등장하는 문서의 숫자를 의미한다.

상기 수학식 5의 세번째 식인 TF-IDF 가중치는 단어빈도(TF)×역 문서 빈도(IDF)로 계산한다.

상기 정보추출단계(S200)에서는 사용자가 키워드를 입력하면 미리 인덱스된 웹 페이지이거나 분류 가능하게 정의된 태그를 가지는 웹 페이지들의 정보를 상기 크롤러(202)가 순환하면서 웹 페이지 주소를 가져오고, 상기 래퍼(204)는 웹 페이지 주소를 참조하여 웹 페이지 데이터를 추출한다.

상기 정보추출단계(S200)에서는 추출된 웹 페이지들의 정보를 상기 전처리단계(S100)의 학습단계(S110)에서 분류한 특징을 포함하고 있는지 여부를 판단하고, 불용어(올바르지 않은 용어), 중복어(중복된 용어)와 같은 불필요한 정보를 제거한 후 각 어간의 원형을 복원하는 작업을 수행한다.

상기와 같이 정보추출단계(S200)에서 불필요한 정보를 제거하게 되면, 상기 신뢰도 평가단계(S300)로 이동하기 전에 불필요한 데이터를 삭제함으로써 저장 공간을 효율적으로 사용하고, 시스템의 속도를 높이는 것이 가능하다.

도 4에는 상기 정보추출단계(S200)의 과정을 순서도로 나타낸다.

상기 정보추출단계(S200)는 메타데이터를 구축하기 위하여 웹 페이지의 데이터를 수집하고, 수집된 웹 페이지의 데이터를 추출하고, 학습된 특징의 포함여부를 확인하고, 정보를 수정하는 과정으로 이루어진다.

상기 크롤러(202)의 웹 페이지 순환은 사용자가 입력한 키워드가 어떠한 범주에 속해 있는 단어인지를 판단하고, 미리 인덱스된 웹 페이지나 태그를 통하여 카테고리가 분류된 웹 페이지를 순환하여 웹 페이지의 주소를 추출한다.

상기 크롤러(202)는 웹 페이지를 순차적으로 순환하면서 가져온 웹 페이지의 주소를 상기 래퍼(204)로 보내준다.

상기 크롤러(202)를 통하여 웹 페이지 주소를 추출하면, 상기 래퍼(204)는 주소를 토대로 웹 페이지의 모든 데이터를 추출한다.

상기 래퍼(204)는 일종의 규칙기반을 통한 정보 추출 및 수정 도구로써 준정형 데이터(Semi-Structured Data), 정형 데이터(Structured Data)의 정보를 추출하고 수정하는데 유용하다.

상기 래퍼(204)를 통해서 얻어진 웹 페이지의 정보들은 상기 전처리단계(S100)에서 학습된 특징을 포함하는 문서인지 아닌지를 판단하는 특징검사단계를 거친다.

상기 특징검사단계에서는 미리 학습된 웹 페이지들의 정보를 통계적으로 사용하기 때문에 특징을 갖지 않은 문서가 특정 정보와 관련된 웹 페이지일 확률은 생각하기 힘들다.

그리고 상기 정보추출단계(S200)에서는 특징을 가진 문서에 대하여 신뢰도 평가의 높은 정확도와 메타데이터의 구성을 용이하게 만들기 위하여 정보를 수정하는 단계를 거친다.

예를 들면, 데이터에 포함된 HTML 태그를 제거하고, 형태소 분석으로 불용어의 삭제와 중복어의 삭제를 진행한다.

상기와 같은 과정을 거쳐 수정된 데이터들은 마지막으로 각 단어를 원형으로 복원하는 스태밍(Stemming)단계를 거치게 된다.

상기에서 스태밍(Stemming)을 사용하여 원형으로 복원하는 이유는 과거형, 미래형, 복수, 단수와 같은 변수에 따라 단어의 스펠링이 바뀌므로, 스태밍(Stemming)을 거치지 않게 된다면 데이터사전을 구축하는데 어려움이 따르고, 사전 구축 시간이 길어지게 되기 때문이다.

상기 신뢰도 평가단계(S300)에서는 상기 전처리단계(S100)에서 미리 정의된 온톨로지 데이터 사전에 따라서 각각의 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리(Bayes' Theorem)를 통하여 학습된 통계를 토대로 나이브베이즈(Naive Bayes) 방법을 사용하여 사용자의 키워드에 합당한 웹 페이지 인지를 분석한다.

상기 신뢰도 평가단계(S300)에서는 분석된 데이터들이 80%이상의 신뢰도를 갖는 웹 페이지라고 판단될 경우 사용자가 입력한 키워드를 포함하는 문서인지를 판단하고, 사용자의 키워드를 포함한 문서는 메모리에 저장하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행한다.

상기 신뢰도 평가단계(S300)에서는 분석된 데이터들이 80%미만의 신뢰도를 갖는 웹 페이지라고 판단될 경우에는 메모리에서 삭제를 하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행한다.

도 5에는 상기 신뢰도 평가단계(S300)의 과정을 순서도로 나타낸다.

상기 신뢰도 평가단계(S300)에서는 상기 정보추출단계(S200)에서 수정되어 전송된 데이터를 토대로 사용자가 입력한 키워드에 합당한 정보를 가진 데이터인지, 아닌지를 판단한다.

상기 신뢰도 평가단계(S300)는 카테고리 분류단계와 신뢰도 계산단계를 포함하여 이루어진다.

상기 신뢰도 평가단계(S300)에서는 상기 정보추출단계(S200)에서 넘겨준 정보들이 먼저 각각의 항목에 따라서 어떤 카테고리에 분류되는지를 판단하여야 한다.

왜냐하면, 각각의 항목은 각기 다른 중요도를 가지며, 가중치를 가지므로 각 항목의 카테고리가 분류되지 않으면 정확한 신뢰도를 판단하기 어렵기 때문이다.

상기 전처리단계(S100)에서 작성된 항목별 카테고리는 각 항목에 일치하는 단어들을 찾아내고 상기 신뢰도 계산단계로 데이터를 전송하며, 상기 신뢰도 계산단계에서는 상기 전처리단계(S100)에서 베이즈정리(Bayes Theorem)를 통하여 미리 학습된 확률과 우도, 분산, 가중치를 토대로 상기 정보추출단계(S200)에서 넘어온 웹 페이지 데이터를 나이브베이즈(Naive Bayes)방법을 이용하여 해당 문서의 신뢰도를 판단한다.

상기에서 신뢰도가 80%가 넘는 문서에 대해서는 사용자가 입력한 키워드에 대응하는 데이터를 가지는지를 판단하기 위하여 키워드 매칭여부를 검사하고, 사용자가 입력한 키워드를 포함하고 있는 문서에 대해서는 다음 단계인 메타데이터 구축단계(S400)로 넘겨주기 위하여 메모리에 저장하고, 신뢰도가 80% 이하의 문서와 키워드 매칭에서 사용자가 입력한 키워드를 포함하지 않는 문서에 대해서는 메모리에서 삭제한다.

그리고 웹 페이지의 수에 따라서 반복되는 작업은 더 이상 크롤러(302)로부터 얻어진 웹 페이지의 주소가 없을 때까지 진행된다.

더 이상 추출한 정보가 없다고 판단되는 경우에 저장된 메모리의 데이터를 메타데이터 구축단계(S400)로 전송하게 된다.

상기 신뢰도 판단단계(S300)에서 사용하는 나이브베이즈(Naive Bayes)방법을 수식으로 정의하면 다음의 수학식 6과 같이 나타낼 수 있다.

상기 메타데이터 구축단계(S400)에서는 메모리에 저장된 데이터들을 상기 전처리단계(S100)에서 정해진 다수의 카테고리로 검색하여 통합된 하나의 명칭(Name Entity)을 결정하는 단계를 거치고, 래퍼(404)에 의해서 새로운 명칭(Name Entity)을 부여한다.

상기 메타데이터 구축단계(S400)에서는 같은 카테고리로 분류된 정보들은 서로의 값을 비교하여 인티저(integer)형태의 값은 가장 큰 값을 구하여 최종 값으로 결정하고, 스트링(String)형태의 값은 가장 길이(Length)가 큰 값을 기준으로 다른 스트링(String)형태와 비교하여 중복된 단어와 같은 의미를 제거한 후 ","를 사용하여 스트링(String)을 추가한다.

상기와 같은 단계를 통하여 메타데이터까지 제작된 데이터는 사용자에게 가독성이 뛰어나고 한 번에 알아볼 수 있는 한 개의 테이블(One Paging Table)형태의 화면(웹페이지)으로 출력하여 제공된다.

도 6에는 상기 메타데이터 구축단계(S400)의 과정을 블럭도로 나타낸다.

상기 신뢰도 판단단계(S300)를 통하여 80% 이상의 신뢰도를 가지고, 사용자가 입력한 키워드를 포함하고 있다고 판단된 문서들은 각 카테고리별로 고유의 명칭(Name Entity)을 결정하게 되고, 각각 다른 단어로 구성된 항목들을 통합하기 위해 온톨로지 사전에 정의된 항목을 검색하고, 각 항목에 맞는 명칭(Name Entity)을 결정하는 과정을 거친다.

상기와 같은 과정을 거치는 이유는 추출된 많은 정보들은 다양한 웹 페이지에서 추출되어 각기 다른 언어 혹은 단어를 사용할 수 있으므로, 같은 단어의 의미이지만 온톨로지 데이터사전 매칭을 거치지 않으면 다른 단어로 판단되어 융합을 할 수 없게 되거나, 잘못된 정보를 제공할 수 있기 때문이다.

상기와 같이 얻어진 모든 정보들의 각 항목이 온톨로지 데이터사전을 토대로 고유의 명칭(Name Entity)을 결정하게 되면, 다음 단계는 래퍼(404)를 통한 명칭(Name Entity)을 실제 XML형태로 구성하기 위한 태그를 부여받는 단계를 거치게 된다.

상기 래퍼(404)는 메타데이터 구축단계(S400)에서는 정보를 추출하는 역할보다는 정보를 수정하는 역할을 수행한다.

예를 들면 상기 래퍼(404)는 XML 메타데이터를 구성하기 위하여 항목별로 부여받은 명칭(Name Entity)을 토대로 태그로 부여하고 각각의 항목들의 값을 융합하기 위하여 항목들의 값을 검색하고, 각 항목의 값이 문자열 형태를 가지게 되면 동일한 카테고리에 분류된 항목 중 가장 긴 길이를 갖은 문자열을 기준으로 동일한 카테고리의 다른 항목들 문자열을 단어의 의미 단위로 비교하여 동일한 의미의 단어는 삭제하고, 기준이 되는 문자열에 포함되지 않은 의미의 단어만을 선택하여 ","를 하나의 문자열로 융합하는 자바 와일드카드 스트링 매칭 알고리즘(Java Wildcard String Matching Algorithm)을 사용한다.

그리고 숫자형태의 값을 가진 항목들은 먼저 단위를 가지는지를 검사하고 단위를 삭제하며, 숫자형태의 값을 가지더라도 실제로 정보추출 과정을 거치면서 스트링(String)형태로 변환이 되기 때문에 단위를 삭제한 숫자형태의 값들을 인티저(Integer)형태로 변환하는 과정을 거친다.

상기와 같이 인티저형태로 변환된 값들은 정렬이 가능해 지기 때문에 동일한 카테고리의 다른 항목들을 모두 비교하여 가장 큰 수를 융합 값으로 제시하며, 삭제된 단위는 특정한 목적을 갖는 시스템으로 카테고리가 정해져 있기 때문에 어떤 항목에 어떤 단위가 들어가는지를 미리 판단할 수 있다.

따라서 래퍼(404)를 통하여 융합된 값을 각 카테고리에 부여하면서 미리 정의된 카테고리에 해당하는 단위를 붙여주며, 항목별로 고유의 명칭(Name Entity)을 부여받고, 값이 융합된 자료는 마지막으로 파일형태로 저장된다.

그리고 사용자의 키워드를 토대로 XML 메타데이터를 파일로 저장하여 그 결과를 사용자에게 하나의 웹 페이지에서 테이블 형태의 가독성이 뛰어난 형태로 제공한다.

다음으로 지체부자유인을 위한 통합형 휠체어 정보를 특정 정보로 하여 상기와 같이 이루어지는 본 발명의 일실시예 및 다른 실시예에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법의 효용성을 검증하는 과정을 설명한다.

먼저 전처리단계에서는 학습과 데이터사전 구축으로 나누어 수행하며, 학습은 베이즈정리(Bayes Theorem)를 통해 휠체어의 참(True) 데이터를 담고 있는 웹 페이지 40개의 휠체어 정보를 트레이닝 데이터(Training Data)로 선정하고 휠체어 정보를 포함하고 있지 않은 일반적인 거짓(False) 데이터를 담고 있는 웹 페이지 40개를 선정하여 진행하하고, 학습을 진행하는 과정에서 모든 데이터의 태그들을 추출하고, 불용어를 제거하여 불필요한 정보의 학습을 피한다.

상기 온톨로지 데이터사전은 상기 학습단계에서 얻어진 특징을 토대로 동음이의어와 이음동의어를 검색하여 진행하고, 트레이닝 데이터(Training Data)로 얻어진 참(True) 데이터를 담고 있는 웹 페이지 40개에 있어서 최상위 14개의 정보는 도 7과 같이 얻어지고, 거짓(False) 데이터를 담고 있는 웹 페이지 40개에 있어서 상기 14개의 정보에 대응되는 정보는 도 8과 같이 얻어진다.

그리고 특징 온톨로지 데이터사전은 도 9 및 도 10와 같이 얻어지고, 특징 온톨로지 데이터사전 관계도는 도 11과 같이 얻어진다.

나아가 참(True) 데이터를 담고 있는 웹 페이지 40개 및 거짓(False) 데이터를 담고 있는 웹 페이지 40개에 대한 총 80개의 웹 페이지로 이루어진 베이즈정리(Bayes theorem)방법에 의한 학습 데이터는 도 12 및 도 13과 같이 얻어진다.

그리고 사용자가 키워드를 입력하면 상기 정보추출 모듈(200)에 의한 정보추출단계(S200)의 전 과정이 시작된다.

먼저 상기 크롤러(202)는 미리 인덱스 되어 있는 웹 페이지를 순환하며 웹 페이지들의 주소를 래퍼(204)에게 보내준다.

상기 크롤러(202)에 의한 웹 페이지 주소 수집은 도 14 및 도 15와 같이 이루어진다.

그리고 상기 크롤러(202)로부터 웹 페이지 주소를 전달받은 상기 래퍼(204)는 웹 페이지의 정보(웹 페이지의 소스를 의미)를 추출하며, 상기 래퍼(204)에 의한 정보 추출은 도 16과 같이 이루어진다.게 된다.

상기 래퍼(204)로부터 추출된 정보들은 상기 전처리단계(S100)에서 학습으로 얻어진 특징을 가지고 있는지를 검사하게 된다.

상기에서, 특징을 하나도 갖지 않는 웹 페이지 정보는 삭제되고, 하나 이상 출현한 정보들만 수정과정을 거치게 되며, 특징 중에서 Width, Height, Length 등은 태그 특성상 자주 사용되는 단어이기 때문에 검사에서 제외한다.

상기와 같은 과정을 거쳐 이루어진 특징 검사의 결과는 도 17 및 도 18과 같이 나타내어진다.

도 17은 특징 검사 결과 특징을 가지고 있는 웹 페이지의 경우이며, 도 18은 특징 검사 결과 특징을 하나도 갖지 않은 웹 페이지의 경우이다.

상기와 같은 과정으로 특징 검사가 끝나고 특징을 포함하고 있는 문서의 정보들은 신뢰성 판단과 메타데이터 구성의 용이함을 위하여 정보의 수정 단계를 거치는데, 문서의 정보는 형태소 분석을 통하여 불용어 및 중복어를 제거하고, 스태밍(Stemming) 알고리즘을 사용하여 모든 단어를 원형으로 변환한다.

상기에서 정보수정을 거치기 전의 데이터는 도 19와 같고, 정보수정을 거친 데이터는 도 20과 같다.

상기와 같이 정보 수정이 완료된 웹 페이지 정보는 상기 신뢰도 평가 모듈(300)로 이동하며, 상기 신뢰도 평가 모듈(300)에서는 들어온 웹 페이지 정보를 토대로 각 항목에 맞는 카테고리 분류를 실시한다.

상기 신뢰도 평가단계(S300)에서 신뢰도 평가를 하는데 있어서, 서로 다른 단어로 작성된 같은 의미의 단어는 정확한 신뢰도를 평가할 수 없고, 메타데이터를 구성하는데 있어서 의미 중의성으로 인한 정보 융합의 어려움을 만들어 낸다.

그리고 항목별 카테고리 분류는 카테고리 온톨로지 데이터사전을 토대로 구성되며, 카테고리 분류가 완료된 웹 페이지 정보는 상기 전처리단계(S100)에서 학습된 정보들을 토대로 본 웹 페이지가 휠체어 정보를 포함하고 있는지, 포함하지 않는지를 나이브베이즈(Naive Bayes) 방법을 사용하여 확률적인 계산을 한다.

상기 신뢰도 평가단계(S300)에서 80% 이상의 신뢰도를 얻는 웹 페이지 정보는 다음 단계인 키워드 매칭을 행하기 위하여 이동하고, 80% 미만의 웹 페이지 정보는 삭제된다.

도 21 및 도 22에는 나이브베이즈 방법을 사용하여 행한 신뢰도 평가의 결과를 보여준다.

상기와 같이 이루어지는 신뢰도 평가에서 80% 이상의 신뢰도를 받은 웹 페이지 정보는 신뢰도 평가단계(S300)의 마지막 단계이며 휠체어 정보들만 모아놓은 상태에서 무엇이 사용자가 원하는 정보일지를 판단하기 위하여 진행되는 과정인 사용자 키워드 매칭을 진행한다.

예를 들면, 사용자가 "HS-1000"이라는 휠체어를 입력하게 된다면 모여 있는 웹 페이지 정보들 중에서 "HS-1000"이라는 키워드를 포함하는 문서가 있는지를 확인한다. 사용자 키워드("HS-1000")를 포함하는 웹 페이지 정보는 마지막 단계인 상기 메타데이터 구성 모듈(400)에서 이루어지는 상기 메타데이터 구성단계(S400)로 이동하고, 사용자 키워드를 포함하지 않는 웹 페이지 정보는 삭제된다.

만약 상기 크롤러(202)에 남아있는 웹 페이지 주소가 있다면 모든 과정은 상기 크롤러(202)로 다시 돌아가서 지금까지의 일련의 작업을 반복하게 된다.

상기 신뢰도 평가 모듈(300)에서 전송된 웹 페이지 정보는 메타데이터 구성과 융합을 위하여 각 카테고리별로 고유의 명칭(Name Entity)을 결정하게 된다.

예를 들면, 각각 다른 단어로 구성된 항목들을 통합하기 위해 온톨로지 사전에 정의된 항목을 검색하고, 각 항목에 맞는 명칭(Name Entity)을 결정하는 과정을 거친다.

상기와 같은 과정을 거치는 이유는 추출된 많은 정보들은 다양한 웹 페이지에서 추출되었기 때문에 각기 다른 언어 혹은 단어를 사용할 수 있으므로, 같은 단어의 의미이지만 온톨로지 데이터사전 매칭(키워드 매칭)을 거치지 않으면 다른 단어로 판단되어 융합을 할 수 없게 되거나, 잘못된 정보를 제공할 수 있기 때문이다.

상기와 같은 과정을 거쳐 명칭(Name Entity)을 결정한 온톨로지 데이터사전은 도 23과 같다.

상기 온톨로지 데이터사전은 얻어진 모든 정보들의 각 항목이 온톨로지 데이터사전을 토대로 고유의 명칭(Name Entity)을 결정하게 되면, 다음 단계는 래퍼(404)를 통한 명칭(Name Entity)을 실제 XML형태로 구성하기 위한 태그를 부여받는 단계를 거치게 된다.

상기 래퍼(404)는 정보를 추출하는데 사용되기도 하지만, 상기 메타데이터 구축 모듈(400)에서는 정보를 추출하는 역할보다는 정보를 수정하는 역할을 수행한다.

상기 래퍼(404)의 명칭(Name Entity) 부여는 도 24와 같이 이루어진다.

상기 래퍼(404)는 XML 메타데이터를 구성하기 위하여 항목별로 부여받은 명칭(Name Entity)을 토대로 태그로 부여하고, 각각의 항목들의 값을 융합하기 위하여 항목들의 값을 검색하며, 각 항목의 값이 문자열 형태를 가지게 되면 동일한 카테고리에 분류된 항목 중 가장 긴 길이를 갖은 문자열을 기준으로 동일한 카테고리의 다른 항목들 문자열을 단어의 의미 단위로 비교하여 동일한 의미의 단어는 삭제하고 기준이 되는 문자열에 포함되지 않은 의미의 단어만을 선택하여 ","를 이용하여 하나의 문자열로 융합한다.

그리고 숫자형태의 값을 가진 항목들은 먼저 단위를 가지는지를 검사하고 단위를 삭제하며, 숫자형태의 값을 가지더라도 실제적으로 정보추출 과정을 거치면서 스트링(String)형태로 변환이 되므로, 단위를 삭제한 숫자형태의 값들을 인티저(Integer)형태로 변환하는 과정을 거친다.

상기에서 인티저(Integer)형태로 변환된 값들은 비교가 가능해지므로, 동일한 카테고리의 다른 항목들을 모두 비교하여 가장 큰 수를 값으로 제시한다.

상기에서 삭제된 단위는 특정한 목적을 갖는 시스템으로 카테고리가 정해져 있기 때문에, 어떤 항목에 어떤 단위가 들어가는지를 미리 판단하는 것이 가능하다.

따라서 상기 래퍼(404)를 통하여 융합된 값을 각 카테고리에 부여하면서 미리 정의된 카테고리에 해당하는 단위를 붙여주며, 항목별로 고유의 명칭(Name Entity)을 부여하고, 값이 융합된 자료는 마지막으로 파일형태로 저장된다.

그리고 사용자의 키워드를 토대로 XML 메타데이터를 파일로 저장하여 그 결과를 사용자에게 하나의 웹 페이지에서 테이블 형태의 가독성이 뛰어난 형태로 제공하며, 최종적으로 사용자에게 제공되는 검색 결과의 웹 페이지는 도 25와 같다.

상기한 모든 과정은 휠체어 정보를 가지고 있는 웹 페이지 20개와 휠체어 정보를 갖지 않은 웹 페이지 20개를 선정하여 진행하였으며, 테스트 데이터에 대한 모듈별 성능은 다음의 표 1과 같다.

구 분	성 능
구 분	휠체어 정보 포함 웹 페이지	휠체어 정보 미포함 웹 페이지
특징 검사	20 웹페이지 100%	4 웹 페이지 20%
항목별 카테고리 분류	총 292회 성공:277회 실패: 15회 94.8%	총 23회 성공:21회 실패: 2회 91.3%
신뢰도 평가	총 20회 성공:19회 실패: 1회 95%	총 20회 성공: 0회 실패:20회 100%
래퍼 명칭 부여	총 292회 성공:239회 실패: 53회 81.8%	총 23회 성공:19회 실패: 4회 82.6%
항목별 값 융합	총 292회 문자형:94회 성공:71회 실패:23회 75.5% 숫자형:198회 성공:172회 실패: 26회 86.8%	총 23회 문자형:9회 성공:7회 실패:2회 77.7% 숫자형:14회 성공:12회 실패: 2회 85.7%
시스템 평균	88.98%	76.21%

상기 표 1로부터 확인되는 바와 같이, 휠체어 정보를 포함하고 있는 웹 페이지 정보 20개와 휠체어 정보를 포함하고 있지 않은 웹 페이지 정보 20개의 시스템 평가는 평균 82.595%라는 수치를 확인할 수 있었으며, 특징이 분명하게 드러나는 카테고리라는 실험상의 변수는 있지만, 본 발명의 실시예는 모듈별이나 시스템 전체적인 성능에서 우수하다는 것을 확인할 수 있다.

상기와 같이 이루어지는 본 발명의 실시예에 따른 웹 페이지의 이질적 데이터 정보융합 제공시스템 및 방법에 의하면, 전처리, 정보추출, 정보수정, 신뢰도 평가, 메타데이터 구축의 체계적인 순서로 분산된 이질의 데이터들에 대하여 하나의 문서로 통합하여 사용자들에게 제공하는 것이 가능하다.

그리고 본 발명에 따른 실시예의 효용성을 검증하기 위하여 지체 부자유인을 위한 통합형 휠체어 정보 제공 시스템을 구현하여 본 결과, 종래 의미 중의성으로 인하여 이질 데이터의 융합의 어려움, 다중 링크를 통한 사용자의 불편 초래, 사용자가 개입하거나 확장이 용이하지 못한 데이터베이스의 사용이라는 문제점을 해소하는 것이 가능하다는 것을 확인할 수 있었다.

본 발명에 따른 실시예에 의하면, 온톨로지 데이터사전을 구축하여 각 항목간의 동음이의어와 이음동의어를 포함한 분류를 진행하고 고유의 명칭(Name Entity)을 부여하여 의미 중의성으로 인한 문제가 발생하지 않으며, 검색어를 입력하면 사용자에게 링크를 제공하는 대신에 내부적인 알고리즘들을 사용하여 사용자의 키워드에 맞는 정보를 제공하도록 이루어진다.

그리고 본 발명에 따른 실시예에 의하면, 데이터베이스의 사용을 최소화하기 위하여 오직 전처리에서의 학습에서만 데이터베이스를 사용하고, 온톨로지와 다른 분야의 웹 페이지 데이터만 있다면 바로 학습하여 사용 가능 확장성이 확보된다.

나아가 본 발명에 따른 실시예에 의하면, 사용자가 원하는 정보를 얻기 위해 겪는 불편함을 해소하고, 낭비되는 시간을 줄여주고, 정보검색에 익숙하지 않은 사용자들에게도 편리함을 제공할 수 있다.

상기에서는 본 발명에 따른 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법의 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 명세서 및 첨부한 도면의 범위 안에서 여러가지로 변형하여 실시하는 것이 가능하고, 이 또한 본 발명의 범위에 속한다.

100 - 전처리 모듈, 102 - 학습 모듈, 104 - 데이터사전 구축 모듈
200 - 정보추출 모듈, 202 - 크롤러, 204 - 래퍼, 300 - 신뢰도 평가 모듈
400 - 메타데이터 구축 모듈, 404 - 래퍼

Claims

전처리단계, 정보추출단계, 신뢰도 평가단계, 메타데이터 구축단계를 포함하고,
상기 전처리단계는 베이즈정리(Bayes Theorem)를 사용하여 각 특정 정보를 가진 웹 페이지의 특징과 특정 정보를 가지지 않은 웹 페이지의 특징을 분류하고 각각의 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하는 학습단계와, 의미의 중의성을 해결하고 정확도 높은 검색을 지원하기 위하여 온톨로지(Ontology) 데이터사전을 구축하여 각 단어들이 어떤 항목과 연관을 가지는지 어떤 단어와 동일한 뜻으로 사용할 수 있는지를 작성하는 데이터사전 구축단계를 포함하고,
상기 데이터사전 구축단계에서는 상기 메타데이터 구축단계에서 다양한 단어들을 하나로 통일하기 위한 고유의 명칭을 작성하고,
상기 정보추출단계에서는 사용자가 키워드를 입력하면 미리 인덱스된 웹 페이지이거나 분류 가능하게 정의된 태그를 가지는 웹 페이지들의 정보를 크롤러가 순환하면서 웹 페이지 주소를 가져오고, 래퍼는 웹 페이지 주소를 참조하여 웹 페이지 데이터를 추출하며, 추출된 웹 페이지들의 정보를 상기 전처리단계의 학습단계에서 분류한 특징을 포함하고 있는지 여부를 판단하고, 불용어 및 중복어와 같은 불필요한 정보를 제거한 후 각 어간의 원형을 복원하는 정보를 수정하는 작업을 수행하고,
상기 신뢰도 평가단계에서는 상기 전처리단계에서 미리 정의된 온톨로지 데이터 사전에 따라서 각각의 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리(Bayes Theorem)를 통하여 학습된 통계를 토대로 나이브베이즈(Naive Bayes) 방법을 사용하여 사용자의 키워드에 합당한 웹 페이지 인지를 분석하고,
상기 메타데이터 구축단계에서는 메모리에 저장된 데이터들을 상기 전처리단계에서 정해진 다수의 카테고리로 검색하여 통합된 하나의 명칭을 결정하여 래퍼에 의해서 새로운 명칭을 부여하고, 같은 카테고리로 분류된 정보들은 서로의 값을 비교하여 인티저(Integer)형태의 값은 가장 큰 값을 구하여 최종 값으로 결정하고, 스트링(String)형태의 값은 가장 길이(Length)가 큰 값을 기준으로 다른 스트링(String)형태와 비교하여 중복된 단어와 같은 의미를 제거한 후 ","를 사용하여 스트링(String)을 추가하고, 메타데이터까지 제작된 데이터는 한 개의 테이블 형태의 웹 페이지로 출력하여 제공하는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 신뢰도 평가단계에서는 분석된 데이터들이 80%이상의 신뢰도를 갖는 웹 페이지라고 판단될 경우 사용자가 입력한 키워드를 포함하는 문서인지를 판단하고, 사용자의 키워드를 포함한 문서는 메모리에 저장하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행하고,
상기 신뢰도 평가단계에서는 분석된 데이터들이 80%미만의 신뢰도를 갖는 웹 페이지라고 판단될 경우에는 메모리에서 삭제를 하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행하는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 전처리단계에서는 신뢰도 평가를 지원하기 위하여 베이즈정리(Bayes theorem)학습에서 특정 정보를 가지고 있는 웹 페이지와 그렇지 않은 웹 페이지의 특징을 추출하고, 특징들이 얼마나 높은 빈도로 각 문서에 출현하였는지를 검사하여 각각의 분산을 구하고, 최종적으로 새로운 웹 페이지에서 특징이 발견됐을 경우 얼마만큼의 확률로 새로운 웹 페이지가 특정 정보를 포함하고 있는지, 아닌지를 판단할 수 있는 사후확률과 최대사후확률, 우도를 각각 데이터베이스에 저장하는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 데이터사전 구축단계에서 작성되는 온톨로지(Ontology) 데이터사전은 각각의 항목들이 이음동의어나 동음이의어를 사용할 수 있기 때문에 이것을 판단할 수 있도록 각각의 특징에 관련된 단어들을 나열하고, 어떠한 관계를 가지는지를 정의한 데이터사전을 구축하는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 전처리단계에서는 각각의 항목들에 통합된 명칭을 부여하여 신뢰도 평가에서 이음동의어로 구성된 단어들의 잘못된 신뢰도 평가를 방지하고, 메타데이터를 구축하는 과정에서 각기 다른 언어로 구성된 같은 카테고리의 항목들을 고유의 명칭으로 부여하는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 학습단계에서 학습될 정보는 스태밍 알고리즘(Stemming Algorithm)을 사용하여 출현하는 모든 단어들에 대하여 원형으로 변환하는 작업을 거치고 불용어와 중복어를 제거한 다음, TF-IDF(Term Frequency/Inverted Document Frequency)를 통하여 각각의 출현하는 모든 단어들의 빈도수를 측정하여 가중치를 부여하게 되고, 학습된 자료는 사용자의 키워드 입력을 토대로 얻어진 웹 페이지들에 대하여 특정 정보를 가지는 웹 페이지 인지 아닌지를 가리는 신뢰도를 평가하는 수단으로 사용되는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 정보추출단계에서는 상기 래퍼를 통해서 얻어진 웹 페이지의 정보들이 상기 전처리단계에서 학습된 특징을 포함하는 문서인지 아닌지를 판단하는 특징검사단계와, 특징을 가진 문서에 대하여 신뢰도 평가의 높은 정확도와 메타데이터의 구성을 용이하게 만들기 위하여 데이터에 포함된 HTML 태그를 제거하고 형태소 분석으로 불용어 및 중복어의 삭제를 진행하는 정보를 수정하는 단계와, 수정된 데이터들을 마지막으로 각 단어를 원형으로 복원하는 스태밍(Stemming)단계를 거치는 웹 페이지의 이질적 데이터 정보융합 제공방법.
청구항 1에 있어서,
상기 신뢰도 평가단계는 카테고리 분류단계와 신뢰도 계산단계를 포함하고,
상기 카테고리 분류단계에서는 상기 정보추출단계에서 넘겨준 정보들이 먼저 각각의 항목에 따라서 어떤 카테고리에 분류되는지를 판단하고, 상기 전처리단계에서 작성된 항목별 카테고리에서 각 항목에 일치하는 단어들을 찾아내고 상기 신뢰도 계산단계로 데이터를 전송하며,
상기 신뢰도 계산단계에서는 상기 전처리단계에서 베이즈정리(Bayes Theorem)를 통하여 미리 학습된 확률과 우도, 분산, 가중치를 토대로 상기 정보추출단계에서 넘어온 웹 페이지 데이터를 나이브베이즈(Naive Bayes)방법을 이용하여 해당 문서의 신뢰도를 판단하는 웹 페이지의 이질적 데이터 정보융합 제공방법.
전처리 모듈, 정보추출모듈, 신뢰도 평가 모듈, 메타데이터 구축 모듈을 포함하고,
상기 전처리 모듈은 베이즈정리(Bayes Theorem)를 사용하여 각 특정 정보를 가진 웹 페이지의 특징과 특정 정보를 가지지 않은 웹 페이지의 특징을 분류하고 각각의 특징들이 출현했을 경우 어떤 웹 페이지에 해당하는가를 참조할 수 있는 확률을 학습하도록 이루어지는 학습모듈과, 의미의 중의성을 해결하고 정확도 높은 검색을 지원하기 위하여 온톨로지(Ontology) 데이터사전을 구축하여 각 단어들이 어떤 항목과 연관을 가지는지 어떤 단어와 동일한 뜻으로 사용할 수 있는지를 작성하도록 이루어지며 고유의 명칭을 작성하는 데이터사전 구축 모듈을 포함하고,
상기 정보추출모듈은 사용자가 키워드를 입력하면 미리 인덱스된 웹 페이지이거나 분류 가능하게 정의된 태그를 가지는 웹 페이지들의 정보를 순환하면서 웹페이지 주소를 가져오는 크롤러와, 웹 페이지 주소를 참조하여 웹 페이지 데이터를 추출하는 래퍼를 포함하고,
상기 신뢰도 평가 모듈은 상기 전처리 모듈에서 미리 정의된 온톨로지 데이터 사전에 따라서 각각의 데이터들이 어떤 카테고리의 범주에 속해 있는지를 분석하고 베이즈정리(Bayes Theorem)를 통하여 학습된 통계를 토대로 나이브베이즈(Naive Bayes) 방법을 사용하여 사용자의 키워드에 합당한 웹 페이지 인지를 분석하고,
상기 메타데이터 구축 모듈은 메모리에 저장된 데이터들을 상기 전처리 모듈에서 정해진 다수의 카테고리로 검색하여 통합된 하나의 명칭을 결정하여 새로운 명칭을 부여하는 래퍼를 포함하고,
상기 메타데이터 구축 모듈은 같은 카테고리로 분류된 정보들은 서로의 값을 비교하여 인티저(Integer)형태의 값은 가장 큰 값을 구하여 최종 값으로 결정하고, 스트링(String)형태의 값은 가장 길이(Length)가 큰 값을 기준으로 다른 스트링(String)형태와 비교하여 중복된 단어와 같은 의미를 제거한 후 ","를 사용하여 스트링(String)을 추가하며, 메타데이터까지 제작된 데이터를 한 개의 테이블 형태의 웹 페이지로 출력하여 제공하는 웹 페이지의 이질적 데이터 정보융합 제공시스템.
청구항 9에 있어서,
상기 정보추출모듈은 상기 크롤러와 래퍼를 통하여 추출된 웹 페이지들의 정보를 상기 전처리 모듈의 학습모듈에서 분류한 특징을 포함하고 있는지 여부를 판단하고, 불용어 및 중복어와 같은 불필요한 정보를 제거한 후 각 어간의 원형을 복원하는 작업도 수행하는 웹 페이지의 이질적 데이터 정보융합 제공시스템.
청구항 9에 있어서,
상기 신뢰도 평가 모듈은 분석된 데이터들이 80%이상의 신뢰도를 갖는 웹 페이지라고 판단될 경우 사용자가 입력한 키워드를 포함하는 문서인지를 판단하고, 사용자의 키워드를 포함한 문서는 메모리에 저장하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행하고,
상기 신뢰도 평가 모듈은 분석된 데이터들이 80%미만의 신뢰도를 갖는 웹 페이지라고 판단될 경우에는 메모리에서 삭제를 하고, 다시 더 이상의 데이터가 없을 때까지 반복적으로 같은 작업을 수행하는 웹 페이지의 이질적 데이터 정보융합 제공시스템.
청구항 9에 있어서,
상기 학습모듈은 베이즈정리(Bayes Theorem)를 사용하여 미리 준비된 특정 정보를 담고 있는 40개의 트레이닝세트와 특정 정보를 담고 있지 않은 40개의 트레이닝세트를 사용하여 학습하고, 20개의 테스트세트를 정확하게 분별해 내어 실제로 적용했을 때 높은 신뢰도를 가지는 결과를 얻어내기 위하여 사용되는 웹 페이지의 이질적 데이터 정보융합 제공시스템.
청구항 9에 있어서,
상기 크롤러는 웹 페이지 순환시 사용자가 입력한 키워드가 어떠한 범주에 속해 있는 단어인지를 판단하고, 미리 인덱스된 웹 페이지나 태그를 통하여 카테고리가 분류된 웹 페이지를 순환하여 웹 페이지의 주소를 추출하며,
상기 크롤러는 웹 페이지를 순차적으로 순환하면서 가져온 웹 페이지의 주소를 상기 정보추출모듈의 래퍼로 보내주는 웹 페이지의 이질적 데이터 정보융합 제공시스템.
청구항 9에 있어서,
상기 메타데이터 구축 모듈의 래퍼는 XML 메타데이터를 구성하기 위하여 항목별로 부여받은 명칭(Name Entity)을 토대로 태그로 부여하고 각각의 항목들의 값을 융합하기 위하여 항목들의 값을 검색하고, 각 항목의 값이 문자열 형태를 가지게 되면 동일한 카테고리에 분류된 항목 중 가장 긴 길이를 갖은 문자열을 기준으로 동일한 카테고리의 다른 항목들 문자열을 단어의 의미 단위로 비교하여 동일한 의미의 단어는 삭제하고 기준이 되는 문자열에 포함되지 않은 의미의 단어만을 선택하여 ","를 하나의 문자열로 융합하는 자바 와일드카드 스트링 매칭 알고리즘(Java Wildcard String Matching Algorithm)을 사용하고,
상기 메타데이터 구축 모듈의 래퍼는 숫자형태의 값을 가진 항목들의 경우 먼저 단위를 가지는지를 검사하고 단위를 삭제하며, 숫자형태의 값을 가지더라도 실제로 정보추출 과정을 거치면서 스트링(String)형태로 변환이 되기 때문에 단위를 삭제한 숫자형태의 값들을 인티저(Integer)형태로 변환하는 과정을 거치며, 상기 인티저형태로 변환된 값들 중에서 동일한 카테고리의 다른 항목들을 모두 비교하여 가장 큰 수를 융합 값으로 제시하는 웹 페이지의 이질적 데이터 정보융합 제공시스템.