KR101444832B1

KR101444832B1 - 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법

Info

Publication number: KR101444832B1
Application number: KR1020100076542A
Authority: KR
Inventors: 윤은일; 편광범; 류근호; 신현일
Original assignee: 충북대학교 산학협력단
Priority date: 2010-08-09
Filing date: 2010-08-09
Publication date: 2014-09-30
Also published as: KR20120014458A

Abstract

본 발명은 인터넷 정보검색시스템에서 주제(Thema)별로 서비스를 제공하기 위하여 수집된 웹 페이지를 주제에 맞는 페이지로 분류하는데 연관 규칙 마이닝을 사용하여 정확하고 효율적인 선별을 하기 위한 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법이다. 모든 주제에 대하여 검색 서비스를 하면 사용자가 필요하지 않은 정보가 높은 랭킹으로 나타나는 현상이 있기 때문에 사용자의 관심에 맞추어 주제별로 페이지를 분류하여 검색할 수 있도록 함으로서 정확하고 효과적으로 사용자에게 검색 서비스를 제공할 수 있다. 따라서, 사용자가 보편적으로 관심 있는 주제를 큰 부류로 나누어 따로 검색 서비스를 제공한다면 사용자가 원하는 부분에 대한 검색 결과를 제공 할 수 있어 많은 페이지들을 탐색하지 않고도 원하는 정보를 쉽게 찾을 수 있다.

Description

연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법{thema based Internet Retrieval System using association rule mining}

본 발명은 인터넷의 정보 검색방법에 관한 것으로, 특히 인터넷 정보검색시스템(Internet Retrieval System)에서 주제(Thema)별로 서비스를 제공하기 위하여 수집된 웹 페이지를 주제에 맞는 페이지로 분류하는데 연관 규칙 마이닝을 사용하여 정확하고 효율적인 선별을 하기 위한 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법에 관한 것이다.

일반적으로, 인터넷 정보검색시스템은 인터넷에 떠도는 수많은 페이지를 사용자 입맛에 맞추어 검색 해주는 서비스로 많은 사람들에게 인터넷이 보급되면서 정보를 찾기 위한 중요한 수단으로 대두되었다. 인터넷은 매우 방대한 정보를 포함하고 그 분야는 모든 것을 포함하므로 사용자의 질의(Query)에 대하여 최대한 많은 웹 페이지를 대상으로 정확한 검색을 하는 서비스가 필요하다.

인터넷 정보검색시스템의 구성을 도 1을 참조하여 설명하면, 웹로봇(Web Robot)(120)은 인터넷에서 웹 페이지들을 수집한다. 웹로봇(120)은 시드사이트(Sid Site)로부터 웹 페이지를 수집하며 하이퍼링크(Hyper Link)에 연결된 사이트와 웹페이지를 차례대로 방문하며 모든 페이지를 수집한다. 수집된 웹 페이지는 인덱서(130)작업을 통하여 사용자에게 서비스를 하기 위해 색인을 수행한다.

인덱서(130) 작업은 형태소 분석기를 사용하여 페이지에 사용되는 모든 단어를 분류하고 필요 없는 조사나 접속사와 같은 단어는 제거(Pruing)한다. 사용자 질의에 응답을 효율적으로 하기 위해 역파일(Inverse File)을 제작한다. 역파일은 특정 단어가 들어있는 웹 페이지를 가르치는 인덱스로 하나의 단어마다 이 단어를 포함하는 여러 웹 페이지를 연결하는 방식으로 되어 있다. 역파일은 서버에 데이터베이스 형태로 저장되어 웹서버(Web Server)에서 사용자 질의를 받으면 데이터베이스에 저장된 역파일을 검색하여 질의에 맞는 검색 결과를 보여주는 방식이다.

인터넷 정보검색시스템은 1990년 월드 와이드 웹(World Wide Web)이 개발되고 1993년 최초의 인터넷 검색 시스템이 개발되었다. 1994년 야후(Yahoo)가 탄생하고 구글(Google), 알타비스타(AltaVista) 등 여러 상용 사이트가 인터넷 정보검색 서비스를 하기 시작했다. 인터넷 정보검색시스템은 사용자 질의를 분석하여 모든 웹페이지를 검색하여 주는 형식이다. 국내에도 많은 인터넷 정보검색 시스템이 나타나게 되는 데, 이중 대표적인 네이버와 다음은 카페, 블로그와 같은 커뮤니티 검색을 서비스 하고 사용자의 관심에 맞춰 여행, 요리, 상품등 주제별로 검색을 해주는 서비스를 제공하고 있다. 주제별로 검색 서비스를 하기 위해선 수집된 웹 페이지를 주제별로 분류하는 작업이 필요하다.

데이터 마이닝(Data mining)은 수많은 정보에서 필요한 정보를 찾기 위해 분류(Classification) 또는 군집(Clustering), 연관 규칙(Association Rule)등 많은 기법을 사용한다. 이 중 연관 규칙은 "A라는 패턴(pattern)이 있을 때 B라는 패턴이 자주 발생한다" 라는 규칙을 찾아내는 마이닝 기법이다. 데이터 베이스(Data Base)에 저장된 데이터를 가지고 연관 규칙을 찾아내는 방법으로 패턴 마이닝(Pattern mining)기법이 있다. 데이터베이스를 구성하는 아이템의 빈도수(frequency)를 사용하여 트랜잭션(Transaction)에 자주 발생하는 아이템들의 집합 또는 패턴을 찾는다.

웹페이지를 주제별로 선별하기 위한 방법은 웹페이지의 내용을 분석하여야 하는 데, 대부분의 인터넷 검색시스템에서 사용하는 주제별 검색은 커뮤니티를 이용하여 사용자에게 서비스함으로서 해당 사이트의 커뮤니티에서만 주제별 검색을 제공하는 한계점이 있어 인터넷의 웹 페이지를 주제별로 선별하기 위해서는 거대한 규모의 커뮤니티가 필요하다는 문제점이 있다.

본 발명에서는 이러한 문제점을 해소하기 위하여 발명된 것으로 모든 웹페이지를 대상으로 주제별로 분류 하여 사용자에게 서비스 하기 위해서 수집된 웹 페이지를 분류하는데 데이터마이닝 기술중 연관 규칙에 의해 분류하였으며 그 방식을 패턴 마이닝을 사용하여 연관되는 아이템으로 분류 하고, 분류된 웹페이지들을 주제별로 서비스 할 수 있도록 하는 방법을 제공하는 데 그 목적이 있다.

상기의 목적을 수행하기 위한 본 발명은,

연관 규칙을 찾기 위한 구축된 데이터베이스에 필요한 웹 페이지를 웹 로봇을 이용하여 수집하는 웹 페이지 수집단계;

수집된 웹 페이지를 형태소 분석하여 주제별로 선별하여 연관 규칙을 찾는 과정 및 상기 연관규칙에 의한 패턴과 비교하여 주제별로 분류하는 과정으로 구성되는 웹페이지 분류 단계; 그리고,

웹 페이지 분류단계를 통하여 주제별로 분류된 웹페이지를 주제별로 차등화된 점수를 적용하여 랭킹을 계산하는 과정으로 이루어진다.

본 발명은 수집된 페이지를 주제별로 분류하여 사용자 관심분야에 따라 검색할 수 있도록 하는 인터넷 정보검색 방법으로, 모든 주제에 대하여 검색 서비스를 하면 사용자가 필요하지 않은 정보가 높은 랭킹으로 나타나는 현상이 있기 때문에 사용자의 관심에 맞추어 주제별로 페이지를 분류하여 검색할 수 있도록 함으로서 정확하고 효과적으로 사용자에게 검색 서비스를 제공할 수 있다. 따라서, 사용자가 보편적으로 관심 있는 주제를 큰 부류로 나누어 따로 검색 서비스를 제공한다면 사용자가 원하는 부분에 대한 검색 결과를 제공 할 수 있어 많은 페이지들을 탐색하지 않고도 원하는 정보를 쉽게 찾을 수 있다.

도 1은 인터넷 정보검색 시스템의 구조이다.
도 2는 본 발명에 따른 주제별로 연관 규칙을 산출하는 방법을 나타내는 흐름도이다.
도 3은 본 발명에 따른 인터넷 정보 검색 시스템에서 웹페이지로부터 구축된 데이터베이스를 패턴마이닝을 하기위한 FP-tree 구조이다.
도 4는 본 발명에 따른 인터넷 정보검색시스템에서 패턴마이닝에 의해 구한 빈발 패턴을 저장하는 트리의 구조와 웹페이지의 패턴을 비교하는 방법이다.
도 5는 본 발명에 다른 인터넷 정보 검색시스템에서 빈발 패턴을 저장하는 데이터베이스를 이용하여 주제별로 웹 페이지를 분류하는 방법이다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하면 다음과 같다.

본 발명은 주제별 커뮤니티를 검색하여 서비스 하는 방식이 아닌 모든 인터넷 웹 페이지를 대상으로 주제별로 분류하여 주제어별 인터넷 정보검색 시스템을 구축하는 방법이다. 웹 페이지를 분류하는 방법은 데이터 마이닝 기술중 연관 규칙에 의해 분류하였으며 그 방식을 패턴 마이닝을 사용하여 연관되는 아이템으로 분류 하였다. 이렇게 분류된 웹페이지들을 주제별로 서비스 하는 본 발명에 따른 인터넷 정보검색서비스는 웹 로봇으로부터 수집된 페이지를 형태소 분석 후에 연관 규칙 마이닝 기술을 적용하여 주제별로 웹페이지를 분류하여 사용자에게 서비스 한다.

웹 페이지를 주제별로 분류하는 일 예로 여행을 주제로 하는 웹 페이지를 찾는 경우를 가정하면, 지리산이라는 단어가 있을 때 배낭과 생수 같은 단어가 있을 확률이 높다. 이런 패턴을 찾아내어 새로 수집한 웹 페이지에 여행과 관련해 자주 나오는 단어들의 조합이 있다면 이 페이지는 여행과 관련된 페이지일 확률이 매우 높아지게 되는 원리를 이용한다.

도 2는 주제별로 연관 규칙을 구하는 방법에 대한 흐름도로, 패턴 마이닝을 이용하여 연관 규칙을 찾기 위해서는 구축된 데이터베이스가 필요하다. 웹 로봇이 데이터베이스가 될 수많은 웹 페이지를 수집(S210)한다. 페이지를 형태소 분석(S220)하여 아이템의 단어를 추출한다. zipf's law(S230)를 이용하여 의미가 없는 단어와 접속사 조사 등 필요 없는 단어를 제거한다. 연관 규칙 마이닝에 사용할 주제별 페이지를 선별하기위해 주로 사용되는 용어를 사전 형태로 분류하여 구축한다.

주제별 페이지를 선별하는 방식은 I를 단어라 하고 If를 단어의 빈도수, weight는 종류별 가중치 n은 페이지의 단어 개수이다. 단어의 빈도수와 종류별 가중치를 곱하여 페이지 단어의 개수로 나누어 주어 페이지를 선별하게 되는 데 <식 1>은 이를 나타낸다.

<식 1>

주제별로 선별(S240)된 페이지를 하나의 트랜잭션으로 만든다(S250). 하나의주제를 하나의 데이터베이스와 대응되도록 주제별 데이터 베이스를 생성한다(S260). 페이지를 구성하는 단어들은 트랜잭션을 구성하는 아이템으로 하고, 아이템의 빈도수를 체크하지 않는다. 페이지에서 단어들의 패턴을 찾는 것을 마이닝 기술을 이용하여 찾아내는 것이기 때문에 트랜잭션으로 만들어지는 아이템의 빈도수를 고려하지 않는다. 만들어진 주제별 데이터베이스를 패턴 마이닝 알고리즘(S270)에 의하여 빈발 패턴을 찾는다.

도 3은 패턴마이닝을 효율적으로 구현한 FP-tree(Frequency Pattern - Tree)의 구조이다. 트랜잭션을 한번 스캔하여 데이터베이스를 구성하는 전체 아이템의 빈도수를 구하고 빈도수 내림차순(Support Ascending Order)으로 정렬한다. 헤더 테이블(Header Table)(310)을 만들어 아이템 이름과 빈도수를 표시한다.

두 번째로 데이터베이스를 스캔하여 트랜잭션을 첫 번째 스캔에서 구해진 순서대로 정렬한다. 트리(320)의 루트로부터 대응되는 아이템을 삽입하는데 대응되는 노드가 있다면 빈도수를 하나 증가하고 대응되는 노드가 없다면 노드를 추가하는 방식으로 트리를 구축한다. 헤더테이블과 같은 아이템을 가지는 노드를 링크노드(Link-Node)로 연결한다. 순위가 가장 낮은 즉, 빈도수가 가장 낮은 아이템부터 링크노드를 탐색하며 선택된 아이템을 포함한 조건적 데이터베이스를 상향식 방식(Bottom up)으로 찾는다. 조건적 데이터베이스를 이용하여 다시 트리를 구축하고 반복하여 선택된 아이템을 포함한 모든 패턴을 찾는다.

이 패턴을 이용하여 페이지를 선별하는 작업을 하기 위해 찾아낸 빈발 패턴을 데이터 베이스 형태로 저장하는 작업을 수행한다. 공간의 낭비를 최소화하기 위해 찾아낸 빈발 패턴들을 도 4의 구조인 트리(410) 형태로 만들어 저장한다.

도 5는 주제별로 웹 페이지를 분류하는 방법이다. 연관 규칙 패턴을 이용하여 웹페이지를 분류하는 방법은 수집된 페이지(S510)를 형태소 분석을 하여 의미 있는 단어와 단어의 빈도수를 추출한다(S520). 패턴 마이닝 기술로 찾아낸 빈발 패턴과 비교하여 점수를 부여하는 작업을 수행한다(S540). 페이지의 단어들을 빈발 패턴을 저장한 트리의 순서로 정렬을 한다. 빈발 패턴 트리의 루트로부터 단어들을 검색하여 이 페이지에 포함되는 가장 긴 패턴을 트리에서 찾는다. 예제로 여행에 관련된 주제를 가진 페이지가 있다. 페이지에 포함된 단어와 빈도수는 경주 3개, 불국사 2개, 다보탑 2개, 음료수 2개, 바나나 1개, 가족 1개이고 빈발패턴 트리의 순서대로 정렬이 되어 있다고 하자. 도 4의 트리(410) 루트의 자식들 중에 경주(411)라는 아이템을 가진 노드를 검색하고 자식 노드로 포인터를 옮긴 뒤 불국사(412)라는 아이템을 가진 노드로 탐색한다. 계속 탐색하다가 음료수(414)라는 단어가 있는 노드까지 검색했는데 자식 노드에 바나나가 없다면 다음 단어인 가족이란 단어를 탐색한다. 자식노드 중에 가족이라는 단어를 가진 노드가 없다면 탐색을 중단하고 트리의 깊이를 계산한다. 경주부터 음료수(414)까지 탐색했으므로 4개의 깊이를 가지게 되고 이 페이지의 패턴은 경주(411), 불국사(412), 다보탑(413), 음료수(414)가 된다. 이 페이지의 패턴 중 가장 빈도수가 적은 아이템의 빈도수를 트리 길이와 곱한 뒤 이 페이지의 다른 패턴들을 검색하여 각 패턴별로 정규화 처리를 하는 방식으로 패턴의 길이와 빈도수를 둘 다 고려한다. 분류가 된 페이지의 점수를 확인하여 높은 점수를 받은 페이지는 다시 트랜잭션으로 만들어(S590) 주제별 데이터베이스(S580)에 저장된다. 이 데이터베이스를 주기적으로 패턴마이닝하여(S560) 주제별로 연관규칙을 가지는 패턴을 갱신하게 된다.

주제별로 분류한 페이지는 여러 가지의 주제별 점수를 가지게 되고 역파일에 저장한 뒤 웹서버에서 사용자 질의에 의한 랭킹점수를 계산할 때 사용한다. 랭킹 점수를 계산하는 방법은 <식 2>에서 보는 바와 같이 질의 기반의 인터넷 정보검색과 마찬가지로 페이지 내부 단어의 빈도수를 가지고 계산한다. 문서 전체에 대한 의미없는 단어를 제거 하기 위해 IDF(Inverse Document Frequency)를 사용한다. 여기에 주제별로 분류되어 산출된 주제별 점수 (W > 1)를 곱하여 적용한다. F는 질의 아이템의 빈도수, idf는 IDF이다.

<식 2>

본 발명은 주제별 커뮤니티를 검색하여 서비스 하는 방식이 아닌 모든 인터넷 웹 페이지를 대상으로 주제별로 분류하여 주제어별 인터넷 정보검색 시스템을 구축하고, 본 발명에서 구축된 검색 시스템을 적용한 웹 서비스는 사용자가 보편적으로 관심 있는 주제를 큰 부류로 나누어 서비스 하여 사용자가 관심에 따라 분류된 웹페이지 정확하고 효율적으로 검색을 할 수 있다.

Claims

삭제
ⅰ)연관 규칙을 찾기 위한 구축된 데이터베이스에 필요한 웹 페이지를 웹 로봇을 이용하여 수집하는 웹 페이지 수집단계;
ⅱ)상기 단계에서 수집된 웹 페이지를 형태소 분석하여 주제별로 선별하여 연관 규칙을 찾는 과정 및 상기 연관규칙에 의한 패턴과 비교하여 주제별로 분류하는 과정으로 구성되는 웹페이지 분류 단계; 그리고,
ⅲ)상기 웹 페이지 분류단계를 통하여 주제별로 분류된 웹페이지를 주제별로 차등화된 점수를 적용하여 랭킹을 계산하는 과정으로 이루어진 웹 페이지 랭킹단계를 포함하며,
상기 웹페이지 분류 단계중 주제별로 선별하여 연관 규칙을 찾은 과정은,
주제별 사전을 하기 <식 1>을 이용하여 웹페이지를 주제별로 선별하는 과정(S240);

<식 1>
(상기 식에서 I는 단어, If는 단어 빈도수, weight는 종류별 가중치, n은 페이지의 단어 개수를 나타냄.)
상기 선별된 웹페이지를 트랜잭션으로 변환하는 과정(S250);
상기 트랜잭션으로 변환된 선별된 웹페이지를 데이터베이스에 저장하는 과정(S260);
패턴 마이닝을 이용하여 연관규칙을 찾는 과정(S270); 및
주제별로 연관 규칙을 트리 형태로 데이터베이스에 저장하는 과정(S280)을 포함하는 것을 특징으로 하는 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법.
ⅰ)연관 규칙을 찾기 위한 구축된 데이터베이스에 필요한 웹 페이지를 웹 로봇을 이용하여 수집하는 웹 페이지 수집단계;
ⅱ)상기 단계에서 수집된 웹 페이지를 형태소 분석하여 주제별로 선별하여 연관 규칙을 찾는 과정 및 상기 연관규칙에 의한 패턴과 비교하여 주제별로 분류하는 과정으로 구성되는 웹페이지 분류 단계; 그리고,
ⅲ)상기 웹 페이지 분류단계를 통하여 주제별로 분류된 웹페이지를 주제별로 차등화된 점수를 적용하여 랭킹을 계산하는 과정으로 이루어진 웹 페이지 랭킹단계를 포함하며,
상기 웹페이지 분류 단계중 연관규칙에 의한 패턴과 비교하여 주제별로 분류하는 과정은,
연관규칙을 저장하는 트리와 수집된 웹페이지를 비교하여 주제별로 분류하는 과정(S540);
분류된 웹페이지를 트랜잭션으로 변환하는 과정(S590);
트랜잭션으로 변환된 웹페이지를 데이터베이스로 해서 주제별로 연관규칙을 찾는 패턴 마이닝을 하는 과정(S560)을 포함하는 것을 특징으로 하는 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법.
제 3항에 있어서, 상기 웹페이지 분류 단계중 연관규칙에 의한 패턴과 비교하여 주제별로 분류하는 과정은 분류된 웹페이지를 다시 패턴 마이닝하여 연관규칙 데이터베이스를 갱신하는 과정을 더 포함하는 것을 특징으로 하는 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법.
ⅰ)연관 규칙을 찾기 위한 구축된 데이터베이스에 필요한 웹 페이지를 웹 로봇을 이용하여 수집하는 웹 페이지 수집단계;
ⅱ)상기 단계에서 수집된 웹 페이지를 형태소 분석하여 주제별로 선별하여 연관 규칙을 찾는 과정 및 상기 연관규칙에 의한 패턴과 비교하여 주제별로 분류하는 과정으로 구성되는 웹페이지 분류 단계; 그리고,
ⅲ)상기 웹 페이지 분류단계를 통하여 주제별로 분류된 웹페이지를 주제별로 차등화된 점수를 적용하여 랭킹을 계산하는 과정으로 이루어진 웹 페이지 랭킹단계를 포함하며,
주제별로 분류된 웹페이지의 랭킹을 계산하는 과정은 하기<식 2>에 의하여 결정되는 것을 특징으로 하는 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법.

<식 2>
(상기 식 2에서 F는 질의에 대응하는 아이템 빈도수, idf 는 문서 전체에 대한 의미없는 단어를 제거하기 위한 수식, W는 주제별 점수 (W > 1)임.)