KR100505848B1

KR100505848B1 - 검색 시스템

Info

Publication number: KR100505848B1
Application number: KR10-2002-0060337A
Authority: KR
Inventors: 윤석호; 이득우; 이상경; 김영주; 배석준; 안영훈
Original assignee: 씨씨알 주식회사
Priority date: 2002-10-02
Filing date: 2002-10-02
Publication date: 2005-08-04
Also published as: KR20040029895A

Abstract

본 발명의 검색 시스템은 사용자에게 검색 결과를 자동분류한 목록을 우선적으로 보여줌으로써 사용자가 보다 빠르게 원하는 정보를 찾을 수 있도록 도와준다. 본 발명의 검색 시스템은 웹 문서로부터 해당문서의 특징을 나타낼 수 있는 대표어를 추출하고, 각 문서에서 추출된 대표어의 특징에 따른 그룹화 과정을 통하여 문서를 분류하고, 각 그룹에 해당하는 가장 적당한 표제어를 사용하여 사용자가 쉽게 알 수 있도록 하여 사용자의 검색이 용이하도록 한다.

Description

검색 시스템{Search System}

본 발명은 검색 시스템에 관한 것으로, 구체적으로는 사용자가 원하는 웹문서(web document)를 보다 용이하게 찾을 수 있도록 하기 위하여 문서의 특징에 따라 자동으로 분류하여 정리된 목록을 제공하는 검색 시스템에 관한 것이다.

일반적으로 검색 시스템은 사용자가 주어진 문제에 관한 정보를 찾아내기 위한 것으로서, 최근에는 정보 제공자가 제공하는 웹문서를 인터넷을 이용하여 시간과 공간에 제약을 거의 받지 않고 제공할 수 있는 다양한 검색 시스템이 개발되어 있다.

여기에서 웹문서는 텍스트 및 텍스트와 함께 디스플레이되는 이미지 또는 멀티미디어 파일들이 어디에 있는지에 관한 설명이 포함되어 있는, HTML(Hypertext Markup Language) 등으로 표현된 파일이다. 즉, 웹문서는 사용자의 선택에 따라 관련있는 쪽으로 옮겨갈 수 있도록 조직화된 하이퍼텍스트(hypertext)로서, 문서 내의 한 단어나 그림 또는 정보 개체로부터 다른 파일로 선택적으로 연결시키는 링크(link)를 제공한다. 예를 들면, 특정한 주제에 관한 웹문서들의 모음인 웹사이트는 사용자가 웹사이트의 시작 파일인 홈페이지(home page)를 방문하면 그 웹사이트의 모든 웹문서, 즉 홈페이지가 제공하는 링크로 연결되는 웹문서들 및 연결된 웹문서가 제공하는 링크로 연결되는 다른 웹문들을 제공받아 볼 수 있다.

통상적으로 검색 시스템은 검색 엔진(search engine) 크게 세부분으로 나눌 수 있는데, 검색 대상인 웹사이트의 홈페이지를 비롯한 각 웹문서를 보관하고 있는 서버로부터 웹문서를 읽어들인 후 각 웹문서 상의 하이퍼텍스트 링크를 사용하여 다른 웹문서들을 읽어 오는 로봇 에이전트와, 로봇 에이전트가 읽어들인 웹문서에 대해 거대한 색인을 만드는 색인 프로그램과, 사용자의 검색 요구에 따라 색인 내의 내용과 비교한 뒤 검색 결과를 사용자에게 제공하는 검색 프로그램이다.

검색 엔진과 함께 검색 시스템은 주제별로 디렉토리를 분류하고 디렉토리에 대해서도 색인을 만들어 놓음으로써 사용자가 디렉토리 내에서 검색을 하거나 분류된 디렉토리 자체를 지정 탐색하여 원하는 웹 문서를 찾을 수 있게 한다.

즉, 검색 시스템의 사용자는 원하는 문서를 얻을 때까지 검색 조건으로서 원하는 정보에 관한 수 개의 단어와 디렉토리 또는 웹 문서 검색 표시를 입력하고 검색 시스템은 관련된 디렉토리 및/또는 웹 문서를 찾아서 표시하는 과정을 사용자가 원하는 웹 문서를 찾을 때까지 반복한다. 또는 분류된 디렉토리를 지정하여 탐색하여 하위 디렉토리 또는 웹문서를 보고 다시 탐색하는 과정을 반복하여 원하는 웹 문서를 얻는다.

그러나, 종래의 검색 시스템이 사용자에게 제공하는 검색 결과는 웹문서에 대하여 주제와 상관없이 나열함으로써 의미가 아닌 형식에 기반한 처리 결과를 보여주며, 디렉토리 검색을 통하여 주제별 결과를 보여주지만 디렉토리 생성은 자동적인 처리 과정이 아니라 사람의 손에 의하여 수동으로 등록 정리하기 때문에 많은 양의 웹 문서와 자주 변화하는 웹의 특성을 잘 반영하지 못한다.

이처럼 종래의 검색 시스템에서 사용자가 원하는 정보를 찾기 위해서는 주제 구분이 없이 나열된 검색 결과속에서 자신이 원하는 정보를 찾기위해서는 정리된 결과에서 보다 더 많은 노력과 시간을 소요하게 된다.

본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로, 사용자에게 검색결과를 주제별로 구분 정리하여 보여줌으로써 사용자가 원하는 정보를 보다 빠르게 정보를 찾을 수 있도록 하는 자동분류 웹 상에서의 검색 시스템을 제공하는 데에 목적이 있다.

상기 목적을 달성하기 위해서, 본 발명에서는 웹 문서의 내용을 대표하는 단어, 즉 대표단어를 추출하기 위하여 단어와 문서의 관계를 고려하고 웹문서의 특징을 이용하여 단어의 중요도를 판단하는 대표단어추출기와 추출된 대표단어를 이용하여 서로 비슷한 주제의 내용을 담고 있는 웹문서의 연관성을 계산하는 그룹퍼(Grouper)와 그룹핑된 웹문서들의 주제를 가장 잘 나타낼 수 있는 문장을 붙이기 위한 그룹네이밍 과정을 통하여 사용자에게 웹 문서 검색 결과를 자동분류된 형태로 제공한다.

본 발명에 따른 검색 시스템을 도면을 참조하여 이하에서 상세히 설명한다.

각 문서당 대표어리스트를 색인한 후 대표어를 기준으로 색인된 파일에서 각 대표어를 하나씩 읽어와 그룹퍼와 그룹네이밍이 이루어 진다.

도1에서 보는 바와 같이 자동분류 검색 시스템에 대한 전체적인 구조이다.

도1은 전체적인 데이터의 흐름과 처리 흐름을 나타내고 있다. 로봇에이전트(101)에 의해 수집된 웹 문서들이 웹 문서 데이터(102)에 저장되고, 대표어 추출기(103)에 의해 저장된 웹 문서 데이터(102)로부터 대표어를 추출하여 인덱싱 데이터(104)를 만들며, 인덱싱된 데이터는 그루퍼(105)에 의해 연관성 분석을 통하여 관련된 문서 단위로 그룹화되고, 그룹 네이밍(106)에 의해 각 그룹에 대한 대표 주제 문장이 선택되어 최종적인 그룹데이터(107)가 생성이 된다. 생성된 데이터는 검색 질의 처리기(108)에 의해 사용자의 검색 질의어에 가장 정확한 결과정보를 제공하게 된다

즉 다시 말하면,

웹 상에서 동작하는 자동분류 검색 시스템에 있어서,

웹 문서를 수집하는 로봇에이전트(101)와,

수집된 웹 문서를 저장하는 웹 문서 데이터(102)로부터 대표어를 추출하는 대표어 추출기(103)와,

상기 대표어를 추출한 후 만들어지는 인덱싱 데이터(104)에서 연관성 분석을 통하여 관련된 문서 단위로 그룹화하는 그루퍼(105)와,

각 그룹에 대한 대표 주제 문장을 선택하여 그룹데이터(106)를 생성하는 그룹 네이밍(107)과

상기 생성된 그룹데이터(107)를 결과로 정보를 제공하는 검색 질의 처리기(108)를 포함하는 검색 시스템에 관한 것이 도시되어 있다.

도2는 대표어 추출기의 절차도이다.

대표어 추출기(103)는

로봇 에이전트에서 수집한 웹 문서 데이터(102)를 읽어 들이는 웹문서 입력단계(201)와,

수집한 웹 문서들을 읽어들여 형태소 분석을 통하여 단어들을 추출하는 형태소 분석단계(202)와,

추출된 단어를 인덱싱하는 단어인덱싱 단계(203)와,

인덱싱한 단어중에서 문서를 대표할 수 있는 대표어를 추출하는 대표어 추출단계(204)를 수행하여 그루퍼(105)에게 넘기는 과정이 도시되어 있다.

다시 설명하면,

도2와 같이 로봇 에이전트에서 수집한 웹 문서들을 읽어들여 형태소 분석을 통하여 단어들을 추출하고 추출된 단어들 중에 문서를 대표할 수 있는 단어들을 추출하여 인덱싱 된 결과를 그루퍼의 입력으로 넘긴다. 이때 검색 질의 처리기에서 사용하는 웹문서 데이터와 웹 문서의 인덱스 데이터도 생성된다.

도3은 대표어 추출단계의 세부 절차도이다.

대표어 추출 단계를 세분화된 절차로 나누면,

형태소분석에 의해 추출된 단어의 빈도수를 문서 단위로 정리하여 계산하는 단어 빈도수 계산단계(301)와,

단어가 추출된 문서에서의 위치에 해당하는 단어의 태그정보를 추출하는 단어 태그 추출 단계(302)와,

모든 문서를 다 읽어서 해당된 문서의 빈도수를 계산하는 문서 빈도수 계산 단계(303)와,

문서 빈도수 계산단계 후에 경험치 계산식에 의한 역문서 빈도수 계산단계(304)로 이루어져 있다.

다시 부연하면,

먼저 형태소분석에 의해 추출된 단어의 빈도수를 문서 단위로 정리하여 계산하며, 각 단어가 추출된 문서에서의 위치에 해당하는 단어의 태그정보를 추출한다. 이때 태그는 9가지 정도의 구분을 하였다. 태그의 종류에 따라서 중복을 제거하였으며 중복에 대한 처리를 단계별로 나누어 중복의 의미를 일부만 제거하는 방법도 사용하였다.

문서 빈도수 계산 과정에서는 모든 문서를 다 읽어야 최종적으로 계산되는 값으로 역문서빈도값를 계산하는 공식인 IDF = log TF * (DF/TDF)에 사용되는 변수 값이다. 상기의 역문서빈도값을 계산하는 공식은 실제로 복잡한 웹 데이터에 대한 역문서빈도값을 계산하기 위해 그대로 적용하기에 무리가 있다..

따라서 본 발명에서는 반복적인 실험을 통하여 대량의 웹문서의 역문서빈도값을 구하기 위한 공식을 추출하기도 하며 이러한 반복적인 실험과정을 통해 개량된 역문서빈도값 계산 공식을 통하여 각각의 단어에 대한 최종 가중치 값이 계산되었으며, 이 값을 기준으로 하여 각 문서를 대표할 수 있는 단어들을 추출하여 문서별 대표어 리스트와 대표어에 따른 문서리스트 파일을 생성하여 그루퍼(105)의 처리를 위해 입력으로 사용한다.

도4는 stc-k1 알고리즘 구성도이다.

그루퍼(105)는 하나의 대표어가 추출된 문서들에서 각 문서의 또 다른 대표어들을 가지고 서로 연관성 있는 문서들을 나누는 과정이다. 이 과정에서 처리 속도를 고려한 stc-k1 알고리즘으로 그 구성도가 도4에 있다. stc-k1은 대표어를 기준으로 해당 대표어가 발견된 문서의 리스트를 작성하여 초기 그룹을 결정한다.

stc-k1 알고리즘은 대표어를 기준으로 해당 대표어가 발견된 문서의 리스트를 작성하여 초기 그룹을 결정한다.

다시 말하면 도4에서 각 문서에서 발견된 대표어를 기준으로 이진트리(binary tree)를 생성하고 각 트리 노드(대표어)가 발견된 문서의 리스트를 작성한다. 이렇게 작성된 리스트에서 최소빈도의 노드(하나의 문서에서만 발견된 대표어)를 제거한 후 최종적으로 만들어진 노드는 B1, B2, B3, B4가 된다.

도면4는 stc-k1 알고리즘을 설명하고 있는 것으로 삼성이라는 검색어에 의하여 추출되어진 5개의 문서에 대하여 아래와 같이 문서에 대한 대표어 리스트들이 추출 되어있을 때

문서1:삼성전자, 메모리, 뉴스

문서2: 삼성전자, 뉴스, 증권정보, 고객, 계좌

문서3: 삼성에버랜드, 삼성전자, 삼성증권

문서4: 삼성증권, 사이버지점, fn

문서5: 삼성생명, 삼성증권, fn.com, 계좌

각 대표어별로 분류하는 과정으로 각각의 대표어들이 나타난 문서의 리스트를 정리한 후 중요한 대표어그룹으로 생각되는 위의 삼성전자, 뉴스, 삼성증권, 계좌 라는 4개의 베이스 클러스터를 추출하여 도4에서 보는바와 같이 정리한다.

도5는 연관도 검사 및 최종 그루핑 구성도이다.

이렇게 생성된 초기 그룹들은 도5의 구성도와 같이 각 그룹간의 연관도 분석을 통하여 50%이상 동일한 그룹이면 서로간에 관련성이 있다고 보고 연결하여 주고 90%이상 동일할 시에는 서로 같은 특징의 그룹이라 간주하여 하나의 그룹으로 통합하여 최종 그룹을 결정한다.

하나의 그룹은 자신을 제외한 모든 다른 그룹과 연관도 분석을 하게 된다.

이렇게 생성된 최종 그룹은 해당 그룹의 이름을 결정하기 위하여 그룹네이밍 작업을 한다.

연관도 분석은 각 대표어가 발견된 문서의 리스트를 비교하여 가장 동일 문서에서 발견된 빈도가 많을수록 그 연관도가 높아지는 것으로 계산식은 다음과 같다.

그룹1에대한 그룹2의 연관도 = (그룹 1과 2의 동일 문서수) / 그룹 1의 전체 문서수

그룹2에대한 그룹1의 연관도 = (그룹 1과 2의 동일 문서수) / 그룹 2의 전체 문서수

위의 계산식을 통하여 양방향 50%이상 동일한 그룹이면 서로간에 관련성이 있다고 보고 연결하여 주고 양방향 90%이상 동일할 시에는 서로 같은 특징의 그룹이라 간주하여 하나의 그룹으로 통합하여 최종 그룹을 결정한다.

도5에서 보면 B1과 B2는 90%이상 동일하여 하나의 그룹 B12로 통합되어 지고 B4와 B12는 50%이상 동일하여 서로 연결선이 그려져서 최종적인 그룹은 B12와 B4 두개가 생성이되고 이들 둘은 서로 연관성이 있다.

도6은 stc-k2 알고리즘 구성도이다.

그룹퍼에서 생성된 최종 그룹에서 각각 그룹을 대표할 수 있는 가장 대표적인 이름을 결정하기 위한 과정이다. 이 과정은 stc-k2알고리즘을 이용하여 처리되며 그 구성도는 도6과 같다

stc-k2는 각 그룹에 속한 문서들중 문서의 제목이 있는 경우 그 제목을 트리(tree)구조로 나열하면서 각 노드에 해당 대표어나 검색어가 포함되어 있는지 여부에 따라 그 노드의 가중치가 결정되며 최종 그룹의 이름은 가중치가 가장 높은 노드의 단어들을 사용하여 적절한 그룹 이름을 결정하게 된다.

삼성전자와 관련된 문서 1, 2, 3의 타이틀이 위와 같이 3개의 문장으로 되어있을 경우

각 문장을 이용하여 트리를 구성한다.

문장1 뉴스-삼성전자 메모리시장 황제 등극 - 을 이용하여 트리를 구성하면 다음과 같은 3개의 트리가 생성된다

트리1> 뉴스 삼성전자 메모리시장 황제등극

트리2> 삼성전자 메모리시장 황제등극

트리3> 메모리시장 황제등극

트리4> 황제등극

문장2 삼성전자 증권정보 를 이용하여 트리를 구성하면 다음과 같은 트리 생성과 변경이 이루어진다

트리2> 삼성전자 메모리시장 황제등극

삼성전자 증권정보

트리5> 증권정보

문장3 삼성의 계열사 삼성전자 를 이용하여 트리를 구성하면 다음과 같다.

트리6> 삼성 계열사 삼성전자

트리7> 계열사 삼성전자

트리2> 삼성전자 메모리시장 - 황제등극

삼성전자 증권정보

문장3개의 트리구성에 의해 모두 7개의 트리가 구성되며 각 노드들은 노드의 단어가 나타난 문장번호를 가지고 있다

따라서 각 트리의 가중치 값을 계산하여 가장 높은 가중치를 갖는 트리2의 값은

삼성전자 1,2,3 문서의 타이틀에서 출현, 빈도 3

메모리시장 1 문서의 타이틀에서 출현, 빈도 1

황제등극 1 문서의 타이틀에서 출현, 빈도 1

증권정보 2 문서의 타이틀에서 출현, 빈도 1

삼성이라는 검색어가 삼성전자에 포함되어 나타났으므로 검색어 삼성을 3번 포함하고 있다. 따라서 트리2>의 가중치값은 6 + ( 3 * 2 ) 로서 계산되어 12라는 점수를 갖게 되어 트리중에 가장 높은 가중치값을 갖게 되며, 그룹의 이름으로 사용된다

삼성전자 메모리시장 황제등극 증권정보라는 트리내 단어들을 통하여 실제 문장을 구성하게 되는데 이때, 트리에서 깊이가 가장 긴 경로를 구성하고 있는 단어들을 연결하여 대표문장으로 만들고, 나머지 경로에 있는 단어들은 콤마(,)로 분리하여 사용한다

따라서 삼성전자 그룹을 표시하는 이름 - 삼성전자 메모리시장 황제등극, 증권정보 라고 붙여지게 된다.

stc-k2는 각 그룹에 속한 문서들중 문서의 제목이 있는 경우 그 제목을 tree구조로 나열하면서 각 노드에 해당 대표어나 검색어가 포함되어 있는지 여부에 따라 그 노드의 가중치가 결정되며 최종 그룹의 이름은 가중치가 가장 높은 노드의 단어들을 사용하여 적절한 그룹 이름을 결정하게 된다.

도6에서 삼성전자 , 뉴스 , 삼성증권 , 계좌 로 4개의 그룹중 삼성전자 그룹에 대한 그룹네이밍(stc-k2)이 이루어지는 과정이다.

도6에서와 같이 삼성전자 그룹에 해당하는 문서들의 제목을 이용한 tree가 생성되고 그중 가장 값이 높은 노드들을 이용하여 그룹의 이름을 결정하게 된다.

각 노드들의 가중치는 아래와 같이 계산된다.

(노드수*1) + (검색어 포함여부*2)

위의 계산식을 사용하여 결정된 노드(황색부분)를 사용하여 이름을 결정하게 되며 각 노드들의 배치는 부모노드에서 자식노드는 붙여서 정하고 형제노드는 컴마(,)를 사용한다.

삼성전자 메모리시장 황제등극, 증권정보

또한 해당 그룹의 초기 그룹명을 진하게 표시하여 사용자로 하여금 식별이 용이하도록 하였다.

검색 질의 처리기는 사용자가 입력한 질의어를 CGI로부터 넘겨 받아서 질의 종류의 판단과 검색 결과 생성, 그리고 검색 결과를 화면에 출력하기 위한 처리라는 3가지 역할을 담당한다. 질의 종류에 따라 2가지 작업을 하는데 단순 질의일 경우에는 이미 인덱싱된 데이터에서 질의의 결과를 추출하는 처리를 하며, 실시간 처리를 필요로 하는 질의일 경우에는 그루퍼로 하여금 검색 결과를 생성하도록하는 처리 요청을 한 후 그루퍼에서 처리된 결과를 받아서 검색 결과로써 사용자에게 보여준다.

본 발명의 검색 시스템에는 인터넷에 연결되어 있고 웹브라우저를 사용할 수 있는 사용자가 접근하여 검색을 한 후 검색 결과를 자동분류에 의해 관련있는 주제별로 분류된 결과를 볼 수 있어서 원하는 정보를 보다 신속하게 찾을 수 있다. 그리고 그 문서에 관련된 정보를 가진 문서들이 그룹화되어 있으므로 보다 신속하게 많은 정보를 얻을 수 있어서 검색의 질적인 향상과 검색 효율이 높아진다.

한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.

도 1은 본 발명에 따른 자동분류 검색 시스템의 구성도이다.

도2는 대표어 추출기의 절차도이다.

도3은 대표어 추출단계의 세부 절차도이다.

도4는 stc-k1 알고리즘 구성도이다.

도5는 연관도 검사 및 최종 그루핑 구성도이다.

도6은 stc-k2 알고리즘 구성도이다.

* 도면의 주요부분에 대한 부호의 설명

101 : 로봇에이전트 102 : 웹 문서 데이터

103 : 대표어 추출기 104 : 인덱싱 데이터

105 : 그루퍼 106 : 그룹네이밍

107 : 그룹 데이터 108 : 검색 질의 처리기

201 : 웹문서 입력 단계 202 : 형태소 분석 단계

203 : 단어 인덱싱 단계 304 : 대표어 추출 단계

301 : 단어 빈도수 계산 단계 302 : 단어태그 추출 단계

303 : 문서 빈도수 계산 단계 304 : 역문서 빈도수 계산 단계

Claims

웹 상에서 동작하는 자동분류 검색 시스템에 있어서,

웹 문서를 수집하는 로봇에이전트(101)와,

수집된 웹 문서를 저장하는 웹 문서 데이터(102)로부터 대표어를 추출하는 대표어 추출기(103)와,

상기 대표어를 추출한 후 만들어지는 인덱싱 데이터(104)에서 연관성 분석을 통하여 관련된 문서 단위로 그룹화하며, 대표어를 기준으로 해당 대표어가 발견된 문서의 리스트를 작성하여 초기 그룹을 결정하는 stc-k1 알고리즘을 따른 것을 특징으로 하는 그루퍼(105)와,

각 그룹에 대한 대표 주제 문장을 선택하여 그룹데이터(106)를 생성하며, 생성된 최종 그룹에서 각각 그룹을 대표할 수 있는 가장 대표적인 이름을 결정하기 위한 stc-k2 알고리즘을 따른 것을 특징으로 한 그룹 네이밍(107)과,

상기 생성된 그룹데이터(107)를 결과로 정보를 제공하는 검색 질의 처리기(108)를 포함하는 검색 시스템.
제1항에 있어서,

상기 대표어 추출기(103)는

로봇 에이전트에서 수집한 웹 문서 데이터(102)를 읽어 들이는 웹문서 입력단계(201)와,

수집한 웹 문서들을 읽어들여 형태소 분석을 통하여 단어들을 추출하는 형태소 분석단계(202)와,

추출된 단어를 인덱싱하는 단어인덱싱 단계(203)와,

인덱싱한 단어중에서 문서를 대표할 수 있는 대표어를 추출하는 대표어 추출단계(204)를 수행하는 것을 특징으로 하는 검색 시스템.
제 2항에 있어서,

상기 대표어 추출 단계(204)는,

형태소분석에 의해 추출된 단어의 빈도수를 문서 단위로 정리하여 계산하는 단어 빈도수 계산단계(301)와,

단어가 추출된 문서에서의 위치에 해당하는 단어의 태그정보를 추출하는 단어 태그 추출 단계(302)와,

모든 문서를 다 읽어서 해당된 문서의 빈도수를 계산하는 문서 빈도수 계산 단계(303)와,

문서 빈도수 계산단계 후에 경험치 계산식에 의한 역문서 빈도수 계산단계(304)로 이루어진 것을 특징으로 하는 검색 시스템.
삭제
제 1항에 있어서,

상기 그루퍼는 상기 초기그룹간의 연관도 분석을 통하여 50%이상 동일한 그룹이면 서로간에 관련성이 있다고 보고 연결하여 주고 90%이상 동일할 시에는 서로 같은 특징의 그룹이라 간주하여 하나의 그룹으로 통합하여 최종 그룹을 결정하는 것을 특징으로 하는 검색 시스템.
삭제