KR100505848B1 - 검색 시스템 - Google Patents

검색 시스템 Download PDF

Info

Publication number
KR100505848B1
KR100505848B1 KR10-2002-0060337A KR20020060337A KR100505848B1 KR 100505848 B1 KR100505848 B1 KR 100505848B1 KR 20020060337 A KR20020060337 A KR 20020060337A KR 100505848 B1 KR100505848 B1 KR 100505848B1
Authority
KR
South Korea
Prior art keywords
group
document
word
representative
documents
Prior art date
Application number
KR10-2002-0060337A
Other languages
English (en)
Other versions
KR20040029895A (ko
Inventor
윤석호
이득우
이상경
김영주
배석준
안영훈
Original Assignee
씨씨알 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 씨씨알 주식회사 filed Critical 씨씨알 주식회사
Priority to KR10-2002-0060337A priority Critical patent/KR100505848B1/ko
Publication of KR20040029895A publication Critical patent/KR20040029895A/ko
Application granted granted Critical
Publication of KR100505848B1 publication Critical patent/KR100505848B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

본 발명의 검색 시스템은 사용자에게 검색 결과를 자동분류한 목록을 우선적으로 보여줌으로써 사용자가 보다 빠르게 원하는 정보를 찾을 수 있도록 도와준다. 본 발명의 검색 시스템은 웹 문서로부터 해당문서의 특징을 나타낼 수 있는 대표어를 추출하고, 각 문서에서 추출된 대표어의 특징에 따른 그룹화 과정을 통하여 문서를 분류하고, 각 그룹에 해당하는 가장 적당한 표제어를 사용하여 사용자가 쉽게 알 수 있도록 하여 사용자의 검색이 용이하도록 한다.

Description

검색 시스템{Search System}
본 발명은 검색 시스템에 관한 것으로, 구체적으로는 사용자가 원하는 웹문서(web document)를 보다 용이하게 찾을 수 있도록 하기 위하여 문서의 특징에 따라 자동으로 분류하여 정리된 목록을 제공하는 검색 시스템에 관한 것이다.
일반적으로 검색 시스템은 사용자가 주어진 문제에 관한 정보를 찾아내기 위한 것으로서, 최근에는 정보 제공자가 제공하는 웹문서를 인터넷을 이용하여 시간과 공간에 제약을 거의 받지 않고 제공할 수 있는 다양한 검색 시스템이 개발되어 있다.
여기에서 웹문서는 텍스트 및 텍스트와 함께 디스플레이되는 이미지 또는 멀티미디어 파일들이 어디에 있는지에 관한 설명이 포함되어 있는, HTML(Hypertext Markup Language) 등으로 표현된 파일이다. 즉, 웹문서는 사용자의 선택에 따라 관련있는 쪽으로 옮겨갈 수 있도록 조직화된 하이퍼텍스트(hypertext)로서, 문서 내의 한 단어나 그림 또는 정보 개체로부터 다른 파일로 선택적으로 연결시키는 링크(link)를 제공한다. 예를 들면, 특정한 주제에 관한 웹문서들의 모음인 웹사이트는 사용자가 웹사이트의 시작 파일인 홈페이지(home page)를 방문하면 그 웹사이트의 모든 웹문서, 즉 홈페이지가 제공하는 링크로 연결되는 웹문서들 및 연결된 웹문서가 제공하는 링크로 연결되는 다른 웹문들을 제공받아 볼 수 있다.
통상적으로 검색 시스템은 검색 엔진(search engine) 크게 세부분으로 나눌 수 있는데, 검색 대상인 웹사이트의 홈페이지를 비롯한 각 웹문서를 보관하고 있는 서버로부터 웹문서를 읽어들인 후 각 웹문서 상의 하이퍼텍스트 링크를 사용하여 다른 웹문서들을 읽어 오는 로봇 에이전트와, 로봇 에이전트가 읽어들인 웹문서에 대해 거대한 색인을 만드는 색인 프로그램과, 사용자의 검색 요구에 따라 색인 내의 내용과 비교한 뒤 검색 결과를 사용자에게 제공하는 검색 프로그램이다.
검색 엔진과 함께 검색 시스템은 주제별로 디렉토리를 분류하고 디렉토리에 대해서도 색인을 만들어 놓음으로써 사용자가 디렉토리 내에서 검색을 하거나 분류된 디렉토리 자체를 지정 탐색하여 원하는 웹 문서를 찾을 수 있게 한다.
즉, 검색 시스템의 사용자는 원하는 문서를 얻을 때까지 검색 조건으로서 원하는 정보에 관한 수 개의 단어와 디렉토리 또는 웹 문서 검색 표시를 입력하고 검색 시스템은 관련된 디렉토리 및/또는 웹 문서를 찾아서 표시하는 과정을 사용자가 원하는 웹 문서를 찾을 때까지 반복한다. 또는 분류된 디렉토리를 지정하여 탐색하여 하위 디렉토리 또는 웹문서를 보고 다시 탐색하는 과정을 반복하여 원하는 웹 문서를 얻는다.
그러나, 종래의 검색 시스템이 사용자에게 제공하는 검색 결과는 웹문서에 대하여 주제와 상관없이 나열함으로써 의미가 아닌 형식에 기반한 처리 결과를 보여주며, 디렉토리 검색을 통하여 주제별 결과를 보여주지만 디렉토리 생성은 자동적인 처리 과정이 아니라 사람의 손에 의하여 수동으로 등록 정리하기 때문에 많은 양의 웹 문서와 자주 변화하는 웹의 특성을 잘 반영하지 못한다.
이처럼 종래의 검색 시스템에서 사용자가 원하는 정보를 찾기 위해서는 주제 구분이 없이 나열된 검색 결과속에서 자신이 원하는 정보를 찾기위해서는 정리된 결과에서 보다 더 많은 노력과 시간을 소요하게 된다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로, 사용자에게 검색결과를 주제별로 구분 정리하여 보여줌으로써 사용자가 원하는 정보를 보다 빠르게 정보를 찾을 수 있도록 하는 자동분류 웹 상에서의 검색 시스템을 제공하는 데에 목적이 있다.
상기 목적을 달성하기 위해서, 본 발명에서는 웹 문서의 내용을 대표하는 단어, 즉 대표단어를 추출하기 위하여 단어와 문서의 관계를 고려하고 웹문서의 특징을 이용하여 단어의 중요도를 판단하는 대표단어추출기와 추출된 대표단어를 이용하여 서로 비슷한 주제의 내용을 담고 있는 웹문서의 연관성을 계산하는 그룹퍼(Grouper)와 그룹핑된 웹문서들의 주제를 가장 잘 나타낼 수 있는 문장을 붙이기 위한 그룹네이밍 과정을 통하여 사용자에게 웹 문서 검색 결과를 자동분류된 형태로 제공한다.
본 발명에 따른 검색 시스템을 도면을 참조하여 이하에서 상세히 설명한다.
각 문서당 대표어리스트를 색인한 후 대표어를 기준으로 색인된 파일에서 각 대표어를 하나씩 읽어와 그룹퍼와 그룹네이밍이 이루어 진다.
도1에서 보는 바와 같이 자동분류 검색 시스템에 대한 전체적인 구조이다.
도1은 전체적인 데이터의 흐름과 처리 흐름을 나타내고 있다. 로봇에이전트(101)에 의해 수집된 웹 문서들이 웹 문서 데이터(102)에 저장되고, 대표어 추출기(103)에 의해 저장된 웹 문서 데이터(102)로부터 대표어를 추출하여 인덱싱 데이터(104)를 만들며, 인덱싱된 데이터는 그루퍼(105)에 의해 연관성 분석을 통하여 관련된 문서 단위로 그룹화되고, 그룹 네이밍(106)에 의해 각 그룹에 대한 대표 주제 문장이 선택되어 최종적인 그룹데이터(107)가 생성이 된다. 생성된 데이터는 검색 질의 처리기(108)에 의해 사용자의 검색 질의어에 가장 정확한 결과정보를 제공하게 된다
즉 다시 말하면,
웹 상에서 동작하는 자동분류 검색 시스템에 있어서,
웹 문서를 수집하는 로봇에이전트(101)와,
수집된 웹 문서를 저장하는 웹 문서 데이터(102)로부터 대표어를 추출하는 대표어 추출기(103)와,
상기 대표어를 추출한 후 만들어지는 인덱싱 데이터(104)에서 연관성 분석을 통하여 관련된 문서 단위로 그룹화하는 그루퍼(105)와,
각 그룹에 대한 대표 주제 문장을 선택하여 그룹데이터(106)를 생성하는 그룹 네이밍(107)과
상기 생성된 그룹데이터(107)를 결과로 정보를 제공하는 검색 질의 처리기(108)를 포함하는 검색 시스템에 관한 것이 도시되어 있다.
도2는 대표어 추출기의 절차도이다.
대표어 추출기(103)는
로봇 에이전트에서 수집한 웹 문서 데이터(102)를 읽어 들이는 웹문서 입력단계(201)와,
수집한 웹 문서들을 읽어들여 형태소 분석을 통하여 단어들을 추출하는 형태소 분석단계(202)와,
추출된 단어를 인덱싱하는 단어인덱싱 단계(203)와,
인덱싱한 단어중에서 문서를 대표할 수 있는 대표어를 추출하는 대표어 추출단계(204)를 수행하여 그루퍼(105)에게 넘기는 과정이 도시되어 있다.
다시 설명하면,
도2와 같이 로봇 에이전트에서 수집한 웹 문서들을 읽어들여 형태소 분석을 통하여 단어들을 추출하고 추출된 단어들 중에 문서를 대표할 수 있는 단어들을 추출하여 인덱싱 된 결과를 그루퍼의 입력으로 넘긴다. 이때 검색 질의 처리기에서 사용하는 웹문서 데이터와 웹 문서의 인덱스 데이터도 생성된다.
도3은 대표어 추출단계의 세부 절차도이다.
대표어 추출 단계를 세분화된 절차로 나누면,
형태소분석에 의해 추출된 단어의 빈도수를 문서 단위로 정리하여 계산하는 단어 빈도수 계산단계(301)와,
단어가 추출된 문서에서의 위치에 해당하는 단어의 태그정보를 추출하는 단어 태그 추출 단계(302)와,
모든 문서를 다 읽어서 해당된 문서의 빈도수를 계산하는 문서 빈도수 계산 단계(303)와,
문서 빈도수 계산단계 후에 경험치 계산식에 의한 역문서 빈도수 계산단계(304)로 이루어져 있다.
다시 부연하면,
먼저 형태소분석에 의해 추출된 단어의 빈도수를 문서 단위로 정리하여 계산하며, 각 단어가 추출된 문서에서의 위치에 해당하는 단어의 태그정보를 추출한다. 이때 태그는 9가지 정도의 구분을 하였다. 태그의 종류에 따라서 중복을 제거하였으며 중복에 대한 처리를 단계별로 나누어 중복의 의미를 일부만 제거하는 방법도 사용하였다.
문서 빈도수 계산 과정에서는 모든 문서를 다 읽어야 최종적으로 계산되는 값으로 역문서빈도값를 계산하는 공식인 IDF = log TF * (DF/TDF)에 사용되는 변수 값이다. 상기의 역문서빈도값을 계산하는 공식은 실제로 복잡한 웹 데이터에 대한 역문서빈도값을 계산하기 위해 그대로 적용하기에 무리가 있다..
따라서 본 발명에서는 반복적인 실험을 통하여 대량의 웹문서의 역문서빈도값을 구하기 위한 공식을 추출하기도 하며 이러한 반복적인 실험과정을 통해 개량된 역문서빈도값 계산 공식을 통하여 각각의 단어에 대한 최종 가중치 값이 계산되었으며, 이 값을 기준으로 하여 각 문서를 대표할 수 있는 단어들을 추출하여 문서별 대표어 리스트와 대표어에 따른 문서리스트 파일을 생성하여 그루퍼(105)의 처리를 위해 입력으로 사용한다.
도4는 stc-k1 알고리즘 구성도이다.
그루퍼(105)는 하나의 대표어가 추출된 문서들에서 각 문서의 또 다른 대표어들을 가지고 서로 연관성 있는 문서들을 나누는 과정이다. 이 과정에서 처리 속도를 고려한 stc-k1 알고리즘으로 그 구성도가 도4에 있다. stc-k1은 대표어를 기준으로 해당 대표어가 발견된 문서의 리스트를 작성하여 초기 그룹을 결정한다.
stc-k1 알고리즘은 대표어를 기준으로 해당 대표어가 발견된 문서의 리스트를 작성하여 초기 그룹을 결정한다.
다시 말하면 도4에서 각 문서에서 발견된 대표어를 기준으로 이진트리(binary tree)를 생성하고 각 트리 노드(대표어)가 발견된 문서의 리스트를 작성한다. 이렇게 작성된 리스트에서 최소빈도의 노드(하나의 문서에서만 발견된 대표어)를 제거한 후 최종적으로 만들어진 노드는 B1, B2, B3, B4가 된다.
도면4는 stc-k1 알고리즘을 설명하고 있는 것으로 삼성이라는 검색어에 의하여 추출되어진 5개의 문서에 대하여 아래와 같이 문서에 대한 대표어 리스트들이 추출 되어있을 때
문서1:삼성전자, 메모리, 뉴스
문서2: 삼성전자, 뉴스, 증권정보, 고객, 계좌
문서3: 삼성에버랜드, 삼성전자, 삼성증권
문서4: 삼성증권, 사이버지점, fn
문서5: 삼성생명, 삼성증권, fn.com, 계좌
각 대표어별로 분류하는 과정으로 각각의 대표어들이 나타난 문서의 리스트를 정리한 후 중요한 대표어그룹으로 생각되는 위의 삼성전자, 뉴스, 삼성증권, 계좌 라는 4개의 베이스 클러스터를 추출하여 도4에서 보는바와 같이 정리한다.
도5는 연관도 검사 및 최종 그루핑 구성도이다.
이렇게 생성된 초기 그룹들은 도5의 구성도와 같이 각 그룹간의 연관도 분석을 통하여 50%이상 동일한 그룹이면 서로간에 관련성이 있다고 보고 연결하여 주고 90%이상 동일할 시에는 서로 같은 특징의 그룹이라 간주하여 하나의 그룹으로 통합하여 최종 그룹을 결정한다.
하나의 그룹은 자신을 제외한 모든 다른 그룹과 연관도 분석을 하게 된다.
이렇게 생성된 최종 그룹은 해당 그룹의 이름을 결정하기 위하여 그룹네이밍 작업을 한다.
연관도 분석은 각 대표어가 발견된 문서의 리스트를 비교하여 가장 동일 문서에서 발견된 빈도가 많을수록 그 연관도가 높아지는 것으로 계산식은 다음과 같다.
그룹1에대한 그룹2의 연관도 = (그룹 1과 2의 동일 문서수) / 그룹 1의 전체 문서수
그룹2에대한 그룹1의 연관도 = (그룹 1과 2의 동일 문서수) / 그룹 2의 전체 문서수
위의 계산식을 통하여 양방향 50%이상 동일한 그룹이면 서로간에 관련성이 있다고 보고 연결하여 주고 양방향 90%이상 동일할 시에는 서로 같은 특징의 그룹이라 간주하여 하나의 그룹으로 통합하여 최종 그룹을 결정한다.
하나의 그룹은 자신을 제외한 모든 다른 그룹과 연관도 분석을 하게 된다.
도5에서 보면 B1과 B2는 90%이상 동일하여 하나의 그룹 B12로 통합되어 지고 B4와 B12는 50%이상 동일하여 서로 연결선이 그려져서 최종적인 그룹은 B12와 B4 두개가 생성이되고 이들 둘은 서로 연관성이 있다.
이렇게 생성된 최종 그룹은 해당 그룹의 이름을 결정하기 위하여 그룹네이밍 작업을 한다.
도6은 stc-k2 알고리즘 구성도이다.
그룹퍼에서 생성된 최종 그룹에서 각각 그룹을 대표할 수 있는 가장 대표적인 이름을 결정하기 위한 과정이다. 이 과정은 stc-k2알고리즘을 이용하여 처리되며 그 구성도는 도6과 같다
stc-k2는 각 그룹에 속한 문서들중 문서의 제목이 있는 경우 그 제목을 트리(tree)구조로 나열하면서 각 노드에 해당 대표어나 검색어가 포함되어 있는지 여부에 따라 그 노드의 가중치가 결정되며 최종 그룹의 이름은 가중치가 가장 높은 노드의 단어들을 사용하여 적절한 그룹 이름을 결정하게 된다.
삼성전자와 관련된 문서 1, 2, 3의 타이틀이 위와 같이 3개의 문장으로 되어있을 경우
각 문장을 이용하여 트리를 구성한다.
문장1 뉴스-삼성전자 메모리시장 황제 등극 - 을 이용하여 트리를 구성하면 다음과 같은 3개의 트리가 생성된다
트리1> 뉴스 삼성전자 메모리시장 황제등극
트리2> 삼성전자 메모리시장 황제등극
트리3> 메모리시장 황제등극
트리4> 황제등극
문장2 삼성전자 증권정보 를 이용하여 트리를 구성하면 다음과 같은 트리 생성과 변경이 이루어진다
트리2> 삼성전자 메모리시장 황제등극
삼성전자 증권정보
트리5> 증권정보
문장3 삼성의 계열사 삼성전자 를 이용하여 트리를 구성하면 다음과 같다.
트리6> 삼성 계열사 삼성전자
트리7> 계열사 삼성전자
트리2> 삼성전자 메모리시장 - 황제등극
삼성전자 증권정보
문장3개의 트리구성에 의해 모두 7개의 트리가 구성되며 각 노드들은 노드의 단어가 나타난 문장번호를 가지고 있다
따라서 각 트리의 가중치 값을 계산하여 가장 높은 가중치를 갖는 트리2의 값은
삼성전자 1,2,3 문서의 타이틀에서 출현, 빈도 3
메모리시장 1 문서의 타이틀에서 출현, 빈도 1
황제등극 1 문서의 타이틀에서 출현, 빈도 1
증권정보 2 문서의 타이틀에서 출현, 빈도 1
삼성이라는 검색어가 삼성전자에 포함되어 나타났으므로 검색어 삼성을 3번 포함하고 있다. 따라서 트리2>의 가중치값은 6 + ( 3 * 2 ) 로서 계산되어 12라는 점수를 갖게 되어 트리중에 가장 높은 가중치값을 갖게 되며, 그룹의 이름으로 사용된다
삼성전자 메모리시장 황제등극 증권정보라는 트리내 단어들을 통하여 실제 문장을 구성하게 되는데 이때, 트리에서 깊이가 가장 긴 경로를 구성하고 있는 단어들을 연결하여 대표문장으로 만들고, 나머지 경로에 있는 단어들은 콤마(,)로 분리하여 사용한다
따라서 삼성전자 그룹을 표시하는 이름 - 삼성전자 메모리시장 황제등극, 증권정보 라고 붙여지게 된다.
stc-k2는 각 그룹에 속한 문서들중 문서의 제목이 있는 경우 그 제목을 tree구조로 나열하면서 각 노드에 해당 대표어나 검색어가 포함되어 있는지 여부에 따라 그 노드의 가중치가 결정되며 최종 그룹의 이름은 가중치가 가장 높은 노드의 단어들을 사용하여 적절한 그룹 이름을 결정하게 된다.
도6에서 삼성전자 , 뉴스 , 삼성증권 , 계좌 로 4개의 그룹중 삼성전자 그룹에 대한 그룹네이밍(stc-k2)이 이루어지는 과정이다.
도6에서와 같이 삼성전자 그룹에 해당하는 문서들의 제목을 이용한 tree가 생성되고 그중 가장 값이 높은 노드들을 이용하여 그룹의 이름을 결정하게 된다.
각 노드들의 가중치는 아래와 같이 계산된다.
(노드수*1) + (검색어 포함여부*2)
위의 계산식을 사용하여 결정된 노드(황색부분)를 사용하여 이름을 결정하게 되며 각 노드들의 배치는 부모노드에서 자식노드는 붙여서 정하고 형제노드는 컴마(,)를 사용한다.
삼성전자 메모리시장 황제등극, 증권정보
또한 해당 그룹의 초기 그룹명을 진하게 표시하여 사용자로 하여금 식별이 용이하도록 하였다.
검색 질의 처리기는 사용자가 입력한 질의어를 CGI로부터 넘겨 받아서 질의 종류의 판단과 검색 결과 생성, 그리고 검색 결과를 화면에 출력하기 위한 처리라는 3가지 역할을 담당한다. 질의 종류에 따라 2가지 작업을 하는데 단순 질의일 경우에는 이미 인덱싱된 데이터에서 질의의 결과를 추출하는 처리를 하며, 실시간 처리를 필요로 하는 질의일 경우에는 그루퍼로 하여금 검색 결과를 생성하도록하는 처리 요청을 한 후 그루퍼에서 처리된 결과를 받아서 검색 결과로써 사용자에게 보여준다.
본 발명의 검색 시스템에는 인터넷에 연결되어 있고 웹브라우저를 사용할 수 있는 사용자가 접근하여 검색을 한 후 검색 결과를 자동분류에 의해 관련있는 주제별로 분류된 결과를 볼 수 있어서 원하는 정보를 보다 신속하게 찾을 수 있다. 그리고 그 문서에 관련된 정보를 가진 문서들이 그룹화되어 있으므로 보다 신속하게 많은 정보를 얻을 수 있어서 검색의 질적인 향상과 검색 효율이 높아진다.
한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.
도 1은 본 발명에 따른 자동분류 검색 시스템의 구성도이다.
도2는 대표어 추출기의 절차도이다.
도3은 대표어 추출단계의 세부 절차도이다.
도4는 stc-k1 알고리즘 구성도이다.
도5는 연관도 검사 및 최종 그루핑 구성도이다.
도6은 stc-k2 알고리즘 구성도이다.
* 도면의 주요부분에 대한 부호의 설명
101 : 로봇에이전트 102 : 웹 문서 데이터
103 : 대표어 추출기 104 : 인덱싱 데이터
105 : 그루퍼 106 : 그룹네이밍
107 : 그룹 데이터 108 : 검색 질의 처리기
201 : 웹문서 입력 단계 202 : 형태소 분석 단계
203 : 단어 인덱싱 단계 304 : 대표어 추출 단계
301 : 단어 빈도수 계산 단계 302 : 단어태그 추출 단계
303 : 문서 빈도수 계산 단계 304 : 역문서 빈도수 계산 단계

Claims (6)

  1. 웹 상에서 동작하는 자동분류 검색 시스템에 있어서,
    웹 문서를 수집하는 로봇에이전트(101)와,
    수집된 웹 문서를 저장하는 웹 문서 데이터(102)로부터 대표어를 추출하는 대표어 추출기(103)와,
    상기 대표어를 추출한 후 만들어지는 인덱싱 데이터(104)에서 연관성 분석을 통하여 관련된 문서 단위로 그룹화하며, 대표어를 기준으로 해당 대표어가 발견된 문서의 리스트를 작성하여 초기 그룹을 결정하는 stc-k1 알고리즘을 따른 것을 특징으로 하는 그루퍼(105)와,
    각 그룹에 대한 대표 주제 문장을 선택하여 그룹데이터(106)를 생성하며, 생성된 최종 그룹에서 각각 그룹을 대표할 수 있는 가장 대표적인 이름을 결정하기 위한 stc-k2 알고리즘을 따른 것을 특징으로 한 그룹 네이밍(107)과,
    상기 생성된 그룹데이터(107)를 결과로 정보를 제공하는 검색 질의 처리기(108)를 포함하는 검색 시스템.
  2. 제1항에 있어서,
    상기 대표어 추출기(103)는
    로봇 에이전트에서 수집한 웹 문서 데이터(102)를 읽어 들이는 웹문서 입력단계(201)와,
    수집한 웹 문서들을 읽어들여 형태소 분석을 통하여 단어들을 추출하는 형태소 분석단계(202)와,
    추출된 단어를 인덱싱하는 단어인덱싱 단계(203)와,
    인덱싱한 단어중에서 문서를 대표할 수 있는 대표어를 추출하는 대표어 추출단계(204)를 수행하는 것을 특징으로 하는 검색 시스템.
  3. 제 2항에 있어서,
    상기 대표어 추출 단계(204)는,
    형태소분석에 의해 추출된 단어의 빈도수를 문서 단위로 정리하여 계산하는 단어 빈도수 계산단계(301)와,
    단어가 추출된 문서에서의 위치에 해당하는 단어의 태그정보를 추출하는 단어 태그 추출 단계(302)와,
    모든 문서를 다 읽어서 해당된 문서의 빈도수를 계산하는 문서 빈도수 계산 단계(303)와,
    문서 빈도수 계산단계 후에 경험치 계산식에 의한 역문서 빈도수 계산단계(304)로 이루어진 것을 특징으로 하는 검색 시스템.
  4. 삭제
  5. 제 1항에 있어서,
    상기 그루퍼는 상기 초기그룹간의 연관도 분석을 통하여 50%이상 동일한 그룹이면 서로간에 관련성이 있다고 보고 연결하여 주고 90%이상 동일할 시에는 서로 같은 특징의 그룹이라 간주하여 하나의 그룹으로 통합하여 최종 그룹을 결정하는 것을 특징으로 하는 검색 시스템.
  6. 삭제
KR10-2002-0060337A 2002-10-02 2002-10-02 검색 시스템 KR100505848B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0060337A KR100505848B1 (ko) 2002-10-02 2002-10-02 검색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0060337A KR100505848B1 (ko) 2002-10-02 2002-10-02 검색 시스템

Publications (2)

Publication Number Publication Date
KR20040029895A KR20040029895A (ko) 2004-04-08
KR100505848B1 true KR100505848B1 (ko) 2005-08-04

Family

ID=37331239

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0060337A KR100505848B1 (ko) 2002-10-02 2002-10-02 검색 시스템

Country Status (1)

Country Link
KR (1) KR100505848B1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
KR100797041B1 (ko) * 2005-03-23 2008-01-23 조광현 분류된 웹 사이트 검색 시스템 및 방법
KR100731283B1 (ko) * 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
KR100645614B1 (ko) * 2005-07-15 2006-11-14 (주)첫눈 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치
WO2007011140A1 (en) * 2005-07-15 2007-01-25 Chutnoon Inc. Method of extracting topics and issues and method and apparatus for providing search results based on topics and issues
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
KR100756658B1 (ko) * 2006-02-23 2007-09-10 (주) 프람트 전자 카탈로그 자동 구축 방법
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
KR101249183B1 (ko) * 2006-08-22 2013-04-03 에스케이커뮤니케이션즈 주식회사 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
KR100757951B1 (ko) * 2007-01-02 2007-09-11 김수현 웹페이지의 형태소 분석을 통한 검색 방법
KR100899930B1 (ko) * 2007-07-24 2009-05-28 엔에이치엔(주) 연관 데이터 클래스 생성 방법 및 시스템
US20110035662A1 (en) * 2009-02-18 2011-02-10 King Martin T Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
KR100932843B1 (ko) * 2008-01-29 2009-12-21 엔에이치엔(주) 검색결과간의 연관도에 기초하여 클러스터링된 검색결과를제공하는 방법 및 시스템 그리고 검색결과를클러스터링하는 방법 및 시스템
EP2406767A4 (en) 2009-03-12 2016-03-16 Google Inc AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
KR101104112B1 (ko) * 2009-10-19 2012-01-13 한국과학기술정보연구원 차세대 대용량 저장장치의 동적 색인 관리 시스템 및 그 방법과 그 소스 프로그램을 기록한 기록매체
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
WO2011099982A1 (en) * 2010-02-13 2011-08-18 Hewlett-Packard Development Company, Lp System and method for identifying the principal documents in a document set
KR101196935B1 (ko) 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101196989B1 (ko) 2010-07-06 2012-11-02 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101041545B1 (ko) * 2010-07-21 2011-06-17 김수현 비교사이트 자동 출력시스템 및 출력방법
KR101220080B1 (ko) * 2010-12-31 2013-01-10 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구 제공 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221429A (ja) * 1995-02-16 1996-08-30 Canon Inc 文書自動分類装置
KR970076328A (ko) * 1996-05-29 1997-12-12 모리시따 요오이찌 문서 정보 검색 시스템
KR20010107810A (ko) * 2001-10-12 2001-12-07 주식회사 케이랩 웹 검색시스템 및 그 방법
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221429A (ja) * 1995-02-16 1996-08-30 Canon Inc 文書自動分類装置
KR970076328A (ko) * 1996-05-29 1997-12-12 모리시따 요오이찌 문서 정보 검색 시스템
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20010107810A (ko) * 2001-10-12 2001-12-07 주식회사 케이랩 웹 검색시스템 및 그 방법
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법

Also Published As

Publication number Publication date
KR20040029895A (ko) 2004-04-08

Similar Documents

Publication Publication Date Title
KR100505848B1 (ko) 검색 시스템
US6148289A (en) System and method for geographically organizing and classifying businesses on the world-wide web
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
US7664767B2 (en) System and method for geographically organizing and classifying businesses on the world-wide web
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
US7024405B2 (en) Method and apparatus for improved internet searching
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
CA2453875A1 (en) Information retrieval using enhanced document vectors
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Srinath An Overview of Web Content Mining Techniques
KR20020070293A (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기록매체
Bhowmick et al. /spl Pi/-web join in a web warehouse
Pardakhe et al. Enhancement of web search engine results using keyword frequency based ranking
Almuhareb Arabic poetry focused crawling using SVM and keywords
Knees et al. Supervised and Unsupervised Web Document Filtering Techniques to Improve Text-Based Music Retrieval.
Williamson BUBL Link/5: 15: Smarter than the average search engine
Chandrashekar et al. Semantic domain specific search engine
Chen et al. A novel approach of table detection and analysis for semantic annotation
Laender et al. Cooperative research on web data management at ufmg and ufam-a brief report
Sever et al. Structural Abstractions of Hypertext Documents for Web-based Retrieval
Aguiar Improving web search by the identification of contextual information
Hui et al. Object-extraction-based hidden web information retrieval

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100709

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee