KR100645614B1

KR100645614B1 - 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치

Info

Publication number: KR100645614B1
Application number: KR1020050064495A
Authority: KR
Inventors: 이승준; 김형곤; 김병학; 남세동; 신중호
Original assignee: (주)첫눈
Priority date: 2005-07-15
Filing date: 2005-07-15
Publication date: 2006-11-14
Also published as: WO2007011129A1; JP4896268B2; JP2011253572A; JP4896132B2; JP2009500764A

Abstract

정보를 그 가치에 따라 출력 위치를 달리하여 검색 사용자에게 제공하거나, 사용자에게 가치있는 정보를 추천하는 방법이 개시된다. 본 발명에 따라, 검색 방법은 (a) 복수개의 정보들간의 유사도를 계산하는 단계; (b) 상기 유사도 계산 결과에 따라 동일한 정보들끼리 분류하고, 실질적으로 동일한 정보로 판정된 정보들의 개수에 따라 각각의 정보의 가치를 계산하는 단계; 및 (c) 상기 계산된 가치를 정보 검색이나 정보 추천에 반영하여 그 결과를 디스플레이 하는 단계를 포함하는 것을 특징으로 한다. 이에 의해, 정보의 출현 빈도에 따른 가치를 판단하여 중요한 정보가 사용자에게 눈에 띄도록 디스플레이 하므로 사용자가 원하는 정보를 보다 정확하게 제공할 수 있다.

Description

정보 가치 측정결과를 반영한 검색 방법 및 검색 장치 {Search method and apparatus considering a worth of information}

도 1은 동일한 내용의 정보를 묶어 그룹핑하고 각 그룹에서 대표 정보를 추출하여, 각 그룹별 정보의 가치에 따라 그 출력 위치를 정하여 사용자에게 제공하는 것을 설명하기 위한 참조도,

도 2는 본 발명의 일실시예에 따른, 정보의 가치를 반영한 텍스트 검색 방법의 흐름도,

도 3은 도 2의 텍스트 검색 방법의 상세 흐름도,

도 4a 내지 도 4c는 텍스트 문서내에서 색인 키워드를 추출하는 과정의 일예를 도시한 도면,

도 5a 내지 도 5b는 추출된 색인 키워드 세트를 가지고 문서간의 유사도를 계산하여 동일 문서와 유사 문서를 찾는 일예를 도시한 도면,

도 6은 유사도를 계산할 대상 문서의 수를 줄이는 방법의 흐름도,

도 7은 본 발명의 일실시예에 따른, 정보의 가치를 반영한 텍스트 검색 장치의 구성도,

도 8은 본 발명의 텍스트 검색 방법을 적용한 결과의 일예를 도시한 도면이 다.

본 발명은 정보의 검색에 관한 것으로, 보다 상세하게는 정보를 그 가치에 따라 출력 위치를 달리하여 검색 사용자에게 제공하거나, 사용자에게 가치있는 정보를 추천하는 방법 및 검색 장치에 관한 것이다.

인터넷을 통한 정보 제공자와 그 이용자의 폭발적인 증가에 따라 현재 수많은 정보들이 넘쳐나고 있다. 따라서 이들 정보들 중에서 사용자가 원하는 정보만을 골라 제공하는 검색엔진의 역할이 점점 중요해지고 있다. 종래의 검색 엔진은 원하는 정보를 보다 많이 찾는 것에 중점을 두고 검색을 수행하였으나, 현재는 원하는 정보만을 제대로 선별하여 보여주는 것에 중점을 두고 검색을 수행한다. 이렇게 원하는 정보를 찾고 이를 선별하여 제공하기 위해서는 검색된 정보의 중요도를 매겨 그 순서에 따라 사용자에게 보여주는 것이 필요하다.

종래의 검색 방법에서는 입력된 검색어와 검색 대상 문서간의 유사도를 계산한다. 즉, 검색어가 검색 대상 문서 내에서 출현하는 횟수에 따라 유사도를 계산한다. 예를 들어 "네오위즈"라는 검색어가 있을 때 문서 1에서는 "네오위즈"라는 단어가 10회 출현하고 문서 2에서는 "네오위즈"라는 단어가 5회 출현하면, 문서 1의 유사도는 100% 가 되고, 문서 2의 유사도는 50% 가 된다.

이러한 유사도 계산 방법에 불리안 검색 모델, 확장 불리언 검색 모델, 벡터 공간 모델, 확률 분포, 포아송 모델, 라그란지 모델 등이 사용된다. 그러나 이 방법은 단순히 검색어가 중복적으로 출현하는 빈도에 따라 유사도를 계산할 뿐, 검색된 정보들의 가치가 반영되지 않는다.

한편, 정보의 중요도를 하이퍼 링크로 연결되어 있는 웹의 구조적인 특성을 이용하여 측정하는 방법이 있다. 즉, 정보의 가치를 그 정보를 참조하고 있는 인터넷 링크의 수를 이용하여 측정한다. 예를 들어, 검색된 문서를 타 사이트에서 참조하고 있는 횟수를 계산하여 많이 참조하고 있는 정보를 중요한 정보로 판단한다. 그러나, 이러한 방법도 모든 종류의 정보에 적용하기 어렵다. 특히 한글 문서를 링크하고 있는 사이트가 영문 문서를 링크하고 있는 사이트보다 상대적으로 적기 때문에 이러한 방법을 일률적으로 적용하기가 어렵다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 동일한 내용의 정보를 묶어 그룹핑하고 각 그룹에서 대표 정보를 추출하여, 각 그룹별 정보의 가치에 따라 그 출력 위치를 정하여 사용자에게 제공하는 방법 및 검색 장치를 제공하는 것이다.

상기 기술적 과제는 본 발명에 따라, (a) 복수개의 정보들간의 유사도를 계산하는 단계; (b) 상기 유사도 계산 결과에 따라 동일한 정보들끼리 분류하고, 실질적으로 동일한 정보로 판정된 정보들의 개수에 따라 각각의 정보의 가치를 계산하는 단계; 및 (c) 상기 계산된 가치를 정보 검색이나 정보 추천에 반영하여 그 결 과를 디스플레이 하는 단계를 포함하는 것을 특징으로 하는 검색 방법에 의해 달성된다.

상기 (a) 단계는, (a1) 상기 텍스트 정보에 포함된 단어의 수 및 조사의 수에 따라 상기 텍스트 정보를 분할하는 단계; (a2) 상기 분할된 그룹내에서의 단어들 각각에 대한 역파일을 생성하는 단계; (a3) 상기 역파일을 분석하여 소정의 임계값 이하의 빈도를 갖는 텍스트 정보를 제거하여 유사도를 계산할 텍스트 정보를 선정하는 단계; 및 (a4) 상기 선정된 텍스트 정보들간의 유사도를 계산하여, 실질적으로 동일한 텍스트 정보로 판정된 정보들을 하나의 그룹으로 묶는 단계를 포함하는 것이 바람직하다.

상기 (a4) 단계에서의 유사도 계산시에 본문 내용보다 제목에 가중치를 두어 유사도를 계산하는 것이 바람직하다.

삭제

한편, 본 발명의 다른 분야에 따르면, 상기 기술적 과제는 수집된 인터넷상의 정보들중에서 텍스트 정보를 저장하는 텍스트 문서 저장부; 상기 텍스트 문서들간의 유사도를 계산하는 유사도 분석부; 상기 유사도 분석결과에 따라 동일한 문서로 판정된 문서들을 하나의 그룹으로 묶고 그 그룹내에서 대표 문서를 추출하는 대표문서 추출부; 상기 유사도 분석결과에 따라 유사한 문서로 판정된 문서들을 추출 하는 유사문서 추출부; 및 입력받은 검색어에 대응되는 대표문서와 유사문서를 제공하되, 대표문서들중에서 그 출현 빈도가 가장 높은 정보 순으로 출력위치를 조정하여 디스플레이 하고 상기 유사문서를 볼 수 있는 링크를 제공하는 것을 특징으로 하는 검색부를 포함하는 것을 특징으로 하는 검색 장치에 의해서도 달성된다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다.

도 1은 동일한 내용의 정보를 묶어 그룹핑하고 각 그룹에서 대표 정보를 추출하여, 각 그룹별 정보의 가치에 따라 그 출력 위치를 정하여 사용자에게 제공하는 것을 설명하기 위한 참조도이다.

도 1을 참조하면, 인터넷 등을 통하여 수집한 정보를 동일한 내용을 갖는 그룹으로 묶는다. 여기서 동일하다는 것은 완전 동일함을 의미하는 것이 아니라, 일정한 임계치 이상의 유사함을 갖는 정보는 서로 실질적으로 동일하기 때문에 본 발명에서는 실질적인 동일함을 의미한다. 즉 하나의 검색어에 관한 내용을 여러 사이트에서 동일하게 포함하고 있을 수 있는데, 이러한 정보들을 하나의 그룹으로 묶는다. 예를 들어, "네오위즈"라는 검색어에 대한 정보로써, "...인터넷에 존재하는 모든 정보를 검색할 수 있는 검색 엔진이 나왔다. 　네오위즈(대표 나성균)의 2대 주주 장병규씨(33)가 설립한 검색 서비스 기업 '첫눈(http://www.1noon.com)'은 최근 모든 인터넷 정보를 사용자가 편리하게 검색할 수..."라는 내용을 포함하는 여러 인터넷 사이트가 있을 수 있는데, 그룹A(110)는 이 내용을 포함하는 정보들이 될 수 있다. 한편 그룹B(120)는 "...[네오위즈/세이클럽]네오위즈회사소개및E- Community소개 ..."라는 내용을 다루는 정보들의 집합이 될 수 있고, 그룹C(130)는 "...네오위즈 운영, 카드, 캐주얼, 모바일, 맞고, 고스톱 등 온라인 게임 제공..."라는 내용을 다루는 정보들의 집합이 될 수 있다.

즉, 동일한 내용을 포함하는 정보들을 하나의 그룹으로 묶는다. 그리고, 하나의 그룹에 포함된 내용은 서로 동일한 내용이므로 중복 디스플레이를 방지하기 위하여 각 그룹에서 대표 정보를 추출하고, 대표정보만을 사용자에게 디스플레이한다. 대표 정보는 각각의 그룹을 대표하는 정보로써, 그룹내에서의 정보들중에서 가장 최근에 생성된 정보 또는 이미지를 포함하고 있는 정보를 대표 정보로 정할 수 있다.

그리고 나서, 검색 결과의 디스플레이시에 그 출현 빈도가 높은 순서에 따라 사용자에게 먼저 보여준다. 다시 말하면, 동일한 내용의 정보 출현 빈도가 높을수록 중요한 정보라고 판단하여 그 출력 우선순위를 높게 함으로써 사용자에게 가치 있는 정보를 눈에 잘 띄게 해 준다.

도 2는 본 발명의 일실시예에 따른, 정보의 가치를 반영한 텍스트 검색 방법의 흐름도이다.

우선 검색 대상이 되는 정보를 수집하고(S210), 수집한 정보들간의 유사도를 계산한다(S220). 유사도는 정보들이 담고 있는 내용이 서로 어느 정도 유사한지를 나타내는 값이다. 유사도는 각 정보들 간에 계산된다. 종래 방법에서는 수집한 정보가 100개라고 하면 모든 정보에 대해 유사도를 계산하기 위해서는 100x100회의 계산이 필요하다. 유사도 계산과정의 상세한 설명은 도 3, 도 4a 내지 도 5b를 참 조하여 후술한다. 유사도를 계산하여 동일한 내용을 담은 정보를 동일한 그룹으로 묶고 중복 정보를 제거함으로써 대표 정보를 추출한다(S230). 다음으로 실질적으로 동일한 정보들의 개수를 이용하여 정보의 가치를 계산한다(S240). 그리고 추출한 대표정보를 각 그룹의 중요도에 따라 출력한다(S250). 중요도는 그 내용을 포함하는 정보의 출현 빈도가 높은 그룹의 대표 정보를 중요도가 높은 정보로 판단하여, 결과 출력 화면의 맨 처음에 위치시킨다거나, 또는 하이라이트 등의 수단을 사용하여 잘 보이도록 하여 출력한다.

도 3은 도 2의 텍스트 검색 방법의 상세 흐름도이다.

도 3을 참조하여 정보가 텍스트 문서인 경우에 유사도를 계산하여 그 검색 결과를 제공하는 과정에 대하여 상술한다. 문서간의 유사도를 계산하기 위하여 그 문서를 구성하는 텍스트들 중에서 색인 키워드를 추출한다(S310). 추출된 키워드를 비교하여 문서간의 유사도를 계산한다(S320). 양 문서간에 동일한 색인 키워드가 많을수록 서로 유사한 문서라고 할 수 있다. 유사도의 계산은 제목과 본문 내용에 대해 서로 다른 가중치를 주어 계산할 수 있다. 예를 들어 양 문서의 제목에 유사한 키워드가 많이 존재할수록 더 유사한 문서일 확률이 높기 때문에 유사도 계산시에 제목에 가중치를 둘 수 있다. 이렇게 모든 문서에 대해 타 문서와의 유사도를 계산한다. 계산된 유사도를 참조하여 각 문서에 대해 동일한 문서 및 유사한 문서를 결정한다(S330). 각 동일 그룹별로 대표 문서를 추출하고(S340). 대표 문서에 대해 그 중요도에 따라 출력위치를 조정하여 사용자에게 제공한다(S350). 이하 도 4a 내지 도 5b를 참조하여 색인 키워드의 추출과 비교 대상 문서와 동일한 문서 및 유사한 문서를 추출하는 것에 대하여 상세히 설명한다.

도 4a 내지 도 4c는 텍스트 문서내에서 색인 키워드를 추출하는 과정의 일예를 도시한 도면이다.

도 4a에 도시한 바와 같이 각 문서(410)는 제목에 해당하는 단어열(401)과 본문내용에 해당하는 단어열(402)로 구성되어 있다. 도 4b를 참조하여 예를 들면, 제목은 "네오위즈 관련 검색 사업 분사"(421) 라고 하고, 본문내용은 "네오위즈에서 분사한 신생 서비스 업체인 '첫눈'이 본격적인 기지개를 편다. 첫눈(1noon.com)은 이르면 다음달 베타 테스트를 거쳐 오는 10월 정식 서비스를 개시할 예정이다. 올 초부터..."라는 내용이라고 하자. 도 3을 참조하여 상술한 S310 단계에 따라 색인 키워드를 추출하면, 도 4c에 도시한 바와 같이, 색인 키워드 세트(430)는 제목에 대한 키워드로 네오위즈, 검색, 분사가 추출되고, 내용에 대한 키워드로 네오위즈, 분사, 검색, 첫눈, 테스트, 서비스 개시 등이 추출된다.

도 5a 내지 도 5b는 추출된 색인 키워드 세트를 가지고 문서간의 유사도를 계산하여 동일 문서와 유사 문서를 찾는 일예를 도시한 도면이다.

도 5a는 도 4a 내지 도 4c를 참조하여 상술한 예에서와 같이 각 문서에 대해 색인 키워드를 추출하여 색인 키워드 세트를 만들고 각각의 유사도를 비교한 일예이다. 도 5a를 참조하면, 문서 A와 문서 B와의 유사도는 75%이고, 문서 A와 문서 C의 유사도는 4%이며, 문서 A와 문서 D의 유사도는 96%이다. 유사도의 계산은 전술한 바와 같이 여러 가지 방법에 따라 수행될 수 있다. 예를 들어, 제목에 대한 키워드와 문서 내용에 대한 키워드를 모두 동일한 조건에 따라 비교할 수도 있고, 제 목에 대한 키워드에 가중치를 더 두어 유사도를 계산할 수도 있다.

도 5b는 도 5a와 같이 계산된 유사도 정보를 바탕으로 각 문서와 동일한 문서와 유사한 문서를 찾는 예를 나타낸 도면이다. 동일문서와 유사문서를 결정하는 유사도 값의 기준값은 상황에 따라 가변될 수 있다. 도 5b를 참조하면, 문서 A와 동일한 문서는 25개가 존재하고 동일한 문서는 문서 B, 문서 D 등이 있으며, 유사한 문서는 문서 X, 문서 T 등이 있음을 알 수 있다.

도 6은 유사도를 계산할 대상 문서의 수를 줄이는 방법의 흐름도이다.

모든 문서에 대해서 색인 키워드 리스트를 만들고 각각의 모든 문서에 대해 유사도를 계산하면 계산량도 많을 뿐만 아니라 시간도 매우 많이 걸린다. 따라서, 색인 키워드를 만들고 유사도를 계산할 대상 문서의 수를 줄이는 것이 필요하다. 이를 위해 도 6을 참조하면, 문서들을 그룹핑한다(S610). 문서의 그룹핑 기준은 문서를 구성하는 단어의 수와 조사의 수에 따라 정해진다. 문서를 구성하는 단어의 수와 조사의 수가 유사하면 서로 유사한 문서일 가능성이 많으므로 이들을 동일한 그룹으로 묶는다. 그룹으로 묶는 기준은 경우에 따라 가변될 수 있다. 예를 들어, 단어의 수 및 조사의 수를 5개 단위로 하고 동일한 그룹으로 묶거나, 단어의 수 및 조사의 수를 서로 다른 기준에 따라 동일한 그룹으로 묶을 수도 있다.

그리고 나서, 각 그룹에 대해 역파일을 생성한다(S620). 역파일은 문서를 구성하는 단어를 모두 추출하고, 해당 단어를 포함하는 문서의 아이디를 모아 만든 파일이다. 예를 들어, DocID 1, DocID 2, ... DocID 100인 문서가 있고, DocID 1은 단어 A, B, C... J를 포함하고 있을 때 DocID 1과 유사한 문서를 찾고자 하는 경우 에 역파일의 예는 다음과 같이 만들어진다.

단어 A의 역파일: DocID 2, DocID 3

단어 B의 역파일: DocID 2, DocID 3, DocID 4, DocID 5

단어 C의 역파일: DocID 2, DocID 3, DocID 5, DocID 6, DocID 7

...

단어 J의 역파일: DocID 2, DocID 3, DocID 5, DocID 7, DocID 10,... DocID 85

이렇게 하여 역파일을 생성한 후에, 역파일을 분석하여 임계값 이하의 빈도를 갖는 문서를 제거한다(S630). 상술한 실시예에서, 역파일의 크기가 작은 순서인 단어 A와 단어 B의 역파일을 비교하고 나서 단어 C의 역파일을 비교하면 출현 빈도가 낮은 DocID 4는 비교 대상에서 삭제된다. 이러한 방식에 따라 단어 J의 역파일까지 비교하여 출현 빈도가 낮은 모든 DocID를 삭제하면, DocID 1인 문서와 유사도를 판단해야 하는 대상 문서가 크게 줄어든다.

도 7은 본 발명의 일실시예에 따른, 정보의 가치를 반영한 텍스트 검색 장치의 구성도이다.

텍스트 검색 장치는 웹 데이터 저장부(710), 텍스트 문서 저장부(720), 유사도 분석부(730), 대표문서 추출부(740), 유사문서 추출부(750), 검색부(760) 및 정보 추천부(770)를 포함한다.

웹 데이터 저장부(710)는 인터넷 상에 존재하는 정보를 수집하여 저장하고 있다. 텍스트 문서 저장부(720)는 이들 정보들 중에서 텍스트 문서들을 저장한다. 유사도 분석부(730)는 전술한 바와 같이 텍스트 문서에 포함된 단어의 수 및 조사의 수에 따라 상기 텍스트 문서를 그룹핑하고, 그 단어들 각각에 대한 역파일을 생성하고 이를 분석하여 소정의 임계값 이하의 빈도를 갖는 텍스트 문서를 제거하여 유사도를 계산할 텍스트 문서를 선정하여 이들 문서들간의 유사도를 계산한다. 대표문서 추출부(740)는 동일한 텍스트 문서로 판정된 문서들을 하나의 그룹으로 묶고 각각의 그룹에서 대표문서를 추출한다. 대표문서 추출의 일예는 전술한 바와 같이 가장 최근의 문서 또는 이미지를 포함하는 문서를 대표문서로 추출할 수 있다. 유사문서 추출부(750)는 유사도 분석부(730)에 의해 계산된 유사도에 따라 미리 정해진 값 이상의 유사도를 가진 문서를 유사한 텍스트 문서로 추출한다.

한편 사용자는 검색부(760)에 검색어를 입력하면, 검색부(750)는 그에 대한 결과를 대표문서 저장부(740) 및 유사문서 저장부(750)를 검색하여 출력한다. 이때, 대표문서들 중에서 가치있는 대표문서를 검색결과 페이지의 상위에 위치시킨다. 그리로 유사문서 정보는 그 상세한 내용을 볼 수 있는 링크의 형태로 제공된다. 정보 추천부(770)는 가치있는 정보를 미리 설정된 바에 따라 출력한다. 예를 들어, 인터넷 상에서 많이 출현하는 정보는 가치 있는 정보로 판단하여 사용자가 검색어를 입력하지 않아도 자동으로 대표문서들 중에서 출력되도록 한다. 예를 들어 하루에 1000 회 이상 출현하는 문서는 사람들에게 이슈가 되는 중요한 내용이므로 이를 자동적으로 출력하도록 할 수 있다.

도 8은 본 발명의 텍스트 검색 방법을 적용한 결과의 일예를 도시한 도면이다.

도 8을 참조하면, 본 발명의 텍스트 검색 방법에 따르면 유사도가 높은 글을 출력 화면상의 상위에 위치시킴을 알 수 있다. 유사도의 판단은 전술한 방법에 따라 이루어지며 유사한 글이 많을수록 상대적으로 중요한 문서로 판단한다. 예를 들어, 검색창에서 "박지성"을 입력하면 검색결과를 출력하되 가장 중요한 문서를 우선적으로 출력한다. 상술한 바와 같이 가장 중요한 문서는 그 문서의 출현 빈도가 가장 높은 문서, 예를 들어 "지송빠르크(박지성)의 집에서 찍은 사진들"(810)이 되고 이를 클릭하면 더 상세한 내용이 출력된다. 그리고, 이와 유사한 내용들 담고 있는 유사글(820) 항목을 클릭하면 그에 대한 상세한 내용(820-1)이 새로운 창 또는 현재창 내에서 출력된다.

한편, 전술한 텍스트 검색 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 텍스트 검색 방법을 구현한다. 상기 정보저장매체는 자기 기록매체, 광 기록매체, 및 캐리어 웨이브 매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

전술한 바와 같이 본 발명에 따르면, 동일 정보의 갯수에 따라 가치를 판단하여 중요한 정보가 사용자에게 눈에 띄도록 디스플레이 하므로 사용자가 원하는 정보를 보다 정확하게 제공할 수 있으며, 유사한 문서는 별도의 링크를 통해 제공하므로 검색 결과를 한눈에 알아보기 쉽다. 중복되는 정보는 검색 결과에서 삭제되므로 사용자의 검색결과 확인에 드는 불필요한 시간과 노력을 줄일 수 있다.

Claims

(a) 복수개의 정보들간의 유사도를 계산하는 단계;

(b) 상기 유사도 계산 결과에 따라 동일한 정보들끼리 분류하고, 실질적으로 동일한 정보로 판정된 정보들의 개수에 따라 각각의 정보의 가치를 계산하는 단계; 및

(c) 상기 계산된 가치를 정보 검색이나 정보 추천에 반영하여 그 결과를 디스플레이 하는 단계를 포함하는 것을 특징으로 하는 검색 방법.
제1항에 있어서,

상기 정보는 텍스트 정보인 것을 특징으로 하는 검색 방법.
제2항에 있어서, 상기 (a) 단계는

상기 정보들의 제목, 본문 내용을 이용하여 상기 텍스트 정보들간의 유사도를 계산하는 것을 특징으로 하는 검색 방법.
제3항에 있어서, 상기 (a) 단계는

(a1) 상기 텍스트 정보에 포함된 단어의 수 및 조사의 수에 따라 상기 텍스트 정보를 분할하는 단계;

(a2) 상기 분할된 그룹내에서의 단어들 각각에 대한 역파일을 생성하는 단계;

(a3) 상기 역파일을 분석하여 소정의 임계값 이하의 빈도를 갖는 텍스트 정보를 제거하여 유사도를 계산할 텍스트 정보를 선정하는 단계; 및

(a4) 상기 선정된 텍스트 정보들간의 유사도를 계산하여, 실질적으로 동일한 텍스트 정보로 판정된 정보들을 하나의 그룹으로 묶는 단계를 포함하는 것을 특징으로 하는 검색 방법.
제4항에 있어서,

상기 (a4) 단계에서의 유사도 계산시에 본문 내용보다 제목에 가중치를 두어 유사도를 계산하는 것을 특징으로 하는 검색 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 (b) 단계는

상기 유사도 계산 결과에 따라 실질적으로 동일한 정보들끼리 분류하고, 각각의 분류된 그룹내에서 실질적으로 동일한 정보로 판정된 정보들의 개수가 많을수록 가치가 높은 정보로 계산하는 것을 특징으로 하는 검색 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 (b) 단계는

상기 유사도 계산 결과에 따라 동일한 정보들끼리 분류하고, 각각의 분류된 그룹내에서의 정보중에서 가장 최근에 생성되었거나 이미지를 포함하고 있는 문서를 해당 그룹의 대표문서로 추출하는 것을 특징으로 하는 검색 방법.
제1항에 있어서, 상기 (c) 단계는

사용자로부터 검색어를 입력받아 정보 검색을 수행하되, 검색 결과들 중에서 가장 가치가 높은 정보 순으로 디스플레이 하는 것을 특징으로 하는 검색 방법.
제1항에 있어서, 상기 (c) 단계는

사용자로부터의 입력 검색어가 없는 경우에는, 가장 가치가 높은 정보가 속한 그룹의 대표문서를 소정의 설정에 따라 사용자에게 디스플레이 하는 것을 특징으로 하는 검색 방법.
삭제
수집된 인터넷상의 정보들중에서 텍스트 정보를 저장하는 텍스트 문서 저장 부;

상기 텍스트 문서들간의 유사도를 계산하는 유사도 분석부;

상기 유사도 분석결과에 따라 동일한 문서로 판정된 문서들을 하나의 그룹으로 묶고 그 그룹내에서 대표 문서를 추출하는 대표문서 추출부;

상기 유사도 분석결과에 따라 유사한 문서로 판정된 문서들을 추출하는 유사문서 추출부; 및

입력받은 검색어에 대응되는 대표문서와 유사문서를 제공하되, 대표문서들중에서 그 출현 빈도가 가장 높은 정보 순으로 출력위치를 조정하여 디스플레이 하고 상기 유사문서를 볼 수 있는 링크를 제공하는 것을 특징으로 하는 검색부를 포함하는 것을 특징으로 하는 검색 장치.
제11항에 있어서,

상기 대표문서 추출부에서 추출된 대표문서들 중에서 그 출현 빈도가 일정한 값 이상 되는 경우 가치 있는 정보로 판단하여 사용자의 요청없이도 출력하는 정보 추천부를 더 포함하는 것을 특징으로 하는 검색 장치.
제11항에 있어서, 상기 유사도 분석부는

상기 텍스트 문서에 포함된 단어의 수 및 조사의 수에 따라 상기 텍스트 문서를 그룹핑하고, 상기 단어들 각각에 대한 역파일을 생성하고 이를 분석하여 소정의 임계값 이하의 빈도를 갖는 텍스트 문서를 제거하여 유사도를 계산할 텍스트 문 서를 선정하여 이들 문서들간의 유사도를 계산하여, 동일한 텍스트 문서로 판정된 문서들을 하나의 그룹으로 묶고 유사한 텍스트 문서를 유사문서로 출력하는 것을 특징으로 하는 검색 장치.
제13항에 있어서,

상기 유사도의 계산시에 본문 내용보다 제목에 가중치를 두어 유사도를 계산하는 것을 특징으로 하는 검색 장치.
제1항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.