KR20020067162A - 문서 색인 시스템 및 그 방법 - Google Patents

문서 색인 시스템 및 그 방법 Download PDF

Info

Publication number
KR20020067162A
KR20020067162A KR1020010007571A KR20010007571A KR20020067162A KR 20020067162 A KR20020067162 A KR 20020067162A KR 1020010007571 A KR1020010007571 A KR 1020010007571A KR 20010007571 A KR20010007571 A KR 20010007571A KR 20020067162 A KR20020067162 A KR 20020067162A
Authority
KR
South Korea
Prior art keywords
document
concept
index
keyword
list
Prior art date
Application number
KR1020010007571A
Other languages
English (en)
Other versions
KR100434718B1 (ko
Inventor
전석진
이상호
Original Assignee
전석진
이상호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전석진, 이상호 filed Critical 전석진
Priority to KR20010007571A priority Critical patent/KR100434718B1/ko
Publication of KR20020067162A publication Critical patent/KR20020067162A/ko
Application granted granted Critical
Publication of KR100434718B1 publication Critical patent/KR100434718B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)

Abstract

본 발명은 문서 색인 시스템 및 그 방법에 관한 것으로서, 특히, 특정 키워드와 이를 포함하는 문서의 URL 주소 목록으로 구성된 색인 정보를 발생시켜 이를 통신망으로 연결된 다수개의 컴퓨터들에게 분배한 후,그들 각 컴퓨터들에서 각 색인 정보에 의거한 색인을 수행하도록 하는 것을 특징으로 한다. 특히, 특정 키워드와 일정 거리 이내에 위치한 단어들과의 조합인 컨셉별로 문서 목록을 작성함으로써 식별성이 뛰어난 검색 결과를 도출할 수 있으며, 이러한 색인 절차를 통신망으로 연결된 다수개의 컴퓨터에서 분산 처리하도록 함으로써 검색 속도를 빠르게 개선하고, 문서 색인을 위한 시스템 부하를 현저히 줄일 수 있다는 효과가 있다.

Description

문서 색인 시스템 및 그 방법{Method and system for indexing document}
본 발명은 문서 색인 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 특정 키워드와 이를 포함하는 문서의 URL 주소 목록으로 구성된 색인 정보를 발생시켜 이를 통신망으로 연결된 다수개의 컴퓨터들에게 분배한 후,그들 각 컴퓨터들에서 각 색인 정보에 의거한 색인을 수행하도록 하는 것을 특징으로 하는 문서 색인 시스템 및 그 방법에 관한 것이다.
최근 들어, 대부분의 문서를 컴퓨터로 작성하고 통신망을 통해 문서를 배포하고 획득함에 따라 효과적으로 문서를 찾는 기술의 중요성이 매우 커지고 있다. 더구나, 인터넷이 보급됨으로써 전문가뿐만 아니라 일반인도 통신망에 접속하여 정보를 제공하거나 획득하는 것이 일반화되고, 이에 따라 인터넷으로 접근할 수 있는 정보의 양이 기하급수적으로 증가하고 있다. 따라서, 역사상 유례없는 거대한 정보창고이자 정보 획득 인프라인 인터넷에서 검색엔진(예컨대, AltaVista, yahoo, infoseek ultra, dejanews, lycos, empas 등)이 가장 성공적인 응용 프로그램으로 자리 매김을 하고 있다.
이러한 검색 엔진의 경우 그 검색 대상이 되는 문서들을 사전에 색인한 후, 외부에서 입력되는 입력 조건에 의해 해당 문서를 검색하여 제공하는 일련의 과정을 수행한다. 그런데, 이 때, 검색 대상이 되는 문서들을 어떻게 색인하느냐 하는 색인 방법에 의해 검색 엔진의 효율성이 크게 좌우된다.
검색 엔진의 보조적인 장치로서 대용량의 문서들을 색인하기 위한 종래의 문서 색인 시스템에 대한 예가 도 1에 나타나 있다.
도 1을 참조하면 종래의 문서 색인 시스템은 문서 DB(10), 키워드 DB(20), 색인부(30), 색인 DB(40)를 포함하여 구성된다.
문서 DB(10)는 색인 대상이 되는 문서들을 저장 관리하고, 키워드 DB(20)는 문서를 색인하기 위한 기준이 되는 키워드 정보를 저장 관리한다. 색인부(30)는 상기 키워드 DB(20)에 저장된 키워드를 가지고 문서 DB(10)에 저장된 문서들을 분석하여, 각 키워드를 포함하는 문서들의 목록 즉, 키워드별 문서 목록을 생성한다. 색인 DB(40)는 그 키워드별 문서 목록을 저장 관리한다. 이 때 생성된 키워드별 문서 목록은 도 2에 나타난 바와 같다.
이러한 키워드별 문서 목록은 하나의 키워드를 포함하는 모든 문서들에 대한목록을 제공하도록 함으로써, 인터넷과 같이 방대한 문서가 제공되는 시스템에서 문서 검색을 수행할 경우 과다한 검색 결과를 발생하므로 오히려 사용자가 원하는 정보를 선별하기가 어렵다는 단점이 있다. 또한, 많은 인터넷 이용자가 동시에 검색을 요청하는 경우 검색 시간과 응답 시간이 길어짐에 따라 검색 효율이 낮고, 키워드가 되는 단어의 모호성으로 인하여 사용자가 원하는 문서를 정확하게 검색할 수 없다는 단점이 있다.
따라서, 본 발명은 상기한 바와 같은 종래의 제반 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 특정 키워드와 이를 포함하는 문서의 URL 주소 목록으로 구성된 색인 정보를 발생시켜 이를 통신망으로 연결된 다수개의 컴퓨터들에게 분배한 후,그들 각 컴퓨터들에서 각 색인 정보에 의거한 컨셉별 색인을 수행하여 보다 빠르고 정확한 검색 결과를 얻을 수 있도록 하는 문서 색인 시스템 및 그 방법을 제공하는 데에 있다.
도 1은 종래의 문서 색인 시스템에 대한 예시도,
도 2는 종래의 색인 결과로 생성된 키워드별 문서 목록에 대한 예시도,
도 3은 본 발명의 실시예에 따른 문서 색인 시스템에 대한 개략적인 블록도,
도 4는 본 발명의 실시예에 따른 문서 색인 과정에서 생성된 문서별 컨셉 목록에 대한 예시도,
도 5는 본 발명의 실시예에 따른 문서 색인 과정에서 생성된 컨셉별 문서 목록에 대한 예시도,
도 6은 본 발명의 실시예에 따라 문서별 컨셉 목록을 관리하기 위한 데이터 베이스 구조에 대한 예시도,
도 7은 내지 도 9는 본 발명의 실시예에 따라 문서 내에서 컨셉을 추출하고, 컨셉별 문서 점수를 카운트하는 과정을 설명하기 위한 예시도,
도 10은 본 발명의 실시예에 따라 문서 색인을 처리하기 위한 개략적인 처리 절차도,
도 11은 본 발명의 실시예에 따른 호스트 컴퓨터의 처리 과정에 대한 흐름도,
도 12는 본 발명의 실시예에 따른 게스트 컴퓨터의 처리 과정에 대한 흐름도.
♣ 도면의 주요 부분에 대한 부호의 설명 ♣
100 : 호스트 컴퓨터 110 : 문서 DB
120 : 키워드 DB 130 : 키워드별 색인부
140 : 키워드별 색인 DB 150 : 색인 정보 생성부
160, 210 : I/F 부 170 : 컨셉별 색인 관리부
180 : 컨셉별 색인 DB 200 : 게스트 컴퓨터
220 : 문서 검색부 230 : 컨셉 추출부
240 : 컨셉별 색인부
상기 목적을 달성하기 위해 본 발명에서 제공하는 문서 색인 시스템은 색인하고자 하는 문서를 저장 관리하는 문서 데이터 베이스부와, 문서를 색인하기 위한 주요 정보가 되는 키워드를 저장 관리하는 키워드 데이터 베이스부와, 상기 키워드 데이터 베이스부에 저장된 키워드를 가지고 상기 문서 데이터 베이스부에 저장된 문서들을 색인하여 키워드별 문서 목록을 생성하는 키워드별 색인부와, 상기 키워드별 색인부에서 생성된 키워드별 문서 목록을 저장하는 키워드별 색인 데이터 베이스부와, 상기 키워드별 문서 목록 및 문서 데이터 베이스부의 내용에 의거하여, 키워드와 그 키워드를 포함하는 소정 개수의 문서 주소(URL)들로 이루어진 색인 정보를 생성하는 색인 정보 생성부와, 상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배하여, 그 색인 보조 프로세스들이 해당 색인 정보에 포함된 문서 주소(URL)에 의해 통신망상에서 색인하고자 하는 문서를 찾아온 후, 그 문서 및 색인 정보에 포함된 키워드에 의거하여 컨셉별 문서 목록을 생성하도록 제어하고, 상기 상기 다수개의 색인 보조 프로세스들 각각으로부터 컨셉별 문서 목록을 수신하는 인터페이스부와, 상기 인터페이스부를 통해 전송되는 컨셉별 문서 목록들을 통합 관리하는 컨셉별 색인 관리부와, 상기 컨셉별 색인 관리부를 통해 전달되는 컨셉별 문서 목록을 저장하는 컨셉별 색인 데이터 베이스부를 포함한다.
한편, 상기 목적을 달성하기 위해 본 발명에서 제공하는 문서 색인 방법은 색인하고자 하는 문서들에 대한 키워드별 색인을 수행하여 키워드별 문서 목록을 생성하고, 상기 키워드별 문서 목록 및 문서 정보에 의거하여, 키워드와 그 키워드를 포함하는 소정 개수의 문서 주소(URL)들로 이루어진 색인 정보를 생성하는 제1 과정과, 상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배하는 제2 과정과, 상기 다수개의 색인 보조 프로세스에서 상기 분배된 색인 정보에 의거한 컨셉별 문서 목록을 각각 생성하도록 하는 제3 과정과, 상기 다수개의 컨셉별 문서 목록들을 하나의 컨셉별 통합 문서 목록으로 재구성한 후, 그 컨셉별 통합 문서 목록을 총괄하는 제4 과정을 포함한다.
이하에서는, 본 발명에 따른 문서 색인 시스템 및 그 방법을 첨부된 도면에의거하여 좀 더 구체적으로 설명하겠다.
도 3은 본 발명의 실시예에 따른 문서 색인 시스템에 대한 개략적인 블록도이다. 도 3을 참조하면, 본 발명의 문서 색인 시스템은 호스트 컴퓨터(100)와, 게스트 컴퓨터(200)를 포함하여 구성된다.
호스트 컴퓨터(100)는 특정 키워드와 이를 포함하는 문서의 URL 주소 목록으로 구성된 색인 정보를 발생시켜 이를 통신망으로 연결된 다수개의 컴퓨터들에게 분배하고, 상기 다수개의 컴퓨터로부터 컨셉별 문서 목록을 전달받아 저장 관리한다.
이를 위해, 호스트 컴퓨터(100)는 문서 DB(110), 키워드 DB(120), 키워드별 색인부(130), 키워드별 색인 DB(140), 색인 정보 생성부(150), I/F 부(160), 컨셉별 색인 관리부(170) 및 컨셉별 색인 DB(180)를 포함한다.
문서 DB(110)는 색인하고자 하는 문서를 저장 관리하고, 키워드 DB(120)는 문서를 색인하기 위한 주요 정보가 되는 키워드를 저장 관리한다. 이 때, 키워드 DB(120)에 저장되는 키워드는 기 설정된 값을 사용할 수도 있고, 문서 DB(110)에 저장된 문서들로부터 추출하여 사용할 수 도 있다.
키워드별 색인부(130)는 키워드 DB(120)에 저장된 키워드를 가지고 문서 DB(110)에 저장된 문서들을 색인하여 키워드별 문서 목록을 생성한 후, 키워드별 색인 DB(140)에 저장한다. 이 때, 생성된 키워드별 문서 목록은 도 2에 나타난 종래의 색인 결과와 같다.
색인 정보 생성부(150)는 키워드별 문서 목록 및 문서 DB(110)의 내용에 의거하여, 키워드와 그 키워드를 포함하는 소정 개수의 문서 주소(URL)들로 이루어진 색인 정보를 생성한다.
I/F부(160)는 색인 정보 생성부(150)에서 생성된 색인 정보를 게스트 컴퓨터들(200)로 전송하고, 게스트 컴퓨터들(200)로부터 전송되는 컨셉별 문서 목록을 수신하여 컨셉별 색인 관리부(170)로 전달한다. 이 때, I/F 부(160)는 색인 정보를 다수개의 색인 보조 프로세스인 게스트 컴퓨터들(200)에게 분배한 후, 게스트 컴퓨터들(200)이 해당 색인 정보에 포함된 문서 주소(URL)에 의해 통신망상에서 색인하고자 하는 문서를 찾아온 후, 그 문서 및 색인 정보에 포함된 키워드에 의거하여 컨셉별 문서 목록을 생성하도록 제어한다.
컨셉별 색인 관리부(170)는 I/F 부(160)를 통해 다수개의 게스트 컴퓨터들(200)로부터 전송되는 컨셉별 문서 목록들을 통합 관리한다. 즉, 다수개의 게스트 컴퓨터들(200)로부터 전송되는 컨셉별 문서 목록을 통합하여 컨셉별 통합 문서 목록을 생성한 후, 각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 상기 컨셉별 통합 문서 목록을 정렬한다.
컨셉별 색인 DB(180)는 이와 같이 컨셉별 문서 점수에 의해 정렬된 컨셉별 문서 목록들을 저장 관리한다.
한편, 게스트 컴퓨터(200)는 호스트 컴퓨터(100)와 통신망으로 연결되며, 호스트 컴퓨터(100)로부터 색인 정보에 의거하여 컨셉별 색인을 수행한 후, 그 결과 생성된 컨셉별 문서 목록을 다시 호스트 컴퓨터(100)로 전달한다. 이를 위해, 게스트 컴퓨터(200)는 I/F 부(210), 문서 검색부(220), 컨셉 추출부(230) 및 컨셉별 색인부(240)를 포함한다.
I/F부(210)는 호스트 컴퓨터(100)로부터 키워드와 그 키워드를 포함하는 소정 개수의 문서들로 이루어진 색인 정보를 수신하고, 게스트 컴퓨터(200)내부에서 자체 발생된 컨셉별 문서 목록을 호스트 컴퓨터(100)로 전송한다.
문서 검색부(220)는 색인 정보에 포함된 문서 주소(URL)에 의해 통신망상에서 색인하고자 하는 문서를 찾아온 후, 그 문서를 텍스트 포맷으로 변환한다.
컨셉 추출부(230)는 문서 검색부(220)에서 텍스트 포맷으로 변환된 문서 내에서, 색인 정보에 포함된 키워드와 일정 거리 이내에 있는 단어의 조합인 컨셉을 추출하고, 문서별 컨셉 목록을 생성한다.
컨셉별 색인부(240)는 컨셉 추출부(230)에서 생성된 문서별 컨셉 목록을 컨셉별로 재구성하여 컨셉별 문서 목록을 생성하고, 그 컨셉별 문서 목록을 I/F 부(210)로 전송한다.
도 4는 상기와 같은 문서 색인 과정에서 생성되는 문서별 컨셉 목록에 대한 예를 나타낸다. 즉, 호스트 컴퓨터가 도 2의 키워드별 문서 목록에서 키워드 'A'를 포함하는 문서들 중 '문서 1' 및 '문서 5'가 위치한 URL을 키워드 'A'와 함께 게스트 컴퓨터에게 전송한 경우에 대한 예를 나타낸다.
상기 예에서 게스트 컴퓨터는 호스트 컴퓨터로부터 전송된 URL로 접근하여 해당 문서를 찾아온 후, 그 문서들을 텍스트 문서로 변환한다. 그리고, 그 문서 내에서, 키워드 'A'와 일정 거리 이내에 있는 단어들을 추출하여, 그 단어들과 키워드 'A'를 조합하여 컨셉을 추출한다. 이러한 일련의 과정을 거쳐 생성된 것이 도 4에 나타난 문서별 컨셉 목록이다.
도 4를 참조하면, '문서 1'에서 추출되어 게스트 컴퓨터로 전송된 모든 문자열에서 추출된 단어들은 'B', 'C', 'D', 'Z'가 있으며, 이들과 키워드 'A'의 조합에 의해 생성된 컨셉은 'AB', 'AC', 'AD', AZ'가 있다.
한편, 각 문서별로 각 컨셉들이 발생한 횟수를 그 컨셉에 대한 문서의 점수로 설정하는데, 이는 도 4의 '발생횟수' 항목에 나타나 있다. 즉, 컨셉 'AB'에 대한 '문서 1'의 점수는 '6'이고, 컨셉 'AC'에 대한 '문서 1'의 점수는 '4'이다. 이와 같이 하여 각 컨셉들에 대한 문서의 점수가 결정된다.
도 5는 상기와 같이 구성된 문서별 컨셉 목록을 컨셉별로 재구성한 컨셉별 문서 목록에 대한 예를 나타낸다. 즉, 도 4에 도시된 문서별 컨셉 목록을 컨셉별로 재구성하면, 컨셉 'AB'를 포함하는 문서는 '문서 1'이 있고, 컨셉 'AB'에 대한 '문서 1'의 점수는 '6'이다. 또한, 컨셉 'AC'를 포함하는 문서는 '문서 5'와 '문서 1'이 있고, 컨셉 'AC'에 대한 '문서 5'와 '문서 1'의 점수는 각각 '5'와 '4'이다. 이 때, 각 컨셉별 문서 목록들은 이러한 점수에 의해 정렬하는 것을 원칙으로 한다. 컨셉 'AC'의 경우도 '문서 5'와 '문서 1'을 그 문서의 점수에 의해 내림차순으로 정렬하였다.
도 6은 도 5와 같이 부분적으로 생성된 컨셉별 문서 목록들을 하나의 목록에서 통합 관리하기 위한 데이터 베이스 구조에 대한 예시도이다. 즉, 다수의 게스트 컴퓨터들 각각에서 전송되는 컨셉별 문서 목록들을 호스트 컴퓨터에서 통합하여 관리하기 위한 데이터 베이스 구조에 대한 예시도이다.
도 6을 참조하면, 각 컨셉별로 그 컨셉을 포함하는 문서들을 그 문서의 점수에 의해 정렬하여 데이터 베이스에 등록한 것을 볼 수 있다. 한편, 좌측 문서 정보란(갱신전)에는 그 문서들의 정보를 갱신하기 이전의 데이터가, 우측 문서 정보란(갱신후)에는 그 문서들의 정보를 도 5에 나타난 컨셉별 문서 목록에 의해 갱신한 후의 데이터가 나타나 있다.
즉, 컨셉 'AB'의 경우 도 5의 컨셉별 문서 목록에 의해 '문서 1'의 점수가 '15'에서 '6'이 증가된 '21'로 변동되었다. 또한, 컨셉 'AC'의 경우 도 6의 컨셉별 문서 목록에 의해 '문서 1' 및 '문서 5'의 점수가 각각 변동되었고, 이에 의해 '문서 1', '문서 5', '문서 9'의 순서가 그 점수에 의해 새롭게 정렬되었다.
도 7 내지 도 9는 본 발명의 일 실시예에 따라 문서 내에서 컨셉을 추출하고, 컨셉별 문서 점수를 카운트하는 과정을 설명하기 위한 예시도이다.
도 7은 문서 내에서 컨셉을 추출하기 위한 컨셉 추출 범위를 나타낸 예로서, 특히, 키워드 '정보'를 가지고, 그 키워드와 5 단어 이내에 있는 단어를 조합하여 컨셉을 추출하고자 하는 경우에 대한 예이다.
도 7을 참조하면, 도 7에 표시된 문서에서 키워드 '정보'는 4번 출현하였으며, 그 각각의 키워드('정보1', '정보2', '정보3', '정보4')들을 중심으로 컨셉을 추출하기 위한 영역을 설정하되, 그 키워드를 중심으로 5단어 이내의 범위로 설정할 경우, 도 7과 같이 'A', 'B', 'C', 'D'의 4영역으로 구분할 수 있다.
상기 4개의 문자열에서 추출된 모든 단어들을 키워드인 '정보'와 조합하여발생된 컨셉 목록과, 그 컨셉이 해당 문자열 내에서 발생된 발생 횟수를 나타내는 데이터 베이스 구조의 예가 도 8에 나타나 있다.
도 9는 이와 같이 문자열로 발생된 컨셉 및 해당 컨셉의 발생 횟수를 통합하여 나타내었다. 이 때, 각 컨셉들은 그 발생 횟수에 의해 내림차순으로 정렬됨을 원칙으로 하며, 도 9에서도 각 컨셉들이 정렬된 상태를 나타낸다.
도 10은 본 발명의 실시예에 따라 문서 색인을 처리하기 위한 개략적인 처리 절차도이다. 도 10을 참조하면, 우선 호스트 컴퓨터(100)에서는 기본적인 문서 및 키워드 정보를 가지고 색인 정보를 생성한다(s10). 이 때, 호스트 컴퓨터(100)는 특정 키워드와, 그 키워드를 포함하는 소정 개수의 문서들의 위치를 가리키는 URL을 포함하는 색인 정보를 생성한다. 그리고, 그 색인 정보를 게스트 컴퓨터(200)들에게 분배한다(s20).
그러면, 게스트 컴퓨터들(200)은 수신된 색인 정보에 의거하여 컨셉별 문서 목록을 생성한 후 그 컨셉별 문서 목록을 정렬하여(s30), 호스트 컴퓨터(100)에게 전송한다(s40).
호스트 컴퓨터(100)는 각 게스트 컴퓨터(200)들로부터 수신한 컨셉별 문서 목록들을 재정렬하여 통합 관리한다(s50).
즉, 다시 말하면, 이와 같이 본 발명에 의한 컨셉별 문서 색인을 수행하기 위해서는 크게 4단계의 과정을 수행하여야 하는데, 먼저, 호스트 컴퓨터에서 색인하고자 하는 문서들에 대한 키워드별 색인을 수행하여 키워드별 문서 목록을 생성하고, 상기 키워드별 문서 목록 및 문서 정보에 의거하여, 키워드와 그 키워드를포함하는 소정 개수의 문서 주소(URL)들로 이루어진 색인 정보를 생성하는 제1 과정과, 상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배하는 제2 과정과, 상기 다수개의 색인 보조 프로세스에서 즉, 게스트 컴퓨터에서 상기 분배된 색인 정보에 의거한 컨셉별 문서 목록을 각각 생성하도록 하는 제3 과정과, 다시 호스트 컴퓨터에서 상기 다수개의 컨셉별 문서 목록들을 하나의 컨셉별 통합 문서 목록으로 재구성한 후, 그 컨셉별 통합 문서 목록을 총괄하는 제4 과정을 포함한다.
도 11은 본 발명의 실시예에 따른 호스트 컴퓨터의 처리 과정에 대한 흐름도이다. 즉, 호스트 컴퓨터에서는 상기 설명 중 제1 과정과, 제2 과정 및 제4 과정을 수행하게 되는데, 이러한 처리 과정을 도 11을 참조하여 설명하면 다음과 같다.
먼저, 색인하고자 하는 문서들에 대한 키워드별 색인을 수행하여 키워드별 문서 목록을 생성하고(s110), 그 키워드별 문서 목록 및 문서 정보에 의거하여 색인 정보를 생성한다(s120). 즉, 각 키워드별로 그 키워드별 문서 목록에 포함된 문서들을 선택한 후, 각 키워드별로 키워드와 그 키워드를 포함하는 소정 개수의 문서들의 위치를 가리키는 URL로 이루어진 색인 정보를 생성한다. 그리고, 그 색인 정보를 다수개의 게스트 컴퓨터들에게 분배한 후(s130), 각 게스트 컴퓨터로부터 컨셉별 문서 목록을 수신할 때까지 대기한다(s140).
만약, 게스트 컴퓨터로부터 컨셉별 문서 목록이 수신되면, 호스트 컴퓨터는 그 컨셉별 문서 목록들을 기존에 생성되어 호스트 컴퓨터에서 관리되어 오는 컨셉별 문서 목록과 통합한 후(s150), 그 컨셉별 통합 문서 목록을 총괄한다(s160). 이 때, 호스트 컴퓨터는 각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 그 컨셉별 통합 문서 목록을 정렬하는 과정을 수행한다.
한편, 도 12는 본 발명의 실시예에 따른 게스트 컴퓨터의 처리 과정에 대한 흐름도이다. 즉, 게스트 컴퓨터에서는 본 발명의 4단계의 처리 과정 중 제3 과정을 수행하게 되는데, 이러한 처리 과정을 도 12를 참조하여 설명하면 다음과 같다. 즉, 게스트 컴퓨터가 호스트 컴퓨터로부터 색인 정보를 수신하면(s205), 먼저, 통신망에서 상기 색인 정보에 포함된 URL에 의해 색인하고자 하는 문서를 검색하여(s210), 색인하고자 하는 문서를 찾았으면 그 문서를 텍스트 포맷으로 변환한다(s215).
그리고, 그 문서 내에서 색인 정보에 포함된 키워드를 검색하여(s220), 그 키워드와 일정 거리 이내에 있는 단어의 조합인 컨셉을 추출한다(s225). 이러한 과정들(s220, s225)을 문서의 끝까지(s230) 반복 수행한 후, 그 문서의 컨셉 목록을 컨셉별로 재구성하여 컨셉별 문서 목록을 생성한다(s235). 이 때, 해당 키워드와 컨셉을 이루는 단어는 그 키워드와 5 내지 50단어 이내에 존재하는 단어를 선택하는 것이 바람직하다.
그리고, 색인해야 할 다음 URL이 존재하는 지의 여부를 확인하여(s240), 다음 문서가 존재하는 경우, 다음 문서를 선택한 후(s245), 이와 같은 일련의 과정들(s210 내지 s240)을 반복 수행한다. 상기 확인(s240) 결과 색인해야 할 더 이상의 문서가 없을 경우 컨셉별 문서 목록들을 갱신한다(s250). 이 때, 각 문서에 해당 컨셉이 출현한 횟수에 의해 컨셉별 문서의 점수를 설정하고, 그 컨셉별 문서의 점수에 의거하여 컨셉별 문서 목록을 재구성한다. 그리고, 그 컨셉별 문서 목록을 호스트 컴퓨터에게 전달한다(s255).
이 때, 게스트 컴퓨터는 호스트 컴퓨터와 통신망으로 연결된 다수개의 컴퓨터들을 말하지만, 이러한 일련의 과정들이 하나의 컴퓨터에서 이루어진다고 가정할 경우, 하나의 컴퓨터 내에 존재하는 다수개의 색인 보조 프로세스를 일컬을 수도 있다.
이상의 설명은 하나의 실시예를 설명한 것에 불과한 것으로서, 본 발명은 상술한 실시예에 한정되지 않으며 첨부한 특허청구범위 내에서 다양하게 변경 가능하다. 예를 들어 본 발명의 실시예에 구체적으로 나타난 각 구성 요소의 형상 및 구조는 변형하여 실시할 수 있다.
이상에서 설명한 바와 같이 본 발명에 따른 문서 색인 시스템 및 그 방법에 의하면, 키워드와 그 키워드와 일정 거리 이내에 있는 단어의 조합으로 이루어진 컨셉별로 대용량의 문서들을 색인함으로써, 검색시 소요되는 검색 엔진의 부하를 효율적으로 줄일 수 있고, 이로 인해 검색 속도를 빠르게 개선할 수 있으며, 보다 정확한 검색 결과를 얻을 수 있도록 한다는 장점이 있다.
또한, 문서 색인 과정을 통신망으로 연결된 다수개의 컴퓨터에 의해 분산 처리한 후, 그 색인 결과를 하나의 호스트 컴퓨터에서 통합 관리하도록 하되, 호스트 컴퓨터에서 문서 전체를 전송하는 것이 아니고, 해당 키워드와 이를 포함하는 문서의 URL 주소 목록을 게스트 측으로 전송하도록 함으로써, 호스트 컴퓨터와 게스트 컴퓨터들간 통신 부하를 최소화하면서, 문서 색인 시스템 자체의 부하를 현저히 줄일 수 있다는 효과가 있다.

Claims (8)

  1. 문서를 분석하여 색인어별로 정보를 저장하는 문서 색인 시스템에 있어서,
    색인하고자 하는 문서를 저장 관리하는 문서 데이터 베이스부와,
    문서를 색인하기 위한 주요 정보가 되는 키워드를 저장 관리하는 키워드 데이터 베이스부와,
    상기 키워드 데이터 베이스부에 저장된 키워드를 가지고 상기 문서 데이터 베이스부에 저장된 문서들을 색인하여 키워드별 문서 목록을 생성하는 키워드별 색인부와,
    상기 키워드별 색인부에서 생성된 키워드별 문서 목록을 저장하는 키워드별 색인 데이터 베이스부와,
    상기 키워드별 문서 목록 및 문서 데이터 베이스부의 내용에 의거하여, 키워드와 그 키워드를 포함하는 소정 개수의 문서 주소(URL)들로 이루어진 색인 정보를 생성하는 색인 정보 생성부와,
    상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배하여, 그 색인 보조 프로세스들이 해당 색인 정보에 포함된 문서 주소(URL)에 의해 통신망상에서 색인하고자 하는 문서를 찾아온 후, 그 문서 및 색인 정보에 포함된 키워드에 의거하여 컨셉별 문서 목록을 생성하도록 제어하고, 상기 상기 다수개의 색인 보조 프로세스들 각각으로부터 컨셉별 문서 목록을 수신하는 인터페이스부와,
    상기 인터페이스부를 통해 전송되는 컨셉별 문서 목록들을 통합 관리하는 컨셉별 색인 관리부와,
    상기 컨셉별 색인 관리부를 통해 전달되는 컨셉별 문서 목록을 저장하는 컨셉별 색인 데이터 베이스부를 포함하는 것을 특징으로 하는 문서 색인 시스템.
  2. 제1항에 있어서, 상기 인터페이스부는
    상기 다수개의 색인 보조 프로세스들이 통신망상에서 찾아온 문서를 텍스트 포맷으로 변환한 후, 그 문서 내에서 색인 정보에 포함된 키워드와 일정 거리 이내에 있는 단어의 조합인 컨셉을 추출하고, 상기 추출된 컨셉별 문서 목록을 생성하도록 제어하는 것을 특징으로 하는 문서 색인 시스템.
  3. 제1항에 있어서, 상기 컨셉별 색인 관리부는
    상기 인터페이스부를 통해 전송되는 다수개의 컨셉별 문서 목록을 통합하여 컨셉별 통합 문서 목록을 생성한 후, 각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 상기 컨셉별 통합 문서 목록을 정렬하는 것을 특징으로 하는 문서 색인 시스템.
  4. 문서를 분석하여 색인어별로 정보를 저장하는 문서 색인 방법에 있어서,
    색인하고자 하는 문서들에 대한 키워드별 색인을 수행하여 키워드별 문서 목록을 생성하고, 상기 키워드별 문서 목록 및 문서 정보에 의거하여, 키워드와 그 키워드를 포함하는 소정 개수의 문서 주소(URL)들로 이루어진 색인 정보를 생성하는 제1 과정과,
    상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배하는 제2 과정과,
    상기 다수개의 색인 보조 프로세스에서 상기 분배된 색인 정보에 의거한 컨셉별 문서 목록을 각각 생성하도록 하는 제3 과정과,
    상기 다수개의 컨셉별 문서 목록들을 하나의 컨셉별 통합 문서 목록으로 재구성한 후, 그 컨셉별 통합 문서 목록을 총괄하는 제4 과정을 포함하는 것을 특징으로 하는 문서 색인 방법.
  5. 제4항에 있어서, 상기 제3 과정은
    상기 다수개의 색인 보조 프로세스에서 상기 제1 과정에서 전달된 문서 주소(URL)에 의해 통신망상에서 색인하고자 하는 문서를 찾아오도록 하는 제3-1 과정과,
    상기 문서를 텍스트 포맷으로 변환하도록 하는 제3-2 과정과,
    상기 변환된 문서 내에서, 색인 정보에 포함된 키워드와 일정 거리 이내에 있는 단어의 조합인 컨셉을 추출한 후, 문서별 컨셉 목록을 생성하도록 하는 제3-3 과정과,
    상기 문서별 컨셉 목록을 컨셉별로 재구성하여 컨셉별 문서 목록을 생성하도록 하는 제3-4 과정을 포함하는 것을 특징으로 하는 문서 색인 방법.
  6. 제5항에 있어서, 상기 제3-3 과정은
    해당 키워드와 5 내지 50단어 이내에 존재하는 단어의 조합을 컨셉으로 추출하도록 하는 것을 특징으로 하는 문서 색인 방법.
  7. 제4항에 있어서, 상기 제4 과정은
    상기 다수개의 컨셉별 문서 목록들을 통합하여 컨셉별 통합 문서 목록을 생성하는 제4-1 과정과,
    각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 상기 컨셉별 통합 문서 목록을 정렬하는 제4-2 과정을 포함하는 것을 특징으로 하는 문서 색인 방법.
  8. 제4항에 있어서, 상기 다수개의 색인 보조 프로세스는
    통신망으로 연결된 다수개의 컴퓨터 각각에 포함되는 색인 보조 프로세스들 또는 하나의 컴퓨터에 포함되는 다수개의 색인 보조 프로세스들인 것을 특징으로 하는 문서 색인 방법.
KR20010007571A 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법 KR100434718B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20010007571A KR100434718B1 (ko) 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20010007571A KR100434718B1 (ko) 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20020067162A true KR20020067162A (ko) 2002-08-22
KR100434718B1 KR100434718B1 (ko) 2004-06-07

Family

ID=27694494

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20010007571A KR100434718B1 (ko) 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100434718B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009078613A1 (en) * 2007-12-17 2009-06-25 Electronics And Telecommunications Research Institute Index database creating apparatus and index database retrieving apparatus
US8799291B2 (en) 2011-11-03 2014-08-05 Electronics And Telecommunications Research Institute Forensic index method and apparatus by distributed processing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187588A1 (en) * 2008-01-23 2009-07-23 Microsoft Corporation Distributed indexing of file content

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009078613A1 (en) * 2007-12-17 2009-06-25 Electronics And Telecommunications Research Institute Index database creating apparatus and index database retrieving apparatus
US8341161B2 (en) 2007-12-17 2012-12-25 Electronics And Telecommunications Research Institute Index database creating apparatus and index database retrieving apparatus
US8799291B2 (en) 2011-11-03 2014-08-05 Electronics And Telecommunications Research Institute Forensic index method and apparatus by distributed processing

Also Published As

Publication number Publication date
KR100434718B1 (ko) 2004-06-07

Similar Documents

Publication Publication Date Title
Sugiura et al. Query routing for web search engines: Architecture and experiments
US6947930B2 (en) Systems and methods for interactive search query refinement
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
US9195744B2 (en) Protecting information in search queries
US6286000B1 (en) Light weight document matcher
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
EP1716511A1 (en) Intelligent search and retrieval system and method
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
JP2006048685A (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
US7024405B2 (en) Method and apparatus for improved internet searching
Lin et al. ACIRD: intelligent Internet document organization and retrieval
CN106503195A (zh) 一种基于搜索引擎的翻译词库检索方法及系统
Duhan et al. A novel approach for organizing web search results using ranking and clustering
US9547701B2 (en) Method of discovering and exploring feature knowledge
CN109783599A (zh) 基于多种存储介质的知识图谱检索方法及系统
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
KR100426995B1 (ko) 문서 색인 시스템 및 그 방법
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
KR20020032060A (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
KR100426994B1 (ko) 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법
KR100440906B1 (ko) 문서 색인 시스템 및 그 방법
Kumar et al. An efficient and optimized sematic web enabled framework (EOSWEF) for Google search engine using ontology
Sheokand et al. Best effort query answering in dataspaces on unstructured data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee