KR20020067161A - 문서 색인 시스템 및 그 방법 - Google Patents

문서 색인 시스템 및 그 방법 Download PDF

Info

Publication number
KR20020067161A
KR20020067161A KR1020010007570A KR20010007570A KR20020067161A KR 20020067161 A KR20020067161 A KR 20020067161A KR 1020010007570 A KR1020010007570 A KR 1020010007570A KR 20010007570 A KR20010007570 A KR 20010007570A KR 20020067161 A KR20020067161 A KR 20020067161A
Authority
KR
South Korea
Prior art keywords
document
index
concept
keyword
information
Prior art date
Application number
KR1020010007570A
Other languages
English (en)
Other versions
KR100440906B1 (ko
Inventor
전석진
이상호
Original Assignee
전석진
이상호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전석진, 이상호 filed Critical 전석진
Priority to KR10-2001-0007570A priority Critical patent/KR100440906B1/ko
Publication of KR20020067161A publication Critical patent/KR20020067161A/ko
Application granted granted Critical
Publication of KR100440906B1 publication Critical patent/KR100440906B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Software Systems (AREA)

Abstract

본 발명은 문서 색인 시스템 및 그 방법에 관한 것으로서, 특히, 문서 데이터 베이스부와, 키워드 데이터 베이스부와, 상기 키워드를 가지고 문서들을 색인하여 키워드별 문서 목록을 생성하는 키워드별 색인부와, 키워드별 문서 목록을 저장하는 키워드별 색인 데이터 베이스부와, 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열들의 집합과, 키워드 및 해당 문서 정보를 포함하는 색인 정보를 생성하는 색인 정보 생성부와, 상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배한 후, 그 색인 보조 프로세스들이 해당 색인 정보를 구성하는 모든 문자열에 포함된 모든 단어들 각각과 색인 정보에 포함된 키워드의 조합인 컨셉을 추출하여 그 컨셉별 문서 목록을 생성하도록 제어하고, 상기 다수개의 색인 보조 프로세스들 각각으로부터 컨셉별 문서 목록을 수신하는 인터페이스부와, 상기 컨셉별 문서 목록들을 통합 관리하는 컨셉별 색인 관리부와, 상기 컨셉별 문서 목록을 저장하는 컨셉별 색인 데이터 베이스부를 포함하는 문서 색인 시스템에 의해 문서 색인을 분산 수행하도록 함으로써, 검색 속도를 빠르게 개선하고, 식별성이 뛰어난 검색 결과를 도출할 수 있으며, 문서 색인을 위한 시스템 부하를 현저히 줄일 수 있다는 효과가 있다.

Description

문서 색인 시스템 및 그 방법{Method and system for indexing document}
본 발명은 문서 색인 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열과 키워드 및 그 문서 정보를 통신망으로 연결된 다수개의 색인 보조 프로세스들에게 분배함으로써, 색인 과정을 다수개의 색인 보조 프로세스에서 분산 처리할 수 있도록 하는 것을 특징으로 하는 문서 색인 시스템 및 그 방법에 관한 것이다.
최근 들어, 대부분의 문서를 컴퓨터로 작성하고 통신망을 통해 문서를 배포하고 획득함에 따라 효과적으로 문서를 찾는 기술의 중요성이 매우 커지고 있다. 더구나, 인터넷이 보급됨으로써 전문가뿐만 아니라 일반인도 통신망에 접속하여 정보를 제공하거나 획득하는 것이 일반화되고, 이에 따라 인터넷으로 접근할 수 있는 정보의 양이 기하급수적으로 증가하고 있다. 따라서, 역사상 유례없는 거대한 정보창고이자 정보 획득 인프라인 인터넷에서 검색엔진(예컨대, AltaVista, yahoo, infoseek ultra, dejanews, lycos, empas 등)이 가장 성공적인 응용 프로그램으로 자리 매김을 하고 있다.
이러한 검색 엔진의 경우 그 검색 대상이 되는 문서들을 사전에 색인한 후, 외부에서 입력되는 입력 조건에 의해 해당 문서를 검색하여 제공하는 일련의 과정을 수행한다. 그런데, 이 때, 검색 대상이 되는 문서들을 어떻게 색인하느냐 하는 색인 방법에 의해 검색 엔진의 효율성이 크게 좌우된다.
검색 엔진의 보조적인 장치로서 대용량의 문서들을 색인하기 위한 종래의 문서 색인 시스템에 대한 예가 도 1에 나타나 있다.
도 1을 참조하면 종래의 문서 색인 시스템은 문서 DB(10), 키워드 DB(20), 색인부(30), 색인 DB(40)를 포함하여 구성된다.
문서 DB(10)는 색인 대상이 되는 문서들을 저장 관리하고, 키워드 DB(20)는 문서를 색인하기 위한 기준이 되는 키워드 정보를 저장 관리한다. 색인부(30)는 상기 키워드 DB(20)에 저장된 키워드를 가지고 문서 DB(10)에 저장된 문서들을 분석하여, 각 키워드를 포함하는 문서들의 목록 즉, 키워드별 문서 목록을 생성한다. 색인 DB(40)는 그 키워드별 문서 목록을 저장 관리한다. 이 때 생성된 키워드별 문서 목록은 도 2에 나타난 바와 같다.
이러한 키워드별 문서 목록은 하나의 키워드를 포함하는 모든 문서들에 대한목록을 제공하도록 함으로써, 인터넷과 같이 방대한 문서가 제공되는 시스템에서 문서 검색을 수행할 경우 과다한 검색 결과를 발생하므로 오히려 사용자가 원하는 정보를 선별하기가 어렵다는 단점이 있다. 또한, 많은 인터넷 이용자가 동시에 검색을 요청하는 경우 검색 시간과 응답 시간이 길어짐에 따라 검색 효율이 낮고, 키워드가 되는 단어의 모호성으로 인하여 사용자가 원하는 문서를 정확하게 검색할 수 없다는 단점이 있다.
따라서, 본 발명은 상기한 바와 같은 종래의 제반 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열과 키워드 및 그 문서 정보를 통신망으로 연결된 다수개의 컴퓨터에 분배함으로써, 색인 과정을 다수개의 컴퓨터에서 분산 처리하도록 하는 문서 색인 시스템 및 그 방법을 제공하는 데에 있다.
도 1은 종래의 문서 색인 시스템에 대한 예시도,
도 2는 종래의 색인 결과로 생성된 키워드별 문서 목록에 대한 예시도,
도 3은 본 발명의 실시예에 따른 문서 색인 시스템에 대한 개략적인 블록도,
도 4는 본 발명의 실시예에 따른 문서 색인 과정에서 생성된 문서별 컨셉 목록에 대한 예시도,
도 5는 본 발명의 실시예에 따른 문서 색인 과정에서 생성된 컨셉별 문서 목록에 대한 예시도,
도 6은 본 발명의 실시예에 따라 문서별 컨셉 목록을 관리하기 위한 데이터 베이스 구조에 대한 예시도,
도 7은 내지 도 9는 본 발명의 실시예에 따라 문서 내에서 컨셉을 추출하고, 컨셉별 문서 점수를 카운트하는 과정을 설명하기 위한 예시도,
도 10은 본 발명의 실시예에 따라 문서 색인을 처리하기 위한 개략적인 처리 절차도,
도 11은 본 발명의 실시예에 따른 호스트 컴퓨터의 처리 과정에 대한 흐름도,
도 12는 본 발명의 실시예에 따른 게스트 컴퓨터의 처리 과정에 대한 흐름도.
♣ 도면의 주요 부분에 대한 부호의 설명 ♣
100 : 호스트 컴퓨터 110 : 문서 DB
120 : 키워드 DB 130 : 키워드별 색인부
140 : 키워드별 색인 DB 150 : 색인 정보 생성부
160, 210 : I/F 부 170 : 컨셉별 색인 관리부
180 : 컨셉별 색인 DB 200 : 게스트 컴퓨터
220 : 컨셉 추출부 230 : 컨셉별 색인부
상기 목적을 달성하기 위해 본 발명에서 제공하는 문서 색인 시스템은 색인하고자 하는 문서를 저장 관리하는 문서 데이터 베이스부와, 문서를 색인하기 위한 주요 정보가 되는 키워드를 저장 관리하는 키워드 데이터 베이스부와, 상기 키워드 데이터 베이스부에 저장된 키워드를 가지고 상기 문서 데이터 베이스부에 저장된 문서들을 색인하여 키워드별 문서 목록을 생성하는 키워드별 색인부와, 상기 키워드별 색인부에서 생성된 키워드별 문서 목록을 저장하는 키워드별 색인 데이터 베이스부와, 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열들의 집합과, 키워드 및 해당 문서 정보를 포함하는 색인 정보를 생성하는 색인 정보 생성부와, 상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배한 후, 그 색인 보조 프로세스들이 해당 색인 정보를 구성하는 모든 문자열에 포함된 모든 단어들 각각과 색인 정보에 포함된 키워드의 조합인 컨셉을 추출하여 그 컨셉별 문서 목록을 생성하도록 제어하고, 상기 다수개의 색인 보조 프로세스들 각각으로부터 컨셉별 문서 목록을 수신하는 인터페이스부와, 상기 인터페이스부에서 수신된 컨셉별 문서 목록들을 통합 관리하는 컨셉별 색인 관리부와, 상기 컨셉별 색인 관리부를 통해 전달되는 컨셉별 문서 목록을 저장하는 컨셉별 색인 데이터 베이스부를 포함한다.
한편, 상기 목적을 달성하기 위해 본 발명에서 제공하는 문서 색인 방법은 색인하고자 하는 문서들 중 특정 키워드를 포함하는 문서들을 추출하고, 그 추출된 모든 문서 내에서 해당 키워드를 포함하는 소정 범위의 문자열들을 추출하는 제1 과정과, 상기 제1 과정에서 추출된 문자열들과, 키워드 및 그 문자열들을 포함하는 문서 정보를 다수개의 색인 보조 프로세스에 분배하는 제2 과정과, 상기 다수개의 색인 보조 프로세스들이 상기 분배된 문자열, 키워드 및 문서 정보에 의거한 컨셉별 문서 목록을 생성하도록 하는 제3 과정과, 상기 다수개의 색인 보조 프로세스들이 각각 생성한 다수개의 컨셉별 문서 목록들을 하나의 컨셉별 통합 문서 목록으로 재구성한 후, 그 컨셉별 통합 문서 목록을 총괄하는 제4 과정을 포함하여 구성된다.
이하에서는, 본 발명에 따른 문서 색인 시스템 및 그 방법을 첨부된 도면에 의거하여 좀 더 구체적으로 설명하겠다.
도 3은 본 발명의 실시예에 따른 문서 색인 시스템에 대한 개략적인 블록도이다. 도 3을 참조하면, 본 발명의 문서 색인 시스템은 호스트 컴퓨터(100)와, 게스트 컴퓨터(200)를 포함하여 구성된다.
호스트 컴퓨터(100)는 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열과 키워드 및 그 문서 정보를 통신망으로 연결된 다수개의 컴퓨터에 분배하고, 상기 다수개의 컴퓨터로부터 컨셉별 문서 목록을 전달받아 저장 관리한다. 이를 위해, 호스트 컴퓨터(100)는 문서 DB(110), 키워드 DB(120), 키워드별 색인부(130), 키워드별 색인 DB(140), 색인 정보 생성부(150), I/F 부(160), 컨셉별 색인 관리부(170) 및 컨셉별 색인 DB(180)를 포함한다.
문서 DB(110)는 색인하고자 하는 문서를 저장 관리하고, 키워드 DB(120)는 문서를 색인하기 위한 주요 정보가 되는 키워드를 저장 관리한다. 이 때, 키워드 DB(120)에 저장되는 키워드는 기 설정된 값을 사용할 수도 있고, 문서 DB(110)에 저장된 문서들로부터 추출하여 사용할 수 도 있다.
키워드별 색인부(130)는 키워드 DB(120)에 저장된 키워드를 가지고 문서 DB(110)에 저장된 문서들을 색인하여 키워드별 문서 목록을 생성한 후, 키워드별 색인 DB(140)에 저장한다. 이 때, 생성된 키워드별 문서 목록은 도 2에 나타난 종래의 색인 결과와 같다.
색인 정보 생성부(150)는 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열들의 집합과, 키워드 및 해당 문서 정보를 포함하는 색인 정보를 생성한다. 이 때, 색인 정보 생성부(150)는 특정 키워드를 포함하는 모든 문서 내에서 해당 키워드 전/후의 8 내지 50자 이내의 문자열들을 추출하는 것이 바람직하다.
I/F부(160)는 색인 정보 생성부(150)에서 생성된 색인 정보를 게스트 컴퓨터들(200)로 전송하고, 게스트 컴퓨터들(200)로부터 전송되는 컨셉별 문서 목록을 수신하여 컨셉별 색인 관리부(170)로 전달한다. 이 때, I/F 부(160)는 색인 정보를 다수개의 색인 보조 프로세스인 게스트 컴퓨터들(200)에게 분배한 후, 게스트 컴퓨터들(200)이 해당 색인 정보를 구성하는 모든 문자열에 포함된 모든 단어들 각각과 색인 정보에 포함된 키워드의 조합인 컨셉을 추출하여 그 컨셉별 문서 목록을 생성하도록 제어한다.
컨셉별 색인 관리부(170)는 I/F 부(160)를 통해 다수개의 게스트 컴퓨터들(200)로부터 전송되는 컨셉별 문서 목록들을 통합 관리한다. 즉, 다수개의 게스트 컴퓨터들(200)로부터 전송되는 컨셉별 문서 목록을 통합하여 컨셉별 통합 문서 목록을 생성한 후, 각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 상기 컨셉별 통합 문서 목록을 정렬한다.
컨셉별 색인 DB(180)는 이와 같이 컨셉별 문서 점수에 의해 정렬된 컨셉별 문서 목록들을 저장 관리한다.
한편, 게스트 컴퓨터(200)는 호스트 컴퓨터(100)와 통신망으로 연결되며, 호스트 컴퓨터(100)로부터 전달된 문자열, 키워드 및 문서 정보를 가지고 컨셉별 색인을 수행한 후, 그 결과 생성된 컨셉별 문서 목록을 호스트 컴퓨터(100)로 전달한다. 이를 위해, 게스트 컴퓨터(200)는 I/F 부(210), 컨셉 추출부(220) 및 컨셉별 색인부(230)를 포함한다.
I/F부(210)는 호스트 컴퓨터(100)로부터 키워드와 그 키워드를 포함하는 문자열들의 집합 및 그 문자열들이 포함된 색인 정보를 수신하고, 게스트 컴퓨터(200)내부에서 자체 발생된 컨셉별 문서 목록을 호스트 컴퓨터(100)로 전송한다.
컨셉 추출부(220)는 색인 정보를 구성하는 모든 문자열에 포함된 모든 단어들을 추출하여 그 추출된 단어들 각각과 색인 정보에 포함된 키워드의 조합인 컨셉을 추출하고, 상기 색인 정보에 포함된 문서 정보에 의거하여 그 컨셉을 문서별로 정리한 문서별 컨셉 목록을 생성한다.
컨셉별 색인부(230)는 컨셉 추출부(220)에서 생성된 문서별 컨셉 목록을 컨셉별로 재구성하여 컨셉별 문서 목록을 생성하고, 그 컨셉별 문서 목록을 I/F 부(210)로 전송한다.
도 4는 상기와 같은 문서 색인 과정에서 생성되는 문서별 컨셉 목록에 대한 예를 나타낸다. 즉, 호스트 컴퓨터가 도 2의 키워드별 문서 목록에서 키워드 'A'를 포함하는 문서들 중 '문서 1' 및 '문서 5'를 선택하고, 그 '문서 1' 및 '문서 5'에서 키워드 'A'를 포함하는 문자열을 추출한 후, 그 문자열들을 그 문서 정보 및 키워드 'A'와 함께 게스트 컴퓨터에게 전송한 경우에 대한 예를 나타낸다.
상기 예에서 게스트 컴퓨터는 호스트 컴퓨터로부터 전송된 문자열에 포함된 모든 단어들을 추출한 후, 그 모든 단어들과 키워드 'A'를 조합하여 컨셉을 추출하고, 호스트 컴퓨터로부터 전송된 문서 정보에 의거하여 각 컨셉이 추출된 문서를 식별한다. 이러한 일련의 과정을 거쳐 생성된 것이 도 4에 나타난 문서별 컨셉 목록이다.
도 4를 참조하면, '문서 1'에서 추출되어 게스트 컴퓨터로 전송된 모든 문자열에서 추출된 단어들은 'B', 'C', 'D', 'Z'가 있으며, 이들과 키워드 'A'의 조합에 의해 생성된 컨셉은 'AB', 'AC', 'AD', AZ'가 있다.
한편, 각 문서별로 각 컨셉들이 발생한 횟수를 그 컨셉에 대한 문서의 점수로 설정하는데, 이는 도 4의 '발생횟수' 항목에 나타나 있다. 즉, 컨셉 'AB'에 대한 '문서 1'의 점수는 '6'이고, 컨셉 'AC'에 대한 '문서 1'의 점수는 '4'이다. 이와 같이 하여 각 컨셉들에 대한 문서의 점수가 결정된다.
도 5는 상기와 같이 구성된 문서별 컨셉 목록을 컨셉별로 재구성한 컨셉별 문서 목록에 대한 예를 나타낸다. 즉, 도 4에 도시된 문서별 컨셉 목록을 컨셉별로 재구성하면, 컨셉 'AB'를 포함하는 문서는 '문서 1'이 있고, 컨셉 'AB'에 대한 '문서 1'의 점수는 '6'이다. 또한, 컨셉 'AC'를 포함하는 문서는 '문서 5'와 '문서 1'이 있고, 컨셉 'AC'에 대한 '문서 5'와 '문서 1'의 점수는 각각 '5'와 '4'이다. 이 때, 각 컨셉별 문서 목록들은 이러한 점수에 의해 정렬하는 것을 원칙으로 한다. 컨셉 'AC'의 경우도 '문서 5'와 '문서 1'을 그 문서의 점수에 의해 내림차순으로 정렬하였다.
도 6은 도 5와 같이 부분적으로 생성된 컨셉별 문서 목록들을 하나의 목록에서 통합 관리하기 위한 데이터 베이스 구조에 대한 예시도이다. 즉, 다수의 게스트 컴퓨터들 각각에서 전송되는 컨셉별 문서 목록들을 호스트 컴퓨터에서 통합하여 관리하기 위한 데이터 베이스 구조에 대한 예시도이다.
도 6을 참조하면, 각 컨셉별로 그 컨셉을 포함하는 문서들을 그 문서의 점수에 의해 정렬하여 데이터 베이스에 등록한 것을 볼 수 있다. 한편, 좌측 문서 정보란(갱신전)에는 그 문서들의 정보를 갱신하기 이전의 데이터가, 우측 문서 정보란(갱신후)에는 그 문서들의 정보를 도 5에 나타난 컨셉별 문서 목록에 의해 갱신한 후의 데이터가 나타나 있다.
즉, 컨셉 'AB'의 경우 도 5의 컨셉별 문서 목록에 의해 '문서 1'의 점수가 '15'에서 '6'이 증가된 '21'로 변동되었다. 또한, 컨셉 'AC'의 경우 도 6의 컨셉별 문서 목록에 의해 '문서 1' 및 '문서 5'의 점수가 각각 변동되었고, 이에 의해 '문서 1', '문서 5', '문서 9'의 순서가 그 점수에 의해 새롭게 정렬되었다.
도 7 내지 도 9는 본 발명의 일 실시예에 따라 문서 내에서 컨셉을 추출하고, 컨셉별 문서 점수를 카운트하는 과정을 설명하기 위한 예시도이다.
도 7은 문서 내에서 컨셉을 추출하기 위한 컨셉 추출 범위를 나타낸 예로서, 호스트 컴퓨터에서 키워드 '정보'를 포함하는 문서 내에서 그 키워드 '정보' 전후로 5개의 단어를 포함하는 문자열을 추출하여 게스트 컴퓨터로 전송하는 경우의 예를 나타낸다.
도 7을 참조하면, 도 7에 나타난 바와 같이 키워드를 '정보'로 하고 2라인으로 이루어진 문서가 있다고 가정할 때, 그 문서에서 키워드 '정보'는 4번 출현하였으며, 그 각각의 키워드('정보1', '정보2', '정보3', '정보4')들을 중심으로 컨셉을 추출하기 위한 문자열을 설정하되, 그 키워드를 중심으로 5단어 이내의 범위로 설정할 경우, 도 7과 같이 'A', 'B', 'C', 'D'의 4영역으로 구분할 수 있다.
상기 4개의 문자열에서 추출된 모든 단어들을 키워드인 '정보'와 조합하여 발생된 컨셉 목록과, 그 컨셉이 해당 문자열 내에서 발생된 발생 횟수를 나타내는 데이터 베이스 구조의 예가 도 8에 나타나 있다.
도 9는 이와 같이 문자열로 발생된 컨셉 및 해당 컨셉의 발생 횟수를 통합하여 나타내었다. 이 때, 각 컨셉들은 그 발생 횟수에 의해 내림차순으로 정렬됨을 원칙으로 하며, 도 9에서도 각 컨셉들이 정렬된 상태를 나타낸다.
도 10은 본 발명의 실시예에 따라 문서 색인을 처리하기 위한 개략적인 처리 절차도이다. 도 10을 참조하면, 우선 호스트 컴퓨터(100)에서는 기본적인 문서 및 키워드 정보를 가지고 색인 정보를 생성한다(s10). 이 때, 호스트 컴퓨터(100)는 특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열들의 집합과, 키워드 및 해당 문서 정보를 포함하는 색인 정보를 생성한다. 그리고, 상기 색인 정보를 게스트 컴퓨터(200)들에게 분배한다(s20).
그러면, 게스트 컴퓨터들(200)은 수신된 색인 정보에 의거하여 컨셉별 문서 목록을 생성한 후 그 컨셉별 문서 목록을 정렬하여(s30), 호스트 컴퓨터(100)에게전송한다(s40).
호스트 컴퓨터(100)는 각 게스트 컴퓨터(200)들로부터 수신한 컨셉별 문서 목록들을 재정렬하여 통합 관리한다(s50).
즉, 다시 말하면, 이와 같이 본 발명에 의한 컨셉별 문서 색인을 수행하기 위해서는 크게 4단계의 과정을 수행하여야 하는데, 먼저, 호스트 컴퓨터에서 색인하고자 하는 문서들 중 특정 키워드를 포함하는 문서들을 추출하고, 그 추출된 모든 문서 내에서 해당 키워드를 포함하는 소정 범위의 문자열들을 추출하는 제1 과정과, 상기 제1 과정에서 추출된 문자열들과, 키워드 및 그 문자열들을 포함하는 문서 정보들로 이루어진 색인 정보를 다수개의 게스트 컴퓨터들에게 분배하는 제2 과정과, 상기 다수개의 게스트 컴퓨터들이 그 색인 정보에 의거한 컨셉별 문서 목록을 생성하는 제3 과정과, 상기 다수개의 게스트 컴퓨터들이 각각 생성한 다수개의 컨셉별 문서 목록들을 하나의 컨셉별 통합 문서 목록으로 재구성한 후, 그 컨셉별 통합 문서 목록을 총괄하는 제4 과정을 포함한다.
도 11은 본 발명의 실시예에 따른 호스트 컴퓨터의 처리 과정에 대한 흐름도이다. 즉, 호스트 컴퓨터에서는 상기 설명 중 제1 과정과, 제2 과정 및 제4 과정을 수행하게 되는데, 이러한 처리 과정을 도 11을 참조하여 설명하면 다음과 같다.
먼저, 색인하고자 하는 문서들에 대한 키워드별 색인을 수행하여 키워드별 문서 목록을 생성하고(s110), 각 키워드별로 그 키워드별 문서 목록에 포함된 문서들을 선택한다(s120). 그리고, 그 선택된 모든 문서 내에서 해당 키워드 전후 일정 범위의 문자열을 선택한다(s130). 이 때, 해당 키워드 전후 5 내지 50 단어를 포함하는 범위의 문자열을 선택하는 것이 바람직하다.
그리고, 그 선택된 문자열들과 키워드 및 문서 정보를 게스트 컴퓨터에게 전송하고(s140), 게스트 컴퓨터로부터 컨셉별 문서 목록이 전송되기를 대기한다.
만약, 게스트 컴퓨터로부터 컨셉별 문서 목록이 수신되면(s150), 호스트 컴퓨터는 그 컨셉별 문서 목록들을 기존에 생성되어 호스트 컴퓨터에서 관리되어 오는 컨셉별 문서 목록과 통합한 후(s160), 그 컨셉별 통합 문서 목록을 총괄한다(s170). 이 때, 호스트 컴퓨터는 각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 그 컨셉별 통합 문서 목록을 정렬하는 과정을 수행한다.
한편, 도 12는 본 발명의 실시예에 따른 게스트 컴퓨터의 처리 과정에 대한 흐름도이다. 즉, 게스트 컴퓨터에서는 본 발명의 4단계의 처리 과정 중 제3 과정을 수행하게 되는데, 이러한 처리 과정을 도 12를 참조하여 설명하면 다음과 같다. 즉, 게스트 컴퓨터가 호스트 컴퓨터로부터 색인 정보를 수신하면(s210), 먼저, 그 색인 정보로 전달된 문자열에 포함된 모든 단어들을 추출하고, 그 단어들을 키워드 단어와 조합하여 컨셉을 추출한다(s220). 그리고, 이러한 컨셉들은 색인 정보로 전달된 문서 정보에 의거하여 문서별로 관리된다. 즉, 문서별 컨셉 목록을 생성하게 된다.
그리고, 그 문서별 컨셉 목록은 컨셉별 문서 검색을 용이하게 하기 위해 다시 컨셉별로 재구성하고(s230), 그 컨셉별 문서 목록들을 컨셉별 문서 점수 즉, 해당 문서 내에서 컨셉이 발생된 횟수에 의거하여 내림차순으로 정렬한다(s240).
이와 같이 컨셉별 문서 목록이 생성되면, 게스트 컴퓨터는 그 컨셉별 문서 목록을 호스트 컴퓨터에서 총괄할 수 있도록 하기 위해, 호스트 컴퓨터 측으로 전송한다(s250).
이 때, 게스트 컴퓨터는 호스트 컴퓨터와 통신망으로 연결된 다수개의 컴퓨터들을 말하지만, 이러한 일련의 과정들이 하나의 컴퓨터에서 이루어진다고 가정할 경우, 하나의 컴퓨터 내에 존재하는 다수개의 색인 보조 프로세스를 일컬을 수도 있다.
이상의 설명은 하나의 실시예를 설명한 것에 불과한 것으로서, 본 발명은 상술한 실시예에 한정되지 않으며 첨부한 특허청구범위 내에서 다양하게 변경 가능하다. 예를 들어 본 발명의 실시예에 구체적으로 나타난 각 구성 요소의 형상 및 구조는 변형하여 실시할 수 있다.
이상에서 설명한 바와 같이 본 발명에 따른 문서 색인 시스템 및 그 방법에 의하면, 키워드와 그 키워드와 일정 거리 이내에 있는 단어의 조합으로 이루어진 컨셉별로 대용량의 문서들을 색인함으로써, 검색시 소요되는 검색 엔진의 부하를 효율적으로 줄일 수 있고, 이로 인해 검색 속도를 빠르게 개선할 수 있으며, 보다 정확한 검색 결과를 얻을 수 있도록 한다는 장점이 있다.
또한, 문서 색인 과정을 통신망으로 연결된 다수개의 컴퓨터에 의해 분산 처리한 후, 그 색인 결과를 하나의 호스트 컴퓨터에서 통합 관리하도록 하되, 호스트 컴퓨터에서 문서 전체를 전송하는 것이 아니고, 해당 키워드를 포함하는 부분 문자열만을 선택하여 게스트 측으로 전송하도록 함으로써, 호스트 컴퓨터와 게스트 컴퓨터들간 통신 부하를 최소화하면서, 문서 색인 시스템 자체의 부하를 현저히 줄일 수 있다는 효과가 있다.

Claims (8)

  1. 문서를 분석하여 색인어별로 정보를 저장하는 문서 색인 시스템에 있어서,
    색인하고자 하는 문서를 저장 관리하는 문서 데이터 베이스부와,
    문서를 색인하기 위한 주요 정보가 되는 키워드를 저장 관리하는 키워드 데이터 베이스부와,
    상기 키워드 데이터 베이스부에 저장된 키워드를 가지고 상기 문서 데이터 베이스부에 저장된 문서들을 색인하여 키워드별 문서 목록을 생성하는 키워드별 색인부와,
    상기 키워드별 색인부에서 생성된 키워드별 문서 목록을 저장하는 키워드별 색인 데이터 베이스부와,
    특정 키워드를 포함하는 모든 문서 내에서 그 키워드를 포함하는 소정 범위의 문자열을 추출한 후, 그 문자열들의 집합과, 키워드 및 해당 문서 정보를 포함하는 색인 정보를 생성하는 색인 정보 생성부와,
    상기 색인 정보를 다수개의 색인 보조 프로세스들에게 분배한 후, 그 색인 보조 프로세스들이 해당 색인 정보를 구성하는 모든 문자열에 포함된 모든 단어들 각각과 색인 정보에 포함된 키워드의 조합인 컨셉을 추출하여 그 컨셉별 문서 목록을 생성하도록 제어하고, 상기 다수개의 색인 보조 프로세스들 각각으로부터 컨셉별 문서 목록을 수신하는 인터페이스부와,
    상기 인터페이스부에서 수신된 컨셉별 문서 목록들을 통합 관리하는 컨셉별색인 관리부와,
    상기 컨셉별 색인 관리부를 통해 전달되는 컨셉별 문서 목록을 저장하는 컨셉별 색인 데이터 베이스부를 포함하는 것을 특징으로 하는 문서 색인 시스템.
  2. 제1항에 있어서, 상기 색인 정보 생성부는
    상기 모든 문서 내에서 해당 키워드 전/후의 5 내지 50단어 이내의 문자열들을 추출하여 색인 정보를 구성하는 것을 특징으로 하는 문서 색인 시스템.
  3. 제1항에 있어서, 상기 컨셉별 색인 관리부는
    상기 인터페이스부를 통해 전달되는 컨셉별 문서 목록을 통합하여 컨셉별 통합 문서 목록을 생성한 후, 각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 상기 컨셉별 통합 문서 목록을 정렬하는 것을 특징으로 하는 문서 색인 시스템.
  4. 문서를 분석하여 색인어별로 정보를 저장하는 문서 색인 방법에 있어서,
    색인하고자 하는 문서들 중 특정 키워드를 포함하는 문서들을 추출하고, 그 추출된 모든 문서 내에서 해당 키워드를 포함하는 소정 범위의 문자열들을 추출하는 제1 과정과,
    상기 제1 과정에서 추출된 문자열들과, 키워드 및 그 문자열들을 포함하는 문서 정보를 다수개의 색인 보조 프로세스에 분배하는 제2 과정과,
    상기 다수개의 색인 보조 프로세스들이 상기 분배된 문자열, 키워드 및 문서 정보에 의거한 컨셉별 문서 목록을 생성하도록 하는 제3 과정과,
    상기 다수개의 색인 보조 프로세스들이 각각 생성한 다수개의 컨셉별 문서 목록들을 하나의 컨셉별 통합 문서 목록으로 재구성한 후, 그 컨셉별 통합 문서 목록을 총괄하는 제4 과정을 포함하는 것을 특징으로 하는 문서 색인 방법.
  5. 제4항에 있어서, 상기 제1 과정은
    상기 추출된 모든 문서 내에서 해당 키워드 전/후의 5 내지 50단어 이내의 문자열들을 추출하는 것을 특징으로 하는 문서 색인 방법.
  6. 제4항에 있어서, 상기 다수개의 색인 보조 프로세스는
    통신망으로 연결된 다수개의 컴퓨터 각각에 포함되는 색인 보조 프로세스들 또는 하나의 컴퓨터에 포함되는 다수개의 색인 보조 프로세스들인 것을 특징으로 하는 문서 색인 방법.
  7. 제4항에 있어서, 상기 제3 과정은
    상기 문자열별로 그 문자열에 포함된 모든 단어들을 추출하도록 하는 제3-1 과정과,
    상기 제3-1 과정에서 추출된 모든 단어들 각각과 상기 키워드의 조합인 컨셉을 추출한 후, 그 컨셉을 문서별로 정리한 문서별 컨셉 목록을 생성하도록 하는제3-2 과정과,
    상기 문서별 컨셉 목록을 컨셉별로 재구성하여 컨셉별 문서 목록을 생성하는 제3-3 과정을 포함하도록 하는 것을 특징으로 하는 문서 색인 방법.
  8. 제4항에 있어서, 상기 제4 과정은
    각 문서에 해당 컨셉이 출현한 횟수에 의해 결정된 컨셉별 문서 점수에 의거하여 상기 컨셉별 통합 문서 목록을 정렬하는 과정을 더 포함하는 것을 특징으로 하는 문서 색인 방법.
KR10-2001-0007570A 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법 KR100440906B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0007570A KR100440906B1 (ko) 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0007570A KR100440906B1 (ko) 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20020067161A true KR20020067161A (ko) 2002-08-22
KR100440906B1 KR100440906B1 (ko) 2004-07-19

Family

ID=27694493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0007570A KR100440906B1 (ko) 2001-02-15 2001-02-15 문서 색인 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100440906B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102052315B1 (ko) * 2018-05-28 2019-12-04 주식회사 에이브레인 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03161865A (ja) * 1989-11-21 1991-07-11 Fujitsu Ltd 文章の検索方法
JPH04182871A (ja) * 1990-11-19 1992-06-30 Mitsubishi Electric Corp 類似文書検索装置
JP3024544B2 (ja) * 1996-03-27 2000-03-21 松下電器産業株式会社 情報検索装置
JPH1074156A (ja) * 1996-08-29 1998-03-17 Toyo Electric Mfg Co Ltd データ処理装置
KR100285265B1 (ko) * 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
KR100463667B1 (ko) * 1999-03-08 2004-12-29 엘지전자 주식회사 정보 처리 시스템 및 그 방법
KR100434688B1 (ko) * 2000-05-25 2004-06-04 주식회사 다이퀘스트 대화형 db, faq리스트, 웹사이트에 대한 통합형 자연어 질의-응답 검색 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102052315B1 (ko) * 2018-05-28 2019-12-04 주식회사 에이브레인 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템

Also Published As

Publication number Publication date
KR100440906B1 (ko) 2004-07-19

Similar Documents

Publication Publication Date Title
KR100414236B1 (ko) 데이터의 검색을 위한 서치 시스템 및 방법
US6898592B2 (en) Scoping queries in a search engine
US7987189B2 (en) Content data indexing and result ranking
US6286000B1 (en) Light weight document matcher
WO2005083597A1 (en) Intelligent search and retrieval system and method
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
WO2007143899A1 (fr) Système et procédé pour l'extraction intelligente et le traitement d'informations
JP2006048685A (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN106777343A (zh) 增量分布式索引系统和方法
US9547701B2 (en) Method of discovering and exploring feature knowledge
KR100426995B1 (ko) 문서 색인 시스템 및 그 방법
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
KR100440906B1 (ko) 문서 색인 시스템 및 그 방법
KR20040039691A (ko) 정보 검색 시스템의 인덱싱 방법
Kanda et al. Practical rearrangement methods for dynamic double‐array dictionaries
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
Spertus et al. A Hyperlink-Based Recommender System Written in Sqeal.
KR100493399B1 (ko) 정보검색 관리시스템 및 그 방법
Sumalatha et al. Hash mapping strategy for improving retrieval effectiveness in semantic cache system
Frieder et al. On scalable information retrieval systems
JPS60129873A (ja) 文書保管検索システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee