KR100353112B1 - 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법 - Google Patents

정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법 Download PDF

Info

Publication number
KR100353112B1
KR100353112B1 KR1019990022432A KR19990022432A KR100353112B1 KR 100353112 B1 KR100353112 B1 KR 100353112B1 KR 1019990022432 A KR1019990022432 A KR 1019990022432A KR 19990022432 A KR19990022432 A KR 19990022432A KR 100353112 B1 KR100353112 B1 KR 100353112B1
Authority
KR
South Korea
Prior art keywords
information
index
noun
file
function
Prior art date
Application number
KR1019990022432A
Other languages
English (en)
Other versions
KR20010002567A (ko
Inventor
맹성현
Original Assignee
맹성현
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 맹성현 filed Critical 맹성현
Priority to KR1019990022432A priority Critical patent/KR100353112B1/ko
Publication of KR20010002567A publication Critical patent/KR20010002567A/ko
Application granted granted Critical
Publication of KR100353112B1 publication Critical patent/KR100353112B1/ko

Links

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 이중구조의 역파일 구조를 이용하여 동적으로 발생하는 문서에 대한 저장공간의 효율성을 높이고 복합명사의 구조적 정보를 별도로 저장하여 관리함으로써 정보의 중복저장을 피하고 검색의 신뢰도를 향상시킨 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 복합명사 질의를 단순명사로 분리하는 제 1 단계; 분리된 단순명사를 이용하여 저장정보를 추출하는 제 2 단계; 추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 3 단계; 각 단순명사에 대해 구조정보를 추출하는 제 4 단계; 및 각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 5 단계를 포함하여 구현하므로써, 이중구조의 역파일 구조를 이용하여 각 색인어의 발생빈도에 따라 저장공간을 가변적으로 할당하여 점증색인을 효율적으로 처리하고, 또한 색인어의 구조정보와 위치정보를 추출하여 별도로 관리하고 검색에 사용함으로써 복합명사의 부분정합지원에 따른 저장정보의 중복을줄이고 부분정합에 따른 검색의 효율성을 높이고, 그 결과를 검색에 반영함으로써 검색의 신뢰도를 향상시킬 수 있다.
4. 발명의 중요한 용도
본 발명은 디지털 도서관 등과 같은 정보검색 시스템의 하부저장구조에 응용됨.

Description

정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법{A MANAGEMENT APPARATUS FOR STORING INDICES IN INFORMATION RETRIEVAL SYSTEM AND THEIR STORAGE/RETRIEVAL METHOD}
본 발명은 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 복합명사의 부분정합을 지원하면서 저장공간을 효율적으로 사용하여 검색의 신뢰도 향상은 물론 동적으로 발생하는 문서를 효과적으로 색인할 수 있는 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
기존의 하부저장구조가 점증색인을 위해 가지는 일반적인 기술은, 동일한 크기의 저장공간을 색인정보의 발생빈도와 상관없이 할당함으로써, 저장공간의 활용도가 낮고 또한 해당 크기를 초과하는 경우에 또다른 공간을 할당하여 연결시켜 사용하는데 따른 저장공간의 단편화를 발생시키는 문제점이 있었다.
또한, 현재 정보검색 시스템의 하부저장구조는 한국어 처리 정보검색 시스템에서 중요한 자리를 차지하고 있는 복합명사를 효과적으로 처리하지 못하고 있다. 즉, 복합명사의 부분정합을 위해서 동일 정보의 과다한 중복저장을 초래하거나 결과의 산출에 많은 시간이 소요되는 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 이중구조의 역파일 구조를 이용하여 동적으로 발생하는 문서에 대한 저장공간의 효율성을 높이고 복합명사의 구조적 정보를 별도로 저장하여 관리함으로써 정보의 중복저장을 피하고 검색의 신뢰도를 향상시킨 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
즉, 본 발명은 저장되는 색인어의 발생 빈도에 따라 이중구조의 저장공간에 가변적으로 여유 공간을 할당하여 추가로 발생하는 문서를 처리하며, 복합명사의 부분정합을 위해 색인문서 리스트를 단순명사와 복합명사별로 각각 저장하고 복합명사의 구조정보를 이용하여 검색결과를 생성하는 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 하부저장구조 관리장치의 일실시예 구성도.
도 2 는 본 발명에 따른 정보 파일의 일실시예 구조도.
도 3a 및 3b 는 본 발명에 따른 정보 저장 과정의 일실시예 흐름도.
도 4 는 본 발명에 따른 정보 검색 과정의 일실시예 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
101 : 용어정보 데이터베이스 102 : 용어정보 관리기
103 : 구조정보 관리기 104 : 구조정보 데이터베이스
105 : 빈공간 정보 데이터베이스 106 : 빈공간 정보 관리기
107 : 단어위치정보 관리기 108 : 단어위치정보 데이터베이스
109 : 포스팅 정보 관리기 110 : 짧은 포스팅 정보 데이터베이스
111 : 짧은 포스팅 정보 관리기 112 : 긴 포스팅 정보 관리기
113 : 긴 포스팅 정보 데이터베이스
상기 목적을 달성하기 위한 본 발명의 장치는, 정보검색 시스템의 하부저장구조 관리장치에 있어서, 구조정보 관리수단으로 용어의 구조정보에 대한 저장을 요구하여 저장된 구조정보의 시작위치정보를 전달받아 저장하고, 포스팅 정보 관리수단으로 색인문서에 대한 정보의 저장을 요구하여 저장된 파일의 종류와 위치정보를 전달받아 저장하기 위한 용어정보 관리수단; 상기 용어정보 관리수단으로부터 용어의 구조정보에 대한 저장을 요구받으면 빈공간 정보 관리수단으로부터 빈공간의 존재여부를 확인받아 해당 빈공간에 저장하고 그 시작위치정보를 상기 용어정보 관리수단으로 전달하며, 삭제나 자료이동으로 발생한 빈공간 발생정보를 상기 빈공간 정보 관리수단으로 전달하기 위한 상기 구조정보 관리수단; 상기 구조정보 관리수단 또는 상기 포스팅 정보 관리수단으로부터 빈공간에 대한 정보를 요구받아 해당 수단으로 전달하고 그 빈공간 정보를 삭제하며, 상기 구조정보 관리수단 또는 상기 포스팅 정보 관리수단으로부터의 빈공간 발생정보에 따라 빈공간 정보를 갱신하기 위한 상기 빈공간 정보 관리수단; 상기 포스팅 정보 관리수단으로부터 용어의 위치정보를 전달받아 저장하고, 저장된 위치정보를 상기 포스팅 정보 관리수단으로 전달하기 위한 단어위치정보 관리수단; 및 상기 용어정보 관리수단으로부터 색인문서에 대한 정보의 저장을 요구받으면 상기 빈공간 정보 관리수단으로부터 빈공간에 대한 정보를 확인받아 해당 빈공간에 저장하고 저장된 파일의 종류와 위치정보를 상기 용어정보 관리수단으로 전달하며, 삭제나 자료이동으로 발생한 빈공간 발생정보를 상기 빈공간 정보 관리수단으로 전달하며, 상기 단어위치정보 관리수단으로 용어의 위치정보에 대한 저장을 요구하여 저장된 위치정보를 전달받아 저장하기 위한 상기 포스팅 정보 관리수단을 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명의 정보 저장 방법은, 정보검색 시스템에 적용되는 정보 저장 방법에 있어서, 후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 단계; 상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 단계; 상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 단계; 및 상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 상기 정보 저장 방법은, 새로 추가되는 문서가 있는지를 확인하는 제5 단계; 및 상기 제 5 단계의 확인 결과, 새로 추가되는 문서가 있으면 상기 제 1 단계부터 반복 수행하고, 새로 추가되는 문서가 없으면 정보 저장을 종료하는 제 6 단계를 더 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명의 정보 검색 방법은, 정보검색 시스템에 적용되는 정보 검색 방법에 있어서, 복합명사 질의를 단순명사로 분리하는 제 1 단계; 분리된 단순명사를 이용하여 저장정보를 추출하는 제 2 단계; 추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 3 단계; 각 단순명사에 대해 구조정보를 추출하는 제 4 단계; 및 각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 5 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명의 정보 저장/검색 방법은, 정보검색 시스템에 적용되는 정보 저장/검색 방법에 있어서, 후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 단계; 상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 단계; 상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 단계; 상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 단계; 복합명사 질의를 단순명사로 분리하는 제 5 단계; 분리된 단순명사를 이용하여 저장정보를 추출하는 제 6 단계; 추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 7 단계; 각 단순명사에 대해 구조정보를 추출하는 제 8 단계; 및 각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 9 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 마이크로 프로세서를 구비한 정보검색 시스템에, 후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 기능; 상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 기능; 상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 기능; 및 상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은, 마이크로 프로세서를 구비한 정보검색 시스템에, 복합명사 질의를 단순명사로 분리하는 제 1 기능; 분리된 단순명사를 이용하여 저장정보를 추출하는 제 2 기능; 추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 3 기능; 각 단순명사에 대해 구조정보를 추출하는 제 4 기능; 및 각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은, 마이크로 프로세서를 구비한 정보검색 시스템에, 후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 기능; 상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 단계; 상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 기능; 상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 기능; 복합명사 질의를 단순명사로 분리하는 제 5 기능; 분리된 단순명사를 이용하여 저장정보를 추출하는 제 6 기능; 추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 7 기능; 각 단순명사에 대해 구조정보를 추출하는 제 8 기능; 및 각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 9 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이러한 본 발명에 따른 하부저장구조 관리장치는 동적으로 발생하는 문서들의 즉각적인 처리, 각 색인어의 발생 빈도를 고려한 저장공간의 유연성, 한국어 문서에서 비중이 높은 복합명사의 부분정합을 지원함으로써, 한국어 문서의 검색에 있어서 높은 신뢰도와 효율성을 향상시키는데 매우 유용하게 사용될 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 하부저장구조 관리장치의 일실시예 구성도로서, 하부저장구조를 구성하는 전체 관리기 모듈들의 상관관계를 보여준다.
먼저, 용어정보 관리기(102)와 구조정보 관리기(103)의 상관관계를 살펴보면, 저장시 용어정보 관리기(102)가 새로운 용어의 발생시 구조정보 관리기(103)에 용어의 구조정보에 대한 저장을 요구하면, 구조정보 관리기(103)는 구조정보 데이터베이스(파일)(104)내의 빈공간을 이용하여 요구된 구조정보를 저장하고, 저장된 구조정보 데이터베이스(104)내의 시작위치를 용어정보 관리기(102)에 전달한다. 검색시 기존 용어의 구조정보는 용어정보 관리기(102)에 저장된 구조정보의 시작위치정보를 이용하여 접근할 수 있다.
다음으로, 용어정보 관리기(102)와 포스팅 정보 관리기(109)의 상관관계를 살펴보면, 저장시 용어정보 관리기(102)가 포스팅 정보 관리기(109)에 색인문서에 대한 정보의 저장을 요구하면, 포스팅 정보 관리기(109)는 색인문서의 크기에 따라 긴 포스팅 정보와 짧은 포스팅 정보로 구분하여 긴 포스팅 정보 데이터베이스(113)와 짧은 포스팅 정보 데이터베이스(110)에 저장하고, 저장된 파일의 종류와 위치정보를 용어정보 관리기(102)에 전달한다. 검색시 색인문서의 정보는 용어정보 관리기(102)에 저장된 포스팅 파일의 이름과 위치정보를 이용하여 접근할 수 있다.
다음으로, 구조정보 관리기(103)와 빈공간 정보 관리기(106)의 상관관계를살펴보면, 저장시 구조정보 관리기(103)는 구조정보를 저장하기 위해 구조정보 파일의 맨 끝에 구조정보를 추가하기 전에 기존의 구조정보 파일내에 추가되는 구조정보를 수용할 수 있는 빈공간의 존재여부를 확인하기 위해 빈공간 정보 관리기(106)에 구조정보 파일내의 빈공간에 대한 정보를 요구한다. 그러면, 빈공간 정보 관리기(106)는 요구된 크기의 구조정보가 저장될 수 있는 크기의 빈공간이 구조정보 데이터베이스(104)에 존재하는지를 빈공간 정보 데이터베이스(105)에서 확인하여 그 결과를 전달한다. 즉, 적절한 빈공간이 있으면 그 위치정보와 크기를 구조정보 관리기(103)에 알려주고, 빈공간 정보 데이터베이스(테이블)(105)에서 해당하는 빈공간 정보를 삭제한다. 또한, 구조정보 관리기(103)는 구조정보 데이터베이스(104)내에 삭제나 자료 이동으로 인한 빈공간이 발생하는 경우에 빈공간에 대한 정보를 빈공간 정보 관리기(106)에 알려주어 해당되는 빈공간에 대한 정보를 빈공간 정보 데이터베이스(105)에 갱신한 수 있도록 한다.
다음으로, 긴 포스팅 정보 관리기(112)와 빈공간 정보 관리기(106)의 상관관계를 살펴보면, 저장시 긴 포스팅 정보 관리기(112)는 발생 빈도가 높은 색인문서 정보를 저장하기 위해 긴 포스팅 파일의 맨 끝에 색인문서 정보를 추가하기 전에 기존의 긴 포스팅 정보 파일내에 추가되는 색인정보 문서를 수용할 수 있는 빈공간의 존재여부를 확인하기 위해 빈공간 정보 관리기(106)에 긴 포스팅 정보 파일내의 빈공간에 대한 정보를 요구한다. 그러면, 빈공간 정보 관리기(106)는 요구된 크기의 색인문서 정보가 저장될 수 있는 크기의 빈공간이 긴 포스팅 정보 데이터베이스(110)에 존재하는지를 빈공간 정보 데이터베이스(105)에서 확인하여그 결과를 전달한다. 즉, 적절한 빈공간이 있으면 그 위치정보와 크기를 긴 포스팅 관리기(112)에 알려주고, 빈공간 정보 데이터베이스(테이블)(105)에서 해당하는 빈공간 정보를 삭제한다. 또한, 긴 포스팅 정보 관리기(112)는 긴 포스팅 정보 파일내에 삭제나 자료 이동으로 인한 빈공간이 발생하는 경우에 빈공간에 대한 정보를 빈공간 정보 관리기(106)에 알려주어 해당되는 빈공간에 대한 정보를 빈공간 정보 데이터베이스(105)에 갱신할 수 있도록 한다.
다음으로, 포스팅 정보 관리기(109)와 단어위치정보 관리기(107)의 상관관계를 살펴보면, 저장시 포스팅 정보 관리기(109)는 색인문서내의 용어의 위치정보를 저장하기 위해 단어위치정보 관리기(107)를 호출하여 용어의 위치정보를 넘겨주면, 단어위치정보 관리기(107)는 단어위치정보 데이터베이스(108)의 맨 끝에 요구된 단어의 위치정보를 저장하고, 저장된 위치정보를 포스팅 정보 관리기(109)에 전달한다. 검색시 단어의 위치정보는 포스팅 정보 관리기(109)에 저장된 단어위치정보 파일내의 위치정보를 통하여 접근할 수 있다.
다음으로, 각 구성요소를 상세히 살펴보면 다음과 같다.
먼저, 용어정보 관리기(102)에 대하여 상세히 살펴보면 다음과 같다.
B+ 트리를 이용하여 관리되는 용어정보는 포스팅 파일과 구조정보 파일로의 효율적인 접근을 위한 검색 용어 정보로 사용된다. 용어정보는 단순명사의 정보만을 관리하며, 복합명사의 정보는 복합명사를 구성하는 단순명사의 정보를 사용하여 얻을 수 있다.
이때, 용어정보 관리기(102)는 다음과 같은 기능을 수행한다.
1) B+ 트리 생성 : 용어정보의 관리를 위해 새로운 B+ 트리에 사용되는 데이터 파일과 인덱스 파일을 생성한다.
2) B+ 트리 열기 : 기존의 B+ 트리에 접근하기 위해 지정된 파일이름의 데이터 파일과 인덱스 파일을 연다.
3) 삽입 : 지정된 파일이름의 B+ 트리에 새로운 색인용어정보를 추가한다.
4) 변경 : 지정된 파일이름의 B+ 트리에 저장된 기존 정보를 변경한다.
5) 삭제 : 지정된 파일이름의 B+ 트리에 저장된 색인용어의 정보를 삭제한다.
6) 찾기 : 지정된 파일이름의 B+ 트리에서 검색방향에 따라 색인어 또는 역으로 저장된 색인어를 검색하여 해당 정보를 반환해준다.
7) 닫기 : 지정된 파일이름의 B+ 트리를 위해 열려진 데이터 파일과 색인 파일을 닫는다.
다음으로, 포스팅 정보 관리기(109)에 대하여 상세히 살펴보면 다음과 같다.
점증색인을 위한 이중구조, 복합명사의 부분정합을 위한 통합 구조의 모습은 포스팅 파일에 많이 반영되어 있다. 문서리스트는 그 크기에 따라 긴 리스트와 짧은 리스트로 구분되어 관리된다. 짧은 포스팅 정보는 일정한 크기로 할당된 '버켓'이라는 단위를 통해 발생빈도가 적은 여러 개의 색인정보가 관리된다. 하나의 여유공간을 동일 버켓에 저장되는 여러 개의 색인어가 공유함으로써 저장공간의 활용도를 높일 수 있게 하였다. 긴 포스팅 정보는 추가되는 문서를 위한 여유 저장공간을 가변적으로 할당하여 저장함으로써 점증색인을 가능하게 하였다. 포스팅 정보 관리기는 이중 구조에 따라 짧은 포스팅 정보 관리기(111)와 긴 포스팅 정보 관리기(112)로 구분된다.
상기 짧은 포스팅 정보 관리기(111)가 수행하는 기능을 살펴보면 다음과 같다.
1) 초기 버켓 할당 : 색인기(형태소 분석기)를 통해 추출된 색인어의 정보를 이용하여 짧은 포스팅 파일에 적정한 개수의 버켓을 할당한다.
2) 색인어의 버켓 지정 : 하나의 버켓에 같이 저장되는 리스트를 모두 함께 검색될 가능성이 높은 리스트로 구성하는 방안을 제시하여 검색시 디스크 접근 횟수를 최소화한다. 즉, 복합명사 처리의 특성을 살려, 하나의 복합명사를 구성하고 있는 단순명사에 대한 문서리스트를 그룹화하여 하나의 버켓에 저장함으로써 구성명사의 수만큼 필요한 디스크 접근 횟수를 더욱 줄일 수 있도록 한다.
3) 색인정보의 저장 : 할당된 버켓에 색인정보를 저장한다.
4) 버켓내 저장공간의 조정 : 버켓에 저장되는 정보가 지정된 버켓의 크기를 초과하는 경우에 해당 버켓에서 가장 긴 문서 리스트를 가지는 색인정보를 긴 포스팅 정보 관리기(112)로 전송한다.
5) 기존 색인정보의 추가 및 변경 : 해당 색인어가 저장된 버켓의 문서리스트를 추가 또는 변경하는 작업을 한다.
6) 기존 색인정보의 삭제 : 색인어의 정보를 버켓 내에서 삭제한다.
한편, 상기 긴 포스팅 정보 관리기(112)가 수행하는 기능을 살펴보면 다음과 같다.
1) 색인정보의 저장 : 초기 색인정보와 그 크기에 비례하는 여유공간을 정한 후에 빈공간 정보 관리기(106)를 통해 긴 포스팅 파일내에 빈공간을 확인하여 적절한 빈 공간이 존재하면 저장하고 적절한 빈공간이 존재하지 않으면 긴 포스팅 파일의 끝에 색인정보를 추가한다.
2) 색인정보의 추가 및 변경 : 기존의 색인정보를 추출하여 문서리스트를 추가 또는 변경하고 저장한다. 기존에 할당된 공간에 저장이 가능하면 그대로 저장하고 그렇지 않으면 전체 크기에 비례하는 여유공간을 추가로 할당한 후에 빈공간 정보 관리기(106)를 통해 긴 포스팅 파일내의 빈 공간을 확인하여 적절한 빈 공간이 존재하면 저장하고 적절한 빈공간이 존재하지 않으면 긴 포스팅 파일의 끝에 색인정보를 추가한다. 기존 정보가 저장된 공간은 긴 포스팅 파일내에 빈 공간으로 남게 되므로 빈공간 정보 관리기(106)에 알려준다.
3) 색인정보의 삭제 : 기존의 색인 정보를 삭제하고 그로 인해 생기는 긴 포스팅 파일내의 빈공간에 대한 정보를 빈공간 정보 관리기(106)에 알려준다.
다음으로, 구조정보 관리기(103)에 대하여 상세히 살펴보면 다음과 같다.
구조정보 파일에는 B+ 트리에 저장된 단순명사가 구성명사로 쓰인 복합명사들의 구조정보와 그 발생 문서의 빈도수를 저장하고 있다. B+ 트리에 단순명사 "대한"이 저장되어 있고 "대한"이 "대한경제", "대한민국", "대한경제뉴스"라는 복합명사의 구성명사로 쓰인 경우에 구조정보에는 "대한"과 "대한"의 발생문서 빈도, "대한_경제"와 "대한_경제"의 발생문서 빈도, ... 가 저장된다. 이렇게 저장된 구조정보는 "대한"이 구성명사로 쓰인 복합명사의 검색시 사용된다.
이때, 구조정보 관리기(103)는 다음과 같은 기능을 수행한다.
1) 구조정보의 저장 : 새로운 단순명사에 대해 그 단순명사가 복합명사로 사용된 구조정보를 기록한다. 이때, 빈공간 정보 관리기(106)를 통해 적절한 빈공간이 있으면 저장하고 그렇지 않은 경우에는 구조정보 파일의 끝에 추가한다.
2) 구조정보의 변경 : 기존에 발생한 복합명사의 발생 빈도수를 조정하는 작업을 수행한다.
3) 구조정보의 추가 : 기존의 구조정보에 추가된 새로운 구조정보를 기록한다. 이때, 빈공간 정보 관리기(106)를 통해 적절한 빈공간이 있으면 저장하고 그렇지 않은 경우에는 구조정보 파일의 끝에 추가하고, 빈공간은 빈공간 정보 관리기(106)에 알려준다.
4) 구조정보의 삭제 : 구조정보를 삭제하는 기능을 하고, 이 경우에 빈공간 정보 관리기(106)에 빈공간의 정보를 알려준다.
다음으로, 빈공간 정보 관리기(106)에 대하여 상세히 살펴보면 다음과 같다.
저장구조가 생성하는 파일중 파일내의 빈번한 공간 이동으로 인하여 발생하는 빈공간을 효율적으로 관리하는 작업을 수행한다. 대상은 긴 포스팅 정보 파일과 구조정보 파일로 자료의 이동이나 삭제로 인한 빈공간에 대한 정보를 각각의 테이블에 저장한 후에 색인정보가 추가되는 경우에 우선 빈공간 정보 관리기(106)를 통하여 빈공간에 저장될 수 있는지를 살펴보게 된다.
이때, 빈 공간 정보 관리기(106)는 다음과 같은 기능을 수행한다.
1) 테이블 관리 : 긴 포스팅 정보 파일과 구조정보 파일에 대한 추가나 삭제로 인해 생기는 빈공간의 정보를 관리하기 위해 각각의 테이블을 생성 유지한다.
2) 테이블 저장 : 메모리상에 올라온 빈공간에 대한 테이블 정보를 지정된 파일에 저장한다.
3) 테이블 정보를 로드 : 지정된 파일에서 긴 포스팅 정보 파일과 구조정보파일에 대한 빈공간 정보가 저장된 테이블을 메모리로 로드한다.
4) 빈공간 삽입 : 테이블에 긴 포스팅 정보 파일과 구조정보 파일내의 빈공간에 대한 정보를 삽입한다.
5) 빈공간 삭제 : 포스팅 정보 관리기(109)나 구조정보 관리기(103)가 요구하는 적당한 빈공간이 존재하면 알려주고 테이블내 빈공간에 대한 정보를 삭제한다.
다음으로, 단어위치정보 관리기(107)에 대하여 상세히 살펴보면 다음과 같다.
단어의 위치정보 파일은 단 하나의 파일로 관리되며, 색인정보의 저장 파일이나 위치에 따라 불변하므로 기존의 단어위치정보 파일의 구조를 그대로 유지한다.
이때, 단어위치정보 관리기(107)는 다음과 같은 기능을 수행한다.
1) 단어위치정보의 저장 : 색인어가 발생한 문장의 위치와 문장내 단어의 위치정보를 저장한다.
2) 단어위치정보의 인출 : 검색기가 단어의 위치정보를 요구하는 경우에 단어의 위치정보를 인출해 준다.
도 2 는 본 발명에 따른 정보 파일의 일실시예 구조도로서, 하부저장구조 관리장치를 통해 실제 생성된 정보 파일들의 내부 구조 및 정보를 통한 연결 관계를 보여준다.
먼저, 용어정보(B+ 트리 정보) 파일은 단순명사, 단순명사로 구성된 복합명사의 개수, 포스팅 파일의 종류, 구조정보 파일내의 정보저장위치 및 포스팅 파일내의 정보저장위치의 구조를 가진다.
그리고, 구조정보 파일은 복합명사(형태 : 단순명사_단순명사_...) 및 복합명사가 발생한 문서 빈도수의 구조를 가진다.
그리고, 짧은 포스팅 정보 파일은 버켓내 단순명사의 개수, 단순명사, 단순명사가 발생한 총 문서의 빈도수, 문서번호와 필드정보와 문서내 발생빈도, 단어위치정보 파일내의 정보위치 및 여유공간의 구조를 가진다.
그리고, 긴 포스팅 정보 파일은 단순명사, 단순명사가 발생한 총 문서의 빈도수, 문서번호, 필드정보, 문서내 발생빈도, 단어위치정보 파일내의 정보위치 및 여유공간의 구조를 가진다.
마지막으로, 단어위치정보 파일은 문서내 색인어가 발생한 문장 위치 및 문장내 색인어가 발생한 단어 위치의 구조를 가진다.
도 3a 는 본 발명에 따른 정보 저장 과정의 전체 일실시예 흐름도이고, 도 3b 는 도 3a 의 색인정보 저장 과정(340)의 상세 구성도이다.
여기서는 색인 대상 문서가 하부저장구조에 저장된다. 그리고, 색인문서를 대상으로 형태소 분석기를 거쳐 생성된 색인어 집합중 복합명사는 분리과정을 거쳐하부색인저장구조가 요구하는 형태로 변환되어 하부구조에 저장된다. 그리고, 추가되는 문서에 대한 처리는 같은 과정이 반복된다. 그 일예를 도 3 을 참조하여 상세히 살펴보면 다음과 같다.
먼저, 색인정보를 구성한다(310). 즉, 형태소 분석기를 통해 추출된 후보 색인어에 대해 주제 색인어로서의 의미가 없는 단어를 제거하고, 복합명사를 분해하여 그 구성정보를 추출하며, 영문과 한자에 대한 처리를 하게 된다. 이때, 영문의 경우에는 어간추출(stemming) 과정과 대소문자를 병합(unification)하는 과정을 거치게 되고, 한자는 한글로 변환되어 처리된다. 또한, 하부저장구조에 요구되는 정보를 원문을 대상으로 추출하여 색인정보파일을 구성한다.
이후, 복합명사의 색인정보를 구성한다(320). 즉, 복합명사를 대상으로 추출된 색인정보는 복합명사를 구성하는 단순명사의 수만큼 중복되는데, 이때 그 구성명사를 기준으로 정렬될 수 있도록 하기 위해 정렬키로 사용될 단순명사를 복합명사의 색인정보 앞에 덧붙이게 된다. 또한 복합명사는 구조 정보파일에 기록되는 형태인 "단순명사_단순명사_.."로 변환된다.
이후, 색인정보를 재구성한다(330). 즉, 단순명사의 색인정보가 저장된 임시 파일을 정렬한 내용과 복합명사의 구성명사별로 재구성된 임시 파일을 대상으로 하부저장구조가 요구하는 형태의 색인정보를 생성한다. 이렇게 생성된 정보는 색인 정보를 저장하는데 필요한 초기화 정보는 물론 하나의 색인어에 대한 정보저장을 한번에 처리함으로써 저장에 소요되는 시간을 단축시켜 준다.
다음으로, 색인정보를 저장한다(340). 즉, 도 3b 에 도시된 바와 같이, 최종생성된 색인정보 파일을 대상으로 색인어별로 색인정보를 저장한다. 발생빈도가 높은 색인정보와 복합명사의 구조정보는 빈공간 정보 파일을 참조하여 파일내의 저장위치를 결정하고, 이때 변경된 빈공간 정보가 있으면 빈공간 정보 파일에 저장한다(341,342). 색인문서의 정보는 포스팅 파일, 복합명사의 구조정보는 구조정보 파일, 색인어의 위치정보는 단어 위치정보 파일에 저장한다(343).
마지막으로, 새로 추가되는 문서가 있는지를 확인하여(350) 새로 추가되는 문서가 있으면 색인정보 구성 과정(310)부터 반복 수행하고, 새로 추가되는 문서가 없으면 정보 저장을 종료한다.
도 4 는 본 발명에 따른 정보 검색 과정의 일실시예 흐름도로서, 복합명사 질의를 처리하여 정보를 검색하는 과정을 나타낸다.
이때, 단순명사의 경우에는 일반적인 저장구조와 같은 방법으로 처리되나, 복합명사의 경우에는 복합명사를 구성명사로 분리하는 과정과 구조정보를 이용하여 검색결과를 재배치하는 과정이 요구된다. 그 일예를 도 4 를 참조하여 상세히 살펴보면 다음과 같다.
먼저, 질의가 복합명사인 경우에 질의를 단순명사로 분리한다(410). 즉, 질의가 복합명사인 경우에 형태소 분석기를 통하여 단순명사로 분리한다. 이때, 사용되는 형태소 분석기는 색인정보 추출시 사용되는 형태소 분석기와 동일하다.
이후, 저장정보를 추출한다(420). 즉, 분리된 각각의 단순명사를 대상으로 B+ 트리를 검색하여 저장정보를 추출한다. 저장정보는 색인어에 대한 색인정보와 구조정보의 저장위치를 포함하고 있다.
다음으로, 색인문서 정보를 추출한다(430). 즉, 추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출한다. 이때, 위치정보에 대한 요구가 있는 경우에는 각 색인문서의 위치정보도 추출된다.
이후, 구조정보를 추출한다(440). 즉, 각각의 단순명사에 대해 구조정보를 추출하게 된다.
다음으로, 검색결과를 생성한다(450). 즉, 단순명사별로 추출된 색인정보와 구조정보를 이용하여 질의에서 요구된 형태대로 검색결과를 제시하는데, 이때 구조정보가 검색결과의 순위조정에 반영되어 진다.상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기와 같은 본 발명은, 동적으로 유입되는 정보를 바로 처리하기 위해 전체적인 재색인없이 기존의 색인구조에 정보를 추가함은 물론 각 색인정보의 크기에 따라 저장공간을 유연하게 할당함으로써, 공간의 효율성을 높일 수 있는 효과가 있다.
또한, 본 발명은 한국어의 특성을 고려한 복합명사의 부분정합을 지원하기 위해 설계된 하부구조가 정보검색 시스템에 사용되는 경우에 새로운 기능을 지원할뿐만 아니라 저장과 검색의 효율성을 높일 수 있는 효과가 있다.
또한, 본 발명은 한국어 텍스트 검색에 있어서 저장 구조를 통하여 복합명사의 출현빈도가 높은 한국어 특성을 반영함으로써, 검색에 따른 속도와 신뢰도를 향상시킬 수 있는 효과가 있다.

Claims (18)

  1. 정보검색 시스템의 하부저장구조 관리장치에 있어서,
    구조정보 관리수단으로 용어의 구조정보에 대한 저장을 요구하여 저장된 구조정보의 시작위치정보를 전달받아 저장하고, 포스팅 정보 관리수단으로 색인문서에 대한 정보의 저장을 요구하여 저장된 파일의 종류와 위치정보를 전달받아 저장하기 위한 용어정보 관리수단;
    상기 용어정보 관리수단으로부터 용어의 구조정보에 대한 저장을 요구받으면 빈공간 정보 관리수단으로부터 빈공간의 존재여부를 확인받아 해당 빈공간에 저장하고 그 시작위치정보를 상기 용어정보 관리수단으로 전달하며, 삭제나 자료이동으로 발생한 빈공간 발생정보를 상기 빈공간 정보 관리수단으로 전달하기 위한 상기 구조정보 관리수단;
    상기 구조정보 관리수단 또는 상기 포스팅 정보 관리수단으로부터 빈공간에 대한 정보를 요구받아 해당 수단으로 전달하고 그 빈공간 정보를 삭제하며, 상기 구조정보 관리수단 또는 상기 포스팅 정보 관리수단으로부터의 빈공간 발생정보에 따라 빈공간 정보를 갱신하기 위한 상기 빈공간 정보 관리수단;
    상기 포스팅 정보 관리수단으로부터 용어의 위치정보를 전달받아 저장하고, 저장된 위치정보를 상기 포스팅 정보 관리수단으로 전달하기 위한 단어위치정보 관리수단; 및
    상기 용어정보 관리수단으로부터 색인문서에 대한 정보의 저장을 요구받으면상기 빈공간 정보 관리수단으로부터 빈공간에 대한 정보를 확인받아 해당 빈공간에 저장하고 저장된 파일의 종류와 위치정보를 상기 용어정보 관리수단으로 전달하며, 삭제나 자료이동으로 발생한 빈공간 발생정보를 상기 빈공간 정보 관리수단으로 전달하며, 상기 단어위치정보 관리수단으로 용어의 위치정보에 대한 저장을 요구하여 저장된 위치정보를 전달받아 저장하기 위한 상기 포스팅 정보 관리수단
    을 포함하여 이루어진 정보검색 시스템의 하부저장구조 관리장치.
  2. 제 1 항에 있어서,
    상기 포스팅 정보 관리수단은,
    색인문서의 크기에 따라 긴 포스팅 정보와 짧은 포스팅 정보로 구분하여 긴 포스팅 정보 데이터베이스와 짧은 포스팅 정보 데이터베이스에 색인문서에 대한 정보를 저장하는 이중구조로 이루어진 것을 특징으로 하는 정보검색 시스템의 하부저장구조 관리장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 포스팅 정보 관리수단은,
    색인어 정보를 이용하여 짧은 포스팅 파일에 적정한 개수의 버켓을 할당하는 초기 버켓 할당 기능, 하나의 복합명사를 구성하고 있는 단순명사에 대한 문서리스트를 그룹화하여 하나의 버켓에 저장하는 색인어 버켓 지정 기능, 할당된 버켓에 색인정보를 저장하는 색인정보 저장 기능, 버켓에 저장되는 정보가 지정된 버켓의 크기를 초과하는 경우에 해당 버켓에서 가장 긴 문서 리스트를 가지는 색인정보를 긴 포스팅 정보 관리수단으로 전송하는 버켓내 저장공간 조정 기능, 해당 색인어가 저장된 버켓의 문서리스트를 추가 또는 변경하는 기존 색인정보 추가 및 변경 기능, 및 색인어의 정보를 버켓 내에서 삭제하는 기존 색인정보 삭제 기능을 수행하는 짧은 포스팅 정보 관리수단; 및
    초기 색인정보와 그 크기에 비례하는 여유공간을 확인하여 적절한 빈 공간이 존재하면 저장하고 적절한 빈공간이 존재하지 않으면 긴 포스팅 파일의 끝에 색인정보를 추가하는 색인정보 저장 기능, 기존의 색인정보를 추출하여 문서리스트를 추가 또는 변경하고 저장하는 색인정보 추가 및 변경 기능, 및 기존의 색인 정보를 삭제하는 색인정보 삭제 기능을 수행하는 상기 긴 포스팅 정보 관리수단
    을 포함하여 이루어진 정보검색 시스템의 하부저장구조 관리장치.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 구조정보 관리수단은,
    단순명사에 대해 그 단순명사가 복합명사로 사용된 구조정보를 기록하는 구조정보 저장 기능, 기존에 발생한 복합명사의 발생 빈도수를 조정하는 구조정보 변경 기능, 기존의 구조정보에 추가된 새로운 구조정보를 기록하는 구조정보 추가 기능 및 구조정보를 삭제하는 구조정보 삭제 기능을 수행하는 것을 특징으로 하는 정보검색 시스템의 하부저장구조 관리장치.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 빈 공간 정보 관리수단은,
    긴 포스팅 정보 파일과 구조정보 파일에 대한 추가나 삭제로 인해 생기는 빈공간의 정보를 관리하기 위해 각각의 테이블을 생성 유지하는 테이블 관리 기능, 메모리상에 올라온 빈공간에 대한 테이블 정보를 지정된 파일에 저장하는 테이블 저장 기능, 지정된 파일에서 긴 포스팅 정보 파일과 구조정보파일에 대한 빈공간 정보가 저장된 테이블을 메모리로 로드하는 테이블 정보 로드 기능, 테이블에 긴 포스팅 정보 파일과 구조정보 파일내의 빈공간에 대한 정보를 삽입하는 빈공간 삽입 기능 및 상기 포스팅 정보 관리수단이나 상기 구조정보 관리수단이 요구하는 빈공간이 존재하면 알려주고 테이블내 빈공간에 대한 정보를 삭제하는 빈공간 삭제 기능을 수행하는 것을 특징으로 하는 정보검색 시스템의 하부저장구조 관리장치.
  6. 정보검색 시스템에 적용되는 정보 저장 방법에 있어서,
    후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 단계;
    상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 단계;
    상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 단계; 및
    상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 단계
    를 포함하여 이루어진 정보 저장 방법.
  7. 제 6 항에 있어서,
    새로 추가되는 문서가 있는지를 확인하는 제 5 단계; 및
    상기 제 5 단계의 확인 결과, 새로 추가되는 문서가 있으면 상기 제 1 단계부터 반복 수행하고, 새로 추가되는 문서가 없으면 정보 저장을 종료하는 제 6 단계
    를 더 포함하여 이루어진 정보 저장 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 제 1 단계는,
    형태소 분석기를 통해 추출된 후보 색인어에 대해 주제 색인어로서의 의미가 없는 단어를 제거하는 과정;
    복합명사를 분해하여 구성정보를 추출하는 과정;
    영문에 대하여 어간추출(stemming)과 대소문자를 병합(unification)하고, 한자를 한글로 변환하는 과정; 및
    하부저장구조에 요구되는 정보를 원문을 대상으로 추출하여 색인정보파일을 구성하는 과정
    을 포함하여 이루어진 정보 저장 방법.
  9. 제 6 항 또는 제 7 항에 있어서,
    상기 제 2 단계는,
    복합명사를 대상으로 추출된 색인정보가 복합명사를 구성하는 단순명사의 수만큼 중복되므로, 구성명사를 기준으로 정렬될 수 있도록 하기 위해 정렬키로 사용될 단순명사를 복합명사의 색인정보 앞에 부가하는 것을 특징으로 하는 정보 저장 방법.
  10. 제 6 항 또는 제 7 항에 있어서,
    상기 제 3 단계는,
    단순명사의 색인정보가 저장된 임시 파일을 정렬한 내용과 복합명사의 구성명사별로 재구성된 임시 파일을 대상으로 하부저장구조가 요구하는 형태의 색인정보를 생성하는 것을 특징으로 하는 정보 저장 방법.
  11. 제 6 항 또는 제 7 항에 있어서,
    상기 제 4 단계는,
    최종 생성된 색인정보 파일을 대상으로 긴 포스팅 파일과 구조정보 파일내의 적절한 빈공간 유무를 확인하고 빈공간 정보 변경 여부에 따라 빈공간에 대한 정보를 빈공간 정보 파일에 저장하는 과정;
    색인정보의 크기에 따라 이중구조의 포스팅 파일에 저장하는 과정;
    단순명사가 구성명사로 사용된 복합명사의 구조정보를 구조정보 파일에 저장하는 과정; 및
    단어의 위치정보를 단어 위치정보 파일에 저장하는 과정
    을 포함하여 이루어진 정보 저장 방법.
  12. 정보검색 시스템에 적용되는 정보 검색 방법에 있어서,
    복합명사 질의를 단순명사로 분리하는 제 1 단계;
    분리된 단순명사를 이용하여 저장정보를 추출하는 제 2 단계;
    추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 3 단계;
    각 단순명사에 대해 구조정보를 추출하는 제 4 단계; 및
    각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 5 단계
    를 포함하여 이루어진 정보 검색 방법.
  13. 제 12 항에 있어서,
    상기 제 3 단계는,
    위치정보에 대한 요구가 있는 경우에 각 색인문서의 위치정보를 추출하는 과정을 더 포함하여 이루어진 정보 검색 방법.
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 제 5 단계는,
    구조정보를 검색결과의 순위조정에 반영하는 것을 특징으로 하는 정보 검색 방법.
  15. 정보검색 시스템에 적용되는 정보 저장/검색 방법에 있어서,
    후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 단계;
    상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 단계;
    상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 단계;
    상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 단계;
    복합명사 질의를 단순명사로 분리하는 제 5 단계;
    분리된 단순명사를 이용하여 저장정보를 추출하는 제 6 단계;
    추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 7 단계;
    각 단순명사에 대해 구조정보를 추출하는 제 8 단계; 및
    각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 9 단계
    를 포함하여 이루어진 정보 저장/검색 방법.
  16. 마이크로 프로세서를 구비한 정보검색 시스템에,
    후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 기능;
    상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 기능;
    상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 기능; 및
    상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  17. 마이크로 프로세서를 구비한 정보검색 시스템에,
    복합명사 질의를 단순명사로 분리하는 제 1 기능;
    분리된 단순명사를 이용하여 저장정보를 추출하는 제 2 기능;
    추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 3 기능;
    각 단순명사에 대해 구조정보를 추출하는 제 4 기능; 및
    각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  18. 마이크로 프로세서를 구비한 정보검색 시스템에,
    후보 색인어 중 단순명사에 대해서는 기존의 방식으로, 복합명사에 대해서는 단순명사로 분해하여 색인정보를 구성하는 제 1 기능;
    상기 복합명사의 색인정보에 정렬키로 사용되는 단순명사를 부가하여 복합명사의 색인정보를 구성하는 제 2 기능;
    상기 구성된 색인정보의 임시파일을 대상으로 색인정보를 재구성하는 제 3 기능;
    상기 재구성된 색인정보를 이중구조 형태의 파일에 저장하는 제 4 기능;
    복합명사 질의를 단순명사로 분리하는 제 5 기능;
    분리된 단순명사를 이용하여 저장정보를 추출하는 제 6 기능;
    추출된 색인정보의 위치정보를 이용하여 색인문서 리스트를 추출하는 제 7 기능;
    각 단순명사에 대해 구조정보를 추출하는 제 8 기능; 및
    각 단순명사별로 추출된 색인정보와 구조정보를 이용하여 검색결과를 생성하는 제 9 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990022432A 1999-06-16 1999-06-16 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법 KR100353112B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990022432A KR100353112B1 (ko) 1999-06-16 1999-06-16 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990022432A KR100353112B1 (ko) 1999-06-16 1999-06-16 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법

Publications (2)

Publication Number Publication Date
KR20010002567A KR20010002567A (ko) 2001-01-15
KR100353112B1 true KR100353112B1 (ko) 2002-09-18

Family

ID=19592637

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990022432A KR100353112B1 (ko) 1999-06-16 1999-06-16 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법

Country Status (1)

Country Link
KR (1) KR100353112B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003006216A (ja) * 2001-06-26 2003-01-10 Sony Corp 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム
KR20040039691A (ko) * 2002-11-04 2004-05-12 엘지전자 주식회사 정보 검색 시스템의 인덱싱 방법
KR100789407B1 (ko) 2005-11-25 2007-12-28 김주원 개인도서의 관리 및 검색 방법
KR101247346B1 (ko) * 2012-03-09 2013-03-26 윤기오 사전 검색 서비스 시스템 및 방법
KR102212281B1 (ko) * 2018-04-03 2021-02-04 주식회사 아이피스트 텍스트 마이닝을 이용한 tbrm 생성 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20010002567A (ko) 2001-01-15

Similar Documents

Publication Publication Date Title
US7620624B2 (en) Systems and methods for indexing content for fast and scalable retrieval
US8600997B2 (en) Method and framework to support indexing and searching taxonomies in large scale full text indexes
JP2708331B2 (ja) ファイル装置およびデータファイルアクセス方法
US9208031B2 (en) Log structured content addressable deduplicating storage
KR100285265B1 (ko) 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US20060041606A1 (en) Indexing system for a computer file store
US20050198076A1 (en) Systems and methods for indexing content for fast and scalable retrieval
US20040205044A1 (en) Method for storing inverted index, method for on-line updating the same and inverted index mechanism
US8099401B1 (en) Efficiently indexing and searching similar data
US8099421B2 (en) File system, and method for storing and searching for file by the same
Held et al. B-trees re-examined
US7844596B2 (en) System and method for aiding file searching and file serving by indexing historical filenames and locations
US8612717B2 (en) Storage system
KR100353112B1 (ko) 정보검색 시스템의 하부저장구조 관리장치 및 그 정보 저장/검색 방법
Zhang et al. Efficient search in large textual collections with redundancy
KR20040039691A (ko) 정보 검색 시스템의 인덱싱 방법
van Staereling et al. Efficient, modular metadata management with loris
CN114416676A (zh) 数据处理方法、装置、设备和存储介质
US6076089A (en) Computer system for retrieval of information
Henry Hierarchical structure for data management
KR100493399B1 (ko) 정보검색 관리시스템 및 그 방법
Frieder et al. On scalable information retrieval systems
Büttcher Multi-user file system search
Zabback et al. Office documents on a database kernel—filing, retrieval, and archiving
Turba Length-segmented lists

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee