KR100295354B1

KR100295354B1 - 문서 정보 검색 시스템

Info

Publication number: KR100295354B1
Application number: KR1019970021247A
Authority: KR
Inventors: 미쯔아키 이나바; 히데키 야스카와; 나오히코 노구치; 유지 간노; 미쯔히로 사토; 마사코 노모토
Original assignee: 모리시타 요이찌; 마쯔시다덴기산교 가부시키가이샤
Priority date: 1996-05-29
Filing date: 1997-05-28
Publication date: 2001-09-17
Also published as: CN1172994A; DE69731142D1; JPH1049549A; US6154737A; KR970076328A; EP0810535A2; EP0810535B1; EP0810535A3; CN1133127C; DE69731142T2

Abstract

사용자가 입력한 검색 요구와 일치하여 문서를 탐색하고 또한 문서와 검색 요구간의 일치 정도에 따라 문서를 정렬하는 문서 검색 시스템이 제공된다. 문서 검색 시스템에서, 단어 빈도 계산부는 단어가 나타나는 문서의 수와 문서에서 그 단어의 발생 빈도를 찾아 그 단어에 대한 가중치 매개변수를 구하고, 빈도 스코어(score) 계산부는 단어 빈도 계산부의 출력을 근거로 빈도 스코어를 구한다. 부가하여, 단어 동시 발생 관계 점검부는 문서 및 검색 요구의 단어 동시 발생 관계를 점검하고, 동시 발생 스코어 계산부는 그들간의 일치 정도로부터 동시 발생 스코어를 계산한다. 문서 스코어 계산부는 빈도 스코어와 동시 발생 스코어를 근거로 문서 스코어를 계산한다. 문서는 문서 스코어의 순서로 정렬되어 사용자에게 디스플레이된다.

Description

문서 검색 시스템

본 발명은 문서 검색 시스템에 관한 것으로, 특히 많은 양의 문서 데이터 중에서 사용자가 입력한 검색 요구에 대응하는 또는 그와 일치하는 문서를 탐색하고 그들간의 일치 정도를 근거로 문서를 정렬 또는 분류하는 문서 검색 시스템에 관한 것이다.

거대한 양으로 되는 문서 데이터 베이스의 규모의 증가로 종래의 키워드(key word) 탐색 기술이나 포괄적인 검색 기술을 이용해 타깃 문서를 쉽게 탐색하는데 어려움이 자주 발생되므로, 고속으로 검색 결과를 제공할 수 있더라도 총 검색 시간의 감소는 항상 가능한 것은 아니다. 결과의 문서 수에서의 감소를 이루는 한 가능한 방법은 부가적으로 또 다른 키워드를 사용하는 것과 같은 지원 범위를 좁히는 것이지만, 필요한 문서를 놓치지 않도록 적절한 키워드를 부가하는데서 어려움을 겪게 된다. 이러한 이유로, 탐색되는 문서에서 문자열(단어)의 존재 여부에 주의를 기울이는 것에 부가하여, 고효율성으로 타깃 문서를 검색하도록 발생 빈도를 근거로 탐색된 문서를 정렬(순차화)하는 주목할만한 방법이 공지되어 있다.

제27도는 검색 결과를 순차화하는 종래 문서 검색 시스템의 배열을 도시하는 블록도이다. 제27도에 도시된 바와 같이, 문서 검색 시스템은 검색하의 문서 데이터(3101), 사전(3102), 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(3103), 문서 데이터(3101)로부터 단어 발생 빈도 정보를 얻기 위한 단어 빈도 정보 추출 수단(3104), 사용자가 입력한 검색 요구를 수신하는 검색 요구 입력 수단(3105), 단어 빈도 인덱스(3103)로부터 단어 발생 빈도를 계산하는 단어 빈도 계산 수단(3106), 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단, 빈도 스코어를 근거로 각 문서와 검색 요구간의 일치 정도를 나타내는 문서 스코어를 계산하는 문서 스코어 계산 수단(3108), 문서 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(3109), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(3110)으로 구성된다.

제28도는 검색 결과를 순차화하는 종래 문서 검색 시스템의 검색 절차를 도시하는 흐름도이다. 먼저, 검색 이전에 단어 빈도 정보 추출 수단(3104)은 단어 빈도 인덱스가 앞서 구성된 단어 빈도 인덱스(3103)에 발생하는 문서의 수 및 문서의 총 수와 함께 실제로 출력되는 단어 빈도 정보를 얻도록 문서 데이터(3101)를 참조한다. 단계(4201)에서, 검색을 실행하려하는 사용자는 검색 입력 수단(3105)을 통해 검색 요구를 입력하고, 단계(4202)에서는 단어 빈도 계산 수단(3106)이 문서 Dj(j=1, 2, ..., ND)에서 검색 요구 입력 수단(3705)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi (i= 1, 2, ..., NW이고, 여기서 NW는 검색 요구에 포함된 사전 단어의 수에 대응한다)의 발생 빈도 TFij를 계산하고 또한 그 단어가 나타나는 문서의 수 NDi를 계산하도록 단어 빈도 인덱스(3103)를 참조한다.

더욱이, 단계(4203)에서는 빈도 스코어 계산 수단(3107)이 단어 빈도 계산 수단(3106)의 출력을 근거로 식(1)에 따라 문서 Dj의 빈도 스코어 SFj를 계산한다.

여기서, IDFi는 모든 문서에서 단어 Wi의 바이어스(bias)를 나타내는 매개 변수이다.

또한, 단계(4204)에서는 문서 스코어 계산 수단(3108)이 빈도 스코어 계산 수단(3107)으로부터 출력된 문서 Dj의 빈도 스코어 SFj를 근거로 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 구한다. 종래의 검색 시스템에서, 문서 스코어 Sj는 식(2)로부터 발견되는 바와 같이 빈도 스코어 SFj이다.

더욱이, 단계(4205)에서는 문서 정렬 수단(3109)이 문서 스코어 계산 수단(3108)에서 계산된 문서 스코어의 순서로 검색 결과를 재배열하고 검색 결과 디스플레이 수단(3110)이 사용자에게 검색 결과를 도시하는 단계(4206)로 이어진다.

그러나, 상술된 종래의 배열에 따라, 제29도에 도시된 바와 같이 검색 요구에 포함되는 한 단어가 매우 높은 빈도로 발생되는 경우에, 사용자의 검색 의도에 반한 문서조차도 더 높은 순서로 정렬되는 점에서 문제가 일어난다. 부가하여, 검색하에서 문서를 정렬하는데 사용되는 스코어의 계산이 필드에 관계없이 문서 단위로 이루어지므로, 논문의 서두나 특허 출원서에서의 발명의 제목과 같은 정보가 실질적으로 사용되는 것이 어렵게 된다.

그 외에, 다양한 문제점이 있다: 다수의 검색 요구를 하는 경우, 이러한 검색 요구에 우선 순위가 부여될 수 없어 사용자의 요구를 탄력적으로 표현하는 것이 어렵고; 필요한 모든 단어를 포함하는 단어의 그룹이 검색 요구로 부여되는 경우, 한 단어가 매우 높은 빈도로 발생되면, 그 문서는 높은 순서로 되고; 또한 검색 요구로 폐쇄된 조건에서 발생을 요구하는 단어의 그룹을 표현하고 그를 탐색하는데 어려움을 겪는다.

그러므로, 본 발명의 목적은 사용자로부터 검색 요구를 탄력적으로 수신하고 거절(불필요한 데이터)되지 않는 정확한 검색 결과를 제공하도록 검색 및 정렬 동작을 행하며 검색 결과의 범위를 줄이는 것과 같은 방법으로 전체적으로 검색 시간을 짧게 할 수 있는 문서 검색 시스템을 제공하는 것이다.

제1도는 본 발명의 실시예 1에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제2도는 본 발명의 실시예 1에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제3도는 본 발명의 실시예 2에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제4도는 본 발명의 실시예 2에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제5도는 본 발명의 실시예 3에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제6도는 본 발명의 실시예 3에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제7도는 본 발명의 실시예 4에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제8도는 본 발명의 실시예 4에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제9도는 본 발명의 실시예 5에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제10도는 본 발명의 실시예 5에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제11도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제12도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제13도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제14도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제15도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제16도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제17도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제18도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제19도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제20도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제21도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 배열을 도시한 블록도.

제22도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제23도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제24도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제25도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제26도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제27도는 종래의 문서 검색 시스템의 배열을 도시한 블록도.

제28도는 종래의 문서 검색 시스템의 검색 절차를 도시한 흐름도.

제29도는 종래의 문서 검색 시스템의 검색예를 설명한 도면.

* 도면의 주요부분에 대한 부호의 설명

101 : 문서 데이터 102 : 사전

103 : 단어 빈도 인덱스 104 : 동시 단어 발생 인덱스

105 : 단어 빈도 정보 추출 수단 106 : 단어 동시 발생 정보 추출 수단

107 : 검색 요구 입력 수단 108 : 단어 빈도 계산 수단

109 : 빈도 스코어 계산 수단 110 : 단어 동시 발생 정보 추출 수단

본 발명의 한 특성에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 보유하는 인덱스, 다수의 검색 요구 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 존재하는가를 보기 위한 단어 동시 발생 관계 점검 수단을 구비하고, 다른 우선도를 갖는 다수의 검색 요구는 사용자에 의해 입력되고, 단어 동시 발생 관계가 일어나는 타깃 문서에 부여되는 스코어는 증가되고, 또한 그 문서는 우선적으로 디스플레이된다. 이는 사용자가 원하는 문서의 정확한 검색을 허용한다.

본 발명의 또 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 정보 탐색 결과를 정렬하는 문서 검색 시스템에서는 사용자가 다른 우선도(우선 순위)를 갖는 다수의 검색 요구를 입력하도록 다수의 검색 요구 입력 수단이 제공되고, 그 결과로 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.

본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서의 다수의 필드 각각에 대해 인덱스 정보를 갖고, 사용자가 검색된 문서의 정렬에 영향을 주는(가중치를 주는) 필드의 비율을 지정하는 것을 허용하도록 필드 비율 입력 수단을 포함한다. 이는 사용자가 필드마다 타깃 문서의 정렬에 영향을 주는 비율을 지정하는 것을 허용하고, 그 결과로 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.

본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서도 또한 나타나는 다수의 검색 요구의 단어 수를 계산하도록 발생 단어 수 계산 수단을 포함한다. 검색 요구에 포함되는 다수의 단어가 타깃 문서에서 동시에 나타나는 경우, 검색된 타깃 문서에 부여되는 스코어는 증가되고 그 타깃 문서는 우선적으로 디스플레이된다. 그래서, 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.

본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 위치와 단어 발생 빈도를 포함하는 인덱스와, 근접 정도에 따라 타깃 문서에 부여되는 스코어가 증가되고 그 타깃 문서가 우선적으로 디스플레이되도록 타깃 문서에서 검색 요구의 다수의 단어 발생 위치의 근접(접근) 정도를 계산하는 단어 근접 계산 수단을 구비한다. 따라서, 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.

더욱이, 본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타내는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 단어 빈도 인덱스에 저장하도록 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단; 단어 동시 발생 인덱스에 저장하도록 문서 데이터로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서 데이터의 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단을 통해 얻어진 단어 발생 빈도를 근거로 검색 요구와 문서간의 일치 정도를 나타내는 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단; 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 단어 동시 발생 정보 추출 수단으로부터 출력되고 검색 요구에 포함되는 단어 동시 발생 관계가 얼마나 많이 문서에서 나타나는가를 보도록 단어 동시 발생 인덱스를 참조하는 단어 동시 발생 관계 점검 수단; 검색 요구와 문서에 공통으로 나타나는 단어 동시 발생 관계량을 근거로 문서의 동시 발생 스코어를 계산하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단의 출력과 동시 발생 스코어 계산 수단의 출력을 근거로 문서 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 단어 빈도 인덱스에 저장하도록 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단; 사용자가 우선적으로 다루어질 제 1 검색 요구를 입력하는 것을 허용하는 1차 검색 요구 입력 수단; 사용자가 제 1 검색 요구보다 더 낮은 우선도를 갖는 제 2 검색 요구를 입력하는 것을 허용하는 2차 검색 요구 입력 수단; 문서 데이터의 문서에서 제 1 및 제 2 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 제 1 및 제 2 검색 요구 중 하나와 문서간의 일치 정도를 나타내는 문서의 빈도 스코어를 계산하기 위한 빈도 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어를 근거로 제 1 및 제 2 검색 요구와 문서를 나타내는 문서의 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단: 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 필드마다 타깃 문서에서 사전단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 이를 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 사용자가 검색 요구를 입력하는 것을 허용하는 검색 요구 입력 수단; 사용자가 문서 스코어에 대한 문서의 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 것을 허용하는 필드 비율 입력 수단; 필드마다 문서에서 사전 단어의 발생 빈도를 얻기 위해 검색 요구에 포함된 사전 단어에 관하여 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 각 문서의 필드와 검색 요구간의 일치 정보를 나타내는 빈도 스코어를 계산하기 위한 필드 빈도 스코어 계산 수단; 필드 빈도 스코어 계산 수단으로부터 출력된 필드의 단어 발생 빈도와 필드 비율 입력 수단에 입력된 비율을 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단, 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 유도하고 또한 단어 빈도 인덱스에 이를 저장하는 단어 빈도 정보 추출 수단; 사용자가 정보 탐색 요구를 입력하는 정보 탐색 요구 입력 수단; 문서 데이터의 문서에서 타깃 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 계산하기 위한 빈도 스코어 계산 수단; 검색 요구에 포함되는 단어가 문서에서 얼마나 많이 나타나는가를 보도록 단어 빈도 인덱스를 참조하는 발생 단어 수 계산 수단; 발생 단어 수 계산 수단에서 얻어진 발생 단어의 수를 근거로 문서에 부가되는 발생 단어 스코어를 구하기 위한 발생 단어 스코어 계산 수단: 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 발생 단어 수 스코어 계산 수단으로부터 출력된 발생 단어 스코어를 근거로 검색 요구와 문서간의 일치 정도를 나타내는 문서의 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 이를 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 위치 정보를 구하고 또한 이를 단어 발생 위치 인덱스에 보유하는 단어 발생 위치 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력수단; 문서 데이터의 문서에서 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 발생 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 얻기 위한 빈도 스코어 계산 수단; 문서에서 검색 요구에 포함되는 단어의 발생 위치를 얻기 위해 단어 발생 위치 인덱스를 참조하는 발생 위치 계산 수단; 단어 발생 위치 계산 수단으로부터 출력된 단어 발생 위치를 근거로 문서의 단어간 근접 정도를 계산하는 단어 근접 계산 수단; 단어 근접 계산 수단으로부터 출력된 근접 정도를 근거로 문서에 부여된 근접 스코어를 구하는 근접 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 근접 스코어 계산 수단으로부터 출력된 근접 스코어를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단 914; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 필드마다 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 사용자가 타깃 문서의 정렬에 영향을 주는 필드의 비율을 지정하는 것을 허용하는 필드 비율 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 구비하고, 단어 동시 발생 관계가 나타나는 타깃 문서에 부여된 스코어는 타깃 문서가 우선적으로 디스플레이되도록 필드마다 증가된다. 이는 사용자가 원하는 문서가 높은 정확도로 검색되는 것을 허용한다.

본 발명의 다른 특성에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 타깃 문서에 또한 나타나는 검색 요구의 다수의 단어수를 계산하는 발생 단어 계산 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 단어 동시 발생 관계 점검 수단을 구비하고, 검색 요구에 포함되는 다수의 단어가 동시에 타깃 문서에도 나타나 단어 동시 발생 관계가 타깃 문서에 나타나는 경우, 타깃 문서가 우선적으로 디스플레이되도록 타깃 문서에 부여된 스코어가 증가된다. 이러한 배열은 사용자가 원하는 문서가 높은 정확도로 검색되는 것을 허용한다.

더욱이, 본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타나는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 추출된 단어 빈도 정보를 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 동시 발생 정보를 추출하고 또한 추출된 단어 동시 발생 정보를 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 중요성을 부여한 1차 검색 요구를 입력하는 것을 허용하는 1차 검색 요구 입력 수단; 사용자가 1차 검색 요구와 비교해 더 낮은 중요성을 부여한 2차 검색 요구를 입력하는 것을 허용하는 2차 검색 요구 입력 수단; 문서에서 1차 검색 요구 입력 수단과 2차 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단; 1차 검색 요구 입력 수단과 2차 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서에서 나타나고 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 구하기 위해 단어 동시 발생 인덱스의 내용을 참조하는 단어 동시 발생 관계 점검 수단; 검색 요구 및 문서에서 공통으로 나타나고 단어 동시 발생 관계 점검 수단에 의해 얻어진 단어 동시 발생 관계의 수를 근거로 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어를 근거로 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 필드마다 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 단어 빈도 정보를 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 동시 발생 정보를 추출하고 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력 수단; 필드 마다 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾기 위해 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서의 한 필드에서 나타나고 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾기 위해 필드 단어 동시 발생 인덱스의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단; 필드 단어 동시 발생 관계 점검 수단에서 얻어진 검색 요구와 문서의 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 문서의 필드마다 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산 수단; 사용자가 문서의 정렬에 대한 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 필드 비율 입력 수단; 필드 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 필드 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어, 및 필드 비율 입력 수단으로부터 출력된 비율을 근거로 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에서 일어나는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 단어 빈도 정보를 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 단어 동시 발생 정보를 단어 동시 발생 인덱스에 놓기 위해 문서 데이터로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력 수단; 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에 의해 얻어진 단어 빈도를 근거로 문서의 빈도 스코어를 구하는 빈도 스코어 계산 수단; 문서에 나타나고 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 수를 구하기 위해 단어 빈도 인덱스를 참조하는 발생 단어수 계산 수단; 발생 단어수 계산 수단에 의해 얻어진 발생 단어수를 근거로 발생 단어수 스코어를 계산하는 발생 단어수 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서에 나타나는 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구의 단어 동시 발생관계의 수를 계산하기 위해 단어 동시 발생 인덱스를 참조하는 단어 동시 발생 관계 점검 수단; 단어 동시 발생 관계 점검 수단에 의해 얻어지고 검색 요구와 문서에 공통으로 발생하는 단어 동시 발생 관계의 수를 근거로 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 발생 단어수 스코어 계산 수단으로부터 출력된 발생 단어수 스코어, 및 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어를 근거로 문서의 최종적인 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.

이후에는 본 발명의 실시예가 도면을 참조로 설명된다.

[실시예 1]

제1도는 본 발명에 따른 문서 검색 시스템의 배열을 도시한 블록도이다. 제1도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(101), 사전(102), 타깃 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(103), 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(104), 문서 데이터(101)로부터 단어 빈도 정보를 추출하고 또한 이를 단어 빈도 인덱스(103)에 저장하는 단어 빈도 정보 추출 수단(105), 문서 데이터(101)로부터 단어 동시 발생 정보를 추출하고 또한 이를 단어 동시 발생 인덱스(104)에 보유하는 단어 동시 발생 정보 추출 수단(106), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(107), 문서에서 검색 요구 입력 수단(107)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 구하기 위해 단어 빈도 인덱스(103)를 참조하는 단어 빈도 계산 수단(108), 단어 빈도 계산 수단(108)을 통해 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(109), 검색 요구 입력 수단(107)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(110), 단어 동시 발생 정보 추출 수단(110)이 출력한 검색 요구에 포함되는 단어 동시 발생 관계가 얼마나 많이 각 문서에 나타나는가를 보도록 단어 동시 발생 인덱스(104)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(111), 단어 동시 발생 관계 점검 수단(111)에 의해 얻어지고 검색 요구와 문서에 공통으로 나타나는 단어 동시 발생 관계의 정도를 근거로 각 문서의 동시 발생 스코어를 계산하는 동시 발생 스코어 계산 수단(112), 빈도 스코어 계산 수단(109)의 출력과 동시 발생 스코어 계산 수단(112)의 출력을 근거로 문서 스코어를 계산하는 문서 스코어 계산 수단(113), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(114), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(115)으로 구성된다.

제2도는 본 발명의 실시예 1에 따라 문서 검색 시스템의 검색 동작을 도시한 도면이다. 검색에 앞서, 단어 빈도 정보 추출 수단(105)은 단어가 단어 빈도 인덱스(103)에 존재하는 문서의 수 및 문서의 총 수와 함께 실제로 출력되는 단어 빈도 정보를 미리 찾도록 문서 데이터(101)를 주사하고, 단어 동시 발생 정보 추출 수단(106)은 각 문서에서 단어 동시 발생 정보를 구하고 인덱스를 구성하기 위해 이를 단어 동시 발생 인덱스(104)로 출력하도록 문서 데이터(101)를 주사한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에 나타나는 한 쌍의 단어가 서로 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.

단계(201)에서, 사용자는 검색 요구 입력 수단(107)의 사용을 통해 문자의 형태로 타깃 문서에 대한 검색 요구를 입력한다. 단계(202)에서, 단어 빈도 계산 수단(108)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(107)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서, NW는 검색 요구에 포함되는 사전 단어의 총 수에 대응한다)의 발생 빈도 FTij, 및 그 단어가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(103)를 참조하고 이를 빈도 스코어 계산 수단(109)으로 출력한다.

단계(203)에서, 빈도 스코어 계산 수단(109)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 단어 빈도 계산 수단(108)으로부터 출력된 문서 Dj내의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도로 인한 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFj를 얻기 위해 문서 Dj의 빈도 스코어에 부가된다.

단계(204)에서, 단어 동시 발생 정보 추출 수단(110)은 인덱스 제작에서 취해진 것과 같은 방법에 따라 검색 요구 입력 수단(107)을 통해 입력되는 검색 요구로부터 단어 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서, NC는 검색 요구내에 포함된 단어 동시 발생 관계의 수를 나타낸다)를 추출한다. 단계(205)에서, 단어 동시 발생 관계 점검 수단(111)은 단어 동시 발생 정보 추출 수단(110)이 제공하고 검색 요구의 단어 동시 발생 관계 Ck와 일치하는 문서 Dj에서 일어나는 단어 동시 발생 관계의 수를 계산하도록 단어 동시 발생 인덱스(104)를 참조하고, 또한 계산 결과를 동시 발생 스코어 계산 수단(112)에 출력한다.

단계(206)에서, 동시 발생 스코어 계산 수단(112)은 검색요구와 문서에서 서로 일치하는 단어 동시 발생 관계의 수를 근거로 문서 Dj의 동시 발생 스코어 SCj를 계산한다. 가장 간단한 예의 경우, 동시 발생수는 직접적으로 식(3)에 의해 표시된 바와 같은 동시 발생 스코어 SCj로 사용된다.

단계(207)에서, 문서 스코어 계산 수단(113)은 빈도 스코어 계산 수단(109)으로부터 출력된 빈도 스코어와 동시 발생 스코어 계산 수단(112)으로부터 출력된 동시 발생 스코어를 근거로 식(4)에 따라 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.

단계(208)에서, 문서 정렬 수단(114)은 문서 스코어 계산 수단(113)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(209)에서, 검색 결과 디스플레이 수단(115)은 문서 정렬 수단(114)의 출력으로부터 부여된 분류된 문서를 검색 결과로서 사용자에게 디스플레이한다.

상술된 바와 같이, 단어 빈도에 부가하여, 정렬에 대한 영향은 검색 요구와 타깃 문서에 포함되는 단어 동시 발생 관계를 고려해 결정되므로, 사용자의 검색 의도에 더 가까운 문서가 검색 결과에서 보다 의미있는 정렬로 디스플레이될 수 있고 효과적인 검색이 가능하다.

[실시예 2]

제3도는 본 발명의 실시예 2에 따라 문서 검색 시스템의 배열을 도시하는 블록도이다. 제3도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(301), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(303), 단어 빈도 인덱스(303)에 저장하도록 문서 데이터(301)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(304), 사용자가 우선적으로 다루어지기를 원하는 검색 요구를 입력하도록 허용하는 1차 검색 요구 입력 수단(305), 사용자가 1차 검색 요구 보다 더 낮은 우선도를 갖는 검색 요구를 입력하도록 허용하는 2차 검색 요구 입력 수단(306), 각 문서에서 1차 검색 요구 입력 수단(306)과 2차 검색 요구 입력 수단(306)를 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스(303)를 참조하는 단어 빈도 계산 수단(307), 단어 빈도 계산 수단(307)에서 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(308), 빈도 스코어 계산 수단(308)의 출력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(309), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(310), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(311)으로 구성된다.

제4도는 본 발명의 실시예 2에 따라 문서 검색 시스템의 검색 결과를 도시한 흐름도이다.

먼저, 검색에 앞서 단어 빈도 정보 추출 수단(304)은 각 문서에서 사전(302) 중 사전 단어의 발생 빈도를 찾도록 문서 데이터(301)를 주사하고, 문서의 총 수 및 단어가 나타나는 문서의 수와 함께 발생 빈도는 인덱스를 구성하도록 단어 빈도 인덱스(303)로 출력된다.

단계(401)에서, 사용자는 1차 검색 요구 입력 수단(305)의 사용을 통해 탐색하려고 의도하는 문서에 대한 검색 요구를 1차 검색 요구로 입력하는 반면, 단계(402)에서, 사용자는 2차 검색 요구 입력 수단(306)의 사용을 통해 비교적 낮은 중요성을 갖는 문서에 대한 검색 요구를 2차 검색 요구로 입력한다.

단계(403)에서, 단어 빈도 계산 수단(307)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 1차 검색 요구 입력 수단(305)과 2차 검색 요구 입력 수단(306)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ... NW. 여기서, NW는 검색 요구에 포함되는 사전 단어의 총 수에 대응한다)의 발생 빈도 TFij, 및 그 단어가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(303)를 참조하고 이를 빈도 스코어 계산 수단(308)으로 출력한다. 단계(404)에서, 단어 빈도 계산 수단(307)은 단어 Wi가 1차 검색 요구나 2차 검색 요구에 포함되는가 여부에 따라 매개변수 WTi를 취한다. 또한, 단계(405)에서, 빈도 스코어 계산 수단(308)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 문서 Dj에서 단어 Wi의 발생 빈도 TFij, 및 단어 빈도 계산 수단(307)이 출력한 단어 Wi의 가중치 매개변수 WTi를 근거로 단어 빈도를 근거로 하는 문서 Dj와 다음의 식(5)에 따른 검색 요구간의 일치 정보를 나타나는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어는 빈도 스코어 SFj를 구하도록 문서 Dj의 빈도 스코어에 부가된다.

여기서 , IDFi는 모든 문서에서 단어 Wi의 바이어스를 나타내는 매개변수이다.

단계(406)에서, 문서 스코어 계산 수단(309)은 빈도 스코어 계산 수단(308)으로부터 출력된 빈도 스코어의 함수로 상술된 식(2)에 따른 검색 요구와 문서 Dj 간의 일치 정도를 나타내는 문서 스코어 Sj를 계산하다. 단계(407)에서, 문서 정렬 수단(310)은 문서 스코어 계산 수단(309)로부터의 각 문서 Dj에 대한 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(407)에서 검색 결과 디스플레이 수단(311)은 문서 정렬 수단(310)의 출력으로부터 얻어진 분류된 문서를 검색 결과로서 사용자에게 디스플레이 한다.

상술된 바와 같이, 사용자가 입력한 각 검색 요구에는 우선도가 부여되므로, 사용자의 검색 의도를 탄력적으로 표현하고 효과적인 검색을 이루는 것이 가능하다.

[실시예 3]

제5도는 본 발명의 실시예 3에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제5도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(501), 사전(502), 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스(503), 문서 데이터(501)로부터 단어 빈도 정보를 추출하고 이를 필드 단어 빈도 인덱스(503)에 놓는 단어 빈도 정보 추출 수단(504), 사용자가 검색 요구를 입력하도록 허용하는 검색 요구 입력 수단(505), 사용자가 문서 스코어에 대한 일부 필드 문서의 스코어의 영향 정보를 나타내는 비율을 입력하도록 허용하는 필드 비율 입력 수단(506), 각 문서에서의 발생 빈도를 구하도록 검색 요구 입력 수단(505)을 통해 입력된 검색 요구에 포함되는 사전 단어에 관하여 필드 단어 빈도 인덱스(503)를 참조하는 필드 단어 빈도 계산 수단(507), 필드 단어 빈도 계산 수단(507)에서 얻어진 단어 빈도를 근거로 각 문서의 각 필드에서 빈도 스코어를 계산하는 필드 빈도 스코어 계산 수단(508), 필드 빈도 스코어 계산 수단(508)의 출력과 필드 비율 입력 수단(506)으로의 입력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(509), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(510), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(511)으로 구성된다.

제6도는 본 발명의 실시예 3에 따라 문서 검색 시스템의 검색 동작을 도시한 흐름도이다. 검색에 앞서 단어 빈도 정보 추출 수단(504)은 각 문서에서 사전(502)에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(501)를 주사하고, 이를 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 인덱스가 앞서 구성된 필드 단어 빈도 인덱스(503)로 출력된다.

단계(601)에서는 검색 요구 입력 수단(505)을 통해 사용자가 원하는 검색 요구를 입력한다. 단계(602)에서는 필드 비율 입력 수단(506)을 통해 사용자가 정렬에 대한 필드 Fk(k = 1, 2, ..., NF. 여기서 NF는 필드의 총수를 나타낸다)의 스코어의 영향 비율 Rk을 입력한다.

단계(603)에서, 필드 단어 빈도 계산 수단(507)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)의 필드 Fk에서 검색 요구 입력 수단(505)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFijk를 구하도록 필드 단어 빈도 인덱스(503)를 참조하고, 이를 필드 빈도 스코어 계산 수단(508)으로 출력한다.

단계(604)에서, 필드 빈도 스코어 계산 수단(508)은 문서의 총 수 ND, 필드 Fk에서 단어 Wi가 나타나는 문서의 수 NDik, 및 필드 단어 빈도 계산 수단(507)으로부터 출력된 문서 Dj의 필드 Fk에서 단어 Wi의 발생 빈도 TFijk를 근거로 다음의 식(6)에 따른 검색 요구와 단어 빈도를 근거로 하는 문서 Dj의 필드 Fk간의 일치 정도를 나타내는 빈도 스코어 SFjk를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFjk를 구하도록 문서 Dj의 필드 Fk의 빈도 스코어에 부가된다.

단계(605)에서, 문서 스코어 계산 수단(509)은 필드 빈도 스코어 계산 수단(508)으로부터 출력된 각 필드의 빈도 스코어와 스코어 필드 비율 입력 수단(506)에 입력된 필드 Fk의 영향 비율 Rk을 근거로 다음의 식(7)에 따른 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다. 즉, 문서 스코어 Sj에 대해 문서 Dj의 필드 Fk의 빈도 스코어 SFjk가 부가되는 계산은 필드 비율 Rk의 함수로 이루어진다.

단계(606)에서, 문서 정렬 수단(510)은 문서 스코어 계산 수단(509)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(607)에서, 검색 결과 디스플레이 수단(511)은 문서 정렬 수단(510)의 출력으로부터 주어진 분류된 문서를 검색 결과로 사용자에게 디스플레이한다.

상술된 바와 같이, 사용자는 검색 필드의 스코어 할당 비율을 변화시킬 수 있으므로, 사용자의 검색 의도를 탄력적으로 표현하고 또한 효과적인 검색을 이루는 것이 가능하다.

[실시예 4]

제7도는 본 발명의 실시예 4에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제7도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(701), 사전(702), 타깃 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(703), 문서 데이터(701)로부터 단어 빈도 정보를 유도하고 이를 단어 빈도 인덱스(703)에 저장하는 단어 빈도 정보 추출 수단(705), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(707), 문서에서 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 단어 빈도 인덱스(703)를 참조하는 단어 빈도 계산 수단(708), 단어 빈도 인덱스 계산 수단(708)에서 얻어진 단어 빈도를 근거로 각 문서의 스코어를 계산하는 빈도 스코어 계산 수단(709), 검색 요구 입력 수단(707)를 통해 입력된 검색 요구에 포함되는 단어가 얼마나 많이 문서에 나타나는가를 찾아 보도록 단어 빈도(703)를 참조하는 발생 단어수 계산 수단(710), 발생 단어수 계산 수단(710)에서 얻어진 발생 단어수를 근거로 각 문서에 부가되는 스코어를 구하는 발생 단어수 스코어 계산 수단(711), 빈도 스코어 계산 수단(709)과 발생 단어수 스코어 계산 수단(711)의 출력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(712), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(713), 및 스코어의 순서로 배열된 결과 문서를 디스플레이하는 검색 결과 디스플레이 수단(714)으로 구성된다.

제8도는 본 발명의 실시예 4에 따라 문서 검색 시스템의 검색 동작을 도시한 흐름도이다. 검색에 앞서 단어 빈도 정보 추출 수단(705)은 각 문서에서 사전(702)에 포함되는 사전 단어의 발생 빈도를 찾도록 문서 데이터(701)를 주사하고, 또한 인덱스를 구성하도록 문서의 총수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(703)로 출력한다.

단계(801)에서는 검색 요구 입력 수단(707)을 통해 사용자가 탐색하는 문서에 대한 검색 요구를 입력한다. 검색 요구로서 다수의 단어를 입력하거나 문장을 입력하고 단어 추출 수단의 부가적인 사용을 통해 문장에서 단어를 유도하는 것이 적절하다.

단계(802)에서, 단어 빈도 계산 수단(708)은 문서의 총 수 N를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 다수의 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(703)를 참조하고, 이를 또한 빈도 스코어 계산 수단(709)으로 출력한다.

단계(803)에서, 빈도 스코어 계산 수단(709)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도로 인한 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFj를 구하도록 문서 Dj의 빈도 스코어에 부가된다.

단계(804)에서, 발생 단어수 계산 수단(710)은 단계(802) 이전에 이미 구해진 복수의 단어 Wi 중에서 문서 Dj에 나타나는 정보를 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 다수의 단어 Wi 및 발생 단어수 스코어 계산 수단(711)에 출력되어 계산된 문서 Dj에 나타나는 다수의 단어 Wi의 단어수 NAj와 비교한다.

단계(805)에서, 발생 단어수 스코어 계산 수단(711)은 예를 들면, 다음의 식(8)에 따라 문서 Dj에서 발생하는 단어의 수 NAj를 근거로 발생 단어수 계산 수단(710)으로부터 출력된 검색 요구에 포함되는 단어의 발생 단어수 스코어 SAj를 계산한다.

단계(806)에서, 문서 스코어 계산 수단(712)은 빈도 스코어 계산 수단(709)이 출력한 빈도 스코어 SFj와 발생 단어수 스코어 계산 수단(711)이 출력한 발생 단어수 스코어 SAj를 근거로 다음의 식(9)에 따라 문서 Dj와 검색 요구간의 일치정도를 나타내는 스코어 Sj를 계산한다.

발생 단어 스코어 SAj의 제시는 검색 요구가 갖는 단어를 포함하여 문서의 스코어를 더 증가시킬 수 있으므로, 우선적인 디스플레이가 실행될 수 있다. 부가하여, 발생 단어의 수를 근거로 하는 우선적인 디스플레이의 정도는 식(9)에서 상수값을 변화시키는 방법으로 가변적이 된다.

단계(807)에서, 문서 정렬 수단(713)은 문서 스코어 계산 수단(712)으로부터 출력된 문서 스코어 Sj의 감소 순서로 문서 Dj를 재배열한다. 또한 단계(808)에서, 검색 결과 디스플레이 수단(714)은 문서 정렬 수단(713)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 도시한다.

상술된 바와 같이, 검색 요구가 다수의 단어를 포함하는 경우, 하나의 고빈도 단어만을 포함하는 문서가 검색 결과에서 높게 정렬되는 것을 방지할 수 있어 효과적인 검색이 가능해진다.

[실시예 5]

제9도는 본 발명의 실시예 5에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제9도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(901), 사전(902), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(903), 타깃 문서에서 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스(904), 문서 데이터(901)로부터 단어 빈도 정보를 추출하고 이를 단어 빈도 인덱스(903)에 저장하는 단어 빈도 정보 추출 수단(905), 문서 데이터(901)로부터 단어 위치 정보를 얻고 이를 단어 발생 위치 인덱스(904)에 보유하는 단어 발생 위치 정보 추출 수단(906), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(907), 문서에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 주파수를 계산하도록 단어 빈도 인덱스(903)를 참조하는 단어 빈도 계산 수단(908), 단어 빈도 계산 수단(908)에서 얻어진 단어 빈도를 근거로 각 문서의 스코어를 구하는 빈도 스코어 계산 수단(909), 문서에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에 포함되는 단어의 발생 위치를 구하도록 단어 발생 위치 인덱스(904)를 참조하는 발생 위치 계산 수단(910), 단어 발생 위치 계산 수단(910)의 출력을 근거로 단어간의 근접 정도를 계산하는 단어 근접 계산 수단(911), 단어 근접 계산 수단(911)의 출력을 근거로 각 문서에 부가되는 스코어를 구하는 근접 스코어 계산 수단(912), 빈도 스코어 계산 수단(909)과 근접 스코어 계산 수단(912)의 출력을 근거로 각 문서의 스코어를 계산하는 문서 스코어 계산 수단(913), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(914), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(915)으로 구성된다.

제10도는 본 발명의 실시예 5에 따라 검색 동작을 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(905)은 각 문서에서 사전(902)의 사전 단어 발생 빈도를 찾아 이를 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 단어 빈도 인덱스(903)로 출력하도록 문서 데이터(901)를 주사하는 반면, 단어 발생 위치 정보 추출 수단(906)은 각 문서에서 사전 단어의 발생 위치를 발견하여 인덱스가 구성되도록 단어 발생 위치 인덱스(904)로 출력한다.

단계(1001)에서는 검색 요구 입력 수단(907)을 통해 사용자가 타깃 문서에 대한 검색 요구로서 다수의 단어를 입력한다. 사용자는 검색 요구로 문장을 입력하고 부가적으로 제공된 단어 추출 수단을 사용해 문장으로부터 단어를 유도하는 것이 또한 적절하다.

단계(1002)에서, 단어 빈도 계산 수단(908)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에서 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 알도록 단어 빈도 인덱스(903)를 참조하고, 또한 이들을 빈도 스코어 계산 수단(909)으로 출력한다.

단계(1003)에서, 단어 발생 위치 계산 수단(910)은 문서 Dj에서 검색 요구 입력 수단(907)을 통해 입력된 다수의 단어 Wi의 모든 발생 위치를 구하도록 단어 발생 위치 인덱스(904)를 참조하고, 이들을 단어 근접 계산 수단(911)으로 출력한다. 단계(1004)에서, 빈도 스코어 계산 수단(909)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도를 근거로 하는 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어는 문서 Dj의 빈도 스코어에 부가되어 빈도 스코어 SFj를 계산한다.

단계(1005)에서. 단어 근접 계산 수단(911)은 단어 발생 위치 계산 수단(910)으로부터 출력된 문서 Dj내의 각 단어 Wi의 발생 위치 및 그의 단어 길이를 근거로 다른 단어의 모든 발생 위치의 조합 Pk(k = 1, 2, ..., NP. 여기서 NP는 다른 단어의 모든 발생 위치의 조합수에 대응한다)에 관하여 두 단어간의 거리 DSTjk를 계산하고, 단계(1006)에서는 DSTjk로부터 단어 근접치 NEjk를 계산한다. 예를들면, 단어 근접치 NEjk는 다음의 식(10)에 의해 부여될 수 있다.

부수적으로, 모든 조합의 단어 근접 정도를 구하는 것은 많은 계산치를 요구하므로, d 이하의 거리 DSTjk를 갖는 발생 위치의 조합에 대해서만 계산이 이루어지도록 한계값 d를 설정하거나 사용자가 근접치의 계산을 행하는 단어쌍을 제한하는 것이 가능하다.

단계(1007)에서, 근접 스코어 계산 수단(912)은 단어 근접 계산 수단(911)의 출력인 단어 근접치 NEjk의 함수로 다음의 식(11)에 따라 각 문서 Dj의 근접 스코어 SNj를 계산한다. 특히, 계산되는 단어 근접치 NEjk는 문서 Dj의 근접 스코어에 부가되고, 그에 의해 근접 스코어 SNj를 구한다.

단계(1008)에서, 문서 스코어 계산 수단(913)은 빈도 스코어 계산 수단(909)의 출력인 빈도 스코어 SFj와 근접 스코어 계산 수단(912)의 출력인 근접 스코어 SNj를 근거로 스코어 Sj, 즉 다음의 식(12)에 따른 문서 Dj와 검색 요구가의 일치정도를 계산한다.

이와 같이, 근접 스코어 SNj의 제시는 검색 요구에 포함되는 다른 단어가 서로 근접한 관계로 나타나는 문서의 스코어를 올릴 수 있어 우선적인 디스플레이를 허용한다. 부가하여, 상술된 식(12)에서의 상수값 변화는 단어 근접 정도를 근거로 하는 우선적인 디스플레이의 변화를 허용한다.

단계(1009)에서, 문서 정렬 수단(914)은 문서 스코어 계산 수단(913)으로부터 출력된 각 문서 Dj의 문서 스코어 감소 순서로 문서를 재배열한다. 또한, 단계(1010)에서, 검색 결과 디스플레이 수단(915)은 문서 정렬 수단(914)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 도시한다.

상술된 배열로, 검색 요구에 포함되는 다수의 단어가 서로 근접한 위치로 발생되지 않으면 검색 요구를 할 필요가 없는 경우, 불필요한 문서를 더 높은 순위로 가정하는 부당함을 방지할 수 있어 효과적인 검색이 이루어진다.

[실시예 6]

제11도는 본 발명의 실시예 6에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제11도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(1401), 사전(1402), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(1403), 타깃 문서에 나타나는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(1404), 문서 데이터(1401)로부터 단어 빈도 정보를 추출하고 이를 단어 빈도 인덱스(1403)에 놓는 단어 빈도 정보 추출 수단(1405), 문서 데이터(1401)로부터 단어 동시 발생 정보를 추출하고 이를 단어 동시 발생 인덱스(1404)에 놓는 단어 동시 발생 정보 추출 수단(1406), 사용자가 중요성을 부착한 검색 요구를 입력하도록 허용하는 1차 검색 요구 입력 수단(1407), 사용자가 1차 검색 요구와 비교해 더 낮은 중요성을 부착한 검색 요구를 입력하도록 허용하는 2차 검색 요구 입력 수단(1408), 문서에서 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 구하도록 단어 빈도 인덱스(1403)를 참조하는 단어 빈도 계산 수단(1409), 단어 빈도 계산 수단(1409)에서 얻어진 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(1410), 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1411), 각 문서에 나타나고 단어 동시 발생 정보 추출 수단(1411)으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 구하도록 단어 동시 발생 인덱스(1404)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(1412), 검색 요구와 문서에 공통으로 나타나고 단어 동시 발생 관계 점검 수단(1412)에 의해 얻어진 단어 동시 발생 관계의 수를 근거로 각 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단(1413), 빈도 스코어 계산 수단(1410)의 출력과 동시 발생 스코어 계산 수단(1413)의 출력을 근거로 각 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단(1414), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(1415), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(1416)으로 구성된다.

제12도 내지 제15도는 본 발명의 실시예 6에 따라 문서 검색 시스템의 검색동작을 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(1405)은 각 문서에서 사전(1402)에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(1401)를 주사하고 문서의 총 수, 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(1403)에 출력하고, 단어 동시 발생 정보 추출 수단(1406)은 각 문서에서 단어 동시 발생 정보를 얻도록 문서 데이터(1401)를 주사하여 단어 동시 발생 인덱스(1404)에 출력하고, 그에 의해 미리 인덱스를 구성한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에서 나타나는 단어의 쌍이 서로 동시 발생 관계에 있음을 결정하고 그를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어의 쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.

단계(1501)에서, 사용자는 사용자가 탐색하기 원하고 중요성을 부여한 문서에 대해 1차 검색 요구를 입력하기 위해 1차 검색 요구 입력 수단(1407)을 사용한다. 부가하여, 단계(1502)에서, 사용자는 1차 검색 요구와 비교해 더 낮은 중요성을 부여한 2차 검색 요구를 입력하기 위해 2차 검색 요구 입력 수단(1408)을 사용한다.

단계(1503)에서, 단어 빈도 계산 수단(1409)은 문서의 총 수 ND를 구하고, 문서 Dj(j = 1, 2, ..., ND)에서 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 그 단어가 나타나는 문서의 수 NDj를 구하도록 단어 빈도 인덱스(1403)를 참조한다. 단계(1504)에서, 단어 빈도 계산 수단(1409)은 단어 Wi가 1차 검색 요구나 2차 검색 요구에 포함되는가 여부를 근거로 가중치 매개변수 WTi를 선택하고 이를 빈도 스코어 계산 수단(1410)으로 출력한다.

단계(1505)에서, 빈도 스코어 계산 수단(1410)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 문서 Dj에서 단어 Wi의 발생 빈도 TFij, 및 단어 빈도 계산 수단(1409)이 그에 부여한 단어 Wi에 대한 가중치 매개변수 WTi를 근거로 상술된 식(5)에 따라 검색 요구와 단어 빈도를 근거로 하는 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산하고, 빈도 스코어 SFj를 문서 스코어 계산 수단(1414)으로 출력한다. 즉, 그 단어로 인한 빈도 스코어는 문서 Dj의 빈도 스코어에 부가된다.

단계(1506)에서, 단어 동시 발생 정보 추출 수단(1411)은 인덱스 제작과 같은 방법에 따라 1차 검색 요구 입력 수단(1407)을 통해 입력된 1차 검색 요구로부터 1차 동시 발생 관계 Csk(k= 1, 2, ..., NC. 여기서 NC는 1차 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 추출된 1차 동시 발생 관계 Csk를 단어 동시 발생 관계 점검 수단(1412)으로 출력한다.

단계(1507)에서, 단어 동시 발생 관계 점검 수단(1412)은 단어 동시 발생 정보 추출 수단(1411)에서 얻어진 1차 동시 발생 관계 Csk와 일치하는 문서 Dj에서 나타나는 단어 동시 발생 관계의 단어 동시 발생 관계수 NCsj를 계산하도록 단어 동시 발생 인덱스(1404)를 참조하고, 결과의 NCsj를 동시 발생 스코어 계산 수단(1413)으로 출력한다.

단계(1508)에서, 단어 동시 발생 정보 추출 수단(1411)은 인덱스 제작과 같은 방법에 따라 2차 검색 요구 입력 수단(1408)을 통해 입력된 2차 검색 요구로부터 2차 동시 발생 관계 Cfm(m = 1, 2, ..., NCf. 여기서 NCf는 2차 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)을 추출하고, 2차 동시 발생 관계 Cfm을 단어 동시 발생 관계 점검 수단(1412)에 입력한다.

단계(1509)에서, 단어 동시 발생 관계 점검 수단(1412)은 단어 동시 발생 정보 추출 수단(1411)에 의해 얻어진 2차 동시 발생 관계 Cfm과 일치하는 문서 Dj에서 나타나는 단어 동시 발생 관계의 단어 동시 발생 관계수 NCfj를 계산하도록 단어 동시 발생 인덱스(1404)를 참조하고, 계산된 NCfj를 동시 발생 스코어 계산 수단(1413)으로 출력한다.

단계(1510)에서, 동시 발생 스코어 계산 수단(1413)은 다음의 식(13)에 따라 문서 Dj의 동시 발생 SCj를 계산하고, 이를 문서 스코어 계산 수단(1414)으로 출력한다.

단계(1511)에서, 문서 스코어 계산 수단(1414)은 다음의 식(14)에 따라 빈도 스코어의 최대값과 최소값간의 차이 SR를 계산한다.

단계(1512)에서, 문서 스코어 계산 수단(1414)은 빈도 스코어 계산 수단(1410)으로부터 출력된 빈도 스코어와 동시 발생 스토어 계산 수단(1413)으로부터 출력된 동시 발생 스코어를 근거로, 다음의 식(15)에 따라 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.

단계(1513)에서, 문서 정렬 수단(1415)은 문서 스코어 계산 수단(1414)으로 부터 출력된 각 문서 Dj의 문서 스코어값 Sj 감소 순서로 문서를 재배열하고, 단계(1514)에서, 검색 결과 디스플레이 수단(1416)은 문서 정렬 수단(1415)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.

상술된 바와 같이, 이러한 시스템은 서로 중요성이 다른 1차 검색 요구와 2차 검색 요구를 수신하고, 검색 요구와 문서간의 일치 정도를 결정하는 기준으로서, 1차 동시 발생 관계 > 2차 동시 발생 관계 > 1차 단어 빈도 > 2차 단어 빈도의 순서로 우선도를 만들어, 검색 결과에서 보다 의미있는 문서로 사용자의 검색 의도에 더 가까운 문서를 디스플레이한다.

[실시예 7]

제16도는 본 발명의 실시예 7에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제16도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(1901), 사전(1902), 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스(1903), 필드마다 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스(1904), 단어 빈도 정보를 필드 단어 빈도 인덱스(1903)에 놓도록 문서 데이터(1901)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(1905), 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스(1904)에 저장하도록 문서 데이터(1901)로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1906), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(1907), 문서에서 필드마다 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾도록 필드 단어 빈도 인덱스(1903)를 참조하는 필드 단어 빈도 계산 수단(1908), 필드 단어 빈도 계산 수단(1908)에서 얻어진 단어 빈도를 근거로 각 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단(1909), 검색 입력 수단(1907)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1910), 각 문서의 필드에 나타나고 단어 동시 발생 정보 추출 수단(1910)으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾도록 필드 단어 동시 발생 인덱스(1904)의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단(1911), 필드 단어 동시 발생 관계 점검 수단(1911)에서 얻어진 검색 요구와 각 문서의 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 각 문서의 각 필드에서 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산 수단(1912), 문서의 정렬에 대한 각 필드의 스코어의 영향 정보를 나타내는 비율을 사용자가 입력하는 필드 비율 입력 수단(1913), 필드 빈도 스코어 계산 수단(1909)의 출력, 필드 동시 발생 스코어 계산 수단(1912)의 출력, 및 필드 비율 입력 수단(1913)의 출력을 근거로 각 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단(1914), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(1915), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(1916)으로 구성된다.

제17도 내지 제20도는 본 발명의 실시예 7에 따라 문서 검색 시스템에서의 검색 절차를 도시한 흐름도이다. 검색에 앞서, 단어 빈도 정보 추출 수단(1905)은 각 문서에서 필드마다 사전(1902)내에 포함된 사전 단어의 발생 빈도를 찾아보도록 문서 데이터(1901)를 주사하고 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 필드 단어 빈도 인덱스(1903)로 출력하는 반면, 단어 동시 발생 정보 추출 수단(1906)은 각 문서에서 필드마다 단어 동시 발생 정보를 구하도록 문서 데이터(1901)를 구하고 인덱스를 구성하도록 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스(1904)로 출력한다. 단어 동시 발생 정보를 구하는 방법으로, 예를들면 같은 문자에 나타나는 한 쌍의 단어가 서로에 대해 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하는 형태소 분석을 실행하는 방법이 있다.

단계(2001)에서는 검색 요구 입력 수단(1907)을 통해 사용자가 탐색하는 문서에 대한 검색 요구를 입력한다. 부가하여, 단계(2002)에서는 사용자가 정렬화에 대한 필드 Fm(m = 1, 2, ..., NF. 여기서 NF는 필드의 총 수를 나타낸다)의 스코어의 영향 비율 Rm을 입력하도록 필드 비율 입력 수단(1913)을 이용한다.

단계(2003)에서, 필드 단어 빈도 계산 수단(1908)은 문서의 총 수 ND를 찾도록 필드 단어 빈도 인덱스(1903)를 참조하고, 문서 Dj(j = 1, 2, ..., ND)의 필드 Fm에서 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFijm을 계산하고, 필드 Fm에 나타나는 문서의 수 NDim을 계산하고, 또한 이들을 필드 빈도 스코어 계산 수단(1909)으로 출력한다.

단계(2004)에서 필드 빈도 스코어 계산 수단(1909)은 문서의 총 수 ND, 단어 Wi가 필드 Fm에 나타나는 문서의 수 NDim, 및 필드 단어 빈도 계산 수단(1908)으로부터 출력된 문서 Dj의 필드 Fm에서의 단어 Wi의 발생 빈도 TFijm을 근거로 상술된 식(6)에 따라 검색 요구와 단어 빈도를 근거로 하는 문서 Dj의 필드 Fm간의 일치 정도를 나타내는 빈도 스코어 SFjm을 계산하고, 빈도 스코어 SFjm를 문서 스코어 계산 수단(1914)으로 출력한다. 이러한 경우, 단어 빈도를 근거로 하는 빈도 스코어는 문서 Dj의 필드 Fm에 대한 빈도 스코어에 부가된다.

단계(2005)에서, 단어 동시 발생 정보 추출 수단(1910)은 인덱스 제작과 같은 방법에 따라 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구로부터 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서 NC는 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 동시 발생 관계 Ck를 필드 단어 동시 발생 관계 점검 수단(1911)으로 출력한다.

단계(2006)에서, 필드 단어 동시 발생 관계 점검 수단(1911)은 정보 동시 발생 정보 추출 수단(1910)에 의해 얻어진 단어 동시 발생 관계 Ck와 일치하는 문서 Dj의 필드 Fm에 나타나는 단어 동시 발생 관계의 수 NCjm를 계산하도록 필드 단어 동시 발생 인덱스(1904)를 참조하고, 단어 동시 발생 관계 Ck와 일치하는 단어 동시 발생 관계의 수 NCjm를 필드 동시 발생 스코어 계산 수단(1912)으로 출력한다.

단계(2007)에서, 필드 동시 발생 스코어 계산 수단(1912)은 다음의 식(16)에 따라 문서 Dj의 필드 Fm에 대한 동시 발생 스코어 SCjm를 계산하고, 동시 발생 스코어 SCjm을 문서 스코어 계산 수단(1914)으로 출력한다.

단계(2008)에서, 문서 스코어 계산 수단(1914)은 다음의 식(17)에 따라 필드 빈도 스코어의 최대값과 최소값의 차이 SR를 계산한다.

단계(2009)에서, 문서 스코어 계산 수단(1914)은 필드 빈도 스코어 계산 수단(1909)으로부터 출력된 각 필드의 필드 빈도 스코어 SFjm, 필드 동시 발생 스코어 계산 수단(1912)으로부터 출력된 각 필드의 동시 발생 스코어 SCjm, 및 필드 비율 입력 수단(1913)을 통해 입력된 스코어 할당 비율 Rm을 근거로 다음의 식(18)에 따라 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.

단계(2010)에서, 문서 정렬 수단(1915)은 문서 스코어 계산 수단(1914)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(2011)에서, 검색 결과 디스플레이 수단(1916)은 문서 정렬 수단(1915)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.

상술된 바와 같이, 사용자는 타깃 필드의 스코어 할당 비율을 변화시킬 수 있으므로, 사용자의 검색 의도를 탄력적으로 표현하고 또한 효과적인 검색을 이루는 것이 가능하다.

[실시예 8]

제21도는 본 발명의 실시예 8에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제21도에서 문서 검색 시스템은 검색이 행해지는 문서 데이터(2401), 사전(2402), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(2403), 타깃 문서에서 발생하는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(2404), 단어 빈도 인덱스(2403)에 저장하도록 문서 데이터(2401)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(2405), 단어 동시 발생 인덱스(2404)에 놓도록 문서 데이터(2401)로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(2406), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(2407), 문서에서 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 단어 빈도 인덱스(2403)를 참조하는 단어 빈도 계산 수단(2408), 단어 빈도 계산 수단(2408)에 의해 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 구하는 빈도 스코어 계산 수단(2409), 각 문서에 나타나고 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어의 수를 구하도록 단어 빈도 인덱스(2403)를 참조하는 발생 단어수 계산 수단(2410), 발생 단어수 계산 수단(2410)에 의해 얻어진 발생 단어수를 근거로 발생 단어수 스코어를 계산하는 발생 단어수 스코어 계산 수단(2411), 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(2412), 각 문서에 나타나는 단어 동시 발생 정보 추출 수단(2412)으로부터 출력된 검색 요구의 단어 동시 발생 관계의 수를 계산하도록 단어 동시 발생 인덱스(2404)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(2413), 단어 동시 발생 관계 점검 수단(2413)에 의해 얻어진 문서와 검색 요구에 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 각 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단(2414), 빈도 스코어 계산 수단(2409)의 출력, 발생 단어수 스코어 계산 수단(2411)의 출력, 및 동시 발생 스코어 계산 수단(2415)의 출력을 근거로 각 문서의 최종 스코어를 계산하는 문서 스코어 계산 수단(2415), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(2416), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(2417)으로 구성된다.

제22도 내지 제26도는 본 발명의 실시예 8에 따라 문서 검색 요구에서의 검색절차를 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(2405)은 각 문서에서 단어(2402)내에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(2401)를 주사하고 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(2403)로 출력하는 반면, 단어 동시 발생 정보 추출 수단(2406)은 각 문서에서 단어 동시 발생 정보를 찾도록 문서 데이터(2401)를 주사하고 이를 단어 동시 발생 인덱스(2404)로 출력하여 인덱스를 구성한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에 나타나는 한 쌍의 단어가 서로에 대해 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.

단계(2501)에서, 사용자는 탐색하기 원하는 문서에 대한 검색 요구를 입력하도록 검색 요구 입력 수단(2407)을 이용한다. 단계(2502)에서, 단어 빈도 계산 수단(2408)은 문서의 총 수 ND를 알고 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(2403)를 참조하고, 이를 빈도 스코어 계산 수단(2409)으로 출력한다.

단계(2503)에서, 빈도 스코어 계산 수단(2409)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따라 검색 요구와 단어 빈도로 인한 문서간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 이러한 경우, 단어 빈도를 근거로 하는 빈도 스코어는 문서 Dj의 빈도 스코어에 부가된다.

단계(2504)에서, 발생 단어수 계산 수단(2410)은 문서 Dj에 또한 나타나는 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi의 단어 수 NAj를 계산하도록 단어 빈도 인덱스(2403)를 참조하고, 수 NAj를 발생 단어수 스코어 계산 수단(2411)으로 출력한다.

단계(2505)에서, 발생 단어수 스코어 계산 수단(2411)은 발생 단어수 계산 수단(2410)이 제공한 발생 단어수 NAj를 근거로 상술된 식(8)에 따라 발생 단어수 스코어를 계산하고, 발생 단어수 스코어를 문서 스코어 계산 수단(2415)로 출력한다.

단어(2506)에서, 단어 동시 발생 정보 추출 수단(2412)은 인덱스 제작과 유사한 방법의 사용으로 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구로부터 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서 NC는 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 동시 발생 관계 Ck를 단어 동시 발생 관계 점검 수단(2413)으로 출력한다.

단계(2507)에서, 단어 동시 발생 관계 점검 수단(2413)은 단어 동시 발생 정보 추출 수단(2404)에 의해 얻어진 각 단어 동시 발생 관계 Ck가 나타나는 문서를 찾도록 단어 동시 발생 인덱스(2404)를 참조하고, 단어 동시 발생 관계 Ck의 단어 동시 발생 관계수 NCj를 계산하고, 또한 그 결과를 동시 발생 스코어 계산 수단(2414)으로 출력한다.

단계(2508)에서, 동시 발생 스코어 계산 수단(2414)은 상술된 식(3)에 따라 문서 Dj의 동시 발생 스코어 SCj를 계산하고, 동시 발생 스코어 SCj를 문서 스코어 계산 수단(2415)으로 출력한다. 단계(2509)에서, 문서 스코어 계산 수단(2415)은 상술된 식(14)에 따라 빈도 스코어의 최대 및 최소값간의 차이 SR를 계산한다.

단계(2510)에서, 문서 스코어 계산 수단(2415)은 빈도 스코어 계산 수단(2409)의 출력인 빈도 스코어 SFj, 발생 단어수 스코어 계산 수단(2411)의 출력인 발생 단어수 스코어 SAj, 및 동시 발생 스코어 계산 수단(2414)의 출력인 동시 발생 스코어 SCj를 근거로 다음의 식(19)에 따라 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.

단계(2511)에서, 문서 정렬 수단(2416)은 문서 스코어 계산 수단(2415)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(2512)에서, 검색 결과 디스플레이 수단(2417)은 문서 정렬 수단(2416)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.

상술된 바와 같이, 문서와 검색 요구간의 일치 정도를 결정하는 기준으로, 단어 빈도에 부가하여 동시 발생 관계와 발생 단어수가 취해져, 동시 발생 관계 > 발생 단어수 > 단어 빈도의 순서로 우선도가 이루어지고, 그 결과로 사용자의 검색 의도에 더 근접한 문서가 검색 결과에서 높은 순위로 디스플레이될 수 있어 높은 정확도와 효율성으로 검색을 이룰 수 있다.

상술된 바와 같이, 본 발명에 따른 문서 검색 시스템에서, 인덱스는 타깃 문서내의 단어 동시 발생 정보를 갖고 단어 동시 발생 관계 점검 수단은 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하기 위해 제공되고, 타깃 문서의 각 필드와 연관된 인덱스 정보가 제시되고 사용자가 정렬에 영향을 주는 필드 비율을 지정할 수 있도록 필드 비율 입력 수단이 제공되고, 또한 다수의 검색 요구 입력 수단이 다른 우선 순위를 갖는 다수의 검색 요구를 입력하도록 제공되고, 타깃 문서에 포함된 검색 요구의 다수의 단어의 수를 계산하도록 발생 단어수 계산 수단이 제공되고, 인덱스는 타깃 문서내의 단어 발생 위치 정보를 갖고 검색 요구의 다수의 단어의 발생 위치가 서로 인접하는가 또는 비교적 서로 근접하는가 여부를 점검하도록 단어 근접 계산 수단이 제공된다. 따라서, 사용자의 요구를 탄력적으로 수신하여 검색 및 정렬을 실행하는 것이 가능하다.

더욱이, 문서 검색 시스템은 필드마다 타깃 문서에서 단어 발생 빈도 및 단어 동시 발생 정보를 포함하는 인덱스, 사용자가 타깃 문서의 정렬에 영향을 주는 필드 비율을 지정할 수 있는 필드 비율 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 갖춘다. 또한, 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 검색 요구에 포함되는 다수의 단어가 타깃 문서에서 얼마나 많이 나타나는가를 계산하는 발생 단어수 계산 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 단어 동시 발생 관계 점검 수단을 구비한다. 이러한 배열은 탄력적인 사용자로부터의 검색 요구의 수용과 검색 및 정렬 동작의 실행을 허용한다.

그래서, 거절이 보다 작지만 높은 정확도로 검색 결과를 제공하고, 또한 예를 들면, 결과 문서의 범위를 좁힘으로서 전체적으로 검색 시간을 줄이는 것이 가능하다.

상기는 본 발명의 양호한 실시예에만 관련된 것이고, 본 발명의 의도 및 범위에서 벗어난 것을 구성하지 않는, 설명을 위해 여기서 사용된 본 발명의 실시예의 모든 변경 및 수정을 포함하도록 의도되는 것으로 이해되어야 한다.

본 발명의 문서 검색 시스템은 사용자로부터 검색 요구를 탄력적으로 수신하고 거절(불필요한 데이터)되지 않는 정확한 검색 결과를 제공하도록 검색 및 정렬동작을 행하며 검색 결과의 범위를 줄이는 것과 같은 방법으로 전체적으로 검색 시간을 짧게 할 수 있다.

Claims

검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 시스템이 상기 타깃 문서의 다수의 필드 각각에 대한 인덱스 정보를 보유하고 사용자가 상기 검색 결과의 정렬에 영향을 주는 상기 필드 비율을 지정하도록 허용하는 필드 비율 입력 수단을 포함하여, 상기 사용자가 필드마다 상기 검색 결과의 정렬에 영향을 주는 상기 비율을 지정하도록 허용되는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에 나타나는 상기 검색 요구의 다수의 단어의 수를 계산하는 발생 단어수 계산 수단을 포함하여, 상기 검색 요구에 포함되는 상기 다수의 단어가 상기 타깃 문서에 동시에 나타나는 경우에, 검색된 상기 타깃 문서에 부여되는 스코어가 증가되고 상기 타깃 문서가 우선적으로 디스플레이되는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 단어의 발생 빈도와 상기 단어의 발생 위치를 포함하는 인덱스와, 검색된 상기 타깃 문서에 부여되는 스코어가 근접 정도에 따라 증가되고 상기 타깃 문서가 우선적으로 디스플레이 되도록 상기 타깃 문서에서 상기 검색 요구의 다수의 단어의 발생 위치에 대한 근접 정도를 계산하는 단어 근접 계산 수단을 포함하는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 이를 상기 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 사용자가 상기 검색 요구를 입력하도록 허용하는 검색 요구 입력 수단; 상기 사용자가 문서 스코어에 대한 문서의 필드 스코어의 영향 정도를 나타내는 비율을 입력하도록 허용하는 필드 비율 입력 수단; 상기 문서에서 상기 사전 단어의 발생 빈도를 구하도록 상기 검색 요구에 포함되는 사전 단어에 관하여 상기 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 상기 필드 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 각 문서의 필드간의 일치 정도를 나타내는 빈도 스코어를 계산하는 필드 빈도 스코어 계산 수단; 상기 필드 비율 입력 수단에 입력된 상기 비율과 상기 필드 빈도 스코어 계산 수단으로부터 출력된 상기 필드의 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 문서 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 상기 타깃 문서에서 나타나는 단어의 목록을 저장하는 발생 단어 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 유도하고 또한 이를 상기 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 발생 단어 정보를 유도하고 또한 이를 상기 발생 단어 인덱스에 보유하는 발생 단어 정보 추출 수단; 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 상기 문서 데이터의 문서에서 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 상기 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 상기 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 계산하는 빈도 스코어 계산 수단; 상기 검색 요구에 포함되는 단어 중 얼마나 많은 단어가 상기 문서에 나타나는가를 찾기 위해 상기 발생 단어 인덱스를 참조하는 발생 단어수 계산 수단; 상기 발생 단어수 계산 수단에서 얻어진 발생 단어의 수를 근거로 상기 문서에 부가되는 발생 단어 스코어를 구하는 발생 단어 스코어 계산 수단; 상기 빈도 스코어 계산 수단으로부터 출력된 상기 빈도 스코어와 상기 발생 단어수 스코어 계산 수단으로부터 출력된 상기 발생 단어 스코어를 근거로 상기 문서와 상기 검색 요구간의 일치 정도를 나타내는 상기 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 상기 타깃 문서에서 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 이를 상기 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 단어 위치 정보를 구하고 또한 이를 상기 단어 발생 위치 인덱스에 보유하는 단어 발생 위치 정보 추출 수단: 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 상기 문서 데이터의 문서에서 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 상기 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 상기 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 구하는 빈도 스코어 계산 수단; 상기 문서에서 상기 검색 요구에 포함되는 단어의 발생 위치를 구하도록 상기 단어 발생 위치 인덱스를 참조하는 발생 위치 계산 수단; 상기 단어 발생 위치 계산 수단으로부터 출력된 상기 단어 발생 위치를 근거로 상기 문서의 단어간의 근접 정도를 계산하는 단어 근접 계산 수단; 상기 단어 근접 계산 수단으로부터 출력된 근접 정도를 근거로 상기 문서에 부여되는 근접 스코어를 구하는 근접 스코어 계산 수단; 상기 빈도 스코어 계산 수단으로부터 출력된 상기 빈도 스코어와 상기 근접 스코어 계산 수단으로부터 출력된 상기 근접 스코어를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스; 사용자가 필드마다 상기 타깃 문서의 정렬에 대한 영향의 필드 비율을 지정하는 필드 비율 입력 수단; 및 상기 검색 요구에 포함되는 단어 동시 발생 관계가 상기 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 포함하고; 상기 타깃 문서가 우선적으로 디스플레이 되도록 상기 동시 발생 관계가 나타나는 상기 타깃 문서에 부여되는 스코어가 증가되는 문서 검색 시스템.
검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 필드마다 상기 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 단어 빈도 정보를 상기 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 단어 동시 발생 정보를 추출하고 또한 단어 동시 발생 정보를 상기 필드 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 문서에서 필드마다 상기 검색 요구 입력 수단을 통해 입력된 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾기 위해 상기 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 상기 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 상기 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 상기 문서의 필드에 나타나고 상기 단어 동시 발생 정보 추출 수단으로부터 출력된 상기 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾기 위해 상기 필드 단어 동시 발생 인덱스의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단; 상기 필드 단어 동시 발생 관계 점검 수단에서 얻어진 상기 검색 요구와 상기 문서의 상기 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 상기 문서의 필드마다 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산수단; 사용자가 상기 문서의 정렬에 대한 상기 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 필드 비율 입력 수단; 상기 필드 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 상기 필드 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어, 및 상기 필드 비율 입력 수단으로부터 출력된 비율을 근거로 상기 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.