KR100295354B1 - 문서 정보 검색 시스템 - Google Patents
문서 정보 검색 시스템 Download PDFInfo
- Publication number
- KR100295354B1 KR100295354B1 KR1019970021247A KR19970021247A KR100295354B1 KR 100295354 B1 KR100295354 B1 KR 100295354B1 KR 1019970021247 A KR1019970021247 A KR 1019970021247A KR 19970021247 A KR19970021247 A KR 19970021247A KR 100295354 B1 KR100295354 B1 KR 100295354B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- word
- frequency
- score
- occurrence
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
사용자가 입력한 검색 요구와 일치하여 문서를 탐색하고 또한 문서와 검색 요구간의 일치 정도에 따라 문서를 정렬하는 문서 검색 시스템이 제공된다. 문서 검색 시스템에서, 단어 빈도 계산부는 단어가 나타나는 문서의 수와 문서에서 그 단어의 발생 빈도를 찾아 그 단어에 대한 가중치 매개변수를 구하고, 빈도 스코어(score) 계산부는 단어 빈도 계산부의 출력을 근거로 빈도 스코어를 구한다. 부가하여, 단어 동시 발생 관계 점검부는 문서 및 검색 요구의 단어 동시 발생 관계를 점검하고, 동시 발생 스코어 계산부는 그들간의 일치 정도로부터 동시 발생 스코어를 계산한다. 문서 스코어 계산부는 빈도 스코어와 동시 발생 스코어를 근거로 문서 스코어를 계산한다. 문서는 문서 스코어의 순서로 정렬되어 사용자에게 디스플레이된다.
Description
본 발명은 문서 검색 시스템에 관한 것으로, 특히 많은 양의 문서 데이터 중에서 사용자가 입력한 검색 요구에 대응하는 또는 그와 일치하는 문서를 탐색하고 그들간의 일치 정도를 근거로 문서를 정렬 또는 분류하는 문서 검색 시스템에 관한 것이다.
거대한 양으로 되는 문서 데이터 베이스의 규모의 증가로 종래의 키워드(key word) 탐색 기술이나 포괄적인 검색 기술을 이용해 타깃 문서를 쉽게 탐색하는데 어려움이 자주 발생되므로, 고속으로 검색 결과를 제공할 수 있더라도 총 검색 시간의 감소는 항상 가능한 것은 아니다. 결과의 문서 수에서의 감소를 이루는 한 가능한 방법은 부가적으로 또 다른 키워드를 사용하는 것과 같은 지원 범위를 좁히는 것이지만, 필요한 문서를 놓치지 않도록 적절한 키워드를 부가하는데서 어려움을 겪게 된다. 이러한 이유로, 탐색되는 문서에서 문자열(단어)의 존재 여부에 주의를 기울이는 것에 부가하여, 고효율성으로 타깃 문서를 검색하도록 발생 빈도를 근거로 탐색된 문서를 정렬(순차화)하는 주목할만한 방법이 공지되어 있다.
제27도는 검색 결과를 순차화하는 종래 문서 검색 시스템의 배열을 도시하는 블록도이다. 제27도에 도시된 바와 같이, 문서 검색 시스템은 검색하의 문서 데이터(3101), 사전(3102), 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(3103), 문서 데이터(3101)로부터 단어 발생 빈도 정보를 얻기 위한 단어 빈도 정보 추출 수단(3104), 사용자가 입력한 검색 요구를 수신하는 검색 요구 입력 수단(3105), 단어 빈도 인덱스(3103)로부터 단어 발생 빈도를 계산하는 단어 빈도 계산 수단(3106), 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단, 빈도 스코어를 근거로 각 문서와 검색 요구간의 일치 정도를 나타내는 문서 스코어를 계산하는 문서 스코어 계산 수단(3108), 문서 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(3109), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(3110)으로 구성된다.
제28도는 검색 결과를 순차화하는 종래 문서 검색 시스템의 검색 절차를 도시하는 흐름도이다. 먼저, 검색 이전에 단어 빈도 정보 추출 수단(3104)은 단어 빈도 인덱스가 앞서 구성된 단어 빈도 인덱스(3103)에 발생하는 문서의 수 및 문서의 총 수와 함께 실제로 출력되는 단어 빈도 정보를 얻도록 문서 데이터(3101)를 참조한다. 단계(4201)에서, 검색을 실행하려하는 사용자는 검색 입력 수단(3105)을 통해 검색 요구를 입력하고, 단계(4202)에서는 단어 빈도 계산 수단(3106)이 문서 Dj(j=1, 2, ..., ND)에서 검색 요구 입력 수단(3705)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi (i= 1, 2, ..., NW이고, 여기서 NW는 검색 요구에 포함된 사전 단어의 수에 대응한다)의 발생 빈도 TFij를 계산하고 또한 그 단어가 나타나는 문서의 수 NDi를 계산하도록 단어 빈도 인덱스(3103)를 참조한다.
더욱이, 단계(4203)에서는 빈도 스코어 계산 수단(3107)이 단어 빈도 계산 수단(3106)의 출력을 근거로 식(1)에 따라 문서 Dj의 빈도 스코어 SFj를 계산한다.
여기서, IDFi는 모든 문서에서 단어 Wi의 바이어스(bias)를 나타내는 매개 변수이다.
또한, 단계(4204)에서는 문서 스코어 계산 수단(3108)이 빈도 스코어 계산 수단(3107)으로부터 출력된 문서 Dj의 빈도 스코어 SFj를 근거로 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 구한다. 종래의 검색 시스템에서, 문서 스코어 Sj는 식(2)로부터 발견되는 바와 같이 빈도 스코어 SFj이다.
더욱이, 단계(4205)에서는 문서 정렬 수단(3109)이 문서 스코어 계산 수단(3108)에서 계산된 문서 스코어의 순서로 검색 결과를 재배열하고 검색 결과 디스플레이 수단(3110)이 사용자에게 검색 결과를 도시하는 단계(4206)로 이어진다.
그러나, 상술된 종래의 배열에 따라, 제29도에 도시된 바와 같이 검색 요구에 포함되는 한 단어가 매우 높은 빈도로 발생되는 경우에, 사용자의 검색 의도에 반한 문서조차도 더 높은 순서로 정렬되는 점에서 문제가 일어난다. 부가하여, 검색하에서 문서를 정렬하는데 사용되는 스코어의 계산이 필드에 관계없이 문서 단위로 이루어지므로, 논문의 서두나 특허 출원서에서의 발명의 제목과 같은 정보가 실질적으로 사용되는 것이 어렵게 된다.
그 외에, 다양한 문제점이 있다: 다수의 검색 요구를 하는 경우, 이러한 검색 요구에 우선 순위가 부여될 수 없어 사용자의 요구를 탄력적으로 표현하는 것이 어렵고; 필요한 모든 단어를 포함하는 단어의 그룹이 검색 요구로 부여되는 경우, 한 단어가 매우 높은 빈도로 발생되면, 그 문서는 높은 순서로 되고; 또한 검색 요구로 폐쇄된 조건에서 발생을 요구하는 단어의 그룹을 표현하고 그를 탐색하는데 어려움을 겪는다.
그러므로, 본 발명의 목적은 사용자로부터 검색 요구를 탄력적으로 수신하고 거절(불필요한 데이터)되지 않는 정확한 검색 결과를 제공하도록 검색 및 정렬 동작을 행하며 검색 결과의 범위를 줄이는 것과 같은 방법으로 전체적으로 검색 시간을 짧게 할 수 있는 문서 검색 시스템을 제공하는 것이다.
제1도는 본 발명의 실시예 1에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제2도는 본 발명의 실시예 1에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제3도는 본 발명의 실시예 2에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제4도는 본 발명의 실시예 2에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제5도는 본 발명의 실시예 3에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제6도는 본 발명의 실시예 3에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제7도는 본 발명의 실시예 4에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제8도는 본 발명의 실시예 4에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제9도는 본 발명의 실시예 5에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제10도는 본 발명의 실시예 5에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제11도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제12도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제13도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제14도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제15도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제16도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제17도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제18도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제19도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제20도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제21도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제22도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제23도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제24도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제25도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제26도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제27도는 종래의 문서 검색 시스템의 배열을 도시한 블록도.
제28도는 종래의 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제29도는 종래의 문서 검색 시스템의 검색예를 설명한 도면.
* 도면의 주요부분에 대한 부호의 설명
101 : 문서 데이터 102 : 사전
103 : 단어 빈도 인덱스 104 : 동시 단어 발생 인덱스
105 : 단어 빈도 정보 추출 수단 106 : 단어 동시 발생 정보 추출 수단
107 : 검색 요구 입력 수단 108 : 단어 빈도 계산 수단
109 : 빈도 스코어 계산 수단 110 : 단어 동시 발생 정보 추출 수단
본 발명의 한 특성에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 보유하는 인덱스, 다수의 검색 요구 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 존재하는가를 보기 위한 단어 동시 발생 관계 점검 수단을 구비하고, 다른 우선도를 갖는 다수의 검색 요구는 사용자에 의해 입력되고, 단어 동시 발생 관계가 일어나는 타깃 문서에 부여되는 스코어는 증가되고, 또한 그 문서는 우선적으로 디스플레이된다. 이는 사용자가 원하는 문서의 정확한 검색을 허용한다.
본 발명의 또 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 정보 탐색 결과를 정렬하는 문서 검색 시스템에서는 사용자가 다른 우선도(우선 순위)를 갖는 다수의 검색 요구를 입력하도록 다수의 검색 요구 입력 수단이 제공되고, 그 결과로 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서의 다수의 필드 각각에 대해 인덱스 정보를 갖고, 사용자가 검색된 문서의 정렬에 영향을 주는(가중치를 주는) 필드의 비율을 지정하는 것을 허용하도록 필드 비율 입력 수단을 포함한다. 이는 사용자가 필드마다 타깃 문서의 정렬에 영향을 주는 비율을 지정하는 것을 허용하고, 그 결과로 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서도 또한 나타나는 다수의 검색 요구의 단어 수를 계산하도록 발생 단어 수 계산 수단을 포함한다. 검색 요구에 포함되는 다수의 단어가 타깃 문서에서 동시에 나타나는 경우, 검색된 타깃 문서에 부여되는 스코어는 증가되고 그 타깃 문서는 우선적으로 디스플레이된다. 그래서, 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 위치와 단어 발생 빈도를 포함하는 인덱스와, 근접 정도에 따라 타깃 문서에 부여되는 스코어가 증가되고 그 타깃 문서가 우선적으로 디스플레이되도록 타깃 문서에서 검색 요구의 다수의 단어 발생 위치의 근접(접근) 정도를 계산하는 단어 근접 계산 수단을 구비한다. 따라서, 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
더욱이, 본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타내는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 단어 빈도 인덱스에 저장하도록 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단; 단어 동시 발생 인덱스에 저장하도록 문서 데이터로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서 데이터의 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단을 통해 얻어진 단어 발생 빈도를 근거로 검색 요구와 문서간의 일치 정도를 나타내는 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단; 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 단어 동시 발생 정보 추출 수단으로부터 출력되고 검색 요구에 포함되는 단어 동시 발생 관계가 얼마나 많이 문서에서 나타나는가를 보도록 단어 동시 발생 인덱스를 참조하는 단어 동시 발생 관계 점검 수단; 검색 요구와 문서에 공통으로 나타나는 단어 동시 발생 관계량을 근거로 문서의 동시 발생 스코어를 계산하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단의 출력과 동시 발생 스코어 계산 수단의 출력을 근거로 문서 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 단어 빈도 인덱스에 저장하도록 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단; 사용자가 우선적으로 다루어질 제 1 검색 요구를 입력하는 것을 허용하는 1차 검색 요구 입력 수단; 사용자가 제 1 검색 요구보다 더 낮은 우선도를 갖는 제 2 검색 요구를 입력하는 것을 허용하는 2차 검색 요구 입력 수단; 문서 데이터의 문서에서 제 1 및 제 2 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 제 1 및 제 2 검색 요구 중 하나와 문서간의 일치 정도를 나타내는 문서의 빈도 스코어를 계산하기 위한 빈도 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어를 근거로 제 1 및 제 2 검색 요구와 문서를 나타내는 문서의 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단: 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 필드마다 타깃 문서에서 사전단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 이를 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 사용자가 검색 요구를 입력하는 것을 허용하는 검색 요구 입력 수단; 사용자가 문서 스코어에 대한 문서의 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 것을 허용하는 필드 비율 입력 수단; 필드마다 문서에서 사전 단어의 발생 빈도를 얻기 위해 검색 요구에 포함된 사전 단어에 관하여 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 각 문서의 필드와 검색 요구간의 일치 정보를 나타내는 빈도 스코어를 계산하기 위한 필드 빈도 스코어 계산 수단; 필드 빈도 스코어 계산 수단으로부터 출력된 필드의 단어 발생 빈도와 필드 비율 입력 수단에 입력된 비율을 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단, 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 유도하고 또한 단어 빈도 인덱스에 이를 저장하는 단어 빈도 정보 추출 수단; 사용자가 정보 탐색 요구를 입력하는 정보 탐색 요구 입력 수단; 문서 데이터의 문서에서 타깃 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 계산하기 위한 빈도 스코어 계산 수단; 검색 요구에 포함되는 단어가 문서에서 얼마나 많이 나타나는가를 보도록 단어 빈도 인덱스를 참조하는 발생 단어 수 계산 수단; 발생 단어 수 계산 수단에서 얻어진 발생 단어의 수를 근거로 문서에 부가되는 발생 단어 스코어를 구하기 위한 발생 단어 스코어 계산 수단: 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 발생 단어 수 스코어 계산 수단으로부터 출력된 발생 단어 스코어를 근거로 검색 요구와 문서간의 일치 정도를 나타내는 문서의 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 이를 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 위치 정보를 구하고 또한 이를 단어 발생 위치 인덱스에 보유하는 단어 발생 위치 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력수단; 문서 데이터의 문서에서 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 발생 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 얻기 위한 빈도 스코어 계산 수단; 문서에서 검색 요구에 포함되는 단어의 발생 위치를 얻기 위해 단어 발생 위치 인덱스를 참조하는 발생 위치 계산 수단; 단어 발생 위치 계산 수단으로부터 출력된 단어 발생 위치를 근거로 문서의 단어간 근접 정도를 계산하는 단어 근접 계산 수단; 단어 근접 계산 수단으로부터 출력된 근접 정도를 근거로 문서에 부여된 근접 스코어를 구하는 근접 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 근접 스코어 계산 수단으로부터 출력된 근접 스코어를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단 914; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 필드마다 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 사용자가 타깃 문서의 정렬에 영향을 주는 필드의 비율을 지정하는 것을 허용하는 필드 비율 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 구비하고, 단어 동시 발생 관계가 나타나는 타깃 문서에 부여된 스코어는 타깃 문서가 우선적으로 디스플레이되도록 필드마다 증가된다. 이는 사용자가 원하는 문서가 높은 정확도로 검색되는 것을 허용한다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 타깃 문서에 또한 나타나는 검색 요구의 다수의 단어수를 계산하는 발생 단어 계산 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 단어 동시 발생 관계 점검 수단을 구비하고, 검색 요구에 포함되는 다수의 단어가 동시에 타깃 문서에도 나타나 단어 동시 발생 관계가 타깃 문서에 나타나는 경우, 타깃 문서가 우선적으로 디스플레이되도록 타깃 문서에 부여된 스코어가 증가된다. 이러한 배열은 사용자가 원하는 문서가 높은 정확도로 검색되는 것을 허용한다.
더욱이, 본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타나는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 추출된 단어 빈도 정보를 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 동시 발생 정보를 추출하고 또한 추출된 단어 동시 발생 정보를 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 중요성을 부여한 1차 검색 요구를 입력하는 것을 허용하는 1차 검색 요구 입력 수단; 사용자가 1차 검색 요구와 비교해 더 낮은 중요성을 부여한 2차 검색 요구를 입력하는 것을 허용하는 2차 검색 요구 입력 수단; 문서에서 1차 검색 요구 입력 수단과 2차 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단; 1차 검색 요구 입력 수단과 2차 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서에서 나타나고 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 구하기 위해 단어 동시 발생 인덱스의 내용을 참조하는 단어 동시 발생 관계 점검 수단; 검색 요구 및 문서에서 공통으로 나타나고 단어 동시 발생 관계 점검 수단에 의해 얻어진 단어 동시 발생 관계의 수를 근거로 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어를 근거로 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 필드마다 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 단어 빈도 정보를 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 동시 발생 정보를 추출하고 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력 수단; 필드 마다 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾기 위해 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서의 한 필드에서 나타나고 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾기 위해 필드 단어 동시 발생 인덱스의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단; 필드 단어 동시 발생 관계 점검 수단에서 얻어진 검색 요구와 문서의 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 문서의 필드마다 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산 수단; 사용자가 문서의 정렬에 대한 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 필드 비율 입력 수단; 필드 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 필드 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어, 및 필드 비율 입력 수단으로부터 출력된 비율을 근거로 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에서 일어나는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 단어 빈도 정보를 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 단어 동시 발생 정보를 단어 동시 발생 인덱스에 놓기 위해 문서 데이터로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력 수단; 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에 의해 얻어진 단어 빈도를 근거로 문서의 빈도 스코어를 구하는 빈도 스코어 계산 수단; 문서에 나타나고 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 수를 구하기 위해 단어 빈도 인덱스를 참조하는 발생 단어수 계산 수단; 발생 단어수 계산 수단에 의해 얻어진 발생 단어수를 근거로 발생 단어수 스코어를 계산하는 발생 단어수 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서에 나타나는 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구의 단어 동시 발생관계의 수를 계산하기 위해 단어 동시 발생 인덱스를 참조하는 단어 동시 발생 관계 점검 수단; 단어 동시 발생 관계 점검 수단에 의해 얻어지고 검색 요구와 문서에 공통으로 발생하는 단어 동시 발생 관계의 수를 근거로 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 발생 단어수 스코어 계산 수단으로부터 출력된 발생 단어수 스코어, 및 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어를 근거로 문서의 최종적인 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
이후에는 본 발명의 실시예가 도면을 참조로 설명된다.
[실시예 1]
제1도는 본 발명에 따른 문서 검색 시스템의 배열을 도시한 블록도이다. 제1도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(101), 사전(102), 타깃 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(103), 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(104), 문서 데이터(101)로부터 단어 빈도 정보를 추출하고 또한 이를 단어 빈도 인덱스(103)에 저장하는 단어 빈도 정보 추출 수단(105), 문서 데이터(101)로부터 단어 동시 발생 정보를 추출하고 또한 이를 단어 동시 발생 인덱스(104)에 보유하는 단어 동시 발생 정보 추출 수단(106), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(107), 문서에서 검색 요구 입력 수단(107)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 구하기 위해 단어 빈도 인덱스(103)를 참조하는 단어 빈도 계산 수단(108), 단어 빈도 계산 수단(108)을 통해 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(109), 검색 요구 입력 수단(107)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(110), 단어 동시 발생 정보 추출 수단(110)이 출력한 검색 요구에 포함되는 단어 동시 발생 관계가 얼마나 많이 각 문서에 나타나는가를 보도록 단어 동시 발생 인덱스(104)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(111), 단어 동시 발생 관계 점검 수단(111)에 의해 얻어지고 검색 요구와 문서에 공통으로 나타나는 단어 동시 발생 관계의 정도를 근거로 각 문서의 동시 발생 스코어를 계산하는 동시 발생 스코어 계산 수단(112), 빈도 스코어 계산 수단(109)의 출력과 동시 발생 스코어 계산 수단(112)의 출력을 근거로 문서 스코어를 계산하는 문서 스코어 계산 수단(113), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(114), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(115)으로 구성된다.
제2도는 본 발명의 실시예 1에 따라 문서 검색 시스템의 검색 동작을 도시한 도면이다. 검색에 앞서, 단어 빈도 정보 추출 수단(105)은 단어가 단어 빈도 인덱스(103)에 존재하는 문서의 수 및 문서의 총 수와 함께 실제로 출력되는 단어 빈도 정보를 미리 찾도록 문서 데이터(101)를 주사하고, 단어 동시 발생 정보 추출 수단(106)은 각 문서에서 단어 동시 발생 정보를 구하고 인덱스를 구성하기 위해 이를 단어 동시 발생 인덱스(104)로 출력하도록 문서 데이터(101)를 주사한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에 나타나는 한 쌍의 단어가 서로 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.
단계(201)에서, 사용자는 검색 요구 입력 수단(107)의 사용을 통해 문자의 형태로 타깃 문서에 대한 검색 요구를 입력한다. 단계(202)에서, 단어 빈도 계산 수단(108)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(107)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서, NW는 검색 요구에 포함되는 사전 단어의 총 수에 대응한다)의 발생 빈도 FTij, 및 그 단어가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(103)를 참조하고 이를 빈도 스코어 계산 수단(109)으로 출력한다.
단계(203)에서, 빈도 스코어 계산 수단(109)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 단어 빈도 계산 수단(108)으로부터 출력된 문서 Dj내의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도로 인한 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFj를 얻기 위해 문서 Dj의 빈도 스코어에 부가된다.
단계(204)에서, 단어 동시 발생 정보 추출 수단(110)은 인덱스 제작에서 취해진 것과 같은 방법에 따라 검색 요구 입력 수단(107)을 통해 입력되는 검색 요구로부터 단어 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서, NC는 검색 요구내에 포함된 단어 동시 발생 관계의 수를 나타낸다)를 추출한다. 단계(205)에서, 단어 동시 발생 관계 점검 수단(111)은 단어 동시 발생 정보 추출 수단(110)이 제공하고 검색 요구의 단어 동시 발생 관계 Ck와 일치하는 문서 Dj에서 일어나는 단어 동시 발생 관계의 수를 계산하도록 단어 동시 발생 인덱스(104)를 참조하고, 또한 계산 결과를 동시 발생 스코어 계산 수단(112)에 출력한다.
단계(206)에서, 동시 발생 스코어 계산 수단(112)은 검색요구와 문서에서 서로 일치하는 단어 동시 발생 관계의 수를 근거로 문서 Dj의 동시 발생 스코어 SCj를 계산한다. 가장 간단한 예의 경우, 동시 발생수는 직접적으로 식(3)에 의해 표시된 바와 같은 동시 발생 스코어 SCj로 사용된다.
단계(207)에서, 문서 스코어 계산 수단(113)은 빈도 스코어 계산 수단(109)으로부터 출력된 빈도 스코어와 동시 발생 스코어 계산 수단(112)으로부터 출력된 동시 발생 스코어를 근거로 식(4)에 따라 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
단계(208)에서, 문서 정렬 수단(114)은 문서 스코어 계산 수단(113)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(209)에서, 검색 결과 디스플레이 수단(115)은 문서 정렬 수단(114)의 출력으로부터 부여된 분류된 문서를 검색 결과로서 사용자에게 디스플레이한다.
상술된 바와 같이, 단어 빈도에 부가하여, 정렬에 대한 영향은 검색 요구와 타깃 문서에 포함되는 단어 동시 발생 관계를 고려해 결정되므로, 사용자의 검색 의도에 더 가까운 문서가 검색 결과에서 보다 의미있는 정렬로 디스플레이될 수 있고 효과적인 검색이 가능하다.
[실시예 2]
제3도는 본 발명의 실시예 2에 따라 문서 검색 시스템의 배열을 도시하는 블록도이다. 제3도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(301), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(303), 단어 빈도 인덱스(303)에 저장하도록 문서 데이터(301)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(304), 사용자가 우선적으로 다루어지기를 원하는 검색 요구를 입력하도록 허용하는 1차 검색 요구 입력 수단(305), 사용자가 1차 검색 요구 보다 더 낮은 우선도를 갖는 검색 요구를 입력하도록 허용하는 2차 검색 요구 입력 수단(306), 각 문서에서 1차 검색 요구 입력 수단(306)과 2차 검색 요구 입력 수단(306)를 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스(303)를 참조하는 단어 빈도 계산 수단(307), 단어 빈도 계산 수단(307)에서 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(308), 빈도 스코어 계산 수단(308)의 출력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(309), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(310), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(311)으로 구성된다.
제4도는 본 발명의 실시예 2에 따라 문서 검색 시스템의 검색 결과를 도시한 흐름도이다.
먼저, 검색에 앞서 단어 빈도 정보 추출 수단(304)은 각 문서에서 사전(302) 중 사전 단어의 발생 빈도를 찾도록 문서 데이터(301)를 주사하고, 문서의 총 수 및 단어가 나타나는 문서의 수와 함께 발생 빈도는 인덱스를 구성하도록 단어 빈도 인덱스(303)로 출력된다.
단계(401)에서, 사용자는 1차 검색 요구 입력 수단(305)의 사용을 통해 탐색하려고 의도하는 문서에 대한 검색 요구를 1차 검색 요구로 입력하는 반면, 단계(402)에서, 사용자는 2차 검색 요구 입력 수단(306)의 사용을 통해 비교적 낮은 중요성을 갖는 문서에 대한 검색 요구를 2차 검색 요구로 입력한다.
단계(403)에서, 단어 빈도 계산 수단(307)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 1차 검색 요구 입력 수단(305)과 2차 검색 요구 입력 수단(306)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ... NW. 여기서, NW는 검색 요구에 포함되는 사전 단어의 총 수에 대응한다)의 발생 빈도 TFij, 및 그 단어가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(303)를 참조하고 이를 빈도 스코어 계산 수단(308)으로 출력한다. 단계(404)에서, 단어 빈도 계산 수단(307)은 단어 Wi가 1차 검색 요구나 2차 검색 요구에 포함되는가 여부에 따라 매개변수 WTi를 취한다. 또한, 단계(405)에서, 빈도 스코어 계산 수단(308)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 문서 Dj에서 단어 Wi의 발생 빈도 TFij, 및 단어 빈도 계산 수단(307)이 출력한 단어 Wi의 가중치 매개변수 WTi를 근거로 단어 빈도를 근거로 하는 문서 Dj와 다음의 식(5)에 따른 검색 요구간의 일치 정보를 나타나는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어는 빈도 스코어 SFj를 구하도록 문서 Dj의 빈도 스코어에 부가된다.
여기서 , IDFi는 모든 문서에서 단어 Wi의 바이어스를 나타내는 매개변수이다.
단계(406)에서, 문서 스코어 계산 수단(309)은 빈도 스코어 계산 수단(308)으로부터 출력된 빈도 스코어의 함수로 상술된 식(2)에 따른 검색 요구와 문서 Dj 간의 일치 정도를 나타내는 문서 스코어 Sj를 계산하다. 단계(407)에서, 문서 정렬 수단(310)은 문서 스코어 계산 수단(309)로부터의 각 문서 Dj에 대한 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(407)에서 검색 결과 디스플레이 수단(311)은 문서 정렬 수단(310)의 출력으로부터 얻어진 분류된 문서를 검색 결과로서 사용자에게 디스플레이 한다.
상술된 바와 같이, 사용자가 입력한 각 검색 요구에는 우선도가 부여되므로, 사용자의 검색 의도를 탄력적으로 표현하고 효과적인 검색을 이루는 것이 가능하다.
[실시예 3]
제5도는 본 발명의 실시예 3에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제5도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(501), 사전(502), 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스(503), 문서 데이터(501)로부터 단어 빈도 정보를 추출하고 이를 필드 단어 빈도 인덱스(503)에 놓는 단어 빈도 정보 추출 수단(504), 사용자가 검색 요구를 입력하도록 허용하는 검색 요구 입력 수단(505), 사용자가 문서 스코어에 대한 일부 필드 문서의 스코어의 영향 정보를 나타내는 비율을 입력하도록 허용하는 필드 비율 입력 수단(506), 각 문서에서의 발생 빈도를 구하도록 검색 요구 입력 수단(505)을 통해 입력된 검색 요구에 포함되는 사전 단어에 관하여 필드 단어 빈도 인덱스(503)를 참조하는 필드 단어 빈도 계산 수단(507), 필드 단어 빈도 계산 수단(507)에서 얻어진 단어 빈도를 근거로 각 문서의 각 필드에서 빈도 스코어를 계산하는 필드 빈도 스코어 계산 수단(508), 필드 빈도 스코어 계산 수단(508)의 출력과 필드 비율 입력 수단(506)으로의 입력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(509), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(510), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(511)으로 구성된다.
제6도는 본 발명의 실시예 3에 따라 문서 검색 시스템의 검색 동작을 도시한 흐름도이다. 검색에 앞서 단어 빈도 정보 추출 수단(504)은 각 문서에서 사전(502)에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(501)를 주사하고, 이를 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 인덱스가 앞서 구성된 필드 단어 빈도 인덱스(503)로 출력된다.
단계(601)에서는 검색 요구 입력 수단(505)을 통해 사용자가 원하는 검색 요구를 입력한다. 단계(602)에서는 필드 비율 입력 수단(506)을 통해 사용자가 정렬에 대한 필드 Fk(k = 1, 2, ..., NF. 여기서 NF는 필드의 총수를 나타낸다)의 스코어의 영향 비율 Rk을 입력한다.
단계(603)에서, 필드 단어 빈도 계산 수단(507)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)의 필드 Fk에서 검색 요구 입력 수단(505)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFijk를 구하도록 필드 단어 빈도 인덱스(503)를 참조하고, 이를 필드 빈도 스코어 계산 수단(508)으로 출력한다.
단계(604)에서, 필드 빈도 스코어 계산 수단(508)은 문서의 총 수 ND, 필드 Fk에서 단어 Wi가 나타나는 문서의 수 NDik, 및 필드 단어 빈도 계산 수단(507)으로부터 출력된 문서 Dj의 필드 Fk에서 단어 Wi의 발생 빈도 TFijk를 근거로 다음의 식(6)에 따른 검색 요구와 단어 빈도를 근거로 하는 문서 Dj의 필드 Fk간의 일치 정도를 나타내는 빈도 스코어 SFjk를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFjk를 구하도록 문서 Dj의 필드 Fk의 빈도 스코어에 부가된다.
단계(605)에서, 문서 스코어 계산 수단(509)은 필드 빈도 스코어 계산 수단(508)으로부터 출력된 각 필드의 빈도 스코어와 스코어 필드 비율 입력 수단(506)에 입력된 필드 Fk의 영향 비율 Rk을 근거로 다음의 식(7)에 따른 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다. 즉, 문서 스코어 Sj에 대해 문서 Dj의 필드 Fk의 빈도 스코어 SFjk가 부가되는 계산은 필드 비율 Rk의 함수로 이루어진다.
단계(606)에서, 문서 정렬 수단(510)은 문서 스코어 계산 수단(509)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(607)에서, 검색 결과 디스플레이 수단(511)은 문서 정렬 수단(510)의 출력으로부터 주어진 분류된 문서를 검색 결과로 사용자에게 디스플레이한다.
상술된 바와 같이, 사용자는 검색 필드의 스코어 할당 비율을 변화시킬 수 있으므로, 사용자의 검색 의도를 탄력적으로 표현하고 또한 효과적인 검색을 이루는 것이 가능하다.
[실시예 4]
제7도는 본 발명의 실시예 4에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제7도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(701), 사전(702), 타깃 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(703), 문서 데이터(701)로부터 단어 빈도 정보를 유도하고 이를 단어 빈도 인덱스(703)에 저장하는 단어 빈도 정보 추출 수단(705), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(707), 문서에서 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 단어 빈도 인덱스(703)를 참조하는 단어 빈도 계산 수단(708), 단어 빈도 인덱스 계산 수단(708)에서 얻어진 단어 빈도를 근거로 각 문서의 스코어를 계산하는 빈도 스코어 계산 수단(709), 검색 요구 입력 수단(707)를 통해 입력된 검색 요구에 포함되는 단어가 얼마나 많이 문서에 나타나는가를 찾아 보도록 단어 빈도(703)를 참조하는 발생 단어수 계산 수단(710), 발생 단어수 계산 수단(710)에서 얻어진 발생 단어수를 근거로 각 문서에 부가되는 스코어를 구하는 발생 단어수 스코어 계산 수단(711), 빈도 스코어 계산 수단(709)과 발생 단어수 스코어 계산 수단(711)의 출력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(712), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(713), 및 스코어의 순서로 배열된 결과 문서를 디스플레이하는 검색 결과 디스플레이 수단(714)으로 구성된다.
제8도는 본 발명의 실시예 4에 따라 문서 검색 시스템의 검색 동작을 도시한 흐름도이다. 검색에 앞서 단어 빈도 정보 추출 수단(705)은 각 문서에서 사전(702)에 포함되는 사전 단어의 발생 빈도를 찾도록 문서 데이터(701)를 주사하고, 또한 인덱스를 구성하도록 문서의 총수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(703)로 출력한다.
단계(801)에서는 검색 요구 입력 수단(707)을 통해 사용자가 탐색하는 문서에 대한 검색 요구를 입력한다. 검색 요구로서 다수의 단어를 입력하거나 문장을 입력하고 단어 추출 수단의 부가적인 사용을 통해 문장에서 단어를 유도하는 것이 적절하다.
단계(802)에서, 단어 빈도 계산 수단(708)은 문서의 총 수 N를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 다수의 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(703)를 참조하고, 이를 또한 빈도 스코어 계산 수단(709)으로 출력한다.
단계(803)에서, 빈도 스코어 계산 수단(709)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도로 인한 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFj를 구하도록 문서 Dj의 빈도 스코어에 부가된다.
단계(804)에서, 발생 단어수 계산 수단(710)은 단계(802) 이전에 이미 구해진 복수의 단어 Wi 중에서 문서 Dj에 나타나는 정보를 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 다수의 단어 Wi 및 발생 단어수 스코어 계산 수단(711)에 출력되어 계산된 문서 Dj에 나타나는 다수의 단어 Wi의 단어수 NAj와 비교한다.
단계(805)에서, 발생 단어수 스코어 계산 수단(711)은 예를 들면, 다음의 식(8)에 따라 문서 Dj에서 발생하는 단어의 수 NAj를 근거로 발생 단어수 계산 수단(710)으로부터 출력된 검색 요구에 포함되는 단어의 발생 단어수 스코어 SAj를 계산한다.
단계(806)에서, 문서 스코어 계산 수단(712)은 빈도 스코어 계산 수단(709)이 출력한 빈도 스코어 SFj와 발생 단어수 스코어 계산 수단(711)이 출력한 발생 단어수 스코어 SAj를 근거로 다음의 식(9)에 따라 문서 Dj와 검색 요구간의 일치정도를 나타내는 스코어 Sj를 계산한다.
발생 단어 스코어 SAj의 제시는 검색 요구가 갖는 단어를 포함하여 문서의 스코어를 더 증가시킬 수 있으므로, 우선적인 디스플레이가 실행될 수 있다. 부가하여, 발생 단어의 수를 근거로 하는 우선적인 디스플레이의 정도는 식(9)에서 상수값을 변화시키는 방법으로 가변적이 된다.
단계(807)에서, 문서 정렬 수단(713)은 문서 스코어 계산 수단(712)으로부터 출력된 문서 스코어 Sj의 감소 순서로 문서 Dj를 재배열한다. 또한 단계(808)에서, 검색 결과 디스플레이 수단(714)은 문서 정렬 수단(713)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 도시한다.
상술된 바와 같이, 검색 요구가 다수의 단어를 포함하는 경우, 하나의 고빈도 단어만을 포함하는 문서가 검색 결과에서 높게 정렬되는 것을 방지할 수 있어 효과적인 검색이 가능해진다.
[실시예 5]
제9도는 본 발명의 실시예 5에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제9도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(901), 사전(902), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(903), 타깃 문서에서 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스(904), 문서 데이터(901)로부터 단어 빈도 정보를 추출하고 이를 단어 빈도 인덱스(903)에 저장하는 단어 빈도 정보 추출 수단(905), 문서 데이터(901)로부터 단어 위치 정보를 얻고 이를 단어 발생 위치 인덱스(904)에 보유하는 단어 발생 위치 정보 추출 수단(906), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(907), 문서에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 주파수를 계산하도록 단어 빈도 인덱스(903)를 참조하는 단어 빈도 계산 수단(908), 단어 빈도 계산 수단(908)에서 얻어진 단어 빈도를 근거로 각 문서의 스코어를 구하는 빈도 스코어 계산 수단(909), 문서에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에 포함되는 단어의 발생 위치를 구하도록 단어 발생 위치 인덱스(904)를 참조하는 발생 위치 계산 수단(910), 단어 발생 위치 계산 수단(910)의 출력을 근거로 단어간의 근접 정도를 계산하는 단어 근접 계산 수단(911), 단어 근접 계산 수단(911)의 출력을 근거로 각 문서에 부가되는 스코어를 구하는 근접 스코어 계산 수단(912), 빈도 스코어 계산 수단(909)과 근접 스코어 계산 수단(912)의 출력을 근거로 각 문서의 스코어를 계산하는 문서 스코어 계산 수단(913), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(914), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(915)으로 구성된다.
제10도는 본 발명의 실시예 5에 따라 검색 동작을 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(905)은 각 문서에서 사전(902)의 사전 단어 발생 빈도를 찾아 이를 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 단어 빈도 인덱스(903)로 출력하도록 문서 데이터(901)를 주사하는 반면, 단어 발생 위치 정보 추출 수단(906)은 각 문서에서 사전 단어의 발생 위치를 발견하여 인덱스가 구성되도록 단어 발생 위치 인덱스(904)로 출력한다.
단계(1001)에서는 검색 요구 입력 수단(907)을 통해 사용자가 타깃 문서에 대한 검색 요구로서 다수의 단어를 입력한다. 사용자는 검색 요구로 문장을 입력하고 부가적으로 제공된 단어 추출 수단을 사용해 문장으로부터 단어를 유도하는 것이 또한 적절하다.
단계(1002)에서, 단어 빈도 계산 수단(908)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에서 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 알도록 단어 빈도 인덱스(903)를 참조하고, 또한 이들을 빈도 스코어 계산 수단(909)으로 출력한다.
단계(1003)에서, 단어 발생 위치 계산 수단(910)은 문서 Dj에서 검색 요구 입력 수단(907)을 통해 입력된 다수의 단어 Wi의 모든 발생 위치를 구하도록 단어 발생 위치 인덱스(904)를 참조하고, 이들을 단어 근접 계산 수단(911)으로 출력한다. 단계(1004)에서, 빈도 스코어 계산 수단(909)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도를 근거로 하는 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어는 문서 Dj의 빈도 스코어에 부가되어 빈도 스코어 SFj를 계산한다.
단계(1005)에서. 단어 근접 계산 수단(911)은 단어 발생 위치 계산 수단(910)으로부터 출력된 문서 Dj내의 각 단어 Wi의 발생 위치 및 그의 단어 길이를 근거로 다른 단어의 모든 발생 위치의 조합 Pk(k = 1, 2, ..., NP. 여기서 NP는 다른 단어의 모든 발생 위치의 조합수에 대응한다)에 관하여 두 단어간의 거리 DSTjk를 계산하고, 단계(1006)에서는 DSTjk로부터 단어 근접치 NEjk를 계산한다. 예를들면, 단어 근접치 NEjk는 다음의 식(10)에 의해 부여될 수 있다.
부수적으로, 모든 조합의 단어 근접 정도를 구하는 것은 많은 계산치를 요구하므로, d 이하의 거리 DSTjk를 갖는 발생 위치의 조합에 대해서만 계산이 이루어지도록 한계값 d를 설정하거나 사용자가 근접치의 계산을 행하는 단어쌍을 제한하는 것이 가능하다.
단계(1007)에서, 근접 스코어 계산 수단(912)은 단어 근접 계산 수단(911)의 출력인 단어 근접치 NEjk의 함수로 다음의 식(11)에 따라 각 문서 Dj의 근접 스코어 SNj를 계산한다. 특히, 계산되는 단어 근접치 NEjk는 문서 Dj의 근접 스코어에 부가되고, 그에 의해 근접 스코어 SNj를 구한다.
단계(1008)에서, 문서 스코어 계산 수단(913)은 빈도 스코어 계산 수단(909)의 출력인 빈도 스코어 SFj와 근접 스코어 계산 수단(912)의 출력인 근접 스코어 SNj를 근거로 스코어 Sj, 즉 다음의 식(12)에 따른 문서 Dj와 검색 요구가의 일치정도를 계산한다.
이와 같이, 근접 스코어 SNj의 제시는 검색 요구에 포함되는 다른 단어가 서로 근접한 관계로 나타나는 문서의 스코어를 올릴 수 있어 우선적인 디스플레이를 허용한다. 부가하여, 상술된 식(12)에서의 상수값 변화는 단어 근접 정도를 근거로 하는 우선적인 디스플레이의 변화를 허용한다.
단계(1009)에서, 문서 정렬 수단(914)은 문서 스코어 계산 수단(913)으로부터 출력된 각 문서 Dj의 문서 스코어 감소 순서로 문서를 재배열한다. 또한, 단계(1010)에서, 검색 결과 디스플레이 수단(915)은 문서 정렬 수단(914)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 도시한다.
상술된 배열로, 검색 요구에 포함되는 다수의 단어가 서로 근접한 위치로 발생되지 않으면 검색 요구를 할 필요가 없는 경우, 불필요한 문서를 더 높은 순위로 가정하는 부당함을 방지할 수 있어 효과적인 검색이 이루어진다.
[실시예 6]
제11도는 본 발명의 실시예 6에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제11도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(1401), 사전(1402), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(1403), 타깃 문서에 나타나는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(1404), 문서 데이터(1401)로부터 단어 빈도 정보를 추출하고 이를 단어 빈도 인덱스(1403)에 놓는 단어 빈도 정보 추출 수단(1405), 문서 데이터(1401)로부터 단어 동시 발생 정보를 추출하고 이를 단어 동시 발생 인덱스(1404)에 놓는 단어 동시 발생 정보 추출 수단(1406), 사용자가 중요성을 부착한 검색 요구를 입력하도록 허용하는 1차 검색 요구 입력 수단(1407), 사용자가 1차 검색 요구와 비교해 더 낮은 중요성을 부착한 검색 요구를 입력하도록 허용하는 2차 검색 요구 입력 수단(1408), 문서에서 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 구하도록 단어 빈도 인덱스(1403)를 참조하는 단어 빈도 계산 수단(1409), 단어 빈도 계산 수단(1409)에서 얻어진 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(1410), 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1411), 각 문서에 나타나고 단어 동시 발생 정보 추출 수단(1411)으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 구하도록 단어 동시 발생 인덱스(1404)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(1412), 검색 요구와 문서에 공통으로 나타나고 단어 동시 발생 관계 점검 수단(1412)에 의해 얻어진 단어 동시 발생 관계의 수를 근거로 각 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단(1413), 빈도 스코어 계산 수단(1410)의 출력과 동시 발생 스코어 계산 수단(1413)의 출력을 근거로 각 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단(1414), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(1415), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(1416)으로 구성된다.
제12도 내지 제15도는 본 발명의 실시예 6에 따라 문서 검색 시스템의 검색동작을 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(1405)은 각 문서에서 사전(1402)에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(1401)를 주사하고 문서의 총 수, 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(1403)에 출력하고, 단어 동시 발생 정보 추출 수단(1406)은 각 문서에서 단어 동시 발생 정보를 얻도록 문서 데이터(1401)를 주사하여 단어 동시 발생 인덱스(1404)에 출력하고, 그에 의해 미리 인덱스를 구성한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에서 나타나는 단어의 쌍이 서로 동시 발생 관계에 있음을 결정하고 그를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어의 쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.
단계(1501)에서, 사용자는 사용자가 탐색하기 원하고 중요성을 부여한 문서에 대해 1차 검색 요구를 입력하기 위해 1차 검색 요구 입력 수단(1407)을 사용한다. 부가하여, 단계(1502)에서, 사용자는 1차 검색 요구와 비교해 더 낮은 중요성을 부여한 2차 검색 요구를 입력하기 위해 2차 검색 요구 입력 수단(1408)을 사용한다.
단계(1503)에서, 단어 빈도 계산 수단(1409)은 문서의 총 수 ND를 구하고, 문서 Dj(j = 1, 2, ..., ND)에서 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 그 단어가 나타나는 문서의 수 NDj를 구하도록 단어 빈도 인덱스(1403)를 참조한다. 단계(1504)에서, 단어 빈도 계산 수단(1409)은 단어 Wi가 1차 검색 요구나 2차 검색 요구에 포함되는가 여부를 근거로 가중치 매개변수 WTi를 선택하고 이를 빈도 스코어 계산 수단(1410)으로 출력한다.
단계(1505)에서, 빈도 스코어 계산 수단(1410)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 문서 Dj에서 단어 Wi의 발생 빈도 TFij, 및 단어 빈도 계산 수단(1409)이 그에 부여한 단어 Wi에 대한 가중치 매개변수 WTi를 근거로 상술된 식(5)에 따라 검색 요구와 단어 빈도를 근거로 하는 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산하고, 빈도 스코어 SFj를 문서 스코어 계산 수단(1414)으로 출력한다. 즉, 그 단어로 인한 빈도 스코어는 문서 Dj의 빈도 스코어에 부가된다.
단계(1506)에서, 단어 동시 발생 정보 추출 수단(1411)은 인덱스 제작과 같은 방법에 따라 1차 검색 요구 입력 수단(1407)을 통해 입력된 1차 검색 요구로부터 1차 동시 발생 관계 Csk(k= 1, 2, ..., NC. 여기서 NC는 1차 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 추출된 1차 동시 발생 관계 Csk를 단어 동시 발생 관계 점검 수단(1412)으로 출력한다.
단계(1507)에서, 단어 동시 발생 관계 점검 수단(1412)은 단어 동시 발생 정보 추출 수단(1411)에서 얻어진 1차 동시 발생 관계 Csk와 일치하는 문서 Dj에서 나타나는 단어 동시 발생 관계의 단어 동시 발생 관계수 NCsj를 계산하도록 단어 동시 발생 인덱스(1404)를 참조하고, 결과의 NCsj를 동시 발생 스코어 계산 수단(1413)으로 출력한다.
단계(1508)에서, 단어 동시 발생 정보 추출 수단(1411)은 인덱스 제작과 같은 방법에 따라 2차 검색 요구 입력 수단(1408)을 통해 입력된 2차 검색 요구로부터 2차 동시 발생 관계 Cfm(m = 1, 2, ..., NCf. 여기서 NCf는 2차 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)을 추출하고, 2차 동시 발생 관계 Cfm을 단어 동시 발생 관계 점검 수단(1412)에 입력한다.
단계(1509)에서, 단어 동시 발생 관계 점검 수단(1412)은 단어 동시 발생 정보 추출 수단(1411)에 의해 얻어진 2차 동시 발생 관계 Cfm과 일치하는 문서 Dj에서 나타나는 단어 동시 발생 관계의 단어 동시 발생 관계수 NCfj를 계산하도록 단어 동시 발생 인덱스(1404)를 참조하고, 계산된 NCfj를 동시 발생 스코어 계산 수단(1413)으로 출력한다.
단계(1510)에서, 동시 발생 스코어 계산 수단(1413)은 다음의 식(13)에 따라 문서 Dj의 동시 발생 SCj를 계산하고, 이를 문서 스코어 계산 수단(1414)으로 출력한다.
단계(1511)에서, 문서 스코어 계산 수단(1414)은 다음의 식(14)에 따라 빈도 스코어의 최대값과 최소값간의 차이 SR를 계산한다.
단계(1512)에서, 문서 스코어 계산 수단(1414)은 빈도 스코어 계산 수단(1410)으로부터 출력된 빈도 스코어와 동시 발생 스토어 계산 수단(1413)으로부터 출력된 동시 발생 스코어를 근거로, 다음의 식(15)에 따라 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
단계(1513)에서, 문서 정렬 수단(1415)은 문서 스코어 계산 수단(1414)으로 부터 출력된 각 문서 Dj의 문서 스코어값 Sj 감소 순서로 문서를 재배열하고, 단계(1514)에서, 검색 결과 디스플레이 수단(1416)은 문서 정렬 수단(1415)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.
상술된 바와 같이, 이러한 시스템은 서로 중요성이 다른 1차 검색 요구와 2차 검색 요구를 수신하고, 검색 요구와 문서간의 일치 정도를 결정하는 기준으로서, 1차 동시 발생 관계 > 2차 동시 발생 관계 > 1차 단어 빈도 > 2차 단어 빈도의 순서로 우선도를 만들어, 검색 결과에서 보다 의미있는 문서로 사용자의 검색 의도에 더 가까운 문서를 디스플레이한다.
[실시예 7]
제16도는 본 발명의 실시예 7에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제16도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(1901), 사전(1902), 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스(1903), 필드마다 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스(1904), 단어 빈도 정보를 필드 단어 빈도 인덱스(1903)에 놓도록 문서 데이터(1901)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(1905), 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스(1904)에 저장하도록 문서 데이터(1901)로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1906), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(1907), 문서에서 필드마다 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾도록 필드 단어 빈도 인덱스(1903)를 참조하는 필드 단어 빈도 계산 수단(1908), 필드 단어 빈도 계산 수단(1908)에서 얻어진 단어 빈도를 근거로 각 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단(1909), 검색 입력 수단(1907)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1910), 각 문서의 필드에 나타나고 단어 동시 발생 정보 추출 수단(1910)으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾도록 필드 단어 동시 발생 인덱스(1904)의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단(1911), 필드 단어 동시 발생 관계 점검 수단(1911)에서 얻어진 검색 요구와 각 문서의 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 각 문서의 각 필드에서 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산 수단(1912), 문서의 정렬에 대한 각 필드의 스코어의 영향 정보를 나타내는 비율을 사용자가 입력하는 필드 비율 입력 수단(1913), 필드 빈도 스코어 계산 수단(1909)의 출력, 필드 동시 발생 스코어 계산 수단(1912)의 출력, 및 필드 비율 입력 수단(1913)의 출력을 근거로 각 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단(1914), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(1915), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(1916)으로 구성된다.
제17도 내지 제20도는 본 발명의 실시예 7에 따라 문서 검색 시스템에서의 검색 절차를 도시한 흐름도이다. 검색에 앞서, 단어 빈도 정보 추출 수단(1905)은 각 문서에서 필드마다 사전(1902)내에 포함된 사전 단어의 발생 빈도를 찾아보도록 문서 데이터(1901)를 주사하고 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 필드 단어 빈도 인덱스(1903)로 출력하는 반면, 단어 동시 발생 정보 추출 수단(1906)은 각 문서에서 필드마다 단어 동시 발생 정보를 구하도록 문서 데이터(1901)를 구하고 인덱스를 구성하도록 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스(1904)로 출력한다. 단어 동시 발생 정보를 구하는 방법으로, 예를들면 같은 문자에 나타나는 한 쌍의 단어가 서로에 대해 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하는 형태소 분석을 실행하는 방법이 있다.
단계(2001)에서는 검색 요구 입력 수단(1907)을 통해 사용자가 탐색하는 문서에 대한 검색 요구를 입력한다. 부가하여, 단계(2002)에서는 사용자가 정렬화에 대한 필드 Fm(m = 1, 2, ..., NF. 여기서 NF는 필드의 총 수를 나타낸다)의 스코어의 영향 비율 Rm을 입력하도록 필드 비율 입력 수단(1913)을 이용한다.
단계(2003)에서, 필드 단어 빈도 계산 수단(1908)은 문서의 총 수 ND를 찾도록 필드 단어 빈도 인덱스(1903)를 참조하고, 문서 Dj(j = 1, 2, ..., ND)의 필드 Fm에서 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFijm을 계산하고, 필드 Fm에 나타나는 문서의 수 NDim을 계산하고, 또한 이들을 필드 빈도 스코어 계산 수단(1909)으로 출력한다.
단계(2004)에서 필드 빈도 스코어 계산 수단(1909)은 문서의 총 수 ND, 단어 Wi가 필드 Fm에 나타나는 문서의 수 NDim, 및 필드 단어 빈도 계산 수단(1908)으로부터 출력된 문서 Dj의 필드 Fm에서의 단어 Wi의 발생 빈도 TFijm을 근거로 상술된 식(6)에 따라 검색 요구와 단어 빈도를 근거로 하는 문서 Dj의 필드 Fm간의 일치 정도를 나타내는 빈도 스코어 SFjm을 계산하고, 빈도 스코어 SFjm를 문서 스코어 계산 수단(1914)으로 출력한다. 이러한 경우, 단어 빈도를 근거로 하는 빈도 스코어는 문서 Dj의 필드 Fm에 대한 빈도 스코어에 부가된다.
단계(2005)에서, 단어 동시 발생 정보 추출 수단(1910)은 인덱스 제작과 같은 방법에 따라 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구로부터 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서 NC는 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 동시 발생 관계 Ck를 필드 단어 동시 발생 관계 점검 수단(1911)으로 출력한다.
단계(2006)에서, 필드 단어 동시 발생 관계 점검 수단(1911)은 정보 동시 발생 정보 추출 수단(1910)에 의해 얻어진 단어 동시 발생 관계 Ck와 일치하는 문서 Dj의 필드 Fm에 나타나는 단어 동시 발생 관계의 수 NCjm를 계산하도록 필드 단어 동시 발생 인덱스(1904)를 참조하고, 단어 동시 발생 관계 Ck와 일치하는 단어 동시 발생 관계의 수 NCjm를 필드 동시 발생 스코어 계산 수단(1912)으로 출력한다.
단계(2007)에서, 필드 동시 발생 스코어 계산 수단(1912)은 다음의 식(16)에 따라 문서 Dj의 필드 Fm에 대한 동시 발생 스코어 SCjm를 계산하고, 동시 발생 스코어 SCjm을 문서 스코어 계산 수단(1914)으로 출력한다.
단계(2008)에서, 문서 스코어 계산 수단(1914)은 다음의 식(17)에 따라 필드 빈도 스코어의 최대값과 최소값의 차이 SR를 계산한다.
단계(2009)에서, 문서 스코어 계산 수단(1914)은 필드 빈도 스코어 계산 수단(1909)으로부터 출력된 각 필드의 필드 빈도 스코어 SFjm, 필드 동시 발생 스코어 계산 수단(1912)으로부터 출력된 각 필드의 동시 발생 스코어 SCjm, 및 필드 비율 입력 수단(1913)을 통해 입력된 스코어 할당 비율 Rm을 근거로 다음의 식(18)에 따라 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
단계(2010)에서, 문서 정렬 수단(1915)은 문서 스코어 계산 수단(1914)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(2011)에서, 검색 결과 디스플레이 수단(1916)은 문서 정렬 수단(1915)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.
상술된 바와 같이, 사용자는 타깃 필드의 스코어 할당 비율을 변화시킬 수 있으므로, 사용자의 검색 의도를 탄력적으로 표현하고 또한 효과적인 검색을 이루는 것이 가능하다.
[실시예 8]
제21도는 본 발명의 실시예 8에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제21도에서 문서 검색 시스템은 검색이 행해지는 문서 데이터(2401), 사전(2402), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(2403), 타깃 문서에서 발생하는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(2404), 단어 빈도 인덱스(2403)에 저장하도록 문서 데이터(2401)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(2405), 단어 동시 발생 인덱스(2404)에 놓도록 문서 데이터(2401)로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(2406), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(2407), 문서에서 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 단어 빈도 인덱스(2403)를 참조하는 단어 빈도 계산 수단(2408), 단어 빈도 계산 수단(2408)에 의해 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 구하는 빈도 스코어 계산 수단(2409), 각 문서에 나타나고 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어의 수를 구하도록 단어 빈도 인덱스(2403)를 참조하는 발생 단어수 계산 수단(2410), 발생 단어수 계산 수단(2410)에 의해 얻어진 발생 단어수를 근거로 발생 단어수 스코어를 계산하는 발생 단어수 스코어 계산 수단(2411), 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(2412), 각 문서에 나타나는 단어 동시 발생 정보 추출 수단(2412)으로부터 출력된 검색 요구의 단어 동시 발생 관계의 수를 계산하도록 단어 동시 발생 인덱스(2404)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(2413), 단어 동시 발생 관계 점검 수단(2413)에 의해 얻어진 문서와 검색 요구에 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 각 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단(2414), 빈도 스코어 계산 수단(2409)의 출력, 발생 단어수 스코어 계산 수단(2411)의 출력, 및 동시 발생 스코어 계산 수단(2415)의 출력을 근거로 각 문서의 최종 스코어를 계산하는 문서 스코어 계산 수단(2415), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(2416), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(2417)으로 구성된다.
제22도 내지 제26도는 본 발명의 실시예 8에 따라 문서 검색 요구에서의 검색절차를 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(2405)은 각 문서에서 단어(2402)내에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(2401)를 주사하고 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(2403)로 출력하는 반면, 단어 동시 발생 정보 추출 수단(2406)은 각 문서에서 단어 동시 발생 정보를 찾도록 문서 데이터(2401)를 주사하고 이를 단어 동시 발생 인덱스(2404)로 출력하여 인덱스를 구성한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에 나타나는 한 쌍의 단어가 서로에 대해 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.
단계(2501)에서, 사용자는 탐색하기 원하는 문서에 대한 검색 요구를 입력하도록 검색 요구 입력 수단(2407)을 이용한다. 단계(2502)에서, 단어 빈도 계산 수단(2408)은 문서의 총 수 ND를 알고 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(2403)를 참조하고, 이를 빈도 스코어 계산 수단(2409)으로 출력한다.
단계(2503)에서, 빈도 스코어 계산 수단(2409)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따라 검색 요구와 단어 빈도로 인한 문서간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 이러한 경우, 단어 빈도를 근거로 하는 빈도 스코어는 문서 Dj의 빈도 스코어에 부가된다.
단계(2504)에서, 발생 단어수 계산 수단(2410)은 문서 Dj에 또한 나타나는 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi의 단어 수 NAj를 계산하도록 단어 빈도 인덱스(2403)를 참조하고, 수 NAj를 발생 단어수 스코어 계산 수단(2411)으로 출력한다.
단계(2505)에서, 발생 단어수 스코어 계산 수단(2411)은 발생 단어수 계산 수단(2410)이 제공한 발생 단어수 NAj를 근거로 상술된 식(8)에 따라 발생 단어수 스코어를 계산하고, 발생 단어수 스코어를 문서 스코어 계산 수단(2415)로 출력한다.
단어(2506)에서, 단어 동시 발생 정보 추출 수단(2412)은 인덱스 제작과 유사한 방법의 사용으로 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구로부터 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서 NC는 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 동시 발생 관계 Ck를 단어 동시 발생 관계 점검 수단(2413)으로 출력한다.
단계(2507)에서, 단어 동시 발생 관계 점검 수단(2413)은 단어 동시 발생 정보 추출 수단(2404)에 의해 얻어진 각 단어 동시 발생 관계 Ck가 나타나는 문서를 찾도록 단어 동시 발생 인덱스(2404)를 참조하고, 단어 동시 발생 관계 Ck의 단어 동시 발생 관계수 NCj를 계산하고, 또한 그 결과를 동시 발생 스코어 계산 수단(2414)으로 출력한다.
단계(2508)에서, 동시 발생 스코어 계산 수단(2414)은 상술된 식(3)에 따라 문서 Dj의 동시 발생 스코어 SCj를 계산하고, 동시 발생 스코어 SCj를 문서 스코어 계산 수단(2415)으로 출력한다. 단계(2509)에서, 문서 스코어 계산 수단(2415)은 상술된 식(14)에 따라 빈도 스코어의 최대 및 최소값간의 차이 SR를 계산한다.
단계(2510)에서, 문서 스코어 계산 수단(2415)은 빈도 스코어 계산 수단(2409)의 출력인 빈도 스코어 SFj, 발생 단어수 스코어 계산 수단(2411)의 출력인 발생 단어수 스코어 SAj, 및 동시 발생 스코어 계산 수단(2414)의 출력인 동시 발생 스코어 SCj를 근거로 다음의 식(19)에 따라 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
단계(2511)에서, 문서 정렬 수단(2416)은 문서 스코어 계산 수단(2415)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(2512)에서, 검색 결과 디스플레이 수단(2417)은 문서 정렬 수단(2416)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.
상술된 바와 같이, 문서와 검색 요구간의 일치 정도를 결정하는 기준으로, 단어 빈도에 부가하여 동시 발생 관계와 발생 단어수가 취해져, 동시 발생 관계 > 발생 단어수 > 단어 빈도의 순서로 우선도가 이루어지고, 그 결과로 사용자의 검색 의도에 더 근접한 문서가 검색 결과에서 높은 순위로 디스플레이될 수 있어 높은 정확도와 효율성으로 검색을 이룰 수 있다.
상술된 바와 같이, 본 발명에 따른 문서 검색 시스템에서, 인덱스는 타깃 문서내의 단어 동시 발생 정보를 갖고 단어 동시 발생 관계 점검 수단은 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하기 위해 제공되고, 타깃 문서의 각 필드와 연관된 인덱스 정보가 제시되고 사용자가 정렬에 영향을 주는 필드 비율을 지정할 수 있도록 필드 비율 입력 수단이 제공되고, 또한 다수의 검색 요구 입력 수단이 다른 우선 순위를 갖는 다수의 검색 요구를 입력하도록 제공되고, 타깃 문서에 포함된 검색 요구의 다수의 단어의 수를 계산하도록 발생 단어수 계산 수단이 제공되고, 인덱스는 타깃 문서내의 단어 발생 위치 정보를 갖고 검색 요구의 다수의 단어의 발생 위치가 서로 인접하는가 또는 비교적 서로 근접하는가 여부를 점검하도록 단어 근접 계산 수단이 제공된다. 따라서, 사용자의 요구를 탄력적으로 수신하여 검색 및 정렬을 실행하는 것이 가능하다.
더욱이, 문서 검색 시스템은 필드마다 타깃 문서에서 단어 발생 빈도 및 단어 동시 발생 정보를 포함하는 인덱스, 사용자가 타깃 문서의 정렬에 영향을 주는 필드 비율을 지정할 수 있는 필드 비율 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 갖춘다. 또한, 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 검색 요구에 포함되는 다수의 단어가 타깃 문서에서 얼마나 많이 나타나는가를 계산하는 발생 단어수 계산 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 단어 동시 발생 관계 점검 수단을 구비한다. 이러한 배열은 탄력적인 사용자로부터의 검색 요구의 수용과 검색 및 정렬 동작의 실행을 허용한다.
그래서, 거절이 보다 작지만 높은 정확도로 검색 결과를 제공하고, 또한 예를 들면, 결과 문서의 범위를 좁힘으로서 전체적으로 검색 시간을 줄이는 것이 가능하다.
상기는 본 발명의 양호한 실시예에만 관련된 것이고, 본 발명의 의도 및 범위에서 벗어난 것을 구성하지 않는, 설명을 위해 여기서 사용된 본 발명의 실시예의 모든 변경 및 수정을 포함하도록 의도되는 것으로 이해되어야 한다.
본 발명의 문서 검색 시스템은 사용자로부터 검색 요구를 탄력적으로 수신하고 거절(불필요한 데이터)되지 않는 정확한 검색 결과를 제공하도록 검색 및 정렬동작을 행하며 검색 결과의 범위를 줄이는 것과 같은 방법으로 전체적으로 검색 시간을 짧게 할 수 있다.
Claims (8)
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 시스템이 상기 타깃 문서의 다수의 필드 각각에 대한 인덱스 정보를 보유하고 사용자가 상기 검색 결과의 정렬에 영향을 주는 상기 필드 비율을 지정하도록 허용하는 필드 비율 입력 수단을 포함하여, 상기 사용자가 필드마다 상기 검색 결과의 정렬에 영향을 주는 상기 비율을 지정하도록 허용되는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에 나타나는 상기 검색 요구의 다수의 단어의 수를 계산하는 발생 단어수 계산 수단을 포함하여, 상기 검색 요구에 포함되는 상기 다수의 단어가 상기 타깃 문서에 동시에 나타나는 경우에, 검색된 상기 타깃 문서에 부여되는 스코어가 증가되고 상기 타깃 문서가 우선적으로 디스플레이되는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 단어의 발생 빈도와 상기 단어의 발생 위치를 포함하는 인덱스와, 검색된 상기 타깃 문서에 부여되는 스코어가 근접 정도에 따라 증가되고 상기 타깃 문서가 우선적으로 디스플레이 되도록 상기 타깃 문서에서 상기 검색 요구의 다수의 단어의 발생 위치에 대한 근접 정도를 계산하는 단어 근접 계산 수단을 포함하는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 이를 상기 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 사용자가 상기 검색 요구를 입력하도록 허용하는 검색 요구 입력 수단; 상기 사용자가 문서 스코어에 대한 문서의 필드 스코어의 영향 정도를 나타내는 비율을 입력하도록 허용하는 필드 비율 입력 수단; 상기 문서에서 상기 사전 단어의 발생 빈도를 구하도록 상기 검색 요구에 포함되는 사전 단어에 관하여 상기 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 상기 필드 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 각 문서의 필드간의 일치 정도를 나타내는 빈도 스코어를 계산하는 필드 빈도 스코어 계산 수단; 상기 필드 비율 입력 수단에 입력된 상기 비율과 상기 필드 빈도 스코어 계산 수단으로부터 출력된 상기 필드의 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 문서 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 상기 타깃 문서에서 나타나는 단어의 목록을 저장하는 발생 단어 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 유도하고 또한 이를 상기 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 발생 단어 정보를 유도하고 또한 이를 상기 발생 단어 인덱스에 보유하는 발생 단어 정보 추출 수단; 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 상기 문서 데이터의 문서에서 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 상기 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 상기 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 계산하는 빈도 스코어 계산 수단; 상기 검색 요구에 포함되는 단어 중 얼마나 많은 단어가 상기 문서에 나타나는가를 찾기 위해 상기 발생 단어 인덱스를 참조하는 발생 단어수 계산 수단; 상기 발생 단어수 계산 수단에서 얻어진 발생 단어의 수를 근거로 상기 문서에 부가되는 발생 단어 스코어를 구하는 발생 단어 스코어 계산 수단; 상기 빈도 스코어 계산 수단으로부터 출력된 상기 빈도 스코어와 상기 발생 단어수 스코어 계산 수단으로부터 출력된 상기 발생 단어 스코어를 근거로 상기 문서와 상기 검색 요구간의 일치 정도를 나타내는 상기 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 상기 타깃 문서에서 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 이를 상기 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 단어 위치 정보를 구하고 또한 이를 상기 단어 발생 위치 인덱스에 보유하는 단어 발생 위치 정보 추출 수단: 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 상기 문서 데이터의 문서에서 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 상기 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 상기 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 구하는 빈도 스코어 계산 수단; 상기 문서에서 상기 검색 요구에 포함되는 단어의 발생 위치를 구하도록 상기 단어 발생 위치 인덱스를 참조하는 발생 위치 계산 수단; 상기 단어 발생 위치 계산 수단으로부터 출력된 상기 단어 발생 위치를 근거로 상기 문서의 단어간의 근접 정도를 계산하는 단어 근접 계산 수단; 상기 단어 근접 계산 수단으로부터 출력된 근접 정도를 근거로 상기 문서에 부여되는 근접 스코어를 구하는 근접 스코어 계산 수단; 상기 빈도 스코어 계산 수단으로부터 출력된 상기 빈도 스코어와 상기 근접 스코어 계산 수단으로부터 출력된 상기 근접 스코어를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스; 사용자가 필드마다 상기 타깃 문서의 정렬에 대한 영향의 필드 비율을 지정하는 필드 비율 입력 수단; 및 상기 검색 요구에 포함되는 단어 동시 발생 관계가 상기 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 포함하고; 상기 타깃 문서가 우선적으로 디스플레이 되도록 상기 동시 발생 관계가 나타나는 상기 타깃 문서에 부여되는 스코어가 증가되는 문서 검색 시스템.
- 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 필드마다 상기 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 단어 빈도 정보를 상기 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 단어 동시 발생 정보를 추출하고 또한 단어 동시 발생 정보를 상기 필드 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 문서에서 필드마다 상기 검색 요구 입력 수단을 통해 입력된 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾기 위해 상기 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 상기 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 상기 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 상기 문서의 필드에 나타나고 상기 단어 동시 발생 정보 추출 수단으로부터 출력된 상기 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾기 위해 상기 필드 단어 동시 발생 인덱스의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단; 상기 필드 단어 동시 발생 관계 점검 수단에서 얻어진 상기 검색 요구와 상기 문서의 상기 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 상기 문서의 필드마다 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산수단; 사용자가 상기 문서의 정렬에 대한 상기 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 필드 비율 입력 수단; 상기 필드 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 상기 필드 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어, 및 상기 필드 비율 입력 수단으로부터 출력된 비율을 근거로 상기 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP96-156418 | 1996-05-29 | ||
JP15641896 | 1996-05-29 | ||
JP97-87328 | 1997-03-24 | ||
JP9087328A JPH1049549A (ja) | 1996-05-29 | 1997-03-24 | 文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR970076328A KR970076328A (ko) | 1997-12-12 |
KR100295354B1 true KR100295354B1 (ko) | 2001-09-17 |
Family
ID=26428613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970021247A KR100295354B1 (ko) | 1996-05-29 | 1997-05-28 | 문서 정보 검색 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6154737A (ko) |
EP (1) | EP0810535B1 (ko) |
JP (1) | JPH1049549A (ko) |
KR (1) | KR100295354B1 (ko) |
CN (1) | CN1133127C (ko) |
DE (1) | DE69731142T2 (ko) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063310A (ko) * | 2000-06-26 | 2000-11-06 | 민재기 | 통신망을 통한 명사의 순위 검색 시스템과 그 방법 |
KR100408965B1 (ko) * | 2000-06-26 | 2003-12-06 | 주식회사쓰리소프트 | 검색조건을 추천하는 검색결과 제공방법 및 검색서버 |
WO2011011777A3 (en) * | 2009-07-24 | 2011-06-23 | Discovery Engine Corporation | Pre-computed ranking using proximity terms |
KR101157693B1 (ko) | 2004-08-13 | 2012-06-21 | 구글 인코포레이티드 | 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법 |
US8321445B2 (en) | 2004-08-13 | 2012-11-27 | Google Inc. | Generating content snippets using a tokenspace repository |
KR102085216B1 (ko) * | 2019-10-02 | 2020-03-04 | (주)디앤아이파비스 | 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램 |
KR20210039908A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법 |
KR20210039909A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
KR20210039907A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 단어의 출현 비율을 이용한 중요도 스코어 산출 방법 |
Families Citing this family (128)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
JP3521176B2 (ja) * | 1997-09-26 | 2004-04-19 | 株式会社東芝 | 検索方法および検索装置 |
GB2333871A (en) * | 1998-01-29 | 1999-08-04 | Sharp Kk | Ranking of text units |
JP2000067081A (ja) * | 1998-08-24 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置 |
US7039856B2 (en) * | 1998-09-30 | 2006-05-02 | Ricoh Co., Ltd. | Automatic document classification using text and images |
JP3880235B2 (ja) * | 1999-01-29 | 2007-02-14 | キヤノン株式会社 | 情報検索装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
JP3505100B2 (ja) * | 1999-02-08 | 2004-03-08 | 日本電信電話株式会社 | 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体 |
JP2000339346A (ja) * | 1999-03-19 | 2000-12-08 | Hitachi Ltd | 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体 |
US8775396B2 (en) * | 1999-04-15 | 2014-07-08 | Intellectual Ventures I Llc | Method and system for searching a wide area network |
JP3558267B2 (ja) * | 1999-05-06 | 2004-08-25 | 株式会社エヌ・ティ・ティ・データ | 文書検索装置 |
US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
US6569206B1 (en) * | 1999-10-29 | 2003-05-27 | Verizon Laboratories Inc. | Facilitation of hypervideo by automatic IR techniques in response to user requests |
US6757866B1 (en) | 1999-10-29 | 2004-06-29 | Verizon Laboratories Inc. | Hyper video: information retrieval using text from multimedia |
US6996775B1 (en) | 1999-10-29 | 2006-02-07 | Verizon Laboratories Inc. | Hypervideo: information retrieval using time-related multimedia: |
US6490580B1 (en) | 1999-10-29 | 2002-12-03 | Verizon Laboratories Inc. | Hypervideo information retrieval usingmultimedia |
US6493707B1 (en) | 1999-10-29 | 2002-12-10 | Verizon Laboratories Inc. | Hypervideo: information retrieval using realtime buffers |
US6546388B1 (en) | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US6912525B1 (en) * | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
JP2001318939A (ja) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書処理方法及び装置並びにその処理プログラムを記憶した媒体 |
US6968332B1 (en) * | 2000-05-25 | 2005-11-22 | Microsoft Corporation | Facility for highlighting documents accessed through search or browsing |
US7747611B1 (en) | 2000-05-25 | 2010-06-29 | Microsoft Corporation | Systems and methods for enhancing search query results |
JP3870666B2 (ja) * | 2000-06-02 | 2007-01-24 | 株式会社日立製作所 | 文書検索方法および装置並びにその処理プログラムを記録した記録媒体 |
US6741986B2 (en) | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
US7577683B2 (en) * | 2000-06-08 | 2009-08-18 | Ingenuity Systems, Inc. | Methods for the construction and maintenance of a knowledge representation system |
US6772160B2 (en) | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
GB2364583B (en) * | 2000-07-08 | 2004-09-22 | Paul David Mills | Database interrogation |
US7395222B1 (en) * | 2000-09-07 | 2008-07-01 | Sotos John G | Method and system for identifying expertise |
US8205237B2 (en) | 2000-09-14 | 2012-06-19 | Cox Ingemar J | Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet |
GB2368670A (en) * | 2000-11-03 | 2002-05-08 | Envisional Software Solutions | Data acquisition system |
JP2002197104A (ja) * | 2000-12-27 | 2002-07-12 | Communication Research Laboratory | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 |
JP2002269114A (ja) * | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
US7010515B2 (en) | 2001-07-12 | 2006-03-07 | Matsushita Electric Industrial Co., Ltd. | Text comparison apparatus |
US8117072B2 (en) * | 2001-11-13 | 2012-02-14 | International Business Machines Corporation | Promoting strategic documents by bias ranking of search results on a web browser |
US8793073B2 (en) * | 2002-02-04 | 2014-07-29 | Ingenuity Systems, Inc. | Drug discovery methods |
CA2474754C (en) * | 2002-02-04 | 2022-03-22 | Ingenuity Systems, Inc. | Systems for evaluating genomics data |
JP2003323457A (ja) * | 2002-02-28 | 2003-11-14 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラム及び記録媒体 |
US7693830B2 (en) | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
US7743045B2 (en) | 2005-08-10 | 2010-06-22 | Google Inc. | Detecting spam related and biased contexts for programmable search engines |
US7716199B2 (en) | 2005-08-10 | 2010-05-11 | Google Inc. | Aggregating context data for programmable search engines |
US20040044659A1 (en) * | 2002-05-14 | 2004-03-04 | Douglass Russell Judd | Apparatus and method for searching and retrieving structured, semi-structured and unstructured content |
KR100505848B1 (ko) * | 2002-10-02 | 2005-08-04 | 씨씨알 주식회사 | 검색 시스템 |
ES2301857T3 (es) * | 2002-12-26 | 2008-07-01 | Casio Computer Co., Ltd. | Diccionario electronico con ejemplos de frases. |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US20050033771A1 (en) * | 2003-04-30 | 2005-02-10 | Schmitter Thomas A. | Contextual advertising system |
US20040225555A1 (en) * | 2003-05-09 | 2004-11-11 | Andreas Persidis | System and method for generating targeted marketing resources and market performance data |
JP4557513B2 (ja) * | 2003-07-11 | 2010-10-06 | キヤノン株式会社 | 情報検索装置、情報検索方法およびプログラム |
US20050060290A1 (en) * | 2003-09-15 | 2005-03-17 | International Business Machines Corporation | Automatic query routing and rank configuration for search queries in an information retrieval system |
US7725487B2 (en) * | 2003-12-01 | 2010-05-25 | National Institute Of Information And Communications Technology | Content synchronization system and method of similar web pages |
JP2005202535A (ja) * | 2004-01-14 | 2005-07-28 | Hitachi Ltd | 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体 |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US20060041484A1 (en) * | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
KR100462292B1 (ko) * | 2004-02-26 | 2004-12-17 | 엔에이치엔(주) | 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템 |
US7636710B2 (en) * | 2004-03-04 | 2009-12-22 | Symantec Operating Corporation | System and method for efficient file content searching within a file system |
KR20050096541A (ko) * | 2004-03-31 | 2005-10-06 | 삼성에스디아이 주식회사 | 돌출부를 갖는 네거티브 홀 구조, 그것의 형성 방법 및그것을 포함하는 fed 캐소드 부 |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US7565630B1 (en) | 2004-06-15 | 2009-07-21 | Google Inc. | Customization of search results for search queries received from third party sites |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US20060106788A1 (en) * | 2004-10-29 | 2006-05-18 | Microsoft Corporation | Computer-implemented system and method for providing authoritative answers to a general information search |
JPWO2006051956A1 (ja) * | 2004-11-12 | 2008-05-29 | 株式会社ジャストシステム | サーバ装置及び検索方法 |
US20110029504A1 (en) * | 2004-12-03 | 2011-02-03 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
US7333667B2 (en) * | 2004-12-23 | 2008-02-19 | Kabushiki Kaisha Toshiba | Image encoding apparatus and image encoding method |
CN1946075B (zh) * | 2005-10-04 | 2010-10-13 | 国际商业机器公司 | 确定消息的用户特定关联性得分的方法和系统 |
US20070185859A1 (en) * | 2005-10-12 | 2007-08-09 | John Flowers | Novel systems and methods for performing contextual information retrieval |
US20070150477A1 (en) * | 2005-12-22 | 2007-06-28 | International Business Machines Corporation | Validating a uniform resource locator ('URL') in a document |
US7814099B2 (en) * | 2006-01-31 | 2010-10-12 | Louis S. Wang | Method for ranking and sorting electronic documents in a search result list based on relevance |
US20110096174A1 (en) * | 2006-02-28 | 2011-04-28 | King Martin T | Accessing resources based on capturing information from a rendered document |
JP2007287134A (ja) * | 2006-03-20 | 2007-11-01 | Ricoh Co Ltd | 情報抽出装置、及び情報抽出方法 |
US20070244866A1 (en) * | 2006-04-18 | 2007-10-18 | Mainstream Advertising, Inc. | System and method for responding to a search request |
US9043197B1 (en) * | 2006-07-14 | 2015-05-26 | Google Inc. | Extracting information from unstructured text using generalized extraction patterns |
WO2008014495A2 (en) * | 2006-07-28 | 2008-01-31 | Ingenuity Systems, Inc. | Genomics based targeted advertising |
US7702680B2 (en) * | 2006-11-02 | 2010-04-20 | Microsoft Corporation | Document summarization by maximizing informative content words |
US7890521B1 (en) * | 2007-02-07 | 2011-02-15 | Google Inc. | Document-based synonym generation |
US20080288488A1 (en) * | 2007-05-15 | 2008-11-20 | Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer | Method and system for determining trend potentials |
CN100520767C (zh) * | 2007-05-31 | 2009-07-29 | 腾讯科技(深圳)有限公司 | 在网络上判断文章重要性的方法和系统、及滑动窗口 |
JP2009093429A (ja) * | 2007-10-09 | 2009-04-30 | Kodansha Ltd | 検索システム及び検索方法 |
WO2009066501A1 (ja) * | 2007-11-19 | 2009-05-28 | Nippon Telegraph And Telephone Corporation | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
US8316041B1 (en) | 2007-11-28 | 2012-11-20 | Adobe Systems Incorporated | Generation and processing of numerical identifiers |
US8090724B1 (en) | 2007-11-28 | 2012-01-03 | Adobe Systems Incorporated | Document analysis and multi-word term detector |
US7849081B1 (en) * | 2007-11-28 | 2010-12-07 | Adobe Systems Incorporated | Document analyzer and metadata generation and use |
WO2009123260A1 (ja) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
KR100926876B1 (ko) * | 2008-04-01 | 2009-11-16 | 엔에이치엔(주) | 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템 |
KR101052631B1 (ko) * | 2009-01-29 | 2011-07-28 | 성균관대학교산학협력단 | 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치 |
US8418055B2 (en) | 2009-02-18 | 2013-04-09 | Google Inc. | Identifying a document by performing spectral analysis on the contents of the document |
US8447066B2 (en) * | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
ES2396017T3 (es) | 2009-04-24 | 2013-02-18 | Agfa Graphics N.V. | Método de fabricación de planchas de impresión litográfica |
EP2316645B1 (en) | 2009-10-27 | 2012-05-02 | AGFA Graphics NV | Novel cyanine dyes and lithographic printing plate precursors comprising such dyes |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
WO2012126180A1 (en) | 2011-03-24 | 2012-09-27 | Microsoft Corporation | Multi-layer search-engine index |
US20140046945A1 (en) * | 2011-05-08 | 2014-02-13 | Vinay Deolalikar | Indicating documents in a thread reaching a threshold |
US8849835B1 (en) * | 2011-05-10 | 2014-09-30 | Google Inc. | Reconciling data |
US20130024459A1 (en) * | 2011-07-20 | 2013-01-24 | Microsoft Corporation | Combining Full-Text Search and Queryable Fields in the Same Data Structure |
JP5910134B2 (ja) | 2012-02-07 | 2016-04-27 | カシオ計算機株式会社 | テキスト検索装置及びプログラム |
JP5526209B2 (ja) * | 2012-10-09 | 2014-06-18 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
CN103853742B (zh) * | 2012-11-29 | 2017-11-24 | 北大方正集团有限公司 | 检索装置、终端和检索方法 |
US20140229476A1 (en) * | 2013-02-14 | 2014-08-14 | SailMinders, Inc. | System for Information Discovery & Organization |
US9355372B2 (en) * | 2013-07-03 | 2016-05-31 | Thomson Reuters Global Resources | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus |
JP6107513B2 (ja) | 2013-07-29 | 2017-04-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
US9298780B1 (en) * | 2013-11-01 | 2016-03-29 | Intuit Inc. | Method and system for managing user contributed data extraction templates using weighted ranking score analysis |
US9292579B2 (en) * | 2013-11-01 | 2016-03-22 | Intuit Inc. | Method and system for document data extraction template management |
CN106815266B (zh) * | 2015-12-01 | 2020-06-16 | 北京国双科技有限公司 | 裁判文书检索方法和装置 |
US9996527B1 (en) * | 2017-03-30 | 2018-06-12 | International Business Machines Corporation | Supporting interactive text mining process with natural language and dialog |
KR101937088B1 (ko) * | 2018-03-14 | 2019-01-09 | 목포해양대학교 산학협력단 | 코드화된 표준해사영어를 이용한 해상 무선 통신 방법 |
CN108897843B (zh) * | 2018-06-27 | 2021-12-24 | 吉安职业技术学院 | 一种基于中心法的文本自适应推荐方法 |
KR20200117500A (ko) | 2019-04-04 | 2020-10-14 | 주식회사 테이크뷰 | 문서 검색 방법 및 그 장치 |
JP7343311B2 (ja) * | 2019-06-11 | 2023-09-12 | ファナック株式会社 | 文書検索装置及び文書検索方法 |
CN113744803A (zh) | 2020-05-29 | 2021-12-03 | 鸿富锦精密电子(天津)有限公司 | 基因测序进度管理方法、装置、计算机装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3694813A (en) * | 1970-10-30 | 1972-09-26 | Ibm | Method of achieving data compaction utilizing variable-length dependent coding techniques |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
US4930077A (en) * | 1987-04-06 | 1990-05-29 | Fan David P | Information processing expert system for text analysis and predicting public opinion based information available to the public |
US5408655A (en) * | 1989-02-27 | 1995-04-18 | Apple Computer, Inc. | User interface system and method for traversing a database |
US5220625A (en) * | 1989-06-14 | 1993-06-15 | Hitachi, Ltd. | Information search terminal and system |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
JP2795719B2 (ja) * | 1990-03-07 | 1998-09-10 | 富士通株式会社 | 認識距離の差に基づく最良優先探索処理方法 |
US5321833A (en) * | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
JPH0628408A (ja) * | 1992-07-08 | 1994-02-04 | Ricoh Co Ltd | 文書ファイリング装置 |
US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
US5701399A (en) * | 1993-06-09 | 1997-12-23 | Inference Corporation | Integration of case-based search engine into help database |
US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
JP2596332B2 (ja) * | 1993-08-19 | 1997-04-02 | 日本電気株式会社 | データ組合せ抽出方法およびその装置 |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
JPH0793370A (ja) * | 1993-09-27 | 1995-04-07 | Hitachi Device Eng Co Ltd | 遺伝子データベース検索システム |
US5761496A (en) * | 1993-12-14 | 1998-06-02 | Kabushiki Kaisha Toshiba | Similar information retrieval system and its method |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
JP3016691B2 (ja) * | 1994-06-29 | 2000-03-06 | 富士通株式会社 | データ検索条件設定方法 |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US5794193A (en) * | 1995-09-15 | 1998-08-11 | Lucent Technologies Inc. | Automated phrase generation |
US5826260A (en) * | 1995-12-11 | 1998-10-20 | International Business Machines Corporation | Information retrieval system and method for displaying and ordering information based on query element contribution |
US5710915A (en) * | 1995-12-21 | 1998-01-20 | Electronic Data Systems Corporation | Method for accelerating access to a database clustered partitioning |
US5826031A (en) * | 1996-06-10 | 1998-10-20 | Sun Microsystems, Inc. | Method and system for prioritized downloading of embedded web objects |
US5765150A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
-
1997
- 1997-03-24 JP JP9087328A patent/JPH1049549A/ja active Pending
- 1997-05-28 EP EP97108617A patent/EP0810535B1/en not_active Expired - Lifetime
- 1997-05-28 KR KR1019970021247A patent/KR100295354B1/ko not_active IP Right Cessation
- 1997-05-28 DE DE69731142T patent/DE69731142T2/de not_active Expired - Fee Related
- 1997-05-29 US US08/865,181 patent/US6154737A/en not_active Expired - Lifetime
- 1997-05-29 CN CN97105515A patent/CN1133127C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063310A (ko) * | 2000-06-26 | 2000-11-06 | 민재기 | 통신망을 통한 명사의 순위 검색 시스템과 그 방법 |
KR100408965B1 (ko) * | 2000-06-26 | 2003-12-06 | 주식회사쓰리소프트 | 검색조건을 추천하는 검색결과 제공방법 및 검색서버 |
US9098501B2 (en) | 2004-08-13 | 2015-08-04 | Google Inc. | Generating content snippets using a tokenspace repository |
KR101157693B1 (ko) | 2004-08-13 | 2012-06-21 | 구글 인코포레이티드 | 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법 |
US8321445B2 (en) | 2004-08-13 | 2012-11-27 | Google Inc. | Generating content snippets using a tokenspace repository |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US9146967B2 (en) | 2004-08-13 | 2015-09-29 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
WO2011011777A3 (en) * | 2009-07-24 | 2011-06-23 | Discovery Engine Corporation | Pre-computed ranking using proximity terms |
KR102085216B1 (ko) * | 2019-10-02 | 2020-03-04 | (주)디앤아이파비스 | 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램 |
KR20210039908A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법 |
KR20210039909A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
KR20210039907A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 단어의 출현 비율을 이용한 중요도 스코어 산출 방법 |
KR102360080B1 (ko) * | 2019-10-02 | 2022-02-09 | (주)디앤아이파비스 | 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법 |
KR102403168B1 (ko) | 2019-10-02 | 2022-05-27 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
KR102472200B1 (ko) * | 2019-10-02 | 2022-11-29 | (주)디앤아이파비스 | 단어의 출현 비율을 이용한 중요도 스코어 산출 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN1172994A (zh) | 1998-02-11 |
DE69731142D1 (de) | 2004-11-18 |
JPH1049549A (ja) | 1998-02-20 |
US6154737A (en) | 2000-11-28 |
KR970076328A (ko) | 1997-12-12 |
EP0810535A2 (en) | 1997-12-03 |
EP0810535B1 (en) | 2004-10-13 |
EP0810535A3 (en) | 1999-04-21 |
CN1133127C (zh) | 2003-12-31 |
DE69731142T2 (de) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100295354B1 (ko) | 문서 정보 검색 시스템 | |
US8793259B2 (en) | Information retrieval device, information retrieval method, and program | |
JP5597255B2 (ja) | 単語の重みに基づいた検索結果の順位付け | |
US6389412B1 (en) | Method and system for constructing integrated metadata | |
US8805781B2 (en) | Document quotation indexing system and method | |
US6401087B2 (en) | Information retrieval system, apparatus and method for selecting databases using retrieval terms | |
RU2007114029A (ru) | Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети | |
EP1391834A2 (en) | Document retrieval system and question answering system | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
JPH1125108A (ja) | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム | |
JPH0420220B2 (ko) | ||
KR20180097120A (ko) | 전자 문서 검색 방법 및 그 서버 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
JPH05101107A (ja) | 適合率を用いた絞り込みデータ検索装置及び方法 | |
KR20020089677A (ko) | 문서 자동 분류 방법 및 이를 수행하기 위한 시스템 | |
JPH0773197A (ja) | 異表記語辞書作成支援装置 | |
CN111914154B (zh) | 一种智能搜索导向系统及方法 | |
JPH08272806A (ja) | データベース検索システム | |
JPH07192010A (ja) | 文書処理装置 | |
CN112765311A (zh) | 一种裁判文书的搜索方法 | |
JP2732661B2 (ja) | テキスト型データベース装置 | |
JP5633552B2 (ja) | 文書検索方法、文書検索装置、文書検索プログラムを記録した記録媒体 | |
CN115630154B (zh) | 一种面向大数据环境的动态摘要信息构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080425 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |