KR100295354B1 - 문서 정보 검색 시스템 - Google Patents

문서 정보 검색 시스템 Download PDF

Info

Publication number
KR100295354B1
KR100295354B1 KR1019970021247A KR19970021247A KR100295354B1 KR 100295354 B1 KR100295354 B1 KR 100295354B1 KR 1019970021247 A KR1019970021247 A KR 1019970021247A KR 19970021247 A KR19970021247 A KR 19970021247A KR 100295354 B1 KR100295354 B1 KR 100295354B1
Authority
KR
South Korea
Prior art keywords
document
word
frequency
score
occurrence
Prior art date
Application number
KR1019970021247A
Other languages
English (en)
Other versions
KR970076328A (ko
Inventor
미쯔아키 이나바
히데키 야스카와
나오히코 노구치
유지 간노
미쯔히로 사토
마사코 노모토
Original Assignee
모리시타 요이찌
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모리시타 요이찌, 마쯔시다덴기산교 가부시키가이샤 filed Critical 모리시타 요이찌
Publication of KR970076328A publication Critical patent/KR970076328A/ko
Application granted granted Critical
Publication of KR100295354B1 publication Critical patent/KR100295354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자가 입력한 검색 요구와 일치하여 문서를 탐색하고 또한 문서와 검색 요구간의 일치 정도에 따라 문서를 정렬하는 문서 검색 시스템이 제공된다. 문서 검색 시스템에서, 단어 빈도 계산부는 단어가 나타나는 문서의 수와 문서에서 그 단어의 발생 빈도를 찾아 그 단어에 대한 가중치 매개변수를 구하고, 빈도 스코어(score) 계산부는 단어 빈도 계산부의 출력을 근거로 빈도 스코어를 구한다. 부가하여, 단어 동시 발생 관계 점검부는 문서 및 검색 요구의 단어 동시 발생 관계를 점검하고, 동시 발생 스코어 계산부는 그들간의 일치 정도로부터 동시 발생 스코어를 계산한다. 문서 스코어 계산부는 빈도 스코어와 동시 발생 스코어를 근거로 문서 스코어를 계산한다. 문서는 문서 스코어의 순서로 정렬되어 사용자에게 디스플레이된다.

Description

문서 검색 시스템
본 발명은 문서 검색 시스템에 관한 것으로, 특히 많은 양의 문서 데이터 중에서 사용자가 입력한 검색 요구에 대응하는 또는 그와 일치하는 문서를 탐색하고 그들간의 일치 정도를 근거로 문서를 정렬 또는 분류하는 문서 검색 시스템에 관한 것이다.
거대한 양으로 되는 문서 데이터 베이스의 규모의 증가로 종래의 키워드(key word) 탐색 기술이나 포괄적인 검색 기술을 이용해 타깃 문서를 쉽게 탐색하는데 어려움이 자주 발생되므로, 고속으로 검색 결과를 제공할 수 있더라도 총 검색 시간의 감소는 항상 가능한 것은 아니다. 결과의 문서 수에서의 감소를 이루는 한 가능한 방법은 부가적으로 또 다른 키워드를 사용하는 것과 같은 지원 범위를 좁히는 것이지만, 필요한 문서를 놓치지 않도록 적절한 키워드를 부가하는데서 어려움을 겪게 된다. 이러한 이유로, 탐색되는 문서에서 문자열(단어)의 존재 여부에 주의를 기울이는 것에 부가하여, 고효율성으로 타깃 문서를 검색하도록 발생 빈도를 근거로 탐색된 문서를 정렬(순차화)하는 주목할만한 방법이 공지되어 있다.
제27도는 검색 결과를 순차화하는 종래 문서 검색 시스템의 배열을 도시하는 블록도이다. 제27도에 도시된 바와 같이, 문서 검색 시스템은 검색하의 문서 데이터(3101), 사전(3102), 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(3103), 문서 데이터(3101)로부터 단어 발생 빈도 정보를 얻기 위한 단어 빈도 정보 추출 수단(3104), 사용자가 입력한 검색 요구를 수신하는 검색 요구 입력 수단(3105), 단어 빈도 인덱스(3103)로부터 단어 발생 빈도를 계산하는 단어 빈도 계산 수단(3106), 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단, 빈도 스코어를 근거로 각 문서와 검색 요구간의 일치 정도를 나타내는 문서 스코어를 계산하는 문서 스코어 계산 수단(3108), 문서 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(3109), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(3110)으로 구성된다.
제28도는 검색 결과를 순차화하는 종래 문서 검색 시스템의 검색 절차를 도시하는 흐름도이다. 먼저, 검색 이전에 단어 빈도 정보 추출 수단(3104)은 단어 빈도 인덱스가 앞서 구성된 단어 빈도 인덱스(3103)에 발생하는 문서의 수 및 문서의 총 수와 함께 실제로 출력되는 단어 빈도 정보를 얻도록 문서 데이터(3101)를 참조한다. 단계(4201)에서, 검색을 실행하려하는 사용자는 검색 입력 수단(3105)을 통해 검색 요구를 입력하고, 단계(4202)에서는 단어 빈도 계산 수단(3106)이 문서 Dj(j=1, 2, ..., ND)에서 검색 요구 입력 수단(3705)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi (i= 1, 2, ..., NW이고, 여기서 NW는 검색 요구에 포함된 사전 단어의 수에 대응한다)의 발생 빈도 TFij를 계산하고 또한 그 단어가 나타나는 문서의 수 NDi를 계산하도록 단어 빈도 인덱스(3103)를 참조한다.
더욱이, 단계(4203)에서는 빈도 스코어 계산 수단(3107)이 단어 빈도 계산 수단(3106)의 출력을 근거로 식(1)에 따라 문서 Dj의 빈도 스코어 SFj를 계산한다.
Figure kpo00001
여기서, IDFi는 모든 문서에서 단어 Wi의 바이어스(bias)를 나타내는 매개 변수이다.
또한, 단계(4204)에서는 문서 스코어 계산 수단(3108)이 빈도 스코어 계산 수단(3107)으로부터 출력된 문서 Dj의 빈도 스코어 SFj를 근거로 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 구한다. 종래의 검색 시스템에서, 문서 스코어 Sj는 식(2)로부터 발견되는 바와 같이 빈도 스코어 SFj이다.
Figure kpo00002
더욱이, 단계(4205)에서는 문서 정렬 수단(3109)이 문서 스코어 계산 수단(3108)에서 계산된 문서 스코어의 순서로 검색 결과를 재배열하고 검색 결과 디스플레이 수단(3110)이 사용자에게 검색 결과를 도시하는 단계(4206)로 이어진다.
그러나, 상술된 종래의 배열에 따라, 제29도에 도시된 바와 같이 검색 요구에 포함되는 한 단어가 매우 높은 빈도로 발생되는 경우에, 사용자의 검색 의도에 반한 문서조차도 더 높은 순서로 정렬되는 점에서 문제가 일어난다. 부가하여, 검색하에서 문서를 정렬하는데 사용되는 스코어의 계산이 필드에 관계없이 문서 단위로 이루어지므로, 논문의 서두나 특허 출원서에서의 발명의 제목과 같은 정보가 실질적으로 사용되는 것이 어렵게 된다.
그 외에, 다양한 문제점이 있다: 다수의 검색 요구를 하는 경우, 이러한 검색 요구에 우선 순위가 부여될 수 없어 사용자의 요구를 탄력적으로 표현하는 것이 어렵고; 필요한 모든 단어를 포함하는 단어의 그룹이 검색 요구로 부여되는 경우, 한 단어가 매우 높은 빈도로 발생되면, 그 문서는 높은 순서로 되고; 또한 검색 요구로 폐쇄된 조건에서 발생을 요구하는 단어의 그룹을 표현하고 그를 탐색하는데 어려움을 겪는다.
그러므로, 본 발명의 목적은 사용자로부터 검색 요구를 탄력적으로 수신하고 거절(불필요한 데이터)되지 않는 정확한 검색 결과를 제공하도록 검색 및 정렬 동작을 행하며 검색 결과의 범위를 줄이는 것과 같은 방법으로 전체적으로 검색 시간을 짧게 할 수 있는 문서 검색 시스템을 제공하는 것이다.
제1도는 본 발명의 실시예 1에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제2도는 본 발명의 실시예 1에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제3도는 본 발명의 실시예 2에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제4도는 본 발명의 실시예 2에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제5도는 본 발명의 실시예 3에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제6도는 본 발명의 실시예 3에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제7도는 본 발명의 실시예 4에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제8도는 본 발명의 실시예 4에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제9도는 본 발명의 실시예 5에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제10도는 본 발명의 실시예 5에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제11도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제12도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제13도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제14도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제15도는 본 발명의 실시예 6에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제16도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제17도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제18도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제19도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제20도는 본 발명의 실시예 7에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제21도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 배열을 도시한 블록도.
제22도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제23도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제24도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제25도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제26도는 본 발명의 실시예 8에 따른 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제27도는 종래의 문서 검색 시스템의 배열을 도시한 블록도.
제28도는 종래의 문서 검색 시스템의 검색 절차를 도시한 흐름도.
제29도는 종래의 문서 검색 시스템의 검색예를 설명한 도면.
* 도면의 주요부분에 대한 부호의 설명
101 : 문서 데이터 102 : 사전
103 : 단어 빈도 인덱스 104 : 동시 단어 발생 인덱스
105 : 단어 빈도 정보 추출 수단 106 : 단어 동시 발생 정보 추출 수단
107 : 검색 요구 입력 수단 108 : 단어 빈도 계산 수단
109 : 빈도 스코어 계산 수단 110 : 단어 동시 발생 정보 추출 수단
본 발명의 한 특성에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 보유하는 인덱스, 다수의 검색 요구 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 존재하는가를 보기 위한 단어 동시 발생 관계 점검 수단을 구비하고, 다른 우선도를 갖는 다수의 검색 요구는 사용자에 의해 입력되고, 단어 동시 발생 관계가 일어나는 타깃 문서에 부여되는 스코어는 증가되고, 또한 그 문서는 우선적으로 디스플레이된다. 이는 사용자가 원하는 문서의 정확한 검색을 허용한다.
본 발명의 또 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 정보 탐색 결과를 정렬하는 문서 검색 시스템에서는 사용자가 다른 우선도(우선 순위)를 갖는 다수의 검색 요구를 입력하도록 다수의 검색 요구 입력 수단이 제공되고, 그 결과로 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서의 다수의 필드 각각에 대해 인덱스 정보를 갖고, 사용자가 검색된 문서의 정렬에 영향을 주는(가중치를 주는) 필드의 비율을 지정하는 것을 허용하도록 필드 비율 입력 수단을 포함한다. 이는 사용자가 필드마다 타깃 문서의 정렬에 영향을 주는 비율을 지정하는 것을 허용하고, 그 결과로 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서도 또한 나타나는 다수의 검색 요구의 단어 수를 계산하도록 발생 단어 수 계산 수단을 포함한다. 검색 요구에 포함되는 다수의 단어가 타깃 문서에서 동시에 나타나는 경우, 검색된 타깃 문서에 부여되는 스코어는 증가되고 그 타깃 문서는 우선적으로 디스플레이된다. 그래서, 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 위치와 단어 발생 빈도를 포함하는 인덱스와, 근접 정도에 따라 타깃 문서에 부여되는 스코어가 증가되고 그 타깃 문서가 우선적으로 디스플레이되도록 타깃 문서에서 검색 요구의 다수의 단어 발생 위치의 근접(접근) 정도를 계산하는 단어 근접 계산 수단을 구비한다. 따라서, 사용자가 원하는 문서의 검색이 높은 정확도로 가능하게 된다.
더욱이, 본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타내는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 단어 빈도 인덱스에 저장하도록 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단; 단어 동시 발생 인덱스에 저장하도록 문서 데이터로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서 데이터의 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단을 통해 얻어진 단어 발생 빈도를 근거로 검색 요구와 문서간의 일치 정도를 나타내는 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단; 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 단어 동시 발생 정보 추출 수단으로부터 출력되고 검색 요구에 포함되는 단어 동시 발생 관계가 얼마나 많이 문서에서 나타나는가를 보도록 단어 동시 발생 인덱스를 참조하는 단어 동시 발생 관계 점검 수단; 검색 요구와 문서에 공통으로 나타나는 단어 동시 발생 관계량을 근거로 문서의 동시 발생 스코어를 계산하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단의 출력과 동시 발생 스코어 계산 수단의 출력을 근거로 문서 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 단어 빈도 인덱스에 저장하도록 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단; 사용자가 우선적으로 다루어질 제 1 검색 요구를 입력하는 것을 허용하는 1차 검색 요구 입력 수단; 사용자가 제 1 검색 요구보다 더 낮은 우선도를 갖는 제 2 검색 요구를 입력하는 것을 허용하는 2차 검색 요구 입력 수단; 문서 데이터의 문서에서 제 1 및 제 2 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 제 1 및 제 2 검색 요구 중 하나와 문서간의 일치 정도를 나타내는 문서의 빈도 스코어를 계산하기 위한 빈도 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어를 근거로 제 1 및 제 2 검색 요구와 문서를 나타내는 문서의 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단: 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 필드마다 타깃 문서에서 사전단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 이를 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 사용자가 검색 요구를 입력하는 것을 허용하는 검색 요구 입력 수단; 사용자가 문서 스코어에 대한 문서의 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 것을 허용하는 필드 비율 입력 수단; 필드마다 문서에서 사전 단어의 발생 빈도를 얻기 위해 검색 요구에 포함된 사전 단어에 관하여 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 각 문서의 필드와 검색 요구간의 일치 정보를 나타내는 빈도 스코어를 계산하기 위한 필드 빈도 스코어 계산 수단; 필드 빈도 스코어 계산 수단으로부터 출력된 필드의 단어 발생 빈도와 필드 비율 입력 수단에 입력된 비율을 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단, 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 유도하고 또한 단어 빈도 인덱스에 이를 저장하는 단어 빈도 정보 추출 수단; 사용자가 정보 탐색 요구를 입력하는 정보 탐색 요구 입력 수단; 문서 데이터의 문서에서 타깃 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 계산하기 위한 빈도 스코어 계산 수단; 검색 요구에 포함되는 단어가 문서에서 얼마나 많이 나타나는가를 보도록 단어 빈도 인덱스를 참조하는 발생 단어 수 계산 수단; 발생 단어 수 계산 수단에서 얻어진 발생 단어의 수를 근거로 문서에 부가되는 발생 단어 스코어를 구하기 위한 발생 단어 스코어 계산 수단: 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 발생 단어 수 스코어 계산 수단으로부터 출력된 발생 단어 스코어를 근거로 검색 요구와 문서간의 일치 정도를 나타내는 문서의 문서 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 이를 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 위치 정보를 구하고 또한 이를 단어 발생 위치 인덱스에 보유하는 단어 발생 위치 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력수단; 문서 데이터의 문서에서 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 발생 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 얻기 위한 빈도 스코어 계산 수단; 문서에서 검색 요구에 포함되는 단어의 발생 위치를 얻기 위해 단어 발생 위치 인덱스를 참조하는 발생 위치 계산 수단; 단어 발생 위치 계산 수단으로부터 출력된 단어 발생 위치를 근거로 문서의 단어간 근접 정도를 계산하는 단어 근접 계산 수단; 단어 근접 계산 수단으로부터 출력된 근접 정도를 근거로 문서에 부여된 근접 스코어를 구하는 근접 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 근접 스코어 계산 수단으로부터 출력된 근접 스코어를 근거로 문서와 검색 요구간의 일치 정도를 나타내는 문서의 스코어를 계산하기 위한 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단 914; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 필드마다 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 사용자가 타깃 문서의 정렬에 영향을 주는 필드의 비율을 지정하는 것을 허용하는 필드 비율 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 구비하고, 단어 동시 발생 관계가 나타나는 타깃 문서에 부여된 스코어는 타깃 문서가 우선적으로 디스플레이되도록 필드마다 증가된다. 이는 사용자가 원하는 문서가 높은 정확도로 검색되는 것을 허용한다.
본 발명의 다른 특성에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 타깃 문서에 또한 나타나는 검색 요구의 다수의 단어수를 계산하는 발생 단어 계산 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 단어 동시 발생 관계 점검 수단을 구비하고, 검색 요구에 포함되는 다수의 단어가 동시에 타깃 문서에도 나타나 단어 동시 발생 관계가 타깃 문서에 나타나는 경우, 타깃 문서가 우선적으로 디스플레이되도록 타깃 문서에 부여된 스코어가 증가된다. 이러한 배열은 사용자가 원하는 문서가 높은 정확도로 검색되는 것을 허용한다.
더욱이, 본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에 나타나는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 추출된 단어 빈도 정보를 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 동시 발생 정보를 추출하고 또한 추출된 단어 동시 발생 정보를 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 중요성을 부여한 1차 검색 요구를 입력하는 것을 허용하는 1차 검색 요구 입력 수단; 사용자가 1차 검색 요구와 비교해 더 낮은 중요성을 부여한 2차 검색 요구를 입력하는 것을 허용하는 2차 검색 요구 입력 수단; 문서에서 1차 검색 요구 입력 수단과 2차 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단; 1차 검색 요구 입력 수단과 2차 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서에서 나타나고 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 구하기 위해 단어 동시 발생 인덱스의 내용을 참조하는 단어 동시 발생 관계 점검 수단; 검색 요구 및 문서에서 공통으로 나타나고 단어 동시 발생 관계 점검 수단에 의해 얻어진 단어 동시 발생 관계의 수를 근거로 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어와 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어를 근거로 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 필드마다 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 단어 빈도 정보를 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 문서 데이터로부터 단어 동시 발생 정보를 추출하고 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력 수단; 필드 마다 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾기 위해 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서의 한 필드에서 나타나고 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾기 위해 필드 단어 동시 발생 인덱스의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단; 필드 단어 동시 발생 관계 점검 수단에서 얻어진 검색 요구와 문서의 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 문서의 필드마다 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산 수단; 사용자가 문서의 정렬에 대한 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 필드 비율 입력 수단; 필드 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 필드 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어, 및 필드 비율 입력 수단으로부터 출력된 비율을 근거로 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
본 발명에 따라, 검색 요구에 응답해 검색될 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템이 제공되고, 이는 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 타깃 문서에서 일어나는 단어 동시 발생 정보를 저장하기 위한 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 단어 빈도 정보를 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 단어 동시 발생 정보를 단어 동시 발생 인덱스에 놓기 위해 문서 데이터로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 사용자가 검색 요구를 입력하는 검색 요구 입력 수단; 문서에서 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하기 위해 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 단어 빈도 계산 수단에 의해 얻어진 단어 빈도를 근거로 문서의 빈도 스코어를 구하는 빈도 스코어 계산 수단; 문서에 나타나고 검색 요구 입력 수단을 통해 입력된 검색 요구에 포함되는 사전 단어의 수를 구하기 위해 단어 빈도 인덱스를 참조하는 발생 단어수 계산 수단; 발생 단어수 계산 수단에 의해 얻어진 발생 단어수를 근거로 발생 단어수 스코어를 계산하는 발생 단어수 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 문서에 나타나는 단어 동시 발생 정보 추출 수단으로부터 출력된 검색 요구의 단어 동시 발생관계의 수를 계산하기 위해 단어 동시 발생 인덱스를 참조하는 단어 동시 발생 관계 점검 수단; 단어 동시 발생 관계 점검 수단에 의해 얻어지고 검색 요구와 문서에 공통으로 발생하는 단어 동시 발생 관계의 수를 근거로 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단; 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 발생 단어수 스코어 계산 수단으로부터 출력된 발생 단어수 스코어, 및 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어를 근거로 문서의 최종적인 스코어를 계산하는 문서 스코어 계산 수단; 문서 스코어 계산 수단에 의해 얻어진 스코어의 순서로 검색 결과인 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 구비한다.
이후에는 본 발명의 실시예가 도면을 참조로 설명된다.
[실시예 1]
제1도는 본 발명에 따른 문서 검색 시스템의 배열을 도시한 블록도이다. 제1도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(101), 사전(102), 타깃 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(103), 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(104), 문서 데이터(101)로부터 단어 빈도 정보를 추출하고 또한 이를 단어 빈도 인덱스(103)에 저장하는 단어 빈도 정보 추출 수단(105), 문서 데이터(101)로부터 단어 동시 발생 정보를 추출하고 또한 이를 단어 동시 발생 인덱스(104)에 보유하는 단어 동시 발생 정보 추출 수단(106), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(107), 문서에서 검색 요구 입력 수단(107)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 구하기 위해 단어 빈도 인덱스(103)를 참조하는 단어 빈도 계산 수단(108), 단어 빈도 계산 수단(108)을 통해 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(109), 검색 요구 입력 수단(107)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(110), 단어 동시 발생 정보 추출 수단(110)이 출력한 검색 요구에 포함되는 단어 동시 발생 관계가 얼마나 많이 각 문서에 나타나는가를 보도록 단어 동시 발생 인덱스(104)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(111), 단어 동시 발생 관계 점검 수단(111)에 의해 얻어지고 검색 요구와 문서에 공통으로 나타나는 단어 동시 발생 관계의 정도를 근거로 각 문서의 동시 발생 스코어를 계산하는 동시 발생 스코어 계산 수단(112), 빈도 스코어 계산 수단(109)의 출력과 동시 발생 스코어 계산 수단(112)의 출력을 근거로 문서 스코어를 계산하는 문서 스코어 계산 수단(113), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(114), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(115)으로 구성된다.
제2도는 본 발명의 실시예 1에 따라 문서 검색 시스템의 검색 동작을 도시한 도면이다. 검색에 앞서, 단어 빈도 정보 추출 수단(105)은 단어가 단어 빈도 인덱스(103)에 존재하는 문서의 수 및 문서의 총 수와 함께 실제로 출력되는 단어 빈도 정보를 미리 찾도록 문서 데이터(101)를 주사하고, 단어 동시 발생 정보 추출 수단(106)은 각 문서에서 단어 동시 발생 정보를 구하고 인덱스를 구성하기 위해 이를 단어 동시 발생 인덱스(104)로 출력하도록 문서 데이터(101)를 주사한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에 나타나는 한 쌍의 단어가 서로 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.
단계(201)에서, 사용자는 검색 요구 입력 수단(107)의 사용을 통해 문자의 형태로 타깃 문서에 대한 검색 요구를 입력한다. 단계(202)에서, 단어 빈도 계산 수단(108)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(107)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서, NW는 검색 요구에 포함되는 사전 단어의 총 수에 대응한다)의 발생 빈도 FTij, 및 그 단어가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(103)를 참조하고 이를 빈도 스코어 계산 수단(109)으로 출력한다.
단계(203)에서, 빈도 스코어 계산 수단(109)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 단어 빈도 계산 수단(108)으로부터 출력된 문서 Dj내의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도로 인한 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFj를 얻기 위해 문서 Dj의 빈도 스코어에 부가된다.
단계(204)에서, 단어 동시 발생 정보 추출 수단(110)은 인덱스 제작에서 취해진 것과 같은 방법에 따라 검색 요구 입력 수단(107)을 통해 입력되는 검색 요구로부터 단어 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서, NC는 검색 요구내에 포함된 단어 동시 발생 관계의 수를 나타낸다)를 추출한다. 단계(205)에서, 단어 동시 발생 관계 점검 수단(111)은 단어 동시 발생 정보 추출 수단(110)이 제공하고 검색 요구의 단어 동시 발생 관계 Ck와 일치하는 문서 Dj에서 일어나는 단어 동시 발생 관계의 수를 계산하도록 단어 동시 발생 인덱스(104)를 참조하고, 또한 계산 결과를 동시 발생 스코어 계산 수단(112)에 출력한다.
단계(206)에서, 동시 발생 스코어 계산 수단(112)은 검색요구와 문서에서 서로 일치하는 단어 동시 발생 관계의 수를 근거로 문서 Dj의 동시 발생 스코어 SCj를 계산한다. 가장 간단한 예의 경우, 동시 발생수는 직접적으로 식(3)에 의해 표시된 바와 같은 동시 발생 스코어 SCj로 사용된다.
Figure kpo00003
단계(207)에서, 문서 스코어 계산 수단(113)은 빈도 스코어 계산 수단(109)으로부터 출력된 빈도 스코어와 동시 발생 스코어 계산 수단(112)으로부터 출력된 동시 발생 스코어를 근거로 식(4)에 따라 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
Figure kpo00004
단계(208)에서, 문서 정렬 수단(114)은 문서 스코어 계산 수단(113)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(209)에서, 검색 결과 디스플레이 수단(115)은 문서 정렬 수단(114)의 출력으로부터 부여된 분류된 문서를 검색 결과로서 사용자에게 디스플레이한다.
상술된 바와 같이, 단어 빈도에 부가하여, 정렬에 대한 영향은 검색 요구와 타깃 문서에 포함되는 단어 동시 발생 관계를 고려해 결정되므로, 사용자의 검색 의도에 더 가까운 문서가 검색 결과에서 보다 의미있는 정렬로 디스플레이될 수 있고 효과적인 검색이 가능하다.
[실시예 2]
제3도는 본 발명의 실시예 2에 따라 문서 검색 시스템의 배열을 도시하는 블록도이다. 제3도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(301), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(303), 단어 빈도 인덱스(303)에 저장하도록 문서 데이터(301)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(304), 사용자가 우선적으로 다루어지기를 원하는 검색 요구를 입력하도록 허용하는 1차 검색 요구 입력 수단(305), 사용자가 1차 검색 요구 보다 더 낮은 우선도를 갖는 검색 요구를 입력하도록 허용하는 2차 검색 요구 입력 수단(306), 각 문서에서 1차 검색 요구 입력 수단(306)과 2차 검색 요구 입력 수단(306)를 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 얻기 위해 단어 빈도 인덱스(303)를 참조하는 단어 빈도 계산 수단(307), 단어 빈도 계산 수단(307)에서 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(308), 빈도 스코어 계산 수단(308)의 출력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(309), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(310), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(311)으로 구성된다.
제4도는 본 발명의 실시예 2에 따라 문서 검색 시스템의 검색 결과를 도시한 흐름도이다.
먼저, 검색에 앞서 단어 빈도 정보 추출 수단(304)은 각 문서에서 사전(302) 중 사전 단어의 발생 빈도를 찾도록 문서 데이터(301)를 주사하고, 문서의 총 수 및 단어가 나타나는 문서의 수와 함께 발생 빈도는 인덱스를 구성하도록 단어 빈도 인덱스(303)로 출력된다.
단계(401)에서, 사용자는 1차 검색 요구 입력 수단(305)의 사용을 통해 탐색하려고 의도하는 문서에 대한 검색 요구를 1차 검색 요구로 입력하는 반면, 단계(402)에서, 사용자는 2차 검색 요구 입력 수단(306)의 사용을 통해 비교적 낮은 중요성을 갖는 문서에 대한 검색 요구를 2차 검색 요구로 입력한다.
단계(403)에서, 단어 빈도 계산 수단(307)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 1차 검색 요구 입력 수단(305)과 2차 검색 요구 입력 수단(306)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ... NW. 여기서, NW는 검색 요구에 포함되는 사전 단어의 총 수에 대응한다)의 발생 빈도 TFij, 및 그 단어가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(303)를 참조하고 이를 빈도 스코어 계산 수단(308)으로 출력한다. 단계(404)에서, 단어 빈도 계산 수단(307)은 단어 Wi가 1차 검색 요구나 2차 검색 요구에 포함되는가 여부에 따라 매개변수 WTi를 취한다. 또한, 단계(405)에서, 빈도 스코어 계산 수단(308)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 문서 Dj에서 단어 Wi의 발생 빈도 TFij, 및 단어 빈도 계산 수단(307)이 출력한 단어 Wi의 가중치 매개변수 WTi를 근거로 단어 빈도를 근거로 하는 문서 Dj와 다음의 식(5)에 따른 검색 요구간의 일치 정보를 나타나는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어는 빈도 스코어 SFj를 구하도록 문서 Dj의 빈도 스코어에 부가된다.
Figure kpo00005
여기서 , IDFi는 모든 문서에서 단어 Wi의 바이어스를 나타내는 매개변수이다.
단계(406)에서, 문서 스코어 계산 수단(309)은 빈도 스코어 계산 수단(308)으로부터 출력된 빈도 스코어의 함수로 상술된 식(2)에 따른 검색 요구와 문서 Dj 간의 일치 정도를 나타내는 문서 스코어 Sj를 계산하다. 단계(407)에서, 문서 정렬 수단(310)은 문서 스코어 계산 수단(309)로부터의 각 문서 Dj에 대한 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(407)에서 검색 결과 디스플레이 수단(311)은 문서 정렬 수단(310)의 출력으로부터 얻어진 분류된 문서를 검색 결과로서 사용자에게 디스플레이 한다.
상술된 바와 같이, 사용자가 입력한 각 검색 요구에는 우선도가 부여되므로, 사용자의 검색 의도를 탄력적으로 표현하고 효과적인 검색을 이루는 것이 가능하다.
[실시예 3]
제5도는 본 발명의 실시예 3에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제5도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(501), 사전(502), 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스(503), 문서 데이터(501)로부터 단어 빈도 정보를 추출하고 이를 필드 단어 빈도 인덱스(503)에 놓는 단어 빈도 정보 추출 수단(504), 사용자가 검색 요구를 입력하도록 허용하는 검색 요구 입력 수단(505), 사용자가 문서 스코어에 대한 일부 필드 문서의 스코어의 영향 정보를 나타내는 비율을 입력하도록 허용하는 필드 비율 입력 수단(506), 각 문서에서의 발생 빈도를 구하도록 검색 요구 입력 수단(505)을 통해 입력된 검색 요구에 포함되는 사전 단어에 관하여 필드 단어 빈도 인덱스(503)를 참조하는 필드 단어 빈도 계산 수단(507), 필드 단어 빈도 계산 수단(507)에서 얻어진 단어 빈도를 근거로 각 문서의 각 필드에서 빈도 스코어를 계산하는 필드 빈도 스코어 계산 수단(508), 필드 빈도 스코어 계산 수단(508)의 출력과 필드 비율 입력 수단(506)으로의 입력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(509), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(510), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(511)으로 구성된다.
제6도는 본 발명의 실시예 3에 따라 문서 검색 시스템의 검색 동작을 도시한 흐름도이다. 검색에 앞서 단어 빈도 정보 추출 수단(504)은 각 문서에서 사전(502)에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(501)를 주사하고, 이를 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 인덱스가 앞서 구성된 필드 단어 빈도 인덱스(503)로 출력된다.
단계(601)에서는 검색 요구 입력 수단(505)을 통해 사용자가 원하는 검색 요구를 입력한다. 단계(602)에서는 필드 비율 입력 수단(506)을 통해 사용자가 정렬에 대한 필드 Fk(k = 1, 2, ..., NF. 여기서 NF는 필드의 총수를 나타낸다)의 스코어의 영향 비율 Rk을 입력한다.
단계(603)에서, 필드 단어 빈도 계산 수단(507)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)의 필드 Fk에서 검색 요구 입력 수단(505)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFijk를 구하도록 필드 단어 빈도 인덱스(503)를 참조하고, 이를 필드 빈도 스코어 계산 수단(508)으로 출력한다.
단계(604)에서, 필드 빈도 스코어 계산 수단(508)은 문서의 총 수 ND, 필드 Fk에서 단어 Wi가 나타나는 문서의 수 NDik, 및 필드 단어 빈도 계산 수단(507)으로부터 출력된 문서 Dj의 필드 Fk에서 단어 Wi의 발생 빈도 TFijk를 근거로 다음의 식(6)에 따른 검색 요구와 단어 빈도를 근거로 하는 문서 Dj의 필드 Fk간의 일치 정도를 나타내는 빈도 스코어 SFjk를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFjk를 구하도록 문서 Dj의 필드 Fk의 빈도 스코어에 부가된다.
Figure kpo00006
단계(605)에서, 문서 스코어 계산 수단(509)은 필드 빈도 스코어 계산 수단(508)으로부터 출력된 각 필드의 빈도 스코어와 스코어 필드 비율 입력 수단(506)에 입력된 필드 Fk의 영향 비율 Rk을 근거로 다음의 식(7)에 따른 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다. 즉, 문서 스코어 Sj에 대해 문서 Dj의 필드 Fk의 빈도 스코어 SFjk가 부가되는 계산은 필드 비율 Rk의 함수로 이루어진다.
Figure kpo00007
단계(606)에서, 문서 정렬 수단(510)은 문서 스코어 계산 수단(509)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(607)에서, 검색 결과 디스플레이 수단(511)은 문서 정렬 수단(510)의 출력으로부터 주어진 분류된 문서를 검색 결과로 사용자에게 디스플레이한다.
상술된 바와 같이, 사용자는 검색 필드의 스코어 할당 비율을 변화시킬 수 있으므로, 사용자의 검색 의도를 탄력적으로 표현하고 또한 효과적인 검색을 이루는 것이 가능하다.
[실시예 4]
제7도는 본 발명의 실시예 4에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제7도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(701), 사전(702), 타깃 문서에서 사전 단어의 발생 빈도를 보유하는 단어 빈도 인덱스(703), 문서 데이터(701)로부터 단어 빈도 정보를 유도하고 이를 단어 빈도 인덱스(703)에 저장하는 단어 빈도 정보 추출 수단(705), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(707), 문서에서 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 단어 빈도 인덱스(703)를 참조하는 단어 빈도 계산 수단(708), 단어 빈도 인덱스 계산 수단(708)에서 얻어진 단어 빈도를 근거로 각 문서의 스코어를 계산하는 빈도 스코어 계산 수단(709), 검색 요구 입력 수단(707)를 통해 입력된 검색 요구에 포함되는 단어가 얼마나 많이 문서에 나타나는가를 찾아 보도록 단어 빈도(703)를 참조하는 발생 단어수 계산 수단(710), 발생 단어수 계산 수단(710)에서 얻어진 발생 단어수를 근거로 각 문서에 부가되는 스코어를 구하는 발생 단어수 스코어 계산 수단(711), 빈도 스코어 계산 수단(709)과 발생 단어수 스코어 계산 수단(711)의 출력을 근거로 각 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단(712), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(713), 및 스코어의 순서로 배열된 결과 문서를 디스플레이하는 검색 결과 디스플레이 수단(714)으로 구성된다.
제8도는 본 발명의 실시예 4에 따라 문서 검색 시스템의 검색 동작을 도시한 흐름도이다. 검색에 앞서 단어 빈도 정보 추출 수단(705)은 각 문서에서 사전(702)에 포함되는 사전 단어의 발생 빈도를 찾도록 문서 데이터(701)를 주사하고, 또한 인덱스를 구성하도록 문서의 총수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(703)로 출력한다.
단계(801)에서는 검색 요구 입력 수단(707)을 통해 사용자가 탐색하는 문서에 대한 검색 요구를 입력한다. 검색 요구로서 다수의 단어를 입력하거나 문장을 입력하고 단어 추출 수단의 부가적인 사용을 통해 문장에서 단어를 유도하는 것이 적절하다.
단계(802)에서, 단어 빈도 계산 수단(708)은 문서의 총 수 N를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 다수의 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(703)를 참조하고, 이를 또한 빈도 스코어 계산 수단(709)으로 출력한다.
단계(803)에서, 빈도 스코어 계산 수단(709)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도로 인한 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어가 빈도 스코어 SFj를 구하도록 문서 Dj의 빈도 스코어에 부가된다.
단계(804)에서, 발생 단어수 계산 수단(710)은 단계(802) 이전에 이미 구해진 복수의 단어 Wi 중에서 문서 Dj에 나타나는 정보를 검색 요구 입력 수단(707)을 통해 입력된 검색 요구에 포함되는 다수의 단어 Wi 및 발생 단어수 스코어 계산 수단(711)에 출력되어 계산된 문서 Dj에 나타나는 다수의 단어 Wi의 단어수 NAj와 비교한다.
단계(805)에서, 발생 단어수 스코어 계산 수단(711)은 예를 들면, 다음의 식(8)에 따라 문서 Dj에서 발생하는 단어의 수 NAj를 근거로 발생 단어수 계산 수단(710)으로부터 출력된 검색 요구에 포함되는 단어의 발생 단어수 스코어 SAj를 계산한다.
Figure kpo00008
단계(806)에서, 문서 스코어 계산 수단(712)은 빈도 스코어 계산 수단(709)이 출력한 빈도 스코어 SFj와 발생 단어수 스코어 계산 수단(711)이 출력한 발생 단어수 스코어 SAj를 근거로 다음의 식(9)에 따라 문서 Dj와 검색 요구간의 일치정도를 나타내는 스코어 Sj를 계산한다.
Figure kpo00009
발생 단어 스코어 SAj의 제시는 검색 요구가 갖는 단어를 포함하여 문서의 스코어를 더 증가시킬 수 있으므로, 우선적인 디스플레이가 실행될 수 있다. 부가하여, 발생 단어의 수를 근거로 하는 우선적인 디스플레이의 정도는 식(9)에서 상수값을 변화시키는 방법으로 가변적이 된다.
단계(807)에서, 문서 정렬 수단(713)은 문서 스코어 계산 수단(712)으로부터 출력된 문서 스코어 Sj의 감소 순서로 문서 Dj를 재배열한다. 또한 단계(808)에서, 검색 결과 디스플레이 수단(714)은 문서 정렬 수단(713)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 도시한다.
상술된 바와 같이, 검색 요구가 다수의 단어를 포함하는 경우, 하나의 고빈도 단어만을 포함하는 문서가 검색 결과에서 높게 정렬되는 것을 방지할 수 있어 효과적인 검색이 가능해진다.
[실시예 5]
제9도는 본 발명의 실시예 5에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제9도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(901), 사전(902), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(903), 타깃 문서에서 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스(904), 문서 데이터(901)로부터 단어 빈도 정보를 추출하고 이를 단어 빈도 인덱스(903)에 저장하는 단어 빈도 정보 추출 수단(905), 문서 데이터(901)로부터 단어 위치 정보를 얻고 이를 단어 발생 위치 인덱스(904)에 보유하는 단어 발생 위치 정보 추출 수단(906), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(907), 문서에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 주파수를 계산하도록 단어 빈도 인덱스(903)를 참조하는 단어 빈도 계산 수단(908), 단어 빈도 계산 수단(908)에서 얻어진 단어 빈도를 근거로 각 문서의 스코어를 구하는 빈도 스코어 계산 수단(909), 문서에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에 포함되는 단어의 발생 위치를 구하도록 단어 발생 위치 인덱스(904)를 참조하는 발생 위치 계산 수단(910), 단어 발생 위치 계산 수단(910)의 출력을 근거로 단어간의 근접 정도를 계산하는 단어 근접 계산 수단(911), 단어 근접 계산 수단(911)의 출력을 근거로 각 문서에 부가되는 스코어를 구하는 근접 스코어 계산 수단(912), 빈도 스코어 계산 수단(909)과 근접 스코어 계산 수단(912)의 출력을 근거로 각 문서의 스코어를 계산하는 문서 스코어 계산 수단(913), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(914), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(915)으로 구성된다.
제10도는 본 발명의 실시예 5에 따라 검색 동작을 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(905)은 각 문서에서 사전(902)의 사전 단어 발생 빈도를 찾아 이를 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 단어 빈도 인덱스(903)로 출력하도록 문서 데이터(901)를 주사하는 반면, 단어 발생 위치 정보 추출 수단(906)은 각 문서에서 사전 단어의 발생 위치를 발견하여 인덱스가 구성되도록 단어 발생 위치 인덱스(904)로 출력한다.
단계(1001)에서는 검색 요구 입력 수단(907)을 통해 사용자가 타깃 문서에 대한 검색 요구로서 다수의 단어를 입력한다. 사용자는 검색 요구로 문장을 입력하고 부가적으로 제공된 단어 추출 수단을 사용해 문장으로부터 단어를 유도하는 것이 또한 적절하다.
단계(1002)에서, 단어 빈도 계산 수단(908)은 문서의 총 수 ND를 구하고 또한 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(907)을 통해 입력된 검색 요구에서 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 알도록 단어 빈도 인덱스(903)를 참조하고, 또한 이들을 빈도 스코어 계산 수단(909)으로 출력한다.
단계(1003)에서, 단어 발생 위치 계산 수단(910)은 문서 Dj에서 검색 요구 입력 수단(907)을 통해 입력된 다수의 단어 Wi의 모든 발생 위치를 구하도록 단어 발생 위치 인덱스(904)를 참조하고, 이들을 단어 근접 계산 수단(911)으로 출력한다. 단계(1004)에서, 빈도 스코어 계산 수단(909)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따른 검색 요구와 단어 빈도를 근거로 하는 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 즉, 그 단어를 근거로 하는 빈도 스코어는 문서 Dj의 빈도 스코어에 부가되어 빈도 스코어 SFj를 계산한다.
단계(1005)에서. 단어 근접 계산 수단(911)은 단어 발생 위치 계산 수단(910)으로부터 출력된 문서 Dj내의 각 단어 Wi의 발생 위치 및 그의 단어 길이를 근거로 다른 단어의 모든 발생 위치의 조합 Pk(k = 1, 2, ..., NP. 여기서 NP는 다른 단어의 모든 발생 위치의 조합수에 대응한다)에 관하여 두 단어간의 거리 DSTjk를 계산하고, 단계(1006)에서는 DSTjk로부터 단어 근접치 NEjk를 계산한다. 예를들면, 단어 근접치 NEjk는 다음의 식(10)에 의해 부여될 수 있다.
Figure kpo00010
부수적으로, 모든 조합의 단어 근접 정도를 구하는 것은 많은 계산치를 요구하므로, d 이하의 거리 DSTjk를 갖는 발생 위치의 조합에 대해서만 계산이 이루어지도록 한계값 d를 설정하거나 사용자가 근접치의 계산을 행하는 단어쌍을 제한하는 것이 가능하다.
단계(1007)에서, 근접 스코어 계산 수단(912)은 단어 근접 계산 수단(911)의 출력인 단어 근접치 NEjk의 함수로 다음의 식(11)에 따라 각 문서 Dj의 근접 스코어 SNj를 계산한다. 특히, 계산되는 단어 근접치 NEjk는 문서 Dj의 근접 스코어에 부가되고, 그에 의해 근접 스코어 SNj를 구한다.
Figure kpo00011
단계(1008)에서, 문서 스코어 계산 수단(913)은 빈도 스코어 계산 수단(909)의 출력인 빈도 스코어 SFj와 근접 스코어 계산 수단(912)의 출력인 근접 스코어 SNj를 근거로 스코어 Sj, 즉 다음의 식(12)에 따른 문서 Dj와 검색 요구가의 일치정도를 계산한다.
Figure kpo00012
이와 같이, 근접 스코어 SNj의 제시는 검색 요구에 포함되는 다른 단어가 서로 근접한 관계로 나타나는 문서의 스코어를 올릴 수 있어 우선적인 디스플레이를 허용한다. 부가하여, 상술된 식(12)에서의 상수값 변화는 단어 근접 정도를 근거로 하는 우선적인 디스플레이의 변화를 허용한다.
단계(1009)에서, 문서 정렬 수단(914)은 문서 스코어 계산 수단(913)으로부터 출력된 각 문서 Dj의 문서 스코어 감소 순서로 문서를 재배열한다. 또한, 단계(1010)에서, 검색 결과 디스플레이 수단(915)은 문서 정렬 수단(914)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 도시한다.
상술된 배열로, 검색 요구에 포함되는 다수의 단어가 서로 근접한 위치로 발생되지 않으면 검색 요구를 할 필요가 없는 경우, 불필요한 문서를 더 높은 순위로 가정하는 부당함을 방지할 수 있어 효과적인 검색이 이루어진다.
[실시예 6]
제11도는 본 발명의 실시예 6에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제11도에서, 문서 검색 시스템은 검색의 물체인 문서 데이터(1401), 사전(1402), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(1403), 타깃 문서에 나타나는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(1404), 문서 데이터(1401)로부터 단어 빈도 정보를 추출하고 이를 단어 빈도 인덱스(1403)에 놓는 단어 빈도 정보 추출 수단(1405), 문서 데이터(1401)로부터 단어 동시 발생 정보를 추출하고 이를 단어 동시 발생 인덱스(1404)에 놓는 단어 동시 발생 정보 추출 수단(1406), 사용자가 중요성을 부착한 검색 요구를 입력하도록 허용하는 1차 검색 요구 입력 수단(1407), 사용자가 1차 검색 요구와 비교해 더 낮은 중요성을 부착한 검색 요구를 입력하도록 허용하는 2차 검색 요구 입력 수단(1408), 문서에서 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 구하도록 단어 빈도 인덱스(1403)를 참조하는 단어 빈도 계산 수단(1409), 단어 빈도 계산 수단(1409)에서 얻어진 단어 발생 빈도를 근거로 각 문서의 빈도 스코어를 계산하는 빈도 스코어 계산 수단(1410), 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1411), 각 문서에 나타나고 단어 동시 발생 정보 추출 수단(1411)으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 구하도록 단어 동시 발생 인덱스(1404)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(1412), 검색 요구와 문서에 공통으로 나타나고 단어 동시 발생 관계 점검 수단(1412)에 의해 얻어진 단어 동시 발생 관계의 수를 근거로 각 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단(1413), 빈도 스코어 계산 수단(1410)의 출력과 동시 발생 스코어 계산 수단(1413)의 출력을 근거로 각 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단(1414), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(1415), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(1416)으로 구성된다.
제12도 내지 제15도는 본 발명의 실시예 6에 따라 문서 검색 시스템의 검색동작을 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(1405)은 각 문서에서 사전(1402)에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(1401)를 주사하고 문서의 총 수, 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(1403)에 출력하고, 단어 동시 발생 정보 추출 수단(1406)은 각 문서에서 단어 동시 발생 정보를 얻도록 문서 데이터(1401)를 주사하여 단어 동시 발생 인덱스(1404)에 출력하고, 그에 의해 미리 인덱스를 구성한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에서 나타나는 단어의 쌍이 서로 동시 발생 관계에 있음을 결정하고 그를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어의 쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.
단계(1501)에서, 사용자는 사용자가 탐색하기 원하고 중요성을 부여한 문서에 대해 1차 검색 요구를 입력하기 위해 1차 검색 요구 입력 수단(1407)을 사용한다. 부가하여, 단계(1502)에서, 사용자는 1차 검색 요구와 비교해 더 낮은 중요성을 부여한 2차 검색 요구를 입력하기 위해 2차 검색 요구 입력 수단(1408)을 사용한다.
단계(1503)에서, 단어 빈도 계산 수단(1409)은 문서의 총 수 ND를 구하고, 문서 Dj(j = 1, 2, ..., ND)에서 1차 검색 요구 입력 수단(1407)과 2차 검색 요구 입력 수단(1408)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 그 단어가 나타나는 문서의 수 NDj를 구하도록 단어 빈도 인덱스(1403)를 참조한다. 단계(1504)에서, 단어 빈도 계산 수단(1409)은 단어 Wi가 1차 검색 요구나 2차 검색 요구에 포함되는가 여부를 근거로 가중치 매개변수 WTi를 선택하고 이를 빈도 스코어 계산 수단(1410)으로 출력한다.
단계(1505)에서, 빈도 스코어 계산 수단(1410)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 문서 Dj에서 단어 Wi의 발생 빈도 TFij, 및 단어 빈도 계산 수단(1409)이 그에 부여한 단어 Wi에 대한 가중치 매개변수 WTi를 근거로 상술된 식(5)에 따라 검색 요구와 단어 빈도를 근거로 하는 문서 Dj간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산하고, 빈도 스코어 SFj를 문서 스코어 계산 수단(1414)으로 출력한다. 즉, 그 단어로 인한 빈도 스코어는 문서 Dj의 빈도 스코어에 부가된다.
단계(1506)에서, 단어 동시 발생 정보 추출 수단(1411)은 인덱스 제작과 같은 방법에 따라 1차 검색 요구 입력 수단(1407)을 통해 입력된 1차 검색 요구로부터 1차 동시 발생 관계 Csk(k= 1, 2, ..., NC. 여기서 NC는 1차 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 추출된 1차 동시 발생 관계 Csk를 단어 동시 발생 관계 점검 수단(1412)으로 출력한다.
단계(1507)에서, 단어 동시 발생 관계 점검 수단(1412)은 단어 동시 발생 정보 추출 수단(1411)에서 얻어진 1차 동시 발생 관계 Csk와 일치하는 문서 Dj에서 나타나는 단어 동시 발생 관계의 단어 동시 발생 관계수 NCsj를 계산하도록 단어 동시 발생 인덱스(1404)를 참조하고, 결과의 NCsj를 동시 발생 스코어 계산 수단(1413)으로 출력한다.
단계(1508)에서, 단어 동시 발생 정보 추출 수단(1411)은 인덱스 제작과 같은 방법에 따라 2차 검색 요구 입력 수단(1408)을 통해 입력된 2차 검색 요구로부터 2차 동시 발생 관계 Cfm(m = 1, 2, ..., NCf. 여기서 NCf는 2차 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)을 추출하고, 2차 동시 발생 관계 Cfm을 단어 동시 발생 관계 점검 수단(1412)에 입력한다.
단계(1509)에서, 단어 동시 발생 관계 점검 수단(1412)은 단어 동시 발생 정보 추출 수단(1411)에 의해 얻어진 2차 동시 발생 관계 Cfm과 일치하는 문서 Dj에서 나타나는 단어 동시 발생 관계의 단어 동시 발생 관계수 NCfj를 계산하도록 단어 동시 발생 인덱스(1404)를 참조하고, 계산된 NCfj를 동시 발생 스코어 계산 수단(1413)으로 출력한다.
단계(1510)에서, 동시 발생 스코어 계산 수단(1413)은 다음의 식(13)에 따라 문서 Dj의 동시 발생 SCj를 계산하고, 이를 문서 스코어 계산 수단(1414)으로 출력한다.
Figure kpo00013
단계(1511)에서, 문서 스코어 계산 수단(1414)은 다음의 식(14)에 따라 빈도 스코어의 최대값과 최소값간의 차이 SR를 계산한다.
Figure kpo00014
단계(1512)에서, 문서 스코어 계산 수단(1414)은 빈도 스코어 계산 수단(1410)으로부터 출력된 빈도 스코어와 동시 발생 스토어 계산 수단(1413)으로부터 출력된 동시 발생 스코어를 근거로, 다음의 식(15)에 따라 문서 Dj와 검색 요구간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
Figure kpo00015
단계(1513)에서, 문서 정렬 수단(1415)은 문서 스코어 계산 수단(1414)으로 부터 출력된 각 문서 Dj의 문서 스코어값 Sj 감소 순서로 문서를 재배열하고, 단계(1514)에서, 검색 결과 디스플레이 수단(1416)은 문서 정렬 수단(1415)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.
상술된 바와 같이, 이러한 시스템은 서로 중요성이 다른 1차 검색 요구와 2차 검색 요구를 수신하고, 검색 요구와 문서간의 일치 정도를 결정하는 기준으로서, 1차 동시 발생 관계 > 2차 동시 발생 관계 > 1차 단어 빈도 > 2차 단어 빈도의 순서로 우선도를 만들어, 검색 결과에서 보다 의미있는 문서로 사용자의 검색 의도에 더 가까운 문서를 디스플레이한다.
[실시예 7]
제16도는 본 발명의 실시예 7에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제16도에서, 문서 검색 시스템은 검색이 행해지는 문서 데이터(1901), 사전(1902), 필드마다 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스(1903), 필드마다 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스(1904), 단어 빈도 정보를 필드 단어 빈도 인덱스(1903)에 놓도록 문서 데이터(1901)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(1905), 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스(1904)에 저장하도록 문서 데이터(1901)로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1906), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(1907), 문서에서 필드마다 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾도록 필드 단어 빈도 인덱스(1903)를 참조하는 필드 단어 빈도 계산 수단(1908), 필드 단어 빈도 계산 수단(1908)에서 얻어진 단어 빈도를 근거로 각 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단(1909), 검색 입력 수단(1907)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(1910), 각 문서의 필드에 나타나고 단어 동시 발생 정보 추출 수단(1910)으로부터 출력된 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾도록 필드 단어 동시 발생 인덱스(1904)의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단(1911), 필드 단어 동시 발생 관계 점검 수단(1911)에서 얻어진 검색 요구와 각 문서의 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 각 문서의 각 필드에서 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산 수단(1912), 문서의 정렬에 대한 각 필드의 스코어의 영향 정보를 나타내는 비율을 사용자가 입력하는 필드 비율 입력 수단(1913), 필드 빈도 스코어 계산 수단(1909)의 출력, 필드 동시 발생 스코어 계산 수단(1912)의 출력, 및 필드 비율 입력 수단(1913)의 출력을 근거로 각 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단(1914), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(1915), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(1916)으로 구성된다.
제17도 내지 제20도는 본 발명의 실시예 7에 따라 문서 검색 시스템에서의 검색 절차를 도시한 흐름도이다. 검색에 앞서, 단어 빈도 정보 추출 수단(1905)은 각 문서에서 필드마다 사전(1902)내에 포함된 사전 단어의 발생 빈도를 찾아보도록 문서 데이터(1901)를 주사하고 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 필드 단어 빈도 인덱스(1903)로 출력하는 반면, 단어 동시 발생 정보 추출 수단(1906)은 각 문서에서 필드마다 단어 동시 발생 정보를 구하도록 문서 데이터(1901)를 구하고 인덱스를 구성하도록 단어 동시 발생 정보를 필드 단어 동시 발생 인덱스(1904)로 출력한다. 단어 동시 발생 정보를 구하는 방법으로, 예를들면 같은 문자에 나타나는 한 쌍의 단어가 서로에 대해 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하는 형태소 분석을 실행하는 방법이 있다.
단계(2001)에서는 검색 요구 입력 수단(1907)을 통해 사용자가 탐색하는 문서에 대한 검색 요구를 입력한다. 부가하여, 단계(2002)에서는 사용자가 정렬화에 대한 필드 Fm(m = 1, 2, ..., NF. 여기서 NF는 필드의 총 수를 나타낸다)의 스코어의 영향 비율 Rm을 입력하도록 필드 비율 입력 수단(1913)을 이용한다.
단계(2003)에서, 필드 단어 빈도 계산 수단(1908)은 문서의 총 수 ND를 찾도록 필드 단어 빈도 인덱스(1903)를 참조하고, 문서 Dj(j = 1, 2, ..., ND)의 필드 Fm에서 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFijm을 계산하고, 필드 Fm에 나타나는 문서의 수 NDim을 계산하고, 또한 이들을 필드 빈도 스코어 계산 수단(1909)으로 출력한다.
단계(2004)에서 필드 빈도 스코어 계산 수단(1909)은 문서의 총 수 ND, 단어 Wi가 필드 Fm에 나타나는 문서의 수 NDim, 및 필드 단어 빈도 계산 수단(1908)으로부터 출력된 문서 Dj의 필드 Fm에서의 단어 Wi의 발생 빈도 TFijm을 근거로 상술된 식(6)에 따라 검색 요구와 단어 빈도를 근거로 하는 문서 Dj의 필드 Fm간의 일치 정도를 나타내는 빈도 스코어 SFjm을 계산하고, 빈도 스코어 SFjm를 문서 스코어 계산 수단(1914)으로 출력한다. 이러한 경우, 단어 빈도를 근거로 하는 빈도 스코어는 문서 Dj의 필드 Fm에 대한 빈도 스코어에 부가된다.
단계(2005)에서, 단어 동시 발생 정보 추출 수단(1910)은 인덱스 제작과 같은 방법에 따라 검색 요구 입력 수단(1907)을 통해 입력된 검색 요구로부터 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서 NC는 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 동시 발생 관계 Ck를 필드 단어 동시 발생 관계 점검 수단(1911)으로 출력한다.
단계(2006)에서, 필드 단어 동시 발생 관계 점검 수단(1911)은 정보 동시 발생 정보 추출 수단(1910)에 의해 얻어진 단어 동시 발생 관계 Ck와 일치하는 문서 Dj의 필드 Fm에 나타나는 단어 동시 발생 관계의 수 NCjm를 계산하도록 필드 단어 동시 발생 인덱스(1904)를 참조하고, 단어 동시 발생 관계 Ck와 일치하는 단어 동시 발생 관계의 수 NCjm를 필드 동시 발생 스코어 계산 수단(1912)으로 출력한다.
단계(2007)에서, 필드 동시 발생 스코어 계산 수단(1912)은 다음의 식(16)에 따라 문서 Dj의 필드 Fm에 대한 동시 발생 스코어 SCjm를 계산하고, 동시 발생 스코어 SCjm을 문서 스코어 계산 수단(1914)으로 출력한다.
Figure kpo00016
단계(2008)에서, 문서 스코어 계산 수단(1914)은 다음의 식(17)에 따라 필드 빈도 스코어의 최대값과 최소값의 차이 SR를 계산한다.
Figure kpo00017
단계(2009)에서, 문서 스코어 계산 수단(1914)은 필드 빈도 스코어 계산 수단(1909)으로부터 출력된 각 필드의 필드 빈도 스코어 SFjm, 필드 동시 발생 스코어 계산 수단(1912)으로부터 출력된 각 필드의 동시 발생 스코어 SCjm, 및 필드 비율 입력 수단(1913)을 통해 입력된 스코어 할당 비율 Rm을 근거로 다음의 식(18)에 따라 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
Figure kpo00018
단계(2010)에서, 문서 정렬 수단(1915)은 문서 스코어 계산 수단(1914)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(2011)에서, 검색 결과 디스플레이 수단(1916)은 문서 정렬 수단(1915)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.
상술된 바와 같이, 사용자는 타깃 필드의 스코어 할당 비율을 변화시킬 수 있으므로, 사용자의 검색 의도를 탄력적으로 표현하고 또한 효과적인 검색을 이루는 것이 가능하다.
[실시예 8]
제21도는 본 발명의 실시예 8에 따라 문서 검색 시스템의 배열을 도시한 블록도이다. 제21도에서 문서 검색 시스템은 검색이 행해지는 문서 데이터(2401), 사전(2402), 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스(2403), 타깃 문서에서 발생하는 단어 동시 발생 정보를 저장하는 단어 동시 발생 인덱스(2404), 단어 빈도 인덱스(2403)에 저장하도록 문서 데이터(2401)로부터 단어 빈도 정보를 추출하는 단어 빈도 정보 추출 수단(2405), 단어 동시 발생 인덱스(2404)에 놓도록 문서 데이터(2401)로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(2406), 사용자가 검색 요구를 입력하는 검색 요구 입력 수단(2407), 문서에서 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 단어 빈도 인덱스(2403)를 참조하는 단어 빈도 계산 수단(2408), 단어 빈도 계산 수단(2408)에 의해 얻어진 단어 빈도를 근거로 각 문서의 빈도 스코어를 구하는 빈도 스코어 계산 수단(2409), 각 문서에 나타나고 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어의 수를 구하도록 단어 빈도 인덱스(2403)를 참조하는 발생 단어수 계산 수단(2410), 발생 단어수 계산 수단(2410)에 의해 얻어진 발생 단어수를 근거로 발생 단어수 스코어를 계산하는 발생 단어수 스코어 계산 수단(2411), 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단(2412), 각 문서에 나타나는 단어 동시 발생 정보 추출 수단(2412)으로부터 출력된 검색 요구의 단어 동시 발생 관계의 수를 계산하도록 단어 동시 발생 인덱스(2404)의 내용을 참조하는 단어 동시 발생 관계 점검 수단(2413), 단어 동시 발생 관계 점검 수단(2413)에 의해 얻어진 문서와 검색 요구에 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 각 문서의 동시 발생 스코어를 구하는 동시 발생 스코어 계산 수단(2414), 빈도 스코어 계산 수단(2409)의 출력, 발생 단어수 스코어 계산 수단(2411)의 출력, 및 동시 발생 스코어 계산 수단(2415)의 출력을 근거로 각 문서의 최종 스코어를 계산하는 문서 스코어 계산 수단(2415), 스코어의 순서로 문서를 재배열하는 문서 정렬 수단(2416), 및 스코어의 순서로 배열된 결과의 문서를 디스플레이하는 검색 결과 디스플레이 수단(2417)으로 구성된다.
제22도 내지 제26도는 본 발명의 실시예 8에 따라 문서 검색 요구에서의 검색절차를 도시한 흐름도이다. 검색 이전에, 단어 빈도 정보 추출 수단(2405)은 각 문서에서 단어(2402)내에 포함된 사전 단어의 발생 빈도를 찾도록 문서 데이터(2401)를 주사하고 문서의 총 수 및 그 단어가 나타나는 문서의 수와 함께 발생 빈도를 단어 빈도 인덱스(2403)로 출력하는 반면, 단어 동시 발생 정보 추출 수단(2406)은 각 문서에서 단어 동시 발생 정보를 찾도록 문서 데이터(2401)를 주사하고 이를 단어 동시 발생 인덱스(2404)로 출력하여 인덱스를 구성한다. 단어 동시 발생 정보를 구하는 방법으로, 예를 들면 같은 문장에 나타나는 한 쌍의 단어가 서로에 대해 동시 발생 관계에 있음을 결정하고 이를 추출하는 방법이나 NP-NP, 주어-술어 혹은 목적어-술어 관계에 있는 단어쌍을 추출하도록 형태소 분석을 실행하는 방법이 있다.
단계(2501)에서, 사용자는 탐색하기 원하는 문서에 대한 검색 요구를 입력하도록 검색 요구 입력 수단(2407)을 이용한다. 단계(2502)에서, 단어 빈도 계산 수단(2408)은 문서의 총 수 ND를 알고 문서 Dj(j = 1, 2, ..., ND)에서 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi(i = 1, 2, ..., NW. 여기서 NW는 검색 요구에 포함되는 사전 단어의 수에 대응한다)의 발생 빈도 TFij 및 단어 Wi가 나타나는 문서의 수 NDi를 구하도록 단어 빈도 인덱스(2403)를 참조하고, 이를 빈도 스코어 계산 수단(2409)으로 출력한다.
단계(2503)에서, 빈도 스코어 계산 수단(2409)은 문서의 총 수 ND, 단어 Wi가 나타나는 문서의 수 NDi, 및 문서 Dj에서의 단어 Wi의 발생 빈도 TFij를 근거로 상술된 식(1)에 따라 검색 요구와 단어 빈도로 인한 문서간의 일치 정도를 나타내는 빈도 스코어 SFj를 계산한다. 이러한 경우, 단어 빈도를 근거로 하는 빈도 스코어는 문서 Dj의 빈도 스코어에 부가된다.
단계(2504)에서, 발생 단어수 계산 수단(2410)은 문서 Dj에 또한 나타나는 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구에 포함되는 사전 단어 Wi의 단어 수 NAj를 계산하도록 단어 빈도 인덱스(2403)를 참조하고, 수 NAj를 발생 단어수 스코어 계산 수단(2411)으로 출력한다.
단계(2505)에서, 발생 단어수 스코어 계산 수단(2411)은 발생 단어수 계산 수단(2410)이 제공한 발생 단어수 NAj를 근거로 상술된 식(8)에 따라 발생 단어수 스코어를 계산하고, 발생 단어수 스코어를 문서 스코어 계산 수단(2415)로 출력한다.
단어(2506)에서, 단어 동시 발생 정보 추출 수단(2412)은 인덱스 제작과 유사한 방법의 사용으로 검색 요구 입력 수단(2407)을 통해 입력된 검색 요구로부터 동시 발생 관계 Ck(k = 1, 2, ..., NC. 여기서 NC는 검색 요구에 포함되는 단어 동시 발생 관계의 수를 나타낸다)를 추출하고, 동시 발생 관계 Ck를 단어 동시 발생 관계 점검 수단(2413)으로 출력한다.
단계(2507)에서, 단어 동시 발생 관계 점검 수단(2413)은 단어 동시 발생 정보 추출 수단(2404)에 의해 얻어진 각 단어 동시 발생 관계 Ck가 나타나는 문서를 찾도록 단어 동시 발생 인덱스(2404)를 참조하고, 단어 동시 발생 관계 Ck의 단어 동시 발생 관계수 NCj를 계산하고, 또한 그 결과를 동시 발생 스코어 계산 수단(2414)으로 출력한다.
단계(2508)에서, 동시 발생 스코어 계산 수단(2414)은 상술된 식(3)에 따라 문서 Dj의 동시 발생 스코어 SCj를 계산하고, 동시 발생 스코어 SCj를 문서 스코어 계산 수단(2415)으로 출력한다. 단계(2509)에서, 문서 스코어 계산 수단(2415)은 상술된 식(14)에 따라 빈도 스코어의 최대 및 최소값간의 차이 SR를 계산한다.
단계(2510)에서, 문서 스코어 계산 수단(2415)은 빈도 스코어 계산 수단(2409)의 출력인 빈도 스코어 SFj, 발생 단어수 스코어 계산 수단(2411)의 출력인 발생 단어수 스코어 SAj, 및 동시 발생 스코어 계산 수단(2414)의 출력인 동시 발생 스코어 SCj를 근거로 다음의 식(19)에 따라 검색 요구와 문서 Dj간의 일치 정도를 나타내는 문서 스코어 Sj를 계산한다.
Figure kpo00019
단계(2511)에서, 문서 정렬 수단(2416)은 문서 스코어 계산 수단(2415)으로부터 출력된 각 문서 Dj의 문서 스코어 Sj 감소 순서로 문서를 재배열하고, 단계(2512)에서, 검색 결과 디스플레이 수단(2417)은 문서 정렬 수단(2416)의 출력으로부터 얻어진 분류된 문서를 사용자에게 검색 결과로 디스플레이한다.
상술된 바와 같이, 문서와 검색 요구간의 일치 정도를 결정하는 기준으로, 단어 빈도에 부가하여 동시 발생 관계와 발생 단어수가 취해져, 동시 발생 관계 > 발생 단어수 > 단어 빈도의 순서로 우선도가 이루어지고, 그 결과로 사용자의 검색 의도에 더 근접한 문서가 검색 결과에서 높은 순위로 디스플레이될 수 있어 높은 정확도와 효율성으로 검색을 이룰 수 있다.
상술된 바와 같이, 본 발명에 따른 문서 검색 시스템에서, 인덱스는 타깃 문서내의 단어 동시 발생 정보를 갖고 단어 동시 발생 관계 점검 수단은 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하기 위해 제공되고, 타깃 문서의 각 필드와 연관된 인덱스 정보가 제시되고 사용자가 정렬에 영향을 주는 필드 비율을 지정할 수 있도록 필드 비율 입력 수단이 제공되고, 또한 다수의 검색 요구 입력 수단이 다른 우선 순위를 갖는 다수의 검색 요구를 입력하도록 제공되고, 타깃 문서에 포함된 검색 요구의 다수의 단어의 수를 계산하도록 발생 단어수 계산 수단이 제공되고, 인덱스는 타깃 문서내의 단어 발생 위치 정보를 갖고 검색 요구의 다수의 단어의 발생 위치가 서로 인접하는가 또는 비교적 서로 근접하는가 여부를 점검하도록 단어 근접 계산 수단이 제공된다. 따라서, 사용자의 요구를 탄력적으로 수신하여 검색 및 정렬을 실행하는 것이 가능하다.
더욱이, 문서 검색 시스템은 필드마다 타깃 문서에서 단어 발생 빈도 및 단어 동시 발생 정보를 포함하는 인덱스, 사용자가 타깃 문서의 정렬에 영향을 주는 필드 비율을 지정할 수 있는 필드 비율 입력 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 갖춘다. 또한, 문서 검색 시스템은 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스, 검색 요구에 포함되는 다수의 단어가 타깃 문서에서 얼마나 많이 나타나는가를 계산하는 발생 단어수 계산 수단, 및 검색 요구에 포함되는 단어 동시 발생 관계가 타깃 문서에 나타나는가 여부를 점검하는 단어 동시 발생 관계 점검 수단을 구비한다. 이러한 배열은 탄력적인 사용자로부터의 검색 요구의 수용과 검색 및 정렬 동작의 실행을 허용한다.
그래서, 거절이 보다 작지만 높은 정확도로 검색 결과를 제공하고, 또한 예를 들면, 결과 문서의 범위를 좁힘으로서 전체적으로 검색 시간을 줄이는 것이 가능하다.
상기는 본 발명의 양호한 실시예에만 관련된 것이고, 본 발명의 의도 및 범위에서 벗어난 것을 구성하지 않는, 설명을 위해 여기서 사용된 본 발명의 실시예의 모든 변경 및 수정을 포함하도록 의도되는 것으로 이해되어야 한다.
본 발명의 문서 검색 시스템은 사용자로부터 검색 요구를 탄력적으로 수신하고 거절(불필요한 데이터)되지 않는 정확한 검색 결과를 제공하도록 검색 및 정렬동작을 행하며 검색 결과의 범위를 줄이는 것과 같은 방법으로 전체적으로 검색 시간을 짧게 할 수 있다.

Claims (8)

  1. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 시스템이 상기 타깃 문서의 다수의 필드 각각에 대한 인덱스 정보를 보유하고 사용자가 상기 검색 결과의 정렬에 영향을 주는 상기 필드 비율을 지정하도록 허용하는 필드 비율 입력 수단을 포함하여, 상기 사용자가 필드마다 상기 검색 결과의 정렬에 영향을 주는 상기 비율을 지정하도록 허용되는 문서 검색 시스템.
  2. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에 나타나는 상기 검색 요구의 다수의 단어의 수를 계산하는 발생 단어수 계산 수단을 포함하여, 상기 검색 요구에 포함되는 상기 다수의 단어가 상기 타깃 문서에 동시에 나타나는 경우에, 검색된 상기 타깃 문서에 부여되는 스코어가 증가되고 상기 타깃 문서가 우선적으로 디스플레이되는 문서 검색 시스템.
  3. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 단어의 발생 빈도와 상기 단어의 발생 위치를 포함하는 인덱스와, 검색된 상기 타깃 문서에 부여되는 스코어가 근접 정도에 따라 증가되고 상기 타깃 문서가 우선적으로 디스플레이 되도록 상기 타깃 문서에서 상기 검색 요구의 다수의 단어의 발생 위치에 대한 근접 정도를 계산하는 단어 근접 계산 수단을 포함하는 문서 검색 시스템.
  4. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 이를 상기 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 사용자가 상기 검색 요구를 입력하도록 허용하는 검색 요구 입력 수단; 상기 사용자가 문서 스코어에 대한 문서의 필드 스코어의 영향 정도를 나타내는 비율을 입력하도록 허용하는 필드 비율 입력 수단; 상기 문서에서 상기 사전 단어의 발생 빈도를 구하도록 상기 검색 요구에 포함되는 사전 단어에 관하여 상기 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 상기 필드 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 각 문서의 필드간의 일치 정도를 나타내는 빈도 스코어를 계산하는 필드 빈도 스코어 계산 수단; 상기 필드 비율 입력 수단에 입력된 상기 비율과 상기 필드 빈도 스코어 계산 수단으로부터 출력된 상기 필드의 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 문서 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
  5. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 상기 타깃 문서에서 나타나는 단어의 목록을 저장하는 발생 단어 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 유도하고 또한 이를 상기 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 발생 단어 정보를 유도하고 또한 이를 상기 발생 단어 인덱스에 보유하는 발생 단어 정보 추출 수단; 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 상기 문서 데이터의 문서에서 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 상기 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 상기 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 계산하는 빈도 스코어 계산 수단; 상기 검색 요구에 포함되는 단어 중 얼마나 많은 단어가 상기 문서에 나타나는가를 찾기 위해 상기 발생 단어 인덱스를 참조하는 발생 단어수 계산 수단; 상기 발생 단어수 계산 수단에서 얻어진 발생 단어의 수를 근거로 상기 문서에 부가되는 발생 단어 스코어를 구하는 발생 단어 스코어 계산 수단; 상기 빈도 스코어 계산 수단으로부터 출력된 상기 빈도 스코어와 상기 발생 단어수 스코어 계산 수단으로부터 출력된 상기 발생 단어 스코어를 근거로 상기 문서와 상기 검색 요구간의 일치 정도를 나타내는 상기 문서의 문서 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
  6. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 단어 빈도 인덱스; 상기 타깃 문서에서 나타나는 단어의 위치를 저장하는 단어 발생 위치 인덱스; 검색되는 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 이를 상기 단어 빈도 인덱스에 저장하는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 단어 위치 정보를 구하고 또한 이를 상기 단어 발생 위치 인덱스에 보유하는 단어 발생 위치 정보 추출 수단: 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 상기 문서 데이터의 문서에서 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 계산하도록 상기 단어 빈도 인덱스를 참조하는 단어 빈도 계산 수단; 상기 단어 빈도 계산 수단에서 얻어진 상기 단어 발생 빈도를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 구하는 빈도 스코어 계산 수단; 상기 문서에서 상기 검색 요구에 포함되는 단어의 발생 위치를 구하도록 상기 단어 발생 위치 인덱스를 참조하는 발생 위치 계산 수단; 상기 단어 발생 위치 계산 수단으로부터 출력된 상기 단어 발생 위치를 근거로 상기 문서의 단어간의 근접 정도를 계산하는 단어 근접 계산 수단; 상기 단어 근접 계산 수단으로부터 출력된 근접 정도를 근거로 상기 문서에 부여되는 근접 스코어를 구하는 근접 스코어 계산 수단; 상기 빈도 스코어 계산 수단으로부터 출력된 상기 빈도 스코어와 상기 근접 스코어 계산 수단으로부터 출력된 상기 근접 스코어를 근거로 상기 검색 요구와 상기 문서간의 일치 정도를 나타내는 상기 문서의 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
  7. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 단어 발생 빈도와 단어 동시 발생 정보를 포함하는 인덱스; 사용자가 필드마다 상기 타깃 문서의 정렬에 대한 영향의 필드 비율을 지정하는 필드 비율 입력 수단; 및 상기 검색 요구에 포함되는 단어 동시 발생 관계가 상기 타깃 문서에 나타나는가 여부를 점검하는 필드 단어 동시 발생 관계 점검 수단을 포함하고; 상기 타깃 문서가 우선적으로 디스플레이 되도록 상기 동시 발생 관계가 나타나는 상기 타깃 문서에 부여되는 스코어가 증가되는 문서 검색 시스템.
  8. 검색 요구에 응답해 검색되는 타깃 문서를 탐색하고 검색 결과를 정렬하는 문서 검색 시스템에 있어서, 필드마다 상기 타깃 문서에서 사전 단어의 발생 빈도를 저장하는 필드 단어 빈도 인덱스; 필드마다 상기 타깃 문서에서 나타나는 단어 동시 발생 정보를 저장하는 필드 단어 동시 발생 인덱스; 준비된 문서 데이터로부터 단어 빈도 정보를 추출하고 또한 단어 빈도 정보를 상기 필드 단어 빈도 인덱스에 놓는 단어 빈도 정보 추출 수단; 상기 문서 데이터로부터 단어 동시 발생 정보를 추출하고 또한 단어 동시 발생 정보를 상기 필드 단어 동시 발생 인덱스에 놓는 단어 동시 발생 정보 추출 수단; 사용자가 상기 검색 요구를 입력하는 검색 요구 입력 수단; 문서에서 필드마다 상기 검색 요구 입력 수단을 통해 입력된 상기 검색 요구에 포함되는 사전 단어의 발생 빈도를 찾기 위해 상기 필드 단어 빈도 인덱스를 참조하는 필드 단어 빈도 계산 수단; 상기 필드 단어 빈도 계산 수단에서 얻어진 단어 발생 빈도를 근거로 상기 문서의 필드마다 빈도 스코어를 구하는 필드 빈도 스코어 계산 수단; 검색 요구 입력 수단을 통해 입력된 검색 요구로부터 단어 동시 발생 정보를 추출하는 단어 동시 발생 정보 추출 수단; 상기 문서의 필드에 나타나고 상기 단어 동시 발생 정보 추출 수단으로부터 출력된 상기 검색 요구에 포함되는 단어 동시 발생 관계의 수를 찾기 위해 상기 필드 단어 동시 발생 인덱스의 내용을 참조하는 필드 단어 동시 발생 관계 점검 수단; 상기 필드 단어 동시 발생 관계 점검 수단에서 얻어진 상기 검색 요구와 상기 문서의 상기 필드에서 공통으로 나타나는 단어 동시 발생 관계의 수를 근거로 상기 문서의 필드마다 동시 발생 스코어를 계산하는 필드 동시 발생 스코어 계산수단; 사용자가 상기 문서의 정렬에 대한 상기 필드 스코어의 영향 정도를 나타내는 비율을 입력하는 필드 비율 입력 수단; 상기 필드 빈도 스코어 계산 수단으로부터 출력된 빈도 스코어, 상기 필드 동시 발생 스코어 계산 수단으로부터 출력된 동시 발생 스코어, 및 상기 필드 비율 입력 수단으로부터 출력된 비율을 근거로 상기 문서에 대한 최종 스코어를 계산하는 문서 스코어 계산 수단; 상기 문서 스코어 계산 수단에 의해 얻어진 문서 스코어의 순서로 검색 결과인 상기 타깃 문서를 재배열하는 문서 정렬 수단; 및 정렬된 상기 검색 결과를 디스플레이하는 검색 결과 디스플레이 수단을 포함하는 문서 검색 시스템.
KR1019970021247A 1996-05-29 1997-05-28 문서 정보 검색 시스템 KR100295354B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP96-156418 1996-05-29
JP15641896 1996-05-29
JP97-87328 1997-03-24
JP9087328A JPH1049549A (ja) 1996-05-29 1997-03-24 文書検索装置

Publications (2)

Publication Number Publication Date
KR970076328A KR970076328A (ko) 1997-12-12
KR100295354B1 true KR100295354B1 (ko) 2001-09-17

Family

ID=26428613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970021247A KR100295354B1 (ko) 1996-05-29 1997-05-28 문서 정보 검색 시스템

Country Status (6)

Country Link
US (1) US6154737A (ko)
EP (1) EP0810535B1 (ko)
JP (1) JPH1049549A (ko)
KR (1) KR100295354B1 (ko)
CN (1) CN1133127C (ko)
DE (1) DE69731142T2 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
WO2011011777A3 (en) * 2009-07-24 2011-06-23 Discovery Engine Corporation Pre-computed ranking using proximity terms
KR101157693B1 (ko) 2004-08-13 2012-06-21 구글 인코포레이티드 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법
US8321445B2 (en) 2004-08-13 2012-11-27 Google Inc. Generating content snippets using a tokenspace repository
KR102085216B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램
KR20210039908A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법
KR20210039909A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법
KR20210039907A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
JP3521176B2 (ja) * 1997-09-26 2004-04-19 株式会社東芝 検索方法および検索装置
GB2333871A (en) * 1998-01-29 1999-08-04 Sharp Kk Ranking of text units
JP2000067081A (ja) * 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP3880235B2 (ja) * 1999-01-29 2007-02-14 キヤノン株式会社 情報検索装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
JP3505100B2 (ja) * 1999-02-08 2004-03-08 日本電信電話株式会社 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
US8775396B2 (en) * 1999-04-15 2014-07-08 Intellectual Ventures I Llc Method and system for searching a wide area network
JP3558267B2 (ja) * 1999-05-06 2004-08-25 株式会社エヌ・ティ・ティ・データ 文書検索装置
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6569206B1 (en) * 1999-10-29 2003-05-27 Verizon Laboratories Inc. Facilitation of hypervideo by automatic IR techniques in response to user requests
US6757866B1 (en) 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US6996775B1 (en) 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6490580B1 (en) 1999-10-29 2002-12-03 Verizon Laboratories Inc. Hypervideo information retrieval usingmultimedia
US6493707B1 (en) 1999-10-29 2002-12-10 Verizon Laboratories Inc. Hypervideo: information retrieval using realtime buffers
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
US7747611B1 (en) 2000-05-25 2010-06-29 Microsoft Corporation Systems and methods for enhancing search query results
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US7577683B2 (en) * 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US6772160B2 (en) 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
GB2364583B (en) * 2000-07-08 2004-09-22 Paul David Mills Database interrogation
US7395222B1 (en) * 2000-09-07 2008-07-01 Sotos John G Method and system for identifying expertise
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2002269114A (ja) * 2001-03-14 2002-09-20 Kousaku Ookubo 知識データベース及び知識データベースの構築方法
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
US8117072B2 (en) * 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
US8793073B2 (en) * 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
CA2474754C (en) * 2002-02-04 2022-03-22 Ingenuity Systems, Inc. Systems for evaluating genomics data
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7743045B2 (en) 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US20040044659A1 (en) * 2002-05-14 2004-03-04 Douglass Russell Judd Apparatus and method for searching and retrieving structured, semi-structured and unstructured content
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
ES2301857T3 (es) * 2002-12-26 2008-07-01 Casio Computer Co., Ltd. Diccionario electronico con ejemplos de frases.
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US20050033771A1 (en) * 2003-04-30 2005-02-10 Schmitter Thomas A. Contextual advertising system
US20040225555A1 (en) * 2003-05-09 2004-11-11 Andreas Persidis System and method for generating targeted marketing resources and market performance data
JP4557513B2 (ja) * 2003-07-11 2010-10-06 キヤノン株式会社 情報検索装置、情報検索方法およびプログラム
US20050060290A1 (en) * 2003-09-15 2005-03-17 International Business Machines Corporation Automatic query routing and rank configuration for search queries in an information retrieval system
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20060041484A1 (en) * 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
KR100462292B1 (ko) * 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
US7636710B2 (en) * 2004-03-04 2009-12-22 Symantec Operating Corporation System and method for efficient file content searching within a file system
KR20050096541A (ko) * 2004-03-31 2005-10-06 삼성에스디아이 주식회사 돌출부를 갖는 네거티브 홀 구조, 그것의 형성 방법 및그것을 포함하는 fed 캐소드 부
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US7565630B1 (en) 2004-06-15 2009-07-21 Google Inc. Customization of search results for search queries received from third party sites
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20060106788A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation Computer-implemented system and method for providing authoritative answers to a general information search
JPWO2006051956A1 (ja) * 2004-11-12 2008-05-29 株式会社ジャストシステム サーバ装置及び検索方法
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US7333667B2 (en) * 2004-12-23 2008-02-19 Kabushiki Kaisha Toshiba Image encoding apparatus and image encoding method
CN1946075B (zh) * 2005-10-04 2010-10-13 国际商业机器公司 确定消息的用户特定关联性得分的方法和系统
US20070185859A1 (en) * 2005-10-12 2007-08-09 John Flowers Novel systems and methods for performing contextual information retrieval
US20070150477A1 (en) * 2005-12-22 2007-06-28 International Business Machines Corporation Validating a uniform resource locator ('URL') in a document
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US20070244866A1 (en) * 2006-04-18 2007-10-18 Mainstream Advertising, Inc. System and method for responding to a search request
US9043197B1 (en) * 2006-07-14 2015-05-26 Google Inc. Extracting information from unstructured text using generalized extraction patterns
WO2008014495A2 (en) * 2006-07-28 2008-01-31 Ingenuity Systems, Inc. Genomics based targeted advertising
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
CN100520767C (zh) * 2007-05-31 2009-07-29 腾讯科技(深圳)有限公司 在网络上判断文章重要性的方法和系统、及滑动窗口
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
WO2009066501A1 (ja) * 2007-11-19 2009-05-28 Nippon Telegraph And Telephone Corporation 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8316041B1 (en) 2007-11-28 2012-11-20 Adobe Systems Incorporated Generation and processing of numerical identifiers
US8090724B1 (en) 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
US7849081B1 (en) * 2007-11-28 2010-12-07 Adobe Systems Incorporated Document analyzer and metadata generation and use
WO2009123260A1 (ja) * 2008-04-01 2009-10-08 日本電気株式会社 共起辞書作成システムおよびスコアリングシステム
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
KR101052631B1 (ko) * 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치
US8418055B2 (en) 2009-02-18 2013-04-09 Google Inc. Identifying a document by performing spectral analysis on the contents of the document
US8447066B2 (en) * 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
ES2396017T3 (es) 2009-04-24 2013-02-18 Agfa Graphics N.V. Método de fabricación de planchas de impresión litográfica
EP2316645B1 (en) 2009-10-27 2012-05-02 AGFA Graphics NV Novel cyanine dyes and lithographic printing plate precursors comprising such dyes
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
WO2012126180A1 (en) 2011-03-24 2012-09-27 Microsoft Corporation Multi-layer search-engine index
US20140046945A1 (en) * 2011-05-08 2014-02-13 Vinay Deolalikar Indicating documents in a thread reaching a threshold
US8849835B1 (en) * 2011-05-10 2014-09-30 Google Inc. Reconciling data
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
JP5910134B2 (ja) 2012-02-07 2016-04-27 カシオ計算機株式会社 テキスト検索装置及びプログラム
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
CN103853742B (zh) * 2012-11-29 2017-11-24 北大方正集团有限公司 检索装置、终端和检索方法
US20140229476A1 (en) * 2013-02-14 2014-08-14 SailMinders, Inc. System for Information Discovery & Organization
US9355372B2 (en) * 2013-07-03 2016-05-31 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
JP6107513B2 (ja) 2013-07-29 2017-04-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US9298780B1 (en) * 2013-11-01 2016-03-29 Intuit Inc. Method and system for managing user contributed data extraction templates using weighted ranking score analysis
US9292579B2 (en) * 2013-11-01 2016-03-22 Intuit Inc. Method and system for document data extraction template management
CN106815266B (zh) * 2015-12-01 2020-06-16 北京国双科技有限公司 裁判文书检索方法和装置
US9996527B1 (en) * 2017-03-30 2018-06-12 International Business Machines Corporation Supporting interactive text mining process with natural language and dialog
KR101937088B1 (ko) * 2018-03-14 2019-01-09 목포해양대학교 산학협력단 코드화된 표준해사영어를 이용한 해상 무선 통신 방법
CN108897843B (zh) * 2018-06-27 2021-12-24 吉安职业技术学院 一种基于中心法的文本自适应推荐方法
KR20200117500A (ko) 2019-04-04 2020-10-14 주식회사 테이크뷰 문서 검색 방법 및 그 장치
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
CN113744803A (zh) 2020-05-29 2021-12-03 鸿富锦精密电子(天津)有限公司 基因测序进度管理方法、装置、计算机装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3694813A (en) * 1970-10-30 1972-09-26 Ibm Method of achieving data compaction utilizing variable-length dependent coding techniques
US4674066A (en) * 1983-02-18 1987-06-16 Houghton Mifflin Company Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5408655A (en) * 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JPH0628408A (ja) * 1992-07-08 1994-02-04 Ricoh Co Ltd 文書ファイリング装置
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
US5701399A (en) * 1993-06-09 1997-12-23 Inference Corporation Integration of case-based search engine into help database
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
JP2596332B2 (ja) * 1993-08-19 1997-04-02 日本電気株式会社 データ組合せ抽出方法およびその装置
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JP3016691B2 (ja) * 1994-06-29 2000-03-06 富士通株式会社 データ検索条件設定方法
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5659732A (en) * 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5794193A (en) * 1995-09-15 1998-08-11 Lucent Technologies Inc. Automated phrase generation
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5710915A (en) * 1995-12-21 1998-01-20 Electronic Data Systems Corporation Method for accelerating access to a database clustered partitioning
US5826031A (en) * 1996-06-10 1998-10-20 Sun Microsystems, Inc. Method and system for prioritized downloading of embedded web objects
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
US9098501B2 (en) 2004-08-13 2015-08-04 Google Inc. Generating content snippets using a tokenspace repository
KR101157693B1 (ko) 2004-08-13 2012-06-21 구글 인코포레이티드 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법
US8321445B2 (en) 2004-08-13 2012-11-27 Google Inc. Generating content snippets using a tokenspace repository
US8407239B2 (en) 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US9146967B2 (en) 2004-08-13 2015-09-29 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
WO2011011777A3 (en) * 2009-07-24 2011-06-23 Discovery Engine Corporation Pre-computed ranking using proximity terms
KR102085216B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램
KR20210039908A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법
KR20210039909A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법
KR20210039907A (ko) * 2019-10-02 2021-04-12 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
KR102360080B1 (ko) * 2019-10-02 2022-02-09 (주)디앤아이파비스 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법
KR102403168B1 (ko) 2019-10-02 2022-05-27 (주)디앤아이파비스 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법

Also Published As

Publication number Publication date
CN1172994A (zh) 1998-02-11
DE69731142D1 (de) 2004-11-18
JPH1049549A (ja) 1998-02-20
US6154737A (en) 2000-11-28
KR970076328A (ko) 1997-12-12
EP0810535A2 (en) 1997-12-03
EP0810535B1 (en) 2004-10-13
EP0810535A3 (en) 1999-04-21
CN1133127C (zh) 2003-12-31
DE69731142T2 (de) 2005-10-20

Similar Documents

Publication Publication Date Title
KR100295354B1 (ko) 문서 정보 검색 시스템
US8793259B2 (en) Information retrieval device, information retrieval method, and program
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
US6389412B1 (en) Method and system for constructing integrated metadata
US8805781B2 (en) Document quotation indexing system and method
US6401087B2 (en) Information retrieval system, apparatus and method for selecting databases using retrieval terms
RU2007114029A (ru) Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети
EP1391834A2 (en) Document retrieval system and question answering system
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
CN103425687A (zh) 一种基于关键词的检索方法和系统
JPH1125108A (ja) 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JPH0420220B2 (ko)
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
JPH05101107A (ja) 適合率を用いた絞り込みデータ検索装置及び方法
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
JPH0773197A (ja) 異表記語辞書作成支援装置
CN111914154B (zh) 一种智能搜索导向系统及方法
JPH08272806A (ja) データベース検索システム
JPH07192010A (ja) 文書処理装置
CN112765311A (zh) 一种裁判文书的搜索方法
JP2732661B2 (ja) テキスト型データベース装置
JP5633552B2 (ja) 文書検索方法、文書検索装置、文書検索プログラムを記録した記録媒体
CN115630154B (zh) 一种面向大数据环境的动态摘要信息构建方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080425

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee