KR100304335B1 - 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템 - Google Patents

키워드 추출 시스템 및 그를 사용한 문서 검색 시스템 Download PDF

Info

Publication number
KR100304335B1
KR100304335B1 KR1019980027734A KR19980027734A KR100304335B1 KR 100304335 B1 KR100304335 B1 KR 100304335B1 KR 1019980027734 A KR1019980027734 A KR 1019980027734A KR 19980027734 A KR19980027734 A KR 19980027734A KR 100304335 B1 KR100304335 B1 KR 100304335B1
Authority
KR
South Korea
Prior art keywords
text
words
word
texts
list
Prior art date
Application number
KR1019980027734A
Other languages
English (en)
Other versions
KR19990013736A (ko
Inventor
미츠히로 사토
나오히코 노구치
유지 간노
마사코 노모토
미츠아키 이나바
요시오 후쿠시게
Original Assignee
모리시타 요이찌
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모리시타 요이찌, 마쯔시다덴기산교 가부시키가이샤 filed Critical 모리시타 요이찌
Publication of KR19990013736A publication Critical patent/KR19990013736A/ko
Application granted granted Critical
Publication of KR100304335B1 publication Critical patent/KR100304335B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

텍스트 검색 시스템에서 탐색을 용이하게 하기 위해 키워드를 제공하는 시스템에 관한 것이다. 텍스트 베이스(text base)를 구성하는 각 텍스트에 대해, 상기 시스템은 텍스트에 사용된 각 단어의 단어 ID와 대응 단어의 단어 발생 카운트를 만든다. 단어 발생 카운트는 각 텍스트내의 단어의 발생수를 나타낸다. 텍스트 베이스를 구성하는 텍스트에 사용된 각 단어에 대해, 상기 시스템은 총 단어 발생 카운트와, 단어를 포함하는 텍스트의 수를 나타내는 포함 텍스트 카운트를 만든다. 선택된 텍스트에 포함된 각 단어에 대해, 단어 발생 카운트와 총 단어 발생 카운트와 포함 텍스트 카운트를 사용하여 중요도를 계산한다. 선택된 텍스트에 포함된 단어는 중요도순으로 소트된다. 적어도 소트된 단어들중 일부는 관련 키워드로서 디스플레이 된다.

Description

키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
본 발명은 문서 검색 시스템에 관한 것으로, 특히 문서 베이스로부터 선택된 문서(또는 텍스트)의 목록을 수신하고 선택된 문서 그룹에서 중요도 순으로 분류된 키워드 목록을 제공하는 문서 검색 시스템의 서브시스템에 관한 것이다.
종래의 텍스트 검색 시스템에서는 원하는 정보를 가장 잘 포함하는 1개 이상의 텍스트를 검색하기 위해서, 이용자는 원하는 텍스트(들)를 가장 잘 특징지우는 키워드를 사용하여 적절한 질문 요청을 입력해만 한다. 그러나 그와 같은 키워드는이용자가 용이하게 상기하기 어렵다. 특히 원하는 텍스트(들)의 분야에 친숙하지 못한 사람들에게는 틀림없다. 이 목적을 위해, 이용자에 의해 입력된 키워드와 함께 일종의 사전(예를 들면, 시소러스, 동의어 사전, 기타)을 통해 조합된 관련 단어를 디스플레이 하여 이용자의 탐색을 돕는 각종 방법이 지금까지 이용되어 왔다. 그러나, 얻고자 하는 관련 단어가 미리 정적으로 준비된 사전에 의존하기 때문에 원하는 텍스트(들)의 특성에 상응하는 관련 단어를 얻기가 어렵다. 또한, 얻은 관련 단어를 사용하여 출처 요청을 하는 것은 적어도 1개의 원하는 텍스트의 성공적인 검색을 항상 가져다 주지는 못한다.
따라서, 본 발명의 목적은 문서 베이스로부터 선택된 문서(텍스트)의 목록을 수신하고 중요도 순으로 분류된 단어의 키워드 목록을 선택된 텍스트 그룹에 제공하여 효과적이며 빠른 문서 검색을 용이하게 하는, 문서 검색 시스템에 사용된 관련 키워드 발생 시스템을 제공하는데 있다.
상기한 목적은, 질문 요청을 수신하고 검색된 텍스트의 텍스트 ID의 목록을 만드는 기능을 갖는 텍스트 검색 시스템에서 이용자가 텍스트 베이스를 탐색하는 것을 돕는 방법 및 시스템에 의해 성취된다. 상기 방법은,
상기 텍스트 베이스를 구성하는 각 텍스트에 대해서, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 단계와,
상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 단계와,
상기 이용자가 상기 텍스트 베이스로부터 적어도 1개의 텍스트를 선택하는 단계와,
상기 선택된 텍스트(들)에 포함된 각 단어에 대해서, 상기 선택된 텍스트에 대한 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 단계와,
상기 선택된 텍스트에 포함된 상기 단어를 중요도 순으로 소트(sorting)하는 단계와,
소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 단계와,
상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 단계를 포함한다.
본 발명의 또 다른 목적 및 이점은 첨부된 도면에 설명된 바와 같이 본 발명의 바람직한 실시예의 다음의 설명으로 분명해진다.
도면 전체에 걸쳐서, 동일 요소가 한 도면 이상에 도시될 경우 동일 참조 번호로 나타내었다.
도 1은 본 발명이 구현될 수 있는 컴퓨터의 전형적인 구성을 도시하는 개략 블록도.
도 2는 관련 키워드 추출 시스템(100)이 본 발명에 따라 내장되는 문서 검색 시스템(2)의 소프트웨어의 전형적인 구성을 도시한 개략도.
도 3은 문서 속성표의 전형적인 기록 구조를 도시하는 도면.
도 4는 도 2의 통계 정보 프로세서에 의해 만들어지고 유지된 사전 및 표를 도시하는 도면.
도 5는 새로운 문서 텍스트가 DDB(70)에 부가되는 경우 사전(210)과 표(220, 230)를 유지하기 위해 실시되는 프로세서(200)의 제1 루틴의 동작을 도시하는 흐름도.
도 6은 문서(Ti)가 DDB(70)로부터 삭제되는 경우 표(220, 230)를 유지하기 위해 실시되는 프로세서(200)의 제2 루틴의 동작을 도시하는 흐름도.
도 7은 이용자와 대화식으로 사용하는 문서 검색 시스템(2)의 동작 흐름을 도시하는 흐름도.
도 8은 도 7의 단계(320, 330)에서 실행된 처리의 일례를 도시하는 도면.
도 9는 본 실시예의 제1 변형에 사용된 대체 전체 통계표(230)의 전형적인 구조를 도시하는 도면.
도 10은 문서(Ti)의 제1 및 제2 유형의 가중치의 계산에 사용된 단어 기억 위치표(270)를 도시하는 도면.
도 11은 본 발명의 예의 실시예에 따라 가중치(PWr(Wj))를 계산하기 위한 서브루틴(400)의 전형적인 동작을 도시하는 흐름도.
도 12는 가중치(PWr(Wj))의 계산에서 단계(408) 대신에 사용되는 단계를 도시하는 도면.
도 13은 도 7의 예의 실시예의 일부를 변경하여 얻은 바람직한 실시예를 도시하는 흐름도의 일부이며, 여기서 완성된 흐름도를 구성하기 위해 단계(314)는 도 7의 단계(302, 350)에 접속되고 단계(332)는 도 7의 단계(341)에 접속된다.
도 14는 관련 키워드 추출 시스템 및 문서 검색 시스템이 본 발명의 원리에 따라 구현될 수 있는 전형적인 방송망을 도시하는 개략도.
* 도면의 주요부분에 대한 부호의 설명*
10 : CPU 20 : 주 기억 장치
30 : 대량 기억 장치 32 : 하드 디스크
34 : 콤팩트 디스크 40 : 휴먼 인터페이스
50 : 디스플레이 60 : 입력 장치
도 1은 본 발명에 따른 문서 검색 시스템 또는 관련 키워드 추출 시스템의 하드웨어의 전형적인 구성을 도시하는 개략 블록도이다. 도 1에서, 하드웨어(1)는 중앙 처리 장치(CPU)(10)와, 주기억 장치(20)와, 본 발명에 따른 문서 검색 시스템 또는관련 키워드 추출 시스템의 소프트웨어를 기억하기 위한 1개 이상의 대량 기억 장치(30)와, 디스플레이 장치(50)와 입력 장치(60)에/로부터 인터페이스를 제공하는 휴먼 인터페이스(40)를 각각 가급적 포함하는 적절한 컴퓨터 시스템일 수 있다. 컴퓨터 시스템(1)은 구성 요소(10 내지 40)를 상호 접속하는 어드레스 및 데이터 버스(15)를 더 포함한다. 대량 기억 장치(30)는 하드 디스크(32)를 적어도 포함하고 콤팩트 디스크(예를 들면, CD-ROM) 장치(34)를 선택적으로 포함할 수 있다. 입력 장치(60)는 키보드, 마우스 등을 포함할 수 있다.
도 2는 관련 키워드 추출 시스템(100)이 본 발명에 따라 내장되는 문서 검색 시스템(2)의 전형적인 구성을 도시하는 개략도이다. 도 2에서, 문서 검색 시스템(2)은 복수의 문서 텍스트를 포함하는 문서 데이터베이스(DDB)(70)와, 검색 기능이나 프로그램(82)을 적어도 포함하는 데이터베이스 관리 시스템(DBMS)(80)과, 관련 키워드 추출 시스템(100)을 포함한다. 소프트웨어 구성 요소(70, 80, 100)는 대량 기억 시스템(30)의 하드 디스크(32)에 가급적 기억된다. 문서 데이터베이스는 다른 것에 대해 용이하게 교환 가능하도록 콤팩트 디스크에 기억될 수 있다.
문서 데이터 베이스(DDB)(70)에서는, 상기한 문서 텍스트가 각 텍스트 ID(T1, T2, ..., TM)와 조합되며, 여기서 M은 DDB(70)에 등록된 문서 번호이다. Ti(i는 1에서 M까지의 번호중 하나)인 텍스트 ID와 조합된 텍스트는 이하 "문서 Ti"라 한다. 또한, DDB(70)는 도 3에 도시된 바와 같이 텍스트(T1 내지 TM) 각각에 대해 레코드(710)를 포함하는 텍스트 속성표를 가급적 포함한다. 텍스트 속성표의 각 레코드(710)는 텍스트 ID 필드내에서 텍스트 ID에 의해 확인된 텍스트상의 각종 속성 데이터를 포함하는 필드(712)와 텍스트 ID 필드를 포함한다. 속성 데이터는 예를 들면 텍스트의 제목, 저자, 종별 등을 포함한다. 또는, 텍스트 속성표를 포함하는 DDB(70) 대신에, 각 텍스트의 속성 데이터는 텍스트를 포함하는, 필드나 헤더의 일부로서 레코드나 파일내에 각각 포함될 수 있다.
DBMS(80) 및/또는 검색 프로그램(82)은 각각 문서 데이터베이스(70)에 적절한, 임의의 데이터베이스 관리 시스템 및/또는 검색 시스템이다. 검색 프로그램(82)의 필수 기능은 다음의 3가지 탐색 기능이다. 즉, (a) 원하는 텍스트의 텍스트 ID를 지정하여 탐색(직접 탐색), (b) 1이상의 상기한 텍스트 속성값을 지정하여 탐색, (c) 키워드를 이용한 불 표현법(Boolean expression)이나, 키워드와 1개 이상의 텍스트 속성값의 조합을 지정하여 탐색하는 기능이 있다. 그러므로, DBMS(80) 및/또는 검색 프로그램(82)은 상기한 필수 기능(들)을 가지는 한 테일드한(tailed) 것이거나 상업상 이용 가능한 것이 될 수 있다.
관련 키워드 추출 시스템(100)은 3개의 부분, 즉 통계 정보 프로세서(200)와, 관련 키워드 발생기(300)와, 각종 정보(예를 들면, 검색 결과, 관련 키워드 등)를 디스플레이(50)(도시안됨)에 디스플레이하고 명령과 데이터(예를 들면, 질문 요청)를 입력 장치(60)를 통해 이용자가 입력 가능케 하는 이용자 인터페이스(400)를 포함한다.
도 4는 통계 정보 프로세서(200)에 의해 만들어지고 유지되는 사전 및 표를 도시하는 도면이다. 통계 정보 프로세서(200)는 텍스트(T1 내지 TM)중에 사용된 단어(즉, 영어의 경우의 명사, 동사, 형용사, 부사)를 포함하는 사전(210)을 DDB(70)내에서 만들고 유지한다. 사전(210)은 단일어 뿐만 아니라 복합어구를 포함할 수 있다. 사전(210)의 각 레코드는 Wj(j=1,2,...,N)로 나타낸 단어 ID의 필드와 대응 단어를 포함하며, 여기서 N은 사전(210)에 포함된 단어, 즉 복합어구의 총수이다.
DDB(70)의 각 텍스트(Ti)에 대해, 프로세서(200)도 사전(210)과 관련되는 로컬 통계표를 만든다. 텍스트(Ti)에 대한 로컬 통계표(220)의 각 레코드는 텍스트(Ti)에 적어도 한 번 나타나는 단어의 단어 ID(Wj로 표시)와 텍스트(Ti)에 단어의 발생수(Wj)를 나타내고 "WOi(Wj)"로 표시되는 단어(Wj)의 단어 발생(WO) 카운트를 포함한다.
도 5는 새로운 문서 텍스트가 DDB(70)로 부가될 때 사전(210)과 표(220, 230)를 유지하기 위해 행해지는 프로세서(200)의 제1 루틴(202)의 동작을 도시하는 흐름도이다. 새로운 텍스트(TM+1)가 DDB(70)에 부가되는 데 응답하여, 도 1의 CPU는 단계(260)으로서 도 5에 도시된 제1 루틴(202)을 시작한다. 단계(260)에서, CPU(10)는 실제로 파일이 될 텍스트((TM+1)(이하, "표(TM+1)(220)"라 한다)에 대해 로컬 통계표(220)를 만든다. 다음 단계에서, 제1 루틴(202)은 상기한 바와 같이 키워드 즉, 명사, 동사, 형용사, 부사와, 복합어구로서 사용될 수 있는 단어만을 처리하기 위해 새로운 텍스트(TM+1)의 모든 단어를 주사한다. 그러나, 간편성을 위해, 키워드로서 사용될 수 있는 단어를 의미하는 "단어(word)"를 사용한다. 그 후, 단계(262)에서, CPU(10)는 텍스트(TM+1)내의 제1 단어를 판독하고 단계(264)에서 판정 처리한다.
단계(264)에서, 판독 단어가 사전(210)에서 발견되는지를 알아보기 위해 테스트한다. 발견되었으면, CPU(10)는 예를 들면 만들어진 표(TM+1)(220)내의 단어(Wj)를 등록하기 위해 단계(266)로 나아간다. 특히, 단어(Wj)가 표(TM+1)에 존재하면, CPU(10)는 표(TM+1)내에 단어(Wj)의 단어 발생 카운트(WOM+1(Wj))를 증가시킨다. 그렇지 않으면, CPU(10)는 표(TM+1)(220)에 단어(Wj)에 대한 레코드를 부가하고, WO 카운트(WOM+1(Wj))를 1로 설정한다. 테스트 결과가 단계(264)에서 NO이면, CPU(10)는 단계(268)로 나아가 사전(210)에 단어에 대한 레코드를 부가하고 단어 ID를 WN+1로 설정한다. 그 후, CPU(10)는 표(TM+1)(220)에 단어(WM+1)에 대한 레코드를 부가하고, WO 카운트(WOM+1(WN+1))를 단계(270)에서 1로 설정한다. 단계(266 또는 270)를 종료하고, CPU(10)는 단계(272)로 나아가 텍스트(TM+1)의 모든 단어가 처리되었는지 여부를 확인하기 위해 테스트하여 판정한다. NOT이면, CPU(10)는 단계(274)에서 텍스트(TM+1)의 다음 단어를 판독하고 단계(264)로 복귀한다. 이 같은 방법으로, CPU(10)는 텍스트(TM+1)가 종료될 때까지 단계(274, 264 내지 272)를 포함하는 루프를 반복한다.
단계(272)에서 YES이면, 단계(276)에서, CPU(10)는 표(TM+1)의 내용이 표(230)에 부가되도록 표(TM+1)에 따라 전체 통계표(230)를 갱신한다. 특히, CPU(10)는 로컬 통계표(TM+1)에 포함된 단어 ID의 각각(즉, Wj)으로서 동일 단어 ID를 갖는 전체 통계표(230)의 레코드를 확인한다. 표(230)의 (Wj에 대해) 확인된 레코드에서, CPU(10)는 다음과 같이 총 발생 카운트 필드와 포함 텍스트 카운트 필드의 값을 갱신한다.
단계(276)를 종료함으로써, CPU(10)는 제1 루틴(202)을 종료한다.
도 6은 문서 텍스트(Ti)가 DDB(70)로부터 삭제되는 경우 표(220, 230)를 유지하기 위해 행해지는 프로세서(200)의 제2 루틴(204)의 동작을 도시하는 흐름도이다. DDB(70)로부터 텍스트(Ti)의 삭제에 응답하여, 도 1의 CPU(10)는 단계(280)로서 제2 루틴(204)을 시작한다. 단계(280)에서, CPU(10)는 표(Ti)(220)의 내용이 전체 통계표(230)로부터 감산되도록, 삭제된 텍스트(Ti)(표 Ti)에 대한 로컬 통계표에 따라 전체 통계표(230)를 갱신한다. 특히, CPU(10)는 로컬 통계표(220)에 포함된 단어 ID의 각각(즉, Wj)으로서 동일 단어 ID를 갖는 전체 통계표(230)의 레코드를 확인한다. 표(230)의 (Wj에 대한) 확인된 레코드에서, CPU(10)는 총 발생 카운트 필드와 포함 텍스트 카운트 필드의 값을 다음과 같이 갱신한다.
그 후, CPU(10)는 로컬 통계표(Ti)를 삭제한다. 단계(282)를 종료함으로서, CPU(10)는 제2 루틴(204)을 종료한다.
그러므로, 사전(210)과 로컬 및 전체 통계표(220, 230)는 통계 정보 프로세서(200)에 의해 유지된다. 전체 통계표(230)는 단어, 예를 들면 "인터넷"의 총 발생수를 DDB(70)의 전체 텍스트에 즉시 포함 가능케 하고 단어를 포함하는 텍스트의 수를 즉시 포함 가능케 한다. 또한, 예를 들면 0010의 텍스트 ID를 갖는 텍스트에 대한 로컬 통계표(220)는 단어, 예를 들면 "WWW"의 발생수를 텍스트 번호 0010에 즉시 포함 가능케 한다. 로컬 통계표(220)와 전체 통계표(230)는 관련 키워드 발생기(300)에 의해 사용된다.
도 7은 이용자와 대화식으로 동작하는 문서 검색 시스템(2)의 동작 흐름을 도시하는 흐름도이다. 문서 검색 시스템(2)이 동작하기 시작하면, CPU(10)는 단계(310)에서 질문 요청을 우선 프롬프트 한다. 단계(312)에서, 이용자는 널리 공지된 방법, 예를 들면 원하는 텍스트의 텍스트 ID를 지정하거나, 1개 이상의 전술한 텍스트 속성값을 지정하거나 키워드나 키워드와 1개 이상의 텍스트 속성값의 조합을 사용하여 불 표현법을 지정하는 방법으로 질문 요청을 입력한다. 단계(314)에서, 검색 프로그램(82)은 질문 요청에 따라 DDB(70)를 탐색하고 텍스트상의 각종 정보를 널리 공지된 방법으로 디스플레이(50) 스크린에 디스플레이 한다. 동시에, CPU(10)는 발견된 텍스트의 텍스트 ID의 선택된 텍스트 목록을 소정의 방법으로 제공한다. 단계(318)에서, CPU(10)는 발견된 텍스트(또는 탐색 리포트 목록)로부터 적어도 1개의 원하는 텍스트(또는 그가 또는 그녀가 원하는 정보를 가장 잘 포함하는 것으로 생각되는 텍스트)를 이용자가 선택하여 선택된 텍스트의 텍스트 ID를 포함하는 선택된 텍스트 목록을 얻도록 프롬프트 한다.
선택된 텍스트 목록에 응답하여, 관련 키워드 발생기(300)는 단계(320)에서, 선택된 텍스트 목록에 기입된 텍스트에 포함된 각 단어(Wj)에 대해, 도 8에 도시된 바와 같은 표(250)를 산출하기 위해 텍스트에 기입된 전체표(230)와 로컬표(220)를 사용하여, 검색된 Wj-포함 텍스트 카운트(RCT(Wj))와 중요도, 즉 I(Wj)를 계산한다. 선택된 텍스트 목록내의 텍스트 ID가 RTr(r=1,2,..., R은 검색된 텍스트의 수)로서 표현된다고 가정하면, 단어(Wj)의 중요도, 즉 I(Wj)는 다음 수학식 1로 정의된다.
여기서, C는 상수, WOr(Wj)는 검색된 텍스트(RTr)내의 단어(Wj)의 발생수, RCT(Wj)는 단어(Wj)를 포함하는 검색된 텍스트의 수(이하, "검색된 Wj-포함 텍스트 카운트), IDF(Wj)는 "역 문서 빈도"라 불리는 널리 공지된 지수이며, 다음과 같이 규정되고,
IDF(Wj)=1-log(CT(Wj)/M)
이하 "단어(Wj)의 IDF값"이라 하며, 여기서, 도 4와 관련하여 상기한 바와 같이 CT(Wj)는 단어(Wj)를 포함하는 DDB(70)의 텍스트의 수이고, M은 DDB(70)의 텍스트의 수이다.
단어(Wj)가 보다 일반적인 것을 의미하는 보다 많은 텍스트에 나타나면, Wj의 IDF값은 더 작아진다. 이러한 이유 때문에, IDF(Wj)는 상대적으로 광범위하게 텍스트에 일반적으로 사용된 단어의 중요도를 억제하는 원인이 된다. 보다 많이 검색된 텍스트에 나타나는 단어에 대한 I(Wj)가 높아진다. 즉, 검색된 텍스트의 보다 많은 특성을 지닌 단어에 보다 높은 중요도가 주어진다. 수학식 1에서 단어 발생 카운트(WOr(Wj))는 단어(Wj)를 포함하는 텍스트(RTr)의 크기의 유형, 즉 문자의 임의의 수와, 단어의 유형의 수와, 텍스트(RTr)내의 전체 단어의 총발생수로 표준화될 수 있다.
도 7로 돌아가서, 관련 키워드 발생기(300)는 단계(330)에서, 중요도의 내림차순으로 표(250)의 레코드를 소트(sort)하여 소트된 표(260)를 산출한다. 동시에, 관련 키워드 발생기(300)는 소정의 숫자, 말하자면 가장 높은 10의 중요도를 갖는 레코드의 10을 디스플레이 한다. 중요도에 부가하여, 관련 키워드 발생기(300)는 중요도의 계산에 사용된 각종 통계 정보를 디스플레이 할 수 있다. 포함된 키워드와 대응하는 중요도는 이용자의 경력으로서 저장될 수 있다. 이를 행하는 것은 이용자의 관심 범위나 취향이 키워드에 의해 규정된 벡터와 대응하는 중요도로서 표현 가능케 한다. 이들 벡터는 각종 응용 분야, 예를 들면 문서 데이터 베이스의 탐색에 사용될 수 있다.
관련 키워드 발생기(300)의 동작을 보다 잘 이해할 목적으로, 3개의 텍스트 ID, 즉, 0010, 0341, 1734로 구성된 선택된 텍스트 목록을 가정한다. 도 8은 어떻게 관련 키워드 발생기(300)가 관련 키워드를 발생하는가를 도시하는 도면이다. 도 8을 통해서, 실제 단어는 단어 ID 필드에 대한 값으로서 사용되어 이해를 용이하게 하는 것을 알 수 있고, 실제로 단어 ID 데이터를 단어 ID 필드에 대한 값으로서 사용하는 것이 바람직하다. 또한, 수학식 1에서 상수(C)를 1로, DDB(70)의 텍스트 수(M)를 10,000으로 가정한다.
그리고 나서, 검색된 텍스트(0010, 0341, 1734)에 포함된 각 단어(Wj)에 대해, 상기 발생기(300)는 텍스트(0010, 0341, 1734)에 대한 로컬 통계표(220)와 전체 통계표(230)를 사용하여, 상기한 검색된 Wj-포함 텍스트 카운트(RCT(Wj))와 중요도(I(Wj))를 계산한다. 단어 "applet"을 예를 들면, 발생기(300)는 단어 "applet"에 대한 로컬 통계표(0010, 0341, 1734)를 탐색하여 "applet"을 포함하는 2개의 로컬 표가 존재하는, 즉 RCT(applet)=2인 것을 발견한다. 수학식 2로부터 "applet"의 IDF 값이 다음과 같이 계산되기 때문에,
IDF(applet)=1-log(CT(applet)/10,000)
=1-log(86/10,000)
=5.756
"applet"에 대한 중요도는 수학식 1로부터 다음과 같이 계산된다.
I(applet)=(2*5.756+6*5.756)*2
=92.096.
다른 단어(Wj) 각각에 대해서, RCT(Wj)와 I(Wj)는 동일한 방법으로 계산되어 도 8의 표(250)를 산출한다. 중요도의 내림차순으로 표(250)를 소팅한 결과가 표(260)이다.
이제 도 7로 뒤돌아 가서, CPU(10)는 단계(340)에서 이용자가 질문 요청을 더 입력하거나 탐색을 종료하도록 프롬프트 한다. 이용자가 계속 탐색하기를 원하면, 이용자 인터페이스(400)은 이용자가 소정의 아이콘을 클릭하여 자동 탐색을 실행하거나 1개 이상의 디스플레이된 관련 키워드를 선택하여 질문 요청을 하는 것을 가능케 한다. 이용자가 단계(340)에서 자동 탐색을 선택하면, 단계(350)에서, 이용자 인터페이스(400)는 가장 높은 중요도를 갖는 관련 키워드의 소정의 숫자, 예를 들면 3을 사용하여 질문 요청을 발생한다. 이용자가 단계(340)에서 1개 이상의 디스플레이된 관련 키워드를 선택하면, 이용자 인터페이스(400)는 응답으로 질문 요청을 발생한다. 단계(350) 후에, CPU(10)는 단계(314)로 복귀한다.
단계(352)는 생략됨에 유의한다. 즉, CPU(10)는 처리를 종료하기 전에 자동으로 키워드를 저장한다. 또한, 단계(354)는 도 7에 도시된 위치에 위치되는 대신에 단계(330, 340) 사이나 단계(340, 350) 사이 중 어느 한쪽에 삽입될 수 있다.
이용자가 탐색을 종료하기를 결정하면, 이용자 인터페이스(400)는 단계(352)에서 이용자에게 관련 키워드를 저장하기를 원하는지 여부를 질문한다. 그렇다고 하면, 이용자 인터페이스(400)는 단계(354)에서 더 사용하기 위해 표(260)를 저장하고, 그 동작을 종료한다. 그렇지 않으면, 이용자 인터페이스(400)는 간단히 그 동작을 종료한다.
그러므로, 문서 검색 시스템(2)과 관련 키워드 추출 시스템(100)은 적어도 1개 문서의 검색을 보증하는 동안 고정밀도로 문서 검색을 가능케 한다. 지금까지는 본 발명의 기본 실시예에 대해 논의하였다. 이제 다음에서 상기한 실시예의 몇몇 변형들에 대해 논의한다. 다음의 변형들이 상기한 실시예와 기본적으로 유사하기 때문에, 다음의 설명은 그들간의 차이점에만 초점을 맞춘다.
변형 1
도 9는 본 발명의 제1 변형에 사용된 대체 전체 통계표(230a)의 전형적인 구조를 도시하는 도면이다. 도 9에서, 표(230a)는 DDB(70)의 전체 텍스트에 따른 Wj-포함 텍스트의 속도를 포함하는 2개의 추가 필드, 즉 CT(Wj)/M과, 단어(Wj)가 관련 키워드로부터, 즉 중요도의 계산으로부터 제외되어야 하는지 여부를 나타내는 제외 플래그가 표(230a)에 제공되는 것을 제외하고는 도 4의 표(230)와 동일하다. 단어(Wj)의 제외 플래그가 예를 들면 1이면, 도 7의 단계(320)로부터의 처리는 단어(Wj)에 대해 생략된다. 이렇게 하는 것은 활성화된 제외 플래그를 갖는 단어가 중요도의 계산에서 역효과를 갖지 않게 할 수 있어 처리 속도를 높인다.
제외 플래그를 1로 설정하는 기준을 판정하는 방법은 많다. 한 방법은 CT(Wj)/M이 0.5보다 크거나 같은 경우에 제외 플래그를 1로 설정하는 것으로, 이는 단어(Wj)가 단지 1개 텍스트를 나타내는 것을 의미한다.
또한, 1개의 임계값 이상이 단어의 수량 특성, 예를 들면 단어의 길이에 따라 설정될 수 있다. 특히 제외 플래그는 네 글자이상의 단어에 대해 CT(Wj)/M ≥ 0.5이거나 네 글자 아래의 단어에 대해 CT(Wj)/M ≥ 0.3이면, 1로 설정될 수 있다.
상기 변형에 따르면, 단지 크게 유용한 키워드가 얻어진다. 또한, 시스템 동작 속도가 빨라진다.
변형 2
제2 변형에서, 중요도, 즉 I(Wj)에는 단계(318)에서 선택된 각 텍스트(RTr)와 결합된 가중치(Wr)가 부여된다. 특히, I(Wj)의 계산은 다음의 수학식 3에 따라 이루어진다.
이를 성취하기 위해서, 관련 키워드 발생기(300)는 선택된 텍스트 목록(RT1,RT2,...,RTR)과 가중치(W1,W2,...,WR)를 수신해야만 한다. 이 목적을 위해, 검색 프로그램(82)은 탐색 결과를 들급 분류된(ranked) 형태로 제공하는 기능을 가져야만 한다. 검색된 텍스트 ID가 적합도의 순으로 제공되면, 제1 등급 분류된 텍스트의 가중치(W1)는 10으로 설정되고, 제2 등급 분류된 텍스트의 가중치(W2)는 9로 설정되며, 기타 이와 같다.
대안으로, 복수의 텍스트 ID를 사용하여 직접 탐색하는 경우, 이용자 인터페이스(400)는 텍스트 ID 뿐만 아니라 텍스트(RTr) 각각의 추정의 표시값(예를 들면 5이내에서 가변적임)을 이용자가 입력하게 한다. 이 경우, 가능한 5 레벨이 텍스트에 대한 가중치에 대해 사용될 수 있거나, 5개의 소정의 가중값과 결합될 수 있다.
가중값은 마이너스 값임에 유의한다. 예를 들면, 직접 탐색의 경우, 이용자가 높이 관련된 텍스트에 대해 가중치를 2로 설정하고 관련 없는 텍스트에 대해 가중치를 -1로 설정하는 것을 가능케 한다. 이는 관련 텍스트와 비관련 텍스트와 일반적이지 않는 것 양쪽에 포함되는 단어에 대해 중요도를 감소시킬 수 있다.
변형 3
제3 변형은 2개의 탐색이 제1 변형 보다 더 엄격히 설정된 제2 질문 조건으로 실행된 경우, 즉 제1 선택된 텍스트 목록(또는 텍스트 세트(A))이 제2 선택된 텍스트 목록(또는 텍스트 세트(B))보다 더 많은 텍스트 ID를 포함하는 경우에 유효하다. 그러므로, 텍스트 세트(B) ⊂ 텍스트 세트(A) ⊂ DDB(70)인 관계가 있다. 이 상황에서, 다음 수학식 4로 규정된, 단어(Wj)의 분포 지수를 도입한다.
여기서, MA, MB는 각각 텍스트 세트(A,B)의 수이고, CTA(Wj)와 CTB(Wj)는 텍스트 세트(A,B)에 각각 단어(Wj)를 포함하는 텍스트의 수이다.
제3 변형에서의 중요도, 즉 I2(Wj)는 다음과 같이 규정된다.
I2(Wj)=ID(A,B,Wj)*I(Wj)
단어(Wj)가 세트(A)에 넓게 분포되고 세트(B)에 좁게 분포되면, 지수(DI(A,B,Wj))는 보다 커진다. 분포 지수의 값이 크게 증가하는 이와 같은 단어는 세트(B)의 선택도의 한 원인이 된다. 이 점에서, 이와 같은 단어를 세트(B)의 특성을 더 갖는 키워드라고 말할 수 있다.
이제 도 8로 가서, 선택된 텍스트 목록(219)이 텍스트 세트(B)이고, 텍스트 세트(A)는 100 텍스트로 구성된 세트(B)를 포함하고, 다음의 단어들은 텍스트 세트(A)의 텍스트 대응하는 수에 나타난다고 가정한다.
CTA(applet) =10
CTA(internet) =28
CTA(CGI) =9
CTA(WWW) =14
CTA(JAVA) =20
CTA(SUN) =5
CTA(script) =10
수학식 5에 따르면, 제3 변형의 중요도는 다음과 같다.
S2(applet) =92.096*{(100/10)*(3/3)}
=613.973
S2(internet)=57.258*{(100/28)*(3/3)}
=204.493. 이와 같은 방법으로, 다음을 얻는다.
S2(CGI) =85.274
S2(WWW) =45.107
S2(JAVA) =923.220
S2(SUN) =266.200
S2(script) =58.500
내림차순 상기한 중요도를 소팅하여 다음을 산출한다.
S2(JAVA) =923.220
S2(applet) =613.973
S2(SUN) =266.200
S2(internet)=204.493
S2(CGI) =85.274
S2(script) =58.500
S2(WWW) =45.107
본 예에서, 가장 중요한 3개 단어가 관련 키워드로서 추출될 예정이면, 단어 "JAVA", "applet", "SUN"이 추출될 것이다.
분포 지수가 수학식 4에 의해 제공되었을지라도, 단어(Wj)가 세트(B)의 더 많은 텍스트에 분포되고 세트(A)의 더 적은 텍스트에 분포되면 분포 지수는 더 큰 값을 갖도록 적절한 표현법에 의해 주어질 것임에 유의한다.
변형 4-- 중요도의 가중치 부여
본 변형에서는, 중요도(I(Wj)(또는 I2(Wj)))는 각종 유형의 가중치(αW(Wj))로 가중치 부여되며, 여기서 α는 가중치의 유형을 나타내는 파라미터이다.
단어(Wj)에 대한 제1 및 제2 유형의 가중치는 선택된 텍스트 목록(219)에 기입된 텍스트(RTr)의 각각의 Wj 발생 위치에 의존한다. 이러한 이유 때문에, 제1 및 제2 유형의 가중치는 각 텍스트(RTr)에 대해 계산되고 αWr(Wj)로 표시된다. 따라서, 중요도는 가중치(αWr(Wj))를 사용하여 다음과 같이 계산된다.
도 10은 텍스트(Ti)에 대해 제1 및 제2 유형의 가중치의 계산에 사용된 단어 위치표(270)의 구조를 도시하는 도면이다. 표(270)는 상기한 로컬 통계표(220)로서 만들어지고 갱신된다. 단어 위치표(270)의 각 레코드는 단어의 각 발생에 대해 현재 단어(바람직하게는 단어 ID)를 포함하는 현재 단어 필드와, 텍스트의 시작으로부터 단어(또는 단어 카운트)의 수로 측정되는 현재 단어의 위치를 포함하는 현재 위치 필드와, 현재 단어가 위치되는 텍스트(Ti)의 본문과 제목, 부제의 일부를 나타내는 값을 포함하는 현재 부분 필드를 포함한다. 단어 위치표(270)는 현재 위치 필드값의 내림차순으로 바람직하게 소트되었다.
제1 유형의 가중치는 단어(Wj)가 존재하는 텍스트(RTr)의 일부와 결합된 가중치 인자를 사용하여 계산된다. 텍스트의 일부는 현재 부분 필드에 저장된다. 이러한 유형의 가중치는 PWr(Wj)로 표시된다(가중치가 검색된 텍스트에 대해 실제로 계산되기 때문에, PW 다음의 접미사는 검색된 텍스트에 주어지는 r로 변경되었다). DDB(70)의 각 텍스트가 제목, 부제, 본문을 포함하면, 단어(Wj)의 중요도를 계산하는데 사용된, 텍스트(RTr)에 대한 F1, F2, F3의 가중치 인자는 각각 다음과 같이 설정된다.
예를 들면, 제목에 단어(Wj)가 나타나면 3,
부제에 단어(Wj)가 나타나면 2,
본문에 단어(Wj)가 나타나면 1.
도 11은 본 발명의 예의 실시예에 따라 가중치(PWr(Wj))를 계산하기 위해 서브루틴(400)의 전형적인 동작을 도시하는 흐름도이다. 서브루틴(400)은 도 7의 단계(320)에서 r의 각 값에 대해 호출된다. 서브루틴(400)의 호출에 응답하여, CPU(10)는 단계(402)에서 PWr(Wj)의 값을 0으로 설정한다. 단계(404)에서, CPU(10)는 Wj에 대해 처음부터 단어 위치표(RTr)(270)의 현재 부분 필드를 탐색하기 시작한다. 단계(406)에서 단어(Wj)가 레코드에 발견되면, CPU(10)는 PWr(Wj)의 값에, 단계(408)에서 레코드의 현재 부분 필드의 값과 결합된 가중치 인자(Fw(본예에서, w는 1,2, 또는 3))를 부가한다. 그후, CPU(10)는 복귀하기 위해 동작을 종료한다. 이 점에서, PWr(Wj)의 값이 텍스트(RTr)에 대해 판정되었다.
Wj 발생 위치와 전술한(또는 예비의) 문서 탐색에서 질문 요청의 키워드로서 사용된 단어의 발생 위치와의 (단어 카운트의) 간격과 결합된 가중치 인자에 이해 제2 유형의 가중치가 계산된다. 단어 발생 위치는 현재 위치 필드에 저장된다. 이러한 유형의 가중치는 LWr(Wj)로서 표시된다. 이 경우 텍스트(RTr)에 대해, 단어(Wj)의 중요도를 계산하는데 사용된 가중치 인자(F1, F2, F3)는 다음과 같이 설정된다.
예를 들면, 간격이 2 단어 이내이면, 3
간격이 3 단어 내지 10 단어의 범위이면, 2
간격이 10 단어보다 더 크면, 1.
본 가중치 구성에서, r의 각 값에 대한 가중치(LWr(Wj))는 단계(408)를 제외하고는 도 11의 흐름도에 따라 기본적으로 계산된다.
특히, K 키워드가 전술한 탐색에 대해 사용되었다면, CPU(10)는 K 키워드의 각각에 대한 간격을 계산하고, 계산된 간격에 대응하는 K 가중치 인자의 합을 도 12의 단계(418)에 도시된 바와 같이 LWr(Wj)의 값에 부가한다.
제3 유형의 가중치는 AW(Wj)가 사용된다. 단어(Wj)에 대한 가중치(AW(Wj))는 단어(Wj)의 속성에 의해 판정된다. 예를 들면, 가중치(AW(Wj))는 다음과 같이 설정된다.
단어(Wj)가 고유 명사이면, 5
단어(Wj)가 일반 명사이면, 4
단어(Wj)가 형용사이면, 2
단어(Wj)가 동사이거나 부사이면, 1
그외에는 0.
가중치(AW(Wj))가 문서 텍스트와는 독립적이기 때문에, 중요도는 I(Wj)에 AW(Wj)를 단순히 곱하여 이 가중치로 가중치 부여된다.
도 13을 참조하여, 몇몇 다른 변형들을 설명한다.
변형 5--탐색 결과 등급 분류
도 13의 단계(314a)에서, CPU(10)는 (이 단계에서는 검색 프로그램(82)의 제어하에서) 탐색 결과를 디스플레이(50) 스크린에 디스플레이하지 않고 선택된 텍스트 목록(219)을 소정의 방법으로 간단히 출력한다. 단계(316)에서, CPU(10)는 적합도 순으로 선택된 텍스트 목록(219)을 소트한다. 특히, CPU(10)는 상기 목록(219)에 포함된 텍스트(RTr)의 각각에 대해 (DCr로 표시된) 적합도를 계산한다. 적합도(DCr)는 다음과 같이 주어진다.
여기서, W1,W2,...,WM은 단계(312)의 질문 요청에 포함된 단어이다.
단계(317)에서, CPU(10)는 소트된 목록을 디스플레이(50) 스크린에 디스플레이 한다. 단계(318)에서, CPU(10)는 디스플레이된 소트된 목록으로부터 이용자가 원하는 텍스트를 선택하고 선택된 텍스트의 텍스트 ID를 포함하는 텍스트 목록을 얻도록 프롬프트 한다.
도 7과 관련하여 전술한 바와 같이, 이용자는 더 탐색하기 위해 DDB(70)에 매우 적합한 키워드를 재사용 할 수 있다. 그와 같은 키워드는 DDB(70)에 포함되어 있기 때문에, 본 실시예에 의한 탐색 결과 적어도 1개 텍스트의 검색을 이룰 수 잇다.
변형 6
도 13으로 복귀하여, CPU(10)는 단계(322)에서 포함 관계에 있는 소트된 키워드 표(260)의 키워드를 필터링(filter)한다. 특히, 표(260)의 추출된 단어들 사이나, 표(260)의 추출된 단어들와 소정 그룹의 단어들 사이 중 어느 하나에 포함 관계가 존재하는지 여부를 판정한다. 어떤 관계가 존재하면, 전자의 경우의 포함 관계에 포함되는 추출된 단어들과 후자의 경우의 포함 관계에 포함되는 추출된 단어 중 하나는 디스플레이되지 않는다. 상기 소정 그룹의 단어들은 예를 들면, 전술한 탐색에서 키워드로서 질문 요청에 사용된 단어들이다.
다음의 경우 중 하나이면, 단어(A)는 단어(B)에 포함되는 것이 판정된다.
(a) 단어(A, B)가 앞부분이 서로 일치하고 단어(A)가 단어(B)보다 더 짧은 경우,
(b) 단어(A, B)가 뒷부분이 서로 일치하고 단어(A)가 단어(B)보다 더 짧은 경우,
(c) 단어(A)가 단어(B)의 일부이고 단어(A, B)의 앞부분과 뒷부분이 모두 일치하지 않은 경우,
(d) 단어(또는 구)(A, B)가 상기한 조건 (a) 내지 (c)중 어느 하나를 만족하고 단어(A)가 구(B)의 성분인 경우.
예를 들면, "東京"이 기준(a)에 따라 "東京都"의 구성 단어가 되는 것이 판정된다. 유사하게, 기준(b)은 "發賣"를 "新發賣"의 구성 단어로 만들며, 기준(c)은 "感謝"를 "大感謝祭"의 구성 단어로 만든다. 기준(4)은 구성 단어의 판정을 영어로 하는데 필요하다. 기준(d)에 따르면, 단어 "artificial"과 "intelligence"는 단어"artificial intelligence"의 구성 단어로 판정되지만, 단어 "art"와 "tell"은 구성 단어가 아니다.
임의의 2개 단어나 구가 상기한 기준에 따라 포함 관계로 판정되면, 다음의 조치가 이루어진다.
(a) 더 긴 단어(또는 구)가 키워드용으로 선택된다.
(b) 더 짧은 단어(또는 구)가 키워드용으로 선택된다.
(c) 더 중요한 단어(또는 구)가 키워드용으로 선택된다.
(d) (단어 카운트내의) 더 짧은 구와, (단어 카운트내의) 더 긴 구와 더 짧은 구 사이의 차이가 키워드(또는 키이 구(key phrase))용으로 사용된다.
"artificial"과 "artificial intelligence" 사이의 포함 관계가 발견되면, "artificial"과 "intelligence"는 기준(d)에 따라 키워드용으로 사용된다. 추출된 단어간에 포함 관계가가 있는 경우, 전술한 조치가 이루어질 수 있다. 그러나, 조치(3) 만이 소정의 단어 그룹의 단어들중 하나를 포함하는 포함 관계에 대해 가능하다.
본 변형에 따르면, 의미나 사용상 유사한 단어들이 키워드 그룹으로부터 제외되어 관련 키워드의 과잉을 줄이도록 한다.
변형 7
추출된 키워드는 속성 또는 통계 정보에 의해 분류된다. 음성 부분은 속성으로서 사용될 수 있다. 예를 들면, 고유 명사와 또 다른 단어는 개별적으로 디스플레이 된다. 또는, 추출된 키워드는 시소러스 분류법에 따라 디스플레이 하기 위해 분류될 수 있다.
통계 정보에 의한 분류로서, 추출된 키워드는 각 추출된 단어의 발생수에 의해 분류된다. 예를 들면, 단어가 전체 텍스트 베이스의 80%로 나타나는지의 여부를 판정하여 추출된 키워드가 분류되면, 이용자가 보내기 이전에 상기 단어를 사용하여 더 탐색하도록 하는 소정의 효과를 허용한다.
또한, 시소러스에 의한 분류의 경우, 현재 상태의 단어 그룹을 디스플레이 하는 대신에, 시소러스로 더 높은 노드에 위치되는 단어가 대표 단어로서 디스플레이 될 수 있다. 유사하게, 추출된 키워드가 통계 정보에 의해 분류되는 경우, 각 단어 그룹에 가장 넓게 분포된 단어가 상기 그룹 대신하여 대표 단어로서 디스플레이 된다.
또 다른 변형도 가능하다. 예를 들면, 문서 검색 시스템은 상기한 실시예로 1개의 컴퓨터를 사용하여 구현되었다. 그러나, 문서 검색 시스템은 도 14에 도시된 바와 같은 방송망 시스템상에서 구현될 수 있다. 그와 같은 시스템에서, 이용자 인터페이스(90)는 클라이언트 컴퓨터나 단말기(70) 각각에 저장되고, 문서 검색 시스템의 나머지는 서버(1a)에 저장된다.
본 발명의 정신과 범위를 벗어나지 않고 본 발명의 상이하고 다양한 실시예가 구성될 수 있다. 본 발명은 첨부된 청구범위에 규정된 것을 제외하고는 명세서에 기술된 특정 실시예에 한정하지 않음에 유의해야 한다.
문서 검색 시스템에 사용된 본 발명에 따른 관련 키워드 발생 시스템은 문서 베이스로부터 선택된 문서(텍스트)의 목록을 수신하고 중요도 순으로 분류된 단어의 키워드 목록을 선택된 텍스트 그룹에 제공하여 효과적이며 빠른 문서 검색을 용이하게 한다.

Claims (78)

  1. 질문 요청을 수신하고 검색된 텍스트의 텍스트 ID의 목록을 만드는 기능을 갖는 텍스트 검색 시스템에서 이용자가 텍스트 베이스를 탐색하는 것을 돕는 방법으로서,
    상기 텍스트 베이스를 구성하는 각 텍스트에 대해서, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 단계와,
    상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 단계와,
    선택된 텍스트의 텍스트 ID의 선택된 텍스트 목록을 제공하기 위해 상기 이용자가 상기 텍스트 베이스로부터 적어도 1개의 텍스트를 선택하는 단계와,
    상기 선택된 텍스트(들)에 포함된 각 단어에 대해서, 상기 선택된 텍스트에 대한 상기 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 단계와,
    상기 선택된 텍스트에 포함된 상기 단어를 상기 중요도 순으로 소트(sorting)하는 단계와,
    소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 단계와,
    상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 단계를 포함하는 방법.
  2. 제 1 항에 있어서, 상기 로컬 통계 정보를 관리하는 단계는, 상기 로컬 통계 정보내에, 상기 텍스트 각각에 사용된 각 단어의 단어 ID와 상기 단어 ID와 결합된 단어 발생 카운트를 포함하는 단계를 포함하고, 상기 단어 발생 카운트는 상기 텍스트 각각에서, 상기 텍스트 각각에 사용된 상기 단어 각각의 발생수를 가리키며,
    상기 전체 통계 정보를 관리하는 단계는, 상기 전체 통계 정보내에, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 상기 단어 각각의 단어 ID와, 총 단어 발생 카운트와, 임의의 상기 텍스트에 사용된 상기 단어 각각의 상기 단어 ID와 결합되는 포함 텍스트 카운트를 포함하는 단계를 포함하고, 상기 총 단어 발생 카운트는 상기 텍스트 베이스를 구성하는 상기 텍스트 전체의 총 발생수를 가리키며, 상기 포함 텍스트 카운트는 임의의 상기 텍스트에 사용된 상기 단어 각각을 포함하는 텍스트의 수를 가리키며,
    상기 방법은, 상기 선택된 텍스트에 대해 주어진 상기 단어 발생 카운트와, 상기 선택된 텍스트의 수와, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 규정된 수량과의 합에 상기 중요도가 비례하도록, 상기 중요도를 규정하는 단계를 더 포함하며, 상기 단어 각각이 상기 텍스트 베이스를 구성하는 상기 텍스트에 보다 많이 나타나면 상기 수량이 더 작아지도록 한 방법.
  3. 제 2 항에 있어서, 상기 중요도를 규정하는 상기 단계는 다음과 같이 상기 중요도, 즉 I(Wj)를 표시하는 단계를 포함하는 방법으로서,
    이고, 여기서, Wj는 상기 검색된 텍스트에 포함된 상기 단어 각각의 단어 ID이고, C는 상수이고, WOr(Wj)는 상기 검색된 텍스트(RTr) 각각내의 상기 단어(Wj) 각각의 상기 단어 발생 카운트이고, RCT(Wj)는 상기 단어(Wj) 각각을 포함하는 상기 검색된 텍스트의 수이고, IDF(Wj)는 RTr이 상기 검색된 텍스트 각각의 텍스트 ID이고 r=1,2,...,R(R=검색된 텍스트의 수)인 경우의 상기 수량인 방법.
  4. 제 1 항에 있어서, 상기 이용자가 적어도 1개의 텍스트를 선택하는 상기 단계는,
    상기 이용자가 그의 또는 그녀가 깊이 생각한 검색 조건을 사용하여 질문 요청을 발행하여 검색된 텍스트의 목록을 얻는 단계와,
    상기 이용자가 상기 검색된 텍스트로부터 상기 적어도 1개의 텍스트를 선택하는 단계를 포함하는 방법.
  5. 제 1 항에 있어서, 상기 이용자가 상기 목록의 부분 집합인 더 작은 목록을 얻기 위해 질문 요청을 더 발행하는 단계와,
    상기 목록에 기입된 상기 검색된 텍스트에 사용된 단어상의 통계 정보와, 상기 더 작은 목록에 기입된 텍스트에 포함된 단어상의 통계 정보를 사용하여 상기 검색된 텍스트에 포함된 상기 단어 각각에 대해, 분포 지수를 계산하는 단계와,
    상기 중요도를 상기 분포 지수로 가중치 부여하는 단계를 더 포함하며, 상기 분포 지수는, 상기 선택된 텍스트에 포함된 상기 단어 각각이 상기 더 작은 목록에 기입된 텍스트에 더 많이 분포되고 상기 선택된 텍스트에 더 적게 분포되면, 더 커지도록 규정되는 방법.
  6. 제 5 항에 있어서, 상기 분포 지수는 {(MA/CTA(Wj)*(CTB(Wj)/MB)}로 VYTLELH고, 여기서 MA, MB는 상기 목록과 상기 더 작은 목록에 각각 기입된 텍스트의 수이고, CTA(Wj), CTA(Wj)는 상기 목록과 상기 더 작은 목록에 각각 기입되며 상기 선택된 텍스트에 포함된 상기 단어(Wj) 각각을 포함하는 텍스트의 수인 방법.
  7. 제 2 항에 있어서, 상기 목록은 상기 선택된 텍스트의 적합도의 순으로 소트되고, 상기 방법은 상기 소트된 목록을 수신하고 상기 소트된 목록의 상기 선택된 목록의 각각에 소정의 가중치를 할당하고, 상기 중요도를 표시하는 단계는 상기 단어 발생 카운트(WOr(Wj))에 상기 소정의 가중치를 가중치 부여하는 단계를 포함하는 방법.
  8. 제 2 항에 있어서, 상기 선택된 텍스트의 각각에 가중치를 할당하는 단계를 더 포함하며, 상기 중요도를 계산하는 상기 단계는 상기 선택된 텍스트 각각에 대해 상기 단어 발생 카운트에, 상기 선택된 텍스트 각각에 대해 할당된 상기 가중치로 가중치 부여하는 단계를 포함하는 방법.
  9. 제 1 항에 있어서, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해, 단어를 포함하는 텍스트의 수가 소정의 범위 이내인지 여부를 알아보기 위해 테스트를 하는 단계와,
    상기 단어가 상기 테스트를 통과하지 않으면, 상기 선택된 키워드의 후보자에서 상기 단어를 제외하는 단계를 더 포함하는 방법.
  10. 제 9 항에 있어서, 상기 단어의 수량 특성과 결합된 값을 상기 소정의 범위로서 사용하는 단계를 더 포함하는 방법.
  11. 제 10 항에 있어서, 상기 수량은 상기 단어의 길이인 방법.
  12. 제 9 항에 있어서, 상기 단어의 수량 특성의 제2 소정 범위 각각을 상기 단어를 포함하는 상기 텍스트의 수의 상이한 소정 범위와 결합하는 단계를 더 포함하며, 상기 테스트하는 단계는 상기 단어 호출의 상기 수량 특성상의 제2 소정 범위와 결합된 상기 상이한 소정 범위 중 하나를 상기 소정 범위로서 사용하는 단계를 포함하는 방법.
  13. 제 2 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 텍스트 베이스를 구성하는 상기 텍스트 각각의 상기 워드 각각의 발생 각각과, 상기 각각의 텍스트의 일부와, 상기 발생 각각의 일부를 관리하는 단계와,
    상기 텍스트 각각의 가능한 일부 각각에 소정의 가중치 인자를 할당하는 단계와,
    상기 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하기 위해 상기 단어 각각의 상기 발생 각각의 상기 일부와 결합된 상기 소정의 가중치 인자를 축적하는 단계를 더 포함하고, 상기 중요도를 규정하는 상기 단계는 상기 단어 각각에 텍스트 단위로 상기 가중치를 부여하는 단계를 포함하는 방법.
  14. 제 1 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 텍스트를 구성하는 상기 텍스트 각각의 상기 단어 각각의 발생 각각과, 상기 발생 각각의 상기 텍스트 각각내의 위치를 관리하는 단계와,
    상기 텍스트 각각의 상기 단어 각각의 상기 발생 각각에 대해, 상기 위치와 상기 질문 요청에 사용된 키워드 각각의 위치와의 간격을 계산하는 단계와,
    소정의 간격 범위 각각에 소정의 가중치 인자를 할당하는 단계와,
    상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하도록, 상기 단어 각각의 상기 발생 각각에 상기 키워드 각각의 상기 간격과 결합된 상기 소정의 가중치 인자를 축적하는 단계를 더 포함하고, 상기 중요도를 규정하는 상기 단계는 상기 단어 발생 카운트의 각각에 텍스트 단위로 상기 가중치를 부여하는 단계를 포함하는 방법.
  15. 제 1 항에 있어서, 상기 중요도에, 상기 선택된 텍스트의 상기 단어 각각의 속성과 결합된 가중치를 부여하는 단계를 더 포함하는 방법.
  16. 제 1 항에 있어서, 임의의 2개의 상기 소트된 단어내에나, 임의의 상기 소트된 단어와 상기 질문 요청에 사용된 임의의 키워드 사이 중에 어떤 포함 관계가 발견되면, 소정의 기준에 기초하여 상기 2개의 소트된 단어 중 하나를 선택하는 단계를 더 포함하는 방법.
  17. 제 16 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 길이를 비교하기 위해 상기 소정의 기준을 설정하는 단계를 더 포함하는 방법.
  18. 제 16 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 중요도를 비교하기 위해 상기 소정의 기준을 설정하는 단계를 더 포함하는 방법.
  19. 제 16 항에 있어서, 상기 2개의 단어 중 하나를 선택하는 단계는 상기 2개의 단어 사이의 더 짧은 단어 및/또는 차이를 선택하는 단계를 포함하는 방법.
  20. 제 3 항에 있어서, 상기 질문 요청에 사용된 키워드와 상기 기능으로부터의 상기 목록에 기초하여, 상기 선택된 텍스트의 적합도 순으로 상기 목록을 소트하는 단계와,
    상기 소트된 목록의 상기 선택된 텍스트의 각각에 소저의 가중치를 할당하는 단계를 더 포함하고, 상기 중요도를 표시하는 상기 단계는 상기 단어 발생 카운트(WOr(Wj))에 상기 선택된 텍스트(RTr) 각각과 결합된 상기 소정의 가중치 중 하나를 가중치 부여하는 단계를 포함하는 방법.
  21. 제 1 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 속성 단위로 유사한 키워드의 그룹으로 분류하는 단계를 더 포함하는 방법.
  22. 제 1 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 통계 데이터 단위로 유사한 키워드의 그룹으로 분류하는 단계를 더 포함하는 방법.
  23. 제 1 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 시소러스 단위로 유사한 키워드의 그룹으로 분류하는 단계를 더 포함하는 방법.
  24. 제 21 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 단계를 더 포함하는 방법.
  25. 제 22 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 단계를 더 포함하는 방법.
  26. 제 23 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 단계를 더 포함하는 방법.
  27. 제 1 항에 있어서, 상기 이용자를 돕는 상기 단계는, 상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 단어의 상기 소정의 수의 적어도 일부를 사용하여 상기 질문 요청을 자동적으로 발생하는 단계를 포함하는 방법.
  28. 제 1 항에 있어서, 상기 관련 단어의 상기 소정의 수를 저장하는 단계와,
    상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 키워드의 상기 저장된 소정의 수를 디스플레이 하는 단계를 더 포함하는 방법.
  29. 질문 요청을 수신하고 검색된 텍스트의 텍스트 ID의 목록을 만드는 기능을 갖는 텍스트 검색 시스템에서 이용자가 텍스트 베이스를 탐색하는 것을 돕는 시스템으로서,
    상기 텍스트 베이스를 구성하는 각 텍스트에 대해서 실시되며, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 수단과,
    상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 수단과,
    선택된 텍스트의 텍스트 ID의 선택된 텍스트 목록을 제공하기 위해 상기 이용자가 상기 텍스트 베이스로부터 적어도 1개의 텍스트를 선택하는 것을 가능케 하는 수단과,
    상기 선택된 텍스트 목록에 기입된 상기 선택된 텍스트에 포함된 각 단어에 대해 실시되며, 상기 선택된 텍스트에 대한 상기 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 수단과,
    상기 선택된 텍스트에 포함된 상기 단어를 상기 중요도 순으로 소트하는 수단과,
    가장 높은 중요도를 갖는 소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 수단과,
    상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 수단을 포함하는 시스템.
  30. 제 29 항에 있어서, 상기 로컬 통계 정보를 관리하는 수단은, 상기 로컬 통계 정보내에, 상기 텍스트 각각에 사용된 각 단어의 단어 ID와 상기 단어 ID와 결합된 단어 발생 카운트를 포함하는 수단을 포함하고, 상기 단어 발생 카운트는 상기 텍스트 각각에서, 상기 텍스트 각각에 사용된 상기 단어 각각의 발생수를 가리키며,
    상기 전체 통계 정보를 관리하는 수단은, 상기 전체 통계 정보내에, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 상기 단어 각각의 단어 ID와, 총 단어 발생 카운트와, 임의의 상기 텍스트에 사용된 상기 단어 각각의 상기 단어 ID와 결합되는 포함 텍스트 카운트를 포함하는 수단을 포함하고, 상기 총 단어 발생 카운트는 상기 텍스트 베이스를 구성하는 상기 텍스트 전체의 총 발생수를 가리키며, 상기 포함 텍스트 카운트는 임의의 상기 텍스트에 사용된 상기 단어 각각을 포함하는 텍스트의 수를 가리키며,
    상기 시스템은, 상기 선택된 텍스트에 대해 주어진 상기 단어 발생 카운트와, 상기 선택된 텍스트의 수와, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 규정된 수량과의 합에 상기 중요도가 비례하도록, 상기 중요도를 규정하는 수단을 더 포함하며, 상기 단어 각각이 상기 텍스트 베이스를 구성하는 상기 텍스트에 보다 많이 나타나면 상기 수량이 더 작아지도록 한 시스템.
  31. 제 30 항에 있어서, 상기 중요도를 규정하는 상기 수단은 다음과 같이 상기 중요도, 즉 I(Wj)를 표시하는 수단을 포함하는 시스템으로서,
    이고, 여기서, Wj는 상기 검색된 텍스트에 포함된 상기 단어 각각의 단어 ID이고, C는 상수이고, WOr(Wj)는 상기 검색된 텍스트(RTr) 각각내의 상기 단어(Wj) 각각의 상기 단어 발생 카운트이고, RCT(Wj)는 상기 단어(Wj) 각각을 포함하는 상기 검색된 텍스트의 수이고, IDF(Wj)는 RTr이 상기 검색된 텍스트 각각의 텍스트 ID이고 r=1,2,...,R(R=검색된 텍스트의 수)인 경우의 상기 수량인 시스템.
  32. 제 29 항에 있어서, 상기 이용자가 적어도 1개의 텍스트를 선택하는 것을 허용하는 상기 수단은,
    상기 이용자가 그의 또는 그녀가 깊이 생각한 검색 조건을 사용하여 질문 요청을 발행하여 검색된 텍스트의 목록을 얻는 것을 허용하는 수단과,
    상기 이용자가 상기 검색된 텍스트로부터 상기 적어도 1개의 텍스트를 선택하는 것을 허용하는 수단을 포함하는 시스템.
  33. 제 29 항에 있어서,
    상기 이용자로부터의 더한 질문 요청에 의해 상기 기능이 상기 목록의 부분 집합인 더 작은 목록을 만들기 위해 복귀하는 판정에 응답하여, 상기 선택된 텍스트에 사용된 단어상의 통계 정보와, 상기 더 작은 목록에 기입된 텍스트에 포함된 단어상의 통계 정보를 사용하여 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해, 분포 지수를 계산하는 수단과,
    상기 중요도에 상기 분포 지수로 가중치 부여하는 수단을 더 포함하며, 상기 분포 지수는, 상기 선택된 텍스트에 포함된 상기 단어 각각이 상기 더 작은 목록에 기입된 텍스트에 더 많이 분포되고 상기 선택된 텍스트에 더 적게 분포되면, 더 커지도록 규정되는 시스템.
  34. 제 33 항에 있어서, 상기 분포 지수는 {(MA/CTA(Wj)*(CTB(Wj)/MB)}로 VYTLELH고, 여기서 MA, MB는 상기 목록과 상기 더 작은 목록에 각각 기입된 텍스트의 수이고, CTA(Wj), CTA(Wj)는 상기 목록과 상기 더 작은 목록에 각각 기입되며 상기 선택된 텍스트에 포함된 상기 단어(Wj) 각각을 포함하는 텍스트의 수인 시스템.
  35. 제 30 항에 있어서, 상기 목록은 상기 선택된 텍스트의 적합도의 순으로 소트되고, 상기 시스템은 상기 소트된 목록을 수신하고 상기 소트된 목록의 상기 선택된 목록의 각각에 소정의 가중치를 할당하고, 상기 중요도를 표시하는 수단은 상기 단어 발생 카운트에 상기 소정의 가중치를 가중치 부여하는 수단을 포함하는 시스템.
  36. 제 30 항에 있어서, 상기 이용자가 상기 선택된 텍스트의 각각에 가중치를 할당하는 것을 허용하는 수단을 더 포함하며, 상기 중요도를 계산하는 상기 수단은 상기 선택된 텍스트 각각에 대해 상기 단어 발생 카운트에, 상기 선택된 텍스트 각각에 대해 할당된 상기 가중치로 가중치 부여하는 수단을 포함하는 시스템.
  37. 제 29 항에 있어서,
    상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 실시되며, 단어를 포함하는 텍스트의 수가 소정의 범위 이내인지 여부를 알아보기 위해 테스트를 하는 수단과,
    상기 단어가 상기 테스트를 통과하지 않았음의 판정에 응답하여, 상기 선택된 키워드의 후보자에서 상기 단어를 제외하는 수단을 더 포함하는 시스템.
  38. 제 37 항에 있어서, 상기 단어의 수량 특성과 결합된 값을 상기 소정의 범위로서 사용하는 수단을 더 포함하는 시스템.
  39. 제 38 항에 있어서, 상기 수량은 상기 단어의 길이인 시스템.
  40. 제 37 항에 있어서, 상기 단어의 수량 특성의 제2소정 범위 각각을 상기 단어를 포함하는 상기 텍스트의 수의 상이한 소정 범위와 결합하는 수단을 더 포함하며, 상기 테스트하는 수단은 상기 단어 호출의 상기 수량 특성상의 제2 소정 범위와 결합된 상기 상이한 소정 범위 중 하나를 상기 소정 범위로서 사용하는 수단을 포함하는 시스템.
  41. 제 30 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트 베이스를 구성하는 상기 텍스트 각각의 상기 워드 각각의 발생 각각과, 상기 각각의 텍스트의 일부와, 상기 발생 각각의 일부를 관리하는 수단과,
    상기 텍스트 각각의 가능한 일부 각각에 소정의 가중치 인자를 할당하는 수단과,
    상기 텍스트 각각에 대해 실시되며, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하기 위해 상기 단어 각각의 상기 발생 각각의 상기 일부와 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
  42. 제 29 항에 있어서,
    상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트를 구성하는 상기 텍스트 각각의 상기 단어 각각의 발생 각각과, 상기 발생 각각의 상기 텍스트 각각내의 위치를 관리하는 수단과,
    상기 텍스트 각각의 상기 단어 각각의 상기 발생 각각에 대해, 상기 위치와 상기 질문 요청에 사용된 키워드 각각의 위치와의 간격을 계산하는 수단과,
    소정의 간격 범위 각각에 소정의 가중치 인자를 할당하는 수단과,
    상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하도록, 상기 단어 각각의 상기 발생 각각에 상기 키워드 각각의 상기 간격과 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 발생 카운트의 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
  43. 제 29 항에 있어서, 상기 중요도에, 상기 선택된 텍스트의 상기 단어 각각의 속성과 결합된 가중치를 부여하는 수단을 더 포함하는 시스템.
  44. 제 29 항에 있어서, 임의의 2개의 상기 소트된 단어내에나, 임의의 상기 소트된 단어와 상기 질문 요청에 사용된 임의의 키워드 사이 중에 어떤 포함 관계가 발견됨의 판정에 응답하여, 소정의 기준에 기초하여 상기 포함 관계에 포함된 2개의 단어 중 하나를 선택하는 수단을 더 포함하는 시스템.
  45. 제 44 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 길이를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
  46. 제 44 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 중요도를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
  47. 제 44 항에 있어서, 상기 2개의 단어 중 하나를 선택하는 수단은 상기 2개의 단어 사이의 더 짧은 단어 및/또는 차이를 선택하는 수단을 포함하는 시스템.
  48. 제 31 항에 있어서, 상기 질문 요청에 사용된 키워드와 상기 기능으로부터의 상기 목록에 기초하여 실시되며, 상기 선택된 텍스트의 적합도 순으로 상기 목록을 소트하는 수단과,
    상기 소트된 목록의 상기 선택된 텍스트의 각각에 소저의 가중치를 할당하는 수단을 더 포함하고, 상기 중요도를 표시하는 상기 수단은 상기 단어 발생 카운트(WOr(Wj))에 상기 선택된 텍스트(RTr) 각각과 결합된 상기 소정의 가중치 중 하나를 가중치 부여하는 수단을 포함하는 시스템.
  49. 제 29 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 속성 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
  50. 제 29 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 통계 데이터 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
  51. 제 29 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 시소러스 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
  52. 제 49 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
  53. 제 50 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
  54. 제 51 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
  55. 제 29 항에 있어서, 상기 이용자를 돕는 상기 수단은, 상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 단어의 상기 소정의 수의 적어도 일부를 사용하여 상기 질문 요청을 자동적으로 발생하는 수단을 포함하는 시스템.
  56. 제 29 항에 있어서, 상기 관련 단어의 상기 소정의 수를 저장하는 수단과,
    상기 이용자로부터의 소정의 입력에 응답하며, 상기 관련 키워드의 상기 저장된 소정의 수를 디스플레이 하는 수단을 더 포함하는 시스템.
  57. 적어도 1개의 전술한 탐색에 기초하여 키워드를 제공하여 이용자가 텍스트를 탐색하는 것을 도울 수 있는 텍스트 검색 시스템으로서,
    상기 텍스트 베이스를 구성하는 텍스트의 다양성과,
    상기 텍스트 베이스를 구성하는 상기 텍스트상의 속성 정보를 관리하는 수단과,
    상기 텍스트 베이스를 구성하는 각 텍스트에 대해서 실시되며, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 수단과,
    상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 수단과,
    상기 이용자가 질문 요청을 발행하는 것을 허용하는 수단과,
    선택된 텍스트의 텍스트 ID 목록을 제공하는 상기 질문 요청에 응답하는 수단과,
    상기 선택된 텍스트 목록에 기입된 상기 선택된 텍스트에 포함된 각 단어에 대해 실시되며, 상기 선택된 텍스트에 대한 상기 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 수단과,
    상기 선택된 텍스트에 포함된 상기 단어를 상기 중요도 순으로 소트하는 수단과,
    가장 높은 중요도를 갖는 소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 수단과,
    상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 수단을 포함하는 시스템.
  58. 제 57 항에 있어서, 상기 로컬 통계 정보를 관리하는 수단은, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 하나와 각각 결합된 복수의 로컬 통계 정보와, 상기 텍스트 각각에 사용된 각 단어의 단어 ID와 상기 단어 ID와 결합된 단어 발생 카운트를 포함하는 상기 텍스트 각각과 결합된 로컬표를 포함하고, 상기 단어 발생 카운트는 상기 텍스트 각각에서, 상기 텍스트 각각에 사용된 상기 단어 각각의 발생수를 가리키며,
    상기 전체 통계 정보를 관리하는 수단은, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 상기 단어 각각의 단어 ID와, 총 단어 발생 카운트와, 임의의 상기 텍스트에 사용된 상기 단어 각각의 상기 단어 ID와 결합되는 포함 텍스트 카운트를 저장하는 전체 통계표를 포함하고, 상기 총 단어 발생 카운트는 상기 텍스트 베이스를 구성하는 상기 텍스트 전체의 총 발생수를 가리키며, 상기 포함 텍스트 카운트는 임의의 상기 텍스트에 사용된 상기 단어 각각을 포함하는 텍스트의 수를 가리키며,
    상기 중요도는 상기 선택된 텍스트에 대해 주어진 상기 단어 발생 카운트와, 상기 선택된 텍스트의 수와, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 규정된 수량과의 합에 비례하여, 상기 단어 각각이 상기 텍스트 베이스를 구성하는 상기 텍스트에 보다 많이 나타나면 상기 수량이 더 작아지도록 한 시스템.
  59. 제 58 항에 있어서, 상기 중요도, 즉 I(Wj)는,
    로 규정되고, 여기서, Wj는 상기 선택된 텍스트에 포함된 상기 단어 각각의 단어 ID이고, C는 상수이고, WOr(Wj)는 상기 검색된 텍스트(RTr) 각각내의 상기 단어(Wj) 각각의 상기 단어 발생 카운트이고, RCT(Wj)는 상기 단어(Wj) 각각을 포함하는 상기 선택된 텍스트의 수이고, IDF(Wj)는 RTr이 상기 검색된 텍스트 각각의 텍스트 ID이고 r=1,2,...,R(R=검색된 텍스트의 수)인 경우의 상기 수량인 시스템.
  60. 제 59 항에 있어서, 상기 이용자가 적어도 1개의 텍스트를 선택하는 것을 허용하는 상기 수단은,
    상기 이용자가 그의 또는 그녀가 깊이 생각한 검색 조건을 사용하여 질문 요청을 발행하여 검색된 텍스트의 목록을 얻는 것을 허용하는 수단과,
    상기 이용자가 상기 검색된 텍스트로부터 상기 적어도 1개의 텍스트를 선택하는 것을 허용하는 수단을 포함하는 시스템.
  61. 제 57 항에 있어서, 제1 질문 응답과 상기 제1 질문 응답 후에 발행된 제2 질문 응답이 제1 선택된 텍스트의 제1 텍스트 ID의 제1 목록과 제2 선택된 텍스트의 제2 텍스트 ID의 제2 목록에 귀착되어 상기 제2 목록이 상기 제1 목록의 부분 집합이 되는 판정에 응답하며, 상기 제1 선택된 텍스트에 사용된 단어상의 통계 정보와 상기 제2 선택된 텍스트에 사용된 단어상의 통계 정보를 사용하여, 상기 제1 선택된 텍스트에 포함된 상기 단어 각각에 대해 분포 지수를 계산하는 수단과,
    상기 중요도에 상기 분포 지수로 가중치 부여하는 수단을 더 포함하며,
    상기 분포 지수는, 각 단어가 상기 제2 선택된 목록에 기입된 텍스트에 더 많이 분포되고 상기 제1 선택된 텍스트에 더 적게 분포되면, 단어의 상기 지수가 더 커지도록 규정되는 시스템.
  62. 제 61 항에 있어서, 상기 분포 지수는 {(MA/CTA(Wj)*(CTB(Wj)/MB)}로 VYTLELH고, 여기서 MA, MB는 상기 목록과 상기 더 작은 목록에 각각 기입된 텍스트의 수이고, CTA(Wj), CTA(Wj)는 상기 목록과 상기 더 작은 목록에 각각 기입되며 상기 선택된 텍스트에 포함된 상기 단어(Wj) 각각을 포함하는 텍스트의 수인 시스템.
  63. 제 58 항에 있어서, 상기 목록은 상기 선택된 텍스트의 적합도의 순으로 소트되고, 상기 시스템은 상기 소트된 목록을 수신하고 상기 소트된 목록의 상기 선택된 목록의 각각에 소정의 가중치를 할당하고, 상기 중요도를 표시하는 수단은 상기 단어 발생 카운트에 상기 소정의 가중치를 가중치 부여하는 수단을 포함하는 시스템.
  64. 제 57 항에 있어서, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 실시되며, 단어를 포함하는 텍스트의 수가 소정의 범위 이내인지 여부를 알아보기 위해 테스트를 하는 수단과,
    상기 단어가 상기 테스트를 통과하지 않았음의 판정에 응답하여, 상기 선택된 키워드의 후보자에서 상기 단어를 제외하는 수단을 더 포함하는 시스템.
  65. 제 58 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트 베이스를 구성하는 상기 텍스트 각각의 상기 워드 각각의 발생 각각과, 상기 각각의 텍스트의 일부와, 상기 발생 각각의 일부를 관리하는 수단과,
    상기 텍스트 각각의 가능한 일부 각각에 소정의 가중치 인자를 할당하는 수단과,
    상기 텍스트 각각에 대해 실시되며, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하기 위해 상기 단어 각각의 상기 발생 각각의 상기 일부와 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
  66. 제 57 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트를 구성하는 상기 텍스트 각각의 상기 단어 각각의 발생 각각과, 상기 발생 각각의 상기 텍스트 각각내의 위치를 관리하는 수단과,
    상기 텍스트 각각의 상기 단어 각각의 상기 발생 각각에 대해, 상기 위치와 상기 질문 요청에 사용된 키워드 각각의 위치와의 간격을 계산하는 수단과,
    소정의 간격 범위 각각에 소정의 가중치 인자를 할당하는 수단과,
    상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하도록, 상기 단어 각각의 상기 발생 각각에 상기 키워드 각각의 상기 간격과 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 발생 카운트의 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
  67. 제 57 항에 있어서, 상기 중요도에, 상기 선택된 텍스트의 상기 단어 각각의 속성과 결합된 가중치를 부여하는 수단을 더 포함하는 시스템.
  68. 제 57 항에 있어서, 임의의 2개의 상기 소트된 단어내에나, 임의의 상기 소트된 단어와 상기 질문 요청에 사용된 임의의 키워드 사이 중에 어떤 포함 관계가 발견됨의 판정에 응답하여, 소정의 기준에 기초하여 상기 포함 관계에 포함된 2개의 단어 중 하나를 선택하는 수단을 더 포함하는 시스템.
  69. 제 67 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 길이를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
  70. 제 67 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 중요도를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
  71. 제 67 항에 있어서, 상기 2개의 단어 중 하나를 선택하는 수단은 상기 2개의 단어 사이의 더 짧은 단어 및/또는 차이를 선택하는 수단을 포함하는 시스템.
  72. 제 59 항에 있어서, 상기 질문 요청에 사용된 키워드와 상기 기능으로부터의 상기 목록에 기초하여 실시되며, 상기 선택된 텍스트의 적합도 순으로 상기 목록을 소트하는 수단과,
    상기 소트된 목록의 상기 선택된 텍스트의 각각에 소저의 가중치를 할당하는 수단을 더 포함하고, 상기 중요도를 표시하는 상기 수단은 상기 단어 발생 카운트(WOr(Wj))에 상기 선택된 텍스트(RTr) 각각과 결합된 상기 소정의 가중치 중 하나를 가중치 부여하는 수단을 포함하는 시스템.
  73. 제 57 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 속성 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
  74. 제 73 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
  75. 제 57 항에 있어서, 상기 이용자를 돕는 상기 수단은, 상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 단어의 상기 소정의 수의 적어도 일부를 사용하여 상기 질문 요청을 자동적으로 발생하는 수단을 포함하는 시스템.
  76. 제 57 항에 있어서, 상기 관련 단어의 상기 소정의 수를 저장하는 수단과,
    상기 이용자로부터의 소정의 입력에 응답하며, 상기 관련 키워드의 상기 저장된 소정의 수를 디스플레이 하는 수단을 더 포함하는 시스템.
  77. 제 57 항에 있어서, 분리 가능한 대량 기억 매체용으로 개조된 기억 매체 드라이브를 더 포함하고, 상기 텍스트 베이스를 구성하는 텍스트의 상기 다양성은 상기 분리 가능한 기억 매체 중 하나에 저장되는 시스템.
  78. 제 57 항에 있어서, 양방향 통신 수단을 더 포함하고, 서버 및 클라이언트 시스템에 배치되는 시스템.
KR1019980027734A 1997-07-02 1998-07-02 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템 KR100304335B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP17682297A JP3607462B2 (ja) 1997-07-02 1997-07-02 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP97-176822 1997-07-02

Publications (2)

Publication Number Publication Date
KR19990013736A KR19990013736A (ko) 1999-02-25
KR100304335B1 true KR100304335B1 (ko) 2001-11-22

Family

ID=16020456

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980027734A KR100304335B1 (ko) 1997-07-02 1998-07-02 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템

Country Status (6)

Country Link
US (1) US6212517B1 (ko)
EP (1) EP0889419B1 (ko)
JP (1) JP3607462B2 (ko)
KR (1) KR100304335B1 (ko)
CN (1) CN1198225C (ko)
DE (1) DE69833238T2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
KR100462292B1 (ko) * 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
IL126373A (en) * 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
JP2000132560A (ja) * 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd 中国語テレテキスト処理方法及び装置
JP3760057B2 (ja) * 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP3603721B2 (ja) * 1999-02-25 2004-12-22 日本電信電話株式会社 データ検索支援方法及び装置及びデータ検索支援プログラムを格納した記憶媒体
US6408294B1 (en) * 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
JP3747133B2 (ja) 1999-04-14 2006-02-22 キヤノン株式会社 携帯端末及びその制御方法及びその記憶媒体
JP3368237B2 (ja) * 1999-04-14 2003-01-20 キヤノン株式会社 コード処理方法、端末装置及び記憶媒体
JP3376311B2 (ja) 1999-04-14 2003-02-10 キヤノン株式会社 情報提供方法および情報提供システム
JP2000298677A (ja) * 1999-04-14 2000-10-24 Canon Inc 情報検索方法、情報検索装置および記憶媒体
JP3327877B2 (ja) 1999-04-14 2002-09-24 キヤノン株式会社 情報提供方法、情報提供システム、端末装置および情報提供プログラムを格納した記憶媒体
JP3558267B2 (ja) * 1999-05-06 2004-08-25 株式会社エヌ・ティ・ティ・データ 文書検索装置
AU5587400A (en) * 1999-05-07 2000-11-21 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US7844594B1 (en) 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
JP3725373B2 (ja) * 1999-08-04 2005-12-07 富士通株式会社 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6701310B1 (en) * 1999-11-22 2004-03-02 Nec Corporation Information search device and information search method using topic-centric query routing
US6751612B1 (en) * 1999-11-29 2004-06-15 Xerox Corporation User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US20020059223A1 (en) * 1999-11-30 2002-05-16 Nash Paul R. Locator based assisted information browsing
NL1013793C1 (nl) * 1999-12-08 2001-06-11 Eidetica B V Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering.
US6845369B1 (en) * 2000-01-14 2005-01-18 Relevant Software Inc. System, apparatus and method for using and managing digital information
JP4608740B2 (ja) * 2000-02-21 2011-01-12 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US7428500B1 (en) 2000-03-30 2008-09-23 Amazon. Com, Inc. Automatically identifying similar purchasing opportunities
US7007232B1 (en) * 2000-04-07 2006-02-28 Neoplasia Press, Inc. System and method for facilitating the pre-publication peer review process
US7555557B2 (en) * 2000-04-07 2009-06-30 Avid Technology, Inc. Review and approval system
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US7035864B1 (en) 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7617184B2 (en) * 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US6876997B1 (en) 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6598040B1 (en) * 2000-08-14 2003-07-22 International Business Machines Corporation Method and system for processing electronic search expressions
JP2002189754A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 文書検索装置及び文書検索方法
EP1816553B1 (en) 2000-12-21 2011-08-31 Xerox Corporation Systems and computer program products for the display and operation of virtual three-dimensional books
US7203673B2 (en) * 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
WO2002069203A2 (en) * 2001-02-28 2002-09-06 The Johns Hopkins University Method for identifying term importance to a sample text using reference text
JP4671212B2 (ja) * 2001-03-26 2011-04-13 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体
US6681219B2 (en) * 2001-03-29 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method for keyword proximity searching in a document database
CA2373568C (en) 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US6795820B2 (en) * 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
EP1276061A1 (en) 2001-07-09 2003-01-15 Accenture Computer based system and method of determining a satisfaction index of a text
US6732092B2 (en) * 2001-09-28 2004-05-04 Client Dynamics, Inc. Method and system for database queries and information delivery
CN1327334C (zh) * 2001-11-08 2007-07-18 住友电气工业株式会社 文件分组装置
JP2003316807A (ja) * 2002-04-23 2003-11-07 Communication Research Laboratory 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体
US7131117B2 (en) * 2002-09-04 2006-10-31 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
US7194460B2 (en) * 2003-03-31 2007-03-20 Kabushiki Kaisha Toshiba Search device, search system, and search method
JP4049317B2 (ja) 2003-05-14 2008-02-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索支援装置およびプログラム
US7359905B2 (en) * 2003-06-24 2008-04-15 Microsoft Corporation Resource classification and prioritization system
GB2403558A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Document searching and method for presenting the results
JP4552401B2 (ja) * 2003-08-19 2010-09-29 富士ゼロックス株式会社 文書処理装置および方法
US20050060290A1 (en) * 2003-09-15 2005-03-17 International Business Machines Corporation Automatic query routing and rank configuration for search queries in an information retrieval system
US20050091194A1 (en) * 2003-10-10 2005-04-28 Jupp Peter A. List acquisition method and system
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
CN100437561C (zh) * 2003-12-17 2008-11-26 国际商业机器公司 电子文档的处理方法和装置及其系统
US7672927B1 (en) 2004-02-27 2010-03-02 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US7716216B1 (en) 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置
JP4569178B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 分類符号処理装置
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
JP4525224B2 (ja) * 2004-07-26 2010-08-18 富士ゼロックス株式会社 ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
US7110949B2 (en) * 2004-09-13 2006-09-19 At&T Knowledge Ventures, L.P. System and method for analysis and adjustment of speech-enabled systems
US7043435B2 (en) * 2004-09-16 2006-05-09 Sbc Knowledgfe Ventures, L.P. System and method for optimizing prompts for speech-enabled applications
US20060167942A1 (en) * 2004-10-27 2006-07-27 Lucas Scott G Enhanced client relationship management systems and methods with a recommendation engine
JP2006155275A (ja) * 2004-11-30 2006-06-15 Denso It Laboratory Inc 情報抽出方法及び情報抽出装置
US7493273B1 (en) * 2005-01-19 2009-02-17 Earthtrax, Inc. Method, medium, and apparatus for identifying similar auctions
JP2006215916A (ja) * 2005-02-04 2006-08-17 Denso It Laboratory Inc 映像閲覧装置及び映像閲覧方法
JP2006285460A (ja) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc 情報検索システム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
KR100657318B1 (ko) * 2005-06-29 2006-12-14 삼성전자주식회사 이미지 선택방법 및 장치
JP4504878B2 (ja) * 2005-06-30 2010-07-14 株式会社野村総合研究所 文書処理装置
WO2007011140A1 (en) * 2005-07-15 2007-01-25 Chutnoon Inc. Method of extracting topics and issues and method and apparatus for providing search results based on topics and issues
JP4314221B2 (ja) 2005-07-28 2009-08-12 株式会社東芝 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム
US20070078833A1 (en) * 2005-10-03 2007-04-05 Powerreviews, Inc. System for obtaining reviews using selections created by user base
US7730081B2 (en) * 2005-10-18 2010-06-01 Microsoft Corporation Searching based on messages
US8019752B2 (en) * 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US7620651B2 (en) * 2005-11-15 2009-11-17 Powerreviews, Inc. System for dynamic product summary based on consumer-contributed keywords
JP4719921B2 (ja) * 2005-11-15 2011-07-06 独立行政法人情報通信研究機構 データ表示装置およびデータ表示プログラム
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US20070174258A1 (en) * 2006-01-23 2007-07-26 Jones Scott A Targeted mobile device advertisements
US8266130B2 (en) * 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
US8117196B2 (en) * 2006-01-23 2012-02-14 Chacha Search, Inc. Search tool providing optional use of human search guides
US7962466B2 (en) * 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
JP4699909B2 (ja) * 2006-01-25 2011-06-15 株式会社野村総合研究所 キーワード対応関係分析装置及び分析方法
JP2007265068A (ja) * 2006-03-29 2007-10-11 National Institute Of Information & Communication Technology 文書差分検出装置及びプログラム
US7716229B1 (en) 2006-03-31 2010-05-11 Microsoft Corporation Generating misspells from query log context usage
JP2007323238A (ja) * 2006-05-31 2007-12-13 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP4948071B2 (ja) * 2006-07-28 2012-06-06 三菱スペース・ソフトウエア株式会社 コンテンツ検索装置及びコンテンツ検索プログラム
US20110066624A1 (en) * 2006-08-01 2011-03-17 Divyank Turakhia system and method of generating related words and word concepts
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
US20100031142A1 (en) * 2006-10-23 2010-02-04 Nec Corporation Content summarizing system, method, and program
US20080113801A1 (en) * 2006-11-13 2008-05-15 Roland Moreno Game based on combinations of words and implemented by computer means
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US7630978B2 (en) * 2006-12-14 2009-12-08 Yahoo! Inc. Query rewriting with spell correction suggestions using a generated set of query features
KR100906928B1 (ko) * 2007-03-26 2009-07-10 엔에이치엔비즈니스플랫폼 주식회사 비즈니스 키워드에 대한 연관 요소를 반영하는 검색어 추천 서비스 방법, 컴퓨터 판독 가능 기록 매체 및 그 시스템
JP5332128B2 (ja) * 2007-03-30 2013-11-06 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
US20080300971A1 (en) * 2007-05-30 2008-12-04 Microsoft Corporation Advertisement approval based on training data
US20080313202A1 (en) * 2007-06-12 2008-12-18 Yakov Kamen Method and apparatus for semantic keyword clusters generation
JP4323561B2 (ja) * 2007-08-08 2009-09-02 パナソニック株式会社 番組検索支援装置およびその方法
JP4771485B2 (ja) * 2007-08-20 2011-09-14 日本電信電話株式会社 文書間距離演算装置、プログラムおよび記録媒体
US8108405B2 (en) * 2007-10-05 2012-01-31 Fujitsu Limited Refining a search space in response to user input
US8694483B2 (en) * 2007-10-19 2014-04-08 Xerox Corporation Real-time query suggestion in a troubleshooting context
JP5315664B2 (ja) * 2007-10-29 2013-10-16 沖電気工業株式会社 位置表現検出装置、プログラム、及び、記憶媒体
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
JP5104329B2 (ja) * 2008-01-16 2012-12-19 大日本印刷株式会社 ドキュメント検索システム
US20090241165A1 (en) * 2008-03-19 2009-09-24 Verizon Business Network Service, Inc. Compliance policy management systems and methods
JP2009245179A (ja) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd 文書検索支援装置
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP5380989B2 (ja) * 2008-09-30 2014-01-08 カシオ計算機株式会社 辞書機能を備えた電子装置およびプログラム
US8468158B2 (en) * 2008-11-06 2013-06-18 Yahoo! Inc. Adaptive weighted crawling of user activity feeds
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
US8112393B2 (en) * 2008-12-05 2012-02-07 Yahoo! Inc. Determining related keywords based on lifestream feeds
EP2374241B1 (en) * 2008-12-22 2012-08-29 Telecom Italia S.p.A. Measurement of data loss in a communication network
KR101065091B1 (ko) * 2009-02-17 2011-09-16 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
JP5321258B2 (ja) * 2009-06-09 2013-10-23 日本電気株式会社 情報収集システムおよび情報収集方法ならびにそのプログラム
JP5261326B2 (ja) * 2009-08-28 2013-08-14 日本電信電話株式会社 情報検索装置、情報検索プログラム
CN102053977A (zh) * 2009-11-04 2011-05-11 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
JP5708496B2 (ja) * 2009-12-17 2015-04-30 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法およびプログラム
WO2011106907A1 (en) * 2010-03-04 2011-09-09 Yahoo! Inc. Intelligent feature expansion of online text ads
JP5362651B2 (ja) * 2010-06-07 2013-12-11 日本電信電話株式会社 重要語句抽出装置及び方法及びプログラム
CN102289436B (zh) * 2010-06-18 2013-12-25 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN102014199A (zh) * 2010-09-16 2011-04-13 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法及终端
KR101086566B1 (ko) 2010-09-27 2011-11-23 엔에이치엔(주) 문서 순위 점수의 동적 갱신을 위한 방법 및 장치
WO2012115031A1 (ja) * 2011-02-22 2012-08-30 三菱電機株式会社 検索システム、検索システムの検索方法、情報処理装置、検索プログラム、対応キーワード管理装置および対応キーワード管理プログラム
JP5044707B1 (ja) * 2011-03-31 2012-10-10 株式会社東芝 情報処理システム、情報処理装置およびプログラム
JP5248655B2 (ja) * 2011-05-18 2013-07-31 株式会社東芝 情報処理装置およびプログラム
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
US8572096B1 (en) * 2011-08-05 2013-10-29 Google Inc. Selecting keywords using co-visitation information
JP5639549B2 (ja) * 2011-08-22 2014-12-10 日本電信電話株式会社 情報検索装置及び方法及びプログラム
US20130110839A1 (en) * 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
JP5595426B2 (ja) * 2012-01-05 2014-09-24 日本電信電話株式会社 単語抽出方法及び装置及びプログラム
JP5597653B2 (ja) * 2012-01-05 2014-10-01 日本電信電話株式会社 単語抽出装置及び方法及びプログラム
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
CN103678365B (zh) 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
TW201411379A (zh) * 2012-09-14 2014-03-16 Hon Hai Prec Ind Co Ltd 搜索系統及方法
US9678993B2 (en) 2013-03-14 2017-06-13 Shutterstock, Inc. Context based systems and methods for presenting media file annotation recommendations
JP2014178965A (ja) * 2013-03-15 2014-09-25 Ntt Docomo Inc 意味属性推定装置、意味属性推定方法及び意味属性推定プログラム
US8996559B2 (en) 2013-03-17 2015-03-31 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
CN104281603B (zh) * 2013-07-05 2018-01-19 北大方正集团有限公司 字频分级统计方法及系统
JP6107513B2 (ja) * 2013-07-29 2017-04-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US9875246B2 (en) * 2014-10-02 2018-01-23 Liquid Presentation LLC System and method for generating and displaying a cocktail recipe presentation
JP5818391B2 (ja) * 2014-10-29 2015-11-18 シャープ株式会社 情報処理システムおよび電子機器
WO2017131753A1 (en) * 2016-01-29 2017-08-03 Entit Software Llc Text search of database with one-pass indexing including filtering
WO2020213776A1 (ko) * 2019-04-19 2020-10-22 한국과학기술원 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기
JP6764973B1 (ja) * 2019-04-25 2020-10-07 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
CN112084771B (zh) * 2020-07-22 2024-06-18 浙江工业大学 一种基于地址的单字权重统计方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520362A (ja) * 1991-07-10 1993-01-29 Tokyo Electric Power Co Inc:The 文書テキスト間の連鎖自動作成システム
US5278980A (en) 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
JP2542464B2 (ja) * 1991-09-20 1996-10-09 日本電信電話株式会社 文書検索装置
JPH05135107A (ja) * 1991-11-14 1993-06-01 Ricoh Co Ltd 文書検索装置
JP2583386B2 (ja) 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3361563B2 (ja) * 1993-04-13 2003-01-07 松下電器産業株式会社 形態素解析装置及びキーワード抽出装置
JP3220885B2 (ja) 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置
JPH08221448A (ja) * 1995-02-10 1996-08-30 Canon Inc キーワード抽出装置
JPH08272822A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書登録装置及び文書検索装置
WO1997012334A1 (en) 1995-09-25 1997-04-03 International Compu Research, Inc. Matching and ranking legal citations
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
KR100462292B1 (ko) * 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
WO2005083593A1 (en) * 2004-02-26 2005-09-09 Nhn Corporation A method for providing search results list based on importance information and system thereof

Also Published As

Publication number Publication date
CN1206158A (zh) 1999-01-27
EP0889419A3 (en) 2000-03-22
DE69833238D1 (de) 2006-04-06
DE69833238T2 (de) 2006-09-28
US6212517B1 (en) 2001-04-03
JP3607462B2 (ja) 2005-01-05
JPH1125108A (ja) 1999-01-29
EP0889419A2 (en) 1999-01-07
CN1198225C (zh) 2005-04-20
EP0889419B1 (en) 2006-01-18
KR19990013736A (ko) 1999-02-25

Similar Documents

Publication Publication Date Title
KR100304335B1 (ko) 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
EP1012750B1 (en) Information retrieval
US6480835B1 (en) Method and system for searching on integrated metadata
US6389412B1 (en) Method and system for constructing integrated metadata
JP4425641B2 (ja) 構造化ドキュメントの検索
Miao et al. Proximity-based rocchio's model for pseudo relevance
Nottelmann et al. Evaluating different methods of estimating retrieval quality for resource selection
US8566340B2 (en) Provision of query suggestions independent of query logs
US7792833B2 (en) Ranking search results using language types
US7831910B2 (en) Computer aided authoring, electronic document browsing, retrieving, and subscribing and publishing
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US20080027910A1 (en) Web object retrieval based on a language model
GB2397147A (en) Organising, linking and summarising documents using weighted keywords
JP2001084255A (ja) 文書検索装置および方法
JP3431836B2 (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
EP2017752A1 (en) Information processing apparatus, information processing method and program
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
Brook Wu et al. Finding nuggets in documents: A machine learning approach
KR20050074879A (ko) 카테고리 별 키워드의 입력 순위를 제공하기 위한 검색서비스 시스템 및 그 방법
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
US20090049035A1 (en) System and method for indexing type-annotated web documents
KR20040098889A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130701

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20140707

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20150619

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20160617

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20170619

Year of fee payment: 17

EXPY Expiration of term