KR100304335B1

KR100304335B1 - 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템

Info

Publication number: KR100304335B1
Application number: KR1019980027734A
Authority: KR
Inventors: 미츠히로 사토; 나오히코 노구치; 유지 간노; 마사코 노모토; 미츠아키 이나바; 요시오 후쿠시게
Original assignee: 모리시타 요이찌; 마쯔시다덴기산교 가부시키가이샤
Priority date: 1997-07-02
Filing date: 1998-07-02
Publication date: 2001-11-22
Also published as: CN1206158A; EP0889419A3; DE69833238D1; DE69833238T2; US6212517B1; JP3607462B2; JPH1125108A; EP0889419A2; CN1198225C; EP0889419B1; KR19990013736A

Abstract

텍스트 검색 시스템에서 탐색을 용이하게 하기 위해 키워드를 제공하는 시스템에 관한 것이다. 텍스트 베이스(text base)를 구성하는 각 텍스트에 대해, 상기 시스템은 텍스트에 사용된 각 단어의 단어 ID와 대응 단어의 단어 발생 카운트를 만든다. 단어 발생 카운트는 각 텍스트내의 단어의 발생수를 나타낸다. 텍스트 베이스를 구성하는 텍스트에 사용된 각 단어에 대해, 상기 시스템은 총 단어 발생 카운트와, 단어를 포함하는 텍스트의 수를 나타내는 포함 텍스트 카운트를 만든다. 선택된 텍스트에 포함된 각 단어에 대해, 단어 발생 카운트와 총 단어 발생 카운트와 포함 텍스트 카운트를 사용하여 중요도를 계산한다. 선택된 텍스트에 포함된 단어는 중요도순으로 소트된다. 적어도 소트된 단어들중 일부는 관련 키워드로서 디스플레이 된다.

Description

키워드 추출 시스템 및 그를 사용한 문서 검색 시스템

본 발명은 문서 검색 시스템에 관한 것으로, 특히 문서 베이스로부터 선택된 문서(또는 텍스트)의 목록을 수신하고 선택된 문서 그룹에서 중요도 순으로 분류된 키워드 목록을 제공하는 문서 검색 시스템의 서브시스템에 관한 것이다.

종래의 텍스트 검색 시스템에서는 원하는 정보를 가장 잘 포함하는 1개 이상의 텍스트를 검색하기 위해서, 이용자는 원하는 텍스트(들)를 가장 잘 특징지우는 키워드를 사용하여 적절한 질문 요청을 입력해만 한다. 그러나 그와 같은 키워드는이용자가 용이하게 상기하기 어렵다. 특히 원하는 텍스트(들)의 분야에 친숙하지 못한 사람들에게는 틀림없다. 이 목적을 위해, 이용자에 의해 입력된 키워드와 함께 일종의 사전(예를 들면, 시소러스, 동의어 사전, 기타)을 통해 조합된 관련 단어를 디스플레이 하여 이용자의 탐색을 돕는 각종 방법이 지금까지 이용되어 왔다. 그러나, 얻고자 하는 관련 단어가 미리 정적으로 준비된 사전에 의존하기 때문에 원하는 텍스트(들)의 특성에 상응하는 관련 단어를 얻기가 어렵다. 또한, 얻은 관련 단어를 사용하여 출처 요청을 하는 것은 적어도 1개의 원하는 텍스트의 성공적인 검색을 항상 가져다 주지는 못한다.

따라서, 본 발명의 목적은 문서 베이스로부터 선택된 문서(텍스트)의 목록을 수신하고 중요도 순으로 분류된 단어의 키워드 목록을 선택된 텍스트 그룹에 제공하여 효과적이며 빠른 문서 검색을 용이하게 하는, 문서 검색 시스템에 사용된 관련 키워드 발생 시스템을 제공하는데 있다.

상기한 목적은, 질문 요청을 수신하고 검색된 텍스트의 텍스트 ID의 목록을 만드는 기능을 갖는 텍스트 검색 시스템에서 이용자가 텍스트 베이스를 탐색하는 것을 돕는 방법 및 시스템에 의해 성취된다. 상기 방법은,

상기 텍스트 베이스를 구성하는 각 텍스트에 대해서, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 단계와,

상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 단계와,

상기 이용자가 상기 텍스트 베이스로부터 적어도 1개의 텍스트를 선택하는 단계와,

상기 선택된 텍스트(들)에 포함된 각 단어에 대해서, 상기 선택된 텍스트에 대한 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 단계와,

상기 선택된 텍스트에 포함된 상기 단어를 중요도 순으로 소트(sorting)하는 단계와,

소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 단계와,

상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 단계를 포함한다.

본 발명의 또 다른 목적 및 이점은 첨부된 도면에 설명된 바와 같이 본 발명의 바람직한 실시예의 다음의 설명으로 분명해진다.

도면 전체에 걸쳐서, 동일 요소가 한 도면 이상에 도시될 경우 동일 참조 번호로 나타내었다.

도 1은 본 발명이 구현될 수 있는 컴퓨터의 전형적인 구성을 도시하는 개략 블록도.

도 2는 관련 키워드 추출 시스템(100)이 본 발명에 따라 내장되는 문서 검색 시스템(2)의 소프트웨어의 전형적인 구성을 도시한 개략도.

도 3은 문서 속성표의 전형적인 기록 구조를 도시하는 도면.

도 4는 도 2의 통계 정보 프로세서에 의해 만들어지고 유지된 사전 및 표를 도시하는 도면.

도 5는 새로운 문서 텍스트가 DDB(70)에 부가되는 경우 사전(210)과 표(220, 230)를 유지하기 위해 실시되는 프로세서(200)의 제1 루틴의 동작을 도시하는 흐름도.

도 6은 문서(Ti)가 DDB(70)로부터 삭제되는 경우 표(220, 230)를 유지하기 위해 실시되는 프로세서(200)의 제2 루틴의 동작을 도시하는 흐름도.

도 7은 이용자와 대화식으로 사용하는 문서 검색 시스템(2)의 동작 흐름을 도시하는 흐름도.

도 8은 도 7의 단계(320, 330)에서 실행된 처리의 일례를 도시하는 도면.

도 9는 본 실시예의 제1 변형에 사용된 대체 전체 통계표(230)의 전형적인 구조를 도시하는 도면.

도 10은 문서(Ti)의 제1 및 제2 유형의 가중치의 계산에 사용된 단어 기억 위치표(270)를 도시하는 도면.

도 11은 본 발명의 예의 실시예에 따라 가중치(PWr(Wj))를 계산하기 위한 서브루틴(400)의 전형적인 동작을 도시하는 흐름도.

도 12는 가중치(PWr(Wj))의 계산에서 단계(408) 대신에 사용되는 단계를 도시하는 도면.

도 13은 도 7의 예의 실시예의 일부를 변경하여 얻은 바람직한 실시예를 도시하는 흐름도의 일부이며, 여기서 완성된 흐름도를 구성하기 위해 단계(314)는 도 7의 단계(302, 350)에 접속되고 단계(332)는 도 7의 단계(341)에 접속된다.

도 14는 관련 키워드 추출 시스템 및 문서 검색 시스템이 본 발명의 원리에 따라 구현될 수 있는 전형적인 방송망을 도시하는 개략도.

* 도면의 주요부분에 대한 부호의 설명*

10 : CPU 20 : 주 기억 장치

30 : 대량 기억 장치 32 : 하드 디스크

34 : 콤팩트 디스크 40 : 휴먼 인터페이스

50 : 디스플레이 60 : 입력 장치

도 1은 본 발명에 따른 문서 검색 시스템 또는 관련 키워드 추출 시스템의 하드웨어의 전형적인 구성을 도시하는 개략 블록도이다. 도 1에서, 하드웨어(1)는 중앙 처리 장치(CPU)(10)와, 주기억 장치(20)와, 본 발명에 따른 문서 검색 시스템 또는관련 키워드 추출 시스템의 소프트웨어를 기억하기 위한 1개 이상의 대량 기억 장치(30)와, 디스플레이 장치(50)와 입력 장치(60)에/로부터 인터페이스를 제공하는 휴먼 인터페이스(40)를 각각 가급적 포함하는 적절한 컴퓨터 시스템일 수 있다. 컴퓨터 시스템(1)은 구성 요소(10 내지 40)를 상호 접속하는 어드레스 및 데이터 버스(15)를 더 포함한다. 대량 기억 장치(30)는 하드 디스크(32)를 적어도 포함하고 콤팩트 디스크(예를 들면, CD-ROM) 장치(34)를 선택적으로 포함할 수 있다. 입력 장치(60)는 키보드, 마우스 등을 포함할 수 있다.

도 2는 관련 키워드 추출 시스템(100)이 본 발명에 따라 내장되는 문서 검색 시스템(2)의 전형적인 구성을 도시하는 개략도이다. 도 2에서, 문서 검색 시스템(2)은 복수의 문서 텍스트를 포함하는 문서 데이터베이스(DDB)(70)와, 검색 기능이나 프로그램(82)을 적어도 포함하는 데이터베이스 관리 시스템(DBMS)(80)과, 관련 키워드 추출 시스템(100)을 포함한다. 소프트웨어 구성 요소(70, 80, 100)는 대량 기억 시스템(30)의 하드 디스크(32)에 가급적 기억된다. 문서 데이터베이스는 다른 것에 대해 용이하게 교환 가능하도록 콤팩트 디스크에 기억될 수 있다.

문서 데이터 베이스(DDB)(70)에서는, 상기한 문서 텍스트가 각 텍스트 ID(T1, T2, ..., TM)와 조합되며, 여기서 M은 DDB(70)에 등록된 문서 번호이다. Ti(i는 1에서 M까지의 번호중 하나)인 텍스트 ID와 조합된 텍스트는 이하 "문서 Ti"라 한다. 또한, DDB(70)는 도 3에 도시된 바와 같이 텍스트(T1 내지 TM) 각각에 대해 레코드(710)를 포함하는 텍스트 속성표를 가급적 포함한다. 텍스트 속성표의 각 레코드(710)는 텍스트 ID 필드내에서 텍스트 ID에 의해 확인된 텍스트상의 각종 속성 데이터를 포함하는 필드(712)와 텍스트 ID 필드를 포함한다. 속성 데이터는 예를 들면 텍스트의 제목, 저자, 종별 등을 포함한다. 또는, 텍스트 속성표를 포함하는 DDB(70) 대신에, 각 텍스트의 속성 데이터는 텍스트를 포함하는, 필드나 헤더의 일부로서 레코드나 파일내에 각각 포함될 수 있다.

DBMS(80) 및/또는 검색 프로그램(82)은 각각 문서 데이터베이스(70)에 적절한, 임의의 데이터베이스 관리 시스템 및/또는 검색 시스템이다. 검색 프로그램(82)의 필수 기능은 다음의 3가지 탐색 기능이다. 즉, (a) 원하는 텍스트의 텍스트 ID를 지정하여 탐색(직접 탐색), (b) 1이상의 상기한 텍스트 속성값을 지정하여 탐색, (c) 키워드를 이용한 불 표현법(Boolean expression)이나, 키워드와 1개 이상의 텍스트 속성값의 조합을 지정하여 탐색하는 기능이 있다. 그러므로, DBMS(80) 및/또는 검색 프로그램(82)은 상기한 필수 기능(들)을 가지는 한 테일드한(tailed) 것이거나 상업상 이용 가능한 것이 될 수 있다.

관련 키워드 추출 시스템(100)은 3개의 부분, 즉 통계 정보 프로세서(200)와, 관련 키워드 발생기(300)와, 각종 정보(예를 들면, 검색 결과, 관련 키워드 등)를 디스플레이(50)(도시안됨)에 디스플레이하고 명령과 데이터(예를 들면, 질문 요청)를 입력 장치(60)를 통해 이용자가 입력 가능케 하는 이용자 인터페이스(400)를 포함한다.

도 4는 통계 정보 프로세서(200)에 의해 만들어지고 유지되는 사전 및 표를 도시하는 도면이다. 통계 정보 프로세서(200)는 텍스트(T1 내지 TM)중에 사용된 단어(즉, 영어의 경우의 명사, 동사, 형용사, 부사)를 포함하는 사전(210)을 DDB(70)내에서 만들고 유지한다. 사전(210)은 단일어 뿐만 아니라 복합어구를 포함할 수 있다. 사전(210)의 각 레코드는 Wj(j=1,2,...,N)로 나타낸 단어 ID의 필드와 대응 단어를 포함하며, 여기서 N은 사전(210)에 포함된 단어, 즉 복합어구의 총수이다.

DDB(70)의 각 텍스트(Ti)에 대해, 프로세서(200)도 사전(210)과 관련되는 로컬 통계표를 만든다. 텍스트(Ti)에 대한 로컬 통계표(220)의 각 레코드는 텍스트(Ti)에 적어도 한 번 나타나는 단어의 단어 ID(Wj로 표시)와 텍스트(Ti)에 단어의 발생수(Wj)를 나타내고 "WOi(Wj)"로 표시되는 단어(Wj)의 단어 발생(WO) 카운트를 포함한다.

도 5는 새로운 문서 텍스트가 DDB(70)로 부가될 때 사전(210)과 표(220, 230)를 유지하기 위해 행해지는 프로세서(200)의 제1 루틴(202)의 동작을 도시하는 흐름도이다. 새로운 텍스트(T_M+1)가 DDB(70)에 부가되는 데 응답하여, 도 1의 CPU는 단계(260)으로서 도 5에 도시된 제1 루틴(202)을 시작한다. 단계(260)에서, CPU(10)는 실제로 파일이 될 텍스트((T_M+1)(이하, "표(T_M+1)(220)"라 한다)에 대해 로컬 통계표(220)를 만든다. 다음 단계에서, 제1 루틴(202)은 상기한 바와 같이 키워드 즉, 명사, 동사, 형용사, 부사와, 복합어구로서 사용될 수 있는 단어만을 처리하기 위해 새로운 텍스트(T_M+1)의 모든 단어를 주사한다. 그러나, 간편성을 위해, 키워드로서 사용될 수 있는 단어를 의미하는 "단어(word)"를 사용한다. 그 후, 단계(262)에서, CPU(10)는 텍스트(T_M+1)내의 제1 단어를 판독하고 단계(264)에서 판정 처리한다.

단계(264)에서, 판독 단어가 사전(210)에서 발견되는지를 알아보기 위해 테스트한다. 발견되었으면, CPU(10)는 예를 들면 만들어진 표(T_M+1)(220)내의 단어(Wj)를 등록하기 위해 단계(266)로 나아간다. 특히, 단어(Wj)가 표(T_M+1)에 존재하면, CPU(10)는 표(T_M+1)내에 단어(Wj)의 단어 발생 카운트(WO_M+1(Wj))를 증가시킨다. 그렇지 않으면, CPU(10)는 표(T_M+1)(220)에 단어(Wj)에 대한 레코드를 부가하고, WO 카운트(WO_M+1(Wj))를 1로 설정한다. 테스트 결과가 단계(264)에서 NO이면, CPU(10)는 단계(268)로 나아가 사전(210)에 단어에 대한 레코드를 부가하고 단어 ID를 W_N+1로 설정한다. 그 후, CPU(10)는 표(T_M+1)(220)에 단어(W_M+1)에 대한 레코드를 부가하고, WO 카운트(WO_M+1(W_N+1))를 단계(270)에서 1로 설정한다. 단계(266 또는 270)를 종료하고, CPU(10)는 단계(272)로 나아가 텍스트(T_M+1)의 모든 단어가 처리되었는지 여부를 확인하기 위해 테스트하여 판정한다. NOT이면, CPU(10)는 단계(274)에서 텍스트(T_M+1)의 다음 단어를 판독하고 단계(264)로 복귀한다. 이 같은 방법으로, CPU(10)는 텍스트(T_M+1)가 종료될 때까지 단계(274, 264 내지 272)를 포함하는 루프를 반복한다.

단계(272)에서 YES이면, 단계(276)에서, CPU(10)는 표(T_M+1)의 내용이 표(230)에 부가되도록 표(T_M+1)에 따라 전체 통계표(230)를 갱신한다. 특히, CPU(10)는 로컬 통계표(T_M+1)에 포함된 단어 ID의 각각(즉, Wj)으로서 동일 단어 ID를 갖는 전체 통계표(230)의 레코드를 확인한다. 표(230)의 (Wj에 대해) 확인된 레코드에서, CPU(10)는 다음과 같이 총 발생 카운트 필드와 포함 텍스트 카운트 필드의 값을 갱신한다.

단계(276)를 종료함으로써, CPU(10)는 제1 루틴(202)을 종료한다.

도 6은 문서 텍스트(Ti)가 DDB(70)로부터 삭제되는 경우 표(220, 230)를 유지하기 위해 행해지는 프로세서(200)의 제2 루틴(204)의 동작을 도시하는 흐름도이다. DDB(70)로부터 텍스트(Ti)의 삭제에 응답하여, 도 1의 CPU(10)는 단계(280)로서 제2 루틴(204)을 시작한다. 단계(280)에서, CPU(10)는 표(Ti)(220)의 내용이 전체 통계표(230)로부터 감산되도록, 삭제된 텍스트(Ti)(표 Ti)에 대한 로컬 통계표에 따라 전체 통계표(230)를 갱신한다. 특히, CPU(10)는 로컬 통계표(220)에 포함된 단어 ID의 각각(즉, Wj)으로서 동일 단어 ID를 갖는 전체 통계표(230)의 레코드를 확인한다. 표(230)의 (Wj에 대한) 확인된 레코드에서, CPU(10)는 총 발생 카운트 필드와 포함 텍스트 카운트 필드의 값을 다음과 같이 갱신한다.

그 후, CPU(10)는 로컬 통계표(Ti)를 삭제한다. 단계(282)를 종료함으로서, CPU(10)는 제2 루틴(204)을 종료한다.

그러므로, 사전(210)과 로컬 및 전체 통계표(220, 230)는 통계 정보 프로세서(200)에 의해 유지된다. 전체 통계표(230)는 단어, 예를 들면 "인터넷"의 총 발생수를 DDB(70)의 전체 텍스트에 즉시 포함 가능케 하고 단어를 포함하는 텍스트의 수를 즉시 포함 가능케 한다. 또한, 예를 들면 0010의 텍스트 ID를 갖는 텍스트에 대한 로컬 통계표(220)는 단어, 예를 들면 "WWW"의 발생수를 텍스트 번호 0010에 즉시 포함 가능케 한다. 로컬 통계표(220)와 전체 통계표(230)는 관련 키워드 발생기(300)에 의해 사용된다.

도 7은 이용자와 대화식으로 동작하는 문서 검색 시스템(2)의 동작 흐름을 도시하는 흐름도이다. 문서 검색 시스템(2)이 동작하기 시작하면, CPU(10)는 단계(310)에서 질문 요청을 우선 프롬프트 한다. 단계(312)에서, 이용자는 널리 공지된 방법, 예를 들면 원하는 텍스트의 텍스트 ID를 지정하거나, 1개 이상의 전술한 텍스트 속성값을 지정하거나 키워드나 키워드와 1개 이상의 텍스트 속성값의 조합을 사용하여 불 표현법을 지정하는 방법으로 질문 요청을 입력한다. 단계(314)에서, 검색 프로그램(82)은 질문 요청에 따라 DDB(70)를 탐색하고 텍스트상의 각종 정보를 널리 공지된 방법으로 디스플레이(50) 스크린에 디스플레이 한다. 동시에, CPU(10)는 발견된 텍스트의 텍스트 ID의 선택된 텍스트 목록을 소정의 방법으로 제공한다. 단계(318)에서, CPU(10)는 발견된 텍스트(또는 탐색 리포트 목록)로부터 적어도 1개의 원하는 텍스트(또는 그가 또는 그녀가 원하는 정보를 가장 잘 포함하는 것으로 생각되는 텍스트)를 이용자가 선택하여 선택된 텍스트의 텍스트 ID를 포함하는 선택된 텍스트 목록을 얻도록 프롬프트 한다.

선택된 텍스트 목록에 응답하여, 관련 키워드 발생기(300)는 단계(320)에서, 선택된 텍스트 목록에 기입된 텍스트에 포함된 각 단어(Wj)에 대해, 도 8에 도시된 바와 같은 표(250)를 산출하기 위해 텍스트에 기입된 전체표(230)와 로컬표(220)를 사용하여, 검색된 Wj-포함 텍스트 카운트(RCT(Wj))와 중요도, 즉 I(Wj)를 계산한다. 선택된 텍스트 목록내의 텍스트 ID가 RTr(r=1,2,..., R은 검색된 텍스트의 수)로서 표현된다고 가정하면, 단어(Wj)의 중요도, 즉 I(Wj)는 다음 수학식 1로 정의된다.

여기서, C는 상수, WOr(Wj)는 검색된 텍스트(RTr)내의 단어(Wj)의 발생수, RCT(Wj)는 단어(Wj)를 포함하는 검색된 텍스트의 수(이하, "검색된 Wj-포함 텍스트 카운트), IDF(Wj)는 "역 문서 빈도"라 불리는 널리 공지된 지수이며, 다음과 같이 규정되고,

IDF(Wj)=1-log(CT(Wj)/M)

이하 "단어(Wj)의 IDF값"이라 하며, 여기서, 도 4와 관련하여 상기한 바와 같이 CT(Wj)는 단어(Wj)를 포함하는 DDB(70)의 텍스트의 수이고, M은 DDB(70)의 텍스트의 수이다.

단어(Wj)가 보다 일반적인 것을 의미하는 보다 많은 텍스트에 나타나면, Wj의 IDF값은 더 작아진다. 이러한 이유 때문에, IDF(Wj)는 상대적으로 광범위하게 텍스트에 일반적으로 사용된 단어의 중요도를 억제하는 원인이 된다. 보다 많이 검색된 텍스트에 나타나는 단어에 대한 I(Wj)가 높아진다. 즉, 검색된 텍스트의 보다 많은 특성을 지닌 단어에 보다 높은 중요도가 주어진다. 수학식 1에서 단어 발생 카운트(WOr(Wj))는 단어(Wj)를 포함하는 텍스트(RTr)의 크기의 유형, 즉 문자의 임의의 수와, 단어의 유형의 수와, 텍스트(RTr)내의 전체 단어의 총발생수로 표준화될 수 있다.

도 7로 돌아가서, 관련 키워드 발생기(300)는 단계(330)에서, 중요도의 내림차순으로 표(250)의 레코드를 소트(sort)하여 소트된 표(260)를 산출한다. 동시에, 관련 키워드 발생기(300)는 소정의 숫자, 말하자면 가장 높은 10의 중요도를 갖는 레코드의 10을 디스플레이 한다. 중요도에 부가하여, 관련 키워드 발생기(300)는 중요도의 계산에 사용된 각종 통계 정보를 디스플레이 할 수 있다. 포함된 키워드와 대응하는 중요도는 이용자의 경력으로서 저장될 수 있다. 이를 행하는 것은 이용자의 관심 범위나 취향이 키워드에 의해 규정된 벡터와 대응하는 중요도로서 표현 가능케 한다. 이들 벡터는 각종 응용 분야, 예를 들면 문서 데이터 베이스의 탐색에 사용될 수 있다.

관련 키워드 발생기(300)의 동작을 보다 잘 이해할 목적으로, 3개의 텍스트 ID, 즉, 0010, 0341, 1734로 구성된 선택된 텍스트 목록을 가정한다. 도 8은 어떻게 관련 키워드 발생기(300)가 관련 키워드를 발생하는가를 도시하는 도면이다. 도 8을 통해서, 실제 단어는 단어 ID 필드에 대한 값으로서 사용되어 이해를 용이하게 하는 것을 알 수 있고, 실제로 단어 ID 데이터를 단어 ID 필드에 대한 값으로서 사용하는 것이 바람직하다. 또한, 수학식 1에서 상수(C)를 1로, DDB(70)의 텍스트 수(M)를 10,000으로 가정한다.

그리고 나서, 검색된 텍스트(0010, 0341, 1734)에 포함된 각 단어(Wj)에 대해, 상기 발생기(300)는 텍스트(0010, 0341, 1734)에 대한 로컬 통계표(220)와 전체 통계표(230)를 사용하여, 상기한 검색된 Wj-포함 텍스트 카운트(RCT(Wj))와 중요도(I(Wj))를 계산한다. 단어 "applet"을 예를 들면, 발생기(300)는 단어 "applet"에 대한 로컬 통계표(0010, 0341, 1734)를 탐색하여 "applet"을 포함하는 2개의 로컬 표가 존재하는, 즉 RCT(applet)=2인 것을 발견한다. 수학식 2로부터 "applet"의 IDF 값이 다음과 같이 계산되기 때문에,

IDF(applet)=1-log(CT(applet)/10,000)

=1-log(86/10,000)

=5.756

"applet"에 대한 중요도는 수학식 1로부터 다음과 같이 계산된다.

I(applet)=(2*5.756+6*5.756)*2

=92.096.

다른 단어(Wj) 각각에 대해서, RCT(Wj)와 I(Wj)는 동일한 방법으로 계산되어 도 8의 표(250)를 산출한다. 중요도의 내림차순으로 표(250)를 소팅한 결과가 표(260)이다.

이제 도 7로 뒤돌아 가서, CPU(10)는 단계(340)에서 이용자가 질문 요청을 더 입력하거나 탐색을 종료하도록 프롬프트 한다. 이용자가 계속 탐색하기를 원하면, 이용자 인터페이스(400)은 이용자가 소정의 아이콘을 클릭하여 자동 탐색을 실행하거나 1개 이상의 디스플레이된 관련 키워드를 선택하여 질문 요청을 하는 것을 가능케 한다. 이용자가 단계(340)에서 자동 탐색을 선택하면, 단계(350)에서, 이용자 인터페이스(400)는 가장 높은 중요도를 갖는 관련 키워드의 소정의 숫자, 예를 들면 3을 사용하여 질문 요청을 발생한다. 이용자가 단계(340)에서 1개 이상의 디스플레이된 관련 키워드를 선택하면, 이용자 인터페이스(400)는 응답으로 질문 요청을 발생한다. 단계(350) 후에, CPU(10)는 단계(314)로 복귀한다.

단계(352)는 생략됨에 유의한다. 즉, CPU(10)는 처리를 종료하기 전에 자동으로 키워드를 저장한다. 또한, 단계(354)는 도 7에 도시된 위치에 위치되는 대신에 단계(330, 340) 사이나 단계(340, 350) 사이 중 어느 한쪽에 삽입될 수 있다.

이용자가 탐색을 종료하기를 결정하면, 이용자 인터페이스(400)는 단계(352)에서 이용자에게 관련 키워드를 저장하기를 원하는지 여부를 질문한다. 그렇다고 하면, 이용자 인터페이스(400)는 단계(354)에서 더 사용하기 위해 표(260)를 저장하고, 그 동작을 종료한다. 그렇지 않으면, 이용자 인터페이스(400)는 간단히 그 동작을 종료한다.

그러므로, 문서 검색 시스템(2)과 관련 키워드 추출 시스템(100)은 적어도 1개 문서의 검색을 보증하는 동안 고정밀도로 문서 검색을 가능케 한다. 지금까지는 본 발명의 기본 실시예에 대해 논의하였다. 이제 다음에서 상기한 실시예의 몇몇 변형들에 대해 논의한다. 다음의 변형들이 상기한 실시예와 기본적으로 유사하기 때문에, 다음의 설명은 그들간의 차이점에만 초점을 맞춘다.

변형 1

도 9는 본 발명의 제1 변형에 사용된 대체 전체 통계표(230a)의 전형적인 구조를 도시하는 도면이다. 도 9에서, 표(230a)는 DDB(70)의 전체 텍스트에 따른 Wj-포함 텍스트의 속도를 포함하는 2개의 추가 필드, 즉 CT(Wj)/M과, 단어(Wj)가 관련 키워드로부터, 즉 중요도의 계산으로부터 제외되어야 하는지 여부를 나타내는 제외 플래그가 표(230a)에 제공되는 것을 제외하고는 도 4의 표(230)와 동일하다. 단어(Wj)의 제외 플래그가 예를 들면 1이면, 도 7의 단계(320)로부터의 처리는 단어(Wj)에 대해 생략된다. 이렇게 하는 것은 활성화된 제외 플래그를 갖는 단어가 중요도의 계산에서 역효과를 갖지 않게 할 수 있어 처리 속도를 높인다.

제외 플래그를 1로 설정하는 기준을 판정하는 방법은 많다. 한 방법은 CT(Wj)/M이 0.5보다 크거나 같은 경우에 제외 플래그를 1로 설정하는 것으로, 이는 단어(Wj)가 단지 1개 텍스트를 나타내는 것을 의미한다.

또한, 1개의 임계값 이상이 단어의 수량 특성, 예를 들면 단어의 길이에 따라 설정될 수 있다. 특히 제외 플래그는 네 글자이상의 단어에 대해 CT(Wj)/M ≥ 0.5이거나 네 글자 아래의 단어에 대해 CT(Wj)/M ≥ 0.3이면, 1로 설정될 수 있다.

상기 변형에 따르면, 단지 크게 유용한 키워드가 얻어진다. 또한, 시스템 동작 속도가 빨라진다.

변형 2

제2 변형에서, 중요도, 즉 I(Wj)에는 단계(318)에서 선택된 각 텍스트(RTr)와 결합된 가중치(Wr)가 부여된다. 특히, I(Wj)의 계산은 다음의 수학식 3에 따라 이루어진다.

이를 성취하기 위해서, 관련 키워드 발생기(300)는 선택된 텍스트 목록(RT1,RT2,...,RTR)과 가중치(W1,W2,...,WR)를 수신해야만 한다. 이 목적을 위해, 검색 프로그램(82)은 탐색 결과를 들급 분류된(ranked) 형태로 제공하는 기능을 가져야만 한다. 검색된 텍스트 ID가 적합도의 순으로 제공되면, 제1 등급 분류된 텍스트의 가중치(W1)는 10으로 설정되고, 제2 등급 분류된 텍스트의 가중치(W2)는 9로 설정되며, 기타 이와 같다.

대안으로, 복수의 텍스트 ID를 사용하여 직접 탐색하는 경우, 이용자 인터페이스(400)는 텍스트 ID 뿐만 아니라 텍스트(RTr) 각각의 추정의 표시값(예를 들면 5이내에서 가변적임)을 이용자가 입력하게 한다. 이 경우, 가능한 5 레벨이 텍스트에 대한 가중치에 대해 사용될 수 있거나, 5개의 소정의 가중값과 결합될 수 있다.

가중값은 마이너스 값임에 유의한다. 예를 들면, 직접 탐색의 경우, 이용자가 높이 관련된 텍스트에 대해 가중치를 2로 설정하고 관련 없는 텍스트에 대해 가중치를 -1로 설정하는 것을 가능케 한다. 이는 관련 텍스트와 비관련 텍스트와 일반적이지 않는 것 양쪽에 포함되는 단어에 대해 중요도를 감소시킬 수 있다.

변형 3

제3 변형은 2개의 탐색이 제1 변형 보다 더 엄격히 설정된 제2 질문 조건으로 실행된 경우, 즉 제1 선택된 텍스트 목록(또는 텍스트 세트(A))이 제2 선택된 텍스트 목록(또는 텍스트 세트(B))보다 더 많은 텍스트 ID를 포함하는 경우에 유효하다. 그러므로, 텍스트 세트(B) ⊂ 텍스트 세트(A) ⊂ DDB(70)인 관계가 있다. 이 상황에서, 다음 수학식 4로 규정된, 단어(Wj)의 분포 지수를 도입한다.

여기서, MA, MB는 각각 텍스트 세트(A,B)의 수이고, CTA(Wj)와 CTB(Wj)는 텍스트 세트(A,B)에 각각 단어(Wj)를 포함하는 텍스트의 수이다.

제3 변형에서의 중요도, 즉 I2(Wj)는 다음과 같이 규정된다.

I2(Wj)=ID(A,B,Wj)*I(Wj)

단어(Wj)가 세트(A)에 넓게 분포되고 세트(B)에 좁게 분포되면, 지수(DI(A,B,Wj))는 보다 커진다. 분포 지수의 값이 크게 증가하는 이와 같은 단어는 세트(B)의 선택도의 한 원인이 된다. 이 점에서, 이와 같은 단어를 세트(B)의 특성을 더 갖는 키워드라고 말할 수 있다.

이제 도 8로 가서, 선택된 텍스트 목록(219)이 텍스트 세트(B)이고, 텍스트 세트(A)는 100 텍스트로 구성된 세트(B)를 포함하고, 다음의 단어들은 텍스트 세트(A)의 텍스트 대응하는 수에 나타난다고 가정한다.

CTA(applet) =10

CTA(internet) =28

CTA(CGI) =9

CTA(WWW) =14

CTA(JAVA) =20

CTA(SUN) =5

CTA(script) =10

수학식 5에 따르면, 제3 변형의 중요도는 다음과 같다.

S2(applet) =92.096*{(100/10)*(3/3)}

=613.973

S2(internet)=57.258*{(100/28)*(3/3)}

=204.493. 이와 같은 방법으로, 다음을 얻는다.

S2(CGI) =85.274

S2(WWW) =45.107

S2(JAVA) =923.220

S2(SUN) =266.200

S2(script) =58.500

내림차순 상기한 중요도를 소팅하여 다음을 산출한다.

S2(JAVA) =923.220

S2(applet) =613.973

S2(SUN) =266.200

S2(internet)=204.493

S2(CGI) =85.274

S2(script) =58.500

S2(WWW) =45.107

본 예에서, 가장 중요한 3개 단어가 관련 키워드로서 추출될 예정이면, 단어 "JAVA", "applet", "SUN"이 추출될 것이다.

분포 지수가 수학식 4에 의해 제공되었을지라도, 단어(Wj)가 세트(B)의 더 많은 텍스트에 분포되고 세트(A)의 더 적은 텍스트에 분포되면 분포 지수는 더 큰 값을 갖도록 적절한 표현법에 의해 주어질 것임에 유의한다.

변형 4-- 중요도의 가중치 부여

본 변형에서는, 중요도(I(Wj)(또는 I2(Wj)))는 각종 유형의 가중치(αW(Wj))로 가중치 부여되며, 여기서 α는 가중치의 유형을 나타내는 파라미터이다.

단어(Wj)에 대한 제1 및 제2 유형의 가중치는 선택된 텍스트 목록(219)에 기입된 텍스트(RTr)의 각각의 Wj 발생 위치에 의존한다. 이러한 이유 때문에, 제1 및 제2 유형의 가중치는 각 텍스트(RTr)에 대해 계산되고 αWr(Wj)로 표시된다. 따라서, 중요도는 가중치(αWr(Wj))를 사용하여 다음과 같이 계산된다.

도 10은 텍스트(Ti)에 대해 제1 및 제2 유형의 가중치의 계산에 사용된 단어 위치표(270)의 구조를 도시하는 도면이다. 표(270)는 상기한 로컬 통계표(220)로서 만들어지고 갱신된다. 단어 위치표(270)의 각 레코드는 단어의 각 발생에 대해 현재 단어(바람직하게는 단어 ID)를 포함하는 현재 단어 필드와, 텍스트의 시작으로부터 단어(또는 단어 카운트)의 수로 측정되는 현재 단어의 위치를 포함하는 현재 위치 필드와, 현재 단어가 위치되는 텍스트(Ti)의 본문과 제목, 부제의 일부를 나타내는 값을 포함하는 현재 부분 필드를 포함한다. 단어 위치표(270)는 현재 위치 필드값의 내림차순으로 바람직하게 소트되었다.

제1 유형의 가중치는 단어(Wj)가 존재하는 텍스트(RTr)의 일부와 결합된 가중치 인자를 사용하여 계산된다. 텍스트의 일부는 현재 부분 필드에 저장된다. 이러한 유형의 가중치는 PWr(Wj)로 표시된다(가중치가 검색된 텍스트에 대해 실제로 계산되기 때문에, PW 다음의 접미사는 검색된 텍스트에 주어지는 r로 변경되었다). DDB(70)의 각 텍스트가 제목, 부제, 본문을 포함하면, 단어(Wj)의 중요도를 계산하는데 사용된, 텍스트(RTr)에 대한 F1, F2, F3의 가중치 인자는 각각 다음과 같이 설정된다.

예를 들면, 제목에 단어(Wj)가 나타나면 3,

부제에 단어(Wj)가 나타나면 2,

본문에 단어(Wj)가 나타나면 1.

도 11은 본 발명의 예의 실시예에 따라 가중치(PWr(Wj))를 계산하기 위해 서브루틴(400)의 전형적인 동작을 도시하는 흐름도이다. 서브루틴(400)은 도 7의 단계(320)에서 r의 각 값에 대해 호출된다. 서브루틴(400)의 호출에 응답하여, CPU(10)는 단계(402)에서 PWr(Wj)의 값을 0으로 설정한다. 단계(404)에서, CPU(10)는 Wj에 대해 처음부터 단어 위치표(RTr)(270)의 현재 부분 필드를 탐색하기 시작한다. 단계(406)에서 단어(Wj)가 레코드에 발견되면, CPU(10)는 PWr(Wj)의 값에, 단계(408)에서 레코드의 현재 부분 필드의 값과 결합된 가중치 인자(Fw(본예에서, w는 1,2, 또는 3))를 부가한다. 그후, CPU(10)는 복귀하기 위해 동작을 종료한다. 이 점에서, PWr(Wj)의 값이 텍스트(RTr)에 대해 판정되었다.

Wj 발생 위치와 전술한(또는 예비의) 문서 탐색에서 질문 요청의 키워드로서 사용된 단어의 발생 위치와의 (단어 카운트의) 간격과 결합된 가중치 인자에 이해 제2 유형의 가중치가 계산된다. 단어 발생 위치는 현재 위치 필드에 저장된다. 이러한 유형의 가중치는 LWr(Wj)로서 표시된다. 이 경우 텍스트(RTr)에 대해, 단어(Wj)의 중요도를 계산하는데 사용된 가중치 인자(F1, F2, F3)는 다음과 같이 설정된다.

예를 들면, 간격이 2 단어 이내이면, 3

간격이 3 단어 내지 10 단어의 범위이면, 2

간격이 10 단어보다 더 크면, 1.

본 가중치 구성에서, r의 각 값에 대한 가중치(LWr(Wj))는 단계(408)를 제외하고는 도 11의 흐름도에 따라 기본적으로 계산된다.

특히, K 키워드가 전술한 탐색에 대해 사용되었다면, CPU(10)는 K 키워드의 각각에 대한 간격을 계산하고, 계산된 간격에 대응하는 K 가중치 인자의 합을 도 12의 단계(418)에 도시된 바와 같이 LWr(Wj)의 값에 부가한다.

제3 유형의 가중치는 AW(Wj)가 사용된다. 단어(Wj)에 대한 가중치(AW(Wj))는 단어(Wj)의 속성에 의해 판정된다. 예를 들면, 가중치(AW(Wj))는 다음과 같이 설정된다.

단어(Wj)가 고유 명사이면, 5

단어(Wj)가 일반 명사이면, 4

단어(Wj)가 형용사이면, 2

단어(Wj)가 동사이거나 부사이면, 1

그외에는 0.

가중치(AW(Wj))가 문서 텍스트와는 독립적이기 때문에, 중요도는 I(Wj)에 AW(Wj)를 단순히 곱하여 이 가중치로 가중치 부여된다.

도 13을 참조하여, 몇몇 다른 변형들을 설명한다.

변형 5--탐색 결과 등급 분류

도 13의 단계(314a)에서, CPU(10)는 (이 단계에서는 검색 프로그램(82)의 제어하에서) 탐색 결과를 디스플레이(50) 스크린에 디스플레이하지 않고 선택된 텍스트 목록(219)을 소정의 방법으로 간단히 출력한다. 단계(316)에서, CPU(10)는 적합도 순으로 선택된 텍스트 목록(219)을 소트한다. 특히, CPU(10)는 상기 목록(219)에 포함된 텍스트(RTr)의 각각에 대해 (DCr로 표시된) 적합도를 계산한다. 적합도(DCr)는 다음과 같이 주어진다.

여기서, W1,W2,...,WM은 단계(312)의 질문 요청에 포함된 단어이다.

단계(317)에서, CPU(10)는 소트된 목록을 디스플레이(50) 스크린에 디스플레이 한다. 단계(318)에서, CPU(10)는 디스플레이된 소트된 목록으로부터 이용자가 원하는 텍스트를 선택하고 선택된 텍스트의 텍스트 ID를 포함하는 텍스트 목록을 얻도록 프롬프트 한다.

도 7과 관련하여 전술한 바와 같이, 이용자는 더 탐색하기 위해 DDB(70)에 매우 적합한 키워드를 재사용 할 수 있다. 그와 같은 키워드는 DDB(70)에 포함되어 있기 때문에, 본 실시예에 의한 탐색 결과 적어도 1개 텍스트의 검색을 이룰 수 잇다.

변형 6

도 13으로 복귀하여, CPU(10)는 단계(322)에서 포함 관계에 있는 소트된 키워드 표(260)의 키워드를 필터링(filter)한다. 특히, 표(260)의 추출된 단어들 사이나, 표(260)의 추출된 단어들와 소정 그룹의 단어들 사이 중 어느 하나에 포함 관계가 존재하는지 여부를 판정한다. 어떤 관계가 존재하면, 전자의 경우의 포함 관계에 포함되는 추출된 단어들과 후자의 경우의 포함 관계에 포함되는 추출된 단어 중 하나는 디스플레이되지 않는다. 상기 소정 그룹의 단어들은 예를 들면, 전술한 탐색에서 키워드로서 질문 요청에 사용된 단어들이다.

다음의 경우 중 하나이면, 단어(A)는 단어(B)에 포함되는 것이 판정된다.

(a) 단어(A, B)가 앞부분이 서로 일치하고 단어(A)가 단어(B)보다 더 짧은 경우,

(b) 단어(A, B)가 뒷부분이 서로 일치하고 단어(A)가 단어(B)보다 더 짧은 경우,

(c) 단어(A)가 단어(B)의 일부이고 단어(A, B)의 앞부분과 뒷부분이 모두 일치하지 않은 경우,

(d) 단어(또는 구)(A, B)가 상기한 조건 (a) 내지 (c)중 어느 하나를 만족하고 단어(A)가 구(B)의 성분인 경우.

예를 들면, "東京"이 기준(a)에 따라 "東京都"의 구성 단어가 되는 것이 판정된다. 유사하게, 기준(b)은 "發賣"를 "新發賣"의 구성 단어로 만들며, 기준(c)은 "感謝"를 "大感謝祭"의 구성 단어로 만든다. 기준(4)은 구성 단어의 판정을 영어로 하는데 필요하다. 기준(d)에 따르면, 단어 "artificial"과 "intelligence"는 단어"artificial intelligence"의 구성 단어로 판정되지만, 단어 "art"와 "tell"은 구성 단어가 아니다.

임의의 2개 단어나 구가 상기한 기준에 따라 포함 관계로 판정되면, 다음의 조치가 이루어진다.

(a) 더 긴 단어(또는 구)가 키워드용으로 선택된다.

(b) 더 짧은 단어(또는 구)가 키워드용으로 선택된다.

(c) 더 중요한 단어(또는 구)가 키워드용으로 선택된다.

(d) (단어 카운트내의) 더 짧은 구와, (단어 카운트내의) 더 긴 구와 더 짧은 구 사이의 차이가 키워드(또는 키이 구(key phrase))용으로 사용된다.

"artificial"과 "artificial intelligence" 사이의 포함 관계가 발견되면, "artificial"과 "intelligence"는 기준(d)에 따라 키워드용으로 사용된다. 추출된 단어간에 포함 관계가가 있는 경우, 전술한 조치가 이루어질 수 있다. 그러나, 조치(3) 만이 소정의 단어 그룹의 단어들중 하나를 포함하는 포함 관계에 대해 가능하다.

본 변형에 따르면, 의미나 사용상 유사한 단어들이 키워드 그룹으로부터 제외되어 관련 키워드의 과잉을 줄이도록 한다.

변형 7

추출된 키워드는 속성 또는 통계 정보에 의해 분류된다. 음성 부분은 속성으로서 사용될 수 있다. 예를 들면, 고유 명사와 또 다른 단어는 개별적으로 디스플레이 된다. 또는, 추출된 키워드는 시소러스 분류법에 따라 디스플레이 하기 위해 분류될 수 있다.

통계 정보에 의한 분류로서, 추출된 키워드는 각 추출된 단어의 발생수에 의해 분류된다. 예를 들면, 단어가 전체 텍스트 베이스의 80%로 나타나는지의 여부를 판정하여 추출된 키워드가 분류되면, 이용자가 보내기 이전에 상기 단어를 사용하여 더 탐색하도록 하는 소정의 효과를 허용한다.

또한, 시소러스에 의한 분류의 경우, 현재 상태의 단어 그룹을 디스플레이 하는 대신에, 시소러스로 더 높은 노드에 위치되는 단어가 대표 단어로서 디스플레이 될 수 있다. 유사하게, 추출된 키워드가 통계 정보에 의해 분류되는 경우, 각 단어 그룹에 가장 넓게 분포된 단어가 상기 그룹 대신하여 대표 단어로서 디스플레이 된다.

또 다른 변형도 가능하다. 예를 들면, 문서 검색 시스템은 상기한 실시예로 1개의 컴퓨터를 사용하여 구현되었다. 그러나, 문서 검색 시스템은 도 14에 도시된 바와 같은 방송망 시스템상에서 구현될 수 있다. 그와 같은 시스템에서, 이용자 인터페이스(90)는 클라이언트 컴퓨터나 단말기(70) 각각에 저장되고, 문서 검색 시스템의 나머지는 서버(1a)에 저장된다.

본 발명의 정신과 범위를 벗어나지 않고 본 발명의 상이하고 다양한 실시예가 구성될 수 있다. 본 발명은 첨부된 청구범위에 규정된 것을 제외하고는 명세서에 기술된 특정 실시예에 한정하지 않음에 유의해야 한다.

문서 검색 시스템에 사용된 본 발명에 따른 관련 키워드 발생 시스템은 문서 베이스로부터 선택된 문서(텍스트)의 목록을 수신하고 중요도 순으로 분류된 단어의 키워드 목록을 선택된 텍스트 그룹에 제공하여 효과적이며 빠른 문서 검색을 용이하게 한다.

Claims

질문 요청을 수신하고 검색된 텍스트의 텍스트 ID의 목록을 만드는 기능을 갖는 텍스트 검색 시스템에서 이용자가 텍스트 베이스를 탐색하는 것을 돕는 방법으로서,

상기 텍스트 베이스를 구성하는 각 텍스트에 대해서, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 단계와,

상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 단계와,

선택된 텍스트의 텍스트 ID의 선택된 텍스트 목록을 제공하기 위해 상기 이용자가 상기 텍스트 베이스로부터 적어도 1개의 텍스트를 선택하는 단계와,

상기 선택된 텍스트(들)에 포함된 각 단어에 대해서, 상기 선택된 텍스트에 대한 상기 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 단계와,

상기 선택된 텍스트에 포함된 상기 단어를 상기 중요도 순으로 소트(sorting)하는 단계와,

소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 단계와,

상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 로컬 통계 정보를 관리하는 단계는, 상기 로컬 통계 정보내에, 상기 텍스트 각각에 사용된 각 단어의 단어 ID와 상기 단어 ID와 결합된 단어 발생 카운트를 포함하는 단계를 포함하고, 상기 단어 발생 카운트는 상기 텍스트 각각에서, 상기 텍스트 각각에 사용된 상기 단어 각각의 발생수를 가리키며,

상기 전체 통계 정보를 관리하는 단계는, 상기 전체 통계 정보내에, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 상기 단어 각각의 단어 ID와, 총 단어 발생 카운트와, 임의의 상기 텍스트에 사용된 상기 단어 각각의 상기 단어 ID와 결합되는 포함 텍스트 카운트를 포함하는 단계를 포함하고, 상기 총 단어 발생 카운트는 상기 텍스트 베이스를 구성하는 상기 텍스트 전체의 총 발생수를 가리키며, 상기 포함 텍스트 카운트는 임의의 상기 텍스트에 사용된 상기 단어 각각을 포함하는 텍스트의 수를 가리키며,

상기 방법은, 상기 선택된 텍스트에 대해 주어진 상기 단어 발생 카운트와, 상기 선택된 텍스트의 수와, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 규정된 수량과의 합에 상기 중요도가 비례하도록, 상기 중요도를 규정하는 단계를 더 포함하며, 상기 단어 각각이 상기 텍스트 베이스를 구성하는 상기 텍스트에 보다 많이 나타나면 상기 수량이 더 작아지도록 한 방법.
제 2 항에 있어서, 상기 중요도를 규정하는 상기 단계는 다음과 같이 상기 중요도, 즉 I(Wj)를 표시하는 단계를 포함하는 방법으로서,

이고, 여기서, Wj는 상기 검색된 텍스트에 포함된 상기 단어 각각의 단어 ID이고, C는 상수이고, WOr(Wj)는 상기 검색된 텍스트(RTr) 각각내의 상기 단어(Wj) 각각의 상기 단어 발생 카운트이고, RCT(Wj)는 상기 단어(Wj) 각각을 포함하는 상기 검색된 텍스트의 수이고, IDF(Wj)는 RTr이 상기 검색된 텍스트 각각의 텍스트 ID이고 r=1,2,...,R(R=검색된 텍스트의 수)인 경우의 상기 수량인 방법.
제 1 항에 있어서, 상기 이용자가 적어도 1개의 텍스트를 선택하는 상기 단계는,

상기 이용자가 그의 또는 그녀가 깊이 생각한 검색 조건을 사용하여 질문 요청을 발행하여 검색된 텍스트의 목록을 얻는 단계와,

상기 이용자가 상기 검색된 텍스트로부터 상기 적어도 1개의 텍스트를 선택하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 이용자가 상기 목록의 부분 집합인 더 작은 목록을 얻기 위해 질문 요청을 더 발행하는 단계와,

상기 목록에 기입된 상기 검색된 텍스트에 사용된 단어상의 통계 정보와, 상기 더 작은 목록에 기입된 텍스트에 포함된 단어상의 통계 정보를 사용하여 상기 검색된 텍스트에 포함된 상기 단어 각각에 대해, 분포 지수를 계산하는 단계와,

상기 중요도를 상기 분포 지수로 가중치 부여하는 단계를 더 포함하며, 상기 분포 지수는, 상기 선택된 텍스트에 포함된 상기 단어 각각이 상기 더 작은 목록에 기입된 텍스트에 더 많이 분포되고 상기 선택된 텍스트에 더 적게 분포되면, 더 커지도록 규정되는 방법.
제 5 항에 있어서, 상기 분포 지수는 {(MA/CTA(Wj)*(CTB(Wj)/MB)}로 VYTLELH고, 여기서 MA, MB는 상기 목록과 상기 더 작은 목록에 각각 기입된 텍스트의 수이고, CTA(Wj), CTA(Wj)는 상기 목록과 상기 더 작은 목록에 각각 기입되며 상기 선택된 텍스트에 포함된 상기 단어(Wj) 각각을 포함하는 텍스트의 수인 방법.
제 2 항에 있어서, 상기 목록은 상기 선택된 텍스트의 적합도의 순으로 소트되고, 상기 방법은 상기 소트된 목록을 수신하고 상기 소트된 목록의 상기 선택된 목록의 각각에 소정의 가중치를 할당하고, 상기 중요도를 표시하는 단계는 상기 단어 발생 카운트(WOr(Wj))에 상기 소정의 가중치를 가중치 부여하는 단계를 포함하는 방법.
제 2 항에 있어서, 상기 선택된 텍스트의 각각에 가중치를 할당하는 단계를 더 포함하며, 상기 중요도를 계산하는 상기 단계는 상기 선택된 텍스트 각각에 대해 상기 단어 발생 카운트에, 상기 선택된 텍스트 각각에 대해 할당된 상기 가중치로 가중치 부여하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해, 단어를 포함하는 텍스트의 수가 소정의 범위 이내인지 여부를 알아보기 위해 테스트를 하는 단계와,

상기 단어가 상기 테스트를 통과하지 않으면, 상기 선택된 키워드의 후보자에서 상기 단어를 제외하는 단계를 더 포함하는 방법.
제 9 항에 있어서, 상기 단어의 수량 특성과 결합된 값을 상기 소정의 범위로서 사용하는 단계를 더 포함하는 방법.
제 10 항에 있어서, 상기 수량은 상기 단어의 길이인 방법.
제 9 항에 있어서, 상기 단어의 수량 특성의 제2 소정 범위 각각을 상기 단어를 포함하는 상기 텍스트의 수의 상이한 소정 범위와 결합하는 단계를 더 포함하며, 상기 테스트하는 단계는 상기 단어 호출의 상기 수량 특성상의 제2 소정 범위와 결합된 상기 상이한 소정 범위 중 하나를 상기 소정 범위로서 사용하는 단계를 포함하는 방법.
제 2 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 텍스트 베이스를 구성하는 상기 텍스트 각각의 상기 워드 각각의 발생 각각과, 상기 각각의 텍스트의 일부와, 상기 발생 각각의 일부를 관리하는 단계와,

상기 텍스트 각각의 가능한 일부 각각에 소정의 가중치 인자를 할당하는 단계와,

상기 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하기 위해 상기 단어 각각의 상기 발생 각각의 상기 일부와 결합된 상기 소정의 가중치 인자를 축적하는 단계를 더 포함하고, 상기 중요도를 규정하는 상기 단계는 상기 단어 각각에 텍스트 단위로 상기 가중치를 부여하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 텍스트를 구성하는 상기 텍스트 각각의 상기 단어 각각의 발생 각각과, 상기 발생 각각의 상기 텍스트 각각내의 위치를 관리하는 단계와,

상기 텍스트 각각의 상기 단어 각각의 상기 발생 각각에 대해, 상기 위치와 상기 질문 요청에 사용된 키워드 각각의 위치와의 간격을 계산하는 단계와,

소정의 간격 범위 각각에 소정의 가중치 인자를 할당하는 단계와,

상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하도록, 상기 단어 각각의 상기 발생 각각에 상기 키워드 각각의 상기 간격과 결합된 상기 소정의 가중치 인자를 축적하는 단계를 더 포함하고, 상기 중요도를 규정하는 상기 단계는 상기 단어 발생 카운트의 각각에 텍스트 단위로 상기 가중치를 부여하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 중요도에, 상기 선택된 텍스트의 상기 단어 각각의 속성과 결합된 가중치를 부여하는 단계를 더 포함하는 방법.
제 1 항에 있어서, 임의의 2개의 상기 소트된 단어내에나, 임의의 상기 소트된 단어와 상기 질문 요청에 사용된 임의의 키워드 사이 중에 어떤 포함 관계가 발견되면, 소정의 기준에 기초하여 상기 2개의 소트된 단어 중 하나를 선택하는 단계를 더 포함하는 방법.
제 16 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 길이를 비교하기 위해 상기 소정의 기준을 설정하는 단계를 더 포함하는 방법.
제 16 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 중요도를 비교하기 위해 상기 소정의 기준을 설정하는 단계를 더 포함하는 방법.
제 16 항에 있어서, 상기 2개의 단어 중 하나를 선택하는 단계는 상기 2개의 단어 사이의 더 짧은 단어 및/또는 차이를 선택하는 단계를 포함하는 방법.
제 3 항에 있어서, 상기 질문 요청에 사용된 키워드와 상기 기능으로부터의 상기 목록에 기초하여, 상기 선택된 텍스트의 적합도 순으로 상기 목록을 소트하는 단계와,

상기 소트된 목록의 상기 선택된 텍스트의 각각에 소저의 가중치를 할당하는 단계를 더 포함하고, 상기 중요도를 표시하는 상기 단계는 상기 단어 발생 카운트(WOr(Wj))에 상기 선택된 텍스트(RTr) 각각과 결합된 상기 소정의 가중치 중 하나를 가중치 부여하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 속성 단위로 유사한 키워드의 그룹으로 분류하는 단계를 더 포함하는 방법.
제 1 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 통계 데이터 단위로 유사한 키워드의 그룹으로 분류하는 단계를 더 포함하는 방법.
제 1 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 시소러스 단위로 유사한 키워드의 그룹으로 분류하는 단계를 더 포함하는 방법.
제 21 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 단계를 더 포함하는 방법.
제 22 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 단계를 더 포함하는 방법.
제 23 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 단계를 더 포함하는 방법.
제 1 항에 있어서, 상기 이용자를 돕는 상기 단계는, 상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 단어의 상기 소정의 수의 적어도 일부를 사용하여 상기 질문 요청을 자동적으로 발생하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 관련 단어의 상기 소정의 수를 저장하는 단계와,

상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 키워드의 상기 저장된 소정의 수를 디스플레이 하는 단계를 더 포함하는 방법.
질문 요청을 수신하고 검색된 텍스트의 텍스트 ID의 목록을 만드는 기능을 갖는 텍스트 검색 시스템에서 이용자가 텍스트 베이스를 탐색하는 것을 돕는 시스템으로서,

상기 텍스트 베이스를 구성하는 각 텍스트에 대해서 실시되며, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 수단과,

상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 수단과,

선택된 텍스트의 텍스트 ID의 선택된 텍스트 목록을 제공하기 위해 상기 이용자가 상기 텍스트 베이스로부터 적어도 1개의 텍스트를 선택하는 것을 가능케 하는 수단과,

상기 선택된 텍스트 목록에 기입된 상기 선택된 텍스트에 포함된 각 단어에 대해 실시되며, 상기 선택된 텍스트에 대한 상기 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 수단과,

상기 선택된 텍스트에 포함된 상기 단어를 상기 중요도 순으로 소트하는 수단과,

가장 높은 중요도를 갖는 소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 수단과,

상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 수단을 포함하는 시스템.
제 29 항에 있어서, 상기 로컬 통계 정보를 관리하는 수단은, 상기 로컬 통계 정보내에, 상기 텍스트 각각에 사용된 각 단어의 단어 ID와 상기 단어 ID와 결합된 단어 발생 카운트를 포함하는 수단을 포함하고, 상기 단어 발생 카운트는 상기 텍스트 각각에서, 상기 텍스트 각각에 사용된 상기 단어 각각의 발생수를 가리키며,

상기 전체 통계 정보를 관리하는 수단은, 상기 전체 통계 정보내에, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 상기 단어 각각의 단어 ID와, 총 단어 발생 카운트와, 임의의 상기 텍스트에 사용된 상기 단어 각각의 상기 단어 ID와 결합되는 포함 텍스트 카운트를 포함하는 수단을 포함하고, 상기 총 단어 발생 카운트는 상기 텍스트 베이스를 구성하는 상기 텍스트 전체의 총 발생수를 가리키며, 상기 포함 텍스트 카운트는 임의의 상기 텍스트에 사용된 상기 단어 각각을 포함하는 텍스트의 수를 가리키며,

상기 시스템은, 상기 선택된 텍스트에 대해 주어진 상기 단어 발생 카운트와, 상기 선택된 텍스트의 수와, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 규정된 수량과의 합에 상기 중요도가 비례하도록, 상기 중요도를 규정하는 수단을 더 포함하며, 상기 단어 각각이 상기 텍스트 베이스를 구성하는 상기 텍스트에 보다 많이 나타나면 상기 수량이 더 작아지도록 한 시스템.
제 30 항에 있어서, 상기 중요도를 규정하는 상기 수단은 다음과 같이 상기 중요도, 즉 I(Wj)를 표시하는 수단을 포함하는 시스템으로서,

이고, 여기서, Wj는 상기 검색된 텍스트에 포함된 상기 단어 각각의 단어 ID이고, C는 상수이고, WOr(Wj)는 상기 검색된 텍스트(RTr) 각각내의 상기 단어(Wj) 각각의 상기 단어 발생 카운트이고, RCT(Wj)는 상기 단어(Wj) 각각을 포함하는 상기 검색된 텍스트의 수이고, IDF(Wj)는 RTr이 상기 검색된 텍스트 각각의 텍스트 ID이고 r=1,2,...,R(R=검색된 텍스트의 수)인 경우의 상기 수량인 시스템.
제 29 항에 있어서, 상기 이용자가 적어도 1개의 텍스트를 선택하는 것을 허용하는 상기 수단은,

상기 이용자가 그의 또는 그녀가 깊이 생각한 검색 조건을 사용하여 질문 요청을 발행하여 검색된 텍스트의 목록을 얻는 것을 허용하는 수단과,

상기 이용자가 상기 검색된 텍스트로부터 상기 적어도 1개의 텍스트를 선택하는 것을 허용하는 수단을 포함하는 시스템.
제 29 항에 있어서,

상기 이용자로부터의 더한 질문 요청에 의해 상기 기능이 상기 목록의 부분 집합인 더 작은 목록을 만들기 위해 복귀하는 판정에 응답하여, 상기 선택된 텍스트에 사용된 단어상의 통계 정보와, 상기 더 작은 목록에 기입된 텍스트에 포함된 단어상의 통계 정보를 사용하여 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해, 분포 지수를 계산하는 수단과,

상기 중요도에 상기 분포 지수로 가중치 부여하는 수단을 더 포함하며, 상기 분포 지수는, 상기 선택된 텍스트에 포함된 상기 단어 각각이 상기 더 작은 목록에 기입된 텍스트에 더 많이 분포되고 상기 선택된 텍스트에 더 적게 분포되면, 더 커지도록 규정되는 시스템.
제 33 항에 있어서, 상기 분포 지수는 {(MA/CTA(Wj)*(CTB(Wj)/MB)}로 VYTLELH고, 여기서 MA, MB는 상기 목록과 상기 더 작은 목록에 각각 기입된 텍스트의 수이고, CTA(Wj), CTA(Wj)는 상기 목록과 상기 더 작은 목록에 각각 기입되며 상기 선택된 텍스트에 포함된 상기 단어(Wj) 각각을 포함하는 텍스트의 수인 시스템.
제 30 항에 있어서, 상기 목록은 상기 선택된 텍스트의 적합도의 순으로 소트되고, 상기 시스템은 상기 소트된 목록을 수신하고 상기 소트된 목록의 상기 선택된 목록의 각각에 소정의 가중치를 할당하고, 상기 중요도를 표시하는 수단은 상기 단어 발생 카운트에 상기 소정의 가중치를 가중치 부여하는 수단을 포함하는 시스템.
제 30 항에 있어서, 상기 이용자가 상기 선택된 텍스트의 각각에 가중치를 할당하는 것을 허용하는 수단을 더 포함하며, 상기 중요도를 계산하는 상기 수단은 상기 선택된 텍스트 각각에 대해 상기 단어 발생 카운트에, 상기 선택된 텍스트 각각에 대해 할당된 상기 가중치로 가중치 부여하는 수단을 포함하는 시스템.
제 29 항에 있어서,

상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 실시되며, 단어를 포함하는 텍스트의 수가 소정의 범위 이내인지 여부를 알아보기 위해 테스트를 하는 수단과,

상기 단어가 상기 테스트를 통과하지 않았음의 판정에 응답하여, 상기 선택된 키워드의 후보자에서 상기 단어를 제외하는 수단을 더 포함하는 시스템.
제 37 항에 있어서, 상기 단어의 수량 특성과 결합된 값을 상기 소정의 범위로서 사용하는 수단을 더 포함하는 시스템.
제 38 항에 있어서, 상기 수량은 상기 단어의 길이인 시스템.
제 37 항에 있어서, 상기 단어의 수량 특성의 제2소정 범위 각각을 상기 단어를 포함하는 상기 텍스트의 수의 상이한 소정 범위와 결합하는 수단을 더 포함하며, 상기 테스트하는 수단은 상기 단어 호출의 상기 수량 특성상의 제2 소정 범위와 결합된 상기 상이한 소정 범위 중 하나를 상기 소정 범위로서 사용하는 수단을 포함하는 시스템.
제 30 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트 베이스를 구성하는 상기 텍스트 각각의 상기 워드 각각의 발생 각각과, 상기 각각의 텍스트의 일부와, 상기 발생 각각의 일부를 관리하는 수단과,

상기 텍스트 각각의 가능한 일부 각각에 소정의 가중치 인자를 할당하는 수단과,

상기 텍스트 각각에 대해 실시되며, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하기 위해 상기 단어 각각의 상기 발생 각각의 상기 일부와 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
제 29 항에 있어서,

상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트를 구성하는 상기 텍스트 각각의 상기 단어 각각의 발생 각각과, 상기 발생 각각의 상기 텍스트 각각내의 위치를 관리하는 수단과,

상기 텍스트 각각의 상기 단어 각각의 상기 발생 각각에 대해, 상기 위치와 상기 질문 요청에 사용된 키워드 각각의 위치와의 간격을 계산하는 수단과,

소정의 간격 범위 각각에 소정의 가중치 인자를 할당하는 수단과,

상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하도록, 상기 단어 각각의 상기 발생 각각에 상기 키워드 각각의 상기 간격과 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 발생 카운트의 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
제 29 항에 있어서, 상기 중요도에, 상기 선택된 텍스트의 상기 단어 각각의 속성과 결합된 가중치를 부여하는 수단을 더 포함하는 시스템.
제 29 항에 있어서, 임의의 2개의 상기 소트된 단어내에나, 임의의 상기 소트된 단어와 상기 질문 요청에 사용된 임의의 키워드 사이 중에 어떤 포함 관계가 발견됨의 판정에 응답하여, 소정의 기준에 기초하여 상기 포함 관계에 포함된 2개의 단어 중 하나를 선택하는 수단을 더 포함하는 시스템.
제 44 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 길이를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
제 44 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 중요도를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
제 44 항에 있어서, 상기 2개의 단어 중 하나를 선택하는 수단은 상기 2개의 단어 사이의 더 짧은 단어 및/또는 차이를 선택하는 수단을 포함하는 시스템.
제 31 항에 있어서, 상기 질문 요청에 사용된 키워드와 상기 기능으로부터의 상기 목록에 기초하여 실시되며, 상기 선택된 텍스트의 적합도 순으로 상기 목록을 소트하는 수단과,

상기 소트된 목록의 상기 선택된 텍스트의 각각에 소저의 가중치를 할당하는 수단을 더 포함하고, 상기 중요도를 표시하는 상기 수단은 상기 단어 발생 카운트(WOr(Wj))에 상기 선택된 텍스트(RTr) 각각과 결합된 상기 소정의 가중치 중 하나를 가중치 부여하는 수단을 포함하는 시스템.
제 29 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 속성 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
제 29 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 통계 데이터 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
제 29 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 시소러스 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
제 49 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
제 50 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
제 51 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
제 29 항에 있어서, 상기 이용자를 돕는 상기 수단은, 상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 단어의 상기 소정의 수의 적어도 일부를 사용하여 상기 질문 요청을 자동적으로 발생하는 수단을 포함하는 시스템.
제 29 항에 있어서, 상기 관련 단어의 상기 소정의 수를 저장하는 수단과,

상기 이용자로부터의 소정의 입력에 응답하며, 상기 관련 키워드의 상기 저장된 소정의 수를 디스플레이 하는 수단을 더 포함하는 시스템.
적어도 1개의 전술한 탐색에 기초하여 키워드를 제공하여 이용자가 텍스트를 탐색하는 것을 도울 수 있는 텍스트 검색 시스템으로서,

상기 텍스트 베이스를 구성하는 텍스트의 다양성과,

상기 텍스트 베이스를 구성하는 상기 텍스트상의 속성 정보를 관리하는 수단과,

상기 텍스트 베이스를 구성하는 각 텍스트에 대해서 실시되며, 상기 텍스트 각각에 사용된 단어 및 복합어구(이하, 총괄적으로 "단어"라 한다)상의 로컬 통계 정보를 관리하는 수단과,

상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 단어상의 전체 통계 정보를 관리하는 수단과,

상기 이용자가 질문 요청을 발행하는 것을 허용하는 수단과,

선택된 텍스트의 텍스트 ID 목록을 제공하는 상기 질문 요청에 응답하는 수단과,

상기 선택된 텍스트 목록에 기입된 상기 선택된 텍스트에 포함된 각 단어에 대해 실시되며, 상기 선택된 텍스트에 대한 상기 로컬 통계 정보와 상기 전체 통계 정보를 사용하여 중요도를 계산하는 수단과,

상기 선택된 텍스트에 포함된 상기 단어를 상기 중요도 순으로 소트하는 수단과,

가장 높은 중요도를 갖는 소정수의 상기 소트된 단어를 관련 키워드로서 디스플레이 하는 수단과,

상기 관련 키워드를 사용하여 상기 이용자가 질문 요청을 입력하는 것을 돕는 수단을 포함하는 시스템.
제 57 항에 있어서, 상기 로컬 통계 정보를 관리하는 수단은, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 하나와 각각 결합된 복수의 로컬 통계 정보와, 상기 텍스트 각각에 사용된 각 단어의 단어 ID와 상기 단어 ID와 결합된 단어 발생 카운트를 포함하는 상기 텍스트 각각과 결합된 로컬표를 포함하고, 상기 단어 발생 카운트는 상기 텍스트 각각에서, 상기 텍스트 각각에 사용된 상기 단어 각각의 발생수를 가리키며,

상기 전체 통계 정보를 관리하는 수단은, 상기 텍스트 베이스를 구성하는 상기 텍스트 중 어느 하나에 사용된 상기 단어 각각의 단어 ID와, 총 단어 발생 카운트와, 임의의 상기 텍스트에 사용된 상기 단어 각각의 상기 단어 ID와 결합되는 포함 텍스트 카운트를 저장하는 전체 통계표를 포함하고, 상기 총 단어 발생 카운트는 상기 텍스트 베이스를 구성하는 상기 텍스트 전체의 총 발생수를 가리키며, 상기 포함 텍스트 카운트는 임의의 상기 텍스트에 사용된 상기 단어 각각을 포함하는 텍스트의 수를 가리키며,

상기 중요도는 상기 선택된 텍스트에 대해 주어진 상기 단어 발생 카운트와, 상기 선택된 텍스트의 수와, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 규정된 수량과의 합에 비례하여, 상기 단어 각각이 상기 텍스트 베이스를 구성하는 상기 텍스트에 보다 많이 나타나면 상기 수량이 더 작아지도록 한 시스템.
제 58 항에 있어서, 상기 중요도, 즉 I(Wj)는,

로 규정되고, 여기서, Wj는 상기 선택된 텍스트에 포함된 상기 단어 각각의 단어 ID이고, C는 상수이고, WOr(Wj)는 상기 검색된 텍스트(RTr) 각각내의 상기 단어(Wj) 각각의 상기 단어 발생 카운트이고, RCT(Wj)는 상기 단어(Wj) 각각을 포함하는 상기 선택된 텍스트의 수이고, IDF(Wj)는 RTr이 상기 검색된 텍스트 각각의 텍스트 ID이고 r=1,2,...,R(R=검색된 텍스트의 수)인 경우의 상기 수량인 시스템.
제 59 항에 있어서, 상기 이용자가 적어도 1개의 텍스트를 선택하는 것을 허용하는 상기 수단은,

상기 이용자가 그의 또는 그녀가 깊이 생각한 검색 조건을 사용하여 질문 요청을 발행하여 검색된 텍스트의 목록을 얻는 것을 허용하는 수단과,

상기 이용자가 상기 검색된 텍스트로부터 상기 적어도 1개의 텍스트를 선택하는 것을 허용하는 수단을 포함하는 시스템.
제 57 항에 있어서, 제1 질문 응답과 상기 제1 질문 응답 후에 발행된 제2 질문 응답이 제1 선택된 텍스트의 제1 텍스트 ID의 제1 목록과 제2 선택된 텍스트의 제2 텍스트 ID의 제2 목록에 귀착되어 상기 제2 목록이 상기 제1 목록의 부분 집합이 되는 판정에 응답하며, 상기 제1 선택된 텍스트에 사용된 단어상의 통계 정보와 상기 제2 선택된 텍스트에 사용된 단어상의 통계 정보를 사용하여, 상기 제1 선택된 텍스트에 포함된 상기 단어 각각에 대해 분포 지수를 계산하는 수단과,

상기 중요도에 상기 분포 지수로 가중치 부여하는 수단을 더 포함하며,

상기 분포 지수는, 각 단어가 상기 제2 선택된 목록에 기입된 텍스트에 더 많이 분포되고 상기 제1 선택된 텍스트에 더 적게 분포되면, 단어의 상기 지수가 더 커지도록 규정되는 시스템.
제 61 항에 있어서, 상기 분포 지수는 {(MA/CTA(Wj)*(CTB(Wj)/MB)}로 VYTLELH고, 여기서 MA, MB는 상기 목록과 상기 더 작은 목록에 각각 기입된 텍스트의 수이고, CTA(Wj), CTA(Wj)는 상기 목록과 상기 더 작은 목록에 각각 기입되며 상기 선택된 텍스트에 포함된 상기 단어(Wj) 각각을 포함하는 텍스트의 수인 시스템.
제 58 항에 있어서, 상기 목록은 상기 선택된 텍스트의 적합도의 순으로 소트되고, 상기 시스템은 상기 소트된 목록을 수신하고 상기 소트된 목록의 상기 선택된 목록의 각각에 소정의 가중치를 할당하고, 상기 중요도를 표시하는 수단은 상기 단어 발생 카운트에 상기 소정의 가중치를 가중치 부여하는 수단을 포함하는 시스템.
제 57 항에 있어서, 상기 선택된 텍스트에 포함된 상기 단어 각각에 대해 실시되며, 단어를 포함하는 텍스트의 수가 소정의 범위 이내인지 여부를 알아보기 위해 테스트를 하는 수단과,

상기 단어가 상기 테스트를 통과하지 않았음의 판정에 응답하여, 상기 선택된 키워드의 후보자에서 상기 단어를 제외하는 수단을 더 포함하는 시스템.
제 58 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트 베이스를 구성하는 상기 텍스트 각각의 상기 워드 각각의 발생 각각과, 상기 각각의 텍스트의 일부와, 상기 발생 각각의 일부를 관리하는 수단과,

상기 텍스트 각각의 가능한 일부 각각에 소정의 가중치 인자를 할당하는 수단과,

상기 텍스트 각각에 대해 실시되며, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하기 위해 상기 단어 각각의 상기 발생 각각의 상기 일부와 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
제 57 항에 있어서, 상기 텍스트 베이스를 구성하는 텍스트 각각에 대해 실시되며, 상기 텍스트를 구성하는 상기 텍스트 각각의 상기 단어 각각의 발생 각각과, 상기 발생 각각의 상기 텍스트 각각내의 위치를 관리하는 수단과,

상기 텍스트 각각의 상기 단어 각각의 상기 발생 각각에 대해, 상기 위치와 상기 질문 요청에 사용된 키워드 각각의 위치와의 간격을 계산하는 수단과,

소정의 간격 범위 각각에 소정의 가중치 인자를 할당하는 수단과,

상기 텍스트 베이스를 구성하는 텍스트 각각에 대해, 상기 단어 각각에 대해 텍스트 단위로 가중치를 산출하도록, 상기 단어 각각의 상기 발생 각각에 상기 키워드 각각의 상기 간격과 결합된 상기 소정의 가중치 인자를 축적하는 수단을 더 포함하고, 상기 중요도를 규정하는 상기 수단은 상기 단어 발생 카운트의 각각에 텍스트 단위로 상기 가중치를 부여하는 수단을 포함하는 시스템.
제 57 항에 있어서, 상기 중요도에, 상기 선택된 텍스트의 상기 단어 각각의 속성과 결합된 가중치를 부여하는 수단을 더 포함하는 시스템.
제 57 항에 있어서, 임의의 2개의 상기 소트된 단어내에나, 임의의 상기 소트된 단어와 상기 질문 요청에 사용된 임의의 키워드 사이 중에 어떤 포함 관계가 발견됨의 판정에 응답하여, 소정의 기준에 기초하여 상기 포함 관계에 포함된 2개의 단어 중 하나를 선택하는 수단을 더 포함하는 시스템.
제 67 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 길이를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
제 67 항에 있어서, 상기 포함 관계에 포함된 상기 2개의 단어 사이의 중요도를 비교하기 위해 상기 소정의 기준을 설정하는 수단을 더 포함하는 시스템.
제 67 항에 있어서, 상기 2개의 단어 중 하나를 선택하는 수단은 상기 2개의 단어 사이의 더 짧은 단어 및/또는 차이를 선택하는 수단을 포함하는 시스템.
제 59 항에 있어서, 상기 질문 요청에 사용된 키워드와 상기 기능으로부터의 상기 목록에 기초하여 실시되며, 상기 선택된 텍스트의 적합도 순으로 상기 목록을 소트하는 수단과,

상기 소트된 목록의 상기 선택된 텍스트의 각각에 소저의 가중치를 할당하는 수단을 더 포함하고, 상기 중요도를 표시하는 상기 수단은 상기 단어 발생 카운트(WOr(Wj))에 상기 선택된 텍스트(RTr) 각각과 결합된 상기 소정의 가중치 중 하나를 가중치 부여하는 수단을 포함하는 시스템.
제 57 항에 있어서, 상기 소트된 단어를 디스플레이를 위해 상기 소트된 단어의 속성 단위로 유사한 키워드의 그룹으로 분류하는 수단을 더 포함하는 시스템.
제 73 항에 있어서, 상기 그룹 대신에 대표 키워드를 디스플레이 하는 수단을 더 포함하는 시스템.
제 57 항에 있어서, 상기 이용자를 돕는 상기 수단은, 상기 이용자로부터의 소정의 입력에 응답하여, 상기 관련 단어의 상기 소정의 수의 적어도 일부를 사용하여 상기 질문 요청을 자동적으로 발생하는 수단을 포함하는 시스템.
제 57 항에 있어서, 상기 관련 단어의 상기 소정의 수를 저장하는 수단과,

상기 이용자로부터의 소정의 입력에 응답하며, 상기 관련 키워드의 상기 저장된 소정의 수를 디스플레이 하는 수단을 더 포함하는 시스템.
제 57 항에 있어서, 분리 가능한 대량 기억 매체용으로 개조된 기억 매체 드라이브를 더 포함하고, 상기 텍스트 베이스를 구성하는 텍스트의 상기 다양성은 상기 분리 가능한 기억 매체 중 하나에 저장되는 시스템.
제 57 항에 있어서, 양방향 통신 수단을 더 포함하고, 서버 및 클라이언트 시스템에 배치되는 시스템.