KR100326634B1 - 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법 - Google Patents

문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법 Download PDF

Info

Publication number
KR100326634B1
KR100326634B1 KR1019980006876A KR19980006876A KR100326634B1 KR 100326634 B1 KR100326634 B1 KR 100326634B1 KR 1019980006876 A KR1019980006876 A KR 1019980006876A KR 19980006876 A KR19980006876 A KR 19980006876A KR 100326634 B1 KR100326634 B1 KR 100326634B1
Authority
KR
South Korea
Prior art keywords
morpheme
document information
index
unit
morphemes
Prior art date
Application number
KR1019980006876A
Other languages
English (en)
Other versions
KR19990029119A (ko
Inventor
마나부 사싸노
Original Assignee
아끼구사 나오유끼
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아끼구사 나오유끼, 후지쯔 가부시끼가이샤 filed Critical 아끼구사 나오유끼
Publication of KR19990029119A publication Critical patent/KR19990029119A/ko
Application granted granted Critical
Publication of KR100326634B1 publication Critical patent/KR100326634B1/ko

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 정보를 격납·검색하는 장치에 있어서, 대용량의 문서 데이터등의 정보를 격납하는데 필요한 영역을 작게 하는 동시에, 인덱스를 격납할 때의 처리 시간을 단축하여 검색 시간도 단축한다.
형태소 해석 처리를 함으로써, 입력된 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석부(1)와, 이 형태소 해석부(1)에서 추출된 형태소를 부호화하는 부호화부(2)와, 이 부호화부(2)에서 부호화된 형태소에 압축처리를 행하는 압축부(3)와, 압축부(3)에서 압축된 부호화 형태소를 격납하는 기억부(4)를 갖추도록 구성한다.

Description

문서 정보 격납 장치, 문서 정보 격납 방법, 문서 정보 검색 장치 및 문서 정보 검색 방법{DEVICE AND METHOD OF STORING TEXT DATA, DEVICE AND METHOD OF SEARCHING TEXT DATA, RECORDING MEDIUM CONTAINING A PROGRAM FOR STORING THE TEXT DATA AND RECORDING MEDIUM CONTAINING A PROGRAM FOR SEARCHING TEXT DATA}
본 발명은 대용량 문서 정보의 격납이나 검색에 이용하기에 적합한 문서 정보 격납 장치, 문서 정보 격납 방법, 문서 정보 검색 장치 및 문서 정보 검색 방법에 관한 것이다.
종래, 데이터 베이스에 축적하는 정보를 검색하는 장치에서는 대용량의 문서 데이터를 격납(store)하는 경우, 그대로 문서 데이터를 격납하거나 문서 데이터를 압축하고나서 격납하는 방법이 있다.
또한, 검색에 있어서는 데이터 베이스에 격납되어 있는 데이터를 즉시 검색하거나 격납과는 별도로 작성된 인덱스를 이용하여 문서의 검색이 행하여지고 있었다.
그러나, 이러한 종래의 문서 데이터를 그대로 데이터 베이스에 격납하는 방식에서는 데이터의 격납에 필요한 용량이 커지는 문제가 있다.
또한, 인덱스를 작성하지 않고 문서 데이터를 압축하여 격납하는 방식으로는 검색 속도가 느리게 이루어질 수 있다.
여기서, 압축하여 격납하는 방식에 있어서, 문서 데이터의 격납과는 별도로 검색에 사용하는 인덱스를 작성하는 경우, 데이터의 격납에 필요한 용량도 적고, 검색 속도도 느리지 않다. 그러나, 문서 데이터 등의 정보를 격납할 때에, 데이터의 압축과 인덱스의 작성 두가지를 따로따로 행하기 때문에 처리 시간이 걸린다.
또한, 문서 데이터를 압축하여 격납하는 경우에, 문서 데이터의 내부의 통계적인 정보를 충분히 이용하지 않기 때문에, 압축이 충분하지 않은 경우가 있다.
이와 같이, 대용량의 문서 데이터 등의 정보를 격납하는 장치에 있어서, 격납하는데 필요한 영역을 작게 하는 것과, 인덱스를 작성하면서 격납할 때의 처리 시간을 짧게 하는 과제가 있다.
본 발명은 이러한 과제를 감안하여 창안된 것으로, 대용량의 문서 데이터등의 정보를 격납하는데 필요한 영역을 작게 하는 동시에, 인덱스를 작성하면서 문서 데이터를 격납할 때의 처리 시간이 짧은 문서 정보 격납 장치, 문서 정보 격납 방법, 문서 정보 검색 장치 및 문서 정보 검색 방법을 제공하는 것을 목적으로 한다.
도 1은 본 발명의 제1 실시 형태에 관련된 문서 정보 격납 검색 장치를 나타내는 블록도.
도 2는 본 발명의 제1 실시 형태에 관련된 동의어 사전, 시소러스(thesaurus)의 일례를 나타내는 도면.
도 3은 본 발명의 제1 실시 형태에 이러한 대역 사전의 일례를 나타내는 도면.
도 4는 본 발명의 제1 실시 형태에 관련된 문서 정보 격납 검색 장치가 문서 정보를 격납할 때의 처리의 흐름을 설명하기 위한 도면.
도 5는 본 발명의 제1 실시 형태에 관련된 문서 정보 격납 검색 장치가 문서 정보를 검색할 때의 처리의 흐름을 설명하기 위한 도면.
도 6은 본 발명의 제1 실시 형태에 관련된 문서 정보 격납 검색 장치가 문서 정보를 검색할 때의 처리의 흐름을 설명하기 위한 도면.
도 7은 본 발명의 제2 실시 형태에 관련된 문서 정보 격납 검색 장치를 나타내는 블록도.
도 8은 본 발명의 제2 실시 형태에 관련된 인명 사전의 일례를 나타내는 도면.
도 9는 본 발명의 제2 실시 형태에 관련된 우편 번호 사전의 일체를 나타내는 도면.
도 10은 본 발명의 제2 실시 형태에 관련된 입력하는 문서 정보의 일체를 나타내는 도면.
도 11은 본 발명의 제2 실시 형태에 관련된 문서 정보 격납 검색 장치가 문서 정보를 격납할 때의 처리의 흐름을 설명하기 위한 도면.
도 12는 본 발명의 제2 실시 형태에 관련된 문서 정보 격납 검색 장치가, 문서 정보를 검색할때의 처리의 흐름을 설명하기 위한 도면.
도 13은 본 발명의 제3 실시 형태에 관련된 문서 정보 격납 검색 장치를 나타내는 블록도.
도 14의 (a)∼(c)는 각각 본 발명의 제3 실시 형태에 관련된 격납하는 문서 정보의 일례를 나타내는 도면.
도 15는 본 발명의 제3 실시 형태에 관련된 문서 정보 인덱스의 일례를 나타내는 도면.
도 16은 본 발명의 제3 실시 형태에 관련된 문서 정보 격납 검색 장치가 문서 정보를 검색할 때의 처리의 흐름을 설명하기 위한 도면.
도 17은 본 발명의 다른 실시 형태를 나타내는 도면.
도 18은 본 발명의 다른 실시 형태를 나타내는 도면.
도 19는 본 발명의 다른 실시 형태를 나타내는 도면.
〈도면의 주요 부분에 대한 부호의 설명〉
1,1-1: 문서 정보 형태소 해석부(형태소 해석부)
2: 형태소 해석 데이터 부호화부(부호화부)
3: 부호화 데이터 압축부(압축부)
4: 데이터 베이스(기억부)
5: 문서 정보 인덱스 작성부(인덱스 작성부)
6: 문서 정보 인덱스 기억부(인덱스 기억부)
6-1,6-2: 문서 정보 인덱스
7: 압축 부호화 데이터 복원부(복원부)
8: 대조 판정부(대조부)
9: 부호화 형태소 복호화부(복호화부)
10: 결과 출력부
11: 동의어 사전
12: 시소러스
13: 대역 사전
14: 인명 사전
15: 우편번호 사전
100,200,300,400,500,600: 문서 정보 격납 검색 장치
상술한 목적을 달성하기 위해서, 본 발명의 문서 정보 격납 장치는 형태소 해석 처리를 함으로써, 입력된 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석부와, 형태소 해석부에서 추출된 형태소를 부호화하는 부호화부와, 부호화부에서 부호화된 형태소에 압축 처리를 행하는 압축부와, 압축부에서 압축된 부호화 형태소를 격납하는 기억부를 포함한다. 또한, 본 발명의 문서 정보 격납 장치는 형태소 해석부에서 추출된 형태소 및 부호화부에서 부호화된 형태소 중의 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와, 인덱스 작성부에서 작성된 인덱스를 격납하는 인덱스 기억부를 포함하는 것을 특징으로 한다.
또한, 본 발명의 문서 정보 격납 장치는 동의어사전, 시소러스, 대역 사전 중의 적어도 하나를 포함하여, 부호화부가 동의어사전, 시소러스, 대역 사전 중의 적어도 1개의 정보를 이용하여, 형태소를 부호화하도록 구성하여도 좋다.
여기서, 형태소 해석부에서 추출된 형태소 및 부호화부에서 부호화된 형태소 중의 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와, 인덱스 작성부에서 작성된 인덱스를 격납하는 인덱스 기억부를 포함하는 동시에, 동의어 사전, 시소러스, 대역 사전 중의 적어도 하나를 포함하여, 부호화부가, 동의어사전, 시소러스, 대역 사전중의 적어도 1개의 정보를 이용하여, 형태소를 부호화하는 것과 같은 구성이여도 좋다.
한편, 본 발명의 문서 정보 격납 방법은 문서 정보를 격납할 때에, 문서 정보를 입력함으로써, 문서 정보에 대하여 형태소 해석 처리를 행하고 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석 단계와, 형태소 해석 단계에서 추출된 형태소를 부호화하는 부호화 단계와, 부호화 단계에서 부호화된 형태소에 압축 처리를 행하는 압축 단계와, 압축 단계에서 압축된 부호화 형태소를 격납하는 기억 단계를 포함하는 것을 특징으로 한다.
여기에서, 형태소 해석 단계로 추출된 형태소 및 부호화 단계로 부호화된 형태소 중의 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 단계와, 인덱스 작성 단계에서 작성된 인덱스를 격납하는 인덱스 기억 단계를 포함하도록 하여도 좋고, 또는 부호화 단계가 동의어 사전, 시소러스, 대역 사전 중의 어느 하나로부터의 정보를 이용하여 형태소를 부호화하도록 구성하여도 좋다.
또한, 형태소 해석 단계에서 추출된 형태소 및 부호화 단계에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 단계와, 인덱스 작성 단계에서 작성된 인덱스를 격납하는 인덱스 기억 단계를 포함하여, 부호화단계가 동의어 사전, 시소러스, 대역 사전 중의 어느 하나로부터의 정보를 이용하여 형태소를 부호화하도록 구성이 설치되게 할 수도 있다.
또한, 본 발명의 문서 정보 검색 장치는 형태소 해석 처리를 함으로써, 입력된 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석부와, 형태소 해석부에서 추출된 형태소를 부호화하는 부호화부와, 부호화부에서 부호화된 형태소에 압축 처리를 행하는 압축부와, 압축부에서 압축된 부호화 형태소를 격납하는 기억부를 가지는 문서 정보 격납 장치에 있어서의 기억부에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원부와, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조부와, 대조부에서의 대조결과에 기초하여 복원부에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화부를 포함하는 것을 특징으로 한다.
여기서, 대조부가 부호화 형태소 형식의 검색 질문과, 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 것과 같은 구성을 구비하는 것도 좋다.
또한, 형태소 해석부에서 추출된 형태소 및 부호화부에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와, 인덱스 작성부에서 작성된 인덱스를 격납하는 인덱스 기억부를 문서 정보 격납 장치에 부가하여, 대조부가 형태소 형식의 검색 질문 및 부호화 형태소 형식의 검색 질문중의 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 인덱스 기억부에 기억되어 있는 인덱스의 검색을 행하고, 이 검색의 결과로 얻을 수 있는 인덱스의 정보에 기초하여, 기억부에 격납되어 있는 압축 부호화 형태소를 복원부에서 원래의 부호화 형태소 데이터에 복원시키도록 구성하여도 좋다.
동의어 사전, 시소러스, 대역 사전 중의 적어도 하나를 갖추고, 부호화부가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하는 것과 같이, 문서 정보 격납 장치를 구성하여, 대조부가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 작성된 부호화 형태소 형식의 검색 질문과 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성하여도 좋다.
또한, 형태소 해석부에서 추출된 형태소 및 부호화부에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와, 인덱스 작성부에서 작성된 인덱스를 격납하는 인덱스 기억부를 문서 정보 격납 장치에 부가하고 또한 동의어 사전, 시소러스, 대역 사전 중 적어도 한개를 포함하여, 부호화부가 동의어 사전, 시소러스, 대역 사전 중의 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하도록 문서 정보 격납 장치를 구성하고, 대조부가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 작성된 형태소 형식의 검색 질문 및 부호화 형태소 형식의 검색 질문 중 적어도 한편의 정보에 기초하여얻을 수 있는 인덱스로부터 인덱스 기억부에서 기억되어 있는 인덱스의 검색을 행하고, 이 검색의 결과로 얻을 수 있는 인덱스의 정보에 기초하여, 기억부에 격납되어 있는 압축 부호화 형태소를 복원부에서 원래의 부호화 형태소 데이터에 복원시키도록 구성을 갖추어도 실시에 있어서 적합하다.
또한, 본 발명의 문서 정보 검색 방법은 문서 정보를 입력하고 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하고, 이 추출된 형태소를 부호화하며, 또한 이 부호화된 형태소에 압축 처리를 행하고, 이 압축된 부호화 형태소를 기억 수단에 기억한 문서 정보 격납 장치에 대하여 검색 질문에 적합한 정보를 검색할 때에는 검색 질문을 입력하여 이 검색 질문에 관해서 형태소 해석 처리를 함으로써, 검색 질문정보로부터 형태소를 추출하는 형태소 해석 단계와, 형태소 해석 단계에서 추출된 형태소를 부호화하는 부호화 단계와, 문서 정보 격납 장치에 있어서의 기억 수단에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 단계와, 부호화 단계에서 얻을 수 있는 부호화 형태소 형식의 검색 질문과 복원 단계에서 복원된 부호화 형태소 데이터를 대조하여 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조 단계와, 대조 단계에서의 대조 결과에 기초하여 복원 단계에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화 단계를 포함하는 것을 특징으로 한다.
여기서, 문서 정보 격납 장치가 동의어 사전, 시소러스, 대역 사전 중의 어느 하나로부터의 정보를 이용하여 형태소를 부호화하도록 구성되며, 대조 단계가동의어 사전, 시소러스, 대역 사전 중의 어느 하나로부터의 정보를 이용하여 작성된 부호화 형태소 형식의 검색 질문과, 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성하여도 좋다.
또한, 본 발명의 문서 정보 검색 방법은 문서 정보를 입력하고 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하고, 이 추출된 형태소를 부호화하며, 또한 이 부호화된 형태소에 압축 처리를 행하여, 이 압축된 부호화 형태소를 기억 수단에 기억하는 동시에, 형태소 해석 처리로 추출된 형태소 및 형태소 부호화 처리로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하여 이 인덱스를 인덱스 기억 수단에 격납하는 문서 정보 격납 장치에 대하여, 검색 질문에 적합한 정보를 검색할 때에는 검색 질문을 입력하여 이 검색 질문에 관해서 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 단계와, 형태소 해석 단계에서추출된 형태소를 부호화하는 부호화 단계와, 형태소 해석 단계에서 추출된 형태소및 부호화 단계에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 인덱스 기억 수단에 기억되어 있는 인덱스의 검색을 행하는 인덱스 검색 단계와, 인덱스 검색 단계에서 얻을 수 있는 인덱스 정보에 기초하여 기억 수단으로 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 단계와, 복원 단계에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화 단계를 포함하는 것을 구성으로 하여도 좋다.
여기서, 문서 정보 격납 장치가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 형태소를 부호화하도록 구성되며, 또한 인덱스 검색 단계가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 인덱스 검색을 행하도록 구성하여도 적합하게 실시 형태를 확보할 수 있다.
또한, 본 발명의 문서 정보 격납 프로그램을 기록한 기록 매체는 컴퓨터에 입력된 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로추출된 형태소를 부호화하는 부호화 순서와, 부호화 순서로 부호화된 형태소에 압축 처리를 행하는 압축 순서와, 압축 순서로 압축된 부호화 형태소를 격납하는 기억 순서를 실행시키는 프로그램이 기록되어 있다.
한편, 본 발명의 기록 매체는 컴퓨터에 입력된 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 부호화 순서로 부호화된 형태소에 압축 처리를 행하는 압축 순서와, 압축 순서로 압축된 부호화 형태소를 기억 수단에 격납시키는 기억 순서와, 형태소 해석 순서로 추출된 형태소 및 부호화 순서로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 순서와, 인덱스 작성 순서로 작성된 인덱스를 인덱스 기억 수단에 격납시키는 인덱스 기억 순서를 실행시키기 위한 문서 정보 격납 프로그램이 기록되어 있다.
한편, 본 발명의 기록 매체는 문서 정보를 입력하고 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하여 이 추출된 형태소를 부호화하며, 또한 이 부호화된 형태소에 압축 처리를 행하고, 이 압축된 부호화 형태소를 기억 수단에 기억한 문서 정보 격납 장치에 대하여 검색 질문에 적합한 정보를 검색할 때에는, 입력된 검색 질문에 관해서 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 기억 수단에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 순서와, 부호화 순서로 얻을 수 있는 부호화 형태소 형식의 검색 질문과, 복원 순서로 복원된 부호화 형태소 데이터를 대조하여 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조 순서와, 대조 순서에서의 대조 결과에 기초하여, 복원 순서로 복원된 부호화 형태소 데이터를 형태소로 되돌리는 형태소 복호화 순서를 컴퓨터로 실행시키기 위한 문서 정보 검색 프로그램이 기록되어 있다.
또한, 본 발명의 기록 매체는 문서 정보를 입력하고 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하고, 이 추출된 형태소를 부호화하며, 또한 이 부호화된 형태소에 압축 처리를 행하고, 이 압축된 부호화 형태소를 기억 수단에 기억하는 동시에, 형태소 해석 처리로 추출된 형태소 및 형태소 부호화 처리로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하고, 이 인덱스를 인덱스 기억 수단에 격납하는 문서 정보 격납 장치에 대하여 검색 질문에 적합한 정보를 검색할 때에는, 입력된 검색 질문에 관해서 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 형태소 해석 순서로 추출된 형태소 및 부호화 순서로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 인덱스 기억 수단에 기억되어 있는 인덱스의 검색을 행하는 인덱스 검색 순서와, 인덱스 검색 순서로 얻을 수 있는 인덱스 정보에 기초하여 기억 순서로 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 순서와, 복원 순서로 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화 순서를 컴퓨터에 실행시키기 위한 문서 정보 검색 프로그램이 기록되어 있다.
이하, 도면을 참조하여 본 발명의 실시 형태를 설명한다.
도 1은 본 발명의 제1 실시 형태를 나타내는 블록도이고, 이 도 1에 나타내는 문서 정보 격납 검색 장치(100)는 문서 정보 형태소 해석부(1), 형태소 해석 데이터 부호화부(2), 부호화 데이터 압축부(3), 데이터 베이스(4), 문서 정보 인덱스 작성부(5), 문서 정보 인덱스 기억부(6), 압축 부호화 데이터 복원부(7), 대조 판정부(8), 부호화 형태소 복호화부(9), 결과 출력부(10), 동의어 사전(11), 시소러스(12) 및 대역 사전(13)을 구비하여 구성되어 있다.
문서 정보 형태소 해석부(1)는 입력된 문서 정보에 대하여, 형태소 해석을 행하고, 단어(형태소를 포함)를 추출하는 것이다.
여기서, 문서 정보 형태소 해석부(1)에 입력되는 문서 정보 데이터는 그 자체가 코드화되어 있고, 키보드, 화일, 네트워크 등으로부터 이 문서 정보 데이터가입력되도록 되어 있다.
환언하면, 전기 신호 혹은 빛신호로서 문서 정보 형태소 해석부(1)에 입력되는 문서(document)를 구성하는 각 문자를 문서 정보 형태소 해석부(1)는 언어의 특징을 고려하여 형태소를 해석하는 것이다.
형태소 해석 데이터 부호화부(2)는 문서 정보 해석부(1)에서의 해석에 의해 추출된 단어(형태소를 포함)를 수치로 부호화하는 것이다. 여기에서, 형태소 해석 데이터 부호화부(2)에서 부호화된 수치는 일률적으로 복호 변환되기 때문에, 동일한 수치는 동일한 단어(형태소를 포함)에 할당되도록 되어 있다. 또한, 형태소 해석 데이터 부호화부(2)에 의한 부호화의 길이는 고정 길이, 혹은 가변 길이라도 좋다.
부호화 데이터 압축부(3)는 형태소 해석 데이터 부호화부(2)에서 부호화된 형태소 데이터(문서 정보 형태소 해석부(1)에서 추출된 단어(형태소를 포함)를 형태소 해석 데이터 부호화부(2)가 수치로 부호화한 것. 이하 같음)를 또다른 수치로 부호화하여 압축한 것이다.
여기서, 부호화 데이터 압축부(3)는 단어(형태소를 포함)의 빈출 정도를 고려하여 부호화한 형태소 데이터의 압축 처리를 행하게 되어 있다. 예컨대, 영어문서중의 「This is」는 「This」의 뒤에 「is」가 계속해서 표기되는 빈도가 높으므로 「This is」로 합치어 하나의 수치로 부호화되고, 또한 영문중에서 문자「q」의 뒤에는 「u」가 계속될 빈도가 높기 때문에, 「q u」를 하나의 코드로서 압축되어, 출현 빈도가 높은 문자열일수록 압축하는데 이용되는 코드가 짧게 설정되도록 되어있다.
이와 같이, 부호화된 형태소 데이터 중 단어(형태소를 포함)의 출현 빈도나 복수의 단어를 포함하는 단락의 출현 빈도 등의 고찰을, 부호화 데이터 압축부(3)가 행하도록 되어 있다. 여기서, 부호화 데이터 압축부(3)는 형태소 해석 데이터 부호화부(2)에서 부호화된 데이터를 한쌍 한쌍으로 압축하는 경우에 한정하지 않고, 부호화 형태소를 복수로 압축하거나 혹은 복수의 부호화 형태소를 하나의 압축 데이터 등으로 압축하는 처리를 행할 수도 있다.
데이터 베이스(4)는 부호화 데이터 압축부(3)에 있어서 압축 처리를 행한 압축 결과를 격납하기 위한 것으로 2차 기억 장치등에 설치된다. 또한, 문서 정보의 검색시에 있어서 검색 질문에 해당하는 경우에, 데이터 베이스(4)에 격납되어 있는 정보가 독출되도록 되어 있다.
문서 정보 인덱스 작성부(5)는 형태소 해석 데이터 부호화부(2)에 있어서, 부호화된 부호화 형태소에 기초하여, 정보 격납 검색 장치(100)에 축적되는 문서 정보에 대한 문서 정보 인덱스를 작성하는 것이다. 또한, 여기서 문서 정보 인덱스의 작성을 형태소 해석 데이터 부호화부(2)에서 부호화된 부호화 형태소 데이터를 이용하지 않고서 문서 정보 형태소 해석부(1)가 해석에 의해 추출한 단어(형태소를 포함)를 이용하여, 문서 정보 인덱스 작성부(5)가 문서 정보 인덱스를 작성하도록 구성하여도 좋다.
문서 정보 인덱스는 문서 정보 인덱스 작성부(5)가 작성하는 것으로, 문서 정보 등을 검색할 때에 이용되는 것이며, 문서 정보 인덱스 기억부(6)에 기록되도록 되어 있다.
또한, 문서 정보 인덱스는 문서 정보의 검색에 있어서, 데이터 베이스(4)로부터 복원한 부호화 형태소 데이터가 검색 질문에 적합한 것인지의 판정을 행할 때에 참조하는데 이용하는 것으로서도 좋다. 예컨대, 문서 정보를 검색할 때에는 이용한 문서 정보 인덱스를 데이터 베이스(4)로부터 복원한 문서 정보가 적합하는 것인지를 판정하는데 이용하여도 좋다.
압축 부호화 데이터 복원부(7)는 데이터 베이스(4)에 격납된 압축 종료의 부호열을 원래의 부호형으로 되돌리는 것이다. 또, 압축 부호화 데이터 복원부(7)는 다른 수치로 복원되는 부호화 처리를 행할 때에, 압축된 코드에 대하여 반드시 하나의 수치로 부호화 처리를 행하는 것에 한하지 않고, 2 이상의 수치로 부호화 처리를 행할 수 있다. 또한, 압축 부호화 데이터 복원부(7)는 복수의 압축된 코드에 대하여 하나의 수치로 부호화 처리를 행할 수도 있다.
환언하면, 문서 정보의 검색시에 있어서, 검색 질문에 상응하는 문서 정보가 데이터 베이스(4)에 축적되어 있을 때에, 데이터 베이스(4)에 격납되어 압축되어 있는 문서 정보를 부호화 형태소 데이터에 복원하는 것이다.
대조 판정부(8)는 형태소 해석 데이터 부호화부(2)로부터의 부호화 형태소 데이터와 압축 부호화 데이터 복원부(7)로부터의 부호화 형태소 데이터가 일치하는 지 여부를 판정하는 것이다.
여기서, 형태소 데이터 부호화부(2)로부터의 부호화 형태소 데이터는 문서 정보 형태소 해석부(1)에 의해 검색 질문으로부터 추출한 단어(형태소를 포함)를형태소 해석 데이터 부호화부(2)가 수치로 부호화하는 처리를 행한 것이다. 한편, 압축 부호화 데이터 복원부(7)로부터의 부호화 형태소 데이터는 데이터 베이스(4)에 격납되어 있는 문서 정보(압축 처리를 행된 부호화 형태소 데이터)를 압축하는 처리를 행하기 전의 부호화 형태소 데이터로 압축 부호화 데이터 복원부(7)에 의해 복원 처리를 행한 것이다.
여기서, 대조 판정부(8)는 완전 일치 검색을 행하는 경우에는, 검색 질문을 부호화한 수치와, 데이터 베이스(4)에 축적되어 있던 문서 정보를 압축 부호화 데이터 복원부(7)에 의해 복원된 부호화 형태소 데이터의 수치가 완전히 일치하는가의 처리가 행하여지게 되어 있다. 또한, 애매한 검색 등을 실행하는 경우에는, 대조 판정부(8)는 수치의 완전 일치 검색을 행하지 않고, 일부 일치 검색을 행하게 되어있다.
부호화 형태소 복호화부(9)는 부호화되어 있는 부호화 형태소 데이터를 원래의 단어(형태소를 포함)로 신장하는 처리를 행하는 것이다.
결과 출력부(10)는 대조 판정부(8)로부터 수취한 정보를 바탕으로 검색 결과를 출력하는 것이다. 필요에 따라서, 부호열을 원래의 단어(형태소를 포함)로 부호화한 문서 정보를 출력하는 것이다.
동의어 사전은 단어형이 다르지만, 의미가 거의 같은 단어를 다수 보유하는 것으로, 시소러스(thesaurus)(12)는 분류체의 사전이고, 대역 사전(13)은 원문에 역문을 병행하여 적은 사전이고, 이들 사전(11,12,13)은 인덱스 작성의 처리를 행할때라든지 검색을 행할 때에 이용되는 것이다. 또한, 동의어 사전 등(11,12,13)은문서 정보 형태소 해석부(1)에서의 단어(형태소를 포함)를 추출하는 해석시에 참조하는 것이다.
여기서, 도 2는 동의어 사전, 시소러스의 일례를 나타내는 도면이고, 이 도 2에 나타내는 동의어 사전, 시소러스의 일례인 표와 같이, 동의, 유의로 간주되는 단어(형태소를 포함)의 부호화 수치로서, 동일한(혹은 서로 비슷한)코드 패턴을 가지는 구성(구조,짜임새)으로 되어 있다.
예컨대, 동의, 유의로 간주되는 「책」, 「서적」 및 「북」 등의 부호화 수치는 도 2에 도시된 바와 같이 하위 1 바이트를 제외한 부호화 수치는 동일하게 결정되고 있다.
도 3은 대역 사전의 일례를 나타내는 도면이고, 이 도 3에 나타내는 대역 사전의 일례의 표와 같이, 동일한 개념을 나타내는 단어에는 어느 것이나 동일한 패턴(0x73a52100)을 포함하여 구별되어 있다. 또한, 언어(도 3에 나타내는 예에서는, 일본어, 영어, 불어이다)의 차이는 상위 부호로 구별되어 있다. 예컨대, 일본어이면 0x, 영어이면 0x20, 불어이면 0x30를 부호의 상위에 수치를 배분하게 되어 있고, 동의, 유의인 「책」과 「서적」의 부호화 수치는 하위 1바이트가 다르고, 다른 수치는 같게 되어 있으며, 한편 「책」과 「book」과 「livre」는 각각 동의, 유의로 해석할 수 있고, 언어만이 상이하므로 부호화 수치는 상위 바이트가 다르도록 부호화 처리가 행해지고 있다.
여기서, 상술한 형태소 해석 데이터 부호화부(2)가 문서 정보 형태소 해석부(1)로 해석하여 추출한 단어(형태소를 포함)를 수치로 부호화할 때에, 도 3또는 도 4에 나타내는 동의어 사전 등(11,12,13)을 참조하게 되어 있다.
예컨대, 문서 정보 형태소 해석부(1)가 형태소 해석 처리를 행한 결과, 추출한 것이 단어 「책」인 경우는, 그 단어 「책」은 0x73a52100과의 수치로 부호화 처리가, 형태소 해석 데이터 부호화부(2)에 의해 행하여지게 되고 있다. 대역 사전을 이용하는 경우도 동일하여, 도 4에 나타내는 대역 사전 표의 부호화 수치를 참조하여 부호화 처리가 행해지도록 되어 있다.
또한, 동의어 사전등(11,12,13)을 참조하여 형태소 해석 데이터 부호화부(2)에서 수치화된 부호는 동의어 사전등(11,12,13)을 참조하지 않고서 수치화된 부호화 형태소 데이터와 동일하게, 문서 정보 인덱스의 작성에 이용된다.
형태소 해석 데이터 부호화부(2)는 문서 정보 인덱스 작성부(5)가 문서 정보 인덱스를 작성하기 때문에, 부호화 처리를 행한 형태소 데이터와 문서ID(identifer ;식별자)를 넘겨 주게 되어 있다.
이하, 본 발명의 실시 형태에 이러한 정보 격납 검색 장치(100)의 주요부 구성의 기능등을 사례별로 설명한다.
(1a) 문서 정보의 데이터 베이스에의 격납
키보드 혹은 네트워크 등으로부터 입력되는 문서 정보를 문서 정보 형태소 해석부(1)는 각 코드화된 문서열 중간에서부터 형태소의 해석을 행하여, 해석에 의해 추출한 단어(형태소를 포함)를 형태소 해석 데이터 부호화부(2)에 출력하게 되어 있고, 형태소의 해석에 있어서는 그 언어의 특징을 고려한 형태소의 해석을 행한다.
이와 같이, 문서 정보 형태소 해석부(1)는 형태소 해석 처리를 함으로써 입력된 문서 정보로부터 문서 구성 요소로서의 형태소를 추출하는 형태소 해석부로서 기능을 발휘한다.
문서 정보 형태소 해석부(1)에서 문서 구성 요소로서 추출된 단어(형태소를 포함)는, 형태소 해석 데이터 부호화부(2)에 의해 소정의 수치로 부호화 처리가 행해지고, 예컨대 단어 등을 소정의 수치로 부호화할 때는 동의어 사전등(11,12,13)을 참조하여, 도 2 또는 도 3에 나타내는 표와 같이 동의·유의로 간주되는 단어 등에 대하여 동일한 코드 패턴을 형성하도록 하여, 수치 부호화 처리가 형태소 해석 데이터 부호화부(2)로써 행하여지도록 되어 있다.
이와 같이, 형태소 해석 데이터 부호화부(2)는 형태소 해석부에서 추출된 형태소를 부호화하는 부호화부로서의 기능을 발휘하게 되어 있다.
부호화 데이터 압축부(3)는 형태소 해석 데이터 부호화부(2)에 있어서, 코드화된 문서열 중의 형태소를, 출현 빈도에 따라서 더욱 소정의 코드화를 행하는 것이다. 즉, 문서 정보로서 출현율이 높은 단어(형태소를 포함)를 짧은 코드로 하는 것으로 압축하는 것이다.
이와 같이, 부호화 데이터 압축부(3)는 부호화부에서 부호화된 형태소에 압축 처리를 행하는 압축부로서의 기능을 발휘하는 것이다.
그리고, 데이터 베이스(4)에는 부호화 데이터 압축부(3)에서 부호화 형태소 데이터를 다시 다른 수치로 부호화한 문서 정보가 격납되도록 되어 있고, 이것에 의해 데이터 베이스(4)는 압축부에서 압축된 부호화 형태소를 격납하는 기억부로서기능을 다하는 것이다.
형태소 해석 데이터 부호화부(2)에 의한 부호화 처리에 의해 소정의 수치로부호화되어 있는 부호화 형태소 데이터는 문서 정보 인덱스를 작성할 때에도 이용되고, 이 문서 정보 인덱스의 작성은 문서 정보 인덱스 작성부(5)가 행하게 되어 있다.
이와 같이, 문서 정보 인덱스 작성부(5)는 부호화부에서 부호화된 형태소의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부로서의 역할을 다하는 것이다.
문서 정보 인덱스 작성부(5)에 의해 작성된 문서 정보 인덱스는 문서 정보 인덱스 기억부(6)에 격납되어, 데이터 베이스(4)에 격납되어 있는 문서 정보의 검색에 있어서 이용할 수 있게 되어 있다.
여기서, 문서 정보 인덱스 기억부(6)에서는 형태소 해석 데이터 부호화부(2)에 의해 부호화된 형태소 데이터와 문서 ID를 이용하여 문서 정보 인덱스를 기억하게 되어 있고, 문서 정보 인덱스 기억부(6)는 인덱스 작성부에서 작성된 인덱스를 격납하는 인덱스 기억부로서의 기능을 발휘하는 것이다.
상술의 구성을 구비한 제1 실시 형태에 관련된 정보 격납 검색 장치(100)의 문서 정보의 격납의 동작을 도 4등을 이용하여 이하에 설명한다.
문서 정보를 격납할 때에는, 키보드나 네트워크 등을 통해 입력(단계 S010)되는 문서 정보를 문서 정보 형태소 해석부(1)가 형태소의 해석을 행한다.
이 해석의 실행은 문서 정보를 데이터 베이스(4)에 격납할 때에, 문서 정보를 입력함으로써, 문서 정보에 대하여 형태소 해석 처리를 행하고, 키보드나 네트워크 등을 통해 입력된 문서 정보로부터 문서 구성 요소로서의 형태소를 추출한다(형태소 해석 단계 S020).
형태소 해석 단계에서 문서 정보 형태소 해석부(1)가 해석하여 추출한 단어(형태소를 포함)를, 형태소 해석 데이터 부호화부(2)는 도 2이라든지 도 3에 나타내는 것과 같은 동의어 사전등(11,12,13)을 참조하여, 동의·유의의 단어(형태소를 포함)와 같은 코드 패턴의 수치로 부호화한다(부호화 단계 S030).
부호화 데이터 압축부(3)는 부호화 단계에서 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화한 부호화 형태소 데이터를, 단어(형태소를 포함)의 출현 빈도 등을 고려하여, 예컨대 출현 빈도가 높은 단어 등에는, 간단한 코드를 부호화하는 혹은 코드가 가변 길이인 경우에, 출현율이 높은 단어라든지 단락 정도, 부호화한 코드 길이를 짧게 하는 것이고 또한, 반대로 출현율이 낮은 단어라든지 단락 정도, 부호화한 코드 길이가 길어지는 등의 부호화 처리를 행한다(압축 단계 S040).
압축 단계로서 부호화 데이터 압축부(3)로 압축된 부호화 형태소 데이터를 2차 기억 장치등의 데이터 베이스(4)에 기록하여, 데이터 베이스(4)는 압축 단계에서 압축된 부호화 형태소를 격납한다(기록 단계 S050).
문서 정보 인덱스 작성부(5)는 부호화 단계로서 형태소 해석 데이터 부호화부(2)로 부호화된 형태소의 정보에 기초하여, 문서 정보 인덱스를 작성하여, 문서 정보 인덱스 기억부(6)에 기억한다(인덱스 작성 단계, 인덱스 기억 단계 S031).
또한, 문서 정보 인덱스의 작성에 있어서, 형태소 해석 단계에서 문서 정보형태소 해석부(1)가 추출한 단어(형태소를 포함)를 이용하여 문서 정보 인덱스를 작성하도록 하여도 좋다(인덱스 작성 단계, 인덱스 기억 단계 S021).
여기서, 단어(형태소를 포함) 혹은 부호화 형태소 해석 데이터의 어느 하나를 이용하여 문서 정보 인덱스를 작성 여부는 장치의 설계 사항에 의존하게 되어 있다.
이와 같이, 제1 실시 형태에 관한 정보 검색 장치(100)는 문서 정보 형태소 해석부(1)와, 형태소 해석 데이터 부호화부(2)와, 부호화 데이터 압축부(3)와, 데이터 베이스(4)를 구비하여 구성되는 것으로, 문서 정보 형태소 해석부(1)가 해석하여 추출한 형태소를 형태소 해석 데이터 부호화부(2)가 부호화하여, 부호화 데이터 압축부(3)가 부호화 데이터를 더욱 압축하는 것으로, 당초의 문서 정보의 데이터 용량을 작게 하므로, 대용량 데이터의 문서 정보를 격납하는 것에 필요한 영역을 작게 할 수 있다.
또한, 이 정보 격납 검색 장치(100)는 문서 정보 인덱스의 작성에 이용하는 부호화 형태소 데이터와 압축하기 위한 부호화 형태소 데이터를 동시에 작성하는 처리를 행하기 때문에, 별도로 독립적으로 문서 정보 인덱스를 작성하는 경우에 비하여, 문서 정보 인덱스의 작성에 시간을 요하지 않을 수 있다.
형태소 해석 데이터 부호화부(2)에서의 부호화에 이용하는 단어(형태소를 포함)와 문서 정보 인덱스 작성부(5)에서 이용하는 단어의 추출(분할)을, 문서 정보 형태소 해석부(1)에서 한번의 처리로 행함으로써, 대단히 효율적이고, 문서 정보 형태소 해석부(1)와 형태소 해석 데이터 부호화부(2)에서 독자적으로 단어의 추출처리를 행하는 경우보다, 시간을 단축할 수 있고 또한 제1 실시 형태에 관한 정보 검색 격납 장치(100)는 동의어 사전(11), 시소러스(12) 및 대역 사전(13)을 구비하여 구성되어 있기 때문에, 형태소 해석 데이터 부호화부(2)가 동의어 사전(ll), 시소러스(12) 및 대역 사전(13)의 정보를 이용하여 문서의 분야라든지 내용에 합친 형태소(혹은 단어)를 부호화하는 것으로, 단순한 기호열의 압축이 아니고, 형태소의 해석을 이용하여 형태소(혹은 단어)를 추출하여, 문서 내용에 모두 합하여 부호화를 행하고, 또한 그 부호열을 압축하므로 높은 압축율을 바랄 수도 있다.
(1b) 데이터 베이스에 격납되어 있는 문서 정보의 검색
문서 정보 형태소 해석부(1)는 검색 질문을 해석하여 단어(형태소를 포함)를 추출하는 것이다. 이것을 바꿔 말하면, 코드화되어 입력된 문자열로서의 검색 질문을 문서 정보 형태소 해석부(1)는 형태소 해석 처리를 행하도록 되어 있다.
여기서, 검색 질문은 데이터 베이스(4)에 격납하는 문서 정보와 같이, 키보드, 화일, 네트워크 등을 통해 문서 정보 형태소 해석부(1)에 입력되게 되어 있다. 여기서, 예컨대 입력되는 검색 질문으로는 단어 혹은 구 등이 해당한다.
형태소 해석 데이터 부호화부(2)는 문서 정보 형태소 해석부(1)에서 검색 질문을 해석하여 추출한 단어(형태소를 포함)를 소정의 수치로 부호화 처리를 행하는 것이지만 여기서, 검색 질문중의 형태소등을 수치화할 때의 수치는, 격납하는 문서 정보의 단어(형태소를 포함)를 부호화할 때에 이용되는 수치와 같은 수치가 사용되도록 되어 있다. 즉, 이 형태소 해석 데이터 부호화부(2)는 일률적인 수치 부호화 처리를 문서 정보 형태소 해석부(1)가 추출한 단어(형태소를 포함)로 행하도록 되어 있다.
여기서, 문서 정보 형태소 해석부(1)에서 해석에 의해 추출한 단어(형태소를 포함)를 수치에 부호화하는 있어서는, 도 2 또는 도 3에 나타내는 동의어 사전등(11,12,l3)을 참조하여, 검색 질문의 단어(형태소를 포함)에 대한 부호화 처리를 형태소 해석 데이터 부호화부(2)가 행하도록 되어 있다.
대조 판정부(8)는 형태소 해석 데이터 부호화부(2)가 검색 질문의 단어(형태소를 포함)를 수치에 부호화한 부호화 형태소 데이터를 이용하여, 문서 정보 인덱스 기억부(6)에 격납되어 있는 문서 정보 인덱스를 검색하는 것으로, 이 검색에 있어서, 인덱스 중에, 검색 질문의 부호화 형태소 데이터와 일치하는 것이 있는 경우에는, 그 문서 ID에 대응하는 문서 정보를, 압축 부호화 데이터 복원부(7)로 전하도록, 데이터 베이스를 제어하게 되어 있다.
또한, 대조 판정부(8)는 데이터 베이스(4)로부터의 복원된 부호화 형태소 데이터와 검색 질문의 부호화 형태소 데이터가 일치하는지 여부에 관해서의 판정 처리를 행하도록 되어 있다.
여기서, 복원한 부호화 형태소 데이터가 검색 질문에 완전히 일치하는 검색 처리를 행할 때는, 대조 판정부(8)는 부호화 수치가 완전히 일치하는지 여부를 판정하고, 한편 애매한 검색 처리를 실행하는 때는, 부호화 수치에 어떠한 처리를 가한뒤에, 일치하는가 아닌가를 판정하도록 되어 있다. 예컨대, 검색 대조에 유의어를 허용하는 검색에 있어서는, 도 2에 나타내는 바와 같이 「책」과 「서적」과 같 이 유의 관계에 있는 부호화 수치는 하위1바이트가 다를 뿐이므로, 대조 판정부(8)는 하위 1 바이트를 마스크하여 검색을 행하고, 이 하위 1 바이트를 제외한 부호화 수치가 일치하는지 여부를 판정하는 것으로 애매한 검색을 행하는 것이다.
또한, 대조 판정부(8)는 단지 단어의 일치뿐만 아니라, 동일한 검색시 조건(단어의 출현 위치등)에 맞는지를 판단할 수 있게 되어 있고, 검색 질문에 출현 위치 등 원래의 문서 정보를 확인할 필요가 있는 경우에는, 압축 부호화 데이터 복원부(7)를 통하여 원래의 문서를 부분적으로 복원하도록 되어 있다.
이와 같이, 대조 판정부(8)는 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조부로서의 기능을 발휘한다.
그리고, 압축 부호화 데이터 복원부(7)에서는 데이터 베이스(4)로부터의 압축된 문서 정보 데이터를 소정의 수치로 부호화하게 되고 있고, 이것은 부호화 데이터 압축부(3)에서의 압축과는 역의 처리로서 위치가 부여된다.
이와 같이, 압축 부호화 데이터 복원부(7)는 압축부에서 압축된 부호화 형태소를 격납하는 기억부를 알고 있는 문서 정보 격납 장치에 있어서의 기억부에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원부로서의 기능을 발휘하는 것이다.
부호화 형태소 복호화부(9)는 대조 판정부(8)에서 검색 질문에 적합한 형태소 데이터를 복원할 필요가 있는 경우에, 단어(형태소를 포함)에 복원하는 것이다. 즉, 이 부호화 형태소 복호화부(9)는 형태소 해석 데이터 부호화부(2)에서 소정의 수치에 부호화 처리가 행해진 단어(형태소를 포함)를 수치로부터 단어(형태소를 포함)로 처리하는 형태로 되어 있다. 여기서, 소정의 단어(형태소를 포함)에 대한 부호화 수치는 일률적으로 정해져 있기 때문에, 부호화 형태소 복호화부(9)는 소정의 부호화 형태소 데이터를 형태소로 일률적으로 복호화 처리를 행하는 것이어서, 형태소 해석 데이터 부호화부(2)에서의 부호화 처리에 대해 역처리에 해당하는 것이다.
이와 같이, 부호화 형태소 복호화부(9)는, 대조 결과에 기초하여 복원부에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화부로서 기능을 발휘한다.
상술의 구성을 구비한 제1 실시 형태에 이러한 정보 격납 검색 장치(100)의 문서 정보의 검색의 동작을 도 5등을 이용하여 이하에 설명한다.
키보드 또는 네트워크 등을 통해 입력(단계 Sll0)되는 검색 질문(단어라든지 구등)을, 문서 정보 형태소 해석부(1)가 해석에 의해 단어(형태소를 포함)를 추출한다(형태소 해석 단계 S120).
형태소 해석 데이터 부호화부(2)는 형태소 해석 단계에서 문서 정보 형태소 해석부(1)가 검색 질문을 해석하여 추출한 단어(형태소를 포함)를 예컨대, 도 2 또는 도 3에 도시된 것과 같은 동의어 사전등(11,12,13)을 참조하여, 동의·유의의 단어(형태소를 포함)에 같은 코드 패턴의 수치화를 행한다(부호화 단계 S130).
부호화 단계에서 형태소 해석 데이터 부호화부(2)가 소정의 수치에 부호화한 검색 질문을 이용하여, 대조 판정부(8)는 같은 수치를 가지는 부호가 문서 정보 인덱스에 있는지의 검색을 행한다(단계 Sl40).
그리고, 대조 판정부(8)는 문서 정보 인덱스를 검색한 결과, 해당하는 것이 있는 경우에는, 데이터 베이스(4)에 축적되어 있는 압축 형태소 데이터를 압축 부호화 데이터 복원부(7)로 출력하도록 제어한다. 여기서, 검색 결과 해당하는 문서가 복수 있는 경우에는, 그 수 만큼의 문서를 압축 부호화 데이터 복원부(7)로출력하도록 되어 있다.
여기서, 대조 판정부(8)는 검색에 의해 출현 위치 등 원래의 문서의 확인이 필요한지 여부를 고려하여(단계 Sl5), 확인이 필요한 때에는 데이터 베이스(4)에 축적되어 있는 원래의 문서의 내용을 부분적으로 복원하도록 제어한다. 여기서, 압축 부호화 데이터 복원부(7)는 데이터 베이스(4)로부터의 압축되어 있는 문서 정보를 소정의 부호로 복원한다(복원 단계 Sl51).
또한, 대조 판정부(8)는 문서 정보 인덱스의 검색에 의해, 검색하는 부호의 수치와 같은 부호를 검출한 경우에는, 검색 질문에 적합한가 아닌가를 확인한다(대조 단계 S160).
대조 판정부(8)는 검색의 결과를 결과 출력부(10)으로부터, 결과 출력부(l0)는 원래의 문서의 내용으로서 복호화할 필요가 있을때(단계 Sl70), 예컨대 대조 판정부(8)에서 검색 질문에 적합한 문서 정보를 확인하여, 그 원래의 문서의 내용으로 출력할 필요가 있는 경우, 부호화 형태소 복호화부(9)로 부호화 형태소 데이터를 건네주고, 원래의 문서의 내용으로 복호한다(복호화 단계 S171).
그리고, 결과 출력부(10)는 부호화 형태소 복호화부(9)에서 복원된 원래의 문서의 내용 등의 검색 결과를 출력한다(단계 S180).
이와 같이, 제1 실시 형태에 이러한 정보 격납 검색 장치(100)는 문서 정보 형태소 해석부(1)와, 형태소 해석 데이터 부호화부(2)와, 부호화 데이터 압축부(3)와, 데이터 베이스(4)와, 압축 부호화 데이터 복원부(7)와, 대조 판정부(8)와, 부호화 형태소 복호화부(9)를 구비하여 구성되기 때문에, 대용량의 문서 정보 데이터를 공간을 절약하여 격납하면서, 필요한 문서 정보를 검색할 수 있다.
또한, 이 정보 격납 검색 장치(100)는 대조 판정부(8)가 부호화 형태소 형식의 질문과, 압축 부호화 데이터 복원부(7)로 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 어떤지를 판정함으로써, 대용량의 압축한 문서 정보로부터 필요한 사항을 검색할 수 있다.
(1c) 문서 정보의 검색
그런데, 문서 정보 인덱스 작성부(5)가 문서 정보 형태소 해석부(1)에서의 해석에 의해 추출된 단어(형태소를 포함)를 이용하여 문서 정보 인덱스를 작성한 경우에 있어서의, 제1 실시 형태에 이러한 정보 격납 검색 장치(100)의 문서 정보의 검색의 동작을 도 6등을 이용하여 이하에 설명한다.
먼저, 키보드, 파일 또는 네트워크 등으로부터 검색 질문(단어 혹은 구등)을 입력한다(단계 S210).
다음에, 그 검색 질문을 형태소 해석부(1)가 형태소를 해석하여 단어(형태소를 포함)를 도출한다(형태소 해석 단계 S220).
그 단어를 사용하여, 대조 판정부(8)는 문서 정보 인덱스(6)내를 검색한다(단계 S230).
검색 질문에 출현 위치 등 원래의 문서를 확인할 필요가 있는 경우에는, 압축 부호화 데이터 복원부(7) 및 부호화 형태소 복호화부(9)를 통하여 원래의 문서를 부분적으로 복원하여(단계 S240, 복원 단계 S241), 대조 판정부(8)는 복원한 문서의 내용이 검색 질문의 조건에 적합하는 것일까 확인한다(대조 단계 S250).
그리고, 검색 결과에 관해서, 원래의 문서의 내용을 출력할 필요가 있는 경우에는, 데이터 베이스(4)에 격납되어 있는 압축 데이터를 압축 부호화 데이터 복원부(7) 및 부호화 형태소 복호화부(9)를 통하여 복호화한다(단계 S260, 복호화 단계 S261).
최후에, 검색의 결과를 출력한다(단계 S270).
이러한 형태소 해석부(1)에서 해석에 의해 추출된 단어(형태소를 포함)를 이용하여 작성된 문서 정보 인덱스를 이용한 문서 정보의 검색에 의해서도, 상기(1b)의 문서 정보의 검색과 같이, 문서 정보 격납 검색 장치는 대용량의 문서 정보 데이터를 공간을 절약하여 격납하면서 필요한 문서 정보를 검색할 수 있는 동시에, 대용량의 압축한 문서 정보로부터 필요한 사항을 매우 원활히 검색할 수 있다.
(2) 제2 실시 형태의 설명
도 7은 본 발명의 제2 실시 형태로서 정보 격납 검색 장치(200)를 나타내는 도이고, 이 도 7에 나타내는 정보 격납 검색 장치(200)는 전술한 제1 실시 형태에 있어서의 것에 비하여, 동의어 사전 등(11,12,13)을 대신하여 인명 사전(14) 및 우편 번호 사전(15)을 구비하여 구성되어 있는 점이 다르고, 기타(부호 1,2,3,4,5, 6,7,8,9,10 참조)의 구성은 동일하다.
또한, (1)에서 이용한 것과 같은 것에 관해서는 그 설명을 생략한다.
여기서, 도 8은 인명 사전의 일체의 표를 나타내는 도이고, 이 도 8에 도시된 바와 같이 인명 사전은 사람의 이름, 성명, person's name의 표제에 대응한 부호(수치)를 축적한 것이고, 한편 우편 번호 사전(15)은 장소(지역용 토지)에 대응한 부호(수치)를 축적하는 것이며, 이들 사전(14,15)은 동의어 사전등(11,12,13)과 동일하게, 형태소 해석부(1)에서 분할(추출)된 단어(형태소를 포함)를 부호화부에서 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 행할 때에 참조하는 것이다. 또한, 인명 사전등(14,15)은 형태소 해석부로서 문서 정보 형태소 해석부(1)가 데이터 베이스(4)에 격납하는 문서 정보 및 검색 질문을 해석하여 단어(형태소를 포함)를 추출할 때에 참조하는 것이다. 또한, 상기의 제1 실시 형태에 이러한 문서 정보 격납 검색 장치(l00)에 있어서도, 동의어 사전등(11,12,13)을 참조하여 문서 정보 형태소 해석부(1)가 해석에 의해 단어(형태소를 포함)를 추출하는 것 같은 구성을 취할 수 있다.
여기서, 인명 사전(14)은 동음의 호칭 등에는 같은 부호화 처리를 행하기 위해서, 동음의 호칭 등에는 유사한 부호화 수치를 할당하게 되고 있고, 도 8에 나타내는 인명 사전도 인명「나카다」의 부호화 수치는 0x7350이고, 한편, 인명「나가타」에는 0x7351의 부호화 수치가 할당되고 있고, 하위1바이트가 다른 유사의 수치로 부호화되게 되고 있고, 인명(표제)에 대응한 부호화 수치를 나타내고 있다.
또한, 인명 사전(14)과 같이, 우편 번호 사전(15)은 근린 지역에는 비슷한 부호화 수치가 할당되어 있다. 여기서, 도 9는 우편 번호 사전의 한쪽면의 표를 나타내는 도이고, 이 도 9에 도시된 바와 같이 우편 번호 사전은 토지명「가나가와켄 가와사키시 사이와이구」에 부호화 수치 210이 할당되고 있는데 비하여, 토지명「가나가와켄 가와사키시 나카하라구」에는 211, 토지명「가나가와켄 가와사키시 다카쓰구」에는 213 등의 부호화 수치가 할당되고 있고, 하위 1바이트가 다른 유사한 수치로 부호화되게 되어 있으며, 토지명(지역명)(표제)에 대응한 부호화 수치 우편 번호)를 나타내고 있다.
이하, 문서 정보의 격납과 문서 정보의 검색으로 나누어, 제2 실시 형태에 관련된 정보 격납 검색 장치(200)의 동작 등을 설명한다.
(2a) 문서 정보의 격납
상술의 구성에 의해, 본 발명의 제2 실시 형태에 이러한 정보 격납 검색 장치(200)는 전술의 제1 실시 형태와 동의어 사전 등(11,12,13)을 인명 사전등(14,15)을 대신하여 동일하게 동작한다.
여기서, 본 발명의 제2 실시 형태에 관해서, 도 10에 나타내는 문서 정보가 어떻게 처리되어 데이터 베이스(4)에 격납되는가를, 도 11을 이용하여 이하 설명한다.
도 l0은 데이터 베이스(4)에 문서 정보를 격납하는 동작을 설명하기 위한 문서 정보의 일례를 나타내는 도이고, 이 도 10에 도시된 바와 같이 문서 번호(13)의 문서 정보에는 성명 외에 주소가 포함되어 있다.
또한, 도 ll은 문서 정보의 격납 처리에 있어서의 문서 정보의 흐름을 나타내는 도이고, 문서 정보(문서 번호 ID13)는, 키보드나 네트워크등으로부터 정보 격납 검색 장치(200)로 보내진다. 예컨대, 문서 정보(문서 ID13) 속의 「다나카 마모루 가나가와켄 가와사키시 나카하라구 시모우다츄…는, 코드화된 문자열의 정보로서 입력된다(단계 S310).
네트워크 등으로부터 입력되어온 부호열의 문서 정보는 문서 정보 형태소 해석부(1)에서의 해석에 의해, 단어(형태소를 포함)로 추출되어(형태소 해석 단계 S320), 단어(형태소를 포함) 마다 분할된다. 즉, 문서 정보 형태소 해석부(1)는, 네트워크등으로부터 입력된 단어(형태소를 포함)를 인명 사전등(14,15)을 기준으로 단어(형태소를 포함)의 분할(추출)처리를 행한다.
형태소 해석 데이터 부호화부(2)는 형태소 해석 단계에서 분할된 단어(형태소를 포함)를, 도 8 및 도 9에 나타내는 인명 사전이나 우편 번호 사전을 참조하여, 소정의 수치로 부호화 처리를 행한다.
즉, 형태소 해석 데이터 부호화부(2)에서의 처리에 의해, 각 분할된 단어(형태소를 포함)는 도 8을 참조하여 인명「나가타」는 「0x7351」에, 한편 인명 「마모루」는 「0xa120」에, 도 9를 참조하여 주소「가나가와켄 가와사키시 나카하라구」는 「211」에, 한편으로 주소「시모우다츄」은 「0xff23」가 된다(부호화 단계 S330). 부호화 단계로서 형태소 해석 데이터 부호화부(2)에서, 소정의 수치로 부호화 처리가 행해진 부호화 형태소 데이터는, 부호화 데이터 압축부(3) 및 문서 정보 인덱스 작성부(5)로 보내진다. 인덱스 작성부(5)에서는 형태소 해석 데이터 부호화부(2)에서 부호화된 형태소 데이터와 문서ID를 기초로, 문서 정보 인덱스를 작성한다. 예컨대, 부호화 단계로서 형태소 해석 데이터 부호화부(2)에 있어서, 부호화된 인명 「나카타」, 「마모루」 등의 부호화 수치「0x7351」, 「0xal20」 등을 표제로 하여, 그것에 대응하는 문서 ID의 내용을 포함한 문서 정보 인덱스가 작성된다(인덱스 작성 단계 S340).
한편, 부호화 데이터 압축부(3)는 형태소 해석 데이터 부호화부(2)로써 부호화된 수치「0x 7351 0xa l20 2110xff23…」등에, 또한 다른 수치로 부호화하는 압축의 처리를 베풀기(압축 단계), 기억부로서의 데이터 베이스(4)에 압축한 부호화 형태소 데이터를 격납한다(기억 단계).
이와 같이 정보 격납 검색 장치(200)에 의하면, 문서 정보(예컨대, 문서IDl3 중의 「다나카 마모루…‥」)를 직접 압축하는 것은 아니고, 한번 형태소 해석부로서의 문서 정보 형태소 해석부(1)를 통해 형태소를 해석하고, 인명사전 등( l4,15)을 참조하여 부호화부로서의 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 행하고, 다시 부호화된 형태소 데이터를 부호화 데이터 압축부(3)가 압축을 행하면서, 또한 원래의 문서(네트워크등으로부터 입력되는 문서 정보)의 성질을 고려하고 부호화를 행하는(예컨대, 명부의 경우, 인명이라든지 주소를 기초로 부호화함)것과 더불어 높은 압축률을 기대할 수 있다.
또한, 부호화 단계에서의 부호화에 이용하는 단어(형태소를 포함)와 문서 정보 인덱스 작성부(5)에서 이용하는 단어의 추출(분할)을 형태소 해석부로서의 문서 정보 형태소 해석부(1)에서 한번의 처리로 행하기 때문에 매우 효율적이며, 형태소 해석 데이터 부호화부(2)와 문서 정보 인덱스 작성부(5)에서 독자적으로 단어의 추출 처리를 행하는 경우보다 시간을 단축할 수 있다.
(2b) 문서 정보의 검색
그런데, 본 발명의 제2 실시 형태에 있어서, 데이터 베이스(4)에 격납되어있는 문서 정보를 어떻게 검색하는가를 도 12를 이용하여 이하 설명한다.
도 12는 문서 정보의 검색 처리에 있어서의 문서 정보의 흐름을 나타내는 도이고, 검색 질문은 키보드라든지 네트워크등을 통해 정보 격납 검색 장치(200)로 입력된다. 예컨대, 검색 질문 「나가타」와 동시에 검색 조건「같은 호칭으로 문자가 다른 경우를 포함」이 코드화된 문자열의 정보로서 입력되어 온다(단계 S410).
네트워크 등으로부터 입력되어오는 검색 질문은, 데이터 베이스(4)에 격납되는 문서 정보와 동일하게, 형태소 해석 단계에서문서 정보 형태소 해석부(1)의 해석에 의해, 단어(형태소를 포함)를 추출되고, 각 분할된 단어(형태소를 포함)는 형태소 해석 데이터 부호화부(2)에 있어서 소정의 수치로 부호화 처리가 행해진다(부호화 단계 S420).
여기서, 형태소 해석부(1)및 형태소 해석 데이터 부호화 처리부(2)에서는 표제(색인)를 공통으로 하는 인명 사전등(14,15)을 기준으로 각 처리가 실행된다.
즉, 검색 질문「나가타」를, 문서 정보 형태소 해석부(1)가 인명 사전(14)을 참조하여, 해석에 의해 단어「나가타」를 추출하고, 단어 「나가타」를 형태소 해석 데이터 부호화부(2)가, 동일하게 인명 사전(14)을 참조하여 소정의 수치「0x 7351」에 부호화 처리를 행한다.
검색 조건으로서 「이름을 나타내는 문자가 다르더라도 좋다」를 지정하고 있기 때문에, 대조 판정부(8)는 검색 조건에 따라서, 검색 질문의 부호화 수치「0x 7351」 에 대하여 하위1바이트에 마스크를 걸어, 문서 정보 인덱스 기억부(6)에 기억되어 있는 문서 정보 인덱스(6-1)를 검색한다(단계 S430). 또한, 여기서, 하위 1바이트에 마스크를 건다고 하는 것은, 인명 사전에 포함되어 있는 동음의 인명에 대하여서는, 하위 1바이트의 수치가 다르도록 부호가 할당되고 있기 때문이다.
도 12에 나타내는 문서 정보 인덱스(6-1)를 대조 판정부(8)가 하위 1 바이트에 마스크를 건 부호화 수치를 이용하여 검색을 행하면, 상위 바이트가 「 0x 735」인 문서 ID는 문서 ID 13, 29, 97, 152인 것을 검출한다(단계 S440).
그 후, 결과 출력부(10)가 결과를 출력한다. 그 때에, 문서 ID를 출력하는것 뿐만 아니라, 실제로 내용을 표시하는 경우에는, 복호화 단계에서 형태소 복호화부(9)가 복호화한 결과를 표시한다.
이와 같이, 본 발명의 제2 실시 형태에 이러한 정보 격납 검색 장치(200)에의하면, 대용량의 문서 정보를 격납하는 데이터 베이스(4)에 대한 정보 검색을 원활히 행하는 것이 가능하고, 검색 시간을 느리게 하지 않는 처리가 가능하다.
(3) 제3 실시 형태의 설명
도 13은 본 발명의 제3 실시 형태로서 정보 격납 검색 장치(300)를 나타내는 도면이고, 이 도 13에 나타내는 정보 격납 검색 장치(300)는, 동일한 언어로 쓰여진 문서 정보를 격납하는 동시에, 검색하는 것이고, 전술의 제 1실시 형태에 있어서의 것과 동일한 구성이다(부호2,3,4,5,6,7,8,9,10, 11,13참조).
또한, (1)에서 이용한 것과 같은 것에 관해서는 그 설명을 생략한다.
여기서, 정보 격납 검색 장치(300)가 여러가지 언어의 중에서 일본어, 영어및 불어에 대응하는 경우에 관해서, 이하 설명한다.
형태소 해석부에서의 문서 정보 형태소 해석부(1-1)는, 전술한 문서 정보 형태소 해석부(1)와는 다소 다르고, 일본어, 영어 및 불어의 3개 국어의 형태소를 해석하여 단어(형태소를 포함)를 추출하는 것이다.
이하, 문서 정보의 격납과 문서 정보의 검색을 구분하여, 제3 실시 형태에 관련된 정보 격납 검색 장치(300)의 동작 등을 설명한다.
(3a) 문서 정보의 격납
상술한 구성에 의해, 본 발명의 제3 실시 형태에 관련된 격납 검색 장치(300)는 전술한 제1 실시 형태와 동일하게 동작한다.
여기서, 도 14는 문서 정보의 일례를 나타내는 도면으로, 이 도 14의 (a)∼(c)에 나타내는 문서 정보를 형태소 해석 단계로서의 문서 정보 형태소 해석부(1)가 도 2에 나타내는 동의어 사전등을 참조하여 해석에 의해 단어(형태소를 포함)를 추출한다.
그리고, 그 추출하여 분할된 단어(형태소를 포함)를 부호화부로서의 형태소 해석 데이터 부호화부(2)가 도 2에 나타내는 것과 같은 동의어 사전 등을 참조하여소정의 수치로 부호화 처리를 행한다. 수치로 부호화된 부호화 형태소 데이터를 기초로, 문서 정보 인덱스 작성부(5)는, 도 15에 나타내는 것과 같은 문서 정보 인덱스(6-2)를 작성한다. 한편으로, 형태소 해석 데이터 부호화부(2)에서 수치로 부호화된 형태소 데이터는, 부호화 데이터 압축부(3)에서 또 다른 수치로 부호화하는 압축 처리를 행하고, 데이터 베이스(4)에 격납된다.
이와 같이, 제3 실시 형태에 관련된 정보 검색 장치(300)는, 복수의 다른 언어로 표기되는 문서 정보가 대량이라도 문서 정보를 직접 압축하는 것은 아니고,일단, 형태소 해석부로서의 문서 정보 형태소 해석부(1)를 통하여 형태소를 해석하고, 대역 사전(13)등을 참조하여 부호화부로서의 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 행하고, 또한 부호화한 형태소 데이터를 부호화 데이터 압축부(3)가 압축을 행하면서, 또한 원래의 문서(네트워크등으로부터 입력되어오는 문서 정보)의 성질을 고려하여 부호화를 행하는(예컨대, 명부인 경우는 인명이라든지 주소를 기초로 부호화함)것과 더불어, 높은 압축률을 기대할 수 있다.
또한, 부호화 단계에서의 부호화에 이용하는 단어(형태소를 포함)와 문서 정보 인덱스 작성부(5)로 이용하는 단어의 추출(분할)을, 형태소 해석부로서의 문서 정보 형태소 해석부(1)에 있어서의 한번의 처리로 행함으로써, 대단히 효율적이며, 형태소 해석 데이터 부호화부(2)와 문서 정보 인덱스 작성부(5)에서 독자적으로 단어의 추출 처리를 행하는 경우보다 시간을 단축할 수 있다.
(3b) 문서 정보의 검색
본 발명의 제3 실시 형태에 관해서, 데이터 베이스(4)에 격납되어 있는 문서 정보가 어떻게 검색되는가를 도 16을 이용하여 설명한다.
도 16은 문서 정보의 검색 처리에 있어서의 문서 정보의 흐름을 나타내는 도면이고, 검색 질문은 키보드라든지 네트워크등을 통해 정보 격납 검색 장치(300)에 입력된다. 예컨대, 검색 질문「서적」과 동시에 검색 조건「역어, 동의어도 가능」이 코드화된 문자열의 정보로서 입력되어 온다(단계 S510).
네트워크 등으로부터 입력되는 검색 질문은 데이터 베이스(4)에 격납하는 문서 정보와 마찬가지로, 문서 정보 형태소 해석부(1)에 있어서의 해석에 의해, 단어(형태소를 포함)가 추출되고(형태소 해석 단계), 각 분할된 단어(형태소를 포함)는 형태소 해석 데이터 부호화부(2)에서 소정의 수치로 부호화 처리가 실시된다(부호화 단계 S520).
즉, 문서 정보 형태소 해석부(1)는 검색 질문「서적」을, 도 2에 나타내는 동의어 사전을 참조하여, 해석에 의해 단어 「서적」을 분할하고, 형태소 해석 데이터 부호화부(2)가 동일하게 도 2에 나타내는 동의어 사전을 참조하여, 단어 「서적」을 소정의 수치「0x73a52101」로 부호화 처리를 행한다.
대조 단계에서 대조 판정부(8)는, 검색 조건으로서 「역어, 동의어도 가능」를 고려하여, 검색 질문의 부호화 수치「0x73a52101」를 하위 1 바이트와 상위 5 바이트째 이상을 마스크하여 문서 정보 인덱스를 검색한다(단계 S530).
대조 판정부(8)가 (도1,5)에 나타내는 문서 정보 인덱스(6-2)의 검색을 행하면, 검색 조건에 적합한 문서 번호로서 21, 34, ll9가 얻어진다(단계 S540).
그 후, 결과 출력부(10)가 결과를 출력한다. 결과를 출력할 때에, 문서 번호뿐만 아니라 실제로 내용을 표시하는 경우는, 복호화 단계에서 부호화 형태소 복호화부(9)가 복호화하여 그 결과를 결과 출력부(10)가 출력한다.
이와 같이, 본 발명의 제3 실시 형태에 이러한 정보 격납 검색 장치(300)에의하면, 복수가 다른 언어를 이용하여 대량의 문서 정보를 격납하는 데이터 베이스(4)에 대하여, 일정한 언어에 의한 검색 질문 뿐만 아니라 다른 언어로 검색할 수있고, 또한 정보 검색을 원활히 행하는 것이 가능하고, 검색 시간을 느리게하지 않은 채 처리가 가능하다.
(4) 기록 매체
(4a) 문서 정보 격납 프로그램을 기록한 기록 매체
본 발명의 실시 형태에 관한 문서 정보 격납 프로그램을 기록한 기록 매체(이하, 설명의 편의상, 부호「A」를 붙임)에 관하여, 도 1에 나타내는 것과 같은 수단을 구비하여 구성되는 문서 정보 격납 검색 장치(100)를 이용하여 설명한다.
또한, (1)로 이용한 것과 같은 것에 관하여는, 그 설명을 생략한다.
그런데, 문서 정보 격납 프로그램은, 컴퓨터에, 입력된 문서 정보에 대하여, 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 부호화 순서로 부호화된 형태소에 압축 처리를 행하는 압축 순서와, 압축 순서로 압축된 부호화 형태소를 격납하는 기억 순서를 실행시키기 위한 프로그램이지만, 컴퓨터는 기록 매체(A)에 기록되어 있는 문서 정보 격납 프로그램을 판독하고, 컴퓨터의 중앙 처리 장치(CPU)가, 각 하드 웨어에 처리의 제어를 이하에 설명하는 것과 같이 행하여지도록 되어 있다.
여기서, 컴퓨터는 프로그램이 기록되어 있는 매체(A)에서 전기, 자기 혹은 광적으로 프로그램을 판독하게 되어 있다.
문서 정보 격납 검색 장치(100)에, 네트워크 등을 통해 전기 신호라든지 빛 신호 등이 입력되면, 컴퓨터는 형태소 해석 순서로서, 문서 정보 형태소 해석부(1)에, 입력된 문서 정보를 해석하여 단어(형태소를 포함)를 추출하도록 제어하며, 분리한 단어(형태소를 포함)를 부호화 순서로서의 형태소 해석 데이터 해석부(2)에 출력하도록 제어한다.
부호화 순서로서 형태소 해석 데이터 부호화부(2)는 컴퓨터의 실행 제어하에서, 문서 정보 형태소 해석부(1)에서 분리된 단어(형태소를 포함)를 소정의 수치로 부호화 처리를 행한다.
수치로 부호화된 형태소 해석 데이터를 컴퓨터는, 압축 순서로서, 부호화 데이터 압축부(3)에 또한 다른 수치로 부호화의 압축 처리를 행하도록 제어한다.
컴퓨터는 기억 순서로서, 데이터 베이스(4)에 대하여, 부호화 데이터 압축부(3)에서 압축된 압축 부호화 형태소 데이터를 기록하도록 제어한다.
이와 같이, 본 발명의 실시 형태에 관한 문서 정보 격납 프로그램을 기록한 기록 매체에 의하면, 컴퓨터의 제어하에서 문서 정보권 격납시에, 문서 정보를 직접 압축하는 것은 아니라 일단 형태소 해석부로서의 문서 정보 형태소 해석부(1)를 통하여 형태소를 해석하고, 부호화부로서의 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 행하고, 또한 부호화한 형태소 데이터를 부호화 데이터 압축부(3)가 압축을 행하기 때문에 높은 압축율을 기대할 수 있다.
그런데, 상기의 기억 매체(A)에 대하여, 컴퓨터에 형태소 해석 순서로 추출된 형태소 및 부호화 순서로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 순서와 인덱스 작성 순서로 작성된 인덱스를 인덱스 기억 수단에 격납시키는 인덱스 기억 순서를 실행시키는 프로그램을 부가한 문서 정보 격납 프로그램을 기록한 기록 매체(이하, 설명의 편의상, 부호「B」를 붙임)에 관하더라도, 상술의 기억 매체(A)와 같이 높은 압축율을 기대할 수 있다.
여기서, 인덱스 작성 순서로서, 컴퓨터는 인덱스 작성부(5)에 문서 정보 형태소 해석부(1)에 있어서 추출된 단어(형태소를 포함) 혹은 형태소 해석 데이터 부호화부(2)에 있어서 소정의 수치로 부호화된 부호화 형태소 데이터를 이용하여 문서 정보 인덱스를 작성하도록 제어하여, 인덱스 기억 순서로서 컴퓨터는 문서 정보 인덱스 작성부(5)에 작성한 문서 정보 인덱스를 기억하도록 제어한다.
이렇게 하여, 기록 매체(B)는 또한 부호화 단계에서의 부호화에 이용하는 단어(형태소를 포함)와 문서 정보 인덱스 작성부(5)에서 이용하는 단어의 추출(분할)을, 형태소 해석부로서의 문서 정보 형태소 해석부(1)에 있어서의 한번의 처리로 행함으로써, 대단히 효율적이며, 형태소 해석부(1)와 형태소 해석 데이터 부호화부(2)에서 독자적으로 단어의 추출 처리를 행하는 경우보다 시간을 단축할 수 있다.
(4b) 문서 정보 검색 프로그램을 기록한 기록 매체
본 발명의 실시 형태에 관한 문서 정보 검색 프로그램을 기록한 기록 매체(이하, 설명의 편의상, 부호「C」를 붙임)에 관하여, 도 1에 나타내는 것과 같은 수단을 구비하여 구성되는 문서 정보 격납 검색 장치(100)를 이용하여 설명한다.
또한, (1) 등에서 이용한 것과 같은 것에 관해서는 그 설명을 생략한다.
그런데, 문서 정보 검색 프로그램은 입력된 검색 질문에 관해서, 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 기억 수단에격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 순서와, 부호화 순서로 얻어진 부호화 형태소 형식의 검색 질문과, 복원 순서로 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조 순서와, 대조 순서에서의 대조 결과에 기초하여, 복원 순서로 복원된 부호화 형태소 데이터를 형태소로 되돌리는 형태소 복호화 순서를 컴퓨터에 실행시키기 위한 프로그램이나, 컴퓨터는 기록 매체(C)에 기록되어 있는 문서 정보 검색 프로그램을 판독하여, 컴퓨터의 중앙 처리 장치(CPU)가, 각 하드웨어에 처리의 제어를 이하에 설명하도록, 행하여지도록 되어 있다.
문서 정보 격납 검색 장치(100)에 네트워크 등을 통해 전기적 신호라든지 빛 신호 등이 입력되면 컴퓨터는 형태소 해석 순서로서 문서 정보 형태소 해석부(1)에, 입력된 검색 질문을 해석하여(형태소를 포함)를 추출하도록 제어한다.
부호화 순서로서 형태소 해석 데이터 부호화부(2)는 컴퓨터의 실행 제어하에서, 문서 정보 형태소 해석부(1)에 의해, 분리된 단어(형태소를 포함)를 소정의 수치로 부호화 처리를 행한다.
컴퓨터는 기억 순서에 의해 데이터 베이스(4)에 격납되어 있는 압축 부호화 형태소 데이터를 복원 순서로서 압축 부호화 데이터 복원부(7)에 소정의 수치로 복원하도록 제어한다.
컴퓨터는 대조 순서로서 대조 판정부(8)에 부호 순서로 얻어진 부호화 형태소 형식의 검색 질문과, 복원 순서에서 복원된 부호화 형태소 데이터를 대조하여,검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는가를 판정하도록 제어한다.
컴퓨터는 형태소 복원 순서로서, 대조 결과에 기초하여 필요한 경우에, 부호화 형태소 복호화부(9)에 부호화 수치를 형태소에 복호화하도록 제어한다.
이와 같이, 본 발명의 실시 형태에 관한 문서 정보 검색 프로그램을 기록한 기록 매체(C)에 의하면, 컴퓨터의 제어하에서 대량의 문서 정보를 격납하는 장치에 대한 문서 정보의 검색시에, 검색 처리를 원활히 행할 수 있다.
그런데, 상기의 기록 매체(C)에 대하여, 컴퓨터에 형태소 해석 순서로 추출된 형태소 및 부호화 순서로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 얻어지는 인덱스로부터 인덱스 기억 수단에 기억되어 있는 인덱스의 검색을 행하는 인덱스 검색 순서를 실행시키는 프로그램을 부가한 문서 정보 검색 프로그램을 기록한 기록 매체(이하, 설명의 편의상, 부호「D」를 붙임)에 관해서도, 상기의 기록 매체(C)와 같이 원활한 검색 처리를 행할 수 있다.
여기서, 인덱스 검색 순서로서 컴퓨터는 대조 판정부(8)에 문서 정보를 격납할 때에 문장 정보 인덱스 작성부(5)가 작성한 문서 정보 인덱스를 검색하도록 제어하며, 복원 순서로서 컴퓨터는 압축 부호화 데이터 복원부(7)에 기억 순서에 의해 데이터 베이스(4)에 기억되어 있는 압축 부호화 형태소 데이터를 검색에 기초하여 복원하도록 제어한다.
이와 같이, 기록 매체(D)는 또한 문서 정보 인덱스를 이용하는 것으로, 대곡동의 문서 정보를 격납하는 데이터 베이스(4)에 대하여, 정보 검색을 원활히 행하는 것이 가능하고, 검색 시간도 지연되지 않는 처리의 실행을 기대할수 있다.
(5) 그 외의 설명
(5a) 다른 실시 형태
도 17∼도 19는 그 외의 실시 형태에 관련된 정보 격납 검색 장치(400,500,600)를 나타내는 도면이고, 먼저 도 17에 도시된 바와 같이 정보 격납 검색 장치(400)는 전술의 제1 실시 형태에서의 것에 비하여, 문서 정보 인덱스 작성부(5)나 동의어 사전등(11,12,13)을 구비하여 구성되어 있지 않은 점이 다르고, 기타(부호1,2,3,4,7,8,9,l0 참조)의 구성은 같다. 또한, (1)에서 이용한 것과 같은 것은 그 설명을 생략한다.
상술의 구성에 의해, 형태소 해석 단계에서 문서 정보 형태소 해석부(1)가 입력되어 오는 문서 정보를 해석하여 단어(형태소를 포함)를 추출하고, 형태소 해석 데이터 부호화부(2)가 수치로 부호화 처리를 실시하고(부호화 단계), 부호화 데이터 압축부(3)가 다른 수치로 부호화하는 압축 처리(압축 단계)를 행한 후에, 압축된 부호화 형태소 데이터가 데이터 베이스(4)에 격납된다(기억 단계).
이와 같이, 도 17에 나타내는 정보 격납 검색 장치(400)에 의하면, 문서 정보를 직접 압축하는 것은 아니고, 한번 형태소 해석부로서의 문서 정보 형태소 해석부(1)를 통해 형태소를 해석하여, 부호화부로서의 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 행하고, 다시 부호화한 형태소 데이터를 부호화 데이터 압축부(3)가 압축을 행하기 때문에 높은 압축율를 기대할 수 있다.
도 18에 도시된 바와 같이, 정보 격납 검색 장치(500)는 전술의 제1 실시 형태에 있어서의 것에 비하여, 동의어 사전 등(ll, 12, 13)을 구비하고 구성되어 있지 않은 점이 다르고, 기타(부호 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 참조)의 구성은 동일하다. 또한, (1)에서 이용한 것과 같은 것에 관해서는 그 설명을 생략한다.
상술한 구성에 의해, 도 18에 나타내는 정보 격납 검색 장치(500)는, 문서 정보를 직접 압축하는 것은 아니라, 일단 형태소 해석부로서의 문서 정보 형태소 해석부(1)를 통해서 형태소를 해석하며, 부호화부로서의 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 행하고, 또한 출현율 부호화한 형태소 데이터를 부호화 데이터 압축부(3)가 압축을 행한다.
이와 같이, 도 18에 나타내는 정보 격납 검색 장치(500)에 의하면, 높은 압축율을 기대할 수 있고, 대용량의 문서 정보를 데이터 베이스(4)에 축적하는 것이 가능하다.
또한, 부호화 단계에서의 부호화에 이용하는 단어(형태소를 포함)와 문서 정보 인덱스 작성부(5)에서 이용하는 단어의 추출(분할)을 형태소 해석부로서의 문서 정보 형태소 해석부(1)에서 한번의 처리로 행함으로써 대단히 효율적이며, 형태소 해석 데이터 부호화부(2)와 문서 정보 인덱스 작성부(5)로 독자적으로 단어의 추출 처리를 행하는 경우 보다 시간을 단축할 수 있다.
검색시에는 격납 시간에 작성한 문서 정보 인덱스를 이용하므로 검색이 용이하고, 그 복원 작업의 시간이나 장시간을 소요되지 않는다. 도 19에 도시된 바와 같이 정보 격납 검색 장치(600)는, 전술의 제1 실시 형태에 있어서의 것에 비하여,문서 정보 인덱스 작성부(5)를 구비하고 구성되어 있지 않은 점이 다르고, 기타(부호1,2,3,4,7,8,9,10,11,12,13참조)의 구성은 동일하다. 또한, (1)에서 이용한 것과 같은 것에 관해서는 그 설명을 생략한다.
상술한 구성에 의해, 정보 격납 검색 장치(600)는 문서 정보(예컨대, 문서ID13 중의 「다나카 마모루」)를 직접 압축하는 것은 아니라, 일단 형태소 해석로서의 문서 정보 형태소 해석부(1)를 통해서 형태소를 해석하고, 인명 사전 등(14,15)을 참조하여 부호화부로서의 형태소 해석 데이터 부호화부(2)가 소정의 수치로 부호화 처리를 실시하고, 다시 부호화한 형태소 데이터를 부호화 데이터 압축부(3)가 압축을 행하면서 원래의 문서(네트워크 등으로부터 입력되는 문서 정보)의 성질을 고려하여 부호화를 행한다(예컨대, 명부인 경우는, 인명이라든지 주소를 기초로 부호화한다). 또한 정보 격납 검색 장치(600)는 부호화 단계에서의 부호화에 이용하는 단어(형태소를 포함)와 문서 정보 인덱스 작성부(5)로 이용하는 단어의 추출(분할)을 형태소 해석부로서의 문서 정보 형태소 해석부(1)에 있어서의 한번의 처리로 행한다.
이와 같이, 정보 격납 검색 장치(600)에 의하면 높은 압축율를 기대할 수 있는 동시에, 문서 정보 인덱스를 작성할 때에 대단히 효율적이며, 형태소 해석부(1)와 형태소 해석 데이터 부호화부(2)에서 독자적으로 단어의 추출 처리를 행하는경우보다 시간을 단축할 수 있다.
(5b) 검색 장치와 격납 장치에 관해서의 다른 실시 형태
또한, 설명의 편의를 도모하여 전술한 바와 같이 문서 정보를 격납하는 장치와 문서 정보를 검색하는 장치를 설명하는데에 있어서, 비장치의 기능을 구비하는 정보 격납 검색 장치를 이용하였지만, 문서 정보를 격납하는 장치와, 문서 정보를 검색하는 장치가 분리되는 것으로도 종래의 기술상의 과제를 해결할 수 있다.
(5c) 인덱스 작성부
본 발명의 실시 형태에 관한 문서 정보 인덱스 작성부(5)는 검색 질문에 관한 문서 정보 인덱스도 작성할 수 있다.
이하, 상기의(1)의 제1 실시 형태에 관련된 정보 격납 검색 장치(100)를 이용하여 설명한다. 또한, (1)에서 이용한 것과 같은 것에 관해서는 그 설명을 생략한다.
이 경우, 문서 정보 인덱스 작성부(5)는 입력된 검색 질문에 대하여, 문서 정보 형태소 해석부(1)에서 해석에 의해 추출된 단어(형태소를 포함) 또는 형태소 해석 데이터 부호화부(2)에서 부호화 처리가 행하여진 부호화 형태소 데이터를 이용하여 문서 정보를 작성한다.
대조 판정부(8)는 문서 정보 인덱스 작성부(5)로 작성된 검색 질문의 문서 정보 인덱스와, 데이터 베이스(4)에 격납되어 있는 문서 정보의 문서 정보 인덱스를 이용하여 문서 정보의 검색을 행한다.
이러한 검색 질문의 문서 정보 인덱스를 이용하는 문서 정보의 검색을 실행하는 문서 정보 격납 검색 장치에 의하면, 대용량의 문서 정보 데이터의 검색시에, 격납되어 있는 문서 정보의 문서 정보 인덱스를 검색하는 것으로, 통상의 문서 정보를 검색하는 것보다, 단시간에 처리를 실행하는 것을 기대할 수 있다.
여기서, 검색 질문에 관하여 문서 정보 형태소 해석부(1)에 있어서의 해석 처리 혹은 형태소 해석 데이터 부호화부(2)에 있어서의 부호화 처리에 있어서, 동의어 사전(11) 등을 참조하여 얻을 수 있는 정보를 기초로, 문서 정보 인덱스 작성부(5)가 작성한 문서 정보 인덱스를 이용하여, 대조 판정부(8)가 데이터 베이스(4)에 격납되어 있는 문서의 문서 정보 인덱스(6)를 검색하는데 있어서도, 데이터 베이스(4)내에 축적되어 있는 대용량의 문장 정보 데이터로부터 검색 사항에 적합한 문서 정보의 독출을 단시간에 처리할 수 있다.
(5d) 복호에 관해서의 다른 실시 형태
또한, 전술에서는 데이터 베이스(4)에 격납되어 있는 문서 정보를 신장하는 과정에서, 압축되어 있는 문서 정보를 압축 부호화 데이터 복원부(7)에서 복원하여 대조 판정부(8)에서 검색 질문에 적합한지의 판정이 행하여지게 되어 있다. 여기서, 부호화 형태소 복호화부(9)에 있어서 복호된 형태소 데이터를 기초로 대조 판정부(8)가 검색 질문에 적합한 문서 정보인지 여부를 판정하도록 하여도 좋다.
(5e) 부호화 데이터 압축부에 관해서의 다른 실시 형태
압축 처리의 과정의 일례로서, 전술에서는 출현빈도가 높은 문자열 만큼 압축하는데 이용하는 코드가 짧게 설정되어 있는 것 등을 진술하였지만, 압축 처리 과정은 본 발명의 취지를 일탈하지 않은 범위에서 여러가지로 변형하여 실시할 수 있다.
이상 상세히 기술한 바와 같이, 본 발명의 문서 정보 격납 장치에 의하면,형태소 해석부가 형태소 해석 처리를 함으로써, 입력된 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하고, 부호화부에 의해 형태소 해석부에서 추출된 형태소가 부호화되며, 압축부에 있어서 부호화부에 의해 부호화된 형태소에 압축 처리를 실시하고, 기억부에 있어서 압축부에서 압축된 부호화 형태소를 격납하도록구성되어 있기 때문에, 입력된 문서 정보를 직접 격납하지 않고, 단어(형태소를 포함)로 나누어, 그것들을 수치 부호화하고 그것들을 압축하는 부호화 처리를 행하는 것으로, 높은 압축율을 기대할 수 있고, 대용량의 데이터를 격납할 수 있는 이점이 있다.
여기서, 본 발명의 문서 정보 격납 장치는, 인덱스 작성부가 형태소 해석부에서 추출된 형태소 및 부호화부에서 부호화된 형태소 중 적어도 한 편의 정보에 기초하여 인덱스를 작성하며, 인덱스 기억부에서 인덱스 작성부에 의해 작성된 인덱스를 격납하도록 구성되기 때문에, 부호화부에서의 부호화에 이용하는 단어(형태소를 포함)와 인덱스 작성부에서 이용하는 단어의 추출(분할)을 형태소 해석부에서의 한번의 처리로 행함으로써, 대단히 효율적이고, 인덱스 작성부와 부호화부에서 독자적으로 단어의 추출 처리를 행하는 경우보다 시간을 단축할 수 있는 이점이 있다.
또는, 본 발명의 문서 정보 격납 장치는 동의어 사전, 시소러스, 대역 사전 중의 적어도 한개를 포함하여, 부호화부가 동의어 사전, 시소러스, 대역 사전중의 적어도 1 개의 정보를 이용하여, 형태소를 부호화하도록 구성되어 있기 때문에, 문서 정보를 직접 압축하는 것은 아니고, 인명 사전등을 참조하여 부호화부가 소정의수치로 부호화 처리를 실시하고, 또한 부호화한 형태소 데이터를 압축부(3)가 압축을 행하면서, 또한 원래의 문서(네트워크 등으로부터 입력되어오는 문서 정보)의 성질을 고려하여 부호화를 행하는(예컨대, 명부인 경우는 인명이라든지 주소를 기초로 부호화함)것과 더불어, 더욱 높은 압축율를 기대할 수 있는 이점이 있다.
또한, 본 발명의 문서 정보 격납 장치는 인덱스 작성부와, 인덱스 기억부와, 동의어 사전, 시소러스, 대역 사전중의 적어도 한개를 포함하여, 부호화부가, 동의어 사전, 시소러스, 대역 사전중의 적어도 1 개의 정보를 이용하여, 형태소를 부호화하도록 구성되어 있기 때문에, 대단히 효율적으로 문서 정보를 격납하는 동시에, 인덱스를 작성할 수 있고, 또한 문서 정보의 격납에 있어서 높은 압축율를 기대할 있는 이점이 있다.
한편, 본 발명의 문서 정보 격납 방법에 의하면, 형태소 해석 단계에서 형태소 해석 처리를 행하고, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하며, 부호화 단계에 의해 형태소 해석 단계에서 추출된 형태소를 부호화하여, 압축 단계에서 부호화 단계에 있어서 부호화된 형태소에 압축 처리를 실시하고, 기억 단계에서 압축 단계에 의해 압축된 부호화 형태소를 격납하도록 구성되어 있기 때문에, 입력된 문서 정보를 직접 격납하지 않고, 단어(형태소를 포함)로 나누어, 그것들을 수치 부호화하고, 또한 압축하는 부호화 처리를 행하는 것으로, 높은 압축율를 기대할 수 있고, 대용량의 데이터를 격납할 수 있는 이점이 있다.
여기서, 본 발명의 문서 정보 격납 방법은, 인덱스 작성 단계가 형태소 해석 단계에서 추출된 형태소 및 부호화 단계에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하고, 인덱스 기억 단계가 인덱스 작성 단계에서 작성된 인덱스를 격납하도록 구비되기 때문에, 부호화 단계에서의 부호화에 이용하는 단어(형태소를 포함)와 인덱스 작성 단계에서 이용하는 단어의 추출(분할)을 형태소 해석 단계에 있어서의 한번의 처리로 행함으로써 대단히 효율적이고, 인덱스 작성 단계와 부호화 단계에서 독자적으로 단어의 추출 처리를 행하다 경우보다 시간을 단축할 수 있는 이점이 있다.
또한, 본 발명의 문서 정보 격납 방법은 부호화 단계가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하도록 구성되어 있기 때문에, 문서 정보를 직접 압축하는 것은 아니라, 일단 형태소 해석 단계를 통해서 형태소를 해석하고, 인명 사전등을 참조하여 부호화 단계가 소정의 수치로 부호화 처리를 실시하고, 또한 부호화한 형태소 데이터를 압축 단계(3)가 압축을 행하면서, 또한 원래의 문서(네트워크등으로부터 입력되어오는 문서 정보)의 성질을 고려하여 부호화를 행하는(예컨대, 명부인 경우는, 인명이라든지 주소를 기초로 부호화한다)것과 더불어, 더욱 높은 압축율를 기대할 수 있는 이점이 있다.
또한, 본 발명의 문서 정보 격납 방법은 형태소 해석 단계에서 추출된 형태소 및 부호화 단계에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 단계와, 인덱스 작성 단계에서 작성된 인덱스를 격납하는 인덱스 기억 단계를 포함하여, 부호화 단계가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하도록 구성되기 때문에, 대단히 효율적으로 문서 정보를 격납하는 동시에, 인덱스를 작성할 수 있고, 또한문서 정보의 격납에 있어서 높은 압축율를 기대할수 있는 이점이 있다.
한편, 본 발명의 문서 정보 검색 장치는 형태소 해석부, 부호화부, 압축부, 기억부를 가지고 있는 문서 정보 격납 장치에 있어서의 기억부에 격납되어 있는 압축 부호화 형태소를 복원부가 원래의 부호화 형태소 데이터에 복원하여, 대조부에서 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부의 판정을 행하고, 복호화부에서 대조부에서의 대조 결과에 기초하여 복원부에서 복원된 부호화 형태소 데이터를 형태소에 되돌리도록 구성되기 때문에, 대용량의 문서 정보로부터의 데이터의 검색을 행할 수 있는 이점이 있다.
여기서, 본 발명의 문서 정보 검색 장치는 대조부가, 부호화 형태소 형식의 검색 질문과, 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성되어 있으므로, 대용량의 문서 정보로부터의 데이터의 검색을 정확히 행할 수 있는 이점이 있다.
또한, 본 발명의 문서 정보 검색 장치는 인덱스 작성부와, 인덱스 기억부를 문서 정보 격납 장치에 부가하여 대조부가 형태소 형식의 검색 질문 및 부호화 형태소 형식의 검색 질문 중 적어도 한편의 정보에 기초하여 얻어지는 인덱스로부터 인덱스 기억부에 기억되어 있는 인덱스의 검색을 행하고, 복원부에서 이 검색의 결과로 얻을 수 있는 인덱스의 정보에 기초하여, 기억부에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원시키도록 구성되어 있기 때문에, 문서 정보 격납 장치가 격납하는 대용량의 문서 정보로부터의 문서 정보의 검색에인덱스를 이용하는 것으로), 대단히 원활히 행할 수 있는 이점이 있다.
또한, 본 발명의 문서 정보 검색 장치는 동의어 사전, 시소러스, 대역 사전중의 적어도 한개를 포함하여, 부호화부가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하도록 문서 정보 격납 장치를 구성하며, 대조부가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여 작성된 부호화 형태소 형식의 검색 질문과, 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성되어 있기 때문에, 문서 정보 격납 장치가 축적하는 대용량의 문서 정보로부터 자유도가 있는 검색(예컨대, 애매 검색으로서의 동의어 검색)을 행할 수 있는 이점이 있다.
또한, 본 발명의 문서 정보 검색 장치는 인덱스 작성부와 인덱스 기억부를 문서 정보 격납 장치에 부가하고, 또한 동의어 사전, 시소러스, 대역 사전중의 적어도 한개를 갖춰, 부호화부가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하도록 문서 정보 격납 장치를 구성하여, 대조부가 동의어 사전, 시소러스, 대역 사전 중의 어느 하나로부터의 정보를 이용하여 작성된 형태소 형식의 검색 질문 및 부호화 형태소 형식의 검색 질문 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 인덱스 기억부에서 기억되어 있는 인덱스의 검색을 행하고, 복원부가 이 검색의 결과로 얻을 수 있는 인덱스의 정보에 기초하여 기억부에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원시키도록 구성된 것으로, 문서 정보 격납 장치가 축적하는 대용량의 문서 정보에 대하여, 자유도가 있는 검색(예컨대, 애매 검색으로서의 동의어 검색)을 행할 수 있는 이점이 있는 동시에, 문서 정보 격납 장치가 격납하는 대용량의 문서 정보로부터의 문서 정보의 검색에 인덱스를 이용하는 것으로, 대단히 원활히 행할 수 있는 이점이 있다.
한편, 본 발명의 문서 정보 검색 방법은, 문서 정보를 입력하고 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하고, 이 추출된 형태소를 부호화하며, 또한 이 부호화된 형태소에 압축 처리를 행하여, 이 압축된 부호화 형태소를 기억 수단에 기억한 문서 정보 격납 장치에 대하여, 형태소 해석 단계에서 형태소 해석 처리를 함으로써 검색 질문 정보로부터 형태소를 추출하고, 부호화 단계가 형태소 해석 단계에서 추출된 형태소를 부호화하는 처리를 행하고, 복원 단계에서 문서 정보 격납 장치에 있어서의 기억 수단에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하여, 대조 단계가 부호화 단계에서 얻을 수 있는 부호화 형태소 형식의 검색 질문과, 복원 단계에서 복원된 부호화 형태소 데이터를 대조하여, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부의 판정을 행하고, 그리고 복호화 단계에 있어서 대조 단계에서의 대조 결과에 기초하여, 복원 단계에서 복원된 부호화 형태소 데이터를 형태소에 되돌리도록 구성되기 때문에, 문서 정보 격납 장치에 축적되는 대용량의 문서 정보로부터 문서 정보의 검색을 정확히 행할 수 있는 이점이 있다.
여기서, 본 발명의 문서 정보 검색 방법은 대조 단계가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용되어 작성된 부호화 형태소 형식의 검색 질문과, 복원부에서 복원된 부호화 형태소 데이터를 대조하여 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성되어 있기 때문에, 문서 정보 격납 장치가 축적하는 대용량의 문서 정보로부터 자유도가 있는 검색(예컨대, 애매 검색으로서의 동의어 검색)을 행할 수있는 이점이 있다.
또한, 본 발명의 문서 정보 검색 방법은 문서 정보를 기억 수단이 압축된 부호화 형태소를 기억하는 동시에, 인덱스 기억 수단이 문서 정보의 인덱스를 격납하는 문서 정보 격납 장치에 대하여, 형태소 해석 단계에서 검색 질문에 관해서 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하여 부호화 단계에서 형태소 해석 단계가 추출하는 형태소의 부호화를 행하고, 인덱스 검색 단계에서 형태소 해석 단계가 추출하는 형태소 및 부호화 단계에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 인덱스 기억 수단에 기억되어 있는 인덱스의 검색을 행동, 복원 단계가 인덱스 검색 단계에서얻을 수 있는 인덱스 정보에 기초하여, 기억 수단으로 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터로 복원하여, 복호화 단계에 있어서 복원 단계에서 복원된 부호화 형태소 데이터를 형태소에 되돌리도록 구성되기 때문에, 문서 정보 격납 장치가 격납하는 대용량의 문서 정보로부터의 문서 정보의 검색 처리에 있어서, 인덱스를 이용하므로, 대단히 원활히 행할 수 있는 이점이 있다.
여기서, 본 발명의 문서 정보 검색 방법은, 문서 정보 격납 장치가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여, 형태소를 부호화하도록 구성되고, 또한 인덱스 검색 단계가 동의어 사전, 시소러스, 대역 사전중의 어느 하나로부터의 정보를 이용하여 인덱스 검색을 행하도록 구성되어 있으므로, 소정의 단어(형태소를 포함)는 동의어 사전등에 의해 소정의 수치로 부호화되고, 그것에 대응하는 부호로 문서 정보의 검색이 행하여지기 때문에, 검색 처리를 대단히 원활히 행할 수 있다.
또한, 본 발명의 기록 매체는 컴퓨터에, 입력된 문서 정보에 대하여, 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 부호화 순서로 부호화된 형태소에 압축 처리를 행하는 압축 순서와, 압축 순서로 압축된 부호화 형태소를 격납하는 기억 순서를 실행시키기 위한 문서 정보 격납 프로그램을 기록하고 있기 때문에, 입력된 문서 정보를 직접 격납하지 아 않고, 단어(형태소를 포함)로 나누고, 그것들을 수치 부호화하고, 또한 압축하는 부호화 처리를 행하는 것으로, 높은 압축율를 기대할 수 있고, 대용량의 데이터를 격납할 수 있는 이점이 있다.
여기서, 본 발명의 기록 매체는 컴퓨터에, 입력된 문서 정보에 대하여, 형태소 해석 순서와, 부호화 순서와, 압축 순서와, 기억 순서와, 형태소 해석 순서로 추출된 형태소 및 부호화 순서로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 순서와, 인덱스 작성 순서로 작성된 인덱스를 인덱스 기억 수단에 격납시키는 인덱스 기억 순서를 실행시키기 위한 문서 정보 격납 프로그램을 기록하고 있기 때문에, 부호화 순서에서의 부호화에 이용하는 단어(형태소를 포함)와 인덱스 작성 순서로 이용하는 단어의 추출(분할)을, 형태소 해석 순서에 있어서의 한번의 처리로 행함으로써, 대단히 효율적이고, 인덱스 작성 순서와 부호화 순서로 독자적으로 단어의 추출 처리를 행하는 경우보다 시간을 단축할 수 있는 이점이 있다.
한편, 본 발명의 기록 매체는 문서 정보를 입력하고 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하여, 이 추출된 형태소를 부호화하고, 또한 이 부호화된 형태소에 압축 처리를 행하여, 이 압축된 부호화 형태소를 기억 수단에 기억한 문서 정보 격납 장치에 대하여, 검색 질문에 적합한 정보의 검색시에, 입력된 검색 질문에 관해서 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 순서와, 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 기억 수단에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 순서와, 부호화 순서로 얻을 수 있는 부호화 형태소 형식의 검색 질문과, 복원 순서로 복원된 부호화 형태소 데이터를 대조하고, 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조 순서와, 대조 순서에서의 대조 결과에 기초하여, 복원 순서로 복원된 부호화 형태소 데이터를 형태소에 되돌리는 형태소 복호화 순서를 컴퓨터에 실행시키기 위한 문서 정보 검색 프로그램을 기록하고 있기 때문에, 컴퓨터의 제어하에서, 대량의 문서 정보를 격납하는 장치로부터 문서 정보의 검색시에 검색 처리를 원활히 행할 수 있다.
여기서, 본 발명의 기록 매체는 문서 정보를 입력함으로써, 문서 정보에 대하여 형태소 해석 처리를 함으로써, 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하여, 이 추출된 형태소를 부호화하여, 또한 이 부호화된 형태소에 압축 처리를 행하여, 이 압축된 부호화 형태소를 기억 수단에 기억하는 동시에, 형태소 해석 처리로 추출된 형태소 및 형태소 부호화 처리로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하여, 이 인덱스를 인덱스 기억 수단에 격납하는 문서 정보 격납 장치에 대하고, 검색 질문에 적합한 정보를 검색하는것에 있어서, 입력된 검색 질문에 관해서, 형태소 해석 처리를 함으로써, 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 순서와 형태소 해석 순서로 추출된 형태소를 부호화하는 부호화 순서와, 형태소 해석 순서로 추출된 형태소 및 부호화 순서로 부호화된 형태소 중의 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 인덱스 기억 수단에 기억되어 있는 인덱스의 검색을 행하는 인덱스 검색 순서와, 인덱스 검색 순서로 얻을 수 있는 인덱스 정보에 기초하여, 기억 순서로 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터에 복원하는 복원 순서와, 복원 순서로 복원된 부호화 형태소 데이터를 형태소에 되돌리는 복호화 순서를 컴퓨터에 실행시키기 위한 문서 정보 검색 프로그램을 기록하고 있기 때문에, 인덱스를 이용하는 것으로, 문서 정보 격납 장치에 격납되어 있는 대용량의 문서 정보로부터 정보 검색을 원활히 행하는 것이 가능하고, 검색 시간도 느리지 않은 처리의 실행을 기대할 수 있는 이점이 있다.

Claims (13)

  1. 형태소 해석 처리를 함으로써, 입력된 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석부와;
    상기 형태소 해석부에서 추출된 형태소를 부호화하는 부호화부와,
    상기 부호화부에서 부호화된 형태소에 압축 처리를 행하는 압축부와,
    상기 압축부에서 압축된 부호화 형태소를 격납하는 기억부와,
    상기 형태소 해석부에서 추출된 상기 형태소 및 상기 부호화부에서 부호화된 형태소 중 적어도 1개의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와,
    상기 인덱스 작성부에서 작성된 상기 인덱스를 격납하는 인덱스 기억부를 포함하는 것을 특징으로 하는 문서 정보 격납 장치.
  2. 제1항에 있어서, 동의어 사전, 시소러스, 대역 사전 중의 적어도 한개를 포함하여, 상기 부호화부가 상기의 동의어 사전, 시소러스, 대역 사전중의 적어도 1개의 정보를 이용하여 상기 형태소를 부호화하도록 구성되는 것을 특징으로 하는 문서 정보 격납 장치.
  3. 문서 정보의 격납시에, 문서 정보를 입력함으로써 상기 문서 정보에 대하여 형태소 해석 처리를 행하여 상기 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석 단계와,
    상기 형태소 해석 단계로 추출된 형태소를 부호화하는 부호화 단계와,
    상기 부호화 단계로 부호화된 형태소에 압축 처리를 행하는 압축 단계와,
    상기 압축 단계로 압축된 부호화 형태소를 격납하는 기억 단계와,
    상기 형태소 해석 단계에서 추출된 상기 형태소 및 상기 부호화 단계에서 부호화된 형태소 중 적어도 1개의 정보에 기초하여 인덱스를 작성하는 인덱스 작성 단계와,
    상기 인덱스 작성 단계에서 작성된 상기 인덱스를 격납하는 인덱스 기억 단계를 포함하는 것을 특징으로 하는 문서 정보 격납 방법.
  4. 제3항에 있어서, 상기 부호화 단계가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여, 상기 형태소를 부호화하도록 구성되는 것을 특징으로 하는 문서 정보 격납 방법.
  5. 형태소 해석 처리를 행함으로써, 입력된 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하는 형태소 해석부와, 상기 형태소 해석부에서 추출된 형태소를 부호화하는 부호화부와, 상기 부호화부에서 부호화된 형태소에 압축 처리를 행하는 압축부와, 상기 압축부에서 압축된 부호화 형태소를 격납하는 기억부를 가지는 문서 정보 격납 장치에 있어서,
    상기 기억부에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터로 복원하는 복원부와,
    검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조부와,
    상기 대조부에서의 대조 결과에 기초하여 상기 복원부에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화부를 포함하는 것을 특징으로 하는 문서 정보 검색 장치.
  6. 제5항에 있어서, 상기 대조부가 부호화 형태소 형식의 검색 질문과, 상기 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 상기 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성되는 것을 특징으로 하는 문서 정보 검색 장치.
  7. 제5항에 있어서, 상기 형태소 해석부에서 추출된 상기 형태소 및 상기 부호화부에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와, 상기 인덱스 작성부에서 작성된 상기 인덱스를 격납하는 인덱스 기억부를 상기 문서 정보 격납 장치에 부가하고,
    상기 대조부가 형태소 형식의 검색 질문 및 부호화 형태소 형식의 검색 질문 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 상기 인덱스 기억부에서 기억되어 있는 인덱스의 검색을 행하고, 이 검색의 결과로 얻을 수 있는 상기 인덱스의 정보에 기초하여, 상기 기억부에 격납되어 있는 압축 부호화 형태소를 상기 복원부에서 원래의 부호화 형태소 데이터로 복원시키도록 구성되는 것을 특징으로 하는 문서 정보 검색 장치.
  8. 제5항에 있어서, 동의어 사전, 시소러스, 대역 사전 중 적어도 하나를 포함하여, 상기 부호화부가 상기의 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 상기 형태소를 부호화하도록 상기 문서 정보 격납 장치를 구성하며,
    상기 대조부가 상기 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 작성된 부호화 형태소 형식의 검색 질문과 상기 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 상기 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성되는 것을 특징으로 하는 문서 정보 검색 장치.
  9. 제5항에 있어서, 상기 형태소 해석부에서 추출된 상기 형태소 및 상기 부호화부에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하는 인덱스 작성부와, 상기 인덱스 작성부에서 작성된 상기 인덱스를 격납하는 인덱스 기억부를 상기 문서 정보 격납 장치에 부가하고, 또한 동의어 사전, 시소러스, 대역 사전 중 적어도 한개를 포함하여, 상기 부호화부가 상기 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여, 상기 형태소를 부호화하도록 상기 문서 정보 격납 장치를 구성하며,
    상기 대조부가 상기 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 작성된 형태소 형식의 검색 질문 및 부호화 형태소 형식의 검색 질문 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 상기 인덱스 기억부에서 기억되어 있는 인덱스의 검색을 행하고, 이 검색의 결과로 얻을 수 있는 상기 인덱스의 정보에 기초하여, 상기 기억부에 격납되어 있는 압축 부호화 형태소를 상기 복원부에서 원래의 부호화 형태소 데이터로 복원시키도록 구성되는 것을 특징으로 하는 문서 정보 검색 장치.
  10. 문서 정보를 입력하고, 상기 문서 정보에 대하여 형태소 해석 처리를 함으로써, 상기 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하며, 이 추출된 상기 형태소를 부호화하고, 이 부호화된 형태소에 압축 처리를 행하며, 이 압축된 부호화 형태소를 기억 수단에 기억하는 문서 정보 격납 장치에 대하여, 검색 질문에 적합한 정보를 검색할 때에, 상기 검색 질문을 입력하여 이 검색 질문에 관해서 형태소 해석 처리를 함으로써 상기 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 단계와,
    상기 형태소 해석 단계로부터 추출된 상기 형태소를 부호화하는 부호화 단계와,
    상기 문서 정보 격납 장치에 있어서의 상기 기억 장치에 격납되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터로 복원하는 복원 단계와,
    상기 부호화 단계에서 얻을 수 있는 부호화 형태소 형식의 검색 질문과, 상기 복원 단계에서 복원된 부호화 형태소 데이터를 대조하여, 상기 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하는 대조 단계와,
    상기 대조 단계에서의 대조 결과에 기초하여, 상기 복원 단계에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화 단계를 포함하는 것을 특징으로 하는 문서 정보 검색 방법.
  11. 제10항에 있어서, 상기 문서 정보 격납 장치가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 상기 형태소를 부호화하도록 구성되며,
    상기 대조 단계가 상기 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 작성된 부호화 형태소 형식의 검색 질문과 상기 복원부에서 복원된 부호화 형태소 데이터를 대조하여, 상기 검색 질문에 적합한 부호화 형태소 데이터가 복원되어 있는지 여부를 판정하도록 구성되는 것을 특징으로 하는 문서 정보 검색 방법.
  12. 문서 정보를 입력하고 상기 문서 정보에 대하여 형태소 해석 처리를 함으로써, 상기 문서 정보로부터 문서 정보 구성 요소로서의 형태소를 추출하고, 이 추출된 상기 형태소를 부호화하고, 이 부호화된 형태소에 압축 처리를 행하며, 이 압축된 부호화 형태소를 기억 수단에 기억하는 동시에, 형태소 해석 처리로 추출된 형태소 및 형태소 부호화 처리로 부호화된 형태소 중 적어도 한편의 정보에 기초하여 인덱스를 작성하고, 이 인덱스를 인덱스 기억 수단에 격납하는 문서 정보 격납 장치에 대하여 검색 질문에 적합한 정보를 검색할 때에, 상기 검색 질문을 입력하여 이 검색 질문에 형태소 해석 처리를 함으로써 상기 검색 질문 정보로부터 형태소를 추출하는 형태소 해석 단계와,
    상기 형태소 해석 단계에서 추출된 상기 형태소를 부호화하는 부호화 단계와,
    상기 형태소 해석 단계에서 추출된 상기 형태소 및 상기 부호화 단계에서 부호화된 형태소 중 적어도 한편의 정보에 기초하여 얻을 수 있는 인덱스로부터 상기인덱스 기억 수단에 기억되어 있는 인덱스의 검색을 행하는 인덱스 검색 단계와;
    상기 인덱스 검색 단계에서 얻을 수 있는 인덱스 정보에 기초하여, 상기 기억 수단으로 기억되어 있는 압축 부호화 형태소를 원래의 부호화 형태소 데이터로 복원하는 복원 단계와;
    상기 복원 단계에서 복원된 부호화 형태소 데이터를 형태소로 되돌리는 복호화 단계를 포함하는 것을 특징으로 하는 문서 정보 검색 방법.
  13. 제12항에 있어서, 상기 문서 정보 격납 장치가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 상기 형태소를 부호화하도록 구성되고,
    상기 인덱스 검색 단계가 동의어 사전, 시소러스, 대역 사전 중 어느 하나로부터의 정보를 이용하여 인덱스 검색을 행하도록 구성되는 것을 특징으로 하는 문서 정보 검색 방법.
KR1019980006876A 1997-09-10 1998-03-03 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법 KR100326634B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP97-245837 1997-09-10
JP24583797A JP4057681B2 (ja) 1997-09-10 1997-09-10 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
KR19990029119A KR19990029119A (ko) 1999-04-26
KR100326634B1 true KR100326634B1 (ko) 2002-04-17

Family

ID=17139596

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980006876A KR100326634B1 (ko) 1997-09-10 1998-03-03 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법

Country Status (3)

Country Link
JP (1) JP4057681B2 (ko)
KR (1) KR100326634B1 (ko)
CN (1) CN1120438C (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125908A (ja) * 1999-10-26 2001-05-11 Sony Corp 入力装置および方法
CN101853287B (zh) * 2010-05-24 2012-09-05 南京高普科技有限公司 数据压缩快速检索文件系统及其方法
JP6447161B2 (ja) 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP6467937B2 (ja) * 2015-01-21 2019-02-13 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
WO2017017738A1 (ja) 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP6679874B2 (ja) 2015-10-09 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
JP6737025B2 (ja) * 2016-07-19 2020-08-05 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
JP6737117B2 (ja) * 2016-10-07 2020-08-05 富士通株式会社 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
JP7180132B2 (ja) * 2018-06-12 2022-11-30 富士通株式会社 処理プログラム、処理方法および情報処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer

Also Published As

Publication number Publication date
CN1120438C (zh) 2003-09-03
KR19990029119A (ko) 1999-04-26
JP4057681B2 (ja) 2008-03-05
CN1211013A (zh) 1999-03-17
JPH1185790A (ja) 1999-03-30

Similar Documents

Publication Publication Date Title
US4862408A (en) Paradigm-based morphological text analysis for natural languages
US5845238A (en) System and method for using a correspondence table to compress a pronunciation guide
KR970059917A (ko) 데이타압축, 신장방법 및 장치와 이것을 사용한 데이타처리장치 및 네트워크시스템
EP3276507B1 (en) Encoding device, encoding method and search method
US20200304779A1 (en) Encoding apparatus and encoding method
CN101783788A (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
KR100326634B1 (ko) 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법
US20100185438A1 (en) Method of creating a dictionary
JPH05324730A (ja) 文書情報検索装置
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JP7247460B2 (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
Al-Fedaghi et al. Morphological compression of Arabic text
Awajan et al. Hybrid technique for Arabic text compression
Aslanyürek et al. A New Method for Short Text Compression
Awajan Multilayer model for Arabic text compression.
Alkhazi et al. Tag based models for Arabic text compression
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP3253657B2 (ja) 文書検索方法
JPS6268325A (ja) 文章圧縮・伸展方式
JP6784084B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
CN112800722B (zh) 基于语义理解的文字组织编码方法
JP2785168B2 (ja) 単語検索のための電子辞書圧縮方法及び装置
JPS63263561A (ja) 日本語文の圧縮方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130201

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140204

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee