JPS63226765A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPS63226765A
JPS63226765A JP62060498A JP6049887A JPS63226765A JP S63226765 A JPS63226765 A JP S63226765A JP 62060498 A JP62060498 A JP 62060498A JP 6049887 A JP6049887 A JP 6049887A JP S63226765 A JPS63226765 A JP S63226765A
Authority
JP
Japan
Prior art keywords
index
document
heading
character string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62060498A
Other languages
English (en)
Inventor
Akira Hirose
明 廣瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP62060498A priority Critical patent/JPS63226765A/ja
Publication of JPS63226765A publication Critical patent/JPS63226765A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書処理装置に関し、詳しくは日本語の文書
処理上での索引作成に関するものである。
〔従来の技術] 従来、日本語の文書処理装置において索引を自動作成す
るものとして、例えば特開昭58−201140号に示
された「日本語ワードプロセッサ」がある。この日本語
ワードプロセッサは、文書記憶部と、この文書記憶部内
の文書情報から所定の文字列をキーワードとして抽出す
る手段、及びその抽出されたキーワードを記憶するキー
ワード記憶部と、このキーワード記憶部内においてキー
ワードを予め定められた規則に従って並べ替え、整理す
る手段と、前記文書記憶部内の文書情報から前記キーワ
ードと記憶部に貯えられたキーワードと同一の文字列を
抽出し、その文字列の頁、行位置情報を得る手段、及び
この頁、行位置情報を記憶する頁、行記憶部と、この頁
、行記憶部及び前記キーワード記憶部に記憶された情報
を読出し制■する出力手段とを具備して構成されるもの
で、索引とすべきキーワードを指定することにより、こ
のキーワードに従って索引が自動的に生成されるもので
ある。
〔発明が解決しようとする問題点〕
ところが、上記の従来の日本語ワードプロセッサで行な
われている索引作成方法では、検索する文字列と索引で
の見出し詔(索引語)が同一でなければならず、作成さ
れる索引の形式に強い制約が生じていた。例えば、第7
図に示すような大見出し一小見出し構造の索引を作る際
には、[コンピュータの原理」、[コンピュータの歴史
」。
「リレ一式コンピュータ」という文字列と一致する文字
列を検索した襖、それぞれの文字列に共通する「コンピ
ュータ」と゛いう文字列を「−」に手作業で修正して見
出し語を作成し直さなければならず、自動的に生成する
ことができる索引の形式が制約されてしまうという問題
があった。
また、見出しの文字列(索引語)に対する読みの情報が
与えられないため、索引語を予め手作業で整理しておか
なければならず、大見出し一小見出し構造の索引を作成
する上での労力が膨大になるという問題があった。
本発明は、大見出し一小見出し構造の索引を容易に作成
することができる文書処理装置を提供することを目的と
する。
〔問題点を解決するための手段〕
本発明は、文書中から捜し出す検索パターン、その検索
パターンが見つかった文書中の位置く頁、行など)を表
わす情報を索引に載せるときの見出しの文字列、その文
字列を所定の読み順に従って整列するための読み文字列
との三つを対応付(プで記憶する索引語テーブルを設け
る。さらに、この索引語テーブルにある検索パターンの
集合についてそのいずれかに同一の文字列を文書中から
検出し、その位置情報と検索パターンに対応する見出し
の文字列を取出す検索装置と、前記位置情報と見出しの
文字列とを対応づけて整理・記憶する記憶装置と、記憶
された見出しの文字列と位置情報の組を見出しの文字列
に対応付けられた読みに従つで整列分類し、所定の書式
で索引として出力する出力装置と、これらの各1!置を
制御する制御#装置とを設け、検索パターンに共通する
部分がある場合に、は、この共1通部分については「−
装置jなどの小見出し構造の索引として出力するように
構成したものである。
〔作用〕
まず、マニュアル操作(若しくは、付属の入力装置)に
よって、検索パターン、索引語、読み文字列を索引語テ
ーブルに登録する。次に、索引を作成する文書を指定し
て制御装置に索引の作成を指示する。すると、検索装置
がどの検索パターンが文書中のどのページ位置にあるの
かそのページ位置あるいは行位置を検出するとともに、
索引語テーブルを参照して、索引としてどの索引語に対
応付けるかを決定し、記憶vL置に記憶させる。支出全
体をすべて検索し終えると、出力装置が索引語と位置情
報の組を索引語に対応付けられた読みに従って整列・分
類し、適当な書式に従って出力する。これによって、自
動的に索引が作成される。
〔実施例〕
以下、本発明を実施例によって詳しく説明する。
第1図は本発明を用いた文書処理装置の一実施例を示す
ブロック図であって、1は索引語テーブル、2は検索装
置、3は索引語・位置記憶装置、4はフォーマット装置
、5は装置全体を制御する制御装置である。
索引語テーブル1は、第2図に示すように、索引語・読
み仮名・検索パターンの三つの項からなるテーブルであ
り、マニュアル操作、または付属の入力装置等により予
め索引語・読み仮名・検索パターンの組が登録されてい
る。
検索装置2は、第3図に示すように、スa)パターンマ
ツチング装置!20.(b)位置情報取り出し装置21
.(c)索引語・読み仮名取り出し装W122で構成さ
れる。パターンマツチング装置20は、処理対象の文書
ファイル6を順次読み込み、索引語テーブル1の検索パ
ターンのいずれかに一致する文字列を検索する装置で、
公知の技術、例えば文献“Efficient Str
ing Hatcing  : An Aid  to
  Bibllographic  5earch  
”^ho、^、V、and  C。
rasick、H,1,Con+、^CM Vo118
N6 P2S5−340に示されるアルゴリズムに基づ
いて動作するコンピュータプログラムによって実現され
る。
このパターンマツチング装置20は、検索パターンに一
致する文字列を見つけるごとに、その位置を位置情報取
り出し装置21に、また一致した検索パターンを索引語
・読み仮名取り出し装置22に転送する。そこで、位置
情報取り出し装置21は、一致する文字列のある位置を
ページ番号・行番号等の位置情報に変換する。一方、索
引語・読み仮名取り出し装置22は、検索パターンに対
応する索引語およびその読み仮名を索引語テーブル1か
ら取り出す。そして、この索引語および読み仮名と位置
情報を1組みにして索引語・位置記憶装置3に転送する
索引語・位置記憶装置3は、第4図に示すように(a)
索引語・位置登録装置30、(b)索引語・位置登録テ
ーブル31、(C)読出し装置32とから構成されてお
り、このうち登録装置30は第5図のフローチャートに
示すアルゴリズムに従って、検索装置2から送られてく
る索引語、読み仮名2位置情報を受取り、これらを索引
語を基準にして整理し、登録テーブル31に記憶させる
検索装置2が文書ファイル6をすべて検索し終えると、
制6+1装@5の指示により読出し装W132が動作を
開始し、登録テーブル31の記憶内容を順次フォーマッ
ト装置4に送り出す。
フォーマット装置4は、第6図に示すように、(a)整
列・分類装置40、(b)出力装置41とから構成され
、索引語・位置記憶装置3から送られてくるデータを整
列・分類装置40で索引語の読みがなに従って整列・分
類し、出力装置41によって予め定められた書式に従っ
て文書ファイル7として出力させる。
このようにして、文書ファイル6から第6図で示すよう
な索引が自動的に作成される。
従って、例えば第7図に示したような索引を作成する場
合について考えてみると、この場合には次の第1表に示
すような形で検索パターンと索引語を索引語テーブル1
に登録しておけばよい。
第1表 また、次の第2表に示すような索引語テーブルの構成に
すれば[コンピュータ(COMPUTER) Jという
英文字を含めた索引を作成することができる。
第2表 このように本実施例においては、検索パターンと見出し
語を別々に指定できるため、大見出し−小見出し構造の
索引を極めて簡単に自動作成することができる。また、
見出し語に対する読みの情報を予め入力するため、読み
順に並べる手作業も不要となる。
なお、実施例では日本語の五十音順に索引を作成する例
を説明したが、アルファベットの読み順に従って作成さ
せるようにすることも容易である。
また、検索された文字列の位置はページ番号で表わすよ
うにしているが、さらに行位置を含めてもよい。
〔発明の効果〕
以上説明したように本発明によれば、大見出し−小見出
し構造の索引を極めて容易に作成することができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す全体ブロック図、第2
図は索引語テーブルの構成を示す図、第3図は検索装置
の構成を示すブロック図、第4図索引語・位置記憶装置
の構成を示すブロック図、第5図は索引語・位置登録装
置の動作を示すフロ−チャート、第6図はフォーマット
装置の構成を示すブロック、第7図は大見出し一小見出
し構造の索引の一例を示す説明図である。 1・・・索引語テーブル、2・・・検索装置、3・・・
索引語・位置記憶装置、4・・・フォーマット装置、5
・・・制fil装置。 第1図 第2図 !!51語づ置U表直へ 第3図 第6図

Claims (1)

    【特許請求の範囲】
  1. 文書中から捜し出す検索パターン、その検索パターンが
    見つかった文書中の位置を表わす情報を索引に載せると
    きの見出しの文字列、その文字列を所定の読み順に従っ
    て整列するための読み文字列との三つを対応付けて記憶
    する索引語テーブルと、この索引語テーブルにある検索
    パターンの集合についてそのいずれかに同一の文字列を
    文書中から検出し、その位置情報と検索パターンに対応
    する見出しの文字列を取出す検索装置と、前記位置情報
    と見出しの文字列とを対応づけて整理・記憶する記憶装
    置と、記憶された見出しの文字列と位置情報の組を見出
    しの文字列に対応付けられた読みに従って整列分類し、
    所定の書式で索引として出力する出力装置と、これらの
    各装置を制御する制御装置とを備えたことを特徴とする
    文書処理装置。
JP62060498A 1987-03-16 1987-03-16 文書処理装置 Pending JPS63226765A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62060498A JPS63226765A (ja) 1987-03-16 1987-03-16 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62060498A JPS63226765A (ja) 1987-03-16 1987-03-16 文書処理装置

Publications (1)

Publication Number Publication Date
JPS63226765A true JPS63226765A (ja) 1988-09-21

Family

ID=13144023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62060498A Pending JPS63226765A (ja) 1987-03-16 1987-03-16 文書処理装置

Country Status (1)

Country Link
JP (1) JPS63226765A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244673A (ja) * 1994-03-04 1995-09-19 Fujitsu Ltd 文書索引作成システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244673A (ja) * 1994-03-04 1995-09-19 Fujitsu Ltd 文書索引作成システム

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
JPH0797373B2 (ja) 文書フアイリングシステム
JPH09259140A (ja) 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体
JPH0484271A (ja) 文書内情報検索装置
JPH06162092A (ja) 情報検索装置
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
JPS63226765A (ja) 文書処理装置
JP3253657B2 (ja) 文書検索方法
JPS617936A (ja) 情報検索方式
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH06266769A (ja) 同義語情報作成装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JPS6175952A (ja) 文書入力処理方式
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JPH01106263A (ja) 文書の格納検索装置
JP2009181524A (ja) 文書検索システム及び文書検索方法
JPS63254522A (ja) キ−ワ−ド抽出装置
JP2967995B2 (ja) 文書処理装置および文書処理方法
JPS62191924A (ja) 情報登録検索装置
JPH09212523A (ja) 全文検索方法
JPH0793345A (ja) 文書検索装置
JPH05189485A (ja) キーワード検索方式
JPH0748218B2 (ja) 情報処理装置
JPH01137367A (ja) 略語集作成方式