JPS6225324A - Document understanding system - Google Patents

Document understanding system

Info

Publication number
JPS6225324A
JPS6225324A JP60164113A JP16411385A JPS6225324A JP S6225324 A JPS6225324 A JP S6225324A JP 60164113 A JP60164113 A JP 60164113A JP 16411385 A JP16411385 A JP 16411385A JP S6225324 A JPS6225324 A JP S6225324A
Authority
JP
Japan
Prior art keywords
document
grammar
rectangular areas
rectangular
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60164113A
Other languages
Japanese (ja)
Inventor
Yasuaki Nakano
中野 康明
Koji Yokoyama
横山 晃二
Shoichi Nakagami
昇一 中上
Junichi Tono
東野 純一
Hiromichi Fujisawa
浩道 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60164113A priority Critical patent/JPS6225324A/en
Publication of JPS6225324A publication Critical patent/JPS6225324A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To extract a bibliography item automatically by making divisions according to the structure of a fixed form document. CONSTITUTION:Grammar which expresses the structure of a document is used and the syntax of a description is analyzed by the grammar to grasp the structure of an unknown input document. This grammar expressed a document which is inputted as a character sequence as a set of rectangular areas and contains variables of quantities indicating the absolute or relative sized of the rectangular areas or the absolute or relative relation among the rectangular areas. Further, a searching method for the rectangular areas can be specified. Further, a rectangular area is expressed as a set of searched areas and the format of the document is expressed finely by the hierachical expression. The formats of various documents expressed according to the grammar are stored previously in a memory. When a character sequence is inputted as an unknown document, a syntax analysis part searches for rectangular areas by a searching method specified by a document format to analyze the structure of the document.

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は文書理解方式に係り、特に電子的文書ファイル
装置の入力部として好適な文書理解方式〔発明の背景〕 従来の電子的文書ファイル装置は単に文書の各頁の内容
を文字系列として格納するのみであり、検索のための二
次情報として必要となる書誌事項(文書の名称・発行日
・文書番号など)はキーボ−ドの符号入力手段から外部
から与えてやる必要があった。しかし、ファイル作成作
業の省力化のためしこは文書中に記載されている表題や
著Mなどを自動的に理解して書誌事項データを自動的に
生成することが望ましい。さらに検索を高度化するため
には図表のキャプションや章・節表題の自動検出あるい
は本文自体の理解による自動キーワード抽出などが必要
となる。また文書中の文字系列の中に図形コマンドを含
むことが普通になっているが、対象文書の文字系列を表
題・著者・要約・本文・図形コマンドなどの部分に分割
することは、検索の多様化のために要請されていた。
[Detailed Description of the Invention] [Field of Application of the Invention] The present invention relates to a document understanding method, and in particular, a document understanding method suitable as an input section of an electronic document file device [Background of the Invention] A conventional electronic document file device The content of each page of a document is simply stored as a character sequence, and bibliographic information (document name, publication date, document number, etc.) required as secondary information for searching is entered using the code input method on the keyboard. It had to be given from outside. However, in order to save labor in file creation work, it is desirable to automatically understand the title, author, etc. written in a document and automatically generate bibliographic data. In order to further advance the search, it is necessary to automatically detect captions of figures and tables, chapter/section titles, or automatically extract keywords by understanding the text itself. In addition, it is common to include graphical commands in the character series in a document, but dividing the character series of the target document into parts such as title, author, summary, main text, and graphical commands is useful for various searches. It was requested for the purpose of

従来技術ではワードプロセッサなどにおいて、見出し文
を別途入力して文書の検索を容易にする方法が提案され
ており、たとえば「日立日本語ワードプロセッサWor
dPal 25操作説明書(使いこなしJi)J3s頁
(株式会社日立製作所、昭和59年7月1日第1版発行
)にこのような方法の一例が開示されている。しかし、
この方法は書誌事項そのものの指定ではなく、使用者の
心覚え程度の文章を入力するものであり、本格的な検索
用の書誌事項を用いるためには、別途インチフサが書誌
事項を与える必要があった。
In the prior art, methods have been proposed to facilitate document searches by inputting headings separately in word processors, etc. For example, "Hitachi Japanese Word Processor Wor
An example of such a method is disclosed in the dPal 25 Operating Instructions (Ji), page J3s (Hitachi, Ltd., first edition published on July 1, 1980). but,
This method does not specify bibliographic items themselves, but rather inputs sentences that the user remembers, and in order to use bibliographic items for full-fledged searches, it is necessary for Inchfusa to provide bibliographic items separately. Ta.

〔発明の目的〕[Purpose of the invention]

本発明の目的は、定型化された一般の文書を対象とし、
その構造に従って分割を行うことにより、書誌事項の自
動抽出を可能とする文書理解方式を提供することにある
The purpose of the present invention is to target stylized general documents,
The object of the present invention is to provide a document understanding method that enables automatic extraction of bibliographic items by dividing the document according to its structure.

〔発明の概要〕[Summary of the invention]

かかる目的を達成するために、本発明においては文書の
構造を表現する文法を用い、この文法によって表現され
た記述を構文解析することにより。
In order to achieve this purpose, the present invention uses a grammar that expresses the structure of a document, and parses the description expressed by this grammar.

未知入力文書の構造を把握するものである6上記の文法
では、文字系列で与えられる文書を矩形領域の集合とし
て表現し、上記矩形領域の絶対的あるいは相対的な大き
さ及び矩形領域間の絶対的あるいは相対的な関係を表す
数量を変数として含んでいる。また、矩形領域の探索方
法を指定することができる。さらに、矩形領域の探索領
域の集合として表現し、このような階層的な表現によっ
て。
6 In the above grammar, a document given as a character sequence is expressed as a set of rectangular areas, and the absolute or relative size of the rectangular areas and the absolute size between the rectangular areas are Contains quantities that represent physical or relative relationships as variables. Additionally, the search method for the rectangular area can be specified. Furthermore, it is expressed as a set of rectangular search areas, and by such a hierarchical representation.

文書の書式を細部に至るまで表現できる。Document formats can be expressed down to the smallest detail.

各種文書に対し、」:記の文法に従って表現された文書
の書式があらかじめメモリ内に格納されている。構文解
析部では未知文書を表す文字系列が入力されると、文書
書式で指定された探索方法に従って矩形領域を探索し、
探索が成功したか否かの情報と探索時に定まるパラメー
タ(矩形領域の絶対的あるいは相対的な大きさ及び矩形
領域間の絶対的あるいは相対的な関係)を表す数値を抽
出する。構文解析部は、上記のパラメータの数値を文書
書式の中の変数に代入し、次の解析を行うことにより、
順次文書の構造解析を進める。
For each type of document, a document format expressed according to the following grammar is stored in memory in advance. When the syntax analysis unit receives a character sequence representing an unknown document, it searches a rectangular area according to the search method specified in the document format.
Information on whether the search was successful or not and numerical values representing parameters determined during the search (absolute or relative size of rectangular areas and absolute or relative relationship between rectangular areas) are extracted. The syntax analysis unit assigns the numerical values of the above parameters to variables in the document format and performs the following analysis.
Sequentially proceed with structural analysis of documents.

本発明の詳細な説明する前に本発明の詳細な説明する。Before giving a detailed explanation of the present invention, a detailed explanation of the present invention will be given.

第1図に一定の書式を有する技術論文の一部の例を示す
。この頁は文字符号系列と、それらが真上にどのような
位置に及びどのような形式で印刷されるべきかを示す書
式情報とによって生成されたものである。以下の説明で
は対象として技術論文を例にとるが、他の文書であって
も文法の形式が若干異なるのみであり、文法の一部を変
更すれば本発明が適用でき、本発明は上記技術論文の一
例に限定されるものではない。
FIG. 1 shows an example of a part of a technical paper having a certain format. This page is generated by a sequence of character codes and formatting information indicating where they should be placed directly above and in what format they should be printed. In the following explanation, a technical paper will be taken as an example, but the grammar format is only slightly different even for other documents, and the present invention can be applied by changing a part of the grammar. It is not limited to one example of a paper.

次に、文書の構造を表現する文法(以F文害文法と略す
る)の−例を示す。
Next, an example of a grammar expressing the structure of a document (hereinafter abbreviated as F-grammar) will be shown.

(defforn+ F (土orm  Fl    (10901040))(
form  F’2− (form F3−       )))(deffo
rm  Fl (form FRII (01001050)S t 
r i nに ′論文)) (form Fl2 (’?Xmjn  ’;’Xmax  ?Ymin  
7Yvaax)shrink)) (defmac LINE−1(%1) ; 1行目(
paint 7Y1 (mode LN  Y LES
S))(paint ?Y2 (mode OUT Y
 LESS))(form%1  (0’?Ill ?
YL ?Y2))(defmac LINE−2(%1
);2行目(point ?Y2 (n+ode OU
T Y LESS))(paint  ’ニアY3  
(mode  丁N   Y  LESS))(are
a  (0’i’W ?Y2 ?H)))(paint
  ’i’Y4  (mode OUT Y  LES
S))(area  (0’?lj 7Y37t())
)(form %1   (0’7W 7V3 ?Y4
))第1図の例を参照しながら上記の文法について説明
する。
(deforn + F (Sat orm Fl (10901040)) (
form F'2- (form F3- ))) (defo
rm Fl (form FRII (01001050)S t
r i n 'paper)) (form Fl2 ('?Xmjn';'Xmax ?Ymin
7Yvaax)shrink)) (defmac LINE-1(%1); 1st line (
paint 7Y1 (mode LN Y LES
S)) (paint?Y2 (mode OUT Y
LESS))(form%1 (0'?Ill?
YL? Y2)) (defmac LINE-2(%1
); 2nd line (point ?Y2 (n+ode OU
T Y LESS)) (paint 'Nia Y3
(mode ding N Y LESS)) (are
a (0'i'W ?Y2 ?H))) (paint
'i'Y4 (mode OUT Y LES
S)) (area (0'?lj 7Y37t())
)(form %1 (0'7W 7V3 ?Y4
)) The above grammar will be explained with reference to the example of FIG.

最初のdefform F・・・は、書式Fが第2図の
ように、II弐F1の下部に書式F2及びF3が横に並
んだものが付随して構成されることを示す。第1図では
第2図に対応したF、Fl、F2.F3の部分は破線で
囲んで示しである。書式名F1の次の()で挾まれた4
個の数値 10 90 10 4Q は全領域Fを100X100としたときの相対的なFl
の大きさを示す、このようにパラメータの値が既知のと
きは、その値を直接記述すればよい。
The first deform F... indicates that the format F is constructed with formats F2 and F3 arranged horizontally at the bottom of II2F1, as shown in FIG. In FIG. 1, F, Fl, F2. The portion F3 is shown surrounded by a broken line. 4 enclosed in parentheses following format name F1
The numerical value 10 90 10 4Q is the relative Fl when the total area F is 100X100
When the value of a parameter that indicates the size of is known, it is sufficient to directly write the value.

次のdefform Fl・・・は、書式F1が、さら
に書式FilとFl2が縦に並んで構成されることを示
す。Filにおける 5triB  ’論文 はFilの中に文字データ″論文″が存在することを示
す。このstring指定はあってもなくてもよく、指
定がないときは文字データの存在はチェックしない。F
l2における?の付いた文字は変数を表し、対象によっ
て変動するものである。
The following deform Fl... indicates that the format F1 is further composed of formats Fil and Fl2 arranged vertically. 5triB' paper in Fil indicates that character data "paper" exists in Fil. This string specification may or may not be present, and if it is not specified, the presence of character data is not checked. F
In l2? The letters marked with ``represent variables,'' which vary depending on the target.

4個の変数 (’?Xm1n ”7Xmax ?Ymin ?yma
x)はI?12の相対的な大きさであり、後述するよう
に探索で求まった値がこれらの変数に代入される。
4 variables ('?Xm1n "7Xmax ?Ymin ?yma
x) is I? 12, and the values found through the search are substituted into these variables as will be described later.

5hrink 書式に対応した矩形領域を文字成分が外
接するまで縮小することを示す。5hrink指定もあ
ってもなくてもよい。
5hrink Indicates that the rectangular area corresponding to the format is reduced until the character component is circumscribed. 5hrink specification may or may not be specified.

次のdefmac LINE−1(%1)以降は、マク
ロ定義により】−行目LINE−]の定義を簡単化した
部分である。書式%1は (form%l(0?Iil ’7Y1 ?Y2) )
によりマクロ定義される。?Hは書式の横方向の大きさ
、?Hは書式の縦方向の大きさを表す。;以下はコメン
トである。
The part after the next defmac LINE-1 (%1) is a simplified part of the definition of the -th line LINE-] by the macro definition. The format %1 is (form%l(0?Iil '7Y1 ?Y2))
Defined as a macro. ? H is the horizontal size of the format, ? H represents the vertical size of the format. ;The following is a comment.

Pa1ntはある条件を満足する点を探索し、変数に代
入することを示す。探索条件はmodeによって指定す
る。IN・OUTは探索点が空白から文字への変化点か
文字から空白への変化点かを示し、Yは探索@(Xまた
はY)を示し、LESSは探索方向を表す。areaは
探索範囲の領域を示す。
Pa1nt indicates searching for a point that satisfies a certain condition and assigning it to a variable. Search conditions are specified by mode. IN/OUT indicates whether the search point is a change point from a blank to a character or a change from a character to a blank, Y indicates a search @ (X or Y), and LESS indicates a search direction. area indicates the area of the search range.

文書の理解においては、文法に則って書かれた表現を参
照し、その中に記述された矩形領域が文書に存在するか
否かを順次側べて行く。変数を含んで記述された矩形領
域が探索されると、その変数の数値が得えらることとな
り、以後はその数値を変数に代入して用いる。
In understanding a document, the user refers to expressions written in accordance with the grammar and sequentially checks whether the rectangular area described therein exists in the document. When a rectangular area described including a variable is searched, the numerical value of that variable is obtained, and from now on, the numerical value is substituted into the variable and used.

次に、矩形領域間の演算について説明する。実際の文書
では矩形以外の形状をした領域も出現する。第3図(A
)、(B)は矩形以外の形状をした領域の例である。ま
た、(C)は一つの矩形領域が二つの矩形領域に分離し
た例を示す。第3図(A)、(B)は、それぞれ破線で
示すように、二つの矩形領域の和あるいは差として考え
られる。
Next, calculations between rectangular areas will be explained. In actual documents, areas with shapes other than rectangles also appear. Figure 3 (A
) and (B) are examples of regions having shapes other than rectangles. Further, (C) shows an example in which one rectangular area is separated into two rectangular areas. FIGS. 3A and 3B can be considered as the sum or difference of two rectangular areas, respectively, as indicated by broken lines.

また、(C)は二つの矩形領域がつながって仮想的に一
つの矩形領域に纏まっていると考えれば、表現が単純に
なる。このような矩形領域間の演算を可能にするため、
次のように領域の仮想的な転送を定義する。
In addition, (C) can be expressed simply if it is considered that two rectangular areas are connected and virtually combined into one rectangular area. To enable operations between rectangular areas like this,
Define virtual transfer of area as follows.

(lIlap&form F (spaca ’搾?H) (position (?XO?YO)(’?Xm1n
 ’?Xmax 7Ymj−n 7ymax)))この
仮想的転送の意味を第4図により説明する4゜5apc
eは、新しく書式Fとして幅?W、高さ?Hの矩形領域
を設定し、この領域中に転送が行われることを示す。p
ositionは転送先の矩形領域の左上の座標を表す
。4個の値 (?Xm1n 7XIIIax ’:’Ymin ?y
max)))で示される転送元の矩形領域を、上記の転
送先に複写する。
(lIlap&form F (spaca 'squeeze?H) (position (?XO?YO) ('?Xm1n
'? Xmax 7Ymj-n 7ymax))) 4゜5apc to explain the meaning of this virtual transfer using Figure 4
Is e the width as a new format F? W, height? A rectangular area of H is set to indicate that the transfer is to be performed within this area. p
position represents the upper left coordinates of the rectangular area of the transfer destination. 4 values (?Xm1n 7XIIIax':'Ymin ?y
The transfer source rectangular area indicated by max))) is copied to the above transfer destination.

以上に説明した仮想的転送を組み合わせれば、第3図に
示したような複雑な形状の領域は二つ以上の矩形領域間
の演算によって表現することができる。たとえば、第3
図(A)は大きさの異なる二つの矩形領域を隣接させて
転送したものとして表現できる。
By combining the virtual transfers described above, a region with a complex shape as shown in FIG. 3 can be expressed by calculations between two or more rectangular regions. For example, the third
Figure (A) can be expressed as two rectangular areas of different sizes transferred adjacently.

以上の説明から分るように本発明で提案した文書文法で
は、文書の構造を矩形領域の組み合わせとして把握し、
矩形領域間の関係を文法で表現しているので文書の表現
力が増し、領域内の行数が不定の場合や、矩形領域が出
現するか否かが不定の場合など、従来取り扱いが困難で
あった対象も記述できる。従って、多種多様の文書が解
析可能となる。
As can be seen from the above explanation, the document grammar proposed by the present invention understands the structure of a document as a combination of rectangular areas,
Expressing the relationship between rectangular areas using grammar increases the expressiveness of the document, and it is difficult to handle in cases where the number of lines in an area is undefined or whether a rectangular area appears is undefined. You can also describe the objects that existed. Therefore, a wide variety of documents can be analyzed.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明の実施例について図面を用いて詳細に説明
する。
Embodiments of the present invention will be described in detail below with reference to the drawings.

第4図は本発明の一実施例による文書処理方式を採用し
た装置の構成を示すブロック図である。
FIG. 4 is a block diagram showing the configuration of an apparatus employing a document processing method according to an embodiment of the present invention.

装置の各部はバス1に接続され、全体の動作は制御部2
により制御される。文書3上の情報(文字系列)はキー
ボード4より文字符号系列として入力され、バス1を介
してメモリ51に格納される。
Each part of the device is connected to bus 1, and the overall operation is controlled by control unit 2.
controlled by Information (character sequence) on the document 3 is input as a character code sequence from the keyboard 4 and stored in the memory 51 via the bus 1.

メモリ5]、は後述する52〜55とともにメモリ5の
一部をなす。文字符号系列51をキーボード4から得る
代わりに、゛磁気ディスクなどのファイル装置から読み
こんでもよい。また、この文字符号系列は紙面上の文字
パターンを文字認識装置によって読み取ったものであっ
てもよい。また、文字符号系列には書式制御データを含
んでもよい。
Memory 5] forms part of the memory 5 together with 52 to 55, which will be described later. Instead of obtaining the character code series 51 from the keyboard 4, it may be read from a file device such as a magnetic disk. Further, this character code series may be obtained by reading a character pattern on a sheet of paper using a character recognition device. Further, the character code series may include format control data.

入力文字系列に対し制御部2により公知の清書プログラ
ム処理を行うことにより、1頁のイメージに対応した清
書文字系列がメモリ52に行列データの形で格納される
By subjecting the input character sequence to a known transcription program process by the control unit 2, the transcription character sequence corresponding to the image of one page is stored in the memory 52 in the form of matrix data.

前述した文法に則って書かれた対象文書の書式データが
、あらかじめメモリ53に格納されているものとする。
It is assumed that the format data of the target document written in accordance with the above-mentioned grammar is stored in the memory 53 in advance.

制御部2は、この書式データを用いて上記の清書文字系
列の文書理解処理を行う。
The control unit 2 uses this format data to perform the above-described document understanding process of the neat character series.

ここで文書理解処理とは、上記の頁イメージの清書文字
系列を複数の矩形領域に分解し、その各領域の分類を行
うことをいう。文書理解結果として得られる各領域のう
ち、検索対象領域としてあらかじめ定められた領域につ
いて、その部分の文字系列を検索情報として検索データ
用メモリエリア54に登録する。登録に際してデータの
加工・編集処理を加えてよい。以上のようにして得られ
た入力文書の検索情報をファイル6に、文書の文字符号
系列をファイル7に出力する。文書の文字符号系列のフ
ァイル7への出力に際しては1分解された複数の矩形領
域単位で別々に出力してもよい。
Here, the document understanding process refers to dividing the neat character sequence of the above-mentioned page image into a plurality of rectangular areas and classifying each of the rectangular areas. Of each area obtained as a result of document understanding, for an area predetermined as a search target area, the character sequence of that part is registered in the search data memory area 54 as search information. Data may be processed and edited upon registration. The input document search information obtained as described above is output to file 6, and the character code series of the document is output to file 7. When outputting the character code series of the document to the file 7, it may be output separately in units of a plurality of rectangular areas that are decomposed into one.

また、ファイル6とファイル7は同一のものとしてもよ
い。
Further, file 6 and file 7 may be the same.

以下に文書理解処理の詳細を述べる。第6図及び第7図
は、文書理解の処理の流れを説明する図である。処理の
流れは、P A D (Program Analys
isDiagram)形式で書かれている。101で各
文字符号の頁イメージ上での位百座標 X(i)   Y(i、) を抽出する。103,104,105はそれぞれ構文解
析処理の初期化2本体終了判定である。
The details of the document understanding process will be described below. 6 and 7 are diagrams illustrating the flow of document understanding processing. The process flow is PAD (Program Analyzes
isDiagram) format. In step 101, the digit coordinates X(i) Y(i,) of each character code on the page image are extracted. Reference numerals 103, 104, and 105 indicate whether the initialization 2 main body of the parsing process is complete.

103ではメモリ5,3に格納されている書式データを
作業用メモリ55に複写し、各種テーブルやプログラム
内部変数の初期化を行う。
At 103, the format data stored in the memories 5 and 3 is copied to the working memory 55, and various tables and program internal variables are initialized.

構文解析処理の本体104は、】、06〜120から構
成される。106は、107〜119の処理を120で
終了判定が行われるまで繰り返し行うように制御する。
The main body 104 of the syntax analysis process is composed of ], 06 to 120. Reference numeral 106 controls the processes 107 to 119 to be repeatedly performed until the end determination is made in 120.

107では書式データ中のステートメントを取り出す。At step 107, the statement in the format data is extracted.

処理未了ステートメントとは、その中に含まれる変数で
値の定まっていないものがあるか、または対応する文書
領域がまだ決定されていないような行を指す。108は
、処理未了ステートメントが残っていない場合は109
〜」、19の処理をスキップする判定である。
An unprocessed statement refers to a line in which there are variables whose values have not been determined or whose corresponding document area has not yet been determined. 108 is 109 if there are no unprocessed statements remaining
~'', this is a determination to skip the process of step 19.

この場合には終了判定が行われることになる。In this case, a termination determination will be made.

107で取り出したステートメントが処理未了ステート
メントの場合、109〜117の処理が行ねれる(11
0〜117の処理は第7図に示す。)109は、ステー
トメントの種類を判定して分岐する部分で、ステートメ
ントの種類に応じて110〜117の部分の処理が変化
する。第6,7図及び以下の説明では、formステー
トメント、すなわち (form  FO (?Xm1n  ?Xmax  ?Ymin  ?ym
ax)5hrink) の場合についてのみ述べるが、他のステートメントでも
同様にそのステートメント特有の処理が行われる。
If the statement retrieved in 107 is an unprocessed statement, the processing in 109 to 117 cannot be performed (11
The processing of 0 to 117 is shown in FIG. ) 109 is a part that determines the type of statement and branches, and the processing in parts 110 to 117 changes depending on the type of statement. In Figures 6 and 7 and in the following description, the form statement, i.e. (form FO (?Xm1n ?Xmax ?Ymin ?ym
Although only the case of ax)5hrink) will be described, processing specific to that statement is similarly performed for other statements as well.

1 ]、 O〜119は述語formを処理する部分で
ある。110では書式名称FOが登録済みか否かを調べ
、未登録ならば111で書式テーブルにFOを登録する
。111では、変数名 (’i’Xm1n ?Xmax ’7Ymin 7Ym
ax)の位置に書かれた文字列が変数か数値か、変数な
ら登録済みか否かを調べ、未登録ならこれらを変数表に
登録する。変数が登録済みならばその値が確定している
か否かを調へ、確定していなければforI11処理は
終了する(この場合このステートメントは処理未終了と
なる)。確定していれば、ステートメント中の変数名を
上記の数値で書き換える。
1 ], O to 119 are parts that process the predicate form. In step 110, it is checked whether the format name FO has been registered, and if not, in step 111, FO is registered in the format table. 111, the variable name ('i'Xm1n ?Xmax '7Ymin 7Ym
Check whether the character string written in position ax) is a variable or a numerical value, and if it is a variable, check whether it has been registered or not, and if it is not registered, register it in the variable table. If the variable has been registered, it is checked whether its value has been determined, and if it has not been determined, the forI11 process ends (in this case, this statement is not completed). If confirmed, rewrite the variable name in the statement with the above value.

具体例として、 ?Xm1n=O,?Xmax=90゜ ?Ymin、7Ymax  :未登録 のとき、曲屈のステートメントは (form  FO (090?Ymin  ?Ymax) shrink) と書き換えられ、変数?Ymin、7Ymax が変数
テーブルに登録されて、値未確定となる。
As a specific example, ? Xm1n=O,? Xmax=90°? Ymin, 7Ymax: When unregistered, the bending statement is rewritten as (form FO (090?Ymin?Ymax)shrink) and the variable? Ymin and 7Ymax are registered in the variable table and their values are undetermined.

112で、ステー1〜メント中の変数名が全で数値に書
き換えられているか否かにより分岐し、全て数値に書き
換えられていたとき、113のform実行処理を行う
。form実行処理の詳細は114〜118で表される
。】−14は、102で抽出ごれた文字iについて以下
の処理を操り返すことを示す。115では、文字iのX
座標及びY座標X(i)  Y(i) をステートメント中の変数 ?Xm1n  7Xmax  ’i’Ymin  ’i
’Ymaxに対応する数値と比校し ? Xm1n< X (i ) < ? Xmax? 
Ymin< Y (i ) < ? Ymaxが成立す
る文字か否かを判定する。116では、−上記の条件が
成立したとき、その文字iをFOの成分テーブルに登録
する。117では。、上記の条件が成立する文字が存在
しないとき、解析失敗のフラグを立てる。
At step 112, a branch is made depending on whether or not all of the variable names in statements 1 to 1 have been rewritten to numerical values, and if all have been rewritten to numerical values, the form execution process at step 113 is performed. Details of the form execution process are represented by 114 to 118. ]-14 indicates that the following process is repeated for the character i extracted in step 102. 115, the X of the letter i
Are coordinates and Y coordinates X(i) Y(i) variables in the statement? Xm1n 7Xmax 'i'Ymin 'i
'Compared to the value corresponding to Ymax? Xm1n<X(i)<? Xmax?
Ymin<Y(i)<? It is determined whether the character Ymax is satisfied. In step 116, - when the above condition is met, the character i is registered in the component table of FO. At 117. , if a character that satisfies the above conditions does not exist, a parsing failure flag is set.

以上説明したように106〜117の処理により、書式
データ中のステートメントformに対応する構造が入
力文字系列に存在することを検出できる。formステ
ートメントにおいてstring指定があるときは、指
定された文字データが入力文字系列中に存在するか否か
を、単語照合によって求めればよい。単語照合に際し、
同義語辞書を参照して、同義語が存在したときは同一視
するようにしてもよい。form以外のステートメント
についても同様に解析ができる。ステートメント中に変
数が含まれるときは、ステートメント中の変数に解析時
に求めたパラメータを代入し、その結果が他のステート
メントで用いられる。
As explained above, by the processes 106 to 117, it is possible to detect that a structure corresponding to the statement form in the format data exists in the input character series. When string is specified in the form statement, whether or not the specified character data exists in the input character series can be determined by word matching. When matching words,
A synonym dictionary may be referred to, and if synonyms exist, they may be treated as the same. Statements other than form can also be analyzed in the same way. When variables are included in a statement, the parameters determined during analysis are assigned to the variables in the statement, and the results are used in other statements.

118では、解析失敗フラグを調べ、解析が失敗したと
き後戻りして再試行する。この場合、解析済みのステー
トメントに戻ってパラメータを代入した変数をまた以前
の状態に書き直し、別の可能性を探索するように制御す
る。
In step 118, the analysis failure flag is checked, and if the analysis fails, the process backs up and tries again. In this case, control is provided to return to the parsed statement, rewrite the variables to which the parameters were assigned to their previous state, and search for other possibilities.

119では、解析失敗フラグが立っていないか、あるい
は後戻り再試行の後解析失敗フラグがあるかを検出し、
終了判定を行う。
In step 119, it is detected whether the analysis failure flag is not set or whether there is an analysis failure flag after going back and retrying.
Make a termination judgment.

105は解析の結果得られたデータを外部に受は渡す部
分である。外部に受は渡すデータとしては、書式名称に
対応して検出した矩形領域の文書上での座標などがある
105 is a part that receives and passes data obtained as a result of analysis to the outside. The data to be passed to the outside includes the coordinates on the document of the rectangular area detected corresponding to the format name.

解析失敗フラグを立てる指定のあるステー1ヘメントで
解析が失敗したとき、この文書は理解不能であり、この
ときはりジエクト処理を行う。たとえば文書理解の最終
結果あるいは中間結果をディスプレイ8に表示しキーボ
ード4を用いるなどして、マンマシン的に修正してもよ
い。
When the analysis fails at a stage 1 in which an analysis failure flag is specified, the document is unintelligible, and in this case, the extract processing is performed again. For example, the final result or intermediate result of document understanding may be displayed on the display 8 and the keyboard 4 may be used for correction in a man-machine manner.

〔発明の効果〕〔Effect of the invention〕

以上説明したごとく1本発明によれば格納すべき対象文
書の解析を自動的に行うことが可能であり、キーボード
から書誌情報を入力することが不要となるかあるいは大
幅に削減されるので、人力がきわめて簡素化される。ま
た、対象文書の形式が変化しても書式データを変更すれ
ば、直ちに対応できるなどの利点がある。
As explained above, according to the present invention, it is possible to automatically analyze target documents to be stored, and the need to input bibliographic information from a keyboard is eliminated or greatly reduced, reducing human labor. is extremely simplified. Another advantage is that even if the format of the target document changes, it can be handled immediately by changing the format data.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は文書の一例を示す参考図、第2,3゜4図は本
発明の詳細な説明するための説明図、第5図は本発明の
文書処理方式を実施する装置の構成を示すブロック図、
第6図、劣中井は第5図中の制御部2における処理を説
明するための流れ図である。 】・・バス、2・・・制御部、3・・・文書、4・・・
キーボード、5・・・メモリ、6,7・・・ファイル、
8・・・ディスプレイ。
Fig. 1 is a reference diagram showing an example of a document, Figs. 2, 3 and 4 are explanatory diagrams for explaining the present invention in detail, and Fig. 5 shows the configuration of a device implementing the document processing method of the present invention. Block Diagram,
FIG. 6 is a flowchart for explaining the processing in the control section 2 in FIG. 5. ]...Bus, 2...Control unit, 3...Document, 4...
Keyboard, 5...Memory, 6,7...File,
8...Display.

Claims (1)

【特許請求の範囲】 1、文書を矩形領域の集合として記述する文法に従つて
書かれた表現を記憶してなるメモリと、文書を表す文字
符号系列を得る手段と、 上記文字符号系列の中から上記の文法に従つて書かれた
表現で指定される矩形領域を探索することにより文書の
解析を行う構文解析部とを有し、 上記の探索によつて得られた文字符号系列中の各矩形領
域の意味を表すデータを生成することを特徴とする文書
理解方式。 2、特許請求範囲第1項記載の文書理解方式において、 上記文法の中に矩形領域の絶対的あるいは相対的な大き
さ及び矩形領域間の絶対的あるいは相対的な関係を表す
数量を変数として含むとともに、上記矩形領域の探索方
法の記述を含み、上記文字符号系列の中から上記の文法
に従つて書かれた表現で指定される矩形領域を探索し、
探索結果から定まる値を上記表現の中の変数に代入し、
未知変数が存在しなくなるまで解析を行う構文解析部を
有することを特徴とする文書理解方式。 3、特許請求範囲第1項記載の文書理解方式において、 文法中に空間的に隔てられた複数の矩形領域から演算を
行つて生成した仮想的な一つの矩形領域を含むことを特
徴とする文書理解方式。
[Scope of Claims] 1. A memory that stores an expression written in accordance with a grammar that describes a document as a set of rectangular areas, a means for obtaining a character code series representing the document, and a method for obtaining a character code series representing the document; and a syntactic analysis unit that analyzes a document by searching for a rectangular area specified by an expression written according to the above grammar. A document understanding method characterized by generating data representing the meaning of a rectangular area. 2. In the document understanding method described in claim 1, the grammar includes a quantity representing the absolute or relative size of the rectangular areas and the absolute or relative relationship between the rectangular areas as variables. It also includes a description of a method for searching the rectangular area, and searches for a rectangular area specified by an expression written according to the grammar from the character code series,
Assign the value determined from the search result to the variable in the above expression,
A document understanding method characterized by having a syntax analysis unit that performs analysis until there are no unknown variables. 3. In the document understanding method described in claim 1, the document is characterized in that the grammar includes one virtual rectangular area generated by performing calculations from a plurality of spatially separated rectangular areas. understanding method.
JP60164113A 1985-07-26 1985-07-26 Document understanding system Pending JPS6225324A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60164113A JPS6225324A (en) 1985-07-26 1985-07-26 Document understanding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60164113A JPS6225324A (en) 1985-07-26 1985-07-26 Document understanding system

Publications (1)

Publication Number Publication Date
JPS6225324A true JPS6225324A (en) 1987-02-03

Family

ID=15786998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60164113A Pending JPS6225324A (en) 1985-07-26 1985-07-26 Document understanding system

Country Status (1)

Country Link
JP (1) JPS6225324A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765003A (en) * 1991-06-25 1995-03-10 At & T Corp Method for analysis of symbol set
US5536101A (en) * 1992-09-05 1996-07-16 Gkn Automotive Ag Drive assembly for slide-on hub

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765003A (en) * 1991-06-25 1995-03-10 At & T Corp Method for analysis of symbol set
US5536101A (en) * 1992-09-05 1996-07-16 Gkn Automotive Ag Drive assembly for slide-on hub

Similar Documents

Publication Publication Date Title
US5311429A (en) Maintenance support method and apparatus for natural language processing system
JP3905179B2 (en) Document translation apparatus and machine-readable medium
JPS6140673A (en) Method and machine for translation for foreign language composition
JPS61255469A (en) Language generating device
US5283737A (en) Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
JP2848729B2 (en) Translation method and translation device
JPS6225324A (en) Document understanding system
Taylor et al. An intelligent document understanding system
JP3016040B2 (en) Natural language processing system
JPH07146785A (en) Method for automatically generating program and device therefor
JPH07107711B2 (en) Document image processing device
JPS59200329A (en) Dictionary register
JP2958044B2 (en) Kana-Kanji conversion method and device
JP4276402B2 (en) Form processing device
JPH08161350A (en) Method and device for electronic filing
JPH03185559A (en) Document shaping device
JPH0612453A (en) Unknown word extracting and registering device
JPS6366665A (en) Document analyzing/shaping device
JP3316884B2 (en) Language translator
JPH0594477A (en) Associative data base construction system
JPH0486948A (en) Method for preparing kana-added data base utilizing dictionary by fields
Harr ABF: an expert system for office automation and an interpreter for legal document construction
Van Le et al. A language to describe formatting directives for SGML documents
JPH03129562A (en) Device for supporting index formation
Almufti A SYSTEM FOR THE MANIPULATION