JPS63257081A - Document input system - Google Patents

Document input system

Info

Publication number
JPS63257081A
JPS63257081A JP62090995A JP9099587A JPS63257081A JP S63257081 A JPS63257081 A JP S63257081A JP 62090995 A JP62090995 A JP 62090995A JP 9099587 A JP9099587 A JP 9099587A JP S63257081 A JPS63257081 A JP S63257081A
Authority
JP
Japan
Prior art keywords
document
input
storage section
documents
sheet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62090995A
Other languages
Japanese (ja)
Inventor
Shinya Kawamoto
真也 川本
Shunji Ariyoshi
俊二 有吉
Haruo Asada
麻田 治男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62090995A priority Critical patent/JPS63257081A/en
Publication of JPS63257081A publication Critical patent/JPS63257081A/en
Pending legal-status Critical Current

Links

Landscapes

  • Conveying Record Carriers (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To reduce erroneous recognition and to surely find the separation of a document, by identifying an input as the document or a section sheet, and recognizing, if it is the section sheet, the completion of one document. CONSTITUTION:The document desired to be registered is placed on a hopper 1 first. Inputted documents are unified at every separation and a bundle on the forefront of which a black sheet 8 called as the section sheet is placed is generated in advance. The document inputted from the hopper is scanned in order, and after being converted to an electrical signal at a photoelectric transducing part 2, is binarized at a binarization circuit 3, and is transmitted to a threshold circuit 5 via a sunpot counter 4. At the counter, the number of the sunpots is counted from an inputted binary image of one document, and a threshold processing is applied at the threshold circuit. The threshold processing is performed in such a way that the input is decided as the section sheet when a ratio of sunpot to the binary image in one document exceeds 95% and it is transmitted to a control part 6. The documents inputted successively are blocked at every document, and are filed in an optical disk device automatically.

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) この発明は、画像入力装置や文字認識装置を介して連続
的に入力された文書画像を文書単位で蓄積するための文
書入力方式に関する。
[Detailed Description of the Invention] [Object of the Invention] (Industrial Application Field) The present invention relates to a document system for storing document images continuously input via an image input device or a character recognition device in document units. Regarding input methods.

(従来の技術) 近時、情報処理技術の発展に供なって、祇の世界で行な
ってきたファイリングを電子化した世界で行なえるよう
になって来た。電子化したファイリングシステムでは文
書を登録しようとする場合キーボードからデータを入力
する必要がある。しかし文書登録作業におけるキー人力
に多大の時間を要するためこのようなシステムでは文字
認識装置による入力作業の自動化が強く望まれている。
(Conventional technology) Recently, with the development of information processing technology, it has become possible to perform filing, which used to be done in the world of Gion, in the electronic world. In electronic filing systems, when attempting to register a document, it is necessary to input data from a keyboard. However, since the key human effort required for document registration work is a large amount of time, automation of the input work using a character recognition device is strongly desired in such systems.

また文書登録の自動化は入力作業の省力化の観点から要
求されているだけでなく、検索の高度化やマンマシン性
の向上にとっても重要である。
Automation of document registration is not only required from the perspective of saving labor in input work, but is also important for improving search sophistication and man-machine performance.

文書の自動登録のためには、入力される文書の種類等を
自動的に抽出・認識しなければならない。
In order to automatically register documents, it is necessary to automatically extract and recognize the type of input document.

なぜなら−文書が1ブロツクとしてファイリングされて
いない連続した文書データでは、オペレータが必要な情
報を見つけるのに入力された文書を最初に入力したもの
から順次参照しなければならず、オペレータに多大の負
担がかかるからである。
This is because - with continuous document data where documents are not filed as one block, the operator must refer to the input documents sequentially from the first input to find the necessary information, which places a great burden on the operator. This is because it takes

これまで、文字認識装置において文書入力を自動化しよ
うとする際に1文書の必要な情報を書き込んだ専用の紙
を先頭にして入力することが考えられている。しかしこ
の方法では先頭の用紙に書き込まれた文字を認識しなけ
ればならず、複雑な認識過程を通すことになるため先頭
用紙の処理に時間がかかってしまう。また、誤まって入
力文書の一部分と認識してしまう等の誤認識も発生する
Up until now, when attempting to automate document input in a character recognition device, it has been considered to input a special sheet of paper on which necessary information for one document is written at the beginning. However, in this method, the characters written on the first sheet of paper must be recognized, which requires a complicated recognition process, so it takes time to process the first sheet of paper. Further, erroneous recognition such as erroneously recognizing a part of an input document may also occur.

(発明が解決しようとする問題点) 本発明は、夫々が複数頁からなる文書を一括して入力し
、文書単位で蓄積することができるようにした文書入力
方式を提供することを目的とする。
(Problems to be Solved by the Invention) An object of the present invention is to provide a document input method that allows documents each consisting of multiple pages to be input at once and stored in document units. .

〔発明の構成〕[Structure of the invention]

(問題点を解決するだめの手段) 本発明は、複数枚の入力文書が載置可能なホッパと、こ
のホッパに載置された入力文=3を1枚毎に走査して文
書画像信号を得る走査手段と、この走査手段により得ら
れる文書画像信号もしくはこの文書画像信号を文字認識
した結果を順次蓄積する文書蓄積部を有する装置におい
て、前記入力文書の任意の区切シ毎に、各文書とは色、
形状、大きさ等のいずれかの性質が異なる区切りノート
を挿入し、前記走査手段より得られる文書画像信号から
前記性質の相違を判定することにより前記区切りシート
を検出する手段と、この手段により区切りシートが検出
された時点間に前記走査手段から得られた1又は複数枚
の文書画像信号を1単位の文書として前記文書蓄積部に
区分して蓄積制釘する制御手段とを設けたことを特徴と
する文書入力方式にある。
(Means for Solving the Problem) The present invention provides a hopper on which a plurality of input documents can be placed, and a document image signal by scanning input sentences = 3 placed on this hopper sheet by sheet. In an apparatus having a document storage section that sequentially stores a document image signal obtained by the scanning means or a result of character recognition of the document image signal, the apparatus includes a document storage section that sequentially stores a document image signal obtained by the scanning means or a result of character recognition of the document image signal. is the color,
means for detecting the separator sheet by inserting separator notes with different properties such as shape or size and determining the difference in the properties from the document image signal obtained by the scanning means; A control means is provided for sorting and storing one or more document image signals in the document storage section as one unit document, obtained from the scanning means during the time when a sheet is detected. The document input method is

(作用) 本発明は文書画像の登録に除して、入力文書(一般に複
数ページである)を区分ごとに1とめて、セクションシ
ートと呼ぶ特定シートの後に続けて入力する。セクショ
ンシートとは認識スべき文字が書かれてなく、連続して
入力される文書データを一文書ごとに区切ることを目的
としたシートで、入力される文書の用紙とは色、形、大
きさの点で違っているものである。
(Operation) In addition to registering a document image, the present invention divides an input document (generally a plurality of pages) into one section for each section and inputs the input documents successively after a specific sheet called a section sheet. A section sheet is a sheet that does not contain any characters that need to be recognized, and is intended to separate consecutively input document data into individual documents. They are different in this respect.

文字認識装置は、入力されたものが文書であるか、セク
ションシートであるかを識別し、セクションシートであ
れば、そこまでが1文書の終了であると認識し、記憶装
置には1文書ごとにブロック化されて自動的にファイリ
ングする。認識すべき文字が書かれていないシートを他
の文書と区別することは、次の効果をもたらす。すなわ
ち、複雑な文字認識処理をする必要がなく認識が容易な
ので処理が短時間に行え、しかも誤認識が少なく確実に
文書の区切りを発見できる。故に文書入力作業の高速化
・省力化をもたらしまた記憶装置には、1文書がブロッ
ク化されてファイリングされるため、検索も容易に行う
ことができる。
The character recognition device identifies whether the input is a document or a section sheet, and if it is a section sheet, it recognizes that it is the end of one document, and the storage device stores each document. will be blocked and automatically filed. Distinguishing sheets on which no characters to be recognized are written from other documents has the following effects. That is, there is no need to perform complex character recognition processing, and recognition is easy, so processing can be carried out in a short time, and there are fewer erroneous recognitions, making it possible to reliably find document boundaries. This speeds up the document input work and saves labor, and since each document is filed in a block in the storage device, it can be easily searched.

(実施例) 以下図面を参照して本発明の一実施例について説明する
(Example) An example of the present invention will be described below with reference to the drawings.

第1図に文書を画像のま″!、登録するためのシステム
例を示す。登録しようとする文書はまずホッパー1にの
せられる。ここで第2図に示すように入力文書を区分ご
とにまとめ、セクションシートと呼ぶ黒いシート8を先
頭にした束を作っておく。
Figure 1 shows an example of a system for registering documents as images. The document to be registered is first placed on hopper 1. Here, input documents are grouped into categories as shown in Figure 2. , make a bundle with black sheet 8 at the beginning, which is called a section sheet.

ホッパーから入力された文書は順次走査され光電変換部
2で電気信号に変換後、2値化回路3で2値化され、黒
点カウンタ4を経て閾値回路5へ送信される。ここでは
入力された文書1枚分の2値化画像より黒点の数をカウ
ントし、閾値回路で閾値処理される。閾値処理とは、1
文書における2値化画像に黒点の占める割合が95チ以
上であればセクションシートだと判断し制御部6へ伝え
られる。また入力される文書の大きさはホッパーから光
電変換部へ移動する際検出し、制御部へ送信され、制御
部は入力された文書の大きさに合った閾値を決定する。
Documents input from the hopper are sequentially scanned, converted into electrical signals by a photoelectric conversion section 2, binarized by a binarization circuit 3, and transmitted to a threshold circuit 5 via a black point counter 4. Here, the number of black dots is counted from the input binary image of one document, and threshold processing is performed by a threshold circuit. What is threshold processing?1
If the proportion of black dots in the binarized image of the document is 95 inches or more, it is determined that it is a section sheet, and this is transmitted to the control unit 6. Further, the size of the input document is detected when moving from the hopper to the photoelectric conversion section, and is transmitted to the control section, and the control section determines a threshold value that matches the size of the input document.

2値化された文書画像は第3図に示すように光デイスク
装置7のデータ領域11に順次書き込まれる。セクショ
ンシートが検出されると制御部は入力文書のディレクト
リをディレクトリ領域10に作成し、データ領域に書き
込まれた文書画像の先頭アドレスを書く。
The binarized document images are sequentially written into the data area 11 of the optical disk device 7, as shown in FIG. When a section sheet is detected, the control unit creates a directory for the input document in the directory area 10, and writes the start address of the written document image in the data area.

このようにして1つの入力文書に1つのディレクトリが
対応して文書の数だけディレクトリが作成される。こう
すればディレクトリを参照することによって見たい文書
を容易に検索することができる。
In this way, one directory corresponds to one input document, and as many directories as there are documents are created. In this way, you can easily search for the desired document by referring to the directory.

以上の処理を経て連続して入力された文書は1文書ごと
にブロック化されて光デイスク装置で自動的にファイリ
ングされる。
The documents that are continuously input through the above processing are divided into blocks one by one and automatically filed by the optical disk device.

第4図は文書を文字情報をコード化して後登録するだめ
のシステム例を示す。登録しようとする文書はまずホッ
パー101にのせられる。ここで第2図に示すように入
力文書を区分ごとにまとめセクションシートと呼ぶ黒い
シート13を先頭にした束を作っておく。ホッパーから
入力された文書は順次走査され光電変換部102で電気
信号に変換後、2値化回路103で2値化され、前処理
部105を経て認識部108へと送信される認識部10
8では辞書107と照合して文字ごとに認識が行なわれ
る。得られた認識結果より文書のフォント等を検出し、
後処理用辞書110より文書に適合した後処理用辞書が
選択され、後処理部111で単語ごとに後処理用辞−1
1F110と照合しながら最終結果が求まる。2値化回
路103より2値化された文書画像は、黒点カウンタ1
04を経て閾値回路へ送信される。ここでは入力された
文書1枚分の2値化画像より黒点の数をカウントし閾値
回路106で閾値処理される。閾値処理とは、1文書に
おける2値化画像に黒点の占める割合が95%以上であ
ればセクションシートだと判断し、制御部109へ伝え
られる。また入力される文書の大きさはホッパーから光
電変換部へ移動する際検出し制御部へ送信され制御部は
入力された文書の大きさに合った閾値を決定する。
FIG. 4 shows an example of a system in which the character information of a document is encoded and then registered. A document to be registered is first placed on the hopper 101. Here, as shown in FIG. 2, the input documents are grouped into sections to create a bundle with the black sheet 13 at the top, which is called a section sheet. Documents input from the hopper are sequentially scanned, converted into electrical signals by a photoelectric conversion unit 102, binarized by a binarization circuit 103, and sent to a recognition unit 108 via a preprocessing unit 105.
8, each character is recognized by comparing it with the dictionary 107. Detects the font, etc. of the document from the obtained recognition results,
A post-processing dictionary suitable for the document is selected from the post-processing dictionary 110, and a post-processing dictionary-1 is selected for each word in the post-processing unit 111.
The final result is determined by comparing it with 1F110. The document image binarized by the binarization circuit 103 is processed by the black point counter 1.
04 to the threshold circuit. Here, the number of black dots is counted from the input binary image of one document, and threshold processing is performed by a threshold circuit 106. Threshold processing means that if the proportion of black dots in the binarized image in one document is 95% or more, it is determined that it is a section sheet, and the result is transmitted to the control unit 109. Further, the size of the input document is detected when the document is moved from the hopper to the photoelectric conversion section and is transmitted to the control section, and the control section determines a threshold value that matches the size of the input document.

以上の処理を経て連続して入力された文書は1文書ごと
にブロック化されて文字コード情報としてディスク装置
j1112で自動的にファイリングされる。文字の書か
れていない黒いセクションシートの利点は文字認識の必
要がないため誤認識が発生しないことである。白いセク
ションシートを使用した場合、不都合が生じる。もし文
書が裏がえっていると白い表面になる可能性があり、文
書なのか、セクションシートなのか識別しにくい。また
黒いシートは汚れたとしても認識には関係ないので何回
も繰シ返し使用できる。
Documents that are continuously input through the above processing are divided into blocks one by one and automatically filed as character code information in the disk device j1112. The advantage of a black section sheet with no text written on it is that there is no need for character recognition, so misrecognition does not occur. If a white section sheet is used, there will be some inconvenience. If the document is turned upside down, there may be a white surface, making it difficult to tell whether it is a document or a section sheet. Furthermore, even if the black sheet gets dirty, it does not affect recognition, so it can be used over and over again.

このように上記の例では黒いシートをセクションシート
とすることによって文書を画像のままファイリングする
場合にもOCRで文字コードに変換する場合でも1文書
の終了であることが簡単に認識できるため容易に文書を
ブロック化したシ、ファイリングすることができる。こ
の方式によ、つて文書のOCR入力は大幅に自動化、省
力化される。さらにファイリングの後、検索する時には
、オペレータの負担が軽減される。
In this way, in the above example, by using the black sheet as the section sheet, it is easy to recognize that the end of one document is the end of the document, whether it is filed as an image or converted to character code using OCR. Documents can be divided into blocks and filed. With this method, OCR input of documents is greatly automated and labor-saving. Furthermore, when searching after filing, the burden on the operator is reduced.

尚、本発明は上記実施例に限定されるものではない。セ
クションシートは紙でもそれ以外であってもよいし、上
記実施例では黒であったが、色はスキャナの特性によっ
て何色でもよい。また形、大きさは文書と同じでなくて
もよい。角が切れていてもよいし、穴があってもよいし
、耳がついていてもよい。要するに本発明はその要旨を
逸脱しない範囲で種々変型して実施することができる。
Note that the present invention is not limited to the above embodiments. The section sheet may be made of paper or other materials, and although it was black in the above embodiment, it may be of any color depending on the characteristics of the scanner. Also, the shape and size do not have to be the same as the document. It may have cut corners, holes, or ears. In short, the present invention can be implemented with various modifications without departing from the gist thereof.

〔発明の効果〕〔Effect of the invention〕

かくして本発明によれば、文書を電子的にファイリング
しようとしてOCR等から入力する際、セクションシー
トを文書の先頭において入力することによって、文書入
力作業が自動化省力化されファイリング後の検索も容易
で効率的に行うことができ、オペレータの負担も大幅に
軽減される。
Thus, according to the present invention, when inputting a document using OCR or the like to electronically file it, by inputting the section sheet at the beginning of the document, the document input work is automated and labor-saving, and the search after filing is also easy and efficient. The operator's burden is greatly reduced.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は、本発明の一実施例装置の概略構成図、第2図
は読取文書の一例を示す図、縞3図はファイリングの様
子を説明するための図、第4図は本発明の他の実施例を
示す図である。 1・・・ホッパー、3・・・2値化回路、4・・・黒点
カウンタ、5・・・閾値回路、7・・・光デイスク装置
。 代理人 弁理士 則 近 憲 佑 鴛−m−−
FIG. 1 is a schematic configuration diagram of an apparatus according to an embodiment of the present invention, FIG. 2 is a diagram showing an example of a read document, three stripes are diagrams for explaining the filing process, and FIG. 4 is a diagram showing an example of a document to be read. It is a figure which shows another Example. 1... Hopper, 3... Binarization circuit, 4... Black spot counter, 5... Threshold circuit, 7... Optical disk device. Agent Patent Attorney Nori Chika Yuraku-m--

Claims (2)

【特許請求の範囲】[Claims] (1)複数枚の入力文書が載置可能なホッパと、このホ
ッパに載置された入力文書を1枚毎に走査して文書画像
信号を得る走査手段と、 この走査手段により得られる文書画像信号もしくはこの
文書画像信号を文字認識した結果を順次蓄積する文書蓄
積部を有する装置において、前記入力文書の任意の区切
り毎に、各文書とは色、形状、大きさ等のいずれかの性
質が異なる区切りシートを挿入し、前記走査手段より得
られる文書画像信号から前記性質の相違を判定すること
により前記区切りシートを検出する手段と、この手段に
より区切りシートが検出された時点間に前記走査手段か
ら得られた1又は複数枚の文書画像信号を1単位の文書
として前記文書蓄積部に区分して蓄積制御する制御手段
とを設けたことを特徴とする文書入力方式。
(1) A hopper on which multiple sheets of input documents can be placed; a scanning means for scanning each input document placed on the hopper to obtain a document image signal; and a document image obtained by the scanning means. In an apparatus having a document storage section that sequentially stores the results of character recognition of a signal or this document image signal, each document is defined as having some property such as color, shape, size, etc. for each arbitrary section of the input documents. means for detecting the separator sheet by inserting a different separator sheet and determining the difference in the properties from the document image signal obtained by the scanning means; and the scanning means between the times when the separator sheet is detected by the means. 1. A document input method comprising: control means for dividing and controlling storage of one or more document image signals obtained from one or more documents in the document storage section as one unit of document.
(2)文書蓄積部は、前記走査手段により得られた文書
画像信号もしくはこの文書画像信号を文字認識した結果
を収容する文書データ記憶部と、この文書データ記憶部
の内容を文書単位での区分を指示するディレクトリ情報
を収容するディレクトリ記憶部とを有し、 前記制御手段は、前記区切りシートの検出に応答して、
新しい文書単位の区分を指示する新しいディレクトリ情
報を作成し、これを前記文書蓄積部のディレクトリ記憶
部に書き込む手段を備えたことを特徴とする特許請求の
範囲第1項記載の文書入力方式。
(2) The document storage section includes a document data storage section that stores the document image signal obtained by the scanning means or the result of character recognition of the document image signal, and a document data storage section that classifies the contents of the document data storage section in document units. and a directory storage unit that stores directory information instructing the separator sheet, and the control means is configured to:
2. The document input method according to claim 1, further comprising means for creating new directory information for instructing classification of new document units and writing this into a directory storage section of said document storage section.
JP62090995A 1987-04-15 1987-04-15 Document input system Pending JPS63257081A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62090995A JPS63257081A (en) 1987-04-15 1987-04-15 Document input system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62090995A JPS63257081A (en) 1987-04-15 1987-04-15 Document input system

Publications (1)

Publication Number Publication Date
JPS63257081A true JPS63257081A (en) 1988-10-24

Family

ID=14014087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62090995A Pending JPS63257081A (en) 1987-04-15 1987-04-15 Document input system

Country Status (1)

Country Link
JP (1) JPS63257081A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01162474A (en) * 1987-12-18 1989-06-26 Matsushita Graphic Commun Syst Inc Document filing device
JP2003228572A (en) * 2002-12-12 2003-08-15 Ricoh Co Ltd Image processor, and method of preparing index information

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01162474A (en) * 1987-12-18 1989-06-26 Matsushita Graphic Commun Syst Inc Document filing device
JP2003228572A (en) * 2002-12-12 2003-08-15 Ricoh Co Ltd Image processor, and method of preparing index information

Similar Documents

Publication Publication Date Title
JP2553608B2 (en) Optical character reader
JPH0564834B2 (en)
JPS63257081A (en) Document input system
CN1016747B (en) Off-line Handwritten Chinese Recognition system and recognition methods thereof
JPH0652236A (en) Electronic filing device
JPH10134141A (en) Device and method for document collation
JPH03212779A (en) Device for recognizing character
JPS6146573A (en) Character recognizing device
JPH0797390B2 (en) Character recognition device
JPS5949671A (en) Optical character reader
JPH02252078A (en) Method for identifying area of document
JP3428504B2 (en) Character recognition device
JP2749425B2 (en) Article extraction method
JPS62177686A (en) Optical character reader
JPH10269311A (en) Slip processing unit designating method
JPH04309B2 (en)
JPH01259476A (en) Character reader
JP2682456B2 (en) Optical character reader
JPS6277684A (en) Optical reader
JPH04348475A (en) Method and device for retrieving image information
Thakur et al. Offline Recognition of Image for content Based Retrieval
JPS62103784A (en) Character reader
JPH0353392A (en) Character recognizing device
JPS5851390A (en) Font character recognizing device
JPS62281090A (en) Recognition method for pattern information