明 細 書 記入用文書作成装置及び作成方法 記入内容抽出装置及び抽出方法、 記入用文書 技術分野 Description Document creation device and creation method for entry Entry content extraction device and extraction method, entry document
本発明は、 例えばアンケート調査票や答案用紙等の書面に記入された回答を自動的に 抽出しデータ化するための記入用文書作成装置及び作成方法、 記入内容抽出装置及び抽 出方法、 記入用文書に関する。 背景技術 The present invention provides an entry document creation device and a creation method for automatically extracting and converting data written in a document such as a questionnaire and answer sheet, an entry content extraction device and an extraction method, and an entry device. Regarding documents. Background art
従来、 アンケー卜調査票や答案用紙等に記入された回答内容を抽出する方法として次 のようなものがあった。 Conventionally, there have been the following methods for extracting the contents of a questionnaire or answer sheet.
(1)マークシートを用いるもの (例えば、 非特許文献 1参照)。 (1) A device using a mark sheet (for example, see Non-Patent Document 1).
(2)答案用紙を O C R装置を用いて回答を抽出するもの (例えば、特許文献 1、 2、非 特許文献 2参照)。 (2) An answer sheet is extracted from the answer sheet using an OCR device (for example, see Patent Documents 1 and 2 and Non-Patent Document 2).
【特許文献 1】 [Patent Document 1]
特開平 8— 3 1 5 0 6 6号公報 Japanese Patent Application Laid-Open No. Hei 8—3 1 5 0 6
【特許文献 2】 [Patent Document 2]
特開平 1 0— 4 9 5 9 3号公報 Japanese Patent Application Laid-Open No. H10-104993
【非特許文献 1】
Education Software Co. , Ltd "OMIR-300" [online], 2002年、 [20[Non-Patent Document 1] Education Software Co., Ltd "OMIR-300" [online], 2002, [20
0 3 年 3 月 7 曰 檎 索 ] 、 イ ン タ ー ネ ッ ト く 亂: http: //蘭. edsoft. co. jp/2/3/7/ index, html > 03 March 7, 2003], Internet: http: // Ran. Edsoft. Co.jp/2/3/7/ index, html>
【非特許文献 2】 [Non-patent document 2]
Media Drive Corporation "採点くん" [on I ine]¾ 2001年 [2003 年 3 月 7 日 検 索 ] 、 イ ン タ ー ネ ッ ト く URし: http: //www. mediadr ive. co. jp/ products/so I ut i on/sa i ten/ i ndex. html > Media Drive Corporation "Score" [on Iine] ¾ 2001 [Searched on March 7, 2003], Internet UR: http: // www. Mediadrive. Co. Jp / products / so I ut i on / sa i ten / i ndex.html>
従来、アンケート調査票や答案用紙の書面に記入された内容をデータ化するためには、 記入内容をキーボード入力するか、 または、 上記の(1)や (2)の方法を利用する必要があ つた。 Conventionally, in order to convert the contents of the questionnaire and answer sheets into data, it is necessary to input the contents by keyboard or use the above methods (1) and (2). I got it.
しかしながら、 キ一ボード入力を行うためにはオペレータの操作ミスが避けられない ため、 通常は入力を行うオペレータを 2名用意して同一の内容をそれぞれが入力し、 そ の結果を突き合わせて入力ミスを検出する、 といった、 いわゆる 「ベリファイ方式 j が 用いられている。 その結果、 人件費がかさむ、 また、 手入力のため時間がかかるという 問題があった。 However, operator input errors are unavoidable in order to perform keyboard input.Therefore, usually, two operators who perform input are prepared and the same contents are input, and the results are compared and input errors are made. So-called “verify method j” is used. As a result, there is a problem that labor costs increase and time is required for manual input.
一方、上記従来の(υの方法では、 ドロップァゥトカラ一を用いて印刷した特殊な用紙 (マークシート用紙) を用意する必要があり、 そこに回答を記入させる必要があった。 このような方式では、 マ一クシート用紙は特殊なためコスト高となり また、 逼常 こ のよう 方式では問題用紙と回答用マ一クシ一卜用紙が別々に配布されるため物量が増 えることでもコストを押し上げる要因となり、 また、 回答者にとっても回答欄を間違え
やすいという問題があった。 On the other hand, in the conventional method (1), it is necessary to prepare a special paper (mark sheet paper) printed using a drop cartridge, and it is necessary to fill in the answer there. However, the special form of the mask sheet increases the cost.In addition, the problem is that the problem paper and the answer-mark sheet are distributed separately, so that the increase in the amount of material also increases the cost. , And also for respondents, There was a problem that it was easy.
また、 (2)の方法の場合は、用紙は普通紙でよく、問題用紙に回答櫚を設けることもで きるので、上記(1 )のような方式に比べて低コストで扱いやすいものとなっている。また、 手書き文字も認識しデータ化できる利点もある。 しかしながら、 一般に手書き文字認識 の性能は低く (O C Rのみによる精確な認識は非常に困難であり)、また、認識用辞書も 用意しなければならないという問題があった。また、認識対象の文字位置や処理方法(ど の設問に対する回答欄か) を表すフォーマツト情報をシステムに保持しておく必要があ リ、 例えば、 問題作成者とデータ化業者が異なる場合 (例えば、 作成を外部に委託する ような場合等)、 このフォーマット情報をどうやって伝達するかが問題であった。 また、 このような方式では、 文字認識を行うため、 処理速度が遅いという問題があった。 発明の開示 Also, in the case of the method (2), the paper may be plain paper, and the question paper may be provided with an answer. Therefore, the method is lower cost and easier to handle than the method of the above (1). ing. Another advantage is that handwritten characters can be recognized and converted into data. However, in general, the performance of handwritten character recognition is low (it is very difficult to perform accurate recognition using only OCR), and there is a problem that a dictionary for recognition must be prepared. In addition, it is necessary for the system to retain format information that indicates the character position of the recognition target and the processing method (which question field is the answer field). For example, if the problem creator and the data creator are different (for example, The problem was how to communicate this format information in cases such as outsourcing the creation). In addition, such a method has a problem that the processing speed is slow because character recognition is performed. Disclosure of the invention
本発明は、 前述の課題を解決するため、 予め文書に設けた回答欄に関するフォーマツ ト情報を作成し、 また、 文書に対する記入箇所を検出するための記入箇所検出情報を作 成し、 これらの情報を文書に埋め込むようにしたものである。 即ち、 本発明は、 次のよ うな構成を採用する。 In order to solve the above-mentioned problems, the present invention creates format information on answer fields provided in a document in advance, and creates entry location detection information for detecting entry locations in a document. Is embedded in the document. That is, the present invention employs the following configuration.
〈構成 1〉 <Configuration 1>
本発明は、 所定の記入箇所を有する文害の文害画像データを作成する文書画像作成部 と、 文書.上の記入箇所と記入内容とを示すフォーマット情報と、 記入箇所に記入があつ たか否かを検出するための記入箇所検出情報とを文書画像データへの埋め込み情報とし
て作成する埋め込み情報作成部と、 文書画像データと埋め込み情報とを合成して、 文書 データを作成する文書データ作成部とを備えたことを特徴とする記入用文書作成装置でAccording to the present invention, there is provided a document image creating section for creating harmful image data of a harmful image having a predetermined entry location, a document, format information indicating the entry location on the document, and whether or not the entry location has been entered. Is used as the embedded information in the document image data. And a document data creating section for creating document data by synthesizing the document image data and the embedded information.
¾>る。 ¾>
〈構成 2〉 <Configuration 2>
また本発明は、 所定の記入箇所を有する文害の文書画像データを作成する文軎画像作 成部と、 文書上の記入箇所と記入内容とを示すフォーマット情報と 記入箇所に記入が あつたか否かを検出するための記入箇所検出情報とを文書画像データへの埋め込み情報 として作成する埋め込み情報作成部と、 文書画像データと埋め込み情報とを一体の文書 データとして記憶するデータ記憶部と、 データ記憶部に記憶された文書画像データと埋 め込み情報とを合成して文書データを作成し、 かつ、 文書データを印刷して記入用文書 を出力する印刷処理装置とを備えたことを特徴とする記入用文書作成装置である。 〈構成 3 > In addition, the present invention provides a text / image creation unit that creates document image data of a harmful document having a predetermined entry location, format information indicating the entry location on the document and the entry content, and whether the entry location has been entered. An embedding information creating unit for creating entry point detection information for detecting whether or not entry information is embedded in document image data, a data storage unit for storing document image data and embedding information as integrated document data, and a data storage. A print processing device that combines the document image data and the embedding information stored in the section to create document data, and prints the document data and outputs a document for entry. It is an entry document creation device. <Configuration 3>
また本発明は、 構成 1または 2に記載の記入用文書作成装置において、 文書画像デー タに、 ドットパターンで表される埋め込み情報を埋め込んで文書データを作成する文書 データ作成部を備えたことを特徴とする記入用文書作成装置である。 Further, the present invention provides the entry document creation device according to the configuration 1 or 2, further comprising a document data creation unit that creates the document data by embedding embedded information represented by a dot pattern in the document image data. This is a document creation device for entry.
〈構成 4〉 <Configuration 4>
また本発明は、 構成 1〜 3のいずれかに記載の記入用文書作成装置において、 文書識 別情報を含めて文害データを作成する文害データ作成部とを備えたことを特徴とする記 入用文書作成装置である。
また本発明は、 記入用文書作成装置を用いて、 所定の記入箇所を有する文書の文書画 像データを作成する文書画像データ作成ステップと、 記入箇所と記入内容とを示すフォ 一マツ卜情報を作成するフォーマツ卜情報作成ステップと、 記入箇所に記入があつたか 否かを検出するための記入箇所検出情報を作成する記入箇所検出情報作成ステップと、 文書画像データとフォーマツ卜情報と記入箇所検出情報とを一体の文書データとして作 成する文書データ作成ス亍ップとを実行することを特徴とする記入用文書作成方法であ る。 Further, the present invention provides the entry document creation device according to any one of the constitutions 1 to 3, further comprising a sentence data creation unit for creating sentence data including document identification information. This is an input document creation device. Further, according to the present invention, there is provided a document image data creating step of creating document image data of a document having a predetermined entry portion using an entry document creation device, and format information indicating the entry portion and the entry content. A format information creation step to be created; an entry location detection information creation step to create entry location detection information for detecting whether or not an entry has been made; and document image data, format information, and entry location detection information And a document data creation step of creating document data as integrated document data.
〈構成 6 > <Configuration 6>
また本発明は、 構成 5に記載の記入用文書作成方法において、 文書データ作成ス亍ッ プは、 文書画像データに、 ドットパターンで表される埋め込み情報を埋め込んで文書デ ータを作成するステップであることを特徴とする記入用文書作成方法である。 Further, according to the present invention, in the writing document creation method according to the configuration 5, the document data creation step includes a step of creating the document data by embedding embedded information represented by a dot pattern in the document image data. This is a method for creating an entry document.
〈構成 7〉 <Configuration 7>
また本発明は、 文書中の記入箇所の位置と記入箇所への記入内容を判定するためのフ ォ一マツト情報と、 記入箇所に記入があつたか否かを検出するための記入箇所検出情報 とを一体に有する記入用文書から記入内容を抽出する記入内容抽出装置であって、 記入 用文書のフォーマツ卜情報と記入箇所検出情報を取り出す埋め込み情報取出部と、 フォ —マツト情報における記入位置の情報と、 記入箇所検出情報とを用いて記入箇所を検出 する記入箇所検出部と、 検出した記入箇所とフォーマツト情報の記入内容の判定情報と を用いて.、 記入内容を判定する回答データ変換部とを備えたことを特徴とする記入内容 抽出装置である。
〈構成 8〉 The present invention also provides format information for judging the position of the entry in the document and the content of the entry, and entry detection information for detecting whether or not the entry has been entered. A content extraction device for extracting the content of an entry from an entry document having an embedded information, an embedded information extraction unit for extracting format information and entry location detection information of the entry document, and information on an entry position in the format information. And an entry data detecting unit for detecting the entry using the entry data, and an answer data conversion unit for judging the entry using the detected entry and the information for judging the contents of the format information. An entry content extraction device characterized by comprising: <Configuration 8>
また本発明は、 構成 7に記載の記入内容抽出装置において、 記入箇所検出情報はドッ 卜パターンで表され、 記入箇所検出部は、 ドットパターンの検出状態の変化に基づいて 記入の有無を判定するよう構成されたことを特徴とする記入内容抽出装置である。 Further, according to the present invention, in the entry content extracting device according to the configuration 7, the entry location detection information is represented by a dot pattern, and the entry location detection unit determines the presence or absence of the entry based on a change in the detection state of the dot pattern. An entry content extraction device characterized by having such a configuration.
〈構成 9》 <Structure 9>
また本発明は、 構成 7または 8に記載の記入内容抽出装置において、 自由記載欄を有 する記入用文書に対して、 自由記載欄への記入内容を目視確認するためのイメージ出力 を行う目視情報出力部を備えたことを特徴とする記入内容抽出装置である。 In addition, the present invention provides the entry content extraction device described in the configuration 7 or 8, wherein visual information for outputting an image for visually confirming the entry content in the free entry column is provided for the entry document having the free entry column. An entry content extraction device comprising an output unit.
〈構成 1 0〉 <Structure 10>
また本発明は、 記入内容抽出装置を用いて、 文書中の記入箇所の位置と記入箇所への 記入内容を判定するためのフォーマツト情報と、 記入箇所に記入があつたか否かを検出 するための記入箇所検出情報とを一体に有する記入用文書から記入内容を抽出する記入 内容抽出方法であって、 記入用文書のフォーマツ卜情報と記入箇所検出情報を取り出す 埋め込み情報取出ステップと、 フォーマット情報における記入位置の情報と、 記入箇所 検出情報とを用いて記入箇所を検出する記入箇所検出ステップと、 検出した記入箇所と フォーマツト情報の記入内容の判定情報とを用いて、 記入内容を判定する回答データ変 換ステップとを備えたことを特徴とする記入内容抽出方法である。 In addition, the present invention uses an entry content extraction device to determine the location of entry points in a document and format information for determining the entry contents in entry points, and to detect whether or not entries have been made in entry points. An entry content extraction method for extracting entry content from an entry document that has entry location detection information in an integrated manner. The format information and entry location detection information of the entry document are extracted. An entry data detection step for detecting an entry using the location information and the entry data, and a response data change for judging the entry using the detected entry and the information for judging the entry of the format information. And a replacement step.
〈構成 1 1 ) <Structure 1 1)
また本 ¾明は、 構成 1 0に記載の記入内容抽出方法において、 記入箇所検出情報はド ットパターンで表され、 記入箇所検出ステップは、 ドットパターンの検出状態の変化に
基づいて記入の有無を判定するステップであることを特徴とする記入内容抽出方法であ る Also, in the present description, in the entry content extracting method described in Structure 10, the entry location detection information is represented by a dot pattern, and the entry location detection step is performed by detecting a change in the dot pattern detection state. A step of determining the presence or absence of an entry based on the entry content extraction method.
〈構成 1 2〉 <Configuration 1 2>
また本発明は、 構成 1 0または 1 1に記載の記入内容抽出方法において、 自由記載欄 を有する記入用文書に対して, > 自由記載欄への記入内容を目視確認するためのイメージ 出力を行う目視情報出力ステップを備えたことを特徴とする記入内容抽出方法である。 Further, according to the present invention, in the entry content extracting method described in the configuration 10 or 11, an image output for visually confirming the entry content in the free entry column is performed for the entry document having the free entry column. An entry content extraction method characterized by comprising a visual information output step.
〈構成 1 3 > <Configuration 1 3>
また本発明は、 文書中の記入箇所の位置と記入箇所への記入内容を判定するためのフ ォ一マツト情報と、 記入箇所に記入があつたか否かを検出するための記入箇所検出情報 とを一体に有することを特徴とする記入用文書である。 図面の簡単な説明 The present invention also provides format information for judging the position of the entry in the document and the content of the entry, and entry detection information for detecting whether or not the entry has been entered. This is a document for entry characterized by integrally having BRIEF DESCRIPTION OF THE FIGURES
第 1図は、 本発明の記入内容抽出装置と記入用文書作成装置の具体例 1を示す構成図 である。 FIG. 1 is a configuration diagram showing a specific example 1 of an entry content extraction device and an entry document creation device of the present invention.
第 2図は、 具体例 1の記入用文書作成処理を示すフローチヤ一卜である。 FIG. 2 is a flowchart showing a process for creating a document for entry in Example 1.
第 3図は、 調査票画像の説明図である。 Fig. 3 is an explanatory diagram of a survey form image.
第 4図は、 回答記入領域の説明図である。 Fig. 4 is an explanatory diagram of the answer entry area.
第 5図は、 フォーマツ卜情報の説明國である。' Fig. 5 is a country explaining format information. '
第 6図は、 信号ユニットの一例を示す図である。 FIG. 6 is a diagram showing an example of a signal unit.
第 7図は、 画素値の変化を示す説明図である。
第 8図は、 背景画像の説明図である。 FIG. 7 is an explanatory diagram showing a change in pixel value. FIG. 8 is an explanatory diagram of a background image.
第 9図は、 ュニットパターンとそのュニットパターンが表すシンポルの一例を示す説 明図である。 FIG. 9 is an explanatory diagram showing an example of a unit pattern and a symbol represented by the unit pattern.
第 1 0図は、 透かし画像の形成処理を示すフローチャートである。 FIG. 10 is a flowchart showing a watermark image forming process.
第 1 1國は、 シンボルユニット配置可否行列作成の説明國である。 The eleventh country is the country that explains how to create the symbol unit placement availability matrix.
第 1 2図は ュニットパターン配置可否行列の作成過程の例を示す説明図である。 第 1 3図は、 ュニットパターン行列の一例を示す説明図である。 FIG. 12 is an explanatory diagram showing an example of a process of creating a unit pattern arrangement possibility matrix. FIG. 13 is an explanatory diagram showing an example of a unit pattern matrix.
第 1 4図は、 ュニット行列の一例を示す説明図である。 FIG. 14 is an explanatory diagram showing an example of a unit matrix.
第 1 5図は、 透かし入り画像作成の一例を示す説明図である。 FIG. 15 is an explanatory diagram showing an example of creating a watermarked image.
第 1 6図は、 埋め込み信号数記録処理のフローチャートである。 FIG. 16 is a flowchart of an embedded signal number recording process.
第 1 7図は、 ステップ S 2 1の説明図である。 FIG. 17 is an explanatory diagram of step S21.
第 1 8図は、 ステップ S 2 2およびステップ S 2 3の説明図である。 FIG. 18 is an explanatory diagram of step S22 and step S23.
第 1 9図は、 具体例 1における記入内容抽出処理のフローチャートである。 FIG. 19 is a flowchart of the entry content extraction processing in the specific example 1.
第 2 0図は、 埋め込み情報取リ出し処理の動作フローチャートである。 FIG. 20 is an operation flowchart of an embedded information retrieval process.
第 2 1図は、 信号領域の検出方法の説明図である。 FIG. 21 is an explanatory diagram of a signal area detection method.
第 2 2図は、 属性領域に埋め込まれたュニッ卜行列の大きさを復元する方法の例を示 す説明図である。 FIG. 22 is an explanatory diagram showing an example of a method of restoring the size of the unit matrix embedded in the attribute area.
第 2 3図は ステップ S 4 2とステップ S 4 3の説明図である。 FIG. 23 is an explanatory diagram of step S42 and step S43.
第 2 4.図は、 ュニットパターン行列から符号語を取り出す方法の例を示す説明図であ る。
第 2 5図は、 埋め込み信号数検出処理の説明図である。 FIG. 24 is an explanatory diagram showing an example of a method for extracting a codeword from a unit pattern matrix. FIG. 25 is an explanatory diagram of the embedded signal number detection processing.
第 2 6図は、 フィルタ出力値算出処理の説明図である。 FIG. 26 is an explanatory diagram of a filter output value calculation process.
第 2 7國は、 最適闞値の判定処理の説明図である。 The 27th country is an explanatory diagram of the process of determining the optimum value.
第 2 8図は、 検出信号計数処理の説明図である。 · FIG. 28 is an explanatory diagram of a detection signal counting process. ·
第 2 9図は 画面表示の一例を示す説明図である。 FIG. 29 is an explanatory diagram showing an example of a screen display.
第 3 0図は、 具体例 2の耩成図である。 FIG. 30 is a diagram showing the composition of Example 2.
第 3 1図は、 具体例 2における記入内容抽出処理の説明図である。 FIG. 31 is an explanatory diagram of an entry content extraction process in the specific example 2.
第 3 2図は、 具体例 3の構成図である。 FIG. 32 is a block diagram of a specific example 3.
第 3 3図は、 具体例 3における記入用文書の作成処理を示すフローチャートである < FIG. 33 is a flowchart showing a process for creating a document for entry in Specific Example 3.
発明を実施するための最良の形態 BEST MODE FOR CARRYING OUT THE INVENTION
以下、 本発明の実施の形態を具体例を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail using specific examples.
《具体例 1》 《Example 1》
〈構成〉 <Constitution>
第 1図は、 本発明の記入用文書作成装置と記入内容抽出装置の具体例 1を示す構成図 である。 FIG. 1 is a configuration diagram showing a specific example 1 of an entry document creation device and an entry content extraction device of the present invention.
図において、 1 0 0は記入用文書作成装置、 2 0 0は記入内容抽出装置、 3 0 0は、 記入用文書を示している。 記入用文書作成装置 1 0 0は、 文 β作成部 1 0 1、 文書画像 作成部 1 0 2、 埋め込み情報作成部 1 0 3、 文害データ作成部 1 0 4、 文書出力部 1 0 5からなる。
文書作成部 1 0 1は、 アンケート調査票といった文書 (書面) を作成する機能部であ リ、 例えば、 一般的なワードプロセッサソフトウェアを用いて実現されるものである。 文書画像作成部 1 0 2は 文書作成部 1 0 1で作成した文書のデータを画像データに変 換する機能部である。 これは、 例えば文書の印刷イメージを画像として記録する画像化 ソフトウェアを用いることにより実現することができる。埋め込み情報作成部 1 0 3は、 文書画像作成部 1 0 2で画像化された文書データを用いて次の三つの情報からなる埋め 込み情報を作成する機能部である。 In the figure, 100 is an entry document creation device, 200 is an entry content extraction device, and 300 is an entry document. The entry document creation device 100 is composed of a sentence β creation unit 101, a document image creation unit 102, an embedded information creation unit 103, a harmful data creation unit 104, and a document output unit 105. Become. The document creation unit 101 is a functional unit that creates a document (a document) such as a questionnaire, and is realized using, for example, general word processing software. The document image creation unit 102 is a functional unit that converts the data of the document created by the document creation unit 101 into image data. This can be achieved, for example, by using imaging software that records a print image of the document as an image. The embedded information creation unit 103 is a functional unit that creates embedded information including the following three pieces of information using the document data imaged by the document image creation unit 102.
1 . 記入箇所検出を行うための情報である 「記入箇所検出情報 j 1. "Entry location detection information j"
2 . 回答欄の位置や設問番号との対応を示す 「フォーマット情報 J 2. "Format information J" indicating the correspondence between the answer column position and the question number
3 . 文書の識別番号を示す 「識別情報 J 3. "Identification information J" indicating the identification number of the document
文書データ作成部 1 0 4は、 上記埋め込み情報を、 用紙上のドットパターン (地紋パ ターン) として記録し、 文書の画像データとこれらの埋め込み情報を一体の文書データ として作成する機能部である。 The document data creation unit 104 is a functional unit that records the embedded information as a dot pattern (paper pattern) on paper, and creates image data of the document and the embedded information as integrated document data.
文書出力部 1 0 5は、 例えばプリンタ等からなり、 文書データ作成部 1 0 4で作成さ れた文書データを印刷して記入用文書 3 0 0として出力する機能部である。 The document output unit 105 is, for example, a printer or the like, and is a functional unit that prints the document data created by the document data creation unit 104 and outputs it as an entry document 300.
記入内容抽出装置 2 0 0は、文書読み込み部 2 0 1、埋め込み情報取リ出し部 2 0 2、 記入箇所検出部 2 0 3、回答データ変換部 2 0 4、目視情報出力部 2 0 5を備えている。 文書読み込み部 2 0 1は スキャナを備え、 回答記入済みの記入用文窖 3 0 0の画像を 読み込み, このスキャン画像データを出力する機能部である。 埋め込み情報取 y出し部 The content extraction device 200 includes a document reading unit 201, an embedded information retrieving unit 202, an entry location detecting unit 203, a response data converting unit 204, and a visual information output unit 205. Have. The document reading unit 201 is equipped with a scanner, is a functional unit that reads the image of the entry tech- nique 300 that has been filled in with answers, and outputs this scanned image data. Embedded information extraction section
2 0 2は、 文書読み込み部 2 0 1から出力されたスキャン画像データから、 埋め込み情
報を取り出す機能部である。 即ち、 記入用文書作成装置 1 0 0の埋め込み情報作成部 1Reference numeral 202 denotes embedded information from the scanned image data output from the document reading unit 201. This is a function section that retrieves information. That is, the embedded information creation unit 1 of the entry document creation device 100
0 3で作成された上記三つの情報 (記入箇所検出情報、 フォーマット情報 識別情報) を取リ出す機能を有している。 記入箇所検出部 2 0 3は、 埋め込み情報取 出し部 2 0It has a function to retrieve the above three information created in 03 (entry location detection information and format information identification information). The entry location detection unit 203 is the embedded information extraction unit 200
2によって取 y出された埋め込み情報の記入箇所検出情報とフォーマツト情報とに基づ いて、 文書読み込み部 2 0 1から出力されたスキャン画像データから記入箇所を検出す る機能部である。 2 is a functional unit that detects entry points from the scanned image data output from the document reading unit 201 based on the entry point detection information and the format information of the embedded information extracted by step 2.
回答データ変換部 2 0 4は、 記入箇所検出部 2 0 3で検出された検出箇所の情報に対 して、 フォーマット情報を用いて回答内容に変換する機能部である。 目視情報出力部 2 0 5は、 回答データ変換部 2 0 4で得られた回答内容とスキャン画像とをディスプレイ 等に出力し、 オペレータが回答内容の変換結果が正しいか否かを目視確認するための目 視情報を表示させるための機能部である。 The response data conversion unit 204 is a functional unit that converts the information of the detection location detected by the entry location detection unit 203 into response content using format information. The visual information output unit 205 outputs the response content obtained by the response data conversion unit 204 and the scanned image to a display or the like so that the operator can visually check whether the conversion result of the response content is correct. This is a functional part for displaying the visual information of the user.
上記記入用文書作成装置 1 0 0における文書作成部 1 0 1〜文書データ作成部 1 0 4、 記入内容抽出装置 2 0 0における文書読み込み部 2 0 1〜目視情報出力部 2 0 5は、 そ れぞれ各機能に対応したソフトウェアと、 これらソフトウエアを実行するための、 C P Uやメモリ等のハードウェアとによって実現されているものである。 The document creation unit 101 to the document data creation unit 104 in the entry document creation device 100, the document reading unit 201 to the visual information output unit 205 in the entry content extraction device 200, It is realized by software corresponding to each function and hardware such as a CPU and a memory for executing the software.
〈動作〉 <motion>
次に、 具体例 1の動作を、 記入用文書作成装置"! 0 0と記入内容抽出装置 2 0 0の動 作に分けて説明する。 尚、 具体例 1における記入用文睿 3 0 0はアンケート調査票であ るとして.以下の動作を説明する。 Next, the operation of the specific example 1 will be described separately for the operation of the entry document creation device "! 0 0" and the operation of the entry content extraction device 200. Note that the input sentence 300 in the specific example 1 is Assuming that it is a questionnaire, the following operation is explained.
[記入用文書作成装置 1 0 0の動作]
第 2図は、具体例 1の記入用文書作成装置 1 0 0の動作を示すフローチヤ一トである。 先ず、文書作成部 1 0 1により調査票の書面を作成する (ステップ s 1 ) 0即ち、設問 と回答欄とを含む書面を作成する。 次に、 文書画像作成部 1 0 2は、 文書作成部 1 0 1 で作成された害面データを画像データに変換し、調査票画像を作成する(ステップ S 2 )。 第 3図は、 作成した調査票画 ί象の説明図である。 [Operation of the entry document creation device 100] FIG. 2 is a flowchart showing the operation of the entry document creating apparatus 100 of the first embodiment. First, a document of the questionnaire is created by the document creating unit 101 (step s1) 0, that is, a document including a question and an answer column is created. Next, the document image creating unit 102 converts the harmful surface data created by the document creating unit 101 into image data, and creates a survey form image (step S2). FIG. 3 is an explanatory diagram of the created questionnaire image.
このような調査票では、 回答欄はチェック記入檲 (図中、 例えば Αで示す) と自由記 載欄 (図中、 Bで示す) を含み、 チェック記入欄への回答記入は、 その記入欄へのチェ ック記入、 自由記載欄への記入は文字入力等で行うものである。 In such a questionnaire, the response column includes a check box 檲 (indicated by, for example, Α) and a free-form column (indicated by B in the figure). The check entry into the form and the entry into the free entry field are made by inputting characters.
次に、埋め込み情報作成部 1 0 3にて、 フォーマツト情報作成(ステップ S 3 )、記入 箇所検出情報作成(ステップ S 4 )、識別情報作成(ステップ S 5 ) を行ってこれらの情 報を含む埋め込み情報を作成する (ステップ S 6 )。そして、文書データ作成部 1 0 4に て、 これらの埋め込み情報と文書画像作成部 1 0 2で作成された文書画像データとを合 成した文書データを作成する (ステップ S 7 )。 Next, the embedded information creating unit 103 creates the format information (step S3), creates the entry location detection information (step S4), and creates the identification information (step S5), and includes these pieces of information. Create embedded information (step S6). Then, the document data creation unit 104 creates document data that combines the embedded information and the document image data created by the document image creation unit 102 (step S7).
第 4図は、 回答記入領域の説明図である。 Fig. 4 is an explanatory diagram of the answer entry area.
この第 4図は、 第 3図の調査票画像における回答記入領域を示したものである。 図に おいて、 チェック記入欄を順に C 、 C 1 2などと呼び、 自由記載欄を F 2、 F 3などと 呼ぶ。 各自由記載欄は同図に示す通リブロック B から B 2 8まで分割されているものと する。 また、 各欄の座標位置をそれぞれ同図に示す逼リとする。 但し、 座標系は左上端 を原点 (.0, 0 ) とする。 Fig. 4 shows the answer entry area in the survey form image of Fig. 3. In Fig sequentially checking entry column is referred as C, such as C 1 2, a free description column is referred to as F 2, F 3. Each free description column is assumed to be divided from passing Li block B shown in FIG until B 2 8. In addition, the coordinate positions in each column are defined as tight as shown in FIG. However, in the coordinate system, the origin (.0, 0) is at the upper left corner.
先ず、 ステップ S 3のフォーマット情報の作成について説明する。 フォーマット情報
とは各回答欄の位置とその回答欄がどの設問の何番目の回答欄であるかを示すものであ y ¾ 第 4図に示す回答記入領域に鬨するフォーマツト情報は次の通りとなる。 First, the creation of the format information in step S3 will be described. Format information Fomatsuto information Toki to answer entry area shown in der y ¾ Figure 4 shows the in whether what number answer to which question the position and its answer to each answer field and is as follows.
第 5図は、 フォーマット情報の説明図である。 FIG. 5 is an explanatory diagram of the format information.
図示のように、 フォーマット情報は、 回答欄の左上と右下の座標 (A x , A y ) ( B x, B y ) と設問番号およぴ回答判定の情報からなる。 As shown in the figure, the format information includes upper left and lower right coordinates (A x , A y ) (B x , B y ) of the answer column, a question number, and information on answer determination.
また、 記入箇所検出情報の作成については、 チヱック記入欄や自由記載欄の画像特徴 情報を作成するものであり、 これについては後述する。 尚、 記入箇所検出のための情報 は、 チェック記入欄については各欄毎に個別に作成し、 自由記載欄については各ブロッ ク毎に個別に作成する。 The creation of the entry detection information is to create the image feature information in the check entry column and the free entry column, which will be described later. In addition, information for detecting the entry location is created separately for each column in the check entry column, and is created separately for each block in the free entry column.
次に、 ステップ S 5における識別情報の作成処理について説明する。 Next, the process of creating identification information in step S5 will be described.
識別情報とは、 調査票の種別番号、 部単位の I Dやページ番号などであり、 回答デー タを分類するためのキ一として用いるものである。これは手動で付与してもよく、また、 通し番号としてシステムが自動的に付与してもよい。 The identification information is the type number of the questionnaire, the ID and page number for each copy, and is used as a key for classifying the response data. This may be given manually or automatically by the system as a serial number.
また、 ステップ S 6における埋め込み情報の作成については、 本具体例では文書デー タ作成部 1 0 4によるステップ S 7の文書データ作成処理と一体の処理として行う。 以 下、 埋め込み情報の作成処理と文書データ作成処理について詳細に説明する。 In addition, in this specific example, the creation of the embedded information in step S6 is performed as an integrated process with the document data creation process in step S7 by the document data creation unit 104. Hereinafter, the process of creating embedded information and the process of creating document data will be described in detail.
先ず、 埋め込み情報をドットパターンからなる透かし画像で表すための原理について 説明する。 First, the principle for representing embedded information with a watermark image composed of a dot pattern will be described.
透かし,画像を構成する透かし信号は ドット (黒画秦) の配列によって任意の波長と 方向を持つ波を表現した信号ュニッ卜で表される。
第 6図は、 信号ユニットの一例を示す図である。 The watermark signal composing the watermark and the image is represented by a signal unit that expresses a wave with an arbitrary wavelength and direction by an array of dots (black image hats). FIG. 6 is a diagram showing an example of a signal unit.
以下、幅と高さが Sw, S hの矩形を一つの信号の単位として信号ュニッ卜と称する。 幅 Swと高さ S hは異なっていてもよいが、 本具体例では説明を容易にするため Sw = S hとする。 長さの単位は画素数であり、 第 6図の例では Sw = S h- 1 2である。 こ れらの信号が紙面に印刷されたときの大きさは、 画像情報の解像度に依存してお y、 例 えば、 画像情報が 6 O O d p iの画像であるとした場合、 第 6図の信号ュニッ卜の幅と 高さは、 印刷文書上で、 1 2 600-0. 02 (インチ) となる。 Hereinafter, a rectangle whose width and height are Sw and Sh is referred to as a signal unit with one signal unit. The width Sw and the height Sh may be different, but in this specific example, it is assumed that Sw = Sh for ease of explanation. The unit of the length is the number of pixels, and in the example of FIG. 6, Sw = Sh−12. The size of these signals when printed on paper depends on the resolution of the image information.For example, if the image information is an image of 600 dpi, the signal of FIG. The width and height of the unit will be 1 2600-0.02 (inch) on the printed document.
第 6図 (1 ) は、 ドッ卜間の距離が水平軸に対して a r c t a n (3) の方向に密で あり、 波の伝搬方向は a r c t a n (-1/3) である。 以下、 この信号ュニットをュ ニット Aと称する。第 6図(2)は、 ドッ卜間の距離が水平軸に対して a r c t a n (- 3) の方向に密であり、 波の伝搬方向は a r c t a n (1X3) である。 以下、 この信 号ュニッ卜をュニット Bと称する。 In Fig. 6 (1), the distance between the dots is dense in the direction of arctan (3) with respect to the horizontal axis, and the propagation direction of the wave is arctan (-1/3). Hereinafter, this signal unit is referred to as unit A. In Fig. 6 (2), the distance between the dots is dense in the direction of arctan (-3) with respect to the horizontal axis, and the propagation direction of the wave is arctan (1X3). Hereinafter, this signal unit is referred to as unit B.
第 7図は、 画素値の変化を a r G t a η (1 /3) 方向から見た断面図である。 7 is a sectional view of the change in pixel value from ar G ta η (1/3 ) direction.
第 7図において、 ドットが配列されている部分が波の最小値の腹 (振幅が最大となる 点) となり、 ドットが配列されていない部分は波の最大値の腹となっている。 また、 ド ットが密に配列されている領域はそれぞれ 1ュニッ卜の中に二つ存在するため、 この例 では 1ュニット当たりの周波数は 2となる。 波の伝搬方向はドットが密に配列されてい る方向に垂直になるため、ユニット Αの波は水平方向に対して a r c t a n (—l Z3)、 ュニッ卜. Bの波は a r c ΐ a n ( 1 /3 ) となる。 尚 a r c t a n (a) の方向と a r c t a n (b) の方向が垂直のとき、 a x b =— 1である。 尚、 信号ユニットにはこ
れ以外のドット配列による信号ュニットも考えられる。 In Fig. 7, the part where dots are arranged is the antinode of the minimum value of the wave (the point where the amplitude is maximum), and the part where no dots are arranged is the antinode of the maximum value of the wave. Also, since there are two regions where dots are densely arranged in each unit, the frequency per unit is 2 in this example. Since the propagation direction of the wave is perpendicular to the direction in which the dots are densely arranged, the wave of unit に 対 し て is arctan (—l Z3) with respect to the horizontal direction, and the wave of unit. B is arc ΐ an (1 / 3) When the direction of arctan (a) is perpendicular to the direction of arctan (b), axb = —1. Note that the signal unit Signal units with other dot arrangements are also conceivable.
信号ュニッ卜に符号語のシンボルを割り当て、 信号ュニットを透かし画像に埋め込む ことにより、 埋め込み情報を透かし画像に埋め込むことができる。 以下 符号語のシン ボルを割り当てた信号ュニッ卜を 「シンボルュニッ卜 j と称する。 The embedding information can be embedded in the watermark image by assigning a code word symbol to the signal unit and embedding the signal unit in the watermark image. Hereinafter, the signal unit to which the codeword symbol is assigned is referred to as “symbol unit j”.
埋め込み情報を符号語に変換する際の次元数により、 必要なシンボルュニット,の数が 定まる。 埋め込み情報を 2元符号化 (ί = 2 ) する場合には、 シンボルユニットを 2種 類 (例えば、 ユニット Α、 ュニット Β ) 用意し、 例えば、 ュニット Αにシンポル 0を割 リ当て、 ユニット Bにシンボル 1を割り当てることができる。 また、 埋め込み情報を更 に多くの次元数の符号化を行う場合には、 その次元数に対応した種類のシンボルュニッ 卜を用意する。 The required number of symbol units is determined by the number of dimensions used to convert the embedded information into codewords. When binary information is embedded (ί = 2), two types of symbol units (for example, unit Α and unit Β) are prepared. For example, symbol 0 is assigned to unit 、 and unit B is assigned to unit B. Symbol 1 can be assigned. When encoding the embedded information with a larger number of dimensions, a symbol unit corresponding to the number of dimensions is prepared.
また、 例えば、 ユニット Cに符号語のシンボルとは無関係のシンボル (例えば、 機密 語を N元符号化する場合、 シンポル N ) を割り当て、 これを背景ユニットと定義し、 こ れを隙間なく並べて透かし画像の背景とすることができる。 以下、 符号語のシンポルと は無関係のシンボルを割り当てた信号ユニットを 「背景ユニット」 と称する。 背景ュニ ットを隙間なく並べて、 そこにシンボルユニットを埋め込む場合には、 埋め込もうとす る位置の背景ュニッ卜と、 埋め込むシンボルュニットを入れ替える。 Also, for example, a symbol irrelevant to the symbol of the codeword (for example, a symbol N when confidential words are N-ary encoded) is assigned to the unit C, and this is defined as a background unit, and these are arranged without gaps and watermarked. Can be the background of the image. Hereinafter, a signal unit to which a symbol irrelevant to the symbol of the codeword is assigned is referred to as a “background unit”. When arranging background units with no gaps and embedding the symbol unit there, replace the background unit at the position to be embedded with the symbol unit to be embedded.
第 8図は、 背景画像の説明図である。 FIG. 8 is an explanatory diagram of a background image.
第 8図 (1 ) はユニット Cを背景ユニットと定義し、 これを隙間なく並べて透かし画 像の背景.とした場合を示している。 第 8図 (2 ) は、 第 8図 (1 ) の背景画像の中にシ ンポルユニットとしてのユニット Aを埋め込んだ一例を示し、 第 8図 (3 ) は、 第 8図
( 1 ) の背景画像の中にシンポルュニットとしてのュニッ卜 Bを埋め込んだ一例を示し ている。 Fig. 8 (1) shows a case where unit C is defined as a background unit, and these are arranged side by side without any gap to provide the background of the watermark image. Fig. 8 (2) shows an example in which the unit A as a symbol unit is embedded in the background image of Fig. 8 (1), and Fig. 8 (3) shows the example of Fig. 8 (3). An example of embedding unit B as a symbol unit in the background image of (1) is shown.
これら第 8図 (1 ) 〜第 8図 (3 ) に示すように、 各信号ユニット中のドットの数を 全て等しくしているため、 これら信号ユニットを隙間なく並べることによリ、 透かし画 像の見かけの濃淡が均一となる。 従って、 印刷された紙面上では、 単一の濃度を持つグ レ一画像が背景として埋め込まれているように見える。 また、 信号ユニットに対するシ ンボルの割り当ての組み合わせは無数に考えられる。 このようにして、 回答者あるいは 第三者 (不正者) に埋め込み情報を簡単に解読できないようにすることができる。 埋め込み情報を符号化した符号語の各シンポルについて、 単に対応するシンボルュニ ットを配置していくことによっても、 透かし画像に埋め込み情報を埋め込むことは可能 である。 本具体例では、 更に、 第三者による不正な解読を防止効果を高めるため、 符号 語の各シンボルに対して、 信号ユニットの配置パターン (以下、 ユニットパターンと称 する) を定義し、 ユニットパターンを配置することによって透かし画像に埋め込み情報 を埋め込む方法について説明する。 As shown in FIGS. 8 (1) to 8 (3), since the number of dots in each signal unit is all equal, a watermark image can be obtained by arranging these signal units without gaps. Has a uniform appearance. Therefore, on a printed page, a gray image having a single density appears to be embedded as a background. There are countless combinations of symbol assignments for signal units. In this way, it is possible to prevent the respondent or a third party (an unauthorized person) from easily decrypting the embedded information. It is also possible to embed the embedded information in the watermark image by simply arranging the corresponding symbol unit for each symbol of the codeword that coded the embedded information. In this specific example, in order to further enhance the effect of preventing unauthorized decoding by a third party, a signal unit arrangement pattern (hereinafter referred to as a unit pattern) is defined for each symbol of the codeword, and the unit pattern is defined. A method of embedding the embedded information in the watermark image by arranging the embedded information will be described.
第 9図は、 ュニットパターンとそのュニッ卜パターンが表すシンボルの一例を示す説 明図である。 FIG. 9 is an explanatory diagram showing an example of a unit pattern and a symbol represented by the unit pattern.
ここで、 一つのユニットパターンを幅 (列) X高さ (行) = 4 X 2の信号ユニットの 行列とする。 また、 背景ユニットをユニット C (シンボル 2 ) とし、 これに埋め込まれ るシンボルユニットをユニット A (シンボル 0 ) およびシンボル B ( 1 ) とする。 第 9図 (1 ) では、 ユニット A (シンポル 0 ) を所定の閾値 (例えば 6 ) 以上配置し
て、ュニットパターン全体としてシンポル 0を表す。第 9図(2 )では、ュニット B (シ ンボル 1 ) を所定の闘値 (例えば 6 ) 以上配置して ¾ ユニットパターン全体としてシン ポル 1を表す。 第 9図 (3 ) では、 ユニット Aとユニット Bをほぼ同数 (同数あるいは いずれかのシンボルユニットがーつ多い) 配置して、 ユニットパターン全体としてシン ポル 2を表す。 Here, one unit pattern is defined as a matrix of signal units of width (column) X height (row) = 4 X 2. The background unit is unit C (symbol 2), and the symbol units embedded therein are unit A (symbol 0) and symbol B (1). In Fig. 9 (1), unit A (symbol 0) is arranged at a predetermined threshold (for example, 6) or more. Thus, symbol 0 is represented as the whole unit pattern. In FIG. 9 (2), it represents a thin Pol 1 as a whole ¾ unit pattern placed Yunitto B (symbol 1) predetermined闘値(eg 6) or more. In Fig. 9 (3), unit A and unit B are arranged in almost the same number (same number or one symbol unit is many), and symbol 2 is represented as the whole unit pattern.
次に、 実際の透かし画像の作成処理について説明する。 Next, an actual watermark image creation process will be described.
尚、調査票で表すデータは白黒 2値であり、例えば、 回答欄の枠や文字は黒 (1 )、背 景は白 (0 ) であるとする。 It is assumed that the data shown in the questionnaire is binary black and white. For example, it is assumed that the frame and characters of the answer column are black (1) and the background is white (0).
第 1 0図は、 透かし画像の形成処理を示すフローチャートであ 。 FIG. 10 is a flowchart showing a watermark image forming process.
先ず、 ステップ S 1 1において、 埋め込み情報を N元符号に変換する。 Nは任意であ るが、 以下では説明を簡単にするため、 N = 2 (埋め込み情報を 2元符号に変換する) とする。 従って、 このステップ S 1 1で生成される符号語は、 0と 1のビット列で表現 されているものとする。 また、 埋め込み情報はそのまま符号化しても良いし、 暗号化し たものを符号化しても良い。 また、 誤り訂正符号を用いて符号化しても良い。 First, in step S11, the embedding information is converted into an N-ary code. N is arbitrary, but in the following, for simplicity of explanation, it is assumed that N = 2 (the embedded information is converted into a binary code). Therefore, it is assumed that the codeword generated in step S11 is represented by a bit string of 0 and 1. Also, the embedded information may be encoded as it is, or the encoded information may be encoded. Also, encoding may be performed using an error correction code.
次に、 符号語の各シンボルに対して、 第 9図に示したようにユニットパターンを割り 付ける (ステップ S 1 2 )。 Next, a unit pattern is assigned to each symbol of the codeword as shown in FIG. 9 (step S12).
次に、シンボルュニッ卜配置可否行列を定義する (ステップ S 1 3 )。シンボルュニッ ト配置可否行列は文書画像を一つのブロックの大きさが S w (幅) x S h (高さ) 画素 のプロッ.ク画像に分割した画像を行列で表したものであ y、 文害画像の対応するプロッ クにシンボルュニッ卜を埋め込めるかどうかを表すものである。 これは文字領域 (実際
の文字部分や枠部分も含むものとする) にシンボルュニットを揷入した場合には検出不 可能となるため、 予めシンポルュニッ卜を埋め込むことが可能な場所を指定するための 行列である。 行列の要秦の値が 1であれば、 文書画像の対応するプロックにはシンポル ュニットを埋め込むことが可能であり、 値が 0であれば背景ュニットを埋め込むことに なる。 ここで、 Sw, S hはそれぞれ信号ユニットの幅と高さであり、 入力文書画像の 大きさを WX Hとすると、 ユニット行列 Umの要素数は、 幅 (列) X高さ (行) =Mw xMh=W/SwX H/S hとなる。 Next, a symbol unit arrangement availability matrix is defined (step S13). The symbol unit arrangement availability matrix is an image obtained by dividing a document image into block images each having a block size of Sw (width) x Sh (height) pixels. This indicates whether the symbol unit can be embedded in the corresponding block of the image. This is a character area (actually If a symbol unit is inserted into a symbol unit, it is impossible to detect the symbol unit. Therefore, it is a matrix for designating a place where a symbol unit can be embedded in advance. If the value of the matrix is 1, then the symbol block can be embedded in the corresponding block of the document image. If the value is 0, the background unit is embedded. Here, Sw and Sh are the width and height of the signal unit, respectively. If the size of the input document image is WX H, the number of elements of the unit matrix Um is width (column) X height (row) = Mw xMh = W / SwX H / S h.
シンボルュニット配置可否行列の各要素は文書画像の対応するブロック中に文字領域 が存在するかどうかによって決定する。 例えば、 シンボルユニット配置可否行列の任意 の要素 (X, Y) (Y行, X列) は入力文書画像の X -X X S w〜 (X+1) X S w, y = YxS h〜 (Y+ 1 ) x S hの中に含まれている文字領域 (輝度値が 0の画素) が T n画素以下である場合には 1、 文字領域が T n画素より大きい場合には 0とする。 T n は閾値であり、 Swx S h X 0. 5以下の小さな数とする。 Each element of the symbol unit placement availability matrix is determined by whether or not a character area exists in the corresponding block of the document image. For example, any element (X, Y) (Y row, X column) of the symbol unit placement availability matrix is X -XXS w ~ (X + 1) XS w, y = YxS h ~ (Y + 1) of the input document image. Set to 1 if the character area (pixels with a luminance value of 0) included in xSh is less than or equal to T n pixels, and set to 0 if the character area is larger than T n pixels. T n is a threshold value, and is a small number equal to or less than Swx Sh X 0.5.
第 1 1図は、 シンボルユニット配置可否行列作成の説明図である。 FIG. 11 is an explanatory diagram of creating a symbol unit arrangement possibility matrix.
第 1 1図 (1 ) は、 シンボルユニット配置可否行列の各要素に対応するブロックを入 力文書画像上に重ねて示したものである。 第 1 1図 (2) では、 各ブロックに文字領域 が含まれている場合に、 対応するブロックの値を 0としていることを示している。 第 1 1図 (3) では、 文字領域判定結果からシンボルユニット配置可否行列の各要秦の値を 決定して.いる。 Fig. 11 (1) shows blocks corresponding to each element of the symbol unit arrangement possibility matrix superimposed on the input document image. Fig. 11 (2) shows that when a character area is included in each block, the value of the corresponding block is set to 0. In Fig. 11 (3), the value of each key in the symbol unit placement availability matrix is determined from the character area determination result.
次に、ュニットパターン配置可否行列を作成する (ステップ S 1 4)。 これは、文書画
像中のこの行列に対応する領域にュニッ卜パターンを挿入可能な場合には要素の値が 1 となり、 挿入不可能な場合は 0となる。 ユニットパターンを幅 (列) X高さ (行) = 4 X 2の信号ュニッ卜の行列と定義すると、 ュニッ卜パターン揷入可否の判定は以下のよ うに行う。 先ず、 第 1 1図 (3 ) に示したシンポルユニット配置可否行列を 4 X 2の領 域に区分する。一つの領域を構成する 8個の信号ュニットのうち、所定の闘値 T u個(T uは 6程度) 以上がシンボルュニット埋め込み可能 (シンボルュニット配置可否行列の 値が 1 ) であればユニットパターン埋め込み可能とし、 それ以外の場合はユニットパタ ーン埋め込み不可能とする。 Next, a unit pattern arrangement availability matrix is created (step S14). This is a document The element value is 1 if the unity pattern can be inserted into the area corresponding to this matrix in the image, and 0 if the unity pattern cannot be inserted. If the unit pattern is defined as a matrix of signal units of width (columns) X height (rows) = 4 X 2, the determination of unit pattern input availability is performed as follows. First, the symbol unit placement availability matrix shown in FIG. 11 (3) is divided into 4 × 2 areas. Of the eight signal units constituting one area, if a predetermined threshold value Tu (Tu is about 6) or more can be embedded in the symbol unit (the value of the symbol unit arrangement availability matrix is 1). Unit patterns can be embedded, otherwise, unit patterns cannot be embedded.
第 1 2図は、 ュニットパターン配置可否行列の作成過程の例を示す説明図である。 第 1 2図 (1 ) は一つのユニットパターンが 8個の信号ユニットから構成されている ことを示している。 第 1 2図 (2 ) は、 各ユニットパターンに対し、 対応するシンボル ユニット配置可否行列の要素が 1である数が T u ( = 6 ) 以上のユニットパターンには 1が、 それ以外のユニットパターンには 0が与えられていることを示している。 第 1 2 図 (3 ) はユニットパターン配置可否行列の各要素の値をセットしていることを示して いる。 FIG. 12 is an explanatory diagram showing an example of a process of creating a unit pattern arrangement possibility matrix. Fig. 12 (1) shows that one unit pattern is composed of eight signal units. Fig. 12 (2) shows that for each unit pattern, the number of elements of the corresponding symbol unit arrangement availability matrix is 1 and the unit pattern whose number is equal to or greater than Tu (= 6) is 1; Indicates that is given 0. Figure 12 (3) shows that the values of each element of the unit pattern placement availability matrix are set.
次に、ュニットパターン配置可否行列を参照してュニッ卜パターン行列を作成する(ス テツプ S 1 5 )。符号語のシンボルは、ュニットパターン行列中に繰り返しセッ卜される が、 ュニッ卜パターンが埋め込み不可能な要秦にはセッ卜されない。 Next, a unit pattern matrix is created with reference to the unit pattern arrangement availability matrix (step S15). Codeword symbols are repeatedly set in the unit pattern matrix, but are not set in key units where unit patterns cannot be embedded.
第 1 3.図は、 ュニッ卜パターン行列の一例を示す説明図である。 FIG. 13 is an explanatory diagram showing an example of a unit pattern matrix.
例えば、 この第 1 3図に示すように、 ユニットパターン行列およびユニットパターン
配置可否行列の大きさを Pwx P h =4 x 3であるとし、 符号語のシンポルが (001For example, as shown in FIG. 13, a unit pattern matrix and a unit pattern Assuming that the size of the arrangement possibility matrix is PwxP h = 4 x 3, the symbol of the codeword is (001
1 ) の 4ピットであったとする。 この図ではユニットパターン配置可否行列の 1行 2列 目の要素の値が 0であるため、 符号語のシンポルの 2ビット目 (シンボル 0) はセット されずにシンボル 2がセッ卜され、 1行 3列目に符号語のシンボルの 2ビッ卜目がセッ 卜される。 Suppose that there were 4 pits in 1). In this figure, since the value of the element in the first row and second column of the unit pattern placement availability matrix is 0, symbol 2 is set without setting the second bit (symbol 0) of the symbol of the codeword, and one row is set. The second bit of the codeword symbol is set in the third column.
次に、 ュ二、:/トパターン行列とシンポルュニット配置可否行列を基にュニット行列 U mを作成する(ステップ S 1 6)。ュニッ卜行列 Umはシンボルュニット配置可否行列と 同じ大きさであり、 信号ュニッ卜の配置パターンを記述する行列である。 信号ュニット の配置のルールを以下のように定める。 Next, a unit matrix U m is created based on the unit pattern pattern matrix and the symbol unit arrangement availability matrix (step S16). The unit matrix Um is the same size as the symbol unit arrangement availability matrix, and is a matrix that describes the arrangement pattern of signal units. The rules for arranging signal units are defined as follows.
第 1 4図は、 ュニット行列の一例を示す説明図である。 FIG. 14 is an explanatory diagram showing an example of a unit matrix.
■ルール 1 :シンボルュニット配置可否行列において要素が 0の位置には背景ュニッ ト (シンポル 2) をセットする (第 1 4図 (1))。 ■ Rule 1: The background unit (Symbol 2) is set at the position where the element is 0 in the symbol unit arrangement availability matrix (Fig. 14 (1)).
■ルール 2 :ュニットパターン行列の要素が符号語のシンボルの場合には、 ュニット 行列 Umの対応する領域にそのシンボルに対応するシンボルュニットをセッ卜する (第 1 4図 (2))。 ■ Rule 2: If the element of the unit pattern matrix is a codeword symbol, set the symbol unit corresponding to that symbol in the corresponding area of the unit matrix Um (Fig. 14 (2)).
■ルール 3 :ュニッ卜パターン行列が符号語のシンボル以外 (ュニッ卜パターン配置 可否行列の値が 0) の場合には、 0を表すシンポルュニッ卜と 1を表すシンボルュニッ トを同じ数だけセットする (第 1 4図 (3))0 ■ Rule 3: If the unit pattern matrix is not a symbol of a codeword (the value of the unit pattern placement availability matrix is 0), set the same number of symbol units indicating 0 and 1 symbol units as 1 (No. (1 4 Fig. (3)) 0
つレール 4:信号ュニッ卜がセッ卜されていない領域に背景ュニットをセッ卜する(第 1 4図 (4))。
要約すれば、 文字領域には背景シンボルをセットし、 任意のユニットパターンのうち 背景領域が T u (= 6 ) 以上あれば符号語のシンボルを割り当て、 それ以外の場合は背 景領域に 2種類のシンボルュニットを同じ数だけ割リ当てる。 背景領域が奇数の場合は 残りの一つには背景シンボルをセットすることになる。 これにより、 符号語のシンボル が割リ当てられているュニットパターンには同じュニットパターンが 6個以上セッ卜さ れているため、 検出時には埋め込んだシンボルュニッ卜に対するフィルタの出力値の合 計値が、 もう片方のフィルタの出力の合計値よりも大幅に大きくなリ、 符号語のシンポ ルが割リ当てられていないュニットパターンは二つのフィルタの出力値の合計の差が小 さくなる。 従って、 符号語を割り当てたユニットパターンであるか割り当てていないュ ニットパターンであるかの判定が容易になる効果がある。 Rail 4: Set the background unit in the area where no signal unit is set (Fig. 14 (4)). In summary, a background symbol is set in the character area, a codeword symbol is assigned if the background area of any unit pattern is more than T u (= 6), and two types are used in the background area in other cases. Allot the same number of symbol units. If the background area is odd, the other one will have a background symbol set. As a result, six or more identical unit patterns are set in the unit pattern to which the codeword symbol is assigned, so that at the time of detection, the total value of the filter output values for the embedded symbol unit is detected. However, in a unit pattern in which codeword symbols are not allocated, the difference between the sum of the output values of the two filters becomes smaller. Therefore, there is an effect that it is easy to determine whether a unit pattern is a unit pattern to which a code word is assigned or a unit pattern to which no code word is assigned.
次に透かし入り画像 (文書画像データと埋め込み情報を重ね合わせた画像) を作成す る (ステップ S 1 7 )。 Next, a watermarked image (image in which document image data and embedded information are superimposed) is created (step S17).
第 1 5図は、 透かし入り画像作成の一例を示す説明図である。 FIG. 15 is an explanatory diagram showing an example of creating a watermarked image.
このステップ S 1 7では、 ステップ S 1 6で作成したユニット行列 U m (第 1 5図 ( D ) に従って信号ユニットを背景画像に配置する (第 1 5図 (2 ) )。信号ユニットを 並べることにより作成した背景画像に文書画像を重ね合わせ、 透かし入り文書画像を作 成する (第 1 5図 (3 ) )。 In this step S17, the signal unit is arranged on the background image according to the unit matrix U m created in step S16 (FIG. 15 (D) (FIG. 15 (2)). The document image is superimposed on the background image created by the above to create a watermarked document image (Fig. 15 (3)).
次に、 埋め込み信号数を記録する。 Next, the number of embedded signals is recorded.
第 1 6.図は、 埋め込み信号数記録処理のフローチャートである。 FIG. 16 is a flowchart of the embedded signal number recording process.
先ず、 ュニッ卜行列のブロック化を行う (ステップ S 2 1 )。
第 1 7図は、 ステップ S 21の説明図である。 First, the unit matrix is divided into blocks (step S21). FIG. 17 is an explanatory diagram of step S21.
ステップ S 21では 先ず、ュニット行列 Um (第 1 7図 (2)) の左端の I w個分の 要素を埋め込みシンポルユニット数の記録用のユニット (記録用ユニット帯と呼ぷ) と して使用する (第 1 7図 (3))。 次に、 ユニット行列 Umの記録用ユニット帯を除いた 部分を (横 X縦-) Bwx B h個のブロックに分割する (これをユニット数記録単位行 列 N u (x, y ) x = 1〜Bw, y - 1〜B hと呼ぷ)。各ブロックの大きさはユニット 行列 Umの要素数を大きさの単位として(幅 X高さ-) bwx b hとする(第 1 7図(4))c ュニット行列 Umの左端に記録用ュニット帯を配置する場合、 ュニッ卜数記録単位行 列に関して設定可能なパラメータは、 横方向のブロック数、 ブロックの高さ方向の大き さである。 残りの縦方向のブロック数とブロックの幅方向の大きさは、 設定したパラメ —タおよび記録用ュニッ卜帯の幅、 ュニット行列 Umのパラメータから自動的に決定さ れる。 In step S21, first, the Iw elements at the left end of the unit matrix Um (FIG. 17 (2)) are used as a unit for recording the number of embedded symbol units (called a recording unit band). (Fig. 17 (3)). Next, the part excluding the recording unit band of the unit matrix Um is divided into (horizontal X vertical-) Bwx B h blocks (this is divided into the unit number recording unit matrix Nu (x, y) x = 1 ~ Bw, y-1 ~ Bh). Magnitude unit matrix Um the number of elements as the unit of size of (width X height -) of each block bwx bh to (first 7 (4)) The recording Yunitto band on the left end of the c Yunitto matrix Um of When arranging, the parameters that can be set for the unit number record unit matrix are the number of blocks in the horizontal direction and the size in the height direction of the blocks. The remaining number of blocks in the vertical direction and the size of the blocks in the width direction are automatically determined from the set parameters, the width of the recording unit band, and the parameters of the unit matrix Um.
以下の説明では、 ユニット行列 Umの大きさ (要素数) を MwXMhとしたとき、 横 方向のブロック数を Bw = 4、 ブロック高さ方向の大きさを b h = 1 6、 記録用ュニッ ト帯の幅を I w=4とする。 従って、 縦方向のブロック数は Bh=MhZb h=Mh 16、 ブロックの幅方向の大きさは bw= (Mh- I w) /Bw= (Mh— 4) 4と る。 In the following explanation, when the size (number of elements) of the unit matrix Um is MwXMh, the number of blocks in the horizontal direction is Bw = 4, the size in the block height direction is bh = 16, and the recording unit band is Let the width be I w = 4. Therefore, the number of blocks in the vertical direction is Bh = MhZbh = Mh16, and the size in the width direction of the block is bw = (Mh-Iw) / Bw = (Mh-4) 4.
次に、 各ブロックの信号数を計測し (ステップ S 22)、 更に、 信号数をコード化し、 これを記.録する (ステップ S 23)。 Next, the number of signals in each block is measured (step S22), and the number of signals is coded and recorded (step S23).
第 1 8図は、 ステップ S 22およびステップ S 23の説明図である。
ステップ S 22では、 ュニット行列 Umにおいてュニット数記録単位行列の各要素に対 応する領域に含まれるシンボルュニッ卜の数を計測する。 第 1 8図の例ではュニット数 記録単位行列 N u (X, Y) におけるシンポルユニット数の計測方法を示しており 以 下のステップにより実行される。 FIG. 18 is an explanatory diagram of step S22 and step S23. In step S22, the number of symbol units contained in an area corresponding to each element of the unit number recording unit matrix in the unit matrix Um is measured. The example of FIG. 18 shows a method of measuring the number of symbol units in the unit number recording unit matrix Nu (X, Y), and is executed by the following steps.
'ステップ 1 : N u (X, Y) に対応するユニット行列 Umでの領域を取り出す (第 1 8図①、 ②)。 'Step 1: Extract the area in the unit matrix Um corresponding to Nu (X, Y) (Fig. 18 ②, ②).
■ステップ 2 :ステップ 1で取り出された領域内に埋め込まれているシンボルュニッ 卜の数を計測する (第 1 8図③、④)。 尚、 ここで、 シンポルュニッ卜の埋め込み規則は 前述したように、 入力文書画像の文字領域にはシンポルュニッ卜は埋め込まれていない ものとする。 第 1 8図の例では、 この領域に埋め込まれたシンボルュニット数は 71で あったものとする。 ■ Step 2: Count the number of symbol units embedded in the area extracted in step 1 (Fig. 18, ③ and ④). Here, the embedding rule of the symbolic unit is, as described above, assumed that the symbolic unit is not embedded in the character area of the input document image. In the example of FIG. 18, it is assumed that the number of symbol units embedded in this area is 71.
ステップ S 23では、 ステップ S 22で計測されたシンポルュニット数を記録用ュニ ット帯に記録する。 以下にそのステップを示す。 In step S23, the number of symphony units measured in step S22 is recorded in the recording unit band. The steps are described below.
■ステップ 3 : N (X, Y) =フ 1を 2進数で表現する (第 1 8図⑥)。 ■ Step 3: N (X, Y) = File 1 is represented by a binary number (Fig. 18⑥).
'ステップ 4:ステップ 3の結果を記録用ュニット帯の対応する領域にセッ卜する(第 'Step 4: Set the result of Step 3 in the corresponding area of the recording unit band (No.
1 8図⑦、 ⑧)。 18 Figure ⑦, ⑧).
ここで示した例は、 ュニット数記録単位行列の 1行に対応するュニット行列 Umの行 数 b hを 1 6、 記録用ュニット帯の幅 I wを 4としているため、 ュニッ卜数記録単位行 列の各行 ('こ対して記録用のユニット数は ί w X b h = 4 X 1 6 = 64となる。 また、 ュ ニット数記録単位行列の列数 Bwは 4であるため、 ュニット数記録単位行列の一つの要
素に割り当てられる記録用のユニット数 (単位記録ユニット数と呼ぷ) は I w X b h Z B w == 6 4 / 4 = 8となる。 従って ユニット記録単位行列の各行に対応する記録用ュ ニット帯の 1〜 2行目にはユニット記録単位行列の 1列目の情報を、 3〜 4行目には 2 列目、 5〜6行目には 3列目、 7〜 8行目には 4列目の情報をそれぞれ単位記録ュニッ ト数 (8ビット) で記録することになる。 In the example shown here, since the number of rows bh of the unit matrix Um corresponding to one row of the unit number recording unit matrix is 16 and the width I w of the recording unit band is 4, the unit number recording unit matrix (The number of units for recording is ί w X bh = 4 X 16 = 64. In addition, since the number of columns Bw of the unit number recording unit matrix is 4, the unit number recording unit matrix One of the key points The number of recording units (called unit recording units) assigned to the element is IwXbhZBw == 64/4 = 8. Therefore, the first and second rows of the recording unit band corresponding to each row of the unit recording unit matrix contain information on the first column of the unit recording unit matrix, and the third and fourth rows contain information on the second column and fifth and sixth rows. The information in the third column on the eyes and the information in the fourth column on the 7th to 8th lines are recorded in unit recording units (8 bits).
この具体例ではュニット数を記録しているが、 ュニッ ト記録単位行列の 「各要素に対 応するュニット行列 U mの領域中に埋め込むことができる信号ュニット数の最大値」 に 対する「シンポルュニット数」の割合を記録しても良い。割合を記録する方式は、 Γュニ ット記録単位行列の各要素に対応するュニット行列 U mの範囲が大きく、 その中に含ま れるュニット数も多くなリ、 この数を表現するために必要な ット数が単位記録ュニッ ト数を超えるような場合」 や 「ユニット記録単位行列の列数を増やしたため、 ユニット 記録単位行列の一つの要素の情報を表現するために割り当てられる単位記録ュニット数 が少なくなつた場合」 に有効となる。 また、 記入箇所の特定はユニット記録単位行列の 要素単位に行うため、 同じ入力文書画像に対してュニット記録単位行列の行数や列数を 増やすことによリ、 印刷文書に対する記入箇所の特定の詳細に行うことができる利点が あるが、 それだけ記録用ユニット帯を大きく取るか、 または単位記録ユニット数を小さ くする必要がある。 In this specific example, the number of units is recorded, but the "symbol unit" for the "maximum value of the number of signal units that can be embedded in the area of the unit matrix U m corresponding to each element" in the unit recording unit matrix is recorded. The ratio of the “number of knits” may be recorded. In the method of recording the ratio, the unit matrix U m corresponding to each element of the unit recording unit matrix has a large range, and the number of units contained in it is large. When the number of units exceeds the number of unit recording units '' or `` The number of unit recording units allocated to represent the information of one element of the unit recording unit matrix because the number of columns of the unit recording unit matrix has been increased. When the number of quotas is reduced. " Also, since the entry location is specified for each element of the unit record unit matrix, the number of rows and columns of the unit record unit matrix can be increased for the same input document image to specify the entry location for the print document. This has the advantage that it can be performed in detail, but requires a larger recording unit band or a smaller number of recording units.
尚、 記録用ュニット帯は文書画像の文字領域に重ならないよう、 文害画像の余白部分 に設定す.る。 また、 記録用ユニット帯はユニット行列 U mの右端、 または上端、 下端に 設定しても、 以降の処理を 「記録用ユニット帯が文書画像の上下にある」 という前提で
行えば同様の効果が得られる。 The recording unit band is set in the margin of the damaged image so that it does not overlap the character area of the document image. Also, even if the recording unit band is set at the right end, upper end, or lower end of the unit matrix U m, the subsequent processing is performed under the assumption that the recording unit band is above and below the document image. A similar effect can be obtained by doing so.
更に、 ユニット行列 U mの左右に記録用ユニット帯を設定し、 それぞれ同じ情報をセ ッ卜しても良い。 この場合、 用紙が汚れたリして片方の記録用ュニット帯の情報が読み 取れなくなつた場合でも、もう一方の記録用ュニット帯から情報を読み取ることによリ、 安定して記入箇所検出処理を行うことができる。これは上下方向についても同様である。 第 2図に戻り、 ステップ S 8において、 文書出力部 1 0 5は文書データ作成部 1 0 4 から出力された文書データを印刷し、 記入用文書 3 0 0として出力する。 尚、 記入用文 書 3 0 0としては、 第 3図で示した調査票画像に、 例えば第 8図で示したようなパター ンが地紋パターンとして印刷されたものである。 Further, recording unit bands may be set on the left and right of the unit matrix Um, and the same information may be set for each. In this case, even if the paper becomes dirty and the information of one recording unit band cannot be read, the information is read from the other recording unit band, and the entry point detection processing is stabilized. It can be performed. This is the same in the vertical direction. Returning to FIG. 2, in step S8, the document output unit 105 prints out the document data output from the document data creation unit 104 and outputs it as the entry document 300. Note that the entry document 300 is, for example, a pattern as shown in FIG. 8 printed as a copy-forgery-inhibited pattern in the survey form image shown in FIG.
[記入内容抽出装置 2 0 0の動作〗 [Operation of entry content extraction device 200]
第 1 9図は、具体例 1における記入内容抽出装置 2 0 0の動作フローチヤ一トである。 先ず、 文書読み込み部 2 0 1は、 回答記入のなされた調査票 (記入用文書 3 0 0 ) を 読み込む (ステップ S 3 1 )。 この結果、調査票のスキャン画像が得られる。次に、埋め 込み情報取リ出し部 2 0 2にて埋め込み情報を取リ出し (ステップ S 3 2 )、更に、記入 箇所検出情報、 フォーマット情報、 識別情報のそれぞれの情報を分離する (ステップ S 3 3 )。 FIG. 19 is an operation flowchart of the entry content extraction device 200 in the specific example 1. First, the document reading unit 201 reads the survey form (document for entry 300) in which the answer has been entered (step S31). As a result, a scanned image of the survey form is obtained. Next, the embedded information fetching unit 202 fetches the embed information (step S32), and further separates the information of the entry location detection information, the format information, and the identification information (step S32). 3 3).
次に、 記入箇所検出部 2 0 3において、 記入箇所検出情報を用いて調査票に対する記 入箇所の検出を行う (ステップ S 3 4 )。記入箇所検出情報はチヱック記入欄毎、または 自由記載欄のブロック毎に記録されているため、この情報を用いた記入箇所検出の結果、 チェックされた欄や自由記入されたブロックの識別ができる。 即ち、 記入箇所検出は、
ドットパターンの検出状態の変化に基づいて記入の有無を検出することにより行う。 以下、 これらの埋め込み情報の取り出し (ステップ S32) 〜記入箇所検出 (ス亍ッ プ S 34) の動作を詳細に説明する。 . Next, the entry point detection unit 203 detects entry points in the survey form using the entry point detection information (step S34). The entry location detection information is recorded for each check entry column or for each block in the free entry column. As a result of entry location detection using this information, it is possible to identify a checked column or a free entry block. That is, the entry location detection This is performed by detecting the presence or absence of entry based on a change in the detection state of the dot pattern. Hereinafter, the operations of extracting the embedded information (step S32) to detecting the entry (step S34) will be described in detail. .
第 20図は、 埋め込み情報の取り出し処理を示す動作フローチヤ一卜である。 FIG. 20 is an operation flowchart showing a process of extracting embedded information.
先ず、 スキャン画像から信号ユニットが埋め込まれている領域 (以下、 信号領域と称 する) の輪郭線を検出し、 画像の回転などの铺正を行う。 First, an outline of a region where a signal unit is embedded (hereinafter, referred to as a signal region) is detected from a scanned image, and correction such as rotation of the image is performed.
第 21図は、 信号領域の検出方法の説明図である。 FIG. 21 is an explanatory diagram of a signal area detection method.
第 21図 (1 ) は、 例えば上記ステップ S 31で読み込まれたスキャン画像であると する。 ここでは、 信号領域の上端を検出する例を示している。 入力された画像を I (x, y), x = 0〜W i— 1 , y = 0〜H ί— 1とする。 また、 記入用文書作成装置"! 00によつて文書中に埋め込んだ信号ュニッ卜の大きさが幅 X高さ = S w X S h (画素) , 文書出力部 1 05の印刷解像度を Do u t (d p i )、文書読み込み部 201におけるス キヤナの読み取り解像度を D i n (d p i ) として、 FIG. 21 (1) is, for example, a scan image read in step S31. Here, an example in which the upper end of the signal area is detected is shown. Let the input image be I (x, y), x = 0 to Wi-1 and y = 0 to Hί-1. Also, the size of the signal unit embedded in the document by the entry document creation device “! 00” is width X height = S w XS h (pixels), and the print resolution of the document output unit 105 is Do ut ( dpi), and the reading resolution of the scanner in the document reading unit 201 is D in (dpi).
t Sw=S X D i n/D o u t t Sw = S X D i n / D o u t
t S h = S h x D i n/Do u t t S h = S h x D i n / Do u t
とする。即ち、 t Swと t S hは I mgにおける理論上の信号ュニッ卜の大きさであり、 フィルタ Aやフィルタ Bといった信号検出フィルタはこの値を基に設計される。 And That is, t Sw and t Sh are the theoretical signal units in I mg, and the signal detection filters such as filter A and filter B are designed based on this value.
この画像 1 m gから信号領域の上端検出のためのサンプル領域 S ( X ), X = 1〜S n を設定す.る。 S rWiW i ZN p (N pは 1 0〜20程度の整数) であるものとする。 ま た、 S (X) の幅は Ws = t Swx N t (N tは 2〜 5程度の整数)、高さは H s = H ί
ZN h (N hは 8程度) とし、 S (x) の I mgにおける水平方向の位置は x x N pと する。 From 1 mg of this image, set the sample area S (X), X = 1 to Sn for detecting the upper end of the signal area. S rWiW i ZN p (N p is an integer of about 10 to 20). The width of S (X) is Ws = t Swx Nt (Nt is an integer of 2 to 5), and the height is Hs = H ί ZN h (N h is about 8), and the horizontal position of S (x) in I mg is xx N p.
任意の S (n) における信号領域の上端 S Y 0 (n) の検出方法を次に説明する。 'ステップ 1 : I mgから S (n) に対応する領域を切り取る (第 21·図①)。 A method of detecting the upper end S Y 0 (n) of the signal area at an arbitrary S (n) will be described below. 'Step 1: Cut out the region corresponding to S (n) from I mg (Fig. 21 · ①).
'ステップ 2 : S (n) に対してフィルタ Aとフィルタ Bを施し、 S (n) 内の水平 方向における最大値を F s (y) に記録する (第 21図②)。 'Step 2: Apply filter A and filter B to S (n) and record the maximum value in S (n) in the horizontal direction in F s (y) (Fig. 21 21).
'ステップ 3 :ある閾値 T yを設定し、 F s (1 ) 〜F s (丁 ー1 ) の平均値を 0 (T y)、 F s (T y) -F s (T y) 〜F s (H s)の平均値を V 1 (T y) とする。 'Step 3: Set a certain threshold Ty, set the average value of Fs (1) to Fs (1) to 0 (Ty), Fs (Ty) -Fs (Ty) to F The average value of s (H s) is defined as V 1 (T y).
V 1 (Ty) 一 VO (T y) が最大となる T yを S (n) における信号領域の上端の位 置として SYO (n) にセットする (第 21図③〉。 Set T y at which V 1 (Ty) -VO (T y) becomes maximum to SYO (n) as the position of the upper end of the signal area in S (n) (Fig. 21, ③>).
第 21図 (4) は、 F s (y) の yに対する値の変化を示した図である。 図示のよう に、 I mgの信号ュニッ卜のない領域は信号検出フィルタの出力値の平均値は小さく、 一方、 記入用文書作成装置 1 00によって調査票の背景部分にはシンボルユニット (ュ ニット Aまたはユニット B) を密に配置しているため、 信号検出フィルタの出力値が大 きくなる (文書の余白部分は背景部分であり、 ここにも密に埋め込んである)。 従って、 信号領域とそれ以外の領域の境界付近を境に信号検出フィルタの出力値が大きく変動し、 これを領域検出に利用している。 FIG. 21 (4) is a diagram showing a change in the value of F s (y) with respect to y. As shown in the figure, the average value of the output value of the signal detection filter is small in an area without the signal unit of Img, while a symbol unit (unit A) Or, since the units B) are densely arranged, the output value of the signal detection filter is large (the margins of the document are the background, which are also densely embedded here). Therefore, the output value of the signal detection filter fluctuates greatly near the boundary between the signal region and the other region, and this is used for region detection.
上記のステップ 1〜ステップ 3を S ( ;)、 X = 1〜S nについて行い、 S YO ( x)、 X = 1〜S nを得る。 信号領域の上端はこれによって得られたサンプル点 S 0 (x X N p, SYO (x)), x = "!〜 S nを最小二乗法などを用いて直線近似して得る。 他の輪
郭線も上記と同様の方法を用いて検出し、 例えば、 信号領域の上端が水平になるように 信号領域を回転移動した画像を以下では入力画像と呼ぷ。 The above steps 1 to 3 are performed for S (;) and X = 1 to Sn to obtain S YO (x) and X = 1 to Sn. The upper end of the signal region is obtained by linearly approximating the sample points S 0 (x XN p, SYO (x)), x = “! 〜 Sn obtained by using the least square method or the like. The contour line is also detected using the same method as described above. For example, an image obtained by rotating and moving the signal region so that the upper end of the signal region is horizontal is hereinafter referred to as an input image.
第 22図は、 属性領域に埋め込まれたュニット行列の大きさを復元する方法の例を示 す説明図である。 FIG. 22 is an explanatory diagram showing an example of a method of restoring the size of the unit matrix embedded in the attribute area.
ここでは、 入力画像の信号領域は ( I x O, ί y 0) 〜 ( I X 1 , I y 1 ) とし、 属 性記録領域の情報を復元する例を示す。 Here, an example in which the signal area of the input image is (IxO, ίy0) to (IX1, Iy1) and the information of the attribute recording area is restored.
-ステップ 1 :入力画像の ( 1 x 0, I y 0) 付近の領域を切り取る (第 22図①)。 -Step 1: Cut out the area near (1 x 0, I y 0) of the input image (Fig. 22 (1)).
■ステップ 2:切り取られた領域に対して属性領域を設定する (第 22図②)。属性領 域は記入用文書作成装置 1 00で設定したものと同じものであるとし、 例えば Mwを 1 6ビッ卜で表したときの最上位ビッ卜は ( I X 0 + t S w, I y 0) に、 最下位ビット は (I x O+ t SwX l 7, I y 0) に埋め込まれているものとして検出する。 ■ Step 2: Set the attribute area for the cut area (Fig. 22 (1)). It is assumed that the attribute area is the same as that set in the entry document creation device 100. For example, when Mw is represented by 16 bits, the most significant bit is (IX0 + tSw, Iy0 ), The least significant bit is detected as being embedded in (I x O + t SwX l 7, I y 0).
■ステップ 3 :ステップ 2で設定した Mwの埋め込み領域に対し、 フィルタ Aとフィ ルタ Bを施し、 各ピット位置でフ ルタ Aとフィルタ Bの出力値の大きい方に対応する シンボルュニッ卜が、そのビット位置に埋め込まれているものと判定する(第 22図③)。 ■ Step 3: Filter A and filter B are applied to the Mw embedding area set in step 2, and the symbol unit corresponding to the larger output value of filter A and filter B at each pit position is the bit. It is determined that it is embedded in the position (Fig. 22, ③).
■ステップ 4 :記入用文書作成装置 1 00でセットしたときと逆の順序で Mwの値を 復元する (第 22図④、 ⑤)。 ■ Step 4: Restore the value of Mw in the reverse order as set in the entry document creation device 100 (Figs. 22, ④ and ⑤).
入力画像における信号ュニッ卜の大きさの理論値 1: S w, t S hは誤差が含まれてい るものの、 属性記録領域における信号検出位置は、 第 21図で検出した境界線をそれぞ れ基準としているため、 例えば Sw = S h= 1 2、 D ο υ ί = 600¾ D i n = 400 の場合では、 t Sw= t S h = 1 2 x 400X600 = 8であるため、 属性記録領域は
8 X 1 7 = 1 36画素程度の大きさしかなく、仮に誤差が 1 % (実際はこれより少なし、) 程度であっても、 属性領域の基準点から最も離れた位置でも 1画素程度の誤差となリ、 ほぼ正確に信号検出位置を設定することができる。 Theoretical value of signal unit size in input image 1: Although S w and t S h include errors, the signal detection positions in the attribute recording area correspond to the boundaries detected in Fig. 21 respectively. For example, if Sw = S h = 12 and D ο ί = 600 ¾ D in = 400, then t Sw = t S h = 12 x 400 X 600 = 8, so the attribute recording area is 8 X 1 7 = 1 36 pixels only, and even if the error is about 1% (actually less), the error of about 1 pixel even at the position farthest from the reference point of the attribute area The signal detection position can be set almost accurately.
入力画像における信号ュニッ卜の真の幅 S i wは、 属性記録領域から取り出されたュ ニット行列の幅 と第 2 1図から得られた信号領域の幅〗 X 1— I X 0を基に、 The true width S i w of the signal unit in the input image is calculated based on the width of the unit matrix extracted from the attribute recording area and the width of the signal area obtained from FIG. 21〗 X 1—I X 0
S i w = Mw/ ( ϊ 1 - ϊ χ 0 ) S i w = Mw / (ϊ 1-ϊ χ 0)
によって算出できる。 同様に信号ユニットの真の幅 S i hは、 Can be calculated by Similarly, the true width S i h of the signal unit is
S i h=Mh/ ( I y 1 - I y 0) S i h = Mh / (I y 1-I y 0)
によって算出できる。 Can be calculated by
第 23図は、 第 20図におけるステップ S 42とステップ S 43の説明図である。 ステップ S 42では、 ユニットパターン毎にフィルタ出力値の合計を計算する。 第 2 3図において、 ユニットパターン U ( X , y) を構成する信号ユニット毎にフィルタ A とのコンポリューション (たたみこみ積分) を計算し、 それぞれの信号ユニットに対す るコンボリュ一シヨンの出力値の総和をュニットパターンに対するフィルタ Aの出力値 F u (A, X , y) と定義する。 但し、 信号ユニット毎のコンポリューションは、 フィ ルタ Aの位置を信号ュニッ卜毎に水平■垂直方向にずらしながら計算した結果の最大値 とする。 FIG. 23 is an explanatory diagram of step S42 and step S43 in FIG. In step S42, the sum of the filter output values is calculated for each unit pattern. In Fig. 23, for each signal unit that constitutes unit pattern U (X, y), the computation (convolution) with filter A is calculated, and the sum of the output values of the convolution for each signal unit is calculated. Is defined as the output value F u (A, X, y) of the filter A for the unit pattern. However, the composition for each signal unit is the maximum value calculated as the position of filter A is shifted from horizontal to vertical for each signal unit.
フィルタ Bについても同様にしてユニットパターン U ( X , y ) に対する出力値 F u (B, X, y) を計算する。 Similarly, for the filter B, the output value F u (B, X, y) for the unit pattern U (X, y) is calculated.
ステップ S 43では、 F u (A, x, y) と F u (B, x, y) を比較し、 これらの
差の絶対値 I Fu (A, x, y) -F u (B, x, y) |が予め定められた閾値 T pよ y小さければ符号語のシンボルが割リ当てられていないものとする。それ以外の場合は、 F u (A, X , y) と F u (B, x, y) の大きい方のシンボルが割り当てられている ものと判定する。 即ち、 Fu (A, x, y) >Fu (B, x, y ) であれば、 U (x, y ) にはシンポル 0が埋め込まれ、 F u (A, X , y) く F u (B, , y ) であれば U (x, y ) にはシンポル 1が埋め込まれているものとする。 In step S43, F u (A, x, y) and F u (B, x, y) are compared and If the absolute value of the difference I Fu (A, x, y) -F u (B, x, y) | is smaller than a predetermined threshold value T p, it is assumed that the codeword symbol is not allocated. . In other cases, it is determined that the symbol with the larger of Fu (A, X, y) and Fu (B, x, y) is assigned. That is, if Fu (A, x, y)> Fu (B, x, y), U (x, y) is embedded with symbol 0, and Fu (A, X, y) is smaller than F u ( B,, y), it is assumed that the symbol 1 is embedded in U (x, y).
入力画像から得られる全てのュニットパターンに対して第 23図の処理を行い、 ュニ ットパターン行列 Uを作成する。 The processing shown in Fig. 23 is performed for all unit patterns obtained from the input image, and a unit pattern matrix U is created.
ステップ S 44では、 判定されたシンボルを基に埋め込まれた情報を復号する。 In step S44, the embedded information is decoded based on the determined symbol.
第 24図は、 ュニットパターン行列から符号語を取り出す方法の例を示す説明図であ る。 FIG. 24 is an explanatory diagram showing an example of a method for extracting a codeword from a unit pattern matrix.
第 24図ではシンポルが割リ当てられていない要素にはシンボル 2がセットされてい るものとし、 シンボル 2がセッ卜されている要素を無視してシンボルを取り出して符号 語を復元する。 In Fig. 24, it is assumed that the symbol 2 is set to the element to which no symbol is assigned, and the code word is restored by extracting the symbol ignoring the element where the symbol 2 is set.
次に、 記入箇所検出の動作について説明する。 Next, the operation of entry point detection will be described.
以下の説明では、 In the following description,
。記入用文書作成装置 1 00で文書中に埋め込んだ信号ュニッ卜の大きさが SwX S h (画素) である。 . The size of the signal unit embedded in the document by the entry document creation device 100 is SwXSh (pixel).
=埋め.込んだ信号ュニッ卜数は、 横 X高さ- n w X n hである。 = The number of embedded signal units is width x height-nw x nh.
■埋め込んだシンポルュニットはュニッ卜 Aとュニット Bの二種類である。
'入力画像における信号ユニットの大きさは S i w x S i hである。 ■ There are two types of embedded unit, Unit A and Unit B. 'The size of the signal unit in the input image is S iwx S ih.
という前提で説明を行う。 The description is made on the assumption that
第 2 5図は、 埋め込み信号数検出処理の説明図である。 FIG. 25 is an explanatory diagram of the embedded signal number detection processing.
埋め込み信号数の検出は以下のステップで行う。 The detection of the number of embedded signals is performed in the following steps.
-ステップ 1 :入力画像を S w X S h個のブロックに分割して、 ユニット行列 U mを 設定する (第 2 5國①)。 -Step 1: Divide the input image into S w X S h blocks and set the unit matrix U m (25th country).
■ステップ 2 :ュニット行列 U mの記録用ュニット帯に相当する部分を取り出す (第 2 5図②)。 ■ Step 2: Take out the part corresponding to the recording unit band of the unit matrix U m (Fig. 25②).
■ステップ 3 :記録用ユニット帯に信号検出フィルタを施すことによって、 埋め込ん だビット列を復元する (第 2 5図③、④)。第 2 5図③において、記録用ュニット帯に相 当するュニット行列 U mの各要素に対応する入力画像上の領域に対し、 二つのフィルタ (フィルタ Aとフィルタ B ) の出力値を計算し、 出力値が大きい方のフィルタに対応す るシンポルュニッ卜が埋め込まれているものとする。 この例ではフィルタ Aの出力値が 大きいため、 ユニット A (シンボル 0 ) が埋め込まれていると判定されている。 ■ Step 3: Restore the embedded bit string by applying a signal detection filter to the recording unit band (Fig. 25, ③ and ④). In Fig. 25 (3), the output values of two filters (Filter A and Filter B) are calculated for the area on the input image corresponding to each element of the unit matrix U m corresponding to the recording unit band, It is assumed that the symbolic unit corresponding to the filter with the larger output value is embedded. In this example, since the output value of the filter A is large, it is determined that the unit A (symbol 0) is embedded.
■ステップ 4 :復元されたビット列を基にュニット数記録単位行列を復元する (第 2 5図⑤)。 ■ Step 4: Restore the unit number record unit matrix based on the restored bit string (Fig. 25⑤).
次に、 フィルタ出力値の算出処理を行う。 Next, a process of calculating a filter output value is performed.
第 2 6図は、 フィルタ出力値算出処理の説明図である。 FIG. 26 is an explanatory diagram of a filter output value calculation process.
ここでは、埋め込み信号数の検出処理で設定したュニット行列 U mの各要素に対して、 以下のステップによリ信号検出フィルタの出力値を記録する。
'ステップ 1 :ュニット行列 U mの任意の要素に対応する入力画像の領域に対して信 号撿出フィルタ (フィルタ Aとフィルタ B ) の出力値を計算する (第 2 6図①)。信号検 出フィルタはそれぞれ対象とする領域に対して上下左右にずらしながら出力値を計算し, フィルタ Aによる出力値の最大値とフィルタ Bによる出力値の最大値の大きい方を求め Here, for each element of the unit matrix U m set in the process of detecting the number of embedded signals, the output value of the signal detection filter is recorded by the following steps. 'Step 1: Calculate the output values of the signal output filters (Filter A and Filter B) for the area of the input image corresponding to any element of the unit matrix U m (Fig. 26 2). The signal detection filter calculates the output value while shifting the target area up, down, left, and right, and finds the larger of the maximum value of the output value of filter A and the maximum value of the output value of filter B.
'ステップ 2 :ュニット行列 U mの全ての要素についてステップ 1を行い、 出力値を フィルタ出力値行列 F m ( X , y )、 x = 1〜S w、 y = 1〜 S hの対応する要素に記録 する。 'Step 2: Perform step 1 for all elements of unit matrix U m, and output values corresponding to filter output value matrix F m (X, y), x = 1 to Sw, y = 1 to Sh Record in.
次に、 最適閾値を判定する。 Next, the optimal threshold is determined.
第 2 7図は、 最適閾値の判定処理の説明図である。 FIG. 27 is an explanatory diagram of the determination process of the optimum threshold value.
ここでの閾値は、 ュニット行列 U mの各領域に対応する入力画像の領域にュニットシ ンポルが埋め込まれているかどうかを判定するための閾値 (T sと呼ぷ) であり、 フィ' ルタ出力値行列の任意の要素の値が閾値 T sを超えたならば、 入力画像のそれに対応す る位置にはシンボルュニッ卜が埋め込まれているものと判定する。 The threshold value here is a threshold value (referred to as T s) for determining whether a unit symbol is embedded in an area of the input image corresponding to each area of the unit matrix U m, and is a filter output value. If the value of any element of the matrix exceeds the threshold value Ts, it is determined that the symbol unit is embedded at the position corresponding to the input image.
■ステップ 1 :フィルタ出力値行列の要素(信号検出フィルタの出力値)の平均 F a、 標準偏差 F sなどから閾値 t sの初期値を設定する(第 2 7図①)。ここでは例えば初期 値を t s = F a— F s * 3とする。 ■ Step 1: Set the initial value of the threshold value t s from the average Fa and the standard deviation F s of the elements of the filter output value matrix (output value of the signal detection filter) (Fig. 27①). Here, for example, the initial value is t s = F a — F s * 3.
■ステップ 2 :フィルタ出力値行列を ΐ sによって二値化し、 ュニット抽出画像を形 成する (第 2 7図②)。 ■ Step 2: The filter output value matrix is binarized by s s to form a unit extraction image (Fig. 27②).
-ステップ 3 :ュニット抽出画像に対してュニット数記録単位行列を当てはめる (第
2 7図③)。 -Step 3: Apply unit number record unit matrix to unit extracted image (No. 27 Figure 3).
+ 'ステップ 4 :ュニット抽出画像のュニッ卜数記録単位行列の各要素に対応する領域 中のシンポルユニット数を数え、 ユニット数記録単位行列に記録する (第 2 7図④)。 + 'Step 4: Count the number of symbol units in the area corresponding to each element of the unit number recording unit matrix of the unit extraction image and record it in the unit number recording unit matrix (Fig. 27 2).
-ステップ 5 :埋め込み信号数検出処理で復号された記録用ュニット帯に記録されて いたシンボルュニッ卜数とステップ 4から得られたシンボルュニット数の差分の絶対値 をュニット数記録単位行列の要素毎に計算し、 全ての要素についての合計値を S f ( t s ) とする (第 2 7図⑤)。 -Step 5: The absolute value of the difference between the number of symbol units recorded in the recording unit band decoded in the embedded signal number detection process and the number of symbol units obtained from step 4 is calculated for each element of the unit number recording unit matrix. , And the total value of all elements is defined as S f (ts) (Fig. 27 2).
-ステップ 6 : S f ( t s ) が最小となる t sを T sとして記録する (第 2 7図⑥)。 ■ステップ 7 : t sに A tを加え、 t sを更新する (第 2 7図⑦)。 厶 Uま予め定めた 値が、 ステップ 1で求めた標準偏差 F s (例えば A t = F s X O . 1とするなど) から 算出してもよい。 -Step 6: Record t s at which S f (t s) becomes minimum as T s (Fig. 27 2). ■ Step 7: Add At to t s and update t s (Fig. 27 2). A predetermined value may be calculated from the standard deviation Fs obtained in step 1 (for example, At = FsXO.1).
■ステップ 8 : T sが予定した値に達したならば終了する。 そうでなければステップ 1に戻る (第 2 7図⑧)。 ■ Step 8: When T s has reached the expected value, the process ends. If not, return to step 1 (Fig. 27 2).
次に、 検出信号の計数処理を行う。 Next, the detection signal is counted.
第 2 8図は、 検出信号計数処理の説明図である。 FIG. 28 is an explanatory diagram of a detection signal counting process.
この部分の処理は、 最適閾値判定処理で得られた最適閾値 T sによってフィルタ出力 値行列を二値化したュニット抽出画像を用いて、 最適閾値判定処理とほぼ同一の処理を 行う。 In this part of the process, almost the same process as the optimal threshold determination process is performed using a unit extracted image obtained by binarizing the filter output value matrix with the optimal threshold Ts obtained in the optimal threshold determination process.
。ステップ 1 : フィルタ出力値行列を丁 sによって二値化し、 ユニット抽出画像を作 成する (第 2 8図①)。
■ステップ 2 :ュニット抽出画像に対してュニッ卜数記録単位行列を当てはめる (第. Step 1: Binarize the filter output value matrix with ds to create a unit extraction image (Fig. 28①). ■ Step 2: Apply unit number record unit matrix to unit extracted image (No.
28図②)。 28 Figure ②).
-ステップ 3 :ュニット抽出画像のュニット数記録単位行列の各要素に対応する領域 中のシンボルユニット数を数え、 ユニット数記録単位行列に記録する (第 28図③)。 -Step 3: Count the number of symbol units in the area corresponding to each element of the unit number recording unit matrix of the unit extraction image and record it in the unit number recording unit matrix (Fig. 28 (3)).
■ステップ 4 :埋め込み信号数検出処理で複号された記録用ュニット帯に記録されて いたシンボルュニット数とズ亍ップ 3から得られたシンポルュニット数の差分 D (X, Y) をュニット数記録単位行列の要素毎に計算する (第 28図④)。ュニッ卜数記録単位 行列の任意の要素 N u (X, Y) における D (X, Y) は、 記録用ユニット帯から復元 されたュニッ卜シンボル数を R (X, 丫)、ステップ 3で計測されたュニットシンボル数 を C (X, Y) として D (X, Y) =R (X, Y) C (X, Y) によって計算される ものとする。 ■ Step 4: The difference D (X, Y) between the number of symbol units recorded in the recording unit band decoded in the embedded signal number detection processing and the number of symbol units obtained from step 3 is calculated. It is calculated for each element of the unit number record unit matrix (Fig. 28 28). Unit number recording unit For D (X, Y) in an arbitrary element Nu (X, Y) of the matrix, R (X, 復 元) is the number of unit symbols restored from the recording unit band, and measured in step 3. Let D (X, Y) = R (X, Y) C (X, Y) be the number of generated unit symbols C (X, Y).
次に、 記入判定を行う。 Next, the entry is judged.
ユニット数記録単位の任意の要素 N (X, Y) における記入判定は、 D (X, Y) を 用いて以下のように行う。 The entry judgment for any element N (X, Y) of the unit number recording unit is performed using D (X, Y) as follows.
'チェック印や文字等が追加された記入: D (X, Y) >TA (TAは正の整数) 「記 録されていたュニットシンボル数より検出されたュニットシンボル数の方が少ない場合 には、 本来埋め込まれていたュニットシンポルの上にチェック印や文字等の追加があつ たために検出不能になったと判斷する」。 'Entry with a check mark or character added: D (X, Y)> TA (TA is a positive integer) "When the number of unit symbols detected is smaller than the number of unit symbols recorded On the other hand, it was determined that detection was impossible due to the addition of a check mark or text on the originally embedded unitit symbol. "
尚、 こ.の判定方法によって、 文字等の削除も検出可能であるが、 本具体例では特に必 要がないため、 これを使用しない。
第 1 9図に戻って、 記入位置が検出されると、 回答データ変換部 2 0 4は、 記入から 回答データへの変換を行う (ステップ S 3 5 )。 ここでは、ステップ S 3 3で取【リ出され たフォーマット情報を利用する。 例えば、 ステップ S 3 4の記入箇所検出において、 第 4図中の ,がチェックされたものと識別されたとする。 このとき、 第 5·図に示すフォ 一マット情報を用いれば、 R 1 1の設問と回答の番号はそれぞれ 1 ¾ 1であることが分か る。 従って、 設問 1に対する回答の記入内容は回答櫚 1 (つまり男性) であったことが 分かる。 また、 ステップ S 3 4の記入箇所検出において自由記入されたと識別されたブ 口ックの画像を切リ抜き、 これを回答データとして得ることもできる。 It should be noted that deletion of characters and the like can also be detected by this determination method, but this is not used in this specific example, and is not used. Returning to FIG. 19, when the entry position is detected, the answer data conversion unit 204 converts the entry into answer data (step S35). Here, the format information obtained in step S33 is used. For example, suppose that in the detection of the entry in step S34,, in FIG. 4 is identified as checked. At this time, if a follower one mat information indicating the fifth-view, it is Ru divided question and number of answers R 1 1 are each 1 ¾ 1. Therefore, it can be seen that the content of the answer to question 1 was answer 1 (ie, male). In addition, it is also possible to cut out an image of a book identified as being freely entered in the entry location detection in step S34 and obtain this as answer data.
次に、 目視情報出力部 2 0 5は、 回答のデータ変換結果を出力し、 これが図示しない ディスプレイ等で表示される (ステップ S 3 6 )。 Next, the visual information output unit 205 outputs the data conversion result of the answer, and this is displayed on a display or the like (not shown) (step S36).
第 2 9図は、 画面表示の一例を示す説明図である。 FIG. 29 is an explanatory diagram showing an example of a screen display.
図示例では、 画面表示の一例として、 スキャン画像と記入検出結果、 調査票識別情報 および回答データ変換結果を表示している。 スキャン画像は、 文書読み込み部 2 0 "Iで 読み取った調査票のイメージであり、 記入検出結果は、 埋め込み情報取り出し部 2 0 2 〜回答データ変換部 2 0 4による上述した処理で得られた検出結果を示している。 ここ では、 設問 1の Γ男 j に対応する と、 設問 2の 「会社員」 に対応する C 2 1が記入検 出結果として表示されている。 また、 自由記載欄にはブロック毎の記入検出結杲が表示 されることにより、複数のブロックで「紫色」と記入された文字を表示している。更に、 調查禀識別情報は、 埋め込まれていた識別情報を埋め込み情報取リ出し部 2 0 2によつ て取り出した調査票の I D等の情報である。 そして、 回答データ変換結果は、 回答デ一
タ変換部 2 0 4によって変換された設問に対する回答番号や回答が記入されていた自由 記载欄のブロックを切 抜いた画像である。 In the illustrated example, the scanned image, the entry detection result, the survey form identification information, and the response data conversion result are displayed as an example of the screen display. The scanned image is an image of the survey form read by the document reading unit 200 "I. The entry detection result is based on the detection obtained by the above-described processing by the embedded information extraction unit 202 to the response data conversion unit 204. shows the results. in this case, to correspond to question 1 of Γ man j, C 2 1 corresponding to the "company employee" of question 2 is displayed as a result out of fill detection. In addition, in the free text box, the entry detection result for each block is displayed, so that the characters marked “purple” in a plurality of blocks are displayed. Further, the signature identification information is information such as the ID of a survey form extracted from the embedded identification information by the embedded information extraction unit 202. And the answer data conversion result is This is an image obtained by cutting out the block in the free entry column in which the answer number and the answer to the question converted by the data conversion unit 204 are written.
記入内容抽出装置 2 0 0のオペレータは このような表示結栗に対して、 回答のデー タ変換結果に対する目親確認および修正を行ラ (ステップ S 3 7 )。 The operator of the entry extraction device 200 confirms and corrects the result of the data conversion of the answer to the displayed katsuri (step S37).
〈効栗〉 <Ekuri>
以上のように、 具体例 1によれば、 記入用文書 3 0 0として、 そのフォーマツト情報 や記入箇所検出のための情報および識別情報を全て備えているため、 記入内容抽出装置 2 0 0側で、 記入用文書 3 0 0のフォーマツ卜情報等を保持しておく必要がない。 従つ て、 記入内容抽出装置 2 0 0側では、 記入用文書 3 0 0がどのようなフォーマットであ つても全て対応できるという効果がある。 As described above, according to the specific example 1, since the format information, the information for detecting the entry location, and the identification information are all provided as the entry document 300, the entry content extraction device 200 side It is not necessary to keep the format information of the entry document 300. Therefore, there is an effect that the entry content extracting device 200 can correspond to any format of the entry document 300 in any format.
また、 ベリファイ入力のための人員確保や、 マークシート用紙といった特殊な用紙の 準備、 および O C Rでの処理に必要なフォーマツ卜情報の伝達や識別番号の記載も不要 である。 しかも、 記入内容の抽出処理では、 文字認識を行うのではないため、 O C R等 の処理に比べて高速にデータ化できるという効果がある。 Also, it is not necessary to secure personnel for verification input, to prepare special paper such as mark sheet paper, to transmit format information necessary for OCR processing, and to enter identification numbers. In addition, in the process of extracting the contents of the entry, since character recognition is not performed, there is an effect that the data can be converted into data at a higher speed than in the process such as OCR.
また、 埋め込み情報をドットパターンで表しているため、 記入用文書 3 0 0としてレ ィアウト上の制約がほとんどなく、 しかも、 記入用文書 3 0 0で汚れや折り曲げ等があ つた場合でも、 読み取リエラーが発生しにくく、 従って、 記入箇所検出の信頼性向上を 図ることができる。 Also, since the embedded information is represented by a dot pattern, there are almost no restrictions on the layout of the entry document 300, and even if the entry document 300 is dirty or bent, a read error may occur. Is less likely to occur, and therefore, the reliability of entry point detection can be improved.
更に、 具体例 1によれば、 スキャン画像や記入検出結杲、 回答データ変換結果を目視 情報として出力するようにしたので、オペレータは、このような表示を見て容易に確認、
修正を行うことができる。 特に、 自由記載欄への記入内容を出力するようにしているた め、 例えば、 オペレータは、 この部分のみに対して記入内容の確認、 修正を集中して行 うといつたことが可能となる。 Further, according to the specific example 1, the scan image, the entry detection result, and the result of the conversion of the response data are output as visual information. Corrections can be made. In particular, since the contents to be entered in the free text box are output, for example, the operator can concentrate on checking and correcting the contents of this part only.
《具体例 2》 《Example 2》
具体例 2は、上記具体例 1の構成に対して、更に目視チ iックを効率的に行えるよう、 回答データ変換結果を外部記憶装置に蓄積し、 別途目視チェックを行えるようにしたも のである。 The specific example 2 is different from the configuration of the specific example 1 in that the response data conversion result is stored in an external storage device so that a visual check can be separately performed so that the visual check can be performed more efficiently. is there.
〈構成〉 <Constitution>
第 3 0図は、 具体例 2の構成図である。 FIG. 30 is a block diagram of a specific example 2.
図において、 記入用文書作成装置 1 0 0およびこれにより作成される記入用文書 3 0 0は具体例 1と同様であるため、対応する部分に同一符号を付してその説明を省略する。 記入内容抽出装置 2 0 0 aは、文書読み込み部 2 0 1、埋め込み情報取リ出し部 2 0 2、 記入箇所検出部 2 0 3および回答データ変換部 2 0 4からなリ、 これらの構成は具体例 1における記入内容抽出装置 2 0 0の構成と同様であるため、ここでの説明は省略する。 結果記憶部 4 0 0は、 例えば、 ハードディスク装置からなり、 回答データ変換部 2 0 4 から出力された回答データ変換結果を格納する記憶部である。 また、 目視情報出力部 5 0 0は、 結栗記憶部 4 0 0に記憶されているデータを用いて、 回答データ変換結果を表 示出力する機能部であり、 例えば、 パーソナルコンピュータ等で構成されている。 In the figure, an entry document creating apparatus 100 and an entry document 300 created thereby are the same as those in the first embodiment, and corresponding parts are denoted by the same reference numerals and description thereof will be omitted. The entry content extraction device 200a is composed of a document reading unit 201, an embedded information retrieving unit 202, an entry location detecting unit 203, and a response data converting unit 204. Since the configuration is the same as that of the entry content extraction device 200 in the specific example 1, the description is omitted here. The result storage unit 400 is, for example, a hard disk device, and is a storage unit that stores the answer data conversion result output from the answer data conversion unit 204. The visual information output unit 500 is a functional unit that displays and outputs the result of the conversion of the answer data using the data stored in the kuri chestnut storage unit 400, and is configured by, for example, a personal computer. ing.
〈動作〉 . <motion> .
具体例 2における記入用文書作成装置 1 0 0による文書作成処理は具体例 1と同様で
あるため、 その説明は省略する。 The document creation processing by the entry document creation device 100 in the specific example 2 is the same as that of the specific example 1. Therefore, the description is omitted.
第 3 1図は、 記入内容抽出処理の説明図である。 FIG. 31 is an explanatory diagram of the entry content extraction process.
ステップ S 4 1〜ステップ S 4 5の動作は 具体例 1におけるステップ S 3 1〜ス亍 ップ S 3 5の動作と同様である。 即ち、 調査票の読み込み、 埋め込み情報の取リ出し、 取 出し情報の分離、 記入箇所検出および回答データ変換を行う。 The operations in steps S41 to S45 are the same as the operations in steps S31 to S35 in the first specific example. That is, it reads the questionnaire, retrieves the embedded information, separates the retrieved information, detects the entry location, and converts the response data.
次に、 回答データ変換部 2 0 4の結果出力を結果記憶部 4 0 0に記憶する (ステップ S 4 6 ) 0データ変換結果は、第 2 9図に示したように、設問に対する回答番号と自由記 載欄への回答内容を切リ抜いた画像データであり、これをスキヤン画像と共に記憶する。 次に、 結果記憶部 4 0 0に記憶されたデータを用い、 目視情報出力部 5 0 0にて回答 のデータ変換結果を表示する(ステップ S 4 7 )。 この表示内容は、第 2 9図に示したも のと同様である。 Next, the result output of the answer data conversion unit 204 is stored in the result storage unit 400 (step S46). 0 The data conversion result is, as shown in FIG. This is image data obtained by cutting out the contents of the answer in the free entry column, and is stored together with the scan image. Next, using the data stored in the result storage unit 400, the visual data output unit 500 displays the data conversion result of the answer (step S47). The display contents are the same as those shown in FIG. 29.
記入内容をチェックするオペレータは、 このような表示結果に対して、 具体例 1と同 様に、 回答のデータ変換結果に対する目視確認および修正を行う (ステップ S 4 8 )。 〈効果〉 The operator who checks the contents of the entry visually confirms and corrects the data conversion result of the answer to such a display result as in the specific example 1 (step S48). <Effect>
以上のように、 具体例 2によれば、 具体例 1の効果に加えて次のような効果がある。 即ち、 回答データの変換結果を結果記憶部 4 0 0に記憶しておき、 目視チェック時には 記憶したデータを用いてそのチェックを行うようにしたため、 例えば、 回答データは調 査票を用いて一拠点で高速に變換し、 その結果の目視チェックは遠隔地にいる複数のォ ペレ一夕で行ラといった、 記入内容の抽出処理とオペレータの目視確認作業を別の場所 で行うといった形態が可能となる。 その結果、 記入内容抽出処理を更に効率的に行うこ
とが可能となる。 As described above, according to the specific example 2, the following effects are obtained in addition to the effects of the specific example 1. That is, the result of the conversion of the answer data is stored in the result storage unit 400, and the check is performed using the stored data at the time of the visual check. It can be changed at high speed, and the visual check of the result can be done at a different location, such as performing the operation at multiple remote locations at a remote location. As a result, the content extraction process can be performed more efficiently. It becomes possible.
《具体例 3》 《Example 3》
具体例 3は、 具体例 1の記入用文書作成装置 1 0 0に対して 例えば、 調查票の印刷 データ作成および印刷を専門の業者が行えるよう、 調査票画像および埋め込み情報を可 搬型の外部記憶装置に蓄積し、 これを用いて作業を行えるようにしたものである。 Example 3 is a portable external storage of the questionnaire image and embedded information so that a specialized contractor can create and print data for the form. It is stored in a device and can be used for work.
〈構成〉 <Constitution>
第 3 2図は、 具体例 3の構成図である。 FIG. 32 is a block diagram of a specific example 3.
記入用文書作成装置 1 0 0 aは、 文書作成部 1 0 1、 文書画像作成部 1 0 2およぴ埋 め込み情報作成部 1 0 3からなる。 これら構成は具体例 1と同様であるため、 対応する 部分に同一符号を付してその説明を省略する。 データ記憶部 6 0 0は、 可搬型の外部記 憶装置であり、 例えば、 M O、 C D— R O Mあるいは D V D— R A Mといった大容量の 可搬型記憶媒体であることが望ましい。 The entry document creation device 100a includes a document creation unit 101, a document image creation unit 102, and an embedded information creation unit 103. Since these configurations are the same as those in the first embodiment, corresponding portions are denoted by the same reference numerals and description thereof will be omitted. The data storage section 600 is a portable external storage device, and is desirably a large-capacity portable storage medium such as MO, CD-ROM, or DVD-RAM.
印刷処理装置 7 0 0は、 データ記憶部 6 0 0に格納されている調査票画像および埋め 込み情報に基づいて、 調査票を印刷する装置であり、 文書データ作成部 7 0 1と文書出 力部フ 0 2を備えている。 尚、 印刷処理装置 7 0 0は、 例えば、 記入用文書作成装置 1 0 0 aとは別の場所に設置されている装置である。 印刷処理装置 7 0 0における文書デ ータ作成部 7 0 1は、 具体例 1、 2における文書データ作成部 1 0 4と同様に、 文書画 像データと埋め込み情報とを一体の文書データとして作成する機能を有している。また、 文害出力.部 7 0 2は、 具体例 1、 2における文書出力部 1 0 5と同様に、 文害データ作 成部 7 0 1で作成された文書データを印刷して、 記入用文書 3 0 0を得る機能を有して
いる。 The print processing device 700 prints a questionnaire based on the questionnaire image and the embedded information stored in the data storage unit 600, and the document processing unit 7001 and the document output unit print out the questionnaire. Section 02 is provided. The print processing device 700 is, for example, a device installed in a different place from the entry document creating device 100a. The document data creation unit 701 in the print processing device 700 creates document image data and embedded information as one piece of document data, similarly to the document data creation unit 104 in the first and second examples. It has the function to do. The sentence output unit 702 prints the document data created by the sentence data creation unit 701 in the same manner as the document output unit 105 in Examples 1 and 2, With the ability to get document 300 I have.
また、 具体例 3の記入内容抽出装置 2 0 0については、 具体例 1と同様であるため 対応する部分に同一符号を付してその説明を省略する。 The entry content extraction device 200 of the third embodiment is the same as that of the first embodiment, and the corresponding parts are denoted by the same reference numerals and the description thereof will be omitted.
〈動作〉 <motion>
第 3 3國は、 記入用文書 3 0 0の作成処理を示すフローチヤ一トである。 The third country is a flowchart showing the process of creating the entry document 300.
先ず、 ステップ S 5 1〜ステップ S 5 6までの動作は、 具体例 1におけるステップ S 1〜ステップ S 6までの動作と同様である。 即ち、 調査票の作成および調査票画像の作 成、 フォーマット情報、 記入箇所検出情報および識別情報の作成、 更にこれらの情報を 統合することによる埋め込み情報の作成が記入用文書作成装置 1 0 0 aで行われる。 次に、 埋め込み情報作成部 1 0 3から出力された調査票画像および埋め込み情報をデ ータ記憶部 6 0 0に格納する (ステップ S 5 7 )。 First, the operations from step S51 to step S56 are the same as the operations from step S1 to step S6 in the first specific example. That is, creation of a survey form, creation of a survey form image, creation of format information, entry location detection information and identification information, and creation of embedded information by integrating these information are performed by the entry document creation device 100a. Done in Next, the survey form image and the embedded information output from the embedded information creating unit 103 are stored in the data storage unit 600 (step S57).
次に、 印刷処理装置 7 0 0では、 データ記憶部 6 0 0に格納された調査票画像および 埋め込み情報のデータから、 文書データ作成部 7 0 1によって、 埋め込み情報をドット パターンとして表現した画像データを作成し、 これを調査票画像と重ね合わせた文書デ 一夕を作成する (ステップ S 5 8 )。そして、文書出力部 7 0 2は、文書データ作成部 7 0 "1によって作成された文書データを印刷し、 記入用文書 3 0 0として出力する (ステ ップ S 5 9 )。 Next, in the print processing device 700, the document data creation unit 701, from the data of the questionnaire image and the embedding information stored in the data storage unit 600, expresses image data expressing the embedding information as a dot pattern. Is created, and this is superimposed on the questionnaire image to create a document database (step S58). Then, the document output section 720 prints the document data created by the document data creation section 70 "1" and outputs it as an entry document 300 (step S59).
〈効果〉 <Effect>
以上の.ように、 具体例 3によれば、 文書画像データと埋め込み情報を一体の文害デー タとして記憶するためのデータ記憶部 6 0 0を設け、 このデータ記憶部 6 0 0の文書デ
ータを用いて印刷処理装置 7 0 0で記入用文書 3 0 0を印刷するようにしたので次のよ うな効杲がある。 例えば記入用文書作成装置 1 O O aを調査会社に設置し、 印刷処理装 置 7 0 0を印刷叢者に設置し、 また、 その間のデータの受け渡しをデータ記憶部 6 0 0 とすることで、 調査会社が調査票の印刷を印刷業者に依頼するといった、 +文書データの 作成処理と印刷処理とを別々の場所で行うような形態にも柔軟に対処することが容易に 可能となる。 As described above, according to the specific example 3, the data storage unit 600 for storing the document image data and the embedded information as integrated sentence data is provided, and the document data in the data storage unit 600 is stored. Since the input document 300 is printed by the print processing device 700 using data, the following effects are obtained. For example, by installing an entry document creation device 1 OOa at a research company, a print processing device 700 at a printing press, and a data storage unit 6000 for data transfer between them. It is easily possible to flexibly cope with a form in which the document data creation process and the printing process are performed at different places, such as when the research company requests the printing company to print the questionnaire.
《利用形態》 《Usage form》
■上記各具体例では、 埋め込み情報はドットパターンで表し、 かつ、 記入箇所検出を ドットパターンの検出状態の変化に基づいて行うようにしたが、 これらの構成に限定さ れるものではない。 例えば、 文書中の文字領域以外の部分に、 埋め込み情報を二次元バ —コード等を用いて記録するようにしてもよい。 この場合、 記入箇所検出情報は、 例え ば何も記入されていない回答欄の画像特徴情報 (元画像特徴情報) とする。 そして、 記 入箇所検出部 2 0 3が行う記入位置の検出処理は、 記入後の調査票の回答欄の画像特徴 情報を同じように求め、 これを元画像特徴情報と比較することで、 記入の有無を検出す ることができる。 (2) In each of the above specific examples, the embedding information is represented by a dot pattern, and the entry location is detected based on a change in the detection state of the dot pattern. However, the present invention is not limited to these configurations. For example, the embedded information may be recorded in a part other than the character area in the document using a two-dimensional bar code or the like. In this case, the entry location detection information is, for example, the image feature information (original image feature information) of the answer column in which nothing is entered. The entry location detection process performed by the entry location detection unit 203 determines the image feature information in the answer column of the filled out questionnaire in the same way and compares it with the original image feature information. Can be detected.
また、 このような画像特徴情報の表し方として、 調査票の対象となる領域を複数のブ ロックに分割し、各ブロックの画像の特徴を抽出する。これには次のような方法がある。 In addition, as a method of expressing such image feature information, a target area of the survey form is divided into a plurality of blocks, and the image feature of each block is extracted. This can be done in the following ways.
(1)ブロック画像を周波数 1^換し、 周波数スぺクトルをサンプリングした値。 (1) The value obtained by converting the frequency of the block image by 1 and sampling the frequency spectrum.
(2)ブ!?ック画像に対して、フィルタリング処理(帯域通過フィルタや任意のパターン のテンプレートなどによるフィルタリング処理) を行って得られる値。
(3)ブロック画像中の白い画素 (背景領域) と、 黒画素 (文字領域) の面積の比。 更に、 これ以外にも、 文字領域の画像特徴量のエッジの長さを用いて記入の有無を検 出する、 といった方法を用いてもよい。 (2) Bu! The value obtained by performing filtering processing (filtering processing using a band-pass filter or a template of an arbitrary pattern) on the block image. (3) The ratio of the areas of white pixels (background area) and black pixels (character area) in the block image. Further, in addition to this, a method of detecting the presence or absence of entry using the edge length of the image feature amount of the character area may be used.
更に、 各具体例において、 例えば、 フォーマツ卜情報と記入箇所検出情報は、 具 ί本例 で説明したようにドットパターンで表し、 識別情報はバーコードや二次元バーコード等 の別手段を用いて表す等、 埋め込み情報を複数の方法で表現するようにしてもよい。 また、 各具体例では、 記入箇所検出のための情報は各チヱック記入欄および自由記載 欄の各ブロック毎に個別に作成するものとして説明したが、 これ以外の構成として次の ようなものがある。 即ち、 調査票全体を自由記載欄と見なしてブロックに分割し、 その 各ブロック毎に個別に作成してもよい。 この場合、 記入位置と識別されたブロックの位 置から、 フォーマット情報を用いてどの回答記入位置に回答があつたかを判別し、 回答 データへの変換を行えばよい。このような構成をとつた場合、例えば、回答方法として、 チェック回答欄にチェック印を記入するのではなく、 番号に丸を付けるといった方式で ある場合、 番号に大きく丸を付けたり、 丸を付けた位置が多少ずれているような場合で も正確に回答記入位置を検出することができる効果がある。 Furthermore, in each specific example, for example, the format information and the entry location detection information are represented by a dot pattern as described in this example, and the identification information is obtained by using another means such as a barcode or a two-dimensional barcode. For example, the embedded information may be expressed by a plurality of methods. Also, in each specific example, the information for detecting the entry location has been described as being individually created for each block in each check entry column and free entry column, but other configurations include the following. . That is, the entire survey form may be regarded as a free entry field, divided into blocks, and created individually for each block. In this case, it is only necessary to determine from the position of the block identified as the entry position, which answer entry position received the answer using the format information, and to convert it into answer data. In such a configuration, for example, if the answer method is to add a circle to the number instead of putting a check mark in the check answer column, add a large circle to the number or add a circle to the number This has the effect that the answer entry position can be accurately detected even when the position is slightly shifted.
更に、 上記具体例 3ではデータ記憶部 6 0 0を可搬型記憶媒体であるとしたが、 記入 用文書作成装置 1 0 0 aから印刷処理装置 7 0 0に文書データを転送することができる 手段であればどのようなものであってもよく、 例えば、 これ以外にネットワークといつ た通信手稗であってもよい。 Further, although the data storage section 600 is a portable storage medium in the above-mentioned specific example 3, the document data can be transferred from the writing document creation apparatus 100a to the print processing apparatus 700. Any type of communication may be used as long as it is possible, for example, any other communication method with the network.
以上のように本発明によれば、 文書中の記入箇所の位置とその記入内容を判定するた
めのフォーマツ卜情報と、 記入箇所に記入があつたか否かを検出するための記入箇所検 出情報とを一体に有する記入用文書を作成し、 これらフォーマツト情報と記入箇所検出 情報を用いて、 記入文書の記入内容を判定するようにしたので、 記入内容を抽出する場 合に、 予めフォーマット情報等を保持しておく必要がない。 従って、 どのようなフォー マットであっても対処できるという効果がある。 また、 ベリファイ入力のための人員確 保や、 マークシート用紙といった特殊な用紙の準備、 および O C Rでの処理に必要なフ ォ一マット情報の伝達や識別番号の記載も不要である。 しかも、 記入内容の抽出処理で は、 文字認識を行うのではないため、 O C R等の処理に比べて高速にデータ化できると いう効果がある。
As described above, according to the present invention, the position of the entry portion in the document and the entry content are determined. A document for entry is created which integrally includes the format information for entry and the entry location detection information for detecting whether or not the entry has been entered, and by using the format information and entry location detection information, Since the content of the written document is determined, it is not necessary to hold the format information before extracting the content. Therefore, there is an effect that any format can be dealt with. Also, it is not necessary to secure personnel for verification input, to prepare special paper such as mark sheet paper, to transmit the format information necessary for OCR processing, and to enter identification numbers. In addition, in the process of extracting the contents of the entry, character recognition is not performed, so that there is an effect that data can be converted at a higher speed as compared with processes such as OCR.