WO2021260852A1 - Data processing device, data processing method, and data processing program - Google Patents

Data processing device, data processing method, and data processing program Download PDF

Info

Publication number
WO2021260852A1
WO2021260852A1 PCT/JP2020/024831 JP2020024831W WO2021260852A1 WO 2021260852 A1 WO2021260852 A1 WO 2021260852A1 JP 2020024831 W JP2020024831 W JP 2020024831W WO 2021260852 A1 WO2021260852 A1 WO 2021260852A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
data
entry field
machine
data processing
Prior art date
Application number
PCT/JP2020/024831
Other languages
French (fr)
Japanese (ja)
Inventor
長年 名和
志朗 小笠原
史拓 横瀬
郁子 高木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/024831 priority Critical patent/WO2021260852A1/en
Publication of WO2021260852A1 publication Critical patent/WO2021260852A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Abstract

This data processing device (10) receives the input of image data obtained by scanning a paper form, and extracts, from the image data, image data at the location of an entry field in the paper form. The data processing device (10) performs an optical character recognition (OCR) process on the extracted image data at the location of the entry field to convert the image data at the location of the entry field into machine-readable data. Thereafter, the data processing device (10) stores the extracted image data at the location of the entry field and the machine-readable data obtained by converting the image data at the location of the entry field in the same cell in the spreadsheet used in spreadsheet software.

Description

データ処理装置、データ処理方法、および、データ処理プログラムData processing equipment, data processing methods, and data processing programs
 本発明は、データ処理装置、データ処理方法、および、データ処理プログラムに関する。 The present invention relates to a data processing apparatus, a data processing method, and a data processing program.
 システムへの情報投入を効率的に行うため、OCR(Optical Character Recognition)処理により、紙帳票を機械可読データへ変換する技術がある(非特許文献1参照)。上記の技術によればシステムへの情報投入を効率的に行うことができるが、OCR処理による変換結果に誤りがある場合もあるので、最終的には人間が目視により変換結果を確認する必要があった。 There is a technology to convert paper forms into machine-readable data by OCR (Optical Character Recognition) processing in order to efficiently input information to the system (see Non-Patent Document 1). According to the above technology, it is possible to efficiently input information to the system, but since there may be an error in the conversion result by OCR processing, it is necessary for a human to visually confirm the conversion result in the end. there were.
 ここで、従来、例えば、PDF文書ではOCR処理による変換結果を透明テキストとしてビットマップ画像の上に貼付することができるようになっている。よって、このような技術によれば、OCR処理による変換の結果を目視により確認することができる。 Here, conventionally, for example, in a PDF document, the conversion result by OCR processing can be pasted as transparent text on a bitmap image. Therefore, according to such a technique, the result of conversion by the OCR process can be visually confirmed.
特開昭63-216187号公報Japanese Unexamined Patent Publication No. 63-216187 特開2007-42126号公報Japanese Unexamined Patent Publication No. 2007-42126
 しかし、上記のPDF文書は、文字として認識可能な画像をその位置を保持しつつ、画像のOCR処理の結果であるテキストを設定するものに過ぎない。したがって、データの繰り返し構造や入れ子構造等、データ間に相互関係を持つ帳票等をPDF文書に変換し、OCR処理の結果であるテキストを設定したとしても、これらの関係性まで含めて保持することはできない。同じ書式の複数の帳票をまたいで、OCR処理の結果(機械可読データ)を取り出し、集計処理を行うこと等もできない。また、上記のPDF文書の場合も、OCR処理における変換の誤りの有無を人間が目視により一つ一つ確認する必要があるという問題があった。 However, the above PDF document only sets the text that is the result of OCR processing of the image while maintaining the position of the image that can be recognized as characters. Therefore, even if you convert forms that have mutual relationships between data such as data repetition structure and nesting structure into PDF documents and set the text that is the result of OCR processing, these relationships should be retained. Can't. It is also not possible to retrieve the results of OCR processing (machine-readable data) across multiple forms of the same format and perform aggregation processing. Also, in the case of the above PDF document, there is a problem that it is necessary for a human to visually confirm the presence or absence of a conversion error in the OCR process one by one.
 そこで、本発明は前記した問題を解決するため、紙帳票等の機械可読データについて当該機械可読データの変換の誤りの有無を容易に確認できるようにすることを課題とする。 Therefore, in order to solve the above-mentioned problem, it is an object of the present invention to make it possible to easily confirm the presence or absence of an error in conversion of machine-readable data such as paper forms.
 前記した課題を解決するため、本発明は、紙帳票をスキャンした画像データの入力を受け付ける入力部と、前記画像データから紙帳票における記入欄の箇所の画像データを抽出する抽出部と、抽出した前記記入欄の箇所の画像データに対してOCR(Optical Character Recognition)処理を行うことで、当該記入欄の箇所の画像データを機械可読データに変換するOCR処理部と、抽出した前記記入欄の箇所の画像データと、当該記入欄の箇所の画像データを変換した機械可読データとを、表計算ソフトで使用されるスプレッドシート内の同じセルに保持させる表計算ソフト制御部と、を備えること特徴とする。 In order to solve the above-mentioned problems, the present invention has an input unit that accepts input of image data obtained by scanning a paper form, and an extraction unit that extracts image data of an entry field in the paper form from the image data. The OCR processing unit that converts the image data in the entry field into machine-readable data by performing OCR (Optical Character Recognition) processing on the image data in the entry field, and the extracted location in the entry field. It is characterized by having a table calculation software control unit that holds the image data of the above and the machine-readable data obtained by converting the image data of the entry field in the same cell in the spreadsheet used by the table calculation software. do.
 本発明によれば、紙帳票等の機械可読データについて当該機械可読データの変換の誤りの有無を容易に確認できるようにすることができる。 According to the present invention, it is possible to easily confirm the presence or absence of an error in conversion of machine-readable data such as a paper form.
図1は、紙帳票の例を示す図である。FIG. 1 is a diagram showing an example of a paper form. 図2は、データ処理装置により作成されるデータの例を示す図である。FIG. 2 is a diagram showing an example of data created by a data processing device. 図3は、データ処理装置の構成例を示す図である。FIG. 3 is a diagram showing a configuration example of a data processing device. 図4は、データ処理装置の処理手順の例を示すフローチャートである。FIG. 4 is a flowchart showing an example of a processing procedure of the data processing apparatus. 図5は、Excel(登録商標)帳票の例を示す図である。FIG. 5 is a diagram showing an example of an Excel (registered trademark) form. 図6は、帳票の画像データの外枠が、Excel帳票の外枠と一致するように拡大または縮小された状態の例を示す図である。FIG. 6 is a diagram showing an example of a state in which the outer frame of the image data of the form is enlarged or reduced so as to match the outer frame of the Excel form. 図7は、図1に示す紙帳票の画像データからExcel帳票の記入欄のセルに該当する領域を切り出した状態の例を示す図である。FIG. 7 is a diagram showing an example of a state in which an area corresponding to a cell in an entry field of an Excel form is cut out from the image data of the paper form shown in FIG. 図8は、切り出した記入欄の画像データを、Excel帳票上の当該画像データに対応するセルに貼り付けた状態の例を示す図である。FIG. 8 is a diagram showing an example of a state in which the image data of the cut-out entry field is pasted in the cell corresponding to the image data on the Excel form. 図9は、データ処理装置が作成したデータのスキーマ表現の例を示す図である。FIG. 9 is a diagram showing an example of a schema representation of data created by a data processing device. 図10は、データ処理装置の効果を説明するための図である。FIG. 10 is a diagram for explaining the effect of the data processing device. 図11は、データ処理プログラムを実行するコンピュータの例を示す図である。FIG. 11 is a diagram showing an example of a computer that executes a data processing program.
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。図面の記載において、同一部分には同一の符号を付して示している。なお、本実施形態により本発明が限定されるものではない。 Hereinafter, embodiments (embodiments) for carrying out the present invention will be described with reference to the drawings. In the description of the drawings, the same parts are indicated by the same reference numerals. The present invention is not limited to the present embodiment.
[実施形態]
 本実施形態のデータ処理装置は、紙帳票の画像データから記入欄の箇所の画像データを抽出し、OCR処理により、抽出した記入欄の箇所の画像データを機械可読データに変換する。そして、データ処理装置は、抽出した画像データと、当該画像データから変換した機械可読データとを、表計算ソフトで使用されるスプレッドシート内の同じセルに保持させる。
[Embodiment]
The data processing device of the present embodiment extracts the image data of the entry column from the image data of the paper form, and converts the image data of the extracted entry column into machine-readable data by OCR processing. Then, the data processing device holds the extracted image data and the machine-readable data converted from the image data in the same cell in the spreadsheet used by the spreadsheet software.
 例えば、データ処理装置は、図2に示すように、紙帳票(図1参照)から抽出した記入欄の箇所の画像データと、当該画像データから変換した機械可読データとを、スプレッドシート内の当該記入欄に対応するセルに重ねて保持させる。これにより、データ処理装置は、紙帳票から得られた機械可読データと、その機械可読データとの元になった画像データとをユーザが目視で確認しやすいスプレッドシートを作成することができる。 For example, as shown in FIG. 2, the data processing device uses the image data of the entry field extracted from the paper form (see FIG. 1) and the machine-readable data converted from the image data in the spreadsheet. Hold it on top of the cell corresponding to the entry field. As a result, the data processing device can create a spreadsheet in which the machine-readable data obtained from the paper form and the image data based on the machine-readable data can be easily visually confirmed by the user.
[構成]
 次に、図3を用いてデータ処理装置の構成例を説明する。なお、データ処理装置10は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路を備える。また、データ処理装置10は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、データ処理装置10は、各種のプログラムを実行することにより以下の各部の機能を実現する。
[composition]
Next, a configuration example of the data processing device will be described with reference to FIG. The data processing device 10 includes, for example, electronic circuits such as a CPU (Central Processing Unit) and MPU (Micro Processing Unit), and integrated circuits such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array). .. Further, the data processing device 10 has an internal memory for storing programs and control data that specify various processing procedures, and executes each process using the internal memory. Further, the data processing device 10 realizes the functions of the following parts by executing various programs.
 データ処理装置10は、例えば、図3に示すように、表計算ソフト11と、表計算ソフト制御部12と、画像データ取得部(抽出部)13と、座標変換部14と、画像切り出し部15と、OCR処理部16とを備える。 As shown in FIG. 3, for example, the data processing device 10 includes a spreadsheet software 11, a spreadsheet software control unit 12, an image data acquisition unit (extraction unit) 13, a coordinate conversion unit 14, and an image cutting unit 15. And an OCR processing unit 16.
 表計算ソフト11は、スプレッドシートを使用し、表計算を行うソフトウェアである。以降では、表計算ソフト11としてExcel(登録商標)を用いる場合を例に説明する。 Spreadsheet software 11 is software that uses spreadsheets to perform spreadsheets. Hereinafter, a case where Excel (registered trademark) is used as the spreadsheet software 11 will be described as an example.
 上記のスプレッドシートは複数のセルを備え、当該セル内には様々な文字、記号、値を保持することができる。また、各セル内の文字、記号、値の色や、セル自体の色調等は設定により変更可能である。さらに、スプレッドシートの各セルの背景として画像データを設定可能である。 The above spreadsheet has multiple cells and can hold various characters, symbols and values in the cells. In addition, the colors of characters, symbols, and values in each cell, the color tone of the cell itself, and the like can be changed by setting. Furthermore, image data can be set as the background of each cell in the spreadsheet.
 表計算ソフト制御部12は、表計算ソフト11の制御を行う。例えば、表計算ソフト制御部12は、画像切り出し部15が切り出した帳票の記入欄の箇所の画像データと、当該画像データからOCR処理部16が変換した機械可読データとを、表計算ソフト11により使用されるスプレッドシート内の同じセルに保持させる。 The spreadsheet software control unit 12 controls the spreadsheet software 11. For example, the spreadsheet software control unit 12 uses the spreadsheet software 11 to convert the image data of the form entry field cut out by the image cutting unit 15 and the machine-readable data converted from the image data by the OCR processing unit 16. Keep it in the same cell in the spreadsheet used.
 表計算ソフト制御部12は、例えば、セル情報取得部121と、画像貼付部122と、セル情報設定部123とを備える。 The spreadsheet software control unit 12 includes, for example, a cell information acquisition unit 121, an image pasting unit 122, and a cell information setting unit 123.
 セル情報取得部121は、スプレッドシートのセル情報を取得する。例えば、セル情報取得部121は、スプレッドシート(例えば、Excel帳票)の記入欄に対応するセルの座標を取得する。 The cell information acquisition unit 121 acquires the cell information of the spreadsheet. For example, the cell information acquisition unit 121 acquires the coordinates of the cell corresponding to the entry field of the spreadsheet (for example, an Excel form).
 画像貼付部122は、画像切り出し部15により切り出された画像データ(例えば、帳票の記入欄の画像データ)を、スプレッドシート上の当該画像データに対応するセルに貼り付ける。 The image pasting unit 122 pastes the image data cut out by the image cutting unit 15 (for example, the image data in the entry field of the form) into the cell corresponding to the image data on the spreadsheet.
 セル情報設定部123は、スプレッドシートのセル情報を設定する。例えば、セル情報設定部123は、OCR処理部16から出力された記入欄の画像データのOCR処理による変換の結果(機械可読データ)を、当該記入欄に対応するセルの値として保持させる。なお、当該セルには、画像貼付部122により、当該記入欄の画像データが貼り付けられている。これにより、記入欄の画像データと、当該画像データから変換した機械可読データとが、スプレッドシート内の同じセルに重ねて保持される。 The cell information setting unit 123 sets the cell information of the spreadsheet. For example, the cell information setting unit 123 holds the result of conversion (machine readable data) of the image data in the entry field output from the OCR processing unit 16 by the OCR processing as the value of the cell corresponding to the entry field. The image data in the entry field is pasted in the cell by the image pasting unit 122. As a result, the image data in the entry field and the machine-readable data converted from the image data are superposed and held in the same cell in the spreadsheet.
 また、セル情報設定部123は、スプレッドシートの各セルの文字色、背景色等を設定する。例えば、セル情報設定部123は、画像データに対しOCR処理による変換を行った際における、当該画像データと機械可読データとの合致率に基づき、当該機械可読データを保持するセルの文字色または背景色を選択し、設定する。 In addition, the cell information setting unit 123 sets the character color, background color, etc. of each cell in the spreadsheet. For example, the cell information setting unit 123 determines the character color or background of the cell holding the machine-readable data based on the matching rate between the image data and the machine-readable data when the image data is converted by OCR processing. Select and set the color.
 例えば、セル情報設定部123は、画像データに対しOCR処理による変換を行った際における、当該画像データと機械可読データとの合致率が所定値以上のセルの文字色または背景色を所定の色に変更する。これにより、ユーザは、変換の信頼度が高いセルを直観的に把握することができる。また、セル情報設定部123は、上記の合致度が所定値未満のセルについて文字色または背景色を目立つ色に変更してもよい。これにより、ユーザは、目視チェック時に注意を要するセルを直観的に把握することができる。さらに、セル情報設定部123は、上記の合致度が所定値以上のセルに貼り付けられる画像データ(つまり機械可読データの変換元の画像データ)の透明度を高めてもよい。これにより、ユーザは、目視チェック時に画像データをあまり気にしなくてもよいセルを直観的に把握できる。 For example, the cell information setting unit 123 sets the character color or background color of a cell whose matching rate between the image data and the machine-readable data is equal to or more than a predetermined value when the image data is converted by OCR processing. Change to. As a result, the user can intuitively grasp the cell with high reliability of conversion. Further, the cell information setting unit 123 may change the character color or the background color to a conspicuous color for the cells whose matching degree is less than a predetermined value. As a result, the user can intuitively grasp the cell that requires attention at the time of visual check. Further, the cell information setting unit 123 may increase the transparency of the image data (that is, the image data of the conversion source of the machine-readable data) attached to the cell having the above-mentioned matching degree of a predetermined value or more. As a result, the user can intuitively grasp the cells that do not have to worry about the image data at the time of visual check.
 画像データ取得部13は、帳票の画像データを取得する。この画像データは、例えば、紙帳票をスキャンすることにより得られる。 The image data acquisition unit 13 acquires the image data of the form. This image data can be obtained, for example, by scanning a paper form.
 座標変換部14は、セル情報取得部121により取得された帳票の記入欄のセルの座標を、画像データ取得部13により取得された帳票の画像データ上の座標に変換する。つまり、座標変換部14は、セル情報取得部121により取得された帳票の記入欄のセルの領域が、画像データ取得部13により取得された帳票の画像データ上のどの領域に対応するかを判断する。 The coordinate conversion unit 14 converts the cell coordinates in the form entry field acquired by the cell information acquisition unit 121 into the coordinates on the image data of the form acquired by the image data acquisition unit 13. That is, the coordinate conversion unit 14 determines which area on the image data of the form acquired by the image data acquisition unit 13 corresponds to the cell area of the form entry field acquired by the cell information acquisition unit 121. do.
 画像切り出し部15は、画像データの切り出しを行う。例えば、画像切り出し部15は、画像データ取得部13により取得された画像データから、座標変換部14により変換された座標で囲まれる画像データの領域を切り出す。 The image cutting unit 15 cuts out the image data. For example, the image cutting unit 15 cuts out an area of image data surrounded by the coordinates converted by the coordinate conversion unit 14 from the image data acquired by the image data acquisition unit 13.
 OCR処理部16は、画像データに対するOCR処理により、当該画像データを機械可読データに変換した結果を出力する。 The OCR processing unit 16 outputs the result of converting the image data into machine-readable data by OCR processing on the image data.
[処理手順の例]
 次に、図4を用いて、データ処理装置10の処理手順の例を説明する。なお、ここでは、予め、紙帳票それぞれに対応するスプレッドシートとして、Excel帳票が用意されている場合を例に説明する。このExcel帳票は、例えば、図5に示すように、紙帳票の各記入欄に対応する位置、サイズのセルを備える。このExcel帳票は、データ処理装置10の内部に記憶されていてもよいし、データ処理装置10が外部の記憶装置に記憶されたものを取得してもよい。
[Example of processing procedure]
Next, an example of the processing procedure of the data processing apparatus 10 will be described with reference to FIG. Here, an example will be described in which an Excel form is prepared in advance as a spreadsheet corresponding to each paper form. As shown in FIG. 5, for example, this Excel form includes cells having a position and a size corresponding to each entry field of the paper form. This Excel form may be stored inside the data processing device 10, or may be acquired by the data processing device 10 stored in an external storage device.
 まず、データ処理装置10の画像データ取得部13は、紙帳票(図1参照)をスキャンして画像データを生成し(S1)、生成した画像データに対して、傾き補正、ノイズ除去を実施する(S2)。 First, the image data acquisition unit 13 of the data processing device 10 scans a paper form (see FIG. 1) to generate image data (S1), and performs tilt correction and noise removal on the generated image data. (S2).
 次に、データ処理装置10は、S1でスキャンした紙帳票に対応するExcel帳票を選択する(S3)。そして、データ処理装置10は、S2で傾き補正、ノイズ除去をした後の画像データの外枠が、S3で選択したExcel帳票の外枠と一致するように当該画像データを拡大または縮小する(S4)。例えば、データ処理装置10は、図6に示すように、紙帳票の画像データの外枠がExcel帳票の外枠と一致するように、当該画像データを拡大または縮小し、当該画像データをExcel帳票の背景として設定する。 Next, the data processing device 10 selects an Excel form corresponding to the paper form scanned in S1 (S3). Then, the data processing device 10 enlarges or reduces the image data so that the outer frame of the image data after tilt correction and noise removal in S2 matches the outer frame of the Excel form selected in S3 (S4). ). For example, as shown in FIG. 6, the data processing device 10 enlarges or reduces the image data so that the outer frame of the image data of the paper form matches the outer frame of the Excel form, and the image data is converted into the Excel form. Set as the background of.
 その後、データ処理装置10は、S3で選択したExcel帳票のセルのうち背景が着色されたもの(紙帳票の記入欄に対応するセル)を選択する(S5)。例えば、データ処理装置10は、図6に示すExcel帳票のセルのうち背景が着色されたセルを選択する。 After that, the data processing device 10 selects a cell with a colored background (cell corresponding to the entry field of the paper form) among the cells of the Excel form selected in S3 (S5). For example, the data processing device 10 selects a cell having a colored background from the cells of the Excel form shown in FIG.
 その後、セル情報取得部121は、S5で選択したセルの4頂点の座標を取得する(S6)。そして、座標変換部14は、S6でセル情報取得部121により取得されたセルの4頂点の座標に対応する、紙帳票の画像データ上での座標を計算する(S7:画像データ上で対応する座標を計算する)。 After that, the cell information acquisition unit 121 acquires the coordinates of the four vertices of the cell selected in S5 (S6). Then, the coordinate conversion unit 14 calculates the coordinates on the image data of the paper form corresponding to the coordinates of the four vertices of the cell acquired by the cell information acquisition unit 121 in S6 (S7: Corresponding on the image data). Calculate the coordinates).
 そして、画像切り出し部15は、S7で計算された座標で囲まれる画像データの領域を切り出す(S8)。例えば、画像切り出し部15は、図7に示すように帳票の画像データから、Excel帳票の記入欄のセルに該当する領域を切り出す。また、画像貼付部122は、S8で切り出された画像データを、Excel帳票上の当該画像データに対応するセルに貼り付ける(S9)。例えば、画像貼付部122は、図8に示すように、記入欄の画像データを、Excel帳票上の当該画像データに対応するセルに貼り付ける。 Then, the image cutting unit 15 cuts out an area of image data surrounded by the coordinates calculated in S7 (S8). For example, as shown in FIG. 7, the image cutting unit 15 cuts out an area corresponding to a cell in an entry field of an Excel form from the image data of the form. Further, the image pasting unit 122 pastes the image data cut out in S8 into the cell corresponding to the image data on the Excel form (S9). For example, as shown in FIG. 8, the image pasting unit 122 pastes the image data in the entry field into the cell corresponding to the image data on the Excel form.
 その後、OCR処理部16は、S8で切り出した画像データに対し、OCR処理を実施する(S10)。そして、セル情報設定部123は、S5で選択されたセルの値として、上記のOCR処理の結果を設定する(S11)。また、セル情報設定部123は、S5で選択されたセルの背景色調として、S10におけるOCR処理の結果の合致率に対応する背景色調を設定する(S12)。 After that, the OCR processing unit 16 performs OCR processing on the image data cut out in S8 (S10). Then, the cell information setting unit 123 sets the result of the above OCR processing as the value of the cell selected in S5 (S11). Further, the cell information setting unit 123 sets the background color tone corresponding to the matching rate of the result of the OCR processing in S10 as the background color tone of the cell selected in S5 (S12).
 例えば、S5で選択されたセルに対応する画像データとOCR処理の結果との合致率が所定値以上であった場合、セル情報設定部123は、図2に示すように、当該セルの背景色調を所定の背景色調(合致率:高に対応する背景色調)に変更する。なお、図2に示すExcel帳票にはOCR処理の対象外としたセルも含まれており、セル情報設定部123は、当該セルについてはOCR処理の対象外のセルに対応する背景色調を設定している。 For example, when the matching rate between the image data corresponding to the cell selected in S5 and the result of the OCR processing is equal to or higher than a predetermined value, the cell information setting unit 123 has the background color tone of the cell as shown in FIG. To a predetermined background color tone (match rate: background color tone corresponding to high). The Excel form shown in FIG. 2 includes cells that are not subject to OCR processing, and the cell information setting unit 123 sets a background color tone corresponding to cells that are not subject to OCR processing for the cells. ing.
 図4の説明に戻る。図4のS12の後、セル情報設定部123は、背景が着色されたセルをすべて処理したか否かを判定し(S13)、まだ処理していないセルがあると判定した場合(S13でNo)、S6へ戻る。一方、セル情報設定部123が、背景が着色されたセルをすべて処理したと判定した場合(S13でYes)、処理を終了する。 Return to the explanation in Fig. 4. After S12 in FIG. 4, the cell information setting unit 123 determines whether or not all the cells whose background is colored have been processed (S13), and when it is determined that there is a cell that has not been processed yet (No in S13). ), Return to S6. On the other hand, when the cell information setting unit 123 determines that all the cells whose background is colored have been processed (Yes in S13), the processing is terminated.
 データ処理装置10が以上の処理を行うことで、紙帳票の記入欄の箇所の画像データと、当該画像データから変換した機械可読データとを、Excel帳票内の当該記入欄に対応するセルに保持させたデータ(図2参照)を作成することができる。 By performing the above processing by the data processing device 10, the image data of the entry field of the paper form and the machine-readable data converted from the image data are held in the cell corresponding to the entry field in the Excel form. It is possible to create the data (see FIG. 2).
 なお、上記の紙帳票の記入欄の箇所の画像データと、当該画像データから変換した機械可読データとを、スプレッドシート内の同じセルに保持させたデータは、データベース等に格納される場合もある。このような場合、当該データのスキーマ表現は、例えば、図9に示すようになる。 In addition, the data in which the image data in the entry field of the above paper form and the machine-readable data converted from the image data are held in the same cell in the spreadsheet may be stored in a database or the like. .. In such a case, the schema representation of the data will be, for example, as shown in FIG.
 すなわち、図9に示すように、当該データは、スプレッドシートのセル位置を示す情報と、当該セル位置のセルに保持されるOCR処理による変換結果と、当該OCR処理における合致率と、当該OCR処理の対象となった画像データ(元画像データ)とにより表現される。 That is, as shown in FIG. 9, the data includes information indicating the cell position of the spreadsheet, the conversion result by the OCR process held in the cell at the cell position, the match rate in the OCR process, and the OCR process. It is represented by the image data (original image data) that is the target of.
[効果]
 次に、図10を参照しながら、本実施形態の効果を説明する。例えば、従来、紙帳票等の画像データに対するOCR処理の結果(機械可読データ)を流通させる場合、ユーザが紙帳票の全項目(全記入欄)の機械可読データを目視チェックした上で流通させていた(符号100参照)。このため、帳票を機械可読データに変換し、流通させるための人的コストが高くなっていた。
[effect]
Next, the effect of this embodiment will be described with reference to FIG. For example, conventionally, when the result of OCR processing (machine-readable data) for image data such as a paper form is distributed, the user visually checks the machine-readable data of all items (all entry fields) of the paper form before distributing the data. (See reference numeral 100). For this reason, the human cost for converting the form into machine-readable data and distributing it has been high.
 一方、データ処理装置10は、紙帳票等の項目の画像データに対するOCR処理の結果(機械可読データ)と当該項目の画像データとをスプレッドシート内の同じセルに保持させる。これにより、紙帳票を機械可読データに変換して流通させる際に、ユーザが帳票の必要箇所だけ目視チェックをすればよいので(符号101)、紙帳票の機械可読データを流通させる際の人的コストを低減することができる。 On the other hand, the data processing device 10 holds the result of OCR processing (machine readable data) for the image data of an item such as a paper form and the image data of the item in the same cell in the spreadsheet. As a result, when the paper form is converted into machine-readable data and distributed, the user only has to visually check only the necessary parts of the form (reference numeral 101), so that the machine-readable data of the paper form can be distributed by humans. The cost can be reduced.
 また、データ処理装置10は、紙帳票等の項目の画像データに対するOCR処理の結果(機械可読データ)と当該項目の画像データとをスプレッドシート内の同じセルに保持させる。これにより、スプレッドシートに帳票の各項目間の関係性まで含めて保持させることができる。その結果、例えば、同じ書式の複数の紙帳票をまたいで、OCR処理の結果(機械可読データ)を取り出し、集計処理を行うことも行いやすくなる。 Further, the data processing device 10 holds the result of OCR processing (machine readable data) for the image data of an item such as a paper form and the image data of the item in the same cell in the spreadsheet. This makes it possible to keep the spreadsheet including the relationships between each item of the form. As a result, for example, it becomes easy to take out the result of OCR processing (machine-readable data) across a plurality of paper forms of the same format and perform aggregation processing.
 また、ユーザは、紙帳票等の機械可読データに求められる正確性の高さに応じて、自動処理か手動処理かを選ぶことができる。例えば、紙帳票の機械可読データの利用目的が統計処理等である場合、機械可読データそれぞれに厳密な正確性は必要とされない。このような場合、ユーザが自動処理(つまり、ユーザは、データ処理装置10において作成した機械可読データの目視チェックは行わない)を選択することで、処理を効率的に行うことができる。一方、機械可読データに厳密な正確性が必要とされる場合、ユーザが手動処理(つまり、ユーザは、データ処理装置10において作成した機械可読データに対し、画像データを用いた目視チェックを行った上で、必要な修正を加える)を選択することで、機械可読データの正確性を確保することができる。 In addition, the user can select automatic processing or manual processing according to the high accuracy required for machine-readable data such as paper forms. For example, when the purpose of using machine-readable data on a paper form is statistical processing or the like, strict accuracy is not required for each machine-readable data. In such a case, the user can efficiently perform the process by selecting the automatic process (that is, the user does not visually check the machine-readable data created by the data processing device 10). On the other hand, when the machine-readable data requires strict accuracy, the user performs manual processing (that is, the user visually checks the machine-readable data created by the data processing device 10 using image data. By selecting (Make necessary corrections above), the accuracy of machine-readable data can be ensured.
 また、データ処理装置10は、スプレッドシート内に、紙帳票等の項目の画像データの機械可読データと当該項目の画像データを保持させることにより、当該項目の画像データから機械可読データへの変換作業を独立した業務として扱えるようになる。例えば、現状では上記の変換作業はデータ投入業務の一部として行われている。そのため、変換作業の作業場所はデータ投入用の端末がある場所に限定されている。しかし、データ処理装置10により処理されたスプレッドシートをコンテナとして用いることで、作業場所の制限がなくなる。その結果、例えば、当該スプレッドシートを委託先に送付し、変換作業の結果を受け取るという運用も可能となる。 Further, the data processing device 10 holds the machine-readable data of the image data of the item such as a paper form and the image data of the item in the spreadsheet, thereby converting the image data of the item into the machine-readable data. Can be treated as an independent business. For example, at present, the above conversion work is performed as a part of the data input work. Therefore, the work place of the conversion work is limited to the place where the terminal for data input is located. However, by using the spreadsheet processed by the data processing device 10 as a container, there are no restrictions on the work place. As a result, for example, it is possible to send the spreadsheet to the contractor and receive the result of the conversion work.
 また、上記のスプレッドシートは、紙帳票等の項目の画像データに対するOCR処理の結果(機械可読データ)と、当該項目の画像データとをスプレッドシート内の同じセルに保持させたものなので、ユーザは、スプレッドシート上のセルのうちOCR処理の対象とした項目の場所を直観的に把握しやすくなる。また、ユーザは、スプレッドシート上でOCR処理の結果(変換結果)を目視チェックする際、視線を動かす必要がないので、変換結果の目視チェックを行いやすくなる。 In addition, since the above spreadsheet holds the result of OCR processing (machine readable data) for the image data of items such as paper forms and the image data of the item in the same cell in the spreadsheet, the user can use it. , It becomes easier to intuitively grasp the location of the item targeted for OCR processing in the cells on the spreadsheet. Further, since the user does not need to move his / her line of sight when visually checking the result (conversion result) of the OCR process on the spreadsheet, it becomes easy to visually check the conversion result.
 さらに、データ処理装置10は、紙帳票等の項目の画像データに対するOCR処理を行ったとき、OCR処理の合致率に基づき、当該OCR処理の結果(機械可読データ)が保持されるセルの文字色、背景色、画像データの透明度等を設定する。これにより、ユーザが、スプレッドシート上でOCR処理の結果(変換結果)の目視チェックする際に、注意を要するセルと注意を要さないセルとを直観的に判断しやすくなる。 Further, when the data processing device 10 performs OCR processing on image data of items such as paper forms, the character color of the cell in which the result of the OCR processing (machine readable data) is held based on the match rate of the OCR processing. , Background color, transparency of image data, etc. This makes it easier for the user to intuitively distinguish between cells that require attention and cells that do not require attention when visually checking the result of OCR processing (conversion result) on the spreadsheet.
 [プログラム]
 また、上記の実施形態で述べたデータ処理装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムをコンピュータに実行させることにより、コンピュータをデータ処理装置10として機能させることができる。ここで言うコンピュータには、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、コンピュータにはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、データ処理装置10の機能を、クラウドサーバに実装してもよい。
[program]
Further, it can be implemented by installing a program that realizes the function of the data processing device 10 described in the above embodiment on a desired information processing device (computer). For example, the computer can function as the data processing device 10 by causing the computer to execute the above program provided as package software or online software. The computer referred to here includes a desktop type or notebook type personal computer, a rack-mounted server computer, and the like. In addition, computers include smartphones, mobile phones, mobile communication terminals such as PHS (Personal Handyphone System), and PDA (Personal Digital Assistants). Further, the function of the data processing device 10 may be implemented in the cloud server.
 図11を用いて、上記のプログラム(データ処理プログラム)を実行するコンピュータの一例を説明する。図11に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。 An example of a computer that executes the above program (data processing program) will be described with reference to FIG. As shown in FIG. 11, the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090. The disk drive interface 1040 is connected to the disk drive 1100. A removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100. For example, a mouse 1110 and a keyboard 1120 are connected to the serial port interface 1050. For example, a display 1130 is connected to the video adapter 1060.
 ここで、図11に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データは、例えばハードディスクドライブ1090やメモリ1010に記憶される。 Here, as shown in FIG. 11, the hard disk drive 1090 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. The various data described in the above-described embodiment are stored in, for example, the hard disk drive 1090 or the memory 1010.
 そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。 Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1090 into the RAM 1012 as needed, and executes each of the above-mentioned procedures.
 なお、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and program data 1094 related to the above program are not limited to the case where they are stored in the hard disk drive 1090, for example, they are stored in a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. It may be issued. Alternatively, the program module 1093 and the program data 1094 related to the above program are stored in another computer connected via a network such as a LAN or WAN (Wide Area Network), and read by the CPU 1020 via the network interface 1070. May be done.
10 データ処理装置
11 表計算ソフト
12 表計算ソフト制御部
13 画像データ取得部
14 座標変換部
15 画像切り出し部
16 OCR処理部
121 セル情報取得部
122 画像貼付部
123 セル情報設定部
10 Data processing device 11 Spreadsheet software 12 Spreadsheet software Control unit 13 Image data acquisition unit 14 Coordinate conversion unit 15 Image cutting unit 16 OCR processing unit 121 Cell information acquisition unit 122 Image pasting unit 123 Cell information setting unit

Claims (4)

  1.  紙帳票をスキャンした画像データの入力を受け付ける入力部と、
     前記画像データから紙帳票における記入欄の箇所の画像データを抽出する抽出部と、
     抽出した前記記入欄の箇所の画像データに対してOCR(Optical Character Recognition)処理を行うことで、当該記入欄の箇所の画像データを機械可読データに変換するOCR処理部と、
     抽出した前記記入欄の箇所の画像データと、当該記入欄の箇所の画像データを変換した機械可読データとを、表計算ソフトで使用されるスプレッドシート内の同じセルに保持させる表計算ソフト制御部と、
     を備えること特徴とするデータ処理装置。
    An input unit that accepts input of image data scanned from paper forms,
    An extraction unit that extracts the image data of the entry field in the paper form from the image data, and
    By performing OCR (Optical Character Recognition) processing on the extracted image data of the entry field, the OCR processing unit that converts the image data of the entry field into machine-readable data, and
    A spreadsheet software control unit that holds the extracted image data of the entry field and the machine-readable data obtained by converting the image data of the entry field in the same cell in the spreadsheet used by the spreadsheet software. When,
    A data processing device characterized by being equipped with.
  2.  前記表計算ソフト制御部は、
     前記OCR処理部が前記画像データを機械可読データに変換した際における、前記画像データと前記機械可読データとの合致率が所定値以上であるか否かに基づき、当該機械可読データを保持するセルの文字色または背景色を所定の色に設定する
     ことを特徴とする請求項1に記載のデータ処理装置。
    The spreadsheet software control unit
    A cell that holds the machine-readable data based on whether or not the matching rate between the image data and the machine-readable data when the OCR processing unit converts the image data into machine-readable data is a predetermined value or more. The data processing apparatus according to claim 1, wherein the character color or the background color of the above is set to a predetermined color.
  3.  データ処理装置により実行されるデータ処理方法であって、
     紙帳票をスキャンした画像データの入力を受け付ける工程と、
     前記画像データから紙帳票における記入欄の箇所の画像データを抽出する工程と、
     抽出した前記記入欄の箇所の画像データに対してOCR(Optical Character Recognition)処理を行うことで、当該記入欄の箇所の画像データを機械可読データに変換する工程と、
     抽出した前記記入欄の箇所の画像データと、当該記入欄の箇所の画像データを変換した機械可読データとを、表計算ソフトで使用されるスプレッドシート内の同じセルに保持させる工程と、
     を含むこと特徴とするデータ処理方法。
    A data processing method executed by a data processing device.
    The process of accepting the input of image data scanned from paper forms,
    The process of extracting the image data of the entry field in the paper form from the image data, and
    By performing OCR (Optical Character Recognition) processing on the extracted image data of the entry field, the process of converting the image data of the entry field into machine-readable data and
    The process of holding the extracted image data of the entry field and the machine-readable data obtained by converting the image data of the entry field in the same cell in the spreadsheet used by the spreadsheet software.
    A data processing method characterized by including.
  4.  コンピュータを請求項1または請求項2に記載のデータ処理装置として機能させるためのデータ処理プログラム。 A data processing program for making a computer function as the data processing device according to claim 1 or 2.
PCT/JP2020/024831 2020-06-24 2020-06-24 Data processing device, data processing method, and data processing program WO2021260852A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024831 WO2021260852A1 (en) 2020-06-24 2020-06-24 Data processing device, data processing method, and data processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024831 WO2021260852A1 (en) 2020-06-24 2020-06-24 Data processing device, data processing method, and data processing program

Publications (1)

Publication Number Publication Date
WO2021260852A1 true WO2021260852A1 (en) 2021-12-30

Family

ID=79282102

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/024831 WO2021260852A1 (en) 2020-06-24 2020-06-24 Data processing device, data processing method, and data processing program

Country Status (1)

Country Link
WO (1) WO2021260852A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325562A (en) * 2000-05-17 2001-11-22 Minolta Co Ltd Image recognizing device, image forming device, image recognizing method, and computer-readable recording medium with image reocgnizing program stored therein
JP2003208569A (en) * 2002-01-10 2003-07-25 Ricoh Co Ltd Handwritten information processor, handwritten information processing method, handwritten information processing program, recording medium recording the program and electronic blackboard
JP2012198597A (en) * 2011-03-18 2012-10-18 Brother Ind Ltd Control device and computer program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325562A (en) * 2000-05-17 2001-11-22 Minolta Co Ltd Image recognizing device, image forming device, image recognizing method, and computer-readable recording medium with image reocgnizing program stored therein
JP2003208569A (en) * 2002-01-10 2003-07-25 Ricoh Co Ltd Handwritten information processor, handwritten information processing method, handwritten information processing program, recording medium recording the program and electronic blackboard
JP2012198597A (en) * 2011-03-18 2012-10-18 Brother Ind Ltd Control device and computer program

Similar Documents

Publication Publication Date Title
US7844896B2 (en) Layout-rule generation system, layout system, layout-rule generation program, layout program, storage medium, method of generating layout rule, and method of layout
JP2012059248A (en) System, method, and program for detecting and creating form field
CN108256523B (en) Identification method and device based on mobile terminal and computer readable storage medium
US20140344669A1 (en) Document conversion apparatus
JP2021166070A (en) Document comparison method, device, electronic apparatus, computer readable storage medium and computer program
CN116757157A (en) Acquiring font parts using a compression mechanism
CN113408251B (en) Layout document processing method and device, electronic equipment and readable storage medium
US10366142B2 (en) Identifier based glyph search
US9886426B1 (en) Methods and apparatus for generating an efficient SVG file
CN106776994B (en) Application method and system of engineering symbols in engineering report forms and web pages
US20200026749A1 (en) Pdf extraction with text-based key
WO2021260852A1 (en) Data processing device, data processing method, and data processing program
WO2006101287A1 (en) System and method for providing translated font image data using multi-language font servers
CN116311300A (en) Table generation method, apparatus, electronic device and storage medium
CN115909449A (en) File processing method, file processing device, electronic equipment, storage medium and program product
CN112528593B (en) Document processing method, device, electronic equipment and storage medium
JP6914491B1 (en) Information processing equipment, programs and information processing methods
JP6108105B2 (en) Article image reconstruction device
US20200272688A1 (en) Information processing apparatus and non-transitory computer readable medium
JP4999014B2 (en) Inserting objects using a text editor that supports scalable fonts
JP7279986B1 (en) Information processing method, information processing system and information processing program
US20230046344A1 (en) Systems, Methods, and Devices for a Form Converter
US11006015B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP7279965B2 (en) Information processing device, program and information processing method
CN112036123B (en) PDF generation method, device, equipment and storage medium based on webpage

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20942333

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20942333

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP