JPWO2020044537A1 - 画像照合装置、画像照合方法、及びプログラム - Google Patents
画像照合装置、画像照合方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2020044537A1 JPWO2020044537A1 JP2020539985A JP2020539985A JPWO2020044537A1 JP WO2020044537 A1 JPWO2020044537 A1 JP WO2020044537A1 JP 2020539985 A JP2020539985 A JP 2020539985A JP 2020539985 A JP2020539985 A JP 2020539985A JP WO2020044537 A1 JPWO2020044537 A1 JP WO2020044537A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- comparison
- matching
- unit
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000000052 comparative effect Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000007717 exclusion Effects 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 25
- 238000012937 correction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
画像照合装置は、同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を互いに関連付けて格納する比較画像格納部と、該比較画像格納部に格納されている比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定する一致度判定部とを有し、該比較画像格納部は、書類の書式を定義する書式定義情報を、該比較画像に関連付けて格納し、該比較画像格納部に格納されている書式定義情報の中から、該一致度判定部による判定結果に基づいて、適用する書式定義情報を選択する書式定義選択部と、該書式定義選択部により選択された書式定義情報に基づいて、新たに入力された入力画像から情報を抽出する抽出部とをさらに有する。
Description
本発明は、画像照合装置、画像照合方法、及びプログラムに関する。
例えば、特許文献1には、個人の情報を複数のユーザに公開して、情報の共有を支援する情報共有システムにおいて、個人の公開情報を蓄積する蓄積手段と、この蓄積手段で蓄積された公開情報と、前記公開情報を提供した情報提供者にその公開情報に対するユーザの利用状態を通知するための通知条件をユーザの要求に応じて提供する情報提供手段と、前記通知条件に基づき、前記情報提供手段で提供された公開情報に対するユーザの利用状態を検知したとき、その検知したユーザの利用状態を前記情報提供者に通知する通知手段と、を具備し、前記通知条件は、前記情報提供者のみ変更可能であることを特徴とする情報共有支援システムが開示されている。
また、特許文献2には、文書内の領域の座標と、前記領域に対応する識別情報とを保存する保存手段と、新たに受信した文書から、受信した文書内における文字認識用の複数の領域を作成する作成手段であって、前記作成手段によって作成される領域が、文書に対するブロックセレクション処理によって抽出される領域と、ユーザが指定する任意の領域とを含む、作成手段と、前記作成手段によって作成された領域の座標と、前記保存手段によって保存された領域の座標とを比較する比較手段と、前記比較手段による比較の結果と、前記保存手段によって保存された領域に対応する識別情報とに基づいて、前記作成手段によって作成された領域の座標に対応する識別情報を決定する決定手段と、前記決定手段によって決定された前記識別情報と、前記作成手段によって作成された領域に対する文字認識に基づくテキスト情報とを送信する送信手段と、前記送信手段によって送信された前記識別情報に基づいて、テキスト情報をアプリケーションに入力するためのスクリプトを特定し、特定されたスクリプトを実行する実行手段と、を有し、前記保存手段は、前記送信手段による送信の結果に基づいて、前記作成手段によって作成された領域の座標と、前記領域に対応する識別情報とを保存することを特徴とするシステムが開示されている。
また、特許文献3には、項目名と、この項目名に対応するデータとを含む帳票の画像を記憶する記憶部と、前記帳票の画像から所定の項目名を探索する探索部と、前記帳票の画像上のデータを選択する情報を受け取る入力部と、前記選択されたデータと前記探索された項目名を関連付ける関連付け部と、前記関連付けられたデータを文字認識する文字認識部と、を具備する帳票読取装置が開示されている。
画像の照合を支援する画像照合システムを提供することを目的とする。
本発明に係る画像照合装置は、同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を互いに関連付けて格納する比較画像格納部と、前記比較画像格納部に格納されている比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定する一致度判定部とを有する。
好適には、前記比較画像格納部は、書類の書式を定義する書式定義情報を、前記比較画像に関連付けて格納し、前記比較画像格納部に格納されている書式定義情報の中から、前記一致度判定部による判定結果に基づいて、適用する書式定義情報を選択する書式定義選択部と、前記書式定義選択部により選択された書式定義情報に基づいて、新たに入力された入力画像から情報を抽出する抽出部とをさらに有する。
好適には、前記一致度判定部により判定された一致度が、いずれの比較画像についても基準以下であった場合に、前記入力画像に対して、互いに異なる領域に加工処理を施して、複数の比較画像を生成する比較画像生成部と、前記比較画像生成部により生成された複数の比較画像を、前記比較画像格納部に追加登録する比較画像登録部とをさらに有する。
好適には、前記比較画像生成部は、同一の入力画像に対して、生成される複数の比較画像が互いに異なるデータサイズとなるような加工処理を施す。
好適には、前記比較画像生成部は、同一の入力画像に対して、互いに異なる領域の画像を削除して、複数の比較画像を生成する。
好適には、前記比較画像格納部は、前記入力画像と同一の比較画像、前記入力画像の任意の領域が削除された比較画像、前記入力画像から罫線枠内が削除された比較画像、前記入力画像から罫線枠外のみが抽出された比較画像、及び、前記入力画像に含まれる罫線のみを抽出した比較画像、のうち、少なくとも2つを格納している。
好適には、比較対象から除外される画像領域について、画像領域の数、画像領域の大きさ、及び、画像領域の位置のうち、少なくとも一つを変更する除外領域変更部をさらに有し、前記一致度判定部は、前記比較画像の少なくとも一つについて、前記除外領域変更部により変更された画像領域を比較対象から除外して、前記入力画像と前記比較画像とを比較して一致度を判定する。
本発明に係る画像照合方法は、同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を生成するステップと、前記生成された複数の比較画像を互いに関連付けてデータベースに登録するステップと、前記データベースに登録された比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定するステップとを有する。
本発明に係るプログラムは、同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を生成するステップと、前記生成された複数の比較画像を互いに関連付けてデータベースに登録するステップと、前記データベースに登録された比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定するステップとをコンピュータに実行させる。
画像の照合を支援することができる。
[背景]
本発明がなされた背景を説明する。
顧客との取引で発生する書類は紙であり、多種多様な書類となっている。これらの書類を画像データから準定型の書類としてOCR(Optical Character Recognition)認識するにあたり、書類の種類毎に準定型のOCR認識用の書式定義を行う必要がある。書類としてのOCR認識時、OCR認識用の書式定義が照合できなかったり、OCR認識されない部分があったりなど、OCR認識の不具合が発生することがある。OCR認識の不具合が発生した場合、OCR認識結果の修正や、OCR認識する範囲定義の修正などを行なわなければならず、作業効率が悪い。また、紙からの電子データ化などの事務作業における効率化のニーズも高まっている。
準定型書類とは、請求書などの書類において、請求する会社によりフォーマットが微妙に異なる書類をいう。
本発明がなされた背景を説明する。
顧客との取引で発生する書類は紙であり、多種多様な書類となっている。これらの書類を画像データから準定型の書類としてOCR(Optical Character Recognition)認識するにあたり、書類の種類毎に準定型のOCR認識用の書式定義を行う必要がある。書類としてのOCR認識時、OCR認識用の書式定義が照合できなかったり、OCR認識されない部分があったりなど、OCR認識の不具合が発生することがある。OCR認識の不具合が発生した場合、OCR認識結果の修正や、OCR認識する範囲定義の修正などを行なわなければならず、作業効率が悪い。また、紙からの電子データ化などの事務作業における効率化のニーズも高まっている。
準定型書類とは、請求書などの書類において、請求する会社によりフォーマットが微妙に異なる書類をいう。
図11は、比較例におけるOCR認識処理の概要を説明する図である。
図11に例示するように、比較例のOCR認識処理では、書類の種類毎にOCR認識のための書式定義をユーザが作成し、作成された書式定義に基づいてOCR認識を行っている。また、準定型の書類として認識し、運用時にOCR認識に不具合があったとき、OCR認識する範囲を修正しても、修正した情報は書式定義に反映されなかった。そのため、OCR認識後に書式定義を修正し忘れたり、OCR認識を行うたびに、認識不良部分の範囲が発生するため、認識する範囲を再設定しなければならないという問題があった。なお、OCR認識する範囲の抽出率を向上するためには、認識する書類毎に書式定義が必要となり、書式定義が膨大な量となった。そのため、書式定義の照合時に、合致する書式定義が見つからなかったり、書式定義の照合に時間がかかったりした。修正したOCR認識用の書式定義の管理も煩雑になるという問題もあった。
図11に例示するように、比較例のOCR認識処理では、書類の種類毎にOCR認識のための書式定義をユーザが作成し、作成された書式定義に基づいてOCR認識を行っている。また、準定型の書類として認識し、運用時にOCR認識に不具合があったとき、OCR認識する範囲を修正しても、修正した情報は書式定義に反映されなかった。そのため、OCR認識後に書式定義を修正し忘れたり、OCR認識を行うたびに、認識不良部分の範囲が発生するため、認識する範囲を再設定しなければならないという問題があった。なお、OCR認識する範囲の抽出率を向上するためには、認識する書類毎に書式定義が必要となり、書式定義が膨大な量となった。そのため、書式定義の照合時に、合致する書式定義が見つからなかったり、書式定義の照合に時間がかかったりした。修正したOCR認識用の書式定義の管理も煩雑になるという問題もあった。
図1は、本発明の画像照合装置5が管理する学習データを例示する図である。
図2は、画像照合システム1におけるOCR認識の概要を説明する図である。
上記課題に対して、本発明は、図1に例示するように、一つの書類に対して情報量の異なる複数の画像データ(比較画像)を保持し、複数の画像データは、一つの書式定義に関連付けられている。本発明の画像照合装置5は、OCR認識の対象書類と完全に一致しなくとも、これらの複数の画像データに一致する書類を特定することにより、OCR認識の対象書類に適した書式定義に基づいた文字認識を行い、照合率を上げるものである。
また本発明の画像照合システムは、図2に例示するように、ユーザがOCR認識する範囲を修正した場合、すなわち、文字認識するレイアウトを補正した場合、修正した内容に基づいて、学習データを生成するため、ユーザによる書式定義の再設定が不要である。
図2は、画像照合システム1におけるOCR認識の概要を説明する図である。
上記課題に対して、本発明は、図1に例示するように、一つの書類に対して情報量の異なる複数の画像データ(比較画像)を保持し、複数の画像データは、一つの書式定義に関連付けられている。本発明の画像照合装置5は、OCR認識の対象書類と完全に一致しなくとも、これらの複数の画像データに一致する書類を特定することにより、OCR認識の対象書類に適した書式定義に基づいた文字認識を行い、照合率を上げるものである。
また本発明の画像照合システムは、図2に例示するように、ユーザがOCR認識する範囲を修正した場合、すなわち、文字認識するレイアウトを補正した場合、修正した内容に基づいて、学習データを生成するため、ユーザによる書式定義の再設定が不要である。
本発明の実施形態を、図面を参照して説明する。
図3は、画像照合システム1の全体構成を例示する図である。
図3に例示するように、画像照合システム1は、複数のスキャナ3a、スキャナ3b、スキャナ3c及び画像照合装置5を含み、ネットワーク7を介して互いに接続している。
スキャナ3a、スキャナ3b、スキャナ3cを合わせてスキャナ3と称する。スキャナ3は、光学式の読取装置で取得した画像データ(以下、入力画像という)を画像照合装置5に送信する。
画像照合装置5は、コンピュータ端末であり、スキャナ3から受信した画像データの文字認識を行う。具体的には、画像照合装置5は、文字認識するために使用する、入力画像に適した書式定義を特定し、特定した書式定義を適用して入力画像の文字認識を行う。より具体的には、画像照合装置5が生成した比較画像に基づいて入力画像に適した書式定義を特定する。
図3は、画像照合システム1の全体構成を例示する図である。
図3に例示するように、画像照合システム1は、複数のスキャナ3a、スキャナ3b、スキャナ3c及び画像照合装置5を含み、ネットワーク7を介して互いに接続している。
スキャナ3a、スキャナ3b、スキャナ3cを合わせてスキャナ3と称する。スキャナ3は、光学式の読取装置で取得した画像データ(以下、入力画像という)を画像照合装置5に送信する。
画像照合装置5は、コンピュータ端末であり、スキャナ3から受信した画像データの文字認識を行う。具体的には、画像照合装置5は、文字認識するために使用する、入力画像に適した書式定義を特定し、特定した書式定義を適用して入力画像の文字認識を行う。より具体的には、画像照合装置5が生成した比較画像に基づいて入力画像に適した書式定義を特定する。
図4は、画像照合装置5のハードウェア構成を例示する図である。
図4に例示するように、画像照合装置5は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び入力装置210を有し、これらの構成はバス212を介して互いに接続している。
CPU200は、例えば、中央演算装置である。
メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラムやその他のデータファイルを格納する。
ネットワークIF206は、有線又は無線で通信するためのインタフェースである。
表示装置208は、例えば、液晶ディスプレイである。
入力装置210は、例えば、キーボード及びマウスである。
図4に例示するように、画像照合装置5は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び入力装置210を有し、これらの構成はバス212を介して互いに接続している。
CPU200は、例えば、中央演算装置である。
メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラムやその他のデータファイルを格納する。
ネットワークIF206は、有線又は無線で通信するためのインタフェースである。
表示装置208は、例えば、液晶ディスプレイである。
入力装置210は、例えば、キーボード及びマウスである。
図5は、画像照合装置5の機能構成を例示する図である。
図5に例示するように、画像照合装置5には、画像照合プログラム50がインストールされ、画像照合プログラム50は、例えば、CD−ROM等の記録媒体に格納されており、この記録媒体を介して、画像照合装置5にインストールされると共に学習データデータベース600(学習データDB600)が構成される。
学習データDB600とは、図2に例示するように、書類毎のレイアウトデータを管理する。レイアウトデータとは、入力画像の文字認識をするための書式定義、書式定義に関連付けられる比較画像、及び書式定義に関連付けられる特長点データを含む。比較画像及び特長点データは、入力画像に対する文字認識のために使用する書式定義を決定する要素である。
なお、画像照合プログラム50の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。また、このプログラム全体が一台のコンピュータ端末にインストールされてもよいし、クラウド上の仮想マシンにインストールされてもよい。
図5に例示するように、画像照合装置5には、画像照合プログラム50がインストールされ、画像照合プログラム50は、例えば、CD−ROM等の記録媒体に格納されており、この記録媒体を介して、画像照合装置5にインストールされると共に学習データデータベース600(学習データDB600)が構成される。
学習データDB600とは、図2に例示するように、書類毎のレイアウトデータを管理する。レイアウトデータとは、入力画像の文字認識をするための書式定義、書式定義に関連付けられる比較画像、及び書式定義に関連付けられる特長点データを含む。比較画像及び特長点データは、入力画像に対する文字認識のために使用する書式定義を決定する要素である。
なお、画像照合プログラム50の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。また、このプログラム全体が一台のコンピュータ端末にインストールされてもよいし、クラウド上の仮想マシンにインストールされてもよい。
画像照合プログラム50は、画像取得部500、比較画像格納部502、一致度判定部504、書式定義選択部506、抽出部508、レイアウト補正部510、比較画像生成部512、定型書式定義生成部514、特長点データ抽出部516、及び比較画像登録部518を有する。
画像照合プログラム50において、画像取得部500は、スキャナ3によりスキャンされた書類の画像データを取得し、入力画像とする。
比較画像格納部502は、同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を互いに関連付けて格納する。具体的には、比較画像格納部502は、一つの書類に対してパターン化された比較画像5種類のうち、少なくとも2つを格納する。また、比較画像格納部502は、書類の書式を定義する書式定義情報(以下、書式定義とする。)を、比較画像に関連付けて格納する。書式定義とは、同じ種類の準定型書類を複数取り込んだ画像データから1つを使用し、OCR認識するために書類の種類を特定する情報、及びOCR認識する範囲を特定する情報である。例えば、書式定義とは、OCR認識する範囲を、キーワードである「お客様名」とキーワードからの位置(上、下、左、右からなる条件)に基づいて特定する情報である。書式定義はユーザにより定義される。
比較画像格納部502は、同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を互いに関連付けて格納する。具体的には、比較画像格納部502は、一つの書類に対してパターン化された比較画像5種類のうち、少なくとも2つを格納する。また、比較画像格納部502は、書類の書式を定義する書式定義情報(以下、書式定義とする。)を、比較画像に関連付けて格納する。書式定義とは、同じ種類の準定型書類を複数取り込んだ画像データから1つを使用し、OCR認識するために書類の種類を特定する情報、及びOCR認識する範囲を特定する情報である。例えば、書式定義とは、OCR認識する範囲を、キーワードである「お客様名」とキーワードからの位置(上、下、左、右からなる条件)に基づいて特定する情報である。書式定義はユーザにより定義される。
一致度判定部504は、比較画像格納部502に格納されている比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定する。一致度判定部504は、比較画像と入力画像との一致度が基準を超える場合に両者が一致していると判定する。また、一致度判定部504は、特長点データに基づいて、入力画像に対する文字認識に使用する学習データの候補を抽出し、比較画像と入力画像との一致度に基づいて抽出した候補の中から基準を超える一致度を有する学習データを決定する。
書式定義選択部506は、比較画像格納部502に格納されている書式定義の中から、一致度判定部504による判定結果に基づいて、適用する書式定義を選択する。具体的には、書式定義選択部506は、一致度判定部504により決定された学習データの書式定義を、入力画像の文字認識に使用する書式定義として選択する。
抽出部508は、書式定義選択部506により選択された書式定義に基づいて、新たに入力された入力画像から、情報を抽出する。具体的には、抽出部508は、入力画像を書式定義に基づいて文字認識し、図6に例示するように、認識結果をOCR認識結果確認画面に表示する。OCR認識結果確認画面では、書類の各項目名(日付、電話番号、名前等)と項目の値が表示される。ユーザは、OCR認識結果確認画面で文字認識の結果を確認し、誤りがある場合は、修正する。
レイアウト補正部510は、入力画像の文字認識する範囲、または文字認識する範囲に記載されている項目の意味(日付、電話番号、名前等の値)を変更する。具体的には、図7に例示するように、レイアウト補正画面には、入力画像のイメージが表示され、ユーザにより文字認識範囲が再設定された場合に、レイアウト補正部510は、変更を受け付け、文字認識する範囲を変更する。
比較画像生成部512は、一致度判定部504により判定された一致度が、いずれの比較画像についても基準以下であった場合に、入力画像に対して、互いに異なる領域に加工処理を施して、複数の比較画像を生成する。具体的には、比較画像生成部512は、同一の入力画像に対して、生成される複数の比較画像が互いに異なるデータサイズとなるような加工処理を施す。また、比較画像生成部512は、同一の入力画像に対して、互いに異なる領域の画像を削除して、複数の比較画像を生成する。
定型書式定義生成部514は、レイアウト補正部510により文字認識する範囲を変更された場合に、または、書類の項目の意味が変更された書式定義を比較画像に関連付けて学習データDB600に保存する。
特長点データ抽出部516は、レイアウト補正部510により補正された比較画像の特長点を抽出し、比較画像に関連付けて学習データDB600に保存する。
比較画像登録部518は、比較画像生成部512により生成された複数の比較画像を、比較画像格納部502に追加登録する。具体的には、生成された複数の比較画像を定型書式定義生成部514により生成された書式定義、及び特長点データ抽出部516により抽出された特長点データに関連付けて学習データDB600に保存する。
特長点データ抽出部516は、レイアウト補正部510により補正された比較画像の特長点を抽出し、比較画像に関連付けて学習データDB600に保存する。
比較画像登録部518は、比較画像生成部512により生成された複数の比較画像を、比較画像格納部502に追加登録する。具体的には、生成された複数の比較画像を定型書式定義生成部514により生成された書式定義、及び特長点データ抽出部516により抽出された特長点データに関連付けて学習データDB600に保存する。
次に比較画像について説明する。
図8は、パターン化された比較画像の例を示す図である。
本例では、図8に例示するように、学習データDB600は、一つの書類に対して5段階の比較画像を有する。5段階の比較画像とは、入力画像と同一の比較画像(オリジナル画像データ)、入力画像の任意の領域が削除された比較画像(パターン1)、入力画像から罫線枠内が削除された比較画像(パターン2)、入力画像から罫線枠外のみ抽出された比較画像、及び、入力画像に含まれる罫線のみを抽出した比較画像(パターン4)である。
書類毎に5段階の比較画像が用意されているため、軽微な変更がなされた書類が入力画像である場合でも、5段階のいずれかと一致すると判定されれば、書式定義を特定することができ、入力画像に対する文字認識が可能となり、照合率が向上する。
また、パターン1の比較画像は、オリジナルの画像データから照合しない領域をランダムに作成した画像データである。具体的には、画像データ中に、照合しない領域は、ランダムな位置(x座標及びy座標は(0,0)から書類の画像データの最大ピクセルの範囲)に、ランダムな大きさ(書類の画像データにおける1辺当たり(ピクセル)の5%〜20%の範囲の大きさ)の矩形で、複数個(個数は1〜10の範囲でランダム)存在する。
図8は、パターン化された比較画像の例を示す図である。
本例では、図8に例示するように、学習データDB600は、一つの書類に対して5段階の比較画像を有する。5段階の比較画像とは、入力画像と同一の比較画像(オリジナル画像データ)、入力画像の任意の領域が削除された比較画像(パターン1)、入力画像から罫線枠内が削除された比較画像(パターン2)、入力画像から罫線枠外のみ抽出された比較画像、及び、入力画像に含まれる罫線のみを抽出した比較画像(パターン4)である。
書類毎に5段階の比較画像が用意されているため、軽微な変更がなされた書類が入力画像である場合でも、5段階のいずれかと一致すると判定されれば、書式定義を特定することができ、入力画像に対する文字認識が可能となり、照合率が向上する。
また、パターン1の比較画像は、オリジナルの画像データから照合しない領域をランダムに作成した画像データである。具体的には、画像データ中に、照合しない領域は、ランダムな位置(x座標及びy座標は(0,0)から書類の画像データの最大ピクセルの範囲)に、ランダムな大きさ(書類の画像データにおける1辺当たり(ピクセル)の5%〜20%の範囲の大きさ)の矩形で、複数個(個数は1〜10の範囲でランダム)存在する。
図9は、学習データ生成処理(S10)を説明するフローチャートである。
図9に例示するように、ステップ100(S100)において、画像取得部500は、スキャナ3によりスキャンされた書類の画像データを取得し、入力画像とする。
ステップ105(S105)において、一致度判定部504は、入力画像と比較画像とを比較し、一致度が基準を超える比較画像を検索する。一致度が基準を超える比較画像がない場合は、S110へ移行し、一致度が基準を超える比較画像が存在する場合は、画像照合処理(S30)に移行する。
ステップ110(S110)において、書式定義選択部506は、準定型書類に関連付けられる書式定義を取得する。
ステップ115(S115)において、抽出部508は、入力画像の文字認識を書式定義選択部506により選択された書式定義に基づいて行う。
ステップ120(S120)において、抽出部508は、文字認識結果を、OCR認識結果確認画面に表示し、ユーザは結果を確認する。
図9に例示するように、ステップ100(S100)において、画像取得部500は、スキャナ3によりスキャンされた書類の画像データを取得し、入力画像とする。
ステップ105(S105)において、一致度判定部504は、入力画像と比較画像とを比較し、一致度が基準を超える比較画像を検索する。一致度が基準を超える比較画像がない場合は、S110へ移行し、一致度が基準を超える比較画像が存在する場合は、画像照合処理(S30)に移行する。
ステップ110(S110)において、書式定義選択部506は、準定型書類に関連付けられる書式定義を取得する。
ステップ115(S115)において、抽出部508は、入力画像の文字認識を書式定義選択部506により選択された書式定義に基づいて行う。
ステップ120(S120)において、抽出部508は、文字認識結果を、OCR認識結果確認画面に表示し、ユーザは結果を確認する。
ステップ125(S125)において、認識されていない文字列がある場合は、S145へ移行し、すべて認識されている場合は、S130に移行する。
ステップ130(S130)において、比較画像生成部512は、抽出部508により文字認識に使用された準定型書類の画像データに基づいて、5段階の情報量の異なる比較画像を生成する。
ステップ135(S135)において、定型書式定義生成部514は、文字認識に使用した準定型書類の書式定義に基づいて、定型書類の書式定義を生成する。
ステップ140(S140)において、特長点データ抽出部516は、抽出部508により文字認識に使用された準定型書類の画像データの特長点を抽出する。比較画像登録部518は、生成された書式定義とS130において生成した比較画像と特長点データとを関連づけて学習データDB600に格納する。
ステップ145(S145)において、レイアウト補正部510は、レイアウト補正画面に対してなされたユーザの操作に基づいて、文字列を認識させたい範囲を再設定する。
ステップ150(S150)において、抽出部508は、レイアウト補正部510により再設定された範囲において文字認識を行う。
ステップ155(S155)において、文字認識の結果に誤りがある場合は、S160へ移行し、誤りがない場合は、S165へ移行する。
ステップ160(S160)において、抽出部508は、ユーザによる文字認識結果の修正を受け付け、反映する。
ステップ165(S165)において、比較画像生成部512は、抽出部508により文字認識に使用された準定型書類の画像データに基づいて、5段階の情報量の異なる比較画像を生成する。
ステップ130(S130)において、比較画像生成部512は、抽出部508により文字認識に使用された準定型書類の画像データに基づいて、5段階の情報量の異なる比較画像を生成する。
ステップ135(S135)において、定型書式定義生成部514は、文字認識に使用した準定型書類の書式定義に基づいて、定型書類の書式定義を生成する。
ステップ140(S140)において、特長点データ抽出部516は、抽出部508により文字認識に使用された準定型書類の画像データの特長点を抽出する。比較画像登録部518は、生成された書式定義とS130において生成した比較画像と特長点データとを関連づけて学習データDB600に格納する。
ステップ145(S145)において、レイアウト補正部510は、レイアウト補正画面に対してなされたユーザの操作に基づいて、文字列を認識させたい範囲を再設定する。
ステップ150(S150)において、抽出部508は、レイアウト補正部510により再設定された範囲において文字認識を行う。
ステップ155(S155)において、文字認識の結果に誤りがある場合は、S160へ移行し、誤りがない場合は、S165へ移行する。
ステップ160(S160)において、抽出部508は、ユーザによる文字認識結果の修正を受け付け、反映する。
ステップ165(S165)において、比較画像生成部512は、抽出部508により文字認識に使用された準定型書類の画像データに基づいて、5段階の情報量の異なる比較画像を生成する。
ステップ170(S170)において、定型書式定義生成部514は、文字認識に使用した準定型書類の書式定義、及びレイアウト補正部510による補正情報に基づいて定型書類の書式定義を生成する。
ステップ175(S175)において、特長点データ抽出部516は再設定された補正レイアウトの特長点を抽出する。比較画像登録部518は、生成された書式定義とS165において生成した比較画像と特長点データとを関連づけて学習データDB600に格納する。
ステップ180(S180)において、比較画像格納部502は、学習データDB600に格納される学習データを管理する。
従来では、OCR認識後に文字認識の範囲の書式定義の修正が必要であったが、画像照合装置5は、ユーザによる文字認識範囲の再設定、または書類の項目の意味が変更された場合に、再設定された情報に基づいて学習データを生成するため、ユーザが書式定義の再設定をする必要はなく、従来のようなユーザによる書式定義の修正の手間が省け、さらに、書式定義の修正のし忘れが生じることもない。つまり、膨大な数のOCR認識に必要な書式定義のメンテナンスが不要となる。
ステップ175(S175)において、特長点データ抽出部516は再設定された補正レイアウトの特長点を抽出する。比較画像登録部518は、生成された書式定義とS165において生成した比較画像と特長点データとを関連づけて学習データDB600に格納する。
ステップ180(S180)において、比較画像格納部502は、学習データDB600に格納される学習データを管理する。
従来では、OCR認識後に文字認識の範囲の書式定義の修正が必要であったが、画像照合装置5は、ユーザによる文字認識範囲の再設定、または書類の項目の意味が変更された場合に、再設定された情報に基づいて学習データを生成するため、ユーザが書式定義の再設定をする必要はなく、従来のようなユーザによる書式定義の修正の手間が省け、さらに、書式定義の修正のし忘れが生じることもない。つまり、膨大な数のOCR認識に必要な書式定義のメンテナンスが不要となる。
図10は、画像照合処理(S30)を説明するフローチャートである。
図10に例示するように、ステップ300(S300)において、画像取得部500は、スキャナ3によりスキャンされた書類の画像データを取得し、入力画像とする。
ステップ305(S305)において、学習データがない場合は、学習データ生成処理(S10)へ移行し、学習データが存在する場合は、S310へ移行する。
ステップ310(S310)において、一致度判定部504は、入力画像と学習データDB600に保持される特長点データとを比較し、一致度が基準を超える習データの候補を抽出する。
ステップ315(S315)において、一致度判定部504は、抽出された候補となる学習データの5段階の比較画像と入力画像とを比較する。一致度判定部504は、比較画像の情報量の多い順に入力画像と比較する。具体的には、一致度判定部504は、第1段階の比較画像、第2段階の比較画像、第3段階の比較画像、第4段階の比較画像、第5段階の比較画像の順に入力画像と比較する。情報量の多い比較画像の順に入力画像と比較することでより正確性の高い照合が可能になる。
図10に例示するように、ステップ300(S300)において、画像取得部500は、スキャナ3によりスキャンされた書類の画像データを取得し、入力画像とする。
ステップ305(S305)において、学習データがない場合は、学習データ生成処理(S10)へ移行し、学習データが存在する場合は、S310へ移行する。
ステップ310(S310)において、一致度判定部504は、入力画像と学習データDB600に保持される特長点データとを比較し、一致度が基準を超える習データの候補を抽出する。
ステップ315(S315)において、一致度判定部504は、抽出された候補となる学習データの5段階の比較画像と入力画像とを比較する。一致度判定部504は、比較画像の情報量の多い順に入力画像と比較する。具体的には、一致度判定部504は、第1段階の比較画像、第2段階の比較画像、第3段階の比較画像、第4段階の比較画像、第5段階の比較画像の順に入力画像と比較する。情報量の多い比較画像の順に入力画像と比較することでより正確性の高い照合が可能になる。
ステップ320(S320)において、一致度判定部504により、入力画像との一致度が基準を超える比較画像が存在すると判定された場合に、画像照合処理(S30)は、S325へ移行し、一致度が基準を超える比較画像がない場合に、画像照合処理(S30)は、学習データ生成処理(S10)のS110へ移行する。
ステップ325(S325)において、書式定義選択部506は、比較画像との一致度が基準を超える比較画像に関連付けられる書式定義を取得する。
ステップ330(S330)において、抽出部508は、書式定義選択部506により選択された書式定義に基づいて入力画像の文字認識を行う。
ステップ335(S335)において、ユーザは、OCR認識結果確認画面において認識結果を確認する。
ステップ340(S340)において、認識されていない文字列が存在する場合に、画像照合処理(S30)は、学習データ生成処理(S10)のS130へ移行し、すべて認識されている場合は、処理を終了する。
ステップ325(S325)において、書式定義選択部506は、比較画像との一致度が基準を超える比較画像に関連付けられる書式定義を取得する。
ステップ330(S330)において、抽出部508は、書式定義選択部506により選択された書式定義に基づいて入力画像の文字認識を行う。
ステップ335(S335)において、ユーザは、OCR認識結果確認画面において認識結果を確認する。
ステップ340(S340)において、認識されていない文字列が存在する場合に、画像照合処理(S30)は、学習データ生成処理(S10)のS130へ移行し、すべて認識されている場合は、処理を終了する。
以上説明したように、本実施形態の画像照合システム1によれば、一つの書類に対して複数のパターンの比較画像が生成されるため、オリジナルの画像データと軽微な違いがある入力画像であっても、ユーザがその都度文字の認識範囲を補正することなく、複数パターンの比較画像のいずれかに一致することで書式定義を特定できる。すなわち、文字認識処理の作業効率、照合性能、及び文字認識の照合率が高くなる。
また、複数のパターンの比較画像を生成する場合に、ランダムに照合しない領域を作成するため、書類毎に照合しない領域が異なり、比較画像のパターンが定型化しない。
そして、入力画像に適する学習データが存在しない場合でも、ユーザによる比較画像の補正操作を認識し、補正情報に基づいて、新たに学習データを生成し、管理するため、書式定義のメンテナンスが不要となる。
さらに、スキャナ3の機種が変更されたことにより、スキャナの特性が変わり、これまでの書式定義が使用できない場合でも、画像照合装置5によれば、学習により新たな書式定義を生成するため、新規にユーザによる書式定義を作成する必要はない。
また、複数のパターンの比較画像を生成する場合に、ランダムに照合しない領域を作成するため、書類毎に照合しない領域が異なり、比較画像のパターンが定型化しない。
そして、入力画像に適する学習データが存在しない場合でも、ユーザによる比較画像の補正操作を認識し、補正情報に基づいて、新たに学習データを生成し、管理するため、書式定義のメンテナンスが不要となる。
さらに、スキャナ3の機種が変更されたことにより、スキャナの特性が変わり、これまでの書式定義が使用できない場合でも、画像照合装置5によれば、学習により新たな書式定義を生成するため、新規にユーザによる書式定義を作成する必要はない。
上記実施形態では、比較画像生成部512により作成された5段階の学習データと入力画像とを比較していたが、一つの書類に関連付けられるパターン1の比較画像を変更してもよい。
具体的には、変形例における画像照合装置5は、図5に例示する機能構成に加え、除外領域変更部520を有する。比較画像生成部512は、書類毎にパターン1の照合しない領域をランダムに作成するが、除外領域変更部520は、既に作成されたパターン1の照合領域を変更する。具体的には、除外領域変更部520は、比較対象から除外される画像領域について、画像領域の数、画像領域の大きさ、及び画像領域の位置のうち、少なくとも一つを変更する。例えば、比較画像生成部512により、一つの書類に対して一つのパターン1の比較画像が生成されており、管理されていた場合、パターン1の比較画像と入力画像を照合する際に、照合しない領域が固定されているため、照合率の高い書類と低い書類とが出てくるが、除外領域変更部520により、既に存在するパターン1の照合しない領域を変更することにより、照合率の高い書類と低い書類とのバラつきを軽減することが可能となる。
具体的には、変形例における画像照合装置5は、図5に例示する機能構成に加え、除外領域変更部520を有する。比較画像生成部512は、書類毎にパターン1の照合しない領域をランダムに作成するが、除外領域変更部520は、既に作成されたパターン1の照合領域を変更する。具体的には、除外領域変更部520は、比較対象から除外される画像領域について、画像領域の数、画像領域の大きさ、及び画像領域の位置のうち、少なくとも一つを変更する。例えば、比較画像生成部512により、一つの書類に対して一つのパターン1の比較画像が生成されており、管理されていた場合、パターン1の比較画像と入力画像を照合する際に、照合しない領域が固定されているため、照合率の高い書類と低い書類とが出てくるが、除外領域変更部520により、既に存在するパターン1の照合しない領域を変更することにより、照合率の高い書類と低い書類とのバラつきを軽減することが可能となる。
本実施形態では、スキャナ3がスキャンした画像を画像照合装置5に送信して画像照合装置5が入力画像と比較画像とを比較しているが、これに限定されず、例えば、スキャナ3に画像照合プログラム50がインストールされ、スキャナ3が画像をスキャンし、入力画像と比較画像とを比較してもよい。
1…画像照合システム
3…スキャナ
5…画像照合装置
50…画像照合プログラム
3…スキャナ
5…画像照合装置
50…画像照合プログラム
Claims (9)
- 同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を互いに関連付けて格納する比較画像格納部と、
前記比較画像格納部に格納されている比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定する一致度判定部と
を有する画像照合装置。 - 前記比較画像格納部は、書類の書式を定義する書式定義情報を、前記比較画像に関連付けて格納し、
前記比較画像格納部に格納されている書式定義情報の中から、前記一致度判定部による判定結果に基づいて、適用する書式定義情報を選択する書式定義選択部と、
前記書式定義選択部により選択された書式定義情報に基づいて、新たに入力された入力画像から情報を抽出する抽出部と
をさらに有する請求項1に記載の画像照合装置。 - 前記一致度判定部により判定された一致度が、いずれの比較画像についても基準以下であった場合に、前記入力画像に対して、互いに異なる領域に加工処理を施して、複数の比較画像を生成する比較画像生成部と、
前記比較画像生成部により生成された複数の比較画像を、前記比較画像格納部に追加登録する比較画像登録部と
をさらに有する請求項1に記載の画像照合装置。 - 前記比較画像生成部は、同一の入力画像に対して、生成される複数の比較画像が互いに異なるデータサイズとなるような加工処理を施す
請求項3に記載の画像照合装置。 - 前記比較画像生成部は、同一の入力画像に対して、互いに異なる領域の画像を削除して、複数の比較画像を生成する
請求項3に記載の画像照合装置。 - 前記比較画像格納部は、前記入力画像と同一の比較画像、前記入力画像の任意の領域が削除された比較画像、前記入力画像から罫線枠内が削除された比較画像、前記入力画像から罫線枠外のみが抽出された比較画像、及び、前記入力画像に含まれる罫線のみを抽出した比較画像、のうち、少なくとも2つを格納している
請求項1に記載の画像照合装置。 - 比較対象から除外される画像領域について、画像領域の数、画像領域の大きさ、及び、画像領域の位置のうち、少なくとも一つを変更する除外領域変更部
をさらに有し、
前記一致度判定部は、前記比較画像の少なくとも一つについて、前記除外領域変更部により変更された画像領域を比較対象から除外して、前記入力画像と前記比較画像とを比較して一致度を判定する
請求項1に記載の画像照合装置。 - 同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を生成するステップと、
前記生成された複数の比較画像を互いに関連付けてデータベースに登録するステップと、
前記データベースに登録された比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定するステップと
を有する画像照合方法。 - 同一の書類の画像データに対して、互いに異なる領域に加工処理を施して生成された複数の比較画像を生成するステップと、
前記生成された複数の比較画像を互いに関連付けてデータベースに登録するステップと、
前記データベースに登録された比較画像それぞれと、新たに入力された入力画像とを比較して、一致度を判定するステップと
をコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/032358 WO2020044537A1 (ja) | 2018-08-31 | 2018-08-31 | 画像照合装置、画像照合方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2020044537A1 true JPWO2020044537A1 (ja) | 2021-03-18 |
Family
ID=69643204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020539985A Pending JPWO2020044537A1 (ja) | 2018-08-31 | 2018-08-31 | 画像照合装置、画像照合方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2020044537A1 (ja) |
WO (1) | WO2020044537A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695517B (zh) * | 2020-06-12 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296676A (ja) * | 1998-04-08 | 1999-10-29 | Oki Electric Ind Co Ltd | 画像データ分類方法および画像データ登録方法 |
JP2002358521A (ja) * | 2001-05-31 | 2002-12-13 | Oki Electric Ind Co Ltd | 帳票フォーマット登録・識別装置、方法及びプログラム |
JP2006127451A (ja) * | 2004-09-30 | 2006-05-18 | Oki Electric Ind Co Ltd | 帳票処理装置 |
JP2010003155A (ja) * | 2008-06-20 | 2010-01-07 | Fujitsu Frontech Ltd | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10222587A (ja) * | 1997-02-07 | 1998-08-21 | Glory Ltd | 帳票類の自動判別方法及び装置 |
JP2005242786A (ja) * | 2004-02-27 | 2005-09-08 | Oki Electric Ind Co Ltd | 帳票識別装置および帳票識別方法 |
JP2009011874A (ja) * | 2007-06-29 | 2009-01-22 | Hitachi Computer Peripherals Co Ltd | 帳票仕分け方法及び該帳票仕分け方法を用いた光学的文字読取システム |
-
2018
- 2018-08-31 JP JP2020539985A patent/JPWO2020044537A1/ja active Pending
- 2018-08-31 WO PCT/JP2018/032358 patent/WO2020044537A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296676A (ja) * | 1998-04-08 | 1999-10-29 | Oki Electric Ind Co Ltd | 画像データ分類方法および画像データ登録方法 |
JP2002358521A (ja) * | 2001-05-31 | 2002-12-13 | Oki Electric Ind Co Ltd | 帳票フォーマット登録・識別装置、方法及びプログラム |
JP2006127451A (ja) * | 2004-09-30 | 2006-05-18 | Oki Electric Ind Co Ltd | 帳票処理装置 |
JP2010003155A (ja) * | 2008-06-20 | 2010-01-07 | Fujitsu Frontech Ltd | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020044537A1 (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943106B2 (en) | Recognizing text in image data | |
US10984233B2 (en) | Image processing apparatus, control method, and non-transitory storage medium that obtain text data for an image | |
JP7013182B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
JP6357621B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP2018205910A (ja) | 計算機、文書識別方法、及びシステム | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
JP6365024B2 (ja) | サービス提供装置、方法、及びプログラム | |
US10803233B2 (en) | Method and system of extracting structured data from a document | |
KR20210038384A (ko) | 데이터 입력을 지원하기 위한 장치, 방법, 및 기억 매체 | |
JP2015046071A (ja) | 画像認識装置、画像認識方法及び画像認識プログラム | |
JP6435934B2 (ja) | 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置 | |
JP5623574B2 (ja) | 帳票識別装置および帳票識別方法 | |
JP6579456B1 (ja) | 検索対象情報絞込システム | |
JPWO2020044537A1 (ja) | 画像照合装置、画像照合方法、及びプログラム | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN113591657B (zh) | Ocr版面识别的方法、装置、电子设备及介质 | |
JP2020030648A (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
JP2016181042A (ja) | 検索装置、方法及びプログラム | |
US11972208B2 (en) | Information processing device and information processing method | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
US20220019835A1 (en) | Image processing system, apparatus, method, and storage medium | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP5272664B2 (ja) | 情報処理装置、画像検索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210625 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211111 |