WO2021117128A1

WO2021117128A1 - 帳票画像処理システム

Info

Publication number: WO2021117128A1
Application number: PCT/JP2019/048267
Authority: WO
Inventors: 福光齊藤
Original assignee: ネットスマイル株式会社
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-17

Abstract

対象帳票画像取得部４２は、処理対象となる帳票画像を取得する。部分画像検索部４３は、１または複数のクエリ条件を含むテンプレートデータに基づいて、そのクエリ条件により指定された検索用部分画像を帳票画像内で検索し、その検索用部分画像に対応する１または複数の部分画像を帳票画像において検出する。文字認識処理部４４は、そのテンプレートデータに基づいて、帳票画像内で検出された各部分画像における、そのクエリ条件により指定された文字認識領域に対して文字認識処理を実行する。

Description

帳票画像処理システム

　本発明は、帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラムに関するものである。

　ある帳票画像処理方法では、帳票のラスター画像に対して文字認識処理が実行され、文字認識処理で得られたテキストデータ（文字コードの配列）で表データが生成される。

　その際、一般的に、ラスター画像において文字認識処理の対象となる領域、その領域に含まれる文字列や数値などのテキストの属性（名称など）などといった帳票レイアウトを定義したテンプレートデータ（あるいはフォーマットデータとも呼ばれる）が使用され、テンプレートデータにより指定された領域に対して文字認識処理が実行される。

　したがって、一般的に、レイアウトが異なる複数の帳票に対して、それぞれの帳票に対応したテンプレートデータが必要になる。

　そのようなテンプレートデータ（フォーマットデータ）を帳票画像から自動的に生成する技術が提案されている。

　あるシステムでは、帳票画像内において罫線で囲まれたカラム領域が検出され、表組み領域内で認識された文字がそのカラム領域の項目名とされ、そのカラム領域の座標値がフォーマットデータとして特定されている（例えば特許文献１参照）。

特開平１１－７３４７２号公報

　しかしながら、上述の技術では、特殊なレイアウトの帳票や、実際の帳票の内容によって位置が変わる項目を有する帳票などから表データを適切に生成することは困難である。

　例えば後述の図２に示すような、１つのカラムにおける各セル内で上下に異なる複数の項目（例えば図２における「受注番号」と「注文番号」）の値が配置されるような複雑なレイアウトの帳票については、１カラムのデータとして複数の項目の値が検出されて混在してしまい、表データが適切に生成されない。

　つまり、受注番号と注文番号とが１つのセルの上下に配列されているため、上述の技術では、受注番号および注文番号が１つのカラムとして認識され、その１つのカラムのデータとして、受注番号の値０００１１１，０００１２０および注文番号の値５１６２－０１，０１８９－１１が分類されるため、表データにおいて、２つの項目の値が１つのカラムにおいて不適切に混在してしまう。

　また、例えば後述の図８に示すような、実際の帳票内の発注件数や受注件数によって位置（表の上下方向での位置）が変わる項目「合計」の値を文字認識し表データに含める場合、上述の技術では、そのような項目のすべての位置に応じた多数のテンプレートデータを使用する必要があり、現実的ではない。つまり、上述の技術では、そのような帳票からそのような項目（例えば、上述の「合計」）の値を文字認識し表データに含めることは困難である。

　本発明は、上記の問題に鑑みてなされたものであり、より多様な帳票から表データを適切に生成することが可能な帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラムを得ることを目的とする。

　本発明に係る帳票画像処理システムは、処理対象となる帳票画像を取得する対象帳票画像取得部と、１または複数のクエリ条件を含むテンプレートデータに基づいて、クエリ条件により指定された検索用部分画像を帳票画像内で検索し、その検索用部分画像に対応する部分画像を帳票画像において検出する部分画像検索部と、テンプレートデータに基づいて、帳票画像内で検出された部分画像における、クエリ条件により指定された文字認識領域に対して文字認識処理を実行する文字認識処理部とを備える。

　本発明に係る帳票画像処理方法は、処理対象となる帳票画像を取得するステップと、１または複数のクエリ条件を含むテンプレートデータに基づいて、クエリ条件により指定された検索用部分画像を帳票画像内で検索し、その検索用部分画像に対応する部分画像を帳票画像において検出するステップと、テンプレートデータに基づいて、帳票画像内で検出された部分画像における、クエリ条件により指定された文字認識領域に対して文字認識処理を実行するステップとを備える。

　本発明に係る帳票画像処理プログラムは、コンピューターを、上述の対象帳票画像取得部、上述の部分画像検索部、および上述の文字認識処理部として機能させる。

　本発明によれば、より多様な帳票から表データを適切に生成することが可能な帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラムが得られる。

　本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係る帳票画像処理システムの構成を示すブロック図である。図２は、サンプル帳票画像の一例（一部）を示す図である。図３は、図２に示すサンプル帳票画像上で、ユーザーにより指定されたクエリ領域およびそのクエリ領域内の文字認識領域の一例を示す図である。図４は、クエリ条件の構成要素について説明する図である。図５は、クエリ条件を含むテンプレートデータの一例について説明する図である。図６は、処理対象となる帳票画像の一例（一部）を示す図である。図７は、クエリ条件に従って図６に示す帳票画像で検出された部分画像内の文字認識領域の一例を示す図である。図８は、サンプル帳票画像の別の例（一部）、およびそのサンプル帳票画像上で、ユーザーにより指定されたクエリ領域およびそのクエリ領域内の文字認識領域の一例を示す図である。図９は、図７に示す文字認識領域に対する文字認識処理で得られたテキストデータに基づき生成された表データの一例を示す図である。図１０は、実施の形態１に係るシステムにおけるテンプレートデータ生成処理について説明するフローチャートである。図１１は、実施の形態１に係るシステムにおける帳票画像処理について説明するフローチャートである。

　以下、図に基づいて本発明の実施の形態を説明する。

実施の形態１．

　図１は、本発明の実施の形態に係る帳票画像処理システムの構成を示すブロック図である。図１に示す帳票画像処理システムは、１台の情報処理装置（コンピューターなど）に実装されているが、そのシステムにおける後述の処理部を、互いにデータ通信可能な複数の情報処理装置に分散させて実装されるようにしてもよい。また、そのような複数の情報処理装置には、特定の演算を並列処理するＧＰＵ（Graphics Processing Unit）が含まれていてもよい。

　図１に示すシステムは、記憶装置１、入力装置２、表示装置３、通信装置４、画像読取装置５、および演算処理装置６を備える。

　記憶装置１は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。入力装置２および表示装置３は、ユーザーインターフェイスであって、入力装置２は、ユーザー操作を検出し電気信号として出力するキーボード、マウス、タッチパネルなどであり、表示装置３は、ユーザーに対して操作画面などを表示する液晶ディスプレイなどである。

　この実施の形態では、記憶装置１に、帳票画像処理プログラム１１が格納されている。記憶装置１には、必要に応じて、１または複数の後述のテンプレートデータが格納される。なお、帳票画像処理プログラム１１は、ＣＤ（Compact Disk）などの可搬性のあるコンピュータ読み取り可能な記録媒体に格納されていてもよい。その場合、例えば、その記録媒体から記憶装置１へプログラム１１がインストールされる。また、プログラム１１は、１つのプログラムでも、複数のプログラムの集合体でもよい。

　通信装置４は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。

　画像読取装置５は、帳票から帳票画像を光学的に読み取り、帳票画像の画像データ（ラスタイメージデータなど）を生成する。例えば、画像読取装置５は、ＵＳＢ（Universal Serial Bus）などの周辺機器インターフェイスで接続されたスキャナー、ネットワークスキャナーなどである。

　ここで、帳票とは、例えば、各種取引に関する物品、サービス、対価としての金銭などの明細が所定のレイアウトで記載された書類（例えば、発注書、納品書、請求書、領収書など）である。帳票のレイアウトは、取引企業ごとに異なることが多いが、各取引企業は、一定のレイアウトの帳票を使うことが多い。また、帳票のレイアウトが上述のような複雑なレイアウトである場合や、帳票のレイアウトが上述のように帳票の内容によって変わる場合がある。帳票のレイアウト内の各項目の値の位置は、変わらないものが多いが、上述のように、特定の項目は、内容によって変わる。

　演算処理装置６は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などを備えるコンピューターであって、プログラムを、ＲＯＭ、記憶装置１などからＲＡＭにロードしＣＰＵで実行することで、各種処理部として動作する。ここでは、プログラム１１を実行することで、演算処理装置６は、テンプレートデータ生成部２１、および帳票画像処理部２２として動作する。

　テンプレートデータ生成部２１は、帳票画像処理の対象となる帳票画像と同一様式のレイアウトを有するサンプル帳票画像から、その様式のレイアウトに対応するテンプレートデータを生成する。例えば、ある様式のレイアウトを有する複数の帳票のうちの１つの帳票画像がサンプル帳票画像とされる。テンプレートデータ生成部２１は、サンプル帳票画像取得部３１、クエリ条件設定部３２、カラム定義部３３、およびテンプレートデータ生成部３４を備える。

　サンプル帳票画像取得部３１は、上述のサンプル帳票画像を取得する。例えば、サンプル帳票画像取得部３１は、記憶装置１に格納されている画像データとしてのサンプル帳票画像を読み出したり、図示せぬサーバーやホスト装置から通信装置４により受信された画像データとしてのサンプル帳票画像を取得したり、画像読取装置５によりある帳票から生成された画像データとしてのサンプル帳票画像を取得したりする。

　クエリ条件設定部３２は、（ａ）サンプル帳票画像において、ユーザー操作で指定されたクエリ領域およびそのクエリ領域内の文字認識領域を特定し、（ｂ）サンプル帳票画像におけるクエリ領域の画像を検索用部分画像として抽出し、（ｃ）検索用部分画像および文字認識領域（つまり、検索用部分画像内での文字認識領域の位置とサイズ）を示すクエリ条件を生成する。

　図２は、サンプル帳票画像の一例（一部）を示す図である。図３は、図２に示すサンプル帳票画像上で、ユーザーにより指定されたクエリ領域およびそのクエリ領域内の文字認識領域の一例を示す図である。図４は、クエリ条件の構成要素について説明する図である。

　具体的には、クエリ条件設定部３２は、例えば図２に示すようなサンプル帳票画像を表示装置３に表示する。ユーザーは、入力装置２を操作して、サンプル帳票画像上で、所望の領域をクエリ領域として指定する。クエリ条件設定部３２は、例えば図３に示すように、そのユーザー操作を入力装置２で検出してクエリ領域（つまり、クエリ領域の位置およびサイズ）を特定する。例えば、クエリ領域は、矩形領域であり、その矩形領域の対角線上の２頂点の座標値が特定される。あるいは、矩形領域としてのクエリ領域の１頂点の座標値、並びに横方向および縦方向のサイズが特定される。

　さらに、ユーザーは、入力装置２を操作して、そのクエリ領域に対応して、そのクエリ領域内の１または複数の所望の領域を、文字認識領域として指定する。クエリ条件設定部３２は、例えば図３に示すように、そのユーザー操作を入力装置２で検出して文字認識領域（つまり、文字認識領域の位置およびサイズ）を特定する。例えば、各文字認識領域は、矩形領域であり、その矩形領域の対角線上の２頂点の座標値が特定される。あるいは、矩形領域としての各文字認識領域の１頂点の座標値、並びに横方向および縦方向のサイズが特定される。

　このようにして、例えば図４に示すように、検索用部分画像および文字認識領域（つまり、検索用部分画像内での文字認識領域の位置とサイズ）を示すクエリ条件が得られる。

　さらに、この実施の形態では、クエリ条件設定部３２は、各クエリ条件に、クエリタイプを含める。そのクエリタイプは、第１クエリタイプまたは第２クエリタイプである。

　第１クエリタイプは、帳票画像処理での画像検索において、検索用部分画像に対応する所定個数Ｎ（例えばＮ＝１）の部分画像を帳票画像において検出させる。なお、第１クエリタイプにおいて、複数の異なる個数Ｎに対応させる場合には、上述の個数Ｎもクエリ条件に含められる。

　第２クエリタイプは、帳票画像処理での画像検索において、検索用部分画像に対応するすべての部分画像を帳票画像において検出させる。

　カラム定義部３３は、クエリ領域内に設定された各文字認識領域にカラム属性を関連付ける。ユーザーは、入力装置２を操作して、各文字認識領域に対応して、帳票画像処理でその文字認識領域から得られたテキストデータが配列されるカラムのカラム属性（カラムの見出し、そのカラムのデータ種別（数値、文字列、金額など）など）を入力する。カラム定義部３３は、そのように、ユーザー操作で指定されたカラム属性を特定し、各文字認識領域に関連付ける。

　テンプレートデータ生成部３４は、上述のようにして生成された１または複数のクエリ条件（およびカラム属性）を含むテンプレートデータを生成し、所定の記憶装置（記憶装置１、図示せぬサーバーなど）に記憶する。

　図５は、クエリ条件を含むテンプレートデータの一例について説明する図である。

　例えば図５に示すように、テンプレートデータは、１または複数のクエリ条件レコードを含む。１つのクエリ条件レコードは、１つのクエリ条件に対応する。クエリ条件レコードは、クエリ領域ＩＤ、クエリタイプ、検索用部分画像ファイルへのファイルパス、および文字認識領域リストを含む。文字認識領域リストは、文字認識領域データへのリンク（参照）を含む。１つの文字認識領域データは、１つの文字認識領域の位置情報（検索用部分画像の基準位置（所定の頂点）からの相対的な文字認識領域の位置（画素数））を示す。

　なお、検索用部分画像は検索用部分画像ファイルとしてテンプレートデータとともに記憶される。

　図１に戻り、帳票画像処理部２２は、処理対象の帳票画像と同一様式のレイアウトを有するサンプル帳票から生成されたテンプレートデータを使用して、その処理対象の帳票画像に対して帳票画像処理を実行する。帳票画像処理部２２は、テンプレートデータ選択部４１、対象帳票画像取得部４２、部分画像検索部４３、文字認識処理部４４、および表データ生成部４５を備える。

　テンプレートデータ選択部４１は、例えば入力装置２に対するユーザー操作に従って、記憶装置１または図示せぬサーバーに記憶されている１または複数のテンプレートデータから、処理対象の帳票画像に応じた１つのテンプレートデータを選択し読み出す。

　このテンプレートデータは、１または複数のクエリ条件を含む。

　対象帳票画像取得部４２は、処理対象となる帳票画像を取得する。例えば、対象帳票画像取得部４２は、記憶装置１に格納されている画像データとしての帳票画像を読み出したり、図示せぬサーバーやホスト装置から通信装置４により受信された画像データとしての帳票画像を取得したり、画像読取装置５により帳票から生成された画像データとしての帳票画像を取得したりする。

　部分画像検索部４３は、選択されたテンプレートデータに基づいて、そのテンプレートデータに含まれているクエリ条件により指定された検索用部分画像を、取得された帳票画像内で検索し、その検索用部分画像に対応する部分画像をその帳票画像において検出する。

　具体的には、部分画像検索部４３は、帳票画像において、部分画像と同一サイズの注目領域を１画素ずつ移動させていき、各位置での帳票画像の注目領域と検索用部分画像との類似度を計算し、その類似度に基づいて、検索用部分画像に対応する部分画像を検出する。例えば、この類似度は、画像の特徴量に基づき計算される。例えば、この類似度は、既存の計算方法（ＳＳＤ（Sum of Squared Difference）法、ＳＡＤ（Sum of Absolute Difference）法、ＮＣＣ（Normalized Cross Correlation）法、ＺＮＣＣ（Zero means Normalized Cross Correlation）法など）で計算される。

　また、この実施の形態では、部分画像検索部４３は、（ａ）クエリ条件のクエリタイプが第１クエリタイプである場合には、上述の類似度が最も大きいほうから所定個数Ｎの部分画像を検出し、（ｂ）クエリ条件のクエリタイプが第２クエリタイプである場合には、上述の類似度が所定閾値を超えている部分画像をすべて検出する。なお、この閾値は、例えば、テンプレートデータ生成時に、ユーザー操作に従って指定され、クエリ条件に含められる。あるいは、この閾値は、帳票画像処理時にユーザー操作に従って設定される。

　図６は、処理対象となる帳票画像の一例（一部）を示す図である。図７は、図４に示すクエリ条件に従って図６に示す帳票画像で検出された部分画像内の文字認識領域の一例を示す図である。図８は、サンプル帳票画像の別の例（一部）、およびそのサンプル帳票画像上で、ユーザーにより指定されたクエリ領域およびそのクエリ領域内の文字認識領域の一例を示す図である。

　なお、通常、図６に示すように、同一様式のレイアウトの帳票は、図６に示すように、あるカラムにおけるセル内でのテキスト（数値）画像の位置が略同一になるように作成される。

　例えば図４に示すクエリ条件（検索用部分画像および文字認識領域）で図６に示す帳票画像内の部分画像が検索されると、第２クエリタイプの場合、例えば図７に示すように、６つの部分画像が検出される。

　例えば図６に示すような不定数の行におけるテキストを表データに含めたい場合には、帳票によって行の数が異なるため、第２クエリタイプが指定され、そのような不定数の行の部分画像がすべて検出される。

　一方、一定数（上述のＮ個）の行におけるテキストを表データに含めたい場合には、第１クエリタイプが指定され、特定の数の行の部分画像が検出される。例えば図８に示す「合計」のような位置が不定である行におけるテキストを表データに含めたい場合でも、画像検索によって自動的に位置が特定され、そのような行の部分画像が検出される。したがって、１つのテンプレートデータで、そのような位置不定な行がどの位置になっても、その行の部分画像が検出される。

　文字認識処理部４４は、テンプレートデータに基づいて、帳票画像内で検出された部分画像において、クエリ条件により指定された文字認識領域を特定し、その文字認識領域に対して文字認識処理を実行する。

　表データ生成部４５は、帳票画像処理において、文字認識処理で得られたテキストデータを有する表データを所定のデータ形式（例えばＣＳＶ（Character-Separated Values）など）で生成する。

　図９は、図７に示す文字認識領域に対する文字認識処理で得られたテキストデータに基づき生成された表データの一例を示す図である。例えば図７に示すように文字認識領域が特定された場合、図６に示す帳票から図９に示すような表データが生成される。

　例えば図７に示すような１つのセルの上下に複数項目（受注番号と注文番号）の値が配列されていても、図９に示すように、それらの項目に対して、１つずつ別々のカラムのデータが生成される。

　ここで、１つのテンプレートデータに複数のクエリ条件が含まれている場合、表データ生成部４５は、それぞれのクエリ条件に対応して複数の表データを生成するようにしてもよいし、それぞれのクエリ条件に対応する複数の表データを１つの表データに統合するようにしてもよい。その場合、複数の表データを縦方向に連結して１つの表データに統合するようにしてもよいし、複数の表データを横方向に連結して１つの表データに統合するようにしてもよい。

　なお、上述のテンプレートデータ生成部２１と帳票画像処理部２２とを別々の情報処理装置（サーバー、パーソナルコンピューターなど）に実装してもよく、１台の情報処理装置（サーバー、パーソナルコンピューターなど）に、テンプレートデータ生成部２１および帳票画像処理部２２の一方のみを実装してもよい。

　また、ここで、サンプル帳票および帳票はデジタルデータでもよく、サンプル帳票画像および帳票画像は、そのデジタルデータとしてのサンプル帳票および帳票からそれぞれ得られたもの（ラスター画像など）でもよい。

　次に、実施の形態１に係るシステムの動作について説明する。

　一連の帳票に対して帳票画像処理を実行して表データを生成したい場合、まず、その一連の帳票からサンプル帳票が選択され、そのサンプル帳票から得られるサンプル帳票画像に対してテンプレートデータ生成処理が実行され、その後、テンプレートデータ生成処理で生成されたテンプレートデータを使用して、一連の帳票の帳票画像に対して帳票画像処理が順番に行われ、自動的に表データが生成される。

　ここで、テンプレートデータ生成処理および帳票画像処理について説明する。

（ａ）テンプレートデータ生成処理

　図１０は、実施の形態１に係るシステムにおけるテンプレートデータ生成処理について説明するフローチャートである。

　ユーザーは、サンプル帳票画像を選択し、入力装置２を使用して指定する。例えば、ユーザーは、サンプル帳票を選択し、画像読取装置５にセットし、画像読取装置５に、サンプル帳票からサンプル帳票画像を読み取らせる。あるいは、例えば、ユーザーは、入力装置２を使用して、保存されている帳票画像のリストからサンプル帳票画像を選択する。サンプル帳票画像取得部３１は、ユーザーにより指定されたサンプル帳票画像の画像データを取得する（ステップＳ１）。

　クエリ条件設定部３２は、その画像データに基づき、サンプル帳票画像を表示装置３に表示する。サンプル帳票画像が表示されると、ユーザーは、入力装置２を操作して、サンプル帳票画像上で、所望の矩形領域をクエリ領域として指定する。例えば、ユーザーは、このとき、文字認識すべきテキスト画像部分の他、そのテキスト画像部分を囲む罫線などといった不変部分（つまり、複数帳票の間で内容が変わらない部分）が含まれるように、クエリ領域を指定する。クエリ条件設定部３２は、そのユーザー操作に基づいて、指定されたクエリ領域（クエリ領域の位置およびサイズ）を特定し（ステップＳ２）、サンプル帳票画像から、特定したクエリ領域の部分画像を、検索用部分画像として抽出する（ステップＳ３）。

　例えば、クエリ条件設定部３２は、クエリ領域を示す枠線を、サンプル帳票画像に重畳して表示する。これにより、ユーザーは、サンプル帳票画像上で、クエリ領域を視認できる。

　次に、ユーザーは、表示されているサンプル帳票画像上で、指定したクエリ領域内部の所望の矩形領域を、文字認識領域として指定する。例えば、ユーザーは、このとき、文字認識すべきテキスト画像部分が含まれ、罫線などの他のオブジェクトが含まれないように、文字認識領域を指定する。クエリ条件設定部３２は、そのユーザー操作に基づいて、指定された文字認識領域を特定する（ステップＳ４）。この文字認識領域は、クエリ領域（つまり、検索用部分画像）内での、クエリ領域（つまり、検索用部分画像）内の所定の基準点からの相対位置およびサイズを特定可能なデータ（例えば、文字認識領域の２頂点の相対位置の座標値、文字認識領域の１頂点の相対位置の座標値と縦および横のサイズとの対など）で表される。例えば、この相対位置は、基準点からの距離で表され、この距離およびサイズは、画素数で表される。１つの文字認識領域は、後述の表データにおける１つのカラムに対応する。

　このようにして、文字認識領域が特定されると、クエリ条件設定部３２は、指定された文字認識領域に対応するカラムのカラム属性（カラムの見出し、データ種別など）を入力するためのダイアログなどを表示装置３に表示する。ユーザーは、入力装置２を操作して、そのダイアログなどに対して、カラム属性（自由テキストとしてのカラム見出し、リストから選択されたデータ種別など）を入力する。クエリ条件設定部３２は、入力されたカラム属性を特定し、その文字認識領域に関連付ける（ステップＳ５）。

　さらに、クエリ条件設定部３２は、現在設定中のクエリ条件のクエリタイプを入力するためのダイアログなどを表示装置３に表示する。ユーザーは、入力装置２を操作して、そのダイアログなどに対して、クエリタイプを入力する。クエリ条件設定部３２は、入力されたクエリタイプを特定し、当該クエリ条件に関連付ける（ステップＳ６）。

　クエリ条件設定部３２は、指定されたクエリ領域について、上述のように特定された（ａ）検索用部分画像、（ｂ）文字認識領域データ（相対位置情報、サイズ情報、カラム属性など）、および（ｃ）クエリタイプで、クエリ条件レコードを生成し、当該サンプル帳票画像に対するテンプレートデータに追加する（ステップＳ７）。

　このようにして、１つのクエリ条件が設定されると、クエリ条件設定部３２は、例えば、別のクエリ条件を設定するか否かを入力するためのダイアログを表示装置３に表示する。ユーザーは、別のクエリ条件を設定するか否かを選択して、入力装置２でダイアログに入力する。

　クエリ条件設定部３２は、別のクエリ条件を設定するか否かを、このようなユーザー操作などに従って判定する（ステップＳ８）。

　クエリ条件設定部３２は、別のクエリ条件を設定すると判定した場合、ステップＳ２に戻り、当該サンプル帳票画像についての別のクエリ条件の設定を行う（ステップＳ２～Ｓ７）。

　一方、クエリ条件設定部３２は、別のクエリ条件を設定しないと判定した場合、これまでに設定されたクエリ条件を示すクエリ条件レコードおよび検索用部分画像ファイルで、当該サンプル帳票画像に対するテンプレートデータを生成し（ステップＳ９）、１つのファイルとして記憶装置１などに格納したり、図示せぬデータベースに登録したりする。

　このようにして、ユーザー所望のテンプレートデータが生成され保存される。

（ｂ）帳票画像処理

　図１１は、実施の形態１に係るシステムにおける帳票画像処理（処理対象の帳票画像から表データを生成する処理）について説明するフローチャートである。

　１または複数のテンプレートデータが準備された後、ユーザーは、帳票画像処理の対象となる帳票（帳票画像）と同一のレイアウトを有するサンプル帳票（サンプル帳票画像）から得られたテンプレートデータを選択し、そのテンプレートデータで帳票画像処理を実行させる。

　テンプレートデータ選択部４１は、保存されているテンプレートデータのリストを表示装置３に表示し、そのリストにおいてユーザー操作により選択されたテンプレートデータを読み出す（ステップＳ１１）。

　次に、ユーザーは、処理対象の帳票画像を選択し、入力装置２を使用して指定する。例えば、ユーザーは、処理対象の帳票を選択し、画像読取装置５にセットし、画像読取装置５に、その帳票から帳票画像を読み取らせる。あるいは、例えば、ユーザーは、入力装置２を使用して、保存されている帳票画像のリストから処理対象の帳票画像を選択する。対象帳票画像取得部４２は、ユーザーにより指定された帳票画像の画像データを取得する（ステップＳ１２）。

　なお、適用されるテンプレートデータのサンプル帳票画像の解像度と同じ解像度の帳票画像が取得される。

　そして、部分画像検索部４３は、選択されたテンプレートデータ内の未処理（未選択）のクエリ条件を１つ選択し（ステップＳ１３）、選択したクエリ条件により指定されている検索用部分画像を検索キーとして、取得された帳票画像において画像検索を上述のように実行する（ステップＳ１４）。

　文字認識処理部４４は、取得された帳票画像において、その画像検索で発見された部分画像における文字認識領域を、クエリ条件内の文字認識領域の位置情報およびサイズ情報に基づいて特定し（ステップＳ１５）、その文字認識領域の画像に対して文字認識処理を実行し、その文字認識領域に含まれるテキスト画像に対応するテキストデータ（文字コード）を特定する（ステップＳ１６）。なお、このとき、文字認識領域のカラム属性で指定されているデータ種別を考慮して文字認識処理を実行するようにしてもよい。

　文字認識処理部４４は、各文字認識領域に対応して得られた１または複数のテキストデータを、１つのカラムで配列されるテキストデータとして互いに関連付ける。

　そして、表データ生成部４５は、１または複数の文字認識領域に対応して得られた１または複数のカラムのデータから、所定のデータ形式で表データを生成する（ステップＳ１７）。

　部分画像検索部４３は、選択されたテンプレートデータ内のすべてのクエリ条件が処理されたか否かを判定し（ステップＳ１８）、少なくとも１つのクエリ条件が処理されていない場合には、ステップＳ１３に戻り、同様の処理（ステップＳ１３～Ｓ１６）を、文字認識処理部４４とともに実行し、表データ生成部４５は、新たに生成されたカラムのデータを表データに追加する（ステップＳ１７）。あるいは、すべてのクエリ条件の処理が完了した後に、その処理で得られたカラムのデータから表データを一括して生成するようにしてもよい。

　一方、部分画像検索部４３は、選択されたテンプレートデータ内のすべてのクエリ条件が処理されたと判定した場合、当該帳票画像に対する帳票画像処理は終了する。

　このようにして、ユーザーにより指定された帳票画像に対して、対応するテンプレートデータを使用した帳票画像処理が実行され、その帳票画像に対応する表データが得られる。

　なお、テンプレートデータが生成されているレイアウトの帳票については、テンプレートデータ生成処理を再度実行する必要はなく、保存されているテンプレートデータを使用して帳票画像処理が実行される。

　以上のように、上記実施の形態１によれば、対象帳票画像取得部４２は、処理対象となる帳票画像を取得する。部分画像検索部４３は、１または複数のクエリ条件を含むテンプレートデータに基づいて、そのクエリ条件により指定された検索用部分画像を帳票画像内で検索し、その検索用部分画像に対応する１または複数の部分画像を帳票画像において検出する。文字認識処理部４４は、そのテンプレートデータに基づいて、帳票画像内で検出された各部分画像における、そのクエリ条件により指定された文字認識領域に対して文字認識処理を実行する。

　これにより、テンプレートデータにおけるクエリ条件で指定された検索用部分画像に対応して検出された、帳票画像内の部分画像内で、クエリ条件に基づき文字認識領域が特定されるため、複雑なレイアウトの帳票画像でも、所望のカラム配列で表データを生成することができる。したがって、より多様な帳票から表データが適切に生成される。

実施の形態２．

　実施の形態２に係る帳票画像処理システムでは、表データ生成部４５は、上述のように、１つの文字認識領域に対応して文字認識処理で得られたテキストデータを１つのカラムとし、その１つの文字認識領域に関連付けられているカラム属性に基づいて１つのカラムの見出しを設定しており、さらに、複数のクエリ条件の文字認識領域に対応して同一の見出しの複数のカラムがある場合には、その複数のカラムを１つのカラムに統合する。

　なお、実施の形態２に係る帳票画像処理システムのその他の構成および動作については実施の形態１と同様であるので、その説明を省略する。

実施の形態３．

　実施の形態３に係る帳票画像処理システムでは、テンプレートデータ生成部２１は、（ａ）サンプル帳票画像の解像度を所定の解像度に低下させ、（ｂ）その所定の解像度に低下させたサンプル帳票画像におけるクエリ領域の画像を検索用部分画像として抽出する。

　また、実施の形態３に係る帳票画像処理システムでは、部分画像検索部４３は、（ｃ）帳票画像をデフォルト解像度からその所定の解像度に低下させ、（ｄ）その所定の解像度に低下させた帳票画像内で検索用部分画像を検索し、検索用部分画像に対応する部分画像を、その所定の解像度に低下させた帳票画像において検出し、文字認識処理部４４は、テンプレートデータに基づいて、検出された部分画像における文字認識領域を特定し、デフォルト解像度での文字認識領域に対して文字認識処理を実行する。

　なお、実施の形態３に係る帳票画像処理システムのその他の構成および動作については実施の形態１または実施の形態２と同様であるので、その説明を省略する。

　以上のように、上記実施の形態３によれば、部分画像検索部４３における画像検索が縮小画像で行われるため、検索用画像検索に対応する、帳票画像内の部分画像が、短時間で検出される。

　なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

　例えば、上記実施の形態１，２，３において、表データ生成部４５は、文字認識処理の結果として文字コード（テキストデータ）が得られなかった場合には、対応するセルに、値なしを示すダミーデータ（第１ダミーデータ）を挿入してもよく、また、表データ生成部４５は、複数のクエリ条件による表データを合成した際に、あるクエリ条件で得られたカラムが、別のクエリ条件で得られない場合には、当該カラムにおいて、当該別のクエリ条件の表データに対応するセルには、ダミーデータ（第２ダミーデータ）を挿入してもよい。さらに、上述の第１ダミーデータおよび第２ダミーデータは、互いに異なる定型のテキストとされてもよい。そのようにすることで、表データにおいて、本来的にデータがないセルか、文字認識結果で値が得られなかったセルかが明確区別されて、ユーザーに認識される。

　また、上記実施の形態１，２，３において、帳票画像の文字認識領域に対して文字認識処理を実行する前に、文字認識領域の境界（枠）と帳票画像内のオブジェクト（文字認識対象のテキスト画像）とが交差している場合には、当該オブジェクトが文字認識領域内の収まるように文字認識領域を調整するようにしてもよい。

　さらに、上記実施の形態１，２，３において、サンプル帳票画像の形状と、帳票画像処理の対象となる帳票画像の形状とが一致しない場合、帳票画像処理において、両者が一致するように、処理対象となる帳票画像の拡大、縮小、回転などを適宜行うようにしてもよい。

　さらに、上記実施の形態１，２，３では、帳票画像処理の対象となる帳票（帳票画像）に対応してユーザー操作に従って手動でテンプレートデータが選択されるが、その代わりに、テンプレートデータ選択部４１が、帳票画像処理の対象となる帳票画像とサンプル帳票画像との類似度に基づいて、類似度が最大であるサンプル帳票画像に対応するテンプレートデータを自動的に選択するようにしてもよい。その場合、例えば、（ａ）テンプレートデータ生成部３４が、テンプレートデータ生成時に、対応するサンプル帳票画像を画像ファイルとしてそのテンプレートデータに関連付けて所定の記憶装置に保存しておき、（ｂ）テンプレートデータ選択部４１が、帳票画像処理の対象となる帳票画像の帳票画像処理の前に、帳票画像処理の対象となる帳票画像と、保存されている１または複数のテンプレートデータに対応するサンプル帳票画像との類似度を計算し、類似度が最大であるサンプル帳票画像に対応する１つのテンプレートデータを選択し、（ｃ）選択されたテンプレートデータを使用して帳票画像処理が実行される。その際、処理対象の帳票画像とサンプル帳票画像とをそれぞれ所定の倍率で縮小し、縮小後の処理対象の帳票画像と縮小後のサンプル帳票画像との類似度を、処理対象の帳票画像とサンプル帳票画像との類似度として計算するようにしてもよい。さらに、その際、縮小後の処理対象の帳票画像と縮小後のサンプル帳票画像とをそれぞれ２値画像に変換し、２値画像としての縮小後の処理対象の帳票画像と２値画像としての縮小後のサンプル帳票画像との類似度を、処理対象の帳票画像とサンプル帳票画像との類似度として計算するようにしてもよい。なお、ここでは、例えば、処理対象の帳票画像（縮小前、縮小後、または縮小かつ２値化後のもの）とサンプル帳票画像（縮小前、縮小後、または縮小かつ２値化後のもの）とを画素ごとに比較し、画素値が一致する画素の数（あるいはその画素数に対応する数）を類似度として計算する。また、テンプレートデータと関連付けて保存するサンプル帳票画像として、縮小前、縮小後、または縮小かつ２値化後のものを予め生成して使用するようにしてもよい。

　本発明は、例えば、帳票画像に対応する表データの生成に適用可能である。

Claims

　処理対象となる帳票画像を取得する対象帳票画像取得部と、
　１または複数のクエリ条件を含むテンプレートデータに基づいて、前記クエリ条件により指定された検索用部分画像を前記帳票画像内で検索し、前記検索用部分画像に対応する部分画像を前記帳票画像において検出する部分画像検索部と、
　前記テンプレートデータに基づいて、前記帳票画像内で検出された前記部分画像における、前記クエリ条件により指定された文字認識領域に対して文字認識処理を実行する文字認識処理部と、
　を備えることを特徴とする帳票画像処理システム。
　前記テンプレートデータを生成するテンプレートデータ生成部をさらに備え、
　前記テンプレートデータ生成部は、（ａ）サンプル帳票画像において、ユーザー操作で指定されたクエリ領域および前記クエリ領域内の前記文字認識領域を特定し、（ｂ）前記サンプル帳票画像における前記クエリ領域の画像を前記検索用部分画像として抽出し、（ｃ）前記検索用部分画像および前記文字認識領域を示す前記クエリ条件を生成すること、
　を特徴とする請求項１記載の帳票画像処理システム。
　前記クエリ条件は、クエリタイプとして、前記検索用部分画像に対応する所定個数の部分画像を前記帳票画像において検出させる第１クエリタイプおよび前記検索用部分画像に対応するすべての部分画像を前記帳票画像において検出させる第２クエリタイプのいずれかを有し、
　前記部分画像検索部は、（ａ）前記帳票画像において、前記部分画像と同一サイズの注目領域を１画素ずつ移動させていき、各位置での前記帳票画像の前記注目領域と前記検索用部分画像との類似度を計算し、（ｂ１）前記クエリ条件のクエリタイプが前記第１クエリタイプである場合には、前記類似度が最も大きいほうから前記所定個数の前記部分画像を検出し、（ｂ２）前記クエリ条件のクエリタイプが前記第２クエリタイプである場合には、前記類似度が所定閾値を超えている前記部分画像をすべて検出すること、
　を特徴とする請求項１記載の帳票画像処理システム。
　前記文字認識処理で得られたテキストデータを有する表データを生成する表データ生成部をさらに備え、
　前記テンプレートデータは、前記文字認識領域に関連付けてカラム属性を有し、
　前記表データ生成部は、（ａ）１つの文字認識領域に対応して前記文字認識処理で得られたテキストデータを１つのカラムとし、（ｂ）前記１つの文字認識領域に関連付けられている前記カラム属性に基づいて前記１つのカラムの見出しを設定し、（ｃ）複数の前記クエリ条件の前記文字認識領域に対応して同一の見出しの複数のカラムがある場合には、前記複数のカラムを１つのカラムに統合すること、
　を特徴とする請求項１記載の帳票画像処理システム。
　前記テンプレートデータ生成部は、（ａ）前記サンプル帳票画像の解像度を所定の解像度に低下させ、（ｂ）前記所定の解像度に低下させた前記サンプル帳票画像における前記クエリ領域の画像を前記検索用部分画像として抽出し、
　前記部分画像検索部は、（ｃ）前記帳票画像をデフォルト解像度から前記所定の解像度に低下させ、（ｄ）前記所定の解像度に低下させた前記帳票画像内で前記検索用部分画像を検索し、前記検索用部分画像に対応する部分画像を、前記所定の解像度に低下させた前記帳票画像において検出し、
　前記文字認識処理部は、前記テンプレートデータに基づいて、前記部分画像における前記文字認識領域を特定し、前記デフォルト解像度での前記文字認識領域に対して文字認識処理を実行すること、
　を特徴とする請求項１記載の帳票画像処理システム。
　処理対象となる帳票画像を取得するステップと、
　１または複数のクエリ条件を含むテンプレートデータに基づいて、前記クエリ条件により指定された検索用部分画像を前記帳票画像内で検索し、前記検索用部分画像に対応する部分画像を前記帳票画像において検出するステップと、
　前記テンプレートデータに基づいて、前記帳票画像内で検出された前記部分画像における、前記クエリ条件により指定された文字認識領域に対して文字認識処理を実行するステップと、
　を備えることを特徴とする帳票画像処理方法。
　コンピューターを、
　処理対象となる帳票画像を取得する対象帳票画像取得部、
　１または複数のクエリ条件を含むテンプレートデータに基づいて、前記クエリ条件により指定された検索用部分画像を前記帳票画像内で検索し、前記検索用部分画像に対応する部分画像を前記帳票画像において検出する部分画像検索部、および
　前記テンプレートデータに基づいて、前記帳票画像内で検出された前記部分画像における、前記クエリ条件により指定された文字認識領域に対して文字認識処理を実行する文字認識処理部
　として機能させる帳票画像処理プログラム。