WO2021186642A1

WO2021186642A1 - 画像処理装置、制御方法及び制御プログラム

Info

Publication number: WO2021186642A1
Application number: PCT/JP2020/012108
Authority: WO
Inventors: 貴彦深澤
Original assignee: 株式会社Pfu
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2021-09-23

Abstract

帳票画像から検出対象の文字列を精度良く検出することが可能な画像処理装置、制御方法、制御プログラムを提供する。画像処理装置は、帳票画像を取得する取得部と、帳票画像から複数の文字列を検出する文字列検出部と、複数の文字列毎に属性を割り当てる割当部と、帳票画像内の複数の文字列の位置関係と、複数の文字列に割り当てた属性とに基づいて、複数の文字列を複数のグループに分類する分類部と、複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、複数のグループの中で評価値が最も高いグループを対象グループとして検出する対象グループ検出部と、対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出する対象文字列検出部と、対象文字列に関する情報を出力する出力部と、を有する。

Description

画像処理装置、制御方法及び制御プログラム

　本開示は、画像処理装置、制御方法及び制御プログラムに関し、特に、帳票画像から文字列を検出する画像処理装置、制御方法及び制御プログラムに関する。

　請求書等の帳票を担当者が手作業によりデータ化している会社では、膨大な数の帳票のデータ化が必要である場合に担当者の業務負担が大きくなるため、帳票のデータ化作業の効率化に対する要望が高まっている。担当者の業務負担を軽減させるために、このような帳票のデータ化を行う画像処理装置では、帳票画像から必要な文字列を精度良く検出することが望まれている。

　帳票文書について、文字の配置に基づき文字間の連接候補関係を抽出し、抽出した文字間連接関係に基づき項目名である可能性が高い連接関係を抽出し、抽出した連接関係に基づき、項目名文字列領域候補を抽出する文書処理装置が開示されている（特許文献１）。この文書処理装置は、項目名文字列領域候補が項目名文字列であるか否かを判定する。

国際公開第２０１６／０４６９８８号

　画像処理装置では、帳票画像から検出対象の文字列を精度良く検出することが望まれている。

　画像処理装置、制御方法及び制御プログラムの目的は、帳票画像から検出対象の文字列を精度良く検出することを可能とすることにある。

　実施形態の一側面に係る画像処理装置は、帳票画像を取得する取得部と、帳票画像から複数の文字列を検出する文字列検出部と、複数の文字列毎に属性を割り当てる割当部と、帳票画像内の複数の文字列の位置関係と、複数の文字列に割り当てた属性とに基づいて、複数の文字列を複数のグループに分類する分類部と、複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、複数のグループの中で評価値が最も高いグループを対象グループとして検出する対象グループ検出部と、対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出する対象文字列検出部と、対象文字列に関する情報を出力する出力部と、を有する。

　また、実施形態の一側面に係る制御方法は、出力部を有する画像処理装置の制御方法であって、画像処理装置が、帳票画像を取得し、帳票画像から複数の文字列を検出し、複数の文字列毎に属性を割り当て、帳票画像内の複数の文字列の位置関係と、複数の文字列に割り当てた属性とに基づいて、複数の文字列を複数のグループに分類し、複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、複数のグループの中で評価値が最も高いグループを対象グループとして検出し、対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出し、対象文字列に関する情報を出力部から出力する。

　また、実施形態の一側面に係る制御プログラムは、出力部を有するコンピュータの制御プログラムであって、帳票画像を取得し、帳票画像から複数の文字列を検出し、複数の文字列毎に属性を割り当て、帳票画像内の複数の文字列の位置関係と、複数の文字列に割り当てた属性とに基づいて、複数の文字列を複数のグループに分類し、複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、複数のグループの中で評価値が最も高いグループを対象グループとして検出し、対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出し、対象文字列に関する情報を出力部から出力することをコンピュータに実行させる。

　本実施形態によれば、画像処理装置、制御方法及び制御プログラムは、帳票画像から検出対象の文字列を精度良く検出することが可能となる。

　本発明の目的及び効果は、特に請求項において指摘される構成要素及び組み合わせを用いることによって認識され且つ得られるだろう。前述の一般的な説明及び後述の詳細な説明の両方は、例示的及び説明的なものであり、特許請求の範囲に記載されている本発明を制限するものではない。

実施形態に従った画像処理システム１の概略構成を示す図である。属性テーブルのデータ構造の一例を示す図である。種別テーブルのデータ構造の一例を示す図である。種別テーブルのデータ構造の一例を示す図である。変換テーブルのデータ構造の一例を示す図である。第２記憶装置２１０及び第２処理回路２２０の概略構成を示す図である。画像読取処理の動作を示すフローチャートである。認識処理の動作を示すフローチャートである。帳票画像９００の一例を示す模式図である。文字列について説明するための模式図である。分類処理の動作の例を示すフローチャートである。文字列の連結について説明するための模式図である。単一項目グループの分断について説明するための模式図である。複数項目グループについて説明するための模式図である。複数項目グループの切断について説明するための模式図である。各文字列が分類されるグループについて説明するための模式図である。他の第２処理回路２３０の概略構成を示すブロック図である。

　以下、本開示の一側面に係る画像処理装置、制御方法及び制御プログラムについて図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

　図１は、実施形態に従った画像処理システム１の概略構成を示す図である。図１に示すように、画像処理システム１は、画像読取装置１００と、情報処理装置２００とを有する。

　画像読取装置１００は、例えばスキャナ装置等である。画像読取装置１００は、情報処理装置２００に接続されている。情報処理装置２００は、画像処理装置の一例であり、例えばパーソナルコンピュータ等である。

　画像読取装置１００は、第１インタフェース装置１０１と、撮像装置１０２と、第１記憶装置１１０と、第１処理回路１２０とを有する。

　第１インタフェース装置１０１は、ＵＳＢ（Universal Serial Bus）等のシリアルバスに準じるインタフェース回路を有し、情報処理装置２００と電気的に接続して画像データ及び各種の情報を送受信する。また、第１インタフェース装置１０１の代わりに、無線信号を送受信するアンテナと、所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路とを有する通信装置が用いられてもよい。所定の通信プロトコルは、例えば無線ＬＡＮ（Local Area Network）である。

　撮像装置１０２は、主走査方向に直線状に配列されたＣＣＤ（Charge Coupled Device）による撮像素子を備える縮小光学系タイプの撮像センサを有する。さらに、撮像装置１０２は、光を照射する光源と、撮像素子上に像を結ぶレンズと、撮像素子から出力された電気信号を増幅してアナログ／デジタル（Ａ／Ｄ）変換するＡ／Ｄ変換器とを有する。撮像装置１０２において、撮像センサは、搬送される媒体を撮像してアナログの画像信号を生成して出力し、Ａ／Ｄ変換器は、このアナログの画像信号をＡ／Ｄ変換してデジタルの帳票画像を生成して出力する。帳票画像は、各画素データが、例えばＲＧＢ各色毎に８ｂｉｔで表される計２４ｂｉｔのＲ（赤色）値、Ｇ（緑色）値、Ｂ（青色）値からなるカラー多値画像である。なお、ＣＣＤの代わりにＣＭＯＳ（Complementary Metal Oxide Semiconductor）による撮像素子を備える等倍光学系タイプのＣＩＳ（Contact Image Sensor）が用いられてもよい。

　第１記憶装置１１０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第１記憶装置１１０には、画像読取装置１００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、コンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第１記憶装置１１０にインストールされてもよい。可搬型記録媒体は、例えばＣＤ－ＲＯＭ（compact disk read only memory）、ＤＶＤ－ＲＯＭ（digital versatile disk read only memory）等である。また、第１記憶装置１１０は、撮像装置１０２により生成された帳票画像等を記憶する。

　第１処理回路１２０は、予め第１記憶装置１１０に記憶されているプログラムに基づいて動作する。第１処理回路１２０は、例えばＣＰＵ（Control Processing Unit）である。なお、第１処理回路１２０として、ＤＳＰ（digital signal processor）、ＬＳＩ（large scale integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programming Gate Array）等が用いられてもよい。

　第１処理回路１２０は、第１インタフェース装置１０１、撮像装置１０２及び第１記憶装置１１０等と接続され、これらの各部を制御する。第１処理回路１２０は、撮像装置１０２の媒体読取制御、第１インタフェース装置１０１を介した情報処理装置２００とのデータ送受信制御等を行う。

　情報処理装置２００は、第２インタフェース装置２０１と、入力装置２０２と、表示装置２０３と、第２記憶装置２１０と、第２処理回路２２０とを有する。以下、情報処理装置２００の各部について詳細に説明する。

　第２インタフェース装置２０１は、画像読取装置１００の第１インタフェース装置１０１と同様のインタフェース回路を有し、情報処理装置２００と画像読取装置１００とを接続する。また、第２インタフェース装置２０１の代わりに、無線信号を送受信するアンテナと、無線ＬＡＮ等の所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路とを有する通信装置が用いられてもよい。

　入力装置２０２は、キーボード、マウス等の入力装置及び入力装置から信号を取得するインタフェース回路を有し、利用者の操作に応じた信号を第２処理回路２２０に出力する。

　表示装置２０３は、出力部の一例である。表示装置２０３は、液晶、有機ＥＬ（Electro-Luminescence）等から構成されるディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有する。表示装置２０３は、第２処理回路２２０からの指示に従って、各種の情報をディスプレイに表示する。

　第２記憶装置２１０は、記憶部の一例であり、画像読取装置１００の第１記憶装置１１０と同様のメモリ装置、固定ディスク装置、可搬用の記憶装置等を有する。第２記憶装置２１０には、情報処理装置２００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、例えばＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて第２記憶装置２１０にインストールされてもよい。

　また、第２記憶装置２１０には、データとして、属性テーブル、種別テーブル及び変換テーブル等が予め記憶される。各テーブルの詳細については後述する。

　第２処理回路２２０は、予め第２記憶装置２１０に記憶されているプログラムに基づいて動作する。第２処理回路２２０は、例えばＣＰＵである。なお、第２処理回路２２０として、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等が用いられてもよい。

　第２処理回路２２０は、第２インタフェース装置２０１、入力装置２０２、表示装置２０３及び第２記憶装置２１０等と接続され、これらの各部を制御する。第２処理回路２２０は、第２インタフェース装置２０１を介した画像読取装置１００とのデータ送受信制御、入力装置２０２の入力制御、表示装置２０３の表示制御等を行う。

　図２は、属性テーブルのデータ構造の一例を示す図である。

　属性テーブルには、帳票に含まれる複数の属性毎に、各属性に関する単語及び／又はフォーマット等が関連付けて記憶される。複数の属性は、項目名、項目値及びキーワードの三つの属性分類に分類される。項目名は、各属性のタイトルを示す文字列である。項目値は、各属性の内容を示す文字列である。キーワードは、帳票内で使用される特殊な用語である。項目名に係る属性には、帳票番号、発行日、請求金額、口座名義、期限、電話番号及び会社名等が含まれる。項目値に係る属性には、日付、金額、電話番号、住所、会社名、帳票種、文、英数字列及び不明文字列等が含まれる。帳票種は、請求書、領収書等のような帳票の種類である。英数字列は、英字又は数字からなる文字列である。不明文字列は、属性テーブルにおいて定義された全ての属性に分類されない文字列である。キーワードに係る属性には、宛名敬称及び頭語・結語等が含まれる。宛名敬称は、「様」、「殿」及び「御中」等のように宛名に付加される敬称である。

　単語は、各属性を示す文字列に含まれ得る文字である。なお、属性が項目値に係る住所である場合、単語には、全国の地名、建物名等が含まれてもよい。また、属性が項目値に係る会社名である場合、単語には、実存する会社名等が含まれてもよい。フォーマットは、各属性を示す文字列の書式である。例えば、属性が項目値に係る日付である場合、フォーマットとして「４桁の数字」、「年」、「１～１２の数字」、「月」、「１～３１の数字」、「日」の組合せが設定される。また、属性が項目値に係る電話番号である場合、フォーマットとして「数字２～５桁」、「－」、「数字１～４桁」、「－」、「数字４桁」の組合せ等が設定される。また、属性が項目値に係る文である場合、フォーマットとして「名詞を除く詞と句読点の合計数が所定数（例えば５）以上であること」等のルールが設定される。

　図３及び図４は、種別テーブルのデータ構造の一例を示す図である。

　種別テーブルには、グループ種別毎に、各グループ種別に対応する属性が記憶される。グループ種別には、請求元、請求先、振込先、請求金額、振込期限、文章、発行日、帳票番号、帳票種等が含まれる。

　請求元又は請求先に係るグループ種別に対応する属性として、会社名（項目名／項目値）、住所（項目値）、電話番号（項目名／項目値）、郵便番号（項目名／項目値）、氏名（項目名）、宛名敬称（キーワード）、英数字列（項目値）、不明文字列（項目値）等が設定される。振込先に係るグループ種別に対応する属性として、銀行名（項目値）、支店名（項目値）、口座種別（項目値）、口座番号（項目値）、英数字列（項目値）等が設定される。請求金額に係るグループ種別に対応する属性として、請求金額（項目名／項目値）、税込金額（項目名／項目値）等が設定される。振込期限に係るグループ種別に対応する属性として、期限（項目名／項目値）等が設定される。文章に対応する属性として、文（項目値）等が設定される。発行日に係るグループ種別に対応する属性として、発行日（項目名／項目値）等が設定される。帳票番号に係るグループ種別に対応する属性として、帳票番号（項目名／項目値）等が設定される。帳票種に対応する属性として、帳票種（項目値）等が設定される。

　各グループ種別に対応する各属性には、必須情報、主属性情報、重複情報、ポイント及び検出対象情報等が関連付けて記憶される。必須情報は、その属性が割り当てられた文字列がそのグループ種別のグループに含まれることが必須であるか否か（任意であるか）を示す。主属性情報は、その属性が単独でそのグループ種別の特徴を示す主属性であるか、主属性に付随してそのグループ種別の特徴を示す従属性であるかを示す。例えば、グループ種別が請求元である場合、会社名、住所、電話番号、郵便番号及び氏名等の属性は主属性に設定され、宛名敬称、英数列及び不明文字列等の属性は従属性に設定される。重複情報は、その属性がそのグループ種別のグループに重複して存在することが許可されるか否かを示す。

　ポイントは、帳票画像内で検出されたそのグループ種別のグループにその属性が割り当てられた文字列が含まれることにより、そのグループの評価値に加算される点数である。ポイントには負値が含まれてもよい。評価値は、帳票画像から特定のグループを検出するために使用される。以下では、帳票画像から検出される検出対象のグループを対象グループと称する場合がある。検出対象情報は、その属性が割り当てられた文字列が、対象グループとして検出されたそのグループ種別のグループから検出される対象であるか否かを示す。以下では、対象グループから検出される検出対象の文字列を対象文字列と称する場合がある。

　各グループは、少なくとも一つの項目値に係る属性が割り当てられた文字列を含む。また、各グループは、必須の属性（項目値）が割り当てられた文字列を含む。即ち、各グループには、単一の項目値が割り当てられた文字列のみが含まれ、他の属性が割り当てられた文字列は含まれない可能性がある。また、一つのグループに含まれる文字列は、相互に近接するように配置され、特に相互に隣り合いながら連結する関係を有する。即ち、各グループはブロックを形成し、一つのグループに含まれる文字列の間に、他のグループに含まれる文字列は配置されない。また、属性として文章が割り当てられた文字列も一つのグループに分類されてもよい。また、枠、表等も一つのグループとして分類されてもよい。

　図５は、変換テーブルのデータ構造の一例を示す図である。

　変換テーブルには、第１属性と第２属性の組合せ毎に、位置条件及び変換属性が関連付けて記憶される。例えば、第１属性は所定の項目名に係る属性であり、第２属性は所定の項目値に係る属性である。なお、第１属性は、項目名に係る属性に限定されず、項目値に係る属性でもよい。位置条件は、帳票画像内で、第１属性に対する第２属性の配置位置の条件を示す。位置条件は、方向（例えば右側、下側、右下側）及び距離（例えば３０ｍｍに相当する画素内）を含む。なお、位置条件には、優先順位（例えば右側、下側、右下側の順、及び／又は、距離が小さい順）が設定されてもよい。変換属性は、第２属性が第１属性に対して位置条件を満たす場合に、第２属性を変換させる属性である。変換属性として、第２属性をより具体的に限定した属性が設定される。第１属性が項目名に係る属性である場合、変換属性として、第１属性に対応する項目値に係る属性が設定されてもよい。

　例えば、第１属性が項目名に係る属性「請求金額」であり、第２属性が項目値に係る属性「金額」である組合せに対して、項目値に係る属性の変換属性として、「金額」をより具体的に限定した「請求金額」が設定される。また、第１属性が項目値に係る属性「口座種別」であり、第２属性が項目値に係る属性「英数字列」である組合せに対して、項目値に係る属性の変換属性として、「英数字列」をより具体的に限定した「口座番号」が設定される。また、第１属性が項目名に係る属性「会社名」であり、第２属性が項目値に係る属性「不明文字列」である組合せに対して、項目値に係る属性の変換属性として、「不明文字列」をより具体的に限定した「会社名」が設定される。

　図６は、第２記憶装置２１０及び第２処理回路２２０の概略構成を示す図である。

　図６に示すように第２記憶装置２１０には、取得プログラム２１１、文字列検出プログラム２１２、割当プログラム２１３、分類プログラム２１４、対象グループ検出プログラム２１５、対象文字列検出プログラム２１６、推定プログラム２１７及び出力制御プログラム２１８等の各プログラムが記憶される。これらの各プログラムは、プロセッサ上で動作するソフトウェアにより実装される機能モジュールである。第２処理回路２２０は、第２記憶装置２１０に記憶された各プログラムを読み取り、読み取った各プログラムに従って動作する。これにより、第２処理回路２２０は、取得部２２１、文字列検出部２２２、割当部２２３、分類部２２４、対象グループ検出部２２５、対象文字列検出部２２６、推定部２２７及び出力制御部２２８として機能する。

　図７は、画像読取装置１００による画像読取処理の動作を示すフローチャートである。以下、図７に示したフローチャートを参照しつつ、画像読取処理の動作を説明する。なお、以下に説明する動作のフローは、予め第１記憶装置１１０に記憶されているプログラムに基づき主に第１処理回路１２０により画像読取装置１００の各要素と協働して実行される。

　最初に、撮像装置１０２は、原稿として請求書、通知書又は証明書等の帳票を撮像して帳票画像を生成し、第１記憶装置１１０に保存する（ステップＳ１０１）。

　次に、第１処理回路１２０は、第１記憶装置１１０に保存された帳票画像を、第１インタフェース装置１０１を介して情報処理装置２００に送信し（ステップＳ１０２）、一連のステップを終了する。

　図８は、情報処理装置２００による認識処理の動作を示すフローチャートである。以下、図８に示したフローチャートを参照しつつ、認識処理の動作を説明する。なお、以下に説明する動作のフローは、予め第２記憶装置２１０に記憶されているプログラムに基づき主に第２処理回路２２０により情報処理装置２００の各要素と協同して実行される。

　最初に、取得部２２１は、帳票画像を、第２インタフェース装置２０１を介して画像読取装置１００から取得し、第２記憶装置２１０に保存する（ステップＳ２０１）。

　図９は、帳票画像９００の一例を示す模式図である。

　図９に示すように、帳票画像９００には、罫線で囲まれた表９２０、９２１及び９２２が含まれている。また、帳票画像９００には、表９２０、９２１及び９２２の外部に、請求書番号９０１、発行日９０２、タイトル９０３等が含まれている。帳票画像９００には、さらに、請求先の郵便番号９０４、請求先の住所９０５、請求先の会社名９０６、宛名敬称９０７、請求元の会社名９０８、請求元の住所９０９、請求元の電話番号９１０等が含まれている。帳票画像９００には、さらに、文９１１、文９１２、請求金額９１３、文９１４、振込先の銀行名９１５、振込先の支店名９１６、振込先の口座種別９１７、振込先の口座番号９１８、支払期限９１９等が含まれている。

　次に、文字列検出部２２２は、帳票画像を複数の領域に分類する（ステップＳ２０２）。文字列検出部２２２は、例えば帳票画像を罫線で囲まれた各領域と、罫線で囲まれていない領域とに分類する。

　図９に示す例では、帳票画像９００は、表９２０内部の領域、表９２１内部の領域、表９２２内部の領域、及び、表外領域の四つの領域に分類される。

　以下のステップＳ２０３～Ｓ２１１の処理は、分類された領域毎に実行される。

　最初に、文字列検出部２２２は、帳票画像の処理対象の領域から文字列を検出する（ステップＳ２０３）。文字列検出部２２２は、公知のＯＣＲ（Optical Character Recognition）技術を利用して、帳票画像から文字を検出し、所定の位置関係を有する複数の文字を文字列として検出する。所定の位置関係を有する複数の文字は、例えば垂直方向において相互に重複し、且つ、水平方向において一定範囲内で隣り合いながら連結する文字である。一定範囲は、例えば余白に相当する画素数に設定される。なお、一定範囲は、各文字の垂直方向の大きさに応じて変更されてもよい。また、文字列検出部２２２は、「株式会社」、「電話番号」、「〒」等の予め定められた文字が他の文字と別個の文字列に含まれるように各文字列を検出してもよい。文字列検出部２２２は、検出した各文字列（認識した文字自体）とその位置情報（例えば外接矩形の座標）とを関連付けて第２記憶装置２１０に記憶する。

　図１０は、文字列検出部２２２により検出される文字列について説明するための模式図である。

　図１０には、図９に示した帳票画像９００が示される。図１０に示すように、帳票画像９００の表外領域では、請求書番号９０１に係る文字列１００１、１００２、発行日９０２に係る文字列１００３、１００４、タイトル９０３に係る文字列１００５が検出される。また、請求先の郵便番号９０４に係る文字列１００６、１００７、請求先の住所９０５に係る文字列１００８、請求先の会社名９０６に係る文字列１００９、１０１０、宛名敬称９０７に係る文字列１０１１が検出される。また、請求元の会社名９０８に係る文字列１０１２、１０１３、請求元の住所９０９に係る文字列１０１４、請求元の電話番号９１０に係る文字列１０１５、１０１６が検出される。また、文９１１に係る文字列１０１７、文９１２に係る文字列１０１８、請求金額９１３に係る文字列１０１９、１０２０が検出される。また、文９１４に係る文字列１０２１、振込先の銀行名９１５に係る文字列１０２２、振込先の支店名９１６に係る文字列１０２３、振込先の口座種別９１７に係る文字列１０２４、振込先の口座番号９１８に係る文字列１０２５が検出される。また、支払期限９１９に係る文字列１０２６、１０２７が検出される。

　次に、割当部２２３は、属性テーブルを参照して、文字列検出部２２２によって検出された文字列毎に属性を割り当てる（ステップＳ２０４）。割当部２２３は、検出された文字列の内、属性テーブルに記憶された単語が含まれる文字列に、各単語に関連付けられた属性を割り当てる。また、割当部２２３は、検出された文字列の内、属性テーブルに記憶されたフォーマットを満足する文字列に、各フォーマットに関連付けられた属性を割り当てる。

　図１０に示す例では、請求書番号９０１に係る文字列１００１、１００２の属性として、帳票番号（項目名）、英数字列（項目値）がそれぞれ割り当てられる。発行日９０２に係る文字列１００３、１００４の属性として、発行日（項目名）、日付（項目値）がそれぞれ割り当てられる。タイトル９０３に係る文字列１００５の属性として帳票種（項目値）が割り当てられる。

　請求先の郵便番号９０４に係る文字列１００６、１００７の属性として、郵便番号（項目名）、郵便番号（項目値）がそれぞれ割り当てられる。請求先の住所９０５に係る文字列１００８の属性として、住所（項目値）が割り当てられる。請求先の会社名９０６に係る文字列１００９、１０１０の属性として、会社名（項目名）、会社名（項目値）がそれぞれ割り当てられる。宛名敬称９０７に係る文字列１０１１の属性として、宛名敬称（キーワード）が割り当てられる。

　請求元の会社名９０８に係る文字列１０１２、１０１３の属性として、会社名（項目名）、会社名（項目値）がそれぞれ割り当てられる。請求元の住所９０９に係る文字列１０１４の属性として、住所（項目値）が割り当てられる。請求元の電話番号９１０に係る文字列１０１５、１０１６の属性として、電話番号（項目名）、電話番号（項目値）がそれぞれ割り当てられる。

　文９１１に係る文字列１０１７及び文９１２に係る文字列１０１８の属性として、文（項目値）がそれぞれ割り当てられる。請求金額９１３に係る文字列１０１９、１０２０の属性として、請求金額（項目名）、金額（項目値）がそれぞれ割り当てられる。文９１４に係る文字列１０２１の属性として、文（項目値）が割り当てられる。振込先の銀行名９１５に係る文字列１０２２の属性として、銀行名（項目値）が割り当てられる。振込先の支店名９１６に係る文字列１０２３の属性として、支店名（項目値）が割り当てられる。振込先の口座種別９１７に係る文字列１０２４の属性として、口座種別（項目値）が割り当てられる。振込先の口座番号９１８に係る文字列１０２５の属性として、英数字列（項目値）が割り当てられる。支払期限９１９に係る文字列１０２６、１０２７の属性として、期限（項目名）、日付（項目値）等が割り当てられる。

　次に、分類部２２４は、分類処理を実行する（ステップＳ２０５）。

　図１１は、分類処理の動作の例を示すフローチャートである。

　最初に、分類部２２４は、文字列検出部２２２によって検出され且つ割当部２２３によって属性が割り当てられた各文字列を連結させる（ステップＳ３０１）。分類部２２４は、帳票画像内で、属性が割り当てられた各文字列、特に各文字列の外接矩形をノードとして設定する。分類部２２４は、各ノードに対して所定方向において複数のノードの中で最も近くに位置する他のノードを各ノードに連結させる。所定方向は、例えば水平、垂直及び斜めの八方向である。所定方向は、水平及び垂直の四方向でもよい。

　分類部２２４は、注目ノードに対して垂直方向において重なる位置に配置されたノードを抽出し、抽出したノードの内、注目ノードの左方及び右方のそれぞれにおいて水平方向の距離が最小のノードをそれぞれ注目ノードと連結させる。同様に、分類部２２４は、注目ノードに対して水平方向において重なる位置に配置されたノードを抽出し、注目ノードの上方及び下方のそれぞれにおいて垂直方向の距離が最小のノードをそれぞれ注目ノードと連結させる。また、分類部２２４は、注目ノードに対して水平及び垂直方向において重ならないノードを抽出し、抽出したノードの内、注目ノードの左上方、右上方、左下方及び右下方のそれぞれにおいて距離が最小のノードをそれぞれ注目ノードと連結させる。分類部２２４は、各ノード間の距離として、各外接矩形の相互に最も近接する端部間のユークリッド距離を算出する。なお、分類部２２４は、各ノード間の距離として、各外接矩形の重心位置間のユークリッド距離を算出してもよい。

　また、分類部２２４は、距離が最小のノードが複数存在する場合は、複数のノードを注目ノードと連結させる。また、分類部２２４は、注目ノードの左上方及び右上方のノードについて、注目ノードとの間の垂直方向の距離が、注目ノードの上方の各ノードと注目ノードとの間の垂直方向の最小距離以下である場合に限り、注目ノードと連結させてもよい。同様に、分類部２２４は、注目ノードの左下方及び右下方のノードについて、注目ノードとの間の垂直方向の距離が、注目ノードの下方の各ノードと注目ノードとの間の垂直方向の最小距離以下である場合に限り、注目ノードと連結させてもよい。

　図１２Ａは、文字列の連結について説明するための模式図である。

　図１２Ａには、図９に示した帳票画像９００の一部１２００が示される。図１２Ａに示す例では、一点鎖線で示される各文字列の外接矩形がノードとして設定され、点線で結ばれる各ノード（文字列の外接矩形）が連結されている。例えば、文字列１００１について、右方の文字列１００２と、下方の文字列１００３と、右下方の文字列１００４とが連結される。なお、文字列１００１と左下方の文字列１００７との間の垂直方向の距離は、文字列１００１と下方の文字列１００３との間の垂直方向の距離より大きいため、文字列１００１と左下方の文字列１００７とは連結されていない。

　次に、割当部２２３は、変換テーブルを参照して、所定の項目値に係る属性が割り当てられた文字列に割り当てる属性を、特定の項目値に係る属性に変換する（ステップＳ３０２）。割当部２２３は、分類部２２４によって連結された文字列のペアの中から、変換テーブルに記憶された組合せに係る第１属性と第２属性が割り当てられ、且つ、その組合せに係る位置条件が満たされる文字列のペアを抽出する。割当部２２３は、抽出した文字列のペアの内、第２属性が割り当てられた文字列の属性を、その組合せに関連付けられた変換属性に変換する。

　図１０に示す帳票画像９００では、項目名に係る属性として帳票番号が割り当てられた文字列１００１と、項目値に係る属性として英数字列が割り当てられた文字列１００２のペアについて、文字列１００２の属性が帳票番号に変換される。同様に、項目名に係る属性として発行日が割り当てられた文字列１００３と、項目値に係る属性として日付が割り当てられた文字列１００４のペアについて、文字列１００４の属性が発行日に変換される。なお、文字列１０１０の属性として会社名でなく不明文字列が割り当てられていた場合、項目名に係る属性として会社名が割り当てられた文字列１００９との組合せにより、文字列１０１０の属性は会社名に変換される。同様に、文字列１０１３の属性として会社名でなく不明文字列が割り当てられた場合も、項目名に係る属性として会社名が割り当てられた文字列１０１２との組合せにより、文字列１０１３の属性は会社名に変換される。

　また、項目名に係る属性として請求金額が割り当てられた文字列１０１９と、項目値に係る属性として金額が割り当てられた文字列１０２０のペアについて、文字列１０２０の属性が請求金額に変換される。同様に、項目値に係る属性として口座種別が割り当てられた文字列１０２４と、項目値に係る属性として英数字列が割り当てられた文字列１０２５のペアについて、文字列１０２５の属性が口座番号に変換される。同様に、項目名に係る属性として期限が割り当てられた文字列１０２６と、項目値に係る属性として日付が割り当てられた文字列１０２７のペアについて、文字列１０２７の属性が期限に変換される。

　このように、割当部２２３は、帳票画像内で、所定の項目名に係る属性が割り当てられた文字列と、所定の項目値に係る属性が割り当てられた文字列とが所定の位置条件を満たすか否かを判定する。割当部２２３は、各文字列が所定の位置条件を満たす場合、所定の項目値に係る属性が割り当てられた文字列に割り当てる属性を、特定の項目値に係る属性に変換する。これにより、割当部２２３は、抽象的な項目値が割り当てられた文字列の属性をより具体的な項目値に変換することができ、各文字列の属性が示す情報量を増大させることができる。その結果、情報処理装置２００は、各グループに含まれる属性が示す情報量を増大させることができ、対象グループをより精度良く検出することができる。

　次に、分類部２２４は、属性テーブルを参照し、文字列検出部２２２によって検出された文字列の内、単一の項目に係る属性が割り当てられた文字列からなる単一項目グループを抽出し、他の文字列から分断させる（ステップＳ３０３）。単一の項目は、単一の種類の項目名、単一の種類の項目値、又は、単一の種類の項目名及びその項目名に対応する単一の種類の項目値のセットである。

　分類部２２４は、種別テーブルから、単一の項目に係る属性のみからなるグループ種別を抽出する。図３及び図４に示した種別テーブルでは、振込期限、文章、発行日、帳票番号及び帳票種のグループ種別が、単一の項目に係る属性のみからなるグループ種別に対応する。分類部２２４は、ステップＳ３０１で連結させた文字列のペアの内、抽出したグループ種別に含まれる属性が割り当てられた文字列のみからなるペアを単一項目グループとして抽出する。また、分類部２２４は、単独で、抽出したグループ種別に含まれる属性が割り当てられた単一の文字列も単一項目グループとして抽出する。

　図１０に示す帳票画像９００では、帳票番号（項目名／項目値）が割り当てられた文字列１００１と１００２のペア、及び、発行日（項目名／項目値）が割り当てられた文字列１００３と１００４のペアが単一項目グループとして抽出される。また、帳票種（項目値）が割り当てられた文字列１００５、文（項目値）が割り当てられた文字列１０１７と１０１８のペア、及び、文（項目値）が割り当てられた文字列１０２１も単一項目グループとして抽出される。さらに、期限（項目名／項目値）が割り当てられた文字列１０２６と１０２７のペアも単一項目グループとして抽出される。

　図１２Ｂは、単一項目グループの分断について説明するための模式図である。

　図１２Ｂには、図１２Ａに示した、帳票画像９００の一部１２００が示される。図１２Ｂに示すように、単一項目グループとして抽出された文字列１００１と１００２のペア、文字列１００３と１００４のペア、及び、文字列１００５のそれぞれと、他の文字列との連結（点線）が切断される。

　このように、分類部２２４は、帳票画像内で、単一項目グループに含まれる文字列が他のグループに含まれないように、複数の文字列を分類する。分類部２２４は、独立して意味を成す文字列を他の文字列から切り離すとともに、そのような文字列を用いてグループを分断させるように各文字列を分類するため、各文字列を効率良く且つ精度良く分類できる。

　次に、分類部２２４は、属性テーブルを参照し、文字列検出部２２２によって検出された文字列の内、複数の項目に係る属性が割り当てられた文字列を含む複数項目グループを抽出し、他の文字列から分断させる（ステップＳ３０４）。複数の項目は、少なくとも複数の種類の項目名又は複数の種類の項目値を含むセットである。

　分類部２２４は、種別テーブルから、複数の項目に係る属性を含むグループ種別を抽出する。図３及び図４に示した種別テーブルでは、請求元、請求先、振込先及び請求金額のグループ種別が、複数の項目に係る属性を含むグループ種別に対応する。

　分類部２２４は、単一項目グループとして抽出されていない各文字列に割り当てられた属性が、抽出したグループ種別に含まれる場合、その文字列を、そのグループ種別に対応する複数項目グループに所属させる。また、各文字列に割り当てられた属性がそのグループ種別において主属性として設定され且つその文字列と連結する文字列に割り当てられた属性もそのグループ種別に含まれる場合、分類部２２４は、その連結する文字列も同一の複数項目グループに所属させる。分類部２２４は、種別テーブルに記憶された主属性情報を参照して、各文字列に割り当てられた属性がそのグループ種別において主属性として設定されているか否かを判定する。一方、各文字列と連結する文字列に割り当てられた属性がそのグループ種別に含まれない場合、分類部２２４は、その連結する文字列を同一の複数項目グループに所属させない。また、各文字列に割り当てられた属性がそのグループ種別において従属性として設定されている場合、分類部２２４は、その文字列を起点として他の文字列をその複数項目グループに所属させない。

　図１３Ａは、複数項目グループについて説明するための模式図である。

　図１３Ａには、図１２Ａに示した、帳票画像９００の一部１２００が示される。図１３Ａに示す例では、文字列１００６～１０１６を含むグループ１３０１が、請求先に係る複数項目グループと、請求元に係る複数項目グループとに所属するように分類される。なお、宛名敬称に係る属性は、請求先に係るグループ種別及び請求元に係るグループ種別において従属性として設定されている。そのため、分類部２２４は、属性として宛名敬称が割り当てられた文字列１０１１を起点として、文字列１０１１が所属する複数項目グループに文字列１０１２を所属させない。但し、会社名に係る属性は、請求先に係るグループ種別及び請求元に係るグループ種別において主属性として設定されている。そのため、分類部２２４は、属性として会社名が割り当てられた文字列１０１２を起点として、文字列１０１２が所属する複数項目グループに文字列１０１１を所属させる。その結果、文字列１０１２と文字列１０１２は、同一の複数項目グループに分類される。

　このように、分類部２２４は、帳票画像内の複数の文字列の位置関係と、複数の文字列に割り当てた属性とに基づいて、複数の文字列を複数のグループに分類する。特に、分類部２２４は、帳票画像内で、特定のグループ種別に対応する特定の属性が割り当てられた文字列と連結する文字列にそのグループ種別に対応する他の属性が割り当てられている場合、その二つの文字列を同一のグループに分類する。即ち、分類部２２４は、帳票画像内で、特定の対象グループに対応する特定の属性が割り当てられた文字列と連結する文字列にその対象グループに対応する他の属性が割り当てられている場合、その二つの文字列を同一のグループに分類する。二つの文字列は、特定の対象グループに対応する特定の属性が割り当てられた文字列と、その対象グループに対応する他の属性が割り当てられた文字列である。また、特定の属性が割り当てられた文字列と連結する文字列は、特定の属性が割り当てられた文字列に対して所定方向において複数の文字列の中で最も近くに位置する文字列である。これにより、分類部２２４は、相互に関連する文字列を精度良く一つのグループに分類することができる。

　次に、分類部２２４は、種別テーブルを参照して、分類した各複数項目グループに、所定の属性が割り当てられた二以上の文字列が重複して含まれているか否かを判定する（ステップＳ３０５）。所定の属性は、重複して存在することが許可されていない属性である。分類部２２４は、種別テーブルに記憶された重複情報を参照して、各属性が重複して存在することが許可されているか否かを判定する。各複数項目グループに、所定の属性が割り当てられた二以上の文字列が重複して含まれていない場合、分類部２２４は、処理をステップＳ３０９へ移行する。

　一方、複数項目グループに、所定の属性が割り当てられた二以上の文字列が重複して含まれる場合、分類部２２４は、その複数項目グループについて最小全域木を生成する（ステップＳ３０６）。分類部２２４は、例えば、その複数項目グループに含まれる文字列をノードとし、帳票画像内の各文字列間の距離をコストとする最小全域木を生成する。複数項目グループに含まれる文字列は、所定の属性が割り当てられた二以上の文字列を含む文字列の一例である。なお、分類部２２４は、帳票画像内の各文字列間の距離を、帳票画像内の各文字列に割り当てられた属性間の相関性で重み付けした値をコストとして最小全域木を生成してもよい。例えば、分類部２２４は、同一の項目に係る属性間のコストが小さくなり、異なる項目に係る属性間のコストが大きくなるように、各コストを重み付けして補正する。

　次に、分類部２２４は、最小全域木を分割する辺を決定する（ステップＳ３０７）。分類部２２４は、最小全域木に含まれ、且つ、所定の属性が割り当てられた二以上の文字列を分割する辺の中でコストが最大である辺を、最小全域木を分割する辺に決定する。

　次に、分類部２２４は、決定した辺で最小全域木を分割することにより、その複数項目グループに含まれる文字列、即ち所定の属性が割り当てられた二以上の文字列を含む文字列を分類する（ステップＳ３０８）。

　なお、複数項目グループに、所定の属性が割り当てられた文字列が三つ以上含まれる場合、ステップＳ３０６において、分類部２２４は、所定の属性が割り当てられた文字列を全て分割するように、最小全域木を分割する複数の辺を決定する。または、分類部２２４は、最小全域木を分割する辺を一つずつ決定し、複数項目グループを二つずつに分割してもよい。その場合、分類部２２４は、複数項目グループを分割するたびに処理をステップＳ３０６へ戻し、分割後のグループの内、所定の属性が割り当てられた文字列が二つ以上残っているグループに対してステップＳ３０６～Ｓ３０８の処理を繰り返す。

　図１３Ｂは、複数項目グループの切断について説明するための模式図である。

　図１３Ｂには、図１２Ａに示した、帳票画像９００の一部１２００が示される。図１３Ｂに示す例では、グループ１３０１に、属性として重複が許可されていない住所が割り当てられた文字列１００９及び文字列１０１２が含まれている。また、グループ１３０１に、属性として重複が許可されていない会社名（項目名）が割り当てられた文字列１００９及び文字列１０１２と、属性として重複が許可されていない会社名（項目値）が割り当てられた文字列１０１０及び文字列１０１３とが含まれている。グループ１３０１について、帳票画像内の各文字列をノードとし、各辺の長さの総和、即ち各ノード間の距離の総和が最小となるように、点線で示される最小全域木が生成される。

　この例では、文字列１００９と文字列１０１２を分割する辺として、距離が最も大きい文字列１０１１と文字列１０１２の間の辺が抽出される。グループ１３０１は、文字列１０１１と文字列１０１２の間の辺により、文字列１００６～文字列１０１１を含むグループと、文字列１０１２～文字列１０１６を含むグループとに分割される。これにより、文字列１００９と文字列１０１２、及び、文字列１０１０と文字列１０１３も分割されるため、グループ１３０１は、これ以上分割されない。

　このように、分類部２２４は、一つのグループに、所定の属性が割り当てられた二以上の文字列が重複して含まれないように、複数の文字列を複数のグループに分類する。これにより、分類部２２４は、相互に異なる属性を有する文字列、即ち相互に異なる特徴を示す文字列を同一のグループに所属させることを抑制し、その特徴を適切に示す文字列だけからなるグループをより精度良く生成することができる。

　特に、分類部２２４は、最小全域木を用いて、所定の属性が割り当てられた文字列が重複して含まれないように各文字列を分類する。これにより、分類部２２４は、関連性が高い文字列が同一のグループに含まれ、関連性が低い文字列が別個のグループに含まれるように、各文字列を適切に分類することができる。

　次に、分類部２２４は、分類した単一項目グループ及び複数項目グループを、各文字列を分類するグループに決定し（ステップＳ３０９）、一連のステップを終了する。分類部２２４は、各グループに含まれる各文字列に割り当てられた全ての属性が含まれるグループ種別を各グループに対応するグループ種別の候補とし、各グループをそのグループ種別と関連付けて第２記憶装置２１０に記憶する。

　図１４は、各文字列が分類されるグループについて説明するための模式図である。

　図１４には、図９に示した帳票画像９００が示される。図１４に示すように、帳票画像９００の表外領域では、文字列１００１～１００２を含むグループ１２０１のグループ種別の候補として帳票番号が設定される。また、文字列１００３～１００４を含むグループ１２０２のグループ種別の候補として発行日が設定される。また、文字列１００５を含むグループ１２０３のグループ種別の候補として帳票種が設定される。また、文字列１００６～１０１１を含むグループ１２０４のグループ種別の候補として請求元及び請求先が設定される。また、文字列１０１２～１０１６を含むグループ１２０５のグループ種別の候補として請求元及び請求先が設定される。また、文字列１０１７～１０１８を含むグループ１２０６のグループ種別の候補として文章が設定される。また、文字列１０１９～１０２０を含むグループ１２０７のグループ種別の候補として請求金額が設定される。また、文字列１０２１を含むグループ１２０８のグループ種別の候補として文章が設定される。また、文字列１０２２～１０２５を含むグループ１２０９のグループ種別の候補として振込先が設定される。また、文字列１０２６～１０２７を含むグループ１２１０のグループ種別の候補として振込期限が設定される。

　図８に戻って、対象グループ検出部２２５は、種別テーブルに記憶されたグループ種別毎に、各グループ種別の候補として設定された各グループの評価値を算出する（ステップＳ２０６）。対象グループ検出部２２５は、種別テーブルに記憶されたグループ種別の候補として、分類部２２４によって複数のグループが設定された場合、複数のグループ毎に、各グループの評価値を算出する。対象グループ検出部２２５は、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出する。特に、対象グループ検出部２２５は、各グループに含まれる各文字列に割り当てられた属性に対応して種別テーブルに記憶されているポイントに基づいて評価値を算出する。例えば、対象グループ検出部２２５は、各グループに含まれる各文字列に割り当てられた属性に対応して種別テーブルに記憶されているポイントの合計を各グループの評価値として算出する。なお、対象グループ検出部２２５は、各グループに含まれる各文字列に割り当てられた属性に対応するポイントの平均値又は重み付き和等を各グループの評価値として算出してもよい。

　対象グループ検出部２２５は、種別テーブルに記憶されているポイントに基づいて評価値を算出することにより、簡易に評価値を算出することができ、認識処理の処理時間を低減させることができる。

　なお、対象グループ検出部２２５は、各文字列の大きさ（外接矩形の大きさ）及び／又は各グループの配置位置に基づいて、評価値を補正してもよい。例えば、請求書において、請求元の会社名は大きく記載されている可能性が高い。そのため、対象グループ検出部２２５は、属性として会社名が割り当てられた文字列の大きさが、帳票画像内の各文字の大きさの平均値より大きい場合、請求元に係るグループ種別についての評価値が高くなるように、そのグループの評価値を補正する。また、請求書において、請求先の会社名は左側に記載され、請求元の会社名は右側に記載されている可能性が高い。そのため、対象グループ検出部２２５は、左側に配置されたグループに対して請求先に係るグループ種別についての評価値が高くなり、右側に配置されたグループに対して請求元に係るグループ種別についての評価値が高くなるように各グループの評価値を補正する。

　次に、対象グループ検出部２２５は、種別テーブルに記憶されたグループ種別毎に、各グループ種別の候補として分類されたグループの中で、評価値が最も高いグループを各グループ種別についての対象グループとして検出する（ステップＳ２０７）。

　図１４に示す帳票画像９００では、グループ１２０４が請求元及び請求先に係るグループ種別の候補として生成され、グループ１２０５が請求元及び請求先に係るグループ種別の候補として生成されている。グループ１２０４には、属性として、郵便番号（項目名／項目値）、住所（項目値）、会社名（項目名／項目値）、宛名敬称（キーワード）が含まれる。グループ１２０５には、属性として、会社名（項目名／項目値）、住所（項目値）、電話番号（項目名／項目値）が含まれる。

　図３に示す例では、請求元に係るグループ種別について郵便番号（項目名／項目値）、住所（項目値）、会社名（項目名／項目値）、宛名敬称（キーワード）、電話番号（項目名／項目値）に係る各属性のポイントは、１、２、５、－１０、２に設定されている。特に、請求元の名称に敬称が付与されている可能性は低いため、宛名敬称（キーワード）に関するポイントは小さい値（負値）に設定されている。そのため、請求元に係るグループ種別について、グループ１２０４の評価値（ポイントの合計）は－２になり、グループ１２０５の評価値（ポイントの合計）は９になる。したがって、グループ１２０５が請求元に係るグループ種別についての対象グループとして検出される。

　また、図３に示す例では、請求先に係る対象グループについて郵便番号（項目名／項目値）、住所（項目値）、会社名（項目名／項目値）、宛名敬称（キーワード）、電話番号（項目名／項目値）に係る各属性のポイントは、１、２、５、１０、２に設定されている。特に、請求先の名称に敬称が付与されている可能性は高いため、宛名敬称（キーワード）に関するポイントは高い値に設定されている。そのため、請求先に係るグループ種別について、グループ１２０４の評価値（ポイントの合計）は１８になり、グループ１２０５の評価値（ポイントの合計）は９になる。したがって、グループ１２０４が請求先に係るグループ種別についての対象グループとして検出される。

　なお、振込先、請求金額、振込期限、発行日、帳票番号、帳票種に係るグループ種別の候補としては、それぞれ一つのグループのみが検出されている。そのため、振込先、請求金額、振込期限、発行日、帳票番号、帳票種に係るグループ種別についての対象グループとして、グループ１２０９、グループ１２０７、グループ１２１０、グループ１２０２、グループ１２０１、グループ１２０３がそれぞれ検出される。また、文章に係るグループ種別についての対象グループとしては、複数のグループが検出されてもよい。そのため、文章に係るグループ種別についての対象グループとして、グループ１２０６及びグループ１２０８の両方が検出される。

　次に、対象文字列検出部２２６は、種別テーブルを参照し、各対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出する（ステップＳ２０８）。所定の属性は、種別テーブルにおいて、各グループ種別に対応して記憶された検出対象情報において検出対象であると示された属性である。

　図１４に示す帳票画像９００では、請求元に係る対象グループ１２０４から会社名に係る文字列１０１２及び文字列１０１３が対象文字列として検出される。また、請求先に係る対象グループ１２０４から会社名に係る文字列１００９及び文字列１０１０が対象文字列として検出される。また、振込先に係る対象グループ１２０４から銀行名に係る文字列１０２２、支店名に係る文字列１０２３、口座種別に係る文字列１０２４及び口座番号に係る文字列１０２５が対象文字列として検出される。また、請求金額に係る対象グループ１２０７から請求金額に係る文字列１０１９及び文字列１０２０が対象文字列として検出される。また、振込期限に係る対象グループ１２１０から期限に係る文字列１０２６及び文字列１０２７が対象文字列として検出される。

　次に、推定部２２７は、対象文字列検出部２２６が、各対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を検出できたか否かを判定する（ステップＳ２０９）。対象文字列検出部２２６が、各対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を検出できた場合、推定部２２７は、処理をステップＳ２１１へ移行する。

　一方、対象文字列検出部２２６が、対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を検出できなかった場合、推定部２２７は、対象グループに含まれる他の文字列に基づいて、対象文字列を推定する（ステップＳ２１０）。情報処理装置２００は、例えば住所又は電話番号と会社名とが関連付けられた辞書を第２記憶装置２１０に予め記憶しておく。推定部２２７は、第２記憶装置２１０に記憶された辞書を参照し、対象グループに含まれる住所又は電話番号に関連付けられた会社名を対象文字列として推定する。情報処理装置２００は、相互に関連する文字列をグループ化して対象文字列を検出するため、ＯＣＲにより会社名等の重要な文字を認識できなかった場合でも、その文字が所属するグループに基づいて、認識できなかった文字を補完することができる。したがって、情報処理装置２００は、対象文字列をより精度良く検出することができる。

　次に、出力制御部２２８は、帳票画像内で分類された全ての領域について、ステップＳ２０３～Ｓ２１０の処理が完了したか否かを判定する（ステップＳ２１１）。まだ処理が完了していない領域が残っている場合、出力制御部２２８は、処理をステップＳ２０３に戻し、ステップＳ２０３～Ｓ２１１の処理を繰り返す。

　一方、全ての領域について処理が完了した場合、出力制御部２２８は、検出された各対象文字列に関する情報を出力し（ステップＳ２１２）、一連のステップを終了する。出力制御部２２８は、対象文字列に関する情報を表示装置２０３に表示することにより出力する。なお、出力制御部２２８は、対象文字列に関する情報を、第２インタフェース装置２０１を介して他の情報処理装置に送信することにより出力してもよい。出力制御部２２８は、対象文字列に関する情報として、例えば対象文字列自体を出力する。なお、出力制御部２２８は、対象文字列に関する情報として、帳票画像及び帳票画像内の対象文字列の座標を示す位置情報を出力してもよい。また、出力制御部２２８は、対象文字列に関する情報として、対象文字列を切り出した画像等を出力してもよい。

　なお、ステップＳ２０２において、情報処理装置２００は、帳票画像を罫線で囲まれた各領域と、罫線で囲まれていない領域とに分類せずに、全ての領域についてまとめてステップＳ２０３～Ｓ２１０の処理を実行してもよい。また、情報処理装置２００は、罫線で囲まれた表領域又は枠領域を一つのグループとみなしてもよい。また、罫線で囲まれた領域に含まれる文字列が一つのみである場合、その罫線は単なる強調表示である可能性が高い。そのため、情報処理装置２００は、その文字列を、罫線で囲まれていないとみなしてステップＳ２０３～Ｓ２１０の処理を実行してもよい。

　以上詳述したように、情報処理装置２００は、帳票画像内の各文字列の位置関係と各文字列の属性とに基づいて、各文字列をグループに分類し、各グループに含まれる文字列の属性に基づいて対象グループを検出し、対象グループから対象文字列を検出する。これにより、情報処理装置２００は、対象文字列自体だけでなく、対象文字列の近傍に位置する文字列から得られる情報も利用して、対象文字列を検出する。したがって、情報処理装置２００は、帳票画像から検出対象の文字列を精度良く検出することが可能となった。

　その結果、情報処理装置２００は、入力装置２０２を用いて利用者から検出対象の文字列の修正を受け付けることがなくなり、帳票画像を扱う処理におけるプロセッサの処理負荷を低減させることが可能となった。また情報処理装置２００は、他の情報処理装置に検出対象の文字列に関する情報を送信する場合、他の情報処理装置から検出対象の文字列の修正要求を受信することがなくなり、情報処理装置２００と他の情報処理装置の間の通信量を低減させることが可能となった。

　なお、情報処理装置は、帳票画像内で特定のキーワードを検出した上で、検出したキーワードから所定範囲内に存在する文字列を検出対象として検出することも可能である。しかしながら、帳票画像にそのような特定のキーワードが含まれない可能性もあるし、特定のキーワードから所定範囲内に検出対象の文字列が配置されていない可能性もある。情報処理装置２００は、文字列のグループ毎に、各グループに含まれる文字列の属性に基づいて各グループが検出対象であるか否かを総合的に判定する。これにより、情報処理装置２００は、帳票画像から検出対象のグループを精度良く検出することが可能となり、検出した検出対象のグループから検出対象の文字列を精度良く検出することが可能となった。

　特に、情報処理装置２００は、項目名に係る属性だけでなく、項目値に係る属性及び／又はキーワードに係る属性を利用して、各グループが検出対象であるか否かを総合的に判定する。したがって、情報処理装置２００は、周辺に「会社名」等の項目名が記載されていない文字列についても、精度良く検出することが可能となった。

　画像処理システム１は、ＯＣＲ及びＲＰＡ（Robotic Process Automation）技術を利用して帳票入力業務を自動化する企業において、帳票入力業務の効率化を図り、担当者の業務負担を軽減させることが可能となった。特に、請求書等の帳票を電子化して支払い依頼等の業務を自動化する場合、請求元の会社名及び請求先の会社名を精度良く特定することが必要である。通常、請求書には、請求元の会社名及び請求先の会社名が含まれるが、会社名自体から何れの会社名が請求元又は請求先であるかを判別することは困難である。情報処理装置２００は、宛名敬称のような会社名以外の情報を利用することにより、請求元の会社名と請求先の会社名とを明確に区別することが可能となった。

　図１５は、他の実施形態に係る情報処理装置における第２処理回路２３０の概略構成を示すブロック図である。

　第２処理回路２３０は、第２処理回路２２０の代わりに、認識処理を実行する。第２処理回路２３０は、取得回路２３１、文字列検出回路２３２、割当回路２３３、分類回路２３４、対象グループ検出回路２３５、対象文字列検出回路２３６、推定回路２３７及び出力制御回路２３８等を有する。

　取得回路２３１は、取得部の一例であり、取得部２２１と同様の機能を有する。取得回路２３１は、帳票画像を、第２インタフェース装置２０１を介して画像読取装置１００から取得し、第２記憶装置２１０に保存する。

　文字列検出回路２３２は、文字列検出部の一例であり、文字列検出部２２２と同様の機能を有する。文字列検出回路２３２は、第２記憶装置２１０から帳票画像を読み出し、帳票画像から複数の文字列を検出し、検出結果を第２記憶装置２１０に保存する。

　割当回路２３３は、割当部の一例であり、割当部２２３と同様の機能を有する。割当回路２３３は、第２記憶装置２１０から属性テーブルと、文字列の検出結果とを読み出し、複数の文字列毎に属性を割り当て、割当結果を第２記憶装置２１０に保存する。

　分類回路２３４は、分類部の一例であり、分類部２２４と同様の機能を有する。分類回路２３４は、第２記憶装置２１０から種別テーブルと、文字列の検出結果と、属性の割当結果とを読み出し、各文字列をグループに分類し、分類結果を第２記憶装置２１０に保存する。

　対象グループ検出回路２３５は、対象グループ検出部の一例であり、対象グループ検出部２２５と同様の機能を有する。対象グループ検出回路２３５は、第２記憶装置２１０から種別テーブルと、分類結果とを読み出し、複数のグループ毎に評価値を算出し、対象グループを検出し、検出結果を第２記憶装置２１０に保存する。

　対象文字列検出回路２３６は、対象文字列検出部の一例であり、対象文字列検出部２２６と同様の機能を有する。対象文字列検出回路２３６は、第２記憶装置２１０から種別テーブルと、対象グループの検出結果と、文字列の検出結果と、属性の割当結果とを読み出し、対象グループに含まれる文字列の中から対象文字列を検出し、検出結果を第２記憶装置２１０に保存する。

　推定回路２３７は、推定部の一例であり、推定部２２７と同様の機能を有する。推定回路２３７は、第２記憶装置２１０から対象グループの検出結果と、文字列の検出結果と、属性の割当結果と、対象文字列の検出結果とを読み出し、対象文字列を推定し、推定結果を第２記憶装置２１０に保存する。

　出力制御回路２３８は、出力制御部の一例であり、出力制御部２２８と同様の機能を有する。出力制御回路２３８は、第２記憶装置２１０から対象文字列の検出結果及び推定結果を読み出し、対象文字列に関する情報を表示装置２０３に出力する。

　以上詳述したように、情報処理装置は、第２処理回路２３０を用いる場合も、帳票画像から検出対象の文字列を精度良く検出することが可能となった。

　以上、好適な実施形態について説明してきたが、実施形態はこれらに限定されない。例えば、画像読取装置１００と情報処理装置２００の機能分担は、図１に示す画像処理システム１の例に限られず、画像読取装置１００及び情報処理装置２００の各部を画像読取装置１００と情報処理装置２００の何れに配置するかは適宜変更可能である。または、画像読取装置１００と情報処理装置２００を一つの装置で構成してもよい。

　例えば、画像読取装置１００の第１記憶装置１１０が、情報処理装置２００の第２記憶装置２１０に記憶された各プログラム及び各データを記憶してもよい。また、画像読取装置１００の第１処理回路１２０が、情報処理装置２００の第２処理回路２２０により実現される各部として動作してもよい。また、画像読取装置１００が、情報処理装置２００の第２処理回路２３０と同様の処理回路を有してもよい。

　その場合、画像読取装置１００は表示装置２０３と同様の表示装置を有する。認識処理は画像読取装置１００で実行されるため、ステップＳ１０２、Ｓ２０１の帳票画像の送受信処理は省略される。ステップＳ２０２～Ｓ２１２の各処理は、画像読取装置１００の第１処理回路１２０によって実行される。これらの処理の動作は、情報処理装置２００の第２処理回路２２０又は第２処理回路２３０によって実行される場合と同様である。この場合、画像読取装置１００が画像処理装置として動作する。

　また、画像処理システム１において、第１インタフェース装置１０１と第２インタフェース装置２０１は、インターネット、電話回線網（携帯端末回線網、一般電話回線網を含む）、イントラネット等のネットワークを介して接続してもよい。その場合、第１インタフェース装置１０１及び第２インタフェース装置２０１に、接続するネットワークの通信インタフェース回路を備える。また、その場合、クラウドコンピューティングの形態で画像処理のサービスを提供できるように、ネットワーク上に複数の情報処理装置を分散して配置し、各情報処理装置が協働して、認識処理等を分担するようにしてもよい。これにより、画像処理システム１は、複数の画像読取装置が読み取った帳票画像について、効率よく認識処理を実行できる。

　２００　　情報処理装置
　２１０　　第２記憶装置
　２２１　　取得部
　２２２　　文字列検出部
　２２３　　割当部
　２２４　　分類部
　２２５　　対象グループ検出部
　２２６　　対象文字列検出部
　２２７　　推定部
　２２８　　出力制御部

Claims

　帳票画像を取得する取得部と、
　前記帳票画像から複数の文字列を検出する文字列検出部と、
　前記複数の文字列毎に属性を割り当てる割当部と、
　前記帳票画像内の前記複数の文字列の位置関係と、前記複数の文字列に割り当てた属性とに基づいて、前記複数の文字列を複数のグループに分類する分類部と、
　前記複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、前記複数のグループの中で前記評価値が最も高いグループを対象グループとして検出する対象グループ検出部と、
　前記対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出する対象文字列検出部と、
　前記対象文字列に関する情報を出力する出力部と、
　を有することを特徴とする画像処理装置。
　属性毎にポイントが記憶されている記憶部をさらに有し、
　前記対象グループ検出部は、各グループに含まれる各文字列に割り当てられた属性に対応して前記記憶部に記憶されているポイントに基づいて前記評価値を算出する、請求項１に記載の画像処理装置。
　前記分類部は、前記帳票画像内で、前記対象グループに対応する特定の属性が割り当てられた文字列に対して所定方向において前記複数の文字列の中で最も近くに位置する文字列に前記対象グループに対応する他の属性が割り当てられている場合、前記特定の属性が割り当てられた文字列と前記他の属性が割り当てられた文字列とを同一のグループに分類する、請求項１または２に記載の画像処理装置。
　前記割当部は、前記帳票画像内で、所定の項目名に係る属性が割り当てられた文字列と、所定の項目値に係る属性が割り当てられた文字列とが所定の位置条件を満たす場合、前記所定の項目値に係る属性が割り当てられた文字列に割り当てる属性を特定の項目値に係る属性に変換する、請求項１～３の何れか一項に記載の画像処理装置。
　前記分類部は、単一の項目に係る属性が割り当てられた文字列からなる単一項目グループを抽出し、前記帳票画像内で、前記単一項目グループに含まれる文字列が他のグループに含まれないように、前記複数の文字列を分類する、請求項１～４の何れか一項に記載の画像処理装置。
　前記分類部は、一つのグループに、所定の属性が割り当てられた二以上の文字列が重複して含まれないように、前記複数の文字列を複数のグループに分類する、請求項１～５の何れか一項に記載の画像処理装置。
　前記分類部は、前記二以上の文字列を含む文字列をノードとする最小全域木を生成し、前記最小全域木に含まれ且つ当該二以上の文字列を分割する辺の中で、コストが最大である辺で前記二以上の文字列を含む文字列を分類する、請求項６に記載の画像処理装置。
　前記対象文字列検出部が、前記対象グループに含まれる文字列の中から、前記所定の属性が割り当てられた文字列を検出できなかった場合、前記対象グループに含まれる他の文字列に基づいて、前記対象文字列を推定する推定部をさらに有する、請求項１～７の何れか一項に記載の画像処理装置。
　出力部を有する画像処理装置の制御方法であって、前記画像処理装置が、
　帳票画像を取得し、
　前記帳票画像から複数の文字列を検出し、
　前記複数の文字列毎に属性を割り当て、
　前記帳票画像内の前記複数の文字列の位置関係と、前記複数の文字列に割り当てた属性とに基づいて、前記複数の文字列を複数のグループに分類し、
　前記複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、前記複数のグループの中で前記評価値が最も高いグループを対象グループとして検出し、
　前記対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出し、
　前記対象文字列に関する情報を前記出力部から出力する、
　ことを特徴とする制御方法。
　出力部を有するコンピュータの制御プログラムであって、
　帳票画像を取得し、
　前記帳票画像から複数の文字列を検出し、
　前記複数の文字列毎に属性を割り当て、
　前記帳票画像内の前記複数の文字列の位置関係と、前記複数の文字列に割り当てた属性とに基づいて、前記複数の文字列を複数のグループに分類し、
　前記複数のグループ毎に、各グループに含まれる各文字列に割り当てられた属性に基づいて評価値を算出し、前記複数のグループの中で前記評価値が最も高いグループを対象グループとして検出し、
　前記対象グループに含まれる文字列の中から、所定の属性が割り当てられた文字列を対象文字列として検出し、
　前記対象文字列に関する情報を前記出力部から出力する、
　ことを前記コンピュータに実行させることを特徴とする制御プログラム。