WO2023062798A1

WO2023062798A1 - 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム

Info

Publication number: WO2023062798A1
Application number: PCT/JP2021/038147
Authority: WO
Inventors: 克仁島▲崎▼
Original assignee: 株式会社Pfu
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-04-20

Abstract

情報処理システムに、対象画像の文字認識結果を取得する認識結果取得部と、対象画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列を複数抽出する項目値候補抽出部と、各候補文字列について、複数の項目キーワードと候補文字列との対象画像内での位置関係に基づく特徴量を生成する特徴生成部と、文字列と複数の項目キーワードとの画像内での位置関係に基づく特徴量が入力されることで、当該文字列が抽出対象項目の項目値である妥当性を示す情報が出力されるよう、機械学習により生成された学習済みモデルを記憶するモデル記憶部と、対象画像における各候補文字列の特徴量を学習済みモデルに入力することで、複数の候補文字列から抽出対象項目の項目値を抽出する項目値抽出部とを備えた。

Description

情報処理システム、項目値抽出方法、モデル生成方法及びプログラム

　本開示は、画像に含まれる項目値を抽出するための技術に関する。

　従来、文書画像における抽出対象領域を指定し、抽出対象領域の近傍から抽出用語を含む文字領域を抽出し項目名候補領域とし、抽出対象領域と項目名候補領域とに基づき、抽出ルールを生成する方法であって、項目名候補領域が一つの場合、項目名候補領域を項目名領域として、抽出対象領域と項目名領域との位置関係に基づき抽出ルールを生成し、項目名候補領域が複数あり、複数の項目名候補領域から一つの項目名領域が特定できた場合、抽出対象領域と特定できた項目名領域との位置関係に基づき、抽出ルールを生成する方法が提案されている（特許文献１を参照）。

　また、帳票画像から検出され認識された文字列に対し、項目値表記スコアを計算した後、項目値候補ペアの配置関係に対し、異なる属性の項目値同士の配置関係としての妥当さを表す項目値候補配置スコアを計算し、更に、項目値候補スコアと項目値候補配置スコアの値に基づいて、異なる属性の項目値同士のペアとしての妥当さを表す項目値候補ペアスコアを計算することにより、項目値グループの項目値を決定する方法が提案されている（特許文献２を参照）。

　更に、少なくとも１つのトレーニング文書からの情報を利用する少なくとも１つのスコアリングアプリケーションを利用して、少なくとも１つの可能性あるターゲット値を決定することと、少なくとも１つの新たな文書上で、少なくとも１つのターゲットの少なくとも１つの値を決定するために、少なくとも１つのスコアリングアプリケーションを利用して、少なくとも１つの新たな文書に情報を適用すること、とを含む方法が提案されている（特許文献３を参照）。

特開２０２０－２０５１２号公報特開２０１６－５１３３９号公報特表２０１３－５０９６６３号公報

　従来、文書に記載された情報（項目値）を抽出する技術として、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ、光学文字認識）を用いて、定型帳票から項目値を抽出する技術が提案されている。定型帳票等の定型文書の場合、項目の記載位置（レイアウト）が定まっているため、ＯＣＲによる項目の読み取り位置を事前に定義することで、所望の情報（項目値）を抽出可能である。

　しかし、同一種の文書であっても様々なレイアウト（フォーマット）が存在する文書の場合、原稿によってレイアウトが異なるため、各レイアウトについて、ＯＣＲによる項目の読み取り位置を事前に定義することは煩雑であり、上述した従来の方法では、項目値を抽出することが困難である。

　本開示は、上記した問題に鑑み、レイアウトが定まっていない文書であっても、文書画像から項目値を抽出することを課題とする。

　本開示の一例は、対象画像を文字認識した結果である文字認識結果を取得する認識結果取得手段と、前記対象画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列を複数抽出する項目値候補抽出手段と、各候補文字列について、前記抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと候補文字列との前記対象画像内での位置関係に基づく特徴量を生成する特徴生成手段と、文字列と前記複数の項目キーワードとの画像内での位置関係に基づく特徴量が入力されることで、該文字列が前記抽出対象項目の項目値である妥当性を示す情報が出力されるよう、機械学習により生成された学習済みモデルを記憶するモデル記憶手段と、前記対象画像における各候補文字列の前記特徴量を前記学習済みモデルに入力することで、前記複数の候補文字列から前記抽出対象項目の項目値を抽出する項目値抽出手段とを備える情報処理システムである。

　本開示は、情報処理装置、システム、コンピュータによって実行される方法またはコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。

　本開示によれば、レイアウトが定まっていない文書であっても、文書画像から項目値を抽出することが可能となる。

実施形態に係る情報処理システムの構成を示す概略図である。実施形態に係る学習装置の機能構成の概略を示す図である。実施形態に係る項目値候補の抽出例（学習用画像１）を示す図である。実施形態に係る項目値候補の抽出例（学習用画像２）を示す図である。実施形態に係る正解定義テーブルの一例を示す図である。実施形態に係る方向重みの算出例を示す図である。実施形態に係る学習用画像１における距離重み及び方向重みの算出例を示す図である。実施形態に係る学習用画像２における距離重み及び方向重みの算出例を示す図である。実施形態に係る有効性スコアの算出例を示す図である。実施形態に係る学習用画像１における位置関係情報の抽出例を示す図である。実施形態に係る学習処理時の位置関係情報リストの例を示す図である。実施形態に係る学習処理時の特徴リストの例を示す図である。実施形態に係る情報処理装置の機能構成の概略を示す図である。実施形態に係る抽出対象画像についての位置関係情報リスト及び妥当性スコアの例を示す図である。実施形態に係る学習処理の流れの概要を示すフローチャートである。実施形態に係る項目キーワード決定処理の流れの概要を示すフローチャートである。実施形態に係る学習済みモデル生成処理の流れの概要を示すフローチャートである。実施形態に係る抽出処理の流れの概要を示すフローチャートである。他の実施形態に係る学習装置の機能構成の概略を示す図である。実施形態に係る正解定義生成画面（「請求金額」選択時）の一例を示す図である。実施形態に係る正解定義生成画面（「支払期限」選択時）の一例を示す図である。実施形態に係る正解定義生成処理の流れの概要を示すフローチャートである。

　以下、本開示に係る情報処理システム、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理システム、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。

　本実施形態では、本開示に係る情報処理システム、方法及びプログラムを、帳票画像から項目値を抽出するシステムにおいて実施した場合の実施の形態について説明する。但し、本開示に係る情報処理システム、方法及びプログラムは、文書画像から項目値を抽出するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。

　＜システムの構成＞
　図１は、本実施形態に係る情報処理システム９の構成を示す概略図である。本実施形態に係る情報処理システム９は、ネットワークに接続されることで互いに通信可能な、１又は複数の情報処理装置１、学習装置２及び文書読取装置３（３Ａ、３Ｂ）を備える。学習装置２では、文書内の抽出対象項目（項目属性）の項目値を抽出するための学習済みモデルが生成される。情報処理装置１では、学習装置２において生成された学習済みモデルを用いて、対象画像に含まれる抽出対象項目の項目値が抽出される。

　本実施形態では、文書として帳票を例示するが、文書は、項目（項目値）を含む文書であれば、帳票以外の任意の文書であってよい。なお、本実施形態で、「帳票」とは、帳簿、伝票及び証憑書類等を含む広義の帳票を意味する。また、帳票は、同一種の帳票であっても原稿によってレイアウトの異なるタイプの帳票（準定型帳票）に限らず、予めレイアウトが決まっているタイプの帳票（定型帳票）であってもよい。

　本実施形態で、「項目値」は、項目（項目属性）に対応する値であり、対象の項目について入力（記入）された情報（文字列）である。項目値は、例えば、項目が請求金額の場合、「１２，８００」や「７，３４０」等の数値文字列であり、項目が支払い期限の場合、「２０２１年８月２日」や「２０２２／３／５」等の日付文字列である。

　「項目名」は、項目に対して与えられた名称であり、文書（原稿）に記載される名称である。例えば、項目（項目属性）が請求金額の場合、「請求額」、「合計金額」、「請求合計」等の項目名が記載され、項目が支払い期限である場合、「支払期日」、「振込期限」、「支払期限日」等の項目名が記載される。レイアウトが定まっていない文書では、同一の項目であっても、項目名やその記載位置は、原稿（発行元の会社等）により異なる場合がある。

　「項目属性」は、文書中で実際に付与された項目名に関わらず、同一の概念を示すが複数の互いに異なる項目名が付与され得る項目を統一的に取り扱うために定義される属性である。項目属性は、ユーザにより任意に命名（決定）可能である。例えば、「請求額」、「合計金額」、「請求合計」等の項目名が付与される項目については、項目属性が「請求金額」と決定され、「支払期日」、「振込期限」、「支払期限日」等の項目名が付与される項目については、項目属性が「支払期限」と決定される。上述の通り、項目名は、原稿によって異なる場合があるが、項目属性は、全ての原稿で共通して用いることが可能な名称（属性）である。なお、本実施形態において、「抽出対象項目」は、「抽出対象の項目属性」と同義である。

　「項目キーワード」は、項目名を含む、文書（原稿）に記載された単語列であり、抽出したい情報（項目値）を抽出するための目印となる単語列（キーワード単語列）である。項目キーワードは、項目値と直接関係する項目名の他に、関係の薄い項目名や、項目名以外の単語列をも含み得る。

　情報処理装置１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　ａｎｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の記憶装置１４、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信ユニット１５、キーボードやタッチパネル等の入力デバイス１６及びディスプレイ等の出力デバイス１７、等を備えるコンピュータである。但し、情報処理装置１の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置１は、単一の筐体からなる装置に限定されない。情報処理装置１は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。

　情報処理装置１は、項目値を抽出する対象の文書種である所定の文書種の文書（原稿）における抽出対象項目の項目値を抽出するための学習済みモデル及び項目キーワードリストを学習装置２から取得し、記憶する。また、情報処理装置１は、文書読み取り装置３Ａから、当該所定の文書種の文書（原稿）の画像（抽出対象画像）を取得する。そして、情報処理装置１は、学習済みモデル及び項目キーワードリストを用いることで、抽出対象画像から抽出対象項目の項目値を抽出する。項目値を抽出する対象の文書種（所定の文書種）は、請求書や、注文書、納品書、伝票、経費帳等の、様々な文書の種類に例示される。

　なお、文書画像は、ＴＩＦＦ（Ｔａｇｇｅｄ　Ｉｍａｇｅ　Ｆｉｌｅ　Ｆｏｒｍａｔ）、ＪＰＥＧ（Ｊｏｉｎｔ　Ｐｈｏｔｏｇｒａｐｈｉｃ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）、ＰＮＧ（Ｐｏｒｔａｂｌｅ　Ｎｅｔｗｏｒｋ　Ｇｒａｐｈｉｃｓ）等の電子データ（画像データ）に限らず、ＰＤＦ（Ｐｏｒｔａｂｌｅ　Ｄｏｃｕｍｅｎｔ　Ｆｏｒｍａｔ）による電子データであってもよい。そのため、文書画像は、原稿をスキャンしてＰＤＦ化することにより得られる電子データ（ＰＤＦファイル）や、当初からＰＤＦファイルとして作成された電子データであってもよい。

　なお、抽出対象画像を取得する方法は、上述した例に限定されず、他の装置を介して取得する方法や、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ、ＳＤメモリーカード（Ｓｅｃｕｒｅ　Ｄｉｇｉｔａｌ　ｍｅｍｏｒｙ　ｃａｒｄ）及び光ディスク等の外部記録媒体や記憶装置１４から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、抽出対象画像を、文書読取装置３Ａから取得しない場合は、情報処理システム９に文書読取装置３Ａを備えなくてもよい。また、同様に、学習済みモデル及び項目キーワードリストを取得する方法は、上述した例に限定されず、任意の方法が用いられてよい。

　学習装置２は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、記憶装置２４及び通信ユニット２５等を備えるコンピュータである。但し、学習装置２の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、学習装置２は、単一の筐体からなる装置に限定されない。学習装置２は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。

　学習装置２は、文書読み取り装置３Ｂから、所定の文書種（例えば、請求書）の文書の画像（学習用画像）を取得する。そして、学習装置２は、学習用画像を用いて学習処理を行うことにより、所定の文書種の文書における抽出対象項目の項目値を抽出するための学習済みモデル及び項目キーワードリストを生成する。

　なお、学習用画像を取得する方法は、上述した例に限定されず、他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、学習用画像を、文書読取装置３Ｂから取得しない場合は、情報処理システム９に文書読取装置３Ｂを備えなくてもよい。また、本実施形態では、別装置（別筐体）である情報処理装置１と学習装置２を例示するが、この例に限定されず、情報処理装置９は、学習処理及び原稿種識別処理の両者を行う一の装置（筐体）を備えるようにしてよい。

　文書読取装置３（３Ａ、３Ｂ）は、ユーザからのスキャン指示等を受け、紙媒体の文書を光学的に読み取ることで、文書画像を取得する装置であり、スキャナや複合機等に例示される。文書読取装置３Ａは、データ入力を要する請求書等の、ユーザが項目値を抽出したい帳票（項目値を抽出する対象の帳票）を読み取ることで、抽出対象画像を取得する。文書読取装置３Ｂは、レイアウトが互いに異なる同一種の帳票（所定の文書種の文書）を複数読み取ることで、複数の学習用画像を取得する。なお、文書読取装置３Ａと文書読取装置３Ｂは、同一の装置（筐体）であってもよい。また、文書読取装置３は、他の装置に画像を送信する機能を備えるものに限定されず、デジタルカメラやスマートフォン等の撮像装置であってもよい。また、文書読取装置３は、文字認識（ＯＣＲ）機能を備えなくてもよい。

　図２は、本実施形態に係る学習装置の機能構成の概略を示す図である。学習装置２は、記憶装置２４に記録されているプログラムが、ＲＡＭ２３に読み出され、ＣＰＵ２１によって実行されて、学習装置２に備えられた各ハードウェアが制御されることで、画像取得部５１、認識結果取得部５２、書式定義記憶部５３、項目値候補抽出部５４、正解定義取得部５５、項目キーワード決定部５６、特徴生成部５７、モデル生成部５８及び記憶部５９を備える装置として機能する。なお、本実施形態及び後述する他の実施形態では、学習装置２の備える各機能は、汎用プロセッサであるＣＰＵ２１によって実行されるが、これらの機能の一部又は全部は、１又は複数の専用プロセッサによって実行されてもよい。また、学習装置２が備える各機能部は、単一の筐体からなる装置（１の装置）に実装されるものに限定されず、遠隔に及び／又は分散して（例えば、クラウド上に）実装されてもよい。

　本実施形態では、一般的な帳票（原稿）における項目値と項目名の関係性に基づき、対象帳票（帳票画像）から項目値を抽出するための学習済みモデル及び項目キーワードリストが生成される。以下、原稿における項目値と項目名の関係性（位置関係）に基づく、項目値抽出の概念を説明する。

　通常、項目値に対応する項目名は、項目値の左方向又は上方向に記載されることが多い。また、通常、項目値に対応する項目名は、項目値の近くに記載されることが多い。これらは、定型帳票及び準定型帳票のどちらにも共通する関係性である。例えば、請求金額の項目（項目属性「請求金額」）の項目値を抽出したい場合、その左側近くには、「合計」や「請求額」、「支払金額」、「振込額」等の項目値に対応する項目名が記載され、上方向には、「金額」等、斜め方向には、「消費税」や「小計」、「値引き分」等の関連キーワードが記載される。

　そのため、項目値候補と、当該項目値候補から左方向や上方向に記載された項目キーワード（項目値と関連性があると想定される項目値周囲の単語列）との位置関係から、その項目値候補が目的の項目値（抽出対象項目の項目値）である妥当性を判断することが可能である。つまり、項目値（項目値候補）から左方向及び上方向にどのような項目キーワード（単語列）が、どれくらいの距離及びどの方向に記載されているかを統計的に集計し学習することで、対象項目の項目値である妥当性を判定可能な学習済みモデルを生成可能となる。換言すると、項目値候補の周辺に記載された項目キーワードが何で、どの方向に、どれくらいの距離にあったかを特徴として入力することで、当該項目値候補が対象項目の項目値である妥当性を識別可能なモデルを生成することが可能となる。

　画像取得部５１は、学習処理において使用される複数の学習用画像（サンプル画像）を取得する。画像取得部５１は、学習用画像として、互いにレイアウトが異なる同一種の文書についての複数の画像（画像データ）を取得する。請求書等の帳票は、発行元の会社等が異なると、帳票における項目の記載位置や項目名等のレイアウトが異なる場合がある。そのため、例えば、発行元の異なる複数の請求書の画像を学習用画像として用いる。画像取得部５１は、例えば、ユーザのスキャン指示により、文書読取装置３Ｂにおいて互いにレイアウトが異なる複数の請求書が読み取られると、その読み取り結果である請求書のスキャン画像を学習用画像として取得する。なお、文書画像には、文書中の情報が画像として含まれている。

　なお、各レイアウトの学習用画像の枚数は任意であり、レイアウト毎に一枚の学習用画又は複数枚の学習用画像を用いる。一つのレイアウトにつき複数枚の学習用画像を用いることで、より高精度な学習を行うことが可能である。また、例えば、業務において頻繁に取り扱う請求書（Ａ社が発行する請求書等）がある場合、その請求書のレイアウトについての学習用画像を多くする等、取り扱うレイアウトの頻度（重要度）に合わせて学習用画像の数を調整することにより、ユーザの環境に合わせた学習を行うことが可能である。

　認識結果取得部５２は、各学習用画像についての文字認識結果（文字列データ）を取得する。認識結果取得部５２は、学習用画像全体（全領域）を、ＯＣＲを用いて読み取ることにより、学習用画像についての文字認識結果（以下、「全文ＯＣＲ結果」と称する）を取得する。なお、全文ＯＣＲ結果は、学習用画像内の各文字列（文字列画像）に対する文字認識結果を含むものあれば、データ構造は任意である。なお、全文ＯＣＲ結果を取得する方法は、上述した例に限定されず、ＯＣＲ処理を行う文字認識装置等の他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、本実施形態において、文字列とは、１以上の文字からなる列（文字の連なり）であり、文字には、平仮名、片仮名、漢字、アルファベット、数字、記号等を含む。

　書式定義記憶部５３は、項目値候補を抽出する際に用いられる、抽出対象項目に係る書式定義を記憶する。具体的には、項目値候補抽出処理では、抽出対象項目に係る書式定義に合致（マッチング）した文字列が、当該抽出対象項目の項目値候補として抽出される。そのため、抽出対象項目の項目値となり得る文字列が項目値候補として抽出されるよう、書式定義には、抽出対象項目に関連する文字列書式（抽出対象項目の項目値に該当し得る文字列の書式）が定義される。例えば、日付に関する項目属性「支払期限」の場合、「支払期限」の項目値となり得る文字列が項目値候補として抽出されるよう、項目属性「支払期限」の書式定義には、「支払期限」に関連する文字列書式として、「日付」に関する書式が定義される。また、例えば、金額に関する項目属性「請求金額」の書式定義には、「請求金額」に関連する文字列書式として、「金額」に関する書式が定義される。以下、具体的な書式定義の例を示す。

　例えば、項目属性「支払期限」に係る書式定義には、「日付」に関する書式として、「’￥ｄ｛４｝［￥／￥．￥－］￥ｄ｛１，２｝［￥／￥．￥－］￥ｄ｛１，２｝’￥’｜￥ｄ｛４｝［年］￥ｄ｛１，２｝［月］￥ｄ｛１，２｝［日］’￥’｜（ＪＡＮ（ＵＡＲＹ）？｜ＦＥＢ（ＬＵＡＲＹ）？｜ＭＡＲ（ＣＨ）？｜ＡＰＲ（ＩＬ）？｜ＭＡＹ｜ＪＵＮＥ？｜ＪＵＬＹ？｜ＡＵＧ（ＵＳＴ）？｜ＳＥＰ（ＴＥＭＢＥＲ）？｜ＯＣＴ（ＯＢＥＲ）？｜ＮＯＶ（ＥＭＢＥＲ）？｜ＤＥＣ（ＥＭＢＥＲ）？｜ＪＬＹ）［￥／￥．￥－］？￥ｄ｛１，２｝（ｔｈ）？［￥，￥／￥．￥－］？（￥ｄ｛４｝｜￥ｄ｛２｝）’」」が定義される。この書式定義の例によれば、「２０２０／０８／０９」等のスラッシュを用いた表記による日付や、「２０２１．２．１７」等のピリオドを用いた表記による日付、「２０２０年７月２４日」等の漢字表記による日付、「ＪＡＮ　２３　２０２０」等の英語表記による日付等の、多様な表記（書式）による日付を、項目属性「支払期限」の項目値候補（候補文字列）として抽出可能となる。

　また、他の例として、項目属性「請求金額」に係る書式定義には、「金額」に関する書式として、「’￥ｄ｛０，３｝［．，］？￥ｄ｛０，３｝［．，］？￥ｄ｛１，３｝［．，］￥ｄ｛０，３｝’」が定義される。この書式定義の例によれば、３桁毎の数字と、カンマ又はピリオドの区切り文字を含んだ文字列を、項目属性「請求金額」の項目値候補として抽出可能となる。

　なお、本実施形態では、ユーザにより予め作成された書式定義を例示するが、この例に限定されず、書式定義は、後述する正解定義に基づき自動で生成されてもよい。また、書式定義は、上述した正規表現による書式定義に限定されず、正規表現以外の表現により定義されてもよい。また、上述では、抽出対象の項目属性毎に、項目属性とそれに対する書式定義とを対応付ける例を示したが、これに限定されず、一つの書式定義に対して複数の項目属性を対応付けてもよい。例えば、金額に関する書式（書式定義）と、項目属性「請求金額」及び項目属性「単価」とが対応付けられてもよい。

　項目値候補抽出部５４は、各学習用画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列（項目値候補）を複数抽出する。項目値候補抽出部５４は、抽出対象項目に係る書式定義に合致（マッチング）する文字列を、当該抽出対象項目に係る項目値候補として抽出する。

　図３及び図４は、本実施形態に係る項目値候補の抽出例を示す図である。図３では、請求書についての学習用画像である学習用画像１を例示する。図４では、請求書についての学習用画像である学習用画像２を例示する。図３及び図４では、抽出対象の項目属性が「請求金額」であり、「請求金額」についての書式定義が、書式定義の具体例において例示された書式定義である場合について例示する。この場合、図３において破線で示す通り、項目属性「請求金額」に係る書式定義に合致する文字列（「請求金額」に係る項目値候補）として、「１９９」、「１０」、「１，９９０」、「８５」、「２０」、「１，７００」、「３，６９０」、「３６９」、「４，０５９」が抽出される。同様に、図４において破線で示す通り、項目属性「請求金額」に係る書式定義に合致する文字列（「請求金額」に係る項目値候補）として、「３，２９０」、「１，２００」、「４，４９０」、「４４９」、「４，９３９」が抽出される。

　正解定義取得部５５は、１以上の抽出対象項目と、各学習用画像における当該抽出対象項目の項目値とが対応付けられた正解定義を取得する。本実施形態では、正解定義取得部５５は、学習装置２に、ユーザにより生成（定義）された正解定義が入力されることで、正解定義を取得する。例えば、ユーザは、抽出対象項目（項目属性）を決定し、各学習用画像を参照することで、各学習用画像に記載されている、抽出対象項目の項目値を抽出する。そして、ユーザは、抽出対象項目と、抽出された各学習用画像における当該抽出対象項目の項目値とを対応付ける形で格納することで、正解定義（正解定義テーブル）を生成し、学習装置２に入力する。

　図５は、本実施形態に係る正解定義テーブルの一例を示す図である。図５では、抽出対象の項目属性として、「請求金額」、「支払期限」及び「伝票番号」を例示するが、項目属性はこれらに限定されず任意に設定可能である。図５に示す通り、正解定義（正解定義テーブル）には、複数枚の学習用画像（「Ｓｈｅｅｔ＿００１．ｊｐｇ」、「Ｓｈｅｅｔ＿００２．ｊｐｇ」、及び「Ｓｈｅｅｔ＿００３．ｊｐｇ」等）の夫々における、各項目属性に対応する項目値（正解定義値）が格納されている。

　例えば、「Ｓｈｅｅｔ＿００１．ｊｐｇ」は学習用画像１（図３参照）、「Ｓｈｅｅｔ＿００２．ｊｐｇ」は学習用画像２（図４参照）であり、図３及び図４の学習用画像に夫々記載された、項目属性「請求金額」、「支払期限」及び「伝票番号」の項目値（項目属性に対応する項目名の項目値）が、図５に示された正解定義テーブルに格納されている。例えば、図３に示された学習用画像１に含まれる、項目名「合計」の項目値「４，０５９」が項目属性「請求金額」の正解定義値として、項目名「支払期限」の項目値「２０２１／７／２５」が項目属性「支払期限」の正解定義値として、項目名「伝票番号」の項目値「ＢＮ００００８６８０２２」が項目属性「伝票番号」の正解定義値として、ユーザにより正解定義テーブルに格納される。このように、本実施形態では、ユーザにより、学習用画像に記載された抽出対象項目に対する項目値が入力されることで、正解定義（正解定義テーブル）が生成される。

　なお、項目値（正解定義値）を格納するためのデータ構造はＣＳＶ（ｃｏｍｍａ－ｓｅｐａｒａｔｅｄ　ｖａｌｕｅｓ）形式等のテーブル形式に限定されず、任意の形式であってよい。また、正解定義の取得方法は、上述した例に限定されず、他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。

　項目キーワード決定部５６は、抽出対象項目の項目値を抽出するためのキーワードとなる項目キーワードを複数決定する。後述するように、情報処理装置１では、抽出対象項目の項目値候補が抽出された後、各項目値候補と複数の項目キーワードとの位置関係に基づき、各項目値候補の妥当性が判断され、最も妥当な項目値候補が当該抽出対象項目の項目値として決定される。そのため、項目キーワードは、抽出対象項目の項目値の抽出に有用なキーワードであることが望ましい。

　一方、請求書等に記載される項目名は、発行元の会社により揺らぎがある（異なる）場合があるため、各社からの多様な原稿に対応するためには、出来るだけ多くのキーワードを項目キーワードとして選出することが望ましい。しかし、抽出したい項目とは全く関係のないキーワードやイレギュラーなキーワード等を項目キーワードとして選出した場合、項目値の抽出に対する悪影響や、学習済みモデルの肥大化、処理速度の低下等の問題が懸念される。そのため、本実施形態では、帳票に記載された単語列のうち、項目値抽出に有用であると予測されるキーワードを項目キーワードとして決定（選出）する。以下、項目キーワードの決定方法を説明する。なお、項目キーワード決定部５６は、抽出対象項目毎に、項目キーワードを複数決定する。

　まず、項目キーワード決定部５６は、正解定義に格納されている、抽出対象の項目属性の項目値（正解定義値）の、学習用画像内の位置を特定する。そして、項目キーワード決定部５６は、位置が特定された正解定義値の周囲にある単語列を、当該項目属性の項目キーワード候補として、当該学習用画像の文字認識結果から抽出する。なお、本実施形態において、単語列は、１以上の単語からなる列（単語の並び）である。また、正解定義値の周囲にある単語列とは、正解定義値から所定の範囲内に位置する単語列であり、正解定義値に近接した単語列に限定されず、学習用画像の全領域に含まれる単語列であってもよい。項目キーワード決定部５６は、この項目キーワード候補の抽出処理を、各学習用画像に対して行う。

　例えば、図３に示された学習用画像１の場合、正解定義に格納された、項目属性「請求金額」の正解定義値「４，０５９」の位置が特定され、その周囲にある単語列（例えば、「単価」、「金額」、「小計」、「合計」等）が項目キーワード候補として抽出される。また、例えば、図４に示された学習用画像２の場合、正解定義に格納された、項目属性「請求金額」の正解定義値「４，９３９」の位置が特定され、その周囲にある単語列（例えば、「内容」、「金額」、「小計」、「合計」等）が項目キーワード候補として抽出される。

　本実施形態では、項目キーワード決定部５６は、抽出対象項目毎に、各学習用画像において抽出された項目キーワード候補を含む項目キーワード候補リストを生成する。例えば、まず、正解定義値の周囲にある単語（単体）のリストと、正解定義値の周囲にある、複数単語からなる単語列（単語と当該単語の前後の単語とを組み合わせた単語列）のリストが生成された上で、これらのリストに含まれる単語列を格納する項目キーワード候補リストが生成される。なお、項目キーワード候補リストの生成方法は上述した例に限定されず、任意の方法で生成されてよい。

　このように、単語のみならず、複数単語からなる単語列を項目キーワード候補（項目キーワード）とすることで、例えば、「Ｔｏｔａｌ」と「Ｓｕｂ　Ｔｏｔａｌ」、「Ｄａｔｅ」と「Ｄｕｅ　Ｄａｔｅ」、「Ｉｎｖｏｉｃｅ　Ｄａｔｅ」のように、項目名に他の項目名が含まれる場合にも、夫々を区別して識別し、夫々を項目キーワード候補（項目キーワード）として抽出可能である。これより、意図する項目キーワードが他のキーワードとして混同されることで、項目値の抽出に悪影響が及ぶことを防ぐことが可能となる。

　項目キーワード決定部５６は、各学習用画像で抽出された、抽出対象項目に係る項目キーワード候補から、当該抽出対象項目に係る項目キーワード（当該抽出対象項目の項目値を抽出するための項目キーワード）を決定（選出）する。つまり、夫々が少なくとも一つの学習用画像において抽出された、抽出対象項目に係る項目キーワード候補（項目キーワード候補リスト）の中から、当該抽出対象項目に係る項目キーワードが決定される。

　項目キーワード決定部５６は、項目キーワード候補の属性に基づき、項目キーワード候補から項目キーワードを決定する。項目キーワード候補の属性は、例えば、（１）項目キーワード候補である単語列の学習用画像における出現度合い、（２）学習用画像における、項目キーワード候補（領域）と正解定義値（領域）との間の距離、及び（３）学習用画像における、正解定義値（領域）と項目キーワード候補（領域）の一方から他方に向かう方向（例えば、項目キーワード候補から見た正解定義値の方向）の少なくとも一の属性である。例えば、これら三つの属性のうち何れか一つの属性に基づき項目キーワードが決定されてもよいし、三つの属性のうち二つ又は全ての属性に基づき、項目キーワードが決定されてもよい。これらの属性に基づき項目キーワードを決定することで、項目値と関係性がある（関係性が強い）可能性の高いキーワードを項目キーワードとして選出することが可能となる。以下、各属性に基づき項目キーワードを決定する方法について説明する。

　＜属性（１）項目キーワード候補の出現度合い＞
　多くの原稿（学習用画像）で共通して記載されるキーワードは汎用性が高く、項目値の抽出にも有用（有効）であると予測される。そのため、項目キーワード決定部５６は、多くの原稿で共通して記載されている文字列、即ち、多くの学習用画像において出現している項目キーワード候補ほど、項目キーワードとして選出される可能性を高くする。

　＜属性（２）項目キーワード候補と正解定義値との間の距離＞
　多くの場合、項目名と項目値はセットで記載されるため、両者は近くに記載されると予測される。そのため、項目値の近くに記載されたキーワードは、当該項目値の項目を表す項目名や当該項目値に関連する項目名である可能性が高く、項目値の抽出にも有用であると予測される。そのため、項目キーワード決定部５６は、学習用画像において、正解定義値との距離が小さい項目キーワード候補ほど、項目キーワードとして選出される可能性を高くする。

　＜属性（３）正解定義値と項目キーワード候補の一方から他方に向かう方向＞
　多くの場合、項目名は、項目値の左側又は上側に、項目値と揃えて記載されるため、項目値の水平左方向又は垂直上方向に項目値と揃えて記載されたキーワードは、当該項目値の項目を表す項目名や当該項目値に関連する項目名である可能性が高く、項目の抽出にも有用と予測される。そのため、項目キーワード決定部５６は、学習用画像において、正解定義値の水平左方向又は垂直上方向にある項目キーワード候補ほど、項目キーワードとして選出される可能性を高くする。

　項目キーワード決定部５６は、項目キーワード候補の属性に基づき、項目キーワード候補毎に、項目キーワード候補の、項目値を抽出するためのキーワードとしての有効性を示す有効性スコアを算出し、有効性スコアに基づき項目キーワードを決定してもよい。項目キーワード決定部５６は、例えば、有効性スコアが高い順に所定数（例えば、１００個）の項目キーワード候補を選出し、選出された項目キーワード候補を項目キーワードとして決定する。その他、有効性スコアに対して所定の閾値を設定することで、所定の閾値を超えた項目キーワード候補が項目キーワードとして決定されてもよい。

　有効性スコアは、項目キーワード候補の属性に基づき算出される。例えば、属性（１）の場合、多くの学習用画像で出現している項目キーワード候補ほど有効性スコアが高くなるよう、有効性スコアが算出される。属性（２）の場合、正解定義値との距離が小さい項目キーワード候補ほど有効性スコアが高くなるよう、有効性スコアが算出される。属性（３）の場合、正解定義値の水平左方向又は垂直上方向にある項目キーワード候補ほど有効性スコアが高くなるよう、有効性スコアが算出される。

　なお、有効性スコアは、上述した三つの属性のうち少なくとも１つの属性に基づき算出されればよく、その算出方法は任意である。以下では、上述した三つの属性に基づき有効性スコアを算出する例として、重み付け（距離に基づく重みと方向（角度）に基づく重み）を用いた方法を例示する。この方法では、項目キーワード候補の有効性スコア（有効性合計スコア）Ｓを、下記の数式１により算出する。

　上記の数式１において、Ｓｉは学習用画像ｉの有効性単スコア、ｘｉは学習用画像ｉにおける項目値キーワード候補の出現カウント数、ｗ１ｉは学習用画像ｉにおける属性（２）の重み、ｗ２ｉは習用画像ｉにおける属性（３）の重み、Ｎは学習用画像の数である。

　Ｓｉは、学習用画像ｉの有効性単スコアである。有効性単スコアは、各学習用画像において算出される項目キーワード候補の有効性スコアである。有効性スコア（有効性合計スコア）Ｓは、全ての学習用画像についての有効性単スコアを合計することで算出される。

　ｘｉは、学習用画像における項目キーワード候補の出現カウント数（出現度合いを示す値）であり、例えば、学習用画像の文字認識結果において、当該項目キーワード候補が検出された数（箇所）が、ｘｉに入力される。多くの場合、一枚の学習用画像において項目キーワード候補である単語列は一回のみ出現すると予測され、この場合ｘｉ＝１となる。学習用画像の文字認識結果中に、対象の項目キーワード候補が含まれていない場合は、ｘｉ＝０となる。なお、一枚の学習用画像で同一の項目キーワード候補が複数回検出された場合は、カウント数を検出回数とし、距離重み及び方向重みは、複数回検出されたうちの一回の検出に関する距離重み及び方向重みが用いられてよい。または、各検出について有効性単スコア（カウント数（＝１）×距離重み×方向重み）を算出し、それらを合計することで、当該学習用画像についての有効性単スコアが算出されてもよい。

　なお、本実施形態では、項目キーワード候補の出現カウント数は、学習用画像において項目キーワード候補が検出された数（検出箇所の数）とするが、この例に限定されず、学習用画像において項目キーワード候補が検出されたか否かを示す数値であってもよい。つまり、一枚の学習用画像において項目キーワード候補が複数回検出された場合であっても、ｘｉ＝１としてよい。このように、上述した出現カウント数を用いることで、有効性合計スコアは、項目キーワード候補が出現した学習用画像の数分の有効性単スコアを合計したスコアとなるため、多くの学習用画像において出現する項目キーワード候補ほど有効性スコアが高くなるよう有効性スコアを算出することが可能となる。

　ｗ１ｉは、学習用画像ｉにおける属性（２）の重み（以下、「距離重み」と称する）であり、学習用画像において検出された項目値キーワード候補の文字列と正解定義値との距離が小さい場合、即ち、両者の位置が近い場合に、値（重み）が大きくなるよう算出される。例えば、検出された項目キーワード候補と正解定義値とが原稿（学習用画像）の端と端で離れた場合、即ち、両者の距離が、原稿の対角線の長さと等しい（最長距離である）場合に、距離重みを最小値（例えば、１）とする。一方、検出された項目キーワード候補と正解定義値とが隣接している場合、即ち、両者の距離が最短距離である場合に、距離重みを最大値（例えば、１０）とする。そして、両者間の距離が最小距離と最大距離の間にある場合は、その両者間の距離に応じて距離重みが付与される。例えば、両者の距離が離れるに従い、距離重みが線形に減少するよう算出される。

　ｗ２ｉは、学習用画像ｉにおける属性（３）の重み（以下、「方向重み」と称する）であり、学習用画像において検出された項目値キーワード候補の文字列が正解定義値の水平左方向又は垂直上方向にある場合に、値（重み）が大きくなるよう算出される。具体的には、項目キーワード候補が正解定義値の水平左方向にある度合い又は垂直上方向にある度合いにより、方向重みが算出される。例えば、学習用画像ｉにおける方向重みｗ２ｉを、下記の数式２により算出する。

　上記の数式２において、ｗ２ｈｉは学習用画像ｉにおける属性（３）の第一の重み、ｗ２ｖｉは学習用画像ｉにおける属性（３）の第二の重みである。

　学習用画像ｉにおける属性（３）の第一の重みｗ２ｈｉ（以下、「第一の方向重み」と称する）は、学習用画像ｉにおいて、項目キーワード候補が正解定義値の水平左方向にある度合いに基づく重みである。第一の方向重みは、学習用画像において検出された項目値キーワード候補の文字列が正解定義値の水平左方向にあるほど値が多くなるよう算出される。例えば、項目キーワード候補が正解定義値の水平左方向にある場合、即ち、項目キーワード候補から正解定義値に向かうベクトルが水平右方向（ｘ軸）となす角度（以下、「二点間角度」と称する）が０度の場合に、第一の方向重みを最大値（例えば、１０）とする。そして、ベクトルが傾くにつれ、第一の方向重みの値を小さくし、二点間角度が４５度及び－４５度で最小値（例えば、１）とし、二点間角度が０度±４５度の範囲外にある場合も、最小値（例えば、１）とする。なお、二点間角度は、時計回りを正の向き（角度が増える向き）とする。

　学習用画像ｉにおける属性（３）の第二の重みｗ２ｖｉ（以下、「第二の方向重み」と称する）は、学習用画像ｉにおいて、項目キーワード候補が正解定義値の垂直上方向にある度合いに基づく重みである。第二の方向重みは、学習用画像において検出された項目値キーワード候補の文字列が正解定義値の垂直上方向にあるほど値が多くなるよう算出される。例えば、項目キーワード候補が正解定義値の垂直上方向にある場合、即ち、二点間角度が９０度の場合に、第二の方向重みを最大値（例えば、１０）とする。そして、ベクトルが傾くにつれ、第二の方向重みの値を小さくし、二点間角度が４５度及び１３５度で最小値（例えば、１）とし、二点間角度が９０度±４５度の範囲外にある場合も、最小値（例えば、１）とする。

　なお、本実施形態では、正解定義値及び項目キーワード候補に係る二点間角度を算出することで、方向重みを算出することとしたが、これに限定されず、例えば、正解定義値を原点とした場合に、項目キーワード候補が第一象限～第四象限のうちどの象限にあるかを判定することで、方向重みが算出されてもよい。例えば、項目キーワード候補が第二象限又は第三象限にあると判定された場合に、第一の方向重みが高くなるよう算出されてよい。また、例えば、項目キーワード候補が第一象限又は第二象限にあると判定された場合に、第二の方向重みが高くなるよう算出されてよい。

　図６は、本実施形態に係る方向重みの算出例を示す図である。図６では、横軸を二点間角度とし、縦軸を方向重みとする。また、図６では、方向重み（第一の方向重み、第二の方向重み）の最小値を１、最大値を１０とする。

　二点間角度が０～４５度では、上述の通り、第一の方向重みが第二の方向重みより大きいため、ｗ２ｉ＝ｗ２ｈｉとなる。その結果、図６に示す通り、この角度範囲では、方向重みは最大値１０から最小値１に線形に減少する。また、二点間角度が４５～９０度では、上述の通り、第二の方向重みが第一の方向重みより大きいため、ｗ２ｉ＝ｗ２ｖｉとなる。その結果、図６に示す通り、この角度範囲では、方向重みは最小値１から最大値１０に線形に増加する。また、二点間角度が９０度～１３５度では、上述の通り、第二の方向重みが第一の方向重みより大きいため、ｗ２ｉ＝ｗ２ｖｉとなる。その結果、図６に示す通り、この角度範囲では、方向重みは最大値１０から最小値１に線形に減少する。また、二点間角度が１３５度～３１５度では、上述の通り、第一の方向重み及び第二の方向重みは最小値１であるため、ｗ２ｉ＝ｗ２ｈｉ＝ｗ２ｖｉ＝最小値１となる。また、二点間角度が３１５度～３６０度では、上述の通り、第一の方向重みが第二の方向重みより大きいため、ｗ２ｉ＝ｗ２ｈｉとなる。その結果、図６に示す通り、この角度範囲では、方向重みは最小値１から最大値１０に線形に増加する。

　なお、距離重み及び方向重みの最小値及び最大値は、任意の数値に調整（設定）可能である。また、方向重みが最大値から最小値となる二点間角度の範囲は、±４５度の範囲に限定されるものではなく、任意の角度（範囲）に調整可能である。また、本実施形態では、正解定義値及び項目キーワード候補に係る二点間角度を、項目キーワード候補から正解定義値に向かうベクトルが水平右方向となす角度とするが、当該ベクトルの向きを示す角度であれば、水平右方向に対する角度に限定されない。また、二点間角度は、正解定義値から項目キーワード候補に向かうベクトルが水平右方向となす角度であってもよい。

　また、正解定義値と項目キーワード候補との間の距離及び二点間角度の算出には、学習用画像内の、正解定義値に係る領域及び項目キーワード候補に係る領域内の任意の点が用いられてよい。例えば、学習用画像内の正解定義値と項目キーワード候補夫々に対する外接矩形の左上の頂点が用いられてよい。具体的には、学習用画像内の項目キーワード候補の外接矩形の左上頂点から、当該学習用画像内の正解定義値の外接矩形の左上頂点に向かうベクトルにより、両者間の距離及び二点間角度が算出（抽出）されてよい。以下、学習用画像１及び学習用画像２における、距離重み及び方向重みの算出例を示す。

　図７は、本実施形態に係る学習用画像１における距離重み及び方向重みの算出例を示す図である。図７では、学習用画像１における、項目属性「請求金額」の各項目キーワード候補（「単価」、「金額」、「小計」、「合計」等）についての距離重み及び方向重みの数値例を示す。図７に示す通り、例えば、学習用画像１における、各項目キーワード候補「単価」、「金額」、「小計」、「合計」と、項目属性「請求金額」に対する正解定義値「４，０５９」との距離が夫々、「８８ｍｍ」、「７２ｍｍ」、「３６ｍｍ」、「２９ｍｍ」と算出される。また、図７に示す通り、例えば、学習用画像１における、各項目キーワード候補「単価」、「金額」、「小計」、「合計」から正解定義値「４，０５９」に向かうベクトルの角度（二点間角度）が夫々、「５０度」、「９０度」、「４０度」、「０度」と算出される。

　そして、上述した距離重みと方向重みの算出方法に基づき、上記算出された距離と二点間角度が夫々、距離重みと方向重みに変換される。図７に示す通り、例えば、各項目キーワード候補「単価」、「金額」、「小計」、「合計」の距離重みが、「５」、「６」、「８」、「９」と算出される。また、各項目キーワード候補「単価」、「金額」、「小計」、「合計」の方向重みが、「１」、「１０」、「１」、「１０」と算出される。

　図８は、本実施形態に係る学習用画像２における距離重み及び方向重みの算出例を示す図である。図８では、学習用画像２における、項目属性「請求金額」の各項目キーワード候補（「内容」、「金額」、「小計」、「合計」等）についての距離重み及び方向重みの数値例を示す。図８に示す通り、例えば、学習用画像２における、各項目キーワード候補「内容」、「金額」、「小計」、「合計」と、項目属性「請求金額」に対する正解定義値「４，９３９」との距離が夫々、「８９ｍｍ」、「７８ｍｍ」、「３９ｍｍ」、「３０ｍｍ」と算出される。また、図８に示す通り、例えば、学習用画像２における、各項目キーワード候補「内容」、「金額」、「小計」、「合計」から正解定義値「４，９３９」に向かうベクトルの角度（二点間角度）が夫々、「６１度」、「９０度」、「４５度」、「０度」と算出される。

　そして、上述した距離重みと方向重みの算出方法に基づき、上記算出された距離と二点間角度が夫々、距離重みと方向重みに変換される。図８に示す通り、例えば、各項目キーワード候補「内容」、「金額」、「小計」、「合計」の距離重みが、「５」、「７」、「８」、「９」と算出される。また、各項目キーワード候補「内容」、「金額」、「小計」、「合計」の方向重みが、「４」、「１０」、「１」、「１０」と算出される。

　図９は、本実施形態に係る有効性スコアの算出例を示す図である。図９では、図７及び図８において算出された学習用画像１及び学習用画像２における距離重み及び方向重みに基づき算出された、項目属性「請求金額」に係る各項目キーワード候補の有効性スコアの数値例を示す。図９に示す通り、各項目キーワード候補について、当該項目キーワード候補が検出された学習用画像毎に、距離重み及び方向重みが算出され、算出されたこれらの重みに基づき、有効性スコア（有効性単スコア、有効性合計スコア）が算出される。

　例えば、図７及び図８に示すように、項目キーワード候補「金額」は、学習用画像１及び２の夫々において検出されており、夫々において距離重み及び方向重みが算出されている。例えば、学習用画像１において検出された項目キーワード候補「金額」についての距離重みは「６」、方向重みは「１０」であることから、有効性単スコアは、数式１に基づき、有効性単スコア＝１×６×１０＝６０と算出される。同様に、学習用画像２において検出された項目キーワード候補「金額」についての距離重みは「７」、方向重みは「１０」であることから、有効性単スコアは、数式１に基づき、有効性単スコア＝１×７×１０＝７０と算出される。

　そして、図９に示す通り、項目キーワード候補「金額」についての、学習用画像１から学習用画像Ｎの夫々における有効性単スコアを合計することで、項目属性「請求金額」の項目キーワード候補「金額」についての有効性合計スコアが「５３，３２０」と算出されている。同様に、例えば、項目属性「請求金額」に係る項目キーワード候補「合計」、「内容」についての有効性合計スコアが夫々、「９０，８７０」、「２，２４５」と算出される。なお、項目キーワード決定部５６は、有効性単スコア及び有効性合計スコアの算出結果として、図９に示すような表（学習用画像と、距離重み、方向重み、及び有効性スコア（単スコア、合計スコア）が格納されるテーブル）を生成するようにしてもよい。

　例示した有効性スコアの算出方法等により算出された有効性スコア（有効性合計スコア）に基づき、項目キーワード決定部５６は、項目キーワード候補から複数の項目キーワードを決定する。また、本実施形態では、項目キーワード決定部５６は、抽出対象項目毎に、決定された項目キーワードを含む項目キーワードリストを生成する。生成された項目キーワードリストは、記憶部５９により記憶される。なお、項目キーワードを格納するためのデータ構造はリスト形式に限定されず、その他任意の形式であってもよい。

　準定型帳票についての従来の項目値抽出方法では、項目名と項目値の対応関係を基に項目値の抽出ルールが作成されているが、抽出したい項目値に対応する項目名（キーワード）は、熟練した技術者等が準定型帳票を観察することで決定されていた。しかし、上記説明したように、本実施形態によれば、項目値を抽出（識別）するための項目キーワードを項目キーワード決定部５６により自動で決定することが可能である。そのため、ユーザにより手動で項目キーワードを決定する作業が不要となり、ユーザの作業負荷を軽減することが可能となる。

　特徴生成部５７は、学習用画像内の、抽出対象項目に係る各項目値候補の特徴量を生成する。特徴生成部５７は、学習用画像内での抽出対象項目に係る複数の項目キーワードと項目値候補との位置関係に基づき、当該項目値候補の特徴量を生成する。特徴生成部５７は、各学習用画像の項目値候補の特徴量を生成する。後述する学習処理では、各項目値候補の特徴量を、項目値を抽出するための特徴量（学習済みモデルの入力）とする。

　特徴生成部５７は、学習用画像内での抽出対象項目に係る複数の項目キーワードと当該項目値候補との位置関係を示す情報（以下、「位置関係情報」と称する）に基づき、項目値候補の特徴量を生成する。位置関係情報には、項目値候補と項目キーワードとの間の距離を示す情報、及び、項目値候補と項目キーワードの一方から他方に向かう方向を示す情報を用いる。本実施形態では、位置関係情報として、学習用画像内での項目値候補と項目キーワードとの間の距離（ｍｍ）及び学習用画像内での項目キーワードから項目値候補に向かうベクトルの角度（二点間角度）（ｄｅｇ）を用いる。

　図１０は、本実施形態に係る学習用画像１における位置関係情報の抽出例を示す図である。図１０に示す通り、学習用画像１における項目属性「請求金額」の項目値候補「３，６９０」の場合、項目属性「請求金額」に係る各項目キーワード（「合計」、「小計」、「金額」等）から項目値候補「３，６９０」に向かうベクトルの長さと向き（両者間の距離及び方向（二点間角度））が位置関係情報として抽出される。

　なお、項目値候補及び項目キーワードに係る二点間角度は、上述した、正解定義値及び項目キーワード候補に係る二点間角度と同様に、水平右方向に対する角度に限定されず、また、項目値候補から項目キーワードに向かうベクトルについての角度であってもよい。また、項目値候補と項目キーワードとの間の距離及び二点間角度の算出には、学習用画像内の、項目値候補に係る領域及び項目キーワードに係る領域内の任意の点を用いてよい。特徴生成部５７は、抽出対象項目毎に、位置関係情報を格納する位置関係情報リストを生成する。

　図１１は、本実施形態に係る学習処理時の位置関係情報リストの例を示す図である。図１１は、項目属性「請求金額」についての位置関係情報リストを示す。図１１に示す通り、位置関係情報リストには、各学習用画像において抽出された、項目属性「請求金額」の各項目値候補と、項目属性「請求金額」に係る複数の項目キーワードとの位置関係情報（距離及び二点間角度）が格納される。図１１に示す通り、例えば、学習用画像１における、項目属性「請求金額」の項目値候補（「３，６９０」、「４，０５９」、「１，９９０」等（図３参照））と、項目属性「請求金額」に係る複数の項目キーワード（「合計」、「小計」、「金額」、「請求額」等）との位置関係を示す情報が格納される。

　なお、位置関係情報（距離及び二点間角度）の単位は、図１１に示した単位（ｍｍ、ｄｅｇ）に限定されない。また、図１１の位置関係情報リスト中の項目キーワード「請求額」は、学習用画像１に含まれないキーワードであるため、項目キーワード「請求額」との距離及び二点間角度を夫々、該当なしを示す値「９９９」、「－（ハイフン）」としたが、該当なしを示す値はこれらの値に限定されず、任意の数値や文字、記号等が用いられてよい。また、本実施形態では、位置関係情報を格納するためのデータ構造としてリスト形式（テーブル形式）を例示するが、データ構造は、その他任意の形式であってよい。

　そして、特徴生成部５７は、抽出された位置関係情報（両者間の距離及び二点間角度）に基づき、項目値候補の特徴量（距離特徴量及び方向特徴量）を生成する。本実施形態では、項目値候補と項目キーワードとが関連（関係）する（項目キーワードが項目値候補に関連するキーワードとして有力である）可能性の高さに応じて、距離及び二点間角度を夫々、距離特徴量及び方向特徴量に変換する。これより、項目値候補と項目キーワードとの関連性の強さに応じた特徴量を学習することが可能となるため、より精度の高い項目値抽出が可能となる。

　＜距離特徴量の生成＞
　距離特徴量は、項目値候補と項目キーワードとの間の距離を示す情報に基づく特徴量である。上述の通り、多くの場合、項目名と項目値はセットで記載されるため、両者は近くに記載されると予測される。そのため、項目値候補と項目キーワードとの間の距離が小さい方が、項目値候補と項目キーワードとが関連する可能性が高いと予測される。よって、特徴生成部５７は、両者間の距離に応じて値が増減するよう、距離特徴量を生成（算出）する。本実施形態では、両者間の距離が小さいほど、距離特徴量の値が増えるよう算出される。例えば、距離特徴量を、両者が近接した場合に最大値の１００ポイントとし、両者が離れるほど値を減少させ、両者が原稿の端と端に位置する場合に最小値の０ポイントとする。

　＜方向特徴量への変換＞
　方向特徴量は、項目値候補と項目キーワードの一方から他方に向かう方向を示す情報に基づく特徴量である。上述の通り、多くの場合、項目名は、項目値の左側又は上側に、項目値と揃えて記載される。そのため、項目キーワードが項目値候補の水平左方向にある場合と垂直上方向にある方が、項目値候補と項目キーワードとが関連する可能性が高いと予測される。よって、特徴生成部５７は、項目キーワードが項目値候補の水平左方向にある度合い及び垂直上方向にある度合いに応じて値が増減するよう、方向特徴量を生成（算出）する。本実施形態では、方向特徴量を、項目キーワードが項目値候補の水平左方向にある度合いに応じて増減する水平方向特徴量と、垂直上方向にある度合いに応じて増減する垂直方向特徴量の二つの特徴量に分割する。

　本実施形態では、項目キーワードが項目値候補の水平左方向にあるほど、水平方向特徴量の値が増えるよう算出される。同様に、項目キーワードが項目値候補の垂直上方向にあるほど、垂直方向特徴量の値が増えるよう算出される。例えば、水平方向特徴量を、二点間角度が０度の場合（項目値候補の水平左方向に項目キーワードがある場合）に最大値の１００ポイントとし、両者間のベクトルが傾くにつれ値を減少させ、二点間角度が０度±９０度の場合に最小値の０ポイントとする。なお、二点間角度が０度±９０度の範囲外にある場合も、水平方向特徴量を最小値の０ポイントとする。同様に、垂直方向特徴量を、二点間角度が９０度である場合（項目値候補の垂直上方向に項目キーワードがある場合）に最大値の１００ポイントとし、両者間のベクトルが傾くにつれ値を減少させ、二点間角度が９０度±９０度の場合に最小値の０ポイントとする。なお、二点間角度が９０度±９０度の範囲外にある場合も、垂直方向特徴量を最小値の０ポイントとする。なお、特徴量の最大値及び最小値は、任意の数値に調整（設定）可能である。

　特徴生成部５７は、位置関係情報に基づく項目値候補の特徴量（距離特徴量及び方向特徴量）を格納する特徴リストを生成する。

　図１２は、本実施形態に係る学習処理時の特徴リストの例を示す図である。図１２に示す通り、両者間の距離が小さいほど距離特徴量が大きくなるよう算出されている。また、項目キーワードが項目値候補の水平左方向にあるほど水平方向特徴量が大きくなるよう算出され、項目キーワードが項目値候補の垂直上方向にあるほど垂直方向特徴量が大きくなるよう算出されている。

　なお、本実施形態では、項目値候補と項目キーワードとが関連する可能性が高い場合に特徴量が大きく（ポイントが高く）なるよう算出する例を示したが、この例に限定されず、関連する可能性が高い場合に特徴量が小さくなるよう算出されてもよい。また、学習済みモデルの入力となる項目値候補の特徴量は、位置関係情報そのものであってもよい。

　モデル生成部５８は、機械学習（教師あり学習）を行うことで、所定の文書種についての抽出対象項目毎に、抽出対象項目の項目値を抽出するための学習済みモデルを生成する。機械学習には、各学習用画像についての、項目値候補の特徴量と、当該項目値候補が抽出対象項目の項目値（正解定義値）であるか否かを示す情報（正解ラベル）とが、対応付けられた学習データ（特徴量と正解ラベルのデータセット（教師データ））が用いられる。

　項目値候補が正解定義値であるか否かを示す情報（正解ラベル）は、正解定義取得部５５により取得された正解定義に基づく情報である。例えば、図１２に示された、学習用画像１における項目属性「請求金額」に係る項目値候補「４，０５９」は、図５に示された正解定義中の、学習用画像１における項目属性「請求金額」の正解定義値と一致するため、当該項目値候補についての正解ラベルが「正解（例えば、ラベル１）」と決定される。また、例えば、図１２に示された、学習用画像２における項目属性「請求金額」に係る項目値候補「３，６９０」は、図５に示された正解定義中の、学習用画像１における項目属性「請求金額」に係る正解定義値と一致しないため、当該項目値候補についての正解ラベルが「不正解（例えば、ラベル０）」と決定される。上述した学習データを用いて機械学習を行うことにより、項目値の特徴量（位置関係）を学習することが可能となる。

　これより、画像内の文字列の特徴量（当該文字列と抽出対象項目に係る複数の項目キーワードとの画像内での位置関係に基づく特徴量）を入力することで、当該文字列が抽出対象項目の項目値であるか否かを判定可能な識別器を生成することが可能である。より具体的には、文字列の特徴量を入力することで、当該文字列が抽出対象項目の項目値である妥当性を示す情報を出力可能な識別器（学習済みモデル）を生成可能である。なお、文字列が抽出対象項目の項目値である妥当性を示す情報は、文字列が抽出対象項目の項目値であるか否かを示す情報（ラベル等）及び／又は文字列が抽出対象項目の項目値である確からしさを示す情報（信頼度や確率等）である。生成された学習済みモデルは、記憶部５９により記憶される。

　なお、学習済みモデルには、分類型（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）の学習モデルを使用するが、学習済みモデルは、識別モデルや生成モデル等、任意のモデルであってよい。また、機械学習の方法は任意であり、ランダムフォレストや、ナイーブベイズ、決定木、ロジスティック回帰、ニューラルネットワーク等のうち任意の方法が用いられてよい。また、本実施形態では、各項目値候補について、項目値候補と複数の項目キーワードとの位置関係に基づく特徴量と、当該項目値候補が抽出対象項目の項目値であるか否かを示す情報とが対応付けられた学習データを使用したが、この例に限定されない。例えば、各学習用画像に含まれる、抽出対象項目の項目値（正解定義値）である文字列及び他の文字列の各文字列について、文字列と複数の項目キーワードとの位置関係に基づく特徴量と、当該文字列が抽出対象項目の項目値であるか否かを示す情報とが対応付けられた学習データが用いられてもよい。

　記憶部５９は、各抽出対象項目について、項目キーワード決定部５６により生成された項目キーワードリストと、モデル生成部５８により生成された、項目属性の項目値を抽出するための学習済みモデルを記憶する。記憶部５８は、項目キーワードリストと学習済みモデルを、抽出対象項目毎に対応付けて記憶してよい。

　図１３は、本実施形態に係る情報処理装置の機能構成の概略を示す図である。情報処理装置１は、記憶装置１４に記録されているプログラムが、ＲＡＭ１３に読み出され、ＣＰＵ１１によって実行されて、情報処理装置１に備えられた各ハードウェアが制御されることで、画像取得部４１、認識結果取得部４２、モデル記憶部４３、項目キーワードリスト記憶部４４、書式定義記憶部４５、項目値候補抽出部４６、特徴生成部４７及び項目値抽出部４８を備える装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置１の備える各機能は、汎用プロセッサであるＣＰＵ１１によって実行されるが、これらの機能の一部又は全部は、１又は複数の専用プロセッサによって実行されてもよい。また、情報処理装置１が備える各機能部は、単一の筐体からなる装置（１の装置）に実装されるものに限定されず、遠隔に及び／又は分散して（例えば、クラウド上に）実装されてもよい。

　画像取得部４１は、項目値抽出処理において項目値を抽出する対象となる帳票画像（以下、「抽出対象画像」と称する）を取得する。本実施形態では、画像取得部４１は、例えば、ユーザのスキャン指示により抽出対象の原稿（文書）が文書読取装置３Ａにおいて読み取られると、その読み取り結果であるスキャン画像を抽出対象画像として取得する。

　認識結果取得部４２は、抽出対象画像についての文字認識結果（全文ＯＣＲ結果）を取得する。なお、認識結果取得部４２における処理は、認識結果取得部５２における処理の説明と同様であるため、詳細の説明を省略する。

　モデル記憶部４３は、学習装置２において生成された、所定の文書種についての抽出対象項目の項目値を抽出するための学習済みモデルを記憶する。なお、モデル記憶部５４は、抽出対象項目毎に、学習済みモデルを記憶する。学習済みモデルの詳細については、学習装置２の機能構成（モデル生成部５８）の説明において記述したため、説明を省略する。

　項目キーワードリスト記憶部４４は、学習装置２において生成された、所定の文書種についての抽出対象項目の項目値を抽出するための項目キーワードリストを記憶する。なお、項目キーワードリスト記憶部４４は、抽出対象項目毎に、項目キーワードリストを記憶する。項目キーワードリストの詳細については、学習装置２の機能構成（項目キーワード決定部５６）の説明において記述したため、説明を省略する。

　書式定義記憶部４５は、項目値候補抽出処理に用いられる、抽出対処項目に係る書式定義を記憶する。書式定義の詳細については、学習装置２の機能構成（書式定義記憶部５３）の説明において記述したため、説明を省略する。なお、書式定義記憶部４５により記憶される書式定義は、抽出対象項目に関連する文字列書式を定義するものであれば、書式定義記憶部５３が記憶する書式定義と同一の書式定義に限定されず、書式定義記憶部５３が記憶する書式定義とは別の書式定義であってもよい。

　項目値候補抽出部４６は、抽出対象画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列（項目値候補）を抽出する。項目値候補抽出部４６は、認識結果取得部４２により取得された文字認識結果から、書式定義記憶部４５により記憶されている項目属性に係る書式定義に合致する文字列を、当該項目属性の項目値候補として抽出する。なお、項目値候補抽出部４６による項目値候補抽出方法は、学習装置２の機能構成（項目値候補抽出部５４）において説明した方法と同様であるため、詳細の説明を省略する。

　特徴生成部４７は、抽出対象画像内の、抽出対象項目に係る各項目値候補の特徴量を生成する。特徴生成部４７は、項目キーワードリスト記憶部４４により記憶された、抽出対象項目に係る複数の項目キーワードと、項目値候補抽出部４６により抽出された、当該抽出対象項目に係る目値候補との位置関係に基づき、項目値候補の特徴量を生成する。特徴生成部４７による特徴量の生成方法は、学習装置２の機能構成（特徴生成部５７）において説明した方法と同様であるため、詳細の説明を省略する。

　また、特徴生成部４７は、抽出対象画像についての位置関係情報リスト及び特徴リストを生成するが、これらのリストは、特徴生成部５７により生成される位置関係情報リスト及び特徴リスト（図１０及び図１１）と同様であるため、詳細の説明を省略する。但し、特徴生成部５７により生成されるリスト（図１０及び図１１）では、各学習用画像における項目値候補を対象としていたが、特徴生成部４７により生成される特徴リストでは、それとは異なり、抽出対象画像における項目値候補のみを対象とする。

　項目値抽出部４８は、学習済みモデルを用いて、抽出対象画像における抽出対象項目に係る複数の項目値候補から、当該抽出対象項目の項目値として尤もらしい項目値候補を抽出（決定）する。項目値抽出部４８は、抽出対象項目に係る各項目値候補の特徴量（距離特徴量及び方向特徴量）を、当該抽出対象項目に係る学習済みモデルに入力することで、各項目値候補が当該抽出対象項目の項目値として妥当か否かを判定する。項目値抽出部４８は、判定結果（抽出した項目値候補）を出力する。上述の通り、文字列の特徴量が学習済みモデルに入力されると、当該文字列が抽出対象項目の項目値である妥当性を示す情報（ラベル及び／又は確率）が学習済みモデルから出力される。本実施形態では、項目値抽出部４８は、各項目値候補の特徴量を学習済みモデルに入力することで、各項目値候補が抽出対象項目の項目値であるか否かを示す情報（ラベル（例えば、抽出対象項目の項目値の場合はラベル「１」、そうでない場合はラベル「０」））及び各項目値候補が抽出対象項目の項目値である確からしさを示す情報（信頼度や確率等）を取得する。

　なお、例えば、抽出対象項目の項目値である確率が、抽出対象項目の項目値でない確率を上回る場合や所定の閾値を超える場合等に、抽出対象項目の項目値であると判定可能である。そのため、項目値抽出部４８は、学習済みモデルから、抽出対象項目の項目値である確率のみを取得し、取得した確率に基づき、抽出対象項目の項目値であるか否かを判定するようにしてもよい。

　また、項目値抽出部４８は、学習済みモデルから出力される、項目値候補が抽出対象項目の項目値である確からしさを示す情報（信頼度や確率等）に基づき、項目値候補が抽出対象項目の項目値である確からしさを示す妥当性スコアを算出する。なお、妥当性スコアは、学習済みモデルから出力された確からしさを示す情報（確率等）自体であってもよいし、確からしさを示す情報（確率等）に基づき算出された数値（スコア）であってもよい。以下、妥当性スコアを用いた項目値抽出方法について説明する。

　項目値抽出部４８は、抽出対象項目の項目値として妥当と判定された項目値候補が一つである場合、当該項目値候補を、当該抽出対象項目の項目値として決定する。一方、抽出対象項目の項目値として妥当と判定された項目値候補が複数ある場合、項目値抽出部４８は、その複数の項目値候補のうち、妥当性スコアが最も高い項目値候補を、抽出対象項目の項目値として尤もらしい項目値候補であると判定し、当該項目値候補を、当該抽出対象項目の項目値として決定する。なお、全ての項目値候補についての妥当性スコアを比較することで、最も妥当性スコアが高い項目値候補を判定するようにしてもよい。

　図１４は、本実施形態に係る抽出対象画像についての位置関係情報リスト及び妥当性スコアの例を示す図である。図１４では、抽出対象画像において抽出された、項目属性「請求金額」に係る複数の項目値候補（「４，０００」、「４，４００」、「１，８００」等）と、項目属性「請求金額」に係る複数の項目キーワード（「合計」、「小計」、「金額」、「請求額」等）との位置関係に係る位置関係情報リストを例示する。図１４に示された位置関係情報に基づく特徴量が学習済みモデルに入力されることで、学習済みモデルから各項目値候補についての信頼度等（妥当性スコア）が出力される。図１４に示す通り、各項目値候補「４，０００」、「４，４００」、「１，８００」の特徴量が学習済みモデルに入力されることで、各項目値候補についての妥当性スコアが、「３４」、「９７」、「１３」と算出され、妥当性スコアが最も高い「４，４００」が項目属性「請求金額」の項目値として決定される。

　＜処理の流れ＞
　次に、本実施形態に係る学習装置２によって実行される学習処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の態様に応じて適宜選択されてよい。

　図１５は、本実施形態に係る学習処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、学習装置２において、帳票（文書）のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置２４に記憶された帳票画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。

　ステップＳ１０１では、複数の文書画像（学習用画像）が取得される。画像取得部５１は、所定の文書種（例えば、請求書）の互いにレイアウトが異なる文書（原稿）についてのスキャン画像を取得する。その後、処理はステップＳ１０２へ進む。

　ステップＳ１０２では、正解定義が取得される。正解定義取得部５５は、所定の文書種（例えば、請求書）についての抽出対象の項目属性（例えば、請求金額）と、各学習用画像における当該項目属性の正解定義値とが対応付けられた正解定義を取得する。その後、処理はステップＳ１０３へ進む。

　ステップＳ１０３では、文字認識結果（全文ＯＣＲ結果）が取得される。認識結果取得部５２は、ステップＳ１０１で取得された各学習用画像に対して文字認識を行うことで、各学習用画像についての文字認識結果を取得する。なお、ステップＳ１０２とステップＳ１０３は順不同である。また、ステップＳ１０１とステップＳ１０２は順不同である。その後、処理はステップＳ１０４へ進む。

　ステップＳ１０４では、項目キーワード決定処理が行われる。項目キーワード決定処理では、抽出対象の項目属性のうち一の項目属性（例えば、「請求金額」）に係る項目値を抽出するための複数の項目キーワードが決定される。項目キーワード決定処理の詳細については、図１６を用いて後述する。その後、処理はステップＳ１０５へ進む。

　ステップＳ１０５では、学習済みモデル生成処理が行われる。学習済みモデル生成処理では、抽出対象の項目属性のうち一の項目属性（例えば、「請求金額」）の項目値を抽出するための学習済みモデルが生成される。学習済みモデル生成処理の詳細については、図１７を用いて後述する。その後、処理はステップＳ１０６へ進む。

　ステップＳ１０６では、全ての抽出対象項目について、項目キーワード決定処理（ステップＳ１０４）及び学習済みモデル生成処理（ステップＳ１０５）が実行されたか否かが判定される。ＣＰＵ２１は、各抽出対象項目について、項目キーワードリスト及び学習済みモデルが生成されたか否かを判定する。なお、正解定義を参照することで、全ての抽出対象項目を確認（認識）可能である。全ての抽出対象項目について処理済みでない場合（ステップＳ１０６のＮＯ）、処理はステップＳ１０４に戻り、処理済みでない抽出対象項目（例えば、項目属性「支払期限」）について、項目キーワード決定処理及び学習済みモデル生成処理が実行される。一方、全ての抽出対象項目について処理済みである場合（ステップＳ１０６のＹＥＳ）、本フローチャートに示された処理は終了する。

　図１６は、本実施形態に係る項目キーワード決定処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図１５においてステップＳ１０３の処理が終了したことを契機として実行される。なお、本フローチャートでは、抽出対象の項目属性が「請求金額」である場合の処理について例示する。なお、項目キーワード決定処理は、学習用画像の分析を行う分析処理に該当する。

　ステップＳ１０４１では、全ての学習用画像のうち一の学習用画像において、抽出対象項目の正解定義値の位置が特定される。項目キーワード決定部５６は、例えば、正解定義（図５参照）中の、学習用画像１の項目属性「請求金額」の正解定義値「４，０５９」が、学習用画像１内のどの位置に記載されているかを特定する。その後、処理は、ステップＳ１０４２へ進む。

　ステップＳ１０４２では、全ての学習用画像のうち一の学習用画像において、抽出対象項目の正解定義値の周囲にある単語列が、当該抽出対象項目に係る項目キーワード候補として抽出される。項目キーワード決定部５６は、学習用画像の文字認識結果から項目キーワード候補を抽出する。例えば、ステップＳ１０４１で位置が特定された学習用画像１内の正解定義値「４，０５９」の周囲にある文字列画像に対する認識文字列が、項目属性「請求金額」の項目キーワード候補として抽出される（図７参照）。その後、処理はステップＳ１０４３へ進む。

　ステップＳ１０４３では、全ての学習用画像について、項目属性「請求金額」に係る項目キーワード候補が抽出されたか否か（ステップＳ１０４１及びステップＳ１０４２の処理を実行済みか）が判定される。ＣＰＵ２１は、全ての学習用画像の夫々において、項目属性「請求金額」に係る項目キーワード候補が抽出されたか否かを判定する。全ての学習用画像において処理済みでない場合（ステップＳ１０４３のＮＯ）、処理はステップＳ１０４１に戻り、処理済みでない学習用画像（例えば、学習用画像２）についての処理が実行される。一方、全ての学習用画像において処理済みである場合（ステップＳ１０４３のＹＥＳ）、処理はステップＳ１０４４へ進む。

　ステップＳ１０４４では、項目属性「請求金額」についての項目キーワードが決定される（項目キーワードリストの生成）。項目キーワード決定部５６は、ステップＳ１０４２において抽出された各学習用画像における項目属性「請求金額」に係る項目キーワード候補の中から、項目属性「請求金額」に係る項目キーワードを複数選択し、項目キーワードリストを生成する。そして、記憶部５９は、生成された項目キーワードリストを記憶する。その後、本フローチャートに示された処理は終了する。

　図１７は本実施形態に係る学習済みモデル生成処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図１５においてステップＳ１０４の処理（図１６の処理）が終了したことを契機として実行される。なお、本フローチャートでも、項目属性が「請求金額」である場合の処理について例示する。

　ステップＳ１０５１では、全ての学習用画像のうち一の学習用画像についての文字認識結果から、抽出対象項目に係る項目値候補が抽出される。項目値候補抽出部５４は、書式定義記憶部５３が記憶する抽出対象項目に係る書式定義を用いて、当該抽出対象項目に係る項目値候補を抽出する。項目値候補抽出部５４は、例えば、学習用画像１の文字認識結果から、項目属性「請求金額」に係る書式定義に合致する単語列を、学習用画像１における項目属性「請求金額」に係る項目値候補として抽出する。その後、処理は、ステップＳ１０５２へ進む。

　ステップＳ１０５２では、全ての学習用画像のうち一の学習用画像において、抽出対象項目に係る項目キーワードの位置（箇所）が特定される。特徴生成部５７は、例えば、学習用画像１の文字認識結果から、項目属性「請求金額」に係る項目キーワードリスト中の項目キーワードと一致する単語列を探索し、一致した単語列（項目キーワード）が学習用画像１のどの位置に記載されているかを特定する。その後、処理は、ステップＳ１０５３へ進む。

　ステップＳ１０５３では、全ての学習用画像のうち一の学習用画像について、学習用画像内での項目値候補と複数の項目キーワードとの位置関係に基づく、項目値候補の特徴量が生成される。特徴生成部５７は、ステップＳ１０５２で特定された項目キーワードの位置を用いて、ステップＳ１０５１で抽出された各項目値候補の特徴量を生成する。例えば、特徴生成部５７は、学習用画像１における項目属性「請求金額」の各項目値候補の特徴量を、項目値候補と項目属性「請求金額」に係る複数の項目キーワードとの位置関係に基づき生成する。その後、処理は、ステップＳ１０５４へ進む。

　ステップＳ１０５４では、全ての学習用画像について、項目値候補の特徴量が生成されたか否か（ステップＳ１０５１からステップＳ１０５３の処理を実行済みか）が判定される。ＣＰＵ２１は、全ての学習用画像の夫々において、項目属性「請求金額」に係る各項目値候補の特徴量が生成されたか否かを判定する。全ての学習用画像において処理済みでない場合（ステップＳ１０５４のＮＯ）、処理はステップＳ１０５１に戻り、処理済みでない学習用画像（例えば、学習用画像２）についての処理が実行される。一方、全ての学習用画像において処理済みである場合（ステップＳ１０５４のＹＥＳ）、処理はステップＳ１０５５へ進む。

　ステップＳ１０５５では、特徴量及び正解定義（項目値候補が正解定義値であるか否かを示す情報）を用いて、抽出対象項目についての学習済みモデルが生成される。モデル生成部５８は、ステップＳ１０５３において生成された項目属性「請求金額」に係る項目値候補の特徴量と、当該項目値候補が正解定義値であるか否かを示す情報とが対応付けられた学習データを用いて、項目属性「請求金額」に係る学習済みモデルを生成する。そして、記憶部５９は、生成された学習済みモデルを記憶する。その後、本フローチャートに示された処理は終了する。

　上述の通り、準定型帳票等の所定の文書種の文書に係る画像と、当該画像に対応した正解定義を用いるだけで、学習済みモデル及び項目キーワードリストを自動で生成することが可能となる。

　図１８は、本実施形態に係る抽出処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置１において、帳票（文書）のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置１４に記憶された帳票画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでも、項目属性が「請求金額」である場合の処理について例示する。

　ステップＳ２０１では、文書画像（抽出対象画像）が取得される。画像取得部４１は、所定の文書種（例えば、請求書）の文書（原稿）についてのスキャン画像を取得する。その後、処理はステップＳ２０２へ進む。

　ステップＳ２０２では、文字認識結果（全文ＯＣＲ結果）が取得される。認識結果取得部４２は、ステップＳ２０１で取得された抽出対象画像に対して文字認識を行うことで、抽出対象画像についての文字認識結果（全文ＯＣＲ結果）を取得する。その後、処理はステップＳ２０３へ進む。

　ステップＳ２０３では、抽出対象画像の文字認識結果から、抽出対象項目に係る項目値候補が抽出される。項目値候補抽出部４６は、書式定義記憶部４５が記憶する項目属性「請求金額」に係る書式定義に合致する単語列を、項目属性「請求金額」に係る項目値候補として抽出する。その後、処理は、ステップＳ２０４へ進む。

　ステップＳ２０４では、抽出対象画像における、抽出対象項目に係る項目キーワードの位置（箇所）が特定される。特徴生成部４７は、抽出対象画像の文字認識結果から、項目属性「請求金額」に係る項目キーワードリスト中の項目キーワードと一致する単語列を探索し、一致した単語列（項目キーワード）が抽出対象画像のどの位置に記載されているかを特定する。その後、処理は、ステップＳ２０５へ進む。

　ステップＳ２０５では、抽出対象画像内での項目値候補と複数の項目キーワードとの位置関係に基づく、項目値候補の特徴量が生成される。特徴生成部４７は、ステップＳ２０４で特定された項目キーワードの位置を用いて、ステップＳ２０３で抽出された項目属性「請求金額」に係る各項目値候補の特徴量を生成する。その後、処理は、ステップＳ２０６へ進む。

　ステップＳ２０６では、抽出対象項目に係る各項目値候補の特徴量と学習済みモデルを用いて、各項目値候補の妥当性が判定される。項目値抽出部４８は、モデル記憶部４３に記憶された項目属性「請求金額」の学習済みモデルに、ステップＳ２０５で生成された、項目属性「請求金額」に係る各項目値候補の特徴量を入力することで、各項目値候補が、項目属性「請求金額」の項目値として妥当か否かを判定する。また、項目値抽出部４８は、当該学習済みモデルを用いて、各項目値候補について、項目値候補が当該項目値である確からしさを示す妥当性スコアを算出する。その後、処理は、ステップＳ２０７へ進む。

　ステップＳ２０７では、妥当性スコアに基づき、抽出対象項目の項目値として尤もらしい項目値候補が選出（抽出）される。項目値抽出部４８は、ステップＳ２０６において項目値として妥当と判定された項目値候補が一つである場合、当該項目値候補を、抽出対象の項目値として尤もらしい項目値候補（抽出対象項目の項目値）と決定する。一方、抽出対象の項目値として妥当と判定された項目値候補が複数ある場合、その複数の項目値候補のうち、ステップＳ２０６で算出された妥当性スコアが最も高い項目値候補を、抽出対象の項目値として尤もらしい項目値候補（抽出対象項目の項目値）と決定する。

　そして、項目値抽出部４８は、決定（抽出）した項目値を出力する。これより、例えば、項目値抽出部４８により出力された項目値がシステムに入力されることで、帳票の入力業務を自動化（半自動化）することが可能となる。その後、処理はステップＳ２０８へ進む。

　ステップＳ２０８では、全ての抽出対象項目について項目値が抽出されたか否かが判定される。ＣＰＵ１１は、各抽出対象項目についての項目値（尤もらしい項目値候補）が抽出されたか否かを判定する。なお、正解定義を参照することで、全ての抽出対象項目を確認（認識）可能である。全ての抽出対象項目の項目値が抽出されていない場合（ステップＳ２０８のＮＯ）、処理はステップＳ２０３に戻り、処理済みでない抽出対象項目（例えば、項目属性「支払期限」）についての処理が実行される。一方、全ての抽出対象項目について項目値を抽出済みである場合（ステップＳ２０８のＹＥＳ）、本フローチャートに示された処理は終了する。

　なお、本実施形態では、所定の文書種として請求書が例示され、請求書における項目値の抽出を行うための学習処理、及び、請求書における項目値の抽出処理について例示したが、学習処理は、複数の所定の文書種夫々に対して実行されてよい。その場合、学習装置２は、複数の所定の文書種（例えば、請求書及び納品書等）の夫々について、抽出対象項目毎に学習済みモデル及び項目キーワードリストを生成する。更に、この場合、情報処理装置１は、学習装置２から、各文書種についての学習済みモデル及び項目キーワードリストを取得することで、様々な文書種の文書（原稿）における項目値を抽出可能となる。なお、取得した抽出対象画像にどの文書種についての学習済みモデル等を用いるかは、抽出対象画像（原稿）を視認したユーザにより決定されてもよいし、情報処理装置１が、抽出対象画像に示された文書（原稿）の文書種を自動で識別する機能を有することで、決定されてもよい。

　上述の通り、準定型帳票等の抽出対象の文書に係る画像と、学習済みモデル及び項目キーワードリストを用いて抽出処理を行うことで、目的の項目値を出力することが可能となる。

　上記説明したように、本実施形態によれば、学習装置２は、画像内の文字列（項目値候補）と複数の項目キーワードとの位置関係に基づく特徴量から、当該文字列（項目値候補）が対象項目の項目値であるか否かを判定可能な学習済みモデルを生成することができるため、項目の記載位置（レイアウト）が定まっていない（レイアウトが多様な）文書の画像であっても項目値を抽出可能なモデル（抽出器）を生成することが可能となる。また、本実施形態によれば、情報処理装置１は、画像内の文字列（項目値候補）と複数の項目キーワードとの位置関係に基づく特徴量から、当該文字列（項目値候補）が対象項目の項目値であるか否かを判定可能な学習済みモデルを用いて、抽出対象画像における項目値候補夫々についての妥当性を判定することが出来るため、レイアウトが定まっていない文書の画像（抽出対象画像）であっても項目値を抽出することが可能となる。

　また、本実施形態によれば、レイアウトが定まっていない文書の画像にも対応可能な項目値抽出器（学習済みモデル）を容易に生成することが可能となる。従来、レイアウトが多様な帳票についても、ユーザが所望する項目のデータ（項目値）を自動で抽出したいという要望があるものの、帳票に記載される内容（項目）は、帳票の発行元の会社によらず概ね共通している一方、その記載位置（帳票レイアウト）は、発行元の会社により異なる場合が多かった。この場合、ＯＣＲによる項目の読み取り位置を事前に定義（レイアウト定義）する方法では、帳票レイアウト毎にレイアウト定義を行う必要があるため、レイアウトが多様な帳票に対応するためには、取引相手の会社数分の大量のレイアウトの書式定義を作成する必要があり、容易ではなかった。

　また、活用したい発行元会社名や支払い請求日、請求金額等の項目値に対応する項目名のキーワードや、両者の相対的な位置関係を抽出ルールとして手動で定義し抽出する準定型帳票ＯＣＲという方法がある。この方法では、帳票に精通した作業者（熟練者）が対象の準定型帳票を観察することで、手動で抽出ルールを作成していた。この方法は、上述した方法に比べて汎用的ではあるが、項目名のキーワードや相対的な位置関係等の抽出ルールを見つけるためには、知識や経験が必要となるため、レイアウトが多様な帳票に対応することは容易ではなかった。

　しかし、上述した本実施形態によれば、対象の帳票サンプル（レイアウトが互いに異なる同一種の帳票に係る複数の学習用画像）と抽出したい項目値の正解定義（項目値候補が抽出対象項目の項目値であるか否かを示す情報）を準備するだけで、項目値を抽出するための抽出ルールに代わる（相当する）学習済みモデル及び項目キーワードを自動で（半自動で）作成可能である。そのため、一般作業者であっても、準定型帳票からの項目値を抽出する抽出器（学習済みモデル）を容易に生成可能となる。つまり、本実施形態によれば、レイアウトが定まっていない文書にも対応可能な抽出器（学習済みモデル）を生成することが可能となり、本抽出器を用いることで、レイアウトが定まっていない文書の項目値を抽出することが可能となる。

　また、運用時には、レイアウトが定まっていない文書（準定型帳票）にも対応可能な学習済みモデル及び項目キーワードと、抽出対象画像を準備するだけで、抽出対象画像から項目値を抽出可能であるため、簡単に（手間少なく）準定型帳票からの項目値の抽出が可能である。また、従来は、熟練者であっても、多様な請求書やＩＮＶＯＩＣＥ等に対応しようとすると、抽出ルールの矛盾が発生してしまう場合もあった。しかし、本実施形態によれば、様々なレイアウトのサンプル画像を用いて機械学習を行うことで学習済みモデルを生成するため、より高精度に準定型帳票から項目値を抽出することが可能となる。

　＜他の実施形態＞
　上述した実施形態では、ユーザにより手動で正解定義値が入力されることで正解定義が生成される例を示したが、正解定義の生成方法は上述した方法に限定されず、正解定義を生成する支援ツールを用いて生成する方法であってもよい。また、上述した実施形態では、テーブル形式の正解定義を例示したが、正解定義の書式はＣＳＶ（ｃｏｍｍａ－ｓｅｐａｒａｔｅｄ　ｖａｌｕｅｓ）形式（ＣＳＶファイル）等のようなテーブル形式に限定されず、その他の形式であってもよい。本実施形態では、正解定義作成支援ツール（正解定義生成画面）を用いて、ＣＳＶ形式の正解定義を生成する方法を例示する。

　なお、以下で説明する本実施形態の機能構成において、上述した実施形態で説明した内容と重複する項目については、同一の符号を付して説明を省略する。また、本実施形態に係る情報処理システム９の構成は、上述した実施形態に係る情報処理システム９の構成（図１）と同様であるため、説明を省略する。但し、本実施形態に係る学習装置２は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、記憶装置２４及び通信ユニット２５に加え、マウス、キーボードやタッチパネル等の入力デバイス２６及びディスプレイ等の出力デバイス２７を更に備える。

　図１９は、本実施形態に係る学習装置の機能構成の概略を示す図である。学習装置２は、記憶装置２４に記録されているプログラムが、ＲＡＭ２３に読み出され、ＣＰＵ２１によって実行されて、学習装置２に備えられた各ハードウェアが制御されることで、画像取得部５１、認識結果取得部５２、書式定義記憶部５３、項目値候補抽出部５４、正解定義取得部５５、項目キーワード決定部５６、特徴生成部５７、モデル生成部５８及び記憶部５９に加え、表示部６０、指定受付部６１及び正解定義生成部６２を備える装置として機能する。以下、上述した実施形態と異なる表示部６０、指定受付部６１受付部６１及び正解定義生成部６２について、説明する。

　表示部６０は、学習装置２における出力デバイス２７を介して、種々の表示処理を実行する。表示部６０は、例えば、ユーザ（正解定義の生成作業者）が正解定義を生成するために、抽出対象項目の項目値（正解定義値）を選択するための正解定義生成画面を生成し表示する。表示部６０は、正解定義生成画面において、各学習用画像を表示し、表示した学習用画像中の項目値候補を赤枠や点線枠等で囲む等して、抽出された項目値候補が項目値の候補であることをユーザが視認可能な方法で表示する。また、表示部６０は、ユーザにより正解定義値として選択された箇所のＯＣＲ結果文字列（項目値候補）を、正解定義値として選出された文字列を表示する正解定義値表に表示する。このように、表示部６０は、学習用画像や、抽出された項目値候補、選択された正解定義値等を表示するためのユーザインターフェース（ＵＩ、Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）（正解選択ＵＩ）である。

　図２０は、本実施形態に係る正解定義生成画面（「請求金額」選択時）の一例を示す図である。図２０に示す通り、正解定義生成画面には、正解定義を行う対象の学習用画像（正解定義用画像）（図２０の画面左）及び正解定義値表（図２０の画面右）が表示される。なお、正解定義画面は、図２０に例示した画面の構成に限定されるものではなく、正解定義用画像及び項目値候補が表示され、表示された項目値候補から正解定義値を選択可能な構成であれば、任意の画面構成であってよい。

　図２０では、学習用画像１において、項目属性「請求金額」の正解定義値が決定される例を示す。図２０に示す通り、正解定義生成画面上では、項目属性「請求金額」に係る項目値候補が点線枠により表示されている。なお、表示部６０は、後述するように、ユーザにより項目値候補「４，０５９」が選択されることで、正解定義値表の項目属性「請求金額」の欄に、選択された箇所のＯＣＲ結果文字列である「４，０５９」を表示する。

　この際、図２０に示すように、正解定義値を決定する対象の項目属性（請求金額）をユーザが認識しやすくするため、正解定義値表の該当する項目属性に矢印等を表示してよい。また、表示部６０は、項目属性「請求金額」に係る正解定義値が選択（決定）されたことにより、次の項目属性（例えば、「支払期限」）の正解定義値を抽出する画面を表示する。

　図２１は、本実施形態に係る正解定義生成画面（「支払期限」選択時）の一例を示す図である。図２１の例では、学習用画像１において、項目属性「支払期限」の正解定義値が決定される例を示す。図２１に示す通り、正解定義生成画面上では、項目属性「支払期限」に係る項目値候補が点線枠により表示されている。また、図２１に示す通り、図２０の状態から、対象となる項目属性が変更されたことから、正解定義値表において、該当する項目属性である「支払期限」にフォーカス（矢印）が移動している。これより、ユーザに対して、次項目属性の正解定義値の選択を促すことができる。

　指定受付部６１は、マウス等の入力デバイス２６を介して、ユーザから種々の入力（指定）を受け付ける。指定受付部６１は、例えば、正解定義生成画面に表示された項目値候補の中から、正解定義値として一の項目値候補についてのユーザによる指定を受け付ける。例えば、指定受付部６１は、ユーザが、抽出対象項目の項目値である項目値候補をマウス等により選択することで、正解定義値の選択に係る指定を受け付ける。図２０の例では、項目値候補を視認したユーザにより、正解定義値として項目値候補「４，０５９」がマウスにより選択され（矢印（ポインタ）箇所）、正解定義値表において、選択された箇所のＯＣＲ結果文字列「４，０５９」が正解定義値として表示されている。また、図２１の例では、正解定義値として項目値候補「２０２１／７／２５」が選択され、正解定義値表において、選択された箇所のＯＣＲ結果文字列「２０２１／７／２５」が正解定義値として表示されている。

　正解定義生成部６２は、ユーザにより指定された、抽出対象項目（項目属性）に係る項目値候補（指定された箇所のＯＣＲ結果文字列）を、学習用画像における当該抽出対象項目の項目値（正解定義値）として、正解定義を生成する。正解定義生成部６２は、指定受付部６１により指定が受け付けられた、各抽出対象項目についての項目値候補を、正解定義値として格納した正解定義を生成する。なお、正解定義は、ＣＳＶ形式に限定されず、他の形式であってもよい。また、正解定義生成部６２は、生成された正解定義を出力し、正解定義取得部５５は、正解定義生成部６２により生成及び出力された正解定義を取得する。

　図２０及び図２１の例では、全ての項目属性についての正解定義値がユーザにより選択された後、ユーザにより「正解定義確定」ボタンが押下されることで、選択された各項目属性に係る項目値（正解定義値）を格納する正解定義を生成する。なお、項目値（正解定義値）を定義する対象（抽出対象）の項目属性は、予めユーザにより決定され、定義対象項目属性データとして記憶装置２４等に記憶されてよい。上述した正解定義値を決定（選択）する処理は、定義対象項目属性データに含まれる定義対象の項目属性毎に実行される。なお、本実施形態では、正解定義生成処理が学習装置２において実行されることとしたが、これに限定されず、他の学習装置２以外の他の装置において実行されてもよい。その場合、学習装置２は、正解定義生成処理が実行された他の装置から正解定義を取得することで、学習処理を行う。

　図２２は、本実施形態に係る正解定義生成処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、学習処理装置２において表示された正解定義生成画面において、帳票（文書）のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置２４に記憶された帳票画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。また、本フローチャートに示された処理は、図１５に示された学習処理の事前処理として、学習処理に先んじて実行される。なお、本フローチャートでも、項目属性が「請求金額」である場合の処理について例示する。

　ステップＳ３０１では、複数の文書画像（学習用画像である正解定義用画像）が取得される。画像取得部５１は、所定の文書種（例えば、請求書）の互いにレイアウトが異なる文書（原稿）についてのスキャン画像を取得する。その後、処理はステップＳ３０２へ進む。

　ステップＳ３０２では、文字認識結果（全文ＯＣＲ結果）が取得される。認識結果取得部５２は、ステップＳ３０１で取得された各正解定義用画像に対して文字認識を行うことで、各正解定義用画像についての文字認識結果（全文ＯＣＲ結果）を取得する。その後、処理はステップＳ３０３へ進む。

　ステップＳ３０３では、正解定義用画像の文字認識結果から、抽出対象の項目属性に係る項目値候補が抽出される。項目値候補抽出部５４は、書式定義記憶部５３が記憶する抽出対象項目に係る書式定義を用いて、当該抽出対象項目に係る項目値候補を抽出する。項目値候補抽出部５４は、例えば、学習用画像１の文字認識結果から、項目属性「請求金額」に係る書式定義に合致する単語列を、学習用画像１における項目属性「請求金額」に係る項目値候補として抽出する。その後、処理は、ステップＳ３０４へ進む。

　ステップＳ３０４では、正解定義生成画面において、項目値候補が表示される。表示部６０は、ステップＳ３０３で抽出された項目値候補がどの単語列であるかをユーザが認識可能なよう、正解定義生成画面において項目値候補を表示する（図２０参照）。その後、処理はステップＳ３０５へ進む。

　ステップＳ３０５では、ユーザからの正解定義値の指定が受け付けられる。指定受付部６１は、正解定義値についてのユーザによる指定を受け付ける。図２０の例では、学習用画像１における項目属性「請求金額」の項目値である項目値候補「４，０５９」が、正解定義値としてユーザにより指定されることで、正解定義値の指定が受け付けられる。また、ユーザにより正解定義値が選択されると、表示部６０は、正解定義生成画面の正解定義値表において、選択された箇所のＯＣＲ結果文字列「４，０５９」を正解定義値として表示する。その後、処理は、ステップＳ３０６へ進む。

　ステップＳ３０６では、全ての抽出対象項目（項目属性）について、正解定義値の指定が受け付けられたか（ステップＳ３０３～ステップＳ３０５の処理が実行されたか）否かが判定される。ＣＰＵ２１は、各抽出対象項目について、正解定義値の指定を受け付けたか否かを判定する。全ての抽出対象項目について処理済みでない場合（ステップＳ３０６のＮＯ）、処理はステップＳ３０３に戻り、処理済みでない抽出対象項目（例えば、項目属性「支払期限」）について処理が実行される。一方、全ての抽出対象項目について処理済みである場合（ステップＳ３０６のＹＥＳ）、処理はステップＳ３０７へ進む。

　ステップＳ３０７では、学習用画像における各抽出対象項目（項目属性）の正解定義値が確定される。指定受付部６１により、ステップＳ３０５で指定された全ての項目属性の項目値候補を、正解定義値として確定するユーザの指示が受け付けられると、正解定義生成部６２は、学習用画像（例えば、学習用画像１）における各項目属性の正解定義値を確定する。その後、処理はステップＳ３０８へ進む。

　ステップＳ３０８では、全ての学習用画像について、正解定義値が確定されたか否かが判定される。ＣＰＵ２１は、全ての学習用画像の夫々において、各抽出対象項目（項目属性）の正解定義値が確定されたか否かを判定する。全ての学習用画像において確定済みでない場合（ステップＳ３０８のＮＯ）、処理はステップＳ３０３に戻り、処理済みでない学習用画像（例えば、学習用画像２）についての正解定義生成画面が表示され、以降の処理が実行される。一方、全ての学習用画像において確定済みである場合（ステップＳ３０８のＹＥＳ）、処理はステップＳ３０９へ進む。

　ステップＳ３０９では、正解定義が生成される。正解定義生成部６２は、ステップＳ３０７で確定された、全ての学習用画像についての各項目属性の正解定義値を格納した正解定義を生成し、出力する。その後、本フローチャートに示された処理は終了する。なお、正解定義取得部５５は、正解定義生成部６２から正解定義を取得する（図１５のステップＳ１０２）。

　なお、本実施形態では、正解定義生成処理の際、学習装置２において学習用画像及び学習用画像の文字認識結果が取得されるため、図１５の学習装置２における学習処理のステップＳ１０１及びステップＳ１０３の処理は省略されてよい。また、正解定義生成処理の際、学習装置２において項目値候補が抽出されるため、図１７の学習装置２における学習済みモデル生成処理のステップＳ１０５１の処理は省略されてよい。また、本実施形態では、ステップＳ３０１において複数の正解定義用画像をまとめて取得することとしたが、これに限定されるものではなく、ステップ３０１～ステップＳ３０７の処理を正解定義用画像毎に実行するようにしてよい。

　上述した通り、本実施形態では、自動で抽出された項目値候補が表示されることで、作業者は、表示された項目値候補から正解の項目値を選択するのみで正解定義を生成することが可能となるため、作業者が正解定義値を手入力する方法と比べて、正解定義を生成する作業を効率化することが可能となる。ひいては、項目値を抽出するための作業（学習済みモデル及び項目キーワードリストの生成作業）を効率化することが可能となる。

　　　１　情報処理装置
　　　２　学習装置
　　　３　文書読取装置
　　　９　情報処理システム

Claims

　対象画像を文字認識した結果である文字認識結果を取得する認識結果取得手段と、
　前記対象画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列を複数抽出する項目値候補抽出手段と、
　各候補文字列について、前記抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと候補文字列との前記対象画像内での位置関係に基づく特徴量を生成する特徴生成手段と、
　文字列と前記複数の項目キーワードとの画像内での位置関係に基づく特徴量が入力されることで、該文字列が前記抽出対象項目の項目値である妥当性を示す情報が出力されるよう、機械学習により生成された学習済みモデルを記憶するモデル記憶手段と、
　前記対象画像における各候補文字列の前記特徴量を前記学習済みモデルに入力することで、前記複数の候補文字列から前記抽出対象項目の項目値を抽出する項目値抽出手段と、
　を備える情報処理システム。
　前記学習済みモデルは、レイアウトが互いに異なる文書についての複数の学習用画像の各々について、前記抽出対象項目の項目値となり得る文字列である候補文字列と前記複数の項目キーワードとの学習用画像内での位置関係に基づく特徴量と、該候補文字列が前記抽出対象項目の項目値であるか否かを示す情報とが対応付けられた学習データを用いた機械学習により生成されたモデルである、
　請求項１に記載の情報処理システム。
　前記特徴量は、前記複数の項目キーワード夫々についての、対象の文字列と項目キーワードとの間の距離を示す情報に基づく特徴量、及び、該対象の文字列と該項目キーワードの一方から他方に向かう方向を示す情報に基づく特徴量である、
　請求項１又は２に記載の情報処理システム。
　前記距離を示す情報に基づく特徴量は、前記対象の文字列と前記項目キーワードとの間の距離に応じて増減する特徴量である、
　請求項３に記載の情報処理システム。
　前記方向を示す情報に基づく特徴量は、前記項目キーワードが前記対象の文字列の水平左方向にある度合い及び垂直上方向にある度合いに応じて増減する特徴量である、
　請求項３又は４に記載の情報処理システム。
　前記項目値抽出手段は、前記対象画像における各候補文字列の前記特徴量を前記学習済みモデルに入力することで該学習済みモデルから出力される、各候補文字列が前記抽出対象項目の項目値である確からしさを示す情報に基づき、前記抽出対象項目の項目値を抽出する、
　請求項１～５の何れか一項に記載の情報処理システム。
　前記項目キーワードは、前記機械学習において使用された複数の学習用画像のうち少なくとも一の学習用画像に含まれる単語列の中から、該単語列の属性に基づき決定された単語列である、
　請求項１～６の何れか一項に記載の情報処理システム。
　前記単語列の属性は、該単語列の前記複数の学習用画像における出現度合いを含む、
　請求項７に記載の情報処理システム。
　前記単語列の属性は、該単語列を含む学習用画像における、該単語列と前記抽出対象項目の項目値との間の距離を含む、
　請求項７又は８に記載の情報処理システム。
　前記単語列の属性は、該単語列を含む学習用画像における、該単語列と前記抽出対象項目の項目値の一方から他方に向かう方向を含む、
　請求項７～９の何れか一項に記載の情報処理システム。
　前記項目キーワードは、前記単語列が前記抽出対象項目の項目値の水平左方向にある度合い又は垂直上方向にある度合いに基づき決定される、
　請求項１０に記載の情報処理システム。
　前記単語列の属性に基づく該単語列の有効性を示す有効性スコアの高い順に、前記単語列が前記項目キーワードとして決定される、
　請求項７～１１の何れか一項に記載の情報処理システム。
　前記抽出対象項目に係る書式定義を記憶する書式定義記憶手段を更に備え、
　前記項目値候補抽出手段は、前記抽出対象項目に係る書式定義に合致する文字列を、前記候補文字列として抽出する、
　請求項１～１２の何れか一項に記載の情報処理システム。
　レイアウトが互いに異なる文書についての複数の学習用画像を文字認識した結果である文字認識結果を取得する認識結果取得手段と、
　各学習用画像に含まれる、抽出対象項目の項目値である文字列及び他の文字列の各文字列について、該抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと文字列との学習用画像内での位置関係に基づく特徴量を生成する特徴生成手段と、
　各学習用画像内の各文字列について、文字列の前記特徴量と該文字列が前記抽出対象項目の項目値であるか否かを示す情報とが対応付けられた学習データを用いて機械学習を行うことにより、学習済みモデルを生成するモデル生成手段と、
　を備える情報処理システム。
　各学習用画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列を複数抽出する項目値候補抽出手段を更に備え、
　前記抽出対象項目値の項目値である文字列及び他の文字列は、抽出された前記複数の候補文字列である、
　請求項１４に記載の情報処理システム。
　前記抽出対象項目と、各学習用画像における該抽出対象項目の項目値とが対応付けられた正解定義を取得する正解定義取得手段を更に備え、
　前記モデル生成手段は、前記正解定義に基づき、前記文字列が前記抽出対象項目の項目値であるか否かを示す情報を取得する、
　請求項１４又は１５に記載の情報処理システム。
　学習用画像の前記文字認識結果において抽出された、前記抽出対象項目に対する候補文字列を、該候補文字列が項目値の候補であることをユーザが視認可能な方法で表示する表示手段と、
　表示された前記候補文字列のうち一の候補文字列についてのユーザによる指定を受け付ける指定受付手段と、
　指定された前記一の候補文字列を、前記学習用画像における前記抽出対象項目の項目値として、前記正解定義を生成する正解定義生成手段と、を更に備え、
　前記正解定義取得手段は、前記正解定義生成手段により生成された前記正解定義を取得する、
　請求項１６に記載の情報処理システム。
　コンピュータが、
　対象画像を文字認識した結果である文字認識結果を取得する認識結果取得ステップと、
　前記対象画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列を複数抽出する項目値候補抽出ステップと、
　各候補文字列について、前記抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと候補文字列との前記対象画像内での位置関係に基づく特徴量を生成する特徴生成ステップと、
　文字列と前記複数の項目キーワードとの画像内での位置関係に基づく特徴量が入力されることで、該文字列が前記抽出対象項目の項目値である妥当性を示す情報が出力されるよう、機械学習により生成された学習済みモデルを記憶するモデル記憶ステップと、
　前記対象画像における各候補文字列の前記特徴量を前記学習済みモデルに入力することで、前記複数の候補文字列から前記抽出対象項目の項目値を抽出する項目値抽出ステップと、
　を実行する、項目値抽出方法。
　コンピュータを、
　対象画像を文字認識した結果である文字認識結果を取得する認識結果取得手段と、
　前記対象画像の文字認識結果において、抽出対象項目の項目値となり得る文字列である候補文字列を複数抽出する項目値候補抽出手段と、
　各候補文字列について、前記抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと候補文字列との前記対象画像内での位置関係に基づく特徴量を生成する特徴生成手段と、
　文字列と前記複数の項目キーワードとの画像内での位置関係に基づく特徴量が入力されることで、該文字列が前記抽出対象項目の項目値である妥当性を示す情報が出力されるよう、機械学習により生成された学習済みモデルを記憶するモデル記憶手段と、
　前記対象画像における各候補文字列の前記特徴量を前記学習済みモデルに入力することで、前記複数の候補文字列から前記抽出対象項目の項目値を抽出する項目値抽出手段と、
　として機能させるためのプログラム。
　コンピュータが、
　レイアウトが互いに異なる文書についての複数の学習用画像を文字認識した結果である文字認識結果を取得する認識結果取得ステップと、
　各学習用画像に含まれる、抽出対象項目の項目値である文字列及び他の文字列の各文字列について、該抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと文字列との学習用画像内での位置関係に基づく特徴量を生成する特徴生成ステップと、
　各学習用画像内の各文字列について、文字列の前記特徴量と該文字列が前記抽出対象項目の項目値であるか否かを示す情報とが対応付けられた学習データを用いて機械学習を行うことにより、学習済みモデルを生成するモデル生成ステップと、
　を実行する、モデル生成方法。
　コンピュータを、
　レイアウトが互いに異なる文書についての複数の学習用画像を文字認識した結果である文字認識結果を取得する認識結果取得手段と、
　各学習用画像に含まれる、抽出対象項目の項目値である文字列及び他の文字列の各文字列について、該抽出対象項目の項目値を抽出するためのキーワード単語列である複数の項目キーワードと文字列との学習用画像内での位置関係に基づく特徴量を生成する特徴生成手段と、
　各学習用画像内の各文字列について、文字列の前記特徴量と該文字列が前記抽出対象項目の項目値であるか否かを示す情報とが対応付けられた学習データを用いて機械学習を行うことにより、学習済みモデルを生成するモデル生成手段と、
　として機能させるためのプログラム。