WO2023047570A1

WO2023047570A1 - 情報処理装置、情報処理方法、情報処理プログラム

Info

Publication number: WO2023047570A1
Application number: PCT/JP2021/035333
Authority: WO
Inventors: ジュニヤウィリアムヘンリースタイメル; レヴァジャコモデ; ダヤルチャンドエイチャラ
Original assignee: 株式会社KPMG Ignition Tokyo
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-03-30

Abstract

モデル訓練装置２００は、ファイル入力部２１０に入力されたＰＤＦファイルにレイアウトを設定するレイアウト設定部２２０と、抽出対象データの項目名を教示する項目名データと、ＰＤＦファイル中の当該抽出対象データの位置を教示する第１位置情報の組を生成する教示部２３０と、ＰＤＦファイル中の文字を認識する文字認識部２４１と、認識された文字に基づいてＰＤＦファイル中の抽出対象データの位置を示す第２位置情報を取得する第２領域取得部２４２と、第１位置情報および第２位置情報の乖離が所定量以下の場合に、当該第１位置情報と組になる項目名データと当該第２位置情報が対応付けられた教師データを生成する教師データ生成部２５０と、生成された教師データに基づいて、設定されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練するモデル訓練部２６０と、を備える。

Description

情報処理装置、情報処理方法、情報処理プログラム

　本発明は、情報処理技術に関する。

　特許文献１は、表計算ソフトウェアで作成された表計算ファイルを業務システムに取り込む際に、表計算ファイルから必要なデータを抽出する技術を開示する。特許文献１の図６に示されるように、表計算ファイルのデータ抽出範囲は開始位置と終了位置を示すセル番号によって指定される。具体的には、データ抽出の開始位置としてセル番号「A2」が、終了位置としてセル番号「E7」が指定される。このようなデータ抽出範囲の指定によって、セル番号「A2」のセルを左上の角およびセル番号「E7」のセルを右下の角とする矩形範囲に含まれる各セルからデータが抽出される。

特開２０１５－１９１６５３号公報

　表計算ファイルでは行列状に配置されたセルによってレイアウトが定義されるため、上記のようにセル番号の指定によって必要なデータを確実に抽出できる。これに対して、レイアウトの自由度が高いＰＤＦ（Portable Document Format）等のフォーマットのファイルでは、データ抽出の難易度が飛躍的に高まる。ＯＣＲ（Optical Character Recognition：光学文字認識）等によってファイル中で認識された文字データを自動的に抽出することも可能だが、不要な文字データをマニュアル作業等で除去する必要がある。

　本発明はこうした状況に鑑みてなされたものであり、その目的は、入力されたファイルから必要なデータを効率的に抽出できる情報処理装置等を提供することにある。

　上記課題を解決するために、本発明のある態様の情報処理装置は、入力されたファイルのレイアウトを判別するレイアウト判別部と、判別されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを取得するモデル取得部と、取得されたデータ抽出モデルを入力されたファイルの文字認識結果に適用し、当該文字認識結果から抽出対象データを抽出するデータ抽出部と、を備える。

　本発明の別の態様もまた、情報処理装置である。この装置は、入力されたファイルにレイアウトを設定するレイアウト設定部と、抽出対象データの項目名を教示する項目名データと、入力されたファイル中の当該抽出対象データの位置を教示する第１位置情報の組を生成する教示部と、入力されたファイル中の文字を認識する文字認識部と、認識された文字に基づいて、入力されたファイル中の抽出対象データの位置を示す第２位置情報を取得する位置取得部と、第１位置情報および第２位置情報の乖離が所定量以下の場合に、当該第１位置情報と組になる項目名データと当該第２位置情報が対応付けられた教師データを生成する教師データ生成部と、生成された教師データに基づいて、レイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練するモデル訓練部と、を備える。

　本発明の更に別の態様は、情報処理方法である。この方法は、入力されたファイルのレイアウトを判別するレイアウト判別ステップと、判別されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを取得するモデル取得ステップと、取得されたデータ抽出モデルを入力されたファイルの文字認識結果に適用し、当該文字認識結果から抽出対象データを抽出するデータ抽出ステップと、を備える。

　本発明の更に別の態様もまた、情報処理方法である。この方法は、入力されたファイルにレイアウトを設定するレイアウト設定ステップと、抽出対象データの項目名を教示する項目名データと、入力されたファイル中の当該抽出対象データの位置を教示する第１位置情報の組を生成する教示ステップと、入力されたファイル中の文字を認識する文字認識ステップと、認識された文字に基づいて、入力されたファイル中の抽出対象データの位置を示す第２位置情報を取得する位置取得ステップと、第１位置情報および第２位置情報の乖離が所定量以下の場合に、当該第１位置情報と組になる項目名データと当該第２位置情報が対応付けられた教師データを生成する教師データ生成ステップと、生成された教師データに基づいて、レイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練するモデル訓練ステップと、を備える。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、入力されたファイルから必要なデータを効率的に抽出できる。

本発明の実施形態に係る情報処理装置を含む情報処理システムの概要を模式的に示す。訓練済のデータ抽出モデルを利用してファイルからデータを抽出するデータ抽出装置の機能ブロック図である。データ抽出モデルを訓練するモデル訓練装置の機能ブロック図である。ファイル入力部に入力されるＰＤＦファイルの例を示す。文字の領域分割またはトークン化の例を示す。データ抽出部および信頼度提示部が出力するデータの例を示す。データ抽出装置によるデータ抽出処理を示すフローチャートである。モデル訓練装置が生成する各種のデータの例を示す。教師データ生成部による教師データ生成処理を示すフローチャートである。操作端末の画面に表示されるＰＤＦファイルのレイアウトの一覧である。モデル訓練装置によるモデル訓練処理を示すフローチャートである。

　実施形態は、ＰＤＦ文書から選択要素（抽出対象項目）を自動抽出するためのソリューションを提案する。このソリューションは訓練された機械学習モデルを用いると共に、ラベル付きデータと、任意のＯＣＲエンジンからのＯＣＲ出力と、を入力として使用するモデル訓練プロセスにも依拠する。これらの機械学習モデルは、最適化プロセスを通して訓練され、ＯＣＲデータからユーザ指定抽出項目に属する要素を自動的に選択、抽出する。文書レイアウトごとに１つのモデルが訓練されるため、パフォーマンスが向上し、動的なレイアウトをより適応的に処理できる。実施形態に係るシステムは、請求書、信託報告書、銀行取引明細書、銀行小冊子、払戻通知書、受取利息通知書、海外預金通知書、利率通知書、および入金などの様々な異なる文書タイプを処理できる。

　図１は、本発明の実施形態に係る情報処理装置を含む情報処理システムの概要を模式的に示す。ここで例示される情報処理システムは、税理士法人や会計事務所が顧客に対して税務サービスや会計サービスを提供する際に利用される。本図やフローチャート等の他の図において「Ｓ」はステップまたは処理を意味する。Ｓ１では、請求書、銀行取引明細書、不動産管理（PM: Property Management）レポート、信託レポート、銀行通帳、還付通知、受取利息通知、外国送金通知、利率通知、領収書等の、税務処理や会計処理の対象となる証憑または電子文書が顧客ポータルにおいて電子的に入力される。

　このように情報処理システムまたは情報処理装置に電子的に入力された電子文書を本明細書ではファイルと総称する。図１の情報処理システムに入力されるファイルは、表計算ファイルとそれ以外のファイルに大別される。表計算ファイルは、行列状に配置されたセルにデータが記入されたファイルである。それ以外のファイルは、表計算ファイル以外のフォーマットの任意のファイルであり、典型的にはＰＤＦファイルである。本実施形態ではＰＤＦファイルを中心に説明するが、本発明はワープロファイル、プレゼンテーションファイル、画像ファイル、テキストファイル等の任意のフォーマットのファイルに適用できる。また、本発明はこれらのファイルにそのまま適用してもよいが、これらのファイルをＰＤＦファイルに変換した上で適用してもよい。

　Ｓ２では、Ｓ１で入力されたファイルが、表計算ファイルとＰＤＦファイルを含むそれ以外のファイルに分類される。Ｓ３では、Ｓ２で分類された表計算ファイル中の各セルから、税務処理や会計処理に必要なデータが自動的に抽出される。本明細書では詳細に説明しないが、表計算ファイル中の一および／または複数のセル番号を指定することで、単一セルおよび／または矩形範囲内のセル群からデータを効率的に抽出できる。Ｓ４では、ＯＣＲ等の文字認識技術によってＳ２で分類された表計算ファイル以外のファイル中の文字データが認識され、その中から税務処理や会計処理に必要なデータが自動的に抽出される。本発明は主にＳ４に関し、詳細については後述する。

　Ｓ５では、Ｓ３およびＳ４で自動的に抽出された税務処理や会計処理に必要なデータが、Ｓ１で入力されたファイルと併せてリポジトリに格納および保持される。Ｓ６およびＳ７では、Ｓ５で保持されたデータおよび／またはファイルに基づいて、各取引の自動仕訳処理が実行される。Ｓ８では、Ｓ５で保持されたデータおよび／またはファイルに基づいて、各取引における金銭的支出が資本的支出（CAPEX: Capital Expenditure）と運営費（OPEX: Operating Expense）に自動的に分類される。Ｓ９では、Ｓ７による自動仕訳結果およびＳ８によるCAPEX/OPEX自動分類結果を、総勘定元帳や固定資産台帳等の会計帳簿に記録する。

　図２および図３は、図１におけるＳ４のデータ抽出処理に関する本発明の実施形態に係る情報処理装置の機能ブロック図である。図２の情報処理装置は訓練済のデータ抽出モデルを利用してファイルからデータを抽出するデータ抽出装置１００であり、図３の情報処理装置はデータ抽出モデルを訓練するモデル訓練装置２００である。

　図２のデータ抽出装置１００は、ファイル入力部１０１と、第１文字認識部１０２と、レイアウト判別部１０３と、第２文字認識部１０４と、領域取得部１０５と、領域分割部１０６と、モデル取得部１０７と、データ抽出部１０８と、信頼度提示部１０９と、データ統合部１１０と、データ出力部１１１を備える。図３のモデル訓練装置２００は、ファイル入力部２１０と、レイアウト設定部２２０と、教示部２３０と、文字認識部２４１と、第２領域取得部２４２と、領域分割部２４３と、教師データ生成部２５０と、モデル訓練部２６０と、モデル格納部２７０と、モデル有効化部２８０を備える。これらの機能ブロックは、コンピュータの中央演算処理装置、メモリ、入力装置、出力装置、コンピュータに接続される周辺機器等のハードウェア資源と、それらを用いて実行されるソフトウェアの協働により実現される。コンピュータの種類や設置場所は問わず、上記の各機能ブロックは、単一のコンピュータのハードウェア資源で実現してもよいし、複数のコンピュータに分散したハードウェア資源を組み合わせて実現してもよい。

　図２のデータ抽出装置１００において、ファイル入力部１０１には、データ抽出装置１００によるデータ抽出処理の対象である表計算ファイル以外のファイルが入力される。前述のように以下では、ファイル入力部１０１および後述するモデル訓練装置２００におけるファイル入力部２１０にＰＤＦファイルが入力される例を説明する。図４は、ファイル入力部１０１に入力されるＰＤＦファイルの例を示す。これは「株式会社にほへと」が「いろは株式会社」に宛てて発行した紙の「納品書兼請求書」を、スキャナ等で読み取ってＰＤＦファイル化したものである。「2020年5月1日」付けで「株式会社にほへと」が「いろは株式会社」に納品した品番「123-4567」の製品について、税込で「3,300」円の代金を「いろは株式会社」に請求するものである。

　第１文字認識部１０２は、ファイル入力部１０１に入力されたＰＤＦファイル中の文字を認識する。ＰＤＦファイルは機械可読（machine-readable）すなわちコンピュータ等が文字を読み取り可能な態様で生成されることも多く、そのような場合には第１文字認識部１０２がＰＤＦファイルから直接的に文字を読み取ると共に、それぞれの文字のＰＤＦファイル中の位置を認識する。ファイル入力部１０１に入力されたＰＤＦファイルが機械可読ではない場合、第１文字認識部１０２はＯＣＲ等の文字認識技術によってＰＤＦファイル中で文字を表す画像データを文字データに変換し、それぞれの文字データのＰＤＦファイル中の位置を認識する。

　第１文字認識部１０２はＰＤＦファイル中の全ての文字とそれぞれの位置を認識または抽出することができるが、図４では三つの文字Ｃ１～Ｃ３のみを例示する。「いろは」という第１の文字Ｃ１は、その位置を示す左上角Ｐ１１の座標および右下角Ｐ１２の座標と共に第１文字認識部１０２によって抽出される。ＰＤＦファイル中の二次元座標系における左上角Ｐ１１の座標を（ｘ１，ｙ１）、右下角Ｐ１２の座標を（ｘ２，ｙ２）とすれば、「いろは」という第１の文字Ｃ１は、（ｘ１，ｙ１）および（ｘ２，ｙ２）によって画定される矩形領域内に記入されている。

　このように、データ抽出装置１００による抽出対象データである「いろは」等の文字の位置は、左上角と右下角の座標の組が定める矩形領域情報（ｘ１，ｙ１，ｘ２，ｙ２）によって表される。本実施形態では、このような矩形領域による文字位置の表現方法を主に用いるが、文字が記入される位置の表現方法はこれに限られない。例えば、文字の中心Ｏまたは重心の一つの座標、上記の表現を用いれば（（ｘ１＋ｘ２）／２，（ｙ１＋ｙ２）／２）によって文字の位置を代表的に表してもよいし、文字の開始位置（典型的には左端の位置）の一つの座標、上記の表現を用いれば（ｘ１，（ｙ１＋ｙ２）／２）によって文字の位置を代表的に表してもよいし、文字の中心Ｏの座標、幅Ｗ、高さＨの組が定める矩形領域情報によって文字の位置を表してもよいし、文字の中心Ｏの座標および半径ｒの組が定める円形領域情報によって文字の位置を表してもよい。

　「株式会社」という第２の文字Ｃ２は、その位置を示す左上角Ｐ２１の座標および右下角Ｐ２２の座標と共に第１文字認識部１０２によって抽出される。「いろは」という第１の文字Ｃ１と「株式会社」という第２の文字Ｃ２は、本来は「いろは株式会社」という法人名を表す一連の文字または文言として認識されるべきものである。データ統合部１１０に関して後述するように、本実施形態のデータ抽出装置１００によれば、このような一連の文字を一つのデータに統合した形で出力できる。

　「請求番号：A1234-901」という第３の文字Ｃ３は、その位置を示す左上角Ｐ３１の座標および右下角Ｐ３２の座標と共に第１文字認識部１０２によって抽出される。第３の文字Ｃ３には「請求番号」および「A1234-901」という複数の異なる情報が含まれているが、位置が互いに近接しているために一般的なＰＤＦファイル生成ツールやＯＣＲツールでは一つの文字として認識されてしまうことも多い。一方で、図１の税務処理や会計処理では「A1234-901」という請求書の具体的な番号のみが必要になる。領域分割部１０６等に関して後述するように、本実施形態のデータ抽出装置１００によれば、このような複数の情報を含む文字から必要なデータを抽出できる。

　レイアウト判別部１０３は、第１文字認識部１０２によって認識された文字の配置に基づいて、ファイル入力部１０１に入力されたＰＤＦファイルのレイアウトを判別する。レイアウトはファイルの基本的な属性を表し、用途、種別、様式、書式、体裁、スタイル、テンプレート、フォーマット、フレームワーク、型、配置、配列等とも言い換えられる。図１の税務処理や会計処理に用いられる図４のＰＤＦファイルの例では、文書種別（「納品書」および／または「請求書」）、相手方（税務や会計サービスの利用者が「いろは株式会社」であるか「株式会社にほへと」であるかに応じて異なる）、ページ数、言語、機械可読性（machine readability）等の最小限の情報によってレイアウトが判別または特定される。

　レイアウト判別部１０３ではファイルの基本的なレイアウトが判別できさえすればよいので、レイアウト判別部１０３に文字配置情報を提供する第１文字認識部１０２に求められる文字認識精度は高くない。例えば、第１文字認識部１０２は、図４の第３の文字Ｃ３のような細かい文字は認識できなくてもよい。これに対して、レイアウト判別部１０３によるレイアウト判別後に同一のＰＤＦファイル中の文字を認識する第２文字認識部１０４は、レイアウト判別部１０３から提供されるレイアウト情報に基づいて高精度に文字を認識できる。例えば、レイアウト判別部１０３から提供されるレイアウト情報に基づいて、請求書番号を表す第３の文字Ｃ３が図４のように配置されていることを第２文字認識部１０４は予め知ることができるため、細かい第３の文字Ｃ３であっても見落とすこと（認識漏れ）がなくなる。

　このように、第１文字認識部１０２と第２文字認識部１０４の認識精度の違いは主にレイアウト情報が利用できるか否かによるため、第１文字認識部１０２および第２文字認識部１０４を同一の文字認識部として構成してもよい。すなわち、同一の文字認識部が、ファイル入力部１０１に入力されたＰＤＦファイルに対して第１の文字認識処理を行ってレイアウト判別部１０３に第１の文字配置情報を提供した後、レイアウト判別部１０３から提供されるレイアウト情報を参照して第２の文字認識処理を行って第２の文字配置情報を生成してもよい。

　領域取得部１０５は、第２文字認識部１０４によって認識された文字に基づいて、ファイル入力部１０１に入力されたＰＤＦファイル中で抽出対象データが記入される領域を示す領域情報を取得する。図４のＰＤＦファイルの例では、第１～第３の文字Ｃ１～Ｃ３を含むＰＤＦファイル中の各文字が記入されている矩形領域を示す矩形領域情報（ｘ１，ｙ１，ｘ２，ｙ２）が、領域取得部１０５によって取得される。

　領域分割部１０６は、領域取得部１０５によって取得された各文字の矩形領域情報（ｘ１，ｙ１，ｘ２，ｙ２）を、当該矩形領域に包含される複数のサブ領域を示す複数のサブ領域情報に分割する。この領域分割処理は、図４における第３の文字Ｃ３のように、複数の異なる情報または文字が含まれるにも関わらず一つの文字として認識されてしまった文字を適切に分割するために実行される。このように文字列を分割することはトークン化（tokenize）とも呼ばれており、spaCy（商標）等の既存のトークン化ソフトウェアを領域分割部１０６で利用してもよい。

　図５は、第３の文字Ｃ３の領域分割またはトークン化の例を示す。図５（Ａ）は、図４におけるトークン化前の第３の文字Ｃ３周辺の拡大図である。この例では、第３の文字Ｃ３が記入されている矩形領域の左上角Ｐ３１の座標が（300, 90）であり右下角Ｐ３２の座標が（400, 100）である。なお、図示されるように、ｘ軸は左から右に向かう方向に設定されており、ｙ軸は上から下に向かう方向に設定されている。

　図５（Ｂ）は、領域分割部１０６による第３の文字Ｃ３の領域分割またはトークン化によって生成される第４の文字Ｃ４および第５の文字Ｃ５のサブ矩形領域を示す。「請求番号」という第４の文字Ｃ４が記入されているサブ矩形領域の左上角Ｐ４１の座標は（305, 93）であり右下角Ｐ４２の座標は（345, 97）である。従って、第４の文字Ｃ４の矩形領域情報は（305, 93, 345, 97）と表される。「A1234-901」という第５の文字Ｃ５が記入されているサブ矩形領域の左上角Ｐ５１の座標は（355, 93）であり右下角Ｐ５２の座標は（395, 97）である。従って、第５の文字Ｃ５の矩形領域情報は（355, 93, 395, 97）と表される。

　第４の文字Ｃ４に関して、左上角Ｐ４１のｘ座標「305」が第３の文字Ｃ３の左上角Ｐ３１のｘ座標「300」以上であり、右下角Ｐ４２のｘ座標「345」が第３の文字Ｃ３の右下角Ｐ３２のｘ座標「400」以下であるため、第４の文字Ｃ４の矩形領域（305, 93, 345, 97）は、第３の文字Ｃ３の矩形領域（300, 90, 400, 100）のｘ軸範囲に包含される。同様に、第４の文字Ｃ４の左上角Ｐ４１のｙ座標「93」が第３の文字Ｃ３の左上角Ｐ３１のｙ座標「90」以上であり、右下角Ｐ４２のｙ座標「97」が第３の文字Ｃ３の右下角Ｐ３２のｙ座標「100」以下であるため、第４の文字Ｃ４の矩形領域（305, 93, 345, 97）は、第３の文字Ｃ３の矩形領域（300, 90, 400, 100）のｙ軸範囲に包含される。従って、第４の文字Ｃ４の矩形領域（305, 93, 345, 97）は、第３の文字Ｃ３の矩形領域（300, 90, 400, 100）に包含される。

　第５の文字Ｃ５に関して、左上角Ｐ５１のｘ座標「355」が第３の文字Ｃ３の左上角Ｐ３１のｘ座標「300」以上であり、右下角Ｐ５２のｘ座標「395」が第３の文字Ｃ３の右下角Ｐ３２のｘ座標「400」以下であるため、第５の文字Ｃ５の矩形領域（355, 93, 395, 97）は、第３の文字Ｃ３の矩形領域（300, 90, 400, 100）のｘ軸範囲に包含される。同様に、第５の文字Ｃ５の左上角Ｐ５１のｙ座標「93」が第３の文字Ｃ３の左上角Ｐ３１のｙ座標「90」以上であり、右下角Ｐ５２のｙ座標「97」が第３の文字Ｃ３の右下角Ｐ３２のｙ座標「100」以下であるため、第５の文字Ｃ５の矩形領域（355, 93, 395, 97）は、第３の文字Ｃ３の矩形領域（300, 90, 400, 100）のｙ軸範囲に包含される。従って、第５の文字Ｃ５の矩形領域（355, 93, 395, 97）は、第３の文字Ｃ３の矩形領域（300, 90, 400, 100）に包含される。

　図５（Ｂ）に示されるように、トークン化によって生成される各サブ領域は各文字Ｃ４、Ｃ５を含む最小限の大きさとするのが好ましい。この場合、トークン化によって生成されたサブ領域（Ｃ４、Ｃ５）の面積の和は、トークン化前の領域（Ｃ３）の面積より小さくなる。後述するように、トークン化によって生成されるサブ領域が小さいほど、当該サブ領域に記入されている文字データを抽出しやすくなる。

　モデル取得部１０７は、レイアウト判別部１０３によって判別されたレイアウトにおける抽出対象データを指定するデータ抽出モデルをモデル保持部３００から取得する。モデル保持部３００は、ＰＤＦファイルの様々なレイアウトに対するデータ抽出モデルを保持する。

　一つのレイアウトに対しては一または複数のデータ抽出モデルがモデル保持部３００に保持されており、図２の例では、レイアウト１に対して三つのデータ抽出モデル１－１、１－２、１－３が保持されており、レイアウト２に対して三つのデータ抽出モデル２－１、２－２、２－３が保持されている。各レイアウトについての複数のデータ抽出モデルのうち、一つのデータ抽出モデルのみが後述するモデル有効化部２８０によって予め有効化されている。図２の例では、レイアウト１についてはデータ抽出モデル１－３が有効になっており、レイアウト２についてはデータ抽出モデル２－２が有効になっている。この状態で、レイアウト判別部１０３が判別したＰＤＦファイルのレイアウトがレイアウト１であった場合、モデル取得部１０７はデータ抽出モデル１－３をモデル保持部３００から取得し、レイアウト判別部１０３が判別したＰＤＦファイルのレイアウトがレイアウト２であった場合、モデル取得部１０７はデータ抽出モデル２－２をモデル保持部３００から取得する。

　例えば、レイアウト２が「株式会社にほへとが日本語で発行した1ページの請求書であって機械可読性のあるもの」と定義されている場合に、当該レイアウトを有する図４の例のＰＤＦファイルがファイル入力部１０１に入力されたとする。第１文字認識部１０２から文字認識結果を受け取ったレイアウト判別部１０３は、図４のＰＤＦファイル中の「請求書」や「株式会社にほへと」等の文字自体およびそれらの配置等に基づいて、入力されたＰＤＦファイルのレイアウトが「株式会社にほへとが日本語で発行した1ページの請求書であって機械可読性のあるもの」（レイアウト２）であると判別する。このレイアウト判別結果を受け取ったモデル取得部１０７は、当該レイアウト２に対応するデータ抽出モデルのうち有効になっているデータ抽出モデル２－２をモデル保持部３００から取得する。

　データ抽出モデルについては、図３のモデル訓練装置２００に関して詳述するが、ここでも簡易的に説明する。データ抽出モデルは、対応するレイアウトのＰＤＦファイルのＯＣＲ結果（文字認識結果）から所望の抽出対象データを自動的に抽出するために、教師データによって訓練されたまたは機械学習した数理モデルである。図４のＰＤＦファイルの具体例に即して言えば、データ抽出モデルは税務処理や会計処理に必要な各種の抽出対象データ、例えば、「いろは株式会社」という『会社名』のデータ、「\3,300」という『請求金額』のデータ、「2020/4/1」という『発行日』のデータ、「A1234-901」という『請求書番号』のデータを、ＰＤＦファイルの文字認識結果から自動的に抽出するための機械学習済モデルである。

　データ抽出モデルは、ＰＤＦファイルのＯＣＲ結果、すなわちどのテキストデータがどこにあるかを示すデータを入力とし、各テキストデータがどの項目名に該当するかまたはどの項目にも該当しないかを示すデータを出力とする。このように、データ抽出モデルには、『会社名』、『請求金額』、『発行日』、『請求書番号』等の抽出対象データの項目名を示す項目名データが設定されている。データ抽出モデルのアルゴリズム自体は、既存の機械学習技術を用いて構成されてもよい。

　データ抽出部１０８は、モデル取得部１０７によって取得された以上のようなデータ抽出モデルを、ファイル入力部１０１に入力されたＰＤＦファイルのＯＣＲ結果（第２文字認識部による文字認識結果）に適用し、当該ＯＣＲ結果から抽出対象データを抽出する。以下で具体的に説明するように、データ抽出部１０８は、ＯＣＲ結果をデータ抽出モデルに入力することで、ＯＣＲ結果中の抽出対象データを特定して抽出する。

　上記の例と同様に、図４の例のＰＤＦファイルがファイル入力部１０１に入力され、モデル取得部１０７によって「株式会社にほへとが日本語で発行した1ページの請求書であって機械可読性のあるもの」というレイアウト２に対応する有効なデータ抽出モデル２－２が取得されたとする。データ抽出部１０８は、このデータ抽出モデル２－２にＰＤＦファイルのＯＣＲ結果を入力することで、ＯＣＲ結果に記録されている各テキストが、レイアウト２に応じて設定されている『会社名』、『請求金額』、『発行日』、『請求書番号』等の項目名のいずれに該当するか、または該当なしかを示すデータを出力する。言い換えると、データ抽出モデルは、ＯＣＲ結果に記録されている各テキストを、対応する項目名または該当なしに分類する。

　図６は、データ抽出部１０８および信頼度提示部１０９が出力するデータの例を示す。「OCR Text」は第２文字認識部１０４によって認識された文字（テキストともいう）であって、領域取得部１０５および／または領域分割部１０６で得られた矩形領域および／またはサブ矩形領域の中で認識されたもののリストである。このリストには、図４で例示した「いろは」という第１の文字Ｃ１および「株式会社」という第２の文字Ｃ２、図５（Ｂ）で例示した「請求番号」という第４の文字Ｃ４および「A1234-901」という第５の文字Ｃ５も含まれている。

　「Model outputted label」は「OCR Text」の各文字に対してデータ抽出モデルが決定した項目名である。このようにデータ抽出モデルは、第２文字認識部１０４によって認識された抽出対象データ「OCR Text」と項目名データ「Model outputted label」の組を出力する。図６の例では、文字「2020/4/1」対して項目名『発行日』（Issue Date）が割り当てられ、文字「いろは」に対して項目名『会社名』（Company Name）が割り当てられ、文字「株式会社」対して『会社名』が割り当てられ、文字「A1234-901」対して項目名『請求書番号』（Invoice Number）が割り当てられる。一方、データ抽出モデルは、文字に対応する項目名がない場合は『該当なし』（No Label）のラベルを付す。『該当なし』のラベルが付された文字はデータ出力部１１１による最終出力には含まれない。このように、データ抽出モデルに抽出対象データの項目名データを設定することで、入力されたＰＤＦファイルから抽出すべき抽出対象データを具体的に絞り込むことができる。従って、「OCR Text」でリストアップされた多数の文字データから税務処理や会計処理に必要な文字データのみを効率的に抽出できる。

　「Confidence」は信頼度提示部１０９が提示する信頼度である。信頼度提示部１０９は、データ抽出モデルが出力したデータ、具体的には「OCR Text」の文字データと「Model outputted label」の項目名データの各組について、データ抽出モデルが算出した適合度や第２文字認識部１０４による文字認識精度に応じた信頼度を、0.00（信頼度0%）と1.00（信頼度100%）の間の数字によって提示する。データ抽出装置１００のユーザは信頼度提示部１０９によって提示された信頼度を参照することで、データ抽出部１０８および／または第２文字認識部１０４が各文字について出力したデータがどれほど信頼できるものかを確認できる。例えば、「OCR Text」の2行目の「鍵」は、図４の右上にある「兼」の文字を第２文字認識部１０４が誤認識したものである。このため、当該文字に対する信頼度は「.55」と他に比べて低い数字になっている。

　データ統合部１１０は、データ抽出部１０８が抽出した複数の抽出対象データのうち、それらと組になる項目名データが同じものを一つのデータに統合する。図６の例では、抽出対象データとしての「いろは」（Ｃ１）の文字データおよび「株式会社」（Ｃ２）の文字データに同じ項目名データ『会社名』が付与されているため、データ統合部１１０はこれらの二つの文字データを一つの文字データ「いろは株式会社」に統合する。図４に示されるように、「いろは」（Ｃ１）および「株式会社」（Ｃ２）の文字は、両者の間にスペースがあるものの、「いろは株式会社」という法人名を表す一連の文字として認識されるべきものである。第２文字認識部１０４による文字認識処理では「いろは」と「株式会社」の別々の文字として認識されてしまうが、データ統合部１１０によって本来あるべき一つの文字に再構成できる。

　データ統合部１１０はデータ統合可否を判断するに当たって、統合候補の複数の文字のＰＤＦファイル中の相対距離を参照してもよい。例えば、データ統合部１１０は、データ抽出部１０８が抽出した複数の抽出対象データのうち、それらと組になる項目名データが同じものであって、領域取得部１０５および／または領域分割部１０６で得られる位置情報および／または領域情報が示す文字間の相対距離が所定距離以下のものを一つのデータに統合する。図４の例では、統合候補の「いろは」と「株式会社」の文字が近接していることから、データ統合部１１０はこれらを統合してよいと判断する。また、データ統合部１１０はデータ統合可否を判断するに当たって、統合候補の複数の文字について信頼度提示部１０９が提示する信頼度を参照してもよい。例えば、統合候補の複数の文字の信頼度がいずれも80%以上である場合に、データ統合部１１０はこれらを統合してよいと判断する。これらを含め、データ統合部１１０がデータ統合する場合を予めルール化しておいてもよい。

　データ出力部１１１は、以上の処理を経た抽出対象データを出力する。図６の例では、右側に示される三つの情報（キーバリューペア）が出力される。各出力情報は項目名データと抽出対象データの組になっている。第１の出力情報「Issue Date: 2020/4/1」は、項目名データ『発行日』と抽出対象データ「2020/4/1」の組である。第２の出力情報「Company Name: いろは株式会社」は、項目名データ『会社名』とデータ統合部１１０によって統合された抽出対象データ「いろは株式会社」の組である。第３の出力情報「Invoice Number: A1234-901」は、項目名データ『請求書番号』と領域分割部１０６によってトークン化された抽出対象データ「A1234-901」の組である。なお、データ出力部１１１は、信頼度提示部１０９が提示する信頼度を併せて出力してもよい。

　図７は、データ抽出装置１００によるデータ抽出処理を示すフローチャートである。Ｓ１１では、ファイル入力部１０１に、データ抽出装置１００によるデータ抽出処理の対象であるＰＤＦファイルが入力される。Ｓ１２では、第１文字認識部１０２が、Ｓ１１で入力されたＰＤＦファイル中の文字を認識する。Ｓ１３では、レイアウト判別部１０３が、Ｓ１２で認識された文字の配置に基づいて、Ｓ１１で入力されたＰＤＦファイルのレイアウトを判別し、レイアウト判別結果を含む「Classifier Data」を出力する。

　Ｓ１４では、第２文字認識部１０４が、Ｓ１３のレイアウト判別結果が示すレイアウトに応じたＯＣＲエンジンを選択し、Ｓ１１で入力されたＰＤＦファイル中の文字を当該選択されたＯＣＲエンジンを用いて認識する。また、Ｓ１４では、領域取得部１０５が、第２文字認識部１０４の文字認識結果に基づいて、Ｓ１１で入力されたＰＤＦファイル中で抽出対象データが記入される領域を示す領域情報を取得する。Ｓ１４からは、第２文字認識部１０４によって認識された文字と、領域取得部１０５によって取得された領域情報を含む「OCR Data」が出力される。Ｓ１５では、領域分割部１０６が、Ｓ１４で取得された各文字の領域情報を、当該領域に包含される複数のサブ領域を示す複数のサブ領域情報に分割する。

　Ｓ１６では、モデル取得部１０７が、Ｓ１３で判別されたＰＤＦファイルのレイアウトに対応する有効なデータ抽出モデルをモデル保持部３００から取得する。Ｓ１７では、データ抽出部１０８が、Ｓ１４での文字認識処理／領域取得処理およびＳ１５での領域分割処理を経たデータをＳ１６で取得されたデータ抽出モデルに入力し、当該データら抽出対象データを抽出する。この際に信頼度提示部１０９は、データ抽出部１０８が抽出したデータについて、Ｓ１６で取得されたデータ抽出モデルが出力する適合度やＳ１４での文字認識精度に応じた信頼度を提示する。Ｓ１８では、データ統合部１１０が、Ｓ１７で抽出された複数の抽出対象データのうち、それらと組になる項目名データが同じものを一つのデータに統合する。Ｓ１９では、データ出力部１１１が、以上の処理を経た抽出対象データを外部の業務サーバ等に対して出力する。

　以上、訓練済のデータ抽出モデルを利用してＰＤＦファイルの文字認識結果からデータを抽出するデータ抽出装置１００について説明した。続いて、データ抽出モデルを訓練する図３のモデル訓練装置２００について説明する。

　図３のモデル訓練装置２００において、ファイル入力部２１０には、モデル訓練装置２００によるモデル訓練処理で用いられる教師データまたは訓練データの基になるＰＤＦファイルが入力される。以下の説明では、図２のデータ抽出装置１００の説明でも用いられた図４の例のＰＤＦファイルがファイル入力部２１０に入力されたものとする。レイアウト設定部２２０および教示部２３０は、パーソナルコンピュータ等の操作端末４００を操作するユーザまたは管理者の監督の下で、ファイル入力部２１０に入力されたＰＤＦファイルに各種の情報を付与する。

　レイアウト設定部２２０は、ファイル入力部２１０に入力されたＰＤＦファイルにレイアウトを設定する。レイアウトについては図２のデータ抽出装置１００におけるレイアウト判別部１０３に関して前述した。図４の例のＰＤＦファイルがファイル入力部２１０に入力された場合、レイアウト設定部２２０は「株式会社にほへとが日本語で発行した1ページの請求書であって機械可読性のあるもの」というレイアウト（図２と同様にレイアウト２とする）を当該ＰＤＦファイルに設定する。なお、レイアウトの設定作業は、管理者が操作端末４００をマニュアル操作することで行われてもよいし、前述のレイアウト判別部１０３と同様にレイアウト設定部２２０がレイアウトを自動判別することで行われてもよい。レイアウト設定部２２０が自動判別したレイアウトを操作端末４００の画面上で管理者に提示し、管理者が操作端末４００によって自動判別レイアウトの修正や承認を行うことでレイアウトの設定を行ってもよい。

　教示部２３０は、項目名教示部２３１と第１領域教示部２３２を備え、項目名教示部２３１によって付与される抽出対象データの項目名を教示する項目名データと、第１領域教示部２３２によって付与されるＰＤＦファイル中の抽出対象データの位置を教示する第１位置情報の組を生成する。

　項目名教示部２３１は、レイアウト設定部２２０が設定したレイアウトのＰＤＦファイルから抽出すべき所望の抽出対象データの項目を指定する。図４の例のＰＤＦファイルに関して示した図６の具体例に即して言えば、項目名教示部２３１は、当該ＰＤＦファイルから抽出すべき抽出対象データとして『発行日』、『会社名』、『請求書番号』等の項目を指定する。このような項目名教示部２３１による抽出対象項目の指定は、管理者が操作端末４００をマニュアル操作することで行われてもよいし、レイアウト設定部２２０が設定したレイアウトに応じて項目名教示部２３１が抽出対象項目の候補をリストアップして操作端末４００の画面上で管理者に提示し、管理者が操作端末４００によって提示候補に対する修正、追加、削除、承認を行うことで行われてもよい。

　第１領域教示部２３２は、項目名教示部２３１が設定した抽出対象項目について、ＰＤＦファイル中のデータの位置を教示する第１位置情報を生成する。第１位置情報は、ＰＤＦファイル中で抽出対象データが記入される第１領域を教示する第１領域情報を含んでもよい。図５（Ｃ）は、項目名教示部２３１が設定した抽出対象項目『請求書番号』について、抽出対象データ「A1234-901」が記入される第１矩形領域Ａ１を教示する第１領域情報の例を示す。第１矩形領域Ａ１は操作端末４００を操作する管理者が任意に設定できる矩形領域である。後述するように、ＰＤＦファイル中の各矩形領域に記入されている文字データを効率的に抽出するために、および／または、データ抽出モデルを効率的に訓練するために、第１矩形領域Ａ１は実質的に抽出対象データ「A1234-901」のみを含む最大限の大きさとするのが好ましい。図５（Ｃ）の例では、第１矩形領域Ａ１の左上角の座標は（350, 90）であり右下角の座標は（400, 100）である。従って、第１矩形領域Ａ１を教示する第１領域情報は（350, 90, 400, 100）と表される。なお、第１領域教示部２３２の処理では、LabelImg（商標）等の既存のアノテーションツールを利用してもよい。

　図８（Ａ）は、教示部２３０が教師データ生成部２５０に対して出力するデータの例を示す。「Filename」の列には、ファイル入力部２１０に入力されたＰＤＦファイルの名称が入力されている。「Document ID」の列には、ファイル入力部２１０に入力されたＰＤＦファイルに設定されたシリアルナンバー等のIDが入力されている。「Page」の列には、ＰＤＦファイルの何ページ目かを示すページ数が入力されている。「Extraction Item」の列には、項目名教示部２３１によって設定された抽出対象項目が入力されている。ここでは図６の例に則して『請求書番号』、『発行日』、『会社名』が入力されている。

　「Value」の列には、ファイル入力部２１０に入力されたＰＤＦファイル中の各抽出対象項目に対応する値またはデータが入力されている。これらの値は、ファイル入力部２１０に入力されたＰＤＦファイルを目視で確認した管理者が、操作端末４００によってマニュアル入力したものである。「Bounding Box」の列には、第１領域教示部２３２によって生成された各抽出対象データの第１領域情報が入力されている。図５（Ｃ）に関して説明したように、抽出対象項目『請求書番号』については（350, 90, 400, 100）という第１領域情報が入力されている。

　文字認識部２４１は、図２のデータ抽出装置１００における第２文字認識部１０４と同様に、ファイル入力部２１０に入力されたＰＤＦファイル中の文字を認識する。また、第２文字認識部１０４がレイアウト判別部１０３のレイアウト判別結果に基づいて高精度に文字を認識できるのと同様に、文字認識部２４１はレイアウト設定部２２０で設定されたレイアウトに基づいて高精度に文字を認識できる。

　位置取得部としての第２領域取得部２４２は、図２のデータ抽出装置１００における領域取得部１０５と同様に、文字認識部２４１における文字認識結果に基づいて、ファイル入力部２１０に入力されたＰＤＦファイル中の抽出対象データの位置を示す第２位置情報を取得する。第２位置情報は、ＰＤＦファイル中で抽出対象データが記入される第２領域を示す第２領域情報を含んでもよい。

　領域分割部２４３は、図２のデータ抽出装置１００における領域分割部１０６と同様に、第２領域取得部２４２によって取得された各文字の第２領域情報を、当該第２領域に包含される複数のサブ領域を示す複数のサブ領域情報に分割する。領域分割部２４３が生成するサブ領域情報は、領域分割部１０６が生成するサブ領域情報と実質的に同じである。すなわち、領域分割部１０６に関して図５（Ｂ）で例示したように、第３の文字Ｃ３（図５（Ａ））に含まれる第４の文字Ｃ４および第５の文字Ｃ５がそれぞれ含まれるサブ矩形領域を示すサブ矩形領域情報（305, 93, 345, 97）および（355, 93, 395, 97）が領域分割部２４３によって取得される。

　図８（Ｂ）は、文字認識部２４１、第２領域取得部２４２、領域分割部２４３を経て教師データ生成部２５０に提供されるデータの例を示す。「Tokenized Text」の列には、文字認識部２４１で認識されたＰＤＦファイル中の全ての文字がリストアップされている。図５（Ｂ）に示したような領域分割部２４３によってトークン化された複数の文字については、それぞれが別の文字として「Tokenized Text」の列にリストアップされる。図８（Ｂ）の例では、トークン化された「A1234-901」（第５の文字Ｃ５）が一つの文字として入力されている。「Bounding Box」の列には、第２領域取得部２４２および／または領域分割部２４３によって得られた各文字の第２領域情報が入力されている。例えば、トークン化された文字「A1234-901」については、図５（Ｂ）において当該文字Ｃ５が含まれるサブ矩形領域を示す（355, 93, 395, 97）という第２領域情報が入力されている。

　教師データ生成部２５０は、領域比較部２５１と項目名／領域結合部２５２を備え、データ抽出モデルを訓練するための教師データを生成する。領域比較部２５１は、教示部２３０が設定した抽出対象項目（図８（Ａ）の「Extraction Item」）について、教示部２３０から提供される第１位置情報（図８（Ａ）の「Bounding Box」）と、第２領域取得部２４２および／または領域分割部２４３から提供される第２位置情報（図８（Ｂ）の「Bounding Box」）の乖離が所定量以下であるか否かを判定する。項目名／領域結合部２５２は、第１位置情報と第２位置情報の乖離が所定量以下の抽出対象項目について、当該第１位置情報と組になる項目名データ（図８（Ａ）の「Extraction Item」）と当該第２位置情報が対応付けられた教師データを生成する。

　図８（Ｃ）は、教師データ生成部２５０によって生成される教師データの例を示す。「Tokenized Text」および「Bounding Box」の列には、図８（Ｂ）と同じデータが入力されている。「Extraction Item」の列には、図８（Ａ）の「Extraction Item」に対応する項目名データが入力されている。詳細は後述するが、図８（Ａ）における「Bounding Box」（第１位置情報）と図８（Ｂ）における「Bounding Box」（第２位置情報）の乖離が所定量以下の場合、図８（Ａ）の「Extraction Item」のデータが図８（Ｃ）の「Extraction Item」に入力される。

　例えば、「A1234-901」というトークン化された文字についての第１位置情報（350, 90, 400, 100）と第２位置情報（355, 93, 395, 97）の乖離は所定量以下であるため、第１位置情報（350, 90, 400, 100）と組になる項目名データ「Invoice Number」（請求書番号）が図８（Ｃ）の「Extraction Item」に入力される。一方、図８（Ａ）の「Value」と図８（Ｂ）の「Tokenized Text」に対応する文字がない場合や、対応する文字があっても図８（Ａ）の第１位置情報と図８（Ｂ）第２位置情報の乖離が所定量より大きい場合は、図８（Ｃ）の「Extraction Item」の欄に「No Label」（該当なし）と入力される。図６に関して説明したように、『該当なし』のラベルが付された文字は、データ抽出装置１００によって抽出されない。

　図５（Ｄ）は、トークン化された文字「A1234-901」についての領域比較部２５１による領域比較処理の例を示す。領域比較部２５１は、教示部２３０から提供される第１領域Ａ１が、第２領域取得部２４２および／または領域分割部２４３から提供される第２領域Ａ２（トークン化されたサブ領域）を包含する場合に、第１位置情報と第２位置情報の乖離が所定量以下であると判定する。第１領域Ａ１が第２領域Ａ２を包含するか否かは、例えば、各領域の左上角の座標の比較と右下角の座標の比較によって判定できる。具体的には、第１領域Ａ１の左上角のｘ座標（350）が第２領域Ａ２の左上角のｘ座標（355）以下、第１領域Ａ１の左上角のｙ座標（90）が第２領域Ａ２の左上角のｙ座標（93）以下、第１領域Ａ１の右下角のｘ座標（400）が第２領域Ａ２の右下角のｘ座標（395）以上、第１領域Ａ１の右下角のｙ座標（100）が第２領域Ａ２の右下角のｙ座標（97）以上、という四つの条件を全て満たす場合に第１領域Ａ１が第２領域Ａ２を包含する。

　図５（Ｄ）の例では以上の四つの条件が全て満たされるため、領域比較部２５１は第１位置情報と第２位置情報の乖離が所定量以下であると判定し、それを受けた項目名／領域結合部２５２は、図８（Ｃ）に示されるように、文字「A1234-901」について項目名データ「Invoice Number」と第２位置情報（355, 93, 395, 97）が対応付けられた教師データを生成する。なお、第２領域Ａ２を生成する領域分割部２４３（または第２領域取得部２４２）と同等の機能を有する領域分割部１０６（または領域取得部１０５）で得られるサブ領域（または領域）は最小限の大きさとするのが好ましく、第１領域教示部２３２によって設定される第１領域Ａ１は最大限の大きさとするのが好ましいと前述した理由は、図５（Ｄ）のように第２領域Ａ２が第１領域Ａ１内に収まりやすくすることで図８（Ｃ）のような教師データを効率的に生成できるためである。

　図９は、教師データ生成部２５０による教師データ生成処理を示すフローチャートである。Ｓ２１では、文字認識部２４１によって認識された文字（領域分割部２４３によってトークン化された文字についてはトークン化後のもの）の一つが選択される。これは、図８（Ｂ）の「Tokenized Text」の列から一つの文字を選択することに相当する。Ｓ２２では、教示部２３０による教示データ中にＳ２１で選択された文字に対応する文字があるか否かが判定される。これは、Ｓ２１で選択された図８（Ｂ）の「Tokenized Text」の列の文字が、図８（Ａ）の「Value」の列にも存在するか否かを判定することに相当する。例えば、Ｓ２１で図８（Ｂ）の文字「A1234-901」が選択された場合、図８（Ａ）の「Value」の列にも対応する文字「A1234-901」があるため、Ｓ２２ではＹｅｓと判定される。Ｓ２２でＮｏと判定された場合はＳ３０に進み、Ｓ２１で選択された当該文字に対して「No Label」のラベルが付される。なお、Ｓ２２を設けなくてもよい。この場合、第１位置情報と第２位置情報との比較を全ての第１位置情報について繰り返してもよい。

　Ｓ２２でＹｅｓと判定された場合はＳ２３に進み、教示部２３０から第１領域Ａ１を表す第１位置情報（ｘ１１，ｙ１１，ｘ１２，ｙ１２）を取得する。続くＳ２４では、第２領域取得部２４２または領域分割部２４３から第２領域Ａ２を表す第２位置情報（ｘ２１，ｙ２１，ｘ２２，ｙ２２）を取得する。Ｓ２５では、第１領域Ａ１の左上角のｘ座標ｘ１１が第２領域Ａ２の左上角のｘ座標ｘ２１以下であるか否かが判定され、Ｓ２６では、第１領域Ａ１の左上角のｙ座標ｙ１１が第２領域Ａ２の左上角のｙ座標ｙ２１以下であるか否かが判定され、Ｓ２７では、第１領域Ａ１の右下角のｘ座標ｘ１２が第２領域Ａ２の右下角のｘ座標ｘ２２以上であるか否かが判定され、Ｓ２８では、第１領域Ａ１の右下角のｙ座標ｙ１２が第２領域Ａ２の右下角のｙ座標ｙ２２以上であるか否かが判定される。

　Ｓ２５～Ｓ２８の全てでＹｅｓと判定された場合はＳ２９に進み、Ｓ２１で選択された当該文字に対して、教示データ中の項目名データが抽出対象項目として教師データに記録される。これは、図８（Ａ）の教示データの「Extraction Item」の列にある該当データを、図８（Ｃ）の教師データの「Extraction Item」の列の該当欄に転記することに相当する。一方、Ｓ２５～Ｓ２８のいずれかでＮｏと判定された場合はＳ３０に進み、Ｓ２１で選択された当該文字に対して「No Label」のラベルが付される。Ｓ３１では、文字認識部２４１によって認識された全ての文字がＳ２１で選択されたか否かが判定され、Ｎｏの場合はＳ２１に戻って以降の処理が未選択の文字について順次実行される。

　モデル訓練部２６０は、以上のように生成された図８（Ｃ）のような教師データに基づいて、レイアウト設定部２２０で設定されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練する。図８（Ｃ）の教師データによれば、例えば、抽出対象項目としての『請求書番号』（Invoice Number）が、レイアウト設定部２２０で設定されたレイアウトのＰＤＦファイル中の（355, 93, 395, 97）の位置にあることを、訓練対象のデータ抽出モデルに教えることができる。このような機械学習を経たデータ抽出モデルによれば、図２のデータ抽出装置１００におけるファイル入力部１０１に図４のＰＤＦファイルが入力された場合に、抽出対象データ「A1234-901」に項目名『請求書番号』を正しく対応付けることができる。

　レイアウト設定部２２０で設定されたレイアウトに対応する一または複数のデータ抽出モデルが既にモデル保持部３００に保持されている場合、モデル訓練部２６０はこれらの一つを管理者の操作端末４００上での選択操作等に応じてモデル保持部３００から読み出し、教師データ生成部２５０が新たに生成した教師データによって追加的に訓練できる。図３では、モデル保持部３００に保持されているレイアウト２に対するデータ抽出モデル２－３をモデル訓練部２６０が読み出して訓練する様子を示す。

　モデル訓練部２６０は管理者の操作端末４００上での操作等に応じてデータ抽出モデルを新規に作成し、教師データ生成部２５０が生成した教師データによって訓練してもよい。教師データ生成部２５０が過去に生成した教師データを保持する教師データ保持部を設け、管理者の操作端末４００上での選択操作等に応じてモデル訓練部２６０が適当な教師データを教師データ保持部から読み出し、新規に作成されたデータ抽出モデルまたは作成済のデータ抽出モデルを訓練してもよい。

　モデル格納部２７０は、モデル訓練部２６０によって訓練されたデータ抽出モデルをモデル保持部３００に格納する。図３に示すように既存のデータ抽出モデル２－３がモデル訓練部２６０によって訓練された場合、モデル格納部２７０は、追加的に訓練されたデータ抽出モデルによって訓練前のデータ抽出モデル２－３を置換または更新してもよいし、図３に示すように追加的に訓練されたデータ抽出モデルを新たなデータ抽出モデル２－４としてモデル保持部３００に格納してもよい。モデル有効化部２８０は、管理者の操作端末４００上での操作等に応じて、モデル保持部３００に保持されている各レイアウトに対応する複数のデータ抽出モデルのうち少なくとも一つを有効化する。図３の例では、レイアウト１についてはデータ抽出モデル１－２が有効になっており、レイアウト２については新規に作成されたデータ抽出モデル２－４が有効になっている。

　図１０は、操作端末４００の画面に表示されるＰＤＦファイルのレイアウトの一覧である。この図には８個の異なるレイアウトが表示されており、それぞれにＩＤ４１に示される「0001」から「0008」のシリアルナンバーが付されている。各レイアウトを選択するチェックボックス４０の脇に設けられる展開ボタン５０を押下操作することで、当該レイアウトに対してモデル保持部３００が保持している一または複数のデータ抽出モデルを閲覧できる。図の例では「0008」のレイアウトの展開ボタン５０が押下操作されている。

　レイアウト４２には各レイアウトの一意的な名称が表示される。４２１～４２６には各レイアウトを定義するレイアウト情報が表示される。文書種別４２１には各レイアウトの文書種別（例えば請求書）が表示される。相手方４２２には各レイアウトの適用対象である会社名等が表示される。フォーマット４２３にはファイルのフォーマット（ＰＤＦ等）が表示される。ページ数４２４には各レイアウトのページ数が表示される。言語４２５には各レイアウトで使用される言語が表示される。機械可読性４２６には各レイアウトが機械可読であるか否かが表示される。最終更新４３には各レイアウトまたは各レイアウトに登録された少なくとも一つのデータ抽出モデルの最終更新時刻が表示される。

　使用中モデル４４には、複数のデータ抽出モデルが登録されているレイアウトについて、モデル有効化部２８０によって有効化されている一つの使用中のデータ抽出モデルの番号が表示される。例えば、図１０の「0008」のレイアウトには「Model 1」「Model 2」「Model 3」の３個のデータ抽出モデルが登録されているが、そのうち「Model 1」が有効化されているために使用中モデル４４には「Model 1」が表示される。モデルステータス４５には、各レイアウトで使用中のデータ抽出モデルのモデル訓練装置２００による訓練状況等が表示される。例えば、図１０の「0008」のレイアウトで使用中のデータ抽出モデル「Model 1」は訓練済（Trained）である。レイアウト有効化部４６では、ＯＮ／ＯＦＦボタンの押下操作によって各レイアウトの有効化／無効化を行える。レイアウト有効化部４６で有効化されているレイアウトのみが、データ抽出装置１００によるデータ抽出処理で利用可能である。

　図１０で「0008」のレイアウトの展開ボタン５０が押下操作されることで、当該レイアウトに対してモデル保持部３００が保持している一または複数のデータ抽出モデルを閲覧できる。モデル選択部５１では、ドロップダウンリストによって既存のデータ抽出モデル「Model 1」「Model 2」「Model 3」等を選択できる。更にモデル選択部５１では「New Model」も選択でき、データ抽出モデルの新規作成も行える。モデル使用チェックボックス５２にチェックを入れると、モデル選択部５１で選択されたデータ抽出モデルが「使用中」のステータスとなり、当該データ抽出モデルの番号が使用中モデル４４に表示される。モデル削除ボタン５３を押下操作すると、モデル選択部５１で選択されたデータ抽出モデルを削除できる。作成時刻５４にはモデル選択部５１で選択されたデータ抽出モデルの作成時刻または最終更新時刻が表示される。

　モデルステータス５５には、モデル選択部５１で選択されたデータ抽出モデルのモデル訓練装置２００による訓練状況等が表示される。訓練ファイル表示領域５６には、モデル選択部５１で選択されたデータ抽出モデルの訓練に使用されたＰＤＦファイルがリストアップされて閲覧可能になっている。このように、訓練済または訓練途中のデータ抽出モデルには、訓練に使用されたファイルが対応付けられて保存されている。従って、訓練前は同じデータ抽出モデルであっても、訓練に使用されたファイルの数や内容が異なれば、異なるデータ抽出モデルであるといえる。図１０のようなレイアウトおよびデータ抽出モデルの管理画面によれば、以上のように訓練ファイルのみが異なる複数のデータ抽出モデルを作成し、それぞれのデータ抽出精度を評価しながら、各レイアウトに最適なデータ抽出モデルを効率的に作成できる。モデル新規作成部５７を操作すれば、展開ボタン５０の押下操作によって展開されたレイアウトについて新たなデータ抽出モデルを作成できる。

　図１１は、モデル訓練装置２００によるモデル訓練処理を示すフローチャートである。Ｓ４１では、ファイル入力部２１０に、モデル訓練装置２００によるモデル訓練処理で用いられる教師データの基になるＰＤＦファイルが入力される。Ｓ４２では、操作端末４００を操作する管理者（Data Labeler）の監督の下で、レイアウト設定部２２０がＳ４１で入力されたＰＤＦファイルにレイアウトを設定し、教示部２３０が抽出対象データの項目名データと、Ｓ４１で入力されたＰＤＦファイル中の抽出対象データの第１位置情報の組を生成する。

　Ｓ４３では、文字認識部２４１がＳ４１で入力されたＰＤＦファイル中の文字を認識し、第２領域取得部２４２が、文字認識部２４１の文字認識結果に基づいて、Ｓ４１で入力されたＰＤＦファイル中の抽出対象データの第２位置情報を取得する。Ｓ４４では、領域分割部２４３が、Ｓ４３で取得された各文字の第２領域情報を、当該第２領域に包含される複数のサブ領域を示す複数のサブ領域情報に分割する。Ｓ４５では、教師データ生成部２５０が、領域比較部２５１と項目名／領域結合部２５２によって、データ抽出モデルを訓練するための教師データを生成する。

　Ｓ４６では、モデル訓練部２６０が、Ｓ４５で生成された教師データに基づいて、Ｓ４２で設定されたレイアウトに対するデータ抽出モデルをモデル保持部３００から取得して訓練する。Ｓ４７では、モデル格納部２７０が、Ｓ４６で訓練されたデータ抽出モデルをモデル保持部３００に格納する。

　本実施形態のデータ抽出装置１００およびモデル訓練装置２００は、税務処理や会計処理の対象となるＰＤＦファイル等の電子文書から必要なデータを効率的に抽出することを主な目的として考案された。従来のデータ抽出は膨大な数のデータ抽出ルールに基づいて行われることが一般的であり、各顧客の各文書種別の抽出対象項目毎に異なるデータ抽出ルールを作成して維持管理する必要があるため、極めて効率性が低かった。本実施形態によれば、機械学習に基づくデータ抽出モデルをファイルのレイアウト毎に作成することで、大幅な効率化を実現できた。例えば、１個のデータ抽出ルールの作成に１週間ものエンジニアの時間が使われることもあった従来技術に比べて、本実施形態によれば複数の抽出対象項目（１ファイルで40個を超えることもある）を一挙に抽出できるデータ抽出モデルを訓練するための教師データをわずか１時間程度のアノテータ（Annotator）の時間で生成できる。

　本実施形態では機械学習技術を利用しているため、より多くの訓練ファイルによってデータ抽出モデルを訓練することで、データ抽出モデルの抽出精度を容易に高めることができる。

　本実施形態ではファイルのレイアウト毎にデータ抽出モデルを保持しているため、異なるレイアウトのファイルがデータ抽出装置１００に入力されたとしても、レイアウト毎に最適化されたデータ抽出モデルによって、高精度にデータを抽出できる。これに対して従来技術では、本実施形態のレイアウトの一要素に過ぎない文書種別毎にデータ抽出ルールが作成されていたため、極めて非効率的であった。

　従来のデータ抽出は正規表現やルールに基づく機能に依拠していたが、本実施形態によれば機械学習モデルがこれらの「ルール」を効率的に学習できる。これによって、データ抽出処理を実現するために必要なソフトウェアのコードを著しく低減できる。

　このようにリーンな態様で訓練されたデータ抽出モデルによって、ファイル中の抽出対象データを高速に特定できる。また、データサイエンティストがデータ抽出モデルを調整する必要がある場合にも、特定の性能要素について簡単にカスタマイズを行える。

　一つのレイアウトに対して複数のデータ抽出モデルを作成可能とすることで、データ抽出モデル間の比較等を通じて、各レイアウトに最適なデータ抽出モデルを効率的に作成できる。前述のように、訓練に使用されたファイルの数や内容のみが異なる複数のバージョンのデータ抽出モデルを用意し、それぞれのデータ抽出精度を評価しながら各レイアウトに最適なデータ抽出モデルを選定してもよい。例えば、50個の訓練ファイルがある場合に、20個の訓練ファイルで訓練したデータ抽出モデル１、30個の訓練ファイルで訓練したデータ抽出モデル２、40個の訓練ファイルで訓練したデータ抽出モデル３、50個の訓練ファイルで訓練したデータ抽出モデル４、等を作成する。一般的には訓練ファイルの数が多いほどデータ抽出精度が高くなることが期待されるが、実際には例えばデータ抽出モデル２がデータ抽出モデル４より高精度にデータ抽出できた場合は、モデル有効化部２８０によってデータ抽出モデル２を有効化する。

　本実施形態では、訓練フェーズにおいて、ＯＣＲエンジンが設定する矩形領域（bounding box）と管理者またはデータラベラー（data labeler）が設定する矩形領域との違いによりＯＣＲテキスト（ＯＣＲ結果に含まれるテキスト）への項目名の対応付けが失敗する蓋然性を抑制するためにＯＣＲテキストのトークン化が行われる。これにより、図９、図５（Ｄ）を参照して説明したように、訓練フェーズにおいてＯＣＲテキストの項目への分類をより正確に行うことができる。

　ここで、機械学習モデルを用いる場合、訓練フェーズ（図３）と実行フェーズ（図２）とで基本的に同じ処理を行う必要があるとの要請から、訓練フェーズで導入した上記トークン化を実行フェーズにも導入する必要がある。実行フェーズにトークン化を導入した結果、ＯＣＲテキストが不必要に細分化される状況が生じうる。例えば、「甲乙株式会社」がトークン化により「甲乙」と「株式会社」とに分けられてしまうと、データ抽出モデルは「甲乙」、「株式会社」をそれぞれ独立に項目名「請求先」に分類することとなる。そこで本実施形態では同じ項目名に属するＯＣＲテキストを統合するという処理を実行フェーズに設けている。これにより、上記の例では「甲乙」と「株式会社」とが統合されて「甲乙株式会社」となり、その項目名として「請求先」が対応付けられる。

　このように、本実施形態は、訓練フェーズにおいてより正確な教師データの生成を実現しつつ、それによる実行フェーズへの影響を抑えるか除去することができる。なお、レイアウトごとに統合の基準を定めてもよい。例えば、あるレイアウトの抽出対象項目Ａは２以上ある場合に統合して１つとするが、抽出対象項目Ｂは２以上あっても統合せずにそれぞれ項目Ｂに分類するよう定めてもよい。データ統合部は、入力されたファイルのレイアウトに対応する統合基準を参照して統合処理を行ってもよい。

　以上、本発明を実施形態に基づいて説明した。実施形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　図４や図５（Ｂ）に示されるように、実施形態では領域取得部１０５および／または領域分割部１０６で得られる各矩形領域に「いろは」「株式会社」「A1234-901」等の一つの文字または文字列のみが含まれる場合について説明したが、本実施形態のデータ抽出装置１００は各領域に複数の文字または文字列が含まれる場合にも適用できる。例えば、図４に示されるようにＰＤＦファイルに行列状の表（規則的に配列されたデータ群）が含まれる場合、当該表を認識した第２文字認識部１０４は「金額」の列に含まれる全ての文字群Ｔ１を一括で認識し、領域取得部１０５は文字群Ｔ１を包含する矩形領域を取得する。これに合わせて、図８（Ｃ）において、「Extraction Item」の欄に抽出対象項目『金額』（Amount）が入力され、「Tokenized Text」の欄に文字認識部２４１による文字群Ｔ１の認識結果が入力され、「Bounding Box」の欄に文字群Ｔ１を包含する図４の矩形領域の領域情報（第２領域取得部２４２で取得される）が入力された教師データを教師データ生成部２５０が生成することで、当該教師データによって訓練されたデータ抽出モデルは、図４の文字群Ｔ１を『金額』を表すデータ群として一挙に抽出できる。

　なお、実施形態で説明した各装置の機能構成はハードウェア資源またはソフトウェア資源により、あるいはハードウェア資源とソフトウェア資源の協働により実現できる。ハードウェア資源としてプロセッサ、ＲＯＭ、ＲＡＭ、その他のＬＳＩを利用できる。ソフトウェア資源としてオペレーティングシステム、アプリケーション等のプログラムを利用できる。

　本発明は、情報処理技術に関する。

　４２　レイアウト、４４　使用中モデル、４５　モデルステータス、４６　レイアウト有効化部、５１　モデル選択部、５５　モデルステータス、５６　訓練ファイル表示領域、１００　データ抽出装置、１０１　ファイル入力部、１０２　第１文字認識部、１０３　レイアウト判別部、１０４　第２文字認識部、１０５　領域取得部、１０６　領域分割部、１０７　モデル取得部、１０８　データ抽出部、１０９　信頼度提示部、１１０　データ統合部、１１１　データ出力部、２００　モデル訓練装置、２１０　ファイル入力部、２２０　レイアウト設定部、２３０　教示部、２３１　項目名教示部、２３２　第１領域教示部、２４１　文字認識部、２４２　第２領域取得部、２４３　領域分割部、２５０　教師データ生成部、２５１　領域比較部、２５２　項目名／領域結合部、２６０　モデル訓練部、２７０　モデル格納部、２８０　モデル有効化部、３００　モデル保持部、４００　操作端末。

Claims

　入力されたファイルのレイアウトを判別するレイアウト判別部と、
　判別されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを取得するモデル取得部と、
　取得されたデータ抽出モデルを入力されたファイルの文字認識結果に適用し、当該文字認識結果から抽出対象データを抽出するデータ抽出部と、
　を備える情報処理装置。
　入力されたファイル中の文字を認識する文字認識部を更に備え、
　前記レイアウト判別部は、認識された文字の配置に基づいて、入力されたファイルのレイアウトを判別する、
　請求項１に記載の情報処理装置。
　前記データ抽出モデルは、抽出対象データの項目名を示す項目名データを記録し、
　前記データ抽出部は、抽出した抽出対象データと前記項目名データの組を出力する、
　請求項１または２に記載の情報処理装置。
　前記データ抽出部が抽出した複数の抽出対象データのうち、それらと組になる項目名データが同じものを一つのデータに統合するデータ統合部を更に備える、請求項３に記載の情報処理装置。
　前記データ統合部は、前記データ抽出部が抽出した複数の抽出対象データのうち、それらと組になる項目名データが同じものであって、ファイル中の相対距離が所定距離以下のものを一つのデータに統合する、請求項４に記載の情報処理装置。
　前記データ抽出部が抽出した抽出対象データについて、前記データ抽出モデルとの適合度に応じた信頼度を提示する信頼度提示部を更に備える、請求項１から５のいずれかに記載の情報処理装置。
　入力されたファイルにレイアウトを設定するレイアウト設定部と、
　抽出対象データの項目名を教示する項目名データと、入力されたファイル中の当該抽出対象データの位置を教示する第１位置情報の組を生成する教示部と、
　入力されたファイル中の文字を認識する文字認識部と、
　認識された文字に基づいて、入力されたファイル中の抽出対象データの位置を示す第２位置情報を取得する位置取得部と、
　前記第１位置情報および前記第２位置情報の乖離が所定量以下の場合に、当該第１位置情報と組になる項目名データと当該第２位置情報が対応付けられた教師データを生成する教師データ生成部と、
　生成された教師データに基づいて、前記レイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練するモデル訓練部と、
　を備える情報処理装置。
　前記第１位置情報は、入力されたファイル中で抽出対象データが記入される第１領域を教示する第１領域情報を含み、
　前記第２位置情報は、入力されたファイル中で抽出対象データが記入される第２領域を示す第２領域情報を含み、
　前記教師データ生成部は、前記第１領域が前記第２領域を包含する場合に、当該第１領域情報と組になる項目名データと当該第２領域情報が対応付けられた教師データを生成する、
　請求項７に記載の情報処理装置。
　前記位置取得部が取得した前記第２領域情報を、前記第２領域に包含される複数のサブ領域を示す複数のサブ領域情報に分割する領域分割部を更に備え、
　前記教師データ生成部は、前記第１領域が前記サブ領域を包含する場合に、当該第１領域情報と組になる項目名データと当該サブ領域情報が対応付けられた教師データを生成する、
　請求項８に記載の情報処理装置。
　一つのレイアウトに対して複数のデータ抽出モデルを保持可能なモデル保持部と、
　前記複数のデータ抽出モデルのうち少なくとも一つを有効化するモデル有効化部と、
　を更に備える請求項７から９のいずれかに記載の情報処理装置。
　入力されたファイルのレイアウトを判別するレイアウト判別ステップと、
　判別されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを取得するモデル取得ステップと、
　取得されたデータ抽出モデルを入力されたファイルの文字認識結果に適用し、当該文字認識結果から抽出対象データを抽出するデータ抽出ステップと、
　を備える情報処理方法。
　入力されたファイルのレイアウトを判別するレイアウト判別ステップと、
　判別されたレイアウトにおける抽出対象データを指定するデータ抽出モデルを取得するモデル取得ステップと、
　取得されたデータ抽出モデルを入力されたファイルの文字認識結果に適用し、当該文字認識結果から抽出対象データを抽出するデータ抽出ステップと、
　をコンピュータに実行させる情報処理プログラム。
　入力されたファイルにレイアウトを設定するレイアウト設定ステップと、
　抽出対象データの項目名を教示する項目名データと、入力されたファイル中の当該抽出対象データの位置を教示する第１位置情報の組を生成する教示ステップと、
　入力されたファイル中の文字を認識する文字認識ステップと、
　認識された文字に基づいて、入力されたファイル中の抽出対象データの位置を示す第２位置情報を取得する位置取得ステップと、
　前記第１位置情報および前記第２位置情報の乖離が所定量以下の場合に、当該第１位置情報と組になる項目名データと当該第２位置情報が対応付けられた教師データを生成する教師データ生成ステップと、
　生成された教師データに基づいて、前記レイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練するモデル訓練ステップと、
　を備える情報処理方法。
　入力されたファイルにレイアウトを設定するレイアウト設定ステップと、
　抽出対象データの項目名を教示する項目名データと、入力されたファイル中の当該抽出対象データの位置を教示する第１位置情報の組を生成する教示ステップと、
　入力されたファイル中の文字を認識する文字認識ステップと、
　認識された文字に基づいて、入力されたファイル中の抽出対象データの位置を示す第２位置情報を取得する位置取得ステップと、
　前記第１位置情報および前記第２位置情報の乖離が所定量以下の場合に、当該第１位置情報と組になる項目名データと当該第２位置情報が対応付けられた教師データを生成する教師データ生成ステップと、
　生成された教師データに基づいて、前記レイアウトにおける抽出対象データを指定するデータ抽出モデルを訓練するモデル訓練ステップと、
　をコンピュータに実行させる情報処理プログラム。