WO2022215276A1

WO2022215276A1 - データ抽出装置、データ抽出方法、データ抽出プログラム、データ抽出支援装置、データ抽出支援方法、データ抽出支援プログラム

Info

Publication number: WO2022215276A1
Application number: PCT/JP2021/021247
Authority: WO
Inventors: ウィリアムスタイメル; 真樹廣▲瀬▼; ジェイソンリグドン; ジャコモデレヴァ
Original assignee: 株式会社KPMG Ignition Tokyo
Priority date: 2021-04-09
Filing date: 2021-06-03
Publication date: 2022-10-13

Abstract

データ抽出装置１０は、データ抽出処理の対象である表計算ファイルが入力される表計算ファイル入力部１１と、表計算ファイル入力部１１に入力された表計算ファイルの属性情報を取得する属性情報取得部１２と、属性情報取得部１２で取得された表計算ファイルの属性情報に合致する構成ファイルを、構成ファイル保持部１４に保持された複数の構成ファイルの中から検索する構成ファイル検索部１３と、構成ファイル検索部１３で検索された構成ファイルで定義されたデータ抽出条件を構成ファイル保持部１４から取得する抽出条件取得部１５と、抽出条件取得部１５で取得されたデータ抽出条件に基づいて、表計算ファイル入力部１１で入力された表計算ファイルからデータを抽出するデータ抽出部１６と、を備える。

Description

データ抽出装置、データ抽出方法、データ抽出プログラム、データ抽出支援装置、データ抽出支援方法、データ抽出支援プログラム

　本発明は、データ抽出技術またはデータ抽出支援技術に関する。

　データの記録、集計、分析等に用いられる表計算ソフトウェアまたはスプレッドシート（spreadsheet）は、業務用または個人用を問わず多くのコンピュータで広く使用されている。特許文献１は、表計算ソフトウェアで作成された表計算ファイルを業務システムに取り込む際に、表計算ファイルから必要なデータを抽出する技術を開示する。特許文献１の図６に示されるように、表計算ファイルのデータ抽出範囲は開始位置と終了位置を示すセル番号によって指定される。具体的には、データ抽出の開始位置としてセル番号「A2」が、終了位置としてセル番号「E7」が指定される。このようなデータ抽出範囲の指定によって、セル番号「A2」のセルを左上の角およびセル番号「E7」のセルを右下の角とする矩形範囲に含まれる各セルからデータが抽出される。

特開２０１５－１９１６５３号公報

　特許文献１では、その図４に示されるように、表計算ファイルを業務システムに取り込む際に、図６のようなデータ抽出範囲をユーザがマニュアルで設定する必要がある。開始位置「A2」および終了位置「E7」という図６のデータ抽出範囲が全ての表計算ファイルに共通するものであれば表計算ファイル毎の設定作業は不要であるが、フォーマットの自由度が高い表計算ソフトウェアで作成される多種多様な表計算ファイルが完全に同一の開始位置や終了位置を持つことは期待できない。このように、特許文献１ではユーザのマニュアル設定作業への依存度が高くなる結果、表計算ファイルの取込み作業の効率化のボトルネックになってしまう。

　本発明はこうした状況に鑑みてなされたものであり、その目的は、表計算ファイルから効率的にデータを抽出できるデータ抽出装置および表計算ファイルからの効率的なデータ抽出を支援するデータ抽出支援装置を提供することにある。

　上記課題を解決するために、本発明のある態様のデータ抽出装置は、入力された表計算ファイルの属性情報に合致する構成ファイルを複数の構成ファイルの中から検索する構成ファイル検索部と、検索された構成ファイルで定義されたデータ抽出条件に基づいて、入力された表計算ファイルからデータを抽出するデータ抽出部と、を備える。

　本発明の別の態様は、データ抽出支援装置である。この装置は、複数の表計算ファイルと、それぞれに対応する複数のデータ抽出条件を保持する保持部と、入力された表計算ファイルと構成が類似する表計算ファイルを保持部において特定する構成分析部と、特定された表計算ファイルに対応するデータ抽出条件に基づいて、入力された表計算ファイルから抽出すべきデータを指定するデータ抽出条件を生成する抽出条件生成部と、を備える。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、表計算ファイルから効率的にデータを抽出できる。

データ抽出装置の機能ブロック図である。表計算ファイルの例を示す。表計算ファイルの例を示す。構成ファイルの一覧表の画面例を示す。構成ファイルの新規作成画面の例を示す。構成ファイルの新規作成画面の例を示す。構成ファイルの新規作成画面の例を示す。構成ファイルの新規作成画面の例を示す。構成ファイルの具体例を示す。データ抽出部の抽出結果の画面例を示す。構成ファイルに基づく表計算ファイルからのデータ抽出処理のフローを示す。変形例に係るデータ抽出装置の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。構成ファイルの新規作成画面の変形例を示す。テーブル抽出条件の設定方法の変形例を示す。テーブル抽出条件の設定方法の変形例を示す。データ抽出支援装置の機能ブロック図である。

　図１は、本発明の実施形態に係るデータ抽出装置１０の機能ブロック図である。データ抽出装置１０は、表計算ファイル入力部１１と、属性情報取得部１２と、構成ファイル検索部１３と、構成ファイル保持部１４と、抽出条件取得部１５と、データ抽出部１６と、データ格納部１７と、構成ファイル管理部１８を備える。これらの機能ブロックは、コンピュータの中央演算処理装置、メモリ、入力装置、出力装置、コンピュータに接続される周辺機器等のハードウェア資源と、それらを用いて実行されるソフトウェアの協働により実現される。コンピュータの種類や設置場所は問わず、上記の各機能ブロックは、単一のコンピュータのハードウェア資源で実現してもよいし、複数のコンピュータに分散したハードウェア資源を組み合わせて実現してもよい。

　表計算ファイル入力部１１には、データ抽出装置１０によるデータ抽出処理の対象である表計算ファイルが入力される。表計算ファイルとは、データの記録、集計、分析等に用いられる表計算ソフトウェアまたはスプレッドシートで扱える形式の電子ファイルまたは電子文書であり、典型的には表計算ソフトウェア自体によって作成される。

　図２および図３に同じエンティティが作成、発行する表計算ファイルの例を示す。各図の表計算ファイルは格子状のデータ配列を有する。具体的には、連続する数字（1, 2, 3…）で指定される行番号と、連続する文字（A, B, C…）で指定される列番号の組によって、データの入力単位としてのセルの番号が指定される。例えば、図２のセル番号「F20」のセルには「賃料」との文字データが入力され、セル番号「H20」のセルには「1,000,000」との数値データが入力されている。ここで、セル番号「G20」のセルは隣接するセル番号「F20」のセルと結合またはマージされているため、セル番号「F20」および「G20」の一方のセルの指定は他方のセルの指定となり、いずれも文字データ「賃料」を指定する。同様に、セル番号「O21」のセルを左上の角およびセル番号「AF39」のセルを右下の角とする矩形範囲に含まれる全セルは一つのセルに結合されているため、当該矩形範囲内のいずれのセル番号の指定も「This building is new and ready. The building is very new and valuable and useful for daily operations. This excel data is ready to be extracted by excel marauder.」との同一の文字データの指定となる。

　図３の表計算ファイルでは、例えば、セル番号「C10」～「C15」の６行分のセルが、「水光熱費」との文字データが入力された一つのセルに結合されている。一方、その右方の「D」列以降では行番号「10」～「15」の６行分のセルが結合されておらず、各行のセルに個別にデータが入力されている。図２と図３の比較から明らかなように、発行するエンティティが同じであっても、文書の類型（タイプ）によって表計算ファイルのフォーマットは千差万別である。また、文書の類型が同じであっても、発行するエンティティによって表計算ファイルのフォーマットは千差万別である。後述するように、本実施形態のデータ抽出装置１０によれば、このようにフォーマットが大きく異なる表計算ファイルが表計算ファイル入力部１１に入力されたとしても、各表計算ファイルから効率的にデータを抽出できる。

　また、図３のようなリストまたは項目の一覧表の場合、リストの開始位置すなわち左上角の位置がセル番号「B7」であることは決まっていたとしても、リストの終了位置すなわち右下角の位置はリストに記録される項目数によるためリスト毎に異なる（リストの終了位置の列番号は「P」であるが行番号がリスト毎に異なる）。後述するように、本実施形態のデータ抽出装置１０によれば、リストすなわちデータ抽出対象の終了位置が変化したとしても、開始位置から終了位置の間にある複数のセルから効率的にデータを抽出できる。

　属性情報取得部１２は、表計算ファイル入力部１１に入力された表計算ファイルの属性情報を取得する。表計算ファイルの属性情報は類型と対象エンティティを含み、それぞれ類型特定部１２１とエンティティ特定部１２２で特定される。

　類型特定部１２１で特定される表計算ファイルの類型またはタイプは限定されないが、請求書、資産管理レポート（Property Management Report）、CAPEX（資本的支出）リスト、銀行取引明細書が例示される。これらの類型は、所定のルールに基づいて類型特定部１２１が判別してもよいし、網羅的な訓練データによって予め機械学習を行った人工知能としての類型特定部１２１（機械学習済みモデル）が自律的に判別してもよいし、表計算ファイル入力部１１に表計算ファイルを入力する際にユーザが入力してもよい。なお、表計算ファイルが複数のシートを含む場合はシート毎に類型が特定される。例えば、資産管理レポートの表計算ファイルが複数のシートを含む場合、図２のシートについては「資産管理レポートのエグゼクティブサマリー」等の類型が特定され、図３のシートについては「資産管理レポートの支払明細リスト」等の類型が特定される。

　具体的には、図２の表計算ファイルでは、セル番号「K1」における「Building」の記載、セル番号「K2」または「K3」における「Executive Summary」の記載、セル番号「A6」における「Property Description」の記載、セル番号「A16」における「Income & Expenses」の記載、セル番号「N6」における「Current Leasing Situation」の記載等に基づいて、類型特定部１２１は当該表計算ファイルの類型を「資産管理レポート」や「資産管理レポートのエグゼクティブサマリー」等と特定できる。また、図３の表計算ファイルでは、セル番号「B1」における「House」の記載、セル番号「B3」における「支払明細リスト」の記載、列番号「C」「D」「H」「I」等における「建物管理費」「修繕費」「水光熱費」「PM報酬」「原状回復費」等の不動産管理に特有の用語等に基づいて、類型特定部１２１は当該表計算ファイルの類型を「資産管理レポート」や「資産管理レポートの支払明細リスト」等と特定できる。

　エンティティ特定部１２２で特定される表計算ファイルの対象エンティティは、表計算ファイル入力部１１に入力された表計算ファイルに基づいてエンティティ特定部１２２が自律的に判別してもよいし、表計算ファイル入力部１１に表計算ファイルを入力する際にユーザが入力してもよい。例えば、図２のセル番号「K1」に記載された特定の建物や図３のセル番号「B1」に記載された特定の建物が特定のエンティティに帰属しているとの記録が参照可能な場合、エンティティ特定部１２２は当該エンティティを当該表計算ファイルの対象エンティティとして特定できる。また、表計算ファイルが対象エンティティ自身によって作成または保存されたものである場合、表計算ファイルのプロパティ情報に記録されている「作成者」や「保存者」の情報に基づいて対象エンティティを特定できることもある。なお、建物等の不動産その他の特定の資産についての対象エンティティは、その保有者、使用者、管理者等の個人または法人に限らず、特定の資産自体としてもよい。例えば、図２ではセル番号「K1」の「Excel Marauder Building」自体を対象エンティティとしてもよいし、図３ではセル番号「B1」の「Beethoven House」自体を対象エンティティとしてもよい。あるいはまた、ユーザがエンティティを指定してデータ抽出装置１０にログインする場合、エンティティ特定部１２２はログイン時に指定されたエンティティを対象エンティティとしてもよい。あるいはまた、表計算ファイル入力部１１は、エンティティごとに表計算ファイルを保持する保持部から特定のエンティティの表計算ファイルを取得してもよい。この場合、エンティティ特定部１２２はその特定のエンティティを対象エンティティとしてもよい。

　構成ファイル検索部１３は、属性情報取得部１２で取得された表計算ファイルの属性情報に合致する構成ファイルを、構成ファイル保持部１４に保持された複数の構成ファイルの中から検索する。構成ファイル保持部１４の内部に模式的にデータ構造を図示するように、各構成ファイルは、類型特定部１２１で特定される類型に対応する文書タイプとエンティティ特定部１２２で特定される対象エンティティに対応するエンティティを含む属性情報と、単一アイテム抽出条件とテーブル抽出条件を含むデータ抽出条件によって構成される。各構成ファイルを構成するこれらの情報の詳細は後述する。抽出条件取得部１５は、構成ファイル検索部１３での検索の結果得られる構成ファイルまたは当該構成ファイルで定義されたデータ抽出条件を構成ファイル保持部１４から取得する。データ抽出部１６は、抽出条件取得部１５で取得された構成ファイルまたはデータ抽出条件に基づいて、表計算ファイル入力部１１で入力された表計算ファイルからデータを抽出する。データ格納部１７は、データ抽出部１６で抽出されたデータをデータ抽出装置１０外の業務システムサーバ２０に格納する。なお、業務システムサーバ２０が提供する業務システムは限定されないが、会計、税務、マーケティング、販売、購買、人事、法務、製造、物流、決済が例示される。

　続いて、上記の各機能ブロックの機能について画面例を参照しながら説明する。以下で示す画面例は、データ抽出装置１０外からデータ抽出装置１０の各機能ブロックにアクセス可能なコンピュータ、タブレット、スマートフォン等の情報通信装置３０のディスプレイに表示されるものだが、データ抽出装置１０がディスプレイを備える場合はそれに表示させてもよい。

　図４は、構成ファイル保持部１４に保持されている構成ファイルの一覧表の画面例を示す。本画面例において構成ファイルは「Mapping」と表記され、三つの構成ファイル「My Mapping 03」「My Mapping 02」「My Mapping 01」が表示される。各構成ファイルには、アクティブボタン４１と、テストボタン４２と、構成ファイル名４３と、文書タイプ４４と、文書サブタイプ４５と、最終保存日時４６と、編集ボタン４７と、コピーボタン４８と、削除ボタン４９が表示される。

　アクティブボタン４１は、構成ファイルのアクティブ状態と非アクティブ状態を切り替える。図示の画面例では「My Mapping 03」「My Mapping 02」がアクティブ状態にあり、「My Mapping 01」が非アクティブ状態にある。アクティブ状態にある構成ファイルは、構成ファイル検索部１３によって検索可能かつ抽出条件取得部１５によってデータ抽出条件が取得可能である。非アクティブ状態にある構成ファイルは、構成ファイル検索部１３によって検索不可能かつ抽出条件取得部１５によってデータ抽出条件が取得不可能である。テストボタン４２は、構成ファイルのデータ抽出条件（後述）を適用してテスト用の表計算ファイルからデータを抽出するテストを実行する。なお、テスト用の表計算ファイルのアップロード等は画面上部の領域４２１から行える。

　構成ファイル名４３は、構成ファイルの名称「My Mapping 03」「My Mapping 02」「My Mapping 01」を表示する。構成ファイル名４３の前には三角形の詳細表示アイコン４３１が表示されており、これを画面上でクリックすると後述する詳細情報５１～５３が表示される。図示のように、詳細表示アイコン４３１が下向きの三角形の時は詳細情報５１～５３が表示され、詳細表示アイコン４３１が右向きの三角形の時は詳細情報５１～５３は表示されない。

　文書タイプ４４および文書サブタイプ４５に表示される文書のタイプおよびサブタイプは、前述の類型特定部１２１が特定する表計算ファイルの類型またはタイプに相当する。例えば、図２の「資産管理レポートのエグゼクティブサマリー」という類型の表計算ファイルでは、「資産管理レポート」が文書タイプ４４に相当し、「エグゼクティブサマリー」が文書サブタイプ４５に相当する。また、図３の「資産管理レポートの支払明細リスト」という類型の表計算ファイルでは、「資産管理レポート」が文書タイプ４４に相当し、「支払明細リスト」が文書サブタイプ４５に相当する。後述するように、類型特定部１２１が特定した表計算ファイルの類型と、図４の構成ファイルで定義された文書タイプ４４および文書サブタイプ４５のマッチングによって、表計算ファイルに適用されるべき構成ファイルが構成ファイル検索部１３によって検索される。なお、表計算ファイルが複数のシートを含む場合、「文書」の語は各シートも意味する。すなわち、それ自体が文書である表計算ファイルは、複数の文書としての複数のシートを含む。

　最終保存日時４６は、構成ファイルが最後に保存された日時を表示する。編集ボタン４７は、既存の構成ファイルを編集するための動線として機能する。コピーボタン４８は、既存の構成ファイルをコピーするための動線として機能する。削除ボタン４９は、既存の構成ファイルを削除するための動線として機能する。詳細表示アイコン４３１によって表示される詳細情報は、最終保存者５１と、備考５２と、エンティティ５３を含む。最終保存者５１は、構成ファイルを最後に保存した者の名前を表示する。備考５２は、構成ファイルについて入力されたコメント等を表示する。

　エンティティ５３は、前述のエンティティ特定部１２２が特定する表計算ファイルの対象エンティティに対応する。後述するように、エンティティ特定部１２２が特定した表計算ファイルの対象エンティティと、図４の構成ファイルで定義されたエンティティ５３のマッチングによって、表計算ファイルに適用されるべき構成ファイルが構成ファイル検索部１３によって検索される。なお、図示のように、エンティティ５３は複数の異なるエンティティを含みうる。すなわち、一つの構成ファイルを複数のエンティティに適用することができるため、エンティティ毎に異なる構成ファイルを作成する必要がなくなる。

　以上のように、図４の画面例における文書タイプ４４、文書サブタイプ４５、エンティティ５３の三種類の情報が構成ファイル検索部１３による構成ファイルの検索に利用される。すなわち、構成ファイル検索部１３は、表計算ファイル入力部１１で入力された表計算ファイルについて、類型特定部１２１が特定した類型を文書タイプ４４および文書サブタイプ４５とマッチングし、かつ、エンティティ特定部１２２が特定した対象エンティティをエンティティ５３とマッチングする。この際、文書タイプ４４、文書サブタイプ４５、エンティティ５３の全ての情報が重複する複数の構成ファイルがアクティブ状態にあると、構成ファイル検索部１３の検索の結果、複数の構成ファイルがヒットしてしまう可能性がある。このような事態を回避するため、構成ファイル保持部１４は、上記のようなコンフリクトを発生させる構成ファイルのアクティブボタン４１が押下されると、複数の構成ファイル間にコンフリクトがある旨の注意を画面上に表示してユーザの再考を促す。

　以上、既存の構成ファイルの概要を説明した。構成ファイルを新規に作成する場合は新規作成ボタン６０を押下する。図５～８は新規作成ボタン６０を押下することで遷移する構成ファイルの新規作成画面の例を示す。便宜上、複数の図面に分けて示すが、実際のディスプレイ上では上下スクロールによって遷移可能な一続きの画面になっている。以下、複数の図面に分けて示す画面例について同様である。構成ファイル管理部１８は、ユーザの情報通信装置３０と通信することで構成ファイルを新規生成し、構成ファイル保持部１４に登録する。構成ファイル管理部１８は、図５～８に示されるような新規作成画面を情報通信装置３０のディスプレイに表示させる。構成ファイル管理部１８は、表示された新規作成画面に対してユーザが入力した情報を受信し、受信した情報に基づいて下記の如くに構成ファイルを生成する。構成ファイル管理部１８は、既存の構成ファイルに対する更新の指示をユーザから受け付け、指示にしたがい当該構成ファイルを更新する。

　図５は、基本情報入力領域６１と、エンティティ追加領域６２を示す。基本情報入力領域６１は、構成ファイル名入力部６１１と、備考入力部６１２と、文書タイプ入力部６１３と、文書サブタイプ入力部６１４を含む。構成ファイル名入力部６１１には構成ファイルの任意の名称を入力する。ここで入力された構成ファイルの名称は図４の構成ファイル名４３に表示される。備考入力部６１２には構成ファイルについての任意のコメント等を入力する。ここで入力された構成ファイルの備考は図４の備考５２に表示される。

　文書タイプ入力部６１３には構成ファイルの対象文書のタイプをドロップダウンリストから選択して入力する。ここで入力された構成ファイルの対象文書のタイプは図４の文書タイプ４４に表示される。文書サブタイプ入力部６１４には構成ファイルの対象文書のサブタイプをドロップダウンリストから選択して入力する。サブタイプは文書タイプ入力部６１３に入力されたタイプの下位の類型であり、文書タイプ入力部６１３の入力に応じて文書サブタイプ入力部６１４のドロップダウンリストが自動的に生成される。ここで入力された構成ファイルの対象文書のサブタイプは図４の文書サブタイプ４５に表示される。

　エンティティ追加領域６２は、エンティティ選択部６２１と、追加ボタン６２２と、エンティティリスト６２３と、削除ボタン６２４を含む。エンティティ選択部６２１では追加対象のエンティティをドロップダウンリストから選択する。エンティティ選択部６２１で追加対象のエンティティが選択された状態で追加ボタン６２２が押下されると、当該エンティティがエンティティリスト６２３に追加される。エンティティリスト６２３中の各エンティティは削除ボタン６２４の押下によって削除できる。エンティティリスト６２３に追加されたエンティティは図４のエンティティ５３に表示される。

　図６は、第１の類型のデータ抽出条件としての単一アイテム抽出条件を設定する単一アイテム抽出条件設定領域６３を示す。単一アイテム抽出条件設定領域６３は、標準アイテム（Standard Items）設定部６３１と、シート指定部６３２と、基準セル指定方法指定部６３３と、セル番号指定部６３４と、キーワード指定部６３５と、キーワード位置指定部６３６と、相対距離指定部６３７を含む。

　標準アイテムは、データ抽出装置１０のユーザが入力された表計算ファイルから抽出したいデータアイテム（データ項目）である。文書の各類型は所定の標準アイテムの集合を有するか、それに対応付けられる。例えば、支出レポート（expense report）からは標準アイテムとして発行日、テーブルにある日付、アイテム、金額を抽出する。収入レポート（revenue report）からは標準アイテムとして発行日、テーブルにある日付、収入の元、金額を抽出する。標準アイテムには以下の３つのタイプがある。

（１）単一の標準アイテム
　各文書にこの標準アイテムの値は１つしかない。例えば発行日である。
（２）シリーズ（series）標準アイテム
　シリーズ標準アイテムの値は、通常、文書のテーブルの行または列に格納されている。例えば日付および金額である。同じテーブルに属するシリーズ標準アイテムは、通常、同じ長さを有する。しかしながら、その長さ自体は文書により異なりうる。例えば、先月の支出レポートで３つの支出項目があり、今月の支出レポートで１０の支出項目があることがありうる。この場合、先月の支出レポートから抽出される日付、金額の値の数は３であり、今月の支出レポートから抽出される日付、金額の値の数は１０である。
（３）算出された（Calculated）標準アイテム
　この標準アイテムは単一であってもよいしシリーズであってもよいが、文書には含まれない。したがって、文書から直接抽出されるものではない。この標準アイテムは、他の標準アイテムから計算により得られるものである。例えば、合計は、金額というシリーズ標準アイテムから算出される単一の計算された標準アイテムである。

　データ抽出装置１０は入力された表計算ファイルから標準アイテムに相当するデータを抽出し、抽出されたデータを業務システムサーバ２０（データベース）に登録する。すなわち、業務システムサーバ２０には標準アイテムのデータ値が格納される。構成ファイルは、表計算ファイルのどこに含まれるどのデータをどの標準アイテムとして抽出すべきかを指定するルールを保持していると言える。この算出された標準アイテムを抽出対象として構成ファイルで指定する場合、当該構成ファイルに計算式を記録する。

　単一アイテム抽出条件は、表計算ファイルの単一セルからデータを抽出するための条件である。以下で詳細に説明するように、図示の例では標準アイテム設定部６３１に設定された標準アイテム「Property Name」（物件名称）のデータを単一セルから抽出する。すなわち、図２の表計算ファイルに関しては単一セル「K1」または「H8」における「Excel Marauder Building」との物件名を抽出するための条件が設定され、図３の表計算ファイルに関しては単一セル「B1」における「Beethoven House」との物件名を抽出するための条件が設定される。なお、図６では「Property Name」に関する一つの単一アイテム抽出条件設定領域６３のみを示すが、単一アイテム抽出条件設定領域６３は複数あってもよい。例えば、「Property Name」に関する図示の単一アイテム抽出条件設定領域６３に加え、「作成時」に関する単一アイテム抽出条件設定領域６３があってもよい。「作成時」に関しては、図２の単一セル「K4」から「March - 2021」を抽出し、図３の単一セル「P1」から「作成日:2020/08/17」を抽出する条件が設定される。

　標準アイテム設定部６３１では抽出対象の単一の標準アイテムを設定する。ここで、図５の基本情報入力領域６１やエンティティ追加領域６２に入力された情報に応じて、標準的なユーザが抽出したい標準アイテムが推定されて標準アイテム設定部６３１に予め表示される。例えば、文書タイプ入力部６１３に「資産管理レポート」が入力された場合、上記の例にある「Property Name」や「作成時」が標準アイテム設定部６３１に予め表示される。また、文書タイプ入力部６１３や文書サブタイプ入力部６１４に「費用レポート」「収入レポート」等が入力された場合、「発行日」等が標準アイテム設定部６３１に予め表示される。このように、特定のタイプやサブタイプの文書からユーザが抽出したいと推定される標準アイテムを決定して標準アイテム設定部６３１に予め表示してもよい。標準アイテム設定部６３１に予め表示された標準アイテムに対して、ユーザは編集、削除、追加等の処理を画面上で行える。

　シート指定部６３２では抽出対象の単一の標準アイテムが含まれるシートを指定する。具体的には、抽出対象の単一の標準アイテムが含まれるシートの名称をドロップダウンリストから選択してシート指定部６３２に入力する。ここで入力されたシートの名称は、データを抽出すべきシートを指定するシート指定条件を構成する。

　基準セル指定方法指定部６３３ではデータ抽出における基準セルを指定する方法を指定する。基準セルとはデータ抽出時の基準となるセルであり、具体的には、データ抽出対象の単一セル自体またはデータ抽出対象の単一セルから相対距離指定部６３７で指定される相対距離だけ離れたセルである。基準セル指定方法指定部６３３では「セル番号による指定」または「キーワードによる指定」がドロップダウンリストから選択される。図６では基準セル指定方法指定部６３３の下方に全ての指定部６３４～６３７を同時に表示したが、基準セル指定方法指定部６３３の選択に応じて関連する指定部のみを表示するのが好ましい。すなわち、「セル番号による指定」が基準セル指定方法指定部６３３で選択された場合はセル番号指定部６３４を表示し（指定部６３５～６３７は非表示）、「キーワードによる指定」が基準セル指定方法指定部６３３で選択された場合はキーワード指定部６３５、キーワード位置指定部６３６、相対距離指定部６３７を表示する（指定部６３４は非表示）。

　セル番号指定部６３４では表計算ファイルのセル番号によって基準セルを指定する。基準セルは単一セルであるが、複数のセルが一つのセルに結合される場合もあるため、セル番号指定部６３４では開始セル番号（左上角のセル番号）と終了セル番号（右下角のセル番号）によるセル範囲を指定できる。例えば、図２の物件名「Excel Marauder Building」の単一セルは、セル番号「K1」～「T1」の複数のセルが一つに結合されたものである。この結合セルを基準セルとして指定するには、セル番号指定部６３４にセル範囲「K1」to「T1」を入力すればよい。あるいは、セル範囲「K1」～「T1」に含まれる一または複数の任意のセル番号をセル番号指定部６３４に入力してもよい。セル番号指定部６３４に入力された情報は、表計算ファイルのセル番号によって基準セルを指定するセル番号指定条件を構成する。

　基準セル指定方法指定部６３３で「セル番号による指定」が選択された場合、セル番号指定部６３４に入力されたセル番号指定条件が、データ抽出における基準セルを指定する基準セル指定条件を構成する。この場合の基準セルはデータ抽出対象の単一セル自体となり、セル番号指定部６３４で指定された基準セルからデータが抽出される。例えば、セル番号指定部６３４でセル範囲「K1」to「T1」が指定された場合、図２の物件名「Excel Marauder Building」のデータが表計算ファイルから抽出される。

　キーワード指定部６３５ではキーワードによって基準セルを指定する。例えば「Building Name」とのキーワードをキーワード指定部６３５に入力する。キーワード位置指定部６３６ではキーワード指定部６３５に入力されたキーワードが含まれる位置（セル番号）または範囲を指定する。例えば、図２の表計算ファイルに関して、キーワード指定部６３５に入力されたキーワード「Building Name」は「B」～「D」列の範囲に含まれるため、キーワード位置指定部６３６の三つの入力欄にそれぞれ「Column」（列）「B」「D」と入力する。この結果、図２の表計算ファイルの「B」～「D」列においてキーワード「Building Name」が検索され、キーワード「Building Name」を実際に含むセル番号「B8」のセルが基準セルとして特定される。このように、キーワード指定部６３５およびキーワード位置指定部６３６に入力された情報は、キーワードによって基準セルを指定する基準セル指定条件およびキーワード指定条件を構成する。

　相対距離指定部６３７では基準セルとの相対距離によってデータ抽出対象の単一セルを指定する相対距離指定条件を設定する。図２の例において、キーワード「Building Name」を含むセル番号「B8」の基準セルに対して、抽出すべき具体的な建物名「Excel Marauder Building」のデータはセル番号「H8」のセルにある。つまり、基準セル「B8」から右方向に６セル分だけオフセットした位置のセル「H8」がデータ抽出対象の単一セルとなる。この場合、相対距離指定部６３７の二つの入力欄にそれぞれ「6」（右方向オフセット）「0」（下方向オフセット）を入力することで、基準セル「B8」から右方向に「6」セルおよび下方向に「0」セルだけオフセットしたセル「H8」をデータ抽出対象の単一セルとして指定でき、建物名「Excel Marauder Building」のデータを表計算ファイルから抽出できる。

　図７および図８は、第２の類型のデータ抽出条件としてのテーブル抽出条件を設定するテーブル抽出条件設定領域６４を示す。テーブル抽出条件設定領域６４は、標準アイテム設定部６４１と、シート指定部６４２と、テーブル配列指定部６４３と、基準セル指定方法指定部６４４と、セル番号指定部６４５と、キーワード指定部６４６と、キーワード位置指定部６４７と、相対距離指定部６４８と、標準アイテム位置指定部６４９と、テーブル終了位置指定部６５０を含む。

　テーブル抽出条件は、表計算ファイルのテーブルに含まれる複数のセルからデータを抽出するための条件である。テーブルは行方向または列方向に沿ってデータを連続的に配列したものであり、テーブル開始位置としての左上角のセルとテーブル終了位置としての右下角のセルによって画定される矩形範囲である。例えば、図３の表計算ファイルは、「6」行より下方の領域において列方向（図３の上下方向）に沿ってデータを連続的に配列したテーブルを含む。テーブルの開始位置および終了位置は任意に決められるが、例えば、セル番号「B7」のセルをテーブル開始位置とし、セル番号「P28」のセルをテーブル終了位置としたものが、図３中で定義しうる最大のテーブルである。なお、図７および図８では一つのテーブル抽出条件設定領域６４のみを示すが、一つの表計算ファイルにデータ抽出対象のテーブルが複数含まれる場合もあるため、テーブル抽出条件設定領域６４は複数あってもよい。

　標準アイテム設定部６４１では、テーブルから抽出すべきシリーズ標準アイテムを設定する。数値データを含むテーブルでは、集計対象のデータを連続的に配列する通常テーブル領域に加えて、小計や合計等の集計値を表示する集計値表示領域が存在する。後述するように通常テーブル領域のデータは矩形範囲でまとめて抽出できるが、集計値表示領域のデータは単一セルから抽出する必要があるため前述の単一アイテム抽出条件設定領域６３の方法を用いた方が効率的である。

　そこで、前述の標準アイテム設定部６３１と同様に、図５の基本情報入力領域６１やエンティティ追加領域６２に入力された情報に応じて、標準的なユーザがテーブルから抽出したい金額等のシリーズ標準アイテムが推定されて標準アイテム設定部６４１に予め表示される。図７の例では「Dates」と「Amounts」の二つの標準アイテムが標準アイテム設定部６４１に予め表示される。標準アイテム設定部６４１に予め表示されたシリーズ標準アイテムに対して、ユーザは編集、削除、追加等の処理を画面上で行える。また、シリーズ標準アイテムの具体的な抽出方法は後述する標準アイテム位置指定部６４９で指定される。

　シート指定部６４２では抽出対象のテーブルが含まれるシートを指定する。具体的には、抽出対象のテーブルが含まれるシートの名称をドロップダウンリストから選択してシート指定部６４２に入力する。ここで入力されたシートの名称は、データを抽出すべきシートを指定するシート指定条件を構成する。テーブル配列指定部６４３では抽出対象のテーブルの配列方向を指定する。具体的には、ドロップダウンリストから「行方向」（row oriented）または「列方向」（column oriented）を選択する。例えば、列方向のテーブルを含む図３の表計算ファイルをデータ抽出対象とする場合は「列方向」がテーブル配列指定部６４３で選択される。テーブル配列指定部６４３の選択の結果は、後述する標準アイテム位置指定部６４９に影響を及ぼす。

　基準セル指定方法指定部６４４ではテーブル抽出の開始位置に関する開始基準セルを指定する方法を指定する。開始基準セルとはテーブル抽出開始時の基準となるセルであり、具体的には、抽出対象のテーブルの開始位置（左上角のセル）自体または抽出対象のテーブルの開始位置から相対距離指定部６４８で指定される相対距離だけ離れたセルである。基準セル指定方法指定部６４４では「セル番号による指定」または「キーワードによる指定」がドロップダウンリストから選択される。図７では基準セル指定方法指定部６４４の下方に指定部６４５～６４８を同時に表示したが、基準セル指定方法指定部６４４の選択に応じて関連する指定部のみを表示するのが好ましい。すなわち、「セル番号による指定」が基準セル指定方法指定部６４４で選択された場合はセル番号指定部６４５を表示し（指定部６４６～６４８は非表示）、「キーワードによる指定」が基準セル指定方法指定部６４４で選択された場合はキーワード指定部６４６、キーワード位置指定部６４７、相対距離指定部６４８を表示する（指定部６４５は非表示）。

　セル番号指定部６４５では表計算ファイルのセル番号によって開始基準セルを指定する。例えば、図３のテーブルの開始基準セルとしてセル番号「C7」のセルが指定される。セル番号指定部６４５に入力された情報は、テーブル抽出の開始位置に関する開始基準セルを指定する開始基準セル指定条件を構成する。この場合の開始基準セルはテーブルの抽出開始位置自体となり、開始基準セル「C7」と後述するテーブルの抽出終了位置の間の矩形範囲に含まれる複数のセルからデータが抽出される。

　キーワード指定部６４６ではキーワードによって開始基準セルを指定する。例えば「リスト」とのキーワードをキーワード指定部６４６に入力する。キーワード位置指定部６４７ではキーワード指定部６４６に入力されたキーワードが含まれる位置（セル番号）または範囲を指定する。例えば、図３の表計算ファイルに関して、キーワード指定部６４６に入力されたキーワード「リスト」は「B」「C」列の範囲に含まれるため、キーワード位置指定部６４７の三つの入力欄にそれぞれ「Column」（列）「B」「C」と入力する。この結果、図３の表計算ファイルの「B」「C」列においてキーワード「リスト」が検索され、キーワード「リスト」を実際に含むセル番号「B3」のセルが開始基準セルとして特定される。このように、キーワード指定部６４６およびキーワード位置指定部６４７に入力された情報は、キーワードによって開始基準セルを指定する開始基準セル指定条件を構成する。

　相対距離指定部６４８では開始基準セルとの相対距離によってテーブルの抽出開始位置を指定する相対距離指定条件を設定する。図３の例において、キーワード「リスト」を含むセル番号「B3」の開始基準セルに対して、テーブルの抽出開始位置は例えばセル番号「C7」のセルにある。つまり、開始基準セル「B3」から右方向に１セル分および下方向に４セル分だけオフセットした位置のセル「C7」がテーブルの抽出開始位置となる。この場合、相対距離指定部６４８の二つの入力欄にそれぞれ「1」（右方向オフセット）「4」（下方向オフセット）を入力することで、基準セル「B3」から右方向に「1」セルおよび下方向に「4」セルだけオフセットしたセル「C7」をテーブルの抽出開始位置として指定できる。標準アイテム位置指定部６４９では標準アイテム設定部６４１で設定されたシリーズ標準アイテム「Dates」「Amounts」が含まれる位置または範囲を指定する。

　なお、図示の例では標準アイテム位置指定部６４９の入力欄の上に「What column/row is the standard item in? (e.g. A/1)」との入力支援情報が記載されているが、図３のような列方向のテーブルでは列番号を指定すればよく、行方向のテーブルでは行番号を指定すればよいため、テーブル配列指定部６４３で指定されたテーブル配列に応じて入力支援情報を変化させてもよい。具体的には、テーブル配列指定部６４３で「行方向」が指定された場合は「What row is the standard item in? (e.g. 1)」等の行の指定に関する入力支援情報を表示し、テーブル配列指定部６４３で「列方向」が指定された場合は「What column is the standard item in? (e.g. A)」等の列の指定に関する入力支援情報を表示する。

　テーブル終了位置指定部６５０では各指定部６４４～６４８によって指定されたテーブルの抽出開始位置と対になるテーブルの抽出終了位置を指定する。各指定部６４４～６４８の説明で用いた図３の表計算ファイルの例において、テーブルの抽出開始位置は「C7」等と一意的に決められるが、テーブルの抽出終了位置はテーブルに記録されるデータ数によるため一意的に決められない。このため、テーブル終了位置指定部６５０では、テーブルの抽出開始位置を指定する各指定部６４４～６４８より柔軟かつ包括的に、テーブルの抽出終了位置を指定するための条件を設定できる。

　テーブル終了位置指定部６５０は、基準セル指定方法指定部６５１と、キーワード指定部６５２と、キーワード位置指定部６５３と、相対距離指定部６５４と、条件削除ボタン６５５と、条件追加ボタン６５６と、条件演算部６５７を含む。基準セル指定方法指定部６５１、キーワード指定部６５２、キーワード位置指定部６５３、相対距離指定部６５４は、それぞれ前述の基準セル指定方法指定部６４４、キーワード指定部６４６、キーワード位置指定部６４７、相対距離指定部６４８と同様の方法で、キーワードによってテーブルの抽出終了位置を指定する。ここで、キーワード指定部６５２およびキーワード位置指定部６５３で指定された情報は、テーブル抽出の終了位置に関する終了基準セルをキーワードによって指定する終了基準セル指定条件を構成し、相対距離指定部６５４で指定された情報は、終了基準セルとの相対距離によってテーブルの抽出終了位置を指定する相対距離指定条件を構成する。

　図３の表計算ファイルにおいて、セル番号「B7」を開始位置とするテーブルが、1-100の通し番号が「B」列に振られた100個のデータを記録しているものとする。1個目のデータは「7」行にあるため、100個目のデータは「106」行にある。そして、100個目のデータの直下のセル番号「C107」のセルにテーブルの総計金額を表す「総計」との文字データが入力されているものとする。

　この「総計」と入力されたセル「C107」を終了基準セルとして特定するため、キーワード指定部６５２ではキーワード「総計」を入力し、キーワード位置指定部６５３では「Column」「C」「C」（検索対象のセル「C107」が結合されていないため列番号は「C」のみ）を入力する。この結果、図３の表計算ファイルの「C」列においてキーワード「総計」が検索され、キーワード「総計」を実際に含むセル番号「C107」のセルが終了基準セルとして特定される。

　ここで、「7」行から「106」行に記録された100個のデータを、「B」列の通し番号と「P」列の「備考」を除いたテーブルとして抽出することを考える（なお、「107」行の「総計」のデータは標準アイテム位置指定部６４９によってテーブルと併せて抽出できる）。この場合、テーブルの抽出開始位置は前述の通り「C7」となり、テーブルの抽出終了位置は「O106」となる。

　テーブルの抽出終了位置のセル「O106」は、キーワード指定部６５２およびキーワード位置指定部６５３によって特定された終了基準セル「C107」から右方向に１２セル分および下方向に－１セル分（上方向に１セル分）だけオフセットした位置にある。そこで、相対距離指定部６５４の二つの入力欄にそれぞれ「12」（右方向オフセット）「-1」（下方向オフセット）を入力することで、終了基準セル「C107」から右方向に「12」セルおよび下方向に「-1」セルだけオフセットしたセル「O106」をテーブルの抽出終了位置として指定できる。このように、本実施形態によれば、テーブルに記録されるデータ数によらずテーブルの抽出終了位置を自動的に指定でき、抽出開始位置から抽出終了位置の間にある複数のセルから効率的にデータを抽出できる。

　以上の例では、基準セル指定方法指定部６５１で「Keyword」（キーワードによる指定）が指定されていたが、基準セル指定方法指定部６５１では「First empty cell」（空白セルによる指定）も指定できる。この場合、キーワードに関する各指定部６５２～６５４の代わりに、空白セルを検索する行および／または列を指定する指定部が画面上に現れる。換言すれば、特定の行または列における空白セルを指定する空白セル指定条件を設定する設定部が画面上に現れる。前述の図３の例において、空白セルを検索する列として「B」列を指定すれば、100個目のデータの通し番号「100」が入力されている「B106」のセルの直下の「B107」のセルが空白セルとして見つかる。このため、テーブルの抽出終了行として「106」行を特定できる。また、空白セルを検索する行として「7」行を指定すれば、「P7」のセルが空白セルとして見つかる。このため、テーブル（「P」列の「備考」を除く）の抽出終了列として「O」列を特定できる。なお、以上の空白セルの検索において、先に特定されたテーブルの抽出開始位置「C7」より上の「1」～「6」行は列方向（図３の上下方向）の検索時に除外され、先に特定されたテーブルの抽出開始位置「C7」より左の「A」～「B」列は行方向（図３の左右方向）の検索時に除外される。

　以上の各指定部６５１～６５４で指定された情報の組は一つのテーブル抽出終了条件を構成する。図示の一つのテーブル抽出終了条件には「Table End 01」とのＩＤまたは名称が付されている。既存のテーブル抽出終了条件は条件削除ボタン６５５によって削除できる。条件追加ボタン６５６によれば新しいテーブル抽出終了条件を作成して追加できる。条件演算部６５７によれば、複数のテーブル抽出終了条件を「and」や「or」の論理演算子によって組み合わせることができる。このように、テーブル終了位置指定部６５０によれば、テーブルの抽出開始位置を指定する各指定部６４４～６４８より柔軟かつ包括的に、テーブルの抽出終了位置を指定するための条件を設定できる。

　以上、図５～８を参照して各種のデータ抽出条件を含む構成ファイルの新規作成方法について説明した。各図の入力欄に必要事項を入力したユーザは、図５に示される保存ボタン７０を押下することで構成ファイルを保存できる。新規に作成された構成ファイルは、図１の構成ファイル保持部１４に保持され、図４の一覧表に表示される。図９は構成ファイルの具体例を示し、図５～８に関して説明した要素に対応する箇所に同一の符号を付した。

　図１において、構成ファイル検索部１３は、属性情報取得部１２で取得された表計算ファイルの属性情報に合致する構成ファイルを、構成ファイル保持部１４に保持された複数の構成ファイルの中から検索する。具体的には、類型特定部１２１で特定された表計算ファイルの類型を図５の文書タイプ入力部６１３および文書サブタイプ入力部６１４の入力情報とマッチングし、エンティティ特定部１２２で特定された表計算ファイルの対象エンティティを図５のエンティティリスト６２３の入力情報とマッチングすることで、表計算ファイル入力部１１で入力された表計算ファイルに適用すべき構成ファイルを構成ファイル保持部１４において特定する。

　抽出条件取得部１５は、構成ファイル検索部１３が特定した構成ファイルで定義されたデータ抽出条件を構成ファイル保持部１４から取得する。具体的には、抽出条件取得部１５は、図６の単一アイテム抽出条件と図７および図８のテーブル抽出条件を構成ファイル保持部１４から取得する。

　データ抽出部１６は、抽出条件取得部１５で取得された単一アイテム抽出条件およびテーブル抽出条件に基づいて、表計算ファイル入力部１１で入力された表計算ファイルから単一の標準アイテムおよびテーブルを抽出する。図１０は、データ抽出部１６の抽出結果の画面例を示す。画面上部の単一アイテム表示領域７１には、図６の単一アイテム抽出条件や図８の標準アイテム位置指定部６４９によって抽出された一または複数の単一の標準アイテムまたは標準アイテムの名称およびデータが表示される。画面下部のテーブル表示領域７２には、図７および図８のテーブル抽出条件によって抽出された一または複数のテーブルが表示される。各テーブルは表計算ファイルと同様に格子状のデータ配列を有する。複数のテーブルが抽出された場合は、表示するテーブルを切り替えるテーブル切替タブ７２１が画面上に現れる。データ格納部１７は、データ抽出部１６で抽出されたデータをそのまま、あるいは、数値データの集計等のための演算や業務システムのためのフォーマット変換等の処理を施した上で、データ抽出装置１０外の業務システムサーバ２０に格納する。

　図１１は、構成ファイルに基づく表計算ファイルからのデータ抽出処理のフローを示す。情報通信装置３０に提供されるクライアントユーザインタフェース（Client User Interface）はスプレッドシート（spreadsheet, S/S）のファイルをアップロードするためのUIをユーザに提示する。

　Ｓ７では、UIに対するユーザ操作を受けて、スプレッドシートファイルがアプリケーションサーバ（データ抽出装置１０）にアップロードされる。スプレッドシートの値（values）はデータベース／サーバストアで管理される。スプレッドシートファイルはファイルシステムに保存される。このアップロードおよび保存はアプリケーションサーバ（Application Server）のAPIレイヤにあるAPIを介して行われる。データベース／サーバストアに格納されるスプレッドシートファイルには、文書タイプ分類器が判別したまたはユーザ指定の文書タイプと、関連するエンティティと、を含むファイルタイプタグ（File Type Tags）が対応付けられる。

　Ｓ８では、抽出コントローラは、データベース／サーバストア内に定義される抽出キュー（抽出を行うべきスプレッドシートファイルを保持するキュー）で次に利用可能なスプレッドシートファイルのファイルタイプタグに基づいて、マッチングマッピング設定（Matching Mapping Configurations、上記の構成ファイルに相当）を検索する。具体的には、抽出コントローラは、ファイルタイプタグに含まれる文書タイプおよびエンティティに対応するマッチングマッピング設定を構成ファイル保持部から読み出す。抽出コントローラは、抽出キューで次に利用可能なスプレッドシートファイルを検索する。

　Ｓ９では、抽出コントローラは、スプレッドシート抽出ライブラリにあるスプレッドシート抽出器に、Ｓ８で取得したスプレッドシートファイルとマッチングマッピング設定の両方を渡す。Ｓ１０では、スプレッドシート抽出器はマッチングマッピング設定に従い抽出アルゴリズムを設定し、渡されたスプレッドシートファイルを処理することで、スプレッドシートファイルから標準アイテムに対応する値を抽出する。具体的には、マッチングマッピング設定のセルの位置に基づいてその位置の値が抽出される。次に、その抽出された値は、それにマッチする標準アイテムにマッピングされる。このマッピングの態様はマッチングマッピング設定によって指定される。抽出結果は抽出コントローラに戻される。

　Ｓ１１では、抽出コントローラはデータベース／データストアに抽出結果を保存する。クライアントユーザインタフェースはスプレッドシートファイルの値を消費するためのUIを備える。Ｓ１２では、このUIが所与のファイルの抽出結果をAPIに要求する。この要求に応じて抽出結果がクライアントに提供され、他のアプリケーションに利用される。

　続いて、図５～８に関して説明した構成ファイルの新規作成方法の変形例について、情報通信装置３０のディスプレイに表示される画面例を参照しながら説明する。図５～８の例では表計算ファイルを参照せずに構成ファイルを新規作成したが、本変形例ではサンプルとなる表計算ファイルを参照しながら、当該表計算ファイルの類型および対象エンティティに対応する構成ファイルを新規作成する。本変形例は機械学習により生成される入力支援モデルによる支援を利用する支援モードと利用しない非支援モードとを有する。

　図１２は、変形例に係るデータ抽出装置１０の機能及び構成を示すブロック図である。変形例に係るデータ抽出装置１０は、図１の構成に加えてサンプルファイル取得部１９１と入力支援モデル１９２を備える。入力支援モデル１９２は支援モードにおいて機能する。まず非支援モードを説明する。

　図１３は、図４の新規作成ボタン６０を押下することで遷移する画面である。図５と同様の構成ファイル名入力部６１１と備考入力部６１２が表示される。入力完了後に右矢印ボタン７３を押下すると次の図１４の画面に進む。図１４では、表計算ファイルのサンプルをアップロードする。サンプルファイル取得部１９１は、アップロードされたサンプル表計算ファイルを取得し、所定の保持部（不図示）に格納する。アップロード完了後に右矢印ボタン７３を押下すると次の図１５の画面に進む。なお、左矢印ボタン７４を押下すると前の画面に戻る。以降の画面でも右矢印ボタン７３と左矢印ボタン７４は存在するが、符号「７３」および「７４」の図示は省略する。

　図１５では、図５と同様の文書タイプ入力部６１３と文書サブタイプ入力部６１４が表示される。入力完了後に右矢印ボタン７３を押下すると次の図１６の画面に進む。図１６では、図５と同様のエンティティ選択部６２１とエンティティリスト６２３が表示される。図５のエンティティ選択部６２１では追加対象のエンティティをドロップダウンリストから選択したが、本図のエンティティ選択部６２１では追加対象のエンティティを検索して、そのリンクをエンティティリスト６２３に追加できる。エンティティリスト６２３の入力完了後に右矢印ボタン７３を押下すると次の図１７の画面に進む。

　図１７では、図１５で入力された文書タイプおよび文書サブタイプと図１６で入力された対象エンティティの情報に照らして、図１４で入力された表計算ファイルのサンプルから抽出必須と判断された標準アイテムのみを以降の画面で表示するか、全ての標準アイテムを以降の画面で表示するかを選択する。ここでは、抽出必須と判断された標準アイテムのみを以降の画面で表示することを選択して次の図１８の画面に進む。

　図１８は、第１の単一の標準アイテム「PROPERTY NAME」（「７５」の符号で示す）に関する設定画面であり、図１４で入力された表計算ファイルのサンプルが表示されている。第１の単一の標準アイテム７５の下に表示された指示に従って、ユーザは「PROPERTY NAME」すなわち物件名が含まれたシートを選択し、更に物件名を特定するためのキーワードが入力されたセルを選択する。図示のサンプルでは、具体的な物件名は「MOZART HOUSE」であり、その左隣のセル「A10」をユーザが選択した結果、物件名「MOZART HOUSE」を特定するためのキーワードとして「Management Report on」が選択されたことになる。次の図１９の画面では、具体的な物件名「MOZART HOUSE」が入力されたセル「B10」を選択する。

　図１８および図１９の一連の選択処理は、図６のシート指定部６３２、キーワード指定部６３５、キーワード位置指定部６３６、相対距離指定部６３７における指定処理と等価である。すなわち、図１８においてシート「Cover&Contents」を選択したことはシート指定部６３２においてシートの名称「Cover&Contents」を入力したことに等しく、図１８においてセル「A10」を選択したことは、キーワード指定部６３５においてキーワード「Management Report on」を指定し、キーワード位置指定部６３６においてキーワード位置「A10」「A列」「10行」等を指定したことに等しい。また、図１９においてセル「B10」を選択したことは、キーワードが入力された基準セル「A10」に対するオフセット量（右方向に１セル、下方向に０セル）を相対距離指定部６３７で指定したことに等しい。このように、本変形例によれば、図６におけるマニュアル入力作業を、図１８および図１９におけるシートやセルの選択作業に置き換えることができ、ユーザは表計算ファイルのサンプルを見ながら直感的に作業できる。

　図２０および図２１は、第２の単一の標準アイテム「ISSUE DATE」（「７６」の符号で示す）に関する設定画面である。図２０では、図１８と同様に、ユーザが「ISSUE DATE」すなわち発行日が含まれたシートを選択し、更に発行日を特定するためのキーワード「Date」が入力されたセル「E3」を選択する。図２１では、図１９と同様に、具体的な発行日「Nov 01, 2020」が入力されたセル「F3」を選択する。

　図２２は、テーブル「THIS MONTH ITEMS」（「７７」の符号で示す）に関する設定画面であり、図１４で入力された表計算ファイルのサンプルが表示されている。テーブル７７の下に表示された指示に従って、ユーザは「THIS MONTH ITEMS」のテーブルが含まれたシート「EXPENSE」を選択し、更にテーブル「THIS MONTH ITEMS」を特定するためのキーワード「HOUSE A」が入力されたセル「A6」を選択する。シート「Expense」を選択したことは図７のシート指定部６４２においてシートの名称「Expense」を入力したことに等しいが、本変形例では更にキーワード「HOUSE A」によってテーブルのヘッダ領域やデータ領域を特定できる。

　図２３は、テーブルにおける第１の抽出項目としてのシリーズ標準アイテム「ITEM NAME」（「７７１」の符号で示す）に関する設定画面である。シリーズ標準アイテム７７１の下に表示された指示に従って、ユーザはシリーズ標準アイテム「ITEM NAME」に対応するテーブルのヘッダ「分類（Category）」が入力されたセル「A7」を選択する。次の図２４の画面では、シリーズ標準アイテム「ITEM NAME」に関して実際にデータ抽出を開始するセル「A8」を選択する。

　図２３および図２４の一連の選択処理は、図７のキーワード指定部６４６、キーワード位置指定部６４７、相対距離指定部６４８における指定処理と等価である。すなわち、図２３においてセル「A7」を選択したことは、キーワード指定部６４６においてキーワード「分類（Category）」を指定し、キーワード位置指定部６４７においてキーワード位置「A7」「A列」「7行」等を指定したことに等しい。また、図２４においてセル「A8」を選択したことは、キーワードが入力された開始基準セル「A7」に対するオフセット量（右方向に０セル、下方向に１セル）を相対距離指定部６４８で指定したことに等しい。このように、本変形例によれば、図７におけるマニュアル入力作業を、図２３および図２４におけるセルの選択作業に置き換えることができ、ユーザは表計算ファイルのサンプルを見ながら直感的に作業できる。

　図２５は、テーブルにおける第２の抽出項目としてのシリーズ標準アイテム「BASE AMOUNT」（「７７２」の符号で示す）に関する設定画面である。シリーズ標準アイテム７７２の下に表示された指示に従って、ユーザはシリーズ標準アイテム「BASE AMOUNT」に対応するテーブルのヘッダ「本体金額（Amount）」が入力されたセル「D7」を選択する。次の図２６の画面では、シリーズ標準アイテム「BASE AMOUNT」に関して実際にデータ抽出を開始するセル「D8」を選択する。

　図２７は、テーブルにおける第３の抽出項目としてのシリーズ標準アイテム「CONSUMPTION TAX AMOUNT」（「７７３」の符号で示す）に関する設定画面である。シリーズ標準アイテム７７３の下に表示された指示に従って、ユーザはシリーズ標準アイテム「CONSUMPTION TAX AMOUNT」に対応するテーブルのヘッダ「消費税（Tax）」が入力されたセル「E7」を選択する。次の図２８の画面では、シリーズ標準アイテム「CONSUMPTION TAX AMOUNT」に関して実際にデータ抽出を開始するセル「E8」を選択する。

　図２３～２５の一連の選択処理によって、テーブル「THIS MONTH ITEMS」から三つのシリーズ標準アイテム「ITEM NAME」「BASE AMOUNT」「CONSUMPTION TAX AMOUNT」に関するデータを選択的に抽出するデータ抽出条件を設定できる。

　図２９は、テーブルの抽出終了位置の設定画面である。ユーザはテーブルの終了位置を示すテーブル直下の空白セル「A23」を選択する。空白セル「A23」を選択したことは図８の基準セル指定方法指定部６５１において「First empty cell」（空白セルによる指定）を指定し、その空白セルを検索する列として「A」列を指定したことに等しい。

　次に、支援モードを説明する。支援モードでは、まず学習フェーズにおいて、構成ファイル保持部１４に保持されている文書タイプとエンティティとの組と構成ファイルとの対応関係を学習データとした機械学習により入力支援モデル１９２を生成する。入力支援モデル１９２は、文書タイプおよびエンティティが入力されると、予測された構成ファイルを出力する機械学習モデルである。

　構成ファイル管理部１８は、図１５で入力された文書タイプおよび文書サブタイプと図１６で入力された対象エンティティの情報とを入力支援モデル１９２に入力することで、対応する予測構成ファイルを取得する。構成ファイル管理部１８は、取得された予測構成ファイルの内容を参照し、図１８～図２９の新規作成画面において予測された標準アイテムおよび予測されたデータ抽出条件を予め入力しておくか、ユーザにそれを提案する。ユーザは予め入力されている情報に満足するのであれば単に次の画面に進むボタンを押すだけでよく、当該情報が誤っていれば修正する。

　この支援モードでは、ルールベースの抽出とAIベースの構成ファイル生成支援を併用することで、高い確度のデータ抽出を可能としつつ、構成ファイルの設定を容易とすることで文書類型やエンティティの増加による構成ファイル数の増大にも対応することができる。

　入力支援モデル１９２の別の例は、表計算ファイル内のデータを入力とし、標準アイテムの予測値を出力する機械学習モデルである。この入力支援モデル１９２は、業務システムサーバ２０に保持される標準アイテムとその値との対応関係を学習データとした機械学習により生成される。入力支援モデル１９２はデータに加えて当該データのヘッダを入力としてもよい。

　構成ファイル管理部１８は、取得されたサンプル表計算ファイルのデータを入力支援モデル１９２に入力することで、対応する予測標準アイテムを取得する。構成ファイル管理部１８は新規作成画面において予測標準アイテムを予め入力しておくか、ユーザにそれを提案する。ユーザは予め入力されている情報に満足するのであれば単に次の画面に進むボタンを押すだけでよく、当該情報が誤っていれば修正する。ユーザへの提案の一態様は、以下の通りである。構成ファイル管理部１８は、図１８の例で標準アイテムが最初空欄か、デフォルトの例えば「Amount」であったとして、ユーザが「A10」のセルをクリックするとそこに記載されている文字列を読み取って入力支援モデル１９２に入力し、予測標準アイテム「PROPERTY NAME」を取得する。構成ファイル管理部１８は、得られた予測標準アイテムを、空欄またはデフォルト値であった標準アイテム表示領域７５に入力することでユーザに提案する。

　本例では、標準アイテムとデータとの対応関係を、標準アイテムとヘッダとの対応関係よりも優先して学習する。これは、同じヘッダが文書の類型やエンティティによって異なる標準アイテムに対応することがあるという本発明者等の気づきに基づく。本例では、ヘッダはオプション入力なので、同じヘッダが異なる標準アイテムに対応する場合でも、標準アイテムとデータそのものとの対応関係に基づいて適切な構成ファイルの予測結果を得ることができる。なお、ヘッダに加えてまたは代えて、文書の類型やエンティティをオプション入力としてもよい。

　続いて、図７に関して説明したテーブル抽出条件の設定方法の変形例について、情報通信装置３０のディスプレイに表示される画面例を参照しながら説明する。図７と同等の要素については図７と同一の符号を付して説明を省略する。

　図３０に示されるテーブル抽出条件設定領域６４には、新たな入力部としてテーブル指定方法指定部６４０が設けられる。テーブル指定方法指定部６４０では、ドロップダウンリストから「テーブルデータ領域による指定」（Specify table-data-area）または「テーブルヘッダによる指定」（Search table-header-names）を選択する。図３０ではテーブル指定方法指定部６４０で「テーブルデータ領域による指定」が選択されており、その下にテーブルデータ領域によってテーブルの抽出開始位置を指定するための基準セル指定方法指定部６４４、セル番号指定部６４５、キーワード指定部６４６、キーワード位置指定部６４７、相対距離指定部６４８が表示される。

　図３１ではテーブル指定方法指定部６４０で「テーブルヘッダによる指定」が選択されており、その下にテーブルのヘッダによってテーブルの抽出開始位置を指定するためのテーブルヘッダ指定方法指定部６６１、テーブルヘッダ位置指定部６６２、キーワード指定部６６３、キーワード位置指定部６６４、第１相対距離指定部６６５、第２相対距離指定部６６６が表示される。ここで、テーブルのヘッダとは、図２２のテーブルの「7」行に記載されているアイテムを指す。

　テーブルヘッダ指定方法指定部６６１ではテーブルのヘッダを指定する方法を指定する。具体的には、ドロップダウンリストから「行／列番号による指定」または「キーワードによる指定」を選択する。図３１ではテーブルヘッダ指定方法指定部６６１の下方に指定部６６２～６６５を同時に表示したが、テーブルヘッダ指定方法指定部６６１の選択に応じて関連する指定部のみを表示するのが好ましい。すなわち、「行／列番号による指定」が選択された場合はテーブルヘッダ位置指定部６６２を表示し（指定部６６３～６６５は非表示）、「キーワードによる指定」が選択された場合はキーワード指定部６６３、キーワード位置指定部６６４、第１相対距離指定部６６５を表示する（指定部６６２は非表示）。

　テーブルヘッダ位置指定部６６２では表計算ファイルの行番号または列番号によってテーブルのヘッダの位置を指定する。例えば、図２２の列方向のテーブルではヘッダがある「7」行が指定される。同様に、行方向のテーブルではヘッダの位置を列番号によって指定できる。

　キーワード指定部６６３ではテーブルのヘッダの位置を特定するためのキーワードを指定する。例えば、図２２に関して説明した「HOUSE A」とのキーワードをキーワード指定部６６３に入力する。キーワード位置指定部６６４ではキーワード指定部６６３に入力されたキーワードが含まれる位置（セル番号）または範囲を指定する。例えば、図２２の表計算ファイルに関して、キーワード指定部６６３に入力されたキーワード「HOUSE A」は「A」列に含まれるため、キーワード位置指定部６６４の三つの入力欄にそれぞれ「Column」（列）「A」「A」と入力する。この結果、図２２の表計算ファイルの「A」列においてキーワード「HOUSE A」が検索され、キーワード「HOUSE A」を実際に含むセル番号「A6」のセルが特定される。

　第１相対距離指定部６６５ではキーワード位置指定部６６４で特定されたセルとの相対距離によってテーブルのヘッダの位置を指定する相対距離指定条件を設定する。図２２の例において、キーワード「HOUSE A」を含むセル番号「A6」のセルに対して、テーブルのヘッダの位置は１行下の「7」行にある。つまり、セル「A6」から右方向に０列分および下方向に１行分だけオフセットした位置の「7」行がテーブルのヘッダの位置となる。この場合、第１相対距離指定部６６５の二つの入力欄にそれぞれ「0」（右方向オフセット）「1」（下方向オフセット）を入力することで、セル「A6」から右方向に「0」列および下方向に「1」行だけオフセットした「7」行をテーブルのヘッダ位置として指定できる。

　第２相対距離指定部６６６ではテーブルヘッダ位置指定部６６２または第１相対距離指定部６６５で特定されたヘッダ位置との相対距離によってテーブルの抽出開始位置を指定する相対距離指定条件を設定する。図２２の例において、ヘッダ位置である「7」行に対して、例えばテーブルの抽出開始位置は１行下の「8」行にある。つまり、「7」行から下方向に１行分だけオフセットした位置の「8」行がテーブルの抽出開始位置となる。この場合、第２相対距離指定部６６６の入力欄に「1」（下方向オフセット）を入力することで、「7」行から下方向に「1」行だけオフセットした「8」行をテーブルの抽出開始位置として指定できる。

　続いて、本発明の実施形態に係るデータ抽出支援装置８０について説明する。図３２は、データ抽出支援装置８０の機能ブロック図である。データ抽出支援装置８０は、表計算ファイル入力部８１と、属性情報取得部８２と、構成分析部８３と、保持部８４と、抽出条件生成部８５を備える。図１のデータ抽出装置１０が、入力された表計算ファイルに合致する構成ファイルを検索し、当該構成ファイルで定義されたデータ抽出条件に基づいて表計算ファイルからデータを抽出するものであったのに対し、図３２のデータ抽出支援装置８０は、入力された表計算ファイルの構成を分析し、当該表計算ファイルに適用すべきデータ抽出条件を自律的に生成するものである。以下では、データ抽出支援装置８０が情報通信装置３０を操作するユーザと協働しながらデータ抽出条件を生成する例について説明するが、網羅的な訓練データによって予め機械学習を行った自然言語処理（NLP: Natural Language Processing）機能を有する人工知能で構成されるデータ抽出支援装置８０がユーザを介さずにデータ抽出条件を完全に自律的に生成してもよい。

　表計算ファイル入力部８１には、図１の表計算ファイル入力部１１と同様に、データ抽出支援装置８０によるデータ抽出支援処理の対象である表計算ファイルが入力される。属性情報取得部８２は、図１の属性情報取得部１２と同様に、表計算ファイル入力部８１に入力された表計算ファイルの属性情報を取得する。表計算ファイルの属性情報は類型と対象エンティティを含み、それぞれ類型特定部８２１とエンティティ特定部８２２で特定される。属性情報取得部８２で取得された情報は、後述の抽出条件生成部８５が生成するデータ抽出条件と共に保持部８４に格納される。

　保持部８４は、図１の構成ファイル保持部１４に対応し、複数の表計算ファイルと、それぞれに対応する複数のデータ抽出条件を保持する。具体的には、図２や図３のような複数の表計算ファイル自体と、各表計算ファイルについて予め設定された図６のような単一アイテム抽出条件や図７および図８のようなテーブル抽出条件を含むデータ抽出条件が保持部８４に保持される。図１の構成ファイル保持部１４がデータ抽出条件を含む構成ファイルを保持するものであったのに対し、図３２の保持部８４はデータ抽出条件に加えて表計算ファイル自体を保持する。なお、図１の構成ファイル保持部１４に表計算ファイル入力部１１で入力された表計算ファイルを保持させれば、図３２の保持部８４としてそのまま利用できる。

　構成分析部８３は、表計算ファイル入力部８１で入力された表計算ファイルと構成が類似する表計算ファイルを保持部８４において特定する。特に、構成分析部８３は、表計算ファイル入力部８１で入力された表計算ファイルに含まれる概要データ領域と詳細データ領域のうち、少なくとも詳細データ領域の構成が類似する表計算ファイルを保持部８４において特定する。ここで、概要データ領域とは、表計算ファイルの概要データ、共通データ、ヘッダデータ等を示す領域であり、詳細データ領域とは、概要データ領域以外で詳細データ、本体データ等を示す領域である。

　各表計算ファイルにおいて概要データ領域と詳細データ領域は任意に定義できるが、典型的には、テーブルを含まない領域を概要データ領域とし、テーブルを含む領域を詳細データ領域とするのが好ましい。例えば、図２の表計算ファイルでは、表題等を示す「K1」～「T4」の領域、物件概要を示す「A6」～「L14」の領域、賃貸状況を示す「N6」～「AG14」の領域、詳細を示す「N16」～「AG40」の領域を概要データ領域とし、収支状況のテーブルを示す「A16」～「L40」の領域を詳細データ領域とする。また、図３の表計算ファイルでは、表題等を示す「B1」～「P3」の領域を概要データ領域とし、テーブルを示す「B5」～「P28」の領域を詳細データ領域とする。なお、テーブルを含まない概要データ領域とテーブルを含む詳細データ領域を区別するためには、構成分析部８３がテーブルを認識する必要がある。前述の通り、テーブルは行方向または列方向に沿ってデータが連続的に配列される矩形範囲という特有の構成を有するため、構成分析部８３は表計算ファイルにおける各テーブルの開始位置（左上角のセル）や終了位置（右下角のセル）を正確に認識できる。

　図２の収支状況のテーブルと図３のテーブルの比較から明らかなように、表計算ファイルに含まれるテーブルのフォーマットは千差万別である。本実施形態によれば、構成分析部８３がテーブルを含む詳細データ領域の構成を分析することで、当該テーブルを効率的に抽出するためのテーブル抽出条件（図７および図８）を生成できる。なお、構成分析部８３は、詳細データ領域と併せて概要データ領域の構成も分析するのが好ましい。概要データ領域には単一アイテム抽出条件（図６）の対象となる単一アイテムが多く含まれるため、これらを効率的に抽出するための単一アイテム抽出条件を生成できる。

　抽出条件生成部８５は、構成分析部８３が保持部８４において特定した表計算ファイルに対応するデータ抽出条件に基づいて、表計算ファイル入力部８１で入力された表計算ファイルから抽出すべきデータを指定するデータ抽出条件を生成する。ここで、構成分析部８３および抽出条件生成部８５は、表計算ファイル入力部８１で入力された表計算ファイルを複数の領域に区分し、領域毎に構成分析および抽出条件生成を行うのが好ましい。例えば、図２の表計算ファイルが表計算ファイル入力部８１に入力された場合、前述のように、表題等を示す「K1」～「T4」の第１領域、物件概要を示す「A6」～「L14」の第２領域、賃貸状況を示す「N6」～「AG14」の第３領域、詳細を示す「N16」～「AG40」の第４領域、収支状況のテーブルを示す「A16」～「L40」の第５領域の五つの領域に区分される。

　構成分析部８３は、第１領域と構成が類似する領域を含む第１表計算ファイルを保持部８４において特定し、抽出条件生成部８５は、第１表計算ファイルに対応して保持部８４に保持されたデータ抽出条件のうち対象領域からのデータ抽出に関する第１データ抽出条件を抽出する。抽出条件生成部８５は、抽出した第１データ抽出条件をそのまま第１領域に適用できる場合は採用し、第１領域に適用するために変更が必要な場合は変更処理を施して最終的な第１データ抽出条件とする。この際、抽出条件生成部８５は情報通信装置３０のディスプレイに関連情報を表示し、ユーザはそれを見ながら第１データ抽出条件の採用可否や変更要否を判断し、変更が必要な場合は変更内容を指示する。

　以上のように、表計算ファイル入力部８１で入力された表計算ファイルの第１領域（図２の「K1」～「T4」の領域）からのデータ抽出に好適な第１データ抽出条件が抽出条件生成部８５によって生成される。同様に、抽出条件生成部８５は、情報通信装置３０を操作するユーザと協働しながら、第２領域（図２の「A6」～「L14」の領域）からのデータ抽出に好適な第２データ抽出条件、第３領域（図２の「N6」～「AG14」の領域）からのデータ抽出に好適な第３データ抽出条件、第４領域（図２の「N16」～「AG40」の領域）からのデータ抽出に好適な第４データ抽出条件、第５領域（図２の「A16」～「L40」の領域）からのデータ抽出に好適な第５データ抽出条件をそれぞれ生成する。

　特に、収支状況のテーブルを示す「A16」～「L40」の第５領域に関する構成分析および抽出条件生成では、テーブル項目またはヘッダを示す項目領域またはヘッダ領域よりも実際のデータ抽出対象となるデータ領域が重視される。図２の例では、「Revenue」を示す第１のテーブルにおいて、テーブル項目「REVENUE」「収入」「Mar - 21」「Year-to-Date」を示す「B19」～「K19」の領域が項目領域であり、各テーブル項目に関するデータを示す「B20」～「K24」がデータ領域である。また、図２で「EXPENSES」を示す第２のテーブルにおいて、テーブル項目「EXPENSES」「支出」「Mar - 21」「Year-to-Date」を示す「B27」～「K27」の領域が項目領域であり、各テーブル項目に関するデータを示す「B28」～「K35」がデータ領域である。図３の例では、「支払明細リスト」を示すテーブルにおいて、テーブル項目「勘定科目」～「備考」を示す「C5」～「P6」の領域が項目領域であり、各テーブル項目に関するデータを示す「C7」～「P28」がデータ領域である。

　図２３～２５に関して説明したように、テーブルを抽出するテーブル抽出条件の設定では、データ抽出装置１０が扱うシリーズ標準アイテムを表計算ファイルのヘッダに対応付ける必要がある。具体的には、図２３および図２４ではシリーズ標準アイテム「ITEM NAME」がヘッダ「分類（Category）」に対応付けられ、図２５および図２６ではシリーズ標準アイテム「BASE AMOUNT」がヘッダ「本体金額（Amount）」に対応付けられ、図２７および図２８ではシリーズ標準アイテム「CONSUMPTION TAX AMOUNT」がヘッダ「消費税（Tax）」に対応付けられる。しかし、表計算ファイルのヘッダ名はユーザが恣意的に設定しうるため、ヘッダ名だけに依拠してシリーズ標準アイテムとの対応付けを行うのは好ましくない。そこで、本実施形態のデータ抽出支援装置８０ではヘッダ領域よりもデータ領域の構成の類似性を重視し、構成分析部８３がデータ領域の構成が類似するテーブルを含む表計算ファイルを保持部８４において特定する。このように、本実施形態によれば、表計算ファイルのヘッダ名によらず、データ領域の構成の類似性に基づいて、当該データ領域からデータを抽出するためのデータ抽出条件を正確に生成できる。

　なお、表計算ファイル入力部８１で入力された表計算ファイルの全ての領域からデータを抽出しなくてもよいし、各領域から全てのデータを抽出しなくてもよい。このようなデータを抽出する領域の取捨選択や、各領域から抽出するデータの取捨選択は、抽出条件生成部８５が訓練データに基づいて自律的に行ってもよいし、ユーザの判断を仰いでもよい。

　以上のように表計算ファイルの領域毎に生成された各データ抽出条件は、図６～８のフォーマットで保持部８４に格納される。この際、属性情報取得部８２で取得された属性情報も図５のフォーマットで保持部８４に併せて格納される。つまり、データ抽出支援装置８０の処理の結果、表計算ファイル入力部８１で入力された表計算ファイルについて、図５～８のフォーマットに従った一つの構成ファイルが生成され、表計算ファイル自体と併せて保持部８４に格納される。この意味で図３２の保持部８４は図１の構成ファイル保持部１４と同等の機能を担う。なお、図１の構成ファイル保持部１４に保持された各構成ファイルを用いた実際のデータ抽出処理の状況をデータ抽出支援装置８０がモニタし、データ抽出処理時のユーザによる修正回数が所定の閾値を超えた構成ファイルについて、データ抽出条件を改善するための提案をユーザに対して行ってもよい。

　本実施形態によれば、各文書タイプや各エンティティにカスタマイズされた構成ファイルを用いることで、表計算ファイルから正確にデータを抽出できる。条件によってデータ抽出範囲を定義することで、テーブルのサイズが変わったとしてもデータ抽出が可能になる。本実施形態によれば、ルールの範囲内にある限りユーザは表計算ファイルから抽出したいデータを具体的に指定できる。ルールは柔軟に設定できるため、フォーマットの自由度の高い表計算ファイルにも適用できる。また、本システムは終了行や終了列が可変の動的なフォーマットからのデータ抽出も可能にする。構成ファイルは一般ユーザにも理解しやすいものであり、単一セルの抽出、テーブルの抽出、抽出値の演算等、ほとんどのユーザのニーズに応えることができる。

　以上、本発明を実施形態に基づいて説明した。実施形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　なお、実施形態で説明した各装置の機能構成はハードウェア資源またはソフトウェア資源により、あるいはハードウェア資源とソフトウェア資源の協働により実現できる。ハードウェア資源としてプロセッサ、ＲＯＭ、ＲＡＭ、その他のＬＳＩを利用できる。ソフトウェア資源としてオペレーティングシステム、アプリケーション等のプログラムを利用できる。

　１０　データ抽出装置、１１　表計算ファイル入力部、１２　属性情報取得部、１３　構成ファイル検索部、１４　構成ファイル保持部、１５　抽出条件取得部、１６　データ抽出部、３０　情報通信装置、６１　基本情報入力領域、６２　エンティティ追加領域、６３　単一アイテム抽出条件設定領域、６４　テーブル抽出条件設定領域、８０　データ抽出支援装置、８１　表計算ファイル入力部、８２　属性情報取得部、８３　構成分析部、８４　保持部、８５　抽出条件生成部、１２１　類型特定部、１２２　エンティティ特定部、６３２　シート指定部、６３４　セル番号指定部、６３５　キーワード指定部、６３６　キーワード位置指定部、６３７　相対距離指定部、６４２　シート指定部、６４５　セル番号指定部、６４６　キーワード指定部、６４７　キーワード位置指定部、６４８　相対距離指定部、６５０　テーブル終了位置指定部、６６２　テーブルヘッダ位置指定部、６６３　キーワード指定部、６６４　キーワード位置指定部、６６５　第１相対距離指定部、６６６　第２相対距離指定部、８２１　類型特定部、８２２　エンティティ特定部。

Claims

　入力された表計算ファイルの属性情報に合致する構成ファイルを複数の構成ファイルの中から検索する構成ファイル検索部と、
　検索された構成ファイルで定義されたデータ抽出条件に基づいて、入力された表計算ファイルからデータを抽出するデータ抽出部と、
　を備えるデータ抽出装置。
　前記属性情報は表計算ファイルの類型を含む、請求項１に記載のデータ抽出装置。
　前記属性情報は表計算ファイルの対象エンティティを含む、請求項１または２に記載のデータ抽出装置。
　表計算ファイルが複数のシートを含む場合、前記データ抽出条件はデータを抽出すべきシートを指定するシート指定条件を含む、請求項１から３のいずれかに記載のデータ抽出装置。
　前記データ抽出条件は、データ抽出における基準セルを指定する基準セル指定条件を含む、請求項１から４のいずれかに記載のデータ抽出装置。
　前記基準セル指定条件は、表計算ファイルのセル番号によって基準セルを指定するセル番号指定条件を含む、請求項５に記載のデータ抽出装置。
　前記基準セル指定条件は、キーワードによって基準セルを指定するキーワード指定条件を含む、請求項５または６に記載のデータ抽出装置。
　前記データ抽出条件は、前記基準セルとの相対距離を指定する相対距離指定条件を含み、
　前記データ抽出部は、前記基準セルから前記相対距離だけ離れたセルからデータを抽出する、
　請求項５から７のいずれかに記載のデータ抽出装置。
　前記基準セル指定条件は、データ抽出の開始位置に関する開始基準セルを指定する開始基準セル指定条件と、データ抽出の終了位置に関する終了基準セルを指定する終了基準セル指定条件と、を含み、
　前記データ抽出部は、前記開始位置と前記終了位置の間にある複数のセルからデータを抽出する、
　請求項５から８のいずれかに記載のデータ抽出装置。
　前記終了基準セル指定条件は、特定の行または列における空白セルを指定する空白セル指定条件を含む、請求項９に記載のデータ抽出装置。
　複数の表計算ファイルと、それぞれに対応する複数のデータ抽出条件を保持する保持部と、
　入力された表計算ファイルと構成が類似する表計算ファイルを前記保持部において特定する構成分析部と、
　特定された表計算ファイルに対応するデータ抽出条件に基づいて、入力された表計算ファイルから抽出すべきデータを指定するデータ抽出条件を生成する抽出条件生成部と、
　を備えるデータ抽出支援装置。
　表計算ファイルが、テーブル項目を示す項目領域およびテーブル項目に関するデータを示すデータ領域を有するテーブルを含む場合、
　前記構成分析部は、テーブルの構成を分析する際に、少なくともデータ領域の構成を分析する、
　請求項１１に記載のデータ抽出支援装置。
　入力された表計算ファイルの属性情報に合致する構成ファイルを複数の構成ファイルの中から検索する構成ファイル検索ステップと、
　検索された構成ファイルで定義されたデータ抽出条件に基づいて、入力された表計算ファイルからデータを抽出するデータ抽出ステップと、
　を備えるデータ抽出方法。
　入力された表計算ファイルの属性情報に合致する構成ファイルを複数の構成ファイルの中から検索する構成ファイル検索ステップと、
　検索された構成ファイルで定義されたデータ抽出条件に基づいて、入力された表計算ファイルからデータを抽出するデータ抽出ステップと、
　をコンピュータに実行させるデータ抽出プログラム。
　複数の表計算ファイルと、それぞれに対応する複数のデータ抽出条件を格納する格納ステップと、
　格納された複数の表計算ファイルの中から入力された表計算ファイルと構成が類似する表計算ファイルを特定する構成分析ステップと、
　特定された表計算ファイルに対応するデータ抽出条件に基づいて、入力された表計算ファイルから抽出すべきデータを指定するデータ抽出条件を生成する抽出条件生成ステップと、
　を備えるデータ抽出支援方法。
　複数の表計算ファイルと、それぞれに対応する複数のデータ抽出条件を格納する格納ステップと、
　格納された複数の表計算ファイルの中から入力された表計算ファイルと構成が類似する表計算ファイルを特定する構成分析ステップと、
　特定された表計算ファイルに対応するデータ抽出条件に基づいて、入力された表計算ファイルから抽出すべきデータを指定するデータ抽出条件を生成する抽出条件生成ステップと、
　をコンピュータに実行させるデータ抽出支援プログラム。