WO2022215433A1

WO2022215433A1 - 情報表現構造解析装置、および情報表現構造解析方法

Info

Publication number: WO2022215433A1
Application number: PCT/JP2022/010905
Authority: WO
Inventors: 康志宮田; 理竹内
Original assignee: 株式会社日立製作所
Priority date: 2021-04-08
Filing date: 2022-03-11
Publication date: 2022-10-13
Also published as: US20240184985A1; JP2022161196A

Abstract

非定型書類から目的とする情報を効率よく抽出する。情報表現構造解析装置は、情報表現文法と抽出対象の抽出に際して用いる情報であるサポート情報の分類であるサポート情報種別との組合せ毎に、抽出対象を抽出する機能を実現するためのプログラムコードである情報表現パターンの生成に用いるテンプレートである情報表現テンプレートを記憶し、情報表現について特定された、情報表現文法とサポート情報種別とに基づき、非定型書類からの抽出対象の抽出に用いる情報表現パターンの生成に用いる情報表現テンプレートを特定し、特定した情報表現テンプレートに抽出対象および情報表現から抽出対象を抽出する際の根拠となる情報である根拠情報を適用することにより情報表現パターンを生成する。

Description

情報表現構造解析装置、および情報表現構造解析方法

　本発明は、情報表現構造解析装置、および情報表現構造解析方法に関する。

　本出願は、２０２１年４月８日に出願された日本特許出願特願２０２１－０６５８０６号に基づく優先権を主張し、その開示全体を援用して本出願に取り込むものである。

　特許文献１には、印刷された資料や活字の資料をイメージスキャナ（Image Scanner）により読み込んだ画像から、光学式文字認識（ＯＣＲ：optical character recognition）技術によりテキストを抽出する際の文書の正確かつ効率的な認識を可能にすることを目的として構成されたシステムについて記載されている。上記システムは、文書の視覚構造を統計解析アルゴリズムの２次元の適応（adaptation）を利用して文法的に解析することにより文書のレイアウト構造（段組、著者、タイトル、脚注等）を認識し、文書の構造コンポーネントを解釈する。

特表２００９－５００７５５号公報

　特許文献１に記載のシステムは、文書の視覚構造を文法的に解析することにより文書のレイアウト構造を認識し、文書の構造コンポーネントを解釈する。しかし、同文献に記載のシステムは、テキストおよびテキスト間の２次元的な配置以外の情報、例えば、文書に含まれている、表、スペース、タブ、ＨＴＭＬタグ（HTML:HyperText Markup Language）等の制御文字、ヘッダやフッタ等の文書外に記載されている情報、文書上で不可視の情報（文書の表面には現れない情報）等の文書の構造を解釈する上で有用な手がかりとなる情報を利用していない。そのため、非定型の書類から目的とする情報を必ずしも効率よく抽出することができない。

　本発明は、こうした背景に鑑みてなされたもので、非定型書類から目的とする情報を効率よく抽出することを可能にする情報表現構造解析装置、および情報表現構造解析方法を提供することを目的とする。

　上記課題を解決するために、情報表現構造解析装置であって、情報処理装置を用いて構成され、非定型書類における情報の表現の態様である前記情報表現、前記情報表現から抽出しようとする情報である抽出対象、および、前記情報表現から前記抽出対象を抽出する際の根拠となる情報である根拠情報、を記憶する記憶部と、前記抽出対象および前記根拠情報に基づき、前記抽出対象の抽出元となる前記情報表現を記述している文法である情報表現文法を特定する情報表現文法特定部と、前記情報表現からの前記抽出対象の抽出に際して用いる情報であるサポート情報の、前記情報表現の構造に基づく分類であるサポート情報種別を特定するサポート情報種別特定部と、を備え、前記記憶部は、前記情報表現文法と前記サポート情報種別との組合せ毎に、前記抽出対象を抽出する機能を実現するためのプログラムコードである情報表現パターンの生成に用いるテンプレートである情報表現テンプレートを記憶し、前記情報表現について特定された、前記情報表現文法と前記サポート情報種別とに基づき、前記非定型書類からの前記抽出対象の抽出に用いる前記情報表現パターンの生成に用いる前記情報表現テンプレートを特定する情報表現テンプレート検索部と、特定した前記情報表現テンプレートに前記抽出対象および前記根拠情報を適用することにより前記情報表現パターンを生成する情報表現パターン生成部と、を備える。

　その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。

　本発明によれば、非定型書類から目的とする情報を効率よく抽出することが可能になる。

文書情報管理システムの概略的な構成を示す図である。文書情報管理システムを構成する情報処理装置の一例である。非定型書類の一例である。情報表現パターンの一例である。情報表現テンプレートの一例である。情報表現テンプレート表の一例である。情報表現パターン生成処理を説明するフローチャートである。情報表現文法特定処理を説明するフローチャートである。サポート情報種別特定処理を説明するフローチャートである。第２実施形態の文書情報管理システムの概略的な構成を示す図である。特定支援情報取得処理を説明するフローチャートである。特定支援情報取得画面の一例である。特定支援情報取得画面の一例である。特定支援情報取得画面の一例である。特定支援情報取得画面の一例である。特定支援情報取得画面の一例である。特定支援情報取得画面の一例である。特定支援情報取得画面の一例である。第３実施形態の文書情報管理システムの概略的な構成を示す図である。情報表現パターン検証処理を説明するフローチャートである。情報表現パターン検証結果表示画面の一例である。

　以下、実施形態について図面を参照しつつ説明する。尚、以下の記載および図面は、本発明を説明するための例示に過ぎず、説明の明確化のため、適宜、省略もしくは簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。

　以下の説明において、同一のまたは類似する構成について同一の符号を付して重複した説明を省略することがある。また、以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップを意味する。また、以下の説明では「情報」、「データ」、「表」等の表現にて各種情報を説明することがあるが、各種情報は例示した以外のデータ構造により取り扱ってもよい。

［第１実施形態］
　図１に第１実施形態として説明する情報処理システム（以下、「文書情報管理システム１」と称する。）の概略的な構成を示している。同図に示すように、文書情報管理システム１は、非定型書類管理装置２、ユーザ装置３、および情報表現構造解析装置１００を含む。これらはいずれも情報処理装置（コンピュータ）を用いて構成されており、通信ネットワーク５を介して互いに双方向通信が可能な状態で接続されている。通信ネットワーク５は、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、専用線、各種公衆通信網である。

　非定型書類管理装置２は、非定型の書類（帳票、明細書、決算書類、各種登録用紙等の発行元により書式が異なる書類（例えば、リッチテキスト形式（Rich Text Format））。以下、「非定型書類」と称する。）から、ユーザが抽出しようとする情報（以下、「抽出情報」と称する。）を抽出し、抽出情報をユーザ装置２を介してユーザに提供する。

　非定型書類は、単語や文章のテキストデータ（以下、「テキスト」と称する。）と、構造的な情報（表、スペース、タブ、文書外に記載されている情報、文書上で不可視の情報（正規表現、辞書マッチ、メタ情報、ＨＴＭＬ（HyperText Markup Language）タグ等の制御文字））等。以下、「構造情報」と称する。）とを含む。以下、非定型書類に含まれている、非定型書類における情報の表現の態様（テキストや構造情報による情報の表現）のことを「情報表現」と総称する。情報表現は、例えば、ワープロソフト等のアプリケーションソフトウェアが取り扱う所定のデータ型式の文書データやＷｅｂページを記述しているデータや、光学式文字認識（ＯＣＲ：optical character recognition）技術によって画像データ（イメージスキャナにより取得された画像データ）から抽出される。

　同図に示すように、非定型書類管理装置２は、非定型書類管理部２１、情報抽出部２２、抽出情報管理部２３、および抽出情報提供部２４の各機能を有する。

　このうち非定型書類管理部２１は、ユーザ装置３を介して行われるユーザの入力や、通信ネットワーク５を介した他の情報処理装置からの提供等により、非定型書類を取得し、取得した非定型書類を管理する。

　情報抽出部２２は、非定型書類から抽出情報を取得（抽出）する。尚、情報抽出部２２は、非定型書類から抽出情報を取得する機能を実現するプログラムコード（もしくは疑似コード）（以下、「情報表現パターン」と称する。）を実行する（情報表現のパターンマッチングを行う）ことにより、非定型書類から抽出情報を取得する。この情報表現パターンは、情報表現構造解析装置１００によって生成される。情報表現パターンは、ユーザ装置３を介してユーザが編集することもできる。

　抽出情報管理部２３は、情報抽出部２２によって取得された抽出情報を管理する。抽出情報提供部２４は、抽出情報管理部２３が管理する抽出情報をユーザ装置３に提供する。

　ユーザ装置３は、各種設定部３１および抽出情報利用部３２の各機能を有する。各種設定部３１は、情報表現構造解析装置１００が情報表現パターンの生成や編集を行うために必要となる各種の設定を行う。抽出情報利用部３２は、ユーザが要求する抽出情報を非定型書類管理装置２に要求し、非定型書類管理装置２から送られてくる抽出情報を受信してユーザに提供する。

　情報表現構造解析装置１００は、情報表現パターンを生成して非定型書類管理装置２に提供する。同図に示すように、情報表現構造解析装置１００は、記憶部１１０、情報表現構造解析部１２０、および情報表現パターン生成部１３０の各機能を有する。

　同図に示すように、記憶部１１０は、抽出対象情報１０１、根拠情報群１０２、情報表現群１１１、情報表現テンプレート群１１２、情報表現テンプレート表１１３、情報表現パターン群１１４、および各種辞書１１５を記憶する。

　抽出対象情報１０１は、ユーザが非定型書類から抽出しようとする１つ以上の抽出対象を含む。抽出対象情報１０１は、例えば、ユーザ装置２を介してユーザが設定する。

　根拠情報群１０２は、情報表現から抽出対象を抽出する際の根拠となる１つ以上の根拠情報を含む。根拠情報群１０２は、例えば、ユーザ装置２を介してユーザが設定する。

　情報表現群１１１は、非定型書類から抽出された１つ以上の情報表現を含む。情報表現群１１１は、例えば、ユーザ装置２を介してユーザが設定する。例えば、多数の非定型書類からの抽出情報の抽出に用いる情報表現パターンを生成しようとする場合、ユーザは、それらの非定型書類から抽出した情報表現を情報表現群１１１として情報表現構造解析装置１００に登録する。

　情報表現テンプレート群１１２は、情報表現パターンの雛型（テンプレート）である１つ以上のプログラムコード（以下、「情報表現テンプレート」と称する。）を含む。情報表現テンプレートの詳細については後述する。

　情報表現テンプレート表１１３は、情報表現パターンの生成に用いる情報表現テンプレートの選択に際し情報表現構造解析部１２０によって参照される。

　情報表現パターン群１１４は、情報表現パターン生成部１３０によって生成された１つ以上の情報表現パターンを含む。

　各種辞書１１５は、情報表現構造解析部１２０や情報表現パターン生成部１３０によって利用される各種の辞書（単語辞書、正規表現辞書等）を含む。

　情報表現構造解析部１２０は、情報表現群１１１の情報表現（テキスト、構造情報）に基づき、情報表現テンプレート表１１３からの情報表現テンプレートの検索に用いる情報（後述する、情報表現文法およびサポート情報種別）を特定する。

　同図に示すように、情報表現構造解析部１２０は、テキスト情報抽出部１２１、構造情報抽出部１２２、情報表現文法特定部１２３、およびサポート情報種別特定部１２４の各機能を有する。

　このうちテキスト情報抽出部１２１は、情報表現からテキストを抽出する。また、構造情報抽出部１２２は、情報表現から構造情報を抽出する。また、情報表現文法特定部１２３は、情報表現から抽出したテキストと構造情報に基づき、情報表現を記述する文法（以下、「情報表現文法」と称する。）を特定する。また、サポート情報種別特定部１２４は、情報表現から抽出したテキストと構造情報に基づき、情報表現に対応する後述のサポート情報種別を情報表現テンプレート表１１３から特定する。

　図１に示す情報表現パターン生成部１３０は、情報表現構造解析部１２０が特定した情報表現文法およびサポート情報種別に基づき、情報表現テンプレート表１１３から情報表現テンプレートを検索し、検索した情報表現テンプレートに、具体的な抽出対象（テキスト等）と根拠情報（構成情報等）を適用することにより情報表現パターンを生成する。

　同図に示すように、情報表現パターン生成部１３０は、情報表現テンプレート検索部１３１および情報表現構成要素置換部１３２の各機能を有する。

　このうち情報表現テンプレート検索部１３１は、情報表現構造解析部１２０が特定した情報表現文法およびサポート情報種別の組合せに対応する情報表現テンプレートを情報表現テンプレート表１１３から検索する。

　また、情報表現構成要素置換部１３２は、情報表現テンプレート検索部１３１が検索した情報表現テンプレートに、具体的な抽出対象（テキスト等）と根拠情報（構成情報等）を適用（代入）することにより情報表現テンプレートを生成する。

　図２に、文書情報管理システム１を構成する情報処理装置（非定型書類管理装置２、ユーザ装置３、および情報表現構造解析装置１００）のハードウェア構成例を示す。例示する情報処理装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、および通信装置１６を備える。情報処理装置１０は、例えば、パーソナルコンピュータ、オフィスコンピュータ、サーバ装置、スマートフォン、タブレット等である。

　情報処理装置１０は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置１０によって提供される機能の全部または一部は、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現してもよい。また、情報処理装置１０によって提供される機能の全部または一部は、例えば、ＳａａＳ（Software as a Service）、ＰａａＳ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）等を利用して実現されるものであってもよい。

　尚、例えば、非定型書類管理装置２、ユーザ装置３、および情報表現構造解析装置１００のうちの少なくとも２つ以上を、同じ情報処理装置１０（共通のハードウェア）によって実現してもよい。

　同図に示すプロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成されている。

　主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

　補助記憶装置１３は、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介してプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは主記憶装置１２に随時読み込まれる。

　入力装置１４は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。

　出力装置１５は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。尚、例えば、情報処理装置１０が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

　入力装置１４と出力装置１５は、ユーザとの間での対話処理（情報の受け付け、情報の提示等）を実現するユーザインタフェースを構成する。

　通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、通信ネットワーク５を介して他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール等である。

　情報処理装置１０には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。

　非定型書類管理装置２、ユーザ装置３、および情報表現構造解析装置１００の機能は、夫々を構成する情報処理装置１０のプロセッサ１１が、夫々を構成する情報処理装置１０の主記憶装置１２に格納されているプログラムを読み出して実行することにより、もしくは、夫々を構成する情報処理装置１０のハードウェア（ＦＰＧＡ、ＡＳＩＣ、ＡＩチップ等）自体によって実現される。

　非定型書類管理装置２、ユーザ装置３、および情報表現構造解析装置１００は、前述した各種の情報（データ）を、例えば、データベースのテーブルやファイルシステムが管理するファイルとして記憶する。

　図３に非定型書類の一例を示す。例示する非定型書類３００は、企業等の組織が金融機関に融資を申し込む際に提出する書類である。非定型書類３００は、情報表現として、テキストと様々な構造情報（表、スペース、タブ、ＨＴＭＬタグ等の制御文字、文書外に記載の情報、文書上で不可視の情報等））を含む。

　同図に示すように、例示する非定型書類３００は、ヘッダ３１０、ボディ３２０、およびフッタ３３０の各欄を有する。このうちヘッダ３１０には、申込日３０１が記載されている。ボディ３２０には、会社登録日３２１や会社の財務状況を示す財務表３２２が記載されている。フッタ３３０には、ページ番号３３１が記載されている。

　ここで例えば、ボディ３２０に記載されている会社登録日３２１は、情報表現として「Registration」および「07/16/2007」というテキストと、これらが同一行に記載されているという構造情報とを含む。例えば、この情報表現をパターンとして捉えて情報表現パターン（プログラムコード）を生成することで、多様な非定型書類から会社登録日をパターンマッチングにより自動的に取得することが可能になる。

　図４に、情報表現パターンの一例を示す。例示する情報表現パターン４００は、書類に含まれる日付（date）４１０を入力として、その日付(date)４１０と同一行に存在する単語を取得する関数「same_line_word」４２０の結果に、単語「Registration」が含まれているか否かを判定する機能を実現する。例示する情報表現パターン４００は、関数「same_line_word」４２０の実行結果に単語「Registration」が含まれていれば「TRUE」を返し、当該単語が含まれていなければ「FALSE」を返す。

　図５は、図４に例示した情報表現パターン４００の生成に用いる情報表現テンプレートの一例である。例示する情報表現テンプレート５００は、種別「Type」５１０、説明「Description」５２０、およびテンプレートコード「Template Code」５３０の各欄を含む。

　種別「Type」５１０には、当該情報表現テンプレート５００が対象とする情報表現の情報表現文法の要素（本例では、C(情報抽出対象)、[Position]、[Word]。以下、「文法表現要素」と称する。）の頭文字と角括弧付で表記した記号列（本例では「C[P][W]」）が記述される。尚、角括弧付で表記されている[Position]、[Word]は、情報表現テンプレートから情報表現パターンに変換する際に置き換えの対象となる。

　説明「Description」５２０には、情報表現テンプレートのロジックを自然言語で説明した情報が記述される。本例では、説明「Description」５２０に、「C(情報抽出対象)が単語または単語群と所定の位置関係(Position)にある」ことを示す情報が記述されている。

　テンプレートコード「Template Code」５３０には、情報表現のロジックを表すプログラムコードの雛型（テンプレート）が記述される。テンプレートコード「Template Code」５３０の角括弧の部分を具体的な内容に置き換えることで、情報表現パターンが生成される。例えば、情報表現が図３に例示した非定型書類３００の会社登録日３２１である場合、テンプレートコード「Template Code」５３０の[Word]を単語「Registration」に置き換え、[Position]を同一行「in same_line」に置き換え、Cを「date」に置き換えることで、図４に示した情報表現パターン４００が生成される。尚、function(Position)は、引数「Position」に基づき単語群を取得する関数を返す関数である。同図の場合、引数「Position」が同一行を意味する「in same_line」に置き換えられることにより、function(Position)は、図４に示す関数「same_line_word」４２０を返す。

　図６に、情報表現テンプレート表１１３の一例を示す。例示する情報表現テンプレート表１１３は、行番号１１３１、文法表現要素１１３２、情報表現文法１１３３、およびサポート情報種別１１３４の各項目を有する複数のエントリ（レコード）で構成される。情報表現テンプレート表１１３の１つのエントリは、１つの情報表現文法に対応している。

　上記項目のうち、行番号１１３１には、情報表現テンプレート表１１３のエントリ毎に付与される識別子（行番号）が格納される。

　文法表現要素１１３２には、当該情報表現文法の前述した文法表現要素が格納される。

　情報表現文法１１３３には、当該情報表現文法を所定の表記方法（例えば、自然言語文法の表記方法に準じた表記方法）で表現した内容が格納される。

　サポート情報種別１１３４には、情報表現からの抽出対象の抽出に際して用いる情報であるサポート情報の、情報表現の構造に基づく分類であるサポート情報種別が設定される。サポート情報種別は、情報表現文法による区別に加え、情報表現パターンの生成に用いる情報表現テンプレートをより細かく分類する。本例では、サポート情報種別として、「正規表現」、「辞書マッチ」、「メタ情報（ページ番号等）」、「ＨＴＭＬ構造」、「集合」、「構造」を例示している。例示するサポート情報種により情報表現テンプレートを分類することで、様々な書式の非定型書類について網羅的に対応することができる。

　同図には、行番号＃１～＃９で区別される９つの情報表現文法を例示している。

　このうち行番号が「＃１」の情報表現文法１１３３「C is the [Same] as [Words].」は、「C(情報抽出対象)が所定の情報（単語）または情報群（単語群）[Words]と同じ意味を有する[Same]。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「C[S][W]」が格納されている。このように抽出対象と所定の情報または情報群との意味的な関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち、「正規表現」、「辞書マッチ」、「メタ情報」、「ＨＴＭＬ構造」には、夫々、情報表現テンプレートの識別子「Template1」～「Template4」が格納されている。

　サポート情報種別「正規表現」に格納されている情報表現テンプレート「Template1」には、C(情報抽出対象)の表現が正規表現と一致するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００の場合、上記プログラムコードは、C(情報抽出対象)である日付「07/16/2007」について、「数値／数値／数値」のような３つの数値がスラッシュで区切られた正規表現と一致するか否かを判定する。

　サポート情報種別「辞書マッチ」に格納されている情報表現テンプレート「Template2」には、C(情報抽出対象)がユーザ等により設定された辞書に含まれる単語と一致するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００の場合、上記プログラムコードは、「AAA Company」という会社名に対して、辞書である会社名の名簿に含まれている単語と一致するか否かを判定する。

　サポート情報種別「メタ情報」に格納されている情報表現テンプレート「Template3」には、C(情報抽出対象)が書類上に文字列として表現されない、例えば、総ページ数や電子化された書類の作成者、作成日等に含まれる文字列と一致するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００の場合、C(情報抽出対象)が、複数ページ中の最終ページに存在する日付「07/16/2007」であれば、上記プログラムコードは、書類の全ページ数と日付「07/16/2007」が存在するページ数が一致するか否かを判定する。

　サポート情報種別「ＨＴＭＬ構造」に格納されている情報表現テンプレート「Template4」には、非定型書類が、制御文字が埋め込まれて整形されたＨＴＭＬのような書類である場合、C(情報抽出対象)を表示するための制御文字が特定の制御文字と一致するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００がＨＴＭＬで記述されている場合、C(情報抽出対象)がヘッダ３１０に存在する申込日「09/22/2010」であれば、上記プログラムコードは、ＨＴＭＬの<header>タグが制御文字として付与されている日付がC(情報抽出対象)と一致するか否かを判定する。

　行番号が「＃２」の情報表現文法１１３３「C is the [Position] of [Ranges].」は、「C(情報抽出対象)の位置[Position]が領域または領域群[Ranges] に属する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「C[P][R]」が格納されている。このように抽出対象の位置と領域または領域群との関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「ＨＴＭＬ構造」、「集合」、「構造」には、夫々、情報表現テンプレートの識別子「Template5」～「Template7」が格納されている。

　サポート情報種別「ＨＴＭＬ構造」に格納されている情報表現テンプレート「Template5」には、制御文字が埋め込まれて整形されたＨＴＭＬのような書類を前提として、C(情報抽出対象)がＨＴＭＬで表現された領域群[Ranges]と特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００がＨＴＭＬで記述された書類である場合、上記プログラムコードは、ヘッダ３１０より下に存在する日付「07/16/2007」であるC(情報抽出対象)が、ＨＴＭＬの<header>タグの終了位置以降に存在するか否かを判定する。

　サポート情報種別「集合」に格納されている情報表現テンプレート「Template6」には、C(情報抽出対象)が領域群[Ranges]と特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、C(情報抽出対象)が図１の非定型書類３００のボディ３２０の中央付近の日付「07/16/2007」である場合、上記プログラムコードは、例えば、対象となる日付がボディ３２０の上方領域２０％、下方領域２０％の間に存在するか否かを判定する。

　サポート情報種別「構造」に格納されている情報表現テンプレート「Template7」には、C(情報抽出対象)が領域群[Ranges]のうち一つの領域と特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、C(情報抽出対象)が、図１の非定型書類３００の上方に存在する申込日「09/22/2010」である場合、上記プログラムコードは、例えば、対象となる日付が非定型書類３００の上方の１０％の範囲に存在するか否かを判定する。

　行番号が「＃３」の情報表現文法１１３３「C is the [Position] of [Words].」は、「C(情報抽出対象)の位置[Position]が所定の情報（単語）または情報群（単語群）[Words]と所定の位置関係を有する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「C[P][W]」が格納されている。このように抽出対象の位置と所定の情報または情報群との位置関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「ＨＴＭＬ構造」、「集合」、「構造」には、夫々、情報表現テンプレートの識別子「Template8」～「Template10」が格納されている。尚、これらの情報表現テンプレートは、夫々、行番号が「＃２」の情報表現テンプレート「Template5」～「Template7」において領域群[Ranges]を単語群[Words]に置き換えたものである。

　例えば、サポート情報種別「ＨＴＭＬ構造」に格納されている情報表現テンプレート「Template8」には、例えば、C(情報抽出対象) が図１の非定型書類３００の年度「2007」である場合、単語「Year」が、同一列に存在する<td>タグ内に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述される。

　行番号が「＃４」の情報表現文法１１３３「C is the [Relation] of [Words]」は、「C(情報抽出対象)が所定の情報（単語）または情報群（単語群）[Words]と所定の関係[Relation]を有する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「C[R][W]」が格納されている。このように抽出対象の位置と所定の情報または情報群との関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「集合」には、情報表現テンプレートの識別子「Template11」が格納されている。当該情報表現テンプレートは、C(情報抽出対象)が単語群[Words]と特定の関係[Relation]を有するか否かを判定する。ここで関係[Relation] は、例えば、「同等」、「より大きい」、「より小さい」、「最大」、「最小」等の比較演算により特定される関係をいう。当該情報表現テンプレートには、例えば、C(情報抽出対象)が図１の非定型書類３００の最新の年度「2009」である場合、「Year」という単語が、同じ列に存在する「2007」、「2008」、「2009」のうち、「2009」が最新（最大値）となるか否かを判定するプログラムコードの雛型（テンプレート）が記述される。

　行番号が「＃５」～「＃９」の情報表現文法は、いずれも複数のC(情報抽出対象)を含む場合である。

　行番号が「＃５」の情報表現文法１１３３「C is the [Position] of [Words(C)].」は、「第１のC(情報抽出対象)の位置[Position]が第２のC(情報抽出対象)である情報（単語）または情報群（単語群）[Words]と所定の位置関係にある。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「C[P][C]」が格納されている。このように第１の抽出対象と第２の抽出対象の位置関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「ＨＴＭＬ構造」、「集合」、「構造」には、夫々、情報表現テンプレートの識別子「Template12」～「Template14」が格納されている。

　サポート情報種別「ＨＴＭＬ構造」に格納されている情報表現テンプレート「Template12」には、ＨＴＭＬのような制御文字が埋め込まれて整形された書類を前提に、第１のC(情報抽出対象)が組合せ対象となる第２のC(情報抽出対象)と特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００がＨＴＭＬで記述されており、例えば、第１のC(情報抽出対象)が「2007」、第２のC(情報抽出対象)が「$100,000」である場合、上記プログラムコードは、各年度の売上情報を抽出するため、第１および第２のC(情報抽出対象)が、夫々ＨＴＭＬの<td>タグで隣接するか否かを判定する。

　サポート情報種別「集合」に格納されている情報表現テンプレート「Template13」には、第１のC(情報抽出対象)が第２のC(情報抽出対象)を含む単語群[Words]と特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００から利益（Net Profit）の平均値を計算するために情報抽出する場合、例えば、第１のC(情報抽出対象)が「Net Profit」、第２のC(情報抽出対象)が「$10,000」、「$30,000」、「$30,000」のいずれかとした場合、上記プログラムコードは、第１および第２のC(情報抽出対象)が同一列に存在するか否かを判定する。

　行番号が「＃６」の情報表現文法１１３３「C & C is the [Position] of [Ranges].」は、「第１のC(情報抽出対象)と第２のC(情報抽出対象)の位置[Position]がいずれも所定の領域または領域群[Ranges]に属する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「CC[R][W]」が格納されている。このように第１の抽出対象と第２の抽出対象の夫々の位置と所定の領域または領域との関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「ＨＴＭＬ構造」、「集合」、「構造」には、夫々、情報表現テンプレートの識別子「Template15」～「Template17」が格納されている。

　サポート情報種別「ＨＴＭＬ構造」に格納されている情報表現テンプレート「Template15」には、ＨＴＭＬのような制御文字が埋め込まれて整形された書類を前提に、第１のC(情報抽出対象)と第２のC(情報抽出対象)が領域群[Ranges]の１つと特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００がＨＴＭＬで記述されており、第１のC(情報抽出対象)が「2007」、第２のC(情報抽出対象)が「$100,000」である場合、上記プログラムコードは、例えば、各年度の売上を抽出するため、第１および第２のC(情報抽出対象)がともに同じＨＴＭＬの<tr>タグに含まれるか否かを判定する。

　サポート情報種別「集合」に格納されている情報表現テンプレート「Template16」には、第１のC(情報抽出対象)と第２のC(情報抽出対象)が領域群[Ranges]と特定の位置関係[Position]にあるか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００において第１のC(情報抽出対象)が「2007」、第２のC(情報抽出対象)が「$100,000」である場合、上記プログラムコードは、例えば、第１および第２のC(情報抽出対象)がともに非定型書類３００の列名が記述されている領域および通し番号が割り振られている１列目の領域に含まれているか否かを判定する。

　サポート情報種別「構造」に格納されている情報表現テンプレート「Template17」には、第１のC(情報抽出対象)と第２のC(情報抽出対象)が領域群[Ranges]の１つと特定の位置関係[Position]にあるか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００において第１のC(情報抽出対象)が「2007」、第２のC(情報抽出対象)が「$100,000」である場合、上記プログラムコードは、例えば、第１および第２のC(情報抽出対象)がともに非定型書類３００の列名が記述されている領域より下に存在するか否かを判定する。

　行番号が「＃７」の情報表現文法１１３３「C & C is the [Position] of [Words].」は、「第１のC(情報抽出対象)と第２のC(情報抽出対象)の位置[Position]がいずれも所定の情報（単語）または情報群（単語群）[Words]と特定の位置関係を有する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「CC[P][W]」が格納されている。このように第１の抽出対象と第２の抽出対象の夫々の位置と所定の情報または情報群との位置関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「ＨＴＭＬ構造」、「集合」、「構造」には、夫々、情報表現テンプレートの識別子「Template18」～「Template20」が格納されている。これらの情報表現テンプレート「Template18」～「Template20」は、夫々、行番号が「＃６」の情報表現テンプレート「Template15」～「Template17」における領域群[Ranges]を単語群[Words]に置き換えたものである。

　例えば、サポート情報種別「ＨＴＭＬ構造」に格納されている情報表現テンプレート「Template18」には、第１のC(情報抽出対象)と第２のC(情報抽出対象)が単語群[Words]の１つと特定の位置関係[Position]に存在するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００がＨＴＭＬで記述されており、第１のC(情報抽出対象)が「2007」、第２のC(情報抽出対象)が「$100,000」である場合、上記プログラムコードは、第１および第２のC(情報抽出対象)がともに通し番号「１」と同一列に存在するか否かを判定する。

　行番号が「＃８」の情報表現文法１１３３「C is the [Relation] of C.」は、「第１のC(情報抽出対象)と第２のC(情報抽出対象)が所定の関係[Relation]を有する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「C[R]C」が格納されている。ここで関係[Relation] は、例えば、「同等」、「より大きい」、「より小さい」、「最大」、「最小」等の比較演算により特定される関係をいう。このように第１の抽出対象と第２の抽出対象との関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「集合」には、情報表現テンプレートの識別子「Template21」が格納されている。この情報表現テンプレート「Template21」には、第１のC(情報抽出対象)と第２のC(情報抽出対象)が特定の関係[Relation]を有するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００から売上（Sales）と利益（Net Profit）の組合せを抽出する場合、2007年度の売上と利益に関して、第１のC(情報抽出対象)を「$100,000」、第２のC(情報抽出対象)を「$100,000」とした場合、上記プログラムコードは、例えば、数値として大きいC(情報抽出対象)を売上と判定し、小さいC(情報抽出対象)を利益と判定する。

　行番号が「＃９」の情報表現文法１１３３「C & C is the [Relation] of [Words].」は、「第１のC(情報抽出対象)と第２のC(情報抽出対象)が所定の情報（単語）または情報群（単語群）[Words]と所定の関係[Relation]を有する。」という内容である。当該行の文法表現要素１１３２には、当該情報表現文法の文法表現要素を示す「CC[R][W]」が格納されている。ここで関係[Relation] は、例えば、「同等」、「より大きい」、「より小さい」、「最大」、「最小」等の比較演算により特定される関係をいう。このように第１の抽出対象と第２の抽出対象の所定の情報または情報群との関係を表す情報表現文法を分類の一つとすることで、適切な情報表現テンプレートを効率よく特定することが可能になる。

　当該行のサポート情報種別１１３４のうち「集合」には、情報表現テンプレートの識別子「Template22」が格納されている。この情報表現テンプレート「Template22」には、第１のC(情報抽出対象)と第２のC(情報抽出対象)が特定の単語群[Words]と特定の関係[Relation]を有するか否かを判定するプログラムコードの雛型（テンプレート）が記述されている。例えば、図１の非定型書類３００から売上（Sales）と利益（Net Profit）の組合せを抽出する場合、2007年度の売上と利益に関して、第１のC(情報抽出対象)を「$100,000」、第２のC(情報抽出対象)を「$100,000」とした場合、通し番号や年度の数値と分けるため、上記プログラムコードは、例えば、桁数が通し番号や年度の数値の桁数と比較して、第１および第２のC(情報抽出対象)がともに大きいか否かを判定する。

　尚、情報表現テンプレート表１１３に示した９つの情報表現文法（行番号＃１～＃９）を用いて情報表現テンプレートを特定することで、様々な非定型書類を網羅的にカバーして情報表現テンプレートを適切に特定することが可能になる。そしてこの情報表現テンプレート表１１３から情報表現文法とサポート情報種別とで特定される情報表現テンプレートを用いて生成した情報表現パターンを実行して非定型書類のパターンマッチングを行うことで、多様な非定型書類からユーザが目的とする情報を精度よく抽出することができる。

　図７は、情報表現構造解析部１２０が、非定型書類に含まれる情報表現を解析し、その結果を用いて情報表現パターン生成部１３０が情報表現パターンを生成する処理（以下、「情報表現パターン生成処理Ｓ７００」と称する。）を説明するフローチャートである。以下、同図とともに情報表現パターン生成処理Ｓ７００について説明する。

　まず、情報表現構造解析部１２０が、非定型書類から情報表現を取得し情報表現群１１１に登録する（Ｓ７０１）。例えば、非定型書類が図３に例示した非定型書類３００である場合、情報表現構造解析部１２０は、例えば、会社登録日３２１の領域（「Registration」と日付「07/16/2007」を含む領域）を情報表現として取得する。情報表現は、例えば、ユーザ装置３を介してユーザが指定した範囲に含まれるものを取得するようにしてもよい。

　続いて、テキスト情報抽出部１２１が、Ｓ７０１で取得した情報表現から抽出対象に関わるテキストを抽出する（Ｓ７０２）。例えば、情報表現が、図３に例示した非定型書類３００から取得された会社登録日３２１であり抽出対象が「07/16/2007」である場合、テキスト情報抽出部１２１は、「Registration」と「07/16/2007」をテキストとして抽出する。

　続いて、構造情報抽出部１２２が、Ｓ７０１で取得した情報表現から、Ｓ７０２で抽出されたテキストに関わる構造情報を抽出する（Ｓ７０３）。例えば、情報表現が、非定型書類が図３に例示した非定型書類３００から取得された会社登録日３２１である場合、構造情報抽出部１２２は、Ｓ７０２で抽出されたテキスト「Registration」およびテキスト「07/16/2007」について、夫々の文字列を囲む領域の座標を構造情報として抽出する。上記座標は、例えば、文字列を囲む領域の左上の座標（ｘｓ，ｙｓ）と右下の座標（ｘｅ，ｙｅ）の組で表される。

　続いて、情報表現文法特定部１２３が、情報表現テンプレート表１１３から、抽出したテキストと構造情報に対応する情報表現文法１１３３を特定する（Ｓ７０４）。尚、当該処理（以下、「情報表現文法特定処理Ｓ７０４」と称する。）の詳細については後述する。

　続いて、サポート情報種別特定部１２４が、情報表現テンプレート表１１３のサポート情報種別１１３４から、抽出したテキストと構造情報に対応するサポート情報種別を特定する（Ｓ７０５）。尚、当該処理（以下、「サポート情報種別特定処理Ｓ７０５」と称する。）の詳細については後述する。

　続いて、情報表現パターン生成部１３０の情報表現テンプレート検索部１３１が、情報表現テンプレート表１１３から、Ｓ７０３で特定された情報表現文法とＳ７０４で特定されたサポート情報種別の組合せに対応する情報表現テンプレートを取得する（Ｓ７０６）。

　続いて、情報表現パターン生成部１３０の情報表現構成要素置換部１３２が、Ｓ７０６で取得した情報表現テンプレートにおいて角括弧付の表記を、抽出対象と根拠情報に置き換えて情報表現パターンを生成する（Ｓ７０７）。

　図８は、図７に示した情報表現文法特定処理Ｓ７０４の詳細を説明するフローチャートである。以下、同図とともに情報表現文法特定処理Ｓ７０４について説明する。尚、以下では、図７のＳ７０１で取得した情報表現（以下、「当該情報表現」と称する。）が、図６に例示した情報表現テンプレート表１１３のいずれの情報表現文法１１３３に該当するかを特定する場合を例として説明する。

　情報表現文法特定部１２３は、まず、当該情報表現から抽出しようとする情報（１つ以上のC(情報抽出対象)）と、抽出対象か否かの判定に用いる情報（以下、「根拠情報」と称する。）を取得する（Ｓ８０１）。尚、根拠情報については必ずしも取得しなくてもよい。これらの情報は、例えば、ユーザ装置３を介してユーザから受け付ける。例えば、C(情報抽出対象)に関しては、表示装置に表示し、ユーザはマウス操作で対象となる単語をクリックして指定する。また、根拠情報に関しては、同様に表示装置に表示し、ユーザはマウス操作で対象となる単語をクリックするか、もしくは対象となる領域を範囲指定する。尚、根拠情報が不可視の場合は、例えば、C(情報抽出対象)のみをマウス操作でクリックする。

　続いて、情報表現文法特定部１２３は、Ｓ８０１で取得したC(情報抽出対象)の数が一つ否か複数かを判定する（Ｓ８０２）。C(情報抽出対象)が一つであれば（Ｓ８０２：ＹＥＳ）Ｓ８０３に進み、C(情報抽出対象)が複数であればＳ８２０に進む。

　Ｓ８０３では、情報表現文法特定部１２３は、根拠情報の有無を判定する。Ｓ８０１で根拠情報を取得していない場合は（Ｓ８０３：ＮＯ）Ｓ８０４に進み、Ｓ８０１で根拠情報を取得している場合は（Ｓ８０３：ＹＥＳ）Ｓ８０５に進む。

　Ｓ８０４では、情報表現文法特定部１２３は、根拠情報が書類上では不可視の情報（正規表現、辞書マッチ、メタ情報、ＨＴＭＬタグ等の制御文字等）であるとして、当該情報表現は、情報表現テンプレート表１１３の行番号「＃１」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。

　Ｓ８０５では、情報表現文法特定部１２３は、根拠情報が範囲指定であるか否かを判定する（Ｓ８０５）。根拠情報が範囲指定である場合は（Ｓ８０５：ＹＥＳ）、Ｓ８０６に進み、情報表現文法特定部１２３は、当該情報表現が情報表現テンプレート表１１３の行番号「＃２」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。根拠情報が範囲指定でない場合は（Ｓ８０５：ＮＯ）、Ｓ８０７に進む。

　Ｓ８０７では、情報表現文法特定部１２３は、根拠情報が、情報表現においてC(情報抽出対象)と大小を比較することができない情報（単語）または情報群（単語群）であるか否かを判定する。根拠情報が大小を比較することができない情報（単語）または情報群（単語群）である場合は（Ｓ８０７：ＮＯ）Ｓ８０８に進み、情報表現文法特定部１２３は、当該情報表現は情報表現テンプレート表１１３の行番号「＃３」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。一方、根拠情報が大小を比較することができる情報（単語）または情報群（単語群）である場合は（Ｓ８０７：ＹＥＳ）Ｓ８０９に進み、情報表現文法特定部１２３は、当該情報表現は情報表現テンプレート表１１３の行番号「＃４」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。

　Ｓ８２０では、情報表現文法特定部１２３は、根拠情報の有無を判定する。根拠情報を取得していない場合は（Ｓ８２０：ＮＯ）Ｓ８２１に進み、根拠情報を取得している場合は（Ｓ８２０：ＹＥＳ）Ｓ８３０に進む。

　Ｓ８２１では、情報表現文法特定部１２３は、C(情報抽出対象)が数値等であり大小関係を比較できるか否かを判定する。C(情報抽出対象)が数値等であり大小関係を比較できれば（Ｓ８２１：ＹＥＳ）Ｓ８２２に進み、当該情報表現は情報表現文法特定部１２３は、情報表現テンプレート表１１３の行番号「＃８」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。一方、大小関係を比較できなければ（Ｓ８２１：ＮＯ）Ｓ８２３に進み、情報表現文法特定部１２３は、当該情報表現は情報表現テンプレート表１１３の行番号「＃５」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。

　Ｓ８３０では、情報表現文法特定部１２３は、根拠情報が範囲指定であるか否かを判定する。根拠情報が範囲指定である場合は（Ｓ８３０：ＹＥＳ）、Ｓ８３１に進み、情報表現文法特定部１２３は、当該情報表現は情報表現テンプレート表１１３の行番号「＃６」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。一方、根拠情報が範囲指定でない場合は（Ｓ８３０：ＮＯ）、Ｓ８３３に進む。

　Ｓ８３３では、情報表現文法特定部１２３は、C(情報抽出対象)が数値等であり大小関係を比較できるか否かを判定する。C(情報抽出対象)が数値等であり大小関係を比較できれば（Ｓ８３３：ＹＥＳ）Ｓ８３４に進み、情報表現文法特定部１２３は、当該情報表現は情報表現テンプレート表１１３の行番号「＃９」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。一方、大小関係を比較できなければ（Ｓ８３３：ＮＯ）Ｓ８３５に進み、情報表現文法特定部１２３は、当該情報表現は情報表現テンプレート表１１３の行番号「＃７」の情報表現文法に該当すると判定する。その後、情報表現文法特定処理Ｓ７０４は終了する。

　図９は、図７に示したサポート情報種別特定処理Ｓ７０５の詳細を説明するフローチャートである。以下、同図とともにサポート情報種別特定処理Ｓ７０５について説明する。尚、以下では、図７のＳ７０１で取得した情報表現（以下、「当該情報表現」と称する。）が、図６に例示した情報表現テンプレート表１１３のいずれのサポート情報種別１１３４に該当するかを特定する場合を例として説明する。

　まず、サポート情報種別特定部１２４は、情報表現文法特定処理Ｓ７０４で特定された情報表現文法を取得する（Ｓ９０１）。

　続いて、サポート情報種別特定部１２４は、取得した情報表現文法が行番号「＃１」の情報表現文法であるか否かを判定する（Ｓ９０２）。取得した情報表現文法が行番号「＃１」の情報表現文法であれば（Ｓ９０２：ＹＥＳ）Ｓ９０３に進み、行番号「＃１」の情報表現文法でなければ（Ｓ９０２：ＮＯ）Ｓ９１０に進む。

　Ｓ９０３では、サポート情報種別特定部１２４は、当該情報表現のサポート情報種別が「正規表現」であるか否かを判定する。具体的には、サポート情報種別特定部１２４は、各種辞書１１５の正規表現辞書を読み込み、C(情報抽出対象)が正規表現と一致するか否かを判定することにより上記の判定を行う。サポート情報種別特定部１２４が、当該情報表現のサポート情報種別を「正規表現」と判定した場合は（Ｓ９０３：ＹＥＳ）、サポート情報種別特定処理Ｓ７０５は終了する。一方、サポート情報種別特定部１２４が、当該情報表現のサポート情報種別は「正規表現」でないと判定した場合は（Ｓ９０３：ＮＯ）Ｓ９０４に進む。

　Ｓ９０４では、サポート情報種別特定部１２４は、当該情報表現のサポート情報種別が「辞書マッチ」に該当するか否かを判定する。具体的には、サポート情報種別特定部１２４は、各種辞書１１５の単語辞書を読み込み、C(情報抽出対象)と一致するか否か判定することにより上記の判定を行う。上記判定の結果、当該情報表現のサポート情報種別を「辞書マッチ」と判定した場合は（Ｓ９０４：ＹＥＳ）、サポート情報種別特定処理Ｓ７０５は終了する。一方、サポート情報種別特定部１２４が、当該情報表現のサポート情報種別は「辞書マッチ」でないと判定した場合は（Ｓ９０４：ＮＯ）Ｓ９０５に進む。

　尚、当該情報表現のサポート情報種別が「正規表現」と「辞書マッチ」の双方に一致する場合もあるが、その場合は、ユーザ装置３を介してその旨をユーザに提示していずれかを選択させるようにしてもよいし、「正規表現」または「辞書マッチ」に候補を絞り込まずに処理を終了するようにしてもよい。

　Ｓ９０５では、サポート情報種別特定部１２４は、非定型書類からメタ情報を抽出してユーザに提示し、根拠情報が存在するか選択させる。ユーザが、提示したメタ情報の中に根拠情報が存在するとした場合は（Ｓ９０５：ＹＥＳ）、サポート情報種別特定部１２４は、当該情報表現のサポート情報種別を「メタ情報」（ページ番号等）と判定し、サポート情報種別特定処理Ｓ７０５は終了する。一方、ユーザが、提示したメタ情報の中に根拠情報が存在しないとした場合は（Ｓ９０５：ＮＯ）Ｓ９０７に進む。

　Ｓ９０７では、サポート情報種別特定部１２４は、情報表現が記載された非定型書類がＨＴＭＬで記述されているか否かを判定する。非定型書類がＨＴＭＬで記述されていれば（Ｓ９０７：ＹＥＳ）、サポート情報種別特定部１２４は、当該情報表現のサポート情報種別を「ＨＴＭＬ構造」と判定し、サポート情報種別特定処理Ｓ７０５は終了する。一方、非定型書類がＨＴＭＬで記述されていなければ（Ｓ９０７：ＮＯ）、サポート情報種別特定部１２４は、当該情報表現は該当するサポート情報種別がない（該当なし）と判定し、サポート情報種別特定処理Ｓ７０５は終了する。尚、該当なしと判定した場合、サポート情報種別特定部１２４が、ユーザに正規表現や辞書情報を入力させ、当該情報表現のサポート情報種別を「正規表現」または「辞書マッチ」と判定するようにしてもよい。

　Ｓ９１０では、サポート情報種別特定部１２４は、Ｓ９０１で取得した情報表現文法が、行番号が「＃４」、「＃８」、「＃９」のいずれかの情報表現文法と一致するか否かを判定する。いずれかの情報表現文法と一致すれば（Ｓ９１０：ＹＥＳ）、サポート情報種別特定部１２４は、当該情報表現のサポート情報種別を「集合」と判定し、サポート情報種別特定処理Ｓ７０５は終了する。いずれの情報表現文法にも一致しなければ（Ｓ９１０：ＮＯ）Ｓ９１１に進む。

　Ｓ９１１では、サポート情報種別特定部１２４は、C(情報抽出対象)および根拠情報が数値や日付であり、大小関係を比較可能であるか否かを判定する。大小関係を比較可能であれば（Ｓ９１１：ＹＥＳ）、サポート情報種別特定部１２４は、当該情報表現のサポート情報種別を「集合」と判定し、サポート情報種別特定処理Ｓ７０５は終了する。大小関係を比較できなければ（Ｓ９１１：ＮＯ）、Ｓ９１２に進む。

　Ｓ９１２では、サポート情報種別特定部１２４は、情報表現が記載された非定型書類がＨＴＭＬで記述されているか否かを判定する。非定型書類がＨＴＭＬで記述されていれば（Ｓ９１２：ＹＥＳ）、サポート情報種別特定部１２４は、当該情報表現のサポート情報を「ＨＴＭＬ構造」と判定し、サポート情報種別特定処理Ｓ７０５は終了する。非定型書類がＨＴＭＬで記述されていなければ（Ｓ９１２：ＮＯ）、サポート情報種別特定部１２４は、サポート情報を「構造」と判定する。

　以上に説明したように、第１実施形態の文書情報管理システム１によれば、非定型書類に含まれている情報表現の構造を解析し、非定型書類からの情報の抽出に用いる情報表現パターンを生成することができる。そして、非定型書類管理装置２は、生成された情報表現パターンを用いて、書式が異なる様々な非定型書類からユーザが取得しようとする情報を効率よく抽出することができる。

［第２実施形態］
　図１０に第２実施形態として示す文書情報管理システム１の概略的な構成を示している。第２実施形態の文書情報管理システム１における情報表現構造解析装置１００は、第１実施形態の情報表現構造解析装置１００が備える機能に加えて、情報表現文法特定支援処理部１４０を更に備える。

　情報表現文法特定支援処理部１４０は、情報表現構造解析部１２０が情報表現文法を特定するために必要な情報（C(情報抽出対象)、根拠情報等。以下、「特定支援情報」と称する。）の取得を支援する。

　具体的には、情報表現文法特定支援処理部１４０は、ユーザ装置３を介して上記情報を受け付ける画面（以下、「特定支援情報取得画面１２００」と称する。）をユーザに提示し、特定支援情報取得画面１２００を介してユーザから上記情報を取得する。このように、特定支援情報取得画面１２００を提示してユーザに必要な情報の入力を誘導することで、例えば、ユーザが、情報表現パターンの生成について十分な知識や経験を有していない場合でも、特定支援情報を効率よく取得することができる。

　図１１は、情報表現文法特定支援処理部１４０が、ユーザに特定支援情報取得画面１２００を提示して特定支援情報を取得する際に行う処理（以下、「特定支援情報取得処理Ｓ１１００」と称する。）を説明するフローチャートである。以下、同図とともに特定支援情報取得処理Ｓ１１００について説明する。

　まず、情報表現文法特定支援処理部１４０は、非定型書類を表示した特定支援情報取得画面１２００をユーザに提示し、第１のC(情報抽出対象)の指定をユーザから受け付ける（Ｓ１１０１）。

　図１２に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。同図の例では、ユーザが日付「07/16/2007」１２１１を第１のC(情報抽出対象)として指定したため、当該領域が実線枠で強調表示されている。

　図１１に戻り、続いて、情報表現文法特定支援処理部１４０は、第１のC(情報抽出対象)の抽出に用いる根拠情報、または第２のC(情報抽出対象)の指定をユーザから受け付ける（Ｓ１１０２）。

　図１３に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。この例では、ユーザが単語「Registration」１２１２を根拠情報として指定したため、当該領域が点線枠で強調表示されている。

　図１１に戻り、続いて、情報表現文法特定支援処理部１４０は、Ｓ１１０２で第２のC(情報抽出対象)の指定をユーザから受け付けたか否かを判定する（Ｓ１１０３）。第２のC(情報抽出対象)の指定を受け付けた場合は（Ｓ１１０３：ＹＥＳ）Ｓ１１０４に進み、受け付けていない場合は（Ｓ１１０３：ＮＯ）Ｓ１１２１に進む。

　Ｓ１１０４では、情報表現文法特定支援処理部１４０は、特定支援情報取得画面１２００を介して、「ＨＴＭＬ構造」、「集合」、「構造」のうちのいずれかのサポート情報種別の選択をユーザから受け付ける。

　図１４に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。同図の例では、特定支援情報取得画面１２００の左側に「ＨＴＭＬ構造」、「集合」、「構造」のうちのいずれかの選択を受け付ける選択欄１２１３が表示されている。尚、ユーザの選択の参考にするため、例えば、各サポート情報種別について、夫々が選択された場合に生成される情報表現パターンをユーザに提示するようにしてもよい。

　その後、特定支援情報取得処理Ｓ１１００は終了し、情報表現文法特定支援処理部１４０は、受け付けたサポート情報種別を用いて情報表現テンプレート表１１３から情報表現文法を特定する。

　図１１に戻り、Ｓ１１２１では、情報表現文法特定支援処理部１４０は、特定支援情報取得画面１２００を介して、「正規表現」、「辞書マッチ」、「メタ情報」、「ＨＴＭＬ構造」のうちのいずれかのサポート情報種別の選択をユーザから受け付ける。

　図１５に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。同図の例では、特定支援情報取得画面１２００の左側に「正規表現」、「辞書マッチ」、「メタ情報」、「ＨＴＭＬ構造」のうちのいずれかの選択を受け付ける選択欄１２１４が表示されている。尚、ユーザの選択の参考にするため、例えば、各サポート情報種別について、夫々が選択された場合に生成される情報表現パターンをユーザに提示するようにしてもよい。

　図１１に戻り、続いて、情報表現文法特定支援処理部１４０は、ユーザが、図１５の特定支援情報取得画面１２００において、「正規表現」または「辞書マッチ」を選択したか否かを判定する（Ｓ１１２２）。ユーザが、「正規表現」または「辞書マッチ」を選択している場合は（Ｓ１１２２：ＹＥＳ）Ｓ１１２３に進み、選択していない場合は（Ｓ１１２２：ＮＯ）Ｓ１１２４に進む。

　Ｓ１１２３では、情報表現文法特定支援処理部１４０は、特定支援情報取得画面１２００を介して、正規表現または辞書の入力をユーザから受け付ける。

　図１６に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。同図の例では、特定支援情報取得画面１２００の左側に正規表現または辞書の入力を受け付ける入力欄１２１５が表示されている。

　その後、特定支援情報取得処理Ｓ１１００は終了し、情報表現文法特定支援処理部１４０は、受け付けた正規表現または辞書の内容を用いて情報表現テンプレート表１１３から情報表現文法を特定する。

　図１１に戻り、Ｓ１１２４では、情報表現文法特定支援処理部１４０は、ユーザが、図１５の特定支援情報取得画面１２００において、「メタ情報」を選択したか否かを判定する。ユーザが、「メタ情報」を選択している場合は（Ｓ１１２４：ＹＥＳ）Ｓ１１２５に進み、選択していない場合は（Ｓ１１２４：ＮＯ）Ｓ１１２６に進む。

　Ｓ１１２５では、情報表現文法特定支援処理部１４０は、特定支援情報取得画面１２００を介して、メタ情報の指定をユーザから受け付ける。

　図１７に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。同図の例では、特定支援情報取得画面１２００の左側にメタ情報の選択を受け付ける選択欄１２１６が表示されている。

　その後、特定支援情報取得処理Ｓ１１００は終了し、情報表現文法特定支援処理部１４０は、受け付けたメタ情報を用いて情報表現テンプレート表１１３から情報表現文法を特定する。

　図１１に戻り、Ｓ１１２６では、情報表現文法特定支援処理部１４０は、特定支援情報取得画面１２００を介して、ＨＴＭＬタグの指定をユーザから受け付ける。

　図１８に、この際にユーザに提示する特定支援情報取得画面１２００の一例を示す。同図の例では、特定支援情報取得画面１２００の左側にＨＴＭＬタグの選択を受け付ける選択欄１２１７が表示されている。

　その後、特定支援情報取得処理Ｓ１１００は終了し、情報表現文法特定支援処理部１４０は、受け付けたＨＴＭＬタグを用いて情報表現テンプレート表１１３から情報表現文法を特定する。

　以上のように、第２実施形態の文書情報管理システム１によれば、特定支援情報を効率よくユーザから取得することができ、特定支援情報を用いて情報表現文法とサポート情報種別を特定することにより適切な情報表現テンプレートを取得して効率よく情報表現パターンを生成することができる。

［第３実施形態］
　図１９に、第３実施形態の文書情報管理システム１の概略的な構成を示している。第３実施形態の文書情報管理システム１の情報表現構造解析装置１００は、第１実施形態の情報表現構造解析装置１００が備える機能に加えて、情報表現パターン検証部１５０を更に備える。

　情報表現パターン検証部１５０は、情報表現パターン生成部１３０が生成した情報表現パターンを非定型書類に適用し、その結果をユーザ装置３を介してユーザに提示する。

　当該機能を利用することで、ユーザは、情報表現パターン生成部１３０が生成した情報表現パターンによって非定型書類から　目的とする情報を正しく抽出することができるか否かを検証することができる。また、例えば、目的とする情報が複数ある場合、ユーザは、各情報を正しく抽出することができるか否かを検証することができる。尚、目的とする情報を抽出するできないことが判明した場合、ユーザは、例えば、C(情報抽出対象)や根拠情報を設定し直して情報表現パターンを生成し直す。

　図２０は、情報表現パターン検証部１５０が、情報表現パターン生成部１３０が生成した情報表現パターンによって非定型書類から抽出情報を正しく抽出することができるか否かを検証する際に行う処理（以下、「情報表現パターン検証処理Ｓ２０００」と称する。）を説明するフローチャートである。以下、同図とともに情報表現パターン検証処理Ｓ２０００について説明する。

　まず、情報表現パターン検証部１５０は、情報表現パターン生成部１３０が生成した情報表現パターンを、情報表現パターン群１１４から取得する（Ｓ２００１）。

　続いて、情報表現パターン検証部１５０は、所定の非定型書類から、C(情報抽出対象)となりうるテキストを全て抽出する（Ｓ２００２）。

　続いて、情報表現パターン検証部１５０は、Ｓ２００１で取得した情報表現パターンに、Ｓ２００２で抽出したテキストを入力し、情報表現パターンの実行結果が「TRUE」となるか否かを確認する（Ｓ２００３）。

　続いて、情報表現パターン検証部１５０は、上記非定型書類とともに、「TRUE」となったテキストを強調表示した画面（以下、「情報表現パターン検証結果表示画面２１００」と称する。）を生成し、情報表現パターン検証結果表示画面２１００をユーザ装置３を介してユーザに提示する。

　図２１に、情報表現パターン検証結果表示画面２１００を示す。同図に示すように、例示する情報表現パターン検証結果表示画面２１００には、上記非定型書類が表示され、「TRUE」となったテキスト２１１１が破線枠で強調表示されている。ユーザは、情報表現パターン検証結果表示画面２１００を参照することで、情報表現パターンが正しく機能するか否かを効率よく検証することができる。

　以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。

　また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

　また、前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

１　文書情報管理システム、２　非定型書類管理装置、２１　非定型書類管理部、２２　情報抽出部、２３　抽出情報管理部、２４　抽出情報提供部、３　ユーザ装置、３１　各種設定部、３２　抽出情報利用部、１００　情報表現構造解析装置、１１０　記憶部、１０１　抽出対象情報、１０２　根拠情報群、１１１　情報表現群、１１２　情報表現テンプレート群、１１３　情報表現テンプレート表、１１４　情報表現パターン群、１１５　各種辞書、１２０　情報表現構造解析部、１２１　テキスト情報抽出部、１２２　構造情報抽出部、１２３　情報表現文法特定部、１２４　サポート情報種別特定部、１３０　情報表現パターン生成部、１３１　情報表現テンプレート検索部、１３２　情報表現構成要素置換部、１４０　情報表現文法特定支援処理部、１５０　情報表現パターン検証部、Ｓ７００　情報表現パターン生成処理、Ｓ７０４　情報表現文法特定処理、Ｓ７０５　サポート情報種別特定処理、Ｓ１１００　特定支援情報取得処理、１２００　特定支援情報取得画面、Ｓ２０００　情報表現パターン検証処理、２１００　情報表現パターン検証結果表示画面

Claims

　情報処理装置を用いて構成され、
　非定型書類における情報の表現の態様である情報表現、
　前記情報表現から抽出しようとする情報である抽出対象、および、
　前記情報表現から前記抽出対象を抽出する際の根拠となる情報である根拠情報、
　を記憶する記憶部と、
　前記抽出対象および前記根拠情報に基づき、前記抽出対象の抽出元となる前記情報表現を記述している文法である情報表現文法を特定する情報表現文法特定部と、
　前記情報表現からの前記抽出対象の抽出に際して用いる情報であるサポート情報の、前記情報表現の構造に基づく分類であるサポート情報種別を特定するサポート情報種別特定部と、
　を備え、
　前記記憶部は、前記情報表現文法と前記サポート情報種別との組合せ毎に、前記抽出対象を抽出する機能を実現するためのプログラムコードである情報表現パターンの生成に用いるテンプレートである情報表現テンプレートを記憶し、
　前記情報表現について特定された、前記情報表現文法と前記サポート情報種別とに基づき、前記非定型書類からの前記抽出対象の抽出に用いる前記情報表現パターンの生成に用いる前記情報表現テンプレートを特定する情報表現テンプレート検索部と、
　特定した前記情報表現テンプレートに前記抽出対象および前記根拠情報を適用することにより前記情報表現パターンを生成する情報表現パターン生成部と、
　を備える、情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が単数であり、
　前記情報表現文法が、前記抽出対象が所定の情報又は情報群と同じ意味を有することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が単数であり、
　前記情報表現文法が、前記抽出対象が記述されている位置が所定の領域又は領域群内であることを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が単数であり、
　前記情報表現文法が、前記抽出対象が記述されている位置が所定の情報または情報群と所定の位置関係を有することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が単数であり、
　前記情報表現文法が、前記抽出対象が記述されている位置が所定の情報または情報群と所定の関係を有することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が複数であり、
　前記情報表現文法が、第１の前記抽出対象の位置が第２の前記抽出対象である情報または情報群と所定の位置関係にあることを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が複数であり、
　前記情報表現文法が、複数の前記抽出対象がいずれも所定の領域に属することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が複数であり、
　前記情報表現文法が、複数の前記抽出対象の夫々の位置がいずれも所定の情報または情報群と所定の位置関係を有することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が複数であり、
　前記情報表現文法が、第１の前記抽出対象が第２の前記抽出対象と所定の関係を有することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象が複数であり、
　前記情報表現文法が、第１の抽出対象および第２の抽出対象が、所定の情報または情報群と所定の関係を有することを表現する文法である、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記サポート情報種別は、正規表現、単語辞書、メタ情報、ＨＴＭＬ構造、単語の集合、および情報表現の構造のうちの少なくともいずれかである、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記抽出対象および前記根拠情報を取得するための画面を生成してユーザに提示し、前記画面を介してユーザから前記抽出対象および前記根拠情報を受け付ける情報表現文法特定支援処理部を更に備え、
　前記記憶部は、前記情報表現文法特定支援処理部が取得した前記抽出対象および前記根拠情報を記憶する、
　情報表現構造解析装置。
　請求項１に記載の情報表現構造解析装置であって、
　前記記憶部は前記非定型書類を記憶し、
　前記情報表現パターン生成部が生成した前記情報表現パターンを実行することにより前記非定型書類から前記抽出対象を取得し、前記非定型書類と抽出した前記抽出対象を示す情報とを含む画面を生成してユーザに提示する情報表現パターン検証部を更に備える、
　情報表現構造解析装置。
　情報処理装置が、
　非定型書類における情報の表現の態様である情報表現と、
　前記情報表現から抽出しようとする情報である抽出対象と、
　前記情報表現から前記抽出対象を抽出する際の根拠となる情報である根拠情報と、
　を記憶するステップ、
　前記抽出対象および前記根拠情報に基づき、前記抽出対象の抽出元となる前記情報表現を記述している文法である情報表現文法を特定するステップ、
　前記情報表現からの前記抽出対象の抽出に際して用いる情報であるサポート情報の、前記情報表現の構造に基づく分類であるサポート情報種別を特定するステップ、
　前記情報表現文法と前記サポート情報種別との組合せ毎に、前記抽出対象を抽出する機能を実現するためのプログラムコードである情報表現パターンの生成に用いるテンプレートである情報表現テンプレートを記憶するステップ、
　前記情報表現について特定された、前記情報表現文法と前記サポート情報種別とに基づき、前記非定型書類からの前記抽出対象の抽出に用いる前記情報表現パターンの生成に用いる前記情報表現テンプレートを特定するステップ、および、
　特定した前記情報表現テンプレートに前記抽出対象および前記根拠情報を適用することにより前記情報表現パターンを生成するステップ、
　を実行する、情報表現構造解析方法。
　請求項１４に記載の情報表現構造解析方法であって、
　前記情報処理装置が、
　前記抽出対象および前記根拠情報を取得するための画面を生成してユーザに提示し、前記画面を介してユーザから前記抽出対象および前記根拠情報を受け付けるステップと、
　取得した前記抽出対象および前記根拠情報を記憶するステップと、
　を更に実行する、情報表現構造解析方法。