WO2014167647A1

WO2014167647A1 - データ管理装置、データ管理方法及び非一時的な記録媒体

Info

Publication number: WO2014167647A1
Application number: PCT/JP2013/060712
Authority: WO
Inventors: 康志宮田; 児玉　昇司
Original assignee: 株式会社日立製作所
Priority date: 2013-04-09
Filing date: 2013-04-09
Publication date: 2014-10-16
Also published as: JP6042974B2; US20160041992A1; JPWO2014167647A1

Abstract

【課題】非構造データを既存の構造データと組み合わせて効率よく非構造データを管理する。【解決手段】データ管理装置は、データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第１のデータベースと、構造化されていない非構造データをファイル単位で保持する第２のデータベースとを記憶する記憶部と、前記構造データと前記非構造データとを組み合わせて、前記第２のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第２のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第２データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部とを備える。

Description

データ管理装置、データ管理方法及び非一時的な記録媒体

　本発明は、データ管理装置、データ管理方法及び非一時的な記録媒体に関し、非構造データを管理するデータ管理装置、データ管理方法及び非一時的な記録媒体に適用して好適なるものである。

　従来から、情報システムにて多種多様なデータが電子的に管理され、ユーザはデータから知見を得るために、情報システムを介してデータの収集、処理、表示などを行っている。このような電子的なデータには、構造情報を持つ構造データと、構造情報を持たない非構造データが存在する。構造データは、例えば、データが持つ様々な特徴を属性と属性値という構造情報を用いて管理されるデータである。また、非構造データは、属性と属性値のような構造を持たず、情報システム内では一般にファイルとして管理されている。

　上記したように、構造データは、構造情報によって整理されているため、情報システムは構造情報を手掛かりにデータを収集したり、処理したり、表示したりすることができる。また、データを利用するユーザも、構造データが持つ構造情報を活用して、データ間で特定属性の属性値を比較したりする。これにより、データ間の違いや同一性といった知見の獲得が容易になる。一方で、構造データは、データを表現する構造が規定されているため、その構造に合致しない情報はデータとして含まれない可能性がある。

　また、非構造データは、データを表現する構造が規定されていないため、構造データでは表現できない情報もデータとして含まれる。そのため、構造データより多くの情報や知見を得られる可能性がある。しかし、構造情報が存在しないため、構造情報を手掛かりとしたデータ収集やユーザによる知見の発見が困難となる。そこで、ユーザからの情報取得要求に応じてデータを構造化する技術が開示されている。

　例えば、特許文献１では、複数のＨＴＭＬ文書から情報抽出し、データを構造化する技術が開示されている。当該技術では、構造情報である属性情報と、その属性の属性値となる情報を含むＨＴＭＬ文書の所在と、当該ＨＴＭＬ文書からの情報抽出ルールを記憶する手段を持つ。これにより、構造情報を手掛かりとする検索クエリを受信した場合に、ＨＴＭＬ文書の所在情報から該当するＨＴＭＬを収集し、各ＨＴＭＬ文書に対して属性に対する属性値を抽出する処理を実行し、データを構造化する。以上の処理により、ＨＴＭＬ文書に含まれる構造化されていないデータを構造データとして検索することが可能となる。

　また、特許文献２では、ユーザに非構造データを提示する方法として、非構造データの集合から抽出した情報を、属性の属性値として書き込むことで非構造データを構造化した表現を提示する方法が開示されている。これにより、各種情報システムやユーザが構造情報を手掛かりに非構造データを管理することができる。

特許第３１６０２６５号公報特表２０１２－５１５４０７号公報

　ところで、複数の情報システムが存在する場合には、各情報システムが管理するデータに構造データと非構造データが混在し、データの内容も異なっている。複数の情報システムを横断した情報検索を実施する場合には、構造データと非構造データを組み合わせる必要がある。また、構造情報を手掛かりとするためには、非構造データを構造化し、構造情報が既知である構造データと組み合わせる必要がある。

　上記したように、特許文献１では、データを構造化する手段として、検索クエリを受信した時に情報抽出処理を実行している。このため、情報抽出処理を実行した時点での最新情報を取得することができるが、情報抽出処理のために構造化された検索結果を取得するまでの時間が増大する。また、情報抽出対象を、構造情報の手掛かりをタグ情報として保持するＨＴＭＬ文書としており、非構造データは対象としていない。また、特許文献２では、属性と属性値の組み合わせで情報を抽出する処理により非構造データを構造化する方式が開示されているが、検索クエリを受信した場合に情報抽出処理を実行する必要がある点は特許文献１と同様である。

　本発明は以上の点を考慮してなされたもので、非構造データを既存の構造データと組み合わせて効率よく非構造データを管理することが可能なデータ管理装置、データ管理方法及び非一時的な記録媒体を提案しようとするものである。

　かかる課題を解決するために本発明においては、データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第１のデータベースと、構造化されていない非構造データをファイル単位で保持する第２のデータベースとを記憶する記憶部と、前記構造データと前記非構造データとを組み合わせて、前記第２のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第２のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第２データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部とを備えることを特徴とする、データ管理装置が提供される。

　かかる構成によれば、前記構造データと前記非構造データとを組み合わせて、前記第２のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとし、前記仮想構造データの仮想属性の属性値を前記第２のデータベースのファイルから所定の情報抽出ルールで抽出した値とする。そして、前記非構造データを有する前記第２データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する。これにより、検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した構造データにアクセスするだけで、所望の抽出データを取得することが可能となる。

　本発明によれば、非構造データを既存の構造データと組み合わせて効率よく非構造データを管理することができる。

本発明の第１の実施形態に係るデータ管理装置の構成を示すブロック図である。同実施形態にかかる情報抽出ルールの内容を示す概念図である。同実施形態にかかる仮想構造データの内容を説明する概念図である。同実施形態にかかる関連ファイル情報の一例を示す図表である。同実施形態にかかる情報抽出ルール登録処理を示すフローチャートである。同実施形態にかかる仮想属性値初期値決定処理を示すフローチャートである。同実施形態にかかる仮想属性更新処理を示すフローチャートである。同実施形態にかかる仮想構造データ管理画面の一例を示す概念図である。本発明の第２の実施形態に係るデータ管理装置の構成を示すブロック図である。同実施形態にかかる追加ファイル検査処理を示すフローチャートである。本発明の第３の実施形態に係るデータ管理装置の構成を示すブロック図である。同実施形態にかかる情報抽出ルールを拡張する処理を示すフローチャートである。同実施形態にかかる情報抽出ルールの拡張を説明する概念図である。本発明の第４の実施形態に係るデータ管理装置の構成を示すブロック図である。同実施形態にかかる関連強さを計算する処理を示すフローチャートである。同実施形態にかかる関連ファイル情報の一例を示す図表である。本発明の第５の実施形態に係るデータ管理装置の構成を示すブロック図である。同実施形態にかかる統計情報を利用する情報抽出処理を示すフローチャートである。同実施形態にかかる統計計算ルール例を説明する概念図である。

　以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
（１－１）データ管理装置の構成
　まず、図１を参照して、データ管理装置１０１のハードウェア構成について説明する。図１に示すように、データ管理装置１０１は、メモリ１１１、ＣＰＵ１１２、通信装置１１３、記憶装置１１４、入力装置１１５及び表示装置１１６などを備える。

　ＣＰＵ１１２は、演算処理装置および制御装置として機能し、メモリ１１１に格納されている各種プログラムにしたがってデータ管理装置１０１の動作全般を制御する。メモリ１１１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などであり、ＲＯＭ２０２には、ＣＰＵ１１２が使用するプログラムや演算パラメータ等が記憶され、ＲＡＭ２０３には、ＣＰＵ１１２の実行において使用するプログラムや、その実行において適宜変化するパラメータ等が一次記憶される。これらはＣＰＵバスなどから構成されるホストバスにより相互に接続されている。

　ＣＰＵ１１２は、情報抽出ルール登録部１３１、情報抽出ルール保持部１３２、仮想属性更新部１３３、情報抽出部１３４、関連ファイル情報保持部１３５及び更新検知部１３６から構成される。ＣＰＵ１１２の各部により、後述する情報抽出ルールを登録したり、情報抽出処理を実行したり、関連ファイル情報を登録したり、登録した情報抽出ルールにしたがって仮想構造データの更新を管理したりする。各部により実行される処理については、後で詳細に説明する。

　通信装置１１３は、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置１１３は、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）対応通信装置であっても、ワイヤレスＵＳＢ対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

　記憶装置１１４は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）で構成され、ＣＰＵ１１２が実行するプログラムや各種データを格納する。また、後述する第１のデータベース１５１や第２のデータベース１５２は、記憶装置１１４に格納されていてもよいし、データ管理装置１０１とは別体の記憶装置に格納されていてもよい。

　記憶装置１１４は、データ管理装置１０１が処理を実行するための各種プログラム１２１、データ１２２、情報抽出ルール１２３、関連ファイル情報１２４を保存する。記憶装置１１４に保存される各情報については、後で詳細に説明する。

　入力装置１１５は、キーボードやマウスなどのコンピュータに指示を入力するための装置であり、プログラム起動などの指示を入力する。

　表示装置１１６は、ディスプレイなどであり、データ管理装置１０１による処理の実行状況や実行結果などを表示する。

（１－２）データ管理装置の機能
　まず、データ管理装置１０１において管理する構造データ及び非構造データについて説明する。構造データとしては、データを属性と属性値の構造を持つ例として、関係データベースを用いて説明する。関係データベースでは、データはレコードとして表現され、属性はカラム名で表現される。属性値は、レコード中の特定の属性に対応するセルに書き込まれる。非構造データとしては、文書情報、画像情報、映像情報または音声情報などを含むファイルを例として説明する。

　また、後述する第１のデータベース１５１には、構造データが格納されており、第２のデータベースにはファイル等の非構造データが格納されているものとして以下説明する。

　情報抽出ルール登録部１３１は、通信装置や入力装置を介して情報抽出ルール１２３を受信し、情報抽出ルール１２３に含まれる仮想属性名と仮想属性の追加先となるテーブル情報を仮想属性追加先から抽出し、情報抽出ルール保持部１３２に保存する。ここで、図２を参照して、情報抽出ルール１２３について説明する。

　情報抽出ルール１２３には、所定の情報を抽出するためのルールが設定されており、情報抽出ルール登録部１３１により記憶装置に保存される。図２に示すように、情報抽出ルール１２３には、仮想属性名、仮想属性追加先、抽出対象特定条件、出力先特定条件、抽出処理内容及び使用辞書などの情報が設定されている。

　仮想属性名は、構造データ内の書き込み位置を特定するための情報であり、構造データには、非構造データに含まれるファイルから情報抽出した結果が書き込まれる。仮想属性追加先は、仮想属性名を追加するデータベースとテーブルを特定するための情報である。抽出対象特定条件は、情報抽出の対象となる非構造データが含まれるデータベース情報と、抽出対象を絞り込むための条件である。出力先特定条件は、非構造データから抽出した結果を書き込む先となるテーブル内の位置を特定するための条件である。抽出処理内容は、抽出結果として出力する属性値の名前と、その属性値の抽出条件を含む。使用辞書には、情報抽出時に参照する辞書を設定するための情報である。

　図２に示す情報抽出ルール１２３では、仮想属性名は併発であり、仮想属性の追加先となる第１のデータベース１５１のテーブルは、データベースＡのテーブル１であることわかる。また、抽出対象となる第２のデータベース１５２のファイルは、データベースＢの看護記録ファイルであることがわかる。また、抽出結果を、テーブル１の患者ＩＤで特定される位置に書き込むことがわかる。

　また、抽出結果として出力する属性値の名前は病名であり、病名は、医療辞書Ａに定義された病名を抽出することを示している。発症情報とは、例えば、自然言語を解析する場合に、病気を「発症する」、「かかる」、「症状が見られる」などの発症と同一の意味を示す情報が含まれるかを判定する情報を示す。抽出処理内容の条件１にしたがって、医療辞書Ａに記述された病名を発症したという記述があれば、その病名が抽出される。

　なお、図２に示す情報抽出ルール１２３は一例であって、情報抽出した結果が複数存在すれば、複数の出力結果の一覧を仮想属性値として書き込んでも良い。また、情報抽出ルール１２３に、第２のデータベースに対する全文検索の結果数を仮想属性値に書き込むルールや、関連ファイルの所在情報を書き込むルールや、関連ファイル内の情報に対して統計処理を実施した結果を書き込むルールなどを設定してもよい。

　次に、図３を参照して、仮想構造データ１５３について説明する。情報抽出ルール登録部１３１は、情報抽出ルール１２３の仮想属性追加先に設定された情報を用いて、仮想属性の追加先となるデータベース（第１のデータベース１５１）とそのデータベースに含まれるテーブル１５１０を特定する。そして、情報抽出ルール登録部１３１は、特定したデータベースのテーブルに、仮想属性名をカラム名としてカラムを追加して、仮想構造データ１５３を生成する。なお、ここでは、実際にテーブルにカラムを追加しなくても、テーブルに含まれるレコードを一意に識別するユニークなＩＤと、仮想属性から構成されるテーブルを新規に作成して、仮想構造データ１５３を生成してもよい。このように、特定したテーブルに仮想属性が追加された後、仮想属性として設定される初期値を決める情報が抽出されて、後述する関連ファイル情報１２４が関連ファイル情報保持部１３５に登録される。

　情報抽出部１３４は、情報抽出ルール１２３に示される抽出対象特定条件を参照して、情報抽出の対象となるデータベース（第２のデータベース１５２）のファイル１５２０ａまたは１５２０ｂまたは１５２０ｃ（以降、ファイル１５２０と総称して説明する場合もある。）のいずれかのファイルを特定する。そして、出力先特定条件に設定された情報を用いてファイルを特定し、そのファイルから抽出した情報の書き込み先となる仮想属性値の位置を特定する。例えば、図２の情報抽出ルール１２３では、出力先特定条件として患者ＩＤが指定されているため、患者ごとの看護記録のファイルを特定し、そのファイルから抽出した情報を書き込む位置を、仮想構造データ１５３のテーブル１５３０内の仮想属性値のカラムから特定する。

　また、情報抽出部１３４は、特定したファイルを関連ファイルとして、仮想属性値の位置を特定するための仮想属性値特定情報と関連付けて関連ファイル情報１２４に登録する。例えば、図２の情報抽出ルール１２３では、出力先特定条件として患者ＩＤが指定されているため、患者ごとの看護記録のファイルを各患者の仮想属性値に対応づける関連ファイルとして、関連ファイル情報１２４に登録する。

　そして、情報抽出部１３４は、特定した仮想属性値ごとに、関連ファイル情報１２４で対応付けられている関連ファイルを対象に情報抽出処理を実行して、抽出結果を特定した仮想属性値として、仮想構造データ１５３に書き込む。

　また、情報抽出部１３４は、関連ファイル情報保持部１３５の関連ファイル情報１２４に登録した関連ファイルの情報と、情報抽出ルール関連付けて登録する。これにより、図４に示す関連ファイル情報１２４が関連ファイル情報保持部１３５に保持される。

　図４に示すように、関連ファイル情報１２４は、仮想属性値特定情報欄１２４０、関連ファイル欄１２４１及び情報抽出ルール欄１２４２から構成される。仮想属性値特定情報欄１２４０には、ファイルから抽出した情報を書き込む先となる仮想構造データ１５３の仮想属性値の位置を特定するための情報が格納される。関連ファイル欄１２４１には、抽出対象のファイルを識別する情報が関連ファイルとし格納される。情報抽出ルール欄１２４２には、情報抽出ルール１２３を示す情報が格納される。

　図４では、例えば、関連ファイルfile1（患者ごとの看護記録ファイル）から情報抽出ルールfile.ruleにしたがって抽出した仮想属性値を書き込む先は、仮想構造データ１４５の看護記録テーブル１５３０の患者名Ａさんの行の併発欄の列で特定される位置であることがわかる。

　このように、関連ファイル情報保持部１３５の関連ファイル情報１２４に、情報抽出の対象となる関連ファイルを示す情報と情報抽出ルールとを関連付けて設定することができる。また、関連ファイル情報１２４の情報抽出ルールにしたがって、指定された関連ファイルから仮想属性値を抽出し、仮想属性値特定情報が示す位置に仮想属性値を設定することにより、仮想構造データ１５３が生成される。

　図１に戻り、更新検知部１３６は、第２のデータベース１５２に含まれるファイルが更新された場合に、更新されたファイルが、関連ファイル情報１２４に設定されている関連ファイルと一致するかを確認する。ここで、ファイルの更新があったかは、例えば、ファイルの更新日が変更されているかにより判断する。また、ファイルの更新には、ファイルの削除も含まれる。

　そして、更新検知部１３６は、更新されたファイルと一致する関連ファイルが関連ファイル情報１２４に存在する場合に、その関連ファイルに関連付けられた情報抽出ルール１２３にしたがって、情報抽出処理を実行する。そして、仮想属性更新部１３３は、抽出した結果を、出力先特定条件と仮想属性名で特定される位置の仮想属性値として更新する。

　このように、非構造データから抽出したデータを既存の構造データと組み合わせて仮想構造データ１５３として管理して、非構造データが更新された場合には、仮想構造データ１５３も更新して最新のデータとしている。これにより、仮想構造データ１５３に対して検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した仮想構造データ１５３にアクセスするだけで、所望の抽出データを取得することが可能となる。

（１－３）データ管理装置の動作の詳細
　次に、データ管理装置１０１の動作の詳細について説明する。データ管理装置１０１は、まず、入力された情報抽出ルール１２３をもとに仮想属性名や仮想属性追加先などを登録する情報抽出ルール登録処理を実行する。そして、データ管理装置１０１は、情報抽出ルール１２３にしたがって、情報抽出対象のファイルからデータを抽出して、抽出結果を仮想属性値として仮想構造データ１５３の書き込み先のテーブル１５３０の特定された位置に書き込む仮想属性値初期値決定処理を実行する。さらに、第２のデータベース１５２に含まれるファイルが更新された場合には、更新されたファイルに対応する仮想属性を更新する仮想属性更新処理を実行する。以下、各処理を詳細に説明する。

（１－３－１）情報抽出ルール登録処理
　図５を参照して、情報抽出ルール登録処理の詳細を説明する。図５に示すように、情報抽出ルール登録部１３１は、通信装置１１３または入力装置１１５を介して情報抽出ルール１２３を受信したかを判断する（Ｓ１０１）。

　そして、ステップＳ１０１において、情報抽出ルール１２３を受信したと判定された場合には、情報抽出ルール登録部１３１は、情報抽出ルール１２３に含まれる仮想属性名と仮想属性追加先に設定されている情報を抽出し、仮想属性名と仮想属性の追加先となるテーブル情報とを関連ファイル情報保持部１３５に保存する（Ｓ１０２）。

　そして、情報抽出ルール登録部１３１は、仮想属性の追加先となるデータベースと、そのデータベースに含まれるテーブルとを特定する（Ｓ１０３）。具体的に、情報抽出ルール登録部１３１は、情報抽出ルール１２３の仮想属性追加先にデータベースＡ、テーブル１と設定されていた場合に、仮想属性の追加先となるデータベースとしてデータベースＡを特定し、さらに、データベースＡに含まれるテーブル１を特定する。

　そして、情報抽出ルール登録部１３１は、情報抽出ルール１２３の仮想属性名をカラム名としたカラムをステップＳ１０３で特定したテーブルに追加する（Ｓ１０４）。具体的に、情報抽出ルール登録部１３１は、情報抽出ルール１２３の仮想属性名に併発と設定されていた場合に、ステップＳ１０３で特定したテーブル１にカラム名を併発とするカラムを追加する。

（１－３－２）仮想属性値初期値決定処理
　次に、図６を参照して、仮想属性値初期値決定処理の詳細を説明する。図６に示すように、情報抽出部１３４は、情報抽出ルール１２３に設定されている抽出対象特定条件にしたがって、情報抽出の対象となるファイルを特定する（Ｓ２０１）。

　そして、情報抽出部１３４は、情報抽出ルール１２３の出力先特定条件の情報を用いてファイルを特定し、そのファイルから抽出した情報の書き込み先となる仮想属性値の位置を特定する（Ｓ２０２）。具体的に、情報抽出部１３４は、出力先特定条件が患者ＩＤであった場合に、患者ごとの看護記録のファイルを特定する。そして、看護記録のファイルから抽出した情報を書き込む先として、仮想構造データ１５３のテーブル１５３０の仮想属性値を書き込む位置を特定する。

　そして、情報抽出部１３４は、ステップＳ２０２で特定したファイルを関連ファイルとして、仮想属性値の位置を特定するための仮想属性値特定情報と対応付けて関連ファイル情報１２４に登録する（Ｓ２０３）。具体的に、情報抽出部１３４は、情報抽出ルール１２３に出力先特定条件として患者ＩＤが指定されているため、患者ごとの看護記録のファイルを各患者の仮想属性値に対応付ける関連ファイルとして、関連ファイル情報１２４に登録する。

　そして、情報抽出部１３４は、特定した仮想属性値ごとに、関連ファイル情報１２４で対応付けられている関連ファイルを対象に情報抽出処理を実行する（Ｓ２０４）。続いて、情報抽出部１３４は、ステップＳ２０４で実行した抽出処理の結果を仮想属性値として仮想構造データ１５３の該当テーブル１５３０の特定した書き込み位置に書き込む（Ｓ２０５）。

　以上説明した仮想属性値初期値決定処理により、関連ファイル情報保持部１３５の関連ファイル情報１２４に、情報抽出の対象となる関連ファイルを示す情報と情報抽出ルールとを関連付けて設定することができる。また、関連ファイル情報１２４の情報抽出ルールにしたがって、指定された関連ファイルから仮想属性値を抽出し、仮想属性値特定情報が示す位置に仮想属性値を設定することにより、仮想構造データ１５３が生成される。

（１－３－３）仮想属性更新処理
　次に、図７を参照して、仮想属性更新処理の詳細を説明する。図７に示すように、更新検知部１３６は、情報抽出の対象となる第２のデータベース１５２に含まれるファイルが更新されたかを判断する（Ｓ３０１）。

　ステップＳ３０１において、ファイルが更新されたと判断された場合には、更新検知部１３６は、関連ファイル情報保持部１３５に保持されている関連ファイル情報１２４を取得して、更新されたファイルと一致するファイルがあるかを確認する（Ｓ３０２）。

　そして、更新検知部１３６はステップＳ３０２の確認で、一致する関連ファイルが存在するかを判断する（Ｓ３０３）。ステップＳ３０３において、一致するファイルが存在しないと判定された場合には、更新検知部１３６は、ステップＳ３０１以降の処理を再度繰り返す。一方、ステップＳ３０３において、一致するファイルが存在すると判定された場合には、更新検知部１３６は、ステップＳ３０４の処理を実行する。

　更新検知部１３６は、一致する関連ファイルに対して、関連ファイル情報１２４に対応する情報抽出ルール１２３にしたがって、情報抽出処理を実行する（Ｓ３０４）。そして、仮想属性更新部１３３は、ステップＳ３０４で実行された情報抽出処理で抽出された結果を、出力先特定条件と仮想属性名で特定される位置の仮想属性値として更新する（Ｓ３０５）。

　上記したように、非構造データから抽出したデータを既存の構造データと組み合わせて仮想構造データ１５３として管理し、非構造データが更新された場合には、仮想構造データ１５３も更新して最新のデータとしている。これにより、仮想構造データ１５３に対して検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した仮想構造データ１５３にアクセスするだけで、所望の抽出データを取得することが可能となる。

（１－４）仮想構造データ管理画面
　次に、図８を参照して、仮想構造データ管理画面５００について説明する。仮想構造データ管理画面５００は、ユーザが仮想構造データの管理に利用する画面である。図８では、アクセスポイントとしてＩＰアドレス１９２．１６８．１．１を有し、医療情報という名前が付与された仮想構造データベースを管理する例を示す。

　図８に示すように、仮想ＤＢ名５０１には、データベース名を示す医療情報と、ＩＰアドレスを示す１９２．１６８．１．１が表示される。そして、テーブル名５０２には、仮想構造データとして管理されているテーブル名の一覧が表示される。このテーブル一覧には、ユーザが仮想構造データとして管理するとして選択した既存の構造データベースのテーブル情報が並べて表示される。

　ユーザは、仮想構造データ管理画面５００の参照ボタン５０４を押下して、ユーザが作成たした情報抽出ルール１２３を表示させて、利用する情報抽出ルール１２３を選択する。その後、ユーザは、Ｕｐｌｏａｄボタン５０５を押下して、選択した情報抽出ルール１２３をデータ管理装置１０１に送信する。

　以下では、第１のデータベース１５１のテーブル１５１０のうち、患者テーブルに対して各患者が併発した他の病名を非構造データである看護記録ファイルから抽出し、抽出した他の病名を仮想属性値として、患者テーブルの併発カラムに格納する例について説明する。サンプル５０６には、併発カラムに看護記録ファイルから抽出された仮想属性値が格納した状態が表示され、サンプル５０６の上部に看護記録ファイルから抽出したことを示す情報が表示される。

　また、サンプル５０６の併発カラムには抽出結果として、インフルエンザまたは該当なしを示すハイフンが表示される。また、ユーザによりサンプル５０６に表示された併発カラムの語句を画面上で選択されると、その語句の抽出元のファイルである関連ファイル情報を表示される。この時、ファイル名の他に、ファイル内のどの部分から語句を抽出したか表示してもよい。また、その語句を抽出するために利用した情報抽出ルールを表示してもよい。

（１－５）本実施の形態の効果
　以上のように、本実施の形態によれば、構造化された第１のデータベース１５１に含まれるデータに任意の属性を仮想属性として追加し、仮想属性の属性値を第２のデータベース１５２に対する検索クエリの結果とする情報抽出ルールを登録し、検索クエリの結果の導出に関わった第２のデータベース１５２のファイルを関連ファイルとして情報抽出ルールと関連付けて記憶する。そして、関連ファイルが更新された場合に、検索クエリを再度実行して、その実行結果を仮想属性の新たな属性値とする。

　これにより、仮想構造データ１５３に対して検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した仮想構造データ１５３にアクセスするだけで、所望の抽出データを取得することが可能となる。

（２）第２の実施の形態
　以下では、第２のデータベース１５２のファイルについて、ファイルの更新や削除に加えて、新規に作成されたファイルの追加があった場合について説明する。新規ファイルが追加された場合には、第１のデータベース１５１に含まれるテーブル１５１０の仮想属性値が変更になる場合がある。そこで、本実施の形態では、追加されたファイルがいずれの仮想属性値に影響するかを特定する。

（２－１）データ管理装置の構成
　本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態とは、図９に示すように、更新／追加検知部１３７及び追加ファイル検査部１３８を備える点で異なっている。

　更新／追加検知部１３７は、非構造データを管理する第２のデータベース１５２へのファイルの追加を検知する機能を有する。追加ファイル検査部１３８は、関連ファイル情報保持部１３５に追加されたファイルの情報を追加する処理と、追加されたファイルから情報抽出した結果を、構造データの該当する仮想属性値に書き込む機能を有する。

（２－２）データ管理装置の動作の詳細
　図１０に示すように、まず、追加ファイル検査部１３８は、追加検知部１３７から第２のデータベース１５２に追加されたファイルの所在情報を受け取る（Ｓ４０１）。そして、追加ファイル検査部１３８は、情報抽出ルール保持部１３２から情報抽出ルール１２３を取得する（Ｓ４０２）。

　そして、追加ファイル検査部１３８は、情報抽出ルール１２３から情報抽出対象となるファイルを特定するための抽出対象特定条件を取得する（Ｓ４０３）。ステップＳ４０３において、例えば、図２に示す情報抽出ルール１２３を利用する場合、抽出対象特定条件として、データベースＢ、看護記録を抽出する。

　そして、追加ファイル検査部１３８は、追加ファイルが抽出対象特定条件に合致するか検査する（Ｓ４０４）。本実施の形態では、追加ファイルがデータベースＢに追加されたデータであるか、看護記録に属するファイルであるかを検査する。

　追加ファイル検査部１３８は、ステップＳ４０４の検査の結果、抽出対象特定条件に合致するファイルであるかを判定する（Ｓ４０５）。ステップＳ４０５において、合致しないファイルであると判定された場合には、追加ファイル検査部１３８は、処理を終了する。一方、ステップＳ４０５において、合致するファイルであると判定された場合には、追加ファイル検査部１３８は、ステップＳ４０６の処理を実行する。

　そして、ステップＳ４０６において、追加ファイル検査部１３８は、取得した情報抽出ルール１２３の出力先特定条件を用いて、追加ファイルより抽出した情報を書き込む先となる仮想属性値の位置を特定する。続いて、追加ファイル検査部１３８は、特定した仮想属性値位置に対して、追加ファイルを関連ファイルとして対応付ける（Ｓ４０７）。

　そして、情報抽出部１３４は、特定した仮想属性値ごとに、関連ファイル情報１２４で対応付けられている関連ファイルを対象に情報抽出処理を実行する（Ｓ４０８）。続いて、情報抽出部１３４は、ステップＳ２０４で実行した抽出処理の結果を仮想属性値として仮想構造データ１５３の該当テーブル１５３０の特定した書き込み位置に書き込む（Ｓ４０９）。

　上記したように、抽出対象のファイルが仮想属性値特定情報とともに関連ファイル情報１２４に関連ファイルとして追加された後は、更新／追加検知部１３７により、追加されたファイルの更新を検知することができる。そして、関連ファイルに対応する情報抽出ルール１２３にしたがって情報抽出した結果に変更があれば、仮想構造データ１５３のテーブル１５３０の仮想属性値を更新する処理を繰り返す。

　なお、上記ステップＳ４０５において、追加ファイルが抽出対象特定条件に合致しないと判定された場合でも、その後の更新で抽出対象特定条件に合致する可能性もある。その場合には、追加されたファイルを未関連ファイルとして記憶し、未関連ファイルに更新があった場合に図１０に示す処理を再度実行してもよい。

　また、追加ファイルに対応する複数の情報抽出ルールが存在した場合には、複数の抽出対象特定条件が存在し、それらを全て追加されたファイルに対して検査することとなる。この検査処理を短縮するため、複数の抽出対象特定条件から共通項を抜き出し、共通項で検査することで同じ条件を検査しないようにしてもよい。

（２－３）本実施の形態の効果
　以上のように、本実施の形態によれば、非構造データに新規ファイルが追加された場合においても、ユーザは、その新規ファイルから抽出できる最新の情報を反映した構造データに対して検索することができる。また、第１の実施の形態と同様に、ユーザが構造データに対する検索を実行するたびに非構造データに対する情報抽出処理の実行は不要なため、検索結果を得るまでの時間を短縮することができる。

（３）第３の実施の形態
　以下では、第１の実施の形態と同様に、非構造データに対して検索クエリを実行し、その結果得られたファイルから情報抽出処理を実行し、その抽出結果を情報抽出ルールにより特定できる構造データに含まれるデータの１つの特徴を示す仮想属性値に書き込む。構造データに大量のデータが含まれる場合には、情報抽出結果を書き込む仮想属性値の位置を一意に特定することが困難となる場合がある。

　そこで、本実施の形態では、構造データに含まれるデータのうち、仮想属性以外の属性の属性値を利用することで、情報抽出結果を書き込む仮想属性値の位置を特定する仮想構造データ管理装置の例を説明する。

（３－１）データ管理装置の構成
　本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態とは、図１１に示すように、情報抽出ルール拡張部１３９及び構造データ取得部１４０を備える点で異なっている。

　構造データ取得部１４０は、受信した情報抽出ルール１２３に関連する構造データを取得する機能を有する。情報抽出ルール拡張部１３９は、構造データ取得部１４０により取得された構造データを用いて情報抽出ルール１２３を拡張する機能を有する。

（３－２）データ管理装置の動作の詳細
　図１２を参照して、情報抽出ルール１２３が与えられた場合に、情報抽出ルールを拡張する処理について説明する。

　図１２に示すように、情報抽出ルール登録部１３１は、通信装置１１３や入力装置１１５を介して情報抽出ルール１２３を受信したかを判定する（Ｓ５０１）。

　そして、ステップＳ５０１において、情報抽出ルール１２３を受信したと判定された場合には、情報抽出ルール登録部１３１は、情報抽出ルール１２３に含まれる仮想属性名と仮想属性追加先に設定されている情報を抽出し、仮想属性名と仮想属性の追加先となるテーブル情報とを情報抽出ルール保持部１３２に保存する（Ｓ５０２）。ステップＳ５０２において、例えば、図３に示す第１のデータベース１５１０に含まれる患者情報のテーブル１５１０を抽出したとする。

　そして、構造データ取得部１４０は、ステップＳ５０２で取得したテーブル１５１０の各行を識別する属性の属性値を取得する（Ｓ５０３）。ステップＳ５０３において、テーブル１５１０の各行を識別する値は、テーブル１５１０に含まれる各行間で異なる属性値であり、各行を一意に識別することができる値である。例えば、患者名がすべて異なる場合には患者名のみでもよいし、患者名と入院日を組み合わせて各行が一意に識別される場合には、患者名と入院日の組み合わせでもよい。また、テーブル１５１０の各行を識別するように設定されている患者ＩＤでもよい。

　次に、情報抽出ルール拡張部１３９は、ステップＳ５０３で取得した各行を識別する識別用の属性値を情報抽出ルール１２３の出力先特定条件に追加する（Ｓ５０４）。図１３に示すように、情報抽出ルール拡張部１３９は、情報抽出ルール１２３の出力先特定条件に、テーブル１５１０の各行を識別する患者名と入院日を追加する。

　また、上記した仮想属性値初期値決定処理において実施される特定の仮想属性値の位置を示す仮想属性値特定情報に関連ファイルを関連付ける処理では、まず、拡張した出力先特定条件により、関連ファイルを特定する。そして、出力先特定条件を拡張するために利用した属性値が含まれるレコードの仮想属性値の位置を特定する情報と関連ファイルを関連付ける。

　例えば、図１３において、仮想属性追加先がデータベースＡのテーブル１である場合に、患者名であるＡさん、Ｂさん、Ｃさんが出力先特定条件を拡張するための属性値となる。仮想属性名が「併発」の場合、その仮想属性値と関連するファイルはデータベースＢに存在し、Ａさんに関する記述が存在する関連ファイルは、患者名がＡさんのレコードの仮想属性の位置を特定する情報と関連付けられる。

　このようにして拡張した出力先特定条件は、図８のユーザに提示する仮想構造データ管理画面５００では、関連ファイルに関する拡張ルールとして表示される。図８の例では、例えば、拡張ルールとして、患者名＆入院日＠患者テーブル、と表示してもよい。これは、仮想構造データとして管理する患者テーブルの患者名と入院日の両方が情報として含まれるファイルを関連ファイルとすることを意味している。

　このように関連ファイルに関するルールを拡張しない場合は、非構造データへの検索は、看護記録かつ病名が含まれるものであった。しかし本実施の形態の拡張されたルールを用いることにより、非構造データを検索する際に、看護記録かつ病名が含まれるもの、かつ患者名がＣさん、かつ入院日が１２月１日、というように抽出対象となるファイルをさらに絞り込むことができる。

　（３－３）本実施の形態の効果
　以上のように、本実施の形態によれば、構造データに含まれるデータが持つ仮想属性以外の属性の属性値を用いて、非構造データから抽出された情報抽出結果を書き込む仮想属性値の位置を特定できる。これにより、構造データに大量のデータが含まれていても情報抽出結果の書き込み先を特定するルールの記述を簡易化できる。

（４）第４の実施の形態
　第１の実施の形態では、構造データの仮想属性に対し、その仮想属性値の決定に関わる非構造データに含まれるファイルを関連ファイルとして関連ファイル情報１２４に記憶している。そして、その関連ファイルから情報を抽出し、その情報抽出結果を仮想属性値として書き込む。ユーザが情報抽出元の情報の詳細を知りたい場合には、関連ファイル自体を取得し、その中身を参照することができる。この時、関連ファイルが多数ある場合は、ユーザが全ての中身を見ることは困難になる。

　そこで、本実施の形態では、構造データに含まれるデータが仮想属性以外に持つ属性の属性値を利用し、複数の関連ファイルに対して、データとの結び付きの強さを管理する。これにより、ユーザは、関連ファイルが多数ある場合に、抽出されたデータとの結び付きの強いファイルを参照することができる。

（４－１）データ管理装置の構成
　本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態とは、図１４に示すように、構造データ取得部１４０及び関連強さ計算部１４１を備える点で異なっている。

　構造データ取得部１４０は、受信した情報抽出ルール１２３に関連する構造データを取得する機能を有する。関連強さ計算部１４１は、構造データ取得部１４０により取得された構造データを用いて関連ファイルと仮想属性値との関連強さを計算する機能を有する。

（４－２）データ処理装置の動作の詳細
　図１５を参照して、関連ファイルを特定すると同時に、関連ファイルと仮想属性値との関連強さを計算する処理について説明する。

　図１５に示すように、まず、情報抽出ルール登録部１３１は、情報抽出ルール１２３に記述された抽出対象特定条件と、出力先特定条件を用いて仮想属性値に対して関連ファイルを関連付ける（Ｓ６０１）。

　続いて、構造データ取得部１４０は、ステップＳ６０１において関連ファイルが関連付けられたレコードの仮想属性値以外の属性値を取得する（Ｓ６０２）。

　そして、関連強さ計算部１４１は、ステップＳ６０２で取得した属性値と関連ファイルとの関連強さを計算する（Ｓ６０３）。関連強さは、ステップＳ６０２で取得した属性値が関連ファイル中に出現する回数をカウントしてもよい、属性値が文字列であれば、その同義語、類義語が出現する回数をカウントしてもよい。また、属性値ごとに各レコード間での重複有無により重み付けをして、出現回数に重み付け係数を乗じた値を計算してもよい。また、ステップＳ６０３で取得した属性値が複数存在する場合には、複数の属性値の関連ファイル内での出現位置の近さなど、関連ファイル内の構成情報を用いてもよい。

　そして、関連強さ計算部１４１は、これらの方法で計算した関連強さを、関連ファイルごとに関連ファイル情報１２４に格納する（Ｓ６０４）。具体的に、関連強さ計算部１４１は、図１６に示す関連ファイル情報１２４の関連強さ（スコア）欄１２４３に計算した関連強さ（スコア）を関連ファイルごとに格納する。

　ステップＳ６０３及びＳ６０４で設定した関連強さ（スコア）は、ユーザのファイル要求に応じて利用される。例えば、ユーザが「Ａさん、併発」の仮想属性値の詳細を調査するために抽出元となった関連ファイルを参照する場合、関連強さ（スコア）の大きい順にｆｉｌｅ１２．ｄｏｃ、ｆｉｌｅ１１．ｄｏｃ、ｆｉｌｅ１．ｄｏｃと提示することができる。

（４－３）本実施の形態の効果
　以上のように、本実施の形態によれば、関連ファイルが複数ある場合に、関連元となる構造データに含まれるデータとの結び付きの強さ順に、関連ファイルを並び替えてユーザに提示することができる。これにより、ユーザが関連ファイルを参照する場合には、その結び付き強さをヒントにして、複数の関連ファイルから優先的に参照する関連ファイルを特定することができる。

（５）第５の実施の形態
　第１の実施の形態では、ファイルに含まれるオブジェクトを抽出し、その抽出結果を構造データに含まれるデータの仮想属性値として登録している。抽出対象となるファイルが文書の場合には、その文書に含まれる単語やその単語の類義語や同義語などの関連する単語を抽出することできる。また、抽出対象となるファイルが動画の場合には、その動画の画像と名前を抽出できる。また、抽出対象となるファイルには、ファイル中に明示的に表現されるオブジェクトだけでなく、そのファイルのカテゴリやクラス、今後出現する情報の予測、肯定的情報か否定的情報かの別、などファイル内の情報を分析して得られる様々な情報が含まれている。そこで、本実施の形態ででは、このような情報を抽出するために、ファイル内に含まれる情報の統計を取得し、その結果に対して判定を加える分析処理またはデータマイニングを実施する。

（５－１）データ管理装置の構成
　本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置１０１は、第１の実施の形態とは、図１７に示すように、統計計算部１４２を備える点で異なっている。

　統計計算部１４２は、関連ファイルに付随する情報に対して定められた統計計算を実施する機能を有する。データの仮想属性値と関連付けられた関連ファイルから情報抽出する場合に、統計計算部１４２は、１つまたは複数の関連ファイル内の情報に対して統計情報を取得し、その結果に対して判定を加える分析処理またはデータマイニングする。そして、統計計算部１４２により分析処理またはデータマイニングされた結果を仮想属性値として構造データに書き込むことにより、関連ファイル内に明示的に表現されないオブジェクトの情報も構造化することが可能となる。

（５－２）データ管理装置の動作の詳細
　図１８を参照して、非構造データからの情報抽出時に関連ファイルに対する統計情報を利用する情報抽出処理について説明する。

　統計計算部１４２は、情報抽出ルール１２３が登録されたか、非構造データのファイルが更新または追加された後、非構造データからの情報抽出先となる仮想属性値が特定された契機で以下の処理を開始する。

　図１８に示すように、まず、統計計算部１４２は、特定された仮想属性値と関連するファイルを関連ファイル情報保持部１３５から取得する（Ｓ７０１）。

　そして、統計計算部１４２は、１つ以上の関連ファイルに対して、所定の統計計算ルールに従った統計計算を実施する（Ｓ７０２）。ステップＳ７０２において利用する統計計算ルールは、例えば、図１９に示す統計計算ルールを例示できる。

　図１９で示す統計計算ルールの一つ、ルール１は、辞書に出現する単語と一致する単語の数を計算するルールである。また、統計計算ルールの一つ、ルール２は、「できる」「回復」「良くなる」など肯定的な意味を示す言葉と「できない」「悪化」「悪くなる」などの否定的な意味を示す言葉の出現頻度を集計するルールである。また、統計計算ルールの一つ、ルール３は、治療行為に関する単語、リハビリに関する単語、食事に関する単語、といった特定のカテゴリやクラスに属する単語数の集計するルールである。

　上記した統計計算ルールにしたがって集計結果を実施した後、統計計算部１４２は、その集計結果を情報抽出部１３４に通知する（Ｓ７０３）。

　情報抽出部１３４は、ステップＳ７０３で通知された統計計算の結果に対して情報抽出ルールを適用し、その結果を情報抽出結果とし、特定した仮想属性値として書き込む（Ｓ７０４）。ステップＳ７０４で適用する情報抽出ルールとして、例えば、一つは、最も出現頻度が高い病名の単語を登録するルールである。一つは、肯定的情報と否定的情報の数を比べて、肯定的情報が多ければ、肯定的とするルールである。一つは、特定のカテゴリの単語数が多ければ、そのカテゴリ名を書き込むルールである。一つは、出現した複数のカテゴリ名から導き出される単語を登録するルールである。

　上記では、非構造データに含まれるファイル内の情報について、統計計算を実施する例を述べたが、ファイルに付随するメタデータを用いて統計計算を実施しても良い。例えば、ファイルの作成者情報、更新者情報、ファイルに含まれる人物といった人物情報などを利用してもよい。例えば、ファイル作成者情報を用いて、特定の作成者が作成または更新したファイルのみを統計計算の対象としてもよい。これにより、信頼できる人物が作成または更新したファイルのみを用いて統計計算し、情報の確度を上げることができる。

　また、人物情報以外に付随するメタデータを用いてもよい。例えば、ファイルの作成時刻や更新時刻、ファイルに含まれる時間情報などを利用してもよい。例えば、時刻情報を用いて、統計計算対象となる関連ファイルを絞り込むことで、新しい情報のみを使うことができる。また、ファイルに付随する時刻情報と、そのファイル内の数値情報から数値変化の傾向を抽出し、将来の数値を予測値として抽出しても良い。

　以上のような人物情報、時間情報の他に、位置情報、言語情報、色情報、権利情報、アクセス権情報またはバージョン情報など様々なメタデータを利用してもよい。

（５－３）本実施の形態の効果
　以上のように、本実施の形態によれば、非構造データ内のファイルに明示的に表現されないオブジェクトの情報を構造化し、当該オブジェクトの情報を構造データに含まれるデータの仮想属性値として管理することができる。

（６）他の実施の形態
　上記実施形態では、情報抽出の対象となるデータを非構造データとしているが、情報抽出の対象となるデータを、構造データを含む任意のデータとしてもよい。その場合には、対象となる任意のデータ群を適当な部分データに分割する。そして、分割した部分データを上記した関連ファイルと同様に扱い、部分データの更新を検知する。部分データに更新があった場合には、部分データに対して情報抽出ルールを適用して得られる結果を仮想構造データの仮想属性値として更新する。

　本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

　１０１　　データ管理装置
　１１１　　メモリ
　１１２　　ＣＰＵ
　１１３　　通信装置
　１１４　　記憶装置
　１１５　　入力装置
　１１６　　表示装置
　１３１　　情報抽出ルール登録部
　１３２　　情報抽出ルール保持部
　１３３　　仮想属性更新部
　１３４　　情報抽出部
　１３５　　関連ファイル情報保持部
　１３６　　更新検知部

Claims

　データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第１のデータベースと、構造化されていない非構造データをファイル単位で保持する第２のデータベースとを記憶する記憶部と、
　前記構造データと前記非構造データとを組み合わせて、前記第２のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第２のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第２データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部と
　を備えることを特徴とする、データ管理装置。
　前記制御部は、
　前記第１のデータベースに含まれるデータに前記仮想属性の属性値を追加して仮想構造データを生成し、前記仮想属性の属性値を前記第２のデータベースに対する検索クエリの結果とする情報抽出ルールを登録し、前記検索クエリの結果の導出に関わった前記第２のデータベースのファイルを関連ファイルとして前記情報抽出ルールと関連付けて記憶し、
　前記関連ファイルが更新された場合に、前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする
　ことを特徴とする、データ管理装置。
　前記制御部は、
　前記第２のデータベースに新規にファイルが追加された場合に、前記情報抽出ルールに示される検索クエリの条件に前記追加されたファイルが合致するかを確認し、合致する場合に前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする
　ことを特徴とする、請求項１に記載のデータ管理装置。
　前記制御部は、
　前記仮想属性の属性値を検索する検索クエリを第１のクエリとし、
　前記仮想属性の他にデータが有する属性の属性値を前記仮想属性の属性値を検索する条件として前記第１のクエリに加えて第２の検索クエリとし、
　前記第２の検索クエリの結果を前記仮想属性の属性値とする情報抽出ルールを登録する
　ことを特徴とする、請求項１に記載のデータ管理装置。
　前記制御部は、
　前記データの仮想属性以外の属性に対する属性値が含まれる数を計測し、
　前記計測した数に応じたデータと前記関連ファイルの結び付きの強さを、前記関連ファイルに関連付けて記憶する
　ことを特徴とする、請求項２に記載のデータ管理装置。
　前記制御部は、
　前記第２のデータベースに対する検索結果に対して、検索結果のファイル中に出現する特定のオブジェクト数を計測して統計情報を計算し、
　前記計測したオブジェクト数に応じた特定の値を導出するためのマッピング情報を管理し、
　前記導出した値を前記仮想属性の属性値とする
　ことを特徴とする、請求項１に記載のデータ管理装置。
　前記制御部は、
　前記関連ファイルの作成者情報、更新者情報、ファイルに含まれる人物情報といった関連ファイルに関連付けられる人物情報を取得し、
　前記関連ファイルにて取得した人物情報と前記関連ファイルから抽出したオブジェクトの統計情報を組み合わせ、人物とオブジェクト統計情報の組み合わせ情報を前記仮想属性の属性値情報とする
　ことを特徴とする、請求項６に記載のデータ管理装置。
　前記制御部は、
　前記関連ファイルの作成日時、更新日時、第２のデータベースへの登録日時、ファイルに含まれる時刻情報といった時間情報を取得し、
　前記取得した時刻情報順に前記関連ファイルを並び替え、前記関連ファイルに含まれる特定のオブジェクト数を計測し、前記関連ファイル間で前記計測したオブジェクト数を比較して時間ごとのオブジェクト出現数の変遷を抽出し、その結果を前記仮想属性の傾向情報とする
　ことを特徴とする、請求項６に記載のデータ管理装置。
　前記制御部は、
　データをファイル単位で保持する前記第２のデータベースの他に、データをある特定の区分で分割して保持する任意のデータベースを組み合わせて管理し、
　前記任意のデータベースに対する検索クエリの結果とする抽出ルールを登録し、
　前記検索クエリの結果の導出に関わった前記任意のデータベースの特定の区分を前記関連ファイルと同様の関連区分として記憶し、
　前記関連区分が更新された場合に、前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とすることを特徴とする
　請求項１～８のいずれかに記載のデータ管理装置。
　データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第１のデータベースと、構造化されていない非構造データをファイル単位で保持する第２のデータベースとを記憶する記憶部と、前記構造データと前記非構造データとを組み合わせて前記第２のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理する制御部と、を備えるデータ管理装置におけるデータ管理方法であって、
　前記制御部が、前記仮想構造データの仮想属性の属性値を前記第２のデータベースのファイルから所定の情報抽出ルールで抽出した値とする第１のステップと、
　前記制御部が、前記非構造データを有する前記第２データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する第２のステップと、
　を含むことを特徴とする、データ管理方法。
　前記制御部が、前記第１のデータベースに含まれるデータに前記仮想属性を追加して仮想構造データを生成する第３のステップと、
　前記制御部が、前記仮想属性の属性値を前記第２のデータベースに対する検索クエリの結果とする情報抽出ルールを登録する第４のステップと、
　前記検索クエリの結果の導出に関わった前記第２のデータベースのファイルを関連ファイルとして前記情報抽出ルールと関連付けて記憶する第５のステップと、
　前記関連ファイルが更新された場合に、前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする第６のステップと
　を含むことを特徴とする、データ管理方法。
　前記制御部が、前記第６のステップにおいて、前記第２のデータベースに新規にファイルが追加された場合に、前記情報抽出ルールに示される検索クエリの条件に前記追加されたファイルが合致するかを確認し、合致する場合に前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする第７のステップを含む
　ことを特徴とする、請求項９に記載のデータ管理方法。
　前記制御部が、前記第４のステップにおいて、前記仮想属性の属性値を検索する検索クエリを第１のクエリとし、前記仮想属性の他にデータが有する属性の属性値を前記仮想属性の属性値を検索する条件として前記第１のクエリに加えて第２の検索クエリとし、前記第２の検索クエリの結果を前記仮想属性の属性値とする情報抽出ルールを登録する第８のステップを含む
　ことを特徴とする、請求項９に記載のデータ管理方法。
　前記制御部が、前記第５のステップにおいて、前記データの仮想属性以外の属性に対する属性値が含まれる数を計測し、前記計測した数に応じたデータと前記関連ファイルの結び付きの強さを、前記関連ファイルに関連付けて記憶する第９のステップを含む
　ことを特徴とする、請求項９に記載のデータ管理方法。
　コンピュータを、
　データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第１のデータベースと、構造化されていない非構造データをファイル単位で保持する第２のデータベースとを記憶する記憶部と、
　前記構造データと前記非構造データとを組み合わせて前記第２のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第２のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第２データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部と、
　を備えるデータ管理装置として機能させるためのプログラムを記録する非一時的な記録媒体。