WO2021124469A1

WO2021124469A1 - データ意味推定システム及びデータ意味推定方法

Info

Publication number: WO2021124469A1
Application number: PCT/JP2019/049534
Authority: WO
Inventors: 達也野郷; 光山　訓; 涼介安藤
Original assignee: 株式会社日立製作所
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-06-24

Abstract

データの内容上の意味を推定することが可能にすること。　グループ化処理部２１１は、複数のテーブル２２３間の関係を解析して、複数のテーブル２２３をグループに分ける。推定処理部（ＩＤ意味推定処理部２１２及びテーブル意味推定処理部２１３）は、グループごとに、そのグループに所属するテーブル２２３に関するテーブル情報と、テーブル情報と意味推定候補との対応関係を示す辞書（ＩＤ意味推定辞書２２７、カラム辞書２２８及びテーブル意味推定辞書２２９）とを用いて、そのグループに所属するテーブル２２３の意味を推定する。

Description

データ意味推定システム及びデータ意味推定方法

　本開示は、データ意味推定システム及びデータ意味推定方法に関する。

　データ分析の分野では、データの構造に関する構造情報を解析することで、種々の分析が行われている。データの構造としては、例えば、データに関する統計情報、及びデータ間の関係（例えば、データ間の主キーと外部キーとの関係）などが挙げられる。

　特許文献１には、複数のデータベースが有する複数のテーブルを、それらのテーブルの構造情報に基づいてグループ分けする方法が開示されている。この方法では、各テーブルにおけるカラムの位置及びカラムの出現頻度に基づいて、複数のテーブルをグループ分けしている。

特開２０１０－０３９５９３号公報

　データ分析を適切に行うためには、データの構造だけでなく、データの内容上の意味を把握することが有益であると考えられる。例えば、複数のデータをグループ分けする際には、同じ意味を有するデータを同一のグループに分類することが有益であると考えられる。

　しかしながら、特許文献１には、データの構造については考慮しているが、データの内容上の意味については何ら記載がない。

　本開示の目的は、データの内容上の意味を推定することが可能なデータ意味推定システム及びデータ意味推定方法を提供することにある。

　本開示の一態様に従うデータ意味推定システムは、複数のテーブルのそれぞれの内容上の意味を推定するデータ意味推定システムであって、前記複数のテーブル間の関係を解析して、前記複数のテーブルをグループに分けるグループ化処理部と、前記グループごとに、当該グループに所属するテーブルに関するテーブル情報と、前記テーブル情報と前記内容上の意味との対応関係を示す辞書とを用いて、当該グループに所属するテーブルの意味を推定する推定処理部と、を有する。

　本発明によれば、データの内容上の意味を推定することが可能になる。

本開示の一実施形態に係るデータ意味推定システムの一例を示すシステム構成図である。本開示の一実施形態に係るデータ意味推定サーバの機能構成例を示すブロック図である。本開示の一実施形態に係るデータ一覧情報の一例を示す図である。本開示の一実施形態に係るテンプレート情報の一例を示す図である。本開示の一実施形態に係るテーブルの一例を示す図である。本開示の一実施形態に係るデータ意味推定システムの動作を説明するためのシーケンス図である。本開示の一実施形態に係るテーブルのグループ化処理の一例を説明するためのフローチャートである。本開示の一実施形態に係るテーブル間関連分析処理の一例を示す図である。本開示の一実施形態に係るテーブル間関連分析処理の処理結果の一例を示す図である。本開示の一実施形態に係るテーブルのグループ化処理のステップS２の一例を示す図である。本開示の一実施形態に係るテーブルのグループ化処理のステップS３及びステップS４の一例を示す図である。本開示の一実施形態に係るグループ情報の一例を示す図である。本開示の一実施形態に係るＩＤ意味推定処理の一例を説明するためのフローチャートである。本開示の一実施形態に係るＩＤ意味推定辞書の一例を示す図である。本開示の一実施形態に係るカラム辞書の一例を示す図である。本開示の一実施形態に係るテーブルのＩＤ意味推定処理のステップS８の一例を示す図である。本開示の一実施形態に係るテーブルのＩＤ意味推定処理のステップS９及びステップS１０の一例を示す図である。本開示の一実施形態に係るテーブルのＩＤ意味推定処理のステップS１１の一例を示す図である。本開示の一実施形態に係るテーブルのＩＤ意味推定処理のステップS１４の一例を示す図である。本開示の一実施形態に係るテーブルのＩＤ意味推定処理のＩＤ意味推定辞書とカラム辞書のマッチング順序パターンの一例を示す図である。本開示の一実施形態に係るテーブル意味推定処理の一例を説明するためのフローチャートである。本開示の一実施形態に係るテーブル意味推定辞書記憶部の一例を示す図である。本開示の一実施形態に係るテーブル意味推定処理のステップS２１の一例を示す図である。本開示の一実施形態に係るテーブル意味推定処理のステップS２２及びステップS２３の一例を示す図である。本開示の一実施形態に係るテーブル意味推定処理のステップS２４一例を示す図である。本開示の一実施形態に係るデータのアップロード画面の一例を示す図である。本開示の一実施形態に係るＩＤ意味推定結果を含む中間結果表示画面の一例を示す図である。本開示の一実施形態に係るテーブル意味推定結果を含む結果表示画面の一例を示す図である。

　以下、本開示の実施形態について図面を参照して説明する。

　図１は、本開示の一実施形態に係るデータ意味推定システムの一例を示すシステム構成図である。図１に示すデータ意味推定システム１は、製造業務において製品及び製造工程の少なくとも一方を管理するために使用されるデータの内容上の意味を推定するシステムであり、より具体的には、データの業務内容上の意味をいわゆる４Ｍと呼ばれる「人(Man)」、「機械(Machine)」、「材料(Material)」及び「方法(Method)」のいずれかに推定するシステムである。製造業務等においては、データ等を４Ｍのいずれかに分類及び管理することで、業務の効率化を図ることが可能である。

　図１のデータ意味推定システム１は、データ操作用ＰＣ（Personal　Computer）１００と、データ意味推定サーバ２００と、データソース３００とを含む。データソース３００は、図では、２つ示しているが、１つでもよいし、３つ以上あってもよい。

　データ操作用ＰＣ１００及びデータ意味推定サーバ２００は、ネットワーク４００を介して相互に接続可能であり、データ意味推定サーバ２００及び複数のデータソース３００は、ネットワーク５００を介して相互に接続可能である。

　データ操作用ＰＣ１００は、データ意味推定システム１を利用するユーザにて操作される端末装置である。データ操作用ＰＣ１００は、例えば、ユーザからの操作に応じて、データソース３００からデータ意味推定サーバ２００へのデータのアップロードの依頼、後述する意味推定結果の表示、及び意味推定結果の修正の依頼などを行う。

　データ意味推定サーバ２００は、データ操作用ＰＣ１００からの依頼に従って、データソース３００からデータを取得し、そのデータに対する処理（具体的には、後述するグループ化処理、ＩＤ意味推定処理及びテーブル意味推定処理）を実行する。

　データソース３００は、データ意味推定サーバ２００で処理するデータを格納する格納装置である。データソース３００は、データ意味推定サーバ２００からの依頼に従って、格納しているデータをデータ意味推定サーバ２００に送信する。

　図２は、データ意味推定サーバ２００の機能的な構成例を示すブロック図である。データ意味推定サーバ２００は、演算部２１０と、記憶部２２０とを含む。

　演算部２１０は、グループ化処理部２１１と、ＩＤ意味推定処理部２１２と、テーブル意味推定処理部２１３とを含む。

　記憶部２２０は、データ一覧情報２２１と、テンプレート情報２２２と、テーブル２２３と、テーブル間関連分析結果２２４と、グループ情報２２５とを記憶する。テーブル２２３は、複数ある。また、記憶部２２０は、複数の論理記憶領域２２６を有する。各論理記憶領域２２６には、ＩＤ意味推定辞書２２７と、カラム辞書２２８と、テーブル意味推定辞書２２９とが記憶されている。なお、論理記憶領域２２６は、後述するテンプレート情報２２２の中のテンプレートＩＤ（TEMPLATE_ID）ごとに設けられる。図２では、テンプレートＩＤはＮ個ある。

　グループ化処理部２１１は、複数のテーブル２２３間の関係を解析して、複数のテーブル２２３を１つ又は複数のグループに分けるグループ化処理を行う処理部である。グループ化処理部２１１のより詳細な説明は、図１０及び図１１を用いて後述する。

　ＩＤ意味推定処理部２１２及びテーブル意味推定処理部２１３は、グループ化処理部２１１にて分けられたグループごとに、そのグループに所属するテーブル２２３に関するテーブル情報と所定の辞書とを用いて、グループに所属するテーブルの内容上の意味を推定する推定処理部を構成する。以下、内容上の意味を単に意味と表現することもある。また、辞書は、テーブル情報とテーブルの意味の候補である意味推定候補との対応関係を示す情報であり、ＩＤ意味推定辞書２２７、カラム辞書２２８及びテーブル意味推定辞書２２９を含む。

　ＩＤ意味推定処理部２１２は、テーブル２２３に格納されたフィールド値のうち、テーブル２２３の各レコードを一意に識別できるフィールド値であるレコードＩＤの意味を推定するＩＤ意味推定処理を行う処理部である。具体的には、ＩＤ意味推定処理部２１２は、テーブル情報として、テーブル２２３に格納されたレコードＩＤに関するＩＤ情報とテーブル２２３のカラムに関するカラム情報とを取得し、そのＩＤ情報及びカラム情報と、ＩＤ意味推定辞書２２７及びカラム辞書２２８とを用いて、レコードＩＤの意味を推定する。ＩＤ意味推定処理部２１２のより詳細な説明は、図１６、図１７、図１８及び図１９を用いて後述する。

　テーブル意味推定処理部２１３は、グループ化処理部２１１の処理結果とＩＤ意味推定処理部２１２の処理結果とに基づいて、テーブル２２３の意味を推定するテーブル意味推定処理を行う処理部である。具体的には、テーブル意味推定処理部２１３は、ＩＤ意味推定処理部２１２の処理結果であるレコードＩＤの意味を、そのレコードＩＤを格納するテーブル２２３が所属しているグループの各テーブル２２３に付与する。テーブル意味推定処理部２１３は、テーブルの意味が複数付与されたテーブルについては、付与された複数のテーブルの意味とテーブル意味推定辞書２２９とに基づいて、テーブル２２３の意味を推定し、テーブルの意味が１つのみ付与されたテーブル２２３については、付与されたテーブルの意味をテーブル２２３の意味として推定する。テーブル意味推定処理部２１３のより詳細な説明は、図２３、図２４及び図２５を用いて後述する。

　図３は、データ一覧情報２２１の一例を示す図である。図３に示すデータ一覧情報２２１は、データソース３００に格納されたデータに関する情報であり、カラム２２１０１～２２１０５を有する。カラム２２１０１は、データを一意に識別するデータＩＤを格納し、カラム２２１０２は、データの名称を格納し、カラム２２１０３は、データのレコード数（行数）を格納し、カラム２２１０４は、データのファイル形式を格納し、カラム２２１０５は、データの記憶場所を示すファイルパスを格納する。データ一覧情報２２１は、データ意味推定サーバ２００によってデータソース３００に格納されているデータに基づいて定期的に作成される。データ一覧情報２２１が作成される頻度は、任意でよい。

　図４は、テンプレート情報２２２の一例を示す図である。テンプレート情報２２２は、データの意味上の分類であるテンプレートに関する情報であり、カラム２２２０１及び２２２０２を有する。カラム２２２０１は、テンプレートを一意に識別するテンプレートＩＤを格納し、カラム２２２０２は、テンプレートの名称であるテンプレート名を格納する。テンプレートは、本実施形態では、業務（製造業務）の種類を表す。テンプレートＩＤは、上述したように論理記憶領域２２６を一意に識別する識別情報としても利用される。これにより、ＩＤ意味推定辞書２２７、カラム辞書２２８及びテーブル意味推定辞書２２９を業務ごとに設定することができる。

　図５は、テーブル２２３の一例を示す図である。テーブル２２３は、意味を推定する対象となるデータであり、カラム２２３０１と、レコード２２３０２とで規定される。レコード２２３０２は、１つ又は複数のフィールド値２２３０３で構成される。データソース３００に格納されたデータは、少なくともデータ意味推定サーバ２００上では、テーブル２２３の形式で記憶される。

　テーブル間関連分析結果２２４は、グループ化処理部２１１によるテーブル間関連分析処理（図８参照）の処理結果である。テーブル間関連分析結果２２４のより詳細な説明は、図９を用いて後述する。

　グループ情報２２５は、グループ化処理部２１１の処理結果である。グループ情報２２５のより詳細な説明は、図１２を用いて後述する。

　論理記憶領域２２６は、テンプレート情報２２２のテンプレートＩＤごとに設けられた論理上の記憶領域であり、テンプレートＩＤに対応する辞書（ＩＤ意味推定辞書２２７、カラム辞書２２８及びテーブル意味推定辞書２２９）を記憶する。

　ＩＤ意味推定辞書２２７は、テーブル情報であるＩＤ情報と、テーブルの意味の候補である推定意味候補との対応関係を示すテーブルである。本実施形態では、ＩＤ情報は、レコードＩＤの単位時間当たりの増加率であるＩＤ増加率であり、ＩＤ意味推定辞書２２７は、ＩＤ増加率に対する条件と推定意味候補との対応関係を示す。ＩＤ意味推定辞書２２７のより詳細な説明は、図１４を用いて後述する。

　カラム辞書２２８は、テーブル情報であるカラム情報と推定意味候補との対応関係を示すテーブルである。カラム辞書２２８のより詳細な説明は、図１５を用いて後述する。

　テーブル意味推定辞書２２９は、複数のレコードＩＤの意味とテーブルの意味との対応関係を示すテーブルである。テーブル意味推定辞書２２９のより詳細な説明は、図２２を用いて後述する。

　図６は、本開示の一実施形態に係るデータ意味推定システム１の動作を説明するためのシーケンス図である。

　ステップＳ１０１では、データ意味推定サーバ２００は、定期的に、データソース３００に対して、データ一覧情報２２１の作成に必要な情報である一覧作成用情報の送信依頼を送信する。

　ステップＳ１０２では、データソース３００は、一覧作成用情報の送信依頼を受信すると、データ意味推定サーバ２００に対して一覧作成用情報を送信する。一覧作成用情報は、例えば、１回前に一覧作成用情報を送信してから現時点までに更新されたデータ、又は、その更新されたデータの名称、レコード数、ファイル形式及びファイルパスなどを示す情報である。

　ステップＳ１０３では、データ意味推定サーバ２００は、一覧作成用情報を受信すると、その一覧作成用情報に基づいて、記憶部２２０に記憶されたデータ一覧情報２２１を更新する。そして、データ意味推定サーバ２００は、データ一覧情報２２１をデータ操作用ＰＣ１００に送信する。なお、データ意味推定サーバ２００は、データ操作用ＰＣ１００からデータ一覧情報２２１の送信依頼を受信した場合に、データ操作用ＰＣ１００にデータ一覧情報２２１を送信してもよい。

　ステップＳ１０４では、データ操作用ＰＣ１００は、ユーザからの操作に応じて、意味を推定する対象となるデータである対象データをデータソース３００からデータ意味推定サーバ２００にアップロードするためのＵＩ（User　Interface）であるアップロード画面（図２６参照）を表示する。ユーザはアップロード画面に従って、対象データとテンプレート情報とを選択する。データ操作用ＰＣ１００は、選択されたテンプレート情報と、選択された対象データのアップロード依頼とをデータ意味推定サーバ２００に送信する。なお、アップロード画面は、データ一覧情報２２１を含む。また、データ操作用ＰＣ１００は、アップロード画面を表示する前に、データ一覧情報２２１の送信依頼をデータ意味推定サーバ２００に送信してもよい。

　ステップＳ１０５では、データ意味推定サーバ２００は、テンプレート情報及びアップロード依頼を受信した場合、テンプレート情報に基づいて、分析（データの意味の推定）に用いるＩＤ意味推定辞書２２７、カラム辞書２２８及びテーブル意味推定辞書２２９を決定する。また、データ意味推定サーバ２００は、アップロード依頼に基づいて、対象データの送信依頼をデータソース３００に送信する。

　ステップＳ１０６では、データソース３００は、対象データの送信依頼を受信すると、その送信依頼に応じて、対象データをデータ意味推定サーバ２００に送信する。データ意味推定サーバ２００は、対象データを受信し、その対象データをテーブル２２３として記憶部２２０に記憶する。

　ステップＳ１０７では、データ意味推定サーバ２００のグループ化処理部２１１は、記憶部２２０に記憶されているテーブル２２３をグループ分けするグループ化処理を行い、その処理結果をグループ情報２２５として記憶部２２０に記憶する。具体的には、グループ化処理部２１１は、記憶部２２０に記憶されているテーブル２２３から、所定の親子関係を有する親カラム及び子カラムからなるカラム対を特定するテーブル間関連分析処理を行い、その処理結果をテーブル間関連分析結果２２４として記憶部２２０に記憶する。グループ化処理部２１１は、テーブル間関連分析結果２２４に基づいて、テーブル２２３をグループ分けし、そのグループ分けの結果をグループ情報２２５として記憶部２２０記憶する（図７～図１２参照）。

　ステップＳ１０８では、データ意味推定サーバ２００のＩＤ意味推定処理部２１２は、グループ情報２２５と、ステップＳ１０５で決定したＩＤ意味推定辞書２２７及びカラム辞書２２８とを用いて、ＩＤ意味推定処理を行う（図１３～図２０参照）。

　ステップＳ１０９では、ＩＤ意味推定処理部２１２は、ＩＤ意味推定処理の処理結果であるＩＤ意味推定結果をデータ操作用ＰＣ１００に送信する。

　ステップＳ１１０では、データ操作用ＰＣ１００は、ＩＤ意味推定結果を受信すると、そのＩＤ意味推定結果を含むＵＩである中間結果表示画面（図２７参照）を表示する。ユーザは、中間結果表示画面に従って、ＩＤ意味推定結果の確定依頼をデータ意味推定サーバ２００に送信する。このとき、ユーザは、ＩＤ意味推定結果を修正してもよい。この場合、データ操作用ＰＣ１００は、ユーザからの指示に応じて、ＩＤ意味推定結果の修正依頼を確定依頼としてデータ意味推定サーバ２００に送信する。

　ステップＳ１１１では、データ意味推定サーバ２００のＩＤ意味推定処理部２１２が確定依頼を受信した場合、テーブル意味推定処理部２１３は、ＩＤ意味推定結果と、テーブル意味推定辞書２２９とを用いてテーブル意味推定処理を行う（図２１～図２５参照）。なお、確定依頼が修正依頼の場合、ＩＤ意味推定処理部２１２が修正依頼に応じて、ＩＤ意味推定結果を修正し、テーブル意味推定処理部２１３は、修正されたＩＤ意味推定結果を用いてテーブル意味推定処理を行う。

　ステップＳ１１２では、テーブル意味推定処理部２１３は、テーブル意味推定処理の処理結果であるテーブル意味推定結果をデータ操作用ＰＣ１００に送信する。

　ステップＳ１１３では、データ操作用ＰＣ１００は、テーブル意味推定結果を受信すると、テーブル意味推定結果を含むＵＩである結果表示画面（図２８参照）を表示する。ユーザは、結果表示画面に従って、テーブル意味推定結果の確定依頼をデータ意味推定サーバ２００に送信する。このとき、ユーザは、テーブル意味推定結果を修正してもよい。この場合、データ操作用ＰＣ１００は、ユーザからの指示に応じて、テーブル意味推定結果の修正依頼を確定依頼としてデータ意味推定サーバ２００に送信する。データ意味推定サーバ２００のテーブル意味推定処理部２１３は、テーブル意味推定結果の確定依頼を受信すると、テーブル意味推定結果を出力し、処理を終了する。このとき、確定依頼が修正依頼の場合、テーブル意味推定処理部２１３は、修正依頼に応じて、ＩＤ意味推定結果を修正して出力する。

　図７は、本開示の一実施形態に係るグループ化処理（図６のステップＳ１０７）の一例を説明するためのフローチャートである。

　ステップＳ１では、グループ化処理部２１１は、テーブル間関連分析処理を行い、その処理結果であるテーブル間関連分析結果２２４を生成して記憶部２２０に記憶する。具体的には、グループ化処理部２１１は、テーブルのレコードを一意に識別できるフィールド値であるレコードＩＤが格納されたカラムを親カラムとして特定し、さらに、親カラムのフィールド値（レコードＩＤ）との一致度が所定値以上のフィールド値を有するカラムを、親カラムに対応する子カラムとして特定する。そして、グループ化処理部２１１は、親カラムと子カラムとの対応関係である親子関係を親カラムごとに示す情報をテーブル間関連分析結果２２４として生成する。

　図８は、テーブル間関連分析処理の一例を説明するための図である。図８の例では、グループ化処理部２１１は、先ず、複数のテーブル２２３ａ～２２３ｂのうち、テーブル２２３ａにおけるカラム名「SENSING_POINT」を有するカラムを親カラム２１１０１として特定する。そして、グループ化処理部２１１は、親カラム２１１０１のフィールド値との一致度が所定値以上のフィールド値を有する、テーブル２２３ｂにおけるカラム名「SEN_PO」を有するカラムを子カラム２１１０２として特定する。

　親カラムは、複数あってもよく、さらに言えば、同一のテーブル２２３内に複数あってもよい。子カラムは、対応する親カラムを有するテーブル２２３ａとは異なるテーブル２２３ｂから特定される。一致度は、例えば、当該カラムのフィールド値全体に対する親カラムのフィールド値と一致する値の割合である。この場合、所定値は、０よりも大きく、１以下の値に設定される。なお、一致度は、この例に限らず、他の値でもよい。

　図９は、テーブル間関連分析結果２２４の一例を示す図である。テーブル間関連分析結果２２４は、カラム２２４０１～２２４０５を有するテーブルである。カラム２２４０１は、親子関係を一意に識別する値を格納する。カラム２２４０２は、親カラムを有するテーブル２２３を一意に識別するデータＩＤを格納する。カラム２２４０３は、親カラムのカラム名を格納する。カラム２２４０４は、子カラムを有するテーブル２２３を一意に識別するデータＩＤを格納する。カラム２２４０５は、子カラムのカラム名を格納する。ここでカラム２２４０２及び２２４０４に格納されるデータＩＤは、データ一覧情報(図３参照)内のデータＩＤである。

　図７の説明に戻る。ステップＳ２では、グループ化処理部２１１は、テーブル間関連分析結果２２４に基づいて、親カラムごとに、その親カラムを有するテーブル２２３と、その親カラムに対応する子カラムを有するテーブル２２３とをグループ化する。図１０は、ステップＳ２の処理の一例を説明するための図である。図１０の例では、テーブル２２３ａとテーブル２２３ｂとがグループ２１１０３を構成し、テーブル２２３ｂとテーブル２２３ｃとがグループ２１１０４を構成し、テーブル２２３ｃとテーブル２２３ｄとがグループ２１１０５を構成している。

　ステップＳ３では、グループ化処理部２１１は、複数の親カラムを有するテーブル２２３が２つ以上のグループに所属しているか否かを判断する。グループ化処理部２１１は、複数の親カラムを有するテーブル２２３が２つ以上のグループに所属している場合、ステップＳ４の処理に進み、複数の親カラムを有するテーブルが２つ以上のグループに所属していない場合、ステップＳ５の処理に進む。

　ステップＳ４では、グループ化処理部２１１は、複数の親カラムを有するテーブル２２３が所属している２つ以上のグループを１つのグループに統合する。

　図１１は、ステップS３及びステップS４の一例を示す図である。図１０に示したようにテーブル２２３ｃは、カラム名「PRODUCT_ＩＤ」を有するカラムと、カラム名「MAN_ＩＤ」を有するカラムとを親カラムとして有している。また、テーブル２２３ｃは、グループ２１１０４及びグループ２１１０５という２つのグループに所属している。この場合、図１１に示すように、グループ化処理部２１１は、グループ２１１０４とグループ２１１０５とをグループ２１１０７として統合する。

　ステップS５では、グループ化処理部２１１は、グループとテーブル２２３との対応関係を示す情報を、グループ化処理の処理結果であるグループ情報２２５として生成して記憶部２２０に記憶する。

　図１２は、グループ情報２２５の一例を示す図である。図１２に示すグループ情報２２５は、カラム２２５０１及び２２５０２を有するテーブルである。カラム２２５０１は、グループを一意に識別する値を格納し、カラム２２５０２は、そのグループに所属するテーブルのデータＩＤを格納する。なお、図の例では、カラム２２５０２は、複数あり、１つのカラム２２５０２に１つのデータＩＤが格納される。

　図１３は、本開示の一実施形態に係るＩＤ意味推定処理とその後の入出力処理（図６のステップＳ１０８～Ｓ１１０）の一例を説明するためのフローチャートである。

　ステップS６では、ＩＤ意味推定処理部２１２は、記憶部２２０からグループ情報２２５を取得する。

　ステップＳ７では、ＩＤ意味推定処理部２１２は、記憶部２２０の論理記憶領域２２６から、図６のステップＳ１０５で決定されたＩＤ意味推定辞書２２７及びカラム辞書２２８を取得する。つまり、ＩＤ意味推定処理部２１２は、複数の論理記憶領域２２６のうち、テンプレート情報内のテンプレートＩＤに対応する論理記憶領域２２６に記憶されたＩＤ意味推定辞書２２７及びカラム辞書２２８を取得する。

　図１４は、ＩＤ意味推定辞書２２７の一例を示す図である。図１４に示すＩＤ意味推定辞書２２７は、カラム２２７０１～２２７１５を有する。カラム２２７０１は、レコードＩＤの意味推定候補を一意に識別するためのカテゴリＩＤを格納する。カラム２２７０２は、レコードＩＤの意味推定候補を格納する。

　カラム２２７０３～２２７１５は、レコードＩＤの意味推定候補をレコードＩＤの意味として選択するための条件を規定する条件情報を格納する。具体的には、カラム２２７０３は、レコードＩＤの単位時間当たりのＩＤ増加率に対する条件値を格納する。カラム２２７０４～２２７０９は、ＩＤ増加率と条件値とを比較する比較演算子を指定するためのフラグである演算子用フラグを格納する。図の例では、カラム２２７０４は比較演算子が「＝」か否かを示すフラグを格納し、カラム２２７０５は比較演算子が「≦（以下）」か否かを示すフラグを格納し、カラム２２７０６は比較演算子が「≧（以上）」か否かを示すフラグを格納し、カラム２２７０７は比較演算子が「＜（未満）」か否かを示すフラグを格納し、カラム２２７０８は比較演算子が「＞（超）」か否かを示すフラグを格納し、カラム２２７０９は比較演算子が「１％以内」か否かを示すフラグを格納する。なお、これらの比較演算子は単なる一例であり、これらの例に限らない。

　カラム２２７１０～２２７１５は、条件値における単位時間の単位を指定するためのフラグである単位用フラグを格納する。図の例では、カラム２２７１０は、単位が「年」か否かを示すフラグを格納し、カラム２２７１１は、単位が「月」か否かを示すフラグを格納し、カラム２２７１２は、単位が「日」か否かを示すフラグを格納し、カラム２２７１３は、単位が「時間」か否かを示すフラグを格納し、カラム２２７１４は、単位が「分」か否かを示すフラグを格納し、カラム２２７１５は、単位が「秒」か否かを示すフラグを格納している。なお、これらの単位は単なる一例であり、これらの例に限らない。

　図１５は、カラム辞書２２８の一例を示す図である。図１５に示すカラム辞書２２８は、カラム２２８０１～２２８０９を有する。カラム２２８０１は、レコードＩＤの意味推定候補を一意に識別するためのカテゴリＩＤを格納する。カラム２２８０２は、レコードＩＤの意味推定候補を格納する。

　カラム２２８０３～２２８０８は、レコードＩＤの意味推定候補をレコードＩＤの意味として選択するための条件を規定する条件情報を格納する。具体的には、カラム２２８０３は、レコードＩＤの意味推定候補に対応するカラムである対応カラムのカラム名を格納する。カラム２２８０４～２２８０６は、対応カラムに格納されたフィールド値の統計情報を格納する。図の例では、カラム２２８０４は平均値、カラム２２８０４は分散、カラム２２８０４は標準偏差をそれぞれ統計情報として格納する。なお、対応カラムに格納されたフィールド値が数値型以外のデータ形式であり、統計情報を算出することができない場合、カラム２２８０４～２２８０６は、統計情報がないことを示す値「null」を格納する。

　カラム２２８０７は、対応カラムのデータ形式を格納する。カラム２２８０８は、対応カラムのフィールド値の最頻出のパターンを示す最頻出パターン情報を格納する。パターンは、フィールド値が数値型又は文字型かと、フィールド値の桁数（文字数）とを示す。図の例では、パターンは、フィールド値が数値の場合、「９」を示し、フィールド値が文字の場合、「ｘ」を示し、桁数を「９」又は「ｘ」の数で示す。例えば、フィールド値が数値型で「１００」及び「２００」の場合、パターンは「９９９」となる。また、フィールド値が文字型で「ＡＢＣ」及び「ＤＥＦ」の場合、パターンは、「ｘｘｘ」となる。なお、このパターン及びその表記法は、単なる一例であり、この例に限らない。カラム２２８０９は、レコードＩＤの意味推定候補をレコードＩＤの意味として選択するための重み値を格納する。　

　ステップＳ８では、ＩＤ意味推定処理部２１２は、記憶部２２０からテーブル２２３を読み込み、テーブル２２３から、親カラム又は子カラムの値（フィールド値）と時間に関する値（フィールド値）との両方を含むレコードを時間関連レコードとしてそれぞれ特定する。図１６は、ステップＳ８の処理の一例を説明するための図である。図１６の例では、テーブル２２３ａのカラム名「CREATE_DATE」を有するカラムと、テーブル２２３ｂのカラム名「PASSED_TIME」を有するカラムと、テーブル２２３ｄのカラム名「ASSIGN_DATE」を有するカラムとが時間に関する値を有するカラム２１２０１である。また、カラム２１２０１のそれぞれは、同じテーブル内に親カラム又は子カラムを有するため、カラム２１２０１を有する各テーブル２２３ａ、２２３ｂ及び２２３ｄの各レコードが時間関連レコードとなる。

　ステップＳ９では、ＩＤ意味推定処理部２１２は、時間関連レコードを有するテーブルごとに、親カラム又は子カラムに格納されているレコードＩＤが重複している複数のレコードが存在するか否かを確認する。ＩＤ意味推定処理部２１２は、レコードＩＤが重複している複数のレコードが存在する場合、ステップＳ１０の処理に進み、レコードＩＤが重複している複数のレコードが存在していない場合、ステップＳ１１に進む。

　ステップＳ１０では、ＩＤ意味推定処理部２１２は、レコードＩＤが重複している複数のレコードごとに、その複数のレコードのうち、時間に関する値として最新の値を有するレコード以外のレコードを時間関連レコードから除外する。

　図１７は、ステップS９及びステップＳ１０の処理の一例を説明するための図である。図１７の例では、例えば、テーブル２２３ｂでは、カラム名「SEN_PO」のカラムにおいてＩＤ「sen001」を有するレコードが重複している。この場合、ＩＤ意味推定処理部２１２は、それらのレコードから、時間に関する値として最新の値「2019-08-03 12:28:43」を有するレコード２１２０２を特定し、それ以外のレコードを時間関連レコードから除外する。

　ステップS１１では、ＩＤ意味推定処理部２１２は、時間関連レコードを有するテーブルのそれぞれについて、レコードＩＤの単位時間当たりのＩＤ増加率を算出する。

　図１８は、ステップS１１の処理の一例を示す図である。図１８の例では、テーブル２２３ｂにおける、カラム名「SEN_PO」を有するカラムのフィールド値としては、「sen001」から「sen005」までの５種類が存在する。これらのフィールド値に対応する、時間に関する値のうち、最古の値は「2019-08-03 12:28:43」であり、最新の値は「2020-08-03 12:36:51」である。この場合、ＩＤ増加率は、最古の値と最新の値との差分を、レコードＩＤの種類の数で除算した値となる。つまり、最古の値と最新の値との差分は、「３１６２２８８８［秒］」、つまり「約１［年］」である。このため、ＩＤ増加率は「約５［種類／年］」”となる。

　ステップS１２では、ＩＤ意味推定処理部２１２は、ステップS１１で算出したＩＤ増加率ごとに、そのＩＤ増加率とＩＤ意味推定辞書２２７とのマッチング処理を行い、レコードＩＤの意味を推定する。例えば、図１４に示したＩＤ意味推定辞書２２７では、単位時間当たりのＩＤ増加率が５[種類/年]以下の場合、カラム２２７０２のフィールド値として「Sensing　Point」を有するレコードとＩＤ増加率とがマッチングするため、ＩＤ意味推定処理部２１２は、レコードＩＤの意味を「Sensing　Point」として推定する。なお、ＩＤ意味推定処理部２１２は、ＩＤ増加率がＩＤ意味推定辞書２２７のいずれのレコードにもマッチングしない場合、レコードＩＤの意味を「Others（その他）」と推定する。

　ステップS１３では、ＩＤ意味推定処理部２１２は、ステップS１２で推定した推定結果が「Others」を含むか否かを判断する。ＩＤ意味推定処理部２１２は、推定結果が「Others」を含む場合、ステップS１４の処理に進み、推定結果が「Others」を含まない場合、ステップS１６の処理に進む。

　ステップS１４では、ＩＤ意味推定処理部２１２は、意味が「Others」と推定されたレコードＩＤを有するテーブルが属しているグループ内の各テーブルから、それらのテーブルが有するカラムに関するカラム情報を取得する。カラム情報は、本実施形態では、カラム名と、カラムに格納されたフィールド値の統計情報（例えば、平均、分散及び標準偏差など)及び最頻出パターン情報とを含む。

　図１９は、ステップS１４の処理の一例を示す図である。図１９の例では、テーブル２２３ｃにおける、カラム名「MAN_ＩＤ」を有するカラム２１２０４のＩＤ増加率は、５００[種類/年]であり、ＩＤ意味推定辞書２２７のいずれのレコードにもマッチングしないため、ＩＤ意味推定処理部２１２は、そのＩＤ増加率を有するレコードＩＤの意味を「Others」と推定する。この場合、ＩＤ意味推定処理部２１２は、テーブル２２３ｃが所属するグループに属するテーブル２２３ｃ及び２２３ｄが有するカラム２１２０５のカラム情報を取得する。

　ステップＳ１５では、ＩＤ意味推定処理部２１２は、ステップS１２で意味が「Others」と推定されたレコードＩＤを有するテーブルが属しているグループごとに、ステップS１４で算出したカラム情報とカラム辞書２２８とのマッチング処理を行い、レコードＩＤの意味を推定する。具体的には、ＩＤ意味推定処理部２１２は、カラム情報と、カラム辞書２２８に含まれている条件情報とを比較し、カラム情報と一致する条件情報に対応する重み値の和が閾値以上の場合、その条件情報に対応するレコードＩＤの意味推定候補をレコードＩＤの意味として推定する。

　例えば、図１５に示したカラム辞書２２８の場合、カラム２２８０２に格納された意味推定候補「Man」に対応する条件情報として、カラム名「OPERATOR_NAME」、データ型「varchar」及び最頻出パターン情報「xxxxxx」を有するレコードと、カラム名「JOB_NAME」、データ型「varchar」及び最頻出パターン情報「xxxx」を有するレコードとがあり、それらの重み値が「１」及び「２」である。この場合、ＩＤ意味推定処理部２１２は、対象のグループの各カラム情報と一致する条件値に対応する重み値の和が閾値（例えば、３）以上であると、意味推定候補「Man」をレコードＩＤの意味として推定する。なお、重み値の和が閾値以上でない場合、ＩＤ意味推定処理部２１２は、レコードＩＤの意味を「Others」と推定する。

　ステップS１６では、ＩＤ意味推定処理部２１２は、レコードＩＤの意味を推定した推定結果であるＩＤ意味推定結果を、データ操作用ＰＣ１００に送信する。データ操作用ＰＣ１００は、ＩＤ意味推定結果を受信し、そのＩＤ意味推定結果を含む中間結果表示画面（図２７参照）を表示する。

　ステップＳ１７では、データ操作用ＰＣ１００は、ユーザからの指示に応じて、ＩＤ意味推定結果の確定依頼をデータ意味推定サーバ２００に送信する。データ意味推定サーバ２００のＩＤ意味推定処理部２１２は、確定依頼を受信すると、その確定依頼が修正依頼か否かを判断して、ＩＤ意味推定結果を修正するか否かを判断する。ＩＤ意味推定処理部２１２は、ＩＤ意味推定結果を修正する場合、ステップＳ１８の処理に進み、ＩＤ意味推定結果を修正しない場合、処理を終了する。

　ステップＳ１８では、ＩＤ意味推定処理部２１２は、修正依頼に応じてＩＤ意味推定結果を修正して、処理を終了する。

　図２０は、ＩＤ意味推定処理の処理パターンを説明するための図である。図１３を用いて説明したＩＤ意味推定処理では、図２０の処理パターンＡで示したように、ＩＤ意味推定辞書２２７を用いたマッチング処理であるＩＤマッチング処理（ステップＳ１２）の後に、カラム辞書２２８を用いたマッチング処理であるカラムマッチング処理（ステップＳ１５）を行っていた。

　しかしながら、ＩＤ意味推定処理の処理パターンは、この例に限らない。例えば、ＩＤ意味推定処理の処理パターンは、処理パターンＢで示したようにカラムマッチング処理を行った後に、ＩＤマッチング処理が行われてもよい。また、ＩＤ意味推定処理の処理パターンは、処理パターンＣで示したように、カラムマッチング処理とＩＤマッチング処理とを並列に行い、それらの処理結果を統合してもよい。処理結果の統合では、ＩＤ意味推定処理部２１２は、例えば、カラムマッチング処理及びＩＤマッチング処理のうち優先度の高い方の処理結果（レコードＩＤの意味）が「Others」でない場合、優先度の高い方の処理結果を採用し、優先度の低い方の処理結果が「Others」の場合、優先度の高い方の処理結果を採用する。優先度は、例えば、予め設定される。

　以上説明した動作において、レコードＩＤの意味として複数の意味が推定されることがある。例えば、図１３のステップＳ１２でＩＤ増加率がＩＤ意味推定辞書２２７の複数のレコードとマッチングする場合、及び、図１３のステップＳ１５で重み値の和が閾値以上となる意味推定候補が複数ある場合、レコードＩＤの意味として複数の意味が推定される。この場合、ＩＤ意味推定処理部２１２は、予め設定された優先順位などに基づいて、複数の意味のいずれかをレコードＩＤの意味として選択してもよいし、複数のレコードＩＤの意味をデータ操作用ＰＣ１００に送信して表示させ、ユーザに複数の意味のいずれかを選択させてもよい。

　図２１は、本開示の一実施形態に係るテーブル意味推定処理とその後の入出力処理（図６のステップＳ１１１～Ｓ１１３）の一例を説明するためのフローチャートである。

　ステップS１９では、テーブル意味推定処理部２１３は、記憶部２２０からグループ情報２２５を取得する。

　ステップS２０では、テーブル意味推定処理部２１３は、記憶部２２０の論理記憶領域２２６から、図６のステップＳ１０５で決定されたテーブル意味推定辞書２２９を取得する。

　図２２は、テーブル意味推定辞書２２９の一例を示す図である。図２２に示すテーブル意味推定辞書２２９は、カラム２２９０１～２２９０３を有する。カラム２２９０１は、テーブル２２３の意味推定候補を一意に識別するためのカテゴリＩＤを格納する。カラム２２９０２は、テーブル２２３の意味推定候補を格納する。カラム２２９０３は、レコードＩＤの意味を格納する。カラム２２９０３は、複数ある。

　ステップS２１では、テーブル意味推定処理部２１３は、ＩＤ意味推定結果であるレコードＩＤの意味を、そのレコードＩＤを含むグループに付与する。

　図２３は、ステップS２２の処理の一例を説明するための図である。図２３の例では、テーブル２２３ａのレコードＩＤである「SENSING_POINT」の意味が「Sensing_Point」であり、テーブル２２３ｃのレコードＩＤである「PRODUCT_ＩＤ」及び「MAN_ＩＤ」の意味が「Man」である。この場合、テーブル意味推定処理部２１３は、テーブル２２３ａを含むグループ２１１０３に「Sensing_Point」を付与し、テーブル２２３ｂを含むグループ２１１０７に「Man」を付与する。

　ステップS２２では、テーブル意味推定処理部２１３は、グループに付与された意味を、そのグループに含まれる各テーブルに付与する。

　ステップS２３では、テーブル意味推定処理部２１３は、複数の意味が付与されたテーブルが存在するか否かを判断する。テーブル意味推定処理部２１３は、複数の意味が付与されたテーブルが存在する場合、ステップＳ２４の処理に進み、複数の意味が付与されたテーブルが存在していない場合、ステップＳ２５の処理に進む。

　図２４は、ステップS２２及びステップS２３の処理の一例を説明するための図である。図２４の例では、グループ２１１０３に意味「Sensing_Point」が付与され、グループ２１１０７に意味「Man」が付与されている。このため、ステップS２２でテーブル意味推定処理部２１３は、グループ２１１０３に所属しているテーブル２２３ａ及び２２３ｂに意味「Sensing_Point」を付与し、グループ２１１０７に所属しているテーブル２２３ｂ～２２３ｄに意味「Man」を付与する。そして、ステップＳ２３でテーブル意味推定処理部２１３は、テーブル２２３ｂに意味「Sensing_Point」と意味「Man」とが付与されているため、複数の意味が付与されたテーブルが存在すると判断して、ステップＳ２４の処理に進む。

　ステップS２４では、テーブル意味推定処理部２１３は、複数の意味が付与されたテーブル２２３について、その複数の意味とテーブル意味推定辞書２２９とのマッチング処理を行い、そのテーブル２２３の意味を推定する。例えば、図２４のテーブル２２３ｂには、意味「Sensing_Point」と意味「Man」とが付与されており、図２２のテーブル意味推定辞書２２９には、カラム２２９０３のフィールド値として意味「Sensing_Point」及び意味「Man」を有すレコードがある。このため、テーブル意味推定処理部２１３は、そのレコードにおけるカラム２２９０２のフィールド値「Actual_Production」をテーブル２２３ｂの意味として推定する。

　ステップS２５では、テーブル意味推定処理部２１３は、テーブル２２３の意味を推定した推定結果であるテーブル意味推定結果を、データ操作用ＰＣ１００に送信する。データ操作用ＰＣ１００は、テーブル意味推定結果を受信し、そのテーブル意味推定結果を含む結果表示画面（図２８参照）を表示する。

　ステップＳ２６では、データ操作用ＰＣ１００は、ユーザからの指示に応じて、テーブル意味推定結果の確定依頼をデータ意味推定サーバ２００に送信する。データ意味推定サーバ２００のテーブル意味推定処理部２１３は、データ操作用ＰＣ１００から確定依頼を受信すると、その確定依頼が修正依頼か否かを判断して、テーブル意味推定結果を修正するか否かを判断する。テーブル意味推定処理部２１３は、テーブル意味推定結果を修正する場合、ステップＳ２７の処理に進み、テーブル意味推定結果を修正しない場合、処理を終了する。

　ステップＳ２７では、テーブル意味推定処理部２１３は、修正依頼に応じてＩＤ意味推定結果を修正して、処理を終了する。

　図２６は、アップロード画面の一例を示す図である。図２６に示すアップロード画面ＵＩ１００は、ウィンドウＵＩ１１０～１４０と、ボタンＵＩ１５０及びＵＩ１６０とを含む。

　ウィンドウＵＩ１１０は、データ意味推定サーバ２００に送信するテンプレート情報を選択するための表示領域である。ウィンドウＵＩ１１０は、キャレットＵＩ１１１を含み、キャレットＵＩ１１１がユーザにて操作されることで、予め用意されたテンプレート情報の一覧の中からテンプレート情報が選択される。

　ウィンドウＵＩ１２０は、データ意味推定サーバ２００にテーブル２２３としてアップロードするデータが格納されているディレクトリを選択するための表示領域である。ウィンドウＵＩ１２０は、キャレットＵＩ１２１を含み、キャレットＵＩ１２１がユーザにて操作されることで、データ一覧情報２２１が示すディレクトリの一覧の中から、データ意味推定サーバ２００にアップロードするデータが格納されているディレクトリが選択される。

　ウィンドウＵＩ１３０は、ウィンドウＵＩ１２０において選択されたディレクトリに格納されているデータを表示するための表示領域である。ウィンドウＵＩ１３０は、選択されたデータごとに、チェックボックスＵＩ１３１及びＵＩ１３２を含む。チェックボックスＵＩ１３１は、詳細情報を表示するデータを選択するためのボックスである。チェックボックスＵＩ１３２は、アップロードの対象から削除するデータを選択するためのボックスである。

　ウィンドウＵＩ１４０は、ウィンドウＵＩ１３０のチェックボックスＵＩ１３１で選択されたデータの詳細情報を表示する表示領域である。

　ボタンＵＩ１５０は、ウィンドウＵＩ１２０において選択されたデータのアップロード依頼をデータ意味推定サーバ２００に送信するためのボタンである。ボタンＵＩ１６０は、アップロード画面ＵＩ１００の表示サイズを変更するためのボタンである。ボタンＵＩ１７０は、アップロード画面ＵＩ１００を非表示にするためのボタンである。

　図２７は、ＩＤ意味推定結果を表示する中間結果表示画面の一例を示す図である。図２７に示す中間結果表示画面ＵＩ２００は、ウィンドウＵＩ２１０及び２２０と、ボタンＵＩ２３０～ＵＩ２５０とを含む。

　ウィンドウＵＩ２１０は、ＩＤ意味推定結果を表示する表示領域である。図２７の例では、ウィンドウＵＩ２１０は、レコードＩＤを有するテーブルの名称、レコードＩＤの名称、及びＩＤ意味推定結果（レコードＩＤの意味）を表示している。

　また、ウィンドウＵＩ２１０は、チェックボックスＵＩ２１１と、キャレットＵＩ２１２とを含む。チェックボックスＵＩ２１１は、詳細情報を表示するテーブルを選択するためのボックスである。キャレットＵＩ２１２は、ＩＤ意味推定結果の修正候補ＵＩ２１３を表示するためのインターフェースである。ＩＤ意味推定結果を修正する場合、表示された修正候補ＵＩ１２１３のいずれが選択される。

　ウィンドウＵＩ２２０は、ウィンドウＵＩ２１０のチェックボックスＵＩ２１１で選択されたテーブルの詳細情報を表示するための表示領域である。

　ボタンＵＩ２３０は、ＩＤ意味推定結果の確定依頼を送信するためのボタンである。ボタンＵＩ２３０が押下された際にウィンドウＵＩ２１０の修正候補ＵＩ２１３が選択されている場合、元のＩＤ意味推定結果を、選択された修正候補ＵＩ２１３に修正する修正依頼が確定依頼として送信される。ボタンＵＩ２４０は、中間結果表示画面ＵＩ２００の表示サイズを変更するためのボタンである。ボタンＵＩ２５０は、中間結果表示画面ＵＩ２００を非表示にするためのボタンである。

　図２８は、ＩＤ意味推定結果を表示する結果表示画面の一例を示す図である。図２８に示す結果表示画面ＵＩ３００は、ウィンドウＵＩ３１０及びＵＩ３２０と、ボタンＵＩ３３０～ＵＩ３５０とを含む。

　ウィンドウＵＩ３１０は、テーブル意味推定結果を表示する表示領域である。図２８の例では、ウィンドウＵＩ３１０は、テーブルの名称及びテーブル意味推定結果（テーブルの意味）を表示している。

　また、ウィンドウＵＩ３１０は、チェックボックスＵＩ３１１と、キャレットＵＩ３１２とを含む。チェックボックスＵＩ３１１は、詳細情報を表示するテーブルを選択するためのボックスである。キャレットＵＩ３１２は、テーブル意味推定結果の修正候補ＵＩ３１３を表示するためのインターフェースである。テーブル意味推定結果を修正する場合、表示された修正候補ＵＩ３１３のいずれが選択される。

　ウィンドウＵＩ３２０は、ウィンドウＵＩ３１０のチェックボックスＵＩ３１１で選択されたテーブルの詳細情報を表示するための表示領域である。

　ボタンＵＩ３３０は、テーブル意味推定結果の確定依頼を送信するためのボタンである。ボタンＵＩ３３０が押下された際にウィンドウＵＩ３１０の修正候補ＵＩ３１３が選択されている場合、元のテーブル意味推定結果を、選択された修正候補ＵＩ３１３に修正する修正依頼が確定依頼として送信される。ボタンＵＩ３４０は、結果表示画面ＵＩ３００の表示サイズを変更するためのボタンである。ボタンＵＩ３５０は、結果表示画面ＵＩ３００を非表示にするためのボタンである。

　以上説明したように本実施形態によれば、グループ化処理部２１１は、複数のテーブル２２３間の関係を解析して、複数のテーブル２２３をグループに分ける。推定処理部（ＩＤ意味推定処理部２１２及びテーブル意味推定処理部２１３）は、グループごとに、そのグループに所属するテーブルのテーブル情報と、テーブル情報と内容上の意味の候補である意味推定候補との対応関係を示す辞書（ＩＤ意味推定辞書２２７、カラム辞書２２８及びテーブル意味推定辞書２２９）を用いて、そのグループに所属するテーブル２２３の内容上の意味を推定する。したがって、データであるテーブル２２３の内容上の意味を推定することが可能になる。これにより、データ分析者はデータの意味を理解するための手間の時間を削減することができる。

　また、本実施形態では、テーブルの各レコードを一意に識別するフィールド値であるレコードＩＤの内容上の意味が、該レコードＩＤを格納するテーブルが所属しているグループの各テーブルの内容上の意味として推定される。テーブル２２３を特徴付けるフィールド値の意味からテーブル２２３の意味を推定することが可能になるため、テーブル２２３の意味をより適切に推定することが可能になる。

　また、本実施形態では、テーブル２２３に関するテーブル情報としてレコードＩＤに関するＩＤ情報を用いる。このため、レコードＩＤの意味をより適切に推定することが可能になるため、テーブル２２３の意味をより適切に推定することが可能になる。

　また、本実施形態では、ＩＤ情報としてレコードＩＤのＩＤ増加率を用いる。したがって、４Ｍと呼ばれる「人(Man)」、「機械(Machine)」、「材料(Material)」及び「方法(Method)」のそれぞれに関するテーブルでは、レコードＩＤの増加率が大きく異なると考えられるため、データの業務内容上の意味を４Ｍのいずれかに適切に推定することが可能になる。

　また、本実施形態では、ＩＤ増加率と適合する条件に対応する意味推定候補をレコードＩＤの意味として推定する。このため、レコードＩＤの意味をより適切に推定することが可能になる。

　また、本実施形態では、テーブル情報として、テーブル２２３の各カラムに関するカラム情報を用いる。この場合、テーブル２２３が有する各カラムの内容に応じてテーブル２２３の意味を推定することが可能になるため、テーブル２２３の意味をより適切に推定することが可能になる。

　また、本実施形態では、複数の意味が付与されたテーブルについては、それらの意味とテーブル意味推定辞書２２９とを用いて新たに意味を推定する。このため、複数の意味からさらに適切で具体的な意味を推定することが可能になる。

　また、本実施形態では、レコードＩＤを格納する親カラムを有するテーブルと、親カラムに格納されたレコードＩＤとの一致度が所定値以上のフィールド値を格納する子カラムを有するテーブルとが同一のグループにグループ分けされる。このため、同じ意味を有するテーブルを適切にグループ分けすることが可能になる。

　また、本実施形態では、複数の親カラムを有するテーブルが２つ以上のグループに所属している場合、その２つ以上のグループが１つのグループに統合されるため、適切にグループ分けすることが可能になる。

　また、本実施形態では、予め用意された複数の辞書から選択された辞書を用いて、テーブルの内容上の意味を推定するため、適切な辞書を使用することが可能になり、その結果、テーブル２２３の意味をより適切に推定することが可能になる。

　上述した本開示の実施形態は、本開示の説明のための例示であり、本開示の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本開示の範囲を逸脱することなしに、他の様々な態様で本開示を実施することができる。

　例えば、本開示のデータ意味推定システムは、上記の実施形態で説明したようなデータの業務内容上の意味を推定するシステムに限らず、データの内容上の意味を推定する一般的なシステムに適用することができる。

　１：データ意味推定処理システム、１００：データ操作用ＰＣ、２００：データ意味推定サーバ、２１０：演算部、２１１：グループ化処理部、２１２：ＩＤ意味推定処理部、２１３：テーブル意味推定処理部、２２０：記憶部、２２１：データ一覧情報、２２２：テンプレート情報、２２３：テーブル、２２４：テーブル間関連分析結果、２２５：グループ情報、２２６：論理記憶領域、２２７：ＩＤ意味推定辞書、２２８：カラム辞書、２２９：テーブル意味推定辞書、３００：データソース

Claims

　複数のテーブルのそれぞれの内容上の意味を推定するデータ意味推定システムであって、
　前記複数のテーブル間の関係を解析して、前記複数のテーブルをグループに分けるグループ化処理部と、
　前記グループごとに、当該グループに所属するテーブルに関するテーブル情報と、前記テーブル情報と前記意味の候補との対応関係を示す辞書とを用いて、当該グループに所属するテーブルの意味を推定する推定処理部と、を有するデータ意味推定システム。
　前記推定処理部は、
　前記グループごとに、前記テーブル情報と前記辞書とを用いて、当該グループに所属する各テーブルに格納された当該テーブルの各レコードを一意に識別するフィールド値であるレコードＩＤの内容上の意味を推定するＩＤ意味推定処理部と、
　前記レコードＩＤの内容上の意味を、当該レコードＩＤを格納するテーブルが所属しているグループの各テーブルの内容上の意味として付与するテーブル意味推定処理部と、を有する請求項１に記載のデータ意味推定システム。
　前記ＩＤ意味推定処理部は、前記テーブル情報として、前記レコードＩＤに関するＩＤ情報を用いて、前記レコードＩＤの内容上の意味を推定する、請求項２に記載のデータ意味推定システム。
　前記ＩＤ意味推定処理部は、前記テーブルに格納された時間に関するフィールド値に基づいて、前記レコードＩＤの増加率を前記ＩＤ情報として算出する、請求項３に記載のデータ意味推定システム。
　前記辞書は、前記増加率に対する条件と前記候補との対応関係を示す意味推定辞書を含み、
　前記ＩＤ意味推定処理部は、前記意味推定辞書において、前記算出した増加率と適合する前記条件に対応する候補を前記レコードＩＤの内容上の意味として推定する、請求項４に記載のデータ意味推定システム。
　前記ＩＤ意味推定処理部は、前記テーブル情報として、前記テーブルの各カラムに関するカラム情報を用いて、前記レコードＩＤの内容上の意味を推定する、請求項２に記載のデータ意味推定システム。
　前記辞書は、複数の前記レコードＩＤの内容上の意味と前記テーブルの内容上の意味とを対応付けたテーブル意味推定辞書を含み、
　前記テーブル意味推定処理部は、複数の前記レコードＩＤの内容上の意味が付与されたテーブルが存在する場合、当該テーブルの内容上の意味を、当該複数のレコードＩＤの内容上の意味と前記テーブル意味推定辞書とを用いて推定する、請求項２に記載のデータ意味推定システム。
　前記グループ化処理部は、前記テーブルの各レコードを一意に識別するフィールド値であるレコードＩＤを格納するカラムである親カラムを有するテーブルと、前記親カラムに格納されたレコードＩＤとの一致度が所定値以上のフィールド値を格納する子カラムを有するテーブルとを同一のグループにグループ分けする、請求項１に記載のデータ意味推定システム。
　前記グループ化処理部は、複数の前記親カラムを有するテーブルが２つ以上の前記グループに所属している場合、当該２つ以上のグループを１つのグループに統合する、請求項８に記載のデータ意味推定システム。
　前記推定処理部は、予め用意された複数の前記辞書から選択された辞書を用いて、前記テーブルの内容上の意味を推定する、請求項１に記載のデータ意味推定システム。
　複数のテーブルのそれぞれの内容上の意味を推定するデータ意味推定システムによるデータ意味推定方法であって、
　前記複数のテーブル間の関係を解析して、前記複数のテーブルをグループに分け、
　前記グループごとに、当該グループに所属するテーブルに関するテーブル情報と、前記テーブル情報と前記意味の候補との対応関係を示す辞書とを用いて、当該グループに所属するテーブルの内容上の意味を推定する、データ意味推定方法。