WO2018016001A1

WO2018016001A1 - データモデリングシステム、データモデリング方法

Info

Publication number: WO2018016001A1
Application number: PCT/JP2016/071156
Authority: WO
Inventors: 健二北川
Original assignee: 株式会社日立製作所
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2018-01-25

Abstract

ユーザから、テーブルを結合するための軸となるカラムの指定を受け付け、軸となるカラムに類似するカラムを含むテーブルを、１または複数のデータベースの中から検索し、検索されたテーブルに含まれる軸となるカラムに類似するカラムを複数の方法で結合し、結合したテーブルをモデリング候補として出力し、結合したテーブルの候補から、入力部から次に指定された次カラムとの類似度が一定以上の類似カラムを抽出し、抽出された次カラムを出力し、出力した次カラムの中からユーザが選択したカラムを受け付け、次カラムに基づいて結合したテーブルの候補を絞り込み、次カラムを含むテーブルを新たな結合したテーブルをモデリング候補として出力する。

Description

データモデリングシステム、データモデリング方法

　本発明は、データ分析を行う際のデータモデリングを行うデータモデリングシステム、データモデリング方法に関する。

　ＩＴ（Information Technology）技術の発展と普及に伴い、非常に広範な業務分野にわたって、その業務効率化などの目的でＩＴ技術に基づく業務システムが導入されている。それらシステムの規模や種別は多様ながら、稼働する業務システムの多くはデータベースを有し、業務データを蓄積している。ひとつの組織内に複数の業務システムが稼働するようなことも一般的であり、異なる業務システムのデータベースに蓄積されたデータ群を横断的に分析することで、有意な情報を抽出し、経営判断につなげていくようなビジネスインテリジェンスの技術の導入が進んでいる。

　反面、各業務システムにおいては、必ずしも他の業務システムとの間でデータベース設計の互換性が保たれてはおらず、異なる業務システムのデータを用いたビジネスインテリジェンス実現には、データベース間の整合性を担保することが必須の手続きとなる。一般的には、業務システム間のデータベース設計が異なっている場合、事前にそのデータの意味を人手によって解釈し、整合性を確保する。場合によっては、これに加え分析の支援情報を与えることもある（特許文献１）。

　ビジネスインテリジェンス適用範囲拡大のため、分析や可視化の目的に沿って、ＩＴ技術者でなく、業務ユーザ自身がデータモデリングを行うような、ビジネスインテリジェンスのセルフサービス化を実現するツールも発表されている（非特許文献１、非特許文献２）。

特開２０１０－２０５２１８号公報

https://aws.amazon.com/jp/quicksight/ http://www.qlikspace.net/qlik-sense/

　上記特許文献１では、データベース間の整合性を人手によって解釈している。しかし、これらの作業はＩＴ技術の専門家によって相応の期間をもって実施されていたが、ビジネスインテリジェンスをより広い範囲の業務に適用していく過程では、人手による解釈のために煩雑さが伴うとともに、そのコストが障害となっている。

　また、上記非特許文献１、２では、キーワード入力や軸選択等の簡易なユーザ入力によって、データモデリングが行われ、可視化や分析を可能とする。こうしたツールにおいても、入力となるデータベース間の整合性を確保する前提は求められ、この前提によりユーザ入力から一意なデータモデリングを行うことが可能となっている。しかしながら、上記特許文献１の場合と同様、人手による解釈が必要であるため、そのための煩雑さやコストが障害となっている。

　本発明は、上記に鑑みてなされたものであって、データベース間の整合性を解釈する際に人手による煩雑さを軽減し、コストを削減することが可能なデータモデリングシステム、データモデリング方法を提供することを目的とする。

　上記課題を解決し、目的を達成するために、本発明にかかるデータモデリングシステムは、１または複数のデータベースに記憶されている複数のテーブルを結合するデータモデリングシステムであって、ユーザから、テーブルを結合するための軸となるカラムの指定を受け付けるカラム入力部と、前記軸となるカラムに類似するカラムを含むテーブルを、前記１または複数のデータベースの中から検索するカラム検索部と、検索されたテーブルに含まれる前記軸となるカラムに類似するカラムを複数の方法で結合し、結合したテーブルをモデリング候補として出力するモデリング部と、前記結合したテーブルの候補から、前記入力部から次に指定された次カラムとの類似度が一定以上の類似カラムを抽出するカラム抽出部と、抽出された前記次カラムを出力し、出力した前記次カラムの中からユーザが選択したカラムを受け付けるカラム選択受付部と、前記次カラムに基づいて前記結合したテーブルの候補を絞り込み、前記次カラムを含むテーブルを新たな前記結合したテーブルをモデリング候補として出力するテーブル候補更新部と、を備えることを特徴とするデータモデリングシステムとして構成される。

　また、本発明は、上記データモデリングシステムで行われるデータモデリング方法としても把握される。

　本発明によれば、データベース間の整合性を解釈する際に人手による煩雑さを軽減し、コストを削減することができる。

データモデリング装置の構成図である。データモデリングにおける処理フローである。不確定性を判定する処理フローである。不確定性の対処を行う処理フローである。データモデリングにおける結合の可能性探索の例である。メタデータテーブルの構造例を示す図である。不確定性定義リストのテーブル構造を示す図である。データモデリング状態を記憶するデータ構造の例を示す図である。モデリングエンジンの詳細構成を表す図である。

　本発明の実施形態を図面により詳細に説明する。

　図１に本発明にかかるデータモデリングシステム、データモデリング方法を適用したデータモデリングシステムの構成例を示す。なお、以下では、本発明にかかるデータモデリングシステム、データモデリング方法を、複数の一般的なＰＣ（Personal Computer）等の情報処理装置から構成されるシステムに適用した場合について説明しているが、これらの各機能を、１または複数の情報処理装置で実行する等、実施の態様に応じて、適宜変形して実施することができる。

　図１に示すように、データモデリングシステムは、モデリング環境１００、メタデータ生成環境１３０、可視化／分析環境１７０を備える。各環境は、ネットワーク１６０、１６１によって通信可能な状態に接続されている。モデリング環境１００、メタデータ生成環境１３０、可視化／分析環境１７０は、ハードウェアとしては、１または複数のコンピュータにより構成される。

　メタデータ生成環境１３０は、ＣＰＵ１４０と外部記憶装置１５０を備える。ＣＰＵ１４０では、ソフトウェアとして実装されるメタデータ生成部１４１を実行する。外部記憶装置１５０には、データソース格納ＤＢ１５１とメタデータ格納ＤＢ１５２とが記憶され、これらはネットワーク１６０を通じモデリング環境１００からも参照可能な状態となっている。

　モデリング環境１００は、ＣＰＵ１１０、外部記憶装置１２０、入力装置１０１、出力装置１０２を備える。ＣＰＵ１１０では、ソフトウェアとして実現されるモデリングエンジン１１１、不確定性判定／解決部１１２、またＧＵＩなどのユーザインターフェイスを表示し入力を受け付ける、ＵＩ入力部１１３、ＵＩ出力部１１４を実行させる。このうちモデリングエンジン１１１は本モデリング装置の中核をなし、図９に示すように、キーワード受付部９０１、カラム選択受付部９０２、カラム検索部９０３、モデリング部９０４、カラム抽出部９０５、テーブル候補更新部９０６、データベース出力部９０７を有する。これらの各部の機能については、フローチャートを用いて後述する。

　外部記憶装置１２０は、ＣＰＵ１１０に接続され、モデリング状態記憶部１２１、モデリング結果保存ＤＢ１２２、不確定性定義リスト１２３を保持する。モデリング状態記憶部１２１はモデリングエンジンにおける来歴を含む作業状態を記憶する。モデリング結果保存ＤＢ１２２はモデリングエンジンで生成した結果となるテーブルを格納する。不確定性定義リスト１２３はモデリングエンジン１１１や不確定性判定／解決部１１２と合わせ、ソフトウェアの実装あるいはその外部定義として事前準備される。また、これらのうちモデリング状態記憶部１２１およびモデリング結果保存ＤＢ１２２については、ネットワーク１６１を通じ、可視化／分析環境から参照可能な状態となる。

　入力装置１０１は、例えば、キーボードやマウス、タッチパネル等の入力機器であり、ユーザから情報の入力を受けＵＩ入力部１１３に引き渡す。出力装置１０２は、例えば、ディスプレイ等の出力機器であり、ユーザに対し、ＵＩ出力部１１４で生成した映像情報を表示する役割を持つ。

　可視化／分析環境１７０は、ＣＰＵ１８０と、入力装置１７１、出力装置１７２を備える。ＣＰＵ１８０では可視化／分析部１８１、ＵＩ入力部１８２、ＵＩ出力部１８３を有する。可視化／分析部１８１によって生成した可視化／分析の結果はＵＩ出力部１８３を経て、出力装置１７２によってユーザに表示される。ユーザによる可視化／分析の指示は、入力装置１７１からＵＩ入力部１８２に送られ、可視化／分析部１８１へと通知される。

　図１に示される構成例を用いて、本実施例のデータモデリングの手順を説明する。メタデータ生成環境１３０には、あらかじめ、分析や可視化の対象となるデータベーステーブル群がデータソース格納ＤＢ１５１に集積されている。メタデータ生成部１４１は、データソース格納部１５１に収められたテーブルを統計的に分析し、メタデータを生成、メタデータ格納ＤＢ１５２に格納する。メタデータとは、データベースのカラムに紐付けられた付加情報であり、データベース上のテーブル定義を利用するほか、そのカラムの値やカラムの値と値との間の関係を統計的に分析して得られる情報である。メタデータの例を図６に示す。

　テーブル６０１は、単カラムのメタデータテーブルの例である。データソース格納ＤＢ１５１に格納されるテーブル群に含まれるカラムをキーとしてデータ型、桁数、ユニーク性、有効要素数などを保持している。なお、ユニーク性とは、そのデータがテーブル内で一意に識別されるデータであるか否かを示す項目である。また、有効要素とは、１つ１つのデータの値に重複がないとしたときのデータの数を示す項目である。図６上段に示すように、テーブル６０１は、テーブル名がテーブルＡであり、カラム名がカラム１、カラム２の２つの項目を有したテーブルであることを示している。また、カラム１で示される項目は９桁の数値型の項目であり、１１０１個のユニークなデータがあることを示している。同様に、カラム２で示される項目は６－９桁の文字列型の項目であり、重複するデータを含んで２２個のデータがあることを示している。

　テーブル６０２は、カラム間関係のメタデータテーブルである。２つのテーブルとカラム組合せをキーとし、両カラムの値の共通要素数などを保持している。なお共通要素とは、テーブルのカラム間同士で値が共通するデータの数を示す項目である。図６下段に示すように、テーブル６０２は、テーブルＡのカラム１とテーブルＣのカラム１との間における共通要素がなく、それぞれのテーブルのカラムのデータは重複していないことを示している。同様に、テーブルＡのカラム１とテーブルＣのカラム２との間では、共通要素が２２個、すなわち、同じ値のデータが２２種類存在することを示している。

　これらのメタデータテーブル６０１、６０２はメタデータ格納ＤＢ１５２に格納され、任意のタイミングで、モデリングエンジン１１１から参照される。参照の際は、データソース格納ＤＢ１５１におけるテーブルおよびカラムが、その検索のキーとなる。

　メタデータ生成環境１３０でのメタデータ生成は、データソース格納部１５１に格納する分析対象テーブルを更新した場合に一度実施すれば良い。一般には分析の対象となるテーブルを集積することで分析の範囲を定めた後、同一の分析範囲で作成されたメタデータを用いたモデリング操作が繰り返し行われることが想定される。

　また、メタデータ格納ＤＢ１５２は、以上に述べたデータソース格納部１５１を統計的に分析して得られる情報以外に、メタデータを活用する際の補助情報として、あらかじめ事前準備される分析補助情報を保持する。例えば、業務用語辞書がそれにあたり、業務上用いられる用語の類語関係や階層関係、またそれがデータベース上であり得る表現などを辞書内に保持している。例えば「売上金」という用語に対して、類語「ＳＡＬＥＳ」などは同じ意味を持つ文字列を探索の際に考慮するのに用いられ、またそれが数値型や離散値であることなど、計算機上の値としてあらわれる際の特徴を使うことで、モデリング探索の補助に用いる。ただし、本発明の目的は、適用先業務への準備段階のコストを軽減することであり、こうした補助情報は適用先に特化して作るものではなく、共通的あるいは業務分野ごとにある程度汎用的なものを事前に準備しておく形をとることで、個別業務への導入時のコストに影響を与えることはしない。

　モデリングエンジン１１１によって行われる、モデリングエンジンにおける処理フローを図２に示し、以下に順を追って説明する。

　ステップ２０１では、ユーザにより、テーブルを結合するための興味軸の指定を受け付ける。具体的には、ユーザは入力装置１０１からＵＩ入力部１１３を通じてモデリングエンジン１１１のキーワード受付部９０１を用いて入力し、モデリング部１１１がこれを文字列として受け付ける。

　ステップ２０２において、モデリングエンジン１１１のカラム検索部９０３は、ステップ２０１で入力された興味軸を、データソース格納ＤＢ１５１より探索する。探索は入力されたキーワードに対し、一致度や意味的な類似性を評価して、データソース格納ＤＢ１５１内のカラムを探索し、マッチしたカラムを持つテーブルを候補として取得する。ここでの類似性を判定する上で、メタデータ格納ＤＢ１５２にある統計分析情報や分析補助情報が用いられ、例えばカラム名の使用用語のブレや文字列表現上のブレの許容が行われる。また別の例として、１つの興味軸指定でマッチするカラムは単一とせず、例えば「生年月日」のようなキーワードに対して、「年」「月」「日」に分割されたカラム群をマッチするような処理も行われる。こうした解釈はメタデータ格納ＤＢ１５２上の分析支援情報の階層関係によって支援される。

　ステップ２０３において、モデリングエンジン１１１のモデリング部９０４は、探索の結果得られたテーブル群を、マッチしたカラムについて複数の結合方法により結合する可能性を探索し、結合結果群をモデリング候補としてモデリング状態記憶部１２１に保持する。ステップ２０２同様に、メタデータ格納ＤＢ１５２の情報は、テーブル間やカラム間の結合可能性を探索する際の評価材料として用いられる。

　ステップ２０４では、モデリング部９０４は、モデリング状態記憶部１２１に記憶した、現モデリング状態の可視化形態であるテーブルをユーザに対し結合候補を提示する。結合候補は、ＵＩ出力部１１４、出力装置１０２を経て提示される。現モデリング状態として複数の候補を有する場合、ＧＵＩにより切り替えて表示することも可能とする。ここでの提示方法としては、テーブル形式以外に、可視化／分析部１８１による出力を確認可能とすることも想定される。モデリング状態記憶部１２１にあるモデリング状態は可視化／分析部１８１により参照可能であり、ＵＩ出力部１８３、出力装置１７２を通じて、グラフなどの任意の可視化手段で提示することが可能である。

　ステップ２０５では、ユーザによる終了指示を受け付ける。具体的には、入力装置１０１からＵＩ入力部１１３を通じてモデリングエンジン１１１のキーワード受付部９０１を用いて入力し、モデリング部９０４がこれを終了指示として受け付ける。

　ステップ２０５で作業を終了しない場合、ステップ２０６で再びユーザによる興味軸を受け付ける。ステップ２０１同様のキーワードによる自由入力の他、モデリング状態記憶部１２１に記憶した、現モデリング状態から新たな興味軸候補になり得るカラムを抽出、ユーザに提示し選択させる方法によっても入力可能とする。この処理ではモデリングエンジン１１１のカラム抽出部９０５によって選択候補が抽出され、モデリングエンジン１１１のカラム選択受付部９０２によってユーザに選択肢として表示しユーザ選択を受け付ける。上記新たな興味軸の候補になり得るカラムとは、例えば、ステップ２０２のように、ステップ２０１で入力された以外のカラムである。

　ステップ２０７～２１０の分岐処理ついては、現モデリング状態に保持する候補ごとに行う。

　ステップ２０７は、ステップ２０６で入力された新たな興味軸が対象としているモデリング候補内のカラムとして含まれているかどうかでの分岐となる。この判定はステップ２０６でのカラム抽出部９０５の抽出処理に共通するものであり、ステップ２０６でユーザがカラム抽出部９０５によって抽出されたカラムを選択する方法を選んだ場合は、ステップ２０７の分岐はＹＥＳに移動する。ステップ２０６でキーワードによる入力を行った場合には本判定により分岐することになる。

　ステップ２０７で、モデリングエンジン１１１のテーブル候補更新部９０６は、現モデリング状態の候補に新たな興味軸が含まれていた場合（ステップ２０７；Ｙｅｓ）、ステップ２０８において当該カラムを興味軸として指定し、そのモデリング候補を残す。

　ステップ２０７で、現モデリング状態の候補に新たな興味軸が含まれていない場合（ステップ２０７；Ｎｏ）、ステップ２０９において、テーブル候補更新部９０６は、データソース格納ＤＢ１５１を新たな興味軸によって探索し、さらに対象となるモデリング候補に結合可能であるテーブルを絞り込む。

　ステップ２１０では、テーブル候補更新部９０６は、ステップ２０９での探索結果テーブルを、現モデリング状態の候補に結合し、これを新たな候補として更新する。このように、テーブル候補更新部９０６は、データベースであるデータソース格納ＤＢ１５１から新たな興味軸となるカラムを探索し、探索したそのカラムを含むテーブルを現モデリング候補に結合可能なテーブルとして絞込み、絞り込んだその結合可能なテーブルを現モデリング候補に結合した新たなモデリング候補を出力している。

　ステップ２１１では、モデリング部９０４は、ステップ２０７～２１０での処理において、更新された現モデリング状態をユーザに提示する。ステップ２０４と同等の処理内容となる。

　ステップ２１２は、ステップ２０５と同じくユーザの作業終了判断を受け付ける。作業終了でなかった場合は、ステップ２０６より興味軸の追加を繰り返す形となる。

　以上図２に示した処理フローによって、本発明の１実施形態が実現される。

　なお、ステップ２０３およびステップ２１０においては、ユーザが入力した興味軸に従って探索されたテーブル群を結合する可能性をモデリング候補群として記憶する処理が行われる。この処理を、図５を用いて詳細に説明する。

　各々の前ステップで、探索されたテーブルを５０１、５０２とする。また、探索の際に興味軸にマッチすると判断されたカラムをそれぞれ５０３、５０４とする。

　これらのテーブル５０１、５０２を結合する方法として、横に結合するか、縦に結合するかの２つの選択肢がある。さらに横に結合する場合は、興味軸カラムとは別のカラムについて集約した上で結合するため、どのカラムについて集約するかの選択肢がある。

　図中テーブル５１１は、横方向に結合する可能性の１つである。結合元のテーブル５０１、５０２での興味軸カラム５０３、５０４について、日付ごとの集計を行った上でそれぞれカラム５１３、５１４として、１つのテーブルに結合した例である。同様に日付以外のカラムを用いた集計を行うことも可能である。また興味軸以外のカラムも集計可能であれば、結合後テーブル５１１に残ることになる。

　テーブル５１２は、縦方向に結合する可能性の１つである。興味軸カラム５０３、５０４は縦方向に結合され、新たにカラム５１５として１つのテーブルに結合されている。また興味軸以外のカラムについては、メタデータ格納ＤＢ１５２にメタデータとして保持される、カラム名やその値の類似性などから結合妥当性を判断し、結合後のテーブルに残すかどうかが判定される。ただしこれらは結合後テーブルに必ず残すことが期待される興味軸指定のカラムとは異なり、続く興味軸追加を行う際の候補としての意味が強い。

　以上のようにして探索されたテーブル５０１、５０２の結合の可能性すべてが、ステップ２０３やステップ２１０でモデリング候補として扱われる。図５の例では２つのテーブルを結合する例を示したが、３つ以上のテーブルであっても同様に結合の可能性を探索する。

　次に、図２のフローにおいて利用されるモデリング状態記憶部１２１のデータ構造について図８を用いて、詳細に述べる。

　モデリング状態記憶部１２１は、その来歴として、ユーザにより興味軸指定をするごとに追加される来歴テーブル８０１を持つ。このテーブルは、図２におけるステップ２０３や、ステップ２１０のタイミングで追加される。このテーブルの各行はモデリング作業の１手順に伴うモデリング状態を示しており、特にこの最終行が現在の状態を示し、本明細書では現モデリング状態と呼びわける。また、現モデリング状態から、来歴構造テーブル８０１における各行、すなわち来歴上のモデリング状態へは、任意にロールバックすることを可能としている。その実現方法はいくつかあるが、簡単には初期状態から、来歴テーブル８０１の先頭からユーザ入力を興味軸カラムに記憶された値で代替し、図２のフローを順次やり直していくことで、任意の来歴上のモデリング状態を作ることができる。

　来歴テーブル８０１は、各来歴としてその時点で想定しうる、モデリング候補を保持している。モデリング候補の詳細は、モデリング候補テーブル８０２で別途保持され、来歴構造テーブル８０１からはその状態ＩＤによって参照される形となる。

　モデリング候補テーブル８０２の１行は、１つのモデリング候補を表しており、直前の状態とそこに対して行われたモデリング操作とその操作で新たに追加されたテーブルとをそれぞれ保持することで、これを表現している。図中、Ｔ－０１、Ｔ－０２は、例えば、図５に示したテーブル５０１、テーブル５０２にあたるテーブルである。なお、図中の不確定ＩＤについては後述する。ここで、直前状態ＩＤは、モデリング候補テーブル８０２自身の状態ＩＤを参照する。また、追加テーブルＩＤはデータソース格納ＤＢ１５１内での各テーブルに一意に割り振られた識別子となる。

　各モデリング候補からは、直前の状態を順次たどっていくことで、そのモデリング候補に使われているデータソース格納ＤＢ１５１上のテーブルと、それらの間で行われたモデリング操作とを導出することができ、これらを用いてモデリング候補が表すテーブルを構築することができる。これらのモデリング候補を、ＵＩ出力部１１４を通じてユーザに提示したり、あるいはこれらのモデリング候補を可視化／分析部１８１から利用する場合には、一度テーブルの形で構築する必要がある。実現する上では、構築されたテーブル自体をモデリング状態記憶部１２１にキャッシュのような形で保持することも可能である。

　モデリングエンジン１１１のモデリング部９０４やテーブル候補更新部９０６は、各モデリング候補として、樹状関係８０３に示すような来歴関係を形成する。この樹状構造は、初期状態をルートとして、ステップ２０３やステップ２１０で来歴テーブル８０１に来歴が追加される処理に対応して、樹状構造の１階層を追加する。なお、図８に示すデータ構造に保持する情報は、データモデリングエンジン１１１のデータベース出力部９０７によって、モデリング結果保存ＤＢ１２２に保存可能である。

　本実施例では、モデリングにともなう不確定性を操作フローの中でハンドリングする処理を実行する。不確定性は、結合しようとするテーブル間での入力時の基準の違いによって発生しうる。こうした不確定性は、従来人手によってデータ間の整合性を確保する作業に含めて、事前解決することができた。本実施例ではその準備段階にかかるコストを軽減する目的で、事前準備を統計分析等でとどめていることから、こうした入力時の基準の違いなどを事前に修正しておくことができない。本実施例ではその対策として、モデリングの際に不確定性をハンドリングする仕組みを導入し、ユーザの操作フローの中で、不確定性に対処していく形をとる。図２に示した処理フローに加えて、不確定性をハンドリングする実施例を示す。以下に示すように、モデリングエンジン１１１のモデリング部９０４は、カラムを結合する際に、結合するカラムが同じ基準で入力されたデータか否か、すなわちデータの不確定性の有無やそのときのスコアを判定し、その判定結果を、どのデータソース格納ＤＢ１５１のテーブルから結合されたデータかを示す情報（例えば、図８に示したモデリング候補テーブル）と対応付けて結合結果として記憶部に記憶する。したがって、任意の不確実性発生時のモデリング状態にロールバックできるだけのモデリング経過を示す情報や履歴を示す情報を残しているため、どのテーブルに対してモデリング操作した結果、不確定性が生じたのか否か、不確定性が生じた場合にはそのときのスコアの値を把握することができる。

　本実施例における不確定性は、図１における不確定定義リスト１２３にあらかじめ定義する。このリストは、モデリング操作を行う際に発生しうる不確定性を事前に想定し準備しておくものである。ここで定義する不確定性は、データモデリングを行う際に典型的なパターンとして起きうる想定をリストアップしたものである。典型的なパターンとして、その不確定性を判定する方法も同時に定義できる。また、ここでの不確定性とは、必ずしもユーザが期待する、あるいは逆に望まないモデリングを断定するものではない。従って、本実施例における不確定性はあくまでも、ユーザ指定の興味軸に対する自動モデリングに対する確度を低下させる要因として捉え、モデリングに付与された不確定性は何らかのタイミングでユーザによって解決されることが期待される。その際上述の通り、不確定性は典型的パターンのリストであり、そのことは同時に、その解決策についても典型的な方法を準備できることを意味する。

　不確定性定義リスト１２３は図７に示すようなテーブル構造７０１を想定し、１行ごとに不確定性の定義を保持し、その識別ＩＤ、不確定性ありと判断した理由を示す不確定性種別を持ち、不確定性に対する判定方法および対処方法への参照を持つ。判定方法ならびに対処方法は、図７ではモジュールＩＤとして保持しておりＣＰＵ１１１上で実行可能なソフトウェアモジュール７０２、７０３を指し示す。モジュールＩＤを指定することで、それに対応するソフトウェアモジュールを随意に呼び出すことが可能となっている。本実施形態においてはこれらのソフトウェアモジュールの実体は、不確定性判定／解決部１１２にある。図７では、不確定性定義を識別するためのＩＤと、そのＩＤによって識別される不確定性種別と、その種別の不確定性の判定方法と、その種別の不確定性が生じた場合における対処方法とが対応付けて記憶されている。例えば、Ｕ－１で識別される日付範囲不一致の不確定性が生じたと判定された場合には、モジュールＩＤ１００１のモジュールが、結合しようとするそれぞれのテーブルに含まれる日付情報を比較し、日付のずれが許容範囲内であるか否かを判定する。そして、そのモジュールが、各テーブルの日付情報が上記許容範囲内にないと判定した場合には、例えば、モジュールＩＤ２００１で識別されるモジュールが、一致する日付範囲を優先し、共通する範囲のみを結合対象として選択する。各モジュールの中身は、判定方法としては結合するテーブルやカラムが同じ基準で入力されたデータか否かの判定ロジックであり、対処方法は不確定性に対する対処となるデータ加工ロジックである。

　不確定性定義リスト１２３やそこから参照される不確定性判定／解決部１１２の判定方法および対処方法のモジュールは、モデリングの際に発生しうる不確定性を想定しあらかじめ準備するものである。

　具体的な例としては、２つのテーブルをなんらかの興味軸に沿って結合したとして、両テーブルに日付を表すカラムがあったならば、両テーブルの日付範囲が両テーブルで全く異なっていた場合、結合するにふさわしくない可能性、すなわち不確定性があったものと判断できる。日付範囲が重複なくほぼ連続している場合は、縦方向に結合するにふさわしく、日付で集計して横方向に結合するのにはふさわしくないと行ったモデリングの種別に応じた判定を行う場合もある。また、対処方法の例として、両テーブルで日付期間に重複があっても、ずれがあるような場合には、重なる期間のみを残してデータ結合を行うなどの方法がある。

　上述の通りモデリングに伴う不確定性をハンドリングする処理は２つに分かれる。１つは不確定性を判定する処理であり、図２のフローにおけるステップ２０３およびステップ２１０の直後に付与される。またもう１つは不確定性に対して対処する処理であり、例えば前記判定処理の直後に実施することができる。各々の処理フローについて図を用いて詳細に説明する。

　図３のフローは、モデリングエンジン１１１によって行われる不確定性を検出する処理を表す。この処理は、ステップ２０３およびステップ２１０によってモデリング状態記憶部１２１に記憶した際、すべてのモデリング候補について順次行う。

　ステップ３０１では、モデリングエンジン１１１のモデリング部９０４やテーブル候補更新部９０６は、本フローの対象として、不確定性定義リスト１２３より不確定性の定義をＩＤ順に取得する。不確定性については図７でのテーブル構造７０１における固有の識別値（ＩＤ）を利用してハンドリングする。

　ステップ３０２では、モデリング部９０４やテーブル候補更新部９０６は、取得した不確定性定義の識別ＩＤに対応する判定方法を取得する。本実施形態では、上述の通り図７の不確定性定義リストのテーブル構造７０１より判定方法を表すモジュールＩＤを取得する形となる。

　ステップ３０３では、モデリング部９０４やテーブル候補更新部９０６は、ステップ３０２で取得した、不確定性の判定方法のモジュールＩＤをもとにＣＰＵ１１１上で実行可能なソフトウェアモジュールを呼び出し実行する。ソフトウェアモジュールは、例えば、外部記憶装置１２０に記憶されている。判定方法のモジュール７０２は、不確定性定義リストの定める不確定性が存在するかどうかを判定するロジックが実装されたものであり、ステップ２０３やステップ２１０において結合した結果テーブルを、定義する不確定性の観点から判定し、モデリング確度として数値化し、その値を返却する。数値化は例えば０～１００の値を確度のスコアとして表現することが考えられる。なお確度スコアの数値は、判定方法モジュール７０２の実装時の調整により、不確定性定義リスト１２３にあらわれるすべての不確定性定義について、統一した基準で数値化されることが望まれる。

　ステップ３０４では、モデリング部９０４やテーブル候補更新部９０６は、ステップ３０３での結果をもとに、対象としている不確定性定義を用いて、妥当な結合であるか、言い替えると不確定性の介在する余地はないかを判定し分岐している。上記のようにステップ３０３が確度を０～１００の確度としてスコア付けするのであれば、一定の閾値、例えば８０以上の確度があるときは妥当な結合として判定するなどの分岐処理となる。

　ステップ３０４で、モデリング部９０４やテーブル候補更新部９０６は、十分な妥当性がないと判断した場合、すなわち不確定性があると判断された場合には、ステップ３０５に至る。ステップ３０５では、モデリング状態記憶部１２１に保持される、図８におけるモデリング候補テーブル８０２に対し、モデリング操作情報と合わせて、ステップ３０１以降対象としている不確定性のＩＤとステップ３０３で算出したスコアとを記憶する。例えば、図８の例では、モデリング部９０４やテーブル候補更新部９０６がテーブルＴ－０１とＴ－０２とを縦結合し、識別ＩＤがＵ－２の不確定性定義をモジュールＩＤ１００２のモジュールで判定したが、そのスコアが４０であったことがわかる。

　ステップ３０５で、上記モデリング部９０４やテーブル候補更新部９０６は、上記不確定性のＩＤとステップ３０３で算出したスコアとを含むモデリング候補テーブル８０２に記憶されている情報を、出力装置１０２に出力して表示する。ユーザは、表示されたこれらの情報を確認することにより、どのようなテーブルに対するモデリング操作によりどのような不確定性が生じ、その際のスコアを、一見して容易に把握することができる。また、表示された上記モデリング候補テーブル８０２に記憶されている情報は、時系列に順に履歴で表示されるので、現モデリング状態がどのような経緯で得られたものかを一見して容易に把握することができる。

　ステップ３０７では、モデリング部９０４やテーブル候補更新部９０６は、不確定定義リスト１２３のすべての不確定性定義についてステップ３０１～３０５の処理が実施されたかを確認し、未実施の不確定性定義が残っていればステップ３０１に戻る。不確定定義リスト１２３のすべての不確定性定義について実施済になれば図３のフローは終了となる。

　図３の処理フローで、モデリング状態記憶部１２１には、モデリング候補とともに、それらに紐付く不確定性情報（例えば、図８に示した来歴テーブルやモデリング候補テーブルに含まれる項目の内容）が付与される形で記憶される。本実施例では、これらの不確定性はユーザに提示され対処を行う。そのタイミングとして、その不確定性を検出した時点、すなわち図３で示した処理フローの直後であっても良く、その場合の不確定性対処は図３のフローで対象としたモデリング候補がそのまま対象となる。

　また、任意のタイミングでユーザの対処指示を受け付けるようなことも想定する。その場合、不確定性の対処は、図８のモデリング状態を示すデータ構造内に保持されているモデリング候補のうち、来歴テーブル８０１の最終行に示される、現モデリング状態に保持されるモデリング候補の他、それらから樹状関係８０３をたどって取得される来歴上のモデリング候補が対象となりうる。上記モデリング部９０４やテーブル候補更新部９０６は、これらのモデリング候補群から、不確定性の情報を持つものを一覧としてユーザに提示し、任意のタイミングで、不確定性を対処するフローを起動する。

　上記で対象となるモデリング候補を特定した後、不確定性の対処を行う。不確定性への対処について、図４の処理フローで示す。以下に示すように、モデリング部９０４は、結合するカラムが同じ基準で入力されたデータでないと判定した場合、その判定の理由を示す不確定性種別とその不確定性種別で示される不確定性の判定方法およびその判定方法により判定されたときの対処方法とが対応付けてあらかじめ記憶された対処法テーブル（図７）に基づいて、ユーザが不確定性を判定してその対処方法による対処を実行し、カラムを結合したテーブルをモデリング候補として出力する。したがって、不確定性があると判定された場合であっても、ユーザによりその対処が実行され、対処実行後のモデリング候補が提示されるので、不確定性に対してどのような対処が適切かといった選択肢を人手で考える必要がなくなり、ユーザによる煩雑さを軽減することができる。

　ステップ４０１で、モデリングエンジン１１１のモデリング部９０４は、対象とするモデリング候補から、モデリング候補テーブル８０２における、不確定性のＩＤを取得する。

　ステップ４０２では、モデリング部９０４は、ステップ４０１で取得した不確定性のＩＤをもとに不確定性定義リスト１２３のテーブル構造７０１を参照し、該当する不確定性種別を特定し、その対処方法を取得する。図７に示すように対処方法は、ＣＰＵ１１０で実行可能なソフトウェアモジュールであり、テーブル構造７０１上では、モジュールＩＤとして保持されており、モジュールＩＤをもとに不確定性判定／解決部１１２に問合せを行うことで、その実体を得ることが可能となっている。また、対処方法は、１つの不確定性に対し複数定義が可能であり、ステップ４０２ではそのすべてを取得する。ソフトウェアモジュールは、判定方法のモジュールと同様に、例えば、外部記憶装置１２０に記憶されている。

　ステップ４０３では、モデリング部９０４は、ステップ４０２で取得した対処方法をユーザに選択肢一覧として提示し、ユーザによる選択入力を受け付ける。その際対処しようとしているのがどのような不確定性であるのかといった情報とともに選択肢である対処方法が説明文付きで提示されることが望ましい。また、その際、対処を行わず不確定性を承認するといった、不確定性の内容によらない選択肢も提示される。

　ステップ４０４では、モデリング部９０４は、現モデリング状態を、対処しようとしている不確定性が発生した時点のモデリング状態に戻す。データモデリングにおける不確定性は、モデリングの操作来歴におけるモデリング候補テーブルに含まれるモデリング操作に紐付いており、モデリング部９０４やテーブル候補更新部９０６は、その操作時点の状態にロールバックすることで上記対処を行う。不確定性の対処のタイミングがその判定直後であれば、ロールバックは不確定性の発生したモデリング操作のみが対象となる。

　ステップ４０５では、モデリング部９０４は、ステップ４０３で選択された対処方法の実体であるソフトウェアモジュールを実行する。その内容は、不確定性の定義次第であるが、例えば、前述したような結合ずるテーブル間の日付期間のずれという不確定性に対する対処方法としては、重複期間のみを結合対象とするという選択肢があり得る。その場合のモジュールでの実行処理は、結合対象となるテーブルについてそれぞれあらかじめ重複する期間のみを抽出したのちに結合する、といった内容となる。

　ステップ４０６では、モデリング部９０４は、ステップ４０４でロールバックした操作を再実行する。ステップ４０４で示したように、モデリングの操作来歴を順に行うことになる。その流れは図２および図３でのフローに示した処理と同様だが、再実行であるため、一度ユーザが入力した興味軸は、操作来歴に記憶したものをそのまま利用する形となる。そのためステップ２０１およびステップ２０６での入力受付は発生しない。また、ロールバックした操作の再実行において、不確定性を持つモデリング候補がその過程にあり、その不確定性が対処済みであった場合、そのモデリング操作実行の際に合わせて対処方法も実行される。

　またその際、ステップ４０５で１つの不確定性に対する対処がなされたことで、その時点のモデリング状態が変更されるため、ロールバックした操作の再実行については、対処前とは結果が異なることもある。例えば、モデリング状態のテーブルのカラムやレコードに対処の影響が現れるほか、モデリング状態として保持されるモデリング候補に追加削減があったり、各候補ごとに保持する不確定性にも増減が生じうる。

　以上、図４の処理フローによって、ひとつの不確定性に対し対処が行われる。この処理フローを発生した不確定性に順次適用することで、より確度の高いモデリング結果を得ることができる。

　上記実施例１におけるモデリングの不確定性のハンドリングに際し、日付データの期間の違いに着目する例を示す。以下では、モデリング部９０４は、不確定性の基準として、結合するカラムが同じ日付期間のデータであるか否かを判定している。

　モデリングエンジン１１１のモデリング部９０４は、テーブルＡとテーブルＢとテーブルＣとを結合する際、興味軸として売上金に沿って結合を行うものとする。この場合、興味軸となった売上金以外に、テーブルＡ、テーブルＢ、テーブルＣのそれぞれには日付のカラムが共通して存在しているものとする。

　一般に、売上金について、データ分析や可視化を行う際に、その日付期間が一致していることが前提となる場合が想定できる。しかしながら各テーブルを異なるシステムから、集めてきた場合には、例えば、テーブルＡおよびテーブルＢについては、売上金の集計が２０１２年４月から開始されて現時点まで継続しているのに対し、テーブルＣについては２０１４年４月から開始されて現時点まで継続しているといった形でのデータの日付期間にずれがある場合が想定される。このような場合を想定し、不確定性定義リスト１２３およびそこから参照される不確定性判定／解決部１１２に準備する例を示す。

　不確定性の判定方法モジュール７０２として、結合するテーブル間の日付期間を比較するものを準備する。日付を表すカラムについての最小値を期間の開始日としてみなし、最大値を期間の終了日として見なして、期間を比較する。上記の例では、テーブルＡおよびテーブルＢについては売上金の集計が２０１２年４月から開始されているため、最小値である２０１２年４月が開始日となる。一方、テーブルＡ、テーブルＢ、テーブルＣの売上金の集計がいずれもが現時点まで継続しているため、最大値である現在の日付が終了日となる。なお、カラムに紐付く最小値および最大値については、単カラムメタデータとしてメタデータ格納ＤＢ１５２において図６に示されるテーブル６０１のような形式で保持されている。

　これに対応する対処方法モジュール７０３としては、結合するテーブルのそれぞれからＡＮＤ条件を満たす重複期間のデータのみを扱うというモジュールを準備しておくことができる。上記の例では、テーブルＡ、テーブルＢ、テーブルＣのすべてについて、２０１４年４月からのデータのみを使って結合する形となる。

　それ以外の対処方法として、日付期間の長さを優先し、ＯＲ条件を満たす最大の日付期間が取得できるテーブルの組合せのみを利用する、という方法も準備しておくことができる。上記の例では十分な期間を持たないテーブルＣを無視して、テーブルＡおよびテーブルＢのみを利用し最大の２０１２年４月から現在までの日付期間を使ったデータ結合を行うことになる。

　図４のステップ４０３に示すように、こうした対処方法は自動適用されるものではなく、ユーザに対し提示した上で選択を促すものである。ユーザが最終的に行いたい分析や可視化につながるものを選択することが期待される。目的次第では、ここに示した２つの選択肢以外に、日付期間についてはとくに対処せず、そのまま結合を行うという選択もある。

　以上のように日付期間に着目して、不確定性定義リスト１２３と不確定性判定／解決部１１２とを準備しておくことで、日付に基づく不確定性をハンドリングする。

　上記実施例１におけるモデリングの不確定性のハンドリングに際し、結合するカラム間の種類（以下では種類の違いの一例として単位）の違いに着目する例を示す。以下では、モデリング部９０４は、不確定性の基準として、結合するカラムが同じ単位のデータであるか否かを判定している。

　モデリングエンジン１１１のモデリング部９０４は、テーブルＡとテーブルＢを結合する際、売上金という興味軸に沿って結合を行うものとする。その際、テーブルＡとテーブルＢの双方に売上金に該当するカラムがあった場合、これを結合しようとする。縦方向に結合する場合、テーブルＡの売上金カラムと、テーブルＢの売上金カラムが、同じ基準の売上金であることが、確度の高いモデリング操作であることの条件となる。

　一般に業務システムにおいて、売上金を扱う場合、システム内でその単位がどの通貨で表現するかについては暗黙に定めている場合も多いが、テーブルＡとＢとを異なるシステムから集めてきた場合、両者が同じ通貨を用いていないことも想定される。また、通貨単位の違いのみでなく、仮に同じ日本円であっても、管理方法の違いからＭ￥（１００万円単位）やｋ￥（１０００円単位）など、桁数の扱いが異なる場合も想定される。このような場合を想定し、不確定性定義リスト１２３を準備する例を示す。

　不確定性の判定方法モジュール７０２として、結合するテーブル間の結合するカラムついて、数値分布を比較し、大きな違いがないかを判定することができる。本例では売上金の単位や桁数の数値分布を比較するため、結合対象となるカラム同士の値の最大値または最小値、平均または中央値などを比較し、これらのカラム同士の値に大きな差異がないことを確認する。例えば、上記数値分布として両者が重複する面積が予め定められた割合が一定以上の場合（例えば、両者の総面積に対して５０％以上が重複しない場合）には、両者の通貨単位が異なっていると判定する。

　これに対応する、対処方法モジュール７０３としては、単位変換を行うデータ加工を準備しておくことができる。なお、通貨単位まで確定することは難しいため、ユーザ入力を伴って、単位や変換レートを確定させる操作を伴うことも想定する。また、特に１０００倍や１００００倍などに桁数の扱いによる違いに対してはその対処方法として、一方の売上金の桁数を参照し、他方の売上金の桁数をその桁数に合わせるために倍率を乗算し、両者の売上金の桁数の整合性を取るデータ加工も準備しておくことができる。この判定及び対処の方法については、通貨のみならず、他の単位系についても使用することができる。

　以上のように実施例３と実施例４では日付期間や単位に着目して不確定性定義リスト１２３を準備する例を示した。このように、一般あるいは業務上の通念を元に、モデリングにおいて想定されうる不確定性を事前に準備しておくことで、ハンドリング可能な不確定性を拡充し、モデリングの精度を向上させることにつなげることが可能である。

　上記したように、本システムでは、人手によってデータベース間の整合性を担保するのではなく、統計分析など自動処理によって得られるメタデータによりこれを代替する。この場合、ビジネスインテリジェンスをセルフサービス化する際、メタデータを手がかりとした場合、簡易なユーザ入力からデータモデリングを一意に確定させることができるとは限らない。しかし、上記のような処理を実行することにより、これをデータモデリングにおける不確定性として抽出し、データモデリング操作フローの中でハンドリングする仕組みを準備し、ユーザに解決の機会を提供する。したがって、データベースのモデリングに際し、簡易なユーザ入力からデータモデリングを行う場合の事前準備にあたる工程を軽減することができる。また、例えば、ビジネスインテリジェンスのセルフサービス化にあたって、事前に十全のデータベース間の整合性を担保する必然性を軽減し、そこにかかるコストを削減することができる。

　以上のように、データモデリングシステムでは、情報処理装置を用いて、既存データベースのデータを複合的に用い、新たなテーブルを生成し、データ分析や可視化を行うためのモデリングを行う用途に適している。

１００：　モデリング環境
１０１：　入力装置
１０２：　出力装置
１１０：　ＣＰＵ
１１１：　モデリングエンジン
１１２：　不確定性判定／解決部
１１３：　ＵＩ入力部
１１４：　ＵＩ出力部
１２０：　外部記憶装置
１２１：　モデリング状態記憶部
１２２：　モデリング結果保存ＤＢ
１２３：　不確定性定義リスト
１３０：　メタデータ生成環境
１４０：　ＣＰＵ
１４１：　メタデータ生成部
１５０：　外部記憶装置
１５１：　データソース格納ＤＢ
１５２：　メタデータ格納ＤＢ
１６０：　ネットワーク
１６１：　ネットワーク
１７０：　可視化／分析環境
１７１：　入力装置
１７２：　出力装置
１８０：　ＣＰＵ
１８１：　可視化／分析部
１８２：　ＵＩ入力部
１８３：　ＵＩ出力部

Claims

　１または複数のデータベースに記憶されている複数のテーブルを結合するデータモデリングシステムであって、
　ユーザから、テーブルを結合するための軸となるカラムの指定を受け付けるカラム入力部と、
　前記軸となるカラムに類似するカラムを含むテーブルを、前記１または複数のデータベースの中から検索するカラム検索部と、
　検索されたテーブルに含まれる前記軸となるカラムに類似するカラムを複数の方法で結合し、結合したテーブルをモデリング候補として出力するモデリング部と、
　前記結合したテーブルの候補から、前記入力部から次に指定された次カラムとの類似度が一定以上の類似カラムを抽出するカラム抽出部と、
　抽出された前記次カラムを出力し、出力した前記次カラムの中からユーザが選択したカラムを受け付けるカラム選択受付部と、
　前記次カラムに基づいて前記結合したテーブルの候補を絞り込み、前記次カラムを含むテーブルを新たな前記結合したテーブルをモデリング候補として出力するテーブル候補更新部と、
　を備えることを特徴とするデータモデリングシステム。
　前記テーブル候補更新部は、前記次カラムが前記結合したテーブルに含まれるか否かを判定し、前記次カラムが前記結合したテーブルに含まれないと判定した場合、前記データベースから新たな前記軸となるカラムを探索し、探索した前記カラムを含むテーブルを前記モデリング候補に結合可能なテーブルとして絞込み、絞り込んだ前記結合可能なテーブルを前記モデリング候補に結合した新たなモデリング候補を出力する、
　ことを特徴とする請求項１に記載のデータモデリングシステム。
　前記モデリング部は、結合する前記カラムが同じ基準で入力されたデータか否かを判定し、その判定結果を、どの前記データベースのテーブルから結合されたデータかを示す情報と対応付けて結合結果として記憶部に記憶する、
　ことを特徴とする請求項１に記載のデータモデリングシステム。
　前記モデリング部は、結合する前記カラムが同じ基準で入力されたデータでないと判定した場合、前記判定の理由を示す不確定性種別と前記不確定性種別で示される不確定性の判定方法および前記判定方法により判定されたときの対処方法とが対応付けてあらかじめ記憶された対処法テーブルに基づいて、前記不確定性を判定して前記対処方法による対処を実行し、前記結合したテーブルをモデリング候補として出力する、
　ことを特徴とする請求項３に記載のデータモデリングシステム。
　前記モデリング部は、前記基準として、結合する前記カラムが同じ日付期間のデータであるか否かを判定する、
　ことを特徴とする請求項３に記載のデータモデリングシステム。
　前記モデリング部は、前記基準として、結合する前記カラムが同じ単位のデータであるか否かを判定する、
　ことを特徴とする請求項３に記載のデータモデリングシステム。
　１または複数のデータベースに記憶されている複数のテーブルを結合するデータモデリング方法であって、
　ユーザから、テーブルを結合するための軸となるカラムの指定を受け付け、
　前記軸となるカラムに類似するカラムを含むテーブルを、前記１または複数のデータベースの中から検索し、
　検索されたテーブルに含まれる前記軸となるカラムに類似するカラムを複数の方法で結合し、結合したテーブルをモデリング候補として出力し、
　前記結合したテーブルの候補から、前記入力部から次に指定された次カラムとの類似度が一定以上の類似カラムを抽出し、
　抽出された前記次カラムを出力し、出力した前記次カラムの中からユーザが選択したカラムを受け付け、
　前記次カラムに基づいて前記結合したテーブルの候補を絞り込み、前記次カラムを含むテーブルを新たな前記結合したテーブルをモデリング候補として出力する、
　ことを特徴とするデータモデリング方法。