WO2013128611A1

WO2013128611A1 - データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体

Info

Publication number: WO2013128611A1
Application number: PCT/JP2012/055198
Authority: WO
Inventors: 春名　高明; 児玉　昇司; 浦野　明裕; 陽介石井
Original assignee: 株式会社日立製作所
Priority date: 2012-03-01
Filing date: 2012-03-01
Publication date: 2013-09-06

Abstract

　本発明は、スキーママッチングの精度を向上させ、人手による作業を低減させるデータ管理システムを提供することを目的とする。　複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及びスキーマの項目に関する属性をスキーマごとに定義する属性定義情報を管理するデータ管理システムにおいて、属性定義情報には、属性の名称である属性名と、属性に関連した関連情報とが、スキーマごとに登録され、属性名及び関連情報に基づいて、複数のスキーマに含まれる属性同士をマッチングすることを特徴とする。

Description

データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体

　本発明は、複数のスキーマに従って項目ごとにデータを格納したデータベースを管理するデータ管理システムに関し、特に、複数のデータベースのスキーマをマッチングするデータ管理システムに関する。

　企業活動等で蓄積された大量の非構造データを分析及び利活用するニーズが高まる中、大量のデータに対して一括して処理を実行するために必須となるスキーママッチング技術が重要となっている。スキーママッチングは、異なるデータベースのスキーマ間で同じ情報を表現する箇所を特定し、特定した箇所を統合する処理であり、計算機を用いて自動化されている。

　具体的には、顧客又は患者等に関するデータベースの「生まれた日付」という属性については、データベースごとに、「生年月日」、「出生日」、「誕生日」、及び「DoB (Date of Birth)」というように、異なった名称で表現される場合がある。スキーママッチングは、これらの名称で表現された箇所を対応付けることによって、これら箇所を統合し、これらの箇所に対して一括してデータ処理を実行可能とする。

　スキーママッチングを自動的に実行するシステムとして、データベースのカラム名に対応して実際に格納されたデータを利用して、カラム名同士を対応付けるシステムが知られている（例えば、特許文献１参照）。特許文献１では、カラム名が異なっていても、格納されるデータが共通である場合、当該カラム名同士は共通する可能性が高いという前提でスキーママッチングを進める。また、特許文献１では、データの表現の違い、データの誤り、及びデータ欠損等にも対応できるようなスキーママッチングを実現する。

特開２００９－５９３７１号公報

　実際に格納されたデータに基づいてスキーママッチングを実行する特許文献１であっても、対応付けのための情報が不十分であり、人手によって補足的な作業が必要となる場合もある。このため、カラム名及びカラム名に対応して格納されたデータ以外のデータを利用したスキーママッチングが求められている。

　そもそも、スキーママッチングの対象となるデータベースは、データベースの構築時にスキーマが設計される。スキーマの設計は、データベースのカラム名で表現される項目ごとにどのような意味を持たせるかという設計者の思惑が反映されたものである。

　設計者の思惑は設計書という形で文書化され保存管理されている可能性が高く、設計書に基づかず、データベースのカラム名等のみに基づいてスキーママッチングを実現する特許文献１では、スキーママッチングの精度が低下してしまうのは当然といえる。

　人手による補足的な作業は、設計者の思惑を当該設計者と異なる作業者が慮って、設計者の思惑を補完する作業である。もし、作業者の手許に設計書があれば、設計書の内容に基づいてスキーママッチングをするので、スキーママッチングは容易となる。しかしながら、設計書の内容及び記述形式は一般に計算機が読み取り処理することを想定しておらず、計算機が設計書の情報に基づいてスキーママッチングを自動で実行するのは困難である。

　本発明は、上記課題に鑑み、スキーママッチングの精度を向上させ、人手による作業を低減させるデータ管理システムを提供することを目的とする。

　本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムにおいて、前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、前記プロセッサは、前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定し、前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングすることを特徴とする。

　本発明の一態様によれば、スキーママッチングの精度を向上させ、人手による作業を低減させることができる。

本発明の第１実施形態の情報処理システムの構成の説明図である。本発明の第１実施形態の設計書ファイルＡの説明図である。本発明の第１実施形態の設計書ファイルＢの説明図である。本発明の第１実施形態の文字列分類テーブルの説明図である。本発明の第１実施形態の重み付けテーブルの説明図である。本発明の第１実施形態の対応関係テーブルの説明図である。本発明の第１実施形態の類似度計算処理のフローチャートである。本発明の第１実施形態のスキーママッチング処理のフローチャートである。本発明の第１実施形態の選択画面の説明図である。本発明の第２実施形態の情報処理システムの構成の説明図である。本発明の第２実施形態のリストＡの説明図である。本発明の第２実施形態のリストＢの説明図である。本発明の第２実施形態の設計書ファイル特定処理のフローチャートである。

　以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。

　なお、以降の説明では、「プログラム」を主語として説明する場合があるが、プログラムはプロセッサによって実行されることによって定められた処理をメモリ及び通信ポート（通信制御インタフェース）を用いながら実行するため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は、管理サーバ等の計算機及び情報処理装置によって実行される処理としてもよい。また、プログラムの一部又はすべては専用ハードウェアによって実現されてもよい。

　さらに、プログラムに含まれる各種プログラムは、プログラム配布サーバ、及び計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。

　（第１実施形態）

　以下において、本発明の第１実施形態を図１～図６を参照して説明する。

　図１は、本発明の第１実施形態の情報処理システムの構成の説明図である。

　情報処理システムは、管理者端末１０００及びデータ管理システム１０１０を備える。

　管理者端末１０００は管理者が操作する端末であり、入出力デバイス（図６に示す１００１）、記憶領域、及びプロセッサを有する。管理者が直接データ管理システム１０１０を操作可能な環境では、情報処理システムは管理者端末１０００を備えなくてもよい。

　データ管理システム１０１０は、管理者端末１０００に接続され、後述するスキーママッチング処理を実行するシステムであり、ＣＰＵ（プロセッサ）１０２０、メモリ１０３０、並びにストレージデバイス１０４０Ａ及び１０４０Ｂを備える。ＣＰＵ１０２０、メモリ１０３０、並びにストレージデバイス１０４０Ａ及び１０４０Ｂはバス等によって互いに接続される。

　ＣＰＵ１０２０は、メモリ１０３０に記憶された各種プログラム１０５０～１０７０を実行する。メモリ１０３０には、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）１０５０、類似度計算プログラム１０６０、スキーママッチングプログラム１０７０が記憶される。

　ＯＳ１０５０は、データ管理システム１０１０全体を管理するプログラムである。類似度計算プログラム１０６０は、ストレージデバイス１０４０Ａに格納された設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２を参照して、ストレージデバイス１０４０Ａに格納された蓄積ファイル１０４６のデータベースの設計内容（スキーマ）に含まれる属性同士の類似度を計算する類似度計算処理を実行する。類似度計算処理の詳細は図４で説明する。

　スキーママッチングプログラム１０７０は、類似度計算プログラム１０６０によって計算された設計書ファイルＡ１０４１に記述されたスキーマ及び設計書ファイルＢ１０４２に記述されたスキーマに含まれる属性同士の類似度に基づいて、異なるスキーマに含まれる属性同士を同じ意味を有する属性として対応付けるスキーママッチング処理を実行する。スキーママッチング処理の詳細は図５で説明する。

　なお、類似度計算プログラム１０６０及びスキーママッチングプログラム１０７０は、必ずしも同一の計算機で実行されなくてもよく、別々の計算機で実行されてもよい。この場合、類似度計算プログラム１０６０を実行する計算機、及びスキーママッチングプログラム１０７０を実行する計算機をまとめてデータ管理システム１０１０という。

　ストレージデバイス１０４０Ａには、設計書ファイルＡ１０４１、設計書ファイルＢ１０４２、及び蓄積ファイル１０４６が格納される。蓄積ファイル１０４６はデータベースを含む様々なデータファイルの集合であり、データベースは設計書ファイルＡ１０４１又は設計書ファイルＢ１０４２に記述された設計情報（スキーマ）に従って項目ごとにデータを格納するデータ構造を有する。設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２には、データファイルにデータを格納するための設計情報（スキーマ）が登録される。設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２の詳細は図２Ａ及び図２Ｂで詳細を説明する。

　ストレージデバイス１０４０Ｂには、文字列分類テーブル１０４３、重み付けテーブル１０４４、及び対応関係テーブル１０４５が格納される。

　文字列分類テーブル１０４３は、設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２から抽出された文字列の種別を特定するために参照される。文字列分類テーブル１０４３の詳細は図３Ａで説明する。重み付けテーブル１０４４には、文字列の種別ごとに類似度に加算される値が登録される。重み付けテーブル１０４４の詳細は図３Ｂで説明する。対応関係テーブル１０４５には、スキーママッチング処理によって対応付けられた属性の対応関係が登録される。対応関係テーブル１０４５の詳細は図３Ｃで説明する。

　なお、設計書ファイルＡ１０４１、設計書ファイルＢ１０４２、及び蓄積ファイル１０４６と、文字列分類テーブル１０４３、重み付けテーブル１０４４、及び対応関係テーブル１０４５とが別々のストレージデバイスに格納された場合について説明したが、これらは同一のストレージデバイスに格納されてもよい。また、ストレージデバイスはデータ管理システム１０１０と同一筐体に備わる必要はなく、他の筐体に備わってもよい。

　次に、図２Ａ及び図２Ｂを参照して、設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２について説明する。図２Ａは、本発明の第１実施形態の設計書ファイルＡ１０４１の説明図であり、図２Ｂは、本発明の第１実施形態の設計書ファイルＢ１０４２の説明図である。

　設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２は、データベースの設計内容を記述したものであり、本実施形態では管理者によって予め用意され、属性説明表２０１０及び２１１０を含む。

　属性説明表２０１０及び２１１０は、データベースに格納される各項目の属性を説明する表である。属性説明表２０１０及び２１１０には、データファイルに格納される各項目の属性の名称を示す属性名２０１１と、属性に関連した関連情報２０１２及び２１１２と、が表形式で登録されている。関連情報２０１２及び２１１２は、属性に関する説明、属性のデータ型、及び属性の値の範囲等を含む。データベースには、属性説明表２０１０又は２１１０の属性名２０１１に登録された属性名の項目が存在し、当該項目には関連情報２０１２又は２１１２に登録された関連情報に従ってデータが格納される。

　属性説明表２０１０及び２１１０の属性名２０１１及び２１１１を示す列は、設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２を用意した管理者等によって指定されるものとする。具体的には、管理者等は、管理者端末１０００を介してどの列を属性名２０１１及び２１１１とするかの情報を類似度計算プログラム１０６０に入力する。

　本発明では、異なるスキーマの属性同士をマッチングする場合、属性説明表２０１０及び２１１０を用いてスキーマの属性同士をマッチングする。具体的には、データ管理システム１０１０は、マッチングするスキーマに含まれる属性同士の類似度を属性説明表２０１０及び２１１０の各セルを用いて計算し、類似度が所定の条件を満たせば属性同士をマッチングする。類似度とは、異なる属性名の間において、属性の意味及び属性の使用方法の類似度合いを表す値であり、以下の二つの観点で計算される。

　一つ目の観点では、マッチングするスキーマの属性説明表２０１０及び２１１０に共通する属性名が含まれる場合、これらのスキーマに含まれる各属性同士の類似度に所定の値が加算される。例えば、設計書ファイルＡ１０４１及び設計書ファイルＢ１０４２では、属性名２０１１の「血液型」と属性名２１１１の「血液型」とが共通であるので、スキーマに含まれる各属性同士の類似度に所定の値が加算される。

　二つ目の観点では、マッチングするスキーマの属性説明表２０１０及び２１１０の関連情報２０１２及び２１１２のうち共通する関連情報の数に基づいて、マッチングするスキーマの属性同士の類似度が算出される。属性説明表２０１０のある属性名Ｐａに対応する（同じ行に属する）関連情報２０１２と、属性説明表２１１０のある属性名Ｐｂに対応する関連情報２１１２とに同じ単語Ｗが存在する場合、属性名Ｐａと属性名Ｐｂの類似度に関数Ｇ（Ｗ）の値が加算される。

　関数Ｇ（Ｗ）は、単語Ｗの種別によって類似度に加算する値の重み付けを変更するための関数である。例えば、単語Ｗが「Ｓｔｒｉｎｇ」及び「Ｉｎｔｅｇｅｒ」等のデータ型を示す場合、二つの属性が同じデータ型であることを示すので、二つの属性に関連性があると考えられる。このため、この場合の関数Ｇ（Ｗ）には正の値が予め設定されている。

　一方、単語Ｗが「患者」及び「名前」等のキーワードである場合の二つの属性は、データ型が同じである場合よりも関連性が高いと考えられるので、この場合の関数Ｇ（Ｗ）は、データ型の関数Ｇ（Ｗ）より大きい値が予め設定されている。

　図３Ａは、本発明の第１実施形態の文字列分類テーブル１０４３の説明図である。

　文字列分類テーブル１０４３は、文字列３０１１及び種別３０１２を含む。文字列３０１１には、分類の対象となる文字列が登録される。種別３０１２には、文字列３０１１に登録された文字列の種別が登録される。

　図３Ａでは、種別が「型」に分類される文字列「Ｓｔｒｉｎｇ」、「Ｉｎｔｅｇｅｒ」、及び「Ｃｈａｒ」が文字列３０１１の最終行以外に登録されている。文字列３０１１の最終行には「その他」が登録され、当該最終行の種別３０１２には「一般」が登録される。このため、文字列３０１１に登録されたいずれの文字列にも一致しない文字列は、文字列３０１１の「その他」とされ、種別３０１２の「一般」に分類される。

　図３Ｂは、本発明の第１実施形態の重み付けテーブル１０４４の説明図である。

　重み付けテーブル１０４４は、種別３０２１及び重み３０２２を含む。種別３０２１には、文字列の種別が登録される。重み３０２２には、種別３０２１に登録された文字列の種別に対応して、属性の類似度に加算する値（以下、加算値という）が登録される。文字列の種別は、文字列が属性名であることを示す「属性名」、文字列がデータ型であることを示す「データ型」、及び、文字列が属性名及びデータ型でもないことを示す「一般」を含む。

　なお、文字列の種別が「データ型」であるか「一般」であるかは、文字列分類テーブル１０４３に基づいて分類される。文字列の種別が「属性名」であるかは、マッチングするスキーマの属性説明表２０１０及び２１１０に共通する属性名が含まれると判定された場合に分類される。

　本実施形態では、図３Ｂに示すように、文字列の種別が「属性名」である加算値が最小の「１０」に設定され、文字列の種別が「型」の加算値が「２０」に設定され、文字列の種別が「一般」（例えば「患者名」及び「氏名」等）の加算値が最大の「５０」に設定されている。

　図３Ｃは、本発明の第１実施形態の対応関係テーブル１０４５の説明図である。

　対応関係テーブル１０４５には、スキーママッチング処理によって対応付けられた属性同士の対応関係３０３１が登録される。

　対応関係３０３１は、第１スキーマ３０３２、第１属性名３０３３、第２スキーマ３０３４、及び第２属性名３０３４を含む。

　第１スキーマ３０３２には、スキーママッチング処理によって対応付けられた一方の属性を含むスキーマの識別情報が登録される。このスキーマの識別情報は、当該スキーマが記述された設計書ファイルの識別情報であってもよい。第１属性名３０３３には、スキーママッチング処理によって対応付けられた一方の属性の名称を示す属性名が登録される。

　第２スキーマ３０３４には、スキーママッチング処理によって対応付けられた他方の属性を含むスキーマの識別情報が登録される。第２属性名３０３４には、スキーママッチング処理によって対応付けられた他方の属性の名称を示す属性名が登録される。

　また、対応関係テーブル１０４５はＩＤ３０３５をさらに含み、ＩＤ３０３５には、対応関係３０３１の識別情報が登録される。

　対応関係テーブル１０４５では、スキーママッチング処理によって対応付けられた属性名だけでなく、スキーママッチング処理によって対応付けられた属性を含むスキーマの識別情報も保持する。これによって、例えば、属性名「ＤＣ」が、あるスキーマでは「データセンタ」の意味で使用され、他のスキーマでは「直流」の意味で使用されている場合であっても、属性名「データセンタ」と、「データセンタ」の意味で使用されているスキーマの属性名「ＤＣ」とを対応付けることができる。換言すれば、スキーマごとに異なる意味で使用されるすべての属性名が、ある属性名に対応付けられることが防止できる。

　図４は、本発明の第１実施形態の類似度計算処理のフローチャートである。類似度計算処理は、ＣＰＵ１０２０が類似度計算プログラム１０６０を実行することによって実行される。

　まず、ＣＰＵ１０２０は、管理者等による属性名の指定に基づいて、設計書ファイルＡ１０４１の属性説明表２０１０及び設計書ファイルＢ１０４２の属性説明表２１１０から属性名を取得する（４００１）。

　次に、ＣＰＵ１０２０は、ステップ４００１の処理で取得した設計書ファイルＡ１０４１の属性名と設計書ファイルＢ１０４２の属性名との間で、共通する属性名が存在するか否かを判定する（４００２）。ここで、共通する属性名とは、文字列が同一である属性名であってもよいし、データ管理システム１０１０が保持する類義語辞書によって類義語であると判定された属性名であってもよい。

　ステップ４００２の処理で共通する属性名が存在すると判定された場合、ＣＰＵ１０２０は、重み付けテーブル１０４４を参照し、種別３０２１に「属性名」が登録されたエントリの重み３０２２に登録された加算値「１０」を取得し、取得した加算値を、ステップ４００１の処理で取得した設計書ファイルＡ１０４１の属性名と設計書ファイルＢ１０４２の属性名とのすべての組み合わせの属性同士の合計類似度に加算し（４００３）、ステップ４００４の処理に処理を移行する。

　なお、ステップ４００３の処理では、共通する属性名の数だけ、「属性名」の加算値を加算してもよい。

　一方、ステップ４００２の処理で共通する属性名が存在しないと判定された場合、ＣＰＵ１０２０は、ステップ４００３の処理を実行せずに、ステップ４００４の処理に処理を移行する。

　次に、ＣＰＵ１０２０は、設計書ファイルＡ１０４１の属性説明表２０１０のすべての行にステップ４００５～４０１９の処理が実行されるまで、ステップ４００４～４０１９の処理を繰り返し実行する（４００４）。

　次に、ＣＰＵ１０２０は、設計書ファイルＡ１０４１の属性説明表２０１０からステップ４００５～４０１９の処理が実行されていない行を処理対象の行として選択する（４００５）。

　次に、ＣＰＵ１０２０は、ステップ４００５の処理で選択された属性説明表２０１０の行に含まれるすべての関連情報２０１２のカラムに、ステップ４００７～４０１８の処理が実行されるまで、ステップ４００６～４０１８の処理を繰り返し実行する（４００６）。

　次に、ＣＰＵ１０２０は、ステップ４００５の処理で選択された行の関連情報２０１２のカラムからステップ４００７～４０１８の処理が実行されていないカラムを処理対象のカラムとして選択する（４００７）。

　次に、ＣＰＵ１０２０は、設計書ファイルＢ１０４２の属性説明表２１１０のすべての行にステップ４００９～４０１７の処理が実行されるまで、ステップ４００８～４０１７の処理を繰り返し実行する（４００８）。

　次に、ＣＰＵ１０２０は、設計書ファイルＢ１０４２の属性説明表２１１０からステップ４００９～４０１７の処理が実行されていない行を処理対象の行として選択する（４００９）。

　次に、ＣＰＵ１０２０は、ステップ４００９の処理で選択された属性説明表２１１０の行に含まれるすべての関連情報２１１２のカラムに対してステップ４０１１～４０１６の処理を繰り返し実行する（４０１０）。

　次に、ＣＰＵ１０２０は、ステップ４００９の処理で選択された行の関連情報２１１２のカラムからステップ４０１１～４０１６の処理が実行されていないカラムを処理対象のカラムとして選択する（４０１１）。

　次に、ＣＰＵ１０２０は、ステップ４００７の処理で選択された関連情報２０１２のカラムに登録された文字列、及びステップ４０１１の処理で選択された関連情報２１１２のカラムに登録された文字列を単語に分解する（４０１２）。

　次に、ＣＰＵ１０２０は、ステップ４０１２の処理で分解された単語から、ステップ４００７の処理で選択された処理対象のカラムとステップ４０１１の処理で選択された処理対象のカラムとの間で、共通する単語が存在するか否かを判定する（４０１３）。ここで、共通する単語とは、文字列が同一である単語であってもよいし、データ管理システム１０１０が保持する類義語辞書によって類義語であると判定された単語であってもよい。

　ステップ４０１３の処理で共通する単語が存在すると判定された場合、ＣＰＵ１０２０は、文字列分類テーブル１０４３を参照し、共通する単語の種別を特定する（４０１４）。

　次に、ＣＰＵ１０２０は、重み付けテーブル１０４４を参照し、ステップ４０１４の処理で特定された種別に対応する加算値を取得し、ステップ４００５の処理で選択された行の属性名とステップ４００９の処理で選択された行の属性名との組み合わせの属性同士の合計類似度に取得した加算値を加算し（４０１５）、ステップ４０１６の処理に処理を移行する。

　一方、ステップ４０１３の処理で共通する単語が存在しないと判定された場合、ＣＰＵ１０２０は、ステップ４０１６の処理に処理を移行する。

　次に、ＣＰＵ１０２０は、ステップ４００９の処理で選択された属性説明表２１１０の行に含まれるすべての関連情報２１１２のカラムに対してステップ４０１１～４０１６の処理が実行されていない場合、ステップ４０１０の処理に戻り、ステップ４００９の処理で選択された属性説明表２１１０の行に含まれるすべての関連情報２１１２のカラムに対してステップ４０１１～４０１６の処理が実行された場合、ステップ４０１７の処理に処理を移行する（４０１６）。

　次に、ＣＰＵ１０２０は、設計書ファイルＢ１０４２の属性説明表２１１０のすべての行にステップ４００９～４０１７の処理が実行されていない場合、ステップ４００８の処理に戻り、設計書ファイルＢ１０４２の属性説明表２１１０のすべての行にステップ４００９～４０１７の処理が実行された場合、ステップ４０１８の処理に処理を移行する（４０１７）。

　次に、ＣＰＵ１０２０は、ステップ４００５の処理で選択された属性説明表２０１０の行に含まれるすべての関連情報２０１２のカラムに対してステップ４００７～４０１８の処理が実行されていない場合、ステップ４００７の処理に戻り、ステップ４００５の処理で選択された属性説明表２１１０の行に含まれるすべての関連情報２１１２のカラムに対してステップ４００７～４０１８の処理が実行された場合、ステップ４０１９の処理に処理を移行する（４０１８）。

　次に、ＣＰＵ１０２０は、設計書ファイルＡ１０４１の属性説明表２０１０のすべての行にステップ４００５～４０１９の処理が実行されていない場合、ステップ４００５の処理に戻り、設計書ファイルＡ１０４１の属性説明表２０１０のすべての行にステップ４００５～４０１９の処理が実行された場合、処理を終了する（４０１９）。

　ステップ４００１～４００３の処理では、ＣＰＵ１０２０は、設計書ファイルＡ１０４１の属性説明表２０１０の属性名２０１１及び設計書ファイルＢ１０４２の属性説明表２１１０の属性名２１１１に基づいて類似度を算出する。換言すれば、ステップ４００１～４００３の処理では、属性説明表２０１０及び２１１０の縦方向に並んだ属性名２０１１及び２１１１に基づいて加算値を算出する。また、設計書ファイルＡ１０４１の属性説明表２０１０の関連情報２０１２及び設計書ファイルＢ１０４２の属性説明表２１１０の関連情報２１１２に基づいて類似度を算出する。換言すれば、ＣＰＵ１０２０は、属性説明表２０１０及び２１１０の横方向に並んだ関連情報２０１２及び２１１２に基づいて加算値を算出する。また、図３Ｂに示すように、属性名２０１１及び２１１１に基づく加算値は、関連情報２０１２及び２１１２に基づく加算値よりも小さく設定されている。

　つまり、本実施形態では、属性説明表２０１０及び属性説明表２１１０において、属性名２０１１及び２１１１の並ぶ方向における類似度の算出と、関連情報２０１２及び２１１２の並ぶ方向における類似度の算出とでは、異なる加算値を用いることによって、異なる類似度の算出方法を用いる。

　また、ステップ４００２の処理では、共通する属性名の間に存在する属性名の数に応じて加算値を変更してもよい。例えば、共通する属性名の間に存在する属性名の数が少ないほど、属性説明表２０１０と属性説明表２１１０とが類似すると判断し、加算値を大きく設定することが考えられる。

　次に、図２Ａに示す属性説明表２０１０及び図２Ｂに示す属性説明表２１１０を参照しながら、類似度計算処理を具体的に説明する。

　ステップ４００１の処理では、ＣＰＵ１０２０は、属性説明表２０１０から属性名２０１１である「患者名」、「患者番号」、「生年月日」、及び「血液型」を取得し、属性説明表２１１０から属性名２１１１である「ＰａｔｉｅｎｔＮａｍｅ」、「ＰＩＤ」、「誕生日」、及び「血液型」を取得する。

　ステップ４００２の処理では、ＣＰＵ１０２０は、「血液型」が共通すると判定する。

　ステップ４００３の処理では、属性説明表２０１０の属性名２０１１と属性説明表２１１０の属性名２１１１とのすべての組み合わせの属性同士の総合類似度に、種別「属性名」に対応する加算値「１０」を加算する。

　ステップ４００４～４０１９の処理では、属性説明表２０１０の処理対象の行として「生年月日」の行が選択され、属性説明表２１１０の処理対象の行として「誕生日」の行が選択された場合について簡単に説明する。

　属性説明表２０１０の「生年月日」の関連情報２０１２の「Ｉｎｔｅｇｅｒ」及び「患者の生年月日」、並びに、属性説明表２１１０の「誕生日」の関連情報２１１２の「Ｉｎｔｅｇｅｒ」及び「生年月日」のうち、「Ｉｎｔｅｇｅｒ」及び「生年月日」が共通する。

　「Ｉｎｔｅｇｅｒ」の種別は「型」であるので、加算値「２０」であり、「生年月日」の種別は「一般」であるので、加算値「５０」である。

　したがって、属性「生年月日」と属性「誕生日」との総合類似度は、１０＋２０＋５０＝８０となる。

　また、属性説明表２０１０の処理対象の行として「生年月日」の行が選択され、属性説明表２１１０の処理対象の行として「ＰＩＤ」の行が選択された場合について簡単に説明する。

　属性説明表２０１０の「生年月日」の関連情報２０１２の「Ｉｎｔｅｇｅｒ」及び「患者の生年月日」、並びに、属性説明表２１１０の「ＰＩＤ」の関連情報２１１２の「Ｉｎｔｅｇｅｒ」及び「番号」のうち、「Ｉｎｔｅｇｅｒ」が共通する。

　「Ｉｎｔｅｇｅｒ」の種別は「型」であるので、加算値「２０」である。したがって、属性「生年月日」と属性「ＰＩＤ」との総合類似度は、１０＋２０＝３０となる。

　属性説明表２０１０の「生年月日」に対して、属性説明表２１１０から処理対象として「ＰａｔｉｎｔＮａｍｅ」の行及び「ＰＩＤ」の行が選択された場合、これらの関連情報２０１２及び２１１２には共通する単語がないので、これらの総合類似度は１０となる。

　よって、属性説明表２０１０の属性「生年月日」と属性説明表２１１０の属性「誕生日」との総合類似度が最大となる。

　図５は、本発明の第１実施形態のスキーママッチング処理のフローチャートである。スキーママッチング処理は、ＣＰＵ１０２０がスキーママッチングプログラム１０７０を実行することによって実行される。

　まず、ＣＰＵ１０２０は、総合類似度を計算したすべての属性の組に対して、ステップ５００２～５００８の処理が実行されるまで、ステップ５００１～５００９の処理を繰り返し実行する（５００１）。

　次に、ＣＰＵ１０２０は、総合類似度を計算した属性の組から、ステップ５００２～５００８の処理が実行されていない属性の組を選択する（５００２）。

　次に、ＣＰＵ１０２０は、ステップ５００２の処理で選択された属性の組の総合類似度が所定の閾値より大きいか否かを判定する（５００３）。

　ステップ５００２の処理で選択された属性の組の総合類似度が所定の閾値より大きいと、ステップ５００３の処理で判定された場合、ＣＰＵ１０２０は、ステップ５００２の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっているか否かを判定する（５００４）。

　ステップ５００２の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっていないと、ステップ５００４の処理で判定された場合、ＣＰＵ１０２０は、ステップ５００２の処理で選択された属性の組をマッチング候補とし（５００５）、ステップ５００８の処理に処理を移行する。

　一方、ステップ５００２の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっていると、ステップ５００４の処理で判定された場合、ＣＰＵ１０２０は、マッチングする属性の組を管理者等に選択させる図６に示す選択画面６０００を、管理者端末１０００の図６に示す入出力デバイス１００１に表示させる（５００６）。選択画面６０００の詳細は図６で説明する。

　管理者は、管理者端末１０００の入出力デバイス１００１に表示された選択画面６０００に基づいて、入出力デバイス１００１を介してマッチングする属性の組を入力する。管理者端末１０００は、マッチングする属性の組の入力を受け付けた場合、入力を受け付けたマッチングする属性の組を選択情報として、データ管理システム１０１０に送信する。

　データ管理システム１０１０が選択情報を受信した場合、ＣＰＵ１０２０は、受信した選択情報が示すマッチングする属性の組をマッチング候補として更新し（５００７）、ステップ５００８の処理に処理を移行する。

　次に、ＣＰＵ１０２０は、総合類似度を計算したすべての属性の組に対して、ステップ５００２～５００８の処理が実行されていない場合、ステップ５００２の処理に戻り、総合類似度を計算したすべての属性の組に対して、ステップ５００２～５００８の処理が実行された場合、ステップ５００９の処理に処理を移行する（５００８）。

　次に、ＣＰＵ１０２０は、マッチング候補を対応関係テーブル１０４５に登録し（５００９）、処理を終了する。

　なお、スキーママッチング処理では、ステップ５００２の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっていると、ステップ５００４の処理で判定された場合、ＣＰＵ１０２０は、選択画面６０００を管理者端末１０００に表示させたが、選択画面６０００を管理者端末１０００に表示させずに、マッチング候補となり得る複数の属性の組のうち総合類似度が高い属性の組をマッチング候補としてもよい。

　図６は、本発明の第１実施形態の選択画面６０００の説明図である。

　選択画面６０００は、メッセージ表示領域６０１０、候補属性表示領域６０２０、設計書ファイル名表示領域６０３０、選択指示表示領域６０４０、チェックボックス６０５０、ＯＫボタン６０６０、及びキャンセルボタン６０７０を含む。

　メッセージ表示領域６０１０は、一つの属性名の複数のマッチング候補が存在することを表示する領域である。メッセージ表示領域６０１０は、複数のマッチング候補が存在する一つの属性名の表示領域、及び当該属性名を含む設計書ファイル名の表示領域を含む。

　候補属性表示領域６０２０には、複数のマッチング候補の属性名が表示される。設計書ファイル名表示領域６０３０には、マッチング候補の属性名を含む設計書ファイル名が表示される。選択指示表示領域６０４０には、複数のマッチング候補からマッチングする属性名の選択を管理者に促すメッセージが表示される。

　チェックボックス６０５０は、マッチングする属性名の選択を受け付けるための表示領域である。管理者は、マウスカーソル６０８０を操作し、マッチングする属性名に対応するチェックボックス６０５０を選択し、ＯＫボタン６０６０を操作することによって、管理者端末１０００は、管理者によるマッチングする属性名の選択を受け付ける。なお、管理者は、チェックボックス６０５０の選択の取り消しを所望する場合、マウスカーソル６０８０を操作し、キャンセルボタン６０７０を操作することによって、当該チェックボックス６０５０の選択は取り消される。

　このように、一つの属性名に複数のマッチング候補が存在する場合にマッチングする属性名を管理者に選択させるので、管理者の意図しない属性名と属性名とがマッチングされてしまうことを防止できる。

　なお、管理者がデータ管理システム１０１０を直接操作可能である環境では、選択画面６０００は、データ管理システム１０１０に備わる図示しない入出力デバイスに表示されてもよい。

　以上によって、本実施形態では、複数のスキーマをマッチングする場合に、設計書ファイルの設計情報に基づいて、スキーマをマッチングするので、マッチング精度を向上させることができる。

　（第２実施形態）

　本発明の第２実施形態について、図７～図９を用いて説明する。

　第１実施形態では、設計書ファイルは管理者によって指定又は入力されたが、本実施形態では、設計書ファイルが自動的に特定される。

　図７は、本発明の第２実施形態の情報処理システムの構成の説明図である。なお、図７では、本実施形態の情報処理システムの構成のうち、第１実施形態の図１に示す情報処理システムと同じ構成は同じ符号を付与し、説明を省略する。

　メモリ１０３０には、ＯＳ１０５０、類似度計算プログラム１０６０、及び、スキーママッチングプログラム１０７０の他に、設計書ファイル特定プログラム１０８０がさらに格納される。

　設計書ファイル特定プログラム１０８０は、蓄積ファイル１０４６の中から設計書ファイルを特定する設計書ファイル特定処理を実行する。設計書ファイルの詳細は図９で説明する。

　ストレージデバイス１０４０Ｂには、文字列分類テーブル１０４３、重み付けテーブル１０４４、及び対応関係テーブル１０４５の他に、属性名リスト１０４７が格納される。

　属性名リスト１０４７は、スキーママッチング処理の対象となるスキーマに含まれる属性名のリストであり、管理者によって属性名がスキーママッチング処理の対象となるスキーマごとに入力される。図７では、属性名リスト１０４７は、リストＡ１０４８及びリストＢ１０４９を含む。なお、属性名リスト１０４７は、ストレージデバイス１０４０Ａに格納されてもよい。また、属性名リスト１０４７の詳細は図８Ａ及び図８Ｂで説明する。

　図８Ａは、本発明の第２実施形態のリストＡ１０４８の説明図であり、図８Ｂは、本発明の第２実施形態のリストＢ１０４９の説明図である。

　リストＡ１０４８及びリストＢ１０４９は、ＩＤ８０１１及び属性名８０１２を含む。

　ＩＤ８０１１には、属性名８０１２に登録された属性名の識別情報が登録される。属性名８０１２には、スキーママッチング処理の対象となるスキーマに含まれる属性名が登録される。リストＡ１０４８の属性名８０１２には、設計書ファイルＡ１０４１のスキーマに含まれるすべての属性名が登録される。また、リストＢ１０４９の属性名８０１２には、設計書ファイルＢ１０４２のスキーマに含まれるすべての属性名が登録される。

　図９は、本発明の第２実施形態の設計書ファイル特定処理のフローチャートである。設計書ファイル特定処理は、ＣＰＵ１０２０が設計書ファイル特定プログラム１０８０を実行することによって実行される。

　まず、ＣＰＵ１０２０は、ストレージデバイス１０４０Ａの蓄積ファイル１０４６のすべてのデータを取得する（９００１）。

　次に、ＣＰＵ１０２０は、ステップ９００１の処理で取得したデータから、文字列分類テーブル１０４３に種別が「型」として登録されたいずれかの文字列を含むデータを取得する（９００２）。

　次に、ＣＰＵ１０２０は、ステップ９００２の処理で取得したデータのうち、リストＡ１０４８の属性名８０１２に登録されたすべての属性名を含むデータが存在するか否かを判定する（９００３）。

　ステップ９００２の処理で取得したデータのうち、リストＡ１０４８の属性名８０１２に登録されたすべての属性名を含むデータが存在すると、ステップ９００３の処理で判定された場合、ＣＰＵ１０２０は、リストＡ１０４８の属性名８０１２に登録されたすべての属性名を含むデータを設計書ファイルＡ１０４１として特定し（９００４）、ステップ９００５の処理に処理を移行する。

　一方、ステップ９００２の処理で取得したデータのうち、リストＡ１０４８の属性名８０１２に登録されたすべての属性名を含むデータが存在しないと、ステップ９００３の処理で判定された場合、ＣＰＵ１０２０は、ステップ９００５の処理に処理を移行する。

　次に、ＣＰＵ１０２０は、ステップ９００２の処理で取得したデータのうち、リストＢ１０４９の属性名８０１２に登録されたすべての属性名を含むデータが存在するか否かを判定する（９００５）。

　ステップ９００２の処理で取得したデータのうち、リストＢ１０４９の属性名８０１２に登録されたすべての属性名を含むデータが存在すると、ステップ９００５の処理で判定された場合、ＣＰＵ１０２０は、リストＢ１０４９の属性名８０１２に登録されたすべての属性名を含むデータを設計書ファイルＢ１０４２として特定し（９００６）、処理を終了する。

　ステップ９００２の処理で取得したデータのうち、リストＢ１０４９の属性名８０１２に登録されたすべての属性名を含むデータが存在しないと、ステップ９００５の処理で判定された場合、ＣＰＵ１０２０は、処理を終了する。

　なお、ステップ９００３～９００６の処理では、リストＡ１０４８又はリストＢ１０４９の属性名８０１２に登録されたすべての属性名を含むデータを設計書ファイルＡ１０４１又は設計書ファイルＢ１０４２として特定したが、リストＡ１０４８又はリストＢ１０４９の属性名８０１２に登録された属性名を所定数以上含むデータを設計書ファイルＡ１０４１又は設計書ファイルＢ１０４２として特定してもよい。

　また、リストＡ１０４８又はリストＢ１０４９の属性名８０１２に登録された属性名を含むデータとしては、設計書ファイルＡ１０４１又は設計書ファイルＢ１０４２の他に、設計書ファイルＡ１０４１又は設計書ファイルＢ１０４２のスキーマに従ってデータ格納されたデータファイルがある。このデータファイルは、通常「型」を示す文字列を含まないので、設計書ファイルとして特定されないようにステップ９００２の処理が実行される。

　設計書ファイル特定処理を実行して設計書ファイルが特定された後、類似度計算処理及びスキーママッチング処理が実行される。

　以上によって、スキーマの詳細な設計情報が管理者の手許にない場合であっても、管理者がスキーマに含まれる属性名を入力するだけで、設計書ファイルが特定される。

　以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

　複数のデータベースのスキーマをマッチングするデータ管理システムに適用できる。

Claims

　複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムにおいて、
　前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、
　前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、
　前記プロセッサは、
　前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定し、
　前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングすることを特徴とするデータ管理システム。
　請求項１に記載のデータ管理システムであって、
　前記プロセッサは、
　前記特定された属性名及び関連情報に基づいて、前記マッチングするスキーマに含まれる属性同士の類似度を算出し、
　前記算出した類似度が所定の条件を満たす場合、当該属性同士をマッチングすることを特徴とするデータ管理システム。
　請求項２に記載のデータ管理システムであって、
　前記プロセッサは、共通する属性名が前記マッチングするスキーマの属性定義情報に存在する場合、前記マッチングするスキーマの属性同士の類似度に所定の第１の値を加算することを特徴とするデータ管理システム。
　請求項３に記載のデータ管理システムであって、
　前記プロセッサは、前記特定された関連情報同士が共通する場合、前記共通する関連情報に対応する属性同士の類似度に所定の第２の値を加算することを特徴とするデータ管理システム。
　請求項４に記載のデータ管理システムであって、
　前記第１の値は前記第２の値より小さい値であることを特徴とするデータ管理システム。
　請求項２に記載のデータ管理システムであって、
　前記属性定義情報には前記属性名及び前記関連情報が表形式で登録され、
　前記プロセッサは、前記属性名が並ぶ方向における類似度の算出と前記関連情報が並ぶ方向における類似度の算出とで異なる方法で前記マッチングするスキーマの属性同士の類似度を算出することを特徴とするデータ管理システム。
　請求項１に記載のデータ管理システムであって、
　前記プロセッサは、
　一つの属性にマッチングする属性が複数ある場合、当該複数の属性のうちマッチングする属性を選択させるための選択画面を表示し、
　前記選択画面で選択された属性を前記一つの属性にマッチングすることを特徴とするデータ管理システム。
　請求項１に記載のデータ管理システムであって、
　前記記憶領域は、前記属性定義情報に含まれる属性名が登録された属性名情報をさらに記憶し、
　前記プロセッサは、前記記憶領域に記憶された情報から、前記属性名情報に登録された属性名を所定数以上含む情報を前記属性定義情報として特定することを特徴とするデータ管理システム。
　複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムで実行され、前記複数のスキーマをマッチングするデータ管理方法において、
　前記データ管理システムは、前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、
　前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、
　前記方法は、
　前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定するステップと、
　前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングするステップと、を含むことを特徴とするデータ管理方法。
　請求項９に記載のデータ管理方法であって、
　前記複数のスキーマに含まれる属性同士をマッチングするステップは、
　前記特定された属性名及び関連情報に基づいて、前記マッチングするスキーマに含まれる属性同士の類似度を算出するステップと、
　前記算出した類似度が所定の条件を満たす場合、当該属性同士をマッチングするステップと、を含むことを特徴とするデータ管理方法。
　請求項１０に記載のデータ管理方法であって、
　前記類似度を算出するステップは、共通する属性名が前記マッチングするスキーマの属性定義情報に存在する場合、前記マッチングするスキーマの属性同士の類似度に所定の第１の値を加算するステップを含むことを特徴とするデータ管理方法。
　請求項１１に記載のデータ管理方法であって、
　前記類似度を算出するステップは、前記特定された関連情報同士が共通する場合、前記共通する関連情報に対応する属性同士の類似度の類似度に所定の第２の値を加算するステップを含むことを特徴とするデータ管理方法。
　請求項１２に記載のデータ管理方法であって、
　前記第１の値は前記第２の値より小さい値であることを特徴とするデータ管理方法。
　請求項１０に記載のデータ管理方法であって、
　前記属性定義情報には前記属性名及び前記関連情報が表形式で登録され、
　前記類似度を算出するステップでは、前記属性名が並ぶ方向における類似度の算出と前記関連情報が並ぶ方向における類似度の算出とで異なる方法で前記マッチングするスキーマの属性同士の類似度を算出することを特徴とするデータ管理方法。
　請求項９に記載のデータ管理方法であって、
　前記方法は、
　一つの属性に対してマッチングする属性が複数存在する場合、当該複数の属性のうちマッチングする属性を選択させるための選択画面を表示するステップと、
　前記選択画面で選択された属性を前記一つの属性にマッチングするステップと、を含むことを特徴とするデータ管理方法。
　請求項９に記載のデータ管理方法であって、
　前記記憶領域は、前記属性定義情報に含まれる属性名が登録された属性名情報をさらに記憶し、
　前記方法は、前記記憶領域に記憶された情報から、前記属性名情報に登録された属性名を所定数以上含む情報を前記属性定義情報として特定するステップを含むことを特徴とするデータ管理方法。
　複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムで実行され、前記複数のスキーマをマッチングする処理を、前記プロセッサに実行させるプログラムを記憶する計算機読み取り可能な記憶媒体であって、
　前記データ管理システムは、前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、
　前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、
　前記処理は、
　前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定し、
　前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングすることを特徴とする計算機読み取り可能な記憶媒体。