JPWO2008111424A1

JPWO2008111424A1 - フィールド照合方法及びシステムと、そのプログラム

Info

Publication number: JPWO2008111424A1
Application number: JP2009503971A
Authority: JP
Inventors: 立石　健二; 健二立石; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-09
Filing date: 2008-03-04
Publication date: 2010-06-24
Anticipated expiration: 2028-03-04
Also published as: JP5170466B2; US20100100804A1; WO2008111424A1; US8843818B2

Abstract

【課題】フィールドに含まれるデータの特徴のみでは対応グループの特定が難しいカテゴリのフィールドの対応を正確にグルーピングすることできる技術を提供すること。【解決手段】確定済みフィールドと未確定フィールドとの組み合わせであるフィールド組を決定し、これらのフィールド組における確定済みフィールドと未確定フィールドとの相関値を計算する。相関の値が閾値以上となるフィールド組の未確定フィールド群のなかで、この未確定フィールド群が対応する確定済みフィールドが同一のフィールドグループに所属する未確定フィールド群を新たなフィールドグループとする。【選択図】図５

Description

本発明は、データベースの異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法及びシステムとそのプログラムに関し、特に、カテゴリ値のようなデータに特徴がないフィールドの対応を正確にグルーピングするフィールド照合方法及びシステムと、そのプログラムに関する。

フィールド照合とはデータベースの異なるテーブル間で対応するフィールドをグルーピングすることをいう。例えば、図１ではTBL1からTBL3の３つのテーブル間で、TBL1の性別フィールドと、TBL2のAgeフィールドと、TBL3のAフィールドとが対応している。異なるテーブル間におけるフィールドの対応が決まれば、テーブルの統合が可能になり、利用者は異なるテーブル間を跨った検索を一度に実行できる。

このような場合であっても、多くのフィールドから構成されるテーブルが多いこと、対応するフィールド同士であってもフィールド名が一致しない場合が多いことから、人手で対応するフィールドを絞り込むのは容易でない。そのため、テーブル間で対応するフィールドもしくはその候補を自動的にグルーピングしてユーザに提示するフィールド照合システムが望まれている。

従来のフィールド照合システムは、フィールドに含まれるデータの特徴が一致するフィールド同士をグルーピングしていた（特許文献１）。例えば、図２のTBL1の苗字フィールドと、TBL2のLastフィールドとは対応する。それは、どちらのフィールドのデータも字種が漢字であり、さらに、人名の苗字が使われているためである。同様な理由で、TBL1の名前フィールドとTBL2のFastフィールドとも対応する。また、TBL1の年齢フィールドとTBL2のAgeフィールドとは、字種が数値であり、さらに、平均値が一致することから対応する。
特開２００６−９９２３６号公報

このような従来のフィールド照合システムは、例えば、性別や既婚／未婚のようにデータが0や1ばかりになるカテゴリ値のフィールドの場合、対応するフィールドの絞込みが困難であった。

何故なら、これらのデータは同じ特徴を持つ場合が多いからである。例えば、図３のTBL1の既婚フィールドは、データが0又は1のフィールドであるので、字種が数値、平均値は0.5となる。ところが、TBL2のC1とC2のどちらも同じように、データが0又は1のフィールドなので、既婚フィールドとデータの特徴は同じになり、対応するフィールドを絞り込むことができない。同様に、TBL1の性別フィールドも、TBLのC1とC2のどちらと対応するかを絞り込むことができない。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、フィールドに含まれるデータの特徴のみでは対応グループの特定が難しいカテゴリのフィールドの対応を正確にグルーピングすることできる技術を提供することにある。

上記目的を達成する本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法であって、テーブル間で対応するフィールドをグループ化したフィールドグループを記憶しておき、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算し、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。

上記目的を達成する本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段と、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

上記目的を達成する本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

上記目的を達成する本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算する処理と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。

上記目的を達成する本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納する処理と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。

上記目的を達成する本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

上記目的を達成する本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

本発明によれば、フィールドに含まれるデータの特徴のみでは、対応するフィールドを特定してグループ化が難しい、カテゴリのフィールドであっても、高精度にグルーピングすることができることである。その理由は、対応関係が確定しているフィールドと、それらのフィールドと未確定のフィールドとの相関とを用いて、対応グループを特定しているからである。

図１は従来技術を説明するための図である。図２は従来技術を説明するための図である。図３は従来技術を説明するための図である。図４は本発明を説明するための図である。図５は本発明を説明するための図である。図６は本発明の第１の実施の形態のブロック図である。図７は対象データベースの例を示した図である。図８はフィールドタイプ記憶部２０の格納例を示した図である。図９はフィールド相関記憶部２１の格納例を示した図である。図１０はフィールドグループ記憶部２２の格納例を示した図である。図１１はフィールドグループ記憶部２２の格納例を示した図である。図１２は実施するための最良の形態の動作のフローチャートである。図１３は図１１のフィールドグループ記憶部２２を出力装置５に表示した例を示す図である。図１４はフィールドの相関値の計算を説明するための図である。図１５はフィールドの相関値の計算を説明するための図である。図１６はフィールドの相関値の計算を説明するための図である。図１７はフィールドの相関値の計算を説明するための図である。図１８はフィールドの相関値の計算を説明するための図である。図１９はフィールドの相関値の計算を説明するための図である。

符号の説明

１データ処理装置
２記憶装置
３対象データベース
４入力装置
５出力装置

まず、本発明の概要を説明する。

本発明は、フィールドの相関を用いて対応するフィールド群をグルーピングすることを特徴とする。図４の例のように、性別や既婚／未婚のようなデータが0や1ばかりになるフィールドの場合、データを手がかりとした対応フィールドの絞込みは難しい。ここで、「健二」という名前は一般的には「男性」につけられ、「由紀子」という名前は「女性」につけられることからわかるように、名前と性別には相関があるといえる。同様に、結婚はある程度の年齢を超えてなってからする場合が多いことから、既婚と年齢には相関があるといえる。

そこで、図４の例において、もしTBL1の名前のフィールドとTBL2のFirstのフィールドとが対応することが事前にわかっており、さらに、TBL1の名前のフィールドと性別のフィールドとは相関（相関１）があること、TBL2のFirstのフィールドとC2のフィールドとは相関（相関１）があることがわかれば、図４のようにTBL1の性別のフィールドとTBL2のC2のフィールドは対応することを新たに導ける。

同様に、もしTBL1の年齢のフィールドとTBL2のAgeのフィールドとが対応することが事前にわかっており、さらに、TBL1の年齢のフィールドと既婚のフィールドとは相関（相関２）があること、TBL2のAgeのフィールドとC1のフィールドとは相関（相関２）があることがわかれば、図４のようにTBL1の既婚のフィールドとTBL2のC1のフィールドとは対応することを新たに導ける。

本発明は、２つの処理から構成される。

ここでは図４のTBL1とTBL2を例として説明する。本発明では、既に対応が確定したフィールドグループが存在することを前提する。ここでは、図４のTBL1とTBL2との間で３つのフィールドグループが確定しているとする。グループ１はTBL1の苗字のフィールドとTBL2のLastのフィールド、グループ２はTBL1の名前のフィールドとTBL2のFastのフィールド、グループ3はTBL1の年齢のフィールドとTBL2のAgeのフィールドとする。なお、図４は図２の例と同じように、従来技術を用いることでフィールドグループを検出できる。

まず、ステップ１として、同一テーブル内で未確定フィールドと確定済みフィールドとの間の相関の値を計算する。ここで、確定済みフィールドとはいずれかのフィールドグループに所属するフィールドであり、未確定フィールドとはいずれのフィールドグループにも所属しないフィールドである。例えば、TBL1の確定済みフィールドは苗字、名前、年齢のフィールドであり、未確定フィールドは、性別、既婚のフィールドである。

このとき、確定済みフィールドと未確定フィールドとの組み合わせであるフィールド組を決定し、これらのフィールド組における確定済みフィールドと未確定フィールドとの相関値を計算する。

図５のTBL1の例では、３つの確定済みフィールドと２つの未確定フィールドとから６個のフィールド組が求められ、各フィールド組におけるフィールド間の相関の値を計算する。この相関の値は０から１で正規化されており、例えば、図５のStep1のようになる。ここでは、名前のフィールドと性別のフィールド、年齢のフィールドと既婚のフィールドとの相関の値が大きくなっている。TBL2についても同様で、AgeのフィールドとC1のフィールド、FastのフィールドとC2のフィールドの相関の値が大きくなっている。

次に、ステップ２として、相関の値が閾値以上となるフィールド組の未確定フィールド群のなかで、この未確定フィールド群が対応する確定済みフィールドが同一のフィールドグループに所属する未確定フィールド群を新たなフィールドグループとする（図５のStep2参照）。すなわち、相関の値が閾値以上となるフィールド組群のうち、そのフィールド組群の確定済みフィールドが同一のフィールドグループに所属するフィールド組群の未確定フィールドを新たなフィールドグループとする。

例えば、閾値を50%とすると、TBL1の性別のフィールドと名前のフィールドとの相関の値は閾値を超える（TBL1の性別のフィールドと名前のフィールドとの組み合わせをフィールド組１とする）。また、TBL2のC2のフィールドとFastのフィールドとの相関の値は閾値を超える（TBL2のC2のフィールドとFastのフィールドとの組み合わせをフィールド組２とする）。

ここで、フィールド組１の確定済みフィールドである名前のフィールドはグループ２に属し、フィールド組２の確定済みフィールドであるFastのフィールドもグループ２に属しており、同一のフィールドループに属している。そこで、フィールド組１の未確定フィールドであるTBL1の性別のフィールドと、フィールド組２の未確定フィールドであるTBL2のC2のフィールドとを新たなフィールドグループとする。

別言い方をすれば、TBL1の性別のフィールドに対応する確定済みフィールドである名前はグループ２に属し、TBL2のC2のフィールドに対応する確定済みフィールドであるFastのフィールドはグループ２に属する。そして、TBL1の性別のフィールドとTBL2のC2のフィールドとを新たなフィールドグループとも言える。

同様にTBL1の既婚のフィールドとTBL2のC1のフィールドとを新たなフィールドグループとする。

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

図６を参照すると、本発明の実施の形態は、プログラム制御により動作するデータ処理装置１と、情報を記憶する記憶装置２と、対象データベース３とキーボード等の入力装置４とディスプレイ等の出力装置５とを含む。

対象データベース３は、いわゆるデータベースであり、複数のテーブルが記憶されている。対象データベースの例を図７に示す。

記憶装置２は、フィールドタイプ記憶部２０と、フィールド相関値記憶部２１と、フィールドグループ記憶部２２とを含む。記憶装置２は、ＨＤＤ等の磁器媒体や、メモリに格納する。

フィールドタイプ記憶部２０は、フィールドとフィールドタイプとの対応関係が格納されている。図８にフィールドタイプ記憶部２０の格納例を示す。

フィールド相関値記憶部２１は、確定済みフィールドと未確定フィールドとの相関の値が格納されている。図９にフィールド相関記憶部２１の格納例を示す。

フィールドグループ記憶部２２は、所定のフィールドと、このフィールドが属するフィールドグループを示すフィールドグループＩＤと、そのフィールドと相関するフィールドとの関係が格納されている。図１０と図１１にフィールドグループ記憶部２２の格納例を示す。フィールドグループＩＤが付与されたフィールドが確定済みフィールドであり、付与されていないフィールドが未確定フィールドを示す。

データ処理装置１は、フィールドタイプ判定手段１０と、フィールド相関値計算手段１１と、フィールドグループ判定手段１２と、表示手段１３を含む。

フィールドタイプ判定手段１０は、対象データベース３に格納されたそれぞれのテーブルのそれぞれのフィールドのデータを解析してフィールドタイプを判定し、その結果をフィールドタイプ記憶部２０に格納する。フィールドタイプは、文字列、カテゴリ、数値の３種類がある。図７の対象データベースの内容に対して、フィールドタイプ判定手段１０が行ったフィールドタイプ判定の結果が、フィールドタイプ記憶部２０に格納された例を図８に示す。

フィールド相関値計算手段１１は、同一テーブル内でフィールドグループ記憶部２２に格納された未確定フィールドと確定済みフィールドとの相関の値（未確定フィールドと確定済みフィールドとの組み合わせのフィールド組の相関の値）を、対象データベース３を参照して計算し、その結果をフィールド相関記憶部２１に登録する。フィールドの相関の値は、フィールドタイプ判定手段１０により判定されたフィールドタイプに応じて異なる計算方法を用意してもよい。フィールド相関値計算手段１１が計算した相関の値が格納された例を図９に示す。

フィールドグループ判定手段１２は、フィールド相関値記憶部２１に格納されたフィールドの相関の値が入力装置４から入力された所定の閾値以上となるフィールド組を求める。所定の閾値以上となるフィールド組のうち、確定済みフィールドが異なるテーブル間で同一のフィールドグループに所属するフィールド組を求める。そして、このフィールド組群の未確定フィールド群を新たな確定済みフィールド群としてグループ化する。更に、新たな確定済みフィールド群とフィールドの相関の値が閾値以上となるフィールド群を相関フィールド群とする。新たな確定済みフィールド群と相関フィールド群とをフィールドグループ記憶部２２に格納する。図９のフィールド相関記憶部１１と図１０のフィールドグループ記憶部２２に対するフィールドグループ判定手段１２の処理結果であるフィールドグループ記憶部２２の例を図１１に示す。

表示手段１３は、フィールドグループ記憶部２２に格納された確定済みフィールド群とその相関フィールド群を出力装置５に表示する。

次に、図１２を参照して本発明を実施するための最良の形態の動作について詳細に説明する。

ここでは、対象データベース３として図７が与えられ、初期のフィールドグループ記憶部２２として図１０が与えられた場合を例として説明する。すなわち、対象データベース３の２つのテーブルはともに５つのフィールドから構成されているが、そのうちの３つのフィールドの対応が確定している状態である。グループ１がTBL1の苗字のフィールドとTBL2のLastのフィールド、グループ2がTBL1の名前のフィールドとTBL2のFirstのフィールド、グループ3がTBL1の年齢のフィールドとTBL2のAgeのフィールドである。

また、入力装置４から相関の値の閾値として０．５が与えられたとして説明する。

まず、フィールドタイプ判定手段１０は、対象データベース３に格納されたそれぞれのテーブルのそれぞれのフィールドのデータを解析してフィールドタイプを判定し、その結果をフィールドタイプ記憶部２０に格納する（図１２のステップS1）。

尚、ここでは、フィールドタイプは文字列、カテゴリ、数値の３種類として説明する。また、フィールドタイプは、次のように自動的に判定できる。まず、フィールドのデータを解析して、データの字種とデータの異なり数を調べる。もし、データの異なり数が２以下の場合、フィールドタイプをカテゴリとする。なお、この２という値は一例であってこの値に限るものではない。もし、データの異なり数が２よりも上で、かつ、データの字種が数値であれば、フィールドタイプを数値とする。もし、データの異なり数が２よりも上で、かつ、データの字種が数値以外であれば、フィールドタイプを文字列とする。この判別方法を用いて、図８の対象データベース３の個々のフィールドに対するフィールドタイプ記憶部２０の格納例を図９に示す。なお、ここではフィールドタイプを自動判定しているが、利用者によりフィールドタイプを入力してもらう方法でもよい。

次にフィールド相関値計算手段１１は、同一テーブル内でフィールドグループ記憶部２２に格納された未確定フィールドと確定済みフィールドとの相関の値を対象データベース３を参照して計算し、その結果をフィールド相関記憶部２１に登録する（図１２のステップS2）。

例えば、TBL1に関して、図１０に示されるフィールドグループ記憶部２２の格納例では、確定済みフィールドは、苗字、名前、年齢である。一方、未確定フィールドは、TBL1の既婚、性別である。したがって、TBL1に関して未確定フィールドと確定済みフィールドとの間の相関の値の組み合わせは６通りある。TBL2に関しても同様に６通りである。ここでは、フィールド間の相関の値は、フィールドタイプ判定手段１０により判定されたフィールドタイプに応じて異なる計算方法を用意する。２つのフィールド間の相関の値の具体的な計算方法は後述する。フィールド相関値計算手段１１が計算した相関の値が格納された例を図９に示す。

次にフィールドグループ判定手段１２は、フィールド相関値記憶部２１に格納されたフィールドの相関の値が入力装置４から入力された閾値以上となるフィールド組群の中で、フィールドグループ記憶部２２に格納されている情報を参照して、同一のフィールドグループに所属する確定済みフィールド群を求める。そして、それらの確定済みフィールド群に対応する未確定フィールド群を求め、それらの未確定フィールド群を新たな確定済みフィールド群とする。そして、新たな確定済みフィールド群とフィールドの相関の値が閾値以上となるフィールド群を相関フィールド群とする。新たな確定済みフィールド群と相関フィールド群とをフィールドグループ記憶部２２に格納する。（図１２のステップS3）。

例えば、図９のフィールド相関記憶部２１において相関の値が0.5以上となるのは、TBL1の既婚のフィールドと年齢のフィールドとの組み合わせであるフィールド組１、および、性別のフィールドと名前のフィールドとの組み合わせであるフィールド組２である。既婚のフィールドと性別のフィールドとは未確定フィールドで、年齢のフィールドと名前のフィールドとは確定済みフィールドである。

また、相関の値が0.5以上となるのは、TBL2のC1のフィールドとFirstのフィールドとの組み合わせであるフィールド組３、および、C2のフィールドとAgeのフィールドとの組み合わせであるフィールド組４である。C1のフィールドとC2のフィールドは未確定フィールドで、FirstのフィールドとAgeのフィールドは確定済みフィールドである。

一方、フィールドグループ記憶部２２における図１０の格納例では、フィールド組１の確定済みフィールドの年齢と、フィールド組４の確定済みフィールドのAgeとは、同一のフィールドグループに所属している。また、フィールド組２の確定済みフィールドの名前と、フィールド組３の確定済みフィールドのFirstとは同一のフィールドグループに所属している。

ここから、フィールド組１の未確定フィールドである既婚と、フィールド組４の未確定フィールドであるC2とは新たな確定済みフィールドとなり、新たなフィールドグループＩＤ（フィールドグループＩＤ＝４）が付される。さらに、年齢のフィールドと既婚のフィールドとは相関フィールドとなり、AgeのフィールドとC2のフィールドとは相関フィールドとなる。

同様に、未確定フィールドの性別と未確定フィールドのC1とは新たな確定済みフィールドとなり、新たなフィールドグループＩＤ（フィールドグループＩＤ＝５）が付される。さらに、名前のフィールドと性別のフィールドとは相関フィールドとなり、FastのフィールドとC1のフィールドとは相関フィールドとなる。

以上の結果として、フィールドグループ記憶部２２は図１１のように変更される。

次に、表示手段１３は、フィールドグループ記憶部２２に格納された確定済みフィールド群とその相関フィールド群を出力装置５に表示する（図１２のステップS4）。

図１１のフィールドグループ記憶部２２を出力装置５に表示した例を図１３に示す。この表示例では、新たな確定済みフィールド群を実線で結んでいる。また、確定済みフィールド群の相関フィールドは各フィールドの先頭に「相関＋数字」で区別している。例えば、既婚のフィールドとC2のフィールドとは新たな確定済みフィールドであり、既婚の相関フィールドは「相関２」の年齢のフィールド、C2の相関フィールドは「相関２」のAgeのフィールドであることがわかる。このように相関フィールドを合わせて表示することで、システムがどのような判断で新たな確定済みフィールドを検出したかを利用者が理解できるようになる。

次に、フィールド相関値計算手段１１における、２つのフィールド間の相関の値の計算方法を説明する。

フィールド相関値計算手段１１は、２つのフィールドのフィールドタイプの組み合わせに応じて異なる計算方法を用いる。フィールドタイプは、数値、文字列、カテゴリの3通りがある。本発明の目的は、カテゴリ値のフィールドの対応を検出することであるから、一方のフィールドのフィールドタイプはカテゴリとなる。そして、他方のフィールドのフィールドタイプは、数値、または、文字列、カテゴリとなる。したがって、フィールド間の相関の値の計算方法は、
（１）フィールドタイプがカテゴリとカテゴリの場合、
（２）フィールドタイプがカテゴリと数値の場合、
（３）フィールドタイプがカテゴリと文字列の場合
の3通りとなる。なお、従来技術として相関係数の計算があるが、これはフィールドタイプが数値と数値の場合を前提としているため、ここでは別の方式を用いる必要がある。
（１）フィールドタイプがカテゴリとカテゴリの場合
図１４を例としてフィールドF1とフィールドF2との相関の値を計算する。

まず、F1の情報量、F2の情報量、F1とF2の情報量を計算する。log2は2を底にとる対数である。

H(F1) = Σx∈F1 -P(x) * log2 P(x)
H(F2) = Σx∈F2 -P(x) * log2 P(x)
H(F1&F2) =Σ_x∈F1 Σ_y ∈F2 -P(x∧y) * log2 P(x∧y)
P(x) = (値がxのレコード数) / (フィールドに含まれる総レコード数)

図１４の例で説明すると、総レコード数は10、そのうちF1の値が0のレコード数は2であるからP(0)=0.2、1のレコード数は3であるからP(1)=0.3、2のレコード数は3であるからP(2)=0.3、3のレコード数は2であるからP(3)=0.2となる。したがって、

H(F1) = -0.2*log2 0.2 -0.3*log2 0.3 - 0.3*log2 0.3 - 0.2*log2 0.2
= 1.97

となる。H(F2)、H(H1&H2)についての計算も図１４に示す。

このとき、F1とF2の間の相関の値は次の式で求める。

F1とF2の間の相関の値 =
(H(F1) + H(F2) - H(F1,F2))/ (H(F1) + H(F2) - max(H(F1), H(F2))

図１４の例では、H(F1)=1.97、H(F2)=1、H(F1&F2)=1.97であるから、

F1とF2の間の相関の値 =
(1.97+1-1.97) / (1.97+1-1.97) = 1
となる。

ここで、情報量とはデータのばらつきを示し、値が大きいほどデータにばらつきがあり、値が小さいほどデータにばらつきが小さく同じデータが多いことを意味する。

相関の値の計算の直感的な理解は次のようになる。

F1とF2とに相関がなく完全に独立だと仮定すると、F1&F2のデータのばらつきはF1のばらつきとF2のばらつきの和になる。上記の場合は、H(F1)+H(F2)=2.97である。実際のF1&F2のデータのばらつきは1.97である。この2.97から1.97を引いた残りの1がF1とF2の間の相関の値となる。ここで、F1&F2のデータのばらつきの最大値はH(F1)+H(F2)=2.97、最小はmax(H(F1),H(F2))=1.97である。したがって、相関の値を0-1の値で正規化する場合には、H(F1)+H(F2)-max(H(F1),H(F2))でわれば良いことになる。
（２）フィールドタイプがカテゴリと数値の場合
図１５を例として、F1が数値でF2がカテゴリのフィールドの間の相関の値を計算する。

まず、F1の値を元にレコードをサンプリング／変換する。F1の平均値Ave(F1)と標準偏差STDEV(F1)を求め、F1の値がAve(F1) + STDEV(F1)より大きいレコード、および、Ave(F1)+STDEV(F1)より小さいレコードをサンプリングする。さらに、Ave(F1) + STDEV(F1)より大きい値を1に変換して、Ave(F1)+STDEV(F1)より小さい値を0に変換する。

図１５の例では、平均値はAve(F1)=35.63636、標準偏差はSTDEV(F1)=17.63674である。したがって、F1の値が53.27310より大きいレコードと、17.63674より小さいレコードをサンプリングする。また、53.27310より大きいF1の値は1に17.63674より小さいF1の値を0に変換する。

次に、サンプリング / 変換したレコードに対して、(1)と同一の方法でF1とF2の間の相関の値を計算する。F1はカテゴリ値に変換されているので、サンプリング/変換したレコードに対してはカテゴリとカテゴリの場合の相関の値の計算と同じになる。図１５の例でサンプリング/変換したレコードに対して計算したF1とF2の間の相関の値は1となる。
（３）フィールドタイプがカテゴリと文字列の場合
図１６を例として、F1が文字列でF2がカテゴリのフィールドの間の相関の値を計算する。

まず、F1の値を元にレコードをサンプリングする。F1の値の出現頻度を求め、出現頻度が多いレコードから順番に全体の3割をこえるレコードをサンプリングする。ただし、3割に達する前に出現頻度が1になってしまった場合は、F1とF2の間の相関の値を0とする。なお、この3割というのは一例であり、必ずしもこの値に限定されるものではない。

図１６の例では、まず、出現頻度が一番多く3回出現する「隆俊」のレコードをサンプリングする。なお、「由紀子」も3回であるので、「由紀子」からサンプリングしても良い。この段階でサンプリング数は3であるが、総レコード数は11であるので、まだ3割を超えない。そのため、次の「由紀子」をサンプリングする。この段階でサンプリング数は6となり、3割を超えるのでここでサンプリングを終了する。

次に、サンプリングしたレコードに対して、（１）と同一の方法でF1とF2の間の相関の値を計算する。F1の同一の文字列の同一のカテゴリ値と解釈すれば、サンプリングしたレコードに対してカテゴリとカテゴリの場合の間の相関の値の計算と同じになる。図１６の例でサンプリングしたレコードに対して計算したF1とF2の間の相関の値は1となる。

上記の方式は、例えば、「名前」と「性別」とのフィールド間の相関の値を計算する場合に有効である。しかしながら、図１７の（a） F1のように「苗字+名前」が1フィールドに格納されてしまうと、F2「性別」との相関は0になってしまう。このような場合、F1のデータを形態素解析を用いて単語に分割して、図１７の（ｂ）のようにそれぞれのレコードをF1の単語毎に複数のレコードに分割してから、上記の方式を実行すれば、F1とF2との相関の値は0.69となり、文字列の一部分に相関がある場合にも対応できる。

以上、レコード相関値計算手段１１における、２つのフィールド間の相関の値の計算方法を説明した。本発明では、カテゴリ値のフィールドの対応を検出することを目的としているが、その他の数値、文字列のフィールドの対応を検出することにも適用可能である。その場合のレコードの相関の値の計算方法を下記に示す。
（４）フィールドタイプが文字列と数値の場合
F1が文字列でF2が数値のフィールドの間の相関の値を計算する。

まず、F1の値を元にレコードをサンプリングする。サンプリング方法は（３）と同様である。

次に、F1の値を元にサンプリングしたレコードからさらにF2の値を元にサンプリング/変換する。サンプリング／変換方法は（２）と同様である。

次に、ここまでにサンプリングしたレコードに対して、（１）と同一の方法でF1とF2の間の相関の値を計算する。

なお、上記はF1を元にレコードをサンプリングしてからF2を元にレコードをサンプリング/変換しているが、逆に、F2を元にレコードをサンプリング/変換してからF1を元にレコードをサンプリングしてもよい。
（５）フィールドタイプが文字列と文字列の場合
まず、F1の値を元にレコードをサンプリングする。サンプリング方法は（３）と同様である。

次に、F1の値を元にサンプリングしたレコードからさらにF2の値を元にサンプリングする。サンプリング方法は（３）と同様である。

なお、上記はF1を元にレコードをサンプリングしてからF2を元にレコードをサンプリングしているが、逆に、F2を元にレコードをサンプリングしてからF1を元にレコードをサンプリングしてもよい。
（６）フィールドタイプが数値と数値の場合
図１８を例としてフィールドF1とフィールドF2の間の相関の値を計算する。なお、下記の計算は相関係数の計算と同一である。

まず、F1の値の平均値Ave(F1)と、F2の値の平均値Ave(F2)を求める。図１８の例では、Ave(F1)=4.5、Ave(F2)=14.5である。

次に、F1のそれぞれの値からAve(F1)、F2のそれぞれの値からAve(F2)を引いた値に変換する。

次に、F1とF2の間の相関の値を、cosine(F1,F2)の絶対値として計算する。cosine(F1,F2)は下記の式で求められる。F1(r),F2(r)はレコードrにおけるF1,F2の値である。

cosine(F1,F2) =
Σr∈F1,F2 F1(r) * F2(r) /
√(Σr∈F1 F1(r)^2) * √(Σr∈F2 F2(r)^2)

図１８の例では、

cosine(F1,F2) =
(-4.5*-4.5)+(-3.5*-3.5)+(-2.5*-2.5)+.....+(4.5*4.5) / √((-4.5)^2+(-3.5)^2+(-2.5)^2+....+(4.5)^2) * √((-4.5)^2+(-3.5)^2+(-2.5)^2+....+(4.5)^2)
= 1

となる。

以上、実施の形態の動作を説明した。

上述した実施の形態のレコード相関値計算手段１１では、１つの確定済みフィールドと１つの未確定フィールドとからひとつのフィールド組を構成し、１つの確定済みフィールドと１つの未確定フィールドとの相関の値を計算しているが、複数の確定済みフィールドと１つの未確定フィールドとからひとつのフィールド組を構成し、複数の確定済みフィールドと１つの未確定フィールドとの相関の値を計算するようにしても良い。

例えば、図１９は、２個の確定済みフィールドF11,F12と1つの未確定フィールドF2の間の相関の値を計算した例である。先に図１４で説明した計算方法においてF1をF11&F12と置き換えれば、同様の方法で相関の値を計算できることがわかる。図１９の例では、F11とF2、および、F11とF2の間の相関の値は低いが、F11、F12とF2の相関の値は1と高くなる。このように複数の確定済みフィールドとの相関の値を計算することによって、新たな確定済みフィールドを検出することが可能となる。

図１９の例では、確定済みフィールド、未確定フィールド共にフィールドタイプがカテゴリであることを前提としているが、いずれかのフィールドが数値、文字列の場合でも、図１６、図１８の方法を用いて相関の値を計算することが可能である。例えば、F11が文字列、F12が数値、F2がカテゴリの場合、図１６で説明した方法でF11の値に基づいてレコードをサンプリングした残りと、図１８で説明した方法でF12の値に基づいてレコードをサンプリングした残りの積集合のレコードを用いてF11、F12とF2の間の相関を計算すればよい。

レコード相関値計算手段１１で、複数の確定済みフィールドとひとつの未確定フィールドとの相関を計算した場合、フィールドグループ判定手段では、ある複数の確定済みフィールドとフィールド相関値記憶部に格納されたフィールド間の相関の値があらかじめ設定された閾値以上となる未確定フィールド群の中で、その複数の確定済みフィールドのそれぞれがフィールドグループ記憶部に格納された同一のフィールドグループに所属する未確定フィールド群を新たな確定済みフィールドとする。

例えば、図３の対象データベース３、図１０のフィールドグループ記憶部２２において、TBL1の確定済みフィールドである名前、年齢と、未確定フィールドである既婚との間の相関値が閾値以上であり、かつTBL2の確定済みフィールドであるLast、Ageと、未確定フィールドであるC2とのレコードの相関の値が閾値以上である場合、名前とLastは同一フィールドグループで、かつ、年齢とAgeは同一フィールドグループであるため、既婚のフィールドとC2のフィールドとを新たな確定済みフィールドとする。

以上の如く、第１の本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法であって、テーブル間で対応するフィールドをグループ化したフィールドグループを記憶しておき、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算し、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。

また、第２の本発明は、上記本発明において、２つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする。

また、第３の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示することを特徴とする。

また、第４の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示することを特徴とする。

また、第５の本発明は、上記本発明において、複数の確定済みフィールドと、ひとつの未確定フィールドとから組みを構成し、前記複数の確定済みフィールドと、前記ひとつの未確定フィールドとの相関値を計算し、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。

また、第６の本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段と、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

また、第７の本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

また、第８の本発明は、上記本発明において、前記フィールド相関値計算手段は、２つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする。

また、第９の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする。

また、第１０の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする。

また、第１１の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。

また、第１２の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録することを特徴とする。

また、第１３の本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算する処理と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。

また、第１４の本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納する処理と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。

また、第１５の本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

また、第１６の本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。

また、第１７の本発明は、上記本発明において、前記フィールド相関値計算手段は、２つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする。

また、第１８の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする。

また、第１９の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする。

また、第２０の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。

また、第２１の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録することを特徴とする。

そして、本出願は、２００７年３月９日に出願された日本出願特願２００７−５９９９０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明のフィールド照合システムは、大規模なデータベースの異なるテーブルを統合する際の、フィールド名の対応付けに利用できる。テーブルの統合により、複数のテーブルに跨った検索が可能になる。

【００１１】
つのフィールドの対応が確定している状態である。グループ１がＴＢＬ１の苗字のフィールドとＴＢＬ２のＬａｓｔのフィールド、グループ２がＴＢＬ１の名前のフィールドとＴＢＬ２のＦｉｒｓｔのフィールド、グループ３がＴＢＬ１の年齢のフィールドとＴＢＬ２のＡｇｅのフィールドである。
［００４６］
また、入力装置４から相関の値の閾値として０．５が与えられたとして説明する。
［００４７］
まず、フィールドタイプ判定手段１０は、対象データベース３に格納されたそれぞれのテーブルのそれぞれのフィールドのデータを解析してフィールドタイプを判定し、その結果をフィールドタイプ記憶部２０に格納する（図１２のステップＳ１）。
［００４８］
尚、ここでは、フィールドタイプは文字列、カテゴリ、数値の３種類として説明する。また、フィールドタイプは、次のように自動的に判定できる。まず、フィールドのデータを解析して、データの字種とデータの異なり数を調べる。もし、データの異なり数が２以下の場合、フィールドタイプをカテゴリとする。なお、この２という値は一例であってこの値に限るものではない。もし、データの異なり数が２よりも上で、かつ、データの字種が数値であれば、フィールドタイプを数値とする。もし、データの異なり数が２よりも上で、かつ、データの字種が数値以外であれば、フィールドタイプを文字列とする。この判別方法を用いて、図６の対象データベース３の個々のフィールドに対するフィールドタイプ記憶部２０の格納例を図８に示す。なお、ここではフィールドタイプを自動判定しているが、利用者によりフィールドタイプを入力してもらう方法でもよい。
［００４９］
次にフィールド相関値計算手段１１は、同一テーブル内でフィールドグループ記憶部２２に格納された未確定フィールドと確定済みフィールドとの相関の値を対象データベース３を参照して計算し、その結果をフィールド相関記憶部２１に登録する（図１２のステップＳ２）。
［００５０］
例えば、ＴＢＬ１に関して、図１０に示されるフィールドグループ記憶部２２の格納例では、確定済みフィールドは、苗字、名前、年齢である。一方、未確定フィールドは、ＴＢＬ１の既婚、性別である。したがって、ＴＢＬ１に関して未確定フィールドと確定済みフィールドとの間の相関の値の組み合わせは６通りある。ＴＢＬ２に関しても同様に６通りである。ここでは、フィールド間の相関の値は、フィールドタイプ判定手段１０により判定されたフィールドタイプに応じて異なる計算方法を用意する。２つのフィールド間の相

Claims

異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法であって、
テーブル間で対応するフィールドをグループ化したフィールドグループを記憶しておき、
各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算し、
前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、
前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
ことを特徴とするフィールド照合方法。
２つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とした請求項１に記載のフィールド照合方法。
新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示することを特徴とした請求項１又は請求項２に記載のフィールド照合方法。
新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示することを特徴とした請求項１から請求項３のいずれかに記載のフィールド照合方法。
複数の確定済みフィールドと、ひとつの未確定フィールドとから組みを構成し、
前記複数の確定済みフィールドと、前記ひとつの未確定フィールドとの相関値を計算し、
前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが同じフィールドグループに属する組を求め、
前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
ことを特徴とる請求項１から請求項４のいずれかに記載のフィールド照合方法。
異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、
テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段と、
各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、
前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
を有することを特徴とするフィールド照合システム。
異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、
それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、
テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と、
前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、
前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
を有することを特徴とするフィールド照合システム。
前記フィールド相関値計算手段は、２つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする請求項６又は請求項７に記載のフィールド照合システム。
新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする請求項６から請求項８のいずれかに記載のフィールド照合システム。
新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする請求項６から請求項９のいずれかに記載のフィールド照合システム。
前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
ことを特徴とする請求項６から請求項１０のいずれかに記載のフィールド照合システム。
前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する
ことを特徴とする請求項７から請求項１０のいずれかに記載のフィールド照合システム。
テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、
前記プログラムは、前記情報処理装置に、
各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算する処理と、
前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理と
を実行させることを特徴とするプログラム。
それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、
テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と
を備えた情報処理装置に、
異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、
前記プログラムは、前記情報処理装置に、
前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納する処理と、
前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理と
を実行させることを特徴とするプログラム。
テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、
各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、
前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
を有することを特徴とするフィールド照合装置。
それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、
前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、
前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
を有することを特徴とするフィールド照合装置。
前記フィールド相関値計算手段は、２つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とした請求項１５又は請求項１６に記載のフィールド照合装置。
新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする請求項１５から請求項１７のいずれかに記載のフィールド照合装置。
新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする請求項１５から請求項１８のいずれかに記載のフィールド照合装置。
前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
ことを特徴とする請求項１５から請求項１９のいずれかに記載のフィールド照合装置。
前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する
ことを特徴とする請求項１５から請求項２０のいずれかに記載のフィールド照合装置。