JPWO2008111424A1 - フィールド照合方法及びシステムと、そのプログラム - Google Patents

フィールド照合方法及びシステムと、そのプログラム Download PDF

Info

Publication number
JPWO2008111424A1
JPWO2008111424A1 JP2009503971A JP2009503971A JPWO2008111424A1 JP WO2008111424 A1 JPWO2008111424 A1 JP WO2008111424A1 JP 2009503971 A JP2009503971 A JP 2009503971A JP 2009503971 A JP2009503971 A JP 2009503971A JP WO2008111424 A1 JPWO2008111424 A1 JP WO2008111424A1
Authority
JP
Japan
Prior art keywords
field
group
confirmed
fields
unconfirmed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009503971A
Other languages
English (en)
Other versions
JP5170466B2 (ja
Inventor
立石 健二
健二 立石
大 久寿居
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009503971A priority Critical patent/JP5170466B2/ja
Publication of JPWO2008111424A1 publication Critical patent/JPWO2008111424A1/ja
Application granted granted Critical
Publication of JP5170466B2 publication Critical patent/JP5170466B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Abstract

【課題】フィールドに含まれるデータの特徴のみでは対応グループの特定が難しいカテゴリのフィールドの対応を正確にグルーピングすることできる技術を提供すること。【解決手段】確定済みフィールドと未確定フィールドとの組み合わせであるフィールド組を決定し、これらのフィールド組における確定済みフィールドと未確定フィールドとの相関値を計算する。相関の値が閾値以上となるフィールド組の未確定フィールド群のなかで、この未確定フィールド群が対応する確定済みフィールドが同一のフィールドグループに所属する未確定フィールド群を新たなフィールドグループとする。【選択図】図5

Description

本発明は、データベースの異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法及びシステムとそのプログラムに関し、特に、カテゴリ値のようなデータに特徴がないフィールドの対応を正確にグルーピングするフィールド照合方法及びシステムと、そのプログラムに関する。
フィールド照合とはデータベースの異なるテーブル間で対応するフィールドをグルーピングすることをいう。例えば、図1ではTBL1からTBL3の3つのテーブル間で、TBL1の性別フィールドと、TBL2のAgeフィールドと、TBL3のAフィールドとが対応している。異なるテーブル間におけるフィールドの対応が決まれば、テーブルの統合が可能になり、利用者は異なるテーブル間を跨った検索を一度に実行できる。
このような場合であっても、多くのフィールドから構成されるテーブルが多いこと、対応するフィールド同士であってもフィールド名が一致しない場合が多いことから、人手で対応するフィールドを絞り込むのは容易でない。そのため、テーブル間で対応するフィールドもしくはその候補を自動的にグルーピングしてユーザに提示するフィールド照合システムが望まれている。
従来のフィールド照合システムは、フィールドに含まれるデータの特徴が一致するフィールド同士をグルーピングしていた(特許文献1)。例えば、図2のTBL1の苗字フィールドと、TBL2のLastフィールドとは対応する。それは、どちらのフィールドのデータも字種が漢字であり、さらに、人名の苗字が使われているためである。同様な理由で、TBL1の名前フィールドとTBL2のFastフィールドとも対応する。また、TBL1の年齢フィールドとTBL2のAgeフィールドとは、字種が数値であり、さらに、平均値が一致することから対応する。
特開2006−99236号公報
このような従来のフィールド照合システムは、例えば、性別や既婚/未婚のようにデータが0や1ばかりになるカテゴリ値のフィールドの場合、対応するフィールドの絞込みが困難であった。
何故なら、これらのデータは同じ特徴を持つ場合が多いからである。例えば、図3のTBL1の既婚フィールドは、データが0又は1のフィールドであるので、字種が数値、平均値は0.5となる。ところが、TBL2のC1とC2のどちらも同じように、データが0又は1のフィールドなので、既婚フィールドとデータの特徴は同じになり、対応するフィールドを絞り込むことができない。同様に、TBL1の性別フィールドも、TBLのC1とC2のどちらと対応するかを絞り込むことができない。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、フィールドに含まれるデータの特徴のみでは対応グループの特定が難しいカテゴリのフィールドの対応を正確にグルーピングすることできる技術を提供することにある。
上記目的を達成する本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法であって、テーブル間で対応するフィールドをグループ化したフィールドグループを記憶しておき、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算し、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。
上記目的を達成する本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段と、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
上記目的を達成する本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
上記目的を達成する本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算する処理と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。
上記目的を達成する本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納する処理と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。
上記目的を達成する本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
上記目的を達成する本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
本発明によれば、フィールドに含まれるデータの特徴のみでは、対応するフィールドを特定してグループ化が難しい、カテゴリのフィールドであっても、高精度にグルーピングすることができることである。その理由は、対応関係が確定しているフィールドと、それらのフィールドと未確定のフィールドとの相関とを用いて、対応グループを特定しているからである。
図1は従来技術を説明するための図である。 図2は従来技術を説明するための図である。 図3は従来技術を説明するための図である。 図4は本発明を説明するための図である。 図5は本発明を説明するための図である。 図6は本発明の第1の実施の形態のブロック図である。 図7は対象データベースの例を示した図である。 図8はフィールドタイプ記憶部20の格納例を示した図である。 図9はフィールド相関記憶部21の格納例を示した図である。 図10はフィールドグループ記憶部22の格納例を示した図である。 図11はフィールドグループ記憶部22の格納例を示した図である。 図12は実施するための最良の形態の動作のフローチャートである。 図13は図11のフィールドグループ記憶部22を出力装置5に表示した例を示す図である。 図14はフィールドの相関値の計算を説明するための図である。 図15はフィールドの相関値の計算を説明するための図である。 図16はフィールドの相関値の計算を説明するための図である。 図17はフィールドの相関値の計算を説明するための図である。 図18はフィールドの相関値の計算を説明するための図である。 図19はフィールドの相関値の計算を説明するための図である。
符号の説明
1 データ処理装置
2 記憶装置
3 対象データベース
4 入力装置
5 出力装置
まず、本発明の概要を説明する。
本発明は、フィールドの相関を用いて対応するフィールド群をグルーピングすることを特徴とする。図4の例のように、性別や既婚/未婚のようなデータが0や1ばかりになるフィールドの場合、データを手がかりとした対応フィールドの絞込みは難しい。ここで、「健二」という名前は一般的には「男性」につけられ、「由紀子」という名前は「女性」につけられることからわかるように、名前と性別には相関があるといえる。同様に、結婚はある程度の年齢を超えてなってからする場合が多いことから、既婚と年齢には相関があるといえる。
そこで、図4の例において、もしTBL1の名前のフィールドとTBL2のFirstのフィールドとが対応することが事前にわかっており、さらに、TBL1の名前のフィールドと性別のフィールドとは相関(相関1)があること、TBL2のFirstのフィールドとC2のフィールドとは相関(相関1)があることがわかれば、図4のようにTBL1の性別のフィールドとTBL2のC2のフィールドは対応することを新たに導ける。
同様に、もしTBL1の年齢のフィールドとTBL2のAgeのフィールドとが対応することが事前にわかっており、さらに、TBL1の年齢のフィールドと既婚のフィールドとは相関(相関2)があること、TBL2のAgeのフィールドとC1のフィールドとは相関(相関2)があることがわかれば、図4のようにTBL1の既婚のフィールドとTBL2のC1のフィールドとは対応することを新たに導ける。
本発明は、2つの処理から構成される。
ここでは図4のTBL1とTBL2を例として説明する。本発明では、既に対応が確定したフィールドグループが存在することを前提する。ここでは、図4のTBL1とTBL2との間で3つのフィールドグループが確定しているとする。グループ1はTBL1の苗字のフィールドとTBL2のLastのフィールド、グループ2はTBL1の名前のフィールドとTBL2のFastのフィールド、グループ3はTBL1の年齢のフィールドとTBL2のAgeのフィールドとする。なお、図4は図2の例と同じように、従来技術を用いることでフィールドグループを検出できる。
まず、ステップ1として、同一テーブル内で未確定フィールドと確定済みフィールドとの間の相関の値を計算する。ここで、確定済みフィールドとはいずれかのフィールドグループに所属するフィールドであり、未確定フィールドとはいずれのフィールドグループにも所属しないフィールドである。例えば、TBL1の確定済みフィールドは苗字、名前、年齢のフィールドであり、未確定フィールドは、性別、既婚のフィールドである。
このとき、確定済みフィールドと未確定フィールドとの組み合わせであるフィールド組を決定し、これらのフィールド組における確定済みフィールドと未確定フィールドとの相関値を計算する。
図5のTBL1の例では、3つの確定済みフィールドと2つの未確定フィールドとから6個のフィールド組が求められ、各フィールド組におけるフィールド間の相関の値を計算する。この相関の値は0から1で正規化されており、例えば、図5のStep1のようになる。ここでは、名前のフィールドと性別のフィールド、年齢のフィールドと既婚のフィールドとの相関の値が大きくなっている。TBL2についても同様で、AgeのフィールドとC1のフィールド、FastのフィールドとC2のフィールドの相関の値が大きくなっている。
次に、ステップ2として、相関の値が閾値以上となるフィールド組の未確定フィールド群のなかで、この未確定フィールド群が対応する確定済みフィールドが同一のフィールドグループに所属する未確定フィールド群を新たなフィールドグループとする(図5のStep2参照)。すなわち、相関の値が閾値以上となるフィールド組群のうち、そのフィールド組群の確定済みフィールドが同一のフィールドグループに所属するフィールド組群の未確定フィールドを新たなフィールドグループとする。
例えば、閾値を50%とすると、TBL1の性別のフィールドと名前のフィールドとの相関の値は閾値を超える(TBL1の性別のフィールドと名前のフィールドとの組み合わせをフィールド組1とする)。また、TBL2のC2のフィールドとFastのフィールドとの相関の値は閾値を超える(TBL2のC2のフィールドとFastのフィールドとの組み合わせをフィールド組2とする)。
ここで、フィールド組1の確定済みフィールドである名前のフィールドはグループ2に属し、フィールド組2の確定済みフィールドであるFastのフィールドもグループ2に属しており、同一のフィールドループに属している。そこで、フィールド組1の未確定フィールドであるTBL1の性別のフィールドと、フィールド組2の未確定フィールドであるTBL2のC2のフィールドとを新たなフィールドグループとする。
別言い方をすれば、TBL1の性別のフィールドに対応する確定済みフィールドである名前はグループ2に属し、TBL2のC2のフィールドに対応する確定済みフィールドであるFastのフィールドはグループ2に属する。そして、TBL1の性別のフィールドとTBL2のC2のフィールドとを新たなフィールドグループとも言える。
同様にTBL1の既婚のフィールドとTBL2のC1のフィールドとを新たなフィールドグループとする。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
図6を参照すると、本発明の実施の形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2と、対象データベース3とキーボード等の入力装置4とディスプレイ等の出力装置5とを含む。
対象データベース3は、いわゆるデータベースであり、複数のテーブルが記憶されている。対象データベースの例を図7に示す。
記憶装置2は、フィールドタイプ記憶部20と、フィールド相関値記憶部21と、フィールドグループ記憶部22とを含む。記憶装置2は、HDD等の磁器媒体や、メモリに格納する。
フィールドタイプ記憶部20は、フィールドとフィールドタイプとの対応関係が格納されている。図8にフィールドタイプ記憶部20の格納例を示す。
フィールド相関値記憶部21は、確定済みフィールドと未確定フィールドとの相関の値が格納されている。図9にフィールド相関記憶部21の格納例を示す。
フィールドグループ記憶部22は、所定のフィールドと、このフィールドが属するフィールドグループを示すフィールドグループIDと、そのフィールドと相関するフィールドとの関係が格納されている。図10と図11にフィールドグループ記憶部22の格納例を示す。フィールドグループIDが付与されたフィールドが確定済みフィールドであり、付与されていないフィールドが未確定フィールドを示す。
データ処理装置1は、フィールドタイプ判定手段10と、フィールド相関値計算手段11と、フィールドグループ判定手段12と、表示手段13を含む。
フィールドタイプ判定手段10は、対象データベース3に格納されたそれぞれのテーブルのそれぞれのフィールドのデータを解析してフィールドタイプを判定し、その結果をフィールドタイプ記憶部20に格納する。フィールドタイプは、文字列、カテゴリ、数値の3種類がある。図7の対象データベースの内容に対して、フィールドタイプ判定手段10が行ったフィールドタイプ判定の結果が、フィールドタイプ記憶部20に格納された例を図8に示す。
フィールド相関値計算手段11は、同一テーブル内でフィールドグループ記憶部22に格納された未確定フィールドと確定済みフィールドとの相関の値(未確定フィールドと確定済みフィールドとの組み合わせのフィールド組の相関の値)を、対象データベース3を参照して計算し、その結果をフィールド相関記憶部21に登録する。フィールドの相関の値は、フィールドタイプ判定手段10により判定されたフィールドタイプに応じて異なる計算方法を用意してもよい。フィールド相関値計算手段11が計算した相関の値が格納された例を図9に示す。
フィールドグループ判定手段12は、フィールド相関値記憶部21に格納されたフィールドの相関の値が入力装置4から入力された所定の閾値以上となるフィールド組を求める。所定の閾値以上となるフィールド組のうち、確定済みフィールドが異なるテーブル間で同一のフィールドグループに所属するフィールド組を求める。そして、このフィールド組群の未確定フィールド群を新たな確定済みフィールド群としてグループ化する。更に、新たな確定済みフィールド群とフィールドの相関の値が閾値以上となるフィールド群を相関フィールド群とする。新たな確定済みフィールド群と相関フィールド群とをフィールドグループ記憶部22に格納する。図9のフィールド相関記憶部11と図10のフィールドグループ記憶部22に対するフィールドグループ判定手段12の処理結果であるフィールドグループ記憶部22の例を図11に示す。
表示手段13は、フィールドグループ記憶部22に格納された確定済みフィールド群とその相関フィールド群を出力装置5に表示する。
次に、図12を参照して本発明を実施するための最良の形態の動作について詳細に説明する。
ここでは、対象データベース3として図7が与えられ、初期のフィールドグループ記憶部22として図10が与えられた場合を例として説明する。すなわち、対象データベース3の2つのテーブルはともに5つのフィールドから構成されているが、そのうちの3つのフィールドの対応が確定している状態である。グループ1がTBL1の苗字のフィールドとTBL2のLastのフィールド、グループ2がTBL1の名前のフィールドとTBL2のFirstのフィールド、グループ3がTBL1の年齢のフィールドとTBL2のAgeのフィールドである。
また、入力装置4から相関の値の閾値として0.5が与えられたとして説明する。
まず、フィールドタイプ判定手段10は、対象データベース3に格納されたそれぞれのテーブルのそれぞれのフィールドのデータを解析してフィールドタイプを判定し、その結果をフィールドタイプ記憶部20に格納する(図12のステップS1)。
尚、ここでは、フィールドタイプは文字列、カテゴリ、数値の3種類として説明する。また、フィールドタイプは、次のように自動的に判定できる。まず、フィールドのデータを解析して、データの字種とデータの異なり数を調べる。もし、データの異なり数が2以下の場合、フィールドタイプをカテゴリとする。なお、この2という値は一例であってこの値に限るものではない。もし、データの異なり数が2よりも上で、かつ、データの字種が数値であれば、フィールドタイプを数値とする。もし、データの異なり数が2よりも上で、かつ、データの字種が数値以外であれば、フィールドタイプを文字列とする。この判別方法を用いて、図8の対象データベース3の個々のフィールドに対するフィールドタイプ記憶部20の格納例を図9に示す。なお、ここではフィールドタイプを自動判定しているが、利用者によりフィールドタイプを入力してもらう方法でもよい。
次にフィールド相関値計算手段11は、同一テーブル内でフィールドグループ記憶部22に格納された未確定フィールドと確定済みフィールドとの相関の値を対象データベース3を参照して計算し、その結果をフィールド相関記憶部21に登録する(図12のステップS2)。
例えば、TBL1に関して、図10に示されるフィールドグループ記憶部22の格納例では、確定済みフィールドは、苗字、名前、年齢である。一方、未確定フィールドは、TBL1の既婚、性別である。したがって、TBL1に関して未確定フィールドと確定済みフィールドとの間の相関の値の組み合わせは6通りある。TBL2に関しても同様に6通りである。ここでは、フィールド間の相関の値は、フィールドタイプ判定手段10により判定されたフィールドタイプに応じて異なる計算方法を用意する。2つのフィールド間の相関の値の具体的な計算方法は後述する。フィールド相関値計算手段11が計算した相関の値が格納された例を図9に示す。
次にフィールドグループ判定手段12は、フィールド相関値記憶部21に格納されたフィールドの相関の値が入力装置4から入力された閾値以上となるフィールド組群の中で、フィールドグループ記憶部22に格納されている情報を参照して、同一のフィールドグループに所属する確定済みフィールド群を求める。そして、それらの確定済みフィールド群に対応する未確定フィールド群を求め、それらの未確定フィールド群を新たな確定済みフィールド群とする。そして、新たな確定済みフィールド群とフィールドの相関の値が閾値以上となるフィールド群を相関フィールド群とする。新たな確定済みフィールド群と相関フィールド群とをフィールドグループ記憶部22に格納する。(図12のステップS3)。
例えば、図9のフィールド相関記憶部21において相関の値が0.5以上となるのは、TBL1の既婚のフィールドと年齢のフィールドとの組み合わせであるフィールド組1、および、性別のフィールドと名前のフィールドとの組み合わせであるフィールド組2である。既婚のフィールドと性別のフィールドとは未確定フィールドで、年齢のフィールドと名前のフィールドとは確定済みフィールドである。
また、相関の値が0.5以上となるのは、TBL2のC1のフィールドとFirstのフィールドとの組み合わせであるフィールド組3、および、C2のフィールドとAgeのフィールドとの組み合わせであるフィールド組4である。C1のフィールドとC2のフィールドは未確定フィールドで、FirstのフィールドとAgeのフィールドは確定済みフィールドである。
一方、フィールドグループ記憶部22における図10の格納例では、フィールド組1の確定済みフィールドの年齢と、フィールド組4の確定済みフィールドのAgeとは、同一のフィールドグループに所属している。また、フィールド組2の確定済みフィールドの名前と、フィールド組3の確定済みフィールドのFirstとは同一のフィールドグループに所属している。
ここから、フィールド組1の未確定フィールドである既婚と、フィールド組4の未確定フィールドであるC2とは新たな確定済みフィールドとなり、新たなフィールドグループID(フィールドグループID=4)が付される。さらに、年齢のフィールドと既婚のフィールドとは相関フィールドとなり、AgeのフィールドとC2のフィールドとは相関フィールドとなる。
同様に、未確定フィールドの性別と未確定フィールドのC1とは新たな確定済みフィールドとなり、新たなフィールドグループID(フィールドグループID=5)が付される。さらに、名前のフィールドと性別のフィールドとは相関フィールドとなり、FastのフィールドとC1のフィールドとは相関フィールドとなる。
以上の結果として、フィールドグループ記憶部22は図11のように変更される。
次に、表示手段13は、フィールドグループ記憶部22に格納された確定済みフィールド群とその相関フィールド群を出力装置5に表示する(図12のステップS4)。
図11のフィールドグループ記憶部22を出力装置5に表示した例を図13に示す。この表示例では、新たな確定済みフィールド群を実線で結んでいる。また、確定済みフィールド群の相関フィールドは各フィールドの先頭に「相関+数字」で区別している。例えば、既婚のフィールドとC2のフィールドとは新たな確定済みフィールドであり、既婚の相関フィールドは「相関2」の年齢のフィールド、C2の相関フィールドは「相関2」のAgeのフィールドであることがわかる。このように相関フィールドを合わせて表示することで、システムがどのような判断で新たな確定済みフィールドを検出したかを利用者が理解できるようになる。
次に、フィールド相関値計算手段11における、2つのフィールド間の相関の値の計算方法を説明する。
フィールド相関値計算手段11は、2つのフィールドのフィールドタイプの組み合わせに応じて異なる計算方法を用いる。フィールドタイプは、数値、文字列、カテゴリの3通りがある。本発明の目的は、カテゴリ値のフィールドの対応を検出することであるから、一方のフィールドのフィールドタイプはカテゴリとなる。そして、他方のフィールドのフィールドタイプは、数値、または、文字列、カテゴリとなる。したがって、フィールド間の相関の値の計算方法は、
(1)フィールドタイプがカテゴリとカテゴリの場合、
(2)フィールドタイプがカテゴリと数値の場合、
(3)フィールドタイプがカテゴリと文字列の場合
の3通りとなる。なお、従来技術として相関係数の計算があるが、これはフィールドタイプが数値と数値の場合を前提としているため、ここでは別の方式を用いる必要がある。
(1)フィールドタイプがカテゴリとカテゴリの場合
図14を例としてフィールドF1とフィールドF2との相関の値を計算する。
まず、F1の情報量、F2の情報量、F1とF2の情報量を計算する。log2は2を底にとる対数である。

H(F1) = Σx∈F1 -P(x) * log2 P(x)
H(F2) = Σx∈F2 -P(x) * log2 P(x)
H(F1&F2) =Σ_x∈F1 Σ_y ∈F2 -P(x∧y) * log2 P(x∧y)
P(x) = (値がxのレコード数) / (フィールドに含まれる総レコード数)

図14の例で説明すると、総レコード数は10、そのうちF1の値が0のレコード数は2であるからP(0)=0.2、1のレコード数は3であるからP(1)=0.3、2のレコード数は3であるからP(2)=0.3、3のレコード数は2であるからP(3)=0.2となる。したがって、

H(F1) = -0.2*log2 0.2 -0.3*log2 0.3 - 0.3*log2 0.3 - 0.2*log2 0.2
= 1.97

となる。H(F2)、H(H1&H2)についての計算も図14に示す。

このとき、F1とF2の間の相関の値は次の式で求める。

F1とF2の間の相関の値 =
(H(F1) + H(F2) - H(F1,F2))/ (H(F1) + H(F2) - max(H(F1), H(F2))

図14の例では、H(F1)=1.97、H(F2)=1、H(F1&F2)=1.97であるから、

F1とF2の間の相関の値 =
(1.97+1-1.97) / (1.97+1-1.97) = 1
となる。
ここで、情報量とはデータのばらつきを示し、値が大きいほどデータにばらつきがあり、値が小さいほどデータにばらつきが小さく同じデータが多いことを意味する。
相関の値の計算の直感的な理解は次のようになる。
F1とF2とに相関がなく完全に独立だと仮定すると、F1&F2のデータのばらつきはF1のばらつきとF2のばらつきの和になる。上記の場合は、H(F1)+H(F2)=2.97である。実際のF1&F2のデータのばらつきは1.97である。この2.97から1.97を引いた残りの1がF1とF2の間の相関の値となる。ここで、F1&F2のデータのばらつきの最大値はH(F1)+H(F2)=2.97、最小はmax(H(F1),H(F2))=1.97である。したがって、相関の値を0-1の値で正規化する場合には、H(F1)+H(F2)-max(H(F1),H(F2))でわれば良いことになる。
(2)フィールドタイプがカテゴリと数値の場合
図15を例として、F1が数値でF2がカテゴリのフィールドの間の相関の値を計算する。
まず、F1の値を元にレコードをサンプリング/変換する。F1の平均値Ave(F1)と標準偏差STDEV(F1)を求め、F1の値がAve(F1) + STDEV(F1)より大きいレコード、および、Ave(F1)+STDEV(F1)より小さいレコードをサンプリングする。さらに、Ave(F1) + STDEV(F1)より大きい値を1に変換して、Ave(F1)+STDEV(F1)より小さい値を0に変換する。
図15の例では、平均値はAve(F1)=35.63636、標準偏差はSTDEV(F1)=17.63674である。したがって、F1の値が53.27310より大きいレコードと、17.63674より小さいレコードをサンプリングする。また、53.27310より大きいF1の値は1に17.63674より小さいF1の値を0に変換する。
次に、サンプリング / 変換したレコードに対して、(1)と同一の方法でF1とF2の間の相関の値を計算する。F1はカテゴリ値に変換されているので、サンプリング/変換したレコードに対してはカテゴリとカテゴリの場合の相関の値の計算と同じになる。図15の例でサンプリング/変換したレコードに対して計算したF1とF2の間の相関の値は1となる。
(3)フィールドタイプがカテゴリと文字列の場合
図16を例として、F1が文字列でF2がカテゴリのフィールドの間の相関の値を計算する。
まず、F1の値を元にレコードをサンプリングする。F1の値の出現頻度を求め、出現頻度が多いレコードから順番に全体の3割をこえるレコードをサンプリングする。ただし、3割に達する前に出現頻度が1になってしまった場合は、F1とF2の間の相関の値を0とする。なお、この3割というのは一例であり、必ずしもこの値に限定されるものではない。
図16の例では、まず、出現頻度が一番多く3回出現する「隆俊」のレコードをサンプリングする。なお、「由紀子」も3回であるので、「由紀子」からサンプリングしても良い。この段階でサンプリング数は3であるが、総レコード数は11であるので、まだ3割を超えない。そのため、次の「由紀子」をサンプリングする。この段階でサンプリング数は6となり、3割を超えるのでここでサンプリングを終了する。
次に、サンプリングしたレコードに対して、(1)と同一の方法でF1とF2の間の相関の値を計算する。F1の同一の文字列の同一のカテゴリ値と解釈すれば、サンプリングしたレコードに対してカテゴリとカテゴリの場合の間の相関の値の計算と同じになる。図16の例でサンプリングしたレコードに対して計算したF1とF2の間の相関の値は1となる。
上記の方式は、例えば、「名前」と「性別」とのフィールド間の相関の値を計算する場合に有効である。しかしながら、図17の(a) F1のように「苗字+名前」が1フィールドに格納されてしまうと、F2「性別」との相関は0になってしまう。このような場合、F1のデータを形態素解析を用いて単語に分割して、図17の(b)のようにそれぞれのレコードをF1の単語毎に複数のレコードに分割してから、上記の方式を実行すれば、F1とF2との相関の値は0.69となり、文字列の一部分に相関がある場合にも対応できる。
以上、レコード相関値計算手段11における、2つのフィールド間の相関の値の計算方法を説明した。本発明では、カテゴリ値のフィールドの対応を検出することを目的としているが、その他の数値、文字列のフィールドの対応を検出することにも適用可能である。その場合のレコードの相関の値の計算方法を下記に示す。
(4)フィールドタイプが文字列と数値の場合
F1が文字列でF2が数値のフィールドの間の相関の値を計算する。
まず、F1の値を元にレコードをサンプリングする。サンプリング方法は(3)と同様である。
次に、F1の値を元にサンプリングしたレコードからさらにF2の値を元にサンプリング/変換する。サンプリング/変換方法は(2)と同様である。
次に、ここまでにサンプリングしたレコードに対して、(1)と同一の方法でF1とF2の間の相関の値を計算する。
なお、上記はF1を元にレコードをサンプリングしてからF2を元にレコードをサンプリング/変換しているが、逆に、F2を元にレコードをサンプリング/変換してからF1を元にレコードをサンプリングしてもよい。
(5)フィールドタイプが文字列と文字列の場合
まず、F1の値を元にレコードをサンプリングする。サンプリング方法は(3)と同様である。
次に、F1の値を元にサンプリングしたレコードからさらにF2の値を元にサンプリングする。サンプリング方法は(3)と同様である。
次に、ここまでにサンプリングしたレコードに対して、(1)と同一の方法でF1とF2の間の相関の値を計算する。
なお、上記はF1を元にレコードをサンプリングしてからF2を元にレコードをサンプリングしているが、逆に、F2を元にレコードをサンプリングしてからF1を元にレコードをサンプリングしてもよい。
(6)フィールドタイプが数値と数値の場合
図18を例としてフィールドF1とフィールドF2の間の相関の値を計算する。なお、下記の計算は相関係数の計算と同一である。
まず、F1の値の平均値Ave(F1)と、F2の値の平均値Ave(F2)を求める。図18の例では、Ave(F1)=4.5、Ave(F2)=14.5である。
次に、F1のそれぞれの値からAve(F1)、F2のそれぞれの値からAve(F2)を引いた値に変換する。
次に、F1とF2の間の相関の値を、cosine(F1,F2)の絶対値として計算する。cosine(F1,F2)は下記の式で求められる。F1(r),F2(r)はレコードrにおけるF1,F2の値である。

cosine(F1,F2) =
Σr∈F1,F2 F1(r) * F2(r) /
√(Σr∈F1 F1(r)^2) * √(Σr∈F2 F2(r)^2)

図18の例では、

cosine(F1,F2) =
(-4.5*-4.5)+(-3.5*-3.5)+(-2.5*-2.5)+.....+(4.5*4.5) / √((-4.5)^2+(-3.5)^2+(-2.5)^2+....+(4.5)^2) * √((-4.5)^2+(-3.5)^2+(-2.5)^2+....+(4.5)^2)
= 1

となる。
以上、実施の形態の動作を説明した。
上述した実施の形態のレコード相関値計算手段11では、1つの確定済みフィールドと1つの未確定フィールドとからひとつのフィールド組を構成し、1つの確定済みフィールドと1つの未確定フィールドとの相関の値を計算しているが、複数の確定済みフィールドと1つの未確定フィールドとからひとつのフィールド組を構成し、複数の確定済みフィールドと1つの未確定フィールドとの相関の値を計算するようにしても良い。
例えば、図19は、2個の確定済みフィールドF11,F12と1つの未確定フィールドF2の間の相関の値を計算した例である。先に図14で説明した計算方法においてF1をF11&F12と置き換えれば、同様の方法で相関の値を計算できることがわかる。図19の例では、F11とF2、および、F11とF2の間の相関の値は低いが、F11、F12とF2の相関の値は1と高くなる。このように複数の確定済みフィールドとの相関の値を計算することによって、新たな確定済みフィールドを検出することが可能となる。
図19の例では、確定済みフィールド、未確定フィールド共にフィールドタイプがカテゴリであることを前提としているが、いずれかのフィールドが数値、文字列の場合でも、図16、図18の方法を用いて相関の値を計算することが可能である。例えば、F11が文字列、F12が数値、F2がカテゴリの場合、図16で説明した方法でF11の値に基づいてレコードをサンプリングした残りと、図18で説明した方法でF12の値に基づいてレコードをサンプリングした残りの積集合のレコードを用いてF11、F12とF2の間の相関を計算すればよい。
レコード相関値計算手段11で、複数の確定済みフィールドとひとつの未確定フィールドとの相関を計算した場合、フィールドグループ判定手段では、ある複数の確定済みフィールドとフィールド相関値記憶部に格納されたフィールド間の相関の値があらかじめ設定された閾値以上となる未確定フィールド群の中で、その複数の確定済みフィールドのそれぞれがフィールドグループ記憶部に格納された同一のフィールドグループに所属する未確定フィールド群を新たな確定済みフィールドとする。
例えば、図3の対象データベース3、図10のフィールドグループ記憶部22において、TBL1の確定済みフィールドである名前、年齢と、未確定フィールドである既婚との間の相関値が閾値以上であり、かつTBL2の確定済みフィールドであるLast、Ageと、未確定フィールドであるC2とのレコードの相関の値が閾値以上である場合、名前とLastは同一フィールドグループで、かつ、年齢とAgeは同一フィールドグループであるため、既婚のフィールドとC2のフィールドとを新たな確定済みフィールドとする。
以上の如く、第1の本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法であって、テーブル間で対応するフィールドをグループ化したフィールドグループを記憶しておき、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算し、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。
また、第2の本発明は、上記本発明において、2つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする。
また、第3の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示することを特徴とする。
また、第4の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示することを特徴とする。
また、第5の本発明は、上記本発明において、複数の確定済みフィールドと、ひとつの未確定フィールドとから組みを構成し、前記複数の確定済みフィールドと、前記ひとつの未確定フィールドとの相関値を計算し、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。
また、第6の本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段と、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
また、第7の本発明は、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
また、第8の本発明は、上記本発明において、前記フィールド相関値計算手段は、2つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする。
また、第9の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする。
また、第10の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする。
また、第11の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。
また、第12の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録することを特徴とする。
また、第13の本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算する処理と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。
また、第14の本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、前記プログラムは、前記情報処理装置に、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納する処理と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理とを実行させることを特徴とする。
また、第15の本発明は、テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
また、第16の本発明は、それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段とを有することを特徴とする。
また、第17の本発明は、上記本発明において、前記フィールド相関値計算手段は、2つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする。
また、第18の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする。
また、第19の本発明は、上記本発明において、新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする。
また、第20の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化することを特徴とする。
また、第21の本発明は、上記本発明において、前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録することを特徴とする。
そして、本出願は、2007年3月9日に出願された日本出願特願2007−59990号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明のフィールド照合システムは、大規模なデータベースの異なるテーブルを統合する際の、フィールド名の対応付けに利用できる。テーブルの統合により、複数のテーブルに跨った検索が可能になる。
【0011】
つのフィールドの対応が確定している状態である。グループ1がTBL1の苗字のフィールドとTBL2のLastのフィールド、グループ2がTBL1の名前のフィールドとTBL2のFirstのフィールド、グループ3がTBL1の年齢のフィールドとTBL2のAgeのフィールドである。
[0046]
また、入力装置4から相関の値の閾値として0.5が与えられたとして説明する。
[0047]
まず、フィールドタイプ判定手段10は、対象データベース3に格納されたそれぞれのテーブルのそれぞれのフィールドのデータを解析してフィールドタイプを判定し、その結果をフィールドタイプ記憶部20に格納する(図12のステップS1)。
[0048]
尚、ここでは、フィールドタイプは文字列、カテゴリ、数値の3種類として説明する。また、フィールドタイプは、次のように自動的に判定できる。まず、フィールドのデータを解析して、データの字種とデータの異なり数を調べる。もし、データの異なり数が2以下の場合、フィールドタイプをカテゴリとする。なお、この2という値は一例であってこの値に限るものではない。もし、データの異なり数が2よりも上で、かつ、データの字種が数値であれば、フィールドタイプを数値とする。もし、データの異なり数が2よりも上で、かつ、データの字種が数値以外であれば、フィールドタイプを文字列とする。この判別方法を用いて、図6の対象データベース3の個々のフィールドに対するフィールドタイプ記憶部20の格納例を図8に示す。なお、ここではフィールドタイプを自動判定しているが、利用者によりフィールドタイプを入力してもらう方法でもよい。
[0049]
次にフィールド相関値計算手段11は、同一テーブル内でフィールドグループ記憶部22に格納された未確定フィールドと確定済みフィールドとの相関の値を対象データベース3を参照して計算し、その結果をフィールド相関記憶部21に登録する(図12のステップS2)。
[0050]
例えば、TBL1に関して、図10に示されるフィールドグループ記憶部22の格納例では、確定済みフィールドは、苗字、名前、年齢である。一方、未確定フィールドは、TBL1の既婚、性別である。したがって、TBL1に関して未確定フィールドと確定済みフィールドとの間の相関の値の組み合わせは6通りある。TBL2に関しても同様に6通りである。ここでは、フィールド間の相関の値は、フィールドタイプ判定手段10により判定されたフィールドタイプに応じて異なる計算方法を用意する。2つのフィールド間の相

Claims (21)

  1. 異なるテーブル間で対応するフィールドをグルーピングするフィールド照合方法であって、
    テーブル間で対応するフィールドをグループ化したフィールドグループを記憶しておき、
    各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算し、
    前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、
    前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
    ことを特徴とするフィールド照合方法。
  2. 2つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とした請求項1に記載のフィールド照合方法。
  3. 新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示することを特徴とした請求項1又は請求項2に記載のフィールド照合方法。
  4. 新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示することを特徴とした請求項1から請求項3のいずれかに記載のフィールド照合方法。
  5. 複数の確定済みフィールドと、ひとつの未確定フィールドとから組みを構成し、
    前記複数の確定済みフィールドと、前記ひとつの未確定フィールドとの相関値を計算し、
    前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが同じフィールドグループに属する組を求め、
    前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
    ことを特徴とる請求項1から請求項4のいずれかに記載のフィールド照合方法。
  6. 異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、
    テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段と、
    各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、
    前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
    を有することを特徴とするフィールド照合システム。
  7. 異なるテーブル間で対応するフィールドをグルーピングするフィールド照合システムであって、
    それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、
    テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と、
    前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、
    前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
    を有することを特徴とするフィールド照合システム。
  8. 前記フィールド相関値計算手段は、2つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とする請求項6又は請求項7に記載のフィールド照合システム。
  9. 新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする請求項6から請求項8のいずれかに記載のフィールド照合システム。
  10. 新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする請求項6から請求項9のいずれかに記載のフィールド照合システム。
  11. 前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
    前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
    ことを特徴とする請求項6から請求項10のいずれかに記載のフィールド照合システム。
  12. 前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
    前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する
    ことを特徴とする請求項7から請求項10のいずれかに記載のフィールド照合システム。
  13. テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を備えた情報処理装置に、異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、
    前記プログラムは、前記情報処理装置に、
    各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算する処理と、
    前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理と
    を実行させることを特徴とするプログラム。
  14. それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、
    テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部と
    を備えた情報処理装置に、
    異なるテーブル間で対応するフィールドをグルーピングさせるフィールド照合のプログラムであって、
    前記プログラムは、前記情報処理装置に、
    前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納する処理と、
    前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する処理と
    を実行させることを特徴とするプログラム。
  15. テーブル間で対応するフィールドをグループ化したフィールドグループが記憶されたフィールドグループ記憶手段を用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、
    各テーブルにおいて、いずれかのフィールドグループに属する確定済みフィールドと、いずれのフィールドグループに属さない未確定フィールドとを組みにし、この組の確定済みフィールドと未確定フィールドとの相関値を計算するフィールド相関値計算手段と、
    前記フィールドグループ記憶手段に記憶されているフィールドグループに基づいて、前記相関値が所定の閾値を越える組のうち、確定済みフィールドが同じフィールドグループに属する組を求め、この組の未確定フィールドを新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
    を有することを特徴とするフィールド照合装置。
  16. それぞれのテーブルで対応が確定したフィールドを示す確定済みフィールド情報と、前記確定済みフィールド間の対応を示すフィールドグループ情報とが対応付けられて格納されたフィールドグループ記憶部と、テーブル情報と、未確定フィールド情報と、確定済みフィールドと、未確定フィールド情報と確定済みフィールドとの相関値とが対応付けられて格納されるフィールド相関記憶部とを用いて、異なるテーブル間で対応するフィールドをグルーピングするフィールド照合装置であって、
    前記フィールドグループ記憶部に格納されている未確定フィールド情報及び確定済みフィールド情報に基づいて、同一テーブル内の未確定フィールドと確定済みフィールド情報との相関値を計算し、結果を前記フィールド相関記憶部に格納するフィールド相関値計算手段と、
    前記フィールド相関記憶部に格納された相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する確定済みフィールドが異なるテーブルの確定済みフィールドと同一のフィールドグループに属する未確定フィールドを前記フィールドグループ情報に基づいて判断し、対応する確定済みフィールドが同一のフィールドグループに属する未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録するフィールドグループ判定手段と
    を有することを特徴とするフィールド照合装置。
  17. 前記フィールド相関値計算手段は、2つのフィールドの相関値を計算する際に、フィールドタイプに応じて異なる計算方法を用いることを特徴とした請求項15又は請求項16に記載のフィールド照合装置。
  18. 新たなフィールドグループとしてグループ化されたフィールドの対応関係を表示する表示手段を有することを特徴とする請求項15から請求項17のいずれかに記載のフィールド照合装置。
  19. 新たなフィールドグループとしてグループ化されたフィールドとの相関値が所定の閾値以上となるフィールドの相関関係を表示する表示手段を有することを特徴とする請求項15から請求項18のいずれかに記載のフィールド照合装置。
  20. 前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
    前記フィールドグループ判定手段は、前記相関値が所定の閾値を越える組のうち、前記複数の確定済みフィールドが、同じフィールドグループに属する組を求め、前記確定済みフィールドが同じフィールドグループに属する組の未確定フィールドを新たなフィールドグループとしてグループ化する
    ことを特徴とする請求項15から請求項19のいずれかに記載のフィールド照合装置。
  21. 前記フィールド相関値計算手段は、複数の確定済みフィールドと、ひとつの未確定フィールドとの相関値を計算し、
    前記フィールドグループ判定手段は、前記相関値が所定の閾値以上となる未確定フィールド群の中で、その未確定フィールドに対応する複数の確定済みフィールドの各々が、同一のフィールドグループに属する未確定フィールドを、前記フィールドグループ情報に基づいて判断し、それら未確定フィールドを、新たなフィールドグループとしてグループ化して、前記フィールドグループ記憶手段に登録する
    ことを特徴とする請求項15から請求項20のいずれかに記載のフィールド照合装置。

JP2009503971A 2007-03-09 2008-03-04 フィールド照合方法及びシステムと、そのプログラム Active JP5170466B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009503971A JP5170466B2 (ja) 2007-03-09 2008-03-04 フィールド照合方法及びシステムと、そのプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007059990 2007-03-09
JP2007059990 2007-03-09
JP2009503971A JP5170466B2 (ja) 2007-03-09 2008-03-04 フィールド照合方法及びシステムと、そのプログラム
PCT/JP2008/053814 WO2008111424A1 (ja) 2007-03-09 2008-03-04 フィールド照合方法及びシステムと、そのプログラム

Publications (2)

Publication Number Publication Date
JPWO2008111424A1 true JPWO2008111424A1 (ja) 2010-06-24
JP5170466B2 JP5170466B2 (ja) 2013-03-27

Family

ID=39759367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009503971A Active JP5170466B2 (ja) 2007-03-09 2008-03-04 フィールド照合方法及びシステムと、そのプログラム

Country Status (3)

Country Link
US (1) US8843818B2 (ja)
JP (1) JP5170466B2 (ja)
WO (1) WO2008111424A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195732B2 (en) * 2013-03-15 2015-11-24 Optum, Inc. Efficient SQL based multi-attribute clustering
US20160247169A1 (en) * 2015-02-20 2016-08-25 The Nielsen Company (Us), Llc Apparatus and methods to predict age demographics of consumers
JP6787644B2 (ja) * 2018-01-05 2020-11-18 Kddi株式会社 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法
US11663507B2 (en) * 2021-06-30 2023-05-30 Intuit Inc. Predicting custom fields from text

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554083A (ja) * 1991-08-21 1993-03-05 Nec Corp データベース検索方式
US7299240B1 (en) * 1992-04-10 2007-11-20 Intellisync Corporation Method for translating computer data from one record structure to another
JPH08249338A (ja) 1995-03-08 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> データベース概念スキーマ統合支援装置
US6985898B1 (en) * 1999-10-01 2006-01-10 Infoglide Corporation System and method for visually representing a hierarchical database objects and their similarity relationships to other objects in the database
US7546304B1 (en) * 1999-10-29 2009-06-09 Computer Sciences Corporation Configuring keys for use in processing business data
US6925468B1 (en) * 1999-10-29 2005-08-02 Computer Sciences Corporation Configuring systems for generating business transaction reports using processing relationships among entities of an organization
US6738769B2 (en) * 2001-01-11 2004-05-18 International Business Machines Corporation Sorting multiple-typed data
US20030009298A1 (en) * 2001-03-23 2003-01-09 International Business Machines Corporation Field-based similarity search system and method
US7039650B2 (en) * 2002-05-31 2006-05-02 Sypherlink, Inc. System and method for making multiple databases appear as a single database
JP3701633B2 (ja) 2002-06-21 2005-10-05 株式会社日立製作所 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
JP2004086782A (ja) * 2002-08-29 2004-03-18 Hitachi Ltd 異種データベース統合支援装置
US20040107189A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation System for identifying similarities in record fields
JP2004227037A (ja) 2003-01-20 2004-08-12 Sangaku Renkei Kiko Kyushu:Kk フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法
JP4451624B2 (ja) 2003-08-19 2010-04-14 富士通株式会社 情報体系対応付け装置および対応付け方法
US7249135B2 (en) 2004-05-14 2007-07-24 Microsoft Corporation Method and system for schema matching of web databases
JP2006099236A (ja) 2004-09-28 2006-04-13 Toshiba Corp 分類支援装置、分類支援方法及び分類支援プログラム
US20060212449A1 (en) * 2005-03-21 2006-09-21 Novy Alon R J Method and apparatus for generating relevance-sensitive collation keys
US8285739B2 (en) * 2005-07-28 2012-10-09 International Business Machines Corporation System and method for identifying qualifying data records from underlying databases
US7590940B2 (en) * 2005-10-11 2009-09-15 Morgan Stanley Interactive user interface for displaying correlation
US20070156736A1 (en) * 2006-01-05 2007-07-05 International Business Machines Corporation Method and apparatus for automatically detecting a latent referential integrity relationship between different tables of a database
US20070226085A1 (en) * 2006-03-10 2007-09-27 Roach James A System and method for automated mapping of data in a multi-valued data structure
US20080016047A1 (en) * 2006-07-12 2008-01-17 Dettinger Richard D System and method for creating and populating dynamic, just in time, database tables
US20080140694A1 (en) * 2006-12-07 2008-06-12 Yogesh Mangla Data transformation between databases with dissimilar schemes
US8694518B2 (en) * 2007-06-14 2014-04-08 Colorquick, L.L.C. Method and apparatus for database mapping

Also Published As

Publication number Publication date
JP5170466B2 (ja) 2013-03-27
US20100100804A1 (en) 2010-04-22
WO2008111424A1 (ja) 2008-09-18
US8843818B2 (en) 2014-09-23

Similar Documents

Publication Publication Date Title
CN106033416A (zh) 一种字符串处理方法及装置
CN109213925B (zh) 法律文本搜索方法
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
JP5170466B2 (ja) フィールド照合方法及びシステムと、そのプログラム
CN110032724A (zh) 用于识别用户意图的方法及装置
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN107426610A (zh) 视频信息同步方法及装置
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN110874366A (zh) 数据处理、查询方法和装置
US20200293717A1 (en) Interactive control system, interactive control method, and computer program product
JP2011238159A (ja) 計算機システム
JP2011210000A (ja) 画像検索装置
JP2015146133A (ja) 情報処理装置、プログラム及び方法
CN117033309A (zh) 一种数据转换方法、装置、电子设备及可读存储介质
CN104657343B (zh) 识别音译名的方法及装置
CN107908724B (zh) 一种数据模型匹配方法、装置、设备及存储介质
CN109508390A (zh) 基于知识图谱的输入预测方法、装置和电子设备
US20160283458A1 (en) Input assistance system, input assistance method, and input assistance program
CN103778210A (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN107609006A (zh) 一种基于地方志研究的搜索优化方法
CN113539234A (zh) 语音合成方法、装置、系统及存储介质
JP2018088182A (ja) モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム
JP2008243074A (ja) 文書検索装置、方法及びプログラム
JPWO2016013157A1 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN109710927A (zh) 命名实体的识别方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121218

R150 Certificate of patent or registration of utility model

Ref document number: 5170466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150