WO2013147172A1

WO2013147172A1 - Ｃｆｄ更新装置と方法及びデータクレンジング装置と方法並びにプログラム

Info

Publication number: WO2013147172A1
Application number: PCT/JP2013/059563
Authority: WO
Inventors: 亨太菅野
Original assignee: 日本電気株式会社
Priority date: 2012-03-30
Filing date: 2013-03-29
Publication date: 2013-10-03

Abstract

　本発明は、データの変更に対して効率的にCFDを更新可能とする装置、方法を提供する。更新データに関して、更新前と更新後のデータの差分情報（１０７）を取得するデータ更新部（１０１）と、前記データ更新部（１０１）からの差分情報（１０７）と、更新前に対応する旧CFD（１０８）とを入力し、前記差分情報に基づきCFDを差分更新するCFD更新部（１０３）を備える。

Description

ＣＦＤ更新装置と方法及びデータクレンジング装置と方法並びにプログラム

（関連出願についての記載）
　本発明は、日本国特許出願：特願２０１２－０８２１１５号（２０１２年３月３０日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。

　本発明は、ＣＦＤ更新装置と方法及びデータクレンジング装置と方法並びにプログラムに関する。

　関数従属性（Functional Dependency： FD）は、複数の属性間において、一方の値集合によって他方の値集合が決定される制約をいう。例えば［郵便番号］ --> ［住所］：郵便番号が決まれば住所が決まる。これに対して、条件付関数従属性（Conditional Functional Dependency: CFD）は、一方の値集合が特定の条件を満たすときに限り、他方の値集合が決定される制約をいう。例えば、［商品種別、国＝日本］ --> ［税率］：商品種別によって税率が決まる（ただし、国が日本の場合のみ、国が日本：Condition、商品種別 --> 税率：Functional Dependency）。

　はじめにCFDの表記について非特許文献１等に基づき概説しておく。関係Ｒ上で定義されるCFD　ψを(X --> Y, tp)と表記する。ここで、ＸをLHS(ψ)（Left Hand Side：前提部）、ＹをRHS（ψ）（Right Hand Side：帰結部）という。
Ｘ、Ｙは属性集合、
Ｘ --> ＹはＲ上のＦＤ、
tpは、ＸとＹの属性を有するパタンタプル(pattern tuple)
である。tpは、定数、又は名前なし変数‘_’（任意の値にマッチする）である。パタンタプルtp内のＸ属性集合とＹ属性集合を記号||で分離する。

　例えば特許文献１のＦｉｇ．１（表１）においては、顧客を電話番号（国コード：CC、エリアコード：AC、電話番号PN）、名前（NM）、番地（ストリートSTR、都市CT、ZIPコードZIP）で顧客を特定する。

　上記表１のデータセットで発見されるCFDとして例えば以下のようなものがある。
φ0：([CC, ZIP] --> STR,(44, ‘_’　||　‘_’))
φ1：([CC, AC] --> CT,(01, 908 || MH))
φ2：([CC, AC] --> CT,(44, 131|| EDI))
φ3：([CC, AC] --> CT,(01, 212|| NYC))

　φ0:([CC,ZIP] --> STR,(44,‘_’||‘_’))において、(44,‘_’||‘_’)は属性(CC、 ZIP、 STR)に対して関与している定数を結合するパタンタプルである。これは、
FD：[CC, ZIP] --> STR
において、CC=44の顧客に関してZIPコードが一義的にストリートSTRを決定することを述べている。
φ1：([CC, AC] --> CT, (01, 908 || MH))
は、米国（CC＝01）のエリアコード（AC）908の任意の顧客に関して顧客の都市（CT）は、パタンタプル(01,908||MH)から、MH(Murray-Hill)であることを保証している（特許文献１参照）。なお、タプルは関係表の属性を列とした場合の行に対応する。

　CFDの発見処理（抽出処理）の一例を以下の表２を例に説明する。IDはタプルID、Ａ、Ｂ、Ｃは属性である。

　上記表２の関係のデータセットにおいて、例えばCFD
φ1：([A, B] --> [C], (1, ‘_’||‘_’)) 　　...(1)
　（Aの値が1の場合、BによってCが決定される）
が抽出される。表２において、ID＝1、2、3と、ID＝8、9、10がこのルールに一致する。

　CFD　φ1のLHS(φ1)が一致するのは、10件中6件存在するので、
Support値＝LHS一致数／全数＝6／10＝0.6　　...(2)
となる。このCFD　φ1のLHSが一致する６件のうち6件のRHSの値が一致しているので、
Confidence値＝ルール一致数／LHS一致数＝6/6＝1.0　 ...(3)
となる。この場合、上記データセットからCFD　φ1が発見される。なお、CFDの発見において、Support値、Confidence値をそれぞれ任意の閾値と比較するようにしてもよい。また、上記したCFD発見の例はあくまで参考例であり、本発明を制限するためのものでないことは勿論である。

　上記したCFDは、データクレンジングにおいて、例えばデータの不整合の検出や修復を行う場合のルールとして用いられる（特許文献１、非特許文献２参照）。なお、CFDの発見は、指数関数的な計算複雑度を伴うことが知られており、特許文献１には、CFDの同定の向上を図る方法が開示されている。

米国特許出願公開第２０１０／０２５０５９６号明細書

WENFEI FAN et al., "Conditional Functional Dependencies for Capturing Data Inconsistencies", Journal ACM Transactions on Database Systems (TODS) Volume 33 Issue 2, June 2008 Article No. 6, [平成23年10月1日検索]、インターネット（URL:http://homepages.inf.ed.ac.uk/fgeerts/pdf/tods-cfd.pdf) Wenfei Fan et al., "Interaction between Record Matching and Data Repairing", Proceedings of the 2011 ACM SIGMOD International Conference on Management of data, Pages 469-480 [平成23年10月1日検索]、インターネット（URL:http://homepages.inf.ed.ac.uk/sma1/pubs/sigmod2011.pdf)

　以下に関連技術の分析を与える。

　所与のデータセット（データ集合）に対して、既にCFD集合が発見されている状況下で、当該データセットの一部が編集等で更新された場合（例えば、ある属性の値が変更された場合）、変更後のデータセットに対して、再度、CFDを発見することになる。変更後のデータセット（全データ）に対して、再度CFDを発見することは、編集目前の当該データセットに対してCFDを発見するのに要した演算量（CFD抽出処理）と同様に、多大の演算量を要する。このため、更新等が行われるデータセットに対してCFDを用いたデータクレンジングの実用化を困難なものとしている。

　そこで、本発明は、上記課題に鑑みて創案されたものであって、その目的はデータ編集に対して効率的にCFDを更新可能とする方法と、装置並びにデータクレンジング装置、方法を提供することにある。

　本発明のいくつかの側面の１つによれば、データの更新にあたり、変更前のデータと変更後のデータの差分情報を取得するデータ更新部と、前記データ更新部から前記差分情報を入力し、前記変更前のデータに対して求められた、変更前のCFD集合をCFD記憶部から入力し、前記データの差分情報に基づき、CFDを差分更新して、前記変更後のデータに対応するCFD集合を求め前記CFD記憶部に格納するCFD更新部と、を備えたCFD更新装置が提供される。

　本発明の別の側面によれば、データ処理装置によりデータ記憶部のデータを更新するにあたり、変更前のデータと変更後のデータの差分情報を取得し、
　前記差分情報と、CFD記憶部から読み出された、変更前のデータに対応する変更前のCFD集合とを入力し、前記データの差分情報に基づき、CFDを差分更新して、前記変更後のデータに対するCFD集合を求めCFD記憶部に記憶するCFD更新方法が提供される。

　本発明の別の側面によれば、データ記憶部のデータの更新にあたり、変更前のデータと変更後のデータの差分情報を取得するデータ変更処理と、
　前記変更前のデータに対して求められた変更前のCFD集合をCFD記憶部から入力し、前記データの差分情報に基づき、CFDを差分更新して、前記変更後のデータに対応するCFD集合を求め前記CFD記憶部に格納するCFD更新処理と、をコンピュータに実行させるプログラムが提供される。本発明によれば、該プログラムを記録したコンピュータ読み出し可能な記録媒体（a non-transitory machine readable medium）が提供される。

　本発明の別の側面によれば、データ修正指示がCFDに違反する場合、その旨をユーザに通知する提示部を備えたデータクレンジング装置（方法）が提供される。

　本発明によれば、データの変更に対して効率的にCFDを更新可能とする。また本発明によれば、CFDを用いたデータクレンジングの実用化に貢献する。

本発明の実施形態１の処理手順を示す流れ図である。本発明の実施形態１を模式的に説明する説明図である。本発明の実施形態２の構成を示す図である。本発明の実施形態３の構成を示す図である。

　本発明の好ましい形態の１つによれば、データの更新にあたり、更新前のデータと更新後のデータの差分情報を取得するデータ更新部（図３の１０１に対応）と、前記データ更新部から差分情報を入力し、更新前のデータに対応する更新前の条件付関数従属性（CFD）をCFD記憶部から入力し、前記差分情報に基づき、CFDを差分更新し前記CFD記憶部に格納するCFD更新部（図３のCFD差分更新部１０３に対応）とを備える。

　本発明の好ましい形態の１つによれば、前記CFD更新部（CFD差分更新部１０３に対応する）は、前記差分情報に基づき、前記変更によって影響を受けるCFD集合として、前記変更前のデータに関して成立していたCFD集合のうち前記変更により成立しなくなるCFDを求め、これらを前記成立していたCFD集合から削除し、さらに、前記変更により新たに成立するCFDを求め、前記変更によって影響を受けるCFD集合と、前記変更によって影響を受けないCFD集合と併合して、変更後のデータに対するCFD集合を得る。

＜CFDの差分更新＞
　CFDの差分更新は、データの変更前と後の差分情報と、更新前のCFD集合に基づき、CFDを更新する。以下、CFDの差分更新についてその前提、実施形態を順次説明する。

　データ集合Ｄに対するCFD集合に属する各CFDは、データ編集（変更）に関係する領域（例えば表の変更対象の行、列の範囲）に対して、独立である、あるいは、非独立である、のいずれかに分類される。

・独立なCFDは、変更後のデータに対して必ず成立する。

・非独立なCFDは、変更後のデータに対して成立する場合と成立しない場合がある。

　属性の値の変更に対して、独立なCFD、非独立なCFDについて、属性Ｗ、Ｘ、Ｙ、Ｚの関係を示した表３を参照して具体的に説明する。なお、表３は、あくまで理解を容易とするために便宜的に作成したものであり、以下の表は、本発明を制限するものとして解釈すべきでないことは勿論である。

　表３のID＝３において、属性Ｗの値を、‘ａ’から‘ｂ’に編集（変更）し、変更（編集）後データ集合Ｄ’を得る（変更後の値として、表３の属性ＷのID＝３の「 --> ｂ」参照）。

　変更前データ集合Ｄにおいて、属性Ｗ＝‘ａ’の領域は、表３の１行目から３行目（ID＝１、２、３）、
　変更前データ集合Ｄにおいて、属性Ｗ＝‘ｂ’の領域は、表３の４行目から６行目（ID＝４、５、６）、
　変更後のデータ集合Ｄ’において属性Ｗ＝‘ａ’の領域は、表３の１行目から２行目（ID＝１、２）、
　変更後のデータ集合Ｄ’において属性Ｗ＝‘ｂ’の領域は、表３の３行目から６行目（ID＝３、４、５、６）
である。

＜独立なCFD＞
　領域Ｗ＝‘ａ’又は‘ｂ’に対して、独立なCFDとして例えば以下のものがある。

(X --> Y, (‘_’||‘_’))　　 ...(4)

(W --> Y, (‘c’||‘q’))　　 ...(5)

　上式(4)、(5)の各CFDは、上記変更に影響を受けずに成立する。すなわち、上式(4)のCFDにおいて、属性Ｘの値とＹの値の関係は、変更（属性Ｗの値を‘ａ’から‘ｂ’に変更）に影響されずに、成立する。

　また、上式(5)のCFDにおいて、Ｗ＝‘ｃ’、Ｙ＝‘ｑ’は、表１のID＝７～９のとおり、変更（属性Ｗの値をａからｂに変更）に影響されず成立する。

＜非独立なCFDへの影響＞
　表３のデータ集合において、１行目から６行目の領域（Ｗ＝‘ａ’ｏｒ‘ｂ’）に対して、非独立なCFDへの影響は、例えば以下のように、
・変更後においても成立する、
・変更後においては部分的に成立する、
・変更後に全く成立しなくなる、
等がある。

(W --> Y, (‘_’||‘_’))　　 ...(6)

　上式(6)は、ID＝３の属性Ｗにおいて属性値を‘ａ’から‘ｂ’に変更後においても成立する。

(W --> X, (‘_’||‘_’)) 　　 ...(7)

　変更前に得られる上式(7)は、変更後においては部分的に成立する。

　例えば、
(W --> X, (‘a’||‘p’)) 　　...(8)
(W --> X, (‘c’||‘r’))　　 ...(9)
は、変更後においても全て成立する。

　しかしながら、　
(W --> X, (‘b’||‘q’)) ...(10)
は変更後に成立しなくなる。すなわち、上式(10)は、変更前にID＝４、５、６に対して成立していたが、
Ｗの属性値を‘ｂ’に変更したID＝３に関して、
Ｗ＝‘ｂ’ --> Ｘ＝‘ｐ’
となり、
CFD：(W --> X, (‘b’||‘q’))
は成り立たなくなる。

　また表３において、変更後に全く成立しなくなる例として例えば式(11)がある。
(W --> Z, (‘a’||‘q’))　　　 ...(11)

　変更前のデータ集合に対する属性値の変更による影響として、
（Ａ）前記変更前のデータ集合に対して成立していたが、前記変更後のデータ集合に対して成立しなくなるCFDの発生（これらのCFDは前記変更前のデータ集合に対して成立していたCFD集合から削除される）、
（Ｂ）変更により、新たに成立するCFDの発生、
を求め、これらを、変更によって影響を受けないCFDと併合（マージ）して、変更後データ集合に対するCFD集合を得る。

＜CFD差分更新の処理手順：実施形態１＞
　図１は、実施形態１のCFD差分更新処理を説明する流れ図である。図１の処理は、記憶装置、入出力装置を備えたデータ処理装置（ＣＰＵ、プロセッサ）で実行させる。以下では、説明の簡単のため、表３のデータ集合において、属性ＷのID＝３の値‘ａ’を値‘ｂ’に編集（変更）し、変更後データ集合Ｄ’を得るものとする。この場合、変更前と変更後のデータの差分情報は、「属性ＷのID＝３の値‘ａ’を‘ｂ’とする。」である。

　ここで、新たに、
　タプルパタンtp：(W = ‘a’ or ‘b’) ... (12)
を定義し、当該タプルパタンtpに従うデータ集合Ｄの部分集合（サブセット）をＤtpとする。

　表３の場合、上式(12)のtpに従うデータ集合Ｄの部分集合Ｄtpは、属性ＷのID＝１からID＝６の領域に対応する。

　また、上式(12)のtpに従う変更後のデータ集合Ｄ’の部分集合をＤ’tpとする。

　表３の場合、tp：(W = ‘a’ or ‘b’)に対応する部分集合Ｄ’tpは、属性ＷのID＝１からID＝６である。

＜ステップＳ１＞
　更新前のデータ集合Ｄに対するCFD集合（「Σold」と表記する）を次式(13)のように分解する。

Σold ＝Σind ＋Σdep_lhs ＋ Σdep_rhs　　　...(13)

　上式（１３）において、
Σindは、tpに対して独立なCFD集合（上式（１２）のtpと領域が重なっていない）、
Σdep_lhsは、上式(12)のタプルパタンtpがLHSと重なるCFD集合、
Σdep_rhsは、上式(12)のタプルパタンtpがRHSと重なるCFD集合、
である。

＜Σindについて＞
　表３において、例えばCFD
(Y --> Z(‘_’||‘_’)) 　　　　　...(14)
である。すなわち表３の更新前データ集合において、属性ＹとＺの値の関係は、３行目の属性Ｗの値‘ａ’を値‘ｂ’に変更後も、影響を受けない（タプルパタンtpに対して独立なCFD集合）。

＜Σdep_lhsについて＞
　表３において、LHS（前提部）がタプルパタンtp（Ｗ＝‘ａ’or‘ｂ’）と重なるCFD集合Σdep_lhsとして、例えば、
(W --> Y, (‘_’||‘_’))　　　　　　...(15)
(W --> X, (‘_’||‘_’))　　　　　　...(16)
等がある。

＜Σdep_rhsについて＞
　RHS（帰結部）がタプルパタンtp：（Ｗ＝‘ａ’or‘ｂ’）と重なるCFD集合Σdep_rhsとして、例えば、
(X --> W, (‘p’||‘a’))　　　...(17)
(Y --> W, (‘_’||‘_’))　　 ...(18)
等がある。

＜ステップＳ２＞
　更新後データＤ’に対する新しいCFD集合Σnewを以下の式(19)にしたがって導出する。

Σnew = mmerge(Σind, findL(Σdep_lhs, D’, tp), findR(D’, tp))　　...(19)

　式(19)において、
mmergeは、以下の３つの引数をマージするマージ関数（minimal merge）である。
第１引数のΣindは、上式（１２）のtpに対して独立なCFD集合、
第２引数のfindL（Σdep_lhs, D', tp）は、LHSがtpと重なる新たなCFD集合（「new_lhs」ともいう）を求める関数、
第３引数のfindR(D’, tp)は、RHSがtpと重なる新たなCFD集合（「new_rhs」ともいう）を求める関数、
である。なお、関数findL、findRについては後述する。

　図１に示すように、ステップＳ２は、サブステップＳ２１、Ｓ２２、Ｓ２３からなる。

＜サブステップＳ２１＞
　変更後データ集合Ｄ’から、関数findLにより、LHSがタプルパタンtpと重なる新しいCFD集合（「new_lhs」という）を求める。

＜findL＞
　上式(17)の関数findL（Σdep_lhs, D', tp）は、第１の引数に設定したCFD集合Σdep_lhsの各CFDについて、変更後データ集合Ｄ’の部分集合Ｄ’tpに対して成立しているか否かを評価し、成立しない場合、当該CFD集合Σdep_lhsから削除する。

　そして、関数findLは、部分集合Ｄ’tpに対して、LHSが、上記タプルパタンtpと重なるCFDを発見する処理を行う。その際、得られたCFDのLHSに、上記タプルパタンtpを制約として追加し、得られたLHSを、関数findLの戻り値とする。なお、関数findLの第１乃至第３の引数は、各引数を格納する記憶領域のアドレスポインタとデータ長（バイト長）等を与えるようにしてもよい。

　表３に即して、関数findLを説明する。関数findLは、集合Σdep_lhsのCFD、例えば、
(W --> Y, (‘_’||‘_’))　　...(20)
(W --> X, (‘_’||‘_’))　　...(21)
のうち変更後データ集合Ｄ’の部分集合Ｄ’tpに対して成立しなくなるCFDとして、例えば、
(W --> X, (‘b’||‘q’))　　　　...(22)
をΣdep_lhsから削除する。

　次に、関数findLは、変更後データ集合Ｄ’の部分集合Ｄ’tpに対して、LHSがタプルパタンtpと重なるCFD集合（new_lhs）を発見する。

　表３の場合、変更後データ集合Ｄ’の部分集合Ｄ’tp（属性ＷのID＝３の値＝‘ｂ’）に、LHSが重なるCFDとして、例えばCFD
(W --> Z, ( ‘b’||‘q’))　　　...(23)
がある。

　すなわち、変更前のデータ集合Ｄ（その部分集合Ｄtp）において、
ID＝３では、Ｗ＝ａ、Ｚ＝ｑ、
ID＝４～６では、Ｗ＝ｂ、Ｚ＝ｑ
であったが、変更後のデータ集合Ｄ’の部分集合Ｄ’tpでは、
ID＝３～６について、
(W --> Z, (‘b’||‘q’))
が成り立つ。この場合、
Ｗ --> Ｚにおいて、パタンタプル（‘ｂ’||‘ｑ’）の‘ｂ’がLHSの制約として追加されている。

＜サブステップＳ２２＞
　次に、変更後データ集合Ｄ’から、RHSがタプルパタンtpと重なる新しいCFD集合（「new_rhs」という）を求める。

＜findR＞
　上式（１７）のfindR(D’, tp)は、RHSがtpと重なる新しい集合を求める。findRの第１引数である変更後データ集合Ｄ’は、変更後データ集合Ｄ’を格納する記憶領域（ストレージ）のアドレスポインタとデータ長（バイト長）等を与えるようにしてもよい。

　表３の場合、findRは、RHSが、Ｗ＝‘_’，Ｗ＝‘ａ’，Ｗ＝‘ｂ’となるそれぞれの場合について、変更後データ集合Ｄ’から新たなCFD集合を求める。RHSを決定するのに最適なLHSの条件は、部分集合Ｄ’tp（例えば表３の場合ID＝３のＷ）の外の領域を見ないと決定することができない。このため、基本的に、全データ（変更後のデータ集合Ｄ’全体）の走査が必要となる。表３において、変更後データ集合Ｄ’から、例えばCFD
(Z --> W, (‘p’||‘a’))　　...(24)
(Z --> W, (‘q’||‘b’))　　...(25)
が求まる。

＜サブステップＳ２３＞
　次に、上式（１５）のマージ関数mmergeを用いて、引数である３つのCFD集合
Σind、
findL（Σdep_lhs, D’, tp）、
findR(D’, tp)
をマージする（ステップＳ２３）。

　関数mmergeにおいて、CFD集合の併合の算法自体は、公知の任意のものが利用される。例えば、関数mmergeにおいて、CFD集合のマージの際に、推移律（２項関係Ｒに関してａとｂの間に関係Ｒ、ｂとｃの間に関係Ｒが成り立つとき、ａとｃの間に関係Ｒが成り立つ）等の公理を適用して、ミニマル（minimal）となるようにマージするようにしてもよい。

　例えば属性Ａ、Ｂ、Ｃ等に関する関係Ｒに関してCFD
A --> B、
B --> C、
が成立している場合、推移律にしたがい、例えば、
A --> C
が導出される。あるいは、
A --> B、
A --> C、
C, B --> Dが得られているとき、
C, B --> Dを
A --> Dに置き換える。あるいは、
(A --> B, (‘x’ || ‘1’))、
(A --> B, (‘y’ || ‘2’))
に対して、属性Ａのとり得る値の範囲＝［ｘ，ｙ］を併合して、
(A --> B, (‘_’ || ‘_’))
を得る。あるいは、上記各処理の組み合わせ等が行われる。上記変換は、ルールベースのパタン照合を行う式変換ツール等で自動で行われる。なお、minimal CFDとは、非冗長なCFD（冗長なCFDを含まない）をいう（minimal CFDの詳細は特許文献１等が参照される）。

　図１において、サブステップＳ２１、Ｓ２２の実行順は、Ｓ２３の前であれば、どちらが先であってもよい。

＜旧CFD集合の分解の例＞
　図２（Ａ）は、変更前データ集合Ｄに対するCFD集合Σoldを、上式(10)に従って分解した状態を模式的に示している。
indは、上式(12)で定義されたタプルパタンtp：(W = ‘a’ or ‘b’)に対して独立なΣind（上式(13)参照）、
dep-lhsは、LHSがtpと重なるCFD集合Σdep_lhs（上式(13)参照）、
dep-rhsは、RHSがtpと重なるCFD集合Σdep_rhs（上式(13)参照）である。

＜新CFD集合の構成例＞
　図２（Ｂ）は、変更後データ集合Ｄ’に対するCFD集合Σnewの構成を模式的に示している。図２（Ｂ）において、
「merged」は、推移律等の適用により他のCFDと１つにまとめられたCFDの集合を現している。
「merged」の上の各CFD集合は、他のCFDと１つにまとめられないCFD集合を現している。「subset of ind」は、図２（Ａ）のind（上式(13)参照）の部分集合（subset）である。「subset_dep_lhs」は、上式(13)のΣdep_lhsのCFD集合から、変更後データ集合Ｄ’の部分集合Ｄ’tpに対して成立しないCFDを削除したCFD集合である。

「new_lhs」、「new_rhs」は、上記サブステップＳ２１、Ｓ２２で求めたCFD集合である。
new_lhs = findL(Σdep_lhs, D’, tp)　　　　　　...(26)
new_rhs = findR( D’, tp)　　　　　　　　　　　...(27)
　ただし、他のCFDと１つにマージされたCFDは「merged」に区分される。

　本実施形態によれば、変更後データ集合Ｄ’からLHSがtpと重なる新しいCFD集合new_lhsを求めるにあたり、Σdep_lhsの各CFDについて、変更後データ集合Ｄ’の部分集合Ｄ’tpに対して成立しているか否かを評価し、成立しない場合、当該Σdep_lhsから削除し、部分集合Ｄ’tpに対してLHSがtpと重なるCFDを発見する処理を行うが、このCFD発見の探索範囲は、部分集合Ｄ’tpに絞られ、CFD発見処理に要する演算量を特段に削減することができる。

＜実施形態２＞
　実施形態２では、上記実施形態１で開示したCFD差分更新処理の実現に好適なデータ処理装置の構成の一例を説明する。図３は、実施形態２のデータ処理装置の構成を示す図である。このデータ処理装置１００は、CFD更新装置として機能し、データ更新部１０１、データ記憶部１０２、CFD差分更新部１０３、CFD記憶部１０４を備えている。

　データ記憶部１０２は、例えばデータベース等を格納するストレージ装置等からなる（なお、データベースの代わりにファイルを記憶するストレージ装置であってもよい）。また、データ記憶部１０２は、例えばネットワークを介して接続するデータベースサーバ等、データ処理装置１００の外部に備えた構成としてもよい。

　データ更新部１０１は、データ記憶部１０２内のデータの属性値の変更等、データの更新（１０５）を行い、更新前のデータと更新後のデータの差分情報１０７を取得する。

　CFD差分更新部１０３は、データ更新部１０１から出力された差分情報１０７と、データ記憶部１０２から読み出した更新後のデータセット１０６と、CFD記憶部１０４から読み出した更新前のデータに対して発見されたCFD集合１０８（更新前CFD集合：上式（１３）のΣｏｌｄ）を入力し、差分情報１０７に基づき、CFDを差分更新して、新たなCFD集合１０９（更新後CFD集合：上式(19)のΣnew）を求め、CFD記憶部１０４に格納する。すなわち、CFD差分更新部１０３は、更新前CFD集合１０８を上式(13)に従い、
Σind、
Σdep_lhs、
Σdep_rhs
に分割し、データ処理装置１００内の不図示のメモリ（ＲＡＭ：ランダムアクセスメモリ）等に記憶する。そして、上式(19)のfindL（Σdep_lhs, D’, tp）、findR( D’, tp)を実行し、実行結果をデータ処理装置１００内の不図示のメモリ（ＲＡＭ）等に記憶し、関数mmergeを実行することで、新たなCFD集合Σnewを取得し、CFD記憶部１０４に格納する。

　実施形態２によれば、データ更新部１０１、CFD差分更新部１０３の処理は、データ処理装置１００上で実行されるプログラムで実現してもよいことは勿論である。また該プログラムを記録した記録媒体（半導体メモリ、磁気／光ディスク等の媒体）が提供される。CFD更新部１０３は、図１に示した処理手順にしたがって、CFDの差分更新を行う。

＜実施形態３＞
　実施形態３として、データクレンジングシステム（装置）を説明する。図４は、実施形態３のデータクレンジングシステムの構成を示す図である。図４を参照すると、データ更新部２０１において、ユーザ（作業者）２１３の入力走操作等により、データの編集等の更新を行う。データの編集等にあたり、ユーザ２１３は、修正補助情報提示部２１０によって提示されるデータ修正提案（指示）等に基づき、修正するようにしてもよい。修正補助情報提示部２１０では、CFDを用いてデータの不整合（誤り）、修正指示等をユーザ２１３に提示する。なお、ユーザ２１３は、修正補助情報提示部２１０によって提案されたルールを棄却してもよい（あくまでデータ修正等の支援であり、採用する義務を課するものではない）。

　修正補助情報提示部２１０は、CFD抽出部２０３、CFD記憶部２０４とともに、不正データを排除しデータ品質を向上させるプロファイリング手段２１２として機能し、ユーザ２１３にデータ修正案の提案を自動で行う。

　データ更新部２０１で更新されたデータを、クレンジング対象データ２０２とする。なお、特に制限されないが、クレンジング対象データ２０２を、作業用データベース（ワークＤＢ）等に格納する構成としてもよい。

　CFD抽出部２０３は、例えば図３を参照して説明したCFD差分更新部１０３からなり、データ修正前のデータに対して求めたCFD２０８と、変更前と変更後のデータの差分情報２０７、変更後データ（クレンジング対象データ）２０２から、前述したCFD差分更新により、変更後データ（クレンジング対象データ）２０２に対するCFD集合２０９を抽出し、CFD記憶部２０４に書き込む。修正補助情報提示部２１０は、CFD記憶部２０４から読み出された変更後データに対応するCFD集合２１１を入力し、該CFD集合に基き、データの誤り推定、修正支援を行う。データ修正指示がCFDに違反する場合、その旨をユーザ２１３に通知する。その際、当該修正が間違っている可能性が相対的に高いことを暗喩的（implicit）に示すようにしてもよい。

　修正補助情報提示部２１０によって提示されるデータ修正提案に対して、ユーザは、CFDに違反した状態でもデータの修正を行う（例えば修正したデータを修正前に戻すことはしない）か、あるいは、修正をとりやめる（修正したデータを元に戻す）。例えば上記表１のデータセットに対して発見されたCFD、
φ1：([CC, AC] --> CT,(01, 908 || MH))
から、属性値(CC, AC, CT)の修正(01, 908, NYC)等に対して、当該修正は、(01, 908, MH)ではないかと、修正補助情報提示部２１０から不図示の表示画面等に提示される。この場合、ユーザは例えば該修正(01, 908, NYC)の「NYC」を元の「MH」に戻す。

　このように、実施形態３によれば、プロファイリング手段２１２によるデータプロファイリングの実行と、プロファイリング手段２１２によるデータ修正案の提示に基づくデータの修正を繰り返すことにより、データを少しずつ（incremental）に、確からしいものに修正していくことで、データクレンジングを行う。特に制限されないが、データクレンジングが終了したデータを、クレンジング対象データ２０２を格納する作業用データベースから、図示されない保管用のデータベースに移し替える構成としてもよい。

　実施形態３によれば、CFD更新処理として実施形態１のCFD差分更新を用いることで、データ修正に対するCFD更新の時間の短縮を図ることができ、CFDに対するデータ違反検出、データ修正の提案等を行うデータクレンジングの実用化可能としている。

　なお、上記特許文献及び非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素（各請求項の各要素、各実施例の各要素、各図面の各要素等を含む）の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

１００　データ処理装置（CFD更新装置）
１０１　データ更新部
１０２　データ記憶部
１０３　CFD差分更新部
１０４　CFD記憶部
１０５　データ更新
１０６　更新後のデータセット
１０７　差分情報
１０８　更新前CFD
１０９　更新後CFD
２００　データクレンジング装置
２０１　データ更新部
２０２　クレンジング対象データ
２０３　CFD抽出部
２０４　CFD記憶部
２０５　データ更新
２０６　更新後のデータ
２０７　差分情報
２０８　更新前CFD
２０９　更新後CFD
２１０　修正補助情報提示部
２１１　CFD集合
２１２　プロファイリング手段
２１３　ユーザ（作業者）

Claims

　データの更新にあたり、変更前のデータと変更後のデータの差分情報を取得するデータ更新部と、
　前記データ更新部から前記差分情報を入力し、前記変更前のデータに対して求められた変更前のCFD（Conditional Functional Dependency）集合をCFD記憶部から入力し、前記差分情報に基づき、CFDを差分更新して、前記変更後のデータに対応するCFD集合を求め前記CFD記憶部に格納するCFD更新部と、
　を備えたことを特徴とするCFD更新装置。
　前記CFD更新部は、前記差分情報に基づき、データの属性値の変更による影響を受けるCFD集合として、
　前記変更前のデータに関して成立していたCFD集合のうち前記変更により成立しなくなるCFDを求め、これらを前記CFD集合から削除し、さらに、前記変更により新たに成立するCFDを求め、
　前記変更によって影響を受けるCFD集合と、前記変更によって影響を受けないCFD集合と、を併合して、前記変更後のデータに対するCFD集合を得る、ことを特徴とする請求項１記載のCFD更新装置。
　前記CFD更新部は、前記CFD記憶部に記憶されている前記変更前のデータに対するCFD集合を読み出し、
　前記変更に対して独立な第１のCFD集合と、
　前記変更前後の属性値のパタン（tp）にLHS（Left Hand Side）が重なる第２のCFD集合と、
　前記変更前後の属性値パタンにRHS（Right Hand Side）が重なる第３のCFD集合と、に分解し、
　前記第２のCFD集合の各CFDが前記変更により成立するか否かを評価し、成立しないCFDを前記第２のCFD集合から削除し、さらに、前記変更によりLHSが前記変更後の属性値のパタン（tp）に重なるCFDを新たに抽出し、前記新たなCFDと、前記成立しないCFDを削除した第２のCFD集合を含めて第４のCFD集合とし、
　前記変更前又は前記変更後の属性値のパタン（tp）にRHSが重なる第５のCFD集合を求め、
　前記第１のCFD集合、前記第４のCFD集合、前記第５のCFD集合を併合する、ことを特徴とする請求項１記載のCFD更新装置。
　データ処理装置によりデータ記憶部のデータを更新するにあたり、
　変更前のデータと変更後のデータの差分情報を取得し、
　前記差分情報と、CFD記憶部から読み出された、変更前のデータに対応する変更前のCFD（Conditional Functional Dependency）集合とを入力し、前記差分情報に基づき、CFDを差分更新して、前記変更後のデータに対するCFD集合を求めCFD記憶部に記憶する、
　ことを特徴とするCFD更新方法。
　前記CFDの更新にあたり、
　前記差分情報に基づき、前記変更によって影響を受けるCFD集合として、
　前記変更前のデータに関して成立していたCFD集合のうち前記変更により成立しなくなるCFDを求め、これらを前記CFD集合から削除し、さらに、前記変更により新たに成立するCFDを求め、
　前記変更によって影響を受けるCFD集合と、
　前記変更によって影響を受けないCFD集合と併合して、変更後のデータに対するCFD集合を得る、ことを特徴とする請求項４記載のCFD更新方法。
　前記CFDの変更にあたり、前記CFD記憶部に記憶されている前記変更前のデータに対するCFD集合を読み出し、
　前記変更に対して独立な第１のCFD集合と、
　前記変更前後の属性値のパタン（tp）にLHS（Left Hand Side）が重なる第２のCFD集合と、
　前記変更前後の属性値パタンにRHS（Right Hand Side）が重なる第３のCFD集合と、に分解し、
　前記第２のCFD集合の各CFDが前記変更により成立するか否かを評価し、成立しないCFDを前記第２のCFD集合から削除し、さらに、前記変更によりLHSが前記変更後の属性値のパタン（tp）に重なるCFDを新たに抽出し、前記新たなCFDと、前記成立しないCFDを削除した第２のCFD集合を含めて第４のCFD集合とし、
　前記変更前又は前記変更後の属性値のパタン（tp）にRHSが重なる第５のCFD集合を求め、
　前記第１のCFD集合、前記第４のCFD集合、前記第５のCFD集合を併合する、ことを特徴とする請求項４記載のCFD更新方法。
　データ処理装置に、
　データ記憶部のデータの更新にあたり、変更前のデータと変更後のデータの差分情報を取得するデータ変更処理と、
　前記変更前のデータに対して求められた変更前のCFD（Conditional Functional Dependency）集合をCFD記憶部から入力し、前記差分情報に基づき、CFDを差分更新して、前記変更後のデータに対応するCFD集合を求め前記CFD記憶部に格納するCFD更新処理と、
　を実行させるプログラム。
　前記CFD更新処理において、前記差分情報に基づき、前記変更によって影響を受けるCFD集合として、
　前記変更前のデータに関して成立していたCFD集合のうち前記変更により成立しなくなるCFDを求め、これらを前記CFD集合から削除し、さらに、前記変更により新たに成立するCFDを求め、
　前記変更によって影響を受けるCFD集合と、
　前記変更によって影響を受けないCFD集合と併合して、変更後のデータに対するCFD集合を得る、ことを特徴とする請求項７記載のプログラム。
　前記CFD更新処理において、前記CFD記憶部に記憶されている前記変更前のデータに対するCFD集合を読み出し、
　前記変更に対して独立な第１のCFD集合と、
　前記変更前後の属性値のパタン（tp）にLHS（Left Hand Side）が重なる第２のCFD集合と、
　前記変更前後の属性値パタンにRHS（Right Hand Side）が重なる第３のCFD集合と、に分解し、
　前記第２のCFD集合の各CFDが前記変更により成立するか否かを評価し、成立しないCFDを前記第２のCFD集合から削除し、さらに、前記変更によりLHSが前記変更後の属性値のパタン（tp）に重なるCFDを新たに抽出し、前記新たなCFDと、前記成立しないCFDを削除した第２のCFD集合を含めて第４のCFD集合とし、
　前記変更前又は前記変更後の属性値のパタン（tp）にRHSが重なる第５のCFD集合を求め、
　前記第１のCFD集合、前記第４のCFD集合、前記第５のCFD集合を併合する、ことを特徴とする請求項７記載のプログラム。
　データプロファイリングにより、CFDを用いたデータの誤り推定とデータ修正指示をユーザに提示するプロファイリング手段を備え、
　前記プロファイリング手段によって提示された修正に応じて、データ記憶部のデータが修正され、
　前記修正されたデータに対して、前記プロファイリング手段が、データプロファイリングを行い、データプロファイリングと、前記データ記憶部のデータの修正を繰り返すことでデータのクレンジングを行う、ことを特徴とするデータクレンジング装置。
　請求項１乃至３のいずれか１項に記載のCFD更新装置を備え、
　前記CFD更新装置の前記データ更新部はクレンジング対象のデータを変更し、
　変更されたクレンジング対象のデータに対して、前記CFD更新装置の前記CFD更新装置からのCFDに基き、データ修正内容がCFDに違反する場合、その旨をユーザに通知する修正補助情報提示部を備えたデータクレンジング装置。
　請求項４乃至６のいずれか１項に記載のCFD更新方法により導出されたCFDに基き、データ修正内容がCFDに違反する場合、その旨をユーザに通知することを特徴とするデータクレンジング方法。
　請求項７乃至９のいずれか１項に記載のプログラムを実行するコンピュータに、
　前記データ変更処理は、クレンジング対象のデータを変更し、
　変更されたクレンジング対象のデータに対して前記CFD更新処理からのCFDに基き、データ修正内容がCFDに違反する場合、その旨をユーザに通知する修正補助情報提示処理を実行させるプログラム。