WO2013172310A1 - ルール発見システムと方法と装置並びにプログラム - Google Patents

ルール発見システムと方法と装置並びにプログラム Download PDF

Info

Publication number
WO2013172310A1
WO2013172310A1 PCT/JP2013/063319 JP2013063319W WO2013172310A1 WO 2013172310 A1 WO2013172310 A1 WO 2013172310A1 JP 2013063319 W JP2013063319 W JP 2013063319W WO 2013172310 A1 WO2013172310 A1 WO 2013172310A1
Authority
WO
WIPO (PCT)
Prior art keywords
rule
database
attribute
free
item set
Prior art date
Application number
PCT/JP2013/063319
Other languages
English (en)
French (fr)
Inventor
裕貴 中山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/115,532 priority Critical patent/US8972363B2/en
Priority to JP2013544930A priority patent/JP5532189B2/ja
Publication of WO2013172310A1 publication Critical patent/WO2013172310A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Definitions

  • the present invention relates to a technique for discovering rules, and particularly to a system, method, apparatus, and program for discovering database rules.
  • the discovery of the rules in the database is to express the rules as CFD (Conditional Function Dependency), and output CFD rules that match the contents of the database from the generated CFD rule candidates.
  • CFD Consumer Function Dependency
  • CFD is a rule indicating that a function result part (abbreviated as “FD”) representing a result part between data attributes is established for a tuple set specified by a condition. It consists of the specification of attribute values in the condition part and premise part which are the left side of the rule (LHS: LeftLeHand Side) and the consequent part of the right side of the rule (RHS: Right Hand Side).
  • LHS LeftLeHand Side
  • RHS Right Hand Side
  • the condition part and the result part are also called a conditional clause and a subordinate clause, respectively.
  • x means that the attribute value is a specific value.
  • Such an expression of the attribute value is referred to as “constant” (note that “constant” means, for example, “constant”).
  • X _
  • Such an expression of the attribute value is referred to as “variable” (“Variable” means, for example, “variable”).
  • “_” is also referred to as “unnamed” variable.
  • a rule that has a result part between attributes, although the result part is not determined to be specified in this way, is called “variable CFD” (variable CFD). That is, when the right side of the pattern
  • is “unnamed variable” ‘_’ (tp [A] _), it is referred to as variable CFD.
  • the support level is the number of tuples in which the condition part and the premise part of the CFD coincide.
  • the confidence level is the ratio of the number of tuples in which the CFD rule is satisfied among the number of tuples in which the condition part and the premise part match.
  • any CFD left side (LHS) attribute set is said to be “left-reduced” for a CFD that does not contain the other CFD left side attribute set.
  • rule 4 when the following rule 3 and rule 4 are given, the left side of rule 4 includes the left side of rule 3 (X1 ⁇ X1, X2), so rule 4 is “left-reduced” Absent. Conversely, the left side of rule 3 does not include the left side of rule 4, so rule 3 is said to be “left-reduced”. In this case, rule 4 can be deleted as redundant CFD with respect to rule 3.
  • rule 5 when the following rule 5 and rule 6 are given, rule 5 can be obtained by replacing the attribute value x2 of rule 6 with Variable. For this reason, rule 6 is not “most-general”. Conversely, rule 5 is said to be “most-general”. In this case, rule 6 can be deleted as a redundant CFD with respect to rule 5.
  • An apparatus for discovering a rule from a database includes a storage unit (storage unit) such as a magnetic disk for storing CFD, and a calculation unit (calculation unit) that generates a CFD candidate and determines whether the CFD candidate matches the contents of the database. ) And a storage unit (storage unit) that stores the CFD determined to match the contents in the storage device.
  • the storage means stores the CFD obtained by the rule discovery algorithm.
  • the calculation means generates a CFD candidate to be checked, checks whether it matches the contents of the database, and if it matches, outputs it as a valid CFD.
  • the storage means stores the obtained valid CFD in the storage device.
  • a method of generating constant CFD (constant CFD) candidates from a free itemset and a corresponding closed itemset (2) A list of attribute-value pairs is generated by breadth-first search (Breadth First Search), one of which is a dependent term (A) and the rest is a conditional part (X), Formula: X ⁇ A Generating CFD candidates by obtaining (3) A free item set is a conditional item (condition part), and one attribute that is not included in the free items set is placed in a subordinate item (consecutive part), and the other is a conditional item.
  • a free item set (free ⁇ itemset) is a set of items, and the frequency is truly increased by removing any one or more items.
  • An attribute-value pair appearing in the database is called an “item”, and a set of items is called an item set.
  • Non-Patent Document 2 uses breadth-first search (breadth first search) as a discovery method for rules (CFD) that do not completely match the contents of the database but have high confidence (confidence).
  • CFD rules
  • a method for finding a CFD (confidence) equal to or higher than a threshold (hereinafter referred to as “approximate CFD”) (“substantially valid” CFD) is disclosed.
  • Patent Literature 1 discloses a rule base for storing a rule including a condition part and a conclusion part, a case information database for storing case information related to a rule application result, a rule, and a rule.
  • the case search unit searches the case information set from the case information database using the relation part that associates case information that satisfies the conditions and the condition part of the rule to be validated as a key, and the conclusion part of the rule is satisfied in the case information set
  • a rule base management device including a validity check unit that calculates a proportion of case information and checks validity of the rule based on the proportion.
  • Patent Document 2 discloses a configuration in which a function consequent part (FD) between relation attributes is found and normalization is performed by relation division.
  • FD function consequent part
  • the first problem is that the CFD obtained by the CFD discovery algorithm disclosed in Non-Patent Document 1 is completely established for the database, that is, the confidence factor is only 1, and You can't list things that are “substantially valid”.
  • the second problem is that the calculation time of the “approximate ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ CFD” discovery algorithm disclosed in Non-Patent Document 2 is extremely long. This is because the number of CFD (approximate CFD) candidates generated for a large-scale database, particularly with a large number of attributes, causes a combinational explosion.
  • the present invention was devised in view of the above problems, and its purpose is a system and apparatus capable of efficiently obtaining a set of rules useful for grasping or correcting the contents of a database. It is to provide a method and a program.
  • a storage device for storing a database, a data processing device, and an output device.
  • the data processing device includes items that are attribute-value pairs in the database.
  • Free item set generation means for generating a free item set having a frequency equal to or higher than a predetermined threshold value;
  • the condition part is the free item set,
  • the consequence part is an item that does not share attributes with the free item set of the condition part,
  • a rule candidate generating means for generating a rule having the premise part as an attribute not included in the free item set of the condition part or the item of the consequent part and holding the rule part in a storage part;
  • the rule generated by the rule candidate generating unit is compared with the database, and when it matches with a predetermined certainty threshold or higher, the rule validity determining unit determines that the rule is valid. It is determined whether or not the rule determined to be appropriate by the rule validity determining means is minimal, and if it is minimal, the rule minimality determining means for outputting to the output device is provided.
  • a rule is found from a database by a data processing device comprising free item set generation means, rule candidate generation means, valid rule candidate generation means, and rule minimality determination means.
  • the free item set generation means reads the database and includes items that are attribute-value pairs in the database, and the free item set having a frequency in the database equal to or higher than a predetermined threshold value.
  • the rule candidate generation means is a rule candidate,
  • the condition part is the free item set,
  • the consequence part is an item that does not share attributes with the free item set of the condition part, Generate a rule with the premise part as an attribute that is not included in the free item set of the condition part or the item of the consequent part, and hold it in the storage part
  • the rule validity determination means is valid if the rule generated by the rule candidate generation means is checked against the database and matches with a predetermined certainty threshold or more. Judge that there is,
  • the rule minimality determining means determines whether or not the rule is determined to be appropriate by the appropriate rule candidate generating means, and outputs the output to the output device if it is minimum.
  • a rule discovery method is provided.
  • a rule finding program for causing a computer to execute is provided.
  • a memory device semiconductor storage
  • a database is read, and a free item set including items that are attribute-value pairs in the database and having a frequency in the database equal to or higher than a predetermined threshold is generated.
  • Free item set generation means As a rule candidate, the condition part is a free item set, the result part is fixed to an attribute not included in the condition part, and the premise that is not included in the free item set of the condition part or the item of the result part
  • Rule candidate generation means for storing a rule obtained by depth-first search for the attribute set of a part in a storage unit;
  • the rule candidate generated by the rule candidate generating means is checked against the database, and when the generated rule matches with a predetermined certainty threshold or more, the rule is A means for judging the validity of a rule that is judged to be valid; If the rule itself determined to be valid by the rule validity judgment means is minimal, or if the rule obtained by removing one item from the condition part of the rule is not valid, it is determined to be minimal. If the rule determined to be valid is redundant with
  • FIG. 3 is a flowchart showing the operation of the first exemplary embodiment of the present invention. It is a figure for demonstrating the specific example of operation
  • a set ofapproximate CFD that matches the contents of the database is calculated. More specifically, a free item that calculates a free item set (free ⁇ itemset) based on the contents of the database (database stored in the database storage unit 31 in FIG. 1) and the parameters given from the input device (1 in FIG. 1).
  • the rule validity determination unit (rule validity determination means 23 in FIG. 1) for determining whether or not the rule candidate is valid and the obtained valid rule are redundant with respect to the already obtained valid rule.
  • a rule minimality determination unit (rule minimality determination unit 24 in FIG. 1) for checking whether or not the item is not a particular one.
  • a free item set consisting of items that are attribute-value pairs in a database, wherein the frequency in the database is equal to or higher than a predetermined threshold (frequent free) items) and a rule (CFD) candidate as the free item set ( ⁇ ) as a condition part and share attributes with the free item set
  • a rule candidate generation unit (rule candidate generation unit 22 in FIG. 1) that generates a rule having an item (x) not to be processed as a consequent unit and generates a rule having an attribute included in neither ⁇ nor x as a premise unit )
  • the rule generated by the rule candidate generation unit (22 in FIG. 1) are collated with the database and determined in advance.
  • the rule validity determination unit (rule validity determination unit 23 in FIG.
  • the rule minimality determining unit (rule minimality determining unit 24 in FIG. 1) is the rule itself validated by the rule validity determining unit (rule validity determining unit 23 in FIG. 1). If the rule obtained by removing only one item from the condition part of the rule is not valid, the rule is determined to be minimal and is output to the output device (4). The validity of the rule When the rule validated by the judging unit (rule validity judging means 23 in FIG. 1) is redundant with respect to a known rule, the rule is not output to the output device (4).
  • a candidate that can be a part of a conditional term of a rule (CFD) can be obtained at high speed.
  • -The rule (CFD) condition part is a free item set
  • -The attribute set of the premise part of the rule (CFD) is obtained by depth first search (DFS).
  • DFS depth first search
  • the first embodiment of the present invention includes an input device 1 such as a keyboard, a data processing device 2 that operates under program control, a storage device 3 that stores information, a display device, and a printing device.
  • the output device 4 is included.
  • the storage device 3 includes a database storage unit 31.
  • the database storage unit 31 stores in advance a database for extracting rules from itself.
  • the data processing apparatus 2 includes a free item set generation unit 21, a rule candidate generation unit 22, a rule validity determination unit 23, and a rule minimality determination unit 24.
  • a free item set (free itemset) generation unit 21 uses a parameter (frequency threshold k, confidence threshold p) given from the input device 1, and uses a free item set (free item set) of the database stored in the database storage unit 31. itemset).
  • the free item set (free21itemset) generation unit 21 converts the generated free item set (free itemset) into a storage unit (not shown) in the data processing device 2 or a free item set (free itemset) generation unit 21 (not shown).
  • the data is stored in a predetermined storage area of the storage unit or the storage device 3.
  • An attribute-value pair appearing in the database is called an “item”, and a set of items is called an item set.
  • the rule candidate generation means 22 is a rule candidate.
  • a free itemset ⁇ generated by the free itemset generating means 21 is used as a condition part, Place an item x that does not share attributes with the free itemset ⁇ in the consequence section,
  • a rule that uses a subset ⁇ of attributes not included in the above ⁇ and x as a premise is generated by depth first search (DFS).
  • DFS depth first search
  • the rule candidate generation unit 22 generates a rule generated as a rule candidate from a storage unit (not shown) in the data processing device 2, a storage unit (not shown) in the appropriate rule candidate generation unit 22, or a predetermined storage unit 3. Store in the storage area.
  • the rule validity determination unit 23 checks whether the rule generated by the rule candidate generation unit 22 is a valid rule (for example, a frequency k or a certainty p or more) and is valid. In this case, the rule is passed to the minimality determination means 24 and no further deep search is performed.
  • a valid rule for example, a frequency k or a certainty p or more
  • the rule minimality determination unit 24 determines whether or not the rule determined to be valid by the rule validity determination unit 23 is minimal, and outputs the output to the output device 4 if the rule is minimal.
  • “minimum” means that the CFD obtained by removing an arbitrary item (item) from the condition part or the premise part, and the value of the item (item) in the condition part are changed. It means that none of the CFDs obtained by placing them are valid.
  • the parameters (frequency threshold k, certainty threshold p) given from the input device 1 and the contents of the database given from the database storage unit 31 are supplied to a free item set generating means 21.
  • the free item set (free itemset) generation unit 21 uses a free item set (free itemset) whose frequency is equal to or greater than the parameter k from attribute-value pairs appearing in the database (this pair is called an item). ) (Frequent free itemset) is extracted (step A1).
  • a free item set (free itemset) is a set of items (items), and by removing any one or more items (items), the frequency (frequency) is truly increased. It is.
  • free item set (free itemset) generation means 21 After all free item sets (free itemset) are obtained, they are arranged in ascending order of size (the number of items included).
  • the rule candidate generation unit 22 generates a rule candidate from each free item set generated by the free item set generation unit 21.
  • With free itemset ⁇ as the condition part, ⁇ Fix an item x that does not share attributes with the free itemset ⁇
  • Rule (CFD) candidate ⁇ : ( ⁇ , ⁇ _) ⁇ x with a subset ⁇ of attributes not included in ⁇ and x as a premise Is generated by performing a depth-first search (DFS) on ⁇ (step A2).
  • DFS depth-first search
  • the rule validity determination means 23 is the rule (rule candidate) generated by the rule candidate generation means 22.
  • ⁇ : ( ⁇ , ⁇ _) ⁇ x Is compared with the database stored in the database storage unit 31 to check whether the rule candidate ⁇ is valid (for example, the certainty of the rule ⁇ is greater than or equal to the set threshold value 0.66) Check if it exists).
  • the rule validity determination unit 23 passes the rule candidate ⁇ to the rule minimality determination unit 24, and does not perform a deeper search in the depth-first search (step A2). .
  • the rule minimality determination means 24 determines whether or not the rule candidate (approximate CFD whose confidence is equal to or greater than the threshold) ⁇ obtained by the rule validity determination means 23 is minimal. (Step A3).
  • the rule minimality determining means 24 outputs the rule candidate ⁇ to the output device 4 (step A4).
  • step A2 if the above check is not completed for all combinations of free item set ⁇ and attribute x, the process returns to step A2.
  • FIG. 3B Table 1 below
  • the database storage unit 31 is registered with a data set composed of the attributes and tuples shown in Table 1 below.
  • the database example is a simplified example for the sake of explanation.
  • FIG. 3C is a diagram illustrating an example of a rule (approximate CFD) output from the output device 4 as a result of the calculation of FIG.
  • k is the lower limit of the frequency for determining that the rule is valid
  • p is the lower limit of the certainty factor.
  • a free item set (free itemset) with an appearance frequency of k or more is also called “frequent free itemset”.
  • the rule candidate generation means 22 subsequently generates rule candidates having attributes 1, 2, and 3 in the consequent part x.
  • CFD depth-first search
  • the minimality is determined immediately after the rules are generated.
  • “attribute 3: _”
  • attribute 1: _” For, the rule itself is minimal.
  • ⁇ ′ “attribute 3: T” ⁇ “attribute 2: P” Is redundant with respect to the known rule ⁇ : empty ⁇ “attribute 2: P”, so it is not minimal and does not output.
  • the present embodiment includes a rule discovery program 5.
  • the rule discovery program 5 is read into the data processing device 6 and controls the operation of the data processing device 6.
  • the data processing device 6 executes the following processing, that is, the same processing as the processing by the data processing device 2 in the first embodiment, under the control of the rule finding program 5.
  • an initial rule candidate is generated using a database stored in the database storage unit 31 in the storage device 3.
  • the rule set in the list is displayed on the output device 4.

Abstract

 本発明は、データベースの内容を把握し、あるいは修正を行うために有用なルールの集合を、効率よく得ることができるシステム、装置、方法、プログラムを提供する。データベースにおける属性と値のペアからなるフリーアイテムセットであって、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットの集合を生成するフリーアイテムセット生成手段(21)と、ルール候補として前記フリーアイテムセットαをルールの条件部とし、前記フリーアイテムセットと属性を共有しないアイテムxをルールの帰結部とし、ルールの前提部の属性集合を深さ優先探索で求めαにもxにも含まれない属性としたルールを生成するルール候補生成手段(22)と、前記ルールをデータベースと照合し妥当であるか判定を行うルールの妥当性判定手段(23)と、妥当とされた前記ルールに対して極小性のチェックを行い前記ルールが極小である場合、出力装置(4)に出力するルールの極小性判定手段(24)を備える。

Description

ルール発見システムと方法と装置並びにプログラム
 (関連出願についての記載)
 本発明は、日本国特許出願:特願2012-110923号(2012年5月14日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
 本発明は、ルールの発見を行う技術に関し、特にデータベースのルールの発見を行うシステムと方法と装置並びにプログラムに関する。
 データベースのルールの発見は、例えばルールをCFD(Conditional Function Dependency:条件付関数帰結部)として表現するものとし、生成されたCFDルールの候補から、データベースの内容に合致したCFDルールを出力する。以下では、発明の理解の前提となるCFDについて概説する。
 CFDは、データ属性間の帰結部を表す関数帰結部(Functional Dependency:「FD」と略記される)が、条件によって指定されたタプル集合について成立することを表すルールである。ルールの左辺(LHS:Left Hand Side)である条件部、前提部と、ルールの右辺(RHS:Right Hand Side)の帰結部における属性値の指定からなる。なお、条件部、帰結部は、それぞれ条件節、従属節ともいう。
 条件部は、データの部分集合(タプル集合)を指定し、属性Xが属性値xであるということを「X=x」と表す。ここで、「x」は属性値がある特定の値であることを意味する。このような、属性値の表現を「コンスタント(Constant)である」という(なお、「コンスタント(Constant)」は例えば「定数」を意味する)。
 また、前提部は、属性のみの指定からなり、属性値は特定の値をとらない(すなわち、任意の値とマッチすることを表すワイルドカード)ことを「X= _ 」と表す。このような属性値の表現を「バリアブル(Variable)である」という(なお、「バリアブル(Variable)」は例えば「変数」を意味する)。ここで、‘_’は「unnamed variable」(無名変数)ともいう。
 帰結部には、2種類ある。
(A)属性と属性値の指定からなるもの(例えば、以下のルール1)と、
(B)属性のみを指定するもの(例えば、以下のルール2)
である。
(A)の場合、例えば「A=a」、
(B)の場合、例えば「A=_」等と表される。なお、帰結部に、属性値の指定がある場合には、前提部は省略することができる。また、前提部、帰結部は、複数の属性とそれぞれの属性値の指定からなることもある。以下にルールの例を示す。
ルール1:X1 → A(x1 || a)
ルール2:X1, X2 → A(x1, _ || _ )
 ルール1は、「属性X1が属性値x1のとき、属性Aは属性値aである」という意味のルールである。ルール1が成り立つとき、条件部に当てはまるタプル集合において、帰結部が指定された値であることを表す。つまり、条件X1=x1を満たすタプル集合の全てのタプルにおいて、t[A]=aである(なお、t[A]は、属性Aのタプルを表している)。このように、帰結部が指定された値に決まるルールを、「コンスタントCFD」(Constant CFD)という。
 ルール2は、「属性X1が属性値x1のとき、属性X2によって属性Aが決まる」という意味のルールである。ルール2が成り立つとき、条件部に当てはまるタプル集合において、前提部と帰結部で指定された属性間に帰結部があることを表す。つまり、条件「X1=x1」を満たすタプル集合の中の任意のタプルペアt1、t2について、t1[X2]=t2[X2]であれば、t1[A]=t2[A]となる。このように帰結部が指定された値に決まらないが、属性間に帰結部を持つようなルールを「バリアブルCFD」(variable CFD)という。すなわち、パタンタプルの||の右側が「unnamed variable」‘_’の場合(tp[A]=_)、バリアブルCFDという。
 ルール1のパタンタプル(x1 || a)における記号‘||’は、左辺のX1と右辺のAの属性値を分離する。なお、ルール1の“X1→A(x1 || a)”を、“(X→A,(x || a))”と表記する例もあるが、外側の括弧とカンマの有無が相違するだけであり、同一のルールを表すものであることは自明である。同様に、ルール2の“X1,X2→A(x1,_|| _ )”を“([X1,X2]→A,(x1,_|| _ ))”とも表記する。
 与えられたデータに対してCFDがどれだけ有効なルールであるかを示す指標として、例えば支持度(Support)や確信度(Confidence)が用いられている。支持度(Support)は、CFDの条件部と前提部が一致するタプル数である。
 確信度(Confidence)は、条件部と前提部が一致するタプル数の中で、CFDのルールが成立するタプル数の割合である。
 複数のCFDが与えられた時、「left-reduced」(レフト・レデュースト)、且つ、「most-general」(モストジェネラル)の2つの条件を満たすCFDを、「minimal」(ミニマル)であるという。
 「left-reduced」について説明する。複数のCFDが与えられた時、いかなるCFDの左辺(LHS)の属性セットも、他のCFDの左辺の属性セットを包含しないCFDを「left-reduced」であるという。
 例えば、以下のルール3、ルール4が与えられた時、ルール4の左辺は、ルール3の左辺を包含している(X1⊂X1,X2)ことから、ルール4は、「left-reduced」ではない。逆に、ルール3の左辺は、ルール4の左辺を包含しないので、ルール3は「left-reduced」であるという。この場合、ルール4は、ルール3に対して、冗長なCFDとして削除することができる。
ルール3: X1,Y→A(x1,_ || _)
ルール4: X1,X2,Y→A(x1,x2 || _)
 次に、「most-general」について説明する。複数のCFDが与えられた時、いかなるCFDの左辺に含まれる属性値の定数も‘_’(Variable)に更新できない場合、「most-general」であるという。
 例えば、以下のルール5、ルール6が与えられた時、ルール6の属性値x2をバリアブル(Variable)に置き換えることで、ルール5を得ることができる。このため、ルール6は「most-general」でない。逆に、ルール5は「most-general」であるという。この場合、ルール6は、ルール5に対して冗長なCFDとして削除することができる。
ルール5: X1,X2→A(x1,_ || a)
ルール6: X1,X2→A(x1,x2 || a)
 以上でCFDの概説を終える。
 データベースからルールを発見する装置は、CFDを保存する磁気ディスク等の記憶手段(記憶部)と、CFDの候補を生成し、CFD候補がデータベースの内容に合致しているか判定する演算手段(演算部)と、内容に合致していると判定されたCFDを記憶装置に保存する保存手段(保存部)から構成される。記憶手段は、ルール発見アルゴリズムで得られたCFDを保存する。演算手段は、チェックの対象とするCFDの候補を生成し、それがデータベースの内容に合致しているかどうか調べ、合致している場合、妥当(valid)なCFDとして出力する。保存手段は、得られた妥当なCFDを、記憶装置に保存する。
 データベースのルールの発見手法として、例えば非特許文献1に記載されているように、
(1)フリーアイテムセット(free itemset)と、それに対応するクローズド・アイテムセット(closed itemset)からコンスタントCFD(constant CFD)の候補を生成する手法、
(2)属性と値のペアのリストを、幅優先探索(Breadth First Search)により生成し、そのうちの1つの項を従属項(Aとする)とし、残りを条件部(Xとする)に置き、
式:X→A
を得ることによって、CFDの候補を生成する手法、
(3)フリーアイテムセット(free itemset)を、条件項(条件部)とし、フリーアイテムセット(free itemset)に含まれない1つの属性を従属項(帰結部)に置き、それ以外に条件項に加える属性を深さ優先探索(Depth First Search)することで、CFDの候補を生成する手法、
等がある。
 フリーアイテムセット(free itemset)とは、アイテム(item)の集合であり、任意の1つ以上のアイテム(item)を除去することで、頻度が真に増加してしまうものである。データベース中に出現している属性と値のペアを「アイテム」(item)と呼び、アイテムの集合をアイテムセット(itemset)という。
 前述したように、データベースの内容とCFDがどの程度一致しているかを表す指標として、確信度がある。
 データベースの内容と完全には一致していないが、高い確信度(confidence)を持つルール(CFD)の発見手法として、非特許文献2には、幅優先探索(breadth first search)を用いて、確信度(confidence)が閾値以上のCFD(以下、「approximate CFD」という)(「ほぼ成り立つ」CFD)を発見する、手法が開示されている。
 なお、ルールの妥当性のチェックとして、例えば特許文献1には、条件部と結論部からなるルールを格納するルールベースと、ルールの適用結果に関する事例情報を格納する事例情報データベースと、ルールとルールを満たす事例情報を関係付ける関係付け部と、妥当性チェック対象のルールの条件部をキーとして事例情報データベースから事例情報集合を事例検索部に検索させ、事例情報集合において該ルールの結論部を満たす事例情報の割合を算出し、該割合に基づき、ルールの妥当性をチェックする妥当性チェック部と、を備えたルールベース管理装置が開示されている。また、特許文献2には、リレーションの属性間の関数帰結部(FD)を見つけ出し、リレーション分割による正規化を行う構成が開示されている。
国際公開第2004/36496号公報 特開平6-110749号公報
Wenfei Fan et al., "Discovering Conditional Functional Dependencies," pp.1231-1234, IEEE International Conference on Data Engineering, 2009 [2012年4月9日検索]インターネットURL<http://homepages.inf.ed.ac.uk/fgeerts/pdf/icde09.pdf> Chiang et al., "Discovering Data Quality Rules," in VLDB, 2008、[2012年4月9日検索]インターネットURL<http://dblab.cs.toronto.edu/~fchiang/docs/vldb08.pdf>
 以下に、本発明者によって為された関連技術の分析を記載する。
 第1の問題点は、非特許文献1に開示されているCFD発見アルゴリズムにより得られるCFDは、データベースに対して完全に成り立つ、つまり、確信度が1のもののみであり、データベースに対して「ほぼ成り立つ」ものを列挙できない、ということである。
 第2の問題点は、非特許文献2に開示されている「approximate CFD」発見アルゴリズムは、計算時間が極端に長くなる、ということである。その理由は、大規模な、特に、属性数の大きいデータベースに対して、生成されるCFD(approximate CFD)の候補の個数が組合せ爆発(combinational explosion)を起こしてしまうためである。
 本発明は、上記問題点に鑑みて創案されたものであって、その目的は、データベースの内容を把握し、あるいは修正を行うために有用なルールの集合を効率よく得ることができるシステム、装置、方法、プログラムを提供することにある。
 本発明によれば、データベースを記憶する記憶装置と、データ処理装置と、出力装置と、を備え、前記データ処理装置は、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成するフリーアイテムセット生成手段と、
 ルール候補として、
 条件部を、前記フリーアイテムセットとし、
 帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
 前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持するルール候補生成手段と、
 前記ルール候補生成手段により生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定手段と、
 前記ルールの妥当性判定手段で妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、前記出力装置に出力するルールの極小性判定手段と、を備えたルール発見システムが提供される。
 本発明の別の側面によれば、フリーアイテムセット生成手段と、ルール候補生成手段と、妥当なルール候補生成手段と、ルールの極小性判定手段とを備えたデータ処理装置によりデータベースからルールを発見するにあたり、
(a)前記フリーアイテムセット生成手段が、前記データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶し、
(b)前記ルール候補生成手段は、ルール候補として、
 条件部を、前記フリーアイテムセットとし、
 帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
 前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持し、
(c)前記ルールの妥当性判定手段は、前記ルール候補生成手段で生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定し、
(d)前記ルールの極小性判定手段は、前記妥当なルール候補生成手段によって妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、出力装置に出力する、ルール発見方法が提供される。
 本発明の別の側面によれば、
(a)データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶する処理と、
(b)ルール候補として、
 条件部を、前記フリーアイテムセットとし、
 帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
 前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持する処理と、
(c)前記生成されたルールを前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定する処理と、
(d)前記妥当であると判定されたルールに対して、極小であるか否か判定し、極小である場合、出力装置に出力する処理と、
 をコンピュータに実行させるルール発見プログラムが提供される。本発明によれば、ルール発見プログラムを記録したメモリデバイス(半導体ストレージ)、磁気/光ストレージ媒体(デバイス)が提供される。
 本発明の別の側面によれば、データベースを読み出し、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成するフリーアイテムセット生成手段と、
 ルール候補として、条件部をフリーアイテムセットとし、帰結部を前記条件部に含まれない属性に固定し、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない前記前提部の属性集合を深さ優先探索で求めたルールを、記憶部に保持するルール候補生成手段と、
 前記ルール候補生成手段により生成された前記ルール候補を、前記データベースと照合し、前記生成されたルールに対して、予め定められた所定の確信度の閾値以上でマッチしている場合、前記ルールを妥当と判断するルールの妥当性判定手段と、
 前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して出力装置に出力し、前記妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを前記出力装置に出力しないルールの極小性判定手段と、
 を備えたルール発見装置が提供される。
 本発明によれば、データベースの内容を把握し、あるいは修正を行うために有用なルールの集合を、効率よく得ることができる。
本発明の例示的な第1の実施の形態の構成を示す図である。 本発明の例示的な第1の実施の形態の動作を示す流れ図である。 本発明の例示的な第1の実施の形態の動作の具体例を説明するための図である。 本発明の例示的な第2の実施の形態の構成を示す図である。
 次に、本発明の実施の形態について図面を参照して詳細に説明する。本発明によれば、データベースと、ユーザが入力したパラメータに基づき、データベースの内容に合致したapproximate CFDの集合を計算する。より具体的には、データベース(図1のデータベース記憶部31に記憶されるデータベース)の内容と、入力装置(図1の1)から与えるパラメータに基づきフリーアイテムセット(free itemset)を計算するフリーアイテムセット(free itemset)生成部(図1の21)と、得られたフリーアイテムセット(free itemset)に基づきルール候補を生成するルール候補生成部(図1のルール候補生成手段22)と、生成されたルール候補が妥当であるか判定するルールの妥当性判定部(図1のルールの妥当性判定手段23)と、得られた妥当なルールが、既に得られた妥当なルールに対して、冗長なものでないか否かをチェックするルールの極小性判定部(図1のルールの極小性判定手段24)と、を有する。
 実施形態によれば、データベースにおける属性と値のペアであるアイテム(item)からなるフリーアイテムセットであって、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセット(frequent free itemsets)を生成するフリーアイテムセット生成部(図1のフリーアイテムセット生成手段21)と、ルール(CFD)候補として、前記フリーアイテムセット(α)を条件部とし、前記フリーアイテムセットと属性を共有しないアイテム(x)を帰結部とし、前記αにも前記xにも含まれない属性を前提部としたルールを生成して記憶部に保持するルール候補生成部(図1のルール候補生成手段22)と、前記ルール候補生成部(図1の22)により生成された前記ルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定部(図1のルールの妥当性判定手段23)と、前記ルールの妥当性判定部(図1のルールの妥当性判定手段23)で妥当とされたルールに対して極小であるか否かチェックし、極小である場合、出力装置(図1の4)に出力するルールの極小性判定部(図1のルールの極小性判定手段24)を備えている。
 前記ルールの極小性判定部(図1のルールの極小性判定手段24)は、前記ルールの妥当性判定部(図1のルールの妥当性判定手段23)で妥当とされたルール自体が極小(minimal)であるか、前記ルールの条件部から唯一のアイテムを除いて得られるルールが妥当でない場合に、極小(minimal)と判定し、前記出力装置(4)に出力し、前記ルールの妥当性判定部(図1のルールの妥当性判定手段23)で妥当とされたルールが既知のルールに対して冗長である場合には、出力装置(4)に出力しない。
 本発明によれば、最初に、フリーアイテムセット(free itemset)を計算することにより、ルール(CFD)の条件項の一部となり得る候補を、高速に求めることができる。また、
・ルール(CFD)の条件部を、フリーアイテムセットとし、
・ルール(CFD)の帰結部を、前記条件部に含まれない属性に固定し、
・ルール(CFD)の前提部の属性集合を、深さ優先探索(DFS: Depth First Search)で求める、
ことで、極小なルール(approximate CFD)のみを効率良く得ることができる。すなわち、ユーザがデータベースの内容を把握し、修正を行うために有用なルール(approximate CFD)の集合を、効率よく得ることができる。以下、実施形態に即して説明する。
<実施形態1>
 図1を参照すると、本発明の第1の実施の形態は、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4を含む。
 記憶装置3は、データベース記憶部31を備えている。データベース記憶部31には、それ自体からルールを抽出するためのデータベースが予め記憶されている。
 データ処理装置2は、フリーアイテムセット(free itemset)生成手段21と、ルール候補生成手段22と、ルールの妥当性判定手段23と、ルールの極小性判定手段24とを備える。
 フリーアイテムセット(free itemset)生成手段21は、入力装置1から与えられたパラメータ(頻度の閾値k、確信度の閾値p)を用い、データベース記憶部31に記憶されたデータベースのフリーアイテムセット(free itemset)を生成する。フリーアイテムセット(free itemset)生成手段21は、生成したフリーアイテムセット(free itemset)を、データ処理装置2内の不図示の記憶部又はフリーアイテムセット(free itemset)生成手段21内の不図示の記憶部、又は記憶装置3の所定の記憶領域に記憶する。データベース中に出現している属性と値のペアを「アイテム」(item)と呼び、アイテムの集合をアイテムセット(itemset)という。
 ルール候補生成手段22は、ルール候補として、
・フリーアイテムセット(free itemset)生成手段21によって生成されたフリーアイテムセット(free itemset)αを条件部とし、
・前記フリーアイテムセット(free itemset)αと属性を共有しないアイテムxを帰結部に置き、
・上記αにもxにも含まれない属性の部分集合βを前提部に置くルールを深さ優先探索(DFS: Depth First Search)で生成する。
 ルール候補生成手段22は、ルール候補として生成したルールを、データ処理装置2内の不図示の記憶部又は、妥当なルール候補生成手段22内の不図示の記憶部、又は記憶装置3の所定の記憶領域に記憶する。
 ルールの妥当性判定手段23は、ルール候補生成手段22によって生成されたルールに対して、それが妥当な(例えば頻度k、確信度p以上の)ルールであるかチェックし、妥当なものである場合、該ルールを極小性判定手段24に渡し、それ以上深い探索を行わない。
 ルールの極小性判定手段24は、ルールの妥当性判定手段23で妥当と判定されたルールが極小なものであるか否かの判定を行い、極小である場合、出力装置4に出力を行う。ここで、「極小である」とは、条件部又は前提部から、任意のアイテム(item)を除去して得られるCFD、及び、条件部のアイテム(item)の値を変化し、前提部に置くことで得られるCFDがどれも妥当でない、という意味である。すべてのフリーアイテムセット(free itemset)、及び、帰結部の属性の組合せについて探索が完了したとき、アルゴリズムを終了する。
 次に、図1及び図2を参照して本実施の形態の動作について詳細に説明する。
 入力装置1から与えられたパラメータ(頻度閾値k、確信度閾値p)、及び、データベース記憶部31から与えられたデータベースの内容は、フリーアイテムセット(free itemset)生成手段21に供給される。
 フリーアイテムセット(free itemset)生成手段21は、データベース中に出現している属性と値のペア(このペアをアイテム(item)と呼ぶ)から、その頻度がパラメータk以上のフリーアイテムセット(free itemset)(frequent free itemset)を抽出する(ステップA1)。ここで、フリーアイテムセット(free itemset)とは、アイテム(item)の集合であり、任意の1つ以上のアイテム(item)を除去することで、頻度(frequency)が真に増加してしまうものである。
 フリーアイテムセット(free itemset)生成手段21では、すべてのフリーアイテムセット(free itemset)が得られた後、それらをサイズ(含まれるitemの個数)の昇順に並べておく。
 次に、ルール候補生成手段22は、フリーアイテムセット(free itemset)生成手段21により生成された各フリーアイテムセット(free itemset)から、ルール候補を生成する。具体的には、
・フリーアイテムセット(free itemset)αを条件部とし、
・フリーアイテムセット(free itemset)αと属性を共有しないアイテムxを、帰結部に固定し、
・αにもxにも含まれない属性の部分集合βを前提部に置いたルール(CFD)候補
ψ:(α,β=_)→x
を、βに対して、深さ優先探索(DFS)を行うことで生成する(ステップA2)。
 次に、ルールの妥当性判定手段23は、ルール候補生成手段22により生成されたルール(ルール候補)
ψ:(α,β=_)→x
を、データベース記憶部31に記憶されているデータベースと照合し、当該ルール候補ψが妥当なものであるかチェックを行う(例えば、当該ルールψの確信度が、設定された閾値0.66以上であるか否かをチェックする)。
 ルールの妥当性判定手段23は、ルール候補ψが妥当である場合、該ルール候補ψを、ルールの極小性判定手段24に渡し、深さ優先探索においてそれ以上深い探索を行わない(ステップA2)。
 次に、ルールの極小性判定手段24は、ルールの妥当性判定手段23により得られたルール候補(確信度が閾値以上であるapproximate CFD)ψについて、極小(minimal)であるか否か判定する(ステップA3)。
 ルールの極小性判定手段24は、ルール候補ψが極小(minimal)である場合、該ルール候補ψを、出力装置4に出力する(ステップA4)。
 ルールの極小性判定手段24において、すべてのフリーアイテムセット(free itemset)α、及び属性xの組合せに対して、上記チェックが終了していない場合、ステップA2に戻る。
 上記チェックが完了した時、ルール発見アルゴリズムは終了する。この結果、それまでに得られた極小(minimal)なルール(approximate CFD)が出力装置4に出力されている。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、最初にフリーアイテムセット(free itemset)を列挙することで、全てのapproximate CFDの条件部の候補を列挙し、条件部及び帰結部を固定して、前提部の属性集合を深さ優先探索にて探索するため、必要とするメモリ容量の増大を抑えることができる。またapproximate CFD候補の生成が最小限に抑えられ、ルールを効率よく発見することが可能になる。
 次に、具体的な実施例を用いて本実施の形態の動作を説明する。図3(B)(以下の表1)に示すように、例えば、データベース記憶部31には、以下の表1の属性・タプルからなるデータ集合が登録されている。なお、データベースの例は、あくまで説明のために簡易化した例である。図3(A)は、図2のステップに対応して、フリーアイテムセット(frequent free itemsets)、アイテムx=属性1、2、3のルール(CFD)候補の具体例を例示したものである。図3(C)は、図2の計算の結果、出力装置4から出力されたルール(approximate CFD)の一例を示す図である。なお、図3において、“属性1:_”、“属性1:1”等の記号:は、“属性1=_”、“属性1=1”の記号=と同義(同一)である。
<表1>
Figure JPOXMLDOC01-appb-I000001
 フリーアイテムセット(free itemset)生成手段21は、上記の表1、及びパラメータとしてk=2、p=0.66を受け取る。ここで、kは妥当なルールと判定するための頻度の下限、pは確信度の下限である。そして、データベース中の出現頻度がk=2以上である、すべてのフリーアイテムセット(free itemset)のリスト{empty(4),“属性1=1”(2),“属性2=P”(3),“属性3=S”(2),“属性3=T”(2)}(括弧の中の数値はそのitemsetの頻度)を抽出する(図2、図3(A)のステップA1)。出現頻度がk以上のフリーアイテムセット(free itemset)を「frequent free itemset」ともいう。
 この5つのフリーアイテムセット(free itemset)を、サイズの昇順にソートすることで、empty(空)が最初に現れる(図3(A)のステップA1のfrequent free itemsets参照)。
 ルール候補生成手段22は、続いて、属性1、2、3を、それぞれ帰結部xに持つルール候補を生成する。
 ルール候補生成手段22において、
x=属性1(帰結部)に対しては、条件部となるフリーアイテムセット(free itemset)αをemptyとして、深さ優先探索を行い、前提部β=属性3としたルール(CFD)
ψ:“属性3:_”→“属性1:_”(頻度=4、確信度=0.75)
が生成される。
 また、条件部となるフリーアイテムセット(free itemset)αを“属性3=S”として、深さ優先探索を行い、
前提部“β=empty”としたルール(CFD)
ψ:“属性3:S”→”属性1:1”(頻度=2、確信度=1)
が生成される。
 同様に、x=属性2(帰結部)に対して、
条件部となるフリーアイテムセット(free itemset)αをemptyとして、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ:empty→”属性2:P”(頻度=3、確信度=0.75)
が生成される。
 また、x=属性2(帰結部)に対して、条件部となるフリーアイテムセット(free itemset)αを“属性3=T”として、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ’:“属性3:T”→“属性2:P”
が生成される(ただし、極小(minimal)ではない)。
 x=属性3(帰結部)に対しては、条件部となるフリーアイテムセット(free itemset)α=emptyに対して、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ:“属性1:_”→“属性3:_”(頻度=4、確信度=1)
ψ:“属性2:_”→“属性3:_”(頻度=4、確信度=0.75)
が生成される。
 また、x=属性3(帰結部)に対しては、条件部となるフリーアイテムセット(free itemset)αを“属性1=1”として、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ:“属性1:1”→“属性3:S” (頻度=2、確信度=1)
が生成される。さらに、
αを“属性2=P”として、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ:“属性2:P”→“属性3:T”(頻度=2、確信度=0.667)
が生成される(図2、図3(A)のステップA2)。
 図2、図3(A)のステップA2で生成されたルールについて、それらが生成された直後に、極小性の判定を行う。具体的には、
ψ:“属性3:_”→“属性1:_”
については、ルール自体が極小である。
ψ:“属性3:S”→“属性1:1”
については、
条件部から、唯一のアイテム(item)を除いて得られるCFD
ψ’:empty→“属性1:1” 
が妥当ではないため、極小である。
 さらに
ψ:empty→“属性2:P”
も極小である。
ψ’:“属性3:T”→“属性2:P” 
は、既知のルール
ψ:empty→“属性2:P”に対して冗長であるため、極小ではなく、出力を行わない。
 他のCFD 
ψ:“属性1:_”→“属性3:_”、
ψ:“属性2:_”→“属性3:_”
はルール自体が極小である。
ψ:“属性1:1”→“属性3:S”、
ψ:“属性2:P”→“属性3:T” 
は、条件部から唯一のアイテム(item)を除いて得られるCFD
empty→“属性3:S”、
empty→“属性3:T” 
は妥当ではないため、それぞれ極小であり、出力装置4に出力する(図2、図3(A)のステップA4)。
<実施の形態2>
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。図4を参照すると、本実施の形態は、ルール発見用プログラム5を備える。ルール発見用プログラム5は、データ処理装置6に読み込まれ、データ処理装置6の動作を制御する。データ処理装置6はルール発見用プログラム5の制御により以下の処理、すなわち第1の実施の形態におけるデータ処理装置2による処理と同一の処理、を実行する。
 入力装置1からユーザの興味が与えられると、まず、記憶装置3内のデータベース記憶部31に記憶されているデータベースを用い、初期ルール候補の生成を行う。次に、生成されたルール候補が妥当であるかチェックし、そうならば、そのルールをリストに追加する。
 リストに保存されたルールの集合により、データベースのカバー度が打ち切り条件を満たした時、リスト内のルール集合を、出力装置4に表示させる。
 なお、上記の特許文献、非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施例の各要素、各図面の各要素等を含む)の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
1 入力装置
2、6 データ処理装置
3 記憶装置
4 出力装置
5 ルール発見用プログラム
21 フリーアイテムセット(free itemset)生成手段
22 ルール候補生成手段
23 ルールの妥当性判定手段
24 ルールの極小性判定手段
31 データベース記憶部

Claims (10)

  1.  データベースを記憶する記憶装置と、
     データ処理装置と、
     出力装置と、
     を備え、
     前記データ処理装置は、
     前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成するフリーアイテムセット生成手段と、
     ルール候補として、
     条件部を、前記フリーアイテムセットとし、
     帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
     前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持するルール候補生成手段と、
     前記ルール候補生成手段により生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定手段と、
     前記ルールの妥当性判定手段で妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、前記出力装置に出力するルールの極小性判定手段と、
     を備えた、ことを特徴とするルール発見システム。
  2.  前記ルール候補生成手段は、前記条件部を前記フリーアイテムセットとし、前記帰結部を前記条件部に含まれない属性に固定した上で、前記前提部の属性集合を、深さ優先探索で求める、ことを特徴とする請求項1記載のルール発見システム。
  3.  前記ルールの極小性判定手段は、
     前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して、前記ルールを前記出力装置に出力し、
     前記ルールの妥当性判定手段で妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを、前記出力装置に出力しない、
     ように制御する、ことを特徴とする請求項1又は2記載のルール発見システム。
  4.  前記頻度の閾値と前記確信度の閾値を、設定パラメータとして入力する入力装置を備えている、ことを特徴とする請求項1又は2記載のルール発見システム。
  5.  前記ルールは、CFD(Conditional Functional Dependency)で表現されたルールである、ことを特徴とする請求項1乃至4のいずれか1項に記載のルール発見システム。
  6.  フリーアイテムセット生成手段と、ルール候補生成手段と、妥当なルール候補生成手段と、ルールの極小性判定手段とを備えたデータ処理装置により、データベースからルールを発見するにあたり、
    (a)前記フリーアイテムセット生成手段が、前記データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶し、
    (b)前記ルール候補生成手段は、ルール候補として、
     条件部を、前記フリーアイテムセットとし、
     帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
     前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持し、
    (c)前記ルールの妥当性判定手段は、前記ルール候補生成手段で生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定し、
    (d)前記ルールの極小性判定手段は、前記妥当なルール候補生成手段によって妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、出力装置に出力する、ことを特徴とするルール発見方法。
  7.  前記ルール候補生成手段は、前記条件部を前記フリーアイテムセットとし、前記帰結部を前記条件部に含まれない属性に固定した上で、前記前提部の属性集合を、深さ優先探索で求める、ことを特徴とする請求項6記載のルール発見方法。
  8.  前記ルールの極小性判定手段は、前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して前記出力装置に出力し、
     前記ルールの妥当性判定手段で妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを前記出力装置に出力しない、ことを特徴とする請求項6又は7記載のルール発見方法。
  9. (a)データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶する処理と、
    (b)ルール候補として、
     条件部を、前記フリーアイテムセットとし、
     帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
     前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持する処理と、
    (c)前記生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定する処理と、
    (d)前記妥当であると判定されたルールに対して、極小であるか否か判定し、極小である場合、出力装置に出力する処理と、
     をコンピュータに実行させるプログラム。
  10.  データベースを読み出し、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成するフリーアイテムセット生成手段と、
     ルール候補として、条件部をフリーアイテムセットとし、帰結部を前記条件部に含まれない属性に固定し、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない前記前提部の属性集合を深さ優先探索で求めたルールを、記憶部に保持するルール候補生成手段と、
     前記ルール候補生成手段により生成された前記ルールを前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定手段と、
     前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して出力装置に出力し、前記妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを前記出力装置に出力しないルールの極小性判定手段と、
     を備えた、ことを特徴とするルール発見装置。
PCT/JP2013/063319 2012-05-14 2013-05-13 ルール発見システムと方法と装置並びにプログラム WO2013172310A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/115,532 US8972363B2 (en) 2012-05-14 2013-05-13 Rule discovery system, method, apparatus and program
JP2013544930A JP5532189B2 (ja) 2012-05-14 2013-05-13 ルール発見システムと方法と装置並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-110923 2012-05-14
JP2012110923 2012-05-14

Publications (1)

Publication Number Publication Date
WO2013172310A1 true WO2013172310A1 (ja) 2013-11-21

Family

ID=49583715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/063319 WO2013172310A1 (ja) 2012-05-14 2013-05-13 ルール発見システムと方法と装置並びにプログラム

Country Status (3)

Country Link
US (1) US8972363B2 (ja)
JP (1) JP5532189B2 (ja)
WO (1) WO2013172310A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3736774A1 (en) 2019-05-09 2020-11-11 Fujitsu Limited Rule presentation method, storage medium, and rule presentation apparatus

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183163B2 (en) 2012-06-27 2015-11-10 Ubiquiti Networks, Inc. Method and apparatus for distributed control of an interfacing-device network
US9158805B1 (en) * 2013-03-12 2015-10-13 Amazon Technologies, Inc. Statistical data quality determination for storage systems
WO2015030741A1 (en) * 2013-08-28 2015-03-05 Hewlett-Packard Development Company, L.P. Distributed pattern discovery
US10324923B1 (en) 2014-11-10 2019-06-18 Amazon Technologies, Inc. Detecting variations in data characteristics
TWI634441B (zh) * 2016-11-29 2018-09-01 財團法人工業技術研究院 關聯法則之擴充方法、應用其之裝置及電腦可讀取媒體

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058974A (ja) * 2004-08-17 2006-03-02 Fujitsu Ltd 作業管理方式
US20100250596A1 (en) * 2009-03-26 2010-09-30 Wenfei Fan Methods and Apparatus for Identifying Conditional Functional Dependencies

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110749A (ja) 1992-09-30 1994-04-22 Toshiba Corp デ―タベ―スの再構成システム
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
US6061682A (en) * 1997-08-12 2000-05-09 International Business Machine Corporation Method and apparatus for mining association rules having item constraints
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
US6236978B1 (en) * 1997-11-14 2001-05-22 New York University System and method for dynamic profiling of users in one-to-one applications
JP3905540B2 (ja) 2002-10-18 2007-04-18 富士通株式会社 ルールベース管理装置
US7277873B2 (en) * 2003-10-31 2007-10-02 International Business Machines Corporaton Method for discovering undeclared and fuzzy rules in databases
JP4312143B2 (ja) * 2004-10-29 2009-08-12 富士通株式会社 ルール発見プログラム、ルール発見方法およびルール発見装置
US8527446B2 (en) * 2009-11-09 2013-09-03 International Business Machines Corporation Information integrity rules framework
US8700577B2 (en) * 2009-12-07 2014-04-15 Accenture Global Services Limited GmbH Method and system for accelerated data quality enhancement
JP5834566B2 (ja) * 2011-07-15 2015-12-24 株式会社リコー 情報処理装置、プログラム、及び情報表示装置
US8666919B2 (en) * 2011-07-29 2014-03-04 Accenture Global Services Limited Data quality management for profiling, linking, cleansing and migrating data
GB2508573A (en) * 2012-02-28 2014-06-11 Qatar Foundation A computer-implemented method and computer program for detecting a set of inconsistent data records in a database including multiple records

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058974A (ja) * 2004-08-17 2006-03-02 Fujitsu Ltd 作業管理方式
US20100250596A1 (en) * 2009-03-26 2010-09-30 Wenfei Fan Methods and Apparatus for Identifying Conditional Functional Dependencies

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3736774A1 (en) 2019-05-09 2020-11-11 Fujitsu Limited Rule presentation method, storage medium, and rule presentation apparatus

Also Published As

Publication number Publication date
JPWO2013172310A1 (ja) 2016-01-12
JP5532189B2 (ja) 2014-06-25
US20140250092A1 (en) 2014-09-04
US8972363B2 (en) 2015-03-03

Similar Documents

Publication Publication Date Title
JP5532189B2 (ja) ルール発見システムと方法と装置並びにプログラム
US11204707B2 (en) Scalable binning for big data deduplication
US20160196342A1 (en) Plagiarism Document Detection System Based on Synonym Dictionary and Automatic Reference Citation Mark Attaching System
US10482246B2 (en) Binary search of byte sequences using inverted indices
JP5194818B2 (ja) データ分類方法およびデータ処理装置
US20140082183A1 (en) Detection and handling of aggregated online content using characterizing signatures of content items
AU2012203538A1 (en) Systems and methods for inter-object pattern matching
JP2013149061A (ja) 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
Wang et al. HEEL: exploratory entity linking for heterogeneous information networks
WO2013172309A1 (ja) ルール発見システムと方法と装置並びにプログラム
Yang et al. Integrating PPI datasets with the PPI data from biomedical literature for protein complex detection
Mathew et al. Efficient information retrieval using Lucene, LIndex and HIndex in Hadoop
US9542502B2 (en) System and method for XML subdocument selection
JP2014186425A (ja) 文章マスク装置及び文章マスクプログラム
JP2018060379A (ja) 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置
JP2012027525A (ja) ファイル格納補助システムと方法およびプログラム
US10489466B1 (en) Method and system for document similarity analysis based on weak transitive relation of similarity
WO2014208728A1 (ja) ルール発見方法と情報処理装置並びにプログラム
WO2013172308A1 (ja) ルール発見システムと方法と装置並びにプログラム
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP2018018279A (ja) 文書検索装置及びプログラム
Schmidberger et al. MrGrid: a portable grid based molecular replacement pipeline
Roskosch et al. Dynamic sampling for visual exploration of large dense-dense matrices
Shinde et al. Detection of Distinct URL and Removing DUST Using Multiple Alignments of Sequences
Xie Scalable Mining of Large Graphs and Its Applications

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2013544930

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14115532

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13791340

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13791340

Country of ref document: EP

Kind code of ref document: A1