WO2013172310A1 - ルール発見システムと方法と装置並びにプログラム - Google Patents
ルール発見システムと方法と装置並びにプログラム Download PDFInfo
- Publication number
- WO2013172310A1 WO2013172310A1 PCT/JP2013/063319 JP2013063319W WO2013172310A1 WO 2013172310 A1 WO2013172310 A1 WO 2013172310A1 JP 2013063319 W JP2013063319 W JP 2013063319W WO 2013172310 A1 WO2013172310 A1 WO 2013172310A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- rule
- database
- attribute
- free
- item set
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Definitions
- the present invention relates to a technique for discovering rules, and particularly to a system, method, apparatus, and program for discovering database rules.
- the discovery of the rules in the database is to express the rules as CFD (Conditional Function Dependency), and output CFD rules that match the contents of the database from the generated CFD rule candidates.
- CFD Consumer Function Dependency
- CFD is a rule indicating that a function result part (abbreviated as “FD”) representing a result part between data attributes is established for a tuple set specified by a condition. It consists of the specification of attribute values in the condition part and premise part which are the left side of the rule (LHS: LeftLeHand Side) and the consequent part of the right side of the rule (RHS: Right Hand Side).
- LHS LeftLeHand Side
- RHS Right Hand Side
- the condition part and the result part are also called a conditional clause and a subordinate clause, respectively.
- x means that the attribute value is a specific value.
- Such an expression of the attribute value is referred to as “constant” (note that “constant” means, for example, “constant”).
- X _
- Such an expression of the attribute value is referred to as “variable” (“Variable” means, for example, “variable”).
- “_” is also referred to as “unnamed” variable.
- a rule that has a result part between attributes, although the result part is not determined to be specified in this way, is called “variable CFD” (variable CFD). That is, when the right side of the pattern
- is “unnamed variable” ‘_’ (tp [A] _), it is referred to as variable CFD.
- the support level is the number of tuples in which the condition part and the premise part of the CFD coincide.
- the confidence level is the ratio of the number of tuples in which the CFD rule is satisfied among the number of tuples in which the condition part and the premise part match.
- any CFD left side (LHS) attribute set is said to be “left-reduced” for a CFD that does not contain the other CFD left side attribute set.
- rule 4 when the following rule 3 and rule 4 are given, the left side of rule 4 includes the left side of rule 3 (X1 ⁇ X1, X2), so rule 4 is “left-reduced” Absent. Conversely, the left side of rule 3 does not include the left side of rule 4, so rule 3 is said to be “left-reduced”. In this case, rule 4 can be deleted as redundant CFD with respect to rule 3.
- rule 5 when the following rule 5 and rule 6 are given, rule 5 can be obtained by replacing the attribute value x2 of rule 6 with Variable. For this reason, rule 6 is not “most-general”. Conversely, rule 5 is said to be “most-general”. In this case, rule 6 can be deleted as a redundant CFD with respect to rule 5.
- An apparatus for discovering a rule from a database includes a storage unit (storage unit) such as a magnetic disk for storing CFD, and a calculation unit (calculation unit) that generates a CFD candidate and determines whether the CFD candidate matches the contents of the database. ) And a storage unit (storage unit) that stores the CFD determined to match the contents in the storage device.
- the storage means stores the CFD obtained by the rule discovery algorithm.
- the calculation means generates a CFD candidate to be checked, checks whether it matches the contents of the database, and if it matches, outputs it as a valid CFD.
- the storage means stores the obtained valid CFD in the storage device.
- a method of generating constant CFD (constant CFD) candidates from a free itemset and a corresponding closed itemset (2) A list of attribute-value pairs is generated by breadth-first search (Breadth First Search), one of which is a dependent term (A) and the rest is a conditional part (X), Formula: X ⁇ A Generating CFD candidates by obtaining (3) A free item set is a conditional item (condition part), and one attribute that is not included in the free items set is placed in a subordinate item (consecutive part), and the other is a conditional item.
- a free item set (free ⁇ itemset) is a set of items, and the frequency is truly increased by removing any one or more items.
- An attribute-value pair appearing in the database is called an “item”, and a set of items is called an item set.
- Non-Patent Document 2 uses breadth-first search (breadth first search) as a discovery method for rules (CFD) that do not completely match the contents of the database but have high confidence (confidence).
- CFD rules
- a method for finding a CFD (confidence) equal to or higher than a threshold (hereinafter referred to as “approximate CFD”) (“substantially valid” CFD) is disclosed.
- Patent Literature 1 discloses a rule base for storing a rule including a condition part and a conclusion part, a case information database for storing case information related to a rule application result, a rule, and a rule.
- the case search unit searches the case information set from the case information database using the relation part that associates case information that satisfies the conditions and the condition part of the rule to be validated as a key, and the conclusion part of the rule is satisfied in the case information set
- a rule base management device including a validity check unit that calculates a proportion of case information and checks validity of the rule based on the proportion.
- Patent Document 2 discloses a configuration in which a function consequent part (FD) between relation attributes is found and normalization is performed by relation division.
- FD function consequent part
- the first problem is that the CFD obtained by the CFD discovery algorithm disclosed in Non-Patent Document 1 is completely established for the database, that is, the confidence factor is only 1, and You can't list things that are “substantially valid”.
- the second problem is that the calculation time of the “approximate ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ CFD” discovery algorithm disclosed in Non-Patent Document 2 is extremely long. This is because the number of CFD (approximate CFD) candidates generated for a large-scale database, particularly with a large number of attributes, causes a combinational explosion.
- the present invention was devised in view of the above problems, and its purpose is a system and apparatus capable of efficiently obtaining a set of rules useful for grasping or correcting the contents of a database. It is to provide a method and a program.
- a storage device for storing a database, a data processing device, and an output device.
- the data processing device includes items that are attribute-value pairs in the database.
- Free item set generation means for generating a free item set having a frequency equal to or higher than a predetermined threshold value;
- the condition part is the free item set,
- the consequence part is an item that does not share attributes with the free item set of the condition part,
- a rule candidate generating means for generating a rule having the premise part as an attribute not included in the free item set of the condition part or the item of the consequent part and holding the rule part in a storage part;
- the rule generated by the rule candidate generating unit is compared with the database, and when it matches with a predetermined certainty threshold or higher, the rule validity determining unit determines that the rule is valid. It is determined whether or not the rule determined to be appropriate by the rule validity determining means is minimal, and if it is minimal, the rule minimality determining means for outputting to the output device is provided.
- a rule is found from a database by a data processing device comprising free item set generation means, rule candidate generation means, valid rule candidate generation means, and rule minimality determination means.
- the free item set generation means reads the database and includes items that are attribute-value pairs in the database, and the free item set having a frequency in the database equal to or higher than a predetermined threshold value.
- the rule candidate generation means is a rule candidate,
- the condition part is the free item set,
- the consequence part is an item that does not share attributes with the free item set of the condition part, Generate a rule with the premise part as an attribute that is not included in the free item set of the condition part or the item of the consequent part, and hold it in the storage part
- the rule validity determination means is valid if the rule generated by the rule candidate generation means is checked against the database and matches with a predetermined certainty threshold or more. Judge that there is,
- the rule minimality determining means determines whether or not the rule is determined to be appropriate by the appropriate rule candidate generating means, and outputs the output to the output device if it is minimum.
- a rule discovery method is provided.
- a rule finding program for causing a computer to execute is provided.
- a memory device semiconductor storage
- a database is read, and a free item set including items that are attribute-value pairs in the database and having a frequency in the database equal to or higher than a predetermined threshold is generated.
- Free item set generation means As a rule candidate, the condition part is a free item set, the result part is fixed to an attribute not included in the condition part, and the premise that is not included in the free item set of the condition part or the item of the result part
- Rule candidate generation means for storing a rule obtained by depth-first search for the attribute set of a part in a storage unit;
- the rule candidate generated by the rule candidate generating means is checked against the database, and when the generated rule matches with a predetermined certainty threshold or more, the rule is A means for judging the validity of a rule that is judged to be valid; If the rule itself determined to be valid by the rule validity judgment means is minimal, or if the rule obtained by removing one item from the condition part of the rule is not valid, it is determined to be minimal. If the rule determined to be valid is redundant with
- FIG. 3 is a flowchart showing the operation of the first exemplary embodiment of the present invention. It is a figure for demonstrating the specific example of operation
- a set ofapproximate CFD that matches the contents of the database is calculated. More specifically, a free item that calculates a free item set (free ⁇ itemset) based on the contents of the database (database stored in the database storage unit 31 in FIG. 1) and the parameters given from the input device (1 in FIG. 1).
- the rule validity determination unit (rule validity determination means 23 in FIG. 1) for determining whether or not the rule candidate is valid and the obtained valid rule are redundant with respect to the already obtained valid rule.
- a rule minimality determination unit (rule minimality determination unit 24 in FIG. 1) for checking whether or not the item is not a particular one.
- a free item set consisting of items that are attribute-value pairs in a database, wherein the frequency in the database is equal to or higher than a predetermined threshold (frequent free) items) and a rule (CFD) candidate as the free item set ( ⁇ ) as a condition part and share attributes with the free item set
- a rule candidate generation unit (rule candidate generation unit 22 in FIG. 1) that generates a rule having an item (x) not to be processed as a consequent unit and generates a rule having an attribute included in neither ⁇ nor x as a premise unit )
- the rule generated by the rule candidate generation unit (22 in FIG. 1) are collated with the database and determined in advance.
- the rule validity determination unit (rule validity determination unit 23 in FIG.
- the rule minimality determining unit (rule minimality determining unit 24 in FIG. 1) is the rule itself validated by the rule validity determining unit (rule validity determining unit 23 in FIG. 1). If the rule obtained by removing only one item from the condition part of the rule is not valid, the rule is determined to be minimal and is output to the output device (4). The validity of the rule When the rule validated by the judging unit (rule validity judging means 23 in FIG. 1) is redundant with respect to a known rule, the rule is not output to the output device (4).
- a candidate that can be a part of a conditional term of a rule (CFD) can be obtained at high speed.
- -The rule (CFD) condition part is a free item set
- -The attribute set of the premise part of the rule (CFD) is obtained by depth first search (DFS).
- DFS depth first search
- the first embodiment of the present invention includes an input device 1 such as a keyboard, a data processing device 2 that operates under program control, a storage device 3 that stores information, a display device, and a printing device.
- the output device 4 is included.
- the storage device 3 includes a database storage unit 31.
- the database storage unit 31 stores in advance a database for extracting rules from itself.
- the data processing apparatus 2 includes a free item set generation unit 21, a rule candidate generation unit 22, a rule validity determination unit 23, and a rule minimality determination unit 24.
- a free item set (free itemset) generation unit 21 uses a parameter (frequency threshold k, confidence threshold p) given from the input device 1, and uses a free item set (free item set) of the database stored in the database storage unit 31. itemset).
- the free item set (free21itemset) generation unit 21 converts the generated free item set (free itemset) into a storage unit (not shown) in the data processing device 2 or a free item set (free itemset) generation unit 21 (not shown).
- the data is stored in a predetermined storage area of the storage unit or the storage device 3.
- An attribute-value pair appearing in the database is called an “item”, and a set of items is called an item set.
- the rule candidate generation means 22 is a rule candidate.
- a free itemset ⁇ generated by the free itemset generating means 21 is used as a condition part, Place an item x that does not share attributes with the free itemset ⁇ in the consequence section,
- a rule that uses a subset ⁇ of attributes not included in the above ⁇ and x as a premise is generated by depth first search (DFS).
- DFS depth first search
- the rule candidate generation unit 22 generates a rule generated as a rule candidate from a storage unit (not shown) in the data processing device 2, a storage unit (not shown) in the appropriate rule candidate generation unit 22, or a predetermined storage unit 3. Store in the storage area.
- the rule validity determination unit 23 checks whether the rule generated by the rule candidate generation unit 22 is a valid rule (for example, a frequency k or a certainty p or more) and is valid. In this case, the rule is passed to the minimality determination means 24 and no further deep search is performed.
- a valid rule for example, a frequency k or a certainty p or more
- the rule minimality determination unit 24 determines whether or not the rule determined to be valid by the rule validity determination unit 23 is minimal, and outputs the output to the output device 4 if the rule is minimal.
- “minimum” means that the CFD obtained by removing an arbitrary item (item) from the condition part or the premise part, and the value of the item (item) in the condition part are changed. It means that none of the CFDs obtained by placing them are valid.
- the parameters (frequency threshold k, certainty threshold p) given from the input device 1 and the contents of the database given from the database storage unit 31 are supplied to a free item set generating means 21.
- the free item set (free itemset) generation unit 21 uses a free item set (free itemset) whose frequency is equal to or greater than the parameter k from attribute-value pairs appearing in the database (this pair is called an item). ) (Frequent free itemset) is extracted (step A1).
- a free item set (free itemset) is a set of items (items), and by removing any one or more items (items), the frequency (frequency) is truly increased. It is.
- free item set (free itemset) generation means 21 After all free item sets (free itemset) are obtained, they are arranged in ascending order of size (the number of items included).
- the rule candidate generation unit 22 generates a rule candidate from each free item set generated by the free item set generation unit 21.
- ⁇ With free itemset ⁇ as the condition part, ⁇ Fix an item x that does not share attributes with the free itemset ⁇
- Rule (CFD) candidate ⁇ : ( ⁇ , ⁇ _) ⁇ x with a subset ⁇ of attributes not included in ⁇ and x as a premise Is generated by performing a depth-first search (DFS) on ⁇ (step A2).
- DFS depth-first search
- the rule validity determination means 23 is the rule (rule candidate) generated by the rule candidate generation means 22.
- ⁇ : ( ⁇ , ⁇ _) ⁇ x Is compared with the database stored in the database storage unit 31 to check whether the rule candidate ⁇ is valid (for example, the certainty of the rule ⁇ is greater than or equal to the set threshold value 0.66) Check if it exists).
- the rule validity determination unit 23 passes the rule candidate ⁇ to the rule minimality determination unit 24, and does not perform a deeper search in the depth-first search (step A2). .
- the rule minimality determination means 24 determines whether or not the rule candidate (approximate CFD whose confidence is equal to or greater than the threshold) ⁇ obtained by the rule validity determination means 23 is minimal. (Step A3).
- the rule minimality determining means 24 outputs the rule candidate ⁇ to the output device 4 (step A4).
- step A2 if the above check is not completed for all combinations of free item set ⁇ and attribute x, the process returns to step A2.
- FIG. 3B Table 1 below
- the database storage unit 31 is registered with a data set composed of the attributes and tuples shown in Table 1 below.
- the database example is a simplified example for the sake of explanation.
- FIG. 3C is a diagram illustrating an example of a rule (approximate CFD) output from the output device 4 as a result of the calculation of FIG.
- k is the lower limit of the frequency for determining that the rule is valid
- p is the lower limit of the certainty factor.
- a free item set (free itemset) with an appearance frequency of k or more is also called “frequent free itemset”.
- the rule candidate generation means 22 subsequently generates rule candidates having attributes 1, 2, and 3 in the consequent part x.
- CFD depth-first search
- the minimality is determined immediately after the rules are generated.
- ⁇ “attribute 3: _”
- attribute 1: _” For, the rule itself is minimal.
- ⁇ ′ “attribute 3: T” ⁇ “attribute 2: P” Is redundant with respect to the known rule ⁇ : empty ⁇ “attribute 2: P”, so it is not minimal and does not output.
- the present embodiment includes a rule discovery program 5.
- the rule discovery program 5 is read into the data processing device 6 and controls the operation of the data processing device 6.
- the data processing device 6 executes the following processing, that is, the same processing as the processing by the data processing device 2 in the first embodiment, under the control of the rule finding program 5.
- an initial rule candidate is generated using a database stored in the database storage unit 31 in the storage device 3.
- the rule set in the list is displayed on the output device 4.
Abstract
Description
本発明は、日本国特許出願:特願2012-110923号(2012年5月14日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
(A)属性と属性値の指定からなるもの(例えば、以下のルール1)と、
(B)属性のみを指定するもの(例えば、以下のルール2)
である。
(B)の場合、例えば「A=_」等と表される。なお、帰結部に、属性値の指定がある場合には、前提部は省略することができる。また、前提部、帰結部は、複数の属性とそれぞれの属性値の指定からなることもある。以下にルールの例を示す。
ルール2:X1, X2 → A(x1, _ || _ )
ルール4: X1,X2,Y→A(x1,x2 || _)
ルール6: X1,X2→A(x1,x2 || a)
(1)フリーアイテムセット(free itemset)と、それに対応するクローズド・アイテムセット(closed itemset)からコンスタントCFD(constant CFD)の候補を生成する手法、
(2)属性と値のペアのリストを、幅優先探索(Breadth First Search)により生成し、そのうちの1つの項を従属項(Aとする)とし、残りを条件部(Xとする)に置き、
式:X→A
を得ることによって、CFDの候補を生成する手法、
(3)フリーアイテムセット(free itemset)を、条件項(条件部)とし、フリーアイテムセット(free itemset)に含まれない1つの属性を従属項(帰結部)に置き、それ以外に条件項に加える属性を深さ優先探索(Depth First Search)することで、CFDの候補を生成する手法、
等がある。
ルール候補として、
条件部を、前記フリーアイテムセットとし、
帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持するルール候補生成手段と、
前記ルール候補生成手段により生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定手段と、
前記ルールの妥当性判定手段で妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、前記出力装置に出力するルールの極小性判定手段と、を備えたルール発見システムが提供される。
(a)前記フリーアイテムセット生成手段が、前記データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶し、
(b)前記ルール候補生成手段は、ルール候補として、
条件部を、前記フリーアイテムセットとし、
帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持し、
(c)前記ルールの妥当性判定手段は、前記ルール候補生成手段で生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定し、
(d)前記ルールの極小性判定手段は、前記妥当なルール候補生成手段によって妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、出力装置に出力する、ルール発見方法が提供される。
(a)データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶する処理と、
(b)ルール候補として、
条件部を、前記フリーアイテムセットとし、
帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持する処理と、
(c)前記生成されたルールを前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定する処理と、
(d)前記妥当であると判定されたルールに対して、極小であるか否か判定し、極小である場合、出力装置に出力する処理と、
をコンピュータに実行させるルール発見プログラムが提供される。本発明によれば、ルール発見プログラムを記録したメモリデバイス(半導体ストレージ)、磁気/光ストレージ媒体(デバイス)が提供される。
ルール候補として、条件部をフリーアイテムセットとし、帰結部を前記条件部に含まれない属性に固定し、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない前記前提部の属性集合を深さ優先探索で求めたルールを、記憶部に保持するルール候補生成手段と、
前記ルール候補生成手段により生成された前記ルール候補を、前記データベースと照合し、前記生成されたルールに対して、予め定められた所定の確信度の閾値以上でマッチしている場合、前記ルールを妥当と判断するルールの妥当性判定手段と、
前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して出力装置に出力し、前記妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを前記出力装置に出力しないルールの極小性判定手段と、
を備えたルール発見装置が提供される。
・ルール(CFD)の条件部を、フリーアイテムセットとし、
・ルール(CFD)の帰結部を、前記条件部に含まれない属性に固定し、
・ルール(CFD)の前提部の属性集合を、深さ優先探索(DFS: Depth First Search)で求める、
ことで、極小なルール(approximate CFD)のみを効率良く得ることができる。すなわち、ユーザがデータベースの内容を把握し、修正を行うために有用なルール(approximate CFD)の集合を、効率よく得ることができる。以下、実施形態に即して説明する。
図1を参照すると、本発明の第1の実施の形態は、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4を含む。
・フリーアイテムセット(free itemset)生成手段21によって生成されたフリーアイテムセット(free itemset)αを条件部とし、
・前記フリーアイテムセット(free itemset)αと属性を共有しないアイテムxを帰結部に置き、
・上記αにもxにも含まれない属性の部分集合βを前提部に置くルールを深さ優先探索(DFS: Depth First Search)で生成する。
・フリーアイテムセット(free itemset)αを条件部とし、
・フリーアイテムセット(free itemset)αと属性を共有しないアイテムxを、帰結部に固定し、
・αにもxにも含まれない属性の部分集合βを前提部に置いたルール(CFD)候補
ψ:(α,β=_)→x
を、βに対して、深さ優先探索(DFS)を行うことで生成する(ステップA2)。
ψ:(α,β=_)→x
を、データベース記憶部31に記憶されているデータベースと照合し、当該ルール候補ψが妥当なものであるかチェックを行う(例えば、当該ルールψの確信度が、設定された閾値0.66以上であるか否かをチェックする)。
x=属性1(帰結部)に対しては、条件部となるフリーアイテムセット(free itemset)αをemptyとして、深さ優先探索を行い、前提部β=属性3としたルール(CFD)
ψ:“属性3:_”→“属性1:_”(頻度=4、確信度=0.75)
が生成される。
前提部“β=empty”としたルール(CFD)
ψ:“属性3:S”→”属性1:1”(頻度=2、確信度=1)
が生成される。
条件部となるフリーアイテムセット(free itemset)αをemptyとして、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ:empty→”属性2:P”(頻度=3、確信度=0.75)
が生成される。
前提部“β=empty”としたルール
ψ’:“属性3:T”→“属性2:P”
が生成される(ただし、極小(minimal)ではない)。
前提部“β=empty”としたルール
ψ:“属性1:_”→“属性3:_”(頻度=4、確信度=1)
ψ:“属性2:_”→“属性3:_”(頻度=4、確信度=0.75)
が生成される。
前提部“β=empty”としたルール
ψ:“属性1:1”→“属性3:S” (頻度=2、確信度=1)
が生成される。さらに、
αを“属性2=P”として、深さ優先探索を行い、
前提部“β=empty”としたルール
ψ:“属性2:P”→“属性3:T”(頻度=2、確信度=0.667)
が生成される(図2、図3(A)のステップA2)。
ψ:“属性3:_”→“属性1:_”
については、ルール自体が極小である。
については、
条件部から、唯一のアイテム(item)を除いて得られるCFD
ψ’:empty→“属性1:1”
が妥当ではないため、極小である。
ψ:empty→“属性2:P”
も極小である。
は、既知のルール
ψ:empty→“属性2:P”に対して冗長であるため、極小ではなく、出力を行わない。
ψ:“属性1:_”→“属性3:_”、
ψ:“属性2:_”→“属性3:_”
はルール自体が極小である。
ψ:“属性2:P”→“属性3:T”
は、条件部から唯一のアイテム(item)を除いて得られるCFD
empty→“属性3:S”、
empty→“属性3:T”
は妥当ではないため、それぞれ極小であり、出力装置4に出力する(図2、図3(A)のステップA4)。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。図4を参照すると、本実施の形態は、ルール発見用プログラム5を備える。ルール発見用プログラム5は、データ処理装置6に読み込まれ、データ処理装置6の動作を制御する。データ処理装置6はルール発見用プログラム5の制御により以下の処理、すなわち第1の実施の形態におけるデータ処理装置2による処理と同一の処理、を実行する。
2、6 データ処理装置
3 記憶装置
4 出力装置
5 ルール発見用プログラム
21 フリーアイテムセット(free itemset)生成手段
22 ルール候補生成手段
23 ルールの妥当性判定手段
24 ルールの極小性判定手段
31 データベース記憶部
Claims (10)
- データベースを記憶する記憶装置と、
データ処理装置と、
出力装置と、
を備え、
前記データ処理装置は、
前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成するフリーアイテムセット生成手段と、
ルール候補として、
条件部を、前記フリーアイテムセットとし、
帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持するルール候補生成手段と、
前記ルール候補生成手段により生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定手段と、
前記ルールの妥当性判定手段で妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、前記出力装置に出力するルールの極小性判定手段と、
を備えた、ことを特徴とするルール発見システム。 - 前記ルール候補生成手段は、前記条件部を前記フリーアイテムセットとし、前記帰結部を前記条件部に含まれない属性に固定した上で、前記前提部の属性集合を、深さ優先探索で求める、ことを特徴とする請求項1記載のルール発見システム。
- 前記ルールの極小性判定手段は、
前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して、前記ルールを前記出力装置に出力し、
前記ルールの妥当性判定手段で妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを、前記出力装置に出力しない、
ように制御する、ことを特徴とする請求項1又は2記載のルール発見システム。 - 前記頻度の閾値と前記確信度の閾値を、設定パラメータとして入力する入力装置を備えている、ことを特徴とする請求項1又は2記載のルール発見システム。
- 前記ルールは、CFD(Conditional Functional Dependency)で表現されたルールである、ことを特徴とする請求項1乃至4のいずれか1項に記載のルール発見システム。
- フリーアイテムセット生成手段と、ルール候補生成手段と、妥当なルール候補生成手段と、ルールの極小性判定手段とを備えたデータ処理装置により、データベースからルールを発見するにあたり、
(a)前記フリーアイテムセット生成手段が、前記データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶し、
(b)前記ルール候補生成手段は、ルール候補として、
条件部を、前記フリーアイテムセットとし、
帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持し、
(c)前記ルールの妥当性判定手段は、前記ルール候補生成手段で生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定し、
(d)前記ルールの極小性判定手段は、前記妥当なルール候補生成手段によって妥当であると判定されたルールに対して極小であるか否か判定し、極小である場合、出力装置に出力する、ことを特徴とするルール発見方法。 - 前記ルール候補生成手段は、前記条件部を前記フリーアイテムセットとし、前記帰結部を前記条件部に含まれない属性に固定した上で、前記前提部の属性集合を、深さ優先探索で求める、ことを特徴とする請求項6記載のルール発見方法。
- 前記ルールの極小性判定手段は、前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して前記出力装置に出力し、
前記ルールの妥当性判定手段で妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを前記出力装置に出力しない、ことを特徴とする請求項6又は7記載のルール発見方法。 - (a)データベースを読み込み、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成して記憶部に記憶する処理と、
(b)ルール候補として、
条件部を、前記フリーアイテムセットとし、
帰結部を、前記条件部の前記フリーアイテムセットと属性を共有しないアイテムとし、
前提部を、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない属性としたルールを生成して記憶部に保持する処理と、
(c)前記生成されたルールを、前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定する処理と、
(d)前記妥当であると判定されたルールに対して、極小であるか否か判定し、極小である場合、出力装置に出力する処理と、
をコンピュータに実行させるプログラム。 - データベースを読み出し、前記データベースにおける属性と値のペアであるアイテムからなり、前記データベースでの頻度が、予め定められた所定の閾値以上のフリーアイテムセットを生成するフリーアイテムセット生成手段と、
ルール候補として、条件部をフリーアイテムセットとし、帰結部を前記条件部に含まれない属性に固定し、前記条件部の前記フリーアイテムセットにも前記帰結部の前記アイテムにも含まれない前記前提部の属性集合を深さ優先探索で求めたルールを、記憶部に保持するルール候補生成手段と、
前記ルール候補生成手段により生成された前記ルールを前記データベースと照合し、予め定められた所定の確信度の閾値以上でマッチしている場合、妥当であると判定するルールの妥当性判定手段と、
前記ルールの妥当性判定手段で妥当であると判定されたルール自体が極小であるか、あるいは、前記ルールの条件部から一つのアイテムを除いて得られるルールが妥当でない場合に、極小と判定して出力装置に出力し、前記妥当であると判定されたルールが、既知のルールに対して冗長である場合には、前記妥当であると判定されたルールを前記出力装置に出力しないルールの極小性判定手段と、
を備えた、ことを特徴とするルール発見装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/115,532 US8972363B2 (en) | 2012-05-14 | 2013-05-13 | Rule discovery system, method, apparatus and program |
JP2013544930A JP5532189B2 (ja) | 2012-05-14 | 2013-05-13 | ルール発見システムと方法と装置並びにプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-110923 | 2012-05-14 | ||
JP2012110923 | 2012-05-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013172310A1 true WO2013172310A1 (ja) | 2013-11-21 |
Family
ID=49583715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/063319 WO2013172310A1 (ja) | 2012-05-14 | 2013-05-13 | ルール発見システムと方法と装置並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8972363B2 (ja) |
JP (1) | JP5532189B2 (ja) |
WO (1) | WO2013172310A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3736774A1 (en) | 2019-05-09 | 2020-11-11 | Fujitsu Limited | Rule presentation method, storage medium, and rule presentation apparatus |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183163B2 (en) | 2012-06-27 | 2015-11-10 | Ubiquiti Networks, Inc. | Method and apparatus for distributed control of an interfacing-device network |
US9158805B1 (en) * | 2013-03-12 | 2015-10-13 | Amazon Technologies, Inc. | Statistical data quality determination for storage systems |
WO2015030741A1 (en) * | 2013-08-28 | 2015-03-05 | Hewlett-Packard Development Company, L.P. | Distributed pattern discovery |
US10324923B1 (en) | 2014-11-10 | 2019-06-18 | Amazon Technologies, Inc. | Detecting variations in data characteristics |
TWI634441B (zh) * | 2016-11-29 | 2018-09-01 | 財團法人工業技術研究院 | 關聯法則之擴充方法、應用其之裝置及電腦可讀取媒體 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006058974A (ja) * | 2004-08-17 | 2006-03-02 | Fujitsu Ltd | 作業管理方式 |
US20100250596A1 (en) * | 2009-03-26 | 2010-09-30 | Wenfei Fan | Methods and Apparatus for Identifying Conditional Functional Dependencies |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110749A (ja) | 1992-09-30 | 1994-04-22 | Toshiba Corp | デ―タベ―スの再構成システム |
JPH0877010A (ja) * | 1994-09-07 | 1996-03-22 | Hitachi Ltd | データ分析方法および装置 |
US6061682A (en) * | 1997-08-12 | 2000-05-09 | International Business Machine Corporation | Method and apparatus for mining association rules having item constraints |
JPH11328186A (ja) * | 1997-11-11 | 1999-11-30 | Mitsubishi Electric Corp | 相関ルール生成方法および相関ルール生成装置 |
US6236978B1 (en) * | 1997-11-14 | 2001-05-22 | New York University | System and method for dynamic profiling of users in one-to-one applications |
JP3905540B2 (ja) | 2002-10-18 | 2007-04-18 | 富士通株式会社 | ルールベース管理装置 |
US7277873B2 (en) * | 2003-10-31 | 2007-10-02 | International Business Machines Corporaton | Method for discovering undeclared and fuzzy rules in databases |
JP4312143B2 (ja) * | 2004-10-29 | 2009-08-12 | 富士通株式会社 | ルール発見プログラム、ルール発見方法およびルール発見装置 |
US8527446B2 (en) * | 2009-11-09 | 2013-09-03 | International Business Machines Corporation | Information integrity rules framework |
US8700577B2 (en) * | 2009-12-07 | 2014-04-15 | Accenture Global Services Limited GmbH | Method and system for accelerated data quality enhancement |
JP5834566B2 (ja) * | 2011-07-15 | 2015-12-24 | 株式会社リコー | 情報処理装置、プログラム、及び情報表示装置 |
US8666919B2 (en) * | 2011-07-29 | 2014-03-04 | Accenture Global Services Limited | Data quality management for profiling, linking, cleansing and migrating data |
GB2508573A (en) * | 2012-02-28 | 2014-06-11 | Qatar Foundation | A computer-implemented method and computer program for detecting a set of inconsistent data records in a database including multiple records |
-
2013
- 2013-05-13 WO PCT/JP2013/063319 patent/WO2013172310A1/ja active Application Filing
- 2013-05-13 JP JP2013544930A patent/JP5532189B2/ja not_active Expired - Fee Related
- 2013-05-13 US US14/115,532 patent/US8972363B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006058974A (ja) * | 2004-08-17 | 2006-03-02 | Fujitsu Ltd | 作業管理方式 |
US20100250596A1 (en) * | 2009-03-26 | 2010-09-30 | Wenfei Fan | Methods and Apparatus for Identifying Conditional Functional Dependencies |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3736774A1 (en) | 2019-05-09 | 2020-11-11 | Fujitsu Limited | Rule presentation method, storage medium, and rule presentation apparatus |
Also Published As
Publication number | Publication date |
---|---|
JPWO2013172310A1 (ja) | 2016-01-12 |
JP5532189B2 (ja) | 2014-06-25 |
US20140250092A1 (en) | 2014-09-04 |
US8972363B2 (en) | 2015-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5532189B2 (ja) | ルール発見システムと方法と装置並びにプログラム | |
US11204707B2 (en) | Scalable binning for big data deduplication | |
US20160196342A1 (en) | Plagiarism Document Detection System Based on Synonym Dictionary and Automatic Reference Citation Mark Attaching System | |
US10482246B2 (en) | Binary search of byte sequences using inverted indices | |
JP5194818B2 (ja) | データ分類方法およびデータ処理装置 | |
US20140082183A1 (en) | Detection and handling of aggregated online content using characterizing signatures of content items | |
AU2012203538A1 (en) | Systems and methods for inter-object pattern matching | |
JP2013149061A (ja) | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム | |
Wang et al. | HEEL: exploratory entity linking for heterogeneous information networks | |
WO2013172309A1 (ja) | ルール発見システムと方法と装置並びにプログラム | |
Yang et al. | Integrating PPI datasets with the PPI data from biomedical literature for protein complex detection | |
Mathew et al. | Efficient information retrieval using Lucene, LIndex and HIndex in Hadoop | |
US9542502B2 (en) | System and method for XML subdocument selection | |
JP2014186425A (ja) | 文章マスク装置及び文章マスクプログラム | |
JP2018060379A (ja) | 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置 | |
JP2012027525A (ja) | ファイル格納補助システムと方法およびプログラム | |
US10489466B1 (en) | Method and system for document similarity analysis based on weak transitive relation of similarity | |
WO2014208728A1 (ja) | ルール発見方法と情報処理装置並びにプログラム | |
WO2013172308A1 (ja) | ルール発見システムと方法と装置並びにプログラム | |
JP5589009B2 (ja) | 推薦クエリ抽出装置及び方法及びプログラム | |
JP2018018279A (ja) | 文書検索装置及びプログラム | |
Schmidberger et al. | MrGrid: a portable grid based molecular replacement pipeline | |
Roskosch et al. | Dynamic sampling for visual exploration of large dense-dense matrices | |
Shinde et al. | Detection of Distinct URL and Removing DUST Using Multiple Alignments of Sequences | |
Xie | Scalable Mining of Large Graphs and Its Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ENP | Entry into the national phase |
Ref document number: 2013544930 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14115532 Country of ref document: US |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13791340 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13791340 Country of ref document: EP Kind code of ref document: A1 |