WO2014208728A1 - ルール発見方法と情報処理装置並びにプログラム - Google Patents

ルール発見方法と情報処理装置並びにプログラム Download PDF

Info

Publication number
WO2014208728A1
WO2014208728A1 PCT/JP2014/067188 JP2014067188W WO2014208728A1 WO 2014208728 A1 WO2014208728 A1 WO 2014208728A1 JP 2014067188 W JP2014067188 W JP 2014067188W WO 2014208728 A1 WO2014208728 A1 WO 2014208728A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
attribute
rule
database
item
Prior art date
Application number
PCT/JP2014/067188
Other languages
English (en)
French (fr)
Inventor
裕貴 中山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2015524134A priority Critical patent/JPWO2014208728A1/ja
Publication of WO2014208728A1 publication Critical patent/WO2014208728A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

 属性が連続値である属性を含むデータベースから適切かつ有用なルールを発見可能とする。記憶装置に記憶されたデータベースにアクセスし、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記属性値のとり得る範囲や分布に応じた少なくとも1つの代表点と前記属性値との類似度を計算し、連続値属性の属性値を、前記代表点の値と前記類似度の組で置き換えたウェイテッドデータベースを生成し、該ウェイテッドデータベースに対して、ルール発見を行う。

Description

ルール発見方法と情報処理装置並びにプログラム
 [関連出願についての記載]
 本発明は、日本国特許出願:特願2013-134698号(2013年 6月27日出願)に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
 本発明は、データ集合からルール発見方法とルール発見を行う情報処理装置並びにプログラムに関する。
 データ集合からのルールの発見について概説する。ここでは、ルールを相関ルールとして表現するものとする。相関ルールとは、ある事象(Xとする)の下である事象(Y)が発生する関係(常に発生するというのではなく、例えば一定の確率で発生する)を表し、X→Yと表される。矢印の左辺(Left Side Hand)のXを「条件部」(前提部ともいう)、矢印の右辺(Right Hand Side)を「帰結部」と呼ぶ。相関ルールを発見する装置は、例えば、相関ルールの候補を生成し、該相関ルールの候補がデータベースの内容に合致しているか判定する計算装置(ルール発見アルゴリズムを実行する処理装置)と、発見された相関ルールを保存する記憶装置と、データベースの内容に合致していると判定された相関ルールを前記記憶装置に保存する保存手段を備えている。
 計算装置は、生成された相関ルール候補が、データベースの内容に対して支持度(ルールと関係のあるレコードの個数:ルールが登場する頻度)や確信度(ルールと関係のあるレコードのうち、ルールを満たすレコードの割合)が与えられた閾値以上であるか調べ、条件を満たす場合、妥当な相関ルールとして出力する。
 ルールとして例えばCFD(Conditional Function Dependency:条件付関数従属性)を発見する装置も同様の構成とされる。CFDルールの候補から、データベースの内容に合致したCFDルールを出力する。以下、CFDについて概説する。CFDは、データ属性間の従属性を表す関数従属性(Functional Dependency:「FD」と略記される)が、条件によって指定されたタプル集合について成立することを表すルールである。ルールの左辺(LHS:Left Hand Side)である条件部・前提部と、ルールの右辺(RHS:Right Hand Side)の帰結部における属性値の指定からなる。タプルは関係を表(テーブル)で表した場合の1つの行(属性は列)に対応する。
 条件部は、データの部分集合(タプル集合)を指定し、属性Xが属性値xであるということを「X=x」と表す。ここで、「x」は属性値がある特定の値であることを意味する。このような、属性値の表現を「Constantである」という(なお、「Constant」は例えば「定数」を意味する)。
 前提部は属性のみの指定からなり、属性値は特定の値をとらない(すなわち、任意の値とマッチすることを表すワイルドカード)ことを「X=_」と表す。このような属性値の表現を「バリアブル(Variable)である」という(「Variable」は例えば「変数」を意味する)。ここで、‘_’は「unnamed variable」(無名変数)ともいう。
 帰結部には、
(A)属性と属性値の指定からなるもの(例えば、以下のルール1)と、
(B)属性のみを指定するもの(例えば、以下のルール2)
の2種類ある。
(A)の場合、例えば「A=a」、
(B)の場合、例えば「A=_」等と表される。なお、帰結部に、属性値の指定がある場合には、前提部は省略することができる。また、前提部、帰結部は、複数の属性とそれぞれの属性値の指定からなることもある。以下にルールの例を示す。
ルール1: X1→A(x1||a)
ルール2: X1,X2→A(x1,_||_)
 ルール1は、「属性X1が属性値x1のとき、属性Aは属性値aである」という意味のルールである。ルール1が成り立つとき、条件部に当てはまるタプル集合において、帰結部が指定された値であることを表す。つまり、条件X1=x1を満たすタプル集合の全てのタプルにおいて、t[A]=aである(なお、t[A]は、属性Aのタプルを表している)。このように、帰結部が指定された値に決まるルールを「コンスタントCFD(Constant CFD)」という。
 ルール2は、「属性X1が属性値x1のとき、属性X2によって属性Aが決まる」という意味のルールである。ルール2が成り立つとき、条件部に当てはまるタプル集合において、前提部と帰結部で指定された属性間に従属性があることを表す。つまり、条件「X1=x1」を満たすタプル集合の中の任意のタプルペアt1、t2について、t1[X2]=t2[X2]であれば、t1[A] = t2[A]となる。このように帰結部が指定された値に決まらないが、属性間に従属性を持つようなルールを「バリアブルCFD(Variable CFD)」という。すなわち、パタンタプルの||の右側がunnamed variable‘_’の場合(tp[A]=_)、バリアブルCFD(Variable CFD)という。
 ルール1のパタンタプル(x1 || a)における記号‘||’は、左辺のX1と右辺のAの属性値を分離する。なお、ルール1の“X1→A(x1||a)”を、“(X→A,(x||a))”と表記する例もあるが、外側の括弧とカンマの有無が相違するだけであり、同一のルールを表すものであることは自明である。同様に、ルール2の“X1,X2→A(x1,_||_)”を“([X1,X2]→A,(x1,_||_))”と表記する例もある。
 与えられたデータに対してCFDがどれだけ有効なルールであるかを示す指標として、例えば支持度(Support)や確信度(Confidence)が用いられる。CFD φ(X→A、tp)の支持度(Support)は、φのパタンにマッチするタプル数である。確信度(Confidence)は条件部・前提部にマッチするタプル数の中でCFDのルールが成立するタプル数の割合である。
 複数のCFDが与えられた時、「left-reduced」(レフト・レデュースト)であり、且つ、「most-general」(モスト・ジェネラル)である、という2つの条件を満たすCFDを、「minimal」(ミニマル)であるという。
 まず「left-reduced」について説明する。複数のCFDが与えられた時、いかなるCFDの左辺(LHS)の属性セットも、他のCFDの左辺の属性セットを包含しないCFDを、「left-reduced」であるという。例えば、以下のルール3、ルール4が与えられた時、ルール4の左辺(X1,X2)は、ルール3の左辺(X1)を包含している(X1⊂X1,X2)ことから、ルール4は「left-reduced」ではない。逆に、ルール3の左辺(X1)は、ルール4の左辺(X1,X2)を包含していないので、ルール3は「left-reduced」であるという。この場合、ルール4は、ルール3に対して冗長なCFDとして削除することができる。
ルール3:X1,Y→A(x1,_||_)
ルール4:X1,X2,Y→A(x1,x2||_)
 次に、「most-general」について説明する。複数のCFDが与えられた時、いかなるCFDの左辺に含まれる属性値の定数も‘_’(Variable)に更新できない場合、「most-general」であるという。
 例えば、以下のルール5、ルール6が与えられた時、ルール6の属性値x2をVariable(‘_’)に置き換える(更新する)ことで、ルール5が得られる。このため、ルール6は「most-general」ではない。逆に、ルール5は、「most-general」であるという。この場合、ルール6はルール5に対して冗長なCFDとして削除することができる。
ルール5:X1,X2→A(x1,_||a)
ルール6:X1,X2→A(x1,x2||a)
 確信度・支持度の定義のもとでのルールを発見する手法として例えばCFDMinerがある(例えば特許文献1や非特許文献1参照)。CFDMinerはconstantなCFDを発見する。
 一般的なデータベースでは、1つのフィールドに1つの値が(確率1で)存在するが、複数の値の候補がその確率分布とともに与えられているデータベースとして例えばULDBが知られている(非特許文献2)。
 トランザクションデータベース(Transaction Database)の各アイテムが0以上1以下の確率で生起するものを「Uncertain Transaction Database」と言う。非特許文献3には、Uncertain Transaction Databaseの頻出アイテムを列挙する手法が開示されている。
米国特許出願公開第2010/0250596号明細書
Fan et al., "Discovering Conditional Functional Dependencies," in ICDE, 2009 Benjelloun et al., "ULDBs: Databases with Uncertainty and Lineage," in VLDB, 2006 Bernecker et al., "Probabilistic Frequent Pattern Growth for Itemset Mining in Uncertain Databases," in SSDBM, 2012
 関連技術の分析を以下に与える。
 非特許文献1に記載された手法では、値が連続値(例えば距離等)をとる属性について、殆どの値が互いに異なるものとなる。このため、各属性値の出現頻度が小さくなり、例えばルールの支持度(頻度)が与えられた閾値以上とならず、ルール発見装置で有用なルールを得ることができない。
 また、ルール発見装置では、属性値が僅かに異なる場合も、大きく異なる場合も、ともに、「異なる」とだけ判断される。
 そこで、この問題を解決するために、連続値の値域を、複数の区間に区切り、各区間の値を1つにまとめる「離散化」手法について考察する。
 離散化の場合、区間の境界で分離された2つの近接した値がそれぞれ別の値と解釈されてしまう、という問題が生じる。例えば当該境界を間に挟んで近接する2つの値は、本来、該2つの値が近接しているため同一(区間)として扱うべきところ、ルール発見装置では、当該境界で区分された異なる区間に属する別々の値と解釈する。あるいは、連続値の値域に対して適切な区間を設定すること自体が難しい場合がある。このため、ルール発見装置で的確かつ有用なルールを得ることは困難である。
 したがって、本発明は上記問題点に鑑みて創案されたものであって、その目的は、値が連続値をとる属性を含むデータから適切かつ有用なルールの発見を可能とする装置、方法、プログラムを提供することにある。
 本発明に関連するいくつかの側面(aspect)の1つによれば(側面1)、記憶装置に記憶された第1のデータベースにアクセスし、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記連続値属性の属性値のとり得る範囲や分布に対応した少なくとも1つの代表点と、前記属性値との類似度を計算し、前記連続値属性の前記属性値を、前記代表点と前記類似度の組で置き換えた第2のデータベースを生成するデータベース生成部を備えた情報処理装置(データ処理システム)が提供される。
 別の側面の1つによれば(側面2)、情報処理装置を用いて第1のデータベースからルールを発見するにあたり、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記連続値属性の属性値のとり得る範囲や分布に対応した少なくとも1つの代表点と、前記属性値との類似度を計算し、前記連続値属性の前記属性値を、前記代表点と前記類似度の組で置き換えた第2のデータベースを生成する方法が提供される。
 さらに別の側面の1つによれば(側面3)、記憶装置に記憶された第1のデータベースにアクセスし、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記連続値属性の属性値のとり得る範囲や分布に対応した少なくとも1つの代表点と、前記属性値との類似度を計算し、前記連続値属性の前記属性値を、前記代表点と前記類似度の組で置き換えた第2のデータベースを生成する処理を、コンピュータに実行させるプログラムが提供される。さらに別の側面の1つによれば(側面4)、上記側面3のプログラムを記憶したコンピュータ読み出し可能な記憶媒体(半導体ストレージ、磁気/光記録媒体)が提供される。
 本発明によれば、値が連続値をとる属性を含むデータから適切かつ有用なルール発見を可能としている。
本発明の第1の実施の形態の構成を例示する図である。 本発明の第1の実施の形態の動作を説明する流れ図である。 本発明の第1の実施の形態の動作の具体例を説明する図である。 本発明の第1の実施の形態の動作の具体例を説明する図である。 本発明の第2の実施の形態の構成を例示する図である。
 本発明のいくつかの好ましい態様によれば、記憶装置に記憶された第1のデータベースにアクセスし、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記連続値属性の属性値のとり得る範囲や分布に対応した1つ又は複数の代表点と、前記属性値との類似度を計算し、前記連続値属性の前記属性値を、前記代表点と類似度の組で置き換えた第2のデータベース(weighted DB)を生成するデータベース生成部(図1の21)を備えている。好ましい形態によれば、さらに、属性と値のペアからなるアイテムであって、前記第2のデータベースでの頻度が、予め定められた所定値以上のアイテム集合を生成するアイテムセット生成部(図1の22)と、前記生成されたアイテム集合からあるアイテムを条件部、別のアイテムを帰結部として、前記第2のデータベースでの支持度と確信度がそれぞれ、与えられた第1の値と第2の値に等しいか上回るルール候補を生成するルール候補生成部(図1の23)と、前記生成されたルール候補から冗長なルールを除外するルールの極小性判定部(図1の24)を備えた構成としてもよい。
 アイテムセット生成部(図1の22)は、第2のデータベース(weighted DB)において、前記連続値属性と前記代表点のペアからなるアイテムの頻度を、前記代表点に対応する前記類似度を用いて算出する構成としてもよい。またルール候補生成部(図1の23)は、前記連続値属性と前記代表点のペアからなるアイテムを条件部及び/又は帰結部に含むルール候補の支持度、確信度の算出に、前記代表点に対応する前記類似度を用いる構成としてもよい。
 本発明の基本原理を説明する。本発明の好ましい態様において、ルール発見処理を実行する装置(情報処理装置、データ処理装置)には、例えば、ユーザが入力したパラメータに加えて、データベースの属性の部分集合である、連続値属性集合(属性値が連続値をとる属性の集合)や、連続分布の代表値の個数t、類似度関数fが入力される。類似度関数fは、例えば2つの値が近いほど1に近づき、遠いほど0に近づくものであれば、適宜、任意の関数が用いられる。なお、データの分布の特徴を1つの値で代表させたときの値を代表値という(記述統計量の1つ)。データの分布の特徴を1つの値で代表させたものとして、例えば、平均(mean)、中央値(median)、最頻値(mode)等がある。あるいは四分位値(小さい方から1/4、3/4の第1、第3四分位値:中央値は第2四分位値)等も用いられる。本発明において、代表点は、上記代表値に限定されるものでなく、連続属性の属性値のとり得る範囲(値域)やその分布に対応して、1つ又は複数個設定される。
 ルール発見処理では、まず、各連続属性について、その属性値分布に基づき、t個の代表点を計算する。t個の代表点の各々の値と元の属性値との類似度を、類似度関数fから求め、代表点の値と類似度の組を生成し、データベースに格納する。類似度をデータに対する重みとして利用することから、このデータベースを、本明細書では、重みデータベース(ウェイテッド・データベース:weighted DB)という。
 ルール発見処理では、作成されたウェイテッド・データベース(weighted DB)に対して、既存の定義を拡張して得られる支持度、確信度の閾値を満たすルールを計算し、連続値を含むデータ集合に対するルールを得る。例えば、ルールが成立するレコード(タプル)数の計算(確信度の計算)に、類似度(1に正規化されている)を用いる。
 本発明によれば、連続値を含む属性を有するデータ集合に対して成り立つ自然なルールを得ることができる。前述した離散化による手法では、例えば多くの値が密集している部分に区間の境界を置いた場合、境界を間に挟んで近接する2つの値が、別々の区間に分かれてしまい、有用なルールが得られない、という問題がある。これに対して、本発明によれば、連続属性値の分布等に対応して選択された代表点と連続属性値との類似度を用意した上で、ルール発見を行うことで、この問題を解消することができる。以下、実施形態について説明する。
<実施形態1>
 次に、本発明の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施の形態は、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置などの出力装置4を含む。
 記憶装置3は、データベース記憶部31を備えている。データベース記憶部31には、ルールを抽出するためのデータベースが記憶されている。
 データ処理装置2は、ウェイテッド・データベース(weighted DB)生成部(手段、装置)21と、フリーアイテムセット(free itemset)生成部(手段、装置)22と、妥当なルール候補生成部23(手段、装置)と、ルールの極小性判定部(手段、装置)24とを備える。
 ウェイテッド・データベース(weighted DB)生成部21は、入力装置1から入力されたパラメータ:
・連続値属性集合r’、
・代表点の個数t、
・類似度関数f
を用いて、データベース記憶部31に記憶されたデータベースから、ウェイテッド・データベース(weighted DB)を生成する。なお、生成されたウェイテッド・データベースの各フィールドに対して重みの和が1となるような正規化を行いULDB(Uncertainty Lineage Database)(非特許文献2参照)として扱うこともできる。図1の連続値属性集合r’⊆attr(r)のattr(r)は、関係スキーマ(relation schema)rが属性集合(set of attributes)上で定義されているものとして当該属性集合を表しており、r’⊆attr(r)は、連続値属性集合r’が属性集合attr(r)の部分集合であることを意味している。
 本実施形態では、ウェイテッド・データベース生成部21に代表点の個数tを入力し、ウェイテッド・データベース生成部21側で、入力した代表点の個数tに基づき、t個の代表点の値を決定しているが、t個の代表点の選択の仕方に関する情報あるいはt個の代表点の値そのものをウェイテッド・データベース生成部21に入力する構成としてもよい。
 また図1では、ウェイテッド・データベース生成部21は、説明の簡単のため、生成したウェイテッド・データベース(weighted DB)を記憶装置3のウェイテッド・データベース(weighted DB)記憶部32に記憶しているが、かかる構成に制限されるものでないことは勿論である。ウェイテッド・データベース生成部21は、生成したウェイテッド・データベースを、データ処理装置2内の不図示の記憶部に格納するようにしてもよい。
 フリーアイテムセット生成部22は、入力装置1から与えられたパラメータ(支持度の閾値k・確信度の閾値p)を用い、ウェイテッド・データベース生成部21で生成されたウェイテッド・データベースから、フリーアイテムセット(free itemset)を生成する。ここで、フリーアイテムセット(free itemset)とは、任意の1つ以上のアイテムを除去することで、頻度が真に増加してしまうアイテム集合のことである。
 妥当なルール候補生成部23は、フリーアイテムセット生成部22によって生成されたフリーアイテムセットのうちのあるアイテムを条件部とし、当該アイテムと属性を共有しないアイテムを帰結部とするルール候補を生成する。そして、妥当なルール候補生成部23は、このルール候補が、ウェイテッド・データベース(weighted DB)に関して、妥当なルール(例えば支持度がk以上であり、かつ確信度がp以上のルール)であるか否かをチェックし、妥当と判断したルール候補をリストLに加えて保存する。妥当なルール候補生成部23は、リストLを記憶する記憶部(不図示)を有する。なお、リストLは、例えば線形リストで構成してもよい。線形リストはデータとポインタとが入った要素をポインタでつないだものであり、最後尾の要素のポインタには例えば「Null」(0)が記憶される。ただし、ルール候補を記憶部で記憶するデータ構造は線形リストに制限されるものでないことは勿論である。例えば配列(一次元配列)等であってもよい。
 ルールの極小性判定部24は、妥当なルール候補生成部23によって生成されたルールが極小(minimal)である場合、出力装置4に出力を行う。「極小である」(minimal)とは、ルールの条件部から任意の1つ以上のアイテムを除去することで得られるルールが、どれも妥当ではない、ということを意味する。
 具体的には、ルールの極小性判定部24は、妥当なルール候補生成部23で得られたルール候補を、サイズの昇順にソートしてリストL中に格納しておき、先頭から順にルールの候補を取り出して出力する。さらに、ルールの極小性判定部24は、リストLの中に含まれ、今取り出したルールに対して冗長なルールを除去することで、極小でないルールの除去を行う。
 次に、図1と図2の流れ図を参照して本実施形態の動作について詳細に説明する。
 ウェイテッド・データベース(weighted DB)生成部21は、入力装置1から与えられたパラメータ(連続値属性集合r’、代表点の個数t、類似度関数f)、および、データベース記憶部31に記憶されたデータベースの内容から、ウェイテッド・データベースを生成する(ステップA1)。ウェイテッド・データベース(weighted DB)生成部21は、生成したウェイテッド・データベースを例えばウェイテッド・データベース(weighted DB)記憶部32に記憶する。
 フリーアイテムセット(free itemset)生成部22は、入力装置1から与えられたパラメータである支持度(サポート)の閾値k、確信度の閾値p、およびステップA1で生成されたウェイテッド・データベース(weighted DB)から、頻度がパラメータk以上であるすべてのフリーアイテムセット(free itemset)を抽出する(ステップA2)。頻度がk以上のフリーアイテムセットをフリークエント・フリーアイテムセット(frequent free itemset)ともいう。ここで、頻度とは、アイテムセットに対応付けられて保持されている重み(離散属性の属性値の重みは1とする)の和である。
 妥当なルール候補生成部23は、フリーアイテムセット(free itemset)生成部22が生成したフリーアイテムセットから、妥当なルール候補を生成する。具体的には、フリーアイテムセットαに対して、αと属性を共有しないアイテムをxとし、αの頻度と、αに1つのアイテムxを加えたアイテムセット(itemset) α+{x}の頻度とを計算する(ステップA3)。
 妥当なルール候補生成部23は、
α+{x}の頻度≧k、かつ、
確信度:(α+{x}の頻度)/(αの頻度)≧p
が成り立つか否かを判定する(ステップA4)。
 妥当なルール候補生成部23は、上記条件が成り立つとき(ステップA4のYes分岐)、
 constant CFD ψ:α→x
を、妥当なルール候補としてリストLに追加し(ステップA5)、つづいてステップA6の判定を行う。
 妥当なルール候補生成部23は、上記条件が成り立たないとき(ステップA4のNo分岐)、ステップA5をスキップし、ステップA6の判定を行う。
 妥当なルール候補生成部23は、ステップA6において、全てのα、xの組み合わせに対して上記条件を充足するか否かのチェックが終了したか判定し、全てのα、xの組み合わせに対してチェックが終了していない場合、ステップA3に戻り、ステップA3からの処理を繰り返す。ステップA6において、全てのα、xの組み合わせに対してチェックが終了している場合、ステップA7のルールの極小性判定部24の処理に移る。なお、ステップA4における頻度、確信度の判定において、頻度≧k、確信度≧pとしているが、閾値の設定値によっては、等号を含まずより大(>)で判定してもよい(頻度>k、確信度>p)。
 次に、ルールの極小性判定部24は、妥当なルール候補生成部23によりリストLに追加されたルール候補について、ルールが極小なもの(minimal)であるか否かのチェックを行う。より具体的には、ルールの極小性判定部24は、要素がサイズ(CFDの条件部のアイテムの個数)の昇順にソートする(ステップA7)。
 次に、ルールの極小性判定部24は、昇順にソートされたリストLの先頭から、ルールを順に取り出し、該ルールを出力する(ステップA8)。
 ルールの極小性判定部24は、リストLに含まれているルール候補の中で、ステップA8で取り出したルールに対して冗長なものを除去する(ステップA9)。
 ルールの極小性判定部24は、ステップA8、A9の処理をリストLが空になるまで繰り返し(ステップA10のNo分岐)、リストLが空の場合(ステップA10のYes分岐)、処理を終了する。
<作用効果>
 上記した本実施形態によれば、連続値属性の属性値のとり得る範囲や分布から得られる1つ又は複数の代表点に基づき、連続属性の属性値を、代表点とその類似度で置き換えて得られたウェイテッド・データベースから抽出されたルールに対して支持度、確信度の計算を行う構成としている。本実施形態によれば、代表点と類似度を用いてルールの発見を行うため、例えば区間の境界で分かれる2つの近接した値がそれぞれ別の値と解釈されてしまい有用なルールを発見できない、という問題を解消することができる。また、連続値をとる属性について、殆どの値が互いに異なるものとなり、各属性値の出現頻度が小さくなり、有用なルールが得られないという問題も解消することができる。
<実施例1>
 次に具体例を用いて説明する。なお、実施例1の装置構成、動作は図1、図2を参照して説明した前記実施形態と同一である。実施例1では、図3(A)に示すように、データベース記憶部31には以下の属性・タプルからなるデータ集合が登録されている。
[表1]データベース記憶部31

Figure JPOXMLDOC01-appb-I000001
 ウェイテッド・データベース生成部21は、上記の表1および、入力パラメータとして、図3(B)に示すように、
連続値属性r’(手当)、
代表点の個数(2)、
類似度関数:
Figure JPOXMLDOC01-appb-I000002
を受け取る。
 特に制限されないが、ウェイテッド・データベース生成部21は、2つの代表点t1、t2をそれぞれ20000、40000と定める(図3(C))。t1=20000、t2=40000は、値域(0,60000)(属性値のとり得る範囲)を3等分する2つの点である。なお、代表点の個数=2を入力する代わりに、代表点の個数とともに代表点の選択の仕方の情報(例えば属性値のとり得る範囲を3等分する等)又はその値そのもの(例えばt1=20000、t2=40000)をウェイテッド・データベース生成部21に入力する構成としてもよい。
 ウェイテッド・データベース生成部21は、上記類似度関数に基づき、図3(D)及び以下の表2のウェイテッド・データベース(weighted DB)を生成する。
 例えばタプル1の手当x=29000に関して、
代表点t1=20000との類似度は、
1 - |29000 - 20000| /60000=1-0.15=0.85、
代表点t2=40000との類似度は、
1 - |29000 - 40000| /60000≒1-0.18=0.82、
と求まる。
 また、例えばタプル2の手当x=59000に関して、
代表点t1=20000との類似度は、
1 - |59000 - 20000| /60000=1-0.65=0.35、
代表点t2=40000との類似度は、
1 - |59000 - 40000| /60000≒1-0.32=0.68
と求まる。他も同様にして求められる(図3(D)、表2)。
 なお、図3(D)(以下の表2)のウェイテッド・データベース(weighted DB)において、各タプル1乃至4の手当の欄の2つ代表点20000、40000に付随する括弧内の数値は、当該代表点に対する当該タプルの手当の類似度である。
[表2]ウェイテッド・データベース(weighted DB)

Figure JPOXMLDOC01-appb-I000003
 フリーアイテムセット生成部22は、ウェイテッド・データベースと、パラメータとして、支持度(頻度)閾値k=1、確信度閾値p=0.7を受け取る。ここで、kは、妥当なルールと判定するための支持度(頻度)の下限(閾値)、pは確信度の下限(閾値)である。
 フリーアイテムセット生成部22は、データベース中の出現頻度がk=1以上である、すべてのフリーアイテムセットを列挙する(図3(E)参照)。
 フリーアイテムセットの中の1つである「会社:A社」は、図3(D)のウェイテッド・データベース(weighted DB)において、2つのタプル1、2で出現しているため、頻度は2となる(支持度=2)。これを、図3(E)では、“(会社=A社):2”として表している。
 また、アイテム「手当:20000」は、図3(D)のウェイテッド・データベース(weighted DB)において、4つのタプルでそれぞれ、0.85、0.35、0.68、0.82の頻度で出現していると看做すことができ、これらの総和は、2.7となる。同様に、図3(E)のアイテム「手当:40000」は、図3(D)の4つのタプルにおいて、0.82、0.68、0.35、0.85の頻度で出現してとしている看做すことができ、これらの総和は2.7となる。
 アイテム(会社=A社)をルールの条件部とし、アイテム「手当:40000」をルールの帰結部とすると、2つのアイテム「会社:A社」、「手当:40000」の頻度は、
会社がA社であるタプル1について、0.82、
会社がA社であるタプル2について、0.68、
の和1.5となる。
 したがって、ルール「会社:A社→手当:40000」の支持度は1.5、確信度は、1.5/2=0.75となる。すなわち、確信度は、ルールの条件部(「会社:A社」)がマッチするタプル数(=2)の中で、当該ルール「会社:A社→手当:40000」が成立するタプル数(0.82+0.68=1.5)の割合=1.5/2=0.75として求められる。
 妥当なルール候補生成部23は、ルール「会社:A社→手当:40000」の支持度(=1.5)が閾値k(=1)より大であり、確信度(=0.75)が閾値p(=0.7)より大であるため、このルール「会社:A社→手当:40000」をルール候補としてリストLに加える。同様にして、妥当なルール候補生成部23は、支持度が1.5、確信度が0.75のルール「会社:B社→手当:20000」をルール候補としてリストLに加える(図3(F)参照)。
 これ以外に、パラメータの条件を満たすルールは存在しない。例えば、図3(E)の「会社:A社→手当:20000」、「会社:B社→手当:40000」の支持度は1.2、確信度は1.2/2=0.6となり、確信度が閾値p(=0.7)より小であるため、リストLに出力されない。また、アイテム「手当:40000」をルールの条件部とし、アイテム「会社:A社」をルールの帰結部としたルール「手当:40000→会社:A社」は、確信度が1.5/2.7=0.56となり、条件を満たさず(確信度が閾値p(=0.7)よりも小である)、リストLに出力されない。
<実施例2>
 次に別の具体例について説明する。なお、実施例2の装置構成、動作は、実施例1同様、図1、図2を参照して説明した前記実施形態と同一である。この実施例では、図4(A)に示すように、データベース記憶部31には、以下の表3の属性・タプルからなるデータ集合が登録されている。
[表3]データベース記憶部31

Figure JPOXMLDOC01-appb-I000004
 ここで、得点の分布は、平均μ=50、標準偏差σ=10の正規分布であるものとする。
 図1のウェイテッド・データベース生成部21は、上記の表、およびパラメータとして、
支持度の閾値k、確信度の閾値p、
連続値属性(得点)、
代表点の個数(3)、
類似度関数:
Figure JPOXMLDOC01-appb-I000005
(但し、F(・)は正規分布の累積密度関数(累積分布関数))
を受け取る(図4(B)参照)。
 平均μ、標準偏差σの正規分布:
Figure JPOXMLDOC01-appb-I000006
に対する累積分布関数F(・)は以下で与えられる。
Figure JPOXMLDOC01-appb-I000007
 ただし、erf(・)は、誤差関数であり、以下で与えられる。
Figure JPOXMLDOC01-appb-I000008
 特に制限されないが、3つの代表点として、分布の代表値である平均値μと、μ-σ、μ+σである、t1=40、t2=50、t3=60と定め(図4(C)参照)、ウェイテッド・データベース生成部21は、上式(2)の類似度関数に基づき、ウェイテッド・データベースを生成する(図4(D)、以下の表4参照)。なお、ウェイテッド・データベース生成部21に、代表点の個数3を入力する代わりに、3つの代表点の選択の仕方(例えばμ、およびμ±σを選択すること)を、ウェイテッド・データベース生成部21に入力する構成としてもよい。図4(D)、表4の各タプルにおいて、3つの代表点40、50、60に付随する括弧内の数値は、もとの得点と当該代表点との類似度である。
 なお、特に制限されないが、以下では、累積分布関数F(・)の値は、
 z=(x-μ)/σ            ・・・(6)
で変数変換したzについて値を求めるものとする。この例では、μ=50、σ=10である。
 例えば、タプル1では、代表点40、50、60に対するA氏の点55の類似度を求めるにあたり、式(6)から、代表点t1:40、t2:50、t3:60に対応するzの値はそれぞれ、-1、0、+1であり、A氏の得点x:55に対応するzの値は0.5である。したがって、タプル1のA氏の得点55と代表点40の類似度は、
1 - |F(0.5)-F(-1)|で与えられる。正規分布表から、
F(-1)=0.1578、
F(0.5)=0.1915+0.5=0.6915
が得られる。したがって、
1 - |F(0.5)-F(-1)|=1 - |0.6915-0.1578|=1-0.5337=0.4663≒0.46
と求まる。
 また、得点55と代表点50、60の類似度は、F(0)=0.5、F(1)=0.5+0.3413から、それぞれ、
1-|F(0.5) - F(0)|=1-|0.1915-0|=0.8085≒0.80、
1-|F(0.5) -F(1)|=1-|0.6915-0.8413|=1-0.1498=0.8502≒0.85
と求まる。以上により、代表点と類似度の対(40, 0.46)、(50, 0.80)、(60, 0.85)が求まる(図4(D)、下記表4のタプル1参照)。他のタプルの代表点と類似度の対も同様にして計算される。
[表4]ウェイテッド・データベース(weighted DB)

Figure JPOXMLDOC01-appb-I000009
 フリーアイテムセット生成部22は、ウェイテッド・データベース、およびパラメータとして支持度閾値k=1、確信度閾値p=0.8を受け取り、ウェイテッド・データベース中の出現頻度がk=1以上である、すべてのフリーアイテムセットを列挙する(図4(E)参照)。
 その中の1つである「人物:A氏」の出現頻度は、2つのタプル1、2において出現しているため、2となる。アイテム「人物:A氏」をルールの条件部とし、アイテム「得点:50」をルールの帰結とすると、2つのアイテム「人物:A氏」、「得点:50」の頻度は、
人物がA氏であるタプル1について0.80、
人物がA氏であるタプル2について0.80
の和の1.6となる。
 ルール「人物:A氏→得点:50」の支持度は1.6、確信度は1.6/2=0.8となる。妥当なルール候補生成部23では、ルール「人物:A氏→得点:50」が条件(支持度>k=1、確信度>p=0.8)を満たすため、リストLに加える。妥当なルール候補生成部23は、他にも同様にして、支持度が2.51、確信度が2.51/3=0.84のルール「人物:B氏→得点:60」をリストLに加える。他にはパラメータの条件を満たすルールが存在しない。例えば、「得点:50→人物:A氏」は、確信度が1.6/3.77=0.42となり、確信度>p=0.8を満たさない。このため、妥当なルール候補生成部23は、処理を終了する。
<実施形態2>
 次に第2の実施形態について説明する。図5を参照すると、本発明の第2の実施の形態の情報処理装置(システム)は、データ処理装置(コンピュータ、プロセッサ)6、入力装置1、出力装置4、データベース記憶部31を備えた記憶装置3、ルール発見用プログラム5を備えている。ルール発見用プログラム5(記憶媒体に保持される)は、データ処理装置(コンピュータ、プロセッサ)6に読み込まれ、データ処理装置6の動作を制御する。データ処理装置6は、ルール発見用プログラム5の制御により以下の処理、すなわち前記第1の実施形態におけるデータ処理装置2による処理(図1のウェイテッド・データベース生成部21、フリーアイテムセット生成部22、妥当なルール候補生成部23、ルールの極小性判定部24の各処理)と同一の処理を実行する。ウェイテッド・データベース生成処理の実行により、記憶装置3に、ウェイテッド・データベースを格納するようにしてもよい。すなわち、記憶装置3は、図1に示したウェイテッド・データベース(Weighted DB)記憶部32を備えた構成としてもよい。
 上記実施形態の図2等では、CFDルール発見を例に説明したが、本発明はルールとしてCFDルールに制限されるものでなく、相関ルール、FD(関数従属性)ルール等に適用可能である。
 なお、上記の特許文献、非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ乃至選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
5 ルール発見用プログラム
6 データ処理装置
21 ウェイテッド・データベース生成部
22 フリーアイテムセット生成部
23 妥当なルール候補生成部
24 ルールの極小性判定部
31 データベース記憶部
32 ウェイテッド・データベース記憶部

Claims (10)

  1.  記憶装置に記憶された第1のデータベースにアクセスし、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、
     前記連続値属性の属性値のとり得る範囲や分布に対応した少なくとも1つの代表点と、前記属性値との類似度を計算し、
     前記連続値属性の前記属性値を、前記代表点と前記類似度の組で置き換えた第2のデータベースを生成するデータベース生成部を備えた、ことを特徴とする情報処理装置。
  2.  属性と値のペアからなるアイテムであって、前記第2のデータベースでの頻度が、予め定められた所定値以上のアイテム集合を生成するアイテムセット生成部と、
     前記生成されたアイテム集合から、あるアイテムを条件部とし、別のアイテムを帰結部として、前記第2のデータベースでの支持度と確信度がそれぞれ、与えられた第1の値と第2の値に等しいか上回るルール候補を生成するルール候補生成部と、
     前記生成されたルール候補から冗長なルールを除外するルールの極小性判定部と、
     を備えた、ことを特徴とする請求項1記載の情報処理装置。
  3.  前記アイテムセット生成部は、前記連続値属性と前記代表点のペアからなるアイテムの頻度を、前記代表点に対応する前記類似度を用いて算出し、
     前記ルール候補生成部は、前記連続値属性と前記代表点のペアからなるアイテムを条件部及び/又は帰結部に含むルール候補の支持度及び確信度の算出に、前記代表点に対応する前記類似度を用いる、ことを特徴とする請求項2記載の情報処理装置。
  4.  前記ルール候補生成部は、前記アイテム集合からルール候補を生成するにあたり、
     アイテムセットαに対して、前記αと属性を共有しないアイテムをxとし、αの頻度と、αに1つのアイテムxを加えたアイテムセットα+{x}の頻度を計算し、
     α+{x}の頻度が、与えられた前記第1の値以上であり、且つ、
     確信度=(α+{x}の頻度)/(αの頻度)が、与えられた前記第2の値以上である、という条件が成り立つとき、
     αを条件部、xを帰結部とするルール:α→xを、妥当なルール候補として出力する、ことを特徴とする請求項2又は3記載の情報処理装置。
  5.  情報処理装置を用いて第1のデータベースからルールを発見するにあたり、
     前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記連続値属性の属性値のとり得る範囲や分布に対応した少なくとも1つの代表点と、前記属性値との類似度を計算し、
     前記連続値属性の前記属性値を、前記代表点の値と類似度の組で置き換えた第2のデータベースを生成する、ことを特徴とするルール発見方法。
  6.  属性と値のペアからなるアイテムであって、前記第2のデータベースでの頻度が、予め定められた所定値以上のアイテム集合を生成し、
     前記生成されたアイテム集合からあるアイテムを条件部、別のアイテムを帰結部として、前記第2のデータベースでの支持度と確信度がそれぞれ、与えられた第1の値と第2の値に等しいか上回るルール候補を生成し、
     前記生成されたルール候補から冗長なルールを除外する、ことを特徴とする請求項5記載のルール発見方法。
  7.  前記連続値属性と前記代表点のペアからなるアイテムの頻度を、前記代表点に対応する前記類似度を用いて算出し、
     前記連続値属性と前記代表点のペアからなるアイテムを条件部及び/又は帰結部に含むルール候補の支持度及び確信度の算出に、前記代表点に対応する前記類似度を用いる、ことを特徴とする請求項6記載のルール発見方法。
  8.  記憶装置に記憶された第1のデータベースにアクセスし、前記第1のデータベースに含まれる、属性値が連続値をとる連続値属性に対して、前記連続値属性の属性値のとり得る範囲や分布に対応した少なくとも1つの代表点と、前記属性値との類似度を計算し、前記連続値属性の属性値を、前記代表点の値と類似度の組で置き換えた第2のデータベースを生成する処理を、コンピュータに実行させるプログラム。
  9.  属性と値のペアからなるアイテムであって、前記第2のデータベースでの頻度が、予め定められた所定値以上のアイテム集合を生成する処理と、
     前記生成されたアイテム集合からあるアイテムを条件部、別のアイテムを帰結部として、前記第2のデータベースでの支持度と確信度がそれぞれ、与えられた第1の値と第2の値に等しいか上回るルール候補を生成する処理と、
     前記生成されたルール候補から冗長なルールを除外する処理と、
     を前記コンピュータに実行させる請求項8記載のプログラム。
  10.  前記アイテム集合を生成する処理は、前記連続値属性と前記代表点のペアからなるアイテムの頻度を、前記代表点に対応する前記類似度を用いて算出し、
     前記ルール候補を生成する処理は、前記連続値属性と前記代表点のペアからなるアイテムを条件部及び/又は帰結部に含むルール候補の支持度及び確信度の算出に、前記代表点に対応する前記類似度を用いる請求項9記載のプログラム。
PCT/JP2014/067188 2013-06-27 2014-06-27 ルール発見方法と情報処理装置並びにプログラム WO2014208728A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015524134A JPWO2014208728A1 (ja) 2013-06-27 2014-06-27 ルール発見方法と情報処理装置並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013134698 2013-06-27
JP2013-134698 2013-06-27

Publications (1)

Publication Number Publication Date
WO2014208728A1 true WO2014208728A1 (ja) 2014-12-31

Family

ID=52142053

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/067188 WO2014208728A1 (ja) 2013-06-27 2014-06-27 ルール発見方法と情報処理装置並びにプログラム

Country Status (2)

Country Link
JP (1) JPWO2014208728A1 (ja)
WO (1) WO2014208728A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200019741A (ko) * 2018-01-22 2020-02-24 가부시끼가이샤 히다치 세이사꾸쇼 데이터 분석 지원 시스템 및 데이터 분석 지원 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09251470A (ja) * 1996-03-14 1997-09-22 Omron Corp データベース検索方法及び装置
JP2000242651A (ja) * 1999-02-18 2000-09-08 Mitsubishi Electric Corp データマイニング方法およびデータマイニング装置
WO2006057105A1 (ja) * 2004-11-26 2006-06-01 Osaka University 記号及び数値バスケット分析方法と記号及び数値バスケット分析装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09251470A (ja) * 1996-03-14 1997-09-22 Omron Corp データベース検索方法及び装置
JP2000242651A (ja) * 1999-02-18 2000-09-08 Mitsubishi Electric Corp データマイニング方法およびデータマイニング装置
WO2006057105A1 (ja) * 2004-11-26 2006-06-01 Osaka University 記号及び数値バスケット分析方法と記号及び数値バスケット分析装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAKOTO TSUKADA ET AL.: "Comparison of MDLP and AIC on Discretization of Numerical Attributes", DAI 42 KAI SPECIAL INTERNET GROUP ON KNOWLEDGE- BASED SOFTWARE SHIRYO, 27 January 1999 (1999-01-27), pages 45 - 52 *
TAKASHI WASHIO ET AL.: "Comparison and Evaluation of KDD Methods with Common Medical Datasets", JOURNAL OF JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 15, no. 5, 1 September 2000 (2000-09-01), pages 759 - 767 *
YUSUKE FUJITA ET AL.: "An Efficient Mining Method for Episode Rules using Approximate Informative Basis", IPSJ SIG NOTES, vol. 2003, no. 30, 15 March 2003 (2003-03-15), pages 25 - 29 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200019741A (ko) * 2018-01-22 2020-02-24 가부시끼가이샤 히다치 세이사꾸쇼 데이터 분석 지원 시스템 및 데이터 분석 지원 방법
KR102312685B1 (ko) 2018-01-22 2021-10-15 가부시끼가이샤 히다치 세이사꾸쇼 데이터 분석 지원 시스템 및 데이터 분석 지원 방법

Also Published As

Publication number Publication date
JPWO2014208728A1 (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
US11763175B2 (en) Systems and methods for semantic inference and reasoning
da Cruz Nassif et al. Document clustering for forensic analysis: An approach for improving computer inspection
US10579661B2 (en) System and method for machine learning and classifying data
JP5817531B2 (ja) 文書クラスタリングシステム、文書クラスタリング方法およびプログラム
Papadakis et al. Eliminating the redundancy in blocking-based entity resolution methods
Yun et al. Efficient mining of maximal correlated weight frequent patterns
Malik et al. Hierarchical document clustering using local patterns
Shahbazi et al. Representation bias in data: a survey on identification and resolution techniques
JP5532189B2 (ja) ルール発見システムと方法と装置並びにプログラム
Leung et al. Finding efficiencies in frequent pattern mining from big uncertain data
Rafea et al. Classification of a COVID-19 dataset by using labels created from clustering algorithms
Tayal et al. A new MapReduce solution for associative classification to handle scalability and skewness in vertical data structure
WO2014208728A1 (ja) ルール発見方法と情報処理装置並びにプログラム
Surendran et al. A scalable geometric algorithm for community detection from social networks with incremental update
Kanellopoulos et al. k-Attractors: a partitional clustering algorithm for numeric data analysis
Tamrakar High utility itemsets identification in big data
JP6733481B2 (ja) 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置
Jamsheela et al. SR-mine: Adaptive transaction compression method for frequent itemsets mining
CN112540973A (zh) 一种基于关联规则的网络可视化方法
WO2013172309A1 (ja) ルール発見システムと方法と装置並びにプログラム
Hao et al. Mis-categorized entities detection
Yang et al. A study of interestingness measures for associative classification on imbalanced data
Lin et al. Maintaining the discovered high-utility itemsets with transaction modification
Kim et al. (p, n)-core: Core Decomposition in Signed Networks
Kumar et al. Weighted Frequent Subgraph Mining Using Affinity Weighing in Distributed Environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14817120

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015524134

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14817120

Country of ref document: EP

Kind code of ref document: A1