WO2007043199A1 - 相関ルールを抽出する方法及びシステム - Google Patents

相関ルールを抽出する方法及びシステム Download PDF

Info

Publication number
WO2007043199A1
WO2007043199A1 PCT/JP2006/304354 JP2006304354W WO2007043199A1 WO 2007043199 A1 WO2007043199 A1 WO 2007043199A1 JP 2006304354 W JP2006304354 W JP 2006304354W WO 2007043199 A1 WO2007043199 A1 WO 2007043199A1
Authority
WO
WIPO (PCT)
Prior art keywords
item
database
pattern
attribute
support
Prior art date
Application number
PCT/JP2006/304354
Other languages
English (en)
French (fr)
Inventor
Takahiko Shintani
Yoshitaka Bito
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to US12/089,284 priority Critical patent/US7979473B2/en
Priority to JP2007539808A priority patent/JP4676498B2/ja
Publication of WO2007043199A1 publication Critical patent/WO2007043199A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

 データの欠損を含むデータベースから、同一の属性が欠損するレコード単位に分割したデータベースを処理することによって相関ルールを抽出する。  解析対象の欠損を含むデータベースを同一の属性が欠損するレコードの塊となるようにデータベースを分割する手段、分割されたデータベースの局所的な支持回数からデータベース全体での支持度の上限値を推定することによって支持回数を数え上げるレコードを限定する手段によって欠損を含むデータベースから相関ルールを抽出する。

Description

明 細 書
相関ルールを抽出する方法及びシステム
技術分野
[0001] 本発明は、データベース及びデータウエアハウスを対象にしたデータ解析方法及 びシステムに関し、特にデータベースのレコードを解析してレコードに含まれるデータ の相関性を明らかにするデータマイニングに関する。
背景技術
[0002] 膨大なデータを解析することによってその中に埋もれた有用な情報を抽出するデー タマイニングにおいて、データの相関(連関)を示す相関ルールが知られている。例 えば、スーパーマーケットのバスケットデータのデータマイニングを考えてみる。スー パーマーケットには複数の商品があり、顧客はその一部の商品の組合せを購入する 。顧客が購入した商品の組合せがバスケットデータとして記録される。多数のバスケッ トデータを解析する場合、有意な商品パターン、つまり、複数の顧客に購入した現れ るパターンを抽出することが望ましい。このパターンを頻出パターン (大品目セット,ラ ージ品目セット)と呼ぶ。「商品 Aと商品 Bを同時に購入した顧客は、商品 Cと商品 Dも 同時に購入することが多い。」のような相関ルールが抽出された場合、商品 Cと Dの売 り上げと商品 Aと Bの売り上げに関連があることが分かり、商品の配置や特売品の選 定、価格の設定など販売の方針決定に役立てることが出来る。
[0003] 相関ルールを抽出する研究は、データマイニングの分野において行われてきた。
例えば、特許文献 1、特許文献 2、非特許文献 1に記載の方法がある。特許文献 1、 特許文献 2、非特許文献 1など従来手法では、複数の 2値属性を含むレコードの集合 からなるデータベースから、ユーザによって予め設定された支持度の最小値 (最小支 持度)以上となる属性値が真となる組合せを抽出し、抽出した組合せカゝらユーザによ つて予め設定された確信度の最小値 (最小確信度)以上となる相関ルールを導出し ていた。各々のレコードで、属性と属性値の組を項目と呼ぶ。支持度とは全データべ ース中で項目の組合せを含むレコードの割合である。これら方法により抽出される支 持度の最小値を超える項目の組合せを頻出パターンと呼ぶ。相関ルールは頻出パ ターンに含まれる項目パターンの部分集合力 導出する。これら従来技術では、欠 損データを含まな 、理想的なデータベースを解析対象としており、欠損データを含 むデータベースが考慮されて 、な 、。
[0004] しカゝしながら、解析対象とするデータベースには欠損データが存在する場合がある 。例えば、医療分野における遺伝子解析データの場合、検体の状態、解析する座位 の周辺の遺伝子配列、解析装置の状態によって、遺伝子型が解析出来ない座位が 存在する。患者毎に遺伝子型が解析出来ない座位は異なり、個々の患者においても 遺伝子型を解析出来る座位と解析出来な 、座位が混在する。複数の患者にっ 、て 、遺伝子型が解析出来た座位の遺伝子データと症例データを解析することによって 、有用な情報を得ることが出来る。遺伝子データと症例データを解析対象として相関 ルールを抽出することにより、遺伝子と薬剤の効果との関係などを知ることが出来る。 例えば、「遺伝子 Aの X番目の座位の遺伝子型が Y型の患者は、薬剤 Cに対してァレ ルギー反応を起こす。」のような相関ルールが抽出された場合、患者の遺伝子 Aの X 番目の座位の型を調べることにより、薬剤 Cを処方すべきか否かの判断に役立ち、各 患者に適した医療を行うことが出来る。従来技術を適用した場合、項目パターンの支 持度が誤った値となり、正し 、相関ルールを抽出することが出来な 、。
[0005] 別の例を示す。例えば、スーパーマーケットのバスケットデータの場合、個々の店舗 によって、販売する商品が異なる場合がある。例えば、統括する地域内の複数の店 舗のバスケットデータを解析することによって、統括する地域内の商品の販売傾向を 知ることが出来る。商品 Aと商品 Bの関連を調べるためには、商品 Aと商品 Bを共に販 売する店舗のノ スケットデータのみを利用する。商品 Aまたは商品 Bを販売して 、な V、店舗のノ スケットデータを解析に利用した場合、誤った結果を得ることになる。
[0006] 欠損データを含むデータベース力 相関ルールを抽出する方法に関しては、非特 許文献 2がある。非特許文献 2の方法では、複数の離散値属性を持つレコードが複 数ある、いわゆる縦かける横の表形式のデータベースから、ユーザにより予め設定さ れた支持度の最小値とレコード利用度の最小値以上となる相関ルールを抽出してい た。ここで、属性と属性値の組を項目と呼び、項目の組合せを項目パターンと呼ぶ。 項目パターンが現れるデータベース中のレコード数を支持回数と呼び、項目を構成 する属性が欠損データでな 、レコードの中で項目の組合せを含むレコードの割合を 支持度と呼ぶ。相関ルールに含まれる属性が欠損データでないレコード数のデータ ベース中の全レコード数に対する割合をレコード利用度と呼ぶ。
非特許文献 2の方法の相関ルールを抽出する手順を説明する。最初のステップで は、データベース中のレコードを取り出し、各項目について該項目が出現するレコー ド数の計数、該項目を構成する属性が欠損データであるレコードの識別子を取得す る。ある項目 Xが出現するレコード数を支持回数、ある項目 Xを構成する属性が欠損 データであるレコードの識別子のリストを欠損レコードリストと呼ぶ。すべてのレコード について計数が終わると、各項目の支持度を計算し、支持度の最小値以上となる項 目を取り出す。支持度が最小値以上となる項目を頻出項目と呼ぶ。ここで、ある項目 Xの支持度は、項目 Xの支持回数とデータベース全体のレコード数力 項目 Xの欠 損レコードリストの識別子の数を引いた値との商である。次のステップでは、 2つの頻 出項目を組合せ、 2つの項目力もなる項目パターンを作成する。支持回数が未知の 項目パターンを候補パターンと呼ぶ。各候補パターンについて、候補パターンを構 成する項目の欠損レコードリストの識別子の和集合を該候補パターンの欠損レコード リストとする。再び、データベース中のレコードを取り出し、各候補パターンについて 支持回数を計数する。すべてのレコードについて計数が終わると、各候補パターンの 支持度を計算し、支持度が最小値以上となる候補パターンを取り出す。支持度が最 小値以上となる候補パターンを頻出パターンと呼ぶ。以降のステップでは、 k個の項 目力も構成される頻出パターンにお 、て、 (k- 1)個の項目が共通する頻出パターン を組合せ、(k+ 1)個の候補パターンを作成し、欠損レコードリストを取得し、データ ベース中のレコードを取り出し、各候補パターンの支持回数を計数し、支持度を計算 し、頻出パターンを取り出すステップを繰り返す。すべての頻出パターンが抽出され た時点で、 k個の項目力 なる頻出パターンについて、該頻出パターンを構成する項 目パターンの部分パターンから相関ルールを作成する。
特許文献 1:特開平 8 - 287106号公報
特許文献 2 :米国特許第 5, 794, 209号明細書
特干文献 1 : G.Liu, H.Lu, Y.Xu, J.Yu, Ascending frequency ordered prefix-tree: efficient mining of frequent patterns", in proceedings of International Conference on Database Systems for Advanced Applications, 2003
非特許文献 2 :A.Ragel, B.Cremilleux, "Treatment of missing values for association r ules , in proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining, 1998
発明の開示
発明が解決しょうとする課題
[0008] 従来技術で述べたように、欠損を含むデータベース力 相関ルールを抽出するの に特許文献 1, 2、非特許文献 1をそのまま使用すると、相関ルールを正確に抽出す ることが出来な 、と 、う問題がある。
[0009] 非特許文献 2の方法は欠損を含むデータベースから相関ルールを抽出する方法で あるが、候補パターンの作成とデータベーススキャンを繰り返すため、処理性能が悪 い。さらに、最初のステップで抽出された頻出項目に含まれない相関ルールを抽出 することが出来ない。例えば、データベース全体のレコード数を 12、ある項目 Xの支 持回数を 4、項目 Xの欠損レコードリストを { 1, 2}、ある項目 Yの支持回数を 5、項目 Y の欠損レコードリストを { 2, 3, 4, 5, 6}とし、支持度の最小値を 0. 5とする。ここで、 項目 Xと Yを組合わせた項目パターンの支持回数力 の場合、該項目パターンの欠 損レコードリストは { 1 , 2, 3, 4, 5, 6}となり、支持度は 0. 67となるため、頻出パター ンとなる。したがって、項目 Xと Yからなる相関ルールが抽出されなければならない。 しかし、項目 Xは頻出項目ではな!/、ため、非特許文献 2の方法では項目 Xを含む相 関ルールを抽出することは出来ない。このように非特許文献 2の方法は欠損を含む データベースを解析対象としている力 すべての相関ルールを抽出することが出来 ないという欠点がある。
[0010] 本発明の第 1の目的は、欠損を含むデータベース中に存在する欠損のないデータ の間に成り立つすべての相関ルールを抽出する方法およびシステムを提供すること である。
[0011] 本発明の第 2の目的は、相関ルールを抽出するために同一の属性が欠損データで あるレコードの単位にデータベースを分割し、各分割されたデータベース毎に項目 パターンの支持回数を計数することによってデータベース全体での支持度を求め、 相関ルールを抽出する方法およびシステムを提供することである。
[0012] 本発明の第 3の目的は、相関ルールを抽出するために探索する項目パターンの支 持回数計数処理量を低減する方法を提供することである。
課題を解決するための手段
[0013] 本発明による相関ルール抽出方法の 1つの特徴は、 2以上の属性力もなるレコード と、 0以上の欠損データを含むレコードの集合からなるデータベースから、ユーザによ り指定された支持度の最小値、確信度の最小値、レコード利用度の最小値を満たす 相関ルールを、同一の属性が欠損データであるレコードの単位にデータベースを分 割する処理、分割されたデータベースにお 、て支持度の最小値を満たす項目バタ ーンである局所頻出パターンを抽出する処理、局所頻出パターンにつ 、てデータべ ース全体での支持度を求める処理、データベース全体での頻出パターン力 相関ル ールを導出する処理によって抽出することである。
[0014] 本発明の別の特徴は、同一の属性が欠損データであるレコードの単位に分割され たデータベースにおいて、少なくとも 1つのデータベース分割において支持度と支持 回数が既知であり、少なくとも 1つのデータベース分割において支持度と支持回数が 未知の局所頻出パターンのデータベース全体での支持度の上限値を、支持度が既 知のデータベース分割においてはその項目パターンの支持回数を、支持度が未知 のデータベース分割においてはその項目パターンの部分パターンの支持回数を用 いて計算することにより、該局所頻出ノターンの支持回数を数え上げるデータベース 分割を限定することである。
[0015] 本発明の別の特徴は、特定の属性を含む相関ルール力 順に抽出し、該属性を含 む相関ルール抽出処理が終了した時点で、該属性を以降の解析対象から除外する ことによって、解析処理において同時に必要なデータを限定することである。
[0016] すなわち、本発明による相関ルール抽出方法は、データベースにおける属性と属 性値の組を項目、項目の組合せを項目パターンとするとき、属性値の欠損したレコー ドを含むデータベースから、属性値の欠損していない 2以上の項目の間に成り立つ 相関ルールを抽出する相関ルール抽出方法であって、データベースを分割する第 1 のステップと、特定の属性を含む項目パターンについて、分割されたデータベース毎 に項目パターンの支持回数を計数することによって分割されたデータベースにおい て予め設定された支持度の最小値以上となる項目パターンである局所頻出パターン を抽出する第 2のステップと、抽出された局所頻出パターンのデータベース全体での 支持度を求める第 3のステップと、抽出された頻出パターン力 相関ルールを導出す る第 4のステップと、相関ルール抽出処理が終了した属性を以降の解析対象から除 外する第 5のステップとを含むことを特徴とする。
[0017] この方法によると、欠損データを含むデータベースから、欠損のな!、データに成り 立つ相関ルールをすベて抽出することが可能となる。
[0018] 属性値は、離散値または離散値に対応付けることが出来る値であることが好ましい
[0019] 第 2から第 4のステップにおいては、特定の属性は 1以上の属性であれば良ぐ複 数の属'性でも良い。
[0020] 確信度の最小値、および、レコード利用度の最小値は指定されなくても良ぐその 場合には確信度の最小値とレコード利用度の最小値は 0として処理することでも良い
[0021] ユーザ入力などによって、抽出する相関ルールに含まれる項目、または、属性が指 定されている場合、第 1のステップにおいて、指定された項目および属性のみを含む 分割されたデータベースを構築するのが好ま 、。
[0022] 項目パターン Xが属する属性リストを含むすべてのデータベース分割にお!/、て、項 目パターン Xの局所支持回数が既知の場合、項目パターン Xのデータベース全体で の支持度である全域支持度は下記の式 (1)によって計算される。
[数 1]
GS(X) = …ひ)
Figure imgf000008_0001
[0023] ここで、項目パターン Xが属する属性リストを含むデータベース分割を m個(mは 1 以上の整数)、項目パターン Xの局所支持回数が既知のデータベース分割を DB(1) , · · · , DB(m)、データベース割 DB(i)が含むレコード数を RC(DB(i))、項目パターン Xのデータベース分割 DB(i)における局所支持回数を LS(X: DB(i》とする。
[0024] 項目パターン Xが属する属性リストを含むデータベース分割にお!/、て、項目パター ン Xの局所支持回数が未知のデータベース分割が存在する場合、項目パターン の 局所支持回数がどの部分パターンの局所支持回数よりも大きな値となることがないた め、項目パターン Xの全域支持度の上限値は下記の式 (2)によって計算される。
[数 2]
U(X) =― -(2)
∑: C ( ))
[0025] ここで、項目パターン Xが属する属性リストを含むデータベース分割を m個(mは 1 以上の整数)、項目パターン Xの局所支持回数が既知のデータベース分割を DB(1) , · · · , DB(n) (nは 1以上の整数)、項目パターン Xの局所支持回数が未知のデータ ベース分割を DB(n+ l), · · · , DB(m)、データベース分割 DB(i)が含むレコード数を RC(DB(i))、項目パターン Xのデータベース分割 DB(i)における局所支持回数を LS( X: DB(i))、項目パターン Xの部分集合を X,とする。
[0026] 計算された全域支持度の上限値がユーザ力 指定された最小支持度未満である 項目パターンについて、局所支持回数が未知のデータベース分割における計数を 回避することによって、解析処理量を低減することが出来る。
発明の効果
[0027] 本発明によると、欠損データを含むデータベースから、欠損していないデータ間に 成り立ち、予め設定した支持度の最小値を満たすすべての相関ルールを抽出するこ とが出来る。また、同一の属性が欠損データであるレコードの塊にデータベースを分 割し、分割されたデータベースの単位で処理を行い、特定の属性を含む項目パター ンに限定して相関ルールを抽出し、処理の終了した属性に関するデータを以降の解 析対象から除外することによって解析に必要なデータを限定すること、分割されたデ ータベースの中で局所的に支持度の最小値を満たす項目パターンのみを処理する こと、分割されたデータベース毎の局所的な支持度力 データベース全体での支持 度の上限値を推定して数え上げるレコードを限定することによって、解析処理量を低 減することが出来る。
図面の簡単な説明
[図 1]本発明の第 1の実施形態のシステム構成例を示す図。
[図 2]本発明における相関ルール抽出処理の概要を示すフローチャート。
[図 3]本発明におけるデータベース分割の概要を示すフローチャート。
[図 4]本発明におけるデータベース分割処理を示すフローチャート。
[図 5]本発明における最小レコード利用度を満たさない属性を削除する処理を示すフ 口1 ~~チヤ1 ~~卜。
[図 6]本発明における最小支持度と最小レコード利用度を同時に満たすことがない項 目を検出する処理を示すフローチャート。
[図 7]本発明における相関ルール導出処理を示すフローチャート。
[図 8]本発明における相関ルール抽出処理の終了した属性を削除する処理を示すフ 口1 ~~チヤ1 ~~卜。
[図 9]本発明の第 2の実施形態のシステム構成例を示す図。
[図 10]本発明におけるデータベース分割処理の概要を示すフローチャート。
[図 11]本発明におけるデータベース分割処理を示すフローチャート。
[図 12]本発明における相関ルール抽出処理の終了した属性を削除する処理を示す フローチャート。
[図 13]本発明の第 3の実施形態のシステム構成例を示す図。
[図 14]本発明における相関ルール抽出処理の概要を示すフローチャート。
[図 15]局所支持回数の計数に用いられるデータ構造を示す概略図。
[図 16]データ構造の構築処理手順を示すフローチャート。
[図 17]データ構造を利用した局所支持回数の計数処理手順を示すフローチャート。
[図 18]本発明の実施例におけるデータ構造の例を示す図。
[図 19]本発明の実施例におけるデータ構造の例を示す図。
[図 20]本発明の実施例におけるデータ構造の例を示す図。
[図 21]本発明の第 4の実施形態のシステム構成例を示す図。
[図 22]本発明の第 5の実施形態のシステム構成例を示す図。 [図 23]本発明の実施例における解析対象データベースの例を示す図。 符号の説明
[0029] 101 処理部
102 記憶部
103 データ格納部
104 入力部
105 出力部
901 記憶部
1301 記憶部
2101 処理装置
2102 記憶装置
2103 データ格納装置
2104 入力装置
2105 出力装置
2106 通信路
2201 処理装置
2203 データ格納装置
2303 データ格納装置
発明を実施するための最良の形態
[0030] 以下、図面を参照して本発明の実施の形態を説明する。以下の図において、同等 の機能部分には同じ番号を付し、重複する説明を省略する。
[0031] はじめに、本実施形態において利用する用語を定義する。
[0032] データベースは離散値、または離散値に対応付けることが可能な属性値力 なる 属性により構成される表形式である。属性値が欠損している(空、 NULL)場合、欠損 データと呼ぶ。また、属性と属性値の組を項目と呼び、属性:属性値で表現する。あ る項目 Xが属性 Aの属性値 Bから構成される場合、項目 Xは {A: B}と表現され、項目 Xは属性 Aに属すると表現する。ここで、属性値が連続値である場合、範囲分割など によって属性値を区分けし、各区分けに特定の離散値を割り当てることにより、連続 値を離散値に対応付けることが可能である。また、離散値をグループに分類し、各分 類を特定の離散値に対応付けることにより、属性値に含まれない離散値に対応付け ることち可會である。
[0033] データベースは項目のリストであるレコードの集合であり、 1つのレコードには 1つの 識別子が割り当てられて!/、る。解析対象のデータベースは 1以上の属性にっ ヽて属 性値が欠損したレコードの集合力 なる。
[0034] 項目の組合せを項目パターンと呼び、ある項目パターン Xを構成する項目があるレ コードの部分集合である場合、該レコードは項目パターン Xを含むと表現する。ある 項目パターン Xが含む項目が属する属性のリストを属性リスト Yとするとき、項目バタ ーン Xは属性リスト Yに属すると表現する。例えば、項目パターン Zが属性 Aと属性値 Al、属性 Bと属性値 B1から構成されるとき、項目パターン Zは {A:A1, B : B1 }と表 現され、項目パターン Zは属性リス HA, B}に属する。
[0035] 属性の組合せについて、解析対象のデータベース中のレコードにおいて、該属性 が欠損データでなく、他の属性はすべて欠損データであるレコードの集合をデータ ベース分割と呼ぶ。例えば、属性 Aと属性 Bに関するデータベース分割に含まれるレ コードは、属性 Aと Bの属性値に欠損データがなぐ属性 Aと B以外の属性はすべて の欠損データである。属性 Aと Bに関するデータベース分割は、属性リスト {A, B}の データベース分割、または、データベース分割 , B}と表現される。
[0036] データベース全体のレコードにおいて、項目パターン Xを含むレコードの数を全域 支持回数と呼び、該項目パターンが含む項目が属する属性がすべて欠損データで な 、レコードの数に対する全域支持回数の割合を全域支持度と呼ぶ。あるデータべ ース分割中のレコードにおいて、項目パターン Xを含むレコードの数を局所支持回数 と呼び、該項目パターンが含む項目が属する属性がすべて欠損データでないレコー ドの数に対する局所支持回数の割合を局所支持度と呼ぶ。ここで、支持回数は全域 支持回数および局所支持回数を指し、支持度は全域支持度および局所支持度を指 す。全域支持度と局所支持度はそれぞれ全域支持回数と局所支持回数から計算す ることが可能であることから、全域支持度と全域支持回数、および局所支持度と局所 支持回数は同様に扱うことが出来る。また、ある項目パターン Xが含むすべての項目 を項目パターン Yが含む場合、項目パターン Yは項目パターン Xを含むと表現し、項 目パターン Xを項目パターン Yの部分パターンと呼び、項目パターン Yを項目パター ン Xの上位パターンと呼ぶ。また、ある項目パターンの全域支持度が事前に指定され た支持度の最小値以上となる場合、該項目パターンを全域頻出パターンと呼ぶ。さら に、ある項目パターンの局所支持度が事前に指定された支持度の最小値以上となる 場合、該項目パターンを局所頻出パターンと呼ぶ。
[0037] 相関ルールは X→Yで表現され、 Xと Υは項目パターンであり、 Xと Υに共通する項 目は含まれない。 Xを前提部、 Υを結論部と呼ぶ。一般に相関ルールは支持度と確 信度の評価値を持つ。支持度は相関ルールの適用度を示し、相関ルール Χ→Υの 支持度は項目パターン Xと Υの組み合わせの項目パターンの支持度となる。確信度 は前提部を満たすレコードが結論部も同時に満たす割合 (ルールの前提部が起きた ときに、結論部が起きる確率)を意味し、相関ルール Χ→Υの確信度は項目パターン Xと Υの組合わせの項目パターンの支持度を項目パターン Xの支持度で割った値と なる。さらに、欠損データを含むデータベース力 抽出される相関ルールはレコード 利用度の評価値を持つ。レコード利用度は相関ルールを抽出するために利用したレ コードの割合を示す。相関ルール Χ→Υのレコード利用度は、項目パターン Xと Υが 含む項目が属する属性がすべて欠損データでないレコードの数をデータベースに含 まれる全レコード数で割った値となる。
実施例 1
[0038] 図 1は、本発明の第 1の実施形態のシステム構成例を示す図である。このシステム は処理部 101と記憶部 102とデータ格納部 103から構成される。処理部と記憶部は コンピュータ力もなり、解析対象のデータベースはデータ格納部に格納されている。 処理部 101は、データベース分割部 111、頻出パターン抽出部 112、相関ルール導 出部 113を備え、データあるいはファイルとして支持度、確信度、レコード利用度の 最小値、データベース分割レコードデータ、後述する属性順序列、後述する除外項 目リスト、項目支持度情報、属性レコード数情報、頻出パターン情報を記憶部 102に 保持する。また、処理部 101には、キーボードやマウスなどを備える入力部 104、およ びディスプレイやプリンタ等力もなる出力部 105が接続されている。データ格納部 10 3には、属性 XI, X2, ···、および識別子 Rl, R2, …のレコードが格納されている。
[0039] 図 2は、データ解析の手順を詳細に説明するフローチャートである。はじめにユー ザは入力部 104に抽出する相関ルールの支持度の最小値、確信度の最小値、レコ ード利用度の最小値を入力する。支持度の最小値を最小支持度、確信度の最小値 を最小確信度、レコード利用度の最小値を最小レコード利用度と呼ぶ。処理部 101 は、入力された最小支持度、最小確信度、最小レコード利用度を獲得し (201)、そ れらを記憶部 102に記憶する。その後、処理部は、接続されたデータ格納部 103に 格納されたデータに関して、データベース分割を作成し (202)、後述する相関ルー ル抽出処理の順序を示す属性順序列を作成する(203)。以降、後述する特定の項 目について、各データベース分割における局所頻出パターンを抽出し(205)、抽出 された局所頻出パターン力も全域頻出パターンを抽出し (206)、最小支持度と最小 確信度と最小レコード利用度を満たす相関ルールを導出し(207)、抽出された相関 ルールを出力部 105に出力し、該属性を以降の解析対象力も除外する(208)。
[0040] 図 3は、データベース分割作成処理(202)の手順を説明するフローチャートである 。はじめに、記憶部 102に、各データベース分割に含まれるレコード、各データべ一 ス分割における各項目の局所支持回数と局所支持度、各属性の欠損データでない レコード数、解析対象から除外する項目のリストである除外項目リストを保持する領域 を用意し、空にする。データベースを同一の属性が欠損データであるレコードの単位 に分割し、データベース分割を作成する(301)と同時に、各属性について欠損デー タでないレコードの数、および、各項目について、該項目の全域支持回数と各データ ベース分割における局所支持回数とを計数する(301)。その後、最小レコード利用 度を満たさない属性を検出し、各データベース分割力も削除し、各項目の局所支持 回数を更新する(302)。さらに、各属性について、該属性の各データベース分割に おける局所支持度を計算するとともに、最小支持度と最小レコード利用度を同時に 満たすことがな 、項目を検出し、除外項目リストに追加する(303)。
[0041] 図 4は、データベースを同一の属性が欠損データであるレコードの単位に分割する 処理(202)の手順を詳細に説明するフローチャートである。データベースをスキャン し、レコードを読み出す (401)。あるレコード Rについて、欠損データでない属性のリ ストを取り出し、該属性リストのデータベース分割にレコード Rを追加する (402)。さら に、レコード Rについて、欠損データでない属性のレコード数のカウント、および欠損 データでな!、項目の全域支持回数と局所支持回数のカウントを 1増加させる (403)。 データベース中に含まれるすべてのレコードにつ 、て、以上の処理を繰り返す。
[0042] 次に、最小レコード利用度を満たさな 、属性を検出し、該属性を各データベース分 割から削除し、各項目の局所支持回数を更新する。図 5は、処理の手順を詳細に説 明するフローチャートである。各属性について、該属性の欠損データでないレコード 数をデータベース全体のレコード数で割った値を計算し、この値が最小レコード利用 度未満の場合、該属性を含む相関ルールを抽出する必要がないため、解析対象か ら除外する(502)。該属性を含むデータベース分割に含まれるレコードを、該データ ベース分割の属性リストから該属性を削除した属性リストのデータベース分割に追カロ する(504)。さらに、該属性を含むデータベース分割における各項目の局所支持回 数を、該データベース分割の属性リストから該属性を削除した属性リストのデータべ ース分割における該項目の局所支持回数に加算する(505)。最後に、該属性を含 むデータベース分割を削除する(508)
[0043] 例えば、属性 Xが最小レコード利用度を満たさな 、とし、属性リスト Yが属性 Xを含 むとする。はじめに、属性リスト Yから属性 Xを削除した属性リスト (Y—X)を作成し、 属性リスト Yのデータベース分割に含まれるレコードを属性リスト (Y— X)のデータべ ース分割に追加する。次に、属性リスト Yに属する項目 Aについて、属性リスト Yのデ ータベース分割における項目 Aの局所支持回数が 1以上の場合、該局所支持回数 を属性リスト (Y—X)のデータベース分割における項目 Aの局所支持回数に加算し、 属性リスト Yにおける項目 Aの局所支持回数のカウントを削除する。最後に、属性リス ト Yのデータベース分割を削除する。
[0044] 次に、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、 除外項目リストに追加する。図 6は、処理の手順を説明するフローチャートである。項 目 Aについて、該項目の支持回数が aであり、データベース全体のレコード数が zで あり、最小支持度が s、最小レコード利用度力^であるとするとき、 zと sと rの積の値 cが a よりも大きい (c>a)場合 (602)、項目 Aを解析対象から除外するため、除外項目リス トに追加する(603)。
[0045] 次に、各項目について、各データベース分割における局所支持度を計算し、記憶 部 102に保持する。
[0046] 図 2に戻って、 1以上のデータベース分割に含まれる属性を任意の順に並べ替え、 属性順序列を作成する(203)。例えば、各属性を含むデータベース分割の種類数 の少ない順とする。局所頻出パターン抽出処理 205と全域頻出パターン抽出処理 2 06と相関ルール導出処理 207は、この属性順序列の属性の並び順に従い、特定の 属性について繰り返し行う。
[0047] 局所頻出パターン抽出処理 205は、特定の属性について、該属性を含むすべての データベース分割にぉ 、て該属性に属する項目を含む項目パターンの局所支持回 数を計数し、該項目パターンの局所支持度を算出し、局所頻出パターンを抽出する 。ここで、各データベース分割における項目パターンの局所支持回数を計数する項 目は、除外項目リストになぐ該データベース分割にぉ 、て局所頻出項目である項目 である。各データベース分割における局所頻出パターンを抽出する処理は、特許文 献 1の方法などにより行うことが出来る。
[0048] 全域頻出パターン抽出処理 206は、すべての局所頻出パターンが抽出された時点 で、 1以上のデータベース分割において局所頻出となる項目パターンについて、該 項目パターンの全域支持回数を求め、全域支持度を計算し、最小支持度を満たす 場合に全域頻出パターンとして、記憶部 102に保持する。
[0049] 例えば、項目パターン Xについて、項目パターン Xが属する属性リストのデータべ一 ス分割が ZOと Z1であり、項目パターン Xがデータベース分割 ZOにおいて局所頻出 であるとする。項目パターン Xがデータベース分割 Z1においても局所頻出である場 合、項目パターン Xの全域支持回数はデータベース分割 ZOでの局所支持回数とデ ータベース分割 Z1での局所支持回数の和の値となる。ある項目パターン Xについて 、該項目パターンの全域支持度は式 (1)によって計算される。項目パターン Xがデー タベース分割 Z1においては局所頻出でないが、データベース分割 Z1における局所 支持回数が既知の場合、項目パターン Xの局所支持回数が、項目パターン Xの属す るすべての属性リストのデータベース分割において計数済みであるため、項目パター ン Xの全域支持回数はデータベース分割 zoでの局所支持回数とデータベース分割 Z1での局所支持回数の和の値となり、項目パターン Xの全域支持度は式 (1)によって 計算される。項目パターン Xがデータベース分割 Z1においては局所頻出でなぐデ ータベース分割 Z1における局所支持回数が未知の場合、項目パターン Xの全域支 持度の上限値を式 (2)によって計算する。項目パターン Xの全域支持回数の上限値 は項目パターン Xのデータベース分割 Z0における局所支持回数と項目パターン Xの 局所支持回数が既知の部分パターンのデータベース分割 Z0における局所支持回 数の最小値の和の値となる。該全域支持度の上限値が最小支持度以上の場合、デ ータベース分割 Z1における項目パターン Xの局所支持回数を計数し、式 (1)を用いて 項目パターン Xの正 ヽ全域支持回数を全域支持度を計算し、全域支持度が最小 支持度以上の場合、全域頻出パターンとして記憶部 102に保持する。
[0050] 再び図 2に戻って、相関ルール導出処理 207において、全域頻出パターン抽出処 理 206によって抽出された全域頻出パターン力も相関ルールを導出する。図 7は、相 関ルール導出処理 207を詳細に説明するフローチャートである。全域頻出パターン Xにつ 、て、該全域頻出パターン力 作成可能なすべての部分パターンを作成し(7 02)、該部分パターンを前提部、該全域頻出パターンに含まれるが該部分パターン に含まれない項目のパターンを結論部とすることにより、相関ルールを導出する。該 全域頻出パターンの全域支持回数が該相関ルールの支持回数、全域支持度が支 持度となる。該相関ルールの確信度は該全域頻出パターンの支持回数を該相関ル ールの前提部の項目パターンの該相関ルールの項目パターンが属するデータべ一 ス分割における局所支持回数の総和で割った値となる(705)。該相関ルールの前提 部の項目パターンの該全域頻出パターンが属するデータベース分割における局所 支持回数が未知の場合(703)、該データベース分割のレコードを読み出し、局所支 持回数を計数する(704)。導出された相関ルールはディスプレイなどの出力部 105 に表示される(707)。
[0051] 次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する 。図 8は、属性の削除処理の手順を詳細に説明するフローチャートである。相関ルー ル導出処理が終了した属性について、各データベース分割カも該属性を削除する。 データベース分割を再編集し (803)、該データベース分割に属する項目の局所支 持回数と局所支持度を更新し (805)、該属性を含むデータベース分割を削除する( 809)。さらに、該属性に属する項目を除外項目リストに追加する(810)。例えば、相 関ルール導出処理が終了した属性を A、属性リスト Zは属性 Aを含むとするとき、属性 リスト Zから属性 Aを削除した属性リスト (Z— A)を作成し、属性リスト Zのデータベース 分割に含まれるレコードを属性リスト (Z— A)のデータベース分割に追加し、属性リス ト Zのデータベース分割を削除する。さらに、属性リスト Zのデータベース分割に含ま れる各項目について、該項目の属性リスト Zのデータベース分割における局所支持 回数が 1以上の場合、該支持回数を属性リスト (Z— A)のデータベース分割における 該項目の局所支持回数に加算し、該項目の属性リスト (Z— A)のデータベース分割 における局所支持度を再計算する。さらに、属性 Aに属する項目を除外項目リストに 追加する。
[0052] すべての属性について局所頻出パターン抽出処理、全域頻出パターン抽出処理、 相関ルール導出処理が終了した時点で、処理を終了する。
[0053] 以上が、本発明の解析方法である。このように、解析処理において、属性毎に頻出 パターン抽出処理および相関ルール導出処理を行うことによって、メモリ上に保持す る情報量を少なく抑えることが出来る。さらに、頻出パターン抽出処理の全域支持度 を求める処理で少なくとも 1つのデータベース分割において局所頻出である項目パタ ーンのみを探索すること、局所支持回数が未知のデータベース分割がある場合には 全域支持度の上限値を計算することによって全域頻出パターンとなり得ない項目パ ターンを事前に検出し、局所支持回数が未知のデータベース分割における局所支 持回数の計数処理を回避することによって、解析処理負荷を低減することが出来る。
[0054] なお、本実施形態では局所頻出パターン抽出処理 205において、特定の属性に 属する項目を含む局所頻出パターンのみを抽出したが、各データベース分割に含ま れるすべての局所頻出パターンを抽出することでも同様に処理を実施することが可 能である。
[0055] また、本実施形態の局所頻出パターン抽出処理 205において、特定の属性に属す る項目を含む項目パターンの各データベース分割での局所支持回数を計数したが、 該特定の属性に属する項目と各項目の組の局所支持回数を同時に計数することに よって、全域頻出パターン抽出処理 206における項目パターンの計数処理を回避す るレコードを増大させることが可能である。
[0056] さらに、本実施形態では属性順序列作成 (203)にて作成する属性順序列を各属 性を含むデータベース分割の種類数が少な 、順としたが、該属性順序列の各属性 の並び順は辞書順、ランダム、各属性の項目の種類数の少ない順、各項目の全域 頻出項目の種類数の少な!、順など任意の並び順で良 、。属性順序列の属性の並び 順により局所頻出パターン抽出処理 (205)、全域頻出パターン抽出処理 (206)、相 関ルール導出処理(207)において必要なデータの量が変化する。記憶部に保持す るデータ量が少なくなるように属性順序列の属性を並べることが望まし 、。
実施例 2
[0057] 医療データを例に取り、各処理部において行われる処理を説明する。
[0058] 解析対象となるデータベースは複数の属性力もなるレコードの集合である。医療デ ータを例に取ると、 1つのレコードは 1人の患者に対応し、各属性は遺伝子配列など 患者の遺伝子に関する情報、性別、年齢、診断疾患名、処方薬剤など患者の疾病 に関する情報である。
[0059] 医療データの例を表 1に示す。表 1の例は、遺伝子 遺伝子 2、虚血性心疾患病 名、危険因子病名、虚血性心疾患家族歴の 5つの属性からなり、患者 IDを識別子と するレコード力 なる医療データベースであり、全レコード数を 20とする。
[表 1]
医療データベース
Figure imgf000020_0001
[0060] 入力部 104にユーザ力も支持度の最小値が 0. 25、確信度の最小値が 0. 75、レコ ード利用度の最小値が 0. 5と入力され、データ格納部 103に医療データが格納され た場合を考える。
[0061] 処理部 101におけるデータベース分割作成処理を示す。本実施例の場合、例えば 、患者 IDが 2のレコードが読み出されたとき、欠損データでない属性のリストである { 遺伝子 2、虚血性心疾患病名、危険因子病名 }のデータベース分割に該レコードを 追加する。さらに、属性 {遺伝子 2}、 {虚血性心疾患病名 }、 {危険因子病名 }のレコ ード数のカウント、および、項目 {遺伝子 2 :AT}、 {虚血性心疾患病名:心筋梗塞 }、 { 危険因子病名:高血圧 }について、全域支持回数、および、データベース分割 {遺伝 子 2,虚血性心疾患病名,危険因子病名 }での支持回数のカウントを 1増加させる。 すべてのレコードについて上記の処理が終了したとき、表 2に示すデータベース分割 が作成される。また、表 3に各属性の欠損データでないレコード数、表 4に各項目の 全域支持回数、表 5に各項目の各データベース分割における局所支持回数を示す
[表 2]
4354
データベースノ 一テイシヨン
Figure imgf000022_0001
Figure imgf000022_0002
Figure imgf000022_0003
虚血性心疾患危険因子虚血心疾患 患者 ID遺伝子 1遺伝子 2
3ft 病名 家族歴
15 なし なし [表 3] 表 3
Figure imgf000023_0001
[表 4] 表 4 項目 全域支持回数 遺伝子 1: GC 4 遺伝子 1: GG 3 遺伝子 1: GG 3 遺伝子 2 :AA 8 遺伝子 2 : AT 1 遺伝子 2 :TT 6 虚血性心疾患病名:鋏心症 4 虚血性心疾患病名:心筋梗塞 フ
虛血性心疾患病名:なし フ 危険因子病名:高血圧 1 0 危険因子病名:糖尿病 7 危険因子病名:なし 3 虚血性心疾患家族歴:あり 5 虚血性心疾患家族歴:なし 2 [表 5]
データべ一ス分割 ί遺伝子 1 ,遺伝子 2,虚血性
心疾患病名,危険因子病名,虚血性心疾患家族歴}
データべ一ス分割【遺伝子 1 ,遺伝子 2, 虚血性心疾患病名,危険因子病名 }
Figure imgf000024_0003
データベース分割 {遺伝子 2, 虚血性心疾患病名,危険因子病名 }
Figure imgf000024_0001
Figure imgf000024_0004
デ一タベース分割〖遺伝子 1 , データべ—ス分割
虚血性心疾患病名,危険因子病名 } 遺伝子 1 ,危険因子病名 j
Figure imgf000024_0005
Figure imgf000024_0002
データべ一ス分割
【虚血性心疾患病名,危険因子病名 I
Figure imgf000024_0006
次に、最小レコード利用率を満たさない属性を削除する。本実施例の場合、属性 { 虚血性心疾患家族歴}の欠損データでないレコード数が 7であることから、該属性の レコード利用率は 0. 35と計算され、最小レコード利用率を満たさないため、すべて のデータベース分割から削除される。例えば、データベース分割 {遺伝子 L遺伝子
2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれるレコードか ら属性 {虚血性心疾患家族歴}を削除し、データベース分割 {遺伝子 1,遺伝子 2,虚 血性心疾患病名,危険因子病名 }に追加する。さらに、データベース分割 {遺伝子 1 ,遺伝子 2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれる 各項目の局所支持回数を、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患 病名,危険因子病名 こ加算する。例えば、項目 {遺伝子 2 : AA}のデータベース分 割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴} における局所支持回数が、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病 名,危険因子病名 }に加算され、データベース分割 {遺伝子 1,遺伝子 2,虚血性心 疾患病名,危険因子病名 }における項目 {遺伝子 2 :AA}の局所支持回数が 3となる 。また、属性 {虚血性心疾患家族歴}を含むもう 1つのデータベース分割 {遺伝子 2, 虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}についても同様に処理 することによって、データベース分割は表 6となり、各属性の各データベース分割での 局所支持回数は表 7となる。
[表 6]
データべ一ス分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 }
Figure imgf000026_0001
データベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }
Figure imgf000026_0002
Figure imgf000026_0003
ス分割 {虚血性心疾患病名,危険因子病名 1
虚血性心疾患危険因子
患者 ID
名 病名
15 なし なし
am
Figure imgf000027_0001
93 66ΐ£滅 OOZ OAV 表 7 データベース分割 ί遺伝子 1 ,遺伝子 2 虚血 心疾患 因子病名 }
D I
o
Figure imgf000028_0001
データベース分割 t遺伝子 1 ,虚血性心疾患病名,危険因子病名 }
Figure imgf000028_0002
データベース分割 [遺伝子 1 ,危険因子病名 }
Figure imgf000028_0003
データベース分割 [虚血性心疾患病名,危険因子病名 } 項目 局所支持回数局所支持度
虚血性心疾患病名:なし 1 0. 50
危険因子病名:なし 1 [0063] 次に、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、 除外項目リストに追加する。本実施例においては、データベースの全レコード数が 20 、最小レコード利用率が 0. 5、最小支持度が 0. 25であることから、全域支持回数が 3未満となる項目は全域頻出パターンになり得ない。例えば、項目 {遺伝子 2 : AT}に ついて、該項目のデータベース全体での支持回数が 1であることから、解析対象から 除外出来るため、除外項目リストに追加する。
[0064] 次に、各項目について、各データベース分割における局所支持度を計算し、記憶 部に保持する。本実施例においては、例えばデータベース分割 {遺伝子 2,虚血性 心疾患病名,危険因子病名 こおいて、項目 {遺伝子 2 : AA}の局所支持回数は 5、 データベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }のレコード数は 9 であることから、項目 {遺伝子 2 : AA}の局所支持度は 0. 56となる。各データベース 分割における、各項目について同様に計算することによって、表 7が作成される。
[0065] 次に、 1以上のデータベース分割に含まれる属性を任意の順に並べ替える。本実 施例では、各属性を含むデータベース分割の種類数の少ない順とする。属性順序列 は {遺伝子 2,遺伝子 1,虚血性心疾患病名,危険因子病名 }の順となる。
[0066] 次に、相関ルール抽出を行う。本実施例では、はじめに属性 {遺伝子 2}について、 相関ルール抽出を行う。属性 {遺伝子 2}を含むデータベース分割について、各デー タベース分割毎に局所頻出となる項目パターンを抽出する。属性 {遺伝子 2}を含む データベース分割はデータベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危 険因子病名 }とデータベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }で ある。例えば、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因 子病名 }については、該データベース分割における局所頻出項目である項目 {遺伝 子 1 : CC}、 {遺伝子 1 : CG}、 {遺伝子 2 :AA}、 {遺伝子 2 :TT}、 {虚血性心疾患病 名:狭心症 }、 {虚血性心疾患病名:なし }、 {危険因子病名:高血圧 }の 7つの項目に ついて、項目 {遺伝子 2 : ΑΑ}または {遺伝子 2 : ΤΤ}を含む項目パターンを作成し、 局所支持回数を数え上げる。各データベース分割において、表 8に示す局所頻出パ ターンが抽出される。
[表 8] データベース分割 (遺伝子 1 ,遺伝子 2,虚血性心疾患病名,危険因子病名 }
Figure imgf000030_0001
次に、 1以上のデータベース分割において抽出された局所頻出パターンについて
、該項目パターンの全域支持回数を求め、全域支持度を計算し、最小支持度を満た す場合に全域頻出パターンとして記憶部に保持する。本実施例の場合、項目パター ン{遺伝子 2 ··ΑΑ,虚血性心疾患病名:なし }は、データベース分割 {遺伝子 1,遺伝 子 2,虚血性心疾患病名,危険因子病名 こおいては局所頻出であり、データベース 分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }では局所支持回数が未知であ るため、式 (2)によって全域支持度の上限値を計算する。データベース分割 (遺伝子ェ ,遺伝子 2,虚血性心疾患病名,危険因子病名 }における項目パターン {遺伝子 2 : A A,虚血性心疾患病名:なし }の局所支持回数は 2であり、データベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }における項目パターン {遺伝子 2 : AA,虚血 性心疾患病名:なし }の部分パターンは局所支持回数が 5である項目 {遺伝子 2 : AA }と局所支持回数が 1である項目 {虚血性心疾患病名:なし }であるため、項目パター ン{遺伝子 2 :AA,虚血性心疾患病名:なし }の全域支持回数の上限値は 3、全域支 持度の上限値は 0. 2となる。全域支持度の上限値が最小支持度未満であることから 、項目パターン {遺伝子 2 : AA,虚血性心疾患病名:なし }は全域頻出パターンとは なり得ないため、局所支持回数が未知であるデータベース分割 {遺伝子 2,虚血性心 疾患病名,危険因子病名 }における局所支持回数の計数処理を行わない。また、項 目パターン {遺伝子 2 :AA,虚血性心疾患病名:心筋梗塞 }は、データベース分割 { 遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 こおいては局所頻出であ り、データベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }では局所支持 回数が未知であるため、式 (2)によって全域支持度の上限値を計算する。データべ一 ス分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 こおける項目パターン {遺伝 子 2 :AA,虚血性心疾患病名:心筋梗塞 }の局所支持回数は 5であり、データベース 分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 こおける項目パター ン{遺伝子 2 :AA,虚血性心疾患病名:心筋梗塞 }の部分パターンは局所支持回数 が 3である項目 {遺伝子 2 :AA}と局所支持回数が 1である項目 {虚血性心疾患病名: 心筋梗塞 }であるため、項目パターン {遺伝子 2 : AA,虚血性心疾患病名:なし }の全 域支持回数の上限値は 6、全域支持度の上限値は 0. 4となる。全域支持度の上限 値が最小支持度以上となることから、項目パターン {遺伝子 2 :AA,虚血性心疾患病 名:心筋梗塞 }の{遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 こおける 局所支持回数を計数する。すべての局所頻出パターンについて全域支持度を求め ることによって得られた全域頻出パターンを表 9に示す。
[表 9] 全域頻出パターン 全域支持回数 全域支持度
[遺伝子 2 :π,虚血性心疾患病名:狭心症 } 4 0. 27
[遺伝子 2 :ΤΤ,虚血性心疾患病名:狭心症,危
険因子病名:高血圧 1 4 0. 27 ί遺伝子 2 :ΤΤ,危険因子病名:高血圧 } 4 0. 27
{遺伝子 2 : ΑΑ,虚血性心疾患病名:心筋梗塞 } 6 0. 40 ί遺伝子 2 : ΑΑ,虚血性心疾患病名:心筋梗塞,
危険因子病名:糖尿病 } 4 0. 27
{遺伝子 2 : ΑΑ,危険因子病名:糖尿病 } 5 0. 33 次に、抽出された全域頻出パターンから、相関ルールを導出し、出力部に出力する 。本実施例では、例えば、項目パターン {遺伝子 2 :ΑΑ,虚血性心疾患病名:心筋梗 塞 }から、相関ルール {遺伝子 2 :八八}→{虚血性心疾患病名:心筋梗塞 }の相関ル ールを抽出することが出来る。該相関ルールの支持度は項目パターン {遺伝子 2 : A A,虚血性心疾患病名:心筋梗塞 }の全域支持度になるため、 0. 40である。該相関 ルールの確信度は項目パターン {遺伝子 2 : AA,虚血性心疾患病名:心筋梗塞 }の 全域支持度 0. 40を、前提部の項目パターン {遺伝子 2 : AA,虚血性心疾患病名: 心筋梗塞 }の属性 {遺伝子 2}と属性 {虚血性心疾患病名 }を含むデータベース分割 における局所支持回数から算出した全域支持度 0. 53で割った値の 0. 75となる。該 確信度が最小確信度を満たすことから、該相関ルールは出力部に出力される。本実 施例において抽出され、出力部に出力される相関ルールのうち、属性 {遺伝子 2}を 含む相関ルールを表 10に示す。
[表 10] 表 10 相関ルー -ル 確 (言度 支持度 レコ一ド利用度 ί虚血性心疾患病名:心筋梗塞,危険因子
ί遺伝子 2:AA】 => 病名:糖尿病 j 0. 50 0. 27 0. 75
{遺伝子 2:AA} =〉 {虚血性心疾患病名:心筋梗塞 } 0. 75 0. 40 0.フ 5 ί遺伝子 2:AA,危険因子病名:糖尿病 } => {虚血性心疾患病名:心筋梗塞 } 0. 80 0. 27 0. 75
[危険因子病名:糖尿病 } => {遺伝子 2:AA} 0. 83 0. 33 0. 75 ί虚血性心疾患病名:心筋梗塞 1 => 伝子 2:AA] 0. 86 0. 40 0. 75 ί虚血性心疾患病名:心筋梗塞.危険因子
病名:糖尿病 } => ί遺伝子 2:AA} 1. 00 0. 27 0. 75
[遺伝子 2:TT,虚血性心疾患病名:狭心症 } => {危険因子病名:高血圧 } 1. 00 0, 2フ 0. 75 ί遺伝子 2:ΤΤ,危険因子病名:高血圧 } => ί虚血性心疾患病名:狭心症 1 1. 00 0. 27 0. 75 ί虚血性心疾患病名:狭心症 I => ί遺伝子 2:ΤΤ} 1. 00 0. 27 0. 75
{虚血性心疾患病名:狭心症) => {遺伝子 2:TT,危険因子病名:高血圧 } 1. 00 0. 27 0. 75 ί虚血性心疾患病名:狭心症,危険因子病
名:高血圧 } => {遺伝子 2:ΤΠ 1. 00 0. 27 0.フ5
{遺伝子 2:ΑΑ} => [虚血性心疾患病名:心筋梗塞) 0. 75 0. 40 0. 75
{遺伝子 2:ΑΑ,危険因子病名:糖尿病 } 二〉 ί虚血性心疾患病名:心筋梗塞) 0. 80 0. 27 0. 75 ί遺伝子 2:ΤΤ,虚血性心疾患病名:狭心症 } => ί危険因子病名:高血圧) 1. 00 0. 27 0. 75
{遺伝子 2:ΤΓ,危険因子病名:高血圧 } => {虚血性心疾患病名:狭心症) 1. 00 0. 27 0. 75
次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する 。本実施例においては、属性 {遺伝子 2}を各データベース分割から削除し、データ ベース分割を再編集し、該データベース分割に属する項目の局所支持回数と局所 支持度を更新し、属性 {遺伝子 2}に属する項目を除外項目リストに追加する。例えば 、データベース分割 {遺伝子 L遺伝子 2,虚血性心疾患病名,危険因子病名 }の各 レコードはデータベース分割 {遺伝子 1,虚血性心疾患病名,危険因子病名 }に追カロ される。データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 }に含まれる各項目の局所支持回数についても、データベース分割 {遺伝子 1,虚血 性心疾患病名,危険因子病名 }の該項目の局所支持回数に加算され、局所支持回 数が更新される。例えば、項目 {危険因子病名:高血圧 }は、データベース分割 {遺伝 子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 こおける局所支持回数 4を、デ ータベース分割 {遺伝子 1,虚血性心疾患病名,危険因子病名 こおける局所支持 回数 2に加算することによって、データベース分割 {遺伝子 1,虚血性心疾患病名, 危険因子病名 }の局所支持回数を 6、局所支持度を 0. 75に更新する。属性 {遺伝子 2}を含むすべてのデータベース分割と、該データベース分割に含まれる各項目につ V、て上記の処理を繰り返すことによって作成されるデータベース分割を表 11に、各 項目の局所支持回数と局所支持度を表 12に示す。
[表 11]
表 1 1
データベース分割 ί遺伝子 1 ,虚血性心疾患病名,危険因子病名 }
Figure imgf000035_0001
データベース分割 [遺伝子 1,危険因子病名 1
Figure imgf000035_0002
データベース分割 ί虚血性心疾患病名,危険因子病名 }
Figure imgf000035_0003
[表 12] 表 1 2
データベース分割 ί遺伝子 1,虚血性心疾患病名,危険因子病名)
Figure imgf000036_0001
データベース分割 {遺伝子 1,危険因子病名 1
Figure imgf000036_0002
Figure imgf000036_0003
上の処理によって、属性 {遺伝子 2}を含む相関ルールがすべて抽出されたこと になる。
[0071] 次に、属性順序列の 2番目以降の属性について順に、局所頻出パターン抽出処理 205、全域頻出パターン抽出処理 206、相関ルール導出処理 207を繰り返すことに よって、すべての相関ルールを抽出することが出来る。
[0072] 本実施例にお!、ては、例えば項目パターン {遺伝子 2: AA,虚血性心疾患病名:な し }のデータベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }における局 所支持回数の計数処理を回避し、解析処理の負荷を低減出来る。また、例えば属性 {遺伝子 2}に関する相関ルールのみを抽出し、記憶部に保持する情報を少なく抑え ることが出来る。さらに、該属性の相関ルール抽出処理が終了した時点で該属性を データベース分割から削除し、他の属性に関する相関ルールを抽出する時点では 該属性はデータ中に存在しな 、ことによって処理負荷を低減することが出来る。
[0073] また、本実施例においては、例えば、項目 {虚血性心疾患病名:狭心症 }を含む相関 ルール {遺伝子 2 :TT,危険因子病名:高血圧 }→{虚血性心疾患病名:狭心症 }の ように単一の項目としては全域局所頻出でない項目を含む相関ルールを抽出する ことが出来る。
実施例 3
[0074] 図 9は、本発明の第 2の実施形態のシステム構成例を示す図である。このシステム は処理部 101と記憶部 901とデータ格納部 103から構成される。処理部と記憶部は コンピュータ力もなり、解析対象のデータベースはデータ格納部に格納されている。 記憶部 901には、データあるいはファイルとして支持度、確信度、レコード利用度の 最小値、データベース分割レコード識別子リスト、属性順序列、後述する除外属性リ スト、除外項目リスト、項目支持度情報、属性レコード数情報、頻出パターン情報を保 持する。
[0075] データ解析の手順は実施形態 1と同じである力 処理部 101のデータベース分割 部 111と相関ルール導出部 113の処理が異なる。
[0076] 図 10は、第 2の実施形態における、データベース分割作成処理の手順を詳細に説 明するフローチャートである。はじめに、記憶部 901に、各データベース分割に含ま れるレコード識別子のリスト、各データベース分割における各項目の局所支持回数と 局所支持度、各属性の欠損データでないレコード数、解析対象から除外する属性の リストである除外属性リスト、解析対象から除外する項目のリストである除外項目リスト を保持する領域を用意し、空にする。データベースを同一の属性が欠損データであ るレコードの単位に分割し、データベース分割を作成する(1001)と同時に、各属性 について欠損データでないレコードの数、および、各項目について、該項目の全域 支持回数と各データベース分割における局所支持回数とを計数する(1001)。その 後、最小レコード利用度を満たさない属性を検出し、除外属性リストに追加し(1002) 、各データベース分割を再編集し、各項目の局所支持回数を更新する(1003)。さら に、各属性について、該属性の各データベース分割における局所支持度を計算する とともに、最小支持度と最小レコード利用度を同時に満たすことがない項目を検出し 、除外項目リストに追加する(1004)。
[0077] 図 11は、データベースを同一の属性が欠損データであるレコードの単位に分割す る処理の手順を詳細に説明するフローチャートである。データベースをスキャンし、レ コードを読み出す(1101)。あるレコード Rについて、欠損データでない属性のリスト を取り出し、該属性リストのデータベース分割にレコード Rの識別子を追加する(110 2)。さらに、レコード Rについて、欠損データでない属性のレコード数のカウント、およ び欠損データでな 、項目の全域支持回数と局所支持回数のカウントを 1増加させる( 1103)。データベース中に含まれるすべてのレコードについて、以上の処理を繰り返 す。
[0078] 次に、最小レコード利用度を満たさない属性を検出し、該属性を除外属性リストに 追加し、各データベース分割を再編集し、各項目の局所支持回数を更新する。図 12 は、処理の手順を詳細に説明するフローチャートである。各属性について、該属性の 欠損データでないレコード数をデータベース全体のレコード数で割った値を計算し、 この値が最小レコード利用度未満の場合、該属性を含む相関ルールを抽出する必 要がないため、解析対象から除外する。該属性を除外属性リストに追加し(1203)、 該属性を含むデータベース分割に含まれるレコードの識別子のリストを、該データべ ース分割の属性リストから該属性を削除した属性リストのデータベース分割に追加す る(1205)。さらに、該属性を含むデータベース分割における各項目の局所支持回 数を、該データベース分割の属性リストから該属性を削除した属性リストのデータべ ース分割における該項目の局所支持回数に加算する(1207)。最後に、該属性を含 むデータベース分割を削除する(1209)。
[0079] 例えば、属性 Xが最小レコード利用度を満たさな 、とし、属性リスト Yが属性 Xを含 むとする。はじめに、属性 Xを除外属性リストに追加すし、属性リスト Yから属性 Xを削 除した属性リスト (Y— X)を作成し、属性リスト Yのデータベース分割に含まれるレコ ードの識別子を属性リスト (Y—X)のデータベース分割に追加する。次に、属性リスト Yに属する項目 Aにつ 、て、属性リスト Yのデータベース分割における項目 Aの局所 支持回数が 1以上の場合、該局所支持回数を属性リスト (Y— X)のデータベース分 割における項目 Aの局所支持回数に加算し、属性リスト Yにおける項目 Aの局所支 持回数のカウントを削除する。最後に、属性リスト Yのデータベース分割を削除する。
[0080] 次の、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、 除外項目リストに追加する処理、および、各項目について、各データベース分割にお ける局所支持度を計算し、記憶部 901に保持する処理、 1以上のデータベース分割 に含まれる属性を任意の順に並べ替える処理は第 1の実施形態と同じである。
[0081] 第 2の実施形態においても、局所頻出パターン抽出処理 205と全域頻出パターン 抽出処理 206と相関ルール導出処理 207は、この属性の並び順に従い、特定の属 性について繰り返し行う。
[0082] 局所頻出パターン抽出処理 205は、特定の属性について、該属性を含むすべての データベース分割にぉ 、て該属性に属する項目を含む項目パターンの局所支持回 数を計数し、該項目パターンの局所支持度を算出し、局所頻出パターンを抽出する 。ここで、各データベース分割における項目パターンの局所支持回数を計数する項 目は、除外項目リストになぐ該データベース分割にぉ 、て局所頻出項目であり、該 項目が属する属性が除外属性リストにな 、項目である。各データベース分割におけ る局所頻出パターンを抽出する処理は、第 1の実施形態と同じである。
[0083] 次に、全域頻出パターン抽出処理 206、相関ルール導出処理 207を行う。
[0084] 次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する [0085] 属性削除処理の手順は図 8に示すフローチャートと同じである力 データベース分割 の再編集(803)において、レコードのデータではなぐレコードの識別子を追加する 点が異なる。例えば、相関ルール導出処理が終了した属性を A、属性リスト Zは属性 Aを含むとするとき、属性リスト Zから属性 Aを削除した属性リスト (Z— A)を作成し (80 2)、属性リスト Zのデータベース分割に含まれるレコードの識別子のリストを属性リスト (Z—A)のデータベース分割に追加する(803)。さらに、属性リスト Zのデータベース 分割に含まれる各項目について、該項目の属性リスト Zのデータベース分割における 局所支持回数が 1以上の場合、該支持回数を属性リスト (Z— A)のデータベース分 割における該項目の局所支持回数に加算し、該項目の属性リスト (Z— A)のデータ ベース分割における局所支持度を再計算する(805)。最後に、データベース分 Zを 削除し (809)、属性 Aに属する項目を除外項目リストに、属性 Aを除外属性リストに 追加する(810)。
[0086] すべての属性について局所頻出パターン抽出処理、全域頻出パターン抽出処理、 相関ルール導出処理が終了した時点で、処理を終了する。
[0087] 以上が、第 2の実施形態における解析方法である。このように、解析処理において 、データベース分割にレコードではなぐレコードの識別子のリストを保持することによ つて、メモリ上に保持する情報量を少なく抑えることが出来る。
[0088] なお、本実施形態では属性の削除処理(208)にお 、て、相関ルール導出処理が 終了した属性を削除する際に、該属性を含むデータベース分割を削除したが、該属 性を含むデータベース分割の削除、各データベース分割の再編成、各項目の各デ ータベース分割における局所支持回数と局所支持度の更新を行わず、除外属性リス トに該属性を追加することと除外項目リストに該属性に属する項目を追加することでも 局所頻出パターン抽出処理(205)と全域頻出パターン抽出処理(206)と相関ルー ル導出処理(207)を同様に処理することが可能である。属性の削除処理(208)にお V、て除外属性リストと除外項目リストを更新する処理のみを行うことによって、処理負 荷を低減することが出来る。さらに、局所頻出パターン抽出処理 (205)と全域頻出パ ターン抽出処理(206)と相関ルール導出処理(207)にお 、て計数した項目パター ンを該項目パターンの局所支持回数とともに記憶部 901に保持し、以降の局所頻出 パターン抽出処理(205)と全域頻出パターン抽出処理(206)と相関ルール導出処 理(207)において既に計数処理を行った項目パターンの計数処理を回避することに よって処理負荷を低減することも出来る。
実施例 4
[0089] 表 1に示す医療データを例に取り、データベース分割作成処理、および、相関ルー ル抽出処理の終了した属性の削除処理を説明する。
[0090] 本実施例の場合、例えば、患者 IDが 2のレコードが読み出されたとき、欠損データ でない属性のリストである {遺伝子 2,虚血性心疾患病名,危険因子病名 }のデータ ベース分割に該レコードの識別子を追加する。さらに、属性 {遺伝子 2}、 {虚血性心 疾患病名 }、 {危険因子病名 }のレコード数のカウント、および、項目 {遺伝子 2 :AT}、 {虚血性心疾患病名:心筋梗塞 }、 {危険因子病名:高血圧 }について、全域支持回 数、および、データベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }での 支持回数のカウントを 1増加させる。すべてのレコードにつ 、て上記の処理が終了し たとき、表 13に示すデータベース分割が作成される。また、表 3に各属性の欠損デー タでないレコード数、表 4に各項目の全域支持回数、表 7に各項目の各データベース 分割における局所支持回数を示す。
[表 13]
表 1 3
Figure imgf000042_0001
次に、最小レコード利用率を満たさない属性を削除する。本実施例の場合、属性 { 虚血性心疾患家族歴}の欠損データでないレコード数が 7であることから、該属性の レコード利用率は 0. 35と計算され、最小レコード利用率を満たさないため、該属性 を除外属性リストに追加し、以降の処理において除外する。例えば、データベース分 割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴} に含まれるレコードの識別子を、データベース分割 {遺伝子 1,遺伝子 2,虚血性心 疾患病名,危険因子病名 }に追加する。さらに、データベース分割 {遺伝子 1,遺伝 子 2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれる各項目 の局所支持回数を、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危 険因子病名 }に加算する。例えば、項目 {遺伝子 2 : ΑΑ}のデータベース分割 {遺伝 子 1,遺伝子 2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}におけ る局所支持回数が、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危 険因子病名 }に加算され、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病 名,危険因子病名 こおける項目 {遺伝子 2 :ΑΑ}の局所支持回数が 3となる。また、 属性 {虚血性心疾患家族歴}を含むもう 1つのデータベース分割 {遺伝子 2、虚血性 心疾患病名、危険因子病名、虚血性心疾患家族歴}についても同様に処理すること によって、データベース分割は表 14となり、各属性の各データベース分割での局所 支持回数は表 7となる。
14] 表 14
Figure imgf000043_0001
[0092] 次の、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、 除外項目リストに追加処理、各項目について、各データベース分割における局所支 持度を計算し、記憶部に保持する処理、 1以上のデータベース分割に含まれる属性 を任意の順に並べ替える処理は実施例 2と同じである。
[0093] 次に、相関ルール抽出を行う。本実施例では、はじめに属性 {遺伝子 2}について、 相関ルール抽出を行う。属性 {遺伝子 2}を含むデータベース分割について、各デー タベース分割毎に局所頻出となる項目パターンを抽出する。属性 {遺伝子 2}を含む データベース分割はデータベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危 険因子病名 }とデータベース分割 {遺伝子 2,虚血性心疾患病名,危険因子病名 }で ある。例えば、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因 子病名 }については、該データベース分割のレコードをデータ格納部〇力 読み出し 、該データベース分割における局所頻出項目であり、除外項目リストになぐ該項目 の属する属性が除外属性リストにな!、項目である {遺伝子 1: CC }、 {遺伝子 1: CG }、 {遺伝子 2 :ΑΑ}、 {遺伝子 2 :ΤΤ}、 {虚血性心疾患病名:狭心症 }、 {虚血性心疾患 病名:なし }、 {危険因子病名:高血圧 }の 7つの項目について、項目 {遺伝子 2 :ΑΑ} または {遺伝子 2 :TT}を含む項目パターンを作成し、局所支持回数を数え上げる。 各データベース分割において、表 9に示す局所頻出パターンが抽出される。
[0094] 次の、局所頻出パターン力 全域頻出パターンを抽出する処理、抽出された全域 頻出パターン力 相関ルールを導出する処理は、実施例 2と同じである。
[0095] 次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する 処理を説明する。本実施例においては、属性 {遺伝子 2}の相関ルール抽出処理が 終了したため、各データベース分割から該属性を除外する。本実施例ではデータべ ース分割にレコードを保持していないため、レコードから該属性に属する項目を削除 するのではなぐ該属性を除外属性リストに追加することによって、以降の解析処理 から該属性を除外する。さらに、データベース分割を再編集し、該データベース分割 に属する項目の局所支持回数と局所支持度を更新し、属性 {遺伝子 2}に属する項 目を除外項目リストに追加する。例えば、データベース分割 {遺伝子 1,遺伝子 2,虚 血性心疾患病名,危険因子病名 }のレコードの識別子のリストはデータベース分割 { 遺伝子 1,虚血性心疾患病名,危険因子病名 }に追加される。データベース分割 {遺 伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 こ含まれる各項目の局所支 持回数についても、データベース分割 {遺伝子 1,虚血性心疾患病名,危険因子病 名 }の該項目の局所支持回数に加算され、局所支持回数が更新される。例えば、項 目 {危険因子病名:高血圧 }は、データベース分割 {遺伝子 1,遺伝子 2,虚血性心疾 患病名,危険因子病名 こおける局所支持回数 4を、データベース分割 {遺伝子 1, 虚血性心疾患病名,危険因子病名 }における局所支持回数 2に加算することによつ て、データベース分割 {遺伝子 1,虚血性心疾患病名,危険因子病名 }の局所支持 回数を 6、局所支持度を 0. 75に更新する。属性 {遺伝子 2}を含むすべてのデータ ベース分割と、該データベース分割に含まれる各項目について上記の処理を繰り返 すことによって作成されるデータベース分割を表 15に、各項目の局所支持回数と局 所支持度を表 12、除外属性リストを表 16に示す。
[表 15] 表 1 5
Figure imgf000045_0001
[表 16] 表 1 6
除外属性リスト
{虚血性心疾患家族歴,遺伝子 2}
[0096] 以上の処理によって、属性 {遺伝子 2}を含む相関ルールがすべて抽出されたこと になる。
[0097] 次に、属性順序列の 2番目以降の属性について順に、局所頻出パターン抽出処理 、全域頻出パターン抽出処理、相関ルール導出処理を繰り返すことによって、すべて の相関ルールを抽出することが出来る。
実施例 5
[0098] 図 13は、本発明の第 3の実施形態のシステム構成例を示す図である。このシステム は処理部 101と記憶部 1301とデータ格納部 103から構成される。処理部と記憶部は コンピュータ力もなり、解析対象のデータベースはデータ格納部に格納されている。 記憶部 1301には、データあるいはファイルとして支持度、確信度、レコード利用度の 最小値、データベース分割レコード識別子リスト、項目順序列、除外属性リスト、除外 項目リスト、項目支持度情報、属性レコード数情報、頻出パターン情報、および、後 述するパターンツリー構造を保持する。
[0099] 図 14は、データ解析の手順を詳細に説明するフローチャートである。はじめにユー ザは入力部 104から、抽出する相関ルールの最小支持度、最小確信度、最小レコー ド利用度を獲得し (201)、それらを記憶部 1301に記憶する。その後、処理部は、接 続されたデータ格納部 103に格納されたデータに関して、データベース分割を作成 し(202)、相関ルール抽出処理の順序を示す属性順序列を作成する(203)。以降、 特定の項目について、後述するパターンツリー構造を構築し(1401)、各データべ一 ス分割における局所頻出パターン力もを抽出し(1402)、抽出された局所頻出バタ ーン力 全域頻出パターンを抽出し(1403)、計数処理が必要な局所支持回数が未 知の項目パターンを計数し(1404)、局所支持回数が未知の全域頻出パターンの部 分パターンを計数し(1405)、最小支持度と最小確信度と最小レコード利用度を満た す相関ルールを導出し(207)、抽出された相関ルールを出力部 105に出力し、該属 性を以降の解析対象から除外する(208)。
本実施形態の局所頻出パターン抽出処理 1402における、各項目パターンの局所 支持回数を数え上げる処理には、図 15に示す組織化されたデータ構造を用いる。 該組織化されたデータ構造をパターンツリー構造と呼ぶ。パターンツリー構造は、 1 以上のノード力もなる木構造である。各ノードは、 1つの親ノードへのリンクと、 0以上 の子ノードへのリンクと、該ノードの意味する項目であるラベルと、該ノードの項目の 各データベース分割における該項目を含むレコード数を計数するカウンタ配列から なる。このようなデータ構造は、第 0の深さ、すなわち第 0層目のデータ構造レベルに あるルート 1501を含む。ここから、データ構造は第 1層目にある 0以上の子ノード 15 02、 · · 'へと分岐する。第 n層目のノードにおいては、該ノードにリンクされた 1つの親 ノードへのリンクを迪ることによって、第 (n—l)層目のノードに遷移することが出来る 。さらに、該ノードにリンクされた子ノードへのリンクを迪ることによって、第 (n+ 1)層 目のノードに遷移することが出来る。あるノードについて、子ノードへのリンクが 0の場 合、該ノードをリーフノードと呼ぶ。例えば、ラベルが項目 X3のノード 1504がリーフノ ードである。あるノードにおけるカウンタ配列は、該ノード力も親ノードへのリンクを迪り 、ルートノードまで遷移するまでに経由したノードのラベルの項目の組合せの各デー タベース分割における該項目の組合せを含むレコード数を示している。例えば、図 1 5に示すパターンツリー構造の場合、第 3層目の項目 X3のリーフノード 1504からル ートノード 1501まで遷移するまでに経由するノードは第 2層目の項目 X2のノード 15 03と第 1層目の項目 XIのノード 1502であるため、項目パターン {XI, X2, X3}の各 データベース分割でのレコード数は該ラベルが項目 χ3のノードのカウンタ配列の値 となる。
[0101] 図 16は、パターンツリー構造を構築する手順を詳細に説明するフローチャートであ る。データベース分割 Zのレコード Rが読み出されたとする(1602)。レコード Rに含ま れる項目から、除外属性リストに含まれない属性に属する項目であり、除外項目リスト に含まれず、データベース分割 Zにおいて局所頻出である項目を抽出し、該項目を 属性順序列に従ってソートした項目列を作成する(1603)。はじめに、ルートノードに 遷移する(1604)。ルートノードのカウンタ配列のデータベース分割 Zに対応するカウ ンタを 1増力!]させる(1604)。対応するカウンタ配列が存在しない場合、新たに追加し 、カウンタを 1とする。次に、ルートノードの子ノードに遷移する。ルートノードの子ノー ドのリンク先に該項目列の先頭の項目をラベルとするノードが存在しな 、場合、新た にノードを作成し、ルートノードの子ノードとしてリンクを張る。該ノードのラベルに該項 目列の先頭の項目を設定し、該ノードのデータベース分割 Zに対応するカウンタ配列 を用意し、カウンタを 0に設定する(1607)。ルートノードのリンク先のノードに遷移し( 1608)、該ノードのカウンタ配列のデータベース分割 Zに対応するカウンタを 1増加さ せる(1609)。対応するカウンタ配列が存在しない場合、新たに追加し、カウンタを 1 とする。以降、第 i層目のノード Pから第 (i+ 1)層目の子ノード Qに遷移する処理を以 下に示す。ノード Pの子ノードに該項目列の先頭から (i+ 1)番目の項目をラベルとす るノードが存在する場合、該子ノードに遷移する(1608)。存在しない場合、該項目 をラベルとし、該データベース分割に対応するカウンタ配列のカウンタを 0とする新し いノードを作成し、第 i層目のノードの子ノードとしてリンクを張った後(1607)、該新た に作成した子ノードに遷移する(1608)。遷移したノード Qにおいて、カウンタ配列の 該データベース分割に対応するカウントを 1増加させる(1609)。対応するカウンタ配 列が存在しない場合、新たに追加し、カウンタを 1とする。次に、 iを 1増加させ(1613 )、該項目列の最後尾の項目まで親ノードから子ノードへの遷移を繰り返す。
[0102] 各データベース分割における局所頻出パターン抽出のための各項目パターンの局 所支持回数の計数は、ノターンツリー構造を用いる。ある第 m層目のラベルが項目 X [m]のリーフノード力 ルートノードまで親ノードへのリンクと迪ることによって遷移する 際に経由するノードのラベルが項目 X[m— 1]、 · · ·、 X[l]であるとする。ここで、該経 由するノード中の第 i層目のノードを X[i]とし、該経由するノードのラベルの集合をパ スと呼ぶ。該ラベルが項目 X[m]のノードに保持されているカウンタ配列のデータべ一 ス分割 Zに対するカウンタが Cである場合、パスはノ スに含まれるすべての項目の組 合せである項目パターン {X[l], X[2], ···, X[m]}のデータベース分割 Zにおける局 所支持回数が Cであることを示す。さらに、該パスは、該パスに含まれる項目の部分 集合の項目パターンにつ 、ては、該パスに含まれる部分の局所支持回数が該項目 ノターンの局所支持回数であることを示す。例えば、該パスの部分集合の項目バタ ーン {X[l], X[m]}のパス {X[l], X[2], · · ·, X[m]}に含まれる部分については、デ ータベース分割 Zにおける局所支持回数が Cであるとなる。該項目パターンのデータ ベース分割 Z全体での局所支持回数は、該項目パターンを含むパスにおける局所支 持回数の総和となる。
図 17は、各項目パターンの各データベース分割における局所支持回数を抽出す る処理を詳細に説明するフローチャートである。各リーフノードについて、パスを作成 し( 1702)、パス力も作成可能な項目パターンを作成し( 1703)、該項目パターンの 局所支持回数の加算(1705)を繰り返すことによって、各項目パターンの各データべ ース分割における局所支持回数を計数する。例えば、 1つ目のリーフノードから作成 されるパスが {A:aO, B:bl, C:cO}であり、カウンタ配列の 1番目が 3、 2番目が 5で あるとする。ここで、カウンタ配列の 1番目がデータベース分割 Zl、 2番目がデータべ ース分割 Z2であるとする。パス {A:aO, B:bl, C:cO}から、項目パターン {A:aO, B : bl, C:cO}、項目パターン {A:aO, B:bl}、項目パターン {A:aO, C:cO}、項目パ ターン {B:bl, C:cO}、項目パターン {A:aO}、項目パターン {B:bl}、項目パターン {C:cO}を作成し、これら項目パターンのデータベース分割 Z1の局所支持回数の力 ゥンタを 3、データベース分割 Z2の局所支持回数のカウンタを 5に設定する。 2つ目 のリーフノードから作成されるパスが {A:aO, C:cO}であり、ノード {A:aO}は 1つ目の リーフノードと共通しているとし、カウンタ配列の 1番目が 4、 2番目が 7であるとする。 パス {A:aO, C:cO}から作成可能なすべての項目パターンを作成し、該項目パター ンのデータベース分割 Z1のカウンタに 4を、データベース分割 Z2のカウンタに 7をカロ 算するが、パスに含まれる項目中で既に計数済みのパスと共通する項目のみから作 成される項目パターンは計数しない。例えば、項目パターン {A: aO, C : cO}のデータ ベース分割 Z1のカウンタには 7を加算する力 項目パターン { A : aO}については 2つ 目のパスにおいては加算しない。すべてのリーフノードに対して計数処理を行うこと によって、各項目パターンの各データベース分割における局所支持回数を計数する ことが出来る。計数済みノ スと共通する項目のみから作成される項目パターンの計数 を回避する方法は、ノ スの作成の際に経由した各ノードに計数済みであるフラグを立 て、パスに含まれる項目を計数済みフラグの状態によって区別することによって処理 する(1704)。また、特定の属性を含む局所頻出パターンを抽出する場合には、パス から作成する項目ノターンを該特定の属性に属する項目を含む項目パターンに限 定することによって処理する。
[0104] 次に、 1以上のデータベース分割において局所頻出となる項目パターンについて、 該項目パターンの全域支持回数を求め、全域支持度を計算し、最小支持度を満た す場合に全域頻出パターンとし、記憶部 1301に保持する(1403)。さらに、局所支 持回数が未知であるが、全域頻出パターンになり得るために、計数する必要がある 項目パターンとデータベース分割のリストを作成する。該リストを追加処理リストと呼ぶ
[0105] 次に、追加処理リストに登録された項目パターンの局所支持回数を計数し、全域頻 出パターンを抽出する(1404)。各データベース分割において、該データベース分 割に含まれるレコード中で、追加処理リストに含まれる該データベース分割の項目パ ターンに含まれる項目をパターンツリー構造に追加する。すべてのデータベース分 割に対する処理が終了した時点で、追加されたノードまたはカウンタ配列が更新され たノードからルートノードまでのパスを作成することによって、追加処理リストに含まれ る項目パターンの局所支持回数を計数し、全域頻出ノターンを記憶部 1301に保持 する。
[0106] 次に、記憶部 1301に保持された各全域頻出パターンについて、該全域頻出パタ ーンの部分パターンであり、全域支持度が未知の項目パターンの局所支持回数をデ ータ構造のノードを迪ることによって計数し、式 (1)によって全域支持度を計算し、記 憶部 1301に保持する( 1405)。
[0107] 次に記憶部 1301に保持された全域頻出パターン力も相関ルールを導出し、出力 部 105に出力する。
[0108] 以上が、第 3の実施形態の解析方法である。このように局所頻出パターン抽出処理 において、データベース分割力 パターンツリー構造を構築し、ノターンツリー構造 を用いて各項目パターンの各データベース分割における局所支持回数を計数するこ とによって、データベースの検索処理負荷を低減することが出来る。
[0109] なお、以上で説明した第 3の実施形態では、パターンツリー構造の構築において、 各データベース分割のレコードに含まれる項目から、除外属性リストに含まれない属 性に属する項目であり、除外項目リストに含まれない項目中で、該データベース分割 において局所頻出である項目に限定してパターンツリー構造を構築したが、該デー タベース分割において局所頻出である項目に限定せず、局所頻出でない項目も含 めてパターンツリー構造を構築することでも同様に処理を実施することが可能である
[0110] また、第 3の実施形態では、パターンツリー構造を用いて各項目パターンの各デー タベース分割での局所支持回数を計数するため、局所頻出パターンを抽出すると同 時に全域頻出パターンを抽出することも可能である。
実施例 6
[0111] 表 1に示す医療データを例に取り、第 3の実施形態におけるパターンツリー構造構 築 1401、局所頻出パターン抽出 1402、全域頻出パターン抽出 1403、追加計数 14 04、部分パターン計数 1405の処理を説明する。
[0112] 本実施例では、属性 {遺伝子 2}を含む相関ルールを抽出するための、パターンッリ 一構造構築処理と局所頻出パターン抽出処理と全域頻出パターン抽出処理と追カロ 計数処理と部分パターン計数処理を示す。
[0113] ノターンツリー構築処理 1401においては、属性 {遺伝子 2}を含むデータベース分 割について、レコードを読み出し、パターンツリーを構築する。属性 {遺伝子 2}を含 むデータベース分割力も構築されるパターンツリー構造を図 18に示す。各ノードの 各データベース分割のカウンタ配列は、 1つ目がデータベース分割 {遺伝子 遺伝 子 2,虚血性心疾患病名,危険因子病名 }、 2つ目がデータベース分割 {遺伝子 2, 虚血性心疾患病名,危険因子病名 }である。
[0114] 次に、パターンツリー構造のノードを迪ることによって、属性 {遺伝子 2}を含む項目 ノターンを作成し、該項目パターンの各データベース分割における局所支持回数を 計数する。本実施例では、例えば、ラベル {危険因子病名:高血圧 }のリーフノード 18 05から、ラベル {虚血性心疾患病名:なし }のノード 1804、ラベル {遺伝子 1 : CC}の ノード 1803、ラベル {遺伝子 2 : AA}のノード 1802、ルートノード 1801と迪ることによ つて、パス {遺伝子 2 :AA,遺伝子 1 : CC,虚血性心疾患病名:なし,危険因子病名: 高血圧 }が作成され、これらノードの計数済みフラグが立てられる。ラベル {危険因子 病名:高血圧 }のリーフノード 1805のデータベース分割 {遺伝子 1,遺伝子 2,虚血性 心疾患病名,危険因子病名 }、の支持回数が 1であり、データベース分割 {遺伝子 2, 虚血性心疾患病名,危険因子病名 }はこのパスから作成される項目パターンには含 まれないことがわかる。項目パターンの計数は、パス {遺伝子 2 :AA,遺伝子 1 : CC, 虚血性心疾患病名:なし,危険因子病名:高血圧 }から作成可能であり、属性 {遺伝 子 2}を含む項目パターンを作成し、該項目パターンのデータベース分割 {遺伝子 1, 遺伝子 2,虚血性心疾患病名,危険因子病名 }のカウンタを 1とする。次に、ラベル { 虚血性心疾患病名:なし }のノード 1807、ラベル {遺伝子 1 : CG}のノード 1806、ラベ ル{遺伝子 2 : AA}のノード 1802、ルートノード 1801と迪ることによって、パス {遺伝 子 2 :AA,遺伝子 1 : CG,虚血性心疾患なし }が作成され、これらノードの計数済み フラグが立てられる。該パスから作成可能であり、属性 {遺伝子 2}を含む項目パター ンを作成し該項目パターンのデータベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患 病名,危険因子病名 }のカウンタに 1を加算する。ただし、該パス中の項目 {遺伝子 2 : AA}につ 、ては計数済みフラグが立って 、るため、該項目のみの項目パターンは 加算しない。各リーフノードからルートノードまで親ノードへのリンクを迪ることによって 作成したノ スから、各項目パターンの各データベース分割における局所支持回数を 計数することが出来る。各項目パターンの各データベース分割における局所支持度 を計算することによって、局所頻出パターンを抽出する。
[0115] 次に、抽出された局所頻出項目パターンから、全域頻出パターンを抽出し、追加計 数処が必要な項目パターンを抽出する。例えば、項目パターン {遺伝子 2 : TT,虚血 性心疾患病名:心筋梗塞 }はデータベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患 病名,危険因子病名 }では計数されていないが、データベース分割 {遺伝子 2,虚血 性心疾患病名,危険因子病名 }での局所支持回数が 5であり、式 (2)から計算した該 項目パターンの上限値が最小支持度以上となる。該項目パターンをデータベース分 割 {遺伝子 1,遺伝子 2,虚血性心疾患病名,危険因子病名 こおいて計数する必要 があるため、追加処理リストに該項目パターンと該データベース項目の組を保持する
[0116] すべての局所頻出パターンに対する全域頻出パターンと追加計数処理の必要な 項目パターンの抽出が終了した時点で、追加処理リストに保持されて 、る項目パター ンの局所支持回数を計数する。例えば、項目パターン {遺伝子 2 :TT,虚血性心疾 患病名:心筋梗塞 }のデータベース分割 {遺伝子 1,遺伝子 2,虚血性心疾患病名, 危険因子病名 }での局所支持回数の計数が必要であることが登録されているため、 該データベース分割を読み出したときに項目 {虚血性心疾患病名:心筋梗塞 }をバタ ーンツリー構造に追加する。追加処理リストに保持された項目パターンについて、パ ターンツリー構造への追カ卩が終了した時点で、追加されたノードまたはカウンタ配列 が更新されたノードからルートノードまで親ノードを迪ることによってパスを作成し、追 加処理リストに保持された項目パターンの局所支持回数を計数し、全域支持度を式( 1)によって計算し、最小支持度を満たす項目パターンを全域頻出パターンとして記 憶部に保持する。さらに、追加処理リストを空にする。
[0117] 次に、各全域頻出パターンについて、該項目パターンの部分パターン中で全域支 持度が未知である項目パターンが存在する場合、該項目パターンを追加処理リスト に保持する。すべての全域頻出パターンにつ 、て全域支持度が未知の部分パター ンの抽出が終了した時点で、パターンツリー構造から追加処理リストに保持された項 目パターンの計数を行い、全域支持度を計算する。ここで、追加処理リストに保持さ れる項目パターンを計数するためのデータは既に構築したパターンツリー構造に保 持されているため、データベースの検索は不要である。
[0118] 次に、記憶部に保持された全域頻出パターン力 相関ルールを導出する。属性 { 遺伝子 2}を含む相関ルールを導出するための項目パターンが全域頻出パターンと して保持されて 、るため、データベースの検索処理は不要である。
[0119] 本実施例に示したように、パターンツリー構造を構築することによって、全域頻出パ ターンを抽出することが可能である。項目パターンの局所支持回数の計数処理をパ ターンツリー構造を用いて行うことによって、データベースの検索処理負荷を低減す ることが出来る。
実施例 7
[0120] 本発明の第 3の実施形態における属性の削除処理 (209)を実施する別の形態を 説明する。
[0121] 特定の属性を含む相関ルール導出処理が終了した時点で、各データベース分割 力 該属性を削除する処理を行っていたが、該属性を除外属性リストに追加すること と、該属性に属する項目を除外項目リストに追加することと、構築したパターンツリー 構造から該属性に属する項目をラベルとするノードを削除し、残りのノードを記憶部 に保持し、以降の相関ルール抽出処理時に再利用することが出来る。
[0122] 属性の削除処理(209)において、相関ルール抽出処理の終了した属性について 、除外属性リストへの追加と除外項目リストへの追加の後、パターンツリー構造力 該 属性に属する項目をラベルとするノードを削除する。各ノードについて、同じ項目をラ ベルとする子ノードを統合する。同じ項目をラベルとする子ノードについて、該ノード のカウンタ配列の各データベース分割における値の総和を求め、任意の 1つのノード のカウンタ配列の値を置き換える。さらに、該カウンタ配列の値が置き換えられたノー ドに、他のノードの子ノードのリンクを張り、該他のノードをパターンツリーから削除す る。すべてのノードについてルートノードから順に同じラベルを項目とする子ノードの 統合を行い、構築されたパターンツリー構造を記憶部に保持する。
[0123] 次の属性に対する相関ルール抽出処理において、記憶部に保持されたパターンッ リー構造が保持するデータベース分割に対するパターンツリー構造を構築する必要 力 Sある場合、記憶部に保持されたパターンツリー構造から、該データベース分割記憶 部に保持されたパターンツリー構造に加えて、記憶部に保持されていないデータべ ース分割が局所支持回数の計数に必要な場合、実施形態 3のパターンツリー構造構 築処理 1401によって、該記憶部に保持されたパターンツリー構造に新たなノードを 追加することによってパターンツリー構造を構築する。
[0124] 以上が、第 3の実施形態における属性の削除処理の別の形態である。このように構 築したパターンツリー構造力 不要なノードを取り除き、残りのパターンツリー構造を 記憶部に保持することによって、パターンツリー構造構築の処理負荷を低減すること が出来る。
[0125] なお、以上で説明した実施形態では、構築したパターンツリー構造力 不要な属性 を除いたパターンツリー構造を記憶部に保持したが、不要な属性を除いた後、各デ ータベース分割毎にパターンツリー構造を分解することでも同様に処理することが可 能である。
実施例 8
[0126] 表 1に示す医療データを例に取り、実施例 7に示した第 3の実施形態における属性 の削除処理 208の別の実施形態を説明する。
[0127] 本実施例では、属性 {遺伝子 2}を含む相関ルールの抽出処理における、相関ルー ル導出処理が終了したときに、図 18に示すパターンツリー構造が構築されたとする。 属性 {遺伝子 2}に属する項目をラベルとするノード {遺伝子 2 : AA} 1802と {遺伝子 2 : TT} 1808を削除することによって、図 19に示すパターンツリー構造が構築される。 ノレートノード 1901につ!/ヽて、該ノレートノードの子ノード 1902と子ノード 1903は同じラ ベルを {遺伝子 1 : CC}を持っため、統合される。該子ノードのカウンタ配列の各デー タベース分割のカウンタの総和を求めることによって、 1番目が 4、 2番目はカウントな しとなる。子ノード 1902に子ノード 1903を統合する場合、子ノード 1902のカウンタ 配列を 1番目が 4、 2番目はカウントなしとし、子ノード 1903の項目 {虚血性心疾患病 名:なし }をラベルとする子ノード 1904へのリンク 1906と項目 {虚血性心疾患病名: 狭心症 }をラベルとする子ノード 1905へのリンク 1907とを子ノード 1902の子ノードの リンクに追加し、子ノード 1903を削除する。すべての同一のラベルを持つ子ノードの 統合が終了したとき、図 20に示すパターンツリー構造が構築され、記憶部に保持さ れる。該パターンツリー構造は以降にデータベース分割 {遺伝子 1,遺伝子 2,虚血 性心疾患病名,危険因子病名 }、データベース分割 {遺伝子 2,虚血性心疾患病名, 危険因子病名 }が計数処理に必要になったときに再利用出来る。
[0128] 本実施例に示したように、パターンツリー構造の再利用により、ノターンツリー構築 の処理負荷を低減することが出来る。
実施例 9
[0129] 図 21は、本発明の第 4の実施形態のシステム構成例を示す図である。このシステム は処理装置 2101、記憶装置 2102、データ格納装置 2103、入力装置 2104、出力 装置 2105がバスまたはネットワークである通信路 2106を介して相互接続されている 。各装置の処理は第 1、第 2、第 3の実施形態と同じであり、処理装置 2101は処理部 101、記憶装置 2102は記憶部 102、データ格納装置 2103はデータ格納部 103、 入力装置 2104は入力部 104、出力装置 2105は出力部 105の処理を行うことによつ て、欠損を含むデータから相関ルールを抽出することが出来る。
実施例 10
[0130] 図 22は、本発明の第 5の実施形態のシステム構成例を示す図である。このシステム は処理装置 2201、記憶装置 2102、入力装置 2104、出力装置 2105と複数のデー タ格納装置 2203a, 2203b, · · · , 2203m (mは 2以上の整数)がバスまたはネットヮ ークである通信路 2106を介して相互接続されている。各データ格納装置には、 2以 上のデータ格納装置の間で属性が同一または重複するデータベースであり、 2以上 のデータ格納装置の間で重複する識別子が存在しないレコードが保持されている。
[0131] 記憶装置 2102、入力装置 2104、出力装置 2105の処理は第 4の実施形態と同じ である。処理装置 2201は各データ格納装置 2203aから 2203mからレコードを読み 出すことによって、第 4の形態と同じ処理により、欠損を含むデータ力 相関ルールを 導出することが出来る。
実施例 11
[0132] 図 23に示す小売業におけるバスケットデータを例にとり、第 5の実施形態の処理を 説明する。
[0133] 解析対象となるデータベースは複数の属性力もなるレコードの集合である。小売業 におけるバスケットデータを例に取ると、 1つのレコードは 1人の顧客の購入した商品 のリストであり、各属性は商品名、商品分類など販売する商品に関する情報、または 、性別、年齢層など購入した顧客の特徴に関する情報である。
[0134] 本実施例では、店舗 A、店舗 B、店舗 Cの 3つの店舗におけるノ スケットデータが通 信路によって接続された 3つの独立したデータ格納装置 2303a、 2303b, 2303cに 保持されているとする。図 23の例は商品 1、商品 2、商品 3、商品 4の 4つの属性から なり、各属性の属性値は 1と 0の 2値である。属性値が 1であることは、顧客が該属性 値の属性である商品を購入したこと、 0であることは購入しな力つたことを示して 、る。 全レコード数を 30とし、レコード識別子 1から 12が店舗 Aのデータベース、レコード識 別子 13から 20が店舗 Bのデータベース、レコード識別子 21から 30が店舗 Cのデー タ格納部に格納されている。店舗 Aはすべての商品を販売しているため、欠損デー タは含まない。しかし、店舗 Bは商品 4を販売していないため、店舗 Bのデータベース におけるレコードは商品 4がすべて欠損データとなる。店舗 Cはある時期までは商品 2を販売していな力つたため、一部のレコードにおいて商品 2が欠損データとなって いる。
[0135] 入力装置 2104において、ユーザ力も支持度の最小値が 0. 20、確信度の最小値 が 0. 75、レコード利用度の最小値が 0. 2と入力された場合について考える。
[0136] 処理装置 2201はデータ格納装置 2303a, 2303b, 2303c力もレコードを読み出 すことによって、表 17に示すデータベース分割を作成し、記憶装置 2102に保持する 。以降の処理は、処理装置 2201において、記憶装置 2102からデータを読み出すこ とと抽出した相関ルールを出力装置 2105に出力することによって、第 1の実施形態 と同様に処理することが出来る。
[表 17]
表 1 7 データベース分割(商品 1 ,商品 2,商品 3,商品 4}
Figure imgf000057_0001
データベース分割 {商品 1,商品 2 ,商品 3 }
Figure imgf000057_0002
データベース分割(商品 1 ,商品 3,
レシート番号 商品 1 商品 3 商品 4
21 0 1 0
22 0 1 0
23 0 1 0
24 1 1 1
25 0 1 0
26 1 1 0
27 1 0 0
28 0 1 0 [0137] 本実施例の場合、例えば、相関ルール {商品 1: 1 }→{商品 2 : 1 } (確信度 = 1. 00 、支持度 =0. 23、レコード利用度 =0. 67)が抽出される。該相関ルールは商品 1を 購入した顧客は常に商品 2も購入していることを意味している。さらに、本実施例の場 合、相関ルール {商品 1 : 0,商品 2 : 0}→{商品 4 : 1 } (確信度 =0. 75、支持度 =0. 43、レコード利用度 =0. 40)が抽出される。該相関ルールは商品 1と商品 2を共に 購入しな力つた顧客の 4分の 3の顧客が商品 4を購入して 、ることを意味して 、る。こ のような相関ルールから商品の配置など販売方針決定に役立てることが出来る。
[0138] なお本発明の応用範囲は医療や小売業に限定されず、広くデータベースを業務管 理に使う分野に適用可能であることは言うまでもない。
産業上の利用可能性
[0139] 欠損を含むデータを解析対象とし、データ間の関連性を解析するソフトウェア、サ 一ビスに本発明を適用出来る。汎用のデータマイニングソフトウェア、統計解析ソフト ウェアの相関ルールマイニング機能に本発明を追加することも出来る。

Claims

請求の範囲
[1] データベースにおける属性と属性値の組を項目、項目の組合せを項目パターンと するとき、 0以上の属性値の欠損したレコードからなるデータベースから、属性値の欠 損して!/、な!/、2以上の項目の間に成り立つ相関ルールを抽出する方法であって、 データベースを同一の属性が欠損データであるレコードの単位に分割する第 1のス テツプと、
分割されたデータベースにお!/、て特定の属性を含む項目パターンが含まれるレコ ード数である支持回数を数え上げる第 2のステップと、
分割されたデータベース毎に数え上げた項目パターンのレコード数によってデータ ベース全体での前記項目パターンが含まれるレコード数を数え上げる第 3のステップ と、
前記第 3のステップで数え上げられた項目パターンの部分パターンを前提部、前記 部分パターンを除いた前記項目パターンの残部のパターンを結論部とする相関ルー ルを作成する第 4のステップと、
前記特定の属性を解析対象力 除外する第 5のステップと
を含むことを特徴とする相関ルール抽出方法。
[2] 前記相関ルールにつ 、て、前記データベース中で該相関ルールを構成する項目 パターンの属性が欠損していないレコードに対する該項目パターンを含むレコードの 割合である支持度と、
相関ルールの前提部の項目パターンを含むレコード中で、該相関ルールの結論部 のアイテムセットも同時に含むレコードの割合である確信度と、
相関ルールの前提部または結論部の項目パターンが含まれる属性が欠損データ でないレコードの前記データベース中の全レコードに対する割合であるレコード利用 度との
指定された最小値である最小支持度と、最小確信度と、最小レコード利用度とを満 たす相関ルールを抽出することを特徴とする請求項 1記載の相関ルール抽出方法。
[3] 前記第 2のステップにお 、て、各分割されたデータベースにお!/、て指定された最小 支持度以上の項目パターンである局所頻出パターンを抽出し、 前記第 3のステップにおいて、前記局所頻出パターンについてのみ前記データべ ース全体での支持回数を数え上げ、支持度を計算することを特徴とする請求項 2記 載の相関ルール抽出方法。
[4] 前記第 3のステップにおいて、
支持回数が未知の項目ノターンの支持回数の上限値を、前記分割されたデータ ベースの当該項目パターンの既知の支持回数と前記分割されたデータベース以外 の該項目パターンに含まれる属性がすべて欠損データでな 、分割されたデータべ ースにおける該項目パターンの部分パターンである項目パターンの既知の支持回数 力 計算するステップと、
前記計算した支持回数の上限値力 支持度の上限値を計算するステップと、 前記計算した支持度の上限値が前記最小支持度未満である項目パターンを前記 第 3のステップで数え上げる項目パターンから除外するステップと
をさらに有することを特徴とする請求項 2記載の相関ルール抽出方法。
[5] 項目パターン Xが含む属性が欠損データでな 、前記分割されたデータベースにつ いて、
前記分割されたデータベースが m個(mは 1以上の整数)であるとし、
項目ノターン Xの局所支持回数が既知の前記分割されたデータベースを DB(1)、 · • ·、 DB(n) (nは 1以上の整数)とし、
項目パターン Xの局所支持回数が未知の前記分割されたデータベースを DB(n+ 1)、 · · ·、 DB(m)とし、
分割されたデータベースのレコード数を RC(DB(i》とし、
項目パターン Xの分割されたデータベース DB(i)における局所支持回数を LS(X: D B(i))とし、
項目パターン Xの部分パターンを X,とするとき、
項目パターン Xのデータベース全体での支持度の上限値 U(X)を下式によって計算 することを特徴とする請求項 4記載の相関ルール抽出方法。
[数 1] ∑;' , LS(X: DB(i)) +∑'; n+[ min{LS(X': DB jJ) ' }
U(X) = =^
∑ RC(DB(k)) データベースにおける属性と属性値の組を項目、項目の組合せを項目パターンと するとき、 0以上の属性値の欠損したレコードからなるデータベースから、属性値の欠 損していない 2以上の項目の間に成り立つ相関ルールを抽出するシステムであって、 相関ルールにつ 、て、前記データベース中で該相関ルールを構成する項目パタ ーンの属性が欠損していないレコードに対する該項目パターンを含むレコードの割 合である支持度の最小値と、
相関ルールの前提部の項目パターンを含むレコード中で、該相関ルールの結論部 のアイテムセットも同時に含むレコードの割合である確信度の最小値と、
相関ルールの前提部または結論部の項目パターンが含まれる属性が欠損データ でないレコードの前記データベース中の全レコードに対する割合であるレコード利用 度最小値と
を入力するユーザ入力部と、
データベースを同一の属性が欠損データであるレコードの単位に分割するデータ ベース分割作成部と、
各分割されたデータベースにお!/、て最小支持度を満たし、特定の属性を含む項目 パターンを抽出する局所頻出パターン抽出部と、
前記局所頻出ノターン抽出された局所頻出パターンについて、該項目パターンを 含むレコードの該項目パターンが含む属性が欠損データでないデータベース全体の レコードに対する割合である全域支持度が最小支持度を満たす項目パターンを抽出 する全域頻出パターン抽出部と、
前記全域頻出パターン抽出部で抽出された項目パターン力も相関ルールを導出 する相関ルール導出部と、
導出された相関ルールを表示する出力部と
を含むことを特徴とする相関ルール抽出システム。
PCT/JP2006/304354 2005-10-07 2006-03-07 相関ルールを抽出する方法及びシステム WO2007043199A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/089,284 US7979473B2 (en) 2005-10-07 2006-03-07 Association rule extraction method and system
JP2007539808A JP4676498B2 (ja) 2005-10-07 2006-03-07 相関ルールを抽出する方法及びシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005295381 2005-10-07
JP2005-295381 2005-10-07

Publications (1)

Publication Number Publication Date
WO2007043199A1 true WO2007043199A1 (ja) 2007-04-19

Family

ID=37942464

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/304354 WO2007043199A1 (ja) 2005-10-07 2006-03-07 相関ルールを抽出する方法及びシステム

Country Status (3)

Country Link
US (1) US7979473B2 (ja)
JP (1) JP4676498B2 (ja)
WO (1) WO2007043199A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223415A (ja) * 2008-03-13 2009-10-01 Toshiba Corp 情報処理装置及び方法
JP2012073812A (ja) * 2010-09-29 2012-04-12 Hitachi Ltd データ分析支援システム及び方法
US20200302324A1 (en) * 2019-03-20 2020-09-24 Fujitsu Limited Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program
CN112149156A (zh) * 2019-06-27 2020-12-29 皇家飞利浦有限公司 记录的属性和数据条目的选择性公开

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825588B2 (en) * 2011-10-21 2014-09-02 International Business Machines Corporation Rule correlation to rules input attributes according to disparate distribution analysis
US9189503B2 (en) 2012-12-06 2015-11-17 Microsoft Technology Licensing, Llc Database scale-out
CN104182502B (zh) * 2014-08-18 2017-10-27 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
US9442694B1 (en) * 2015-11-18 2016-09-13 International Business Machines Corporation Method for storing a dataset
CN105468725B (zh) * 2015-11-20 2019-03-08 北京京东尚科信息技术有限公司 一种关系型数据库中表分段抽取系统及方法
JP6572795B2 (ja) * 2016-02-16 2019-09-11 富士通株式会社 解析装置及び解析プログラム
CN107102999B (zh) * 2016-02-22 2021-09-10 阿里巴巴集团控股有限公司 关联分析方法和装置
US10885047B2 (en) * 2016-07-01 2021-01-05 Oracle International Corporation System and method providing association rule aggregates
US11663275B2 (en) * 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system
CN114839601B (zh) * 2022-07-04 2022-09-16 中国人民解放军国防科技大学 基于频繁项分析的雷达信号高维时序特征提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250084A (ja) * 1998-03-02 1999-09-17 Mitsubishi Electric Corp データマイニング装置
JP2002278761A (ja) * 2001-03-16 2002-09-27 Hitachi Ltd 否定項を含む相関ルール抽出方法およびシステム
JP2004029902A (ja) * 2002-06-21 2004-01-29 Hitachi Ltd 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
JP2004213463A (ja) * 2003-01-07 2004-07-29 Web Intelligence Lab:Kk データ処理方法、データ処理プログラム、その記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794209A (en) 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US6941303B2 (en) * 2000-09-20 2005-09-06 Ndsu Research Foundation System and method for organizing, compressing and structuring data for data mining readiness
US20030208488A1 (en) * 2000-09-20 2003-11-06 North Dakota State University System and method for organizing, compressing and structuring data for data mining readiness

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250084A (ja) * 1998-03-02 1999-09-17 Mitsubishi Electric Corp データマイニング装置
JP2002278761A (ja) * 2001-03-16 2002-09-27 Hitachi Ltd 否定項を含む相関ルール抽出方法およびシステム
JP2004029902A (ja) * 2002-06-21 2004-01-29 Hitachi Ltd 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
JP2004213463A (ja) * 2003-01-07 2004-07-29 Web Intelligence Lab:Kk データ処理方法、データ処理プログラム、その記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAEKI T. ET AL.: "Mining association rules with classification hierarchies on a relational database management system", vol. 98, no. 57, 8 July 1998 (1998-07-08), pages 127 - 137, XP003000035 *
SHINTANI T., KITSUREGAWA M.: "Performance evaluations of load balancing algorithms for mining generalized association rules", vol. 99, no. 203, 23 July 1999 (1999-07-23), pages 31 - 36, XP003000034 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223415A (ja) * 2008-03-13 2009-10-01 Toshiba Corp 情報処理装置及び方法
JP2012073812A (ja) * 2010-09-29 2012-04-12 Hitachi Ltd データ分析支援システム及び方法
US20200302324A1 (en) * 2019-03-20 2020-09-24 Fujitsu Limited Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program
US11562275B2 (en) * 2019-03-20 2023-01-24 Fujitsu Limited Data complementing method, data complementing apparatus, and non-transitory computer-readable storage medium for storing data complementing program
CN112149156A (zh) * 2019-06-27 2020-12-29 皇家飞利浦有限公司 记录的属性和数据条目的选择性公开
JP2021007217A (ja) * 2019-06-27 2021-01-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. レコードの属性及びデータエントリの選択的開示
CN112149156B (zh) * 2019-06-27 2022-12-13 皇家飞利浦有限公司 用于公开记录的属性和数据条目的系统和选择器及其方法
US11658827B2 (en) 2019-06-27 2023-05-23 Koninklijke Philips N.V. Selective disclosure of attributes and data entries of a record

Also Published As

Publication number Publication date
US20100131506A1 (en) 2010-05-27
JP4676498B2 (ja) 2011-04-27
JPWO2007043199A1 (ja) 2009-04-16
US7979473B2 (en) 2011-07-12

Similar Documents

Publication Publication Date Title
WO2007043199A1 (ja) 相関ルールを抽出する方法及びシステム
US11756652B2 (en) Systems and methods for analyzing sequence data
Khalili-Damghani et al. Hybrid soft computing approach based on clustering, rule mining, and decision tree analysis for customer segmentation problem: Real case of customer-centric industries
Muggeo et al. Efficient change point detection for genomic sequences of continuous measurements
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
CN103914506B (zh) 数据检索装置、数据存储方法和数据检索方法
JP3701633B2 (ja) 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
US20110004626A1 (en) System and Process for Record Duplication Analysis
US20140067813A1 (en) Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism
JPH08272825A (ja) データ分析方法
JP2002278761A (ja) 否定項を含む相関ルール抽出方法およびシステム
Rahnenführer et al. Estimating cancer survival and clinical outcome based on genetic tumor progression scores
Xu A big-data oriented recommendation method based on multi-objective optimization
JP2007034700A (ja) 予測プログラムおよび予測装置
US10713573B2 (en) Methods and systems for identifying and prioritizing insights from hidden patterns
Zare et al. Determination of Customer Satisfaction using Improved K-means algorithm
JP2010176288A (ja) 業務プロセス類似度評価装置およびその方法
Yuan et al. I/O efficient ECC graph decomposition via graph reduction
JP6242540B1 (ja) データ変換システム及びデータ変換方法
Shao et al. Comparing genomes with rearrangements and segmental duplications
Liu et al. A fast and memory efficient MLCS algorithm by character merging for DNA sequences alignment
Silva et al. On defining and finding islands of trees and mitigating large island bias
Wong et al. A multi-stage approach to clustering and imputation of gene expression profiles
CN108319626B (zh) 一种基于名称信息的对象分类方法与设备
CN112434104A (zh) 面向关联规则挖掘的冗余规则筛除方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007539808

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12089284

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06715324

Country of ref document: EP

Kind code of ref document: A1