JPWO2007043199A1 - 相関ルールを抽出する方法及びシステム - Google Patents

相関ルールを抽出する方法及びシステム Download PDF

Info

Publication number
JPWO2007043199A1
JPWO2007043199A1 JP2007539808A JP2007539808A JPWO2007043199A1 JP WO2007043199 A1 JPWO2007043199 A1 JP WO2007043199A1 JP 2007539808 A JP2007539808 A JP 2007539808A JP 2007539808 A JP2007539808 A JP 2007539808A JP WO2007043199 A1 JPWO2007043199 A1 JP WO2007043199A1
Authority
JP
Japan
Prior art keywords
item
database
pattern
attribute
support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007539808A
Other languages
English (en)
Other versions
JP4676498B2 (ja
Inventor
新谷 隆彦
隆彦 新谷
尾藤 良孝
良孝 尾藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2007043199A1 publication Critical patent/JPWO2007043199A1/ja
Application granted granted Critical
Publication of JP4676498B2 publication Critical patent/JP4676498B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

データの欠損を含むデータベースから、同一の属性が欠損するレコード単位に分割したデータベースを処理することによって相関ルールを抽出する。解析対象の欠損を含むデータベースを同一の属性が欠損するレコードの塊となるようにデータベースを分割する手段、分割されたデータベースの局所的な支持回数からデータベース全体での支持度の上限値を推定することによって支持回数を数え上げるレコードを限定する手段によって欠損を含むデータベースから相関ルールを抽出する。

Description

本発明は、データベース及びデータウェアハウスを対象にしたデータ解析方法及びシステムに関し、特にデータベースのレコードを解析してレコードに含まれるデータの相関性を明らかにするデータマイニングに関する。
膨大なデータを解析することによってその中に埋もれた有用な情報を抽出するデータマイニングにおいて、データの相関(連関)を示す相関ルールが知られている。例えば、スーパーマーケットのバスケットデータのデータマイニングを考えてみる。スーパーマーケットには複数の商品があり、顧客はその一部の商品の組合せを購入する。顧客が購入した商品の組合せがバスケットデータとして記録される。多数のバスケットデータを解析する場合、有意な商品パターン、つまり、複数の顧客に購入した現れるパターンを抽出することが望ましい。このパターンを頻出パターン(大品目セット,ラージ品目セット)と呼ぶ。「商品Aと商品Bを同時に購入した顧客は、商品Cと商品Dも同時に購入することが多い。」のような相関ルールが抽出された場合、商品CとDの売り上げと商品AとBの売り上げに関連があることが分かり、商品の配置や特売品の選定、価格の設定など販売の方針決定に役立てることが出来る。
相関ルールを抽出する研究は、データマイニングの分野において行われてきた。例えば、特許文献1、特許文献2、非特許文献1に記載の方法がある。特許文献1、特許文献2、非特許文献1など従来手法では、複数の2値属性を含むレコードの集合からなるデータベースから、ユーザによって予め設定された支持度の最小値(最小支持度)以上となる属性値が真となる組合せを抽出し、抽出した組合せからユーザによって予め設定された確信度の最小値(最小確信度)以上となる相関ルールを導出していた。各々のレコードで、属性と属性値の組を項目と呼ぶ。支持度とは全データベース中で項目の組合せを含むレコードの割合である。これら方法により抽出される支持度の最小値を超える項目の組合せを頻出パターンと呼ぶ。相関ルールは頻出パターンに含まれる項目パターンの部分集合から導出する。これら従来技術では、欠損データを含まない理想的なデータベースを解析対象としており、欠損データを含むデータベースが考慮されていない。
しかしながら、解析対象とするデータベースには欠損データが存在する場合がある。例えば、医療分野における遺伝子解析データの場合、検体の状態、解析する座位の周辺の遺伝子配列、解析装置の状態によって、遺伝子型が解析出来ない座位が存在する。患者毎に遺伝子型が解析出来ない座位は異なり、個々の患者においても遺伝子型を解析出来る座位と解析出来ない座位が混在する。複数の患者について、遺伝子型が解析出来た座位の遺伝子データと症例データを解析することによって、有用な情報を得ることが出来る。遺伝子データと症例データを解析対象として相関ルールを抽出することにより、遺伝子と薬剤の効果との関係などを知ることが出来る。例えば、「遺伝子AのX番目の座位の遺伝子型がY型の患者は、薬剤Cに対してアレルギー反応を起こす。」のような相関ルールが抽出された場合、患者の遺伝子AのX番目の座位の型を調べることにより、薬剤Cを処方すべきか否かの判断に役立ち、各患者に適した医療を行うことが出来る。従来技術を適用した場合、項目パターンの支持度が誤った値となり、正しい相関ルールを抽出することが出来ない。
別の例を示す。例えば、スーパーマーケットのバスケットデータの場合、個々の店舗によって、販売する商品が異なる場合がある。例えば、統括する地域内の複数の店舗のバスケットデータを解析することによって、統括する地域内の商品の販売傾向を知ることが出来る。商品Aと商品Bの関連を調べるためには、商品Aと商品Bを共に販売する店舗のバスケットデータのみを利用する。商品Aまたは商品Bを販売していない店舗のバスケットデータを解析に利用した場合、誤った結果を得ることになる。
欠損データを含むデータベースから相関ルールを抽出する方法に関しては、非特許文献2がある。非特許文献2の方法では、複数の離散値属性を持つレコードが複数ある、いわゆる縦かける横の表形式のデータベースから、ユーザにより予め設定された支持度の最小値とレコード利用度の最小値以上となる相関ルールを抽出していた。ここで、属性と属性値の組を項目と呼び、項目の組合せを項目パターンと呼ぶ。項目パターンが現れるデータベース中のレコード数を支持回数と呼び、項目を構成する属性が欠損データでないレコードの中で項目の組合せを含むレコードの割合を支持度と呼ぶ。相関ルールに含まれる属性が欠損データでないレコード数のデータベース中の全レコード数に対する割合をレコード利用度と呼ぶ。
非特許文献2の方法の相関ルールを抽出する手順を説明する。最初のステップでは、データベース中のレコードを取り出し、各項目について該項目が出現するレコード数の計数、該項目を構成する属性が欠損データであるレコードの識別子を取得する。ある項目Xが出現するレコード数を支持回数、ある項目Xを構成する属性が欠損データであるレコードの識別子のリストを欠損レコードリストと呼ぶ。すべてのレコードについて計数が終わると、各項目の支持度を計算し、支持度の最小値以上となる項目を取り出す。支持度が最小値以上となる項目を頻出項目と呼ぶ。ここで、ある項目Xの支持度は、項目Xの支持回数とデータベース全体のレコード数から項目Xの欠損レコードリストの識別子の数を引いた値との商である。次のステップでは、2つの頻出項目を組合せ、2つの項目からなる項目パターンを作成する。支持回数が未知の項目パターンを候補パターンと呼ぶ。各候補パターンについて、候補パターンを構成する項目の欠損レコードリストの識別子の和集合を該候補パターンの欠損レコードリストとする。再び、データベース中のレコードを取り出し、各候補パターンについて支持回数を計数する。すべてのレコードについて計数が終わると、各候補パターンの支持度を計算し、支持度が最小値以上となる候補パターンを取り出す。支持度が最小値以上となる候補パターンを頻出パターンと呼ぶ。以降のステップでは、k個の項目から構成される頻出パターンにおいて、(k−1)個の項目が共通する頻出パターンを組合せ、(k+1)個の候補パターンを作成し、欠損レコードリストを取得し、データベース中のレコードを取り出し、各候補パターンの支持回数を計数し、支持度を計算し、頻出パターンを取り出すステップを繰り返す。すべての頻出パターンが抽出された時点で、k個の項目からなる頻出パターンについて、該頻出パターンを構成する項目パターンの部分パターンから相関ルールを作成する。
特開平8−287106号公報 米国特許第5,794,209号明細書 G.Liu, H.Lu, Y.Xu, J.Yu, "Ascending frequency ordered prefix-tree: efficient mining of frequent patterns", in proceedings of International Conference on Database Systems for Advanced Applications,2003 A.Ragel, B.Cremilleux, "Treatment of missing values for association rules", in proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining,1998
従来技術で述べたように、欠損を含むデータベースから相関ルールを抽出するのに特許文献1,2、非特許文献1をそのまま使用すると、相関ルールを正確に抽出することが出来ないという問題がある。
非特許文献2の方法は欠損を含むデータベースから相関ルールを抽出する方法であるが、候補パターンの作成とデータベーススキャンを繰り返すため、処理性能が悪い。さらに、最初のステップで抽出された頻出項目に含まれない相関ルールを抽出することが出来ない。例えば、データベース全体のレコード数を12、ある項目Xの支持回数を4、項目Xの欠損レコードリストを{1,2}、ある項目Yの支持回数を5、項目Yの欠損レコードリストを{2,3,4,5,6}とし、支持度の最小値を0.5とする。ここで、項目XとYを組合わせた項目パターンの支持回数が4の場合、該項目パターンの欠損レコードリストは{1,2,3,4,5,6}となり、支持度は0.67となるため、頻出パターンとなる。したがって、項目XとYからなる相関ルールが抽出されなければならない。しかし、項目Xは頻出項目ではないため、非特許文献2の方法では項目Xを含む相関ルールを抽出することは出来ない。このように非特許文献2の方法は欠損を含むデータベースを解析対象としているが、すべての相関ルールを抽出することが出来ないという欠点がある。
本発明の第1の目的は、欠損を含むデータベース中に存在する欠損のないデータの間に成り立つすべての相関ルールを抽出する方法およびシステムを提供することである。
本発明の第2の目的は、相関ルールを抽出するために同一の属性が欠損データであるレコードの単位にデータベースを分割し、各分割されたデータベース毎に項目パターンの支持回数を計数することによってデータベース全体での支持度を求め、相関ルールを抽出する方法およびシステムを提供することである。
本発明の第3の目的は、相関ルールを抽出するために探索する項目パターンの支持回数計数処理量を低減する方法を提供することである。
本発明による相関ルール抽出方法の1つの特徴は、2以上の属性からなるレコードと、0以上の欠損データを含むレコードの集合からなるデータベースから、ユーザにより指定された支持度の最小値、確信度の最小値、レコード利用度の最小値を満たす相関ルールを、同一の属性が欠損データであるレコードの単位にデータベースを分割する処理、分割されたデータベースにおいて支持度の最小値を満たす項目パターンである局所頻出パターンを抽出する処理、局所頻出パターンについてデータベース全体での支持度を求める処理、データベース全体での頻出パターンから相関ルールを導出する処理によって抽出することである。
本発明の別の特徴は、同一の属性が欠損データであるレコードの単位に分割されたデータベースにおいて、少なくとも1つのデータベース分割において支持度と支持回数が既知であり、少なくとも1つのデータベース分割において支持度と支持回数が未知の局所頻出パターンのデータベース全体での支持度の上限値を、支持度が既知のデータベース分割においてはその項目パターンの支持回数を、支持度が未知のデータベース分割においてはその項目パターンの部分パターンの支持回数を用いて計算することにより、該局所頻出パターンの支持回数を数え上げるデータベース分割を限定することである。
本発明の別の特徴は、特定の属性を含む相関ルールから順に抽出し、該属性を含む相関ルール抽出処理が終了した時点で、該属性を以降の解析対象から除外することによって、解析処理において同時に必要なデータを限定することである。
すなわち、本発明による相関ルール抽出方法は、データベースにおける属性と属性値の組を項目、項目の組合せを項目パターンとするとき、属性値の欠損したレコードを含むデータベースから、属性値の欠損していない2以上の項目の間に成り立つ相関ルールを抽出する相関ルール抽出方法であって、データベースを分割する第1のステップと、特定の属性を含む項目パターンについて、分割されたデータベース毎に項目パターンの支持回数を計数することによって分割されたデータベースにおいて予め設定された支持度の最小値以上となる項目パターンである局所頻出パターンを抽出する第2のステップと、抽出された局所頻出パターンのデータベース全体での支持度を求める第3のステップと、抽出された頻出パターンから相関ルールを導出する第4のステップと、相関ルール抽出処理が終了した属性を以降の解析対象から除外する第5のステップとを含むことを特徴とする。
この方法によると、欠損データを含むデータベースから、欠損のないデータに成り立つ相関ルールをすべて抽出することが可能となる。
属性値は、離散値または離散値に対応付けることが出来る値であることが好ましい。
第2から第4のステップにおいては、特定の属性は1以上の属性であれば良く、複数の属性でも良い。
確信度の最小値、および、レコード利用度の最小値は指定されなくても良く、その場合には確信度の最小値とレコード利用度の最小値は0として処理することでも良い。
ユーザ入力などによって、抽出する相関ルールに含まれる項目、または、属性が指定されている場合、第1のステップにおいて、指定された項目および属性のみを含む分割されたデータベースを構築するのが好ましい。
項目パターンXが属する属性リストを含むすべてのデータベース分割において、項目パターンXの局所支持回数が既知の場合、項目パターンXのデータベース全体での支持度である全域支持度は下記の式(1)によって計算される。
Figure 2007043199
ここで、項目パターンXが属する属性リストを含むデータベース分割をm個(mは1以上の整数)、項目パターンXの局所支持回数が既知のデータベース分割をDB(1),・・・,DB(m)、データベース割DB(i)が含むレコード数をRC(DB(i))、項目パターンXのデータベース分割DB(i)における局所支持回数をLS(X:DB(i))とする。
項目パターンXが属する属性リストを含むデータベース分割において、項目パターンXの局所支持回数が未知のデータベース分割が存在する場合、項目パターンXの局所支持回数がどの部分パターンの局所支持回数よりも大きな値となることがないため、項目パターンXの全域支持度の上限値は下記の式(2)によって計算される。
Figure 2007043199
ここで、項目パターンXが属する属性リストを含むデータベース分割をm個(mは1以上の整数)、項目パターンXの局所支持回数が既知のデータベース分割をDB(1),・・・,DB(n)(nは1以上の整数)、項目パターンXの局所支持回数が未知のデータベース分割をDB(n+1),・・・,DB(m)、データベース分割DB(i)が含むレコード数をRC(DB(i))、項目パターンXのデータベース分割DB(i)における局所支持回数をLS(X:DB(i))、項目パターンXの部分集合をX’とする。
計算された全域支持度の上限値がユーザから指定された最小支持度未満である項目パターンについて、局所支持回数が未知のデータベース分割における計数を回避することによって、解析処理量を低減することが出来る。
本発明によると、欠損データを含むデータベースから、欠損していないデータ間に成り立ち、予め設定した支持度の最小値を満たすすべての相関ルールを抽出することが出来る。また、同一の属性が欠損データであるレコードの塊にデータベースを分割し、分割されたデータベースの単位で処理を行い、特定の属性を含む項目パターンに限定して相関ルールを抽出し、処理の終了した属性に関するデータを以降の解析対象から除外することによって解析に必要なデータを限定すること、分割されたデータベースの中で局所的に支持度の最小値を満たす項目パターンのみを処理すること、分割されたデータベース毎の局所的な支持度からデータベース全体での支持度の上限値を推定して数え上げるレコードを限定することによって、解析処理量を低減することが出来る。
本発明の第1の実施形態のシステム構成例を示す図。 本発明における相関ルール抽出処理の概要を示すフローチャート。 本発明におけるデータベース分割の概要を示すフローチャート。 本発明におけるデータベース分割処理を示すフローチャート。 本発明における最小レコード利用度を満たさない属性を削除する処理を示すフローチャート。 本発明における最小支持度と最小レコード利用度を同時に満たすことがない項目を検出する処理を示すフローチャート。 本発明における相関ルール導出処理を示すフローチャート。 本発明における相関ルール抽出処理の終了した属性を削除する処理を示すフローチャート。 本発明の第2の実施形態のシステム構成例を示す図。 本発明におけるデータベース分割処理の概要を示すフローチャート。 本発明におけるデータベース分割処理を示すフローチャート。 本発明における相関ルール抽出処理の終了した属性を削除する処理を示すフローチャート。 本発明の第3の実施形態のシステム構成例を示す図。 本発明における相関ルール抽出処理の概要を示すフローチャート。 局所支持回数の計数に用いられるデータ構造を示す概略図。 データ構造の構築処理手順を示すフローチャート。 データ構造を利用した局所支持回数の計数処理手順を示すフローチャート。 本発明の実施例におけるデータ構造の例を示す図。 本発明の実施例におけるデータ構造の例を示す図。 本発明の実施例におけるデータ構造の例を示す図。 本発明の第4の実施形態のシステム構成例を示す図。 本発明の第5の実施形態のシステム構成例を示す図。 本発明の実施例における解析対象データベースの例を示す図。
符号の説明
101 処理部
102 記憶部
103 データ格納部
104 入力部
105 出力部
901 記憶部
1301 記憶部
2101 処理装置
2102 記憶装置
2103 データ格納装置
2104 入力装置
2105 出力装置
2106 通信路
2201 処理装置
2203 データ格納装置
2303 データ格納装置
以下、図面を参照して本発明の実施の形態を説明する。以下の図において、同等の機能部分には同じ番号を付し、重複する説明を省略する。
はじめに、本実施形態において利用する用語を定義する。
データベースは離散値、または離散値に対応付けることが可能な属性値からなる属性により構成される表形式である。属性値が欠損している(空、NULL)場合、欠損データと呼ぶ。また、属性と属性値の組を項目と呼び、属性:属性値で表現する。ある項目Xが属性Aの属性値Bから構成される場合、項目Xは{A:B}と表現され、項目Xは属性Aに属すると表現する。ここで、属性値が連続値である場合、範囲分割などによって属性値を区分けし、各区分けに特定の離散値を割り当てることにより、連続値を離散値に対応付けることが可能である。また、離散値をグループに分類し、各分類を特定の離散値に対応付けることにより、属性値に含まれない離散値に対応付けることも可能である。
データベースは項目のリストであるレコードの集合であり、1つのレコードには1つの識別子が割り当てられている。解析対象のデータベースは1以上の属性について属性値が欠損したレコードの集合からなる。
項目の組合せを項目パターンと呼び、ある項目パターンXを構成する項目があるレコードの部分集合である場合、該レコードは項目パターンXを含むと表現する。ある項目パターンXが含む項目が属する属性のリストを属性リストYとするとき、項目パターンXは属性リストYに属すると表現する。例えば、項目パターンZが属性Aと属性値A1、属性Bと属性値B1から構成されるとき、項目パターンZは{A:A1,B:B1}と表現され、項目パターンZは属性リスト{A,B}に属する。
属性の組合せについて、解析対象のデータベース中のレコードにおいて、該属性が欠損データでなく、他の属性はすべて欠損データであるレコードの集合をデータベース分割と呼ぶ。例えば、属性Aと属性Bに関するデータベース分割に含まれるレコードは、属性AとBの属性値に欠損データがなく、属性AとB以外の属性はすべての欠損データである。属性AとBに関するデータベース分割は、属性リスト{A,B}のデータベース分割、または、データベース分割{A,B}と表現される。
データベース全体のレコードにおいて、項目パターンXを含むレコードの数を全域支持回数と呼び、該項目パターンが含む項目が属する属性がすべて欠損データでないレコードの数に対する全域支持回数の割合を全域支持度と呼ぶ。あるデータベース分割中のレコードにおいて、項目パターンXを含むレコードの数を局所支持回数と呼び、該項目パターンが含む項目が属する属性がすべて欠損データでないレコードの数に対する局所支持回数の割合を局所支持度と呼ぶ。ここで、支持回数は全域支持回数および局所支持回数を指し、支持度は全域支持度および局所支持度を指す。全域支持度と局所支持度はそれぞれ全域支持回数と局所支持回数から計算することが可能であることから、全域支持度と全域支持回数、および局所支持度と局所支持回数は同様に扱うことが出来る。また、ある項目パターンXが含むすべての項目を項目パターンYが含む場合、項目パターンYは項目パターンXを含むと表現し、項目パターンXを項目パターンYの部分パターンと呼び、項目パターンYを項目パターンXの上位パターンと呼ぶ。また、ある項目パターンの全域支持度が事前に指定された支持度の最小値以上となる場合、該項目パターンを全域頻出パターンと呼ぶ。さらに、ある項目パターンの局所支持度が事前に指定された支持度の最小値以上となる場合、該項目パターンを局所頻出パターンと呼ぶ。
相関ルールはX⇒Yで表現され、XとYは項目パターンであり、XとYに共通する項目は含まれない。Xを前提部、Yを結論部と呼ぶ。一般に相関ルールは支持度と確信度の評価値を持つ。支持度は相関ルールの適用度を示し、相関ルールX⇒Yの支持度は項目パターンXとYの組み合わせの項目パターンの支持度となる。確信度は前提部を満たすレコードが結論部も同時に満たす割合(ルールの前提部が起きたときに、結論部が起きる確率)を意味し、相関ルールX⇒Yの確信度は項目パターンXとYの組合わせの項目パターンの支持度を項目パターンXの支持度で割った値となる。さらに、欠損データを含むデータベースから抽出される相関ルールはレコード利用度の評価値を持つ。レコード利用度は相関ルールを抽出するために利用したレコードの割合を示す。相関ルールX⇒Yのレコード利用度は、項目パターンXとYが含む項目が属する属性がすべて欠損データでないレコードの数をデータベースに含まれる全レコード数で割った値となる。
図1は、本発明の第1の実施形態のシステム構成例を示す図である。このシステムは処理部101と記憶部102とデータ格納部103から構成される。処理部と記憶部はコンピュータからなり、解析対象のデータベースはデータ格納部に格納されている。処理部101は、データベース分割部111、頻出パターン抽出部112、相関ルール導出部113を備え、データあるいはファイルとして支持度、確信度、レコード利用度の最小値、データベース分割レコードデータ、後述する属性順序列、後述する除外項目リスト、項目支持度情報、属性レコード数情報、頻出パターン情報を記憶部102に保持する。また、処理部101には、キーボードやマウスなどを備える入力部104、およびディスプレイやプリンタ等からなる出力部105が接続されている。データ格納部103には、属性X1,X2,…、および識別子R1,R2,…のレコードが格納されている。
図2は、データ解析の手順を詳細に説明するフローチャートである。はじめにユーザは入力部104に抽出する相関ルールの支持度の最小値、確信度の最小値、レコード利用度の最小値を入力する。支持度の最小値を最小支持度、確信度の最小値を最小確信度、レコード利用度の最小値を最小レコード利用度と呼ぶ。処理部101は、入力された最小支持度、最小確信度、最小レコード利用度を獲得し(201)、それらを記憶部102に記憶する。その後、処理部は、接続されたデータ格納部103に格納されたデータに関して、データベース分割を作成し(202)、後述する相関ルール抽出処理の順序を示す属性順序列を作成する(203)。以降、後述する特定の項目について、各データベース分割における局所頻出パターンを抽出し(205)、抽出された局所頻出パターンから全域頻出パターンを抽出し(206)、最小支持度と最小確信度と最小レコード利用度を満たす相関ルールを導出し(207)、抽出された相関ルールを出力部105に出力し、該属性を以降の解析対象から除外する(208)。
図3は、データベース分割作成処理(202)の手順を説明するフローチャートである。はじめに、記憶部102に、各データベース分割に含まれるレコード、各データベース分割における各項目の局所支持回数と局所支持度、各属性の欠損データでないレコード数、解析対象から除外する項目のリストである除外項目リストを保持する領域を用意し、空にする。データベースを同一の属性が欠損データであるレコードの単位に分割し、データベース分割を作成する(301)と同時に、各属性について欠損データでないレコードの数、および、各項目について、該項目の全域支持回数と各データベース分割における局所支持回数とを計数する(301)。その後、最小レコード利用度を満たさない属性を検出し、各データベース分割から削除し、各項目の局所支持回数を更新する(302)。さらに、各属性について、該属性の各データベース分割における局所支持度を計算するとともに、最小支持度と最小レコード利用度を同時に満たすことがない項目を検出し、除外項目リストに追加する(303)。
図4は、データベースを同一の属性が欠損データであるレコードの単位に分割する処理(202)の手順を詳細に説明するフローチャートである。データベースをスキャンし、レコードを読み出す(401)。あるレコードRについて、欠損データでない属性のリストを取り出し、該属性リストのデータベース分割にレコードRを追加する(402)。さらに、レコードRについて、欠損データでない属性のレコード数のカウント、および欠損データでない項目の全域支持回数と局所支持回数のカウントを1増加させる(403)。データベース中に含まれるすべてのレコードについて、以上の処理を繰り返す。
次に、最小レコード利用度を満たさない属性を検出し、該属性を各データベース分割から削除し、各項目の局所支持回数を更新する。図5は、処理の手順を詳細に説明するフローチャートである。各属性について、該属性の欠損データでないレコード数をデータベース全体のレコード数で割った値を計算し、この値が最小レコード利用度未満の場合、該属性を含む相関ルールを抽出する必要がないため、解析対象から除外する(502)。該属性を含むデータベース分割に含まれるレコードを、該データベース分割の属性リストから該属性を削除した属性リストのデータベース分割に追加する(504)。さらに、該属性を含むデータベース分割における各項目の局所支持回数を、該データベース分割の属性リストから該属性を削除した属性リストのデータベース分割における該項目の局所支持回数に加算する(505)。最後に、該属性を含むデータベース分割を削除する(508)。
例えば、属性Xが最小レコード利用度を満たさないとし、属性リストYが属性Xを含むとする。はじめに、属性リストYから属性Xを削除した属性リスト(Y−X)を作成し、属性リストYのデータベース分割に含まれるレコードを属性リスト(Y−X)のデータベース分割に追加する。次に、属性リストYに属する項目Aについて、属性リストYのデータベース分割における項目Aの局所支持回数が1以上の場合、該局所支持回数を属性リスト(Y−X)のデータベース分割における項目Aの局所支持回数に加算し、属性リストYにおける項目Aの局所支持回数のカウントを削除する。最後に、属性リストYのデータベース分割を削除する。
次に、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、除外項目リストに追加する。図6は、処理の手順を説明するフローチャートである。項目Aについて、該項目の支持回数がaであり、データベース全体のレコード数がzであり、最小支持度がs、最小レコード利用度がrであるとするとき、zとsとrの積の値cがaよりも大きい(c>a)場合(602)、項目Aを解析対象から除外するため、除外項目リストに追加する(603)。
次に、各項目について、各データベース分割における局所支持度を計算し、記憶部102に保持する。
図2に戻って、1以上のデータベース分割に含まれる属性を任意の順に並べ替え、属性順序列を作成する(203)。例えば、各属性を含むデータベース分割の種類数の少ない順とする。局所頻出パターン抽出処理205と全域頻出パターン抽出処理206と相関ルール導出処理207は、この属性順序列の属性の並び順に従い、特定の属性について繰り返し行う。
局所頻出パターン抽出処理205は、特定の属性について、該属性を含むすべてのデータベース分割において該属性に属する項目を含む項目パターンの局所支持回数を計数し、該項目パターンの局所支持度を算出し、局所頻出パターンを抽出する。ここで、各データベース分割における項目パターンの局所支持回数を計数する項目は、除外項目リストになく、該データベース分割において局所頻出項目である項目である。各データベース分割における局所頻出パターンを抽出する処理は、特許文献1の方法などにより行うことが出来る。
全域頻出パターン抽出処理206は、すべての局所頻出パターンが抽出された時点で、1以上のデータベース分割において局所頻出となる項目パターンについて、該項目パターンの全域支持回数を求め、全域支持度を計算し、最小支持度を満たす場合に全域頻出パターンとして、記憶部102に保持する。
例えば、項目パターンXについて、項目パターンXが属する属性リストのデータベース分割がZ0とZ1であり、項目パターンXがデータベース分割Z0において局所頻出であるとする。項目パターンXがデータベース分割Z1においても局所頻出である場合、項目パターンXの全域支持回数はデータベース分割Z0での局所支持回数とデータベース分割Z1での局所支持回数の和の値となる。ある項目パターンXについて、該項目パターンの全域支持度は式(1)によって計算される。項目パターンXがデータベース分割Z1においては局所頻出でないが、データベース分割Z1における局所支持回数が既知の場合、項目パターンXの局所支持回数が、項目パターンXの属するすべての属性リストのデータベース分割において計数済みであるため、項目パターンXの全域支持回数はデータベース分割Z0での局所支持回数とデータベース分割Z1での局所支持回数の和の値となり、項目パターンXの全域支持度は式(1)によって計算される。項目パターンXがデータベース分割Z1においては局所頻出でなく、データベース分割Z1における局所支持回数が未知の場合、項目パターンXの全域支持度の上限値を式(2)によって計算する。項目パターンXの全域支持回数の上限値は項目パターンXのデータベース分割Z0における局所支持回数と項目パターンXの局所支持回数が既知の部分パターンのデータベース分割Z0における局所支持回数の最小値の和の値となる。該全域支持度の上限値が最小支持度以上の場合、データベース分割Z1における項目パターンXの局所支持回数を計数し、式(1)を用いて項目パターンXの正しい全域支持回数を全域支持度を計算し、全域支持度が最小支持度以上の場合、全域頻出パターンとして記憶部102に保持する。
再び図2に戻って、相関ルール導出処理207において、全域頻出パターン抽出処理206によって抽出された全域頻出パターンから相関ルールを導出する。図7は、相関ルール導出処理207を詳細に説明するフローチャートである。全域頻出パターンXについて、該全域頻出パターンから作成可能なすべての部分パターンを作成し(702)、該部分パターンを前提部、該全域頻出パターンに含まれるが該部分パターンに含まれない項目のパターンを結論部とすることにより、相関ルールを導出する。該全域頻出パターンの全域支持回数が該相関ルールの支持回数、全域支持度が支持度となる。該相関ルールの確信度は該全域頻出パターンの支持回数を該相関ルールの前提部の項目パターンの該相関ルールの項目パターンが属するデータベース分割における局所支持回数の総和で割った値となる(705)。該相関ルールの前提部の項目パターンの該全域頻出パターンが属するデータベース分割における局所支持回数が未知の場合(703)、該データベース分割のレコードを読み出し、局所支持回数を計数する(704)。導出された相関ルールはディスプレイなどの出力部105に表示される(707)。
次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する。図8は、属性の削除処理の手順を詳細に説明するフローチャートである。相関ルール導出処理が終了した属性について、各データベース分割から該属性を削除する。データベース分割を再編集し(803)、該データベース分割に属する項目の局所支持回数と局所支持度を更新し(805)、該属性を含むデータベース分割を削除する(809)。さらに、該属性に属する項目を除外項目リストに追加する(810)。例えば、相関ルール導出処理が終了した属性をA、属性リストZは属性Aを含むとするとき、属性リストZから属性Aを削除した属性リスト(Z−A)を作成し、属性リストZのデータベース分割に含まれるレコードを属性リスト(Z−A)のデータベース分割に追加し、属性リストZのデータベース分割を削除する。さらに、属性リストZのデータベース分割に含まれる各項目について、該項目の属性リストZのデータベース分割における局所支持回数が1以上の場合、該支持回数を属性リスト(Z−A)のデータベース分割における該項目の局所支持回数に加算し、該項目の属性リスト(Z−A)のデータベース分割における局所支持度を再計算する。さらに、属性Aに属する項目を除外項目リストに追加する。
すべての属性について局所頻出パターン抽出処理、全域頻出パターン抽出処理、相関ルール導出処理が終了した時点で、処理を終了する。
以上が、本発明の解析方法である。このように、解析処理において、属性毎に頻出パターン抽出処理および相関ルール導出処理を行うことによって、メモリ上に保持する情報量を少なく抑えることが出来る。さらに、頻出パターン抽出処理の全域支持度を求める処理で少なくとも1つのデータベース分割において局所頻出である項目パターンのみを探索すること、局所支持回数が未知のデータベース分割がある場合には全域支持度の上限値を計算することによって全域頻出パターンとなり得ない項目パターンを事前に検出し、局所支持回数が未知のデータベース分割における局所支持回数の計数処理を回避することによって、解析処理負荷を低減することが出来る。
なお、本実施形態では局所頻出パターン抽出処理205において、特定の属性に属する項目を含む局所頻出パターンのみを抽出したが、各データベース分割に含まれるすべての局所頻出パターンを抽出することでも同様に処理を実施することが可能である。
また、本実施形態の局所頻出パターン抽出処理205において、特定の属性に属する項目を含む項目パターンの各データベース分割での局所支持回数を計数したが、該特定の属性に属する項目と各項目の組の局所支持回数を同時に計数することによって、全域頻出パターン抽出処理206における項目パターンの計数処理を回避するレコードを増大させることが可能である。
さらに、本実施形態では属性順序列作成(203)にて作成する属性順序列を各属性を含むデータベース分割の種類数が少ない順としたが、該属性順序列の各属性の並び順は辞書順、ランダム、各属性の項目の種類数の少ない順、各項目の全域頻出項目の種類数の少ない順など任意の並び順で良い。属性順序列の属性の並び順により局所頻出パターン抽出処理(205)、全域頻出パターン抽出処理(206)、相関ルール導出処理(207)において必要なデータの量が変化する。記憶部に保持するデータ量が少なくなるように属性順序列の属性を並べることが望ましい。
医療データを例に取り、各処理部において行われる処理を説明する。
解析対象となるデータベースは複数の属性からなるレコードの集合である。医療データを例に取ると、1つのレコードは1人の患者に対応し、各属性は遺伝子配列など患者の遺伝子に関する情報、性別、年齢、診断疾患名、処方薬剤など患者の疾病に関する情報である。
医療データの例を表1に示す。表1の例は、遺伝子1、遺伝子2、虚血性心疾患病名、危険因子病名、虚血性心疾患家族歴の5つの属性からなり、患者IDを識別子とするレコードからなる医療データベースであり、全レコード数を20とする。
Figure 2007043199
入力部104にユーザから支持度の最小値が0.25、確信度の最小値が0.75、レコード利用度の最小値が0.5と入力され、データ格納部103に医療データが格納された場合を考える。
処理部101におけるデータベース分割作成処理を示す。本実施例の場合、例えば、患者IDが2のレコードが読み出されたとき、欠損データでない属性のリストである{遺伝子2、虚血性心疾患病名、危険因子病名}のデータベース分割に該レコードを追加する。さらに、属性{遺伝子2}、{虚血性心疾患病名}、{危険因子病名}のレコード数のカウント、および、項目{遺伝子2:AT}、{虚血性心疾患病名:心筋梗塞}、{危険因子病名:高血圧}について、全域支持回数、および、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}での支持回数のカウントを1増加させる。すべてのレコードについて上記の処理が終了したとき、表2に示すデータベース分割が作成される。また、表3に各属性の欠損データでないレコード数、表4に各項目の全域支持回数、表5に各項目の各データベース分割における局所支持回数を示す。
Figure 2007043199
Figure 2007043199
Figure 2007043199
Figure 2007043199
次に、最小レコード利用率を満たさない属性を削除する。本実施例の場合、属性{虚血性心疾患家族歴}の欠損データでないレコード数が7であることから、該属性のレコード利用率は0.35と計算され、最小レコード利用率を満たさないため、すべてのデータベース分割から削除される。例えば、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれるレコードから属性{虚血性心疾患家族歴}を削除し、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に追加する。さらに、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれる各項目の局所支持回数を、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に加算する。例えば、項目{遺伝子2:AA}のデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}における局所支持回数が、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に加算され、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における項目{遺伝子2:AA}の局所支持回数が3となる。また、属性{虚血性心疾患家族歴}を含むもう1つのデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}についても同様に処理することによって、データベース分割は表6となり、各属性の各データベース分割での局所支持回数は表7となる。
Figure 2007043199
Figure 2007043199
次に、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、除外項目リストに追加する。本実施例においては、データベースの全レコード数が20、最小レコード利用率が0.5、最小支持度が0.25であることから、全域支持回数が3未満となる項目は全域頻出パターンになり得ない。例えば、項目{遺伝子2:AT}について、該項目のデータベース全体での支持回数が1であることから、解析対象から除外出来るため、除外項目リストに追加する。
次に、各項目について、各データベース分割における局所支持度を計算し、記憶部に保持する。本実施例においては、例えばデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}において、項目{遺伝子2:AA}の局所支持回数は5、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}のレコード数は9であることから、項目{遺伝子2:AA}の局所支持度は0.56となる。各データベース分割における、各項目について同様に計算することによって、表7が作成される。
次に、1以上のデータベース分割に含まれる属性を任意の順に並べ替える。本実施例では、各属性を含むデータベース分割の種類数の少ない順とする。属性順序列は{遺伝子2,遺伝子1,虚血性心疾患病名,危険因子病名}の順となる。
次に、相関ルール抽出を行う。本実施例では、はじめに属性{遺伝子2}について、相関ルール抽出を行う。属性{遺伝子2}を含むデータベース分割について、各データベース分割毎に局所頻出となる項目パターンを抽出する。属性{遺伝子2}を含むデータベース分割はデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}とデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}である。例えば、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}については、該データベース分割における局所頻出項目である項目{遺伝子1:CC}、{遺伝子1:CG}、{遺伝子2:AA}、{遺伝子2:TT}、{虚血性心疾患病名:狭心症}、{虚血性心疾患病名:なし}、{危険因子病名:高血圧}の7つの項目について、項目{遺伝子2:AA}または{遺伝子2:TT}を含む項目パターンを作成し、局所支持回数を数え上げる。各データベース分割において、表8に示す局所頻出パターンが抽出される。
Figure 2007043199
次に、1以上のデータベース分割において抽出された局所頻出パターンについて、該項目パターンの全域支持回数を求め、全域支持度を計算し、最小支持度を満たす場合に全域頻出パターンとして記憶部に保持する。本実施例の場合、項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}は、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}においては局所頻出であり、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}では局所支持回数が未知であるため、式(2)によって全域支持度の上限値を計算する。データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}の局所支持回数は2であり、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}における項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}の部分パターンは局所支持回数が5である項目{遺伝子2:AA}と局所支持回数が1である項目{虚血性心疾患病名:なし}であるため、項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}の全域支持回数の上限値は3、全域支持度の上限値は0.2となる。全域支持度の上限値が最小支持度未満であることから、項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}は全域頻出パターンとはなり得ないため、局所支持回数が未知であるデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}における局所支持回数の計数処理を行わない。また、項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}は、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}においては局所頻出であり、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}では局所支持回数が未知であるため、式(2)によって全域支持度の上限値を計算する。データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}における項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}の局所支持回数は5であり、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}の部分パターンは局所支持回数が3である項目{遺伝子2:AA}と局所支持回数が1である項目{虚血性心疾患病名:心筋梗塞}であるため、項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}の全域支持回数の上限値は6、全域支持度の上限値は0.4となる。全域支持度の上限値が最小支持度以上となることから、項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}の{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における局所支持回数を計数する。すべての局所頻出パターンについて全域支持度を求めることによって得られた全域頻出パターンを表9に示す。
Figure 2007043199
次に、抽出された全域頻出パターンから、相関ルールを導出し、出力部に出力する。本実施例では、例えば、項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}から、相関ルール{遺伝子2:AA}⇒{虚血性心疾患病名:心筋梗塞}の相関ルールを抽出することが出来る。該相関ルールの支持度は項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}の全域支持度になるため、0.40である。該相関ルールの確信度は項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}の全域支持度0.40を、前提部の項目パターン{遺伝子2:AA,虚血性心疾患病名:心筋梗塞}の属性{遺伝子2}と属性{虚血性心疾患病名}を含むデータベース分割における局所支持回数から算出した全域支持度0.53で割った値の0.75となる。該確信度が最小確信度を満たすことから、該相関ルールは出力部に出力される。本実施例において抽出され、出力部に出力される相関ルールのうち、属性{遺伝子2}を含む相関ルールを表10に示す。
Figure 2007043199
次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する。本実施例においては、属性{遺伝子2}を各データベース分割から削除し、データベース分割を再編集し、該データベース分割に属する項目の局所支持回数と局所支持度を更新し、属性{遺伝子2}に属する項目を除外項目リストに追加する。例えば、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}の各レコードはデータベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}に追加される。データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に含まれる各項目の局所支持回数についても、データベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}の該項目の局所支持回数に加算され、局所支持回数が更新される。例えば、項目{危険因子病名:高血圧}は、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における局所支持回数4を、データベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}における局所支持回数2に加算することによって、データベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}の局所支持回数を6、局所支持度を0.75に更新する。属性{遺伝子2}を含むすべてのデータベース分割と、該データベース分割に含まれる各項目について上記の処理を繰り返すことによって作成されるデータベース分割を表11に、各項目の局所支持回数と局所支持度を表12に示す。
Figure 2007043199
Figure 2007043199
以上の処理によって、属性{遺伝子2}を含む相関ルールがすべて抽出されたことになる。
次に、属性順序列の2番目以降の属性について順に、局所頻出パターン抽出処理205、全域頻出パターン抽出処理206、相関ルール導出処理207を繰り返すことによって、すべての相関ルールを抽出することが出来る。
本実施例においては、例えば項目パターン{遺伝子2:AA,虚血性心疾患病名:なし}のデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}における局所支持回数の計数処理を回避し、解析処理の負荷を低減出来る。また、例えば属性{遺伝子2}に関する相関ルールのみを抽出し、記憶部に保持する情報を少なく抑えることが出来る。さらに、該属性の相関ルール抽出処理が終了した時点で該属性をデータベース分割から削除し、他の属性に関する相関ルールを抽出する時点では該属性はデータ中に存在しないことによって処理負荷を低減することが出来る。
また、本実施例においては、例えば、項目{虚血性心疾患病名:狭心症}を含む相関ルール{遺伝子2:TT,危険因子病名:高血圧}⇒{虚血性 心疾患病名:狭心症}のように単一の項目としては全域局所頻出でない項目 を含む相関ルールを抽出することが出来る。
図9は、本発明の第2の実施形態のシステム構成例を示す図である。このシステムは処理部101と記憶部901とデータ格納部103から構成される。処理部と記憶部はコンピュータからなり、解析対象のデータベースはデータ格納部に格納されている。記憶部901には、データあるいはファイルとして支持度、確信度、レコード利用度の最小値、データベース分割レコード識別子リスト、属性順序列、後述する除外属性リスト、除外項目リスト、項目支持度情報、属性レコード数情報、頻出パターン情報を保持する。
データ解析の手順は実施形態1と同じであるが、処理部101のデータベース分割部111と相関ルール導出部113の処理が異なる。
図10は、第2の実施形態における、データベース分割作成処理の手順を詳細に説明するフローチャートである。はじめに、記憶部901に、各データベース分割に含まれるレコード識別子のリスト、各データベース分割における各項目の局所支持回数と局所支持度、各属性の欠損データでないレコード数、解析対象から除外する属性のリストである除外属性リスト、解析対象から除外する項目のリストである除外項目リストを保持する領域を用意し、空にする。データベースを同一の属性が欠損データであるレコードの単位に分割し、データベース分割を作成する(1001)と同時に、各属性について欠損データでないレコードの数、および、各項目について、該項目の全域支持回数と各データベース分割における局所支持回数とを計数する(1001)。その後、最小レコード利用度を満たさない属性を検出し、除外属性リストに追加し(1002)、各データベース分割を再編集し、各項目の局所支持回数を更新する(1003)。さらに、各属性について、該属性の各データベース分割における局所支持度を計算するとともに、最小支持度と最小レコード利用度を同時に満たすことがない項目を検出し、除外項目リストに追加する(1004)。
図11は、データベースを同一の属性が欠損データであるレコードの単位に分割する処理の手順を詳細に説明するフローチャートである。データベースをスキャンし、レコードを読み出す(1101)。あるレコードRについて、欠損データでない属性のリストを取り出し、該属性リストのデータベース分割にレコードRの識別子を追加する(1102)。さらに、レコードRについて、欠損データでない属性のレコード数のカウント、および欠損データでない項目の全域支持回数と局所支持回数のカウントを1増加させる(1103)。データベース中に含まれるすべてのレコードについて、以上の処理を繰り返す。
次に、最小レコード利用度を満たさない属性を検出し、該属性を除外属性リストに追加し、各データベース分割を再編集し、各項目の局所支持回数を更新する。図12は、処理の手順を詳細に説明するフローチャートである。各属性について、該属性の欠損データでないレコード数をデータベース全体のレコード数で割った値を計算し、この値が最小レコード利用度未満の場合、該属性を含む相関ルールを抽出する必要がないため、解析対象から除外する。該属性を除外属性リストに追加し(1203)、該属性を含むデータベース分割に含まれるレコードの識別子のリストを、該データベース分割の属性リストから該属性を削除した属性リストのデータベース分割に追加する(1205)。さらに、該属性を含むデータベース分割における各項目の局所支持回数を、該データベース分割の属性リストから該属性を削除した属性リストのデータベース分割における該項目の局所支持回数に加算する(1207)。最後に、該属性を含むデータベース分割を削除する(1209)。
例えば、属性Xが最小レコード利用度を満たさないとし、属性リストYが属性Xを含むとする。はじめに、属性Xを除外属性リストに追加すし、属性リストYから属性Xを削除した属性リスト(Y−X)を作成し、属性リストYのデータベース分割に含まれるレコードの識別子を属性リスト(Y−X)のデータベース分割に追加する。次に、属性リストYに属する項目Aについて、属性リストYのデータベース分割における項目Aの局所支持回数が1以上の場合、該局所支持回数を属性リスト(Y−X)のデータベース分割における項目Aの局所支持回数に加算し、属性リストYにおける項目Aの局所支持回数のカウントを削除する。最後に、属性リストYのデータベース分割を削除する。
次の、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、除外項目リストに追加する処理、および、各項目について、各データベース分割における局所支持度を計算し、記憶部901に保持する処理、1以上のデータベース分割に含まれる属性を任意の順に並べ替える処理は第1の実施形態と同じである。
第2の実施形態においても、局所頻出パターン抽出処理205と全域頻出パターン抽出処理206と相関ルール導出処理207は、この属性の並び順に従い、特定の属性について繰り返し行う。
局所頻出パターン抽出処理205は、特定の属性について、該属性を含むすべてのデータベース分割において該属性に属する項目を含む項目パターンの局所支持回数を計数し、該項目パターンの局所支持度を算出し、局所頻出パターンを抽出する。ここで、各データベース分割における項目パターンの局所支持回数を計数する項目は、除外項目リストになく、該データベース分割において局所頻出項目であり、該項目が属する属性が除外属性リストにない項目である。各データベース分割における局所頻出パターンを抽出する処理は、第1の実施形態と同じである。
次に、全域頻出パターン抽出処理206、相関ルール導出処理207を行う。
次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する。
属性削除処理の手順は図8に示すフローチャートと同じであるが、データベース分割の再編集(803)において、レコードのデータではなく、レコードの識別子を追加する点が異なる。例えば、相関ルール導出処理が終了した属性をA、属性リストZは属性Aを含むとするとき、属性リストZから属性Aを削除した属性リスト(Z−A)を作成し(802)、属性リストZのデータベース分割に含まれるレコードの識別子のリストを属性リスト(Z−A)のデータベース分割に追加する(803)。さらに、属性リストZのデータベース分割に含まれる各項目について、該項目の属性リストZのデータベース分割における局所支持回数が1以上の場合、該支持回数を属性リスト(Z−A)のデータベース分割における該項目の局所支持回数に加算し、該項目の属性リスト(Z−A)のデータベース分割における局所支持度を再計算する(805)。最後に、データベース分Zを削除し(809)、属性Aに属する項目を除外項目リストに、属性Aを除外属性リストに追加する(810)。
すべての属性について局所頻出パターン抽出処理、全域頻出パターン抽出処理、相関ルール導出処理が終了した時点で、処理を終了する。
以上が、第2の実施形態における解析方法である。このように、解析処理において、データベース分割にレコードではなく、レコードの識別子のリストを保持することによって、メモリ上に保持する情報量を少なく抑えることが出来る。
なお、本実施形態では属性の削除処理(208)において、相関ルール導出処理が終了した属性を削除する際に、該属性を含むデータベース分割を削除したが、該属性を含むデータベース分割の削除、各データベース分割の再編成、各項目の各データベース分割における局所支持回数と局所支持度の更新を行わず、除外属性リストに該属性を追加することと除外項目リストに該属性に属する項目を追加することでも局所頻出パターン抽出処理(205)と全域頻出パターン抽出処理(206)と相関ルール導出処理(207)を同様に処理することが可能である。属性の削除処理(208)において除外属性リストと除外項目リストを更新する処理のみを行うことによって、処理負荷を低減することが出来る。さらに、局所頻出パターン抽出処理(205)と全域頻出パターン抽出処理(206)と相関ルール導出処理(207)において計数した項目パターンを該項目パターンの局所支持回数とともに記憶部901に保持し、以降の局所頻出パターン抽出処理(205)と全域頻出パターン抽出処理(206)と相関ルール導出処理(207)において既に計数処理を行った項目パターンの計数処理を回避することによって処理負荷を低減することも出来る。
表1に示す医療データを例に取り、データベース分割作成処理、および、相関ルール抽出処理の終了した属性の削除処理を説明する。
本実施例の場合、例えば、患者IDが2のレコードが読み出されたとき、欠損データでない属性のリストである{遺伝子2,虚血性心疾患病名,危険因子病名}のデータベース分割に該レコードの識別子を追加する。さらに、属性{遺伝子2}、{虚血性心疾患病名}、{危険因子病名}のレコード数のカウント、および、項目{遺伝子2:AT}、{虚血性心疾患病名:心筋梗塞}、{危険因子病名:高血圧}について、全域支持回数、および、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}での支持回数のカウントを1増加させる。すべてのレコードについて上記の処理が終了したとき、表13に示すデータベース分割が作成される。また、表3に各属性の欠損データでないレコード数、表4に各項目の全域支持回数、表7に各項目の各データベース分割における局所支持回数を示す。
Figure 2007043199
次に、最小レコード利用率を満たさない属性を削除する。本実施例の場合、属性{虚血性心疾患家族歴}の欠損データでないレコード数が7であることから、該属性のレコード利用率は0.35と計算され、最小レコード利用率を満たさないため、該属性を除外属性リストに追加し、以降の処理において除外する。例えば、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれるレコードの識別子を、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に追加する。さらに、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}に含まれる各項目の局所支持回数を、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に加算する。例えば、項目{遺伝子2:AA}のデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名,虚血性心疾患家族歴}における局所支持回数が、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に加算され、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における項目{遺伝子2:AA}の局所支持回数が3となる。また、属性{虚血性心疾患家族歴}を含むもう1つのデータベース分割{遺伝子2、虚血性心疾患病名、危険因子病名、虚血性心疾患家族歴}についても同様に処理することによって、データベース分割は表14となり、各属性の各データベース分割での局所支持回数は表7となる。
Figure 2007043199
次の、最小支持度と最小レコード利用度を同時に満たすことがない項目を抽出し、除外項目リストに追加処理、各項目について、各データベース分割における局所支持度を計算し、記憶部に保持する処理、1以上のデータベース分割に含まれる属性を任意の順に並べ替える処理は実施例2と同じである。
次に、相関ルール抽出を行う。本実施例では、はじめに属性{遺伝子2}について、相関ルール抽出を行う。属性{遺伝子2}を含むデータベース分割について、各データベース分割毎に局所頻出となる項目パターンを抽出する。属性{遺伝子2}を含むデータベース分割はデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}とデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}である。例えば、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}については、該データベース分割のレコードをデータ格納部○から読み出し、該データベース分割における局所頻出項目であり、除外項目リストになく、該項目の属する属性が除外属性リストにない項目である{遺伝子1:CC}、{遺伝子1:CG}、{遺伝子2:AA}、{遺伝子2:TT}、{虚血性心疾患病名:狭心症}、{虚血性心疾患病名:なし}、{危険因子病名:高血圧}の7つの項目について、項目{遺伝子2:AA}または{遺伝子2:TT}を含む項目パターンを作成し、局所支持回数を数え上げる。各データベース分割において、表9に示す局所頻出パターンが抽出される。
次の、局所頻出パターンから全域頻出パターンを抽出する処理、抽出された全域頻出パターンから相関ルールを導出する処理は、実施例2と同じである。
次に、属性の削除処理によって、相関ルール導出処理が終了した属性を削除する処理を説明する。本実施例においては、属性{遺伝子2}の相関ルール抽出処理が終了したため、各データベース分割から該属性を除外する。本実施例ではデータベース分割にレコードを保持していないため、レコードから該属性に属する項目を削除するのではなく、該属性を除外属性リストに追加することによって、以降の解析処理から該属性を除外する。さらに、データベース分割を再編集し、該データベース分割に属する項目の局所支持回数と局所支持度を更新し、属性{遺伝子2}に属する項目を除外項目リストに追加する。例えば、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}のレコードの識別子のリストはデータベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}に追加される。データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}に含まれる各項目の局所支持回数についても、データベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}の該項目の局所支持回数に加算され、局所支持回数が更新される。例えば、項目{危険因子病名:高血圧}は、データベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}における局所支持回数4を、データベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}における局所支持回数2に加算することによって、データベース分割{遺伝子1,虚血性心疾患病名,危険因子病名}の局所支持回数を6、局所支持度を0.75に更新する。属性{遺伝子2}を含むすべてのデータベース分割と、該データベース分割に含まれる各項目について上記の処理を繰り返すことによって作成されるデータベース分割を表15に、各項目の局所支持回数と局所支持度を表12、除外属性リストを表16に示す。
Figure 2007043199
Figure 2007043199
以上の処理によって、属性{遺伝子2}を含む相関ルールがすべて抽出されたことになる。
次に、属性順序列の2番目以降の属性について順に、局所頻出パターン抽出処理、全域頻出パターン抽出処理、相関ルール導出処理を繰り返すことによって、すべての相関ルールを抽出することが出来る。
図13は、本発明の第3の実施形態のシステム構成例を示す図である。このシステムは処理部101と記憶部1301とデータ格納部103から構成される。処理部と記憶部はコンピュータからなり、解析対象のデータベースはデータ格納部に格納されている。記憶部1301には、データあるいはファイルとして支持度、確信度、レコード利用度の最小値、データベース分割レコード識別子リスト、項目順序列、除外属性リスト、除外項目リスト、項目支持度情報、属性レコード数情報、頻出パターン情報、および、後述するパターンツリー構造を保持する。
図14は、データ解析の手順を詳細に説明するフローチャートである。はじめにユーザは入力部104から、抽出する相関ルールの最小支持度、最小確信度、最小レコード利用度を獲得し(201)、それらを記憶部1301に記憶する。その後、処理部は、接続されたデータ格納部103に格納されたデータに関して、データベース分割を作成し(202)、相関ルール抽出処理の順序を示す属性順序列を作成する(203)。以降、特定の項目について、後述するパターンツリー構造を構築し(1401)、各データベース分割における局所頻出パターンからを抽出し(1402)、抽出された局所頻出パターンから全域頻出パターンを抽出し(1403)、計数処理が必要な局所支持回数が未知の項目パターンを計数し(1404)、局所支持回数が未知の全域頻出パターンの部分パターンを計数し(1405)、最小支持度と最小確信度と最小レコード利用度を満たす相関ルールを導出し(207)、抽出された相関ルールを出力部105に出力し、該属性を以降の解析対象から除外する(208)。
本実施形態の局所頻出パターン抽出処理1402における、各項目パターンの局所支持回数を数え上げる処理には、図15に示す組織化されたデータ構造を用いる。該組織化されたデータ構造をパターンツリー構造と呼ぶ。パターンツリー構造は、1以上のノードからなる木構造である。各ノードは、1つの親ノードへのリンクと、0以上の子ノードへのリンクと、該ノードの意味する項目であるラベルと、該ノードの項目の各データベース分割における該項目を含むレコード数を計数するカウンタ配列からなる。このようなデータ構造は、第0の深さ、すなわち第0層目のデータ構造レベルにあるルート1501を含む。ここから、データ構造は第1層目にある0以上の子ノード1502、・・・へと分岐する。第n層目のノードにおいては、該ノードにリンクされた1つの親ノードへのリンクを辿ることによって、第(n−1)層目のノードに遷移することが出来る。さらに、該ノードにリンクされた子ノードへのリンクを辿ることによって、第(n+1)層目のノードに遷移することが出来る。あるノードについて、子ノードへのリンクが0の場合、該ノードをリーフノードと呼ぶ。例えば、ラベルが項目X3のノード1504がリーフノードである。あるノードにおけるカウンタ配列は、該ノードから親ノードへのリンクを辿り、ルートノードまで遷移するまでに経由したノードのラベルの項目の組合せの各データベース分割における該項目の組合せを含むレコード数を示している。例えば、図15に示すパターンツリー構造の場合、第3層目の項目X3のリーフノード1504からルートノード1501まで遷移するまでに経由するノードは第2層目の項目X2のノード1503と第1層目の項目X1のノード1502であるため、項目パターン{X1,X2,X3}の各データベース分割でのレコード数は該ラベルが項目X3のノードのカウンタ配列の値となる。
図16は、パターンツリー構造を構築する手順を詳細に説明するフローチャートである。データベース分割ZのレコードRが読み出されたとする(1602)。レコードRに含まれる項目から、除外属性リストに含まれない属性に属する項目であり、除外項目リストに含まれず、データベース分割Zにおいて局所頻出である項目を抽出し、該項目を属性順序列に従ってソートした項目列を作成する(1603)。はじめに、ルートノードに遷移する(1604)。ルートノードのカウンタ配列のデータベース分割Zに対応するカウンタを1増加させる(1604)。対応するカウンタ配列が存在しない場合、新たに追加し、カウンタを1とする。次に、ルートノードの子ノードに遷移する。ルートノードの子ノードのリンク先に該項目列の先頭の項目をラベルとするノードが存在しない場合、新たにノードを作成し、ルートノードの子ノードとしてリンクを張る。該ノードのラベルに該項目列の先頭の項目を設定し、該ノードのデータベース分割Zに対応するカウンタ配列を用意し、カウンタを0に設定する(1607)。ルートノードのリンク先のノードに遷移し(1608)、該ノードのカウンタ配列のデータベース分割Zに対応するカウンタを1増加させる(1609)。対応するカウンタ配列が存在しない場合、新たに追加し、カウンタを1とする。以降、第i層目のノードPから第(i+1)層目の子ノードQに遷移する処理を以下に示す。ノードPの子ノードに該項目列の先頭から(i+1)番目の項目をラベルとするノードが存在する場合、該子ノードに遷移する(1608)。存在しない場合、該項目をラベルとし、該データベース分割に対応するカウンタ配列のカウンタを0とする新しいノードを作成し、第i層目のノードの子ノードとしてリンクを張った後(1607)、該新たに作成した子ノードに遷移する(1608)。遷移したノードQにおいて、カウンタ配列の該データベース分割に対応するカウントを1増加させる(1609)。対応するカウンタ配列が存在しない場合、新たに追加し、カウンタを1とする。次に、iを1増加させ(1613)、該項目列の最後尾の項目まで親ノードから子ノードへの遷移を繰り返す。
各データベース分割における局所頻出パターン抽出のための各項目パターンの局所支持回数の計数は、パターンツリー構造を用いる。ある第m層目のラベルが項目X[m]のリーフノードからルートノードまで親ノードへのリンクと辿ることによって遷移する際に経由するノードのラベルが項目X[m−1]、・・・、X[1]であるとする。ここで、該経由するノード中の第i層目のノードをX[i]とし、該経由するノードのラベルの集合をパスと呼ぶ。該ラベルが項目X[m]のノードに保持されているカウンタ配列のデータベース分割Zに対するカウンタがCである場合、パスはパスに含まれるすべての項目の組合せである項目パターン{X[1],X[2],・・・,X[m]}のデータベース分割Zにおける局所支持回数がCであることを示す。さらに、該パスは、該パスに含まれる項目の部分集合の項目パターンについては、該パスに含まれる部分の局所支持回数が該項目パターンの局所支持回数であることを示す。例えば、該パスの部分集合の項目パターン{X[1],X[m]}のパス{X[1],X[2],・・・,X[m]}に含まれる部分については、データベース分割Zにおける局所支持回数がCであるとなる。該項目パターンのデータベース分割Z全体での局所支持回数は、該項目パターンを含むパスにおける局所支持回数の総和となる。
図17は、各項目パターンの各データベース分割における局所支持回数を抽出する処理を詳細に説明するフローチャートである。各リーフノードについて、パスを作成し(1702)、パスから作成可能な項目パターンを作成し(1703)、該項目パターンの局所支持回数の加算(1705)を繰り返すことによって、各項目パターンの各データベース分割における局所支持回数を計数する。例えば、1つ目のリーフノードから作成されるパスが{A:a0,B:b1,C:c0}であり、カウンタ配列の1番目が3、2番目が5であるとする。ここで、カウンタ配列の1番目がデータベース分割Z1、2番目がデータベース分割Z2であるとする。パス{A:a0,B:b1,C:c0}から、項目パターン{A:a0,B:b1,C:c0}、項目パターン{A:a0,B:b1}、項目パターン{A:a0,C:c0}、項目パターン{B:b1,C:c0}、項目パターン{A:a0}、項目パターン{B:b1}、項目パターン{C:c0}を作成し、これら項目パターンのデータベース分割Z1の局所支持回数のカウンタを3、データベース分割Z2の局所支持回数のカウンタを5に設定する。2つ目のリーフノードから作成されるパスが{A:a0,C:c0}であり、ノード{A:a0}は1つ目のリーフノードと共通しているとし、カウンタ配列の1番目が4、2番目が7であるとする。パス{A:a0,C:c0}から作成可能なすべての項目パターンを作成し、該項目パターンのデータベース分割Z1のカウンタに4を、データベース分割Z2のカウンタに7を加算するが、パスに含まれる項目中で既に計数済みのパスと共通する項目のみから作成される項目パターンは計数しない。例えば、項目パターン{A:a0,C:c0}のデータベース分割Z1のカウンタには7を加算するが、項目パターン{A:a0}については2つ目のパスにおいては加算しない。すべてのリーフノードに対して計数処理を行うことによって、各項目パターンの各データベース分割における局所支持回数を計数することが出来る。計数済みパスと共通する項目のみから作成される項目パターンの計数を回避する方法は、パスの作成の際に経由した各ノードに計数済みであるフラグを立て、パスに含まれる項目を計数済みフラグの状態によって区別することによって処理する(1704)。また、特定の属性を含む局所頻出パターンを抽出する場合には、パスから作成する項目パターンを該特定の属性に属する項目を含む項目パターンに限定することによって処理する。
次に、1以上のデータベース分割において局所頻出となる項目パターンについて、該項目パターンの全域支持回数を求め、全域支持度を計算し、最小支持度を満たす場合に全域頻出パターンとし、記憶部1301に保持する(1403)。さらに、局所支持回数が未知であるが、全域頻出パターンになり得るために、計数する必要がある項目パターンとデータベース分割のリストを作成する。該リストを追加処理リストと呼ぶ。
次に、追加処理リストに登録された項目パターンの局所支持回数を計数し、全域頻出パターンを抽出する(1404)。各データベース分割において、該データベース分割に含まれるレコード中で、追加処理リストに含まれる該データベース分割の項目パターンに含まれる項目をパターンツリー構造に追加する。すべてのデータベース分割に対する処理が終了した時点で、追加されたノードまたはカウンタ配列が更新されたノードからルートノードまでのパスを作成することによって、追加処理リストに含まれる項目パターンの局所支持回数を計数し、全域頻出パターンを記憶部1301に保持する。
次に、記憶部1301に保持された各全域頻出パターンについて、該全域頻出パターンの部分パターンであり、全域支持度が未知の項目パターンの局所支持回数をデータ構造のノードを辿ることによって計数し、式(1)によって全域支持度を計算し、記憶部1301に保持する(1405)。
次に記憶部1301に保持された全域頻出パターンから相関ルールを導出し、出力部105に出力する。
以上が、第3の実施形態の解析方法である。このように局所頻出パターン抽出処理において、データベース分割からパターンツリー構造を構築し、パターンツリー構造を用いて各項目パターンの各データベース分割における局所支持回数を計数することによって、データベースの検索処理負荷を低減することが出来る。
なお、以上で説明した第3の実施形態では、パターンツリー構造の構築において、各データベース分割のレコードに含まれる項目から、除外属性リストに含まれない属性に属する項目であり、除外項目リストに含まれない項目中で、該データベース分割において局所頻出である項目に限定してパターンツリー構造を構築したが、該データベース分割において局所頻出である項目に限定せず、局所頻出でない項目も含めてパターンツリー構造を構築することでも同様に処理を実施することが可能である。
また、第3の実施形態では、パターンツリー構造を用いて各項目パターンの各データベース分割での局所支持回数を計数するため、局所頻出パターンを抽出すると同時に全域頻出パターンを抽出することも可能である。
表1に示す医療データを例に取り、第3の実施形態におけるパターンツリー構造構築1401、局所頻出パターン抽出1402、全域頻出パターン抽出1403、追加計数1404、部分パターン計数1405の処理を説明する。
本実施例では、属性{遺伝子2}を含む相関ルールを抽出するための、パターンツリー構造構築処理と局所頻出パターン抽出処理と全域頻出パターン抽出処理と追加計数処理と部分パターン計数処理を示す。
パターンツリー構築処理1401においては、属性{遺伝子2}を含むデータベース分割について、レコードを読み出し、パターンツリーを構築する。属性{遺伝子2}を含むデータベース分割から構築されるパターンツリー構造を図18に示す。各ノードの各データベース分割のカウンタ配列は、1つ目がデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}、2つ目がデータベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}である。
次に、パターンツリー構造のノードを辿ることによって、属性{遺伝子2}を含む項目パターンを作成し、該項目パターンの各データベース分割における局所支持回数を計数する。本実施例では、例えば、ラベル{危険因子病名:高血圧}のリーフノード1805から、ラベル{虚血性心疾患病名:なし}のノード1804、ラベル{遺伝子1:CC}のノード1803、ラベル{遺伝子2:AA}のノード1802、ルートノード1801と辿ることによって、パス{遺伝子2:AA,遺伝子1:CC,虚血性心疾患病名:なし,危険因子病名:高血圧}が作成され、これらノードの計数済みフラグが立てられる。ラベル{危険因子病名:高血圧}のリーフノード1805のデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}、の支持回数が1であり、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}はこのパスから作成される項目パターンには含まれないことがわかる。項目パターンの計数は、パス{遺伝子2:AA,遺伝子1:CC,虚血性心疾患病名:なし,危険因子病名:高血圧}から作成可能であり、属性{遺伝子2}を含む項目パターンを作成し、該項目パターンのデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}のカウンタを1とする。次に、ラベル{虚血性心疾患病名:なし}のノード1807、ラベル{遺伝子1:CG}のノード1806、ラベル{遺伝子2:AA}のノード1802、ルートノード1801と辿ることによって、パス{遺伝子2:AA,遺伝子1:CG,虚血性心疾患なし}が作成され、これらノードの計数済みフラグが立てられる。該パスから作成可能であり、属性{遺伝子2}を含む項目パターンを作成し該項目パターンのデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}のカウンタに1を加算する。ただし、該パス中の項目{遺伝子2:AA}については計数済みフラグが立っているため、該項目のみの項目パターンは加算しない。各リーフノードからルートノードまで親ノードへのリンクを辿ることによって作成したパスから、各項目パターンの各データベース分割における局所支持回数を計数することが出来る。各項目パターンの各データベース分割における局所支持度を計算することによって、局所頻出パターンを抽出する。
次に、抽出された局所頻出項目パターンから、全域頻出パターンを抽出し、追加計数処が必要な項目パターンを抽出する。例えば、項目パターン{遺伝子2:TT,虚血性心疾患病名:心筋梗塞}はデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}では計数されていないが、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}での局所支持回数が5であり、式(2)から計算した該項目パターンの上限値が最小支持度以上となる。該項目パターンをデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}において計数する必要があるため、追加処理リストに該項目パターンと該データベース項目の組を保持する。
すべての局所頻出パターンに対する全域頻出パターンと追加計数処理の必要な項目パターンの抽出が終了した時点で、追加処理リストに保持されている項目パターンの局所支持回数を計数する。例えば、項目パターン{遺伝子2:TT,虚血性心疾患病名:心筋梗塞}のデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}での局所支持回数の計数が必要であることが登録されているため、該データベース分割を読み出したときに項目{虚血性心疾患病名:心筋梗塞}をパターンツリー構造に追加する。追加処理リストに保持された項目パターンについて、パターンツリー構造への追加が終了した時点で、追加されたノードまたはカウンタ配列が更新されたノードからルートノードまで親ノードを辿ることによってパスを作成し、追加処理リストに保持された項目パターンの局所支持回数を計数し、全域支持度を式(1)によって計算し、最小支持度を満たす項目パターンを全域頻出パターンとして記憶部に保持する。さらに、追加処理リストを空にする。
次に、各全域頻出パターンについて、該項目パターンの部分パターン中で全域支持度が未知である項目パターンが存在する場合、該項目パターンを追加処理リストに保持する。すべての全域頻出パターンについて全域支持度が未知の部分パターンの抽出が終了した時点で、パターンツリー構造から追加処理リストに保持された項目パターンの計数を行い、全域支持度を計算する。ここで、追加処理リストに保持される項目パターンを計数するためのデータは既に構築したパターンツリー構造に保持されているため、データベースの検索は不要である。
次に、記憶部に保持された全域頻出パターンから相関ルールを導出する。属性{遺伝子2}を含む相関ルールを導出するための項目パターンが全域頻出パターンとして保持されているため、データベースの検索処理は不要である。
本実施例に示したように、パターンツリー構造を構築することによって、全域頻出パターンを抽出することが可能である。項目パターンの局所支持回数の計数処理をパターンツリー構造を用いて行うことによって、データベースの検索処理負荷を低減することが出来る。
本発明の第3の実施形態における属性の削除処理(209)を実施する別の形態を説明する。
特定の属性を含む相関ルール導出処理が終了した時点で、各データベース分割から該属性を削除する処理を行っていたが、該属性を除外属性リストに追加することと、該属性に属する項目を除外項目リストに追加することと、構築したパターンツリー構造から該属性に属する項目をラベルとするノードを削除し、残りのノードを記憶部に保持し、以降の相関ルール抽出処理時に再利用することが出来る。
属性の削除処理(209)において、相関ルール抽出処理の終了した属性について、除外属性リストへの追加と除外項目リストへの追加の後、パターンツリー構造から該属性に属する項目をラベルとするノードを削除する。各ノードについて、同じ項目をラベルとする子ノードを統合する。同じ項目をラベルとする子ノードについて、該ノードのカウンタ配列の各データベース分割における値の総和を求め、任意の1つのノードのカウンタ配列の値を置き換える。さらに、該カウンタ配列の値が置き換えられたノードに、他のノードの子ノードのリンクを張り、該他のノードをパターンツリーから削除する。すべてのノードについてルートノードから順に同じラベルを項目とする子ノードの統合を行い、構築されたパターンツリー構造を記憶部に保持する。
次の属性に対する相関ルール抽出処理において、記憶部に保持されたパターンツリー構造が保持するデータベース分割に対するパターンツリー構造を構築する必要がある場合、記憶部に保持されたパターンツリー構造から、該データベース分割記憶部に保持されたパターンツリー構造に加えて、記憶部に保持されていないデータベース分割が局所支持回数の計数に必要な場合、実施形態3のパターンツリー構造構築処理1401によって、該記憶部に保持されたパターンツリー構造に新たなノードを追加することによってパターンツリー構造を構築する。
以上が、第3の実施形態における属性の削除処理の別の形態である。このように構築したパターンツリー構造から不要なノードを取り除き、残りのパターンツリー構造を記憶部に保持することによって、パターンツリー構造構築の処理負荷を低減することが出来る。
なお、以上で説明した実施形態では、構築したパターンツリー構造から不要な属性を除いたパターンツリー構造を記憶部に保持したが、不要な属性を除いた後、各データベース分割毎にパターンツリー構造を分解することでも同様に処理することが可能である。
表1に示す医療データを例に取り、実施例7に示した第3の実施形態における属性の削除処理208の別の実施形態を説明する。
本実施例では、属性{遺伝子2}を含む相関ルールの抽出処理における、相関ルール導出処理が終了したときに、図18に示すパターンツリー構造が構築されたとする。属性{遺伝子2}に属する項目をラベルとするノード{遺伝子2:AA}1802と{遺伝子2:TT}1808を削除することによって、図19に示すパターンツリー構造が構築される。ルートノード1901について、該ルートノードの子ノード1902と子ノード1903は同じラベルを{遺伝子1:CC}を持つため、統合される。該子ノードのカウンタ配列の各データベース分割のカウンタの総和を求めることによって、1番目が4、2番目はカウントなしとなる。子ノード1902に子ノード1903を統合する場合、子ノード1902のカウンタ配列を1番目が4、2番目はカウントなしとし、子ノード1903の項目{虚血性心疾患病名:なし}をラベルとする子ノード1904へのリンク1906と項目{虚血性心疾患病名:狭心症}をラベルとする子ノード1905へのリンク1907とを子ノード1902の子ノードのリンクに追加し、子ノード1903を削除する。すべての同一のラベルを持つ子ノードの統合が終了したとき、図20に示すパターンツリー構造が構築され、記憶部に保持される。該パターンツリー構造は以降にデータベース分割{遺伝子1,遺伝子2,虚血性心疾患病名,危険因子病名}、データベース分割{遺伝子2,虚血性心疾患病名,危険因子病名}が計数処理に必要になったときに再利用出来る。
本実施例に示したように、パターンツリー構造の再利用により、パターンツリー構築の処理負荷を低減することが出来る。
図21は、本発明の第4の実施形態のシステム構成例を示す図である。このシステムは処理装置2101、記憶装置2102、データ格納装置2103、入力装置2104、出力装置2105がバスまたはネットワークである通信路2106を介して相互接続されている。各装置の処理は第1、第2、第3の実施形態と同じであり、処理装置2101は処理部101、記憶装置2102は記憶部102、データ格納装置2103はデータ格納部103、入力装置2104は入力部104、出力装置2105は出力部105の処理を行うことによって、欠損を含むデータから相関ルールを抽出することが出来る。
図22は、本発明の第5の実施形態のシステム構成例を示す図である。このシステムは処理装置2201、記憶装置2102、入力装置2104、出力装置2105と複数のデータ格納装置2203a,2203b,・・・,2203m(mは2以上の整数)がバスまたはネットワークである通信路2106を介して相互接続されている。各データ格納装置には、2以上のデータ格納装置の間で属性が同一または重複するデータベースであり、2以上のデータ格納装置の間で重複する識別子が存在しないレコードが保持されている。
記憶装置2102、入力装置2104、出力装置2105の処理は第4の実施形態と同じである。処理装置2201は各データ格納装置2203aから2203mからレコードを読み出すことによって、第4の形態と同じ処理により、欠損を含むデータから相関ルールを導出することが出来る。
図23に示す小売業におけるバスケットデータを例にとり、第5の実施形態の処理を説明する。
解析対象となるデータベースは複数の属性からなるレコードの集合である。小売業におけるバスケットデータを例に取ると、1つのレコードは1人の顧客の購入した商品のリストであり、各属性は商品名、商品分類など販売する商品に関する情報、または、性別、年齢層など購入した顧客の特徴に関する情報である。
本実施例では、店舗A、店舗B、店舗Cの3つの店舗におけるバスケットデータが通信路によって接続された3つの独立したデータ格納装置2303a、2303b、2303cに保持されているとする。図23の例は商品1、商品2、商品3、商品4の4つの属性からなり、各属性の属性値は1と0の2値である。属性値が1であることは、顧客が該属性値の属性である商品を購入したこと、0であることは購入しなかったことを示している。全レコード数を30とし、レコード識別子1から12が店舗Aのデータベース、レコード識別子13から20が店舗Bのデータベース、レコード識別子21から30が店舗Cのデータ格納部に格納されている。店舗Aはすべての商品を販売しているため、欠損データは含まない。しかし、店舗Bは商品4を販売していないため、店舗Bのデータベースにおけるレコードは商品4がすべて欠損データとなる。店舗Cはある時期までは商品2を販売していなかったため、一部のレコードにおいて商品2が欠損データとなっている。
入力装置2104において、ユーザから支持度の最小値が0.20、確信度の最小値が0.75、レコード利用度の最小値が0.2と入力された場合について考える。
処理装置2201はデータ格納装置2303a,2303b,2303cからレコードを読み出すことによって、表17に示すデータベース分割を作成し、記憶装置2102に保持する。以降の処理は、処理装置2201において、記憶装置2102からデータを読み出すことと抽出した相関ルールを出力装置2105に出力することによって、第1の実施形態と同様に処理することが出来る。
Figure 2007043199
本実施例の場合、例えば、相関ルール{商品1:1}⇒{商品2:1}(確信度=1.00、支持度=0.23、レコード利用度=0.67)が抽出される。該相関ルールは商品1を購入した顧客は常に商品2も購入していることを意味している。さらに、本実施例の場合、相関ルール{商品1:0,商品2:0}⇒{商品4:1}(確信度=0.75、支持度=0.43、レコード利用度=0.40)が抽出される。該相関ルールは商品1と商品2を共に購入しなかった顧客の4分の3の顧客が商品4を購入していることを意味している。このような相関ルールから商品の配置など販売方針決定に役立てることが出来る。
なお本発明の応用範囲は医療や小売業に限定されず、広くデータベースを業務管理に使う分野に適用可能であることは言うまでもない。
欠損を含むデータを解析対象とし、データ間の関連性を解析するソフトウェア、サービスに本発明を適用出来る。汎用のデータマイニングソフトウェア、統計解析ソフトウェアの相関ルールマイニング機能に本発明を追加することも出来る。

Claims (6)

  1. データベースにおける属性と属性値の組を項目、項目の組合せを項目パターンとするとき、0以上の属性値の欠損したレコードからなるデータベースから、属性値の欠損していない2以上の項目の間に成り立つ相関ルールを抽出する方法であって、
    データベースを同一の属性が欠損データであるレコードの単位に分割する第1のステップと、
    分割されたデータベースにおいて特定の属性を含む項目パターンが含まれるレコード数である支持回数を数え上げる第2のステップと、
    分割されたデータベース毎に数え上げた項目パターンのレコード数によってデータベース全体での前記項目パターンが含まれるレコード数を数え上げる第3のステップと、
    前記第3のステップで数え上げられた項目パターンの部分パターンを前提部、前記部分パターンを除いた前記項目パターンの残部のパターンを結論部とする相関ルールを作成する第4のステップと、
    前記特定の属性を解析対象から除外する第5のステップと
    を含むことを特徴とする相関ルール抽出方法。
  2. 前記相関ルールについて、前記データベース中で該相関ルールを構成する項目パターンの属性が欠損していないレコードに対する該項目パターンを含むレコードの割合である支持度と、
    相関ルールの前提部の項目パターンを含むレコード中で、該相関ルールの結論部のアイテムセットも同時に含むレコードの割合である確信度と、
    相関ルールの前提部または結論部の項目パターンが含まれる属性が欠損データでないレコードの前記データベース中の全レコードに対する割合であるレコード利用度との
    指定された最小値である最小支持度と、最小確信度と、最小レコード利用度とを満たす相関ルールを抽出することを特徴とする請求項1記載の相関ルール抽出方法。
  3. 前記第2のステップにおいて、各分割されたデータベースにおいて指定された最小支持度以上の項目パターンである局所頻出パターンを抽出し、
    前記第3のステップにおいて、前記局所頻出パターンについてのみ前記データベース全体での支持回数を数え上げ、支持度を計算することを特徴とする請求項2記載の相関ルール抽出方法。
  4. 前記第3のステップにおいて、
    支持回数が未知の項目パターンの支持回数の上限値を、前記分割されたデータベースの当該項目パターンの既知の支持回数と前記分割されたデータベース以外の該項目パターンに含まれる属性がすべて欠損データでない分割されたデータベースにおける該項目パターンの部分パターンである項目パターンの既知の支持回数から計算するステップと、
    前記計算した支持回数の上限値から支持度の上限値を計算するステップと、
    前記計算した支持度の上限値が前記最小支持度未満である項目パターンを前記第3のステップで数え上げる項目パターンから除外するステップと
    をさらに有することを特徴とする請求項2記載の相関ルール抽出方法。
  5. 項目パターンXが含む属性が欠損データでない前記分割されたデータベースについて、
    前記分割されたデータベースがm個(mは1以上の整数)であるとし、
    項目パターンXの局所支持回数が既知の前記分割されたデータベースをDB(1)、・・・、DB(n)(nは1以上の整数)とし、
    項目パターンXの局所支持回数が未知の前記分割されたデータベースをDB(n+1)、・・・、DB(m)とし、
    分割されたデータベースのレコード数をRC(DB(i))とし、
    項目パターンXの分割されたデータベースDB(i)における局所支持回数をLS(X:DB(i))とし、
    項目パターンXの部分パターンをX’とするとき、
    項目パターンXのデータベース全体での支持度の上限値U(X)を下式によって計算することを特徴とする請求項4記載の相関ルール抽出方法。
    Figure 2007043199
  6. データベースにおける属性と属性値の組を項目、項目の組合せを項目パターンとするとき、0以上の属性値の欠損したレコードからなるデータベースから、属性値の欠損していない2以上の項目の間に成り立つ相関ルールを抽出するシステムであって、
    相関ルールについて、前記データベース中で該相関ルールを構成する項目パターンの属性が欠損していないレコードに対する該項目パターンを含むレコードの割合である支持度の最小値と、
    相関ルールの前提部の項目パターンを含むレコード中で、該相関ルールの結論部のアイテムセットも同時に含むレコードの割合である確信度の最小値と、
    相関ルールの前提部または結論部の項目パターンが含まれる属性が欠損データでないレコードの前記データベース中の全レコードに対する割合であるレコード利用度最小値と
    を入力するユーザ入力部と、
    データベースを同一の属性が欠損データであるレコードの単位に分割するデータベース分割作成部と、
    各分割されたデータベースにおいて最小支持度を満たし、特定の属性を含む項目パターンを抽出する局所頻出パターン抽出部と、
    前記局所頻出パターン抽出された局所頻出パターンについて、該項目パターンを含むレコードの該項目パターンが含む属性が欠損データでないデータベース全体のレコードに対する割合である全域支持度が最小支持度を満たす項目パターンを抽出する全域頻出パターン抽出部と、
    前記全域頻出パターン抽出部で抽出された項目パターンから相関ルールを導出する相関ルール導出部と、
    導出された相関ルールを表示する出力部と
    を含むことを特徴とする相関ルール抽出システム。
JP2007539808A 2005-10-07 2006-03-07 相関ルールを抽出する方法及びシステム Expired - Fee Related JP4676498B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005295381 2005-10-07
JP2005295381 2005-10-07
PCT/JP2006/304354 WO2007043199A1 (ja) 2005-10-07 2006-03-07 相関ルールを抽出する方法及びシステム

Publications (2)

Publication Number Publication Date
JPWO2007043199A1 true JPWO2007043199A1 (ja) 2009-04-16
JP4676498B2 JP4676498B2 (ja) 2011-04-27

Family

ID=37942464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007539808A Expired - Fee Related JP4676498B2 (ja) 2005-10-07 2006-03-07 相関ルールを抽出する方法及びシステム

Country Status (3)

Country Link
US (1) US7979473B2 (ja)
JP (1) JP4676498B2 (ja)
WO (1) WO2007043199A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5032374B2 (ja) * 2008-03-13 2012-09-26 株式会社東芝 情報処理装置及び方法
JP5588811B2 (ja) * 2010-09-29 2014-09-10 株式会社日立製作所 データ分析支援システム及び方法
US8825588B2 (en) * 2011-10-21 2014-09-02 International Business Machines Corporation Rule correlation to rules input attributes according to disparate distribution analysis
US9189503B2 (en) 2012-12-06 2015-11-17 Microsoft Technology Licensing, Llc Database scale-out
CN104182502B (zh) * 2014-08-18 2017-10-27 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
US9442694B1 (en) * 2015-11-18 2016-09-13 International Business Machines Corporation Method for storing a dataset
CN105468725B (zh) * 2015-11-20 2019-03-08 北京京东尚科信息技术有限公司 一种关系型数据库中表分段抽取系统及方法
JP6572795B2 (ja) * 2016-02-16 2019-09-11 富士通株式会社 解析装置及び解析プログラム
CN107102999B (zh) * 2016-02-22 2021-09-10 阿里巴巴集团控股有限公司 关联分析方法和装置
US10885047B2 (en) * 2016-07-01 2021-01-05 Oracle International Corporation System and method providing association rule aggregates
JP2020154828A (ja) * 2019-03-20 2020-09-24 富士通株式会社 データ補完プログラム、データ補完方法及びデータ補完装置
EP3758279A1 (en) * 2019-06-27 2020-12-30 Koninklijke Philips N.V. Selective disclosure of attributes and data entries of a record
US11663275B2 (en) * 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system
CN114839601B (zh) * 2022-07-04 2022-09-16 中国人民解放军国防科技大学 基于频繁项分析的雷达信号高维时序特征提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250084A (ja) * 1998-03-02 1999-09-17 Mitsubishi Electric Corp データマイニング装置
JP2002278761A (ja) * 2001-03-16 2002-09-27 Hitachi Ltd 否定項を含む相関ルール抽出方法およびシステム
JP2004029902A (ja) * 2002-06-21 2004-01-29 Hitachi Ltd 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
JP2004213463A (ja) * 2003-01-07 2004-07-29 Web Intelligence Lab:Kk データ処理方法、データ処理プログラム、その記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794209A (en) 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US6941303B2 (en) * 2000-09-20 2005-09-06 Ndsu Research Foundation System and method for organizing, compressing and structuring data for data mining readiness
US20030208488A1 (en) * 2000-09-20 2003-11-06 North Dakota State University System and method for organizing, compressing and structuring data for data mining readiness

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250084A (ja) * 1998-03-02 1999-09-17 Mitsubishi Electric Corp データマイニング装置
JP2002278761A (ja) * 2001-03-16 2002-09-27 Hitachi Ltd 否定項を含む相関ルール抽出方法およびシステム
JP2004029902A (ja) * 2002-06-21 2004-01-29 Hitachi Ltd 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
JP2004213463A (ja) * 2003-01-07 2004-07-29 Web Intelligence Lab:Kk データ処理方法、データ処理プログラム、その記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199901058016, 佐伯敏章, "概念階層を考慮した相関ルールマイニングの関係データベース管理システム上での実現", 情報処理学会研究報告 Vol.98 No.57, 19980708, 第98巻,第57号, p.127〜137, JP, 社団法人情報処理学会 *
CSNG200100241006, 新谷隆彦, "一般化相関ルールマイニングの並列処理方式における統計情報を用いた候補分割負荷分散手法の評価", 電子情報通信学会技術研究報告 Vol.99 No.203, 19990723, 第99巻,第203号, p.31〜36, JP, 社団法人電子情報通信学会 *
JPN6010061882, 新谷隆彦, "一般化相関ルールマイニングの並列処理方式における統計情報を用いた候補分割負荷分散手法の評価", 電子情報通信学会技術研究報告 Vol.99 No.203, 19990723, 第99巻,第203号, p.31〜36, JP, 社団法人電子情報通信学会 *
JPN6010062007, 佐伯敏章, "概念階層を考慮した相関ルールマイニングの関係データベース管理システム上での実現", 情報処理学会研究報告 Vol.98 No.57, 19980708, 第98巻,第57号, p.127〜137, JP, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
US20100131506A1 (en) 2010-05-27
WO2007043199A1 (ja) 2007-04-19
JP4676498B2 (ja) 2011-04-27
US7979473B2 (en) 2011-07-12

Similar Documents

Publication Publication Date Title
JP4676498B2 (ja) 相関ルールを抽出する方法及びシステム
US6832216B2 (en) Method and system for mining association rules with negative items
CN103914506B (zh) 数据检索装置、数据存储方法和数据检索方法
Sagin et al. Determination of association rules with market basket analysis: application in the retail sector
JP3701633B2 (ja) 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
US20110004626A1 (en) System and Process for Record Duplication Analysis
JP4890806B2 (ja) 予測プログラムおよび予測装置
JP2010176288A (ja) 業務プロセス類似度評価装置およびその方法
US9195962B2 (en) Generating a subgraph of key entities in a network and categorizing the subgraph entities into different types using social network analysis
US20160034552A1 (en) Processing data in a data warehouse
CN105229640A (zh) 商品代码分析系统以及商品代码分析程序
JP6270768B2 (ja) 営業担当者候補抽出システム
JP2010231779A (ja) ベンチマーク評価システム及びプログラム
US9002782B2 (en) Hyper-lattice model for optimized sequencing of online analytical processing (OLAP) operations on data warehouses
JP7384768B2 (ja) コミュニティ評価システム、コミュニティ評価方法、行動評価システム及び行動評価方法
JP6462611B2 (ja) 生成装置、生成方法、及び生成プログラム
KR102095744B1 (ko) 무정형 빅데이터의 개인정보 비식별화 처리 방법
JP3735505B2 (ja) Pos分析システム
Lane et al. Eyeing the patterns: Data visualization using doubly-seriated color heatmaps
Mathew et al. Role of Big Data Analysis and Machine Learning in Ecommerce-Customer Segmentation
KR100952634B1 (ko) 정보분석 시스템 및 그 정보분석 방법
JP6216600B2 (ja) 紹介者候補抽出システム
JP6440351B2 (ja) 商品販売支援システム、商品販売支援方法及び商品販売支援装置
US11294961B2 (en) Information search apparatus, search program, database update method, database update apparatus and database update program, for searching a specified search target item associated with specified relation item
Trabelsi et al. Employing Data and Process Mining Techniques for Redundancy Detection and Analystics in Business Processes.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110127

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4676498

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees