JPWO2016170600A1 - データ分析支援システム及びデータ分析支援方法 - Google Patents

データ分析支援システム及びデータ分析支援方法 Download PDF

Info

Publication number
JPWO2016170600A1
JPWO2016170600A1 JP2017513867A JP2017513867A JPWO2016170600A1 JP WO2016170600 A1 JPWO2016170600 A1 JP WO2016170600A1 JP 2017513867 A JP2017513867 A JP 2017513867A JP 2017513867 A JP2017513867 A JP 2017513867A JP WO2016170600 A1 JPWO2016170600 A1 JP WO2016170600A1
Authority
JP
Japan
Prior art keywords
index
data analysis
value
analysis support
explanation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017513867A
Other languages
English (en)
Other versions
JP6393411B2 (ja
Inventor
文也 工藤
文也 工藤
知明 秋富
知明 秋富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2016170600A1 publication Critical patent/JPWO2016170600A1/ja
Application granted granted Critical
Publication of JP6393411B2 publication Critical patent/JP6393411B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

処理装置と、前記処理装置に接続される記憶装置と、を有するデータ分析支援システムであって、前記記憶装置は、主キーの値と目的指標の値とを対応付ける目的指標情報と、前記主キーと共通する値と複数の項目の説明指標の値の組とを対応付ける説明指標情報と、を保持し、前記処理装置は、前記説明指標の一つ以上の項目を選択し、前記選択された一つ以上の項目の説明指標の値をクラスタリングし、クラスタリングによって得られた各クラスタの各項目の説明指標の値の範囲を特定し、特定された値の範囲を出力する。

Description

本発明は、データの分析を支援する技術に関する。
データの分析を支援する技術として、特開2000−237146号公報(特許文献1)に記載の技術がある。この公報には、複数の指標について求められた複数の相関係数に基づいて複数の被験者を群分けすることが記載されている。
特開2000−237146号公報
近年、企業で蓄積されてきた業績に関するビッグデータを活用し、業績向上に繋がる要因を分析するシステムの開発が盛んに行われている。分析者は、様々な情報を含む大量のデータに対して、どのような条件が業績向上の要因となり得るか調べる。このとき分析者は、業績と関係する可能性のある項目を組み合わせて特徴量を生成し、立てた仮説を元にモデルに当てはめて検証を繰り返すことが一般的である。しかし分析するデータのサイズが大きくなるにつれ、このようなデータの加工及び関係性の発見を分析者が人手で行うことは困難になってきた。そこで、大規模なデータに対して分析を支援するシステムの開発が求められている。
具体的には、従来分析者が人手で行ってきた、分析対象の要因候補となる特徴量の生成を自動化することで分析を支援するシステムの開発が求められている。このような技術を実現するために特許文献1では、複数の被験者を対象として入力された複数の指標(入力テーブル中の各カラム)について求められた相関係数を使って被験者を複数の群に類別する。しかし特許文献1では、入力されたカラムは固定であり、カラム自体を特徴量として使用しているため、目的指標と相関の高い特徴量を生成することはできない。
上記の課題を解決するために、本発明の一態様は、処理装置と、前記処理装置に接続される記憶装置と、を有するデータ分析支援システムであって、前記記憶装置は、主キーの値と目的指標の値とを対応付ける目的指標情報と、前記主キーと共通する値と複数の項目の説明指標の値の組とを対応付ける説明指標情報と、を保持し、前記処理装置は、前記説明指標の一つ以上の項目を選択し、前記選択された一つ以上の項目の説明指標の値をクラスタリングし、クラスタリングによって得られた各クラスタの各項目の説明指標の値の範囲を特定し、特定された値の範囲を出力することを特徴とする。
本発明の一形態によれば、入力した分析対象テーブルから人間に解釈容易な特徴量の候補を自動生成できる。生成された特徴量は、様々な分析を容易に行うために用いることができる。上記以外の課題、構成及び効果は、以下の実施形態の説明によって明らかにされる。
本発明の実施例1のデータ分析支援システムのハードウェア構成を示すブロック図である。 本発明の実施例1の特徴量生成部に入力される入力テーブルの具体例を示す説明図である。 本発明の実施例1の説明指標テーブル及び目的指標テーブルの各カラムに関する情報を格納したカラム情報テーブルの具体例の説明図である。 本発明の実施例1の各テーブルのカラムの型名に関する分類の一例を示す説明図である。 本発明の実施例1の特徴量生成部の詳細なフロー図である。 本発明の実施例1の尺度判定部の詳細なフロー図である。 本発明の実施例1の粒度調整処理部の詳細なフロー図である。 本発明の実施例1の粒度調整処理部の処理の具体例の説明図である。 本発明の実施例1のクラスタリング処理部の詳細なフロー図である。 Grid-based Clusteringによるクラスタリング例を示す説明図である。 本発明の実施例1のクラスタ再分割処理部の詳細なフロー図である。 本発明の実施例1のクラスタ再分割処理部におけるクラスタ再分割処理の具体例の説明図である。 本発明の実施例1のクラスタの範囲抽出処理部の詳細なフロー図である。 本発明の実施例1の特徴量集計部の詳細なフロー図である。 本発明の実施例1のサンプル集計処理部の詳細なフロー図である。 本発明の実施例2の特徴量生成部の詳細なフロー図である。 本発明の実施例2のモデル生成部の詳細なフロー図である。
以下、本発明の一実施形態を、図面を参照して説明する。
図1は、本発明の実施例1のデータ分析支援システムのハードウェア構成を示すブロック図である。
本実施例のデータ分析支援システムは、中央処理装置001、二次記憶装置002、主記憶装置003、入力装置004及び出力装置005を有し、中央処理装置001、二次記憶装置002、主記憶装置003、入力装置004及び出力装置005がバス006で接続された計算機である。
中央処理装置001は、二次記憶装置002及び主記憶装置003に格納されたプログラムを実行するプロセッサである。
二次記憶装置002は、例えば磁気記憶装置又はフラッシュメモリ等の大容量かつ不揮発性の記憶装置であり、プログラム実行時に中央処理装置001によって計算される特徴量生成部007を格納する。なお、特徴量生成部007は、中央処理装置001によって計算されるときに、必要に応じてその一部又は全部が主記憶装置003にコピーされてもよい。
主記憶装置003は、例えばDRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶装置であり、オペレーティングシステム(OS)及びアプリケーションプログラムを格納する。中央処理装置001がオペレーティングシステムを実行することによって、計算機の基本機能が実現され、アプリケーションプログラムを実行することによって、計算機が提供する機能が実現される。具体的には主記憶装置003は、入力テーブル008及び出力テーブル009を格納する。
入力装置004は、キーボード及びマウスなどのユーザインターフェースである。出力装置005は、ディスプレイ装置及びプリンタなどのユーザインターフェースである。
なお、本システムは、ネットワークに接続し、他の装置との通信を制御する通信インターフェース(図示省略)を有してもよい。この場合、本システムが通信インターフェースを介して端末(図示省略)と接続されており、該端末が入力装置004及び出力装置005を有し、該端末からの要求に従って中央処理装置001がテーブルを処理し、通信インターフェースを介して処理結果を該端末に出力する。
本システムは物理的に一つの計算機上に構築されても、物理的には一つ又は複数の計算機上に構成された論理区画上に構築されてもよい。
次に、特徴量生成部007に入力される入力テーブル008ついて詳細を説明する。
このシステムによって生成された特徴量を用いることで、分析者は大規模なデータに対して様々な分析を行うことができる。
図2は、本発明の実施例1の特徴量生成部007に入力される入力テーブル008の具体例を示す説明図である。
図2には、具体例として、小売店における売上と、収集された顧客データとを含む入力テーブル008を挙げている。
本システムでは、収集された顧客データを含む説明指標テーブル101(図2(a))、分析目的である売上を含む目的指標テーブル201(図2(b))、これらの二つのテーブルのカラム情報に関するカラム情報テーブル301(図3(a))及びカラム情報テーブル401(図3(b))が入力される。
説明指標テーブル101は、店舗名102、顧客ID103、年齢104、入店時刻105、及び購入商品106といった説明指標のカラムを含むテーブルである。店舗名102は、データを集計した単位である店舗を識別する。顧客ID103は、店舗で商品を購入した顧客を識別する。年齢104は、顧客の年齢を示す。入店時刻105及び購入商品106は、それぞれ顧客が店舗に入店した時刻及びその店舗で購入した商品を示す。
目的指標テーブル201は、データを集計した単位である店舗を識別する店舗名202カラムと、分析目的であるそれぞれの店舗の売上高を示す売上203カラムと、を含むテーブルである。
図3は、本発明の実施例1の説明指標テーブル101及び目的指標テーブル201の各カラムに関する情報を格納したカラム情報テーブルの具体例の説明図である。
説明指標テーブルのカラム情報301は、説明指標テーブル101の各カラムを識別するカラム名302及び各カラム中のデータの型を示す型名303を含む。この例において、店舗名102、顧客ID103及び購入商品106には文字列型のデータが含まれ、年齢104及び入店時刻105にはそれぞれ数値型及び時刻型のデータが含まれる。
目的指標テーブルのカラム情報401は、目的指標テーブル201の各カラムを識別するカラム名402、各カラム中のデータの型を示す型名403、各カラムが、集計した単位である主キーであるかどうかを示す主キーカラム情報404、及び、各カラムが目的指標カラムであるかどうかを示す目的指標カラム情報405を含む。図3の例は、目的指標テーブル201の店舗名202が主キーであり、売上203が目的指標であることを示す。また、この例において、店舗名202には店舗名102と同様に文字列型のデータが含まれ、売上203には数値型のデータが含まれる。
なお、目的指標(目的変数)とは、予測をしたい指標であり、説明指標(説明変数)とは、目的指標を説明する(すなわちそれに基づいて目的指標を予測しようとする)指標である。本実施例では、年齢、入店時刻、購入商品等に基づいて、店舗ごとの売上高を予測しようとするため、年齢、入店時刻、購入商品等が説明指標、売上高が目的指標となる。図2に示すように、説明指標テーブル101では、目的指標テーブル201の主キーと共通する店舗名と、年齢、入店時刻、購入商品といった複数の項目の説明指標の値の組とが対応付けられる。
図4は、本発明の実施例1の各テーブルのカラムの型名に関する分類の一例を示す説明図である。
本システムでは、データの型を、大きく時刻型、数値型、文字列型に分類する。SQL(Structured Query Language)などの一般的なリレーショナルデータベースにおける型を一例に、型の対応をテーブル501に示す。
図5は、本発明の実施例1の特徴量生成部007の詳細なフロー図である。
この処理では、入力されたテーブルから、特徴量が生成される。ここで、特徴量とは、一つ以上の説明指標カラムと、分析目的である目的指標カラムとの関係性を示す値である。図5に示すカラム選択部601以下の各ステップの処理は、中央処理装置001が、主記憶装置003に格納されたアプリケーションプログラムである特徴量生成部007に記述された命令に従って実行する。
本システムでは、初めにユーザーから説明指標テーブル101、目的指標テーブル201、カラム情報テーブル301及びカラム情報テーブル401が入力される。中央処理装置001は、カラム選択部601において、説明指標テーブル101から特徴量を生成するカラムを一つ、又は複数選択する。次に、中央処理装置001は、尺度判定部602において、選択されたカラム中のデータの型を判定し、変換が必要なカラムに対してはデータの型を変換する。この処理の詳細については図6を参照して後述する。
次に、中央処理装置001は、粒度調整処理部603において、目的指標テーブル201中の目的指標カラム(図2の例では売上203)の集計単位を、説明指標テーブル101の集計単位に合わせる。この処理の詳細については図7及び図8を参照して後述する。次に、中央処理装置001は、クラスタリング処理部604において、目的指標カラムと説明指標カラムを合わせたデータをクラスタリングによって分類する。カラム選択部601において文字列型のカラムとそれ以外のデータ型のカラム(例えば数値型のカラム又は時刻型から数値型に変換されたカラム)とを含む複数のカラムが選択された場合には、それらのうち文字列型以外のデータ型のカラムがクラスタリングの対象となる。この処理の詳細については図9及び図10を参照して後述する。
次に、中央処理装置001は、クラスタ再分割処理部605において、生成された各クラスタを、その幾何的な構造に基づいて再分割する。この処理の詳細については図11及び図12を参照して後述する。次に、中央処理装置001は、クラスタの範囲抽出処理部606において、再分割された各クラスタにおける各カラムの(すなわち各説明指標の)値の範囲を抽出することで特徴量算出条件カラムを生成する。この処理の詳細については図13を参照して後述する。
次に、中央処理装置001は、特徴量集計部607において、生成された各特徴量の算出条件を満たすサンプル数を説明指標テーブル101から集計し、集計された値を特徴量として特徴量情報テーブル609に記録する。この処理の詳細については図14を参照して後述する。次に、中央処理装置001は、判定部608において、説明指標テーブル101中の全てのカラムの全組み合わせが探索されたかどうかを判定し、まだ探索されていない組合せがある場合にはその組合せについてカラム選択部601以降の処理を実行する。最終的に特徴量生成部007からは、生成した特徴量情報テーブル609が出力される。
図6は、本発明の実施例1の尺度判定部602の詳細なフロー図である。
この処理では、選択されたカラムごとに型が判定され、変換が必要な型に対しては変換してカラム情報が更新される。
選択カラム701及びカラム情報301が入力されると、中央処理装置001は、カラムの尺度判定部702においてカラム情報301からカラムの型名を抽出し、時刻型とそれ以外の型に分類する。時刻型のデータは、数値変換部703へ入力され、中央処理装置001は時刻型のデータを数値型に変換する。中央処理装置001は、変換後の各カラムのデータ型の情報を含む変換後カラム情報704を出力する。
例えば図3に示すカラム情報テーブル301が入力された場合、カラム名302の値「入店時刻」に対応する型名が「時刻型」から「数値型」に変換され、変換後のテーブルが変換後カラム情報704として出力される。これによって、入店時刻をクラスタリングの対象として(すなわち、クラスタリングを行う空間中の一つの座標軸に対応する値として)扱うことが可能になる。このように、尺度判定部602は、時刻型のデータをクラスタリングの対象とするために実行される処理であり、時刻型のデータをクラスタリング可能とする上記以外の方法がある場合にはそれを採用してもよいし、時刻型のデータをそのままクラスタリングできる場合には尺度判定部602を省略してもよい。
図7は、本発明の実施例1の粒度調整処理部603の詳細なフロー図である。
この処理では、目的指標と説明指標の集計単位を説明指標の集計単位に合わせた目的指標テーブルが生成される。
目的指標テーブル201、カラム情報301及びカラム情報401が入力されると、中央処理装置001は、共通主キー抽出処理部801において、カラム情報401から集計単位情報を示す主キーカラム情報404を抽出する。中央処理装置001は、主キー情報を元に、説明指標テーブル101から共通のカラムを抽出する。次に、中央処理装置001は、粒度拡張処理部802において、抽出したカラムの各要素と、目的指標テーブルにおける主キーカラムの各要素とを対応させたテーブルを新しく生成する。説明指標テーブル101のカラム中に存在する要素に対応する要素が、目的指標テーブルにおける主キーカラムには存在しない場合、中央処理装置001は、生成したテーブルの当該要素をnullとする。これによって、説明指標テーブル101の集計単位に拡張された目的指標テーブルである粒度調整済みカラム情報803が得られる。
図8は、本発明の実施例1の粒度調整処理部603の処理の具体例の説明図である。
図8の具体例では、目的指標テーブル201における店舗名カラム202が主キーカラムとして認識され、説明指標テーブル101における店舗名カラム102が共通キーとして抽出される。中央処理装置001は、店舗名カラム102の各要素を基準として、目的指標テーブル201における対応する要素を拡張する。図8に粒度拡張処理部802による目的指標テーブル拡張の様子を示す。粒度調整処理部603によって、粒度調整済みカラム情報1001が得られる。このようにして拡張された目的指標テーブルは、クラスタリング処理部604において、目的指標の値を含むクラスタリングを行う場合に参照される。
なお、上記の粒度調整処理部603の処理は、説明指標テーブル101に格納された年齢、入店時刻といった説明指標の値の各組と、目的指標テーブル201に格納された売上高の値とを、店舗名を介して対応付けるための処理の一例であり、中央処理装置001はそのような対応付けを別の方法で実現してもよい。
図9は、本発明の実施例1のクラスタリング処理部604の詳細なフロー図である。
この処理では、入力されたカラムを各軸とした空間上において、データサンプルがクラスタリングされる。
尺度判定部602によって得られた変換後カラム情報704と、粒度調整処理部603によって得られた粒度調整済みカラム情報803が入力されると、中央処理装置001は、Nullデータ削除処理部1101において、nullデータを一つでも含むレコードを削除する。次に、中央処理装置001は、クラスタリング処理部1102において、粒度調整済みカラム情報803と変換後カラム情報704とを合わせたカラムの集合に対して、各カラムを軸とした空間上に、説明指標テーブル101の全レコードをプロットし、クラスタリング手法によってデータを分類する。カラム選択部601においてn個のカラムが選択された場合には、n次元の空間上に各レコードの選択されたn個のカラムの数値がプロットされる。クラスタリング処理部1102では例えばk-means、DBSCAN、Grid-based Clusteringなどいかなるクラスタリング手法を用いてもよいが、一例として図10にGrid-based Clusteringによる分類を示す。クラスタリング処理部1102によって、粒度調整済みカラム情報803と変換後カラム情報704のカラムを用いたクラスタリング結果であるクラスタリング結果情報1103が得られる。
図10は、Grid-based Clusteringによるクラスタリング例を示す説明図である。
図10は、あるテーブルの二つのカラム、すなわち年齢及び給料についてクラスタリングする場合を表す。Grid-based Clusteringでは、初めにクラスタリングする対象の空間に対して、格子数が決められ、空間が分割される。図10の例では、横軸に年齢、縦軸に給料が割り当てられ、それぞれを所定の間隔で分割することによって複数の格子が生成される。そして、分割された各格子に対して、データサンプルの密度が計算され、密度がある閾値以上であった格子を重要度が高い格子と判定され、それがクラスタの種として扱われる。すなわち、一つの格子が最小のクラスタ(例えば格子u)になり得る。さらに、複数のクラスタの種が互いに隣接する場合、それらが一つのクラスタにまとめられる。このようにしてデータサンプルが密な領域を基準にデータをクラスタリングすることができる。図10の例では、それぞれ網掛け及び太線の枠で表示された領域A及びBを合わせた領域が一つのクラスタとしてクラスタリングされている。このようなクラスタリングは、例えば、Rakesh Agrawal, Johannes Gehrke, Dimitrios Gunopulos, Prabhakar Raghavan, “Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications” に記載されている。図10は、上記文献のP3、Fig.1から引用したものである。
例えば、カラム選択部601で年齢104及び入店時刻105が選択された場合、中央処理装置001は、クラスタリング処理部604において、各レコードの年齢104と入店時刻105の値の組を、例えばX軸に入店時刻、Y軸に年齢を割り当てた2次元の空間にプロットすることによって、クラスタリングを行ってもよい。あるいは、中央処理装置001は、年齢104及び入店時刻105の値に、粒度調整処理部603で対応付けられた目的指標(すなわち売上)の値を加えた値の組を、X軸に入店時刻、Y軸に年齢、Z軸に売上を割り当てた3次元の空間にプロットすることによって、クラスタリングを行ってもよい。目的指標の値を加えた値の組をクラスタリングすることによって、目的指標の値との相関が高い説明指標の値の範囲の特定が容易になることが期待できる。
図11は、本発明の実施例1のクラスタ再分割処理部605の詳細なフロー図である。
この処理では、クラスタリング処理部604において得られたクラスタを、その幾何的な構造を元に分割することで、新たなクラスタが生成される。
クラスタリング結果情報903が入力されると、中央処理装置001は、幾何構造抽出処理部1201において、各クラスタに対して、クラスタリングされた空間上における幾何構造を抽出する。抽出される幾何構造としては、直線構造、球構造、又は超直方体構造などが考えられる。次に、中央処理装置001は、クラスタ再分割処理部1202において、抽出した構造を元に各クラスタを再分割したクラスタを生成する。クラスタ再分割処理部1202からは、分割後クラスタリング結果情報1203が出力される。
図12は、本発明の実施例1のクラスタ再分割処理部1202におけるクラスタ再分割処理の具体例の説明図である。
図12には、クラスタリング処理部604において、説明指標テーブル101における入店時刻カラム及び年齢カラムが選択されており、図10で説明したGrid-based Clusteringを用いてクラスタリングした場合の分割の例を示している。
図12(a)は、分割される前のクラスタの例を示す。この例では、1個の格子に2個以上のデータサンプルが含まれる場合、その格子がクラスタの種と判定され、隣接するクラスタの種をまとめることによって、6個の格子からなる領域Cが一つのクラスタとしてクラスタリングされている。
図12(b)は、図12(a)のクラスタの分割の例を示す。中央処理装置001は、対象空間中において、クラスタリング処理部604で得られたクラスタである領域Cの中に、幾何的に長方形構造を持つ(それぞれ太線で表示された)領域D、E及びFを抽出し、抽出した長方形構造ごとにクラスタを分離する。最終的にクラスタ再分割処理部605からは、幾何的に長方形の形状をしたクラスタのみで構成されたクラスタ群(上記の例では領域D、E及びF)が出力される。
この例ではカラム選択部601でクラスタリング対象カラムとして入店時刻と年齢の2個が選択されているため、図12に示すように2次元の空間中で長方形のクラスタが抽出されるが、3個のカラムが選択された場合には、3次元の空間中で直方体のクラスタが抽出される。同様に、4以上のn個のカラムが選択された場合には、n次元の空間中で超直方体形状のクラスタが抽出される。
図13は、本発明の実施例1のクラスタの範囲抽出処理部606の詳細なフロー図である。
この処理では、各クラスタの各カラムにおける範囲が抽出され、それに基づいて特徴量が生成される。
分割後クラスタリング結果情報1203が入力されると、中央処理装置001は、クラスタ選択部1301において、各クラスタを順に選択する。選択されたクラスタに対して、カラム選択部1302では、中央処理装置001が各カラムを順に選択する。選択されたカラムについて、最小値・最大値導出部1303では、中央処理装置001がカラムの範囲として最小値及び最大値を求め、それらをクラスタリング結果情報に格納する。次に、中央処理装置001は、判定部1304において、対象の全カラムの範囲を求めたかを判定し、さらに判定部1305において全クラスタに対して対象の全カラムの範囲を求めたかを判定する。全クラスタに対して対象の全カラムの範囲が求められた場合、最終的にクラスタの範囲抽出処理部606から、範囲情報を追加したクラスタリング結果情報1306が出力される。
図14は、本発明の実施例1の特徴量集計部607の詳細なフロー図である。
この処理では、クラスタリング結果から新しい特徴量が生成され、集計した情報を格納した特徴量情報が出力される。
範囲情報を追加したクラスタリング結果情報1306が入力されると、中央処理装置001は、クラスタ選択部1401において、各クラスタを順に選択し、選択されたクラスタ情報1402を出力する。次に、中央処理装置001は、選択されたクラスタ情報1402を入力として、サンプル集計処理部1403を実行し、対象クラスタから生成される特徴量について集計した結果である集計結果を追加したクラスタ情報1404を出力する。サンプル集計処理部1403の詳細については図15を参照して後述する。次に、中央処理装置001は、判定部1405において、全てのクラスタから特徴量情報を生成したかを判定する。全てのクラスタから特徴量情報を生成したと判定された場合、最終的に特徴量集計部607からは、クラスタリング結果から生成された特徴量及び集計結果が格納された特徴量情報テーブル609が出力される。
出力される特徴量情報テーブル609は、主キーの値ごとに、クラスタリングによって得られた特徴量の算出条件に基づいて算出された特徴量を含む。例えば、クラスタリングによって得られたあるクラスタに対応する算出条件として、年齢の範囲「15〜35歳」及び入店時刻の範囲「12:00〜16:00」が得られた場合、中央処理装置001は、説明指標テーブル101の各サンプル(すなわち各レコード)について、年齢104及び入店時刻105の値が上記の条件を満たすか否か(すなわち上記の範囲内であるか否か)を判定する。そして、中央処理装置001は、主キー(すなわち店舗名202)の値ごとに、上記の条件を満たすサンプル数を集計し、その結果を特徴量として特徴量情報テーブル609に格納する。
図15は、本発明の実施例1のサンプル集計処理部1403の詳細なフロー図である。
この処理では、各クラスタから生成された特徴量が集計される。
選択されたクラスタ情報1402と説明指標テーブル101が入力されると、中央処理装置001は、初期化処理部1501において変数Zを0に初期化する。次に、中央処理装置001は、サンプル選択部1502において、説明指標テーブル101から各サンプルを順に選択する。次に、中央処理装置001は、対象カラム選択部1503において、選択されたサンプルにおける各カラムを順に選択する。
選択されたカラムが数値型、又は時刻型である場合、中央処理装置001は、判定部1504において、対象カラムの値が、選択されたクラスタ情報1402に対応するカラムの範囲を満たすかどうかを判定する。選択されたカラムが文字列型である場合、中央処理装置001は、判定部1505において、対象カラムの値が、選択されたクラスタ情報1402に対応するカラムと一致するかどうかを判定する。判定部1504又は1505の判定結果がNoである場合、処理はサンプル選択部1502に戻り、次のサンプルが選択される。
判定部1504又は1505の判定結果がYesである場合、中央処理装置001は、判定部1506において、全対象カラムに対して計算が終了したかを判定する。判定部1506の判定結果がNoである場合、処理は対象カラム選択部1503に戻り、次のカラムが選択される。判定部1506の判定結果がYesである場合、中央処理装置001は、集計部1507において集計変数Zの値を加算する。次に、中央処理装置001は、判定部1508において、全サンプルの集計が終了したかを判定し、その判定結果がNoである場合、処理はサンプル選択部1502に戻り、残りのサンプルに対して処理が続行される。判定部1508の判定結果がYesである場合、中央処理装置001は、全クラスタに対して集計した結果である集計結果を追加したクラスタ情報1404を出力する。
ここで、具体例を示しながら、本実施例の効果を説明する。例えば、図12(a)に示す領域Cがクラスタとして抽出された場合、クラスタの範囲抽出処理部606によって、クラスタに含まれる複数のグリッドの最小値から最大値までの範囲、すなわち入店時刻10:00〜16:00かつ年齢5歳〜35歳という説明指標の値の範囲が特徴量の算出条件として抽出される。この範囲に基づいて主キー(本実施例では店舗)ごとに算出された特徴量と目的指標の値(本実施例では売上高)との相関が十分に高い場合、この範囲は、目的指標の値の大きさと相関の高い頻度で出現する説明指標の値の範囲である(すなわち、この範囲の説明指標の値の出現頻度又は出現回数が、目的指標の値をよく説明する要因である)と言える。これによって、単なるGrid-based Clusteringでは抽出できなかった、目的指標の値を説明する要因の境界を、例えば上記の入店時刻10:00〜16:00かつ年齢5歳〜35歳のように人間に解釈容易な範囲として抽出できる。なお、特徴量と目的指標との相関に基づく目的指標の予測については、実施例2に具体的に記載する。
ただし、上記の範囲には、データサンプルの密度が低い範囲(例えば、データサンプルを一つも含まない、年齢が0歳から15歳かつ入店時刻が10:00から12:00の範囲)も含まれる。これに対して、分割後の領域Eのクラスタから抽出される入店時刻12:00〜16:00かつ年齢15歳〜35歳という範囲には、データサンプルの密度が低い格子が含まれない。領域D、Fから抽出される範囲も同様である。
このように、抽出されたクラスタを、データサンプルの密度が低い格子を含まない複数の長方形のクラスタに分割することによって、データサンプルの少ない説明指標の値の範囲が特徴量の算出条件から排除される。これによって、目的指標の値をよりよく説明する説明指標の値の範囲を特定できることが期待される。
なお、上記のように、分割される前のクラスタから抽出された説明指標の値の範囲によって十分に目的指標を説明できる場合には、そのような値の範囲も人間による解釈に有用と考えられる。また、分割のパターンは一通りではなく、例えば図12(a)の領域Cを、入店時刻10:00〜16:00かつ年齢25歳〜35歳のクラスタ、入店時刻12:00〜14:00かつ年齢5歳〜25歳のクラスタ、及び入店時刻14:00〜16:00かつ年齢15歳〜25歳のクラスタに分割することも可能である。このため、中央処理装置001は、クラスタ選択部1301において、分割前のクラスタ、及び、種々のパターンに分割されたそれぞれのクラスタを順次選択し、カラム選択部1302〜判定部1304においてそれぞれのクラスタの説明指標の値の範囲を計算し、計算されたそれぞれの範囲を特徴量の算出条件として保持してもよい。
次に、本発明の実施例2について図面を参照して説明する。以下に説明する相違点を除き、実施例2のデータ分析支援システムの各部は、図1〜図15に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
実施例2のデータ分析支援システムは、二次記憶装置002に特徴量生成部007の代わりに特徴量生成部2_1601が格納される点を除いて、実施例1のデータ分析支援システムと同じである。
図16は、本発明の実施例2の特徴量生成部2_1601の詳細なフロー図である。
図16のカラム選択部1602から判定部1609までの処理は、それぞれ、図5のカラム選択部601から判定部608までの処理と同様であるため、説明を省略する。入力される説明指標テーブル101、目的指標テーブル201、カラム情報テーブル301、カラム情報テーブル401及び生成される特徴量情報テーブル609は、いずれも実施例1と同様である。
判定部1609の判定結果がYesの場合、中央処理装置001は、生成された特徴量情報テーブル609を入力として、モデル生成部1610の処理を実行し、モデル情報1611を生成する。この処理の詳細は、図17を参照して後述する。これによって、生成した特徴量を使って目的指標を予測するモデル情報が新たに得られる。生成されたモデルを用いることで、従来分析者が人手で行ってきた、分析対象の要因候補となる特徴量を生成してモデルの検証を繰り返すステップを自動化することができ、分析者の分析を支援できる。
図17は、本発明の実施例2のモデル生成部1610の詳細なフロー図である。
この処理では、生成された特徴量情報テーブル609から、目的指標を予測するモデルが生成される。
特徴量情報テーブル609と目的指標テーブル201が入力されると、中央処理装置001は、相関係数計算処理部1701において各特徴量と目的指標の相関係数を計算する。計算された相関係数を元に、中央処理装置001は、特徴量選択部1702において、モデルに使用する代表特徴量を選択する。モデル計算処理部1703において、中央処理装置001は、選択された代表特徴量を用いてモデルを導出する。モデル計算処理部1703において導出されるモデルとしては、重回帰分析による線形回帰モデル、対数モデル、ベキ乗モデルなどが考えられる。モデル計算処理部1703からは、生成された特徴量と導出されたモデル式を含むモデル情報1611が出力される。
なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

Claims (14)

  1. 処理装置と、前記処理装置に接続される記憶装置と、を有するデータ分析支援システムであって、
    前記記憶装置は、
    主キーの値と目的指標の値とを対応付ける目的指標情報と、
    前記主キーと共通する値と複数の項目の説明指標の値の組とを対応付ける説明指標情報と、を保持し、
    前記処理装置は、
    前記説明指標の一つ以上の項目を選択し、
    前記選択された一つ以上の項目の説明指標の値をクラスタリングし、
    クラスタリングによって得られた各クラスタの各項目の説明指標の値の範囲を特定し、特定された値の範囲を出力することを特徴とするデータ分析支援システム。
  2. 請求項1に記載のデータ分析支援システムであって、
    前記処理装置は、前記説明指標の各組について、前記選択された一つ以上の項目の説明指標の値が前記特定された説明指標の値の範囲内であるという条件を満たすか否かを判定し、前記主キーの値ごとに、前記条件を満たす前記説明指標の組の数を集計し、集計された前記説明指標の組の数を特徴量として出力することを特徴とするデータ分析支援システム。
  3. 請求項2に記載のデータ分析支援システムであって、
    前記処理装置は、前記各主キーの値に対応する前記特徴量と、前記各主キーの値に対応する前記目的指標の値との相関に基づいて、前記目的指標を説明するモデルを生成することを特徴とするデータ分析支援システム。
  4. 請求項2に記載のデータ分析支援システムであって、
    前記記憶装置は、前記説明指標情報に含まれる説明指標の各項目のデータ型を示す情報を保持し、
    前記処理装置は、文字列型の項目及び文字列型以外のデータ型の項目を含む、前記説明指標の複数の項目が選択された場合、前記文字列型以外のデータ型の項目の説明指標の値をクラスタリングすることを特徴とするデータ分析支援システム。
  5. 請求項1に記載のデータ分析支援システムであって、
    前記処理装置は、前記選択された一つ以上の項目の説明指標の値と、前記選択された一つ以上の項目の説明指標の値に対応する前記主キーの値に対応する前記目的指標の値と、を含む値の組をクラスタリングすることを特徴とするデータ分析支援システム。
  6. 請求項1に記載のデータ分析支援システムであって、
    前記処理装置は、
    所定の大きさの複数のグリッドに分割された空間に、前記選択された一つ以上の項目の説明指標の値の各組をプロットし、プロットされた前記値の組の密度が所定の閾値を超える複数のグリッドが隣接する場合、それらを一つのクラスタに含めるように、前記選択された一つ以上の項目の説明指標の値をクラスタリングし、
    前記空間における前記各クラスタに含まれる複数のグリッドの範囲を前記各クラスタの各項目の説明指標の値の範囲として特定することを特徴とするデータ分析支援システム。
  7. 請求項6に記載のデータ分析支援システムであって、
    前記処理装置は、前記各クラスタを、前記プロットされた値の組の密度が前記所定の閾値を超えないグリッドを含まない長方形、直方体又は超直方体の複数のクラスタに分割することを特徴とするデータ分析支援システム。
  8. 処理装置と、前記処理装置に接続される記憶装置と、を有する計算機システムが実行するデータ分析支援方法であって、
    前記記憶装置は、
    主キーの値と目的指標の値とを対応付ける目的指標情報と、
    前記主キーと共通する値と複数の項目の説明指標の値の組とを対応付ける説明指標情報と、を保持し、
    前記データ分析支援方法は、
    前記処理装置が、前記説明指標の一つ以上の項目を選択する第1手順と、
    前記処理装置が、前記選択された一つ以上の項目の説明指標の値をクラスタリングする第2手順と、
    前記処理装置が、クラスタリングによって得られた各クラスタの各項目の説明指標の値の範囲を特定し、特定された値の範囲を出力する第3手順と、を含むことを特徴とするデータ分析支援方法。
  9. 請求項8に記載のデータ分析支援方法であって、
    前記処理装置が、前記説明指標の各組について、前記選択された一つ以上の項目の説明指標の値が前記特定された説明指標の値の範囲内であるという条件を満たすか否かを判定し、前記主キーの値ごとに、前記条件を満たす前記説明指標の組の数を集計し、集計された前記説明指標の組の数を特徴量として出力する第4手順をさらに含むことを特徴とするデータ分析支援方法。
  10. 請求項9に記載のデータ分析支援方法であって、
    前記処理装置が、前記各主キーの値に対応する前記特徴量と、前記各主キーの値に対応する前記目的指標の値との相関に基づいて、前記目的指標を説明するモデルを生成する第5手順をさらに含むことを特徴とするデータ分析支援方法。
  11. 請求項9に記載のデータ分析支援方法であって、
    前記記憶装置は、前記説明指標情報に含まれる説明指標の各項目のデータ型を示す情報を保持し、
    前記第2手順において、前記処理装置は、文字列型の項目及び文字列型以外のデータ型の項目を含む、前記説明指標の複数の項目が選択された場合、前記文字列型以外のデータ型の項目の説明指標の値をクラスタリングすることを特徴とするデータ分析支援方法。
  12. 請求項8に記載のデータ分析支援方法であって、
    前記第2手順において、前記処理装置は、前記選択された一つ以上の項目の説明指標の値と、前記選択された一つ以上の項目の説明指標の値に対応する前記主キーの値に対応する前記目的指標の値と、を含む値の組をクラスタリングすることを特徴とするデータ分析支援方法。
  13. 請求項8に記載のデータ分析支援方法であって、
    前記第2手順において、前記処理装置は、所定の大きさの複数のグリッドに分割された空間に、前記選択された一つ以上の項目の説明指標の値の各組をプロットし、プロットされた前記値の組の密度が所定の閾値を超える複数のグリッドが隣接する場合、それらを一つのクラスタに含めるように、前記選択された一つ以上の項目の説明指標の値をクラスタリングし、
    前記第3手順において、前記処理装置は、前記空間における前記各クラスタに含まれる複数のグリッドの範囲を前記各クラスタの各項目の説明指標の値の範囲として特定することを特徴とするデータ分析支援方法。
  14. 請求項13に記載のデータ分析支援方法であって、
    前記第2手順において、前記処理装置は、前記各クラスタを、前記プロットされた値の組の密度が前記所定の閾値を超えないグリッドを含まない長方形、直方体又は超直方体の複数のクラスタに分割することを特徴とするデータ分析支援方法。
JP2017513867A 2015-04-21 2015-04-21 データ分析支援システム及びデータ分析支援方法 Active JP6393411B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/062115 WO2016170600A1 (ja) 2015-04-21 2015-04-21 データ分析支援システム及びデータ分析支援方法

Publications (2)

Publication Number Publication Date
JPWO2016170600A1 true JPWO2016170600A1 (ja) 2017-06-08
JP6393411B2 JP6393411B2 (ja) 2018-09-19

Family

ID=57143180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017513867A Active JP6393411B2 (ja) 2015-04-21 2015-04-21 データ分析支援システム及びデータ分析支援方法

Country Status (3)

Country Link
US (1) US10509808B2 (ja)
JP (1) JP6393411B2 (ja)
WO (1) WO2016170600A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11267065B2 (en) 2019-02-18 2022-03-08 Lincoln Global, Inc. Systems and methods providing pattern recognition and data analysis in welding and cutting
US20220222686A1 (en) * 2019-05-21 2022-07-14 Nippon Telegraph And Telephone Corporation Analysis apparatus, analysis system, analysis method and program
CN112214531B (zh) * 2020-10-12 2021-11-05 海南大学 跨数据、信息、知识多模态的特征挖掘方法及组件

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278762A (ja) * 2001-03-19 2002-09-27 Nippon Steel Corp データクラスタリング方法
JP2006039970A (ja) * 2004-07-27 2006-02-09 Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho 高次元データを塊に分割する装置
JP2008117016A (ja) * 2006-10-31 2008-05-22 Toshiba Corp 文書データ処理装置
JP2012198809A (ja) * 2011-03-22 2012-10-18 Toshiba Corp 文書分析装置およびプログラム
JP2015060259A (ja) * 2013-09-17 2015-03-30 株式会社日立製作所 データ分析支援システム
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3054708B1 (ja) 1999-02-23 2000-06-19 工業技術院長 ストレス計測装置
WO2012117966A1 (ja) * 2011-02-28 2012-09-07 日本電気株式会社 データ判別装置、方法及びプログラム
WO2014141660A1 (ja) * 2013-03-13 2014-09-18 日本電気株式会社 システム分析装置、及び、システム分析方法
US20150339782A1 (en) * 2014-05-26 2015-11-26 Tata Consultancy Services Limited System and method for classifying a plurality of customer accounts

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278762A (ja) * 2001-03-19 2002-09-27 Nippon Steel Corp データクラスタリング方法
JP2006039970A (ja) * 2004-07-27 2006-02-09 Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho 高次元データを塊に分割する装置
JP2008117016A (ja) * 2006-10-31 2008-05-22 Toshiba Corp 文書データ処理装置
JP2012198809A (ja) * 2011-03-22 2012-10-18 Toshiba Corp 文書分析装置およびプログラム
JP2015060259A (ja) * 2013-09-17 2015-03-30 株式会社日立製作所 データ分析支援システム
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体

Also Published As

Publication number Publication date
WO2016170600A1 (ja) 2016-10-27
US20180260470A1 (en) 2018-09-13
JP6393411B2 (ja) 2018-09-19
US10509808B2 (en) 2019-12-17

Similar Documents

Publication Publication Date Title
TWI718643B (zh) 異常群體識別方法及裝置
Yagoubi et al. Dpisax: Massively distributed partitioned isax
JP6032467B2 (ja) 時空間データ管理システム、時空間データ管理方法、及びそのプログラム
KR101696338B1 (ko) 컬럼-인덱스 데이터 포맷을 이용하여 빅데이터를 효율적으로 처리 및 분석하는 시스템 및 방법
EP3299972A1 (en) Efficient query processing using histograms in a columnar database
US10579616B2 (en) Data search system, data search method, and program product
JP2015026188A (ja) データベース分析装置及び方法
CN111782686A (zh) 用户数据的查询方法、装置、电子设备及存储介质
JP6242540B1 (ja) データ変換システム及びデータ変換方法
JP6393411B2 (ja) データ分析支援システム及びデータ分析支援方法
Bang et al. HPC workload characterization using feature selection and clustering
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
US11620406B2 (en) Information processing device, information processing method, and recording medium
US9201888B2 (en) File management apparatus, file management method, and file management system
CN110874366A (zh) 数据处理、查询方法和装置
Dai et al. Research on personalized behaviors recommendation system based on cloud computing
Abdullahi et al. Big data: performance profiling of meteorological and oceanographic data on hive
JP7292235B2 (ja) 分析支援装置及び分析支援方法
JP7418781B2 (ja) 企業類似度算出サーバ及び企業類似度算出方法
US11126604B2 (en) Aggregation apparatus, aggregation method, and storage medium
JP6320891B2 (ja) 問題構造抽出装置および問題構造抽出方法
KR101795564B1 (ko) 컬럼-인덱스 데이터 포맷을 이용하여 빅데이터를 효율적으로 처리 및 분석하는 시스템 및 방법
JP7106924B2 (ja) クラスタ分析システム、クラスタ分析方法およびクラスタ分析プログラム
EP3413203A1 (en) Information processing device, information processing method, and computer-readable recording medium
Torres et al. A similarity study of I/O traces via string kernels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180824

R150 Certificate of patent or registration of utility model

Ref document number: 6393411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150