WO2016152455A1

WO2016152455A1 - データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

Info

Publication number: WO2016152455A1
Application number: PCT/JP2016/056744
Authority: WO
Inventors: 慎太郎花谷; 知博網野; 耕比古田中
Original assignee: 株式会社ギックス
Priority date: 2015-03-24
Filing date: 2016-03-04
Publication date: 2016-09-29
Also published as: EP3276504A1; EP3276504A4; JP5847344B1; US20180157687A1; US10762066B2; JP2016181150A

Abstract

　データ処理システムのデータベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記入力データを統合して統合データを生成した後、統合データを格納する統合レイヤと、前記統合データを、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、複数の集計データを格納する集計レイヤと、設定部で設定された分析データの生成に必要な条件に基づき、前記複数の集計データから１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出した後、分析データを格納する分析レイヤと、を有する。

Description

データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

（関連出願の相互参照）
　本願は、２０１５年３月２４日に日本国に出願された特願２０１５－０６１３２１号に基づき、優先権を主張し、その内容をここに援用する。

　本発明は、入力されたデータを処理して分析用のデータを生成するデータ処理システム、当該データ処理システムを用いたデータ処理方法、プログラム及びコンピュータ記憶媒体に関する。

　従来、時系列に蓄積された大量のデータを分析して経営に役立てるため、当該大量のデータを格納するデータウェアハウスが利用されている。このデータウェアハウスを用いれば、大量のデータから様々な分析が行えるが、例えば数億行単位のデータから分析を行おうとした場合、コンピュータへの処理負荷が大きく、処理時間がかかる。そのため、データウェアハウスから分析に必要な情報のみを選択又は集計して生成されるデータマートも利用されている。

　このようなデータウェアハウスやデータマートを備えたシステムを用いる場合、例えばシステム内のデータフローに変更が生じると、既存システムの大幅な修正又は新規システムの構築を行わなければならないという問題があった。

　そこで、例えば特許文献１では、データフローの変更に柔軟に対応するため、階層構造を有するデータベースを備え、その各層のデータベース間で、データの処理を行うデータベースサーバが提案されている。すなわち、このデータベースサーバは、データベースを格納する記憶部と、データベース間でデータの入力、加工及び出力を行う処理部とを含んで構成される。そして、記憶部は、階層構造として、処理部によって入力されたデータを登録するインタフェース層データベースと、インタフェース層データベースに登録されたデータに対して属性が付与されたデータを登録するデータウェアハウス層データベースと、データウェアハウス層データベースに登録されたデータに対してレート変換が実施されたデータを登録するワーク層データベースと、ワーク層データベースに登録されたデータに対してその利用方法に応じて加工されたデータを登録するデータマート層データベースと、を備えている。

日本国特許第４５９８６１２号公報

　近年の日々刻々と変化する社会においては、様々な分析が要求されている。しかしながら、特許文献１に記載されたデータベースサーバ（以下、従来データベースサーバ）は、サーバ内のデータフローの変更は想定しているものの、このように要求される分析が変更されること、すなわち出力されるデータの変更は想定していない。

　従来データベースサーバでは、予めどのような分析を行うのかを設定した上で、各層のデータベースが設計されている。そうすると、従来データベースサーバで処理され出力されるデータは、特定の分析には利用できるものの、他の分析には利用することができない。換言すれば、従来データベースサーバは、要求されるデータの変更に応じて、そのデータベースの設計を変更しなければならないのである。したがって、分析の変更に柔軟に対応することができず、改善の余地がある。

　本発明は、かかる点に鑑みてなされたものであり、要求される分析の変更に対応自在のデータ処理を行うことを目的とする。

　前記の目的を達成するため、本発明は、入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴としている。なお、加算項目の数量の集計には、加算項目自体の数量の集計に加え、加算項目を利用して算出される数量の集計も含まれる。

　本発明によれば、データウェアハウスに格納された入力データを統合して、統合データを生成する。この統合データには、入力データのあらゆる項目のデータが結合されており、汎用性が高い。その後、統合データを不加算項目の１つ以上の組み合わせ毎に集計して、集計データを生成する。この集計データもあらゆる不加算項目の組み合わせが網羅されているため、やはり汎用性が高い。このように汎用性の高い集計データを用いることで、要求される分析がどのような分析であっても、すなわち設定部で設定される条件がどのような条件であっても、その条件に基づいて集計データから分析データを抽出することができる。したがって、本発明のデータ処理システムによれば、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。

　また、データウェアハウスにはすべての入力データが格納されるので、例えば現在、必要としていないデータでも、後に分析の変更などで必要になった場合、迅速に対応することができる。

　ここで、本発明のように集計データを生成せずに、統合データから直接分析データを抽出することも考えられる。しかしながら、データウェアハウスに格納された入力データが大量にあり、いわゆるビッグデータである場合、統合データもビッグデータとなる。かかる場合、統合データから直接分析データを抽出しようとすると、コンピュータへの処理負荷が大きく、処理速度が遅くなってしまう。これに対して、本発明では、統合データより小容量の集計データから分析データを抽出することで、処理負荷を大幅に軽減することができる。したがって、本発明は大量のデータ処理に特に有用なのである。

　前記入力データは、トランザクション入力データとマスタ入力データを有し、前記統合データは、トランザクション統合データとマスタ統合データを有し、前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成してもよい。

　前記データウェアハウスは、前記分析データの分析結果から得られる属性データをさらに格納し、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成してもよい。

　前記処理部は、前記複数の集計データから前記分析データを抽出する処理を所定の回数行った後、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除してもよい。

　別な観点による本発明は、データ処理システムを用いて、入力されたデータを処理し分析用のデータを生成するデータ処理方法であって、前記データ処理システムは、データウェアハウス、統合レイヤ、集計レイヤ及び分析レイヤを備えたデータベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データ処理方法は、入力されたすべての入力データを前記データウェアハウスに格納する第１ステップと、前記処理部が前記入力データを統合して統合データを生成した後、前記統合データを前記統合レイヤに格納する第２ステップと、前記処理部が前記統合データを、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを前記集計レイヤに格納する第３ステップと、前記処理部が、前記設定部で設定された条件に基づき、前記複数の集計データから１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出した後、前記分析データを前記分析レイヤに格納する第４ステップと、を有することを特徴としている。

　前記入力データは、トランザクション入力データとマスタ入力データを有し、前記統合データは、トランザクション統合データとマスタ統合データを有し、前記第２ステップにおいて、前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成してもよい。

　前記データ処理方法は、前記第４ステップの後、前記分析データの分析結果から得られる属性データを、前記データウェアハウスに格納する第５ステップをさらに有し、前記第２ステップにおいて、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成してもよい。

　前記第４ステップを所定の回数行った後、前記処理部は、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除してもよい。

　また別な観点による本発明によれば、前記データ処理方法をデータ処理システムによって実行させるように、当該データ処理システムを制御する、コンピュータ上で動作するプログラムが提供される。

　さらに別な観点による本発明によれば、前記プログラムを格納した読み取り可能なコンピュータ記憶媒体が提供される。

　本発明によれば、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。

本実施の形態にかかるデータ処理システムの構成の概略を示す説明図である。本実施の形態にかかるデータベースの構成の概略を示す説明図である。取込レイヤに格納される生データの一例を示す。データウェアハウスに格納される入力データの一例を示す。統合レイヤに格納される統合データの一例を示す。集計レイヤに格納される集計データの一例を示す。分析レイヤに格納される分析データの一例を示す。他の実施の形態にかかるデータベースの構成の概略を示す説明図である。分析データに基づいて分析者が所望の分析を行う様子を示す説明図である。他の実施の形態において統合レイヤに格納される統合データの一例を示す。他の実施の形態において統合レイヤに格納される統合データの一例を示す。

　以下、本発明の実施の形態について図面を参照して説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜１．データ処理システムの構成＞
　図１は、本実施の形態にかかるデータ処理システム１の構成の概略を示している。データ処理システム１は、ネットワークＮを介して、外部システム２に接続されている。そして、データ処理システム１では、外部システム２からデータ処理システム１に入力されたデータ（以下、入力データ）を処理して、分析用のデータ（以下、分析データ）を生成する。なお、ネットワークＮは、データ処理システム１と外部システム２との間の通信を行うことができるものであれば特に限定されるものではないが、例えばインターネットや有線ＬＡＮ、無線ＬＡＮなどにより構成される。

　データ処理システム１は、通信部１０、記憶部１１、処理部１２、設定部１３、及び出力部１４を有している。

　通信部１０は、通信部１０は、ネットワークＮとの間の通信を媒介する通信インタフェースであり、外部システム２とデータ通信を行う。

　記憶部１１は、データ処理システム１で処理されるデータのデータベースを格納している。データベースは階層構造を有し、当該データベースには、入力データから分析データが生成されるまでに段階的に生成される各データが格納される。このデータベースの構成は後述する。また、記憶部１１には、後述する設定部１３で設定される条件も記憶される。

　処理部１２は、記憶部１１のデータベースに格納されるデータを処理する。すなわち、処理部１２は、入力データを段階的に処理して分析データを生成する。

　設定部１３は、所望の分析に応じて必要となる分析データを生成するため、データ処理に必要な条件を設定する。この条件は、分析者によって設定部１３から設定され、記憶部１１に記憶される。

　出力部１４は、記憶部１１のデータベースに格納された分析データをデータ処理システム１の外部に出力する。

　なお、図１に示すデータ処理システム１の構成要素は、回路（ハードウェア）、またはＣＰＵなどの中央演算処理装置と、これらを機能させるためのプログラム（ソフトウェア）から構成することができる。そして、このプログラムは各部１０～１４を制御して、後述するデータ処理を実行する。この場合において、上記プログラムは、例えばコンピュータ読み取り可能なハードディスク（ＨＤ）、フレキシブルディスク（ＦＤ）、コンパクトディスク（ＣＤ）、マグネットオプティカルデスク（ＭＯ）、各種メモリなどのコンピュータに読み取り可能な記憶媒体に格納されることができる。また、上記プログラムは、インターネットなどの通信回線網を介してダウンロードすることにより、上記記憶媒体などに格納することができる。

＜２．データベースの構成＞
　図２は、記憶部１１に格納されているデータベース２０の構成の概略を示している。データベース２０は、取込レイヤ３０、データウェアハウス４０、統合レイヤ５０、集計レイヤ６０、及び分析レイヤ７０を有している。このうち、統合レイヤ５０、集計レイヤ６０、及び分析レイヤ７０は、データマート８０を構成している。

　データベース２０の各層には、処理部１２によって所定の処理が行われた各種データが格納される。取込レイヤ３０は、外部システム２から入力されたすべての生データを一時的に格納し、データウェアハウス４０は、取込レイヤ３０の生データを加工した入力データを格納する。したがって、データウェアハウス４０には、外部システム２からのすべての入力データが格納される。統合レイヤ５０は、データウェアハウス４０の入力データを統合した統合データを格納し、集計レイヤ６０は、統合レイヤ５０の統合データを所定の項目毎に集計した集計データを格納し、分析レイヤ７０は、集計レイヤ６０の集計データから抽出された分析データを格納する。

＜３．データ処理方法＞
　次に、以上のように構成されたデータ処理システム１を用いて行われるデータ処理について説明する。以下においては、外部システム２が例えばスーパーマーケットなどの小売店（例えば全国に複数展開するチェーン店）に設けられたデータベースシステムであって、データ処理システム１において、当該小売店で取得されるデータを処理する場合を例にとって説明する。

　先ず、外部システム２のデータがネットワークＮと通信部１０を介してデータ処理システム１に入力される。外部システム２からのデータは、例えばテーブルにそのまま登録した場合、集計などのＳＱＬを利用した処理に不向きな場合がある。例えばデータ中の売上個数に不要なカンマが入っている場合、当該カンマが文字として扱われるため、集計処理で合計が出せない。そこで、データ処理システム１に入力されたデータは、データベース２０の取込レイヤ３０に一時的に取り込まれ、処理部１２によって、例えば上述したカンマを除くなどのクレンジング処理が行われる。そして、テーブルに整理された生データが取込レイヤ３０に格納される。

　取込レイヤ３０に格納される生データには、トランザクション系のトランザクション生データとマスタ系のマスタ生データが含まれ、取込レイヤ３０はトランザクション生データ群３１とマスタ生データ群３２を有している。図３は、クレンジング後の生データの一例を示している。トランザクション生データ３１１は、１２月のＰＯＳデータの一部である。トランザクション生データ３１１には、加算項目として売上個数が含まれ、その他の項目は不加算項目である。マスタ生データ３２１～３２３は、それぞれ小売店の会員マスタデータの一部、会員の入退会マスタデータの一部、商品マスタデータの一部である。マスタ生データ３２１～３２３に含まれる項目は、すべて不加算項目である。

　次に、処理部１２によって取込レイヤ３０の生データ３１１、３２１～３２３を加工して入力データを生成し、当該入力データをデータウェアハウス４０に格納する。入力データには、トランザクション入力データとマスタ入力データが含まれ、データウェアハウス４０はトランザクション入力データ群４１とマスタ入力データ群４２を有している。

　図４は、入力データの一例を示している。取込レイヤ３０には複数のトランザクション生データ３１１が順次取り込まれるが、これら複数のトランザクション生データ３１１を蓄積してトランザクション入力データ４１１を生成する。すなわち、トランザクション入力データ４１１は、時系列に蓄積された全期間のＰＯＳデータの一部である。取込レイヤ３０には複数のマスタ生データ３２１～３２３が順次取り込まれるが、複数のマスタ生データ３２１～３２３によって更新されたマスタ入力データ４２１～４２３がそれぞれ生成される。

　次に、処理部１２によってデータウェアハウス４０の入力データ４１１、４２１～４２３を統合して統合データを生成し、当該統合データを統合レイヤ５０に格納する。統合データには、トランザクション統合データとマスタ統合データが含まれ、統合レイヤ５０はトランザクション統合データ群５１とマスタ統合データ群５２を有している。

　図５は、統合データの一例を示している。先ず、マスタ入力データを統合してマスタ統合データを生成する。すなわち、会員系のマスタ入力データ４２１、４２２を統合して、マスタ統合データ５２１を生成する。このマスタ統合データ５２１は、全ての会員系のデータが統合され、汎用性の高い会員マスタデータである。また、商品系のマスタ入力データ４２３は本実施時の形態では１つであるため、マスタ入力データ４２３をマスタ統合データ５２２として生成する。このマスタ統合データ５２２も、全ての商品系のデータが統合され、汎用性の高い商品マスタデータである。

　続いて、トランザクション入力データ４１１と、上記マスタ統合データ５２１、５２２を統合して、トランザクション統合データ５１１を生成する。このトランザクション統合データ５１１は、トランザクションデータとマスタデータをすべて統合したデータであり、汎用性の高いＰＯＳデータである。

　次に、処理部１２によって統合レイヤ５０の統合データ５１１、５２１、５２２を、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目又は不加算項目の数を集計して複数の集計データを生成し、当該集計データを集計レイヤ６０に格納する。例えばトランザクション統合データ５１１には、不加算項目が１４個あり、加算項目が１個あって、すべての組み合わせに対して集計データが生成される。このようにあらゆる不加算項目の組み合わせが網羅されているため、集計データの汎用性は高い。また、加算項目の集計には、加算項目の数量の集計には、加算項目自体の数量の集計に加え、加算項目を利用して算出される数量の集計も含まれる。具体的に本実施の形態では、加算項目である売上個数の集計に加えて、売上個数と売上単価から算出される売上金額と平均売上単価の集計も含まれる。なお、このように売上金額と平均売上単価の算出は、データ処理システム１において予めプログラミングされている。

　図６は、集計データの一例を示している。集計データ６０１～６０４は、トランザクション統合データ５１１を所定の項目毎に集計したものである。集計データ６０１は、レシート単位（不加算項目）の集計であって、売上個数と売上金額合計（加算項目の数量）を集計している。集計データ６０２、６０３は、それぞれ商品カテゴリ単位と会員単位（不加算項目）の集計であって、レシート数（不加算項目の数）と、売上個数及び売上金額合計（加算項目の数量）を集計している。集計データ６０４は、商品カテゴリとＰＬＵコード単位（不加算項目）の集計であって、平均売上単価（加算項目の数量）を集計している。

　また、集計データ６０５は、マスタ統合データ５２１を所定の項目毎に集計したものである。すなわち、集計データ６０５は、住所単位（不加算項目）の集計であって、会員数（不加算項目の数）を集計している。なお、集計データ６０５は、トランザクション統合データ５１１から生成されてもよい。

　ここまで、データ処理システム１において生データ３１１、３２１～３２３から集計データ６０１～６０５を生成する処理は自動で行われる。

　次に、集計データ６０１～６０５から分析データを生成する際には、分析者によってマニュアルで設定される条件が用いられる。すなわち、分析者は、所望の分析に応じて必要となる分析データを取得するため、集計データから分析データを抽出する際の条件を設定する。そして処理部１２によって、設定部１３で設定された条件に基づき、複数の集計データ６０１～６０５から１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出する。この分析データは、分析レイヤ７０に格納される。

　図７は、分析データの一例を示している。本実施の形態では、設定部１３において集計データ６０１～６０４を選択し、さらに各集計データ６０１～６０４の１２月のデータを抽出するように条件を設定している。そして、分析データ７０１～７０４が生成される。なお、分析者が設定する条件によっては、集計データが分析データとしてそのまま使われることがあり、かかる場合、集計データと分析データは同じものとなる。

　分析データ７０１～７０４は、出力部１４からデータ処理システム１の外部に出力される。そして分析者は、分析データ７０１～７０４に基づいて所望の分析を行う。この際、分析者は既存の分析ツール（例えばＢＩツール）を用いて分析を行うが、分析データ７０１～７０４はこの分析ツールで扱うことができる容量まで十分に小さくなっている。

　以上の実施の形態によれば、統合レイヤ５０の統合データと集計レイヤ６０の集計データは、それぞれ汎用性が高い。このため、要求される分析がどのような分析であっても、すなわち設定部１３で設定される条件がどのような条件であっても、その条件に基づいて集計データから分析データを抽出することができる。したがって、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。換言すれば、様々な分析データに基づいて最大限経営に活かせる分析を行うことができる。

　また、データウェアハウス４０にはすべての入力データが格納されるので、例えば現在、必要としていないデータでも、後に分析軸の変更などで必要になった場合、迅速に対応することができる。

　また、データウェアハウス４０の入力データがいわゆるビッグデータである場合、統合データもビッグデータとなる。かかる場合、例えば従来のように統合データから直接分析データを抽出しようとすると、コンピュータへの処理負荷が大きく、処理速度が遅くなってしまう。この点、本実施の形態では、統合データより小容量の集計データから分析データを抽出することで、処理負荷を大幅に軽減することができる。したがって、本実施の形態は大量のデータ処理に特に有用なのである。

＜４．他の実施の形態＞
　次に、本発明の他の実施の形態について説明する。以下の説明において、上記実施の形態と重複する箇所は説明を省略する。

＜４－１．他の実施の形態＞
　以上の実施の形態において、図８に示すように分析者による分析結果９０がデータ処理システム１のデータベース２０にフィードバックされてもよい。図９は、データ処理システム１から出力される分析データに基づいて、分析者が所望の分析を行う様子を示している。

　例えば分析データ７０３において、全会員を売上金額合計の大きい順に並び替え、全会員の上位２０％を優良会員とし、次の３０％を準優良会員とし、残りの５０％を一般会員と分析する。この分析結果から、会員番号と会員カテゴリを対応させた会員カテゴリマスタデータである、属性データ９０１を生成する。

　また、例えば分析データ７０４において、商品カテゴリ毎に平均売上単価の大きい順に並び替えを行い、全商品の上位２０％を高級品とし、次の３０％を中級品とし、残りの５０％を普及品と分析する。この分析結果から、ＰＬＵコードと商品ランクカテゴリを対応させた商品ランクカテゴリマスタデータである、属性データ９０２を生成する。こうして得られた属性データ９０１、９０２は、図８に示すようにデータウェアハウス４０の属性データ群４３に格納される。

　そして、データ処理システム１においてデータ処理を行う際には、会員系の属性データ９０１は、同じ会員系のマスタ統合データ５２１に付加され、図１０に示すマスタ統合データ５２１ａが生成される。また、商品系の属性データ９０２は、同じ商品系のマスタ統合データ５２２に付加され、マスタ統合データ５２２ａが生成される。そして、これらマスタ統合データ５２１ａ、５２２ａがトランザクション統合データ５１１に統合され、トランザクション統合データ５１１ａが生成される。

　このようにデータベース２０に格納されるデータが進化するので、例えば小売店で取り扱う商品の変化や社会の変化に応じて、分析軸が変わったとしても、柔軟に対応して適切な分析を行うことができる。

　なお、本実施の形態では分析データから属性データを生成している。この点、上述したように設定部１３で分析者が設定する条件によっては、集計データが分析データとしてそのまま使われ、集計データと分析データは同じとなる場合があるが、この場合には、実質的に集計データから属性データを生成することになる。

　また、属性データの他の例としては、例えば会員の誕生日から算出される年齢と年代、入会日と退会日から算出される会員期間、退会日から取得される退会フラグなどがある。これら属性データをマスタ統合データ５２１に付加し、図１１に示すようにマスタ統合データ５２１ｂが生成される。そして、マスタ統合データ５２１ｂがトランザクション統合データ５１１に統合され、トランザクション統合データ５１１ｂが生成される。

＜４－２．他の実施の形態＞
　以上の実施の形態において、集計レイヤ６０の複数の集計データから分析レイヤ７０の分析データを抽出する処理を所定の回数行った後、当該複数の集計データのうち、分析データを生成するために選択されていない集計データを集計レイヤ６０から削除してもよい。所定の回数の分析を行うと、分析者の分析要求がパターン化されていく。このパターンに即座に対応できる一番効率の良い集計データを集計レイヤ６０に格納する。

　かかる場合、集計レイヤ６０に格納される集計データの数が少なくなり、より効率よく分析データを抽出することができる。また、当該集計レイヤ６０の必要容量を小さくすることもできる。なお、集計データから分析データを抽出する所定の回数は、特に限定されるものではなく、任意に選択することができる。

＜４－３．他の実施の形態＞
　以上の実施の形態において、データベース２０に格納されるデータはこれに限定されない。取込レイヤ３０のトランザクション生データ群３１には、例えばアクセスログなどのログデータが格納されてもよく、これにより、データウェアハウス４０のトランザクション入力データ群４１と統合レイヤ５０のトランザクション統合データ群５１にも、それぞれログデータが格納されてもよい。また、取込レイヤ３０のマスタ生データ群３２には、チェーン店の店舗データや社員データが格納されてもよく、これにより、データウェアハウス４０のマスタ入力データ群４２と統合レイヤ５０のマスタ統合データ群５２にも、それぞれ店舗データや社員データが格納されてもよい。さらに、データウェアハウス４０の属性データ群４３にも、店舗系や社員系の属性データが格納されてもよい。

　また、トランザクション生データ３１１には、加算項目として売上個数が含まれ、さらに集計データ６０１には、加算項目を利用して算出される数量の集計として、売上個数と売上単価から算出される売上金額が含まれていた。この点、トランザクション生データ３１１に売上金額が含まれていてもよく、かかる場合、集計データ６０１を生成する際に、売上個数と売上単価から売上金額を算出する必要はない。このように取込レイヤ３０に格納される生データは、加算項目と不加算項目を任意に含むことができ、これらの項目に応じて集計レイヤ６０の集計データが生成される。

　また、以上の実施の形態は、データ処理システム１において小売店で取得されるデータを処理したが、データ処理の対象はこれに限定されない。本発明のデータ処理システム１は、例えばクレジットカードの使用データやＥＣサイトの利用データ、ゲームにおける利用データ、公共交通機関の利用データなど、会員などを識別するＩＤを備え、当該ＩＤに紐づけられた履歴が残っているデータであれば、任意のデータを処理することができる。

　以上、添付図面を参照しながら本発明の好適な実施の形態について説明したが、本発明はかかる例に限定されない。当業者であれば、請求の範囲に記載された思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

　本発明は、例えばデータを処理して分析用のデータを生成する際に有用であり、特にビッグデータの処理分析に有用である。

　１　　データ処理システム
　２　　外部システム
　１０　通信部
　１１　記憶部
　１２　処理部
　１３　設定部
　１４　出力部
　２０　データベース
　３０　取込レイヤ
　３１　トランザクション生データ群
　３２　マスタ生データ群
　４０　データウェアハウス
　４１　トランザクション入力データ群
　４２　マスタ入力データ群
　４３　属性データ群
　５０　統合レイヤ
　５１　トランザクション統合データ群
　５２　マスタ統合データ群
　６０　集計レイヤ
　７０　分析レイヤ
　８０　データマート
　９０　分析結果
　３１１、３２１～３２３　生データ
　４１１、４２１～４２３　入力データ
　５１１、５２１、５２２　統合データ
　６０１～６０５　集計データ
　７０１～７０４　分析データ
　９０１、９０２　属性データ
　Ｎ　　　ネットワーク

Claims

入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、
データベースを格納する記憶部と、
前記データベースに格納されるデータを処理する処理部と、
分析用のデータを生成するために必要な条件を設定する設定部と、を有し、
前記データベースは、
入力されたすべての入力データを格納するデータウェアハウスと、
前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、
前記処理部によって前記統合データを、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、
前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム。
前記入力データは、トランザクション入力データとマスタ入力データを有し、
前記統合データは、トランザクション統合データとマスタ統合データを有し、
前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、
前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成することを特徴とする、請求項１に記載のデータ処理システム。
前記データウェアハウスは、前記分析データの分析結果から得られる属性データをさらに格納し、
前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成することを特徴とする、請求項１又は２に記載のデータ処理システム。
前記処理部は、前記複数の集計データから前記分析データを抽出する処理を所定の回数行った後、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除することを特徴とする、請求項１～３のいずれか一項に記載のデータ処理システム。
データ処理システムを用いて、入力されたデータを処理し分析用のデータを生成するデータ処理方法であって、
前記データ処理システムは、
データウェアハウス、統合レイヤ、集計レイヤ及び分析レイヤを備えたデータベースを格納する記憶部と、
前記データベースに格納されるデータを処理する処理部と、
分析用のデータを生成するために必要な条件を設定する設定部と、を有し、
前記データ処理方法は、
入力されたすべての入力データを前記データウェアハウスに格納する第１ステップと、
前記処理部が前記入力データを統合して統合データを生成した後、前記統合データを前記統合レイヤに格納する第２ステップと、
前記処理部が前記統合データを、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを前記集計レイヤに格納する第３ステップと、
前記処理部が、前記設定部で設定された条件に基づき、前記複数の集計データから１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出した後、前記分析データを前記分析レイヤに格納する第４ステップと、を有することを特徴とする、データ処理方法。
前記入力データは、トランザクション入力データとマスタ入力データを有し、
前記統合データは、トランザクション統合データとマスタ統合データを有し、
前記第２ステップにおいて、
前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、
前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成することを特徴とする、請求項５に記載のデータ処理方法。
前記第４ステップの後、前記分析データの分析結果から得られる属性データを、前記データウェアハウスに格納する第５ステップをさらに有し、
前記第２ステップにおいて、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成することを特徴とする、請求項５又は６に記載のデータ処理方法。
前記第４ステップを所定の回数行った後、前記処理部は、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除することを特徴とする、請求項５～７のいずれか一項に記載のデータ処理方法。
請求項５～８のいずれか一項に記載のデータ処理方法をデータ処理システムによって実行させるように、当該データ処理システムを制御する、コンピュータ上で動作するプログラム。
請求項９に記載のプログラムを格納した読み取り可能なコンピュータ記憶媒体。