WO2016152455A1 - データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 - Google Patents

データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 Download PDF

Info

Publication number
WO2016152455A1
WO2016152455A1 PCT/JP2016/056744 JP2016056744W WO2016152455A1 WO 2016152455 A1 WO2016152455 A1 WO 2016152455A1 JP 2016056744 W JP2016056744 W JP 2016056744W WO 2016152455 A1 WO2016152455 A1 WO 2016152455A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis
integrated
layer
processing unit
Prior art date
Application number
PCT/JP2016/056744
Other languages
English (en)
French (fr)
Inventor
慎太郎 花谷
知博 網野
耕比古 田中
Original Assignee
株式会社ギックス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ギックス filed Critical 株式会社ギックス
Priority to EP16768358.0A priority Critical patent/EP3276504A4/en
Priority to US15/559,115 priority patent/US10762066B2/en
Publication of WO2016152455A1 publication Critical patent/WO2016152455A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 データ処理システムのデータベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記入力データを統合して統合データを生成した後、統合データを格納する統合レイヤと、前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、複数の集計データを格納する集計レイヤと、設定部で設定された分析データの生成に必要な条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、分析データを格納する分析レイヤと、を有する。

Description

データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体
(関連出願の相互参照)
 本願は、2015年3月24日に日本国に出願された特願2015-061321号に基づき、優先権を主張し、その内容をここに援用する。
 本発明は、入力されたデータを処理して分析用のデータを生成するデータ処理システム、当該データ処理システムを用いたデータ処理方法、プログラム及びコンピュータ記憶媒体に関する。
 従来、時系列に蓄積された大量のデータを分析して経営に役立てるため、当該大量のデータを格納するデータウェアハウスが利用されている。このデータウェアハウスを用いれば、大量のデータから様々な分析が行えるが、例えば数億行単位のデータから分析を行おうとした場合、コンピュータへの処理負荷が大きく、処理時間がかかる。そのため、データウェアハウスから分析に必要な情報のみを選択又は集計して生成されるデータマートも利用されている。
 このようなデータウェアハウスやデータマートを備えたシステムを用いる場合、例えばシステム内のデータフローに変更が生じると、既存システムの大幅な修正又は新規システムの構築を行わなければならないという問題があった。
 そこで、例えば特許文献1では、データフローの変更に柔軟に対応するため、階層構造を有するデータベースを備え、その各層のデータベース間で、データの処理を行うデータベースサーバが提案されている。すなわち、このデータベースサーバは、データベースを格納する記憶部と、データベース間でデータの入力、加工及び出力を行う処理部とを含んで構成される。そして、記憶部は、階層構造として、処理部によって入力されたデータを登録するインタフェース層データベースと、インタフェース層データベースに登録されたデータに対して属性が付与されたデータを登録するデータウェアハウス層データベースと、データウェアハウス層データベースに登録されたデータに対してレート変換が実施されたデータを登録するワーク層データベースと、ワーク層データベースに登録されたデータに対してその利用方法に応じて加工されたデータを登録するデータマート層データベースと、を備えている。
日本国特許第4598612号公報
 近年の日々刻々と変化する社会においては、様々な分析が要求されている。しかしながら、特許文献1に記載されたデータベースサーバ(以下、従来データベースサーバ)は、サーバ内のデータフローの変更は想定しているものの、このように要求される分析が変更されること、すなわち出力されるデータの変更は想定していない。
 従来データベースサーバでは、予めどのような分析を行うのかを設定した上で、各層のデータベースが設計されている。そうすると、従来データベースサーバで処理され出力されるデータは、特定の分析には利用できるものの、他の分析には利用することができない。換言すれば、従来データベースサーバは、要求されるデータの変更に応じて、そのデータベースの設計を変更しなければならないのである。したがって、分析の変更に柔軟に対応することができず、改善の余地がある。
 本発明は、かかる点に鑑みてなされたものであり、要求される分析の変更に対応自在のデータ処理を行うことを目的とする。
 前記の目的を達成するため、本発明は、入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴としている。なお、加算項目の数量の集計には、加算項目自体の数量の集計に加え、加算項目を利用して算出される数量の集計も含まれる。
 本発明によれば、データウェアハウスに格納された入力データを統合して、統合データを生成する。この統合データには、入力データのあらゆる項目のデータが結合されており、汎用性が高い。その後、統合データを不加算項目の1つ以上の組み合わせ毎に集計して、集計データを生成する。この集計データもあらゆる不加算項目の組み合わせが網羅されているため、やはり汎用性が高い。このように汎用性の高い集計データを用いることで、要求される分析がどのような分析であっても、すなわち設定部で設定される条件がどのような条件であっても、その条件に基づいて集計データから分析データを抽出することができる。したがって、本発明のデータ処理システムによれば、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。
 また、データウェアハウスにはすべての入力データが格納されるので、例えば現在、必要としていないデータでも、後に分析の変更などで必要になった場合、迅速に対応することができる。
 ここで、本発明のように集計データを生成せずに、統合データから直接分析データを抽出することも考えられる。しかしながら、データウェアハウスに格納された入力データが大量にあり、いわゆるビッグデータである場合、統合データもビッグデータとなる。かかる場合、統合データから直接分析データを抽出しようとすると、コンピュータへの処理負荷が大きく、処理速度が遅くなってしまう。これに対して、本発明では、統合データより小容量の集計データから分析データを抽出することで、処理負荷を大幅に軽減することができる。したがって、本発明は大量のデータ処理に特に有用なのである。
 前記入力データは、トランザクション入力データとマスタ入力データを有し、前記統合データは、トランザクション統合データとマスタ統合データを有し、前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成してもよい。
 前記データウェアハウスは、前記分析データの分析結果から得られる属性データをさらに格納し、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成してもよい。
 前記処理部は、前記複数の集計データから前記分析データを抽出する処理を所定の回数行った後、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除してもよい。
 別な観点による本発明は、データ処理システムを用いて、入力されたデータを処理し分析用のデータを生成するデータ処理方法であって、前記データ処理システムは、データウェアハウス、統合レイヤ、集計レイヤ及び分析レイヤを備えたデータベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データ処理方法は、入力されたすべての入力データを前記データウェアハウスに格納する第1ステップと、前記処理部が前記入力データを統合して統合データを生成した後、前記統合データを前記統合レイヤに格納する第2ステップと、前記処理部が前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを前記集計レイヤに格納する第3ステップと、前記処理部が、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを前記分析レイヤに格納する第4ステップと、を有することを特徴としている。
 前記入力データは、トランザクション入力データとマスタ入力データを有し、前記統合データは、トランザクション統合データとマスタ統合データを有し、前記第2ステップにおいて、前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成してもよい。
 前記データ処理方法は、前記第4ステップの後、前記分析データの分析結果から得られる属性データを、前記データウェアハウスに格納する第5ステップをさらに有し、前記第2ステップにおいて、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成してもよい。
 前記第4ステップを所定の回数行った後、前記処理部は、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除してもよい。
 また別な観点による本発明によれば、前記データ処理方法をデータ処理システムによって実行させるように、当該データ処理システムを制御する、コンピュータ上で動作するプログラムが提供される。
 さらに別な観点による本発明によれば、前記プログラムを格納した読み取り可能なコンピュータ記憶媒体が提供される。
 本発明によれば、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。
本実施の形態にかかるデータ処理システムの構成の概略を示す説明図である。 本実施の形態にかかるデータベースの構成の概略を示す説明図である。 取込レイヤに格納される生データの一例を示す。 データウェアハウスに格納される入力データの一例を示す。 統合レイヤに格納される統合データの一例を示す。 集計レイヤに格納される集計データの一例を示す。 分析レイヤに格納される分析データの一例を示す。 他の実施の形態にかかるデータベースの構成の概略を示す説明図である。 分析データに基づいて分析者が所望の分析を行う様子を示す説明図である。 他の実施の形態において統合レイヤに格納される統合データの一例を示す。 他の実施の形態において統合レイヤに格納される統合データの一例を示す。
 以下、本発明の実施の形態について図面を参照して説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.データ処理システムの構成>
 図1は、本実施の形態にかかるデータ処理システム1の構成の概略を示している。データ処理システム1は、ネットワークNを介して、外部システム2に接続されている。そして、データ処理システム1では、外部システム2からデータ処理システム1に入力されたデータ(以下、入力データ)を処理して、分析用のデータ(以下、分析データ)を生成する。なお、ネットワークNは、データ処理システム1と外部システム2との間の通信を行うことができるものであれば特に限定されるものではないが、例えばインターネットや有線LAN、無線LANなどにより構成される。
 データ処理システム1は、通信部10、記憶部11、処理部12、設定部13、及び出力部14を有している。
 通信部10は、通信部10は、ネットワークNとの間の通信を媒介する通信インタフェースであり、外部システム2とデータ通信を行う。
 記憶部11は、データ処理システム1で処理されるデータのデータベースを格納している。データベースは階層構造を有し、当該データベースには、入力データから分析データが生成されるまでに段階的に生成される各データが格納される。このデータベースの構成は後述する。また、記憶部11には、後述する設定部13で設定される条件も記憶される。
 処理部12は、記憶部11のデータベースに格納されるデータを処理する。すなわち、処理部12は、入力データを段階的に処理して分析データを生成する。
 設定部13は、所望の分析に応じて必要となる分析データを生成するため、データ処理に必要な条件を設定する。この条件は、分析者によって設定部13から設定され、記憶部11に記憶される。
 出力部14は、記憶部11のデータベースに格納された分析データをデータ処理システム1の外部に出力する。
 なお、図1に示すデータ処理システム1の構成要素は、回路(ハードウェア)、またはCPUなどの中央演算処理装置と、これらを機能させるためのプログラム(ソフトウェア)から構成することができる。そして、このプログラムは各部10~14を制御して、後述するデータ処理を実行する。この場合において、上記プログラムは、例えばコンピュータ読み取り可能なハードディスク(HD)、フレキシブルディスク(FD)、コンパクトディスク(CD)、マグネットオプティカルデスク(MO)、各種メモリなどのコンピュータに読み取り可能な記憶媒体に格納されることができる。また、上記プログラムは、インターネットなどの通信回線網を介してダウンロードすることにより、上記記憶媒体などに格納することができる。
<2.データベースの構成>
 図2は、記憶部11に格納されているデータベース20の構成の概略を示している。データベース20は、取込レイヤ30、データウェアハウス40、統合レイヤ50、集計レイヤ60、及び分析レイヤ70を有している。このうち、統合レイヤ50、集計レイヤ60、及び分析レイヤ70は、データマート80を構成している。
 データベース20の各層には、処理部12によって所定の処理が行われた各種データが格納される。取込レイヤ30は、外部システム2から入力されたすべての生データを一時的に格納し、データウェアハウス40は、取込レイヤ30の生データを加工した入力データを格納する。したがって、データウェアハウス40には、外部システム2からのすべての入力データが格納される。統合レイヤ50は、データウェアハウス40の入力データを統合した統合データを格納し、集計レイヤ60は、統合レイヤ50の統合データを所定の項目毎に集計した集計データを格納し、分析レイヤ70は、集計レイヤ60の集計データから抽出された分析データを格納する。
<3.データ処理方法>
 次に、以上のように構成されたデータ処理システム1を用いて行われるデータ処理について説明する。以下においては、外部システム2が例えばスーパーマーケットなどの小売店(例えば全国に複数展開するチェーン店)に設けられたデータベースシステムであって、データ処理システム1において、当該小売店で取得されるデータを処理する場合を例にとって説明する。
 先ず、外部システム2のデータがネットワークNと通信部10を介してデータ処理システム1に入力される。外部システム2からのデータは、例えばテーブルにそのまま登録した場合、集計などのSQLを利用した処理に不向きな場合がある。例えばデータ中の売上個数に不要なカンマが入っている場合、当該カンマが文字として扱われるため、集計処理で合計が出せない。そこで、データ処理システム1に入力されたデータは、データベース20の取込レイヤ30に一時的に取り込まれ、処理部12によって、例えば上述したカンマを除くなどのクレンジング処理が行われる。そして、テーブルに整理された生データが取込レイヤ30に格納される。
 取込レイヤ30に格納される生データには、トランザクション系のトランザクション生データとマスタ系のマスタ生データが含まれ、取込レイヤ30はトランザクション生データ群31とマスタ生データ群32を有している。図3は、クレンジング後の生データの一例を示している。トランザクション生データ311は、12月のPOSデータの一部である。トランザクション生データ311には、加算項目として売上個数が含まれ、その他の項目は不加算項目である。マスタ生データ321~323は、それぞれ小売店の会員マスタデータの一部、会員の入退会マスタデータの一部、商品マスタデータの一部である。マスタ生データ321~323に含まれる項目は、すべて不加算項目である。
 次に、処理部12によって取込レイヤ30の生データ311、321~323を加工して入力データを生成し、当該入力データをデータウェアハウス40に格納する。入力データには、トランザクション入力データとマスタ入力データが含まれ、データウェアハウス40はトランザクション入力データ群41とマスタ入力データ群42を有している。
 図4は、入力データの一例を示している。取込レイヤ30には複数のトランザクション生データ311が順次取り込まれるが、これら複数のトランザクション生データ311を蓄積してトランザクション入力データ411を生成する。すなわち、トランザクション入力データ411は、時系列に蓄積された全期間のPOSデータの一部である。取込レイヤ30には複数のマスタ生データ321~323が順次取り込まれるが、複数のマスタ生データ321~323によって更新されたマスタ入力データ421~423がそれぞれ生成される。
 次に、処理部12によってデータウェアハウス40の入力データ411、421~423を統合して統合データを生成し、当該統合データを統合レイヤ50に格納する。統合データには、トランザクション統合データとマスタ統合データが含まれ、統合レイヤ50はトランザクション統合データ群51とマスタ統合データ群52を有している。
 図5は、統合データの一例を示している。先ず、マスタ入力データを統合してマスタ統合データを生成する。すなわち、会員系のマスタ入力データ421、422を統合して、マスタ統合データ521を生成する。このマスタ統合データ521は、全ての会員系のデータが統合され、汎用性の高い会員マスタデータである。また、商品系のマスタ入力データ423は本実施時の形態では1つであるため、マスタ入力データ423をマスタ統合データ522として生成する。このマスタ統合データ522も、全ての商品系のデータが統合され、汎用性の高い商品マスタデータである。
 続いて、トランザクション入力データ411と、上記マスタ統合データ521、522を統合して、トランザクション統合データ511を生成する。このトランザクション統合データ511は、トランザクションデータとマスタデータをすべて統合したデータであり、汎用性の高いPOSデータである。
 次に、処理部12によって統合レイヤ50の統合データ511、521、522を、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目又は不加算項目の数を集計して複数の集計データを生成し、当該集計データを集計レイヤ60に格納する。例えばトランザクション統合データ511には、不加算項目が14個あり、加算項目が1個あって、すべての組み合わせに対して集計データが生成される。このようにあらゆる不加算項目の組み合わせが網羅されているため、集計データの汎用性は高い。また、加算項目の集計には、加算項目の数量の集計には、加算項目自体の数量の集計に加え、加算項目を利用して算出される数量の集計も含まれる。具体的に本実施の形態では、加算項目である売上個数の集計に加えて、売上個数と売上単価から算出される売上金額と平均売上単価の集計も含まれる。なお、このように売上金額と平均売上単価の算出は、データ処理システム1において予めプログラミングされている。
 図6は、集計データの一例を示している。集計データ601~604は、トランザクション統合データ511を所定の項目毎に集計したものである。集計データ601は、レシート単位(不加算項目)の集計であって、売上個数と売上金額合計(加算項目の数量)を集計している。集計データ602、603は、それぞれ商品カテゴリ単位と会員単位(不加算項目)の集計であって、レシート数(不加算項目の数)と、売上個数及び売上金額合計(加算項目の数量)を集計している。集計データ604は、商品カテゴリとPLUコード単位(不加算項目)の集計であって、平均売上単価(加算項目の数量)を集計している。
 また、集計データ605は、マスタ統合データ521を所定の項目毎に集計したものである。すなわち、集計データ605は、住所単位(不加算項目)の集計であって、会員数(不加算項目の数)を集計している。なお、集計データ605は、トランザクション統合データ511から生成されてもよい。
 ここまで、データ処理システム1において生データ311、321~323から集計データ601~605を生成する処理は自動で行われる。
 次に、集計データ601~605から分析データを生成する際には、分析者によってマニュアルで設定される条件が用いられる。すなわち、分析者は、所望の分析に応じて必要となる分析データを取得するため、集計データから分析データを抽出する際の条件を設定する。そして処理部12によって、設定部13で設定された条件に基づき、複数の集計データ601~605から1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出する。この分析データは、分析レイヤ70に格納される。
 図7は、分析データの一例を示している。本実施の形態では、設定部13において集計データ601~604を選択し、さらに各集計データ601~604の12月のデータを抽出するように条件を設定している。そして、分析データ701~704が生成される。なお、分析者が設定する条件によっては、集計データが分析データとしてそのまま使われることがあり、かかる場合、集計データと分析データは同じものとなる。
 分析データ701~704は、出力部14からデータ処理システム1の外部に出力される。そして分析者は、分析データ701~704に基づいて所望の分析を行う。この際、分析者は既存の分析ツール(例えばBIツール)を用いて分析を行うが、分析データ701~704はこの分析ツールで扱うことができる容量まで十分に小さくなっている。
 以上の実施の形態によれば、統合レイヤ50の統合データと集計レイヤ60の集計データは、それぞれ汎用性が高い。このため、要求される分析がどのような分析であっても、すなわち設定部13で設定される条件がどのような条件であっても、その条件に基づいて集計データから分析データを抽出することができる。したがって、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。換言すれば、様々な分析データに基づいて最大限経営に活かせる分析を行うことができる。
 また、データウェアハウス40にはすべての入力データが格納されるので、例えば現在、必要としていないデータでも、後に分析軸の変更などで必要になった場合、迅速に対応することができる。
 また、データウェアハウス40の入力データがいわゆるビッグデータである場合、統合データもビッグデータとなる。かかる場合、例えば従来のように統合データから直接分析データを抽出しようとすると、コンピュータへの処理負荷が大きく、処理速度が遅くなってしまう。この点、本実施の形態では、統合データより小容量の集計データから分析データを抽出することで、処理負荷を大幅に軽減することができる。したがって、本実施の形態は大量のデータ処理に特に有用なのである。
<4.他の実施の形態>
 次に、本発明の他の実施の形態について説明する。以下の説明において、上記実施の形態と重複する箇所は説明を省略する。
<4-1.他の実施の形態>
 以上の実施の形態において、図8に示すように分析者による分析結果90がデータ処理システム1のデータベース20にフィードバックされてもよい。図9は、データ処理システム1から出力される分析データに基づいて、分析者が所望の分析を行う様子を示している。
 例えば分析データ703において、全会員を売上金額合計の大きい順に並び替え、全会員の上位20%を優良会員とし、次の30%を準優良会員とし、残りの50%を一般会員と分析する。この分析結果から、会員番号と会員カテゴリを対応させた会員カテゴリマスタデータである、属性データ901を生成する。
 また、例えば分析データ704において、商品カテゴリ毎に平均売上単価の大きい順に並び替えを行い、全商品の上位20%を高級品とし、次の30%を中級品とし、残りの50%を普及品と分析する。この分析結果から、PLUコードと商品ランクカテゴリを対応させた商品ランクカテゴリマスタデータである、属性データ902を生成する。こうして得られた属性データ901、902は、図8に示すようにデータウェアハウス40の属性データ群43に格納される。
 そして、データ処理システム1においてデータ処理を行う際には、会員系の属性データ901は、同じ会員系のマスタ統合データ521に付加され、図10に示すマスタ統合データ521aが生成される。また、商品系の属性データ902は、同じ商品系のマスタ統合データ522に付加され、マスタ統合データ522aが生成される。そして、これらマスタ統合データ521a、522aがトランザクション統合データ511に統合され、トランザクション統合データ511aが生成される。
 このようにデータベース20に格納されるデータが進化するので、例えば小売店で取り扱う商品の変化や社会の変化に応じて、分析軸が変わったとしても、柔軟に対応して適切な分析を行うことができる。
 なお、本実施の形態では分析データから属性データを生成している。この点、上述したように設定部13で分析者が設定する条件によっては、集計データが分析データとしてそのまま使われ、集計データと分析データは同じとなる場合があるが、この場合には、実質的に集計データから属性データを生成することになる。
 また、属性データの他の例としては、例えば会員の誕生日から算出される年齢と年代、入会日と退会日から算出される会員期間、退会日から取得される退会フラグなどがある。これら属性データをマスタ統合データ521に付加し、図11に示すようにマスタ統合データ521bが生成される。そして、マスタ統合データ521bがトランザクション統合データ511に統合され、トランザクション統合データ511bが生成される。
<4-2.他の実施の形態>
 以上の実施の形態において、集計レイヤ60の複数の集計データから分析レイヤ70の分析データを抽出する処理を所定の回数行った後、当該複数の集計データのうち、分析データを生成するために選択されていない集計データを集計レイヤ60から削除してもよい。所定の回数の分析を行うと、分析者の分析要求がパターン化されていく。このパターンに即座に対応できる一番効率の良い集計データを集計レイヤ60に格納する。
 かかる場合、集計レイヤ60に格納される集計データの数が少なくなり、より効率よく分析データを抽出することができる。また、当該集計レイヤ60の必要容量を小さくすることもできる。なお、集計データから分析データを抽出する所定の回数は、特に限定されるものではなく、任意に選択することができる。
<4-3.他の実施の形態>
 以上の実施の形態において、データベース20に格納されるデータはこれに限定されない。取込レイヤ30のトランザクション生データ群31には、例えばアクセスログなどのログデータが格納されてもよく、これにより、データウェアハウス40のトランザクション入力データ群41と統合レイヤ50のトランザクション統合データ群51にも、それぞれログデータが格納されてもよい。また、取込レイヤ30のマスタ生データ群32には、チェーン店の店舗データや社員データが格納されてもよく、これにより、データウェアハウス40のマスタ入力データ群42と統合レイヤ50のマスタ統合データ群52にも、それぞれ店舗データや社員データが格納されてもよい。さらに、データウェアハウス40の属性データ群43にも、店舗系や社員系の属性データが格納されてもよい。
 また、トランザクション生データ311には、加算項目として売上個数が含まれ、さらに集計データ601には、加算項目を利用して算出される数量の集計として、売上個数と売上単価から算出される売上金額が含まれていた。この点、トランザクション生データ311に売上金額が含まれていてもよく、かかる場合、集計データ601を生成する際に、売上個数と売上単価から売上金額を算出する必要はない。このように取込レイヤ30に格納される生データは、加算項目と不加算項目を任意に含むことができ、これらの項目に応じて集計レイヤ60の集計データが生成される。
 また、以上の実施の形態は、データ処理システム1において小売店で取得されるデータを処理したが、データ処理の対象はこれに限定されない。本発明のデータ処理システム1は、例えばクレジットカードの使用データやECサイトの利用データ、ゲームにおける利用データ、公共交通機関の利用データなど、会員などを識別するIDを備え、当該IDに紐づけられた履歴が残っているデータであれば、任意のデータを処理することができる。
 以上、添付図面を参照しながら本発明の好適な実施の形態について説明したが、本発明はかかる例に限定されない。当業者であれば、請求の範囲に記載された思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
 本発明は、例えばデータを処理して分析用のデータを生成する際に有用であり、特にビッグデータの処理分析に有用である。
 1  データ処理システム
 2  外部システム
 10 通信部
 11 記憶部
 12 処理部
 13 設定部
 14 出力部
 20 データベース
 30 取込レイヤ
 31 トランザクション生データ群
 32 マスタ生データ群
 40 データウェアハウス
 41 トランザクション入力データ群
 42 マスタ入力データ群
 43 属性データ群
 50 統合レイヤ
 51 トランザクション統合データ群
 52 マスタ統合データ群
 60 集計レイヤ
 70 分析レイヤ
 80 データマート
 90 分析結果
 311、321~323 生データ
 411、421~423 入力データ
 511、521、522 統合データ
 601~605 集計データ
 701~704 分析データ
 901、902 属性データ
 N   ネットワーク

Claims (10)

  1. 入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、
    データベースを格納する記憶部と、
    前記データベースに格納されるデータを処理する処理部と、
    分析用のデータを生成するために必要な条件を設定する設定部と、を有し、
    前記データベースは、
    入力されたすべての入力データを格納するデータウェアハウスと、
    前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、
    前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、
    前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム。
  2. 前記入力データは、トランザクション入力データとマスタ入力データを有し、
    前記統合データは、トランザクション統合データとマスタ統合データを有し、
    前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、
    前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成することを特徴とする、請求項1に記載のデータ処理システム。
  3. 前記データウェアハウスは、前記分析データの分析結果から得られる属性データをさらに格納し、
    前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成することを特徴とする、請求項1又は2に記載のデータ処理システム。
  4. 前記処理部は、前記複数の集計データから前記分析データを抽出する処理を所定の回数行った後、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除することを特徴とする、請求項1~3のいずれか一項に記載のデータ処理システム。
  5. データ処理システムを用いて、入力されたデータを処理し分析用のデータを生成するデータ処理方法であって、
    前記データ処理システムは、
    データウェアハウス、統合レイヤ、集計レイヤ及び分析レイヤを備えたデータベースを格納する記憶部と、
    前記データベースに格納されるデータを処理する処理部と、
    分析用のデータを生成するために必要な条件を設定する設定部と、を有し、
    前記データ処理方法は、
    入力されたすべての入力データを前記データウェアハウスに格納する第1ステップと、
    前記処理部が前記入力データを統合して統合データを生成した後、前記統合データを前記統合レイヤに格納する第2ステップと、
    前記処理部が前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを前記集計レイヤに格納する第3ステップと、
    前記処理部が、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを前記分析レイヤに格納する第4ステップと、を有することを特徴とする、データ処理方法。
  6. 前記入力データは、トランザクション入力データとマスタ入力データを有し、
    前記統合データは、トランザクション統合データとマスタ統合データを有し、
    前記第2ステップにおいて、
    前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、
    前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成することを特徴とする、請求項5に記載のデータ処理方法。
  7. 前記第4ステップの後、前記分析データの分析結果から得られる属性データを、前記データウェアハウスに格納する第5ステップをさらに有し、
    前記第2ステップにおいて、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成することを特徴とする、請求項5又は6に記載のデータ処理方法。
  8. 前記第4ステップを所定の回数行った後、前記処理部は、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除することを特徴とする、請求項5~7のいずれか一項に記載のデータ処理方法。
  9. 請求項5~8のいずれか一項に記載のデータ処理方法をデータ処理システムによって実行させるように、当該データ処理システムを制御する、コンピュータ上で動作するプログラム。
  10. 請求項9に記載のプログラムを格納した読み取り可能なコンピュータ記憶媒体。
PCT/JP2016/056744 2015-03-24 2016-03-04 データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 WO2016152455A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP16768358.0A EP3276504A4 (en) 2015-03-24 2016-03-04 Data processing system, data processing method, program, and computer memory medium
US15/559,115 US10762066B2 (en) 2015-03-24 2016-03-04 Data processing system having an integration layer, aggregation layer, and analysis layer, data processing method for the same, program for the same, and computer storage medium for the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-061321 2015-03-24
JP2015061321A JP5847344B1 (ja) 2015-03-24 2015-03-24 データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

Publications (1)

Publication Number Publication Date
WO2016152455A1 true WO2016152455A1 (ja) 2016-09-29

Family

ID=55169238

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/056744 WO2016152455A1 (ja) 2015-03-24 2016-03-04 データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

Country Status (4)

Country Link
US (1) US10762066B2 (ja)
EP (1) EP3276504A4 (ja)
JP (1) JP5847344B1 (ja)
WO (1) WO2016152455A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7015725B2 (ja) 2018-04-16 2022-02-03 株式会社日立製作所 データ利活用に係るデータ準備方法及びデータ利活用システム
US10992757B2 (en) * 2019-06-20 2021-04-27 Bank Of America Corporation Edge-computing-based forensic feedback architecture
JP7247060B2 (ja) 2019-09-02 2023-03-28 株式会社日立製作所 データの利活用のためのデータ準備を支援するシステム、及び、その方法
EP4352617A1 (en) 2021-06-10 2024-04-17 Sailion Inc. Method and system for distributed workload processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509307A (ja) * 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
JP2013527540A (ja) * 2010-05-28 2013-06-27 オラクル・インターナショナル・コーポレイション ビジネスインテリジェンスサーバとともに用いられるデータに対する多言語サポートを提供するためのシステムおよび方法
JP2013531844A (ja) * 2010-05-27 2013-08-08 オラクル・インターナショナル・コーポレイション データマート自動化

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032158A (en) * 1997-05-02 2000-02-29 Informatica Corporation Apparatus and method for capturing and propagating changes from an operational database to data marts
US6044374A (en) * 1997-11-14 2000-03-28 Informatica Corporation Method and apparatus for sharing metadata between multiple data marts through object references
US6189004B1 (en) * 1998-05-06 2001-02-13 E. Piphany, Inc. Method and apparatus for creating a datamart and for creating a query structure for the datamart
US6212524B1 (en) * 1998-05-06 2001-04-03 E.Piphany, Inc. Method and apparatus for creating and populating a datamart
US6282544B1 (en) * 1999-05-24 2001-08-28 Computer Associates Think, Inc. Method and apparatus for populating multiple data marts in a single aggregation process
US6385604B1 (en) * 1999-08-04 2002-05-07 Hyperroll, Israel Limited Relational database management system having integrated non-relational multi-dimensional data store of aggregated data elements
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
US20040215656A1 (en) 2003-04-25 2004-10-28 Marcus Dill Automated data mining runs
JP4598612B2 (ja) 2005-06-27 2010-12-15 株式会社日立製作所 データ処理方法、データ処理プログラムおよびデータベースサーバ
US20080270363A1 (en) * 2007-01-26 2008-10-30 Herbert Dennis Hunt Cluster processing of a core information matrix
EP2396753A4 (en) * 2009-02-10 2014-05-07 Zap Holdings Ltd ETL MANUFACTURER
US8326857B2 (en) * 2010-05-28 2012-12-04 Oracle International Corporation Systems and methods for providing value hierarchies, ragged hierarchies and skip-level hierarchies in a business intelligence server
US20120005151A1 (en) * 2010-07-01 2012-01-05 Vineetha Vasudevan Methods and systems of content development for a data warehouse
US20120173478A1 (en) * 2010-12-30 2012-07-05 Cerner Innovation, Inc. Custom data mart creation
US10102235B2 (en) * 2011-11-15 2018-10-16 Pvelocity Inc. Method and system for providing business intelligence data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509307A (ja) * 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
JP2013531844A (ja) * 2010-05-27 2013-08-08 オラクル・インターナショナル・コーポレイション データマート自動化
JP2013527540A (ja) * 2010-05-28 2013-06-27 オラクル・インターナショナル・コーポレイション ビジネスインテリジェンスサーバとともに用いられるデータに対する多言語サポートを提供するためのシステムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3276504A4 *

Also Published As

Publication number Publication date
JP5847344B1 (ja) 2016-01-20
US10762066B2 (en) 2020-09-01
US20180157687A1 (en) 2018-06-07
EP3276504A1 (en) 2018-01-31
EP3276504A4 (en) 2018-12-12
JP2016181150A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
WO2016152455A1 (ja) データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体
US20150278813A1 (en) Determining a temporary transaction limit
US20150100543A1 (en) Data analysis method, data analysis device, and storage medium storing processing program for same
EP3121738A1 (en) Data storage extract, transform and load operations for entity and time-based record generation
US10878476B2 (en) Assortment optimization
CN108280091B (zh) 一种任务请求执行方法和装置
WO2015155561A1 (en) Accessing non-relational data stores using structured query language queries
CN110633331B (zh) 一种关系数据库中数据提取方法、系统及相关设备
US20160132496A1 (en) Data filtering
CN108960672B (zh) 限额限次的风控方法、装置及计算机可读存储介质
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
WO2016197852A1 (zh) 一种数据处理方法和设备
WO2017158802A1 (ja) データ変換システム及びデータ変換方法
CN110009796B (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN112988848B (zh) 一种数据处理方法、装置、设备及存储介质
JP5771476B2 (ja) データ管理システム及びデータ管理方法
JP6550304B2 (ja) 集計分析装置、集計分析方法、及びプログラム
CN112561559A (zh) 商户画像模型生成方法、装置、设备及存储介质
Masouleh et al. Optimization of ETL process in data warehouse through a combination of parallelization and shared cache memory
JP2019516143A (ja) 宣伝用ディスプレイ空間のためのスケジュールデータ構造を生成するための方法およびシステム
US20170270555A1 (en) Client-Side Automated Shopping List Management, Intelligent Coupon Generation and Coupon-Influenced Product Selection
CN107818177B (zh) 一种商务智能模型搭建方法及搭建装置
JP6268268B2 (ja) ポイント管理サーバ、ポイント管理制御プログラム、およびポイント管理方法
JP2005242419A (ja) 商品販売情報分析サーバ
JP5600127B2 (ja) 情報集計システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16768358

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15559115

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE