WO2016152455A1 - データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 - Google Patents

データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 Download PDF

Info

Publication number
WO2016152455A1
WO2016152455A1 PCT/JP2016/056744 JP2016056744W WO2016152455A1 WO 2016152455 A1 WO2016152455 A1 WO 2016152455A1 JP 2016056744 W JP2016056744 W JP 2016056744W WO 2016152455 A1 WO2016152455 A1 WO 2016152455A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis
integrated
layer
processing unit
Prior art date
Application number
PCT/JP2016/056744
Other languages
English (en)
French (fr)
Inventor
慎太郎 花谷
知博 網野
耕比古 田中
Original Assignee
株式会社ギックス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ギックス filed Critical 株式会社ギックス
Priority to US15/559,115 priority Critical patent/US10762066B2/en
Priority to EP16768358.0A priority patent/EP3276504A4/en
Publication of WO2016152455A1 publication Critical patent/WO2016152455A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Definitions

  • the present invention relates to a data processing system that processes input data to generate data for analysis, a data processing method using the data processing system, a program, and a computer storage medium.
  • a data warehouse for storing the large amount of data. If this data warehouse is used, various analyzes can be performed from a large amount of data. For example, if analysis is performed from data in units of several hundred million lines, the processing load on the computer is large and the processing time is long. Therefore, a data mart generated by selecting or totaling only information necessary for analysis from a data warehouse is also used.
  • Patent Document 1 proposes a database server that includes a database having a hierarchical structure and performs data processing between the databases of each layer in order to flexibly cope with changes in data flow.
  • the database server includes a storage unit that stores databases and a processing unit that inputs, processes, and outputs data between databases.
  • the storage unit has, as a hierarchical structure, an interface layer database for registering data input by the processing unit, and a data warehouse layer database for registering data to which attributes are assigned to data registered in the interface layer database And a work tier database that registers data that has undergone rate conversion on the data registered in the data warehouse tier database, and the data registered in the work tier database has been processed according to its usage And a data mart layer database for registering data.
  • Patent Document 1 In a society that changes every day in recent years, various analyzes are required.
  • a conventional database server assumes that the data flow in the server is changed, but the analysis required in this way is changed, that is, output. Data changes are not expected.
  • a conventional database server upon setting or perform advance what analysis, each layer of the database is designed. If it does so, the data processed and output by the database server conventionally can be utilized for a specific analysis, but cannot be utilized for another analysis. In other words, the conventional database server has to change the design of the database according to the required data change. Therefore, it is not possible to flexibly cope with changes in analysis, and there is room for improvement.
  • the present invention has been made in view of such a point, and an object thereof is to perform data processing that can freely cope with a required change in analysis.
  • the present invention is a data processing system that processes input data to generate data for analysis, and includes a storage unit that stores a database and data stored in the database.
  • the integrated data is generated by integrating the input data by the unit, and the integrated data is stored by the processing unit and the integrated data is stored at least for each combination of one or more non-addable items.
  • the total number or the number of non-addition items is generated and a plurality of total data is generated, and then the total layer storing the plurality of total data and the processing unit
  • the total of the quantity of the addition item includes the total of the quantity calculated using the addition item in addition to the total of the quantity of the addition item itself.
  • the input data stored in the data warehouse is integrated to generate integrated data.
  • This integrated data is combined with all items of input data, and is highly versatile.
  • the integrated data is aggregated for each combination of one or more non-addition items to generate aggregate data. Since this total data covers all combinations of non-addition items, it is also highly versatile.
  • aggregate data with high versatility in this way, whatever analysis is required, that is, whatever condition is set in the setting unit, it is based on that condition.
  • Analytical data can be extracted from the aggregated data. Therefore, according to the data processing system of the present invention, it is possible to freely perform data processing in response to a required change in analysis and output various analysis data according to the change in analysis.
  • the input data includes transaction input data and master input data
  • the integrated data includes transaction integrated data and master integrated data
  • the processing unit integrates the master input data to generate the master integrated data.
  • the processing unit may generate the transaction integrated data by integrating the transaction input data and the master integrated data.
  • the data warehouse further stores attribute data obtained from the analysis result of the analysis data, and the processing unit integrates the input data and further adds the attribute data to generate the integrated data. Also good.
  • the processing unit performs a process of extracting the analysis data from the plurality of aggregation data a predetermined number of times, and then selects, among the plurality of aggregation data, the aggregation data not selected for generating the analysis data It may be deleted from the aggregation layer.
  • Another aspect of the present invention is a data processing method for processing input data and generating data for analysis using a data processing system, the data processing system including a data warehouse, an integration layer, and an aggregation A storage unit that stores a database including a layer and an analysis layer, a processing unit that processes data stored in the database, and a setting unit that sets conditions necessary for generating data for analysis.
  • the data processing method includes a first step of storing all input data input in the data warehouse, and the processing unit integrates the input data to generate integrated data.
  • the second step of storing in the integration layer, and the processing unit adds at least the integration data for each combination of one or more non-addition items.
  • a third step of storing the plurality of aggregate data in the aggregation layer and the processing unit are set in the setting unit
  • the input data includes transaction input data and master input data.
  • the integrated data includes transaction integrated data and master integrated data.
  • the processing unit integrates the master input data.
  • the master integrated data may be generated, and the processing unit may generate the transaction integrated data by integrating the transaction input data and the master integrated data.
  • the data processing method further includes, after the fourth step, a fifth step of storing attribute data obtained from an analysis result of the analysis data in the data warehouse, and in the second step, the processing unit May integrate the input data and further add the attribute data to generate the integrated data.
  • the processing unit may delete, from the aggregation layer, the aggregation data that is not selected for generating the analysis data among the plurality of aggregation data.
  • a program operating on a computer for controlling the data processing system so that the data processing method is executed by the data processing system.
  • a readable computer storage medium storing the program
  • data processing can be performed freely in response to a required change in analysis, and various analysis data according to the change in analysis can be output.
  • FIG. 1 shows an outline of the configuration of a data processing system 1 according to the present embodiment.
  • the data processing system 1 is connected to the external system 2 via the network N.
  • the data processing system 1 processes data (hereinafter referred to as input data) input from the external system 2 to the data processing system 1 to generate data for analysis (hereinafter referred to as analysis data).
  • the network N is not particularly limited as long as it can perform communication between the data processing system 1 and the external system 2.
  • the network N is configured by the Internet, a wired LAN, a wireless LAN, or the like. .
  • the data processing system 1 includes a communication unit 10, a storage unit 11, a processing unit 12, a setting unit 13, and an output unit 14.
  • the communication unit 10 is a communication interface that mediates communication with the network N, and performs data communication with the external system 2.
  • the storage unit 11 stores a database of data processed by the data processing system 1.
  • the database has a hierarchical structure, and the database stores each data generated step by step from the input data until the analysis data is generated. The configuration of this database will be described later.
  • the storage unit 11 also stores conditions set by the setting unit 13 described later.
  • the processing unit 12 processes data stored in the database of the storage unit 11. That is, the processing unit 12 processes the input data step by step to generate analysis data.
  • the setting unit 13 sets conditions necessary for data processing in order to generate analysis data necessary for a desired analysis. This condition is set from the setting unit 13 by the analyst and stored in the storage unit 11.
  • the output unit 14 outputs the analysis data stored in the database of the storage unit 11 to the outside of the data processing system 1.
  • the components of the data processing system 1 shown in FIG. 1 can be configured by a circuit (hardware) or a central processing unit such as a CPU and a program (software) for causing them to function.
  • This program controls each unit 10 to 14 and executes data processing to be described later.
  • the program is stored in a computer-readable storage medium such as a computer-readable hard disk (HD), a flexible disk (FD), a compact disk (CD), a magnetic optical desk (MO), and various memories. Can be done.
  • the program can be stored in the storage medium or the like by downloading it via a communication line network such as the Internet.
  • FIG. 2 shows an outline of the configuration of the database 20 stored in the storage unit 11.
  • the database 20 includes an acquisition layer 30, a data warehouse 40, an integration layer 50, an aggregation layer 60, and an analysis layer 70.
  • the integration layer 50, the aggregation layer 60, and the analysis layer 70 constitute a data mart 80.
  • each layer of the database 20 various data that has been subjected to predetermined processing by the processing unit 12 is stored.
  • the acquisition layer 30 temporarily stores all raw data input from the external system 2, and the data warehouse 40 stores input data obtained by processing the raw data of the acquisition layer 30. Therefore, all input data from the external system 2 is stored in the data warehouse 40.
  • the integration layer 50 stores integrated data obtained by integrating the input data of the data warehouse 40
  • the aggregation layer 60 stores aggregation data obtained by aggregating the integration data of the integration layer 50 for each predetermined item
  • the analysis layer 70 The analysis data extracted from the total data of the total layer 60 is stored.
  • the external system 2 is a database system provided in a retail store such as a supermarket (for example, a chain store that is deployed in multiple places in the country), and the data processing system 1 processes data acquired at the retail store. This will be described as an example.
  • data of the external system 2 is input to the data processing system 1 via the network N and the communication unit 10.
  • data from the external system 2 is registered in a table as it is, it may be unsuitable for processing using SQL such as tabulation.
  • SQL such as tabulation.
  • the data input to the data processing system 1 is temporarily captured in the capture layer 30 of the database 20, and cleansing processing such as removal of the comma described above is performed by the processing unit 12. Then, the raw data organized in the table is stored in the acquisition layer 30.
  • the raw data stored in the acquisition layer 30 includes transaction-type transaction raw data and master-type master raw data.
  • the acquisition layer 30 includes a transaction raw data group 31 and a master raw data group 32. Yes.
  • FIG. 3 shows an example of raw data after cleansing.
  • the transaction raw data 311 is a part of the POS data for December.
  • the transaction raw data 311 includes the number of sales as an addition item, and the other items are non-addition items.
  • the master raw data 321 to 323 are respectively a part of retailer member master data, a part of member entrance / exit master data, and a part of merchandise master data. All items included in the master raw data 321 to 323 are non-addition items.
  • the processing unit 12 processes the raw data 311 and 321 to 323 of the capture layer 30 to generate input data, and stores the input data in the data warehouse 40.
  • the input data includes transaction input data and master input data
  • the data warehouse 40 has a transaction input data group 41 and a master input data group 42.
  • FIG. 4 shows an example of input data.
  • a plurality of transaction raw data 311 is sequentially captured in the capture layer 30, and the transaction input data 411 is generated by accumulating the plurality of transaction raw data 311. That is, the transaction input data 411 is a part of the POS data for the entire period accumulated in time series.
  • a plurality of master raw data 321 to 323 are sequentially captured in the capture layer 30, but master input data 421 to 423 updated by the plurality of master raw data 321 to 323 are respectively generated.
  • the processing unit 12 integrates the input data 411 and 421 to 423 of the data warehouse 40 to generate integrated data, and stores the integrated data in the integration layer 50.
  • the integrated data includes transaction integrated data and master integrated data
  • the integration layer 50 has a transaction integrated data group 51 and a master integrated data group 52.
  • FIG. 5 shows an example of the integrated data.
  • master input data is integrated to generate master integrated data. That is, the master integrated data 521 is generated by integrating the master input data 421 and 422 of the member system.
  • the master integrated data 521 is member master data with high versatility by integrating all member data. Further, since there is only one merchandise-type master input data 423 in the present embodiment, the master input data 423 is generated as the master integrated data 522.
  • the master integrated data 522 is also highly versatile product master data in which all product data is integrated.
  • the transaction integrated data 511 is data obtained by integrating all transaction data and master data, and is highly versatile POS data.
  • the integrated data 511, 521, and 522 of the integrated layer 50 are aggregated by the processing unit 12 for each of one or more combinations of non-addition items, and at least the number of addition items or non-addition items is totaled to obtain a plurality of total data.
  • the total data is generated and stored in the total layer 60.
  • the transaction integrated data 511 has 14 non-addition items and one addition item, and aggregate data is generated for all combinations. Since all combinations of non-addition items are covered in this way, the versatility of the total data is high.
  • the summation of the addition items includes the summation of the quantities calculated using the addition items in addition to the summation of the quantities of the addition items themselves.
  • the total sales amount calculated from the sales volume and the sales unit price and the average sales price are also included. Note that the calculation of the sales amount and the average sales unit price is programmed in advance in the data processing system 1.
  • FIG. 6 shows an example of aggregated data.
  • Aggregated data 601 to 604 are obtained by aggregating the transaction integrated data 511 for each predetermined item.
  • Aggregated data 601 is an aggregation of receipt units (non-addition items), and totals the number of sales and the total sales amount (quantity of addition items).
  • the total data 602 and 603 are totals for the product category unit and the member unit (non-addition item), respectively, and total the number of receipts (number of non-addition items), the number of sales and the total sales amount (quantity of the addition items). is doing.
  • Aggregated data 604 is an aggregation of product categories and PLU code units (non-addition items), and totals the average sales unit price (quantity of addition items).
  • the total data 605 is a total of the master integrated data 521 for each predetermined item. That is, the total data 605 is a total of address units (non-addition items), and totals the number of members (number of non-addition items).
  • the aggregated data 605 may be generated from the transaction integrated data 511.
  • the data processing system 1 automatically generates the aggregate data 601 to 605 from the raw data 311 and 321 to 323.
  • the processing unit 12 selects one total data from the plurality of total data 601 to 605, and further extracts analysis data from the one total data. This analysis data is stored in the analysis layer 70.
  • FIG. 7 shows an example of analysis data.
  • the setting unit 13 selects the aggregate data 601 to 604, and further sets the conditions so that the December data of each of the aggregate data 601 to 604 is extracted. Then, analysis data 701 to 704 are generated.
  • the aggregate data may be used as analysis data as it is. In such a case, the aggregate data and the analysis data are the same.
  • Analytical data 701 to 704 are output from the output unit 14 to the outside of the data processing system 1. Then, the analyst performs a desired analysis based on the analysis data 701 to 704. At this time, the analyst performs analysis using an existing analysis tool (for example, a BI tool), but the analysis data 701 to 704 are sufficiently small to a capacity that can be handled by this analysis tool.
  • an existing analysis tool for example, a BI tool
  • the integration data of the integration layer 50 and the aggregation data of the aggregation layer 60 are highly versatile. Therefore, no matter what analysis is required, that is, whatever condition is set in the setting unit 13, the analysis data is extracted from the aggregated data based on the condition. Can do. Therefore, data processing can be performed freely in response to a required analysis change, and various analysis data according to the analysis change can be output. In other words, an analysis that can be utilized to the maximum extent based on various analysis data can be performed.
  • the integrated data when the input data of the data warehouse 40 is so-called big data, the integrated data also becomes big data.
  • the processing load on the computer is large and the processing speed is slowed down.
  • the processing load can be greatly reduced by extracting the analysis data from the aggregate data having a smaller capacity than the integrated data. Therefore, this embodiment is particularly useful for processing a large amount of data.
  • the analysis result 90 by the analyst may be fed back to the database 20 of the data processing system 1 as shown in FIG.
  • FIG. 9 shows how the analyst performs a desired analysis based on the analysis data output from the data processing system 1.
  • attribute data 901 that is member category master data in which the member number and the member category are associated is generated.
  • attribute data 902 that is product rank category master data in which the PLU code is associated with the product rank category is generated.
  • the attribute data 901 and 902 obtained in this way are stored in the attribute data group 43 of the data warehouse 40 as shown in FIG.
  • the member attribute data 901 is added to the same master master data 521, and master integrated data 521a shown in FIG. 10 is generated. Further, the product-type attribute data 902 is added to the same product-type master integrated data 522, and master integrated data 522a is generated. Then, these master integrated data 521a and 522a are integrated into the transaction integrated data 511, and the transaction integrated data 511a is generated.
  • attribute data is generated from analysis data.
  • the aggregate data may be used as analysis data as it is, and the aggregate data and the analysis data may be the same. Therefore, attribute data is generated from the aggregate data.
  • attribute data for example, age and age calculated from the birthday of the member, membership period calculated from the membership date and withdrawal date, withdrawal flag obtained from the withdrawal date, and the like.
  • attribute data are added to the master integrated data 521 to generate master integrated data 521b as shown in FIG. Then, the master integrated data 521b is integrated into the transaction integrated data 511, and the transaction integrated data 511b is generated.
  • the process of extracting the analysis data of the analysis layer 70 from the plurality of aggregation data of the aggregation layer 60 is performed a predetermined number of times, and then selected from the plurality of aggregation data to generate analysis data Aggregated data that has not been deleted may be deleted from the aggregation layer 60.
  • the analysis is performed a predetermined number of times, the analysis request of the analyst is patterned. The most efficient aggregate data that can immediately correspond to this pattern is stored in the aggregate layer 60.
  • the number of aggregate data stored in the aggregate layer 60 is reduced, and analysis data can be extracted more efficiently.
  • the required capacity of the aggregation layer 60 can be reduced. Note that the predetermined number of times that the analysis data is extracted from the total data is not particularly limited, and can be arbitrarily selected.
  • log data such as an access log may be stored in the transaction raw data group 31 of the acquisition layer 30, whereby the transaction input data group 41 of the data warehouse 40 and the transaction integrated data group 51 of the integration layer 50 are stored.
  • log data may be stored respectively.
  • the master raw data group 32 of the acquisition layer 30 may store store data and employee data of the chain store, whereby the master input data group 42 of the data warehouse 40 and the master integration of the integration layer 50 are performed.
  • the data group 52 may also store store data and employee data, respectively.
  • the attribute data group 43 of the data warehouse 40 may store store-type or employee-type attribute data.
  • the transaction raw data 311 includes the number of sales as an addition item, and the total data 601 includes the sales amount calculated from the sales number and the sales unit price as a total of the quantities calculated using the addition item. Was included.
  • the transaction raw data 311 may include a sales amount.
  • the raw data stored in the acquisition layer 30 can optionally include addition items and non-addition items, and the aggregation data of the aggregation layer 60 is generated according to these items.
  • the data processing system 1 of the present invention includes IDs for identifying members such as credit card usage data, EC site usage data, game usage data, public transportation usage data, and the like. Any data can be processed as long as the history remains.
  • the present invention is useful, for example, when processing data to generate data for analysis, and is particularly useful for processing and analyzing big data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 データ処理システムのデータベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記入力データを統合して統合データを生成した後、統合データを格納する統合レイヤと、前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、複数の集計データを格納する集計レイヤと、設定部で設定された分析データの生成に必要な条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、分析データを格納する分析レイヤと、を有する。

Description

データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体
(関連出願の相互参照)
 本願は、2015年3月24日に日本国に出願された特願2015-061321号に基づき、優先権を主張し、その内容をここに援用する。
 本発明は、入力されたデータを処理して分析用のデータを生成するデータ処理システム、当該データ処理システムを用いたデータ処理方法、プログラム及びコンピュータ記憶媒体に関する。
 従来、時系列に蓄積された大量のデータを分析して経営に役立てるため、当該大量のデータを格納するデータウェアハウスが利用されている。このデータウェアハウスを用いれば、大量のデータから様々な分析が行えるが、例えば数億行単位のデータから分析を行おうとした場合、コンピュータへの処理負荷が大きく、処理時間がかかる。そのため、データウェアハウスから分析に必要な情報のみを選択又は集計して生成されるデータマートも利用されている。
 このようなデータウェアハウスやデータマートを備えたシステムを用いる場合、例えばシステム内のデータフローに変更が生じると、既存システムの大幅な修正又は新規システムの構築を行わなければならないという問題があった。
 そこで、例えば特許文献1では、データフローの変更に柔軟に対応するため、階層構造を有するデータベースを備え、その各層のデータベース間で、データの処理を行うデータベースサーバが提案されている。すなわち、このデータベースサーバは、データベースを格納する記憶部と、データベース間でデータの入力、加工及び出力を行う処理部とを含んで構成される。そして、記憶部は、階層構造として、処理部によって入力されたデータを登録するインタフェース層データベースと、インタフェース層データベースに登録されたデータに対して属性が付与されたデータを登録するデータウェアハウス層データベースと、データウェアハウス層データベースに登録されたデータに対してレート変換が実施されたデータを登録するワーク層データベースと、ワーク層データベースに登録されたデータに対してその利用方法に応じて加工されたデータを登録するデータマート層データベースと、を備えている。
日本国特許第4598612号公報
 近年の日々刻々と変化する社会においては、様々な分析が要求されている。しかしながら、特許文献1に記載されたデータベースサーバ(以下、従来データベースサーバ)は、サーバ内のデータフローの変更は想定しているものの、このように要求される分析が変更されること、すなわち出力されるデータの変更は想定していない。
 従来データベースサーバでは、予めどのような分析を行うのかを設定した上で、各層のデータベースが設計されている。そうすると、従来データベースサーバで処理され出力されるデータは、特定の分析には利用できるものの、他の分析には利用することができない。換言すれば、従来データベースサーバは、要求されるデータの変更に応じて、そのデータベースの設計を変更しなければならないのである。したがって、分析の変更に柔軟に対応することができず、改善の余地がある。
 本発明は、かかる点に鑑みてなされたものであり、要求される分析の変更に対応自在のデータ処理を行うことを目的とする。
 前記の目的を達成するため、本発明は、入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴としている。なお、加算項目の数量の集計には、加算項目自体の数量の集計に加え、加算項目を利用して算出される数量の集計も含まれる。
 本発明によれば、データウェアハウスに格納された入力データを統合して、統合データを生成する。この統合データには、入力データのあらゆる項目のデータが結合されており、汎用性が高い。その後、統合データを不加算項目の1つ以上の組み合わせ毎に集計して、集計データを生成する。この集計データもあらゆる不加算項目の組み合わせが網羅されているため、やはり汎用性が高い。このように汎用性の高い集計データを用いることで、要求される分析がどのような分析であっても、すなわち設定部で設定される条件がどのような条件であっても、その条件に基づいて集計データから分析データを抽出することができる。したがって、本発明のデータ処理システムによれば、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。
 また、データウェアハウスにはすべての入力データが格納されるので、例えば現在、必要としていないデータでも、後に分析の変更などで必要になった場合、迅速に対応することができる。
 ここで、本発明のように集計データを生成せずに、統合データから直接分析データを抽出することも考えられる。しかしながら、データウェアハウスに格納された入力データが大量にあり、いわゆるビッグデータである場合、統合データもビッグデータとなる。かかる場合、統合データから直接分析データを抽出しようとすると、コンピュータへの処理負荷が大きく、処理速度が遅くなってしまう。これに対して、本発明では、統合データより小容量の集計データから分析データを抽出することで、処理負荷を大幅に軽減することができる。したがって、本発明は大量のデータ処理に特に有用なのである。
 前記入力データは、トランザクション入力データとマスタ入力データを有し、前記統合データは、トランザクション統合データとマスタ統合データを有し、前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成してもよい。
 前記データウェアハウスは、前記分析データの分析結果から得られる属性データをさらに格納し、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成してもよい。
 前記処理部は、前記複数の集計データから前記分析データを抽出する処理を所定の回数行った後、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除してもよい。
 別な観点による本発明は、データ処理システムを用いて、入力されたデータを処理し分析用のデータを生成するデータ処理方法であって、前記データ処理システムは、データウェアハウス、統合レイヤ、集計レイヤ及び分析レイヤを備えたデータベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データ処理方法は、入力されたすべての入力データを前記データウェアハウスに格納する第1ステップと、前記処理部が前記入力データを統合して統合データを生成した後、前記統合データを前記統合レイヤに格納する第2ステップと、前記処理部が前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを前記集計レイヤに格納する第3ステップと、前記処理部が、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを前記分析レイヤに格納する第4ステップと、を有することを特徴としている。
 前記入力データは、トランザクション入力データとマスタ入力データを有し、前記統合データは、トランザクション統合データとマスタ統合データを有し、前記第2ステップにおいて、前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成してもよい。
 前記データ処理方法は、前記第4ステップの後、前記分析データの分析結果から得られる属性データを、前記データウェアハウスに格納する第5ステップをさらに有し、前記第2ステップにおいて、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成してもよい。
 前記第4ステップを所定の回数行った後、前記処理部は、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除してもよい。
 また別な観点による本発明によれば、前記データ処理方法をデータ処理システムによって実行させるように、当該データ処理システムを制御する、コンピュータ上で動作するプログラムが提供される。
 さらに別な観点による本発明によれば、前記プログラムを格納した読み取り可能なコンピュータ記憶媒体が提供される。
 本発明によれば、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。
本実施の形態にかかるデータ処理システムの構成の概略を示す説明図である。 本実施の形態にかかるデータベースの構成の概略を示す説明図である。 取込レイヤに格納される生データの一例を示す。 データウェアハウスに格納される入力データの一例を示す。 統合レイヤに格納される統合データの一例を示す。 集計レイヤに格納される集計データの一例を示す。 分析レイヤに格納される分析データの一例を示す。 他の実施の形態にかかるデータベースの構成の概略を示す説明図である。 分析データに基づいて分析者が所望の分析を行う様子を示す説明図である。 他の実施の形態において統合レイヤに格納される統合データの一例を示す。 他の実施の形態において統合レイヤに格納される統合データの一例を示す。
 以下、本発明の実施の形態について図面を参照して説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.データ処理システムの構成>
 図1は、本実施の形態にかかるデータ処理システム1の構成の概略を示している。データ処理システム1は、ネットワークNを介して、外部システム2に接続されている。そして、データ処理システム1では、外部システム2からデータ処理システム1に入力されたデータ(以下、入力データ)を処理して、分析用のデータ(以下、分析データ)を生成する。なお、ネットワークNは、データ処理システム1と外部システム2との間の通信を行うことができるものであれば特に限定されるものではないが、例えばインターネットや有線LAN、無線LANなどにより構成される。
 データ処理システム1は、通信部10、記憶部11、処理部12、設定部13、及び出力部14を有している。
 通信部10は、通信部10は、ネットワークNとの間の通信を媒介する通信インタフェースであり、外部システム2とデータ通信を行う。
 記憶部11は、データ処理システム1で処理されるデータのデータベースを格納している。データベースは階層構造を有し、当該データベースには、入力データから分析データが生成されるまでに段階的に生成される各データが格納される。このデータベースの構成は後述する。また、記憶部11には、後述する設定部13で設定される条件も記憶される。
 処理部12は、記憶部11のデータベースに格納されるデータを処理する。すなわち、処理部12は、入力データを段階的に処理して分析データを生成する。
 設定部13は、所望の分析に応じて必要となる分析データを生成するため、データ処理に必要な条件を設定する。この条件は、分析者によって設定部13から設定され、記憶部11に記憶される。
 出力部14は、記憶部11のデータベースに格納された分析データをデータ処理システム1の外部に出力する。
 なお、図1に示すデータ処理システム1の構成要素は、回路(ハードウェア)、またはCPUなどの中央演算処理装置と、これらを機能させるためのプログラム(ソフトウェア)から構成することができる。そして、このプログラムは各部10~14を制御して、後述するデータ処理を実行する。この場合において、上記プログラムは、例えばコンピュータ読み取り可能なハードディスク(HD)、フレキシブルディスク(FD)、コンパクトディスク(CD)、マグネットオプティカルデスク(MO)、各種メモリなどのコンピュータに読み取り可能な記憶媒体に格納されることができる。また、上記プログラムは、インターネットなどの通信回線網を介してダウンロードすることにより、上記記憶媒体などに格納することができる。
<2.データベースの構成>
 図2は、記憶部11に格納されているデータベース20の構成の概略を示している。データベース20は、取込レイヤ30、データウェアハウス40、統合レイヤ50、集計レイヤ60、及び分析レイヤ70を有している。このうち、統合レイヤ50、集計レイヤ60、及び分析レイヤ70は、データマート80を構成している。
 データベース20の各層には、処理部12によって所定の処理が行われた各種データが格納される。取込レイヤ30は、外部システム2から入力されたすべての生データを一時的に格納し、データウェアハウス40は、取込レイヤ30の生データを加工した入力データを格納する。したがって、データウェアハウス40には、外部システム2からのすべての入力データが格納される。統合レイヤ50は、データウェアハウス40の入力データを統合した統合データを格納し、集計レイヤ60は、統合レイヤ50の統合データを所定の項目毎に集計した集計データを格納し、分析レイヤ70は、集計レイヤ60の集計データから抽出された分析データを格納する。
<3.データ処理方法>
 次に、以上のように構成されたデータ処理システム1を用いて行われるデータ処理について説明する。以下においては、外部システム2が例えばスーパーマーケットなどの小売店(例えば全国に複数展開するチェーン店)に設けられたデータベースシステムであって、データ処理システム1において、当該小売店で取得されるデータを処理する場合を例にとって説明する。
 先ず、外部システム2のデータがネットワークNと通信部10を介してデータ処理システム1に入力される。外部システム2からのデータは、例えばテーブルにそのまま登録した場合、集計などのSQLを利用した処理に不向きな場合がある。例えばデータ中の売上個数に不要なカンマが入っている場合、当該カンマが文字として扱われるため、集計処理で合計が出せない。そこで、データ処理システム1に入力されたデータは、データベース20の取込レイヤ30に一時的に取り込まれ、処理部12によって、例えば上述したカンマを除くなどのクレンジング処理が行われる。そして、テーブルに整理された生データが取込レイヤ30に格納される。
 取込レイヤ30に格納される生データには、トランザクション系のトランザクション生データとマスタ系のマスタ生データが含まれ、取込レイヤ30はトランザクション生データ群31とマスタ生データ群32を有している。図3は、クレンジング後の生データの一例を示している。トランザクション生データ311は、12月のPOSデータの一部である。トランザクション生データ311には、加算項目として売上個数が含まれ、その他の項目は不加算項目である。マスタ生データ321~323は、それぞれ小売店の会員マスタデータの一部、会員の入退会マスタデータの一部、商品マスタデータの一部である。マスタ生データ321~323に含まれる項目は、すべて不加算項目である。
 次に、処理部12によって取込レイヤ30の生データ311、321~323を加工して入力データを生成し、当該入力データをデータウェアハウス40に格納する。入力データには、トランザクション入力データとマスタ入力データが含まれ、データウェアハウス40はトランザクション入力データ群41とマスタ入力データ群42を有している。
 図4は、入力データの一例を示している。取込レイヤ30には複数のトランザクション生データ311が順次取り込まれるが、これら複数のトランザクション生データ311を蓄積してトランザクション入力データ411を生成する。すなわち、トランザクション入力データ411は、時系列に蓄積された全期間のPOSデータの一部である。取込レイヤ30には複数のマスタ生データ321~323が順次取り込まれるが、複数のマスタ生データ321~323によって更新されたマスタ入力データ421~423がそれぞれ生成される。
 次に、処理部12によってデータウェアハウス40の入力データ411、421~423を統合して統合データを生成し、当該統合データを統合レイヤ50に格納する。統合データには、トランザクション統合データとマスタ統合データが含まれ、統合レイヤ50はトランザクション統合データ群51とマスタ統合データ群52を有している。
 図5は、統合データの一例を示している。先ず、マスタ入力データを統合してマスタ統合データを生成する。すなわち、会員系のマスタ入力データ421、422を統合して、マスタ統合データ521を生成する。このマスタ統合データ521は、全ての会員系のデータが統合され、汎用性の高い会員マスタデータである。また、商品系のマスタ入力データ423は本実施時の形態では1つであるため、マスタ入力データ423をマスタ統合データ522として生成する。このマスタ統合データ522も、全ての商品系のデータが統合され、汎用性の高い商品マスタデータである。
 続いて、トランザクション入力データ411と、上記マスタ統合データ521、522を統合して、トランザクション統合データ511を生成する。このトランザクション統合データ511は、トランザクションデータとマスタデータをすべて統合したデータであり、汎用性の高いPOSデータである。
 次に、処理部12によって統合レイヤ50の統合データ511、521、522を、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目又は不加算項目の数を集計して複数の集計データを生成し、当該集計データを集計レイヤ60に格納する。例えばトランザクション統合データ511には、不加算項目が14個あり、加算項目が1個あって、すべての組み合わせに対して集計データが生成される。このようにあらゆる不加算項目の組み合わせが網羅されているため、集計データの汎用性は高い。また、加算項目の集計には、加算項目の数量の集計には、加算項目自体の数量の集計に加え、加算項目を利用して算出される数量の集計も含まれる。具体的に本実施の形態では、加算項目である売上個数の集計に加えて、売上個数と売上単価から算出される売上金額と平均売上単価の集計も含まれる。なお、このように売上金額と平均売上単価の算出は、データ処理システム1において予めプログラミングされている。
 図6は、集計データの一例を示している。集計データ601~604は、トランザクション統合データ511を所定の項目毎に集計したものである。集計データ601は、レシート単位(不加算項目)の集計であって、売上個数と売上金額合計(加算項目の数量)を集計している。集計データ602、603は、それぞれ商品カテゴリ単位と会員単位(不加算項目)の集計であって、レシート数(不加算項目の数)と、売上個数及び売上金額合計(加算項目の数量)を集計している。集計データ604は、商品カテゴリとPLUコード単位(不加算項目)の集計であって、平均売上単価(加算項目の数量)を集計している。
 また、集計データ605は、マスタ統合データ521を所定の項目毎に集計したものである。すなわち、集計データ605は、住所単位(不加算項目)の集計であって、会員数(不加算項目の数)を集計している。なお、集計データ605は、トランザクション統合データ511から生成されてもよい。
 ここまで、データ処理システム1において生データ311、321~323から集計データ601~605を生成する処理は自動で行われる。
 次に、集計データ601~605から分析データを生成する際には、分析者によってマニュアルで設定される条件が用いられる。すなわち、分析者は、所望の分析に応じて必要となる分析データを取得するため、集計データから分析データを抽出する際の条件を設定する。そして処理部12によって、設定部13で設定された条件に基づき、複数の集計データ601~605から1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出する。この分析データは、分析レイヤ70に格納される。
 図7は、分析データの一例を示している。本実施の形態では、設定部13において集計データ601~604を選択し、さらに各集計データ601~604の12月のデータを抽出するように条件を設定している。そして、分析データ701~704が生成される。なお、分析者が設定する条件によっては、集計データが分析データとしてそのまま使われることがあり、かかる場合、集計データと分析データは同じものとなる。
 分析データ701~704は、出力部14からデータ処理システム1の外部に出力される。そして分析者は、分析データ701~704に基づいて所望の分析を行う。この際、分析者は既存の分析ツール(例えばBIツール)を用いて分析を行うが、分析データ701~704はこの分析ツールで扱うことができる容量まで十分に小さくなっている。
 以上の実施の形態によれば、統合レイヤ50の統合データと集計レイヤ60の集計データは、それぞれ汎用性が高い。このため、要求される分析がどのような分析であっても、すなわち設定部13で設定される条件がどのような条件であっても、その条件に基づいて集計データから分析データを抽出することができる。したがって、要求される分析の変更に対応自在にデータ処理を行うことができ、当該分析の変更に応じた様々な分析データを出力することができる。換言すれば、様々な分析データに基づいて最大限経営に活かせる分析を行うことができる。
 また、データウェアハウス40にはすべての入力データが格納されるので、例えば現在、必要としていないデータでも、後に分析軸の変更などで必要になった場合、迅速に対応することができる。
 また、データウェアハウス40の入力データがいわゆるビッグデータである場合、統合データもビッグデータとなる。かかる場合、例えば従来のように統合データから直接分析データを抽出しようとすると、コンピュータへの処理負荷が大きく、処理速度が遅くなってしまう。この点、本実施の形態では、統合データより小容量の集計データから分析データを抽出することで、処理負荷を大幅に軽減することができる。したがって、本実施の形態は大量のデータ処理に特に有用なのである。
<4.他の実施の形態>
 次に、本発明の他の実施の形態について説明する。以下の説明において、上記実施の形態と重複する箇所は説明を省略する。
<4-1.他の実施の形態>
 以上の実施の形態において、図8に示すように分析者による分析結果90がデータ処理システム1のデータベース20にフィードバックされてもよい。図9は、データ処理システム1から出力される分析データに基づいて、分析者が所望の分析を行う様子を示している。
 例えば分析データ703において、全会員を売上金額合計の大きい順に並び替え、全会員の上位20%を優良会員とし、次の30%を準優良会員とし、残りの50%を一般会員と分析する。この分析結果から、会員番号と会員カテゴリを対応させた会員カテゴリマスタデータである、属性データ901を生成する。
 また、例えば分析データ704において、商品カテゴリ毎に平均売上単価の大きい順に並び替えを行い、全商品の上位20%を高級品とし、次の30%を中級品とし、残りの50%を普及品と分析する。この分析結果から、PLUコードと商品ランクカテゴリを対応させた商品ランクカテゴリマスタデータである、属性データ902を生成する。こうして得られた属性データ901、902は、図8に示すようにデータウェアハウス40の属性データ群43に格納される。
 そして、データ処理システム1においてデータ処理を行う際には、会員系の属性データ901は、同じ会員系のマスタ統合データ521に付加され、図10に示すマスタ統合データ521aが生成される。また、商品系の属性データ902は、同じ商品系のマスタ統合データ522に付加され、マスタ統合データ522aが生成される。そして、これらマスタ統合データ521a、522aがトランザクション統合データ511に統合され、トランザクション統合データ511aが生成される。
 このようにデータベース20に格納されるデータが進化するので、例えば小売店で取り扱う商品の変化や社会の変化に応じて、分析軸が変わったとしても、柔軟に対応して適切な分析を行うことができる。
 なお、本実施の形態では分析データから属性データを生成している。この点、上述したように設定部13で分析者が設定する条件によっては、集計データが分析データとしてそのまま使われ、集計データと分析データは同じとなる場合があるが、この場合には、実質的に集計データから属性データを生成することになる。
 また、属性データの他の例としては、例えば会員の誕生日から算出される年齢と年代、入会日と退会日から算出される会員期間、退会日から取得される退会フラグなどがある。これら属性データをマスタ統合データ521に付加し、図11に示すようにマスタ統合データ521bが生成される。そして、マスタ統合データ521bがトランザクション統合データ511に統合され、トランザクション統合データ511bが生成される。
<4-2.他の実施の形態>
 以上の実施の形態において、集計レイヤ60の複数の集計データから分析レイヤ70の分析データを抽出する処理を所定の回数行った後、当該複数の集計データのうち、分析データを生成するために選択されていない集計データを集計レイヤ60から削除してもよい。所定の回数の分析を行うと、分析者の分析要求がパターン化されていく。このパターンに即座に対応できる一番効率の良い集計データを集計レイヤ60に格納する。
 かかる場合、集計レイヤ60に格納される集計データの数が少なくなり、より効率よく分析データを抽出することができる。また、当該集計レイヤ60の必要容量を小さくすることもできる。なお、集計データから分析データを抽出する所定の回数は、特に限定されるものではなく、任意に選択することができる。
<4-3.他の実施の形態>
 以上の実施の形態において、データベース20に格納されるデータはこれに限定されない。取込レイヤ30のトランザクション生データ群31には、例えばアクセスログなどのログデータが格納されてもよく、これにより、データウェアハウス40のトランザクション入力データ群41と統合レイヤ50のトランザクション統合データ群51にも、それぞれログデータが格納されてもよい。また、取込レイヤ30のマスタ生データ群32には、チェーン店の店舗データや社員データが格納されてもよく、これにより、データウェアハウス40のマスタ入力データ群42と統合レイヤ50のマスタ統合データ群52にも、それぞれ店舗データや社員データが格納されてもよい。さらに、データウェアハウス40の属性データ群43にも、店舗系や社員系の属性データが格納されてもよい。
 また、トランザクション生データ311には、加算項目として売上個数が含まれ、さらに集計データ601には、加算項目を利用して算出される数量の集計として、売上個数と売上単価から算出される売上金額が含まれていた。この点、トランザクション生データ311に売上金額が含まれていてもよく、かかる場合、集計データ601を生成する際に、売上個数と売上単価から売上金額を算出する必要はない。このように取込レイヤ30に格納される生データは、加算項目と不加算項目を任意に含むことができ、これらの項目に応じて集計レイヤ60の集計データが生成される。
 また、以上の実施の形態は、データ処理システム1において小売店で取得されるデータを処理したが、データ処理の対象はこれに限定されない。本発明のデータ処理システム1は、例えばクレジットカードの使用データやECサイトの利用データ、ゲームにおける利用データ、公共交通機関の利用データなど、会員などを識別するIDを備え、当該IDに紐づけられた履歴が残っているデータであれば、任意のデータを処理することができる。
 以上、添付図面を参照しながら本発明の好適な実施の形態について説明したが、本発明はかかる例に限定されない。当業者であれば、請求の範囲に記載された思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
 本発明は、例えばデータを処理して分析用のデータを生成する際に有用であり、特にビッグデータの処理分析に有用である。
 1  データ処理システム
 2  外部システム
 10 通信部
 11 記憶部
 12 処理部
 13 設定部
 14 出力部
 20 データベース
 30 取込レイヤ
 31 トランザクション生データ群
 32 マスタ生データ群
 40 データウェアハウス
 41 トランザクション入力データ群
 42 マスタ入力データ群
 43 属性データ群
 50 統合レイヤ
 51 トランザクション統合データ群
 52 マスタ統合データ群
 60 集計レイヤ
 70 分析レイヤ
 80 データマート
 90 分析結果
 311、321~323 生データ
 411、421~423 入力データ
 511、521、522 統合データ
 601~605 集計データ
 701~704 分析データ
 901、902 属性データ
 N   ネットワーク

Claims (10)

  1. 入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、
    データベースを格納する記憶部と、
    前記データベースに格納されるデータを処理する処理部と、
    分析用のデータを生成するために必要な条件を設定する設定部と、を有し、
    前記データベースは、
    入力されたすべての入力データを格納するデータウェアハウスと、
    前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、
    前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、
    前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム。
  2. 前記入力データは、トランザクション入力データとマスタ入力データを有し、
    前記統合データは、トランザクション統合データとマスタ統合データを有し、
    前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、
    前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成することを特徴とする、請求項1に記載のデータ処理システム。
  3. 前記データウェアハウスは、前記分析データの分析結果から得られる属性データをさらに格納し、
    前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成することを特徴とする、請求項1又は2に記載のデータ処理システム。
  4. 前記処理部は、前記複数の集計データから前記分析データを抽出する処理を所定の回数行った後、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除することを特徴とする、請求項1~3のいずれか一項に記載のデータ処理システム。
  5. データ処理システムを用いて、入力されたデータを処理し分析用のデータを生成するデータ処理方法であって、
    前記データ処理システムは、
    データウェアハウス、統合レイヤ、集計レイヤ及び分析レイヤを備えたデータベースを格納する記憶部と、
    前記データベースに格納されるデータを処理する処理部と、
    分析用のデータを生成するために必要な条件を設定する設定部と、を有し、
    前記データ処理方法は、
    入力されたすべての入力データを前記データウェアハウスに格納する第1ステップと、
    前記処理部が前記入力データを統合して統合データを生成した後、前記統合データを前記統合レイヤに格納する第2ステップと、
    前記処理部が前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを前記集計レイヤに格納する第3ステップと、
    前記処理部が、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを前記分析レイヤに格納する第4ステップと、を有することを特徴とする、データ処理方法。
  6. 前記入力データは、トランザクション入力データとマスタ入力データを有し、
    前記統合データは、トランザクション統合データとマスタ統合データを有し、
    前記第2ステップにおいて、
    前記処理部は、前記マスタ入力データを統合して、前記マスタ統合データを生成し、
    前記処理部は、前記トランザクション入力データと前記マスタ統合データを統合して、前記トランザクション統合データを生成することを特徴とする、請求項5に記載のデータ処理方法。
  7. 前記第4ステップの後、前記分析データの分析結果から得られる属性データを、前記データウェアハウスに格納する第5ステップをさらに有し、
    前記第2ステップにおいて、前記処理部は、前記入力データを統合し、さらに前記属性データを付加して、前記統合データを生成することを特徴とする、請求項5又は6に記載のデータ処理方法。
  8. 前記第4ステップを所定の回数行った後、前記処理部は、前記複数の集計データのうち、前記分析データを生成するために選択されていない集計データを前記集計レイヤから削除することを特徴とする、請求項5~7のいずれか一項に記載のデータ処理方法。
  9. 請求項5~8のいずれか一項に記載のデータ処理方法をデータ処理システムによって実行させるように、当該データ処理システムを制御する、コンピュータ上で動作するプログラム。
  10. 請求項9に記載のプログラムを格納した読み取り可能なコンピュータ記憶媒体。
PCT/JP2016/056744 2015-03-24 2016-03-04 データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体 WO2016152455A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/559,115 US10762066B2 (en) 2015-03-24 2016-03-04 Data processing system having an integration layer, aggregation layer, and analysis layer, data processing method for the same, program for the same, and computer storage medium for the same
EP16768358.0A EP3276504A4 (en) 2015-03-24 2016-03-04 Data processing system, data processing method, program, and computer memory medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-061321 2015-03-24
JP2015061321A JP5847344B1 (ja) 2015-03-24 2015-03-24 データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

Publications (1)

Publication Number Publication Date
WO2016152455A1 true WO2016152455A1 (ja) 2016-09-29

Family

ID=55169238

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/056744 WO2016152455A1 (ja) 2015-03-24 2016-03-04 データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

Country Status (4)

Country Link
US (1) US10762066B2 (ja)
EP (1) EP3276504A4 (ja)
JP (1) JP5847344B1 (ja)
WO (1) WO2016152455A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7015725B2 (ja) 2018-04-16 2022-02-03 株式会社日立製作所 データ利活用に係るデータ準備方法及びデータ利活用システム
US10992757B2 (en) * 2019-06-20 2021-04-27 Bank Of America Corporation Edge-computing-based forensic feedback architecture
JP7247060B2 (ja) 2019-09-02 2023-03-28 株式会社日立製作所 データの利活用のためのデータ準備を支援するシステム、及び、その方法
WO2022261652A1 (en) 2021-06-10 2022-12-15 Sailion Inc. Method and system for distributed workload processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509307A (ja) * 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
JP2013527540A (ja) * 2010-05-28 2013-06-27 オラクル・インターナショナル・コーポレイション ビジネスインテリジェンスサーバとともに用いられるデータに対する多言語サポートを提供するためのシステムおよび方法
JP2013531844A (ja) * 2010-05-27 2013-08-08 オラクル・インターナショナル・コーポレイション データマート自動化

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032158A (en) * 1997-05-02 2000-02-29 Informatica Corporation Apparatus and method for capturing and propagating changes from an operational database to data marts
US6044374A (en) * 1997-11-14 2000-03-28 Informatica Corporation Method and apparatus for sharing metadata between multiple data marts through object references
US6212524B1 (en) * 1998-05-06 2001-04-03 E.Piphany, Inc. Method and apparatus for creating and populating a datamart
US6189004B1 (en) * 1998-05-06 2001-02-13 E. Piphany, Inc. Method and apparatus for creating a datamart and for creating a query structure for the datamart
US6282544B1 (en) * 1999-05-24 2001-08-28 Computer Associates Think, Inc. Method and apparatus for populating multiple data marts in a single aggregation process
US6385604B1 (en) * 1999-08-04 2002-05-07 Hyperroll, Israel Limited Relational database management system having integrated non-relational multi-dimensional data store of aggregated data elements
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
US20040215656A1 (en) 2003-04-25 2004-10-28 Marcus Dill Automated data mining runs
JP4598612B2 (ja) 2005-06-27 2010-12-15 株式会社日立製作所 データ処理方法、データ処理プログラムおよびデータベースサーバ
US20080270363A1 (en) * 2007-01-26 2008-10-30 Herbert Dennis Hunt Cluster processing of a core information matrix
CN102349081A (zh) * 2009-02-10 2012-02-08 渣普控股有限公司 Etl构建器
US8326857B2 (en) * 2010-05-28 2012-12-04 Oracle International Corporation Systems and methods for providing value hierarchies, ragged hierarchies and skip-level hierarchies in a business intelligence server
US20120005151A1 (en) * 2010-07-01 2012-01-05 Vineetha Vasudevan Methods and systems of content development for a data warehouse
US20120173478A1 (en) * 2010-12-30 2012-07-05 Cerner Innovation, Inc. Custom data mart creation
CA2795756C (en) * 2011-11-15 2020-05-12 Pvelocity Inc. Method and system for providing business intelligence data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509307A (ja) * 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
JP2013531844A (ja) * 2010-05-27 2013-08-08 オラクル・インターナショナル・コーポレイション データマート自動化
JP2013527540A (ja) * 2010-05-28 2013-06-27 オラクル・インターナショナル・コーポレイション ビジネスインテリジェンスサーバとともに用いられるデータに対する多言語サポートを提供するためのシステムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3276504A4 *

Also Published As

Publication number Publication date
US10762066B2 (en) 2020-09-01
JP5847344B1 (ja) 2016-01-20
EP3276504A1 (en) 2018-01-31
US20180157687A1 (en) 2018-06-07
EP3276504A4 (en) 2018-12-12
JP2016181150A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
US9965531B2 (en) Data storage extract, transform and load operations for entity and time-based record generation
WO2016152455A1 (ja) データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体
US20150278813A1 (en) Determining a temporary transaction limit
US10878476B2 (en) Assortment optimization
CN108280091B (zh) 一种任务请求执行方法和装置
WO2015155561A1 (en) Accessing non-relational data stores using structured query language queries
CN110633331B (zh) 一种关系数据库中数据提取方法、系统及相关设备
US20160132496A1 (en) Data filtering
CN108960672B (zh) 限额限次的风控方法、装置及计算机可读存储介质
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
US20190286724A1 (en) Data analysis support apparatus and data analysis support method
WO2016197852A1 (zh) 一种数据处理方法和设备
WO2022223024A1 (zh) 数据处理方法、装置、设备及存储介质
WO2017158802A1 (ja) データ変換システム及びデータ変換方法
CN110009796B (zh) 发票类别识别方法、装置、电子设备及可读存储介质
US20150134563A1 (en) Report data management server, report data management program, and report data management device
JP6550304B2 (ja) 集計分析装置、集計分析方法、及びプログラム
Masouleh et al. Optimization of ETL process in data warehouse through a combination of parallelization and shared cache memory
CN112561559A (zh) 商户画像模型生成方法、装置、设备及存储介质
JP2013045137A (ja) データ管理システム及びデータ管理方法
US20170270555A1 (en) Client-Side Automated Shopping List Management, Intelligent Coupon Generation and Coupon-Influenced Product Selection
JP6268268B2 (ja) ポイント管理サーバ、ポイント管理制御プログラム、およびポイント管理方法
JP2005242419A (ja) 商品販売情報分析サーバ
KR20180119104A (ko) 무정형 빅데이터의 개인정보 비식별화 처리 방법
JP2018147322A (ja) 支払運賃算出装置、支払運賃算出方法および支払運賃算出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16768358

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15559115

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE