WO2019202839A1 - データ利活用に係るデータ準備方法及びデータ利活用システム - Google Patents

データ利活用に係るデータ準備方法及びデータ利活用システム Download PDF

Info

Publication number
WO2019202839A1
WO2019202839A1 PCT/JP2019/006352 JP2019006352W WO2019202839A1 WO 2019202839 A1 WO2019202839 A1 WO 2019202839A1 JP 2019006352 W JP2019006352 W JP 2019006352W WO 2019202839 A1 WO2019202839 A1 WO 2019202839A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
utilization
data preparation
preparation
content
Prior art date
Application number
PCT/JP2019/006352
Other languages
English (en)
French (fr)
Inventor
山本 秀典
川崎 健治
岳志 半田
高志 津野
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to KR1020207028562A priority Critical patent/KR102432126B1/ko
Priority to US17/046,759 priority patent/US20210117886A1/en
Publication of WO2019202839A1 publication Critical patent/WO2019202839A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Definitions

  • the present invention relates to a data preparation method and a data utilization system related to data utilization. More specifically, for example, the present invention relates to a data preparation method and a utilization system related to data utilization for preparing and managing data utilized for various purposes and applications targeting data from a plurality of business systems.
  • Patent Document 1 As a data analysis system, a technique described in JP 2010-277534 A (Patent Document 1) has been proposed.
  • a data collection device including a data collection device that performs preprocessing of the data, and a data transmission unit that transmits the data preprocessed by the data collection device; and the previous data transmitted from the data transmission unit
  • a data analysis unit comprising: a data reception unit that receives processed data; and a data analysis device that analyzes the preprocessed data received by the data reception unit.
  • Data analysis system As a data processing system, a technique described in Japanese Patent Application Laid-Open No.
  • a data processing system that processes input data and generates analysis data
  • a storage unit that stores a database
  • a processing unit that processes data stored in the database
  • the database stores a data warehouse for storing all input data
  • the processing unit converts the input data by the processing unit.
  • the integrated layer for storing the integrated data, and the integrated data by the processing unit for each combination of one or more non-addition items, at least the quantity of addition items or non-addition items And generating a plurality of aggregated data, and then setting the aggregation unit with the aggregation layer for storing the plurality of aggregated data and the processing unit.
  • An analysis layer for storing the analysis data after selecting one aggregation data from the plurality of aggregation data and extracting the analysis data from the one aggregation data based on a predetermined condition "Data processing system”.
  • Patent Document 1 previously creates a program correspondence table of analysis processing and preprocessing corresponding to an analysis purpose, collects data of the preprocessing program corresponding to the analysis purpose by referring to the program correspondence table It is distributed to the equipment, and preprocessing that matches the purpose is performed for each raw data.
  • the analysis purpose and the target raw data are all identified in advance, and the correspondence table between analysis processing and preprocessing It is necessary to create data for a specific type of data, and it can be used only for purposes within the scope of assumptions. That is, when a wide variety of data from a plurality of systems are targeted, there is a problem that the load increases in creating a correspondence table with preprocessing and analysis.
  • Patent Document 2 generates combined data by combining all input data, and generates aggregate data for various items, and is necessary from the combined data and aggregate data.
  • the data that can be used is limited to data that can be used to create integrated data. It is not always possible to create integrated data uniformly for a wide variety of data from a plurality of business systems.
  • in order to create analysis data suitable for the purpose from integrated data and aggregated data it is necessary to understand all the original data. That is, there is a problem that it is not always possible to create integrated data uniformly for a wide variety of data from a plurality of systems.
  • An object of the present invention is to provide a technique for easily proposing appropriate data preparation contents (data preparation items) with high importance to users who use data for various purposes.
  • data preparation contents table formation, table join / data extraction, data structuring, data Propose processing work items (data preparation items), and prepare data for various purposes for various users (administrators) who manage this system (high importance that should be prepared)
  • the purpose is to provide a data preparation method and a data utilization system related to data utilization that present data preparation contents).
  • one of the data preparation methods and systems relating to typical data utilization of the present invention has a utilization purpose, data preparation, and data utilization function specified by a user utilizing data.
  • For the category of the preparation content a list including the processing program corresponding to the data preparation content item and the data relation definition is created, and the data preparation Calculates the items usefulness, including a function to be presented to the user for utilization of data.
  • ADVANTAGE OF THE INVENTION According to this invention, the cost required for implementation of data utilization including analysis using various data from a plurality of business systems can be reduced.
  • a data utilization system for a plurality of users when constructed, it can contribute to the provision of more useful functions and services related to data preparation for data utilization. Problems, configurations, and effects other than those described above will be clarified by the following description of embodiments.
  • FIG. 4 is a diagram illustrating an example of utilization purposes, which is a diagram illustrating a utilization purpose created by a user and a configuration of data information prepared by a data utilization base server in a data preparation method according to the present invention for data utilization; .
  • the figure which shows the structure of the table used in order to implement the data preparation method concerning data utilization managed by the data utilization base server in this invention Comprising: The figure which shows the data structure of a data preparation content proposal management table . The figure which shows the data structure of a data preparation content category management table. The figure which shows the data structure of a useful data preparation content item management table.
  • the utilization purpose created by the user is collated with the data information prepared in the system, and the data preparation contents to be executed And a flowchart showing a flow of processing for calculating a difficulty level.
  • the similarity in each item of the data preparation contents is determined from the data preparation proposal results, and the similar data preparation contents are classified into categories.
  • the flowchart which shows the flow of the process for converting.
  • the flowchart which shows the flow of the process for calculating importance with respect to the category of the data preparation content in this invention.
  • the flowchart which shows the flow of the process for creating the list of the processing program applicable to a data preparation content item, a data definition, etc. as a result of registration of the data preparation content item by the user in this invention.
  • FIG. 1 is a block diagram showing the configuration of a system to which a data preparation method relating to data utilization of the present invention is applied.
  • a system to which a data preparation method for data utilization is applied includes a data utilization base server 101 for constructing a data utilization system, an administrator terminal 102, a plurality of user terminals 103 to 105, and a plurality of business systems 105 to 107. ing. In this example, there are three user terminals and three business systems, but the number is not limited.
  • the data utilization base server 101 is connected to the administrator terminal 102 and the plurality of user terminals 103 to 104 via the network 108, and is interconnected to the plurality of business systems 106 to 108 via the network 109.
  • business data (raw data) to be used is collected from the business systems 106 to 108 to the data utilization base server 101 via the network 109, but without using the network 109, for example, Business data (raw data) may be directly input to the data utilization platform server 101 manually.
  • the user is assumed to be an analyst, developer, system administrator, or the like who has little knowledge of field data and has high IT literacy.
  • An analyst is a person who performs problem discovery, solution planning, etc., using various analysis methods and tools for various data across departments.
  • a developer is a person who develops an analysis application necessary for analysis work.
  • a system administrator is a person who manages and operates a data utilization system and registers and manages a processing logic program such as storage and processing of raw data from a business system.
  • the data utilization base server 101 is business data (raw data), accumulates data to be utilized, and executes preparation processing for the data for utilization, data preparation, and utilization. Manages data relation information for such data relation definition, processing program etc. and data utilization user (analyzer and developer) and data utilization infrastructure server 101 in the data utilization system (this system) It has a function for making proposals regarding data preparation contents, similar categories, importance levels, useful levels, etc. to the user (system administrator).
  • the execution of the preparatory process for the data for utilization includes, for example, data information prepared in the system including at least utilization data including a requested data item, an input data structure, a data catalog, and data relation information.
  • data information prepared in the system including at least utilization data including a requested data item, an input data structure, a data catalog, and data relation information.
  • gap evaluation is performed, target data (data / file / system) is selected from raw data, and data preparation (target data, table formation, data combination / extraction, data structuring) to be performed on the target data ,
  • Data processing) data preparation content item (work item) and difficulty level are calculated, and data preparation proposal (output) is performed.
  • the difficulty level is the size of the load required for the work for the user. When the difficulty level is low, it is expected that the workload will be small due to reuse of the processing program.
  • the data utilization base server 101 has a function of collating the utilization purpose designated by the user utilizing data with the data information including the data preparation content item prepared in the system, for the purpose of utilization.
  • a function for calculating data preparation content items and difficulty level to be executed and presenting them to a user to utilize a function for aggregating data preparation content items for utilization purposes, and categorizing similar data preparation content, the categorization Calculate the importance of the selected category, create a list that includes the processing program corresponding to the data preparation content item and the data relationship definition for the category of the data preparation content function that is presented to the user who manages this system, It has a function of calculating the usefulness of the data preparation content item and presenting it to the user to utilize.
  • Data preparation contents items are aggregated, similar data preparation contents are categorized, the importance of the category is calculated, and presented, for example, the data preparation proposal results and / or execution results are aggregated and the data preparation contents Is presented to the user (an item for which a processing logic program should be prepared with priority).
  • the degree of difficulty of the data preparation content is calculated when proposing the data preparation content for the above-mentioned utilization purpose to the user, and (2) the difficulty calculation result is recorded as a data preparation proposal result, Based on the data preparation proposal results, the degree of similarity in each item of the data preparation contents is determined, the similar data preparation contents are categorized, the related utilization purposes are listed, and (3) a group of data preparation contents Calculate the average difficulty level and total number for each, and the importance (degree required for utilization) based on them, and the data preparation contents, utilization purpose (candidate), average difficulty level, total number, importance level, etc. Creating a table (see FIG. 11) to include. The table is updated each time a proposal for the purpose of use is implemented.
  • the administrator terminal 102 is a terminal used by a user of an administrator who manages the data utilization system and the data utilization platform server 101 in the data utilization system.
  • the user terminals 103 to 105 are users of analysts and developers who perform operations related to registration of information indicating the purpose of use (see 501 in FIG. 5A), confirmation of data preparation contents, and data preparation ( This is a terminal used by a user who uses data.
  • the business systems 106 to 108 are providers of data to be utilized, and are business systems that are subject to problem solving by analysis.
  • the main hardware configuration of the data utilization base server 101 includes a storage device (memory, hard disk) 111, a processing device (CPU) 112, and a communication device 113.
  • the administrator terminal 102 and the user terminals 103 to 105 are mainly configured by storage devices (memory, hard disk) 121 and 131, processing devices (CPU) 122 and 132, and communication devices. 123, 133.
  • FIG. 2 is a diagram showing a use case when the data preparation method for data utilization according to the present invention is implemented.
  • FIG. 10 is a diagram for explaining a processing procedure with analysts 202 to 204 on the user terminals 103 to 105 side.
  • the analysts 202 to 204 will be referred to as analysts A to C.
  • the operation based on the sequence of FIG. 2 is as follows.
  • the business system 106 registers the business data in the storage device 111 of the data utilization infrastructure server 101 (step 211).
  • the data utilization infrastructure server 101 receives the business data from the business system 106 at the processing device 112 and creates a data catalog related to the business data of the business system (step 221).
  • the data catalog describes a system, that is, a system including a file including a data item (list), and is described in detail later, for example, as shown in FIG.
  • the analyst A uses the user terminal 103 to register the utilization purpose in the storage device 111 of the data utilization platform server 101 on the system side for data utilization such as analysis to be performed (step 241).
  • the utilization purpose includes a request data item and an input data structure. The details are as shown in FIG. 5A, for example, which will be described later.
  • the data utilization base server 101 executes data preparation processing in the processing device 112 and proposes the result to the analyst A via the communication device 113. That is, the data preparation content item of the data preparation content for the utilization purpose registered by the analyst A is proposed to the analyst A (step 222).
  • the analyst A refers to the data preparation content item proposed by the data utilization platform server 101, and performs data preparation work as a pre-process for performing the data utilization process suitable for the utilization purpose (step 242).
  • the pre-processing data preparation work will be described later with reference to FIG.
  • the analyst A performs data preparation work (step 242), and uses the result to perform data utilization processing (step 243).
  • the data preparation work execution (step 242) and the utilization utilization (243) can be performed by utilizing the functions provided to the data utilization infrastructure server 101.
  • the processing device 112 totals the results of the data preparation content item proposal (step 222) for the utilization purpose, and categorizes the data preparation content item and calculates the importance (step 223). .
  • the data utilization infrastructure server 101 presents the category and importance of the data preparation content item to the system administrator 201 and other analysts B via the communication device 113 (step 224).
  • the system administrator 201 and the analyst B can browse the category / importance of the data preparation content from the data utilization base server 101 using the administrator terminal 102 and the user terminal 104 (step 231). 251).
  • Step 232 and 252 the system administrator 201 and the analyst B store the storage device 111 of the data utilization infrastructure server 101 on this system side.
  • the processing program and data relation information will be described later with reference to FIGS. 5C and 5D. This is for the purpose of expanding functions and services for data utilization provided by the data utilization platform server 101.
  • the data utilization base server 101 receives registration of the processing program, data relation information, etc. from the system administrator 201 and the analyst B, it can be used by other users (analysts C). It is made public (step 225).
  • the analyst C uses the user terminal 105 to register the utilization purpose in the storage device 111 of the data utilization base server 101 for data utilization such as analysis to be performed (step 261). .
  • the data utilization infrastructure server 101 proposes data preparation content items for utilization purposes to the analyst C via the communication device 113 (step 226). At this time, it is possible to implement a more accurate proposal by using a processing program, data relation information, and the like registered on the system side.
  • step 225 the analyst C refers to the data preparation content item proposal after reflecting the registration of the related processing program, data relation information (data relation definition), etc. proposed from the data utilization base server 101. Then, a data preparation work is performed as a pre-process for performing a data utilization process suitable for the utilization purpose (step 262).
  • the analyst C performs data utilization processing by utilizing the result of the data preparation work execution (step 262) (step 263).
  • FIG. 3 is a diagram for explaining the premise of data preparation related to data utilization according to the present invention.
  • the business data (raw data) collected from the business system 106 includes not only tabular data such as CSV (Comma Separated Values) often used in analysis tools, but also BIN (binary), TXT (text), IMG (image) ), PDF (Portable Document Format), and the like are often included.
  • CSV Common Separated Values
  • BIN binary
  • TXT text
  • IMG image
  • PDF Portable Document Format
  • raw data business data
  • the analysis tool 321 utilized for data utilization in the data utilization system is used to table data 301, data combination / extraction 302, data structuring 303, data processing (cleansing) with respect to raw data. ) Perform each processing of 304 in order.
  • the data structure and format can be used by the analysis application 322 and the business application 323.
  • the individual data contents of the raw data are referred to and converted from the original binary format data or the like to the individual table 311 of the table format data such as CSV so as to be easy to handle.
  • a join table 312 is created.
  • the combined table 312 is converted into structured data 313 that can be used by the analysis tool 321, the analysis application 322, and the business application 323 used for data utilization.
  • conversion is made into a relational model table format generally used for various analysis tools and applications, a pivot table format used for cross tabulation, a common data model format for each application, etc. according to the purpose.
  • processing of the data processing 304 processing of data values is performed so that the structured data 313 becomes the individual input data structure 314 of the analysis tool 321, analysis application 322, and business application 323 utilized for data utilization. Do.
  • data cleansing processing such as unit conversion, error correction, and name identification is performed.
  • the processed data preparation is stored in the data preparation table (see FIG. 4).
  • FIG. 4 is a diagram showing a module configuration of the data utilization base server 101 in the present invention.
  • the data utilization base server 101 is composed of data utilization middleware 401.
  • the data utilization middleware 401 is provided from the business systems 106 to 108, accumulates raw data to be utilized in the raw data storage unit 411, and executes a preparation process for data for utilization, data preparation It also has a function of executing processing such as data related information relating to utilization, processing programs in the processing program storage unit 603, etc., and proposals relating to data preparation contents to users and system administrators who utilize data.
  • the data utilization middleware 401 includes a data preparation processing execution management unit 421, a utilization processing execution management unit 422, a data management unit 431, a processing program management unit 432, a user / business management unit 433, a data preparation content proposal unit 434, and data preparation.
  • a content proposal totaling unit 435, a data preparation content registration totaling unit 436, an I / F providing unit 437 for clients, a data communication unit 438, and the like are included.
  • a raw data storage unit 411 that stores raw data from the business systems 106 to 108
  • a data catalog storage unit 602 that stores a data catalog 502 (see FIG. 5B) prepared on the data utilization system side
  • processing A processing program storage unit 603 that stores a program list 503 (see FIG.
  • Raw data includes sensor data and open data in addition to business system data from the business system.
  • the data preparation process execution management unit 421 uses the raw data stored in the raw data storage unit 411 of the storage device 111, the processing program list registered in the processing program list storage unit 603, and the like on the data utilization base server 101. Perform and manage the data preparation process.
  • the data preparation process execution management unit 421 is a data preparation that enables data utilization for various purposes using a wide variety of data from a plurality of business systems 106 to 108,
  • the required data items and input data structure of the user who uses the data are collated with the data information prepared on the data utilization system side (for example, data catalog of raw data, data related information, etc.) Calculate the data preparation contents (work items) to be carried out and their difficulty, It has a function of managing a data preparation content proposal management table (see 6011 in FIG. 6A).
  • Data preparation means that even those who do not have sufficient knowledge about the target business / system can use the data quickly and easily. For example, users who use the data can use it with various tools and applications (analysis, business application). It is to prepare the necessary data to enable data utilization for various purposes and uses such as creation.
  • Data preparation contents include, for example, raw data tabulation, data combination / extraction for tabulated individual tables, data structuring for structured data, and data processing for application individual input structuring ( Cleansing), etc.
  • Tabulation is, for example, binary-CSV conversion, CSV table format conversion, etc.
  • data combination / extraction is relational data (line master, etc.) and connection keys (km, time, etc.)
  • data Structuring is relation model table conversion, integrated data model conversion, and the like
  • data processing is unit conversion, name identification, and the like. The procedure of the data preparation process described above will be described later with reference to FIG.
  • the utilization processing execution management unit 422 executes and manages utilization processing on the data utilization base server 101, and summarizes the data preparation proposal results and the execution results by the user, and determines the importance of the data preparation contents. Calculate the degree. The importance is determined for each category of data preparation content.
  • the utilization process execution management unit 422 determines the similarity of each item of the data preparation content calculated by the data preparation process execution management unit 421, categorizes the similar data preparation contents, and related utilization purposes.
  • List (candidates) Calculate the importance, that is, the degree required for utilization based on the average difficulty level and total number of data preparation contents for each group, It has a function of managing a data preparation content category table (see 6021 in FIG. 6B).
  • the utilization purpose is, for example, a user type (analyzer, developer, etc.) and application logic (causal relation calculation, line graph output, etc.).
  • the total number is the total number of data preparation contents for each group obtained by the data preparation content proposal aggregation unit 435 and the data preparation content registration aggregation unit 436. The procedure of the utilization process for calculating the importance described above will be described later with reference to FIGS.
  • the utilization process execution management unit 422 creates a list of processing programs and data definitions corresponding to the data preparation content item as a result of registering the data preparation content item by the user, and calculates the usefulness of the data definition Have
  • the user searches the data preparation content corresponding to the processing program and data definition by the user, refers to the importance of the data preparation content category, calculates the usefulness of the processing program and data definition, updates the usefulness, It has a function of managing a useful data preparation content proposal management table (see 6031 in FIG. 6C).
  • the procedure of the utilization process for calculating the usefulness described above will be described later with reference to FIG.
  • the data management unit 431 performs management to store the raw data, the data catalog, and the data relation information in the raw data storage unit 411, the data catalog storage unit 602, and the data relation definition storage unit 604.
  • the processing program management unit 432 manages the processing program list in the processing program storage unit 603 and accepts registration of processing programs, data relationship definitions, and the like by the user.
  • the user / operation management unit 433 manages users (system administrators, analysts, developers) and operations that access and utilize the data utilization middleware 401.
  • the data preparation content proposal unit 434 performs a data preparation content (data preparation content item) proposal process with reference to the data catalog, data relation information, processing program list, and data preparation table for the user's utilization purpose.
  • the data preparation content proposal unit 434 proposes to the user the data preparation content, importance, usefulness, and the like obtained by the data preparation processing execution management unit 421 and the utilization processing execution management unit 422.
  • Propose data preparation work items and methods to analysts and developers who use data, and prepare data for system administrators to prepare for various purposes of various users Has a function to propose a combination of preparation contents with high importance and necessity.
  • the data preparation content proposal totaling unit 435 refers to the data preparation table and totals the data preparation content proposal results and categorizes the data preparation content.
  • the data preparation content registration / aggregation unit 436 aggregates registration of processing programs, data relationship definitions, and the like by the user for the category of data preparation content.
  • the client I / F providing unit 437 provides an interface of functions provided by the data utilization middleware 401 to the data preparation content registration / aggregation unit 436, the administrator terminal 102, and the user terminals 103 to 105.
  • the data communication unit 438 performs data communication such as data preparation content item proposals with the administrator terminal 102, the user terminals 103 to 105, and the business systems 106 to 108 via the networks 109 and 109 '.
  • FIG. 5 shows a utilization purpose 501 created by the user, a data catalog 502 prepared in the data utilization base server 101 in the data utilization system, and a processing program list 503 in the data preparation method for data utilization according to the present invention.
  • FIG. 5A is a diagram illustrating an example of the utilization purpose 501
  • FIG. 5B is a diagram illustrating an example of the data catalog 502.
  • C is a diagram showing an example of the processing program list 503
  • FIG. 5 (D) is a diagram showing an example of the data relationship information 504.
  • the data catalog 502, data relationship information 504, and processing program list 503 are stored in each data catalog storage unit 602, data relationship definition storage unit 604, and processing program storage unit 603 shown in FIG.
  • the utilization purpose 501 and the data catalog 502 are indispensable for carrying out the data preparation method for data utilization according to the present invention.
  • the processing program list 503 and the data relation information 504 are arbitrary. That is, even if the processing program list 503 and the data relation information 504 are not necessary, the data preparation method according to the data utilization according to the present invention can be implemented. The accuracy of data preparation proposals etc. is further improved.
  • the utilization purpose 501 describes information related to the purpose of data utilization by the user using data from the business system 106, and is created for each data utilization performed by the user.
  • Utilization purpose 501 is, for example, “request data item”, “input data structure”, “application logic”, “KPI”. “Request data item” and “input data structure” are indispensable, and “application logic” and “KPI” are optional.
  • “Requested data item” indicates the type / item and data range (time, etc.) of data requested by the analysis tool 321, analysis application 322, and business application 323 to be utilized for practical use.
  • “Input data structure” indicates the structure of input data requested by the analysis tool 321, analysis application 322, and business application 323 used for the purpose of utilization. For example, any one of a relation model table (CSV), a pivot table, various common data models, etc. is designated.
  • CSV relation model table
  • pivot table various common data models, etc.
  • Application logic is used to specify the type of logic used in the analysis application 322 and the business application 323 utilized for actual utilization, the business type, and the like.
  • KPI designates the KPI that is to be achieved as a purpose of utilization.
  • the data catalog 502 describes information about the raw data from the business system 106, and information (catalog information) such as a data source list, a creation time, a file format, and the like including a source system, a file structure for each data. )including.
  • the data catalog 502 is created and updated every time data from the business system 106 is registered in the data utilization platform server 101.
  • the processing program list 503 is a list of processing programs that can be used for each data preparation process (steps 301 to 304 in FIG. 3) managed by the data utilization infrastructure server 101.
  • the data relation information 504 describes, for the data from the business system 106, a combination of specification data item relations, a combination of business data item relations, a combination of business record relations, a combination of business know-how relations, and the like. is there.
  • the data relation information 504 has a large load to be created, but if the information is present, the accuracy of the data preparation content proposal is further improved.
  • FIG. 6 is a diagram showing a data configuration of a table used for implementing a data preparation method related to data utilization managed by the storage device 111 of the data utilization infrastructure server 101 according to the present invention.
  • 6A shows the data structure of the data preparation content proposal management table 601
  • FIG. 6B shows the data structure of the data preparation content category management table 602
  • FIG. 6C shows the useful data preparation content item management table 603. It is a table figure which shows a data structure.
  • the data preparation content proposal management table 6011 stores information on data preparation content proposals for utilization purposes designated by the user. Mainly, identification information 611, target data 612, tabulation 613, data combination / extraction 614, data structuring 615, data processing 616, difficulty 617, user type 618, application logic 619, KPI 610, update date and time 641, etc. Each item indicating the information is included.
  • the identification information 611 is information for identifying the data preparation content proposal.
  • the target data 612 is information regarding the target data 612 in the data preparation content proposal specified by the identification information 611.
  • the tabulation 613 is information relating to tabulation in the data preparation content proposal specified by the identification information 611.
  • Data combination / extraction 614 is information relating to data combination / extraction in the data preparation content proposal specified by the identification information 611.
  • the data structuring 615 is information related to data structuring in the data preparation content proposal specified by the identification information 611.
  • the data processing 616 is information regarding data processing in the data preparation content proposal specified by the identification information 611.
  • the difficulty level 617 is information on the difficulty level in the data preparation content proposal specified by the identification information 611.
  • the user type 618 is information regarding the type of user who is the target of the data preparation content proposal specified by the identification information 611.
  • the application logic 619 is information about the application logic from the utilization purpose of the user who is the target of the data preparation content proposal specified by the identification information 611, and when the utilization purpose does not include information about the application logic, This item is empty.
  • the KPI 610 is information related to the KPI for the purpose of utilization of the user who is the target of the data preparation content proposal specified by the identification information 611. If the information regarding the KPI is not included in the purpose of utilization, this item is empty. It becomes.
  • the update date and time 641 is the date and time when the record was last updated.
  • the data preparation content category management table 6021 stores information related to the data preparation content category. Mainly, identification information 621, target data 622, tabulation 623, data combination / extraction 624, data structuring 625, data processing 626, user type 627, application logic 628, KPI 629, average difficulty 620, total number 642, important Each item indicating information indicating degree 643, update date and time 644, and the like is included.
  • the identification information 621 is information for identifying the data preparation content category.
  • the target data 622 is information regarding the target data in the data preparation content category specified by the identification information 621.
  • the tabulation 623 is information relating to tabulation in the data preparation content category specified by the identification information 621.
  • the data combination / extraction 624 is information related to data combination / extraction in the data preparation content category specified by the identification information 621.
  • the data structuring 625 is information regarding data structuring in the data preparation content category specified by the identification information 621.
  • the data processing 626 is information related to data processing in the data preparation content category specified by the identification information 621.
  • the user type 627 is information regarding the user type in the data preparation content category specified by the identification information 621.
  • Application logic 628 is information relating to application logic extracted from the utilization purpose related to the data preparation content proposal that is the basis of the data preparation content category specified by the identification information 621. There may be multiple app logics associated with the data preparation content category, and multiple records may be stored.
  • the KPI 629 is information related to KPI extracted from the utilization purpose related to the data preparation content proposal that is the basis of the data preparation content category specified by the identification information 621. There may be a plurality of KPIs related to the data preparation content category, and a plurality of records may be stored.
  • the average difficulty 620 is information regarding the average difficulty in the data preparation content category specified by the identification information 621.
  • the total number 642 is information regarding the total number in the data preparation content category specified by the identification information 621.
  • the importance 643 is information regarding the importance in the data preparation content category specified by the identification information 621.
  • the update date / time 644 is the date / time when each record was last updated.
  • the useful data preparation content item management table 6031 stores information on useful data preparation content items for the data preparation content category. It mainly includes items indicating information such as identification information 631, processing program / data definition identification information 632, classification 633, related data preparation content 634, usefulness 635, and update date 636.
  • the identification information 631 is information for identifying the data preparation content item.
  • the processing program / data definition identification information 632 is information for identifying the processing program or data definition in the data preparation content item specified by the identification information 631.
  • the classification 633 is information regarding the classification in the data preparation content item specified by the identification information 631.
  • the table 633 stores “table”, “data combination / extraction”, “data structuring”, or “data processing”.
  • the related data preparation content 634 is information for identifying a data preparation content proposal related to the data preparation content item specified by the identification information 631.
  • the usefulness 635 is information relating to the usefulness of the data preparation content item specified by the identification information 631.
  • the update date and time 636 is the date and time when each record was last updated.
  • FIG. 7 shows the utilization purpose 501 created by the user and the present system in the data utilization base server 101 (processing device 112) in the data utilization system when the data preparation method for data utilization according to the present invention is applied.
  • 5 is a flowchart showing the flow of processing for collating the data information (including the data catalog 502) prepared in FIG. 1 and calculating the work items and difficulty level of data preparation to be performed.
  • Step 701 The data utilization platform server 101 collates the requested data item of the utilization purpose 501 created by the user with the data item of the file of the data catalog 502 prepared by the data utilization platform server 101.
  • the requested data item is the type / item and range (time, etc.) of the requested data as shown in FIG.
  • Step 702 The data utilization platform server 101 selects target data (specified by data / file / system) from raw data in the business system based on the collation result in step 701.
  • the target data includes rail wear, ton, delay time, station arrival time, station departure time, temperature, and the like.
  • Step 703 The data utilization infrastructure server 101 determines the difficulty level of the data preparation content item regarding the target data selection from the results of steps 701 and 702. That is, the difficulty level of the data preparation content item (target data 612 in FIG. 6A) for the data type, item, and range requested by the user is determined.
  • the difficulty level is high if the number of data that can be extracted as data corresponding to the requested data item is large, and the difficulty level is low if the number is small.
  • Step 704 The data utilization base server 101 collates the input data structure of the utilization purpose 501 with the file format of the corresponding data in the data catalog 502.
  • the input data structure is a relation model table (CSV), a pivot table, various common data models, and the like as shown in FIG.
  • Step 705 As a result of step 704, the data utilization platform server 101 proceeds to the next step 706 when it is determined that the tabulation processing is necessary (YES), and proceeds to step 707 when it is determined that it is not necessary (NO).
  • Step 706 The data utilization platform server 101 extracts the table processing contents of the data preparation content item. Further, if a processing program corresponding to the contents of the tabulation processing is registered in the data utilization base server 101, a processing program candidate list is created.
  • the processing program candidate is, for example, a binary conversion program, a model conversion program, or the like.
  • Step 707 The data utilization base server 101 determines the difficulty level of the data preparation content item (table formation 613 in FIG. 6A) regarding the tabulation based on the results of steps 704 to 706.
  • the difficulty level is high if the table processing is necessary, and the difficulty level is low if it is not necessary. Further, it is assumed that the difficulty level is high if the processing program candidate corresponding to the tabulation processing is not registered in the data utilization base server 101, and the difficulty level is low if it is registered.
  • Step 708 The data utilization base server 101 collates the requested data item of the utilization purpose 501 with the number of files / files of the corresponding data in the data catalog 502, and refers to the data relation information 504, if any.
  • Step 709 As a result of step 708, the data utilization platform server 101 proceeds to step 710 when it is determined that data combination processing is necessary (YES), and proceeds to step 712 when it is determined that it is not necessary (NO).
  • Step 710 Based on the result of step 708, the data utilization base server 101 selects a combination key candidate (axis designation / distance for data combination / extraction, time, etc.) used for data combination of the data relation information 504.
  • a combination key candidate axis designation / distance for data combination / extraction, time, etc.
  • data common to a plurality of tables to be joined can be a join key.
  • Step 711 The data utilization base server 101 selects related data candidates (master designation / line master in data combination / extraction, etc.) based on the data relation information 504 from the result of step 708. For example, master data of various codes is applicable.
  • Step 712 The processing device 112 of the data utilization infrastructure server 101 determines the difficulty level of the data preparation content item (data combination / extraction 614 in FIG. 6A) regarding data combination / extraction based on the results of steps 708 to 711.
  • the difficulty level is high if data combination / extraction processing is necessary, and is low if it is not necessary.
  • the difficulty level is high if the number of selected combination key candidates is small, and the difficulty level is low if the number is large. Further, it is assumed that the difficulty level is high if the number of related key candidates selected is small, and the difficulty level is low if the number is large.
  • Step 713 The data utilization base server 101 collates the input data structure of the utilization purpose 501 with the file format of the corresponding data in the data catalog 502 and the joined table structure derived as a result of steps 708 to 711.
  • Step 714 As a result of step 713, the data utilization platform server 101 proceeds to step 715 when determining that data structuring processing is necessary (YES), and proceeds to step 716 when determining that it is not necessary (NO).
  • Step 715 The data utilization base server 101 extracts the data structuring process content. If a processing program corresponding to the data structuring processing content is registered in the data utilization platform server 101, a processing program candidate list is created.
  • Step 716 The data utilization base server 101 determines the difficulty level of the data preparation content item (data structuring 615 in FIG. 6A) regarding the data structuring from the results of steps 713 to 715.
  • the difficulty level is high, and if not, the difficulty level is low. Further, the difficulty level is high if the processing program candidate corresponding to the data structuring process is not registered in the data utilization base server 101, and the difficulty level is low if it is registered.
  • Step 717 The data utilization base server 101 collates the requested data item of the utilization purpose 501, the input data structure, the data item of the data catalog 502, and the data structure derived as a result of steps 713 to 715.
  • Step 718 As a result of step 717, the data utilization base server 101 proceeds to step 719 when it is determined that data processing is necessary (YES), and proceeds to step 721 when it is determined that it is not necessary (NO).
  • Step 719 The data utilization platform server 101 extracts data processing contents. If a processing program corresponding to the data structuring processing content is registered in the data utilization platform server 101, a processing program candidate list is created.
  • Step 720 The data utilization infrastructure server 101 selects a deficient data candidate from the result of step 717.
  • the deficient data candidate is data that is included in the requested data item of the utilization purpose 501 but does not exist in the data catalog 502.
  • Step 721 The data utilization base server 101 determines the difficulty level of the data preparation content item (data processing 616) regarding the data processing from the results of steps 717 to 720.
  • the difficulty level is high if data processing is necessary, and is low if it is not necessary. Further, the difficulty level is high if the processing program candidate corresponding to the data processing process is not registered in the data utilization base server 101, and the difficulty level is low if it is registered. Furthermore, it is assumed that the difficulty level is high if the number of shortage data candidates selected is large, and the difficulty level is low if the number is short.
  • Step 722 The data utilization base server 101 determines each difficulty of the data preparation content item (target data, table formation, data combination / extraction, data structuring, data processing) based on the determination results in steps 703, 707, 712, 716, and 721. Judgment degree integrated.
  • FIG. 8 shows the similarity in each item of the data preparation contents from the data preparation proposal results in the data utilization platform server 101 in the data utilization system when the data preparation method according to the present invention is applied. It is a flowchart which shows the flow of the process for determining and categorizing the similar data preparation content.
  • Step 801 The data utilization platform server 101 compares the data preparation proposal contents with the data preparation contents proposal results (grouped categories).
  • Step 802 As a result of step 801, the data utilization infrastructure server 101 determines whether or not the target data item matches a threshold value or more. Here, if the target data items match the threshold value or more (YES), the process proceeds to step 803. If they do not match (NO), the process proceeds to step 812, and in step 812, the category is determined to be dissimilar.
  • Step 803 The data utilization platform server 101 determines whether or not the tabulation processing content matches by a threshold value or more. Here, if the contents of the tabulation processing match at least the threshold (YES), the process proceeds to step 804, and if they do not match (NO), the process proceeds to step 812 and proceeds to step 812.
  • Step 804 The data utilization base server 101 determines whether or not the data combination / extraction processing content matches a threshold value or more. If the contents of the data combination / extraction process match at least the threshold (YES), the process proceeds to step 805. If they do not match (NO), the process proceeds to step 812.
  • Step 805 The data utilization infrastructure server 101 determines whether or not the combination key candidate matches a threshold value or more. If they match, the process proceeds to step 806, and if they do not match, the process proceeds to step 812.
  • Step 806 The data utilization infrastructure server 101 determines whether or not the related data candidates are equal to or greater than the threshold. If they match (YES), the process proceeds to step 807. If they do not match (NO), the process proceeds to step 812.
  • Step 807 The data utilization infrastructure server 101 determines whether or not the data structuring process content matches a threshold value or more. If they match (YES), the process proceeds to step 808, and if they do not match (NO), the process proceeds to step 812.
  • Step 808 The data utilization infrastructure server 101 determines whether or not the data structuring process content matches a threshold value or more. If they match (YES), the process proceeds to step 809. If they do not match (NO), the process proceeds to step 812.
  • Step 809 The data utilization platform server 101 determines whether or not the insufficient data candidates match by a threshold value or more. If they match (YES), the process returns to step 801. If they do not match (NO), the process proceeds to step 812.
  • Step 810 If the data utilization infrastructure server 101 determines that they match in each of steps 802 to 809, it determines that the category is similar to the category, and proceeds to step 810.
  • Step 811 The data utilization infrastructure server 101 adds to the category. That is, addition to the related utilization purpose (user type, application logic, KPI) for each category and update of the average difficulty, total number, and importance of the category are performed.
  • the difficulty level of the category includes the difficulty level of the target data, the difficulty level of tabulation, the difficulty level of data combination / extraction, the difficulty level of data structuring, and the difficulty level of data processing, and these are calculated by weighting.
  • the importance level is high, the total number is high, the importance level is high.
  • the difficulty level is low, the total number is low, the importance level is low.
  • Step 812 If the data utilization infrastructure server 101 determines that there is a mismatch in each of steps 802 to 809, it determines that the category is not similar to the category and proceeds to step 803.
  • Step 813 The data utilization infrastructure server 101 determines whether or not the comparison with all categories has been completed. If not completed (NO), the processing of steps 801 to 812 is repeated. When the comparison with all categories is completed (YES), the data preparation proposal content is registered as a new category.
  • each threshold value mentioned above is a predetermined threshold value set in advance.
  • FIG. 9 is a flowchart showing the flow of processing for calculating the importance for the category of the data preparation content.
  • Step 901 The data utilization platform server 101 refers to the utilization purpose 501 for each data preparation content proposal that is a source of aggregation for each data preparation content category.
  • Step 902 If the utilization purpose 501 includes application logic information, the data utilization base server 101 extracts and lists the application logic information.
  • Step 903 If the utilization purpose 501 includes KPI information, the data utilization base server 101 extracts the KPI information and lists it.
  • Step 904 The data utilization platform server 101 extracts the difficulty level in each case of the data preparation content proposal that is the basis of aggregation for each data preparation content category, and adds up.
  • Step 905 The data utilization platform server 101 determines whether or not all data preparation content proposals that are the basis of aggregation for each data preparation content category have been completed. If not, the process returns to step 901. Steps 901 to 904 are repeated. If it is determined in step 905 that all data preparation content proposals that are the basis of aggregation are completed for each data preparation content category, the process proceeds to step 906.
  • Step 906 The data utilization infrastructure server 101 calculates the average difficulty level from the sum of the difficulty levels at step 904.
  • Step 907 The data utilization infrastructure server 101 calculates the total number of proposals that are the basis of aggregation for each data preparation content category.
  • Step 908 The data utilization infrastructure server 101 calculates the importance level based on the average difficulty level and the total number calculated in steps 906 and 907.
  • the importance is calculated by the following equation, for example.
  • (Importance) w 1 ⁇ (average difficulty) + w 2 ⁇ (total): w 1 and w 2 are weights.
  • the average difficulty is larger than the above formula, and the greater the total number, the greater the importance. Also, the lower the average difficulty level and the smaller the total number, the lower the importance.
  • FIG. 10 is a flowchart showing a flow of processing for creating a list of processing programs and data definitions corresponding to the data preparation content item as a result of registration of the data preparation content item by the user.
  • Step 1001 The data utilization infrastructure server 101 detects registration of the processing program created by the user and the data definition in the data utilization infrastructure server 101.
  • Step 1002 The data utilization base server 101 searches the data preparation content category corresponding to the processing program and data definition registered in step 1001.
  • Step 1003 The data utilization platform server 101 refers to the importance of the corresponding data preparation content category and calculates the usefulness of the processing program and data definition.
  • Step 1004 The data utilization infrastructure server 101 waits until a new data preparation content proposal is generated. In step 1004, if a new data preparation content proposal occurs (YES), the process proceeds to step 1005. If not (NO), the process continues until it occurs.
  • Step 1005 The data utilization base server 101 updates the usefulness from the number of proposals. Then, the process returns to step 1004.
  • FIG. 11 is a diagram showing an example of a screen image showing the content of information provided to the user using the user terminals 103 to 105 to which the present invention is applied.
  • the screen 1101 shows, for example, the target data 1111 and the table format 1112 in the data preparation content proposed for the utilization purpose 501 registered by the user.
  • classification table formation, data combination / extraction, data structuring, data processing
  • work items nocessity, work content
  • processing programs binary conversion processing program 1, model conversion program 2
  • difficulty number of values
  • the screen 1102 has, for example, a data preparation content category (target data, table formation, data combination / extraction, data structuring, data processing) as a data preparation content category based on a result totaling result of data preparation content proposal in a table format 1121.
  • a data preparation content category target data, table formation, data combination / extraction, data structuring, data processing
  • Related utilization purposes user type, application logic, KPI
  • average difficulty number of times
  • total number number
  • importance number
  • the screen 1103 displays a list of classification, processing program, data definition, related data preparation content, and usefulness as a useful data preparation content item list in a table format 1131, for example. If there is no relevant information, it is displayed including blank spaces.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データ蓄積及びデータ準備、データ利活用に係る機能を提供するシステムにて、複数の業務システムからの多種多様データを用いての様々な目的でのデータ利活用を容易に行えるように、データ利活用を行うユーザ向けに、利活用の目的に対して、適切なデータ準備内容の提案を行い、前記システム向けに、様々なユーザの様々な目的に対して準備しておくべき、重要度の高いデータ準備内容を備えさせるために、(1)ユーザが指定する利活用目的とシステムにて用意するデータ情報との照合を行い、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出し提示する。(2)前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリの重要度を算出し提示する。(3)前記データ準備内容カテゴリに対して、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成し、各項目の有用度を算出し提示する。

Description

データ利活用に係るデータ準備方法及びデータ利活用システム
 本発明は、データ利活用に係るデータ準備方法及びデータ利活用システムに関する。
 更に詳しくは、例えば、複数の業務システムからのデータを対象とした様々な目的・用途で利活用するデータを準備及び管理するデータ利活用に係るデータ準備方法及び利活用システムに関する。
 データ分析システムとして、特開2010-277534号公報(特許文献1)に記載された技術が提案されている。この公報には、「分析者にとって有益な知識の発見のために、データ分析を行なうとともに、データ分析に必要なデータの収集とデータの前処理とを行なうデータ分析システムにおいて、該データの収集と該データの前処理を行なうデータ収集装置と、該データ収集装置で前処理された該データを送信するデータ送信部とを備えたデータ収集側の装置と、該データ送信部から送信された該前処理されたデータを受信するデータ受信部と、該データ受信部で受信された該前処理されたデータをデータ分析するデータ分析装置とを備えたデータ分析側の装置とで構成されたことを特徴とするデータ分析システム」との記載がある。
 また、データ処理システムとして、特開2016-181150号公報に記載された技術が提案されている。この公報には、「入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、 前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の1つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから1つの集計データを選択し、さらに当該1つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム」との記載がある。
特開2010-277534号公報 特開2016-181150号公報
 複数の業務システムから収集したデータを蓄積・管理し、分析したデータを利活用する
アプリケーションに対して提供する場合、例えば、交通、電力、産業、その他分野の業務における様々な問題を解決するためには、部署や業務を跨いで横断的に業務データを大量に収集し、それらの分析実施が求められる。しかし、現状、大量の業務データの理解が必要であることや業務知識に基づく属人性が高いこと、等が分析実施の妨げとなっている。
 そこで、業務データの分析・加工の知識や業務知識が十分に無い人でも、迅速かつ容易に分析でき、かつ、各種の業務データに対する分析処理の作成及び実施に係る負荷を低減することが求められる。
 特許文献1に開示された発明は、分析目的に該当する分析処理と前処理とのプログラム対応表を事前に作成し、該プログラム対応表を参照し、分析目的に該当する前処理プログラムをデータ収集装置に配布し、個々の生データ向けに目的に合致した前処理を実施するものであり、当該技術では、事前に分析目的と対象生データを全て洗い出して、分析処理と前処理との対応表を作成することが必要であり、特定の種類のデータに対して、想定の範囲内の目的のみへの活用となる。つまり、複数のシステムからの多種多様なデータを対象とすると、前処理や分析との対応表の作成に負荷が増大する課題がある。
 また、特許文献2に開示された発明は、入力された全データを結合して結合データを生成し、また、様々な項目にて集計データを生成し、こられの結合データ及び集計データから必要なデータを抽出し、目的に応じた分析データを作成するものであり、当該技術では、活用可能なのは統合データの作成可能なデータに限られる。複数の業務システムからの多種多様なデータに対しては一様に統合データを作成できるとは限らない。また、統合データ、集計データから目的に合った分析データを作成するためには、元のデータを全て理解していることが必要となる。つまり、複数のシステムからの多種多様なデータに対して一様に統合データを作成することがでるとは限らない課題がある。
 以上のように、従来として、業務上の課題解決や異常原因究明等の目的でデータ利活用を促進するために、業務システムからのデータの蓄積及びデータ準備、データ利活用に係る機能等を提供するデータ利活用システムが導入されているが、ユーザの多種多様な利活用の目的に応えるためには、上述した特許文献1または特許文献2に開示された技術のように、事前に想定された限られた範囲内だけでの有効活用可能な機能の提供となるか、汎用的に使える標準的な機能の提供のみに限られる。このため、多種多様な利活用の目的を達成するためには、データ準備、データ利活用に係る作業においてユーザ自身による負担が大きくなり得る等の課題があった。
 そこで、本発明では、上述した課題に鑑み、データ蓄積及びデータ準備、データ利活用に係る機能を提供するシステムにおいて、複数の業務システムからの多種多様な利活用目的でのデータ利活用を容易に行える技術を目的とする。
 例えば、業務課題解決や異常原因究明、等に対して、データ分析やその課題解決立案、課題解決のための業務アプリケーションの作成、等に対応することができ、多種多様なデータを用いて、様々な目的でのデータ利活用を行うユーザに対して、適切な重要度の高いデータ準備内容(データ準備項目)を容易に提案することができる技術を目的とする。
 具体的には、例えば、データを利活用するユーザ(分析者や開発者)向けに対して、利活用の目的に対する適切なデータ準備内容(テーブル化、テーブル結合・データ抽出、データ構造化、データ加工の作業項目:データ準備項目)を提案し、本システムを管理するユーザ(管理者)向けに対して、様々なユーザの様々な目的に対するデータ準備内容(準備しておくべき、重要度の高いデータ準備内容)を提示する、データ利活用に係るデータ準備方法及びデータ利活用システムを提供することを目的とする。
 上記課題を解決するため、本発明の代表的なデータ利活用に係るデータ準備方法及びシステムの一つは、データを利活用するユーザが指定する利活用目的とデータ準備、データ利活用機能を有するシステムにて用意するデータ準備内容項目を含む情報とを照合し、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出して、データを利活用するユーザに提示する機能と、前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したカテゴリの重要度を算出して、前記システムを管理するユーザに提示する機能と、前記データ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出して、データを利活用するユーザに対して提示する機能と、を含む。
 本発明によれば、複数の業務システムからの多種多様なデータを用いた、分析をはじめとするデータ利活用の実施に要するコストを低減することができる。特に、複数のユーザ向けへのデータ利活用システムを構築する場合に、データ利活用のためのデータ準備に係るより有用な機能・サービスの提供に寄与できる。
 上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明のデータ利活用に係るデータ準備方法を適用したシステムの構成を示すブロック図。 本発明によるデータ利活用に係るデータ準備方法を実施する場合におけるユースケースを示す図。 本発明によるデータ利活用に係るデータ準備の前提を説明する図。 本発明におけるデータ利活用基盤サーバのモジュール構成を示す図。 本発明によるデータ利活用に係るデータ準備方法にて、ユーザが作成する利活用目的、データ利活用基盤サーバにて用意するデータ情報の構成を示す図であって、利活用目的の一例を示す図。 データカタログの一例を示す図。 処理プログラムリストの一例を示す図。 データ関係情報の一例を示す図。 本発明におけるデータ利活用基盤サーバにて管理する、データ利活用に係るデータ準備方法を実施するために使用するテーブルの構成を示す図であって、データ準備内容提案管理テーブルのデータ構成を示す図。 データ準備内容カテゴリ管理テーブルのデータ構成を示す図。 有用データ準備内容項目管理テーブルのデータ構成を示す図。 本発明におけるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにて、ユーザが作成する利活用目的とシステムにて用意するデータ情報との照合を行い、実施すべきデータ準備内容及び難易度を算出するための処理の流れを示すフローチャート。 本発明におけるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにて、データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化するための処理の流れを示すフローチャート。 本発明におけるデータ準備内容のカテゴリに対して重要度を算出するための処理の流れを示すフローチャート。 本発明におけるユーザによるデータ準備内容項目の登録の結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成するための処理の流れを示すフローチャート。 本発明の適用先であるユーザ端末を用いるユーザに対して提供する画面のイメージを示す図。
 以下、本発明の実施形態について図面を用いて説明する。
 図1は、本発明のデータ利活用に係るデータ準備方法を適用したシステムの構成を示すブロック図である。
 データ利活用に係るデータ準備方法を適用したシステムは、データ利活用システムを構築するデータ利活用基盤サーバ101、管理者端末102、複数のユーザ端末103~105、複数の業務システム105~107を備えている。本例では、ユーザ端末、業務システムがそれぞれ3つの場合を示しているが、その数に制限はない。
 データ利活用基盤サーバ101は、ネットワーク108を介して管理者端末102と複数のユーザ端末103~104に接続され、また、ネットワーク109を介して複数の業務システム106~108に相互接続されている。
 本例では、業務システム106~108からデータ利活用基盤サーバ101へ利活用の対象となる業務データ(生データ)を、ネットワーク109を介して収集しているが、ネットワーク109を介さず、例えば、業務データ(生データ)を人手にてデータ利活用基盤サーバ101へ直接入力するようにしてもよい。
 また、ユーザとは、現場データの知識に乏しく、ITリテラシーの高い分析者、開発者やシステム管理者、等を想定する。
 分析者とは、部署横断で様々なデータに対して、様々な分析手法や分析ツールを用いて、問題発見、解決策立案、等を行う者である。
 開発者とは、分析業務に必要な分析アプリケーションを開発する者である。システム管理者とは、データ利活用システムを管理、運用し、業務システムからの生データの蓄積・加工等の処理ロジックプログラムの登録、管理を行う者である。
 そして、データ利活用基盤サーバ101は、業務データ(生データ)であって、利活用の対象となるデータを蓄積し、利活用に向けた該データに対する準備処理の実行、データ準備及び利活用に係るデータ関係定義のためのデータ関係情報、処理プログラム等の管理及びデータ利活用を行うユーザ(分析者や開発者)と当該データ利活用システム(本システム)におけるデータ利活用基盤サーバ101を管理するユーザ(システム管理者)へのデータ準備内容や類似カテゴリ、重要度、有用度、等に関する提案を行う機能を有する。
 利活用に向けた該データに対する準備処理の実行とは、例えば、少なくとも、要求データ項目、入力データ構造を含む利活用目的とデータカタログ、データ関係情報、を含む本システムにて用意するデータ情報とを照合し、それらのギャップ評価を行い、生データより対象データ(データ/ファイル/システム)を選出し、対象データの実施すべきデータ準備(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)のデータ準備内容項目(作業項目)及び難易度を算出し、データ準備の提案(アウトプット)を行うことである。
 ここで、難易度とは、ユーザにとって作業に要する負荷の大きさである。難易度が低い場合は、処理プログラムの再利用等により、作業負荷が小さいことが見込まれる。
 つまり、データ利活用基盤サーバ101は、データを利活用するユーザが指定する利活用目的と本システムにて用意するデータ準備内容項目を含むデータ情報とを照合する機能、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出して、利活用するユーザに提示する機能、利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化する機能、該カテゴリ化したカテゴリの重要度を算出して、本システムを管理するユーザに提示する機能、データ準備内容のカテゴリに対して、データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、データ準備内容項目の有用度を算出して、利活用するユーザに対して提示する機能、を有する。
 データ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、カテゴリの重要度を算出して、提示するとは、例えば、データ準備の提案実績及び/又は実施結果を集計して、データ準備内容の重要度(優先的に処理ロジックプログラムを用意しておくべき項目)をユーザに提示することである。
 更に詳しくは、(1)上述した利活用目的に対するデータ準備内容をユーザに提案する際にデータ準備内容の難易度を算出し、(2)難易度の算出結果をデータ準備提案実績として記録し、当該データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化、関連する利活用目的をリストアップし、また、(3)データ準備内容のグループ毎に平均難易度や総数、それらを基に重要度(利活用に必要とされる度合い)を算出し、データ準備内容、利活用目的(候補)、平均難易度、総数、重要度、等を含む表(図11参照)を作成することである。表は利活用目的に対する提案が実施される度に更新される。
 管理者端末102は、データ利活用システム及びデータ利活用システムにおけるデータ利活用基盤サーバ101を管理する管理者のユーザが使用するための端末である。
 ユーザ端末103~105は、ユーザが利活用目的を示す情報(図5(A)の501参照)の登録、データ準備内容の確認及びデータ準備に係る作業を実施する分析者や開発者のユーザ(データを利活用するユーザ)が使用する端末である。
 業務システム106~108は、利活用の対象となるデータの提供元であり、分析による問題解決の対象となる業務システムである。
 データ利活用基盤サーバ101の主なハードウェア構成は、記憶装置(メモリ、ハードディスク)111、処理装置(CPU)112、通信装置113からなる。
 管理者端末102及びユーザ端末103~105もデータ利活用基盤サーバ101と同様に、主なハードウェア構成は、記憶装置(メモリ、ハードディスク)121、131、処理装置(CPU)122、132、通信装置123、133からなる。
 図2は、本発明によるデータ利活用に係るデータ準備方法を実施する場合におけるユースケースを示す図であって、データ利活用基盤サーバ101、業務システム106、管理者端末102側のシステム管理者201、ユーザ端末103~105側の分析者202~204との間における処理手順を説明する図である。
 以下、図2においては、分析者202~204を分析者A~Cと称して説明する。
 図2のシーケンスに基づく動作は以下のとおりである。
 業務システム106は、業務データをデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ211)。
 データ利活用基盤サーバ101は、処理装置112にて、業務システム106からの業務データを受け、当該業務システムの業務データに関するデータカタログを作成する(ステップ221)。
 データカタログは、システム、つまり、データ項目(リスト)を含むファイルを備えたシステムを記述したものであり、詳しくは、例えば、図5(B)に示すとおりであり、後述する。
 分析者Aは、ユーザ端末103を用いて、実施する分析等のデータ利活用に関して、利活用目的を本システム側のデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ241)。
 利活用目的は、要求データ項目、入力データ構造、を含み、詳しくは、例えば、図5(A)に示すとおりであり、後述する。
 データ利活用基盤サーバ101は、処理装置112にて、データ準備処理を実行し、その結果を、通信装置113を介して、分析者Aに提案する。つまり、分析者Aにて登録された利活用目的に対するデータ準備内容のデータ準備内容項目を分析者Aに提案する(ステップ222)。
 分析者Aは、データ利活用基盤サーバ101から提案されたデータ準備内容項目を参照して、利活用目的にあったデータ利活用処理を実施するための前処理としてデータ準備作業を実施する(ステップ242)。前処理のデータ準備作業については、図3を参照して後述する。
 また、分析者Aは、データ準備作業を実施し(ステップ242)、その結果を活用してデータ利活用処理を実施する(ステップ243)。
 ここで、データ準備作業実施(ステップ242)及び利活用実施(243)は、データ利
活用基盤サーバ101に提供する機能等を活用して実施することもできる。
 データ利活用基盤サーバ101では、処理装置112にて、利活用目的に対するデータ準備内容項目提案(ステップ222)の実績を集計し、データ準備内容項目のカテゴリ化と重要度算出を行う(ステップ223)。
 次いで、データ利活用基盤サーバ101は、通信装置113を介して、データ準備内容項目のカテゴリ及び重要度を、システム管理者201及び他の分析者B に対して提示する(ステップ224)。
 これにより、システム管理者201及び分析者Bは、管理者端末102及びユーザ端末104を用いて、データ利活用基盤サーバ101からのデータ準備内容のカテゴリ・重要度を閲覧することができる(ステップ231、251)。
 このとき、システム管理者201及び分析者Bは、データ準備内容項目のカテゴリに該当する関連の処理プログラム、データ関係情報、等があれば、本システム側のデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ232、252)。処理プログラム、データ関係情報については図5(C)、図5(D)を参照して後述する。
 これはデータ利活用基盤サーバ101が提供するデータ利活用のための機能・サービスを拡充するために実施するためである。
 次に、データ利活用基盤サーバ101は、システム管理者201、分析者Bからの処理プログラム、データ関係情報、等の登録を受けると、これらを他のユーザ(分析者C)にも利用可能となるように公開する(ステップ225)。
 分析者Cは、分析者Aと同様に、ユーザ端末105を用いて、実施する分析等のデータ利活用に関して、利活用目的をデータ利活用基盤サーバ101の記憶装置111に登録する(ステップ261)。
 また、データ利活用基盤サーバ101は、通信装置113を介して、分析者Cに対して、利活用目的に対するデータ準備内容項目の提案を行う(ステップ226)。
 このとき、システム側に登録された処理プログラム、データ関係情報等を用いることで、より精度の高い提案を実施することができる。
 分析者Cは、ステップ225にて、データ利活用基盤サーバ101から提案された関連の処理プログラム、データ関係情報(テータ関係定義)等の登録を反映した後のデータ準備内容項目提案を参照して、利活用目的にあったデータ利活用処理を実施するための前処理としてのデータ準備作業を実施する(ステップ262)。
 また、分析者Cは、データ準備作業実施(ステップ262)の結果を活用してデータ利活用処理を実施する(ステップ263)。
 図3は、本発明によるデータ利活用に係るデータ準備の前提を説明する図である。
 業務システム106から収集した業務データ(生データ)には、分析ツール等で良く用いられるCSV(Comma Separated Values)等の表形式データだけでなく、BIN(バイナリ)、TXT(テキスト)、IMG(イメージ)、PDF(Portable Document Format)、等の様々な形式のデータが含まれることが多い。
 故に、業務システム106からの業務データ(生データ)に対して、各種ツールの活用やアプリケーション開発・活用により分析等のデータ利活用を実施するためには、多くの場合、生データをそのまま活用できず、データ準備を実施する必要がある。
 そこで、データ準備として、データ利活用システムにおけるデータ利活用のために活用する分析ツール321にて、生データに対して、テーブル化301、データ結合・抽出302、データ構造化303、データ加工(クレンジング)304の各処理を順に実施する。そして、分析アプリケーション322、業務アプリケーション323にて利用可能なデータ構造・形式とする。
 すなわち、テーブル化301の処理としては、生データの個々のデータ内容を参照、扱いやすいように元のバイナリ形式データ等からCSV等のテーブル形式データの個別テーブル311へと変換する。
 データ結合・抽出302の処理としては、利活用のためにツール、アプリケーション等で活用するデータを抽出するために、生データから変換した個別テーブル31を幾つか結合して、該活用データが含められる結合テーブル312を作成する。
 データ構造化303の処理としては、結合テーブル312から、データ利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323が利用可能である構造化データ313へと変換する。
 本例では、目的に応じて各種分析ツールやアプリケーションで一般的に用いられる関係モデルテーブル形式、クロス集計等に用いられるピボットテーブル形式、また各アプリケーション向けの共通データモデル形式、等へと変換する。
 データ加工304の処理としては、構造化データ313から、データ利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323のアプリ個別入力データ構造314となるように、データ値の加工を行う。
 ここでは、例えば、単位変換や、誤差補正、名寄せ等のデータクレンジング処理を行う。
 以上のとおり、処理されたデータ準備は、データ準備テーブル(図4参照)に格納する。
 図4は、本発明におけるデータ利活用基盤サーバ101のモジュール構成を示す図である。
 データ利活用基盤サーバ101は、データ利活用ミドルウェア401から構成される。
 データ利活用ミドルウェア401は、業務システム106~108から提供され、利活用の対象となる生データを生データ記憶部411に蓄積し、利活用に向けたデータに対する準備処理を実行する機能、データ準備及び利活用に係るデータ関係情報、処理プログラム記憶部603の処理プログラム等の管理及びデータ利活用を行うユーザやシステム管理者へのデータ準備内容に関する提案等の処理を実行する機能を有する。
 データ利活用ミドルウェア401は、データ準備処理実行管理部421、利活用処理実行管理部422、データ管理部431、処理プログラム管理部432、ユーザ・業務管理部433、データ準備内容提案部434、データ準備内容提案集計部435、データ準備内容登録集計部436、クライアント向けI/F提供部437、データ通信部438、等を含む。
 また、業務システム106~108からの生データを記憶する生データ記憶部411、データ利活用システム側にて用意するデータカタログ502(図5(B)参照)を記憶するデータカタログ記憶部602、処理プログラムリスト503(図5(C)参照)を記憶する処理プログラム記憶部603、データ関係情報504(図5(D)参照)を記憶するデータ関係定義記憶部604、データ準備に関係するデータ(図6(A)~(C)参照)を記憶するデータ準備テーブル記憶部444、等を含む。
 生データとしては、業務システムからの業務システムデータの他にセンサデータ、オープンデータも含む。
 データ準備処理実行管理部421は、記憶装置111の生データ記憶部411に蓄積した生データ、処理プログラムリスト記憶部603に登録した処理プログラムリスト、等を用いて、データ利活用基盤サーバ101上でデータ準備処理の実行と管理を行う。
 すなわち、データ準備処理実行管理部421は、複数の業務システム106~108からの多種多様なデータを用いて様々な目的でのデータ利活用を可能とするデータ準備であって、
 データ利活用を行うユーザの利活用目的の要求データ項目や入力データ構造とデータ利活用システム側にて用意するデータ情報(例えば、生データのデータカタログ、データ関係情報、等)を照合し、
 実施すべきデータ準備内容(作業項目)及びその難易度を算出し、
 データ準備内容提案管理テーブル(図6(A)の6011参照)を管理する機能を有する。
 データ準備とは、対象業務・システムに関する知識が十分に無い者でも、迅速かつ容易にデータ利活用でき、例えば、データ利活用を行うユーザにおいて、各種ツール、アプリケーションでの利用(分析実施、業務アプリケーション作成等の様々な目的・用途によるデータ利活用を可能とするために必要なデータを準備することである。
 また、データ準備内容とは、例えば、生データのテーブル化、テーブル化した個別テーブルのためのデータ結合・抽出、構造化データのためのデータ構造化、アプリ個別入力構造化のためのデータ加工(クレンジング)、等である。
 テーブル化とは、例えば、バイナリ―CSV変換、CSVテーブル形式変換、等であり、データ結合・抽出とは、関係データ(線路マスタ等)、結合キー(キロ程、時刻、等)であり、データ構造化とは、関係モデルテーブル化、統合データモデル変換、等であり、データ加工とは、単位変換、名寄せ、等である。
 上述したデータ準備処理の手順については、図7を参照して後述する。
 利活用処理実行管理部422は、データ利活用基盤サーバ101上で利活用処理の実行と管理を行うものであって、データ準備の提案実績及びユーザによる実施結果を集計し、データ準備内容の重要度を算出する。重要度は、データ準備内容のカテゴリ毎に行う。
 すなわち、利活用処理実行管理部422は、データ準備処理実行管理部421にて算出したデータ準備内容の各項目での類似度を判定し、類似するデータ準備内容をカテゴリ化し、関連する利活用目的(候補)をリストアップし、
 データ準備内容のグループ毎の平均難易度や総数を基に重要度、つまり、利活用に必要とされる度合いを算出し、
 データ準備内容カテゴリテーブル(図6(B)の6021参照)を管理する機能を有する。
 利活用目的(候補)は、例えば、ユーザ種別(分析者、開発者、等)、アプリロジック(因果関係算出、線グラフ出力、等)である。総数は、データ準備内容提案集計部435やデータ準備内容登録集計部436にて求められたデータ準備内容のグループ毎の総数である。
 上述した重要度を算出する利活用処理の手順については、図8~図9を参照して後述する。
 また、利活用処理実行管理部422は、ユーザによりデータ準備内容項目を登録した結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成し、データ定義の有用度を算出する機能を有する。
 すなわち、ユーザにより処理プログラム、データ定義に該当するデータ準備内容を検索し、データ準備内容カテゴリの重要度を参照し、処理プログラム、データ定義の有用度を算出し、また、有用度を更新し、有用データ準備内容提案管理テーブル(図6(C)の6031参照)を管理する機能を有する。
 上述した有用度算出する利活用処理の手順については、図10を参照して後述する。
 データ管理部431は、生データ及びデータカタログ、データ関係情報を生データ記憶部411及びデータカタログ記憶部602、データ関係定義記憶部604に格納する管理を行う。
 処理プログラム管理部432は、処理プログラム記憶部603の処理プログラムリストを管理し、ユーザによる処理プログラム、データ関係定義等の登録を受け付ける。
 ユーザ・業務管理部433は、本データ利活用ミドルウェア401にアクセスして利活用を行うユーザ(システム管理者や分析者、開発者)及び業務を管理する。
 データ準備内容提案部434は、ユーザの利活用目的に対して、データカタログ、データ関係情報、処理プログラムリスト及びデータ準備テーブルを参照してデータ準備内容(データ準備内容項目)の提案処理を行う。
 すなわち、データ準備内容提案部434は、データ準備処理実行管理部421や利活用処理実行管理部422で求めたデータ準備内容や重要度、有用度等をユーザに提案するものであって、例えば、データ利活用を行う分析者や開発者に対して、データ準備の作業項目、方法等を提案し、システム管理者に対して、様々なユーザの様々な目的に対して準備しておくべきデータ準備の重要度、必然性の高い準備内容の組合せを提案する機能を有する。
 データ準備内容提案集計部435は、データ準備テーブルを参照して、データ準備内容提案実績の集計及びデータ準備内容のカテゴリ化を行う。
 データ準備内容登録集計部436は、データ準備内容のカテゴリに対するユーザによる処理プログラム、データ関係定義等の登録を集計する。
 クライアント向けI/F提供部437は、データ準備内容登録集計部436、管理者端末102、ユーザ端末103~105に対して本データ利活用ミドルウェア401が提供する機能のインタフェースを提供する。
 データ通信部438は、ネットワーク109、109’を介して管理者端末102、ユーザ端末103~105や業務システム106~108との間でデータ準備内容項目提案等のデータ通信を行う。
 図5は、本発明によるデータ利活用に係るデータ準備方法にて、ユーザが作成する利活用目的501、データ利活用システムにおけるデータ利活用基盤サーバ101にて用意するデータカタログ502、処理プログラムリスト503及びデータ関係情報504、の構成を示す図であって、図5(A)は、利活用目的501の一例を示す図、図5(B)は、データカタログ502の一例を示す図、図5(C)は、処理プログラムリスト503の一例を示す図、図5(D)は、データ関係情報504の一例を示す図である。
 データカタログ502、データ関係情報504、処理プログラムリスト503は、図4に示す各データカタログ記憶部602、データ関係定義記憶部604、処理プログラム記憶部603に格納される。
 ここで、利活用目的501及びデータカタログ502は、本発明によるデータ利活用に係るデータ準備方法を実施する上で必須である。
 一方、処理プログラムリスト503及びデータ関係情報504は、任意とする。
 すなわち、処理プログラムリスト503及びデータ関係情報504は、なくても、本発明によるデータ利活用に係るデータ準備方法は実施可能であるが、あれば、本発明によるデータ利活用に係るデータ準備方法におけるデータ準備内容提案等の精度がより向上する。
 利活用目的501は、ユーザが業務システム106からのデータを用いてデータ利活用を実施する際の目的に関する情報を記述するものであり、ユーザが実施するデータ利活用毎に作成する。
 利活用目的501は、例えば、「要求データ項目」、「入力データ構造」、「アプリロジック」、「KPI」である。「要求データ項目」、「入力データ構造」は、必須であり、「アプリロジック」、「KPI」は、任意である。
 「要求データ項目」は、本利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323にて要求するデータの種別・項目、データ範囲(時刻、等)を示す。
 「入力データ構造」は、本利活用のために活用する分析ツール321、分析アプリケーション322、業務アプリケーション323にて要求する入力データの構造を示す。例えば、関係モデルテーブル(CSV)、ピボットテーブル、各種の共通データモデル等のいずれかを指定する。
 「アプリロジック」は、本利活用のために活用する分析アプリケーション322、業務アプリケーション323にて用いる分析等のロジックの種別、業務種別等を指定するものである。
 「KPI」は、本利活用の目的として達成したいKPIを指定するものである。
 データカタログ 502は、業務システム106からの生データに関する情報を記述するものであり、データ毎に提供元のシステム、ファイル構成が含まれるデータ項目リスト、作成時刻、ファイル形式、等の情報(カタログ情報)を含む。
 データカタログ502は、データ利活用基盤サーバ101にて業務システム106からのデータが登録される度に作成、更新される。
 処理プログラムリスト503は、データ利活用基盤サーバ101にて管理する、データ準備の各処理(図3のステップ301~304)のために利用可能な処理プログラムのリストである。
 データ利活用基盤サーバ101に当該プログラムが存在する場合に記載する。
 データ関係情報504は、業務システム106からのデータに関して、仕様書的データ項目関係の組合せ、業務的データ項目関係の組合せ、業務的レコード関係の組合せ、業務ノウハウ的関係の組合せ等を記述するものである。データ関係情報504は、作成する負荷は大きいが、該情報があればデータ準備内容提案の精度がより向上する。
 図6は、本発明におけるデータ利活用基盤サーバ101の記憶装置111にて管理する、データ利活用に係るデータ準備方法を実施するために使用するテーブルのデータ構成を示す図であって、図6(A)は、データ準備内容提案管理テーブル601のデータ構成、図6(B)は、データ準備内容カテゴリ管理テーブル602のデータ構成、図6(C)は、有用データ準備内容項目管理テーブル603のデータ構成を示すテーブル図である。
 データ準備内容提案管理テーブル6011は、ユーザが指定する利活用目的に対するデータ準備内容提案に関する情報を格納する。主には、識別情報611、対象データ612、テーブル化613、データ結合・抽出614、データ構造化615、データ加工616、難易度617、ユーザ種別618、アプリロジック619、KPI610、更新日時641、等の情報を示す各項目を含む。
 識別情報611は、データ準備内容提案を識別するための情報である。対象データ612は、識別情報611により特定されるデータ準備内容提案における対象データ612に関する情報である。
 テーブル化613は、識別情報611により特定されるデータ準備内容提案におけるテーブル化に関する情報である。
 データ結合・抽出614は、識別情報611により特定されるデータ準備内容提案におけるデータ結合・抽出に関する情報である。
 データ構造化615は、識別情報611により特定されるデータ準備内容提案におけるデータ構造化に関する情報である。
 データ加工616は、識別情報611により特定されるデータ準備内容提案におけるデータ加工に関する情報である。
 難易度617は、識別情報611により特定されるデータ準備内容提案における難易度に関する情報である。
 ユーザ種別618は、識別情報611により特定されるデータ準備内容提案の対象であるユーザの種別に関する情報である。
 アプリロジック619は、識別情報611により特定されるデータ準備内容提案の対象であるユーザの利活用目的からアプリロジックに関する情報であって、利活用目的にアプリロジックに関する情報が含まれていない場合は、本項目は空となる。
 KPI610は、識別情報611により特定されるデータ準備内容提案の対象であるユーザの利活用目的からKPIに関する情報であって、利活用目的にKPIに関する情報が含まれていない場合は、本項目は空となる。更新日時641は、レコードが最後に更新された日時である。
 データ準備内容カテゴリ管理テーブル6021は、データ準備内容カテゴリに関する情報を格納する。主には、識別情報621、対象データ622、テーブル化623、データ結合・抽出624、データ構造化625、データ加工626、ユーザ種別627、アプリロジック628、KPI629、平均難易度620、総数642、重要度643、更新日時644、等を示す各情報を示す各項目を含む。
 識別情報621は、データ準備内容カテゴリを識別するための情報である。
 対象データ622は、識別情報621により特定されるデータ準備内容カテゴリにおける対象データに関する情報である。
 テーブル化623は、識別情報621により特定されるデータ準備内容カテゴリにおけるテーブル化に関する情報である。
 データ結合・抽出624は、識別情報621により特定されるデータ準備内容カテゴリにおけるデータ結合・抽出に関する情報である。
 データ構造化625は、識別情報621により特定されるデータ準備内容カテゴリにおけるデータ構造化に関する情報である。
 データ加工626は、識別情報621により特定されるデータ準備内容カテゴリにおけるデータ加工に関する情報である。
 ユーザ種別627は、識別情報621により特定されるデータ準備内容カテゴリにおけるユーザ種別に関する情報である。
 アプリロジック628は、識別情報621により特定されるデータ準備内容カテゴリの基となるデータ準備内容提案に関連する利活用目的から抽出したアプリロジックに関する情報である。データ準備内容カテゴリに関連するアプリロジックは複数あり得て、複数のレコードが格納され得る。
 KPI629は、識別情報621により特定されるデータ準備内容カテゴリの基となるデータ準備内容提案に関連する利活用目的から抽出したKPIに関する情報である。データ準備内容カテゴリに関連するKPIは複数あり得て、複数のレコードが格納され得る。
 平均難易度620は、識別情報621により特定されるデータ準備内容カテゴリにおける平均難易度に関する情報である。
 総数642は、識別情報621により特定されるデータ準備内容カテゴリにおける総数に関する情報である。
 重要度643は、識別情報621により特定されるデータ準備内容カテゴリにおける重要度に関する情報である。
 更新日時644は、各レコードが最後に更新された日時である。
 有用データ準備内容項目管理テーブル6031は、データ準備内容カテゴリに対する有用なデータ準備内容項目に関する情報を格納する。主には、識別情報631、処理プログラム/データ定義識別情報632、分類633、関連データ準備内容634、有用度635、更新日時636、等の各情報を示す各項目を含む。
 識別情報631は、データ準備内容項目を識別するための情報である。処理プログラム/データ定義識別情報632は、識別情報631により特定されるデータ準備内容項目における処理プログラムまたはデータ定義を識別する情報である。分類633は、識別情報631により特定されるデータ準備内容項目における分類に関する情報である。
 本例では、分類633に、「テーブル化」、「データ結合・抽出」、「データ構造化」、「データ加工」のいずれかが格納される。関連データ準備内容634は、識別情報631により特定されるデータ準備内容項目に関連するデータ準備内容提案を識別する情報である。有用度635は、識別情報631により特定されるデータ準備内容項目の有用度に関する情報である。更新日時636には、各レコードが最後に更新された日時である。
 図7は、本発明によるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにおけるデータ利活用基盤サーバ101(処理装置112)にて、ユーザが作成する利活用目的501と本システムにて用意するデータ情報(含データカタログ502)との照合を行い、実施すべきデータ準備の作業項目及び難易度を算出するための処理の流れを示すフローチャートである。
 図7のフローチャートに基づく動作は以下のとおりである。
 ステップ701:
 データ利活用基盤サーバ101は、ユーザが作成した利活用目的501の要求データ項目とデータ利活用基盤サーバ101にて用意したデータカタログ502のファイルのデータ項目との照合を行う。要求データ項目は、本例では、図5(A)に示すように要求するデータの種別・項目、範囲(時刻、等)である。
 ステップ702:
 データ利活用基盤サーバ101は、ステップ701の照合結果より、業務システムにおける生データより対象となる対象データ(データ/ファイル/システムで指定)を選出する。対象データは、本例では、レール摩耗度、通トン、遅延時分、駅到着時刻、駅出発時刻、気温、等である。
 ステップ703:
 データ利活用基盤サーバ101は、ステップ701、702の結果より対象データ選出に関してデータ準備内容項目の難易度を判定する。つまり、ユーザが要求するデータの種別・項目・範囲に対するデータ準備内容項目(図6(A)の対象データ612)の難易度を判定する。
 難易度は、本例では、要求データ項目に該当するデータとして抽出できたデータの数が多ければ難易度は高く、少なければ難易度は低いとする。
 ステップ704:
 データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502における該当データのファイル形式とを照合する。入力データ構造とは、本例では、図5(A)に示すように関係モデルテーブル(CSV)、ピボットテーブル、各種共通データモデル、等である。
 ステップ705:
 データ利活用基盤サーバ101は、ステップ704の結果、テーブル化処理が必要と判定した場合(YES)は、次のステップ706に進み、不要と判定した場合(NO)は、ステップ707に進む。
 ステップ706:
 データ利活用基盤サーバ101は、データ準備内容項目のテーブル化処理内容を抽出する。また、該テーブル化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。処理プログラム候補とは、例えば、バイナリ変換プログラム、モデル変換プログラム、等である。
 ステップ707:
 データ利活用基盤サーバ101は、ステップ704~706の結果よりテーブル化に関してデータ準備内容項目(図6(A)のテーブル化613)の難易度を判定する。
 本例では、テーブル化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、テーブル化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
 ステップ708:
 データ利活用基盤サーバ101は、利活用目的501の要求データ項目とデータカタログ502の該当データのファイル・ファイル数とを照合し、またデータ関係情報504があれば参照する。
 ステップ709:
 データ利活用基盤サーバ101は、ステップ708の結果、データ結合処理が必要と判定した場合(YES)は、ステップ710に進み、不要と判定した場合(NO)は、ステップ712に進む。
 ステップ710:
 データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504のデータ結合に用いる結合キー候補(データ結合・抽出における軸指定/キロ程、時刻、等)を選出する。例えば、結合対象の複数のテーブルに共通してあるデータが結合キーとなり得る。
 ステップ711:
 データ利活用基盤サーバ101は、ステップ708の結果から、データ関係情報504を基に関連データ候補(データ結合・抽出におけるマスタ指定/線路マスタ、等)を選出する。例えば、各種コードのマスタデータ等が該当する。
 ステップ712:
 データ利活用基盤サーバ101の処理装置112は、ステップ708~711の結果よりデータ結合・抽出に関してデータ準備内容項目(図6(A)のデータ結合・抽出614)の難易度を判定する。
 難易度は、本例では、データ結合・抽出処理が必要であれば高く、必要でなければ低いとする。また選出した結合キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。さらに選出した関連キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。
 ステップ713:
 データ利活用基盤サーバ101は、利活用目的501の入力データ構造とデータカタログ502の該当データのファイル形式、また、ステップ708~711の結果として導出した結合テーブル構造とを照合する。
 ステップ714:
 データ利活用基盤サーバ101は、ステップ713の結果、データ構造化処理が必要と判定した場合(YES)は、ステップ715に進み、不要と判定した場合(NO)は、ステップ716に進む。
 ステップ715:
 データ利活用基盤サーバ101は、データ構造化処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
 ステップ716:
 データ利活用基盤サーバ101は、ステップ713~715の結果よりデータ構造化に関してデータ準備内容項目(図6(A)のデータ構造化615)の難易度を判定する。
 本例では、データ構造化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、データ構造化処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。
 ステップ717:
 データ利活用基盤サーバ101は、利活用目的501の要求データ項目、入力データ構造とデータカタログ502のデータ項目、ステップ713~715の結果として導出したデータ構造とを照合する。
 ステップ718:
 データ利活用基盤サーバ101は、ステップ717の結果、データ加工処理が必要と判定した場合(YES)は、ステップ719に進み、不要と判定した場合(NO)は、ステップ721に進む。
 ステップ719:
 データ利活用基盤サーバ101は、データ加工処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ101に登録されていれば処理プログラム候補リストを作成する。
 ステップ720:
 データ利活用基盤サーバ101は、ステップ717の結果から不足データ候補を選出する。
 不足データ候補とは、本例では、利活用目的501の要求データ項目には含まれるが、データカタログ502には該当するものが存在しないデータである。
 ステップ721:
 データ利活用基盤サーバ101は、ステップ717~720の結果よりデータ加工に関してデータ準備内容項目(データ加工616)の難易度を判定する。
 難易度は、本例では、データ加工処理が必要であれば高く、必要でなければ低いとする。また、データ加工処理に該当する処理プログラム候補がデータ利活用基盤サーバ101に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。さらに、選出した不足データ候補の数が多ければ難易度は高く、少なければ難易度は低いとする。
 ステップ722:
 データ利活用基盤サーバ101は、ステップ703、707、712、716、721の判定結果より、当該データ準備内容項目(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)の各難易度を統合判定する。
 図8は、本発明によるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにおけるデータ利活用基盤サーバ101にて、データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化するための処理の流れを示すフローチャートである。
 図8のフローチャートに基づく動作は以下のとおりである。
 ステップ801:
 データ利活用基盤サーバ101は、データ準備提案内容とデータ準備内容提案実績(グループ化済みのカテゴリ)との比較を行う。
 ステップ802:
 データ利活用基盤サーバ101は、ステップ801の結果、対象データ項目が閾値以上一致するか否かの判定を行う。
 ここで、対象データ項目が閾値以上一致する場合(YES)は、ステップ803に進み、一致しない場合(NO)は、ステップ812に進み、ステップ812において、当該カテゴリとは非類似と判定する。
 ステップ803:
 データ利活用基盤サーバ101は、テーブル化処理内容が閾値以上一致するか否かを判定する。
 ここで、テーブル化処理内容が閾値以上一致する場合(YES)は、ステップ804に進み、一致しない場合(NO)は、ステップ812に進み、ステップ812に進む。
 ステップ804:
 データ利活用基盤サーバ101は、データ結合・抽出処理内容が閾値以上一致するか否かを判定する。
 ここで、データ結合・抽出処理内容が閾値以上一致する場合(YES)はステップ805に進み、一致しない場合(NO)は、ステップ812に進む。
 ステップ805:
 データ利活用基盤サーバ101は、結合キー候補が閾値以上一致か否かを判定する。
 ここで、一致する場合は、ステップ806に進み、一致しない場合は、ステップ812に進む。
 ステップ806:
 データ利活用基盤サーバ101は、関連データ候補が閾値以上一致するか否かを判定する。
 ここで、一致する場合(YES)は、ステップ807に進み、一致しない場合(NO)は、ステップ812に進む。
 ステップ807:
 データ利活用基盤サーバ101は、データ構造化処理内容が閾値以上一致するか否かを判定する。
 ここで、一致する場合(YES)は、ステップ808に進み、一致しない場合(NO)は、ステップ812に進む。
 ステップ808:
 データ利活用基盤サーバ101は、データ構造化処理内容が閾値以上一致するか否かを判定する。
 ここで、一致する場合(YES)はステップ809に進み、一致しない場合(NO)は、ステップ812に進む。
 ステップ809:
 データ利活用基盤サーバ101は、不足データ候補が閾値以上一致するか否かを判定する。
 ここで、一致する場合(YES)は、ステップ801に戻り、一致しない場合(NO)は、ステップ812に進む。
 ステップ810:
 データ利活用基盤サーバ101は、ステップ802~809の各ステップにて、それぞれ一致と判定した場合は、当該カテゴリと類似と判定し、ステップ810に進む。
 ステップ811:
 データ利活用基盤サーバ101は、該カテゴリに加算する。すなわち、カテゴリ毎における関連利活用目的(ユーザ種別、アプリロジック、KPI)への追加及び該カテゴリの平均難易度、総数、重要度の更新を行う。
 カテゴリの難易度は、対象データの難易度、テーブル化の難易度、データ結合・抽出の難易度、データ構造化の難易度、データ加工の難易度、があり、これらは重み付けして算出する。重要度は、難易度:大、総数:多の場合は、重要度:大とし、難易度:小、総数:小の場合は、重要度:小とする。
 ステップ812:
 データ利活用基盤サーバ101は、ステップ802~809の各ステップにてそれぞれ不一致と判定した場合は、当該カテゴリとは非類似と判定し、ステップ803に進む。
 ステップ813:
 データ利活用基盤サーバ101は、全カテゴリとの比較を終了しているか否かを判定し、終了していない場合(NO)は、ステップ801~812の処理を繰り返す。全カテゴリとの比較を終了した場合(YES)、は、当該データ準備提案内容を新規のカテゴリとして登録する。
 なお、上述した各閾値は、予め設定した所定の閾値である。
 図9は、データ準備内容のカテゴリに対して重要度を算出するための処理の流れを示すフローチャートである。
 図9のフローチャートに基づく動作は以下のとおりである。
 ステップ901:
 データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件に対する利活用目的501を参照する。
 ステップ902:
 データ利活用基盤サーバ101は、利活用目的501にアプリロジック情報が含まれていれば、該アプリロジック情報を抽出し、リストアップする。
 ステップ903:
 データ利活用基盤サーバ101は、利活用目的501にKPI情報が含まれていれば、該KPI情報を抽出し、リストアップする。
 ステップ904:
 データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件における難易度を抽出し、合算する。
 ステップ905:
 データ利活用基盤サーバ101は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了しているか否かを判定し、終了していなければ、ステップ901に戻り、ステップ901~904の処理を繰り返す。
 ステップ905において、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了していれば、ステップ906に進む。
 ステップ906:
 データ利用基盤サーバ101は、ステップ904の難易度の合算結果から平均難易度を算出する。
 ステップ907:
 データ利活用基盤サーバ101は、データ準備内容カテゴリ毎の集計の元となる提案件数の総数を算出する。
 ステップ908:
 データ利活用基盤サーバ101は、ステップ906、907にて算出した平均難易度、総数より重要度を算出する。
 ここで、重要度は、例えば、以下のような式で算出する。
 (重要度) = w×(平均難易度)+ w×(総数) :w、wは重み
 上記式より平均難易度が大きく、総数が多いほど、重要度は大きくなる。また平均難易度が小さく、総数が少ないほど、重要度は小さくなる。
 図10は、ユーザによるデータ準備内容項目の登録の結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成するための処理の流れを示すフローチャートである。
 図10のフローチャートに基づく動作は以下のとおりである。
 ステップ1001:
 データ利活用基盤サーバ101は、ユーザ作成による処理プログラム、データ定義のデータ利活用基盤サーバ101への登録を検出する。
 ステップ1002:
 データ利活用基盤サーバ101は、ステップ1001にて登録された処理プログラム、データ定義に該当データ準備内容カテゴリを検索する。
 ステップ1003:
 データ利活用基盤サーバ101は、該当データ準備内容カテゴリの重要度を参照して、当該処理プログラム、データ定義の有用度を算出する。
 ここで、有用度は、例えば、以下のような式で算出する。
 (有用度) = w×(重要度)+ w×(提案実績数) :w、wは重み
 ステップ1004:
 データ利活用基盤サーバ101は、新たにデータ準備内容提案が発生するまで待機する。
 ステップ1004において、新たにデータ準備内容提案が発生した場合(YES)は、ステップ1005に進み、発生しない場合(NO)は、発生するまで継続する。
 ステップ1005:
 データ利活用基盤サーバ101は、当該提案実績数から有用度を更新する。そして、ステップ1004に戻る。
 図11は、本発明の適用先であるユーザ端末103~105を用いるユーザに対して提供する情報の内容を示す画面のイメージ例を示す図である。
 画面1101は、例えば、ユーザが登録する利活用目的501に対して提案するデータ準備内容における対象データ1111及び表形式1112を示す。
 表形式1112にて、例えば、ユーザの利活用目的501に対して提案するデータ準備内容における、分類(テーブル化、データ結合・抽出、データ構造化、データ加工)、作業項目(要否、作業内容案)、処理プログラム(バイナリ変換処理プログラム1、モデル変換プログラム2)、難易度(数値)を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。
 画面1102は、例えば、表形式1121にて、データ準備内容提案の実績集計結果によるデータ準備内容カテゴリとして、データ準備内容(対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工)、関連する利活用目的(ユーザ種別、アプリロジック、KPI)、平均難易度(数値)、総数(数値)、重要度(数値)を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。
 画面1103は、例えば、表形式1131にて、有用なデータ準備内容項目リストとして、分類、処理プログラム、データ定義、関連データ準備内容、有用度を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。
 以上述べた実施例によれば、部署・業務を跨いでの横断的なデータ利活用の促進、データ利活用・分析サービスに係る開発コストの低減が図れる。また、例えば、交通分野における様々な問題解決のために、部署・業務を跨いで横断的にデータを活用しての分析が求められる場合、多種多様の業務データの理解が十分でない者、つまり、対象業務システムに関する知識が十分に無い者でも、迅速、かつ、容易にデータ利活用することが可能となり、また、様々な目的・用途によるデータ利活用を行うためのデータ準備(データ抽出、テーブル・リスト構築、加工、等)に係る負担を軽減することが可能である。
101 データ利活用基盤サーバ、102 管理者端末、103~105 ユーザ端末、106~108 業務システム、109,109’ ネットワーク、111、121、131 記憶装置、112、122、132 処理装置、113、123、133 通信装置、401 データ利活用ミドルウェア、421 データ準備処理実行管理部、422 利活用処理実行管理部、431 データ管理部、432 処理プログラム管理部、433 ユーザ・業務管理部、434 データ準備内容提案部、435 データ準備内容提案集計部、436 データ準備内容登録集計部

Claims (15)

  1.  複数の業務システムから収集したデータを蓄積・管理し、該データの利活用のために、データ準備及びデータ利活用に係る機能を提供するデータ利活用システムにおけるデータ利活用に係るデータ準備方法において、
     ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を選出し、当該データ準備内容項目の難易度を算出し、前記ユーザに提示する第1ステップと、
     前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したデータ準備内容の重要度を算出し、前記ユーザ及び前記データ利活用システムの管理者に提示する第2ステップと、
     前記類似するデータ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出し、前記ユーザに提示する第3ステップ、と、
     を有することを特徴とするデータ利活用に係るデータ準備方法。
  2.  請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
     前記複数の業務システムからの生データを用いて前記利活用目的を実施するためのデータ準備として、前記業務システムからの前記生データに対して、テーブル化、データ結合・抽出、データ構造化、データ加工の処理を順に実施する
     ことを特徴とするデータ利活用に係るデータ準備方法。
  3.  請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
     前記ユーザが指定する利活用目的は、要求データ項目、入力データ構造、アプリロジック、KPIを含み、
     前記データ利活用システムにて用意するデータ情報は、前記業務システムからのデータに関するデータカタログ、データ関係情報、処理プログラムリストを含み、
     前記第1ステップは、
     前記利活用目的と前記データカタログを含むデータ情報とを照合する照合ステップ、
     前記データ準備内容項目を算出するに際して、
     前記業務システムのデータより対象データを選出する対象データ選出ステップ、
     前記対象データ選出ステップにて抽出した対象データのテーブル化処理の要否を判定するテーブル化処理要否判定ステップ、
     前記テーブル化処理要否判定ステップにてテーブル化処理を要と判定した場合、前記対象データのテーブル化処理内容を抽出するテーブル化処理内容ステップ、
     データ結合・抽出処理の要否を判定するデータ結合処理判定ステップ、
     前記データ結合処理判定ステップにてデータ結合処理を要と判定した場合、前記テーブル化処理内容に結合する結合キー候補を選出するステップ、
     前記データ関係情報を基に関連データ候補を選出する関連データ候補選出ステップ、
     データ構造化処理の要否を判定するデータ構造化処理要否ステップ、
     前記データ構造化処理の内容を抽出するデータ構造化処理内容抽出ステップ、
     データ加工処理の要否を判定するデータ加工処理要否判定ステップ、
     前記データ構造化処理要否ステップにてデータ加工処理を要と判定した場合、前記データ加工処理の内容を抽出するデータ加工処理内容抽出ステップ、
     不足データ候補を選出する不足データ候補選出ステップ、を含む
     ことを特徴とするデータ利活用に係るデータ準備方法。
  4.  請求項1または請求項3に記載されたデータ利活用に係るデータ準備方法おいて、
     ユーザが指定する前記利活用目的と前記データ利活用システムにて用意するデータ情報とを照合して前記データ準備内容項目を算出する際に、算出された準備内容項目毎に項目の実施のし易さとしての難易度を算出するステップ、
     前記データ準備内容項目の各項目の難易度を統合して、前記データ準備内容の難易度を算出するステップを含む、
     ことを特徴とするデータ利活用に係るデータ準備方法。
  5.  請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
     前記第1ステップにて、
     前記利活用目的に対するデータ準備内容の各項目提案内容とデータ準備内容提案実績から作成済みのカテゴリとを比較して、対象データ項目が閾値以上一致するか否か、テーブル化処理内容が閾値以上一致するか否か、データ結合・抽出処理内容が閾値以上一致するか否か、結合キー候補が閾値以上一致するか否か、関連データ候補が閾値以上一致するか否か、データ構造化処理内容が閾値以上一致するか否か、データ加工処理内容が閾値以上一致するか否か、不正データ候補が閾値以上一致するか否か、を順に判定し、
     当該データ準備内容が既存データ準備カテゴリに含まれるか、新規カテゴリとするかを判定する
     ことを特徴とするデータ利活用に係るデータ準備方法。
  6.  請求項1または請求項5に記載されたデータ利活用に係るデータ準備方法おいて、
     データ準備内容カテゴリの重要度を算出するために、データ準備内容カテゴリの項目毎に集計の元となるデータ準備内容提案の各件から難易度を抽出し、
     前記難易度を合算して平均難易度を算出し、
     前記データ準備内容カテゴリの項目毎の集計の元となる提案件数の総数を算出し、
     前記平均難易度と総数から当該データ準備内容カテゴリの重要度を算出する
     ことを特徴とするデータ利活用に係るデータ準備方法。
  7.  請求項1に記載されたデータ利活用に係るデータ準備方法おいて、
     前記データ準備内容のデータ準備内容カテゴリに対して、有用なデータ準備内容項目のリスト作成し、各項目の有用度を算出し提示するステップにて、ユーザが登録する処理プログラム、データ定義等のデータ準備内容項目に該当するデータ準備内容カテゴリを選出し、
     該データ準備内容カテゴリの重要度と提案実績数から当該データ準備内容項目の有用度を算出する
     ことを特徴とするデータ利活用に係るデータ準備方法。
  8.  請求項1、請求項3、請求項5、請求項7の何れか1つに記載されたデータ利活用に係るデータ準備方法おいて、
     ユーザによる利活用目的の登録に対する、データ準備内容として対象データ、作業項目等に関する情報、またデータ準備内容提案の集計結果によるデータ準備内容カテゴリに関する情報、さらにデータ準備内容項目リストに関する情報を、ユーザに提示するために出力するステップ、
     を有することを特徴とする、データ利活用に係るデータ準備方法。
  9.  複数の業務システムからより収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備のデータ準備項目内容をユーザに提供するデータ利活用システムにおけるデータ準備方法において、
     データ準備処理を実行するステップと、利活用処理を実行するステップ、を有し、
     前記データ準備処理を実行するステップは、
     ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、当該データ準備内容項目の難易度を算出し、
     前記利活用処理を実行するステップは、
     前記データ準備のデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、当該カテゴリ化したデータ準備内容カテゴリの重要度を算出し、
     前記データ準備内容及び前記重要度の前記ユーザへの提案を可能とする
     ことを特徴とするデータ利活用システムにおけるデータ準備方法。
  10.  請求項9に記載されたデータ利活用システムにおけるデータ準備方法において、
     前記利活用目的は、要求データ項目、入力データ構造、を含み、
     前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
     前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
     前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
     ことを特徴とするデータ利活用システムにおけるデータ準備方法。
  11.  請求項9に記載されたデータ利活用システムにおけるデータ準備方法おいて、
     前記データ準備処理を実行するステップは、さらに、
     前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップし、前記データ準備内容項目の各項目の有用度を算出し、
     前記データ準備内容を提案するステップは、さらに、
     前記有用度を前記ユーザに提示する
     ことを特徴とするデータ利活用システムにおけるデータ準備方法。
  12.  請求項11に記載されたデータ利活用システムにおけるデータ準備方法において、
     前記関連する利活用目的をリストアップは、関連データ候補として、前記データ準備内容に該当する処理プログラム、データ関係情報のリストを作成することである、
     ことを特徴とするデータ利活用システムにおけるデータ準備方法。
  13.  複数の業務システムからより収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備したデータ準備のデータ準備項目内容をユーザに提供するデータ利活用システムにおいて、
     前記データ準備の処理を実行するデータ準備処理実行部、前記データ準備の利活用処理を実行する利活用処理実行部、前記データ準備の内容を提案するデータ準備内容提案部、を有し、
     前記データ準備処理実行部は、
     前記ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合する処理部、
     前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、かつ、当該データ準備内容項目の難易度を算出する処理部、を含み、
     前記利活用処理実行部は、
     前記データ準備のデータ準備内容項目を集計する処理部、
     類似する前記データ準備内容をカテゴリ化する処理部、
     カテゴリ化した前記データ準備内容項目のデータ準備内容の重要度を算出する処理部、を含み、
     前記データ準備内容提案部は、
     前記データ準備内容及び前記重要度を前記ユーザに提案する処理部、を含む、
     ことを特徴とするデータ利活用システム。
  14.  請求項13に記載されたデータ利活用システムにおいて、
     前記利活用目的は、要求データ項目、入力データ構造、を含み、
     前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
     前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
     前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
     ことを特徴とするデータ利活用システム。
  15.  請求項13に記載されたデータ利活用システムにおいて、
     前記データ準備処理実行部は、さらに、
     前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップする処理部、前記データ準備内容項目の各項目の有用度を算出する処理部、を有し、
     前記データ準備内容提案部は、さらに、
     前記有用度を前記ユーザに提示する処理部、を有する
     ことを特徴とするデータ利活用システム。
PCT/JP2019/006352 2018-04-16 2019-02-20 データ利活用に係るデータ準備方法及びデータ利活用システム WO2019202839A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020207028562A KR102432126B1 (ko) 2018-04-16 2019-02-20 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템
US17/046,759 US20210117886A1 (en) 2018-04-16 2019-02-20 Data Preparation Method Related to Data Utilization and Data Utilization System

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-078244 2018-04-16
JP2018078244A JP7015725B2 (ja) 2018-04-16 2018-04-16 データ利活用に係るデータ準備方法及びデータ利活用システム

Publications (1)

Publication Number Publication Date
WO2019202839A1 true WO2019202839A1 (ja) 2019-10-24

Family

ID=68239524

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/006352 WO2019202839A1 (ja) 2018-04-16 2019-02-20 データ利活用に係るデータ準備方法及びデータ利活用システム

Country Status (4)

Country Link
US (1) US20210117886A1 (ja)
JP (1) JP7015725B2 (ja)
KR (1) KR102432126B1 (ja)
WO (1) WO2019202839A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6967102B2 (ja) * 2020-03-05 2021-11-17 株式会社ビデオリサーチ 顧客推定装置及び顧客推定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205218A (ja) * 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体
US20170220943A1 (en) * 2014-09-30 2017-08-03 Mentorica Technology Pte Ltd Systems and methods for automated data analysis and customer relationship management

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4570217A (en) * 1982-03-29 1986-02-11 Allen Bruce S Man machine interface
US7098392B2 (en) * 1996-07-10 2006-08-29 Sitrick David H Electronic image visualization system and communication methodologies
US20080004922A1 (en) * 1997-01-06 2008-01-03 Jeff Scott Eder Detailed method of and system for modeling and analyzing business improvement programs
US7072843B2 (en) * 2001-03-23 2006-07-04 Restaurant Services, Inc. System, method and computer program product for error checking in a supply chain management framework
US20030074206A1 (en) * 2001-03-23 2003-04-17 Restaurant Services, Inc. System, method and computer program product for utilizing market demand information for generating revenue
US7039606B2 (en) * 2001-03-23 2006-05-02 Restaurant Services, Inc. System, method and computer program product for contract consistency in a supply chain management framework
US7120596B2 (en) * 2001-03-23 2006-10-10 Restaurant Services, Inc. System, method and computer program product for landed cost reporting in a supply chain management framework
JP4244768B2 (ja) * 2003-09-30 2009-03-25 株式会社日立製作所 不良影響度評価方法および設計支援システム
US20050096950A1 (en) * 2003-10-29 2005-05-05 Caplan Scott M. Method and apparatus for creating and evaluating strategies
US8627222B2 (en) * 2005-09-12 2014-01-07 Microsoft Corporation Expanded search and find user interface
US10586194B2 (en) * 2008-09-09 2020-03-10 INSPIRD, Inc. Method and system for managing research and development in an enterprise
JP5398361B2 (ja) 2009-06-01 2014-01-29 株式会社日立製作所 データ分析システム
JP5847344B1 (ja) 2015-03-24 2016-01-20 株式会社ギックス データ処理システム、データ処理方法、プログラム及びコンピュータ記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205218A (ja) * 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体
US20170220943A1 (en) * 2014-09-30 2017-08-03 Mentorica Technology Pte Ltd Systems and methods for automated data analysis and customer relationship management

Also Published As

Publication number Publication date
US20210117886A1 (en) 2021-04-22
KR102432126B1 (ko) 2022-08-16
JP2019185582A (ja) 2019-10-24
KR20200129132A (ko) 2020-11-17
JP7015725B2 (ja) 2022-02-03

Similar Documents

Publication Publication Date Title
US20210357835A1 (en) Resource Deployment Predictions Using Machine Learning
Castellanos et al. A comprehensive and automated approach to intelligent business processes execution analysis
US7114146B2 (en) System and method of dynamic service composition for business process outsourcing
US6920474B2 (en) Method and system for enterprise business process management
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
Oral et al. The facets of the modeling and validation process in operations research
CN109102145B (zh) 流程编排
US20090100017A1 (en) Method and System for Collecting, Normalizing, and Analyzing Spend Data
US20050165822A1 (en) Systems and methods for business process automation, analysis, and optimization
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US20030236689A1 (en) Analyzing decision points in business processes
US11921737B2 (en) ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system
US7644006B2 (en) Semantically investigating business processes
CN111192021A (zh) 一种oa单据审批实现方法及系统
US8515801B2 (en) Automated methods and apparatus for analyzing business processes
US20140280061A1 (en) Document processing system and method
JP6784612B2 (ja) 分析ソフトウェア管理システム及び分析ソフトウェア管理方法
Marshall et al. Decision making in the context of business intelligence and data quality
Casati et al. Probabilistic, context-sensitive, and goal-oriented service selection
US7613799B2 (en) Service evaluation method, system, and computer program product
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
US8688499B1 (en) System and method for generating business process models from mapped time sequenced operational and transaction data
WO2019202839A1 (ja) データ利活用に係るデータ準備方法及びデータ利活用システム
JP2019185582A5 (ja)
EP1810179A2 (en) Business process management system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19787694

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20207028562

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19787694

Country of ref document: EP

Kind code of ref document: A1