WO2019142391A1 - データ分析支援システム及びデータ分析支援方法 - Google Patents

データ分析支援システム及びデータ分析支援方法 Download PDF

Info

Publication number
WO2019142391A1
WO2019142391A1 PCT/JP2018/032804 JP2018032804W WO2019142391A1 WO 2019142391 A1 WO2019142391 A1 WO 2019142391A1 JP 2018032804 W JP2018032804 W JP 2018032804W WO 2019142391 A1 WO2019142391 A1 WO 2019142391A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
attributes
tables
degree
analysis support
Prior art date
Application number
PCT/JP2018/032804
Other languages
English (en)
French (fr)
Inventor
岳志 半田
川崎 健治
高志 津野
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to KR1020207002401A priority Critical patent/KR102312685B1/ko
Publication of WO2019142391A1 publication Critical patent/WO2019142391A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Definitions

  • the present invention relates to a technology for supporting data analysis using an information processing apparatus.
  • Association rule mining basic analysis / correlation analysis
  • correlation rules are a technique that focuses on finding correlations of frequently occurring events (correlation rules) from target data, and is also applicable to non-numeric data.
  • the correlation rule is expressed, for example, in a form such as “event A and event B are likely to occur simultaneously” or “product C is easily purchased at the same time as product D”, and not only data analysis but also data retrieval system and information recommendation system Used.
  • indices indicating the strength of correlation there are support level (proportion of occurrence in all samples), confidence factor (combination frequency of premise part and conclusion part), and lift (degree of occurrence in combination or alone).
  • Useful rules in analysis are extracted by performing threshold processing on indicators. However, for example, if rules with low support (small cases) are left, a large number of rules will remain, making it difficult to find useful rules among them. On the other hand, when rules with high support (multiple cases) are left, rules that are obvious (ordinary) remain as events, making it difficult to find useful rules for business improvement and cause analysis.
  • a technique for narrowing down a large number of rules extracted by such correlation rule mining includes means for generating a plurality of correlation rules indicating content association (content purchase etc.) data, and the content consumption data Means for calculating the rarity degree of each correlation rule, and means for narrowing down the correlation rule using the rarity degree and generating a recommendation rule, wherein the rarity degree is calculated for each correlation rule
  • the total number of content of the condition part and the consequent part of the correlation rule acquired from the content consumption data, the number of users corresponding to the correlation rule, the number of content consumption of each user corresponding to the correlation rule, and consumption Using the total number of contents and the number of users who have consumed each content of the condition part and the consequent part of the correlation rule,
  • Such recommendation rule generation device characterized in that to calculate the degree (see Patent Document 1) has been proposed.
  • the analyst first matches data that can be analyzed based on the data structure specification such as ER (Entity-Relationship) diagram in the original business system of the data to be analyzed, ie,
  • ER Entity-Relationship
  • an approach is taken in which data tables located at a short distance in terms of the data structure of the original business system are combined first. This is because, in order to obtain useful analysis results within a limited number of analysis work steps, first, a combination of data which can be obtained analysis results is selected.
  • the degree of rarity obtained in rarity calculation which is a characteristic part in the prior art, indicates the probability of occurrence of the correlation rule, and the aforementioned “data tables across business systems” and “a perspective of data structure of original business system”
  • the combination of unexpected data such as “data tables which are far from each other” is not considered. Therefore, the prior art can not narrow down correlation rules including unexpected combinations as combinations of attributes included in the preamble and the conclusion part of the rule from the huge number of correlation rules extracted, and presents rules useful to analysts Can not.
  • One aspect of the present invention is a data analysis support system.
  • the system stores an analysis target data table including a plurality of data tables, analyzes a storage device and the analysis target data table, and extracts a plurality of correlation rules indicating correlations of attributes included in the data table. Generating a combination of attributes of a premise part and a conclusion part of the correlation rule, for each of the data relation model generation part and the correlation rule, which generates the data relation model indicating the relation between the extraction part and the plurality of data tables; And a surprising degree calculator configured to obtain a distance between the attributes in the data relationship model for each combination, and calculate a surprising degree based on the distance.
  • Another aspect of the present invention is a data analysis support system method executed by an information processing apparatus including an input device, an output device, a storage device, and a processing device.
  • the storage device is provided with an analysis target data table including a plurality of data tables, a first step, and a data relation model indicating the relevancy between the plurality of data tables, and a second step.
  • FIG. 10 is a plan view showing an example of a screen on which an analysis operator takes in analysis object data, calculates a correlation rule, and narrows down the correlation rule. It is a block diagram showing the example of hardware constitutions of a data analysis support system.
  • the expressions “first”, “second”, “third” and the like are used to identify the constituent elements, and the number, order, or contents thereof are necessarily limited. is not.
  • the identification numbers of components are used for each context, and the numbers used in one context do not necessarily indicate the same configuration in other contexts. In addition, it does not prevent that a component identified by a certain number doubles as a feature of a component identified by another number.
  • a data including an association table extracting unit that analyzes an analysis target data table and extracts a plurality of correlation rules, and an entity table and a relation table that indicate the relationship between the analysis target data tables.
  • a data relationship is generated for each combination of attributes of the premise part and the conclusion part of the correlation rule for each correlation rule using a data relationship model generation unit for generating a relationship model and the data relationship model and the correlation rule extracted by the correlation rule extraction means
  • a surprising degree calculating unit that calculates a surprising degree based on the distance between the entities in the model and the strength of the relation.
  • FIG. 1 is a diagram showing a configuration example of a data analysis support system 100 in the present embodiment.
  • the data analysis support system 100 targeted by the present embodiment is communicably connected to the user terminal 111.
  • the data analysis support system 100 can be configured by, for example, a server, and the user terminal 111 can be configured by, for example, a personal computer. Both can be connected via, for example, a network.
  • the data analysis support system 100 includes, as functional components, an analysis target data storage unit 101, a data relationship model storage unit 102, a correlation rule storage unit 103, a data acquisition unit 104, and a data relationship model generation unit 105. , A data combination unit 106, a correlation rule extraction unit 107, a degree of surprise calculation unit 108, a rule recommendation unit 109, and a user interface unit 110.
  • the data acquisition unit 104 receives the data fetching request made by the analyst 112 with respect to the user terminal 111, and acquires an analysis target data table stored in the analysis target data storage unit 101.
  • FIG. 2 illustrates an example of the analysis target data table stored in the analysis target data storage unit 101.
  • examples of a train data table 1011 and a station data table 1012 are shown as analysis target data tables.
  • Each table has column names 10111 and 10121, and stores data of a predetermined numerical value or text in each column.
  • the data table has, for example, the data format shown in FIG. 2, and is intended to be a general tabular data structure.
  • the data to be analyzed is tabular data or data having a function equivalent thereto, and it is applicable regardless of the type of industry or the field.
  • data of various business systems in the railway field will be described as an example.
  • a train data table 1011 and a station data table 1012 are defined in the analysis target data storage unit as an example of data of various operation systems in the railway field.
  • identification information indicating an object to be a subject or an object, information of various physical quantities or status regarding the object, and the like are stored.
  • the data relationship model generation unit 105 generates a data relationship model indicating the relationship between data tables to be analyzed, and stores the generated model in the data relationship model storage unit 102.
  • the data relationship model stored in the data relationship model storage unit 102 is a relationship that defines the relationship between the data table of the data relationship model and the entity table that defines the table name of the data table of the data relationship model and the column list of each table. It consists of 2 tables of tables.
  • FIG. 3 shows a conceptual diagram of the data relationship model stored in the data relationship model storage unit 102.
  • the data relationship model includes an entity table 10210 and a relationship table 10220.
  • the entity table 10210 is a list of column names of each data table stored in the analysis target data storage unit 101.
  • the entity table 10210 has, for example, the data format shown in FIG. 3, and includes a table name 10211 and a corresponding column name 10212.
  • the relation table 10220 includes a first table 10221, a column 10222 of the first table, a second table 10223, and a column 10224 of the second table.
  • two tables of a train data table (1011 of FIG. 2) and a station data table (1012 of FIG. 2) are defined in the entity table 10210.
  • Train number, destination, first train station, last station total 6 columns, train number, station name, other company line boarding, arrival time, departure time, delay time, number of staying people total of 7 columns are defined in the station data table 1012 Be done.
  • a relation between the train data table 1011 and the station data table 1012 is defined, and a relation between the train number column of the train data table 1011 and the train number column of the station data table 1012 is It is defined. Similarly, a relation is defined between the first train station and last train station columns of the train data table 1011 and the station name column of the station data table 1012.
  • the data combining unit 106 generates one data table by combining horizontally in the analysis target data table stored in the analysis target data storage unit with the column of the analysis target data table as a key.
  • the correlation rule extraction unit 107 stores, in the correlation rule storage unit 103, a correlation rule generated by performing correlation rule mining on the data table generated by the data combining unit 106.
  • the extraction of the correlation rule can be realized, for example, using a known algorithm such as the a priori algorithm (see Non-Patent Document 1).
  • Association rule mining is an analysis algorithm focused on finding frequent concurrent events in the data to be analyzed.
  • a combination of events that occur frequently simultaneously in the data to be analyzed, such as the simultaneousness and the relationship between occurrences of multiple events, is extracted as a rule, and this rule is called a correlation rule.
  • this rule is called a correlation rule. For example, when there is a relation that an event Y under a certain event X occurs, describe as “X Y Y”, and the left part of the arrow ( ⁇ ) is the premise part (event X) and the right part is the conclusion part It is called (event Y), and indicates the probability of occurrence of Y when the event X occurs.
  • the degree of support is the percentage of all data that includes an event.
  • the certainty factor is the rate at which the event of the conclusion part occurs under the occurrence of the event of the premise part, and represents the strength of the association between the events included in the premise part and the conclusion part.
  • the lift is the rate at which the conclusion event occurs under the occurrence of the premise event (confident degree) divided by the rate at which the conclusion event occurs in all the data, and the conclusion event is independent.
  • the ratio of how much the event of the concluding part occurs under the event of the antecedent is shown by a factor rather than the ratio of occurring at.
  • the rate at which event Y occurs under event X is 60%
  • the rate at which event X and event Y occur simultaneously in all data is 20%
  • the rate at which event Y occurs under event X The correlation rule “X Y Y” is that the support rate is 20%, the confidence is 60%, and the lift is 2.5. .
  • the "event” included in the premise part and the conclusion part may be particularly referred to as “item” or "attribute”. In the following description, it will be called “attribute” rather than "event”.
  • FIG. 4 shows an example of the data format of the correlation rule storage table 1030 which the correlation rule storage unit 103 comprises.
  • the correlation rule storage table 1030 includes a premise part 1031, a conclusion part 1032, a degree of support 1033, a degree of certainty 1034, a lift 1035, and a degree of surprise 1036 as data items.
  • the degree of unexpectedness calculation unit 108 refers to the data relationship model generated by the data relationship model generation unit 105 for each of the correlation rules extracted by the correlation rule extraction unit 107, for the events included in the premise part and the conclusion part of the correlation rule.
  • the degree of surprise is calculated and stored in the correlation rule storage unit 103.
  • the calculated degree of surprise is stored in the degree of surprise column (FIG. 4) of the correlation rule storage table 1030 of the correlation rule storage unit 103.
  • the rule recommendation unit 109 receives a correlation rule narrowing request from the analyst, a degree of support defined by the analyst, a certainty degree, a lift, and a total of four thresholds for the unexpectedness degree, and the correlation rule storage unit 103
  • the correlation rules are narrowed down by performing threshold processing on all of the stored correlation rules, and the narrowed results are returned to the user terminal 111.
  • the threshold processing leaves rules having a value higher than the threshold set for each index, and removes rules having a value equal to or less than the threshold. For each of the four indexes of supportability, confidence, lift, and surprise, a rule having a value higher than the threshold is left.
  • the user interface unit 110 generates a screen 1101 on which the analysis operator takes in data to be analyzed, calculates correlation rules, and narrows down the correlation rules.
  • FIG. 5 the top view of an example of the screen which the user interface part 110 produces
  • an example of this screen is composed of a header unit 1102, a threshold setting unit 1103, a correlation rule list display unit 1104 and a data relationship model display unit 1105.
  • the header section 1102 has a data acquisition button for the analyst to take in the analysis target data, a correlation rule calculation button for extracting the correlation rule for the analysis target data and calculating the degree of unexpectedness, and setting the threshold value of the extracted correlation rule
  • a correlation rule narrowing button for narrowing down using the threshold set in the unit 1103 is configured.
  • a data acquisition request is transmitted from the user terminal 111 to the data acquisition unit 104.
  • data is fetched from the analysis target data storage unit 101, a data relationship model is generated by the data relationship model generation unit 105, and the generation result is displayed on the data relationship model display unit 1105 as an ER diagram, for example.
  • An analyst may adjust or change the model according to the analysis purpose, the analyst's knowledge, etc. by using the entity addition / editing button, the relation addition button, and the deletion button on the generated model.
  • the data may be fetched not by all the data tables of the analysis object data storage unit 101, but by the analyst 112, an arbitrary data table may be selected. In this case, the data acquisition unit 104 also transmits the data table name selected by the analyst in addition to the data acquisition request.
  • the correlation rule extraction unit 107 performs a correlation rule extraction process on the data table generated by the data combining unit 106, and the unexpectedness calculation unit 108 extracts each of the correlations.
  • the degree of surprise is calculated based on the data relationship model for the rule.
  • all the correlation rules are listed and displayed on the correlation rule list display unit 1104.
  • the support degree, the certainty degree, the lift, the threshold set for the unexpectedness degree, and the rule recommendation request for the threshold setting unit 1103 are sent to the rule recommendation unit 109. Will be sent.
  • the result of narrowing down the rules by the rule recommendation unit 109 is displayed on the screen 1101.
  • the correlation rule list display unit 1104 is displayed as a result of the rule narrowing down a value higher than the threshold value for each index.
  • FIG. 6 is a diagram showing an example of the hardware configuration of the data analysis support system 100.
  • the data analysis support system 100 includes a CPU (central processing unit) 201, an HDD (magnetic disk drive) 202, a memory 203, an input unit 204, a display unit 205, and a communication unit 206.
  • the CPU 201 executes data input / output, reading, storage, and various processes.
  • the HDD 202 is a device for storing data
  • the memory 203 is a device for temporarily storing programs and data. Together they are called a storage device.
  • the input unit 204 is an input device that receives an operation input from a user.
  • the display unit 205 is a device that displays data to the user and is one of output devices.
  • the communication unit 206 is a device that communicates with the user terminal 111 to transmit and receive data. Each of these devices can be realized as each configuration of a general computer.
  • the analysis target data storage unit 101, the data relationship model storage unit 102, and the correlation rule storage unit 103 in FIG. 1 are realized by the HDD 202, for example.
  • the respective components of the data acquisition unit 104, the data relationship model generation unit 105, the data combination unit 106, the correlation rule extraction unit 107, the unexpectedness calculation unit 108, and the rule recommendation unit 109 of the first embodiment are stored in the memory 203, for example.
  • the program is executed by the CPU 201 executing hardware and controlling the CPU 201, the HDD 202, the memory 203, the input unit 204, the display unit 205, the communication unit 206, and the like.
  • the configuration of the data analysis support system 100 described above may be configured by a single computer, or a network in which any portion of the CPU 201, the HDD 202, the memory 203, the input unit 204, and the display unit 205 is via the communication unit 206. It may be configured by another computer connected by Further, in the present embodiment, the function equivalent to the function configured by software can be realized by hardware such as a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC).
  • FPGA field programmable gate array
  • ASIC application specific integrated circuit
  • FIG. 7 is an overall flowchart showing a series of procedures for generating a data relationship model, extracting a correlation rule, and calculating a degree of surprise in the data analysis support system 100.
  • the data acquisition unit 104 receives a request for taking in analysis target data input on the screen of FIG. 5 displayed on the user terminal 111 by the analyst 112, and acquires an analysis target data table from the analysis target data storage unit 101. Do. Then, the data relation model generation unit 105 generates a data relation model for the acquired data table (S301).
  • the data combining unit 106 generates a single data table by performing internal connection in the horizontal direction using the time-series data items of the analysis target data table as a key (S302).
  • the correlation rule extraction unit 107 receives the extraction request of the correlation rule input on the screen of FIG. 5 displayed on the user terminal 111 by the analyst 112 and extracts the correlation rule (S303).
  • the degree of surprise calculation unit 108 calculates the degree of surprise in comparison with the data relationship model generated by the data relationship model generation unit 105 for each of the correlation rules extracted by the correlation rule extraction unit 107 (S304).
  • the rule recommendation unit 109 receives the correlation rule narrowing-down request input on the screen of FIG. 5 displayed on the user terminal 111 by the analyst and the support degree, the certainty degree, the lift, and the threshold for the unexpectedness, Threshold processing is performed on the support degree, the certainty degree, the lift, and the surprise degree calculated for each rule to narrow down the rules, and the result is returned to the user terminal 111 (S305).
  • the generation S301 of the data relationship model may be performed after the extraction S303 of the correlation rule. Alternatively, it may be created and stored in advance before the process of FIG.
  • FIG. 8 is a flowchart showing details of the procedure S301 in which the data relationship model generation unit 105 generates a data relationship model from the analysis target data table.
  • the data relation model generation unit 105 acquires a column name list of each data table for all the analysis target data tables acquired by the data acquisition unit, and stores the column name list in the entity table 10210 (see FIG. 3) of the data relation model (S3011). ).
  • a loop process is performed for the number of selection methods of selecting two tables out of all acquired data tables (S3012).
  • the target data table is two tables, and the selection method of selecting the two tables from here is one method, so the loop processing is performed only once.
  • the enforcement date column of the train data table 1011 partially matches the character string of all columns of the station data table 1012 (total number of loops is 7).
  • the character strings with all the columns of the station data table 1012 partially match.
  • the train number column of the train data table 1011 matches the train number column of the station data table 1012 and the character string partial match, it is determined that there is a relation 30001 between the columns, and the relation shown in FIG. It stores in the table 10220. Furthermore, also for the first train station and last train station columns of the train data table 1011, the station name column of the station data table 1012 partially matches the character string, so it is determined that there is a relation 30002 between the columns, and the result is displayed in the relation table 10220 Store
  • the data relation model is represented in the form of a schematic class diagram as shown in the data relation model display unit 1105 of FIG. be able to.
  • the train data table 1011 and the station data table 1012 shown in FIG. 2 are represented as a train class and a station class, respectively, and a relation between the two data tables is represented by a line connecting the train class and the station class.
  • classes such as a vehicle and a track are also displayed.
  • the relationship between the vehicle entity and the ground facility entity (the vehicle class speed log and the indoor temperature log column are partially identical to the ground facility class operation log and the alarm log column and the character string for the purpose of improving visibility.
  • relations in the data relation model generation process define not only the relationship between the structures of the analysis target data table, but also the hierarchical relationship between the structures found in the industry type, the proximity on the position and the route, and the relationship before and after. May be For example, in trains in the railway field, hierarchical relationships between structures such as train-vehicle-vehicle parts can be considered, such as vehicles constituting the train and various types of vehicle parts constituting the vehicle. By defining the hierarchical relationship of in advance, it is possible to define an event that occurs in the same structure.
  • FIG. 9 is a flowchart showing details of the procedure S302 in which the data combining unit 106 combines the analysis target data table into one data table.
  • the data combining unit 106 performs loop processing on all the analysis target data tables acquired by the data acquisition unit 104 (S3021).
  • the data value defined in the column is acquired and the data type is determined (S3022).
  • the column corresponds to any of the time stamp type, date type, and time type, it is determined that the column is a column indicating a time series (S3024).
  • Data type determination is performed on all analysis target data tables, and after column determination of time series is completed, the data table is horizontally oriented between the same data types using the columns determined to indicate time series as a key By performing internal coupling, data to be analyzed is made into one data table (S3025).
  • the data type is determined by analyzing the data value in column units in S3022, but if it is determined on which column the data table is to be joined, which column indicates the series in advance
  • a user-defined data table defined in advance may be prepared in advance, and the data type may be determined by referring to this user-defined table. For example, if there is a column of about kilometer indicating the position of the inspection result on the track like the inspection measurement log result data table of the track, it is not the time series but the data of the position series. Sometimes you want to combine data tables as keys.
  • a kilometer is previously defined in a user-defined table, and it is determined whether or not a column including kilometer is included for all data tables to be analyzed by referring to the user-defined table, and kilometer is determined. Horizontally join data tables with columns as keys.
  • the data value of the column serving as the join key of the data table may differ in the minimum unit and the timing of data acquisition for each data table.
  • data is acquired in units of 30 seconds
  • data is acquired in units of one minute, and so on.
  • the minimum unit may be different.
  • the base time may be "10:00:05" or "10:00:12".
  • the analysis target data table may be subjected to preprocessing to align the minimum unit of data values of the time indicating column or to a coarser unit according to the request of the analyst. .
  • FIG. 10 is a flowchart showing details of the procedure S304 in which the degree of surprise calculating unit 108 calculates the degree of surprise for each correlation rule based on the data relationship model.
  • the unexpected degree calculation unit 108 After the completion of the processing of the correlation rule extraction unit 107, the unexpected degree calculation unit 108 performs loop processing for the number of the extracted correlation rules (S3041).
  • a list of attributes included in the premise part and the conclusion part is acquired for the correlation rule to be subjected to the loop processing (S3042).
  • attributes refer to the events contained in the premise and the conclusion.
  • a loop process is performed according to the number of selection directions for selecting 2 attributes from the acquired attribute list (S3043).
  • the distance in the data relationship model between the two selected attributes is calculated (S3044).
  • the distance between two attributes in the data relationship model is the distance between classes to which the attribute belongs.
  • the distance between classes can be grasped as the number of relations connecting classes, for example, in the data relation model shown in FIG. For example, the distance between the train class and the track class is two. Therefore, the distance between the attribute "enforcement day" of the train class and the attribute "kilo" of the track class is 2.
  • entity What is generally called an entity or table in the data model is called a class or object in the object model.
  • entity table, and class may be used interchangeably herein.
  • the distance between 2 attributes in the selection method for 2 attributes is The unexpectedness is calculated by dividing the sum of distances of two or more, and this is stored in the unexpectedness column of the relevant rule of the correlation rule storage table 1030 (S 3045).
  • the correlation rule 1 “train number (T102) ⁇ ⁇ slope (0.5-1.0%)” and the correlation rule 2 “train number (T200) and room temperature log (26.0 to 26.5 ° C.)”.
  • T102 Train number
  • ⁇ slope 0.5-1.0%)
  • the degree of surprise increases as the number of the distance 2 or more in the model increases as each attribute of the premise part and the conclusion part of the correlation rule. That is, a rule having a combination of attributes that deviates from general object and event relationships is evaluated as a surprising relationship. As described above, by introducing an evaluation index of unexpectedness, it is possible to quantitatively evaluate a surprising thing as a combination of data among a large number of correlation rules, and it is possible to narrow down the rules effectively.
  • the numerator (the sum of the distance between two attributes is 2 or more among the selection of 2 attributes) is the numerator, but (the distance between two attributes is 2 m or more) It is also possible to arbitrarily set the parameter m as, for example, 3 or more as the sum of distances of As m is increased, the degree of surprise in which the large rule of surprise is emphasized is obtained.
  • the degree of surprise is calculated using only the result of the presence / absence of the relation between the data tables.
  • the unexpectedness calculation unit 108 may consider the weight of the relation in the unexpectedness calculation.
  • the second embodiment shows an example in which the weight of the relation is considered in the calculation of the degree of surprise.
  • the relation weight can be defined by the number of pairs of columns determined to be related between the two tables.
  • the weight of the relation can numerically express the strength of the relevancy on the data structure between the two tables.
  • a relation of 3 records (pair) in total is defined between the train data table 1011 and the station data table 1012 in the relation table 10220. Therefore, the weight between the train data table 1011 and the station data table 1012 is 3. It can be said that the data tables at both ends of the relation with a large weight are more likely to be selected as a combination as analysis target data in data analysis. For this reason, it is considered that data tables at both ends of a relation with a large weight are not surprising as a combination of data and are natural.
  • processing such as multiplying the distance of the data relation model between the two tables by the reciprocal of the weight of the relation is performed in the degree of surprise calculation S304 of FIG. Perform the calculation after correcting the distance in the model. By doing this, it is possible to calculate the degree of surprise in consideration of the strength of the relevancy on the data structure.
  • the degree of surprise is calculated by obtaining the distance of the shortest route or providing a constraint that the route once passed does not pass twice.
  • the distance between the attributes is obtained by counting the number of relations between data tables including the attributes of the premise part and the conclusion part of the correlation rule.
  • the weight of the relation is calculated by the number of pairs whose column names partially or completely match between the two tables associated by the relation, and the reciprocal of the weight is a correction value of the relation between the two tables.
  • the distance between the attributes is determined by adding the correction value of the relation existing between the data tables including the attributes of the premise part and the conclusion part of the correlation rule.
  • the parameter m is basically a natural number, but in the second embodiment, the parameter m may not be a natural number because weighting processing is performed.
  • the analyst can narrow down the rules while judging obvious and surprising ones among a large number of correlation rules as a combination of data. You can quickly find useful information for you.
  • the present embodiment can be used for a business that supports data analysis using an information processing apparatus.
  • Data analysis support system 100 analysis target data storage unit 101, data relationship model storage unit 102, correlation rule storage unit 103, data acquisition unit 104, data relationship model generation unit 105, data combining unit 106, correlation rule extraction unit 107, surprise Degree calculation unit 108, rule recommendation unit 109, user interface unit 110

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

膨大な数の相関ルール中から意外性のあるルールを絞り込むことができ、業務改善や原因分析のための有益な情報把握を素早く行う技術に関する。その構成例としては、データ分析支援システムであって、複数のデータテーブルを含む分析対象データテーブルを記憶する、記憶装置と、分析対象データテーブルを解析し、データテーブルに含まれる属性の相関を示す複数の相関ルールを抽出する、相関ルール抽出部と、複数のデータテーブル間の関連性を示すデータ関係モデルを生成する、データ関係モデル生成部と、相関ルール毎に、当該相関ルールの前提部及び結論部の属性の組合せを生成し、当該組合わせ毎の前記データ関係モデルにおける当該属性間の距離を求め、当該距離に基づき意外度を算出する、意外度算出部と、を備える。

Description

データ分析支援システム及びデータ分析支援方法
 本発明は、情報処理装置を用いてデータ分析を支援する技術に関する。
 IoT(Internet of Things)技術やビッグデータ技術の進展に伴い、複数の業務システムやセンサを跨いでのデータ利活用のニーズが高まっている。様々な業務システムが保有する大量データに対するデータ分析アルゴリズムとして、相関ルールマイニング(バスケット分析・相関分析)がある。相関ルールマイニングは対象のデータ中より、頻繁に同時に生起する事象の相関(相関ルール)を見つけることに焦点を当てた技法であり、非数値のデータに対しても適用可能な手法である。相関ルールは、例えば「事象Aと事象Bは同時に起きやすい」や「商品Cは商品Dと同時に購入されやすい」のような形で表され、データ分析だけでなくデータ検索システムや情報推薦システムでも用いられる。
 相関の強さを示す指標として、支持度(全サンプル中での発生割合)、確信度(前提部・結論部の組合せ頻度)、リフト(組合せor単独で発生する度合い)が存在し、これらの指標に対する閾値処理を行うことで分析における有用なルールを抽出する。しかしながら、例えば、低い支持度(少事例)のルールを残すと大量のルールが残ってしまい、この中から有用なルールを見つけ出すことが困難となる。一方で、高い支持度(多事例)のルールを残すと事象として自明な(当たり前の)ルールが残り、業務改善や原因分析のための有益なルールを見つけ出すのは困難となる。
 こうした相関ルールマイニングにて抽出した膨大なルールの絞込に関する技術に、コンテンツ消費(商品購買等)データを対象とし、コンテンツ間の関連を示す複数の相関ルールを生成する手段と、前記コンテンツ消費データを用いて、各相関ルールの希少度を算出する手段と、前記希少度を用いて前記相関ルールを絞り込み推薦ルールを生成する手段とを備え、前記希少度の算出においては、相関ルール毎に前記コンテンツ消費データから取得した、当該相関ルールの条件部および帰結部のコンテンツの合計数と、当該相関ルールに該当するユーザ数と、当該相関ルールに該当する各ユーザのコンテンツ消費数と、消費された全コンテンツ数と、当該相関ルールの条件部および帰結部の各コンテンツを消費したユーザ数とを用いて前記希少度を算出することを特徴とする推薦ルール生成装置(特許文献1参照)などが提案されている。
特開2014-222398号公報
Rakesh Agrawal and Ramakrishnan Srikant,"Fast algorithms for mining association rules",Proceedings of the 20th International Conference on Very Large Data Bases,pp.487-499,1994
 複数の業務システムのデータを突き合わせての分析作業における初期段階では、分析目的は明確になっていても、分析対象データが明確になっていない場合が多い。すなわち、分析目的の検証及び評価に向けたデータ分析結果獲得のために、どのデータを用いればよいかが明確になっていない場合が多い。
 このような場合において、分析実施者は分析対象となるデータの元業務システムにおけるER(Entity-Relationship)図等のデータ構造仕様書をもとに、まずは分析できそうなデータを突き合わせていく、すなわち、元業務システムのデータ構造の観点で近い距離にあるデータテーブル同士をまずは組合せていく、といったアプローチをとることが多い。これは、限られた分析作業工数内で有益な分析結果を得るために、まずは分析結果を得られそうなデータの組合せを選択していくためである。
 複数業務システムのデータ分析においては、前記のようなアプローチをとることが多いことから、特に業務システムを跨ぐデータテーブル同士、または、1業務システムであっても元業務システムのデータ構造の観点で遠い距離にあるデータテーブル同士を用いた分析を十分に実施することができない場合が多い。また、元業務システムのデータ構造の観点で近い距離にあるデータテーブル同士を組合せていくというアプローチでは、分析対象データの組合せとしては珍しくない(よくある)組合せである場合が多く、分析結果としても自明な(当たり前の)結果が得られることが多く、業務の改善や事象の原因調査にとっての有益な結果の獲得に繋がらない可能性ある。
 以上より、「業務システムを跨ぐデータテーブル同士」や「元業務システムのデータ構造の観点で距離が遠いデータテーブル同士」といった、分析対象データの組合せとして意外な組合せとなるデータの相関は、特に有益な分析結果となり得る。
 しかしながら、従来技術において特徴部分とする希少度算出において得られる希少度は当該相関ルールの生じる確率を示しており、前述した「業務システムを跨ぐデータテーブル同士」や「元業務システムのデータ構造の観点で距離が遠いデータテーブル同士」といった意外なデータの組合せに関しては未考慮である。従って、従来技術では抽出された膨大な数の相関ルールから、ルールの前提部及び結論部に含まれる属性の組合せとして意外な組合せを含む相関ルールを絞り込めず、分析者にとって有益なルールを提示できない。
 本発明の一側面は、データ分析支援システムである。このシステムは、複数のデータテーブルを含む分析対象データテーブルを記憶する、記憶装置と、分析対象データテーブルを解析し、データテーブルに含まれる属性の相関を示す複数の相関ルールを抽出する、相関ルール抽出部と、複数のデータテーブル間の関連性を示すデータ関係モデルを生成する、データ関係モデル生成部と、相関ルール毎に、当該相関ルールの前提部及び結論部の属性の組合せを生成し、当該組合わせ毎の前記データ関係モデルにおける当該属性間の距離を求め、当該距離に基づき意外度を算出する、意外度算出部と、を備える。
 本発明の他の一側面は、入力装置、出力装置、記憶装置、および処理装置を含む情報処理装置で実行されるデータ分析支援システム方法である。この方法では、記憶装置に、複数のデータテーブルを含む分析対象データテーブルを準備する、第1のステップと、複数のデータテーブル間の関連性を示すデータ関係モデルを生成する、第2のステップと、分析対象データテーブルを解析し、データテーブルに含まれる属性の相関を示す複数の相関ルールを抽出する、第3のステップと、相関ルール毎に、当該相関ルールの前提部及び結論部の属性の組合せを生成し、当該組合わせ毎の前記データ関係モデルにおける当該属性間の距離を求め、当該距離に基づき意外度を算出する、第4のステップと、を備える。
 膨大な数の相関ルール中から意外性のあるルールを絞り込むことができ、業務改善や原因分析のための有益な情報把握を素早く行える。
データ分析支援システムの構成例を示すブロック図である。 分析対象データ蓄積部に蓄積される分析対象データのフォーマット例を示す表図である。 データ関係モデル記憶部のエンティティテーブル及びリレーションテーブルのフォーマット例と、リレーション生成原理を示す概念図である。 相関ルール記憶部の相関ルール格納テーブルのデータフォーマット例を示す表図である。 分析実施者が分析対象データの取り込み、相関ルールの算出及び相関ルールの絞込を行う画面例を示す平面図である。 データ分析支援システムのハードウェア構成例を示すブロック図である。 データ分析支援システムにおいてデータ関係モデルを生成、相関ルールを抽出及び意外度を算出する一連の手順を示すフローチャートである。 データ関係モデル生成部が、分析対象データテーブルからデータ関係モデルを生成する手順の詳細を示すフローチャートである。 データ結合部が、分析対象データテーブルを1つのデータテーブルに結合する手順の詳細を示すフローチャートである。 意外度算出部が、データ関係モデルに基づき相関ルール毎に意外度を算出する手順の詳細を示すフローチャートである。
 以下に本発明の実施形態について図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
 以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
 同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
 本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
 図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
 本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
 以下で説明する実施例の一例は、分析対象データテーブルを解析し複数の相関ルールを抽出する相関ルール抽出部と、分析対象データテーブル間の関連性を示すエンティティテーブルとリレーションテーブルから構成されるデータ関係モデルを生成するデータ関係モデル生成部と、データ関係モデルと相関ルール抽出手段が抽出した相関ルールとを用いて相関ルール毎に当該相関ルールの前提部及び結論部の属性の組合せ毎にデータ関係モデルにおけるエンティティ間の距離及びリレーションの強度に基づき意外度を算出する意外度算出部と、を備えることを特徴とするデータ分析支援システムである。
 図1は、本実施例におけるデータ分析支援システム100の構成例を示す図である。図1に示すように本実施例が対象とするデータ分析支援システム100は、ユーザ端末111と通信可能に接続されている。データ分析支援システム100は例えばサーバーで構成することができ、ユーザ端末111は例えばパーソナルコンピュータで構成することができる。両者は例えばネットワークを介して接続することができる。
 本実施例にかかるデータ分析支援システム100は、機能部品として分析対象データ蓄積部101と、データ関係モデル記憶部102と、相関ルール記憶部103と、データ取得部104と、データ関係モデル生成部105と、データ結合部106と、相関ルール抽出部107と、意外度算出部108と、ルール推薦部109と、ユーザインターフェース部110とを備える。
 データ取得部104は、ユーザ端末111に対して分析実施者112が行うデータ取り込み要求を受信し、分析対象データ蓄積部101に格納される分析対象データテーブルを取得する。
 図2に、分析対象データ蓄積部101に蓄積される、分析対象データテーブルの例を示す。図2の例では、分析対象データテーブルとして、列車データテーブル1011と駅データテーブル1012の例が示されている。各テーブルは、カラム名10111,10121を備え、各カラムに所定の数値あるいはテキストのデータを格納する。データテーブルは例えば図2に示すデータフォーマットを有しており、一般的な表形式データの構造であるものを対象とする。
 本実施例の実施において、分析対象データは表形式データあるいはこれと同等の機能を有するデータであることが前提であり、業種や分野に関わらず適用可能であるものである。本実施例においては鉄道分野の各種業務システムのデータを例に挙げ説明する。鉄道分野の各種業務システムのデータ例として、列車データテーブル1011と、駅データテーブル1012の2テーブルが分析対象データ記憶部に定義されている。各テーブルには例えば、主体または客体となる対象物を示す識別情報や、対象物に関する各種物理量あるいはステイタスの情報等が記憶されている。
 データ関係モデル生成部105は、分析対象となるデータテーブル間の関連性を示すデータ関係モデルを生成し、生成したモデルをデータ関係モデル記憶部102に格納する。データ関係モデル記憶部102に記憶されるデータ関係モデルは、データ関係モデルのデータテーブルのテーブル名と各テーブルのカラム一覧を定義するエンティティテーブルと、データ関係モデルのデータテーブル間の関連を定義するリレーションテーブルの2テーブルで構成される。
 図3に、データ関係モデル記憶部102に格納される、データ関係モデルの概念図を示す。上述のようにデータ関係モデルは、エンティティテーブル10210とリレーションテーブル10220を含む。
 エンティティテーブル10210は、分析対象データ蓄積部101に蓄積される、各データテーブルのカラム名を一覧として纏めたものである。エンティティテーブル10210は、例えば図3に示すデータフォーマットを有しており、テーブル名10211と、それに対応するカラム名10212とを含む。リレーションテーブル10220は、第1テーブル10221と、第1テーブルのカラム10222と、第2テーブル10223と、第2テーブルのカラム10224とを含む。
 図3に示す例では、エンティティテーブル10210に、列車データテーブル(図2の1011)と駅データテーブル(図2の1012)の2テーブルが定義されており、列車データテーブルには施行日、線区、列車番号、行先、始発駅、終着駅の計6カラムが、駅データテーブル1012には列車番号、駅名、他社線乗り入れ、到着時刻、出発時刻、遅延時分、滞留人数の計7カラムが定義される。
 また、リレーションテーブル10220には、列車データテーブル1011と駅データテーブル1012間のリレーションが定義されており、列車データテーブル1011の列車番号カラムと駅データテーブル1012の列車番号カラムとの間に、リレーションが定義される。同様にして、列車データテーブル1011の始発駅及び終着駅カラムと、駅データテーブル1012の駅名カラムとの間にリレーションが定義される。
 データ結合部106は、分析対象データ記憶部に格納される分析対象データテーブルのカラムをキーにして水平方向に結合することで1つのデータテーブルを生成する。
 相関ルール抽出部107は、データ結合部106にて生成されたデータテーブルを対象に相関ルールマイニングを行うことで生成された相関ルールを相関ルール記憶部103に格納する。相関ルールの抽出は例えばアプリオリアルゴリズム(非特許文献1参照)などの公知のアルゴリズムを用いて実現することができる。
 相関ルールマイニングは、分析対象データ中で頻繁に同時に起きる事象を見つけることに焦点を当てた分析アルゴリズムである。複数の事象間の発生に見られる同時性や関係性といった、分析対象データ中で頻繁に同時に生起する事象の組合せをルールとして抽出し、このルールを相関ルールと呼ぶ。例えば、ある事象Xの下である事象Yが発生する関係が認められる際は「X⇒Y」のように記述し、矢印(⇒)の左側を前提部(事象X)と、右側を結論部(事象Y)と呼び、事象Xが発生した際のYの発生する確率を示すものである。
 よく知られているように、相関ルールマイニングでは相関の強さを示す指標として、支持度、信頼度、リフトの計3つの指標がある。支持度は、ある事象を含む全データ中の割合である。確信度は、前提部の事象が生じた下で結論部の事象が生じる割合であり、前提部と結論部に含まれる事象間の関連の強さを表す。リフトは、前提部の事象が生じた下で結論部の事象が生じる割合(確信度)を、全データ中で結論部の事象が生じた割合で割ったものであり、結論部の事象が単独で生じた割合よりも前提部の事象の下で結論部の事象が生じる割合がどれだけ多いかを倍率で示したものである。
 例えば、「事象Xが発生した下で事象Yが発生する割合が60%で、全データ中で事象Xと事象Yが同時に生じる割合が20%であり、事象Xの下で事象Yが生じる割合は全データ中で事象Yが単独で生じる割合の2.5倍になっている」という相関ルール「X⇒Y」は、支持度=20%、確信度60%、リフト2.5と示される。なお、前提部と結論部に含まれる事象はそれぞれ複数あってもよい。また、前提部と結論部が含む「事象」については特に「アイテム」や「属性」などと呼称される場合もある。以降の説明では「事象」ではなく「属性」と呼ぶ。
 図4は相関ルール記憶部103が備える相関ルール格納テーブル1030のデータフォーマット例を示す。相関ルール格納テーブル1030は、データ項目として前提部1031と、結論部1032と、支持度1033と、確信度1034と、リフト1035と、意外度1036とを含む。図4の例では相関ルール「列車番号(T100)⇒車両ID(M1-01)」は支持度=8.30%、確信度=60%、リフト2.3である。本例ではデータ値(前記の相関ルール中のT100とM1-01)だけでなく、当該データ値がどのテーブルのどのカラムに属していたかという情報(前記の相関ルール中では列車データテーブル1011の列車番号と車両データテーブル車両ID)も前提部と結論部に保持するが、データテーブルについては記載を省略している。「意外度」については意外度算出部108の説明にて後述する。
 意外度算出部108は、相関ルール抽出部107にて抽出した相関ルール毎に、相関ルールの前提部と結論部に含まれる事象を、データ関係モデル生成部105が生成したデータ関係モデルに照らし合わせ意外度を算出し、相関ルール記憶部103に格納する。算出した意外度は、相関ルール記憶部103の相関ルール格納テーブル1030の意外度カラム(図4)に格納される。
 ルール推薦部109は、分析実施者からの相関ルール絞り込み要求と分析実施者が定義した支持度と、確信度と、リフトと、意外度に対する計4つの閾値を受信し、相関ルール記憶部103に格納される相関ルール全てに閾値処理を行うことで相関ルールを絞り込み、絞り込んだ結果をユーザ端末111に返す。閾値処理は各指標に対して設定された閾値よりも高い値をもつルールを残し、閾値以下の値をもつルールを取り除くものである。支持度と、確信度と、リフトと、意外度の計4の各指標のいずれについても閾値よりも高い値をもつルールを残す。
 ユーザインターフェース部110は、分析実施者が分析対象データの取り込み、相関ルールの算出及び相関ルールの絞込を行う画面1101を生成する。
 図5に、ユーザインターフェース部110が生成する画面の一例の平面図を示す。本画面の例は図5に示すように、ヘッダー部1102、閾値設定部1103と、相関ルール一覧表示部1104と、データ関係モデル表示部1105から構成される。ヘッダー部1102には分析実施者が分析対象データを取り込むためのデータ取り込みボタンと、分析対象データに対する相関ルールの抽出及び意外度算出を行うための相関ルール算出ボタンと、抽出した相関ルールを閾値設定部1103にて設定した閾値で絞り込みを行うための相関ルール絞り込みボタンとで構成される。
 分析実施者112がデータ取り込みボタンを押下すると、ユーザ端末111からデータ取得要求が、データ取得部104へと送信される。分析対象データ蓄積部101からデータが取り込まれると、データ関係モデル生成部105によりデータ関係モデルが生成され、生成結果が例えばER図としてデータ関係モデル表示部1105に表示される。生成されたモデルに対して、エンティティ追加・編集ボタン、リレーション追加ボタン、削除ボタンを用いることで、分析の目的や分析者の知識等に応じて分析実施者がモデルを調整・変更してもよい。また、データの取り込みは分析対象データ蓄積部101のデータテーブル全てではなく、分析実施者112が任意のデータテーブルを選択してもよい。この場合、データ取得要求と併せて分析実施者が選択したデータテーブル名称もデータ取得部104へと送信する。
 分析実施者112が相関ルール算出ボタンを押下すると、データ結合部106が生成したデータテーブルに対して相関ルール抽出部107が相関ルールの抽出処理を行い、意外度算出部108が抽出された各相関ルールに対してデータ関係モデルに基づき意外度を算出する。全ルールに対して意外度の算出まで完了すると、全ての相関ルールが相関ルール一覧表示部1104に一覧表示される。
 分析実施者112が相関ルール絞込ボタンを押下すると、閾値設定部1103の支持度と、確信度と、リフトと、意外度に対し設定された閾値とルール推薦要求が、ルール推薦部109へと送信される。ルール推薦部109でルール絞込を行った結果を、画面1101に表示する。
 図5の例では閾値として支持度=3.0%、確信度=20.0%、リフト=1.5、意外度=80.0%が設定されている。この結果、抽出された相関ルールのうち各指標について前記閾値よりも高い値をルールが絞り込んだ結果のルールとして、相関ルール一覧表示部1104に表示される。図5の例では相関ルール「列車番号(T102)⇒勾配(0.5-1.0%)」は支持度=7.5%、確信度=50%、リフト=2.6、意外度=100%であり、いずれの指標も閾値設定部1103にて設定される閾値よりも高い値をもつルールとして残る。これら機能部品の詳細は後にフローチャートを用いて後述する。
 図6は、データ分析支援システム100のハードウェア構成例を示す図である。データ分析支援システム100は、CPU(中央処理装置)201、HDD(磁気ディスク装置)202、メモリ203、入力部204、表示部205、通信部206を備える。CPU201は、データの入出力、読み込み、格納および各種処理を実行する。HDD202は、データを記憶する装置であり、メモリ203は、プログラムおよびデータを一時的に記憶する装置である。両者を纏めて記憶装置という。入力部204は、ユーザからの操作入力を受け付ける入力装置である。表示部205は、利用者にデータを表示する装置であり出力装置の一つである。通信部206は、ユーザ端末111と通信し、データを送受信する装置である。これらの各装置は、一般的なコンピュータの各構成として実現できる。
 図1の分析対象データ蓄積部101、データ関係モデル記憶部102、相関ルール記憶部103は、例えば、HDD202により実現される。実施例1のデータ取得部104、データ関係モデル生成部105、データ結合部106、相関ルール抽出部107、意外度算出部108、ルール推薦部109の各部分は、例えば、メモリ203に格納されたプログラムをCPU201が実行し、CPU201、HDD202、メモリ203、入力部204、表示部205、通信部206等のハードウェアを制御することによって、実行される。
 以上のデータ分析支援システム100の構成は、単体のコンピュータで構成してもよいし、あるいは、CPU201、HDD202、メモリ203、入力部204、表示部205任意の部分が、通信部206を介したネットワークで接続された他のコンピュータで構成されてもよい。また、本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。
 図7は、データ分析支援システム100においてデータ関係モデルを生成、相関ルールを抽出及び意外度を算出する一連の手順を示す全体フローチャートである。
 データ取得部104は、分析実施者112がユーザ端末111に表示される図5の画面上にて入力した分析対象データの取り込み要求を受信し、分析対象データ蓄積部101から分析対象データテーブルを取得する。そして、データ関係モデル生成部105が前記取得したデータテーブルに対するデータ関係モデルを生成する(S301)。
 データ結合部106が、分析対象データテーブルについて時系列のデータ項目をキーとして水平方向に内部結合することで、1つのデータテーブルを生成する(S302)。
 相関ルール抽出部107は、分析実施者112がユーザ端末111に表示される図5の画面上にて入力した相関ルールの抽出要求を受信し、相関ルールを抽出する(S303)。
 意外度算出部108は、相関ルール抽出部107が抽出した相関ルール毎に、データ関係モデル生成部105が生成したデータ関係モデルに照らし合わせ意外度を算出する(S304)。
 ルール推薦部109は、分析実施者がユーザ端末111に表示される図5の画面上にて入力した相関ルール絞り込み要求と、支持度、確信度、リフト、意外度に対する閾値とを受信し、相関ルール毎に算出された支持度、確信度、リフト、意外度に対して閾値処理を行いルールの絞り込みを行い、結果をユーザ端末111へと返す(S305)。
 なお、データ関係モデルの生成S301は、相関ルールの抽出S303の後に行なってもよい。あるいは、図7の処理以前に予め作成して保存しておいても良い。
 データ関係モデル生成部105が行う処理手順の詳細は図8に示すフローチャートにて後述する。データ結合部106が行う処理手順の詳細は図9に示すフローチャートにて後述する。意外度算出部108が行う処理手順の詳細は図10に示すフローチャートにて後述する。
 図8は、データ関係モデル生成部105が、分析対象データテーブルからデータ関係モデルを生成する手順S301の詳細を示すフローチャートである。
 データ関係モデル生成部105は、データ取得部が取得した分析対象データテーブル全てに対して、各データテーブルのカラム名一覧を取得しデータ関係モデルのエンティティテーブル10210(図3参照)に格納する(S3011)。
 取得した全データテーブルから2テーブルを選び出す選び方の数分だけループ処理を行う(S3012)。
 続いて、S3012にて選び出した2テーブルについて各テーブルのカラム数同士を掛け合わせた数分だけループを行う(S3013)。当該処理は一方のテーブルのカラムを固定し、固定したカラムに対しもう一方のテーブルが持つ全カラムについて処理を行うことと同義である。
 S3012にて選びだした2テーブルのうち、一方のテーブルに定義されるカラムと、もう一方のテーブルに定義されるカラムの名称を比較する(S3014)。
 比較を行うカラムの名称が部分一致あるいは完全一致するかどうかを判定する(S3015)。
 部分一致しているならば、当該2カラム間にリレーションが有ると判定し、データ関係モデル記憶部102のリレーションテーブル10220に格納する(S3016)。
 分析対象データが図2に示す列車データテーブル1011と駅データテーブル1012の場合の、データ関係モデル生成処理の説明を示す。列車データテーブル1011と駅データテーブル1012のテーブル名と各テーブルのカラム名を取得し、取得結果を図3に示すエンティティテーブル10210へと格納する。
 続いて、取得した全データテーブルに対して2テーブルを選び出す選び方を計算する。本例では、対象データテーブルが2テーブルであり、ここから2テーブルを選び出す選び方は1通りとなるため、1回だけループ処理を行う。
 続いて、選び出した2テーブルの各カラム数は列車データテーブル1011が6、駅データテーブル1012が7であることから6×7=42となり42回ループ処理を行う。まず、列車データテーブル1011の施行日カラムと、駅データテーブル1012の全カラムと文字列が部分一致するかどうかを判定する(ループ回数は計7回)。同様にして列車データテーブル1011の残りの5カラムについても、駅データテーブル1012の全カラムとの文字列が部分一致するかを判定する。
 本例では、列車データテーブル1011の列車番号カラムが駅データテーブル1012の列車番号カラムと文字列部分一致することから、各カラム同士にリレーション30001が有りと判定し、判定結果を図3に示すリレーションテーブル10220に格納する。更に、列車データテーブル1011の始発駅及び終着駅カラムについても、駅データテーブル1012の駅名カラムと文字列が部分一致することから、各カラム間にリレーション30002が有りと判定し、リレーションテーブル10220に結果を格納する。
 データ関係モデル生成処理により生成したエンティティテーブル10210とリレーションテーブル10220に格納されるデータを用いることで、図5のデータ関係モデル表示部1105に示すような概略クラス図の形式で、データ関係モデルは表すことができる。
 図2に示す列車データテーブル1011と駅データテーブル1012はそれぞれ列車クラスと駅クラスとして表され、当該2データテーブル間のリレーションは列車クラスと駅クラスの間を結ぶ線で表される。図5に示すデータ関係モデルの例では、図2では記載を省略しているが車両や線路等のクラスも表示している。なお、本例では視認性向上のため車両エンティティと地上設備エンティティ間のリレーション(車両クラスの速度ログ及び室内温度ログカラムが、地上設備クラスの動作ログ及びアラームログカラムと文字列が部分一致するためリレーション有りと判定される)等の一部のリレーションについては省略して記載している。
 また、データ関係モデル生成処理におけるリレーションは、分析対象データテーブルの構造間の関係だけでなく、業種固有に見られる構造物間の階層関係や、位置や経路上における近接や前後の関係を定義してもよい。例えば、鉄道分野における列車には、列車を組成する車両、更に車両を組成する各種の車両部品というように列車-車両-車両部品といった構造物間の階層関係が考えられ、このような構造物間の階層関係をあらかじめ定義しておくことで、同一の構造物にて生じる事象を定義できる。また、位置や経路上における近接や前後の関係としては、駅の並び順や並走する線区の情報をあらかじめ定義することで、隣接する駅間で波及する事象の関係や振替路線や構造の列車に波及する関係を定義できる。
 図9は、データ結合部106が、分析対象データテーブルを1つのデータテーブルに結合する手順S302の詳細を示すフローチャートである。
 データ結合部106はデータ取得部104が取得した分析対象データテーブル全てに対して、ループ処理を行う(S3021)。
 当該テーブルのカラム毎に、カラムに定義されるデータ値を取得しデータ型の判定を行う(S3022)。
 S3022で判定したデータ型がタイムスタンプ型、日付型、時刻型のいずれかに該当するかどうかを判定する(S3023)。
 当該カラムについてタイムスタンプ型、日付型、時刻型のいずれかに該当するならば当該カラムを、時系列を示すカラムであると判定する(S3024)。
 分析対象データテーブル全てに対してデータ型の判定を行い、時系列のカラム判定が完了した後、時系列を示すと判定されたカラムをキーにして、同じデータ型同士でデータテーブルを水平方向に内部結合することで、分析対象データを1つのデータテーブルとする(S3025)。
 上例ではS3022にてカラム単位でデータ値を解析することでデータ型の判定を行っているが、どのカラムでデータテーブルの結合を行うか定まっている場合は、事前にどのカラムが系列を示すか定義したユーザ定義のデータテーブルをあらかじめ用意し、このユーザ定義テーブルを参照することで、データ型の判定を行ってもよい。例えば、線路の検査測定ログ結果データテーブルのように、線路軌道上のどの位置における検査結果かを示すキロ程というカラムが存在する場合、時系列ではなく位置系列のデータであるため、キロ程をキーにしてデータテーブルを結合したい場合がある。この場合、あらかじめユーザ定義テーブルにキロ程を定義しておき、このユーザ定義テーブルを参照し分析対象データテーブル全てに対してキロ程を含むカラムを持つかどうかを判定し、キロ程と判定されたカラムをキーにしてデータテーブル同士を水平結合する。
 また、データテーブルの結合キーとなるカラムのデータ値はデータテーブル毎に最小単位やデータ取得のタイミングが異なる場合がある。例えば、あるテーブルの時刻を示すカラムでは、30秒単位でデータが取得されている一方で、別のテーブルでは1分単位でデータが取得されているというように、同じ時刻を示すカラムでもデータの最小単位が異なっている場合がある。また、同じ30秒単位のデータテーブルであっても、データ取得のタイミングが異なることから、基点となる時刻が「10:00:05」と「10:00:12」のような場合もある。このような場合、分析実施者の要求に応じて、時刻を示すカラムのデータ値について最小単位を揃えたり、より粗い単位へと揃えたりする前処理を分析対象データテーブルに対して行ってもよい。
 図10は、意外度算出部108が、データ関係モデルに基づき相関ルール毎に意外度を算出する手順S304の詳細を示すフローチャートである。
 意外度算出部108は相関ルール抽出部107の処理完了後、抽出した相関ルールの数分だけループ処理を行う(S3041)。
 ループ処理の対象となる相関ルールについて、前提部と結論部に含まれる属性の一覧を取得する(S3042)。すでに述べたように、属性とは前提部と結論部に含まれる事象を指す。
 取得した属性一覧から2属性を選ぶ選び方数分だけループ処理を行う(S3043)。
 選び出した2属性同士のデータ関係モデルにおける距離の算出を行う(S3044)。データ関係モデルでの2属性間の距離は、当該属性が属するクラス間の距離である。クラス間の距離は、例えば図5に示されるデータ関係モデルにおいて、クラス間を結ぶリレーションの数として把握できる。例えば、列車クラスと線路クラスの距離は2である。よって、列車クラスの属性「施行日」と線路クラスの属性「キロ程」の距離は2となる。
 なお、一般にデータモデルでエンティティやテーブルと呼ばれるものが、オブジェクトモデルではクラスやオブジェクトと呼ばれる。本明細書ではエンティティ、テーブル、クラスの語は置き換えて解してもよい。
 S3043のループ処理完了後、(前提部と結論部に含まれる全属性から2属性を選ぶ選び方全てに対するデータ関係モデルにおける距離の総和)で、(2属性を選ぶ選び方のうち2属性間の距離が2以上となるものの距離の総和)を割ることで意外度を算出し、これを相関ルール格納テーブル1030の当該ルールの意外度カラムに格納する(S3045)。
 ここで、図5のデータ関係モデル表示部1105に示すデータ関係モデルに基づき、相関ルール1「列車番号(T102)⇒勾配(0.5-1.0%)」と相関ルール2「列車番号(T200)⇒アラームログ(A200)、室内温度ログ(26.0-26.5℃)」のそれぞれに対して意外度を算出する例を説明する。
 相関ルール1「列車番号(T102)⇒勾配(0.5-1.0%)」に含まれる属性の一覧として「列車番号(T102)」と「勾配(0.5-1.0%)」の2属性が取得される。各属性はそれぞれ列車データテーブル1011の列車番号カラムと、線路データテーブルの勾配カラムである。前提部と結論部に含まれる計2属性から2属性を選ぶ選び方は1通りであるため、1回だけループ処理を行う。この2属性についてデータ関係モデルでの距離を算出すると、「列車番号(T102)」は列車クラスに属し「勾配(0.5-1.0%)」は線路クラスに属していることから、各々のクラスは車両クラスを挟んで距離2である。意外度を算出すると(前提部と結論部に含まれる全属性から2属性を選ぶ選び方全てに対してデータ関係モデルにおける距離の総和)は2、(2属性を選ぶ選び方のうち2属性間の距離が2以上となるものの距離の総和)も2となり、2/2=1となり意外度は1(100%)となる。
 また、相関ルール2「列車番号(T200)⇒アラームログ(A200)、室内温度ログ(26.0-26.5℃)」に含まれる属性の一覧として、「列車番号(T200)」、「アラームログ(A200)」、「室内温度ログ(26.0-26.5℃)」の3属性が取得される。各属性はそれぞれ列車データテーブル1011の列車番号カラムと、地上設備データテーブルのアラームログカラムと、車両データテーブルの室内温度ログカラムである。前提部と結論部に含まれる計3属性から2属性を選ぶ選び方は、「列車番号(T200)とアラームログ(A200)」、「列車番号(T200)と室内温度ログ(26.0-26.5℃)」、「アラームログ(A200)と室内温度ログ(26.0-26.5℃)」の計3通りであるため、3回だけループ処理を行う。各属性の組合せについて、データ関係モデルでの距離を算出すると、「列車番号(T200)とアラームログ(A200)」間の距離=列車クラスと地上設備クラス間の距離=3、「列車番号(T200)と室内温度ログ(26.0-26.5℃)」間の距離=列車クラスと車両クラス間の距離=1、「アラームログ(A200)と室内温度ログ(26.0-26.5℃)」間の距離=車両クラスと地上設備クラス間の距離=2となる。従って意外度を算出すると、(前提部と結論部に含まれる全属性から2属性を選ぶ選び方全てに対してデータ関係モデルにおける距離の総和)は3+1+2=6、(2属性を選ぶ選び方のうち2属性間の距離が2以上となるものの距離の総和)=3+2=5となり、5/6=0.83で意外度は0.83(83%)となる。
 以上のように意外度を計算することにより、相関ルールの前提部、結論部の各属性として、モデルで距離2以上のものが多いほど、意外度が大きくなる。つまり、一般的な物体や事象の関係とは乖離した属性の組み合わせを持つルールほど、意外な関係として評価される。このように、意外度という評価指標を導入することにより、膨大な数の相関ルール中からデータの組合せとして意外なものを定量的に評価することができ、効果的にルールを絞り込むことができる。
 なお、上記の例では、(2属性を選ぶ選び方のうち2属性間の距離が2以上となるものの総和)を分子としているが、(2属性を選ぶ選び方のうち2属性間の距離がm以上となるものの距離の総和)として、パラメータmを例えば3以上として、任意に設定することも可能である。mを大きくするほど、意外性の大きなルールがより強調される意外度が得られる。
 実施例1では、データテーブル間のリレーションについて、存在有無の結果のみを用いて意外度を算出している。他の例では、意外度算出部108では、意外度算出にリレーションの重みを考慮してもよい。実施例2では、意外度算出にリレーションの重みを考慮する例を示す。
 リレーションの重みとは2テーブル間でリレーション有りと判定されたカラムのペア数で定義することができる。リレーションの重みで、2テーブル間のデータ構造上での関連性の強さを数値的に表すことができる。
 例えば、図3に示す例では、リレーションテーブル10220に、列車データテーブル1011と駅データテーブル1012間で計3レコード(ペア)のリレーションが定義されている。このため、列車データテーブル1011と駅データテーブル1012間の重みは3となる。重みの大きいリレーションの両端のデータテーブル同士ほど、データ分析における分析対象データとして組合せとして選択される可能性が高いといえる。このため、重みの大きいリレーションの両端のデータテーブル同士は、データの組合せとしては意外性がなく、当たり前であると考えられる。
 従って、リレーションの重みを考慮した意外度算出では、図7の意外度算出S304において、2テーブル間のデータ関係モデルの距離に対して、リレーションの重みの逆数を掛ける等の処理を行い、データ関係モデルでの距離を補正した上で算出を行う。こうすることで、データ構造上での関連性の強さまで考慮して意外度を算出することができる。
 また、分析対象データの組合せによっては、データ関係モデルで任意の2カラムの距離の算出において、当該2カラムが属する2クラス間を結ぶ経路が複数存在する場合や、ループ経路が存在する場合がある。このような場合は、データモデルにおける2カラム間の距離算出では、最短となる経路の距離を取得したり、一度通過した経路は二度通過しないという制約を設けたりする等により、意外度を算出してもよい。
 すなわち、実施例1では、相関ルールの前提部及び結論部の属性が含まれるデータテーブル間に存在する、リレーションの数をカウントすることにより、当該属性間の距離を求めていた。実施例2では、リレーションにより対応付けられた2テーブル間で、カラム名が部分一致あるいは完全一致するペアの数で当該リレーションの重みを算出し、重みの逆数を前記2テーブル間のリレーションの補正値とし、相関ルールの前提部及び結論部の属性が含まれる前記データテーブル間に存在する、リレーションの補正値を加算することにより、当該属性間の距離を求める。なお、実施例1ではパラメータmは基本的に自然数であるが、実施例2では重み付けの処理があるためパラメータmは自然数でなくてもよい。
 以上説明した実施例に拠れば、分析実施者は、膨大な数の相関ルール中からデータの組合せとして自明なものと意外なものを判断しながらルールを絞り込むことができ、業務改善や原因分析のための有益な情報把握を素早く行える。
 本実施例は、情報処理装置を用いてデータ分析を支援する事業に利用することができる。
 データ分析支援システム100、分析対象データ蓄積部101、データ関係モデル記憶部102、相関ルール記憶部103、データ取得部104、データ関係モデル生成部105、データ結合部106、相関ルール抽出部107、意外度算出部108、ルール推薦部109、ユーザインターフェース部110

Claims (15)

  1.  データ分析支援システムであって、
     複数のデータテーブルを含む分析対象データテーブルを記憶する、記憶装置と、
     前記分析対象データテーブルを解析し、前記データテーブルに含まれる属性の相関を示す複数の相関ルールを抽出する、相関ルール抽出部と、
     前記複数のデータテーブル間の関連性を示すデータ関係モデルを生成する、データ関係モデル生成部と、
     前記相関ルール毎に、当該相関ルールの前提部及び結論部の属性の組合せを生成し、当該組合わせ毎の前記データ関係モデルにおける当該属性間の距離を求め、当該距離に基づき意外度を算出する、意外度算出部と、
     を備えることを特徴とするデータ分析支援システム。
  2.  前記意外度算出部は、前記相関ルール毎に、
     「当該相関ルールの前提部と結論部に含まれる全属性から2属性を選ぶ選び方全てに対するデータ関係モデルにおける前記距離の総和」で、「前記2属性を選ぶ選び方のうち2属性間の距離がm以上となるものの前記距離の総和」を割ることで、
     前記相関ルール毎に前記意外度を算出する、
     請求項1記載のデータ分析支援システム。
  3.  前記mは2である、
     請求項2記載のデータ分析支援システム。
  4.  前記意外度算出部は、
     前記データテーブル間の関連性に重み付けを行い、当該重み付けによって前記テーブル間の距離を補正する、
     請求項1記載のデータ分析支援システム。
  5.  前記データ関係モデルは、
     前記データテーブルのそれぞれに含まれる属性名を示すエンティティテーブルと、前記データテーブルのそれぞれに含まれる属性名の関連性の有無を示すリレーションテーブルから構成される、
     請求項1記載のデータ分析支援システム。
  6.  請求項1に記載のデータ分析支援システムであって、
     前記相関ルール毎に算出した前記意外度を提示するための分析者向け画面を生成するユーザインターフェース部を備えること、
     を特徴とするデータ分析支援システム。
  7.  請求項6に記載のデータ分析支援システムであって、
     前記意外度に対する所定の閾値を受信し、受信した閾値よりも高い値をもつ前記相関ルールを絞り込むルール推薦部を備えること、
     を特徴とするデータ分析支援システム。
  8.  入力装置、出力装置、記憶装置、および処理装置を含む情報処理装置で実行されるデータ分析支援システム方法であって、
     前記記憶装置に、複数のデータテーブルを含む分析対象データテーブルを準備する、第1のステップと、
     前記複数のデータテーブル間の関連性を示すデータ関係モデルを生成する、第2のステップと、
     前記分析対象データテーブルを解析し、前記データテーブルに含まれる属性の相関を示す複数の相関ルールを抽出する、第3のステップと、
     前記相関ルール毎に、当該相関ルールの前提部及び結論部の属性の組合せを生成し、当該組合わせ毎の前記データ関係モデルにおける当該属性間の距離を求め、当該距離に基づき意外度を算出する、第4のステップと、
     を備えることを特徴とするデータ分析支援方法。
  9.  前記第4のステップは、前記相関ルール毎に、
     「当該相関ルールの前提部と結論部に含まれる全属性から2属性を選ぶ選び方全てに対するデータ関係モデルにおける前記距離の総和」で、「前記2属性を選ぶ選び方のうち2属性間の距離がm以上となるものの前記距離の総和」を割ることで、
     前記相関ルール毎に前記意外度を算出する、
     請求項8記載のデータ分析支援方法。
  10.  前記mは2である、
     請求項9記載のデータ分析支援方法。
  11.  前記第4のステップは、
     前記データテーブル間の関連性に重み付けを行い、当該重み付けによって前記テーブル間の距離を補正する、
     請求項8記載のデータ分析支援方法。
  12.  前記データ関係モデルは、
     前記データテーブルのそれぞれに含まれる属性名を示すエンティティテーブルと、前記データテーブルのそれぞれに含まれる属性名の関連性の有無を示すリレーションテーブルから構成される、
     請求項8記載のデータ分析支援方法。
  13.  前記出力装置が、前記意外度に対する閾値を入力させるための画面を表示する第5のステップと、
     前記入力装置から前記閾値を受信し、当該閾値よりも高い意外度をもつ前記相関ルールを絞り込む第6のステップを有する、
     請求項8記載のデータ分析支援方法。
  14.  前記複数のデータテーブルのそれぞれは、属性名を示すカラム名を含み、
     前記第2のステップは、
     前記複数のデータテーブルうち、前記カラム名が部分一致あるいは完全一致する2つのテーブルをリレーションにより対応付けることにより、前記複数のデータテーブル間の関連性を示すデータ関係モデルを生成し、
     前記第4のステップは、
     前記相関ルールの前提部及び結論部の属性が含まれる前記データテーブル間に存在する、前記リレーションの数をカウントすることにより、当該属性間の距離を求める、
     請求項8記載のデータ分析支援方法。
  15.  前記第4のステップは、
     前記リレーションにより対応付けられた2テーブル間で、カラム名が部分一致あるいは完全一致するペアの数で当該リレーションの重みを算出し、
     当該重みの逆数を前記2テーブル間のリレーションの補正値とし、
     前記相関ルールの前提部及び結論部の属性が含まれる前記データテーブル間に存在する、前記リレーションの補正値を加算することにより、当該属性間の距離を求める、
     請求項14記載のデータ分析支援方法。
PCT/JP2018/032804 2018-01-22 2018-09-05 データ分析支援システム及びデータ分析支援方法 WO2019142391A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020207002401A KR102312685B1 (ko) 2018-01-22 2018-09-05 데이터 분석 지원 시스템 및 데이터 분석 지원 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018008112A JP6903595B2 (ja) 2018-01-22 2018-01-22 データ分析支援システム及びデータ分析支援方法
JP2018-008112 2018-01-22

Publications (1)

Publication Number Publication Date
WO2019142391A1 true WO2019142391A1 (ja) 2019-07-25

Family

ID=67302092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/032804 WO2019142391A1 (ja) 2018-01-22 2018-09-05 データ分析支援システム及びデータ分析支援方法

Country Status (3)

Country Link
JP (1) JP6903595B2 (ja)
KR (1) KR102312685B1 (ja)
WO (1) WO2019142391A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761034A (zh) * 2021-09-15 2021-12-07 深圳信息职业技术学院 一种数据处理方法及其装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7247060B2 (ja) * 2019-09-02 2023-03-28 株式会社日立製作所 データの利活用のためのデータ準備を支援するシステム、及び、その方法
WO2023238288A1 (ja) * 2022-06-08 2023-12-14 日本電信電話株式会社 先行関係抽出装置及び先行関係抽出方法並びに先行関係抽出プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1131154A (ja) * 1997-07-11 1999-02-02 Mitsubishi Electric Corp 相関ルール表示装置
JP2007323504A (ja) * 2006-06-02 2007-12-13 Yokogawa Electric Corp プロセス解析システムおよびプロセス解析方法
JP2015026188A (ja) * 2013-07-25 2015-02-05 株式会社日立製作所 データベース分析装置及び方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3452308B2 (ja) * 1999-06-04 2003-09-29 株式会社日立製作所 データ分析装置
JP6018541B2 (ja) 2013-05-13 2016-11-02 日本電信電話株式会社 推薦ルール生成装置、推薦ルール生成方法および推薦ルール生成プログラム
WO2014208728A1 (ja) * 2013-06-27 2014-12-31 日本電気株式会社 ルール発見方法と情報処理装置並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1131154A (ja) * 1997-07-11 1999-02-02 Mitsubishi Electric Corp 相関ルール表示装置
JP2007323504A (ja) * 2006-06-02 2007-12-13 Yokogawa Electric Corp プロセス解析システムおよびプロセス解析方法
JP2015026188A (ja) * 2013-07-25 2015-02-05 株式会社日立製作所 データベース分析装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761034A (zh) * 2021-09-15 2021-12-07 深圳信息职业技术学院 一种数据处理方法及其装置

Also Published As

Publication number Publication date
KR20200019741A (ko) 2020-02-24
JP2019128646A (ja) 2019-08-01
JP6903595B2 (ja) 2021-07-14
KR102312685B1 (ko) 2021-10-15

Similar Documents

Publication Publication Date Title
CN110119413B (zh) 数据融合的方法和装置
JP4925143B2 (ja) ストリームデータ処理システム、ストリームデータ処理方法及びストリームデータ処理プログラム
US8645332B1 (en) Systems and methods for capturing data refinement actions based on visualized search of information
US10459888B2 (en) Method, apparatus and system for data analysis
CN104462084B (zh) 基于多个查询提供搜索细化建议
TWI532001B (zh) 文件分類系統及文件分類方法以及文件分類程式
US10592327B2 (en) Apparatus, system, and method for analyzing logs
WO2019142391A1 (ja) データ分析支援システム及びデータ分析支援方法
US9344507B2 (en) Method of processing web access information and server implementing same
JP2012164318A5 (ja)
JP2008027072A (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
US11775412B2 (en) Machine learning models applied to interaction data for facilitating modifications to online environments
Dasu Data glitches: Monsters in your data
JP2022133401A (ja) 関連スコア算出システム、方法およびプログラム
JP2007323315A (ja) 協調フィルタリング方法、協調フィルタリング装置、および協調フィルタリングプログラムならびにそのプログラムを記録した記録媒体
CN114022051A (zh) 一种指标波动分析方法,存储介质和电子设备
CN109271495A (zh) 问答识别效果检测方法、装置、设备及可读存储介质
US20160063394A1 (en) Computing Device Classifier Improvement Through N-Dimensional Stratified Input Sampling
US10002361B2 (en) Remote supervision of client device activity
WO2023050649A1 (zh) 基于数据补全的esg指数确定方法及相关产品
TW201539217A (zh) 文件分析系統、文件分析方法、以及文件分析程式
CN110008282A (zh) 交易数据同步对接方法、装置、计算机设备及存储介质
CN105786929A (zh) 一种信息监测方法及装置
Pan et al. New insights into breadth-first search edge ordering of regular networks for terminal-pair reliability analysis
Aggarwal Identification of quality parameters associated with 3V's of Big Data

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 20207002401

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18900787

Country of ref document: EP

Kind code of ref document: A1