WO2015186249A1 - データ分析作業支援装置及びデータ分析作業支援方法 - Google Patents
データ分析作業支援装置及びデータ分析作業支援方法 Download PDFInfo
- Publication number
- WO2015186249A1 WO2015186249A1 PCT/JP2014/065097 JP2014065097W WO2015186249A1 WO 2015186249 A1 WO2015186249 A1 WO 2015186249A1 JP 2014065097 W JP2014065097 W JP 2014065097W WO 2015186249 A1 WO2015186249 A1 WO 2015186249A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- analysis
- information
- man
- analysis procedure
- work
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 737
- 238000007405 data analysis Methods 0.000 title claims abstract description 114
- 238000004458 analytical method Methods 0.000 claims abstract description 600
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 142
- 238000004364 calculation method Methods 0.000 claims description 93
- 238000012545 processing Methods 0.000 claims description 37
- 230000010365 information processing Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012351 Integrated analysis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Definitions
- the present invention relates to a data analysis work support device and a data analysis work support method.
- Patent Document 1 a maintenance support system that calculates an expected work time or an expected cost based on a support work tree related to the maintenance work of the target device and presents a work procedure that minimizes the work time and cost. Proposed.
- analysis procedure selection policies there is a policy of selecting analysis procedures that share the same work content as much as possible. By carrying out analysis procedures with partially shared work contents simultaneously and in parallel, it is possible to avoid duplicate steps and reduce the number of work steps compared to performing each analysis procedure alone. By selecting a set of analysis procedures that include common processes, it is possible to implement many analysis procedures under the constraints of man-hours. This selection policy is useful from the viewpoint of work efficiency.
- the second selection policy there may be a case where there are few types of analysis procedures that can be performed due to the increase in man-hours, but there is a selection policy that selects an analysis procedure with as few common parts as possible. With this selection policy, it becomes easy to ensure diversity regarding work contents and analysis results. Which one of the above-described selection policies is to be adopted is determined by the operator as appropriate considering the situation.
- an object of the present invention is to provide a technology that enables support of data analysis work that flexibly responds to a change in conditions while taking into consideration the efficiency and diversity of the analysis work.
- the data analysis work support device of the present invention that solves the above problems is a storage device that stores procedure information that is information of each analysis procedure consisting of a series of steps in the data analysis work, information on the man-hour constraint in the data analysis work, Information indicating a balance between work efficiency and diversity is received by the input device, and the number of man-hours out of a combination of the processing for storing each received information in the storage device and each analysis procedure
- a process for extracting a set of analysis procedures that is a combination satisfying the constraint conditions based on the procedure information and a similarity between each analysis procedure constituting the analysis procedure set is calculated by a predetermined algorithm, and each of the calculated A process of calculating the average similarity between the analysis procedures as an average similarity for the set of analysis procedures, and a value of the efficiency of the work according to the height of the average similarity,
- the process of calculating the display priority of the corresponding analysis procedure set by weighting and summing the values of the work diversity according to the low degree of the average similarity based on
- the data analysis work support method of the present invention is an information processing apparatus including a storage device that stores procedure information that is information of each analysis procedure including a series of steps in the data analysis work.
- procedure information that is information of each analysis procedure including a series of steps in the data analysis work.
- a combination of each of the analysis procedures and the process of receiving the information and the information indicating the intentional balance between the efficiency and diversity of the work by the input device and storing each received information in the storage device A process of extracting a set of analysis procedures that is a combination satisfying the man-hour constraint based on the procedure information, and calculating a similarity between the analysis procedures constituting the analysis procedure set by a predetermined algorithm, A process of calculating the average similarity between the calculated analysis procedures as the average similarity for the set of corresponding analysis procedures, and the efficiency of the work according to the height of the average similarity
- the display priority of the corresponding analysis procedure set is calculated by weighting and summing the values of the work diversity according to the low value of the average similarity based on the information on the
- the data analysis work assumed in the present embodiment refers to a work in which a plurality of processes for performing a predetermined work, that is, work processes are performed in a predetermined order. Also, here, a series of work steps performed to satisfy a certain work purpose is called an analysis procedure.
- the above-mentioned work purpose is, for example, “to predict future sales from product sales data” or “to remove noise from sales data”, and the contents thereof are not particularly limited.
- An analysis procedure expressed in a flowchart format is referred to as an analysis procedure flowchart.
- branches of the analysis procedure based on various judgments are also expressed.
- the worker who performs the analysis selects a plurality of analysis procedures according to his / her work purpose based on the analysis procedure flowchart and the analysis procedure manual in which the work contents are detailed.
- the reason for selecting a plurality of analysis procedures is that an analysis purpose cannot always be realized with only one type of analysis procedure.
- the analysis work policy is a policy when the analysis operator selects an analysis procedure.
- FIG. 1 is a diagram illustrating a hardware configuration example of a data analysis work support device 100 according to the present embodiment.
- a data analysis work support device 100 shown in FIG. 1 is a computer that enables support for data analysis work that flexibly responds to changes in conditions while taking into consideration the efficiency and diversity of analysis work.
- the data analysis work support device 100 includes a storage device 101 composed of appropriate nonvolatile storage elements such as SSD (Solid State Drive) and a hard disk drive, a memory 103 composed of volatile storage elements such as RAM, and a storage device 101.
- the stored program 102 is read into the memory 103 and executed to perform overall control of the apparatus itself and perform various determinations, calculations and control processes, a calculation device 104 such as a CPU, a keyboard for receiving input operations from an analysis operator, An input device 105 such as a mouse and an output device 106 such as a display for displaying processing results to an analysis worker are provided.
- the storage device 101 stores a program 102 for implementing functions necessary for the data analysis work support device 100 of the present embodiment and an information database 120 storing data necessary for various processes.
- the information database 120 stores tables 121 to 127 described later. ---- Functional structure of data analysis work support device --- Next, functions provided in the data analysis work support device 100 of this embodiment will be described. As described above, it can be said that the functions described below are implemented by executing the program 102 provided in the data analysis work support apparatus 100, for example.
- FIG. 2 is a diagram illustrating a functional configuration example of the data analysis work support device 100 according to the present embodiment.
- the functions included in the data analysis work support device 100 according to the present embodiment include a display procedure calculation unit 110 that calculates an analysis procedure to be presented to the analysis worker, and a screen display unit that presents the analysis procedure to the analysis worker via the output device 106.
- Reference numeral 116 denotes a screen operation processing unit 117 that receives and processes a screen operation by an analysis worker via the input device 105. Further, data relating to analysis procedures and constraint conditions used by these functions as appropriate is stored in the information database 120.
- the display procedure calculation unit 110 includes five components: an analysis procedure calculation unit 111, an analysis procedure information calculation unit 112, a procedure similarity calculation unit 113, an analysis procedure set calculation unit 114, and a display procedure set calculation unit 115.
- the analysis procedure calculation unit 111 reads the information about the structure of the analysis procedure flowchart and the work process from the information database 120, and calculates a series of work processes from the start to the end of the analysis work as the analysis procedure. Further, the analysis procedure information calculation unit 112 estimates the man-hours and the man-hour variations necessary for executing the analysis procedures, which are necessary when selecting the analysis procedures.
- the procedure similarity calculation unit 113 evaluates the similarity between analysis procedures.
- the degree of similarity evaluated here is used when evaluating the diversity of the analysis procedure set.
- the analysis procedure set calculation unit 114 calculates a set of analysis procedures that are candidates to be presented to the analysis worker.
- the display procedure set calculation unit 115 calculates the display priority of the analysis procedure set based on the constraint conditions in order to determine the analysis procedure set to be displayed to the analysis worker.
- the screen display unit 116 reads information on the analysis procedure set and the analysis procedure flowchart presented to the analysis worker from the information database 120 and displays the information on the output device 106 such as a display.
- the analysis operator selects an analysis procedure to be performed with reference to the analysis procedure set and the analysis procedure flowchart displayed on the output device 106 by the screen display unit 116.
- the analysis worker performs input and operation on the screen display unit 116 via the input device 105, thereby correcting the constraint condition and instructing to highlight a specific analysis procedure.
- the screen operation processing unit 117 processes the screen operation of the analysis worker in the screen display unit 116 described above. As described above, the analysis operator operates the screen display contents and inputs and corrects the constraint conditions on the screen display unit 116. On the other hand, the screen operation processing unit 117 processes such operations and inputs by the analysis worker, and records the results in the information database 120.
- the information database 120 in this embodiment is composed of seven tables.
- the chart structure table 121 is a table in which the structure of the analysis procedure flowchart is recorded.
- the analysis procedure flowchart in the present embodiment is recorded as a directed graph having a work process and a work branch (branch process) as nodes.
- the node information table 122 records information regarding work processes and work branches constituting the analysis procedure flowchart. Specifically, it is information such as the man-hours required for carrying out the work process and the importance of branching.
- procedure information table 123 information on the analysis procedure calculated by the analysis procedure information calculation unit 112 is recorded.
- procedure similarity table 124 the similarity between analysis procedures calculated by the procedure similarity calculation unit 113 is recorded.
- procedure set information table 125 records information on the analysis procedure set calculated by the analysis procedure set calculation unit 114.
- the input constraint condition table 126 records the constraint conditions received from the analysis worker by the input device 105 or preset constraint conditions.
- the work policy information table 127 records a work policy received from the analysis worker by the input device 105 or a preset work policy.
- information related to two policies, the above-described efficiency-oriented policy and diversity-oriented policy is recorded.
- Processing flow example ---
- Various operations corresponding to the data analysis work support method described below are realized by a program 102 that the data analysis work support apparatus 100 reads into the memory 103 and executes.
- the program 102 is composed of codes for performing various operations described below.
- FIG. 3 is a diagram showing a flow example 1 of the data analysis work support method in the present embodiment, and specifically, is a main flow of the data analysis work support method.
- This flowchart shows a series of processing flows for displaying a set of analysis procedures satisfying the constraint condition input by the analysis worker from a large number of analysis procedures in the data analysis work support apparatus 100 described above.
- the analysis procedure calculation unit 111 of the data analysis work support apparatus 100 analyzes a series of work steps from the start to the end of the analysis work based on the analysis procedure flowchart. Calculate as a procedure.
- the specific content of this procedure calculation process is shown in the flow of FIG.
- the analysis procedure calculation unit 111 reads the structure of the analysis procedure flowchart from the chart structure table 121 (S101).
- a specific example of the chart structure table 121 is shown in FIG.
- the chart structure table 121 in this embodiment records the structure of the analysis procedure flowchart in the form of an adjacency matrix related to a directed graph having a work process and a branch constituting the analysis procedure flowchart as nodes.
- This adjacency matrix is composed of cells of node IDs 1211, 1212 for identifying each node, that is, one work process, and a matrix of cells 1213 indicating the presence / absence of a link from the node Nj to the node Ni.
- a link from the node Nj to the node Ni indicates that the next work process of the node Nj is Ni.
- the table 121 is created by a work analyst based on knowledge obtained through past analysis work before using the data analysis work support apparatus 100 and stored in the information database 120 in advance.
- the analysis procedure calculation unit 111 reads, from the node information table 122, node information such as a work process and a branch constituting the analysis procedure flowchart obtained in step S101 described above (S102).
- FIG. 6 shows an example of the node information table 122 in the present embodiment.
- this table 122 a node ID 1221, a node type 1222, a node description 1223, a man-hour 1224 required for the corresponding process and its variation 1225, and a branch importance 1226 when the node is a branch are recorded. Similar to the chart structure table 121, this table 122 is prepared in advance by an analysis worker or the like before use of the data analysis work support device 100 and is stored in the information database 120.
- nodes stored in the node type 1222 there are four types of nodes stored in the node type 1222: the start and end points of the analysis procedure flowchart, the work process, and the branch (branch process) of the analysis procedure.
- the node description 1223 a work summary of the corresponding node is recorded.
- the man-hour 1224 a standard man-hour when a work process or a branch indicated by the corresponding node is executed is recorded.
- the unit of the value of the man-hour 1224 is man-month.
- the variation 1225 represents the variation of the man-hour 1224, and the unit of the value is the man month.
- the values of the man-hour 1224 and the variation 1225 are set based on a past analysis work result value or a subjective estimated value by an analysis worker.
- the branch importance 1226 is a numerical value representing the importance of the branch process in the analysis procedure.
- analysis procedure branches such as a branch based on input parameter values at the time of analysis execution and a branch for selecting data to be analyzed. Some of these branches have a great influence on the contents of analysis work and analysis results. For example, if the purpose of the analysis work is to analyze data and visualize the results, the branch of selecting a visualization method is important. In this way, the degree of influence that a branch in an analysis procedure has on the content of an analysis work and the analysis result is defined as a branch importance.
- the branch importance 1226 in the present embodiment assumes a value from 0 (low importance) to 1.0 (high importance).
- the value of the branch importance 1226 is set in advance based on the actual value of the past analysis work and the subjective estimated value by the analysis worker, as well as the man-hour and the variation thereof.
- the analysis procedure calculation unit 111 determines the route from the start point node to the end point node based on the graph structure of the analysis procedure flowchart read in steps S101 and S102 and the IDs of the start point and end point node. (S103).
- the path of the node ID calculated here is an analysis procedure representing a series of analysis steps.
- the route is calculated by extracting different subgraphs including the start point node and the end point node.
- the analysis procedure calculation unit 111 assigns an ID to the analysis procedure (node ID series) calculated in step S103 described above and records it in the procedure information table 123 (S104).
- FIG. 7 shows an example of the procedure information table 123 in the present embodiment.
- This table 123 includes an analysis procedure ID 1231, a series of nodes 1232 constituting the analysis procedure, a manhour 1233 and its variation 1234 required to execute the analysis procedure, a flag 1235 indicating whether or not the analysis procedure has been executed, and the procedure on the screen display unit. It is composed of a flag 1236 indicating whether or not it is highlighted.
- the values of the man-hour 1233 and the variation 1234 are calculated in a later step (step S203 in the procedure information calculation process (S2), see FIG. 8).
- the value of the execution flag 1235 takes a value of “1” if the analysis procedure has been confirmed or executed by the user, and takes a value of “0” if the analysis procedure has not been confirmed or executed.
- the display flag 1236 takes a value of “1” if the analysis procedure is to be highlighted on the screen display unit 116, and takes a value of “0” if it is not to be highlighted.
- These flag values are values that are input when the analysis operator operates the screen display unit 116 via the input device 105.
- Each is used in the procedure set calculation process (S4: see S402 in FIG. 12) and the screen display process (S7: see S707 in FIG. 18).
- the analysis procedure information calculation unit 112 executes a procedure information calculation process (S2).
- this analysis procedure information calculation process the man-hours required for execution of the analysis procedure and variations thereof are calculated for the analysis procedure calculated in the above-described procedure calculation process (S1).
- the contents of this procedure information calculation process (S2) are shown in the process flow of FIG.
- the analysis procedure information calculation unit 112 reads a sequence of node IDs constituting the analysis procedure from the procedure information table 123 (S201). Subsequently, the analysis procedure information calculation unit 112 reads the manhours and variations of the nodes constituting the analysis procedure from the node information table 122 (S202).
- the analysis procedure information calculation unit 112 calculates the man-hours and variations required for executing the analysis procedure constituted by the nodes based on the work and variations of each node read in step S202 described above (S203).
- the sum of the man-hours in the analysis procedure is the sum of the man-hours of each node constituting the analysis procedure.
- the man-hour variation in the analysis procedure is the sum of the variations of the nodes constituting the analysis procedure. The calculation of the man-hour and the variation in the analysis procedure is performed for all analysis procedures recorded in the procedure information table 123.
- the analysis procedure information calculation unit 112 records the man-hours and variations of the analysis procedure calculated in step S203 described above in the man-hour column 1233 and the variation column 1234 of the procedure information table 123 (S204).
- the procedure similarity calculation unit 113 executes a procedure similarity calculation process (S3).
- this procedure similarity calculation process (S3) the similarity between the analysis procedures calculated in the procedure calculation process (S1) is evaluated.
- FIG. 9 shows a detailed flow of the procedure similarity calculation process (S3).
- the procedure similarity calculation unit 113 first reads a series of node IDs constituting the analysis procedure from the procedure information table 123 (S301).
- the procedure similarity calculation unit 113 reads the branch importance of the branch node included in each analysis procedure from the node information table 122 (S302).
- the similarity between the analysis procedures is calculated based on the branch importance of the branch common between the two analysis procedures.
- the procedure similarity calculation unit 113 calculates the similarity for all analysis procedure pairs (S303).
- a processing flow for calculating the similarity between the analysis procedures is shown in FIG. In this flow, the procedure similarity calculation unit 113 first determines whether there is a branch common to the two analysis procedures (S3031). If there is no common branch as a result of this determination (S3031: NO), the similarity between the corresponding analysis procedures is set to 0 (S3032), and this flow is ended.
- the procedure similarity calculation unit 113 determines whether the next process of the common branch specified in step S3031 is different between the corresponding analysis procedures. Determination is made (S3033).
- the procedure similarity calculation unit 113 sets the similarity between corresponding analysis procedures to 0 with the intention of removing from the subsequent processing (S3032), and ends this flow.
- the procedure similarity calculation unit 113 has a common branch in which the next process differs between the corresponding analysis procedures. It is determined whether there are a plurality (S3034).
- the procedure similarity calculation unit 113 records the similarity between the analysis procedures calculated in step S303 described above in the procedure similarity table 124 (S304).
- FIG. 11 shows an example of the procedure similarity table 124 in the present embodiment.
- the similarity between analysis procedures is recorded in the form of a two-dimensional matrix.
- the two-dimensional matrix of the procedure similarity table 124 includes analysis procedure IDs 1241 and 1242 and similarity values 1243 between the analysis procedures Pl to Pk.
- the analysis procedure set calculation unit 114 executes an analysis procedure set calculation process (in S4).
- the analysis procedure set calculation unit 114 can avoid duplicative execution of work processes by simultaneously executing analysis procedures having partially common work processes, so that each analysis procedure is performed independently.
- a set of analysis procedures is calculated in order to take into account the effect of reducing the work man-hours.
- This set of analysis procedures is a candidate to be displayed to the analysis worker.
- FIG. 12 shows details of the processing flow of this processing.
- the analysis procedure set calculation unit 114 reads the constraint conditions input by the analysis operator via the input device 105 on the screen display unit 116 and stored in the input constraint condition table 126 (S401).
- FIG. 13 shows an example of the input constraint condition table 126 in the present embodiment.
- this table 126 values of an input man-hour 1261, a risk tolerance 1262, and a work policy 1263 that are input to the screen display unit 116 by the analysis worker via the input device 105 are recorded.
- the input man-hour 1261 is an upper limit value of man-hours that can be used by the analysis worker for the analysis work, and the unit is man-month.
- the data analysis work support device 100 presents the analysis procedure to the analysis worker within the range of the manhour constraint indicated by the input manhour 1261.
- the risk tolerance 1262 is a value representing how much the analysis worker can tolerate a risk that the man-hour required for executing the analysis procedure exceeds the man-hour constraint. There is a risk that data analysis work will exceed the estimated man-hours for some reason. And how much this analysis worker can tolerate this risk depends on the purpose of the analysis work. For example, in a situation where the results of data analysis are reported to an external customer, it is important to satisfy the man-hour constraint in order to meet the deadline agreed with the customer. On the other hand, in the situation where the analysis results are reported at a study group in the organization, the risk that the analysis work exceeds the man-hour limit is acceptable to some extent. From the above, it is considered that the risk tolerance of the analysis worker is important in the selection of the analysis procedure. In the present embodiment, three levels of risk tolerance (high, medium, and low) are received from the analysis operator and set in the table 126.
- the work policy 1263 is a value that represents the policy under which the analysis work is performed. This value is a value set by the analysis worker in order to consider that the analysis procedure to be selected differs depending on the purpose of the analysis work. As described above, in the present embodiment, two work policies are assumed: “efficiency-oriented policy” and “diversity-oriented policy”. Therefore, the screen display unit 116 via the input device 105 determines which of these two policies is prioritized or whether an intermediate policy considering both policies (referred to as “balance-oriented policy”) is intended. Let the analysis operator specify in Here, the work policy designated by the analysis worker is stored in the table 126 by the data analysis work support apparatus 100.
- the analysis procedure set calculation unit 114 reads the analysis procedure in which the value of the execution flag 1235 is “0” (indicating unexecuted) from the procedure information table 123, and extracts these subsets (S402). .
- the number of elements in the analysis procedure subset is 1 or more.
- the analysis procedure set calculation unit 114 reads the analysis procedure manhour 1233 and its variation 1234 from the procedure information table 123, and the similarity value 1243 between the analysis procedures from the procedure similarity information table 124, and the above-described step S402. For each set of analysis procedures extracted in (1), man-hours, their variations, and average similarity are calculated (S403).
- the man-hours of the analysis procedure set are the sum of the man-hours of the analysis procedures constituting the set, and the variation is also the sum of the variations of the man-hours constituting the analysis procedure set.
- the average similarity of the analysis procedure set is the average value of the similarities of all pairs of each analysis procedure constituting the analysis procedure set. However, when there is one analysis procedure constituting the analysis procedure set, the average similarity of the analysis procedure set is “0”. A set of analysis procedures composed of analysis procedures whose work contents are similar to each other has a high average similarity value.
- the analysis procedure set calculation unit 114 records the calculated man-hours, variations, and average similarity of the analysis procedure set in the procedure set information table 125.
- FIG. 14 shows an example of the procedure set information table 125 in the present embodiment.
- This table 125 includes an analysis procedure set ID 1251, an analysis procedure procedure ID series 1252 that constitutes the analysis procedure set, an analysis procedure set man-hour 1253 and its variation 1254, an average similarity 255, and whether or not the man-hour constraint condition is satisfied 1256. , And display priority 1257.
- the analysis procedure set calculation unit 114 performs an analysis procedure that satisfies the man-hour constraint based on the man-hour and variation of the analysis procedure set calculated in step S403 described above, and the man-hour constraint and risk tolerance read in step S401 described above.
- a set is extracted (S404).
- the analysis procedure set calculation unit 114 records the determination result of whether or not the analysis procedure set satisfies the manhour constraint in the above-described step S404 in the procedure set information table 125 (S405).
- the analysis procedure set calculation unit 114 records a value of “1” in the man-hour constraint satisfaction 1257 column in the procedure set information table 125. .
- the analysis procedure set calculation unit 114 receives the result of step S4 described above, and determines whether there is an analysis procedure set that satisfies the manhour constraint (S5).
- FIG. 15 shows a detailed flow of this processing.
- the analysis procedure set calculation unit 114 calculates the number of analysis procedure sets satisfying the manhour constraint from the procedure set information table 125 (S501).
- step S ⁇ b> 501 the analysis procedure set calculation unit 114 counts the number of analysis procedure sets in which the manhour constraint satisfaction column in the procedure set information table 125 is “1”.
- the analysis procedure set calculation unit 114 determines whether or not the number of analysis procedure sets satisfying the manhour constraint is 1 or more (S502). As a result of the determination, if there is one or more analysis procedure set numbers that satisfy the manhour constraint (S502: YES), the analysis procedure set calculation unit 114 proceeds with the process to step S6 (flow in FIG. 3). On the other hand, as a result of the determination described above, when the number of analysis procedure sets that satisfy the man-hour constraint condition is smaller than 1, that is, the corresponding analysis procedure set does not exist (S502: NO), the analysis procedure set calculation unit 114 Recognizing that correction is necessary, the process proceeds to step S8 (flow of FIG. 3) in order to accept a screen operation (constraint condition input) by the analysis operator via the input device 105.
- This display priority calculation process (S6) is a process of calculating the priority of which set is displayed on the screen among the analysis procedure sets that satisfy the manhour constraint.
- the display priority of the analysis procedure set is calculated by quantifying these policies. Specifically, the display priority is calculated based on an index corresponding to each policy.
- the man-hour of the analysis procedure set is used as an index corresponding to the “efficiency-oriented policy”.
- an index corresponding to the “diversity-oriented policy” an index of diversity of the analysis procedure set is used.
- the display priority of a certain analysis procedure set is calculated by the following formula 2 in consideration of this trade-off relationship.
- Equation 2 a value of (1.0 ⁇ average similarity) is used as an index of diversity of the analysis procedure set.
- “A” is a weight indicating how much efficiency is considered
- (1-a) is a weight indicating how much diversity is considered.
- the value of the weight “a” is defined based on a work policy such as “diversity priority” and “efficiency priority” selected by the analysis operator via the input device 105. By selecting the analysis work policy, the analysis worker can adjust the display priority value, that is, the above-described “a” value, and support the data analysis work set of analysis procedures according to his / her work policy. It can be presented to the device 100.
- FIG. 16 shows a detailed processing flow of the display priority calculation processing (S6).
- the display procedure set calculation unit 115 reads the work policy selected by the analysis operator on the analysis procedure display screen via the input device 105 from the input constraint condition table 126 (S601).
- the display procedure set calculation unit 115 reads the weight in the priority evaluation formula corresponding to the work policy read in step S601 from the work policy information table 127 (S602).
- FIG. 17 shows an example of the work policy table 127 in this embodiment.
- values of work policy ID 1271, work policy name 1272, and priority calculation weight 1273 for each work policy are recorded.
- the priority calculation weight 1273 is used when calculating the display priority of the set of analysis procedures described above.
- the record 1274 has an ID 1271 of “T1”, the name of the work policy is “diversity priority”, and the priority calculation weight is an efficiency weight of 0.25, This represents that the diversity weight is 0.75.
- This table 127 is created by a data analysis worker, and an analysis policy can be arbitrarily added or modified.
- the display procedure set calculation unit 115 reads, from the procedure set information table 125, indexes of the man-hour and average similarity of the analysis procedure set that satisfies the man-hour constraint (S603). Further, the display procedure set calculation unit 115 is based on the above formula 2 based on the priority calculation weight read in step S602 and the man-hours and average similarity of the analysis procedure set read in step S603.
- the display procedure set calculation unit 115 conforms to the analysis policy set by the analysis worker while satisfying the constraints on the man-hours specified by the analysis worker through the series of processing of steps S5 and S6 (that is, the flow of FIG. 16) described above. A set of analysis procedures can be calculated.
- the display procedure set calculation unit 115 records the display priority of the analysis procedure set calculated in step S604 described above in the display priority column 1257 of the procedure set table 125 (S605).
- This screen display process (S7) is a process for displaying the analysis procedure set satisfying the constraint conditions and the analysis procedure set on the output device 106 in the form of an analysis procedure flowchart.
- Fig. 18 shows the detailed flow of the screen display process.
- This processing is basically processing in which the data analysis work support device 100 reads information to be displayed on the screen from each table of the information database 120 and displays it on the output device 106.
- the data analysis work support apparatus 100 in step S701 reads the display priority information of each analysis procedure set whose display priority has been calculated in step S6 from the procedure set information table 125.
- the data analysis work support apparatus 100 reads the information of the analysis procedure node in each analysis procedure set from the node information table 122.
- the analysis procedure flowchart structure of the analysis procedure is charted. Read from the structure table 121.
- the data analysis work support device 100 in step S704 reads the constraint condition, which is the constraint condition input by the analysis worker using the input device 105, from the input constraint condition table 126.
- the analysis procedure set and its node information read in the steps up to the above are displayed together with the constraint conditions on the screen display unit for the analysis procedure set and the node information whose display priority is higher than a predetermined level.
- 116 is displayed on the output device 106 (S705).
- the screen display unit 116 displays a flowchart corresponding to the integrated analysis procedure constituting the analysis procedure set on the output device 106 (S706).
- An outline of the integration process of the analysis procedure is shown in FIG.
- an analysis procedure set 1900 including analysis procedures 1901 to 1905 is assumed.
- each analysis procedure 1901 to 1905 has “N 2 ” as the first branching step 1906. Therefore, this branching step 1906 becomes a common branch between analysis procedures, that is, a common branch.
- the analysis procedure set 1900 takes the form of an analysis procedure set 1910.
- the subsequent processes are “N 3 ” and “N 12 ”.
- the common parts are integrated.
- the data analysis work support apparatus 100 reads the analysis procedure to be highlighted by the procedure information table 123 (the display flag is “1”), and the screen display unit 116 highlights it on the output device 106 (S707). Details of this highlighting will be described later.
- FIG. 21 shows an example of a screen display of the data analysis work support apparatus 100 in the present embodiment.
- the screen 30 displayed on the output device 106 by the screen display unit 116 mainly includes an area 301 for displaying nodes constituting the analysis procedure, a display field 302 for constraint conditions input by the analysis operator, and a display area for the analysis procedure flowchart. 308 and an analysis procedure set display area 303 that satisfies the constraint conditions.
- the display column 302 is also an input column for accepting correction of constraint conditions from the analysis operator.
- the screen display unit 116 of the data analysis work support apparatus 100 displays these display contents on the screen 30 based on the information read in steps S701 to S704 described above.
- the data analysis work support device 100 executes a screen operation determination (S8) process for determining the operation content in the screen operation unit 116 by the analysis worker via the input device 105.
- FIG. 20 shows a detailed flow of the screen operation determination (S8).
- the screen operation processing unit 117 receives an event of button operation by the analysis worker in the screen display unit 116 and determines which button is pressed on the screen 30.
- buttons that can be operated by the analysis operator with the input device 105 are arranged.
- the analysis worker inputs and selects values of the upper limit of the man-hour, which is the constraint condition, the risk tolerance regarding the fluctuation of the man-hour, and the work policy.
- a check box 304 for checking whether the analysis operator has confirmed or executed the displayed analysis procedure is arranged.
- the information input and selected by the analysis operator on the screen 30 is recorded in the information database by the screen operation processing unit 117 that senses this pressing event when the procedure extraction button 310 is pressed (S803, S804). . Thereafter, the steps of extracting the analysis procedure set, calculating the priority, and displaying the screen (FIG. 3: S1 to S7) are executed again.
- a radio button 305 for selecting an analysis procedure to be highlighted by the analysis worker is arranged.
- the screen operation processing unit 117 that senses the pressing indicates that the highlighting is specified for the analysis procedure.
- Information that is, a display flag is recorded in the display flag column of the procedure information table 123 (S802).
- the screen display unit 116 executes highlighting processing for the corresponding analysis procedure on the analysis procedure flowchart being displayed in the display area 308.
- the functions of the data analysis work support apparatus 100 described so far are basically for supporting the work of selecting an analysis procedure performed by the analysis worker when starting the analysis work.
- the analysis work progresses, for example, the reaction of the customer when the analysis worker explains the analysis result to the customer, new knowledge about the man-hours and variations of the analysis procedure, and the like are obtained.
- the analysis worker needs to correct the work plan created at the start of the analysis work based on the newly acquired knowledge. For this reason, new knowledge obtained in the course of the analysis work is reflected in the processing in the data analysis work support apparatus 100. For example, changes to the constraints that correspond to the knowledge gained from the customer (for example, whether this customer has a policy that emphasizes efficiency or a policy that emphasizes diversity), and responds to knowledge gained through analysis For example, modification of the node information table.
- the data analysis work support device 100 receives the restriction condition items (manhours, risk tolerance, work policy) to be changed from the analysis worker in the restriction condition input area 302 on the screen 30, and Steps S1 to S7 are executed again.
- the analysis worker can feed back the information and knowledge newly obtained during the analysis work to the data analysis work support apparatus 100 as appropriate, thereby more effectively supporting the analysis work by the data analysis work support apparatus 100. It can be done.
- the analysis procedure that can be executed after satisfying the two conditions of efficiency and diversity of the analysis work Can be presented. Also, the presentation of the analysis procedure is re-executed in a flexible manner corresponding to the modification of the man-hour and work policy by the analysis worker.
- the storage device further stores node information including at least information of man-hours required for executing each step in the analysis procedure.
- node information including at least information of man-hours required for executing each step in the analysis procedure.
- information on the man-hours required for the steps constituting each analysis procedure is obtained from the node information, and the man-hours required for executing the corresponding analysis procedure are calculated by adding the man-hours of the respective steps. It is good also as extracting the analysis procedure set which is the combination in which the said calculated man-hour satisfy
- the analysis procedure set satisfying the man-hour constraint can be efficiently identified by using the man-hour relating to the analysis procedure.
- the arithmetic device when calculating the man-hours of the analysis procedure set, an analysis procedure when integrating common processes among the analysis procedures constituting the analysis procedure set For the set, information on the man-hours required for the steps constituting the analysis procedure may be acquired from the node information, and the man-hours required for executing the analysis procedure may be calculated by adding the man-hours of the respective steps.
- the calculation device performs the analysis procedure without performing the integration of the steps in the analysis procedure set for the process of calculating the display priority.
- the work efficiency value according to the magnitude of the man-hour reduction effect and the work diversity value according to the low average similarity are weighted based on the intentional balance information Then, the display priority of the corresponding analysis procedure set may be calculated.
- the display priority of the analysis procedure set is accurately set It can be specified.
- the storage device further stores, as the node information, information on variations in man-hours required for execution of each step in the analysis procedure
- the arithmetic device includes: In the process of receiving each information of the man-hour constraint and the intentional balance, the tolerance of the man-hour fluctuation risk is further received by the input device, the received information is stored in the storage device, and in the process of extracting the analysis procedure set, The number of man-hours required for the processes constituting each analysis procedure and each information on the variations are obtained from the node information, and the man-hours required for the execution of the corresponding analysis procedures and the variations thereof are calculated by adding the man-hours and variations of the respective steps. In the combination of the analysis procedures, the variation due to the variation in the calculated man-hour corresponds to the tolerance, And it extracts the analysis procedure set a satisfying combination of steps constraint may be.
- the storage device includes at least information on the number of steps required to execute each process in the analysis procedure and the importance of the branch process in the analysis procedure. Information is further stored, and the arithmetic unit identifies a branch process that differs between analysis procedures when calculating the average similarity, and the corresponding analysis procedure according to the level of importance of the branch process It is also possible to calculate the average similarity between the calculated analysis procedures as the average similarity for the corresponding analysis procedure set.
- the similarity between the analysis procedures can be accurately identified according to the importance of the branching process, and the analysis procedure set corresponding to the user's intention can be extracted.
- the storage device includes node information including at least information of man-hours required for execution of each process in the analysis procedure, and a chart indicating an execution order of each process in the analysis procedure Structure information, and when the arithmetic unit displays the information of the analysis procedure set on the output device according to the display priority, the analysis procedure set acquired from the node information table is Information on each process constituting the analysis procedure including the analysis procedure flowchart based on the execution order of the process indicated by the chart structure information, information on the man-hour constraint in the data analysis work accepted by the input device, and work efficiency Information indicating the balance of orientation and diversity, and information on the set of analysis procedures having the highest display priority. Those Shimesuru may be.
- the information used for the processing such as the extracted analysis procedure set and information on the constraints and the information of the processing result can be displayed and presented to the analysis worker who is a user in a simple display form.
- the arithmetic device displays a user instruction of the analysis procedure to be highlighted when displaying the information of the analysis procedure set on the output device according to the display priority.
- the highlight flag is stored in the storage device as the further procedure information regarding the corresponding analysis procedure, and regarding the analysis procedure in which the highlight flag is set, a predetermined emphasis is given on the analysis procedure flowchart. Display processing may be executed.
- the arithmetic device when the arithmetic device receives a predetermined user instruction at the input device when displaying the information of the analysis procedure set on the output device according to the display priority
- the execution completion flag indicating that the user confirmation has been executed for the analysis procedure displayed on the output device is stored in the storage device as the further procedure information, and the analysis procedure set is extracted and the average similarity for the analysis procedure set is stored. Processing for the analysis procedure in which the executed flag is not set in each of the calculation of the degree, the calculation of the display priority of the analysis procedure set, and the display of the information of the analysis procedure set according to the display priority May be executed.
- the subsequent processing can be avoided, and the processing efficiency in the entire flow can be improved.
- the information processing apparatus further stores node information including at least information of man-hours required for execution of each step in the analysis procedure in the storage device,
- node information including at least information of man-hours required for execution of each step in the analysis procedure in the storage device
- information on the man-hours required for the steps constituting each analysis procedure is obtained from the node information, and the man-hours required for executing the corresponding analysis procedure are calculated by adding the man-hours of the respective steps.
- An analysis procedure set that is a combination in which the calculated man-hour satisfies the condition of the man-hour constraint may be extracted from the combinations of the analysis procedures.
- the information processing apparatus performs analysis when the processes common to each other are integrated among the analysis procedures constituting the analysis procedure set when calculating the man-hours of the analysis procedure set.
- the procedure set information on the man-hours required for the steps constituting the analysis procedure may be acquired from the node information, and the man-hours required for executing the corresponding analysis procedure may be calculated by adding the man-hours of the respective steps.
- the information processing apparatus when the information processing apparatus performs each analysis procedure without integrating the steps in the analysis procedure set for the process of calculating the display priority calculateate the difference between the number of man-hours in the corresponding analysis procedure set and the man-hours in the corresponding analysis procedure set when each analysis procedure is performed after integrating the above processes, and specify the difference as the value of the man-hour reduction effect
- the work efficiency value according to the magnitude of the man-hour reduction effect value and the work diversity value according to the low average similarity are based on the intentional balance information.
- the display priority of the corresponding analysis procedure set may be calculated by weighting and summing.
- the information processing apparatus further stores, in the storage device, information on variations in man-hours required for executing each process in the analysis procedure as the node information.
- the tolerance of the man-hour fluctuation risk is further received by the input device, the received information is stored in the storage device, and in the process of extracting the analysis procedure set,
- the number of man-hours required for the processes constituting each analysis procedure and each information on the variations are obtained from the node information, and the man-hours required for the execution of the corresponding analysis procedures and the variations thereof are calculated by adding the man-hours and variations of the respective steps.
- the information processing apparatus in the storage device, the man-hours required to execute each process in the analysis procedure, and the importance of the branch process in the analysis procedure, Node information including at least each information is further stored.
- the average similarity a branch process that differs between analysis procedures is specified, and the corresponding analysis procedure is determined according to the level of importance of the branch process. It is also possible to calculate the average similarity between the calculated analysis procedures as the average similarity for the corresponding analysis procedure set.
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
分析作業の効率性と多様性をあわせて踏まえつつ,条件変化に柔軟に対応したデータ分析作業の支援を可能とする。 データ分析作業支援装置100において,データ分析作業における一連の工程からなる各分析手順の情報である手順情報を格納した記憶装置101と,データ分析作業における工数制約の情報と,作業の効率性と多様性との間での志向バランスを示す情報を入力装置105で受け付けて格納し,各分析手順の組み合わせのうち,工数制約の条件を満たす組み合わせである分析手順集合を抽出し,分析手順集合を構成する各分析手順間の類似度の平均を算出し,平均類似度の高さに応じた作業の効率性の値と,平均類似度の低さに応じた作業の多様性の値とを志向バランスに基づき重み付けして合算し,該当分析手順集合の表示優先度を算出し,分析手順集合の情報を表示優先度に応じて出力装置106に表示する演算装置104を含む構成とする。
Description
本発明は、データ分析作業支援装置及びデータ分析作業支援方法に関する。
数多くの工程と複雑な判断が必要とされる困難な作業を、所定時間内にミス無く実行することは、該当作業を実行する作業者にとって大きな負担となりがちである。一方、そうした作業のため、上述の工程や作業方法を記した手順書等を利用することも考えられるが、手順書自体が複雑になり、必要な情報を作業者が的確に選択することが難しくなる場合もある。
そこで、数多くの工程と複雑な判断ともなう作業の支援技術として、以下の技術が提案されている。すなわち、対象装置の保守業務に関する支援作業のツリーを基に期待作業時間あるいは期待コストの算出を行い、作業時間、コストを最小とする作業手順を提示する保守支援システム(特許文献1参照)などが提案されている。
ところで、上述の如き困難を伴う作業の一種としてデータ分析作業がある。このデータ分析作業に際しては、分析作業に使用出来る工数内で、考えうる全ての分析手順を実行することは一般的に難しい。そのため作業者は、制約された工数内でいくつかの分析手順を選択的に実施する必要がある。
そうした分析手順の選択方針の一つとして、出来るだけ作業内容が共通する分析手順を選ぶという方針が存在する。作業内容が部分的に共通する分析手順を同時並行的に実施することで、重複する工程を回避し、それぞれの分析手順を単独で行うよりも作業工数を削減出来る効果がある。共通の工程を含む分析手順の集合を上手く選ぶことで、工数の制約下で多くの分析手順を実施することが可能である。作業効率の観点からは、この選択方針は有用である。
一方で、分析手順間で共通部分が多いと、これらの作業内容や得られる分析結果も、分析手順間で似たものになる可能性が高い。このことは、作業内容や結果の多様性確保という観点について問題を含みやすい。よって、二つ目の選択方針として、工数がかさむために実施出来る分析手順の種類は少ない場合もありうるが、出来るだけ共通部分が少ない分析手順を選択するという選択方針が存在する。この選択方針であれば、作業内容や分析結果に関する多様性を確保しやすくなる。上述した各選択方針のうちいずれの選択方針を採用するかは、作業者が状況に応じて適宜検討することで決定される。
ところが従来技術では、作業時間やコストのみを考慮するため、作業内容やその結果の多様性を優先させることは出来ない。そのため作業者は、分析手順の選択に際し、上述の二つ目の選択方針に則した分析手順について情報を得ることが出来ず、作業内容と結果の多様性について配慮することが難しい。またデータ分析作業においては、作業進捗に伴って、投入可能な工数や作業方針などの各種条件が変化する場合がある。その場合、作業者は作業進捗に合わせて作業内容を再計画する必要が生じるが、従来技術ではそのような状況に対応して支援を行うことが出来ない。つまり、分析作業の効率性と多様性についてあわせて考慮し、条件変化に柔軟に対応してデータ分析作業の支援を行う技術は提案されていない。
そこで本発明の目的は、分析作業の効率性と多様性をあわせて踏まえつつ、条件変化に柔軟に対応したデータ分析作業の支援を可能とする技術を提供することにある。
上記課題を解決する本発明のデータ分析作業支援装置は、データ分析作業における一連の工程からなる各分析手順の情報である手順情報を格納した記憶装置と、データ分析作業における工数制約の情報と、作業の効率性と多様性との間での志向バランスを示す情報と、を入力装置で受け付け、当該受け付けた各情報を記憶装置に格納する処理と、前記各分析手順の組み合わせのうち、前記工数制約の条件を満たす組み合わせである分析手順の集合を、前記手順情報に基づいて抽出する処理と、前記分析手順集合を構成する各分析手順間の類似度を所定アルゴリズムで算定し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出する処理と、前記平均類似度の高さに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する処理と、前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示する処理を実行する演算装置を備えることを特徴とする。
また、本発明のデータ分析作業支援方法は、データ分析作業における一連の工程からなる各分析手順の情報である手順情報を格納した記憶装置を備えた情報処理装置が、データ分析作業における工数制約の情報と、作業の効率性と多様性との間での志向バランスを示す情報と、を入力装置で受け付け、当該受け付けた各情報を記憶装置に格納する処理と、前記各分析手順の組み合わせのうち、前記工数制約の条件を満たす組み合わせである分析手順の集合を、前記手順情報に基づいて抽出する処理と、前記分析手順集合を構成する各分析手順間の類似度を所定アルゴリズムで算定し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出する処理と、前記平均類似度の高さに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する処理と、前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示する処理と、を実行することを特徴とする。
本発明によれば、分析作業の効率性と多様性をあわせて踏まえつつ、条件変化に柔軟に対応したデータ分析作業の支援が可能となる。
以下に本発明の実施形態について図面を用いて詳細に説明する。ここで本実施形態のデータ分析作業支援技術に関し、一例として想定する前提について概説しておく。本実施形態において想定するデータ分析作業は、所定の作業を実行する複数の工程すなわち作業工程が、所定の順番で実施される作業を指すものとする。またここでは、ある作業目的を満たすために実施する、一連の作業工程の系列を分析手順と呼ぶ。
上述の作業目的とは、例えば「商品の売上データから、将来の売上を予測する」といったものや、「売上データからノイズを除去する」といったものであり、その内容は特に限定しない。また、分析手順をフローチャート形式で表現したものを、分析手順フローチャートと呼ぶ。この分析手順フローチャートには上述した作業工程の順序に加えて、各種判断による分析手順の分岐も表現される。
分析を行う作業者すなわち分析作業者は、上述の分析手順フローチャートや作業内容が詳述された分析手順書をもとに、自らの作業目的に応じた複数の分析手順を選択することとなる。複数の分析手順を選択するのは、一種類の分析手順だけでは必ずしも分析目的が実現できないからである。
分析作業者が分析手順を選択する際には、分析作業(複数の分析手順から構成されることになる)に投入することができる工数と、分析作業の方針とに応じて、選択できる分析手順は異なる。ここで、分析作業の方針とは、分析作業者が分析手順を選ぶ際の方針であり、本実施形態では「効率的に分析作業を行うために、出来るだけ作業内容が共通する分析作業を選ぶ」方針と、「分析作業の多様性を確保するために、作業内容が類似しない分析作業を選ぶ」方針の二つが存在するものとする。また前者を効率性重視の方針、後者を多様性重視の方針と呼ぶ。
更に本実施形態では、上述した分析手順の選択に影響与える、工数や分析作業方針など種々の条件を制約条件と呼ぶ。本実施形態におけるデータ分析作業支援装置は、分析作業者から受け付けて格納した制約条件に応じて、実行可能な複数の分析手順を分析作業者に提示することで、分析作業を支援する。以下、こうした本実施形態におけるデータ分析作業支援装置およびデータ分析作業支援方法の具体的な構成について説明する。
---ハードウェア構成例---
図1は本実施形態のデータ分析作業支援装置100のハードウェア構成例を示す図である。図1に示すデータ分析作業支援装置100は、分析作業の効率性と多様性をあわせて踏まえつつ、条件変化に柔軟に対応したデータ分析作業の支援を可能とするためのコンピュータである。
---ハードウェア構成例---
図1は本実施形態のデータ分析作業支援装置100のハードウェア構成例を示す図である。図1に示すデータ分析作業支援装置100は、分析作業の効率性と多様性をあわせて踏まえつつ、条件変化に柔軟に対応したデータ分析作業の支援を可能とするためのコンピュータである。
このデータ分析作業支援装置100は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される記憶装置101、RAMなど揮発性記憶素子で構成されるメモリ103、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置104、分析作業者からの入力動作を受け付けるキーボードやマウス等の入力装置105、および分析作業者に対して処理結果を表示するディスプレイ等の出力装置106を備えている。
なお、記憶装置101内には、本実施形態のデータ分析作業支援装置100として必要な機能を実装する為のプログラム102と、各種処理に必要なデータを格納した情報データベース120が格納されている。この情報データベース120には、後述するテーブル121~127が格納されている。
---データ分析作業支援装置の機能構成---
続いて、本実施形態のデータ分析作業支援装置100が備える機能について説明する。上述したように、以下に説明する機能は、例えばデータ分析作業支援装置100が備えるプログラム102を実行することで実装される機能と言える。
---データ分析作業支援装置の機能構成---
続いて、本実施形態のデータ分析作業支援装置100が備える機能について説明する。上述したように、以下に説明する機能は、例えばデータ分析作業支援装置100が備えるプログラム102を実行することで実装される機能と言える。
図2は本実施形態におけるデータ分析作業支援装置100の機能構成例を示す図である。本実施形態におけるデータ分析作業支援装置100が備える機能は、分析作業者に提示する分析手順を算出する表示手順算出部110、出力装置106を介して分析作業者に分析手順を提示する画面表示部116、分析作業者による画面操作を入力装置105を介して受け付けて処理する画面操作処理部117から構成されている。また、これら各機能が適宜利用する、分析手順や制約条件に関するデータは、情報データベース120に蓄積されている。
このうち表示手順算出部110は、分析手順算出部111、分析手順情報算出部112、手順類似度算出部113、分析手順集合算出部114、および表示手順集合算出部115の五つのコンポーネントからなる。
分析手順算出部111は、情報データベース120から分析手順フローチャートの構造や作業工程に関する情報を読み込み、分析作業開始から終了までの一連の作業工程の系列を分析手順として算出する。また、分析手順情報算出部112は、分析手順の選択時に必要な、分析手順を実行する際に必要な工数と工数のばらつきを見積もる。
また、手順類似度算出部113は、分析手順間の類似度を評価する。ここで評価した類似度は、分析手順集合の多様性を評価する際に用いられる。
また、分析手順集合算出部114は、分析作業者に提示する候補となる、分析手順の集合を算出する。また、表示手順集合算出部115は、分析作業者に表示する分析手順集合を決定するために、制約条件をもとに分析手順集合の表示優先度を算出する。
また、画面表示部116は、情報データベース120より、分析作業者に提示する分析手順集合や分析手順フローチャートに関する情報を読み取り、ディスプレイなど出力装置106に表示する。分析作業者は、この画面表示部116によって出力装置106で表示された分析手順集合や分析手順フローチャートを参考に、実施する分析手順を選択することとなる。また、分析作業者は、入力装置105を介して画面表示部116における入力、操作を行うことで、制約条件の修正や、特定の分析手順の強調表示指示などを行う。
また、画面操作処理部117は、上述した画面表示部116における分析作業者の画面操作を処理する。上述のように、分析作業者は画面表示部116において、画面表示内容の操作や、制約条件の入力、修正を行う。一方、画面操作処理部117は、分析作業者によるこのような操作、入力を処理し、その結果を情報データベース120に記録する。
なお、情報データベース120における各テーブルの具体的なデータ構造の例については、以降のフローに関する説明に伴って後述する。但し、ここで各テーブルの概要について説明しておく。本実施形態における情報データベース120は、七つのテーブルから構成される。
このうちチャート構造テーブル121は、分析手順フローチャートの構造が記録されているテーブルである。本実施形態における分析手順フローチャートは、作業工程、および作業の分岐(分岐工程)をノードとする有向グラフとして記録されているものとする。
また、ノード情報テーブル122は、分析手順フローチャートを構成する作業工程、および作業の分岐に関する情報が記録されている。具体的には、作業工程の実施に要する工数、および分岐の重要度等の情報である。
また、手順情報テーブル123は、分析手順情報算出部112で算出した分析手順に関する情報が記録されている。
また、手順類似度テーブル124は、手順類似度算出部113で算出した、分析手順間の類似度が記録されている。
また、手順集合情報テーブル125は、分析手順集合算出部114で算出した分析手順集合に関する情報が記録されている。
また、入力制約条件テーブル126は、入力装置105で分析作業者から受け付けた制約条件、またはプリセットされた制約条件が記録されている。
また、作業方針情報テーブル127は、入力装置105で分析作業者から受け付けた作業方針、或いはプリセットされた作業方針が記録されている。本実施形態の作業方針情報テーブル127においては、上述したような効率性重視の方針と多様性重視の方針の、2つの方針に関する情報が記録されている。
---処理フロー例---
以下、本実施形態におけるデータ分析作業支援方法の実際手順について図に基づき説明する。以下で説明するデータ分析作業支援方法に対応する各種動作は、データ分析作業支援装置100がメモリ103に読み出して実行するプログラム102によって実現される。そしてプログラム102は、以下に説明される各種の動作を行うためのコードから構成されている。
---処理フロー例---
以下、本実施形態におけるデータ分析作業支援方法の実際手順について図に基づき説明する。以下で説明するデータ分析作業支援方法に対応する各種動作は、データ分析作業支援装置100がメモリ103に読み出して実行するプログラム102によって実現される。そしてプログラム102は、以下に説明される各種の動作を行うためのコードから構成されている。
図3は、本実施形態におけるデータ分析作業支援方法のフロー例1を示す図であり、具体的にはデータ分析作業支援方法のメインフローである。本フロー図は、上述のデータ分析作業支援装置100において、大量の分析手順の中から、分析作業者が入力した制約条件を満たす分析手順集合を表示する一連の処理フローを示している。
まず、当該フローの手順算出処理(S1)において、データ分析作業支援装置100の分析手順算出部111は、分析手順フローチャートをもとに、分析作業開始から終了までの一連の作業工程の系列を分析手順として算出する。この手順算出処理の具体的な内容を、図4のフローにて示す。当該フローにおいて、分析手順算出部111は、分析手順フローチャートの構造をチャート構造テーブル121より読み込む(S101)。このチャート構造テーブル121の具体例を図5にて示す。
本実施形態におけるチャート構造テーブル121は、分析手順フローチャートの構造を、分析手順フローチャートを構成する作業工程および分岐をノードとした有向グラフに関する、隣接行列の形式で記録している。この隣接行列は、各ノードすなわち一つの作業工程を識別するノードID1211、1212のセルと、ノードNjからノードNiへのリンクの有無を表すセル1213のマトリクスから構成される。
なお、ノードNjからノードNiにリンクが張られている場合、セル1213の値は「1」、リンクが張られていない場合、セル1213の値は「0」をとる。ノードNjからノードNiにリンクが張られているということは、ノードNjの次の作業工程がNiであることを表す。本テーブル121は、作業分析者がデータ分析作業支援装置100の利用前に、過去の分析作業で得られた知見などをもとに作成し、情報データベース120に予め格納したものとする。
次に、分析手順算出部111は、上述のステップS101で得た分析手順フローチャートを構成する作業工程、および分岐といったノードの情報を、ノード情報テーブル122から読み込む(S102)。
図6に、本実施形態におけるノード情報テーブル122の一例を示す。本テーブル122には、ノードID1221、ノード種類1222、ノードの説明1223、対応する工程に要する工数1224とそのばらつき1225、ノードが分岐である場合の分岐重要度1226が記録されている。本テーブル122は、チャート構造テーブル121と同様に、データ分析作業支援装置100の利用前に分析作業者等によって予め用意され、情報データベース120に格納されているものとする。
なお、ノード種類1222に格納されるノードの種類には、分析手順フローチャートの始点と終点、作業工程、分析手順の分岐(分岐工程)の四種類が存在する。またノードの説明1223では、対応するノードの作業概要が記録される。また、工数1224は、対応するノードが示す作業工程や分岐を実行する際の標準的な工数が記録されている。この工数1224の値の単位は人月である。また、ばらつき1225は、工数1224のばらつきを表し、その値の単位は人月である。工数1224とばらつき1225の各値は、過去分析作業の実績値、もしくは分析作業者による主観的な推測値をもとに設定される。
また分岐重要度1226は、分析手順中の分岐工程の重要度を表す数値である。分析手順の分岐には、分析実行時の入力パラメータ値による分岐、分析対象となるデータ選択の分岐、など様々な種類が考えられる。このような分岐の中には、分析作業の内容や分析結果に大きい影響を与えるものがある。例えば、分析作業の目的がデータを分析しその結果を可視化するというものであれば、可視化手法の選択という分岐は重要な意味を持つ。このように、ある分析手順における分岐が分析作業の内容や分析結果に与える影響度を、分岐重要度と定義する。本実施形態における分岐重要度1226は、0(重要度低)から1.0(重要度高)までの値をとるものとする。こうした分岐重要度1226の値は、工数やそのばらつきと同様に、過去分析作業の実績値や分析作業者による主観的な推測値をもとに予め設定されるものとする。
続いて分析手順算出部111は、上述のステップS101、S102で読み込んだ分析手順フローチャートのグラフ構造と、始点、終点ノードのIDをもとに、始点ノードから終点ノードへの経路をノードIDの系列として算出する(S103)。ここで算出するノードIDの経路が一連の分析工程を表す分析手順となる。本実施形態では、始点ノードと終点ノードを含む相異なる部分グラフを抽出することで経路を算出する。
続いて分析手順算出部111は、上述のステップS103で算出した分析手順(ノードIDの系列)にIDを付与して、手順情報テーブル123に記録する(S104)。図7に、本実施形態における手順情報テーブル123の一例を示す。本テーブル123は、分析手順のID1231、分析手順を構成するノードの系列1232、分析手順の実行に要する工数1233とそのばらつき1234、分析手順が実行されたかどうかあらわすフラグ1235、手順が画面表示部で強調表示されるかどうかを表すフラグ1236から構成される。
このうち、工数1233とばらつき1234の各値は、後の工程(手順情報算出処理(S2)におけるステップS203。図8参照)で算出される。また、実行フラグ1235の値は、その分析手順がユーザにより確認ないし実施済みであれば「1」の値をとり、確認ないし実施済みでなければ「0」の値をとる。また、表示フラグ1236は、その分析手順が画面表示部116で強調表示対象となっていれば「1」の値をとり、強調表示対象でなければ「0」の値をとる。これらのフラグ値は、分析作業者が入力装置105を介して画面表示部116を操作することにより入力される値である。それぞれ、手順集合算出処理(S4:図12のS402参照)、画面表示処理(S7:図18のS707参照)で利用される。
ここで図3のメインフローの説明に戻る。続いて、分析手順情報算出部112は、手順情報算出処理(S2)を実行する。この分析手順情報算出処理においては、上述の手順算出処理(S1)で算出した分析手順について、分析手順の実行に要する工数とそのばらつきを算出する。この手順情報算出処理(S2)の内容を図8の処理フローに示す。
当該フローにおいて、分析手順情報算出部112は、分析手順を構成するノードIDの系列を手順情報テーブル123より読み込む(S201)。続いて分析手順情報算出部112は、分析手順を構成するノードの工数とそのばらつきをノード情報テーブル122より読み込む(S202)。
続いて分析手順情報算出部112は、上述のステップS202で読み込んだ各ノードの工及びばらつきに基づいて、該当ノードで構成される分析手順の実行に要する工数とそのばらつきを算出する(S203)。本実施形態では、分析手順における工数の和は、分析手順を構成する各ノードの工数の和とする。また同様に、分析手順における工数のばらつきは、分析手順を構成する各ノードのばらつきの和とする。分析手順における工数とそのばらつきの算出は、手順情報テーブル123に記録されている全ての分析手順について行う。
次に、分析手順情報算出部112は、上述のステップS203で算出した分析手順の工数とそのばらつきを、手順情報テーブル123の工数の欄1233とばらつきの欄1234に記録する(S204)。
ここで再び、図3のメインフローの説明に戻る。続いて、手順類似度算出部113は、手順類似度算出処理(S3)を実行する。この手順類似度算出処理(S3)においては、手順算出処理(S1)で算出した分析手順同士の類似性を評価する。
図9に手順類似度算出処理(S3)の詳細フローを示す。このフローにおいて、手順類似度算出部113は、まず手順情報テーブル123から、分析手順を構成するノードIDの系列を読み込む(S301)。また手順類似度算出部113は、ノード情報テーブル122より各分析手順に含まれる分岐ノードの分岐重要度を読み込む(S302)。
例えば、分析手順の途中まで作業工程が同じであるが、ある分岐工程以降については作業工程が異なる二つの分析手順があるとする。これは例えば、データの前処理までは同じ作業工程だが、分析アルゴリズムの選択結果によって以降の作業工程が異ってくる、といった分析手順などである。このように分岐が発生する工程(分岐工程)の分岐重要度が高い場合、上述した二つの分析手順の作業内容や結果が大きく異なる可能性が高い。よって、これらの分析手順は似ていないと解釈できる。逆に、分岐重要度が低い分岐で二つの分析手順が区別される場合は、それらの分析内容や分析結果の違いが軽微なものとなる可能性が高い。以上より、比較する二つの分析手順の作業内容や分析結果の違いは、二つの分析手順で共有される分岐により生み出されると考えられる。そこで本実施形態では、二つの分析手順間で共通する分岐の分岐重要度をもとに、分析手順間の類似度を算出するものとする。
続いて手順類似度算出部113は、全ての分析手順対に対してその類似度を算出する(S303)。この分析手順間の類似度算出の処理フローを図10に示す。このフローにおいて、手順類似度算出部113は、まず二つの分析手順に共通する分岐があるか判定する(S3031)。この判定の結果、共通する分岐が存在しなかった場合(S3031:NO)、該当分析手順間の類似度=0として(S3032)、本フローを終了する。
他方、上述の判定の結果、共通する分岐が存在した場合(S3031:YES)、手順類似度算出部113は、上述のステップS3031で特定した共通分岐の次工程が、該当分析手順間で異なるか判定する(S3033)。
この判定の結果、共通分岐の次工程が分析手順間で一致していた場合(S3033:NO)、分岐もそれ以降の工程も互いに一致した分析手順同士は作業内容が同一であり、選択候補として並存させる意味が無いため、手順類似度算出部113は、以降の処理から外す意図で該当分析手順間の類似度=0として(S3032)、本フローを終了する。
他方、上述の判定の結果、共通分岐の次工程が分析手順間で一致していなかった場合(S3033:YES)、手順類似度算出部113は、該当分析手順間で次工程が異なる共通分岐が複数あるか判定する(S3034)。
この判定の結果、次工程が異なる共通分岐が複数存在しなかった場合(S3034:NO)、手順類似度算出部113は、該当分析手順間の類似度=1.0-共通分岐の分岐重要度、として(S3035)、本フローを終了する。
一方、上述の判定の結果、次工程が異なる共通分岐が複数存在した場合(S3034:YES)、手順類似度算出部113は、該当分析手順間の類似度=1.0-共通分岐の最大分岐重要度、として(S3036)、本フローを終了する。なお、本実施形態における類似度の値は0から1の範囲をとるものとする。
ここで図9のフローの説明に戻る。次に手順類似度算出部113は、上述のステップS303で算出した分析手順間の類似度を、手順類似度テーブル124に記録する(S304)。図11にて本実施形態における手順類似度テーブル124の一例を示す。本テーブル124では、分析手順間の類似度を二次元行列の形式で記録している。この手順類似度テーブル124の二次元行列は、分析手順のID1241、1242と、分析手順PlからPkの各間の類似度値1243とから構成されている。
ここでまた図3のメインフローの説明に戻る。次に分析手順集合算出部114は、分析手順集合算出処理(S4で)を実行する。ここで分析手順集合算出部114は、作業工程が部分的に共通する分析手順同士を同時並行的に実施することで、作業工程の重複実行を回避出来るため、それぞれの分析手順を単独で行うより作業工数を削減出来る、という効果を考慮するために、分析手順の集合を算出する。この分析手順集合は分析作業者に表示する候補となる。図12に本処理の処理フローの詳細を示す。
このフローにおいて、分析手順集合算出部114は、分析作業者が入力装置105を介して画面表示部116で入力し、入力制約条件テーブル126に格納した制約条件を読み込む(S401)。
図13に本実施形態における入力制約条件テーブル126の一例を示す。本テーブル126には、分析作業者が入力装置105を介して画面表示部116に入力した、入力工数1261、リスク許容度1262、作業方針1263の各値が記録されている。このうち入力工数1261は、分析作業者が分析作業に用いることが出来る工数の上限値であり、その単位は人月である。データ分析作業支援装置100は、入力工数1261が示す工数制約の範囲で分析手順を分析作業者に提示することとなる。
また、リスク許容度1262は、分析手順の実行に要する工数が工数の制約を超えてしまうリスクを分析作業者がどの程度許容できるか表す値である。データ分析作業は何らかの事情により、想定していた工数を超えてしまうリスクが存在する。そして、このリスクを分析作業者がどの程度許容できるかは、分析作業の目的により異なる。例えば、データ分析の結果を外部の顧客に報告するような状況の場合は、顧客と合意した締め切りを守るために、工数の制約を満たすことは重要である。一方、自組織内の勉強会で分析結果を報告するような状況では、分析作業が工数の制約を超えてしまうリスクはある程度許容できる。以上より、分析作業者のリスク許容度は、分析手順の選択において重要であると考えられる。本実施形態では、三段階のリスク許容度(高、中、低)を分析作業者から受け付けて当該テーブル126に設定することとする。
また、作業方針1263は、どのような方針で分析作業を行うか表す値である。この値は、分析作業の目的によって選択すべき分析手順が異なることを考慮するために分析作業者が設定した値である。上述のように本実施形態では、「効率性重視の方針」、「多様性重視の方針」の二つの作業方針を想定している。そこで、これら二つの方針のいずれを優先するか、または両方の方針を考慮した中間的な方針(「バランス重視の方針」と呼ぶ)を志向するか、について入力装置105を介して画面表示部116において分析作業者に指定させる。ここで分析作業者が指定してきた作業方針はデータ分析作業支援装置100により当該テーブル126に格納される。
ここで図12のフローの説明に戻る。続いて分析手順集合算出部114は、手順情報テーブル123から、実行フラグ1235の値が「0」(実行未済を示す)となっている分析手順を読み込み、これらの部分集合を抽出する(S402)。分析手順の部分集合の要素数は1以上とする。
次に分析手順集合算出部114は、手順情報テーブル123より分析手順の工数1233とそのばらつき1234、手順類似度情報テーブル124より分析手順間の類似度値1243の各値を読み取り、上述のステップS402で抽出した分析手順の集合ごとに、工数とそのばらつき、平均類似度を算出する(S403)。本実施形態では、分析手順集合の工数は集合を構成する分析手順の工数の和であり、同様にばらつきも、分析手順集合を構成する工数のばらつきの和とする。ただし、同一集合を構成する分析手順間に共通する作業工程が存在する場合は、分析手順集合の工数とそのばらつきは、通常の値より所定程度低く見積もる。なぜならば、作業工程が共通している複数の分析手順を同時並行的に実施することで、共通する作業工程を重複回行う必要がなくなるためである。そこで本実施形態では、分析手順集合において、ある作業工程が複数回登場するとしても、工程とそのばらつきの算出においては一回のみ考慮する。
また、分析手順集合の平均類似度は、分析手順集合を構成する各分析手順の全てのペアの類似度の平均値とする。ただし、分析手順集合を構成する分析手順が一つの場合、分析手順集合の平均類似度は「0」とする。互いに作業内容が類似した分析手順から構成される分析手順集合は、平均類似度値が高くなる。分析手順集合算出部114は、算出した、分析手順集合の工数、ばらつき、および平均類似度を、手順集合情報テーブル125に記録する。
図14に本実施形態における手順集合情報テーブル125の一例を示す。本テーブル125は、分析手順集合のID1251、分析手順集合を構成する分析手順の手順IDの系列1252、分析手順集合の工数1253とそのばらつき1254、平均類似度255、工数制約条件の充足の有無1256、および表示優先度1257の各値から構成される。
続いて分析手順集合算出部114は、上述のステップS403で算出した分析手順集合の工数とばらつき、および、上述のステップS401で読み込んだ工数制約とリスク許容度、に基づいて工数制約を満たす分析手順集合を抽出する(S404)。
本実施形態では以下の式1に基づき、分析手順集合が工数制約を満たすかどうか判定する。
(分析手順集合の工数)+w×(分析手順集合のばらつき)<(工数制約)
・・・(式1)
ここで、wは分析作業者が入力したリスク許容度に対応する重みであり、本実施形態では以下の値とする。
リスク許容度が低の場合:w=0
リスク許容度が中の場合:w=1
リスク許容度が高の場合:w=2
続いて分析手順集合算出部114は、上述のステップS404における、分析手順集合が工数制約を満たしたかどうかの判定結果を、手順集合情報テーブル125に記録する(S405)。ここで、上述の判定結果が工数制約を満たすものであった場合、分析手順集合算出部114は、手順集合情報テーブル125内の工数制約充足1257欄に「1」の値を記録することとなる。
(分析手順集合の工数)+w×(分析手順集合のばらつき)<(工数制約)
・・・(式1)
ここで、wは分析作業者が入力したリスク許容度に対応する重みであり、本実施形態では以下の値とする。
リスク許容度が低の場合:w=0
リスク許容度が中の場合:w=1
リスク許容度が高の場合:w=2
続いて分析手順集合算出部114は、上述のステップS404における、分析手順集合が工数制約を満たしたかどうかの判定結果を、手順集合情報テーブル125に記録する(S405)。ここで、上述の判定結果が工数制約を満たすものであった場合、分析手順集合算出部114は、手順集合情報テーブル125内の工数制約充足1257欄に「1」の値を記録することとなる。
再び図3のメインフローの説明に戻る。分析手順集合算出部114は、上述のステップS4の結果を受けて、工数制約条件を満たす分析手順集合があるかどうかを判定する(S5)。図15に本処理の詳細フローを示す。当該フローにおいて、分析手順集合算出部114は、手順集合情報テーブル125から、工数制約条件を満たす分析手順集合の数を算出する(S501)。このステップS501において分析手順集合算出部114は、手順集合情報テーブル125中の、工数制約充足欄が「1」となる分析手順集合数をカウントする。
続いて分析手順集合算出部114は、工数制約条件を満たす分析手順集合数が1以上であるか否か判定する(S502)。この判定の結果、工数制約条件を満たす分析手順集合数が一つ以上あった場合(S502:YES)、分析手順集合算出部114は、処理をステップS6(図3のフロー)に進める。他方、上述の判定の結果、工数制約条件を満たす分析手順集合数が1より小さい、すなわち該当分析手順集合が存在しなかった場合(S502:NO)、分析手順集合算出部114は、制約条件の修正が必要と認識し、入力装置105を介した分析作業者による画面操作(制約条件入力)を受け付けるべく、処理をステップS8(図3のフロー)に進める。
再び図3のメインフローの説明に戻る。続いて表示手順集合算出部115は、表示優先度算出処理(S6)を実行する。この表示優先度算出処理(S6)は、工数制約条件を満たした分析手順集合のうち、どの集合を画面表示するか、その優先度を算出する処理となる。
上述のように、本実施形態では分析作業者の作業方針として、「効率的に分析作業を行うために、出来るだけ作業内容が共通する分析作業を選ぶ」という「効率性重視の方針」と、「分析作業の多様性を確保するために、作業内容が類似しない分析作業を選ぶ」という「多様性重視の方針」を想定している。そこで、分析手順集合の表示優先度はこれらの方針を定量化することで算出することとなる。具体的には、ぞれぞれの方針に対応する指標を基に、表示優先度を算出する。
本実施形態では、「効率性重視の方針」に対応する指標として、分析手順集合の工数を用いる。また、「多様性重視の方針」に対応する指標として、分析手順集合の多様性の指標を用いる。これらの指標間にはトレードオフの関係があると考えられる。よって、ある分析手順集合の表示優先度はこのトレードオフ関係を考慮し、以下の式2で算出する。
(表示優先度)=a×(1/工数)+(1-a)×(多様性)
=a×(1/工数)+(1-a)×(1.0-平均類似度)
・・・(式2)
上述の式2で示すように、本実施形態では分析手順集合の多様性の指標として(1.0-平均類似度)の値を用いる。また、「a」は効率性をどの程度考慮するか表す重みであり、(1-a)は多様性をどの程度考慮するか表す重みである。重み「a」の値は、分析作業者が入力装置105を介して選択する、「多様性優先」や「効率性優先」などの作業方針に基づき定義される。分析作業者は分析作業方針を選択することで、表示優先度の値、すなわち上述の「a」の値を調整することが可能となり、自らの作業方針に応じた分析手順集合をデータ分析作業支援装置100に提示させることができる。
(表示優先度)=a×(1/工数)+(1-a)×(多様性)
=a×(1/工数)+(1-a)×(1.0-平均類似度)
・・・(式2)
上述の式2で示すように、本実施形態では分析手順集合の多様性の指標として(1.0-平均類似度)の値を用いる。また、「a」は効率性をどの程度考慮するか表す重みであり、(1-a)は多様性をどの程度考慮するか表す重みである。重み「a」の値は、分析作業者が入力装置105を介して選択する、「多様性優先」や「効率性優先」などの作業方針に基づき定義される。分析作業者は分析作業方針を選択することで、表示優先度の値、すなわち上述の「a」の値を調整することが可能となり、自らの作業方針に応じた分析手順集合をデータ分析作業支援装置100に提示させることができる。
図16に表示優先度算出処理(S6)の詳細な処理フローを示す。このフローにおいて、表示手順集合算出部115は、入力制約条件テーブル126より、分析作業者が入力装置105を介して分析手順表示画面で選択した作業方針を読み込む(S601)。
続いて表示手順集合算出部115は、上述のステップS601で読み込んだ作業方針に対応する優先度評価式における重みを、作業方針情報テーブル127より読み込む(S602)。図17に、本実施形態における作業方針テーブル127の一例を示す。本テーブル127には、作業方針のID1271、作業方針の名称1272と作業方針ごとの優先度算出重み1273の各値が記録されている。このうち優先度算出重み1273は、上述の分析手順集合の表示優先度を算出する際に用いる。
図17のテーブル127のうち、例えばレコード1274は、ID1271が「T1」で、その作業方針の名称は「多様性優先」であり、その優先度算出重みは、効率性の重みが0.25、多様性の重みが0.75、であることを表している。
こうした本テーブル127は、データ分析作業者が作成するものであり、分析方針も任意に追加、修正することができる。
次に、表示手順集合算出部115は、手順集合情報テーブル125より、工数制約を満たす分析手順集合の工数、平均類似度の指標を読み込む(S603)。また、表示手順集合算出部115は、上述のステップS602で読み込んだ優先度算出重みと、ステップS603で読み込んだ分析手順集合の工数と平均類似度とをもとに、上記の式2に基づいて分析手順集合の表示優先度を算出する(S604)。例えば、或る分析手順集合の工数が「4」、平均類似度が「0.3」であったとする。また、分析作業者が指定していた効率性の重み「a」が0.25であると、表示優先度は、「0.25×(1/4)+(1-0.25)×(1.0-0.3)=0.5875」などと計算できる。
表示手順集合算出部115は、上述のステップS5とS6(すなわち図16のフロー)の一連の処理により、分析作業者指定の工数の制約を満たしつつ、分析作業者が設定した分析方針に則った分析手順集合を算出することができる。
次に表示手順集合算出部115は、上述のステップS604で算出した分析手順集合の表示優先度を、手順集合テーブル125の表示優先度欄1257に記録する(S605)。
ここで再び図3のメインフローの説明に戻る。続いて画面表示部116と画面操作処理部117は、画面表示処理(S7)を実行する。この画面表示処理(S7)は、制約条件を満たす分析手順集合やこの分析手順集合を分析手順フローチャートの形式で出力装置106に表示する処理である。
図18に画面表示処理の詳細フローを示す。本処理は、基本的にはデータ分析作業支援装置100が、情報データベース120の各テーブルから画面表示する情報を読み込んで出力装置106に表示する処理となる。
このうちステップS701におけるデータ分析作業支援装置100は、手順集合情報テーブル125から、ステップS6にて表示優先度が算出済みの各分析手順集合の表示優先度の情報を読み込む。また、ステップS702におけるデータ分析作業支援装置100は、上述の各分析手順集合における分析手順のノードの情報をノード情報テーブル122から読み込み、ステップS703においては、該当分析手順の分析手順フローチャートの構造をチャート構造テーブル121から読み込む。
また、ステップS704におけるデータ分析作業支援装置100は、分析作業者が入力装置105にて入力した制約条件である、制約条件を入力制約条件テーブル126から読み込む。
また、データ分析作業支援装置100において、上述のまでのステップで読み込んだ、分析手順集合及びそのノード情報を、該当分析手順集合の表示優先度が所定レベルより高いものについて、制約条件とともに画面表示部116が出力装置106に表示する(S705)。
続いて、データ分析作業支援装置100において、分析手順集合を構成する分析手順が統合されたものに対応するフローチャートを、画面表示部116が出力装置106に表示する(S706)。この分析手順の統合処理の概要を図19にて示す。この図19においては、分析手順1901~1905からなる分析手順集合1900を想定している。この分析手順集合1900において、各分析手順1901~1905は、最初の分岐工程1906として「N2」をいずれも有している。そこでこの分岐工程1906は、分析手順間で共通の分岐、すなわち共通分岐となる。この共通分岐1906を仮想的に統合した場合、分析手順集合1900は、分析手順集合1910の形態となる。ここでは、開始の工程「N1」から、次工程が共通分岐「N2」となり、それに続く工程が「N3」、「N12」である。以降の工程に関しても共通部分は統合した構成となっている。
続いて、データ分析作業支援装置100において、手順情報テーブル123により強調表示する分析手順(表示フラグが「1」のもの)を読み込み、画面表示部116が出力装置106に強調表示する(S707)。この強調表示の詳細は後述する。
図21に本実施形態におけるデータ分析作業支援装置100の画面表示の一例を示す。画面表示部116が出力装置106に表示する画面30は、主に、分析手順を構成するノードを表示する領域301、分析作業者により入力された制約条件の表示欄302、分析手順フローチャートの表示領域308、および制約条件を満たす分析手順集合の表示領域303からなる。このうち表示欄302は、制約条件の修正を分析作業者から受け付ける入力欄でもある。データ分析作業支援装置100の画面表示部116は、上述のステップS701からS704で読み込んだ情報にもとづき、画面30におけるこれらの表示内容を表示する。
ここで再び図3のメインフローの説明に戻る。次に、データ分析作業支援装置100は、入力装置105を介した分析作業者による画面操作部116における操作内容を判定する、画面操作判定(S8)の処理を実行する。
図20に画面操作判定(S8)の詳述フローを示す。この場合、ステップS801において、画面操作処理部117は、画面表示部116における分析作業者によるボタン操作の事象を受け付けて、画面30においてどのボタンが押下されたか判定する。
画面表示部116が出力装置106で表示する画面30には、分析作業者が入力装置105で操作できる領域やボタンが配置されている。例えば制約条件の入力領域302では、分析作業者が、制約条件である工数の上限、工数のぶれに関するリスク許容度、および作業方針、の各値を入力、選択する。また、分析手順集合の表示欄303では、分析作業者が表示されている分析手順を確認または実行したかチェックするチェックボックス304が配置されている。分析作業者が画面30にて入力、選択したこれらの情報は、手順抽出ボタン310が押下された際、この押下事象を感知した画面操作処理部117が、情報データベースに記録する(S803、S804)。その後、改めて分析手順集合の抽出と優先度算出、画面表示のステップ(図3:S1~S7)が実行されることとなる。
画面表示部116が出力装置106で表示する画面30には、分析作業者が強調表示したい分析手順を選択するためのラジオボタン305が配置されている。このラジオボタン305によって所定の分析手順が選択された後、表示ボタン306が押下されると、この押下を感知した画面操作処理部117は、該当分析手順について、強調表示の指定を受けた旨の情報、すなわち表示フラグを手順情報テーブル123の表示フラグ欄に記録する(S802)。またこれを受けた画面表示部116は、表示領域308で表示中の分析手順フローチャート上で、該当分析手順について強調表示処理を実行する。本実施形態において協調表示の例としては、図21の表示領域308で示すように、分析手順フローチャートのうち、強調表示対象の分析手順を構成する一連のノードを破線で囲む形態を採用している。こうした強調表示を出力装置106で閲覧した分析作業者は、分析手順フローチャート、すなわち分析手順集合中での該当分析手順の流れ、および統合した工程なども含む他の分析手順との関係性などを容易に視認できる。
これまで説明してきたデータ分析作業支援装置100の各機能は、基本的には分析作業を開始する際に、分析作業者が実施する分析手順を選択する作業を支援するためのものである。一方、分析作業が進捗すると、例えば分析作業者が顧客に分析結果を説明した際の該当顧客の反応や、分析手順の工数とそのばらつきに関する新たな知見などが得られる。
そこで分析作業者は、新たに獲得した知見をもとに、分析作業開始時に作成した作業計画を修正する必要がある。このため、分析作業の過程で得られた新たな知見をデータ分析作業支援装置100における処理に反映させる。例えば、顧客から得た知見に対応した制約条件の変更(例:この顧客には、効率性重視の方針が良いのか、多様性重視の方針が良いのか)、分析作業により得た知見に対応したノード情報テーブルの修正、などがそれにあたる。この場合、データ分析作業支援装置100は、画面30における制約条件の入力領域302にて、分析作業者から、変更する制約条件の項目(工数やリスク許容度、作業方針)を受け付けて、上述のステップS1からS7を再実行する。
このように分析作業者は、分析作業をする中で新たに得られた情報や知見をデータ分析作業支援装置100に適宜フィードバックさせることで、データ分析作業支援装置100による分析作業の支援をより効果的なものとできる。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、分析手順を分析作業者に提示することでデータ分析作業を支援する装置において、分析作業の効率性と多様性という二つの条件を満たした上で実行可能な分析手順を提示することが可能となる。またこの分析手順の提示は、分析作業者による工数や作業方針の修正に柔軟に対応して再実行される。
従って、分析作業の効率性と多様性をあわせて踏まえつつ、条件変化に柔軟に対応したデータ分析作業の支援が可能となる。作業に習熟していない分析作業者において、分析手順の選択肢が多く、複雑な判断も必要となる分析作業に関して、現状に的確に対応した適切な分析手順を選択することが可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ分析作業支援装置において、前記記憶装置は、前記分析手順における各工程の実行に要する工数の情報を少なくとも含むノード情報を更に格納したものであり、前記演算装置は、前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出し、前記各分析手順の組み合わせのうち、前記算出した工数が前記工数制約の条件を満たす組み合わせである分析手順集合を抽出するものである、としてもよい。
これによれば、分析手順に関する工数を用いて、工数制約を満たす分析手順集合を効率良く特定出来る。
また、本実施形態のデータ分析作業支援装置において、前記演算装置は、前記分析手順集合の工数算出に際し、分析手順集合を構成する分析手順の間で、互いに共通する工程を統合した場合の分析手順集合について、当該分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出するものである、としてもよい。
これによれば、分析手順間で共通の工程を統合して効率化を図った状態での工数を特定し、これを工数制約に関する判定、工数削減効果の特定等に用いることが出来る。
また、本実施形態のデータ分析作業支援装置において、前記演算装置は、前記表示優先度を算出する処理に対し、前記分析手順集合における前記工程の統合を行わずに各分析手順を実施した場合の該当分析手順集合における工数と、前記工程の統合を行った上で各分析手順を実施した場合の該当分析手順集合における工数との差分を算定し、当該差分を工数削減効果の値として特定し、前記工数削減効果の値の大きさに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する、ものであるとしてもよい。
これによれば、上述の工程統合の前後の状況を仮定して工数削減効果の特定等を行って、分析作業の効率性に関するユーザの志向に加味し、分析手順集合の表示優先度を精度良く特定出来る。
また、本実施形態のデータ分析作業支援装置において、前記記憶装置は、前記ノード情報として、前記分析手順における各工程の実行に要する工数のばらつきの情報を更に格納したものであり、前記演算装置は、前記工数制約および志向バランスの各情報を受け付ける処理に際し、工数の変動リスクの許容度を入力装置で更に受け付け、当該受け付けた情報を記憶装置に格納し、前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数とそのばらつきの各情報を前記ノード情報から取得し、各工程の工数とばらつきとを合算して、該当分析手順の実行に要する工数とそのばらつきを算出し、前記各分析手順の組み合わせのうち、前記算出した工数の前記ばらつきによる変動が前記許容度に対応したものであり、前記工数制約の条件を満たす組み合わせである分析手順集合を抽出するものである、としてもよい。
これによれば、分析作業者のスキルや経験等に応じて工数がばらつく状況に対応し、工数変動に関するユーザの許容度を踏まえた分析手順集合の抽出が可能となる。
また、本実施形態のデータ分析作業支援装置において、前記記憶装置は、前記分析手順における各工程の実行に要する工数、及び、該当分析手順中の分岐工程の重要度、の各情報を少なくとも含むノード情報を更に格納したものであり、前記演算装置は、前記平均類似度の算出に際し、分析手順間で相違する分岐工程を特定し、該当分岐工程の前記重要度の高さに応じて該当分析手順間の前記類似度を低く算出し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出するものである、としてもよい。
これによれば、分析手順間の類似度を分岐工程の重要度に応じて精度良く特定し、ユーザの志向に的確に対応した分析手順集合の抽出が可能となる。
また、本実施形態のデータ分析作業支援装置において、前記記憶装置は、前記分析手順における各工程の実行に要する工数の情報を少なくとも含むノード情報と、前記分析手順における各工程の実行順序を示すチャート構造情報と、を更に格納したものであり、前記演算装置は、前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示するに際し、前記ノード情報テーブルから取得した、分析手順集合が含む分析手順を構成する各工程の情報と、前記チャート構造情報が示す工程の実行順序に基づく分析手順フローチャートと、前記入力装置で受け付けた、データ分析作業における工数制約の情報と、作業の効率性と多様性との間での志向バランスを示す情報と、前記表示優先度が最も高い分析手順集合の情報と、を出力装置に表示するものである、としてもよい。
これによれば、抽出した分析手順集合や制約に関する情報など、処理に用いた情報と処理結果の情報を表示し、ユーザである分析作業者に対し、簡明な表示形態にて提示出来る。
また、本実施形態のデータ分析作業支援装置において、前記演算装置は、前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示するに際し、強調表示対象とする分析手順のユーザ指示を入力装置で受け付けた場合、該当分析手順に関する更なる前記手順情報として、強調表示フラグを記憶装置に保存し、前記強調表示フラグが設定されている分析手順に関して、前記分析手順フローチャート上で所定の強調表示処理を実行するものである、としてもよい。
これによれば、ユーザである分析作業者が指定した分析手順の情報に関して強調表示し、ユーザにおける情報認識の効率を高めることができる。
また、本実施形態のデータ分析作業支援装置において、前記演算装置は、前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示するに際し、所定のユーザ指示を入力装置で受け付けた場合、出力装置に表示した分析手順に関してユーザ確認実行済みである旨を示す実行済みフラグを、更なる前記手順情報として前記記憶装置に保存し、前記分析手順集合の抽出、前記分析手順集合に関する平均類似度の算出、前記分析手順集合の表示優先度の算出、前記表示優先度に応じた前記分析手順集合の情報表示、の各処理に際し、前記実行済みフラグが設定されていない分析手順を対象として処理を実行するものである、としてもよい。
これによれば、ユーザが確認した分析手順に関し、以降の処理を回避し、全体のフローにおける処理効率を良好なものと出来る。
なお、本実施形態のデータ分析作業支援方法において、前記情報処理装置が、前記記憶装置において、前記分析手順における各工程の実行に要する工数の情報を少なくとも含むノード情報を更に格納しており、前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出し、前記各分析手順の組み合わせのうち、前記算出した工数が前記工数制約の条件を満たす組み合わせである分析手順集合を抽出する、としてもよい。
また、本実施形態のデータ分析作業支援方法において、前記情報処理装置が、前記分析手順集合の工数算出に際し、分析手順集合を構成する分析手順の間で、互いに共通する工程を統合した場合の分析手順集合について、当該分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出する、としてもよい。
また、本実施形態のデータ分析作業支援方法において、前記情報処理装置が、前記表示優先度を算出する処理に対し、前記分析手順集合における前記工程の統合を行わずに各分析手順を実施した場合の該当分析手順集合における工数と、前記工程の統合を行った上で各分析手順を実施した場合の該当分析手順集合における工数との差分を算定し、当該差分を工数削減効果の値として特定し、前記工数削減効果の値の大きさに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する、としてもよい。
また、本実施形態のデータ分析作業支援方法において、前記情報処理装置が、前記記憶装置において、前記ノード情報として、前記分析手順における各工程の実行に要する工数のばらつきの情報を更に格納しており、前記工数制約および志向バランスの各情報を受け付ける処理に際し、工数の変動リスクの許容度を入力装置で更に受け付け、当該受け付けた情報を記憶装置に格納し、前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数とそのばらつきの各情報を前記ノード情報から取得し、各工程の工数とばらつきとを合算して、該当分析手順の実行に要する工数とそのばらつきを算出し、前記各分析手順の組み合わせのうち、前記算出した工数の前記ばらつきによる変動が前記許容度に対応したものであり、前記工数制約の条件を満たす組み合わせである分析手順集合を抽出する、としてもよい。
また、本実施形態のデータ分析作業支援方法において、前記情報処理装置が、前記記憶装置において、前記分析手順における各工程の実行に要する工数、及び、該当分析手順中の分岐工程の重要度、の各情報を少なくとも含むノード情報を更に格納しており、前記平均類似度の算出に際し、分析手順間で相違する分岐工程を特定し、該当分岐工程の前記重要度の高さに応じて該当分析手順間の前記類似度を低く算出し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出する、としてもよい。
100 データ分析作業支援装置
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
110 表示手順算出部
111 分析手順算出部
112 分析手順情報算出部
113 手順類似度算出部
114 分析手順集合算出部
115 表示手順集合算出部
116 画面表示部
117 画面操作処理部
120 情報データベース
121 チャート構造テーブル
122 ノード情報テーブル
123 手順情報テーブル
124 手順類似度テーブル
125 手順集合情報テーブル
126 入力制約条件テーブル
127 作業方針情報テーブル
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
110 表示手順算出部
111 分析手順算出部
112 分析手順情報算出部
113 手順類似度算出部
114 分析手順集合算出部
115 表示手順集合算出部
116 画面表示部
117 画面操作処理部
120 情報データベース
121 チャート構造テーブル
122 ノード情報テーブル
123 手順情報テーブル
124 手順類似度テーブル
125 手順集合情報テーブル
126 入力制約条件テーブル
127 作業方針情報テーブル
Claims (15)
- データ分析作業における一連の工程からなる各分析手順の情報である手順情報を格納した記憶装置と、
データ分析作業における工数制約の情報と、作業の効率性と多様性との間での志向バランスを示す情報と、を入力装置で受け付け、当該受け付けた各情報を記憶装置に格納する処理と、
前記各分析手順の組み合わせのうち、前記工数制約の条件を満たす組み合わせである分析手順の集合を、前記手順情報に基づいて抽出する処理と、
前記分析手順集合を構成する各分析手順間の類似度を所定アルゴリズムで算定し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出する処理と、
前記平均類似度の高さに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する処理と、
前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示する処理を実行する演算装置と、
を備えることを特徴とするデータ分析作業支援装置。 - 前記記憶装置は、
前記分析手順における各工程の実行に要する工数の情報を少なくとも含むノード情報を更に格納したものであり、
前記演算装置は、
前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出し、前記各分析手順の組み合わせのうち、前記算出した工数が前記工数制約の条件を満たす組み合わせである分析手順集合を抽出するものである、
ことを特徴とする請求項1に記載のデータ分析作業支援装置。 - 前記演算装置は、
前記分析手順集合の工数算出に際し、分析手順集合を構成する分析手順の間で、互いに共通する工程を統合した場合の分析手順集合について、当該分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出するものである、
ことを特徴とする請求項2に記載のデータ分析作業支援装置。 - 前記演算装置は、
前記表示優先度を算出する処理に対し、
前記分析手順集合における前記工程の統合を行わずに各分析手順を実施した場合の該当分析手順集合における工数と、前記工程の統合を行った上で各分析手順を実施した場合の該当分析手順集合における工数との差分を算定し、当該差分を工数削減効果の値として特定し、
前記工数削減効果の値の大きさに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する、
ものであることを特徴とする請求項3に記載のデータ分析作業支援装置。 - 前記記憶装置は、
前記ノード情報として、前記分析手順における各工程の実行に要する工数のばらつきの情報を更に格納したものであり、
前記演算装置は、
前記工数制約および志向バランスの各情報を受け付ける処理に際し、工数の変動リスクの許容度を入力装置で更に受け付け、当該受け付けた情報を記憶装置に格納し、
前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数とそのばらつきの各情報を前記ノード情報から取得し、各工程の工数とばらつきとを合算して、該当分析手順の実行に要する工数とそのばらつきを算出し、
前記各分析手順の組み合わせのうち、前記算出した工数の前記ばらつきによる変動が前記許容度に対応したものであり、前記工数制約の条件を満たす組み合わせである分析手順集合を抽出するものである、
ことを特徴とする請求項2に記載のデータ分析作業支援装置。 - 前記記憶装置は、
前記分析手順における各工程の実行に要する工数、及び、該当分析手順中の分岐工程の重要度、の各情報を少なくとも含むノード情報を更に格納したものであり、
前記演算装置は、
前記平均類似度の算出に際し、分析手順間で相違する分岐工程を特定し、該当分岐工程の前記重要度の高さに応じて該当分析手順間の前記類似度を低く算出し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出するものである、
ことを特徴とする請求項1に記載のデータ分析作業支援装置。 - 前記記憶装置は、
前記分析手順における各工程の実行に要する工数の情報を少なくとも含むノード情報と、前記分析手順における各工程の実行順序を示すチャート構造情報と、を更に格納したものであり、
前記演算装置は、
前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示するに際し、
前記ノード情報テーブルから取得した、分析手順集合が含む分析手順を構成する各工程の情報と、
前記チャート構造情報が示す工程の実行順序に基づく分析手順フローチャートと、
前記入力装置で受け付けた、データ分析作業における工数制約の情報と、作業の効率性と多様性との間での志向バランスを示す情報と、
前記表示優先度が最も高い分析手順集合の情報と、
を出力装置に表示するものである、
ことを特徴とする請求項1に記載のデータ分析作業支援装置。 - 前記演算装置は、
前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示するに際し、
強調表示対象とする分析手順のユーザ指示を入力装置で受け付けた場合、該当分析手順に関する更なる前記手順情報として、強調表示フラグを記憶装置に保存し、前記強調表示フラグが設定されている分析手順に関して、前記分析手順フローチャート上で所定の強調表示処理を実行するものである、
ことを特徴とする請求項7に記載のデータ分析作業支援装置。 - 前記演算装置は、
前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示するに際し、
所定のユーザ指示を入力装置で受け付けた場合、出力装置に表示した分析手順に関してユーザ確認実行済みである旨を示す実行済みフラグを、更なる前記手順情報として前記記憶装置に保存し、
前記分析手順集合の抽出、前記分析手順集合に関する平均類似度の算出、前記分析手順集合の表示優先度の算出、前記表示優先度に応じた前記分析手順集合の情報表示、の各処理に際し、前記実行済みフラグが設定されていない分析手順を対象として処理を実行するものである、
ことを特徴等する請求項7に記載のデータ分析作業支援装置。 - データ分析作業における一連の工程からなる各分析手順の情報である手順情報を格納した記憶装置を備えた情報処理装置が、
データ分析作業における工数制約の情報と、作業の効率性と多様性との間での志向バランスを示す情報と、を入力装置で受け付け、当該受け付けた各情報を記憶装置に格納する処理と、
前記各分析手順の組み合わせのうち、前記工数制約の条件を満たす組み合わせである分析手順の集合を、前記手順情報に基づいて抽出する処理と、
前記分析手順集合を構成する各分析手順間の類似度を所定アルゴリズムで算定し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出する処理と、
前記平均類似度の高さに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する処理と、
前記分析手順集合の情報を前記表示優先度に応じて出力装置に表示する処理と、
を実行することを特徴とするデータ分析作業支援方法。 - 前記情報処理装置が、
前記記憶装置において、前記分析手順における各工程の実行に要する工数の情報を少なくとも含むノード情報を更に格納しており、
前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出し、前記各分析手順の組み合わせのうち、前記算出した工数が前記工数制約の条件を満たす組み合わせである分析手順集合を抽出する、
ことを特徴とする請求項10に記載のデータ分析作業支援方法。 - 前記情報処理装置が、
前記分析手順集合の工数算出に際し、分析手順集合を構成する分析手順の間で、互いに共通する工程を統合した場合の分析手順集合について、当該分析手順を構成する工程に要する工数の情報を前記ノード情報から取得し、各工程の工数を合算して該当分析手順の実行に要する工数を算出する、
ことを特徴とする請求項11に記載のデータ分析作業支援方法。 - 前記情報処理装置が、
前記表示優先度を算出する処理に対し、
前記分析手順集合における前記工程の統合を行わずに各分析手順を実施した場合の該当分析手順集合における工数と、前記工程の統合を行った上で各分析手順を実施した場合の該当分析手順集合における工数との差分を算定し、当該差分を工数削減効果の値として特定し、
前記工数削減効果の値の大きさに応じた前記作業の効率性の値と、前記平均類似度の低さに応じた前記作業の多様性の値とを、前記志向バランスの情報に基づいて重み付けして合算して、該当分析手順集合の表示優先度を算出する、
ことを特徴とする請求項12に記載のデータ分析作業支援方法。 - 前記情報処理装置が、
前記記憶装置において、前記ノード情報として、前記分析手順における各工程の実行に要する工数のばらつきの情報を更に格納しており、
前記工数制約および志向バランスの各情報を受け付ける処理に際し、工数の変動リスクの許容度を入力装置で更に受け付け、当該受け付けた情報を記憶装置に格納し、
前記分析手順集合を抽出する処理に際し、各分析手順を構成する工程に要する工数とそのばらつきの各情報を前記ノード情報から取得し、各工程の工数とばらつきとを合算して、該当分析手順の実行に要する工数とそのばらつきを算出し、
前記各分析手順の組み合わせのうち、前記算出した工数の前記ばらつきによる変動が前記許容度に対応したものであり、前記工数制約の条件を満たす組み合わせである分析手順集合を抽出する、
ことを特徴とする請求項11に記載のデータ分析作業支援方法。 - 前記情報処理装置が、
前記記憶装置において、前記分析手順における各工程の実行に要する工数、及び、該当分析手順中の分岐工程の重要度、の各情報を少なくとも含むノード情報を更に格納しており、
前記平均類似度の算出に際し、分析手順間で相違する分岐工程を特定し、該当分岐工程の前記重要度の高さに応じて該当分析手順間の前記類似度を低く算出し、当該算出した各分析手順間の類似度の平均を、該当分析手順集合に関する平均類似度として算出する、
ことを特徴とする請求項10に記載のデータ分析作業支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/065097 WO2015186249A1 (ja) | 2014-06-06 | 2014-06-06 | データ分析作業支援装置及びデータ分析作業支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/065097 WO2015186249A1 (ja) | 2014-06-06 | 2014-06-06 | データ分析作業支援装置及びデータ分析作業支援方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015186249A1 true WO2015186249A1 (ja) | 2015-12-10 |
Family
ID=54766342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/065097 WO2015186249A1 (ja) | 2014-06-06 | 2014-06-06 | データ分析作業支援装置及びデータ分析作業支援方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2015186249A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045722A (ja) * | 2014-08-22 | 2016-04-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10459730B2 (en) | 2016-02-26 | 2019-10-29 | Hitachi, Ltd. | Analysis system and analysis method for executing analysis process with at least portions of time series data and analysis data as input data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027529A (ja) * | 2010-07-20 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 作業手順評価装置、作業手順評価方法、作業手順評価プログラム及び記録媒体 |
JP2013029881A (ja) * | 2011-07-26 | 2013-02-07 | Hitachi Medical Corp | 保守支援システム、保守支援装置および保守支援プログラム |
JP2013041386A (ja) * | 2011-08-15 | 2013-02-28 | Hitachi Ltd | コンポーネント設計支援方法およびシステム |
-
2014
- 2014-06-06 WO PCT/JP2014/065097 patent/WO2015186249A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027529A (ja) * | 2010-07-20 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 作業手順評価装置、作業手順評価方法、作業手順評価プログラム及び記録媒体 |
JP2013029881A (ja) * | 2011-07-26 | 2013-02-07 | Hitachi Medical Corp | 保守支援システム、保守支援装置および保守支援プログラム |
JP2013041386A (ja) * | 2011-08-15 | 2013-02-28 | Hitachi Ltd | コンポーネント設計支援方法およびシステム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045722A (ja) * | 2014-08-22 | 2016-04-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10459730B2 (en) | 2016-02-26 | 2019-10-29 | Hitachi, Ltd. | Analysis system and analysis method for executing analysis process with at least portions of time series data and analysis data as input data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5533874B2 (ja) | Gui評価システム、方法およびプログラム | |
JP5223413B2 (ja) | Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム | |
JP5192476B2 (ja) | 作業支援システム、作業支援方法、および作業支援プログラム | |
EP2613212B1 (en) | Diagnostic algorithm parameter optimization | |
US20180240019A1 (en) | Table-meaning estimation system, method, and program | |
JP6542612B2 (ja) | テストシナリオ生成支援装置およびテストシナリオ生成支援方法 | |
JP2011008355A (ja) | Fmeaシートの作成支援システムおよび作成支援用のプログラム | |
JP2011165118A (ja) | プロジェクト支援方法及びその装置並びにその実行プログラム | |
JP4790464B2 (ja) | 業務分析システム | |
WO2015186249A1 (ja) | データ分析作業支援装置及びデータ分析作業支援方法 | |
EP3718116B1 (en) | Apparatus for patient data availability analysis | |
JP4718394B2 (ja) | 作業工程人数割当方法及び装置 | |
JP5336675B1 (ja) | サービス評価診断システム、サービス評価診断方法及びサービス評価診断プログラム | |
CN111382925A (zh) | 生产实绩数据分析装置 | |
JP6310865B2 (ja) | ソースコード評価システム及び方法 | |
JP5255796B2 (ja) | 運用管理サポートシステム、プログラム | |
JP5077427B2 (ja) | 対策選択プログラム、対策選択装置および対策選択方法 | |
US8255881B2 (en) | System and method for calculating software certification risks | |
US20170024673A1 (en) | Computer-readable storage medium, display information control method, and display information control device | |
JP2004118552A (ja) | 多目的意思決定プロセス支援方法とそのためのプログラム | |
JP2009187330A (ja) | 業務品質の改善ガイドシステム | |
JP6861176B2 (ja) | プロジェクト見積り支援方法およびプロジェクト見積り支援装置 | |
JP2021039523A5 (ja) | ||
JP5535270B2 (ja) | 文書成分分析装置およびプログラム | |
JP7237867B2 (ja) | ソリューション選定支援装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14894077 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14894077 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |