WO2020059025A1 - データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2020059025A1
WO2020059025A1 PCT/JP2018/034492 JP2018034492W WO2020059025A1 WO 2020059025 A1 WO2020059025 A1 WO 2020059025A1 JP 2018034492 W JP2018034492 W JP 2018034492W WO 2020059025 A1 WO2020059025 A1 WO 2020059025A1
Authority
WO
WIPO (PCT)
Prior art keywords
visualization
feedback
combination
score
data analysis
Prior art date
Application number
PCT/JP2018/034492
Other languages
English (en)
French (fr)
Inventor
将平 蛭田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/034492 priority Critical patent/WO2020059025A1/ja
Priority to US17/276,283 priority patent/US20220035798A1/en
Priority to JP2020547502A priority patent/JP7131620B2/ja
Publication of WO2020059025A1 publication Critical patent/WO2020059025A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2393Updating materialised views
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Definitions

  • the present invention relates to a data analysis support device and a data analysis support method for analyzing data, and further relates to a computer-readable recording medium storing a program for realizing the data analysis support device and the data analysis support method.
  • a technique for presenting a visualization method to an analyst who analyzes target data According to the technique, a visualization method suitable for analysis of target data is selected, and the selected visualization method is presented to an analyst.
  • Patent Literature 1 discloses a data analysis support device that presents a visualization technique to an analyst.
  • preset information vocal
  • the data analysis support device refers to a table in which the combination of the attribute, the visualization method, and the validity are associated with each other using the specified combination of the attributes, and as a candidate, the visualization method having the high validity as a candidate. Extract. Then, the data analysis support device presents the extracted visualization technique with high effectiveness to the analyst.
  • An example of the object of the present invention is to provide a data analysis support apparatus, a data analysis support method, and a computer-readable recording medium that records a program by improving the efficiency of analyzing target data by presenting a visualization method suitable for analysis. Is to provide.
  • a data analysis support device includes: For a combination of features extracted from the target data, a relationship score calculation unit that calculates a relationship score representing a relationship between data corresponding to features included in the combination, Using the relationship score corresponding to the combination, to calculate a visualization score representing the effectiveness of the visualization method corresponding to the combination, a visualization score calculation unit, Selecting the visualization method according to the visualization score, a display corresponding to the selected visualization method, generating visualization display information for displaying on a display device, a display information generating unit, It is characterized by having.
  • a data analysis support method includes: (A) calculating, for a combination of features extracted from the target data, a relationship score indicating a relationship between data corresponding to features included in the combination; (B) using the relationship score corresponding to the combination to calculate a visualization score representing the effectiveness of the visualization method corresponding to the combination; (C) selecting the visualization method according to the visualization score, and generating visualization display information for displaying a display corresponding to the selected visualization method on a display device; It is characterized by having.
  • a computer-readable recording medium in which a program according to one aspect of the present invention is recorded, On the computer, (A) calculating, for a combination of features extracted from the target data, a relationship score indicating a relationship between data corresponding to features included in the combination; (B) using the relationship score corresponding to the combination to calculate a visualization score representing the effectiveness of the visualization method corresponding to the combination; (C) selecting the visualization method according to the visualization score, and generating visualization display information for displaying a display corresponding to the selected visualization method on a display device; Characterized by recording a program including an instruction to execute the program.
  • the efficiency of analyzing target data can be improved by presenting a visualization method suitable for analysis.
  • the data analysis support device 1 shown in FIG. 1 is a device that improves the efficiency of analysis by presenting a visualization technique suitable for analysis.
  • the data analysis support device 1 includes a relationship score calculation unit 2, a visualization score calculation unit 3, and a display information generation unit 4.
  • the relationship score calculation unit 2 calculates a relationship score representing a relationship between data corresponding to features included in the combination, for a combination of features extracted from the target data.
  • the visualization score calculation unit 3 uses the relationship score corresponding to the combination to calculate a visualization score indicating the effectiveness of the visualization method corresponding to the combination.
  • the display information generation unit 4 selects a visualization method according to the visualization score, and generates visualization display information for outputting a display corresponding to the selected visualization method to a display device.
  • the visualization method is selected according to the visualization score, and the selected visualization method suitable for analysis is presented to the analyst. Therefore, the time required for the analyst to select a visualization method suitable for the analysis can be reduced.
  • FIG. 2 is a diagram illustrating an example of a system having a data analysis support device.
  • the system includes a data analysis support device 1, an input device 21, a display device 22, and a storage device 23.
  • the input device 21 is a device for inputting information to the data analysis support device 1.
  • the display device 22 is a device that outputs information output by the data analysis support device 1.
  • the storage device 23 may be provided outside the data analysis support device 1 as shown in FIG. 2, or may be provided inside the data analysis support device 1.
  • the input device 21 is a device that inputs information input by the analyst to the data analysis support device 1 using, for example, a keyboard, a mouse, a touch panel, or the like.
  • the display device 22 is, for example, an image display device using a liquid crystal, an organic EL (Electro Luminescence), or a CRT (Cathode Ray Tube). Further, a sound output device such as a speaker may be provided.
  • the display device 22 may be a printing device such as a printer. Further, in the example of FIG. 2, the input device 21 and the display device 22 are shown separately, but they may be input / output devices (the range of the broken line in FIG. 2). In this case, the input / output device is, for example, a device such as a personal computer or a server computer connected to the monitor.
  • the data analysis support device 1 has a feature extraction unit 24 and a feedback score calculation unit 25 in addition to the relationship score calculation unit 2, the visualization score calculation unit 3, and the display information generation unit 4.
  • the feature extracting unit 24 extracts a combination of features from target data to be analyzed. Specifically, first, the feature extraction unit 24 acquires the target data from the storage device 23 in which the target data is stored in order to grasp the tendency of the target data to be analyzed.
  • the feature extracting unit 24 extracts a plurality of features (feature 1, feature 2,... Feature n: n is a positive integer) from the acquired target data.
  • the feature extraction unit 24 uses the date and time (Time), the source port number (SrcPort), the destination port for the source IP (Internet @ Protocol) address and the destination IP address from the target data.
  • Information indicating characteristics such as a number (DstPort), a transmission byte number (SrcByte), a reception byte number (DstByte), a communication time (Duration), a transmission packet number, and a reception packet number is extracted.
  • the feature extracting unit 24 combines the extracted features (feature 1, feature 2,... Feature n) to generate combination information.
  • feature 1, feature 2 when six types of features are extracted from target data and two of the features are combined to generate combination information, the feature extraction unit 24 includes (feature 1, feature 2), (feature 2) (Feature 1, Feature 4), (Feature 1, Feature 4), (Feature 1, Feature 5), (Feature 1, Feature 6), (Feature 2, Feature 3), (Feature 2, Feature 4), (Feature 2, (Feature 5), (Feature 2, Feature 6), (Feature 3, Feature 4), (Feature 3, Feature 5), (Feature 3, Feature 6), (Feature 4, Feature 5), (Feature 4, Feature 6) ), (Feature 5, feature 6).
  • the relationship score calculation unit 2 calculates an index indicating a relationship between data corresponding to features included in the combination information. Specifically, the relationship score calculation unit 2 first obtains combination information. Subsequently, the relationship score calculating unit 2, by using the data corresponding to each feature included in the combination information, for each visualization method to calculate a relationship score S R representing the relationship between the data corresponding to the feature .
  • a visualization method for example, there is a method using a scatter diagram, a line graph, a bar graph, or the like. Further, a method of changing the scale may be included as a visualization method.
  • Examples of the visualization method include (A) a method of displaying an absolute value of a correlation coefficient using a scatter diagram, (B) a method of displaying a clustering result (quantitative evaluation scale) using a scatter diagram, and (C) a polygonal line. There are a method of displaying data distribution using a graph, and a method of displaying data evaluation using a (D) bar graph.
  • FIG. 3 is a scatter diagram showing the relationship between the number of transmitted bytes and the number of received bytes.
  • the target data d indicates data to be analyzed.
  • the feature f x, f y represents the combination information feature extractor 24 is generated.
  • the target data d is data represented by (SrcIP, DstIP, SrcByte, DstByte, SrcPacket, DstPacket)
  • the combination information of the features is (SrcIP, DstIP), (SrcIP, SrcByte) ... f x, f y correspond to each combination information.
  • the scatter diagram 31 shown in FIG. 3 is a diagram in which the number of transmitted bytes (SrcByte) and the number of received bytes (DstByte) in the analysis of communication traffic are plotted as they are.
  • the scatter diagram 32 shown in FIG. 3 is a diagram in which the number of transmitted bytes (SrcByte) and the number of received bytes (DstByte) are logarithmically transformed and plotted.
  • relationship score S R is such that the larger the calculated relationship score S R is, the more suitable a visualization method for analyzing the target data is.
  • the feedback score calculation unit 25 uses a visualization technique corresponding to the combination of features, and when the analyst analyzes the target data, when the analyst uses the visualization technique corresponding to the combination of features, An index that indicates the ease of analysis (user-friendly) felt by the analyst, whether the analysis is suitable, and the like are calculated.
  • the feedback score calculation unit 25 acquires, from the input device 21, feedback information indicating an evaluation degree of an analyst with respect to a visualization method for a combination of features.
  • the feedback information is input by the analyst using the input device 21, for example.
  • the use history of the visualization technique used by the analyst may be input.
  • the evaluation degree is a value obtained by quantifying, for example, an impression felt by the analyst on the visualization method for the combination.
  • the input method of the evaluation level is, for example, when it is determined that the visualization method used for the analysis is suitable for the analysis, the analyst selects “good” or not and inputs the selected content as the evaluation level. There is a way to do that. Alternatively, a method of selecting “good” or “bad” may be used, or a method of selecting from three or more different ranks set in advance may be used. Alternatively, a method of inputting a numerical value or a character representing the evaluation degree may be used, or an input method combining them may be used.
  • the feedback score calculation unit 25 calculates a feedback score serving as the above-described index based on the obtained feedback information.
  • the feedback score calculation unit 25 obtains, for each analyst, the combination of the feature, the visualization method, and the number of feedbacks (the first number of feedbacks) in which the feedback information for the combination of the combination of the characteristic and the visualization method is obtained. And feedback management information (first feedback management information) in which the feedback management information is associated with the evaluation degree represented by the feedback information.
  • FIG. 4 is a diagram showing an example of the data structure of the feedback management information.
  • the feedback management information 41 is stored in, for example, the storage device 23, a storage unit provided in the data analysis support device 1, or a storage unit provided outside the data analysis support device 1.
  • the feedback management information 41 includes “feature identification information 1” and “feature identification information 2” representing a combination of features, “visualization technique” representing a visualization technique, “feedback frequency” representing the number of feedbacks, and “representation degree”. This is information associated with “valid” and “no valid”.
  • information“ feature 1 ”,“ feature 2 ”,“ feature 3 ”, etc., representing features are stored in“ feature identification information 1 ”and“ feature identification information 2 ”.
  • information indicating the visualization method such as “visualization method 1”, “visualization method 2”, and “visualization method 3” is stored.
  • the “number of feedbacks” stores the number of times the feedback score calculation unit 25 has acquired the feedback information (the number of feedbacks). In “validity”, for example, the number of times of obtaining the feedback information having the above “good” is stored, and in “non-validity”, for example, the number of times of obtaining the above “bad” is stored. .
  • the feedback score calculation unit 25 calculates, for each analyst, the feature, the visualization method, the partial feedback number (partial feedback number) for obtaining the partial feedback information for the combination of the feature and the visualization method, and the feedback information.
  • the partial feedback management information (second feedback management information) that associates the indicated evaluation level with the evaluation information calculated using the evaluation level is generated.
  • FIG. 5 is a diagram showing an example of the data structure of the partial feedback management information.
  • the partial feedback management information 51 is stored in, for example, the storage device 23, a storage unit provided in the data analysis support device 1, or a storage unit provided outside the data analysis support device 1.
  • the partial feedback management information 51 includes “feature identification information” representing a feature, “visualization technique” representing a visualization technique, “partial feedback count” representing the number of feedbacks for each feature, and “validity” representing an evaluation degree. This is information in which “no validity” is associated with “evaluation information” representing evaluation information.
  • the “feature identification information” stores “feature 1”, “feature 2”, and the like representing features.
  • information indicating the visualization method such as “visualization method 1”, “visualization method 2”, and “visualization method 3” is stored.
  • the “partial feedback count” stores the number of times feedback information is obtained for each feature.
  • validity for example, the number of times the above “good” is obtained for the feature is stored.
  • no validity for example, the number of times the above “bad” is obtained for the feature. Is stored.
  • a value obtained by subtracting “no validity” from “validity” is stored.
  • the feedback score calculation unit 25 uses the evaluation information, the partial feedback number, and the number (number of dimensions) which combines the features, to calculate a feedback score S F. Specifically, the feedback score calculation unit 25, using equation (5) to calculate a feedback score S F.
  • the feedback score S F the more the calculated feedback score S F the value, the visualization method suitable for the analyst.
  • Visualization score calculating unit 3 for each analyst, using the relationship score S R calculated for visualization method corresponding to the combination of features, to calculate the visibility score S V representing the effectiveness of the corresponding visualization method to a combination .
  • visualization score calculating unit 3 for each analyst, was calculated for visualization method corresponding to the combination of features, using the relationship score S R and the feedback score S F, calculates visualization score S V.
  • visualization score calculation unit 3 calculates a visualized score S V using Equation (6).
  • the function F is the only relationship score S R corresponding to the combination may be calculated visualization score S V using.
  • the function F may be a function for adding the relationship score S R and the feedback score S F.
  • the function F may be calculated visualization score S V using Equation (7).
  • Coefficient with weight w is a factor for deciding whether to focus on either of the relationship score S R and the feedback score S F.
  • the weighting coefficient w (0 ⁇ w ⁇ 1) is obtained by, for example, an experiment, a simulation, or the like.
  • FIG. 6 is a diagram illustrating an example of the data structure of the visualization method information.
  • the visualization method information 61 is stored in, for example, the storage device 23, a storage unit provided in the data analysis support device 1, or a storage unit provided outside the data analysis support device 1.
  • the visualization technique information 61 is information in which “feature identification information 1” and “feature identification information 2” representing a combination of features, “visualization technique” representing a visualization technique, and “visualization score” representing a visualization score are associated with each other. is there.
  • “feature identification information 1” and “feature identification information 2” store “feature 1”, “feature 2”, and the like representing features.
  • “visualization method” “visualization method 1”, “visualization method 2”, “visualization method 3”, and the like representing the visualization method are stored.
  • “visualization score” “SV1” to “SV9” indicating the visualization score are stored.
  • Display information generation unit 4 for each combination of features, selecting a visualization method according to visualize the score S V, the display corresponding to the selected visualization method, to produce a visualization display information to be displayed on the display device 22 .
  • the display information generation unit 4 first refers to the visualization score S V associated with the visualization method corresponding to the combination of features, for each combination of features, the largest value is visualized score S V select.
  • the display information generation unit 4 selects “visualization method 1” corresponding to “SV1” as a visualization method suitable for analyzing the combination of features “feature 1” and “feature 2”.
  • the display information generation unit 4 refers to the visualization score S V associated with the visualization method corresponding to the combination of features, for each combination of features, selecting a threshold value or more visualization score S V.
  • a visualization method suitable for “feature 1” and “feature 2” is selected as a combination of features, if only the visualization score “SV1” equal to or more than the threshold is used, the display information generation unit 4 determines As a visualization technique suitable for analyzing the combination of “feature 1” and “feature 2”, “visualization technique 1” corresponding to “SV1” is selected.
  • the threshold is obtained by an experiment, simulation, or the like.
  • the display information generation unit 4 generates visualization display information for causing the display device 22 to display the visualization method selected for each feature combination. Specifically, the display information generation unit 4 generates information for causing the display device 22 to display a display as shown in FIG.
  • FIG. 7 is a diagram showing an example of a display corresponding to the visualization method.
  • the display shown in FIG. 7 shows, for example, a date and time (Time), a source port number (SrcPort), and a destination port number (SrcPort) for a source IP (Internet @ Protocol) address and a destination IP address when analyzing communication traffic.
  • DstPort the number of transmission bytes (SrcByte), the number of reception bytes (DstByte), the communication time (Duration), the number of transmission packets, the number of reception packets, and the like.
  • the display information generation unit 4 for each combination of features, and a display corresponding to the visualization method visualization score S V is the maximum value, is displayed on the display device 22. For example, if the combination of the date and time (Time) and source port number (SrcPort), display corresponding to the visualization method visualization score S V is the maximum value to "D21", it is displayed on the display device 22.
  • the display information generation unit 4 may display, on the display device 22, one or more displays corresponding to a visualization method in which the visualization score SV is equal to or more than a threshold for each combination of features.
  • a display method for example, a display corresponding to a visualization method equal to or more than a threshold is displayed on the display device 22 so that the analyst can recognize that the visualization score SV is large.
  • the display of the visualization method in which the visualization score SV is the maximum value is a normal display
  • the display of the visualization method in which the visualization score SV is smaller than the maximum value and equal to or more than the threshold is , Display different from normal display such as translucent.
  • the display information generation unit 4 determines the combination of the features. Information that causes the display device 22 to display a display of another corresponding visualization method is generated.
  • FIG. 8 is a diagram showing an example of a display corresponding to the visualization method.
  • the display “D31” (81 in FIG. 8) of the visualization method corresponding to the combination of the date and time (Time) and the destination port number (DstPort) is input by the analyst using the input device 21.
  • displays “D312” and “D313” of other visualization methods corresponding to the combination of the features are displayed.
  • the display of the visualization method corresponding to the feature combination is a display of an icon or the like that indicates that the visualization method is a scatter diagram, a line graph, a bar graph, or the like.
  • the result of analysis of the target data by using a visualization method may be displayed as an icon.
  • FIG. 9 is a diagram illustrating an example of an operation of displaying a display corresponding to the visualization method.
  • FIG. 10 is a diagram illustrating an example of an operation for calculating a feedback score.
  • FIGS. 2 to 8 are appropriately referred to.
  • the data analysis support method is performed by operating the data analysis support device 1. Therefore, the description of the data analysis support method in the present embodiment is replaced with the following description of the operation of the data analysis support device 1.
  • the feature extracting unit 24 extracts a combination of features from target data to be analyzed (step A1). Specifically, in step A1, the feature extraction unit 24 acquires the target data from the storage device 23 in which the target data is stored in order to grasp the tendency of the target data to be analyzed. Subsequently, in step A1, the feature extracting unit 24 extracts a plurality of features from the acquired target data.
  • the relationship score calculation unit 2 calculates a relationship score representing the relationship between data corresponding to the features included in the combination (step A2). Specifically, in step A2, the relationship score calculation unit 2 acquires the combination information. Subsequently, in step A2, the relationship score calculation unit 2 calculates an index indicating a relationship between data corresponding to features included in the combination information. That is, in step A2, the relationship score calculation unit 2 uses the data corresponding to each of the features included in the combination information and, for each visualization method, the relationship score S R representing the relationship between the data corresponding to the features. Is calculated.
  • the relationship score S R for such visualization technique shown from the above-described (A) to (D), is calculated using the equation (1) and (4).
  • the visualization score calculation unit 3 is stored in the storage device 23, the storage unit provided in the data analysis support device 1, or the storage unit provided outside the data analysis support device 1 in advance.
  • the calculated feedback score SF is obtained (step A3).
  • the visualization score calculating unit 3 if there is no feedback score S F is, for each analyst, visualization method calculated for visualization method corresponding to the combination of features, using the relationship score S R, corresponds to a combination calculating a visualization score S V representing the effectiveness of the (step A4). Also, if there is a feedback score S F, visualization score calculating unit 3, for each analyst, it was calculated for visualization method corresponding to the combination of features, using a feedback score S F obtained relationship score S R Then, the visualization score SV is calculated (step A4). Specifically, in step A4, visualizing score calculation unit 3 calculates a visualized score S V by using a formula (6) or Formula (7).
  • step A5 display information generation unit 4, for each combination of features, selecting a visualization method according to visualize the score S V, visualization display information for displaying the display corresponding to the selected visualization method, the display device 22 Is generated (step A5). Further, in step A4, the display information generation unit 4, if the visualization score S V is changed, it changes the display corresponding to the visualization method.
  • step A5 the display information generation unit 4 refers to the visualization score S V that such, associated with the visualization method corresponding to the combination of features as shown in FIG. 6, for each combination of features, visualization score S V selects the largest value.
  • step A5 the display information generation unit 4, as shown in FIG. 6, with reference to visualize the score S V associated with the visualization method corresponding to the combination of features, for each combination of features, the higher the threshold selecting a visible score S V.
  • step A5 the display information generation unit 4 generates visualization display information for causing the display device 22 to display the visualization technique selected for each feature combination. Specifically, the display information generation unit 4 generates information for causing the display device 22 to display a display as shown in FIG.
  • the analyst feeds back whether or not the visualization method used by the analyst is a visualization method suitable for the analyst.
  • the feedback score calculation unit 25 obtains, from the input device 21, feedback information indicating an evaluation level of an analyst with respect to a visualization technique for a combination of features (step B1). Specifically, the feedback information is input by the analyst using, for example, the input device 21. Alternatively, the use history of the visualization technique used by the analyst may be input.
  • the feedback score calculation unit 25 determines whether or not feedback information indicating the degree of evaluation of the analyst has been obtained for the visualization method for the combination of features (step B2). When acquiring the feedback information (step B2: Yes), the feedback score calculation unit 25, the visualization method for the combination of features, to calculate a feedback score S F based on the acquired feedback information (step B3). Incidentally, the feedback score calculation unit 25, if it is determined that no acquired feedback information (step B2: No), the data analysis support apparatus 1 ends the process of calculating a feedback score S F.
  • step B3 the feedback score calculation unit 25 calculates, for each analyst, the combination of the feature, the visualization method, the number of feedback times that the feedback information for the combination of the combination of the feature and the visualization method is obtained, The feedback management information 41 that associates the evaluation degree represented by the information with the feedback management information 41 is generated.
  • step B3 the feedback score calculation unit 25 calculates, for each analyst, a feature, a visualization method, the number of partial feedbacks for obtaining partial feedback information on a combination of the feature and the visualization method, and an evaluation degree indicated by the feedback information. And the partial feedback management information 51 that associates the evaluation information with the evaluation information calculated using the evaluation degree.
  • step B3 the feedback score calculation unit 25, the evaluation information, by using a partial feedback number, and a number of dimensions representing the number of combined features, to calculate a feedback score S F.
  • the feedback score calculation unit 25 using equation (5) to calculate a feedback score S F.
  • an analyst uses a visualization method to analyze target data, but it takes time for the analyst to select a visualization method suitable for the target data.
  • some of the visualization methods suitable for the target data are methods suitable for the analyst, and others are not suitable. Then, simply selecting a visualization method suitable for the target data is not enough to improve the analysis efficiency.
  • the time to select can be reduced. Therefore, of the analysis time required for the analysis, the time for selecting the visualization method can be reduced, and the analysis time can be reduced as a whole.
  • the screen of the display device 22 may be small.
  • the program according to the embodiment of the present invention may be any program that causes a computer to execute steps A1 to A5 shown in FIG. 9 and steps B1 to B3 shown in FIG.
  • the processor of the computer functions as the feature extraction unit 24, the relation score calculation unit 2, the feedback score calculation unit 25, the visualization score calculation unit 3, and the display information generation unit 4, and performs processing.
  • the program according to the present embodiment may be executed by a computer system configured by a plurality of computers.
  • each computer may function as any one of the feature extraction unit 24, the relationship score calculation unit 2, the feedback score calculation unit 25, the visualization score calculation unit 3, and the display information generation unit 4. .
  • FIG. 11 is a block diagram illustrating an example of a computer that realizes the data analysis support device according to the embodiment of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected via a bus 121 so as to be able to perform data communication with each other.
  • the computer 110 may include a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array) in addition to or instead of the CPU 111.
  • the CPU 111 performs various operations by expanding the program (code) according to the present embodiment stored in the storage device 113 into the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program according to the present embodiment is provided in a state stored in computer-readable recording medium 120.
  • the program according to the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 includes a semiconductor storage device such as a flash memory in addition to a hard disk drive.
  • the input interface 114 mediates data transmission between the CPU 111 and input devices 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, reads out a program from the recording medium 120, and writes a processing result of the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include a general-purpose semiconductor storage device such as CF (Compact @ Flash (registered trademark)) and SD (Secure Digital), a magnetic recording medium such as a flexible disk (Flexible @ Disk), or a CD-ROM.
  • CF Compact @ Flash
  • SD Secure Digital
  • An optical recording medium such as a ROM (Compact Disk Read Only Memory) can be used.
  • the data analysis support device 1 in the present embodiment can also be realized by using hardware corresponding to each unit instead of a computer in which a program is installed. Further, part of the data analysis support device 1 may be realized by a program, and the remaining part may be realized by hardware.
  • a data analysis support device comprising:
  • the data analysis support device (Appendix 4) The data analysis support device according to claim 3, wherein The feedback score calculation unit indicates, for each analyst, the feature, the visualization method, a second number of feedback times that the feedback information for the combination of the feature and the visualization method is obtained, and the feedback information indicates Evaluation level, to generate the second feedback management information associated with the evaluation information calculated using the evaluation level,
  • a data analysis support device characterized in that:
  • the feedback score calculation unit calculates the feedback score using the evaluation information, the second feedback count, and the number of dimensions in the combination of the features,
  • a data analysis support device characterized in that:
  • a data analysis support method comprising:
  • (Appendix 14) A computer-readable recording medium according to supplementary note 13, wherein: The program, the computer, (D) the visualization method for the combination, further comprising: obtaining feedback information indicating a degree of evaluation of an analyst; calculating a feedback score based on the obtained feedback information; In the step (b), for each of the combinations, the visualization score is calculated using the relationship score and the feedback score corresponding to the combination.
  • a computer-readable recording medium characterized by the above-mentioned.
  • (Appendix 15) A computer-readable recording medium according to supplementary note 14, wherein: In the step (d), for each of the analysts, the combination of the features, the visualization method, and the first number of feedback times at which the feedback information for the combination of the combination of the features and the visualization method is obtained; Generate first feedback management information associated with the evaluation degree represented by the feedback information, A computer-readable recording medium characterized by the above-mentioned.
  • (Appendix 16) A computer-readable recording medium according to supplementary note 15, wherein: In the step (d), for each analyst, the feature, the visualization method, a second number of feedback times that the feedback information for the combination of the feature and the visualization method is obtained, and the feedback information are: The second feedback management information that associates the evaluation level shown with the evaluation information calculated using the evaluation level, A computer-readable recording medium characterized by the above-mentioned.
  • the present invention it is possible to select a visualization method according to the visualization score and present the selected visualization method suitable for analysis to the analyst.
  • the time required can be reduced.
  • the present invention is useful in fields where data analysis is required.

Abstract

対象データから抽出した特徴の組み合わせに対して、組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、関係性スコア算出部2と、組み合わせに対応する関係性スコアを用いて、組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、可視化スコア算出部3と、可視化スコアに応じて可視化手法を選択し、選択した可視化手法に対応する表示を、表示装置22に表示するための可視化表示情報を生成する、表示情報生成部4と、を有するデータ解析支援装置1である。

Description

データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、データの解析をするデータ解析支援装置、データ解析支援方法に関し、更には、これらを実現するためのプログラムを記録しているコンピュータ読み取り可能な記録媒体に関する。
 大規模データに対してデータ解析をするには、多大な労力と時間とを必要とする。そこで、大規模データの解析を支援するために、対象データを可視化する可視化手法が提案されている。ところが、近年においては、多種多様な可視化手法が提案されているため、解析者が、対象データの解析に適した可視化手法を選択するのに時間がかかる場合がある。
 そこで、対象データの解析を行う解析者に対し、可視化手法を提示する技術が知られている。その技術によれば、対象データの解析に適した可視化手法を選択し、選択した可視化手法を解析者に提示する。
 関連する技術として、特許文献1には、解析者に可視化手法を提示するデータ解析支援装置が開示されている。そのデータ解析支援装置によれば、まず、対象データから予め設定された情報(語彙)を抽出し、抽出した情報に対応する属性を特定する。次に、データ解析支援装置は、特定した属性の組み合わせを用いて、予め作成した、属性の組み合わせと可視化手法と有効度とが関連付けられたテーブルを参照し、有効度が高い可視化手法を候補として抽出する。そして、データ解析支援装置は、抽出した有効度が高い可視化手法を解析者に提示する。
特開2016-081213号公報
 しかしながら、特許文献1に開示されているデータ解析支援装置では、属性の組み合わせと可視化手法とその有効度とが関連付けられたテーブルが予め作成されている。そのため、特許文献1に開示されているデータ解析支援装置を用いた場合には、属性の組み合わせに対して、いつも同じ可視化手法しか解析者に提示できない。また、特定した属性と一致する属性がテーブルにない場合、可視化手法を抽出することができない。
 なお、対象データを解析する効率を向上させるには、上述したように対象データの解析に適した可視化手法を解析者に提示することも重要であるが、解析者に適した可視化手法を提示することも重要である。
 本発明の目的の一例は、解析に適した可視化手法を提示することで、対象データを解析する効率を向上させるデータ解析支援装置、データ解析支援方法、及びプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面におけるデータ解析支援装置は、
 対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、関係性スコア算出部と、
 前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、可視化スコア算出部と、
 前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、表示情報生成部と、
 を有することを特徴とする。
 また、上記目的を達成するため、本発明の一側面におけるデータ解析支援方法は、
(a)対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、ステップと、
(b)前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、ステップと、
(c)前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、ステップと、
 を有することを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるプログラムを記録したコンピュータ読み取り可能な記録媒体は、
 コンピュータに、
(a)対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、ステップと、
(b)前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、ステップと、
(c)前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、ステップと、
 を実行させる命令を含むプログラムを記録していることを特徴とする。
 以上のように本発明によれば、解析に適した可視化手法を提示することで、対象データを解析する効率を向上させることができる。
図1は、データ解析支援装置の一例を示す図である。 図2は、データ解析支援装置を有するシステムの一例を示す図である。 図3は、送信バイト数と受信バイト数との関係を示す散布図である。 図4は、フィードバック管理情報のデータ構造の一例を示す図である。 図5は、部分フィードバック管理情報のデータ構造の一例を示す図である。 図6は、可視化手法情報のデータ構造の一例を示す図である。 図7は、可視化手法に対応する表示の一例を示す図である。 図8は、可視化手法に対応する表示の一例を示す図である。 図9は、可視化手法に対応する表示を表示させる動作の一例を示す図である。 図10は、フィードバックスコアを算出する動作の一例を示す図である。 図11は、データ解析支援装置を実現するコンピュータの一例を示す図である。
(実施の形態)
 以下、本発明の実施の形態について、図1から図11を参照しながら説明する。
[装置構成]
 最初に、図1を用いて、本実施の形態におけるデータ解析支援装置1の構成について説明する。図1は、データ解析支援装置の一例を示す図である。
 図1に示すデータ解析支援装置1は、解析に適した可視化手法を提示することで、解析する効率を向上させる装置である。また、図1に示すように、データ解析支援装置1は、関係性スコア算出部2と、可視化スコア算出部3と、表示情報生成部4とを有する。
 このうち、関係性スコア算出部2は、対象データから抽出した特徴の組み合わせに対して、組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する。可視化スコア算出部3は、組み合わせに対応する関係性スコアを用いて、組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する。表示情報生成部4は、可視化スコアに応じて可視化手法を選択し、選択した可視化手法に対応する表示を、表示装置に出力するための可視化表示情報を生成する。
 このように、本実施の形態においては、可視化スコアに応じて可視化手法を選択し、解析者に、解析に適した、選択した可視化手法を提示する。そのため、解析者が、解析に適した可視化手法を選択するために要する時間を短縮できる。
[システム構成]
 続いて、図2を用いて、本実施の形態におけるデータ解析支援装置1の構成をより具体的に説明する。図2は、データ解析支援装置を有するシステムの一例を示す図である。
 図2に示すように、本実施の形態におけるシステムは、データ解析支援装置1と、入力装置21と、表示装置22と、記憶装置23とを有する。入力装置21は、データ解析支援装置1に情報を入力する装置である。表示装置22は、データ解析支援装置1が出力する情報を出力する装置である。記憶装置23は、図2に示すようにデータ解析支援装置1の外部に設けてもよいし、データ解析支援装置1の内部に設けてもよい。
 入力装置21は、例えば、キーボード、マウス、タッチパネルなどを用いて、解析者が入力した情報を、データ解析支援装置1に入力する装置である。
 表示装置22は、例えば、液晶、有機EL(Electro Luminescence)、CRT(Cathode Ray Tube)を用いた画像表示装置である。更に、スピーカなどの音声出力装置などを有していてもよい。なお、表示装置22は、プリンタなどの印刷装置でもよい。また、図2の例では、入力装置21と表示装置22とを別々に示したが、入出力装置(図2の破線範囲)としてもよい。その場合、入出力装置は、例えば、モニタと接続されたパーソナルコンピュータ、サーバコンピュータなどの装置である。
 次に、データ解析支援装置1は、関係性スコア算出部2、可視化スコア算出部3、表示情報生成部4に加えて、特徴抽出部24と、フィードバックスコア算出部25とを有する。
 特徴抽出部24は、解析対象となる対象データから特徴の組み合わせを抽出する。具体的には、まず、特徴抽出部24は、解析対象となる対象データの傾向を把握するために、対象データが記憶されている記憶装置23から対象データを取得する。
 続いて、特徴抽出部24は、取得した対象データから複数の特徴(特徴1、特徴2……特徴n:nは正の整数)を抽出する。通信トラフィックを解析する場合、特徴抽出部24は、例えば、対象データから、送信元IP(Internet Protocol)アドレス、送信先IPアドレスについて、日時(Time)、送信元ポート番号(SrcPort)、送信先ポート番号(DstPort)、送信バイト数(SrcByte)、受信バイト数(DstByte)、通信時間(Duration)、送信パケット数、受信パケット数などの特徴を表す情報を抽出する。
 その後、特徴抽出部24は、抽出した特徴(特徴1、特徴2……特徴n)を組み合わせて組み合わせ情報を生成する。例えば、通信トラフィックの解析において、対象データから六種類の特徴を抽出し、そのうち二つの特徴を組み合わせて、組み合わせ情報を生成する場合、特徴抽出部24は、(特徴1,特徴2)、(特徴1,特徴3)、(特徴1,特徴4)、(特徴1,特徴5)、(特徴1,特徴6)、(特徴2,特徴3)、(特徴2,特徴4)、(特徴2,特徴5)、(特徴2,特徴6)、(特徴3,特徴4)、(特徴3,特徴5)、(特徴3,特徴6)、(特徴4,特徴5)、(特徴4,特徴6)、(特徴5,特徴6)を生成する。
 関係性スコア算出部2は、組み合わせ情報に含まれる特徴に対応するデータ間の関係性を表す指標を算出する。具体的には、関係性スコア算出部2は、まず、組み合わせ情報を取得する。続いて、関係性スコア算出部2は、組み合わせ情報に含まれる特徴それぞれに対応するデータを用いて、可視化手法ごとに、特徴に対応するデータ間の関係性を表す関係性スコアSを算出する。可視化手法として、例えば、散布図、折れ線グラフ、棒グラフなどを用いた手法がある。また、可視化手法として尺度を変更する手法を含めてもよい。
 関係性スコアSの算出について詳細に説明をする。可視化手法には、例えば、(A)散布図を用いて相関係数の絶対値を表示する手法、(B)散布図を用いてクラスタリング結果(定量評価尺度)を表示する手法、(C)折れ線グラフを用いてデータ分布を表示する手法、(D)棒グラフを用いてデータ評価を表示する手法などがある。
 (A)の可視化手法における、関係性スコアSを算出する場合、例えば、式(1)を用いて関係性スコアSを算出する。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、図3の散布図を用いて、関係性スコアSを算出する場合について説明する。図3は、送信バイト数と受信バイト数との関係を示す散布図である。図3においては、通信トラフィックの解析における、送信バイト数(SrcByte)と、受信バイト数(DstByte)とをそれぞれ式(1)の特徴f,fとし、関係性スコアSを算出する。
 なお、対象データdは、解析の対象となるデータを示す。また、特徴f,fは、特徴抽出部24が生成した組み合わせ情報を示す。例えば、対象データdが、(SrcIP, DstIP, SrcByte, DstByte, SrcPacket, DstPacket)により表されるデータである場合、特徴の組み合わせ情報が(SrcIP, DstIP)、(SrcIP, SrcByte)……となり、特徴f,fは、組み合わせ情報それぞれに対応する。
 なお、図3に示す散布図31は、通信トラフィックの解析における、送信バイト数(SrcByte)と、受信バイト数(DstByte)とを、そのままプロットした図である。対して、図3に示す散布図32は、送信バイト数(SrcByte)と、受信バイト数(DstByte)とを、対数変換してプロットした図である。
 また、散布図31、散布図32それぞれに対して、式(1)を用いて関係性スコアSを算出すると、散布図31の関係性スコアSより散布図32の関係性スコアSの方が大きい値となる。すなわち、図3から明らかなように、散布図32の可視化手法は、散布図31の可視化手法より、送信バイトと受信バイトとの関係性を解析者に分かり易く表示できる。言い換えれば、散布図31は、対象データが散在しているため相関傾向が分かり難いが、散布図32は、対象データが密集しているので相関傾向が分かり易く表示できている。
 (B)の可視化手法における、関係性スコアSを算出する場合、例えば、PseudoFなどを用いて関係性スコアSを算出する。PseudoFにおいては、生成したクラスタ同士が疎であり、クラスタ内の要素が密であるほど、関係性スコアSが大きな値となる。式(2)を参照。
Figure JPOXMLDOC01-appb-M000002
 (C)の可視化手法における、関係性スコアSを算出する場合、例えば、正規分布を用い、帰無仮説として正規分布に従うこととし、有意水準を5[%]に設定する。そして、検定手法として、例えば、コルモゴロフ・スミルノフ検定、シャピロ・ウィルク検定などを用いて、関係性スコアSを算出する。式(3)を参照。
Figure JPOXMLDOC01-appb-M000003
 (D)の可視化手法における、関係性スコアSを算出する場合、例えば、式(4)を用いて関係性スコアSを算出する。
Figure JPOXMLDOC01-appb-M000004
 なお、関係性スコアSは、算出した関係性スコアSが大きい値であるほど、対象データの解析に適した可視化手法となるようにする。
 フィードバックスコア算出部25は、特徴の組み合わせに対応する可視化手法を用いて、解析者が対象データの解析を実施した際に、解析者が、その特徴の組み合わせに対応する可視化手法を利用した場合、解析者が感じた解析のし易さ(ユーザフレンドリー)、解析に適しているかなどを表す指標を算出する。
 具体的には、フィードバックスコア算出部25は、まず、特徴の組み合わせに対する可視化手法に対する、解析者の評価度を表すフィードバック情報を、入力装置21から取得する。フィードバック情報は、例えば、入力装置21を用いて、解析者により入力される。又は、解析者が利用した可視化手法の利用履歴を入力してもよい。
 また、評価度は、例えば、解析者が組み合わせに対する可視化手法に対して感じた印象などを、定量化した値である。また、評価度の入力方法は、例えば、解析に利用した可視化手法が、解析に適していたと判定した場合に、解析者に「良い」か否かを選択させ、選択した内容を評価度として入力する方法がある。又は、「良い」「悪い」などを二者択一させる方法でもよいし、又は、あらかじめ設定されている三つ以上の異なるランクから択一させる方法でもよい。又は、評価度を表す数値又は文字を入力する方法でもよいし、又は、それらを組み合わせた入力方法でもよい。
 続いて、フィードバックスコア算出部25は、取得したフィードバック情報に基づいて、上述した指標となるフィードバックスコアを算出する。
 具体的には、フィードバックスコア算出部25は、解析者ごとに、特徴の組み合わせと、可視化手法と、特徴の組み合わせと可視化手法との組み合わせに対するフィードバック情報を取得したフィードバック回数(第一のフィードバック回数)と、フィードバック情報が表す評価度とを関連付けたフィードバック管理情報(第一のフィードバック管理情報)を生成する。
 図4は、フィードバック管理情報のデータ構造の一例を示す図である。フィードバック管理情報41は、例えば、記憶装置23、又はデータ解析支援装置1に設けられている記憶部、又はデータ解析支援装置1の外部に設けられている記憶部に記憶される。フィードバック管理情報41は、特徴の組み合わせを表す「特徴識別情報1」「特徴識別情報2」と、可視化手法を表す「可視化手法」と、フィードバック回数を表す「フィードバック回数」と、評価度を表す「有効性あり」「有効性なし」とが関連付けられた情報である。
 また、「特徴識別情報1」「特徴識別情報2」には、特徴を表す情報「特徴1」「特徴2」「特徴3」などが記憶される。「可視化手法」には、可視化手法を表す情報「可視化手法1」「可視化手法2」「可視化手法3」などが記憶される。「フィードバック回数」には、フィードバックスコア算出部25がフィードバック情報を取得した回数(フィードバック回数)が記憶される。「有効性あり」には、例えば、上述した「良い」を有するフィードバック情報を取得した回数が記憶され、「有効性なし」には、例えば、上述した「悪い」を取得した回数が記憶される。
 また、フィードバックスコア算出部25は、解析者ごとに、特徴と、可視化手法と、特徴と可視化手法との組み合わせに対する部分フィードバック情報を取得した部分フィードバック回数(第二のフィードバック回数)と、フィードバック情報が示す評価度と、評価度を用いて算出した評価情報とを関連付けた部分フィードバック管理情報(第二のフィードバック管理情報)を生成する。
 図5は、部分フィードバック管理情報のデータ構造の一例を示す図である。部分フィードバック管理情報51は、例えば、記憶装置23、又はデータ解析支援装置1に設けられている記憶部、又はデータ解析支援装置1の外部に設けられている記憶部に記憶される。部分フィードバック管理情報51は、特徴を表す「特徴識別情報」と、可視化手法を表す「可視化手法」と、特徴ごとのフィードバック回数を表す「部分フィードバック回数」と、評価度を表す「有効性あり」「有効性なし」と、評価情報を表す「評価情報」とが関連付けられた情報である。
 また、「特徴識別情報」には、特徴を表す「特徴1」「特徴2」などが記憶される。「可視化手法」には、可視化手法を表す情報「可視化手法1」「可視化手法2」「可視化手法3」などが記憶される。「部分フィードバック回数」には、特徴ごとにフィードバック情報を取得した回数が記憶される。「有効性あり」には、例えば、特徴に対して上述した「良い」を取得した回数が記憶され、「有効性なし」には、例えば、特徴に対して上述した「悪い」を取得した回数が記憶される。「評価情報」には、「有効性あり」から「有効性なし」を差し引いた値が記憶される。
 続いて、フィードバックスコア算出部25は、評価情報と、部分フィードバック回数と、特徴を組み合わせた数(次元数)とを用いて、フィードバックスコアSを算出する。具体的には、フィードバックスコア算出部25は、式(5)を用いて、フィードバックスコアSを算出する。
Figure JPOXMLDOC01-appb-M000005
 なお、部分フィードバック情報を求める関数freqは、例えば、図5に示した部分フィードバック管理情報51の場合、「特徴2」と「可視化1」との組み合わせであれば、freq(特徴2,可視化1)=4/10=0.4となる。
 また、フィードバックスコアSは、算出したフィードバックスコアSが大きい値ほど、解析者に適した可視化手法となる。
 可視化スコア算出部3は、解析者ごとに、特徴の組み合わせに対応する可視化手法について算出した関係性スコアSを用いて、組み合わせに対応する可視化手法の有効度を表す可視化スコアSを算出する。又は、可視化スコア算出部3は、解析者ごとに、特徴の組み合わせに対応する可視化手法について算出した、関係性スコアSとフィードバックスコアSとを用いて、可視化スコアSを算出する。
 具体的には、可視化スコア算出部3は、式(6)を用いて可視化スコアSを算出する。
Figure JPOXMLDOC01-appb-M000006
 例えば、関数Fは、組み合わせに対応する関係性スコアSだけを用いて可視化スコアSを算出してもよい。また、関数Fは、関係性スコアSとフィードバックスコアSとを加算する関数でもよい。更には、関数Fは、式(7)を用いて可視化スコアSを算出してもよい。
Figure JPOXMLDOC01-appb-M000007
 重み付係数wは、関係性スコアSとフィードバックスコアSとのどちらを重視するかを決めるための係数である。重み付係数w(0<w<1)は、例えば、実験、シミュレーションなどにより求める。
 続いて、可視化スコア算出部3は、特徴の組み合わせと、組み合わせに対応する可視化手法と、算出した可視化スコアSとを関連付けて、記憶装置23、又はデータ解析支援装置1に設けられている記憶部、又はデータ解析支援装置1の外部に設けられている記憶部に記憶される。図6は、可視化手法情報のデータ構造の一例を示す図である。可視化手法情報61は、例えば、記憶装置23、又はデータ解析支援装置1に設けられている記憶部、又はデータ解析支援装置1の外部に設けられている記憶部に記憶される。
 可視化手法情報61は、特徴の組み合わせを表す「特徴識別情報1」「特徴識別情報2」と、可視化手法を表す「可視化手法」と、可視化スコアを表す「可視化スコア」とが関連付けられた情報である。
 また、「特徴識別情報1」「特徴識別情報2」には、特徴を表す「特徴1」「特徴2」などが記憶される。「可視化手法」には、可視化手法を表す「可視化手法1」「可視化手法2」「可視化手法3」などが記憶される。「可視化スコア」には、可視化スコアを示す「SV1」から「SV9」などが記憶される。
 表示情報生成部4は、特徴の組み合わせごとに、可視化スコアSに応じて可視化手法を選択し、選択した可視化手法に対応する表示を、表示装置22に表示するための可視化表示情報を生成する。また、表示情報生成部4は、可視化スコアSに応じて、可視化手法に対応する表示を変化させる。
 具体的には、表示情報生成部4は、まず、特徴の組み合わせに対応する可視化手法に関連付けられた可視化スコアSを参照して、特徴の組み合わせごとに、可視化スコアSが最も大きい値を選択する。図6の例において、特徴の組み合わせを「特徴1」「特徴2」に適した可視化手法を選択する場合、可視化スコアが「SV1」>「SV2」>「SV3」の順に大きければ、表示情報生成部4は、特徴の組み合わせ「特徴1」「特徴2」を解析するのに適した可視化手法として、「SV1」に対応する「可視化手法1」を選択する。
 又は、表示情報生成部4は、特徴の組み合わせに対応する可視化手法に関連付けられた可視化スコアSを参照して、特徴の組み合わせごとに、閾値以上の可視化スコアSを選択する。図6の例において、特徴の組み合わせとして「特徴1」「特徴2」に適した可視化手法を選択する場合、閾値以上の可視化スコアが「SV1」だけであれば、表示情報生成部4は、特徴の組み合わせ「特徴1」「特徴2」を解析するのに適した可視化手法として、「SV1」に対応する「可視化手法1」を選択する。なお、閾値は、実験、シミュレーションなどにより求める。
 続いて、表示情報生成部4は、特徴の組み合わせごとに選択した可視化手法を、表示装置22に表示させるための可視化表示情報を生成する。具体的には、表示情報生成部4は、図7に示すような表示を、表示装置22に表示させる情報を生成する。
 図7は、可視化手法に対応する表示の一例を示す図である。図7に示す表示は、例えば、通信トラフィックを解析する場合における、送信元IP(Internet Protocol)アドレス、送信先IPアドレスについて、日時(Time)、送信元ポート番号(SrcPort)、送信先ポート番号(DstPort)、送信バイト数(SrcByte)、受信バイト数(DstByte)、通信時間(Duration)、送信パケット数、受信パケット数などの特徴があると仮定した場合に、可視化手法に対応する表示「D12」から「D16」、「D21」「D23」から「D26」、「D31」「D32」から「D34から」「D36」、「D41」から「D43」「D45」「D46」、「D51」から「D54」「D56」、「D61」から「D65」などを表示した例である。
 図7の例では、表示情報生成部4は、特徴の組み合わせごとに、可視化スコアSが最大値となる可視化手法に対応する表示を、表示装置22に表示させている。例えば、日時(Time)と送信元ポート番号(SrcPort)との組み合わせの場合、可視化スコアSが最大値となる可視化手法に対応する表示「D21」を、表示装置22に表示させる。
 また、表示情報生成部4は、特徴の組み合わせごとに、可視化スコアSが閾値以上となる可視化手法に対応する一つ以上の表示を、表示装置22に表示してもよい。表示方法としては、例えば、可視化スコアSが大きいことが解析者に分かるように、閾値以上の可視化手法に対応する表示を、表示装置22に表示する。
 解析者に分かるように表示する例として、可視化スコアSが最大値となる可視化手法の表示は、通常の表示とし、可視化スコアSが最大値より小さく、閾値以上となる可視化手法の表示は、半透明にするなど、通常の表示と異なる表示をする。
 更に、表示情報生成部4は、表示装置22に表示させている、特徴の組み合わせに対応する可視化手法の表示が、入力装置21を用いて、解析者により選択されると、当該特徴の組み合わせに対応する他の可視化手法の表示を、表示装置22に表示させる情報を生成する。
 図8は、可視化手法に対応する表示の一例を示す図である。図8に示すように、例えば、日時(Time)、送信先ポート番号(DstPort)の組み合わせに対応する可視化手法の表示「D31」(図8の81)が、解析者により入力装置21を用いて選択されると、表示「D31」に加えて、当該特徴の組み合わせに対応する他の可視化手法の表示「D312」「D313」が表示される。
 なお、特徴の組み合わせに対応する可視化手法の表示は、可視化手法が、散布図、折れ線グラフ、棒グラフなどであることが分かるようなアイコンなどの表示である。また、実際に対象データに対して、可視化手法を用いて、解析をした結果をアイコンとして表示してもよい。
[装置動作]
 次に、本発明の実施の形態におけるデータ解析支援装置1の動作について図9、図10を用いて説明する。図9は、可視化手法に対応する表示を表示させる動作の一例を示す図である。図10は、フィードバックスコアを算出する動作の一例を示す図である。以下の説明においては、適宜図2から図8を参酌する。また、本実施の形態では、データ解析支援装置1を動作させることによって、データ解析支援方法が実施される。よって、本実施の形態におけるデータ解析支援方法の説明は、以下のデータ解析支援装置1の動作説明に代える。
 図9を用いて、可視化手法に対応する表示を、表示装置22に表示させる動作について説明する。図9に示すように、最初に、特徴抽出部24は、解析対象となる対象データから特徴の組み合わせを抽出する(ステップA1)。具体的には、ステップA1において、特徴抽出部24は、解析対象となる対象データの傾向を把握するために、対象データが記憶されている記憶装置23から対象データを取得する。続いて、ステップA1において、特徴抽出部24は、取得した対象データから複数の特徴を抽出する。
 次に、関係性スコア算出部2は、対象データから抽出した特徴の組み合わせに対して、組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する(ステップA2)。具体的には、ステップA2において、関係性スコア算出部2は、組み合わせ情報を取得する。続いて、ステップA2において、関係性スコア算出部2は、組み合わせ情報に含まれる特徴に対応するデータ間の関係性を表す指標を算出する。すなわち、ステップA2において、関係性スコア算出部2は、組み合わせ情報に含まれる特徴それぞれに対応するデータを用いて、可視化手法ごとに、特徴に対応するデータ間の関係性を表す関係性スコアSを算出する。
 例えば、関係性スコアSは、上述した(A)から(D)に示した可視化手法などについて、式(1)から(4)などを用いて算出する。
 続いて、可視化スコア算出部3は、記憶装置23、又はデータ解析支援装置1に設けられている記憶部、又はデータ解析支援装置1の外部に設けられている記憶部に記憶されている、あらかじめ算出されたフィードバックスコアSを取得する(ステップA3)。
 続いて、可視化スコア算出部3は、フィードバックスコアSがない場合、解析者ごとに、特徴の組み合わせに対応する可視化手法について算出した、関係性スコアSを用いて、組み合わせに対応する可視化手法の有効度を表す可視化スコアSを算出する(ステップA4)。また、フィードバックスコアSがある場合、可視化スコア算出部3は、解析者ごとに、特徴の組み合わせに対応する可視化手法について算出した、関係性スコアSと取得したフィードバックスコアSとを用いて、可視化スコアSを算出する(ステップA4)。具体的には、ステップA4において、可視化スコア算出部3は、式(6)又は式(7)などを用いて可視化スコアSを算出する。
 続いて、表示情報生成部4は、特徴の組み合わせごとに、可視化スコアSに応じて可視化手法を選択し、選択した可視化手法に対応する表示を、表示装置22に表示するための可視化表示情報を生成する(ステップA5)。また、ステップA4において、表示情報生成部4は、可視化スコアSが変化した場合、可視化手法に対応する表示を変化させる。
 具体的には、ステップA5において、表示情報生成部4は、図6に示すような、特徴の組み合わせに対応する可視化手法に関連付けられた可視化スコアSを参照して、特徴の組み合わせごとに、可視化スコアSが最も大きい値を選択する。又は、ステップA5において、表示情報生成部4は、図6に示すような、特徴の組み合わせに対応する可視化手法に関連付けられた可視化スコアSを参照して、特徴の組み合わせごとに、閾値以上の可視化スコアSを選択する。
 続いて、ステップA5において、表示情報生成部4は、特徴の組み合わせごとに選択した可視化手法を、表示装置22に表示させるための可視化表示情報を生成する。具体的には、表示情報生成部4は、図7に示すような表示を、表示装置22に表示させる情報を生成する。
 次に、図10を用いて、フィードバックスコアを算出する動作について説明する。解析者は、対象データについて可視化手法を用いて解析をした場合、解析者が利用した可視化手法が、解析者に適した可視化手法であったか否かをフィードバックする。
 フィードバックスコア算出部25は、まず、特徴の組み合わせに対する可視化手法に対する、解析者の評価度を表すフィードバック情報を、入力装置21から取得する(ステップB1)。具体的には、フィードバック情報は、例えば、入力装置21を用いて、解析者により入力される。又は、解析者が利用した可視化手法の利用履歴を入力してもよい。
 フィードバックスコア算出部25は、特徴の組み合わせに対する可視化手法について、解析者の評価度を表すフィードバック情報を取得したか否かを判定する(ステップB2)。フィードバック情報を取得した場合(ステップB2:Yes)、フィードバックスコア算出部25は、特徴の組み合わせに対する可視化手法について、取得したフィードバック情報に基づいてフィードバックスコアSを算出する(ステップB3)。なお、フィードバックスコア算出部25が、フィードバック情報を取得していないと判定した場合(ステップB2:No)、データ解析支援装置1はフィードバックスコアSを算出する処理を終了する。
 具体的には、ステップB3において、フィードバックスコア算出部25は、解析者ごとに、特徴の組み合わせと、可視化手法と、特徴の組み合わせと可視化手法との組み合わせに対するフィードバック情報を取得したフィードバック回数と、フィードバック情報が表す評価度とを関連付けたフィードバック管理情報41を生成する。
 また、ステップB3において、フィードバックスコア算出部25は、解析者ごとに、特徴と、可視化手法と、特徴と可視化手法との組み合わせに対する部分フィードバック情報を取得した部分フィードバック回数と、フィードバック情報が示す評価度と、評価度を用いて算出した評価情報とを関連付けた部分フィードバック管理情報51を生成する。
 続いて、ステップB3において、フィードバックスコア算出部25は、評価情報と、部分フィードバック回数と、特徴を組み合わせた数を表す次元数とを用いて、フィードバックスコアSを算出する。例えば、フィードバックスコア算出部25は、式(5)を用いて、フィードバックスコアSを算出する。
[本実施の形態の効果]
 以上のように本実施の形態によれば、可視化スコアに応じて可視化手法を選択し、解析者に、解析に適した選択した可視化手法を提示する。そのため、解析者が、解析に適した可視化手法を選択するために要する時間を短縮できる。
 また、従来において、解析者は、対象データを解析するために可視化手法を用いるが、解析者が、対象データに適した可視化手法を選択するためには、選択するための時間を要する。ところが、対象データに適した可視化手法には、解析者に適した手法もあれば、不向きな手法もある。そうすると、単に対象データに適した可視化手法を選択するだけでは、解析の効率を向上させるには不十分である。
 しかし、本実施の形態においては、解析データに適した可視化手法を提示できるのに加えて、解析者に適した可視化手法も提示できるので、従来と比べて、更に、解析に適した可視化手法を選択する時間を短縮できる。従って、解析に要する解析時間のうち、可視化手法を選択する時間を短縮できるので、解析時間を全体的に短縮できる。
 更に、特徴同士に関係性がある可視化手法、又は解析者からよくフィードバックを受ける可視化手法のみに対応する表示を、表示装置22に表示するため、表示装置22の画面が小さくてもよい。
[プログラム]
 本発明の実施の形態におけるプログラムは、コンピュータに、図9に示すステップA1からA5、図10に示すステップB1からB3を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるデータ解析支援装置とデータ解析支援方法とを実現することができる。この場合、コンピュータのプロセッサは、特徴抽出部24、関係性スコア算出部2、フィードバックスコア算出部25、可視化スコア算出部3、表示情報生成部4として機能し、処理を行なう。
 また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、特徴抽出部24、関係性スコア算出部2、フィードバックスコア算出部25、可視化スコア算出部3、表示情報生成部4のいずれかとして機能してもよい。
[物理構成]
 ここで、実施の形態におけるプログラムを実行することによって、データ解析支援装置を実現するコンピュータについて図11を用いて説明する。図11は、本発明の実施の形態におけるデータ解析支援装置を実現するコンピュータの一例を示すブロック図である。
 図11に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていてもよい。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであってもよい。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置があげられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体があげられる。
 なお、本実施の形態におけるデータ解析支援装置1は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、データ解析支援装置1は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
[付記]
 以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する(付記1)から(付記18)により表現することができるが、以下の記載に限定されるものではない。
(付記1)
 対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、関係性スコア算出部と、
 前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、可視化スコア算出部と、
 前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、表示情報生成部と、
 を有することを特徴とするデータ解析支援装置。
(付記2)
 付記1に記載のデータ解析支援装置であって、
 前記組み合わせに対する前記可視化手法について、解析者の評価度を表すフィードバック情報を取得し、取得した前記フィードバック情報に基づいてフィードバックスコアを算出する、フィードバックスコア算出部を有し、
 前記可視化スコア算出部は、前記組み合わせごとに、前記組み合わせに対応する前記関係性スコアと前記フィードバックスコアとを用いて、前記可視化スコアを算出する、
 ことを特徴とするデータ解析支援装置。
(付記3)
 付記2に記載のデータ解析支援装置であって、
 前記フィードバックスコア算出部は、前記解析者ごとに、前記特徴の組み合わせと、前記可視化手法と、前記特徴の組み合わせと前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第一のフィードバック回数と、前記フィードバック情報が表す評価度とを関連付けた第一のフィードバック管理情報を生成する、
 ことを特徴とするデータ解析支援装置。
(付記4)
 付記3に記載のデータ解析支援装置であって、
 前記フィードバックスコア算出部は、前記解析者ごとに、前記特徴と、前記可視化手法と、前記特徴と前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第二のフィードバック回数と、前記フィードバック情報が示す評価度と、前記評価度を用いて算出した評価情報とを関連付けた第二のフィードバック管理情報を生成する、
 ことを特徴とするデータ解析支援装置。
(付記5)
 付記4に記載のデータ解析支援装置であって、
 前記フィードバックスコア算出部は、前記評価情報と、前記第二のフィードバック回数と、前記特徴の組み合わせにおける次元数とを用いて、前記フィードバックスコアを算出する、
 ことを特徴とするデータ解析支援装置。
(付記6)
 付記1から5のいずれか一つに記載のデータ解析支援装置であって、
 前記表示情報生成部は、前記可視化スコアに応じて、前記可視化手法に対応する表示を変化させる、
 ことを特徴とするデータ解析支援装置。
(付記7)
(a)対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、ステップと、
(b)前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、ステップと、
(c)前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、ステップと、
 を有することを特徴とするデータ解析支援方法。
(付記8)
 付記7に記載のデータ解析支援方法であって、
(d)前記組み合わせに対する前記可視化手法について、解析者の評価度を表すフィードバック情報を取得し、取得した前記フィードバック情報に基づいてフィードバックスコアを算出する、ステップを有し、
 前記(b)のステップにおいて、前記組み合わせごとに、前記組み合わせに対応する前記関係性スコアと前記フィードバックスコアとを用いて、前記可視化スコアを算出する、
 ことを特徴とするデータ解析支援方法。
(付記9)
 付記8に記載のデータ解析支援方法であって、
 前記(d)のステップにおいて、前記解析者ごとに、前記特徴の組み合わせと、前記可視化手法と、前記特徴の組み合わせと前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第一のフィードバック回数と、前記フィードバック情報が表す評価度とを関連付けた第一のフィードバック管理情報を生成する、
 ことを特徴とするデータ解析支援方法。
(付記10)
 付記9に記載のデータ解析支援方法であって、
 前記(d)のステップにおいて、前記解析者ごとに、前記特徴と、前記可視化手法と、前記特徴と前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第二のフィードバック回数と、前記フィードバック情報が示す評価度と、前記評価度を用いて算出した評価情報とを関連付けた第二のフィードバック管理情報を生成する、
 ことを特徴とするデータ解析支援方法。
(付記11)
 付記10に記載のデータ解析支援方法であって、
 前記(d)のステップにおいて、前記評価情報と、前記第二のフィードバック回数と、前記特徴の組み合わせにおける次元数とを用いて、前記フィードバックスコアを算出する、
 ことを特徴とするデータ解析支援方法。
(付記12)
 付記7から11のいずれか一つに記載のデータ解析支援方法であって、
 前記(c)のステップにおいて、前記可視化スコアに応じて、前記可視化手法に対応する表示を変化させる、
 ことを特徴とするデータ解析支援方法。
(付記13)
 コンピュータに、
(a)対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、ステップと、
(b)前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、ステップと、
(c)前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、ステップと、
 を実行させる命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記14)
 付記13に記載のコンピュータ読み取り可能な記録媒体であって、
 前記プログラムが、前記コンピュータに、
(d)前記組み合わせに対する前記可視化手法について、解析者の評価度を表すフィードバック情報を取得し、取得した前記フィードバック情報に基づいてフィードバックスコアを算出する、ステップを実行させる命令を更に含み、
 前記(b)のステップにおいて、前記組み合わせごとに、前記組み合わせに対応する前記関係性スコアと前記フィードバックスコアとを用いて、前記可視化スコアを算出する、
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記15)
 付記14に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(d)のステップにおいて、前記解析者ごとに、前記特徴の組み合わせと、前記可視化手法と、前記特徴の組み合わせと前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第一のフィードバック回数と、前記フィードバック情報が表す評価度とを関連付けた第一のフィードバック管理情報を生成する、
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記16)
 付記15に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(d)のステップにおいて、前記解析者ごとに、前記特徴と、前記可視化手法と、前記特徴と前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第二のフィードバック回数と、前記フィードバック情報が示す評価度と、前記評価度を用いて算出した評価情報とを関連付けた第二のフィードバック管理情報を生成する、
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記17)
 付記16に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(d)のステップにおいて、前記評価情報と、前記第二のフィードバック回数と、前記特徴の組み合わせにおける次元数とを用いて、前記フィードバックスコアを算出する、
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記18)
 付記13から17のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
 前記(c)のステップにおいて、前記可視化スコアに応じて、前記可視化手法に対応する表示を変化させる、
 ことを特徴とするコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 以上のように本発明によれば、可視化スコアに応じて可視化手法を選択し、解析者に、解析に適した選択した可視化手法を提示できるので、データ解析に適した可視化手法を選択するために要する時間を短縮できる。本発明は、データ解析が必要な分野において有用である。
  1 データ解析支援装置
  2 関係性スコア算出部
  3 可視化スコア算出部
  4 表示情報生成部
 21 入力装置
 22 表示装置
 23 記憶装置
 24 特徴抽出部
 25 フィードバックスコア算出部
 41 フィードバック管理情報
 51 部分フィードバック管理情報
 61 可視化手法情報
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (18)

  1.  対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、関係性スコア算出手段と、
     前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、可視化スコア算出手段と、
     前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、表示情報生成手段と、
     を有することを特徴とするデータ解析支援装置。
  2.  請求項1に記載のデータ解析支援装置であって、
     前記組み合わせに対する前記可視化手法について、解析者の評価度を表すフィードバック情報を取得し、取得した前記フィードバック情報に基づいてフィードバックスコアを算出する、フィードバックスコア算出手段を有し、
     前記可視化スコア算出手段は、前記組み合わせごとに、前記組み合わせに対応する前記関係性スコアと前記フィードバックスコアとを用いて、前記可視化スコアを算出する、
     ことを特徴とするデータ解析支援装置。
  3.  請求項2に記載のデータ解析支援装置であって、
     前記フィードバックスコア算出手段は、前記解析者ごとに、前記特徴の組み合わせと、前記可視化手法と、前記特徴の組み合わせと前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第一のフィードバック回数と、前記フィードバック情報が表す評価度とを関連付けた第一のフィードバック管理情報を生成する、
     ことを特徴とするデータ解析支援装置。
  4.  請求項3に記載のデータ解析支援装置であって、
     前記フィードバックスコア算出手段は、前記解析者ごとに、前記特徴と、前記可視化手法と、前記特徴と前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第二のフィードバック回数と、前記フィードバック情報が示す評価度と、前記評価度を用いて算出した評価情報とを関連付けた第二のフィードバック管理情報を生成する、
     ことを特徴とするデータ解析支援装置。
  5.  請求項4に記載のデータ解析支援装置であって、
     前記フィードバックスコア算出手段は、前記評価情報と、前記第二のフィードバック回数と、前記特徴の組み合わせにおける次元数とを用いて、前記フィードバックスコアを算出する、
     ことを特徴とするデータ解析支援装置。
  6.  請求項1から5のいずれか一つに記載のデータ解析支援装置であって、
     前記表示情報生成手段は、前記可視化スコアに応じて、前記可視化手法に対応する表示を変化させる、
     ことを特徴とするデータ解析支援装置。
  7. (a)対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、ステップと、
    (b)前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、ステップと、
    (c)前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、ステップと、
     を有することを特徴とするデータ解析支援方法。
  8.  請求項7に記載のデータ解析支援方法であって、
    (d)前記組み合わせに対する前記可視化手法について、解析者の評価度を表すフィードバック情報を取得し、取得した前記フィードバック情報に基づいてフィードバックスコアを算出する、ステップを有し、
     前記(b)のステップにおいて、前記組み合わせごとに、前記組み合わせに対応する前記関係性スコアと前記フィードバックスコアとを用いて、前記可視化スコアを算出する、
     ことを特徴とするデータ解析支援方法。
  9.  請求項8に記載のデータ解析支援方法であって、
     前記(d)のステップにおいて、前記解析者ごとに、前記特徴の組み合わせと、前記可視化手法と、前記特徴の組み合わせと前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第一のフィードバック回数と、前記フィードバック情報が表す評価度とを関連付けた第一のフィードバック管理情報を生成する、
     ことを特徴とするデータ解析支援方法。
  10.  請求項9に記載のデータ解析支援方法であって、
     前記(d)のステップにおいて、前記解析者ごとに、前記特徴と、前記可視化手法と、前記特徴と前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第二のフィードバック回数と、前記フィードバック情報が示す評価度と、前記評価度を用いて算出した評価情報とを関連付けた第二のフィードバック管理情報を生成する、
     ことを特徴とするデータ解析支援方法。
  11.  請求項10に記載のデータ解析支援方法であって、
     前記(d)のステップにおいて、前記評価情報と、前記第二のフィードバック回数と、前記特徴の組み合わせにおける次元数とを用いて、前記フィードバックスコアを算出する、
     ことを特徴とするデータ解析支援方法。
  12.  請求項7から11のいずれか一つに記載のデータ解析支援方法であって、
     前記(c)のステップにおいて、前記可視化スコアに応じて、前記可視化手法に対応する表示を変化させる、
     ことを特徴とするデータ解析支援方法。
  13.  コンピュータに、
    (a)対象データから抽出した特徴の組み合わせに対して、前記組み合わせに含まれる特徴に対応するデータ間の関係性を表す関係性スコアを算出する、ステップと、
    (b)前記組み合わせに対応する前記関係性スコアを用いて、前記組み合わせに対応する可視化手法の有効度を表す可視化スコアを算出する、ステップと、
    (c)前記可視化スコアに応じて前記可視化手法を選択し、選択した前記可視化手法に対応する表示を、表示装置に表示するための可視化表示情報を生成する、ステップと、
     を実行させる命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。
  14.  請求項13に記載のコンピュータ読み取り可能な記録媒体であって、
     前記プログラムが、前記コンピュータに、
    (d)前記組み合わせに対する前記可視化手法について、解析者の評価度を表すフィードバック情報を取得し、取得した前記フィードバック情報に基づいてフィードバックスコアを算出する、ステップを実行させる命令を更に含み、
     前記(b)のステップにおいて、前記組み合わせごとに、前記組み合わせに対応する前記関係性スコアと前記フィードバックスコアとを用いて、前記可視化スコアを算出する、
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  15.  請求項14に記載のコンピュータ読み取り可能な記録媒体であって、
     前記(d)のステップにおいて、前記解析者ごとに、前記特徴の組み合わせと、前記可視化手法と、前記特徴の組み合わせと前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第一のフィードバック回数と、前記フィードバック情報が表す評価度とを関連付けた第一のフィードバック管理情報を生成する、
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  16.  請求項15に記載のコンピュータ読み取り可能な記録媒体であって、
     前記(d)のステップにおいて、前記解析者ごとに、前記特徴と、前記可視化手法と、前記特徴と前記可視化手法との組み合わせに対する前記フィードバック情報を取得した第二のフィードバック回数と、前記フィードバック情報が示す評価度と、前記評価度を用いて算出した評価情報とを関連付けた第二のフィードバック管理情報を生成する、
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  17.  請求項16に記載のコンピュータ読み取り可能な記録媒体であって、
     前記(d)のステップにおいて、前記評価情報と、前記第二のフィードバック回数と、前記特徴の組み合わせにおける次元数とを用いて、前記フィードバックスコアを算出する、
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
  18.  請求項13から17のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
     前記(c)のステップにおいて、前記可視化スコアに応じて、前記可視化手法に対応する表示を変化させる、
     ことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2018/034492 2018-09-18 2018-09-18 データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体 WO2020059025A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/034492 WO2020059025A1 (ja) 2018-09-18 2018-09-18 データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体
US17/276,283 US20220035798A1 (en) 2018-09-18 2018-09-18 Data analysis support apparatus, data analysis support method, and computer-readable recording medium
JP2020547502A JP7131620B2 (ja) 2018-09-18 2018-09-18 データ解析支援装置、データ解析支援方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/034492 WO2020059025A1 (ja) 2018-09-18 2018-09-18 データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2020059025A1 true WO2020059025A1 (ja) 2020-03-26

Family

ID=69887050

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/034492 WO2020059025A1 (ja) 2018-09-18 2018-09-18 データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US20220035798A1 (ja)
JP (1) JP7131620B2 (ja)
WO (1) WO2020059025A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034125B (zh) * 2023-10-08 2024-01-16 江苏臻云技术有限公司 一种用于大数据融合的分类管理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021052A (ja) * 2006-07-12 2008-01-31 National Institute Of Information & Communication Technology 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP2016081213A (ja) * 2014-10-15 2016-05-16 株式会社日立製作所 可視化手段選択支援システム、可視化手段選択支援方法、および可視化手段選択支援プログラム
JP2017182474A (ja) * 2016-03-30 2017-10-05 株式会社日本デジタル研究所 図表生成システム、図表処理システム、図表生成方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270066B2 (en) * 2010-04-30 2022-03-08 Microsoft Technology Licensing, Llc Temporary formatting and charting of selected data
WO2017075513A1 (en) * 2015-10-29 2017-05-04 Fuelcomm Inc. Systems, processes, and methods for estimating sales values

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021052A (ja) * 2006-07-12 2008-01-31 National Institute Of Information & Communication Technology 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP2016081213A (ja) * 2014-10-15 2016-05-16 株式会社日立製作所 可視化手段選択支援システム、可視化手段選択支援方法、および可視化手段選択支援プログラム
JP2017182474A (ja) * 2016-03-30 2017-10-05 株式会社日本デジタル研究所 図表生成システム、図表処理システム、図表生成方法及びプログラム

Also Published As

Publication number Publication date
US20220035798A1 (en) 2022-02-03
JP7131620B2 (ja) 2022-09-06
JPWO2020059025A1 (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
JP7000341B2 (ja) 機械学習に基づくウェブインタフェース生成及びテストシステム
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
US9524321B2 (en) Content resonance
JP5656136B2 (ja) クラスタリングを使用した行動シグネチャの生成
US20160085527A1 (en) Code placement using a dynamic call graph
JP6888019B2 (ja) メモリアクセスコマンドの転送記述子
US20180253414A1 (en) Determining output presentation type
CN110012037B (zh) 基于不确定性感知攻击图的网络攻击预测模型构建方法
JP7320280B2 (ja) ラベル収集装置、ラベル収集方法及びラベル収集プログラム
CN107004069B (zh) 基因组解析装置及基因组可视化方法
JP2014228726A (ja) 楽曲評価装置
WO2020059025A1 (ja) データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体
JP2021514075A (ja) バリアントコーリングの相関誤差事象軽減のためのシステムおよび方法
JP2021152929A (ja) 端末管理装置、端末管理方法、およびプログラム
JP6402637B2 (ja) 分析プログラム、分析方法及び分析装置
JP4994676B2 (ja) 遺伝子多型解析支援プログラム、該プログラムを記録した記録媒体、遺伝子多型解析支援装置、および遺伝子多型解析支援方法
JP3985826B2 (ja) 画像検索方法及びその装置
JP2014106775A (ja) 受信メール表示プログラム、方法及び装置
US20220414077A1 (en) Graph searching apparatus, graph searching method, and computer-readable recording medium
US20140351685A1 (en) Method and apparatus for interactive review of a dataset
JPH11353263A (ja) アクセス傾向表示方法及び装置並びにアクセス傾向表示プログラムを記録した記録媒体
CN116665773A (zh) 基于贝叶斯算法的变异基因致病性评估方法及装置
CN104572620A (zh) 一种用于显示章节内容的方法和装置
KR100896341B1 (ko) 결구 정보를 이용한 한자 검색 방법 및 결구 정보를 이용한한자 검색 시스템
CN114363025A (zh) 域名检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020547502

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18934496

Country of ref document: EP

Kind code of ref document: A1