WO2020004154A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2020004154A1
WO2020004154A1 PCT/JP2019/024159 JP2019024159W WO2020004154A1 WO 2020004154 A1 WO2020004154 A1 WO 2020004154A1 JP 2019024159 W JP2019024159 W JP 2019024159W WO 2020004154 A1 WO2020004154 A1 WO 2020004154A1
Authority
WO
WIPO (PCT)
Prior art keywords
variable
variables
information
information processing
combination
Prior art date
Application number
PCT/JP2019/024159
Other languages
English (en)
French (fr)
Inventor
隆司 磯崎
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/254,208 priority Critical patent/US11615100B2/en
Priority to JP2020527434A priority patent/JP7359144B2/ja
Priority to CN201980041778.8A priority patent/CN112368720A/zh
Priority to EP19826803.9A priority patent/EP3816875A4/en
Publication of WO2020004154A1 publication Critical patent/WO2020004154A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • One of the fundamentals in the analysis of multivariable data is to estimate the relationship such as correlation between two variables. Expressing the estimated relationship between two variables or between multiple variables as a graphical model (hereinafter also referred to as a graph) is often performed because of the good readability of the analysis result of the multivariable data.
  • Non-Patent Documents 1 and 2 and Patent Document 1 below disclose techniques for estimating a causal relationship between multivariables based on multivariable data and expressing the relationship as a graph.
  • a station in a railway network, a station can be represented as a node, and a route can be represented as an edge, and the distance, the required time, or the time between two stations connected by the edge can be represented. Numerical values such as fares are assigned to sides.
  • a weight number (numerical value) indicating a relationship between two nodes can be assigned to an edge. Therefore, even in a network-like graph indicating correlation or causality, an edge between nodes indicating a variable is assigned to an edge. Assigning the strength of the relationship between two variables, such as correlation coefficients or mutual information, corresponding to weights, is easily conceivable and is in fact represented in many cases.
  • Non-Patent Documents 1 and 2 and Patent Document 1 Although information relating to the strength of the relationship between the graph information and the two variables is estimated, the quantitative relationship between the multivariables is estimated using only such information. Can not easily know the strength of the.
  • the present disclosure provides a mechanism that can easily grasp or analyze the relationship between three or more variables.
  • An information processing apparatus comprising: a control unit that outputs first information indicating a strength of a relationship with a combination of the explanatory variables including the explanatory variable.
  • a computer receives a designation of a variable of interest among the multivariables with respect to data including multivariable values composed of three or more variables, and A program that functions as a control unit that outputs first information indicating the strength of a relationship with a combination of the explanatory variables including two or more explanatory variables.
  • FIG. 1 is a block diagram illustrating an example of a logical configuration of an information processing device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating an example of a UI screen output by the information processing apparatus according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of a UI screen output by the information processing apparatus according to the embodiment. It is a flowchart which shows an example of the flow of the analysis process of the joint effect performed in the information processing apparatus concerning the embodiment.
  • FIG. 2 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the embodiment.
  • One of the basics of analyzing multivariable data is to first examine the relationship (correlation or causal relationship) between two variables.
  • the relationship between the two variables can be represented by a graph including a node indicating the variable and a link connecting the related variables.
  • information indicating a relationship such as a correlation coefficient may be displayed in association with the link.
  • the readability of the relationship between two variables can be particularly improved.
  • Correlation and causality can exist not only between two variables but also in combinations of three or more variables.
  • a plurality of explanatory variables may give an effect different from the effect of a single explanatory variable to one variable of interest.
  • a certain variable of interest is a variable of interest as an analysis target.
  • Such a variable of interest is hereinafter also referred to as a variable of interest.
  • Such an effect is also called a coupling effect. If it becomes possible to evaluate the relationship between three or more variables, it is possible to efficiently analyze the coupling effect.
  • the present disclosure provides a mechanism for easily grasping or analyzing the relationship between three or more variables in analyzing multivariable data.
  • FIG. 1 is a block diagram illustrating an example of a logical configuration of an information processing device 100 according to an embodiment of the present disclosure.
  • the information processing apparatus 100 includes an input unit 110, an output unit 120, and a control unit 130.
  • the input unit 110 has a function of receiving input of various information.
  • the input unit 110 outputs the input information to the control unit 130.
  • the input unit 110 accepts input of multivariable data to be analyzed.
  • the multivariable data is data including multivariable values including three or more variables.
  • the input unit 110 receives various inputs for analysis. For example, the input unit 110 receives input of designation of a target variable, designation of an explanatory variable, number n of explanatory variables included in a combination of explanatory variables described later, number m of selections described later, and a threshold Th described later.
  • the input unit 110 may include an arbitrary input device such as a touch panel, a keyboard, or a mouse, and accepts input of such information by a user operation on the input device.
  • the output unit 120 has a function of outputting various information.
  • the output unit 120 outputs various types of information based on control by the control unit 130.
  • the output unit 120 may include a display device and output, for example, a UI screen indicating an analysis result.
  • the output unit 120 may include a sound output device, and may output sound for prompting a user to input sound, for example.
  • the output unit 120 includes a communication device conforming to an arbitrary communication standard, and may output information indicating an analysis result to another information processing device or a storage device, for example.
  • the output unit 120 may include a printing device, and may print a report indicating an analysis result, for example.
  • Control unit 130 has a function of controlling the operation of the entire information processing apparatus 100. As shown in FIG. 1, the control unit 130 includes an input / output control unit 131, a relation detection unit 132, a relation variable group extraction unit 133, a joint effect evaluation unit 134, a detailed evaluation unit 135, and a report creation unit 136. The control unit 130 may include components other than these components.
  • the input / output control unit 131 includes an input unit 110, an output unit 120, and other components included in the control unit 130 (a relation detection unit 132, a relation variable group extraction unit 133, a coupling effect evaluation unit 134, a detailed evaluation unit 135, This is an interface with the report creation unit 136).
  • the input / output control unit 131 outputs the information input by the input unit 110 to another component corresponding to the information, and causes the output unit 120 to output information output from the other component.
  • the input / output control unit 131 outputs the multivariable data input from the input unit 110 to the relation detection unit 132.
  • the input / output control unit 131 generates a UI screen indicating the analysis result and causes the output unit 120 to output the UI screen.
  • the information indicating the user operation on the UI screen input by the input unit 110 corresponds to the user operation. Output to other components.
  • the relationship detection unit 132 has a function of detecting a relationship between two variables. Specifically, the relationship detection unit 132 calculates third information that is an index of the relationship between the two variables based on the multivariable data input from the input unit 110. Then, the relationship detection unit 132 detects the relationship between the two variables based on the third information.
  • the third information is also referred to as an index of the relationship between the two variables.
  • the relationship may be a correlation.
  • the index of the relationship between the two variables is, for example, a statistic indicating a correlation.
  • Such statistics include, for example, correlation coefficients.
  • the relationship detection unit 132 detects the presence or absence and the strength of the correlation between the two variables based on the statistics indicating the correlation.
  • the relationship may be a causal relationship.
  • the index of the relationship between the two variables is, for example, a statistic indicating a causal relationship.
  • the relation detecting unit 132 may be a method based on an independent component analysis, a method of maximizing a score based on an estimation result by a maximum likelihood method with a penalty or a Bayesian method, a method of estimating a condition by a statistical test of conditional independence between variables, Thus, the presence or absence and the strength of the causal relationship between the two variables are detected.
  • the relation detection unit 132 outputs information indicating the detected relation between the two variables to the input / output control unit 131.
  • the input / output control unit 131 generates a UI screen including a graph expressing the relationship between the two variables based on the information indicating the relationship between the two variables, and causes the output unit 120 to output the UI screen.
  • the input / output control unit 131 generates the UI screen 10 illustrated in FIG.
  • FIG. 2 is a diagram illustrating an example of a UI screen output by the information processing apparatus 100 according to the present embodiment.
  • the UI screen 10 shown in FIG. 2 is an image including the toolbar 11 and the graph area 13.
  • buttons for various operations or settings such as an option button 12 for displaying a menu including commands for analysis processing, are arranged.
  • the user can operate the pointer 14 with a mouse or the like to perform any operation on the toolbar 11 or the graph area 13.
  • the graph area 13 includes a graph expressing a correlation or a causal relationship between the two variables detected by the relation detection unit 132.
  • the graph is a graph that represents variables as nodes and expresses a correlation or a causal relationship between the variables as links.
  • variable at the tip of the link that is, the arrowhead in a link indicating a causal relationship with an arrow
  • the variable at the rear end is It is an explanatory variable.
  • the variable of interest is a variable to be predicted, intervened or controlled, and when a causal relationship is indicated, corresponds to a variable on the result side.
  • the explanatory variable is a variable that describes the variable of interest, and when a causal relationship is indicated, it corresponds to the variable on the cause side.
  • the variables A to E are expressed as nodes.
  • the variable B is an explanatory variable when the variable C is the variable of interest
  • the variables A to D are explanatory variables when the variable E is the variable of interest.
  • the correlation coefficient between the variables A and E is 0.10
  • the correlation coefficient between the variables B and E is 0.22
  • the correlation coefficient between the variables C and E is 0.41
  • a correlation coefficient 0.26 between D and E and a correlation coefficient 0.16 between variables B and C are displayed in association with each link. This makes it easy to recognize the strength of the relationship between the two variables.
  • ⁇ Relationship detection unit 132 also outputs information indicating the relationship between the detected two variables to relational variable group extraction unit 133.
  • the relational variable group extraction unit 133 has a function of extracting a combination of explanatory variables including two or more explanatory variables among the multiple variables. It is assumed that the number of explanatory variables included in such a combination is n ⁇ 2.
  • the relationship variable group extraction unit 133 extracts a combination of variables including n variables as a combination of explanatory variables from the variables detected by the relationship detection unit 132 as having a relationship with the variable specified as the variable of interest. .
  • the relation variable group extraction unit 133 may extract a plurality of combinations of explanatory variables.
  • the variable of interest can be specified by a node selection operation in the graph.
  • the relational variable group extraction unit 133 estimates that the explanatory variable is the cause of the variable of interest among the variables connected to the variable of interest and the link in the graph, or the variables connected to the variable of interest and the link. Is selected from the variables that are estimated to be not the result of the variable or the target variable.
  • the related variable group extraction unit 133 sets the variables A, B, C, and D, which are variables connected to the variable E by a link.
  • Extract n explanatory variables from The selection of the variable of interest on the UI screen 10 is performed, for example, by moving the pointer 14 on the variable with the mouse and left-clicking.
  • the explanatory variable may be specified by a selection operation of a node in the graph. Assuming that the number of explanatory variables designated by the user is p, the relational variable group extraction unit 133 extracts np explanatory variables by using a variable connected to the variable of interest and a link or a variable connecting the variable of interest to the link in the graph. Among the connected variables, a variable is selected from a variable estimated to be the cause of the variable of interest or a variable estimated not to be the result of the variable of interest. For example, on the UI screen 10 shown in FIG. 2, when the variable E is selected as the variable of interest and the variable A is selected as one of the explanatory variables, the relational variable group extraction unit 133 Extract n-1 explanatory variables. As a result, it is possible to efficiently analyze the coupling effect regarding the specific explanatory variable specified by the user.
  • the related variable group extraction unit 133 receives the designation of the number n of explanatory variables included in the combination of explanatory variables.
  • the number n of explanatory variables can be specified by the user. This will be described with reference to FIG.
  • FIG. 3 is a diagram illustrating an example of a UI screen output by the information processing apparatus 100 according to the present embodiment.
  • the UI screen 10 shown in FIG. 3 is displayed after the variable E is selected as the variable of interest on the UI screen 10 shown in FIG.
  • the UI elements 21 to 25 shown in FIG. 3 are sequentially and additionally displayed according to a user operation.
  • a menu 21 including a command for an analysis process is displayed.
  • "combination effect" is selected from the menu 21, a submenu 22 for accepting the selection of n is displayed.
  • the user can specify n by selecting an arbitrary number in the submenu 22. For example, if 2 is selected as n, a combination of two variables A to D is extracted. The remaining UI elements in FIG. 3 will be described later as needed.
  • the related variable group extraction unit 133 outputs information indicating the extracted combination of explanatory variables to the combination effect evaluation unit 134.
  • the coupling effect evaluation unit 134 has a function of evaluating the relationship between the variable of interest and the combination of the explanatory variables extracted by the related variable group extraction unit 133.
  • the joint effect evaluation unit 134 calculates first information indicating the strength of the relationship between the variable of interest and the combination of the explanatory variables extracted by the related variable group extraction unit 133.
  • the first information is calculated based on entropy, mutual information, correlation coefficient, partial correlation coefficient, test p-value, other statistical measure of independence or conditional independence, or a combination thereof. Is a value indicating the strength of the relationship. Such a value quantifies the binding effect.
  • a large value means a large coupling effect, and a small value means a small coupling effect.
  • the first information is hereinafter also referred to as a first index of the coupling effect.
  • Y, Z) I (X; Z
  • H information entropy in information theory
  • I is a mutual information defined based on information entropy.
  • X is a variable of interest, and Y and Z are explanatory variables.
  • Y) in the above equation (1) is the conditional information entropy of X with Y as the condition, and H (X
  • Y) is a mutual information amount between X and Z on the condition of Y, and the above equation (1) is established equally (hereinafter, information entropy is simply referred to as entropy).
  • the first index J of the coupling effect is compared with the correlation value between the two variables of the target variable X and the explanatory variable Y, and how much information is added by the newly added explanatory variable Z. This is an index indicating whether the amount has increased.
  • the first index of the combination effect is a conditional mutual information amount.
  • W is an explanatory variable.
  • the first index J of the combination effect is compared with the correlation value between the two variables of the target variable X and the explanatory variable Y, and is determined by the newly added explanatory variables Z and W. This is an index indicating whether the amount of information has increased.
  • the first index J of the coupling effect is the correlation between the two variables of the variable of interest X and the newly added explanatory variables Z and W from the value shown in the above equation (3). The amount is the value that was subtracted.
  • the coupling effect evaluation unit 134 performs arrangement of a combination of a plurality of explanatory variables based on the calculated first index of coupling effect.
  • the coupling effect evaluation unit 134 outputs a combination of a plurality of explanatory variables in an order based on the magnitude relationship of the first index of the coupling effect relating to the combination of the explanatory variables.
  • the joint effect evaluation unit 134 outputs a list in which the combinations of the explanatory variables are arranged in the descending order of the first index of the joint effect or in the descending order.
  • the coupling effect evaluation unit 134 may output the combination of the explanatory variables in association with the first index of the coupling effect related to the combination.
  • a list 23 is displayed.
  • combinations of explanatory variables including n explanatory variables when the variable E is set as the variable of interest are arranged from top to bottom in descending order of the first index of the combination effect.
  • the combination of explanatory variables having the highest coupling effect with respect to the target variable E is a combination of variables B and C
  • the combination of variables C and D is the second highest.
  • the combination of the explanatory variables and the first index of the combination effect of the combination are displayed in association with each other.
  • the first indicator of the combined effect of variables B and C on variable E is 0.312
  • the first indicator of the combined effect of variables C and D on variable E is 0.299.
  • the coupling effect evaluation unit 134 may receive designation of the predetermined number m.
  • the designation of m can be set, for example, before the analysis.
  • the combination effect evaluation unit 134 may output information indicating a combination of explanatory variables in which the first index of the combination effect is equal to or more than a predetermined threshold among combinations of a plurality of explanatory variables.
  • the coupling effect evaluation unit 134 may combine the threshold value and the selection number m of the combination of the explanatory variables. In this case, if the threshold value is set to Th, the combination effect evaluation unit 134 outputs information indicating a combination of the explanatory variables in which the first index of the combination effect is equal to or more than the threshold value Th and the top m or less explanatory variables. This makes it possible to omit displaying a combination of explanatory variables having a small first index of the coupling effect. In other words, it is possible to narrow down the number of combinations of explanatory variables to be analyzed in more detail and recommend them to the user.
  • the designation of the threshold value Th can be set in advance before the analysis, for example.
  • the coupling effect evaluation unit 134 outputs information indicating the evaluation result described above to the detailed evaluation unit 135. For example, the coupling effect evaluation unit 134 outputs, to the detailed evaluation unit 135, a combination of explanatory variables in which the first index of the coupling effect is equal to or larger than the threshold Th and which is within the top m variables.
  • the coupling effect evaluation unit 134 associates the combination of the explanatory variables with the first index of the coupling effect relating to the combination of the explanatory variables, and assigns a rank according to the first index of the coupling effect (for example, , In descending order).
  • the coupling effect evaluation unit 134 can also define that the smaller the first index of the coupling effect is, the larger the coupling effect is.
  • the first index of the coupling effect is equal to or less than the threshold Th.
  • a combination of existing and less than m lower-order explanatory variables may be output to the detailed evaluation unit 135.
  • the coupling effect evaluation unit 134 associates the combination of the explanatory variables with the first index of the coupling effect relating to the combination of the explanatory variables, and assigns a rank according to the first index of the coupling effect. (For example, in ascending order) and output.
  • the detailed evaluation unit 135 has a function of evaluating the coupling effect in more detail. Specifically, the detailed evaluation unit 135 generates a second value indicating the relationship between each of the candidate of the value of the explanatory variable included in the combination of the specific explanatory variables among the combination of the plurality of explanatory variables and the candidate of the value of the variable of interest. Calculate and output information.
  • the second information is a conditional probability table, a joint probability table, a cross tabulation table, a multiple regression equation, or the like.
  • a table of conditional probabilities, a table of joint probabilities, or a cross tabulation table is output when a variable takes a discrete value, and a regression equation is output when a variable takes a continuous value.
  • the user can understand the coupling effect in more detail by referring to the second information.
  • the second information is also referred to as a second index of the coupling effect.
  • the detailed evaluation unit 135 receives designation of a combination of specific explanatory variables to be evaluated by the second index of the joint effect. Specific explanatory variable combinations may be specified by the user. This will be described with reference to FIG. 3 again.
  • the report creation unit 136 has a function of creating a report indicating the analysis result of the combination effect described above.
  • the report here is a file in an arbitrary format such as PDF (Portable Document Format).
  • PDF Portable Document Format
  • the report creation unit 136 may create a report without any user instruction or based on some user instructions. Can be.
  • the report creating unit 136 enumerates the calculation results of the first index and the second index of the combination effect relating to a combination of a plurality of explanatory variables based only on the specification of the variable of interest and the specification of the number n of the explanatory variables. Reports can be created.
  • the report may include information indicating a result of detection by the relationship detection unit 132.
  • reports include graphs that represent multivariable relationships.
  • the report may include information indicating an extraction result by the relation variable group extraction unit 133.
  • the report includes information indicating a result of extraction of an explanatory variable using a variable designated by the user or an arbitrary variable as a target variable.
  • the report may include information indicating an evaluation result by the joint effect evaluation unit 134.
  • the first index of the coupling effect is equal to or larger than the threshold Th, and the first index of the coupling effect related to the combination of the explanatory variables is associated with the combination of the top m explanatory variables, And it may include a list ranked according to the first index of the combination effect.
  • the report is such that the first index of the coupling effect is less than or equal to the threshold Th and the first index of the coupling effect related to the combination of the explanatory variables is associated with the combination of the explanatory variables within the lower m pieces, And it may include a list ranked according to the first index of the combination effect.
  • the threshold value Th and the selection number m may be specified by the user or may be arbitrary values.
  • the report can include information indicating the evaluation result by the detailed evaluation unit 135.
  • the report may include a table of conditional probabilities, a table of joint probabilities, a cross-tabulation table, a multiple regression equation, or the like, of a combination of the explanatory variable specified by the user or any specific explanatory variable and the variable of interest.
  • the evaluation by the detailed evaluation unit 135 has been described as being performed for one combination of explanatory variables, but the present technology is not limited to such an example.
  • the evaluation by the detailed evaluation unit 135 may be performed on a combination of a plurality of explanatory variables.
  • the detailed evaluation unit 135 may calculate the second index of the combination effect for all combinations of the explanatory variables.
  • the second index of the combination effect for all combinations of explanatory variables may be output on the UI screen or may be output as a report.
  • the combination effect evaluation unit 134 may omit the ranking and selection based on the first index of the combination effect.
  • n one value is designated as n, but the present technology is not limited to such an example.
  • an upper limit of n may be specified.
  • the evaluation by the coupling effect evaluation unit 134 and the detailed evaluation unit 135 is performed for all n of 2 or more and the upper limit or less.
  • the second index of the combination effect for all combinations of explanatory variables in all n of 2 or more and not more than the upper limit value may be output on the UI screen or may be output as a report.
  • FIG. 4 is a flowchart illustrating an example of a flow of a joint effect analysis process performed in the information processing apparatus 100 according to the present embodiment.
  • the input unit 110 inputs multivariable data (step S102).
  • the relationship detection unit 132 calculates an index of the relationship between the two variables for all the variables of the multivariable data, and outputs a graph indicating the relationship between the two variables (Step S104).
  • the related variable group extraction unit 133 receives the specification of the variable of interest and the specification of the number n of explanatory variables, and extracts a combination of explanatory variables including n explanatory variables (step S106).
  • the joint effect evaluation unit 134 calculates the first joint effect index indicating the relationship between the target variable and the combination of the explanatory variables including the n explanatory variables by using the index of the combination of the explanatory variables including the n explanatory variables. The calculation is performed for all of them (step S108).
  • the combination effect evaluation unit 134 sorts the combinations of the explanatory variables in which the first index of the combination effect is equal to or greater than the threshold Th and within the top m variables in the descending order of the first index of the combination effect.
  • the data is output in association with the first index (step S110).
  • the detailed evaluation unit 135 receives designation of a combination of explanatory variables for which the second index of the combination effect is to be calculated (Step S112). Then, the detailed evaluation unit 135 calculates the second index of the combination effect for the specified combination of explanatory variables, and outputs the calculation result (Step S114).
  • the output of each component may be output as a UI screen.
  • the output of each component may be input to the report creation unit 136, and the report generated by the report creation unit 136 may be output.
  • the combination effect evaluation unit 134 sorts the combinations of the explanatory variables in which the first index of the combination effect is equal to or less than the threshold Th and the lower m or less, in ascending order of the first index of the combination effect. It may be output in association with the first index of the coupling effect.
  • First Application Example A first application example is an example in which the proposed technology is applied to a manufacturing data analysis system.
  • ⁇ ⁇ In a product manufacturing plant, information is obtained by a large number of measuring instruments and sensors. For example, measurement values of the shape of the product obtained in the manufacturing process of the product, voltage and current indicating the state of the processing machine when the processing machine is used, serial number and line number of the processing machine itself, etc. are obtained Is done. Information such as the temperature and humidity of the factory is also acquired. Then, the multivariable data is generated by associating the information with the information indicating the final performance of the product.
  • the second application example is an example in which the proposed technology is applied to a customer management system.
  • a company may have a customer management system for managing customers of various services provided by the company.
  • a customer management system in addition to personal attribute information such as a customer's age, gender, current address, and occupation, information on whether or not a service is used, various contract conditions, whether or not an option is included, and Regular questionnaire information is managed in association with each customer.
  • the information linked and managed for each customer is multivariable data.
  • a third application example is an example in which the proposed technology is applied to a research and investigation support system for diseases.
  • a database in which basic personal attribute information, information on the history of various diseases, information on health checkup results, and information on lifestyle habits are linked for each individual can be created by a questionnaire survey or the like.
  • Basic personal attribute information includes gender, age, occupation, family information, and the like.
  • the information on the result of the medical examination includes height, weight, abdominal circumference, blood pressure, and the like.
  • Information related to lifestyle includes drinking, smoking, sleeping hours, exercise habits, and the like.
  • the information linked and managed for each individual is multivariable data.
  • FIG. 5 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the present embodiment.
  • the information processing device 900 illustrated in FIG. 5 can realize, for example, the information processing device 100 illustrated in FIG.
  • Information processing by the information processing apparatus 100 according to the present embodiment is realized by cooperation of software and hardware described below.
  • the information processing apparatus 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
  • the information processing device 900 includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, and a communication device 913.
  • the information processing device 900 may include a processing circuit such as an electric circuit, a DSP, or an ASIC, instead of or in addition to the CPU 901.
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls overall operations in the information processing device 900 according to various programs. Further, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901 and operation parameters.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901 and parameters that change as appropriate in the execution.
  • the CPU 901 may form, for example, the control unit 130 illustrated in FIG.
  • the CPU 901, the ROM 902, and the RAM 903 are interconnected by a host bus 904a including a CPU bus and the like.
  • the host bus 904a is connected via a bridge 904 to an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus.
  • PCI Peripheral Component Interconnect / Interface
  • the host bus 904a, the bridge 904, and the external bus 904b do not necessarily need to be separately configured, and these functions may be mounted on one bus.
  • the input device 906 is realized by a device to which information is input by a user, such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or may be an externally connected device such as a mobile phone or a PDA that supports the operation of the information processing device 900. . Further, the input device 906 may include, for example, an input control circuit that generates an input signal based on information input by the user using the above-described input unit and outputs the input signal to the CPU 901. By operating the input device 906, the user of the information processing device 900 can input various data to the information processing device 900 and instruct a processing operation.
  • the input device 906 may form, for example, the input unit 110 illustrated in FIG.
  • the output device 907 is formed of a device that can visually or audibly notify the user of the acquired information. Examples of such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, display devices such as laser projectors, LED projectors and lamps, audio output devices such as speakers and headphones, and printer devices. .
  • the output device 907 outputs, for example, results obtained by various processes performed by the information processing device 900. Specifically, the display device visually displays the results obtained by the various processes performed by the information processing device 900 in various formats such as a text, an image, a table, and a graph.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs it audibly.
  • the output device 907 may form, for example, the output unit 120 illustrated in FIG.
  • the storage device 908 is a data storage device formed as an example of a storage unit of the information processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 908 stores programs executed by the CPU 901 and various data, various data acquired from the outside, and the like.
  • the storage device 908 may store, for example, a report created by the control unit 130, an intermediate result and a final result of the analysis processing, and the like.
  • the drive 909 is a reader / writer for a storage medium, and is built in or external to the information processing apparatus 900.
  • the drive 909 reads information recorded on a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information on a removable storage medium.
  • connection port 911 is an interface connected to an external device, and is a connection port with an external device that can transmit data by, for example, USB (Universal Serial Bus).
  • USB Universal Serial Bus
  • the communication device 913 is, for example, a communication interface formed by a communication device or the like for connecting to the network 920.
  • the communication device 913 is, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 913 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like.
  • the communication device 913 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the communication device 913 functions as the input unit 110 and / or the output unit 120, and can receive information input to the control unit 130 or transmit information output from the control unit 130. .
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs including Ethernet (registered trademark) (Local Area Network), and a WAN (Wide Area Network).
  • the network 920 may include a dedicated line network such as an IP-VPN (Internet ⁇ Protocol-Virtual ⁇ Private ⁇ Network).
  • each of the above components may be realized using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to appropriately change the hardware configuration to be used according to the technical level at the time of implementing the present embodiment.
  • a computer program for realizing each function of the information processing device 900 according to the present embodiment as described above can be created and mounted on a PC or the like.
  • a computer-readable recording medium in which such a computer program is stored can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
  • the above-described computer program may be distributed, for example, via a network without using a recording medium.
  • the information processing apparatus 100 accepts the designation of the variable of interest among the multiple variables with respect to the data including the values of the multiple variables including three or more variables, and First information indicating the strength of a relationship with a combination of explanatory variables including two or more explanatory variables is output.
  • the first information output is an index of the coupling effect.
  • the information processing apparatus 100 according to the present embodiment can easily grasp or analyze the combined effect of three or more variables.
  • the use case of performing data analysis to understand the relationship between variables using multivariable data is extremely ordinary and general. In such a use case, it is important to know the correlation and causality of important multivariables composed of three or more variables.
  • the information processing device 100 according to the present embodiment it is possible to quantitatively and easily evaluate the relationship between the three or more variables and to present the evaluation result to the user in a readable manner. It became possible. As a result, the efficiency of data analysis is greatly increased and the speed of data understanding by the user is increased, and an effect that the user's decision based on the data analysis is made faster is expected.
  • control unit 130 may be provided in a device such as a server connected to the input unit 110 and the output unit 120 via a network or the like.
  • the following configuration also belongs to the technical scope of the present disclosure.
  • (1) With respect to data including a value of a multivariable composed of three or more variables, a specification of a variable of interest among the multivariables is received, A control unit that outputs first information indicating the strength of the relationship between the certain variable of interest and the combination of the explanatory variables including two or more explanatory variables among the multiple variables,
  • An information processing apparatus comprising: (2) The information processing device according to (1), wherein the control unit outputs a graph in which a variable is a node and a correlation or a causal relationship between the variables is expressed as a link.
  • (3) The information processing apparatus according to (2), wherein the certain variable of interest is specified by a selection operation of a node in the graph.
  • the control unit may set the explanatory variable to be a cause of the certain variable of interest in a variable connected to the certain variable of interest by a link in the graph or a variable connected to the certain variable of interest by a link.
  • the information processing device according to (2) or (3), wherein the explanatory variable is specified by a selection operation of a node in the graph.
  • the information processing device receives the predetermined number of designations.
  • the first information is a value indicating the strength of the relationship
  • the control unit outputs information indicating a combination of the explanatory variables in which the first information is equal to or greater than or equal to a predetermined threshold, among a plurality of combinations of the explanatory variables.
  • the information processing device according to any one of (7) to (10).
  • the control unit is configured to indicate a relationship between a candidate for the value of each of the explanatory variables included in a specific combination of the explanatory variables among a plurality of combinations of the explanatory variables and the candidate for the value of the certain variable of interest.
  • the information processing apparatus according to any one of (1) to (11), wherein the information processing apparatus outputs the second information.
  • the second information is a conditional probability table, a joint probability table, a cross tabulation table, or a multiple regression equation.
  • the link is displayed in association with the third information which is an index of the relationship between the two variables.
  • the information processing device according to claim 1.
  • the information processing device according to (14), wherein the third information is a statistic indicating a correlation or a causal relationship.
  • the first information is calculated based on entropy, mutual information, correlation coefficient, partial correlation coefficient, test p-value, other statistical measure of independence or conditional independence, or a combination thereof.
  • the information processing apparatus according to any one of (1) to (15), wherein the information is a value to be performed.
  • REFERENCE SIGNS LIST 100 information processing device 110 input unit 120 output unit 130 control unit 131 input / output control unit 132 relation detection unit 133 relation variable group extraction unit 134 coupling effect evaluation unit 135 detailed evaluation unit 136 report creation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

3変数以上の変数間の関係性を容易に把握あるいは分析することが可能な仕組みを提供する。3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部(130)、を備える情報処理装置(100)。

Description

情報処理装置、情報処理方法及びプログラム
 本開示は、情報処理装置、情報処理方法及びプログラムに関する。
 近年、ビッグデータ等のデータから有用な情報を抽出するための、データ分析技術の向上が求められている。分析結果は、すでに起きた現象の理解、将来の予測、制御又は介入などのために用いられる。
 多変数データの分析は、2変数間の相関関係等の関係性を推定することが基本事項の1つである。推定された2変数間あるいは多変数間の関係性をグラフィカルモデル(以下、グラフとも称する)として表現することは、多変数データの分析結果の可読性の良さからしばしば行われる。
 例えば、下記非特許文献1、2及び特許文献1では、多変数データに基づいて多変数間の因果関係を推定し、その関係をグラフとして表現するための技術が開示されている。
P. Spirtes, C. Glymour, R. Scheines, "Causation, Prediction, and Search", MIT Press, second edition, 2000. J. Pearl, "Probabilistic Reasoning in Intelligent System", Morgan Kaufmann, 1988. E. Castillo, J. M. Gutierrez, and A. S. Hadi, Expert System and Probabilistic Network Models, Springer, 1997. J. Pearl, "Causality", Cambridge University Press, second edition, 2009.
特開2014-228991号公報
 関係性をグラフで表現する様々な事例があり、例えば鉄道のネットワークでは駅をノード、路線を辺(エッジ)として表現することができ、辺が結ばれた2つの駅間の距離、所要時間又は運賃といった数値を、辺に割り当てることがなされている。これと同様に、ニューラルネットワークにおいても2つのノード間の関係を示す重み(数値)を辺に割り当てることができるため、相関又は因果を表わすネットワーク状のグラフにおいても変数を表わすノードの間の辺に重みに相当する相関係数又は相互情報量などの2つの変数間の関係の強さを割り当てることは容易に考えられ、実際多くの事例で表現されている。しかし、上記非特許文献1、2及び特許文献1に記載の技術では、グラフ情報と2変数間の関係の強さに関する情報が推定されるものの、これらの情報のみでは多変数の定量的な関係の強さを容易に知ることができない。
 したがって、相関又は因果の関係においては、3変数以上の関係が重要な場合が頻繁に見受けられるものの、これらは上記の表現方法で表現することが難しいという問題があった。一方で、多変数の結合確率分布又は条件付き確率分布を調べることによって、多変数の関係を定量的に調べることは非特許文献4に記載されているように条件付き確率分布を調べることなどにより可能ではあるが、3変数以上の組み合わせの方法は多数存在し得るため、どの組み合わせが重要であるかが不明な場合、調べ尽くすために多大な労力を要するという問題があった。
 そこで、本開示では、3変数以上の変数間の関係性を容易に把握あるいは分析することが可能な仕組みを提供する。
 本開示によれば、3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部、を備える情報処理装置が提供される。
 また、本開示によれば、3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力すること、を含む、プロセッサにより実行される情報処理方法が提供される。
 また、本開示によれば、コンピュータを、3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部、として機能させるためのプログラムが提供される。
 本開示によれば、3変数以上の変数間の関係性を容易に把握あるいは分析することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。 同実施形態に係る情報処理装置により出力されるUI画面の一例を示す図である。 同実施形態に係る情報処理装置により出力されるUI画面の一例を示す図である。 同実施形態に係る情報処理装置において実行される結合効果の分析処理の流れの一例を示すフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
  1.提案技術の概要
  2.構成例
  3.処理の流れ
  4.適用例
  5.ハードウェア構成例
  6.まとめ
 <<1.提案技術の概要>>
 多変数データの分析の基本事項の1つは、まずは2変数間の関係性(相関関係又は因果関係)を調べることである。2変数の関係性は、変数を示すノードと関係性のある変数同士を接続するリンクとから成るグラフにより表現され得る。かかるグラフでは、リンクに相関係数等の関係性を示す情報が対応付けて表示され得る。このようなグラフにより、特に2変数間の関係性の可読性を向上させることができる。
 しかし、3変数以上の多変数間の関係性について、特にどの多変数間の関係が重要であるかという観点での可読性を向上させるような試みはなされていなかった。これは何を指標として3変数以上の多変数の関係性を評価するかが具体的に検討されていなかったことに起因する。さらに、2変数間の関係性を既知とした上で、評価対象を3変数以上に拡張した場合にどれだけ情報量が増えるのか、という観点での指標も乏しかった。これらの情報をユーザが簡単に得るためのUI(User Interface)も、提供されていない。
 相関関係や因果関係は、2変数間だけでなく、3変数以上の多変数の組み合わせでも存在し得る。例えば、複数の説明変数が、説明変数単体での影響とは異なる影響を、ひとつのある着目する変数に与え得る。ある着目する変数とは、分析対象として着目される変数である。このような、ある着目する変数を、以下では着目変数とも称する。このような効果を、結合効果とも称する。3変数以上の多変数の関係性の評価が可能になれば、結合効果を効率的に分析することが可能になる。
 そこで、本開示では、多変数データの分析に関し、3変数以上の変数間の関係性を容易に把握あるいは分析することが可能な仕組みを提供する。
 <<2.構成例>>
 図1は、本開示の一実施形態に係る情報処理装置100の論理的な構成の一例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置100は、入力部110、出力部120及び制御部130を含む。
 (1)入力部110
 入力部110は、様々な情報の入力を受け付ける機能を有する。入力部110は、入力された情報を制御部130に出力する。
 入力部110は、分析対象となる多変数データの入力を受け付ける。ここでの多変数データとは、3つ以上の変数から成る多変数の値を含むデータである。
 入力部110は、分析のための各種入力を受け付ける。例えば、入力部110は、着目変数の指定、説明変数の指定、後述する説明変数の組み合わせに含まれる説明変数の数n、後述する選抜数m、及び後述する閾値Th等の入力を受け付ける。入力部110は、タッチパネル、キーボード又はマウス等の任意の入力装置を含んでいてもよく、かかる入力装置へのユーザ操作によりこれらの情報の入力を受け付ける。
 (2)出力部120
 出力部120は、様々の情報の出力を行う機能を有する。出力部120は、制御部130による制御に基づいて、各種情報を出力する。出力部120は、表示装置を含み、例えば分析結果を示すUI画面を出力してもよい。出力部120は、音声出力装置を含み、例えばユーザの音声入力を促すための音声を出力してもよい。出力部120は、任意の通信規格に準拠した通信装置を含み、例えば他の情報処理装置又は記憶装置に分析結果を示す情報を出力してもよい。出力部120は、印刷装置を含み、例えば分析結果を示すレポートを印刷してもよい。
 (2)制御部130
 制御部130は、情報処理装置100全体の動作を制御する機能を有する。図1に示すように、制御部130は、入出力制御部131、関係検出部132、関係変数群抽出部133、結合効果評価部134、詳細評価部135及びレポート作成部136を含む。制御部130は、これらの構成要素以外の構成要素を含んでいてもよい。
 ・入出力制御部131
 入出力制御部131は、入力部110及び出力部120と、制御部130に含まれる他の構成要素(関係検出部132、関係変数群抽出部133、結合効果評価部134及び詳細評価部135及びレポート作成部136)とのインタフェースである。入出力制御部131は、入力部110により入力された情報を当該情報に対応する他の構成要素に出力し、他の構成要素から出力された情報を出力部120により出力させる。例えば、入出力制御部131は、入力部110により入力された多変数データを関係検出部132に出力する。また、入出力制御部131は、分析結果を示すUI画面を生成して出力部120により出力させ、入力部110により入力された当該UI画面へのユーザ操作を示す情報を、当該ユーザ操作に対応する他の構成要素に出力する。
 ・関係検出部132
 関係検出部132は、2変数間の関係性を検出する機能を有する。詳しくは、関係検出部132は、入力部110により入力された多変数データに基づいて、2変数間の関係性の指標である第3の情報を計算する。そして、関係検出部132は、第3の情報に基づいて、2変数間の関係性を検出する。以下では、第3の情報を、2変数間の関係性の指標とも称する。
 関係性は、相関関係であってもよい。その場合、2変数間の関係性の指標は、例えば相関関係を示す統計量である。そのような統計量としては、例えば相関係数が挙げられる。関係検出部132は、相関関係を示す統計量に基づいて、2変数間の相関関係の有無及び強さを検出する。
 関係性は、因果関係であってもよい。その場合、2変数間の関係性の指標は、例えば因果関係を示す統計量である。関係検出部132は、独立成分分析による方法、罰則付き最尤法若しくはベイズ法による推定結果をスコアとしてこれを最大化する方法、又は変数間の条件付き独立性の統計的検定によって推定する方法などにより、2変数間の因果関係の有無及び強さを検出する。
 関係検出部132は、検出した2変数間の関係性を示す情報を、入出力制御部131に出力する。入出力制御部131は、2変数間の関係性を示す情報に基づいて、多変数の関係性を表現するグラフを含むUI画面を生成し、出力部120により出力させる。例えば、入出力制御部131は、図2に示すUI画面10を生成して、出力部120により出力させる。
 図2は、本実施形態に係る情報処理装置100により出力されるUI画面の一例を示す図である。図2に示すUI画面10は、ツールバー11及びグラフ領域13を含む画像である。ツールバー11には、分析処理のためのコマンドを含むメニューを表示させるためのオプションボタン12等の、各種操作又は設定のためのボタンが配置されている。ユーザは、ポインタ14をマウス等で操作して、ツールバー11又はグラフ領域13において任意の操作を行うことが可能である。グラフ領域13には、関係検出部132により検出された2変数間の相関関係又は因果関係を表現するグラフが含まれる。当該グラフは、変数をノードとし、変数間の相関関係又は因果関係をリンクとして表現するグラフである。リンクの先端(即ち、矢線で因果関係を示すリンクにおいては矢尻)側の変数を着目変数とすると、リンクの後端(矢線で因果関係を示すリンクにおいては矢尻の反対)側の変数は説明変数である。着目変数とは、予測、介入又は制御対象の変数であり、因果関係が示されている場合には結果側の変数に相当する。説明変数とは、着目変数を説明する変数であり、因果関係が示されている場合には原因側の変数に相当する。図2に示した例では、変数A~Eがノードとして表現されている。変数A~Eの関係性を説明すると、変数Cを着目変数としたとき変数Bが説明変数であり、変数Eを着目変数としたとき変数A~Dが説明変数である。このように、変数間の因果関係がリンクとして表現されることで、変数間の因果関係の有無を認識容易にすることが可能となる。あるいは変数間のある種の相関関係がリンクとして表現されていることもある。また、グラフにおいて、リンクに2変数間の関係性の指標が関連付けて表示されることが望ましい。例えば、図2に示した例では、変数AとEとの相関係数0.10、変数BとEとの相関係数0.22、変数CとEとの相関係数0.41、変数DとEとの相関係数0.26、変数BとCとの相関係数0.16が、各々のリンクに関連付けて表示されている。これにより、2変数間の関係性の強さを認識容易にすることが可能となる。
 また、関係検出部132は、検出した2変数間の関係性を示す情報を、関係変数群抽出部133に出力する。
 ・関係変数群抽出部133
 関係変数群抽出部133は、多変数のうち2つ以上の説明変数を含む説明変数の組み合わせを抽出する機能を有する。かかる組み合わせに含まれる説明変数の数をn≧2とする。関係変数群抽出部133は、着目変数として指定された変数と関係性があると関係検出部132により検出された変数から、n個の変数を含む変数の組み合わせを、説明変数の組み合わせとして抽出する。関係変数群抽出部133は、説明変数の組み合わせを複数抽出してもよい。
 着目変数は、グラフにおけるノードの選択操作により指定され得る。その場合、関係変数群抽出部133は、説明変数を、グラフにおいて着目変数とリンクで接続された変数、又は着目変数とリンクで接続された変数の中で、着目変数の原因であると推定された変数若しくは着目変数の結果ではないと推定された変数から選択する。例えば、図2に示したUI画面10において、変数Eが着目変数として選択された場合、関係変数群抽出部133は、変数Eとリンクで接続された変数である変数A、B、C及びDから、n個の説明変数を抽出する。UI画面10における着目変数の選択は、例えば、マウスでポインタ14を変数上に移動させて、左クリックすることにより行われる。
 説明変数は、グラフにおけるノードの選択操作により指定されてもよい。ユーザにより指定された説明変数の数をp個とすると、関係変数群抽出部133は、n-p個の説明変数を、グラフにおいて着目変数とリンクで接続された変数、又は着目変数とリンクで接続された変数の中で、着目変数の原因であると推定された変数若しくは着目変数の結果ではないと推定された変数から選択する。例えば、図2に示したUI画面10において、変数Eが着目変数として選択され、変数Aが説明変数の1つとして選択された場合、関係変数群抽出部133は、変数B、C及びDからn-1個の説明変数を抽出する。これにより、ユーザにより指定された特定の説明変数に関する結合効果を効率的に分析することが可能となる。
 関係変数群抽出部133は、説明変数の組み合わせに含まれる説明変数の数nの指定を受け付ける。説明変数の数nは、ユーザにより指定され得る。この点について、図3を参照して説明する。
 図3は、本実施形態に係る情報処理装置100により出力されるUI画面の一例を示す図である。図3に示すUI画面10は、図2に示すUI画面10において変数Eが着目変数として選択された後に表示される。図3に示したUI要素21~25は、ユーザ操作に応じて順次追加的に表示される。図3に示すUI画面10において、変数Eが着目変数として選択された状態で右クリックされる又はオプションボタン12が選択されると、分析処理のためのコマンドを含むメニュー21が表示される。メニュー21のうち「結合効果」が選択されると、nの選択を受け付けるためのサブメニュー22が表示される。ユーザは、サブメニュー22において任意の数字を選択することで、nを指定することができる。例えば、nとして2が選択されたとすると、変数A~Dのうち2個の変数の組み合わせが抽出される。なお、図3のその余のUI要素については、後に随時説明する。
 関係変数群抽出部133は、抽出した説明変数の組み合わせを示す情報を、結合効果評価部134に出力する。
 ・結合効果評価部134
 結合効果評価部134は、着目変数と関係変数群抽出部133により抽出された説明変数の組み合わせとの関係性を評価する機能を有する。
  -第1の情報の計算
 まず、結合効果評価部134は、着目変数と関係変数群抽出部133により抽出された説明変数の組み合わせとの関係性の強さを示す第1の情報を計算する。第1の情報は、エントロピー、相互情報量、相関係数、偏相関係数、検定のp値、その他の独立性、若しくは条件付き独立性の統計的尺度、又はそれらの組み合わせに基づいて計算される、関係性の強さを示す値である。かかる値により、結合効果が定量化される。かかる値が大きいことは結合効果が大きいことを意味し、小さいことは結合効果が小さいことを意味する。第1の情報を、以下では結合効果の第1の指標とも称する。
 3変数の場合の結合効果の第1の指標Jは、次式のように計算され得る。
  J=H(X|Y)-H(X|Y,Z)
   =I(X;Z|Y)       …(1)
 ここで、Hは情報理論における情報エントロピーであり、Iは情報エントロピーを基礎として定義される相互情報量である。Xは着目変数であり、Y及びZは説明変数である。上記数式(1)におけるH(X|Y)は、Yを条件とするXの条件付き情報エントロピーであり、H(X|Y,Z)は、同様にYとZを条件とするXの条件付き情報エントロピーである。また、I(X;Z|Y)は、Yを条件とするXとZの相互情報量であり、上記数式(1)は恒等的に成立する(以下では情報エントロピーを単にエントロピーと記す)。上記数式(1)によれば、結合効果の第1の指標Jは、着目変数Xと説明変数Yとの2変数間の相関値と比較して、新たに加わった説明変数Zによってどれだけ情報量が増えたかを示す指標である。上記数式(1)に示すように、3変数の場合、結合効果の第1の指標は条件付き相互情報量となっている。
 3変数の場合の結合効果の第1の指標Jは、次式のように計算されてもよい。
  J=I(X;Z|Y)-I(X;Z)  …(2)
 上記数式(2)によれば、結合効果の第1の指標Jは、上記数式(1)に示した値から、着目変数Xと新たに加わった説明変数Zとの2変数間の相関量が減算された値である。
 4変数の場合の結合効果の第1の指標Jは、次式のように計算され得る。
  J=H(X|Y)-H(X|Y,Z,W)  …(3)
 ここで、Wは説明変数である。上記数式(3)によれば、結合効果の第1の指標Jは、着目変数Xと説明変数Yとの2変数間の相関値と比較して、新たに加わった説明変数Z及びWによってどれだけ情報量が増えたかを示す指標である。
 4変数の場合の結合効果の第1の指標Jは、次式のように計算され得る。
  J=H(X|Y)-H(X|Y,Z,W)-I(X;Z)-I(X;W) …(4)
 上記数式(4)によれば、結合効果の第1の指標Jは、上記数式(3)に示した値から、着目変数Xと新たに加わった説明変数Z及びWとの2変数間の相関量が減算された値である。
  -結合効果の第1の指標に基づく説明変数の組み合わせの整理
 結合効果評価部134は、計算された結合効果の第1の指標に基づいて、複数の説明変数の組み合わせの整理を行う。結合効果評価部134は、複数の説明変数の組み合わせを、説明変数の組み合わせに係る結合効果の第1の指標の大小関係に基づく順番に並べて出力する。例えば、結合効果評価部134は、結合効果の第1の指標が大きい順に又は小さい順に、説明変数の組み合わせを並べたリストを出力する。その際、結合効果評価部134は、説明変数の組み合わせと当該組み合わせに係る結合効果の第1の指標とを対応付けて出力してもよい。このようなリストが出力されることにより、結合効果が高い順に、説明変数の組み合わせをユーザに提示することが可能となる。換言すると、より詳細に分析すべき説明変数の組み合わせを、順番にユーザに推薦することが可能となる。この点について、図3を再度参照して説明する。
 図3に示したUI画面10のサブメニュー22において説明変数の数nとして2が選択された場合、リスト23が表示される。リスト23では、変数Eを着目変数としたときのn個の説明変数を含む説明変数の組み合わせが、結合効果の第1の指標が大きいものから順に上から下に並べられている。例えば、着目変数Eに対し結合効果が最も高い説明変数の組み合わせは変数B及びCの組み合わせであり、変数C及びDの組み合わせは2番目に高い。また、リスト23では、説明変数の組み合わせと当該組み合わせの結合効果の第1の指標とが対応付けて表示されている。例えば、変数Eに対する変数B及びCの結合効果の第1の指標は0.312であり、変数Eに対する変数C及びDの結合効果の第1の指標は0.299である。
 結合効果評価部134は、複数の説明変数の組み合わせのうち、結合効果の第1の指標に基づき選抜された所定数の説明変数の組み合わせを示す情報を出力してもよい。かかる所定数をmとおくと、結合効果評価部134は、結合効果の第1の指標に基づく上位m個の説明変数の組み合わせを示す情報を出力する。図3に示したリスト23では、m=6であり、上位6個の説明変数の組み合わせを示す情報がリスト23に含まれる。これにより、結合効果の第1の指標が小さい説明変数の組み合わせの表示を省略することが可能となる。換言すると、より詳細に分析すべき説明変数の組み合わせを、数を絞ってユーザに推薦することが可能となる。結合効果評価部134は、上記所定数mの指定を受け付けてもよい。mの指定は、例えば、分析の前に予め設定され得る。
 結合効果評価部134は、複数の説明変数の組み合わせのうち、結合効果の第1の指標が所定の閾値以上である説明変数の組み合わせを示す情報を出力してもよい。結合効果評価部134は、閾値と説明変数の組み合わせの選抜数mとを組み合わせてもよい。その場合、かかる閾値をThとおくと、結合効果評価部134は、結合効果の第1の指標が閾値Th以上であり、且つ上位m個以内の説明変数の組み合わせを示す情報を出力する。これにより、結合効果の第1の指標が小さい説明変数の組み合わせの表示を省略することが可能となる。換言すると、より詳細に分析すべき説明変数の組み合わせを、数を絞ってユーザに推薦することが可能となる。閾値Thの指定は、例えば、分析の前に予め設定され得る。
 結合効果評価部134は、上記説明した評価結果を示す情報を詳細評価部135に出力する。例えば、結合効果評価部134は、結合効果の第1の指標が閾値Th以上であり、且つ上位m個以内の説明変数の組み合わせを、詳細評価部135に出力する。結合効果評価部134は、説明変数の組み合わせに、当該説明変数の組み合わせに係る結合効果の第1の指標を対応付けて、且つ結合効果の第1の指標に応じた順位を付して(例えば、大きい順に)、出力してもよい。又は、結合効果評価部134は、結合効果の第1の指標が小さい値であるほど結合効果が大きいと定義することも可能であり、その場合は結合効果の第1の指標が閾値Th以下であり、且つ下位m個以内の説明変数の組み合わせを、詳細評価部135に出力してもよい。その場合、結合効果評価部134は、説明変数の組み合わせに、当該説明変数の組み合わせに係る結合効果の第1の指標を対応付けて、且つ結合効果の第1の指標に応じた順位を付して(例えば、小さい順に)、出力してもよい。
 ・詳細評価部135
 詳細評価部135は、結合効果をより詳細に評価する機能を有する。詳しくは、詳細評価部135は、複数の説明変数の組み合わせのうち特定の説明変数の組み合わせに含まれる各々の説明変数の値の候補と着目変数の値の候補との関係性を示す第2の情報を計算し、出力する。第2の情報は、条件付き確率の表、結合確率の表、クロス集計表又は重回帰式等である。典型的には、変数が離散値をとる場合には条件付き確率の表、結合確率の表又はクロス集計表が出力され、変数が連続値をとる場合には回帰式が出力される。ユーザは、第2の情報を参照することで、結合効果をより詳細に理解することが可能となる。以下では、第2の情報を、結合効果の第2の指標とも称する。詳細評価部135は、結合効果の第2の指標の評価対象とする特定の説明変数の組み合わせの指定を受け付ける。特定の説明変数の組み合わせは、ユーザにより指定され得る。この点について、図3を再度参照して説明する。
 図3に示したUI画面10のリスト23において、変数C及びDの組み合わせが評価対象とする1の説明変数の組み合わせとして選択された場合、結合効果の第2の指標として何を評価するかを指定するためのサブメニュー24が表示される。図3では、サブメニュー24として条件付き確率のみが表示されている。ユーザがサブメニュー24において条件付き確率を選択すると、変数C及びDを説明変数とし変数Eを着目変数とした条件付き確率を示す表25が表示される。表25によれば、例えば、変数Cの値がc1であり変数Dの値がd1であるとき、変数Eがe1となる確率は0.85である。ユーザは、表25を参照することで、結合効果をより詳細に理解することが可能となる。
 ・レポート作成部136
 レポート作成部136は、上述した結合効果の分析結果を示すレポートを作成する機能を有する。ここでのレポートとは、PDF(Portable Document Format)等の任意の形式のファイルである。上記では、UI画面上でのユーザ指示に応じて分析が進められる例を説明したが、レポート作成部136は、ユーザ指示を要さず又は一部のユーザ指示に基づいて、レポートを作成することができる。例えば、レポート作成部136は、着目変数の指定及び説明変数の数nの指定のみに基づいて、複数の説明変数の組み合わせに係る結合効果の第1の指標及び第2の指標の計算結果を列挙したレポートを作成することができる。
 レポートは、関係検出部132による検出結果を示す情報を含み得る。例えば、レポートは、多変数の関係性を表現するグラフを含む。
 レポートは、関係変数群抽出部133による抽出結果を示す情報を含み得る。例えば、レポートは、ユーザにより指定された変数又は任意の変数を着目変数とする、説明変数の抽出結果を示す情報を含む。
 レポートは、結合効果評価部134による評価結果を示す情報を含み得る。例えば、レポートは、結合効果の第1の指標が閾値Th以上であり、且つ上位m個以内の説明変数の組み合わせに、当該説明変数の組み合わせに係る結合効果の第1の指標を対応付けて、且つ結合効果の第1の指標に応じた順位を付したリストを含み得る。又は、レポートは、結合効果の第1の指標が閾値Th以下であり、且つ下位m個以内の説明変数の組み合わせに、当該説明変数の組み合わせに係る結合効果の第1の指標を対応付けて、且つ結合効果の第1の指標に応じた順位を付したリストを含み得る。閾値Th及び選抜数mは、ユーザにより指定されてもよいし、任意の値であってもよい。
 レポートは、詳細評価部135による評価結果を示す情報を含み得る。例えば、レポートは、ユーザに指定された又は任意の特定の説明変数の組み合わせと着目変数との条件付き確率の表、結合確率の表、クロス集計表又は重回帰式等を含み得る。
 ・補足
 なお、上記では、詳細評価部135による評価は1つの説明変数の組み合わせに対して行われるものとして説明したが、本技術はかかる例に限定されない。詳細評価部135による評価は、複数の説明変数の組み合わせに対して行われてもよい。例えば、詳細評価部135は、全ての説明変数の組み合わせに対して結合効果の第2の指標を計算してもよい。そして、全ての説明変数の組み合わせに対する結合効果の第2の指標が、UI画面に出力されてもよいし、レポートとして出力されてもよい。この場合、結合効果評価部134は、結合効果の第1の指標に基づく順位付け及び選抜を省略してもよい。
 さらに、上記では、nとしてひとつの値が指定されるものとして説明したが、本技術はかかる例に限定されない。例えば、nの上限値が指定されてもよい。その場合、2以上上限値以下の全てのnについて、結合効果評価部134及び詳細評価部135による評価が行われる。そして、2以上上限値以下の全てのnにおける、全ての説明変数の組み合わせに対する結合効果の第2の指標が、UI画面に出力されてもよいし、レポートとして出力されてもよい。
 <<3.処理の流れ>>
 図4は、本実施形態に係る情報処理装置100において実行される結合効果の分析処理の流れの一例を示すフローチャートである。図4に示すように、まず、入力部110は、多変数データを入力する(ステップS102)。次いで、関係検出部132は、多変数データの全変数について2変数間の関係性の指標を計算し、2変数間の関係を示すグラフを出力する(ステップS104)。次に、関係変数群抽出部133は、着目変数の指定、及び説明変数の個数nの指定を受け付け、n個の説明変数を含む説明変数の組み合わせを抽出する(ステップS106)。次いで、結合効果評価部134は、着目変数とn個の説明変数を含む説明変数の組み合わせとの関係性を示す第1の結合効果の指標を、n個の説明変数を含む説明変数の組み合わせの全てについて計算する(ステップS108)。次に、結合効果評価部134は、結合効果の第1の指標が閾値Th以上であり、且つ上位m個以内の説明変数の組み合わせを、結合効果の第1の指標が大きい順に、結合効果の第1の指標と対応付けて出力する(ステップS110)。次いで、詳細評価部135は、結合効果の第2の指標を計算すべき説明変数の組み合わせの指定を受け付ける(ステップS112)。そして、詳細評価部135は、指定された説明変数の組み合わせについて結合効果の第2の指標を計算し、計算結果を出力する(ステップS114)。
 以上、結合効果の分析処理の流れの一例を説明した。なお、各構成要素による出力は、UI画面として出力されてもよい。また、各構成要素による出力は、レポート作成部136に入力され、レポート作成部136により生成されたレポートが出力されてもよい。また、ステップS110において、結合効果評価部134は、結合効果の第1の指標が閾値Th以下であり、且つ下位m個以内の説明変数の組み合わせを、結合効果の第1の指標が小さい順に、結合効果の第1の指標と対応付けて出力してもよい。
 <<4.適用例>>
 上記説明した提案技術の適用例を説明する。
 (1)第1の適用例
 第1の適用例は、製造系データ分析システムに提案技術が適用される例である。
 ある製品の製造工場では、多数の測定器及びセンサにより情報が取得されている。例えば、製品の製造工程で取得される製品の形状についての測定値、加工機械が使われた際の加工機械の状態を示す電圧及び電流、並びに加工機械そのもののシリアル番号及びライン番号等が、取得される。また、工場の温度及び湿度などの情報も、取得される。そして、これらの情報と製品の最終的な出来栄えを示す情報とが紐付けられることで、多変数データが生成される。
 この多変数データに相関分析等を適用することで、製品の出来栄えに影響を与えている因子を調べることができる。さらに、この多変数データに提案技術を適用することで、どの因子の組み合わせが製品の出来栄えに大きな影響を与えているか、というリスト(結合効果の第1の指標に基づき並べられた、説明変数の組み合わせのリスト)が提供される。製品の出来栄えに問題が発生した場合に、かかるリストにより、問題の要因となった因子を容易に特定することが可能になる。
 (2)第2の適用例
 第2の適用例は、顧客管理システムに提案技術が適用される例である。
 企業には、その企業が提供する様々なサービスの顧客管理を目的とする、顧客管理システムが存在し得る。かかる顧客管理システムでは、顧客の年齢、性別、現住所、及び職業などの個人属性情報の他に、どのサービスを利用しているか否か、様々な契約の条件、オプション加入の有無等の情報、及び定期的なアンケート情報等が、顧客ごとに紐付けて管理される。これらの顧客ごとに紐付けて管理される情報は、多変数データである。
 この多変数データに相関分析又は因果分析等を適用することで、サービスを継続しない人に特有の要因を調べることができる。さらに、この多変数データに提案技術を適用することで、サービスを継続しない人に特有の複合的な要因を容易に調べることができる。
 (3)第3の適用例
 第3の適用例は、疾病に関する調査研究支援システムに提案技術が適用される例である。
 アンケート調査などにより、基本的な個人属性情報、様々な疾病の既往歴に関する情報、健康診断結果に関する情報、及び生活習慣に関係する情報を、個人ごとに紐付けたデータベースが作成され得る。なお、基本的な個人属性情報は、性別、年齢、職業、及び家族情報等を含む。健康診断結果に関する情報は、身長、体重、腹囲及び血圧等を含む。生活習慣に関係する情報は、飲酒、喫煙、睡眠時間及び運動習慣等を含む。これらの個人ごとに紐付けて管理される情報は、多変数データである。
 この多変数データに相関分析又は因果分析等を適用することで、ある病気になりやすい人の特徴因子を調べることができる。さらに、この多変数データに提案技術を適用することで、分析者は、重要な複合的な要因の組み合わせが自動抽出されたレポートを容易に得ることが可能となる。
 <<5.ハードウェア構成例>>
 最後に、図5を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図5は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図5に示す情報処理装置900は、例えば、図1に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図5に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図1に示す制御部130を形成し得る。
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば、図1に示す入力部110を形成し得る。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図1に示す出力部120を形成し得る。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、制御部130により作成されたレポートや、分析処理の途中結果及び最終的な結果等を記憶し得る。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
 通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。本実施形態では、通信装置913は、入力部110及び/又は出力部120として機能し、制御部130に入力される情報を受信したり、制御部130から出力される情報を送信したりし得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
 なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 <<6.まとめ>>
 以上、図1~図5を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置100は、3つ以上の変数から成る多変数の値を含むデータに関し、多変数のうち着目変数の指定を受け付け、着目変数と多変数のうち2つ以上の説明変数を含む説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する。出力される第1の情報は、結合効果の指標である。このように、本実施形態に係る情報処理装置100は、3変数以上の多変数の結合効果を容易に把握あるいは分析することが可能である。
 多変数データを利用して、変数間の関係を理解するためのデータ分析を行うというユースケースは、極めて日常的且つ一般的である。このようなユースケースにおいて、3変数以上から成る重要な多変数の相関関係や因果関係を知ることは重要である。本実施形態に係る情報処理装置100によれば、この3変数以上の多変数の関係を定量的且つ容易に評価することが可能になった上に、その評価結果をユーザに可読容易に提示することが可能となった。これにより、データ分析の大幅な効率化とユーザによるデータ理解の高速化とが進み、それに基づくユーザの意思決定がよりスピーディになる効果が見込まれる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図1に示した情報処理装置100の機能構成例のうち、制御部130が、入力部110及び出力部120とネットワーク等で接続されたサーバ等の装置に備えられていても良い。
 また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、
 前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部、
を備える情報処理装置。
(2)
 前記制御部は、変数をノードとし、変数間の相関関係又は因果関係をリンクとして表現するグラフを出力する、前記(1)に記載の情報処理装置。
(3)
 前記ある着目する変数は、前記グラフにおけるノードの選択操作により指定される、前記(2)に記載の情報処理装置。
(4)
 前記制御部は、前記説明変数を、前記グラフにおいて前記ある着目する変数とリンクで接続された変数、又は前記ある着目する変数とリンクで接続された変数の中で、前記ある着目する変数の原因であると推定された変数若しくは前記ある着目する変数の結果ではないと推定された変数から選択する、前記(2)又は(3)に記載の情報処理装置。
(5)
 前記説明変数は、前記グラフにおけるノードの選択操作により指定される、前記(2)又は(3)に記載の情報処理装置。
(6)
 前記制御部は、前記説明変数の組み合わせに含まれる前記説明変数の数の指定を受け付ける、前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
 前記制御部は、複数の前記説明変数の組み合わせを、前記説明変数の組み合わせに係る前記第1の情報の大小関係に基づく順番に並べて出力する、前記(1)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記制御部は、前記説明変数の組み合わせと当該組み合わせに係る前記第1の情報とを対応付けて出力する、前記(7)に記載の情報処理装置。
(9)
 前記制御部は、複数の前記説明変数の組み合わせのうち、前記第1の情報に基づき選抜された所定数の前記説明変数の組み合わせを示す情報を出力する、前記(7)又は(8)に記載の情報処理装置。
(10)
 前記制御部は、前記所定数の指定を受け付ける、前記(9)に記載の情報処理装置。
(11)
 前記第1の情報は関係性の強さを示す値であり、
 前記制御部は、複数の前記説明変数の組み合わせのうち、前記第1の情報が所定の閾値以上又は以下である前記説明変数の組み合わせを示す情報を出力する、
前記(7)~(10)のいずれか一項に記載の情報処理装置。
(12)
 前記制御部は、複数の前記説明変数の組み合わせのうち特定の前記説明変数の組み合わせに含まれる各々の前記説明変数の値の候補と前記ある着目する変数の値の候補との関係性を示す第2の情報を出力する、前記(1)~(11)のいずれか一項に記載の情報処理装置。
(13)
 前記第2の情報は、条件付き確率の表、結合確率の表、クロス集計表又は重回帰式である、前記(12)に記載の情報処理装置。
(14)
 前記グラフにおいて、前記リンクに2変数間の関係性の指標である第3の情報が関連付けて表示される、前記(2)又は前記(2)を引用する前記(3)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記第3の情報は、相関関係又は因果関係を示す統計量である、前記(14)に記載の情報処理装置。
(16)
 前記第1の情報は、エントロピー、相互情報量、相関係数、偏相関係数、検定のp値、その他の独立性、若しくは条件付き独立性の統計的尺度、又はそれらの組み合わせに基づいて計算される値である、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、
 前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力すること、
を含む、プロセッサにより実行される情報処理方法。
(18)
 コンピュータを、
 3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、
 前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部、
として機能させるためのプログラム。
 100  情報処理装置
 110  入力部
 120  出力部
 130  制御部
 131  入出力制御部
 132  関係検出部
 133  関係変数群抽出部
 134  結合効果評価部
 135  詳細評価部
 136  レポート作成部
 
 

Claims (18)

  1.  3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、
     前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部、
    を備える情報処理装置。
  2.  前記制御部は、変数をノードとし、変数間の相関関係又は因果関係をリンクとして表現するグラフを出力する、請求項1に記載の情報処理装置。
  3.  前記ある着目する変数は、前記グラフにおけるノードの選択操作により指定される、請求項2に記載の情報処理装置。
  4.  前記制御部は、前記説明変数を、前記グラフにおいて前記ある着目する変数とリンクで接続された変数、又は前記ある着目する変数とリンクで接続された変数の中で、前記ある着目する変数の原因であると推定された変数若しくは前記ある着目する変数の結果ではないと推定された変数から選択する、請求項2に記載の情報処理装置。
  5.  前記説明変数は、前記グラフにおけるノードの選択操作により指定される、請求項2に記載の情報処理装置。
  6.  前記制御部は、前記説明変数の組み合わせに含まれる前記説明変数の数の指定を受け付ける、請求項1に記載の情報処理装置。
  7.  前記制御部は、複数の前記説明変数の組み合わせを、前記説明変数の組み合わせに係る前記第1の情報の大小関係に基づく順番に並べて出力する、請求項1に記載の情報処理装置。
  8.  前記制御部は、前記説明変数の組み合わせと当該組み合わせに係る前記第1の情報とを対応付けて出力する、請求項7に記載の情報処理装置。
  9.  前記制御部は、複数の前記説明変数の組み合わせのうち、前記第1の情報に基づき選抜された所定数の前記説明変数の組み合わせを示す情報を出力する、請求項7に記載の情報処理装置。
  10.  前記制御部は、前記所定数の指定を受け付ける、請求項9に記載の情報処理装置。
  11.  前記第1の情報は関係性の強さを示す値であり、
     前記制御部は、複数の前記説明変数の組み合わせのうち、前記第1の情報が所定の閾値以上又は以下である前記説明変数の組み合わせを示す情報を出力する、
    請求項7に記載の情報処理装置。
  12.  前記制御部は、複数の前記説明変数の組み合わせのうち特定の前記説明変数の組み合わせに含まれる各々の前記説明変数の値の候補と前記ある着目する変数の値の候補との関係性を示す第2の情報を出力する、請求項1に記載の情報処理装置。
  13.  前記第2の情報は、条件付き確率の表、結合確率の表、クロス集計表又は重回帰式である、請求項12に記載の情報処理装置。
  14.  前記グラフにおいて、前記リンクに2変数間の関係性の指標である第3の情報が関連付けて表示される、請求項2に記載の情報処理装置。
  15.  前記第3の情報は、相関関係又は因果関係を示す統計量である、請求項14に記載の情報処理装置。
  16.  前記第1の情報は、エントロピー、相互情報量、相関係数、偏相関係数、検定のp値、その他の独立性、若しくは条件付き独立性の統計的尺度、又はそれらの組み合わせに基づいて計算される値である、請求項1に記載の情報処理装置。
  17.  3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、
     前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力すること、
    を含む、プロセッサにより実行される情報処理方法。
  18.  コンピュータを、
     3つ以上の変数から成る多変数の値を含むデータに関し、前記多変数のうちある着目する変数の指定を受け付け、
     前記ある着目する変数と前記多変数のうち2つ以上の説明変数を含む前記説明変数の組み合わせとの関係性の強さを示す第1の情報を出力する制御部、
    として機能させるためのプログラム。
     
     
PCT/JP2019/024159 2018-06-28 2019-06-18 情報処理装置、情報処理方法及びプログラム WO2020004154A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/254,208 US11615100B2 (en) 2018-06-28 2019-06-18 Information processing apparatus, information processing method, and computer program
JP2020527434A JP7359144B2 (ja) 2018-06-28 2019-06-18 情報処理装置、情報処理方法及びプログラム
CN201980041778.8A CN112368720A (zh) 2018-06-28 2019-06-18 信息处理设备、信息处理方法和程序
EP19826803.9A EP3816875A4 (en) 2018-06-28 2019-06-18 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018123392 2018-06-28
JP2018-123392 2018-06-28

Publications (1)

Publication Number Publication Date
WO2020004154A1 true WO2020004154A1 (ja) 2020-01-02

Family

ID=68986625

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024159 WO2020004154A1 (ja) 2018-06-28 2019-06-18 情報処理装置、情報処理方法及びプログラム

Country Status (5)

Country Link
US (1) US11615100B2 (ja)
EP (1) EP3816875A4 (ja)
JP (1) JP7359144B2 (ja)
CN (1) CN112368720A (ja)
WO (1) WO2020004154A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021136025A (ja) * 2020-02-21 2021-09-13 アクタピオ,インコーポレイテッド 学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラム
WO2024004384A1 (ja) * 2022-06-27 2024-01-04 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム
JP7434090B2 (ja) 2020-07-08 2024-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806452B (zh) * 2021-09-17 2022-10-25 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107747A (ja) * 2003-09-29 2005-04-21 National Institute Of Advanced Industrial & Technology モデル作成装置、情報分析装置、モデル作成方法、情報分析方法、およびプログラム
JP2005122509A (ja) * 2003-10-17 2005-05-12 Hitachi Ltd 階層構造データ分析方法、分析装置および分析プログラム
JP2012027880A (ja) * 2010-07-28 2012-02-09 Hitachi Ltd 情報分析方法、計算機システム及び情報分析プログラム
JP2014228991A (ja) 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2015060259A (ja) * 2013-09-17 2015-03-30 株式会社日立製作所 データ分析支援システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742877B1 (en) * 1999-07-22 2010-06-22 Becton, Dickinson & Company Methods, apparatus and computer program products for formulating culture media
US7311666B2 (en) * 2004-07-10 2007-12-25 Trigeminal Solutions, Inc. Apparatus for collecting information
US20090018975A1 (en) * 2007-07-10 2009-01-15 Massachusetts Institute Of Technology Method for establishing a commercial real estate price change index supporting tradable derivatives
US9104641B2 (en) * 2009-12-15 2015-08-11 Nec Corporation Information processing device, method of processing information and storage medium
JP4839416B1 (ja) * 2011-01-06 2011-12-21 アクアエンタープライズ株式会社 移動過程予測システム、移動過程予測方法、移動過程予測装置及びコンピュータプログラム
EP2791745B1 (en) * 2011-12-15 2020-09-09 Valmet Automation Oy A method of operating a process or machine
US20130304567A1 (en) * 2012-05-11 2013-11-14 Christopher Adrien Methods and appartus to assess marketing concepts prior to market participation
US20140289174A1 (en) * 2013-03-15 2014-09-25 Alexander Statnikov Data Analysis Computer System and Method For Causal Discovery with Experimentation Optimization
US10776965B2 (en) * 2013-07-26 2020-09-15 Drisk, Inc. Systems and methods for visualizing and manipulating graph databases
US20160232539A1 (en) * 2013-09-27 2016-08-11 Nec Corporation Information processing system, information processing method, and recording medium with program stored thereon
US20150178827A1 (en) * 2013-12-19 2015-06-25 Corelogic Solutions, Llc Computer modeling of propery tax delinquency risk
CN110383320A (zh) * 2016-12-07 2019-10-25 D·库根-普什恩 一种评估的方法和系统
US20190332957A1 (en) * 2018-04-30 2019-10-31 Fujitsu Limited Causality for machine learning systems
EP3570227A1 (en) * 2018-05-16 2019-11-20 Ernst & Young GmbH Wirtschaftsprüfungsgesellschaft Interactive user interface for regression planning and evaluation system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107747A (ja) * 2003-09-29 2005-04-21 National Institute Of Advanced Industrial & Technology モデル作成装置、情報分析装置、モデル作成方法、情報分析方法、およびプログラム
JP2005122509A (ja) * 2003-10-17 2005-05-12 Hitachi Ltd 階層構造データ分析方法、分析装置および分析プログラム
JP2012027880A (ja) * 2010-07-28 2012-02-09 Hitachi Ltd 情報分析方法、計算機システム及び情報分析プログラム
JP2014228991A (ja) 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2015060259A (ja) * 2013-09-17 2015-03-30 株式会社日立製作所 データ分析支援システム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
E. CASTILLOJ. M. GUTIERREZA. S. HADI: "Expert System and Probabilistic Network Models", 1997, SPRINGER
J. PEARL: "Causality", 2009, CAMBRIDGE UNIVERSITY PRESS
J. PEARL: "Probabilistic Reasoning in Intelligent System", 1988, MORGAN KAUFMANN
P. SPIRTESC. GLYMOURR. SCHEINESS: "Causation, Prediction, and search", 2000, MIT PRESS

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021136025A (ja) * 2020-02-21 2021-09-13 アクタピオ,インコーポレイテッド 学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラム
JP7268069B2 (ja) 2020-02-21 2023-05-02 アクタピオ,インコーポレイテッド 学習装置、学習方法、学習プログラム、評価装置、評価方法、および評価プログラム
JP7434090B2 (ja) 2020-07-08 2024-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2024004384A1 (ja) * 2022-06-27 2024-01-04 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Also Published As

Publication number Publication date
US20210124740A1 (en) 2021-04-29
EP3816875A1 (en) 2021-05-05
JPWO2020004154A1 (ja) 2021-07-08
CN112368720A (zh) 2021-02-12
EP3816875A4 (en) 2021-09-01
US11615100B2 (en) 2023-03-28
JP7359144B2 (ja) 2023-10-11

Similar Documents

Publication Publication Date Title
WO2020004154A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN110277165B (zh) 基于图神经网络的辅助诊断方法、装置、设备及存储介质
JP7322714B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6616791B2 (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
US20170032398A1 (en) Method and apparatus for judging age brackets of users
Dette et al. A new test for the parametric form of the variance function in non-parametric regression
Zheng et al. Prospective accuracy for longitudinal markers
JP2012058972A (ja) 評価予測装置、評価予測方法、及びプログラム
Donnat et al. Modeling the heterogeneity in COVID-19's reproductive number and its impact on predictive scenarios
JP2011248829A (ja) 評価予測装置、評価予測方法、及びプログラム
JP6400834B2 (ja) 推薦装置、推薦決定方法、およびコンピュータプログラム
CN106796618A (zh) 时序预测装置和时序预测方法
JP7226320B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111161884A (zh) 针对不平衡数据的疾病预测方法、装置、设备及介质
KR101595784B1 (ko) 패혈증 고위험군 예측 방법 및 시스템
CN107729424B (zh) 一种数据可视化方法及设备
De Neve et al. A Mann–Whitney type effect measure of interaction for factorial designs
WO2020004049A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20190034595A1 (en) Generating robust symptom onset indicators
EP4006806A1 (en) Information processing device, information processing method, and information processing program
JP4938367B2 (ja) セキュリティ診断システム
JP2008305229A (ja) 需要予測方法および装置
WO2022149372A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP5552565B1 (ja) リスク分析装置
WO2024004384A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19826803

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020527434

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019826803

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019826803

Country of ref document: EP

Effective date: 20210128