WO2022149372A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- WO2022149372A1 WO2022149372A1 PCT/JP2021/043733 JP2021043733W WO2022149372A1 WO 2022149372 A1 WO2022149372 A1 WO 2022149372A1 JP 2021043733 W JP2021043733 W JP 2021043733W WO 2022149372 A1 WO2022149372 A1 WO 2022149372A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- variable
- information processing
- processing apparatus
- input
- variables
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 198
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000001364 causal effect Effects 0.000 claims abstract description 127
- 238000010801 machine learning Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims description 61
- 238000000034 method Methods 0.000 description 27
- 238000003860 storage Methods 0.000 description 21
- 238000011156 evaluation Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 18
- 230000005856 abnormality Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000007405 data analysis Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000004519 manufacturing process Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Definitions
- This disclosure relates to information processing devices, information processing methods and programs.
- the analysis is performed on the assumption that the relationship between the prediction result and the variable is linear. Further, in the above technique, by adding the contribution degrees of a plurality of variables, a plurality of variables are output as a complex reason leading to the prediction result.
- the above technique has room for improvement in that it outputs suitable variables as a reason.
- the contributions of a plurality of variables are only added, and the dependency relationship between the categories of the plurality of variables is not considered.
- the variable "gender” includes the categories “male” and “female”
- the variable "age” includes “teens", "20s", “30s”, “40s", and "50s”. It is assumed that the category "above” is included.
- the combination of categories between variables for example, "female” in “teens” and “male” in “30s” may have significantly different contributions to prediction. In this way, it is desirable to output a complex reason that is more appropriate for the prediction result, considering the degree of contribution to the prediction of the combination pattern of the categories of the plurality of variables.
- this disclosure proposes an information processing device, an information processing method, and a program that can output a variable more suitable as a reason when outputting a complex reason for the prediction result.
- an information processing device includes a control unit.
- the control unit selects the input variables that affect the prediction results as explanatory variables based on the causal model relating to the causal relationship between the prediction results and the plurality of input variables in the prediction model using machine learning.
- the control unit outputs the selected explanatory variable.
- Each of the one or more embodiments (including examples and modifications) described below can be implemented independently. On the other hand, at least a part of the plurality of embodiments described below may be carried out in combination with at least a part of other embodiments as appropriate. These plurality of embodiments may contain novel features that differ from each other. Therefore, these plurality of embodiments may contribute to solving different purposes or problems, and may have different effects.
- the predictor in order to promote the use of the prediction model, it is desirable for the predictor to present the basis (reason) together with the prediction result.
- the above technique outputs important variables calculated based on a pattern that correlates with the output variables that are the prediction results, and does not take a causal point of view into consideration. Therefore, the possibility that the important variable output as the reason for prediction and the output variable are spuriously correlated has not been excluded, and it cannot be said that an appropriate reason has been output.
- the prediction result may not be improved even if interventions, measures, etc. are taken based on the reason.
- the user since humans tend to perceive the correlation as a causal interpretation, the user may perceive the reason presented based on the correlation as a causal effect, and may learn erroneous knowledge. Therefore, as a reason for the prediction result, a technique capable of outputting more appropriate variables is desired.
- an input variable (important variable) that is the reason for the prediction result is output based on the information as to whether or not the information processing apparatus has a spurious correlation.
- the information processing apparatus predicts an input variable that does not have a pseudo-correlation relationship from an input variable based on a pseudo-correlation relationship between an input variable and an output variable of a prediction model generated by machine learning. Select as an important variable to be the reason for the prediction result of the model. The information processing device outputs the selected important variable.
- the information processing apparatus determines whether or not each input variable is conditional independent with respect to the output variable, and selects the input variable determined not to be conditional independent as the important variable. ..
- the information processing apparatus uses the variable of interest (for example, the output variable or, in the neural network described later, the node of the hidden layer immediately before the output variable) as the objective variable, and the input variable as the explanatory variable. Build a causal model to do.
- variable of interest for example, the output variable or, in the neural network described later, the node of the hidden layer immediately before the output variable
- the information processing device selects important variables from the input variables included in the constructed causal model, and selects the input variables determined to be not conditional independence as important variables.
- the information processing apparatus can select important variables in consideration of causality, especially spurious correlation, and can present a more appropriate important variable as the reason for the prediction result to the user.
- FIG. 1 is a block diagram showing an example of a logical configuration of the information processing apparatus 100 according to the embodiment of the present disclosure. As shown in FIG. 1, the information processing apparatus 100 according to the present embodiment includes an input unit 110, an output unit 120, and a control unit 130.
- the input unit 110 has a function of accepting input of various information.
- the input unit 110 outputs the input information to the control unit 130.
- the input unit 110 receives the input of the prediction model to be analyzed.
- the prediction model here is a machine learning device generated by machine learning, and examples thereof include a neural network and a random forest.
- the input unit 110 accepts various inputs for analysis.
- the input unit 110 accepts inputs such as the number n of explanatory variables included in the combination of explanatory variables described later.
- the input unit 110 may include an arbitrary input device such as a touch panel, a keyboard, or a mouse, and receives input of such information by a user operation to the input device.
- the input unit 110 may include a voice input unit such as a microphone.
- the output unit 120 has a function of outputting various information.
- the output unit 120 outputs various information based on the control by the control unit 130.
- the output unit 120 may include a display device and output, for example, a UI screen showing an analysis result.
- the output unit 120 includes a voice output device, and may output voice for prompting a user's voice input, for example.
- the output unit 120 includes a communication device conforming to an arbitrary communication standard, and may output information indicating an analysis result to, for example, another information processing device or a storage device.
- the output unit 120 may include a printing device and may print, for example, a report showing the analysis result.
- the control unit 130 has a function of controlling the operation of the entire information processing apparatus 100. As shown in FIG. 1, the control unit 130 includes an input / output control unit 131, a causal model estimation unit 132, a selection unit 133, an evaluation unit 134, and an intervention effect calculation unit 135. The control unit 130 may include components other than these components.
- the input / output control unit 131 includes an input unit 110 and an output unit 120, and other components included in the control unit 130 (causal model estimation unit 132, selection unit 133, evaluation unit 134, and intervention effect calculation unit 135). Interface.
- the input / output control unit 131 outputs the information input by the input unit 110 to other components corresponding to the information, and causes the output unit 120 to output the information output from the other components.
- the input / output control unit 131 outputs the prediction model input by the input unit 110 to the causal model estimation unit 132.
- the input / output control unit 131 generates a UI screen showing the analysis result and outputs it by the output unit 120, and the information indicating the user operation on the UI screen input by the input unit 110 corresponds to the user operation. Output to other components.
- the causal model estimation unit 132 generates a causal model with the variable of interest included in the prediction model acquired via the input / output control unit 131 as the objective variable.
- the prediction model may be acquired from, for example, a storage device (not shown) or from a storage unit (not shown) of the information processing apparatus 100.
- the information processing apparatus 100 may generate a prediction model.
- the predictive model is, for example, a learner generated based on machine learning.
- the prediction model may be any one that performs a predetermined operation on the input variable and outputs the output variable that is the prediction result. Examples of the prediction model include a neural network and a random forest. In the following, unless otherwise specified, the information processing apparatus 100 will be described as acquiring a neural network as a prediction model.
- the neural network by combining the information of the input variable group in a complicated manner, the output such as prediction, identification, and classification is performed.
- the information of the input variable group is variously combined to form a pattern, but since this pattern is complicated, it is difficult for the user to understand how the output variable is determined. difficult.
- the hidden layer hereinafter, also referred to as the closest layer
- the information processing apparatus 100 is also described as this node (hereinafter, also referred to as the closest node).
- the closest layer Presents to the user information indicating what combination of input variables the group is composed of.
- the information processing apparatus 100 pays attention to the closest layer immediately before the output layer, and generates information for explaining each of the closest nodes by the input variable group.
- the causal model estimation unit 132 estimates a causal model for explaining the feature amount acquired by learning for each of the closest nodes. This point will be described with reference to FIGS. 2 and 3.
- FIG. 2 is a diagram for explaining an example of a prediction model acquired by the causal model estimation unit 132 according to the embodiment of the present disclosure.
- the causal model estimation unit 132 acquires a neural network composed of an input layer, two hidden layers HL1 and HL2, and an output layer as a prediction model.
- the neural network outputs one output variable Y for the input variable group ⁇ X 1 , X 2 , X 3 , X 4 ⁇ , and each hidden layer HL1 and HL2 has five hidden nodes. .. Further, it is assumed that the hidden layer HL2 which is the closest layer has the hidden nodes L1 to L5 which are the closest nodes.
- the causal model estimation unit 132 uses the variables of interest (here, the closest nodes L 1 to L 5 ) included in the prediction model as the objective variables, and the input variable group ⁇ X 1 , X 2 , X 3 , X 4 , ... A causal model with ⁇ as an explanatory variable is estimated for each variable of interest.
- the causal model estimation unit 132 detects the presence / absence and strength of the causal relationship between each variable by calculating the causal information which is an index of the causal relationship between the closest node L m and each input variable X n .
- Causal information is, for example, a statistic showing a causal relationship between two variables.
- the causal model estimation unit 132 uses an independent component analysis method, a method of maximizing the estimation result by the maximum likelihood method with penalties or the Bayes method as a score, or a method of estimating by a statistical test of conditional independence between variables. The presence or absence and strength of the causal relationship between the two variables are detected by such means.
- the causal model estimation unit 132 calculates causal information using, for example, learning data used for generating a neural network.
- FIG. 3 is a diagram for explaining an example of a causal model estimated by the causal model estimation unit 132 according to the embodiment of the present disclosure.
- the causal model estimated by the causal model estimation unit 132 is shown as causal information showing the causal relationship between a plurality of variables, that is, a so-called causal graph.
- the causal graph is estimated for each hidden node L 1 to L 5 which is an objective variable.
- the direction of the cause and effect of the conversion is indicated by an arrow (cause ⁇ effect). That is, the causal graph shown in FIG. 3 is a directed graph.
- the causal information shown in FIG. 3 is, in other words, information of a graphical model with a probability distribution in which probabilistic / statistical cause and effect variables are connected by arrows.
- the causal graph shown in FIG. 3 is an example of causal information, and the causal information may be information that lists causal relationships between variables, or information that can grasp causal relationships between a plurality of variables. Just do it.
- the path (number of arrows) to reach the hidden node L m which is the objective variable
- the input is close to the hidden node L m .
- Variables that are directly connected to the hidden node L m on the graph are variables that have a direct effect on L m rather than an indirect cause, so they should be preferentially extracted as important variables. May be good.
- the input variable X10 has no causal relationship with the hidden node L1 and is a condition. It can be seen that there is an independent relationship, and that there is a spurious correlation relationship. Since the contribution and correlation of the input variable X 10 calculated by the conventional method may be large, it is difficult to judge the spurious correlation from the contribution and the magnitude of the correlation as in the conventional method. be. Further, the input variable X 3 is connected to the hidden node L 1 by one arrow. That is, the input variable X 3 is directly connected to the hidden node L 1 .
- the input variable X 1 is connected by two arrows via the hidden node L 1 and the input variable X 4 . That is, the input variable X 1 is not directly connected to the hidden node L 1 . This indicates that the input variable X 3 has a stronger direct causal relationship with the hidden node L 1 than the input variable X 1 . Therefore, for example, the information processing apparatus 100 can preferentially extract the input variable X 3 as an important variable without extracting the input variable X 1 . As a result, as will be described later, the user can understand the reasoning for prediction by eliminating redundant explanatory variables and narrowing down the number of combinations of important variables to improve calculation efficiency and reducing the types of similar explanatory variables. It will be possible to present it easily.
- the causal model estimated by the causal model estimation unit 132 may include an input variable having a causal relationship with the hidden node Lm .
- input variables that are not conditionally independent with respect to the hidden node Lm are included in the causal model, and input variables that are conditionally independent are not included in the causal model.
- the causal model estimation unit 132 can generate a causal model of the hidden node Lm with input variables having no spurious correlation.
- the selection unit 133 selects a variable for explaining the hidden node Lm from the input variables based on the causal model estimated by the causal model estimation unit 132. It can be said that such a variable has a high degree of contribution to the calculation result in the hidden node Lm and contributes to the calculation result. Therefore, such variables are also described as important variables.
- the selection unit 133 extracts a group of factors (input variables) ⁇ X mj ⁇ that are directly connected to the hidden node L m by the network of the causal model from the causal model of each hidden node L m .
- X mj is a subset of the variable group DI (L m ) and indicates the input variable X j belonging to the causal model of the hidden node L m .
- the selection unit 133 may select all the factors directly connected to the hidden node Lm as important variables, or may select some factors. For example, if the number of factor groups (important variable candidates) ⁇ X mj ⁇ directly connected to the hidden node Lm is equal to or less than the threshold value TH1, the selection unit 133 selects all the factor groups as important variables. On the other hand, if the number of factor groups ⁇ X mj ⁇ is larger than the threshold value TH1, the selection unit 133 has S pieces from the important variable candidates according to the strength of the relationship between the important variable candidates and the objective variable. Select the input variable of as an important variable.
- the selection unit 133 selects S combinations of P input variables in the factor group ⁇ X mj ⁇ and P input variables according to the strength of the relationship with the objective variable. You may do so.
- the selection unit 133 calculates the first information indicating the strength of the relationship between the P input variables and the objective variable, and selects each input variable included in the combination of the S large first information as the important variable. do.
- the first information is an index showing the strength of the relationship between the combination of important variable candidates and the objective variable.
- the first information is calculated based on entropy, mutual information, correlation coefficient, partial correlation coefficient, p-value of the test, other statistical measures of independence or conditional independence, or a combination thereof. It is a value indicating the strength of the relationship. With such a value, the binding effect is quantified. A large value means that the binding effect is large, and a small value means that the binding effect is small.
- a plurality of input variables can give an influence different from the influence of the input variable alone to one variable of interest.
- a certain variable of interest is a variable of interest as an analysis target, and here refers to a hidden node Lm .
- Such an effect is called a binding effect.
- the first information is also referred to as a first index J of the binding effect.
- the objective variable variable of interest
- the first index J in X n1 , X n2 and L is as shown in equation (3). Can be calculated.
- H is the information entropy in information theory
- I is the mutual information amount defined on the basis of the information entropy.
- X n1 ) in the above formula (3) is a conditional information entropy of L subject to X n1
- X n1 ) is a mutual information amount of L and X n2 conditioned on X n1 , and the above mathematical formula (3) holds uniformly (hereinafter, the information entropy is simply referred to as information entropy). Notated as entropy).
- the first index J of the binding effect is compared with the correlation value between the two variables of the variable L of interest and the explanatory variable X n1 , and which is determined by the newly added explanatory variable X n2 . It is an index showing whether the amount of information has increased.
- the first index J of the binding effect is a conditional mutual information amount.
- the first index J may be calculated as in the equation (4).
- the first index J of the binding effect is the correlation amount between the two variables of the variable L of interest and the newly added explanatory variable X n2 from the value shown in the above formula (3). Is the subtracted value.
- the first information may be calculated as equations (5) to (7) as a second index ACMI (Averaged conditional mutual information) instead of the first index J.
- X n1 ) is a mutual information amount of L and X n2 conditioned on X n1 .
- X n2 ) is a mutual information amount between L and X n1 conditioned on X n2 .
- the second index ACMI is the average value of these conditional mutual information amounts.
- the second index ACMI shows the average contribution of the important variable candidates X n1 and X n2 to the variable L of interest.
- the contribution for each instance can be represented by the third index CE shown in the equation (8).
- the selection unit 133 selects important variable candidates included in the combination of S as important variables in descending order of the calculated first information (for example, the second index ACMI).
- the selection unit 133 calculates the first information using the factor (input variable) group ⁇ X mj ⁇ directly connected to the hidden node L m by the network of the causal model as the important variable candidate.
- the information processing apparatus 100 may calculate the first information by using the factor (input variable) group ⁇ X mj ⁇ directly connected to the hidden node L m by the network of the causal model as the important variable candidate. The number of variables for which information is calculated can be reduced.
- the evaluation unit 134 evaluates the degree of influence of the important variable selected by the selection unit 133 on the objective variable (the variable of interest).
- the evaluation unit 134 can calculate the degree of influence of the important variable on the hidden node L m .
- the evaluation unit 134 can calculate the degree of influence of the important variable on the output variable Y directly connected to the hidden node Lm .
- the degree of influence is an example of intensity information indicating the strength of the relationship between the variable of interest and the important variable.
- the hidden node L m is shown in equation (14) as a causal regression equation (structural formula) considering partial correlation. Can be expressed in.
- ⁇ mj is calculated as a regression coefficient.
- ⁇ m is a constant in the hidden node L m .
- the hidden node L m can be expressed as a conditional probability distribution as shown in equation (15).
- ⁇ m l m represents the weight of a neuron.
- the output variable Y is calculated based on the equations (16) and (17). It is assumed that the filter function is included internally. Further, here, the factor group ⁇ X mj ⁇ is used as a numerical variable.
- the degree of influence of the important variable X j can be calculated as a weight on the important variable X j .
- the weight for the important variable X j can be expressed as shown in the following equation (18).
- ⁇ mj is calculated as a regression coefficient.
- the evaluation unit 134 can calculate the combined influence degree.
- the combined degree of influence corresponds to the binding effect described above.
- the evaluation unit 134 calculates the combined influence degree of the important variables X n1 and X n2 based on the following equation (19).
- CE (x n1 , x n2 ) is the third index CE shown in the equation (8)
- nm (x) is the value of the hidden node Lm of the neural network, and the entire input variable. It is a fixed value. Further, n 0 is a constant.
- the evaluation unit 134 may evaluate the degree of partial correlation between the important variable and the variable of interest as a basis for not having a spurious correlation between the important variable and the variable of interest. For example, the evaluation unit 134 can investigate the partial correlation by calculating the p-value of the conditional independence test as the degree of partial correlation between the important variable and the variable of interest. That is, the evaluation unit 134 can calculate the p-value as the above-mentioned intensity information.
- the evaluation unit 134 can calculate the conditional probabilities of the important variables of each of the closest node groups for each instance. This can be presented to the user as an analysis result of the neural network itself, for example, as a reason for the output (prediction) result. This point will be described later in an application example.
- the important variables selected by the selection unit 133 and the degree of influence calculated by the evaluation unit 134 are presented to the user by, for example, the input / output control unit 131.
- the input / output control unit 131 presents the selected important variable and the degree of influence to the user in combination.
- the input / output control unit 131 presents the user as a list in descending order of influence, for example.
- the input / output control unit 131 associates the combination of the plurality of important variables with the complex influence degree of the combination. Display to the user. A specific presentation example will be described later in the application example.
- the intervention effect calculation unit 135 calculates the intervention effect generated in the objective variable by intervening in the important variable selected by the selection unit 133.
- the objective variable here may be a group of closest nodes or an output variable.
- the intervention effect calculation unit 135 can calculate the intervention effect of at least one of the closest node group and the output variable.
- the intervention effect calculation unit 135 calculates the causal effect of the objective variable by intentionally changing the value of the important variable (intervening in the important variable).
- the input / output control unit 131 presents, for example, the intervention effect calculated by the intervention effect calculation unit 135 to the user in association with the important variable that intervened.
- the input / output control unit 131 presents the intervention effect to the user together with the evaluation result of the evaluation unit 134.
- the input / output control unit 131 may present the intervention effect to the user in response to an instruction from the user. In this case, for example, the user selects the important variable presented by the input / output control unit 131, the intervention effect of the important variable selected by the intervention effect calculation unit 135 is calculated, and the input / output control unit 131 presents the calculation result. do.
- the intervention effect calculation unit 135 of the information processing apparatus 100 calculates the intervention effect of the important variable, but the present invention is not limited to this.
- the information processing apparatus 100 may select an important variable and present the important variable, and another apparatus may calculate the intervention effect.
- the intervention effect calculation unit 135 shown in FIG. 1 may be omitted.
- FIG. 4 is a flowchart showing the flow of analysis processing of the prediction model executed by the information processing apparatus 100 according to the embodiment of the present disclosure.
- the causal model estimation unit 132 of the information processing apparatus 100 acquires a prediction model to be analyzed (step S101).
- the causal model estimation unit 132 estimates the causal model for each node of the closest node group (step S102).
- the selection unit 133 selects an important variable from the input variables that are closest to the variables of interest of each causal model estimated by the causal model estimation unit 132, in other words, that are directly connected to the network (step S103).
- the evaluation unit 134 evaluates the degree of influence of the important variable on the variable of interest with respect to the important variable selected by the selection unit 133 (step S104). At this time, the evaluation unit 134 can evaluate the combined influence (coupling effect) of the combination of the plurality of important variables on the variable of interest.
- the input / output control unit 131 outputs information regarding important variables selected by the selection unit 133 (step S105). At this time, the input / output control unit 131 may output information on the degree of influence evaluated by the evaluation unit 134 and information on the intervention effect when intervening in the important variable in association with the information on the important variable. .. The intervention effect is calculated by the intervention effect calculation unit 135.
- the presence or absence of an abnormality in the manufacturing plant is memorized, and a prediction model for predicting the occurrence of an abnormality in the manufacturing plant is constructed, for example, as a neural network, with the presence or absence of the abnormality as a teacher and the acquired information as input data. It is assumed that it is.
- the occurrence of anomalies is predicted by the prediction model.
- the prediction result by the prediction model is only displayed, and it is difficult for the user to know the reason for the prediction result.
- the data analysis system can present the reason for the prediction to the user with respect to the prediction result.
- the information processing apparatus 100 generates a causal model for a prediction model that has already been constructed.
- a causal model is generated for an output variable indicating the presence or absence of an abnormality.
- FIG. 5 is a diagram for explaining an example of a causal model estimated by the information processing apparatus 100 according to the application example of the embodiment of the present disclosure.
- the causal model estimation unit 132 of the information processing apparatus 100 has three measures: a measured quantity A indicating the level of the maximum voltage in the past day, an elapsed time from the reset of the apparatus A, and a measured quantity B indicating the frequency of vibration occurrence. , It is presumed that there is a direct causal relationship with the presence or absence of abnormal occurrence, which is the output.
- the measured quantity B is the sole cause for the presence or absence of an abnormality. It should be noted that the measured quantity A alone does not cause a cause, and only when the maximum voltage level is at the high level among the three levels (high, middle, low) and the elapsed time from the reset is YY time or more. It is assumed that an abnormality occurs.
- the measured quantities A and B change depending on the humidity.
- the data analysis system also acquires information on the measured quantities C and D affected by the humidity, but the measured quantities C and D are output ( It shall not affect the presence or absence of abnormalities).
- the data analysis system acquires information on the measured quantity F and the measured quantity E which fluctuates under the influence of the measured quantity F and the measured quantity A.
- the causal model estimation unit 132 estimates the causal relationship of the prediction model, the elapsed time from the reset of the measured quantities A and B and the device A, which is the sole cause for the presence or absence of an abnormality, In addition, it is estimated that the humidity and the measured quantities C, D, and E also have a correlation with the output.
- the effect of the intervention may not be obtained.
- the user does not intervene, there is a risk of accumulating false knowledge that the presented information is the cause of the occurrence of the abnormality, which may hinder the user from understanding the manufacturing process.
- the information processing apparatus 100 presents the reason to the user using the cause (input variable) estimated to be close to the objective variable (output in this case). Therefore, the information processing apparatus 100 can present a more appropriate input variable as a reason. As a result, the information processing apparatus 100 can present to the user the reason why the intervention effect is higher, and can suppress the accumulation of erroneous knowledge by the user.
- the information processing apparatus 100 can combine a plurality of input variables and present them to the user as a reason (complex effect) for the objective variable.
- the information processing apparatus 100 does not calculate the effect of a plurality of input variables by adding the effects of the input variables alone, but calculates the effect (combination effect) according to the combination state of the combination. Therefore, the information processing apparatus 100 can present the user with a more appropriate combination of input variables as a reason for the prediction result.
- the reason for the prediction result can be presented to the user at the same time as the prediction result. Therefore, here, it is assumed that the data analysis system presents the prediction result, and at the same time, the information processing apparatus 100 presents the reason for the prediction to the user by using, for example, a pop-up or the like.
- the prediction by the prediction model may be performed by, for example, a prediction device (not shown) included in the data analysis system, and the prediction result may be displayed on the display device (not shown) by the prediction device.
- the information processing apparatus 100 can present information about the input variable selected as the reason for the prediction result so that the user can confirm both the prediction result and the reason.
- the information processing apparatus 100 may present a plurality of input variables as a reason. At this time, the information processing apparatus 100 may calculate the binding effect by combining a predetermined number of input variables, or may accept the number of input variables to be combined from the user.
- FIG. 6 is a diagram showing an example of a UI screen output by the information processing apparatus 100 according to the application example of the embodiment of the present disclosure.
- the information processing apparatus 100 presents a candidate for the number of input variables to be combined to the user by displaying the UI screen shown in FIG. 6, for example.
- the number of variables that can be selected by the user is from 1 variable to 3 variables, but the number of variables that can be selected as a combination may be 4 or more.
- the user selects the number of input variables to be combined by clicking the corresponding part on the UI screen.
- the information processing apparatus 100 outputs a UI screen (interface) for determining a combination of input variables, and the user performs an operation corresponding to the UI screen (interface).
- the information processing apparatus 100 determines a combination of a number of input variables selected by the user based on the operation.
- the information processing apparatus 100 selects the display of the reason for the determined combination and calculates the degree of influence of the combination.
- the information processing apparatus 100 combines the combination of selected input variables and the degree of influence and presents them to the user together with the prediction result.
- the information processing apparatus 100 includes, for example, three input variables (measured quantities A indicating the level of the maximum voltage in the past day) that are directly connected to the presence or absence of an abnormality, which is an output variable.
- the elapsed time from the reset of the device A and the measured quantity B) indicating the frequency of occurrence of vibration are selected as important variables, and the degree of influence is calculated.
- the information processing apparatus 100 presents the information about important variables and the calculated degree of influence to the user in association with each other.
- FIG. 7 is a diagram showing an example of a UI screen output by the information processing apparatus 100 according to the application example of the embodiment of the present disclosure.
- FIG. 7 shows an example of a UI screen output by the information processing apparatus 100 when the user selects one variable.
- the importance shown in FIG. 7 corresponds to the above-mentioned degree of influence.
- the information processing apparatus 100 presents information on important variables to the user, for example, by sorting in descending order of importance.
- the measured quantity A having the highest importance of “0.21” is set as the “maximum voltage level”, and the measurement amount A has the second highest importance of “0.16”.
- a certain measured quantity B is displayed as "vibration occurrence frequency”.
- the information processing apparatus 100 displays the elapsed time from the reset of the apparatus A, which has the third highest importance of "0.14", as the "elapsed time from the reset".
- the information processing apparatus 100 associates the important variables with the importance and displays them in a list in descending order of importance, so that the reason for the prediction result can be presented to the user in an easy-to-understand manner.
- the information processing apparatus 100 presents the strength of the causal relationship with the output variable to the user by using a quantitative index such as importance, thereby presenting the user with a more convincing reason. Can be done.
- the information processing apparatus 100 may change the background color of the table to display the list according to the magnitude (absolute value) of the importance. For example, the information processing apparatus 100 selects a darker background color and displays a list as the importance increases. In this way, the information processing apparatus 100 determines the order and color on the display screen corresponding to the importance, so that the user can more easily recognize the importance of the important variable. This also applies to FIGS. 8 and 9 described later.
- the information processing apparatus 100 includes, for example, three input variables (measured quantities A indicating the level of the maximum voltage in the past day) that are directly connected to the presence or absence of an abnormality, which is an output variable.
- a combination of two selected from the elapsed time from the reset of the device A and the measured quantity B) indicating the frequency of vibration generation is selected as the combination of important variables.
- the information processing device 100 calculates a complex degree of influence due to the combination of selected important variables.
- the information processing apparatus 100 presents to the user the information regarding the combination of important variables and the calculated complex influence degree in association with each other.
- FIG. 8 is a diagram showing an example of a UI screen output by the information processing apparatus 100 according to the application example of the embodiment of the present disclosure.
- FIG. 8 shows an example of a UI screen output by the information processing apparatus 100 when the user selects two variables. The importance shown in FIG. 8 corresponds to the above-mentioned combined degree of influence.
- the information processing apparatus 100 presents information on important variables to the user, for example, by sorting in descending order of importance.
- the information processing apparatus 100 since the importance of the combination of the measured quantities A and B is the largest and is “0.73”, the information processing apparatus 100 has the information “maximum voltage level” regarding the combination of the measured quantities A and B and the information “maximum voltage level”. "Vibration occurrence frequency" is used as the reason for the prediction result, and it is displayed in association with the importance.
- the information processing apparatus 100 uses the information "maximum voltage level” and "elapsed time from reset” regarding the combination of the measured quantity A and the elapsed time from the reset as the reason for the prediction result, and associates it with the importance. indicate.
- the information processing apparatus 100 uses the information "vibration occurrence frequency" and "elapsed time from reset” regarding the combination of the measured amount B and the elapsed time from the reset as the reason for the prediction result, and associates it with the importance. indicate.
- the information processing apparatus 100 does not simply add the importance in the case of one variable to calculate the complex importance, but calculates the complex importance in consideration of the spurious correlation. Therefore, the information processing apparatus 100 can present a more appropriate importance to the user even when two variables are combined as a reason.
- the information processing apparatus 100 selects all three input variables as important variables, but the present invention is not limited to this.
- the information processing apparatus 100 selects the number of input variables as important variables using the first information described above, or a combination of important variables. You may want to limit the number of input variables you select as.
- the present invention is not limited to this.
- the information processing apparatus 100 by newly defining a complex degree of influence that enables relative comparison as a unified index, the information processing apparatus 100 relatively determines the complex degree of influence when a different number of variables are combined. Can be compared. As a result, the information processing apparatus 100 can be presented to the user because of the combination of different numbers of variables.
- the information processing apparatus 100 replaces the third index CE of the equation (8) with the third index CE p of the equation (8) as the unified first information regardless of the number of variables to be combined, and uses the following equation (the fourth index CE p ) as the fourth index CE p. 20) -Equation (22) is calculated.
- p represents the number of variables included in the combination
- l represents the instance of the objective variable
- x n1 to x n3 represent the category value of the instance of the input variable included in the combination.
- the information processing apparatus 100 uses the second index ANCI of the equation (7) as the fifth index ANCI p as the unified first information regardless of the number of variables to be combined. Equations (23) to (25) can be calculated.
- p represents the number of variables included in the combination
- L represents the objective variable
- X n1 to X n3 represent the input variables included in the combination.
- the number is not limited to four, and may be four or more.
- the information processing apparatus 100 can present the user with a combination of variables of a predetermined number or less as a reason by using a unified index that does not depend on the variables to be combined.
- the maximum value of the input variables to be combined may be specified by the user or may be determined by the information processing apparatus 100.
- the information processing apparatus 100 includes, for example, three input variables (measured quantities A indicating the level of the maximum voltage in the past day) that are directly connected to the presence or absence of an abnormality, which is an output variable. Select 1 to 3 from the elapsed time from the reset of the device A and the measured quantity B) indicating the frequency of occurrence of vibration, and use the combination of the selected input variables as the combination of the important variables.
- the information processing apparatus 100 calculates a complex degree of influence due to the combination of important variables selected using the above equations (20) to (22).
- the information processing apparatus 100 presents to the user the information regarding the combination of important variables and the calculated complex influence degree in association with each other.
- FIG. 9 is a diagram showing an example of a UI screen output by the information processing apparatus 100 according to the application example of the embodiment of the present disclosure.
- FIG. 9 shows an example of a UI screen output by the information processing apparatus 100 when three or less variables are combined. The importance shown in FIG. 9 corresponds to the above-mentioned combined degree of influence.
- the information processing apparatus 100 presents information on important variables to the user, for example, by sorting in descending order of importance.
- the information processing apparatus 100 since the importance of the combination of the measured quantities A and B is the largest and is “0.73”, the information processing apparatus 100 has the information “maximum voltage level” regarding the combination of the measured quantities A and B and the information “maximum voltage level”. "Vibration occurrence frequency" is used as the reason for the prediction result, and it is displayed in association with the importance. Further, the information processing apparatus 100 presents the number of important variables included in the combination to the user as a set number.
- the information processing apparatus 100 uses the information "maximum voltage level” regarding the measured quantity A as the reason for the prediction result, and corresponds to the number of important variables (number of sets) "1" and the importance "0.21" included in the combination. Attach and display.
- the information processing apparatus 100 uses the information "maximum voltage level”, “vibration occurrence frequency”, and “elapsed time from reset” regarding the combination of the measured quantities A and B and the elapsed time from the reset of the apparatus A as the reason for the prediction result. It is displayed in association with the number of sets "3" and the importance.
- the information processing apparatus 100 uses an index that can be compared uniformly regardless of the number of important variables included in the combination as the first information, and the reason is that the combination includes a different number of important variables. It can be presented to the user.
- the information processing apparatus 100 can suppress an increase in the processing load by selecting the number of important variables to be combined based on the above equations (23) to (25).
- the information processing apparatus 100 includes an intervention effect calculation unit 135 (see FIG. 1) and has a function of calculating the intervention effect.
- the effect when the information processing apparatus 100 intervenes in the input variable included in the selected reason is calculated and presented to the user. You may do it. In this case, for example, it may be possible to indicate a specific intervention pattern for the input variable selected by the user.
- the reason for the prediction result is the elapsed time from the reset of the device A.
- the user can understand that it is predicted that an abnormality is likely to occur because the elapsed time from resetting the device A is long. Therefore, the user can know how much the intervention effect can be obtained by intervening in the elapsed time by using the function of calculating the intervention effect of the information processing apparatus 100.
- the user can have the information processing apparatus 100 calculate, for example, how much the intervention effect, that is, the probability of occurrence of an abnormality is reduced by shortening the time interval for resetting the apparatus A by 15 minutes.
- the information processing apparatus 100 presents the reason for the prediction result to the user, so that the user can consider a specific intervention pattern. Further, the information processing apparatus 100 calculates the effect of the intervention pattern examined by the user, so that the user considers the balance between the intervention effect and the cost of executing the intervention and decides whether or not to execute the intervention. Can be determined.
- the age and background of a person are input to determine whether or not the person commits a recidivism.
- FIG. 10 is a diagram for explaining the causal relationship of the prediction model of the recidivism judgment system. Whether or not a person commits a recidivism of a crime may have a causal relationship as shown in FIG.
- the information processing apparatus 100 can generate a causal model excluding spurious correlation by using the p-value of the statistical test as an index as to whether the partial correlation coefficient can be regarded as zero. That is, the information processing apparatus 100 generates a causal model using an input variable whose partial correlation coefficient is not zero or which is not conditional independence with respect to the output variable as an input variable having a causal relationship with the output variable.
- the prediction model of the recidivism determination system described above is constructed as a neural network having five closest node groups (L 1 to L 5 ).
- the information processing apparatus 100 estimates a causal model for each of the closest nodes L1 to L5 of the prediction model.
- the information processing apparatus 100 estimates a causal model in which age, crime history ( number), detention period, and the like are associated with the closest nodes L1 to L5 .
- the information processing apparatus 100 presents the reason together with the predicted result of recidivism based on the estimated causal model.
- the probability of the level of the closest node L1 to L5 may be calculated and presented to the user.
- FIG. 11 is a chart showing conditional probabilities of the level of the closest node L1 calculated by the information processing apparatus 100 according to the embodiment of the present disclosure.
- the information processing apparatus 100 divides the crime history into two with three thresholds as the threshold value, divides the age into three with the threshold value of 27 years old and 37 years old, and calculates the conditional probability. is doing. Further, the information processing apparatus 100 divides the level of L1 into three levels (high, middle, low) with 0.37 and 1.578 as threshold values, and calculates the conditional probability.
- the recidivism determination system predicts the possibility of recidivism with a predictive model for a certain person (instance). If the predicted person has 5 crime histories, the average probability that the crime history is 3 or more and the closest node L1 is at the high level is 30.4%. This probability has a distribution of 3.9% to 39.7% depending on the age, and the probability varies depending on the age. If the predicted person is 61 years old, the probability that the closest node L1 will be at the high level is 39.7%. On the other hand, focusing only on age, the average probability that the closest node L1 will reach the high level at the age of 61 is 13%. As described above, when focusing only on the age, the probability that the closest node L 1 becomes the high level is greatly reduced as compared with the case where the recidivism history is taken into consideration.
- the information processing apparatus 100 can present these plurality of input variables to the user as a reason for influencing the objective variable.
- the information processing apparatus 100 calculates a complex degree of influence. Then, it becomes possible to present a more appropriate reason to the user.
- the information processing apparatus 100 calculates the probabilities of the levels of the closest nodes L1 to L5 and presents them to the user, so that the user can influence the input variables that affect the closest nodes L1 to L5 . Can be confirmed. This makes it easier for the user to analyze the predictive model.
- the input variables may include variables that have a positive correlation with the output variables, i.e., are positive reasons that support the output of the final prediction result. Also, like the age mentioned above, the input variables may include variables that have a negative correlation with the output variables, i.e., are negative reasons to support the output of the final prediction result.
- the information processing apparatus 100 may separately present the important variable that is a positive reason and the important variable that is a negative reason to the user as the reason for the prediction result. That is, the information processing apparatus 100 has a complex influence due to a combination of input variables having a positive correlation with the output variable (or an objective variable) and a complex influence due to a combination of input variables having a negative correlation. The degree and the degree may be calculated respectively.
- the prediction model is a neural network that performs binary classification / discrimination
- positive and negative numerical values are given to the weight w of each node (neuron).
- a positive number chooses one of the two values, and a negative number chooses the other.
- the neurons that fire and attract are determined in advance by learning.
- Pos shown in Eq. (26) represents a set of closest nodes (final layer neurons) having a positive weight w
- Neg shown in Eq. (27) is a set of closest nodes having a negative weight w.
- the information processing apparatus 100 may use the equation (26) to evaluate a variable or a combination thereof for the reason for attracting in the positive direction.
- the information processing apparatus 100 can also use the equation (27) in the negative direction.
- the information processing apparatus 100 calculates the sum of the equations (26) and (27) as the degree of influence EP to quantify the weight as the reason for the important variable or the combination of the important variables. Can be evaluated.
- the degree of influence EP can be calculated as a positive value or a negative value. Therefore, the information processing apparatus 100 can present to the user the reason for attracting the final output Y in the positive direction (important variable) and the reason for attracting the final output Y in the negative direction (important variable).
- the information processing apparatus 100 estimates one causal model that causes the output variable in order to search for the input variable that explains the output variable. That is, the information processing apparatus 100 estimates the causal model with the output variable as the objective variable, and selects the important variable.
- the processing performed by the information processing apparatus 100 is the same as the processing shown in FIG. 4, except that the output variable is used as the objective variable.
- the information processing apparatus 100 can present to the user the reason for the prediction result of the prediction model generated by machine learning, not limited to the neural network.
- the information processing apparatus 100 presents an important variable having a high degree of influence to the user, but the present invention is not limited to this.
- the information processing apparatus 100 may present an important variable having a low degree of influence to the user.
- the information processing apparatus 100 outputs an input variable that is spuriously correlated with the variable of interest as an input variable that does not affect the variable of interest.
- the information processing apparatus 100 may output an input variable that is conditionally independent of the variable of interest.
- the information processing apparatus 100 presents to the user an input variable having a low influence on the variable of interest, for example, an input variable having a spurious correlation with the variable of interest, so that the user does not affect the prediction result. You can know the input variables.
- FIG. 12 is a block diagram showing an example of the hardware configuration of the information processing apparatus 900 according to the present embodiment.
- the information processing device 900 shown in FIG. 12 can realize, for example, the information processing device 100 shown in FIG.
- the information processing by the information processing apparatus 100 according to the present embodiment is realized by the cooperation between the software and the hardware described below.
- the information processing apparatus 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
- the information processing device 900 includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, and a communication device 913.
- the information processing apparatus 900 may have a processing circuit such as an electric circuit, a DSP, or an ASIC in place of or in combination with the CPU 901.
- the CPU 901 functions as an arithmetic processing device and a control device, and controls the overall operation in the information processing device 900 according to various programs. Further, the CPU 901 may be a microprocessor.
- the ROM 902 stores programs, calculation parameters, and the like used by the CPU 901.
- the RAM 903 temporarily stores a program used in the execution of the CPU 901, parameters that appropriately change in the execution, and the like.
- the CPU 901 may form, for example, the control unit 130 shown in FIG.
- the CPU 901, ROM 902 and RAM 903 are connected to each other by a host bus 904a including a CPU bus and the like.
- the host bus 904a is connected to an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 904. It is not always necessary to separately configure the host bus 904a, the bridge 904, and the external bus 904b, and these functions may be implemented in one bus.
- PCI Peripheral Component Interconnect / Interface
- the input device 906 is realized by a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever, in which information is input by a user. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or an externally connected device such as a mobile phone or a PDA that supports the operation of the information processing device 900. .. Further, the input device 906 may include, for example, an input control circuit that generates an input signal based on the information input by the user using the above input means and outputs the input signal to the CPU 901. By operating the input device 906, the user of the information processing apparatus 900 can input various data to the information processing apparatus 900 and instruct the processing operation.
- the input device 906 may form, for example, the input unit 110 shown in FIG.
- the output device 907 is formed of a device capable of visually or audibly notifying the user of the acquired information.
- Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, LED projectors and lamps, audio output devices such as speakers and headphones, and printer devices. ..
- the output device 907 outputs, for example, the results obtained by various processes performed by the information processing device 900.
- the display device visually displays the results obtained by various processes performed by the information processing device 900 in various formats such as texts, images, tables, and graphs.
- the audio output device converts an audio signal composed of reproduced audio data, acoustic data, etc. into an analog signal and outputs it aurally.
- the output device 907 may form, for example, the output unit 120 shown in FIG.
- the storage device 908 is a data storage device formed as an example of the storage unit of the information processing device 900.
- the storage device 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like.
- the storage device 908 may include a storage medium, a recording device for recording data on the storage medium, a reading device for reading data from the storage medium, a deleting device for deleting data recorded on the storage medium, and the like.
- the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
- the storage device 908 can store, for example, a report created by the control unit 130, an intermediate result of the analysis process, a final result, and the like.
- the drive 909 is a reader / writer for a storage medium, and is built in or externally attached to the information processing device 900.
- the drive 909 reads information recorded in a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
- the drive 909 can also write information to the removable storage medium.
- connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of transmitting data by, for example, USB (Universal Serial Bus).
- USB Universal Serial Bus
- the communication device 913 is, for example, a communication interface formed by a communication device or the like for connecting to the network 920.
- the communication device 913 is, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), WUSB (Wireless USB), or the like.
- the communication device 913 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, or the like.
- the communication device 913 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
- the communication device 913 functions as an input unit 110 and / or an output unit 120, and may receive information input to the control unit 130 and transmit information output from the control unit 130. ..
- the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
- the network 920 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, and various LANs (Local Area Networks) including Ethernet (registered trademark), WAN (Wide Area Network), and the like.
- the network 920 may include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).
- the above is an example of a hardware configuration capable of realizing the functions of the information processing apparatus 900 according to the present embodiment.
- Each of the above components may be realized by using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to appropriately change the hardware configuration to be used according to the technical level at the time of implementing the present embodiment.
- the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
- the above computer program may be distributed, for example, via a network without using a recording medium.
- each device described in the present specification may be realized as a single device, or a part or all of the devices may be realized as separate devices.
- the control unit 130 may be provided in a device such as a server connected to the input unit 110 and the output unit 120 by a network or the like.
- the following configurations also belong to the technical scope of the present disclosure.
- the plurality of input variables are based on the pseudo-correlation between the input variable and the prediction result.
- Select the input variable that is the reason for the prediction result from A control unit that outputs information about the selected input variable, Information processing device equipped with.
- the control unit selects the input variable that does not have a spurious relationship with the prediction result as the input variable that is the reason.
- the control unit selects the input variable that is not conditionally independent of the prediction result as the input variable that is the reason.
- the control unit outputs intensity information indicating the strength of the relationship between the input variable selected as the reason and the prediction result in association with the selected input variable (1) to (3).
- the information processing apparatus according to any one of (1) to (4), wherein the control unit selects a combination of at least two input variables as the reason for the prediction result.
- the control unit outputs intensity information indicating the strength of the relationship between at least two input variables included in the combination and the prediction result in association with the information regarding the combination.
- the control unit estimates a causal graph using an output variable indicating the prediction result as an objective variable and a plurality of input variables as explanatory variables, and uses the explanatory variables that have a direct causal relationship with the objective variable as the reason.
- the information processing apparatus according to any one of (1) to (6), which selects an input variable.
- the control unit estimates a causal graph for the closest node using the closest node included in the hidden layer closest to the prediction model as an objective variable and a plurality of input variables as explanatory variables, and directly with the objective variable.
- the information processing apparatus according to any one of (1) to (6), which selects the input variable as the reason from the explanatory variables having a causal relationship.
- the control unit selects the input variable as the positive reason based on the causal graph for the closest node having a positive weight among the closest nodes, and sets a negative weight among the closest nodes.
- the plurality of input variables are based on the pseudo-correlation between the input variable and the prediction result.
- Information processing device 110 Input unit 120 Output unit 130 Control unit 131 Input / output control unit 132 Causal model estimation unit 133 Selection unit 134 Evaluation unit 135 Intervention effect calculation unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
情報処理装置(100)は、制御部(130)を備える。制御部(130)は、機械学習を用いた予測モデルにおける複数の入力変数と予測結果との因果関係に関する因果モデルに基づいて、予測結果に影響を与える入力変数を説明変数として選択する。制御部(130)は、選択された説明変数を出力する。
Description
本開示は、情報処理装置、情報処理方法及びプログラムに関する。
近年、ビッグデータ等のデータから有用な情報を抽出するための、データ分析技術の向上が求められている。分析結果は、すでに起きた現象の理解、将来の予測、制御又は介入などのために用いられる。例えば、予測モデルの分析を行い、予測結果に対して貢献度の大きい変数を出力する技術が知られている。
M.T.Ribeiro, S.Singh, C.Guestrin, "Why should I trust you? Explaining the Predictions of Any Classifier", the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.1135-1144, 2016.
S.M.Lundberg and S.I.Lee,"A Unified Approach to Interpreting Model Predictions", Advances in Neural Information Processing Systems 30", pp.4765-4774, 2017.
上記技術では、予測結果と変数との関係が線形であると仮定し、分析を行っている。また、上記技術では、複数の変数の貢献度を加算することで、予測結果にいたる複合的な理由として、複数の変数を出力する。
上記技術は、理由として適した変数を出力するという点で改善の余地がある。特に、上記技術では、複合的な理由を出力する場合に、複数の変数の貢献度を加算するに過ぎず、複数の変数同士のカテゴリの組み合わせパターンに対する依存関係について考慮されていなかった。例えば、「性別」という変数に「男性」、「女性」のカテゴリが含まれ、「年齢」という変数に「10代」、「20代」、「30代」、「40代」、「50代以上」というカテゴリが含まれるものとする。変数同士のカテゴリの組み合わせ、例えば、「10代」の「女性」と、「30代」の「男性」とでは、予測への寄与度が大きく異なることがあり得る。このように、複数の変数同士のカテゴリの組み合わせパターンの予測への寄与度を考慮して、予測結果に対してより適切である複合的な理由を出力することが望まれる。
そこで、本開示では、予測結果に対する複合的な理由を出力する場合に、より理由として適した変数を出力することができる情報処理装置、情報処理方法及びプログラムを提案する。
なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の1つに過ぎない。
本開示によれば、情報処理装置が提供される。情報処理装置は、制御部を備える。制御部は、機械学習を用いた予測モデルにおける複数の入力変数と予測結果との因果関係に関する因果モデルに基づいて、前記予測結果に影響を与える前記入力変数を説明変数として選択する。制御部は、選択された前記説明変数を出力する。
以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
以下に説明される1又は複数の実施形態(実施例、変形例を含む)は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。
なお、説明は以下の順序で行うものとする。
1.提案技術の概要
2.情報処理装置の構成例
3.分析処理
4.適用例
4.1.製造系データ分析システムへの適用例
4.2.再犯判断システムへの適用例
5.その他の実施形態
6.ハードウェア構成例
7.まとめ
1.提案技術の概要
2.情報処理装置の構成例
3.分析処理
4.適用例
4.1.製造系データ分析システムへの適用例
4.2.再犯判断システムへの適用例
5.その他の実施形態
6.ハードウェア構成例
7.まとめ
<<1.提案技術の概要>>
近年、機械学習の性能向上により、様々な場面で機械学習による予測モデル(予測器)が利用されるようになってきた。その一方、予測モデルが出力する予測結果に対して、根拠が与えられない場合が多く、利用者が利用しにくいと感じることがある。そのため、予測モデルの利用が限定された範囲に滞ってしまう恐れがある。
近年、機械学習の性能向上により、様々な場面で機械学習による予測モデル(予測器)が利用されるようになってきた。その一方、予測モデルが出力する予測結果に対して、根拠が与えられない場合が多く、利用者が利用しにくいと感じることがある。そのため、予測モデルの利用が限定された範囲に滞ってしまう恐れがある。
このように、予測モデルの利用を促進するためにも、予測器が、予測結果とともに、その根拠(理由)を提示することが望まれる。
この要望に対して、例えば、予測モデルの入力変数のうち予測の理由として重要と考えられる入力変数(以下、重要変数と記載する)を自動的に出力する技術が数多く提案されてきている。
しかしながら、上記技術は、予測結果である出力変数との相関的なパターンに基づいて算出された重要変数を出力するものであり、因果的な観点が考慮されていない。そのため、予測の理由として出力される重要変数と出力変数とが疑似相関である可能性が排除されておらず、適切な理由が出力されているとは言えなかった。
出力される理由(重要変数)が適切でない場合、理由に基づいて介入、施策等を行っても予測結果が改善されない可能性がある。また、人間は、相関関係を因果的な解釈で捉えてしまう傾向があるため、相関関係に基づいて提示された理由をユーザが因果と捉えてしまい、誤った知識を学んでしまう恐れがある。そのため、予測結果の理由として、より適切な変数を出力することができる技術が望まれる。
そこで、本開示の技術では、情報処理装置が疑似相関であるか否かという情報に基づいて、予測結果の理由となる入力変数(重要変数)を出力する。例えば、本開示の技術に係る情報処理装置は、機械学習によって生成された予測モデルの入力変数と出力変数との疑似相関の関係に基づき、入力変数から疑似相関の関係にない入力変数を、予測モデルの予測結果の理由とする重要変数として選択する。情報処理装置は、選択した重要変数を出力する。
上記の選択のために、例えば、情報処理装置は、各入力変数が出力変数に対して条件付き独立であるか否かを判定し、条件付き独立でないと判定した入力変数を重要変数として選択する。
より具体的には、情報処理装置は、着目変数(例えば、出力変数、又は、後述するニューラルネットワークにおいては出力変数の1つ手前の隠れ層のノード)を目的変数とし、入力変数を説明変数とする因果モデルを構築する。
情報処理装置は、構築した因果モデルに含まれる入力変数から重要変数を選択することで、条件付き独立でないと判定した入力変数を重要変数として選択する。
これにより、情報処理装置は、因果、特に疑似相関を考慮して重要変数を選択することができ、予測結果の理由としてより適切な重要変数をユーザに提示することができるようになる。
<<2.情報処理装置の構成例>>
図1は、本開示の実施形態に係る情報処理装置100の論理的な構成の一例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置100は、入力部110、出力部120及び制御部130を含む。
図1は、本開示の実施形態に係る情報処理装置100の論理的な構成の一例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置100は、入力部110、出力部120及び制御部130を含む。
[入力部110]
入力部110は、様々な情報の入力を受け付ける機能を有する。入力部110は、入力された情報を制御部130に出力する。
入力部110は、様々な情報の入力を受け付ける機能を有する。入力部110は、入力された情報を制御部130に出力する。
入力部110は、分析対象となる予測モデルの入力を受け付ける。ここでの予測モデルは、機械学習によって生成される機械学習器であり、例えばニューラルネットワークやランダムフォレストなどが挙げられる。
入力部110は、分析のための各種入力を受け付ける。例えば、入力部110は、後述する説明変数の組み合わせに含まれる説明変数の数n等の入力を受け付ける。入力部110は、タッチパネル、キーボード又はマウス等の任意の入力装置を含んでいてもよく、かかる入力装置へのユーザ操作によりこれらの情報の入力を受け付ける。また、入力部110は、マイク等の音声入力部を含んでいてもよい。
[出力部120]
出力部120は、様々な情報の出力を行う機能を有する。出力部120は、制御部130による制御に基づいて、各種情報を出力する。出力部120は、表示装置を含み、例えば分析結果を示すUI画面を出力してもよい。出力部120は、音声出力装置を含み、例えばユーザの音声入力を促すための音声を出力してもよい。出力部120は、任意の通信規格に準拠した通信装置を含み、例えば他の情報処理装置又は記憶装置に分析結果を示す情報を出力してもよい。出力部120は、印刷装置を含み、例えば分析結果を示すレポートを印刷してもよい。
出力部120は、様々な情報の出力を行う機能を有する。出力部120は、制御部130による制御に基づいて、各種情報を出力する。出力部120は、表示装置を含み、例えば分析結果を示すUI画面を出力してもよい。出力部120は、音声出力装置を含み、例えばユーザの音声入力を促すための音声を出力してもよい。出力部120は、任意の通信規格に準拠した通信装置を含み、例えば他の情報処理装置又は記憶装置に分析結果を示す情報を出力してもよい。出力部120は、印刷装置を含み、例えば分析結果を示すレポートを印刷してもよい。
[制御部130]
制御部130は、情報処理装置100全体の動作を制御する機能を有する。図1に示すように、制御部130は、入出力制御部131、因果モデル推定部132、選択部133、評価部134、及び、介入効果算出部135を含む。制御部130は、これらの構成要素以外の構成要素を含んでいてもよい。
制御部130は、情報処理装置100全体の動作を制御する機能を有する。図1に示すように、制御部130は、入出力制御部131、因果モデル推定部132、選択部133、評価部134、及び、介入効果算出部135を含む。制御部130は、これらの構成要素以外の構成要素を含んでいてもよい。
(入出力制御部131)
入出力制御部131は、入力部110及び出力部120と、制御部130に含まれる他の構成要素(因果モデル推定部132、選択部133、評価部134、及び、介入効果算出部135)とのインターフェースである。入出力制御部131は、入力部110により入力された情報を当該情報に対応する他の構成要素に出力し、他の構成要素から出力された情報を出力部120により出力させる。例えば、入出力制御部131は、入力部110により入力された予測モデルを因果モデル推定部132に出力する。また、入出力制御部131は、分析結果を示すUI画面を生成して出力部120により出力させ、入力部110により入力された当該UI画面へのユーザ操作を示す情報を、当該ユーザ操作に対応する他の構成要素に出力する。
入出力制御部131は、入力部110及び出力部120と、制御部130に含まれる他の構成要素(因果モデル推定部132、選択部133、評価部134、及び、介入効果算出部135)とのインターフェースである。入出力制御部131は、入力部110により入力された情報を当該情報に対応する他の構成要素に出力し、他の構成要素から出力された情報を出力部120により出力させる。例えば、入出力制御部131は、入力部110により入力された予測モデルを因果モデル推定部132に出力する。また、入出力制御部131は、分析結果を示すUI画面を生成して出力部120により出力させ、入力部110により入力された当該UI画面へのユーザ操作を示す情報を、当該ユーザ操作に対応する他の構成要素に出力する。
(因果モデル推定部132)
因果モデル推定部132は、入出力制御部131を介して取得した予測モデルに含まれる着目変数を目的変数とした因果モデルを生成する。
因果モデル推定部132は、入出力制御部131を介して取得した予測モデルに含まれる着目変数を目的変数とした因果モデルを生成する。
予測モデルは、例えば記憶装置(図示省略)から取得してもよく、情報処理装置100の記憶部(図示省略)から取得してもよい。あるいは、情報処理装置100が予測モデルを生成するようにしてもよい。予測モデルは、例えば機械学習に基づいて生成される学習器である。予測モデルは、入力変数に対して所定の演算を行い、予測結果である出力変数を出力するものであればよい。予測モデルとして、例えば、ニューラルネットワークやランダムフォレストなどが挙げられるが、以下では、特に断りのない限り、情報処理装置100が予測モデルとしてニューラルネットワークを取得したものとして説明する。
ニューラルネットワークでは、入力変数群の情報を複雑に組み合わせることで、予測や識別、分類等の出力が行われる。ニューラルネットワークの隠れ層では、入力変数群の情報が様々に組み合わされて、パターンが形成されているが、このパターンが複雑であるため、出力変数がどのようにして決まったかユーザが理解することは難しい。
そこで、本開示の技術では、出力層(出力変数)に最も近い隠れ層(以下、最近接層とも記載する)に着目し、情報処理装置100は、このノード(以下、最近接ノードとも記載する)群がどのような入力変数群の組み合わせで構成されるかを示す情報をユーザに提示する。換言すると、情報処理装置100は、出力層の1つ手前の最近接層に着目し、最近接ノードそれぞれを入力変数群で説明するための情報を生成する。
そのために、まず、因果モデル推定部132は、最近接ノードそれぞれについて、学習により獲得した特徴量を説明するための因果モデルを推定する。かかる点について、図2及び図3を用いて説明する。
図2は、本開示の実施形態に係る因果モデル推定部132が取得する予測モデルの一例を説明するための図である。
図2に示すように、因果モデル推定部132は、予測モデルとして、入力層と、2つの隠れ層HL1、HL2と、出力層と、で構成されるニューラルネットワークを取得する。ここでは、ニューラルネットワークが入力変数群{X1、X2、X3、X4}に対して1つの出力変数Yを出力し、各隠れ層HL1、HL2が5つの隠れノードを有するものとする。また、最近接層である隠れ層HL2は、最近接ノードである隠れノードL1~L5を有するものとする。
因果モデル推定部132は、予測モデルに含まれる着目変数(ここでは、最近接ノードL1~L5)を目的変数とし、入力変数群{X1、X2、X3、X4、・・・}を説明変数とする因果モデルを、着目変数ごとに推定する。
例えば、因果モデル推定部132は、M個の最近接ノードLm(図2ではm=1~5)それぞれに対してN個の入力変数Xn(図2ではn=1~4)で因果モデルを推定する。つまり、因果モデル推定部132は、M個の因果モデルを生成する。
因果モデル推定部132は、最近接ノードLm及び各入力変数Xnの因果関係の指標である因果情報を計算することで、各変数間の因果関係の有無及び強さを検出する。因果情報は、例えば2変数間の因果関係を示す統計量である。因果モデル推定部132は、独立成分分析による方法、罰則付き最尤法若しくはベイズ法による推定結果をスコアとしてこれを最大化する方法、又は変数間の条件付き独立性の統計的検定によって推定する方法などにより、2変数間の因果関係の有無及び強さを検出する。因果モデル推定部132は、例えばニューラルネットワークの生成に使用した学習データ等を用いて因果情報を算出する。
図3は、本開示の実施形態に係る因果モデル推定部132が推定する因果モデルの一例を説明するための図である。
図3では、因果モデル推定部132が推定した因果モデルを、複数の変数間における因果関係を示した因果情報、いわゆる因果グラフとして示している。図3に示すように、因果グラフは、目的変数である隠れノードL1~L5ごとに推定される。図3では、隠れノードL1、L5、説明変数であるXnについて、変換の因果の向きを矢印(原因→結果)で示している。すなわち、図3に示す因果グラフは、有向グラフである。また、図3に示す因果情報は、言い換えれば、確率・統計的な原因及び結果の変数を矢印でつないだ確率分布を伴うグラフィカルモデルの情報である。
なお、図3に示す因果グラフは、因果情報の一例であり、因果情報は、変数間の因果関係を一覧にした情報であってもよく、複数の変数間における因果関係が把握できる情報であればよい。
因果モデル推定部132が推定する因果モデルに含まれる入力変数のうち、目的変数である隠れノードLmへ到達するまでのパス(矢印の数)が少なく、隠れノードLmとの距離が近い入力変数ほど、目的変数との因果関係が強い。隠れノードLmと直接グラフ上で繋がった変数は、Lmに対して間接的な原因ではなく直接的な影響を与える原因の変数であるため、重要変数として優先的に抽出されるようにしてもよい。
例えば、図3に示す隠れノードL1の因果モデルでは、入力変数X10から隠れノードL1へと向かう矢印がなく、入力変数X10は、隠れノードL1に対して因果関係がなく、条件付き独立の関係にあることがわかり、疑似相関の関係にあることがわかる。なお、入力変数X10の、従来の方法により算出した寄与度や相関は、大きくなることがあるため、従来の方法のように寄与度や相関の大きさから疑似相関を判断することは困難である。また、入力変数X3は、隠れノードL1と1つの矢印で接続される。すなわち、入力変数X3は、隠れノードL1に直接接続している。一方、入力変数X1は、隠れノードL1と入力変数X4を介して2つの矢印で接続される。すなわち、入力変数X1は、隠れノードL1と直接接続していない。このことは、入力変数X3の方が入力変数X1より隠れノードL1との直接的な因果関係が強いことを示している。そこで、例えば、情報処理装置100は、入力変数X1を抽出せず、入力変数X3を重要変数として優先的に抽出することができる。これによって、後述するように、冗長な説明変数を排除して重要変数同士の組み合わせ数を絞り計算効率をあげることや、似たような説明変数の種類を減らして予測の理由づけをユーザに分かりやすく提示することが可能になる。
なお、因果モデル推定部132が推定する因果モデルには、隠れノードLmと因果関係にある入力変数が含まれるようにしてもよい。換言すると、隠れノードLmに対して条件付き独立でない入力変数が、因果モデルに含まれ、条件付き独立である入力変数は因果モデルには含まれない。このように、因果モデル推定部132は、疑似相関のない入力変数で、隠れノードLmの因果モデルを生成し得る。
(選択部133)
図1に戻る。選択部133は、因果モデル推定部132が推定した因果モデルに基づき、入力変数の中から隠れノードLmを説明するための変数を選択する。かかる変数は、隠れノードLmにおける演算結果に対する貢献度が高く、演算結果に寄与する変数であると言える。そのため、かかる変数を、重要変数とも記載する。
図1に戻る。選択部133は、因果モデル推定部132が推定した因果モデルに基づき、入力変数の中から隠れノードLmを説明するための変数を選択する。かかる変数は、隠れノードLmにおける演算結果に対する貢献度が高く、演算結果に寄与する変数であると言える。そのため、かかる変数を、重要変数とも記載する。
選択部133は、各隠れノードLmの因果モデルから、隠れノードLmに因果モデルのネットワークで直接つながっている因子(入力変数)群{Xmj}を抽出する。Xmjは、式(1)に示すように、変数群DI(Lm)の部分集合であり、隠れノードLmの因果モデルに属する入力変数Xjを示している。
なお、選択部133は、隠れノードLmに直接つながる全ての因子を重要変数として選択してもよく、一部の因子を選択するようにしてもよい。例えば、選択部133は、隠れノードLmに直接つながる因子群(重要変数候補){Xmj}の数がしきい値TH1以下であれば、全ての因子群を重要変数として選択する。一方、因子群{Xmj}の数がしきい値TH1より多ければ、選択部133は、重要変数候補と、目的変数との関係性の強さに応じて、重要変数候補の中からS個の入力変数を重要変数として選択する。
あるいは、選択部133は、因子群{Xmj}のうちのP個の入力変数の組み合わせ候補と、目的変数との関係性の強さに応じてP個の入力変数の組み合わせをS個選択するようにしてもよい。選択部133は、P個の入力変数及び目的変数の関係性の強さを示す第1の情報を計算し、第1の情報が大きいS個の組み合わせに含まれる各入力変数を重要変数として選択する。
第1の情報は、重要変数候補の組み合わせと、目的変数との関係性の強さを示す指標である。第1の情報は、エントロピー、相互情報量、相関係数、偏相関係数、検定のp値、その他の独立性、若しくは条件付き独立性の統計的尺度、又はそれらの組み合わせに基づいて計算される、関係性の強さを示す値である。かかる値により、結合効果が定量化される。かかる値が大きいことは結合効果が大きいことを意味し、小さいことは結合効果が小さいことを意味する。
ここで、複数の入力変数が、入力変数単体での影響とは異なる影響を、ひとつのある着目変数に与え得る。ある着目変数とは、分析対象として着目される変数であり、ここでは隠れノードLmを指す。このような効果を、結合効果と称する。
以下では、第1の情報を、結合効果の第1の指標Jとも称する。目的変数(着目変数)をL、重要変数候補をXn1、Xn2(換言するとP=2)とすると、Xn1、Xn2及びLにおける第1の指標Jは、式(3)のように計算され得る。
J=H(L|Xn1)-H(L|Xn1,Xn2)
=I(L;Xn2|Xn1) …(3)
=I(L;Xn2|Xn1) …(3)
ここで、Hは情報理論における情報エントロピーであり、Iは情報エントロピーを基礎として定義される相互情報量である。上記数式(3)におけるH(L|Xn1)は、Xn1を条件とするLの条件付き情報エントロピーであり、H(L|Xn1,Xn2)は、同様にXn1とXn2を条件とするLの条件付き情報エントロピーである。また、I(L;Xn2|Xn1)は、Xn1を条件とするLとXn2の相互情報量であり、上記数式(3)は恒等的に成立する(以下では情報エントロピーを単にエントロピーと記す)。上記数式(3)によれば、結合効果の第1の指標Jは、着目変数Lと説明変数Xn1との2変数間の相関値と比較して、新たに加わった説明変数Xn2によってどれだけ情報量が増えたかを示す指標である。上記数式(3)に示すように、2個の重要変数候補の組み合わせの場合、結合効果の第1の指標Jは条件付き相互情報量となっている。
第1の指標Jは、式(4)のように計算されてもよい。
J=I(L;Xn2|Xn1)-I(L;Xn2) …(4)
上記数式(4)によれば、結合効果の第1の指標Jは、上記数式(3)に示した値から、着目変数Lと新たに加わった説明変数Xn2との2変数間の相関量が減算された値である。
第1の情報は、第1の指標Jの代わりに第2の指標ACMI(Averaged conditional mutual information)として、式(5)~式(7)のように計算されてもよい。
上述したように、I(L;Xn2|Xn1)は、Xn1を条件とするLとXn2の相互情報量である。また、I(L;Xn1|Xn2)は、Xn2を条件とするLとXn1の相互情報量である。第2の指標ACMIは、これら条件付き相互情報量の平均値である。
なお、第2の指標ACMIは、着目変数Lに対する重要変数候補Xn1、Xn2の平均的な寄与を示している。インスタンスごとの寄与は、式(8)に示す第3の指標CEで表され得る。
3個の重要変数候補Xn1、Xn2、Xn3の組み合わせ、及び、目的変数Lにおける結合効果の第2の指標ACMIは、式(9)~式(12)のように計算され得る。
選択部133は、算出した第1の情報(例えば第2の指標ACMI)が大きい順に、S個の組み合わせに含まれる重要変数候補を、重要変数として選択する。
なお、選択部133は、上述したように、隠れノードLmに因果モデルのネットワークで直接つながっている因子(入力変数)群{Xmj}を重要変数候補として第1の情報を算出する。
これは、式(13)で表されるエントロピーの性質、及び、因果モデル(グラフィカルモデル)の条件付き独立という特性に基づくものである。すなわち、隠れノードLmに因果モデルのネットワークで直接つながっていない因子群の組み合わせから算出される第1の情報が、因子群{Xmj}の組み合わせから算出される第1の情報より小さくなることが明らかであるためである。
そのため、情報処理装置100は、隠れノードLmに因果モデルのネットワークで直接つながっている因子(入力変数)群{Xmj}を重要変数候補として第1の情報を算出すればよく、第1の情報を算出する変数の数を低減することができる。
(評価部134)
評価部134は、選択部133が選択した重要変数が目的変数(着目変数)に与える影響度を評価する。着目変数が隠れノードLmの場合、評価部134は、隠れノードLmに与える重要変数の影響度を算出し得る。あるいは、評価部134は、隠れノードLmと直接接続する出力変数Yに与える重要変数の影響度を算出し得る。かかる影響度は、着目変数と重要変数との関係性の強さを示す強度情報の一例である。
評価部134は、選択部133が選択した重要変数が目的変数(着目変数)に与える影響度を評価する。着目変数が隠れノードLmの場合、評価部134は、隠れノードLmに与える重要変数の影響度を算出し得る。あるいは、評価部134は、隠れノードLmと直接接続する出力変数Yに与える重要変数の影響度を算出し得る。かかる影響度は、着目変数と重要変数との関係性の強さを示す強度情報の一例である。
隠れノードLmに直接つながっている因子群{Xmj}を数値変数として扱うとすると、隠れノードLmは、偏相関を考慮した因果的回帰式(構造式)として式(14)に示すように表現され得る。
なお、αmjは、回帰係数として計算される。また、βmは、隠れノードLmにおける定数である。
あるいは、因子群{Xmj}をカテゴリ変数として扱うとすると、隠れノードLmは、条件付き確率分布として式(15)に示すように表現され得る。なお、ωmlmは、ニューロンの重みを表している。
なお、出力変数Yは、式(16)、式(17)に基づいて算出される。なお、フィルター関数は内部に含まれるものとする。また、ここでは因子群{Xmj}を数値変数としている。
重要変数Xjの影響度は、重要変数Xjに対する重みとして算出され得る。重要変数Xjに対する重みは、以下の式(18)に示すように表現され得る。なお、上述したように、αmjは、回帰係数として計算される。
ここで、評価部134は、複合的な影響度を算出し得る。複合的な影響度は、上述した結合効果に相当する。例えば、評価部134は、以下の式(19)に基づいて重要変数Xn1、Xn2の複合的な影響度を算出する。
ここで、CE(xn1、xn2)は、式(8)に示す第3の指標CEであり、nm(x)は、ニューラルネットワークの隠れノードLmの値であり、入力変数全体で決まる値である。また、n0は定数である。式(19)では、図2に示すニューラルネットワーク、すなわちm=1~5の場合を例に示している。
なお、上述した影響度以外にも、評価部134は、重要変数と着目変数とが疑似相関でない根拠として、重要変数と着目変数との偏相関の度合いを評価するようにしてもよい。例えば、評価部134は、重要変数と着目変数の偏相関の度合いとして条件付き独立性検定のp値を算出することで偏相関を調べ得る。すなわち、評価部134は、上述した強度情報としてp値を算出し得る。
あるいは、評価部134は、最近接ノード群それぞれの重要変数の条件付き確率をインスタンスごとに算出し得る。これは、例えば、出力(予測)結果に対する理由としてより、ニューラルネットワークそのものの分析結果としてユーザに提示され得る。かかる点については、適用例にて後述する。
選択部133が選択した重要変数及び評価部134が算出した影響度は、例えば、入出力制御部131によって、ユーザに提示される。例えば、入出力制御部131は、選択した重要変数と影響度とを組み合わせてユーザに提示する。重要変数が複数ある場合、入出力制御部131は、例えば影響度の大きい順にリストとしてユーザに提示する。また、予測結果の理由として、複数の重要変数の組み合わせをユーザに提示する場合、入出力制御部131は、複数の重要変数の組み合わせと、当該組み合わせにおける複合的な影響度と、を対応付けてユーザに表示する。なお、具体的な提示例については、適用例にて後述する。
(介入効果算出部135)
介入効果算出部135は、選択部133が選択した重要変数に介入することで目的変数に生じる介入効果の計算を行う。ここでの目的変数は、最近接ノード群でもよく、出力変数でもよい。介入効果算出部135は、最近接ノード群及び出力変数の少なくとも一方の介入効果を計算し得る。
介入効果算出部135は、選択部133が選択した重要変数に介入することで目的変数に生じる介入効果の計算を行う。ここでの目的変数は、最近接ノード群でもよく、出力変数でもよい。介入効果算出部135は、最近接ノード群及び出力変数の少なくとも一方の介入効果を計算し得る。
介入効果算出部135は、重要変数の値を意図的に変化させる(重要変数に介入する)ことで、目的変数が受ける因果的な影響を計算する。
入出力制御部131は、例えば、介入効果算出部135が算出した介入効果を、介入した重要変数と対応付けてユーザに提示する。入出力制御部131は、評価部134の評価結果とともに介入効果をユーザに提示する。あるいは、入出力制御部131が、ユーザからの指示に応じて介入効果をユーザに提示するようにしてもよい。この場合、例えば、入出力制御部131が提示した重要変数をユーザが選択することで、介入効果算出部135が選択した重要変数の介入効果を算出し、入出力制御部131が算出結果を提示する。
なお、ここでは、情報処理装置100の介入効果算出部135が重要変数の介入効果を算出するとしたが、これに限定されない。例えば、情報処理装置100が、重要変数の選択及び当該重要変数の提示を行い、介入効果の算出を他の装置が行うようにしてもよい。このように、情報処理装置100が介入効果の算出を行わない場合、図1に示す介入効果算出部135は省略され得る。
<<3.分析処理>>
図4は、本開示の実施形態に係る情報処理装置100が実行する予測モデルの分析処理の流れを示すフローチャートである。
図4は、本開示の実施形態に係る情報処理装置100が実行する予測モデルの分析処理の流れを示すフローチャートである。
図4に示すように、情報処理装置100の因果モデル推定部132は、分析を行う予測モデルを取得する(ステップS101)。
次に、因果モデル推定部132は、最近接ノード群の各ノードについて因果モデルを推定する(ステップS102)。
選択部133は、因果モデル推定部132が推定した各因果モデルの着目変数に最も近接する、換言するとネットワークにおいて直接接続する入力変数から重要変数を選択する(ステップS103)。
評価部134は、選択部133が選択した重要変数について、着目変数に対する当該重要変数の影響度を評価する(ステップS104)。このとき、評価部134は、複数の重要変数の組み合わせについて、着目変数に対する当該組み合わせによる複合的な影響度(結合効果)を評価し得る。
入出力制御部131は、選択部133が選択した重要変数に関する情報を出力する(ステップS105)。このとき、入出力制御部131は、当該重要変数に関する情報に、評価部134が評価した影響度に関する情報、及び、重要変数に介入した場合の介入効果に関する情報を対応付けて出力してもよい。なお、介入効果は、介入効果算出部135によって算出される。
<<4.適用例>>
<4.1.製造系データ分析システムへの適用例>
ある製品の製造工場では、多数の測定器及びセンサにより情報が取得されている。例えば、製造工場の外気温、室温及び湿度、装置が使われた際の状態を示す電圧、電流、電力及び振動波形など、様々な物理量が測定され、時刻と紐付けられて例えばデータベースに格納される。このように、多数の測定器及びセンサは、機器の動作環境又は動作状態に関する情報を取得する。
<4.1.製造系データ分析システムへの適用例>
ある製品の製造工場では、多数の測定器及びセンサにより情報が取得されている。例えば、製造工場の外気温、室温及び湿度、装置が使われた際の状態を示す電圧、電流、電力及び振動波形など、様々な物理量が測定され、時刻と紐付けられて例えばデータベースに格納される。このように、多数の測定器及びセンサは、機器の動作環境又は動作状態に関する情報を取得する。
また、製造工場での異常発生の有無は記憶されており、当該異常発生の有無を教師とし、取得した情報を入力データとして製造工場での異常発生を予測する予測モデルが例えばニューラルネットワークとして構築されているものとする。データ分析システムにおいて、当該予測モデルによる異常発生の予測が行われている。従来のデータ分析システムでは、予測モデルによる予測結果を表示するに過ぎず、ユーザは予測結果の理由を知ることが難しい。
そこで、データ分析システムに、提案技術に係る情報処理装置100を適用することで、データ分析システムが、予測結果に対して予測の理由をユーザに提示できるようにする。
まず、情報処理装置100は、既に構築されている予測モデルに対して因果モデルを生成する。ここでは、異常発生の有無を示す出力変数に対して因果モデルを生成するものとする。
図5は、本開示の実施形態の適用例に係る情報処理装置100が推定する因果モデルの一例について説明するための図である。
例えば、情報処理装置100の因果モデル推定部132は、過去一日の最大電圧のレベルを示す測定量Aと、装置Aのリセットからの経過時間と、振動発生頻度を示す測定量Bの3つが、出力である異常発生の有無と直接的に因果関係があると推定する。
ここで、測定量Bが異常発生有無に対して単独の原因となるものとする。なお、測定量Aは単独では原因とならず、最大電圧レベルが3つのレベル(high、middle、low)のうち、highレベルにあり、かつリセットからの経過時間がYY時間以上になる場合に限って異常が発生するものとする。
また、測定量A、Bは湿度に依存して変化する。なお、工場内では、湿度の影響を取り除く措置がとられておらず、データ分析システムは、湿度の影響を受ける測定量C、Dに関する情報も取得するが、測定量C、Dは、出力(異常発生の有無)に対して影響を与えないものとする。
また、データ分析システムは、測定量Fと、測定量F及び測定量Aの影響を受けて変動する測定量Eに関する情報を取得する。
図5に示すように、因果モデル推定部132が、予測モデルの因果関係を推定すると、異常発生の有無に対して単独の原因となる測定量A、B、装置Aのリセットからの経過時間に加え、湿度や測定量C、D、Eについても、出力に対して相関があると推定する。
そのため、例えば、相関関係に基づいて予測結果の理由を出力するシステムでは、異常発生の有無に対して因果関係の低い湿度や測定量C、D、Eを出力結果に対する理由として提示する恐れがある。
例えば、ユーザが、提示された情報に基づいて湿度や測定量C、D、Eに対して介入を行ったとしても、介入の効果が得られない恐れがある。あるいは、ユーザが介入を行わなくても、提示された情報が異常発生の原因であるという誤った知識を蓄積してしまう恐れがあり、ユーザによる製造工程の把握を阻害してしまう恐れがある。
一方、提案技術では、情報処理装置100は、目的変数(ここでは出力)に対して、真に近いと推定した原因(入力変数)を用いて理由をユーザに提示する。そのため、情報処理装置100は、より適切な入力変数を理由として提示することができる。これにより、情報処理装置100は、介入効果のより高い理由をユーザに提示することができ、ユーザによる誤った知識の蓄積を抑制することができる。
また、提案技術では、情報処理装置100は、複数の入力変数を組み合わせて、目的変数に対する理由(複合的な効果)としてユーザに提示することができる。情報処理装置100は、入力変数単独の効果を加算して、複数の入力変数の効果を算出するのではなく、組み合わせによる結合状態に応じて効果(結合効果)を算出する。そのため、情報処理装置100は、予測結果に対する理由としてより適切な入力変数の組み合わせをユーザに提示することができる。
以下、図6~図8を用いて、本開示の実施形態の適用例に係るデータ分析システムによる分析処理の一例を説明する。
なお、予測結果に対する理由は、予測結果と同時にユーザに提示することができる。そこで、ここでは、データ分析システムが予測結果を提示すると同時に、例えばポップアップ等を用いて情報処理装置100が、当該予測に対する理由をユーザに提示するものとする。
なお、予測モデルによる予測は、例えばデータ分析システムに含まれる予測装置(図示省略)によって行われ、予測結果は、当該予測装置によって表示装置(図示省略)に表示されてもよい。このとき、情報処理装置100は、予測結果の理由として選択した入力変数に関する情報を、ユーザが予測結果及び当該理由の両方を確認できるように提示することができる。
上述したように、情報処理装置100が理由として提示する入力変数は、複数であってもよい。このとき、情報処理装置100は、あらかじめ決められた数の入力変数を組み合わせて結合効果を算出してもよく、ユーザから組み合わせる入力変数の数を受け付けてもよい。
図6は、本開示の実施形態の適用例に係る情報処理装置100により出力されるUI画面の一例を示す図である。
情報処理装置100は、例えば、図6に示すUI画面を表示することで、組み合わせる入力変数の数の候補をユーザに提示する。図6では、ユーザが選択し得る変数の数を1変数から3変数としているが、組み合わせとして選択し得る変数の数は4以上であってもよい。
例えば、ユーザは、UI画面の該当箇所をクリックすることで、組み合わせる入力変数の数を選択する。このように、情報処理装置100は、入力変数の組み合わせを決定するためのUI画面(インターフェース)を出力し、ユーザはUI画面(インターフェース)に対応する操作を行う。情報処理装置100は、当該操作に基づき、ユーザが選択した数の入力変数の組み合わせを決定する。情報処理装置100は、決定した組み合わせに対する理由の表示を選択し、当該組み合わせの影響度を算出する。情報処理装置100は、選択した入力変数の組み合わせと影響度とを組み合わせて、予測結果とともにユーザに提示する。
まず、ユーザが1変数を選択した場合について説明する。
情報処理装置100は、例えば、推定した因果モデル(図5参照)において、出力変数である異常発生有無に直接接続する3つの入力変数(過去一日の最大電圧のレベルを示す測定量Aと、装置Aのリセットからの経過時間と、振動発生頻度を示す測定量B)を重要変数として選択し、影響度を算出する。
情報処理装置100は、重要変数に関する情報と、算出した影響度と、を対応付けてユーザに提示する。
図7は、本開示の実施形態の適用例に係る情報処理装置100により出力されるUI画面の一例を示す図である。図7では、ユーザが1変数を選択した場合に、情報処理装置100が出力するUI画面の一例を示している。なお、図7で示す重要度は、上述した影響度に相当する。
情報処理装置100は、例えば重要度が大きい順にソートして重要変数に関する情報をユーザに提示する。図7の例では、情報処理装置100は、重要度が一番大きい「0.21」である測定量Aを「最大電圧のレベル」とし、重要度が二番目に大きい「0.16」である測定量Bを「振動発生頻度」として表示する。また、情報処理装置100は、重要度が三番目に大きい「0.14」である装置Aのリセットからの経過時間を「リセットからの経過時間」として表示する。
このように、情報処理装置100が、重要変数と重要度とを対応付けて、重要度の大きい順に一覧にして表示することで、予測結果の理由をわかりやすくユーザに提示することができる。このとき、情報処理装置100は、出力変数との因果関係の強さを、重要度のような定量的指標を用いてユーザに提示することで、より説得力のある理由をユーザに提示することができる。
なお、図7に示すように、情報処理装置100は、重要度の大きさ(絶対値)に応じて、表の背景色を変更して一覧を表示するようにしてもよい。例えば、情報処理装置100は、重要度が大きい程、濃い背景色を選択して一覧を表示する。このように、情報処理装置100が重要度に対応する表示画面上の順序及び色を決定することで、ユーザがより容易に重要変数の重要度を認識できるようになる。なお、これは、後述する図8及び図9でも同様である。
まず、ユーザが2変数を選択した場合について説明する。
情報処理装置100は、例えば、推定した因果モデル(図5参照)において、出力変数である異常発生有無に直接接続する3つの入力変数(過去一日の最大電圧のレベルを示す測定量Aと、装置Aのリセットからの経過時間と、振動発生頻度を示す測定量B)から2つを選んだ組み合わせを重要変数の組み合わせとして選択する。
情報処理装置100は、選択した重要変数の組み合わせによる複合的な影響度を算出する。情報処理装置100は、重要変数の組み合わせに関する情報と、算出した複合的な影響度と、を対応付けてユーザに提示する。
図8は、本開示の実施形態の適用例に係る情報処理装置100により出力されるUI画面の一例を示す図である。図8では、ユーザが2変数を選択した場合に、情報処理装置100が出力するUI画面の一例を示している。なお、図8で示す重要度は、上述した複合的な影響度に相当する。
情報処理装置100は、例えば重要度が大きい順にソートして重要変数に関する情報をユーザに提示する。図8の例では、測定量A、Bの組み合わせの重要度が一番大きく「0.73」であるため、情報処理装置100は、測定量A、Bの組み合わせに関する情報「最大電圧レベル」及び「振動発生頻度」を予測結果の理由とし、重要度と対応付けて表示する。
また、測定量A及び装置Aのリセットからの経過時間の組み合わせの重要度が二番目に大きい「0.04」である。そこで、情報処理装置100は、測定量A及び装置Aのリセットからの経過時間の組み合わせに関する情報「最大電圧レベル」及び「リセットからの経過時間」を予測結果の理由とし、重要度と対応付けて表示する。
また、測定量B及び装置Aのリセットからの経過時間の組み合わせの重要度が三番目に大きい「0.01」である。そこで、情報処理装置100は、測定量B及び装置Aのリセットからの経過時間の組み合わせに関する情報「振動発生頻度」及び「リセットからの経過時間」を予測結果の理由とし、重要度と対応付けて表示する。
このとき、情報処理装置100は、1変数の場合の重要度を単に加算して複合的な重要度を算出するのではなく、疑似相関を考慮して複合的な重要度を算出する。そのため、情報処理装置100は、理由として2変数を組み合わせる場合でもより適切な重要度をユーザに提示することができる。
なお、ここでは、出力変数と因果グラフにおいて直接接続する入力変数の数が3つであるとし、情報処理装置100が3つの入力変数全てを重要変数として選択するとしたが、これに限定されない。例えば、目的変数と因果グラフにおいて直接接続する入力変数の数が多い場合、情報処理装置100は、上述した第1の情報等を用いて重要変数として選択する入力変数の数や、重要変数の組み合わせとして選択する入力変数の数を限定するようにしてもよい。
また、上述した例では、情報処理装置100が、固定数の変数の組み合わせを理由としてユーザに提示する場合について説明したが、これに限定されない。例えば、統一的な指標として相対的な比較を行える複合的な影響度を新たに定義することで、情報処理装置100が、異なる個数の変数を組み合わせた場合の複合的な影響度を相対的に比較し得る。これにより、情報処理装置100は、異なる個数の変数の組み合わせを理由としてユーザに提示できるようになる。
例えば、情報処理装置100は、組み合わせる変数の数によらない統一的な第1の情報として、式(8)の第3の指標CEに変えて、第4の指標CEpとして、以下の式(20)~式(22)を算出する。なお、pは、組み合わせに含まれる変数の個数を、lは、目的変数のインスタンス、xn1~xn3は、組み合わせに含まれる入力変数のインスタンスのカテゴリ値を表している。
また、この場合、情報処理装置100は、組み合わせる変数の数によらない統一的な第1の情報として、式(7)の第2の指標ANCIに変えて、第5の指標ANCIpとして、以下の式(23)~式(25)を算出し得る。
なお、pは、組み合わせに含まれる変数の個数を、Lは、目的変数、Xn1~Xn3は、組み合わせに含まれる入力変数を表している。
なお、ここでは、組み合わせる変数の数PがP=1~3個の場合の第4の指標CEp及び第5の指標ANCIpの一例を示しているが、組み合わせる変数の数は1~3個に限定されず、4個以上であってもよい。
このように、情報処理装置100が、組み合わせる変数によらない統一的な指標を用いることで、所定数以下の変数の組み合わせを理由としてユーザに提示できるようになる。
この点について、上記データ分析システムの例で説明する。ここでは、情報処理装置100が3個以下の入力変数の組み合わせを理由として提示する場合について説明する。なお、組み合わせる入力変数の最大値は、ユーザが指定してもよく、情報処理装置100が決定してもよい。
情報処理装置100は、例えば、推定した因果モデル(図5参照)において、出力変数である異常発生有無に直接接続する3つの入力変数(過去一日の最大電圧のレベルを示す測定量Aと、装置Aのリセットからの経過時間と、振動発生頻度を示す測定量B)から1~3つを選択し、選択した入力変数の組み合わせを重要変数の組み合わせとする。
情報処理装置100は、上記式(20)~式(22)を用いて選択した重要変数の組み合わせによる複合的な影響度を算出する。情報処理装置100は、重要変数の組み合わせに関する情報と、算出した複合的な影響度と、を対応付けてユーザに提示する。
図9は、本開示の実施形態の適用例に係る情報処理装置100により出力されるUI画面の一例を示す図である。図9では、3個以下の変数を組み合わせた場合に、情報処理装置100が出力するUI画面の一例を示している。なお、図9で示す重要度は、上述した複合的な影響度に相当する。
情報処理装置100は、例えば重要度が大きい順にソートして重要変数に関する情報をユーザに提示する。図9の例では、測定量A、Bの組み合わせの重要度が一番大きく「0.73」であるため、情報処理装置100は、測定量A、Bの組み合わせに関する情報「最大電圧レベル」及び「振動発生頻度」を予測結果の理由とし、重要度と対応付けて表示する。また、情報処理装置100は、組み合わせに含まれる重要変数の数をセット数としてユーザに提示する。
また、測定量Aの重要度が二番目に大きい「0.21」である。そこで、情報処理装置100は、測定量Aに関する情報「最大電圧レベル」を予測結果の理由とし、組み合わせに含まれる重要変数の数(セット数)「1」及び重要度「0.21」と対応付けて表示する。
図9に示すように、測定量A、B及び装置Aのリセットからの経過時間の組み合わせの重要度は、「0.01」である。そこで、情報処理装置100は、測定量A、B及び装置Aのリセットからの経過時間の組み合わせに関する情報「最大電圧レベル」、「振動発生頻度」及び「リセットからの経過時間」を予測結果の理由とし、セット数「3」及び重要度と対応付けて表示する。
このように、情報処理装置100は、組み合わせに含まれる重要変数の数によらず統一的に比較が可能な指標を第1の情報とすることで、異なる個数の重要変数を含む組み合わせを理由としてユーザに提示することができる。
なお、組み合わせに含める重要変数の数を可変とすると、重要度(影響度)を算出する組み合わせの数が増え、情報処理装置100の処理負荷が増加してしまう恐れがある。その場合、情報処理装置100は、上述した式(23)~(25)に基づいて、組み合わせる重要変数の数を選択することで、処理負荷の増加を抑制することができる。
上述したように、本開示の実施形態に係る情報処理装置100は、介入効果算出部135(図1参照)を備え、介入効果を算出する機能を有する。
そのため、例えば、ユーザが提示された理由の1つを一覧から選択することで、情報処理装置100が、選択した理由に含まれる入力変数に介入した場合の効果を算出し、ユーザに提示するようにしてもよい。この場合、例えば、ユーザが選択した入力変数に対する具体的な介入パターンを指示できるようにしてもよい。
例えば、上述したデータ分析システムにおいて、予測結果の理由として、装置Aのリセットからの経過時間が挙げられたものとする。これにより、ユーザは、装置Aをリセットしてからの経過時間が長いため、異常が発生する可能性が高いと予測されたと理解し得る。そこで、ユーザは、当該経過時間に介入することで、どのくらいの介入効果が得られるか、情報処理装置100の介入効果を算出する機能を用いて知ることができる。このとき、ユーザは、例えば、装置Aをリセットする時間間隔を15分短くすることで、どれくらいの介入効果、すなわち異常発生確率が減少するかを、情報処理装置100に算出させることができる。
このように、情報処理装置100が、予測結果の理由をユーザに提示することで、ユーザが具体的な介入パターンを検討することができる。また、情報処理装置100が、ユーザが検討した介入パターンの効果を算出することで、ユーザは、介入効果と、介入の実行にかかるコストとの兼ね合いを検討して、介入を実行するか否かを判定することができる。
<4.2.再犯判断システムへの適用例>
例えば、ある人物のデータに基づき、当該人物が再犯を行うか否かを判定する再犯判断システムに、提案技術を適用する場合について説明する。
例えば、ある人物のデータに基づき、当該人物が再犯を行うか否かを判定する再犯判断システムに、提案技術を適用する場合について説明する。
再犯判断システムでは、例えば、人物の年齢、経歴(例えば、犯罪歴(数)、及び、勾留期間など)を入力として、当該人物が再犯を行うか否かを判定する。
図10は、再犯判断システムの予測モデルの因果関係を説明するための図である。ある人物が犯罪の再犯を起こすか否かは、図10に示すような因果関係を有する可能性がある。
図10に示すように、再犯するかどうか(以下、再犯有無とも記載する)に対して、年齢と再犯有無とは負の相関関係にあると考えられる。すなわち、年齢が高いほど再犯の可能性が低く、年齢が低いほど再犯の可能性が高いと考えられる。
また、犯罪履歴(犯罪数)と再犯有無とは正の相関関係にあると考えられる。すなわち、犯罪履歴が多いほど、再犯の可能性が高いと考えられる。
犯罪履歴と年齢とは正の相関関係にあると考えられる。すなわち、年齢が高いほど、犯罪履歴が多くなると考えられる。
そのため、年齢は、交絡と呼ばれる役割となっており、バイアスを発生させている。そのため、再犯の有無と犯罪履歴とは、疑似相関の関係にある可能性があるため、再犯の有無と犯罪履歴との相関関係は、年齢の影響を取り除いて推定することが望ましい。この年齢の影響は、偏相関の大きさ、あるいは条件付き相互情報量で表現される。例えば、偏相関係数がゼロとみなせるのか統計的検定のp値を用いて指標とすることで、情報処理装置100は、疑似相関を排除した因果モデルを生成し得る。すなわち、情報処理装置100は、出力変数に対して、偏相関係数がゼロでない、あるいは、条件付き独立でない入力変数を、出力変数と因果関係にある入力変数として因果モデルを生成する。
ここで、上述した再犯判断システムが有する予測モデルが、最近接ノード群を5つ(L1~L5)とするニューラルネットワークとして構築されているものとする。
情報処理装置100は、当該予測モデルの最近接ノードL1~L5のそれぞれについて因果モデルを推定する。情報処理装置100は、年齢、犯罪履歴(数)、勾留期間などと、各最近接ノードL1~L5とが紐付いた因果モデルを推定する。
情報処理装置100は、推定した因果モデルに基づき、再犯の予測結果とともに理由を提示する。
また、情報処理装置100が、最近接ノードの因果モデルを用いて理由を推定する場合に、最近接ノードL1~L5のレベルの確率を算出し、ユーザに提示するようにしてもよい。
図11は、本開示の実施形態に係る情報処理装置100が算出する最近接ノードL1のレベルの条件付き確率を示す図表である。
図11では、情報処理装置100は、犯罪履歴を、3件をしきい値として2つに分け、年齢を、27歳と37歳とをしきい値として3つに分けて条件付き確率を算出している。また、情報処理装置100は、L1のレベルを、0.37と1.578とをしきい値として3つのレベル(high、middle、low)に分けて条件付き確率を算出している。
例えば、再犯判断システムが、ある人物(インスタンス)で、再犯の有無の可能性を予測モデルで予測するとする。予測する人物の犯罪履歴が5件であった場合、犯罪履歴が3件以上で、最近接ノードL1がhighレベルとなる確率の平均は、30.4%となる。この確率は、年齢によって3.9%から39.7%までの分布をとり、年齢によって確率に差がでる。予測する人物の年齢が61歳であった場合、最近接ノードL1がhighレベルとなる確率は39.7%となる。一方、年齢だけに着目すると、61歳で最近接ノードL1がhighレベルとなる確率の平均は、13%となる。このように、年齢だけに着目すると最近接ノードL1がhighレベルとなる確率は、再犯履歴を考慮した場合と比較して大きく低下してしまう。
このように、複数の入力変数が複合的に目的変数(ここでは最近接ノード)に影響を与える。情報処理装置100は、これら複数の入力変数を目的変数に影響を与える理由としてユーザに提示することができる。
特に、入力変数と目的変数との間に非線形関係がある場合や、特定の入力変数の組み合わせが目的変数に大きな影響を与える場合などにおいて、情報処理装置100が複合的な影響度を算出することで、より適切な理由をユーザに提示することができるようになる。
上述したように、情報処理装置100が最近接ノードL1~L5のレベルの確率を算出し、ユーザに提示することで、ユーザは、最近接ノードL1~L5に影響を与える入力変数を確認することができる。これにより、ユーザは、予測モデルの分析をより容易に行うことができるようになる。
上述した犯罪履歴のように、入力変数には、出力変数に対して正の相関を有する、すなわち、最終的な予測結果の出力をサポートする正の理由となる変数が含まれ得る。また、上述した年齢のように、入力変数には、出力変数に対して負の相関を有する、すなわち、最終的な予測結果の出力をサポートする負の理由となる変数が含まれ得る。
そこで、情報処理装置100が、予測結果の理由として、正の理由となる重要変数と、負の理由となる重要変数と、を分けてユーザに提示するようにしてもよい。すなわち、情報処理装置100が、出力変数(又は、目的変数)に対して正の相関を有する入力変数の組み合わせによる複合的な影響度と、負の相関を有する入力変数の組み合わせによる複合的な影響度と、をそれぞれ算出するようにしてもよい。
より具体的に、例えば予測モデルが二値分類・識別を行うニューラルネットワークである場合、各ノード(ニューロン)の重みwに正負の数値が与えられる。正の数値は、二値のうちの一方を、負の数値は他方を選ぶように、それぞれ発火して引き寄せるニューロンがあらかじめ学習により決定される。
具体的な1回の予測に対して、各ニューロンは、出力を正の方向へ引き寄せるニューロンと、負の方向へ引き寄せるニューロンとに分けられる。そのため、情報処理装置100は、正負それぞれに分けて理由の重み付けを算出し得る。例えば、最終出力Yが出力する二値を「1」、「0」とする。上記再犯判断システムの場合、例えば「再犯有」が「1」、「再犯無」が「0」にそれぞれ対応し得る。この場合、情報処理装置100は、Y=1側に引く、すなわち、最終出力Yが1となる入力変数の重みを、式(26)を用いて算出する。また、情報処理装置100は、Y=0側に引く、すなわち、最終出力Yが0となる入力変数の重みを、式(27)を用いて算出する。
なお、式(26)に示すPosは、正の重みwを持つ最近接ノード(最終層ニューロン)の集合を表し、式(27)に示すNegは、負の重みwを持つ最近接ノードの集合を表す。情報処理装置100は、正の方向へ引き寄せる理由の変数もしくはその組み合わせを評価するために式(26)を用い得る。情報処理装置100は、負の方向についても同様に式(27)を用い得る。
情報処理装置100は、式(28)に示すように、式(26)、式(27)の和を影響度EPとして算出することで、重要変数又は重要変数の組み合わせの理由としての重みを定量化して評価し得る。
影響度EPは、正の値又は負の値として算出され得る。そのため、情報処理装置100は、最終出力Yを正の方向に引き寄せる理由(重要変数)及び負の方向に引き寄せる理由(重要変数)のそれぞれをユーザに対して提示することができる。
<<5.その他の実施形態>>
上述した実施形態では、予測モデルがニューラルネットワークである場合について説明したが、これに限定されない。情報処理装置100が理由付けを行う予測モデルは、ニューラルネットワーク以外の機械学習器であってもよい。
上述した実施形態では、予測モデルがニューラルネットワークである場合について説明したが、これに限定されない。情報処理装置100が理由付けを行う予測モデルは、ニューラルネットワーク以外の機械学習器であってもよい。
例えば、予測モデルがランダムフォレストの場合、情報処理装置100は、出力変数を説明する入力変数を探すために、出力変数の原因となる因果モデルを1つ推定する。すなわち、情報処理装置100は、出力変数を目的変数として因果モデルを推定し、重要変数を選択する。なお、出力変数を目的変数とする以外、情報処理装置100が行う処理は、図4に示す処理と同じである。
このように、情報処理装置100は、ニューラルネットワークに限らず、機械学習によって生成される予測モデルの予測結果に対する理由をユーザに提示することができる。
また、上述した実施形態では、情報処理装置100が、影響度の高い重要変数をユーザに提示するとしたが、これに限定されない。例えば、情報処理装置100が、影響度の低い重要変数をユーザに提示するようにしてもよい。情報処理装置100は、着目変数と疑似相関にある入力変数を着目変数に影響を与えない入力変数として出力する。あるいは、情報処理装置100は、着目変数に対して条件付き独立である入力変数を出力するようにしてもよい。
このように、情報処理装置100が、着目変数に対して影響度の低い、例えば着目変数と疑似相関の関係にある入力変数をユーザに提示することで、ユーザは、予測結果に影響を与えない入力変数を知ることができる。
<<6.ハードウェア構成例>>
最後に、図12を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図12は、本実施形態に係る情報処理装置900のハードウェア構成の一例を示すブロック図である。なお、図12に示す情報処理装置900は、例えば、図1に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
最後に、図12を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図12は、本実施形態に係る情報処理装置900のハードウェア構成の一例を示すブロック図である。なお、図12に示す情報処理装置900は、例えば、図1に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図12に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インターフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図1に示す制御部130を形成し得る。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば、図1に示す入力部110を形成し得る。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図1に示す出力部120を形成し得る。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、制御部130により作成されたレポートや、分析処理の途中結果及び最終的な結果等を記憶し得る。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインターフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インターフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。本実施形態では、通信装置913は、入力部110及び/又は出力部120として機能し、制御部130に入力される情報を受信したり、制御部130から出力される情報を送信したりし得る。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<<7.まとめ>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図1に示した情報処理装置100の機能構成例のうち、制御部130が、入力部110及び出力部120とネットワーク等で接続されたサーバ等の装置に備えられていても良い。
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
機械学習を用いて生成された予測モデルであって、複数の入力変数を用いて予測結果を出力する前記予測モデルにおいて、前記入力変数と前記予測結果との疑似相関に基づき、複数の前記入力変数から、前記予測結果の理由となる前記入力変数を選択し、
選択した前記入力変数に関する情報を出力する、制御部、
を備える情報処理装置。
(2)
前記制御部は、前記予測結果と疑似相関の関係にない前記入力変数を前記理由となる前記入力変数として選択する、(1)に記載の情報処理装置。
(3)
前記制御部は、前記予測結果に対して条件付き独立にならない前記入力変数を前記理由となる前記入力変数として選択する、(1)又は(2)に記載の情報処理装置。
(4)
前記制御部は、前記理由として選択した前記入力変数と、前記予測結果と、の関係性の強さを示す強度情報を、選択した前記入力変数と対応付けて出力する、(1)~(3)のいずれか1つに記載の情報処理装置。
(5)
前記制御部は、前記予測結果の前記理由として、少なくとも2つの前記入力変数の組み合わせを選択する、(1)~(4)のいずれか1つに記載の情報処理装置。
(6)
前記制御部は、前記組み合わせに含まれる少なくとも2つの前記入力変数と、前記予測結果と、の関係性の強さを示す強度情報を、前記組み合わせに関する情報と対応付けて出力する、(5)に記載の情報処理装置。
(7)
前記制御部は、前記予測結果を示す出力変数を目的変数とし、複数の前記入力変数を説明変数として因果グラフを推定し、前記目的変数と直接因果関係にある前記説明変数から前記理由とする前記入力変数を選択する、(1)~(6)のいずれか1つに記載の情報処理装置。
(8)
前記制御部は、前記予測モデルに最も近い隠れ層に含まれる最近接ノードを目的変数とし、複数の前記入力変数を説明変数として、前記最近接ノードに関する因果グラフを推定し、前記目的変数と直接因果関係にある前記説明変数から前記理由とする前記入力変数を選択する、(1)~(6)のいずれか1つに記載の情報処理装置。
(9)
前記制御部は、前記最近接ノードのうち正の重みを有する前記最近接ノードに関する前記因果グラフに基づいて正の前記理由とする前記入力変数を選択し、前記最近接ノードのうち負の重みを有する前記最近接ノードに関する前記因果グラフに基づいて負の前記理由とする前記入力変数を選択する、(8)に記載の情報処理装置。
(10)
前記制御部は、前記理由として選択した前記入力変数に介入した場合の介入効果を算出する、(1)~(9)のいずれか1つに記載の情報処理装置。
(11)
機械学習を用いて生成された予測モデルであって、複数の入力変数を用いて予測結果を出力する前記予測モデルにおいて、前記入力変数と前記予測結果との疑似相関に基づき、複数の前記入力変数から、前記予測結果の理由となる前記入力変数を選択し、
選択した前記入力変数に関する情報を出力する、
情報処理方法。
(12)
コンピュータを、
機械学習を用いて生成された予測モデルであって、複数の入力変数を用いて予測結果を出力する前記予測モデルにおいて、前記入力変数と前記予測結果との疑似相関に基づき、複数の前記入力変数から、前記予測結果の理由となる前記入力変数を選択し、
選択した前記入力変数に関する情報を出力する、制御部、
として機能させるためのプログラム。
(1)
機械学習を用いて生成された予測モデルであって、複数の入力変数を用いて予測結果を出力する前記予測モデルにおいて、前記入力変数と前記予測結果との疑似相関に基づき、複数の前記入力変数から、前記予測結果の理由となる前記入力変数を選択し、
選択した前記入力変数に関する情報を出力する、制御部、
を備える情報処理装置。
(2)
前記制御部は、前記予測結果と疑似相関の関係にない前記入力変数を前記理由となる前記入力変数として選択する、(1)に記載の情報処理装置。
(3)
前記制御部は、前記予測結果に対して条件付き独立にならない前記入力変数を前記理由となる前記入力変数として選択する、(1)又は(2)に記載の情報処理装置。
(4)
前記制御部は、前記理由として選択した前記入力変数と、前記予測結果と、の関係性の強さを示す強度情報を、選択した前記入力変数と対応付けて出力する、(1)~(3)のいずれか1つに記載の情報処理装置。
(5)
前記制御部は、前記予測結果の前記理由として、少なくとも2つの前記入力変数の組み合わせを選択する、(1)~(4)のいずれか1つに記載の情報処理装置。
(6)
前記制御部は、前記組み合わせに含まれる少なくとも2つの前記入力変数と、前記予測結果と、の関係性の強さを示す強度情報を、前記組み合わせに関する情報と対応付けて出力する、(5)に記載の情報処理装置。
(7)
前記制御部は、前記予測結果を示す出力変数を目的変数とし、複数の前記入力変数を説明変数として因果グラフを推定し、前記目的変数と直接因果関係にある前記説明変数から前記理由とする前記入力変数を選択する、(1)~(6)のいずれか1つに記載の情報処理装置。
(8)
前記制御部は、前記予測モデルに最も近い隠れ層に含まれる最近接ノードを目的変数とし、複数の前記入力変数を説明変数として、前記最近接ノードに関する因果グラフを推定し、前記目的変数と直接因果関係にある前記説明変数から前記理由とする前記入力変数を選択する、(1)~(6)のいずれか1つに記載の情報処理装置。
(9)
前記制御部は、前記最近接ノードのうち正の重みを有する前記最近接ノードに関する前記因果グラフに基づいて正の前記理由とする前記入力変数を選択し、前記最近接ノードのうち負の重みを有する前記最近接ノードに関する前記因果グラフに基づいて負の前記理由とする前記入力変数を選択する、(8)に記載の情報処理装置。
(10)
前記制御部は、前記理由として選択した前記入力変数に介入した場合の介入効果を算出する、(1)~(9)のいずれか1つに記載の情報処理装置。
(11)
機械学習を用いて生成された予測モデルであって、複数の入力変数を用いて予測結果を出力する前記予測モデルにおいて、前記入力変数と前記予測結果との疑似相関に基づき、複数の前記入力変数から、前記予測結果の理由となる前記入力変数を選択し、
選択した前記入力変数に関する情報を出力する、
情報処理方法。
(12)
コンピュータを、
機械学習を用いて生成された予測モデルであって、複数の入力変数を用いて予測結果を出力する前記予測モデルにおいて、前記入力変数と前記予測結果との疑似相関に基づき、複数の前記入力変数から、前記予測結果の理由となる前記入力変数を選択し、
選択した前記入力変数に関する情報を出力する、制御部、
として機能させるためのプログラム。
100 情報処理装置
110 入力部
120 出力部
130 制御部
131 入出力制御部
132 因果モデル推定部
133 選択部
134 評価部
135 介入効果算出部
110 入力部
120 出力部
130 制御部
131 入出力制御部
132 因果モデル推定部
133 選択部
134 評価部
135 介入効果算出部
Claims (20)
- 機械学習を用いた予測モデルにおける複数の入力変数と予測結果との因果関係に関する因果モデルに基づいて、前記予測結果に影響を与える前記入力変数を説明変数として選択し、
選択された前記説明変数を出力する、
制御部を備える情報処理装置。 - 前記制御部は、機械学習を用いて生成された前記予測モデルにおいて、前記入力変数と前記予測結果とが疑似相関であるか否かの情報に基づき、複数の前記入力変数から、前記予測結果の理由として前記説明変数を選択し、
選択した前記説明変数に関する情報を出力する、
請求項1に記載の情報処理装置。 - 前記制御部は、前記予測結果と疑似相関の関係にない前記入力変数を前記説明変数として選択する、請求項2に記載の情報処理装置。
- 前記制御部は、前記予測結果に対して条件付き独立にならない前記入力変数を前記説明変数として選択する、請求項2に記載の情報処理装置。
- 前記制御部は、前記理由として選択した前記説明変数と前記予測結果との関係性の強さを示す強度情報を出力する、請求項2に記載の情報処理装置。
- 前記制御部は、前記予測結果の前記理由として、少なくとも2つの前記入力変数の組み合わせを選択する、請求項2に記載の情報処理装置。
- 前記制御部は、前記組み合わせに含まれる少なくとも2つの前記入力変数と、前記予測結果と、の関係性の強さを示す強度情報を、前記組み合わせに関する情報と対応付けて出力する、請求項6に記載の情報処理装置。
- 前記制御部は、複数の前記入力変数について、前記予測結果を示す出力変数を目的変数として因果グラフを推定し、前記目的変数と直接因果関係にある前記入力変数から前記理由とする前記説明変数を選択する、請求項2に記載の情報処理装置。
- 前記制御部は、複数の前記入力変数について、前記予測モデルに最も近い隠れ層に含まれる最近接ノードを目的変数として、前記最近接ノードに関する因果グラフを推定し、前記目的変数と直接因果関係にある前記入力変数から前記理由とする前記説明変数を選択する、請求項2に記載の情報処理装置。
- 前記制御部は、前記最近接ノードのうち正の重みを有する前記最近接ノードに関する前記因果グラフに基づいて正の前記理由とする前記説明変数を選択し、前記最近接ノードのうち負の重みを有する前記最近接ノードに関する前記因果グラフに基づいて負の前記理由とする前記説明変数を選択する、請求項9に記載の情報処理装置。
- 前記制御部は、前記理由として選択した前記説明変数に介入した場合の介入効果を算出する、請求項2に記載の情報処理装置。
- 前記入力変数は、センサで取得された情報を含む、
請求項1に記載の情報処理装置。 - 前記入力変数は、センサで取得された機器の動作環境または動作状態に関する情報を含む、
請求項12に記載の情報処理装置。 - 前記入力変数は、センサで取得された気温、湿度、電圧、電流、電力または振動に関する情報を含み、
前記制御部は、前記センサで取得された気温、湿度、電圧、電流、電力または振動に関する情報のうち少なくとも一つを前記説明変数として選択する、
請求項13に記載の情報処理装置。 - 前記入力変数は、人間の年齢または経歴に関する情報を含む、
請求項1に記載の情報処理装置。 - 前記制御部は、前記強度情報に基づいて、前記説明変数に対応する表示画面上の順序および色を決定し、
前記表示画面を出力する、
請求項5に記載の情報処理装置。 - 前記制御部は、前記入力変数の組み合わせを決定するためのインターフェースを出力し、
前記インターフェースに対応する操作に基づいて、前記入力変数の組み合わせを決定する、
請求項6に記載の情報処理装置。 - 前記制御部は、出力された前記説明変数に対する選択操作を取得し、
前記選択操作によって選択された前記説明変数に対する介入効果を算出する、
請求項11に記載の情報処理装置。 - 機械学習を用いた予測モデルにおける複数の入力変数と予測結果との因果関係に関する因果モデルに基づいて、前記予測結果に影響を与える前記入力変数を説明変数として選択し、
選択された前記説明変数を出力する、
情報処理方法。 - コンピュータを、
機械学習を用いた予測モデルにおける複数の入力変数と予測結果との因果関係に関する因果モデルに基づいて、前記予測結果に影響を与える前記入力変数を説明変数として選択し、
選択された前記説明変数を出力する、
ように機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021001769 | 2021-01-08 | ||
JP2021-001769 | 2021-01-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022149372A1 true WO2022149372A1 (ja) | 2022-07-14 |
Family
ID=82357295
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/043733 WO2022149372A1 (ja) | 2021-01-08 | 2021-11-30 | 情報処理装置、情報処理方法及びプログラム |
PCT/JP2021/047877 WO2022149480A1 (ja) | 2021-01-08 | 2021-12-23 | 情報処理装置、情報処理方法及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/047877 WO2022149480A1 (ja) | 2021-01-08 | 2021-12-23 | 情報処理装置、情報処理方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240070486A1 (ja) |
EP (1) | EP4276704A4 (ja) |
JP (1) | JPWO2022149480A1 (ja) |
CN (1) | CN116710938A (ja) |
WO (2) | WO2022149372A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017102716A (ja) * | 2015-12-02 | 2017-06-08 | 株式会社エヌ・ティ・ティ・データ | 情報処理装置及び方法 |
JP2018169960A (ja) * | 2017-03-30 | 2018-11-01 | 株式会社Jsol | 多層ニューラルネットワーク(ディープラーニング)における線形多項式モデルの作成システム、作成方法及び作成プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007207101A (ja) * | 2006-02-03 | 2007-08-16 | Infocom Corp | グラフ生成方法、グラフ生成プログラム並びにデータマイニングシステム |
JP6939311B2 (ja) * | 2017-09-20 | 2021-09-22 | コニカミノルタ株式会社 | 障害予測システム、サーバ、プログラム |
JP6884389B2 (ja) * | 2017-11-07 | 2021-06-09 | 国立研究開発法人産業技術総合研究所 | 解析装置、解析方法およびプログラム |
CN110555047B (zh) * | 2018-03-29 | 2024-03-15 | 日本电气株式会社 | 数据处理方法和电子设备 |
US11615100B2 (en) * | 2018-06-28 | 2023-03-28 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
JP7145059B2 (ja) * | 2018-12-11 | 2022-09-30 | 株式会社日立製作所 | モデルの予測根拠提示システム及びモデルの予測根拠提示方法 |
JP6856084B2 (ja) * | 2019-03-26 | 2021-04-07 | 日本電気株式会社 | 情報処理装置、コンテンツ制御装置、情報処理方法、及びプログラム |
-
2021
- 2021-11-30 WO PCT/JP2021/043733 patent/WO2022149372A1/ja active Application Filing
- 2021-12-23 US US18/260,040 patent/US20240070486A1/en active Pending
- 2021-12-23 CN CN202180088428.4A patent/CN116710938A/zh active Pending
- 2021-12-23 JP JP2022574000A patent/JPWO2022149480A1/ja active Pending
- 2021-12-23 EP EP21917700.3A patent/EP4276704A4/en active Pending
- 2021-12-23 WO PCT/JP2021/047877 patent/WO2022149480A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017102716A (ja) * | 2015-12-02 | 2017-06-08 | 株式会社エヌ・ティ・ティ・データ | 情報処理装置及び方法 |
JP2018169960A (ja) * | 2017-03-30 | 2018-11-01 | 株式会社Jsol | 多層ニューラルネットワーク(ディープラーニング)における線形多項式モデルの作成システム、作成方法及び作成プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4276704A4 (en) | 2024-07-17 |
WO2022149480A1 (ja) | 2022-07-14 |
EP4276704A1 (en) | 2023-11-15 |
CN116710938A (zh) | 2023-09-05 |
JPWO2022149480A1 (ja) | 2022-07-14 |
US20240070486A1 (en) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180268318A1 (en) | Training classification algorithms to predict end-user behavior based on historical conversation data | |
Bihani et al. | A comparative study of data analysis techniques | |
EP3438887A1 (en) | Information processing device and information processing method | |
US20110191141A1 (en) | Method for Conducting Consumer Research | |
WO2020004154A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN110232524A (zh) | 社交网络欺诈模型的构建方法、防欺诈方法和装置 | |
Karami | Utilization and comparison of multi attribute decision making techniques to rank Bayesian network options | |
KR102326740B1 (ko) | 자동 기계학습을 통한 자동 진화형 플랫폼 구현 방법 및 장치 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
JP2023547849A (ja) | ラベルなしセンサデータを用いた産業システム内の稀な障害の自動化されたリアルタイムの検出、予測、及び予防に関する、方法または非一時的コンピュータ可読媒体 | |
WO2020004049A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113537630A (zh) | 业务预测模型的训练方法及装置 | |
JP2018528511A (ja) | 生産システムにおける出力効率の最適化 | |
Rodolfa et al. | Bias and fairness | |
CN112486784A (zh) | 诊断和优化数据分析系统的方法、设备和介质 | |
JP7502963B2 (ja) | 情報処理システムおよび情報処理方法 | |
WO2021085188A1 (ja) | バイアス調整装置、情報処理装置、情報処理方法及び情報処理プログラム | |
CN115546218B (zh) | 置信度阈值确定方法和装置、电子设备和存储介质 | |
WO2022149372A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Garcia de Alford et al. | Reducing age bias in machine learning: An algorithmic approach | |
US11481267B2 (en) | Reinforcement learning approach to root cause analysis | |
CN112732519A (zh) | 一种事件监控方法及装置 | |
WO2022153624A1 (ja) | 施策決定支援装置および施策決定支援方法 | |
WO2024202573A1 (ja) | 評価プログラム、評価方法及び情報処理装置 | |
Ben Ahmed et al. | A bayesian learning of probabilistic relations between perceptual attributes and technical characteristics of car dashboards to construct a perceptual evaluation model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21917594 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21917594 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |