WO2019130974A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2019130974A1
WO2019130974A1 PCT/JP2018/044108 JP2018044108W WO2019130974A1 WO 2019130974 A1 WO2019130974 A1 WO 2019130974A1 JP 2018044108 W JP2018044108 W JP 2018044108W WO 2019130974 A1 WO2019130974 A1 WO 2019130974A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
prediction
feature amount
information processing
contribution
Prior art date
Application number
PCT/JP2018/044108
Other languages
English (en)
French (fr)
Inventor
紘士 飯田
慎吾 高松
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/478,550 priority Critical patent/US20200050932A1/en
Priority to EP18897535.3A priority patent/EP3588392A4/en
Priority to JP2019540686A priority patent/JP7226320B2/ja
Priority to CN201880012459.XA priority patent/CN110326005A/zh
Publication of WO2019130974A1 publication Critical patent/WO2019130974A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • prediction using prediction models in other words, recognition models
  • non-linear models such as neural networks
  • the prediction model constructed by the non-linear model is a black box whose internal behavior is unknown. Therefore, it has been difficult to identify the basis of prediction, for example, which feature amount of the feature amounts of data input to the prediction model contributes to the prediction result.
  • Patent Document 1 when extracting an explanatory variable used for learning a prediction model from explanatory variables included in teacher data, based on the degree of contribution calculated for each explanatory variable. Techniques for extracting explanatory variables are disclosed.
  • the technique disclosed in the above-mentioned patent document 1 only extracts an explanatory variable that contributes to the direction of improving the learning accuracy of the prediction model, in other words, a feature that contributes positively. That is, the technology disclosed in the above-mentioned Patent Document 1 is premised that all the feature quantities of data input to the prediction model contribute positively, and is insufficient as a technology for specifying the basis of prediction. Met.
  • the present disclosure proposes a mechanism capable of more appropriately specifying the basis of prediction by a prediction model.
  • An information processing apparatus comprising: a control unit that extracts feature amounts.
  • a first feature quantity that contributes positively to the prediction result by the prediction model and a negative one An information processing method to be executed by a processor is provided, including extracting two feature quantities.
  • the computer is set negative to the first feature quantity that positively contributes to the prediction result by the prediction model.
  • a program for functioning as a control unit that extracts a contributing second feature amount is provided.
  • FIG. 1 is a diagram for explaining the black-box property of the non-linear model.
  • the prediction model 10 when input data 20 is input, the prediction model 10 outputs output data 30.
  • information indicating which image the image is in is output as the output data 30.
  • information indicating which category the document is in the document is output as the output data 30.
  • user information when user information is input as the input data 20, information indicating which product the user corresponding to the user information purchases is output as the output data 30.
  • the prediction model 10 is learned in advance based on teacher data including a plurality of combinations of input data and output data to be output when the input data is input.
  • the prediction model 10 is configured by a non-linear model
  • the prediction model 10 is a black box whose internal behavior is unknown. Therefore, it is difficult to identify the basis of the prediction by the prediction model 10.
  • a neural network is an example of such a non-linear model.
  • a neural network typically comprises three layers of an input layer, an intermediate layer, and an output layer, and has a network structure in which nodes included in each layer are connected by links.
  • operations on nodes and weighting on links are performed in order from the input layer to the intermediate layer, and from the intermediate layer to the output layer, and output data is output from the output layer.
  • neural networks those having a predetermined number or more of layers are also referred to as deep learning.
  • neural networks can approximate arbitrary functions.
  • a neural network can learn a network structure that matches teacher data by using a calculation method such as back propagation. Therefore, by constructing a prediction model with a neural network, the prediction model is freed from the restriction of expressiveness that it is designed within a range that can be understood by a person.
  • predictive models can be designed beyond the scope of human understanding. In that case, it is difficult to understand what the prediction model is based on.
  • FIG. 2 is a diagram for explaining the outline of the comparative example.
  • the prediction model 11 shown in FIG. 2 is an image recognizer configured by a non-linear model.
  • the prediction model 11 When an image is input, the prediction model 11 outputs information indicating what is included in the image. For example, when the image 21A of a dog is input, the prediction model 11 outputs information 31A indicating that the image of the dog is captured. If an image in which a part of the dog image 21A is hidden is input to the prediction model 11, the prediction result may change.
  • the information processing apparatus according to the comparative example inputs the prediction model 11 while sequentially changing the hidden area, and searches for an area where the prediction result does not change as when the image 21A is input to the prediction model 11.
  • the information processing apparatus hides the searched area from the image 21A and outputs the remaining area as the basis of the prediction. For example, in the process of searching, when an image 21B in which a portion of the image 21A in which a dog is not shown is hidden is input, this indicates that the dog is an image, as in the case where the image 21A is input. It is assumed that the information 31B is output. Then, the information processing apparatus according to the comparative example outputs the image 21B as a basis for prediction.
  • FIG. 3 is a diagram for explaining an algorithm according to a comparative example.
  • the information processing apparatus according to the comparative example converts the image 21A into m feature quantities.
  • the feature amount is, for example, a pixel value of each pixel included in the image 21A.
  • the information processing apparatus according to the comparative example applies the weight w to each feature amount, and inputs the weight w to the prediction model 11, thereby obtaining a prediction probability of 0 or more and 1 or less as the output data 31.
  • the prediction probability here is the probability that the input image is predicted to be a dog.
  • the weight w takes a value of 0 or more and 1 or less (0 ⁇ w ⁇ 1), leaves a feature amount that positively contributes to the prediction result by the prediction model 13, and functions as a mask for removing the others. As shown in FIG. 3, part of the feature amount is masked by the weight w, and the remaining feature amount is input to the prediction model 11. Specifically, data input to the prediction model 11 is an image 21B in which a partial region of the image 21A is hidden. The probability that a dog is projected in the input image increases as the feature amount that contributes positively by the weight w remains unmasked, that is, the area in which the dog appears is unmasked.
  • the information processing apparatus obtains the weight w that maximizes the prediction probability.
  • the information processing apparatus searches for w which minimizes the loss function shown in the following equation (1).
  • f is a prediction model.
  • the input data x to which the weight w is applied is predicted by the prediction model f as the prediction probability when the input data x to which the weight w is applied is input to the prediction model f increases.
  • the smaller the value the better the contribution to the result. Therefore, the loss decreases as the contribution of the feature that positively contributes to the feature that the feature that remains without being removed by the mask with the weight w is a positive contribution.
  • the information processing apparatus according to the comparative example specifies, as a basis for prediction, a feature that remains without being removed by the mask with the searched weight w.
  • the information processing apparatus minimizes the loss function shown in the above equation (1) under the constraint condition shown in the following equation (2).
  • the constraint shown in the equation (2) is that the Eugrid norm of the weight w is less than or equal to a predetermined value c, in other words, the number of feature quantities is less than or equal to a threshold. Since the number of feature quantities to be extracted is limited by this constraint condition, it is possible to extract feature quantities with a higher degree of contribution.
  • the weight w which minimizes the loss function shown in the above equation (1) is the weight w which maximizes the prediction probability. Therefore, in the comparative example, only the feature amount that positively contributes to the improvement of the prediction probability is identified as the basis of the prediction. However, not all of the feature quantities of data input to the prediction model necessarily contribute positively.
  • the feature quantities of data input to the prediction model may include feature quantities that negatively contribute to the prediction result.
  • FIG. 4 is a diagram for explaining a prediction problem in which there is a feature amount that negatively contributes to the prediction result.
  • the prediction model 12 illustrated in FIG. 4 outputs the probability that the user corresponding to the user information purchases a financial product.
  • the input user information includes item type data including data of a plurality of data items such as age, gender, occupation, family structure, residence, savings amount, rent, debt and hobbies.
  • the data for each data item, such as the age of 24 years, is the feature value.
  • the output data 32A is output which assumes that the probability of purchasing a financial product is 30%.
  • FIG. 5 is a diagram for explaining the case where the information processing apparatus according to the comparative example solves the prediction problem shown in FIG. 4.
  • the information processing apparatus according to the comparative example extracts a feature that contributes positively to the improvement of the prediction probability. Therefore, only feature quantities that improve the probability of purchasing a financial product, such as an age of 24 years, a family structure of a wife and a child, and a savings amount of 4 million yen, are extracted.
  • output data 32B is output that assumes that the probability of purchasing a financial product is 80%.
  • the feature amount that reduces the probability of purchasing a financial product that is, the feature that contributes negatively is hidden by the weight w, and only the feature that contributes positively is left.
  • the prediction probability of 80% is far from 30% shown in FIG. 4 which is the prediction probability output when all user information is input. Therefore, it can be said that the feature value extracted by the comparative example is insufficient as a basis for prediction.
  • the above situation is taken as a point of view, and a mechanism capable of more appropriately specifying the basis of prediction by a prediction model is proposed.
  • a technology that can identify not only positively contributing features but also negatively contributing features as the basis of prediction.
  • FIG. 6 is a diagram for describing a case where the prediction problem shown in FIG. 4 is solved by the proposed technology.
  • a feature that contributes positively to the improvement of the prediction probability and a feature that negatively contributes to the improvement of the prediction probability are extracted.
  • the feature travels at a cost of 3 million yen with a feature amount that improves the probability of purchasing financial products, such as 24 years of age, a family structure of a wife and a child, and a savings amount of 4 million yen; And a feature that reduces the probability of purchasing a financial product. As shown in FIG.
  • output data 32C is output which assumes that the probability of purchasing a financial product is 30%.
  • the prediction probability of 30% is the same as 30% shown in FIG. 4 which is the prediction probability output when all user information is input. Therefore, it can be said that the feature quantity extracted by the proposed technique is sufficient as a basis for prediction.
  • the proposed technique can hide feature amounts that do not contribute to prediction among user information and appropriately extract feature amounts that contribute to prediction.
  • FIG. 7 is a block diagram showing an example of a logical configuration of an information processing apparatus according to an embodiment of the present disclosure.
  • the information processing apparatus 100 includes an input unit 110, an output unit 120, a storage unit 130, and a control unit 140.
  • the input unit 110 has a function of inputting information.
  • the input unit 110 inputs various information such as teacher data for constructing a prediction model, input data input to the prediction model, and setting information on feature quantity extraction.
  • the input unit 110 outputs the input information to the control unit 140.
  • the output unit 120 has a function of outputting information.
  • the output unit 120 outputs various information such as output data output from the prediction model and the basis of the prediction.
  • the output unit 120 outputs the information output from the control unit 140.
  • the storage unit 130 has a function of storing information temporarily or permanently. For example, the storage unit 130 stores the learning result on the prediction model.
  • the control unit 140 has a function of controlling the overall operation of the information processing apparatus 100. As shown in FIG. 7, the control unit 140 includes a preprocessing unit 141, a learning unit 143, an extraction unit 145, and a generation unit 147.
  • the preprocessing unit 141 has a function of applying preprocessing to input data.
  • the learning unit 143 has a function of learning a prediction model configured by a non-linear model.
  • the extraction unit 145 has a function of extracting a feature amount from input data input to the prediction model.
  • the generation unit 147 has a function of generating output information based on the extraction result of the feature amount. The operation processing of each of these components will be described in detail below.
  • the information processing apparatus 100 is input with the learned prediction model and item type data (for example, user information) for which the degree of contribution is to be calculated.
  • the information processing apparatus 100 extracts a feature amount that contributes positively and a feature amount that contributes negatively from the input item type data, and calculates the degree of contribution of the extracted feature amount.
  • the information processing apparatus 100 may perform prediction using the input item type data and prediction using the extracted feature amount. Then, the information processing apparatus 100 generates and outputs output information based on these processing results.
  • the present technology can be used, for example, for marketing, prevention of withdrawal of service, presentation of reason for recommendation, or input assistance for user profile.
  • the first user inputs, to the information processing apparatus 100, the learned prediction model and the user information of the second user. Then, the first user performs various measures for the second user according to the purpose based on the output information.
  • the learning of the prediction model may be performed by the information processing apparatus 100.
  • item type data and teacher data with a label corresponding to the user information are input to the information processing apparatus 100, and learning of a prediction model is performed.
  • the information processing apparatus 100 (for example, the pre-processing unit 141) performs pre-processing on input data input to the prediction model.
  • the information processing apparatus 100 performs pre-processing called OneHot.
  • OneHotization is a process of converting a feature amount into a feature amount vector in which one element is 1 and the other elements are 0.
  • the data item of gender is expanded to three feature quantities of male, female, and others (not input), and converted to a feature quantity vector having three elements. Then, a feature amount vector is generated in which the first element is 1 for men, the second element is 1 for women, and the third element is 1 otherwise.
  • OneHotization is applicable to discrete values such as male / female and continuous values such as age.
  • a feature amount vector in which all feature amount vectors for each item converted in this manner are connected is input to the prediction model.
  • the information processing apparatus 100 learns a prediction model.
  • the information processing apparatus 100 learns parameters (various parameters such as links, weights, biases, activation functions, etc.) for constructing a prediction model that matches the teacher data by using a calculation method such as back propagation.
  • the above-described preprocessing is also performed on teacher data.
  • the information processing apparatus 100 may perform learning using a feature quantity vector in which all elements are 1, that is, learning using only a bias. This makes it possible to learn a prediction model in which an average value is output when a feature amount vector in which all elements are 0 is input to the prediction model.
  • the prediction model is configured by a non-linear model.
  • the prediction model targeted by the present technology is a model having a black box property (also referred to as a black box model).
  • the prediction model may be configured by any non-linear model, such as a neural network, a support vector machine or a hidden Markov model. Below, a prediction model is explained as what is constituted by a neural network.
  • the information processing apparatus 100 determines the prediction result output from the prediction model among the feature amounts of the input data input to the prediction model configured by the non-linear model.
  • a first feature amount that contributes positively and a second feature amount that contributes negatively are extracted. More specifically, the information processing apparatus 100 extracts, among the feature quantities of the input data, a feature quantity that contributes positively and has a relatively large contribution degree as a first feature quantity, and contributes negatively and compares the contribution degrees.
  • a large feature quantity is extracted as a second feature quantity. Accordingly, the information processing apparatus 100 can specify not only the first feature amount that contributes positively but also the second feature amount that contributes negatively as a basis for prediction by the prediction model.
  • the algorithm of the feature amount extraction process by the information processing apparatus 100 will be described below with reference to FIG.
  • FIG. 8 is a diagram for describing an algorithm of feature amount extraction processing by the information processing apparatus 100 according to the present embodiment.
  • the prediction model 13 shown in FIG. 8 has a probability of purchasing a financial product as output data 33 when user information is input as input data (0 to 1). Output value).
  • the information processing apparatus 100 pre-processing unit 141) converts the input data 23A into n feature amounts.
  • the information processing apparatus 100 extraction unit 145) applies a weight w p (first weight) to each feature amount, and inputs the feature amount after application to the prediction model 13 to obtain the prediction probability. obtain.
  • the information processing apparatus 100 applies a weight w n (second weight) to each feature quantity, and obtains the prediction probability by inputting the feature quantity after application to the prediction model 13.
  • the information processing apparatus 100 may obtain the prediction probability by simultaneously inputting the feature amount after applying the weight w p and the feature amount after applying the weight w n to the prediction model 13.
  • the weight w p takes a value of 0 or more and 1 or less (0 ⁇ w p ⁇ 1), leaves a feature amount that positively contributes to the prediction result by the prediction model 13, and functions as a mask for removing other. As shown in FIG. 8, part of the feature amount is masked by the weight w p , and the remaining feature amount is input to the prediction model 13. The prediction probability output from the prediction model 13 becomes higher as the feature amount that contributes positively remains as it is not masked by the weight w p .
  • the weight w n takes a value of 0 or more and 1 or less (0 ⁇ w n ⁇ 1), leaves a feature amount negatively contributing to the prediction result by the prediction model 13, and functions as a mask for removing the others. As shown in FIG. 8, by the weight w n, some of the feature amount is masked, the remaining feature amount is input to the prediction model 13. As the feature amount contributing to the negative remains unmasked by the weight w n , the prediction probability output from the prediction model 13 becomes lower.
  • the information processing apparatus 100 obtains the weight w p, and w n to balance the weight w n that minimizes the weight w p and predicted probability maximizing the predicted probability. For example, the information processing apparatus 100 obtains w p and w n which minimize the loss function shown in the following equation (3).
  • the first term of the equation (3) indicates that the larger the prediction probability when the input data x to which the weight w p is applied is input to the prediction model f, in other words, the input data x to which the weight w p is applied. Becomes smaller as it contributes positively to the prediction result by the prediction model f. Therefore, the loss decreases as the contribution amount of the feature amount which positively contributes to the positive is larger as the feature amount remaining without being removed by the mask with the weight w p is a positive contribution.
  • the second term in the above equation (3) the more the prediction probability when input data x weight w n is applied is input to the prediction model f is small, in other words, the weight w n is applied.
  • the loss becomes smaller as the input data x contributes negatively to the prediction result by the prediction model f. Therefore, the loss decreases as the feature amount that contributes to the negative contribution as the feature amount that remains without being removed by the mask with the weight w n contributes more negatively.
  • the information processing apparatus 100 obtains weights w p and w n that minimize the prediction function including such first and second terms. Then, the information processing apparatus 100 extracts, as the first feature quantity, the feature quantity remaining without being removed by the mask with the weight w p, and the second feature quantity remaining without being removed by the mask with the weight w n Extract as feature quantity. Since the loss function includes both the first term for evaluating positively contributing features and the second term for negatively contributing features, the positively contributing features and negative It is possible to appropriately extract contributing features. The information processing apparatus 100 specifies the first feature amount and the second feature amount extracted in this manner as the basis of the prediction.
  • the information processing apparatus 100 minimizes the loss function shown in the above equation (3) under the constraint condition shown in the following equation (4).
  • the constraint shown in the above equation (4) is that the u grid norms of the weight w p and the weight w n are respectively equal to or less than predetermined values c 1 and c 2 , in other words, the number of first feature quantities is the first It is included that it is below a threshold and that the number of 2nd feature-values is below a 2nd threshold. Since the number of feature quantities to be extracted is limited by this constraint condition, it is possible to extract feature quantities with higher contribution rates as the first feature quantity and the second feature quantity.
  • the constraint shown in the equation 4 is the difference between the prediction result obtained by inputting the first feature amount into the prediction model and the prediction result obtained by inputting the second feature amount into the prediction model, and the input It includes that a difference between a prediction result obtained by inputting data into a prediction model and a predetermined value c 3 (third threshold) or less.
  • the prediction probability and the original prediction probability when only the extracted first feature amount and the second feature amount are used are as close as possible. Learning is done. Therefore, with this constraint, it is possible to secure the likelihood of the weight w p and the weight w n .
  • the values of the predetermined values c 1 , c 2 and c 3 can be arbitrarily specified.
  • the predetermined values c 1 and c 2 it is possible to specify the number of first feature quantities to be extracted and the number of second feature quantities.
  • the information processing apparatus 100 calculates the contribution degree of the first feature amount and the second feature amount.
  • the degree of contribution is a degree of contribution to the prediction result by the prediction model. There are various ways of calculating the degree of contribution. Two types of calculation methods will be described below as an example.
  • the first contribution degree calculation method adds the feature quantity whose contribution degree is to be calculated to the input to the prediction model, and the contribution degree based on the change in the prediction result before and after the addition. Is a method of calculating Specifically, the information processing apparatus 100 uses only the average value of the prediction results of the prediction model and the one feature for which the contribution is calculated as the contribution of the first feature and the second feature. Calculate the difference between the input and the prediction result obtained.
  • the first contribution degree calculation method will be specifically described with reference to FIG.
  • FIG. 9 is a diagram for describing a first contribution degree calculation method according to the present embodiment. Here, it is assumed that the feature amount whose contribution degree is to be calculated is that the age is 24 years.
  • the information processing apparatus 100 applies a weight 24D in which all the weights are zero to the feature quantity vector 23D in the input data, and sets a feature quantity vector 25D in which all elements are 0. It is generated and input to the prediction model 13. Thereby, the information processing apparatus 100 obtains an average value of prediction probabilities output from the prediction model 13 as the output data 33D. For example, the average value of the probability of purchasing a financial product is calculated to be 12%.
  • the information processing apparatus 100 applies, to the feature quantity vector 23E of the input data, the weight 24E obtained by changing the weight corresponding to one feature quantity of the calculation target of the contribution degree to 1 from the weight 24D.
  • a feature amount vector 25E in which the element corresponding to one feature amount whose contribution degree is to be calculated is 1 and the other elements are all 0 is obtained.
  • the information processing apparatus 100 inputs the feature amount vector 25E to the prediction model 13.
  • the information processing apparatus 100 obtains, as the output data 33E, a prediction probability when only one feature amount for which the degree of contribution is to be calculated is input to the prediction model 13. For example, it is calculated that the probability that a user who is 24 years old purchases a financial product is 20%.
  • the information processing apparatus 100 calculates the difference between these prediction probabilities as the degree of contribution of the feature amount. Specifically, in the information processing apparatus 100, when the prediction probability is improved, the feature amount contributes positively, and when the prediction probability decreases, the feature amount contributes negatively, and the absolute value of the difference is the contribution degree. It is determined that there is. In this example, since the probability of purchasing a financial product is improved from 12% to 20%, the contribution of the feature quantity that the information processing apparatus 100 is age 24 is a positive contribution of 8%. It is determined that the
  • the second contribution degree calculation method removes the feature quantity whose contribution degree is to be calculated from the input to the prediction model, and the contribution degree based on the change in the prediction result before and after the removal. Is a method of calculating Specifically, the information processing apparatus 100 inputs, as the degree of contribution of the first feature amount and the second feature amount, the first feature amount and the second feature amount to the prediction model, and After removing the feature quantities for which the degree of contribution is to be calculated from the feature quantity of 1 and the second feature quantity, the difference between the prediction results obtained by inputting to the prediction model is calculated.
  • the second contribution degree calculation method will be specifically described with reference to FIG.
  • FIG. 10 is a diagram for describing a second contribution degree calculation method according to the present embodiment.
  • the gender is male
  • the age is 24
  • the occupation is a public employee as the first feature amount and the second feature amount
  • the contribution degree is to be calculated.
  • the feature quantity of is that the age is 24 years old.
  • the information processing apparatus 100 applies the weight 24F in which all the weights are 1 to the feature quantity vector 23F of the input data, and only the first feature quantity and the second feature quantity are applied. Are generated and input to the prediction model 13. Thereby, the information processing apparatus 100 obtains, as the output data 33F, a prediction probability obtained by inputting the first feature amount and the second feature amount to the prediction model. For example, it is calculated that a user whose gender is male, whose age is 24 and whose occupation is public servant has a 32% probability of purchasing a financial product. In this example, since all items of the input data correspond to the first feature amount or the second feature amount, all the weights 24F have a weight of 1. When only a part corresponds to the first feature amount or the second feature amount, the weight corresponding to the first feature amount or the second feature amount is 1 and the other is 0 as the weight 24F. Is applied.
  • the information processing apparatus 100 applies, to the feature quantity vector 23G of the input data, a weight 24G in which the weight corresponding to one feature quantity for which the degree of contribution is to be calculated is changed to 0 from the weight 24F. As a result, a feature amount vector 25G of which the feature amount for which the degree of contribution is calculated among the first feature amount and the second feature amount is 0 is obtained.
  • the information processing apparatus 100 inputs the feature amount vector 25G to the prediction model 13.
  • the information processing apparatus 100 removes, as the output data 33 G, the feature quantity to be calculated for the degree of contribution from the first feature quantity and the second feature quantity, and then inputs the predicted probability when input to the prediction model 13. obtain. For example, it is calculated that a user whose gender is male and whose occupation is civil servant has a probability of purchasing a financial product of 24%.
  • the information processing apparatus 100 calculates the difference between these prediction probabilities as the degree of contribution of the feature amount. Specifically, in the information processing apparatus 100, when the prediction probability decreases, the feature amount contributes positively, and when the prediction probability improves, the feature amount contributes negatively, and the absolute value of the difference is the contribution degree. It is determined that there is. In this example, since the probability of purchasing a financial product is reduced from 32% to 24%, it is determined that the contribution of the feature whose age is 24 years has a positive contribution of 8%.
  • the information processing apparatus 100 (for example, the generation unit 147) generates output information and outputs the generated output information from the output unit 120.
  • the information processing apparatus 100 generates output information based on the result of the feature amount extraction process and the contribution degree calculation process described above.
  • the output information includes the first feature amount, the second feature amount, the contribution degree of each feature amount, the prediction probability obtained by inputting the input user information into the prediction model, or the first feature amount and the second feature amount. And / or information based on at least one of the prediction probabilities obtained by inputting the feature quantities of ⁇ to the prediction model.
  • user information of a plurality of users may be input to the information processing apparatus 100, and extraction of a feature amount and calculation of a contribution may be performed for each piece of user information. Then, the information processing apparatus 100 may totalize the magnitude of the contribution degree of each feature amount and the overall tendency regarding the positive / negative of the contribution degree, and generate output information based on the aggregation result. Such output information is particularly effective when taking measures based on the overall tendency of a plurality of users.
  • FIG. 11 is a diagram for explaining an example of the UI according to the present embodiment.
  • a UI 210 illustrated in FIG. 11 is output information regarding a feature that contributes to the prediction of the purchase probability of a financial product.
  • the UI 210 includes UI elements 211, 212 and 213.
  • the UI element 211 lists user information whose purchase probability has been increased among the input user information, that is, the first feature value that contributes positively.
  • the UI element 211 indicates that the listed first feature value positively contributes to the prediction result (probability of purchasing a financial instrument).
  • the UI element 212 lists, among the input user information, user information whose purchase probability is lowered, that is, a second feature value that contributes negatively.
  • the UI element 212 indicates that the listed second feature value negatively contributes to the prediction result.
  • the UI element 213 lists, among the input user information, minimum required user information for prediction, that is, the first feature amount and the second feature amount.
  • the UI element 213 indicates that the listed first feature amount and second feature amount contribute to the prediction result.
  • Such a UI 210 allows the first user to easily recognize the first feature amount and the second feature amount.
  • FIG. 12 is a diagram for explaining an example of the UI according to the present embodiment.
  • a UI 220 illustrated in FIG. 12 is output information regarding a feature that contributes to the prediction of the purchase probability of a financial product.
  • the UI 220 includes UI elements 221, 222 and 223.
  • the UI element 221 indicates, using arrows, the probability that the user corresponding to the input user information purchases a financial product. Specifically, the larger the number of arrows, the higher the probability of purchase, the upward arrow indicates that the probability of purchase is higher than the average, and the downward arrow indicates that the probability of purchase is lower than the average. .
  • the UI element 222 indicates, using arrows, the first feature amount and the second feature amount of the input user information, and the degree of contribution of each feature amount. Specifically, the greater the number of arrows, the greater the degree of contribution, the upward arrow indicates that it has a positive contribution (i.e., it improves the purchase probability), and the downward arrow is negative. It has shown having the degree of contribution of (that is, reducing the purchase probability).
  • the UI element 223 includes an explanatory note for easily explaining to the first user which feature of the second user improves the purchase probability and which feature reduces the purchase probability. . With such a UI 220, the first user can easily recognize the first feature amount and the second feature amount, the contribution degree of each feature amount, and the basis of the prediction.
  • FIG. 13 is a diagram for explaining an example of the UI according to the present embodiment.
  • a UI 230 illustrated in FIG. 13 is output information regarding a feature that contributes to the prediction of the purchase probability of a financial product.
  • the UI 230 includes a UI element 231.
  • the UI element 231A is a bar graph quantitatively showing the contribution of the first feature and the contribution of the second feature.
  • the horizontal axis indicates the degree of contribution
  • extending the bar graph to the right of the 0 axis indicates that the feature value contributes positively
  • extending the bar graph to the left side of the 0 axis indicates that the feature value is negative
  • the length of the bar graph indicates the degree of contribution. In each bar graph, the degree of contribution is indicated by a number.
  • the UI element 231B is a bar graph indicating the total value of the contributions of the first feature amount and the second feature amount.
  • the purchase probability of the second user corresponding to the input user information is calculated by adding the total value of the degree of contribution to the average purchase probability.
  • FIG. 14 is a diagram for explaining an example of the UI according to the present embodiment.
  • a UI 240 illustrated in FIG. 14 is output information regarding a feature that contributes to the prediction of the purchase probability of a financial product.
  • the UI 240 includes UI elements 241, 242 and 243.
  • the UI element 241 indicates the probability that the second user corresponding to the input user information purchases a financial product.
  • the UI element 242 is a bar graph quantitatively showing the contribution of the first feature and the contribution of the second feature. Specifically, the bar graph pattern indicates the degree of contribution of the feature amount, and the bar graph length indicates the degree of contribution.
  • the UI element 243 includes an explanatory note for easily explaining to the first user which feature of the second user improves the purchase probability and which feature lowers the purchase probability. . With such a UI 240, the first user can easily recognize the first feature amount and the second feature amount, the contribution degree of each feature amount, and the basis of the prediction.
  • FIG. 15 is a view for explaining an example of the UI according to the present embodiment.
  • a UI 250 illustrated in FIG. 15 is output information regarding a feature that contributes to the prediction of the purchase probability of a financial product.
  • the UI 250 includes UI elements 251, 252 and 253.
  • the UI element 251 indicates the probability that the second user corresponding to the input user information purchases a financial product.
  • the UI element 252 is a pie chart quantitatively showing the contribution of the first feature and the contribution of the second feature. Specifically, the fan-shaped pattern of the circle graph indicates the positive or negative of the degree of contribution of the feature amount, and the size of the sector of the circle graph indicates the degree of contribution.
  • the UI element 253 includes an explanatory note for easily explaining to the first user which feature of the second user improves the purchase probability and which feature lowers the purchase probability. .
  • the first user can easily recognize the first feature amount and the second feature amount, the contribution degree of each feature amount, and the basis of the prediction.
  • FIG. 16 is a flowchart showing an example of a flow of a process of presenting a prediction basis performed by the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 inputs input data, and sets the number of feature quantities to be extracted (step S102).
  • user information which is item type data is input as input data.
  • Setting the number of feature quantities to be extracted corresponds to setting the values of predetermined values c 1 and c 2 under the constraint conditions shown in Equation (4). Additional other settings may be made such as c 3.
  • the information processing apparatus 100 initializes weights w p and w n (step S104).
  • the information processing apparatus 100 uses the weights w p and w n and the learned prediction model f to calculate the loss function shown in Formula (3) (step S106).
  • the information processing apparatus 100 updates the weights w p and w n in the gradient direction under the constraint condition represented by Formula (4).
  • the information processing apparatus 100 determines whether the weights w p and w n have converged (step S110).
  • the information processing apparatus 100 repeats the calculation of the loss function (step S106) and the updating of the weights w p and w n (step S108) until it is determined that the information has converged (step S110 / NO).
  • any algorithm such as gradient descent method, probabilistic gradient descent method such as AdaGrad and Adam, Newton method, line search method, particle filter, or genetic algorithm may be adopted. .
  • the information processing apparatus 100 extracts a first feature amount that is a feature amount that contributes positively, based on the weight w p, and the first feature amount The degree of contribution is calculated (step S112). Specifically, the feature amount remaining without being removed by the mask with the weight w p is extracted as a first feature amount. Then, the information processing apparatus 100 calculates the contribution degree of the first feature amount by the above-described first or second contribution degree calculation method.
  • the information processing apparatus 100 based on the weight w n, extracts the second feature quantity that contribute feature quantity negatively, to calculate the contribution of the second feature quantity (step S114). Specifically, the feature amount remaining without being removed by the mask with the weight w n is extracted as a second feature amount. Then, the information processing apparatus 100 calculates the degree of contribution of the second feature amount by the above-described first or second degree of contribution calculation method.
  • the information processing apparatus 100 performs prediction using the first feature amount that is a positive contribution amount and the second feature amount that is a negative contribution amount (step S116). Specifically, the information processing apparatus 100 inputs the first feature amount and the second feature amount to the prediction model to obtain a prediction probability.
  • the information processing apparatus 100 generates and outputs output information (step S118). For example, the information processing apparatus 100 generates and outputs a UI based on the processing result in steps S112 to S116.
  • This use case relates to the marketing of which financial products to market to which customers.
  • the person in charge of financial product sales (that is, the first user) inputs the past user data and the purchase result of the financial product into the information processing apparatus 100 as teacher data, so that what kind of customer is what financial Train a prediction model that predicts whether it is easy to buy a product.
  • the person in charge inputs user information of the new customer (that is, the second user) into the information processing apparatus 100.
  • the person in charge is what kind of financial product is purchased by the new customer, and the basis for the prediction (the first feature, the second feature, and the contribution of each feature) You can know Based on this information, the person in charge can conduct sales promotion activities to new customers.
  • the person in charge may take measures based on the overall tendency of the feature values obtained by the tabulation process based on the user information of a plurality of customers. For example, if it is determined as a general tendency that a certain financial product is preferred by customers in a certain age, occupation, or area, the person in charge carries out a measure such as conducting sales promotion activities with a focus on the relevant customer group. The goal is to improve sales. In addition, if it is determined that the person in charge is in charge negatively, the person in charge may take measures to change the person in charge or the like.
  • Second Use Case This use case relates to the prediction of withdrawal rates for music distribution services and measures for preventing withdrawals.
  • the person in charge of the music distribution service (that is, the first user) inputs any past user data and the result of withdrawal of the music distribution service into the information processing apparatus 100 as teacher data.
  • the person in charge of the music distribution service that is, the first user
  • the person in charge inputs user information of the customer of interest (that is, the second user) to the information processing apparatus 100.
  • the person in charge can know the withdrawal probability of the customer of interest and the basis of the prediction (the first feature, the second feature, and the contribution of each feature). Based on these pieces of information, the person in charge can take measures to prevent withdrawal from the customers of interest.
  • the person in charge may take measures based on the overall tendency of the feature values obtained by the tabulation process based on the user information of a plurality of customers. For example, if it is determined that the customer's withdrawal rate within 3 months of the contract is high, the person in charge implements measures such as a discount campaign for those users. If it is determined that the delivery of e-mail magazine or the like contributes negatively to withdrawal, the person in charge stops the delivery of e-mail magazine or the like.
  • This use case relates to presentation of reasons for recommendation on an EC (electronic commerce) site and input assistance for user profiles.
  • the person in charge at the EC site (that is, the first user) inputs the past user data and the product purchase result into the information processing apparatus 100 as teacher data, so that any customer purchases any product Train a prediction model to predict whether it is easy to do.
  • the person in charge in this example is typically AI (artificial intelligence).
  • the person in charge inputs user information of the new customer (that is, the second user) into the information processing apparatus 100. This allows the person in charge to know what product the new customer purchases with what probability, and the basis for the prediction (the first feature, the second feature, and the contribution of each feature). I can know. Based on this information, the person in charge can recommend products to new customers. At that time, the person in charge presents to the new customer the basis of the prediction why the product is to be recommended (for example, because a product in the past has been purchased, etc.).
  • the person in charge may perform input assist of the user profile based on the overall tendency of the feature amount obtained by the tabulation process based on the user information of a plurality of customers. For example, if there is a tendency for the degree of contribution to be large for a certain unentered data item, the person in charge prompts the new customer to enter the unentered data item. As a result, it is possible to improve the prediction accuracy and to improve the product recommendation accuracy.
  • This use case relates to analysis of the effects of multivariate A / B tests on real estate property sites.
  • an A / B test of a web page is carried out by using a key performance indicator (KPI) that a viewer who browses a web page inquires about a real estate property.
  • KPI key performance indicator
  • the A / B test is carried out while various setting changes such as changing the displayed picture of the real estate, changing the introduction document of the property, changing the lead, changing the font of the character, etc. are performed. .
  • the person in charge of the real estate property site (that is, the first user) inputs to the information processing apparatus 100 as a teacher data whether the viewer has browsed the adopted Web page and whether or not the real estate property is inquired Do.
  • a prediction model is learned which predicts which setting is likely to be used to inquire about a real estate property.
  • the person in charge can exclude the setting that contributes negatively from the target of the A / B test, or can adopt the setting that contributes positively as the present implementation and make it available to all users.
  • Modified example is an example in which a text based on the extracted feature amount and the degree of contribution thereof is automatically generated. According to this modification, for example, an explanatory text included in each of the UI element 223 in FIG. 12, the UI element 243 in FIG. 14, and the UI element 253 in FIG. 15 can be automatically generated.
  • the output information may include a text generated based on the first feature and the contribution of the first feature and / or the second feature and the contribution of the second feature.
  • the information processing apparatus 100 for example, the generation unit 147) generates a text that explains the ground of the prediction, based on the first feature amount and / or the second feature amount having a large contribution degree.
  • an explanatory text is automatically generated that refers to the feature with a high degree of contribution, which should be particularly described as a basis for prediction.
  • the first user can easily recognize the basis of the prediction. Specific examples of the generated text will be described later with reference to FIG.
  • the output information may include a sentence generated based on statistics of all of the plurality of input data regarding the first feature amount and / or the second feature amount.
  • the information processing apparatus 100 for example, the generation unit 147) compares the statistical amount of the entire input data having a specific feature amount with the statistical amount of the entire input data regardless of the presence or absence of the specific feature amount. Based on the text explaining the basis of the prediction will be described. As a result, an explanatory text that is a tendency common to customers having a specific feature amount and that refers to a tendency different from the overall average is automatically generated. Therefore, the first user can easily recognize how the customer's feature quantity tends to affect the prediction. Specific examples of the generated text will be described below with reference to FIG.
  • FIG. 17 is a view for explaining an example of the UI according to the present modification.
  • Table 261 shows the content of data consisting of the feature quantities of input data of one customer, the contribution degree of each feature quantity, and the probability of closing (ie, the probability of prediction). The data shown in Table 261 will be hereinafter also referred to as individual data.
  • Table 262 shows the contents of statistics of input data for all customers to be predicted. The table 262 includes the number of persons, number of people closed, number of times of closing, and rate of incompleteness for each feature amount in the input data of the entire customer. The data shown in Table 262 is hereinafter also referred to as common data.
  • the information processing apparatus 100 generates a description 263 based on the individual data and the common data.
  • the closing rate is 16% larger than the whole average.
  • the information processing apparatus 100 learns the sentence generation model, and uses the learned sentence generation model to generate a sentence that explains the basis of the prediction. A series of these flows will be described with reference to FIG.
  • FIG. 18 is a diagram schematically showing the flow of sentence generation according to the present modification.
  • the extraction unit 145 calculates the contribution degree for each of the plurality of input data, and extracts each of the positively contributing feature amount and the negatively contributing feature amount (step S202).
  • the learning unit 143 teaches, for each of the plurality of pieces of input data, an explanation (ie, a teacher label) indicating the input data, the feature amount, the degree of contribution, and the basis of the prediction to be generated from these pieces of information.
  • a sentence generation model is learned as data (step S204).
  • the teacher label may be generated manually. The process described above is the learning step of the sentence generation model.
  • the extraction unit 145 calculates the degree of contribution for input data to be predicted, and extracts each of the positively contributing feature amount and the negatively contributing feature amount (step S206).
  • the generation unit 147 inputs the prediction target input data, the feature amount extracted and calculated from the prediction target input data, and the degree of contribution into a learned sentence generation model, thereby explaining the rationale of the prediction. Are generated (step S208).
  • the Seq2Seq method is one of the methods of the table-to-text technique.
  • the Seq2Seq method is a method using an encoder that drops tabular data into latent variables, and a decoder that constructs sentences based on the latent variables.
  • a sentence generation model is learned in which item names and item values of tabular data are input as (Key, Value) to LsTM (Long short-term memory) to output sentences of teacher data. Ru.
  • LsTM Long short-term memory
  • Seq2Seq method is described in detail in “Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang and Zhifang Sui,“ Table-to-text Generation by Structure-aware Seq 2 seq Learning ”, AAAI, 2018.”.
  • sentence generation using the Seq2Seq method will be described with reference to FIG.
  • FIG. 19 is a diagram for describing the details of the sentence generation model according to the present modification.
  • an encoder configured by LSTM is shown. The connection by the arrows between the variables indicates a time series relationship.
  • Seq2Seq method the field variable z i is input data item, the latent variable h i data values corresponding to the data items inputted to the field variable z i is input.
  • individual data feature amount, contribution degree, or prediction probability
  • data items and data values of individual data are input to the field variable z i and the latent variable h i .
  • the z 1 is input data item "first child presence", the h 1 feature quantity of the data item "first child presence", "present” is input.
  • common data is input to each of the latent variables h i .
  • this modification after being converted into feature vectors h 0 of lesser dimensions common data is input to each of the latent variables h i.
  • the weight a i is applied.
  • i is an index, is an integer of 0 ⁇ i ⁇ m, and m corresponds to the number of data items included in the individual data.
  • the individual data and the common data are input to the encoder, and learning of the encoder is performed.
  • the weight a i is also one of the learning targets.
  • FIG. 20 is a block diagram showing an example of the hardware configuration of the information processing apparatus according to the present embodiment.
  • the information processing apparatus 900 shown in FIG. 20 can realize, for example, the information processing apparatus 100 shown in FIG.
  • Information processing by the information processing apparatus 100 according to the present embodiment is realized by cooperation of software and hardware described below.
  • the information processing apparatus 900 includes a central processing unit (CPU) 901, a read only memory (ROM) 902, a random access memory (RAM) 903 and a host bus 904a.
  • the information processing apparatus 900 further includes a bridge 904, an external bus 904 b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, and a communication device 913.
  • the information processing apparatus 900 may have a processing circuit such as an electric circuit, a DSP, or an ASIC instead of or in addition to the CPU 901.
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 900 according to various programs. Also, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters and the like that appropriately change in the execution.
  • the CPU 901 can form, for example, the control unit 140 shown in FIG. In the present embodiment, the CPU 901 performs preprocessing on input data, learning of a prediction model, extraction of feature amounts, calculation of contribution degrees of feature amounts, and generation of output information.
  • the CPU 901, the ROM 902, and the RAM 903 are mutually connected by a host bus 904a including a CPU bus and the like.
  • the host bus 904 a is connected to an external bus 904 b such as a peripheral component interconnect / interface (PCI) bus via the bridge 904.
  • PCI peripheral component interconnect / interface
  • the host bus 904a, the bridge 904, and the external bus 904b do not necessarily need to be separately configured, and these functions may be implemented on one bus.
  • the input device 906 is realized by, for example, a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever to which information is input by the user. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device such as a mobile phone or PDA corresponding to the operation of the information processing apparatus 900. . Furthermore, the input device 906 may include, for example, an input control circuit that generates an input signal based on the information input by the user using the above input unit, and outputs the generated input signal to the CPU 901.
  • the user of the information processing apparatus 900 can input various data to the information processing apparatus 900 or instruct processing operations by operating the input device 906.
  • the input device 906 may form, for example, the input unit 110 shown in FIG.
  • the input device 906 receives input such as input of teacher data, extraction of feature amounts and input data for calculation of contribution, and setting of the number of feature amounts to be extracted.
  • the output device 907 is formed of a device capable of visually or aurally notifying the user of the acquired information.
  • Such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, display devices such as LED projectors and lamps, audio output devices such as speakers and headphones, printer devices, etc. .
  • the output device 907 outputs, for example, results obtained by various processes performed by the information processing apparatus 900.
  • the display device visually displays the results obtained by the various processes performed by the information processing apparatus 900 in various formats such as text, images, tables, graphs, and the like.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data and the like into an analog signal and aurally outputs it.
  • the output device 907 may form, for example, the output unit 120 shown in FIG. In the present embodiment, the output device 907 outputs output information.
  • the storage device 908 is a device for data storage formed as an example of a storage unit of the information processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage unit device such as an HDD, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device that records data in the storage medium, a reading device that reads data from the storage medium, and a deletion device that deletes data recorded in the storage medium.
  • the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 may form, for example, the storage unit 130 illustrated in FIG. In the present embodiment, the storage device 908 stores the learning result of the prediction model, the extraction result of the feature amount, and the contribution degree of the feature amount.
  • the drive 909 is a reader / writer for a storage medium, and is built in or externally attached to the information processing apparatus 900.
  • the drive 909 reads out information recorded in a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to the removable storage medium.
  • connection port 911 is an interface connected to an external device, and is a connection port to an external device capable of data transmission by USB (Universal Serial Bus), for example.
  • USB Universal Serial Bus
  • the communication device 913 is, for example, a communication interface formed of a communication device or the like for connecting to the network 920.
  • the communication device 913 is, for example, a communication card for wired or wireless Local Area Network (LAN), Long Term Evolution (LTE), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 913 may be a router for optical communication, a router for asymmetric digital subscriber line (ADSL), a modem for various communications, or the like.
  • the communication device 913 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet or another communication device.
  • the network 920 is a wired or wireless transmission path of information transmitted from a device connected to the network 920.
  • the network 920 may include the Internet, a public network such as a telephone network, a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), a WAN (Wide Area Network), or the like.
  • the network 920 may include a leased line network such as an Internet Protocol-Virtual Private Network (IP-VPN).
  • IP-VPN Internet Protocol-Virtual Private Network
  • each component described above may be realized using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to change the hardware configuration to be used as appropriate according to the technical level of the time of carrying out the present embodiment.
  • a computer program for realizing each function of the information processing apparatus 900 according to the present embodiment as described above can be created and implemented on a PC or the like.
  • a computer readable recording medium in which such a computer program is stored can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory or the like.
  • the above computer program may be distributed via, for example, a network without using a recording medium.
  • the information processing apparatus 100 is the first feature that positively contributes to the prediction result by the prediction model among the feature quantities of the input data input to the prediction model configured by the non-linear model.
  • the feature amount and the second feature amount contributing to the negative are extracted.
  • the information processing apparatus 100 can extract not only the first feature amount that contributes positively but also the second feature amount that contributes negatively. Therefore, the information processing apparatus 100 can appropriately specify the basis of the prediction even when there is a feature amount that negatively contributes to the prediction result. Further, the information processing apparatus 100 can specify the minimum necessary feature amount contributing to the prediction.
  • the information processing apparatus 100 calculates the degree of contribution of each of the first feature amount and the second feature amount. Thereby, the information processing apparatus 100 can specify the basis of the prediction in more detail.
  • the information processing apparatus 100 generates and outputs output information including the extracted first feature amount, second feature amount, and / or contribution degree of each calculated feature amount.
  • the first user who has referred to the output information can take appropriate measures for the second user corresponding to the user information based on the output information.
  • the target data may be an image.
  • the information processing apparatus 100 specifies an area in which an element for improving the purchase probability and an area in which an element for reducing the purchase probability is photographed in the image photographed by the customer. And each may be presented as a basis for prediction.
  • the following configurations are also within the technical scope of the present disclosure.
  • the first feature quantity that contributes positively to the prediction result by the prediction model and the second feature quantity that negatively contributes to the prediction result are extracted Control unit,
  • An information processing apparatus comprising: (2) The control unit generates output information indicating that the first feature value contributes positively to the prediction result, and the second feature value negatively contributes to the prediction result.
  • the information processing apparatus according to the above.
  • the information processing apparatus according to (3), wherein the output information includes a graph quantitatively showing the degree of contribution of the first feature amount and the degree of contribution of the second feature amount.
  • the output information includes a sentence generated based on the first feature and the contribution of the first feature and / or the contribution of the second feature and the second feature.
  • the control unit A first term whose loss is smaller as the input data to which a first weight is applied contributes positively to the prediction result; A second term whose loss is small enough that the input data to which a second weight is applied negatively contributes to the prediction result; Determining the first weight and the second weight minimizing a loss function including Extracting a feature not removed by the first weight as the first feature, The information processing apparatus according to any one of (1) to (5), wherein a feature that is not removed by the second weight is extracted as the second feature. (7) The controller minimizes the loss function under predetermined constraints.
  • the predetermined constraint condition includes that the number of the first feature amounts is equal to or less than a first threshold, and the number of the second feature amounts is equal to or less than a second threshold.
  • the information processing apparatus is a difference between a prediction result obtained by inputting the first feature amount into the prediction model and a prediction result obtained by inputting the second feature amount into the prediction model, and The information processing apparatus according to (7), further including a difference between a prediction result obtained by inputting input data into the prediction model and a third threshold value or less.
  • the control unit inputs, to the prediction model, only the average value of the prediction results and one feature amount of the calculation target of the contribution degree as the degree of contribution of the first feature amount and the second feature amount.
  • the information processing apparatus according to any one of (1) to (8), which calculates a difference between the prediction result obtained and the prediction result.
  • the control unit may input the first feature amount and the second feature amount to the prediction model as the degree of contribution of the first feature amount and the second feature amount. Calculating a difference between the first feature value and the second feature value after removing the feature value for which the degree of contribution is to be calculated, and then obtaining the prediction result obtained by inputting to the prediction model;
  • the information processing apparatus according to any one of (1) to (8).
  • An information processing method performed by a processor including: (14) A first term whose loss is smaller as the input data to which a first weight is applied contributes positively to the prediction result; A second term whose loss is small enough that the input data to which a second weight is applied negatively contributes to the prediction result; Determining the first weight and the second weight minimizing a loss function including Extracting a feature not removed by the first weight as the first feature, Extracting a feature not removed by the second weight as the second feature; The information processing method according to (13), further including (15) Further including minimizing the loss function under predetermined constraints; The predetermined constraint condition includes that the number of the first feature amounts is less than or equal to a first threshold and the number of the second feature amounts is less than or equal to a second threshold.
  • the information processing method described in. (16) The predetermined constraint condition is a difference between a prediction result obtained by inputting the first feature amount into the prediction model and a prediction result obtained by inputting the second feature amount into the prediction model, and The information processing method according to (15), further including that a difference between a prediction result obtained by inputting input data into the prediction model and the third threshold value or less.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予測モデルによる予測の根拠をより適切に特定することが可能な仕組みを提案する。 【解決手段】非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、を備える情報処理装置。

Description

情報処理装置、情報処理方法及びプログラム
 本開示は、情報処理装置、情報処理方法及びプログラムに関する。
 近年、ニューラルネット等の非線形モデルにより構成された予測モデル(換言すると、認識モデル)を用いた予測が様々な分野で活用されている。非線形モデルにより構成された予測モデルは、内部の挙動が分からないブラックボックスとなっている。そのため、予測の根拠を特定すること、例えば予測モデルに入力されるデータの特徴量のうちどの特徴量がどれだけ予測結果に寄与しているのかを特定することが困難であった。
 特徴量の寄与度に関し、下記特許文献1には、教師データに含まれる説明変数から予測モデルの学習に用いる説明変数を抽出する際に、説明変数ごとに算出した寄与度の大きさに基づいて、説明変数を抽出する技術が開示されている。
特開2017-123088号公報
 しかし、上記特許文献1に開示された技術は、予測モデルの学習精度を高める方向に寄与する説明変数、換言すると正に寄与する特徴量を抽出するに過ぎなかった。即ち、上記特許文献1に開示された技術は、予測モデルに入力されるデータの特徴量の全てが正に寄与することが前提条件とされており、予測の根拠を特定する技術としては不十分であった。
 そこで、本開示では、予測モデルによる予測の根拠をより適切に特定することが可能な仕組みを提案する。
 本開示によれば、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、を備える情報処理装置が提供される。
 また、本開示によれば、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出すること、を含む、プロセッサにより実行される情報処理方法が提供される。
 また、本開示によれば、コンピュータを、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、予測モデルによる予測の根拠をより適切に特定することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
非線形モデルのブラックボックス性を説明するための図である。 比較例の概要を説明するための図である。 比較例に係るアルゴリズムを説明するための図である。 予測結果に対し負に寄与する特徴量が存在する予測問題を説明するための図である。 図4に示した予測問題を比較例に係る情報処理装置が解く場合を説明するための図である。 図4に示した予測問題を提案技術により解く場合を説明するための図である。 本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。 本実施形態に係る情報処理装置による特徴量抽出処理のアルゴリズムを説明するための図である。 本実施形態に係る第1の寄与度算出方法を説明するための図である。 本実施形態に係る第2の寄与度算出方法を説明するための図である。 本実施形態に係るUIの一例を説明するための図である。 本実施形態に係るUIの一例を説明するための図である。 本実施形態に係るUIの一例を説明するための図である。 本実施形態に係るUIの一例を説明するための図である。 本実施形態に係るUIの一例を説明するための図である。 本実施形態に係る情報処理装置により実行される予測根拠の提示処理の流れの一例を示すフローチャートである。 本変形例に係るUIの一例を説明するための図である。 本変形例に係る文章生成の流れを概略的に示す図である。 本変形例に係る文章生成モデルの詳細を説明するための図である。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
  1.はじめに
  2.構成例
  3.技術的特徴
  4.ユースケース
  5.変形例
  6.ハードウェア構成例
  7.まとめ
 <<1.はじめに>>
 (1)非線形モデルのブラックボックス性
 図1は、非線形モデルのブラックボックス性を説明するための図である。図1に示すように、予測モデル10は、入力データ20が入力されると、出力データ30を出力する。例えば、入力データ20として画像が入力されると、出力データ30として当該画像は何が写っている画像かを示す情報が出力される。また、入力データ20として文書が入力されると、出力データ30として当該文書は何のカテゴリの文書かを示す情報が出力される。また、入力データ20としてユーザ情報が入力されると、出力データ30として当該ユーザ情報に対応するユーザは何の商品を購入するかを示す情報が出力される。
 予測モデル10は、入力データと当該入力データが入力された場合に出力すべき出力データとの組み合わせを複数含む教師データに基づいて、予め学習される。予測モデル10が非線形モデルにより構成される場合、予測モデル10は、内部の挙動が分からないブラックボックスとなる。そのため、予測モデル10による予測の根拠を特定することは困難である。そのような非線形モデルの一例として、ニューラルネットが挙げられる。
 ニューラルネットは、典型的には、入力層、中間層及び出力層の3種の層から成り、各層に含まれるノード同士がリンクで接続されたネットワーク構造を有する。入力層に入力データが入力されると、入力層から中間層へ、中間層から出力層への順に、ノードにおける演算とリンクにおける重み付けとが行われ、出力層から出力データが出力される。ニューラルネットのうち、所定数以上の層を有するものは、ディープラーニングとも称される。
 ニューラルネットは、任意の関数を近似できることが知られている。ニューラルネットは、バックプロパゲーション等の計算手法を用いることで、教師データに合うネットワーク構造を学習することができる。そのため、ニューラルネットにより予測モデルを構成することにより、予測モデルは、人が理解できる範囲内で設計される、という表現能力の制約から解放される。一方で、予測モデルは、人が理解できる範囲を超えて設計され得る。その場合、予測モデルが何を根拠にして予測を行っているかを理解するは困難である。
 (2)比較例
 以下では、図2及び図3を参照しながら、比較例として、正に寄与する特徴量のみを予測の根拠として特定する技術を説明する。なお、本明細書において、正に寄与するとは、予測モデルにより予測される予測確率を向上させることを意味し、負に寄与するとは、予測モデルにより予測される予測確率を低下させることを意味するものとする。
 図2は、比較例の概要を説明するための図である。図2に示した予測モデル11は、非線形モデルにより構成された画像認識器である。予測モデル11は、画像が入力されると、何が写っている画像かを示す情報を出力する。例えば、予測モデル11は、犬の画像21Aを入力されると、犬が写った画像であることを示す情報31Aを出力する。予測モデル11に、犬の画像21Aのうち一部の領域を隠した画像を入力すると、予測結果が変わり得る。比較例に係る情報処理装置は、隠す領域を逐次的に変更しながら予測モデル11に入力して、予測モデル11に画像21Aを入力したときと予測結果が変わらない領域を探索する。そして、比較例に係る情報処理装置は、探索された領域を画像21Aから隠して残る領域を、予測の根拠として出力する。例えば、探索の過程で、画像21Aのうち犬が写っていない部分を隠した画像21Bが入力された場合に、画像21Aが入力された場合と同様に、犬が写った画像であることを示す情報31Bが出力されたものとする。そうすると、比較例に係る情報処理装置は、画像21Bを、予測の根拠として出力する。
 図3は、比較例に係るアルゴリズムを説明するための図である。まず、比較例に係る情報処理装置は、画像21Aをm個の特徴量に変換する。特徴量は、例えば画像21Aに含まれる各々の画素の画素値である。次いで、比較例に係る情報処理装置は、各々の特徴量に対し重みwを適用し、予測モデル11に入力することで、出力データ31として0以上1以下の予測確率を得る。ここでの予測確率とは、入力された画像に犬が写っていると予測される確率である。
 重みwは、0以上1以下(0≦w≦1)の値をとり、予測モデル13による予測結果に正に寄与する特徴量を残し、他を除去するためのマスクとして機能する。図3に示すように、重みwにより、特徴量の一部がマスクされ、残った特徴量が予測モデル11に入力される。具体的には、予測モデル11に入力されるデータは、画像21Aのうち一部の領域が隠された画像21Bとなる。重みwにより正に寄与する特徴量がマスクされずに残るほど、即ち犬が写った領域がマスクされずに残るほど、入力された画像に犬が写っていると予測される確率は高くなる。
 そこで、比較例に係る情報処理装置は、予測確率を最大化する重みwを求める。例えば、比較例に係る情報処理装置は、下記の数式(1)に示す損失関数を最小化するwを探索する。
Figure JPOXMLDOC01-appb-M000001
 なお、fは予測モデルである。
 上記数式(1)は、重みwが適用された入力データxが予測モデルfに入力された場合の予測確率が大きいほど、換言すると、重みwが適用された入力データxが予測モデルfによる予測結果に正に寄与するほど小さな値となる。従って、重みwによるマスクにより除去されずに残った特徴量が正に寄与する特徴量であるほど、さらに当該特徴量が正に寄与する寄与度が大きいほど、損失が小さくなる。比較例に係る情報処理装置は、探索した重みwによるマスクにより除去されずに残った特徴量を、予測の根拠として特定する。
 ただし、比較例に係る情報処理装置は、下記の数式(2)に示す制約条件下で上記数式(1)に示す損失関数を最小化する。
Figure JPOXMLDOC01-appb-M000002
 上記数式(2)に示す制約条件は、重みwのユーグリッドノルムが所定値c以下であること、換言すると特徴量の数が閾値以下であることである。本制約条件により、抽出される特徴量の数が制限されるので、より寄与度の高い特徴量を抽出することが可能となる。
 上記数式(1)に示す損失関数を最小化する重みwは、予測確率を最大化する重みwである。そのため、比較例では、予測確率の向上に対し正に寄与する特徴量のみが、予測の根拠として特定されることとなる。しかし、予測モデルに入力されるデータの特徴量の全てが必ずしも正に寄与するとは限らない。予測モデルに入力されるデータの特徴量には、予測結果に対し負に寄与する特徴量も存在し得る。
 以下では、図4及び図5を参照して、予測結果に対し負に寄与する特徴量が存在する場合に、比較例では予測の根拠を特定することが困難になることについて説明する。
 図4は、予測結果に対し負に寄与する特徴量が存在する予測問題を説明するための図である。図4に示した予測モデル12は、ユーザ情報が入力されると、当該ユーザ情報に対応するユーザが金融商品を購入する確率を出力する。入力されるユーザ情報は、年齢、性別、職業、家族構成、居住地、貯蓄額、家賃、借金及び趣味といった複数のデータ項目のデータを含む項目型データを含む。年齢が24才である、といったデータ項目ごとのデータが、特徴量である。例えば、年齢が24才、性別が男性、職業が公務員、家族構成が妻と子供一人、居住地が都市部、貯蓄額が400万円、家賃が7万円、借金が300万円、趣味が旅行であるユーザのユーザ情報が入力データ22Aとして入力されると、金融商品を購入する確率が30%であるとする出力データ32Aが出力される。
 図5は、図4に示した予測問題を比較例に係る情報処理装置が解く場合を説明するための図である。比較例に係る情報処理装置は、予測確率の向上に対し正に寄与する特徴量を抽出する。従って、年齢が24才、家族構成が妻と子供一人、貯蓄額が400万円であるといった、金融商品を購入する確率を向上させる特徴量のみが抽出されることとなる。図5に示すように、このような抽出された特徴量が入力データ22Bとして入力されると、金融商品を購入する確率が80%であるとする出力データ32Bが出力されてしまう。比較例では、金融商品を購入する確率を低下させる、即ち負に寄与する特徴量が重みwにより隠されてしまい、正に寄与する特徴量のみが残ってしまうためである。この80%という予測確率は、図4に示した、全てのユーザ情報が入力された場合に出力される予測確率である30%とかけ離れている。従って、比較例により抽出される特徴量は、予測の根拠として不十分であると言える。
 そこで、本開示では、上記事情を一着眼点とし、予測モデルによる予測の根拠をより適切に特定することが可能な仕組みを提案する。具体的には、正に寄与する特徴量だけでなく、負に寄与する特徴量をも、予測の根拠として特定することが可能な技術を提案する。
 (3)提案技術の概要
 図6は、図4に示した予測問題を提案技術により解く場合を説明するための図である。提案技術では、予測確率の向上に対し正に寄与する特徴量と予測確率の向上に対し負に寄与する特徴量とが抽出される。具体的には、年齢が24才、家族構成が妻と子供一人、貯蓄額が400万円であるといった、金融商品を購入する確率を向上させる特徴量と、借金が300万円で趣味が旅行であるといった、金融商品を購入する確率を低下させる特徴量とが抽出される。図6に示すように、提案技術により抽出された特徴量が入力データ22Cとして入力されると、金融商品を購入する確率が30%であるとする出力データ32Cが出力される。この30%という予測確率は、図4に示した、全てのユーザ情報が入力された場合に出力される予測確率である30%と同一である。従って、提案技術により抽出される特徴量は、予測の根拠として十分であると言える。このように、提案技術は、ユーザ情報のうち、予測に寄与しない特徴量を隠し、予測に寄与する特徴量を適切に抽出することが可能である。
 以下、提案技術について詳しく説明する。
 <<2.構成例>>
 図7は、本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。図7に示すように、本実施形態に係る情報処理装置100は、入力部110、出力部120、記憶部130及び制御部140を備える。
 入力部110は、情報を入力する機能を有する。入力部110は、予測モデル構築のための教師データ、予測モデルに入力される入力データ、及び特徴量抽出に関する設定情報等の様々な情報を入力する。入力部110は、入力した情報を制御部140に出力する。
 出力部120は、情報を出力する機能を有する。出力部120は、予測モデルから出力される出力データ及び予測の根拠等の様々な情報を出力する。出力部120は、制御部140から出力された情報を出力する。
 記憶部130は、情報を一時的に又は恒久的に記憶する機能を有する。例えば、記憶部130は、予測モデルに関する学習結果を記憶する。
 制御部140は、情報処理装置100全体の動作を制御する機能を有する。図7に示すように、制御部140は、前処理部141、学習部143、抽出部145及び生成部147を備える。前処理部141は、入力データに対し前処理を適用する機能を有する。学習部143は、非線形モデルで構成される予測モデルを学習する機能を有する。抽出部145は、予測モデルに入力される入力データから特徴量を抽出する機能を有する。生成部147は、特徴量の抽出結果に基づいて出力情報を生成する機能を有する。これらの各構成要素の動作処理については、以下に詳しく説明する。
 <<3.技術的特徴>>
 (1)概要
 本実施形態に係る情報処理装置100による動作処理の概要を説明する。情報処理装置100は、学習済みの予測モデル、及び寄与度の算出対象の項目型データ(例えば、ユーザ情報)が入力される。情報処理装置100は、入力された項目型データのうち正に寄与する特徴量及び負に寄与する特徴量を抽出し、抽出した特徴量の寄与度を算出する。さらには、情報処理装置100は、入力された項目型データを用いた予測、及び抽出した特徴量を用いた予測を行ってもよい。そして、情報処理装置100は、これらの処理結果に基づく出力情報を生成して出力する。
 本技術は、例えば、マーケティング、サービスの離脱防止、レコメンデーションの理由提示、又はユーザプロフィールの入力補助などに活用され得る。例えば、第1のユーザが、情報処理装置100に対し、学習済みの予測モデル及び第2のユーザのユーザ情報を入力する。そして、第1のユーザは、第2のユーザに対し、出力情報に基づいて目的に応じた各種施策を行う。
 予測モデルの学習は、情報処理装置100により行われてもよい。その場合、情報処理装置100には、例えば項目型データと当該ユーザ情報に対応するラベルが付された教師データが入力されて、予測モデルの学習が行われる。
 以下、本実施形態に係る情報処理装置100による動作処理を詳しく説明する。
 (2)前処理
 情報処理装置100(例えば、前処理部141)は、予測モデルに入力される入力データに対し前処理を行う。例えば、情報処理装置100は、OneHot化と称される前処理を行う。OneHot化とは、特徴量を、1つの要素が1でその他の要素が0である特徴量ベクトルに変換する処理である。
 例えば、性別というデータ項目については、男性、女性、その他(未入力)という3つの特徴量に拡張されて、3つの要素を有する特徴量ベクトルに変換される。そして、男性であれば1番目の要素が1、女性であれば2番目の要素が1、その他であれば3番目の要素が1である特徴量ベクトルが生成される。OneHot化は、男性/女性といった離散値にも、年齢のような連続値にも適用可能である。予測モデルには、このように変換された項目ごとの特徴量ベクトルが全て連結された特徴量ベクトルが入力される。
 (3)学習処理
 情報処理装置100(例えば、学習部143)は、予測モデルの学習を行う。情報処理装置100は、バックプロパゲーション等の計算手法を用いることで、教師データに合う予測モデルを構築するパラメータ(リンク、重み、バイアス、活性化関数等の各種パラメータ)を学習する。教師データにも、上述した前処理が行われる。
 情報処理装置100は、予測モデルの学習の際に、全ての要素が1である特徴量ベクトルを用いた学習、即ちバイアスのみを用いた学習を行ってもよい。これにより、全ての要素が0である特徴量ベクトルが予測モデルに入力された場合、平均値が出力されるような予測モデルを学習することが可能となる。
 予測モデルは、非線形モデルにより構成される。本技術が対象とする予測モデルは、ブラックボックス性を有するモデル(ブラックボックスモデルとも称される)である。例えば、予測モデルは、ニューラルネット、サポートベクタマシン又は隠れマルコフモデル等の任意の非線形モデルにより構成され得る。以下では、予測モデルはニューラルネットで構成されるものとして説明する。
 (4)特徴量の抽出処理
 情報処理装置100(例えば、抽出部145)は、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、予測モデルから出力される予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する。より詳しくは、情報処理装置100は、入力データの特徴量のうち、正に寄与し且つ寄与度の比較的大きな特徴量を第1の特徴量として抽出し、負に寄与し且つ寄与度の比較的大きな特徴量を第2の特徴量として抽出する。これにより、情報処理装置100は、正に寄与する第1の特徴量だけでなく、負に寄与する第2の特徴量をも、予測モデルによる予測の根拠として特定することが可能となる。以下、図8を参照しながら、情報処理装置100による特徴量抽出処理のアルゴリズムを説明する。
 図8は、本実施形態に係る情報処理装置100による特徴量抽出処理のアルゴリズムを説明するための図である。図8に示した予測モデル13は、図4等に示した予測モデル12と同様に、ユーザ情報が入力データとして入力されると、出力データ33として金融商品を購入する確率(0以上1以下の値)を出力する。詳しくは、まず、情報処理装置100(前処理部141)は、入力データ23Aをn個の特徴量に変換する。次いで、情報処理装置100(抽出部145)は、各々の特徴量に対し重みw(第1の重み)を適用し、適用後の特徴量を予測モデル13に入力することで、予測確率を得る。同様に、情報処理装置100は、各々の特徴量に対し重みw(第2の重み)を適用し、適用後の特徴量を予測モデル13に入力することで、予測確率を得る。なお、情報処理装置100は、重みwを適用後の特徴量と重みwを適用後の特徴量とを同時に予測モデル13に入力することで、予測確率を得てもよい。
 重みwは、0以上1以下(0≦w≦1)の値をとり、予測モデル13による予測結果に正に寄与する特徴量を残し、他を除去するためのマスクとして機能する。図8に示すように、重みwにより、特徴量の一部がマスクされ、残った特徴量が予測モデル13に入力される。重みwにより、正に寄与する特徴量がマスクされずに残るほど、予測モデル13から出力される予測確率は高くなる。
 重みwは、0以上1以下(0≦w≦1)の値をとり、予測モデル13による予測結果に負に寄与する特徴量を残し、他を除去するためのマスクとして機能する。図8に示すように、重みwにより、特徴量の一部がマスクされ、残った特徴量が予測モデル13に入力される。重みwにより、負に寄与する特徴量がマスクされずに残るほど、予測モデル13から出力される予測確率は低くなる。
 そこで、情報処理装置100は、予測確率を最大化する重みwと予測確率を最小化する重みwとを両立する重みw及びwを求める。例えば、情報処理装置100は、下記の数式(3)に示す損失関数を最小化するw及びwを求める。
Figure JPOXMLDOC01-appb-M000003
 上記数式(3)の第1項は、重みwが適用された入力データxが予測モデルfに入力された場合の予測確率が大きいほど、換言すると、重みwが適用された入力データxが予測モデルfによる予測結果に正に寄与するほど小さな値となる。従って、重みwによるマスクにより除去されずに残った特徴量が正に寄与する特徴量であるほど、さらに当該特徴量が正に寄与する寄与度が大きいほど、損失が小さくなる。
 一方で、上記数式(3)の第2項は、重みwが適用された入力データxが予測モデルfに入力された場合の予測確率が小さいほど、換言すると、重みwが適用された入力データxが予測モデルfによる予測結果に負に寄与するほど損失が小さな値となる。従って、重みwによるマスクにより除去されずに残った特徴量が負に寄与する特徴量であるほど、さらに当該特徴量が負に寄与する寄与度が大きいほど、損失が小さくなる。
 情報処理装置100は、このような第1項及び第2項を含む予測関数を最小化する重みw及びwを求める。そして、情報処理装置100は、重みwによるマスクにより除去されずに残った特徴量を第1の特徴量として抽出し、重みwによるマスクにより除去されずに残った特徴量を第2の特徴量として抽出する。損失関数に、正に寄与する特徴量を評価する第1の項と負に寄与する特徴量を評価する第2の項との双方が含まれているので、正に寄与する特徴量と負に寄与する特徴量とを適切に抽出することが可能である。情報処理装置100は、このようにして抽出した第1の特徴量及び第2の特徴量を、予測の根拠として特定する。
 ただし、情報処理装置100は、下記の数式(4)に示す制約条件下で上記数式(3)に示す損失関数を最小化する。
Figure JPOXMLDOC01-appb-M000004
 上記数式(4)に示す制約条件は、重みw及び重みwのユーグリッドノルムが各々所定値c及びc以下であること、換言すると、第1の特徴量の数が第1の閾値以下であること、及び第2の特徴量の数が第2の閾値以下であることを含む。本制約条件により、抽出される特徴量の数が制限されるので、第1の特徴量及び第2の特徴量として、より寄与度の高い特徴量を抽出することが可能となる。
 さらに、上記数式4に示す制約条件は、第1の特徴量を予測モデルに入力して得られる予測結果と第2の特徴量を予測モデルに入力して得られる予測結果との差分と、入力データを予測モデルに入力して得られる予測結果と、の差分が所定値c(第3の閾値)以下であること、を含む。本制約条件により、抽出された第1の特徴量と第2の特徴量のみを用いた場合の予測確率と元の予測確率(ユーザ情報を全て用いた予測結果)とが、できるだけ近くなるように学習が行われる。従って、本制約条件により、重みw及び重みwの確からしさを担保することが可能となる。
 なお、所定値c、c及びcの値は、任意に指定され得る。とりわけ、所定値c及びcを指定することで、抽出すべき第1の特徴量の数及び第2の特徴量の数を指定することが可能である。
 (5)寄与度の算出処理
 情報処理装置100(例えば、抽出部145)は、第1の特徴量及び第2の特徴量の寄与度を計算する。寄与度とは、予測モデルによる予測結果に寄与する度合いである。寄与度の算出方法は多様に考えられる。以下では一例として2種類の算出方法を説明する。
 ・第1の寄与度算出方法
 第1の寄与度算出方法は、寄与度の算出対象の特徴量を予測モデルへの入力に追加して、追加する前後での予測結果の変化に基づいて寄与度を算出する方法である。詳しくは、情報処理装置100は、第1の特徴量及び第2の特徴量の寄与度として、予測モデルによる予測結果の平均値と、寄与度の算出対象のひとつの特徴量のみを予測モデルに入力して得られる予測結果と、の差を算出する。以下、図9を参照しながら、第1の寄与度算出方法について具体的に説明する。
 図9は、本実施形態に係る第1の寄与度算出方法を説明するための図である。ここでは、寄与度の算出対象の特徴量は年齢が24才であることであるものとする。
 図9に示すように、まず、情報処理装置100は、入力データの特徴量ベクトル23Dに、全ての重みがゼロである重み24Dを適用して、全ての要素が0である特徴量ベクトル25Dを生成し、予測モデル13に入力する。これにより、情報処理装置100は、出力データ33Dとして、予測モデル13から出力される予測確率の平均値を得る。例えば、金融商品を購入する確率の平均値が12%であると算出される。
 次いで、情報処理装置100は、入力データの特徴量ベクトル23Eに、重み24Dから、寄与度の算出対象のひとつの特徴量に対応する重みを1に変更した重み24Eを適用する。これにより、寄与度の算出対象のひとつの特徴量に対応する要素が1で、他の要素が全て0である特徴量ベクトル25Eが得られる。情報処理装置100は、特徴量ベクトル25Eを予測モデル13に入力する。これにより、情報処理装置100は、出力データ33Eとして、寄与度の算出対象のひとつの特徴量のみを予測モデル13に入力した場合の予測確率を得る。例えば、年齢が24才であるユーザが金融商品を購入する確率が20%であると算出される。
 そして、情報処理装置100は、これらの予測確率の差を、特徴量の寄与度として算出する。詳しくは、情報処理装置100は、予測確率が向上した場合は特徴量が正に寄与し、予測確率が低下した場合は特徴量が負に寄与し、差の絶対値が寄与度の大きさである、と判定する。本例では、金融商品を購入する確率が12%から20%に向上しているので、情報処理装置100は、年齢が24才であるという特徴量の寄与度は、8%の正の寄与度を有すると判定する。
 ・第2の寄与度算出方法
 第2の寄与度算出方法は、寄与度の算出対象の特徴量を予測モデルへの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する方法である。詳しくは、情報処理装置100は、第1の特徴量及び第2の特徴量の寄与度として、第1の特徴量及び第2の特徴量を予測モデルに入力して得られる予測結果と、第1の特徴量及び第2の特徴量から寄与度の算出対象の特徴量を除去した上で予測モデルに入力して得られる予測結果と、の差を計算する。以下、図10を参照しながら、第2の寄与度算出方法について具体的に説明する。
 図10は、本実施形態に係る第2の寄与度算出方法を説明するための図である。ここでは、第1の特徴量及び第2の特徴量として、性別が男性であること、年齢が24才であること、及び職業が公務員であることが抽出されたものとし、寄与度の算出対象の特徴量は年齢が24才であることであるものとする。
 図10に示すように、まず、情報処理装置100は、入力データの特徴量ベクトル23Fに、全ての重みが1である重み24Fを適用して、第1の特徴量及び第2の特徴量のみを含む特徴量ベクトル25Fを生成し、予測モデル13に入力する。これにより、情報処理装置100は、出力データ33Fとして、第1の特徴量及び第2の特徴量を予測モデルに入力して得られる予測確率を得る。例えば、性別が男性であり、年齢が24才であり、職業が公務員であるユーザが金融商品を購入する確率が32%であると算出される。なお、本例では、入力データの項目すべてが第1の特徴量又は第2の特徴量に相当しているので、重み24Fの重みは全て1である。一部のみが第1の特徴量又は第2の特徴量に相当する場合には、重み24Fとして、第1の特徴量又は第2の特徴量に相当する重みが1で、他が0の重みが適用される。
 次いで、情報処理装置100は、入力データの特徴量ベクトル23Gに、重み24Fから、寄与度の算出対象のひとつの特徴量に対応する重みを0に変更した重み24Gを適用する。これにより、第1の特徴量及び第2の特徴量のうち寄与度の算出対象の特徴量が0である特徴量ベクトル25Gが得られる。情報処理装置100は、特徴量ベクトル25Gを予測モデル13に入力する。これにより、情報処理装置100は、出力データ33Gとして、第1の特徴量及び第2の特徴量から寄与度の算出対象の特徴量を除去した上で予測モデル13に入力した場合の予測確率を得る。例えば、性別が男性であり、職業が公務員であるユーザが金融商品を購入する確率が24%であると算出される。
 そして、情報処理装置100は、これらの予測確率の差を、特徴量の寄与度として算出する。詳しくは、情報処理装置100は、予測確率が低下した場合は特徴量が正に寄与し、予測確率が向上した場合は特徴量が負に寄与し、差の絶対値が寄与度の大きさである、と判定する。本例では、金融商品を購入する確率が32%から24%に低下しているので、年齢が24才であるという特徴量の寄与度は、8%の正の寄与度を有すると判定する。
 (6)出力処理
 情報処理装置100(例えば、生成部147)は、出力情報を生成して、出力部120から出力する。情報処理装置100は、上述した特徴量の抽出処理及び寄与度の算出処理の結果に基づいて、出力情報を生成する。
 出力情報は、第1の特徴量、第2の特徴量、各々の特徴量の寄与度、入力されたユーザ情報を予測モデルに入力して得られる予測確率、又は第1の特徴量及び第2の特徴量を予測モデルに入力して得られる予測確率の、少なくともいずれかに基づく情報を含む。これらの情報が出力情報に含まれることで、出力情報を参照した第1のユーザは、ユーザ情報に対応する第2のユーザに対し適切な施策を行うことが可能となる。
 また、情報処理装置100に、複数のユーザ(例えば、10000人のユーザ)のユーザ情報が入力されて、各々のユーザ情報に関し特徴量の抽出及び寄与度の算出が行われてもよい。そして、情報処理装置100は、各々の特徴量の寄与度の大きさ及び寄与度の正負に関する全体的な傾向を集計し、集計結果に基づく出力情報を生成してもよい。このような出力情報は、複数のユーザの全体的な傾向に基づく施策を行う場合に特に有効である。
 以下、情報処理装置100により生成される出力情報の一例として、図11~図15を参照しながら、ディスプレイ等に表示可能な画像として生成されるUI(User Interface)の例を説明する。
 図11は、本実施形態に係るUIの一例を説明するための図である。図11に示したUI210は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。UI210は、UI要素211、212及び213を含む。UI要素211では、入力されたユーザ情報のうち購入確率を上げているユーザ情報、即ち正に寄与する第1の特徴量が列挙されている。UI要素211は、列挙された第1の特徴量が予測結果(金融商品の購入確率)に正に寄与することを示している。UI要素212では、入力されたユーザ情報のうち購入確率を下げているユーザ情報、即ち負に寄与する第2の特徴量が列挙されている。UI要素212は、列挙された第2の特徴量が予測結果に負に寄与することを示している。UI要素213では、入力されたユーザ情報のうち予測に最低限必要なユーザ情報、即ち第1の特徴量及び第2の特徴量が列挙されている。UI要素213は、列挙された第1の特徴量及び第2の特徴量が予測結果に寄与することを示している。このようなUI210により、第1のユーザは、第1の特徴量及び第2の特徴量を容易に認識することができる。
 図12は、本実施形態に係るUIの一例を説明するための図である。図12に示したUI220は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。UI220は、UI要素221、222及び223を含む。UI要素221は、入力されたユーザ情報に対応するユーザが金融商品を購入する確率を、矢印を用いて示している。詳しくは、矢印の数が多いほど購入確率が高いことを示し、上方向への矢印は平均より購入確率が高いことを示し、下方向への矢印は平均より購入確率が低いことを示している。UI要素222は、入力されたユーザ情報の第1の特徴量及び第2の特徴量、並びに各々の特徴量の寄与度を、矢印を用いて示している。詳しくは、矢印の数が多いほど寄与度が大きいことを示し、上方向への矢印は正の寄与度を有すること(即ち、購入確率を向上させること)を示し、下方向への矢印は負の寄与度を有すること(即ち、購入確率を低下させること)を示している。UI要素223は、第2のユーザのどの特徴量が購入確率を向上させ、どの特徴量が購入確率を低下させているのかを、第1のユーザに対し分かりやすく説明する説明文を含んでいる。このようなUI220により、第1のユーザは、第1の特徴量及び第2の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。
 図13は、本実施形態に係るUIの一例を説明するための図である。図13に示したUI230は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。UI230は、UI要素231を含む。とりわけ、UI要素231Aは、第1の特徴量の寄与度及び第2の特徴量の寄与度を定量的に示す棒グラフである。詳しくは、横軸が寄与度を示し、棒グラフが0の軸よりも右側に延びることは特徴量が正に寄与することを示し、棒グラフが0の軸よりも左側に延びることは特徴量が負に寄与することを示し、棒グラフの長さは寄与度の大きさを示している。各々の棒グラフには、寄与度が数字で併記されている。また、UI要素231Bは、第1の特徴量及び第2の特徴量の寄与度の合計値を示す棒グラフである。例えば、平均の購入確率に寄与度の合計値を足すことで、入力されたユーザ情報に対応する第2のユーザの購入確率が算出される。このようなUI230により、第1のユーザは、第1の特徴量及び第2の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。
 図14は、本実施形態に係るUIの一例を説明するための図である。図14に示したUI240は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。UI240は、UI要素241、242及び243を含む。UI要素241は、入力されたユーザ情報に対応する第2のユーザが金融商品を購入する確率を示している。UI要素242は、第1の特徴量の寄与度及び第2の特徴量の寄与度を定量的に示す棒グラフである。詳しくは、棒グラフの模様は特徴量の寄与度の正負を示し、棒グラフの長さは寄与度の大きさを示している。UI要素243は、第2のユーザのどの特徴量が購入確率を向上させ、どの特徴量が購入確率を低下させているのかを、第1のユーザに対し分かりやすく説明する説明文を含んでいる。このようなUI240により、第1のユーザは、第1の特徴量及び第2の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。
 図15は、本実施形態に係るUIの一例を説明するための図である。図15に示したUI250は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。UI250は、UI要素251、252及び253を含む。UI要素251は、入力されたユーザ情報に対応する第2のユーザが金融商品を購入する確率を示している。UI要素252は、第1の特徴量の寄与度及び第2の特徴量の寄与度を定量的に示す円グラフである。詳しくは、円グラフの扇形の模様は特徴量の寄与度の正負を示し、円グラフの扇形の大きさは寄与度の大きさを示している。UI要素253は、第2のユーザのどの特徴量が購入確率を向上させ、どの特徴量が購入確率を低下させているのかを、第1のユーザに対し分かりやすく説明する説明文を含んでいる。このようなUI250により、第1のユーザは、第1の特徴量及び第2の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。
 (7)処理の流れ
 図16は、本実施形態に係る情報処理装置100により実行される予測根拠の提示処理の流れの一例を示すフローチャートである。図16に示すように、まず、情報処理装置100は、入力データを入力し、抽出すべき特徴量の数を設定する(ステップS102)。例えば、入力データとして項目型データであるユーザ情報が入力される。抽出すべき特徴量の数を設定は、数式(4)に示した制約条件における所定値c及びcの値を設定することに相当する。他にも、c等の他の設定が行われてもよい。次いで、情報処理装置100は、重みw及びwを初期化する(ステップS104)。
 次に、情報処理装置100は、重みw、wと学習済みの予測モデルfとを用いて、数式(3)に示した損失関数を計算する(ステップS106)。次いで、情報処理装置100は、数式(4)に示した制約条件下で、勾配方向に重みw、wを更新する。そして、情報処理装置100は、重みw、wは収束したか否かを判定する(ステップS110)。情報処理装置100は、収束したと判定されるまで、損失関数の計算(ステップS106)、及び重みw、wの更新(ステップS108)を繰り返す(ステップS110/NO)。このような最適化問題の計算アルゴリズムとしては、勾配降下法、AdaGrad及びAdam等の確率的勾配降下法、ニュートン法、直線探索法、パーティクルフィルタ、又は遺伝的アルゴリズム等の任意のアルゴリズムが採用され得る。
 収束したと判定された場合(ステップS110/YES)、情報処理装置100は、重みwに基づいて、正に寄与する特徴量である第1の特徴量を抽出し、当該第1の特徴量の寄与度を計算する(ステップS112)。詳しくは、重みwによるマスクにより除去されずに残った特徴量を、第1の特徴量として抽出する。そして、情報処理装置100は、当該第1の特徴量の寄与度を、上述した第1又は第2の寄与度算出方法により算出する。
 次いで、情報処理装置100は、重みwに基づいて、負に寄与する特徴量である第2の特徴量を抽出し、当該第2の特徴量の寄与度を計算する(ステップS114)。詳しくは、重みwによるマスクにより除去されずに残った特徴量を、第2の特徴量として抽出する。そして、情報処理装置100は、当該第2の特徴量の寄与度を、上述した第1又は第2の寄与度算出方法により算出する。
 次に、情報処理装置100は、正に寄与する特徴量である第1の特徴量と負に寄与する特徴量である第2の特徴量とを用いて予測を行う(ステップS116)。詳しくは、情報処理装置100は、第1の特徴量と第2の特徴量とを予測モデルに入力して、予測確率を得る。
 そして、情報処理装置100は、出力情報を生成して出力する(ステップS118)。例えば、情報処理装置100は、上記ステップS112~S116における処理結果に基づいてUIを生成して出力する。
 <<4.ユースケース>>
 以下、本実施形態に係る情報処理装置100のユースケースの一例を説明する。
 (1)第1のユースケース
 本ユースケースは、どの金融商品をどのような顧客に対し売り込むか、というマーケティングに関する。
 まず、金融商品販売の担当者(即ち、第1のユーザ)は、過去のユーザデータ及び金融商品の購入結果を教師データとして情報処理装置100に入力することで、どのような顧客が何の金融商品を購入しやすいかを予測する予測モデルを学習させる。
 次いで、担当者は、新規顧客(即ち、第2のユーザ)のユーザ情報を情報処理装置100に入力する。これにより、担当者は、新規顧客がどんな金融商品をどの位の確率で購入するか、及びその予測の根拠(第1の特徴量、第2の特徴量、及び各々の特徴量の寄与度)を知ることができる。担当者は、これらの情報に基づいて、新規顧客に対し販促活動を行うことができる。
 また、担当者は、複数の顧客のユーザ情報に基づく集計処理により得られた特徴量の全体的な傾向に基づいて施策を行ってもよい。例えば、ある金融商品が、ある年代、職業、地域の顧客に好まれることが全体的な傾向として判定された場合、担当者は、該当する顧客層を中心に販促活動を行う等の施策を行うことで、売上向上を目指すことができる。また、担当している担当者が負に寄与していると判定された場合には、担当者は、他者に担当を変更する等に施策をとることも可能である。
 (2)第2のユースケース
 本ユースケースは、音楽配信サービスの離脱率予測、及び離脱防止のための施策に関する。
 まず、音楽配信サービスの担当者(即ち、第1のユーザ)は、過去のユーザデータ及び音楽配信サービスの離脱結果を教師データとして情報処理装置100に入力することで、どのような顧客が離脱しやすいかを予測する予測モデルを学習させる。
 次いで、担当者は、注目顧客(即ち、第2のユーザ)のユーザ情報を情報処理装置100に入力する。これにより、担当者は、注目顧客の離脱確率、及びその予測の根拠(第1の特徴量、第2の特徴量、及び各々の特徴量の寄与度)を知ることができる。担当者は、これらの情報に基づいて、注目顧客に対し離脱防止のための施策を行うことができる。
 また、担当者は、複数の顧客のユーザ情報に基づく集計処理により得られた特徴量の全体的な傾向に基づいて施策を行ってもよい。例えば、契約してから3か月以内の顧客の離脱率が高いと判定された場合、担当者は、それらのユーザに割引キャンペーンなどの施策を実施する。また、メールマガジンなどの配信が離脱に対して負に寄与していると判定された場合、担当者は、メールマガジンなどの配信を停止する。
 (3)第3のユースケース
 本ユースケースは、EC(electronic commerce)サイトでのレコメンデーションの理由提示、及びユーザプロフィールの入力アシストに関する。
 まず、ECサイトの担当者(即ち、第1のユーザ)は、過去のユーザデータ及び商品購入結果を教師データとして情報処理装置100に入力することで、どのような顧客がどのような商品を購入しやすいかを予測する予測モデルを学習させる。なお、本例における担当者は、典型的にはAI(artificial intelligence)である。
 次いで、担当者は、新規顧客(即ち、第2のユーザ)のユーザ情報を情報処理装置100に入力する。これにより、担当者は、新規顧客がどんな商品をどの位の確率で購入するか、及びその予測の根拠(第1の特徴量、第2の特徴量、及び各々の特徴量の寄与度)を知ることができる。担当者は、これらの情報に基づいて、新規顧客に対し商品の推薦を行うことができる。その際に、担当者は、なぜその商品を推薦するのか、という予測の根拠を新規顧客に提示する(例えば、過去にある商品を購入したから、等)。
 また、担当者は、複数の顧客のユーザ情報に基づく集計処理により得られた特徴量の全体的な傾向に基づいて、ユーザプロフィールの入力アシストを行ってもよい。例えば、ある未入力のデータ項目に関し、寄与度が大きい傾向がある場合には、担当者は、当該未入力のデータ項目を入力するよう、新規顧客に促す。これにより、予測精度を向上させて、商品推薦の精度を向上させることができる。
 (4)第4のユースケース
 本ユースケースは、不動産物件サイトの多変量A/Bテストにおける効果の分析に関する。
 例えば、Webページを閲覧した閲覧者が不動産物件について問い合わせすることをKPI(Key Performance Indicator)として、WebページのA/Bテストが実施されるものとする。具体的には、不動産物件の表示する写真を変える、物件の紹介文書を変える、導線を変える、文字のフォントを変える、等の様々な設定変更が行われながら、A/Bテストが実施される。
 不動産物件サイトの担当者(即ち、第1のユーザ)は、閲覧者がどの設定が採用されたWebページを閲覧していたか、及び不動産物件への問い合わせ有無を教師データとして情報処理装置100に入力する。これにより、どの設定が採用された場合に不動産物件への問い合わせがされやすいかを予測する予測モデルが学習される。
 これにより、どの設定が不動産物件の問い合わせのされやすさに寄与するかが抽出される。よって、担当者は、負に寄与する設定をA/Bテストの対象から除外したり、正に寄与する設定を本実装として採用して全ユーザに公開したりすることができる。
 <<5.変形例>>
 本変形例は、抽出された特徴量及びその寄与度に基づく文章が自動的に生成される例である。本変形例によれば、例えば、図12におけるUI要素223、図14におけるUI要素243、及び図15におけるUI要素253の各々に含まれる説明文を、自動的に生成することができる。
 出力情報は、第1の特徴量及び当該第1の特徴量の寄与度、並びに/又は第2の特徴量及び当該第2の特徴量の寄与度に基づいて生成される文章を含み得る。例えば、情報処理装置100(例えば、生成部147)は、寄与度の大きい第1の特徴量及び/又は第2の特徴量に基づいて、予測の根拠を説明する文章を生成する。これにより、予測の根拠として特に説明すべき、寄与度の大きい特徴量に言及した説明文が自動的に生成される。よって、第1のユーザは、予測の根拠を容易に認識することができる。生成される文章の具体例については、後に図17を参照しながら説明する。
 出力情報は、第1の特徴量及び/又は第2の特徴量に関する複数の入力データ全体の統計量に基づいて生成される文章を含み得る。例えば、情報処理装置100(例えば、生成部147)は、特定の特徴量を有する入力データ全体の統計量と、当該特定の特徴量の有無を問わない入力データ全体の統計量との比較結果に基づいて、予測の根拠を説明する文章を説明する。これにより、特定の特徴量を有する顧客に共通する傾向であって、全体平均と相違する傾向に言及した説明文が自動的に生成される。よって、第1のユーザは、顧客の特徴量が予測にどう影響する傾向にあるかを、容易に認識することができる。生成される文章の具体例については、以下に図17を参照しながら説明する。
 図17は、本変形例に係るUIの一例を説明するための図である。表261は、ひとりの顧客の入力データの特徴量、各々の特徴量の寄与度、及び成約確率(即ち、予測確率)から成る、データの内容を示している。表261に示したデータを、以下では個別データとも称する。表262は、予測対象である顧客全体の入力データの統計量の内容を示している。表262は、顧客全体の入力データにおける、特徴量ごとの該当人数、成約人数、成約率、及び不成約率を含む。表262に示したデータを、以下では共通データとも称する。情報処理装置100は、これら個別データ及び共通データに基づいて、説明文263を生成する。具体的には、個別データにおける、特徴量「第一子:有り」が「+27.4%」の正の寄与度を有することに基づいて、説明文「第一子がいることが成約確率の向上に27.4%寄与しています。」が生成される。また、共通データにおける、特徴量「第一子:有り」を有する顧客の成約率「30%」と顧客全体の成約率「14%」との差分に基づいて、説明文「第一子が有りの場合、成約率は全体平均よりも16%大きいです。」が生成される。
 情報処理装置100は、文章生成モデルを学習し、学習済みの文章生成モデルを用いて、予測の根拠を説明する文章を生成する。これら一連の流れについて、図18を参照しながら説明する。
 図18は、本変形例に係る文章生成の流れを概略的に示す図である。図18に示すように、まず、抽出部145は、複数の入力データの各々について、寄与度を算出し、正に寄与する特徴量及び負に寄与する特徴量の各々を抽出する(ステップS202)。次いで、学習部143は、複数の入力データの各々についての、入力データ、特徴量、及び寄与度、並びにこれらの情報から生成されるべき予測の根拠を示す説明文(即ち、教師ラベル)を教師データとして、文章生成モデルを学習する(ステップS204)。なお、教師ラベルは、人力で生成され得る。以上説明した処理が、文章生成モデルの学習ステップである。
 次いで、学習済みの文章生成モデルを用いた文章生成ステップについて説明する。まず、抽出部145は、予測対象の入力データについて、寄与度を算出し、正に寄与する特徴量及び負に寄与する特徴量の各々を抽出する(ステップS206)。次いで、生成部147は、予測対象の入力データ、予測対象の入力データから抽出及び算出された特徴量及び寄与度を、学習済みの文章生成モデルに入力することで、予測の根拠を示す説明文を生成する(ステップS208)。
 ここで、文章の生成には、Table-to-textと称される、表形式データを文章に変換する技術が用いられ得る。Table-to-text技術の一手法として、Seq2Seq法がある。Seq2Seq法は、表形式データを潜在変数に落とし込むエンコーダと、潜在変数に基づいて文章を構成するデコーダとを用いる手法である。Seq2Seq法では、表形式データの項目名と項目値とを(Key,Value)としてLSTM(Long short-term memory)に入力して、教師データの文章を出力するような、文章生成モデルが学習される。学習済みの文章生成モデルに表形式データを入力すると、表形式データを説明する説明文が出力される。Seq2Seq法については、「Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang and Zhifang Sui,“Table-to-text Generation by Structure-aware Seq2seq Learning”,AAAI,2018.」に詳しく説明されている。以下では一例として、図19を参照しながら、Seq2Seq法を用いた文章生成について説明する。
 図19は、本変形例に係る文章生成モデルの詳細を説明するための図である。図19では、LSTMにより構成されたエンコーダが示されている。変数間の矢印での接続は、時系列関係を示している。Seq2Seq法においては、フィールド変数zにはデータ項目が入力され、潜在変数hにはフィールド変数zに入力されるデータ項目に対応するデータ値が入力される。本変形例では、エンコーダに個別データ(特徴量、寄与度、又は予測確率)が入力される。詳しくは、フィールド変数z及び潜在変数hに個別データのデータ項目及びデータ値が入力される。例えば、zにはデータ項目「第一子有無」が入力され、hには当該データ項目「第一子有無」の特徴量「有り」が入力される。さらに、本変形例では、潜在変数hの各々に、共通データが入力される。詳しくは、本変形例では、共通データがより少ない次元の特徴量ベクトルhに変換された上で、潜在変数hの各々に入力される。潜在変数hへの入力の際には、重みaが適用される。なお、iはインデックスであり、0≦i≦mの整数であり、mは個別データに含まれるデータ項目の個数に相当する。
 本変形例では、上記説明したようにエンコーダに個別データ及び共通データが入力されて、エンコーダの学習が行われる。重みaも、学習対象のひとつである。学習の結果得られたエンコーダを用いることで、顧客個人の入力データの特徴量、当該特徴量の寄与度、及び当該特徴量に関する顧客全体の統計量に基づいた文章を、自動的に生成することが可能となる。
 <<6.ハードウェア構成例>>
 最後に、図20を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図20は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図20に示す情報処理装置900は、例えば、図7に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図20に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図7に示す制御部140を形成し得る。本実施形態では、CPU901は、入力データへの前処理、予測モデルの学習、特徴量の抽出、特徴量の寄与度の算出、及び出力情報の生成を行う。
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば、図7に示す入力部110を形成し得る。本実施形態では、入力装置906は、教師データ、特徴量の抽出及び寄与度の算出対象の入力データの入力、抽出すべき特徴量の数の設定等の入力を受け付ける。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図7に示す出力部120を形成し得る。本実施形態では、出力装置907は、出力情報を出力する。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図7に示す記憶部130を形成し得る。本実施形態では、ストレージ装置908は、予測モデルの学習結果、特徴量の抽出結果及び特徴量の寄与度を記憶する。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
 通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
 なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 <<7.まとめ>>
 以上、図1~図20を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置100は、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する。情報処理装置100は、正に寄与する第1の特徴量だけでなく、負に寄与する第2の特徴量をも抽出することができる。従って、情報処理装置100は、予測結果に対し負に寄与する特徴量が存在する場合であっても、予測の根拠を適切に特定することができる。また、情報処理装置100は、予測に寄与する必要最小限の特徴量を特定することができる。
 情報処理装置100は、第1の特徴量及び第2の特徴量の各々の寄与度を算出する。これにより、情報処理装置100は、予測の根拠をより詳細に特定することができる。
 情報処理装置100は、抽出した第1の特徴量、第2の特徴量、及び/又は算出した各々の特徴量の寄与度等を含む出力情報を生成して、出力する。これにより、出力情報を参照した第1のユーザは、出力情報に基づいて、ユーザ情報に対応する第2のユーザに対し適切な施策を行うことが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記実施形態では、対象とするデータが項目型データである例を説明したが、本技術はかかる例に限定されない。例えば、対象とするデータは画像であってもよい。例えば、金融商品の購入確率の予測に関しては、情報処理装置100は、顧客が写った画像のうち、購入確率を向上させる要素が写った領域と購入確率を低下させる要素が写った領域とを特定し、各々を予測の根拠として提示してもよい。
 また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、
を備える情報処理装置。
(2)
 前記制御部は、前記第1の特徴量が前記予測結果に正に寄与すること、及び前記第2の特徴量が前記予測結果に負に寄与することを示す出力情報を生成する、前記(1)に記載の情報処理装置。
(3)
 前記出力情報は、前記第1の特徴量の寄与度及び前記第2の特徴量の寄与度を示す情報を含む、前記(2)に記載の情報処理装置。
(4)
 前記出力情報は、前記第1の特徴量の寄与度及び前記第2の特徴量の寄与度を定量的に示すグラフを含む、前記(3)に記載の情報処理装置。
(5)
 前記出力情報は、前記第1の特徴量及び前記第1の特徴量の寄与度、並びに/又は前記第2の特徴量及び前記第2の特徴量の寄与度に基づいて生成される文章を含む、前記(3又は(4)に記載の情報処理装置。
(6)
 前記制御部は、
 第1の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第1の項と、
 第2の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第2の項と、
を含む損失関数を最小化する前記第1の重み及び前記第2の重みを求め、
 前記第1の重みにより除去されない特徴量を前記第1の特徴量として抽出し、
 前記第2の重みにより除去されない特徴量を前記第2の特徴量として抽出する、前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
 前記制御部は、所定の制約条件下で前記損失関数を最小化し、
 前記所定の制約条件は、前記第1の特徴量の数が第1の閾値以下であること、及び前記第2の特徴量の数が第2の閾値以下であることを含む、前記(6)に記載の情報処理装置。
(8)
 前記所定の制約条件は、前記第1の特徴量を前記予測モデルに入力して得られる予測結果と前記第2の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第3の閾値以下であることをさらに含む、前記(7)に記載の情報処理装置。
(9)
 前記制御部は、前記第1の特徴量及び前記第2の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記制御部は、前記第1の特徴量及び前記第2の特徴量の寄与度として、前記第1の特徴量及び前記第2の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第1の特徴量及び前記第2の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(11)
 前記非線形モデルは、ニューラルネットである、前記(1)~(10)のいずれか一項に記載の情報処理装置。
(12)
 前記入力データは、複数のデータ項目のデータを含む、前記(1)~(11)のいずれか一項に記載の情報処理装置。
(13)
 非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出すること、
を含む、プロセッサにより実行される情報処理方法。
(14)
 第1の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第1の項と、
 第2の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第2の項と、
を含む損失関数を最小化する前記第1の重み及び前記第2の重みを求め、
 前記第1の重みにより除去されない特徴量を前記第1の特徴量として抽出し、
 前記第2の重みにより除去されない特徴量を前記第2の特徴量として抽出すること、
をさらに含む、前記(13)に記載の情報処理方法。
(15)
 所定の制約条件下で前記損失関数を最小化することをさらに含み、
 前記所定の制約条件は、前記第1の特徴量の数が第1の閾値以下であること、及び前記第2の特徴量の数が第2の閾値以下であることを含む、前記(14)に記載の情報処理方法。
(16)
 前記所定の制約条件は、前記第1の特徴量を前記予測モデルに入力して得られる予測結果と前記第2の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第3の閾値以下であることをさらに含む、前記(15)に記載の情報処理方法。
(17)
 前記第1の特徴量及び前記第2の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、前記(13)~(16)のいずれか一項に記載の情報処理方法。
(18)
 前記第1の特徴量及び前記第2の特徴量の寄与度として、前記第1の特徴量及び前記第2の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第1の特徴量及び前記第2の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、前記(13)~(16)のいずれか一項に記載の情報処理方法。
(19)
 コンピュータを、
 非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、
として機能させるためのプログラム。
 100  情報処理装置
 110  入力部
 120  出力部
 130  記憶部
 140  制御部
 141  前処理部
 143  学習部
 145  抽出部
 147  生成部

Claims (19)

  1.  非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、
    を備える情報処理装置。
  2.  前記制御部は、前記第1の特徴量が前記予測結果に正に寄与すること、及び前記第2の特徴量が前記予測結果に負に寄与することを示す出力情報を生成する、請求項1に記載の情報処理装置。
  3.  前記出力情報は、前記第1の特徴量の寄与度及び前記第2の特徴量の寄与度を示す情報を含む、請求項2に記載の情報処理装置。
  4.  前記出力情報は、前記第1の特徴量の寄与度及び前記第2の特徴量の寄与度を定量的に示すグラフを含む、請求項3に記載の情報処理装置。
  5.  前記出力情報は、前記第1の特徴量及び前記第1の特徴量の寄与度、並びに/又は前記第2の特徴量及び前記第2の特徴量の寄与度に基づいて生成される文章を含む、請求項3に記載の情報処理装置。
  6.  前記制御部は、
     第1の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第1の項と、
     第2の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第2の項と、
    を含む損失関数を最小化する前記第1の重み及び前記第2の重みを求め、
     前記第1の重みにより除去されない特徴量を前記第1の特徴量として抽出し、
     前記第2の重みにより除去されない特徴量を前記第2の特徴量として抽出する、請求項1に記載の情報処理装置。
  7.  前記制御部は、所定の制約条件下で前記損失関数を最小化し、
     前記所定の制約条件は、前記第1の特徴量の数が第1の閾値以下であること、及び前記第2の特徴量の数が第2の閾値以下であることを含む、請求項6に記載の情報処理装置。
  8.  前記所定の制約条件は、前記第1の特徴量を前記予測モデルに入力して得られる予測結果と前記第2の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第3の閾値以下であることをさらに含む、請求項7に記載の情報処理装置。
  9.  前記制御部は、前記第1の特徴量及び前記第2の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出する、請求項1に記載の情報処理装置。
  10.  前記制御部は、前記第1の特徴量及び前記第2の特徴量の寄与度として、前記第1の特徴量及び前記第2の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第1の特徴量及び前記第2の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出する、請求項1に記載の情報処理装置。
  11.  前記非線形モデルは、ニューラルネットである、請求項1に記載の情報処理装置。
  12.  前記入力データは、複数のデータ項目のデータを含む、請求項1に記載の情報処理装置。
  13.  非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出すること、
    を含む、プロセッサにより実行される情報処理方法。
  14.  第1の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第1の項と、
     第2の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第2の項と、
    を含む損失関数を最小化する前記第1の重み及び前記第2の重みを求め、
     前記第1の重みにより除去されない特徴量を前記第1の特徴量として抽出し、
     前記第2の重みにより除去されない特徴量を前記第2の特徴量として抽出すること、
    をさらに含む、請求項13に記載の情報処理方法。
  15.  所定の制約条件下で前記損失関数を最小化することをさらに含み、
     前記所定の制約条件は、前記第1の特徴量の数が第1の閾値以下であること、及び前記第2の特徴量の数が第2の閾値以下であることを含む、請求項14に記載の情報処理方法。
  16.  前記所定の制約条件は、前記第1の特徴量を前記予測モデルに入力して得られる予測結果と前記第2の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第3の閾値以下であることをさらに含む、請求項15に記載の情報処理方法。
  17.  前記第1の特徴量及び前記第2の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、請求項13に記載の情報処理方法。
  18.  前記第1の特徴量及び前記第2の特徴量の寄与度として、前記第1の特徴量及び前記第2の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第1の特徴量及び前記第2の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、請求項13に記載の情報処理方法。
  19.  コンピュータを、
     非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第1の特徴量と負に寄与する第2の特徴量とを抽出する制御部、
    として機能させるためのプログラム。
PCT/JP2018/044108 2017-12-25 2018-11-30 情報処理装置、情報処理方法及びプログラム WO2019130974A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/478,550 US20200050932A1 (en) 2017-12-25 2018-11-30 Information processing apparatus, information processing method, and program
EP18897535.3A EP3588392A4 (en) 2017-12-25 2018-11-30 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
JP2019540686A JP7226320B2 (ja) 2017-12-25 2018-11-30 情報処理装置、情報処理方法及びプログラム
CN201880012459.XA CN110326005A (zh) 2017-12-25 2018-11-30 信息处理设备、信息处理方法及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017247418 2017-12-25
JP2017-247418 2017-12-25

Publications (1)

Publication Number Publication Date
WO2019130974A1 true WO2019130974A1 (ja) 2019-07-04

Family

ID=67063513

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/044108 WO2019130974A1 (ja) 2017-12-25 2018-11-30 情報処理装置、情報処理方法及びプログラム

Country Status (5)

Country Link
US (1) US20200050932A1 (ja)
EP (1) EP3588392A4 (ja)
JP (1) JP7226320B2 (ja)
CN (1) CN110326005A (ja)
WO (1) WO2019130974A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021022159A (ja) * 2019-07-26 2021-02-18 株式会社 日立産業制御ソリューションズ 説明支援装置、および、説明支援方法
WO2022186182A1 (ja) * 2021-03-04 2022-09-09 日本電気株式会社 予測装置、予測方法、及び、記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901763A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 一种表格描述文本生成方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018358A (ja) * 2014-07-08 2016-02-01 富士通株式会社 データ分類方法、データ分類プログラム、及び、データ分類装置
JP2016148927A (ja) * 2015-02-10 2016-08-18 日本電信電話株式会社 情報提示装置、方法、及びプログラム
JP2017123088A (ja) 2016-01-08 2017-07-13 安川情報システム株式会社 決定木学習アルゴリズムを用いた予測プログラム、装置及び方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5361201A (en) * 1992-10-19 1994-11-01 Hnc, Inc. Real estate appraisal using predictive modeling
US20110307413A1 (en) * 2010-06-15 2011-12-15 Oracle International Corporation Predicting the impact of a personnel action on a worker
US20110307303A1 (en) * 2010-06-14 2011-12-15 Oracle International Corporation Determining employee characteristics using predictive analytics
RU2703343C2 (ru) * 2015-03-20 2019-10-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Назначение оценки релевантности для искусственных нейронных сетей
US11934934B2 (en) * 2017-04-17 2024-03-19 Intel Corporation Convolutional neural network optimization mechanism
US20190052722A1 (en) * 2017-08-11 2019-02-14 Lincoln Gasking Distributed reputational database
US11250340B2 (en) * 2017-12-14 2022-02-15 Microsoft Technology Licensing, Llc Feature contributors and influencers in machine learned predictive models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018358A (ja) * 2014-07-08 2016-02-01 富士通株式会社 データ分類方法、データ分類プログラム、及び、データ分類装置
JP2016148927A (ja) * 2015-02-10 2016-08-18 日本電信電話株式会社 情報提示装置、方法、及びプログラム
JP2017123088A (ja) 2016-01-08 2017-07-13 安川情報システム株式会社 決定木学習アルゴリズムを用いた予測プログラム、装置及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP3588392A4
TIANYU LIUKEXIANG WANGLEI SHABAOBAO CHANGZHIFANG SUI: "Table-to-text Generation by Structure-aware Seq2seq Learning", AAAI, 2018

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021022159A (ja) * 2019-07-26 2021-02-18 株式会社 日立産業制御ソリューションズ 説明支援装置、および、説明支援方法
JP7161979B2 (ja) 2019-07-26 2022-10-27 株式会社 日立産業制御ソリューションズ 説明支援装置、および、説明支援方法
WO2022186182A1 (ja) * 2021-03-04 2022-09-09 日本電気株式会社 予測装置、予測方法、及び、記録媒体

Also Published As

Publication number Publication date
JP7226320B2 (ja) 2023-02-21
JPWO2019130974A1 (ja) 2020-11-19
EP3588392A1 (en) 2020-01-01
EP3588392A4 (en) 2020-05-20
CN110326005A (zh) 2019-10-11
US20200050932A1 (en) 2020-02-13

Similar Documents

Publication Publication Date Title
JP7322714B2 (ja) 情報処理装置、情報処理方法及びプログラム
US9275116B2 (en) Evaluation predicting device, evaluation predicting method, and program
Tao et al. HoAFM: a high-order attentive factorization machine for CTR prediction
CN107851097B (zh) 数据分析系统、数据分析方法、数据分析程序及存储介质
EP2428926A2 (en) Rating prediction device, rating prediction method, and program
CN112163165A (zh) 信息推荐方法、装置、设备及计算机可读存储介质
US10726466B2 (en) System and method for recommending products to bridge gaps between desired and actual personal branding
WO2019130974A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN106485227A (zh) 一种基于视频面部表情的客户满意度分析方法
CN109472462B (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
Alahmadi et al. Twitter-based recommender system to address cold-start: A genetic algorithm based trust modelling and probabilistic sentiment analysis
CN112541639B (zh) 基于图神经网络和注意力机制的推荐系统评分预测方法
JP7318646B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112368720A (zh) 信息处理设备、信息处理方法和程序
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
Khan et al. Comparative analysis on Facebook post interaction using DNN, ELM and LSTM
EP3702994A1 (en) Determination program, determination method, and information processing apparatus
Bolin et al. Scale dependence: Why the average CRPS often is inappropriate for ranking probabilistic forecasts
US20180121987A1 (en) System and Method for Enabling Personal Branding
Gangwar et al. An adaptive boosting technique to mitigate popularity bias in recommender system
Desai Machine Learning for Economics Research: When What and How?
CN112200602A (zh) 用于广告推荐的神经网络模型训练方法及装置
Zhang et al. Debiasing Machine-Learning-or AI-Generated Regressors in Partial Linear Models
Motte Mathematical models for large populations, behavioral economics, and targeted advertising
Yin Research on intelligent recommendation algorithm of literature based on knowledge graph technology

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019540686

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18897535

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018897535

Country of ref document: EP

Effective date: 20190923

NENP Non-entry into the national phase

Ref country code: DE