WO2020255414A1 - 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2020255414A1
WO2020255414A1 PCT/JP2019/024832 JP2019024832W WO2020255414A1 WO 2020255414 A1 WO2020255414 A1 WO 2020255414A1 JP 2019024832 W JP2019024832 W JP 2019024832W WO 2020255414 A1 WO2020255414 A1 WO 2020255414A1
Authority
WO
WIPO (PCT)
Prior art keywords
error
pattern
countermeasure
learning
cause
Prior art date
Application number
PCT/JP2019/024832
Other languages
English (en)
French (fr)
Inventor
優太 芦田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/024832 priority Critical patent/WO2020255414A1/ja
Priority to JP2021528632A priority patent/JP7207540B2/ja
Priority to US17/618,098 priority patent/US20220327394A1/en
Publication of WO2020255414A1 publication Critical patent/WO2020255414A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Definitions

  • the present invention relates to a learning support device and a learning support method that support learning of a prediction model, and further to a computer-readable recording medium that records a program for realizing these.
  • the residuals (difference between the predicted value and the actual value) of all the training samples (hereinafter referred to as samples) such as RMSE (Root Mean Squared Error) and MAE (Mean Absolute Error) are generally averaged. Accuracy indicators are used. By calculating these accuracy indexes, it is possible to evaluate the relative good / bad with other analysis results.
  • the calculated accuracy index does not include the information used to infer the cause of the prediction model not satisfying the accuracy. Therefore, it is difficult for a predictive analyst to consider what kind of learning should be given to the predictive model to improve the predictive accuracy.
  • Non-Patent Document 1 discloses a technique for presenting a feature amount that differentiates a sample group having good prediction accuracy from a sample group having poor prediction accuracy in order to improve the accuracy of the learned prediction model. There is.
  • samples are first classified based on the residuals of each sample, and then classified into a sample cluster having a large residual and a sample cluster having a small residual. Then, in each sample cluster, the distribution of the features used in the prediction is estimated.
  • the Kullback-Leibler divergence of the distribution of each feature estimated between the two sample clusters is calculated, and the features are calculated in descending order of Kullback-Leibler divergence. Visualize the distribution of. By doing so, for example, the predictive analysis worker can grasp the feature amount that differentiates the sample group having a large residual from the sample group having a small residual.
  • Non-Patent Document 1 it is possible to present to the predictive analysis worker a feature amount that differentiates the sample group that is difficult to predict from the sample group that is easy to predict.
  • Non-Patent Document 1 can only present to the predictive analysis worker a single feature amount that differentiates the sample group that is difficult to predict from the sample group that is easy to predict. Therefore, the technique disclosed in Non-Patent Document 1 can deal with cases where it is possible to distinguish between a sample group that is difficult to predict and a sample group that is easy to predict based on only a single feature amount, but there are a plurality of cases. If it is possible to differentiate based on the combination of the features of, it cannot be dealt with.
  • Non-Patent Document 1 can grasp the feature amount that differentiates, information indicating whether or not the feature amount really contributes to the prediction error is not presented.
  • Non-Patent Document 1 does not provide information indicating countermeasures for improving accuracy, so the analyst must consider the countermeasures.
  • An example of an object of the present invention is to provide a learning support device, a learning support method, and a computer-readable recording medium that generate information used to improve the prediction accuracy of a prediction model.
  • the learning support device in one aspect of the present invention is A feature pattern extraction means that extracts a pattern of features that differentiates the classified samples using the samples classified based on the residuals and the features used for training the prediction model.
  • An error contribution calculation means for calculating an error contribution to a prediction error of the feature pattern by using the extracted feature pattern and the residual. It is characterized by having.
  • the learning support method in one aspect of the present invention is: (A) Using the sample classified based on the residual and the feature amount used for learning the prediction model, a pattern of the feature amount that differentiates the classified sample is extracted. (B) It is characterized in that the error contribution to the prediction error of the feature amount pattern is calculated by using the extracted feature amount pattern and the residual.
  • a computer-readable recording medium on which a program according to one aspect of the present invention is recorded is provided.
  • FIG. 1 is a diagram showing an example of a learning support device.
  • FIG. 2 is a diagram showing an example of a system having a learning support device.
  • FIG. 3 is a diagram showing an example of a decision tree model for discriminating between a sample having a large error and a sample having a small error.
  • FIG. 4 is a diagram showing an example of the operation of the learning support device according to the first embodiment.
  • FIG. 5 is a diagram showing an example of a system having a learning support device according to the second embodiment.
  • FIG. 6 is a diagram showing an example of the operation of the learning support device according to the second embodiment.
  • FIG. 7 is a diagram showing an example of a system having a learning support device according to the third embodiment.
  • FIG. 8 is a diagram showing an example of the operation of the learning support device according to the third embodiment.
  • FIG. 9 is a diagram showing an example of a computer that realizes the learning support device according to the first, second, and third embodiments.
  • FIG. 1 is a diagram showing an example of a learning support device.
  • the learning support device 1 shown in FIG. 1 is a device that generates information used to improve the prediction accuracy of the prediction model. Further, as shown in FIG. 1, the learning support device 1 has a feature pattern extraction unit 2 and an error contribution calculation unit 3.
  • the feature pattern extraction unit 2 extracts a pattern of the feature amount that differentiates the classified sample by using the sample classified based on the residual and the feature amount used for learning the prediction model. ..
  • the error contribution calculation unit 3 calculates the error contribution to the prediction error of the feature pattern by using the extracted feature pattern and the residual.
  • the information used to improve the prediction accuracy of the prediction model is used through the output device. , Administrators, developers, analysts and other users. Therefore, the user can easily perform the work of improving the prediction accuracy of the prediction model.
  • FIG. 2 is a diagram showing an example of a system having a learning support device according to the first embodiment.
  • the system in the first embodiment includes a prediction model management system 10A, an input device 20, an output device 30, and an analysis data storage unit 40.
  • the prediction model management system 10A inputs a plurality of samples in the learning phase and generates a prediction model. In the operation phase, the prediction model management system 10A inputs the settings, feature quantities, objective variables, etc. used for the prediction analysis into the prediction model and performs the prediction analysis.
  • the prediction model management system 10A evaluates the prediction accuracy of the prediction model after learning the prediction model. Further, the prediction model management system 10A calculates the residual for each sample after learning the prediction model.
  • the prediction model management system 10A generates support information for supporting the work of the user used to improve the prediction accuracy of the prediction model after learning the prediction model.
  • the prediction model management system 10A is, for example, an information processing device such as a server computer. The details of the prediction model management system 10A will be described later.
  • the input device 20 inputs the prediction analysis setting to the prediction model management system 10A.
  • the predictive analysis setting is, for example, information used for setting a parameter and a model used for the predictive analysis.
  • the input device 20 inputs the sample classification setting to the learning support device 1A.
  • the sample classification setting is, for example, information for setting parameters used for classifying samples, a classification method, and the like.
  • the input device 20 is, for example, an information processing device such as a personal computer.
  • the output device 30 acquires the output information converted into an outputable format by the output information generation unit 12, and outputs the generated image, sound, and the like based on the acquired output information.
  • the output information generation unit 12 will be described later.
  • the output device 30 is, for example, an image display device using a liquid crystal, an organic EL (Electro Luminescence), or a CRT (Cathode Ray Tube). Further, the image display device may include an audio output device such as a speaker. The output device 30 may be a printing device such as a printer.
  • the analysis data storage unit 40 stores the analysis data (feature amount (explanatory variable) and prediction target data (objective variable) for each sample) used in the prediction model management device 11 and the learning support device 1A.
  • the analysis data storage unit 40 is, for example, a storage device such as a database. In the example of FIG. 2, the analysis data storage unit 40 is provided outside the prediction model management system 10A, but may be provided inside the prediction model management system 10A.
  • the prediction model management system 10A includes a prediction model management device 11, an output information generation unit 12, a residual storage unit 13, and a learning support device 1A.
  • the prediction model management device 11 acquires the prediction analysis setting information from the input device 20 in the operation phase. In addition, the prediction model management device 11 acquires information such as objective variables and feature amounts used for prediction analysis from the analysis data storage unit 40 in the operation phase. After that, the prediction model management device 11 executes the prediction analysis using the acquired information, and stores the prediction analysis result in a storage unit (not shown).
  • the learning, evaluation, and residual processing of the prediction model executed by the prediction model management device 11 will be described later.
  • the output information generation unit 12 converts the information to be output to the output device 30, that is, the information to be presented to the user, and generates the output information that can be output to the output device 30.
  • the information to be presented to the user is, for example, the evaluation result of the prediction model learned by the model learning unit 101, the classification result calculated by the sample classification unit 4, the pattern of the feature amount extracted by the feature pattern extraction unit 2, and the error contribution. This is information such as an error contribution degree calculated by the degree calculation unit 3.
  • the residual storage unit 13 stores the residuals of the prediction model calculated by the residual calculation unit 103.
  • the residual storage unit 13 is, for example, a storage device such as a database. Although the residual storage unit 13 is provided outside the prediction model management device 11 in FIG. 2, it may be provided inside the prediction model management device 11.
  • the learning support device 1A generates information used by the user in order to improve the prediction accuracy of the prediction model.
  • the learning support device 1A may be provided in the prediction model management system 10A, or may be provided outside the prediction model management system 10A. The learning support device 1A will be described later.
  • the prediction model management device 11 has a model learning unit 101, a model evaluation unit 102, and a residual calculation unit 103.
  • the model learning unit 101 receives information such as a learning execution instruction for causing the prediction model to execute learning from the input device 20, learning settings used for learning the prediction model, and a sample used for learning from the analysis data storage unit 40. get.
  • the learning settings are information such as, for example, a base model, a learning algorithm specification, and hyperparameters of the learning process.
  • the model learning unit 101 executes learning of the prediction model using the acquired information, and generates a prediction model.
  • the model learning unit 101 stores the generated prediction model in a storage unit provided inside the prediction model management device 11 or a storage unit (not shown) provided outside the prediction model management device 11.
  • the model evaluation unit 102 evaluates the performance such as the error of the prediction model learned by the model learning unit 101. Specifically, the model evaluation unit 102 calculates the evaluation value of the prediction model, that is, the value used for error evaluation such as RMSE and the learning end determination of the learning algorithm (for example, likelihood) after learning the prediction model. ..
  • the evaluation of the prediction model and the calculation of the residuals described above are performed for each training case set and test case set. Further, as the learning algorithm and the base model used for learning the prediction model, for example, a random forest, GBDT (Gradient Boosting Decision Tree), Deep Neural Network, or the like may be used.
  • GBDT Gradient Boosting Decision Tree
  • Deep Neural Network Deep Neural Network
  • the learning support device 1A has a sample classification unit 4 in addition to the feature pattern extraction unit 2 and the error contribution calculation unit 3.
  • the sample classification unit 4 classifies the sample based on the residual by using the sample classification setting and the information indicating the residual. Specifically, the sample classification unit 4 first acquires the sample classification setting from the input device 20 and the residuals for each sample stored in the residual storage unit 13.
  • the sample classification unit 4 divides the sample using the parameters of the sample classification setting.
  • the parameter is, for example, a threshold used to classify a sample group in which the prediction is successful and a sample group in which the prediction is unsuccessful.
  • the threshold value is obtained by using, for example, an experiment or a simulation.
  • sample classification unit 4 may be classified by using a clustering method such as the Kmeans method.
  • the parameter is the number of clusters.
  • the feature pattern extraction unit 2 extracts a feature amount pattern for differentiating the sample group. Specifically, the feature pattern extraction unit 2 first acquires the classification result classified by the sample classification unit 4 and the feature amount used for learning the prediction model stored in the analysis data storage unit 40.
  • the feature pattern extraction unit 2 extracts a pattern of the feature amount that differentiates the sample group by using the sample group having a large residual as the classification result and the feature amount used for learning the prediction model.
  • a method of extracting a pattern of features to which a decision tree is applied will be described. For example, a sample with a large prediction error is used as a positive example, a sample with a small prediction error is used as a negative example, and a feature amount used for learning a prediction model is used as an explanatory variable to learn a decision tree for discriminating between a positive example and a negative example.
  • FIG. 3 is a diagram showing an example of a decision tree model for discriminating between a sample having a large error and a sample having a small error.
  • each node except the leaf node (positive example and negative example of FIG. 3) is associated with the feature quantity condition used for discriminating between the positive example and the negative example. There is.
  • the precipitation amount is 10 [mm / h] or less in the root node (Yes), it shifts to the right child node, and in other cases (No), it shifts to the left child node.
  • the rules are shown. That is, the root node is associated with whether the sample classified by the discrimination rule is a positive example or a negative example.
  • the decision tree in Fig. 3 in the reverse direction from the leaf node to the root node, it is possible to extract what kind of rule can distinguish between positive and negative examples.
  • the rule obtained from the leaf node on the far right in FIG. 3 is that "the prediction target is a holiday and the precipitation is 10 [mm / h] or less". In this way, the above-mentioned rule is extracted as a feature quantity pattern used to explain each cluster.
  • FIG. 3 an example of discriminating two clusters of a sample having a large error and a sample having a small error is shown, but two or more clusters may be used. Also, the cluster may be created based on the magnitude of the error. Further, the clusters obtained from each of the training case and the test case may be discriminated at the same time.
  • a feature pattern extraction method using a frequent item set set will be described.
  • an apriori algorithm or the like may be used as a first step.
  • a frequent item set in each of a cluster of samples having a large error and a cluster of samples having a small error is extracted using the apriori algorithm.
  • the binning process is a process used for discretizing continuous variables. For example, when a certain feature has a value of 0 to 99, the range is divided into 10 and divided into widths of 0 to 9, 10 to 19, ... 90 to 99.
  • the feature amount of a certain sample has a value of 5
  • the feature amount is converted into a label of "0-9".
  • "0 to 9" may be used as it is, or each range may be 0, 1, 2 ... Or A, B, C ... In the order of the divided range. Any uniquely identifiable label may be used.
  • all features having continuous values are converted into features having discrete values.
  • a frequent item set is extracted from each of the cluster of samples with a large error and the cluster of samples with a small error using the apriori algorithm.
  • the frequent item set is a transaction possessed by each sample, and is an item possessed by a large number of samples in the discretized features.
  • the item refers to the value of the feature amount
  • the item set refers to the combination of the values of the feature amount.
  • Frequent item sets extracted from clusters of samples with large errors are a combination of feature values that most of the samples with large errors have in common, and should be used as a pattern of features of samples with large errors. Can be done.
  • a frequent item set extracted from a cluster of samples with a small error can also be used as a pattern of features of a sample group with a small error.
  • the apriori algorithm first searches for an item with a length of 1. That is, from all the samples in the cluster, the value of the feature amount having an appearance frequency of frequency ⁇ or more is extracted and used as a frequent set F_1 of length 1.
  • the feature pattern extraction unit 2 compares the pattern sets of the feature amounts extracted for each cluster, and extracts the feature amount patterns unique to each cluster.
  • the error contribution calculation unit 3 calculates the error contribution (relevance) of the feature amount pattern extracted by the feature pattern extraction unit 2. Specifically, the error contribution calculation unit 3 first acquires the pattern of the feature amount extracted by the feature pattern extraction unit 2 and the residual calculated by the residual calculation unit 103. Subsequently, the error contribution calculation unit 3 calculates the error contribution of the feature pattern using the acquired feature pattern and the residual. That is, the effect of the existence of the pattern of each feature amount on the overall prediction error is calculated.
  • the calculation of relevance is, for example, a correlation coefficient. For each sample, it is associated with the presence or absence of a pattern P of a certain feature amount. For example, if it is 1, the association is generated, and if it is 0, the association is not generated.
  • the learning algorithm of an arbitrary prediction model may be used for the calculation of the relevance.
  • the prediction model is learned with the presence or absence of a pattern for each feature quantity for each sample as the feature quantity and the residual for each sample as the objective variable.
  • the error contribution can be calculated by extracting the contribution of the feature pattern when the residual is predicted. For example, when the residual is predicted using linear regression, the regression coefficient can be regarded as the error contribution.
  • FIG. 4 is a diagram showing an example of the operation of the learning support device according to the first embodiment.
  • FIGS. 2 to 3 will be referred to as appropriate.
  • the learning support method is implemented by operating the learning support device. Therefore, the description of the learning support method in the first embodiment is replaced with the following description of the operation of the learning support device.
  • the sample classification unit 4 classifies the sample based on the residual using the sample classification setting and the information representing the residual (step A1). Specifically, in step A1, the sample classification unit 4 first acquires the sample classification setting from the input device 20 and the residuals for each sample stored in the residual storage unit 13.
  • the sample classification unit 4 divides the sample using the parameters of the sample classification setting.
  • the parameter is, for example, a threshold used to classify a sample group in which the prediction is successful and a sample group in which the prediction is unsuccessful.
  • the threshold value is obtained by using, for example, an experiment or a simulation.
  • sample classification unit 4 may be classified by using a clustering method such as the Kmeans method.
  • the parameter is the number of clusters.
  • the feature pattern extraction unit 2 extracts a feature amount pattern for differentiating the sample group (step A2). Specifically, in step A2, the feature pattern extraction unit 2 first acquires the classification result classified by the sample classification unit 4 and the feature amount used for learning the prediction model stored in the analysis data storage unit 40. ..
  • step A2 the feature pattern extraction unit 2 uses the sample group having a large residual as the classification result and the feature amount used for learning the prediction model to differentiate the feature amount pattern to differentiate the sample group. Is extracted.
  • the error contribution calculation unit 3 calculates the error contribution (relevance) of the feature amount pattern extracted by the feature pattern extraction unit 2 (step A3). Specifically, in step A3, the error contribution calculation unit 3 first acquires the pattern of the feature amount extracted by the feature pattern extraction unit 2 and the residual calculated by the residual calculation unit 103.
  • step A3 the error contribution calculation unit 3 calculates the error contribution of the feature pattern using the acquired feature pattern and the residual. That is, the effect of the existence of the pattern of each feature amount on the overall prediction error is calculated.
  • the output information generation unit 12 converts the information to be output to the output device 30, that is, the information to be presented to the user, and generates the output information that can be output to the output device 30 (step A4). .. Next, the output information generation unit 12 outputs the generated output information to the output device 30 (step A5).
  • the information to be presented to the user is, for example, the evaluation result of the prediction model learned by the model learning unit 101, the classification result calculated by the sample classification unit 4, the pattern of the feature amount extracted by the feature pattern extraction unit 2, and the error contribution.
  • This is information such as an error contribution degree calculated by the degree calculation unit 3.
  • the program in the first embodiment may be a program that causes a computer to execute steps A1 to A5 shown in FIG.
  • the computer processor functions as a sample classification unit 4, a feature pattern extraction unit 2, an error contribution calculation unit 3, and an output information generation unit 12 to perform processing.
  • each computer may function as one of the sample classification unit 4, the feature pattern extraction unit 2, the error contribution calculation unit 3, and the output information generation unit 12, respectively.
  • FIG. 5 is a diagram showing an example of a system having a learning support device according to the second embodiment.
  • the system in the second embodiment includes a prediction model management system 10B, an input device 20, an output device 30, and an analysis data storage unit 40.
  • the prediction model management system 10B includes a prediction model management device 11, an output information generation unit 12, a residual storage unit 13, and a learning support device 1B.
  • the prediction model management device 11 has a model learning unit 101, a model evaluation unit 102, and a residual calculation unit 103.
  • the learning support device 1B includes a cause estimation unit 51, a cause estimation rule storage unit 52, a countermeasure estimation unit 53, and a countermeasure estimation rule storage. It has a part 54 and.
  • the cause estimation unit 51 estimates the cause of the error by using the cause estimation rule and the feature amount pattern. Specifically, the cause estimation unit 51 first acquires the cause estimation rule stored in the cause estimation rule storage unit 52 and the feature amount pattern calculated by the feature pattern extraction unit 2.
  • the cause estimation unit 51 applies the feature amount pattern to the cause estimation rule to estimate the cause of the error.
  • the cause estimation rule is a rule for estimating the cause of an error using a feature pattern.
  • Causes of error are, for example, covariate shifts, class balance changes, imbalance labels, and the like.
  • Covariate shift refers to the case where the probability distribution of features differs between the data used for learning and the set of test data and new data in operation for one or more features.
  • the mean value of the features and the range that can be taken change between the two data sets.
  • the input data changes to an unknown region in the prediction model trained using the data used for learning, so that the prediction accuracy is lowered.
  • the change in class balance indicates that the distribution of the objective variable changes, unlike the covariate shift. Even when the class balance changes, the prediction accuracy decreases because the environment changes to areas that cannot be handled by the trained prediction model.
  • the imbalance label means that the number of samples in the area taken by the objective variable, which is common to the training data and the test data, is significantly different.
  • the positive example is 1 [%] of all samples
  • the negative example is 99 [%].
  • Examples include disease recognition and detection of fraudulent use of credit cards using images. In such a case, the prediction accuracy of Frey, which occupies the majority, becomes dominant in the learning process, the prediction accuracy of the positive example is neglected, and the prediction accuracy of the whole is lowered.
  • the cause estimation rule storage unit 52 stores the cause estimation rule used for estimating the cause of the error.
  • the cause estimation rule storage unit 52 is, for example, a storage device such as a database. Although the cause estimation rule storage unit 52 is provided inside the learning support device 1B in FIG. 5, it may be provided outside the learning support device 1B.
  • the cause estimation rule storage unit 52 may store the cause estimation rule in advance by the user or may be stored by the user during operation.
  • the cause estimation rule may be a comparison of feature quantity patterns between the training set and the test set.
  • the sample classification unit 4 and the feature pattern extraction unit 2 target clusters with a large error in the training set, clusters with a small error in the training set, clusters with a large error in the test set, and clusters with a small error in the test set.
  • the feature pattern extraction unit 2 extracts a pattern of a feature amount unique to each cluster.
  • the unique feature pattern of the cluster with a large error in the test set shows the feature value that only the sample of the cluster with a large error has, and it can be determined that the training data does not include the sample having this feature value. By doing so, the error based on the covariate shift can be specified.
  • the cause estimation rule may use various findings accumulated in the analysis task.
  • the countermeasure estimation unit 53 estimates the countermeasure using the countermeasure estimation rule and the feature quantity pattern. Specifically, the countermeasure estimation unit 53 first acquires the countermeasure estimation rule stored in the countermeasure estimation rule storage unit 54 and the feature amount pattern calculated by the feature pattern extraction unit 2.
  • the countermeasure estimation unit 53 applies the feature quantity pattern to the countermeasure estimation rule to estimate the countermeasure.
  • the prediction model may be retrained by appropriately exchanging the samples of the training set and the test set.
  • the countermeasure estimation rule storage unit 54 stores the rule for estimating the countermeasure necessary for reducing the prediction error.
  • the countermeasure estimation rule storage unit 54 is, for example, a storage device such as a database. Although the countermeasure estimation rule storage unit 54 is provided inside the learning support device 1B in FIG. 5, it may be provided outside the learning support device 1B.
  • the countermeasure estimation rule storage unit 54 may store the countermeasure estimation rule in advance by the user or may be stored by the user during operation.
  • a countermeasure rule for example, as in the cause estimation rule, a countermeasure rule can be considered in which samples are replaced by comparing unique feature patterns with large and small errors between training data and test data.
  • the countermeasure estimation rule can use other knowledge of the user.
  • the output information generation unit 12 converts the information to be output to the output device 30, that is, the information to be presented to the user, and generates the output information that can be output to the output device 30.
  • the information to be presented to the user is, for example, the evaluation result of the prediction model learned by the model learning unit 101, the classification result calculated by the sample classification unit 4, the pattern of the feature amount extracted by the feature pattern extraction unit 2, and the error contribution.
  • information such as an error cause and countermeasures is provided.
  • FIG. 6 is a diagram showing an example of the operation of the learning support device according to the second embodiment.
  • FIG. 5 will be referred to as appropriate.
  • the learning support method is implemented by operating the learning support device. Therefore, the description of the learning support method in the second embodiment is replaced with the following description of the operation of the learning support device.
  • steps A1 to A3 are executed. Since the processes of steps A1 to A3 have been described in the first embodiment, the processes of steps A1 to A3 will be omitted.
  • the cause estimation unit 51 estimates the cause of the error using the cause estimation rule and the feature amount pattern (step B1). Specifically, in step B1, the cause estimation unit 51 first acquires the cause estimation rule stored in the cause estimation rule storage unit 52 and the feature amount pattern calculated by the feature pattern extraction unit 2.
  • the cause estimation unit 51 applies the feature amount pattern to the cause estimation rule to estimate the cause of the error.
  • the cause estimation rule is a rule for estimating the cause of an error using a feature pattern.
  • Causes of error are, for example, covariate shifts, class balance changes, imbalance labels, and the like.
  • the countermeasure estimation unit 53 estimates the countermeasure using the countermeasure estimation rule and the feature quantity pattern (step B2). Specifically, in step B2, the countermeasure estimation unit 53 first acquires the countermeasure estimation rule stored in the countermeasure estimation rule storage unit 54 and the feature amount pattern calculated by the feature pattern extraction unit 2.
  • step B2 the countermeasure estimation unit 53 applies the feature quantity pattern to the countermeasure estimation rule to estimate the countermeasure.
  • the prediction model may be retrained by appropriately exchanging the samples of the training set and the test set. The order of steps B1 and B2 may be reversed.
  • the output information generation unit 12 converts the information to be output to the output device 30, that is, the information to be presented to the user, and generates the output information that can be output to the output device 30 (step B3). .. Next, the output information generation unit 12 outputs the generated output information to the output device 30 (step B4).
  • the information to be presented to the user is, for example, the evaluation result of the prediction model learned by the model learning unit 101, the classification result calculated by the sample classification unit 4, the pattern of the feature amount extracted by the feature pattern extraction unit 2, and the error contribution.
  • Information such as an error contribution degree, an error cause, and a countermeasure calculated by the degree calculation unit 3.
  • the cause of the error and the countermeasure for solving the cause of the error can be estimated. Therefore, not only the pattern of the feature amount and the error contribution of the pattern of the feature amount but also the cause of the error , Information such as countermeasures can be generated. Therefore, it is possible to further provide the user with information used to improve the prediction accuracy of the prediction model through the output device 30. Therefore, the user can more easily perform the work of improving the prediction accuracy of the prediction model.
  • the program in the second embodiment may be a program that causes a computer to execute steps A1 to A5 and steps B1 to B4 shown in FIG.
  • the computer processor functions as a sample classification unit 4, a feature pattern extraction unit 2, an error contribution calculation unit 3, a cause estimation unit 51, a countermeasure estimation unit 53, and an output information generation unit 12, and performs processing.
  • each computer functions as one of a sample classification unit 4, a feature pattern extraction unit 2, an error contribution calculation unit 3, a cause estimation unit 51, a countermeasure estimation unit 53, and an output information generation unit 12, respectively. You may.
  • FIG. 7 is a diagram showing an example of a system having a learning support device according to the third embodiment.
  • the system includes a prediction model management system 10C, an input device 20, an output device 30, and an analysis data storage unit 40.
  • the prediction model management system 10C includes a prediction model management device 11, an output information generation unit 12, a residual storage unit 13, and a learning support device 1C.
  • the prediction model management device 11 has a model learning unit 101, a model evaluation unit 102, and a residual calculation unit 103.
  • the learning support device 1C includes a feature pattern extraction unit 2, an error contribution calculation unit 3, a sample classification unit 4, a cause estimation unit 51, a cause estimation rule storage unit 52, a countermeasure estimation unit 53, and a countermeasure estimation rule storage unit 54. It has a feedback unit 70, a cause storage unit 71, a countermeasure storage unit 72, a cause estimation rule learning unit 73, and a countermeasure estimation rule learning unit 74.
  • the feedback unit 70 stores the error cause, countermeasure, feature amount pattern, etc. estimated by the learning support device 1C in the storage unit. Specifically, the feedback unit 70 acquires the error cause estimated by the cause estimation unit 51, the countermeasure estimated by the countermeasure estimation unit 53, and the feature amount pattern extracted by the feature pattern extraction unit 2. ..
  • the feedback unit 70 stores the error cause and the corresponding feature amount pattern in association with the cause storage unit 71. Further, the feedback unit 70 stores the countermeasure storage unit 72 in association with the countermeasure for improving the error and the corresponding feature amount pattern.
  • the feedback unit 70 may acquire an error cause, a countermeasure, and a feature amount pattern from the input device 20 and store them in the storage unit.
  • the cause storage unit 71 stores, for example, an error cause and a corresponding feature amount pattern in association with each other as feedback.
  • the cause storage unit 71 is, for example, a storage device such as a database. Although the cause storage unit 71 is provided inside the learning support device 1C in FIG. 7, it may be provided outside the learning support device 1C.
  • the countermeasure storage unit 72 stores, for example, a countermeasure for improving an error and a corresponding feature amount pattern in association with each other as feedback.
  • the countermeasure storage unit 72 may further store the effectiveness of the countermeasure (improvement of prediction) in association with the countermeasure and the pattern of the feature amount thereof.
  • the effectiveness was adopted by using the evaluation value of the prediction model calculated by the model evaluation unit 102, the residual for each sample calculated by the residual calculation unit 103, the pattern of the feature amount extracted by the feature pattern extraction unit 2, and the like. Calculate the effectiveness of the measures. For the effectiveness, for example, the evaluation values of the prediction model are compared before and after the countermeasure is taken, and the difference is used as the effectiveness.
  • the countermeasure storage unit 72 is, for example, a storage device such as a database. Although the countermeasure storage unit 72 is provided inside the learning support device 1C in FIG. 7, it may be provided outside the learning support device 1C.
  • the cause estimation rule learning unit 73 learns the error cause estimation rule (model) by using the error cause and the pattern of the feature amount corresponding to the error cause. Specifically, the cause estimation rule learning unit 73 first acquires an error cause and a feature amount pattern corresponding to the error cause from the cause storage unit 71.
  • the cause estimation rule learning unit 73 generates an error cause estimation rule using the acquired error cause and the feature amount pattern, and stores the generated error cause estimation rule in the cause estimation rule storage unit 52. ..
  • the error cause estimation rule can be learned by learning a prediction model in which the stored feature pattern and the error cause are used, the feature pattern is used as an explanatory variable, and the error cause is used as an objective variable. ..
  • the feature amount pattern is stored, for example, as a combination of feature amount values.
  • the feature quantity pattern is a matrix in which all possible feature quantity values are columns, each feature pattern is a row, the feature quantity values included in each feature quantity pattern are 1, and the feature quantity values not included are 0. Can be expressed as.
  • This matrix is used as an explanatory variable, and a column vector having an error cause associated with each feature pattern as an element is used as an objective variable.
  • the countermeasure estimation rule learning unit 74 learns the countermeasure estimation rule (model) by using the countermeasure, the pattern corresponding to the feature amount of the countermeasure, and the effectiveness corresponding to the error cause. Specifically, the countermeasure estimation rule learning unit 74 first acquires the countermeasure, the pattern of the feature amount corresponding to the countermeasure, and the effectiveness corresponding to the countermeasure from the countermeasure storage unit 72.
  • the countermeasure estimation rule learning unit 74 generates a countermeasure estimation rule using the acquired countermeasure, the feature quantity pattern, and the effectiveness, and stores the generated countermeasure estimation rule in the countermeasure estimation rule storage unit 54. To do.
  • the learning of the countermeasure estimation rule is obtained by learning the prediction model with the feature pattern as the explanatory variable and the countermeasure as the objective variable.
  • the feature pattern can be expressed as a matrix similar to that at the time of learning the error cause estimation rule.
  • As a method of expressing the countermeasure for example, it can be expressed as a categorical variable in which a unique identifier is assigned to a possible countermeasure.
  • the effectiveness may be used as the weight of the sample at the time of learning.
  • the difference between the past actual value and the predicted value by the model in the middle of training is evaluated for each sample, and the sum is defined as a loss function.
  • a square error or a log-likelihood function is used for the difference between the actual value and the predicted value.
  • Optimal model parameters are determined by minimizing this loss function, and a prediction model is obtained.
  • the effectiveness is obtained by using the loss function as a weighted sum with validity as the weight from the sum of the differences for each sample. It is possible to study with an emphasis on cases where high-level measures are adopted, and a model for predicting highly effective measures can be obtained.
  • the error cause estimation rule and the countermeasure estimation rule may be learned as one prediction model at the same time.
  • FIG. 8 is a diagram showing an example of the operation of the learning support device according to the third embodiment.
  • FIG. 7 will be referred to as appropriate.
  • the learning support method is implemented by operating the learning support device. Therefore, the description of the learning support method in the third embodiment is replaced with the following description of the operation of the learning support device.
  • the user first gives an instruction for re-learning to the prediction model management device 11 and the learning support device 1C via the input device 20 (step C1).
  • the feedback unit 70 stores feedback related to the cause of the error in the cause storage unit 71 (step C2).
  • the cause storage unit 71 stores, for example, the error cause, the corresponding feature amount pattern, and the effectiveness of the error cause in association with each other as feedback.
  • the feedback unit 70 stores feedback related to the countermeasure in the countermeasure storage unit 72 (step C3).
  • the countermeasure storage unit 72 stores, for example, a countermeasure for improving the error, a pattern of the corresponding feature amount, and the effectiveness of the countermeasure as feedback.
  • steps C2 and C3 may be reversed. Alternatively, the processes of steps C2 and C3 may be executed in parallel.
  • the cause estimation rule learning unit 73 uses the error cause, the pattern of the feature amount corresponding to the error cause, and the effectiveness corresponding to the error cause to determine the error cause estimation rule (model). Learn (step C4). Specifically, in step C4, the cause estimation rule learning unit 73 first acquires the error cause, the feature amount pattern corresponding to the error cause, and the effectiveness corresponding to the error cause from the cause storage unit 71. To do.
  • step C4 the cause estimation rule learning unit 73 generates an error cause estimation rule using the acquired error cause, the feature amount pattern, and the effectiveness, and causes the generated error cause estimation rule. It is stored in the estimation rule storage unit 52.
  • the countermeasure estimation rule learning unit 74 learns the countermeasure estimation rule (model) by using the countermeasure, the pattern corresponding to the feature amount of the countermeasure, and the effectiveness corresponding to the error cause (step). C5). Specifically, in step C5, the countermeasure estimation rule learning unit 74 first acquires the countermeasure, the pattern of the feature amount corresponding to the countermeasure, and the effectiveness corresponding to the countermeasure from the countermeasure storage unit 72.
  • step C5 the countermeasure estimation rule learning unit 74 generates a countermeasure estimation rule using the acquired countermeasure, the feature quantity pattern, and the effectiveness, and stores the generated countermeasure estimation rule in the countermeasure estimation rule storage. It is stored in the part 54.
  • steps C4 and C5 may be reversed. Alternatively, the processes of steps C4 and C5 may be executed in parallel.
  • steps A1 to A3 and steps B1 to B4 shown in FIG. 6 are executed by using the error cause estimation rule and the countermeasure estimation rule generated in the third embodiment.
  • the cause of the error and the countermeasure for solving the cause of the error can be estimated, not only the pattern of the feature amount and the error contribution of the pattern of the feature amount but also the cause of the error .
  • Information such as countermeasures can be generated. Therefore, it is possible to further provide the user with information used to improve the prediction accuracy of the prediction model through the output device 30. Therefore, the user can more easily perform the work of improving the prediction accuracy of the prediction model.
  • the error cause estimation rule, the countermeasure estimation rule, or both can be automatically generated, so that the user can more easily perform the work of improving the prediction accuracy of the prediction model. It can be carried out.
  • the program in the third embodiment may be a program that causes a computer to execute steps C1 to C5 shown in FIG. By installing and executing this program on a computer, the learning support device and the learning support method according to the third embodiment can be realized.
  • the computer processor includes a sample classification unit 4, a feature pattern extraction unit 2, an error contribution calculation unit 3, a cause estimation unit 51, a countermeasure estimation unit 53, an output information generation unit 12, a feedback unit 70, and a cause storage unit 71.
  • the countermeasure storage unit 72, the cause estimation rule learning unit 73, and the countermeasure estimation rule learning unit 74 and perform processing.
  • each computer has a sample classification unit 4, a feature pattern extraction unit 2, an error contribution calculation unit 3, a cause estimation unit 51, a countermeasure estimation unit 53, an output information generation unit 12, and a feedback unit 70. It may function as any of the cause storage unit 71, the countermeasure storage unit 72, the cause estimation rule learning unit 73, and the countermeasure estimation rule learning unit 74.
  • FIG. 9 is a block diagram showing an example of a computer that realizes the learning support device according to the first, second, and third embodiments.
  • the computer 110 includes a CPU (Central Processing Unit) 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. And. Each of these parts is connected to each other via a bus 121 so as to be capable of data communication.
  • the computer 110 may include a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array) in addition to the CPU 111 or in place of the CPU 111.
  • the CPU 111 expands the programs (codes) of the present embodiment stored in the storage device 113 into the main memory 112 and executes them in a predetermined order to perform various operations.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program according to the present embodiment is provided in a state of being stored in a computer-readable recording medium 120.
  • the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 include a semiconductor storage device such as a flash memory in addition to a hard disk drive.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and mouse.
  • the display controller 115 is connected to the display device 119 and controls the display on the display device 119.
  • the data reader / writer 116 mediates the data transmission between the CPU 111 and the recording medium 120, reads the program from the recording medium 120, and writes the processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include a general-purpose semiconductor storage device such as CF (CompactFlash (registered trademark)) and SD (SecureDigital), a magnetic recording medium such as a flexible disk, or a CD-.
  • CF CompactFlash (registered trademark)
  • SD Secure Digital
  • magnetic recording medium such as a flexible disk
  • CD- CompactDiskReadOnlyMemory
  • optical recording media such as ROM (CompactDiskReadOnlyMemory).
  • the learning support device in the present embodiment can also be realized by using hardware corresponding to each part instead of the computer on which the program is installed. Further, the learning support device may be partially realized by a program and the rest may be realized by hardware.
  • a feature pattern extraction unit that extracts a pattern of features that differentiates the classified samples using the samples classified based on the residuals and the features used for training the prediction model.
  • An error contribution calculation unit that calculates an error contribution to the prediction error of the feature pattern by using the extracted feature pattern and the residual.
  • a learning support device characterized by having.
  • Appendix 2 The learning support device described in Appendix 1 A learning support device having a cause estimation unit that estimates the cause of an error by using an error cause estimation rule that estimates the cause of an error from the pattern of the feature amount.
  • Appendix 3 The learning support device described in Appendix 2, A learning support device having a cause estimation rule learning unit that learns using the error cause and the pattern of the feature amount and generates the error cause estimation rule.
  • Appendix 4 The learning support device according to Appendix 1 or 2.
  • a learning support device having a countermeasure estimation unit that estimates the countermeasures by using a countermeasure estimation rule that estimates countermeasures for eliminating the cause of an error from the feature quantity pattern.
  • Appendix 5 The learning support device described in Appendix 4, A learning support device having a countermeasure estimation rule learning unit that learns using the countermeasure and the feature quantity pattern and generates the countermeasure estimation rule.
  • Appendix 6 The learning support device described in Appendix 1 A learning support device characterized in that output information for output to an output device is generated using the feature quantity pattern and the error contribution degree, and the output information is output to the output device.
  • Appendix 8 The learning support method described in Appendix 7 (C) A learning support method characterized by having a step of estimating the cause of an error by using a cause estimation rule for estimating the cause of an error from the pattern of the feature amount.
  • Appendix 9 The learning support method described in Appendix 8 (D) A learning support method characterized by having a step of learning using the error cause and the feature quantity pattern and generating the error cause estimation rule.
  • Appendix 10 The learning support method described in Appendix 7 or 8,
  • E A learning support method characterized by having a step of estimating the countermeasure by using a countermeasure estimation rule for estimating a countermeasure for eliminating an error cause from the pattern of the feature amount.
  • Appendix 11 The learning support method described in Appendix 10 (F) A learning support method characterized by having a step of learning using the countermeasure and the pattern of the feature amount and generating the countermeasure estimation rule.
  • Appendix 12 The learning support method described in Appendix 7 A learning support method characterized by having a step of generating output information for output to an output device using the feature quantity pattern and the error contribution degree, and outputting the output information to the output device.
  • Appendix 14 The computer-readable recording medium according to Appendix 13.
  • the program is on the computer (C) A computer-readable record recording the program, including further instructions to estimate the cause of the error, to execute the step, using the error cause estimation rule that estimates the cause of the error from the pattern of the feature amount. Medium.
  • Appendix 15 The computer-readable recording medium according to Appendix 14.
  • the program is on the computer (D)
  • Appendix 16 A computer-readable recording medium according to Appendix 13 or 14.
  • the program is on the computer
  • E A computer recording a program that estimates the countermeasure using a countermeasure estimation rule that estimates a countermeasure for eliminating the cause of the error from the feature quantity pattern, and further includes an instruction to execute a step.
  • a readable recording medium A readable recording medium.
  • Appendix 17 The computer-readable recording medium according to Appendix 16.
  • the program is on the computer
  • F A computer-readable recording medium on which a program is recorded, which further includes an instruction to execute a step by learning using the countermeasure and the feature quantity pattern to generate the countermeasure estimation rule.
  • Appendix 18 The computer-readable recording medium according to Appendix 13.
  • the program is on the computer
  • a program is recorded that uses the feature quantity pattern and the error contribution to generate output information for output to the output device, output to the output device, and further includes an instruction to execute a step.
  • a computer-readable recording medium A computer-readable recording medium.
  • the present invention it is possible to generate information used for improving the prediction accuracy of the prediction model and present the generated information to the user.
  • the present invention is useful in fields where it is necessary to improve the prediction accuracy of a prediction model.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

学習支援装置1は、残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出部2と、抽出した特徴量のパターンと残差とを用いて、特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出部3とを有する。

Description

学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、予測モデルの学習を支援する学習支援装置、学習支援方法に関し、更には、これらを実現するためのプログラムを記録しているコンピュータ読み取り可能な記録媒体に関する。
 予測モデルの評価には一般に、RMSE(Root Mean Squared Error)、MAE(Mean Absolute Error)など、すべての学習サンプル(以降サンプルと呼ぶ)の残差(予測値と実績値の差)を平均化した精度指標が用いられる。これらの精度指標を算出することで、他の分析結果との相対的な良・不良を評価することができる。
 ところが、学習された予測モデルが所望の精度を満たさなかった場合、算出した精度指標には、予測モデルが精度を満たさない原因を推察するために用いる情報が含まれていない。したがって、予測分析従事者は、予測モデルにどのような学習をさせれば予測精度が改善されるのかを考察することが困難である。
 関連する技術として非特許文献1には、学習された予測モデルの精度を改善するため、予測精度が良好なサンプル群とそうでないサンプル群とに差別化する特徴量を提示する技術が開示されている。
 非特許文献1に開示されている技術によれば、まず、サンプルごとの残差に基づいてサンプルを分類し、残差の大きいサンプルクラスタと残差の小さいサンプルクラスタとに分類する。そして、各サンプルクラスタで、予測で用いた特徴量の分布を推定する。
 また、非特許文献1に開示されている技術によれば、二つのサンプルクラスタ間で推定された各特徴量の分布のカルバック・ライブラーダイバージェンスを算出し、カルバック・ライブラーダイバージェンスの大きい順に特徴量の分布を可視化する。そうすることで、例えば、残差の大きいサンプル群と残差の小さいサンプル群とを差別化する特徴量を、予測分析従事者が把握できるようにしている。
 このように、非特許文献1が開示されている技術によれば、予測が困難なサンプル群と予測が容易なサンプル群とを差別化する特徴量を、予測分析従事者に提示できる。
Zhang, Jiawei, et al. "Manifold: A Model-Agnostic Framework for Interpretation and Diagnosis of Machine Learning Models." IEEE transactions on visualization and computer graphics 25.1 (2019): 364-373.
 しかしながら、非特許文献1に開示の技術は、予測が困難なサンプル群と予測が容易なサンプル群とを差別化する単一の特徴量を、予測分析従事者に提示できるだけである。そのため、非特許文献1に開示の技術では、単一の特徴量だけに基づいて、予測が困難なサンプル群と予測が容易なサンプル群との差別化が可能な場合には対応できるが、複数の特徴量の組み合わせに基づいて、差別化が可能な場合には対応できない。
 また、非特許文献1に開示の技術は、差別化をする特徴量の把握が可能ではあるが、その特徴量が、真に予測誤差に寄与しているかどうかを表す情報は提示されない。
 さらに、非特許文献1に開示の技術は、精度改善をするための対応策を表す情報が提示されないため、分析従事者が対策を検討しなければならない。
 本発明の目的の一例は、予測モデルの予測精度を向上させるために用いる情報を生成する、学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面における学習支援装置は、
 残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出手段と、
 抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出手段と、
 を有することを特徴とする。
 また、上記目的を達成するため、本発明の一側面における学習支援方法は、
(a)残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出し、
(b)抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する
 ことを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるプログラムを記録したコンピュータ読み取り可能な記録媒体は、
 コンピュータに、
(a)残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと、
(b)抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
 を実行させる命令を含むプログラムを記録していることを特徴とする。
 以上のように本発明によれば、予測モデルの予測精度を向上させるために用いる情報を生成できる。
図1は、学習支援装置の一例を示す図である。 図2は、学習支援装置を有するシステムの一例を示す図である。 図3は、誤差の大きいサンプルと小さいサンプルを判別する決定木モデルの一例を示す図である。 図4は、第一の実施の形態における学習支援装置の動作の一例を示す図である。 図5は、第二の実施の形態における学習支援装置を有するシステムの一例を示す図である。 図6は、第二の実施の形態における学習支援装置の動作の一例を示す図である。 図7は、第三の実施の形態における学習支援装置を有するシステムの一例を示す図である。 図8は、第三の実施の形態における学習支援装置の動作の一例を示す図である。 図9は、第一、第二、第三の実施の形態における学習支援装置を実現するコンピュータの一例を示す図である。
(第一の実施の形態)
 以下、本発明の第一の実施の形態について、図1から図3を参照しながら説明する。
[装置構成]
 最初に、図1を用いて、第一の実施の形態における学習支援装置1の構成について説明する。図1は、学習支援装置の一例を示す図である。
 図1に示す学習支援装置1は、予測モデルの予測精度を向上させために用いる情報を生成する装置である。また、図1に示すように、学習支援装置1は、特徴パターン抽出部2と、誤差寄与度算出部3とを有する。
 このうち、特徴パターン抽出部2は、残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、分類されたサンプルを差別化する特徴量のパターンを抽出する。誤差寄与度算出部3は、抽出した特徴量のパターンと残差とを用いて、特徴量のパターンの予測誤差に対する誤差寄与度を算出する。
 このように、本実施の形態においては、特徴量のパターン、特徴量のパターンの誤差寄与度などを表す情報を生成できるので、出力装置を通じて、予測モデルの予測精度を向上させるために用いる情報を、管理者、開発者、分析従事者などの利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。
[システム構成]
 続いて、図2を用いて、第一の実施の形態における学習支援装置1Aを有するシステムの構成を説明する。図2は、第一の実施の形態における学習支援装置を有するシステムの一例を示す図である。
 システムについて説明する。
 図2に示すように、第一の実施の形態におけるシステムは、予測モデル管理システム10Aと、入力装置20と、出力装置30と、分析データ記憶部40とを有する。
 予測モデル管理システム10Aは、学習フェーズにおいて、複数のサンプルを入力し、予測モデルを生成する。予測モデル管理システム10Aは、運用フェーズにおいて、予測分析に用いる設定、特徴量又は目的変数などを予測モデルに入力し、予測分析をする。
 また、予測モデル管理システム10Aは、予測モデルの学習後に、予測モデルの予測精度を評価する。また、予測モデル管理システム10Aは、予測モデルの学習後に、サンプルごとに残差を算出する。
 さらに、予測モデル管理システム10Aは、予測モデルの学習後に、予測モデルの予測精度を向上させるために用いる利用者の作業を支援するための支援情報を生成する。
 なお、予測モデル管理システム10Aは、例えば、サーバコンピュータなどの情報処理装置である。また、予測モデル管理システム10Aの詳細については後述する。
 入力装置20は、予測モデル管理システム10Aに対して、予測分析設定を入力する。予測分析設定とは、例えば、予測分析に用いるパラメータ、モデルを設定するために用いる情報である。
 また、入力装置20は、学習支援装置1Aに対して、サンプル分類設定を入力する。サンプル分類設定は、例えば、サンプルを分類するために用いるパラメータ、分類方法などを設定するための情報である。なお、入力装置20は、例えば、パーソナルコンピュータなどの情報処理装置である。
 出力装置30は、出力情報生成部12により、出力可能な形式に変換された、出力情報を取得し、取得した出力情報に基づいて、生成した画像及び音声などを出力する。出力情報生成部12については後述する。
 出力装置30は、例えば、液晶、有機EL(Electro Luminescence)、CRT(Cathode Ray Tube)を用いた画像表示装置などである。更に、画像表示装置は、スピーカなどの音声出力装置などを備えていてもよい。なお、出力装置30は、プリンタなどの印刷装置でもよい。
 分析データ記憶部40は、予測モデル管理装置11及び学習支援装置1Aで用いる分析データ(サンプルごとの特徴量(説明変数)と予測対象データ(目的変数))を記憶する。分析データ記憶部40は、例えば、データベースなどの記憶装置である。なお、図2の例では、分析データ記憶部40は、予測モデル管理システム10Aの外部に設けられているが、予測モデル管理システム10Aの内部に設けてもよい。
 予測モデル管理システムについて説明する。
 予測モデル管理システム10Aは、予測モデル管理装置11と、出力情報生成部12と、残差記憶部13と、学習支援装置1Aとを有する。
 予測モデル管理装置11は、運用フェーズにおいて、入力装置20から、予測分析設定情報を取得する。また、予測モデル管理装置11は、運用フェーズにおいて、分析データ記憶部40から、予測分析に用いる目的変数、特徴量などの情報を取得する。その後、予測モデル管理装置11は、取得した情報を用いて予測分析を実行し、予測分析結果を不図示の記憶部に記憶する。
 なお、予測モデル管理装置11が実行する予測モデルの学習、評価、残差の処理については後述する。
 出力情報生成部12は、出力装置30に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置30に出力可能な出力情報を生成する。利用者に提示するための情報は、例えば、モデル学習部101が学習した予測モデルの評価結果、サンプル分類部4が算出した分類結果、特徴パターン抽出部2が抽出した特徴量のパターン、誤差寄与度算出部3が算出した誤差寄与度などの情報である。
 残差記憶部13は、残差算出部103が算出した予測モデルの残差を記憶する。残差記憶部13は、例えば、データベースなどの記憶装置である。なお、図2において、残差記憶部13は、予測モデル管理装置11の外部に設けられているが、予測モデル管理装置11の内部に設けてもよい。
 学習支援装置1Aは、予測モデルの予測精度を向上させために利用者が用いる情報を生成する。学習支援装置1Aは、予測モデル管理システム10Aに設けてもよいし、予測モデル管理システム10Aの外部に設けてもよい。学習支援装置1Aについては後述する。
 予測モデル管理装置について説明をする。
 予測モデル管理装置11は、モデル学習部101と、モデル評価部102と、残差算出部103とを有する。
 モデル学習部101は、学習フェーズにおいて、入力装置20から、予測モデルに学習を実行させる学習実行指示、予測モデルの学習に用いる学習設定、分析データ記憶部40から学習に用いるサンプルなどの情報とを取得する。学習設定は、例えば、ベースモデル、学習アルゴリズムの指定、学習プロセスのハイパーパラメータなどの情報である。
 続いて、モデル学習部101は、取得したそれらの情報を用いて、予測モデルの学習を実行し、予測モデルを生成する。なお、モデル学習部101は、生成した予測モデルを、予測モデル管理装置11の内部に設けられた記憶部、又は予測モデル管理装置11の外部に設けられた不図示の記憶部に記憶する。
 モデル評価部102は、モデル学習部101が学習した予測モデルの誤差などの性能評価をする。具体的には、モデル評価部102は、予測モデルの学習後に、予測モデルの評価値、すなわちRMSEなどの誤差評価、学習アルゴリズムの学習終了判定に用いられる値(例えば、尤度など)を算出する。
 残差算出部103は、モデル学習部101が学習した予測モデルのサンプルごとの残差を算出する。具体的には、残差算出部103は、予測モデルの学習後において、学習した予測モデルを用いて、予測を実行した際の残差、すなわちサンプルごとの予測値と実績値の差(=実績値-予測値)を算出する。
 なお、上述した予測モデルの評価と残差の算出とは、訓練事例集合とテスト事例集合ごとに行う。また、予測モデルの学習に用いる学習アルゴリズム、ベースモデルは、例えば、ランダムフォレスト、GBDT(Gradient Boosting Decision Tree)、Deep Neural Networkなどを用いてもよい。
 学習支援装置について説明をする。
 学習支援装置1Aは、特徴パターン抽出部2、誤差寄与度算出部3に加えて、サンプル分類部4を有する。
 サンプル分類部4は、サンプル分類設定と残差を表す情報とを用いて、サンプルを残差に基づいて分類する。具体的には、サンプル分類部4は、まず、入力装置20からサンプル分類設定と、残差記憶部13に記憶されているサンプルごとの残差とを取得する。
 続いて、サンプル分類部4は、サンプル分類設定が有するパラメータを用いて、サンプルを分割する。パラメータは、例えば、予測が成功しているサンプル群と予測が失敗しているサンプル群を分類するために用いる閾値である。閾値は、例えば、実験、シミュレーションなどを用いて求める。
 また、サンプル分類部4は、Kmeans法などのクラスタリング手法を用いて分類してもよい。その場合、パラメータはクラスタ数とする。
 特徴パターン抽出部2は、サンプル群を差別化するための特徴量のパターンを抽出する。具体的には、特徴パターン抽出部2は、まず、サンプル分類部4が分類した分類結果と、分析データ記憶部40が記憶する予測モデルの学習に用いた特徴量とを取得する。
 続いて、特徴パターン抽出部2は、分類結果である残差の大きいサンプル群と、予測モデルの学習に用いた特徴量とを用いて、サンプル群を差別化する特徴量のパターンを抽出する。
 決定木を適用した特徴量のパターン抽出方法について説明する。
 例えば、予測誤差が大きいサンプルを正例とし、予測誤差が小さいサンプルを負例とし、予測モデルの学習に用いた特徴量を説明変数とし、正例と負例を判別する決定木を学習する。
 図3は、誤差の大きいサンプルと小さいサンプルを判別する決定木モデルの一例を示す図である。図3の例では、学習された決定木は、葉ノード(図3の正例、負例)を除く各ノードに、正例と負例を判別するために用いる特徴量の条件が関連付けられている。
 図3には、根ノードにおいて降水量が10[mm/h]以下の場合(Yes)には右の子ノードに、それ以外の場合(No)には左の子ノードに移行するような判別ルールが示されている。すなわち、根ノードには判別ルールにより分類されたサンプルが正例か負例であるかが関連付けられる。
 また、図3の決定木を葉ノードから根ノードに向かって逆にたどることによって、どのようなルールで正例と負例が判別可能かが抽出できる。図3において最も右にある葉ノードから得られるルールは、「予測対象が祝日であり、降水量が10[mm/h]以下」となる。このように、上述したルールを、各クラスタを説明するために用いる特徴量のパターンとして抽出する。
 なお、図3の例では、誤差の大きいサンプルと小さいサンプルの二つのクラスタを判別する例を示したが、二つ以上のクラスタであってもよい。また、クラスタは誤差の大きさに基づいて作成されていてもよい。さらに、訓練事例、テスト事例それぞれから得られたクラスタを同時に判別してもよい。
 次に、頻出アイテムセット集合を用いた特徴パターン抽出方法について説明する。
 例えば、aprioriアルゴリズムなどを用いてもよい。この方法では、第一ステップとして、誤差の大きいサンプルのクラスタと誤差の小さいサンプルのクラスタそれぞれにおける頻出アイテムセットをaprioriアルゴリズムを用いて抽出する。
 第一ステップでは、まず、予測分析に用いた特徴量のうち、連続値をとるものをビニング処理によって離散化する。ビニング処理は、連続変数の離散化に用いられる処理である。例えば、ある特徴量が0~99の値をとるとき、値域を10分割し、0~9、10~19、・・・90~99の幅に分割する。
 続いて、あるサンプルについてその特徴量が5の値を持っていた場合、その特徴量は「0~9」というラベルに変換される。なお、このラベルは、「0~9」をそのまま用いてもよいし、分割された値域の順序に0、1、2・・・又はA、B、C・・・など各値域であることが一意に識別可能な任意のラベルを用いてよい。この処理によって連続値を持つ特徴量はすべて離散値を持つ特徴量に変換される。
 次に、第二ステップとして、aprioriアルゴリズムを用いて誤差の大きいサンプルのクラスタ、誤差の小さいサンプルのクラスタのそれぞれから、頻出アイテムセットを抽出する。頻出アイテムセットとは、各サンプルが持つトランザクションで、離散化された特徴量の中で多数のサンプルが持つアイテムである。ここでは、アイテムとは、特徴量が持つ値を指し、アイテムセットとは、特徴量が持つ値の組み合わせを指す。
 誤差の大きいサンプルのクラスタから抽出された頻出アイテムセットは、誤差の大きいサンプル群の大部分が共通して持つ特徴量の値の組み合わせであり、誤差の大きいサンプル群の特徴量のパターンとして用いることができる。誤差の小さいサンプルのクラスタから抽出された頻出アイテムセットも同様に、誤差の小さいサンプル群の特徴量のパターンとして用いることができる。
 第二ステップでは、まず、aprioriアルゴリズムは、長さが1であるアイテムを探索する。すなわち、クラスタ内の全サンプルの中で、頻度α以上の出現頻度を持つ特徴量の値を抽出し、長さ1の頻出集合F_1とする。
 続いて、F_1に一つアイテムを加えた、長さが2、すなわち二つの特徴量の組み合わせで得られるすべてのアイテムを列挙する。この長さ2の各アイテムについて、いずれかの要素を一つ取り除いたアイテムがF_1に含まれるかどうかを判定し、含まれていなければ棄却する。
 続いて、残った長さ2のアイテムについて、頻度がα以上であるものを残し、これをF_2とする。同様の操作を長さがkになるまで続ける。このようにすることで、k個の特徴量の組み合わせによる、頻出する特徴量のパターンが抽出できる。また、特徴パターン抽出部2は、各クラスタごとに抽出した特徴量のパターン集合を比較し、各クラスタに固有の特徴量のパターンを抽出する。
 誤差寄与度算出部3は、特徴パターン抽出部2が抽出した特徴量のパターンの誤差寄与度(関連性)を算出する。具体的には、誤差寄与度算出部3は、まず、特徴パターン抽出部2が抽出した特徴量のパターンと、残差算出部103が算出した残差とを取得する。続いて、誤差寄与度算出部3は、取得した特徴量のパターンと残差とを用いて、特徴量のパターンの誤差寄与度を算出する。すなわち、各特徴量のパターンの存在が全体の予測誤差にもたらす影響を算出する。
 関連性の算出は、例えば、相関係数などである。各サンプルについて、ある特徴量のパターンPが存在しているかどうかを関連付ける。例えば、1であれば発生、0であれば非発生のような関連付けをする。
 この特徴量のパターンの発生の有無と、サンプルごとの残差に基づいて、ケンドールの順位相関係数や、スピアマンの順位相関係数を算出することで、特徴量のパターンの発生の有無による、誤差の変化具合を算出する。
 また、関連性の算出には、任意の予測モデルの学習アルゴリズムを用いてもよい。サンプルごとの各特徴量のパターンの有無を特徴量とし、サンプルごとの残差を目的変数として予測モデルを学習する。
 この予測モデルに基づき、残差の予測をした場合において特徴パターンの寄与度を抽出することによって、誤差寄与度が算出できる。例えば、線形回帰を用いて残差を予測した場合、回帰係数を誤差寄与度と見做すことが可能である。
[装置動作]
 次に、第一の実施の形態における学習支援装置の動作について図4を用いて説明する。図4は、第一の実施の形態における学習支援装置の動作の一例を示す図である。以下の説明においては、適宜図2から図3を参照する。また、第一の実施の形態では、学習支援装置を動作させることによって、学習支援方法が実施される。よって、第一実施の形態における学習支援方法の説明は、以下の学習支援装置の動作説明に代える。
 図3に示すように、最初に、サンプル分類部4は、サンプル分類設定と残差を表す情報とを用いて、サンプルを残差に基づいて分類する(ステップA1)。具体的には、ステップA1において、サンプル分類部4は、まず、入力装置20からサンプル分類設定と、残差記憶部13に記憶されているサンプルごとの残差とを取得する。
 続いて、ステップA1において、サンプル分類部4は、サンプル分類設定が有するパラメータを用いて、サンプルを分割する。パラメータは、例えば、予測が成功しているサンプル群と予測が失敗しているサンプル群を分類するために用いる閾値である。閾値は、例えば、実験、シミュレーションなどを用いて求める。
 また、サンプル分類部4は、Kmeans法などのクラスタリング手法を用いて分類してもよい。その場合、パラメータはクラスタ数とする。
 次に、特徴パターン抽出部2は、サンプル群を差別化するための特徴量のパターンを抽出する(ステップA2)。具体的には、ステップA2において、特徴パターン抽出部2は、まず、サンプル分類部4が分類した分類結果と、分析データ記憶部40が記憶する予測モデルの学習に用いた特徴量とを取得する。
 続いて、ステップA2において、特徴パターン抽出部2は、分類結果である残差の大きいサンプル群と、予測モデルの学習に用いた特徴量とを用いて、サンプル群を差別化する特徴量のパターンを抽出する。
 次に、誤差寄与度算出部3は、特徴パターン抽出部2が抽出した特徴量のパターンの誤差寄与度(関連性)を算出する(ステップA3)。具体的には、ステップA3において、誤差寄与度算出部3は、まず、特徴パターン抽出部2が抽出した特徴量のパターンと、残差算出部103が算出した残差とを取得する。
 続いて、ステップA3において、誤差寄与度算出部3は、取得した特徴量のパターンと残差とを用いて、特徴量のパターンの誤差寄与度を算出する。すなわち、各特徴量のパターンの存在が全体の予測誤差にもたらす影響を算出する。
 次に、出力情報生成部12は、出力装置30に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置30に出力可能な出力情報を生成する(ステップA4)。次に、出力情報生成部12は、生成した出力情報を出力装置30に出力する(ステップA5)。
 利用者に提示するための情報は、例えば、モデル学習部101が学習した予測モデルの評価結果、サンプル分類部4が算出した分類結果、特徴パターン抽出部2が抽出した特徴量のパターン、誤差寄与度算出部3が算出した誤差寄与度などの情報である。
[第一の実施の形態の効果]
 以上のように第一の実施の形態によれば、特徴量のパターン、特徴量のパターンの誤差寄与度などの情報を生成できるので、入力装置20を通じて、予測モデルの予測精度を向上させるために用いる情報を、利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。
[プログラム]
 第一の実施の形態におけるプログラムは、コンピュータに、図4に示すステップA1からA5を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、第一の形態における学習支援装置と学習支援方法とを実現することができる。この場合、コンピュータのプロセッサは、サンプル分類部4、特徴パターン抽出部2、誤差寄与度算出部3、出力情報生成部12として機能し、処理を行なう。
 また、第一の実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、サンプル分類部4、特徴パターン抽出部2、誤差寄与度算出部3、出力情報生成部12のいずれかとして機能してもよい。
(第二の実施の形態)
 以下、本発明の第二の実施の形態について、図5から図6を参照しながら説明する。
 第二の実施の形態では、特徴量のパターンと、特徴量のパターンの誤差寄与度だけでなく、誤差の原因と、その原因を解決するための対策を推定する。
[システム構成]
 続いて、図5を用いて、第二の実施の形態における学習支援装置1Bを有するシステムの構成を説明する。図5は、第二の実施の形態における学習支援装置を有するシステムの一例を示す図である。
 システムについて説明する。
 図5に示すように、第二の実施の形態におけるシステムは、予測モデル管理システム10B、入力装置20、出力装置30、分析データ記憶部40を有する。予測モデル管理システム10Bは、予測モデル管理装置11、出力情報生成部12、残差記憶部13、学習支援装置1Bを有する。予測モデル管理装置11は、モデル学習部101、モデル評価部102、残差算出部103を有する。
 なお、上述した入力装置20、出力装置30、分析データ記憶部40、予測モデル管理装置11、出力情報生成部12、残差記憶部13については、第一の実施の形態において説明をしたので説明を省略する。
 学習支援装置について説明をする。
 学習支援装置1Bは、特徴パターン抽出部2、誤差寄与度算出部3、サンプル分類部4に加え、原因推定部51と、原因推定ルール記憶部52と、対策推定部53と、対策推定ルール記憶部54とを有する。
 なお、上述した特徴パターン抽出部2、誤差寄与度算出部3、サンプル分類部4については、第一の実施の形態において説明をしたので説明を省略する。
 原因推定部51は、原因推定ルールと特徴量のパターンとを用いて、誤差原因を推定する。具体的には、原因推定部51は、まず、原因推定ルール記憶部52に記憶されている原因推定ルールと、特徴パターン抽出部2が算出した特徴量のパターンを取得する。
 続いて、原因推定部51は、特徴量のパターンを、原因推定ルールに適用して、誤差原因を推定する。原因推定ルールは、特徴量のパターンを用いて誤差原因を推定するルールである。誤差原因は、例えば、共変量シフト、クラスバランス変化、インバランスラベルなどである。
 共変量シフトは、一つ以上の特徴量について、学習に用いるデータと、テストデータ及び運用中の新規データの集合とで、特徴量の確率分布が異なるケースをいう。共変量シフトが発生している場合、二つのデータセットで特徴量の平均値、取り得る範囲が変化する。これにより、学習に用いるデータを用いて学習した予測モデルでは未知の領域に入力データが変化するため、予測精度が低下する。
 クラスバランス変化は、共変量シフトとは異なり、目的変数の分布が変化することを示す。クラスバランス変化においても、学習済み予測モデルでは対応できない領域に環境が変化するため、予測精度が低下する。
 インバランスラベルは、学習データ、テストデータに共通して目的変数がとる領域のサンプル数が著しく異なることをいう。例えば、二値判別のタスクの場合、正例が全サンプルの1[%]であり、負例が99[%]であるような状況である。実例としては、画像を用いて疾病認識、クレジットカードの不正利用の検出などがあげられる。このような場合、多数を占めるフレイの予測精度が学習過程で支配的となり、正例の予測精度が軽視され、全体の予測精度を下げてしまう。
 原因推定ルール記憶部52は、誤差原因を推定するために用いる原因推定ルールを記憶する。原因推定ルール記憶部52は、例えば、データベースなどの記憶装置である。なお、図5において、原因推定ルール記憶部52は、学習支援装置1Bの内部に設けられているが、学習支援装置1Bの外部に設けてもよい。
 具体的には、原因推定ルール記憶部52には、原因推定ルールを、あらかじめ利用者が記憶してもよいし、運用中に利用者が記憶してもよい。
 原因推定ルールは、訓練集合とテスト集合での特徴量のパターンの比較などが考えられる。例えば、サンプル分類部4と特徴パターン抽出部2とが、訓練集合の誤差が大きいクラスタ、訓練集合の誤差が小さいクラスタ、テスト集合の誤差が大きいクラスタ、テスト集合の誤差が小さいクラスタを対象とした場合、特徴パターン抽出部2は、クラスタごとに固有の特徴量のパターンを抽出する。
 テスト集合の誤差が大きいクラスタの固有の特徴量のパターンは、誤差が大きいクラスタのサンプルだけが有する特徴量の値を示し、訓練データはこの特徴量の値を有するサンプルを含まないと判定できる。このようにすることで、共変量シフトに基づく誤差が特定できる。なお、原因推定ルールは、分析タスクにおいて蓄積された様々な知見を用いてもよい。
 対策推定部53は、対策推定ルールと特徴量のパターンとを用いて、対策を推定する。具体的には、対策推定部53は、まず、対策推定ルール記憶部54に記憶されている対策推定ルールと、特徴パターン抽出部2が算出した特徴量のパターンとを取得する。
 続いて、対策推定部53は、特徴量のパターンを、対策推定ルールに適用して、対策を推定する。対策としては、例えば、上述した共変量シフトから生まれる誤差の場合、訓練集合とテスト集合のサンプルを適切に入れ替えて予測モデルを学習しなおすことなどが挙げられる。
 対策推定ルール記憶部54は、予測誤差の削減に必要な対策を推定するルールを記憶する。対策推定ルール記憶部54は、例えば、データベースなどの記憶装置である。なお、図5において、対策推定ルール記憶部54は、学習支援装置1Bの内部に設けられているが、学習支援装置1Bの外部に設けてもよい。
 具体的には、対策推定ルール記憶部54には、対策推定ルールを、あらかじめ利用者が記憶してもよいし、運用中に利用者が記憶してもよい。
 対策推定ルールは、例えば、原因推定ルールと同様に、訓練データとテストデータで誤差の大小で固有の特徴パターンを比較することにより、サンプルを入れ替えるという対応策ルールが考えられる。なお、対策推定ルールは、利用者のその他の知見を用いることができる。
 出力情報生成部12は、出力装置30に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置30に出力可能な出力情報を生成する。利用者に提示するための情報は、例えば、モデル学習部101が学習した予測モデルの評価結果、サンプル分類部4が算出した分類結果、特徴パターン抽出部2が抽出した特徴量のパターン、誤差寄与度算出部3が算出した誤差寄与度に加え、誤差原因、対策などの情報である。
[装置動作]
 次に、第二の実施の形態における学習支援装置の動作について図6を用いて説明する。図6は、第二の実施の形態における学習支援装置の動作の一例を示す図である。以下の説明においては、適宜図5を参照する。また、第二の実施の形態では、学習支援装置を動作させることによって、学習支援方法が実施される。よって、第二の実施の形態における学習支援方法の説明は、以下の学習支援装置の動作説明に代える。
 図6に示すように、最初に、ステップA1からA3の処理を実行する。ステップA1からA3の処理については、第一の実施の形態において説明したので、ステップA1からA3の処理について説明を省略する。
 次に、原因推定部51は、原因推定ルールと特徴量のパターンとを用いて、誤差原因を推定する(ステップB1)。具体的には、ステップB1において、原因推定部51は、まず、原因推定ルール記憶部52に記憶されている原因推定ルールと、特徴パターン抽出部2が算出した特徴量のパターンを取得する。
 続いて、ステップB1において、原因推定部51は、特徴量のパターンを、原因推定ルールに適用して、誤差原因を推定する。原因推定ルールは、特徴量のパターンを用いて誤差原因を推定するルールである。誤差原因は、例えば、共変量シフト、クラスバランス変化、インバランスラベルなどである。
 次に、対策推定部53は、対策推定ルールと特徴量のパターンとを用いて、対策を推定する(ステップB2)。具体的には、ステップB2において、対策推定部53は、まず、対策推定ルール記憶部54に記憶されている対策推定ルールと、特徴パターン抽出部2が算出した特徴量のパターンとを取得する。
 続いて、ステップB2において、対策推定部53は、特徴量のパターンを、対策推定ルールに適用して、対策を推定する。対策としては、例えば、上述した共変量シフトから生まれる誤差の場合、訓練集合とテスト集合のサンプルを適切に入れ替えて予測モデルを学習しなおすことなどが挙げられる。なお、ステップB1とB2の順番は逆でもよい。
 次に、出力情報生成部12は、出力装置30に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置30に出力可能な出力情報を生成する(ステップB3)。次に、出力情報生成部12は、生成した出力情報を出力装置30に出力する(ステップB4)。
 利用者に提示するための情報は、例えば、モデル学習部101が学習した予測モデルの評価結果、サンプル分類部4が算出した分類結果、特徴パターン抽出部2が抽出した特徴量のパターン、誤差寄与度算出部3が算出した誤差寄与度、誤差原因、対策などの情報である。
[第二の実施の形態の効果]
 以上のように第二の実施の形態によれば、特徴量のパターン、特徴量のパターンの誤差寄与度などの情報を生成できるので、出力装置30を通じて、予測モデルの予測精度を向上させるために用いる情報を利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。
 さらに、第二の実施の形態によれば、誤差原因と、その誤差原因を解決するための対策を推定できるので、特徴量のパターンと、特徴量のパターンの誤差寄与度だけでなく、誤差原因、対策などの情報を生成できる。そのため、更に、出力装置30を通じて、予測モデルの予測精度を向上させるために用いる情報を、利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を、更に、容易に行うことができる。
[プログラム]
 第二の実施の形態におけるプログラムは、コンピュータに、図6に示すステップA1からA5、ステップB1からB4を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、第二の形態における学習支援装置と学習支援方法とを実現することができる。この場合、コンピュータのプロセッサは、サンプル分類部4、特徴パターン抽出部2、誤差寄与度算出部3、原因推定部51、対策推定部53、出力情報生成部12として機能し、処理を行なう。
 また、第二の実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、サンプル分類部4、特徴パターン抽出部2、誤差寄与度算出部3、原因推定部51、対策推定部53、出力情報生成部12のいずれかとして機能してもよい。
(第三の実施の形態)
 以下、本発明の第三の実施の形態について、図7から図8を参照しながら説明する。
 第三の実施の形態では、誤差原因と、有効と考えられる対策と、特徴量のパターンとを蓄積し、蓄積した誤差原因と対策と特徴量のパターンとを用いて、誤差原因推定ルールと対策推定ルールとを生成する。
[システム構成]
 続いて、図7を用いて、第三の実施の形態における学習支援装置1Cを有するシステムの構成を説明する。図7は、第三の実施の形態における学習支援装置を有するシステムの一例を示す図である。
 システムについて説明する。
 図7に示すように、第三の実施の形態におけるシステムは、予測モデル管理システム10C、入力装置20、出力装置30、分析データ記憶部40を有する。予測モデル管理システム10Cは、予測モデル管理装置11、出力情報生成部12、残差記憶部13、学習支援装置1Cを有する。予測モデル管理装置11は、モデル学習部101、モデル評価部102、残差算出部103を有する。
 なお、上述した入力装置20、出力装置30、分析データ記憶部40、予測モデル管理装置11、出力情報生成部12、残差記憶部13については、第一の実施の形態において説明をしたので説明を省略する。
 学習支援装置について説明をする。
 学習支援装置1Cは、特徴パターン抽出部2、誤差寄与度算出部3、サンプル分類部4、原因推定部51、原因推定ルール記憶部52、対策推定部53、対策推定ルール記憶部54に加え、フィードバック部70と、原因記憶部71と、対策記憶部72と、原因推定ルール学習部73と、対策推定ルール学習部74と、を有する。
 なお、上述した特徴パターン抽出部2、誤差寄与度算出部3、サンプル分類部4については、第一の実施の形態において説明をしたので説明を省略する。また、原因推定部51、原因推定ルール記憶部52、対策推定部53、対策推定ルール記憶部54については、第二の実施の形態において説明をしたので説明を省略する。
 フィードバック部70は、学習支援装置1Cにより推定された誤差原因、対策、特徴量パターンなどを、記憶部に記憶する。具体的には、フィードバック部70は、原因推定部51が推定した誤差原因の取得と、対策推定部53が推定した対策の取得と、特徴パターン抽出部2が抽出した特徴量のパターンを取得する。
 続いて、フィードバック部70は、原因記憶部71に対して、誤差原因と、それに対応する特徴量のパターンとを関連付けて記憶する。また、フィードバック部70は、対策記憶部72に対して、誤差の改善のための対策と、それに対応する特徴量のパターンとを関連付けて記憶する。
 なお、フィードバック部70は、入力装置20から、誤差原因、対策、特徴量パターンを取得し、記憶部に記憶してもよい。
 原因記憶部71は、フィードバックとして、例えば、誤差原因と、それに対応する特徴量のパターンとを関連付けて記憶する。
 また、原因記憶部71は、例えば、データベースなどの記憶装置である。なお、図7において、原因記憶部71は、学習支援装置1Cの内部に設けられているが、学習支援装置1Cの外部に設けてもよい。
 対策記憶部72は、フィードバックとして、例えば、誤差の改善のための対策と、それに対応する特徴量のパターンとを関連付けて記憶する。なお、対策記憶部72には、更に、対策の有効度(予測の改善度)を、対策とその特徴量のパターンとに関連付けて記憶してもよい。
 有効度は、モデル評価部102が算出した予測モデルの評価値、残差算出部103が算出したサンプルごとの残差、特徴パターン抽出部2が抽出した特徴量のパターンなどを用いて、採用した対策の有効度を算出する。有効度は、例えば、対策を行う前と後で、予測モデルの評価値を比較し、その差分を有効度として用いる。
 対策記憶部72は、例えば、データベースなどの記憶装置である。なお、図7において、対策記憶部72は、学習支援装置1Cの内部に設けられているが、学習支援装置1Cの外部に設けてもよい。
 原因推定ルール学習部73は、学習フェーズにおいて、誤差原因と、誤差原因に対応する特徴量のパターンとを用いて、誤差原因推定ルール(モデル)を学習する。具体的には、原因推定ルール学習部73は、まず、原因記憶部71から、誤差原因と、誤差原因に対応する特徴量のパターンとを取得する。
 続いて、原因推定ルール学習部73は、取得した誤差原因と、特徴量のパターンとを用いて、誤差原因推定ルールを生成し、生成した誤差原因推定ルールを原因推定ルール記憶部52に記憶する。
 誤差原因推定ルールの学習は、記憶済みの特徴量のパターンと、誤差原因とを用いて、特徴量のパターンを説明変数とし、誤差原因を目的変数とする予測モデルを学習することによって可能である。特徴量のパターンは、例えば、特徴量の値の組み合わせとして記憶される。
 この場合、特徴量のパターンは、すべての可能な特徴量の値を列、各特徴パターンを行とし、それぞれの特徴量パターンが含む特徴量値を1、含まない特徴量値を0とする行列として表現できる。この行列を説明変数、各特徴量パターンに関連付けられる誤差原因を要素に持つ列ベクトルを目的変数とする。
 そして、これらのデータから予測モデルを、例えば、多変量回帰やGBDTによる回帰などの学習手法で学習することによって、誤差原因推定ルールの学習が可能である。
 また、誤差原因推定ルールの学習方法に、ベイズ的回帰などの確率分布推定手法を用いることで、ある特徴量パターンが与えられた場合、各誤差原因の確信度を得ることができる。
 対策推定ルール学習部74は、学習フェーズにおいて、対策と、対策の特徴量に対応するパターンと、誤差原因に対応する有効度とを用いて、対策推定ルール(モデル)を学習する。具体的には、対策推定ルール学習部74は、まず、対策記憶部72から、対策と、対策に対応する特徴量のパターンと、対策に対応する有効度とを取得する。
 続いて、対策推定ルール学習部74は、取得した対策と、特徴量のパターンと、有効度とを用いて、対策推定ルールを生成し、生成した対策推定ルールを対策推定ルール記憶部54に記憶する。
 対策推定ルールの学習は、特徴量のパターンを説明変数とし、対策を目的変数とする予測モデルを学習することによって得られる。特徴量のパターンは、誤差原因推定ルールの学習時と同様の行列として表現可能である。対策の表現方法としては、例えば、可能な対策に一意な識別子を割り当てたカテゴリ変数として表現できる。
 この目的変数の場合、複数カテゴリの予測タスクとなるため、例えば決定木判別やGBDTによる判別などの方法で対策推定ルールの学習が可能である。
 なお、対策推定ルールの学習においては、有効度を学習時のサンプルの重みとして用いてもよい。予測モデルの学習では一般に、サンプルごとに、過去の実績値と、学習途中のモデルによる予測値との差異を評価し、その和を損失関数として定義する。
 実績値と予測値の差異は、例えば、二乗誤差や対数尤度関数が用いられる。この損失関数を最小化することで最適なモデルパラメータが決定され、予測モデルが得られるが、損失関数をサンプルごとの差異の和から、有効度を重みとする重み付き和とすることで有効度が高い対策を採用した事例を重視した学習が可能となり、有効度が高い対策を予測するモデルが得られる。
 これにより、新たな特徴量のパターン、残差の傾向などに応じて、誤差原因推定ルールと対策推定ルールとを学習・更新することができる。なお、誤差原因推定ルールと対策推定ルールは、同時に一つの予測モデルとして学習してもよい。
[装置動作]
 第三の実施の形態における学習支援装置の動作について図8を用いて説明する。図8は、第三の実施の形態における学習支援装置の動作の一例を示す図である。以下の説明においては、適宜図7を参照する。また、第三の実施の形態では、学習支援装置を動作させることによって、学習支援方法が実施される。よって、第三の実施の形態における学習支援方法の説明は、以下の学習支援装置の動作説明に代える。
 図8に示すように、最初に、利用者は、入力装置20を介して、予測モデル管理装置11と学習支援装置1Cとに、再学習の指示をする(ステップC1)。
 次に、フィードバック部70は、原因記憶部71に、誤差原因に関連するフィードバックを記憶する(ステップC2)。具体的には、ステップC2において、原因記憶部71には、フィードバックとして、例えば、誤差原因と、それに対応する特徴量のパターンと、誤差原因の有効度とを関連付けて記憶される。
 また、フィードバック部70は、対策記憶部72に、対策に関連するフィードバックを記憶する(ステップC3)。具体的には、ステップC3において、対策記憶部72には、フィードバックとして、例えば、誤差の改善のための対策と、それに対応する特徴量のパターンと、対策の有効度とを関連付けて記憶する。
 なお、ステップC2、C3を処理する順番は逆でもよい。又は、ステップC2、C3の処理を並行して実行してもよい。
 次に、原因推定ルール学習部73は、学習フェーズにおいて、誤差原因と、誤差原因に対応する特徴量のパターンと、誤差原因に対応する有効度とを用いて、誤差原因推定ルール(モデル)を学習する(ステップC4)。具体的には、ステップC4において、原因推定ルール学習部73は、まず、原因記憶部71から、誤差原因と、誤差原因に対応する特徴量のパターンと、誤差原因に対応する有効度とを取得する。
 続いて、ステップC4において、原因推定ルール学習部73は、取得した誤差原因と、特徴量のパターンと、有効度とを用いて、誤差原因推定ルールを生成し、生成した誤差原因推定ルールを原因推定ルール記憶部52に記憶する。
 また、対策推定ルール学習部74は、学習フェーズにおいて、対策と、対策の特徴量に対応するパターンと、誤差原因に対応する有効度とを用いて、対策推定ルール(モデル)を学習する(ステップC5)。具体的には、ステップC5において、対策推定ルール学習部74は、まず、対策記憶部72から、対策と、対策に対応する特徴量のパターンと、対策に対応する有効度とを取得する。
 続いて、ステップC5において、対策推定ルール学習部74は、取得した対策と、特徴量のパターンと、有効度とを用いて、対策推定ルールを生成し、生成した対策推定ルールを対策推定ルール記憶部54に記憶する。
 なお、ステップC4、C5を処理する順番は逆でもよい。又は、ステップC4、C5の処理を並行して実行してもよい。
 その後、第三の実施の形態において生成した誤差原因推定ルールと対策推定ルールとを用いて、図6に示したステップA1からA3、ステップB1からB4の処理を実行する。
[第三の実施の形態の効果]
 以上のように第三の実施の形態によれば、特徴量のパターン、特徴量のパターンの誤差寄与度などの情報を生成できるので、出力装置30を通じて、予測モデルの予測精度を向上させるために用いる情報を利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。
 また、第三の実施の形態によれば、誤差原因と、その誤差原因を解決するための対策を推定できるので、特徴量のパターンと、特徴量のパターンの誤差寄与度だけでなく、誤差原因、対策などの情報を生成できる。そのため、更に、出力装置30を通じて、予測モデルの予測精度を向上させるために用いる情報を、利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を、更に、容易に行うことができる。
 さらに、第三の実施の形態によれば、誤差原因推定ルール又は対策推定ルール又はそれら両方を自動で生成できるので、利用者は、予測モデルの予測精度が改善される作業を、更に、容易に行うことができる。
[プログラム]
 第三の実施の形態におけるプログラムは、コンピュータに、図8に示すステップC1からC5を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、第三の実施の形態における学習支援装置と学習支援方法とを実現することができる。この場合、コンピュータのプロセッサは、サンプル分類部4、特徴パターン抽出部2、誤差寄与度算出部3、原因推定部51、対策推定部53、出力情報生成部12、フィードバック部70、原因記憶部71、対策記憶部72、原因推定ルール学習部73、対策推定ルール学習部74として機能し、処理を行なう。
 また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、サンプル分類部4、特徴パターン抽出部2、誤差寄与度算出部3、原因推定部51、対策推定部53、出力情報生成部12、フィードバック部70、原因記憶部71、対策記憶部72、原因推定ルール学習部73、対策推定ルール学習部74のいずれかとして機能してもよい。
[物理構成]
 ここで、第一、第二、第三の実施の形態におけるプログラムを実行することによって、学習支援装置を実現するコンピュータについて図9を用いて説明する。図9は、第一、第二、第三の実施の形態における学習支援装置を実現するコンピュータの一例を示すブロック図である。
 図9に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていてもよい。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであってもよい。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)などの汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体があげられる。
 なお、本実施の形態における学習支援装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、学習支援装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
[付記]
 以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する(付記1)から(付記18)により表現することができるが、以下の記載に限定されるものではない。
(付記1)
 残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出部と、
 抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出部と、
 を有することを特徴とする学習支援装置。
(付記2)
 付記1に記載の学習支援装置であって、
 前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、原因推定部
 を有することを特徴とする学習支援装置。
(付記3)
 付記2に記載の学習支援装置であって、
 前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、原因推定ルール学習部
 を有することを特徴とする学習支援装置。
(付記4)
 付記1又は2に記載の学習支援装置であって、
 前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、対策推定部
 を有することを特徴とする学習支援装置。
(付記5)
 付記4に記載の学習支援装置であって、
 前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、対策推定ルール学習部
 を有することを特徴とする学習支援装置。
(付記6)
 付記1に記載の学習支援装置であって、
 前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する
 ことを特徴とする学習支援装置。
(付記7)
(a)残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと
(b)抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
 を有することを特徴とする学習支援方法。
(付記8)
 付記7に記載の学習支援方法であって、
(c)前記特徴量のパターンから、誤差原因を推定する原因推定ルールを用いて、前記誤差原因を推定する、ステップ
 を有することを特徴とする学習支援方法。
(付記9)
 付記8に記載の学習支援方法であって、
(d)前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、ステップ
 を有することを特徴とする学習支援方法。
(付記10)
 付記7又は8に記載の学習支援方法であって、
(e)前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、ステップ
 を有することを特徴とする学習支援方法。
(付記11)
 付記10に記載の学習支援方法であって、
(f)前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、ステップ
 を有することを特徴とする学習支援方法。
(付記12)
 付記7に記載の学習支援方法であって、
 前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する、ステップ
 を有することを特徴とする学習支援方法。
(付記13)
 コンピュータに、
(a)残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと、
(b)抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
 を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記14)
 付記13に記載のコンピュータ読み取り可能な記録媒体であって、
 前記プログラムが、前記コンピュータに、
(c)前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、ステップ
 を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記15)
 付記14に記載のコンピュータ読み取り可能な記録媒体であって、
 前記プログラムが、前記コンピュータに、
(d)前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、ステップ
 を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記16)
 付記13又は14に記載のコンピュータ読み取り可能な記録媒体であって、
 前記プログラムが、前記コンピュータに、
(e)前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、ステップ
 を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記17)
 付記16に記載のコンピュータ読み取り可能な記録媒体であって、
 前記プログラムが、前記コンピュータに、
(f)前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、ステップ
 を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記18)
 付記13に記載のコンピュータ読み取り可能な記録媒体であって、
 前記プログラムが、前記コンピュータに、
 前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する、ステップ
 を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 以上のように本発明によれば、予測モデルの予測精度を向上させるために用いる情報を生成し、生成した情報を利用者に提示することができる。本発明は、予測モデルの予測精度の向上が必要な分野において有用である。
1、1A、1B、1C 学習支援装置
  2 特徴パターン抽出部
  3 誤差寄与度算出部
  4 サンプル分類部
 
 10A、10B、10C 予測モデル管理システム
 20 入力装置
 30 出力装置
 40 分析データ記憶部
 
 11 予測モデル管理装置
  101 モデル学習部
  102 モデル評価部
  103 残差算出部
 12 出力情報生成部
 13 残差記憶部
 
 51 原因推定部
 52 原因推定ルール記憶部
 53 対策推定部
 54 対策推定ルール記憶部
 
 70 フィードバック部
 71 原因記憶部
 72 対策記憶部
 73 原因推定ルール学習部
 74 対策推定ルール学習部
 
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (18)

  1.  残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出手段と、
     抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出手段と、
     を有することを特徴とする学習支援装置。
  2.  請求項1に記載の学習支援装置であって、
     前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、原因推定手段
     を有することを特徴とする学習支援装置。
  3.  請求項2に記載の学習支援装置であって、
     前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、原因推定ルール学習手段
     を有することを特徴とする学習支援装置。
  4.  請求項1又は2に記載の学習支援装置であって、
     前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、対策推定手段
     を有することを特徴とする学習支援装置。
  5.  請求項4に記載の学習支援装置であって、
     前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、対策推定ルール学習手段
     を有することを特徴とする学習支援装置。
  6.  請求項1に記載の学習支援装置であって、
     前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する
     ことを特徴とする学習支援装置。
  7. (a)残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出し、
    (b)抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する
     ことを特徴とする学習支援方法。
  8.  請求項7に記載の学習支援方法であって、
    (c)前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する
     ことを特徴とする学習支援方法。
  9.  請求項8に記載の学習支援方法であって、
    (d)前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する
     ことを特徴とする学習支援方法。
  10.  請求項7又は8に記載の学習支援方法であって、
    (e)前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する
     ことを特徴とする学習支援方法。
  11.  請求項10に記載の学習支援方法であって、
    (f)前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する
     ことを特徴とする学習支援方法。
  12.  請求項7に記載の学習支援方法であって、
     前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する
     ことを特徴とする学習支援方法。
  13.  コンピュータに、
    (a)残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと、
    (b)抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
     を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  14.  請求項13に記載のコンピュータ読み取り可能な記録媒体であって、
     前記プログラムが、前記コンピュータに、
    (c)前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、ステップ
     を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  15.  請求項14に記載のコンピュータ読み取り可能な記録媒体であって、
     前記プログラムが、前記コンピュータに、
    (d)前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、ステップ
     を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  16.  請求項13又は14に記載のコンピュータ読み取り可能な記録媒体であって、
     前記プログラムが、前記コンピュータに、
    (e)前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、ステップ
     を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  17.  請求項16に記載のコンピュータ読み取り可能な記録媒体であって、
     前記プログラムが、前記コンピュータに、
    (f)前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、ステップ
     を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  18.  請求項13に記載のコンピュータ読み取り可能な記録媒体であって、
     前記プログラムが、前記コンピュータに、
     前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する、ステップ
     を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
PCT/JP2019/024832 2019-06-21 2019-06-21 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体 WO2020255414A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/024832 WO2020255414A1 (ja) 2019-06-21 2019-06-21 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体
JP2021528632A JP7207540B2 (ja) 2019-06-21 2019-06-21 学習支援装置、学習支援方法、及びプログラム
US17/618,098 US20220327394A1 (en) 2019-06-21 2019-06-21 Learning support apparatus, learning support methods, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024832 WO2020255414A1 (ja) 2019-06-21 2019-06-21 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2020255414A1 true WO2020255414A1 (ja) 2020-12-24

Family

ID=74037617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024832 WO2020255414A1 (ja) 2019-06-21 2019-06-21 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US20220327394A1 (ja)
JP (1) JP7207540B2 (ja)
WO (1) WO2020255414A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022180749A1 (ja) * 2021-02-25 2022-09-01 日本電気株式会社 分析装置、分析方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2022201320A1 (ja) * 2021-03-23 2022-09-29 日本電信電話株式会社 クラスラベル推定装置、誤り原因推定方法、及びプログラム
WO2023181230A1 (ja) * 2022-03-24 2023-09-28 日本電気株式会社 モデル分析装置、モデル分析方法、及び、記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170172493A1 (en) * 2015-12-17 2017-06-22 Microsoft Technology Licensing, Llc Wearable system for predicting about-to-eat moments

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170172493A1 (en) * 2015-12-17 2017-06-22 Microsoft Technology Licensing, Llc Wearable system for predicting about-to-eat moments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG, JIAWEI ET AL.: "Manifold: A Model-Agnostic Framework for Interpretation and Diagnosis of Machine Learning Models", 1 August 2018 (2018-08-01), pages 1 - 10, XP081094420, Retrieved from the Internet <URL:https://arxiv.org/abs/1808.00196> [retrieved on 20190816] *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022180749A1 (ja) * 2021-02-25 2022-09-01 日本電気株式会社 分析装置、分析方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2022201320A1 (ja) * 2021-03-23 2022-09-29 日本電信電話株式会社 クラスラベル推定装置、誤り原因推定方法、及びプログラム
WO2023181230A1 (ja) * 2022-03-24 2023-09-28 日本電気株式会社 モデル分析装置、モデル分析方法、及び、記録媒体

Also Published As

Publication number Publication date
US20220327394A1 (en) 2022-10-13
JP7207540B2 (ja) 2023-01-18
JPWO2020255414A1 (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
US11645581B2 (en) Meaningfully explaining black-box machine learning models
Nolle et al. Analyzing business process anomalies using autoencoders
Hido et al. Statistical outlier detection using direct density ratio estimation
WO2020073714A1 (zh) 训练样本获取方法,账户预测方法及对应装置
JP2005523533A (ja) 混合型数字及び/又は非数字データの処理
US11562262B2 (en) Model variable candidate generation device and method
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Nair et al. Covariate shift: A review and analysis on classifiers
US11550707B2 (en) Systems and methods for generating and executing a test case plan for a software product
CN112016097A (zh) 一种预测网络安全漏洞被利用时间的方法
Ali et al. Discriminating features-based cost-sensitive approach for software defect prediction
US11048984B2 (en) Systems and techniques to monitor text data quality
Seeliger et al. Learning of process representations using recurrent neural networks
Suleman et al. Google play store app ranking prediction using machine learning algorithm
Liefooghe et al. Dominance, indicator and decomposition based search for multi-objective QAP: landscape analysis and automated algorithm selection
JP2014085948A (ja) 誤分類検出装置、方法、及びプログラム
JP2023145767A (ja) 語彙抽出支援システムおよび語彙抽出支援方法
CN116502705A (zh) 兼用域内外数据集的知识蒸馏方法和计算机设备
US20230206134A1 (en) Rank Distillation for Training Supervised Machine Learning Models
Dinov et al. Model Performance Assessment
JP2011034377A (ja) 情報処理装置及び情報処理方法及びプログラム
JP7349404B2 (ja) 判定装置、判定方法及び判定プログラム
Park et al. Performance comparison of multi-class SVM with oversampling methods for imbalanced data classification
Al-Qadasi et al. DeepAbstraction++: Enhancing Test Prioritization Performance via Combined Parameterized Boxes
Sirag et al. A Review on Intrusion Detection System Using a Machine Learning Algorithms

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933311

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021528632

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19933311

Country of ref document: EP

Kind code of ref document: A1