WO2021049365A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2021049365A1
WO2021049365A1 PCT/JP2020/032996 JP2020032996W WO2021049365A1 WO 2021049365 A1 WO2021049365 A1 WO 2021049365A1 JP 2020032996 W JP2020032996 W JP 2020032996W WO 2021049365 A1 WO2021049365 A1 WO 2021049365A1
Authority
WO
WIPO (PCT)
Prior art keywords
data set
information processing
prediction
feature amount
accuracy
Prior art date
Application number
PCT/JP2020/032996
Other languages
English (en)
French (fr)
Inventor
紘士 飯田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021545233A priority Critical patent/JPWO2021049365A1/ja
Publication of WO2021049365A1 publication Critical patent/WO2021049365A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • This technology relates to an information processing device, an information processing method, and a program applicable to the learning process of a prediction model using machine learning.
  • Patent Document 1 describes a system capable of adding hardware resources during the learning process of deep learning.
  • the user is presented with an add button for adding hardware resources along with the progress of the learning process.
  • the user can add hardware resources to improve the speed of the learning process (paragraph of the specification of Patent Document 1 []. 0030] [0034] [0035], FIG. 4 and the like).
  • the purpose of this technique is to provide an information processing device, an information processing method, and a program capable of efficiently learning a prediction model.
  • the information processing apparatus includes an acquisition unit and an estimation processing unit.
  • the acquisition unit acquires the features of the partial data set which is a part of the whole data set used for generating the prediction model.
  • the estimation processing unit estimates accuracy information representing the prediction accuracy of the prediction model generated using the entire data set, based on the feature amount of the partial data set.
  • the feature amount of the partial data set out of all the data sets is acquired. Based on this feature amount, accuracy information representing the prediction accuracy when a prediction model is generated using all the data sets is estimated. This makes it possible to determine, for example, whether or not to use the entire data set, and it is possible to efficiently generate a prediction model.
  • the estimation processing unit estimates a change in the prediction accuracy of the prediction model generated using the entire data set with respect to the prediction accuracy of the prediction model generated using the partial data set. May be good.
  • the estimation processing unit may be configured using an estimation model that estimates changes in the prediction accuracy.
  • the estimation model is a relationship between a feature amount of a part of a predetermined data set and a change in prediction accuracy that occurs when a predetermined prediction model is generated using all or a part of the predetermined data set. It may be a model learned from.
  • the estimation model may be a classification model that classifies the amount of change in the prediction accuracy into a plurality of levels.
  • the estimation model may be a rule-based approximation of a classification model that classifies the amount of change in prediction accuracy into a plurality of levels.
  • the estimation model may be a regression model that estimates the amount of change in the prediction accuracy.
  • the feature amount of the partial data set may include a first feature amount according to the contents of the partial data set.
  • the acquisition unit may calculate the first feature amount by analyzing the partial data set.
  • the first feature amount is at least one of the number of data included in the partial data set, the number of feature amounts contained in the data, and the ratio of the number of the data to the number of feature amounts contained in the data. May include.
  • the feature amount of the partial data set may include a second feature amount corresponding to the prediction model generated by using the partial data set.
  • the acquisition unit may calculate the second feature amount by executing the generation process of the prediction model using the partial data set.
  • the partial data set may include a plurality of data groups having different uses.
  • the second feature amount is an evaluation value for evaluating the predicted value of the prediction model generated by using the partial data set for each of the plurality of data groups, or a comparison value comparing the evaluation values. May include at least one of.
  • the plurality of data groups may include a training data group, a verification data group, and a test data group.
  • the evaluation value may include at least one of a median error, a mean square error, and a median error rate with respect to the prediction value of the prediction model generated using the partial data set.
  • the comparison value may include at least one of the difference or the ratio of the evaluation values calculated for two data groups among the plurality of data groups.
  • the information processing device may further include a screen generation unit that generates a screen for presenting the accuracy information.
  • the estimation processing unit estimates a change in the prediction accuracy of the prediction model generated using the entire data set with respect to the prediction accuracy of the prediction model generated using the partial data set. May be good.
  • the screen generation unit may generate at least one of a screen for presenting the change amount of the prediction accuracy in a plurality of levels or a screen for presenting the value of the change amount of the prediction accuracy.
  • the screen generation unit may generate a selection screen for selecting execution of the prediction model generation process using the partial data set.
  • the acquisition unit may execute the generation process and calculate the feature amount of the partial data set when the execution of the generation process is selected.
  • the estimation processing unit may estimate the accuracy information based on the feature amount of the partial data set.
  • the information processing method is an information processing method executed by a computer system, and acquires the feature amount of a partial data set which is a part of the whole data set used for generating a prediction model. including. Based on the feature quantities of the partial data set, accuracy information representing the prediction accuracy of the prediction model generated using the entire data set is estimated.
  • a program causes a computer system to perform the following steps.
  • FIG. 1 is a block diagram showing a configuration example of a model generation system according to an embodiment of the present technology.
  • the model generation system 100 is a system that generates a prediction model that performs prediction processing using a machine learning method.
  • the prediction model enables predictive analysis of the prediction target.
  • an application for generating a predictive model hereinafter, referred to as a predictive analysis tool
  • the user can generate a predictive model that performs a desired predictive process.
  • the type of prediction model, prediction target, etc. are not limited and can be set arbitrarily by the user.
  • the model generation system 100 includes a terminal device 10 and a server device 30.
  • the terminal device 10 and the server device 30 are connected to each other so as to be able to communicate with each other via the communication network 31.
  • the terminal device 10 is an information processing device directly operated by the user, and functions as an operation terminal of the predictive analysis tool.
  • a PC Personal Computer
  • the server device 30 is an information processing device that remotely connects to the terminal device 10.
  • the server device 30 executes a predetermined process (for example, a learning process of a prediction model) specified by the terminal device 10, and transmits the process result to the terminal device 10.
  • a predetermined process for example, a learning process of a prediction model
  • the server device 30 for example, a network server that can be connected to a predetermined network, a cloud server that can be connected to the cloud, or the like is used.
  • the communication network 31 is a network that connects the terminal device 10 and the server device 30 in a communicable manner, and for example, an Internet line or the like is used. Alternatively, a dedicated local network or the like may be used.
  • FIG. 2 is a block diagram showing a configuration example of the terminal device 10 shown in FIG.
  • the terminal device 10 includes a display unit 11, an operation unit 12, a communication unit 13, a storage unit 14, and a control unit 15.
  • the display unit 11 is a display for displaying each information, and displays, for example, a UI (User Interface) screen of a predictive analysis tool.
  • a liquid crystal display LCD: Liquid Cristal Display
  • an organic EL Electro-Luminescence
  • the specific configuration of the display unit 11 is not limited, and for example, a display or the like equipped with a touch panel or the like that functions as the operation unit 12 may be used. Further, an HMD (Head Mounted Display) may be used as the display unit 11.
  • the operation unit 12 includes an operation device for the user to input various information.
  • a device capable of inputting information such as a mouse or a keyboard is used.
  • the specific configuration of the operation unit 12 is not limited.
  • a touch panel or the like may be used as the operation unit 12.
  • a camera or the like for photographing the user may be used, and input by a line of sight or a gesture may be possible.
  • the communication unit 13 is a module that performs communication processing between the terminal device 10 and another device (for example, the server device 30).
  • the communication unit 13 is composed of, for example, a wireless LAN (Local Area Network) module such as Wi-Fi or a wired LAN module.
  • a communication module capable of short-range wireless communication such as Bluetooth (registered trademark) and optical communication may be used.
  • the storage unit 14 is a non-volatile storage device, and for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like is used.
  • the type of recording medium used as the storage unit 14 is not limited, and for example, any recording medium for recording data non-temporarily may be used.
  • the control program 16 according to the present embodiment is stored in the storage unit 14.
  • the control program 16 is, for example, a program that controls the operation of the entire terminal device 10.
  • the storage unit 14 stores the learning data set 17 used for generating the prediction model.
  • the training data set 17 is a data set containing a plurality of data used for machine learning of the prediction model.
  • the learning data set 17 is appropriately generated according to the target (prediction item) of the prediction model 50 and stored in the storage unit 14.
  • the data contained in the training data set 17 is appropriately read and used.
  • the data of the learning data set 17 is, for example, data in which a plurality of attribute values (feature amounts) are associated with correct answer labels corresponding to them.
  • a prediction model that predicts the items of the correct answer label.
  • customer data is used as a learning data set 17 to generate a model that predicts products that customers like.
  • an item representing a product preferred by the customer for example, a product purchased by the customer or a product viewed by the customer
  • Items related to other attributes are input items for learning the prediction model.
  • the type of the learning data set 17 and the like are not limited, and any data set according to the prediction model may be used.
  • the data set that is a part of the training data set 17 will be referred to as a partial data set 18.
  • the partial data set 18 is composed of a plurality of data sampled from, for example, the training data set 17.
  • the data that becomes the partial data set 18 is appropriately sampled each time the partial data set 18 is needed, for example.
  • the data to be the partial data set 18 may be preset.
  • the training data set 17 corresponds to the whole data set used to generate the prediction model
  • the partial data set 18 corresponds to the partial data set which is a part of the whole data set.
  • the control unit 15 controls the operation of each block of the terminal device 10.
  • the control unit 15 has a hardware configuration necessary for a computer such as a CPU and a memory (RAM, ROM). When the CPU loads the program stored in the storage unit 14 into the RAM and executes it, various processes are executed.
  • a device such as a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit) may be used.
  • the CPU of the control unit 15 executes the program according to the present embodiment to estimate the accuracy of the UI generation unit 20, the prediction model generation unit 21, the meta feature amount calculation unit 22, and the accuracy estimation as functional blocks.
  • the unit 23 is realized.
  • the information processing method according to the present embodiment is executed by these functional blocks.
  • dedicated hardware such as an IC (integrated circuit) may be appropriately used.
  • the UI generation unit 20 generates a UI for exchanging information between the user and the terminal device 10 (or the server device 30). Specifically, the UI generation unit 20 generates a UI screen (see FIGS. 7 and 9) displayed on the display unit 11 when the prediction model 50 is generated. This UI screen becomes the screen of the above-mentioned predictive analysis tool. On the UI screen, for example, information to be presented to the user, an input field for the user to input information, and the like are displayed. The user can specify various settings, values, etc. by operating the operation unit (keyboard, etc.) while looking at the UI screen. The UI generation unit 20 receives the information specified by the user via the UI screen in this way. In this embodiment, the UI generation unit corresponds to the screen generation unit.
  • the prediction model generation unit 21 executes a prediction model generation process.
  • the prediction model generation unit 21 executes a prediction model generation process using the partial data set 18. This process is a process that can be executed in a shorter time than the process of generating a prediction model using all the training data sets 17.
  • the generation process using all the learning data sets 17 is executed by, for example, the server device 30.
  • the prediction model generated by using the partial data set 18 will be referred to as a first prediction model. Further, the prediction model generated by using all the training data sets 17 is described as the second prediction model.
  • the prediction model generation process includes a series of processes required to build the prediction model. For example, in a predictive analysis tool, as a prediction model generation process, a learning process for training a prediction model (prediction model training), a verification process for verifying the state of the prediction model (learning tendency, etc.), a prediction accuracy of the prediction model, etc.
  • the test process to confirm is executed as appropriate. Therefore, in the prediction model generation unit 21, the learning process, the verification process, the test process, and the like are executed using the partial data set 18, respectively.
  • the machine learning algorithm used for the prediction model is not limited, and for example, an arbitrary algorithm according to the processing content of the prediction model may be used. This technology can be applied regardless of the type of algorithm. In the following, the generation process of the prediction model may be referred to simply as the learning process.
  • the meta-feature amount calculation unit 22 acquires the feature amount of the partial data set 18 which is a part of the learning data set 17 used for generating the prediction model.
  • the feature amount of the partial data set 18 is a feature amount representing the properties of the partial data set 18 itself.
  • a meta feature amount such a feature amount of the data set itself will be referred to as a meta feature amount. That is, the meta feature amount calculation unit 22 acquires the meta feature amount of the partial data set 18.
  • the meta feature amount is different from the attribute value (hereinafter referred to as data feature amount) recorded in the data constituting the partial data set 18.
  • the feature amount of the data set itself such as the number of data included in the data set and the number of data feature amounts, is a meta feature amount.
  • the meta feature amount includes a feature amount (first feature amount) obtained by analyzing the partial data set 18. This feature amount is calculated by analyzing the partial data set 18. Further, the meta feature amount includes a feature amount (second feature amount) obtained by actually using the partial data set 18. This feature amount is calculated using the prediction model generated by the prediction model generation unit 21 described above. The meta-feature amount will be described in detail later with reference to FIG. 5 and the like.
  • the acquisition unit is realized by the cooperation between the prediction model generation unit 21 and the meta feature amount calculation unit 22.
  • the accuracy estimation unit 23 estimates accuracy information representing the prediction accuracy of the prediction model (second prediction model) generated by using the training data set 17 based on the feature amount (meta feature amount) of the partial data set 18. To do.
  • the accuracy information is information that can represent the prediction accuracy of the second prediction model. By referring to this accuracy information, it is possible to determine how much prediction accuracy can be achieved when a second prediction model is constructed using all the training data sets 17.
  • the accuracy estimation unit 23 uses the training data set 17 for the prediction accuracy of the prediction model (first prediction model) generated by using the partial data set 18 as the accuracy information.
  • the change in the prediction accuracy of (the second prediction model) is estimated.
  • the accuracy estimation unit 23 determines the amount of improvement in prediction accuracy expected when a second prediction model is generated using all the training data sets 17 based on the first prediction model trained in the partial data set 18. presume. This improvement in prediction accuracy corresponds to the above-mentioned change in prediction accuracy.
  • the accuracy estimation unit 23 is configured by using an estimation model that estimates changes in prediction accuracy.
  • the estimation model is a learning model that has been trained to output the change in the prediction accuracy of the second prediction model with respect to the first prediction model by inputting the meta-feature amount of the partial data set 18.
  • the accuracy estimation unit 23 can be said to be a module (estimation module) that implements the estimation model.
  • the estimation model is composed of learning from meta-features of a large number of data sets available from the Web or the like, for example. The method of generating the estimation model will be described in detail later.
  • an estimation model (estimation module) that estimates the improvement in prediction accuracy is constructed.
  • the estimation model is generated according to the type of prediction model, for example. Alternatively, a versatile estimation model that can handle different types of prediction models may be generated.
  • the data of the estimation model is stored in the storage unit 14 in advance, for example, and is appropriately read and used each time the accuracy estimation unit 23 is operated.
  • the accuracy estimation unit 23 uses the estimation model configured in this way to improve the estimation accuracy of the training data set 17 actually used when all the data sets are used for training (change in estimation accuracy). Is estimated.
  • FIG. 3 is a schematic diagram showing an outline of the estimation model generation process.
  • a method of generating an estimation model 40 for estimating the improvement range of the prediction accuracy will be described with reference to FIG.
  • a large number of data sets that can be used for machine learning have become available from the Web and the like.
  • the data set used for constructing the estimation model 40 will be referred to as an estimation data set.
  • a prediction model (hereinafter referred to as a prediction model for estimation) is generated using a data set for estimation.
  • the prediction accuracy differs between the model trained using a part of the estimation data set and the model trained using all the estimation data sets.
  • an estimation model 40 for estimating the improvement range of prediction accuracy is constructed.
  • the estimation prediction model may be arbitrarily set according to, for example, the estimation data set.
  • the estimation data set corresponds to a predetermined data set.
  • the estimation prediction model corresponds to a predetermined prediction model.
  • a set of input data 25 and answer data 26 corresponding to the input data 25 is used.
  • a set of input data 25 and answer data 26 is generated for each estimation data set.
  • the number of estimation data sets (the number of sets of input data 25 and answer data 26) used in the estimation model generation process is, for example, about several hundred sets.
  • the input data 25 is a meta-feature amount of the estimation data set. Specifically, the meta-feature amount of a part of the data set (for example, 10%) included in the target estimation data set is used as the input data 25. Examples of the meta feature amount included in the input data 25 include the number of data, the number of data feature amounts, and the predicted evaluation value for the training data (train) / validation data (validation) / test data (test) described later. Be done. The number and types of these meta-features are set in the same manner as the meta-features actually referred to by the estimation model 40 when estimating the improvement width, for example (see FIG. 5). Further, when the input data 25 is generated, the same method as the method in which the meta-feature amount calculation unit 22 calculates the meta-feature amount of the partial data set 18 is used.
  • the answer data 26 is a correct label of an item (improvement range of prediction accuracy) to be learned by the estimation model 40. Specifically, the prediction accuracy of the estimation prediction model when training is performed using a part of the estimation data set (for example, 10%), and the training is performed using the entire estimation data set. The difference (improvement range) from the prediction accuracy of the estimation prediction model at that time is used as the correct answer label. Therefore, the answer data 26 is calculated by actually training the estimation prediction model using a part or all of the estimation data set. A part of the above input data 25 is calculated from the estimation prediction model generated at this time.
  • the input data 25 and the answer data 26 described above are generated. That is, for each of the plurality of estimation data sets, the meta-feature amount (input data 25) and the improvement range of the prediction accuracy (answer data 26) when actually learning with all the data are calculated.
  • Machine learning is executed based on the input data 25 and the answer data 26 calculated in this way. Specifically, the learning process or the like is executed with the improvement range of the prediction accuracy as the correct label and the meta feature amount as the feature amount. It can be said that this process is, for example, a process of learning the characteristics of the data set so that the improvement of the prediction accuracy becomes large when all the data are used.
  • the estimation model 40 learns the characteristics (meta-feature amount) of the data set whose prediction accuracy improves when the number of data is increased.
  • the trained estimation model 40 for estimating the improvement range of the prediction accuracy is constructed from the meta-features of the data set.
  • the estimation model 40 has the feature quantities of a part of the estimation data set and the prediction accuracy that occurs when the estimation prediction model is trained using all or part of the estimation data set. It is a model that learned the relationship with change. By using the estimation model 40, even when an unknown learning data set 17 is used, it is possible to accurately and easily estimate the improvement range of the prediction accuracy of the prediction model.
  • the estimation model 40 may be a learning model obtained by learning from the meta-features and the correct answer label, or may be a model that approximates the learning model.
  • the types of the estimation model 40 will be described.
  • the estimation model 40 is a classification model that classifies the amount of change in prediction accuracy into a plurality of levels.
  • the correct answer label (answer data 26) is a binary classification of each level representing the amount of change in prediction accuracy.
  • the level indicating the amount of change for example, when learning with all the data sets, a level indicating the degree of change in the prediction accuracy as compared with the case of learning with some data sets is set. For example, the prediction accuracy is divided into three levels: "significantly improved (5% or more)", “somewhat improved (2-5%)", or "almost no improvement (less than 2%)".
  • the correct label is set. This makes it possible to estimate the improvement in prediction accuracy by dividing it into a plurality of stages.
  • the estimation model 40 may be a model that approximates a classification model that classifies the amount of change in prediction accuracy into a plurality of levels based on a rule.
  • the estimation model 40 is a rule-based classifier that simplifies the classification model.
  • the final estimation model 40 is calculated by approximating the above classification model with a predetermined algorithm.
  • an algorithm for approximating the classification model a decision tree algorithm, a random forest in which decision trees are randomly combined, or a rule fit that replaces processing by the classification model with a set of rules are used.
  • a rule-based model it is possible to suppress the amount of calculation and the calculation time required for estimating the improvement width. It is also possible to explain the contents of the estimation process so that the user can understand it.
  • the estimation model 40 may be a regression model that estimates the amount of change in prediction accuracy.
  • the correct answer label (answer data 26) is set to the value of the amount of change in the prediction accuracy (for example, the improvement width X% or the like).
  • the estimation model 40 may be constructed in which the amount of change (improvement range) in the prediction accuracy is directly regressed as a specific numerical value. This makes it possible to present to the user a specific estimated value of the improvement range of the prediction accuracy.
  • the specific configuration of the estimation model 40 is not limited.
  • FIG. 4 is a schematic diagram for explaining the outline of the model generation system 100.
  • the flow of processing from estimating the improvement range of the prediction accuracy using the above-mentioned estimation model 40 and presenting the estimation result is schematically shown.
  • FIG. 4 shows a generation process (step 1) of the prediction model 50 (first prediction model 51), a meta feature amount calculation process (step 2), an improvement width estimation process (step 3), and a UI presentation process. (Step 4) is included. This will be described in order below.
  • Prediction model generation process When estimating the improvement range of the prediction accuracy, a process of generating the first prediction model 51 is executed using the partial data set 18. This process is a preliminary generation process that is executed before training the entire training data set 17 (generation process of the second prediction model 52). Specifically, the prediction model generation unit 21 samples a part of the data set (partial data set 18) included in the learning data set 17. Then, machine learning using this partial data set 18 is executed.
  • the partial data set 18 is divided into a plurality of data groups having different uses. That is, it can be said that the partial data set 18 includes a plurality of data groups having different uses.
  • One data group contains at least one piece of data, and each group is used for a different purpose.
  • the method of setting the data group is not limited.
  • the plurality of data groups are a training data group, a verification data group, and a test data group.
  • the training data is data used when the learning process of the prediction model 50 is performed, and is data that the prediction model 50 actually trains (trains). The more the training data, the more the accuracy of the prediction model 50 tends to improve.
  • the validation data is data used when performing a verification process for verifying the learning state (learning tendency, etc.) of the prediction model 50. Therefore, it can be said that the verification data is data for checking the learning of the prediction model 50.
  • the test data is data used when performing a test process for confirming the final prediction accuracy of the prediction model 50 learned from the training data. Therefore, it can be said that the test data is data for evaluating the prediction model 50.
  • verification data may not be required among these data. In this case, there is no need for a group of validation data.
  • the learning process, the verification process, the test process, and the like described above are appropriately executed using these data groups.
  • the trained prediction model 50 (first prediction model 51) learned from the partial data set 18 is generated.
  • the information of each data group and the data of the first prediction model 51 are output to the meta-feature amount calculation unit 22.
  • the meta-feature amount calculation unit 22 calculates the meta-feature amount F of the partial data set 18 used for generating the first prediction model 51. First, the data necessary for calculating the meta feature amount is read as appropriate. Specifically, each data group included in the partial data set 18 and the first prediction model 51 generated by using the partial data set 18 are read. FIG. 4 schematically illustrates a group of training data and test data of the partial data set 18 and a first prediction model 51. Although not shown, a group of verification data is also read as appropriate.
  • the partial data set 18 (training data, verification data, test data) sampled from the data set (training data set 17) and the partial data set 18 have already been trained.
  • a first prediction model is prepared.
  • the meta feature amount F calculated based on these data will be specifically described.
  • FIG. 5 is a table showing specific examples of meta-features.
  • FIG. 5 shows items of each meta-feature amount and specific contents thereof for a plurality of meta-feature amounts. These meta-features are used, for example, when a regression model is used as a prediction model.
  • each meta feature amount will be described with a number (F1 to F16).
  • the table shown in FIG. 5 is an example, and the number and types of meta-features are not limited.
  • the meta feature amount of the partial data set 18 includes a first feature amount according to the contents of the partial data set 18.
  • the first feature amount is a feature amount of the partial data set 18 itself.
  • the meta feature amount calculation unit 22 calculates the first feature amount by analyzing the partial data set 18. In the table shown in FIG. 5, the meta feature amounts F1 to F4 and F9 correspond to the first feature amount.
  • the meta-feature amount F1 (number of data) is the number of data included in the partial data set 18. For example, the total number of data included in the partial data set 18 is calculated as a meta feature amount. Alternatively, the total number of training data contained in the partial data set 18 may be used.
  • the meta feature amount F2 (feature amount number) is the number of feature amounts (data feature amount) included in the data of the partial data set 18. For example, the total number of data features set for each data is calculated as a meta feature. If the number (type) of feature quantities is different for each data, the total total number or the like may be calculated.
  • the meta feature amount F3 (number of feature amounts / number of data) is a ratio of the number of data included in the partial data set 18 to the number of data feature amounts contained in the data. For example, the value obtained by dividing the above-mentioned meta-feature amount F2 by the meta-feature amount F1 is calculated as a new meta-feature amount.
  • the meta feature amount F4 (the number of feature amounts after expansion) is the number of data feature amounts used for the training data after the predetermined preprocessing is completed. For example, when performing preprocessing such as OneHot encoding, the number of data features changes before and after the processing by using dummy variables. The total number of data features after this processing is calculated as meta features.
  • the meta-feature amount F9 (variance of correct answer values) is the variance of the prediction target label (correct answer label).
  • the variance value (for example, standard deviation) of the value of the prediction target label to be the prediction target of the regression model is calculated as the meta feature amount.
  • the meta feature amount of the partial data set 18 includes a second feature amount corresponding to the prediction model 50 (first prediction model 51) generated by using the partial data set 18. That is, it can be said that the second feature amount is a feature amount obtained by actually using the partial data set 18.
  • the prediction model generation unit 21 calculates the second feature amount by executing the generation processing of the first prediction model 51 using the partial data set 18.
  • the meta feature amounts F5 to F8 and F10 to F16 correspond to the second feature amount.
  • an evaluation value for evaluating the predicted value of the first prediction model 51 generated by using the partial data set 18 for each of the plurality of data groups is used.
  • the evaluation value is a parameter capable of evaluating the predicted value output from the first prediction model 51 when a certain data group (group of training data, verification data, and test data) is input.
  • Parameters for evaluating the predicted value include, for example, the median error (MAE: Mean Absolute Error), mean square error (RMSE: Root Mean Squared Error), and the median error rate (MAPE: Mean Absolute Percentage Error). Used. Alternatively, the variance of the predicted value or the like may be used as the evaluation value.
  • the parameters used as the evaluation value are not limited, and other indexes may be used.
  • the meta-feature amount F5 (change in the median error of the test data according to the number of iterations) is the amount of change in the median error in the iteration processing for the test data.
  • the iteration process is, for example, a process (cross-validation) in which the prediction accuracy of a model is verified a plurality of times by changing the method of selecting test data, and has an effect of reducing the bias of evaluation due to the method of selecting test data. Specifically, the difference between the median error at half the number of times when the iteration converges and the median error at the final convergence is calculated as the meta feature amount.
  • the meta-feature amount F5 is an example of an evaluation value for test data.
  • the meta-feature amount F6 (median error of training / verification / test data) is the median error (MAE) for each group of training data, verification data, and test data when predicted by the trained first prediction model 51. ) Is the value.
  • the meta-feature amount F7 (mean square error of training / verification / test data) is the mean square error (RMSE) for each group of training data, verification data, and test data when predicted by the trained first prediction model 51. ) Is the value.
  • the meta-feature amount F8 (median error rate of training / verification / test data) is the median error rate for each group of training data, verification data, and test data when predicted by the trained first prediction model 51. It is a value of (MAPE).
  • the meta-feature amount F10 (variance of predicted values) is a variance (standard deviation, etc.) of predicted values predicted by the trained first prediction model 51. All or part of these evaluation values may be used.
  • the comparison value is a value obtained by comparing the evaluation values calculated for each data group (group of training data, verification data, and test data) between the groups. Specifically, at least one of the differences or ratios of the evaluation values calculated for two data groups among the plurality of data groups is used as the comparison value.
  • the meta-feature amount F11 (difference in median error between training data and test data) is the difference between the median error with respect to the training data and the median error with respect to the test data.
  • the meta-feature amount F12 (ratio of the median error between the training data and the test data) is the ratio of the median error to the training data and the median error to the test data.
  • the meta-feature amount F13 (difference in median error between verification data and test data) is the difference between the median error with respect to the verification data and the median error with respect to the test data.
  • the meta-feature amount F14 (ratio of the median error between the verification data and the test data) is the ratio of the median error to the verification data and the median error to the test data.
  • the meta-feature amount F15 (difference in the median error between the training data and the verification data) is the difference between the median error with respect to the training data and the median error with respect to the verification data.
  • the meta-feature amount F16 (ratio of the median error between the training data and the verification data) is the ratio of the median error to the training data and the median error to the verification data.
  • meta-feature amounts F11 to F16 are calculated based on, for example, the result of the above-mentioned meta-feature amount F6.
  • the standard for calculating the difference and the ratio may be arbitrarily set.
  • the median error for the test data may be subtracted from the median error for the training data, or vice versa.
  • the absolute value of the difference may be used.
  • the median error with respect to the training data may be divided by the median error with respect to the test data to calculate the ratio, or vice versa.
  • a comparison value comparing the mean square error and the median error rate may be used as meta information.
  • the median error and the like can be calculated given the trained first prediction model and the partial data set 18 used for the training. All other features can be calculated by using the sampled training data, verification data, test data, and the first prediction model 51. Most of these values are calculated in the process of creating the first prediction model 51, and no additional calculation is required.
  • the accuracy estimation unit 23 calculates the improvement range ⁇ of the prediction accuracy in the prediction model 50 based on the meta feature amount F calculated as described above.
  • the estimation model 40 for estimating the improvement range of the prediction accuracy which is constructed by learning from the meta-features, is used (see FIG. 3). Specifically, the meta-feature amount F of the partial data set 18 is input to the estimation model 40 as input data. Then, the calculation using the estimation model 40 is executed, and the classification value and the value of the improvement width ⁇ are output.
  • the estimation model 40 is a classification model or a rule-based model that approximates the classification model
  • the classification result in which the improvement width ⁇ is classified into a plurality of levels is output.
  • the output value is a prediction establishment for each level such as "significantly improved (5% or more)", “somewhat improved (2-5%)", and “almost not improved (less than 2%)". That is, the probability that the improvement range is 5% or more is calculated.
  • the estimation model 40 is a regression model
  • the value of the improvement range ⁇ of the prediction accuracy is directly estimated by solving the regression problem.
  • the output of the estimation model 40 is output to the UI generation unit 20.
  • the UI generation unit 20 displays the estimated improvement range ⁇ of the prediction accuracy. Specifically, the UI generation unit 20 generates a screen for presenting the estimation result of the improvement width ⁇ (change in prediction accuracy) of the prediction accuracy. Then, the generated screen is displayed on the display unit 11. As a result, the improvement range ⁇ of the prediction accuracy assumed when the prediction model 50 (second prediction model 52) is generated using all the training data sets 17 is presented to the user, and the second prediction model 52 It is possible to support the decision as to whether or not to generate.
  • model generation system 100 predictive analysis tool
  • learning is performed in a short time using a part of the training data set 17, and how much prediction accuracy is obtained when learning from the information at that time using all the data sets. It is possible to estimate whether it will improve. That is, by learning only once from a part of the data sets, it is possible to estimate the improvement range ⁇ of the prediction accuracy when all the data are used for learning.
  • the present inventor actually constructed an estimation model 40 for estimating the improvement range ⁇ of the prediction accuracy, and verified the accuracy.
  • the AUC (evaluation index for the classification problem) of the estimation model 40 for classifying the improvement width ⁇ was 0.75, and it was found that the improvement width ⁇ could be predicted with high accuracy. This means that the data set with improved prediction accuracy can be appropriately predicted from the meta-features.
  • the present inventor has obtained knowledge from actual experimental results regarding the tendency of data sets to improve accuracy when the number of data is increased. Specifically, it was found that the larger the difference between the evaluation index of the predicted value (for example, the above-mentioned evaluation value) for the training data and the test data, the greater the improvement in accuracy when learning with all the data. It was. For example, the difference between the evaluation indexes of the training data and the test data is an index showing how much the prediction model 50 overfits the training data. If these differences are large, the accuracy increases as the number of data increases. In many cases, improvement can be expected.
  • the evaluation index of the predicted value for example, the above-mentioned evaluation value
  • the evaluation index (evaluation value) of the predicted value for the training data and the test data and the value (comparison value) comparing the evaluation indexes are particularly important feature quantities.
  • FIG. 6 is a flowchart showing a basic operation example of the model generation system.
  • the process shown in FIG. 6 is a process executed when, for example, a user using the terminal device 10 generates a prediction model 50 with a prediction analysis tool.
  • each set value of the prediction model 50 is read (step 101).
  • the UI generation unit 20 generates a setting screen for the prediction model 50 and outputs it to the display unit 11.
  • the content (set value) input by the user via the setting screen is read.
  • FIG. 7 is a schematic diagram showing an example of the setting screen. As shown in FIG. 7, the setting screen 35 is provided with a plurality of setting fields. Here, a case will be described in which the customer data including the purchase record of the product is used as the learning data set 17 to generate the prediction model 50 for predicting the presence or absence of the purchase of the product.
  • the item (data feature amount) used for learning the prediction model 50 can be specified.
  • items such as “age”, “gender”, “customer rank”, “past purchase amount”, “coupon usage count”, “email address registration”, and “option purchase” related to the customer are presented in a selectable manner. .. In addition, the data type, unique number, etc. for each item are also displayed.
  • the type of the prediction model 50 can be specified.
  • the items of "binary classification”, “multi-value classification”, and “numerical prediction” (regression prediction) are displayed in a selectable manner.
  • binary classification is selected as the type of prediction model 50.
  • the prediction target (target item) of the prediction model 50 it is possible to specify the prediction target (target item) of the prediction model 50.
  • “with purchase” is selected as the prediction target among the items of "with purchase” and "without purchase”.
  • the ratio of each item in the learning data set 17 is displayed.
  • the area shown by the dotted line on the setting screen 35 is a selection area 36 for selecting learning using the partial data set 18.
  • the selection area 36 is provided with a setting field for “ratio of data to be used”.
  • this setting field it is possible to select and specify the ratio of the data used as the partial data set 18 from several candidates. For example, the ratio of the partial data set 18 to the training data set 17 is presented in a selectable range of 0% to 100% (10% is selected here). In this UI, when the ratio of the partial data set 18 is a finite value larger than 0%, learning using the partial data set 18 is selected. When the ratio of the partial data set 18 is 0%, learning using the partial data set 18 is not selected.
  • FIG. 8 is a schematic diagram showing an example of the interface of the selection area 36.
  • the selection area 36 shown in FIG. 8A is provided with a setting field for “ratio of data to be used”.
  • the ratio of the data used as the partial data set 18 can be freely input and specified in the range of 0% to 100%. In this case, when the input value is larger than 0, learning using the partial data set 18 is selected.
  • the selection area 36 shown in FIG. 8B is provided with a setting field for the “learning mode”.
  • this setting field an item "quick mode” and an item “learn with all data” are presented in a selectable manner.
  • the quick mode is a mode in which learning is performed using the partial data set 18 and the improvement range of the prediction accuracy is calculated in a short time before the actual learning.
  • the quick mode for example, the partial data set 18 is selected and used at a preset default rate. The ratio of the partial data set 18 may be selectable. By selecting the learning mode in this way, the presence or absence of learning in the partial data set 18 may be set.
  • the selection area 36 shown in FIG. 8C is provided with a setting field for a “terminal for learning”.
  • this setting field the item “learning on this terminal” and the item “learning on the cloud” are presented in a selectable manner.
  • the item “learning on this terminal” is selected when learning using the partial data set 18 (partial data) is executed on the terminal device 10. Further, the item “learning on the cloud” is selected when learning using all the learning data sets 17 is executed on the server device 30. In this way, the presence or absence of learning in the partial data set 18 may be set by selecting the device that performs the learning process.
  • the UI generation unit 20 generates the setting screen 35 for selecting the execution of the generation process of the first prediction model 51 using the partial data set 18.
  • the setting screen 35 corresponds to the selection screen.
  • step 102 when the set value input from the setting screen 35 is read, it is determined whether or not to start the learning process in the partial data set 18 (step 102). For example, in the UI displayed in the selection area 36, it is assumed that learning with the partial data set 18 is selected.
  • the execute button shown in FIG. 7 is pressed in this state, it is determined that the learning in the partial data set 18 is performed (Yes in step 102), and the learning in the partial data set 18 and the improvement using the learning result are used.
  • the width ⁇ estimation process is started. Further, for example, when the execute button is pressed without selecting to perform learning in the partial data set 18, it is determined that learning in the partial data set 18 is not performed (No in step 102), which will be described later. Step 107 is executed.
  • the prediction model generation unit 21 executes the generation processing of the first prediction model 51 using the partial data set 18 (step 103).
  • This process corresponds to the process of generating the prediction model in step 1 described with reference to FIG.
  • a model that outputs a predicted value from an input item selected by a set value on the setting screen 35 is configured, and learning processing, verification processing, test processing, etc. using the partial data set 18 are executed and learned.
  • the first prediction model 51 is constructed.
  • the meta-feature amount calculation unit 22 calculates the meta-feature amount F of the partial data set 18 (step 104). This process corresponds to the calculation process of the meta-feature amount in step 2 described with reference to FIG. For example, the data of the first prediction model 51 and the partial data set 18 used for the learning thereof are read, and the meta-feature amount F to be the input of the estimation model 40 already prepared is calculated.
  • the meta-feature amount calculation unit 22 calculates the meta-feature amount F of the partial data set 18 (step 104).
  • This process corresponds to the calculation process of the meta-feature amount in step 2 described with reference to FIG.
  • the data of the first prediction model 51 and the partial data set 18 used for the learning thereof are read, and the meta-feature amount F to be the input of the estimation model 40 already prepared is calculated.
  • the generation process is executed and the meta feature amount F of the partial data set 18 is calculated.
  • the accuracy estimation unit 23 estimates the improvement range ⁇ (accuracy information) of the prediction accuracy based on the meta-feature amount F of the partial data set 18 (step 105). This process corresponds to the process of estimating the improvement width in step 3 described with reference to FIG. For example, each meta feature amount F calculated in the previous step is input to the estimation model 40, and the classification level and value of the improvement range ⁇ of the prediction accuracy are calculated.
  • the UI generation unit 20 When the improvement width ⁇ is calculated, the UI generation unit 20 generates a screen for presenting the improvement width ⁇ (step 106). This process corresponds to the UI presentation process of step 4 described with reference to FIG. In the present embodiment, an evaluation screen for presenting the improvement width ⁇ is generated together with the evaluation result of the first prediction model 51, and is displayed on the display unit 11.
  • FIG. 9 is a schematic diagram showing an example of an evaluation screen relating to the first prediction model 51.
  • a model selection area 36 is provided on the left side of the evaluation screen 37 shown in FIG.
  • the first prediction model 51 that has already been evaluated is presented in a selectable manner together with the evaluation value, the generation date and time, and the data name used.
  • a display column of "prediction accuracy level” indicating the level of prediction accuracy of the first prediction model 51 selected in the selection area 36 and a display column of "contribution of items”.
  • a display area 38 for presenting the estimation result of the improvement width ⁇ is provided.
  • the AUC Average Under the Curve
  • the ROC Receiveiver Operating Characteristic
  • AUC is an index showing the classification accuracy of the classification model.
  • explanatory items related to the evaluation index are displayed.
  • a bar graph showing the contribution of each item that influenced the classification is displayed. This makes it possible to compare, for example, items that affect the classification of "with purchase” and items that affect the classification of "without purchase”.
  • a text explaining the improvement width ⁇ is presented.
  • the improvement range ⁇ of the prediction accuracy expected by using all the data (all training data sets 17) is calculated.
  • the explanation provided is used.
  • the explanatory text that presents the improvement width ⁇ as a specific value (X%) is used, but the explanation that presents the improvement width ⁇ by dividing it into a plurality of levels (for example, large, medium, small, etc.) is used. May be done. In this way, by presenting the estimation result in a sentence such as an explanatory sentence, it is possible to explicitly give advice as to whether or not learning should be performed using all the learning data sets 17.
  • FIG. 10 is a schematic view showing an example of the interface of the display area 38 of the improvement width ⁇ .
  • an execution button 39 for executing the generation process of the second prediction model 52 performed using all the training data sets 17 is provided. Then, the processing time required for the generation processing of the second prediction model 52 and the expected improvement range ⁇ of the prediction accuracy are presented near the execution button 39. From this, the user can determine whether or not to perform the generation processing of the second prediction model 52 by referring to the improvement width ⁇ and the processing time. Further, by selecting the execution button 39, the generation process using all the training data sets 17 can be started as it is, so that it is not necessary to input the set value again.
  • the estimation result of the improvement width ⁇ is presented as it is.
  • the estimation results of the improvement width ⁇ classified into a plurality of levels are presented using character data.
  • the method of expressing the estimation result is not limited, and the level of the improvement width ⁇ may be expressed by using, for example, graphics representing a plurality of levels. Alternatively, a gauge, a graph, or the like representing the value of the improvement width ⁇ may be used.
  • the user can easily grasp the level and value of the improvement width ⁇ .
  • the UI generation unit 20 generates an evaluation screen 37 that presents the improvement width ⁇ of the prediction accuracy by dividing it into a plurality of levels, and an evaluation screen 37 that presents the value of the improvement width ⁇ of the prediction accuracy.
  • step 107 it is determined whether or not to start the learning process in all the learning data sets 17 (all data sets) (step 107). That is, it is determined whether or not to generate the second prediction model 52.
  • the improvement width ⁇ is high and the user selects learning in all the learning data sets 17 (Yes in step 107)
  • learning and evaluation in all the learning data sets 17 are started (step 108).
  • the learning data set 17 and the set value are output to the server device 30, and the server device 30 executes a series of processes for generating the second prediction model 52.
  • the second prediction model 52 may be generated by the prediction model generation unit 21 of the terminal device 10. After the second prediction model 52 is generated, the evaluation screen and the like are displayed. Further, for example, when the improvement width ⁇ is low and the user does not select learning in all the training data sets 17 (Yes in step 107), the process of generating the prediction model 50 ends.
  • the local PC terminal device 10
  • the pay-as-you-go server server device 30
  • model generation system 100 predictive analysis tool
  • prediction analysis tool An application example of the model generation system 100 (predictive analysis tool) according to the present technology will be described with specific examples.
  • Application example 1 An example in which training is performed on all data using a pay-as-you-go server device 30 on the cloud after identifying a combination of useful features when training a prediction model with large-scale data.
  • an insurance company builds a prediction model 50 that predicts what kind of insurance product a customer prefers.
  • the customer data used as the learning data set 17 is a huge amount of data including a log of the customer's deposit and the procedure for the insurance product. Therefore, if the learning is performed using all the learning data sets 17, it takes about 6 to 12 hours, and it is difficult to complete the learning within the business hours. In addition, there are hundreds of types of procedure logs, which are diverse. Therefore, it is difficult to specify the type of action (combination of features) to be set as the feature used for learning.
  • the user prepares about 10 patterns of combinations of feature quantities to be used as input data based on the hypothesis of daily work. Then, using the model generation system 100, preliminary learning in the partial data set 18 is executed for each pattern prepared by the user. As a result, the prediction accuracy (improvement range ⁇ ) when learning with all the training data sets 17 is estimated for each pattern. Since this preliminary learning (step 103 and the like in FIG. 6) is performed on the partial data set 18 sampled from the training data set 17, it is completed in about 30 minutes each time. By learning the combination of 10 patterns of feature quantities every 30 minutes, it is possible to narrow down the patterns of the combination of feature quantities that are particularly useful during business hours to about three.
  • a second prediction model 52 is generated using all the training data sets 17 for each of the patterns of the combination of about three useful features narrowed down by the above preliminary training. This process is executed over a long period of time by using the pay-as-you-go server device 30 by utilizing the time such as nighttime or Saturday and Sunday. For example, a user who goes to work the next morning (or the beginning of the week) confirms the learning result of the second prediction model 52 trained by the server device 30. Then, the model having the best prediction accuracy and the like is determined as the model to be finally used.
  • Application example 2 An example of trial and error as to whether or not the amount of money a customer will pay for a service can be predicted from the customer log.
  • a prediction model for predicting the amount of money the customer spends on the service in one month is constructed. By constructing such a prediction model, it is possible to take measures such as issuing a coupon to a user who spends a small amount of money, and it is expected that it will be possible to encourage customers to use the service.
  • the customer's log data that records the access time and the like is used as the learning data set 17. It is considered that the log data has a huge amount of data and is mixed with a lot of noise. For this reason, it is unclear whether the amount of money a customer will actually spend can be predicted from learning log data.
  • the amount of money used by the customer is one of the KPIs (Key Performance Indicators) in the service. Therefore, if the amount of money used by the customer is predictable, the business value is great, and we will try to build a prediction model as much as possible.
  • a learning process or the like is executed with a part of the sampled log data (partial data set 18) out of all the log data. This learning process is performed in, for example, about 6 hours.
  • the median error rate in the first prediction model 51 was 120%, and sufficient prediction accuracy was not obtained. Furthermore, it was suggested that the median error rate would be about 100% for the accuracy when all the data sets were used, and it was found that the expected accuracy could not be obtained. In such a case, even if the number of data is increased and the processing is executed by the local terminal device 10 or the server device 30 on the cloud, time and cost are wasted. For this reason, the construction of a forecast model that predicts the amount of money spent by the customer from the log data will be abandoned.
  • the terminal device 10 is used to train the prediction model in the partial data set 18. After that, the learning results and the like are presented, and the user confirms whether or not the prediction accuracy that can withstand practical use is obtained when learning with all the learning data sets 17. For example, suppose that the AUC is predicted to be 0.72 when training is performed on all the training data sets 17. In this case, assuming that the expected prediction accuracy has reached practical use, it is determined that the learning process using all the learning data sets 17 is performed using the server device 30 on the cloud.
  • the prediction model As a result of actually performing the learning process using the server device 30, it is assumed that a prediction model as expected with an AUC of 0.71 is constructed. In this case, it is decided that the prediction model is a model that can withstand practical use and is put into the production environment. As described above, in the model generation system 100, it is possible to estimate the accuracy when all the data are used in advance when learning with a large-scale data. By referring to this estimation result, the user can efficiently use the arithmetic resources of the server device 30 and the like.
  • FIG. 11 is a time chart showing an example of learning processing including calculation in the server device 30.
  • FIG. 11 shows a flow of processing in the model generation system 100 in, for example, a case where learning is performed using the large-scale data described in Application Example 3.
  • the learning button is pressed by the user, and an instruction to start the learning process is input to the terminal device 10 (step 201).
  • the terminal device 10 calculates the data capacity of the learning data set 17, and calculates the learning time and the like.
  • a message indicating that some data (partial data set 18) is to be learned is displayed because the data is huge (step 202).
  • the learning process in the partial data set 18 is executed in the terminal device 10 (step 203). As described above, in the example shown in FIG. 11, the terminal device 10 automatically selects and executes the learning process in the partial data set 18 according to the size of the data in the learning data set 17. The learning in the partial data set 18 may be executed after confirmation by the user. When the learning process in the partial data set 18 is completed, the learning result (evaluation result of the first prediction model 51) and the estimated prediction accuracy (improvement range ⁇ ) expected when learning with all the data are displayed. (Step 204).
  • the estimation prediction accuracy is high and the user determines that the learning process using all the learning data sets 17 is executed.
  • a predetermined execution button is pressed, and an instruction to cause the terminal device 10 to execute learning in the cloud (server device 30) is input (step 205).
  • the terminal device 10 uploads all the training data sets 17 and data such as set values of the prediction model to the server device 30 (step 206).
  • the learning process in all the learning data sets 17 is executed (step 207). Since the server device 30 generally has a high computing power, it is possible to complete the learning process in a shorter time than that performed by the terminal device 10. While the learning process is being executed by the server device 30, no arithmetic load is applied to the terminal device 10. Therefore, the user can use this time to cause the terminal device 10 to execute other processing or the like.
  • the learning result (evaluation result of the second prediction model 52) is transmitted from the server device 30 to the terminal device 10 (step 208). Then, the terminal device 10 generates an evaluation screen including the learning results of all the learning data sets 17 and displays it on the display unit (step 209). In this way, the estimation result of the prediction accuracy is presented before the actual learning using all the data is performed. This allows the user to determine whether or not the actual learning should be performed. In particular, when learning with a large-scale data, unnecessary calculation time and cost can be suppressed, and only necessary calculations can be executed. This makes it possible to greatly improve the efficiency of the prediction model generation process.
  • the control unit 15 acquires the meta feature amount F of the partial data set 18 of the learning data set 17. Based on this meta-feature amount F, accuracy information (improvement range ⁇ ) representing the prediction accuracy when the prediction model 50 (first prediction model 51) is generated using the training data set 17 is estimated. This makes it possible to determine, for example, whether or not to use the learning data set 17, and it is possible to efficiently generate the prediction model 50.
  • the improvement range ⁇ of the prediction accuracy of the prediction model trained by the training data set 17 is estimated from the meta feature amount F of the partial data set 18 which is a part of the training data set 17.
  • the meta-feature amount F is calculated from one learning using the partial data set 18.
  • the user can immediately know the guideline of the prediction result on the local terminal device 10, and can appropriately determine whether or not to execute the learning with all the data. For example, when the data is large-scale, when searching for parameters and features, or when trying and error in problem setting, prediction accuracy when learning from all data sets in a short time without unnecessary learning. Can be estimated.
  • the user can know the estimation of the accuracy when learning with all the data without occupying the terminal device 10 for a long time.
  • learning is executed with some data (partial data set 18) to grasp the approximate prediction accuracy when all data are used, and learning with all data is executed at night or on holidays. It can be used.
  • the present embodiment it is possible to obtain an estimate of the prediction accuracy without occupying the local terminal device 10 for a long time or occupying the server device 30 on the cloud for a long time.
  • an estimate of the prediction accuracy when the number of data is increased in order to improve the accuracy of the data set can be obtained, it is possible to obtain a guideline for improving the accuracy. That is, it is also possible to develop a data set in which the improvement width ⁇ is increased by referring to the improvement width ⁇ and the like of the prediction accuracy.
  • a single control unit 15 terminal device 10
  • the information processing device according to the present technology may be realized by an arbitrary computer that is configured separately from the control unit 15 and is connected to the control unit 15 via a wired or wireless device.
  • the information processing method according to the present technology may be executed by a cloud server.
  • the information processing method according to the present technology may be executed in conjunction with the control unit 15 and another computer.
  • the information processing method and program according to the present technology can be executed not only in a computer system composed of a single computer but also in a computer system in which a plurality of computers operate in conjunction with each other.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether or not all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device in which a plurality of modules are housed in one housing are both systems.
  • the information processing method and program execution related to this technology by a computer system are performed when, for example, acquisition of a feature amount of a partial data set, estimation of accuracy information, etc. are executed by a single computer, or by a computer in which each process is different. Includes both when executed. Further, the execution of each process by a predetermined computer includes causing another computer to execute a part or all of the process and acquire the result.
  • the information processing method and program related to this technology can be applied to a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • the present technology can also adopt the following configurations.
  • An acquisition unit that acquires the features of a partial data set that is a part of the entire data set used to generate a prediction model.
  • An information processing device including an estimation processing unit that estimates accuracy information representing the prediction accuracy of the prediction model generated using the entire data set based on the feature amount of the partial data set.
  • the information processing apparatus according to (1) As the accuracy information, the estimation processing unit estimates a change in the prediction accuracy of the prediction model generated by using the entire data set with respect to the prediction accuracy of the prediction model generated by using the partial data set. Processing equipment.
  • the estimation processing unit is an information processing device configured by using an estimation model that estimates changes in the prediction accuracy. (4) The information processing apparatus according to (3).
  • the estimation model is a relationship between a feature amount of a part of a predetermined data set and a change in prediction accuracy that occurs when a predetermined prediction model is generated using all or a part of the predetermined data set.
  • An information processing device that is a model that learned.
  • the estimation model is an information processing device that is a classification model that classifies the amount of change in the prediction accuracy into a plurality of levels.
  • the estimation model is an information processing device that approximates a classification model that classifies the amount of change in prediction accuracy into a plurality of levels on a rule basis. (7) The information processing apparatus according to (3) or (4).
  • the estimation model is an information processing device that is a regression model that estimates the amount of change in the prediction accuracy.
  • the information processing apparatus according to any one of (1) to (7).
  • the feature amount of the partial data set includes a first feature amount according to the contents of the partial data set.
  • the acquisition unit is an information processing device that calculates the first feature amount by analyzing the partial data set.
  • the first feature amount is at least one of the number of data included in the partial data set, the number of feature amounts contained in the data, and the ratio of the number of the data to the number of feature amounts contained in the data.
  • Information processing equipment including.
  • the information processing apparatus according to any one of (1) to (9).
  • the feature amount of the partial data set includes a second feature amount according to the prediction model generated by using the partial data set.
  • the acquisition unit is an information processing device that calculates the second feature amount by executing a generation process of the prediction model using the partial data set.
  • the partial data set contains a plurality of data groups having different uses.
  • the second feature amount is at least one of an evaluation value for evaluating the predicted value of the prediction model generated by using the partial data set for each of the plurality of data groups, or a comparison value comparing the evaluation values.
  • Information processing equipment including.
  • the plurality of data groups are an information processing apparatus including a training data group, a verification data group, and a test data group.
  • the information processing apparatus includes at least one of a median error, a mean square error, and a median error rate with respect to the predicted value of the predicted model generated by using the partial data set.
  • the information processing apparatus includes at least one of the differences or ratios of the evaluation values calculated for two data groups among the plurality of data groups.
  • the information processing apparatus includes a screen generator that generates a screen that presents the accuracy information.
  • the information processing apparatus includes a screen generator that generates a screen that presents the accuracy information.
  • the estimation processing unit estimates a change in the prediction accuracy of the prediction model generated using the entire data set with respect to the prediction accuracy of the prediction model generated using the partial data set.
  • the screen generation unit is an information processing device that generates at least one of a screen that presents a change amount of the prediction accuracy in a plurality of levels or a screen that presents a value of the change amount of the prediction accuracy.
  • the information processing apparatus according to (15) or (16). The screen generation unit generates a selection screen for selecting execution of the prediction model generation process using the partial data set. When the execution of the generation process is selected, the acquisition unit executes the generation process and calculates the feature amount of the partial data set.
  • the estimation processing unit is an information processing device that estimates the accuracy information based on the feature amount of the partial data set.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本技術の一形態に係る情報処理装置は、取得部と、推定処理部とを具備する。前記取得部は、予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得する。前記推定処理部は、前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定する。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、機械学習を用いた予測モデルの学習処理に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 従来、機械学習を用いて予測モデルを構築する技術が開発されている。予測モデルを適正に構築することで様々な予測処理を行うことが可能となる。予測モデルは、多数のデータを学習させることで構築されるが、その学習処理に時間がかかる場合がある。
 例えば特許文献1には、深層学習の学習処理の最中にハードウェアリソースを追加することが可能なシステムについて記載されている。このシステムでは、学習処理の進捗状況とともに、ハードウェアリソースを追加するための追加ボタンがユーザに提示される。これにより、例えば学習処理の進捗状況が捗っていない場合には、ユーザはハードウェアリソースを追加して学習処理の速度を向上させることが可能となっている(特許文献1の明細書段落[0030][0034][0035]、図4等)。
特開2017-182114号公報
 予測モデルの学習処理では、上記したように演算リソースを増やすことで多数のデータを短時間で学習させることが可能となる。一方で、学習させるデータ数を増やしても予測精度の向上が見込めない場合等には、時間や費用が無駄になってしまう可能性がある。このため、予測モデルを効率的に学習させることが可能な技術が求められている。
 以上のような事情に鑑み、本技術の目的は、予測モデルを効率的に学習させることが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、推定処理部とを具備する。
 前記取得部は、予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得する。
 前記推定処理部は、前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定する。
 この情報処理装置では、全データセットのうち、部分データセットの特徴量が取得される。この特徴量に基づいて、全データセットを用いて予測モデルを生成した場合の予測精度を表す精度情報が推定される。これにより、例えば全データセットを用いるべきか否かを判断することが可能となり、予測モデルを効率的に生成することが可能となる。
 前記推定処理部は、前記精度情報として、前記部分データセットを用いて生成される前記予測モデルの予測精度に対する前記全データセットを用いて生成される前記予測モデルの予測精度の変化を推定してもよい。
 前記推定処理部は、前記予測精度の変化を推定する推定モデルを用いて構成されてもよい。
 前記推定モデルは、所定のデータセットの一部のデータセットの特徴量と、所定の予測モデルを前記所定のデータセットの全部及び一部を用いて生成した場合に生じる予測精度の変化との関係を学習したモデルであってもよい。
 前記推定モデルは、前記予測精度の変化量を複数のレベルに分類する分類モデルであってもよい。
 前記推定モデルは、前記予測精度の変化量を複数のレベルに分類する分類モデルをルールベースで近似したモデルであってもよい。
 前記推定モデルは、前記予測精度の変化量を推定する回帰モデルであってもよい。
 前記部分データセットの特徴量は、前記部分データセットの内容に応じた第1の特徴量を含んでもよい。この場合、前記取得部は、前記部分データセットを解析することで前記第1の特徴量を算出してもよい。
 前記第1の特徴量は、前記部分データセットに含まれるデータの数、前記データに含まれる特徴量の数、前記データの数と前記データに含まれる特徴量の数との比率の少なくとも1つを含んでもよい。
 前記部分データセットの特徴量は、前記部分データセットを用いて生成される前記予測モデルに応じた第2の特徴量を含んでもよい。この場合、前記取得部は、前記部分データセットを用いた前記予測モデルの生成処理を実行することで前記第2の特徴量を算出してもよい。
 前記部分データセットは、互いに用途の異なる複数のデータグループを含んでもよい。この場合、前記第2の特徴量は、前記複数のデータグループの各々に対する前記部分データセットを用いて生成される前記予測モデルの予測値を評価する評価値、又は前記評価値を比較した比較値の少なくとも一方を含んでもよい。
 前記複数のデータグループは、学習データのグループと、検証データのグループと、テストデータのグループとを含んでもよい。
 前記評価値は、前記部分データセットを用いて生成される前記予測モデルの予測値に関する誤差中央値、平均二乗誤差、及び誤差率中央値の少なくとも1つを含んでもよい。
 前記比較値は、前記複数のデータグループのうち2つのデータグループについて算出された前記評価値の差分又は比率の少なくとも一方を含んでもよい。
 前記情報処理装置は、さらに、前記精度情報を提示する画面を生成する画面生成部を具備してもよい。
 前記推定処理部は、前記精度情報として、前記部分データセットを用いて生成される前記予測モデルの予測精度に対する前記全データセットを用いて生成される前記予測モデルの予測精度の変化を推定してもよい。この場合、前記画面生成部は、前記予測精度の変化量を複数のレベルにわけて提示する画面、または前記予測精度の変化量の値を提示する画面の少なくとも一方を生成してもよい。
 前記画面生成部は、前記部分データセットを用いた前記予測モデルの生成処理の実行を選択するための選択画面を生成してもよい。この場合、前記取得部は、前記生成処理の実行が選択された場合に、前記生成処理を実行して前記部分データセットの特徴量を算出してもよい。また、前記推定処理部は、前記部分データセットの特徴量に基づいて前記精度情報を推定してもよい。
 本技術の一実施形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得することを含む。
 前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報が推定される。
 本技術の一実施形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得するステップ。
 前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定するステップ。
本技術の一実施形態に係るモデル生成システムの構成例を示すブロック図である。 図1に示す端末装置の構成例を示すブロック図である。 推定モデルの生成処理の概要を示す模式図である。 モデル生成システムの概要を説明するための模式図である。 メタ特徴量の具体例を示す表である。 モデル生成システムの基本的な動作例を示すフローチャートである。 設定画面の一例を示す模式図である。 選択エリアのインターフェースの一例を示す模式図である。 第1の予測モデルに関する評価画面の一例を示す模式図である。 向上幅αの表示エリアのインターフェースの一例を示す模式図である。 サーバ装置での演算を含む学習処理の一例を示すタイムチャートである。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [システムの構成]
 図1は、本技術の一実施形態に係るモデル生成システムの構成例を示すブロック図である。モデル生成システム100は、機械学習の手法を用いて予測処理を行う予測モデルを生成するシステムである。予測モデルにより予測対象についての予測分析が可能となる。
 モデル生成システム100では、予測モデルを生成するためのアプリケーション(以下、予測分析ツールと記載する)が動作する。ユーザは、予測分析ツールを用いることで、所望の予測処理を行う予測モデルを生成することが可能となる。
 予測モデルの種類や予測対象等は限定されず、ユーザが任意に設定可能である。
 モデル生成システム100は、端末装置10と、サーバ装置30とを有する。端末装置10及びサーバ装置30は、通信ネットワーク31を介して相互に通信可能に接続される。
 端末装置10は、ユーザが直接操作する情報処理装置であり、予測分析ツールの操作端末として機能する。端末装置10としては、PC(Personal Computer)等が用いられる。あるいは、タブレット端末やスマートフォン等が端末装置10として用いられてもよい。
 サーバ装置30は、端末装置10にリモート接続する情報処理装置である。サーバ装置30は、例えば端末装置10で指定された所定の処理(例えば予測モデルの学習処理等)を実行し、その処理結果を端末装置10に送信する。サーバ装置30は、例えば所定のネットワークで接続可能なネットワークサーバや、クラウド接続可能なクラウドサーバ等が用いられる。ここでは、従量課金制のサーバ装置30が用いられる場合を想定する。
 通信ネットワーク31は、端末装置10とサーバ装置30とを通信可能に接続するネットワークであり、例えばインターネット回線等が用いられる。あるいは、専用のローカルネットワーク等が用いられてもよい。
 図2は、図1に示す端末装置10の構成例を示すブロック図である。端末装置10は、表示部11と、操作部12と、通信部13と、記憶部14と、制御部15とを有する。
 表示部11は、各情報を表示するディスプレイであり、例えば予測分析ツールのUI(User Interface)画面等を表示する。表示部11としては、例えば液晶ディスプレイ(LCD:Liquid Cristal Display)や有機EL(Electro-Luminescence)ディスプレイ等が用いられる。表示部11の具体的な構成は限定されず、例えば操作部12として機能するタッチパネル等を搭載したディスプレイ等が用いられてもよい。また表示部11としてHMD(Head Mounted Display)が用いられてもよい。
 操作部12は、ユーザが各種の情報を入力するための操作装置を含む。操作部12としては、例えばマウスやキーボード等の情報入力が可能な装置が用いられる。この他、操作部12の具体的な構成は限定されない。例えば操作部12として、タッチパネル等が用いられてもよい。また操作部12として、ユーザを撮影するカメラ等が用いられ、視線やジェスチャによる入力が可能であってもよい。
 通信部13は、端末装置10と他の装置(例えばサーバ装置30)との通信処理を行うモジュールである。通信部13は、例えばWi-Fi等の無線LAN(Local Area Network)モジュールや、有線LANモジュールにより構成される。この他、Bluetooth(登録商標)等の近距離無線通信や、光通信等が可能な通信モジュールが用いられてよい。
 記憶部14は、不揮発性の記憶デバイスであり、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等が用いられる。この他、記憶部14して用いられる記録媒体の種類等は限定されず、例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。
 記憶部14には、本実施形態に係る制御プログラム16が記憶される。制御プログラム16は、例えば端末装置10全体の動作を制御するプログラムである。
 また記憶部14には、予測モデルの生成に用いる学習データセット17が記憶される。学習データセット17は、予測モデルの機械学習に用いられる複数のデータを含むデータセットである。学習データセット17は、予測モデル50の対象(予測項目)に合わせて適宜生成され、記憶部14に格納される。予測モデルを構築する際には、学習データセット17に含まれるデータが適宜読み込まれて用いられる。
 学習データセット17のデータは、例えば複数の属性値(特徴量)とそれらに対応する正解ラベルとが対応づけられたデータである。この場合、正解ラベルの項目を予測する予測モデルの学習が可能となる。
 例えば顧客データを学習データセット17として、顧客が好む商品を予測するモデルを生成するとする。この場合、例えば顧客データのうち、顧客が好む商品を表す項目(例えば顧客が購入した商品や閲覧した商品)が正解ラベルとなる。また他の属性(顧客の年齢、性別、商品の購入頻度等)についての項目は、予測モデルを学習させるための入力項目となる。
 この他、学習データセット17の種類等は限定されず、予測モデルに応じた任意のデータセットが用いられてよい。
 端末装置10では、後述するように、学習データセット17の一部のデータセットを用いた処理が実行される。以下では、学習データセット17の一部であるデータセットを部分データセット18と記載する。
 部分データセット18は、例えば学習データセット17からサンプリングされた複数のデータにより構成される。部分データセット18となるデータは、例えば部分データセット18が必要となるたびに適宜サンプリングされる。あるいは、部分データセット18となるデータが予め設定されていてもよい。
 本実施形態では、学習データセット17は、予測モデルの生成に用いる全データセットに相当し、部分データセット18は、全データセットの一部である部分データセットに相当する。
 制御部15は、端末装置10が有する各ブロックの動作を制御する。制御部15は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部14に記憶されているプログラムをRAMにロードして実行することにより、種々の処理が実行される。制御部15としては、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
 本実施形態では、制御部15のCPUが本実施形態に係るプログラムを実行することで、機能ブロックとして、UI生成部20と、予測モデル生成部21と、メタ特徴量算出部22と、精度推定部23とが実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお、各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 UI生成部20は、ユーザと端末装置10(あるいはサーバ装置30)との情報のやり取りを行うためのUIを生成する。具体的には、UI生成部20は、予測モデル50を生成する際に表示部11に表示されるUI画面(図7及び図9参照)等を生成する。このUI画面が、上記した予測分析ツールの画面となる。
 UI画面には、例えばユーザに提示するための情報や、ユーザが情報を入力するための入力欄等が表示される。ユーザはUI画面を見ながら、操作部(キーボード等)を操作して各種の設定や値等を指定することが可能である。UI生成部20は、このようにUI画面を介してユーザが指定した情報を受け付ける。
 本実施形態では、UI生成部は、画面生成部に相当する。
 予測モデル生成部21は、予測モデルの生成処理を実行する。本実施形態では、予測モデル生成部21により、部分データセット18を用いた予測モデルの生成処理が実行される。この処理は、全ての学習データセット17を用いた予測モデルの生成処理と比べ、短時間で実行可能な処理となる。なお、全ての学習データセット17を用いた生成処理は、例えばサーバ装置30により実行される。
 以下では、部分データセット18を用いて生成される予測モデルを第1の予測モデルと記載する。また全ての学習データセット17を用いて生成される予測モデルを第2の予測モデルと記載する。
 予測モデルの生成処理には、予測モデルを構築するために必要な一連の処理が含まれる。例えば予測分析ツールでは、予測モデルの生成処理として、予測モデルを学習させる学習処理(予測モデルのトレーニング)、予測モデルの状態(学習の傾向等)を検証する検証処理、予測モデルの予測精度等を確認するテスト処理等が適宜実行される。
 従って、予測モデル生成部21では、学習処理、検証処理、及びテスト処理等が部分データセット18を用いてそれぞれ実行される。
 予測モデルに用いられる機械学習のアルゴリズム等は限定されず、例えば予測モデルの処理内容に応じた任意のアルゴリズムが用いられてよい。アルゴリズムの種類等に係わらず本技術は適用可能である。
 以下では、予測モデルの生成処理のことを指して、単に学習処理と記載する場合がある。
 メタ特徴量算出部22は、予測モデルの生成に用いる学習データセット17の一部である部分データセット18の特徴量を取得する。
 ここで、部分データセット18の特徴量とは、部分データセット18自身の性質等を表す特徴量である。以下では、このようなデータセット自身の特徴量をメタ特徴量と記載する。すなわち、メタ特徴量算出部22では、部分データセット18のメタ特徴量が取得される。
 なお、メタ特徴量は、部分データセット18を構成するデータに記録された属性値(以下、データ特徴量と記載する)とは異なる。例えば、データセットに含まれるデータの数やデータ特徴量の数といったデータセットそのものが持つ特徴量は、メタ特徴量となる。
 メタ特徴量には、部分データセット18を解析して得られる特徴量(第1の特徴量)が含まれる。この特徴量は、部分データセット18を解析することで算出される。
 またメタ特徴量には、実際に部分データセット18を使用することで得られる特徴量(第2の特徴量)が含まれる。この特徴量は、上記した予測モデル生成部21により生成される予測モデルを用いて算出される。
 メタ特徴量については、図5等を参照して後に詳しく説明する。
 本実施形態では、予測モデル生成部21とメタ特徴量算出部22とが共動することで、取得部が実現される。
 精度推定部23は、部分データセット18の特徴量(メタ特徴量)に基づいて、学習データセット17を用いて生成される予測モデル(第2の予測モデル)の予測精度を表す精度情報を推定する。
 精度情報は、第2の予測モデルの予測精度を表すことが可能な情報である。この精度情報を参照することで、全ての学習データセット17を使って第2の予測モデルを構築した場合にどの程度の予測精度が実現できるかといったことを判断することが可能となる。
 本実施形態では、精度推定部23により、精度情報として、部分データセット18を用いて生成される予測モデル(第1の予測モデル)の予測精度に対する学習データセット17を用いて生成される予測モデル(第2の予測モデル)の予測精度の変化が推定される。
 機械学習では、学習させるデータの数が多いほど予測精度が向上すると考えられる。しかしながら、データの数を増やしたからといって予測精度が十分に向上するとは限らない、
 精度推定部23は、部分データセット18で学習した第1の予測モデルを基準として、全ての学習データセット17を用いて第2の予測モデルを生成した場合に予想される予測精度の向上幅を推定する。この予測精度の向上幅が、上記した予測精度の変化に対応する。
 精度推定部23は、予測精度の変化を推定する推定モデルを用いて構成される。推定モデルは、部分データセット18のメタ特徴量を入力として、第1の予測モデルに対する第2の予測モデルの予測精度の変化を出力するように学習した学習モデルである。このように、精度推定部23は、推定モデルを実装したモジュール(推定モジュール)であるともいえる。
 推定モデルは、例えば、ウェブ等から入手できる多数のデータセットのメタ特徴量から学習を行うことで構成される。推定モデルを生成する方法については、後に詳しく説明する。
 予測分析ツールでは、まず、予測精度の向上幅を推定する推定モデル(推定モジュール)が構成される。推定モデルは、例えば予測モデルの種類に合わせて生成される。あるいは種類の異なる予測モデルに対応可能な汎用性のある推定モデルが生成されてもよい。推定モデルのデータは、例えば予め記憶部14に格納され、精度推定部23を動作させるたびに適宜読み込まれて使用される。
 精度推定部23では、このように構成された推定モデルを用いて、実際に使用する学習データセット17について、全てのデータセットを学習に用いた際の推定精度の向上幅(推定精度の変化)が推定される。
 [推定モデルの生成処理]
 図3は、推定モデルの生成処理の概要を示す模式図である。以下では、図3を参照して、予測精度の向上幅を推定する推定モデル40を生成する方法について説明する。
 近年、機械学習に用いることが可能な多数のデータセットがウェブ等から入手できるようになっている。これらのデータセットのメタ特徴量から学習した情報を用いることで、新規のデータセットの性質を予測するといったことが可能である。
 本実施形態では、推定モデル40を構築するために、このように既に存在する多数のデータセットが用いられる。以下では、推定モデル40を構築するために用いられるデータセットを、推定用データセットと記載する。
 例えば、推定用データセットを用いてある予測モデル(以下、推定用予測モデルと記載する)を生成するとする。この場合、推定用データセットの一部を用いて学習したモデルと、全ての推定用データセットを用いて学習したモデルとでは、予測精度が異なる。このような予測精度の違いを、複数の推定用データセットごとに学習させることで、予測精度の向上幅を推定する推定モデル40が構築される。
 なお推定用予測モデルは、例えば推定用データセットに合わせて任意に設定されてよい。
 本実施形態では、推定用データセットは、所定のデータセットに相当する。また推定用予測モデルは、所定の予測モデルに相当する。
 図3に示すように、推定モデルの生成処理では、入力データ25と、入力データ25に対応する解答データ26とのセットが用いられる。入力データ25及び解答データ26のセットは、推定用データセットごとにそれぞれ生成される。推定モデルの生成処理に用いられる推定用データセットの数(入力データ25及び解答データ26のセットの数)は、例えば数百セット程度である。
 入力データ25は、推定用データセットのメタ特徴量である。具体的には、対象となる推定用データセットに含まれる一部のデータセット(例えば10%等)のメタ特徴量が、入力データ25として用いられる。
 入力データ25に含まれるメタ特徴量としては、例えばデータの個数、データ特徴量の個数、あるいは後述する学習データ(train)/検証データ(validation)/テストデータ(test)に対する予測評価値等が挙げられる。これらのメタ特徴量の数や種類は、例えば推定モデル40が向上幅を推定する際に実際に参照するメタ特徴量と同様に設定される(図5参照)。
 また入力データ25を生成する際には、メタ特徴量算出部22が部分データセット18のメタ特徴量を算出する方法と同様の方法が用いられる。
 解答データ26は、推定モデル40が学習するべき項目(予測精度の向上幅)の正解ラベルである。具体的には、推定用データセットの一部(例えば10%等)を使用して学習を行った際の推定用予測モデルの予測精度と、推定用データセットの全部を使用して学習を行った際の推定用予測モデルの予測精度との差分(向上幅)が正解ラベルとして用いられる。
 従って解答データ26は、推定用データセットの一部又は全部を用いて実際に推定用予測モデルを学習させることで算出される。なお、この時生成された推定用予測モデルから、上記した入力データ25の一部が算出される。
 推定モデル40の生成処理では、上記した入力データ25及び解答データ26が生成される。すなわち、複数の推定用データセットに対して、それらのメタ特徴量(入力データ25)と実際に全データで学習した場合の予測精度の向上幅(解答データ26)とがそれぞれ算出される。
 このように算出された入力データ25及び解答データ26に基づいて機械学習が実行される。具体的には、予測精度の向上幅を正解ラベルとし、メタ特徴量を特徴量として学習処理等が実行される。
 この処理は、例えば全てのデータを使用した際に予測精度の向上幅が大きくなるようなデータセットの特徴を学習させる処理であるともいえる。すなわち、推定モデル40は、データ数を増やしたときに予測精度が向上するデータセットの特徴(メタ特徴量)を学習することになる。これにより、データセットのメタ特徴量から、予測精度の向上幅を推定する学習済みの推定モデル40が構築される。
 このように、推定モデル40は、推定用データセットの一部のデータセットの特徴量と、推定用予測モデルを推定用データセットの全部及び一部を用いて学習させた場合に生じる予測精度の変化との関係を学習したモデルである。
 推定モデル40を用いることで、未知の学習データセット17が用いられる場合であっても、予測モデルの予測精度の向上幅を精度よくかつ容易に推定することが可能となる。
 なお、推定モデル40は、メタ特徴量と正解ラベルから学習して得られた学習モデルでもよいし、その学習モデルを近似したモデルであってもよい。以下、推定モデル40の種類について説明する。
 例えば、推定モデル40は、予測精度の変化量を複数のレベルに分類する分類モデルである。この場合、例えば正解ラベル(解答データ26)は、予測精度の変化量を表す各レベルを2値分類したものとなる。
 変化量を表すレベルとしては、例えば全データセットで学習した場合に、一部のデータセットで学習した時よりも予測精度が変化する度合いを表すレベルが設定される。例えば、予測精度が「大幅に向上する(5%以上)」場合、「ある程度向上する(2-5%)」場合、あるいは「殆ど向上しない(2%未満)」場合といった3段階のレベルにわけて正解ラベルが設定される。これにより、予測精度の向上幅を複数の段階に分けて推定することが可能となる。
 また例えば、推定モデル40は、予測精度の変化量を複数のレベルに分類する分類モデルをルールベースで近似したモデルであってもよい。この場合、推定モデル40は、分類モデルを簡易化したルールベースの分類器となる。
 例えば上記した分類モデルを所定のアルゴリズムで近似することで、最終的な推定モデル40が算出される。分類モデルを近似するアルゴリズムとしては、決定木のアルゴリズムや、決定木をランダムに組み合わせたランダムフォレスト、あるいは分類モデルによる処理をルールの集合に置き換えるルールフィット等が用いられる。
 ルールベースのモデルを用いることで、向上幅の推定に要する演算量や演算時間を抑制することが可能である。また推定処理の内容等を、ユーザにも理解できるように説明するといったことも可能となる。
 また例えば、推定モデル40は、予測精度の変化量を推定する回帰モデルであってもよい。この場合、例えば正解ラベル(解答データ26)は、予測精度の変化量の値(例えば向上幅X%等)に設定される。
 このように、予測精度の変化量(向上幅)を具体的な数値として直接回帰するような推定モデル40が構築されてもよい。これにより、ユーザに対して、予測精度の向上幅の具体的な推定値を提示することが可能となる。
 この他、推定モデル40の具体的な構成は限定されない。
 [モデル生成システムの概要]
 図4は、モデル生成システム100の概要を説明するための模式図である。ここでは、上記した推定モデル40を用いて予測精度の向上幅を推定し、その推定結果を提示するまでの処理の流れが模式的に図示されている。
 図4には、予測モデル50(第1の予測モデル51)の生成処理(ステップ1)、メタ特徴量の算出処理(ステップ2)、向上幅の推定処理(ステップ3)、及びUIの提示処理(ステップ4)が含まれる。以下順番に説明する。
 [予測モデルの生成処理]
 予測精度の向上幅を推定する場合、部分データセット18を用いて第1の予測モデル51を生成する処理が実行される。この処理は、学習データセット17全体での学習(第2の予測モデル52の生成処理)を行う前に実行される予備的な生成処理である。
 具体的には、予測モデル生成部21により、学習データセット17に含まれる一部のデータセット(部分データセット18)がサンプリングされる。そして、この部分データセット18を用いた機械学習が実行される。
 この生成処理では、部分データセット18は、互いに用途の異なる複数のデータグループに分けて用いられる。すなわち、部分データセット18には、互いに用途の異なる複数のデータグループが含まれるとも言える。
 一つのデータグループには、少なくとも1つのデータが含まれ、各グループは、それぞれ別の目的で使用される。なおデータグループを設定する方法は限定されない。
 本実施形態では、複数のデータグループは、学習データのグループと、検証データのグループと、テストデータのグループである。
 学習データ(training data)は、予測モデル50の学習処理を行う際に用いられるデータであり、予測モデル50が実際に学習(トレーニング)するデータである。この学習データが多いほど、予測モデル50の精度が向上する傾向がある。
 検証データ(validation data)は、予測モデル50の学習の状態(学習の傾向等)を検証する検証処理を行う際に用いられるデータである。従って検証データは、予測モデル50の学習をチェックするためのデータであると言える。
 テストデータ(test data)は、学習データで学習した予測モデル50の最終的な予測精度等を確認するテスト処理を行う際に用いるデータである。従ってテストデータは、予測モデル50を評価するためのデータであると言える。
 なお、学習の種類や設定によっては、これらのデータのうち検証データが不要な場合もある。この場合、検証データのグループはなくてもよい。
 予測モデル生成部21では、これらのデータグループを使って、上記した学習処理、検証処理、テスト処理等が適宜実行される。これにより、部分データセット18から学習した学習済みの予測モデル50(第1の予測モデル51)が生成される。
 各データグループの情報や、第1の予測モデル51のデータは、メタ特徴量算出部22に出力される。
 [メタ特徴量の算出処理]
 メタ特徴量算出部22により、第1の予測モデル51の生成に用いた部分データセット18のメタ特徴量Fが算出される。
 まず、メタ特徴量を算出するために必要なデータが適宜読み込まれる。具体的には、部分データセット18に含まれる各データグループと、部分データセット18を用いて生成された第1の予測モデル51とが読み込まれる。図4には、部分データセット18の学習データ及びテストデータのグループと、第1の予測モデル51とが模式的に図示されている。また図示を省略したが、検証データのグループも適宜読み込まれる。
 このように、予測精度の向上幅を知りたいデータセット(学習データセット17)について、そこからサンプリングした部分データセット18(学習データ、検証データ、テストデータ)と、部分データセット18で学習済みの第1の予測モデルとが用意される。
 以下では、これらのデータをもとに算出されるメタ特徴量Fについて具体的に説明する。
 図5は、メタ特徴量の具体例を示す表である。図5には、複数のメタ特徴量について、各メタ特徴量の項目とその具体的な内容とが示されている。これらのメタ特徴量は、例えば予測モデルとして回帰モデルを用いる場合に使用される。
 ここでは、各メタ特徴量に番号(F1~F16)を付けて説明する。なお、図5に示す表は一例であって、メタ特徴量の数や種類等は限定されない。
 部分データセット18のメタ特徴量には、部分データセット18の内容に応じた第1の特徴量が含まれる。第1の特徴量とは、部分データセット18そのものが持つ特徴量である。
 本実施形態では、メタ特徴量算出部22により、部分データセット18を解析することで第1の特徴量が算出される。図5に示す表では、メタ特徴量F1~F4及びF9が、第1の特徴量に相当する。
 メタ特徴量F1(データ数)は、部分データセット18に含まれるデータの数である。例えば、部分データセット18に含まれるデータの総数がメタ特徴量として算出される。あるいは部分データセット18に含まれる学習データの総数が用いられてもよい。
 メタ特徴量F2(特徴量数)は、部分データセット18のデータに含まれるの特徴量(データ特徴量)の数である。例えば、各データに設定されたデータ特徴量の総数がメタ特徴量として算出される。またデータごとに特徴量の数(種類)が異なる場合には、延べ総数等が算出されてもよい。
 メタ特徴量F3(特徴量数/データ数)は、部分データセット18に含まれるデータの数とデータに含まれるデータ特徴量の数との比率である。例えば、上記したメタ特徴量F2をメタ特徴量F1で除算した値が新たなメタ特徴量として算出される。
 メタ特徴量F4(展開後の特徴量数)は、所定の前処理を済ませた後の学習データに使用するデータ特徴量の数である。例えばOneHotエンコーディング等の前処理を行う場合、ダミー変数が用いられることでデータ特徴量の数が処理の前後で変化する。この処理後のデータ特徴量の総数がメタ特徴量として算出される。
 メタ特徴量F9(正解値の分散)は、予測対象ラベル(正解ラベル)の分散である。例えば、回帰モデルの予測対象となる予測対象ラベルの値についての分散値(例えば標準偏差等)がメタ特徴量として算出される。
 また、部分データセット18のメタ特徴量には、部分データセット18を用いて生成される予測モデル50(第1の予測モデル51)に応じた第2の特徴量が含まれる。すなわち第2の特徴量は、部分データセット18を実際に使用することで得られる特徴量であるといえる。
 本実施形態では、予測モデル生成部21により、部分データセット18を用いた第1の予測モデル51の生成処理が実行されることで第2の特徴量が算出される。図5に示す表では、メタ特徴量F5~F8及びF10~F16が、第2の特徴量に相当する。
 ここでは、第2の特徴量として、複数のデータグループの各々に対する部分データセット18を用いて生成される第1の予測モデル51の予測値を評価する評価値が用いられる。ここで評価値とは、あるデータグループ(学習データ、検証データ、及びテストデータのグループ)を入力とした場合に、第1の予測モデル51から出力される予測値を評価することが可能なパラメータである。
 予測値を評価するパラメータとしては、例えば予測値に関する誤差中央値(MAE:Mean Absolute Error)、平均二乗誤差(RMSE:Root Mean Squared Error)、誤差率中央値(MAPE:Mean Absolute Percentage Error)等が用いられる。あるいは予測値の分散等が評価値として用いられてもよい。評価値として用いるパラメータは限定されず、他の指標が用いられてもよい。
 メタ特徴量F5(Iteration数に応じたテストデータの誤差中央値の変化)は、テストデータに対するIteration処理における誤差中央値の変化量である。Iteration処理は、例えばテストデータの選び方を変えてモデルの予測精度を複数回にわたって検証する処理(交差検証)であり、テストデータの選び方による評価の偏りを低減する効果がある。具体的には、Iterationが収束した時の回数の半分の回数における誤差中央値と、最終的に収束した誤差中央値との差がメタ特徴量として算出される。メタ特徴量F5は、テストデータに対する評価値の一例である。
 メタ特徴量F6(学習/検証/テストデータの誤差中央値)は、学習済みの第1の予測モデル51で予測した際の、学習データ、検証データ、テストデータの各グループに対する誤差中央値(MAE)の値である。
 メタ特徴量F7(学習/検証/テストデータの平均二乗誤差)は、学習済みの第1の予測モデル51で予測した際の、学習データ、検証データ、テストデータの各グループに対する平均二乗誤差(RMSE)の値である。
 メタ特徴量F8(学習/検証/テストデータの誤差率中央値)は、学習済みの第1の予測モデル51で予測した際の、学習データ、検証データ、テストデータの各グループに対する誤差率中央値(MAPE)の値である。
 メタ特徴量F10(予測値の分散)は、学習済みの第1の予測モデル51で予測した予測値の分散(標準偏差等)である。
 これらの評価値の全部、又は一部が用いられてよい。
 また、第2の特徴量として、上記した評価値を比較した比較値が用いられる。ここで比較値とは、各データグループ(学習データ、検証データ、及びテストデータのグループ)について算出された評価値をグループ間で比較した値である。
 具体的には、複数のデータグループのうち2つのデータグループについて算出された評価値の差分又は比率の少なくとも一方が比較値として用いられる。
 メタ特徴量F11(学習データとテストデータとの誤差中央値の差)は、学習データに対する誤差中央値と、テストデータに対する誤差中央値との差である。
 メタ特徴量F12(学習データとテストデータとの誤差中央値の比率)は、学習データに対する誤差中央値と、テストデータに対する誤差中央値との比率である。
 メタ特徴量F13(検証データとテストデータとの誤差中央値の差)は、検証データに対する誤差中央値と、テストデータに対する誤差中央値との差である。
 メタ特徴量F14(検証データとテストデータとの誤差中央値の比率)は、検証データに対する誤差中央値と、テストデータに対する誤差中央値との比率である。
 メタ特徴量F15(学習データと検証データとの誤差中央値の差)は、学習データに対する誤差中央値と、検証データに対する誤差中央値との差である。
 メタ特徴量F16(学習データと検証データとの誤差中央値の比率)は、学習データに対する誤差中央値と、検証データに対する誤差中央値との比率である。
 これらのメタ特徴量F11~F16は、例えば上記したメタ特徴量F6の結果をもとに算出される。
 なお、差分及び比率を算出する際の基準は任意に設定されてよい。例えばメタ特徴量F11において、学習データに対する誤差中央値からテストデータに対する誤差中央値を引いてもよいしその逆でもよい。あるいは差分の絶対値が用いられてもよい。また例えばメタ特徴量F12において、学習データに対する誤差中央値をテストデータに対する誤差中央値で割って比率を算出してもよいし、その逆でもよい。
 また、誤差中央値に代えて、平均二乗誤差や誤差率中央値を比較した比較値等がメタ情報として用いられてもよい。
 このように、誤差中央値等は学習済みの第1の予測モデルと、その学習に用いた部分データセット18が与えられれば計算可能である。他の特徴量についてもサンプリングした学習データ・検証データ・テストデータ・第1の予測モデル51を使えば全て計算可能である。
 なお、これらの値は殆どが第1の予測モデル51を作成する過程で計算している値であり、追加の計算は必要としない。
 [向上幅の推定処理]
 図4に戻り、精度推定部23により、上記のように算出されたメタ特徴量Fに基づいて、予測モデル50における予測精度の向上幅αが算出される。
 予測精度の向上幅αの推定には、メタ特徴量から学習する事で構築した、予測精度の向上幅を推定する推定モデル40が用いられる(図3参照)。具体的には、部分データセット18のメタ特徴量Fが推定モデル40に入力データとして入力される。そして推定モデル40を用いた演算が実行され、向上幅αの分類値や値が出力される。
 例えば、推定モデル40が分類モデルや、分類モデルを近似したルールベースのモデルである場合、向上幅αを複数のレベルに分類した分類結果が出力される。この場合、出力値は「大幅に向上する(5%以上)」、「ある程度向上する(2-5%)」、「殆ど向上しない(2%未満)」といった各レベルについての予測確立となる。すなわち向上幅が5%以上となる確率等が算出される。
 また例えば、推定モデル40が回帰モデルである場合、予測精度の向上幅αの値が回帰問題を解くことで直接推定される。この場合、出力値は向上幅αを具体的に表す値(例えばα=4%等)となる。
 推定モデル40の出力は、UI生成部20に出力される。
 [UIの提示処理]
 UI生成部20により、推定した予測精度の向上幅αが表示される。具体的には、UI生成部20により、予測精度の向上幅α(予測精度の変化)の推定結果を提示する画面が生成される。そして生成された画面が、表示部11に表示される。
 これにより、全ての学習データセット17を使って予測モデル50(第2の予測モデル52)を生成した場合に想定される予測精度の向上幅αがユーザに提示され、第2の予測モデル52の生成を行うか否かの判断を支援するといったことが可能となる。
 このように、モデル生成システム100(予測分析ツール)では、学習データセット17の一部を用いて短時間で学習を行い、その時の情報から全データセットを用いて学習した際にどれくらい予測精度が向上するかを推定することが可能である。すなわち、一部のデータセットから1回だけ学習することで、全データを学習に使用した際の予測精度の向上幅αが推定可能である。
 本発明者は、予測精度の向上幅αを推定する推定モデル40を実際に構築し、その精度を検証した。その結果、向上幅αを分類する推定モデル40のAUC(分類問題に対する評価指標)は0.75となり、向上幅αを高い精度で予測できていることが分かった。これは、メタ特徴量から、予測精度が向上するデータセットを適正に予測できることを意味する。
 また本発明者は、実際の実験結果から、データ数を増やした際に精度が向上するデータセットの傾向についての知見を得た。具体的には、学習データとテストデータに対する予測値の評価指標(例えば上記した評価値)に大きな差があるデータセットほど、全データで学習した時に精度の向上幅が大きい傾向にあることを見出した。例えば学習データとテストデータの評価指標の差は、予測モデル50がどの程度学習データに過学習しているかを表す指標となっており、これらの差が大きい場合にはデータ数の増加と共に精度の向上を見込めることが多い。
 従ってメタ特徴量の中でも、学習データとテストデータに対する予測値の評価指標(評価値)や、評価指標を比較した値(比較値)は、特に重要な特徴量となる。このようなメタ特徴量を入力とする推定モデル40を用いることで、予測精度の向上幅αを精度よく推定することが可能となる。
 [モデル生成システムの基本動作]
 図6は、モデル生成システムの基本的な動作例を示すフローチャートである。図6に示す処理は、例えば端末装置10を使用するユーザが予測分析ツールで予測モデル50を生成する際に実行される処理である。
 まず、予測モデル50の各設定値が読み込まれる(ステップ101)。具体的には、UI生成部20により、予測モデル50に関する設定画面が生成され、表示部11に出力される。そしてユーザが設定画面を介して入力した内容(設定値)が読み込まれる。
 図7は、設定画面の一例を示す模式図である。図7に示すように、設定画面35には、複数の設定欄が設けられる。ここでは、商品の購入記録を含む顧客データを学習データセット17として、商品の購入の有無を予測する予測モデル50を生成する場合について説明する。
 「入力項目」の設定欄(画面右側)では、学習データセット17に含まれる項目のうち、予測モデル50の学習に用いる項目(データ特徴量)を指定可能である。ここでは、顧客に関する"年齢"、"性別"、"顧客ランク"、"過去購入額"、"クーポン利用回数"、"メールアドレス登録"、"オプション購入"等の項目が選択可能に提示される。また、各項目についてのデータタイプやユニーク数等が合わせて表示される。
 「予測タイプ」の設定欄では、予測モデル50のタイプを指定可能である。ここでは、「二値分類」、「多値分類」、「数値予測」(回帰予測)の項目が選択可能に表示される。ここでは、二値分類が予測モデル50のタイプとして選択される。
 「予測値」の設定欄では、予測モデル50の予測対象(対象項目)を指定することが可能である。ここでは、"購入あり"及び"購入なし"の項目のうち"購入あり"が予測対象として選択される。なお項目名("購入あり"及び"購入なし")の隣には、学習データセット17における各項目の割合が表示される。
 設定画面35において点線で示したエリアは、部分データセット18を用いた学習を選択するための選択エリア36である。図7に示す例では、選択エリア36には、「使用するデータの割合」の設定欄が設けられる。この設定欄では、部分データセット18として用いられるデータの割合をいくつかの候補から選択して指定することが可能である。
 例えば学習データセット17に対する部分データセット18の割合が0%~100%の範囲で選択可能に提示される(ここでは10%が選択される)。このUIでは、部分データセット18の割合が0%より大きい有限値である場合、部分データセット18を用いた学習が選択されることになる。なお、部分データセット18の割合が0%である場合には、部分データセット18を用いた学習は選択されない。
 各設定欄に必要な情報を入力した後で、"学習及び評価を実行"と書かれた実行ボタンを押すと、予測モデル50についての学習処理等が開始される。また"キャンセル"と書かれたキャンセルボタンを押すと、設定画面35での各設定値の入力がキャンセルされ、ひとつ前の画面が表示される。
 図8は、選択エリア36のインターフェースの一例を示す模式図である。
 図8Aに示す選択エリア36には、「使用するデータの割合」の設定欄が設けられる。この設定欄では、部分データセット18として用いられるデータの割合を0%~100%の範囲で自由に入力して指定することが可能である。この場合、入力値が0よりも大きい場合に、部分データセット18を用いた学習が選択される。
 図8Bに示す選択エリア36には、「学習モード」の設定欄が設けられる。この設定欄では、"クイックモード"という項目と"全データで学習"という項目とがそれぞれ選択可能に提示される。
 ここで、クイックモードとは、部分データセット18を用いた学習を行い、本番の学習の前に予測精度の向上幅を短時間で算出するモードである。クイックモードでは、例えば予め設定されたデフォルトの割合で部分データセット18が選択されて用いられる。なお部分データセット18の割合が選択可能であってもよい。このように、学習モードを選択させることで、部分データセット18での学習の有無が設定されてもよい。
 図8Cに示す選択エリア36には、「学習を行う端末」の設定欄が設けられる。この設定欄では、"この端末で学習"という項目と"クラウド上で学習"という項目とがそれぞれ選択可能に提示される。
 "この端末で学習"という項目は、部分データセット18(一部データ)を用いた学習を端末装置10で実行する場合に選択される。また"クラウド上で学習"という項目は、全ての学習データセット17を用いた学習をサーバ装置30で実行する場合に選択される。このように、学習処理を行う装置を選択させることで、部分データセット18での学習の有無が設定されてもよい。
 このように、UI生成部20は、部分データセット18を用いた第1の予測モデル51の生成処理の実行を選択するための設定画面35を生成する。本実施形態では、設定画面35は、選択画面に相当する。
 これにより、ユーザは部分データセット18での学習を行うか否か、すなわち向上幅αを推定するか否かを適宜選択することが可能となる。
 図6に戻り、設定画面35から入力された設定値が読み込まれると、部分データセット18での学習処理を開始するか否かが判定される(ステップ102)。
 例えば選択エリア36に表示されたUIにおいて、部分データセット18での学習を行う旨が選択されたとする。この状態で、図7に示す実行ボタンが押された場合、部分データセット18での学習を行うと判定され(ステップ102のYes)、部分データセット18での学習及びその学習結果を用いた向上幅αの推定処理が開始される。
 また例えば、部分データセット18での学習を行う旨が選択されていない状態で実行ボタンが押された場合、部分データセット18での学習は行わないと判定され(ステップ102のNo)、後述するステップ107が実行される。
 部分データセット18での学習を行うと判定された場合、予測モデル生成部21により、部分データセット18を用いた第1の予測モデル51の生成処理が実行される(ステップ103)。この処理は、図4を参照して説明したステップ1の予測モデルの生成処理に相当する。
 例えば、設定画面35の設定値で選択された入力項目から予測値を出力するようなモデルが構成され、部分データセット18を用いた学習処理・検証処理・テスト処理等が実行され、学習済みの第1の予測モデル51が構築される。
 第1の予測モデル51が構築されると、メタ特徴量算出部22により、部分データセット18のメタ特徴量Fが算出される(ステップ104)。この処理は、図4を参照して説明したステップ2のメタ特徴量の算出処理に相当する。
 例えば、第1の予測モデル51のデータと、その学習に用いられた部分データセット18とが読み込まれ、既に用意されている推定モデル40の入力となるメタ特徴量Fがそれぞれ算出される。
 第1の予測モデル51が構築されると、メタ特徴量算出部22により、部分データセット18のメタ特徴量Fが算出される(ステップ104)。この処理は、図4を参照して説明したステップ2のメタ特徴量の算出処理に相当する。
 例えば、第1の予測モデル51のデータと、その学習に用いられた部分データセット18とが読み込まれ、既に用意されている推定モデル40の入力となるメタ特徴量Fがそれぞれ算出される。
このように、本実施形態では、第1の予測モデル51の生成処理の実行が選択された場合に、その生成処理を実行して部分データセット18のメタ特徴量Fが算出される。
 メタ特徴量Fが算出されると、精度推定部23により、部分データセット18のメタ特徴量Fに基づいて予測精度の向上幅α(精度情報)が推定される(ステップ105)。この処理は、図4を参照して説明したステップ3の向上幅の推定処理に相当する。
 例えば、推定モデル40に対して前のステップで算出された各メタ特徴量Fが入力され、予測精度の向上幅αの分類レベルや値が算出される。
 向上幅αが算出されると、UI生成部20により向上幅αを提示する画面が生成される(ステップ106)。この処理は、図4を参照して説明したステップ4のUIの提示処理に相当する。
 本実施形態では、第1の予測モデル51の評価結果とともに、向上幅αを提示する評価画面が生成され、表示部11に表示される。
 図9は、第1の予測モデル51に関する評価画面の一例を示す模式図である。
 図9に示す評価画面37の左側には、モデルの選択エリア36が設けられる。選択エリアには、既に評価を行った第1の予測モデル51が、その評価値、生成日時、使用したデータ名とともに、選択可能に提示される。
 また評価画面37の右側には、選択エリア36で選択された第1の予測モデル51の予測精度のレベルを示す「予測精度レベル」の表示欄と、「項目の寄与度」の表示欄とが設けられる。また評価画面37の右側には、向上幅αの推定結果を提示する表示エリア38が設けられる。
 「予測精度レベル」の表示欄には、第1の予測モデル51の性能を示す評価指標として、例えばROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)が表示される。AUCは、分類モデルの分類精度を示す指標である。この他、評価指標に関連する説明項目(モデルの精度についてのコメント等)が表示される。
 また「項目の寄与度」の表示欄には、分類に影響した項目ごとの寄与度を示す棒グラフが表示される。これにより、例えば"購入あり"という分類に影響した項目や、"購入なし"という分類に影響した項目を、項目間で比較することが可能となる。
 図9に示す表示エリア38には、向上幅αについて説明するテキストが提示される。ここでは、第1の予測モデル51の学習に用いられたデータ(部分データセット18)の割合とともに、全データ(全ての学習データセット17)を用いることで期待される予測精度の向上幅αを提示する説明分が用いられる。ここでは、向上幅αを具体値(X%)で提示する説明文が用いられているが、向上幅αを複数のレベル(例えば大、中、小等)にわけて提示する説明分が用いられてもよい。
 このように、説明文等の文章で推定結果を提示することで、全ての学習データセット17を用いた学習を行うべきか否かについてのアドバイスを明示的に行うことが可能となる。
 図10は、向上幅αの表示エリア38のインターフェースの一例を示す模式図である。
 図10Aに示す表示エリア38には、全ての学習データセット17を用いて行われる第2の予測モデル52の生成処理を実行する実行ボタン39が設けられる。そして実行ボタン39の近くに第2の予測モデル52の生成処理に要する処理時間と、期待される予測精度の向上幅αとが提示される。
 これより、ユーザは、向上幅αと処理時間とを参照して、第2の予測モデル52の生成処理を行うか否かを判断することが可能となる。また、実行ボタン39を選択することで、そのまま全ての学習データセット17を用いた生成処理が開始可能であるため、設定値を再度入力する必要等はない。
 図10Bに示す表示エリア38には、向上幅αの推定結果がそのまま提示される。ここでは、複数のレベルに分類された向上幅αの推定結果が文字データを用いて提示される。
 推定結果を表す方法は限定されず、例えば複数のレベルを表すグラフィックス等を用いて向上幅αのレベルが表されてもよい。あるいは向上幅αの値を表すゲージやグラフ等が用いられてもよい。
 これより、ユーザは、向上幅αのレベルや値を容易に把握することが可能となる。
 このように、UI生成部20は、予測精度の向上幅αを複数のレベルにわけて提示する評価画面37や、予測精度の向上幅αの値を提示する評価画面37を生成する。
 図6に戻り、向上幅α(評価画面37)が提示されると、全ての学習データセット17(全データセット)での学習処理を開始するか否かが判定される(ステップ107)。すなわち、第2の予測モデル52を生成するか否かが判定される。
 例えば、向上幅αが高くユーザが全ての学習データセット17での学習を選択した場合(ステップ107のYes)、全ての学習データセット17での学習や評価が開始される(ステップ108)。本実施形態では、例えばサーバ装置30に学習データセット17及び設定値等が出力され、サーバ装置30により第2の予測モデル52を生成する一連の処理が実行される。あるいは、端末装置10の予測モデル生成部21により、第2の予測モデル52が生成されてもよい。なお、第2の予測モデル52が生成された後は、その評価画面等が表示される。
 また例えば、向上幅αが低くユーザが全ての学習データセット17での学習を選択しなかった場合(ステップ107のYes)、予測モデル50を生成する処理が終了する。
 これにより、例えば大規模なデータセットから学習する際にローカルPC(端末装置10)を長時間占有することなく、またクラウド上の従量課金制サーバ(サーバ装置30)等を長時間使用することなく、短時間で予測モデル50と予測精度及び全データセットで学習した際の精度の目安を知ることが可能となる。これにより、予測モデル50を効率的に生成することが可能となる。
 本技術に係るモデル生成システム100(予測分析ツール)の適用例について具体的な事例を挙げて説明する。
 [適用例1]
 大規模データで予測モデルを学習させる際に、有用な特徴量の組合せを特定した後に、クラウド上の従量課金制のサーバ装置30を用いて全データでの学習を実行する事例。
 ここでは、保険会社において、顧客がどのような保険商品を好むか予測する予測モデル50を構築するものとする。
 このケースでは、例えば学習データセット17として用いる顧客データは、顧客の入金や保険商品に対する手続きのログが含まれる膨大なデータである。このため、全ての学習データセット17を用いて学習を行うと6時間~12時間程度の時間がかかってしまい、業務時間内に完了させるといったことが難しい。
 さらに、手続きのログの種類は数百種類あり多岐に渡る。このため、学習に用いる特徴量として設定する行動の種類(特徴量の組合せ)を特定することが難しい。
 例えば、ユーザにより、普段の業務の仮説に基づいて、入力データとして用いる特徴量の組合せが10パターン程度用意される。その上で、モデル生成システム100を用いて、ユーザが用意した各パターンについて、部分データセット18での予備的な学習が実行される。これにより、各パターンについて、全ての学習データセット17で学習した時の予測精度(向上幅α)が推定される。
 この予備的な学習(図6のステップ103等)は、学習データセット17からサンプリングされた部分データセット18に対して行うため、1回あたり30分程度で完了する。10パターンの特徴量の組合せを30分おきに学習することで、業務時間内に特に有用な特徴量の組合せのパターンを3つ程度に絞ることが可能である。
 上記の予備的な学習で絞り込んだ3つ程度の有用な特徴量の組合せのパターンの各々について、全ての学習データセット17を用いて第2の予測モデル52が生成される。この処理は、例えば夜間や土日といった時間を利用して、従量課金制のサーバ装置30を用いて長時間かけて実行される。
 例えば、翌朝(あるいは週明け)に出勤したユーザにより、サーバ装置30で学習させた第2の予測モデル52の学習結果が確認される。そして、予測精度等が最も優れたモデルが、最終的に使用するモデルとして決定される。
 このように、モデル生成システム100を用いることで、見込みのあるパラメータの候補等を短時間で絞り込むことが可能である。これにより、業務時間を無駄にすることなく、予測モデル50を効率的に生成することが可能となる。
 [適用例2]
 顧客のログから顧客がサービスに払う金額が予測出来るかどうか試行錯誤する事例。
 ここでは、ウェブ上で提供されるサービスにおいて、顧客が1カ月の間にサービスで使用する金額を予測する予測モデルを構築するものとする。このような予測モデルを構築することで、例えば、使用金額の少ないユーザに対してクーポンを発行するといった対策を行うことが可能となり、顧客にサービスの使用を促すことが可能になると期待される。
 このケースでは、例えばアクセス時間等を記録した顧客のログデータが学習データセット17として用いられる。
 なおログデータは、膨大なデータ量であり、またノイズも多く混ざっていると考えられる。このため、ログデータを学習したからと言って、そこから顧客が使用する金額を実際に予測出来るどうかは不明である。
 一方で、顧客の使用する金額は、サービスにおいてKPI(Key Performance Indicator)の1つである。このため、もし顧客の使用する金額が予測可能であるならば、ビジネス的な価値は大きく、可能な限り予測モデルの構築を試みるものとする。
 例えば、数十ギガバイトのログデータが存在し、全てのログデータ(学習データセット17)を使用して学習を行うと、学習処理に数日程度時間を要する事が判明したとする。
 そこで、モデル生成システム100を用いて、まずは全てのログデータのうち、サンプリングした一部のログデータ(部分データセット18)で学習処理等が実行される。この学習処理は、例えば6時間程度で行われる。
 部分データセット18による学習結果を参照すると、第1の予測モデル51での誤差率中央値が120%となり、十分な予測精度が出ていないことが判明した。さらに、全てのデータセットを使用した時の精度も、誤差率中央値が100%程度になると示唆されており、期待した精度が得られないことが判明した。
 このような場合は、データ数を増やしてローカルの端末装置10やクラウド上のサーバ装置30で処理を実行したとしても、時間や費用が無駄になってしまう。このため、ログデータから顧客の使用する金額を予測する予測モデルの構築は断念されることになる。
 上記したように、顧客が使用する金額を直接予測できないことがわかった。そこで問題設定を変更し、顧客が1カ月に1000円以上のお金をサービスで支払うかどうかを分類する二値分類を行う予測モデルについて検討した。
 具体的には、モデル生成システム100を用いて、上記の二値分類を行う予測モデルについて、全てのログデータからサンプリングした一部のデータセットで学習したところ、AUCが0.65となった。さらに、全てのログデータで学習することで、AUCが0.7まで上がることが示唆されたとする。
 これは、実用可能な精度であるため、実際にクラウド上のサーバ装置30を用いて全てのログデータを用いて学習処理を実行し、AUCが0.71の予測モデルが得られた。
 このように、問題設定(予測モデルのターゲット)を顧客が1カ月に1000円以上のお金をサービスで支払うかどうかの二値分類に変更する事で、実用可能な予測が出来る事がわかった。これにより、例えば月に1000円以下しかサービスにお金を払わない確率の高い顧客に対して、クーポンや割引等を発行し、顧客の消費金額を促す施策を開始することが可能となる。
 この適用例では、問題設定を試行錯誤して適切な問題設定を見つける間に、モデル生成システム100が用いられる。これにより、実際に全てのデータを使った学習を行わなくても予測精度が推定されるため、不要な学習時間や費用を費やすことなくモデルを構築することが可能となっている。
 [適用例3]
 大規模データでの学習を行う際に、初めにローカルの端末装置10を用いて全ての学習データセット17で学習した時の精度を見積もり、実用可能な見込みが得られた場合に従量課金制のサーバ装置30で全ての学習データセット17での学習を実行する事例。
 例えば、端末装置10を用いて、部分データセット18での予測モデルの学習が行われる。その後、学習結果等が提示され、全ての学習データセット17で学習したときに実用に耐えうる予測精度が出るかどうかがユーザにより確認される。例えば、全ての学習データセット17で学習するとAUCが0.72であることが予測されたとする。この場合、期待される予測精度は実用に達しているとして、クラウド上のサーバ装置30を用いて、全ての学習データセット17を使用した学習処理を行うことが決定される。
 実際に、サーバ装置30を用いて学習処理を行った結果、AUCが0.71となる想定通りの予測モデルが構築されたとする。この場合、予測モデルは実用に耐えうるモデルであるとして、本番環境に投入する事が決定される。
 このように、モデル生成システム100では、大規模データでの学習を行う際に予め全データ使用時の精度を推定可能である。この推定結果を参照することで、ユーザは、サーバ装置30等の演算リソースを効率的に利用することが可能となる。
 図11は、サーバ装置30での演算を含む学習処理の一例を示すタイムチャートである。図11には、例えば適用例3で説明した大規模データでの学習を行う事例における、モデル生成システム100での処理の流れが示されている。
 まず、学習に使用する学習データセット17が読み込まれた状態で、ユーザにより学習ボタンが押下され、端末装置10に学習処理を開始する旨の指示が入力される(ステップ201)。
 このとき、端末装置10では、学習データセット17のデータ容量が算出され、学習時間等が算出される。そして、データ容量や学習時間が閾値を超えて大きい場合等には、データが巨大であるため一部のデータ(部分データセット18)で学習する旨を伝えるメッセージが表示される(ステップ202)。
 端末装置10において部分データセット18での学習処理が実行される(ステップ203)。このように、図11に示す例では、端末装置10により、学習データセット17のデータのサイズ等に応じて、部分データセット18での学習処理が自動的に選択され実行される。なお、部分データセット18での学習は、ユーザの確認後に実行されてもよい。
 部分データセット18での学習処理が完了すると、その学習結果(第1の予測モデル51の評価結果)と、全データで学習した場合に想定される推定予測精度(向上幅α)とが表示される(ステップ204)。
 推定予測精度が高く、ユーザが全ての学習データセット17を用いた学習処理を実行すると判断したとする。この場合、所定の実行ボタンが押下され、端末装置10にクラウド(サーバ装置30)での学習を実行させる旨の指示が入力される(ステップ205)。そして端末装置10により、全ての学習データセット17と予測モデルの設定値等のデータとがサーバ装置30にアップロードされる(ステップ206)。
 サーバ装置30では、全ての学習データセット17での学習処理が実行される(ステップ207)。サーバ装置30は、一般に高い演算能力を有するため、端末装置10で行うよりも短時間で学習処理を完了することが可能である。なお、サーバ装置30で学習処理が実行されている間、端末装置10には演算負荷がかからない。従って、ユーザはこの時間を利用して端末装置10に他の処理等を実行させることが可能である。
 全ての学習データセット17での学習処理が完了すると、その学習結果(第2の予測モデル52の評価結果)がサーバ装置30から端末装置10に送信される(ステップ208)。そして端末装置10により、全ての学習データセット17での学習結果を含む評価画面が生成され、表示部に表示される(ステップ209)。
 このように、全てのデータを使った本番の学習を行う前に、予測精度の推定結果が提示される。これによりユーザは、本番の学習を行うべきか否かを判断することが可能である。特に大規模なデータでの学習を行う場合等には不要な演算時間や費用を抑制し、必要な演算のみを実行させることが可能となる。これにより、予測モデルの生成処理の効率を大幅に向上することが可能となる。
 以上、本実施形態に係る制御部15では、学習データセット17のうち、部分データセット18のメタ特徴量Fが取得される。このメタ特徴量Fに基づいて、学習データセット17を用いて予測モデル50(第1の予測モデル51)を生成した場合の予測精度を表す精度情報(向上幅α)が推定される。これにより、例えば学習データセット17を用いるべきか否かを判断することが可能となり、予測モデル50を効率的に生成することが可能となる。
 機械学習では、一般に学習データ数を増やすほど予測精度が向上することが知られている。一方で、データ数が増えるにつれて学習に必要な時間が増加してしまう。
 一例として、パラメータ探索や特徴量探索を行うような場合には、学習時間の増大が問題となる場合が多い。例えば、非専門家向けに提供されている予測分析サービス等では、パラメータや特徴量の探索が必須である。このため、例えば数百メガバイトを超える大きなデータセットを学習する際には、パラメータ探索等の過程で多くの時間を要してしまうことが考えられる。
 データ数を増やすことによる予測精度の向上の度合いを推定する方法として、異なるサイズの複数のデータセットに対して学習を行う方法が挙げられる。この場合、各データセットのデータ数とテストデータに対する予測精度との関係を調べることで、データ数を増やしたときの予測精度の向上幅が推定される。しかしながら、この方法では、複数のデータセットを対象とするため、複数回(例えば5-10回程度)の学習を行う必要がある。このため、短い学習時間で予測精度を把握するという目的にも関わらず、予測精度を推定すること自体に時間がかかってしまう恐れがある。
 本実施形態では、学習データセット17の一部である部分データセット18のメタ特徴量Fから、学習データセット17で学習させた予測モデルの予測精度の向上幅αが推定される。メタ特徴量Fは、部分データセット18を用いた一度の学習から算出される。
 これにより、短い時間で、全ての学習データセット17で学習させた場合の予測モデルの側精度が推定可能である。従ってユーザは、ローカルの端末装置10ですぐに予測結果の目安を知ることが可能となり、全データでの学習を実行するか否かを適切に判断することが可能となる。
 例えばデータが大規模な場合、パラメータや特徴量を探索する場合、あるいは問題設定を試行錯誤する場合等には、不要な学習を行わずに、短時間で全データセットから学習した際の予測精度を見積もることが可能となる。
 またユーザは、端末装置10を長時間占有することなく、全データで学習した際の精度の見積もりを知ることが可能である。これにより、例えば業務中は一部のデータ(部分データセット18)で学習を実行して全データ使用時のおおよその予測精度を把握し、夜間や休日に全データでの学習を実行するなどの使い方が可能となる。
 また、あらかじめ学習が上手くいかない(予測精度が低い、向上が見込めない等)と推定されるデータセットに関してはクラウドで学習を回す必要がなくなる。従って、ユーザは、効果があると推定された時だけ、サーバ装置30での学習を実行するといったことが可能となる。これにより、従量課金制のサーバ装置30に無駄な費用を払う必要がなくなり、開発コストを抑えることが可能となる。
 このように、本実施形態では、ローカルの端末装置10を長時間占有することなく、もしくはクラウド上のサーバ装置30を長時間占有することなく、予測精度の見積もりを得ることが出来る。
 これにより、例えば全ての学習データセット17で半日~1日の長時間の学習を行ったが、想定した精度が出ずに時間やサーバ代を無駄に使用するといった事態を回避することが可能となる。
 また、データセットの精度を改善するにあたりデータ数を増やしたときの予測精度の見積もりが得られれば精度改善の指針を得ることも可能である。すなわち、予測精度の向上幅α等を参照して、向上幅αが高くなるようなデータセットを開発するといったことも可能である。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 上記では、本技術に係る情報処理装置の一実施形態として、単体の制御部15(端末装置10)を例に挙げた。しかしながら、制御部15とは別に構成され、有線又は無線を介して制御部15に接続される任意のコンピュータにより、本技術に係る情報処理装置が実現されてもよい。例えばクラウドサーバにより、本技術に係る情報処理方法が実行されてもよい。あるいは制御部15と他のコンピュータとが連動して、本技術に係る情報処理方法が実行されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば部分データセットの特徴量の取得、精度情報の推定等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 なお、本技術は以下のような構成も採ることができる。
(1)予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得する取得部と、
 前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定する推定処理部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記推定処理部は、前記精度情報として、前記部分データセットを用いて生成される前記予測モデルの予測精度に対する前記全データセットを用いて生成される前記予測モデルの予測精度の変化を推定する
 情報処理装置。
(3)(2)に記載の情報処理装置であって、
 前記推定処理部は、前記予測精度の変化を推定する推定モデルを用いて構成される
 情報処理装置。
(4)(3)に記載の情報処理装置であって、
 前記推定モデルは、所定のデータセットの一部のデータセットの特徴量と、所定の予測モデルを前記所定のデータセットの全部及び一部を用いて生成した場合に生じる予測精度の変化との関係を学習したモデルである
 情報処理装置。
(5)(3)又は(4)に記載の情報処理装置であって、
 前記推定モデルは、前記予測精度の変化量を複数のレベルに分類する分類モデルである
 情報処理装置。
(6)(3)又は(4)に記載の情報処理装置であって、
 前記推定モデルは、前記予測精度の変化量を複数のレベルに分類する分類モデルをルールベースで近似したモデルである
 情報処理装置。
(7)(3)又は(4)に記載の情報処理装置であって、
 前記推定モデルは、前記予測精度の変化量を推定する回帰モデルである
 情報処理装置。
(8)(1)から(7)のうちいずれか1つに記載の情報処理装置であって、
 前記部分データセットの特徴量は、前記部分データセットの内容に応じた第1の特徴量を含み、
 前記取得部は、前記部分データセットを解析することで前記第1の特徴量を算出する
 情報処理装置。
(9)(8)に記載の情報処理装置であって、
 前記第1の特徴量は、前記部分データセットに含まれるデータの数、前記データに含まれる特徴量の数、前記データの数と前記データに含まれる特徴量の数との比率の少なくとも1つを含む
 情報処理装置。
(10)(1)から(9)のうちいずれか1つに記載の情報処理装置であって、
 前記部分データセットの特徴量は、前記部分データセットを用いて生成される前記予測モデルに応じた第2の特徴量を含み、
 前記取得部は、前記部分データセットを用いた前記予測モデルの生成処理を実行することで前記第2の特徴量を算出する
 情報処理装置。
(11)(10)に記載の情報処理装置であって、
 前記部分データセットは、互いに用途の異なる複数のデータグループを含み、
 前記第2の特徴量は、前記複数のデータグループの各々に対する前記部分データセットを用いて生成される前記予測モデルの予測値を評価する評価値、又は前記評価値を比較した比較値の少なくとも一方を含む
 情報処理装置。
(12)(11)に記載の情報処理装置であって、
 前記複数のデータグループは、学習データのグループと、検証データのグループと、テストデータのグループとを含む
 情報処理装置。
(13)(11)又は(12)に記載の情報処理装置であって、
 前記評価値は、前記部分データセットを用いて生成される前記予測モデルの予測値に関する誤差中央値、平均二乗誤差、及び誤差率中央値の少なくとも1つを含む
 情報処理装置。
(14)(11)から(13)のうちいずれか1つに記載の情報処理装置であって、
 前記比較値は、前記複数のデータグループのうち2つのデータグループについて算出された前記評価値の差分又は比率の少なくとも一方を含む
 情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記精度情報を提示する画面を生成する画面生成部を具備する
 情報処理装置。
(16)(15)に記載の情報処理装置であって、
 前記推定処理部は、前記精度情報として、前記部分データセットを用いて生成される前記予測モデルの予測精度に対する前記全データセットを用いて生成される前記予測モデルの予測精度の変化を推定し、
 前記画面生成部は、前記予測精度の変化量を複数のレベルにわけて提示する画面、または前記予測精度の変化量の値を提示する画面の少なくとも一方を生成する
 情報処理装置。
(17)(15)又は(16)に記載の情報処理装置であって、
 前記画面生成部は、前記部分データセットを用いた前記予測モデルの生成処理の実行を選択するための選択画面を生成し、
 前記取得部は、前記生成処理の実行が選択された場合に、前記生成処理を実行して前記部分データセットの特徴量を算出し、
 前記推定処理部は、前記部分データセットの特徴量に基づいて前記精度情報を推定する
 情報処理装置。
(18)予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得し、
 前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定する
 ことをコンピュータシステムが実行する情報処理方法。
(19)予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得するステップと、
 前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定するステップと
 をコンピュータシステムに実行させるプログラム。
 F…メタ特徴量
 10…端末装置
 14…記憶部
 15…制御部
 16…制御プログラム
 17…学習データセット
 18…部分データセット
 20…UI生成部
 21…予測モデル生成部
 22…メタ特徴量算出部
 23…精度推定部
 30…サーバ装置
 35…設定画面
 37…評価画面
 40…推定モデル
 50…予測モデル
 51…第1の予測モデル
 52…第2の予測モデル
 100…モデル生成システム

Claims (19)

  1.  予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得する取得部と、
     前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定する推定処理部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記推定処理部は、前記精度情報として、前記部分データセットを用いて生成される前記予測モデルの予測精度に対する前記全データセットを用いて生成される前記予測モデルの予測精度の変化を推定する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記推定処理部は、前記予測精度の変化を推定する推定モデルを用いて構成される
     情報処理装置。
  4.  請求項3に記載の情報処理装置であって、
     前記推定モデルは、所定のデータセットの一部のデータセットの特徴量と、所定の予測モデルを前記所定のデータセットの全部及び一部を用いて生成した場合に生じる予測精度の変化との関係を学習したモデルである
     情報処理装置。
  5.  請求項3に記載の情報処理装置であって、
     前記推定モデルは、前記予測精度の変化量を複数のレベルに分類する分類モデルである
     情報処理装置。
  6.  請求項3に記載の情報処理装置であって、
     前記推定モデルは、前記予測精度の変化量を複数のレベルに分類する分類モデルをルールベースで近似したモデルである
     情報処理装置。
  7.  請求項3に記載の情報処理装置であって、
     前記推定モデルは、前記予測精度の変化量を推定する回帰モデルである
     情報処理装置。
  8.  請求項1に記載の情報処理装置であって、
     前記部分データセットの特徴量は、前記部分データセットの内容に応じた第1の特徴量を含み、
     前記取得部は、前記部分データセットを解析することで前記第1の特徴量を算出する
     情報処理装置。
  9.  請求項8に記載の情報処理装置であって、
     前記第1の特徴量は、前記部分データセットに含まれるデータの数、前記データに含まれる特徴量の数、前記データの数と前記データに含まれる特徴量の数との比率の少なくとも1つを含む
     情報処理装置。
  10.  請求項1に記載の情報処理装置であって、
     前記部分データセットの特徴量は、前記部分データセットを用いて生成される前記予測モデルに応じた第2の特徴量を含み、
     前記取得部は、前記部分データセットを用いた前記予測モデルの生成処理を実行することで前記第2の特徴量を算出する
     情報処理装置。
  11.  請求項10に記載の情報処理装置であって、
     前記部分データセットは、互いに用途の異なる複数のデータグループを含み、
     前記第2の特徴量は、前記複数のデータグループの各々に対する前記部分データセットを用いて生成される前記予測モデルの予測値を評価する評価値、又は前記評価値を比較した比較値の少なくとも一方を含む
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記複数のデータグループは、学習データのグループと、検証データのグループと、テストデータのグループとを含む
     情報処理装置。
  13.  請求項11に記載の情報処理装置であって、
     前記評価値は、前記部分データセットを用いて生成される前記予測モデルの予測値に関する誤差中央値、平均二乗誤差、及び誤差率中央値の少なくとも1つを含む
     情報処理装置。
  14.  請求項11に記載の情報処理装置であって、
     前記比較値は、前記複数のデータグループのうち2つのデータグループについて算出された前記評価値の差分又は比率の少なくとも一方を含む
     情報処理装置。
  15.  請求項1に記載の情報処理装置であって、さらに、
     前記精度情報を提示する画面を生成する画面生成部を具備する
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記推定処理部は、前記精度情報として、前記部分データセットを用いて生成される前記予測モデルの予測精度に対する前記全データセットを用いて生成される前記予測モデルの予測精度の変化を推定し、
     前記画面生成部は、前記予測精度の変化量を複数のレベルにわけて提示する画面、または前記予測精度の変化量の値を提示する画面の少なくとも一方を生成する
     情報処理装置。
  17.  請求項15に記載の情報処理装置であって、
     前記画面生成部は、前記部分データセットを用いた前記予測モデルの生成処理の実行を選択するための選択画面を生成し、
     前記取得部は、前記生成処理の実行が選択された場合に、前記生成処理を実行して前記部分データセットの特徴量を算出し、
     前記推定処理部は、前記部分データセットの特徴量に基づいて前記精度情報を推定する
     情報処理装置。
  18.  予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得し、
     前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定する
     ことをコンピュータシステムが実行する情報処理方法。
  19.  予測モデルの生成に用いる全データセットの一部である部分データセットの特徴量を取得するステップと、
     前記部分データセットの特徴量に基づいて、前記全データセットを用いて生成される前記予測モデルの予測精度を表す精度情報を推定するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2020/032996 2019-09-11 2020-09-01 情報処理装置、情報処理方法、及びプログラム WO2021049365A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021545233A JPWO2021049365A1 (ja) 2019-09-11 2020-09-01

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962898649P 2019-09-11 2019-09-11
US62/898,649 2019-09-11

Publications (1)

Publication Number Publication Date
WO2021049365A1 true WO2021049365A1 (ja) 2021-03-18

Family

ID=74866930

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/032996 WO2021049365A1 (ja) 2019-09-11 2020-09-01 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2021049365A1 (ja)
WO (1) WO2021049365A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022181049A1 (ja) 2021-02-24 2022-09-01 ソニーグループ株式会社 細胞処理システム、細胞処理方法、学習データ作成方法
WO2022195793A1 (ja) * 2021-03-18 2022-09-22 日本電気株式会社 情報処理装置、データ流通方法、情報処理方法、および、制御プログラム
WO2023275971A1 (ja) * 2021-06-29 2023-01-05 日本電気株式会社 情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017183548A1 (ja) * 2016-04-22 2017-10-26 日本電気株式会社 情報処理システム、情報処理方法、及び、記録媒体
JP2018173813A (ja) * 2017-03-31 2018-11-08 富士通株式会社 比較プログラム、比較方法および比較装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017183548A1 (ja) * 2016-04-22 2017-10-26 日本電気株式会社 情報処理システム、情報処理方法、及び、記録媒体
JP2018173813A (ja) * 2017-03-31 2018-11-08 富士通株式会社 比較プログラム、比較方法および比較装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FIGUEROA ET AL.: "Predicting sample size required for classification performance", BMC MEDICAL INFORMATICS AND DECISION MAKING, 2012, XP021118412, Retrieved from the Internet <URL:https://link.springer.com/article/10.1186/1472-6947-12-8> [retrieved on 20201113], DOI: 10.1186/1472-6947-12- 8 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022181049A1 (ja) 2021-02-24 2022-09-01 ソニーグループ株式会社 細胞処理システム、細胞処理方法、学習データ作成方法
WO2022195793A1 (ja) * 2021-03-18 2022-09-22 日本電気株式会社 情報処理装置、データ流通方法、情報処理方法、および、制御プログラム
WO2023275971A1 (ja) * 2021-06-29 2023-01-05 日本電気株式会社 情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JPWO2021049365A1 (ja) 2021-03-18

Similar Documents

Publication Publication Date Title
WO2021049365A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Amin et al. A three-stage model for closed-loop supply chain configuration under uncertainty
Bangert Optimization for industrial problems
US11861464B2 (en) Graph data structure for using inter-feature dependencies in machine-learning
Cox Jr et al. Causal analytics for applied risk analysis
Gruber et al. Condition-based maintenance via simulation and a targeted Bayesian network metamodel
JP2021528707A (ja) 高度な承認制御による構成価格見積もり
Maleki et al. Supply chain performance monitoring using Bayesian network
JP2019215831A (ja) 予測システム及び予測方法
Mortensen et al. Predicting and defining B2B sales success with machine learning
Fazayeli et al. A hybrid meta-heuristic algorithm for flowshop robust scheduling under machine breakdown uncertainty
JP2024516656A (ja) 産業特定機械学習アプリケーション
Percy et al. Scheduling preventive maintenance for oil pumps using generalized proportional intensities models
Persona et al. Age replacement policy in a random environment using systemability
Mittman et al. A hierarchical model for heterogenous reliability field data
Wang et al. On the impact of deep learning-based time-series forecasts on multistage stochastic programming policies
JP5993273B2 (ja) 意思決定支援システム及び方法
Montevechi et al. Sensitivity analysis in discrete-event simulation using fractional factorial designs
Aksu et al. Automated prediction of relevant key performance indicators for organizations
Jethani Software metrics for effective project management
US20140052502A1 (en) Balanced web analytics scorecard
Silva et al. Adaptive reinforcement learning for task scheduling in aircraft maintenance
Shah et al. Predictive Analytic Modeling: A Walkthrough
JP4993097B2 (ja) 企業施策の決定支援装置、企業施策の決定支援方法及びそのプログラム
JP2022068690A (ja) 意思決定支援装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20862437

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021545233

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20862437

Country of ref document: EP

Kind code of ref document: A1