WO2020085114A1 - 情報処理装置、情報処理方法、および、プログラム - Google Patents

情報処理装置、情報処理方法、および、プログラム Download PDF

Info

Publication number
WO2020085114A1
WO2020085114A1 PCT/JP2019/040171 JP2019040171W WO2020085114A1 WO 2020085114 A1 WO2020085114 A1 WO 2020085114A1 JP 2019040171 W JP2019040171 W JP 2019040171W WO 2020085114 A1 WO2020085114 A1 WO 2020085114A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
model
entry
learning
information processing
Prior art date
Application number
PCT/JP2019/040171
Other languages
English (en)
French (fr)
Inventor
慎吾 高松
正典 宮原
広雅 玉村
高橋 朋子
元輝 東出
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201980063773.5A priority Critical patent/CN112789636A/zh
Priority to US17/286,268 priority patent/US20210356920A1/en
Priority to JP2020553140A priority patent/JPWO2020085114A1/ja
Publication of WO2020085114A1 publication Critical patent/WO2020085114A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and in particular, relates to an information processing device, an information processing method, and a program that make it possible to easily compare and study learning histories.
  • the present technology has been made in view of such a situation, and makes it possible to easily compare and study learning histories.
  • the information processing device includes a plurality of prediction models that are learned models by machine learning, and a control unit that performs control to display model information regarding the prediction models.
  • the information processing device controls to display a plurality of prediction models that are learned models by machine learning and model information about the prediction models.
  • a program according to one aspect of the present technology is for causing a computer to function as a control unit that performs control to display a plurality of prediction models that are learned models by machine learning and model information related to the prediction models.
  • control is performed to display a plurality of prediction models that are learned models by machine learning and model information regarding the prediction models.
  • the information processing device can be realized by causing a computer to execute a program.
  • This program can be provided by transmitting it via a transmission medium or by recording it on a recording medium.
  • the information processing device may be an independent device, or may be an internal block that constitutes one device.
  • FIG. 19 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • Block diagram of prediction system 2. Configuration example of history management screen 3. 3. New model creation process Entry sort process 5. Tree display processing 6. Presence / absence display process of significant difference 7. Example of entry difference display 8. Display example of suggestion function 9. Computer configuration example
  • FIG. 1 is a block diagram showing a configuration example of a prediction system to which the present technology is applied.
  • the prediction system 1 of FIG. 1 includes a prediction application 11, an operation unit 12, a storage 13, and a display 14, performs learning by machine learning, and uses a learned model obtained as a result as a prediction model to perform a predetermined calculation. It is a system that predicts items to be predicted.
  • the prediction system 1 may be configured by a single information processing device such as a personal computer, a server device, or a smartphone, or connected via a network such as the Internet or a LAN (Local Area Network) like a server client system. It may be configured by a plurality of information processing devices.
  • the prediction application 11 is composed of an application program, and has a learning unit 21, a prediction unit 22, and a learning history management unit 23 by being executed by a CPU (Central Processing Unit) such as a personal computer.
  • a CPU Central Processing Unit
  • Each of the learning unit 21, the prediction unit 22, and the learning history management unit 23 has a function as an operation control unit that executes a predetermined process based on a user's instruction operation supplied from the operation unit 12, and a learning result and a prediction. It has a function as a display control unit that causes the display 14 to display predetermined information such as a result.
  • the operation unit 12 is composed of, for example, a keyboard, a mouse, a switch, a touch panel, etc., receives a user's instruction operation, and supplies it to the prediction application 11.
  • the storage 13 is, for example, a data storage unit having a recording medium such as a hard disk and a semiconductor memory, and stores a data set and application programs necessary for learning and prediction.
  • the storage 13 performs prediction by using, as a data set, a learning data set for learning, an evaluation data set for evaluating a prediction model obtained by learning, and a prediction model obtained by learning.
  • the prediction data set of is stored.
  • Fig. 2 shows an example of a learning data set.
  • Fig. 2 shows a part of a learning data set used for learning a predictive model for predicting the probability of default from an individual's background and assets for credit examination when making a loan to an individual.
  • the learning data set in Fig. 2 has data items (features) such as ID, age, occupation, final educational background, years of education, marriage history, occupation, family composition, race, gender, capital gain, capital loss, and weekly work. It has time, country of origin, and Label.
  • the last item in the training data set, Label is the known answer for the item being predicted, yes indicates that the individual has paid off the loan, and no indicates that the individual is in default. It means that.
  • the display 14 is a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) display, and displays the image supplied from the prediction application 11. For example, the display 14 displays a parameter setting screen at the time of learning, a prediction result, and the like.
  • LCD Liquid Crystal Display
  • organic EL Electro-Luminescence
  • the learning unit 21 of the prediction application 11 uses the learning data set stored in the storage 13 to execute a learning process (machine learning) using a predetermined learning model.
  • the learned model obtained by the learning process is used by the prediction unit 22 as a prediction model for predicting a predetermined prediction target item.
  • the learning unit 21 has, for example, a logistic regression, a neural net, and a random forest as a learning model (prediction model), and selects a predetermined learning model according to a user's instruction operation to perform a learning process.
  • the learning unit 21 also performs an evaluation process of evaluating the accuracy (prediction accuracy) of the learning model obtained by the learning process, using the evaluation data set whose answer to the prediction target item is known.
  • the prediction unit 22 executes a prediction process using a prediction model that is a learned model obtained by the learning process by the learning unit 21, and predicts a predetermined prediction target item.
  • the prediction data set stored in the storage 13 is used for the prediction process.
  • the learning history management unit 23 manages a history of a plurality of learning processes executed by the learning unit 21. That is, in machine learning, a highly accurate learning model is constructed by repeatedly performing the learning process and the evaluation of the learning model obtained by the learning process a plurality of times. For example, when performing multiple learning processes, the data items used as learning data, the learning model, the learning parameters such as the coefficient of the regularization term, the items to be predicted, etc. are changed as appropriate to improve the prediction accuracy. It is verified whether or not. In addition, the learning data set may be updated (expanded) and the learning model may be recalculated again.
  • the learning history management unit 23 presents details of the learning processing executed by the learning unit 21 to the user in an easy-to-understand manner, for example, the difference in the data set or learning model in each learning processing, the value of the accuracy evaluation index, and the like. It should be noted that in the present embodiment, in the case of learning processing or learning, the accuracy evaluation executed thereafter is also included. In addition, the learning history management unit 23 compares the plurality of learning models generated in the past learning processing, proposes a learning model that is estimated to be more desirable based on the plurality of learning processing executed in the past, and the like. Also do.
  • the prediction application 11 has a great feature in the learning history management function executed by the learning history management unit 23. Therefore, below, the details of the learning process by the learning unit 21 and the prediction process by the prediction unit 22 are omitted, and the function of the learning history management unit 23 will be described in detail. It is assumed that the learning process by the learning unit 21 and the prediction process by the prediction unit 22 are appropriately executed by a general method.
  • FIG. 3 shows a configuration example of a history management screen displayed on the display 14 by the learning history management unit 23.
  • the learning history management unit 23 displays a plurality of prediction models that are learned models obtained by the learning process and model information regarding the prediction models.
  • the history management screen 41 is generated and displayed on the display 14.
  • the history management screen 41 of FIG. 3 is roughly classified into three areas, and specifically, it is divided into a project display area 51, an entry display area 52, and a summary display area 53.
  • the project display area 51 is displayed at the top of the history management screen 41.
  • the lower area of the project display area 51 is divided into left and right, an entry display area 52 is arranged on the left side, and a summary display area 53 is arranged on the right side.
  • the learning history management unit 23 manages the learning history for each project.
  • the project display area 51 displays the current project displayed on the history management screen 41.
  • “ProjectA” is displayed in the project display area 51, and the project display area 51 indicates that the project named “ProjectA” is displayed.
  • “ProjectA” is assumed to be a project for learning and predicting a prediction model for predicting the probability of default by using the data set of the data example as shown in FIG.
  • one entry 66 is generated and displayed for one learning.
  • three entries 66-1 to 66-3 are displayed in time series, which indicates that learning has been executed three times so far.
  • the arrangement method of the plurality of entries 66 in the history display area 65 can be, for example, the order in which the entries 66 are generated. In this case, the newest entry 66 is displayed at the top of the history display area 65. In the example of FIG. 3, among the three entries 66-1 to 66-3 in the history display area 65, the entry 66-3 is the newest and the entry 66-1 is the oldest.
  • the method of arranging the plurality of entries 66 in the history display area 65 can be, for example, the order in which the evaluation value of the prediction accuracy is high.
  • the entry 66 having the highest evaluation value of the prediction accuracy is displayed at the top of the history display area 65.
  • the evaluation value of the entry 66-3 is the highest and the evaluation value of the entry 66-1 is the lowest.
  • a method of arranging the plurality of entries 66 in the history display area 65 may be appropriately changed based on a user's designation from among a plurality of methods, such as a time series order or a high evaluation value order, by using a pull-down list or the like. Good.
  • Each entry 66 displayed in the history display area 65 includes an icon 71, a model name display section 72, a precision display section 73, and a comment display section 74.
  • the icon 71 represents the prediction value type of the prediction model learned by the entry 66.
  • the marks displayed as the icons 71 correspond to the three types of marks shown in the predicted value type setting unit 132 of the detailed setting screen 121 of the new model described later in FIG.
  • the model name display section 72 displays the name of the prediction model of the entry 66.
  • the name displayed on the model name display portion 72 is determined by user input on the new model creation screen 101 of FIG.
  • the accuracy display portion 73 displays the evaluation result of the prediction accuracy of the prediction model of the entry 66.
  • the evaluation result of the prediction accuracy is, for example, AUC (Area Under the Curve).
  • the comment display section 74 displays the comment for the prediction model of the entry 66. The comment is displayed when the user inputs it on the new model creation screen 101 in FIG.
  • the entry 66 selected by the user with a mouse or the like (hereinafter referred to as a selected entry) is displayed in different colors or the like. Then, detailed information regarding the selected entry is displayed in the summary display area 53 on the right side.
  • the middle entry 66-2 is displayed in gray, indicating the selected state.
  • the expression method for representing the selected entry is not limited to the gray display as shown in FIG. 3, and any display method can be adopted.
  • the new model creation button 61 is a button that is pressed when creating a new prediction model.
  • the new model creation button 61 is pressed, the new model creation screen 101 of FIG. 4 is displayed. The process when the new model creation button 61 is pressed will be described later.
  • the sort button 62 is a button that is pressed when the plurality of entries 66 displayed in the history display area 65 are sorted and displayed in order of prediction accuracy from time series display. When the sort button 62 is pressed, an entry sort process described later with reference to FIG. 6 is executed.
  • the tree display button 63 changes the display in the history display area 65 from the display including the icon 71, the model name display portion 72, the accuracy display portion 73, and the comment display portion 74 shown in FIG. 3 to the tree display. This is a button that is pressed when doing. When the tree display button 63 is pressed, the display of the history display area 65 is switched to the tree display described later with reference to FIG.
  • the suggest button 64 is a button that is pressed when the suggest display process is executed.
  • the suggestion display process is a process in which the learning history management unit 23 proposes to the user a prediction model that is estimated to be more desirable based on a plurality of learnings performed in the past.
  • the suggestion display process When executing the suggestion display process, one of the plurality of entries 66 displayed in the history display area 65 is selected with the mouse, and then the suggestion button 64 is pressed. Alternatively, it can also be executed by selecting one of the plurality of entries 66 with the mouse and selecting “Suggest” from the menu displayed by right-clicking the mouse. Details of the suggestion display processing will be described later with reference to FIG.
  • the summary display area 53 on the right side of the history management screen 41 includes a copy new creation button 81, a basic information display area 82, a usage item display area 83, and an accuracy evaluation value display area 84.
  • Each item displayed in the basic information display area 82, the used item display area 83, and the accuracy evaluation value display area 84 is a detailed item that specifies model information of the prediction model.
  • the copy new creation button 81 is a button pressed when performing learning setting of a new prediction model based on the selected entry (model name “model2201820181”) which is the entry 66 currently selected in the entry display area 52. Is. By using the function of the copy new creation button 81, the learning setting of the selected entry can be taken over and the learning can be easily performed.
  • the basic information of the selected entry is displayed in the basic information display area 82.
  • the prediction value type, prediction target, learning data, and learning time are displayed.
  • the type of predicted value set in the learning setting is displayed in the predicted value type.
  • the prediction value type can be either binary classification, multi-value classification, or numerical prediction.
  • the prediction target the prediction target item set in the learning setting is displayed.
  • the learning data the file name of the data set used for learning is displayed.
  • the learning time the time taken for the learning process is displayed.
  • the data items included in the learning data (learning data set) of the prediction model of the selected entry and the data items used for learning are displayed.
  • the data items displayed in the usage item display area 83 represent the data items included in the learning data, and the data items surrounded by the solid line frame are the data items used for learning, and are surrounded by the broken line frame. Represents a data item that was not used for training. Note that the expression method indicating the use or non-use of the data item is not limited to this, and may be expressed by a color difference, for example.
  • the evaluation result (evaluation value) of the prediction accuracy of the prediction model of the selected entry is displayed.
  • the evaluation index of the prediction accuracy Precision (precision rate), Recall (recall rate), F-measure (F value), Accuracy (overall correct answer rate), AUC (area under the ROC curve), etc. are displayed.
  • a plurality of learned prediction models are displayed in the entry display area 52, and model information of a predetermined prediction model (entry 66) selected therein is displayed in the summary display area 53. This allows the user to easily compare and study the learning history.
  • New model creation process a new model creation process executed when the new model creation button 61 is pressed on the history management screen 41 of FIG. 3 will be described.
  • FIG. 4 shows an example of a new model creation screen displayed when the new model creation button 61 is pressed.
  • the new model creation screen 101 in FIG. 4 it is possible to input a model name of a prediction model (learning model) to be newly created and a comment for description, and specify learning data.
  • the model name of the newly created prediction model is input.
  • the name entered in the text box 111 is displayed in the model name display section 72 of the history management screen 41.
  • an explanation about the newly created prediction model is input.
  • the explanatory note entered in the text box 112 is displayed in the comment display section 74 of the history management screen 41.
  • a file name of a file used as learning data is input to the file setting unit 113. For inputting a file, a dialog for browsing the file is displayed, and the file to be used as learning data can be specified from the dialog.
  • FIG. 5 shows an example of the detailed setting screen of the new model displayed when the enter button 114 is pressed on the new model creation screen 101 of FIG.
  • the detailed setting screen 121 of the new model of FIG. 5 includes a prediction target setting unit 131, a prediction value type setting unit 132, a model type setting unit 133, a learning data setting unit 134, a data item setting unit 135, a learning evaluation execution button 136, and , And a cancel button 137.
  • Prediction target setting unit 131 allows the user to set a prediction target using a pull-down list.
  • the prediction target represents a data item to be predicted among the data items included in the learning data.
  • the pull-down list data items included in the learning data designated by the file setting unit 113 of the new model creation screen 101 of FIG. 4 are displayed.
  • Label is selected as the prediction target item from the example of the learning data set shown in FIG.
  • the predictive value type setting unit 132 can set either binary classification, multi-valued classification, or numerical prediction as the type of predicted value of the prediction target item.
  • the three types of marks correspond to the icons 71 of the entries 66 displayed in the entry display area 52 of the history management screen 41 of FIG. The user sets the prediction value type by selecting one of the marks of binary classification, multi-valued classification, and numerical prediction.
  • the model type of the prediction model (learning model) used for learning can be selected with a radio button.
  • the model type of the prediction model any of logistic regression, neural net, and random forest can be selected.
  • the coefficient of the normalization term for preventing over-learning can be set.
  • the learning data setting unit 134 displays the file designated as learning data in the file setting unit 113 of the new model creation screen 101 of FIG. By pressing the change button 138, a file reference dialog is displayed, and the file can be changed if necessary. In the prediction accuracy evaluation process executed after the learning of the prediction model is completed, for example, a part of the learning data is divided and used as evaluation data (evaluation data set).
  • the data item setting unit 1335 all data items included in the learning data set designated as learning data are displayed.
  • the user specifies the data item to be used for the learning data by checking the check box of the data item to be used for the learning data from all the displayed data items.
  • the data item selected as the prediction target item by the prediction target setting unit 131 cannot be specified.
  • the learning evaluation execution button 136 is pressed when starting the learning process and the accuracy evaluation process.
  • the cancel button 137 is pressed when canceling (stopping) the new model creation process.
  • the learning history management unit 23 executes the entry sort processing shown in the flowchart of FIG. 6 and displays the plurality of entries 66 in the history display area 65. change.
  • step S11 the learning history management unit 23 groups all entries included in the current project “ProjectA” into groups with the same prediction value type and prediction target. create. Therefore, the difference in the learning data is ignored when creating the group.
  • step S12 the learning history management unit 23 selects predetermined two groups from the created one or more groups to form a pair of groups, and whether the formed pair groups can be compared with each other. Comparability determination processing for determining is performed. In addition, the learning history management unit 23 executes a comparability determination process that determines whether or not comparison is possible for all combinations of group pairs.
  • two groups forming a pair are a set of entries in which at least one of the predictive value type and the predictive target is different. .
  • step S31 the learning history management unit 23 determines whether the two groups forming a pair have different prediction targets. When it is determined in step S31 that the prediction targets of the two groups forming a pair are not different, that is, the prediction targets of the two groups are the same, the process proceeds to step S36 described below.
  • step S31 determines that the prediction targets of the two groups forming a pair are different. If it is determined in step S31 that the prediction targets of the two groups forming a pair are different, the process proceeds to step S32, and the learning history management unit 23 determines that at least one of the prediction targets of the two groups is a numerical value. Is determined.
  • step S32 If it is determined in step S32 that at least one of the prediction targets of the two groups is a numerical value, the process proceeds to step S33. On the other hand, if it is determined that both of the prediction targets of the two groups are not numerical values, that is, both of the prediction targets of the two groups are categorized, the process proceeds to step S37.
  • step S33 which is the next process when it is determined in step S32 that at least one of the prediction targets is a numerical value
  • the learning history management unit 23 determines the prediction target of each entry in the group for each of the two groups. Statistics are calculated from the training data used.
  • the statistical amount of the prediction target calculated here is, for example, an average value, a median value, a standard deviation, a maximum value, a minimum value, or the like.
  • step S34 the learning history management unit 23 calculates, for each of the two groups, the average value of each statistic of the prediction target of all the entries in the group. That is, the average value as a group of each statistic of the prediction target of each entry calculated in step S33 is calculated. For example, the average value of the prediction targets of the entries in the group is further averaged over the entire group, and the calculated value is calculated. The same applies to other statistics such as median, standard deviation, maximum value and minimum value.
  • step S35 the learning history management unit 23 determines whether the difference between the average values of the statistics of the two groups is less than or equal to a predetermined value.
  • step S35 the difference between the average values of the statistics of the two groups is equal to or less than the predetermined value.
  • step S36 the difference between the average values of the statistics of the two groups is equal to or less than the predetermined value.
  • step S38 the difference between the average values of the statistics of the two groups is larger than the predetermined value.
  • step S37 which is the next process when it is determined in step S32 that both prediction targets of the two groups are categorized
  • the learning history management unit 23 performs prediction of the two groups. It is determined whether or not possible values of the target have a common part.
  • step S36 the process proceeds to step S36.
  • step S38 the process proceeds to step S38.
  • step S36 the learning history management unit 23 determines that the two groups forming a pair are comparable, and ends the comparison determination processing.
  • step S36 if it is determined in step S31 that the prediction targets of the two groups forming a pair are the same, the difference between the average values of the respective statistics of the two groups is predetermined in step S35. It is executed when it is determined that the value is less than or equal to the value, or when it is determined in step S37 that the possible values of the prediction targets of the two groups have a common part. Therefore, the prediction targets of two groups forming a pair are the same, the difference between the average values of the statistics of the two groups is less than or equal to a predetermined value, or the prediction targets are categorical. Two paired groups are determined to be comparable if the possible values of the predicted targets of the groups have an intersection.
  • step S38 the learning history management unit 23 determines that the two groups forming a pair cannot be compared, and ends the comparison possible determination process.
  • the process of step S38 is common to the case where it is determined in step S35 that the difference between the average values of the respective statistic values of the two groups is larger than a predetermined value, and in step S37, the possible values of the prediction targets of the two groups are common. It is executed when it is determined that there is no part. Therefore, if it is determined that the difference between the average values of the statistics of the two groups is larger than a predetermined value, or if it is determined that the possible values of the prediction targets of the two groups have no common part, the pair It is determined that the two groups formed with are incomparable.
  • step S12 the comparison determination processing described with reference to FIG. 7 is executed for all combinations of group pairs.
  • the learning setting in which the prediction target is numerical value and the prediction value type is numerical prediction is learned as the prediction value type of multi-valued classification. For example, when learning a prediction target that can take a value in the range of 0 to 50 as a multi-level classification that is classified into 5 values of 0 to 10, 11 to 20, 21 to 30, 31 to 40, and 41 to 50. And so on. Even if the prediction value types are different as described above, it is assumed that the numerical value is numerically predicted by the median value of the five categories of 0 to 10, 11 to 20, 21 to 30, 31 to 40, and 41 to 50. Since the evaluation value can be calculated using the prediction index, it is possible to determine that comparison is possible according to the comparison determination processing.
  • the abstraction level of the prediction target may change.
  • the prediction target predicts whether to "continue” or “leave” the contract
  • it can be a binary classification of "continue” or “leave”, or “continue” or “contract”. It can also be a three-value classification of "expiration” or "intermediate cancellation”.
  • the degree of abstraction (the number of categories) of the prediction target changes in this way, the evaluation value can be calculated as a binary classification of a common value (“continuation” in the above example) or other values. According to the possibility determination process, it is possible to determine that the comparison is possible.
  • step S13 the learning history management unit 23 joins the groups determined to be comparable.
  • step S14 the learning history management unit 23 sorts the entries in the group for each group in descending order of prediction accuracy.
  • step S15 the learning history management unit 23 concatenates the sorting results of each group in the order of the group having the largest number of entries (the number of models of the prediction model) and displays them in the entry display area 52 of the history management screen 41 of FIG. After displaying, the entry sort processing is terminated.
  • FIG. 8 shows an example of the history management screen after the entry sort processing is executed.
  • the history management screen of FIG. 8 is a screen as a result of sorting a plurality of entries having different prediction value types.
  • the entry 66-2 is the selected entry selected by the user, and detailed information about the entry 66-2 is displayed on the right side in the summary. It is displayed in the display area 53.
  • entries with the same prediction target and prediction value type but different learning data are displayed as the same group with the entries arranged side by side.
  • Entries with different prediction targets and different groups are displayed in the entry display area 52 in the order of the group having the largest number of entries and in the same group in the order of high prediction accuracy.
  • the evaluation value for each prediction value type may be converted into an evaluation index common to all prediction value types, for example, a 5-step evaluation, and the sorted display may be performed according to the common evaluation value. .
  • the comparability determination process of step S12 and the combining process of combining the comparable groups of step S13 can be omitted.
  • Tree display processing executed when the tree display button 63 is pressed on the history management screen 41 of FIG. 3 will be described with reference to FIGS. 9 and 10.
  • the learning history management unit 23 changes the history display area 65 of the history management screen 41 shown in FIG. 3 into a tree format representation.
  • FIG. 9 shows an example of the history management screen when the tree display button 63 is pressed.
  • the history management screen 41 of FIG. 9 differs from the history management screen 41 of FIG. 3 only in the history display area 65. Therefore, the description of the history management screen 41 other than the history display area 65 is omitted.
  • each entry 66 is represented by a circle ( ⁇ ) node 161, and the nodes 161 are displayed in a node representation format in which they are connected by a solid node connection line 162.
  • a character corresponding to the name of the prediction model of the entry 66 for example, a character obtained by simplifying the name of the prediction model of the entry 66 by two characters is displayed.
  • the arrow of the solid node connection line 162 corresponds to the time series in which the entry 66 of the node 161 was generated. In the example of FIG.
  • a solid node connection line 162-1 is connected from the node 161-1 of the prediction model “m1” (prediction model mode1) to the node 161-2 of the prediction model “m2” (prediction model mode2).
  • the solid node connection line 162-2 is connected from the node 161-2 of the prediction model “m2” (prediction model mode2) to the node 161-3 of the prediction model “m3” (prediction model mode3).
  • the node 161-2 of the prediction model “m2” is displayed in gray, indicating the selected state.
  • the nodes 161-1 and 161-3 of the non-selected prediction models “m1” and “m3” are displayed in white.
  • a broken copy node connection line 163 is displayed from the node 161-3 of the prediction model “m3” to the node 161-1 of the prediction model “m1”.
  • the dashed copy node connection line 163 is generated based on the entry 66 of the prediction model “m3” of the connection source node 161-3 and the entry 66 of the prediction model “m1” of the connection destination node 161-1. It means that.
  • the user selects the entry 66 of the prediction model “m1” of the connection destination node 161-1 as a selected entry and presses the copy new creation button 81 to learn a new prediction model.
  • such a broken copy node connection line 163 is displayed.
  • the execution order of each entry 66 in the same project and the copy new creation button 81 are pressed. Then, the entry 66 that is the creation source when a new prediction model is learned can be visually and easily recognized.
  • the tree format expression of the history display area 65 can be displayed in an expression format such as A or B in FIG. 10 in addition to the expression format described in FIG.
  • a and B of FIG. 10 show other examples of the tree format representation of the history display area 65 when the tree display button 63 is pressed.
  • the tree format representations of A and B in FIG. 10 differ from FIG. 9 in the representation format that connects the copy source and the copy destination when the new copy creation button 81 is pressed and learning setting of a new prediction model is performed.
  • the nodes 161 of the copy-source and copy-destination entries 66 were connected by a dashed arrow (copy node connection line 163).
  • the node 161 of the entry 66 of the copy destination is arranged on the right side of the node 161 of the entry 66 of the copy source, and is connected by the solid copy node connection line 164.
  • the node 161-21 of the prediction model “m21” is arranged on the right side of the node 161-2 of the prediction model “m2”, and is connected by the solid copy node connection line 164-1.
  • This is the entry 66 in which the node 161-21 of the prediction model “m21” presses the copy new creation button 81 based on the node 161-2 of the prediction model “m2” to learn a new prediction model. It means that.
  • the node 161-11 of the prediction model “m11” is arranged on the right side of the node 161-3 of the prediction model “m3” and is connected by the solid copy node connection line 164-2. This is the entry 66 in which the node 161-11 of the prediction model “m11” presses the copy new creation button 81 based on the node 161-3 of the prediction model “m3” to learn a new prediction model. It means that.
  • the node 161-12 of the prediction model “m12” is arranged on the right side of the node 161-3 of the prediction model “m3”, and further on the right side of the node 161-11 of the prediction model “m11”. It is connected to the node 161-11 of “m11” by the solid copy node connection line 164-3. This is because the node 161-12 of the prediction model “m12” is based on either the node 161-3 of the prediction model “m3” or the node 161-11 of the prediction model “m11” and the copy new creation button 81 is pressed. , Is an entry 66 for which a new prediction model has been learned.
  • the node 161-21 of the prediction model “m21” is drawn out to the right from the node 161-2 of the prediction model “m2” and is bent upward to form an L-shaped solid line.
  • the copy node connection line 165-1 is connected by the copy node connection line 165-1.
  • the node 161-22 of the prediction model “m22” is also pulled out from the node 161-2 of the prediction model “m2” to the right side and bent upward on the right side of the node 161-21 of the prediction model “m21”. They are connected by an L-shaped solid line copy node connection line 165-2. This is the entry 66 in which the node 161-22 of the prediction model “m22” has pressed the copy new creation button 81 based on the node 161-2 of the prediction model “m2” to learn a new prediction model. It means that.
  • the node 161-11 of the prediction model “m11” is drawn from the node 161-3 of the prediction model “m3” to the right side and is an L-shaped solid line copy node bent upward. They are connected by a connection line 165-3.
  • This is the entry 66 in which the node 161-11 of the prediction model “m11” presses the copy new creation button 81 based on the node 161-3 of the prediction model “m3” to learn a new prediction model. It means that.
  • the node 161-12 of the prediction model “m12” is arranged on the node 161-11 of the prediction model “m11” and connected by the solid copy node connection line 165-4.
  • the existing prediction model is created by copying the existing prediction model and the entry 66 created by copying the existing prediction model and the entry 66 created by not copying the existing prediction model.
  • the entry 66 can be displayed in an easy-to-understand manner.
  • FIG. 11 shows another configuration example of the history management screen shown in FIG.
  • the history management screen 41 shown in FIG. 11 has two entries 66-4 and 66-5 added to the history management screen 41 shown in FIG.
  • the evaluation value of the prediction accuracy of each of the entry 66-5 having the highest prediction accuracy and the entry 66-4 having the next highest prediction accuracy has a frame (a square The box) is displayed.
  • the frame surrounding the evaluation value of the prediction accuracy indicates that the entry 66-4 having the next highest prediction accuracy has no statistically significant difference from the evaluation value of the prediction accuracy of the entry 66-5 having the highest prediction accuracy. It represents.
  • the learning history management unit 23 sets the evaluation value of those prediction accuracy to the entry 66 having the highest prediction accuracy.
  • the same highlighting as the evaluation value of the prediction accuracy is performed.
  • the method of highlighting that there is no statistically significant difference is not limited to the box display as shown in FIG. For example, a different color from the evaluation value of the prediction accuracy of another entry 66 may be used and displayed in the same color.
  • the learning history management unit 23 precalculates and stores the average value and the standard deviation of the evaluation values for each entry 66. Keep it. Then, when displaying the history display area 65 in the descending order of the evaluation value of the prediction accuracy, the learning history management unit 23 makes a significant difference between the entry 66 having the highest prediction accuracy and the entry 66 having the second highest prediction accuracy.
  • the learning history management unit 23 displays the presence or absence of a significant difference with respect to the highest entry 66, so that the user can grasp and compare a plurality of entries 66 having no significant difference.
  • the learning history management unit 23 has an entry difference display function of displaying a difference between model information of prediction models corresponding to the two entries 66 and easily comparing the two prediction models.
  • the user selects two entries 66 from the plurality of entries 66 displayed in the entry display area 52 of the history management screen 41 of FIG. 3 while holding down the control button or the like and right-clicks the mouse to display them.
  • Select "Differential entry” from the displayed menu the learning history management unit 23 displays the entry difference display screen of FIG.
  • two nodes 161 are selected from the plurality of nodes 161 displayed in the entry display area 52 of the history management screen 41 of FIG. 9 while pressing the control button or the like, and displayed by right-clicking the mouse.
  • the entry difference display screen of FIG. 12 can be displayed.
  • FIG. 12 shows a configuration example of the entry difference display screen.
  • the learning history management unit 23 uses one of the selected two entries 66 (for example, the previously selected entry 66) as the difference source entry and the other (for example, the later selected entry 66) as the difference destination entry.
  • the difference destination entry On the left side of the 12 entry difference display screen 181, each item of the difference source entry is displayed. Then, when the item of the difference destination entry is different from each item of the difference source entry, an arrow is displayed on the right side of the item and a specific value of the item of the different difference destination entry is displayed.
  • the difference source entry and the difference destination entry have different learning times, model types of prediction models, data use items, Precision, Recall, F-measure, Accuracy, and AUC. Is expressed.
  • the difference source entry is “03:01:21 h”, while the difference destination entry is “01:44:11 h”.
  • the model type of the prediction model it is displayed that the difference source entry is “neural net”, whereas the difference destination entry is “random forest”.
  • data items that are in the difference source entry but not in the difference destination entry are represented by thick solid lines
  • data items that are not in the difference source entry but in the difference destination entry are represented by thick broken lines. Specifically, it is displayed that the data item "years of education” is in the difference source entry and is not in the difference destination entry, and the data item "family structure" is not in the difference source entry and is in the difference destination entry.
  • Precision, Recall, F-measure, Accuracy, and AUC of the difference source entry are “0.72”, “0.42", “0.51", “0.75", and “0.71”, respectively.
  • Precision, Recall, F-measure, Accuracy, and AUC of the difference destination entry are displayed as “0.74", "0.47”, “0.55", "0.77”, and "0.74", respectively. Has been done.
  • the difference source entry and the difference destination entry are displayed in red when the evaluation value is improved and in blue when the evaluation value is deteriorated. You may make it easy to understand.
  • the entry difference display function for displaying the entry difference display screen 181 in FIG. 12 allows the user to easily compare and examine the difference between the two desired entries 66.
  • the learning history management unit 23 has a suggestion function that selects a predetermined entry 66 and proposes a learning setting in which the prediction accuracy is likely to be improved as compared with the selected entry 66 (selected entry).
  • the suggestion function is to select an entry 66 or one of the nodes 161 displayed in the entry display area 52 on the history management screen 41 of FIG. It is executed by selecting "Suggest" from the menu displayed by clicking.
  • FIG. 13 shows an example of a suggestion screen displayed when the suggestion function is executed.
  • the suggestion screen 201 of FIG. 13 displays learning settings for each of the model type of the prediction model, the unused proposal item, and the additional use proposal item, which are expected to improve the prediction accuracy more than the selected entry.
  • the suggestion screen 201 also displays the increase in the evaluation value as the degree of improvement in the prediction accuracy.
  • AUC is displayed as the evaluation index, but other evaluation indexes may be displayed.
  • the suggestion screen 201 of FIG. 13 indicates that the learning history management unit 23 sets the model type of the prediction model to “neural net” and the coefficient of the normalization term to “0.02” for the prediction model.
  • the learning history management unit 23 does not use the data items of “marriage history”, “family structure”, and “race” among the data items used in the selected entry for the unused proposal item. Indicates that it is better.
  • the learning history management unit 23 indicates that, regarding the additional use proposal item, it is better to add the “gender” data item to the data item used in the selected entry.
  • the learning history management unit 23 indicates that the AUC evaluation value can be increased by 0.25 by changing the prediction model as described above.
  • a suggestion display process for performing a suggestion display like the suggestion screen 201 of FIG. 13 will be described with reference to the flowchart of FIG. As described above, this processing is executed by selecting the predetermined entry 66 and then pressing the suggestion button 64 or selecting "Suggest" from the menu displayed by right-clicking the mouse.
  • step S71 the learning history management unit 23 selects two entries 66 from all the entries 66 included in the current project “ProjectA”, creates a pair of entries 66, and creates a difference entry. To create.
  • the learning history management unit 23 creates a difference entry as follows.
  • the one with a smaller evaluation value of the prediction accuracy is determined as the difference source entry, and the larger one is determined as the difference destination entry.
  • the model type of the prediction model and the coefficient of the regularization term of each of the difference source entry and the difference destination entry are registered in the difference entry. Further, a data item that uses the difference source entry but does not use the difference destination entry is registered in the difference entry as an unused item. Further, although the difference source entry is not used, the data item used for the difference destination entry is registered in the difference entry as an additional use item. Also, the increment of the evaluation value of the prediction accuracy from the difference source entry to the difference destination entry is calculated and registered in the difference entry.
  • FIG. 15 shows an example of a difference entry created for a predetermined pair of one entry 66.
  • the model type of the prediction model of each of the difference source entry and the difference destination entry of the difference entry in FIG. 15 is “neural net”, and the coefficient of the regularization term is “0.02”.
  • the unused items of the differential entry are "marriage history”, "family structure”, and “race”, the additional used item is “sex”, and the AUC increment is "0.25".
  • step S71 the process proceeds to step S72, and the learning history management unit 23 determines whether difference entries have been created for all pairs of entries 66 included in the current project “ProjectA”. To do.
  • step S72 If it is determined in step S72 that difference entries have not been created for all pairs of entries 66, the process returns to step S71, and another difference entry is created.
  • steps S71 and S72 are repeated a predetermined number of times, and when it is determined in step S72 that difference entries have been created for all pairs of entries 66, the process proceeds to step S73.
  • step S73 the learning history management unit 23 selects one difference entry from the plurality of created difference entries and advances the process to step S74.
  • step S74 the learning history management unit 23 determines whether the model type of the prediction model of the difference source of the selected difference entry matches the model type of the prediction model of the selected entry.
  • the selected entry indicates the entry 66 selected by the user before selecting "Suggest” from the menu displayed by pressing the suggest button 64 or right-clicking the mouse.
  • step S74 When it is determined in step S74 that the model type of the prediction model of the difference source of the selected difference entry matches the model type of the prediction model of the selected entry, the process proceeds to step S75, and the learning history management unit 23 selects The set difference entry is set as a suggestion candidate that is a candidate of the difference entry to be suggested, and the process proceeds to step S78.
  • step S74 when it is determined in step S74 that the model type of the prediction model of the difference source of the selected difference entry does not match the model type of the prediction model of the selected entry, the process proceeds to step S76, and the learning history management unit 23 Determines whether the selected entry uses the unused item of the selected difference entry.
  • step S76 If it is determined in step S76 that the unused item of the selected difference entry is used by the selected entry, the process proceeds to step S75, where the learning history management unit 23 suggests the selected difference entry as a difference entry. Is set as a suggestion candidate, and the process proceeds to step S78.
  • step S76 determines whether the unused item of the selected difference entry is not used by the selected entry. If it is determined in step S76 that the unused item of the selected difference entry is not used by the selected entry, the process proceeds to step S77, and the learning history management unit 23 uses the selected difference entry for additional use. Determines if the item is used by a selected entry.
  • step S77 If it is determined in step S77 that the additional entry of the selected difference entry is used by the selected entry, the process proceeds to step S75, where the learning history management unit 23 suggests the selected difference entry as a difference entry. Is set as a suggestion candidate, and the process proceeds to step S78.
  • step S77 if it is determined in step S77 that the additional use item of the selected difference entry is not used by the selected entry, the process proceeds to step S78.
  • the learning history management unit 23 sets the currently selected difference entry as a suggestion candidate when at least one of the following conditions (1) to (3) is satisfied.
  • the model type of the prediction model of the difference source of the selected difference entry matches the model type of the prediction model of the selected entry (2)
  • the selected entry uses the unused items of the selected difference entry (3)
  • the selected entry uses the additional usage item of the selected difference entry
  • step S78 the learning history management unit 23 determines whether all the created difference entries have been selected. If it is determined in step S78 that all the difference entries have not been selected yet, the process returns to step S73 to select the next difference entry. Then, steps S74 to S78 described above are executed.
  • step S78 determines that all the difference entries have been selected.
  • the process proceeds to step S79, and the learning history management unit 23 determines that the AUC increment is the largest among the difference entries set as the suggestion candidates.
  • the large difference entry is determined as the difference entry to be suggested, the suggestion screen 201 as shown in FIG. 13 is generated and displayed, and the suggestion display processing is ended.
  • the prediction accuracy is improved as compared with the selected entry by generating the difference entry from all the entries 66 included in the current project and analyzing the difference between the two entries. Possible learning settings are displayed.
  • the model type of the prediction model of the difference destination entry of the difference entry to be proposed and the coefficient of the regularization term are the suggestion screen 201 shown in FIG. It is displayed in the prediction model part of.
  • the unused item data item of the differential entry to be suggested is displayed in the unused proposal item portion of the suggestion screen 201 shown in FIG. To be done.
  • the data item of the additional use item of the difference entry to be suggested is displayed in the suggestion item for additional use of the suggestion screen 201 shown in FIG. To be done.
  • the AUC increment of the differential entry to be suggested is displayed in the AUC increment of the suggestion screen 201 shown in FIG. Items for AUC increase may be omitted.
  • the user can more easily and quickly find the learning setting in which the evaluation value (AUC) increases.
  • Example of computer configuration> The series of processes described above can be executed by hardware or software.
  • the programs forming the software are installed in the computer.
  • the computer includes a microcomputer incorporated in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 16 is a block diagram showing a hardware configuration example of a computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 305 is further connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
  • the input unit 306 includes a keyboard, a mouse, a microphone, a touch panel, an input terminal and the like.
  • the output unit 307 includes a display, a speaker, an output terminal, and the like.
  • the storage unit 308 includes a hard disk, a RAM disk, a non-volatile memory, and the like.
  • the communication unit 309 includes a network interface or the like.
  • the drive 310 drives a removable recording medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 into the RAM 303 via the input / output interface 305 and the bus 304 and executes the program to execute the above-described series of operations. Is processed.
  • the RAM 303 also appropriately stores data necessary for the CPU 301 to execute various processes.
  • the program executed by the computer (CPU 301) can be recorded in a removable recording medium 311 as a package medium or the like and provided.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 308 via the input / output interface 305 by mounting the removable recording medium 311 in the drive 310. Further, the program can be received by the communication unit 309 via a wired or wireless transmission medium and installed in the storage unit 308. In addition, the program can be installed in advance in the ROM 302 or the storage unit 308.
  • the steps described in the flowcharts are performed not only when they are performed in time series in the order described, but also when they are performed in parallel or when they are not necessarily processed in time sequence. May be executed at a necessary timing such as.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the present technology may have a configuration of cloud computing in which one function is shared by a plurality of devices via a network and jointly processes.
  • each step described in the above flow chart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • An information processing apparatus comprising: a plurality of prediction models that are models learned by machine learning and a control unit that performs control to display model information regarding the prediction models.
  • the information processing apparatus according to (1) wherein the control unit further sorts and displays the plurality of prediction models in order of prediction accuracy.
  • the control unit, the prediction value type that is the type of the prediction value of the prediction model, and the prediction target that is a data item that the prediction model predicts to create the same group in the plurality of prediction models, for each group The information processing apparatus according to (2), wherein the plurality of prediction models are sorted and displayed in descending order of prediction accuracy.
  • the control unit determines that the comparison is possible when there is a common part in possible values of the two groups whose prediction targets are categorical (5) to ( The information processing device according to any one of 7). (9) The information processing apparatus according to any one of (1) to (8), wherein the control unit further controls to display the plurality of prediction models in a tree format expression. (10) The information processing apparatus according to (9), wherein the control unit displays a prediction model created by copying the existing prediction model and a prediction model created without copying the tree in a tree format representation. (11) The information processing apparatus according to any one of (1) to (10), wherein the control unit further displays whether or not there is a significant difference with respect to the prediction model having the highest prediction accuracy.
  • the information processing device according to any one of (1) to (11), wherein the control unit further performs control to display a difference between the model information of the two prediction models. (13) The control unit further controls the display of learning settings that are expected to improve prediction accuracy by analyzing the difference between the model information of the two prediction models. (1) to (12) The information processing device according to any one of the above. (14) The information processing apparatus according to (13), wherein the control unit displays a prediction model that is predicted to have improved prediction accuracy with respect to a selected model that is a prediction model selected from the plurality of prediction models. . (15) The information processing apparatus according to (13) or (14), wherein the control unit displays a model type of a prediction model as the learning setting.
  • the information processing apparatus displays, as the learning setting, data items that should not be used with respect to the prediction model of the selection model.
  • the control unit displays a data item that should be added to the prediction model of the selection model as the learning setting.
  • the information processing device An information processing method for controlling to display a plurality of prediction models which are models learned by machine learning and model information about the prediction models.
  • Computer A program that causes a plurality of prediction models that are models learned by machine learning and a control unit that performs control to display model information regarding the prediction models.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Automation & Control Theory (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本技術は、学習の履歴を簡単に比較検討することができるようにする情報処理装置、情報処理方法、および、プログラムに関する。 情報処理装置は、機械学習による学習済みモデルである複数の予測モデルと、予測モデルに関するモデル情報を表示する制御を行う制御部を備える。本技術は、例えば、機械学習による学習と予測を行う情報処理装置等に適用できる。

Description

情報処理装置、情報処理方法、および、プログラム
 本技術は、情報処理装置、情報処理方法、および、プログラムに関し、特に、学習の履歴を簡単に比較検討することができるようにした情報処理装置、情報処理方法、および、プログラムに関する。
 近年、機械学習が様々な分野に広く適用されてきている。例えば、不動産物件の取引(売買)の成約確率を機械学習で予測する技術などが提案されている(例えば、特許文献1参照)。
特開2017-16321号公報
 機械学習において、精度の高い予測モデルを構築するためには、学習データとして用いる項目や、予測モデル、モデルパラメータなどを調整し、学習と、学習により得られた予測モデルの評価とを複数回繰り返し行う必要がある。そのため、予測モデルを効率的に構築するためには、それまでの学習の履歴を簡単に比較検討できるツールが望まれる。
 本技術は、このような状況に鑑みてなされたものであり、学習の履歴を簡単に比較検討することができるようにするものである。
 本技術の一側面の情報処理装置は、機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う制御部を備える。
 本技術の一側面の情報処理方法は、情報処理装置が、機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う。
 本技術の一側面のプログラムは、コンピュータを、機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う制御部として機能させるためのものである。
 本技術の一側面においては、機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御が行われる。
 なお、本技術の一側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。このプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術を適用した予測システムの構成例を示すブロック図である。 学習用データセットの一例を示す図である。 履歴管理画面の構成例を示す図である。 新規モデル作成画面の構成例を示す図である。 新規モデルの詳細設定画面の構成例を示す図である。 エントリソート処理を説明するフローチャートである。 比較可能判定処理を説明するフローチャートである。 エントリソート処理後の履歴管理画面の構成例を示す図である。 ツリー表示ボタンが押下された場合の履歴管理画面の構成例を示す図である。 履歴表示領域のツリー形式表現のその他の例を示す図である。 履歴管理画面のその他の構成例を示す図である。 エントリ差分表示画面の構成例を示す図である。 サジェスト画面の構成例を示す図である。 サジェスト表示処理を説明するフローチャートである。 差分エントリの例を示す図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.予測システムのブロック図
2.履歴管理画面の構成例
3.新規モデル作成処理
4.エントリソート処理
5.ツリー表示処理
6.有意差の有無表示処理
7.エントリ差分表示の例
8.サジェスト機能の表示例
9.コンピュータ構成例
<1.予測システムのブロック図>
 図1は、本技術を適用した予測システムの構成例を示すブロック図である。
 図1の予測システム1は、予測アプリ11、操作部12、ストレージ13、および、ディスプレイ14を含み、機械学習による学習を行い、その結果得られた学習済みモデルを予測モデルとして用いて、所定の予測対象項目を予測するシステムである。
 予測システム1は、パーソナルコンピュータ、サーバ装置、スマートフォン等の一台の情報処理装置で構成されてもよいし、サーバクライアントシステムのように、インターネット、LAN(Local Area Network)等のネットワークを介して接続された複数の情報処理装置で構成されてもよい。
 予測アプリ11は、アプリケーションプログラムで構成され、例えば、パーソナルコンピュータ等のCPU(Central Processing Unit)により実行されることにより、学習部21、予測部22、および学習履歴管理部23を有する。学習部21、予測部22、および学習履歴管理部23のそれぞれは、操作部12から供給されるユーザの指示操作に基づいて所定の処理を実行する操作制御部としての機能と、学習結果や予測結果等の所定の情報をディスプレイ14に表示させる表示制御部としての機能を備える。
 操作部12は、例えば、キーボード、マウス、スイッチ、タッチパネル等で構成され、ユーザの指示操作を受け付け、予測アプリ11に供給する。
 ストレージ13は、例えば、ハードディスク、半導体メモリ等の記録媒体を有するデータ記憶部であり、学習および予測に必要なデータセットやアプリケーションプログラムなどを記憶する。ストレージ13は、データセットとして、学習のための学習用データセット、学習により得られた予測モデルを評価するための評価用データセット、および、学習により得られた予測モデルを用いて予測を行うための予測用データセットを記憶する。
 図2は、学習用データセットの一例を示している。
 図2は、個人に融資を行う際の与信審査のため、個人の経歴や資産から債務不履行となる確率を予測する予測モデルの学習に用いられる学習用データセットの一部を示している。
 図2の学習用データセットは、データ項目(特徴量)として、ID、年齢、職種、最終学歴、教育年数、結婚歴、職業、家族構成、人種、性別、キャピタルゲイン、キャピタルロス、週間労働時間、出身国、および、Label(ラベル)を有している。学習用データセットの最後の項目であるLabel(ラベル)は、予測対象項目の既知の答えであり、yesは、その個人が融資を完済したことを表し、noは、その個人が債務不履行であったことを表す。
 図1に戻り、ディスプレイ14は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示デバイスであり、予測アプリ11から供給された画像を表示させる。例えば、ディスプレイ14は、学習時のパラメータ設定画面や予測結果などを表示する。
 予測アプリ11の学習部21は、ストレージ13に記憶されている学習用データセットを用いて、所定の学習モデルによる学習処理(機械学習)を実行する。学習処理によって得られた学習済みモデルが、予測部22において、所定の予測対象項目を予測する予測モデルとして使用される。学習部21は、例えば、学習モデル(予測モデル)として、ロジスティック回帰、ニューラルネット、ランダムフォレストを有し、ユーザの指示操作に応じて所定の学習モデルを選択して学習処理を行う。また、学習部21は、予測対象項目の答えが既知である評価用データセットを用いて、学習処理によって得られた学習モデルの精度(予測精度)を評価する評価処理も行う。
 予測部22は、学習部21による学習処理によって得られた学習済みモデルである予測モデルを用いて予測処理を実行し、所定の予測対象項目を予測する。予測処理には、ストレージ13に記憶されている予測用データセットが用いられる。
 学習履歴管理部23は、学習部21によって実行された複数回の学習処理の履歴を管理する。すなわち、機械学習では、学習処理と、学習処理により得られた学習モデルの評価とを複数回繰り返し実行することにより、精度の高い学習モデルが構築される。例えば、複数の学習処理を行う際に、学習データとして用いるデータ項目や、学習モデル、正則化項の係数などの学習パラメータ、予測対象項目などが、適宜変更され、予測精度の向上が見られるか否かが検証される。また、学習用データセットを更新(拡充)し、再度、学習モデルを再計算する場合もある。学習履歴管理部23は、学習部21によって実行された複数回の学習処理の詳細、例えば、各学習処理におけるデータセットや学習モデルの違い、精度評価指標の値などをユーザに分かり易く提示する。なお、本実施の形態において、学習処理または学習といった場合にも、その後に実行される精度評価も含むものとする。また、学習履歴管理部23は、過去の学習処理で生成された複数の学習モデルどうしの比較や、過去に実行された複数の学習処理に基づいて、より望ましいと推測される学習モデルの提案なども行う。
 予測アプリ11は、学習履歴管理部23が実行する学習履歴の管理機能に大きな特徴を有している。そこで、以下では、学習部21による学習処理および予測部22による予測処理の詳細は省略し、学習履歴管理部23の機能について詳しく説明する。学習部21による学習処理および予測部22による予測処理は、一般的な手法によって、適切に実行されているものとする。
<2.履歴管理画面の構成例>
 図3は、学習履歴管理部23によってディスプレイ14に表示される履歴管理画面の構成例を示している。
 学習履歴管理部23は、予測アプリ11において学習履歴の管理機能が実行された場合、学習処理によって得られた学習済みモデルである複数の予測モデルと、その予測モデルに関するモデル情報を表示する図3の履歴管理画面41を生成し、ディスプレイ14に表示させる。
 図3の履歴管理画面41は、大きくは3つの領域に分類されており、具体的には、プロジェクト表示領域51、エントリ表示領域52、および、サマリ表示領域53に分けられる。
 プロジェクト表示領域51は、履歴管理画面41の上部に表示されている。そして、プロジェクト表示領域51の下側の領域を左右に二分し、左側にエントリ表示領域52が配置され、右側にサマリ表示領域53が配置されている。
 学習履歴管理部23は、学習の履歴をプロジェクト単位に管理する。プロジェクト表示領域51は、履歴管理画面41が表示している現在のプロジェクトを表示する。図3の例では、プロジェクト表示領域51には“ProjectA”が表示されており、プロジェクト表示領域51は、“ProjectA”という名称のプロジェクトを表示していることを示している。以下では、“ProjectA”は、図2に示したようなデータ例のデータセットを用いて、債務不履行となる確率を予測する予測モデルを学習及び予測するプロジェクトであるとする。
 エントリ表示領域52には、新規モデル作成ボタン61、ソートボタン62、ツリー表示ボタン63、および、サジェストボタン64の各ボタンと、表示されている現在のプロジェクト(図3の例では、“ProjectA”)で過去に実行された学習の履歴(リスト)を表示する履歴表示領域65とが配置されている。
 履歴表示領域65には、1回の学習に対して1つのエントリ66が生成され、表示される。図3の履歴表示領域65には、時系列に3つのエントリ66-1乃至66-3が表示されており、現在までに、3回の学習が実行されていることを示している。
 履歴表示領域65における複数のエントリ66の配列方法は、例えば、エントリ66が生成された順とすることができる。この場合、最も新しいエントリ66が、履歴表示領域65内の最上位に表示される。図3の例では、履歴表示領域65の3つのエントリ66-1乃至66-3のうち、エントリ66-3が最も新しく、エントリ66-1が最も古い。
 あるいはまた、履歴表示領域65における複数のエントリ66の配列方法は、例えば、予測精度の評価値の高い順とすることができる。この場合、予測精度の評価値が最も高いエントリ66が、履歴表示領域65内の最上位に表示される。図3の例では、履歴表示領域65の3つのエントリ66-1乃至66-3のうち、エントリ66-3の評価値が最も高く、エントリ66-1の評価値が最も低い。
 履歴表示領域65における複数のエントリ66の配列方法は、プルダウンリスト等を用いて、時系列順や、評価値の高い順など、複数のなかからユーザの指定に基づいて適宜変更できるようにしてもよい。
 履歴表示領域65内に表示される各エントリ66は、アイコン71、モデル名表示部72、精度表示部73、および、コメント表示部74を含む。アイコン71は、そのエントリ66で学習された予測モデルの予測値タイプを表す。アイコン71として表示されるマークは、後述する図5の新規モデルの詳細設定画面121の予測値タイプ設定部132に示されている3種類のマークに対応する。
 モデル名表示部72には、そのエントリ66の予測モデルの名前が表示される。モデル名表示部72に表示される名前は、図4の新規モデル作成画面101において、ユーザ入力によって決定される。精度表示部73には、そのエントリ66の予測モデルの予測精度の評価結果が表示される。予測精度の評価結果は、例えば、AUC(Area Under the Curve)である。コメント表示部74には、そのエントリ66の予測モデルに対するコメントが表示される。コメントは、図4の新規モデル作成画面101において、ユーザが入力した場合に表示される。
 履歴表示領域65内に表示されている複数のエントリ66のうち、マウス等によってユーザが選択したエントリ66(以下、選択エントリと称する。)が、色等で区別して表示される。そして、選択エントリに関する詳細な情報が、右側のサマリ表示領域53に表示される。図3の例では、3つのエントリ66-1乃至66-3のうち、真ん中のエントリ66-2が灰色で表示され、選択された状態を示している。選択エントリを表す表現方法は、図3のような灰色表示に限らず、任意の表示方法を採用することができる。
 新規モデル作成ボタン61は、新規の予測モデルを作成する際に押下されるボタンである。新規モデル作成ボタン61が押下されると、図4の新規モデル作成画面101が表示される。新規モデル作成ボタン61が押下された場合の処理については後述する。
 ソートボタン62は、履歴表示領域65内に表示される複数のエントリ66を、時系列順の表示から、予測精度の順でソートして表示する際に押下されるボタンである。ソートボタン62が押下されると、図6を参照して後述するエントリソート処理が実行される。
 ツリー表示ボタン63は、履歴表示領域65内の表示を、図3に示される、アイコン71、モデル名表示部72、精度表示部73、および、コメント表示部74を含む表示から、ツリー表示に変更する際に押下されるボタンである。ツリー表示ボタン63が押下されると、履歴表示領域65の表示が、図9を参照して後述するツリー表示に切り替えられる。
 サジェストボタン64は、サジェスト表示処理を実行する際に押下されるボタンである。サジェスト表示処理とは、過去に実行された複数の学習に基づいて、より望ましいと推測される予測モデルを、学習履歴管理部23がユーザに提案する処理である。サジェスト表示処理を実行する際には、履歴表示領域65に表示されている複数のエントリ66のなかから、いずれか1つをマウスで選択した後、サジェストボタン64が押下される。あるいはまた、複数のエントリ66のなかから、いずれか1つをマウスで選択し、マウスの右クリックで表示されるメニューから「サジェスト」を選択することによっても実行することができる。サジェスト表示処理の詳細については、図14等を参照して後述する。
 履歴管理画面41の右側のサマリ表示領域53には、コピー新規作成ボタン81、基本情報表示領域82、使用項目表示領域83、および、精度評価値表示領域84が含まれる。基本情報表示領域82、使用項目表示領域83、および、精度評価値表示領域84に表示される各項目は、予測モデルのモデル情報を特定する詳細項目である。
 コピー新規作成ボタン81は、エントリ表示領域52で現在選択されているエントリ66である選択エントリ(モデル名「model2 20180701」)をベースにして新たな予測モデルの学習設定を行う際に押下されるボタンである。コピー新規作成ボタン81の機能を利用することにより、選択エントリの学習設定を引き継いで、簡単に学習を行わせることができる。
 基本情報表示領域82には、選択エントリの基本情報が表示される。具体的には、予測値タイプ、予測ターゲット、学習データ、および、学習時間が表示される。予測値タイプには、学習設定で設定された予測値の種類が表示される。予測値タイプとしては、二値分類、多値分類、または、数値予測のいずれかを取り得る。予測ターゲットには、学習設定で設定された予測対象項目が表示される。学習データには、学習に使用されたデータセットのファイル名が表示される。学習時間には、学習処理にかかった時間が表示される。
 使用項目表示領域83には、選択エントリの予測モデルの学習データ(学習用データセット)に含まれているデータ項目と、その中で学習に使用されたデータ項目が表示される。使用項目表示領域83に表示されたデータ項目が、学習データに含まれているデータ項目を表し、実線の枠で囲まれたデータ項目が学習に使用されたデータ項目、破線の枠で囲まれたデータ項目が学習に使用されなかったデータ項目を表す。なお、データ項目の使用または非使用を表す表現方法は、これに限らず、例えば、色の違い等で表してもよい。
 精度評価値表示領域84には、選択エントリの予測モデルの予測精度の評価結果(評価値)が表示される。予測精度の評価指標としては、Precision(適合率)、Recall(再現率)、F-measure(F値)、Accuracy(全体正解率)、および、AUC(ROC曲線下面積)などが表示される。
 図3の履歴管理画面41では、学習済みの複数の予測モデルがエントリ表示領域52に表示され、そこで選択された所定の予測モデル(エントリ66)のモデル情報がサマリ表示領域53に表示される。これにより、ユーザは、学習の履歴を簡単に比較検討することができる。
<3.新規モデル作成処理>
 次に、図3の履歴管理画面41において新規モデル作成ボタン61が押下された場合に実行される新規モデル作成処理について説明する。
 図4は、新規モデル作成ボタン61が押下された場合に表示される新規モデル作成画面の例を示している。
 図4の新規モデル作成画面101は、新規に作成する予測モデル(学習モデル)のモデル名および説明用コメントの入力と、学習データの指定を行うことができる。テキストボックス111には、新規に作成する予測モデルのモデル名が入力される。テキストボックス111に入力された名称が、履歴管理画面41のモデル名表示部72に表示される。テキストボックス112には、新規に作成する予測モデルについての説明文が入力される。テキストボックス112に入力された説明文が、履歴管理画面41のコメント表示部74に表示される。ファイル設定部113には、学習データとして使用するファイルのファイル名が入力される。ファイルの入力には、ファイルを参照するダイアログを表示して、そのダイアログから、学習データとして使用するファイルを指定することができる。
 決定ボタン114の押下により、図5に示される新規モデルの詳細設定画面121が表示される。キャンセルボタン115の押下により、新規モデル作成処理がキャンセル(中止)される。
 図5は、図4の新規モデル作成画面101において決定ボタン114が押下された場合に表示される新規モデルの詳細設定画面の例を示している。
 図5の新規モデルの詳細設定画面121は、予測ターゲット設定部131、予測値タイプ設定部132、モデルタイプ設定部133、学習データ設定部134、データ項目設定部135、学習評価実行ボタン136、および、キャンセルボタン137を含む。
 予測ターゲット設定部131では、ユーザは、プルダウンリストを用いて、予測ターゲットを設定することができる。予測ターゲットとは、学習データに含まれるデータ項目のうち、予測対象とするデータ項目を表す。プルダウンリストには、図4の新規モデル作成画面101のファイル設定部113で指定した学習データに含まれるデータ項目が表示される。図5のプルダウンリストでは、図2に示した学習用データセットの例のうち、Labelが予測対象項目として選択されている。
 予測値タイプ設定部132では、予測対象項目の予測値の種類として、二値分類、多値分類、または、数値予測のいずれかを設定することができる。3種類のマークは、図3の履歴管理画面41のエントリ表示領域52に表示される各エントリ66のアイコン71と対応する。ユーザは、二値分類、多値分類、または、数値予測のいずれかのマークを選択することで、予測値タイプを設定する。
 モデルタイプ設定部133では、学習に用いる予測モデル(学習モデル)のモデルタイプをラジオボタンにより選択することができる。予測モデルのモデルタイプとしては、ロジスティック回帰、ニューラルネット、ランダムフォレストのいずれかを選択することができる。また、過学習を防止するための正規化項の係数も設定することができる。
 学習データ設定部134には、図4の新規モデル作成画面101のファイル設定部113において学習データとして指定されたファイルが表示される。変更ボタン138を押下することによりファイル参照ダイアログが表示され、必要に応じて、ファイルを変更することも可能である。予測モデルの学習が終了した後に実行される予測精度の評価処理には、例えば、学習データの一部が、評価用データ(評価用データセット)として分割されて、利用される。
 データ項目設定部135には、学習データとして指定された学習用データセットに含まれる全てのデータ項目が表示される。ユーザは、表示された全てのデータ項目のなかから、学習データに使用するデータ項目のチェックボックスをオンすることにより、学習データに使用するデータ項目を指定する。なお、予測ターゲット設定部131で予測対象項目として選択されたデータ項目は指定できないように構成されている。
 学習評価実行ボタン136は、学習処理および精度評価処理を開始する際に押下される。キャンセルボタン137は、新規モデル作成処理をキャンセル(中止)する際に押下される。
 図3の履歴管理画面41において新規モデル作成ボタン61が押下された場合、図4の新規モデル作成画面101と図5の新規モデルの詳細設定画面121とにより必要な設定項目が順次決定され、学習評価実行ボタン136の押下により、学習処理および予測精度評価処理が実行される。
<4.エントリソート処理>
 次に、図3の履歴管理画面41においてソートボタン62が押下された場合に実行されるエントリソート処理について、図6および図7を参照して説明する。
 図3の履歴管理画面41においてソートボタン62が押下された場合、学習履歴管理部23は、図6のフローチャートに示されるエントリソート処理を実行し、履歴表示領域65の複数のエントリ66の表示を変更する。
 図6のエントリソート処理では、初めに、ステップS11において、学習履歴管理部23は、現在のプロジェクト“ProjectA”に含まれる全てのエントリに対して、予測値タイプと予測ターゲットが同じエントリでグループを作成する。したがって、グループの作成において学習データの違いは無視される。
 ステップS12において、学習履歴管理部23は、作成された1以上のグループのうち、所定の2つのグループを選択してグループのペアを形成し、形成したペアのグループどうしの比較が可能か否かの判定を行う比較可能判定処理を実行する。また、学習履歴管理部23は、グループのペアの全ての組合せについて、比較が可能か否かの判定を行う比較可能判定処理を実行する。
 ここで、ステップS12で、形成されたグループのペアに対して実行される比較可能判定処理について、図7のフローチャートを参照して説明する。予測値タイプと予測ターゲットが同じエントリは1つのグループを構成しているので、ペアが形成された2つのグループは、予測値タイプと予測ターゲットのどちらか一方が少なくとも異なるエントリの集合となっている。
 ステップS31において、学習履歴管理部23は、ペアが形成された2つのグループは予測ターゲットが異なるかを判定する。ステップS31で、ペアが形成された2つのグループの予測ターゲットが異ならない、すなわち、2つのグループの予測ターゲットが同じである、と判定された場合、処理は後述するステップS36に進む。
 一方、ステップS31で、ペアが形成された2つのグループの予測ターゲットが異なると判定された場合、処理はステップS32に進み、学習履歴管理部23は、2つのグループの予測ターゲットの少なくとも一方が数値であるかを判定する。
 ステップS32で、2つのグループの予測ターゲットの少なくとも一方が数値であると判定された場合、処理はステップS33に進む。一方、2つのグループの予測ターゲットの両方とも数値ではない、すなわち、2つのグループの予測ターゲットの両方がカテゴリカル化されていると判定された場合、処理はステップS37に進む。
 ステップS32で、予測ターゲットの少なくとも一方が数値であると判定された場合の次の処理であるステップS33では、学習履歴管理部23は、2つのグループそれぞれについて、グループ内の各エントリの予測ターゲットの統計量を、使用した学習データから算出する。ここで算出される予測ターゲットの統計量は、例えば、平均値、中央値、標準偏差、最大値、最小値などである。
 次に、ステップS34において、学習履歴管理部23は、2つのグループそれぞれについて、グループ内のエントリ全体の予測ターゲットの各統計量の平均値を算出する。すなわち、ステップS33で算出された各エントリの予測ターゲットの各統計量のグループとしての平均値が計算される。例えば、グループ内の各エントリの予測ターゲットの平均値を、グループ全体でさらに平均した値が計算される。中央値、標準偏差、最大値、最小値などのその他の統計量についても同様である。
 そして、ステップS35において、学習履歴管理部23は、2つのグループの各統計量の平均値の差分が所定値以下であるかを判定する。ステップS35で、2つのグループの各統計量の平均値の差分が所定値以下であると判定された場合、処理はステップS36に進む。一方、ステップS35で、2つのグループの各統計量の平均値の差分が所定値より大きいと判定された場合、処理はステップS38に進む。
 一方、上述したステップS32で、2つのグループの予測ターゲットの両方がカテゴリカル化されていると判定された場合の次の処理であるステップS37では、学習履歴管理部23は、2つのグループの予測ターゲットの取り得る値に共通部分があるかを判定する。ステップS37で、2つのグループの予測ターゲットの取り得る値に共通部分があると判定された場合、処理はステップS36に進む。一方、ステップS37で、2つのグループの予測ターゲットの取り得る値に共通部分がないと判定された場合、処理はステップS38に進む。
 ステップS36において、学習履歴管理部23は、ペアが形成された2つのグループは比較可能であると判定して、比較可能判定処理を終了する。ステップS36の処理は、ステップS31で、ペアが形成された2つのグループの予測ターゲットが同じである、と判定された場合、ステップS35で、2つのグループの各統計量の平均値の差分が所定値以下であると判定された場合、または、ステップS37で、2つのグループの予測ターゲットの取り得る値に共通部分があると判定された場合に実行される。したがって、ペアが形成された2つのグループの予測ターゲットが同じである場合、2つのグループの各統計量の平均値の差分が所定値以下である場合、または、予測ターゲットがカテゴリカルである2つのグループの予測ターゲットの取り得る値に共通部分がある場合に、ペアが形成された2つのグループどうしは比較可能であると判定される。
 これに対して、ステップS38において、学習履歴管理部23は、ペアが形成された2つのグループは比較不可能であると判定して、比較可能判定処理を終了する。ステップS38の処理は、ステップS35で、2つのグループの各統計量の平均値の差分が所定値より大きいと判定された場合と、ステップS37で、2つのグループの予測ターゲットの取り得る値に共通部分がないと判定された場合に実行される。したがって、2つのグループの各統計量の平均値の差分が所定値より大きいと判定された場合、または、2つのグループの予測ターゲットの取り得る値に共通部分がないと判定された場合に、ペアが形成された2つのグループは比較不可能であると判定される。
 図6のフローチャートの説明に戻り、ステップS12では、図7を参照して説明した比較可能判定処理が、グループのペアの全ての組合せについて実行される。
 予測ターゲットが数値であり、予測値タイプが数値予測である学習設定を、多値分類の予測値タイプとして学習する場合がある。例えば、0乃至50の範囲の値を取り得る予測ターゲットを、0乃至10、11乃至20、21乃至30、31乃至40、および、41乃至50の5つに分類した多値分類として学習する場合などである。そのように予測値タイプが異なる場合であっても、0乃至10、11乃至20、21乃至30、31乃至40、および、41乃至50の5つにカテゴリの中央値で数値予測したとして、数値予測の指標で評価値を算出することができるので、比較可能判定処理によれば、比較可能と判定することができる。
 また、同じ予測ターゲットでも、予測対象の抽象度が変わる場合がある。例えば、予測ターゲットが、契約を「継続」するか「離脱」するかの予測をするような場合、「継続」または「離脱」の2値分類とすることもできるし、「継続」、「契約満了」、または、「途中解約」の3値分類とすることもできる。そのように予測対象の抽象度(カテゴリ数)が変わる場合、共通する値(上述の例では「継続」)か、それ以外か、という2値分類として評価値を算出することができるので、比較可能判定処理によれば、比較可能と判定することができる。
 図6のステップS12の後、ステップS13において、学習履歴管理部23は、比較可能と判定されたグループどうしを結合する。
 ステップS14において、学習履歴管理部23は、グループごとに、予測精度の高い順でグループ内のエントリをソートする。
 ステップS15において、学習履歴管理部23は、エントリ数(予測モデルのモデル数)の多いグループの順番で、各グループのソート結果を連結して、図3の履歴管理画面41のエントリ表示領域52に表示して、エントリソート処理を終了する。
 図8は、エントリソート処理が実行された後の履歴管理画面の例を示している。
 図8の履歴管理画面では、履歴表示領域65に、5個のエントリ66-1乃至66-5が表示されており、予測精度の評価値の高い順に、エントリ66-1乃至66-5が表示されている。
 履歴表示領域65に表示されている5個のエントリ66-1乃至66-5のうち、エントリ66-1、66-3、および、66-5のアイコン71は、二値分類のものとなっており、エントリ66-2、および、66-4のアイコン71は、多値分類のものとなっている。したがって、図8の履歴管理画面は、予測値タイプが異なる複数のエントリをソートした結果の画面となっている。
 図8の例では、5個のエントリ66-1乃至66-5のうち、エントリ66-2がユーザによって選択された選択エントリとなっており、エントリ66-2に関する詳細な情報が、右側のサマリ表示領域53に表示されている。
 エントリソート処理によれば、予測ターゲットと予測値タイプが同一であって、学習データが異なるエントリは、同一のグループとしてエントリが並べられて表示される。また、予測ターゲットが異なり、グループも異なるエントリは、エントリ数の多いグループの順番で、かつ、同一グループ内については予測精度の高い順で、エントリ表示領域52に表示される。
 なお、エントリソート処理では、予測値タイプごとの評価値を全ての予測値タイプに共通な評価指標、例えば、5段階評価などに変換して、共通評価値に応じたソート表示をしてもよい。この場合、全てのエントリが共通の評価指標で比較が可能となるので、ステップS12の比較可能判定処理や、ステップS13の比較可能なグループどうしを結合する結合処理は省略することができる。
<5.ツリー表示処理>
 次に、図3の履歴管理画面41においてツリー表示ボタン63が押下された場合に実行されるツリー表示処理について、図9および図10を参照して説明する。
 ツリー表示ボタン63が押下された場合、学習履歴管理部23は、図3に示した履歴管理画面41の履歴表示領域65をツリー形式表現に変更する。
 図9は、ツリー表示ボタン63が押下された場合の履歴管理画面の例を示している。
 図9の履歴管理画面41は、履歴表示領域65のみが図3の履歴管理画面41と異なる。そのため、履歴管理画面41の履歴表示領域65以外の説明は省略する。
 履歴表示領域65は、各エントリ66を丸(○)のノード161で表し、ノード161どうしを、実線のノード接続線162で接続したノード表現形式で表示されている。丸のノード161内には、エントリ66の予測モデルの名前と対応する文字、例えば、エントリ66の予測モデルの名前を2文字の文字で簡略化して表した文字が表示される。実線のノード接続線162の矢印は、ノード161のエントリ66が生成された時系列に対応する。図9の例では、予測モデル“m1”(予測モデルmode1)のノード161-1から、予測モデル“m2”(予測モデルmode2)のノード161-2へ、実線のノード接続線162-1が接続され、予測モデル“m2”(予測モデルmode2)のノード161-2から、予測モデル“m3”(予測モデルmode3)のノード161-3へ、実線のノード接続線162-2が接続されている。これは、予測モデル“m1”(予測モデルmode1)、予測モデル“m2”(予測モデルmode2)、予測モデル“m3”(予測モデルmode3)の時間順で、エントリ66が生成されたことを表している。
 また、図9のツリー形式表現では、予測モデル“m2”のノード161-2が灰色で表示され、選択された状態を示している。非選択の予測モデル“m1”および“m3”のノード161-1および161-3は白色で表示されている。
 さらに、図9のツリー形式表現では、予測モデル“m3”のノード161-3から、予測モデル“m1”のノード161-1へ、破線のコピーノード接続線163が表示されている。この破線のコピーノード接続線163は、接続元のノード161-3の予測モデル“m3”のエントリ66が、接続先のノード161-1の予測モデル“m1”のエントリ66を基に生成されたことを表している。換言すれば、ユーザが、接続先のノード161-1の予測モデル“m1” のエントリ66を選択エントリとしている状態で、コピー新規作成ボタン81を押下して新たな予測モデルの学習を行った場合に、このような破線のコピーノード接続線163が表示される。
 以上のように、ツリー表示ボタン63が押下された場合に、履歴表示領域65に表示されるツリー形式表現によれば、同一プロジェクト内の各エントリ66の実行順や、コピー新規作成ボタン81を押下して新たな予測モデルの学習を行った場合の作成元のエントリ66を、視覚的に容易に認識することができる。
 履歴表示領域65のツリー形式表現は、図9で説明した表現形式の他、図10のAまたはBのような表現形式で表示することも可能である。
 図10のAおよびBは、ツリー表示ボタン63が押下された場合の履歴表示領域65のツリー形式表現のその他の例を示している。
 図10のAおよびBのツリー形式表現は、コピー新規作成ボタン81を押下して新たな予測モデルの学習設定を行った場合のコピー元とコピー先を接続する表現形式が図9と異なる。
 図9では、コピー元とコピー先のエントリ66のノード161が破線の矢印(コピーノード接続線163)で接続されていた。これに対して、図10のAでは、コピー先のエントリ66のノード161が、コピー元のエントリ66のノード161の右横に配置され、実線のコピーノード接続線164で接続されている。
 図10のAにおいて、予測モデル“m21”のノード161-21は、予測モデル“m2”のノード161-2の右横に配置され、実線のコピーノード接続線164-1で接続されている。これは、予測モデル“m21”のノード161-21が、予測モデル“m2”のノード161-2を基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 また、予測モデル“m11”のノード161-11は、予測モデル“m3”のノード161-3の右横に配置され、実線のコピーノード接続線164-2で接続されている。これは、予測モデル“m11”のノード161-11が、予測モデル“m3”のノード161-3を基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 また、予測モデル“m12”のノード161-12は、予測モデル“m3”のノード161-3の右横で、さらに、予測モデル“m11”のノード161-11の右横に配置され、予測モデル“m11”のノード161-11と実線のコピーノード接続線164-3で接続されている。これは、予測モデル“m12”のノード161-12が、予測モデル“m3”のノード161-3または予測モデル“m11”のノード161-11のどちらかを基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 これに対して、図10のBでは、予測モデル“m21”のノード161-21は、予測モデル“m2”のノード161-2から右横に引き出され、上に折り曲げられたL字状の実線のコピーノード接続線165-1で接続されている。これは、予測モデル“m21”のノード161-21が、予測モデル“m2”のノード161-2を基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 また、予測モデル“m22”のノード161-22も、予測モデル“m2”のノード161-2から右横に引き出され、予測モデル“m21”のノード161-21よりも右側で上に折り曲げられたL字状の実線のコピーノード接続線165-2で接続されている。これは、予測モデル“m22”のノード161-22が、予測モデル“m2”のノード161-2を基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 さらに、図10のBでは、予測モデル“m11”のノード161-11は、予測モデル“m3”のノード161-3から右横に引き出され、上に折り曲げられたL字状の実線のコピーノード接続線165-3で接続されている。これは、予測モデル“m11”のノード161-11が、予測モデル“m3”のノード161-3を基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 また、予測モデル“m12”のノード161-12が、予測モデル“m11”のノード161-11の上に配置され、実線のコピーノード接続線165-4で接続されている。これは、予測モデル“m12”のノード161-12が、予測モデル“m11”のノード161-11を基としてコピー新規作成ボタン81を押下し、新たな予測モデルの学習を行ったエントリ66であることを表している。
 図10のAおよびBで示したツリー形式表現を採用した場合でも、同一プロジェクト内の各エントリ66の実行順や、コピー新規作成ボタン81を押下して新たな予測モデルの学習を行った場合の作成元のエントリ66を、視覚的に容易に認識することができる。
 また、既存の予測モデルをコピーして作成したエントリ66と、既存の予測モデルをコピーしないで作成したエントリ66とを区別したツリー形式表現とすることで、既存の予測モデルをコピーして作成したエントリ66を分かり易く表示することができる。
<6.有意差の有無表示処理>
 図11は、図3に示した履歴管理画面のその他の構成例を示している。
 図11の履歴管理画面41は、図3に示した履歴管理画面41から、さらに、2つのエントリ66-4および66-5が追加されている。
 図11の履歴管理画面41の履歴表示領域65において、予測精度が最も高いエントリ66-5と、その次に予測精度が高いエントリ66-4のそれぞれの予測精度の評価値に、枠(四角の囲み)が表示されている。
 この予測精度の評価値を囲む枠は、予測精度が最も高いエントリ66-5の予測精度の評価値に対し、予測精度が次に高いエントリ66-4が、統計的に有意差が無いことを表している。このように、学習履歴管理部23は、予測精度が最も高いエントリ66と統計的に有意差が無いエントリ66が存在する場合、それらの予測精度の評価値を、予測精度が最も高いエントリ66の予測精度の評価値と同様の強調表示を行う。なお、統計的に有意差が無いことを表す強調表示の方法は、図11のような囲みの表示に限られない。例えば、他のエントリ66の予測精度の評価値と異なる色を用いて、同色で表示してもよい。
 複数のエントリ66の有意差の有無を判定するためには、エントリ66ごとに評価値が複数回計算され、エントリ66ごとの複数回の評価値の平均値と標準偏差が算出されている必要がある。学習履歴管理部23は、エントリ66の評価値が複数回計算され、平均値と標準偏差が算出可能である場合に、エントリ66単位で評価値の平均値と標準偏差を予め計算し、記憶しておく。そして、学習履歴管理部23は、履歴表示領域65を予測精度の評価値の高い順で表示する場合に、予測精度が最も高いエントリ66と、その次に予測精度が高いエントリ66とで有意差の有無を判定する。2番目に予測精度が高いエントリ66と有意差が無いと判定された場合、3番目に予測精度が高いエントリ66について、有意差の有無が判定される。そして、最上位のエントリ66との有意差が有ると判定されるまで、それより下位のエントリ66との有意差の有無が判定される。あるいはまた、履歴管理画面41の履歴表示領域65を、評価値の高い順に表示する場合に、最上位のエントリ66が確定した時点で、最上位のエントリ66と、それより下位のエントリ66との有意差を判定してもよい。
 このように、学習履歴管理部23が、最上位のエントリ66に対する有意差の有無を表示することにより、ユーザは、有意差の無い複数のエントリ66を把握し、比較することができる。
<7.エントリ差分表示の例>
 学習履歴管理部23は、2つのエントリ66に対応する予測モデルのモデル情報の差分を表示して、2つの予測モデルを簡単に比較するエントリ差分表示機能を備える。
 例えば、ユーザは、図3の履歴管理画面41のエントリ表示領域52に表示された複数のエントリ66のなかから、コントロールボタン等を押下しながら2つのエントリ66を選択し、マウスの右クリックで表示されるメニューから「差分エントリ」を選択する。すると、学習履歴管理部23は、図12のエントリ差分表示画面を表示する。あるいはまた、図9の履歴管理画面41のエントリ表示領域52に表示された複数のノード161のなかから、コントロールボタン等を押下しながら2つのノード161を選択し、マウスの右クリックで表示されるメニューから「差分エントリ」を選択することでも同様に、図12のエントリ差分表示画面を表示することができる。
 図12は、エントリ差分表示画面の構成例を示している。
 エントリ差分表示画面では、選択された2つのエントリ66の異なる項目が容易に分かるように、異なる項目が強調表示される。項目が異なるか否か検討される項目は、図3の履歴管理画面41のサマリ表示領域53にモデル情報として表示される各項目である。
 学習履歴管理部23は、選択された2つのエントリ66の一方(例えば、先に選択されたエントリ66)を差分元エントリ、他方(例えば、後に選択されたエントリ66)を差分先エントリとして、図12のエントリ差分表示画面181の左側に、差分元エントリの各項目を表示する。そして、差分元エントリの各項目に対して、差分先エントリの項目が異なる場合に、その項目の右側に矢印と、差分先エントリの異なる項目の具体的な値が表示される。
 図12のエントリ差分表示画面181の例では、差分元エントリと差分先エントリでは、学習時間、予測モデルのモデルタイプ、データの使用項目、Precision、Recall、F-measure、Accuracy、および、AUCが異なることが表されている。
 具体的には、学習時間については、差分元エントリが“03:01:21 h”であるのに対して、差分先エントリは、“01:44:11 h”であることが表示されている。予測モデルのモデルタイプについては、差分元エントリが“ニューラルネット”であるのに対して、差分先エントリは、“ランダムフォレスト”であることが表示されている。
 データの使用項目については、差分元エントリにあって差分先エントリにないデータ項目が太実線で表され、差分元エントリになくて差分先エントリにあるデータ項目が太破線で表されている。具体的には、データ項目“教育年数”が差分元エントリにあって差分先エントリになく、データ項目“家族構成”が差分元エントリになくて差分先エントリにあることが表示されている。
 予測精度の評価値については、差分元エントリのPrecision、Recall、F-measure、Accuracy、および、AUCが、それぞれ、“0.72”、“0.42”、“0.51”、“0.75”、“0.71”であるのに対して、差分先エントリのPrecision、Recall、F-measure、Accuracy、および、AUCが、それぞれ、“0.74”、“0.47”、“0.55”、“0.77”、“0.74”であることが表示されている。
 評価値の比較では、差分元エントリと差分先エントリとで、評価値が改善している場合を赤色、評価値が悪化している場合を青色で表示するなど、改善と悪化で色を変えて分かり易くしてもよい。
 図12のエントリ差分表示画面181を表示するエントリ差分表示機能により、ユーザは、所望の2つのエントリ66の違いを容易に比較し、検討することができる。
<8.サジェスト機能の表示例>
 学習履歴管理部23は、所定のエントリ66を選択し、その選択されたエントリ66(選択エントリ)よりも予測精度が改善されると思われる学習設定を提案するサジェスト機能を備える。サジェスト機能は、図3または図9の履歴管理画面41においてエントリ表示領域52に表示されているエントリ66またはノード161の1つをマウス等で選択し、サジェストボタン64の押下、または、マウスの右クリックで表示されるメニューから「サジェスト」を選択することによって、実行される。
 図13は、サジェスト機能が実行された場合に表示されるサジェスト画面の例を示している。
 なお、以下のサジェスト機能の説明では、予測モデルの予測値タイプが2値分類である場合について説明する。
 図13のサジェスト画面201には、予測モデルのモデルタイプ、未使用提案項目、追加使用提案項目の各項目について、選択エントリよりも予測精度が改善されると思われる学習設定が表示されている。また、サジェスト画面201には、予測精度の改善が見込まれる度合いとして、評価値の増加分も表示されている。なお、図13の例では、評価指標としてAUCが表示されているが、その他の評価指標を表示してもよい。
 図13のサジェスト画面201では、学習履歴管理部23は、予測モデルに関しては、予測モデルのモデルタイプを“ニューラルネット”とし、正規化項の係数を“0.02”とすることを示している。
 また、学習履歴管理部23は、未使用提案項目に関しては、選択エントリで使用しているデータ項目のうち、“結婚歴”、“家族構成”、および、“人種”のデータ項目を使用しない方がよいことを示している。
 さらに、学習履歴管理部23は、追加使用提案項目に関しては、選択エントリで使用しているデータ項目に対して、“性別”のデータ項目を追加した方がよいことを示している。
 そして、学習履歴管理部23は、AUC増加分に関しては、上述のような予測モデルの変更を行うと、AUCの評価値を0.25だけ増加できることを示している。
 図14のフローチャートを参照して、図13のサジェスト画面201のようなサジェスト表示を行うサジェスト表示処理について説明する。この処理は、上述したように、所定のエントリ66を選択した後、サジェストボタン64の押下、または、マウスの右クリックで表示されるメニューから「サジェスト」を選択することによって、実行される。
 初めに、ステップS71において、学習履歴管理部23は、現在のプロジェクト“ProjectA”に含まれる全てのエントリ66のなかから、2つのエントリ66を選択して、エントリ66のペアを作成し、差分エントリを作成する。
 学習履歴管理部23は、差分エントリを、次のようにして作成する。
 まず、作成したエントリ66のペアのうち、予測精度の評価値の小さい方が差分元エントリ、大きい方が差分先エントリに決定される。
 そして、差分元エントリと差分先エントリそれぞれの予測モデルのモデルタイプと正則化項の係数が差分エントリに登録される。また、差分元エントリは使用しているが、差分先エントリは使用していないデータ項目が未使用項目として差分エントリに登録される。さらに、差分元エントリは使用していないが、差分先エントリは使用しているデータ項目が追加使用項目として差分エントリに登録される。また、差分元エントリから差分先エントリへの予測精度の評価値の増加分が計算され、差分エントリに登録される。
 図15は、所定の1つのエントリ66のペアについて作成された差分エントリの例を示している。
 図15の差分エントリの差分元エントリと差分先エントリそれぞれの予測モデルのモデルタイプは“ニューラルネット”であり、正則化項の係数は“0.02”である。また、差分エントリの未使用項目は“結婚歴”、“家族構成”、および、“人種”であり、追加使用項目は“性別”であり、AUC増加分は“0.25”である。
 図14のフローチャートに戻り、ステップS71の後、処理はステップS72に進み、学習履歴管理部23は、現在のプロジェクト“ProjectA”に含まれる全てのエントリ66のペアについて差分エントリを作成したかを判定する。
 ステップS72で、全てのエントリ66のペアについて差分エントリをまだ作成していないと判定された場合、処理はステップS71に戻り、別の差分エントリが作成される。
 そして、ステップS71およびS72の処理が所定数繰り返され、ステップS72で、全てのエントリ66のペアについて差分エントリを作成したと判定された場合、処理はステップS73に進む。
 ステップS73において、学習履歴管理部23は、作成された複数の差分エントリのなかから、1つの差分エントリを選択して、処理をステップS74に進める。
 ステップS74において、学習履歴管理部23は、選択した差分エントリの差分元の予測モデルのモデルタイプが、選択エントリの予測モデルのモデルタイプと一致するかを判定する。ここで、選択エントリとは、サジェストボタン64の押下、または、マウスの右クリックで表示されるメニューから「サジェスト」を選択する前にユーザが選択したエントリ66を表す。
 ステップS74で、選択した差分エントリの差分元の予測モデルのモデルタイプが、選択エントリの予測モデルのモデルタイプと一致すると判定された場合、処理はステップS75に進み、学習履歴管理部23は、選択した差分エントリをサジェストする差分エントリの候補であるサジェスト候補に設定して、処理をステップS78に進める。
 一方、ステップS74で、選択した差分エントリの差分元の予測モデルのモデルタイプが、選択エントリの予測モデルのモデルタイプと一致しないと判定された場合、処理はステップS76に進み、学習履歴管理部23は、選択した差分エントリの未使用項目を、選択エントリが使用しているかを判定する。
 ステップS76で、選択した差分エントリの未使用項目を、選択エントリが使用していると判定された場合、処理はステップS75に進み、学習履歴管理部23は、選択した差分エントリをサジェストする差分エントリの候補であるサジェスト候補に設定して、処理をステップS78に進める。
 一方、ステップS76で、選択した差分エントリの未使用項目を、選択エントリが使用していないと判定された場合、処理はステップS77に進み、学習履歴管理部23は、選択した差分エントリの追加使用項目を、選択エントリが使用しているかを判定する。
 ステップS77で、選択した差分エントリの追加使用項目を、選択エントリが使用していると判定された場合、処理はステップS75に進み、学習履歴管理部23は、選択した差分エントリをサジェストする差分エントリの候補であるサジェスト候補に設定して、処理をステップS78に進める。
 一方、ステップS77で、選択した差分エントリの追加使用項目を、選択エントリが使用していないと判定された場合、処理はステップS78に進む。
 したがって、ステップS74乃至S77の処理により、学習履歴管理部23は、以下の条件(1)乃至(3)のいずれか1つが少なくとも成立する場合に、いま選択している差分エントリを、サジェスト候補に設定する。
(1)選択した差分エントリの差分元の予測モデルのモデルタイプが、選択エントリの予測モデルのモデルタイプと一致する
(2)選択した差分エントリの未使用項目を、選択エントリが使用している
(3)選択した差分エントリの追加使用項目を、選択エントリが使用している
 そして、ステップS78において、学習履歴管理部23は、作成した全ての差分エントリを選択したかを判定する。ステップS78で、まだ全ての差分エントリを選択していないと判定された場合、処理がステップS73に戻され、次の差分エントリが選択される。そして、上述したステップS74乃至S78が実行される。
 一方、ステップS78で、全ての差分エントリを選択したと判定された場合、処理はステップS79に進み、学習履歴管理部23は、サジェスト候補に設定された差分エントリのなかで、AUC増加分が最も大きい差分エントリを、サジェストする差分エントリに決定し、図13のようなサジェスト画面201を生成して表示させ、サジェスト表示処理を終了する。
 以上のように、サジェスト表示処理では、現在のプロジェクトに含まれる全てのエントリ66から差分エントリを生成して、2つのエントリの差分を分析することにより、選択エントリよりも予測精度が改善されると思われる学習設定が表示される。
 ステップS74乃至S77の判定のうち、条件(1)が成立している場合、サジェストする差分エントリの差分先エントリの予測モデルのモデルタイプと正則化項の係数が、図13に示したサジェスト画面201の予測モデルの部分に表示される。
 ステップS74乃至S77の判定のうち、条件(2)が成立している場合、サジェストする差分エントリの未使用項目のデータ項目が、図13に示したサジェスト画面201の未使用提案項目の部分に表示される。
 ステップS74乃至S77の判定のうち、条件(3)が成立している場合、サジェストする差分エントリの追加使用項目のデータ項目が、図13に示したサジェスト画面201の追加使用提案項目の部分に表示される。
 そして、サジェストする差分エントリのAUC増加分が、図13に示したサジェスト画面201のAUC増加分の部分に表示される。AUC増加分の項目は、省略してもよい。
 以上の学習履歴管理部23のサジェスト機能により、ユーザは、評価値(AUC)が増加する学習設定を、より簡単かつ迅速に見つけることができる。
<9.コンピュータ構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているマイクロコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
 入力部306は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部307は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部308は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。RAM303にはまた、CPU301が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
 本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う制御部
 を備える情報処理装置。
(2)
 前記制御部は、さらに、前記複数の予測モデルを、予測精度の順でソートして表示する
 前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記予測モデルの予測値の種類である予測値タイプと、前記予測モデルが予測するデータ項目である予測ターゲットが同じ前記複数の予測モデルで同じグループを作成し、前記グループごとに、予測精度の高い順で前記複数の予測モデルをソートして表示する
 前記(2)に記載の情報処理装置。
(4)
 前記制御部は、前記予測モデルのモデル数の多い前記グループの順番で、各グループのソート結果を連結して表示する
 前記(3)に記載の情報処理装置。
(5)
 前記制御部は、作成した2つの前記グループどうしの比較が可能か否かの判定を行う比較可能判定処理を実行する
 前記(3)または(4)に記載の情報処理装置。
(6)
 前記制御部は、前記比較可能判定処理において、2つの前記グループの予測ターゲットが同じである場合には、比較が可能であると判定する
 前記(5)に記載の情報処理装置。
(7)
 前記制御部は、前記比較可能判定処理において、2つの前記グループの統計量の平均値の差分が所定値以下である場合には、比較が可能であると判定する
 前記(5)または(6)に記載の情報処理装置。
(8)
 前記制御部は、前記比較可能判定処理において、予測ターゲットがカテゴリカルである2つの前記グループの取り得る値に共通部分がある場合には、比較が可能であると判定する
 前記(5)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記制御部は、さらに、前記複数の予測モデルを、ツリー形式表現で表示する制御を行う
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記制御部は、既存の前記予測モデルをコピーして作成した予測モデルと、コピーしないで作成した予測モデルとを区別したツリー形式表現で表示する
 前記(9)に記載の情報処理装置。
(11)
 前記制御部は、さらに、予測精度が最も高い前記予測モデルに対する有意差の有無を示す表示を行う
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記制御部は、さらに、2つの前記予測モデルの前記モデル情報の差分を表示する制御を行う
 前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
 前記制御部は、さらに、2つの前記予測モデルの前記モデル情報の差分を分析することで、予測精度が改善されると思われる学習設定を表示する制御を行う
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記制御部は、前記複数の予測モデルのなかから選択された予測モデルである選択モデルに対して、予測精度が改善されると思われる予測モデルを表示する
 前記(13)に記載の情報処理装置。
(15)
 前記制御部は、前記学習設定として、予測モデルのモデルタイプを表示する
 前記(13)または(14)に記載の情報処理装置。
(16)
 前記制御部は、前記学習設定として、前記選択モデルの予測モデルに対して、使用しない方がよいデータ項目を表示する
 前記(14)または(15)に記載の情報処理装置。
(17)
 前記制御部は、前記学習設定として、前記選択モデルの予測モデルに対して、追加した方がよいデータ項目を表示する
 前記(14)乃至(16)のいずれかに記載の情報処理装置。
(18)
 情報処理装置が、
 機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う
 情報処理方法。
(19)
 コンピュータを、
 機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う制御部
 として機能させるためのプログラム。
 1 予測システム, 11 予測アプリ, 14 ディスプレイ, 21 学習部, 22 予測部, 23 学習履歴管理部, 41 履歴管理画面, 62 ソートボタン, 63 ツリー表示ボタン, 64 サジェストボタン, 181 エントリ差分表示画面, 201 サジェスト画面, 301 CPU, 302 ROM, 303 RAM, 306 入力部, 307 出力部, 308 記憶部, 309 通信部, 310 ドライブ

Claims (19)

  1.  機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う制御部
     を備える情報処理装置。
  2.  前記制御部は、さらに、前記複数の予測モデルを、予測精度の順でソートして表示する
     請求項1に記載の情報処理装置。
  3.  前記制御部は、前記予測モデルの予測値の種類である予測値タイプと、前記予測モデルが予測するデータ項目である予測ターゲットが同じ前記複数の予測モデルで同じグループを作成し、前記グループごとに、予測精度の高い順で前記複数の予測モデルをソートして表示する
     請求項2に記載の情報処理装置。
  4.  前記制御部は、前記予測モデルのモデル数の多い前記グループの順番で、各グループのソート結果を連結して表示する
     請求項3に記載の情報処理装置。
  5.  前記制御部は、作成した2つの前記グループどうしの比較が可能か否かの判定を行う比較可能判定処理を実行する
     請求項3に記載の情報処理装置。
  6.  前記制御部は、前記比較可能判定処理において、2つの前記グループの予測ターゲットが同じである場合には、比較が可能であると判定する
     請求項5に記載の情報処理装置。
  7.  前記制御部は、前記比較可能判定処理において、2つの前記グループの統計量の平均値の差分が所定値以下である場合には、比較が可能であると判定する
     請求項5に記載の情報処理装置。
  8.  前記制御部は、前記比較可能判定処理において、予測ターゲットがカテゴリカルである2つの前記グループの取り得る値に共通部分がある場合には、比較が可能であると判定する
     請求項5に記載の情報処理装置。
  9.  前記制御部は、さらに、前記複数の予測モデルを、ツリー形式表現で表示する制御を行う
     請求項1に記載の情報処理装置。
  10.  前記制御部は、既存の前記予測モデルをコピーして作成した予測モデルと、コピーしないで作成した予測モデルとを区別したツリー形式表現で表示する
     請求項9に記載の情報処理装置。
  11.  前記制御部は、さらに、予測精度が最も高い前記予測モデルに対する有意差の有無を示す表示を行う
     請求項1に記載の情報処理装置。
  12.  前記制御部は、さらに、2つの前記予測モデルの前記モデル情報の差分を表示する制御を行う
     請求項1に記載の情報処理装置。
  13.  前記制御部は、さらに、2つの前記予測モデルの前記モデル情報の差分を分析することで、予測精度が改善されると思われる学習設定を表示する制御を行う
     請求項1に記載の情報処理装置。
  14.  前記制御部は、前記複数の予測モデルのなかから選択された予測モデルである選択モデルに対して、予測精度が改善されると思われる予測モデルを表示する
     請求項13に記載の情報処理装置。
  15.  前記制御部は、前記学習設定として、予測モデルのモデルタイプを表示する
     請求項13に記載の情報処理装置。
  16.  前記制御部は、前記学習設定として、前記選択モデルの予測モデルに対して、使用しない方がよいデータ項目を表示する
     請求項14に記載の情報処理装置。
  17.  前記制御部は、前記学習設定として、前記選択モデルの予測モデルに対して、追加した方がよいデータ項目を表示する
     請求項14に記載の情報処理装置。
  18.  情報処理装置が、
     機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う
     情報処理方法。
  19.  コンピュータを、
     機械学習による学習済みモデルである複数の予測モデルと、前記予測モデルに関するモデル情報を表示する制御を行う制御部
     として機能させるためのプログラム。
PCT/JP2019/040171 2018-10-26 2019-10-11 情報処理装置、情報処理方法、および、プログラム WO2020085114A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201980063773.5A CN112789636A (zh) 2018-10-26 2019-10-11 信息处理装置、信息处理方法和程序
US17/286,268 US20210356920A1 (en) 2018-10-26 2019-10-11 Information processing apparatus, information processing method, and program
JP2020553140A JPWO2020085114A1 (ja) 2018-10-26 2019-10-11 情報処理装置、情報処理方法、および、プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018201499 2018-10-26
JP2018-201499 2018-10-26

Publications (1)

Publication Number Publication Date
WO2020085114A1 true WO2020085114A1 (ja) 2020-04-30

Family

ID=70331187

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/040171 WO2020085114A1 (ja) 2018-10-26 2019-10-11 情報処理装置、情報処理方法、および、プログラム

Country Status (4)

Country Link
US (1) US20210356920A1 (ja)
JP (1) JPWO2020085114A1 (ja)
CN (1) CN112789636A (ja)
WO (1) WO2020085114A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201512A1 (ja) * 2021-03-26 2022-09-29 日本電気株式会社 受注予測装置、受注予測方法、学習装置、学習方法、及び、記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7239519B2 (ja) * 2020-03-25 2023-03-14 株式会社日立製作所 機械学習モデル運用管理システムおよび運用管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235848A (ja) * 2005-02-23 2006-09-07 Mitsubishi Electric Corp データマイニング補助装置
WO2016152053A1 (ja) * 2015-03-23 2016-09-29 日本電気株式会社 精度推定モデル生成システムおよび精度推定システム
JP2017151614A (ja) * 2016-02-23 2017-08-31 株式会社日立製作所 計算機及び分析指標の算出方法
JP2018124851A (ja) * 2017-02-02 2018-08-09 アズビル株式会社 支援装置および支援方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US7734457B2 (en) * 1999-10-16 2010-06-08 Computer Associates Think, Inc. Method and system for generating dynamic comparison models
WO2002095533A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Model selection for cluster data analysis
CH703073B1 (de) * 2003-03-19 2011-11-15 Roland Pulfer Vergleich von Modellen eines komplexen Systems.
US7558803B1 (en) * 2007-02-01 2009-07-07 Sas Institute Inc. Computer-implemented systems and methods for bottom-up induction of decision trees
US8533224B2 (en) * 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8843427B1 (en) * 2011-07-01 2014-09-23 Google Inc. Predictive modeling accuracy
CN102968670B (zh) * 2012-10-23 2016-08-17 北京京东世纪贸易有限公司 预测数据的方法和装置
US20140379310A1 (en) * 2013-06-25 2014-12-25 Citigroup Technology, Inc. Methods and Systems for Evaluating Predictive Models
US9886669B2 (en) * 2014-02-26 2018-02-06 Microsoft Technology Licensing, Llc Interactive visualization of machine-learning performance
US10268948B2 (en) * 2015-07-23 2019-04-23 The Boeing Company Data driven classification and troubleshooting system and method using associative memory and a machine learning algorithm to improve the accuracy and performance of the associative memory
US20180137424A1 (en) * 2016-11-17 2018-05-17 General Electric Company Methods and systems for identifying gaps in predictive model ontology
WO2018207259A1 (ja) * 2017-05-09 2018-11-15 日本電気株式会社 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
US10685044B2 (en) * 2017-06-07 2020-06-16 Accenture Global Solutions Limited Identification and management system for log entries
US11501201B2 (en) * 2017-07-17 2022-11-15 MetiStream, Inc. Systems, methods, and apparatuses for training, storage, and interaction with machine learning models
US20170330078A1 (en) * 2017-07-18 2017-11-16 Ashok Reddy Method and system for automated model building
WO2019028468A1 (en) * 2017-08-04 2019-02-07 Fair Ip, Llc COMPUTER SYSTEM FOR CONSTRUCTING, TRAINING AND PRODUCING AUTOMATIC LEARNING MODELS
US20190065607A1 (en) * 2017-08-28 2019-02-28 Facebook, Inc. Automated application analytics
US20210027182A1 (en) * 2018-03-21 2021-01-28 Visa International Service Association Automated machine learning systems and methods
CN108573358A (zh) * 2018-05-09 2018-09-25 平安普惠企业管理有限公司 一种逾期预测模型生成方法及终端设备
US11501191B2 (en) * 2018-09-21 2022-11-15 International Business Machines Corporation Recommending machine learning models and source codes for input datasets
US10936768B2 (en) * 2018-10-15 2021-03-02 Aible, Inc. Interface for visualizing and improving model performance
US10586164B1 (en) * 2018-10-15 2020-03-10 AIble Inc. Interface for visualizing and improving model performance

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235848A (ja) * 2005-02-23 2006-09-07 Mitsubishi Electric Corp データマイニング補助装置
WO2016152053A1 (ja) * 2015-03-23 2016-09-29 日本電気株式会社 精度推定モデル生成システムおよび精度推定システム
JP2017151614A (ja) * 2016-02-23 2017-08-31 株式会社日立製作所 計算機及び分析指標の算出方法
JP2018124851A (ja) * 2017-02-02 2018-08-09 アズビル株式会社 支援装置および支援方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201512A1 (ja) * 2021-03-26 2022-09-29 日本電気株式会社 受注予測装置、受注予測方法、学習装置、学習方法、及び、記録媒体

Also Published As

Publication number Publication date
CN112789636A (zh) 2021-05-11
US20210356920A1 (en) 2021-11-18
JPWO2020085114A1 (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
Cables et al. The LTOPSIS: An alternative to TOPSIS decision-making approach for linguistic variables
US11853281B2 (en) Methods and systems for data management and analysis
Kwong et al. A methodology of determining aggregated importance of engineering characteristics in QFD
Wen et al. Integrating the 2-tuple linguistic representation and soft set to solve supplier selection problems with incomplete information
Liu et al. Convex combination-based consensus analysis for intuitionistic fuzzy three-way group decision
Wang et al. Hesitant 2-tuple linguistic Bonferroni operators and their utilization in group decision making
Liu et al. Optimal cross-trained worker assignment for a hybrid seru production system to minimize makespan and workload imbalance
WO2020085114A1 (ja) 情報処理装置、情報処理方法、および、プログラム
Gong et al. Interactive genetic algorithms with individual’s fuzzy fitness
Liu et al. Solving the rotating seru production problem with dynamic multi-objective evolutionary algorithms
Durand et al. A new proposal to deal with hesitant linguistic expressions on preference assessments
Aroui et al. Minimising work overload in mixed-model assembly lines with different types of operators: a case study from the truck industry
Nikolakis et al. A machine learning approach for improved shop-floor operator support using a two-level collaborative filtering and gamification features
Zhong et al. Sustainable supply chain partner selection and order allocation: A hybrid fuzzy PL-TODIM based MCGDM approach
Bettayeb et al. Success Factors in Adopting AI in Human Resource Management in UAE Firms: Neutrosophic Analysis
US20220156573A1 (en) Machine Learning Engine Providing Trained Request Approval Decisions
Sakai et al. Card Sorting Techniques for Domain Characterization in Problem-driven Visualization Research.
Carneiro et al. A predictive and user-centric approach to Machine Learning in data streaming scenarios
HATAMI et al. An application of fuzzy TOPSIS method in an SWOT analysis
Yamamura et al. Forecasting new product demand using domain knowledge and machine learning
CN115545960A (zh) 一种电子信息数据交互系统及方法
Behdani et al. An alternative approach to rank efficient DMUs in DEA via cross-efficiency evaluation, Gini coefficient, and Bonferroni mean
Meng et al. Robust mixed-model assembly line balancing and sequencing problem considering preventive maintenance scenarios with interval processing times
Dhanalakshmy et al. Analytical study on the role of scale factor parameter of differential evolution algorithm on its convergence nature
Chung et al. A NOVEL TYPE OF FLEXIBLE SOFT ANALYTIC NETWORK PROCESS TO SOLVE THE MULTIPLE-ATTRIBUTE DECISION-MAKING PROBLEM.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19876439

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020553140

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19876439

Country of ref document: EP

Kind code of ref document: A1