WO2020225923A1 - 分析装置、分析方法及び分析プログラム - Google Patents

分析装置、分析方法及び分析プログラム Download PDF

Info

Publication number
WO2020225923A1
WO2020225923A1 PCT/JP2019/018637 JP2019018637W WO2020225923A1 WO 2020225923 A1 WO2020225923 A1 WO 2020225923A1 JP 2019018637 W JP2019018637 W JP 2019018637W WO 2020225923 A1 WO2020225923 A1 WO 2020225923A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
prediction
label
prediction model
analyzer
Prior art date
Application number
PCT/JP2019/018637
Other languages
English (en)
French (fr)
Inventor
哲哉 塩田
美樹 境
方邦 石井
一樹 及川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/018637 priority Critical patent/WO2020225923A1/ja
Priority to US17/607,421 priority patent/US20220222544A1/en
Priority to JP2021518292A priority patent/JP7424373B2/ja
Publication of WO2020225923A1 publication Critical patent/WO2020225923A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Definitions

  • the present invention relates to an analyzer, an analysis method and an analysis program.
  • SMBO Sequential model-based optimization
  • searching for the optimum pipeline for example, Non-Patent Document 1 and See 2.
  • the pipeline is a series of processes for constructing a prediction model, and includes preprocessing for input data, learning of data based on hyperparameters, and the like.
  • a technique is known in which a small number of pipelines suitable for the data to be analyzed are presented to the user from a large number of pipelines designed in advance by experts.
  • the conventional technology for automating data analysis has a problem that it may be difficult to effectively utilize data without a correct answer in order to improve the accuracy of the prediction model.
  • semi-supervised learning is known in which the accuracy of a prediction model is improved by utilizing data without a correct answer, which is easier to collect than data with a correct answer.
  • the conventional technique is based on the premise that a prediction model is constructed using only data with correct answers, and does not consider semi-supervised learning.
  • the analyzer of the present invention is a plurality of prediction models that predict labels from data, and is based on the first data labeled using each of the prediction models constructed by a plurality of different construction procedures.
  • the prediction model using the generation unit that generates pseudo-correct answer data by assigning a label to the second data that has not been given a label, the first data, and the pseudo-correct answer data. It is characterized by having a calculation unit for calculating each of the prediction accuracy of the above, and a determination unit for determining a prediction model in which the prediction accuracy calculated by the calculation unit satisfies a predetermined criterion.
  • data without a correct answer can be effectively used to improve the accuracy of the prediction model.
  • FIG. 1 is a diagram for explaining an outline of a process for determining a pipeline candidate.
  • FIG. 2 is a diagram showing an example of the configuration of the analyzer according to the first embodiment.
  • FIG. 3 is a diagram showing an example of a data structure of setting information.
  • FIG. 4 is a diagram showing an example of a data structure of predictor information.
  • FIG. 5 is a diagram for explaining cross-validation.
  • FIG. 6 is a diagram showing an example of pipeline candidates.
  • FIG. 7 is a diagram for explaining the determination of the pipeline in the case of performing semi-supervised learning.
  • FIG. 8 is a diagram for explaining a case where a pipeline is determined for each evaluation value.
  • FIG. 9 is a diagram for explaining verification of the prediction model.
  • FIG. 1 is a diagram for explaining an outline of a process for determining a pipeline candidate.
  • FIG. 2 is a diagram showing an example of the configuration of the analyzer according to the first embodiment.
  • FIG. 3 is a diagram showing an example of
  • FIG. 10 is a flowchart showing a processing flow of the analyzer according to the first embodiment.
  • FIG. 11 is a flowchart showing a flow of processing for determining a pipeline candidate.
  • FIG. 12 is a flowchart showing a flow of processing for determining a pipeline.
  • FIG. 13 is a flowchart showing the flow of label diffusion.
  • FIG. 14 is a flowchart showing the flow of self-training.
  • FIG. 15 is a diagram showing an example of a computer that executes an analysis program.
  • the analyzer according to the first embodiment is an apparatus for supporting data analysis by machine learning.
  • a pipeline which is a series of processes for constructing a prediction model, is determined.
  • the analyzer prepares candidates for the setting contents for each of a plurality of setting items related to the prediction model as options, and determines the candidates for the pipeline by sequentially determining the setting contents from the options.
  • the analyzer determines from the candidates a pipeline suitable for semi-supervised learning.
  • the number of pipelines finally determined by the analyzer may be one or a plurality.
  • the pipeline is the procedure for building a prediction model.
  • the data with a correct answer is, for example, data with a label.
  • the data without a correct answer is, for example, data without a label.
  • FIG. 1 is a diagram for explaining an outline of a process for determining a pipeline candidate.
  • the analyzer 10 determines the setting contents of each setting item by sequentially executing steps corresponding to a plurality of processes executed when the prediction model is constructed. For example, the analyzer 10 determines in each step the method used in the preprocessing, the algorithm of the predictor, the hyperparameters, and the like.
  • the analyzer 10 determines the method used for missing value complementation, which is one of the preprocessing, from the mean value, the median value, the mode value, and the deletion.
  • the analyzer 10 calculates the prediction accuracy of the predicted model to be constructed for each of the cases where the mean value, the median value, the mode value, and the deletion method are used to complement the missing value of the training data 20.
  • the method with the highest prediction accuracy of the prediction model is determined as the method of complementing missing values.
  • the prediction accuracy when using the mean value is 60%
  • the prediction accuracy when using the median is 65%
  • the prediction accuracy when using the mode is 70%
  • deletion is used.
  • the prediction accuracy of the case is 62%, and the prediction accuracy is the highest when the mode value is used. Therefore, the analyzer 10 determines the method of complementing the missing value as the mode value.
  • the analyzer 10 determines the method used in normalization, which is one of the preprocessing, from the maximum / minimum, standardization, Z score, and no processing. In addition, no processing means that the preprocessing is not performed. Further, in step 3, the analyzer 10 determines the method used for feature selection, which is one of the pretreatments, from the decision tree, L1 regularization, analysis of variance, and no treatment.
  • the analyzer 10 determines, among the predictor A, the predictor B, and the predictor C, the predictor B having the highest prediction accuracy of the constructed prediction model as the predictor used in the prediction model. To do.
  • the algorithms of the predictor A, the predictor B, and the predictor C are different from each other. Further, the analyzer 10 further determines the hyperparameters for each predictor in step 4.
  • the pipeline determined by the analyzer 10 performs missing value complementation using the mode, normalization using standardization, and feature selection using analysis of variance as preprocessing, and predictor as a predictor. B will be used. Further, the analyzer 10 may calculate the prediction accuracy while performing cross-validation in which a part of the data is used for learning in each step and the prediction accuracy of the prediction model is verified by the remaining data.
  • FIG. 2 is a diagram showing an example of the configuration of the analyzer according to the first embodiment.
  • the analyzer 10 is realized by a general-purpose computer such as a workstation or a personal computer, and includes an input unit 11, an output unit 12, a communication control unit 13, a storage unit 14, and a control unit 15. Be prepared.
  • the input unit 11 is realized by using an input device such as a keyboard or a mouse, and inputs various instruction information to the control unit 15 in response to an input operation by the operator.
  • the output unit 12 is realized by a display device such as a liquid crystal display, a printing device such as a printer, an information communication device, and the like, and outputs the result of data analysis to the operator.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between an external device such as a management server via a telecommunication line such as a LAN (Local Area Network) or the Internet and the control unit 15. ..
  • NIC Network Interface Card
  • telecommunication line such as a LAN (Local Area Network) or the Internet
  • the storage unit 14 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 stores in advance a processing program for operating the analyzer 10, data used during execution of the processing program, and the like, or temporarily stores each time the processing is performed.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13. Further, the storage unit 14 stores the setting information 141 and the predictor information 142.
  • FIG. 3 is a diagram showing an example of a data structure of setting information.
  • the setting information 141 includes an execution order for each step, setting content candidates, and parameter candidates.
  • the setting content candidate is a setting content candidate of the setting item corresponding to each step.
  • the parameter candidate is a parameter candidate that can be set in the selected setting content.
  • the setting information 141 indicates that there are "missing value complementing method search”, "normalization method search”, “feature selection method search”, and “hyperparameter search” as steps. In addition, these steps correspond to steps 1 to 4 of FIG.
  • the setting information 141 indicates that the step "feature selection method search” is the third step to be executed. Further, the setting information 141 includes "decision tree", "L1 regularization”, “analysis of variance”, and “no processing” as candidates for the setting contents of the setting items corresponding to the step "feature selection method search”. Shown. In the example of FIG. 3, the setting item corresponding to the step “feature selection method search” is the method used in feature selection. Further, the setting information 141 indicates that there are 100 and 300 as candidates for the number N of trees, which is a parameter of the setting content candidate "decision tree". In addition, priority is set for the parameter candidates.
  • FIG. 4 is a diagram showing an example of a data structure of predictor information.
  • the predictor information 142 includes an algorithm and default parameters for each predictor.
  • the algorithm is an algorithm used in each predictor, and as shown in FIG. 4, there are "Random Forest", “Logistic Regression”, “K Nearest Neighbors” and the like.
  • the default parameters are the default values of the parameters of each algorithm.
  • the default parameters also include the default values of the predictor hyperparameters.
  • the predictor information 142 indicates that the default value of the parameter N of the algorithm "Random Forest" of the predictor A is 100.
  • control unit 15 has a selection unit 151, a calculation unit 152, a determination unit 153, and a processing unit such as a CPU (Central Processing Unit) that executes a processing program stored in a memory. It functions as a generation unit 154 and a verification unit 155. It should be noted that these functional parts may be implemented in different hardware, respectively or in part.
  • CPU Central Processing Unit
  • the selection unit 151 corresponds to each of a plurality of processes executed when constructing the prediction model, that is, each of the pipelines, and each time the setting contents are determined in the step of sequentially determining the setting contents of the corresponding processes. Select the next step to be performed.
  • the determination unit 153 determines the setting content of each step from the setting content candidates included in the setting information 141. At this time, the selection unit 151 selects the next step in which the setting contents are determined according to the execution order shown in the setting information 141. If none of the steps has been executed, the selection unit 151 selects the step having the earliest execution order.
  • the selection unit 151 may perform the selection unit 151. Select "feature selection method search” as the next step.
  • the steps “missing value complementing method search”, “normalization method searching”, and “feature selection method searching” in FIG. 3 are preprocessing of data for learning and analysis, respectively, for missing value complementation, normalization, and This is a preprocessing determination step for determining the setting contents of feature selection.
  • the setting content candidates of the steps “missing value complementing method search”, “normalization method searching”, and “feature selection method search” are methods used in missing value complementing, normalization, and feature selection, respectively.
  • the step “hyperparameter search” is a predictor determination step that is executed after the preprocessing determination step and determines the predictor algorithm and hyperparameters as setting contents.
  • the calculation unit 152 performs the process for which the setting content has been determined among the plurality of processes by applying the determined setting content, and performs the process corresponding to the step selected by the selection unit 151 as a candidate for the setting content. Prediction accuracy is calculated for each of the prediction models constructed when each is applied.
  • the steps “missing value complement method search” and “normalization method search” whose execution order is earlier than the step “feature selection method search” Since the setting contents have already been decided, the prediction applying each of the setting contents decided in the steps “missing value complement method search” and “normalization method search” and the setting contents candidates in the step “feature selection method search” is applied. It is possible to build a model. At this time, since there are four candidates for the setting contents of the step “feature selection method search", if the setting contents of the steps “missing value complement method search” and "normalization method search” are determined to be one, At least four prediction models can be constructed.
  • the calculation unit 152 calculates the prediction accuracy for each of the buildable prediction models.
  • the setting contents of the steps “missing value complementing method search” and “normalization method search” may be determined in a plurality of ways. For example, when the setting contents of the steps “missing value complement method search” and “normalization method search” are determined in two ways, the number of predictive models that can be constructed is at least eight.
  • the steps “missing value complement method search", “normalization method search” and the steps whose execution order is earlier than the step “hyperparameter search” Since the setting contents of "feature selection method search" have already been decided, the setting contents decided in the steps “missing value complement method search", “normalization method search” and “feature selection method search” and the step “hyperparameters” It is possible to build a prediction model by applying each of the candidates of the setting contents of "search”. Then, the calculation unit 152 calculates the prediction accuracy for each of the buildable prediction models.
  • the calculation unit 152 can calculate the prediction accuracy by performing cross-validation using the learning data divided into a predetermined number.
  • cross-validation will be described with reference to FIG. FIG. 5 is a diagram for explaining cross-validation.
  • the calculation unit 152 divides the learning data 20 into four learning data 20a, 20b, 20c and 20d. Then, as the first process, the calculation unit 152 causes the predictor to learn the training data 20b, 20c, and 20d using the prediction model, and measures the accuracy of the trained predictor using the training data 20a. To do.
  • the calculation unit 152 causes the predictor to learn the learning data 20a, 20c and 20d, and measures the accuracy of the trained predictor using the learning data 20b. Further, in the third process, the calculation unit 152 causes the predictor to learn the learning data 20a, 20b and 20d, and measures the accuracy of the trained predictor using the learning data 20c. Further, in the fourth process, the calculation unit 152 causes the predictor to learn the learning data 20a, 20b, and 20c, and measures the accuracy of the trained predictor using the learning data 20d. Then, the calculation unit 152 uses the cross-validation accuracy, which is the average value of the accuracy measured in the four processes, as the prediction accuracy. The number of divisions in cross-validation is not limited to 4, and can be any number.
  • the calculation unit 152 can calculate the prediction accuracy by using each of the candidates of the plurality of predictors. For example, as shown in FIG. 3, in the steps prior to the step "hyperparameter search", the predictor used in the prediction model is not determined, so the steps “missing value complement method search", "normalization method search” and “normalization method search” In the "feature selection method search”, the calculation unit 152 calculates the prediction accuracy when each of the predictor A, the predictor B, and the predictor C is used.
  • the calculation unit 152 calculates the prediction accuracy of at least 12 kinds of prediction models.
  • the determination unit 153 compares each prediction accuracy calculated by the calculation unit 152, and among the candidates for the setting content, the candidate for the setting content having the highest prediction accuracy is processed according to the step selected by the selection unit 151. Decide on the settings.
  • the calculation unit 152 calculates the prediction accuracy of the prediction model corresponding to the setting content "maximum / minimum” to be 72%, and sets the setting content to "standardization".
  • the prediction accuracy of the corresponding prediction model is calculated as 78%
  • the prediction accuracy of the prediction model corresponding to the setting content "Z score” is calculated as 72%
  • the prediction accuracy of the prediction model corresponding to the setting content "no processing” is calculated. It was calculated as 70%.
  • the determination unit 153 sets the setting items corresponding to the step "normalization method search”. Set the setting contents of to "Standardize”. That is, the determination unit 153 determines the standardization method used in the normalization, which is the preprocessing of data.
  • the selection unit 151 selects the step to be executed next to the step whose setting contents are determined by the determination unit 153. For example, when the determination unit 153 determines the setting content in the step "normalization method search", the selection unit 151 selects the step "feature selection method search”.
  • the calculation unit 152 calculates the prediction accuracy for each setting content in the step, and the determination unit 153 determines the setting content with the highest prediction accuracy.
  • the pipeline which is the procedure for constructing the prediction model from step 1 to step 4, is determined.
  • the analyzer 10 determines a plurality of pipelines as candidates by the same method.
  • the analyzer 10 may determine a predetermined number of pipelines as candidates in descending order of prediction accuracy in the final step (for example, step 4), or all pipelines whose prediction accuracy in the final step is equal to or higher than the threshold value. May be determined as.
  • the method for determining the pipeline candidate described so far is an example, and the analyzer 10 may determine the pipeline by a method other than the above.
  • FIG. 6 is a diagram showing an example of pipeline candidates.
  • pipeline PL1 is a series of processes such as missing value complementation by mode, normalization by standardization, feature selection by analysis of variance, and label prediction by predictor B.
  • the pipeline PL2 is a series of processes such as missing value complementation by the median value, normalization by standardization, feature selection by L1 regularization, and label prediction by the predictor A.
  • the pipeline PL3 is a series of processes such as missing value complementation by the median value, normalization by the maximum and minimum values, feature selection by a decision tree, and label prediction by the predictor C.
  • the algorithm of predictor A is Logistic Regression.
  • the algorithm of predictor B is Random Forest.
  • the algorithm of predictor C is K Nearest Neighbors. Of these algorithms, K Nearest Neighbors is a neighborhood search algorithm.
  • FIG. 8 is a diagram for explaining the determination of the pipeline in the case of semi-supervised learning.
  • the learning data 20 is data with a correct answer.
  • the data obtained by combining the data with correct answers and the data without correct answers is defined as TD.
  • PL be a candidate for the pipeline.
  • the generation unit 154 is a plurality of prediction models that predict labels from data, and uses each of the prediction models constructed by a plurality of construction procedures that are different from each other, based on the data with correct answers to which labels are given.
  • data with a pseudo-correct answer is generated by assigning a label to data without a correct answer for which a label has not been assigned.
  • the generation unit 154 performs self-training or label spreading for each of the pipelines included in the candidate PL of the pipeline, and assigns a label to the data without a correct answer.
  • the predictor's algorithm is neighborhood search
  • the generator 154 performs label spreading.
  • the predictor's algorithm is not a neighborhood search
  • the generator 154 self-trains.
  • the generation unit 154 When performing self-training, the generation unit 154 generates data with pseudo-correct answers for each of the pipelines.
  • the data with a pseudo-correct answer is data in which the label predicted by the prediction model is attached to the data without a correct answer.
  • the generation unit 154 generates the data TD1 with a pseudo correct answer for the pipeline PL1.
  • the generation unit 154 generates data TD2 with a pseudo-correct answer for the pipeline PL2.
  • the generation unit 154 predicts using the first process of constructing a prediction model using the construction data including the data with the correct answer and the prediction model constructed by the first process of the data without the correct answer.
  • the second process of adding a label to the data for which the certainty of the label is equal to or greater than the threshold value and then adding the label to the construction data is repeated.
  • the data added to the construction data in the second process is the data with a pseudo-correct answer.
  • the generation unit 154 spreads the label for the data without a correct answer based on the data with a correct answer by the neighborhood search in which each of the plurality of parameter candidates is set.
  • the generation unit 154 adds parameter candidates for neighborhood search to the pipeline when performing label diffusion.
  • the parameter candidate for the neighborhood search is, for example, the value of k in K Nearest Neighbors.
  • the generation unit 154 adds the parameter candidate PR1, the parameter candidate PR2, and the parameter candidate PR3 to the pipeline PL3, respectively.
  • the pipeline to which the parameter candidate is added is treated as a different pipeline in the subsequent processing.
  • the calculation unit 152 calculates the prediction accuracy of each of the prediction models using the data with correct answers and the data with pseudo correct answers. When label spreading is performed, the calculation unit 152 calculates the prediction accuracy of the prediction model for each of the parameter candidates using the data with the correct answer and the data without the correct answer with the label spreading.
  • the determination unit 153 performs a determination process for determining a prediction model in which the prediction accuracy calculated by the calculation unit 152 satisfies a predetermined criterion.
  • the determination unit 153 determines any of the pipeline PL1, the pipeline PL2, the pipeline PL3 + PR1, the pipeline PL3 + PR2, and the pipeline PL3 + PR3 as the optimum pipeline PLA. Further, the determination process may be performed by a cross-validation method.
  • the calculation unit 152 can express the calculated prediction accuracy by a plurality of indexes.
  • the prediction accuracy is represented by the correct answer rate and the F value.
  • the determination unit 153 determines the prediction model in which any of the plurality of indicators in the construction procedure is the best. For example, the determination unit 153 determines the pipeline PL2 having the best accuracy rate and the pipeline PL3 + PR1 having the best F value.
  • the verification unit 155 verifies the prediction model determined by the determination unit 153 and the corresponding pipeline.
  • FIG. 9 is a diagram for explaining verification of the prediction model.
  • the verification unit 155 causes the predictor to learn the training data 20 based on the pipeline. Then, the verification unit 155 measures the prediction accuracy of the constructed prediction model as the test accuracy by using the test data 30 different from the learning data 20.
  • the analyzer 10 may use the test accuracy measured here as the final output. Further, by performing verification using the test data 30 different from the learning data 20, it is possible to confirm the over-learned state and the unlearned state. Further, the learning data includes not only data with correct answers but also data with pseudo correct answers.
  • FIG. 10 is a flowchart showing a processing flow of the analyzer according to the first embodiment.
  • the analyzer 10 reads the learning data 20 (step S101).
  • the analyzer 10 determines a pipeline candidate using the read learning data 20 (step S102).
  • the analyzer 10 determines a pipeline suitable for semi-supervised learning (step S103).
  • the verification unit 155 of the analyzer 10 constructs a prediction model based on the determined pipeline (step S104), and verifies the constructed prediction model using the test data 30 (step S105).
  • step S102 in FIG. 10 the process of determining the pipeline candidate by the analyzer 10 (step S102 in FIG. 10) will be described in detail with reference to FIG.
  • the selection unit 151 refers to the setting information 141 and selects the next step (step S202).
  • the next step is the step with the earliest execution order among the unselected steps.
  • step S201, No the analyzer 10 ends the process of determining the pipeline.
  • step S203 When there is an unselected setting content among the setting content candidates of the step selected by the selection unit 151 (step S203, Yes), the calculation unit 152 selects the next setting content (step S204). On the other hand, when there is no unselected setting content (step S203, No), the determination unit 153 determines the setting content with the highest prediction accuracy calculated by the calculation unit 152 as the setting content of the step selected by the selection unit 151. (Step S206).
  • the calculation unit 152 calculates the prediction accuracy of the prediction model constructed based on the pipeline to which the selected setting content is applied (step S205). At this time, the calculation unit 152 can calculate the prediction accuracy by cross-validation using the learning data 20 divided into a predetermined number. Then, the calculation unit 152 repeats the processes of steps S203 to S205 until there are no unselected setting contents.
  • FIG. 12 is a flowchart showing a flow of processing for determining a pipeline.
  • the generation unit 154 selects an unselected pipeline (step S401), and executes preprocessing on each data according to the selected pipeline (step S402). Then, when the algorithm of the prediction model corresponding to the pipeline is neighborhood search (step S403, Yes), the generation unit 154 performs label spreading (step S404). On the other hand, when the algorithm of the prediction model corresponding to the pipeline is not a neighborhood search (step S403, No), the generation unit 154 performs self-training (step S405).
  • step S406 If there is an unselected pipeline (step S406, Yes), the generation unit 154 returns to step S401 and repeats the process. On the other hand, when there is no unselected pipeline (step S406, No), the determination unit 153 determines the optimum pipeline for each evaluation index (step S407). Then, the verification unit 155 builds a prediction model using the determined pipeline (step S408).
  • FIG. 13 is a flowchart showing the flow of label diffusion.
  • the generation unit 154 sets the parameter candidates for the neighborhood search (step S411).
  • the generation unit 154 executes label spreading for each parameter candidate (step S412). That is, the generation unit 154 performs a neighborhood search for each parameter candidate, and assigns a label to the data without a correct answer based on the data with a correct answer. The generation unit 154 adds the optimum parameter candidate for each evaluation index to the pipeline (step S413).
  • FIG. 14 is a flowchart showing the flow of self-training.
  • the generation unit 154 builds a prediction model using the data with correct answers and the data with pseudo correct answers (step S421). However, at the start of processing, there may be cases where there is a pseudo-correct answer and no data is generated.
  • the generation unit 154 predicts the label of the data without a correct answer using the prediction model (step S422).
  • step S423 when there is data in which the predicted label certainty exceeds the threshold value (step S423, Yes), a label is added to the data without the correct answer exceeding the threshold value and added to the data with the pseudo correct answer (step S424).
  • step S425, No when the number of executions of the steps from S421 to S424 does not exceed the predetermined number (steps S425, No), the generation unit 154 returns to step S421 and repeats the process. On the other hand, when the number of executions of the steps from S421 to S424 exceeds the predetermined number (steps S425, Yes), the generation unit 154 ends the label spreading process. Further, in step S423, if there is no data in which the predicted label certainty exceeds the threshold value (step S423, No), the generation unit 154 ends label diffusion at that point.
  • the generation unit 154 is a plurality of prediction models that predict labels from data, and labels are based on data with correct answers that are labeled using each of the prediction models constructed by a plurality of different construction procedures. Generates data with pseudo-correct answers by assigning labels to data without correct answers that have not been assigned.
  • the calculation unit 152 calculates the prediction accuracy of each of the prediction models using the data with correct answers and the data with pseudo correct answers. Further, the determination unit 153 determines a prediction model in which the prediction accuracy calculated by the calculation unit 152 satisfies a predetermined criterion.
  • the pipeline is finally determined based on the prediction accuracy of each of the plurality of pipelines (construction procedures) when semi-supervised learning is performed. Therefore, since semi-supervised learning uses both data with correct answers and data without correct answers, according to the first embodiment, it is possible to effectively utilize the data without correct answers to improve the accuracy of the prediction model. it can.
  • the generation unit 154 spreads the label for the data without a correct answer based on the data with a correct answer by the neighborhood search in which each of the plurality of parameter candidates is set.
  • the calculation unit 152 calculates the prediction accuracy of the prediction model for each of the parameter candidates by using the data with the correct answer and the data without the correct answer in which the label is spread.
  • the optimum parameters for label spreading can be determined.
  • the generation unit 154 is convinced of the first process of constructing a prediction model using the construction data including the data with the correct answer and the label confidence predicted using the prediction model constructed in the first process of the data without the correct answer.
  • the second process of adding a label to the data whose degree is equal to or greater than the threshold value and then adding it to the construction data is repeated.
  • the calculation unit 152 expresses the calculated prediction accuracy with a plurality of indexes.
  • the determination unit 153 determines the prediction model in which any of the plurality of indicators in the construction procedure is the best. What kind of index is used to express the prediction accuracy of the prediction model may differ depending on the usage situation of the data analysis result and the like. Therefore, in the first embodiment, a plurality of pipelines corresponding to each index can be obtained, and various usage situations can be supported.
  • each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed in arbitrary units according to various loads and usage conditions. It can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • the analyzer 10 can be implemented by installing an analysis program that performs the above analysis as packaged software or online software on a desired computer.
  • the information processing apparatus can function as the analyzer 10.
  • the information processing device referred to here includes a desktop type or notebook type personal computer.
  • the information processing device includes mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDA (Personal Digital Assistant).
  • the analysis device 10 can be implemented as an analysis server device in which the terminal device used by the user is a client and the service related to the above analysis is provided to the client.
  • the analysis server device is implemented as a server device that provides an analysis service that inputs training data and outputs a pipeline or a prediction model.
  • the analysis server device may be implemented as a Web server, or may be implemented as a cloud that provides the above-mentioned analysis-related services by outsourcing.
  • FIG. 15 is a diagram showing an example of a computer that executes an analysis program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, OS1091, application program 1092, program module 1093, and program data 1094. That is, the program that defines each process of the analyzer 10 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • a program module 1093 for executing a process similar to the functional configuration in the analyzer 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD.
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 and executes them as needed.
  • the program module 1093 and the program data 1094 are not limited to the case where they are stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN, WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

生成部(154)は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された正解ありデータを基に、ラベルが未付与の正解なしデータに対しラベルを付与することで疑似正解ありデータを生成する。また、計算部(152)は、正解ありデータと、疑似正解ありデータとを用いて、予測モデルのそれぞれの予測精度を計算する。また、決定部(153)は、計算部(152)によって計算された予測精度が所定の基準を満たす予測モデルを決定する。

Description

分析装置、分析方法及び分析プログラム
 本発明は、分析装置、分析方法及び分析プログラムに関する。
 近年、機械学習を用いたデータ分析の適用事例が増加している。一方、データ分析に不可欠な統計や機械学習の知識の習得には、中長期的な教育が必要となる。そこで、非専門家が統計や機械学習の知識の習得を行うことなく、容易にデータ分析に従事できるよう、データ分析を支援する技術が開示されている。
 例えば、逐次的最適化手法(SMBO:Sequential model-based optimization)を用いてパイプラインごとに精度の評価を行い、最適なパイプラインを探索する手法が知られている(例えば、非特許文献1及び2を参照)。なお、ここでは、パイプラインとは、予測モデルを構築する一連の処理であり、入力されたデータに対する前処理、ハイパーパラメータに基づくデータの学習等が含まれる。また、あらかじめ専門家が設計した多数のパイプラインの中から、分析対象のデータに適合した少数のパイプラインをユーザに提示する技術が知られている。
Matthias Feurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg,Manuel Blum,Frank Hutter,"Efficient and Robust Automated Machine Learning",NIPS'15 Proceedings of the 28th International Conference on Neural Information Processing Systems,2015年12月,PP.2755-2763 Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Rostamizadeh,Ameet Talwalkar,"Hyperband:A Novel Bandit-Based Approach to Hyperparameter Optimization",arXiv:1603.06560v3,cs.LG,2016年11月
 しかしながら、従来のデータ分析を自動化する技術には、予測モデルの精度向上に、正解なしのデータを有効活用することが困難な場合があるという問題があった。ここで、正解ありのデータに比べて収集が容易な正解なしのデータを活用して予測モデルの精度を高める半教師あり学習が知られている。一方で、従来の技術は、正解ありのデータのみを使って予測モデルを構築することを前提とするものであり、半教師あり学習を考慮したものではなかった。
 本発明の分析装置は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された第1のデータを基に、ラベルが未付与の第2のデータに対しラベルを付与することで疑似正解ありデータを生成する生成部と、前記第1のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算部と、前記計算部によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定部と、を有することを特徴とする。
 本発明によれば、予測モデルの精度向上に、正解なしのデータを有効活用することができる。
図1は、パイプラインの候補を決定する処理の概要を説明するための図である。 図2は、第1の実施形態に係る分析装置の構成の一例を示す図である。 図3は、設定情報のデータ構成の一例を示す図である。 図4は、予測器情報のデータ構成の一例を示す図である。 図5は、交差検証について説明するための図である。 図6は、パイプラインの候補の一例を示す図である。 図7は、半教師あり学習を行う場合のパイプラインの決定について説明するための図である。 図8は、評価値ごとにパイプラインを決定する場合について説明するための図である。 図9は、予測モデルの検証について説明するための図である。 図10は、第1の実施形態に係る分析装置の処理の流れを示すフローチャートである。 図11は、パイプラインの候補を決定する処理の流れを示すフローチャートである。 図12は、パイプラインを決定する処理の流れを示すフローチャートである。 図13は、ラベル拡散の流れを示すフローチャートである。 図14は、自己訓練の流れを示すフローチャートである。 図15は、分析プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[第1の実施形態の概要]
 第1の実施形態に係る分析装置は、機械学習によるデータ分析を支援するための装置である。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される。
 まず、分析装置は、予測モデルに関する複数の設定項目ごとの設定内容の候補を選択肢として用意しておき、選択肢の中から設定内容を順次決定することで、パイプラインの候補を決定する。次に、分析装置は、候補の中から、半教師あり学習に適したパイプラインを決定する。なお、分析装置が最終的に決定するパイプラインは、1つであってもよいし複数であってもよい。
 ここで、例えば、パイプラインは予測モデルの構築手順である。また、正解ありのデータは、例えば、ラベルが付与されたデータである。また、正解なしのデータは、例えば、ラベルが未付与のデータである。
[パイプラインの候補を決定する処理]
 まず、パイプラインの候補を決定する処理について説明する。図1は、パイプラインの候補を決定する処理の概要を説明するための図である。図1に示すように、分析装置10は、予測モデルを構築する際に実行される複数の処理に対応するステップを順次実行することで、各設定項目の設定内容の決定を行う。例えば、分析装置10は、各ステップにおいて、前処理で用いられる手法、予測器のアルゴリズム及びハイパーパラメータ等を決定する。
 例えば、分析装置10は、ステップ1では、前処理の1つである欠損値補完で用いられる手法を、平均値、中央値、最頻値、削除の中から決定する。このとき、分析装置10は、学習用データ20の欠損値補完に平均値、中央値、最頻値、削除の各手法を用いた場合のそれぞれについて、構築される予測モデルの予測精度を計算し、予測モデルの予測精度が最も高くなる手法を欠損値補完の手法に決定する。図1の例では、平均値を用いた場合の予測精度が60%、中央値を用いた場合の予測精度が65%、最頻値を用いた場合の予測精度が70%、削除を用いた場合の予測精度が62%であり、最頻値を用いた場合に最も予測精度が高くなるため、分析装置10は、欠損値補完の手法を最頻値に決定する。
 同様に、分析装置10は、ステップ2では、前処理の1つである正規化で用いられる手法を、最大最小、標準化、Zスコア、無処理の中から決定する。なお、無処理とは、当該前処理を行わないことである。また、分析装置10は、ステップ3では、前処理の1つである特徴選択で用いられる手法を、決定木、L1正則化、分散分析、無処理の中から決定する。
 また、分析装置10は、ステップ4では、予測器A、予測器B及び予測器Cのうち、構築される予測モデルの予測精度が最も高くなる予測器Bを、予測モデルで用いる予測器に決定する。なお、予測器A、予測器B及び予測器Cのアルゴリズムは、それぞれ異なるものとする。また、分析装置10は、ステップ4で、さらに予測器ごとのハイパーパラメータを決定する。
 この結果、分析装置10によって決定されるパイプラインは、前処理として、最頻値を用いた欠損値補完、標準化を用いた正規化、分散分析を用いた特徴選択を行い、予測器として予測器Bを用いるものとなる。また、分析装置10は、各ステップにおいて、データの一部を用いて学習し、残りのデータで予測モデルの予測精度を検証する交差検証を行いながら予測精度を計算してもよい。
 次に、図2を用いて、分析装置10の構成について説明する。図2は、第1の実施形態に係る分析装置の構成の一例を示す図である。図2に示すように、分析装置10は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と、出力部12と、通信制御部13と、記憶部14と、制御部15とを備える。
 入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して各種指示情報を入力する。出力部12は、液晶ディスプレイ等の表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、データ分析の結果等を操作者に対して出力する。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネット等の電気通信回線を介した管理サーバ等の外部の装置と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、分析装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等があらかじめ記憶され、あるいは処理の都度一時的に記憶される。記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。また、記憶部14は、設定情報141及び予測器情報142を記憶する。
 ここで、図3を用いて、設定情報141について説明する。図3は、設定情報のデータ構成の一例を示す図である。図3に示すように、設定情報141は、ステップごとの実行順序、設定内容候補、及びパラメータ候補を含む。設定内容候補は、各ステップに対応する設定項目の設定内容の候補である。また、パラメータ候補は、選択された設定内容に設定可能なパラメータの候補である。
 図3の例では、設定情報141は、ステップとして「欠損値補完手法探索」、「正規化手法探索」、「特徴選択手法探索」及び「ハイパーパラメータ探索」があることを示している。なお、これらのステップは、図1のステップ1~4に対応している。
 図3の例では、設定情報141は、ステップ「特徴選択手法探索」が3番目に実行されるステップであることを示している。また、設定情報141は、ステップ「特徴選択手法探索」に対応する設定項目の設定内容の候補として、「決定木」、「L1正則化」、「分散分析」及び「無処理」があることを示している。なお、図3の例では、ステップ「特徴選択手法探索」に対応する設定項目は、特徴選択で用いられる手法である。また、設定情報141は、設定内容候補「決定木」のパラメータである木の数Nの候補として、100及び300があることを示している。また、パラメータ候補には優先度が設定されている。
 次に、図4を用いて、予測器情報142について説明する。図4は、予測器情報のデータ構成の一例を示す図である。図4に示すように、予測器情報142は、予測器ごとのアルゴリズム及びデフォルトパラメータを含む。アルゴリズムは、各予測器で用いられるアルゴリズムであり、図4に示すように、「Random Forest」、「Logistic Regression」、「K Nearest Neighbors」等がある。また、デフォルトパラメータは、各アルゴリズムのパラメータのデフォルト値である。また、デフォルトパラメータは予測器のハイパーパラメータのデフォルト値を含む。例えば、予測器情報142は、予測器Aのアルゴリズム「Random Forest」のパラメータNのデフォルト値が100であることを示している。
 制御部15は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図2に例示するように、選択部151、計算部152、決定部153、生成部154及び検証部155として機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。
 選択部151は、予測モデルを構築する際に実行される複数の処理、すなわちパイプラインのそれぞれに対応し、対応する処理の設定内容を順次決定するステップにおいて、設定内容が決定されるたびに、次に実行されるステップを選択する。決定部153は、各ステップの設定内容を、設定情報141に含まれる設定内容候補の中から決定する。このとき、選択部151は、設定情報141に示される実行順序に従って、設定内容が決定された次のステップを選択する。なお、いずれのステップも未実行である場合、選択部151は実行順序が最も前であるステップを選択する。
 例えば、図3に示すように、ステップ「正規化手法探索」の次のステップは「特徴選択手法探索」なので、ステップ「正規化手法探索」の設定内容が決定された場合、選択部151は、次のステップとして「特徴選択手法探索」を選択する。
 また、図3のステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」は、それぞれ、学習用及び分析用のデータの前処理である欠損値補完、正規化及び特徴選択の設定内容を決定する前処理決定ステップである。また、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容候補は、それぞれ、欠損値補完、正規化及び特徴選択で用いられる手法である。また、ステップ「ハイパーパラメータ探索」は、前処理決定ステップより後に実行され、予測器のアルゴリズム及びハイパーパラメータを設定内容として決定する予測器決定ステップである。
 計算部152は、複数の処理のうち、設定内容が決定済みの処理を当該決定済みの設定内容を適用して行うとともに、選択部151によって選択されたステップに対応する処理を設定内容の候補のそれぞれを適用して行った場合に構築される予測モデルのそれぞれについて予測精度を計算する。
 例えば、選択部151によってステップ「特徴選択手法探索」が選択された場合、ステップ「特徴選択手法探索」よりも実行順序が前であるステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」で決定された設定内容と、ステップ「特徴選択手法探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。このとき、ステップ「特徴選択手法探索」の設定内容の候補は4つであるため、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が1つに決定されている場合、少なくとも4通りの予測モデルが構築可能である。
 そして、計算部152は、構築可能な予測モデルそれぞれについて予測精度を計算する。なお、このとき、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容は複数通り決定されていてもよい。例えば、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が2通り決定されている場合、構築可能な予測モデルの数は少なくとも8通りである。
 また、例えば、選択部151によってステップ「ハイパーパラメータ探索」が選択された場合、ステップ「ハイパーパラメータ探索」よりも実行順序が前であるステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」の設定内容は決定済みであるため、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」で決定された設定内容と、ステップ「ハイパーパラメータ探索」の設定内容の候補のそれぞれを適用した予測モデルの構築が可能である。そして、計算部152は、構築可能な予測モデルそれぞれについて予測精度を計算する。
 また、計算部152は、所定数に分割した学習用のデータを用いた交差検証を行うことで予測精度を計算することができる。ここで、図5を用いて交差検証について説明する。図5は、交差検証について説明するための図である。
 図5に示すように、まず、計算部152は、学習用データ20を学習用データ20a、20b、20c及び20dの4つに分割する。そして、計算部152は、1回目の処理として、予測モデルを用いて、学習用データ20b、20c及び20dを予測器に学習させ、学習用データ20aを用いて学習済みの予測器の精度を測定する。
 同様に、計算部152は、2回目の処理では、学習用データ20a、20c及び20dを予測器に学習させ、学習用データ20bを用いて学習済みの予測器の精度を測定する。また、計算部152は、3回目の処理では、学習用データ20a、20b及び20dを予測器に学習させ、学習用データ20cを用いて学習済みの予測器の精度を測定する。また、計算部152は、4回目の処理では、学習用データ20a、20b及び20cを予測器に学習させ、学習用データ20dを用いて学習済みの予測器の精度を測定する。そして、計算部152は、4回の処理で測定した精度の平均値である交差検証精度を予測精度とする。なお、交差検証における分割数は4に限定されず、任意の数とすることができる。
 また、計算部152は、複数の予測器の候補のそれぞれを用いて予測精度を計算することができる。例えば、図3に示すように、ステップ「ハイパーパラメータ探索」より前のステップでは、予測モデルで用いられる予測器は決定されないため、ステップ「欠損値補完手法探索」、「正規化手法探索」及び「特徴選択手法探索」では、計算部152は、予測器A、予測器B及び予測器Cのそれぞれを用いた場合の予測精度を計算する。例えば、選択部151によってステップ「特徴選択手法探索」が選択され、かつ、ステップ「欠損値補完手法探索」及び「正規化手法探索」の設定内容が1つに決定されている場合、ステップ「特徴選択手法探索」の設定内容の候補が4つであり、予測器の候補が3つであるため、計算部152は、少なくとも12通りの予測モデルの予測精度を計算する。
 決定部153は、計算部152によって計算された各予測精度を比較し、設定内容の候補のうち予測精度が最も高くなる設定内容の候補を、選択部151によって選択されたステップに対応する処理の設定内容に決定する。
 例えば、図1に示すように、ステップ「正規化手法探索」では、計算部152は、設定内容「最大最小」に対応する予測モデルの予測精度を72%と計算し、設定内容「標準化」に対応する予測モデルの予測精度を78%と計算し、設定内容「Zスコア」に対応する予測モデルの予測精度を72%と計算し、設定内容「無処理」に対応する予測モデルの予測精度を70%と計算した。このとき、ステップ「正規化手法探索」において最も予測精度が高い予測モデルは設定内容「標準化」に対応する予測モデルであるため、決定部153は、ステップ「正規化手法探索」に対応する設定項目の設定内容を「標準化」に決定する。つまり、決定部153は、データの前処理である正規化で用いられる手法を標準化に決定する。
 そして、前述の通り、選択部151は、決定部153によって設定内容が決定されたステップの次に実行されるステップを選択する。例えば、決定部153によってステップ「正規化手法探索」における設定内容が決定された場合、選択部151は、ステップ「特徴選択手法探索」を選択する。
 最終的に、選択部151がステップ「ハイパーパラメータ探索」を選択し、計算部152が当該ステップにおける設定内容ごとの予測精度を計算し、決定部153が最も予測精度が高い設定内容を決定すると、ステップ1~ステップ4までの予測モデルの構築手順であるパイプラインが決定される。
 ここで、分析装置10は、同様の方法で複数のパイプラインを候補として決定する。例えば、分析装置10は、最終ステップ(例えばステップ4)における予測精度が高い順に所定数のパイプラインを候補として決定してもよいし、最終ステップにおける予測精度が閾値以上であるパイプラインを全て候補として決定してもよい。また、これまで説明してきたパイプラインの候補の決定方法は一例であり、分析装置10は上記以外の方法でパイプラインを決定してもよい。
[パイプラインを決定する処理]
 パイプラインの候補の中から最終的にパイプラインを決定する処理について説明する。この時点で、図6に示すようにパイプラインの候補が決定されているものとする。図6は、パイプラインの候補の一例を示す図である。
 例えば、パイプラインPL1は、最頻値による欠損値補完、標準化による正規化、分散分析による特徴選択、予測器Bによるラベルの予測という一連の処理である。また、例えば、パイプラインPL2は、中央値による欠損値補完、標準化による正規化、L1正則化による特徴選択、予測器Aによるラベルの予測という一連の処理である。また、例えば、パイプラインPL3は、中央値による欠損値補完、最大最小による正規化、決定木による特徴選択、予測器Cによるラベルの予測という一連の処理である。
 また、予測器Aのアルゴリズムは、Logistic Regressionである。また、予測器Bのアルゴリズムは、Random Forestである。また、予測器Cのアルゴリズムは、K Nearest Neighborsである。これらのアルゴリズムのうち、K Nearest Neighborsは近傍探索のアルゴリズムである。
 図8は、半教師あり学習を行う場合のパイプラインの決定について説明するための図である。ここで、学習用データ20とは別に、正解なしデータが与えられているものとする。なお、学習用データ20は、正解ありデータである。正解ありデータと正解なしデータを合わせたデータをTDとする。また、パイプラインの候補をPLとする。
 ここで、生成部154は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された正解ありデータを基に、ラベルが未付与の正解なしデータに対しラベルを付与することで疑似正解ありデータを生成する。
 具体的には、生成部154は、パイプラインの候補PLに含まれるパイプラインのそれぞれについて、自己訓練又はラベル拡散(Label Spreading)を行い、正解なしデータにラベルを付与する。予測器のアルゴリズムが近傍探索である場合、生成部154はラベル拡散を行う。一方、予測器のアルゴリズムが近傍探索でない場合、生成部154は自己訓練を行う。
 生成部154は、自己訓練を行う場合、パイプラインのそれぞれに対して擬似正解ありデータを生成する。疑似正解ありデータは、予測モデルによって予測されたラベルを正解なしデータに付与したデータである。例えば、図7の例では、生成部154は、パイプラインPL1に対して疑似正解ありデータTD1を生成する。また、生成部154は、パイプラインPL2に対して疑似正解ありデータTD2を生成する。
 自己訓練において、生成部154は、正解ありデータを含む構築用データを使って予測モデルを構築する第1の処理と、正解なしデータのうち、第1の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で構築用データに追加する第2の処理と、を繰り返す。第2の処理において構築用データに追加されるデータが疑似正解ありデータである。
 生成部154は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、正解ありデータを基にした正解なしデータに対するラベル拡散を行う。生成部154は、ラベル拡散を行う場合、パイプラインに近傍探索のパラメータ候補を追加する。近傍探索のパラメータ候補は、例えば、K Nearest Neighborsにおけるkの値である。
 例えば、図7の例では、生成部154は、パイプラインPL3に対してパラメータ候補PR1、パラメータ候補PR2及びパラメータ候補PR3をそれぞれ追加する。パラメータ候補が追加されたパイプラインは、以降の処理では異なるパイプラインとして扱われる。
 計算部152は、正解ありデータと、疑似正解ありデータとを用いて、予測モデルのそれぞれの予測精度を計算する。ラベル拡散が行われた場合、計算部152は、正解ありデータと、ラベル拡散が行われた正解なしデータとを用いて、パラメータ候補のそれぞれについて予測モデルの予測精度を計算する。
 そして、図7に示すように、決定部153は、計算部152によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定処理を行う。図8の例では、決定部153は、パイプラインPL1、パイプラインPL2、パイプラインPL3+PR1、パイプラインPL3+PR2、及びパイプラインPL3+PR3のいずれかを、最適なパイプラインPLAに決定する。また、決定処理は交差検証法によって行われてもよい。
 また、図9に示すように、計算部152は、計算した予測精度を複数の指標で表すことができる。図9の例では、予測精度は、正解率及びF値で表されている。このとき、決定部153は、構築手順のうち複数の指標のいずれかが最も良くなる予測モデルを決定する。例えば、決定部153は、正解率が最も良いパイプラインPL2、及びF値が最も良いパイプラインPL3+PR1を決定する。
 検証部155は、決定部153によって決定された予測モデル及び対応するパイプラインの検証を行う。図9は、予測モデルの検証について説明するための図である。図9に示すように、決定部153によって予測モデルが決定されると、検証部155は、パイプラインに基づいて予測器に学習用データ20を学習させる。そして、検証部155は、学習用データ20とは別のテスト用データ30を用いて、構築した予測モデルの予測精度をテスト精度として測定する。例えば、分析装置10は、ここで測定されたテスト精度を最終的な出力としてもよい。また、学習用データ20と異なるテスト用データ30を用いた検証を行うことで、過学習状態及び未学習状態の確認が可能となる。また、学習データには、正解ありデータだけでなく、擬似正解ありデータが含まれる。
[第1の実施形態の処理]
 図10を用いて、第1の実施形態に係る分析装置10の処理の流れについて説明する。図10は、第1の実施形態に係る分析装置の処理の流れを示すフローチャートである。図10に示すように、まず、分析装置10は、学習用データ20を読み込む(ステップS101)。次に、分析装置10は、読み込んだ学習用データ20を用いて、パイプラインの候補を決定する(ステップS102)。そして、分析装置10は、半教師あり学習に適したパイプラインを決定する(ステップS103)。ここで、分析装置10の検証部155は、決定されたパイプラインに基づいて予測モデルを構築し(ステップS104)、構築した予測モデルをテスト用データ30を用いて検証する(ステップS105)。
 次に、図11を用いて、分析装置10がパイプラインの候補を決定する処理(図10のステップS102)について詳細に説明する。図11に示すように、選択部151は、未選択のステップがある場合(ステップS201、Yes)、設定情報141を参照し、次のステップを選択する(ステップS202)。なお、次のステップとは、未選択のステップのうち、最も実行順序が早いステップである。一方、未選択のステップがない場合(ステップS201、No)、分析装置10はパイプラインを決定する処理を終了する。
 選択部151によって選択されたステップの設定内容候補のうち、未選択の設定内容がある場合(ステップS203、Yes)、計算部152は、次の設定内容を選択する(ステップS204)。一方、未選択の設定内容がない場合(ステップS203、No)、決定部153は、計算部152によって計算された予測精度が最も高い設定内容を選択部151によって選択されたステップの設定内容に決定する(ステップS206)。
 計算部152は、設定内容を選択すると、当該選択した設定内容を適用したパイプラインに基づいて構築される予測モデルの予測精度を計算する(ステップS205)。このとき、計算部152は、所定数に分割した学習用データ20を用いた交差検証によって予測精度の計算を行うことができる。そして、計算部152は、未選択の設定内容がなくなるまで、ステップS203~S205の処理を繰り返す。
 図12を用いて、分析装置10が半教師あり学習に適したパイプラインを決定する処理について説明する。図12は、パイプラインを決定する処理の流れを示すフローチャートである。
 図12に示すように、まず、生成部154は、未選択のパイプラインを選択し(ステップS401)、選択したパイプラインに従い各データに前処理を実行する(ステップS402)。そして、パイプラインに対応する予測モデルのアルゴリズムが近傍探索である場合(ステップS403、Yes)、生成部154はラベル拡散を実施する(ステップS404)。一方、パイプラインに対応する予測モデルのアルゴリズムが近傍探索でない場合(ステップS403、No)、生成部154は自己訓練を実施する(ステップS405)。
 未選択のパイプラインがある場合(ステップS406、Yes)、生成部154は、ステップS401へ戻り処理を繰り返す。一方、未選択のパイプラインがない場合(ステップS406、No)、決定部153は、評価指標ごとに最適なパイプラインを決定する(ステップS407)。そして、検証部155は、決定したパイプラインを使って予測モデルを構築する(ステップS408)。
 図13を用いて、ラベル拡散の流れを説明する。図13は、ラベル拡散の流れを示すフローチャートである。図13に示すように、まず、生成部154は、近傍探索のパラメータ候補を設定する(ステップS411)。
 次に、生成部154は、パラメータ候補ごとにラベル拡散を実行する(ステップS412)。つまり、生成部154は、パラメータ候補ごとに近傍探索を行い、正解ありデータを基に正解なしデータに対してラベルを付与する。生成部154は、評価指標ごとに最適なパラメータ候補をパイプラインに追加する(ステップS413)。
 図14を用いて、自己訓練の流れを説明する。図14は、自己訓練の流れを示すフローチャートである。図14に示すように、生成部154は、正解ありデータ及び疑似正解ありデータを用いて予測モデルを構築する(ステップS421)。ただし、処理開始時は疑似正解ありデータは生成されていない場合がある。
 次に、生成部154は、予測モデルを使って正解なしデータのラベルを予測する(ステップS422)。ここで、予測したラベルの確信度が閾値を超えているデータがある場合(ステップS423、Yes)、閾値を超えた正解なしデータにラベルを付与し疑似正解ありデータに追加する(ステップS424)。
 ここで、S421からS424までのステップの実施回数が既定回数を超えていない場合(ステップS425、No)、生成部154はステップS421へ戻り処理を繰り返す。一方、S421からS424までのステップの実施回数が既定回数を超えた場合(ステップS425、Yes)、生成部154はラベル拡散処理を終了する。また、ステップS423において、予測したラベルの確信度が閾値を超えているデータがない場合(ステップS423、No)、生成部154はその時点でラベル拡散を終了する。
[第1の実施形態の効果]
 生成部154は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された正解ありデータを基に、ラベルが未付与の正解なしデータに対しラベルを付与することで疑似正解ありデータを生成する。また、計算部152は、正解ありデータと、疑似正解ありデータとを用いて、予測モデルのそれぞれの予測精度を計算する。また、決定部153は、計算部152によって計算された予測精度が所定の基準を満たす予測モデルを決定する。このように、第1の実施形態では、複数のパイプライン(構築手順)のそれぞれについての、半教師あり学習を行ったとした場合の予測精度を基にパイプラインが最終的に決定される。このため、半教師あり学習は正解ありデータと正解なしデータの両方を用いるものであるため、第1の実施形態によれば、予測モデルの精度向上に、正解なしのデータを有効活用することができる。
 生成部154は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、正解ありデータを基にした正解なしデータに対するラベル拡散を行う。また、計算部152は、正解ありデータと、ラベル拡散が行われた正解なしデータとを用いて、パラメータ候補のそれぞれについて予測モデルの予測精度を計算する。このように、第1の実施形態によれば、ラベル拡散のための最適なパラメータを決定することができる。
 生成部154は、正解ありデータを含む構築用データを使って予測モデルを構築する第1の処理と、正解なしデータのうち、第1の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で構築用データに追加する第2の処理と、を繰り返す。このように、第1の実施形態では、正解なしデータのうち、ラベルの確信度がある程度高いものを選び出し、予測モデルの精度を向上させることができる。
 計算部152は、計算した予測精度を複数の指標で表す。また、決定部153は、構築手順のうち複数の指標のいずれかが最も良くなる予測モデルを決定する。どのような指標を用いて予測モデルの予測精度を表すかは、データの分析結果の利用場面等に応じて異なる場合がある。このため、第1の実施形態では、各指標に対応した複数のパイプラインを得ることができ、様々な利用場面に対応することができる。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、分析装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の分析を実行する分析プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の分析プログラムを情報処理装置に実行させることにより、情報処理装置を分析装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、分析装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の分析に関するサービスを提供する分析サーバ装置として実装することもできる。例えば、分析サーバ装置は、学習用データを入力とし、パイプライン又は予測モデルを出力とする分析サービスを提供するサーバ装置として実装される。この場合、分析サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の分析に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図15は、分析プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、分析装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、分析装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 分析装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 15 制御部
 141 設定情報
 142 予測器情報
 151 選択部
 152 計算部
 153 決定部
 154 生成部
 155 検証部

Claims (6)

  1.  データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された第1のデータを基に、ラベルが未付与の第2のデータに対しラベルを付与することで疑似正解ありデータを生成する生成部と、
     前記第1のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算部と、
     前記計算部によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定部と、
     を有することを特徴とする分析装置。
  2.  前記生成部は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、前記第1のデータを基にした前記第2のデータに対するラベル拡散を行い、
     前記計算部は、前記第1のデータと、ラベル拡散が行われた前記第2のデータとを用いて、前記パラメータ候補のそれぞれについて予測モデルの予測精度を計算することを特徴とする請求項1に記載の分析装置。
  3.  前記生成部は、前記第1のデータを含む構築用データを使って予測モデルを構築する第1の処理と、前記第2のデータのうち、前記第1の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で前記構築用データに追加する第2の処理と、を繰り返すことを特徴とする請求項1に記載の分析装置。
  4.  前記計算部は、計算した前記予測精度を複数の指標で表し、
     前記決定部は、前記構築手順のうち前記複数の指標のいずれかが最も良くなる予測モデルを決定することを特徴とする請求項1から3のいずれか1項に記載の分析装置。
  5.  分析装置で実行される分析方法であって、
     データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された第1のデータを基に、ラベルが未付与の第2のデータに対しラベルを付与することで疑似正解ありデータを生成する生成工程と、
     前記第1のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算工程と、
     前記計算工程によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定工程と、
     を含むことを特徴とする分析方法。
  6.  コンピュータを、請求項1から4のいずれか1項に記載の分析装置として機能させるための分析プログラム。
PCT/JP2019/018637 2019-05-09 2019-05-09 分析装置、分析方法及び分析プログラム WO2020225923A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/018637 WO2020225923A1 (ja) 2019-05-09 2019-05-09 分析装置、分析方法及び分析プログラム
US17/607,421 US20220222544A1 (en) 2019-05-09 2019-05-09 Analysis device, analysis method, and analysis program
JP2021518292A JP7424373B2 (ja) 2019-05-09 2019-05-09 分析装置、分析方法及び分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/018637 WO2020225923A1 (ja) 2019-05-09 2019-05-09 分析装置、分析方法及び分析プログラム

Publications (1)

Publication Number Publication Date
WO2020225923A1 true WO2020225923A1 (ja) 2020-11-12

Family

ID=73051357

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018637 WO2020225923A1 (ja) 2019-05-09 2019-05-09 分析装置、分析方法及び分析プログラム

Country Status (3)

Country Link
US (1) US20220222544A1 (ja)
JP (1) JP7424373B2 (ja)
WO (1) WO2020225923A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185899A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 情報処理装置、情報処理方法、検知モデルの製造方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364608A1 (en) * 2015-06-10 2016-12-15 Accenture Global Services Limited System and method for automating information abstraction process for documents
JP2017059205A (ja) * 2015-09-17 2017-03-23 パナソニックIpマネジメント株式会社 主題推定システム、主題推定方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2973106A1 (en) 2013-03-15 2016-01-20 The Cleveland Clinic Foundation Self-evolving predictive model
JP2017102865A (ja) 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364608A1 (en) * 2015-06-10 2016-12-15 Accenture Global Services Limited System and method for automating information abstraction process for documents
JP2017059205A (ja) * 2015-09-17 2017-03-23 パナソニックIpマネジメント株式会社 主題推定システム、主題推定方法およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUJINO, AKINORI ET AL.: "Semi-supervised Learning of Multi-class Classifiers for Multi-component Data", TRANSACTIONS OF THE INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 48, no. SIG15 (TOM18), 15 October 2007 (2007-10-15), pages 163 - 175, XP055759366, ISSN: 0387-5806 *
OKAHANA, TAKATO: "Non-official translation: Proposal for Semi-Supervised Learning Using Random Erasing", IPSJ SIG TECHNICAL REPORT (MULTIMEDIA COMMUNICATION AND DISTRIBUTED PROCESSING (DPS), vol. 2018-DPS-173, no. 5, 11 January 2018 (2018-01-11), pages 1 - 6, ISSN: 2188-8906 *
YANAGISAWA, KEISUKE ET AL.: "Drug clearance pathway prediction using semi-supervised learning", IEICE TECHNICAL REPORT, vol. 114, no. 105, 18 June 2014 (2014-06-18), pages 55 - 60, XP055759365, ISSN: 0913-5685 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185899A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 情報処理装置、情報処理方法、検知モデルの製造方法、およびプログラム
WO2022185531A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 情報処理装置、情報処理方法、検知モデルの製造方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2020225923A1 (ja) 2020-11-12
JP7424373B2 (ja) 2024-01-30
US20220222544A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
US10671933B2 (en) Method and apparatus for evaluating predictive model
Vengerov A reinforcement learning approach to dynamic resource allocation
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
WO2018157752A1 (en) Approximate random number generator by empirical cumulative distribution function
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
CN111950810B (zh) 一种基于自演化预训练的多变量时间序列预测方法和设备
Gerostathopoulos et al. How do we evaluate self-adaptive software systems?: A ten-year perspective of SEAMS
CN112508723A (zh) 基于自动择优建模的金融风险预测方法、装置和电子设备
WO2020225923A1 (ja) 分析装置、分析方法及び分析プログラム
JP2018190128A (ja) 設定装置、分析システム、設定方法および設定プログラム
CN112669084B (zh) 策略确定方法、设备及计算机可读存储介质
JPWO2019189249A1 (ja) 学習装置、学習方法、及びプログラム
JP6577516B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
JP6659618B2 (ja) 分析装置、分析方法及び分析プログラム
KR20210143464A (ko) 데이터 분석 장치 및 그것의 데이터 분석 방법
JP6577515B2 (ja) 分析装置、分析方法及び分析プログラム
Toporkov et al. Machine learning-based scheduling and resources allocation in distributed computing
Caymes-Scutari et al. Dynamic Tuning of a Forest Fire Prediction Parallel Method
JP6588494B2 (ja) 抽出装置、分析システム、抽出方法及び抽出プログラム
JP6611268B2 (ja) 特定装置、分析システム、特定方法及び特定プログラム
CN115409168A (zh) 神经网络优化方法及其装置
US20210271507A1 (en) Apparatus, system and method for agentless constraint detection in the cloud with ai
JPWO2020121378A1 (ja) 学習装置および学習方法
JP6805313B2 (ja) 特定装置、特定方法及び特定プログラム
US20230267007A1 (en) System and method to simulate demand and optimize control parameters for a technology platform

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19928054

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021518292

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19928054

Country of ref document: EP

Kind code of ref document: A1