WO2020075255A1 - 学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 - Google Patents
学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 Download PDFInfo
- Publication number
- WO2020075255A1 WO2020075255A1 PCT/JP2018/037870 JP2018037870W WO2020075255A1 WO 2020075255 A1 WO2020075255 A1 WO 2020075255A1 JP 2018037870 W JP2018037870 W JP 2018037870W WO 2020075255 A1 WO2020075255 A1 WO 2020075255A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- prediction
- data
- learning
- task
- new
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
Definitions
- the present disclosure relates to a learning device, a learning method, and a non-transitory computer-readable medium in which a program is stored, and particularly to a technique for generating a prediction model.
- Multitask learning is a technique used when there are multiple related prediction tasks and there is little learning data for each. It is known that when there is a very small amount of learning data in a certain prediction task, sufficient learning cannot be performed and the prediction value for new data deviates significantly. Therefore, a multitask learning technique that handles a plurality of related prediction tasks at the same time and learns by using the learning data of other prediction tasks is important for improving the prediction accuracy.
- Non-Patent Document 1 which discloses multitask learning
- the relationship between prediction tasks and the degree of similarity are given in advance by a data structure called a tree structure.
- this method cannot be applied when the relationship and similarity between prediction tasks are not known in advance, or when the relationship and similarity between prediction tasks cannot be represented by a tree structure.
- the similarity of the prediction task is obtained from the learning data of each prediction task. This method can be applied when the similarity of the prediction tasks is not given quantitatively, but when the learning data of each prediction task is very small, the similarity of the prediction tasks cannot be accurately calculated, and the prediction The accuracy is low.
- the multitask learning method when the data showing the relationship between the prediction tasks is not given and the data for learning of each prediction task is very small, the similarity of the prediction tasks can be accurately calculated. It cannot be estimated. Therefore, the prediction accuracy may not be improved as compared with the case where prediction is performed for each prediction task. That is, the multi-task learning using the technique disclosed in Non-Patent Document 1 or Non-Patent Document 2 may not be able to make an appropriate prediction. Therefore, there is a demand for a learning device that uses a new learning method that uses data on a plurality of prediction tasks.
- the present disclosure has been made to solve such a problem, and provides a learning device, a learning method, and a program capable of performing learning by a new learning method using data on a plurality of prediction tasks.
- the purpose is to provide.
- a learning device A prediction task expression acquisition unit that acquires prediction task expression data that represents the prediction target of the prediction task, A learning data acquisition unit that acquires learning data for the prediction task, A new data generation unit that generates new learning data using the prediction task expression data and the learning data for a plurality of the prediction tasks; A prediction model generation unit that generates a prediction model using the learning data generated by the new data generation unit.
- the learning method Obtain the prediction task expression data that expresses the prediction target of the prediction task, Acquire learning data for the prediction task, Generating new learning data using the prediction task expression data and the learning data for a plurality of the prediction tasks, A prediction model is generated using the generated learning data.
- the program according to the third aspect of the present disclosure is A prediction task expression acquisition step of acquiring prediction task expression data expressing a prediction target of the prediction task, A learning data acquisition step of acquiring learning data for the prediction task; A new data generating step of generating new learning data using the prediction task expression data and the learning data for a plurality of the prediction tasks; A prediction model generation step of generating a prediction model using the learning data generated in the new data generation step.
- a learning device a learning method, and a program that can perform learning by a new learning method using data on a plurality of prediction tasks.
- FIG. 1 is a block diagram showing an example of the configuration of a learning device according to the outline of the embodiment.
- the learning device 1 includes a prediction task expression acquisition unit 2, a learning data acquisition unit 3, a new data generation unit 4, and a prediction model generation unit 5.
- Prediction task expression acquisition unit 2 acquires prediction task expression data.
- the prediction task expression data is data expressing the prediction target of the prediction task. That is, the prediction task expression data is data expressing side information of the prediction task. That is, when a certain prediction task is a task that predicts the prediction content of Y (for example, sales) for the prediction target of X (for example, product), the prediction task expression acquisition unit 2 sets X as the prediction task expression data. Get the data to represent.
- the side information may also be referred to as meta information or supplementary information.
- the predicted task expression acquisition unit 2 reads and acquires predicted task expression data stored in a recording medium, for example, but acquires predicted task expression data transmitted by another device via a wired or wireless network. Good. As described above, the prediction task expression acquisition unit 2 has only to acquire the prediction task expression data, and the acquisition method is arbitrary.
- the learning data acquisition unit 3 acquires learning data for the prediction task.
- the learning data acquisition unit 3 acquires learning data about a prediction task corresponding to the prediction task expression data acquired by the prediction task expression acquisition unit 2.
- the learning data is training data used for supervised learning, and is data including a set of feature quantities and correct answer data.
- the learning data acquisition unit 3 reads and acquires the learning data stored in the recording medium, for example, but may acquire the learning data transmitted by another device via a wired or wireless network. . In this way, the learning data acquisition unit 3 has only to acquire the learning data, and the acquisition method is arbitrary.
- the new data generation unit 4 generates new learning data by using the prediction task expression data for a plurality of prediction tasks and the learning data. That is, the new data generation unit 4 generates new learning data that cannot be configured only from the feature amount of the prediction task expression data or the prediction task data.
- the learning data generated by the new data generation unit 4 is learning data for one new prediction task that is a prediction task that is a combination of the plurality of prediction tasks.
- Prediction model generation unit 5 uses the learning data generated by new data generation unit 4 to generate a prediction model. More specifically, the prediction model generation unit 5 performs machine learning using the learning data generated by the new data generation unit 4 on a model of a predetermined type or a model specified by the user, Generate a trained predictive model.
- the learning device 1 generates a prediction model using the prediction task expression data for a plurality of prediction tasks and the new learning data generated using the learning data.
- the degree of similarity between the plurality of prediction tasks does not have to be specified in advance. Therefore, the learning device 1 can perform learning (that is, generation of a prediction model) by a new learning method using data on a plurality of prediction tasks.
- FIG. 2 is a block diagram showing an example of the configuration of the learning device 10 according to the exemplary embodiment.
- the learning device 10 includes a prediction task expression acquisition unit 101, a learning data acquisition unit 102, a new data generation unit 103, a prediction model generation unit 104, a prediction data acquisition unit 105, and a prediction model utilization unit.
- the information storage unit 107 shown in FIG. 1 is an information storage medium that stores arbitrary data.
- the information storage unit 107 may be a storage such as a hard disk drive or a solid state drive, or may be a memory or the like.
- the information storage unit 107 is shown as a device external to the learning device 10, but may be included in the learning device 10.
- the information storage unit 107 stores prediction task expression data, learning data, prediction data, and the like.
- the predicted task expression acquisition unit 101 corresponds to the predicted task expression acquisition unit 2 in FIG. 1, acquires predicted task expression data from the information storage unit 107, and outputs the acquired predicted task expression data to the new data generation unit 103.
- the prediction task expression acquisition unit 101 acquires prediction task expression data for various prediction tasks.
- the prediction task expression acquisition unit 101 acquires prediction task expression data for each of a plurality of prediction tasks having the same prediction content.
- Prediction task expression data may be a vector indicating the elements that make up the prediction target. That is, the prediction task expression data may be data in which the elements forming the prediction target are represented by vector elements.
- the vector showing the elements constituting the forecast target will be described by taking a forecast task for forecasting sales of a personal computer as an example.
- the personal computer is equipped with a CPU (central processing unit) of company A or company B and a memory of company C or company D.
- the personal computer (prediction target) in which the CPU of company A and the memory of company D are mounted can be represented by a four-dimensional vector consisting of 0 and 1 in the prediction task representation data as shown in FIG. it can.
- the element that constitutes the prediction target is not limited to the element that physically constitutes the prediction target, and may be any element that constitutes the attribute of the prediction target. Therefore, for example, the type of product to be sold, the manufacturer, and the like can also be elements that constitute the prediction target.
- the prediction target can be expressed by a vector in which only the component corresponding to the prediction target is set to 1 and the other components are set to 0 out of various types of products and various makers.
- one vector component is associated with one attribute value.
- one vector component is associated with a plurality of attribute values.
- the attribute may be specified by the value of the vector component.
- the prediction task expression data may be represented by the following two-dimensional vector. That is, if the value of the first component of this two-dimensional vector is 1, it means that the personal computer is equipped with the CPU of company A. If the value is 0, it is the personal computer equipped with the CPU of company B. Indicates that there is.
- the value of the second component of this two-dimensional vector is 1, it indicates that the personal computer is equipped with the memory of company C, and if the value is 0, the personal computer is equipped with the memory of company D. Is shown.
- the learning data acquisition unit 102 corresponds to the learning data acquisition unit 3, acquires learning data for the prediction task from the information storage unit 107, and outputs the acquired learning data to the new data generation unit 103. Specifically, the learning data acquisition unit 102 acquires learning data for each prediction task corresponding to the prediction task expression data acquired by the prediction task expression acquisition unit 101. That is, the prediction task expression acquisition unit 101 and the learning data acquisition unit 102 acquire prediction task expression data for a certain prediction task and learning data for this prediction task. In other words, the prediction task expression acquisition unit 101 and the learning data acquisition unit 102 acquire prediction task expression data and learning data for each prediction task for n (n is an integer of 2 or more) types of prediction tasks.
- the learning data is, as described above, data including a set of feature amounts and correct answer data.
- the feature amount data may be data in which the feature amount information is represented by a vector.
- the learning data includes, for example, data (feature amount vector) in which feature amount information such as the price of a product or the date of sale is expressed as a vector, and correct answer data that is data of the actual sales quantity. It is data consisting of pairs.
- the new data generation unit 103 will be described.
- the new data generation unit 103 in the learning phase of the prediction model will be described, and the new data generation unit 103 in the prediction phase using the learned prediction model will be described later.
- the new data generation unit 103 in the learning phase corresponds to the new data generation unit 4 in FIG. 1 and generates new learning data using prediction task expression data and learning data for a plurality of prediction tasks. That is, the new data generation unit 103 uses the outputs of the prediction task expression acquisition unit 101 and the learning data acquisition unit 102 to generate new learning data.
- the new learning data is data for learning one prediction model corresponding to the plurality of prediction tasks. That is, the new data generation unit 103 in the learning phase generates learning data for one new prediction task, which is a prediction task that is a combination of the plurality of prediction tasks.
- the new data generation unit 103 is calculated for each prediction task by combining the prediction task expression data acquired by the prediction task expression acquisition unit 101 and the learning data acquired by the learning data acquisition unit 102. New learning data including a feature amount is generated. As a result, it is possible to generate a feature amount that cannot be configured only from the feature amount included in the prediction task expression data acquired by the prediction task expression acquisition unit 101 or the learning data acquired by the learning data acquisition unit 102.
- the new data generation unit 103 applies the same generation rule to each of the plurality of prediction tasks to generate new learning data.
- the new learning data is generated by performing feature amount engineering on the data obtained by combining the prediction task expression data and the feature amount of the learning data to generate a new feature amount, and the new feature amount and the learning data. It is generated by generating a set with the correct answer data of. Therefore, the new data generation unit 103 performs a process of providing a user interface for performing feature quantity engineering. For example, the new data generation unit 103 receives an input designating a feature quantity engineering method from a user. Then, the new data generation unit 103 refers to the library corresponding to the feature quantity engineering method instructed by the user among the predetermined libraries included in the new data generation unit 103, and performs the feature quantity engineering process according to the library. Run. Then, the characteristic amount obtained as the execution result is displayed and output. These processes are repeated as needed. For example, the user determines whether or not the series of processes described above is repeatedly performed, that is, whether or not to try to generate another characteristic amount by another characteristic amount engineering method.
- the new data generation unit 103 may select a predetermined feature quantity engineering method without being specified by the user.
- any method may be used for the feature quantity engineering.
- the product of one element of the prediction task expression data acquired by the prediction task expression acquisition unit 101 and one element of the characteristic amount of the learning data acquired by the learning data acquisition unit 102 may be set as the new characteristic amount.
- the value of one element of the prediction task expression data exceeds the threshold value, the value of one element of the feature amount of the learning data acquired by the learning data acquisition unit 102 is used as it is, and is set to 0 otherwise. In this way, a new feature amount may be generated.
- the new data generation unit 103 combines the prediction task expression data represented by a vector and the feature amount of the learning data represented by the vector into a polynomial feature amount and the learning data for each prediction task. It is also possible to generate a pair with the correct answer data of and use this as new learning data.
- combining two vectors means arranging two vectors into one vector. For example, combining an n-dimensional vector and an m-dimensional vector results in an n + m-dimensional vector.
- the polynomial feature amount is a feature amount in which each term in the polynomial expression of the input feature amount is an element. For example, when x and y are given, there are six quadratic polynomial feature quantities of 1, x, y, xx, xy, and yy.
- the prediction model generation unit 104 corresponds to the prediction model generation unit 5 in FIG. 1, uses the output of the new data generation unit 103 to perform prediction model learning processing, and outputs a learned prediction model.
- the prediction model is selected by the user, for example.
- the prediction model generation unit 104 performs model learning processing on the prediction model instructed by the user using the learning data output by the new data generation unit 103.
- Any prediction model or learning method may be used.
- the prediction model may be a linear regression model and the learning method may be a gradient descent method, or the prediction model may be a logistic regression model and the learning method may be a stochastic gradient descent method.
- the prediction model generation unit 104 outputs the learned prediction model to the prediction model use unit 106.
- the prediction model generation unit 104 may output the learned prediction model to the information storage unit 107.
- the prediction model generation unit 104 may evaluate the feature amount generated by the new data generation unit 103 and the selected prediction model by cross-validation.
- Cross-validation is a method for evaluating the goodness of selected feature quantity engineering and prediction models from only learning data. This is to create a prediction model using only a part of the learning data group and use the remaining learning data as prediction data to evaluate how well the prediction model makes predictions. It is a technique for scoring the good and bad points of.
- the prediction model generation unit 104 may display and output the evaluation result. From this evaluation result, the user can determine whether to try another combination of the feature quantity engineering and the prediction model.
- the prediction data acquisition unit 105 acquires data used in the prediction phase. Specifically, the prediction data acquisition unit 105 acquires prediction data, which is a feature amount used in prediction using the prediction model generated by the prediction model generation unit 104. This prediction data is for any target task that is one of the prediction tasks used for generating the learning data of the prediction model (that is, the new learning data generated by the new data generating unit 103). This is prediction data. As described above, the learning data acquisition unit 102 acquires a feature amount and correct answer data set for a certain prediction task, but the prediction data acquisition unit 105 acquires the feature amount for the prediction task and corrects the correct answer data. Does not get. The value corresponding to the correct answer data is obtained as the prediction result by the prediction model utilization unit 106.
- the new data generation unit 103 in the prediction phase makes a new prediction from the prediction task expression data for any prediction task used for generating the learning data of the prediction model in the learning phase and the prediction data of this prediction task. Data for use is generated. That is, the new data generation unit 103 creates new prediction data from the prediction task expression data for the target task acquired by the prediction task expression acquisition unit 101 and the prediction data for the target task acquired by the prediction data acquisition unit 105. To generate. In this way, the new data generation unit 103 in the prediction phase generates prediction data for one new prediction task which is a prediction task that is a collection of a plurality of prediction tasks used in the learning phase.
- the new data generation unit 103 in the prediction phase applies the same generation rule as the generation rule applied when generating new learning data in the learning phase to generate prediction data. That is, the feature quantity engineering for generating new prediction data is the same as that for generating the learning data.
- the new prediction data generated in the prediction phase is different from the learning data generated in the learning phase in that correct data does not exist.
- the prediction model utilization unit 106 uses the prediction model generated by the prediction model generation unit 104 and the prediction data generated by the new data generation unit 103 in the prediction phase to perform prediction on the target task.
- the prediction model utilization unit 106 inputs the prediction data generated by the new data generation unit 103 into the prediction model generated by the prediction model generation unit 104, and outputs the prediction result obtained from the prediction model.
- FIG. 4 is a block diagram showing an example of the hardware configuration of the learning device 10.
- the learning device 10 includes, for example, a network interface 51, a memory 52, and a processor 53.
- the network interface 51 is used to communicate with other devices.
- the network interface 51 is used, for example, when the information storage unit 107 exists on the network as an external device of the learning device 10.
- the network interface 51 may include, for example, a network interface card (NIC).
- NIC network interface card
- the memory 52 is composed of, for example, a combination of a volatile memory and a non-volatile memory.
- the memory 52 is used to store software (computer program) including one or more instructions executed by the processor 53.
- the processor 53 may be, for example, a microprocessor, MPU (Micro Processor Unit), CPU (Central Processing Unit), or the like.
- the processor 53 may include a plurality of processors.
- the processor 53 reads the computer program from the memory 52 and executes the computer program to process each component of the learning device 10 illustrated in FIG. 2.
- Non-transitory computer-readable media include various types of tangible storage media, such as tangible storage media.
- Examples of non-transitory computer-readable media are magnetic recording media (eg, flexible disk, magnetic tape, hard disk drive), magneto-optical recording media (eg, magneto-optical disk), CD-ROM (Read Only Memory) CD-R, CD -Includes R / W and semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
- the program may be supplied to the computer by various types of transitory computer readable mediums (transitory computer readable medium).
- Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
- Transitory computer readable media can provide the program to a computer via a wired communication line such as an electric wire and an optical fiber, or a wireless communication line.
- FIG. 5 is a flowchart showing an example of the operation of the learning device 10 in the learning phase.
- the operation of the learning device 10 in the learning phase will be described with reference to FIG.
- step S100 the prediction task expression acquisition unit 101 acquires prediction task expression data for a plurality of prediction tasks.
- step S101 the learning data acquisition unit 102 acquires learning data for each prediction task corresponding to the prediction task expression data acquired in step S100.
- the new data generation unit 103 obtains the outputs of the prediction task expression acquisition unit 101 and the learning data acquisition unit 102, and generates new learning data for each prediction task. That is, the new data generation unit 103 generates new learning data according to the generation rule determined based on the feature quantity engineering for the data in which the prediction task expression data for a certain prediction task and the feature quantity for the prediction task are combined. To do. The set of feature amount and correct answer data sets obtained based on one prediction task constitutes a part of a new learning data group. Then, the new data generation unit 103 generates new learning data according to the same generation rule for another prediction task. A set of new learning data generated based on each prediction task becomes a new learning data group used for the learning process in the prediction model generation unit 104.
- step S103 the prediction model generation unit 104 learns a prediction model using the learning data generated by the new data generation unit 103. Any prediction model or learning method may be used. Thereby, the learned prediction model is generated.
- FIG. 6 is a flowchart showing an example of the operation of the learning device 10 in the prediction phase.
- the operation of the learning device 10 in the learning phase will be described with reference to FIG.
- step S200 the prediction task expression acquisition unit 101 acquires prediction task expression data for any prediction task (target task) used to generate new learning data in the learning phase.
- step S201 the prediction data acquisition unit 105 acquires prediction data for the target task.
- step S202 the new data generation unit 103 applies the same generation rule as in the learning phase to the prediction task expression data of the target task and the prediction data of the target task to generate new prediction data. To generate.
- step S203 the prediction model using unit 106 performs prediction using the prediction model generated in the learning phase and the prediction data generated in step S202.
- the learning data generated by the new data generation unit 103 includes the information of the prediction task expression data and the information of the feature amount of the prediction data for each prediction task, a separate prediction model is created for each task. It enables more accurate prediction than the method. For example, there are three prediction tasks in which the prediction task expression data is represented by a one-dimensional vector, and there is one set of feature quantity and correct answer data for each task, and the feature quantity is a two-dimensional vector. Sometimes I think about predicting with linear regression. In linear regression performed for each task, it is necessary to determine a coefficient corresponding to each dimension of the feature amount, and therefore it is necessary to solve a two-variable linear equation for each task.
- the solution of the linear equation becomes indefinite, and there are infinite solutions. If only one of the two features is used, the solution of the linear equation is uniquely determined, but since one feature cannot be used to determine which feature should be selected, assumptions such as prior knowledge are necessary. Without it, there is no guarantee that a valid prediction model can be constructed.
- the prediction task expression data (one-dimensional) and the feature amount (two-dimensional) of the learning data are combined to generate the feature amount.
- the dimension of the feature vector is at least three dimensions. Become. For the sake of simplicity, if feature engineering is not considered, there will be three feature sets and correct data sets for the new prediction task, and the solution of the linear equation will be uniquely determined. That is, the coefficient of the feature amount can be determined by linear regression only from the data without any prior knowledge assumption. As described above, when the data of each task is small, a new prediction task is configured and the learning data is collected, so that a proper prediction can be performed.
- the present embodiment it is possible to make a more accurate prediction, as compared with a method in which only the learning data of each task is collected to form the learning data of a new prediction task.
- the same prediction model is created for each prediction task when the valid prediction model differs for each prediction task. I will make it. That is, even if different prediction tasks have the same feature amount of the prediction data, the prediction values will be the same.
- the prediction task expression data of each prediction task is added to the feature amount in the learning data of the new prediction task, the feature amount of the prediction data is the same if the prediction task is different.
- different prediction values can be issued. That is, a prediction model that is not the same for each prediction task is created. Therefore, it is possible to perform prediction with better accuracy.
- the details of the embodiment have been described above, but further description will be given here using a specific example.
- the first is the task of predicting the sales volume of Fukushima peaches.
- the second task is to predict the number of grapes sold in Fukushima.
- the third task is to predict the sales volume of Yamanashi peaches.
- the fourth task is to predict the number of Yamanashi grapes sold.
- FIG. 7 is a diagram showing an example of predictive task expression data acquired by the predictive task expression acquiring unit 101 regarding the above-described specific example.
- the elements forming the prediction target are expressed using vectors. Specifically, it indicates whether the first component of the vector is from Fukushima and whether the second component of the vector is peach. That is, when the value of the first component of the vector is 1, it indicates that the prediction target is from Fukushima, and when the value of the first component of the vector is 0, it indicates that the prediction target is from Yamanashi. Similarly, when the value of the second component of the vector is 1, it indicates that the prediction target is thigh, and when the value of the second component of the vector is 0, it indicates that the prediction target is grape.
- FIG. 8 is a diagram showing an example of learning data of each prediction task acquired by the learning data acquisition unit 102 regarding the above-described specific example.
- one learning data is acquired for each of the four prediction tasks, and a total of four learning data are acquired.
- the price is the feature amount
- the sales quantity is the correct answer data.
- the prediction task expression acquisition unit 101 acquires the vector shown in FIG. 7 as prediction task expression data
- the learning data acquisition unit 102 acquires the learning data shown in FIG.
- the new data generation unit 103 uses the respective outputs of the prediction task expression acquisition unit 101 and the learning data acquisition unit 102 to generate, for example, a set of feature quantities and correct answer data as shown in FIG.
- a new feature amount is obtained by multiplying the price by each component of the vector of the prediction task expression data and adding a constant term.
- the new data generation unit 103 uses the prediction task expression vector (1, 1) of FIG. 7 that represents the type and origin of the product, the feature amount vector (300) that represents the price of FIG. To get.
- the new data generation unit 103 combines the prediction task expression vector (1,1) and the price (300) (one-dimensional vector) to create a vector (1,1,300) (three-dimensional vector).
- feature quantity engineering is performed. A component obtained by multiplying the first component (1) and the second component (1) of the created three-dimensional vector by the third component (300) is added to the vector. That is, at this point, a five-dimensional vector of (1,1,300,300,300) is generated.
- the feature quantity of constant 1 is added to this five-dimensional vector. Therefore, a 6-dimensional vector of (1,1,300,300,300,1) is generated. Then, only the latter half three-dimensional component (300, 300, 1) of the six-dimensional vector is extracted and used as the characteristic amount for the new prediction task, thereby ending the characteristic amount engineering. Finally, the new data generation unit 103 sets the set of the feature amount and the correct answer data (sales) of the learning data, which has been created, as one of the learning data for the new prediction task. Other prediction tasks (that is, Fukushima grapes, Yamanashi peaches, and Yamanashi grapes) are similarly performed, and finally learning data as shown in FIG. 9 is obtained.
- a prediction model in which sales increase with a decrease in price is generated when a constant feature amount is added to learning data.
- the specific value of the constant feature amount may be any value as long as it is the same value in all data, but it is customary to set it to 1 in order to simplify the mathematical expression. Two or more learning data are required to uniquely determine a and b.
- the prediction model generation unit 104 learns the prediction model using the four learning data generated by the new data generation unit 103, and generates the learned prediction model.
- the vector of model parameters of the prediction model is (-0.611, 0.221, 263).
- the last component of the vector represents a constant, and the other components are the coefficients of the first-order terms. That is, the formula for predicting the sales quantity is ⁇ 0.611 ⁇ X + 0.221 ⁇ Y + 263.
- X corresponds to the first component of the prediction data generated by the new data generation unit 103 in the prediction phase
- Y corresponds to the second component.
- the prediction task expression data and the prediction data are input to the new data generation unit 103.
- (1, 1) is input to the new data generation unit 103 as the prediction task expression and (100) as the prediction data.
- the new data generation unit 103 processes these data according to the same generation rule as in the learning phase, and outputs (100, 100, 1) as prediction data for the new prediction task.
- the prediction model utilization unit 106 uses the components other than the components corresponding to the constant term of the prediction data, that is, the first component (above X) and the second component (above Y), and the learned model to calculate sales. Calculate the predicted value of.
- the prediction model utilization unit 106 calculates ⁇ 0.611 ⁇ 100 + 0.221 ⁇ 100 + 263 and outputs a prediction value of 224. This means that 150 pieces of Fukushima thighs were sold when they were sold for 300 yen, but sales were increased due to lower prices, which is a reasonable forecast model.
- the relationship between the prediction tasks is not given as a tree structure, so the technique described in Non-Patent Document 1 that assumes that a tree structure is given cannot be used. Further, the method described in Non-Patent Document 2 for obtaining the similarity of the prediction task may result in lower prediction accuracy than the present embodiment.
- the price is not proportional to the number of units sold, which is not a valid prediction model. As a result, it is considered that such a prediction model cannot accurately estimate the similarity of the prediction task (here, the product), and the final prediction accuracy becomes low.
- this embodiment can be applied to various prediction processes. For example, it can be applied to the sales forecast of a product in the case where there are many types of products but the sales period is short and there is almost no sales record.
- the sales forecast of each product is used as a prediction task
- the data that expresses the characteristics of each product is used as the prediction task expression data
- features such as prices that all products have in common are used as feature quantities and
- the above-described embodiment can be applied by associating the sales quantity with the correct answer data. Further, it can be applied to the prediction of the number of users of a new route when the number of stations is large but the operation has just started and there is almost no use record.
- the number of users at each station is used as a prediction task
- the data that expresses the characteristics of each station is used as the prediction task expression data
- features such as the length of the platform that all stations have in common are used as feature quantities.
- a prediction task expression acquisition unit that acquires prediction task expression data that represents the prediction target of the prediction task, A learning data acquisition unit that acquires learning data for the prediction task, A new data generation unit that generates new learning data using the prediction task expression data and the learning data for a plurality of the prediction tasks; A prediction model generation unit that generates a prediction model using the learning data generated by the new data generation unit.
- the new data generation unit includes the new learning including a feature amount calculated by combining the prediction task expression data acquired by the prediction task expression acquisition unit and the learning data acquired by the learning data acquisition unit.
- the learning device according to attachment 1, which generates data for use.
- the learning device according to appendix 1 or 2, wherein the prediction task expression data is a vector indicating an element that constitutes a prediction target.
- the learning data acquired by the learning data acquisition unit is a set of a feature amount vector and correct answer data.
- the learning device according to any one of appendices 1 to 3.
- a prediction data acquisition unit that acquires prediction data for a target task that is one of the prediction tasks used for generating the new learning data, A prediction model using unit for outputting a prediction result using the prediction model, The new data generation unit further generates new prediction data using the prediction task expression data and the prediction data for the target task, The prediction model utilization unit inputs the prediction data generated by the new data generation unit to the prediction model, and outputs a prediction result obtained from the prediction model. Learning device.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
複数の予測タスクについてのデータを用いた新規な学習方法による学習を行なうことができる学習装置、学習方法、及びプログラムを提供する。学習装置(1)は、予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部(2)と、前記予測タスクに対する学習用データを取得する学習用データ取得部(3)と、複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部(4)と、前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部(5)とを有する。
Description
本開示は、学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体に関し、特に予測モデルを生成する技術に関する。
マルチタスク学習は、複数の関連する予測タスクがあってそれぞれの学習用データが少ないときに使われる技術である。ある予測タスクで学習用データが非常に少ないとき、充分な学習ができず、新たなデータに対する予測値が大きく外れてしまうことが知られている。そこで、複数の関連する予測タスクを同時に扱って他の予測タスクの学習用データも使って学習するマルチタスク学習技術が、予測精度を高めるために重要となっている。
しかしながら、マルチタスク学習では、一般的に、予測タスクの類似度がわからないと他の予測タスクの学習用データを利用できない。マルチタスク学習について開示している非特許文献1では、予測タスク間の関係と類似度があらかじめ木構造というデータ構造で与えられている。しかし、予測タスク間の関係と類似度が予めわからない場合や、予測タスク間の関係と類似度が木構造では表せない場合にはこの方法を適用することはできない。これに対し、非特許文献2では、予測タスクの類似度を各予測タスクの学習用データから求めている。この方法は、予測タスクの類似度が定量的に与えられていない場合にも適用できるが、各予測タスクの学習用データが非常に少ないとき、予測タスクの類似度を精確に求められず、予測精度が低くなる。
Goenitz, N., Widmer, C., Zeller, G., Kahles, A., Raetsch, G., & Sonnenburg, S, "Hierarchical multitask structured output learning for large-scale sequence segmentation", In Advances in Neural Information Processing Systems, 2011, pp. 2690-2698.
Ando, R. K., & Zhang, T. "A framework for learning predictive structures from multiple tasks and unlabeled data", Journal of Machine Learning Research, 6 (Nov), 2005, pp.1817-1853.
一般的に、マルチタスク学習方法では、予測タスク間の関係を表すデータが与えられておらず、かつ、各予測タスクの学習用データが非常に少ない場合には、予測タスクの類似度を精確に推定できない。このため、予測タスクごとに予測をした場合と比べて予測精度が向上しない恐れがある。すなわち、非特許文献1又は非特許文献2に開示された技術を用いたマルチタスク学習では、適切な予測ができない恐れがある。
したがって、複数の予測タスクについてのデータを用いた新規な学習方法を利用した学習装置が求められている。
したがって、複数の予測タスクについてのデータを用いた新規な学習方法を利用した学習装置が求められている。
本開示は、このような問題点を解決するためになされたものであり、複数の予測タスクについてのデータを用いた新規な学習方法による学習を行なうことができる学習装置、学習方法、及びプログラムを提供することを目的とする。
本開示の第1の態様にかかる学習装置は、
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する。
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する。
本開示の第2の態様にかかる学習方法では、
予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する。
予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する。
本開示の第3の態様にかかるプログラムは、
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させる。
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させる。
本開示によれば、複数の予測タスクについてのデータを用いた新規な学習方法による学習を行なうことができる学習装置、学習方法、及びプログラムを提供することができる。
<実施形態の概要>
実施形態の詳細を説明する前に、まず、実施形態の概要について説明する。図1は、実施形態の概要にかかる学習装置の構成の一例を示すブロック図である。図1に示すように、学習装置1は、予測タスク表現取得部2と、学習用データ取得部3と、新規データ生成部4と、予測モデル生成部5とを有する。
実施形態の詳細を説明する前に、まず、実施形態の概要について説明する。図1は、実施形態の概要にかかる学習装置の構成の一例を示すブロック図である。図1に示すように、学習装置1は、予測タスク表現取得部2と、学習用データ取得部3と、新規データ生成部4と、予測モデル生成部5とを有する。
予測タスク表現取得部2は、予測タスク表現データを取得する。予測タスク表現データは、予測タスクの予測対象を表現するデータである。すなわち、予測タスク表現データは、予測タスクのサイドインフォメーション(side information)を表現するデータである。つまり、ある予測タスクが、X(例えば商品)という予測対象についてのY(例えば、売上)という予測内容を予測するタスクである場合、予測タスク表現取得部2は、予測タスク表現データとして、Xを表現するデータを取得する。なお、サイドインフォメーションは、メタ情報又は補足情報とも称されることがある。
予測タスク表現取得部2は、例えば、記録媒体に記憶された予測タスク表現データを読み出して取得するが、有線又は無線のネットワークを介して、他の装置が送信した予測タスク表現データを取得してもよい。このように、予測タスク表現取得部2は、予測タスク表現データを取得できればよく、その取得方法は任意である。
学習用データ取得部3は、予測タスクに対する学習用データを取得する。学習用データ取得部3は、予測タスク表現取得部2により取得された予測タスク表現データに対応する予測タスクについての学習用データを取得する。学習用データは、教師あり学習に使われる訓練データであり、特徴量と正解データの組からなるデータである。
学習用データ取得部3は、例えば、記録媒体に記憶された学習用データを読み出して取得するが、有線又は無線のネットワークを介して、他の装置が送信した学習用データを取得してもよい。このように、学習用データ取得部3は、学習用データを取得できればよく、その取得方法は任意である。
新規データ生成部4は、複数の予測タスクに対する予測タスク表現データと学習用データを用いて新たな学習用データを生成する。すなわち、新規データ生成部4は、予測タスク表現データまたは予測タスク用データの特徴量のみからは構成できない新たな学習用データを生成する。ここで、新規データ生成部4が生成する学習用データは、上記複数の予測タスクをまとめた予測タスクである一つの新たな予測タスクのための学習用データである。
予測モデル生成部5は、新規データ生成部4が生成した学習用データを用いて、予測モデルを生成する。より詳細には、予測モデル生成部5は、所定の種類のモデル又はユーザにより指定された種類のモデルに対し、新規データ生成部4が生成した学習用データを用いた機械学習を行なうことによって、学習済み予測モデルを生成する。
以上説明した通り、学習装置1は、複数の予測タスクに対する予測タスク表現データと学習用データを用いて生成された新たな学習用データを用いて、予測モデルを生成する。ここで、複数の予測タスク間の類似度が予め特定されている必要はない。したがって、学習装置1によれば、複数の予測タスクについてのデータを用いた新規な学習方法による学習(すなわち、予測モデルの生成)を行なうことができる。
以下、実施の形態の詳細について図面を参照して説明する。
[構成の説明]
図2は実施の形態にかかる学習装置10の構成の一例を示すブロック図である。図2で示されるように、学習装置10は、予測タスク表現取得部101と学習用データ取得部102と新規データ生成部103と予測モデル生成部104と予測用データ取得部105と予測モデル利用部106とを備える。図1に示す情報記憶部107は、任意のデータを記憶する情報記憶媒体である。情報記憶部107は、ハードディスクドライブ、ソリッドステートドライブなどのストレージであってもよいし、メモリなどであってもよい。図1に示した例では、情報記憶部107は、学習装置10の外部の機器として示されているが、学習装置10に含まれていてもよい。情報記憶部107は、予測タスク表現データ、学習用データ、予測用データなどを記憶している。
[構成の説明]
図2は実施の形態にかかる学習装置10の構成の一例を示すブロック図である。図2で示されるように、学習装置10は、予測タスク表現取得部101と学習用データ取得部102と新規データ生成部103と予測モデル生成部104と予測用データ取得部105と予測モデル利用部106とを備える。図1に示す情報記憶部107は、任意のデータを記憶する情報記憶媒体である。情報記憶部107は、ハードディスクドライブ、ソリッドステートドライブなどのストレージであってもよいし、メモリなどであってもよい。図1に示した例では、情報記憶部107は、学習装置10の外部の機器として示されているが、学習装置10に含まれていてもよい。情報記憶部107は、予測タスク表現データ、学習用データ、予測用データなどを記憶している。
予測タスク表現取得部101は、図1の予測タスク表現取得部2に相当し、予測タスク表現データを情報記憶部107から取得し、取得した予測タスク表現データを新規データ生成部103に出力する。予測タスク表現取得部101は、様々な予測タスクについての予測タスク表現データを取得する。予測タスク表現取得部101は、予測内容が共通する複数の予測タスクのそれぞれについての予測タスク表現データを取得する。
予測タスク表現データは、予測対象を構成する要素を示すベクトルであってもよい。すなわち、予測タスク表現データは、予測対象を構成する要素をベクトルの要素で表したデータであってもよい。予測対象を構成する要素を示すベクトルについて、パソコンの売上を予測する予想タスクを例に説明する。ここで、パソコンにA社またはB社のCPU(central processing unit)とC社またはD社のメモリが搭載されているとする。このときに、A社のCPUとD社のメモリが搭載されているパソコン(予測対象)は、予測タスク表現データにおいて、図3に示すように0と1からなる4次元ベクトルで表現することができる。なお、予測対象を構成する要素は、物理的に予測対象を構成する要素に限らず、予測対象の属性を構成する任意の要素であってもよい。したがって、例えば、販売する商品の種類やメーカーなども、予測対象を構成する要素となりうる。この場合、例えば、商品の様々な種類や様々なメーカーのうち、予測対象に対応する成分だけを1にしてそれ以外の成分を0にしたようなベクトルにより、予測対象を表現することができる。
なお、図3に示した例では、1つのベクトル成分に対して1つの属性値を対応づけているが、後述する図7に示すように1つのベクトル成分に対して複数の属性値を対応づけて、当該ベクトル成分の値により属性を特定してもよい。具体的に説明すると、図3に示した例では、A社のCPU、B社のCPU、C社のメモリ、D社のメモリのメモリという4つの属性値を4つのベクトル成分で表しているが、例えば、次のような2次元ベクトルで予測タスク表現データを表してもよい。すなわち、この2次元ベクトルの第1の成分は、値が1であればA社のCPUが搭載されたパソコンであることを示し、値が0であればB社のCPUが搭載されたパソコンであることを示す。同様に、この2次元ベクトルの第2の成分は、値が1であればC社のメモリが搭載されたパソコンであることを示し、値が0であればD社のメモリが搭載されたパソコンであることを示す。
学習用データ取得部102は、学習用データ取得部3に相当し、予測タスクに対する学習用データを情報記憶部107から取得し、取得した学習用データを新規データ生成部103に出力する。具体的には、学習用データ取得部102は、予測タスク表現取得部101により取得された予測タスク表現データに対応する予測タスクのそれぞれについての学習用データを取得する。つまり、予測タスク表現取得部101及び学習用データ取得部102により、ある予測タスクについての予測タスク表現データとこの予測タスクについての学習用データが取得される。換言すると、予測タスク表現取得部101及び学習用データ取得部102は、n(nは2以上の整数)種類の予測タスクについて、予測タスク毎に、予測タスク表現データと学習用データを取得する。
ここで、学習用データは、上述した通り、特徴量と正解データの組からなるデータである。特徴量のデータは、特徴量の情報をベクトルで表現したデータであってもよい。その場合、学習用データは、例えば、商品の価格又は販売を行なった日付などといった特徴量の情報をベクトルで表現したデータ(特徴量ベクトル)と、実際の売上個数のデータである正解データとの組からなるデータである。
次に、新規データ生成部103について説明する。ここでは、予測モデルの学習フェーズにおける新規データ生成部103について説明し、学習済み予測モデルを用いた予測フェーズにおける新規データ生成部103については後述する。
学習フェーズにおける新規データ生成部103は、図1の新規データ生成部4に相当し、複数の予測タスクに対する予測タスク表現データと学習用データを用いて新たな学習用データを生成する。すなわち、新規データ生成部103は、予測タスク表現取得部101と学習用データ取得部102のそれぞれの出力を用いて、新たな学習用データを生成する。この新たな学習用データは、上記複数の予測タスクに対応する一つの予測モデルを学習するためのデータである。つまり、学習フェーズにおける新規データ生成部103は、上記複数の予測タスクをまとめた予測タスクである一つの新たな予測タスクのための学習用データを生成する。
より詳細には、新規データ生成部103は、予測タスク毎に、予測タスク表現取得部101が取得した予測タスク表現データと学習用データ取得部102が取得した学習用データとを組み合わせて算出される特徴量を含む新たな学習用データを生成する。これにより、予測タスク表現取得部101が取得した予測タスク表現データ、又は学習用データ取得部102が取得した学習用データに含まれる特徴量のみからは構成できない特徴量を生成することができる。新規データ生成部103は、複数の予測タスクのそれぞれに対し同じ生成規則を適用して新たな学習用データを生成する。
新たな学習用データは、具体的には、予測タスク表現データと学習用データの特徴量とを結合したデータに対する特徴量エンジニアリングを行い新たな特徴量を生成し、新たな特徴量と学習用データの正解データとの組を生成することにより生成される。このため、新規データ生成部103は、特徴量エンジニアリングを行なうためのユーザインタフェースを提供する処理を行なう。例えば、新規データ生成部103は、特徴量エンジニアリングの手法を指定する入力をユーザから受け付ける。そして、新規データ生成部103は、新規データ生成部103が有する所定のライブラリのうち、ユーザから指示された特徴量エンジニアリングの手法に対応するライブラリを参照し、当該ライブラリに従った特徴量エンジニアリング処理を実行する。そして、実行結果として得られた特徴量を表示出力する。必要に応じて、これらの処理が繰り返される。上述した一連の処理が繰り返し行なわれるか否か、すなわち、別の特徴量エンジニアリングの手法により別の特徴量の生成を試みるか否かは、例えば、ユーザにより判断される。
なお、特徴量エンジニアリング手法の選択が自動化されていてもよい。すなわち、新規データ生成部103は、ユーザからの指定によらず所定の特徴量エンジニアリング手法を選択してもよい。ここで、特徴量エンジニアリングにはどのような方法を用いてもよい。例えば、予測タスク表現取得部101が取得した予測タスク表現データの一要素と学習用データ取得部102が取得した学習用データの特徴量の一要素の積を新たな特徴量としてもよい。また、予測タスク表現データの一要素の値が閾値を上回っていた場合に学習用データ取得部102が取得した学習用データの特徴量の一要素の値をそのまま用い、そうでない場合に0とするようにして、新たな特徴量を生成してもよい。
また、新規データ生成部103は、予測タスク毎に、ベクトルで表された予測タスク表現データとベクトルで表された学習用データの特徴量とを結合して多項式特徴量としたデータと学習用データの正解データとの組を生成し、これを新たな学習用データとしてもよい。ここで、二つのベクトルを結合するとは、二つのベクトルを並べて一つのベクトルとすることである。例えば、n次元ベクトルとm次元ベクトルを結合すると、n+m次元ベクトルになる。また、多項式特徴量とは入力とされた特徴量の多項式表現の各項が要素であるような特徴量である。例えば、xとyが与えられたときの2次の多項式特徴量は1,x,y,xx,xy,yyの六つとなる。
予測モデル生成部104は、図1の予測モデル生成部5に相当し、新規データ生成部103の出力を用いて、予測モデルの学習処理を行ない、学習済みの予測モデルを出力する。予測モデルは例えばユーザが選択する。この場合、予測モデル生成部104は、ユーザから指示された予測モデルについて、新規データ生成部103が出力した学習用データを用いてモデルの学習処理を行なう。予測モデルやその学習方法はどのようなものを用いてもよい。例えば、予測モデルを線形回帰モデルとして学習方法を勾配降下法としてもよいし、予測モデルをロジスティック回帰モデルとして学習方法を確率的勾配降下法としてもよい。予測モデル生成部104は、学習済みの予測モデルを予測モデル利用部106に出力する。なお、予測モデル生成部104は、学習済みの予測モデルを情報記憶部107に出力してもよい。
なお、予測モデル生成部104は、新規データ生成部103により生成される特徴量及び選択された予測モデルについて、交差検証(クロスバリデーション)により評価してもよい。交差検証は、選択した特徴量エンジニアリングと予測モデルの良さを学習用データだけから評価する方法である。これは、学習用データ群の一部だけを使って予測モデルを作り、残りの学習用データを予測用データとして使用することで、当該予測モデルによる予測がどれだけ当たるかを評価して予測モデルの良し悪しをスコア化する技術である。この場合、予測モデル生成部104は、評価結果を表示出力してもよい。この評価結果により、ユーザは他の特徴量エンジニアリング及び予測モデルの組み合わせを試すか否かを判断することができる。
予測用データ取得部105は、予測フェーズで用いるデータを取得する。具体的には、予測用データ取得部105は、予測モデル生成部104により生成された予測モデルを用いた予測の際に用いられる特徴量である予測用データを取得する。この予測用データは、当該予測モデルの学習用データ(すなわち、新規データ生成部103により生成された新たな学習用データ)の生成のために用いられたいずれかの予測タスクである対象タスクについての予測用データである。このように、学習用データ取得部102では、ある予測タスクについての特徴量と正解データの組を取得するが、予測用データ取得部105は、当該予測タスクについての特徴量を取得し、正解データは取得しない。なお、正解データに相当する値は、予測モデル利用部106による予測結果として得られる。
次に、予測フェーズにおける新規データ生成部103について説明する。予測フェーズにおける新規データ生成部103は、学習フェーズにおいて予測モデルの学習用データの生成のために用いられたいずれかの予測タスクについての予測タスク表現データとこの予測タスクの予測用データから新たな予測用データを生成する。すなわち、新規データ生成部103は、予測タスク表現取得部101が取得した対象タスクについての予測タスク表現データと予測用データ取得部105が取得した当該対象タスクについての予測用データから新たな予測用データを生成する。このように、予測フェーズにおける新規データ生成部103は、学習フェーズにおいて用いられた複数の予測タスクをまとめた予測タスクである一つの新たな予測タスクのための予測用データを生成する。なお、予測フェーズにおける新規データ生成部103は、学習フェーズで新たな学習データを生成する際に適用した生成規則と同じ生成規則を適用して、予測用データを生成する。すなわち、新たな予測用データを生成するための特徴量エンジニアリングは学習用データを生成したときと同様のものである。予測フェーズで生成される新たな予測用データは、正解データが存在しないという点で、学習フェーズで生成される学習用データと異なっている。
予測モデル利用部106は、予測モデル生成部104が生成した予測モデルと、予測フェーズにおける新規データ生成部103が生成した予測用データを用いて、対象タスクについての予測を行う。予測モデル利用部106は、予測モデル生成部104が生成した予測モデルに、新規データ生成部103が生成した予測用データを入力し、予測モデルから得られる予測結果を出力する。
次に、学習装置10のハードウェア構成について説明する。図4は、学習装置10のハードウェア構成の一例を示すブロック図である。図4に示すように、学習装置10は、例えば、ネットワークインタフェース51と、メモリ52と、プロセッサ53とを有する。
ネットワークインタフェース51は、他の装置と通信を行うために使用される。ネットワークインタフェース51は、例えば、情報記憶部107が学習装置10の外部装置としてネットワーク上に存在する場合に使用される。ネットワークインタフェース51は、例えば、ネットワークインタフェースカード(NIC)を含んでもよい。
メモリ52は、例えば揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ52は、プロセッサ53より実行される、1以上の命令を含むソフトウェア(コンピュータプログラム)などを格納するために使用される。
プロセッサ53は、例えば、マイクロプロセッサ、MPU(Micro Processor Unit)、又はCPU(Central Processing Unit)などであってもよい。プロセッサ53は、複数のプロセッサを含んでもよい。プロセッサ53は、メモリ52からコンピュータプログラムを読み出して実行することで、図2に示した学習装置10の各構成要素の処理を行う。
また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
[動作の説明]
次に、学習装置10の動作について説明する。まず、学習フェーズにおける動作について説明する。図5は、学習フェーズにおける学習装置10の動作の一例を示すフローチャートである。以下、図5を参照しつつ学習フェーズにおける学習装置10の動作について説明する。
次に、学習装置10の動作について説明する。まず、学習フェーズにおける動作について説明する。図5は、学習フェーズにおける学習装置10の動作の一例を示すフローチャートである。以下、図5を参照しつつ学習フェーズにおける学習装置10の動作について説明する。
ステップS100において、予測タスク表現取得部101は、複数の予測タスクについての予測タスク表現データを取得する。
次に、ステップS101において、学習用データ取得部102は、ステップS100で取得された予測タスク表現データに対応する予測タスクのそれぞれについての学習用データを取得する。
次に、ステップS102において、新規データ生成部103は、予測タスク表現取得部101と学習用データ取得部102のそれぞれの出力を得て、予測タスク毎に、新たな学習用データを生成する。すなわち、新規データ生成部103は、ある予測タスクについての予測タスク表現データと当該予測タスクについての特徴量とを組み合わせたデータに対する特徴量エンジニアリングに基づいて決定した生成規則に従い新たな学習用データを生成する。1つの予測タスクに基づいて得られた特徴量と正解データの組の集合は、新たな学習用データ群の一部を構成する。そして、新規データ生成部103は、別の予測タスクについて同様の生成規則に従い、新たな学習用データを生成する。各予測タスクに基づいて生成された新たな学習用データの集合が、予測モデル生成部104における学習処理に利用される新たな学習用データ群となる。
次に、ステップS103において、予測モデル生成部104は、新規データ生成部103により生成された学習用データを用いて、予測モデルを学習する。なお、予測モデルやその学習方法はどのようなものを用いてもよい。これにより、学習済みの予測モデルが生成される。
図6は、予測フェーズにおける学習装置10の動作の一例を示すフローチャートである。以下、図6を参照しつつ学習フェーズにおける学習装置10の動作について説明する。
ステップS200において、予測タスク表現取得部101は、学習フェーズにおける新たな学習用データの生成のために用いられたいずれかの予測タスク(対象タスク)についての予測タスク表現データを取得する。
次に、ステップS201において、予測用データ取得部105は、対象タスクについての予測用データを取得する。
次に、ステップS202において、新規データ生成部103は、対象タスクについての予測タスク表現データと当該対象タスクの予測用データに対し、学習フェーズと同じ生成規則を適用して、新たな予測用データを生成する。
次に、ステップS203において、予測モデル利用部106は、学習フェーズで生成された予測モデルと、ステップS202で生成された予測用データを利用して、予測を行う。
[効果の説明]
次に、本実施の形態の効果について説明する。
新規データ生成部103が生成する学習用データには、各予測タスクに対する、予測タスク表現データの情報と予測用データの特徴量の情報が入っているために、タスクごとに別々の予測モデルを作る方法と比べて精度の良い予測が可能となる。例えば、予測タスク表現データが1次元のベクトルで表される三つの予測タスクがあって、各タスクに対して一つずつ特徴量と正解データの組が存在し、特徴量が2次元ベクトルであるときに、線形回帰で予測することを考える。タスクごとに行なわれる線形回帰では、特徴量の各次元に対応する係数を決定する必要があるため、タスクごとに2変数の線形方程式を解く必要がある。しかし、各タスクに対する特徴量と正解データの組は一つだけであるため、線形方程式の解が不定となり、無限に解が存在する。二つある特徴量のうち一つだけを使うことにすれば線形方程式の解が一意に定まるが、どちらの特徴量を選ぶべきかを一つのデータからは決定できないため、事前知識などの仮定がないと妥当な予測モデルを構成できる保証はない。一方、本実施の形態では、予測タスク表現データ(1次元)と学習用データの特徴量(2次元)とを結合して特徴量を生成する。このため、三つの予測タスクをまとめた一つの予測タスク(以下、複数の予測タスクをまとめた一つの予測タスクを新規予測タスクと称す)に対しては、特徴量ベクトルの次元は少なくとも3次元となる。簡便な説明のため、特徴量エンジニアリングを考えないことにすると、新規予測タスクに対する特徴量と正解データの組は三つとなるため、線形方程式の解が一意に定まる。つまり、事前知識の仮定がなくても、データのみから特徴量の係数を線形回帰で決定することができる。このように、各タスクのデータが少ないときに、新規予測タスクを構成して学習用データをまとめることで、妥当な予測ができるようになる。
次に、本実施の形態の効果について説明する。
新規データ生成部103が生成する学習用データには、各予測タスクに対する、予測タスク表現データの情報と予測用データの特徴量の情報が入っているために、タスクごとに別々の予測モデルを作る方法と比べて精度の良い予測が可能となる。例えば、予測タスク表現データが1次元のベクトルで表される三つの予測タスクがあって、各タスクに対して一つずつ特徴量と正解データの組が存在し、特徴量が2次元ベクトルであるときに、線形回帰で予測することを考える。タスクごとに行なわれる線形回帰では、特徴量の各次元に対応する係数を決定する必要があるため、タスクごとに2変数の線形方程式を解く必要がある。しかし、各タスクに対する特徴量と正解データの組は一つだけであるため、線形方程式の解が不定となり、無限に解が存在する。二つある特徴量のうち一つだけを使うことにすれば線形方程式の解が一意に定まるが、どちらの特徴量を選ぶべきかを一つのデータからは決定できないため、事前知識などの仮定がないと妥当な予測モデルを構成できる保証はない。一方、本実施の形態では、予測タスク表現データ(1次元)と学習用データの特徴量(2次元)とを結合して特徴量を生成する。このため、三つの予測タスクをまとめた一つの予測タスク(以下、複数の予測タスクをまとめた一つの予測タスクを新規予測タスクと称す)に対しては、特徴量ベクトルの次元は少なくとも3次元となる。簡便な説明のため、特徴量エンジニアリングを考えないことにすると、新規予測タスクに対する特徴量と正解データの組は三つとなるため、線形方程式の解が一意に定まる。つまり、事前知識の仮定がなくても、データのみから特徴量の係数を線形回帰で決定することができる。このように、各タスクのデータが少ないときに、新規予測タスクを構成して学習用データをまとめることで、妥当な予測ができるようになる。
また、本実施の形態は、各タスクの学習用データだけをまとめて新規予測タスクの学習用データを構成する手法と比べて、精度の良い予測が可能となる。新規予測タスクの学習用データを構成する際に、各タスクの学習用データだけをまとめて構成すると、予測タスクごとに妥当な予測モデルが異なる場合に、それぞれの予測タスクに対して同じ予測モデルを作ることになる。つまり、異なる予測タスクでも予測用データの特徴量が同じであれば同じ予測値となってしまう。しかし、本実施の形態では、各予測タスクの予測タスク表現データを、新規予測タスクの学習用データにおける特徴量に追加しているため、予測タスクが異なれば予測用データの特徴量が同じであっても、異なる予測値を出せる。つまり、各予測タスクに対して同一ではない予測モデルができる。よって、より良い精度の予測が可能となる。
以上、実施の形態の詳細について説明したが、ここで、具体例を用いてさらに説明する。この具体例では、予測モデルを作成及び利用するための予測タスクは四つある。一つ目は、福島のももの売上個数を予測するタスクである。二つ目は、福島のぶどうの売上個数を予測するタスクである。三つ目は、山梨のももの売上個数を予測するタスクである。四つ目は、山梨のぶどうの売上個数を予測するタスクである。
図7は、上述した具体例に関し、予測タスク表現取得部101が取得する予測タスク表現データの一例を示す図である。図7では、四つの予測タスクについて、それぞれ、ベクトルを用いて予測対象を構成する要素が表現されている。具体的には、ベクトルの第1成分が福島産であるか否か、ベクトルの第2成分がももであるか否かを表している。すなわち、ベクトルの第1成分の値が1である場合、予測対象が福島産であることを示し、ベクトルの第1成分の値が0である場合、予測対象が山梨産であることを示す。同様に、ベクトルの第2成分の値が1である場合、予測対象がももであることを示し、ベクトルの第2成分の値が0である場合、予測対象がぶどうであることを示す。
図8は、上述した具体例に関し、学習用データ取得部102が取得する各予測タスクの学習用データの一例を示す図である。図8に示した例では、四つの予測タスクそれぞれについて一つの学習用データが取得され、合計四つの学習用データが取得される。ここで、価格が特徴量であり、売上個数が正解データである。以下では、予測タスク表現取得部101が、図7に示したベクトルを予測タスク表現データとして取得し、学習用データ取得部102が、図8に示した学習用データを取得した場合について説明する。
新規データ生成部103は、予測タスク表現取得部101と学習用データ取得部102のそれぞれの出力を用いて、例えば図9に示すような特徴量と正解データの組を生成する。図9に示した例では、価格を予測タスク表現データのベクトルの各成分にかけて、定数項を加えたものを新たな特徴量としている。
福島のももに関して生成規則を具体的に述べる。まず、新規データ生成部103は、商品の種類と産地を表現した図7の予測タスク表現ベクトル(1,1)と、図8の価格を表す特徴量ベクトル(300)と売上150という学習用データを取得する。
次に、新規データ生成部103は、予測タスク表現ベクトル(1,1)と価格(300)(1次元ベクトル)を結合してベクトル(1,1,300)(3次元ベクトル)を作る。
次に、特徴量エンジニアリングが行われる。作った3次元ベクトルの第1成分(1)と第2成分(1)をそれぞれ第3成分(300)にかけて得られる成分をベクトルに追加する。つまり、この時点で、(1,1,300,300,300)という5次元ベクトルが生成される。
さらに、この5次元ベクトルに定数1の特徴量を追加する。よって、(1,1,300,300,300,1)という6次元ベクトルが生成される。
そして、この6次元ベクトルの後半の3次元の成分(300,300,1)だけを取り出して、これを新規予測タスクのための特徴量とすることで特徴量エンジニアリングを終了する。
最後に、新規データ生成部103は、いま作成した特徴量と学習用データの正解データ(売上)との組を、新規予測タスクのための学習用データの一つとする。
他の予測タスク(すなわち、福島のぶどう、山梨のもも、及び山梨のぶどう)についても同様に行われ、最終的に図9に示すような学習用データが得られる。
次に、新規データ生成部103は、予測タスク表現ベクトル(1,1)と価格(300)(1次元ベクトル)を結合してベクトル(1,1,300)(3次元ベクトル)を作る。
次に、特徴量エンジニアリングが行われる。作った3次元ベクトルの第1成分(1)と第2成分(1)をそれぞれ第3成分(300)にかけて得られる成分をベクトルに追加する。つまり、この時点で、(1,1,300,300,300)という5次元ベクトルが生成される。
さらに、この5次元ベクトルに定数1の特徴量を追加する。よって、(1,1,300,300,300,1)という6次元ベクトルが生成される。
そして、この6次元ベクトルの後半の3次元の成分(300,300,1)だけを取り出して、これを新規予測タスクのための特徴量とすることで特徴量エンジニアリングを終了する。
最後に、新規データ生成部103は、いま作成した特徴量と学習用データの正解データ(売上)との組を、新規予測タスクのための学習用データの一つとする。
他の予測タスク(すなわち、福島のぶどう、山梨のもも、及び山梨のぶどう)についても同様に行われ、最終的に図9に示すような学習用データが得られる。
これにより、各予測タスクのデータが非常に少ない場合でも、各予測タスクに対して別々に予測モデルを作るより、価格の変動が売上に与える影響を精確に予測することが期待できる。例えば、各予測タスクの予測モデルを線形回帰で作ることを考える。すると、価格のみから売上を説明しようとするため、価格と売上個数が比例する予測モデルとなる。つまり、価格を高くすればするほど売上が比例して伸び、価格を下げれば下げるほど売上が落ちるという予測モデルになる。
ここで、線形回帰を用いて、価格のみから売上個数を予測しようとすると、予測モデルが正の比例関係になる理由について説明する。図8に示した価格を特徴量として、図8に示した売上個数を線形回帰で予測しようとすると、「売上個数=a×価格」という予測式で売上個数を説明することとなる。すなわち、線形回帰を用いて、価格のみから売上個数を予測する場合、上記aを学習用データから求める必要がある。福島のももの場合、売上個数が150で価格が300というデータのみが存在するので、a=0.5が導かれる。つまり、正の比例関係が導かれる。
なお、価格を下げると売上が上がるような予測モデルは、定数の特徴量を学習用データに追加した場合などに生成される。つまり、この定数の特徴量を例えば1とした場合、「売上個数=a×価格+b×1」という予測式で売上個数を説明することとなり、価格を下げると売上が上がるような予測モデルが得られる。この場合、上記a及びbを学習用データから求める必要がある。なお、定数の特徴量の具体的な値は、すべてのデータにおいて同じ値であればよく、任意の値とすることができるが、数式を簡単にするために1とするのが慣例である。aとbを一意に定めるには、二つ以上の学習用データが必要である。仮に、福島のももについて、価格が300で売上個数が150というデータの他に、価格が10で売上個数が440というデータも存在する場合、a=-1、b=450となる。これは、価格を上げると売上が下がる予測式になっている。なお、データが三つ以上ある場合には、例えば誤差が最小となるようなaとbの値が一意に定められる。
上述の通り、線形回帰を用いて、価格のみから売上個数を予測しようとすると、予測モデルが正の比例関係になる。しかし、経済における原理を考えればそのような予測モデルが妥当ではないことは明らかである。そこで、価格を下げると売上が上がるような予測モデルを作るために、例えば、定数の特徴量を追加した上で、線形回帰によって予測モデルを作ることを考える。この場合、値を決定すべき係数は、定数に対応する係数と価格に対応する係数の二つ(上記aとb)である。線形回帰は連立一次方程式を解くために、値を決定すべき係数の数以上のデータを必要とするので、各予測タスクに少なくとも二つ以上データが必要になる。一方で、本実施の形態ならば、後述するように、データを増やさずとも価格を下げると売上が伸びるような予測モデルを得ることができる。
新規予測タスクのための学習用データが得られると、予測モデル生成部104は、新規データ生成部103が生成した四つの学習用データを用いて予測モデルの学習を行ない、学習済み予測モデルを生成する。例えば線形回帰を使って予測が行なわれる場合、予測モデルのモデルパラメータのベクトルは(-0.611,0.221,263)となる。ただし、ベクトルの最後の成分が定数を表していて、それ以外が一次の項の係数である。つまり、売上個数を予測する式は-0.611×X+0.221×Y+263となる。ただし、Xは、予測フェーズにおいて新規データ生成部103が生成する予測用データの第1の成分に対応し、Yは、同第2の成分に対応する。
学習済み予測モデルを利用するときは、新規データ生成部103に予測タスク表現データと予測用データを入力する。例えば、福島のももを100円で売ったときの売上を予測したいのであれば、予測タスク表現として(1,1)を、予測用データとして(100)を新規データ生成部103に入力する。そして、新規データ生成部103が学習フェーズと同様の生成規則によりこれらのデータを処理することで、(100,100,1)を新規予測タスクのための予測用データとして出力する。予測モデル利用部106はこの予測用データの定数項に対応する成分以外の成分、すなわち第1の成分(上記X)と第2の成分(上記Y)と、学習済みモデルとを用いて、売上の予測値を算出する。具体的には、予測モデル利用部106は、-0.611×100+0.221×100+263を計算し、224という予測値を出力する。これは、福島のももを300円で売ったときに150個売れたという結果に対し、価格を安くしたために売上が伸びることを表しており、妥当な予測モデルとなっている。
上述した具体例では、予測タスクの関係が木構造で与えられていないため、木構造が与えられていることを前提とする非特許文献1に記載の技術は利用できない。また、予測タスクの類似度を求める非特許文献2に記載の方法では本実施の形態より予測精度が低くなるおそれがある。実際、各予測タスクに対して例えば線形回帰を使って各予測タスクの予測モデルを作ろうとすると、既に説明したように、価格と売上個数が比例するという妥当とはいえない予測モデルとなる。結果として、このような予測モデルからでは予測タスク(ここでは商品)の類似度を精確に推定できず最終的な予測精度が低くなると考えられる。
以上、実施の形態について説明したが、本実施の形態は様々な予測処理に適用可能である。例えば、商品の種類は多くあるが販売期間が短いため売り上げ実績がほとんどない場合における商品の売上予測に適用可能である。この場合、各商品の売上予測を予測タスクに、各商品の特性を表現するデータを予測タスク表現データに、全商品が共通してもつ価格などの特徴を特徴量に、各商品の各日の売上個数を正解データに対応付けることで、上記実施の形態を適用可能である。また、駅の数は多くあるが運行が始まったばかりで利用実績がほとんど無い場合における新たな路線の利用者数予測においても適用可能である。この場合、各駅の利用者数予測を予測タスクに、各駅の特性を表現するデータを予測タスク表現データに、全駅が共通してもつホームの長さなどの特徴を特徴量に、各駅の各日の利用者数を正解データに対応付けることで、上記実施の形態を適用可能である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する学習装置。
(付記2)
前記新規データ生成部は、前記予測タスク表現取得部が取得した前記予測タスク表現データと前記学習用データ取得部が取得した前記学習用データとを組み合わせて算出される特徴量を含む前記新たな学習用データを生成する
付記1に記載の学習装置。
(付記3)
前記予測タスク表現データは、予測対象を構成する要素を示すベクトルである
付記1又は2に記載の学習装置。
(付記4)
前記学習用データ取得部が取得する前記学習用データは、特徴量ベクトルと正解データの組である
付記1乃至3のいずれか1項に記載の学習装置。
(付記5)
前記新たな学習用データの生成のために用いられたいずれかの前記予測タスクである対象タスクについての予測用データを取得する予測用データ取得部と、
前記予測モデルを用いた予測結果を出力する予測モデル利用部と
をさらに有し、
前記新規データ生成部は、さらに、前記対象タスクに対する前記予測タスク表現データと前記予測用データを用いて新たな予測用データを生成し、
前記予測モデル利用部は、前記予測モデルに、前記新規データ生成部が生成した予測用データを入力し、前記予測モデルから得られる予測結果を出力する
付記1乃至4のいずれか1項に記載の学習装置。
(付記6)
予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する
学習方法。
(付記7)
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
(付記1)
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する学習装置。
(付記2)
前記新規データ生成部は、前記予測タスク表現取得部が取得した前記予測タスク表現データと前記学習用データ取得部が取得した前記学習用データとを組み合わせて算出される特徴量を含む前記新たな学習用データを生成する
付記1に記載の学習装置。
(付記3)
前記予測タスク表現データは、予測対象を構成する要素を示すベクトルである
付記1又は2に記載の学習装置。
(付記4)
前記学習用データ取得部が取得する前記学習用データは、特徴量ベクトルと正解データの組である
付記1乃至3のいずれか1項に記載の学習装置。
(付記5)
前記新たな学習用データの生成のために用いられたいずれかの前記予測タスクである対象タスクについての予測用データを取得する予測用データ取得部と、
前記予測モデルを用いた予測結果を出力する予測モデル利用部と
をさらに有し、
前記新規データ生成部は、さらに、前記対象タスクに対する前記予測タスク表現データと前記予測用データを用いて新たな予測用データを生成し、
前記予測モデル利用部は、前記予測モデルに、前記新規データ生成部が生成した予測用データを入力し、前記予測モデルから得られる予測結果を出力する
付記1乃至4のいずれか1項に記載の学習装置。
(付記6)
予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する
学習方法。
(付記7)
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
1 学習装置
2 予測タスク表現取得部
3 学習用データ取得部
4 新規データ生成部
5 予測モデル生成部
10 学習装置
51 ネットワークインタフェース
52 メモリ
53 プロセッサ
101 予測タスク表現取得部
102 学習用データ取得部
103 新規データ生成部
104 予測モデル生成部
105 予測用データ取得部
106 予測モデル利用部
107 情報記憶部
2 予測タスク表現取得部
3 学習用データ取得部
4 新規データ生成部
5 予測モデル生成部
10 学習装置
51 ネットワークインタフェース
52 メモリ
53 プロセッサ
101 予測タスク表現取得部
102 学習用データ取得部
103 新規データ生成部
104 予測モデル生成部
105 予測用データ取得部
106 予測モデル利用部
107 情報記憶部
Claims (7)
- 予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する学習装置。 - 前記新規データ生成部は、前記予測タスク表現取得部が取得した前記予測タスク表現データと前記学習用データ取得部が取得した前記学習用データとを組み合わせて算出される特徴量を含む前記新たな学習用データを生成する
請求項1に記載の学習装置。 - 前記予測タスク表現データは、予測対象を構成する要素を示すベクトルである
請求項1又は2に記載の学習装置。 - 前記学習用データ取得部が取得する前記学習用データは、特徴量ベクトルと正解データの組である
請求項1乃至3のいずれか1項に記載の学習装置。 - 前記新たな学習用データの生成のために用いられたいずれかの前記予測タスクである対象タスクについての予測用データを取得する予測用データ取得部と、
前記予測モデルを用いた予測結果を出力する予測モデル利用部と
をさらに有し、
前記新規データ生成部は、さらに、前記対象タスクに対する前記予測タスク表現データと前記予測用データを用いて新たな予測用データを生成し、
前記予測モデル利用部は、前記予測モデルに、前記新規データ生成部が生成した予測用データを入力し、前記予測モデルから得られる予測結果を出力する
請求項1乃至4のいずれか1項に記載の学習装置。 - 予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する
学習方法。 - 予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/037870 WO2020075255A1 (ja) | 2018-10-11 | 2018-10-11 | 学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 |
JP2020549893A JP7310827B2 (ja) | 2018-10-11 | 2018-10-11 | 学習装置、学習方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/037870 WO2020075255A1 (ja) | 2018-10-11 | 2018-10-11 | 学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020075255A1 true WO2020075255A1 (ja) | 2020-04-16 |
Family
ID=70164056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/037870 WO2020075255A1 (ja) | 2018-10-11 | 2018-10-11 | 学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7310827B2 (ja) |
WO (1) | WO2020075255A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024116293A1 (ja) * | 2022-11-29 | 2024-06-06 | 日本電信電話株式会社 | 特徴量作成装置、特徴量作成方法およびプログラム |
JP7544633B2 (ja) | 2021-03-18 | 2024-09-03 | 株式会社奥村組 | シールド掘進機の施工管理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017212956A1 (ja) * | 2016-06-09 | 2017-12-14 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
-
2018
- 2018-10-11 JP JP2020549893A patent/JP7310827B2/ja active Active
- 2018-10-11 WO PCT/JP2018/037870 patent/WO2020075255A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017212956A1 (ja) * | 2016-06-09 | 2017-12-14 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7544633B2 (ja) | 2021-03-18 | 2024-09-03 | 株式会社奥村組 | シールド掘進機の施工管理方法 |
WO2024116293A1 (ja) * | 2022-11-29 | 2024-06-06 | 日本電信電話株式会社 | 特徴量作成装置、特徴量作成方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020075255A1 (ja) | 2021-09-02 |
JP7310827B2 (ja) | 2023-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20200131549A (ko) | 인공지능 모델을 이용한 상품 판매량 예측 방법, 장치 및 시스템 | |
JP6708204B2 (ja) | 精度推定モデル生成システムおよび精度推定システム | |
JP6992526B2 (ja) | 需要予測プログラム、需要予測方法および需要予測装置 | |
US20170372224A1 (en) | Deep learning for imputation of industrial multivariate time-series | |
JP6514342B2 (ja) | オンライン予測システムおよび方法 | |
JP6299759B2 (ja) | 予測関数作成装置、予測関数作成方法、及びプログラム | |
JP6973887B2 (ja) | プロジェクト管理支援装置、プロジェクト管理支援方法およびプログラム | |
US20190251609A1 (en) | Commodity demand prediction system, commodity demand prediction method, and commodity demand prediction program | |
US10635078B2 (en) | Simulation system, simulation method, and simulation program | |
CN109949103A (zh) | 一种数据处理方法、装置及电子设备 | |
JP5251217B2 (ja) | 販売数予測システム、販売数予測システムの動作方法および販売数予測プログラム | |
CN108874529A (zh) | 分布式计算系统、方法及存储介质 | |
WO2020075255A1 (ja) | 学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
JP7006616B2 (ja) | 予測モデル生成システム、方法およびプログラム | |
CN114219562A (zh) | 模型的训练方法、企业信用评估方法和装置、设备、介质 | |
JPWO2017056366A1 (ja) | 最適化システム、最適化方法および最適化プログラム | |
JP2021043477A (ja) | 需要予測装置、需要予測方法、及びプログラム | |
JP6925179B2 (ja) | 解探索処理装置 | |
JP7196933B2 (ja) | 学習装置および学習方法 | |
JP6988817B2 (ja) | 予測モデル生成システム、方法およびプログラム | |
Rangel-Martinez et al. | A Recurrent Reinforcement Learning Strategy for Optimal Scheduling of Partially Observable Job-Shop and Flow-Shop Batch Chemical Plants Under Uncertainty | |
JP2023124238A (ja) | 需要予測システム、学習システム、需要予測方法、学習方法、及びプログラム | |
JP7062923B2 (ja) | 可視化方法、可視化装置及び可視化プログラム | |
CN113435927A (zh) | 用户意愿预测方法、装置、设备和存储介质 | |
Kumar | Inventory model with price-dependent demand rate and no shortages: an interval-valued linear fractional programming approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18936707 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020549893 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18936707 Country of ref document: EP Kind code of ref document: A1 |