WO2020144853A1 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
WO2020144853A1
WO2020144853A1 PCT/JP2019/000704 JP2019000704W WO2020144853A1 WO 2020144853 A1 WO2020144853 A1 WO 2020144853A1 JP 2019000704 W JP2019000704 W JP 2019000704W WO 2020144853 A1 WO2020144853 A1 WO 2020144853A1
Authority
WO
WIPO (PCT)
Prior art keywords
applying
sample
attribute vector
target task
predictor
Prior art date
Application number
PCT/JP2019/000704
Other languages
English (en)
French (fr)
Inventor
泰弘 十河
智哉 坂井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020565140A priority Critical patent/JP7147874B2/ja
Priority to US17/419,974 priority patent/US20220092475A1/en
Priority to PCT/JP2019/000704 priority patent/WO2020144853A1/ja
Publication of WO2020144853A1 publication Critical patent/WO2020144853A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program for learning a new model using an existing model.
  • Non-Patent Document 1 describes one-shot learning.
  • a neural network using a structure for ranking the similarity between inputs is learned.
  • Non-Patent Document 2 describes one-shot learning.
  • a small labeled support set and an unlabeled example are mapped to a label to learn a network that eliminates the need for fine tuning to adapt to a new class type. To do.
  • Non-Patent Document 1 and Non-Patent Document 2 (sometimes called Few-shot learning)
  • a prediction model for a new task having only a small amount of data is constructed with high accuracy.
  • the scale of the data is enormous, and in the case of distributed management, it takes time and effort to aggregate the data. Moreover, even if they are aggregated, it is necessary to process the enormous amount of aggregated data, and it is inefficient to construct a prediction model for a new task in a short time.
  • an object of the present invention is to provide a learning device, a learning method, and a learning program that can learn an accurate model from a small number of data by using an existing model.
  • the learning device comprises the attribute vector estimated based on the result of applying the labeled sample of the target task to the predictor by estimating the attribute vector of the existing predictor based on the sample of the domain of the target task.
  • a target task attribute estimation unit that estimates the attribute vector of the target task based on the conversion method of the labeled sample for space, and a prediction value of the prediction target sample that is converted by the above conversion method based on the attribute vector of the target task
  • the computer estimates the attribute vector of the existing predictor based on the sample of the domain of the target task, and the attribute estimated based on the result of applying the labeled sample of the target task to the predictor. Based on the conversion method of the labeled sample with respect to the space consisting of vectors, the attribute vector of the target task is estimated, and the computer predicts the prediction value of the prediction target sample converted by the conversion method based on the attribute vector of the target task. Is calculated.
  • the learning program estimates, on a computer, an attribute vector of an existing predictor based on a sample of a domain of a target task, and an attribute estimated based on a result of applying a labeled sample of the target task to the predictor.
  • Target task attribute estimation processing that estimates the attribute vector of the target task based on the conversion method of the labeled sample for the space consisting of vectors, and prediction target sample that is converted by the conversion method based on the attribute vector of the target task It is characterized in that a predicted value calculation process for calculating the predicted value of is executed.
  • an accurate model can be learned from a small amount of data by using an existing model.
  • new prediction targets such as new products and new services will be referred to as target tasks.
  • the sample of the target task is a small number (a “few” samples).
  • the small number depends on the complexity of the task, but is assumed to be, for example, about ten to several hundred samples.
  • the artifacts generated for the prediction will be referred to as a predictor, a prediction model, or simply a model.
  • a set of one or more attributes is referred to as an attribute vector, and the predictor uses each attribute included in the attribute vector as an explanatory variable. That is, the attribute vector means the attribute of each task.
  • the learned T predictors are represented by ⁇ ht (x)
  • t 1,..., T ⁇ .
  • n 1,..., N T+1 ⁇ . That is, the value of N T+1 is smaller than the assumption that the sample of the target task is small.
  • a task for which a predictor has already been generated (learned) is described as a related task.
  • a predictor configured for a related task similar to the target task is used to generate an attribute vector used in the predictor of the target task from the input/output relationship of the predictor.
  • the similar related task means a task group that can be configured by the same explanatory variables (feature amount) as the target task due to the nature of the algorithm.
  • “similar” means an object belonging to a predefined group such as a product belonging to a specific category.
  • a sample of the target task or a range similar to the target task is referred to as a sample of the domain of the target task.
  • sample samples with (correct answer) label
  • unlabeled sample samples without (correct answer) label
  • the sample includes one or both of a labeled sample and an unlabeled sample.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of a learning device according to the present invention.
  • the learning device 100 of this embodiment includes a target task attribute estimation unit 110, a predicted value calculation unit 120, and a predictor storage unit 130.
  • the predictor storage unit 130 stores the learned predictor.
  • the predictor storage unit 130 is realized by, for example, a magnetic disk device.
  • the target task attribute estimation unit 110 estimates the attribute vector of the existing (learned) predictor based on the sample of the domain of the target task. In addition, the target task attribute estimation unit 110, based on the conversion method of the labeled sample with respect to the space composed of the attribute vector estimated based on the result of applying the labeled sample of the target task to the existing predictor, Estimate the task attribute vector.
  • the predicted value calculation unit 120 calculates the predicted value of the prediction target sample converted by the above conversion method based on the estimated attribute vector of the target task.
  • the target task attribute estimation unit 110 of this embodiment includes a sample generation unit 111, an attribute vector estimation unit 112, a first projection calculation unit 113, and a target attribute vector calculation unit 114.
  • the sample generator 111 randomly generates a sample of the domain of the target task.
  • the method of generating the sample is arbitrary, and an arbitrary value may be randomly assigned to each attribute to generate the sample.
  • the sample itself of the target task prepared in advance may be used as a sample without generating a new sample.
  • the sample of the target task may be a labeled sample or an unlabeled sample.
  • the target task attribute estimation unit 110 may not include the sample generation unit 111.
  • the sample generation unit 111 may generate a sample in which the samples of the target task are convexly combined.
  • the set of generated samples may be represented by S.
  • the attribute vector estimation unit 112 determines from the attribute vector d used in each of the predictors. Estimate the attribute matrix D
  • the attribute vector estimation unit 112 calculates the difference between the value calculated by the inner product of the projection x of the sample x and the value output by applying the sample x to the predictor h t (x).
  • the attribute matrix D consisting of the attribute vector d is optimized so as to be minimized.
  • the projection ⁇ is a value corresponding to each sample x i capable of reproducing each output by multiplication with the attribute vector d.
  • the estimated attribute matrix D ⁇ (superscript hat of D) is estimated by Equation 1 exemplified below.
  • C is a set of constraint conditions for preventing each attribute vector d from having a large value
  • p is the maximum number of types of elements of the attribute vector.
  • the attribute vector estimation unit 112 optimizes Expression 1 shown above using an existing dictionary learning scheme such as K-SVD (k-singular value decomposition) or MOD (Method of Optimal Directions). May be. Since the above Expression 1 can be optimized by a method similar to dictionary learning, the attribute matrix D may be referred to as a dictionary.
  • attribute vector d t estimated here corresponds to a so-called “attribute” of zero-shot learning
  • the attribute vector d t can be treated in the same manner in zero-shot learning.
  • the first projection calculation unit 113 applies each labeled sample (hereinafter, referred to as a first estimated value) to the estimated attribute vector d (more specifically, the attribute matrix D) to obtain an estimated value (hereinafter, referred to as a first estimated value).
  • a first estimated value an estimated value
  • x i , y i ) (i 1,..., N T+1 ) projection ⁇ , the value obtained by applying the labeled sample (x i , y i ) to the predictor h and the first estimated value And the difference is minimized.
  • the first projection calculation unit 113 calculates Expression 2 illustrated below for each labeled sample (x i , y i ) of the target task, thereby calculating the projection vector ⁇ corresponding to x i. i ( ⁇ i superscript hat) may be calculated.
  • the first projection calculation unit 113 can solve Equation 2 exemplified below as, for example, a Lasso problem.
  • the target attribute vector calculation unit 114 applies the attribute vector d T+1 of the target task for applying the calculated projection ⁇ to obtain an estimated value (hereinafter, referred to as a second estimated value), with a labeled sample of the target task. It is calculated so that the difference between the label y and the second estimated value is minimized.
  • the target attribute vector calculation unit 114 uses the target task attribute vector d ⁇ T+1 (using the calculated projection ⁇ i and y i of the labeled sample (x i , y i ) of the target task. (d T+1 superscript hat) may be calculated using Equation 3 illustrated below.
  • the target attribute vector calculation unit 114 can obtain a solution by using Expression 3 exemplified below, using a method similar to the method of calculating Expression 1 above.
  • the predicted value calculation unit 120 of this embodiment includes a second projection calculation unit 121 and a prediction unit 122.
  • the second projection calculation unit 121 applies the projection ⁇ new of the prediction target sample x new for applying the estimated attribute vector d to obtain an estimated value (hereinafter, referred to as a third estimated value), to the predictor. It is calculated so that the difference between the value obtained by applying the prediction target sample x new to h and the third estimated value is minimized. Specifically, the second projection calculation unit 121 may obtain the projection vector ⁇ new for the prediction target sample x new of the target task by a method similar to the method of calculating Expression 2 above.
  • the prediction unit 122 applies the projection ⁇ new to the attribute vector d T+1 of the target task (specifically, calculates the inner product) to calculate the predicted value y n .
  • Target task attribute estimation unit 110 (more specifically, sample generation unit 111, attribute vector estimation unit 112, first projection calculation unit 113, target attribute vector calculation unit 114), predicted value calculation unit 120 (more Specifically, the second projection calculation unit 121 and the prediction unit 122) are a processor (for example, a CPU (Central Processing Unit)), a GPU (Graphics Processing Unit), an FPGA (a processor) of a computer that operates according to a program (learning program). field-programmable gate array))).
  • a processor for example, a CPU (Central Processing Unit)
  • GPU Graphics Processing Unit
  • FPGA a processor of a computer that operates according to a program (learning program). field-programmable gate array)
  • the program is stored in a storage unit (not shown) included in the learning device, the processor reads the program, and according to the program, the target task attribute estimation unit 110 (more specifically, the sample generation unit 111, It operates as the attribute vector estimation unit 112, the first projection calculation unit 113, the target attribute vector calculation unit 114) and the predicted value calculation unit 120 (more specifically, the second projection calculation unit 121 and the prediction unit 122). May be.
  • the function of the learning device may be provided in the SaaS (Software as a Service) format.
  • Target task attribute estimation unit 110 (more specifically, sample generation unit 111, attribute vector estimation unit 112, first projection calculation unit 113, target attribute vector calculation unit 114), predicted value calculation unit 120 (more Specifically, each of the second projection calculation unit 121 and the prediction unit 122) may be realized by dedicated hardware. Further, some or all of the constituent elements of each device may be realized by a general-purpose or dedicated circuit, a processor, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus. Some or all of the constituent elements of each device may be realized by a combination of the above-described circuits and the like and a program.
  • the plurality of information processing devices or circuits may be centrally arranged or distributed. May be done.
  • the information processing device, the circuit and the like may be realized as a form in which a client server system, a cloud computing system and the like are connected to each other via a communication network.
  • FIG. 2 is a flowchart showing an operation example of the learning device 100 of this embodiment.
  • the target task attribute estimation unit 110 estimates the attribute vector of the existing predictor based on the sample of the domain of the target task (step S1).
  • the target task attribute estimation unit 110 estimates the attribute vector of the target task based on the conversion method of the labeled sample for the space composed of the estimated attribute vector (step S2).
  • the prediction value calculation unit 120 calculates the prediction value of the prediction target sample converted by the conversion method based on the attribute vector of the target task (step S3).
  • FIG. 3 is a flowchart showing a specific operation example of the learning device 100 of this embodiment.
  • the attribute vector estimation unit 112 estimates the attribute vector d (attribute matrix D) used in each of the predictors from the outputs obtained by applying the domain sample of the target task to the existing predictors (step S21). ).
  • the first projection calculation unit 113 applies the projection of each labeled sample for applying the estimated attribute vector d to obtain the first estimated value and the value obtained by applying the labeled sample to the predictor h. Optimization is performed so that the difference from the first estimated value is minimized (step S22).
  • the target attribute vector calculation unit 114 optimizes the attribute vector of the target task for applying the projection to obtain the second estimated value so that the difference between the label of the labeled sample and the second estimated value is minimized. (Step S23).
  • the second projection calculation unit 121 applies the projection ⁇ new of the prediction target sample x new for applying the estimated attribute vector to the third estimated value to obtain a value obtained by applying the prediction target sample to the predictor. And the third estimated value are optimized to be the minimum (step S24).
  • the prediction unit 122 calculates the prediction value by applying the projection ⁇ new to the attribute vector d T+1 of the target task (step S25).
  • the attribute vector estimation unit 112 estimates the attribute vector d used in each predictor from the output obtained by applying it to a plurality of existing predictors, and the first projection calculation unit 113 optimizes the projection of each labeled sample so that the difference between the value obtained by applying it to the predictor and the first estimated value is minimized. Then, the target attribute vector calculation unit 114 optimizes the attribute vector of the target task so that the difference between the label of the labeled sample and the second estimated value is minimized.
  • the second projection calculation unit 121 calculates the projection ⁇ new of the prediction target sample x new so that the difference between the value obtained by applying the prediction target sample to the predictor and the third estimated value is minimized.
  • the prediction unit 122 calculates the predicted value by applying the projection ⁇ new to the attribute vector d T+1 of the target task.
  • FIG. 4 is a block diagram showing a configuration example of the second embodiment of the learning device according to the present invention.
  • the learning device 200 of the present embodiment includes a target task attribute estimation unit 110, a predicted value calculation unit 120, and a predictor storage unit 130, as in the first embodiment.
  • the target task attribute estimation unit 110 and the predicted value calculation unit 120 of the second embodiment differ from the first embodiment in the configuration contents.
  • the target task attribute estimation unit 110 of this embodiment includes a sample generation unit 211, a conversion estimation unit 212, and an attribute vector calculation unit 213.
  • the sample generation unit 211 generates a sample of the domain of the target task, like the sample generation unit 111 of the first embodiment.
  • the transform estimation unit 212 includes an output (sample+value) obtained by applying a sample of the domain of the target task to a plurality of existing predictors h t (x), and an attribute vector d used in each of the predictors. Estimate the attribute matrix D and the transformation matrix V that transforms the output into the space of the attribute vector d.
  • the transformation estimation unit 212 uses a vector obtained by applying the sample x to the feature mapping function ⁇ (R d ⁇ R b ) and a value calculated by the product of the transformation matrix V and the attribute matrix D,
  • the attribute matrix D including the attribute vector d and the transformation matrix V are optimized so that the sample x is applied to the predictor h t (x) and the difference from the output value is minimized.
  • the feature mapping function ⁇ corresponds to a feature amount conversion (attribute design) performed by so-called prediction, which represents conversion between attributes, and is represented by an arbitrary function that is defined in advance.
  • the attribute matrix D ⁇ (superscript hat of D) and the transformation matrix V ⁇ (superscript hat of V) are estimated by Equation 4 illustrated below.
  • C is a set of constraint conditions for preventing each attribute vector d from having a large value, like Expression 1, and p is the maximum number of types of elements of the attribute vector.
  • the expression 4 may include an arbitrary regularization.
  • the attribute vector calculation unit 213 labels the attribute vector d T+1 of the target task, which is applied to the product of the transformation matrix V and the mapping function ⁇ to obtain an estimated value (hereinafter, referred to as a fourth estimated value).
  • the calculation is performed so that the difference between the label y i of the sample (x i , y i ) and the fourth estimated value is minimized.
  • the attribute vector calculation unit 213, labeled samples (x i, y i) of the target task and y i of, using the estimated transformation matrix V, the attribute vector of the target task d ⁇ T + 1 (d (T+1 superscript hat) may be calculated using Equation 5 illustrated below.
  • the prediction value calculation unit 120 of this embodiment includes a prediction unit 222.
  • the prediction unit 222 calculates the prediction value by applying the result of applying the prediction target sample x new to the transformation matrix V and the mapping function ⁇ to the attribute vector d T+1 of the target task.
  • the prediction unit 222 may calculate the prediction value, for example, by the method illustrated in the following Expression 6.
  • the target task attribute estimation unit 110 (more specifically, the sample generation unit 211, the conversion estimation unit 212, and the attribute vector calculation unit 213), the predicted value calculation unit 120 (more specifically, the prediction unit 222), Is realized by a processor of a computer that operates according to a program (learning program).
  • FIG. 5 is a flowchart showing an operation example of the learning device 200 of this embodiment.
  • the transform estimation unit 212 applies the attribute vector d (attribute matrix D) used in each of the predictors and the output thereof from the outputs obtained by applying the samples of the target domain to the existing predictors.
  • a transformation matrix V for transforming into space is estimated (step S31).
  • the attribute vector calculation unit 213 applies the attribute vector d T+1 of the target task, which is applied to the product of the transformation matrix V and the mapping function ⁇ to obtain the fourth estimated value, to the label y of the labeled sample and the fourth Optimization is performed so that the difference from the estimated value is minimized (step S32).
  • the prediction unit 222 calculates the prediction value by applying the result of applying the prediction target sample x new to the transformation matrix V and the mapping function ⁇ to the attribute vector d T+1 of the target task (step S33).
  • the transform estimation unit 212 estimates the attribute vector d and the transformation matrix V used in each predictor from the output obtained by applying the plurality of existing predictors, and the attribute vector The calculation unit 213 optimizes the attribute vector d T+1 of the target task so that the difference between the label y of the labeled sample and the fourth estimated value is minimized. Then, the prediction unit 222 calculates the prediction value by applying the result of applying the prediction target sample x new to the transformation matrix V and the mapping function ⁇ to the attribute vector d T+1 of the target task.
  • FIG. 6 is a block diagram showing a configuration example of the third embodiment of the learning device according to the present invention.
  • the learning device 300 of this embodiment includes a target task attribute estimation unit 110, a predicted value calculation unit 120, and a predictor storage unit 130, as in the first and second embodiments.
  • the target task attribute estimation unit 110 and the predicted value calculation unit 120 of the third embodiment differ from the first and second embodiments in the configuration contents.
  • the unlabeled data of the target task is obtained.
  • the labeled data of the target task is represented by Expression 7 below
  • the unlabeled data of the target task is represented by Expression 8 below.
  • the target task attribute estimation unit 110 of this embodiment includes an attribute vector optimization unit 311.
  • the attribute vector optimizing unit 311 minimizes two terms (hereinafter, referred to as a first optimization term and a second optimization term) for calculating the attribute vector d T+1 of the target task.
  • the first optimization term is a term related to unlabeled data of the target task
  • the second optimization term is a term related to labeled data of the target task.
  • the first optimum estuary, the attribute vectors used and vector h'i of values obtained by applying the unlabeled samples of the target task to the existing plurality of predictors in the prediction unit is a term for calculating the norm of the estimated vector obtained by applying the projection ⁇ ′ of the unlabeled sample x to the attribute vector d space to d (more specifically, the attribute matrix D).
  • the first optimization term is expressed by Equation 9 exemplified below.
  • the second optimization term is a vector h bar i (superscript bar of h i ) consisting of a value obtained by applying a labeled sample of the target task to a plurality of existing predictors and a label y of the sample, and
  • the attribute vector d (more specifically, the attribute matrix D) and the attribute vector d T+1 of the target task used in the predictor are the attribute vector d of the sample x and the projection ⁇ of the target task onto the attribute vector d T+1 space. This is a term for calculating the norm with the estimated vector obtained by applying.
  • the second optimization term is expressed by Equation 10 below.
  • the attribute vector optimizing unit 311 optimizes the sum of the first optimization term and the second optimization term to be the minimum, and calculates the attribute vector d and the attribute vector d T+1 of the target task.
  • the attribute vector optimizing unit 311 may, for example, optimize Equation 11 exemplified below to calculate the attribute vector d and the attribute vector d T+1 of the target task.
  • the predicted value calculation unit 120 of this embodiment includes a predictor calculation unit 321 and a prediction unit 322.
  • the predictor calculation unit 321 learns the predictor of the target task. Specifically, the predictor calculating unit 321 learns the predictor so as to minimize the following two terms (hereinafter, the first learning term and the second learning term).
  • the first learning term is a term related to the unlabeled sample of the target task
  • the second learning term is a term related to the labeled sample of the target task.
  • the first learning term is the value obtained by applying the predictor to the result of applying the unlabeled sample to the mapping function ⁇ shown in the second embodiment, and the estimated attribute vector d T+1 It is the sum of the magnitude of the difference between the unlabeled sample and the projection ⁇ ′ applied value for each unlabeled sample.
  • the second learning term is the difference between the value obtained by applying the predictor to the result of applying the labeled sample to the mapping function ⁇ and the label of the labeled sample, which is calculated under a predetermined ratio ⁇ .
  • the magnitude of the difference between the value obtained by applying the predictor to the result of applying the labeled sample to the mapping function ⁇ and the value obtained by applying the projection ⁇ of the labeled sample to the attribute vector d T+1 of the target task. Is the sum of labeled samples.
  • the predictor calculation unit 321 learns the predictor so as to minimize the sum of the first learning term and the second learning term.
  • the predictor calculation unit 321 may learn the predictor using, for example, Expression 12 below.
  • the prediction unit 322 calculates the prediction value by applying the result of applying the prediction target sample x new to the mapping function ⁇ to the predictor w.
  • the prediction unit 322 may calculate the prediction value using, for example, Expression 13 below.
  • the target task attribute estimation unit 110 (more specifically, the attribute vector optimization unit 311) and the predicted value calculation unit 120 (more specifically, the predictor calculation unit 321 and the prediction unit 322) are programs ( It is realized by a processor of a computer that operates according to a learning program).
  • FIG. 7 is a flowchart showing an operation example of the learning device 300 of this embodiment.
  • the attribute vector optimization unit 311 obtains the norm of the result obtained by applying the unlabeled sample to the predictor and the result of applying the projection of the attribute vector of the unlabeled sample to the space to the attribute vector of the predictor (first Optimization term), and a vector containing the result of applying the labeled sample to the predictor and the label of the labeled sample, the attribute vector of the predictor and the attribute vector of the labeled sample in the prediction vector of the target task. And the attribute vector d T+1 of the target task such that the sum of the norm (second optimization term) with the result obtained by applying the projection of the attribute vector of the target task to the space is minimized. Yes (step S41).
  • the predictor calculating unit 321 calculates the difference between the value obtained by applying the predictor to the result of applying the labeled sample to the mapping function ⁇ and the label of the labeled sample, which is calculated under a predetermined ratio ⁇ . And the magnitude of the difference between the value obtained by applying the predictor to the result of applying the labeled sample to the mapping function ⁇ and the value obtained by applying the projection of the labeled sample to the attribute vector d T+1 of the target task.
  • the predictor w that minimizes the sum (first learning term) with the sum of the unlabeled samples of the magnitude of the difference from the value to which is applied is calculated (step S42).
  • the prediction unit 322 calculates the prediction value by applying the result of applying the prediction target sample x new to the mapping function ⁇ to the predictor (step S43).
  • the attribute vector optimizing unit 311 uses the attribute vector d and the attribute vector d of the target task so that the sum of the first optimization term and the second optimization term is minimized.
  • T+1 is calculated, and the predictor calculating unit 321 calculates a predictor that minimizes the sum of the second learning term and the first learning term.
  • the prediction unit 322 calculates the prediction value by applying the result of applying the prediction target sample x new to the mapping function ⁇ to the predictor.
  • the first and second embodiments it is possible to efficiently (in a short time) learn a highly accurate model from a small number of data by using an existing model.
  • an arbitrary unlabeled sample is assumed, but in the present embodiment, it is assumed that an unlabeled sample of the target task is given in advance.
  • the labeled sample can be used directly, and the information of the distribution regarding the sample of the target task can be used, so compared with the first and second embodiments, There is a possibility that the accuracy can be increased.
  • FIG. 8 is a block diagram showing a configuration example of the fourth embodiment of the learning device according to the present invention.
  • the learning device 400 of this embodiment includes a target task attribute estimation unit 110, a predicted value calculation unit 120, a predictor storage unit 130, a model evaluation unit 140, and an output unit 150.
  • the contents of the target task attribute estimation unit 110 and the predicted value calculation unit 120 of this embodiment may be any of the first embodiment, the second embodiment, and the third embodiment.
  • the contents of the predictor storage unit 130 are the same as those in the above-described embodiment.
  • the model evaluation unit 140 evaluates the similarity between the learned predictor attribute vector and the predictor attribute vector that predicts the estimated target task.
  • the method by which the model evaluation unit 140 evaluates the similarity of attribute vectors is arbitrary.
  • the model evaluation unit 140 may calculate the cosine similarity illustrated in Expression 14 below and evaluate the similarity.
  • the output unit 150 visualizes the similarity between predictors in a manner according to the degree of similarity.
  • FIG. 9 is an explanatory diagram illustrating an example of a process of visualizing the similarity. As illustrated in FIG. 9, the output unit 150 may display the similarity between two predictors in a matrix format and visualize the similarity of each predictor in a corresponding position.
  • FIG. 9 shows an example in which cells having a high degree of similarity are visualized in a dark color and cells having a low degree of similarity are visualized in a light color.
  • FIG. 10 is a block diagram showing the outline of the learning device according to the present invention.
  • the learning device 80 (for example, the learning devices 100 to 400) according to the present invention uses the attribute vector (for example, the attribute vector d, the attribute matrix D) of the existing predictor (for example, h t ) based on the sample of the domain of the target task.
  • the attribute vector for example, the attribute vector d, the attribute matrix D
  • the existing predictor for example, h t
  • the target task attribute estimation unit 81 for example, the target task attribute estimation unit 110
  • the prediction target sample that is converted by the conversion method based on the target task attribute vector.
  • the prediction value calculation unit 82 for example, the prediction value calculation unit 120 that calculates the prediction value (for example, x new ) is provided.
  • an existing model can be used to learn a highly accurate model from a small number of data.
  • the target task attribute estimation unit 81 estimates the attribute vector used in each of the predictors from the output obtained by applying the sample of the domain of the target task to the plurality of predictors (for example, the attribute vector estimation unit).
  • a first projection calculation unit (for example, the first projection calculation unit 113) that calculates the difference between the value and the first estimation value to be the minimum, and a second projection value that is applied to the projection to obtain the second estimation value.
  • a target attribute vector calculation unit (for example, target attribute) that calculates the attribute vector (for example, d T+1 ) of the target task so that the difference between the label (for example, y) of the labeled sample and the second estimated value is minimized.
  • the vector calculation unit 114) may be included.
  • the predicted value calculation unit 82 predicts the projection (for example, the projection ⁇ new ) of the prediction target sample (for example, the sample x new ) for applying the estimated attribute vector to obtain the third estimated value.
  • the second projection calculation unit (for example, the second projection calculation unit 121) that calculates the difference between the value obtained by applying the prediction target sample to the calculator and the third estimated value, and the target task A prediction unit (for example, the prediction unit 122) that applies the projection to the attribute vector to calculate the prediction value may be included.
  • the target task attribute estimation unit 81 uses the output (sample+value) obtained by applying the sample of the domain of the target task to a plurality of predictors, and the attribute vector and the output used in each of the predictors.
  • the transformation matrix for example, the transformation matrix V
  • a mapping function for example, the transformation function that represents the transformation between the transformation matrix and the attributes.
  • a mapping function ⁇ to calculate the attribute vector of the target task for obtaining the estimated value by applying it to the product so that the difference between the label of the labeled sample and its estimated value is minimized.
  • the attribute vector calculation unit 213) may be included.
  • the prediction value calculation unit 82 includes a prediction unit (for example, the prediction unit 222) that calculates the prediction value by applying the result of applying the prediction target sample to the transformation matrix and the mapping function to the attribute vector of the target task. Good.
  • the target task attribute estimation unit 81 has a vector consisting of values obtained by applying unlabeled samples of the target task to a plurality of predictors, and an attribute vector used in each of the predictors has no label.
  • the norm with the vector obtained by applying the projection of the attribute vector of the sample to the space is the first optimization term, and the value obtained by applying the labeled sample of the target task to multiple predictors and its label
  • the optimization unit (for example, the attribute vector optimization unit 311) may be included.
  • the predicted value calculation unit 82 assigns a labeled sample to a mapping function (for example, the mapping function ⁇ ) that is a function representing the conversion between attributes, which is calculated under a predetermined ratio (for example, the ratio ⁇ ).
  • a mapping function for example, the mapping function ⁇
  • the magnitude of the difference between the value obtained by applying the predictor to the applied result and the label of the labeled sample, and the value obtained by applying the predictor to the result of applying the labeled sample to the mapping function and the attribute of the target task The sum of each labeled sample and the magnitude of the difference between the vector and the projection of that labeled sample, and the value obtained by applying the predictor to the result of applying the unlabeled sample to the mapping function.
  • a predictor calculating unit (for example, predictor calculating unit 321) that calculates a predictor that minimizes the sum of the magnitude of the difference between the attribute vector and the projection of the unlabeled sample and the sum of the unlabeled samples. ) And a prediction unit (for example, the prediction unit 322) that calculates the prediction value by applying the result of applying the prediction target sample to the mapping function to the predictor.
  • the learning device 80 is similar to a model evaluation unit (for example, a model evaluation unit 140) that evaluates the degree of similarity between the attribute vector of the existing predictor and the attribute vector of the predictor that predicts the estimated target task.
  • a model evaluation unit for example, a model evaluation unit 140
  • An output unit for example, the output unit 150
  • visualizes the similarity between the predictors in a mode depending on the degree may be provided.
  • FIG. 11 is a schematic block diagram showing the configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the above learning device is implemented in the computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (learning program).
  • the processor 1001 reads the program from the auxiliary storage device 1003, expands it in the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a non-transitory tangible medium.
  • Other examples of the non-temporary tangible medium include a magnetic disk, a magneto-optical disk, a CD-ROM (Compact Disc Read-only memory), a DVD-ROM (Read-only memory), which are connected via the interface 1004.
  • a semiconductor memory etc. are mentioned. Further, when this program is distributed to the computer 1000 via a communication line, the computer 1000 to which the program is distributed may expand the program in the main storage device 1002 and execute the above processing.
  • the program may be for realizing some of the functions described above. Further, the program may be a so-called difference file (difference program) that realizes the above-mentioned function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program
  • the target task attribute estimation unit estimates the attribute vector used in each of the predictors from the output obtained by applying the sample of the domain of the target task to the plurality of predictors, and The projection of each labeled sample for applying to the estimated attribute vector to obtain the first estimated value, the value obtained by applying the labeled sample to the predictor and the first estimated value
  • a first projection calculation unit that calculates to minimize the difference, and an attribute vector of the target task for applying the projection to obtain a second estimated value, the label of the labeled sample and the second estimation.
  • a target attribute vector calculation unit that calculates a difference with a minimum value, the prediction value calculation unit is a prediction target sample for applying to the estimated attribute vector to obtain a third estimated value.
  • the projection vector of the target task is calculated so that the difference between the value obtained by applying the prediction target sample to the predictor and the third estimated value is minimized, and the attribute vector of the target task
  • the learning device further comprising: a prediction unit that applies the projection to calculate a prediction value.
  • the target task attribute estimation unit sets the attribute vector used in each predictor and the output from the output obtained by applying the sample of the domain of the target task to the plurality of predictors in the space of the attribute vector.
  • An attribute vector of the target task for obtaining an estimated value by applying the product of a transformation estimation unit that estimates a transformation matrix to be transformed and a mapping function that is a function that represents transformation between the transformation matrix and attributes, and labeled samples
  • a prediction vector calculation unit that calculates the difference between the label and the estimated value to be a minimum
  • the prediction value calculation unit sets the transformation matrix in the attribute vector of the target task and the prediction target sample in the mapping function.
  • the learning device according to appendix 1, including a prediction unit that calculates a prediction value by applying the applied result.
  • the target task attribute estimation unit includes a vector including values obtained by applying the unlabeled sample of the target task to a plurality of predictors, and the attribute vector used in each of the predictors.
  • the norm with the vector obtained by applying the projection of the attribute vector to the space is the first optimization term, and the value obtained by applying the labeled sample of the target task to the plurality of predictors and the labeled sample
  • the prediction value calculation unit includes a vector optimization unit, and the prediction value calculation unit predicts a result obtained by applying the labeled sample to a mapping function that is a function representing conversion between attributes, which is calculated under a predetermined ratio.
  • the value to which the predictor is applied to the result of applying the labeled sample to the mapping function, and the label to the attribute vector of the target task The sum of each labeled sample of the sum of the magnitude of the difference with the value to which the projection of the attached sample is applied, and the value to which the predictor is applied to the result of applying the unlabeled sample to the mapping function and the attribute vector
  • a predictor calculation unit that calculates a predictor that minimizes the sum of the unlabeled samples and the sum of the unlabeled samples and the value of the difference between the value to which the projection of the unlabeled sample is applied, and the prediction target sample to the mapping function.
  • the learning device according to appendix 1, further comprising: a prediction unit that calculates a prediction value by applying the applied result to the predictor.
  • a model evaluation unit that evaluates the degree of similarity between the attribute vector of the existing predictor and the attribute vector of the predictor that predicts the estimated target task, and the model predictor of the predictor in a mode according to the degree of similarity.
  • the learning device according to any one of appendices 1 to 4, further comprising: an output unit that visualizes the similarity between the learning devices.
  • the computer estimates the attribute vector of an existing predictor based on a sample of the domain of the target task, and estimates the attribute vector based on the result of applying the labeled sample of the target task to the predictor. Based on the conversion method of the labeled sample with respect to the space consisting of, the computer estimates the attribute vector of the target task, the computer, based on the attribute vector of the target task, prediction of the prediction target sample converted by the conversion method A learning method characterized by calculating a value.
  • the computer estimates the attribute vector used in each of the predictors from the outputs obtained by applying the sample of the domain of the target task to the plurality of predictors, and the computer calculates the estimated attribute vector. , The projection of each labeled sample to obtain the first estimated value, the difference between the value obtained by applying the labeled sample to the predictor and the first estimated value is minimized. As described above, the computer applies the attribute vector of the target task to obtain a second estimated value by applying it to the projection, and the difference between the label of the labeled sample and the second estimated value is minimized.
  • the computer applies the attribute vector of the target task to obtain an estimated value by applying it to the product of the transformation matrix and a mapping function that is a function representing transformation between attributes, and the label of the labeled sample and Note that the calculation is performed so that the difference from the estimated value is minimized, and the computer applies the result of applying the prediction target sample to the transformation matrix and the mapping function to the attribute vector of the target task to calculate the prediction value.
  • a computer is a vector consisting of values obtained by applying an unlabeled sample of a target task to a plurality of predictors, and an attribute vector used in each of the predictors is a space of the attribute vector of the unlabeled sample.
  • the norm with the vector obtained by applying the projection to is the first optimization term, and the computer obtains the value obtained by applying the labeled sample of the target task to the plurality of predictors and the labeled sample.
  • the attribute vector and the attribute vector of the target task are calculated so that the sum of the first optimization term and the second optimization term is minimized
  • the magnitude of the difference between the label and the value of applying the predictor to the result of applying the labeled sample to the mapping function and the value of applying the projection of the labeled sample to the attribute vector of the target task are calculated so that the sum of the first optimization term and the second optimization term is minimized
  • a value obtained by applying a predictor to a result obtained by applying the labeled sample to a mapping function which is a function representing conversion between attributes, calculated by a computer at a predetermined ratio
  • the sum of the magnitude of the difference and the sum of each labeled sample, and the value of applying the predictor to the result of applying the unlabeled sample to the mapping function, and the projection of the unlabeled sample to the attribute vector Calculate a predictor that minimizes the sum of each unlabeled sample of the magnitude of the difference with the value, the computer, by applying the result of applying the sample to be predicted to the mapping function to the predictor
  • Attribute vector estimation processing for estimating attribute vectors used in the predictor from outputs obtained by applying a sample of a domain of the target task to a plurality of predictors in the target task attribute estimation processing on a computer ,
  • the first projection calculation process for calculating so that the difference between and the minimum, and the attribute vector of the target task for applying to the projection to obtain the second estimated value, the label of the labeled sample and the first
  • a second projection calculation process for calculating the projection of the prediction target sample such that the difference between the value obtained by applying the prediction target sample to the predictor and the third estimated value is minimized, and the target 11.
  • the attribute vector calculation process for calculating the difference between the label of the labeled sample and the estimated value is minimized, and in the prediction value calculation process, the attribute matrix of the target task is converted into the conversion matrix and the mapping function.
  • the learning program according to appendix 10 which executes a prediction process of calculating a prediction value by applying a result of applying a prediction target sample.
  • the norm with the vector obtained by applying the projection of the attribute vector of the sample to the space is used as the first optimization term, and the value obtained by applying the labeled sample of the target task to the plurality of predictors and It is obtained by applying a vector consisting of the label of the labeled sample, and the attribute vector of the labeled sample and the attribute vector of the target task to the space of the attribute vector of the labeled sample and the attribute vector of the target task, respectively.
  • the attribute vector and the attribute vector of the target task are set so that the sum of the first optimization term and the second optimization term is minimized.
  • Result of applying the labeled sample to a mapping function which is a function representing conversion between attributes, which is calculated in a predetermined ratio in the predicted value calculation processing by executing the attribute vector optimization processing to be calculated.
  • the magnitude of the difference between the value applied with the predictor and the label of the labeled sample, the value applied with the predictor for the result of applying the labeled sample to the mapping function, and the attribute of the target task The sum of each labeled sample of the sum of the magnitude of the difference from the value obtained by applying the projection of the labeled sample to the vector, and the value obtained by applying the predictor to the result of applying the unlabeled sample to the mapping function.
  • the learning program according to appendix 10 which applies a result obtained by applying a prediction target sample to the predictor to execute a prediction process of calculating a predicted value.
  • Target task attribute estimation unit 111
  • Sample generation unit 112
  • Attribute vector estimation unit 113
  • First projection calculation unit 114
  • Target attribute vector calculation unit 120
  • Prediction value calculation unit 121
  • Second projection calculation unit 122
  • Prediction unit 130
  • Predictor storage unit 211
  • Sample generation unit 212
  • Attribute vector calculation unit 222
  • Prediction unit 311 Attribute vector optimization unit 321
  • Predictor calculation unit 322 Prediction unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

対象タスク属性推定部81は、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する。予測値算出部82は、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する。

Description

学習装置、学習方法および学習プログラム
 本発明は、既存のモデルを利用して新たなモデルを学習する学習装置、学習方法および学習プログラムに関する。
 ビジネスシーンにおいて新たな価値を創造するために、創造的活動によって、日々新商品や新サービスが考案され、提供され続けている。効率的に利益を生み出すため、データに基づいた予測が行われることが多い。しかし、新商品や新サービスについての予測(新タスクと呼ぶこともある。)は提供開始からの期間が短く、大規模データを想定した予測分析技術の適用が困難である。
 具体的には、少量のデータのみから統計的機械学習に基づいて予測および分類モデルを構築することは一般的に困難であり、頑健に予測方法や分類方法を模擬できるとは言い難い。そこで、少ないデータに基づく学習方法が各種提案されている。例えば、非特許文献1には、ワンショット学習(One-shot learning )について記載されている。非特許文献1に記載されたワンショット学習では、入力間の類似度をランク付けする構造を用いたニューラルネットワークを学習する。
 また、非特許文献2にも、ワンショット学習について記載されている。非特許文献2に記載されたワンショット学習では、小規模のラベル付きサポートセットとラベルのない例をラベルにマップし、新しいクラスタイプに適応するための微調整の必要性を除外したネットワークを学習する。
Koch, G., Zemel, R., & Salakhutdinov, R., "Siamese neural networks for one-shot image recognition", ICML Deep Learning Workshop, Vol. 2, 2015. Vinyals, O., Blundell, C., Lillicrap, T., & Wierstra, D., "Matching networks for one shot learning", Advances in Neural Information Processing Systems 29, pp. 3630-3638, 2016.
 一方、非特許文献1や非特許文献2に記載されたワンショット学習(Few-shot learning と呼ぶこともある。)では、少量のデータのみを有する新タスクに対する予測モデルを高い精度で構築するために、既存の関連タスクのデータを統合したり参照したりする必要がある。
 タスクの数によっては、そのデータの規模は膨大であり、分散管理されているような場合には、データを集約するための手間がかかってしまう。また、集約したとしても、その集約した膨大なデータを処理する必要があり、新タスクに対する予測モデルを短時間で構築するには非効率的である。
 また、近年、プライバシー等の問題によりデータが提供されず、予測等に用いられるモデルのみが提供される形態も存在する。この場合、モデル構築に用いたデータ自体にアクセスすることはできない。そこで、短時間で予測モデルを構築するために、すでに学習済みの既存の予測モデルを利用することも考えられる。しかし、多種多様なモデルから、人手で必要になるモデルを選択し、適切に組み合わせて正確な予測モデルを構築することは困難である。そのため、既存の資産(すなわち、既存のモデル)を生かしつつ、少数のデータから、精度の高いモデルを学習できることが望まれている。
 そこで、本発明では、既存のモデルを利用して少数のデータから精度の高いモデルを学習できる学習装置、学習方法および学習プログラムを提供することを目的とする。
 本発明による学習装置は、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部と、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出部とを備えたことを特徴とする。
 本発明による学習方法は、コンピュータが、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定し、コンピュータが、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出することを特徴とする。
 本発明による学習プログラムは、コンピュータに、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定処理、および、対象タスクの属性ベクトルに基づいて、変換方法により変換される予測対象サンプルの予測値を算出する予測値算出処理を実行させることを特徴とする。
 本発明によれば、既存のモデルを利用して少数のデータから精度の高いモデルを学習できる。
本発明による学習装置の第一の実施形態の構成例を示すブロック図である。 第一の実施形態の学習装置の動作例を示すフローチャートである。 第一の実施形態の学習装置の具体的な動作例を示すフローチャートである。 本発明による学習装置の第二の実施形態の構成例を示すブロック図である。 第二の実施形態の学習装置の動作例を示すフローチャートである。 本発明による学習装置の第三の実施形態の構成例を示すブロック図である。 第三の実施形態の学習装置の動作例を示すフローチャートである。 本発明による学習装置の第四の実施形態の構成例を示すブロック図である。 類似性を可視化する処理の例を示す説明図である。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下の説明では、新商品や新サービスなど、新たな予測対象を対象タスクと記す。以下の実施形態では、対象タスクのサンプルが少数(a “few” samples)である場合を想定する。ここで、少数とは、タスクの複雑性にも依存するが、例えば、十数~数百程度のサンプルを想定する。また、予測のために生成される成果物を予測器、予測モデル、または、単にモデルと記す。また、一以上の属性の集合を属性ベクトルと記し、予測器は、属性ベクトルに含まれる各属性を説明変数とする。すなわち、属性ベクトルは、各タスクの属性を意味するものである。
 以下、学習済みのT個の予測器を、{h(x)|t=1,…,T}で表わす。また、対象タスクのサンプル(データ)をDT+1:={(x,y)|n=1,…,NT+1}で表す。すなわち、対象タスクのサンプルが少数であるとの想定より、NT+1の値は小さいものとする。
 また、すでに予測器が生成(学習)されたタスクを関連タスクと記す。本実施形態では、対象タスクに類似する関連タスクについて構成された予測器を用いて、その予測器の入出力関係から、対象タスクの予測器で用いられる属性ベクトルを生成する。ここで、類似の関連タスクとは、アルゴリズムの性質上、対象タスクと同様の説明変数(特徴量)によって構成できるタスク群を意味する。具体的に類似とは、特定のカテゴリに属する商品など、予め定義されたグループに属する対象を意味する。また、対象タスクまたは対象タスクに類似する範囲(すなわち、関連タスク)のサンプルのことを、対象タスクのドメインのサンプルと記す。
 サンプルは、(正解)ラベルが付与されたサンプル(以下、ラベル付サンプルと記す。)と、(正解)ラベルが付与されていないサンプル(以下、ラベルなしサンプルと記す。)が存在する。以下の説明では、単にサンプルと記した場合、そのサンプルは、ラベル付サンプルとラベルなしサンプルのいずれか一方または両方を含むものとする。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明による学習装置の第一の実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130とを備えている。
 予測器記憶部130は、学習済みの予測器を記憶する。予測器記憶部130は、例えば、磁気ディスク装置により実現される。
 対象タスク属性推定部110は、対象タスクのドメインのサンプルに基づいて既存の(学習済みの)予測器の属性ベクトルを推定する。また、対象タスク属性推定部110は、既存の予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対する、そのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する。
 予測値算出部120は、推定された対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する。
 以下、対象タスク属性推定部110および予測値算出部120の詳細な構成を説明する。
 本実施形態の対象タスク属性推定部110は、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114とを含む。
 サンプル生成部111は、対象タスクのドメインのサンプルをランダムに生成する。サンプルの生成方法は任意であり、各属性に任意の値をランダムに割り当ててサンプルを生成してもよい。
 また、新たにサンプルを生成せず、予め準備された対象タスクのサンプルそのものがサンプルとして用いられてもよい。対象タスクのサンプルは、ラベル付サンプルであってもよく、ラベルなしサンプルであってもよい。この場合、対象タスク属性推定部110は、サンプル生成部111を含んでいなくてもよい。他にも、サンプル生成部111は、対象タスクのサンプルを凸結合したサンプルを生成してもよい。以下の説明では、生成されたサンプルの集合をSで表わすこともある。
 属性ベクトル推定部112は、対象タスクのドメインのサンプルを既存の複数の予測器h(x)に適用して得られる出力(サンプル+値)から、上記予測器でそれぞれ用いられる属性ベクトルdからなる属性行列Dを推定する。
 具体的には、属性ベクトル推定部112は、サンプルxの射影αとの内積により算出される値と、そのサンプルxを予測器h(x)に適用して出力される値との差を最小化するように、属性ベクトルdからなる属性行列Dを最適化する。ここで、射影αとは、属性ベクトルdとの掛け合わせで各出力を再現可能な各サンプルxに対応する値である。ここで、推定される属性行列D^(Dの上付きハット)は、以下に例示する式1で推定される。
Figure JPOXMLDOC01-appb-M000001
 
 式1において、Cは、各属性ベクトルdが大きな値にならないための制約条件の集合であり、pは、属性ベクトルの要素の種類の最大数である。また、式1では、αに関するL1正則化を例示しているが、L1L2正則化など任意の正則化が含まれていてもよい。属性ベクトル推定部112は、上記に示す式1に対して、例えば、K-SVD(k-singular value decomposition )やMOD(Method of Optimal Directions)など、既存の辞書学習スキーマを用いて最適化を行ってもよい。なお、上記に示す式1が、辞書学習と同様の方法により最適化できることから、属性行列Dのことを辞書と記すこともある。
 なお、ここで推定される属性ベクトルdは、いわゆるゼロショット学習の「属性」に対応するため、属性ベクトルdをゼロショット学習においても同様に扱うことが可能である。
 第一射影算出部113は、推定された属性ベクトルd(より詳しくは、属性行列D)に適用して推定値(以下、第一の推定値と記す。)を得るための各ラベル付サンプル(x,y)(i=1,…,NT+1)の射影αを、予測器hにそのラベル付サンプル(x,y)を適用して得られる値と上記第一の推定値との差が最小になるように算出する。
 具体的には、第一射影算出部113は、対象タスクのラベル付サンプル(x,y)について、それぞれ以下に例示する式2を算出することで、xに対応する射影ベクトルα^(αの上付きハット)を算出してもよい。第一射影算出部113は、以下に例示する式2を、例えば、Lassoの問題として解くことが可能である。
Figure JPOXMLDOC01-appb-M000002
 
 対象属性ベクトル算出部114は、算出された射影αに適用して推定値(以下、第二の推定値と記す。)を得るための対象タスクの属性ベクトルdT+1を、対象タスクのラベル付サンプルのラベルyと上記第二の推定値との差が最小になるように算出する。
 具体的には、対象属性ベクトル算出部114は、対象タスクのラベル付サンプル(x,y)のyと、算出された射影αを用いて、対象タスクの属性ベクトルd^T+1(dT+1の上付きハット)を以下に例示する式3を用いて算出してもよい。対象属性ベクトル算出部114は、以下に例示する式3を、上記式1を算出する方法と同様に方法を用いることで解を得ることが可能である。
Figure JPOXMLDOC01-appb-M000003
 
 本実施形態の予測値算出部120は、第二射影算出部121と、予測部122とを含む。
 第二射影算出部121は、推定された属性ベクトルdに適用して推定値(以下、第三の推定値と記す。)を得るための予測対象サンプルxnewの射影α^newを、予測器hにその予測対象サンプルxnewを適用して得られる値と、上記第三の推定値との差が最小になるように算出する。具体的には、第二射影算出部121は、対象タスクの予測対象サンプルxnewについて、上記式2を算出する方法と同様の方法で射影ベクトルα^newを求めればよい。
 予測部122は、対象タスクの属性ベクトルdT+1に射影αnewを適用して(具体的には、内積を算出して)予測値yを算出する。
 対象タスク属性推定部110(より具体的には、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114)と、予測値算出部120(より具体的には、第二射影算出部121と、予測部122)とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。
 例えば、プログラムは、学習装置が備える記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、対象タスク属性推定部110(より具体的には、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114)および予測値算出部120(より具体的には、第二射影算出部121と、予測部122)として動作してもよい。また、学習装置の機能がSaaS(Software as a Service )形式で提供されてもよい。
 対象タスク属性推定部110(より具体的には、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114)と、予測値算出部120(より具体的には、第二射影算出部121と、予測部122)とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、学習装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態の学習装置の動作例を説明する。図2は、本実施形態の学習装置100の動作例を示すフローチャートである。
 対象タスク属性推定部110は、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定する(ステップS1)。対象タスク属性推定部110は、推定された属性ベクトルからなる空間に対するラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する(ステップS2)。予測値算出部120は、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する(ステップS3)。
 図3は、本実施形態の学習装置100の具体的な動作例を示すフローチャートである。
 属性ベクトル推定部112は、対象タスクのドメインのサンプルを既存の複数の予測器に適用して得られる出力から、その予測器でそれぞれ用いられる属性ベクトルd(属性行列D)を推定する(ステップS21)。第一射影算出部113は、推定された属性ベクトルdに適用して第一の推定値を得るための各ラベル付サンプルの射影を、予測器hにラベル付サンプルを適用して得られる値と第一の推定値との差が最小になるように最適化する(ステップS22)。対象属性ベクトル算出部114は、射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと第二の推定値との差が最小になるように最適化する(ステップS23)。
 第二射影算出部121は、推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルxnewの射影αnewを、予測器に予測対象サンプルを適用して得られる値と第三の推定値との差が最小になるように最適化する(ステップS24)。予測部122は、対象タスクの属性ベクトルdT+1に射影αnewを適用して予測値を算出する(ステップS25)。
 以上のように、本実施形態では、属性ベクトル推定部112が、既存の複数の予測器に適用して得られる出力から、各予測器で用いられる属性ベクトルdを推定し、第一射影算出部113は、予測器に適用して得られる値と第一の推定値との差が最小になるように各ラベル付サンプルの射影を最適化する。そして、対象属性ベクトル算出部114が、ラベル付サンプルのラベルと第二の推定値との差が最小になるように対象タスクの属性ベクトルを最適化する。
 さらに、第二射影算出部121が、予測器に予測対象サンプルを適用して得られる値と第三の推定値との差が最小になるように予測対象サンプルxnewの射影αnewを算出し、予測部122が、対象タスクの属性ベクトルdT+1に射影αnewを適用して予測値を算出する。
 よって、既存のモデルを利用して少数のデータから精度の高いモデルを効率的に(短時間で)学習できる。具体的には、本実施形態では、新しい予測対象のサンプルが得られる毎に射影ベクトルを算出することで、より精度の高い予測を行うことが可能になる。
実施形態2.
 次に、本発明による学習装置の第二の実施形態を説明する。図4は、本発明による学習装置の第二の実施形態の構成例を示すブロック図である。本実施形態の学習装置200は、第一の実施形態の同様、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130とを備えている。ただし、第二の実施形態の対象タスク属性推定部110および予測値算出部120は、構成内容が第一の実施形態と異なる。
 本実施形態の対象タスク属性推定部110は、サンプル生成部211と、変換推定部212と、属性ベクトル算出部213とを含む。
 サンプル生成部211は、第一の実施形態のサンプル生成部111と同様、対象タスクのドメインのサンプルを生成する。
 変換推定部212は、対象タスクのドメインのサンプルを既存の複数の予測器h(x)に適用して得られる出力(サンプル+値)から、上記予測器でそれぞれ用いられる属性ベクトルdからなる属性行列D、および、上記出力をその属性ベクトルdの空間に変換する変換行列Vを推定する。
 具体的には、変換推定部212は、特徴写像関数φ(R→R)にサンプルxを適用して得られるベクトルと変換行列Vと属性行列Dとの積により算出される値と、そのサンプルxを予測器h(x)に適用して出力される値との差を最小化するように、属性ベクトルdからなる属性行列Dおよび変換行列Vを最適化する。ここで、特徴写像関数φは、属性間の変換を表わす、いわゆる予測等で行われる特徴量の変換(属性設計)に該当し、予め定義される任意の関数で表される。ここで、属性行列D^(Dの上付きハット)および変換行列V^(Vの上付きハット)は、以下に例示する式4で推定される。
Figure JPOXMLDOC01-appb-M000004
 
 式4において、Cは、式1と同様、各属性ベクトルdが大きな値にならないための制約条件の集合であり、pは、属性ベクトルの要素の種類の最大数である。また、式1と同様に、式4においても、任意の正則化が含まれていてもよい。
 属性ベクトル算出部213は、変換行列Vと写像関数φとの積に適用して推定値(以下、第四の推定値と記す。)を得るための対象タスクの属性ベクトルdT+1を、ラベル付サンプル(x,y)のラベルyと上記第四の推定値との差が最小になるように算出する。
 具体的には、属性ベクトル算出部213は、対象タスクのラベル付サンプル(x,y)のyと、推定された変換行列Vを用いて、対象タスクの属性ベクトルd^T+1(dT+1の上付きハット)を以下に例示する式5を用いて算出してもよい。
Figure JPOXMLDOC01-appb-M000005
 
 本実施形態の予測値算出部120は、予測部222を含む。
 予測部222は、対象タスクの属性ベクトルdT+1に変換行列Vおよび写像関数φに予測対象サンプルxnewを適用した結果を適用して予測値を算出する。予測部222は、例えば、以下の式6に例示する方法で、予測値を算出してもよい。
Figure JPOXMLDOC01-appb-M000006
 
 対象タスク属性推定部110(より具体的には、サンプル生成部211と、変換推定部212と、属性ベクトル算出部213)と、予測値算出部120(より具体的には、予測部222)とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
 次に、本実施形態の学習装置の動作例を説明する。図5は、本実施形態の学習装置200の動作例を示すフローチャートである。
 変換推定部212は、対象ドメインのサンプルを既存の複数の予測器に適用して得られる出力から、その予測器でそれぞれ用いられる属性ベクトルd(属性行列D)およびその出力をその属性ベクトルdの空間に変換する変換行列Vを推定する(ステップS31)。属性ベクトル算出部213は、変換行列Vと写像関数φとの積に適用して第四の推定値を得るための対象タスクの属性ベクトルdT+1を、ラベル付サンプルのラベルyと上記第四の推定値との差が最小になるように最適化する(ステップS32)。予測部222は、対象タスクの属性ベクトルdT+1に、変換行列Vおよび写像関数φに予測対象サンプルxnewを適用した結果を適用して予測値を算出する(ステップS33)。
 以上のように、本実施形態では、変換推定部212が、既存の複数の予測器に適用して得られる出力から、各予測器で用いられる属性ベクトルdおよび変換行列Vを推定し、属性ベクトル算出部213が、ラベル付サンプルのラベルyと上記第四の推定値との差が最小になるように対象タスクの属性ベクトルdT+1を最適化する。そして、予測部222が、対象タスクの属性ベクトルdT+1に、変換行列Vおよび写像関数φに予測対象サンプルxnewを適用した結果を適用して予測値を算出する。
 よって、第一の実施形態と同様、既存のモデルを利用して少数のデータから精度の高いモデルを効率的に(短時間で)学習できる。具体的には、本実施形態では、新しい予測対象のサンプルが得られるたびに、単純に変換行列Vを用いた演算をするだけで良いため、計算コストを低減させることが可能になる。特に、変換行列で適切に射影できるような新しいサンプルに対しては、予測精度が期待される。
実施形態3.
 次に、本発明による学習装置の第三の実施形態を説明する。図6は、本発明による学習装置の第三の実施形態の構成例を示すブロック図である。本実施形態の学習装置300は、第一の実施形態および第二の実施形態の同様、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130とを備えている。ただし、第三の実施形態の対象タスク属性推定部110および予測値算出部120は、構成内容が第一の実施形態および第二の実施形態と異なる。
 本実施形態では、第一の実施形態および第二の実施形態と比較し、対象タスクのラベルなしデータが得られている状況を想定する。以下の説明では、対象タスクのラベル付データを以下に例示する式7で表し、対象タスクのラベルなしデータを、以下に例示する式8で表す。
Figure JPOXMLDOC01-appb-M000007
 
 本実施形態の対象タスク属性推定部110は、属性ベクトル最適化部311を含む。
 属性ベクトル最適化部311は、対象タスクの属性ベクトルdT+1を算出するための二つの項(以下、第一の最適化項および第二の最適化項と記す。)を最小化するような辞書Dを学習する。第一の最適化項は、対象タスクのラベルなしデータに関する項であり、第二の最適化項は、対象タスクのラベル付データに関する項である。
 具体的には、第一の最適化項は、対象タスクのラベルなしサンプルを既存の複数の予測器に適用して得られる値からなるベクトルh´と、その予測器でそれぞれ用いられる属性ベクトルd(より具体的には、属性行列D)にラベルなしサンプルxの属性ベクトルd空間への射影α´を適用して得られる推定ベクトルとのノルムを算出する項である。第一の最適化項は、以下に例示する式9で表される。
Figure JPOXMLDOC01-appb-M000008
 
 第二の最適化項は、対象タスクのラベル付サンプルを既存の複数の予測器に適用して得られる値およびそのサンプルのラベルyからなるベクトルhバー(hの上付きバー)と、その予測器でそれぞれ用いられる属性ベクトルd(より具体的には、属性行列D)および対象タスクの属性ベクトルdT+1にサンプルxの属性ベクトルdおよび対象タスクの属性ベクトルdT+1空間への射影αを適用して得られる推定ベクトルとのノルムを算出する項である。第二の最適化項は、以下に例示する式10で表される。
Figure JPOXMLDOC01-appb-M000009
 
 属性ベクトル最適化部311は、第一の最適化項と第二の最適化項との和が最小になるように最適化して属性ベクトルdおよび対象タスクの属性ベクトルdT+1を算出する。属性ベクトル最適化部311は、例えば、以下に例示する式11を最適化して、属性ベクトルdおよび対象タスクの属性ベクトルdT+1を算出してもよい。
Figure JPOXMLDOC01-appb-M000010
 
 本実施形態の予測値算出部120は、予測器算出部321と、予測部322とを含む。
 予測器算出部321は、対象タスクの予測器を学習する。具体的には、予測器算出部321は、以下に示す二つの項(以下、第一の学習項および第二の学習項)を最小化するように予測器を学習する。第一の学習項は、対象タスクのラベルなしサンプルに関する項であり、第二の学習項は、対象タスクのラベル付サンプルに関する項である。
 具体的には、第一の学習項は、第二の実施形態で示す写像関数φにラベルなしサンプルを適用した結果に対して予測器を適用した値と、推定された属性ベクトルdT+1にそのラベルなしサンプルの射影α´を適用した値との差の大きさのラベルなしサンプルごとの総和である。
 第二の学習項は、予め定めた比率γのもとで算出される、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値とそのラベル付サンプルのラベルとの差の大きさと、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値と対象タスクの属性ベクトルdT+1にそのラベル付サンプルの射影αを適用した値との差の大きさとの和のラベル付サンプルごとの総和である。
 予測器算出部321は、第一の学習項と、第二の学習項との和を最小化するように予測器を学習する。予測器算出部321は、例えば、以下に例示する式12を用いて予測器を学習してもよい。
Figure JPOXMLDOC01-appb-M000011
 
 予測部322は、写像関数φに予測対象サンプルxnewを適用した結果を予測器wに適用して予測値を算出する。予測部322は、例えば、以下に例示する式13を用いて予測値を算出してもよい。
Figure JPOXMLDOC01-appb-M000012
 
 対象タスク属性推定部110(より具体的には、属性ベクトル最適化部311)と、予測値算出部120(より具体的には、予測器算出部321と、予測部322)とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
 次に、本実施形態の学習装置の動作例を説明する。図7は、本実施形態の学習装置300の動作例を示すフローチャートである。
 属性ベクトル最適化部311は、ラベルなしサンプルを予測器に適用して得られる結果と、予測器の属性ベクトルにラベルなしサンプルの属性ベクトルの空間への射影を適用した結果とのノルム(第一の最適化項)と、ラベル付サンプルを予測器に適用して得られる結果及びそのラベル付サンプルのラベルを含むベクトルと、予測器の属性ベクトル及び対象タスクの予測ベクトルにラベル付サンプルの属性ベクトル及び対象タスクの属性ベクトルの空間への射影を適用して得られる結果とのノルム(第二の最適化項)の和が最小になるように、属性ベクトルおよび対象タスクの属性ベクトルdT+1を算出する(ステップS41)。
 予測器算出部321は、予め定めた比率γのもとで算出される、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値とそのラベル付サンプルのラベルとの差の大きさと、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値と対象タスクの属性ベクトルdT+1にそのラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和(第二の学習項)、および、写像関数φにラベルなしサンプルを適用した結果に対して予測器を適用した値と属性ベクトルdT+1にそのラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和(第一の学習項)を最小化する予測器wを算出する(ステップS42)。
 予測部322は、写像関数φに予測対象サンプルxnewを適用した結果を予測器に適用して予測値を算出する(ステップS43)。
 以上のように、本実施形態では、属性ベクトル最適化部311は、第一の最適化項と第二の最適化項との和が最小になるように、属性ベクトルおよび対象タスクの属性ベクトルdT+1を算出し、予測器算出部321が、第二の学習項、および、第一の学習項との和を最小化する予測器を算出する。そして、予測部322が、写像関数φに予測対象サンプルxnewを適用した結果を予測器に適用して予測値を算出する。
 よって、第一の実施形態および第二の実施形態と同様、既存のモデルを利用して少数のデータから精度の高いモデルを効率的に(短時間で)学習できる。具体的には、第一の実施形態および第二の実施形態では、任意のラベルなしサンプルを想定したが、本実施形態では、対象タスクのラベルなしサンプルが予め与えられる場合を想定する。これは、いわゆる半教師付き学習に相当し、ラベル付サンプルを直接使用できること、および、対象タスクのサンプルに関する分布の情報を使用できるため、第一の実施形態および第二の実施形態と比較し、精度を高くできる可能性がある。
実施形態4.
 次に、本発明による学習装置の第四の実施形態を説明する。図8は、本発明による学習装置の第四の実施形態の構成例を示すブロック図である。本実施形態の学習装置400は、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130と、モデル評価部140と、出力部150とを備えている。
 本実施形態の対象タスク属性推定部110および予測値算出部120の内容は、第一の実施形態、第二の実施形態および第三の実施形態のいずれでも構わない。また、予測器記憶部130の内容は、上述する実施形態と同様である。
 モデル評価部140は、学習済みの予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価する。モデル評価部140が属性ベクトルの類似度を評価する方法は任意である。モデル評価部140は、例えば、以下の式14に例示するコサイン類似度を算出して類似度を評価してもよい。
Figure JPOXMLDOC01-appb-M000013
 
 出力部150は、類似度に応じた態様で予測器の間の類似性を可視化する。図9は、類似性を可視化する処理の例を示す説明図である。出力部150は、図9に例示するように、二つの予測器の類似度を行列形式で表示し、各予測器の類似度を対応する位置に区別し得る態様で可視化してもよい。図9では、類似度の高いセルを濃い色で、類似度の低いセルを薄い色で可視化した例を示す。
 このように、類似性の有する予測器(すなわち、タスク)の関係を可視化することで、例えば、キャンペーン等の意思決定を行う際に利用することが可能になる。
 次に、本発明の概要を説明する。図10は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80(例えば、学習装置100~400)は、対象タスクのドメインのサンプルに基づいて既存の予測器(例えば、h)の属性ベクトル(例えば、属性ベクトルd、属性行列D)を推定し、予測器に対象タスクのラベル付サンプルを適用した結果(例えば、h(x))に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法(例えば、射影α)に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部81(例えば、対象タスク属性推定部110)と、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプル(例えば、xnew)の予測値を算出する予測値算出部82(例えば、予測値算出部120)とを備えている。
 そのような構成により、既存のモデルを利用して少数のデータから精度の高いモデルを学習できる。
 また、対象タスク属性推定部81は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、その予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定部(例えば、属性ベクトル推定部112)と、推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影(例えばα)を、予測器にそのラベル付サンプルを適用して得られる値とその第一の推定値との差が最小になるように算出する第一射影算出部(例えば、第一射影算出部113)と、射影に適用して第二の推定値を得るための対象タスクの属性ベクトル(例えば、dT+1)を、ラベル付サンプルのラベル(例えば、y)と第二の推定値との差が最小になるように算出する対象属性ベクトル算出部(例えば、対象属性ベクトル算出部114)とを含んでいてもよい。
 そして、予測値算出部82は、推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプル(例えば、サンプルxnew)の射影(例えば、射影α^new)を、予測器にその予測対象サンプルを適用して得られる値と第三の推定値との差が最小になるように算出する第二射影算出部(例えば、第二射影算出部121)と、対象タスクの属性ベクトルに射影を適用して予測値を算出する予測部(例えば、予測部122)とを含んでいてもよい。
 そのような構成により、新しい予測対象のサンプルが得られる毎に射影ベクトルを算出することで、より精度の高い予測を行うことが可能になる。
 その他の構成として、対象タスク属性推定部81は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力(サンプル+値)から、その予測器でそれぞれ用いられる属性ベクトルおよび上記出力をその属性ベクトルの空間に変換する変換行列(例えば、変換行列V)を推定する変換推定部(例えば、変換推定部212)と、変換行列と属性間の変換を表わす関数である写像関数(例えば、写像関数φ)との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルとその推定値との差が最小になるように算出する属性ベクトル算出部(例えば、属性ベクトル算出部213)とを含んでいてもよい。
 そして、予測値算出部82は、対象タスクの属性ベクトルに変換行列および写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測部(例えば、予測部222)を含んでいてもよい。
 そのような構成により、新しい予測対象のサンプルが得られるたびに、単純に変換行列Vを用いた演算をするだけで良いため、計算コストを低減させることが可能になる。特に、変換行列で適切に射影できるような新しいサンプルに対しては、予測精度が期待される。
 さらに、その他の構成として、対象タスク属性推定部81は、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、その予測器でそれぞれ用いられる属性ベクトルにラベルなしサンプルのその属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、対象タスクのラベル付サンプルを複数の予測器に適用して得られる値およびそのラベル付サンプルのラベルからなるベクトルと、その予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルにラベル付サンプルのその属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、第一の最適化項と第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化部(例えば、属性ベクトル最適化部311)を含んでいてもよい。
 そして、予測値算出部82は、予め定めた比率(例えば、比率γ)のもとで算出される、属性間の変換を表わす関数である写像関数(例えば、写像関数φ)にラベル付サンプルを適用した結果に対して予測器を適用した値とそのラベル付サンプルのラベルとの差の大きさと、写像関数にラベル付サンプルを適用した結果に対して予測器を適用した値と対象タスクの属性ベクトルにそのラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と属性ベクトルにそのラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出する予測器算出部(例えば、予測器算出部321)と、写像関数に予測対象サンプルを適用した結果を予測器に適用して予測値を算出する予測部(例えば、予測部322)と含んでいてもよい。
 そのような構成により、対象タスクのラベルなしサンプルが予め与えられる場合(いわゆる半教師付き学習の場合)には、ラベル付サンプルを直接使用できること、および、対象タスクのサンプルに関する分布の情報を使用できるため、より精度を高くできる可能性がある。
 また、学習装置80は、既存の予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価するモデル評価部(例えば、モデル評価部140)と、類似度に応じた態様で予測器の間の類似性を可視化する出力部(例えば、出力部150)とを備えていてもよい。
 図11は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の学習装置は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部と、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出部とを備えたことを特徴とする学習装置。
(付記2)対象タスク属性推定部は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定部と、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出部と、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出部とを含み、前記予測値算出部は、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出部と、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測部とを含む付記1記載の学習装置。
(付記3)対象タスク属性推定部は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定部と、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出部とを含み、予測値算出部は、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測部を含む付記1記載の学習装置。
(付記4)対象タスク属性推定部は、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化部を含み、前記予測値算出部は、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出する予測器算出部と、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測部と含む付記1記載の学習装置。
(付記5)既存の予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価するモデル評価部と、前記類似度に応じた態様で前記予測器の間の類似性を可視化する出力部とを備えた付記1から付記4のうちのいずれか1つに記載の学習装置。
(付記6)コンピュータが、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定し、前記コンピュータが、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出することを特徴とする学習方法。
(付記7)コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定し、前記コンピュータが、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出し、前記コンピュータが、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出し、前記コンピュータが、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出し、前記コンピュータが、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する付記6記載の学習方法。
(付記8)コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定し、前記コンピュータが、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出し、前記コンピュータが、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する付記6記載の学習方法。
(付記9)コンピュータが、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、前記コンピュータが、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出し、前記コンピュータが、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出し、前記コンピュータが、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する付記6記載の学習方法。
(付記10)コンピュータに、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定処理、および、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出処理を実行させるための学習プログラム。
(付記11)コンピュータに、対象タスク属性推定処理で、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定処理、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出処理、および、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出処理を実行させ、前記予測値算出処理で、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出処理、および、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測処理を実行させる付記10記載の学習プログラム。
(付記12)コンピュータに、対象タスク属性推定処理で、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定処理、および、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出処理を実行させ、予測値算出処理で、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測処理を実行させる付記10記載の学習プログラム。
(付記13)コンピュータに、対象タスク属性推定処理で、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化処理を実行させ、前記予測値算出処理で、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出する予測器算出処理、および、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測処理を実行させる付記10記載の学習プログラム。
 100,200,300,400 学習装置
 110 対象タスク属性推定部
 111 サンプル生成部
 112 属性ベクトル推定部
 113 第一射影算出部
 114 対象属性ベクトル算出部
 120 予測値算出部
 121 第二射影算出部
 122 予測部
 130 予測器記憶部
 211 サンプル生成部
 212 変換推定部
 213 属性ベクトル算出部
 222 予測部
 311 属性ベクトル最適化部
 321 予測器算出部
 322 予測部

Claims (13)

  1.  対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部と、
     前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出部とを備えた
     ことを特徴とする学習装置。
  2.  対象タスク属性推定部は、
     対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定部と、
     前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出部と、
     前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出部とを含み、
     前記予測値算出部は、
     前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出部と、
     前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測部とを含む
     請求項1記載の学習装置。
  3.  対象タスク属性推定部は、
     対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定部と、
     前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出部とを含み、
     予測値算出部は、
     前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測部を含む
     請求項1記載の学習装置。
  4.  対象タスク属性推定部は、
     対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、
     対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、
     前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化部を含み、
     前記予測値算出部は、
     予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、
     前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和
     との和を最小化する予測器を算出する予測器算出部と、
     前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測部と含む
     請求項1記載の学習装置。
  5.  既存の予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価するモデル評価部と、
     前記類似度に応じた態様で前記予測器の間の類似性を可視化する出力部とを備えた
     請求項1から請求項4のうちのいずれか1項に記載の学習装置。
  6.  コンピュータが、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定し、
     前記コンピュータが、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する
     ことを特徴とする学習方法。
  7.  コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定し、
     前記コンピュータが、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出し、
     前記コンピュータが、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出し、
     前記コンピュータが、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出し、
     前記コンピュータが、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する
     請求項6記載の学習方法。
  8.  コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定し、
     前記コンピュータが、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出し、
     前記コンピュータが、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する
     請求項6記載の学習方法。
  9.  コンピュータが、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、
     前記コンピュータが、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、
     前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出し、
     前記コンピュータが、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、
     前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和
     との和を最小化する予測器を算出し、
     前記コンピュータが、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する
     請求項6記載の学習方法。
  10.  コンピュータに、
     対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定処理、および、
     前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出処理
     を実行させるための学習プログラム。
  11.  コンピュータに、
     対象タスク属性推定処理で、
     対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定処理、
     前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出処理、および、
     前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出処理を実行させ、
     前記予測値算出処理で、
     前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出処理、および、
     前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測処理を実行させる
     請求項10記載の学習プログラム。
  12.  コンピュータに、
     対象タスク属性推定処理で、
     対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定処理、および、
     前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出処理を実行させ、
     予測値算出処理で、
     前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測処理を実行させる
     請求項10記載の学習プログラム。
  13.  コンピュータに、
     対象タスク属性推定処理で、
     対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、
     対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、
     前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化処理を実行させ、
     前記予測値算出処理で、
     予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、
     前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和
     との和を最小化する予測器を算出する予測器算出処理、および、
     前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測処理を実行させる
     請求項10記載の学習プログラム。
PCT/JP2019/000704 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム WO2020144853A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020565140A JP7147874B2 (ja) 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム
US17/419,974 US20220092475A1 (en) 2019-01-11 2019-01-11 Learning device, learning method, and learning program
PCT/JP2019/000704 WO2020144853A1 (ja) 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/000704 WO2020144853A1 (ja) 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム

Publications (1)

Publication Number Publication Date
WO2020144853A1 true WO2020144853A1 (ja) 2020-07-16

Family

ID=71521087

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/000704 WO2020144853A1 (ja) 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20220092475A1 (ja)
JP (1) JP7147874B2 (ja)
WO (1) WO2020144853A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KODIROV, ELYOR ET AL., UNSUPERVISED DOMAIN ADAPTATION FOR ZERO-SHOT LEARNING, 18 February 2016 (2016-02-18), XP032866587, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/document/7410639> [retrieved on 20160401] *
ZHAO, AN ET AL., DOMAIN-INVARIANT PROJECTION LEARNING FOR ZERO-SHOT RECOGNITION, 19 October 2018 (2018-10-19), XP080925408, Retrieved from the Internet <URL:https://arxiv.org/abs/1810.08326> [retrieved on 20190401] *

Also Published As

Publication number Publication date
JP7147874B2 (ja) 2022-10-05
JPWO2020144853A1 (ja) 2021-11-25
US20220092475A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
JP7470476B2 (ja) 蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合
KR102170105B1 (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
JP7322997B2 (ja) データ変換装置
AU2018260855B2 (en) Hybrid cloud migration delay risk prediction engine
KR20200109230A (ko) 뉴럴 네트워크 생성 방법 및 장치
US10318874B1 (en) Selecting forecasting models for time series using state space representations
WO2019111118A1 (en) Robust gradient weight compression schemes for deep learning applications
JP2017049907A (ja) ニューラルネットワーク、その学習方法、及びコンピュータプログラム
CN116432037A (zh) 一种在线迁移学习方法、装置、设备和存储介质
JP2019185194A (ja) 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム
JPWO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
JP7196933B2 (ja) 学習装置および学習方法
WO2020144853A1 (ja) 学習装置、学習方法および学習プログラム
US20210056457A1 (en) Hyper-parameter management
Iquebal et al. Emulating the evolution of phase separating microstructures using low-dimensional tensor decomposition and nonlinear regression
US20200167642A1 (en) Simple models using confidence profiles
Morichetta et al. Demystifying deep learning in predictive monitoring for cloud-native SLOs
US20220318887A1 (en) Machine learning model generation platform
JP7464115B2 (ja) 学習装置、学習方法および学習プログラム
WO2020040007A1 (ja) 学習装置、学習方法及び学習プログラム
US11928572B2 (en) Machine learning model generator
US20230267363A1 (en) Machine learning with periodic data
Siper et al. TABot–A Distributed Deep Learning Framework for Classifying Price Chart Images
US20220318683A1 (en) Machine learning model aggregator
US20230306312A1 (en) Stable local interpretable model for prediction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19908373

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020565140

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19908373

Country of ref document: EP

Kind code of ref document: A1