WO2008047835A1 - Système, procédé et programme d'étude active - Google Patents

Système, procédé et programme d'étude active Download PDF

Info

Publication number
WO2008047835A1
WO2008047835A1 PCT/JP2007/070256 JP2007070256W WO2008047835A1 WO 2008047835 A1 WO2008047835 A1 WO 2008047835A1 JP 2007070256 W JP2007070256 W JP 2007070256W WO 2008047835 A1 WO2008047835 A1 WO 2008047835A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
value
label
unknown
learned
Prior art date
Application number
PCT/JP2007/070256
Other languages
English (en)
French (fr)
Inventor
Yukiko Kuroiwa
Yoshiko Yamashita
Minoru Asogawa
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2008539846A priority Critical patent/JP5169831B2/ja
Priority to EP07829990.6A priority patent/EP2083379B1/en
Priority to US12/311,947 priority patent/US20100023465A1/en
Publication of WO2008047835A1 publication Critical patent/WO2008047835A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to machine learning technology, and more particularly to an active learning system, method, and program.
  • Active learning is a form of machine learning technique that enables a learner (computer) to actively select learning data. Active learning can improve the efficiency of learning in terms of the number of data and the amount of calculation.For example, in drug discovery, screening for discovering compounds that are active against a specific protein from a huge variety of compounds. This technology is attracting attention as a suitable technology (see Reference 1, for example).
  • a descriptor characterizes the structure of the data
  • a label indicates the state of an event of the data.
  • individual compound data is specified by multiple descriptors that describe the presence or absence of specific partial structures, the number of specific partial structures, and various physicochemical constants such as molecular weight.
  • the label is used, for example, to indicate the presence or absence of activity against a specific protein and the strength of the activity. Possible value of a label When a value is discrete, such as active or inactive, the label is called a class.
  • the label is called a function value.
  • known data a set of data whose label values are known
  • unknown data a set of data whose label values are unknown
  • a learning algorithm handled by an active learning system generates one or more rules using known data.
  • a rule predicts a label value of data for an input of an arbitrary data descriptor, such as a decision tree, a support vector machine (SVM), or a neural network.
  • the predicted value is not necessarily the label value used in learning. That is, even if the label value is a discrete value, the predicted value is not necessarily a discrete value. For example, even if the label value is binary ⁇ 0, 1 ⁇ , the learning algorithm This is because the measured value can be predicted as 0 ⁇ 8.
  • the predicted value in each rule is the binary value ⁇ 0, 1 ⁇ , which is the label value, the predicted value is integrated by averaging the values. Because it becomes a value.
  • the actual value of the label is examined through experiments and surveys, and the result is fed back to the active learning system.
  • the active learning system removes the data with the actual label value from the set of unknown data, mixes it with the known data, and repeats the same operation as above.
  • a rule is learned using data selected again from known data, the rule is applied to unknown data, prediction is performed, and data is selected and output based on the prediction result. Such a process is repeated until a predetermined end condition is satisfied.
  • the learning algorithm predicts a value other than the desired label value for any data. This is because the desired data is predicted to be other than the desired label value, and there is virtually no change from the random selection. For example, if the label value is binary ⁇ A, ⁇ and there is no label ⁇ data in the known data, a rule that always predicts label B is generated, and based on the prediction result Even if the data is selected, the selected data is not substantially different from the randomly selected data. Also, when the label value is the tri-value ⁇ A, B, C ⁇ and the three labels indicate independent events, there is no or very little data for label A in the known data.
  • a rule that predicts label B or C is generated for any data. This is because the desired data with label A is not predicted by meaningful rules, is only selected randomly, and label A is not learned efficiently. If the label value is a continuous value, it is the same if a certain range of label values is considered as the desired label value, and the desired label value cannot be learned efficiently.
  • the second problem of the conventional active learning system is that even if the user has auxiliary information about the data, the user cannot learn more efficiently using the auxiliary information.
  • the conventional active learning system uses known data whose label has been clarified for learning and cannot use supplementary knowledge of the user other than the known data in the system. . Users may have background knowledge of the domain or supplementary knowledge such as patents. For example, when learning active compounds and non-active compounds in drug discovery screening, the ability to identify compounds that are likely to be active from supplementary information such as literature is active because there is no such compound at hand. If it is not possible to confirm the presence or absence of such compounds, such active compounds are neither known nor unknown data, and cannot be achieved with conventional active learning systems. For this reason, it is not possible to learn more efficiently using information on compounds that are likely to be active.
  • An object of the present invention is to provide efficient learning even when there is no data (desired data) near a certain label value (desired label value) in the known data, or when there is very little.
  • the object is to provide an active learning system capable of learning.
  • the present invention calculates the similarity between the data whose label value is unknown and the data whose label value is a predetermined value, and then learns based on the calculated similarity.
  • the first data selection part that selects the data to learn and the label value based on known data
  • An active learning system comprising: a second data selection unit that selects the data to be learned next by applying the learned rule to a set of data whose label value is unknown. provide.
  • the present invention provides a set of known data in which a desired label value is known among the data composed of one or more descriptors and one or more labels, and the desired label value.
  • a storage unit that stores a set of unknown data that is unknown, and data having a predetermined value for the desired label is selected as predetermined data from the set of known data stored in the storage unit, and each unknown
  • a first data selection operation for calculating the similarity with the predetermined data for each data, and selecting data to be learned next from the set of unknown data based on the calculated similarity, and storing the data in the storage unit Based on the obtained known data!
  • a rule for calculating the value of the desired label of the data is learned for the input of the descriptor of the arbitrary data, and the learned rule is set to the set of unknown data. Apply each unknown data The operation on the specified side of the second data selection operation that predicts the value of the desired label and selects the next data to be learned on the basis of the prediction result.
  • an active learning system characterized by comprising control means for adding to a set.
  • the present invention relates to a set of known data in which a desired label value is known among data composed of one or more descriptors and one or more labels, and the desired label value.
  • a storage unit that stores a set of unknown data with unknown values and a set of auxiliary data obtained by rewriting the value of the desired label of the known data or unknown data, and a set of known data and auxiliary data stored in the storage unit.
  • a calculation data generating means for generating calculation data from the set and storing the calculation data in the storage unit; and data having a predetermined value of the desired label from the set of calculation data stored in the storage unit as the predetermined data
  • a first data selection operation for calculating a similarity with the predetermined data for each unknown data, and selecting data to be learned next from the set of unknown data based on the calculated similarity If, on the input descriptor of any data on the basis of the calculation data stored in the storage unit A rule for calculating the desired label value of the data is learned, and the learned rule is applied to the set of unknown data to predict the desired label value of each unknown data.
  • the second data selection operation for selecting the next data to be learned from the set of unknown data based on the result, the data selection means for performing the operation on the designated side, and the data selection means Control means for outputting data from an output device, and removing the data with the desired label value input from the input device from the set of unknown data and adding the data to the set of known data.
  • the present invention provides a set of known data in which the value of the desired label is known among the data composed of one or more descriptors and one or more labels, and the value of the desired label.
  • a storage unit that stores a set of unknown data with unknown values and a set of auxiliary data obtained by rewriting the value of the desired label of the known data or unknown data, and a set of known data and auxiliary data stored in the storage unit.
  • a calculation data generating means for generating weighted calculation data from the set and storing the calculation data in the storage unit; and the collective power of the weighted calculation data stored in the storage unit.
  • the value of the desired label is a predetermined value.
  • An active device comprising: a control means for outputting from the output device and removing the data whose desired label value is input from the input device from the set of unknown data and adding the data to the set of known data To provide a learning system.
  • the present invention in a fifth aspect, is an active learning method using a computer, An active learning cycle in which the computer calculates the degree of similarity between the data whose label value is unknown and the data whose label value is a predetermined value, and selects the next data to be learned based on the calculated degree of similarity After one or more cycles, the rule is learned based on the data with the known label value, and the learned rule is applied to the set of data with the unknown label value to select the next data to be learned.
  • An active learning method characterized by shifting to an active learning cycle is provided.
  • FIG. 1 is a block diagram of an active learning system according to a first embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of the structure of data handled by the active learning system according to the first embodiment of the present invention.
  • FIG. 3 is a flowchart showing the operation of the active learning system according to the first embodiment of the present invention.
  • FIG. 4 A block diagram of an active learning system according to a second embodiment of the present invention.
  • FIG. 5 is a diagram showing an example of the structure of data handled by the active learning system according to the second embodiment of the present invention.
  • FIG. 6 is a flowchart showing the operation of the active learning system according to the second embodiment of the present invention.
  • the active learning system which is effective in the first embodiment of the present invention, operates by an input device 1 composed of a keyboard or the like for inputting instructions and data from a user and by program control. And a storage device 3-7 including a semiconductor memory and a magnetic disk, and an output device 8 including a display device.
  • the storage devices 3 to 7 can be used as the storage devices 3 to 7 which are obtained by logically dividing the same storage device, which need not be physically separate devices.
  • the storage device 3 includes the known data 31, the unknown data 32, and the complement input from the input device 1.
  • Auxiliary data 33 is stored.
  • An example of the data structure of known data 31, unknown data 32 and auxiliary data 33 is shown in FIG. Referring to FIG. 2, the known data 31, unknown data 32 and auxiliary data 33 are configured to include an identifier 201 for uniquely identifying its own data, one or more descriptors 202, and one or more labels 203.
  • the Descriptor 202 characterizes the structure of the data.
  • Label 203 indicates the status of an event in the data, and is a class or function value.
  • the label to be predicted is called a desired label.
  • the value of the desired label is unknown (unset state).
  • the value of the desired label is already known (set state).
  • the value of the desired label of the auxiliary data 33 is the force S in the set state as in the known data 31, and the value of the desired label of the known data 31 is actually confirmed, whereas the value of the auxiliary data 33
  • the desired label value is different in that it is an uncertain value.
  • auxiliary data 33 data that can be effectively used as an auxiliary for efficient learning is used although it is not suitable for handling as the known data 31 because the value of the desired label is uncertain.
  • learning active compounds and non-active compounds in drug discovery screening let us focus on a certain compound that is likely to be active based on the knowledge that the user has in this area and information such as literature. If the compound is at hand and the presence or absence of activity can be confirmed by experiment, it can be classified into known data, but if such an experiment cannot be performed, it cannot be classified into known data. In addition, since it is a compound that seems to be active, it is not easy to classify it as unknown data.
  • the value of the desired label is set as active and handled as auxiliary data, so that it can be used for learning by being clearly distinguished from true known data as provisional known data.
  • compounds that are slightly more active than other inactive compounds are conventionally inactive compounds in known data.
  • the temporary known data is clearly distinguished from the true known data. Make it available for learning.
  • auxiliary data can be generated from known or unknown data as follows.
  • label 1 indicates the presence or absence of activity against adrenaline
  • label 2 indicates the presence or absence of activity against histamine.
  • data obtained by rewriting label 1 of the data of a certain compound in which label 1 is inactive or unknown and label 2 is active as label 2 is used as auxiliary data.
  • histamine belongs to the same G PCR biogenic amine receptor family as adrenaline, and that when proteins are closely related, ligand compounds are often similar! / Considered ⁇ ⁇ .
  • the storage device 4 stores the control conditions input from the input device 1.
  • the control conditions include an auxiliary condition 41, a prediction condition 42, a data selection condition 43, an end condition 44, an output condition 45, and a predetermined label value 46.
  • the auxiliary condition 41 is a condition for using the auxiliary data 33 for calculation.
  • the following condition can be used.
  • Auxiliary condition ⁇ Auxiliary data 33 is used for calculation from the first time to a predetermined number of iterations ⁇
  • Auxiliary condition ⁇ Auxiliary data 33 is used for calculation until a predetermined number of desired data is obtained.
  • the desired data is known data whose desired label value is a desired value.
  • the desired value is a label value that is valuable to the user. For example, in screening for drug discovery, if the desired label is the presence or absence of activity against a specific protein and the active compound is valuable to the user, the desired value becomes active
  • Auxiliary condition C Leave some of the known data as evaluation data, If the prediction accuracy for the evaluation data when calculated with known data is lower than the prediction accuracy for the evaluation data when using calculation data obtained by conversion from known data and auxiliary data other than the evaluation data Use data 33.
  • Auxiliary condition D Instead of leaving the evaluation data under auxiliary condition C, if the estimated accuracy estimated without using auxiliary data 33 using the estimated prediction accuracy is lower than the estimated accuracy estimated using auxiliary data 33 Use auxiliary data 33.
  • Auxiliary condition E follows the instructions from the user on whether to use auxiliary data 33.
  • auxiliary conditions A, B, C, and D can be specified individually or in any combination.
  • Auxiliary condition E is always set as a condition to be considered.
  • the prediction condition 42 specifies a prediction method of data to be learned next. Specifically, it is specified whether to derive by similarity calculation or by rule.
  • the method for deriving the data to be learned next by the rule is the same as the conventional active learning, and the prediction method used in the conventional active learning can be used as it is.
  • a method used in the conventional active learning for example, a rule is learned using group learning such as learning using a decision tree, a two-evolution network, a support vector machine, or a combination of bagging and boosting. There is a method to predict the value of the desired label of unknown data using the rules obtained by learning.
  • a method for deriving data to be learned next by similarity calculation is a method that has not been used in conventional active learning.
  • the value of the desired label has a predetermined value from a set of known data 31 (when auxiliary data 33 is used, a set of calculation data generated from known data 31 and auxiliary data 33). All data is selected as predetermined data, and the degree of similarity with the predetermined data is calculated for each data in the set of unknown data 32, and the next data to be learned is calculated based on the calculated similarity. It is a method to select from a set of.
  • a typical example of the predetermined data is data in which the value of the desired label is a desired value, that is, desired data.
  • the desired data is valuable data for the user, and the desired data power is determined by the value of the label.
  • the label value is binary, the data of one label value is the desired data.
  • the label is a specific protein. If there is value for the active compound for the user and the active compound for the user, the active compound becomes the desired data.
  • the label takes a continuous value, the data that becomes a label value in a range that is valuable to the user is taken as the desired data.
  • the label is the strength of activity for a specific protein and the data that is valuable to the user is the strength of activity above a certain threshold
  • the data with the strength of activity above that threshold is desired. It becomes data.
  • data having a predetermined label value that is not a desired value may be used as the predetermined data.
  • the similarity is calculated by comparing descriptors of two data to be compared. Specifically, for example, when there are n descriptors in total, n descriptors are compared, and for example, a value corresponding to the number of matching descriptors is used as the similarity. If there are a total of m predetermined data, one unknown data is compared with each of the m predetermined data. As a result, for example, the highest similarity among them is set as the similarity of the unknown data. Of course, statistical data such as the average value of the similarity to all the predetermined data may be used as the similarity of the unknown data.
  • the data selection condition 43 specifies a method for selecting data to be learned next.
  • the method of deriving the data to be learned next by rules the method of selecting data with a predicted value broken in group learning, or the method of selecting data of the predicted value close to the desired label value!
  • a method similar to the selection method used in conventional active learning such as a method of selecting using a certain function for the predicted value, can be used.
  • select the data with the highest similarity, or vice versa select the data with the lowest similarity! You can use the selection method.
  • the termination condition 44 is a condition for terminating the calculation.
  • the following conditions can be used.
  • End condition a End when a predetermined number of iterations N is exceeded.
  • Termination condition b Terminate when a predetermined number of desired data is obtained.
  • End condition c A part of the calculation data is left as evaluation data without being used for prediction, and the process ends when the prediction accuracy of the evaluation data becomes higher than a predetermined value.
  • End condition d Estimate the prediction accuracy, and end if the estimated prediction accuracy is higher than a predetermined value.
  • Termination condition e Terminate if any of the termination conditions b, c, and d is such that the slope (improvement curve) at which the value improves is smaller than a predetermined value.
  • Termination condition f follows the instructions from the user regarding whether to terminate.
  • the end conditions a, b, c, d, and e can be specified individually or in any combination.
  • the auxiliary condition f is set as a condition that should always be taken into consideration.
  • the output condition 45 specifies whether to output a rule, known data, or desired data generated as a result of the calculation.
  • the reason why it is possible to output known data and desired data in addition to the generated rules is that, for example, in screening for drug discovery, if the label is the presence or absence of activity against a specific protein, the label is known to the user. This is because the active compound has value and is meaningful to output.
  • the predetermined label value 46 designates a label of interest and its value. Typically, the label of data that is valuable to the user and the ability to specify that value S, and vice versa.
  • the storage device 5 stores calculation data 51 generated by the processing device 2 from the known data 31 and the auxiliary data 33. A method for generating the calculation data 51 will be described later.
  • the storage device 6 stores data 61 to be learned next, which is selected by the similarity calculation in the processing device 2.
  • the storage device 7 stores the rule 71 generated in the processing device 2 and selection data 72 to be learned next selected by the rule 71.
  • the processing device 2 includes an initial setting means 21, a calculation data generation means 22, a data selection means 23, a process control means 24, and a data update means 25.
  • the initial setting means 21 stores them in the storage device 3.
  • the auxiliary condition 41, the prediction condition 42, the data selection condition 43, the end condition 44, the output condition 45, and the predetermined label value 46 are input from the input device 1, they are stored in the storage device 4.
  • the known data 31, unknown data 32, and auxiliary data 33 may be input independently or in a batch.
  • auxiliary condition 41, prediction condition 42, data selection condition 43, end condition 44, output condition 45, and predetermined label value 46 may be input independently, You can also enter all at once.
  • the calculation data generation means 22 reads the auxiliary condition 41 from the storage device 4, the storage device 3 also reads the known data 31 and the auxiliary data 33, generates the calculation data 51, and stores it in the storage device 5. . Specifically, it is determined whether or not the auxiliary condition 41 is successful, and if the condition for using the auxiliary data 33 is satisfied, the auxiliary data 33 and the data in which the auxiliary data 33 and the descriptors of the known data 31 all match are described. The remaining data except for are used as calculation data 51. On the other hand, if the condition for using the auxiliary data 33 is not satisfied, the known data 31 is used as the calculation data 51.
  • the data selection means 23 includes a first data selection unit 26 and a second data selection unit 27, and the prediction condition 42 stored in the storage device 4 among the two data selection units 26 and 27. Either one of them is selectively executed. In one embodiment, the first data selection unit 26 is executed at the start of the calculation, then the execution is switched to the execution of the second data selection unit 27, and the second data selection unit 27 is executed until the end of the calculation. to continue. In another mode, the second data selection unit 27 is executed from the start to the end of the calculation.
  • the first data selection unit 26 reads the calculation data 51 from the storage device 5, reads the unknown data 32 from the storage device 3, reads the data selection condition 43 and the predetermined label value 46 from the storage device 4, Select data with the specified label value 46 from the set of calculation data 51 as the specified data, calculate the similarity to the specified data for each data in the set of unknown data 32, and select the calculated similarity and data selection Based on the condition 43, the next data to be learned is selected from the set of unknown data 32 and stored in the storage device 6 as selection data 61.
  • the second data selection unit 27 reads the calculation data 51 from the storage device 5, reads the unknown data 32 from the storage device 3, reads the data selection condition 43 and the predetermined label value 46 from the storage device 4, Based on the calculation data 51, it learns the rule for calculating the value of the given label of the data for the input of the descriptor of any data, and this learned rule Is applied to the set of unknown data 32 to predict the value of the predetermined label of each unknown data, and the next data to be learned is selected from the set of unknown data 32 based on the prediction result and the data selection condition 43.
  • the selected data 72 is stored in the storage device 7 together with the generated rule 71.
  • the process control means 24 reads the end condition 44 from the storage device 4 to determine whether or not to end. If the end condition is satisfied, the processing control means 24 stores the end condition 44 in the storage device 7 according to the output condition 45 read from the storage device 4. The rule 71, the known data 31 stored in the storage device 3, and the desired data included in the known data 31 are output to the output device 8, and the calculation process of the processing device 2 is terminated. On the other hand, if the end condition 44 is not satisfied, the selection data 61 stored in the storage device 6 if the first data selection unit 26 is operating, and the storage device if the second data selection unit 27 is operating. The selection data 72 stored in 7 is output to the output device 8. When the label value of the output data is input by the user's operation of the input device 1, the data set with the input label value is passed to the data updating means 25, and the calculation processing of the processing device 2 is performed. Let it continue.
  • the data updating means 25 adds the data for which the label value is set to the set of known data 31 in the storage device 3, and removes the corresponding original data from the set of unknown data 32.
  • the processing device 2 follows the control flow indicated by the broken line in Fig. 1 until the end condition 44 is satisfied, and the calculation data generation means 22, the data selection means 23, the processing control means 24, and the data The process of the update means 25 is repeatedly executed.
  • FIG. 3 is a flowchart showing the overall operation of the active learning system according to this embodiment. The operation of this embodiment will be described below with reference to FIGS.
  • the processing device 2 When activated by an instruction from the input device 1 by the user, the processing device 2 starts the processing shown in the flowchart of FIG.
  • the initial setting means 21 of the processing device 2 is an input device
  • Data and control conditions are input from 1, the data is stored in the storage device 3, and the control conditions are stored in the storage device 4 (step S101 in FIG. 3).
  • the input control conditions include an auxiliary condition 41, a prediction condition 42, a data selection condition 43, an end condition 44, an output condition 45, and a predetermined label value 46. Some of these can be omitted as needed rather than all of the required control conditions.
  • the predetermined label value 46 can be omitted if the predetermined label value or the predetermined data is not used under any of the other control conditions.
  • each control condition does not need to be entered together with other control conditions and can be entered individually, and it can be entered during the calculation as well as at the initial setting. You can also For example, the prediction condition can be changed from a condition that uses similarity to a condition that performs rule learning during calculation.
  • the calculation data generation means 22 of the processing device 2 reads the auxiliary condition 41 from the storage device 4 and determines whether or not the auxiliary condition 41 is satisfied (step S102). If the auxiliary condition is not satisfied, the storage device The set of known data 31 read from 3 is stored in the storage device 5 as calculation data 51 (step S103). On the other hand, if the auxiliary condition 41 is satisfied, the known data 31 and the auxiliary data 33 are read from the storage device 3, and the auxiliary data 33 is stored in the storage device 5 as the calculation data 51, and from the known data 31 to the auxiliary data 33. And the remainder excluding data with the same descriptor is stored in the storage device 5 as calculation data 51 (step S104).
  • the reason why the data having the same descriptor as the auxiliary data 33 is removed from the known data 31 is that the user may be using the auxiliary data 33 generated by rewriting the label value of the known data. In this case, this is equivalent to converting the label value of the known data 31 using the auxiliary data 33.
  • the data selection unit 23 of the processing device 2 reads the prediction condition 42 from the storage device 4, and determines whether to perform processing using similarity or processing by rule learning (step S105). .
  • the first data selection unit 26 is activated, and when it is determined that processing is performed by rule learning, the second data selection unit 27 is activated.
  • the first data selection unit 26 first determines whether the calculation data 51 stored in the storage device 5 is a set. All data having the same label value as the predetermined label value 46 are selected as predetermined data, and are used as predetermined data for calculation (step S106). Next, for each piece of data in the set of unknown data 32 stored in the storage device 3, the similarity with the predetermined data for calculation is calculated (step S1 07). Finally, the next data to be learned is selected as the selection data 61 from the set of unknown data 32 based on the calculated similarity of each unknown data and the data selection condition 43 stored in the storage device 4. And stored in the storage device 6 (step S108).
  • the second data selection unit 27 first calculates a value of a predetermined label of the data with respect to the input of an arbitrary data descriptor based on the calculation data 51 stored in the storage device 5. Is stored in the storage device 7 (step S109). Next, the learned rule 71 is applied to the set of unknown data 32 stored in the storage device 3 to predict the value of a predetermined label for each unknown data (step S110). Finally, the next data to be learned is selected as the selection data 72 from the set of unknown data 32 based on the prediction result of the predetermined label of each unknown data and the data selection condition 43 stored in the storage device 4. Store in storage device 7.
  • the processing control means 24 of the processing device 2 reads the end condition 44 from the storage device 4 and determines whether or not it is established (step S 112). If the termination condition 44 is not satisfied, the data selected by the data selection means 23 is read from the storage device 6 or the storage device 7 and output to the output device 8, and the user operates the input device 1 to The label value of the output data is input (step S113). Next, the data updating means 25 of the processing device 2 removes the data to which the label value has been input from the unknown data 32 and adds it to the known data 31 (step S114). Then, the control is returned to the calculation data generation means 22, and the same processing as that described above is repeated until the end condition is satisfied.
  • the data itself may be output, or the identifier 201 of the selected data may be output.
  • the data itself including the descriptor and the label may be input, or only the value of the data label may be input.
  • another label of data may be input as long as the correspondence with the data is shown. This is because the active learning system aims to support users This is to allow users to label other data if the user determines that the selected data is inappropriate based on their own knowledge.
  • step S113 when the control is transferred to the processing control means 24, the user is asked whether or not to change the auxiliary data, and the user is made to input new auxiliary data. Also good. Furthermore, when a label value is input by operating the input device 1 with respect to auxiliary data 33 previously input by the user, the user may be asked whether or not to cancel the auxiliary data. When the auxiliary data is changed in this way, the auxiliary data 33 in the storage device 3 is rewritten with new auxiliary data. Furthermore, the contents of the currently known data 31 or the contents and number of the predetermined data in the contents are output to the output device 8 and the user is asked whether to change the prediction condition 42! / In addition, a new prediction condition 42 may be entered by the user.
  • the data handled by the processing device 2 has a data structure as shown in FIG. 2, where the label 1 is a desired label and the values that the label 1 can take are binary ⁇ A, B ⁇ . .
  • the desired label value is A.
  • label 1 corresponds to the presence or absence of activity against a protein
  • A corresponds to activity
  • B corresponds to no activity.
  • the user's purpose is to find data with label 1 as A more efficiently than the random selection from the set of data 32 whose label 1 value is unknown.
  • it is assumed that most of the unknown data has a label B value of B. Therefore, data whose label 1 value is B can be easily found by random selection.
  • the cost of discovery increases significantly with random selection.
  • (1 1) The process starts with the prediction method that selects the unknown data with the lowest similarity to the known data with the label 1 value B as the data candidate with the label 1 value A, and the value of the label 1 When the data of A is collected to some extent, switch to the prediction method that learns the rules.
  • (1 2) Generate ancillary data with label 1 value A, and process unknown data with the highest similarity to the ancillary data with a prediction method that selects candidate data with label 1 value A Start and switch to a prediction method that learns the rules when some data with a label 1 value of A is collected.
  • the storage device 3 stores the known data 31 including only the data having the value 1 of the label 1 and the unknown data 32 whose label 1 is unknown.
  • auxiliary data 33 is not used.
  • the prediction method using the similarity is specified in the prediction condition 42, and the data selection condition 43 specifies the lowest similarity! / And the data selection condition! /.
  • the specified label value 46 specifies the value 1 of label 1.
  • step S 103 known data 31 having a label 1 value of B is generated as calculation data 51 (step S 103).
  • all data having a predetermined label value 46 from the calculation data 51 that is, data having a label 1 value B is selected as the predetermined calculation data (step S106).
  • step S107 for each data in the unknown data 32, a similarity with the predetermined data for calculation is calculated (step S107).
  • step S108 unknown data having the lowest degree of similarity to the predetermined calculation data, that is, unknown data that is most similar to the known data that is the value 1 of the label 1 is selected as the selection data 61.
  • the selection data 61 is output to the output device 8 by the processing control means 24, and the user checks the value of the label 1 of the selection data 61 by an experiment or the like. Input from the input device 1 (step SI 13).
  • the selected data 61 is data that is most similar to the data with the label 1 value B, the data with the label 1 value A is selected rather than randomly selecting from the set of unknown data 32.
  • the probability that The data updating means 25 removes the data whose value is input to the label 1 from the unknown data 32 and adds it to the known data 31 (step S114).
  • auxiliary data 33 with label 1 set to A is used.
  • auxiliary data 33 is, for example, the value of label 1 of some data in known data 31 or unknown data 32, and the value of another label indicating the state of an event similar to the event indicated by label 1. It can be generated by rewriting with
  • known data 31 including only data with a label 1 value of B, unknown data 32 with an unknown label 1 value, and auxiliary data with a label 1 value of A 33 Is stored in the storage device 3.
  • a prediction method using similarity is specified in the prediction condition 42, and a condition for selecting data having the highest similarity in the data selection condition 43 is specified.
  • the specified label value 46 the value A of label 1 is specified. Since auxiliary data 33 is used, an appropriate auxiliary condition 41 is specified.
  • auxiliary data 33 whose label 1 value is A and known data 31 whose value of label 1 is B are data having the same descriptor as auxiliary data 33 The remaining data except for is generated as calculation data 51 (step S104).
  • the calculation data All data having a predetermined label value 46 from the data 51, that is, data having a label 1 value of A is selected as predetermined data for calculation (step S106).
  • a similarity with the predetermined calculation data is calculated (step S107).
  • the unknown data having the highest similarity to the predetermined data for calculation that is, the unknown data most similar to the auxiliary data having the value of label 1 is selected as the selection data 61.
  • the selection data 61 is output to the output device 8 by the processing control means 24, and the user checks the value of the label 1 of the selection data 61 through an experiment or the like and inputs it from the input device 1 (step S113).
  • auxiliary data 33 is not known data with label 1 being A, but so-called tentative known data, but there is a similarity between Labenore 1 and the other labels used for replacement. It is likely that the structure is similar to true known data.
  • the data updating means 25 removes the data whose value is input to the label 1 from the unknown data 32 and adds it to the known data 31 (step S114).
  • known data 31 including only data with a label 1 value of B, unknown data 32 with an unknown label 1 value, and auxiliary data with a label 1 value of A 33 Is stored in the storage device 3.
  • a prediction method using rule learning is specified in the prediction condition 42.
  • the value A of label 1 is specified. Since auxiliary data 33 is used, an appropriate auxiliary condition 41 is designated.
  • auxiliary data 33 with the label 1 value of A and known data 31 with the value of label 1 of B have the same descriptor as the auxiliary data 33
  • the remaining data except for is generated as calculation data 51 (step S104).
  • the rule is learned using the calculation data 51 and stored as the rule 71 in the storage device 7 (step S 109).
  • the value of label 1 is predicted for the set of unknown data 32 using rule 71 (step S110), and the data to be next learned is selected based on the prediction result and the data selection condition 43.
  • step S111 Store in the storage device 7 (step S111).
  • this selection data 72 is output to the output device 8 by the processing control means 24, and the user checks the value of the label 1 of the selection data 72 through an experiment or the like and inputs it from the input device 1 (step S113).
  • the data selection condition 43 is, for example, selecting data having a predicted value close to the desired label value
  • the data having the value of label 1 is A rather than selecting from a set of unknown data 32 at random. There is a certain probability.
  • the data updating means 25 removes the data whose value is input to the label 1 from the unknown data 32 and adds it to the known data 31 (step S114).
  • Example 1 Unlike Example 1, assume that there is a small amount of known data with a label 1 value of A. This corresponds to, for example, a situation in which there are many data on compounds that are not active on a protein, but there are very few data on active compounds.
  • the known data 31 is stored as calculation data 51 (step S103).
  • all the data having the predetermined label value 46 from the calculation data 51 that is, the known data of the value 1 of the label 1 is selected as the predetermined calculation data (step S106).
  • the similarity with the predetermined data for calculation is calculated (step S107).
  • the unknown data having the lowest similarity to the predetermined data for calculation that is, the unknown data most similar to the known data whose label 1 value is B is selected as the selection data 61 ( Step S10 8).
  • the selection data 61 is output to the output device 8 by the processing control means 24, and the user IJ checks the value of the label 1 of the selection data 61 through an experiment or the like and inputs it from the input device 1 (step S113).
  • the selection data 61 is the most suitable for the data whose label 1 value is B. Since the data is not similar, the probability that the value of label 1 is A is higher than the random selection from the set of unknown data 32.
  • the data updating means 25 removes the data whose value is input to the rabenore 1 from the unknown data 32 and adds it to the known data 31 (step S114).
  • known data 31 including a small amount of data whose label 1 value is A, data whose label 1 value is B, and unknown data 32 whose label 1 value is unknown are displayed.
  • the prediction method using the similarity is specified in the prediction condition 42, and the condition that the data having the highest similarity is selected in the data selection condition 43 is specified.
  • the specified label value 46 the value A of label 1 is specified.
  • step S 103 known data 31 including data whose label 1 value is A and data whose value is B is generated as calculation data 51 (step S 103).
  • step S106 all data having a predetermined label value 46 from the calculation data 51, that is, data having a label 1 value A is selected as the predetermined calculation data (step S106).
  • step S107 for each data in the unknown data 32, the similarity with the predetermined data for calculation is calculated (step S107).
  • the unknown data having the highest similarity to the predetermined data for calculation that is, the unknown data most similar to the known data having the value of label 1 is selected as the selection data 61. (Step S108).
  • this selection data 61 is output to the output device 8 by the processing control means 24, and the user selects it by an experiment or the like.
  • the value of label 1 of data 61 is checked and input from input device 1 (step S113).
  • the selection data 61 is the data most similar to the known data with the value of label 1 being A, the value of label 1 is A rather than selecting at random from the set of unknown data 32 The probability that it is data increases.
  • the data updating means 25 removes the data whose value is input to the label 1 from the unknown data 32 and adds it to the known data 31 (step S114).
  • auxiliary data with a label 1 value of A can be prepared, it is possible to make a rule learning prediction from the start of the process, together with the known data with a label 1 value of A.
  • known data 31 including a small amount of data whose label 1 value is A and data whose label 1 value is B, unknown data 32 whose label 1 value is unknown, and label
  • the auxiliary data 33 whose value of 1 is A is stored in the storage device 3.
  • the prediction method using rule learning is specified in the prediction condition 42.
  • the value A of label 1 is specified. Since auxiliary data 33 is used, an appropriate auxiliary condition 41 is designated.
  • auxiliary data 33 with a label 1 value of A, a small amount of data with a label 1 value of A, and data with a label 1 value of B are displayed.
  • auxiliary data 33 and the remaining data excluding data having the same descriptor are generated as calculation data 51 (step S104).
  • the rule is learned using the calculation data 51 and stored as the rule 71 in the storage device 7 (step S109).
  • the value of label 1 is predicted for the set of unknown data 32 (step S110), and the predicted result is Based on the result and the data selection condition 43, the next data to be learned is selected and stored in the storage device 7 (step S111).
  • the selection data 72 is output to the output device 8 by the processing control means 24, and the user checks the value of the label 1 of the selection data 72 through an experiment or the like and inputs it from the input device 1 (step S113).
  • the data selection condition 43 is close to the desired label value! /, For example, the data of the predicted value is selected, the value of label 1 is A rather than the random selection from the set of unknown data 32. The probability of certain data increases.
  • the data updating means 25 removes the data whose value is input to the label 1 from the unknown data 32 and adds it to the known data 31 (step S114).
  • the reason is that the desired data is more efficiently than the random selection by the prediction method based on the similarity that the most similar data other than the desired data existing in the set of known data! This is because it can be discovered. Another reason is that it is more efficient than random selection by a prediction method based on similarity, in which data that most closely resembles auxiliary data that is slightly desired data or temporary desired data is selected from unknown data. This is because the desired data can be found. Another reason is that meaningful learning can be performed using auxiliary data, which is temporary desired data.
  • the active learning system according to the second embodiment of the present invention is more powerful than the active learning system according to the first embodiment shown in FIG.
  • the difference is that a weighted calculation data generation means 28 is provided instead of the generation means 22, and a data selection means 29 for performing prediction in consideration of the weight is provided instead of the data selection means 23.
  • the weighted calculation data generation means 28 includes a calculation data generation unit 28A having the same function as the calculation data generation unit 22 of the first embodiment, and the calculation data generation unit 28A.
  • a data weighting unit 28B for assigning weights to the generated calculation data is configured.
  • an example of the data structure of the weighted calculation data has a structure in which an item of weight 204 is added to the calculation data shown in FIG.
  • the weight 204 takes a value from 0 to 1, for example, and is closer to 1! /, Indicating that the importance is higher!
  • the data weighting unit 28B sets weights for the calculation data generated from the known data 31 from the auxiliary data 33 so that rule learning and similarity calculation that the known data 31 is more important than the auxiliary data 33 are performed. Relatively larger than the weight for the generated calculation data.
  • the value of the weight to be used for each may be specified from the outside at the initial setting and during the calculation using the weighting condition added to one of the control conditions. It may be predetermined that value 1 and half of the auxiliary data are set.
  • FIG. 6 is a flow chart showing the overall operation of the active learning system that focuses on this embodiment. Hereinafter, the operation of this embodiment will be described with reference to FIGS.
  • the processing device 2 When the processing device 2 is activated by an instruction from the input device 1 by the user, the processing device 2 starts the processing shown in the flow chart of FIG.
  • the initial setting means 21 of the processing device 2 inputs data and control conditions from the input device 1, stores the data in the storage device 3, and stores the control conditions in the storage device 4 (FIG. 6).
  • Step S 101 the calculation data generation unit 28A of the weighted calculation data generation means 28 of the processing device 2 reads the auxiliary condition 41 from the storage device 4 to determine whether or not it is satisfied (step S102), and the auxiliary condition is not satisfied.
  • step S102 the known data 31 read from the storage device 3 is given to the data weighting unit 28B, and the data weighting unit 28B adds the weight for the known data to the given known data 31 to give the calculation device 51 as the calculation data 51.
  • step S103 the known data 31 read from the storage device 3 is given to the data weighting unit 28B, and the data weighting unit 28B adds the weight for the known data to the given known data 31 to give the calculation device 51 as the calculation data 51.
  • the calculation data generation unit 28A reads the known data 31 and the auxiliary data 33 from the storage device 3, and sends the auxiliary data 33 to the data weighting unit 28B.
  • the data weighting unit 28B adds the weight for auxiliary data to the supplied auxiliary data 33, and stores it in the storage device 5 as calculation data 51 (step S201).
  • the calculation data generating unit 28A gives the remaining data obtained by removing the data having the same descriptor as the auxiliary data 33 from the known data 31 to the data weighting unit 28B, and the data weighting unit 28B adds the known data to the given data. Is added to the storage device 5 as calculation data 51 (step S201).
  • the data selection means 29 of the processing device 2 reads the prediction condition 42 from the storage device 4, and determines whether to perform processing using similarity or processing by rule learning (step S105). .
  • the first data selection unit 26 is activated, and when it is determined that processing is performed by rule learning, the second data selection unit 27 is activated.
  • the first data selection unit 26 first calculates the weighted calculation data stored in the storage device 5.
  • All data having the same label value as the predetermined label value 46 is selected from the set of 51 as predetermined data, and is used as predetermined data for calculation (step S106).
  • the similarity with the predetermined data for calculation is calculated (step S202).
  • the similarity is calculated so that the known data 31 is more important than the auxiliary data 33. For example, when there are n descriptors in total, n descriptors are compared between unknown data and predetermined data for calculation, and for example, a value corresponding to the number of matching descriptors is calculated. The value obtained by multiplying the predetermined data by the weight is used as the similarity.
  • the next data to be learned is selected as the selection data 61 from the set of unknown data 32, and The data is stored in the storage device 6 (step S108).
  • the second data selection unit 27 first calculates a value of a predetermined label of the data with respect to the input of an arbitrary data descriptor based on the calculation data 51 stored in the storage device 5. Is stored in the storage device 7 (step S203). Considering the weights when learning this rule, learning is performed such that the known data 31 is more important than the auxiliary data 33. Specifically, for example, in the pugging method, the force that generates multiple rules by generating the data sampled from the calculation data multiple times. More sample than small calculation data Make it easier to handle.
  • the method of changing the importance of learning according to the weight added to the calculation data is not limited to the above-described example, and various other methods can be adopted.
  • the learned rule 71 is applied to the set of unknown data 32 stored in the storage device 3, and the value of a predetermined label of each unknown data is predicted (step S110). Finally, the next data to be learned from the set of unknown data 32 is selected based on the prediction result of the predetermined label of each unknown data and the data selection condition 43 stored in the storage device 4. Select as and store in storage device 7.
  • the processing control means 24 of the processing device 2 reads the end condition 44 from the storage device 4 and determines whether or not it is satisfied (step S 112). If the end condition 44 is not satisfied, the data selected by the data selection means 29 is read from the storage device 6 or the storage device 7 and output to the output device 8, and the user operates the input device 1 to The label value of the output data is input (step S113). Next, the data updating means 25 of the processing device 2 removes the data to which the label value has been input from the unknown data 32 and adds it to the known data 31 (step S114). Then, the control is returned to the weighted calculation data generation means 28, and the same processing as described above is repeated until the end condition is satisfied. On the other hand, the processing control means 24 of the processing device 2 outputs the rule 71 and the known data 31 from the output device 8 according to the output condition 45 stored in the storage device 4 if the end condition 44 is satisfied. (Step S115), the process ends.
  • auxiliary data is the one whose label is unknown or set by the user with a label value different from the original label value, and is not as important as the true known data. This makes it possible to make more efficient predictions.
  • the active learning system of the present invention can be realized by a computer and an active learning program as well as by realizing the functions of the active learning system as hardware.
  • Active learning program is a magnetic disk
  • the computer is provided by being recorded on a computer-readable recording medium such as a semiconductor memory, read by the computer when the computer is started up, and controlling the operation of the computer.
  • Means 21, calculation data generation means 22 or weighted calculation data generation means 28, data selection means 23 or data selection means 29, processing control means 24 and data update means 25, and FIGS. 3 and 6 Execute the process shown in.
  • data to be next learned is selected by similarity calculation separately from data selection by rule learning performed in a conventional active learning system.
  • known data of various label values is required.
  • the selection by similarity calculation there is no data having the desired label as the desired value.
  • the present invention is applied to applications such as active learning in which data is selected from a large number of candidate data and efficiently learned, for example, when searching for active compounds in the screening of drug discovery. it can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

明 細 書
能動学習システム、方法およびプログラム
技術分野
[0001] 本発明は機械学習技術に関し、特に能動学習システム、方法及びプログラムに関 する。
背景技術
[0002] 能動学習とは、学習者 (コンピュータ)が学習データを能動的に選択できる、機械学 習手法の一形態である。能動学習は、データ数や計算量の意味で学習の効率を向 上できるため、例えば、創薬において、膨大な種類の化合物の中から特定のタンパク 質に対し活性のある化合物を発見するスクリーニングなどに適した技術として注目さ れてレ、る(例えば文献 1参照)。
[0003] 能動学習システムで扱うデータは、記述子(属性)とラベルとで表現される。記述子 はそのデータの構造などを特徴付けるものであり、ラベルはそのデータの或る事象に 関する状態を示す。例えば、創薬におけるスクリーニングの場合、個々の化合物デー タは、特定の部分構造の有無や、特定の部分構造の個数、分子量などの各種物理 化学定数などを記述した複数の記述子によって特定される。また、ラベルは、例えば 特定のタンパク質に対する活性の有無や、活性の強さを示すために使用される。ラ ベルのとり得る値力 活性あり、活性なしのように離散値の場合、ラベルをクラスと呼 ぶ。他方、ラベルのとり得る値力 活性の強さのように連続値の場合、ラベルを関数 値と呼ぶ。ここで、ラベルの値が既知であるデータの集合を既知データ、ラベルの値 が未知であるデータの集合を未知データと呼ぶことにする。
[0004] 能動学習システムで扱われる学習アルゴリズムは、既知データを用いて、 1つある いは複数のルールを生成する。ルールは、任意のデータの記述子の入力に対して、 データのラベル値を予測するもので、例えば、決定木、サポートベクタマシン(SVM) 、ニューラルネットワークなどである。予測された値は、学習で用いたラベル値そのも のとは限らない。つまり、ラベル値が離散値であっても、予測値は離散値とは限らな い。例えば、ラベルの値が 2値 {0, 1 }をとる場合であっても、学習アルゴリズムは、予 測値が 0· 8などと予測できるためである。また、複数のルールを生成した場合、個々 のルールでの予測値がラベル値である 2値 { 0, 1 }であったとしても、予測値は、値の 平均をとるなどして統合された値となるからである。ここで、複数のルールを生成する には、例えば、集団学習という手法があり、バギングゃブースティングが知られている (例えば文献 3、文献 4参照)。
[0005] 従来の能動学習では、最初の学習は、ランダムに選ばれ、実験や調査によってラ ベルの実際の値が調べられた既知データを用いて行う。能動学習システムは、未知 データの各データに対して、学習により生成されたルールを用いて予測値を計算し、 その予測値に基づいて、未知データの中から効率的に学習できるようなデータを選 択し、出力する。この選択方法に関しては、集団学習での予測値が割れたデータを 選択する方法や、所望するラベル値に近い予測値のデータを選択する方法や、予測 値に対する或る関数を用いて選択する方法など、幾つかの方法がある。例えば、文 献 1、文献 2、特許文献 1参照)。
[0006] 上記出力されたデータについて、実験や調査などによってラベルの実際の値が調 ベられ、その結果が能動学習システムにフィードバックされる。能動学習システムは、 ラベルの実際の値が決まったデータを未知データの集合から取り除いて既知データ に混ぜ、上述と同様の動作を再度繰り返す。つまり、既知データから再度選択したデ ータを用いてルールを学習し、そのルールを未知データに適用して予測し、予測結 果に基づいてデータの選択と出力を行う。このような処理の繰り返しは、予め定めら れた終了条件が満たされるまで続けられる。
文献 1
[0007] ワームス (Warmuth)著「サポートベクタマシンフォアアクティブラーニングインザド フック アイスカノ リープロセス (Support Vector Machines for Active Learning in the Drug Discovery Process)]、 2003年発 fiの論文誌「ジャーナノレォブケミカノレインフォ メーシヨンサイエンス (Journal of Chemical InformationSciencesノ」、 4d巻 2号、 pp. 66 7 - 673
文献 2
[0008] 安倍直樹、馬見塚拓著「クエリーラーニング ストラテジーズ ユージング ブーステ イング ダノド ノ ギング (Query Learning Strategies using Boosting and Bagging)」ゝ 1 998年発行の国際会議予稿集「プロシーディンダス ォブ ザ フィフィーンス インタ ーナショナノレ コンフエレンス オン マシン ラーニング(Proceedings of The 15-th I nternational Conference on Machine Learning)」、 pp. 1― 9
文献 3
[0009] ブライマン (Breiman)著「バギングプレディクターズ (Bagging Predictors)]、 1996年発 行の論文誌「マシンラーニング (Machine Learning)] , 24巻 2号、 pp . 123— 140 文献 4
[0010] フロインド (Freund)とシャピレ (Shapire)著「ァデイシジョンセォレティックジエネララィ ゼーシヨンォブオンラインラーニングアンドアンアプリケーショントゥーブースティ ノグ (A decision -thoretic generalization of on-line learning and an application to bo osting)」 1995年発行の国際会議予稿集「プロシーディンダスォブセカンドョ一口ピ アンコンファランスオンコンピューテーショナノレラーニングセオリー (Proceedings of the secona European conference on computational learning theory)」、 pp . 2ό― 3 ί
[001 1] 従来の能動学習システムの問題点は、既知データ中に様々なラベル値のデータが 存在していることが前提であり、或るラベル値 (所望ラベル値)のデータ(所望データ) が全く存在しないか、ごく僅力、しか存在しない場合、システムを起動させても所望ラベ ノ W直を効率的に学習できないことである。
[0012] その理由は、既知データ中に、所望データが全く存在しないか、ごく僅力、しか存在 しない場合、学習アルゴリズムは、任意のデータに対して所望ラベル値以外の値と予 測するルールを生成しがちになり、所望データに対しても所望ラベル値以外と予測さ れ、ランダムに選択するのと実質的に何ら変わりがなくなるためである。例えば、ラベ ルの値が 2値 {A, Β }の場合、既知データ中に、ラベル Αのデータが全く存在しない 場合には、常にラベル Bと予測するルールが生成され、その予測結果に基づいてデ ータを選択しても、選択されたデータはランダムに選択したデータと実質的に何ら変 わりがない。また、ラベルの値が 3値 {A, B, C }で、 3つのラベルが独立の事象を示 す時、既知データ中に、ラベル Aのデータが全く存在しないか、ごく僅かしか存在し ない場合には、任意のデータに対して、ラベル Bまたは Cと予測するルールが生成さ れがちであり、ラベル Aを持つ所望データは、意味のあるルールで予測されず、ラン ダムに選択されるだけであり、ラベル Aは効率的に学習されないからである。ラベル の値が連続値の場合も、或る範囲のラベル値を所望ラベル値と考えれば、同様であ り、所望ラベル値を効率的に学習できなレ、。
[0013] 従来の能動学習システムの第 2の問題点は、利用者がデータについて補助情報を 持っていても、その補助情報を用いて、より効率的に学習することができないことであ
[0014] その理由は、従来の能動学習システムでは、学習にラベルが明らかになった既知 データを用いており、既知データ以外の利用者の補助的な知識をシステムで用いる ことができないからである。利用者は、領域に対する背景知識や特許'文献などの補 助知識を持っている場合がある。例えば、創薬におけるスクリーニングで、活性あり化 合物と活性なし化合物とを学習する場合、文献などの補助情報から、活性がありそう な化合物が分かる力 手元にその化合物が無いために実験で活性の有無を確かめ られない場合、そのような活性のありそうな化合物は、既知データでもなく未知データ でもないため、従来の能動学習システムでは极うことができない。そのため、活性のあ りそうな化合物の情報を用いて、より効率的に学習することができない。また、スクリー ユングで、活性あり化合物と活性なし化合物とを学習する場合、活性なし化合物に分 類されるが、それ以外の活性なし化合物に比べて僅かだが活性のある化合物があつ た場合、そのような僅かな活性あり化合物は、従来の能動学習システムでは既知デ ータの中の活性なし化合物に分類してしか用いることができない。そのため、僅かに 活性があるという情報を用いて、より効率的に学習することができない。
発明の概要
[0015] 本発明の目的は、既知データ中に或るラベル値付近 (所望ラベル値)のデータ(所 望データ)が全く存在しないか、ごく僅力もか存在しない場合にも、効率的な学習を することができる能動学習システムを提供することにある。
[0016] 本発明は、第 1の態様において、ラベルの値が未知のデータについてラベルの値 が所定の値であるデータとの類似度を計算し、該計算した類似度に基づいて次に学 習するデータを選択する第 1のデータ選択部と、ラベルの値が既知のデータに基づ いてルールを学習し、該学習したルールをラベルの値が未知のデータの集合に適用 して次に学習するデータを選択する第 2のデータ選択部とを備えることを特徴とする 能動学習システムを提供する。
[0017] 本発明は、第 2の態様において、 1以上の記述子と 1以上のラベルとで構成される データのうち、所望ラベルの値を既知とした既知データの集合と前記所望ラベルの 値を未知とした未知データの集合とを記憶する記憶部と、前記記憶部に記憶された 既知データの集合から前記所望ラベルの値が所定値を持つデータを所定データとし て選択し、前記各未知データ毎に前記所定データとの類似度を計算し、該計算した 類似度に基づいて次に学習すべきデータを前記未知データの集合から選択する第 1のデータ選択動作と、前記記憶部に記憶された既知データに基づ!/、て任意のデー タの記述子の入力に対してそのデータの前記所望ラベルの値を計算するルールを 学習し、該学習したルールを前記未知データの集合に適用して各未知データの前 記所望ラベルの値を予測し、該予測結果に基づレ、て次に学習すべきデータを前記 未知データの集合力 選択する第 2のデータ選択動作とのうち、指定された側の動 作を行うデータ選択手段と、前記データ選択手段で選択されたデータを出力装置か ら出力し、前記所望ラベルの値が入力装置から入力されたデータを前記未知データ の集合力 取り除いて前記既知データの集合に追加する制御手段とを備えることを 特徴とする能動学習システムを提供する。
[0018] 本発明は、第 3の態様において、 1以上の記述子と 1以上のラベルとで構成される データのうち、所望ラベルの値を既知とした既知データの集合と前記所望ラベルの 値を未知とした未知データの集合と既知データまたは未知データの所望ラベルの値 を書き換えた補助データの集合とを記憶する記憶部と、前記記憶部に記憶された既 知データの集合と補助データの集合とから計算用データを生成し前記記憶部に記憶 する計算用データ生成手段と、前記記憶部に記憶された計算用データの集合から 前記所望ラベルの値が所定値を持つデータを所定データとして選択し、前記各未知 データ毎に前記所定データとの類似度を計算し、該計算した類似度に基づいて次に 学習すべきデータを前記未知データの集合から選択する第 1のデータ選択動作と、 前記記憶部に記憶された計算用データに基づいて任意のデータの記述子の入力に 対してそのデータの前記所望ラベルの値を計算するルールを学習し、該学習したル ールを前記未知データの集合に適用して各未知データの前記所望ラベルの値を予 測し、該予測結果に基づいて次に学習すべきデータを前記未知データの集合から 選択する第 2のデータ選択動作とのうち、指定された側の動作を行うデータ選択手段 と、前記データ選択手段で選択されたデータを出力装置から出力し、前記所望ラベ ルの値が入力装置から入力されたデータを前記未知データの集合から取り除いて前 記既知データの集合に追加する制御手段とを備えることを特徴とする能動学習シス テムを提供する。
[0019] 本発明は、第 4の態様において、 1以上の記述子と 1以上のラベルとで構成される データのうち、所望ラベルの値を既知とした既知データの集合と前記所望ラベルの 値を未知とした未知データの集合と既知データまたは未知データの所望ラベルの値 を書き換えた補助データの集合とを記憶する記憶部と、前記記憶部に記憶された既 知データの集合と補助データの集合とから、重み付きの計算用データを生成し前記 記憶部に記憶する計算用データ生成手段と、前記記憶部に記憶された重み付きの 計算用データの集合力 前記所望ラベルの値が所定値を持つデータを所定データ として選択し、前記各未知データ毎に前記所定データとの類似度をデータの重みを 考慮して計算し、該計算した類似度に基づいて次に学習すべきデータを前記未知 データの集合力 選択する第 1のデータ選択動作と、前記記憶部に記憶された重み 付きの計算用データに基づいて任意のデータの記述子の入力に対してそのデータ の前記所望ラベルの値を計算するルールをデータの重みを考慮して学習し、該学習 したルールを前記未知データの集合に適用して各未知データの前記所望ラベルの 値を予測し、該予測結果に基づレ、て次に学習すべきデータを前記未知データの集 合から選択する第 2のデータ選択動作とのうち、指定された側の動作を行うデータ選 択手段と、前記データ選択手段で選択されたデータを出力装置から出力し、前記所 望ラベルの値が入力装置から入力されたデータを前記未知データの集合から取り除 いて前記既知データの集合に追加する制御手段とを備えることを特徴とする能動学 習システムを提供する。
[0020] 本発明は、第 5の態様において、コンピュータを用いた能動学習方法であって、前 記コンピュータが、ラベルの値が未知のデータについてラベルの値が所定の値であ るデータとの類似度を計算し、該計算した類似度に基づいて次に学習するデータを 選択する能動学習サイクルを 1サイクル以上繰り返した後、ラベルの値が既知のデー タに基づいてルールを学習し、該学習したルールをラベルの値が未知のデータの集 合に適用して次に学習するデータを選択する能動学習サイクルへ移行することを特 徴とする能動学習方法を提供する。
[0021] 本発明の上記、及び、他の目的、特徴及び利益は、図面を参照する以下の説明に より明らかになる。
図面の簡単な説明
[0022] [図 1]本発明の第 1の実施形態例に力、かる能動学習システムのブロック図である。
[図 2]本発明の第 1の実施形態例に力、かる能動学習システムで扱うデータの構造例を 示す図である。
[図 3]本発明の第 1の実施形態例に力、かる能動学習システムの動作を示す流れ図で ある。
[図 4]本発明の第 2の実施形態例に力、かる能動学習システムのブロック図である。
[図 5]本発明の第 2の実施形態例に力、かる能動学習システムで扱うデータの構造例を 示す図である。
[図 6]本発明の第 2の実施形態例に力、かる能動学習システムの動作を示す流れ図で ある。
発明を実施するための最良の形態
[0023] [第 1の実施形態例]
図 1を参照すると、本発明の第 1の実施形態例に力、かる能動学習システムは、利用 者からの指示やデータを入力するキーボード等で構成された入力装置 1と、プロダラ ム制御により動作する処理装置 2と、半導体メモリや磁気ディスク等で構成される記憶 装置 3〜7と、ディスプレイ装置等で構成される出力装置 8とから構成されている。記 憶装置 3〜7は物理的に別の装置である必要はなぐ同じ記憶装置を論理的に分割 したものを記憶装置 3〜7として使用することが可能である。
[0024] 記憶装置 3は、入力装置 1から入力された既知データ 31、未知データ 32および補 助データ 33を記憶する。既知データ 31、未知データ 32および補助データ 33のデー タ構造の一例を図 2に示す。図 2を参照すると、既知データ 31、未知データ 32およ び補助データ 33は、自データを一意に識別するための識別子 201、 1以上の記述子 202および 1以上のラベル 203を含んで構成される。記述子 202は当該データの構 造などを特徴付けるものである。ラベル 203は当該データの或る事象に関する状態 を示し、クラスまたは関数値である。ここで、 1以上のラベル 203のうち、予測の対象と なるラベルを所望ラベルと呼び、未知データ 32にあっては所望ラベルの値は未知( 未設定状態)であり、既知データ 31にあっては所望ラベルの値は既知(設定済状態) になっている。補助データ 33の所望ラベルの値は、既知データ 31と同じく設定済状 態である力 S、既知データ 31の所望ラベルの値が実際に確かめられた確かな値である のに対し、補助データ 33の所望ラベルの値は不確実な値である点で相違する。
[0025] 補助データ 33としては、所望ラベルの値が不確実なため既知データ 31として扱う のには適当でないが、効率的な学習の補助として有効に利用できるデータが利用さ れる。例えば、創薬におけるスクリーニングで、活性あり化合物と活性なし化合物とを 学習する場合、利用者の有する当該領域における知識と文献などの情報とから活性 がありそうな或る化合物に注目したとする。その化合物が手元にあって実験で活性の 有無を確かめられれば、既知データに分類できるが、そのような実験ができない場合 、既知データには分類できない。また、活性がありそうな化合物なので、未知データ に分類してしまうのも勿体ない。このようなとき、本実施形態では、所望ラベルの値を 活性ありに設定して補助データとして扱うことで、言わば仮の既知データとして真の 既知データと明確に区別して学習に利用できるようにする。同様に、創薬におけるス クリーニングで、活性あり化合物と活性なし化合物とを学習する場合、他の活性なし 化合物に比べて僅かだが活性のある化合物は、従来においては既知データ中の活 性なし化合物に分類してしか用いることができなかった力 本実施形態では、所望ラ ベルの値を活性ありに設定した補助データとして扱うことにより、仮の既知データとし て真の既知データと明確に区別して学習に利用できるようにする。
[0026] さらに、異なる事象であっても、類似している事象であれば、それらのラベルの値は 或る程度同じ値をとる傾向がある点に着目して、既知データあるいは未知データの所 望ラベルの値を該所望ラベルが示す事象と類似する事象の状態を示す他のラベル の値で書き換えることで、既知データまたは未知データから補助データを生成するこ とも可能である。例えば、創薬におけるスクリーニングにおいて活性化合物を探索す る例として、創薬の多くのターゲットになっている Gタンパク質共役型受容体 (GPCR) のうち生体アミン受容体に作用するリガンド化合物、特に生体アミン受容体ファミリー の 1つであるアドレナリンに作用するリガンド化合物を探索する場合を例にすると、次 のようにして既知データあるいは未知データから補助データを生成できる。まず、複 数のラベルのうちラベル 1がアドレナリンに対する活性の有無を示し、ラベル 2がヒスタ ミンに対する活性の有無を示すものとする。このとき、ラベル 1が活性なしあるいは未 知、ラベル 2が活性ありとなっている或る化合物のデータのラベル 1をラベル 2の活性 ありに書き換えたデータを補助データとする。これは、ヒスタミンはアドレナリンと同じ G PCRの生体アミン受容体のファミリーに属していること、タンパク質同士が類縁関係 にあるとき、リガンド化合物もしばしば似て!/、ることがあることを利用者が考慮したこと によ ·ο。
[0027] 再び図 1を参照すると、記憶装置 4は、入力装置 1から入力された制御条件を記憶 する。本実施形態の場合、制御条件は、補助条件 41、予測条件 42、データ選択条 件 43、終了条件 44、出力条件 45および所定ラベル値 46を含む。
[0028] 補助条件 41は、補助データ 33を計算に利用する条件であり、例えば以下のような 条件を用いることができる。
補助条件 Α:初回から予め定めた反復回数 Νまでは補助データ 33を計算に利用す 補助条件 Β:予め定めた数の所望データが得られるまでは補助データ 33を計算に 利用する。ここで、所望データとは、所望ラベルの値が所望値である既知データのこ とである。所望値とは、利用者にとって価値のあるラベル値のことである。例えば、創 薬におけるスクリーニングで、所望ラベルが特定のタンパク質に対する活性の有無で あり、利用者にとって活性ありの化合物が価値のある場合、所望値は活性ありになる
補助条件 C:既知データの一部を評価データとして残しておき、評価データ以外の 既知データで計算した場合の評価データに対する予測精度が、評価データ以外の 既知データおよび補助データから変換して得られた計算用データを用いた場合の評 価データに対する予測精度よりも低ければ、補助データ 33を利用する。
補助条件 D:補助条件 Cで評価データを残す代わりに、推定した予測精度を用いて 、補助データ 33を用いずに推定した予測精度が補助データ 33を用いて推定した予 測精度よりも低ければ、補助データ 33を利用する。
補助条件 E:補助データ 33を利用するかどうかの利用者からの指示に従う。
[0029] 上記の補助条件のうち、補助条件 A、 B、 C、 Dはそれぞれ単独または任意の組み 合わせで指定できる。また、補助条件 Eは常に考慮すべき条件として設定される。
[0030] 予測条件 42は、次に学習するデータの予測方法を指定する。具体的には、類似度 計算により導出するか、ルールにより導出するかを指定する。
[0031] 次に学習するデータをルールにより導出する方法は、従来の能動学習と同じであり 、その予測方法としては従来の能動学習で用いられて!/、る手法をそのまま用いること ができる。従来の能動学習で用いられる手法としては、例えば、決定木、二ユーラノレ ネットワーク、サポートベクタマシンなどによる学習や、それらを組み合わせたバギン グゃブースティングなどの集団学習を用いて、ルールを学習し、学習によって得られ たルールを用いて未知データの所望ラベルの値を予測する手法などがある。
[0032] 他方、次に学習するデータを類似度計算により導出する方法は、従来の能動学習 では用いられなかった方法である。具体的には、既知データ 31の集合 (補助データ 33を利用する場合には、既知データ 31と補助データ 33とから生成される計算用デ ータの集合)から所望ラベルの値が所定値を持つすべてのデータを所定データとし て選択し、未知データ 32の集合中のデータ毎に所定データとの類似度を計算し、計 算した類似度に基づいて次に学習すべきデータを未知データ 32の集合から選択す る方法である。
[0033] 所定データの典型例は、所望ラベルの値が所望値であるデータ、つまり所望デー タである。所望データは、利用者にとって価値のあるデータであり、所望データ力、どう かはラベルの値で決まる。ラベルの値が 2値をとる場合、一方のラベル値のデータが 所望データである。例えば、創薬におけるスクリーニングで、ラベルが特定のタンパク 質に対する活性の有無であり、利用者にとって活性あり化合物に価値があれば、活 性あり化合物が所望データとなる。ラベルが連続値をとる場合、利用者にとって価値 のある範囲のラベル値となるデータを所望データとする。例えば、ラベルが特定のタ ンパク質に対する活性の強さで、利用者にとって価値のあるデータが或る閾値以上 の活性の強さである場合、その閾値以上の活性の強さであるデータが所望データと なる。なお、後述するように、所定ラベルの値が所望値でないデータを所定データと する場合もある。
[0034] 類似度の計算は、比較する 2つのデータの記述子どうしを比較して行う。具体的に は、例えば記述子が全部で n個ある場合、 n個の記述子どうしを比較し、例えば一致 する記述子の数に応じた値を類似度とする。所定データが全部で m個存在する場合 、 1つの未知データを m個の所定データのそれぞれと比較する。その結果、たとえば 、その中で最も高い類似度を当該未知データの類似度とする。勿論、すべての所定 データとの類似度の平均値などの統計データを当該未知データの類似度としても良 い。
[0035] データ選択条件 43は、次に学習するデータの選択方法を指定する。次に学習する データをルールにより導出する方法を用いる場合、集団学習での予測値が割れたデ ータを選択する方法や、所望するラベル値に近!/、予測値のデータを選択する方法や 、予測値に対する或る関数を用いて選択する方法など、従来の能動学習で用いられ ている選択方法と同様の方法を用いることができる。他方、類似度計算により次に学 習するデータを選択する方法を用いる場合、類似度の最も高いデータを選択する、 あるいはその逆に類似度の最も低!/、データを選択すると!/、つた選択方法を用いるこ と力 Sできる。
[0036] 終了条件 44は、計算を終了する条件であり、例えば以下のような条件を用いること ができる。
終了条件 a:予め定めた反復回数 Nを超えたら終了する。
終了条件 b:予め定めた数の所望データが得られれば終了する。
終了条件 c:計算用データの一部を評価データとして予測に用いずに残しておき、 評価データの予測精度が予め定めた値よりも高くなれば終了する。 終了条件 d :予測精度を推定し、推定した予測精度が予め定めた値よりも高くなれ ば終了する。
終了条件 e :終了条件 b、 c、 dの何れかにおいて、値の向上する傾き(向上曲線)が 予め定めた値よりも小さくなれば終了する。
終了条件 f :終了するかどうかの利用者からの指示に従う。
[0037] 上記の終了条件のうち、終了条件 a、 b、 c、 d、 eはそれぞれ単独または任意の組み 合わせで指定できる。また、補助条件 fは常に考慮すべき条件として設定される。
[0038] 出力条件 45は、計算の結果生成されたルール、既知データおよび所望データのう ちのどれを出力するかを指定する。生成されたルール以外に既知データおよび所望 データも出力できるようにした理由は、例えば、創薬におけるスクリーニングで、ラベ ルが特定のタンパク質に対する活性の有無である場合、利用者にとってはラベルが 既知となった活性あり化合物に価値があり、出力することに意味があるためである。
[0039] 所定ラベル値 46は、注目するラベルとその値を指定する。典型的には、利用者にと つて価値のあるデータのラベルとその値を指定する力 S、反対の場合もある。
[0040] 記憶装置 5は、既知データ 31と補助データ 33とから処理装置 2において生成され た計算用データ 51を記憶する。計算用データ 51の生成方法については後述する。
[0041] 記憶装置 6は、処理装置 2において類似度計算によって選択された次に学習すベ きデータ 61を記憶する。記憶装置 7は、処理装置 2において生成されたルール 71お よびルール 71によって選択された次に学習すべき選択データ 72を記憶する。処理 装置 2は、初期設定手段 21、計算用データ生成手段 22、データ選択手段 23、処理 制御手段 24およびデータ更新手段 25を備えている。
[0042] 初期設定手段 21は、入力装置 1から既知データ 31、未知データ 32および補助デ ータ 33が入力されると、それらを記憶装置 3へ格納する。また、入力装置 1から補助 条件 41、予測条件 42、データ選択条件 43、終了条件 44、出力条件 45および所定 ラベル値 46が入力されると、それらを記憶装置 4へ格納する。既知データ 31、未知 データ 32および補助データ 33は、それぞれ独立に入力しても良いし、一括して入力 することもできる。同様に、補助条件 41、予測条件 42、データ選択条件 43、終了条 件 44、出力条件 45および所定ラベル値 46は、それぞれ独立に入力しても良いし、 一括して入力することもできる。また、計算の開始から終了までの期間中に、既に入 力した既知データ 31、未知データ 32、補助データ 33、補助条件 41、予測条件 42、 データ選択条件 43、終了条件 44、出力条件 45および所定ラベル値 46を別の入力 データで置さ換免ることあでさる。
[0043] 計算用データ生成手段 22は、記憶装置 4から補助条件 41を読み出し、記憶装置 3 力も既知データ 31および補助データ 33を読み出し、計算用データ 51を生成して、 記憶装置 5に格納する。具体的には、補助条件 41の成否を判定し、補助データ 33 を利用する条件が成立していれば、補助データ 33と、既知データ 31のうち補助デー タ 33と記述子がすべて一致するデータを除く残りのデータとを計算用データ 51とす る。他方、補助データ 33を利用する条件が成立していなければ、既知データ 31を計 算用データ 51とする。
[0044] データ選択手段 23は、第 1のデータ選択部 26および第 2のデータ選択部 27を備 え、この 2つのデータ選択部 26、 27のうち、記憶装置 4に記憶された予測条件 42に 応じた何れか一方を選択的に実行する。或る態様では、計算の開始時には第 1のデ ータ選択部 26を実行し、後に第 2のデータ選択部 27の実行に切り替わり、計算の終 了まで第 2のデータ選択部 27を実行し続ける。また、別の態様では、計算の開始から 終了まで第 2のデータ選択部 27を実行する。
[0045] 第 1のデータ選択部 26は、記憶装置 5から計算用データ 51を読み出し、記憶装置 3から未知データ 32を読み出し、記憶装置 4からデータ選択条件 43および所定ラベ ノレ値 46を読み出し、計算用データ 51の集合から所定ラベル値 46を持つデータを所 定データとして選択し、未知データ 32の集合中のデータ毎に所定データとの類似度 を計算し、この計算した類似度とデータ選択条件 43とに基づいて次に学習すべきデ ータを未知データ 32の集合から選択し、選択データ 61として記憶装置 6に格納する
[0046] 第 2のデータ選択部 27は、記憶装置 5から計算用データ 51を読み出し、記憶装置 3から未知データ 32を読み出し、記憶装置 4からデータ選択条件 43および所定ラベ ノレ値 46を読み出し、計算用データ 51に基づいて任意のデータの記述子の入力に対 してそのデータの所定ラベルの値を計算するルールを学習し、この学習したルール を未知データ 32の集合に適用して各未知データの所定ラベルの値を予測し、この予 測結果とデータ選択条件 43とに基づいて次に学習すべきデータを未知データ 32の 集合から選択し、選択データ 72として前記生成したルール 71と一緒に記憶装置 7に 格納する。
[0047] 処理制御手段 24は、記憶装置 4から終了条件 44を読み出して終了可否を判定し、 終了条件を満たしていれば、記憶装置 4から読み出した出力条件 45に従って、記憶 装置 7に格納されているルール 71、記憶装置 3に格納されている既知データ 31、お よび既知データ 31に含まれる所望データなどを出力装置 8に出力し、処理装置 2の 計算処理を終了する。他方、終了条件 44を満たしていなければ、第 1のデータ選択 部 26が動作中であれば記憶装置 6に格納された選択データ 61、第 2のデータ選択 部 27が動作中であれば記憶装置 7に格納された選択データ 72を出力装置 8に出力 する。そして、利用者の入力装置 1の操作により、前記出力したデータのラベルの値 が入力されると、入力されたラベル値を設定したデータをデータ更新手段 25に渡し、 処理装置 2の計算処理を続行させる。
[0048] データ更新手段 25は、ラベル値の設定されたデータを記憶装置 3の既知データ 31 の集合に加え、未知データ 32の集合から該当する元のデータを取り除く。
[0049] 処理装置 2は、終了条件 44が満たされるまで、図 1に破線で示される制御の流れに 沿って、計算用データ生成手段 22、データ選択手段 23、処理制御手段 24およびデ ータ更新手段 25の処理を繰り返し実行する。
[0050] 図 3は本実施形態に力、かる能動学習システムの全体の動作を示すフローチャート である。以下、図 1乃至図 3を参照して、本実施形態の動作を説明する。
[0051] 処理装置 2は、利用者による入力装置 1からの指示等によって起動されると、図 3の フローチャートに示す処理を開始する。処理装置 2の初期設定手段 21は、入力装置
1からデータと制御条件とを入力し、データを記憶装置 3に格納し、制御条件を記憶 装置 4に格納する(図 3のステップ S101)。入力されるデータは、既知データ 31、未 知データ 32および補助データ 33の 3種類である。これら 3種類のデータは、それぞ れに分けて格納しても良いし、あるいは図 2で示したようにデータにデータ番号や一 意に振られた IDなどの識別子 201を付けて、データを分けずに格納し、識別子 201 とデータ種類との対応情報を別の場所に格納しても良い。また、ラベルも対応付けを 行って、記述子とは分けて格納しても良い。なお、既知データ 31と補助データ 33の 何れか一方は空集合であっても構わない。既知データ 31が空集合の場合、計算用 データ 51は補助データのみとなる。
[0052] また入力される制御条件は、補助条件 41、予測条件 42、データ選択条件 43、終 了条件 44、出力条件 45および所定ラベル値 46を含む。これらは全てが必須の制御 条件ではなぐ必要に応じて省略可能なものもある。例えば、所定ラベル値 46は、他 の制御条件の何れかにおレ、て所定ラベル値や所定データが用いられな!/、場合には 省略すること力 Sできる。また、図 3のフローチャートには示されていないが、各制御条 件は他の制御条件と一緒に入力する必要はなく個別に入力することもでき、また初期 設定時のみでなく計算途中に入力することもできる。例えば、予測条件は計算途中 で類似度を用いる条件からルール学習を行う条件に変更することができる。
[0053] 次に処理装置 2の計算用データ生成手段 22は、記憶装置 4から補助条件 41を読 み出して成立の可否を判定し (ステップ S 102)、補助条件が満たされないなら、記憶 装置 3から読み出した既知データ 31の集合を計算用データ 51として記憶装置 5に格 納する(ステップ S103)。他方、補助条件 41を満たすなら、記憶装置 3から既知デー タ 31と補助データ 33とを読み出し、補助データ 33を計算用データ 51として記憶装 置 5に格納するとともに、既知データ 31から補助データ 33と記述子が同じデータを 除いた残りを計算用データ 51として記憶装置 5に追加格納する(ステップ S104)。既 知データ 31から補助データ 33と記述子が同じデータを取り除く理由は、既知データ のラベルの値を書き換えて生成された補助データ 33を利用者が使用している可能 性があるためである。この場合、補助データ 33を用いて既知データ 31のラベルの値 を変換してレ、ることと等価になる。
[0054] 次に処理装置 2のデータ選択手段 23は、記憶装置 4から予測条件 42を読み出し、 類似度を用いて処理を行うか、ルール学習により処理を行うかを判定する(ステップ S 105)。類似度を用いて処理を行うと判定した場合は第 1のデータ選択部 26を起動し 、ルール学習により処理を行うと判定した場合は第 2のデータ選択部 27を起動する。
[0055] 第 1のデータ選択部 26は、まず記憶装置 5に格納された計算用データ 51の集合か ら所定ラベル値 46と同じラベル値を持つすべてのデータを所定データとして選択し、 計算用所定データとする (ステップ S 106)。次に、記憶装置 3に格納された未知デー タ 32の集合中のデータ毎に、計算用所定データとの類似度を計算する (ステップ S1 07)。最後に、計算した各未知データの類似度と、記憶装置 4に格納されたデータ選 択条件 43とに基づいて、未知データ 32の集合から次に学習すべきデータを選択デ ータ 61として選択し、記憶装置 6に格納する(ステップ S 108)。
[0056] 第 2のデータ選択部 27は、まず記憶装置 5に格納された計算用データ 51に基づい て任意のデータの記述子の入力に対してそのデータの所定ラベルの値を計算する ルール 71を学習し、記憶装置 7に記憶する (ステップ S 109)。次に、この学習したル ール 71を記憶装置 3に格納された未知データ 32の集合に適用して各未知データの 所定ラベルの値を予測する (ステップ S110)。最後に、各未知データの所定ラベル の予測結果と、記憶装置 4に格納されたデータ選択条件 43とに基づいて、未知デー タ 32の集合から次に学習すべきデータを選択データ 72として選択し、記憶装置 7に 格納する。
[0057] 次に処理装置 2の処理制御手段 24は、記憶装置 4から終了条件 44を読み出して 成立の可否を判定する(ステップ S 112)。そして、終了条件 44が成立していなけれ ば、データ選択手段 23で選択されたデータを記憶装置 6または記憶装置 7から読み 出して出力装置 8に出力し、利用者の入力装置 1の操作により、前記出力したデータ のラベルの値を入力する(ステップ S 113)。次に処理装置 2のデータ更新手段 25は 、ラベル値が入力されたデータを未知データ 32から取り除き、既知データ 31に追加 する(ステップ S 114)。そして、制御を計算用データ生成手段 22に戻し、上述した処 理と同様の処理を終了条件が成立するまで繰り返す。
[0058] ステップ S113における選択データの出力では、データそのものを出力しても良いし 、選択されたデータの識別子 201を出力しても良い。同じくステップ S 113におけるラ ベル値の入力では、記述子とラベルを含めたデータそのものを入力しても良いし、デ ータのラベルの値のみを入力しても良い。さらに、利用者がシステムが出力したデー タ以外にラベルをつけたい場合には、データとの対応を示せば、別のデータのラベ ルを入力しても構わない。これは、能動学習システムが利用者に対する支援を目指し ており、利用者が自身の知識に基づいて、選択されたデータが不適切と判断すれば 別のデータにラベル付けを行うことを可能にするためである。
[0059] また、処理制御手段 24に制御が移っているステップ S 113の時点で、利用者に補 助データを変更するかどうかを問レ、合わせ、新たな補助データを利用者に入力させ ても良い。さらに、以前に利用者から入力された補助データ 33に対し、入力装置 1の 操作によってラベル値が入力された場合には、補助データの取り消しを行うかどうか を利用者に確認しても良い。このように補助データを変更する場合には、記憶装置 3 の補助データ 33を新たな補助データに書き換える。またさらに、現在の既知データ 3 1の内容、あるいはその中の所定データの内容や数などを、出力装置 8に出力し、利 用者に対して予測条件 42を変更するかどうかを問!/、合わせ、新たな予測条件 42を 利用者に入力させても良い。
[0060] 他方、処理装置 2の処理制御手段 24は、終了条件 44が成立して!/、れば、記憶装 置 4に格納された出力条件 45に応じて、ルール 71および既知データ 31などを出力 装置 8から出力し (ステップ S115)、処理を終える。次に幾つかの状況を想定して本 実施形態の動作をより詳しく説明する。
[0061] 前提として、処理装置 2で扱うデータが図 2に示したようなデータ構造をしており、ラ ベル 1が所望ラベル、ラベル 1のとり得る値が 2値 {A, B}とする。また、そのうち所望 のラベル値は Aとする。例えば、創薬におけるスクリーニングの場合、ラベル 1が或る タンパク質に対する活性の有無で、 Aが活性あり、 Bが活性なしに相当する。利用者 の目的は、ラベル 1の値が未知のデータ 32の集合の中から、ラベル 1が Aであるデー タを、ランダム選択よりは効率良く発見することである。ここで、未知データの多くはラ ベル 1の値が Bであることが前提になっている。従って、ラベル 1の値が Bであるデー タはランダム選択によって容易に発見することができる。これに対してラベル 1の値が Aのデータは、ランダム選択では発見コストが著しく増加することになる。
[0062] (1)想定例 1
まず、ラベル 1の値が Bの既知データは必要十分な数だけ準備できた力 S、ラベル 1 の値が Aの既知データは全く存在しない状況を想定する。これは例えば、或るタンパ ク質に活性のない化合物のデータは多数存在する力 活性のある化合物のデータは まったく存在しな!/、状況に相当する。
[0063] このような状況の下で、ラベル 1の値が Aの既知データを効率良く発見する方法に は、主に以下の 3通りの方法がある。
(1 1)ラベル 1の値が Bの既知データとの類似度が最も低い未知データを、ラベル 1 の値が Aのデータの候補として選択する予測方法で処理を開始し、ラベル 1の値が A のデータがある程度収集できた時点で、ルールを学習する予測方法に切り替える。 (1 2)ラベル 1の値が Aの補助データを生成し、この補助データとの類似度が最も 高い未知データを、ラベル 1の値が Aのデータの候補として選択する予測方法で処 理を開始し、ラベル 1の値が Aのデータがある程度収集できた時点で、ルールを学習 する予測方法に切り替える。
(1 3)ラベル 1の値が Aの補助データを生成し、最初からルールを学習する予測方 法で予測を行う。
以下、それぞれの場合について動作を説明する。
[0064] (1 1)動作例 1
まず、初期設定で、ラベル 1の値力 ¾であるデータだけを含む既知データ 31と、ラ ベル 1の値が未知の未知データ 32とを記憶装置 3に記憶する。ここでは補助データ 3 3は使用しない。また、予測条件 42で類似度を用いる予測方式を指定し、データ選 択条件 43で最も類似度の低!/、データを選択すると!/、う条件を指定する。所定ラベル 値 46ではラベル 1の値 Bを指定する。
[0065] 図 3の処理が開始されると、まず、ラベル 1の値が Bである既知データ 31が計算用 データ 51として生成される (ステップ S 103)。次に、計算用データ 51から所定ラベル 値 46を持つすべてのデータ、つまりラベル 1の値が Bのデータが計算用所定データ として選択される(ステップ S106)。次に、未知データ 32中の各データについて、計 算用所定データとの類似度が計算される (ステップ S 107)。次に、データ選択条件 4 3に従って、計算用所定データとの類似度が最も低い未知データ、すなわちラベル 1 の値力 ¾である既知データに最も似ていない未知データが選択データ 61として選択 される(ステップ S108)。そして、この選択データ 61が処理制御手段 24により出力装 置 8に出力され、利用者は、実験等によって選択データ 61のラベル 1の値を調べて 入力装置 1から入力する(ステップ SI 13)。ここで、選択データ 61は、ラベル 1の値が Bであるデータに最も似ていないデータであるから、未知データ 32の集合からランダ ムに選択するよりは、ラベル 1の値が Aであるデータである確率が高くなる。データ更 新手段 25は、ラベル 1に値が入力されたデータを未知データ 32から取り除き、既知 データ 31に追加する(ステップ S114)。
[0066] 以上と同様な動作が繰り返され、ラベル 1の値が Aの計算用データあるいは既知デ ータがルール学習に必要な数だけ集まった時点で、入力装置 1から予測条件 42を ルール学習による予測に変更し、所定ラベル値 46をラベル 1の値 Aに変更する。こ れにより、以降は従来の能動学習システムと同様の方法でルールが学習され、学習 されたルールによって未知データ 32の中からデータが選択されていく。なお、入力 装置 1から予測条件 42を変更する代わりに、予測条件 42自体に、ラベル 1の値が A の計算用データあるいは既知データが或る閾値以上揃ったらルール学習に変更す るという条件を設定しておいて処理制御手段 24が自動的に予測方法を切り替えるよ うにすることあでさる。
[0067] (1 2)動作例 2
本動作例では、ラベル 1の値を Aに設定した補助データ 33を使用する。このような 補助データ 33は前述したように、例えば既知データ 31あるいは未知データ 32中の 或るデータのラベル 1の値を、ラベル 1が示す事象と類似する事象の状態を示す他の ラベルの値で書き換えることで、生成すること力 Sできる。
[0068] まず、初期設定で、ラベル 1の値が Bであるデータだけを含む既知データ 31と、ラ ベル 1の値が未知の未知データ 32と、ラベル 1の値が Aである補助データ 33とを記 憶装置 3に記憶する。また、予測条件 42で類似度を用いる予測方式を指定し、デー タ選択条件 43で最も類似度の高いデータを選択するという条件を指定する。所定ラ ベル値 46ではラベル 1の値 Aを指定する。補助データ 33を使用するので、適当な補 助条件 41を指定しておく。
[0069] 図 3の処理が開始されると、まず、ラベル 1の値が Aの補助データ 33と、ラベル 1の 値が Bである既知データ 31のうち補助データ 33と記述子が同一のデータを除いた残 りのデータとが計算用データ 51として生成される(ステップ S104)。次に、計算用デ ータ 51から所定ラベル値 46を持つすべてのデータ、つまりラベル 1の値が Aのデー タが計算用所定データとして選択される(ステップ S106)。次に、未知データ 32中の 各データについて、計算用所定データとの類似度が計算される (ステップ S107)。次 に、データ選択条件 43に従って、計算用所定データとの類似度が最も高い未知デ ータ、すなわちラベル 1の値が Aである補助データに最も似ている未知データが選択 データ 61として選択される(ステップ S 108)。そして、この選択データ 61が処理制御 手段 24により出力装置 8に出力され、利用者は、実験等によって選択データ 61のラ ベル 1の値を調べて入力装置 1から入力する(ステップ S 113)。ここで、補助データ 3 3は、ラベル 1が Aである既知データではなぐいわば仮の既知データであるが、ラベ ノレ 1と置換に使用した他のラベルとの間には類似関係があるため、真の既知データと 構造が似ている可能性が高い。そして選択データ 61は、ラベル 1の値が Aである補 助データに最も似ているデータであるから、未知データ 32の集合からランダムに選択 するよりは、ラベル 1の値が Aであるデータである確率が高くなる。データ更新手段 25 は、ラベル 1に値が入力されたデータを未知データ 32から取り除き、既知データ 31 に追加する(ステップ S 114)。
[0070] 以上と同様な動作が繰り返され、ラベル 1の値が Aの計算用データあるいは既知デ ータがルール学習に必要な数だけ集まった時点で、入力装置 1から予測条件 42を ルール学習による予測に変更する。これにより、以降は従来の能動学習システムと同 様の方法でルールが学習され、学習されたルールによって未知データ 32の中から データが選択されていく。ただし、補助条件 41が成立している間は補助データ 33が 仮の既知データとして使われる点が従来とは相違する。補助データ 33は、ラベル 1が Aである既知データではなぐいわば仮の既知データであるが、ラベル 1と置換に使 用した他のラベルとの間には類似関係があるため、補助データを用いて学習するノレ ールは、或る程度意味のあるルールとなる。なお、入力装置 1から予測条件 42を変 更する代わりに、予測条件 42自体に、ラベル 1の値が Aの計算用データが或る閾値 以上揃ったらルール学習に変更するという条件を設定しておいて処理制御手段 24 が自動的に予測方法を切り替えるようにすることもできる。
[0071] (1 3)動作例 3 ラベル 1の値が Aである補助データがルール学習に必要十分な数だけ準備できる 場合、類似度による予測を一切使わずに処理の開始からルール学習による予測を行 わせることも可能である。
[0072] まず、初期設定で、ラベル 1の値が Bであるデータだけを含む既知データ 31と、ラ ベル 1の値が未知の未知データ 32と、ラベル 1の値が Aである補助データ 33とを記 憶装置 3に記憶する。また、予測条件 42でルール学習を用いる予測方式を指定する 。所定ラベル値 46ではラベル 1の値 Aを指定する。補助データ 33を使用するので、 適当な補助条件 41を指定しておく。
[0073] 図 3の処理が開始されると、まず、ラベル 1の値が Aの補助データ 33と、ラベル 1の 値が Bである既知データ 31のうち補助データ 33と記述子が同一のデータを除いた残 りのデータとが計算用データ 51として生成される(ステップ S104)。次に、計算用デ ータ 51を用!/、てルールを学習し、記憶装置 7にルール 71として記憶する(ステップ S 109)。次に、ルール 71を用いて未知データ 32の集合に対してラベル 1の値を予測 し (ステップ S 110)、その予測結果とデータ選択条件 43とに基づいて次に学習する データを選択して記憶装置 7に記憶する (ステップ S 111)。そして、この選択データ 7 2が処理制御手段 24により出力装置 8に出力され、利用者は、実験等によって選択 データ 72のラベル 1の値を調べて入力装置 1から入力する(ステップ S113)。ここで、 データ選択条件 43がたとえば所望するラベル値に近い予測値のデータを選択する ものであれば、未知データ 32の集合からランダムに選択するよりは、ラベル 1の値が Aであるデータである確率が高くなる。データ更新手段 25は、ラベル 1に値が入力さ れたデータを未知データ 32から取り除き、既知データ 31に追加する(ステップ S114 )。
以上と同様な動作が終了条件 44が成立するまで繰り返される。
[0074] (2)想定例 2
想定例 1と異なり、ラベル 1の値が Aの既知データが僅かに存在する状況を想定す る。これは例えば、或るタンパク質に活性のない化合物のデータは多数存在するが、 活性のある化合物のデータがごく僅力、しか存在しない状況に相当する。
[0075] このような状況の下で、ラベル 1の値が Aの既知データを効率良く発見する方法に は、主に以下の 3通りの方法がある。
(2- 1)前述した想定例 1の動作例 1と同様に、ラベル 1の値が Bの既知データとの類 似度が最も低い未知データを、ラベル 1の値が Aのデータの候補として選択する予測 方法で処理を開始し、ラベル 1の値が Aのデータがある程度収集できた時点で、ルー ルを学習する予測方法に切り替える。
(2- 2)僅かに存在するラベル 1の値が Aの既知データとの類似度が最も高!/、未知 データを、ラベル 1の値が Aのデータの候補として選択する予測方法で処理を開始し 、ラベル 1の値が Aのデータがある程度収集できた時点で、ルールを学習する予測方 法に切り替える。
(2- 3)ラベル 1の値が Aの補助データを生成し、ラベル 1の値が Aの既知データとあ わせて、最初からルールを学習する予測方法で予測を行う。
以下、それぞれの場合について動作を説明する。
[0076] (2— 1)動作例 4
まず、初期設定で、ラベル 1の値が Aである僅かなデータとラベル 1の値が Bである 十分な数のデータを含む既知データ 31と、ラベル 1の値が未知の未知データ 32とを 記憶装置 3に記憶する。ここでは補助データ 33は使用しない。また、予測条件 42で 類似度を用いる予測方式を指定し、データ選択条件 43で最も類似度の低いデータ を選択するという条件を指定する。所定ラベル値 46ではラベル 1の値 Bを指定する。
[0077] 図 3の処理が開始されると、まず、既知データ 31が計算用データ 51として保存され る(ステップ S103)。次に、計算用データ 51から所定ラベル値 46を持つすべてのデ ータ、つまりラベル 1の値力 ¾の既知データが計算用所定データとして選択される(ス テツプ S 106)。次に、未知データ 32中の各データについて、計算用所定データとの 類似度が計算される (ステップ S 107)。次に、データ選択条件 43に従って、計算用 所定データとの類似度が最も低い未知データ、すなわちラベル 1の値が Bである既知 データに最も似ていない未知データが選択データ 61として選択される(ステップ S10 8)。そして、この選択データ 61が処理制御手段 24により出力装置 8に出力され、禾 IJ 用者は、実験等によって選択データ 61のラベル 1の値を調べて入力装置 1から入力 する(ステップ S113)。ここで、選択データ 61は、ラベル 1の値が Bであるデータに最 も似ていないデータであるから、未知データ 32の集合からランダムに選択するよりは 、ラベル 1の値が Aであるデータである確率が高くなる。データ更新手段 25は、ラベ ノレ 1に値が入力されたデータを未知データ 32から取り除き、既知データ 31に追加す る(ステップ S 114)。
[0078] 以上と同様な動作が繰り返され、ラベル 1の値が Aの計算用データあるいは既知デ ータがルール学習に必要な数だけ集まった時点で、入力装置 1から予測条件 42を ルール学習による予測に変更し、所定ラベル値 46をラベル 1の値 Aに変更する。こ れにより、以降は従来の能動学習システムと同様の方法でルールが学習され、学習 されたルールによって未知データ 32の中からデータが選択されていく。なお、入力 装置 1から予測条件 42を変更する代わりに、予測条件 42自体に、ラベル 1の値が A の計算用データあるいは既知データが或る閾値以上揃ったらルール学習に変更す るという条件を設定しておいて処理制御手段 24が自動的に予測方法を切り替えるよ うにすることあでさる。
[0079] (2— 2)動作例 5
本動作例では、まず初期設定で、ラベル 1の値が Aである僅かなデータとラベル 1 の値が Bであるデータを含む既知データ 31と、ラベル 1の値が未知の未知データ 32 とを記憶装置 3に記憶する。また、予測条件 42で類似度を用いる予測方式を指定し 、データ選択条件 43で最も類似度の高いデータを選択するという条件を指定する。 所定ラベル値 46ではラベル 1の値 Aを指定する。
[0080] 図 3の処理が開始されると、まず、ラベル 1の値が Aであるデータおよび Bであるデ ータを含む既知データ 31が計算用データ 51として生成される (ステップ S 103)。次 に、計算用データ 51から所定ラベル値 46を持つすべてのデータ、つまりラベル 1の 値が Aのデータが計算用所定データとして選択される(ステップ S106)。次に、未知 データ 32中の各データについて、計算用所定データとの類似度が計算される (ステ ップ S 107)。次に、データ選択条件 43に従って、計算用所定データとの類似度が最 も高い未知データ、すなわちラベル 1の値が Aである既知データに最も似ている未知 データが選択データ 61として選択される(ステップ S108)。そして、この選択データ 6 1が処理制御手段 24により出力装置 8に出力され、利用者は、実験等によって選択 データ 61のラベル 1の値を調べて入力装置 1から入力する(ステップ S 113)。ここで、 選択データ 61は、ラベル 1の値が Aである既知データに最も似ているデータであるか ら、未知データ 32の集合からランダムに選択するよりは、ラベル 1の値が Aであるデ ータである確率が高くなる。データ更新手段 25は、ラベル 1に値が入力されたデータ を未知データ 32から取り除き、既知データ 31に追加する(ステップ S 114)。
[0081] 以上と同様な動作が繰り返され、ラベル 1の値が Aの計算用データあるいは既知デ ータがルール学習に必要な数だけ集まった時点で、入力装置 1から予測条件 42を ルール学習による予測に変更する。これにより、以降は従来の能動学習システムと同 様の方法でルールが学習され、学習されたルールによって未知データ 32の中から データが選択されていく。なお、入力装置 1から予測条件 42を変更する代わりに、予 測条件 42自体に、ラベル 1の値が Aの計算用データが或る閾値以上揃ったらルール 学習に変更するという条件を設定しておいて処理制御手段 24が自動的に予測方法 を切り替免るようにすることあでさる。
[0082] (2— 3)動作例 6
ラベル 1の値が Aである補助データを幾つか準備できる場合、ラベル 1の値が Aの 既知データとあわせて、処理の開始からルール学習による予測を行わせることも可能 である。
[0083] まず、初期設定で、ラベル 1の値が Aである僅かなデータとラベル 1の値が Bである データを含む既知データ 31と、ラベル 1の値が未知の未知データ 32と、ラベル 1の値 が Aである補助データ 33とを記憶装置 3に記憶する。また、予測条件 42でルール学 習を用いる予測方式を指定する。所定ラベル値 46ではラベル 1の値 Aを指定する。 補助データ 33を使用するので、適当な補助条件 41を指定しておく。
[0084] 図 3の処理が開始されると、まず、ラベル 1の値が Aの補助データ 33と、ラベル 1の 値が Aである僅かなデータとラベル 1の値が Bであるデータとを含む既知データ 31の うち補助データ 33と記述子が同一のデータを除いた残りのデータとが計算用データ 51として生成される(ステップ S104)。次に、計算用データ 51を用いてルールを学習 し、記憶装置 7にルール 71として記憶する(ステップ S109)。次に、ルール 71を用い て未知データ 32の集合に対してラベル 1の値を予測し (ステップ S 110)、その予測結 果とデータ選択条件 43とに基づいて次に学習するデータを選択して記憶装置 7に記 憶する(ステップ S111)。そして、この選択データ 72が処理制御手段 24により出力 装置 8に出力され、利用者は、実験等によって選択データ 72のラベル 1の値を調べ て入力装置 1から入力する(ステップ S113)。ここで、データ選択条件 43がたとえば 所望するラベル値に近!/、予測値のデータを選択するものであれば、未知データ 32 の集合からランダムに選択するよりは、ラベル 1の値が Aであるデータである確率が高 くなる。
データ更新手段 25は、ラベル 1に値が入力されたデータを未知データ 32から取り除 き、既知データ 31に追加する(ステップ S 114)。
以上と同様な動作が終了条件 44が成立するまで繰り返される。
[0085] 本実施形態によれば、学習開始時点の初期の状態において既知データの集合中 に所望データが全く存在しないかごく僅力、しか存在しないような、ルール学習が正し く行えない状況であっても、ランダム選択よりは効率的に未知データの集合から所望 データを選択することができ、最終的に所望データを使ったルール学習が可能にな
[0086] その理由は、既知データの集合に存在する所望データ以外のデータと最も似て!/、 ないデータを未知データから選択するという類似度による予測方法によってランダム 選択よりは効率的に所望データの発見が行えるためである。また別の理由は、僅か に存在する所望データあるいは仮の所望データである補助データに最も似ているデ ータを未知データから選択するという類似度による予測方法によってランダム選択よ りは効率的に所望データの発見が行えるためである。さらに別の理由は、仮の所望 データである補助データを使って意味のある学習が行えるためである。
[0087] [第 2の実施形態例]
図 4を参照すると、本発明の第 2の実施形態例に力、かる能動学習システムは、図 1 に示した第 1の実施形態例に力、かる能動学習システムと比較して、計算用データ生 成手段 22の代わりに重み付き計算用データ生成手段 28を備え、データ選択手段 2 3の代わりに重みを考慮して予測を行うデータ選択手段 29を備えている点で相違す [0088] 重み付き計算用データ生成手段 28は、第 1の実施形態例の計算用データ生成手 段 22と同様の機能を有する計算用データ生成部 28Aと、この計算用データ生成部 2 8Aにより生成された計算用データに対して重みを付与するデータ重み付け部 28Bと 力、ら構成される。
[0089] 図 5を参照すると、重み付き計算用データのデータ構造の一例は、図 2に示した計 算用データに重み 204の項目を付加した構造を持つ。重み 204は、例えば 0から 1ま での値をとり、 1に近!/、ほど (値が大き!/、ほど)重要度が高!/、ことを示す。
[0090] データ重み付け部 28Bは、既知データ 31が補助データ 33より重要視したルール 学習や類似度計算が行われるように、既知データ 31から生成された計算用データに 対する重みを補助データ 33から生成された計算用データに対する重みよりも相対的 に大きくする。それぞれに対してどの程度の値の重みを使用するかは、制御条件の 一つに追加した重み条件で初期設定時および計算中に外部から指定するようにして も良いし、例えば既知データには値 1、補助データにはその半分の値を設定するもの と予め定めておいても良い。
[0091] 図 6は本実施形態に力、かる能動学習システムの全体の動作を示すフローチャート である。以下、図 4乃至図 6を参照して、本実施形態の動作を説明する。処理装置 2 は、利用者による入力装置 1からの指示等によって起動されると、図 6のフローチヤ一 トに示す処理を開始する。
[0092] 処理装置 2の初期設定手段 21は、入力装置 1からデータと制御条件とを入力し、デ ータを記憶装置 3に格納し、制御条件を記憶装置 4に格納する(図 6のステップ S 101 )。次に処理装置 2の重み付き計算用データ生成手段 28の計算用データ生成部 28 Aは、記憶装置 4から補助条件 41を読み出して成立の可否を判定し (ステップ S102 )、補助条件が満たされないなら、記憶装置 3から読み出した既知データ 31をデータ 重み付け部 28Bに与え、データ重み付け部 28Bは与えられた既知データ 31に既知 データ用の重みを付加して、計算用データ 51として記憶装置 5に格納する(ステップ S 103)。
[0093] 他方、補助条件を満たすなら、計算用データ生成部 28Aは、記憶装置 3から既知 データ 31と補助データ 33とを読み出し、補助データ 33をデータ重み付け部 28Bに 与え、データ重み付け部 28Bは与えられた補助データ 33に補助データ用の重みを 付加して、計算用データ 51として記憶装置 5に格納する (ステップ S201)。さらに計 算用データ生成部 28Aは、既知データ 31から補助データ 33と記述子が同じデータ を除いた残りのデータをデータ重み付け部 28Bに与え、データ重み付け部 28Bは与 えられたデータに既知データ用の重みを付加して、計算用データ 51として記憶装置 5に追加格納する(ステップ S 201)。
[0094] 次に処理装置 2のデータ選択手段 29は、記憶装置 4から予測条件 42を読み出し、 類似度を用いて処理を行うか、ルール学習により処理を行うかを判定する(ステップ S 105)。類似度を用いて処理を行うと判定した場合は第 1のデータ選択部 26を起動し 、ルール学習により処理を行うと判定した場合は第 2のデータ選択部 27を起動する。
[0095] 第 1のデータ選択部 26は、まず記憶装置 5に格納された重み付きの計算用データ
51の集合から所定ラベル値 46と同じラベル値を持つすべてのデータを所定データと して選択し、計算用所定データとする (ステップ S 106)。次に、記憶装置 3に格納され た未知データ 32の集合中のデータ毎に、計算用所定データとの類似度を計算する( ステップ S202)。この類似度の計算時に重みを考慮し、既知データ 31を補助データ 33より重要視するような類似度を計算する。例えば、記述子が全部で n個ある場合、 未知データと計算用所定データとの間で n個の記述子どうしを比較し、例えば一致す る記述子の数に応じた値に、その計算用所定データに付加されている重みを乗じた 値を類似度とする。次に、計算した各未知データの類似度と、記憶装置 4に格納され たデータ選択条件 43とに基づいて、未知データ 32の集合から次に学習すべきデー タを選択データ 61として選択し、記憶装置 6に格納する(ステップ S 108)。
[0096] 第 2のデータ選択部 27は、まず記憶装置 5に格納された計算用データ 51に基づい て任意のデータの記述子の入力に対してそのデータの所定ラベルの値を計算する ルール 71を学習し、記憶装置 7に記憶する(ステップ S 203)。このルールの学習時 に重みを考慮し、既知データ 31を補助データ 33より重要視するような学習を行う。具 体的には、例えば、パギング法では、計算用データからサンプリングしたデータを複 数回生成することにより複数のルールを生成している力 このサンプリング時に重み の値が大きい計算用データが重みの値が小さい計算用データに比べてよりサンプリ ングされ易くする。勿論、計算用データに付加された重みに応じて学習の重要度を 変える方法は上述した例に限定されず、その他各種の方法を採用することが可能で ある。次に、学習したルール 71を記憶装置 3に格納された未知データ 32の集合に適 用して各未知データの所定ラベルの値を予測する (ステップ S 110)。最後に、各未 知データの所定ラベルの予測結果と、記憶装置 4に格納されたデータ選択条件 43と に基づレ、て、未知データ 32の集合から次に学習すべきデータを選択データ 72として 選択し、記憶装置 7に格納する。
[0097] 次に処理装置 2の処理制御手段 24は、記憶装置 4から終了条件 44を読み出して 成立の可否を判定する(ステップ S 112)。そして、終了条件 44が成立していなけれ ば、データ選択手段 29で選択されたデータを記憶装置 6または記憶装置 7から読み 出して出力装置 8に出力し、利用者の入力装置 1の操作により、前記出力したデータ のラベルの値を入力する(ステップ S 113)。次に処理装置 2のデータ更新手段 25は 、ラベル値が入力されたデータを未知データ 32から取り除き、既知データ 31に追加 する(ステップ S 114)。そして、制御を重み付き計算用データ生成手段 28に戻し、上 述した処理と同様の処理を終了条件が成立するまで繰り返す。他方、処理装置 2の 処理制御手段 24は、終了条件 44が成立していれば、記憶装置 4に格納された出力 条件 45に応じて、ルール 71および既知データ 31などを出力装置 8から出力し (ステ ップ S 115)、処理を終える。
[0098] 本実施形態によれば、重み付き計算用データ生成手段 28を備えるように構成され ているため、既知データ 31を補助データ 33より重要視したルール学習や類似度計 算を行うことが可能である。補助データは、ラベルが未知であるか又は本来のラベル 値とは異なるラベル値を利用者により設定されたもので、真の既知データほど重要で はないため、そのような違いを反映した処理が可能となることにより、より効率的な予 測が可能となる。
[0099] 以上本発明の実施形態例について説明したが、本発明は以上の実施形態例にの み限定されず、その他各種の付加変更が可能である。また、本発明の能動学習シス テムは、その有する機能をハードウェア的に実現することは勿論、コンピュータと能動 学習用プログラムとで実現することができる。能動学習用プログラムは、磁気ディスク や半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータ の立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御する ことにより、そのコンピュータを前述した各実施形態例における初期設定手段 21、計 算用データ生成手段 22または重み付き計算用データ生成手段 28、データ選択手 段 23またはデータ選択手段 29、処理制御手段 24およびデータ更新手段 25として 機能させ、また図 3、図 6に示した処理を実行させる。
[0100] 本発明にあっては、従来の能動学習システムで行われているルール学習によるデ ータ選択とは別に、類似度計算によって次に学習するデータを選択する。ルール学 習を正しく行うためには、様々なラベル値の既知データが必要になるが、類似度計算 による選択では、所望ラベルが所望値であるデータが既知データとして全く存在しな
V、場合、所望ラベルが所望値以外の値である既知データと最も似て!/、な!/、未知デー タを選択することで、ランダム選択の場合に比べて効率良く所望データを発見するこ と力 Sできる。また、僅かでも所望データが存在すれば、所望データと最も似ている未 知データを選択することで、ランダム選択の場合に比べて効率良く所望データを発 見すること力 Sできる。さらに、所望データがない場合に、利用者が所望データに近い と類推するデータを補助データとして用いることも可能である。所望データが集まった 後は、類似度計算による予測から従来と同様のルール学習による予測へ移行するこ と力 Sできる。
[0101] 上記実施形態能動学習システムによると、既知データ中に或るラベル値付近 (所望 ラベル値)のデータ(所望データ)が全く存在しな!/、か、ごく僅力、しか存在しな!/、場合 にも、ランダム選択の場合に比べて効率良く次に学習するデータを選択できる。
[0102] その理由は、未知データについて既知データとの類似度を計算し次に学習するデ ータを選択する手段を備えているためである。より具体的には、既知データの集合に 存在する所望データ以外のデータと最も似て!/、な!/、データを未知データから選択し たり、僅かに存在する所望データに最も似ているデータを未知データから選択すると いった類似度による予測方法によってランダム選択よりは効率的に所望データの発 見が fiえるためである。
[0103] また、利用者がもつ補助情報を利用して、より効率的に学習できる。その理由は、 仮の所望データである補助データを使って類似度計算を行ったり、ルール学習が行 えるためである。
[0104] 本発明を特別に示し且つ例示的な実施形態を参照して説明したが、本発明は、そ の実施形態及びその変形に限定されるものではない。当業者に明らかなように、本 発明は、添付のクレームに規定される本発明の精神及び範囲を逸脱することなぐ種 々の変更が可能である
[0105] 本出願は、 2006年 10月 19日出願に係る日本特許出願 2006— 284660号を基 礎とし且つその優先権を主張するものであり、引用によってその開示の内容の全てを 本出願の明細書中に加入する。
産業上の利用可能性
[0106] 本発明は、例えば、創薬におけるスクリーニングの場面において活性化合物を探索 する場合などのように、多数の候補データからデータを選択して効率的に学習するよ うな能動学習といった用途に適用できる。

Claims

請求の範囲
[1] ラベルの値が未知のデータについてラベルの値が所定の値であるデータとの類似 度を計算し、該計算した類似度に基づいて次に学習するデータを選択する第 1のデ ータ選択部(26)と、ラベルの値が既知のデータに基づいてルールを学習し、該学習 したルールをラベルの値が未知のデータの集合に適用して次に学習するデータを選 択する第 2のデータ選択部(27)とを備えたことを特徴とする能動学習システム。
[2] ラベルの値が所定の値であるデータ力 S、ラベルの値が既知のデータまたはラベル の値が未知のデータのラベルを書き換えた補助データを含むことを特徴とする請求 項 1記載の能動学習システム。
[3] ラベルの値が既知のデータと補助データとに異なったデータ重みを付与する手段( 28)を備えることを特徴とする請求項 2記載の能動学習システム。
[4] 1以上の記述子と 1以上のラベルとで構成されるデータのうち、所望ラベルの値を既 知とした既知データの集合と前記所望ラベルの値を未知とした未知データの集合と を記憶する記憶部(3)と、
前記記憶部に記憶された既知データの集合から前記所望ラベルの値が所定値を 持つデータを所定データとして選択し、前記各未知データ毎に前記所定データとの 類似度を計算し、該計算した類似度に基づいて次に学習すべきデータを前記未知 データの集合から選択する第 1のデータ選択部動作と、前記記憶部に記憶された既 知データに基づいて任意のデータの記述子の入力に対してそのデータの前記所望 ラベルの値を計算するルールを学習し、該学習したルールを前記未知データの集合 に適用して各未知データの前記所望ラベルの値を予測し、該予測結果に基づレ、て 次に学習すべきデータを前記未知データの集合から選択する第 2のデータ選択動 作とのうち、指定された側の動作を行うデータ選択手段(23)と、
前記データ選択手段で選択されたデータを出力装置(8)から出力し、前記所望ラ ベルの値が入力装置から入力されたデータを前記未知データの集合から取り除いて 前記既知データの集合に追加する制御手段(24)と、を備えることを特徴とする能動 学習システム。
[5] 1以上の記述子と 1以上のラベルとで構成されるデータのうち、所望ラベルの値を既 知とした既知データの集合と前記所望ラベルの値を未知とした未知データの集合と 既知データまたは未知データの所望ラベルの値を書き換えた補助データの集合とを 記憶する記憶部(3)と、
前記記憶部に記憶された既知データの集合と補助データの集合とから計算用デー タを生成し前記記憶部に記憶する計算用データ生成手段(22)と、
前記記憶部に記憶された計算用データの集合力 前記所望ラベルの値が所定値 を持つデータを所定データとして選択し、前記各未知データ毎に前記所定データと の類似度を計算し、該計算した類似度に基づいて次に学習すべきデータを前記未 知データの集合力 選択する第 1のデータ選択動作と、前記記憶部に記憶された計 算用データに基づいて任意のデータの記述子の入力に対してそのデータの前記所 望ラベルの値を計算するルールを学習し、該学習したルールを前記未知データの集 合に適用して各未知データの前記所望ラベルの値を予測し、該予測結果に基づレ、 て次に学習すべきデータを前記未知データの集合から選択する第 2のデータ選択動 作とのうち、指定された側の動作を行うデータ選択手段(23)と、
前記データ選択手段で選択されたデータを出力装置(8)から出力し、前記所望ラ ベルの値が入力装置から入力されたデータを前記未知データの集合から取り除いて 前記既知データの集合に追加する制御手段(24)と、を備えることを特徴とする能動 学習システム。
1以上の記述子と 1以上のラベルとで構成されるデータのうち、所望ラベルの値を既 知とした既知データの集合と前記所望ラベルの値を未知とした未知データの集合と 既知データまたは未知データの所望ラベルの値を書き換えた補助データの集合とを 記憶する記憶部(3)と、
前記記憶部に記憶された既知データの集合と補助データの集合とから、重み付き の計算用データを生成し前記記憶部に記憶する計算用データ生成手段(28)と、 前記記憶部に記憶された重み付きの計算用データの集合から前記所望ラベルの 値が所定値を持つデータを所定データとして選択し、前記各未知データ毎に前記所 定データとの類似度をデータの重みを考慮して計算し、該計算した類似度に基づい て次に学習すべきデータを前記未知データの集合から選択する第 1のデータ選択動 作と、前記記憶部に記憶された重み付きの計算用データに基づいて任意のデータ の記述子の入力に対してそのデータの前記所望ラベルの値を計算するルールをデ ータの重みを考慮して学習し、該学習したルールを前記未知データの集合に適用し て各未知データの前記所望ラベルの値を予測し、該予測結果に基づレ、て次に学習 すべきデータを前記未知データの集合から選択する第 2のデータ選択動作とのうち、 指定された側の動作を行うデータ選択手段(29)と、
前記データ選択手段で選択されたデータを出力装置から出力し、前記所望ラベル の値が入力装置から入力されたデータを前記未知データの集合から取り除いて前記 既知データの集合に追加する制御手段(24)と、を備えることを特徴とする能動学習 システム。
[7] コンピュータを用いた能動学習方法であって、
ラベルの値が未知のデータについてラベルの値が所定の値であるデータとの類似 度を計算し、
該計算した類似度に基づいて次に学習するデータを選択する能動学習サイクルを 1サイクル以上繰り返した後、ラベルの値が既知のデータに基づ!/、てルールを学習し 該学習したルールを、ラベルの値が未知のデータの集合に適用して、次に学習す るデータを選択する能動学習サイクルへ移行する能動学習方法。
[8] ラベルの値が所定の値であるデータ力 S、ラベルの値が既知のデータまたはラベル の値が未知のデータのラベルを書き換えた補助データを含むことを特徴とする請求 項 7記載の能動学習方法。
[9] ラベルの値が既知のデータと補助データとに異なったデータ重みを付与することを 特徴とする請求項 8記載の能動学習方法。
[10] コンピュータを用いた能動学習システムのためのプログラムであって、前記コンビュ ータに、
ラベルの値が未知のデータについてラベルの値が所定の値であるデータとの類似 度を計算し、該計算した類似度に基づいて次に学習するデータを選択する能動学習 サイクルを 1サイクル以上繰り返し実行する処理と、 ラベルの値が既知のデータに基づ!/、てルールを学習し、該学習したルールをラベ ルの値が未知のデータの集合に適用して次に学習するデータを選択する能動学習 サイクルを実行する処理と、を順次に行わせるための能動学習プログラム。
[11] ラベルの値が所定の値であるデータ力 S、ラベルの値が既知のデータまたはラベル の値が未知のデータのラベルを書き換えた補助データを含むことを特徴とする請求 項 10記載の能動学習プログラム。
[12] ラベルの値が既知のデータと補助データとに異なったデータ重みを付与することを 特徴とする請求項 11記載の能動学習プログラム。
PCT/JP2007/070256 2006-10-19 2007-10-17 Système, procédé et programme d'étude active WO2008047835A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008539846A JP5169831B2 (ja) 2006-10-19 2007-10-17 能動学習システム、方法およびプログラム
EP07829990.6A EP2083379B1 (en) 2006-10-19 2007-10-17 Active studying system, method and program
US12/311,947 US20100023465A1 (en) 2006-10-19 2007-10-17 Active learning system, method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006284660 2006-10-19
JP2006-284660 2006-10-19

Publications (1)

Publication Number Publication Date
WO2008047835A1 true WO2008047835A1 (fr) 2008-04-24

Family

ID=39314057

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/070256 WO2008047835A1 (fr) 2006-10-19 2007-10-17 Système, procédé et programme d'étude active

Country Status (4)

Country Link
US (1) US20100023465A1 (ja)
EP (1) EP2083379B1 (ja)
JP (1) JP5169831B2 (ja)
WO (1) WO2008047835A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039831A (ja) * 2009-08-12 2011-02-24 Kddi Corp サポートベクトルマシンの再学習方法
WO2016111241A1 (ja) * 2015-01-07 2016-07-14 日本電気株式会社 学習装置、識別器、学習方法および記録媒体
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
CN110852436A (zh) * 2019-10-18 2020-02-28 桂林力港网络科技股份有限公司 一种电子扑克游戏的数据处理方法、装置及存储介质
US10740653B2 (en) 2017-04-07 2020-08-11 Nec Corporation Learning data generation device, learning data generation method, and recording medium
JP2021524955A (ja) * 2019-04-16 2021-09-16 ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) 肖像属性モデル構築方法、装置、コンピュータ機器および記憶媒体
WO2022113340A1 (ja) * 2020-11-30 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733525B2 (en) 2014-09-29 2020-08-04 The Government Of The United States, As Represented By The Secretary Of The Army Technical performance data trained learning system
WO2017175434A1 (ja) * 2016-04-06 2017-10-12 ソニー株式会社 情報処理装置、情報処理方法および情報提供方法
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202553A (ja) * 1995-01-25 1996-08-09 Nippon Telegr & Teleph Corp <Ntt> 知識学習システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048184A1 (ja) * 2003-11-17 2005-05-26 Nec Corporation 能動学習方法およびシステム
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202553A (ja) * 1995-01-25 1996-08-09 Nippon Telegr & Teleph Corp <Ntt> 知識学習システム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BREIMAN: "Bagging Predictors", MACHINE LEARNING, vol. 24, no. 2, 1996, pages 123 - 140
FREUND; SHAPIRE: "A decision-theoretic generalization of on-line learning and an application to boosting", PROCEEDINGS OF THE SECOND EUROPEAN CONFERENCE ON COMPUTATIONAL LEARNING THEORY, 1995, pages 23 - 37, XP008068876
NAOKI ABE; HIROSHI MAMIZUKA: "Query Learning Strategies using Boosting and Bagging", PROCEEDINGS OF THE 15-TH INTERNATIONAL CONFERENCE ONMACHINE LEARNING, 1998, pages 1 - 9
See also references of EP2083379A4 *
WARMWTH: "Support Vector Machine for Active Learning in the Drug Discovery Process", JOURNAL OF CHEMICAL INFORMATION SCIENCE, vol. 43, no. 2, 2003, pages 667 - 673, XP002394233, DOI: doi:10.1021/ci025620t
YAMASHITA K. ET AL.: "Nodo Gakushuho ni yoru Soyaku Screening -Ruien Tanpakushitsu no Ligand Joho o Mochiita GPCR Ligand Tansaku-", KOZO KASSEI SOKAN SYMPOSIUM KOEN YOSHISHU, vol. 33RD, 8 November 2005 (2005-11-08), pages 63 - 66, XP003022214 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039831A (ja) * 2009-08-12 2011-02-24 Kddi Corp サポートベクトルマシンの再学習方法
WO2016111241A1 (ja) * 2015-01-07 2016-07-14 日本電気株式会社 学習装置、識別器、学習方法および記録媒体
JPWO2016111241A1 (ja) * 2015-01-07 2017-10-12 日本電気株式会社 学習装置、識別器、学習方法および記録媒体
US11631025B2 (en) 2015-01-07 2023-04-18 Nec Corporation Learning apparatus, learning method, and recording medium
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
US10740653B2 (en) 2017-04-07 2020-08-11 Nec Corporation Learning data generation device, learning data generation method, and recording medium
US11386297B2 (en) 2017-04-07 2022-07-12 Nec Corporation Learning data generation device, learning data generation method, and recording medium
JP2021524955A (ja) * 2019-04-16 2021-09-16 ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) 肖像属性モデル構築方法、装置、コンピュータ機器および記憶媒体
CN110852436A (zh) * 2019-10-18 2020-02-28 桂林力港网络科技股份有限公司 一种电子扑克游戏的数据处理方法、装置及存储介质
WO2022113340A1 (ja) * 2020-11-30 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP7529041B2 (ja) 2020-11-30 2024-08-06 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム

Also Published As

Publication number Publication date
JPWO2008047835A1 (ja) 2010-02-25
EP2083379B1 (en) 2021-04-07
EP2083379A1 (en) 2009-07-29
US20100023465A1 (en) 2010-01-28
JP5169831B2 (ja) 2013-03-27
EP2083379A4 (en) 2014-08-27

Similar Documents

Publication Publication Date Title
WO2008047835A1 (fr) Système, procédé et programme d&#39;étude active
JP4645288B2 (ja) 能動学習方法および能動学習システム
JP6555015B2 (ja) 機械学習管理プログラム、機械学習管理装置および機械学習管理方法
Pickardt et al. Evolutionary generation of dispatching rule sets for complex dynamic scheduling problems
US8688705B1 (en) Large scale machine learning systems and methods
JP2005107743A (ja) 学習システム
US8275730B2 (en) Information processing apparatus, information processing method, and computer program product for reducing states in a deterministic finite state automaton
Wilson Explore/exploit strategies in autonomy
US8365172B2 (en) Horizontal scaling of stream processing
JP2011203991A (ja) 情報処理装置、情報処理方法、およびプログラム
CN113342403A (zh) 信息处理方法、信息处理系统和计算机可读记录介质
WO2005048184A1 (ja) 能動学習方法およびシステム
WO2014176056A2 (en) Data classification
Thomas et al. Survey on MapReduce scheduling algorithms
WO2008072459A1 (ja) 能動学習システム、能動学習方法、及び能動学習用プログラム
Tari et al. Partial neighborhood local searches
Yaman et al. Multi-strategy differential evolution
Polat et al. A new method to forecast of Escherichia coli promoter gene sequences: Integrating feature selection and Fuzzy-AIRS classifier system
van Stralen et al. Fitness prediction techniques for scenario-based design space exploration
JP5126694B2 (ja) 学習システム
Candelieri et al. A hyper-solution framework for SVM classification: application for predicting destabilizations in chronic heart failure patients
Prabha et al. A HM Ant Miner using evolutionary algorithm
WO2008059642A1 (fr) Procédé pour la prédiction d&#39;une structure d&#39;acide nucléique d&#39;ordre supérieur, appareil pour la prédiction d&#39;une structure d&#39;acide nucléique d&#39;ordre supérieur et programme pour la prédiction d&#39;une structure d&#39;acide nucléique d&#39;ordre supérieur
JP2020004057A (ja) 選定プログラム、選定方法および選定装置
Daly et al. Using higher-order dynamic Bayesian networks to model periodic data from the circadian clock of Arabidopsis thaliana

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07829990

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008539846

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2007829990

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12311947

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE