WO2009118845A1 - 化合物の予測信頼性評価システム - Google Patents

化合物の予測信頼性評価システム Download PDF

Info

Publication number
WO2009118845A1
WO2009118845A1 PCT/JP2008/055753 JP2008055753W WO2009118845A1 WO 2009118845 A1 WO2009118845 A1 WO 2009118845A1 JP 2008055753 W JP2008055753 W JP 2008055753W WO 2009118845 A1 WO2009118845 A1 WO 2009118845A1
Authority
WO
WIPO (PCT)
Prior art keywords
compound
prediction
virtual
prediction target
target compound
Prior art date
Application number
PCT/JP2008/055753
Other languages
English (en)
French (fr)
Inventor
浩太郎 湯田
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2008/055753 priority Critical patent/WO2009118845A1/ja
Priority to JP2010505086A priority patent/JP5087756B2/ja
Publication of WO2009118845A1 publication Critical patent/WO2009118845A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Definitions

  • the present invention relates to a system, method, and program for evaluating the reliability of a prediction result when performing class prediction of a compound using a classification prediction model.
  • the classification problem is to learn the rules for classifying a class from a group of samples that belong to which class is known, and use the learned rules as a classification prediction model. Predicting which class it belongs to for a sample whose class it belongs to is unknown.
  • the two-class classification which classifies sample sets into two classes, is the most basic classification problem, and has been used for many years for structure-activity relationship and structure-property relationship studies.
  • classification methods include linear learning machines, discriminant analysis, Bayes linear discriminant analysis, SVM (support vector machine), linear discriminant analysis methods such as AdaBoost, and Bayes nonlinear discriminant analysis, SVM ( Support vector machine + kernel), neural network, KNN method (nearest neighbor method), non-linear discriminant analysis method such as decision tree.
  • the “classification rate” is an index that shows how correctly a sample with a known belonging class has been classified, and the “prediction rate” uses a prediction model created based on the classification result. This is an index indicating how many samples are correctly classified when the classification classification of a sample with an unknown belonging class is performed. Basically, the “classification rate” does not fall below the “prediction rate”. Therefore, increasing the “classification rate” automatically increases the upper limit of the “prediction rate”. From this fact, if the classification rate can be increased, the prediction rate also increases.
  • misclassification means that a sample originally belonging to class 1 is erroneously classified as a sample belonging to class 2. This is largely due to an increase in the total number of samples and an increase in the absolute number of samples that become noise in classification.
  • powerful data analysis techniques such as multivariate analysis / pattern recognition are susceptible to noise, and increasing the number of samples almost always makes data analysis difficult.
  • Compound toxicity assessment is becoming increasingly important from the viewpoint of the environment as a field requiring high classification / prediction rate.
  • compound groups are often classified into toxic compound sets (Class 1) and non-toxic compound sets (Class 2), but the characteristics of this field are complicated and diverse factors. Therefore, misclassification is likely to occur, and it is very difficult to increase the classification rate with a simple application of a data analysis method that currently exists.
  • the classification rate is desirably 100%.
  • Non-Patent Document 1 The present inventor has already developed and reported a new data analysis method capable of setting the classification rate to almost 100% as a result of earnest research (see Non-Patent Document 1). This method theoretically achieved a classification rate of 100% by applying step-by-step data analysis to the sample population for classification. As a result, the prediction rate was greatly increased in various cases. Improvement has been seen.
  • the “prediction rate” is the number of class prediction target compounds for which classification prediction is performed when applying the created prediction model to a class unknown sample and performing classification prediction. This is an index indicating whether the class prediction target compound is correctly classified. For example, when 100 class prediction target compounds are predicted using a certain prediction model, if the classification prediction is accurate with 90 samples, the prediction rate is 90%, and the prediction model used is 90%. It can be evaluated as a powerful tool having a prediction rate of
  • a “prediction rate” of 90% means that when 100 prediction target compounds are predicted, the prediction results for 10 prediction target compounds are incorrect. Then, it is impossible to specify or estimate which sample has a correct prediction result and which is wrong. This brings about a very big problem in the case of predicting the toxicity of the above-mentioned compounds. That is, in a field where misclassification results cause serious problems, such as compound toxicity prediction, even if prediction is performed using a prediction model that achieves a prediction rate of 90%, there is a possibility of misclassification in the prediction results. As a result, it is necessary to conduct animal experiments on all the prediction target compounds to confirm the presence or absence of toxicity.
  • the present inventor has faced such a problem in actually performing compound toxicity prediction, and has recognized how important the reliability of the prediction result of each sample is.
  • the prediction target is selected from the sample population used to create the prediction model.
  • a sample having a structure similar to the compound was taken out, and the reliability of the prediction result of the prediction target compound was evaluated by comparing the actual measurement value of the sample with the prediction value of the prediction target compound. That is, a plurality of samples similar in structure to the prediction target compound to be predicted are extracted from the sample population, and the measured values of those samples are compared with the prediction results of the prediction target compound. If the two do not match, it is determined that the reliability of the prediction is low.
  • Prediction accuracy Prediction value variance + Prediction value bias squared, an index that evaluates the prediction trend of the prediction model, which is completely different from the "prediction reliability" of the individual compounds mentioned here It is a thing.
  • the present invention was made for the purpose of solving the above-mentioned problems in the classification prediction of compounds using a prediction model, and quantitatively and systematically evaluates the reliability of the prediction results of individual prediction target compounds. It is an object to provide a system, a method, and a program that can be used.
  • a system for solving the above problems is a virtual compound generation device that virtually generates a plurality of compounds structurally similar to a prediction target compound, and a prediction model is applied to the prediction target compound and the generated virtual compound.
  • a prediction value calculation device that calculates a prediction value of a variable; and a prediction reliability calculation that calculates a prediction reliability of the prediction target compound based on a degree of coincidence between the prediction value of the prediction target compound and the prediction value of the virtual compound An apparatus.
  • a method for solving the above problem is to prepare a prediction target compound, virtually generate a plurality of compounds structurally similar to the prediction target compound, and to perform the same prediction on the prediction target compound and the virtually generated compound
  • Each step includes obtaining a predicted value result of each compound by applying a model, and calculating a degree of coincidence of the obtained predicted results of each compound for the prediction reliability evaluation of the prediction target compound.
  • a program that solves the above problem prepares a prediction target compound, virtually generates a plurality of compounds that are structurally similar to the prediction target compound, and performs the same prediction on the prediction target compound and the virtually generated compound
  • a model is applied to obtain a predicted value result of each compound, and a computer is caused to execute each procedure of calculating the degree of coincidence of the obtained predicted results of each compound for the prediction reliability evaluation of the prediction target compound.
  • a plurality of compounds that are structurally similar to the prediction target compound can be virtually generated by adding, for example, a methyl group to the basic skeleton of the prediction target compound.
  • the same prediction model is applied to the virtual compound thus generated and the prediction target compound, and the predicted value of each compound is calculated.
  • there is a basic principle that “similar compounds have similar activities (eg, toxicity, physical properties)” and the same prediction model is applied by applying the same prediction model to virtual compounds that are structurally similar to the target compound.
  • virtual generating a compound means that a compound is not generated by synthesis or the like, but generated at the structural formula level.
  • the virtual compound may be a compound that actually exists or a compound that does not exist.
  • FIG. 1 is a block diagram showing a schematic configuration of a compound predictive evaluation system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of a prediction reliability calculation method.
  • FIG. 3 is a diagram illustrating another example of a prediction reliability calculation method.
  • FIG. 4 is a flowchart showing a procedure for carrying out the predicted reliability evaluation method for a compound according to one embodiment.
  • FIG. 5 is a diagram illustrating a virtual compound group generated according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a virtual compound group generated according to an embodiment of the present invention.
  • FIG. 7 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a schematic configuration of a compound predictive evaluation system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of a prediction reliability calculation method.
  • FIG. 3 is a diagram illustrating another example of a prediction reliability calculation method.
  • FIG. 8 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 9 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 10 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 11 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 12 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 13 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 14 illustrates a method for generating a virtual compound according to an embodiment of the present invention.
  • FIG. 15 is a diagram showing a MOL file of a compound.
  • FIG. 16 is a diagram showing an MOL file of a structurally similar compound created from a compound having the structure shown in FIG.
  • FIG. 17 is a diagram illustrating a prediction result for a prediction target compound and a virtual compound, which is performed in the system according to the embodiment of the present invention.
  • FIG. 18 is a diagram illustrating the structures of the prediction target compound and some virtual compounds illustrated in FIG.
  • FIG. 19 is a diagram showing the structure of a virtual compound other than that shown in FIG. 18 among the virtual compounds shown in FIG.
  • FIG. 1 is a block diagram illustrating a schematic structure of a compound predictive reliability evaluation system 100 according to an embodiment.
  • the prediction reliability evaluation system 100 includes an input device 110 for inputting data related to a structural formula of a prediction target compound and a prediction model created in advance, an output device that outputs prediction results, prediction reliability, and necessary data during processing. 120, a control device 130 for controlling the entire system, and a storage device 140 for temporarily storing input data, mid-calculation data, output data, and the like.
  • the system 100 further includes a structure-similar compound generation device 150, a parameter generation device 160 for calculating a value of an objective variable of the prediction target compound based on the prediction model, that is, a classification prediction value, and a structure of the prediction target compound and the virtual compound.
  • a similarity calculation device 170, a predicted value calculation device 180, and a reliability calculation device 190 are provided.
  • the input device 110 converts this into a MOL file format and stores it in the storage device 140 as a MOL file of the prediction target compound.
  • a prediction model created in advance is also input from the input device 110 and stored in the storage device 140.
  • the structure-similar compound generation device 150 is a device for generating a compound similar in structure to the prediction target compound with reference to the MOL file of the prediction target compound stored in the storage device 140, and a virtual compound generation / stop condition Input / setting unit and various programs related to the virtual compound generation pattern.
  • the input / setting unit sets the maximum number of virtual compounds to be generated and the similarity threshold. This setting may be made by the user, or a default value may be set as a system.
  • the virtual compound generation pattern-related program is a program for designating structure conversion patterns, number of conversion sites, combinations of conversion patterns, and the like. 1) Addition / reduction program for methyl group (ME), 2) Atom / bond Conversion programs, 3) functional group addition, reduction programs, functional group change programs, ring opening, ring closing programs, crosslinking, cleavage programs, steric change (physical property design field, etc.) programs, etc.
  • the structurally similar compound generation device 150 may include a program that automatically generates a necessary number of virtual compounds based on the MOL file of the prediction target compound, or input of virtual compounds specified by the user.
  • the unit 151 may be included.
  • the user generates or inputs a virtual compound by adding or reducing a desired partial structural formula to the two-dimensional structural formula of the prediction target compound displayed on the display.
  • the generated structurally similar compound (virtual compound) is stored in the storage device 140 in the form of an MOL file.
  • the parameter generation device 160 is a device that generates parameters for applying the prediction model to the prediction target compound and the generated virtual compound.
  • the prediction model those prepared in advance by various known methods based on a sample population whose value of the objective variable is known can be used. In the present system, any prediction model may be used for calculating the prediction reliability, and therefore, a method for creating the prediction model will not be described in detail here.
  • the inventor has already proposed a method for creating a two-class classification prediction model that can achieve a classification rate close to 100% (PCT / 2007/056412 or PCT / 2007/074334), and this method is used. It is possible to use a predicted model.
  • the similarity calculation device 170 calculates the similarity between the prediction target compound and the generated virtual compound using various known structural similarity evaluation functions. Note that the similarity calculation device 170 may calculate a similarity using a user-defined similarity evaluation function.
  • the prediction value calculation device 180 calculates the value of the objective variable for the prediction target compound and each virtual compound by inputting the parameters for the prediction target compound and the virtual compound generated by the parameter generation device 160 into the prediction model ( Run forecasts).
  • the prediction model is expressed as the following equation (1).
  • Y a1 ⁇ x1 ⁇ a2 ⁇ x2 ⁇ ... ⁇ an ⁇ xn ⁇ C (1)
  • Y is an objective variable
  • x1, x2,..., Xn are explanatory variables (parameters), a1, a2,.
  • the explanatory variables (parameters) x1, x2,..., Xn are different values for each compound and are calculated by the parameter generator 160. Therefore, the value Y (S) of the objective variable of the prediction target compound is obtained by substituting the parameter value obtained for the prediction target compound into Equation (1).
  • the objective variables Y (V1), Y (V2) by substituting the parameter values obtained for each virtual compound into equation (1), the objective variables Y (V1), Y (V2),.
  • the reliability calculation device 190 applies the reliability calculation method defined in advance to the prediction results of the prediction target compound and the virtual compound, and calculates the prediction reliability for the prediction target compound.
  • the prediction reliability of the prediction target compound is calculated based on a simple prediction result of a predetermined number of virtual compounds, or the prediction result is weighted based on the structural similarity of the virtual compound to predict the reliability. There is a method to calculate the degree.
  • FIG. 2 is a diagram for explaining an example of a calculation method of prediction reliability of the prediction target compound (S).
  • the classification problem is a two-class classification problem and 10 virtual compounds (V1, V2,... V10) are generated for one prediction target compound.
  • class 1 for example, carcinogenicity
  • class 2 for example, no carcinogenicity
  • the prediction model is applied to the prediction target compound (S) and the virtual compound groups (V1, V2,... V10) in the prediction value calculation apparatus 180 of FIG. Get.
  • the first calculation method for evaluating the prediction reliability is to simply compare the prediction result of each compound in the virtual compound group with the result of the prediction target compound and derive the probability that the results match.
  • the target variable of the prediction target compound (S) is +, and the target of seven virtual compounds (V1, V2, V3, V4, V6, V7, V9) out of 10 virtual compounds.
  • the value of the variable became +, and the value of the target variable of the three virtual compounds (V5, V8, V10) became-. Therefore, the seven virtual compounds (V1, V2, V3, V4, V6, V7, V9) whose objective variable value is + coincide with the value of the objective variable of the prediction target compound (S). .
  • the prediction reliability is defined as (number of virtual compounds having an objective variable that matches the value of the objective variable of the prediction target compound) / (total number of virtual compounds), the prediction reliability is 70%.
  • the prediction reliability is calculated by weighting the structural similarity of each virtual compound (V1, V2,... V10) to the prediction target compound (S).
  • the prediction reliability is defined as (total number of similarities of virtual compounds having an objective variable that matches the value of the objective variable of the prediction target compound) ⁇ (total number of similarities of virtual compounds)
  • the prediction target compound The predicted reliability is 73%.
  • the output form can be various forms such as display on a display, printout, or saving in an external storage device as an output file.
  • FIG. 4 is a flowchart showing a procedure for evaluating the predicted reliability of a compound using the system shown in FIG.
  • a prediction target compound that is a prediction target compound is input.
  • the input form is a two-dimensional structural formula or a three-dimensional structural formula of the compound, or may be a compound name or CAS number.
  • a pattern for generating a virtual compound slightly different in structural formula from the prediction target compound is selected. The virtual compound generation pattern will be described later.
  • the number n (for example, 10) of compounds to be virtually generated and the structure similarity threshold ⁇ are set.
  • the threshold value ⁇ is a standard for calculating the similarity of the structure with the prediction target compound for the virtually generated compound, and not using the generated compound as a structurally similar compound when the similarity is ⁇ or less. Become. Note that “high similarity” means that the structures are similar, and “low similarity” means that the structures are not very similar.
  • step S3 k is set to 1, and the first virtual compound is generated in step S4.
  • the virtual compound means a compound having a structural formula generated by minutely changing the structural formula of the prediction target compound, regardless of whether or not the compound actually exists. A method for creating the structural formula of the virtual compound will be described later.
  • step S5 a parameter (structure descriptor) for calculating the structural similarity is generated for the prediction target compound and the created virtual compound.
  • step S6 the similarity ⁇ between the prediction target compound and the virtual compound is calculated. In calculating the structural similarity, various functions for evaluating the similarity between currently known compounds can be used.
  • step S7 it is determined whether or not the calculated similarity ⁇ is smaller than the similarity threshold ⁇ set in step S2. If the similarity ⁇ is smaller than or equal to the threshold ⁇ (NO in step S7), it is determined in step S8 that the current virtual compound is not selected as the evaluation compound, and the process returns to step S4 to select another virtual compound again. Generate. If YES in step S7, that is, if the degree of similarity ⁇ is greater than the threshold ⁇ , the current virtual compound is selected as the evaluation compound and stored in the storage device (step S9). In step S10, it is determined whether or not k has reached the number n of virtual compound generations. If not (NO in step S10), k is advanced by 1 in step S11, and step S4 and subsequent steps are executed again.
  • step S4 to step S11 are repeated and n compounds are generated as virtual compounds (YES in step S10)
  • the prediction target compound and the n virtual compounds generated in step S12 are changed.
  • parameters for classification prediction are generated.
  • the type of parameter for classification prediction is specified by the prediction model.
  • the prediction model is applied to the parameter generated in step S12, and the values of the objective variables of the prediction target compound and the virtual compound group are calculated and set as the predicted values.
  • a prediction model is generated by applying various data analysis methods to a plurality of samples whose characteristics or physical property values (objective variables) to be predicted are known. Therefore, any prediction model created using any known method may be used in step S13.
  • the prediction reliability of the prediction target compound is calculated from the prediction result in step S13.
  • step S14 when the prediction reliability based on the prediction result of the prediction target compound and the prediction result of the virtual compound group is calculated in step S14, the prediction result of the prediction target compound and its prediction reliability are calculated in step S15.
  • the property is displayed on a graphic display, and the series of processing ends.
  • the output in step S15 may be such a display on a graphic display, or may be stored in a storage device as a file.
  • a similar compound means a compound with little structural change between two samples (compounds) to be compared. From the characteristics of a compound, the fact that there is little structural change means that the basic number of atoms constituting the compound is similar. Therefore, it can be said that the number of atoms is similar when the structural change of the compound is small (that is, it is a similar compound). Therefore, a similar compound can be generated by removing or adding a minimum number of atoms from the compound based on the sample to be predicted.
  • FIG. 5 and 6 show how the structure of the compound is changed based on the above A and B.
  • FIG. 5 is an example in which the structural change is relatively small.
  • reference numeral 1 denotes a basic compound that causes a structural change, that is, a structural formula of a prediction target compound.
  • 6 is a case where the structural change is relatively large, even though the structural change is large, it is a case compared with the case of FIG.
  • the apparatus employs the following compound generation pattern in generating the virtual compound in the structure-similar compound generation apparatus 150 in FIG. 1 or step S4 in FIG. Can do.
  • the similar compound generation patterns shown in [C] to [I] below may be any one pattern selected in the similar compound generation apparatus 150 in FIG. 1 or step S2 in FIG. Similar compounds may be generated by selecting an appropriate combination of a plurality of patterns.
  • one methyl group is added to the structural formula 1 of the target compound to obtain the structural formula 7.
  • a plurality of virtual compounds are generated by this change.
  • the feature of adding a methyl group is basically an addition of only one atom (excluding hydrogen), and that the addition of a methyl group has little change on various properties of the compound. Therefore, it is a convenient pattern when trying to generate a virtual compound by reducing the structural change of the prediction target compound.
  • [G] Replace one atom in the prediction target compound with another atom.
  • the virtual compound 21 is generated by replacing the oxygen atom in the prediction target compound 1 with a sulfur atom.
  • the virtual atom 22 is generated by replacing the fluorine atom in the prediction target compound 1 with a chlorine atom.
  • the bond order of atoms is not changed. Therefore, although a relatively large change of changing the kind of atom is given, the change given to the structure is not so large.
  • changing the heteroatom changes the electron-related environment relatively greatly. Therefore, structural changes caused by atom conversion are small, but changes in the electronic environment are relatively large.
  • the virtual compound 23 is generated by changing the ketone group in the prediction target compound 1 to a methylene group.
  • the virtual compound 24 is generated by changing the ketone group in the prediction target compound 1 to a hydroxyl group.
  • the amount of structural change due to substitution at the functional group level is relatively large. Furthermore, electronic changes that cannot be seen from the structure and the resulting changes in compound properties are also large. However, when the size of the compound increases, even if such a change occurs inside, the influence on the structural change of the entire compound is not large. Therefore, when the target compound is a compound having a large compound size, such substitution at the functional group level is also effective for generating a virtual compound.
  • [I] Reduce one atom in the target compound.
  • the virtual compound 25 is generated by reducing one fluorine atom in the prediction target compound 1.
  • the virtual compound 26 is generated by reducing one methyl group in the prediction target compound 1. Reduction of atoms or functional groups from the original structural formula has a large effect on the structure of the compound. Therefore, as in the case of 6), it is an effective technique when the compound size of the predicted target compound is large.
  • a user performs an operation of adding a partial structural formula to the basic structural formula through an interaction with a graphic display that displays the basic structural formula.
  • a program that automatically generates a virtual compound according to the virtual compound generation pattern from [C] to [I].
  • the virtual compound is automatically generated in the system according to the generation criteria of the virtual compound.
  • the system of FIG. It is also possible to generate a compound and enter it into the system as a virtual compound.
  • FIG. 15 shows a MOL file 30 describing the two-dimensional structural formula 1 of the prediction target compound 1 and its structure.
  • the structural formula of the prediction target compound 1 is input using ChemDraw of the CambridgeSoft company, the structural formula is saved as a MOL file that is a file of character and numerical information. With this MOL file, the structural formula of the compound can be reproduced at any time.
  • FIG. 15 shows a two-dimensional structural formula of a virtual compound 2 (see FIG. 5) in which one methyl group (ME) is added to the prediction target compound 1 and one F atom is changed to a Cl atom, and its MOL file 31. Show.
  • the structural formulas of these compounds can be obtained. It can be reproduced at any time.
  • x jk represents the value of the k th descriptor for compound i and compound j, respectively.
  • FIG. 17 shows that acetaminophen of ID No. 1 is used as a prediction target sample, and 20 virtual compounds (ID numbers 8 to 27) similar in structure to this sample are generated, and carcinogenesis occurs for the prediction target compound and each virtual compound.
  • the results of predicting the results of the test and two mutagenicity tests are shown.
  • the structures of virtual compounds 8 to 27 are shown in FIGS.
  • a structurally similar sample was generated by adding a methyl group (ME) to acetaminophen (ID number 1), which is a prediction target sample.
  • ME methyl group
  • the virtual compound indicated by ID number 8 in FIG. 17 is configured by adding one ME to the benzene ring of acetaminophen, as indicated by 8 in FIG.
  • the virtual compound with ID number 9 has one ME added at a position different from the virtual compound with ID number 8.
  • the virtual compound with ID number 13 has two MEs added to the benzene ring of acetaminophen.
  • the virtual compound with ID number 16 has ME added to the oxygen atom of acetaminophen.
  • 20 virtual compounds shown in FIGS. 18 and 19 were generated by adding one or more MEs at various positions in the basic structure of acetaminophen.
  • the inventor adopted a user-defined similarity that calculates a similarity score based on the number of added MEs when calculating the similarity between the prediction target sample and the virtual compound.
  • the addition of one ME methyl group
  • the similarity score of the prediction target sample is 0.
  • the virtual compound with ID number 8 in FIG. 17 has a structure in which one ME is added to the benzene ring, the similarity score is 1.
  • the similarity score is 1.25. Since the virtual compound with ID number 11 has two MEs attached to the benzene ring, the similarity score is 2. In this case, a virtual compound having a small similarity score has a large similarity to the prediction target sample.
  • the 20 virtual compounds shown in FIG. 17 are generated with a similarity score threshold of 5.
  • FIG. 17 shows the prediction using the existing prediction model for the target sample of ID No. 1 and the virtual compounds of ID Nos. 8 to 27 with the objective variables as carcinogenic and mutagenic. The results are shown.
  • AMES-TA100 shows a mutagenicity test using the bacterium TA100
  • AMES-TA98 shows a mutagenicity test using the bacterium TA98.
  • the prediction reliability is 70%. In this case, even if the predicted reliability is calculated from the top 10 virtual compounds with the highest similarity, a result of 70% is obtained.
  • the reliability of prediction results is quantitatively evaluated by adding the prediction results of multiple virtual compounds that are structurally similar to the prediction target sample to the prediction result of the prediction target sample using the prediction model. It becomes possible to do. Therefore, a comment urging to obtain an actual measurement value by performing a carcinogenicity test or the like may be added to a prediction result with low reliability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

 予測モデルを用いて予測対象化合物の目的変数を予測した場合に、その予測の信頼性をシステマティックにかつ定量的に算出することが可能なシステムを提供する。  本システムは、予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置(150)と、前記予測対象化合物と前記生成された各仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置(180)と、前記予測対象化合物の予測値と前記各仮想化合物の予測値との一致の度合いに基づいて、前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置(190)とを備える。

Description

[規則37.2に基づきISAが決定した発明の名称] 化合物の予測信頼性評価システム
 本発明は、分類予測モデルを使用して化合物のクラス予測を行う場合に、予測結果の信頼性を評価するためのシステム、方法およびプログラムに関する。
 クラス分類問題とは、複数のクラスのうちどのクラスに帰属するかが既知であるサンプルの集団から、そのクラスを分類するための規則を学習し、学習した規則を分類予測モデルのかたちとして使用し、どのクラスに帰属するかが未知のサンプルについてそれが帰属するクラスを予測することである。特に、サンプルセットを2つのクラスに分類する二クラス分類は分類問題中でも最も基本的なものであり、長年にわたって構造-活性相関や構造-物性相関研究に活用され、最近では、化合物毒性等の有無を評価する有用な手法として注目されている。規則を学習するための手法、即ち分類手法には、線形学習機械、判別分析、Bayes線形判別分析、SVM(サポートベクターマシン)、AdaBoost等の線形判別分析法、および、Bayes非線形判別分析、SVM(サポートベクターマシン+カーネル)、ニューラルネットワーク、KNN法(最近隣法)、決定木等の非線形判別分析法がある。
 一般的にクラス分類問題では、必ず誤分類が発生し、分類率を100%にすることが難しい。ここで「分類率」とは、帰属クラスが既知のサンプルをどの程度正しくクラス分けを行ったのかを示す指標であり、「予測率」とは、分類結果に基づいて作成された予測モデルを使用して帰属クラスが不明のサンプルのクラス分類予測を行った場合、どの程度の数のサンプルが正しくクラス分類されたかを示す指標である。基本的に「分類率」は「予測率」を下回ることはない。従って、「分類率」を上げれば、「予測率」の上限も自動的に上がってくる。この事実から、分類率を高い値にすることが出来れば、予測率も高くなる。また、データ解析の一般的な特徴として、予測モデル作成時に用いるサンプルの数が増えるに従って誤分類されるサンプルも多くなり、結果として全体の分類率が低下することも良く知られている。ここで、誤分類とは、本来はクラス1に帰属するサンプルを誤ってクラス2に帰属するサンプルとして分類することである。これは全体のサンプル数が増えることで、分類上でノイズとなるサンプルの絶対数も増えることが大きな原因である。統計と異なり、多変量解析/パターン認識のような強力なデータ解析手法ではノイズの影響を受けやすく、サンプル数増大は殆どの場合データ解析そのものを困難にする結果となる。
 高い分類/予測率が要求される分野として化合物毒性評価が、環境という観点で重用となりつつある。この分野では化合物群を毒性を有する化合物セット(クラス1)と毒性を持たない化合物セット(クラス2)にクラス分類することが多いが、この分野の特徴として毒性発現の要因が複雑で多岐にわたることから、誤分類が発生しやすく、現在存在するデータ解析手法の単純な適用では、分類率を上げることが非常に困難である。
 また、分類率の値が高くとも使用するサンプル数が多い場合は誤分類サンプルの絶対数が大きくなるので、この点で注意が必要である。例えば、毒性化合物と非毒性化合物を分類する場合、学習に使用するサンプル数が多い場合、例えば1万個の化合物セットを用いて分類を行う時は、たとえ90%の分類率が得られていても、1千個の化合物について誤分類されており、この数は無視できない。更に、毒性分類の場合の特徴として、毒性を持たない化合物を毒性を持つと誤分類(フォールスポジティブ)しても大きな影響はないが、毒性化合物を非毒性化合物と誤分類(フォールスネガティブ)することは毒性という特性上非常に危険であり、絶対に避けねばならない問題である。この点でも、分類率は100%であることが望まれる。
 本発明者は、鋭意研究の結果、分類率をほぼ100%にすることが可能な新しいデータ解析手法を開発し既に報告している(非特許文献1参照)。この手法は、分類を行うためのサンプル母集団に段階的なデータ解析を適用することによって、理論的に100%の分類率を達成したものであり、その結果、種々の事例において予測率の大幅な向上が見られている。
 上述したように、「予測率」とは、作成された予測モデルをクラス未知のサンプルに適用して分類予測を行う場合、分類予測を行うクラス予測対象化合物の総数に対して、どの程度の数のクラス予測対象化合物が正確に分類されたかを示す指標である。例えば、ある予測モデルを使用して100個のクラス予測対象化合物の予測を行った場合、90個のサンプルで分類予測が正確であればその予測率は90%となり、使用した予測モデルは90%の予測率を有する強力なツールであると評価することができる。
 ところが「予測率」が90%であるということは、100個の予測対象化合物を予測した場合、10個の予測対象化合物についての予測結果は間違っていることを意味している。そして、どのサンプルの予測結果が正しく、どれが間違っているかを特定すること、あるいは推定することが出来ない。このことは、上述した化合物の毒性予測の場合などで非常に大きな問題をもたらす。即ち、化合物の毒性予測のように、誤分類結果が深刻な問題を引き起こす分野では、90%の予測率を達成する予測モデルを使用して予測を行っても、予測結果において誤分類の可能性の高い10%の予測対象化合物を特定する手段を持たないので、結果的に全ての予測対象化合物について動物実験等を行ってその毒性の有無を確認しなければならない。
 本発明者は、実際に化合物毒性予測を行う上でこのような問題に直面し、個々のサンプルの予測結果の信頼性が如何に重要であるかを認識した。そして、「類似化合物(サンプル)は類似活性(例えば、毒性、物性)を持つ」という化学分野では最も良く知られた基本原理に基づいて、予測モデル作成に用いたサンプル母集団の中から予測対象化合物に類似の構造を有するサンプルを取り出し、そのサンプルの実測値を予測対象化合物の予測値と比較することで、予測対象化合物の予測結果の信頼性評価を行うことを考えた。即ち、サンプル母集団から、予測対象の予測対象化合物と構造類似のサンプルを複数個取り出し、それらのサンプルの実測値と予測対象化合物の予測結果とを比較し、両者が一致した場合は予測の信頼性が高い、と判断し、両者が一致しない場合は予測の信頼性が低いと判断する。
 このような定性的アプローチによって、個々のサンプルの予測信頼性の評価は一応、可能である。ところが、実際の予測作業においては、サンプル母集団中に予測対象の予測対象化合物と類似の構造を有するサンプルが存在しないかあるいは存在しても1個あるいは2個しかない場合が殆どである。存在しない場合は予測信頼性の評価は困難であり、また、数個存在しそれぞれのサンプルの実測値が一致しない場合にはその結果をどのように扱うかと言う問題が生じる。従って、このような定性的アプローチによる信頼性評価方法は多くの問題を抱え、実用化が困難である。
 個々のサンプルの予測信頼性を評価する別の手法として、サンプル母集団に複数のデータ解析手法を適用して複数の予測モデルを得た後、これらの予測モデルを1個の予測対象化合物に適用して複数の予測結果を得る方法がある。得られた予測結果が一致していればその予測対象化合物についての予測の信頼性は高く、一致していなければ予測の信頼性は低いと判断する。しかしながら、この方法では、予測結果が不一致の場合の客観的評価が難しく、1つでも一致しない結果が出ると予測信頼性が無いと判断され、予測の作業性を大幅に低下させる。
 なお、フィッティング手法を用いたデータ解析において、「予測精度」という指標が存在するが、これは、現在の議論の対象である「予測信頼性」とは内容が異なる。フィッティングにおける予測精度は、
     予測精度=予測値の分散+予測値のバイアスの二乗
として示される値であって、予測モデルの予測傾向を評価する指標であり、ここで言う個々の化合物の「予測信頼性」とは全く異なったものである。
「K-step・Yard・Sampling・Methodの開発とADME-T予測への適用」34回構造活性相関シンポジウム、2006年11月
 本発明は、予測モデルを使用した化合物の分類予測における上記のような問題点を解決する目的でなされたもので、個々の予測対象化合物の予測結果の信頼性を定量的に、かつシステマティックに評価することが可能なシステム、方法およびプログラムを提供することを課題とする。
 上記課題を解決するシステムは、予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置と、前記予測対象化合物と前記生成された仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置と、前記予測対象化合物の予測値と前記仮想化合物の予測値との一致の度合いに基づいて前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置と、を備える。
 上記課題を解決する方法は、予測対象化合物を準備し、前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各ステップを備える。
 上記課題を解決するプログラムは、予測対象化合物を準備し、前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各手順をコンピュータに実行させる。
 予測対象化合物の基本骨格に例えばメチル基等を付加することにより、予測対象化合物に構造類似した複数の化合物を仮想的に生成することが出来る。このようにして生成された仮想化合物と予測対象化合物とに同一の予測モデルを適用して、それぞれの化合物の予測値を算出する。化合物の分野では「類似化合物は類似活性(例えば、毒性、物性)を持つ」という基本的な原理が存在し、予測対象化合物と構造類似した仮想化合物に同じ予測モデルを適用することにより、同じ予測結果が期待される。従って、算出した各化合物の予測値の一致度合いを求めることにより、予測対象化合物に対する予測の信頼性をシステマティックにかつ定量的に決定することが出来る。
 なお、「仮想的に化合物を生成する」とは、化合物を合成等によって生成するのではなく、構造式レベルで生成することを意味する。この仮想化合物とは、実際に存在する化合物であっても良く、あるいは存在しない化合物であっても良い。
 従来の化合物の予測方法では、例え予測率が95%の予測モデルを用いて目的変数の予測を行っても、特定の化合物の予測結果を評価する術がないため、5%の確率で発生する誤分類化合物を特定するために、各化合物の目的変数の実測値を求める必要が有った。これに対して開示のシステム、方法、プログラムによれば、予測対象化合物の予測の信頼性をシステマティックにかつ定量的に示すことが出来るので、予測信頼性の低い化合物に対してのみ、目的変数の実測値を求めれば良くなる。その結果、分類予測モデルの実用性が大きく向上する。特に、誤った予測結果が重大な問題を引き起こす化合物の毒性予測の分野では、その効果が大きい。
図1は、本発明の一実施形態にかかる化合物の予測評価システムの概略構成を示すブロック図である。 図2は、予測信頼度の計算方法の一例を示す図である。 図3は、予測信頼度の計算方法の他の例を示す図である。 図4は、一実施形態にかかる化合物の予測信頼性評価方法を実施する手順を示すフローチャートである。 図5は、本発明の一実施形態に従って生成された仮想化合物グループを示す図である。 図6は、本発明の一実施形態に従って生成された仮想化合物グループを示す図である。 図7は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図8は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図9は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図10は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図11は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図12は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図13は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図14は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図15は、化合物のMOLファイルを示す図である。 図16は、図15に示す構造を有する化合物から作成された構造類似化合物のMOLファイルを示す図である。 図17は、本発明の一実施形態にかかるシステムにおいて実施された予測対象化合物と仮想化合物に対する予測結果を示す図である。 図18は、図17に示す予測対象化合物と一部の仮想化合物の構造を示す図である。 図19は、図17に示す仮想化合物のうち、図18に示された以外の仮想化合物の構造を示す図である。
符号の説明
 100  予測信頼性評価システム
 110  入力装置
 120  出力装置
 130  制御装置
 140  記憶装置
 150  構造類似化合物の生成装置
 160  パラメータ発生装置
 170  類似度計算装置
 180  予測値算出装置
 190  信頼度算出装置
 以下に、図面を参照して種々の実施形態について説明する。なお、以下の図面において同一の符号は同じかあるいは類似の要素を示すので、重複した説明は行わない。
 [化合物の予測信頼性評価システム]
 図1は、一実施形態にかかる化合物の予測信頼性評価システム100の概略構造を示すブロック図である。予測信頼性評価システム100は、予測対象化合物の構造式および予め作成された予測モデルに関するデータを入力するための入力装置110、予測結果、予測信頼度および処理途中の必要なデータを出力する出力装置120、システム全体の制御を行う制御装置130、入力データ、演算途中のデータ、出力データ等を一時保存するための記憶装置140を備えている。
 システム100は更に、構造類似化合物の生成装置150、予測モデルに基づいて予測対象化合物の目的変数の値、即ち分類予測値を算出するためのパラメータ発生装置160、予測対象化合物と仮想化合物との構造の類似度を計算するための類似度計算装置170、予測値算出装置180および信頼度計算装置190を備えている。
 入力装置110は、予測対象化合物の化合物名、2次元構造式、CAS番号等が入力されるとこれをMOLファイルの形式に変換し、予測対象化合物のMOLファイルとして記憶装置140に保存する。入力装置110からは予め作成された予測モデルも入力され、記憶装置140に保存される。構造類似化合物の生成装置150は、記憶装置140に保存された予測対象化合物のMOLファイルを参照して、予測対象化合物と構造類似の化合物を生成するための装置であり、仮想化合物生成/停止条件の入力・設定部と、仮想化合物生成パターン関連の種々のプログラムを備えている。
 入力・設定部は、生成する仮想化合物の最大数、および類似度の閾値を設定する。この設定はユーザによってなされていても良いし、あるいはシステムとしてデフォルト値が設定されていても良い。仮想化合物生成パターン関連プログラムとしては、構造変換パターンの指定、変換箇所数、変換パターンの組合せ等を指定するプログラムであり、1)メチル基(ME)の付加、削減プログラム、2)原子/結合の変換プログラム、3)官能基の付加、削減プログラム、官能基の変化プログラム、開環、閉環プログラム、架橋、開裂プログラム、立体の変化(物性デザイン分野等)プログラム等を含む。
 なお、構造類似化合物の生成装置150は、予測対象化合物のMOLファイルに基づいて、自動的に必要な個数の仮想化合物を生成するプログラムを備えていても良いし、あるいはユーザ指定による仮想化合物の入力ユニット151を有していても良い。この場合は、ディスプレイ上に表示された予測対象化合物の2次元構造式に、ユーザが所望の部分構造式を付加し、あるいは削減することにより仮想化合物を生成し、システムに入力する。なお、生成された構造類似化合物(仮想化合物)はMOLファイルの形で記憶装置140に保存される。
 パラメータ発生装置160は、予測対象化合物と生成された仮想化合物について、予測モデルを適用するためのパラメータを発生する装置である。予測モデルは、目的変数の値が既知のサンプル母集団に基づいて、既知の種々の手法により予め作成されたものを使用することができる。本システムでは予測信頼度の計算に当たって、どのような予測モデルを用いても良いので、ここでは予測モデルの作成方法については詳述しない。
 なお、発明者は、100%に近い分類率を達成することが出来る二クラス分類予測モデルの作成方法を既に提案しており(PCT/2007/056412あるいはPCT/2007/074334)、この方法によって作成された予測モデルを使用することが可能である。
 類似度計算装置170は、公知の種々の構造類似度評価関数を用いて、予測対象化合物と生成された仮想化合物間の類似度を演算する。なお、類似度計算装置170は、ユーザ定義による類似度評価関数を使用して、類似度の計算を行うものであっても良い。
 予測値算出装置180は、パラメータ発生装置160で発生された予測対象化合物と仮想化合物についてのパラメータを予測モデルに入力することにより、予測対象化合物と各仮想化合物について、目的変数の値を計算する(予測を実行する)。予測の目的が判別分析の場合、予測モデルは以下の式(1)として示される。
    Y=a1・x1±a2・x2±・・・±an・xn±C   (1)
 式(1)において、Yは目的変数、x1、x2、・・・、xnは説明変数(パラメータ)、a1、a2、・・・anは重み係数、Cは定数を示す。説明変数(パラメータ)x1、x2、・・・、xnは各化合物によって異なる値であり、パラメータ発生装置160において計算される。従って、式(1)に対して、予測対象化合物に対して求めたパラメータ値を代入することにより、予測対象化合物の目的変数の値Y(S)が求められる。一方、各仮想化合物に対して求めたパラメータ値を式(1)に代入することにより、各仮想化合物の目的変数Y(V1)、Y(V2)、・・・が求められる。
 信頼度算出装置190は、予測対象化合物と仮想化合物の予測結果に対して予め定義されている信頼度計算方法を適用して、予測対象化合物に対する予測の信頼度を計算する。この場合、予測対象化合物の予測の信頼度を、所定個数の仮想化合物の単純な予測結果に基づいて計算する方法、あるいは、予測結果に仮想化合物の構造類似度に基づく重み付けを行って予測の信頼度を計算する方法などがある。
 図2は、予測対象化合物(S)の予測信頼性の計算方法の一例を説明するための図である。今、分類問題が2クラス分類問題であり、予測対象化合物1個に対して10個の仮想化合物(V1、V2・・・V10)を生成した場合を考える。図2では、クラス1(例えば、発癌性有り)を+、クラス2(例えば発癌性無し)を-で示している。図1の予測値算出装置180において予測対象化合物(S)、仮想化合物グループ(V1、V2・・・V10)に対して予測モデルを適用し、それぞれの予測結果(目的変数の値)+または-を得る。予測信頼性を評価する第1の計算方法は、仮想化合物グループ中の個々の化合物の予測結果を単純に予測対象化合物の結果と比較し、結果が一致する確率を導出するものである。
 即ち、図2の例では予測対象化合物(S)の目的変数は+となり、10個の仮想化合物のうち、7個の仮想化合物(V1、V2、V3、V4、V6、V7、V9)の目的変数の値が+となり、3個の仮想化合物(V5、V8、V10)の目的変数の値が-となった。従って、予測対象化合物(S)の目的変数の値と一致するのは、目的変数の値が+となった7個の仮想化合物(V1、V2、V3、V4、V6、V7、V9)である。予測信頼度を、(予測対象化合物の目的変数の値と一致する目的変数を有する仮想化合物の数)÷(仮想化合物の総数)と定義すれば、予測信頼度は70%となる。
 一方、図3に示す様に、各仮想化合物(V1、V2・・・V10)の予測対象化合物(S)に対する構造類似度を重みとして、予測信頼度を計算することも可能である。この場合、予測信頼度を、(予測対象化合物の目的変数の値と一致する目的変数を有する仮想化合物の類似度の総数)÷(仮想化合物の類似度の総数)と定義すれば、予測対象化合物の予測信頼度は73%となる。
 以上のようにして、予測対象化合物の予測結果と、予測信頼度が計算されると、これらを出力装置120を介して出力する。出力形態はディスプレイ上への表示、プリントアウト、あるいは出力ファイルとして外部記憶装置に保存するなど、種々の形態が可能である。
 図4は、図1に示すシステムを利用して化合物の予測信頼性を評価する手順を示すフローチャートである。まず、ステップS1において、予測対象化合物である予測対象化合物を入力する。入力の形態は、化合物の2次元構造式あるいは3次元構造式で有り、あるいは化合物名、CAS番号であっても良い。次に、ステップS2において予測対象化合物と構造式が微小に異なる仮想化合物を生成するためのパターンを選択する。仮想化合物生成のパターンについては、後述する。ステップS2では更に、仮想的に生成する化合物の個数n(例えば10個)と、構造の類似度の閾値θとを設定する。閾値θは、仮想的に生成された化合物について予測対象化合物との構造の類似度を計算し、類似度がθ以下である場合、生成された化合物を構造類似化合物として採用しないようにする基準となる。なお、「類似度が大」とは構造が類似していることを意味し、「類似度が小」とは構造があまり類似していないことを示す。
 ステップS3でkを1に設定し、ステップS4で最初の仮想化合物を生成する。なお、本明細書において、仮想化合物とは現実に存在する化合物であるか否かを問わず、予測対象化合物の構造式を微小に変更して生成される構造式を有する化合物を意味する。仮想化合物の構造式の作成方法については後述する。ステップS5で、予測対象化合物と作成された仮想化合物に対して、構造類似性を算出するためのパラメータ(構造記述子)を発生する。ステップS6で、予測対象化合物と仮想化合物との類似度αを計算する。構造類似度の計算には、現在知られている化合物間の類似度を評価する種々の関数を利用することが出来る。
 ステップS7では、計算された類似度αがステップS2で設定した類似度の閾値θよりも小さいか否かが判定される。類似度αが閾値θよりも小さいか同じ場合(ステップS7のNO)、ステップS8において現在の仮想化合物を評価用の化合物として選択しないことを決定し、ステップS4に戻って再度別の仮想化合物を生成する。ステップS7でYESの場合、即ち類似度αが閾値θよりも大きい場合、現在の仮想化合物を評価用化合物として選択し、記憶装置に記憶する(ステップS9)。ステップS10では、kが仮想化合物生成の個数nに達したか否かを判定し、達していない場合(ステップS10のNO)、ステップS11でkを1だけ進め、ステップS4以下を再度実行する。
 以上のようにして、ステップS4からステップS11を繰り返して、仮想化合物としてn個の化合物が生成されると(ステップS10のYES)、ステップS12で予測対象化合物と生成されたn個の仮想化合物に対して、分類予測用のパラメータを発生する。分類予測用のパラメータの種類は、予測モデルによって指定されている。次のステップS13では、ステップS12で発生したパラメータに対し予測モデルを適用して、予測対象化合物と仮想化合物グループの目的変数の値を計算し、予測値とする。
 なお、予測モデルは、予測しようとする特性あるいは物性の値(目的変数)が既知の複数のサンプルに種々のデータ解析手法を適用することによって生成されるが、本装置は予測モデルの作成方法に依存するものではなく、従ってステップS13では、既知のいずれかの方法を用いて作成された任意の予測モデルを用いれば良い。ステップS14では、ステップS13における予測結果から、予測対象化合物の予測の信頼性を計算する。
 以上のようにして、ステップS14において、予測対象化合物の予測結果と仮想化合物グループの予測結果に基づく予測信頼性度とが計算されると、ステップS15において、予測対象化合物の予測結果とその予測信頼性とを、例えばグラフィックディスプレイに表示して一連の処理を終了する。なお、ステップS15における出力は、このようなグラフィックディスプレイ上への表示であっても良いし、あるいはファイルとして記憶装置に記憶するようにしても良い。
 以下に、図1の装置および図2のフローチャートにおける主要部について詳細に説明する。
 [予測対象化合物に構造類似する仮想化合物の生成]
 本方法を実施するには、予測対象化合物を基本としてその類似サンプルを生成することが必用となる。サンプルの類似性は、予測対象化合物との類似性が問題であり、生成された仮想化合物同士の類似性は検討対象外となる。従って、生成する仮想化合物は、予測対象化合物からの化合物構造式の変化が最小であり、かつサンプル母集団内の化合物の構造変化性の大きさよりも充分に小さいことが望まれる。以下に、化合物の類似構造の生成手法について説明する。
 [類似化合物の特徴と定義、および生成法]
 類似化合物とは、比較される二つのサンプル(化合物)間での構造的な変化性が少ない化合物を意味する。化合物の特性から、構造変化性が少ないということは、化合物を構成する基本となる原子数が似ているということである。従って、化合物の構造変化が少ない(即ち、類似化合物である)ということは、原子数が似ていることといえる。従って、予測対象サンプルを基本として、その化合物から最少の数の原子を取り除く、あるいは付加することで、類似化合物の生成が可能である。
 [A-原子や官能基の付加または削減による類似化合物の生成]
 類似化合物生成という内容から考えて大きく全く方向性の異なる二種類の構造式変換アプローチが考えられる。これらは、予測対象化合物を起点とし、そのサンプルから原子を取り除いて構造変化を生じさせるアプローチと、逆に予測対象化合物に原子、更にはもう少し大きなグループ(例えば官能基等)を付け加えて構造変化を実現するアプローチである。これが、化合物構造式変化の大きな二大方向性となる。個々のより具体的な化合物構造式変換様式としては、化合物の構造変化性を考えると、原子の種類や数、結合の種類、環構造、架橋構造、縮合構造、芳香属/非芳香族、分子量、立体情報、その他の様々な変化要因が考えられる。今回の目的から考えると、これらの変化要因中、構造式を変えたとしてもその変化の影響が小さい手段を取ることが必要である。
 類似化合物の生成として一番に考えられるのは、原子数を削減することである。原子数のみならず、官能基等を削減する、あるいは官能基とは認められないものとする等の構造変化も、対象サンプルをより小さな構造単位とすることによる類似化合物の生成アプローチである。
 [B-最少の数の炭素原子の付加による構造変化]
 炭素原子(飽和)は化合物の基本骨格を形成する上で極めて重要な原子である。ところが、炭素原子、特にメチル基(ME)の付加は、化合物の構造上の変化のみならず、化合物の特性(電子密度関連、種々物性関連、全体的形状、分子量、他)に大きな変化を及ぼさない。また、化合物構造式中、メチル基を追加できる部分は比較的多い。従って、最小数のメチル基を構造式中に追加することで、化合物の全体的な類似性を保ちつつ構造式を変化させることが可能である。
 図5および6に、上記A、Bに基づいて化合物の構造を変化させた様子を示す。図5の例は、構造変化が比較的小さい事例である。図において、1は構造変化を生じさせる基本となる化合物、即ち、予測対象化合物の構造式を示す。構造式1に対して、メチル基ME(-CH)の付加、原子の置換((F→Cl),(F→C)を行うことによって構造式2~8を生成することが出来る。図6は、構造変化が比較的大きい事例である。構造変化が大きいといっても、図5の事例と比較した場合のことであって、本格的な化合物構造変化とは異なっている。
 ここで、構造変化が比較的大きいという根拠は、構造変化を起している場所が二箇所以上あること、所謂、極性の大きなヘテロ原子(O;酸素、S;硫黄)が導入/置換されていること、および、原子レベルの変化からより大きな官能基レベルの変化((ケトン→チオケトン、イミン、オレフィン)、(ケトン→水酸基)、(F→水酸基)、(F→メトキシ))等があることである。このようなレベルでの構造変化の場合、電子密度等の構造以外の要因も変化しているものと考えられる。図6において、符号10~19は、予測対象化合物の構造式1に対して、比較的大きな構造変化を付加して生成された新たな構造式を示している。
 以上のような考察を踏まえ、一実施形態の装置では、図1の構造類似化合物の生成装置150あるいは図2のステップS4において仮想化合物を生成するにあたって、次のような化合物生成パターンを採用することができる。なお、以下の[C]から[I]に示す類似化合物生成パターンは、図1の類似化合物の生成装置150あるいは図4のステップS2において任意の一個のパターンを選択しても良いし、あるいは、複数のパターンの適宜の組合せを選択して類似化合物を生成するようにしても良い。
 [C]図7に示す様に、予測対象化合物の構造式1にメチル基1個を付加し、構造式7とする。通常、予測対象化合物の基本構造中にメチル基を付加する場所が複数個あるため、この変更によって複数の仮想化合物が生成される。メチル基追加の特徴は、基本的に1原子だけの追加(水素は除く)であり、またメチル基の追加が化合物の様々な特性に及ぼす変化が小さいということである。従って、予測対象化合物の構造変化を小さくして仮想化合物を生成しようとする場合に、都合の良いパターンとなる。
 [D]図8に示す様に、予測対象化合物の構造式1にメチル基2個を付加し、構造式20とする。メチル基2個を付加するサイトの組合せによって、図示の例では3個の仮想化合物が生成される。
 [E]エチル基1個を付加する(図示せず)。メチル基の付加の場合と同様に、この変更によって複数の仮想化合物が生成される。エチル基(-CHCH)はメチル基に比べて炭素原子の数が1個多く、その分、メチル基の付加よりも構造変化が大きい。
 [F]エチル基2個を付加する(図示せず)。メチル基の付加の場合と同様に、この変更によって複数の仮想化合物が生成される。
 [G]予測対象化合物中の1個の原子を他の原子に置換する。図9に示す例では、予測対象化合物1中の酸素原子を硫黄原子に置換して、仮想化合物21を生成している。図10に示す例では、予測対象化合物1中のフッ素原子を塩素原子に置換し、仮想化合物22を生成している。この構造変化の場合は、原子の結合次数を変えていない。従って、原子の種類を変えると言う比較的大きな変化を与えているが、構造に与える変化はさほど大きくない。メチル基、エチル基の付加と異なり、ヘテロ原子を変化させると、電子関連の環境が比較的大きく変化する。従って、原子の変換によって生じる構造的な変化は小さいが、電子的な環境における変化は比較的大きい。
 [H]予測対象化合物中の官能基を異なる官能基に変える。図11の例では、予測対象化合物1中のケトン基をメチレン基に変更することによって、仮想化合物23を生成している。図12の例では、予測対象化合物1中のケトン基を水酸基に変更することによって、仮想化合物24を生成している。官能基レベルを置換することによる構造の変化量は比較的大きい。更に、構造からは見えない電子的な変化、結果としての化合物特性等の変化も大きい。しかしながら、化合物のサイズが大きくなると、内部にこのような変化があっても、化合物全体の構造変化に与える影響は大きくない。従って、予測対象化合物が化合物サイズの大きいものである場合、このような官能基レベルの置換も仮想化合物の生成のために有効である。
 [I]予測対象化合物中の原子を1個、削減する。図13の例では、予測対象化合物1中のフッ素原子を1個削減して、仮想化合物25を生成する。図14の例では、予測対象化合物1中のメチル基を1個削減して、仮想化合物26を生成する。元の構造式からの原子の削減、あるいは官能基の削減は、化合物の構造に与える影響が大きく、従って6)の場合と同様に予測対象化合物の化合物サイズが大きい場合に有効な手法である。
 なお、システム上で仮想化合物を生成するためには、基本構造式を表示するグラフィックディスプレイとの対話によって、ユーザが、基本構造式に部分構造式を付加する操作を行うことによって実行される。あるいは、上記[C]から[I]の仮想化合物生成パターンに従って自動的に仮想化合物を生成するプログラムを作成することも可能である。また、図4のフローチャートでは、仮想化合物を仮想化合物の生成基準に従ってシステムにおいて自動的に生成しているが、図1のシステムに示す様に、ユーザの責任において予測対象化合物に対して構造類似の化合物を生成し、システムに仮想化合物として入力することも可能である。
 [構造式のMOLファイルへの変換]
 次に、例えば二次元構造式の形でコンピュータ上に入力された予測対象化合物から、仮想化合物のファイルを作成するための一手法について説明する。この手法では、ケモインフォマティクスにおいて汎用されているMOLファイルを利用する。
 図15は、予測対象化合物1の2次元構造式1とその構造を記載したMOLファイル30を示す。例えば、ChambridgeSoft社のChemDrawを用いて予測対象化合物1の構造式を入力すると、この構造式は文字および数値情報のファイルであるMOLファイルとして保存される。このMOLファイルがあれば、いつでも化合物の構造式は再現可能である。図15は、予測対象化合物1にメチル基(ME)1個を追加し、更にF原子1個をCl原子に変更した仮想化合物2(図5参照)の2次元構造式とそのMOLファイル31を示す。コンピュータのメモリ(図1の記憶装置140)内に、予測対象化合物のMOLファイルと、その構造を一部変化させた仮想化合物のMOLファイルを保存しておくことにより、これらの化合物の構造式を任意の時点で再現することが可能である。
 [類似度の計算]
 図1および2に示す実施形態では、1個の仮想化合物を生成すると、その仮想化合物の予測対象化合物に対する類似度を計算する。類似度評価のために種々の方法が提案されているが、どのような計算方法を採用しても良い。あるいは、ユーザ定義による類似度評価関数を使用しても良い。ユーザ定義による類似度評価関数としては、例えば、予測対象化合物に対してME基を付加して仮想化合物を生成する場合、ME基の数を類似度評価関数にするものなどが考えられる。この例については、後述の、発明者が行った実験例を説明する項において詳細に説明する。
 なお、化合物の構造類似度を評価する既存の関数として、例えば以下の6個の評価関数をあげることができる。これらの評価関数は何れも周知のものであり、従ってその詳細についてここでは説明しない。以下の式において、xjkはそれぞれ化合物iおよび化合物jについてのk番目の記述子の値を表す。
 (a)ユークリッド距離(SED):
Figure JPOXMLDOC01-appb-M000001
 (b)Tanimoto係数(TC):
Figure JPOXMLDOC01-appb-M000002
 (c)Cosine係数(SC):
Figure JPOXMLDOC01-appb-M000003
 (d)Pearson’s相関係数(SP):
Figure JPOXMLDOC01-appb-M000004
 [予測信頼性評価の実験例]
 以下に、図17~図19を参照して、アセトアミノフェンを予測対象化合物として予測信頼性の評価を行った場合の実験結果を示す。図17は、ID番号1のアセトアミノフェンを予測対象サンプルとし、このサンプルに構造類似する20個の仮想化合物(ID番号8~27)を発生させ、予測対象化合物と各仮想化合物に対して発癌性と2種類の変異原性試験(AMES-TA100、AMES-TA98)結果を予測した結果を示す。仮想化合物8~27の構造を図18および図19に示す。本実験では、予測対象サンプルであるアセトアミノフェン(ID番号1)に対して、メチル基(ME)を付加することによって構造類似サンプルを生成した。
 例えば、図17のID番号8に示す仮想化合物は、図18の8に示す様に、アセトアミノフェンのベンゼン環に1個のMEを付加して構成している。ID番号9の仮想化合物はID番号8の仮想化合物とは異なる位置に1個のMEを付加している。ID番号13の仮想化合物は、アセトアミノフェンのベンゼン環に2個のMEを付加している。ID番号16の仮想化合物はアセトアミノフェンの酸素原子にMEを付加している。このように、アセトアミノフェンの基本構造の種々の位置に1個あるいは2個以上のMEを付加することによって、図18および図19に示す20個の仮想化合物を生成した。
 発明者は、予測対象サンプルと仮想化合物との類似度を算出するにあたって、付加したMEの個数を基準として類似度得点を算出する、ユーザ定義の類似度を採用した。即ち、ME(メチル基)1個の付加を1点とし、付加されたMEがベンゼン環以外のC、N、O原子に繋がる場合に0.25点を追加することにより、類似度得点を計算する。この場合、予測対象サンプルの類似度得点は0点となる。図17のID番号8の仮想化合物は、ベンゼン環に1個のMEが付加された構造を有しているため、類似度得点は1となる。ID番号10の仮想化合物は、ベンゼン環ではない炭素原子にMEが付加されているので、類似度得点は1.25となる。ID番号11の仮想化合物はベンゼン環に2個のMEが付加されているので、類似度得点は2となる。この場合は、類似度得点が小さい仮想化合物が予測対象サンプルに対して大きい類似度を有する。なお、図17に示す20個の仮想化合物は、類似度得点の閾値を5として生成したものである。
 図17は、ID番号1の予測対象サンプルと、ID番号8~27の仮想化合物に対して、目的変数を発癌性の有無、変異原性の有無として、既存の予測モデルを適用して予測を行った結果を示している。なお、図17で、AMES-TA100は菌TA100を用いる変異原性試験を示し、AMES-TA98は菌TA98を用いる変異原性試験を示している。
 予測モデルを適用して発癌性の予測を行った結果、予測対象サンプルであるアセトアミノフェンは発癌性無し、と予測された。ID番号23の化合物を除いた19個の仮想化合物も同様に発癌性無し、と予測された。従って、単純に予測結果のみを比較する信頼性評価方法によれば、発癌性の予測信頼度は95%となる。一方、類似度の上位10位(類似度得点の下位10位)の仮想化合物を予測信頼度の評価に使用した場合は、予測信頼度は100%となる。AMES-TA100では、予測対象サンプル、仮想化合物全てが変異原性無し、と予測された。従って、予測対象サンプル(アセトアミノフェン)のAMES-TA100における予測信頼度は100%となる。AMES-TA98の場合は、20個の仮想化合物のうち6個の予測値が予測対象サンプルであるアセトアミノフェンの予測結果と異なっていた。従ってその予測信頼度は70%となる。この場合、類似度の上位10個の仮想化合物から予測信頼度を計算しても70%と言う結果が得られる。
 なお、予測対象サンプルとして用いたアセトアミノフェンの場合、発癌性、AMES-TA100、AMES-TA98の実測値は何れも“無し”であった。
 以上のように、予測モデルを使用した予測対象サンプルの予測結果に対して、予測対象サンプルと構造類似する複数の仮想化合物の予測結果を付加することにより、予測結果の信頼性を定量的に評価することが可能となる。従って、信頼性の低い予測結果に対しては、発癌性試験等を行って実測値を得ることを促すコメントを付加するようにしても良い。

Claims (20)

  1.  予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置と、
     前記予測対象化合物と前記生成された各仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置と、
     前記予測対象化合物の予測値と前記各仮想化合物の予測値との一致の度合いに基づいて、前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置と、を備える、化合物の予測信頼性評価システム。
  2.  請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性評価システム。
  3.  請求項1に記載のシステムにおいて、前記予測信頼度算出装置は、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性評価システム。
  4.  請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、ユーザによって指定された仮想化合物を入力する入力ユニットを含む、化合物の予測信頼性評価システム。
  5.  請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成する、化合物の予測信頼性評価システム。
  6.  請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物から原子又は官能基を削除することによって仮想化合物を生成する、化合物の予測信頼性評価システム。
  7.  請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物に少なくとも1個のメチル基を付加することにより仮想化合物を生成する、化合物の予測信頼性評価システム。
  8.  請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物のベンゼン環以外のC、O、SまたはN原子にメチル基を付加することにより、仮想化合物を生成する、化合物の予測信頼性評価システム。
  9.  予測対象化合物を準備し、
     前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、
     前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、
     前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各ステップを備える、化合物の予測信頼性の評価方法。
  10.  請求項9に記載の方法において、前記仮想化合物を生成するステップは、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性の評価方法。
  11.  請求項9に記載の方法において、前記予測結果の一致度を算出するステップは、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性の評価方法。
  12.  請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  13.  請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物から原子又は官能基を削除することによって仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  14.  請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物に少なくとも1個のメチル基を付加することにより仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  15.  請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物のベンゼン環以外のC、O、SまたはN原子にメチル基を付加することにより、仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  16.  予測対象化合物を入力する手順と、
     前記予測対象化合物に構造類似する複数の化合物を仮想的に生成する手順と、
     前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得する手順と、
     前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する手順と、
     前記算出した結果を予測対象化合物の予測結果と共に出力する手順と、をコンピュータに実行させるための、化合物の予測信頼性評価プログラム。
  17.  請求項16に記載のプログラムにおいて、前記仮想化合物を生成する手順は、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性評価プログラム。
  18.  請求項16に記載のプログラムにおいて、前記予測結果の一致度を算出する手順は、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性評価プログラム。
  19.  請求項16に記載のプログラムにおいて、前記仮想化合物を生成する手順は、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成する手順を含む、化合物の予測信頼性評価プログラム。
  20.  請求項16に記載のプログラムにおいて、前記仮想化合物を生成する手順は、予測対象化合物に少なくとも1個のメチル基を付加することにより仮想化合物を生成する手順を含む、化合物の予測信頼性評価プログラム。
PCT/JP2008/055753 2008-03-26 2008-03-26 化合物の予測信頼性評価システム WO2009118845A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2008/055753 WO2009118845A1 (ja) 2008-03-26 2008-03-26 化合物の予測信頼性評価システム
JP2010505086A JP5087756B2 (ja) 2008-03-26 2008-03-26 化合物の予測信頼性評価システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/055753 WO2009118845A1 (ja) 2008-03-26 2008-03-26 化合物の予測信頼性評価システム

Publications (1)

Publication Number Publication Date
WO2009118845A1 true WO2009118845A1 (ja) 2009-10-01

Family

ID=41113086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/055753 WO2009118845A1 (ja) 2008-03-26 2008-03-26 化合物の予測信頼性評価システム

Country Status (2)

Country Link
JP (1) JP5087756B2 (ja)
WO (1) WO2009118845A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180845A (ja) * 2010-03-01 2011-09-15 Canon Inc 推論装置
JP2019020791A (ja) * 2017-07-12 2019-02-07 国立大学法人岐阜大学 毒性予測方法及びその利用
US10497464B2 (en) 2015-10-28 2019-12-03 Samsung Electronics Co., Ltd. Method and device for in silico prediction of chemical pathway
WO2022137968A1 (ja) * 2020-12-25 2022-06-30 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2024116642A1 (ja) * 2022-11-30 2024-06-06 富士フイルム株式会社 学習装置、物性予測装置、学習プログラム、及び物性予測プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323601A (ja) * 2002-05-01 2003-11-14 Fujitsu Ltd 信頼性尺度付き予測装置
JP2007153767A (ja) * 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323601A (ja) * 2002-05-01 2003-11-14 Fujitsu Ltd 信頼性尺度付き予測装置
JP2007153767A (ja) * 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"34th Kozo Kassei Sokan Symposium Koen Yoshishu", 2006, article KOTARO YUTA: "K-step Yard sampling method no Kaihatsu to ADME-T Yosoku eno Tekiyo", pages: 29 - 30, XP003022568 *
MANABU SASANO: "Support Vector Machine o Tsukatta Bunsho Bunrui ni Okeru Kaso Jirei no Riyo", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 13, no. 3, 10 July 2006 (2006-07-10), pages 21 - 35 *
SHERIDAN, P. SHERIDAN: "Similarity to Molecules in the Training Set Is a Good Discriminator for Prediction Accuracy in QSAR", J. CHEM. INF. COMPUT. SCI., vol. 44, 2004, pages 1912 - 1928, XP002380043, DOI: doi:10.1021/ci049782w *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180845A (ja) * 2010-03-01 2011-09-15 Canon Inc 推論装置
US10497464B2 (en) 2015-10-28 2019-12-03 Samsung Electronics Co., Ltd. Method and device for in silico prediction of chemical pathway
JP2019020791A (ja) * 2017-07-12 2019-02-07 国立大学法人岐阜大学 毒性予測方法及びその利用
WO2022137968A1 (ja) * 2020-12-25 2022-06-30 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
EP4270401A4 (en) * 2020-12-25 2024-06-12 Fujifilm Corp DEVICE, METHOD AND PROGRAM FOR INFORMATION PROCESSING
WO2024116642A1 (ja) * 2022-11-30 2024-06-06 富士フイルム株式会社 学習装置、物性予測装置、学習プログラム、及び物性予測プログラム

Also Published As

Publication number Publication date
JP5087756B2 (ja) 2012-12-05
JPWO2009118845A1 (ja) 2011-07-21

Similar Documents

Publication Publication Date Title
Fulcher et al. Highly comparative feature-based time-series classification
Choi et al. Fault detection and identification of nonlinear processes based on kernel PCA
Wang et al. Data-driven soft sensor approach for quality prediction in a refining process
JP5104877B2 (ja) 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置
JP5141767B2 (ja) サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
KR101232945B1 (ko) 2클래스 분류 예측 모델의 작성 방법, 분류 예측 모델 작성을 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 2클래스 분류 예측 모델의 작성 장치
Ienco et al. Deep multivariate time series embedding clustering via attentive-gated autoencoder
Sahri et al. FINNIM: Iterative imputation of missing values in dissolved gas analysis dataset
JP5087756B2 (ja) 化合物の予測信頼性評価システム
WO2013125482A1 (ja) 文書評価装置、文書評価方法、及びコンピュータ読み取り可能な記録媒体
Gimpy Missing value imputation in multi attribute data set
Shen et al. Weighted nonlinear dynamic system for deep extraction of nonlinear dynamic latent variables and industrial application
Ge et al. Probabilistic combination of local independent component regression model for multimode quality prediction in chemical processes
Cuentas et al. An SVM-GA based monitoring system for pattern recognition of autocorrelated processes
Lou et al. Novel online discriminant analysis based schemes to deal with observations from known and new classes: Application to industrial systems
Tian et al. Decentralized monitoring for large‐scale process using copula‐correlation analysis and Bayesian inference–based multiblock principal component analysis
Tong et al. Prediction of neutron-induced fission product yields by a straightforward k-nearest-neighbor algorithm
Peng et al. Fault detection and classification in chemical processes using NMFSC and structural SVMs
Nowak et al. Conversion of CVSS Base Score from 2.0 to 3.1
Hamadouche Model-free direct fault detection and classification
Tüysüzoğlu et al. Temporal bagging: a new method for time-based ensemble learning
Colla et al. GADF—Genetic Algorithms for distribution fitting
JP6629682B2 (ja) 学習装置、分類装置、分類確率計算装置、及びプログラム
JP7298870B2 (ja) 分子動力学データ解析装置及びプログラム
Xarez et al. Extracting control variables of casting processes with NMF and rule extraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08738941

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010505086

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08738941

Country of ref document: EP

Kind code of ref document: A1