WO2023033027A1 - 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法 - Google Patents

化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法 Download PDF

Info

Publication number
WO2023033027A1
WO2023033027A1 PCT/JP2022/032725 JP2022032725W WO2023033027A1 WO 2023033027 A1 WO2023033027 A1 WO 2023033027A1 JP 2022032725 W JP2022032725 W JP 2022032725W WO 2023033027 A1 WO2023033027 A1 WO 2023033027A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
safety
molecule
safety evaluation
unit
Prior art date
Application number
PCT/JP2022/032725
Other languages
English (en)
French (fr)
Inventor
拓也 南
直樹 橋爪
Original Assignee
株式会社レゾナック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社レゾナック filed Critical 株式会社レゾナック
Priority to CN202280058866.0A priority Critical patent/CN117882139A/zh
Priority to EP22864609.7A priority patent/EP4401082A1/en
Priority to JP2023545632A priority patent/JP7485229B2/ja
Publication of WO2023033027A1 publication Critical patent/WO2023033027A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present invention relates to a safety prediction device, a safety prediction program, and a safety prediction method for compounds.
  • a compound safety prediction device for predicting the safety of a compound for example, means for learning and analyzing descriptors effective for specific evaluation of cosmetic materials from among descriptors calculated using information on cosmetic materials and means for searching for an evaluation model that is effective for a specific evaluation using the analyzed descriptors and obtaining predictive values for irritation, sensitization, or repeated dose toxicity of cosmetic ingredients. has been proposed (see, for example, Patent Document 1).
  • Patent Document 1 is limited to predicting the irritation, sensitization, or repeated dose toxicity of cosmetic materials, so depending on the type of compound, such as a new compound that is different from the conventional one, the safety of the compound can be evaluated with high accuracy. There was a problem that there was a high possibility of being unpredictable.
  • Patent Document 2 requires calculating the degree of similarity for all drug molecules registered in the database and referring to the safety data of similar molecules. However, there is a problem that the user's convenience is low.
  • An object of one aspect of the present invention is to provide a compound safety prediction device capable of performing a highly accurate safety evaluation of a compound while enhancing user convenience.
  • the present invention has the following configurations.
  • an input unit for inputting structural formulas of one or more molecules a safety prediction unit that predicts the safety evaluation of the molecule and calculates the confidence of the prediction; a similar molecule data search unit that acquires safety evaluation data of similar molecules that are similar to the molecule; an output unit that outputs a prediction result of the safety evaluation of the molecule, the certainty of the prediction, and the safety evaluation data of the similar molecule;
  • a compound safety prediction device comprising: [2] When the confidence of the prediction is high, the output unit outputs a message regarding the prediction result of the safety evaluation of the molecule and the confidence of the prediction, Safety of the compound according to [1], wherein when the confidence of the prediction is low, a message regarding the prediction result of the safety evaluation of the molecule, the confidence of the prediction, and the safety evaluation data of the similar molecule is output.
  • the compound safety prediction device comprising a verification unit that determines [4] when the confidence of the prediction is high, the output unit outputs a message regarding the prediction result of the safety evaluation of the molecule and the confidence of the prediction; Safety of the compound according to [3], wherein when the confidence of the prediction is low, a message regarding the prediction result of the safety evaluation of the molecule, the confidence of the prediction, and the safety evaluation data of the similar molecule is output. prediction device.
  • the safety prediction unit a feature amount calculation unit that calculates a feature amount of the molecule based on the structural formula of the molecule; a prediction unit that predicts the safety evaluation of the molecule based on the feature amount and calculates the certainty of the prediction;
  • the compound safety prediction device according to any one of [1] to [5].
  • the feature amount calculation unit uses a fingerprint based on the structural formula of the molecule, or a physical property value calculated by quantum chemical calculation based on the structural formula of the molecule, or a physical property estimated by quantitative structure-activity correlation. Predicting the safety of the compound according to [6], wherein the characteristic amount of the molecule is calculated using one or more of the values and predicted values by a trained model that has learned the relationship between the structural formula and the physical property value of the molecule.
  • Device uses a fingerprint based on the structural formula of the molecule, or a physical property value calculated by quantum chemical calculation based on the structural formula of the molecule, or a physical property estimated by quantitative structure-activity correlation.
  • the similar molecule data search unit The degree of similarity between the structural formula of the molecule input in the input unit and the structural formulas of a plurality of the evaluated molecules in a safety evaluation database storing the safety evaluation results of previously evaluated molecules a similarity evaluation unit that calculates a data search unit that acquires the safety evaluation result of the evaluated molecule with the high degree of similarity as the safety evaluation data of the similar molecule;
  • the compound safety prediction device according to any one of [1] to [7].
  • a compound safety prediction program that causes a computer to execute [10] an input step of inputting structural formulas of one or more molecules; a safety prediction step of predicting the safety evaluation of the molecule and calculating the confidence of the prediction; a similar molecule data search step of acquiring safety evaluation data of similar molecules similar to the molecule; an output step of outputting the prediction result of the safety evaluation of the molecule, the confidence of the prediction, and the safety evaluation data of the similar molecule;
  • a compound safety prediction program that causes a computer to execute [10] an input step of inputting structural formulas of one or more molecules; a safety prediction step of predicting the safety evaluation of the molecule and calculating the confidence of the prediction; a similar molecule data search step of acquiring safety evaluation data of similar molecules similar to the molecule; an output step of outputting the prediction result of the safety evaluation of the molecule, the confidence of the prediction, and the safety evaluation data of the similar molecule;
  • a method for predicting the safety of a compound comprising:
  • One aspect of the compound safety prediction device, safety prediction program, and safety prediction method according to the present invention is to quantify the degree of confidence in molecular safety prediction, so that the safety of a compound can be appropriately evaluated.
  • the degree of certainty is high, the prediction result can be used as it is, so that the safety of the compound can be evaluated quickly and easily while being highly accurately evaluated.
  • one aspect of the compound safety prediction device, safety prediction program, and safety prediction method according to the present invention can highly accurately evaluate the safety of a compound while enhancing user convenience. .
  • FIG. 1 is a block diagram showing a schematic configuration of a compound safety prediction device according to a first embodiment of the present invention
  • FIG. FIG. 4 is a diagram showing an example of a table describing structural formulas (SMILES).
  • FIG. 10 is an explanatory diagram showing an example of a case where the prediction certainty is considered to be high when the prediction certainty is 50% or more;
  • FIG. 10 is a diagram showing an example of a table describing predicted results of molecular safety evaluation.
  • FIG. 4 is a diagram showing an example of evaluation data of similar molecules;
  • FIG. 10 is a diagram showing another example of evaluation data of similar molecules; It is a figure which shows an example of an integrated file. It is a figure which shows an example of a learning data table.
  • FIG. 4 is a schematic diagram showing the configuration of a model learning unit;
  • FIG. 4 is a flowchart for explaining a model learning method;
  • 1 is a flow chart illustrating a compound safety prediction method according to a first embodiment of the present invention.
  • FIG. 13 is a flowchart for explaining a confirmation step (step S22) in FIG. 12;
  • FIG. 13 is a flow chart for explaining a step of predicting the safety evaluation of a molecule in FIG. 12 and calculating the degree of certainty of the prediction (step S23).
  • FIG. 13 is a flowchart for explaining a similar molecule safety evaluation data search step (step S24) in FIG. 12.
  • FIG. 13 is a flowchart for explaining an integration step (step S25) in FIG. 12;
  • FIG. FIG. 2 is a block diagram showing a schematic configuration of a compound safety prediction device according to a second embodiment of the present invention;
  • FIG. 2 is a flow chart illustrating a compound safety prediction method according to a second embodiment of the present invention.
  • FIG. 1 is a block diagram showing the hardware configuration of a compound safety prediction device;
  • FIG. 1 is a block diagram showing a schematic configuration of a compound safety prediction device according to this embodiment.
  • a compound safety prediction device (hereinafter simply referred to as "safety prediction device") 1A includes an input unit 10, a safety prediction unit 20, a similar molecule data search unit 30, an integration unit 40, a storage A unit 50 , a model learning unit 60 , a characteristic prediction model 70 and an output unit 80 are provided.
  • the safety prediction device 1A outputs the prediction result of molecular safety evaluation obtained by the safety prediction unit 20 and the degree of certainty of the prediction, and the safety evaluation data obtained by the similar molecule data search unit 30. Thereby, the user (user) can adopt the prediction result as it is when the degree of certainty is high, and consider whether to adopt the prediction result or the safety evaluation data when the degree of certainty is low. Therefore, the safety prediction device 1A quantifies and outputs the degree of certainty, so that the prediction result of the molecular safety evaluation obtained by the safety prediction unit 20 and the safety evaluation data obtained by the similar molecule data search unit 30 The user can judge the safety of the compound based on at least one of Therefore, the safety prediction device 1A can enhance user convenience and improve the accuracy of compound safety evaluation.
  • the output includes display on the screen, sound, etc., as described later.
  • High confidence and low confidence are the same as high confidence and low confidence, which will be described later. It can be set as appropriate. For example, when the threshold is set to 50%, the certainty is considered to be high if the certainty is equal to or higher than the threshold.
  • Safety is an index that expresses the magnitude of the burden that a compound has on humans and the environment, and includes biodegradability, bioaccumulation, mutagenicity, acute toxicity, chronic toxicity, inhibitory toxicity, and repeated toxicity.
  • the input unit 10 inputs the structural formulas of one or more molecules that are evaluation targets for safety evaluation.
  • SMILES is a character string representation of the molecular structure of a compound.
  • FIG. 2 shows an example of a table describing structural formulas (SMILES). As shown in FIG. 2, SMILES assigns A1 . . . as an ID number to each compound and displays the SMILES of each compound.
  • a table containing the structural formula of each molecule may be obtained from the data in a format such as CSV, Excel spreadsheet software.
  • the input unit 10 may input a table in which SMILES of each molecule are described as shown in FIG.
  • the input unit 10 may check whether there are any mistakes in the structural formula of the input molecule. When the user inputs the structural formula, there is a possibility of inputting it incorrectly. The input unit 10 can determine that the structural formula of the input molecule is incorrect by confirming the erroneous input of the structural formula.
  • the input unit 10 converts the structural formula of an input molecule into a molecular Mol object using, for example, RDKit included in a library such as Anaconda (registered trademark) which is software distributed by Anaconda, Inc. in the United States. By confirming the presence or absence of , it may be determined whether there is an error in the structural formula of the input molecule. If the structural formula is SMILES, MolFromSmiles included in the RDKit is used to read the SMILES character string and read the structural formula of the molecule. When SMILES is converted to a Mol object and a molecule Mol object is normally created, it can be determined that there is no entry error in the structural formula of the input molecule. On the other hand, if the SMILES is not converted to a Mol object and a molecular Mol object is not created, it can be determined that the structural formula of the input molecule is incorrect.
  • RDKit included in a library such as Anaconda (registered trademark) which is software distributed by Anacon
  • the input unit 10 may separately create a table containing structural formulas without description errors and a table containing structural formulas with description errors, and output the tables by the output unit 80, which will be described later. Thereby, even if the user fails to input the structural formula, the safety evaluation can be predicted without abnormal termination of the safety prediction device 1A.
  • the safety prediction unit 20 predicts the safety evaluation of a molecule and calculates the degree of certainty of the prediction.
  • the safety prediction unit 20 includes a feature quantity calculation unit 21 and a prediction unit 22 .
  • the feature amount calculation unit 21 calculates feature amounts based on the molecular structural formula.
  • the feature value can be obtained based on the structural formula of a molecule that does not contain any writing errors.
  • the feature amount is calculated using the Morgan fingerprint (Circular fingerprint) implemented in the RDkit, the structural formula of the molecule such as a fingerprint equivalent to EXTENDED Connectivity Fingerprints (ECFP), another fingerprint such as AtomPair based fingerprints can be used.
  • the feature quantity may be a physical property such as the octanol/water partition coefficient (logP), which represents the lipophilicity of the molecule. Fingerprints may be expressed by the presence or absence of partial structures as 1 or 0, the number of partial structures, or the ratio of partial structures obtained by dividing the number of partial structures by the number of constituent atoms. You may
  • Feature values are physical property values calculated by quantum chemical calculations based on the molecular structural formula, physical property values obtained by quantitative structure-activity correlation between the molecular structural formula and physical property values, and molecular structural formula and physical property values. may be calculated using any one or more of the predicted values by a trained model that has learned the relationship between .
  • HOMO, LUMO, charge, refractive index, frequency and the like are listed as physical property values calculated by quantum chemical calculation.
  • the structure-activity relationship refers to the correlation between chemical structural features (or physicochemical constants) of a substance and biological activity (eg, degradability, accumulation, various toxicity endpoints, etc.).
  • the feature amount may be a physical property value measurable by experiment, such as melting point, viscosity, and specific surface area.
  • the prediction unit 22 predicts the safety evaluation of the molecule based on the feature amount calculated by the feature amount calculation unit 21 and calculates the certainty of the prediction.
  • biochemical oxygen demand can be used as an index for molecular safety evaluation.
  • BOD biochemical oxygen demand
  • the safety of the molecule can be evaluated as good.
  • Prediction confidence can be calculated using the property prediction model 70 .
  • the prediction unit 22 inputs the feature amount calculated by the feature amount calculation unit 21 as an explanatory variable to the characteristic prediction model 70, and outputs the classification probability P(OK) that the classification result is "OK".
  • the prediction unit 22 calculates the prediction certainty (unit: %) for the classification probability P(OK) that the classification result is "OK” using the following equation (1). Confidence of prediction (%) ⁇ 100 ⁇ 2 ⁇
  • Prediction confidence ranges from 0% to 100%, and the closer the prediction confidence is to 100%, the higher the accuracy rate of the prediction results. Therefore, the user can easily determine whether or not the prediction result is reliable from the certainty of the prediction.
  • the prediction confidence level corresponds to the classification probability, and the prediction confidence level changes according to the magnitude of the classification probability.
  • FIG. 3 shows an example of the case where the prediction certainty is regarded as high when the prediction certainty is 50% or more.
  • the prediction confidence is 50% or more and 100% or less, and is regarded as "high confidence NG”.
  • the classification probability is greater than 0.25 and less than 0.50
  • the confidence of the prediction is greater than 0% and less than 50%, and is regarded as "low confidence NG”.
  • the classification probability is 0.50 or more and less than 0.75
  • the prediction confidence is 0% or more and less than 50%, and is regarded as "OK with low confidence”.
  • the prediction confidence is 50% or more and 100% or less, and is regarded as "OK with high confidence”.
  • the threshold for judging high confidence and low confidence can be set as appropriate according to the type of molecule whose safety is to be evaluated, and is preferably 50%, for example.
  • the prediction unit 22 can create a table of molecular safety evaluation prediction results that includes the structural formula of each molecule, the prediction result, and the prediction confidence.
  • FIG. 4 shows an example of a table describing prediction results of molecular safety evaluation.
  • SMILES is used for the molecular structural formula
  • ID numbers A1 . . . of each compound, and SMILES of each compound are used.
  • BOD is used as an index for molecular safety evaluation. Molecules were evaluated as good (OK) for safety when the BOD was 60% or more, and as poor (NG) for safety when the BOD was less than 60%.
  • the feature quantity calculation unit 21 creates a table of the molecular safety evaluation prediction results including the molecular safety evaluation prediction results and the confidence of the prediction, as shown in FIG. can be output. As a result, the user can easily grasp the prediction results regarding the molecular safety evaluation.
  • the similar molecule data search unit 30 acquires safety evaluation data of similar molecules similar to the molecule to be evaluated.
  • the similar molecule data search unit 30 includes a similarity evaluation unit 31 and a data search unit 32 .
  • the similarity evaluation unit 31 calculates and evaluates the degree of similarity between the structural formula of the molecule input by the input unit 10 and the structural formulas of multiple evaluated molecules stored in the safety evaluation database 33 . Note that the similarity evaluation unit 31 may use SMILES as the molecular structural formula.
  • the safety evaluation database 33 stores safety evaluation data of previously evaluated molecules.
  • the degree of similarity can be obtained by calculating the Tanimoto coefficient using Bulk Tanimoto Similarity implemented in RDkit.
  • the similarity may be Dice coefficient, cosine similarity, or the like.
  • the similarity evaluation unit 31 can appropriately change the number of safety evaluation data of similar molecules to be acquired according to the purpose, ease of use, etc. Data from the highest degree to a predetermined number (for example, the top 20 cases) may be obtained as similar molecule safety evaluation data (similar molecule data).
  • Permanent change substances refer to change substances that remain after the biodegradation test under the Chemical Substances Control Law, etc.
  • the structural formula of the molecule whose ID is A5 in FIG. 4 is displayed in the first row as the molecule to be evaluated.
  • information on similar molecules recorded in the past data is displayed on the second and subsequent lines.
  • the similarity evaluation unit 31 collectively displays the information about the molecule to be evaluated and the information about the similar molecule in a table containing the safety evaluation data of the similar molecule, so that the molecule to be evaluated and the similar molecule can be visualized. Therefore, the user can easily determine which of the similar molecules the safety evaluation data should be referred to.
  • the similarity evaluation unit 31 may create a table containing the safety evaluation data of similar molecules as shown in FIGS. 5 and 6, and output it from the output unit 80 described later. This allows the user to grasp information about similar molecules.
  • the data search unit 32 acquires safety evaluation data of similar molecules with a high degree of similarity.
  • the integration unit 40 includes a prediction result file containing the prediction result of the safety evaluation of the molecule to be evaluated and the prediction certainty obtained by the safety prediction unit 20, and a similar molecule data search unit. Integrate with the assessment data file containing the safety assessment data obtained at 30. As a result, the integration unit 40 generates a prediction result file (see FIG. 4) obtained by the safety prediction unit 20 and an evaluation data file (FIGS. 5 and 5) obtained by the similar molecule data search unit 30, as shown in FIG. 6) are integrated to create an integrated file.
  • the prediction sheet describes the contents of the prediction result file, and the A1 sheet, A2 sheet, .
  • the integration unit 40 may cause the output unit 80, which will be described later, to output the integrated file.
  • the user can easily comprehend the information on the molecule to be evaluated and the information on the safety evaluation of similar molecules, which are included in the integrated file.
  • the storage unit 50 stores related data in which the molecular structural formula of the compound, the safety evaluation, the feature amount of the compound, the characteristics of the compound, etc. are associated with each other as learning data.
  • An example of the learning data table is shown in FIG.
  • the learning data includes the CAS registration number and SMILES of the molecule of the compound, the BOD which is the safety evaluation result as the target variable of the compound, the judgment result of the Chemical Substances Control Law as the characteristic of the compound, the persistent change substance Including the correspondence such as the type of Note that "-" in FIG. 8 indicates "not applicable”.
  • the feature amount of a compound is calculated from the SMILES of the corresponding compound by a technique such as ECFP.
  • the feature amount of a compound is expressed in numerical matrix form as feature amounts 1 and 2, etc. calculated by ECFP.
  • the storage unit 50 may input the molecular structural formula of the compound (for example, SMILES, etc.), the characteristic amount of the compound, the characteristics of the compound, etc. to the related data, and update the related data.
  • the molecular structural formula of the compound for example, SMILES, etc.
  • the model learning unit 60 uses the related data stored in the storage unit 50 as learning data to learn the model.
  • the model learning unit 60 uses the molecular structural formula (for example, SMILES, etc.) of the compound stored in the storage unit 50 and the feature amount of the compound as explanatory variables, and uses the desired property of the compound as the objective variable. . Thereby, the model learning unit 60 learns a model that identifies the correspondence between the feature amount of the compound and the property of the compound, and generates a learned model (property prediction model 70). The model learning unit 60 learns the model so that the correspondence relationship approaches the correspondence relationship of the learning data through machine learning.
  • molecular structural formula for example, SMILES, etc.
  • supervised learning for example, linear regression, logistic regression, random forest, boosting, support vector machine (SVM), neural network ) and the like.
  • a neural network can use deep learning with a neural network having more than three layers.
  • Types of neural networks include, for example, Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), General Regression Neural Network, etc. can be done.
  • the model may be represented by a formula such as a function.
  • Anaconda registered trademark
  • Anaconda registered trademark
  • Anaconda (registered trademark) includes a group of libraries used in machine learning such as scikit-learn, and the model learning unit 60 uses one or more of these to perform machine learning. you can
  • model learning unit 60 obtains from the safety evaluation data newly stored in the storage unit 50 the molecular structural formula of the compound (for example, SMILES) and the characteristic amount of the compound as explanatory variables, and the characteristics of the compound as objective variables. You may re-learn about the trained model by using as .
  • FIG. 10 is a schematic diagram showing the configuration of the model learning unit 60.
  • the model learning unit 60 has a first acquisition unit 61 , a second acquisition unit 62 , a function unit 63 , a determination unit 64 , a model 65 and a storage unit 66 .
  • the first acquisition unit 61 acquires learning data including a table listing molecular structural formulas of compounds (for example, SMILES, etc.) and a table listing properties of compounds.
  • Learning data can be saved as files in formats such as CSV and spreadsheet software Excel.
  • the second acquisition unit 62 acquires the molecular structure of one molecule from the learning data acquired by the first acquisition unit 61.
  • one molecule of SMILES is preferred.
  • the function unit 63 calculates feature amounts based on the molecular structure of one molecule acquired by the second acquisition unit 62 . Since the feature calculation method can be performed in the same manner as the feature amount calculation unit 21, details thereof will be omitted.
  • the determination unit 64 determines whether or not the feature values of all molecules included in the learning data have been calculated.
  • the model 65 is learned by the model learning unit 60 using the molecular structural formula of the compound and the feature amount of the compound stored in the storage unit 50 as explanatory variables and the characteristics of the compound as objective variables.
  • the storage unit 66 stores the learned model generated by the model learning unit 60 having the model 65 perform learning.
  • the characteristic prediction model 70 is a trained model generated by the model learning unit 60 causing the model 65 to learn.
  • the degree of certainty of prediction can be appropriately set according to a predetermined value of the classification probability.
  • the degree of certainty is 50% or more, and low prediction certainty means, for example, the case where the certainty of prediction is less than 50%.
  • the output unit 80 outputs the prediction result of the safety evaluation of the molecule, the degree of certainty of the prediction, and the safety evaluation data of the similar molecule obtained by the integration unit 40 . That is, the output unit 80 outputs the integrated file.
  • the output includes display on a monitor, etc., sound, etc., and any method that can notify the user may be used.
  • the output unit 80 may output a table of structural formulas (for example, SMILES) without writing errors and a table of structural formulas with writing errors created by the input unit 10 .
  • the output unit 80 may output a table of molecular safety evaluation prediction results, which includes the molecular safety evaluation prediction results and the certainty of the prediction, created by the safety prediction unit 20.
  • the similar molecule safety evaluation data including information on the similar molecule created by the degree evaluating unit 31 may be output.
  • the output unit 80 may refer to the integrated file and output safety evaluation data of similar molecules when the prediction confidence of the safety evaluation of the molecule is low.
  • the output unit 80 outputs a message regarding the molecular safety evaluation prediction result and the prediction confidence when the molecular safety evaluation prediction confidence is high (high confidence).
  • the confidence of the prediction of the molecule is low (low confidence)
  • a message regarding the prediction result of the safety evaluation of the molecule, the confidence of the prediction, and the safety evaluation data of the similar molecule may be output.
  • the prediction confidence when the prediction confidence is high, the content of the message is such as "The prediction result of the safety evaluation of the molecule is high, and the prediction confidence is 50% or more.” In some cases, "the prediction result of molecular safety evaluation is low, and the prediction confidence is less than 50%.”
  • Safety prediction program A program having the following structure can be used as the safety prediction program for the compound according to the present embodiment (hereinafter simply referred to as "safety prediction program").
  • the safety prediction program is an input step of inputting structural formulas of one or more molecules; a safety prediction step of predicting the safety evaluation of the molecule and calculating the confidence of the prediction; a similar molecule data search step of acquiring safety evaluation data of similar molecules similar to the molecule; an output step of outputting the prediction result of the safety evaluation of the molecule, the confidence of the prediction, and the safety evaluation data of the similar molecule; can be used at least by a computer.
  • the safety prediction method to which the safety prediction device according to the present embodiment is applied is a method of predicting the safety evaluation of a compound using the safety prediction device 1A having the configuration as shown in FIG.
  • the learning method of the property prediction model 70 used in the safety prediction method will be explained. Since the model 65 constructed by the model learning unit 60 is applied to the characteristic prediction model 70 as described above, the learning method of the characteristic prediction model 70 will be described as the learning method of the model 65 .
  • FIG. 11 is a flowchart explaining the model learning method.
  • the model learning method is such that the model learning unit 60 configured as shown in FIG. This is a method of learning a model using learning data in which explanatory variables including feature values of formulas and compounds and objective variables including properties of compounds are associated with each other.
  • the safety prediction device 1A acquires learning data using the first acquisition unit 61 (learning data acquisition step: step S11).
  • the learning data includes a table listing the molecular structural formulas of compounds (for example, SMILES, etc.) and a table listing the properties of the compounds.
  • the safety prediction device 1A uses the second acquisition unit 62 to acquire the structural formula of one molecule from the learning data (step of acquiring the structural formula of one molecule: step S12).
  • the structural formula of one molecule may be SMILES of one molecule.
  • the safety prediction device 1A uses the function unit 63 to use the structural formula of one molecule acquired by the second acquisition unit 62 to obtain libraries included in Anaconda (registered trademark) such as scikit-learn and RDKit. (feature amount calculation step: step S13).
  • the safety prediction device 1A uses the determination unit 64 to determine whether or not the feature values of all molecules included in the learning data have been calculated (step of determining feature values of all molecules: step S14).
  • step S14 If the feature values of all molecules have not been calculated (step S14: No), the process returns to the step of obtaining the structural formula of one molecule (step S12), and the structural formulas of the remaining molecules whose feature values have not been calculated are obtained. get.
  • step S14 When the feature values of all molecules have been calculated (step S14: Yes), the model learning unit 60 associates the explanatory variables including the feature values of all molecules with the objective variables including the characteristics of all molecules. Learning is performed using the attached learning data, and a model 65 is constructed (learning step: step S15).
  • the learning unit 15 causes the model to learn so that the output matches the objective variable linked to the explanatory variable according to the input of the explanatory variable included in the learning data.
  • the safety prediction device 1A uses the storage unit 66 to store the model constructed by the learning unit 15 (storage step: step S16).
  • FIG. 12 is a flowchart for explaining the safety prediction method according to this embodiment.
  • the input unit 10 of the safety prediction device 1A inputs structural formulas of one or more molecules, which are evaluation targets for safety evaluation (input step: step S21).
  • the safety prediction device 1A uses the safety prediction unit 20 to check for entry errors in the input structural formula (confirmation step: step S22).
  • step S22 Details of the confirmation step (step S22) will be described later. Note that the confirmation step (step S22) may not be performed.
  • the safety prediction device 1A uses the safety prediction unit 20 to predict the safety evaluation of the molecule and calculate the confidence of the prediction, including the prediction of the safety evaluation of the molecule and the confidence of the prediction.
  • a table of prediction results of molecular safety evaluation is obtained (step of predicting molecular safety evaluation and calculating certainty of the prediction: step S23).
  • step S23 The details of the step of predicting the safety evaluation of molecules and calculating the certainty of the prediction (step S23) will be described later.
  • the safety prediction device 1A searches and acquires the safety evaluation data of similar molecules of the molecule whose safety is to be evaluated by the similar molecule data search unit 30 (similar molecule safety evaluation data search step: step S24).
  • step S24 The details of the similar molecule safety evaluation data search step (step S24) will be described later.
  • the safety prediction apparatus 1A causes the integration unit 40 to predict the molecular safety evaluation results obtained in the step of predicting molecular safety evaluation and calculating the certainty of the prediction (step S23), and the prediction result. and the similar molecule safety evaluation data obtained in the similar molecule safety evaluation data search step (step S24) are integrated to obtain integrated data (integration step: step S25).
  • step S25 Details of the integration step (step S25) will be described later.
  • the safety prediction device 1A uses the output unit 80 to output the integrated data integrated by the integration unit 40 (output step: step S26).
  • the safety prediction device 1A uses the output unit 80 to output the prediction result and the prediction confidence in the integrated data when the prediction confidence is high, and when the safety prediction confidence is low
  • the safety evaluation data of similar molecules may be output by display or the like.
  • step S23 The step of predicting the safety evaluation of a molecule and calculating the degree of certainty of the prediction (step S23) may be performed at the same time as the step of retrieving the safety evaluation data of a similar molecule (step S24). It may be performed after the evaluation data search step (step S24).
  • FIG. 13 is a flow chart for explaining the confirmation step (step S22) of FIG.
  • the safety prediction device 1A uses the safety prediction unit 20 to input all structural formulas of molecules to be evaluated for safety evaluation (step of inputting structural formulas of all molecules to be evaluated). : step S221).
  • SMILES as shown in FIG. 2 may be obtained.
  • the safety prediction device 1A uses the safety prediction unit 20 to acquire the structural formula of one molecule out of all the molecules input as evaluation targets (step of acquiring the structural formula of one molecule: step S222 ).
  • the safety prediction device 1A uses the safety prediction unit 20 to check for entry errors in the structural formula of one molecule (entry error confirmation step: step S223).
  • the safety prediction device 1A uses the safety prediction unit 20 to determine whether or not a structural formula calculation error has been confirmed for all molecules (description error determination step: step S224).
  • step S224 If calculation errors have not been confirmed for all molecules (step S224: No), the structural formulas of unconfirmed molecules are obtained again (step S222).
  • step S224 When calculation errors are confirmed for all molecules (step S224: Yes), the safety prediction device 1A causes the safety prediction unit 20 to output a table of structural formulas without description errors to a file ( Step of outputting a table of structural formulas without description errors: step S225).
  • the safety prediction device 1A uses the safety prediction unit 20 to output a table of structural formulas with description errors to a file (process for outputting structural formulas with description errors: step S226).
  • FIG. 14 is a flow chart for explaining the step of predicting the safety evaluation of molecules in FIG. 12 and calculating the certainty of the prediction (step S23).
  • the safety prediction device 1A acquires the model obtained by the model learning unit 60 as the property prediction model 70 by the safety prediction unit 20 (property prediction model acquisition step: step S231).
  • the safety prediction device 1A uses the safety prediction unit 20 to acquire a table of structural formulas without writing errors (structural formula acquisition step: step S232).
  • the safety prediction device 1A uses the safety prediction unit 20 to acquire the structural formula of one molecule out of all the molecules listed in the table of structural formulas that have no description errors (the Structural Formula Acquisition Step: Step S233).
  • the safety prediction device 1A uses the safety prediction unit 20 to generate a feature amount of one molecule (step of generating a feature amount of one molecule: S234).
  • the safety prediction device 1A uses the safety prediction unit 20 to predict the safety evaluation of one molecule and calculate the certainty of the prediction (prediction of the safety evaluation of the molecule and the certainty of the prediction). degree calculation step: S235).
  • the safety prediction device 1A determines whether or not the safety prediction unit 20 has predicted the safety evaluation for all molecules and calculated the confidence of the prediction (safety prediction for all molecules). Judgment step of prediction of evaluation and calculation of certainty of the prediction: step S236).
  • step S236 If the prediction of safety evaluation and the calculation of the certainty of the prediction have not been performed for all molecules (step S236: No), the structural formulas of unconfirmed molecules are obtained again (step S232). .
  • step S236 When the safety evaluation prediction and the calculation of the confidence of the prediction have been performed for all molecules (step S236: Yes), the molecule containing the prediction of the safety evaluation of all molecules and the confidence of the prediction to a file (step of outputting a table of molecular safety evaluation prediction results: step S237).
  • FIG. 15 is a flow chart for explaining the step of obtaining safety evaluation data for similar molecules (step S24) in FIG.
  • the safety prediction device 1A acquires the safety evaluation data of all molecules from the safety evaluation database by the similar molecule data search unit 30 (the step of obtaining the safety evaluation data of all molecules). : step S241).
  • the safety prediction device 1A uses the similar molecule data search unit 30 to acquire a structural formula table that does not contain description errors (structural formula table acquisition step: step S242).
  • the safety prediction device 1A acquires the structural formula of one molecule out of all the molecules listed in the table of structural formulas that do not have a description error by the similar molecule data search unit 30 (one Molecular structural formula acquisition step: step S243).
  • the safety prediction device 1A uses the similar molecule data search unit 30 to calculate the degree of similarity between the acquired molecule and all the molecules in the safety evaluation database (similarity degree calculation step: step S244). .
  • the safety prediction device 1A causes the similar molecule data search unit 30 to perform a predetermined number of safety safety evaluation data is acquired (step of acquiring a predetermined number of safety evaluation data: step S245).
  • the safety prediction device 1A determines whether or not similar molecules have been searched for for all molecules listed in the table of structural formulas that do not have description errors by the similar molecule data search unit 30 ( Judgment step of similar molecule search for all molecules: step S246).
  • step S246 If similar molecules have not been searched for all molecules (step S246: No), the structural formulas of unconfirmed molecules are obtained again (step S243).
  • step S246 When similar molecules have been searched for all molecules (step S246: Yes), a table of safety evaluation data for each similar molecule of all molecules is output (step S247).
  • FIG. 16 is a flow chart for explaining the integration step (step S25) of FIG.
  • the safety prediction device 1A uses the integration unit 40 to predict the safety evaluation of molecules and calculate the certainty of the prediction (Step S23). and the prediction result table of the molecular safety evaluation including the confidence of the prediction is obtained from the safety prediction unit 20 (step of obtaining the table of the prediction result of the molecular safety evaluation: step S251).
  • the safety prediction apparatus 1A causes the integration unit 40 to display the safety evaluation data of each similar molecule of all molecules obtained in the step of acquiring the safety evaluation data of similar molecules (step S24). is acquired from the similar molecule data search unit 30 (step of acquiring safety evaluation data of similar molecules: step S252).
  • the safety prediction device 1A integrates and integrates the prediction result table of the molecular safety evaluation and the safety evaluation data table of all similar molecules into one table by the integration unit 40.
  • a file is created (table integration step: step S253).
  • the safety prediction device 1A uses the output unit 80 to output an integrated file as shown in FIG. 7 (integrated file output process: step S254).
  • a safety prediction device 1A includes an input unit 10, a safety prediction unit 20, a similar molecule data search unit 30, and an output unit 80.
  • the safety prediction unit 20 calculates the prediction of the safety evaluation of the molecule and the degree of certainty of the prediction
  • the similar molecule data search unit 30 acquires the safety evaluation data of the similar molecule.
  • the safety prediction device 1A can appropriately provide the user with the prediction result of the safety evaluation of the compound by quantifying and outputting the certainty of the prediction of the safety evaluation of the molecule.
  • the confidence of the prediction is high, the user can use the prediction result as it is, so that the safety of the compound can be evaluated quickly, accurately, and easily.
  • the prediction confidence is low, the user can quickly and easily evaluate the safety of the compound by considering whether to adopt the prediction results or the safety evaluation data. . Therefore, the safety prediction device 1A can highly accurately evaluate the safety of a compound while enhancing user convenience.
  • the output unit 80 when the prediction certainty is high, the output unit 80 outputs a message regarding the prediction result of the molecular safety evaluation and the prediction certainty, and when the prediction certainty is low, , the prediction result of the molecular safety evaluation, the confidence of the prediction, and the safety evaluation data.
  • the user can accurately determine the safety evaluation content of the compound. Therefore, the safety prediction device 1A can appropriately and highly accurately evaluate the safety of a compound while improving user's convenience.
  • the safety prediction unit 20 can include the feature value calculation unit 21 and the prediction unit 22. Thereby, the safety prediction device 1A can calculate the feature amount based on the structural formula of the molecule by the feature amount calculation unit 21 and predict the safety of the molecule based on the feature amount calculated by the prediction unit 22 . Therefore, the safety prediction device 1A can more accurately evaluate the safety of compounds.
  • the safety prediction device 1A can input the structural formula of the molecule to the characteristic prediction model 70 in the feature quantity calculation unit 21 to calculate the feature quantity of the molecule.
  • the safety prediction unit 20 can easily and accurately predict the safety evaluation of a molecule from the structural formula of the molecule and the degree of certainty of the prediction, and can reduce the burden and time required for calculation. Therefore, the safety prediction device 1A can predict the safety evaluation of a compound with high accuracy, simply, and at a low computational cost.
  • the similar molecule data search unit 30 can include a similarity evaluation unit 31 and a data search unit 32.
  • the safety prediction device 1A uses the similarity evaluation unit 31 to evaluate the degree of similarity between the input molecule and a plurality of molecules listed in the safety evaluation database 33, and the data search unit 32 evaluates the degree of similarity. It is possible to obtain safety evaluation data for highly similar molecules. Therefore, the safety prediction device 1A can more accurately evaluate the safety of compounds.
  • the safety prediction device 1A can include an output unit 80.
  • the safety prediction apparatus 1A can visually present information on the prediction result of the safety evaluation of the predicted compound and information on similar molecule data to the user, so that the user can receive information on the compound. can be easily grasped.
  • the safety prediction device 1A can predict the safety of a compound simply and at a low calculation cost with high accuracy. can be predicted with high accuracy, it can be suitably used for safe research and development, product manufacturing, and the like.
  • the safety prediction device 1A can be effectively used for evaluation tests such as biodegradability, bioaccumulation, mutagenicity, fish acute toxicity, crustacean immobility toxicity, algae growth inhibition toxicity, mammalian repeated toxicity, and the like.
  • Mutagenicity evaluation tests include reverse mutation tests (Ames test), chromosomal aberration tests, and the like.
  • fish acute toxicity evaluation tests include measurement of LC50 (median lethal concentration) according to "Fish acute toxicity test-JIS K 0102.71-”.
  • Evaluation tests for crustacean immobilization toxicity include measurement of 50% immobilization concentration (EC 50 ) and the like.
  • Evaluation tests for algae growth inhibitory toxicity include measurement of 50% growth inhibitory concentration (EC 50 ) and the like.
  • Evaluation tests for mammalian repeated toxicity include measurement of the lowest observed adverse effect level (NOAEL) and the like.
  • FIG. 17 is a block diagram showing a schematic configuration of a safety prediction device according to this embodiment.
  • the safety prediction device 1B further includes a verification unit 110 in addition to the configuration of the safety prediction device 1A according to the first embodiment. Since the components other than the verification unit 110 are the same as the safety prediction device 1A according to the above-described first embodiment, the details are omitted.
  • the verification unit 110 determines the validity of the molecular safety evaluation prediction results by determining the degree of matching between the molecular safety evaluation prediction results and the safety evaluation data.
  • the verification unit 110 determines the degree of matching between the prediction result of the safety evaluation of the molecule and the safety evaluation data of the similar molecule. If the prediction result and the prediction result of the safety evaluation data of the similar molecule match, the verification unit 110 regards the prediction result as valid although the prediction confidence is low (low confidence OK). If the prediction result and the prediction result of the molecular safety evaluation data do not match, the verification unit 110 regards the prediction result as having a low certainty and being invalid (low certainty NG). The verification unit 110 refers to the safety evaluation data of the similar molecule only when the prediction confidence is low, thereby reducing the frequency of use of the safety evaluation data of the similar molecule, thereby improving convenience for the user. planned.
  • the validity of the prediction result of molecular safety evaluation may be determined based on the majority of the safety evaluation data of a plurality (for example, 20) of similar molecules from the safety evaluation data.
  • a predetermined number e.g., 11
  • the unit 110 may determine that the molecule to be predicted has an OK safety evaluation and good resolution, and may be regarded as OK with low confidence.
  • the safety evaluation of the molecule to be predicted is OK and exhibits good degradability. Therefore, the prediction result of the safety evaluation of the molecule obtained from the safety evaluation data is consistent with the safety evaluation data of the similar molecule. Therefore, the verification unit 110 can determine that the predicted result of molecular safety evaluation is valid.
  • the verification unit 110 determines that the molecule to be predicted is difficult to decompose, and can be regarded as NG with a low degree of confidence.
  • the safety evaluation of the molecule to be predicted is OK, indicating good degradability, but when referring to the safety evaluation data of similar molecules, the safety evaluation of the molecule to be predicted is NG, Because of its persistence, the prediction results of the safety evaluation of the molecule do not match the safety evaluation data of similar molecules. Therefore, the verification unit 110 can determine that the predicted result of molecular safety evaluation is invalid.
  • the verification unit 110 determines the number of safety evaluation data of the similar molecule by majority vote. The determination may be made based on the sum of the similarities of the similar molecules, or the sum of the values obtained by multiplying the similarities of the similar molecules by weights.
  • the weight may be the same value for each similar molecule, or may be a different value.
  • the output unit 80 outputs a message indicating that the prediction result of the safety evaluation of the molecule matches the safety evaluation data of the similar molecule when the prediction certainty is low and the matching degree is high. However, if the prediction certainty and matching are low, a message may be output indicating that the prediction result of the safety evaluation of the molecule does not match the safety evaluation data of the similar molecule.
  • the content of the message may be: The consistency with the evaluation data is high.”
  • the prediction confidence and match are low, the content of the message is "Prediction confidence is less than 50% and the prediction result of the molecule safety evaluation is consistent with the safety evaluation data of the similar molecule. is also low.”
  • a safety prediction method to which the safety prediction device according to this embodiment is applied is a method of predicting the safety of a compound using a safety prediction device 1B having a configuration as shown in FIG.
  • FIG. 18 is a flowchart for explaining the safety prediction method according to this embodiment.
  • the input unit 10 of the safety prediction device 1B inputs structural formulas of one or more molecules that are evaluation targets for safety evaluation (input step: step S31).
  • the safety prediction device 1B uses the safety prediction unit 20 to check for entry errors in the input structural formula (confirmation step: step S32).
  • the confirmation step (step S32) is the same as the confirmation step (step S22) of the safety prediction method according to the first embodiment shown in FIG. 12, so details will be omitted. Note that the confirmation step (step S32) may not be performed.
  • the safety prediction device 1B uses the safety prediction unit 20 to predict the molecular safety evaluation and calculate the confidence of the prediction, including the prediction of the safety evaluation of the molecule and the confidence of the prediction.
  • a table of prediction results of molecular safety evaluation is obtained (step of predicting molecular safety evaluation and calculating certainty of the prediction: step S33).
  • the molecular safety evaluation prediction and prediction confidence calculation step (step S33) includes the molecular safety evaluation prediction and the prediction confidence of the safety prediction method according to the first embodiment shown in FIG. Since this is the same as the degree calculation step (step S23), the details are omitted.
  • the safety prediction device 1B uses the similar molecule data search unit 30 to search and acquire safety evaluation data of similar molecules of the molecule to be evaluated for safety (similar molecule safety evaluation data search step: step S34).
  • the similar molecule safety evaluation data search step (step S34) is the same as the similar molecule safety evaluation data search step (step S24) of the safety prediction method according to the first embodiment shown in FIG. Therefore, details are omitted.
  • the safety prediction device 1B uses the verification unit 110 to determine whether or not the confidence of the prediction is 50% or more after the process of predicting the safety evaluation of the molecule and calculating the confidence of the prediction (step S33). (prediction certainty determination step: step S35).
  • step S35 if the prediction certainty is 50% or more (step S35: Yes), the safety prediction device 1B causes the output unit 80 to perform molecular safety evaluation.
  • the prediction result is output (step of outputting the prediction result: step S36).
  • step S35 When the prediction certainty is less than 50% (step S35: No), the safety prediction device 1B causes the verification unit 110 to search for safety evaluation data of similar molecules (step S34), It is determined whether or not there is a high degree of matching between the prediction result of the safety evaluation and the safety evaluation data of the similar molecule (step of determining the degree of matching: step S37).
  • step S37 When the degree of matching between the molecular safety evaluation prediction result and the similar molecule safety evaluation data is high (step S37: Yes), the safety prediction device 1B causes the verification unit 110 to determine that the prediction certainty is low. considers the prediction result of molecular safety evaluation to be valid (OK with low confidence), and outputs a table of prediction results of molecular safety evaluation by the output unit 80 (prediction result of molecular safety evaluation Table output process: step S36).
  • the safety prediction device 1A When the degree of matching between the molecular safety evaluation prediction result and the similar molecule safety evaluation data is low (step S37: No), the safety prediction device 1A causes the verification unit 110 to determine that the prediction certainty is low. , considers the predicted outcome of the safety assessment of the molecule to be invalid (low confidence NG).
  • the safety prediction apparatus 1A causes the integration unit 40 to generate a table of molecular safety evaluation prediction results obtained in the step of predicting molecular safety evaluation and calculating confidence in the prediction (step S33), and similar molecule are integrated with the safety evaluation data of similar molecules obtained in the evaluation data search step (step S34) to obtain integrated data (integration step: step S38).
  • the integration step (step S38) is the same as the integration step (step S25) of the safety prediction method according to the first embodiment shown in FIG. 12, so details will be omitted.
  • the safety prediction device 1B uses the output unit 80 to output integrated data (see FIG. 7) integrated by the integration unit 40 (output step: step S39).
  • step S33 the step of predicting the safety evaluation of a molecule and calculating the certainty of the prediction is performed simultaneously with the step of retrieving safety evaluation data of similar molecules (step S34). Alternatively, it may be performed after the similar molecule safety evaluation data search step (step S34).
  • a safety prediction device 1B according to the present embodiment further includes a verification unit 110 in addition to the configuration of the safety prediction device 1A according to the first embodiment.
  • the validity of the prediction results is verified, and the degree of agreement between the molecular safety evaluation prediction results and the safety evaluation data is determined.
  • the safety prediction device 1B refers to the safety evaluation data of similar molecules and determines the degree of matching between the prediction result of the safety evaluation of the molecule and the safety evaluation data, even when the prediction certainty is low. By doing so, even for compounds whose safety evaluation is difficult to predict, the safety evaluation of the compound can be performed with higher accuracy. Therefore, the safety prediction apparatus 1A can perform the safety evaluation of the compound with higher accuracy while further improving user's convenience.
  • the output unit 80 outputs a message regarding the prediction result of the molecular safety evaluation and the prediction confidence when the prediction confidence is high, and outputs a message regarding the prediction confidence when the prediction confidence is low. , the prediction result of the molecular safety evaluation, the confidence of the prediction, and the safety evaluation data.
  • the user can more accurately judge the safety evaluation of the compound by checking the content of the output message. Therefore, also in the safety prediction apparatus 1B, the safety evaluation of the compound can be appropriately performed with high accuracy while improving the convenience for the user.
  • the safety prediction device 1B can output a message indicating that the prediction result of the molecular safety evaluation matches the safety evaluation data when the prediction confidence is low and the matching degree is high. , when the prediction confidence and match are low, a message can be output indicating that the molecular safety evaluation prediction results do not match the safety evaluation data.
  • the safety prediction device 1B can provide the user with the prediction result of the safety evaluation of the predicted compound and the degree of agreement with the safety evaluation data. By confirming the content of the output message, the user can more accurately judge the safety evaluation of the compound. Therefore, the safety prediction apparatus 1B can more appropriately and accurately evaluate the safety of a compound, especially a compound whose safety evaluation is difficult to predict, while improving convenience for the user.
  • the safety prediction device 1B can predict the safety of a compound easily and with high accuracy at a low calculation cost. Since the safety of a compound can be predicted with high accuracy, it can be suitably used for safe research and development, manufacturing of products, and the like.
  • the safety prediction device 1B like the safety prediction device 1A, evaluates biodegradability, bioaccumulation, mutagenicity, fish acute toxicity, crustacean immobilization toxicity, algae growth inhibition toxicity, mammal repeat toxicity, etc. It can be effectively used for testing.
  • FIG. 19 is a block diagram showing the hardware configuration of safety prediction devices 1A and 1B.
  • the safety prediction devices 1A and 1B are configured by an information processing device (computer), and physically include a CPU (Central Processing Unit: processor) 101 which is an arithmetic processing unit, and a main storage device.
  • a computer system including a RAM (Random Access Memory) 102 and a ROM (Read Only Memory) 103, an input device 104 as an input device, an output device 105, a communication module 106, an auxiliary storage device 107 such as a hard disk, and the like. can. These are interconnected by a bus 108 .
  • the output device 105 and the auxiliary storage device 107 may be provided outside.
  • the CPU 101 controls the overall operation of the safety prediction devices 1A and 1B and performs various types of information processing.
  • the CPU 101 executes a safety prediction program stored in the ROM 103 or the auxiliary storage device 107 to control display operations of the measurement recording screen and the analysis screen.
  • the RAM 102 is used as a work area for the CPU 101 and may include a non-volatile RAM that stores main control parameters and information.
  • the ROM 103 stores basic input/output programs and the like.
  • the safety prediction program may be stored in ROM 103 .
  • the input device 104 is a keyboard, mouse, operation buttons, touch panel, or the like.
  • the output device 105 is a monitor display or the like.
  • the output device 105 displays prediction results and the like, and the screen is updated according to input/output operations via the input device 104 and the communication module 106 .
  • the communication module 106 is a data transmission/reception device such as a network card, and functions as a communication interface that takes in information from an external data recording server or the like and outputs analysis information to other electronic devices.
  • Auxiliary storage device 107 is a storage device such as SSD (Solid State Drive) and HDD (Hard Disk Drive), and stores, for example, various data, files, etc. necessary for the operation of safety prediction devices 1A and 1B. .
  • SSD Solid State Drive
  • HDD Hard Disk Drive
  • each function of the safety prediction devices 1A and 1B shown in FIGS. the CPU 101 executes a safety prediction program or the like stored in the ROM 103 or the auxiliary storage device 107 .
  • Each function of the safety prediction devices 1A and 1B is realized by operating the input device 104, the output device 105, and the communication module 106, and reading and writing data in the RAM 102, the ROM 103, the auxiliary storage device 107, and the like. be. That is, by executing the safety prediction program according to the present embodiment on a computer, the safety prediction devices 1A and 1B can realize functions as the respective processing units in FIGS. 1 and 17.
  • the safety prediction program is stored, for example, in the storage device of the computer.
  • a part or all of the safety prediction program may be transmitted via a transmission medium such as a communication line, received by the communication module 106 or the like provided in the computer, and recorded (including installation).
  • part or all of the safety prediction program is stored in a portable storage medium such as CD-ROM, DVD-ROM, flash memory, etc., and is recorded (including installation) in the computer. may be configured.
  • the program executed by the information processing device has a module configuration including each processing unit of the safety prediction devices 1A and 1B described above. Each processing unit is generated on a memory such as the RAM 102 or the like.
  • the safety prediction devices 1A and 1B may be configured as a system in which a plurality of information processing devices are communicatively connected, and each processing unit described above may be distributed to the plurality of information processing devices. .
  • it may be a virtual machine that operates on a cloud system.
  • 1A, 1B compound safety prediction device 10 input unit 20 safety prediction unit 21 feature amount calculation unit 22 prediction unit 30 similar molecule data search unit 31 similarity evaluation unit 32 data search unit 33 safety evaluation database 40 integration unit 50 storage Section 60 Model Learning Section 70 Characteristic Prediction Model 80 Output Section 110 Verification Section

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明に係る化合物の安全性予測装置(1A)は、一つ以上の分子の構造式を入力する入力部(10)と、前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部(20)と、前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部(30)と、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部(80)と、を備える。

Description

化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法
 本発明は、化合物の、安全性予測装置、安全性予測プログラム及び安全性予測方法に関する。
 化学品や医薬品等において使用される化合物の種類は何千万種も存在し、化合物は様々な構造を有する。化合物は、生態、環境に有害な影響を与える可能性があるため、化合物の分解性、毒性等の種々の安全性を予測することは極めて重要である。そこで、化学工業、製薬等の様々な分野において、化合物の種々の安全性を予測する化合物の安全性予測装置の開発が検討されている。
 化合物の安全性の予測率が低いと、人や環境に被害を与える可能性があるため、安全性予測装置を実用化するためには、化合物の安全性の予測に対して極めて高い信頼性を実現することが必須である。
 化合物の安全性を予測する化合物の安全性予測装置として、例えば、化粧品素材に関する情報を用いて計算された記述子の中から化粧品素材の特定の評価に有効な記述子を学習して解析する手段と、解析された記述子を用いて、特定の評価に有効な評価モデルを検索し、化粧品素材の刺激性、感作性又は反復投与毒性の予測値を取得する手段とを有する安全性評価システムが提案されている(例えば、特許文献1参照)。
 また、他の化合物の安全性予測装置として、例えば、催奇形性未知の一般化学物質分子と予めデータベース中に格納されている全ての催奇形性既知の医薬品分子の類似度を算出し、類似度の高い順に一般化学物質分子に関する医薬品安全性評価をスコア化して提供する化学構造の類似度を算出し、化合物の安全性を評価する方法が提案されている(例えば、特許文献2参照)。
日本国特許第5512077号公報 日本国特開2007-153767号公報
 しかしながら、特許文献1の技術は、化粧品素材の刺激性、感作性又は反復投与毒性の予測に限られるので、従来と異なる新規な化合物等、化合物の種類によっては化合物の安全性を高い精度で予測できない可能性が高いという問題があった。
 また、特許文献2の技術は、データベースに登録されている全ての医薬品分子に対して類似度を算出し、類似分子の安全性データを参照しなければならないため、化合物の安全性の評価に手間がかかり、使用者の利便性が低いという問題があった。
 本発明の一態様は、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる化合物の安全性予測装置を提供することを目的とする。
 本発明は、以下に示す構成を備える。
[1] 一つ以上の分子の構造式を入力する入力部と、
 前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部と、
 前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部と、
 前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部と、
を備える、化合物の安全性予測装置。
[2] 前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
 前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する[1]に記載の化合物の安全性予測装置。
[3] 前記類似分子の安全性評価データより前記分子の安全性評価の予測結果の妥当性を検証し、前記分子の安全性評価の予測結果と前記類似分子の安全性評価データとの合致度を判定する検証部を備える[1]に記載の化合物の安全性予測装置。
[4] 前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
 前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する[3]に記載の化合物の安全性予測装置。
[5] 前記予測の確信度が低い場合に、
 前記出力部は、前記合致度が高い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合することを示すメッセージを出力し、
 前記合致度が低い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合しないことを示すメッセージを出力する[4]に記載の化合物の安全性予測装置。
[6] 前記安全性予測部は、
 前記分子の構造式に基づいて前記分子の特徴量を算出する特徴量算出部と、
 前記特徴量に基づいて前記分子の安全性評価を予測すると共に前記予測の確信度を算出する予測部と、
を備える[1]~[5]の何れか一つに記載の化合物の安全性予測装置。
[7] 前記特徴量算出部は、前記分子の構造式に基づくフィンガープリント、又は前記分子の構造式に基づいて、量子化学計算により計算された物性値、定量的構造活性相関により推算された物性値及び前記分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて前記分子の特徴量を算出する[6]に記載の化合物の安全性予測装置。
[8] 前記類似分子データ検索部は、
 前記入力部で入力された前記分子の構造式と、過去に評価された評価済み分子の安全性評価結果が格納された安全性評価データベース中の複数の前記評価済み分子の構造式との類似度を計算する類似度評価部と、
 前記類似度が高い前記評価済み分子の安全性評価結果を前記類似分子の安全性評価データとして取得するデータ検索部と、
を備える[1]~[7]の何れか一つに記載の化合物の安全性予測装置。
[9] 一つ以上の分子の構造式を入力する入力工程と、
 前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
 前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
 前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
をコンピュータに実行させる、化合物の安全性予測プログラム。
[10] 一つ以上の分子の構造式を入力する入力工程と、
 前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
 前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
 前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を含む、化合物の安全性予測方法。
 本発明に係る化合物の安全性予測装置、安全性予測プログラム及び安全性予測方法の一態様は、分子の安全性の予測の確信度を数値化することで、化合物の安全性を適切に評価でき、確信度が高い場合には、その予測結果をそのまま採用することで、化合物の安全性の評価を高精度に行いつつ、迅速かつ容易に行うことができる。これにより、本発明に係る化合物の安全性予測装置、安全性予測プログラム及び安全性予測方法の一態様は、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる。
本発明の第1の実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。 構造式(SMILES)が記載された表の一例を示す図である。 予測の確信度が50%以上の場合に予測の確信度が高いとみなす場合の一例を示す説明図である。 分子の安全性評価の予測結果が記載された表の一例を示す図である。 類似分子の評価データの一例を示す図である。 類似分子の評価データの他の一例を示す図である。 統合ファイルの一例を示す図である。 学習データテーブルの一例を示す図である。 化合物の特徴量の一例を示す図である。 モデル学習部の構成を示す概略図である。 モデルの学習方法を説明するフローチャートである。 本発明の第1の実施形態に係る化合物の安全性予測方法を説明するフローチャートである。 図12の確認工程(ステップS22)を説明するフローチャートである。 図12の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)を説明するフローチャートである。 図12の類似分子の安全性評価データ検索工程(ステップS24)を説明するフローチャートである。 図12の統合工程(ステップS25)を説明するフローチャートである。 本発明の第2の実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。 本発明の第2の実施形態に係る化合物の安全性予測方法を説明するフローチャートである。 化合物の安全性予測装置のハードウェア構成を示すブロック図である。
 以下、本発明の実施形態について、詳細に説明する。なお、説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の符号を付して、重複する説明は省略する。また、本明細書において数値範囲を示す「~」は、別段の断わりがない限り、その前後に記載された数値を下限値及び上限値として含むことを意味する。
[第1の実施形態]
<化合物の安全性予測装置>
 本発明の第1の実施形態に係る化合物の安全性予測装置について説明する。図1は、本実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。図1に示すように、化合物の安全性予測装置(以下、単に「安全性予測装置」という)1Aは、入力部10、安全性予測部20、類似分子データ検索部30、統合部40、記憶部50、モデル学習部60、特性予測モデル70及び出力部80を備える。
 安全性予測装置1Aは、安全性予測部20で得られる分子の安全性評価の予測結果及びその予測の確信度と、類似分子データ検索部30で得られる安全性評価データとを出力する。これにより、ユーザ(使用者)は、確信度が高い場合には、その予測結果をそのまま採用し、確信度が低い場合には、予測結果及び安全性評価データのどちらを採用するか検討できる。よって、安全性予測装置1Aは、確信度を数値化して出力することで、安全性予測部20で得られる分子の安全性評価の予測結果及び類似分子データ検索部30で得られる安全性評価データの少なくともどちらか一方に基づいて、使用者は、化合物の安全性を判断することができる。したがって、安全性予測装置1Aは、使用者の利便性を高めると共に、化合物の安全性評価の精度を向上させることができる。
 なお、出力とは、後述するように、画面への表示、音声等を含む。
 確信度が高い及び確信度が低いとは、後述する高確信度及び低確信度と同様であり、確信度が高い又は確信度が低いと判断する閾値は、安全性を評価する分子の種類に応じて適宜設定可能である。例えば、閾値を50%としたとき、確信度がその閾値以上であれば、確信度が高いとする。
 安全性とは、化合物が人や環境に与える負荷の大きさを表わす指標であり、生分解性、生物濃縮性、変異原性、急性毒性、慢性毒性、阻害毒性、反復毒性等が挙げられる。
 入力部10は、安全性を評価する評価対象である、一つ以上の分子の構造式を入力する。
 構造式は、SMILES等を用いることができる。SMILESは、化合物の分子構造を文字列で表示したものである。構造式(SMILES)が記載された表の一例を図2に示す。図2に示すように、SMILESは、各化合物にID番号としてA1・・・を付け、各化合物のSMILESを表示する。各分子の構造式を含む表は、CSV、表計算ソフトウェアであるエクセル等の形式のデータから得てよい。入力部10は、図2に示すような各分子のSMILESが記載された表を入力してよい。
 入力部10は、入力される分子の構造式に記載ミスがないか確認してもよい。使用者が構造式を入力する際、誤入力する可能性がある。入力部10は、構造式の誤入力を確認することで、入力された分子の構造式が記載ミスであると判断できる。
 入力部10は、例えば、米国Anaconda社から配布されているソフトウェアであるAnaconda(登録商標)等のライブラリに含まれるRDKit等を使用して、入力された分子の構造式の分子Molオブジェクトへの変換の有無を確認することで、入力された分子の構造式の記載ミスを判断してよい。構造式がSMILESである場合、RDKitに含まれるMolFromSmilesを用いて、SMILESの文字列を読み込み、分子の構造式を読み込ませる。SMILESがMolオブジェクトに変換され、正常に分子Molオブジェクトが作成された場合には、入力された分子の構造式に記載ミスがないと判断できる。一方、SMILESがMolオブジェクトに変換されず、分子Molオブジェクトが作成されない場合には、入力された分子の構造式が間違いであると判断できる。
 入力部10は、記載ミスを有しない構造式を含む表と、記載ミスを有する構造式を含む表を別々に作成し、後述する出力部80で出力させてよい。これにより、使用者が構造式の入力を失敗した場合でも、安全性予測装置1Aが異常終了することなく安全性評価を予測できる。
 図1に示すように、安全性予測部20は、分子の安全性評価を予測すると共に、予測の確信度を算出する。安全性予測部20は、特徴量算出部21と、予測部22とを備える。
 特徴量算出部21は、分子の構造式に基づいて特徴量を算出する。
 特徴量は、記載ミスを有しない分子の構造式に基づいて求めることができる。特徴量は、RDkitに実装されているMorganフィンガープリント(Circularフィンガープリント)を用いて算出される、EXTENDED Connectivity Fingerprints(ECFP)相当のフィンガープリント、AtomPair等の別のフィンガープリント等の、分子の構造式に基づくフィンガープリントを用いることができる。特徴量は、分子の脂溶性を表すオクタノール/水分配係数(logP)等の物性でもよい。フィンガープリントは、部分構造の有無をそれぞれ1又は0で表現してもよいし、部分構造の数で表現してもよいし、部分構造の数を構成原子数で割った部分構造の比率で表現してもよい。
 特徴量は、分子の構造式に基づいて、量子化学計算により計算された物性値、分子の構造式と物性値との定量的構造活性相関により求められた物性値及び分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて算出してもよい。ここで、量子化学計算により計算された物性値としては、HOMO、LUMO、電荷、屈折率及び振動数等が挙げられる。構造活性相関とは、物質の化学構造上の特徴(又は物理化学定数)と生物学的な活性(例えば、分解性、蓄積性、各種毒性エンドポイント等)との相関関係を指す。
 また、特徴量は、融点、粘度及び比表面積等の実験で測定可能な物性値でもよい。
 予測部22は、特徴量算出部21で算出された特徴量に基づいて分子の安全性評価を予測すると共にその予測の確信度を計算する。
 分子の安全性評価の指標として、例えば、生物化学的酸素要求量(BOD)等を用いることができる。BODが所定値(例えば、60%)以上の場合には、分子の安全性は良好であると評価できる。
 予測の確信度は、特性予測モデル70を用いて計算できる。予測部22は、特徴量算出部21で算出された特徴量を説明変数として、特性予測モデル70に入力し、分類結果が「OK」である分類確率P(OK)を出力する。予測部22は、分類結果が「OK」である分類確率P(OK)に対して、以下の式(1)を用いて、予測の確信度(単位:%)を算出する。
予測の確信度(%)≡100×2×|0.5-P(OK)| ・・・(1)
(式(1)中、P(OK)は、分類結果が「OK」である分類確率である。)
 予測の確信度は0%~100%の値をとり、予測の確信度が100%に近いほど予測結果の正答率は高くなる。そのため、予測の確信度から使用者は予測結果が信頼できるか否か容易に判断できる。
 予測の確信度は、上記式(1)の通り、分類確率に対応しており、分類確率の大きさに応じて予測の確信度は変化する。図3に、予測の確信度が50%以上の場合に予測の確信度が高いとみなす場合の一例を示す。分類確率が0以上0.25以下の場合、予測の確信度は50%以上100%以下となり、「高確信度のNG」とみなす。分類確率が0.25より大きく0.50未満の場合、予測の確信度は0%より大きく50%未満となり、「低確信度のNG」とみなす。分類確率0.50以上0.75未満の場合、予測の確信度は0%以上50%未満となり、「低確信度のOK」とみなす。分類確率が0.75以上1.00以下の場合、予測の確信度は50%以上100%以下であり、「高確信度のOK」とみなす。このように、予測の確信度を定量化することで、使用者は、予測結果の信頼性を容易に判断できる。
 高確信度と低確信度を判断する閾値は、安全性を評価する分子の種類に応じて適宜設定可能であり、例えば、50%が好ましい。
 予測部22は、各分子の構造式と、予測結果と、予測の確信度とを含む分子の安全性評価の予測結果の表を作成できる。分子の安全性評価の予測結果が記載された表の一例を図4に示す。なお、図4では、分子の構造式にSMILESを用い、各化合物のID番号A1・・・と、各化合物のSMILESを用いる。分子の安全性評価の指標として、BODを用いる。BODが60%以上の場合には、分子の安全性評価は良好(OK)とし、BODが60%未満の場合には、分子の安全性は不良(NG)とした。
 図4に示すように、分子の安全性評価の予測結果の表には、安全性予測部20で得られる、各分子とそのSMILES毎に、分子の安全性評価の予測結果と、その予測の確信度を含めることができる。SMILESに誤入力がある場合には、「SMILES load error」を表示して、誤入力であり認識できないことを出力する。IDがA1~A3のように、安全性評価の予測の確信度が高い場合には、この予測は信用できるものと見なせる。一方、IDがA5のように、予測の確信度が低い場合には、この予測は信用が低いものと見なせる。予測の確信度が低い場合、使用者は、後述する類似分子データ検索部30で類似分子の検索を行った結果を参照して、安全性の評価対象の分子の安全性をより詳細に評価することができる。
 特徴量算出部21は、図4に示すような、分子の安全性評価の予測結果とその予測の確信度を含む分子の安全性評価の予測結果の表を作成し、後述する出力部80で出力させてよい。これにより、使用者が分子の安全性評価に関する予測結果を簡易に把握することができる。
 図1に示すように、類似分子データ検索部30は、評価対象である分子と類似する類似分子の安全性評価データを取得する。類似分子データ検索部30は、類似度評価部31と、データ検索部32とを備える。
 類似度評価部31は、入力部10で入力された分子の構造式と、安全性評価データベース33に格納されている複数の評価済み分子の構造式との類似度を計算して評価する。なお、類似度評価部31は、分子の構造式にSMILESを用いてよい。
 安全性評価データベース33は、過去に評価された評価済み分子の安全性評価データが格納されている。
 類似度は、RDkitに実装されているBulk Tanimoto Similarityを用いて、タニモト係数を算出することで求めることができる。類似度は、ダイス(Dice)係数、コサイン(cos)類似度等でもよい。
 類似度評価部31は、安全性評価データベース33に格納されている安全性評価データのうち、目的、使い易さ等に応じて適宜取得する類似分子の安全性評価データの数を変更でき、類似度が上位から所定の件数(例えば、上位20件)までのデータを類似分子の安全性評価データ(類似分子データ)として取得してよい。
 類似分子の安全性評価データとしては、例えば、図5及び図6に示すように、これらの分子に関する情報として、分子の化学式、CAS登録番号、分子の名称、構造式(SMILES)、安全性評価(BOD)、化審法の判定結果、残留性変化物1~5及び類似度が挙げられる。
 化審法判定とは、「化学物質の審査及び製造等の規制に関する法律」による判定をいう。
 残留性変化物とは、化審法等における生分解性試験において、試験後に残留する変化物をいう。
 図5に示すように、類似分子の安全性評価データを含む表には、一行目に評価対象の分子として、前述した図4中のIDがA3である分子の情報が表示され、二行目以降に過去データに記録されている類似分子の情報が表示される。一行目に表示される評価対象の分子を参照することで、評価対象の分子が難分解性であることが確認できる。そして、一行目に表示される評価対象の分子と、二行目以降に表示される類似分子とを比較することで、使用者は良分解性であるか難分解性であるかを確認できる。
 図6に示すように、類似分子の安全性評価データを含む他の例の表には、一行目に評価対象の分子として、前述した図4中のIDがA5である分子の構造式が表示され、二行目以降に過去データに記録されている類似分子の情報が表示される。一行目に表示される評価対象の分子の情報と、二行目以降に表示される類似分子とを比較することで、一行目に表示される評価対象の分子の分解性が確認できなくても、使用者は、類似分子が良分解性であるか難分解性であるか確認できるため、評価対象の分子も良分解性であるか難分解性であるかを判定し易くなる。
 類似度評価部31が、類似分子の安全性評価データを含む表に、評価対象である分子に関する情報と、類似分子に関する情報とをまとめて表示することで、評価対象の分子と類似分子を視覚的に比べることができるため、類似分子のうち、どの類似分子の安全性評価データを参照するか使用者によって判断され易くなる。
 類似度評価部31は、図5及び図6に示すような、類似分子の安全性評価データを含む表を作成し、後述する出力部80で出力させてよい。これにより、使用者が類似分子に関する情報を把握することができる。
 データ検索部32は、類似度が高い、類似分子の安全性評価データを取得する。
 図1に示すように、統合部40は、安全性予測部20で得られる、評価対象の分子の安全性評価の予測結果と予測の確信度とを含む予測結果ファイルと、類似分子データ検索部30で得られる安全性評価データを含む評価データファイルとを統合する。これにより、統合部40は、図7に示すような、安全性予測部20で得られる予測結果ファイル(図4参照)と、類似分子データ検索部30で得られる評価データファイル(図5及び図6参照)とを統合した統合ファイルが作成される。図7では、例えば、予測シートに予測結果ファイルの内容が記載され、A1シート、A2シート、・・・に各IDの分子の類似分子の評価データファイルが記載されている。
 統合部40は、統合ファイルを後述する出力部80で出力させてよい。これにより、使用者が統合ファイルに含まれる、評価対象の分子に関する情報と、類似分子の安全性評価に関する情報とをまとめて、容易に把握することができる。
 記憶部50は、化合物の分子の構造式、安全性評価、化合物の特徴量、化合物の特性等が対応付けられた関連データを学習データとして記憶する。学習データテーブルの一例を図8に示す。図8に示すように、学習データは、化合物の分子の、CAS登録番号、SMILES、化合物の目的変数として安全性評価結果であるBOD、化合物の特性として化審法の判定結果、残留性変化物の種類等の対応関係を含む。なお、図8中の「-」は「該当無し」を示す。化合物の特徴量は、対応する化合物のSMILESからECFP等の手法により計算される。例えば、図9に示すように、化合物の特徴量は、ECFPにより計算された特徴量1及び2等として数値の行列形式により表される。
 記憶部50は、関連データに、化合物の分子の構造式(例えば、SMILES等)、化合物の特徴量、化合物の特性等をそれぞれ入力して、関連データを更新してもよい。
 モデル学習部60は、記憶部50に記憶されている関連データを学習データとして利用してモデルの学習を行う。
 具体的には、モデル学習部60は、記憶部50に記憶された化合物の分子の構造式(例えば、SMILES等)及び化合物の特徴量を説明変数とし、化合物の予測したい特性を目的変数として用いる。これにより、モデル学習部60は、化合物の特徴量と、化合物の特性との対応関係を特定するモデルを学習し、学習済みモデル(特性予測モデル70)を生成する。モデル学習部60は、その対応関係が機械学習により学習データの対応関係に近づくように、モデルを学習させる。
 モデルは、機械学習の中でも、教師あり学習のアルゴリズムを適用することが好ましい。教師あり学習として、例えば、線形回帰(Linear regression)、ロジスティック回帰(Logistic regression)、ランダムフォレスト(Random Forest)、ブースティング(Boosting)、サポートベクターマシン(Support Vector Machine、SVM)、ニューラルネットワーク(Neural Network)等が挙げられる。ニューラルネットワークは、ニューラルネットワークを3層よりも多層にした深層学習(ディープラーニング)を用いることができる。ニューラルネットワークの種類としては、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、回帰型(再帰型)ニューラルネットワーク(Recurrent Neural Network、RNN)及び一般回帰ニューラルネットワーク(General Regression Neural Network)等を用いることができる。また、モデルは、関数等の数式で表してもよい。
 モデルとしては、具体的には、米国Anaconda社から配布されているソフトウェアであるAnaconda(登録商標)等を用いて構築した機械学習モデルを用いることができる。
 Anaconda(登録商標)には、scikit-learn等の機械学習で使用されるライブラリ群が含まれており、モデル学習部60は、これらのうちの何れか1つ以上を用いて、機械学習を行ってよい。
 また、モデル学習部60は、新たに記憶部50に記憶された安全性評価データから、化合物の分子の構造式(例えば、SMILES等)及び化合物の特徴量を説明変数、化合物の特性を目的変数として用いることで、学習済みのモデルについて再学習を行ってもよい。
 図10は、モデル学習部60の構成を示す概略図である。図10に示すように、モデル学習部60は、第1の取得部61、第2の取得部62、関数部63、判定部64、モデル65及び保存部66を有する。
 第1の取得部61は、化合物の分子の構造式(例えば、SMILES等)を含み、これらが列挙された表と、化合物の特性を列挙した表を含む学習データを取得する。
 学習データは、例えば、CSV、表計算ソフトウェアのエクセル等の形式のファイルで保存できる。
 第2の取得部62は、第1の取得部61で取得した学習データから、1分子の分子構造を取得する。
 1分子の分子構造としては、1分子のSMILESが好ましい。
 関数部63は、第2の取得部62で取得した、1分子の分子構造に基づいて、特徴量を計算する。特徴の計算方法は、特徴量算出部21と同様に行うことができるため、詳細は省略する。
 判定部64は、学習データが含む全ての分子の特徴量を計算したか否か判定する。
 モデル65は、記憶部50に記憶された化合物の分子の構造式及び化合物の特徴量を説明変数、化合物の特性を目的変数として、モデル学習部60によって学習が行われる。
 保存部66は、モデル学習部60がモデル65に学習を行わせることで生成した学習済みモデルを保存する。
 図1に示すように、特性予測モデル70は、モデル学習部60がモデル65に学習を行わせることで生成した学習済みモデルである。
 なお、予測の確信度の高低は、分類確率の所定値に応じて適宜設定可能であり、分類確率の所定値が0.50である場合、予測の確信度が高いとは、例えば、予測の確信度が50%以上である場合をいい、予測の確信度が低いとは、例えば、予測の確信度が50%未満である場合をいう。
 出力部80は、統合部40で得られた、分子の安全性評価の予測結果と、予測の確信度と、類似分子の安全性評価データとを出力する。即ち、出力部80は、統合ファイルを出力する。
 なお、出力は、モニタ等への表示、音声等を含み、使用者に報知できる方法であればよい。
 また、出力部80は、入力部10で作成した、記載ミスを有しない構造式(例えば、SMILES)の表と、記載ミスを有する構造式の表とを出力してよい。また、出力部80は、安全性予測部20で作成した、分子の安全性評価の予測結果とその予測の確信度を含む分子の安全性評価の予測結果の表を出力してよいし、類似度評価部31で作成した、類似分子に関する情報を含む類似分子の安全性評価データを出力してよい。さらに、出力部80は、統合ファイルを参照して、分子の安全性評価の予測の確信度が低い場合には、類似分子の安全性評価データの出力を行ってよい。
 出力部80は、分子の安全性評価の予測の確信度が高い(高確信度)場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、分子の安全性評価の予測の確信度が低い(低確信度)場合には、分子の安全性評価の予測結果、予測の確信度及び類似分子の安全性評価データに関するメッセージを出力してもよい。
 メッセージの内容は、例えば、予測の確信度が高い場合には、「分子の安全性評価の予測結果が高く、予測の確信度が50%以上である。」等と、予測の確信度が低い場合には、「分子の安全性評価の予測結果が低く、予測の確信度が50%未満である。」等としてよい。
<化合物の安全性予測プログラム>
 本実施形態に係る化合物の安全性予測プログラム(以下、単に「安全性予測プログラム」という)は、以下の構成のプログラムを用いることができる。
 即ち、本実施形態に係る安全性予測プログラムは、
 一つ以上の分子の構造式を入力する入力工程と、
 前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
 前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
 前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を少なくともコンピュータに実行させるプログラムを用いることができる。
<化合物の安全性予測方法>
 次に、本実施形態に係る安全性予測装置を適用した化合物の安全性予測方法(以下、単に「安全性予測方法」という)について説明する。本実施形態に係る安全性予測装置を適用した安全性予測方法は、図1に示すような構成を有する安全性予測装置1Aを用いて、化合物の安全性評価の予測を行う方法である。
 ここで、安全性予測方法において使用される特性予測モデル70の学習方法について説明する。特性予測モデル70は、上述の通り、モデル学習部60で構築したモデル65が適用されるため、特性予測モデル70の学習方法は、モデル65の学習方法として説明する。
 図11は、モデルの学習方法を説明するフローチャートである。図11に示すように、モデルの学習方法は、図10に示すような構成を有するモデル学習部60において、図1に示す安全性予測装置1Aの記憶部50に記憶された化合物の分子の構造式及び化合物の特徴量を含む説明変数と、化合物の特性を含む目的変数とが対応付けられた学習データを用いて、モデルの学習を行う方法である。
 モデルの学習方法では、安全性予測装置1Aは、第1の取得部61により、学習データを取得する(学習データの取得工程:ステップS11)。
 学習データは、化合物の分子の構造式(例えば、SMILES等)が列挙された表と、化合物の特性が列挙された表等を含む。
 次に、安全性予測装置1Aは、第2の取得部62により、学習データから、1分子の構造式を取得する(1分子の構造式の取得工程:ステップS12)。
 1分子の構造式としては、1分子のSMILESでもよい。
 次に、安全性予測装置1Aは、関数部63により、第2の取得部62で取得した1分子の構造式を用いて、scikit-learn、RDKit等のAnaconda(登録商標)に含まれるライブラリ群を使用することにより特徴量を計算する(特徴量の計算工程:ステップS13)。
 次に、安全性予測装置1Aは、判定部64により、学習データが含む全ての分子の特徴量を計算したか否か判定する(全ての分子の特徴量の判定工程:ステップS14)。
 全ての分子の特徴量を計算していない場合(ステップS14:No)には、1分子の構造式の取得工程(ステップS12)に戻り、特徴量が計算されていない残りの分子の構造式を取得する。
 全ての分子の特徴量が計算された場合(ステップS14:Yes)には、モデル学習部60により、全ての分子の特徴量を含む説明変数と、全ての分子の特性を含む目的変数とが対応付けられた学習データを用いて学習し、モデル65を構築する(学習工程:ステップS15)。
 学習部15は、学習データに含まれる説明変数の入力に応じて、説明変数に紐付けられた目的変数と合致した出力となるように、モデルに学習させる。
 次に、安全性予測装置1Aは、保存部66により、学習部15で構築されたモデルを保存する(保存工程:ステップS16)。
 次に、本実施形態に係る安全性予測装置を適用した安全性予測方法を説明する。図12は、本実施形態に係る安全性予測方法を説明するフローチャートである。図12に示すように、安全性予測装置1Aは、入力部10により、安全性を評価する評価対象である、一つ以上の分子の構造式が入力される(入力工程:ステップS21)。
 次に、安全性予測装置1Aは、安全性予測部20により、入力された構造式の記載ミスを確認する(確認工程:ステップS22)。
 確認工程(ステップS22)の詳細は、後述する。なお、確認工程(ステップS22)は行わなくてもよい。
 次に、安全性予測装置1Aは、安全性予測部20により、分子の安全性評価を予測すると共にその予測の確信度を算出し、分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を取得する(分子の安全性評価の予測及びその予測の確信度の算出工程:ステップS23)。
 分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)の詳細は、後述する。
 また、安全性予測装置1Aは、類似分子データ検索部30により、安全性の評価対象の分子の類似分子の安全性評価データを検索して取得する(類似分子の安全性評価データ検索工程:ステップS24)。
 類似分子の安全性評価データ検索工程(ステップS24)の詳細は、後述する。
 次に、安全性予測装置1Aは、統合部40により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)で得られた分子の安全性評価の予測結果及びその予測の確信度と、類似分子の安全性評価データ検索工程(ステップS24)で得られた類似分子の安全性評価データとを統合し、統合データを得る(統合工程:ステップS25)。
 統合工程(ステップS25)の詳細は、後述する。
 次に、安全性予測装置1Aは、出力部80により、統合部40により統合された統合データを出力する(出力工程:ステップS26)。
 安全性予測装置1Aは、出力部80により、統合データのうち、予測の確信度が高い場合は、予測結果及びその予測の確信度を表示等により出力し、安全性予測の確信度が低い場合には、予測結果及びその予測の確信度の他に、類似分子の安全性評価データを表示等により出力してもよい。
 なお、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)は、類似分子の安全性評価データ検索工程(ステップS24)と同時に行ってもよいし、類似分子の安全性評価データ検索工程(ステップS24)の後に行ってもよい。
 次に、図12の確認工程(ステップS22)を説明する。図13は、図12の確認工程(ステップS22)を説明するフローチャートである。図13に示すように、安全性予測装置1Aは、安全性予測部20により、安全性を評価する評価対象の分子の構造式を全て入力する(評価対象の全ての分子の構造式の入力工程:ステップS221)。
 分子の構造式としては、例えば、図2に示すようなSMILESを取得してよい。
 次に、安全性予測装置1Aは、安全性予測部20により、評価対象として入力した全ての分子のうちの一の分子の構造式を取得する(一の分子の構造式の取得工程:ステップS222)。
 次に、安全性予測装置1Aは、安全性予測部20により、一の分子の構造式の記載ミスを確認する(記載ミスの確認工程:ステップS223)。
 次に、安全性予測装置1Aは、安全性予測部20により、全ての分子に対して構造式の計算ミスを確認したか否か判定する(記載ミスの判定工程:ステップS224)。
 全ての分子に対して計算ミスを確認していない場合(ステップS224:No)には、再度、確認していない分子の構造式を取得する(ステップS222)。
 全ての分子に対して計算ミスを確認した場合(ステップS224:Yes)には、安全性予測装置1Aは、安全性予測部20により、記載ミスを有しない構造式の表をファイルに出力する(記載ミスを有しない構造式の表の出力工程:ステップS225)。
 次に、安全性予測装置1Aは、安全性予測部20により、記載ミスを有する構造式の表をファイルに出力する(記載ミスを有する構造式の出力工程:ステップS226)。
 次に、図12の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)を説明する。図14は、図12の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)を説明するフローチャートである。図14に示すように、安全性予測装置1Aは、安全性予測部20により、モデル学習部60で得られたモデルを特性予測モデル70として取得する(特性予測モデルの取得工程:ステップS231)。
 次に、安全性予測装置1Aは、安全性予測部20により、記載ミスを有しない構造式の表を取得する(構造式の取得工程:ステップS232)。
 次に、安全性予測装置1Aは、安全性予測部20により、記載ミスを有しない構造式の表に記載されている全て分子のうちの一の分子の構造式を取得する(一の分子の構造式の取得工程:ステップS233)。
 次に、安全性予測装置1Aは、安全性予測部20により、一の分子の特徴量を生成する(一の分子の特徴量の生成工程:S234)。
 次に、安全性予測装置1Aは、安全性予測部20により、一の分子の安全性評価の予測を行うと共にその予測の確信度を算出する(分子の安全性評価の予測及びその予測の確信度の算出工程:S235)。
 次に、安全性予測装置1Aは、安全性予測部20により、全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行ったか否か判定する(全ての分子の安全性評価の予測及びその予測の確信度の算出の判定工程:ステップS236)。
 全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行っていない場合(ステップS236:No)には、再度、確認していない分子の構造式を取得する(ステップS232)。
 全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行った場合(ステップS236:Yes)には、全ての分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表をファイルに出力する(分子の安全性評価の予測結果の表の出力工程:ステップS237)。
 次に、図12の類似分子の安全性評価データの取得工程(ステップS24)を説明する。図15は、図12の類似分子の安全性評価データの取得工程(ステップS24)を説明するフローチャートである。図15に示すように、安全性予測装置1Aは、類似分子データ検索部30により、安全性評価データベースから全ての分子の安全性評価データを取得する(全ての分子の安全性評価データの取得工程:ステップS241)。
 次に、安全性予測装置1Aは、類似分子データ検索部30により、記載ミスを有しない構造式の表を取得する(構造式の表の取得工程:ステップS242)。
 次に、安全性予測装置1Aは、類似分子データ検索部30により、記載ミスを有しない構造式の表に記載されている全ての分子のうちの一の分子の構造式を取得する(一の分子の構造式の取得工程:ステップS243)。
 次に、安全性予測装置1Aは、類似分子データ検索部30により、取得した一の分子と安全性評価データベース中の全ての分子との類似度を計算する(類似度の計算工程:ステップS244)。
 次に、安全性予測装置1Aは、類似分子データ検索部30により、類似度の計算工程(ステップS244)で計算して得られた全ての分子のうち、類似度の上位から所定の件数の安全性評価データを取得する(所定の件数の安全性評価データの取得工程:ステップS245)。
 次に、安全性予測装置1Aは、類似分子データ検索部30により、記載ミスを有しない構造式の表に記載されている全ての分子に対して、類似分子を検索したか否か判定する(全ての分子の類似分子検索の判定工程:ステップS246)。
 全ての分子に対して類似分子を検索していない場合(ステップS246:No)には、再度、確認していない分子の構造式を取得する(ステップS243)。
 全ての分子に対して類似分子を検索した場合(ステップS246:Yes)には、全ての分子の、それぞれの類似分子の安全性評価データの表を出力する(ステップS247)。
 次に、図12の統合工程(ステップS25)を説明する。図16は、図12の統合工程(ステップS25)を説明するフローチャートである。図16に示すように、安全性予測装置1Aは、統合部40により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)で求めた、全ての分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を安全性予測部20から取得する(分子の安全性評価の予測結果の表の取得工程:ステップS251)。
 次に、安全性予測装置1Aは、統合部40により、類似分子の安全性評価データの取得工程(ステップS24)で得られた、全ての分子の、それぞれの類似分子の安全性評価データの表を類似分子データ検索部30から取得する(類似分子の安全性評価データの取得工程:ステップS252)。
 次に、安全性予測装置1Aは、統合部40により、分子の安全性評価の予測結果の表と、全ての分子の類似分子の安全性評価データの表とを1つの表に統合して統合ファイルを作成する(表の統合工程:ステップS253)。
 次に、安全性予測装置1Aは、出力部80により、図7に示すような統合ファイルを出力する(統合ファイルの出力工程:ステップS254)。
 本実施形態に係る安全性予測装置1Aは、入力部10、安全性予測部20、類似分子データ検索部30及び出力部80を備える。安全性予測装置1Aは、安全性予測部20で、分子の安全性評価の予測とその予測の確信度とを算出し、類似分子データ検索部30で類似分子の安全性評価データを取得する。安全性予測装置1Aは、分子の安全性評価の予測の確信度を数値化して出力することで、使用者に化合物の安全性評価の予測結果を適切に提供できる。予測の確信度が高い場合には、使用者は、その予測結果をそのまま採用することで、化合物の安全性の評価を高精度に迅速かつ容易に行うことができる。予測の確信度が低い場合には、使用者は、予測結果及び安全性評価データのどちらを採用するか検討することで、化合物の安全性の評価を高精度に迅速かつ容易に行うことができる。よって、安全性予測装置1Aは、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる。
 安全性予測装置1Aは、出力部80が、予測の確信度の高い場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、予測の確信度の低い場合には、分子の安全性評価の予測結果、予測の確信度及び安全性評価データに関するメッセージを出力できる。使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価内容を的確に判断することができる。よって、安全性予測装置1Aは、使用者の利便性をより高めながら、高精度に化合物の安全性評価を適切に行うことができる。
 安全性予測装置1Aは、安全性予測部20が特徴量算出部21及び予測部22を備えることができる。これにより、安全性予測装置1Aは、特徴量算出部21で分子の構造式に基づき特徴量を算出し、予測部22で算出した特徴量に基づいて分子の安全性を予測できる。そのため、安全性予測装置1Aは、化合物の安全性評価をより高精度に行うことができる。
 安全性予測装置1Aは、特徴量算出部21で分子の構造式を特性予測モデル70に入力して、分子の特徴量を算出できる。安全性予測部20は、分子の構造式から分子の安全性評価の予測とその予測の確信度を精度良く簡易に予測できると共に、計算に要する負担及び時間を抑えることができる。よって、安全性予測装置1Aは、化合物の安全性評価の予測を高精度に簡便かつ低い計算コストで予測できる。
 安全性予測装置1Aは、類似分子データ検索部30が類似度評価部31及びデータ検索部32を備えることができる。これにより、安全性予測装置1Aは、類似度評価部31で、入力された分子と安全性評価データベース33に記載の複数の分子との類似度を評価し、データ検索部32で、類似度の高い類似分子の安全性評価データを取得できる。よって、安全性予測装置1Aは、化合物の安全性評価をより高精度に行うことができる。
 安全性予測装置1Aは、出力部80を備えることができる。これにより、安全性予測装置1Aは、使用者に対して、予測された化合物の安全性評価の予測結果に関する情報と、類似分子データに関する情報を視覚的に提示できるので、使用者が化合物に関する情報を容易に把握できる。
 このように、安全性予測装置1Aは、化合物の安全性を簡便かつ低い計算コストで高精度に予測できるため、例えば、化学工業、製薬等において用いられる材料、薬品等に用いられる化合物の安全性を高精度に予測できるため、研究開発、製品の製造等を安全に行うのに好適に用いることができる。
 また、安全性予測装置1Aは、生分解性、生物濃縮性、変異原性、魚類急性毒性、甲殻類遊泳阻害毒性、藻類成長阻害毒性、哺乳類反復毒性等の評価試験に有効に用いることができる。変異原性の評価試験としては、復帰突然変異試験(エームス(Ames)試験)、染色体異常試験等が挙げられる。魚類急性毒性の評価試験としては、「魚類による急性毒性試験- JIS K 0102.71-」によりLC50(Median lethal concentration:半数致死濃度)の測定等が挙げられる。甲殻類遊泳阻害毒性の評価試験としては、半数遊泳阻害濃度(EC50)の測定等が挙げられる。藻類成長阻害毒性の評価試験としては、50%生長阻害濃度(EC50)の測定等が挙げられる。哺乳類反復毒性の評価試験としては、最小毒性量(NOAEL)の測定等が挙げられる。
[第2の実施形態]
<安全性予測装置>
 本発明の第2の実施形態に係る安全性予測装置について説明する。図17は、本実施形態に係る安全性予測装置の概略構成を示すブロック図である。図17に示すように、安全性予測装置1Bは、上述の第1の実施形態に係る安全性予測装置1Aの構成に加えて、さらに検証部110を備える。検証部110以外は、上述の第1の実施形態に係る安全性予測装置1Aと同様であるため、詳細は省略する。
 検証部110は、分子の安全性評価の予測結果と安全性評価データとの合致度を判定することで、分子の安全性評価の予測結果の妥当性を判定する。
 検証部110は、予測の確信度が低い場合には、分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度を判定する。検証部110は、予測結果と、類似分子の安全性評価データの予測結果とが合致する場合には、予測の確信度は低いが予測結果は妥当である(低確信度のOK)と見なす。検証部110は、予測結果と、分子の安全性評価データの予測結果とが合致しない場合には、予測の確信度は低く、予測結果は妥当でない(低確信度のNG)と見なす。検証部110は、予測の確信度が低い場合のみ、類似分子の安全性評価データを参照することで、類似分子の安全性評価データの使用頻度を下げられるため、使用者の利便性の向上が図られる。
 例えば、図4のIDがA5の場合、図4に示すように、安全性評価がOKであり、良分解性を示すとする。A5の予測の確信度は42%であり、50%未満である。この場合、安全性評価データから複数(例えば、20個)の類似分子の安全性評価データの多数決により分子の安全性評価の予測結果の妥当性を判定してよい。
 複数(例えば、20個)の類似分子の安全性評価データのうち、所定数(例えば、11個)以上の類似分子の安全性評価データが合致しており、合致度が高い場合には、検証部110は、予測対象の分子は、安全性評価がOKであり、良分解性であると判断し、低確信度のOKと見なしてよい。この場合、予測対象の分子の安全性評価はOKであり、良分解性を示し、類似分子の安全性評価データを参照した場合も、予測対象の分子の安全性評価はOKであり、良分解性を示すことになり、安全性評価データより得られる分子の安全性評価の予測結果と、類似分子の安全性評価データとが整合する。そのため、検証部110は、分子の安全性評価の予測結果は妥当であると判定できる。
 一方、複数(例えば、20個)の類似分子の安全性評価データのうち、所定数(例えば、11個)未満の類似分子の安全性評価データしか合致せず、合致度が低い場合には、検証部110は、予測対象の分子が難分解性であると判断し、低確信度のNGと見なせる。この場合、予測対象の分子の安全性評価はOKであり、良分解性を示すが、類似分子の安全性評価データを参照した場合には、予測対象の分子の安全性評価はNGであり、難分解性を示すため、分子の安全性評価の予測結果と、類似分子の安全性評価データとは整合しない。そのため、検証部110は、分子の安全性評価の予測結果は妥当でないと判定できる。
 なお、分子の安全性評価の予測結果と、類似分子の安全性評価データとの合致度を判定する際、検証部110は、類似分子の安全性評価データの個数の多数決で判断する以外に、それぞれの類似分子の類似度の合計で判断してもよいし、それぞれの類似分子の類似度に重みを乗じた値の合計で判断してもよい。重みは、それぞれの類似分子ごとに同じ値でもよいし、異なる値でもよい。
 本実施形態では、出力部80は、予測の確信度が低く、合致度が高い場合には、分子の安全性評価の予測結果が類似分子の安全性評価データと整合することを示すメッセージを出力し、予測の確信度及び合致度が低い場合には、分子の安全性評価の予測結果が類似分子の安全性評価データと整合しないことを示すメッセージを出力してよい。
 メッセージの内容としては、例えば、予測の確信度が低く、合致度が高い場合には、「予測の確信度が50%未満であるが、分子の安全性評価の予測結果と類似分子の安全性評価データとの整合性は高い。」等としてよい。予測の確信度及び合致度が低い場合には、メッセージの内容は、「予測の確信度が50%未満であり、分子の安全性評価の予測結果と類似分子の安全性評価データとの整合性も低い。」等としてよい。
<安全性予測方法>
 次に、本実施形態に係る安全性予測装置を適用した安全性予測方法について説明する。本実施形態に係る安全性予測装置を適用した安全性予測方法は、図17に示すような構成を有する安全性予測装置1Bを用いて、化合物の安全性の予測を行う方法である。
 本実施形態に係る安全性予測装置1Bを適用した安全性予測方法を説明する。図18は、本実施形態に係る安全性予測方法を説明するフローチャートである。図18に示すように、安全性予測装置1Bは、入力部10により、安全性を評価する評価対象である、一つ以上の分子の構造式が入力される(入力工程:ステップS31)。
 次に、安全性予測装置1Bは、安全性予測部20により、入力された構造式の記載ミスを確認する(確認工程:ステップS32)。
 確認工程(ステップS32)は、図12に示す第1の実施形態に係る安全性予測方法の確認工程(ステップS22)と同様であるため、詳細は省略する。なお、確認工程(ステップS32)は行わなくてもよい。
 次に、安全性予測装置1Bは、安全性予測部20により、分子の安全性評価を予測すると共にその予測の確信度を算出し、分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を取得する(分子の安全性評価の予測及びその予測の確信度の算出工程:ステップS33)。
 分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)は、図12に示す第1の実施形態に係る安全性予測方法の分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS23)と同様であるため、詳細は省略する。
 次に、安全性予測装置1Bは、類似分子データ検索部30により、安全性の評価対象の分子の類似分子の安全性評価データを検索して取得する(類似分子の安全性評価データ検索工程:ステップS34)。
 類似分子の安全性評価データの検索工程(ステップS34)は、図12に示す第1の実施形態に係る安全性予測方法の類似分子の安全性評価データの検索工程(ステップS24)と同様であるため、詳細は省略する。
 次に、安全性予測装置1Bは、検証部110により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)の後、予測の確信度が50%以上か否か判定する(予測の確信度の判定工程:ステップS35)。
 予測の確信度の判定工程(ステップS35)において、予測の確信度が50%以上の場合(ステップS35:Yes)には、安全性予測装置1Bは、出力部80により、分子の安全性評価の予測結果を出力する(予測結果の出力工程:ステップS36)。
 予測の確信度が50%未満の場合(ステップS35:No)には、安全性予測装置1Bは、検証部110により、類似分子の安全性評価データの検索工程(ステップS34)の後、分子の安全性評価の予測結果と、類似分子の安全性評価データとの合致度が高いか否か判定する(合致度の判定工程:ステップS37)。
 分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度が高い場合(ステップS37:Yes)には、安全性予測装置1Bは、検証部110により、予測の確信度は低いが分子の安全性評価の予測結果は妥当である(低確信度のOK)と見なし、出力部80により分子の安全性評価の予測結果の表を出力する(分子の安全性評価の予測結果の表の出力工程:ステップS36)。
 分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度が低い場合(ステップS37:No)には、安全性予測装置1Aは、検証部110により、予測の確信度は低く、分子の安全性評価の予測結果は妥当でない(低確信度のNG)と見なす。安全性予測装置1Aは、統合部40により、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)で得られた分子の安全性評価の予測結果の表と、類似分子の評価データ検索工程(ステップS34)で得られた類似分子の安全性評価データとを統合し、統合データを得る(統合工程:ステップS38)。
 統合工程(ステップS38)は、図12に示す第1の実施形態に係る安全性予測方法の統合工程(ステップS25)と同様であるため、詳細は省略する。
 次に、安全性予測装置1Bは、出力部80により、統合部40によって統合された統合データ(図7参照)を出力する(出力工程:ステップS39)。
 なお、本実施形態に係る安全性予測方法では、分子の安全性評価の予測及びその予測の確信度の算出工程(ステップS33)は、類似分子の安全性評価データ検索工程(ステップS34)と同時に行ってもよいし、類似分子の安全性評価データ検索工程(ステップS34)の後に行ってもよい。
 本実施形態に係る安全性予測装置1Bは、上記の第1の実施形態に係る安全性予測装置1Aの構成に加えて、さらに検証部110を備え、検証部110で、分子の安全性評価の予測結果の妥当性を検証し、分子の安全性評価の予測結果と、安全性評価データとの合致度を判定する。これにより、安全性予測装置1Bは、予測の確信度が低い場合でも、類似分子の安全性評価データを参照して、分子の安全性評価の予測結果と安全性評価データとの合致度を判定することで、安全性の評価の予測が難しい化合物に対しても、化合物の安全性評価をさらに高精度に行なうことができる。よって、安全性予測装置1Aは、使用者の利便性を更に高めながら、化合物の安全性評価を更に高精度に行なうことができる。
 安全性予測装置1Bは、出力部80が、予測の確信度が高い場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、予測の確信度が低い場合には、分子の安全性評価の予測結果、予測の確信度及び安全性評価データに関するメッセージを出力できる。安全性予測装置1Aと同様、使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価をより的確に判断することができる。よって、安全性予測装置1Bにおいても、使用者の利便性をより高めながら、高精度に化合物の安全性評価を適切に行うことができる。
 安全性予測装置1Bは、出力部80が、予測の確信度が低く、合致度が高い場合には、分子の安全性評価の予測結果が安全性評価データと整合することを示すメッセージを出力でき、予測の確信度及び合致度が低い場合には、分子の安全性評価の予測結果が安全性評価データと整合しないことを示すメッセージを出力できる。これにより、安全性予測装置1Bは、使用者に対して、予測された化合物の安全性評価の予測結果と、その安全性評価データとの合致度との内容を提供できる。使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価を更に的確に判断することができる。よって、安全性予測装置1Bは、使用者の利便性をより高めながら、化合物、特に安全性の評価の予測が難しい化合物の安全性評価をさらに適切に高精度に行なうことができる。
 安全性予測装置1Bは、安全性予測装置1Aと同様、化合物の安全性を簡便かつ低い計算コストで高精度に予測できるため、例えば、化学工業、製薬等において用いられる材料、薬品等に用いられる化合物の安全性を高精度に予測できるため、研究開発、製品の製造等を安全に行うのに好適に用いることができる。
 また、安全性予測装置1Bは、安全性予測装置1Aと同様、生分解性、生物濃縮性、変異原性、魚類急性毒性、甲殻類遊泳阻害毒性、藻類成長阻害毒性、哺乳類反復毒性等の評価試験に有効に用いることができる。
[安全性予測装置1A及び1Bのハードウェア構成]
 次に、安全性予測装置1A及び1Bのハードウェア構成の一例について説明する。図19は、安全性予測装置1A及び1Bのハードウェア構成を示すブロック図である。図19に示すように、安全性予測装置1A及び1Bは、情報処理装置(コンピュータ)で構成され、物理的には、演算処理部であるCPU(Central Processing Unit:プロセッサ)101、主記憶装置であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、入力デバイスである入力装置104、出力装置105、通信モジュール106並びにハードディスク等の補助記憶装置107等を含むコンピュータシステムとして構成することができる。これらは、バス108で相互に接続されている。なお、出力装置105及び補助記憶装置107は、外部に設けられていてもよい。
 CPU101は、安全性予測装置1A及び1Bの全体の動作を制御し、各種の情報処理を行う。CPU101は、ROM103又は補助記憶装置107に格納された安全性予測プログラムを実行して、測定収録画面と解析画面の表示動作を制御する。
 RAM102は、CPU101のワークエリアとして用いられ、主要な制御パラメータや情報を記憶する不揮発RAMを含んでもよい。
 ROM103は、基本入出力プログラム等を記憶する。安全性予測プログラムはROM103に保存されてもよい。
 入力装置104は、キーボード、マウス、操作ボタン、タッチパネル等である。
 出力装置105は、モニタディスプレイ等である。出力装置105では、予測結果等が表示され、入力装置104や通信モジュール106を介した入出力操作に応じて画面が更新される。
 通信モジュール106は、ネットワークカード等のデータ送受信デバイスであり、外部のデータ収録サーバ等からの情報を取り込み、他の電子機器に解析情報を出力する通信インタフェースとして機能する。
 補助記憶装置107は、SSD(Solid State Drive)、及びHDD(Hard Disk Drive)等の記憶装置であり、例えば、安全性予測装置1A及び1Bの動作に必要な各種のデータ、ファイル等を格納する。
 図1及び図17に示す安全性予測装置1A及び1Bの各機能は、CPU101、RAM102等の主記憶装置又は補助記憶装置107に所定のコンピュータソフトウェア(安全性予測プログラムを含む)を読み込ませ、RAM102、ROM103又は補助記憶装置107に格納された安全性予測プログラム等をCPU101により実行する。入力装置104、出力装置105及び通信モジュール106を動作させると共に、RAM102、ROM103及び補助記憶装置107等におけるデータの読み出し及び書き込みを行うことで、安全性予測装置1A及び1Bの各機能は、実現される。即ち、本実施形態に係る安全性予測プログラムをコンピュータ上で実行させることで、安全性予測装置1A及び1Bは、図1及び図17の各処理部として機能を実現することができる。
 安全性予測プログラムは、例えばコンピュータが備える記憶装置内に格納される。なお、安全性予測プログラムは、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、コンピュータが備える通信モジュール106等により受信されて記録(インストールを含む)される構成としてもよい。また、安全性予測プログラムは、その一部又は全部が、CD-ROM、DVD-ROM、フラッシュメモリ等の持ち運び可能な記憶媒体に格納された状態から、コンピュータ内に記録(インストールを含む)される構成としてもよい。
 上記の情報処理装置で実行されるプログラムは、上述した安全性予測装置1A及び1Bの各処理部を含むモジュール構成となっており、プロセッサ101がこのプログラムを適宜読み出して実行することにより、上述した各処理部がRAM102等のメモリ上に生成されるようになっている。
 安全性予測装置1A及び1Bは、複数台の情報処理装置を通信可能に接続したシステムとして構成し、上述した各処理部を複数台の情報処理装置に分散して実現する構成であってもよい。また、クラウドシステム上で動作する仮想マシンであってもよい。
 以上の通り、実施形態を説明したが、上記実施形態は、例として提示したものであり、上記実施形態により本発明が限定されるものではない。上記実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の組み合わせ、省略、置き換え、変更等を行うことが可能である。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
 本出願は、2021年9月6日に日本国特許庁に出願した特願2021-144755号に基づく優先権を主張するものであり、特願2021-144755号の全内容を本出願に援用する。
 1A、1B 化合物の安全性予測装置
 10 入力部
 20 安全性予測部
 21 特徴量算出部
 22 予測部
 30 類似分子データ検索部
 31 類似度評価部
 32 データ検索部
 33 安全性評価データベース
 40 統合部
 50 記憶部
 60 モデル学習部
 70 特性予測モデル
 80 出力部
 110 検証部

Claims (10)

  1.  一つ以上の分子の構造式を入力する入力部と、
     前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部と、
     前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部と、
     前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部と、
    を備える、化合物の安全性予測装置。
  2.  前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
     前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する請求項1に記載の化合物の安全性予測装置。
  3.  前記類似分子の安全性評価データより前記分子の安全性評価の予測結果の妥当性を検証し、前記分子の安全性評価の予測結果と前記類似分子の安全性評価データとの合致度を判定する検証部を備える請求項1に記載の化合物の安全性予測装置。
  4.  前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
     前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する請求項3に記載の化合物の安全性予測装置。
  5.  前記予測の確信度が低い場合に、
     前記出力部は、前記合致度が高い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合することを示すメッセージを出力し、
     前記合致度が低い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合しないことを示すメッセージを出力する請求項4に記載の化合物の安全性予測装置。
  6.  前記安全性予測部は、
     前記分子の構造式に基づいて前記分子の特徴量を算出する特徴量算出部と、
     前記特徴量に基づいて前記分子の安全性評価を予測すると共に前記予測の確信度を算出する予測部と、
    を備える請求項1~5の何れか一項に記載の化合物の安全性予測装置。
  7.  前記特徴量算出部は、前記分子の構造式に基づくフィンガープリント、又は前記分子の構造式に基づいて、量子化学計算により計算された物性値、定量的構造活性相関により推算された物性値及び前記分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて前記分子の特徴量を算出する請求項6に記載の化合物の安全性予測装置。
  8.  前記類似分子データ検索部は、
     前記入力部で入力された前記分子の構造式と、過去に評価された評価済み分子の安全性評価結果が格納された安全性評価データベース中の複数の前記評価済み分子の構造式との類似度を計算する類似度評価部と、
     前記類似度が高い前記評価済み分子の安全性評価結果を前記類似分子の安全性評価データとして取得するデータ検索部と、
    を備える請求項1~7の何れか一項に記載の化合物の安全性予測装置。
  9.  一つ以上の分子の構造式を入力する入力工程と、
     前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
     前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
     前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
    をコンピュータに実行させる、化合物の安全性予測プログラム。
  10.  一つ以上の分子の構造式を入力する入力工程と、
     前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
     前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
     前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
    を含む、化合物の安全性予測方法。
PCT/JP2022/032725 2021-09-06 2022-08-31 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法 WO2023033027A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280058866.0A CN117882139A (zh) 2021-09-06 2022-08-31 化合物的安全性预测装置、化合物的安全性预测程序及化合物的安全性预测方法
EP22864609.7A EP4401082A1 (en) 2021-09-06 2022-08-31 Compound safety prediction device, compound safety prediction program, and compound safety prediction method
JP2023545632A JP7485229B2 (ja) 2021-09-06 2022-08-31 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021144755 2021-09-06
JP2021-144755 2021-09-06

Publications (1)

Publication Number Publication Date
WO2023033027A1 true WO2023033027A1 (ja) 2023-03-09

Family

ID=85411351

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032725 WO2023033027A1 (ja) 2021-09-06 2022-08-31 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

Country Status (4)

Country Link
EP (1) EP4401082A1 (ja)
JP (1) JP7485229B2 (ja)
CN (1) CN117882139A (ja)
WO (1) WO2023033027A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007153767A (ja) 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム
WO2009025045A1 (ja) * 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
JP5512077B2 (ja) 2006-11-22 2014-06-04 株式会社 資生堂 安全性評価方法、安全性評価システム及び安全性評価プログラム
KR20200072585A (ko) * 2018-11-30 2020-06-23 이율희 인공지능에 기반한 대상 물질의 유해성과 위해성 예측 방법
JP2021144755A (ja) 2019-10-15 2021-09-24 明豊ファシリティワークス株式会社 マンアワーシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007153767A (ja) 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム
JP5512077B2 (ja) 2006-11-22 2014-06-04 株式会社 資生堂 安全性評価方法、安全性評価システム及び安全性評価プログラム
WO2009025045A1 (ja) * 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
KR20200072585A (ko) * 2018-11-30 2020-06-23 이율희 인공지능에 기반한 대상 물질의 유해성과 위해성 예측 방법
JP2021144755A (ja) 2019-10-15 2021-09-24 明豊ファシリティワークス株式会社 マンアワーシステム

Also Published As

Publication number Publication date
EP4401082A1 (en) 2024-07-17
JP7485229B2 (ja) 2024-05-16
JPWO2023033027A1 (ja) 2023-03-09
CN117882139A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
Axelrod et al. GEOM, energy-annotated molecular conformations for property prediction and molecular generation
Bauer NONMEM tutorial part II: estimation methods and advanced examples
Benfenati et al. Integrating in silico models and read-across methods for predicting toxicity of chemicals: A step-wise strategy
Cedersund et al. Systems biology: model based evaluation and comparison of potential explanations for given biological data
Sonego et al. ROC analysis: applications to the classification of biological sequences and 3D structures
Kwon et al. Neural message passing for NMR chemical shift prediction
Melagraki et al. Enalos KNIME nodes: Exploring corrosion inhibition of steel in acidic medium
Cortés-Ciriano et al. Concepts and applications of conformal prediction in computational drug discovery
Hansen et al. Visual Interpretation of Kernel‐based prediction models
Xu et al. QSPR study of Setschenow constants of organic compounds using MLR, ANN, and SVM analyses
Tang et al. A merged molecular representation deep learning method for blood–brain barrier permeability prediction
Sahlin et al. Applicability domain dependent predictive uncertainty in QSAR regressions
Zankov et al. QSAR modeling based on conformation ensembles using a multi-instance learning approach
US20130173503A1 (en) Compound selection in drug discovery
Gogishvili et al. Nonadditivity in public and inhouse data: implications for drug design
Lee et al. A comparative study of the performance for predicting biodegradability classification: the quantitative structure–activity relationship model vs the graph convolutional network
Zaslavskiy et al. ToxicBlend: virtual screening of toxic compounds with ensemble predictors
Parrot et al. Integrating synthetic accessibility with AI-based generative drug design
Konovalov et al. Statistical confidence for variable selection in QSAR models via Monte Carlo cross-validation
DiFranzo et al. Nearest neighbor gaussian process for quantitative structure–activity relationships
Lombardo et al. Development of new QSAR models for water, sediment, and soil half-life
Tong et al. Classification of the urinary metabolome using machine learning and potential applications to diagnosing interstitial cystitis
WO2023033027A1 (ja) 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法
Li et al. PLA-MoRe: a protein–ligand binding affinity prediction model via comprehensive molecular representations
Dimova et al. Quantifying the fingerprint descriptor dependence of structure–activity relationship information on a large scale

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22864609

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023545632

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280058866.0

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022864609

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022864609

Country of ref document: EP

Effective date: 20240408