WO2021200780A1 - 物質における香気特性または嗅覚受容体活性化特性の有無を予測する方法 - Google Patents

物質における香気特性または嗅覚受容体活性化特性の有無を予測する方法 Download PDF

Info

Publication number
WO2021200780A1
WO2021200780A1 PCT/JP2021/013181 JP2021013181W WO2021200780A1 WO 2021200780 A1 WO2021200780 A1 WO 2021200780A1 JP 2021013181 W JP2021013181 W JP 2021013181W WO 2021200780 A1 WO2021200780 A1 WO 2021200780A1
Authority
WO
WIPO (PCT)
Prior art keywords
substance
olfactory receptor
control
test
test substance
Prior art date
Application number
PCT/JP2021/013181
Other languages
English (en)
French (fr)
Inventor
悠介 井原
千織 伊地知
弥生 河戸
康子 染川
広川 貴次
Original Assignee
味の素株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 味の素株式会社 filed Critical 味の素株式会社
Priority to EP21781184.3A priority Critical patent/EP4130736A4/en
Priority to JP2022512182A priority patent/JPWO2021200780A1/ja
Publication of WO2021200780A1 publication Critical patent/WO2021200780A1/ja
Priority to US17/937,048 priority patent/US20230085282A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/66Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving luciferase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6897Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids involving reporter genes operably linked to promoters
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present invention relates to, in one aspect, a technique for predicting the presence or absence of aroma properties or olfactory receptor activation properties in a substance. Further, the present invention relates to a technique for predicting the presence or absence of components such as aroma characteristics and molecular structure in a substance in another aspect. The present invention also relates to, in another aspect, a technique for predicting the goodness of fit of a substance to aroma properties.
  • Aroma is an important factor that influences the palatability of foods and cosmetics. Therefore, the technology for screening the aroma components necessary for reproducing the desired aroma and the technology for reproducing the desired aroma by combining the aroma components are industrially important technologies for developing foods, cosmetics, and the like. ..
  • aroma binds to the olfactory receptor on the olfactory nerve cells existing in the olfactory epithelium in the upper part of the nasal cavity, and the response of the receptor to the molecule is directed to the central nervous system. It is recognized by being transmitted.
  • Patent Document 1 a method of screening a substance exhibiting a desired aroma using the response of an olfactory receptor as an index has been reported (Patent Document 1 and the like).
  • Non-Patent Documents 1 to 3 The technical points for improving the accuracy of prediction models are roughly divided into three points: quantification of molecular structure, prediction algorithm, and quantity and quality of data to be used for learning.
  • existing methods for quantifying the molecular structure include a method for calculating physicochemical features from the molecular structure (Dragon, EPI Suite, etc.), and a molecular fingerprint in which the presence or absence of a partial molecular structure is bitten by 1/0.
  • the present inventors have found that the presence or absence of the desired characteristics of the test substance can be predicted based on the maximum similarity of the stereochemical structure between the test substance and the control substance, and completed one aspect of the present invention.
  • the present invention can be exemplified as follows.
  • [1] A method of predicting the presence or absence of the desired properties of a test substance. Including the step of predicting the presence or absence of the desired property for the test substance based on the maximum similarity of the stereochemical structure between the test substance and the control substance.
  • the control material comprises a positive control for the property of interest.
  • the control substance is one substance.
  • the method, wherein the control substance is a combination of two or more substances.
  • the control material comprises a positive control for the property of interest.
  • the method for predicting that a test substance has the desired properties when the maximum similarity of stereochemical structure between the test substance and the positive control is high.
  • the method, wherein the prediction comprises clustering the test material with the control material based on the maximum similarity of stereochemical structures between the test material and the control material.
  • the control material comprises a positive control for the property of interest.
  • the method includes a step of predicting the presence or absence of the desired property of the test substance, and a step of selecting the test substance predicted to have the desired property as a substance having the desired property.
  • the method further comprises a step of confirming the presence or absence of the desired property in a test substance predicted to have the desired property.
  • the method wherein the maximum similarity is used in the prediction in combination with a structural similarity between the test substance and the control substance other than the maximum similarity.
  • a method of designing a substance with the desired properties Including the step of designing the substance to be designed based on the maximum similarity of the stereochemical structure between the substance to be designed and the control substance.
  • the control material comprises a positive control for the property of interest.
  • the design is carried out so that the substance to be designed is clustered into a cluster containing the positive control.
  • the method, wherein the clustering comprises clustering the substance to be designed and the control material based on the maximum similarity of stereochemical structures between the substance to be designed and the control material.
  • the present inventors have found that a model for predicting the aroma property or the presence or absence of a molecular structure in a substance can be generated by machine learning, and have completed another aspect of the present invention.
  • the present invention can be exemplified as follows.
  • the model comprises a decision tree that outputs a classification result as to the presence or absence of the component of interest in the test substance based on the test olfactory receptor activation data of the test substance.
  • the method comprises the step of generating the decision tree by machine learning.
  • the component is an aroma property or a molecular structure.
  • a method in which the test olfactory receptor activation data is data relating to activation of the test olfactory receptor by the test substance.
  • the machine learning was performed using a dataset containing component data of the control material and control olfactory receptor activation data.
  • the component data is data relating to the target component in the control substance.
  • the control olfactory receptor activation data is data on the activation of the control olfactory receptor by the control substance.
  • the control substance is a combination of two or more substances including a positive control and a negative control.
  • the method, wherein the control olfactory receptor is a combination of two or more olfactory receptors, including the test olfactory receptor.
  • the component data is data indicating the presence or absence of the target component in the control substance.
  • control olfactory receptor activation data is data indicating the degree of activation of the control olfactory receptor by the control substance.
  • machine learning is carried out using the component data as an objective variable and the control olfactory receptor activation data as an explanatory variable.
  • the method as described above, wherein the control substance is a combination of 500 or more substances.
  • the method, wherein more than 50% of the total number of control substances is selected from the compounds described in The Good Scents Company.
  • test olfactory receptor is one type of olfactory receptor or a combination of two or more types of olfactory receptors.
  • control olfactory receptor is a combination of 300 or more olfactory receptors.
  • More than 50% of the total number of control olfactory receptors are OR1A1, OR1A2, OR1B1, OR1C1, OR1D2, OR1D5, OR1E1, OR1F1, OR1F12, OR1G1, OR1I1, OR1J1, OR1J2, OR1J4, OR1K1, OR1L1, , OR1M1, OR1N1, OR1N2, OR1Q1, OR1R1P, OR1S1, OR2A1, OR2A2, OR2A4, OR2A5, OR2A12, OR2A14, OR2A25, OR2AE1, OR2AG1, OR2AG2, OR2AJ1P, OR2AK2 , OR2C3, OR2D2, OR2D3, OR2F1, OR2G2, OR2G3, OR2G6, OR2H1, OR2H2, OR2J2, OR2J3, OR2K2, OR2L2, OR2L8, OR2L13, OR2M2, OR2M4, OR2L13, OR2M2, OR2M4, OR2M7,
  • control olfactory receptor is a human olfactory receptor.
  • model manufactured by the above method [14] A method of predicting the presence or absence of a target component for a test substance. Includes a step of predicting the presence or absence of the desired component of the test substance based on the test olfactory receptor activation data of the test substance and the model. A method in which the component is an aroma property or a molecular structure. [15] A method of screening for substances having the desired components. A step of predicting the presence or absence of the target component of the test substance based on the test olfactory receptor activation data of the test substance and the model, and a test substance predicted to have the target component for the purpose.
  • the method further comprises a step of confirming the presence or absence of the target component in a test substance predicted to have the target component.
  • the present inventors have found that a model for predicting the goodness of fit of a substance to aroma properties can be generated by machine learning, and have completed another aspect of the present invention.
  • the present invention can be exemplified as follows.
  • the model includes a regression equation that outputs a predicted value of the goodness of fit of the test substance based on the test olfactory receptor activation data of the test substance.
  • the method comprises the step of generating the regression equation by machine learning.
  • a method in which the test olfactory receptor activation data is data relating to activation of the test olfactory receptor by the test substance.
  • the method according to which the regression equation is a linear regression equation.
  • the machine learning was performed using a dataset containing aroma characteristic data of the control substance and control olfactory receptor activation data.
  • the aroma characteristic data is data showing the goodness of fit of the control substance to the target aroma characteristics.
  • the control olfactory receptor activation data is data on the activation of the control olfactory receptor by the control substance.
  • the control substance is a combination of two or more substances.
  • the method wherein the control olfactory receptor is a combination of two or more olfactory receptors, including the test olfactory receptor.
  • the control olfactory receptor activation data is data indicating the degree of activation of the control olfactory receptor by the control substance.
  • the machine learning is carried out using the aroma characteristic data as an objective variable and the control olfactory receptor activation data as an explanatory variable.
  • control substance is a combination of 100 or more substances.
  • more than 50% of the total number of control substances is selected from the compounds described in the Atlas of odor character profiles.
  • scent characteristic data is a percentage of applicability value calculated according to the criteria described in the Atlas of odor character profiles.
  • test olfactory receptor is a combination of 10 or more olfactory receptors.
  • control olfactory receptor is a combination of 300 or more olfactory receptors.
  • More than 50% of the total number of control olfactory receptors are OR1A1, OR1A2, OR1B1, OR1C1, OR1D2, OR1D5, OR1E1, OR1F1, OR1F12, OR1G1, OR1I1, OR1J1, OR1J2, OR1J4, OR1K1, OR1L1, , OR1M1, OR1N1, OR1N2, OR1Q1, OR1R1P, OR1S1, OR2A1, OR2A2, OR2A4, OR2A5, OR2A12, OR2A14, OR2A25, OR2AE1, OR2AG1, OR2AG2, OR2AJ1P, OR2AK2 , OR2C3, OR2D2, OR2D3, OR2F1, OR2G2, OR2G3, OR2G6, OR2H1, OR2H2, OR2J2, OR2J3, OR2K2, OR2L2, OR2L8, OR2L13, OR2M2, OR2M4, OR2L13, OR2M2, OR2M4, OR2M7,
  • control olfactory receptor is a human olfactory receptor.
  • control olfactory receptor activation data for the olfactory receptor in which the absolute value of the correlation coefficient of the aroma characteristic data and the control olfactory receptor activation data is more than 0.2 is The method used in the machine learning as an explanatory variable.
  • the method comprising the step of calculating the correlation coefficient of the aroma characteristic data and the control olfactory receptor activation data before the machine learning.
  • a method comprising the step of predicting the goodness of fit of a test substance to the desired aroma characteristics based on the test olfactory receptor activation data of the test substance and the model.
  • a method of screening for substances that are highly compatible with the desired aroma characteristics Based on the test olfactory receptor activation data of the test substance and the model, the step of predicting the goodness of fit of the test substance to the target aroma characteristics and the goodness of fit to the target aroma characteristics are predicted to be high.
  • a method comprising the step of selecting a test substance as a substance having a high degree of conformity with the desired aroma characteristics.
  • the method further comprises a step of confirming the goodness of fit to the desired aroma characteristics of a test substance predicted to have a high goodness of fit to the desired aroma characteristics.
  • the figure which shows the result of the visualization of the stereochemical structure similarity space by t-SNE halftone image.
  • the figure which shows the distribution of aroma characteristic "phenolic" in a stereochemical structure similarity space halftone image.
  • the figure which shows the result of having evaluated the correlation with the odor similarity by mixing the stereochemical structure similarity and the molecular fingerprint similarity at various mixing ratios halftone image.
  • the figure which shows the result of having evaluated the correlation with the odor similarity by mixing the stereochemical structure similarity and the molecular fingerprint similarity at various mixing ratios halftone image.
  • the figure which shows the tree shape model of the pyrazine skeleton halftone image
  • the prediction method of the present invention is a method of predicting the presence or absence of a desired property of a test substance. "Predicting the presence or absence of the desired property for the test substance” means predicting whether or not the test substance has the desired property. Predicting the presence or absence of the desired properties of a test substance is also simply referred to as "prediction" below. Predictions can be made based on the maximum similarity of stereochemical structures between the test material and the control material. That is, the prediction method of the present invention may include a step of predicting the presence or absence of the desired property of the test substance based on the maximum similarity of the stereochemical structure between the test substance and the control substance.
  • This process is also referred to as a "prediction process".
  • prediction process By making predictions based on the maximum stereochemical structure similarity between the test material and the control material, it is based on the structural similarity between materials that do not consider multiple conformations, such as molecular fingerprint similarity. The accuracy of the prediction can be improved as compared with the case where the prediction is carried out.
  • the prediction method of the present invention may be a method of screening a substance having a desired property. That is, the prediction method of the present invention may further include a step of selecting a test substance predicted to have a desired property as a substance having the desired property.
  • the screening method includes a step of predicting the presence or absence of the desired property of the test substance based on the maximum similarity of the three-dimensional chemical structure between the test substance and the control substance, and the test substance predicted to have the desired property. It may be a method of screening a substance having a desired property, which comprises a step of selecting the substance as a substance having the desired property. In other words, in the screening method, the step of predicting the presence or absence of the desired property of the test substance by the prediction method of the present invention, and the test substance predicted to have the desired property are selected as the substance having the desired property. It may be a method of screening a substance having a desired property, including a step.
  • the prediction method of the present invention may further include a step of calculating the maximum similarity of the stereochemical structure between the test substance and the control substance before the prediction step. This process is also referred to as a "calculation process”.
  • the “objective characteristics” means the characteristics to be predicted. Characteristics include aroma characteristics and olfactory receptor activation characteristics.
  • Aroma characteristics means the property of exhibiting aroma.
  • the type of aroma is not particularly limited.
  • aroma absinthe, acacia, acai, acerola, acetic, acetone, acidic, acorn, acrylate, agarwood, alcoholic, aldehydic, alfalfa, algae, alliaceous, allspice, almond, almond bitter almond, almond roasted almond, almond toasted almond, almond amber, ambergris, ambrette, ammoniacal, angelica, animal, anise, anisic, apple, apple cooked apple, apple dried apple, apple green apple, apple red apple, apple skin, apricot, aromatic, arrack, artichoke, asafetida, asparagus, astringent , Autumn, avocado, bacon, baked, balsamic, banana, banana peel, banana ripe banana, banana unripe banana, barley roasted barley, basic, bay, bean green bean, beany, beef juice, beefy, beefy roasted beefy
  • the aroma may be one type of aroma or a combination of two or more types of aroma. That is, the "presence or absence of aroma characteristics" may mean the presence or absence of the property of exhibiting any one kind of aroma (that is, the presence or absence of the property of exhibiting each of two or more kinds of aromas (that is, two or more kinds thereof). Regarding the above aroma, it may mean which aroma is exhibited and which aroma is not exhibited).
  • the "olfactory receptor activation property" means the property of activating the olfactory receptor.
  • the type of olfactory receptor is not particularly limited.
  • Olfactory receptors include OR1A1, OR1A2, OR1B1, OR1C1, OR1D2, OR1D4, OR1D5, OR1E1, OR1E2, OR1F1, OR1F12, OR1G1, OR1I1, OR1J1, OR1J2, OR1J4, OR1K1, L1 OR1M1, OR1N1, OR1N2, OR1Q1, OR1R1P, OR1S1, OR1S2, OR2A1, OR2A2, OR2A4, OR2A5, OR2A7, OR2A12, OR2A14, OR2A25, OR2AE1, OR2AG1, OR2AG2, OR2AE1, OR2AG1, OR2AG2, OR2AJ1 OR2B11, OR2C1, OR2C3, OR2D2, OR2D3, OR2F1, OR2F2, OR2G2, OR2G3, OR2G6, OR2H1, OR2H2, OR2J1P, OR2J2, OR2J3, OR2K2, OR2L2, OR2J3, OR2K2, OR2L2,
  • the gene encoding the olfactory receptor is also called the olfactory receptor gene.
  • the olfactory receptor may be one kind of olfactory receptor or a combination of two or more kinds of olfactory receptors. That is, "presence or absence of olfactory receptor activation property” may mean the presence or absence of the property of activating any one type of olfactory receptor, and activates each of two or more types of olfactory receptor. It may also mean the presence or absence of the olfactory receptor (that is, the pattern of which olfactory receptor is activated and which olfactory receptor is not activated for two or more kinds of olfactory receptors).
  • Examples of the olfactory receptor gene and the olfactory receptor include the olfactory receptor gene and the olfactory receptor of various organisms.
  • organisms include animals such as mammals. Specific examples of animals such as mammals include Homo sapiens (human), Mus musculus (mouse), Rattus norvegicus (rat), Canis lupus familiaris (dog), Felis catus (cat), Bos taurus (cow), and so on. Examples include Sus scrofa (pig), Pan troglodytes (chimpanzee), Macaca fascicularis (rat), and Equus mammalus (horse). Examples of animals such as mammals include humans.
  • the nucleotide sequences of olfactory receptor genes of various organisms and the amino acid sequences of olfactory receptors can be obtained from public databases such as NCBI and Ensembl, for example.
  • the olfactory receptor may be, for example, a protein having a known or natural amino acid sequence of the olfactory receptor as described above. Further, the olfactory receptor may be, for example, a variant of a protein having a known or natural amino acid sequence of the olfactory receptor as described above. That is, the olfactory receptor specified by each of the above names includes, for example, proteins having a known or natural amino acid sequence of the olfactory receptor specified by the name and variants thereof. Unless otherwise specified, the expression "protein has an amino acid sequence" means that the protein contains the amino acid sequence, and includes the case where the protein consists of the amino acid sequence.
  • Variants include proteins having an amino acid sequence in which one or several amino acids at one or several positions are substituted, deleted, inserted, and / or added in a known or natural amino acid sequence.
  • “1 or several” means, for example, 1 to 50, 1 to 40, 1 to 30, preferably 1 to 20, more preferably 1 to 10, and even more preferably 1. It may mean up to 5, particularly preferably 1 to 3.
  • Variants include, for example, 50% or more, 65% or more, 80% or more, preferably 90% or more, more preferably 95% or more, still more preferably 97% or more, particularly with respect to the entire known or natural amino acid sequence.
  • a protein having an amino acid sequence having 99% or more identity is also mentioned.
  • the olfactory receptor specified by the species of origin is not limited to the olfactory receptor itself found in the species, but includes proteins having the amino acid sequence of the olfactory receptor found in the species and variants thereof. It shall be. Variants may or may not be found in the species. That is, for example, the "human olfactory receptor” is not limited to the olfactory receptor itself found in humans, but includes proteins having the amino acid sequence of the olfactory receptor found in humans and variants thereof.
  • the olfactory receptor may be, for example, a chimeric protein of two or more different origins of the olfactory receptor. That is, the olfactory receptor specified by each of the above names also includes, for example, two or more different origins of the chimeric protein of the olfactory receptor specified by the name.
  • Test substance means a substance to be predicted for the presence or absence of the desired characteristics.
  • the “test substance” means a substance used as a candidate for a substance having a desired property in a method for screening a substance having a desired property.
  • the test substance is not particularly limited as long as its structure has been identified.
  • the structure of the test substance need only be identified to the extent that multiple conformations of the test substance can be generated.
  • the structure of the test substance may be identified as, for example, a chemical structural formula.
  • the structure of the test substance may or may not be known. If the structure of the test substance is not known, the structure of the test substance may be appropriately identified before the formation of the multiple conformation.
  • the method for identifying the structure of the test substance is not particularly limited.
  • the structure of the test substance can be identified, for example, by a known method for identifying the structure of the substance. Such methods include nuclear magnetic resonance (NMR), electron spin resonance (ESR), ultraviolet-visible near-infrared spectroscopy (UV-Vis-NIR), infrared spectroscopy (IR), and Raman spectroscopy. Mass spectroscopy (MS) can be mentioned. These methods may be used alone or in combination as appropriate.
  • the test substance may be a known substance or a new substance.
  • the test substance may be a natural product or an artificial product.
  • the test substance may be, for example, a compound library prepared using combinatorial chemistry techniques. Examples of the test substance include alcohols, ketones, aldehydes, ethers, esters, hydrocarbons, sugars, organic acids, nucleic acids, amino acids, peptides, and various other organic or inorganic components.
  • examples of the test substance include existing food additives. "Existing food additive” means a substance that has already been approved for use as a food additive.
  • the test substance may be a virtual substance (that is, a substance having a virtual structure).
  • Examples of virtual substances include substances described in compound databases such as GDB-11, GDB-13, GDB-17, ZINC15, FooDB, and VCF (Volatile Compounds in Food).
  • test substance one kind of test substance may be used, or two or more kinds of test substances may be used in combination.
  • the test material may be selected to include, for example, existing food additives and other materials as exemplified above. That is, as the test substance, for example, one kind of existing food additive may be used, or two or more kinds of food additives may be used in combination, and one kind or more food additives may be used. It may be used in combination with one or more other substances.
  • "using two or more kinds of test substances in combination” means predicting the presence or absence of the desired characteristics for each of two or more kinds of test substances.
  • Control substance means a substance that can be used as an index of the presence or absence of a desired property.
  • the control substance is not particularly limited as long as its structure has been identified and the presence or absence of the desired property has been identified.
  • the structure of the control substance need only be identified to the extent that multiple conformations of the control substance can be generated.
  • the structure of the control substance may be identified as, for example, a chemical structural formula.
  • the structure of the control material may or may not be known. If the structure of the control material is not known, the structure of the control material may be appropriately identified before the formation of the multiple conformation.
  • the method for identifying the structure of the control substance is not particularly limited.
  • the structure of the control substance can be identified, for example, by a known method for identifying the structure of the substance. Such methods include nuclear magnetic resonance (NMR), electron spin resonance (ESR), ultraviolet-visible near-infrared spectroscopy (UV-Vis-NIR), infrared spectroscopy (IR), and Raman spectroscopy. Mass spectroscopy (MS) can be mentioned. These methods may be used alone or in combination as appropriate.
  • the presence or absence of the desired property in the control substance may or may not be known. If the presence or absence of the desired property in the control substance is not known, the presence or absence of the desired property in the control substance may be appropriately identified before carrying out the prediction step.
  • the method for identifying the presence or absence of properties in the control substance is not particularly limited. The presence or absence of properties in the control substance can be identified, for example, by a known method for identifying the presence or absence of properties in the substance.
  • the presence or absence of aroma properties in the control substance can be identified, for example, by sensory evaluation by a specialized panel.
  • the presence or absence of the olfactory receptor activation property in the control substance can be identified by, for example, contacting the olfactory receptor with the control substance and measuring the presence or absence of activation of the olfactory receptor by contact with the control substance. can.
  • the contact between the olfactory receptor and the control substance and the measurement of the presence or absence of activation of the olfactory receptor by the contact are, for example, a screening method for a substance exhibiting a desired aroma using the response of the olfactory receptor as an index (Japanese Patent Laid-Open No. 2019-037197). Etc.) can be referred to.
  • the olfactory receptor may be supported and used in cells such as animal cells.
  • the activation of the olfactory receptor can be measured, for example, by using an increase in the amount of intracellular calcium or intracellular cAMP as an index.
  • Examples of the method for measuring the amount of intracellular cAMP include ELISA and reporter assay.
  • Examples of the reporter assay include a luciferase assay.
  • the intracellular cAMP amount can be measured by using a reporter gene (luciferase gene or the like) configured to be expressed depending on the cAMP amount.
  • a method for measuring the amount of intracellular calcium for example, calcium imaging can be mentioned.
  • the degree of the desired property of the control substance may be identified.
  • the “degree of property” may mean the intensity at which a substance exhibits aroma in the case of aroma property.
  • the “degree of property” may mean the intensity with which the substance activates the olfactory receptor in the case of the olfactory receptor activation property.
  • the degree of the desired property in the control substance can be identified, for example, by the same method as the identification of the presence or absence of the desired property in the control substance.
  • the contact between the olfactory receptor and the control substance and the measurement of the presence or absence or degree of activation of the olfactory receptor by the contact can be specifically carried out by, for example, the following procedure.
  • the presence or absence or degree of activation of the olfactory receptor by the control substance determines the presence or absence or degree of activation of the olfactory receptor when the olfactory receptor is brought into contact with the control substance and the contact is performed (that is, under the condition that the olfactory receptor is brought into contact with the control substance).
  • the degree of activation of the body (degree of activation D1) can be used as an index for determination.
  • the concentration of the control substance to be brought into contact with the olfactory receptor can be appropriately set according to various conditions such as the type of the olfactory receptor and the type of the control substance.
  • the concentration of the control substance in contact with the olfactory receptor may be, for example, 3 to 1000 ⁇ M.
  • the concentration of control material in contact with the olfactory receptor may typically be 300 ⁇ M. Further, for example, for a control substance showing cytotoxicity at 300 ⁇ M, the concentration of the control substance to be brought into contact with the olfactory receptor may be 3 ⁇ M, 10 ⁇ M, 30 ⁇ M, or 100 ⁇ M.
  • the presence or absence or degree of activation of the olfactory receptor by the control substance is specifically determined by comparing the degree of activation D1 with the degree of activation of the olfactory receptor under the control condition (degree of activation D2). Can be decided.
  • the control condition includes a condition in which the olfactory receptor and the control substance are not brought into contact with each other.
  • the degree of activation D1 and D2 can both be acquired and used as data reflecting parameters that are indicators of activation of the olfactory receptor.
  • Parameters that are indicators of the activation of the olfactory receptor include the amount of intracellular calcium and the amount of intracellular cAMP.
  • Data reflecting the amount of intracellular cAMP includes luminescence intensity in the case of the luciferase assay.
  • the data reflecting the parameters that are indicators of the activation of the olfactory receptor can be used as it is or after being subjected to processing such as correction as appropriate.
  • the degree of activation D1 When the degree of activation D1 is high, it may be determined that the olfactory receptor was activated by the control substance.
  • the ratio of the degree of activation D1 to the degree of activation D2 ie, D1 / D2 is 1.5 or more, 2 or more, 3 or more, 5 or more, 10 or more, 20 or more, 50 or more, or 100 or more. If, it may be determined that the control substance has activated the olfactory receptor.
  • Examples of the ratio of the degree of activation D1 to the degree of activation D2 include the normalized response value described in the examples.
  • the degree of activation of the olfactory receptor by the control substance can be determined by using the result of comparison between the degree of activation D1 and the degree of activation D2 as an index.
  • the ratio of the degree of activation D1 to the degree of activation D2 ie, D1 / D2
  • D1 / D2 can be considered as the degree of activation of the sensory receptor by the control substance.
  • Examples of the ratio of the degree of activation D1 to the degree of activation D2 include the normalized response value described in the examples.
  • control substance examples include a positive control and a negative control.
  • positive control is meant a substance having the desired properties.
  • Negative control means a substance that does not have the desired properties.
  • the control substance may include at least a positive control.
  • the control substance may be a known substance or a novel substance.
  • the control substance may be a natural product or an artificial product.
  • the control material may be, for example, a compound library made using combinatorial chemistry techniques.
  • Control materials include, for example, alcohols, ketones, aldehydes, ethers, esters, hydrocarbons, sugars, organic acids, nucleic acids, amino acids, peptides and other organic or inorganic components.
  • Specific examples of the control substance include substances for which the presence / absence and / or degree of the desired property is known. Examples of substances whose presence or absence and / or degree of desired properties are known include substances described in The Good Scents Company (http://www.thegoodscentscompany.com/).
  • control substance may contain the substance described in The Good Scents Company.
  • 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more of the total number of control substances may be selected from the substances described in The Good Scents Company.
  • Any substance described in The Good Scents Company may be considered, for example, to exhibit the scents listed in its Odor Description (ie, a positive control for the scents listed in its Odor Description).
  • none of the substances described in The Good Scents Company for example, exhibit a scent not listed in the Odor Description (that is, a negative control group for the scent listed in the Odor Description). good.
  • the control substance may contain the substance described in Atlas of odor character profiles. Any substance described in Atlas of odor character profiles may be regarded as a positive control or a negative control for the scent, for example, depending on the percentage of applicability value of each scent. That is, any substance described in Atlas of odor character profiles may be regarded as a positive control for the scent, for example, when the percentage of applicability value of the scent is high.
  • any substance described in Atlas of odor character profiles may be regarded as a negative control for the scent, for example, when the percentage of applicability value of a certain scent is low.
  • “The percentage of applicability value is high” may mean, for example, that the percentage of applicability value is 4 or more, 7 or more, 10 or more, 15 or more, or 20 or more.
  • “The percentage of applicability value is low” may mean, for example, that the percentage of applicability value is less than 4, 3 or less, 2 or less, 1 or less, or 0.5 or less.
  • the control substance one kind of control substance may be used, or two or more kinds of control substances may be used in combination.
  • the number of control substances, the number of positive controls, and the number of negative controls are, for example, 1 or more, 2 or more, 3 or more, 5 or more, 7 or more, 10 or more, 15 or more, 20 or more, 25 or more, 30. 40 or more, 50 or more, 70 or more, 100 or more, 150 or more, 200 or more, 300 or more, 400 or more, 500 or more, 600 or more, 700 or more, 800 or more, 900 or more, or 1000 or more. 10000 or less, 5000 or less, 2000 or less, 1000 or less, 500 or less, 200 or less, 150 or less, 100 or less, 70 or less, 50 or less, 40 or less, 30 or less, 25 or less, 20 or less, 15 or less, or 10 or less.
  • the number of control substances, the number of positive controls, and the number of negative controls are all specifically, for example, 1 to 10000, 1 to 1000, 1 to 100, 1 to 10, 10 to 10000, 10 to 1000. It may be 10 to 100, 100 to 10000, 100 to 1000, or 1000 to 10000.
  • the number of control substances, the number of positive controls, and the number of negative controls are all specifically, for example, 1 to 10, 10 to 100, 100 to 200, 200 to 500, 500 to 1000, 1000 to 2000. , 2000-5000, or 5000-10000.
  • the ratio of positive controls in the control substance is, for example, 1% or more, 3% or more, 5% or more, 10% or more, 20% or more, 30% or more, 40% or more, 50% or more, 60% or more, 70% or more. , 80% or more, 90% or more, or 95% or more, 100% or less, 99% or less, 97% or less, 95% or less, 90% or less, 80% or less, 70% or less, 60% or less. , 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, or 5% or less, and may be a consistent combination thereof.
  • the ratio of positive controls in the control substance is, for example, 1 to 100%, 1 to 50%, 1 to 20%, 1 to 10%, 1 to 5%, 5 to 100%, 5 to 50%. It may be 5 to 20%, 5 to 10%, 10 to 100%, 10 to 50%, 10 to 20%, 20 to 100%, 20 to 50%, or 50 to 100%.
  • the ratio of positive controls in the control substance is, for example, 1 to 10%, 10 to 20%, 20 to 30%, 30 to 40%, 40 to 50%, 50 to 60%, 60 to 70%. , 70-80%, 80-90%, or 90-100%.
  • “Ratio of positive controls in control” means the ratio of the number of positive controls to the total number of controls.
  • Maximum similarity of three-dimensional chemical structure between substances means between substances (hereinafter referred to as one substance A and another substance B). It means the maximum value of similarity of three-dimensional chemical structure.
  • the "maximum degree of similarity of stereochemical structures between substances” specifically means the maximum value of the degree of similarity of all pairs of the multiple conformation of substance A and the multiple conformation of substance B.
  • Multiple conformation of a substance means the conformation of two or more conformations of a substance, in other words, the conformation of two or more conformations of a substance. do.
  • the "maximum similarity of stereochemical structures between substances” means that the substance A has n conformations (A1 to An) and the substance B has m conformations (B1 to Bm). In the case, it means the maximum value of the similarity of n ⁇ m pairs (that is, the pair of A1 and B1 to the pair of An and Bm).
  • the number of conformations of the test substance and the control substance is not particularly limited as long as it is two or more.
  • the maximum similarity of stereochemical structures is also simply referred to as "maximum similarity”.
  • the method of generating multiple conformations of a substance is not particularly limited.
  • the multiple conformation of a substance can be produced, for example, by a known method.
  • the multiple conformation of a substance can be generated by software such as the conformation generation software OMEGA (OpenEye). That is, by using software, it is possible to generate multiple conformations of a substance from structural data of the substance.
  • the software can be used, for example, according to the manufacturer's documentation.
  • a macrocycle compound for example, a cyclic compound having a 12-membered ring or more
  • the other compounds may be in the OMEGA classic mode to generate multiple conformations.
  • “Structural data of a substance” means data showing the structure of a substance.
  • the structural data of the substance is not particularly limited as long as it can generate multiple conformations.
  • the structural data of the substance can be appropriately selected according to various conditions such as, for example, the type of software used to generate the multiple conformation of the substance.
  • As the structural data of the substance for example, existing data may be acquired and used, or data may be acquired and used by conversion from a chemical structural formula. Existing data can be obtained, for example, from chemical databases such as PubChem and ChemSpider or the websites of reagent companies such as Sigma Aldrich.
  • the conversion from the chemical structural formula can be carried out, for example, by using software such as ChemDraw or a website.
  • the acquired structural data of the substance may be used, for example, as it is or after being appropriately processed to generate a multiple conformation.
  • conformic SMILES format data it is canonicalized to absolute SMILES format, converted to 3D structural data such as MOL format and SDF format including it, and processing such as hydrogen addition and optimization is performed. Then it may be used to generate multiple conformations.
  • Normalization of SMILES data and conversion to 3D structure data can be performed by software such as chemoinformatics software RDKit (http://www.rdkit.org).
  • Processing of 3D structural data such as hydrogenation and optimization can be performed by software such as the integrated computational chemistry system MOE (CCG), for example.
  • CCG integrated computational chemistry system MOE
  • the maximum similarity between substances AB is obtained, for example, by calculating the similarity of each pair of the multiple conformation of substance A and the multiple conformation of substance B, and obtaining it as the maximum value among the calculated similarity. be able to.
  • the similarity of pairs may be calculated for all pairs or only for some pairs that include at least the maximum value. For example, pairs with low similarity may be excluded from the calculation of pair similarity in advance based on an appropriate standard.
  • the similarity of pairs may usually be calculated for all pairs.
  • the similarity of the stereochemical structure includes the Tanimoto coefficient.
  • the Tanimoto coefficient include Shape Tanimoto score indicating similarity in surface shape, Color Tanimoto score indicating similarity in surface chemical properties, and Tanimoto Combo score indicating similarity in surface shape and surface chemical properties. Tanimoto Combo score is calculated as the total value of Shape Tanimoto score and Color Tanimoto score.
  • the Tanimoto coefficient can be calculated by software such as the molecular surface shape similarity calculation software ROCS (OpenEye), for example. When calculating the similarity of stereochemical structures by ROCS, the calculated similarity can vary depending on which of the substances to be compared is used as a query.
  • any of the calculated similarities may be used in the calculation of the maximum similarity as long as the prediction can be performed with the desired accuracy.
  • the lower of the calculated similarities may be used for calculating the maximum similarity, and the higher one may be used for calculating the maximum similarity.
  • the calculated average value of the similarity may be used for the calculation of the maximum similarity.
  • the maximum similarity acquired as the maximum value of the Tanimoto coefficient is also referred to as "maximum similarity based on the Tanimoto coefficient".
  • Prediction process can be performed based on the maximum similarity between the test substance and the control substance.
  • the prediction may be made, for example, by directly assessing the maximum similarity between the test substance and the control substance. That is, in "predicting the presence or absence of the desired property of the test substance based on the maximum similarity of the three-dimensional chemical structure between the test substance and the control substance", the maximum similarity between the test substance and the control substance is directly evaluated. By doing so, it may be included to carry out the prediction.
  • the prediction step may include, for example, a step of directly evaluating the maximum similarity between the test substance and the control substance.
  • the test substance has the desired properties.
  • “High maximum similarity between the test substance and the positive control” means that when the positive control is one substance, the maximum similarity between the test substance and the one positive control is high.
  • “High maximum similarity between a test substance and a positive control” means that when the positive control is a combination of two or more substances, for example, between the test substance and the two or more positive controls. It may mean that the average value or the maximum value of the maximum similarity is high.
  • “High maximum similarity between a test substance and a positive control” means that when the positive control is a combination of two or more substances, for example, a positive control showing a high maximum similarity to the test substance. It may mean that the number or ratio is large. Also, for example, if the maximum similarity between the test substance and the positive control is not high, it may be predicted that the test substance does not have the desired properties.
  • High maximum similarity may mean, for example, that the maximum similarity is equal to or higher than a predetermined value.
  • the predetermined value is not particularly limited as long as the prediction can be performed with the desired accuracy.
  • “High maximum similarity” means, for example, that the maximum similarity normalized to 0 to 1 is 0.5 or more, 0.6 or more, 0.7 or more, 0.8 or more, or 0.9 or more. It may mean that.
  • “high maximum similarity” means that, for example, the maximum similarity based on the Shape Tanimoto score is 0.5 or more, 0.6 or more, 0.7 or more, 0.8 or more, or 0.9. It may mean that it is the above.
  • high maximum similarity means that, for example, the maximum similarity based on the Color Tanimoto score is 0.5 or more, 0.6 or more, 0.7 or more, 0.8 or more, or 0.9. It may mean that it is the above.
  • high maximum similarity means that, for example, the maximum similarity based on the Tanimoto Combo score is 1 or more, 1.2 or more, 1.4 or more, 1.6 or more, or 1.8 or more. It may mean that there is.
  • the high maximum similarity between substances AB is also referred to as "substance A shows a high maximum similarity with respect to substance B" and “substance B shows a high maximum similarity with respect to substance A”.
  • the average value of the maximum similarity is high or “the maximum value of the maximum similarity is high” may mean, for example, that the average value or the maximum value of the maximum similarity is equal to or more than a predetermined value.
  • the predetermined value is not particularly limited as long as the prediction can be performed with the desired accuracy.
  • “The average value of the maximum similarity is high” or “the maximum value of the maximum similarity is high” means that, for example, the average value or the maximum value of the maximum similarity normalized to 0 to 1 is 0.5 or more. It may mean that it is 0.6 or more, 0.7 or more, 0.8 or more, or 0.9 or more.
  • the average value of the maximum similarity is high” or “the maximum value of the maximum similarity is high” specifically means, for example, that the average value or the maximum value of the maximum similarity based on the Shape Tanimoto score is 0.5 or more. , 0.6 or more, 0.7 or more, 0.8 or more, or 0.9 or more.
  • “The average value of the maximum similarity is high” or “the maximum value of the maximum similarity is high” specifically means, for example, that the average value or the maximum value of the maximum similarity based on the Color Tanimoto score is 0.5 or more. , 0.6 or more, 0.7 or more, 0.8 or more, or 0.9 or more.
  • the average value of the maximum similarity is high” or “the maximum value of the maximum similarity is high” specifically means, for example, that the average value or the maximum value of the maximum similarity based on the Tanimoto Combo score is 1 or more, 1 or more. It may mean that it is .2 or more, 1.4 or more, 1.6 or more, or 1.8 or more.
  • the number of positive controls showing high maximum similarity to the test substance is large means, for example, that the number of positive controls showing high maximum similarity to the test substance is 1 or more, 2 or more, 3 or more. 5 or more, 7 or more, 10 or more, 15 or more, 20 or more, 25 or more, 30 or more, 40 or more, 50 or more, 70 or more, 100 or more, 150 or more, 200 or more, 300 or more, 400 or more, or 500 or more. It may mean that.
  • the ratio of positive controls showing high maximum similarity to the test substance is large means, for example, that the ratio of positive controls showing high maximum similarity to the test substance is 1% or more, 3% or more, 5 % Or more, 10% or more, 20% or more, 30% or more, 40% or more, 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more. good.
  • Ratio of positive controls showing high maximum similarity to test material means the ratio of the number of positive controls showing high maximum similarity to test material to the total number of controls.
  • Prediction may be made, for example, by clustering the test material and the control material based on their maximum similarity. That is, "predicting the presence or absence of the desired property for a test substance based on the maximum similarity of the three-dimensional chemical structure between the test substance and the control substance" is based on the maximum similarity between the test substance and the control substance. Performing predictions by clustering those materials may be included.
  • the prediction step may also include, for example, the step of clustering the test material and the control material based on the maximum similarity. Clustering may be carried out, especially when two or more control substances are used in combination.
  • Clustering can be performed with the maximum similarity between the test substance and the control substance as a variable.
  • the variable used for clustering may or may not be only the maximum similarity between the test material and the control material. That is, in addition to the maximum similarity between the test substance and the control substance, other variables may be used for clustering. Other variables are not particularly limited as long as the prediction can be performed with the desired accuracy. Other variables include the similarity (eg, maximum similarity) of the stereochemical structure between the test material and the control material and the other material. In other words, in the prediction step, only the test substance and the control substance may be clustered, and in addition to the test substance and the control substance, other substances may be clustered.
  • the maximum similarity between substances may be used for prediction (for example, clustering) alone or in combination with structural similarity between substances other than the maximum similarity.
  • Structural similarity between substances other than the maximum similarity is also referred to as “additional structural similarity”.
  • additional structural similarity The combination of maximum similarity and additional structural similarity is also referred to as “mixed similarity”.
  • the “maximum similarity” in the above description of the prediction process may be read as “mixed similarity”. That is, for example, when the prediction is performed based on the mixed similarity, "the maximum similarity between the test substance and the positive control is high” means that the mixed similarity between the test substance and the positive control is high. You can do it.
  • the maximum similarity between the test substance and the positive control is low means that the mixed similarity between the test substance and the positive control is low. You can do it.
  • Additional structural similarity includes structural similarity between substances that do not consider multiple conformations, such as molecular fingerprint similarity.
  • the maximum similarity and the additional structural similarity may be scaled and then combined as appropriate.
  • the ratio of maximum similarity to mixed similarity is not particularly limited as long as the prediction can be performed with the desired accuracy.
  • the ratio of the maximum similarity in the mixed similarity is, for example, 1% or more, 3% or more, 5% or more, 20% or more, 30% or more, 40% or more, 50% or more, 60% or more, 70% or more, 80. % Or more, or 90% or more, 99% or less, 97% or less, 95% or less, 90% or less, 80% or less, 70% or less, 60% or less, 50% or less, 40% or less, or It may be 30% or less, or a consistent combination thereof.
  • the ratio of the maximum similarity to the mixed similarity is, for example, 1 to 99%, 10 to 99%, 30 to 99%, 50 to 99%, 60 to 95%, or 70 to 90%. You may.
  • the ratio of the total number of test substances and control substances to the total number of clustered substances is, for example, 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, 95% or more, 97% or more, or 99. It may be% or more.
  • the ratio of the number of control substances to the total number of clustered substances is, for example, 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, 95% or more, 97% or more, or 99%. That may be the above.
  • Clustering may be performed once or divided into two or more times as long as the prediction can be performed with the desired accuracy. For example, some substances may be clustered in advance, and the remaining substances may be further clustered based on the obtained clustering result. Specifically, for example, substances other than the test substance may be clustered in advance, and the test substance may be further clustered based on the obtained clustering result. That is, specifically, for example, it may be determined later which of the clusters prepared in advance with a substance other than the test substance the test substance is clustered. When two or more test substances are used in combination, the test substances may be clustered at one time, or may be clustered at two or more times.
  • the clustering method is not particularly limited. Clustering can be performed, for example, by a known method. Examples of such a method include hierarchical cluster analysis and Dimensionality Reduction. Examples of the hierarchical cluster analysis include Ward's method, nearest neighbor method, furthest neighbor method, and group average method. The Ward's method is particularly mentioned as a hierarchical cluster analysis.
  • the distances between substances used in hierarchical cluster analysis include Euclidean distance, Maharanobis distance, Manhattan distance, Chebishev distance, Minkovsky distance, Campella distance, distance based on cosine similarity, angular distance, and Pearson's correlation coefficient. The distance based on the distance and the distance based on the extended Jackard coefficient can be mentioned.
  • Distances between substances used in hierarchical cluster analysis include, in particular, the Euclidean distance.
  • the hierarchical cluster analysis may be performed by, for example, Ward's method using the Euclidean distance.
  • Dimensionality reduction methods include Random Projection, Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), Isometric mapping (Isomap), and Locally Linear Embedding (LLE).
  • MLLE Modified LLE
  • HLE Hessian-based LLE
  • HLLE Hessian-based LLE
  • Spectral Embedding Local Tangent Space Alignment
  • MDS Multi-dimensional Scaling
  • t-distributed stochastic neighborhood Examples include embedding (t-distributed Stochastic Neighbor Embedding; t-SNE), Random Forest Embedding, Uniform Manifold Approximation and Projection (UMAP), kernel PCA, and auto encoder.
  • t-SNE is particularly mentioned. These methods may be used alone or in combination as appropriate.
  • the number of clusters is not particularly limited as long as the prediction can be performed with the desired accuracy.
  • the number of clusters may be, for example, 2 or more, 3 or more, 4 or more, 5 or more, 6 or more, 7 or more, 8 or more, 9 or more, or 10 or more, 100 or less, 50 or less, 30 or less, 25. Below, it may be 20 or less, 15 or less, 12 or less, 10 or less, 9 or less, 8 or less, 7 or less, 6 or less, or 5 or less, and may be a consistent combination thereof. Specifically, the number of clusters may be, for example, 2 to 30, 3 to 20, or 4 to 15.
  • test substance when the test substance is clustered into clusters that are likely to have the desired properties, it may be predicted that the test substance will have the desired properties. It should be noted that, for example, when the test substance is clustered into clusters that are likely to have the desired properties, it may be determined that the maximum similarity between the test substance and the positive control is high. Also, for example, if the test material is not clustered into clusters that are likely to have the desired properties, it may be predicted that the test material will not have the desired properties. It should be noted that, for example, when the test substance is not clustered into clusters that are likely to have the desired properties, it may be determined that the maximum similarity between the test substance and the positive control is not high.
  • Clusters that are likely to have the desired characteristics are also referred to as "positive clusters". As a result of clustering, only one positive cluster may occur, or two or more may occur. Clusters that are likely to have the desired characteristics include clusters that contain positive controls. Clusters containing positive controls may contain one or more positive controls. Clusters containing positive controls may or may not contain substances other than positive controls. Clusters containing positive controls may or may not contain, for example, negative controls. The cluster containing the positive control may be, for example, a cluster having a high ratio of positive controls. “A cluster with a high ratio of positive controls” means, for example, that the ratio of positive controls is 1% or more, 3% or more, 5% or more, 10% or more, 20% or more, 30% or more, 40% or more, 50%.
  • ratio of positive controls in a cluster is meant the ratio of the number of positive controls contained in the cluster to the number of controls contained in the cluster.
  • the cluster containing the positive control may be, for example, a cluster having a high degree of the desired characteristic.
  • the “cluster having a high degree of target trait” may mean, for example, a cluster containing a positive control having the maximum degree of target trait.
  • the “cluster having a high degree of target characteristics” may mean, for example, a cluster having the maximum average value of the degree of target characteristics.
  • clusters that meet the criteria exemplified above may be selected as positive clusters in order.
  • the "average value of the degree of the desired property" in a cluster means the average value of the degree of the desired property of all the control substances contained in the cluster.
  • the prediction method of the present invention may further include a step of evaluating the prediction result. That is, by evaluating the target property of the test substance, it can be confirmed whether the target substance actually has the target property. Specifically, for example, by evaluating the target property of the test substance predicted to have the target property, it is possible to confirm whether the target substance actually has the target property. That is, the step of evaluating the prediction result may be, for example, a step of confirming the presence or absence of the desired property of the test substance predicted to have the desired property.
  • the method for evaluating the result of the prediction is not particularly limited. As for the method for evaluating the prediction result, the description regarding the identification of the presence or absence of the desired property in the control substance can be applied mutatis mutandis.
  • Design method of the present invention is a method of designing a substance having a desired property.
  • “Material design” and “material structure design” may be used interchangeably. Designing a substance having the desired properties is also simply referred to as "design” below.
  • the design can be carried out based on the maximum similarity of the stereochemical structure between the substance to be designed and the control substance. That is, the design method of the present invention may include a step of designing the substance to be designed based on the maximum similarity of the stereochemical structure between the substance to be designed and the control substance. This process is also referred to as a "design process”.
  • the design can be carried out, for example, so that the substance to be designed is predicted to have the desired properties based on the prediction method of the present invention.
  • the substance to be designed can be designed to have a structure that is predicted to have the desired properties based on the prediction method of the present invention.
  • the structure of an existing substance may be modified to be predicted to have the desired properties based on the prediction method of the present invention.
  • the structures of a large number of compounds may be designed, and those predicted to have the desired characteristics may be selected based on the prediction method of the present invention.
  • the design can be carried out, for example, so that the substance to be designed is clustered into a cluster (for example, a cluster containing a positive control) in which the substance to be designed is likely to have the desired property.
  • the predictive model manufacturing method of the present invention is a method of manufacturing a model for predicting the presence or absence of a target component in a test substance.
  • "Predicting the presence or absence of a target component for a test substance” means predicting whether or not the test substance has a target component. Predicting the presence or absence of a target component of a test substance is also simply referred to as "prediction” below.
  • a model that predicts the presence or absence of a target component for a test substance is also simply referred to as a “prediction model” below.
  • the prediction model is a model that predicts the presence or absence of a target component in a test substance. That is, the prediction model can be used for prediction. Specifically, the prediction model can be used for prediction in the manner described in the prediction method of the present invention.
  • the prediction model may include a decision tree.
  • a decision tree or a model containing it is also referred to as a "tree model”.
  • the decision tree is not particularly limited as long as it outputs a conclusion that is an index of prediction. Predictions can be made based on the test olfactory receptor activation data of the test substance.
  • the test olfactory receptor activation data of the test substance is also hereinafter simply referred to as "test olfactory receptor activation data”. That is, the decision tree may output a conclusion that is an index of prediction based on the test olfactory receptor activation data (in other words, using the test olfactory receptor activation data as a variable).
  • the decision tree may output the classification result regarding the presence or absence of the target component in the test substance, for example, based on the test olfactory receptor activation data.
  • the "classification result regarding the presence or absence of the target component in the test substance” means a classification result suggesting whether or not the test substance has the target component.
  • the classification result regarding the presence or absence of the target component in the test substance is specifically obtained as a result of classifying the test substance into any of the leaf nodes included in the decision tree. That is, the decision tree may specifically classify the test substance into any of the leaf nodes contained in the decision tree based on the test olfactory receptor activation data.
  • Target component means a component to be predicted.
  • Components include aroma properties and molecular structure.
  • the aroma, aroma characteristics, and the presence or absence of aroma characteristics are as described in the first aspect of the present invention.
  • Molecular structure means a parameter related to the structure of a substance.
  • the type of molecular structure is not particularly limited.
  • Examples of the molecular structure include a partial structure of the molecule.
  • Substructures of molecules include functional groups, skeletons, bonds and atoms.
  • Specific examples of the molecular structure include a carbonyl group, an acyl group, an aldehyde group, a ketone group, a carboxyl group, a carboxamide group, an alkanoyl group, a benzoyl group, an alkoxycarbonyl group, a phenoxycarbonyl group, an imide group, an enone group and an alkyl group.
  • Examples include an atom, an oxygen atom, a sulfur atom, a halogen atom, a monocyclic skeleton, a heterocyclic skeleton, and a terpenoid skeleton.
  • the heterocyclic skeleton include a heterocyclic skeleton containing heteroatoms such as nitrogen, sulfur, and oxygen.
  • the heterocyclic skeleton may contain one or more heteroatoms.
  • heterocyclic skeleton examples include a nitrogen-containing heterocyclic skeleton such as a pyrazine skeleton and a pyrrole skeleton, and a nitrogen-containing heterocyclic skeleton such as a thiazole skeleton.
  • the molecular structure may be one kind of molecular structure or a combination of two or more kinds of molecular structures. That is, the "presence or absence of a molecular structure" may mean the presence or absence of any one type of molecular structure, and the presence or absence of two or more types of molecular structures (that is, the presence or absence of two or more types of molecular structures). It may mean which molecular structure has which molecular structure and which molecular structure does not have).
  • Test substance means a substance to be predicted for the presence or absence of a target component.
  • the “test substance” means a substance used as a candidate for a substance having a target component in a method for screening a substance having the target component.
  • the test substance is not particularly limited as long as the test olfactory receptor activation data can be used.
  • Test olfactory receptor activation data of test substance means data on activation of test olfactory receptor by test substance. "Activation of the test olfactory receptor by the test substance” may be used in place of "response of the test olfactory receptor to the test substance". Examples of the test olfactory receptor activation data include data indicating the presence or absence of activation of the test olfactory receptor by the test substance and data indicating the degree of activation of the test olfactory receptor by the test substance. Examples of the test olfactory receptor activation data include data indicating the degree of activation of the test olfactory receptor by the test substance.
  • the "degree of activation of the test olfactory receptor by the test substance” may mean the intensity at which the test substance activates the test olfactory receptor.
  • the test olfactory receptor activation data is specifically used in the branching contained in the decision tree.
  • Test olfactory receptor means the olfactory receptor used in the branching included in the decision tree.
  • the olfactory receptor is used in the branch contained in the determination tree means that the olfactory receptor activation data for the olfactory receptor (that is, the data regarding the activation of the olfactory receptor by the test substance) is the determination tree. It may mean that it is used in the included branch.
  • Examples of the test olfactory receptor include the following olfactory receptors.
  • the test olfactory receptor may be one type of olfactory receptor or a combination of two or more types of olfactory receptors.
  • olfactory receptor and the gene encoding it are as described in the first aspect of the present invention.
  • the test olfactory receptor activation data may or may not be known. If the test olfactory receptor activation data is not known, the test olfactory receptor activation data may be obtained as appropriate before the prediction is performed.
  • the method for obtaining the test olfactory receptor activation data is not particularly limited.
  • the test olfactory receptor activation data can be obtained, for example, by a known method for identifying the presence or absence or degree of activation of the olfactory receptor by a substance. Specifically, the test olfactory receptor activation data is obtained by, for example, contacting the test olfactory receptor with the test substance and measuring the presence or absence or degree of activation of the test olfactory receptor by contact with the test substance.
  • test olfactory receptor can be obtained.
  • the contact between the test olfactory receptor and the test substance and the measurement of the presence or absence or degree of activation of the test olfactory receptor by the contact are, for example, a method for screening a substance exhibiting a desired aroma using the response of the olfactory receptor as an index. It can be carried out by referring to Open 2019-037197 etc.).
  • the test olfactory receptor may be supported and used in cells such as animal cells.
  • the activation of the test olfactory receptor can be measured, for example, by using an increase in the amount of intracellular calcium or intracellular cAMP as an index. Examples of the method for measuring the amount of intracellular cAMP include ELISA and reporter assay.
  • the reporter assay examples include a luciferase assay.
  • the intracellular cAMP amount can be measured by using a reporter gene (luciferase gene or the like) configured to be expressed depending on the cAMP amount.
  • a method for measuring the amount of intracellular calcium for example, calcium imaging can be mentioned.
  • the contact between the test olfactory receptor and the test substance and the measurement of the presence or absence or degree of activation of the test olfactory receptor by the contact can be carried out, for example, by the following procedure.
  • the presence or absence or degree of activation of the test olfactory receptor by the test substance is determined under the condition that the test olfactory receptor is brought into contact with the test substance and the contact is performed (that is, the test olfactory receptor is brought into contact with the test substance). )
  • the degree of activation of the sensory receptor (degree of activation D1) can be used as an index to determine.
  • the concentration of the test substance to be brought into contact with the test olfactory receptor can be appropriately set according to various conditions such as the type of the test olfactory receptor and the type of the test substance.
  • the concentration of the test substance in contact with the test olfactory receptor may be, for example, 3 to 1000 ⁇ M.
  • the concentration of test substance in contact with the test olfactory receptor may typically be 300 ⁇ M. Further, for example, for a test substance showing cytotoxicity at 300 ⁇ M, the concentration of the test substance to be brought into contact with the test olfactory receptor may be 3 ⁇ M, 10 ⁇ M, 30 ⁇ M, or 100 ⁇ M.
  • the presence or absence or degree of activation of the test olfactory receptor by the test substance is specifically compared with the degree of activation D1 and the degree of activation of the test olfactory receptor under the control condition (degree of activation D2). It can be decided by.
  • Control conditions include conditions under which the test olfactory receptor is not brought into contact with the test substance.
  • the degree of activation D1 and D2 can both be acquired and used as data reflecting parameters that are indicators of activation of the test olfactory receptor.
  • Parameters that are indicators of the activation of the test olfactory receptor include the amount of intracellular calcium and the amount of intracellular cAMP.
  • Data reflecting the amount of intracellular cAMP includes luminescence intensity in the case of the luciferase assay.
  • the data reflecting the parameters that are indicators of the activation of the test olfactory receptor can be used as it is or after being subjected to processing such as correction as appropriate.
  • the degree of activation D1 When the degree of activation D1 is high, it may be determined that the test substance has activated the test olfactory receptor.
  • the ratio of the degree of activation D1 to the degree of activation D2 ie, D1 / D2 is 1.5 or more, 2 or more, 3 or more, 5 or more, 10 or more, 20 or more, 50 or more, or 100 or more. If, it may be determined that the test substance activated the test olfactory receptor.
  • Examples of the ratio of the degree of activation D1 to the degree of activation D2 include the normalized response value described in the examples.
  • the degree of activation of the test olfactory receptor by the test substance can be determined by using the result of comparison between the degree of activation D1 and the degree of activation D2 as an index.
  • the ratio of the degree of activation D1 to the degree of activation D2 ie, D1 / D2
  • D1 / D2 can be considered as the degree of activation of the test olfactory receptor by the test substance.
  • Examples of the ratio of the degree of activation D1 to the degree of activation D2 include the normalized response value described in the examples.
  • the test substance may be a known substance or a new substance.
  • the test substance may be a natural product or an artificial product.
  • the test substance may be, for example, a compound library prepared using combinatorial chemistry techniques.
  • Examples of the test substance include alcohols, ketones, aldehydes, ethers, esters, hydrocarbons, sugars, organic acids, nucleic acids, amino acids, peptides, and various other organic or inorganic components.
  • examples of the test substance include existing food additives. "Existing food additive" means a substance that has already been approved for use as a food additive. As the test substance, one kind of test substance may be used, or two or more kinds of test substances may be used in combination.
  • the test material may be selected to include, for example, existing food additives and other materials as exemplified above. That is, as the test substance, for example, one kind of existing food additive may be used, or two or more kinds of food additives may be used in combination, and one kind or more food additives may be used. It may be used in combination with one or more other substances.
  • "using two or more kinds of test substances in combination” means predicting the presence or absence of a target component for each of two or more kinds of test substances.
  • the test substance may be a mixture.
  • test substance is a mixture
  • "presence or absence or degree of activation of the test olfactory receptor by the test substance” means the presence or absence or degree of activation of the test olfactory receptor by the whole mixture, and constitutes the mixture. It does not matter whether or not the test olfactory receptor is activated by each substance
  • the test substance is a mixture
  • "presence or absence of the target component in the test substance” means the presence or absence of the target component in the entire mixture, and the target component in each substance constituting the mixture. It does not matter whether or not there is. That is, for example, when the test substance is a mixture, "the test substance has the desired aroma property” means that the mixture has the desired aroma property as a whole, and each substance constituting the mixture has the desired aroma property. It does not matter whether it has the desired aroma characteristics. Further, “the test substance has a target molecular structure” means that the mixture has a target molecular structure as a whole (that is, at least one substance selected from the substances constituting the mixture has a target molecular structure. It does not matter whether the substances constituting the mixture other than the at least one substance have the desired molecular structure.
  • the decision tree can be generated by machine learning. That is, the predictive model manufacturing method of the present invention may include a step of generating a decision tree by machine learning. This process is also referred to as a "decision tree generation process”.
  • the conditions of machine learning are not particularly limited as long as a decision tree capable of making predictions with desired accuracy can be obtained.
  • Machine learning can be performed using a dataset containing component data of the control substance and control olfactory receptor activation data.
  • the component data of the control substance is also hereinafter simply referred to as “component data”.
  • the control olfactory receptor activation data of the control substance is also hereinafter simply referred to as “control olfactory receptor activation data”.
  • Machine learning can be carried out, for example, using component data as an objective variable and control olfactory receptor activation data as an explanatory variable.
  • the machine learning method is not particularly limited as long as it can generate a decision tree.
  • Examples of machine learning methods include CART (Classification and Regression Trees), CHAID (Chi-squared Automatic Interaction Detection), ID3 (Iterative Dichotomiser 3), and C4.5.
  • a particular method of machine learning is CART.
  • Machine learning may be carried out by, for example, ensemble learning.
  • Ensemble learning includes bagging and boosting. Examples of bagging include Random Forest and Extremely Randomized Trees (ExtraTrees).
  • Boosting includes XG boost and LightGBM.
  • the decision tree included in the prediction model may be a decision tree after ensemble learning. That is, for example, when bagging is performed, the prediction model may include a plurality of decision trees obtained by bagging. In this case, a plurality of decision trees can be used together in the prediction process. That is, according to bagging, a plurality of decision trees can be generated as a weak learner, and a combination of the plurality of weak learners can be used as a strong learner.
  • the prediction model may include a decision tree whose learning level is improved by boosting. That is, according to boosting, a decision tree as a strong learner can be generated and used based on a decision tree generated as a weak learner.
  • Control substance means a substance that can be used to generate a decision tree as an index of the presence or absence of a target component.
  • the control substance is not particularly limited as long as its component data and control olfactory receptor activation data are available.
  • Control component data means data on the target component of the control substance.
  • the component data when the target component is the aroma characteristic is also referred to as “aroma characteristic data”.
  • the component data when the target component has a molecular structure is also referred to as “molecular structure data”. Examples of the component data include data indicating the presence or absence of the target component in the control substance.
  • Control olfactory receptor activation data of control substance means data on activation of control olfactory receptor by control substance.
  • Examples of the control olfactory receptor activation data include data indicating the presence or absence of activation of the control olfactory receptor by the control substance and data indicating the degree of activation of the control olfactory receptor by the control substance.
  • Examples of the control olfactory receptor activation data include data showing the degree of activation of the control olfactory receptor by the control substance.
  • Control olfactory receptor means the olfactory receptor used to generate a decision tree.
  • the olfactory receptor is used to generate the olfactory receptor means that the olfactory receptor activation data for the olfactory receptor (that is, the data regarding the activation of the olfactory receptor by the control substance) is used for the generation of the olfactory receptor. It may mean that it is used.
  • Examples of the control olfactory receptor include the above-mentioned olfactory receptor. That is, the control olfactory receptor may include the above-mentioned olfactory receptor.
  • control olfactory receptors 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more of the total number of control olfactory receptors may be selected from the above-mentioned olfactory receptors.
  • the control olfactory receptor a combination of two or more olfactory receptors including the test olfactory receptor is used.
  • the control olfactory receptor may consist of a test olfactory receptor and may include other olfactory receptors in addition to the test olfactory receptor. In other words, some or all of the control olfactory receptors are selected as test olfactory receptors. That is, among the control olfactory receptors, the olfactory receptor used in the branch included in the decision tree is selected as the test olfactory receptor.
  • the number of control olfactory receptors is not particularly limited as long as a decision tree that can make predictions with desired accuracy is obtained.
  • the number of control olfactory receptors can be appropriately set according to various conditions such as the type of target component and the method of machine learning.
  • the number of control olfactory receptors may be, for example, 50 or more, 70 or more, 100 or more, 150 or more, 200 or more, 300 or more, 400 or more, or 500 or more, 2000 or less, 1500 or less, 1000 or less, 500. Hereinafter, it may be 400 or less, 300 or less, 200 or less, 150 or less, or 100 or less, and may be a consistent combination thereof. Specifically, the number of control olfactory receptors may be, for example, 50 to 2000, 100 to 1000, or 300 to 500.
  • the component data may or may not be publicly known. If the component data is not known, the component data may be acquired as appropriate before the generation of the decision tree.
  • the method of acquiring the component data is not particularly limited.
  • the component data can be identified, for example, by a known method of identifying the presence or absence or degree of component of a substance.
  • the presence or absence or degree of desired aroma properties in the control material can be identified, for example, by sensory evaluation by a specialized panel.
  • the presence or absence of the target molecular structure in the control substance can be identified, for example, by a known method for identifying the structure of the substance.
  • NMR nuclear magnetic resonance
  • ESR electron spin resonance
  • UV-Vis-NIR ultraviolet-visible near-infrared spectroscopy
  • IR infrared spectroscopy
  • Raman spectroscopy Raman spectroscopy
  • Control olfactory receptor activation data may or may not be known. If the control olfactory receptor activation data is not known, the control olfactory receptor activation data may be obtained as appropriate before the generation of the decision tree.
  • the method for obtaining control olfactory receptor activation data is not particularly limited. Control olfactory receptor activation data can be identified, for example, by a known method for identifying the presence or absence or degree of activation of the olfactory receptor by a substance.
  • the control olfactory receptor activation data is specifically obtained by, for example, contacting the control olfactory receptor with the control substance and measuring the presence or absence or degree of activation of the control olfactory receptor by contact with the control substance. , Can be obtained.
  • control substance a combination of two or more substances including a positive control and a negative control is used.
  • positive control is meant a substance having a component of interest.
  • negative control is meant a substance that does not have the components of interest.
  • the control substance may be a known substance or a novel substance.
  • the control substance may be a natural product or an artificial product.
  • the control material may be, for example, a compound library made using combinatorial chemistry techniques.
  • Control materials include, for example, alcohols, ketones, aldehydes, ethers, esters, hydrocarbons, sugars, organic acids, nucleic acids, amino acids, peptides and other organic or inorganic components.
  • Specific examples of the control substance include substances for which the presence / absence and / or degree of the target component is known. Examples of the substance whose presence / absence and / or degree of the target component is known include the substances described in The Good Scents Company (http://www.thegoodscentscompany.com/).
  • control substance may contain the substance described in The Good Scents Company.
  • 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more of the total number of control substances may be selected from the substances described in The Good Scents Company.
  • Any substance described in The Good Scents Company may be considered, for example, to exhibit the scents listed in its Odor Description (ie, a positive control for the scents listed in its Odor Description).
  • none of the substances described in The Good Scents Company for example, exhibit a scent not listed in the Odor Description (that is, a negative control group for the scent listed in the Odor Description). good.
  • the control substance may contain the substance described in Atlas of odor character profiles. Any substance described in Atlas of odor character profiles may be regarded as a positive control or a negative control for the scent, for example, depending on the percentage of applicability value of each scent. That is, any substance described in Atlas of odor character profiles may be regarded as a positive control for the scent, for example, when the percentage of applicability value of the scent is high.
  • any substance described in Atlas of odor character profiles may be regarded as a negative control for the scent, for example, when the percentage of applicability value of a certain scent is low. “The percentage of applicability value is high” may mean, for example, that the percentage of applicability value is 4 or more, 7 or more, 10 or more, 15 or more, or 20 or more. “The percentage of applicability value is low” may mean, for example, that the percentage of applicability value is less than 4, 3 or less, 2 or less, 1 or less, or 0.5 or less.
  • any of the substances exemplified above may be regarded as a positive control for the molecular structure of the substance.
  • any of the substances exemplified above may be regarded as a negative control for the molecular structure that the substance does not have.
  • control material may be a mixture.
  • control substance is a mixture
  • "presence or absence or degree of activation of the control olfactory receptor by the control substance” means the presence or absence or degree of activation of the control olfactory receptor by the whole mixture, and constitutes the mixture. It does not matter whether or not the control olfactory receptor is activated by each substance.
  • control substance when the control substance is a mixture, "presence or absence of the target component in the control substance” means the presence or absence of the target component in the entire mixture, and the target component in each substance constituting the mixture. It does not matter whether or not there is. That is, for example, when the control substance is a mixture, "the control substance has the desired aroma property” means that the mixture has the desired aroma property as a whole, and each substance constituting the mixture has the desired aroma property. It does not matter whether it has the desired aroma characteristics. Further, “the control substance has the target molecular structure” means that the mixture has the target molecular structure as a whole (that is, at least one substance selected from the substances constituting the mixture has the target molecular structure. It does not matter whether the substances constituting the mixture other than the at least one substance have the desired molecular structure.
  • the number of control substances, the number of positive controls, the number of negative controls, and their ratios are not particularly limited as long as a decision tree can be obtained with the desired accuracy.
  • the number of control substances, the number of positive controls, the number of negative controls, and their ratios can be appropriately set according to various conditions such as, for example, the type of the target component and the method of machine learning.
  • the number of control substances is, for example, 100 or more, 150 or more, 200 or more, 300 or more, 400 or more, 500 or more, 600 or more, 700 or more, 800 or more, 900 or more, 1000 or more, 1500 or more, 2000 or more, 3000 or more, It may be 5000 or more, 10000 or more, 20000 or more, 50000 or more, or 100,000 or more, 1,000,000 or less, 500,000 or less, 200,000 or less, 100,000 or less, 50,000 or less, 20000 or less, 10000 or less, 5000 or less, 3000 or less, 2000 or less. It may be 1500 or less, 1000 or less, or 500 or less, and may be a consistent combination thereof.
  • the number of control substances may be, for example, 100 to 1,000,000, 200 to 500,000, 500 to 100,000, or 1,000 to 20,000.
  • the number of control substances is, for example, 100 to 200, 200 to 500, 500 to 1000, 1000 to 2000, 2000 to 5000, 5000 to 10000, 10000 to 20000, 20000 to 50000, 50000 to 100,000, or It may be 100,000 to 200,000.
  • the number of positive controls and the number of negative controls are, for example, 5 or more, 10 or more, 15 or more, 20 or more, 25 or more, 30 or more, 40 or more, 50 or more, 70 or more, 100 or more, 150 or more, 200. 300 or more, 400 or more, 500 or more, 600 or more, 700 or more, 800 or more, 900 or more, 1000 or more, 1500 or more, 2000 or more, 3000 or more, 5000 or more, 10000 or more, 20000 or more, 50,000 or more, or 100,000 or more It may be 1,000,000 or less, 500,000 or less, 200,000 or less, 100,000 or less, 50,000 or less, 20,000 or less, 10000 or less, 5000 or less, 3000 or less, 2000 or less, 1500 or less, 1000 or less, 500 or less, 200 or less, 150 or less.
  • the number of positive controls and the number of negative controls may be, for example, 5 to 1,000,000, 100 to 1,000,000, 200 to 500,000, 500 to 100,000, or 1,000 to 20,000.
  • the number of positive controls and the number of negative controls are, for example, 5 to 10, 10 to 100, 100 to 200, 200 to 500, 500 to 1000, 1000 to 2000, 2000 to 5000, 5000. It may be ⁇ 10,000 to 10,000 to 20,000, 20,000 to 50,000, 50,000 to 100,000, or 100,000 to 200,000.
  • the ratio of positive control and the ratio of negative control in the control substance are, for example, more than 0%, 1% or more, 3% or more, 5% or more, 10% or more, 20% or more, 30% or more, 40% or more. , 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more, less than 100%, 99% or less, 97% or less, 95% or less, 90% or less. , 80% or less, 70% or less, 60% or less, 50% or less, 40% or less, 30% or less, 20% or less, 10% or less, or 5% or less, which are consistent combinations thereof. You may.
  • the ratio of the positive control and the ratio of the negative control in the control substance are, for example, 1 to 99%, 1 to 50%, 1 to 20%, 1 to 10%, 1 to 5%, 5 ⁇ 99%, 5-50%, 5-20%, 5-10%, 10-99%, 10-50%, 10-20%, 20-99%, 20-50%, or 50-99% There may be.
  • the ratio of the positive control and the ratio of the negative control in the control substance are, for example, 1 to 10%, 10 to 20%, 20 to 30%, 30 to 40%, 40 to 50%, 50. It may be -60%, 60-70%, 70-80%, 80-90%, or 90-99%.
  • “Ratio of positive controls in control” means the ratio of the number of positive controls to the total number of controls.
  • “Ratio of negative controls in control” means the ratio of the number of negative controls to the total number of controls. The total number of controls may be the sum of the number of positive controls and the number of negative controls.
  • the decision tree contains two or more leaf nodes.
  • One or more leaf nodes included in the decision tree are considered positive leaf nodes. That is, the decision tree contains one or more positive leaf nodes.
  • positive leaf node is meant a leaf node that is likely to have the desired component.
  • the “positive leaf node” means a leaf node in which a substance classified into the leaf node is likely to have a desired component.
  • the number of leaf nodes included in the decision tree is not particularly limited as long as the prediction can be performed with the desired accuracy.
  • the number of leaf nodes included in the decision tree may be, for example, 2 or more, 3 or more, 4 or more, 5 or more, 6 or more, 7 or more, 8 or more, 9 or more, or 10 or more, 100 or less, 50 or less. Below, 30 or less, 25 or less, 20 or less, 15 or less, 12 or less, 10 or less, 9 or less, 8 or less, 7 or less, 6 or less, or 5 or less, and even a consistent combination thereof. good.
  • the number of leaf nodes included in the decision tree may be, for example, 2 to 30, 3 to 20, or 4 to 15.
  • the number of positive leaf nodes included in the decision tree is not particularly limited as long as the prediction can be performed with the desired accuracy.
  • the decision tree may contain only one positive leaf node and may contain two or more.
  • the number of positive leaf nodes contained in the decision tree may be, for example, 1 or more, 2 or more, 3 or more, 4 or more, or 5 or more, 10 or less, 9 or less, 8 or less, 7 or less, 6 or less, It may be 5 or less, 4 or less, 3 or less, or 2 or less, and may be a consistent combination thereof.
  • the number of positive leaf nodes contained in the decision tree may be, for example, 1 to 10, 1 to 6, or 1 to 4.
  • Positive leaf nodes include leaf nodes containing positive controls.
  • Leaf nodes containing positive controls may contain one or more positive controls.
  • Leaf nodes containing positive controls may or may not contain negative controls.
  • the leaf node containing the positive control may be, for example, a leaf node having a high ratio of positive controls. “Leaf node with a high ratio of positive controls” means, for example, that the ratio of positive controls is 30% or more, 40% or more, 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or It may mean a leaf node which is 95% or more.
  • ratio of positive controls in a leaf node means the ratio of the number of positive controls contained in the leaf node to the number of control substances contained in the leaf node. Further, for example, a desired number of leaf nodes may be designated as positive leaf nodes in order from the one having the highest ratio of positive controls.
  • the prediction method of the present invention is a method of predicting the presence or absence of a target component in a test substance.
  • the prediction can be carried out using the prediction model of the present invention. Specifically, the prediction can be carried out based on the test olfactory receptor activation data of the test substance and the prediction model of the present invention. That is, the prediction method of the present invention may include a step of predicting the presence or absence of a target component of the test substance based on the test olfactory receptor activation data of the test substance and the prediction model of the present invention. This process is also referred to as a "prediction process".
  • the prediction method of the present invention may be a method of screening a substance having a target component. That is, the prediction method of the present invention may further include a step of selecting a test substance predicted to have a target component as a substance having the target component.
  • the screening method has a step of predicting the presence or absence of a target component for the test substance based on the test olfactory receptor activation data of the test substance and a prediction model, and the test substance predicted to have the target component. It may be a method of screening a substance having a target component, which comprises a step of selecting the substance as a substance having the target component.
  • the screening method is a step of predicting the presence or absence of a target component of a test substance by the prediction method of the present invention, and a substance having a target component of a test substance predicted to have the target component.
  • It may be a method of screening a substance having a desired component, which comprises a step of selecting as a substance.
  • the prediction method of the present invention may further include a step of manufacturing a prediction model by the prediction model manufacturing method of the present invention before the prediction step.
  • the decision tree included in the prediction model By applying the decision tree included in the prediction model to the test olfactory receptor activation data of the test substance, the conclusion that is an index of prediction, specifically, the classification result regarding the presence or absence of the target component in the test substance can be obtained. Can be output. Specifically, by applying the decision tree included in the prediction model to the test olfactory receptor activation data of the test substance, the test substance can be classified into any of the leaf nodes included in the decision tree.
  • test substance when a test substance is classified as a positive leaf node, it may be predicted that the test substance has a target component. Also, for example, if the test substance is not classified as a positive leaf node, it may be predicted that the test substance does not have the desired component. Moreover, when bagging is carried out, the classification result by a plurality of decision trees may be comprehensively evaluated. For example, if the ratio of the number of decision trees in which the test substance is classified as a positive leaf node to the total number of decision trees is high, it may be predicted that the test substance has the desired component.
  • the ratio of the number of decision trees in which the test substance is classified as a positive leaf node to the total number of decision trees is high means, for example, the number of decision trees in which the test substance is classified as a positive leaf node to the total number of decision trees. It may mean that the ratio is more than 50%, 60% or more, 70% or more, 80% or more, or 90% or more.
  • the prediction method of the present invention may further include a step of evaluating the prediction result. That is, by evaluating the target component of the test substance, it is possible to confirm whether the target substance actually has the target component. Specifically, for example, by evaluating the target component of the test substance predicted to have the target component, it is possible to confirm whether the target substance actually has the target component. That is, the step of evaluating the prediction result may be, for example, a step of confirming the presence or absence of the target component in the test substance predicted to have the target component.
  • the method for evaluating the result of the prediction is not particularly limited. As for the method of evaluating the prediction result, the description of the method of acquiring the component data of the control substance can be applied mutatis mutandis.
  • the predictive model manufacturing method of the present invention is a method of manufacturing a model for predicting the goodness of fit of a test substance to a target aroma characteristic. Predicting the goodness of fit of a test substance to a desired aroma characteristic is also simply referred to as “prediction” below.
  • the model that predicts the goodness of fit of the test substance to the desired aroma characteristics is also simply referred to as “prediction model” below.
  • the prediction model is a model that predicts the goodness of fit of the test substance to the target aroma characteristics. That is, the prediction model can be used for prediction. Specifically, the prediction model can be used for prediction in the manner described in the prediction method of the present invention.
  • the prediction model may include a regression equation.
  • the regression equation is not particularly limited as long as it outputs a conclusion that is an index of prediction. Predictions can be made based on the test olfactory receptor activation data of the test substance.
  • the test olfactory receptor activation data of the test substance is also hereinafter simply referred to as "test olfactory receptor activation data". That is, the regression equation may output a conclusion that is an index of prediction based on the test olfactory receptor activation data (in other words, using the test olfactory receptor activation data as a variable).
  • the regression equation may output, for example, a predicted value of the goodness of fit of the test substance to the desired aroma characteristics based on the test olfactory receptor activation data.
  • the regression equation may be, for example, a linear regression equation.
  • target aroma characteristic means the aroma characteristic to be predicted for the goodness of fit.
  • the aroma and aroma characteristics are as described in the first aspect of the present invention.
  • “Goodness of fit to aroma characteristics” means qualitative proximity to the aroma characteristics of the target. That is, “highly compatible with aroma characteristics” means having a property of exhibiting an aroma close to that of the target aroma itself. For example, “highly compatible with the aroma characteristic” STARWBERRY “” means having a property of exhibiting an aroma close to that of STARWBERRY itself. “Highly compatible with aroma characteristics” is also referred to as “having a high degree of compatibility with aroma characteristics”. As the goodness of fit to the aroma characteristics, the percentage of applicability value calculated according to the criteria described in Atlas of odor character profiles (Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985) is used. Can be mentioned.
  • the percentage of applicability value is defined by a panel of multiple specialists who have 6 levels of intensity of the target aroma in the target substance (0 to 5 points: 0, Absent; 1, Slightly; 3, Moderately; 5, Extremely. ), And obtained as a score of 0 to 100 by calculating the geometric mean of "the ratio of specialized panels with a score of 1 or more (%)" and "the average value of the scores of all specialized panels ⁇ 5". can do.
  • the aroma may be one type of aroma or a combination of two or more types of aroma. That is, the "goodness of fit to the aroma characteristics" may mean the goodness of fit to any one type of aroma characteristics, or may mean the goodness of fit to each of two or more types of aroma characteristics. ..
  • Test substance means a substance for which the degree of conformity with the desired aroma characteristics is predicted.
  • the "test substance” means a substance used as a candidate for a substance having a high degree of conformity with the desired aroma characteristics in a method for screening a substance having a high degree of conformity with the target aroma characteristics. ..
  • the test substance is not particularly limited as long as the test olfactory receptor activation data can be used.
  • Test olfactory receptor activation data of test substance means data on activation of test olfactory receptor by test substance. "Activation of the test olfactory receptor by the test substance” may be used in place of "response of the test olfactory receptor to the test substance". Examples of the test olfactory receptor activation data include data indicating the presence or absence of activation of the test olfactory receptor by the test substance and data indicating the degree of activation of the test olfactory receptor by the test substance. Examples of the test olfactory receptor activation data include data indicating the degree of activation of the test olfactory receptor by the test substance.
  • the "degree of activation of the test olfactory receptor by the test substance” may mean the intensity at which the test substance activates the test olfactory receptor.
  • the test olfactory receptor activation data is used by substituting it into a regression equation as a variable.
  • Test olfactory receptor means the olfactory receptor used in the regression equation.
  • the olfactory receptor is used in the regression equation means that the olfactory receptor activation data for the olfactory receptor (that is, the data regarding the activation of the olfactory receptor by the test substance) is substituted into the regression equation as a variable. It may mean that it is used.
  • Examples of the test olfactory receptor include the following olfactory receptors.
  • the test olfactory receptor may be one type of olfactory receptor or a combination of two or more types of olfactory receptors.
  • olfactory receptor and the gene encoding it are as described in the first aspect of the present invention.
  • the test olfactory receptor activation data may or may not be known. If the test olfactory receptor activation data is not known, the test olfactory receptor activation data may be obtained as appropriate before the prediction is performed.
  • the method for obtaining the test olfactory receptor activation data is not particularly limited.
  • the test olfactory receptor activation data can be obtained, for example, by a known method for identifying the presence or absence or degree of activation of the olfactory receptor by a substance. Specifically, the test olfactory receptor activation data is obtained by, for example, contacting the test olfactory receptor with the test substance and measuring the presence or absence or degree of activation of the test olfactory receptor by contact with the test substance.
  • test olfactory receptor can be obtained.
  • the contact between the test olfactory receptor and the test substance and the measurement of the presence or absence or degree of activation of the test olfactory receptor by the contact are, for example, a method for screening a substance exhibiting a desired aroma using the response of the olfactory receptor as an index. It can be carried out by referring to Open 2019-037197 etc.).
  • the test olfactory receptor may be supported and used in cells such as animal cells.
  • the activation of the test olfactory receptor can be measured, for example, by using an increase in the amount of intracellular calcium or intracellular cAMP as an index. Examples of the method for measuring the amount of intracellular cAMP include ELISA and reporter assay.
  • the reporter assay examples include a luciferase assay.
  • the intracellular cAMP amount can be measured by using a reporter gene (luciferase gene or the like) configured to be expressed depending on the cAMP amount.
  • a method for measuring the amount of intracellular calcium for example, calcium imaging can be mentioned.
  • the contact between the test olfactory receptor and the test substance and the measurement of the presence or absence or degree of activation of the test olfactory receptor by the contact can be carried out, for example, by the following procedure.
  • the presence or absence or degree of activation of the test olfactory receptor by the test substance is determined under the condition that the test olfactory receptor is brought into contact with the test substance and the contact is performed (that is, the test olfactory receptor is brought into contact with the test substance). )
  • the degree of activation of the sensory receptor (degree of activation D1) can be used as an index to determine.
  • the concentration of the test substance to be brought into contact with the test olfactory receptor can be appropriately set according to various conditions such as the type of the test olfactory receptor and the type of the test substance.
  • the concentration of the test substance in contact with the test olfactory receptor may be, for example, 3 to 1000 ⁇ M.
  • the concentration of test substance in contact with the test olfactory receptor may typically be 300 ⁇ M. Further, for example, for a test substance showing cytotoxicity at 300 ⁇ M, the concentration of the test substance to be brought into contact with the test olfactory receptor may be 3 ⁇ M, 10 ⁇ M, 30 ⁇ M, or 100 ⁇ M.
  • the presence or absence or degree of activation of the test olfactory receptor by the test substance is specifically compared with the degree of activation D1 and the degree of activation of the test olfactory receptor under the control condition (degree of activation D2). It can be decided by.
  • Control conditions include conditions under which the test olfactory receptor is not brought into contact with the test substance.
  • the degree of activation D1 and D2 can both be acquired and used as data reflecting parameters that are indicators of activation of the test olfactory receptor.
  • Parameters that are indicators of the activation of the test olfactory receptor include the amount of intracellular calcium and the amount of intracellular cAMP.
  • Data reflecting the amount of intracellular cAMP includes luminescence intensity in the case of the luciferase assay.
  • the data reflecting the parameters that are indicators of the activation of the test olfactory receptor can be used as it is or after being subjected to processing such as correction as appropriate.
  • the degree of activation D1 When the degree of activation D1 is high, it may be determined that the test substance has activated the test olfactory receptor.
  • the ratio of the degree of activation D1 to the degree of activation D2 ie, D1 / D2 is 1.5 or more, 2 or more, 3 or more, 5 or more, 10 or more, 20 or more, 50 or more, or 100 or more. If, it may be determined that the test substance activated the test olfactory receptor.
  • Examples of the ratio of the degree of activation D1 to the degree of activation D2 include the normalized response value described in the examples.
  • the degree of activation of the test olfactory receptor by the test substance can be determined by using the result of comparison between the degree of activation D1 and the degree of activation D2 as an index.
  • the ratio of the degree of activation D1 to the degree of activation D2 ie, D1 / D2
  • D1 / D2 can be considered as the degree of activation of the test olfactory receptor by the test substance.
  • Examples of the ratio of the degree of activation D1 to the degree of activation D2 include the normalized response value described in the examples.
  • the test substance may be a known substance or a new substance.
  • the test substance may be a natural product or an artificial product.
  • the test substance may be, for example, a compound library prepared using combinatorial chemistry techniques.
  • Examples of the test substance include alcohols, ketones, aldehydes, ethers, esters, hydrocarbons, sugars, organic acids, nucleic acids, amino acids, peptides, and various other organic or inorganic components.
  • examples of the test substance include existing food additives. "Existing food additive" means a substance that has already been approved for use as a food additive. As the test substance, one kind of test substance may be used, or two or more kinds of test substances may be used in combination.
  • the test material may be selected to include, for example, existing food additives and other materials as exemplified above. That is, as the test substance, for example, one kind of existing food additive may be used, or two or more kinds of food additives may be used in combination, and one kind or more food additives may be used. It may be used in combination with one or more other substances.
  • "using two or more kinds of test substances in combination” means predicting the goodness of fit of two or more kinds of test substances to the desired aroma characteristics.
  • the test substance may be a mixture.
  • test substance is a mixture
  • "presence or absence or degree of activation of the test olfactory receptor by the test substance” means the presence or absence or degree of activation of the test olfactory receptor by the whole mixture, and constitutes the mixture. It does not matter whether or not the test olfactory receptor is activated by each substance
  • the "goodness of fit to the target aroma characteristics of the test substance” means the goodness of fit to the target aroma characteristics of the entire mixture, and in each substance constituting the mixture.
  • the degree of conformity to the desired aroma characteristics does not matter. That is, for example, when the test substance is a mixture, "the test substance has a high degree of compatibility with the target aroma characteristics” means that the mixture as a whole has a high degree of compatibility with the target aroma characteristics. It does not matter whether each substance constituting the mixture has a high degree of compatibility with the desired aroma characteristics.
  • the regression equation can be generated by machine learning. That is, the predictive model manufacturing method of the present invention may include a step of generating a regression equation by machine learning. This process is also referred to as a "regression formula generation process”.
  • Machine learning conditions are not particularly limited as long as a regression equation that can make predictions with desired accuracy can be obtained.
  • Machine learning can be performed using a dataset containing aroma characteristic data of the control substance and control olfactory receptor activation data.
  • the aroma characteristic data of the control substance is also simply referred to as "aroma characteristic data” below.
  • the control olfactory receptor activation data of the control substance is also hereinafter simply referred to as “control olfactory receptor activation data”.
  • Machine learning can be carried out, for example, using aroma characteristic data as an objective variable and control olfactory receptor activation data as an explanatory variable.
  • the machine learning method is not particularly limited as long as it can generate a regression equation.
  • Regression analysis is an example of a machine learning method.
  • Regression analysis includes simple regression analysis and multiple regression analysis.
  • Regression analysis includes, in particular, multiple regression analysis.
  • Regression analysis that can generate a linear regression equation includes linear regression analysis. Examples of linear regression analysis include linear simple regression analysis and linear multiple regression analysis. Examples of linear regression analysis include linear multiple regression analysis.
  • Machine learning may be carried out by, for example, ensemble learning.
  • Ensemble learning includes bagging and boosting.
  • the regression equation included in the prediction model may be the regression equation after ensemble learning. That is, for example, when bagging is performed, the prediction model may include a plurality of regression equations obtained by bagging. In this case, a plurality of regression equations can be used together in the prediction step. That is, according to bagging, a plurality of regression equations can be generated as a weak learner, and a combination of the plurality of weak learners can be used as a strong learner.
  • the prediction model may include a regression equation whose learning level is improved by boosting. That is, according to boosting, it is possible to generate and use a regression equation as a strong learner based on a regression equation generated as a weak learner.
  • Control substance means a substance that can be used to generate a regression equation as an index of the goodness of fit to the desired aroma characteristics.
  • the control substance is not particularly limited as long as the aroma characteristic data and the control olfactory receptor activation data are available.
  • Aroma characteristic data of the control substance means data indicating the degree of conformity of the control substance to the desired aroma characteristics.
  • the data showing the goodness of fit of the control substance to the desired aroma characteristics are in accordance with the criteria described in Atlas of odor character profiles (Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985). The calculated percentage of goodness of fit value can be mentioned.
  • Control olfactory receptor activation data of control substance means data on activation of control olfactory receptor by control substance.
  • Examples of the control olfactory receptor activation data include data indicating the presence or absence of activation of the control olfactory receptor by the control substance and data indicating the degree of activation of the control olfactory receptor by the control substance.
  • Examples of the control olfactory receptor activation data include data showing the degree of activation of the control olfactory receptor by the control substance.
  • Control olfactory receptor means the olfactory receptor used to generate the regression equation.
  • the olfactory receptor is used to generate the regression equation means that the olfactory receptor activation data for the olfactory receptor (that is, the data regarding the activation of the olfactory receptor by the control substance) is used for the generation of the regression equation. It may mean that it is used.
  • Examples of the control olfactory receptor include the above-mentioned olfactory receptor. That is, the control olfactory receptor may include the above-mentioned olfactory receptor.
  • control olfactory receptors 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more of the total number of control olfactory receptors may be selected from the above-mentioned olfactory receptors.
  • the control olfactory receptor a combination of two or more olfactory receptors including the test olfactory receptor is used.
  • the control olfactory receptor may consist of a test olfactory receptor and may include other olfactory receptors in addition to the test olfactory receptor. In other words, some or all of the control olfactory receptors are selected as test olfactory receptors.
  • the olfactory receptor used in the regression equation is selected as the test olfactory receptor.
  • machine learning may be performed using control olfactory receptor activation data for some or all of the control olfactory receptors as explanatory variables. That is, "machine learning is carried out using the control olfactory receptor activation data as an explanatory variable” means that machine learning is carried out using the control olfactory receptor activation data for a part or all of the control olfactory receptor as an explanatory variable. It may mean that it is done.
  • the olfactory receptor having a high correlation coefficient between the aroma characteristic data and the control olfactory receptor activation data may be selected as the test olfactory receptor.
  • the correlation coefficient between the aroma characteristic data and the control olfactory receptor activation data is high means that, for example, the absolute value of the correlation coefficient between the aroma characteristic data and the control olfactory receptor activation data is greater than 0.1 and 0.
  • An olfactory receptor having a high correlation coefficient between the aroma characteristic data and the control olfactory receptor activation data can be identified by calculating the correlation coefficient between the aroma characteristic data and the control olfactory receptor activation data. That is, the regression equation generation step may include, for example, a step of calculating the correlation coefficient of the aroma characteristic data and the control olfactory receptor activation data before machine learning.
  • the number of control olfactory receptors is not particularly limited as long as a regression equation that can make predictions with desired accuracy can be obtained.
  • the number of control olfactory receptors can be appropriately set according to various conditions such as the type of aroma characteristics of interest and the method of machine learning.
  • the number of control olfactory receptors may be, for example, 50 or more, 70 or more, 100 or more, 150 or more, 200 or more, 300 or more, 400 or more, or 500 or more, 2000 or less, 1500 or less, 1000 or less, 500. Hereinafter, it may be 400 or less, 300 or less, 200 or less, 150 or less, or 100 or less, and may be a consistent combination thereof. Specifically, the number of control olfactory receptors may be, for example, 50 to 2000, 100 to 1000, or 300 to 500.
  • the number of control olfactory receptors used in the regression equation is, for example, 10 or more, 15 or more, 20 or more, 25 or more, 30 or more, 40 or more, 50 or more, 70 or more, 100. More than 150, more than 200, more than 300, more than 400, or more than 500, 2000 or less, 1500 or less, 1000 or less, 500 or less, 400 or less, 300 or less, 200 or less, 150 or less, 100 or less, It may be 70 or less, 50 or less, 40 or less, 30 or less, 25 or less, or 20 or less, and may be a consistent combination thereof. Specifically, the number of control olfactory receptors may be, for example, 10 to 1000, 15 to 500, or 20 to 200.
  • the aroma characteristic data may or may not be known. If the aroma characteristic data is not known, the aroma characteristic data may be appropriately acquired before the regression equation is generated.
  • the method of acquiring the aroma characteristic data is not particularly limited.
  • the aroma characteristic data can be identified, for example, by a known method for identifying the goodness of fit of a substance to the aroma characteristics.
  • the goodness of fit of the control material to the desired aroma properties can be identified, for example, by sensory evaluation by a specialized panel. Specifically, for example, the percentage of applicability value for the desired aroma characteristics is described in Atlas of odor character profiles (Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985). It can be calculated according to the standard.
  • Control olfactory receptor activation data may or may not be known. If the control olfactory receptor activation data is not known, the control olfactory receptor activation data may be obtained as appropriate before the generation of the regression equation.
  • the method for obtaining control olfactory receptor activation data is not particularly limited. Control olfactory receptor activation data can be identified, for example, by a known method for identifying the presence or absence or degree of activation of the olfactory receptor by a substance.
  • the control olfactory receptor activation data is specifically obtained by, for example, contacting the control olfactory receptor with the control substance and measuring the presence or absence or degree of activation of the control olfactory receptor by contact with the control substance. , Can be obtained.
  • control substance a combination of two or more substances is used.
  • the control substance may be a known substance or a novel substance.
  • the control substance may be a natural product or an artificial product.
  • the control material may be, for example, a compound library made using combinatorial chemistry techniques.
  • Control materials include, for example, alcohols, ketones, aldehydes, ethers, esters, hydrocarbons, sugars, organic acids, nucleic acids, amino acids, peptides and other organic or inorganic components.
  • Specific examples of the control substance include substances whose goodness of fit to the desired aroma characteristics is known. Substances described in Atlas of odor character profiles (Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985) are listed as substances whose goodness of fit to the desired aroma characteristics is known.
  • control substance may contain the substance described in Atlas of odor character profiles.
  • 50% or more, 60% or more, 70% or more, 80% or more, 90% or more, or 95% or more of the total number of control substances may be selected from the substances described in Atlas of odor character profiles.
  • control material may be a mixture.
  • control substance is a mixture
  • "presence or absence or degree of activation of the control olfactory receptor by the control substance” means the presence or absence or degree of activation of the control olfactory receptor by the whole mixture, and constitutes the mixture. It does not matter whether or not the control olfactory receptor is activated by each substance.
  • the "goodness of fit to the target aroma property of the control substance” means the goodness of fit to the target aroma property of the entire mixture, and in each substance constituting the mixture.
  • the degree of conformity to the desired aroma characteristics does not matter. That is, for example, when the control substance is a mixture, "the control substance has a high degree of compatibility with the desired aroma characteristics” means that the mixture as a whole has a high degree of compatibility with the target aroma characteristics. It does not matter whether each substance constituting the mixture has a high degree of compatibility with the desired aroma characteristics.
  • the number of control substances is not particularly limited as long as a regression equation that can make predictions with desired accuracy can be obtained.
  • the number of control substances can be appropriately set according to various conditions such as the type of aroma characteristics of interest and the method of machine learning.
  • the number of control substances is, for example, 30 or more, 40 or more, 50 or more, 70 or more, 100 or more, 150 or more, 200 or more, 300 or more, 400 or more, 500 or more, 600 or more, 700 or more, 800 or more, 900 or more, It may be 1000 or more, 1500 or more, 2000 or more, 3000 or more, 5000 or more, 10000 or more, 20000 or more, 50000 or more, or 100,000 or more, 1,000,000 or less, 500,000 or less, 200,000 or less, 100,000 or less, 50,000 or less, 20000 or less.
  • the number of control substances may be, for example, 30 to 1,000,000, 100 to 1,000,000, 200 to 500,000, 500 to 100,000, or 1,000 to 20,000.
  • the number of control substances is, for example, 30 to 100, 100 to 200, 200 to 500, 500 to 1000, 1000 to 2000, 2000 to 5000, 5000 to 10000, 10000 to 20000, 20000 to 50000, 50000. It may be up to 100,000 or 100,000 to 200,000.
  • the number of control substances may be, for example, 30 to 1000, 50 to 500, or 100 to 200.
  • the prediction method of the present invention is a method of predicting the goodness of fit of a test substance to a target aroma characteristic.
  • the prediction can be carried out using the prediction model of the present invention. Specifically, the prediction can be carried out based on the test olfactory receptor activation data of the test substance and the prediction model of the present invention. That is, the prediction method of the present invention may include a step of predicting the suitability of the test substance to the target aroma characteristics based on the test olfactory receptor activation data of the test substance and the prediction model of the present invention. This process is also referred to as a "prediction process".
  • a test substance predicted to have a high degree of conformity with the desired aroma characteristics can be selected as a substance with a high degree of conformity with the eye aroma characteristics, and thus a substance with a high degree of conformity with the aroma characteristics is screened.
  • one aspect of the prediction method of the present invention may be a method of screening a substance having a high degree of conformity with the desired aroma characteristics.
  • the prediction method of the present invention may further include a step of selecting a test substance predicted to have a high degree of conformity with the desired aroma characteristics as a substance having a high degree of conformity with the target aroma characteristics.
  • the screening method is a step of predicting the goodness of fit of the test substance to the target aroma characteristics based on the test olfactory receptor activation data of the test substance and the prediction model, and the goodness of fit to the target aroma characteristics is high. It may be a method of screening a substance having a high goodness of fit to a target olfactory characteristic, which comprises a step of selecting a test substance predicted to have a high goodness of fit to the target olfactory characteristic.
  • the screening method aims at a step of predicting the goodness of fit of a test substance to a target aroma characteristic by the prediction method of the present invention, and a test substance predicted to have a high goodness of fit to the target aroma characteristic. It may be a method of screening a substance having a high degree of conformity with a desired aroma characteristic, which comprises a step of selecting the substance having a high degree of conformity with the aroma characteristic of the above.
  • the prediction method of the present invention may further include a step of manufacturing a prediction model by the prediction model manufacturing method of the present invention before the prediction step.
  • the regression equation included in the prediction model By applying the regression equation included in the prediction model to the test olfactory receptor activation data of the test substance, the conclusion that is an index of prediction, specifically, the predicted value of the goodness of fit of the test substance to the desired aroma characteristics Can be output. Specifically, by applying the regression equation included in the prediction model to the test olfactory receptor activation data of the test substance, it is possible to output the predicted value of the goodness of fit of the test substance to the target aroma characteristics. Further, when bagging is performed, the output results of a plurality of regression equations may be comprehensively evaluated.
  • the "predicted value of the goodness of fit to the target aroma characteristic of the test substance" is, for example, the predicted value of the goodness of fit to the target aroma characteristic of the test substance output by a plurality of regression equations. It may mean an average value.
  • the predicted value of the goodness of fit of the test substance to the target aroma characteristics is high, it may be predicted that the test substance has a high goodness of fit to the target aroma characteristics.
  • the predicted value of the goodness of fit to the target aroma characteristic is high means that, for example, the percentage of applicability value to the target aroma characteristic is 4 or more, 7 or more, 10 or more, 15 or more, or 20 or more. May mean.
  • the prediction method of the present invention may further include a step of evaluating the prediction result. That is, by evaluating the goodness of fit of the test substance to the target aroma characteristics, it is possible to confirm whether the target substance actually has a high goodness of fit to the target aroma characteristics. Specifically, for example, by evaluating the goodness of fit of the test substance predicted to have a high goodness of fit to the target aroma characteristic, the target substance actually achieves the desired aroma characteristic. It can be confirmed whether or not it has a high degree of conformity. That is, the step of evaluating the prediction result may be, for example, a step of confirming the goodness of fit to the target aroma characteristic of the test substance predicted to have a high goodness of fit to the target aroma characteristic.
  • the method for evaluating the result of the prediction is not particularly limited. As for the method of evaluating the prediction result, the description of the method of acquiring the aroma characteristic data of the control substance can be applied mutatis mutandis.
  • test substances the substances used in the following examples are referred to as "test substances”, but these substances can be used as control substances in the prediction method of the present invention and the design method of the present invention.
  • ⁇ 1> Preparation of human olfactory receptor expressing cells ⁇ 1-1> Preparation of human olfactory receptor expression vector
  • 352 types of human olfactory receptors OR1A1, OR1A2, OR1B1, OR1C1, OR1D2, OR1D5, OR1E1, OR1F1, OR1F12, OR1G1, OR1I1, OR1J1, OR1J2, OR1J4, OR1K1, OR1L1, OR1L3, OR1L4, OR1L8, OR1M1, OR1N1, OR1N2, OR1M1, OR1N1, OR1N2, OR1Q1, OR1A1 OR2A14, OR2A25, OR2AE1, OR2AG1, OR2AG2, OR2AJ1P, OR2AK2, OR2AP1, OR2AT4, OR2B2, OR2B3, OR2B6, OR2B11, OR2C1, OR2C3, OR2D2, OR2C1, OR2C3, OR2D2, OR2D3, OR2F2, OR2D3, OR2
  • 352 human olfactory receptor genes were purchased from the TrueClone cDNA Clone Collection (OriGene). Using primers designed based on the sequence information registered in GenBank, 352 human olfactory receptor gene subcloning fragments were amplified by the PCR method using the purchased human olfactory receptor gene as a template.
  • the Rho tag sequence of the Rho-pME18S vector (K. Kajiya et al., Journal of Neuroscience 15 August 2001, 21 (16) 6018-6025) using the EcoRI and XhoI sites for the subcloning fragment of each amplified gene. By subcloning downstream of, 352 types of human olfactory receptor expression vectors were obtained.
  • HEK293T cells expressing 352 kinds of olfactory receptors were prepared by the following procedure.
  • the gene mixture shown in Table 1 and the transfection reagent mixture shown in Table 2 were prepared and allowed to stand at room temperature for 5 minutes.
  • pcDNA3.1-microbat RTP1s is an expression vector for bat RTP1s
  • pcDNA3.1-Golf is an expression vector for human golf
  • pcDNA3.1-Ric8B is an expression vector for rat Ric8B (Japanese Patent Laid-Open No. 2019-037197).
  • HEK293T cells 2.5 ⁇ 10 6 cells / 10 cm petri dish
  • HEK293T cells 25 ⁇ 10 5 cells / mL
  • 25 ⁇ L was seeded in each well of a 384 well plate at 37 ° C., 5 Incubated overnight in an incubator containing% CO 2.
  • Table 1 the expression vectors shown in Table 1 were transfected to obtain 352 species of HEK293T cell cultures appropriately expressing the genes encoded by these expression vectors.
  • ⁇ 2> Preparation of human olfactory receptor activity database ⁇ 2-1> Luciferase assay Using olfactory receptor-expressing cells, the response of the olfactory receptor to the test substance was measured.
  • 352 kinds of olfactory receptors expressed in HEK293T cells activate adenylate cyclase in conjugation with Golf, thereby increasing the amount of intracellular cAMP.
  • the olfactory receptor response to the test substance was measured by using the luciferase reporter gene assay, which monitors an increase in the amount of intracellular cAMP as an increase in the luminescence value derived from firefly luciferase.
  • the "luciferase reporter gene assay” is also referred to as a "luciferase assay”.
  • Firefly luciferase is expressed in an intracellular cAMP amount-dependent manner from the firefly luciferase gene loaded on pGL4.29 [luc2P / CRE / Hygro] Vector.
  • the luminescence value derived from sea urchin shiitake luciferase was used as an internal standard for correcting errors in gene transfer efficiency and cell number in each well.
  • Umi-shiitake luciferase is constitutively expressed under the control of the TK promoter from the Umi-shiitake luciferase gene loaded on pGL4.74 [hRluc / TK] Vector.
  • test substances 941 kinds of substances were selected from the substances listed in The Good Scents Company (http://www.thegoodscentscompany.com/). The medium was removed from the 352 types of cultures obtained in ⁇ 1-2> above, and 15 ⁇ L of a solution of 941 types of test substance was added to each to obtain a reaction solution of 352 ⁇ 941 types.
  • Each test substance solution was prepared by dissolving each test substance in CD293 (Life Technologies, Inc.). As a general rule, the test substance concentration in the test substance solution was set to 300 ⁇ M. However, for test substances that showed cytotoxicity at 300 ⁇ M, the test substance concentration in the test substance solution was set to 3 ⁇ M, 10 ⁇ M, 30 ⁇ M, or 100 ⁇ M.
  • test substance concentration in the test substance solution was set to 1000 ⁇ M.
  • the reaction solution was placed in an incubator holding 5% CO 2 at 37 ° C., and the cells were cultured for 4 hours to fully express the firefly luciferase gene in the cells.
  • the intracellular luminescence value derived from firefly luciferase was measured and used as the "Luc value”.
  • the intracellular luminescence value derived from sea urchin luciferase was measured and used as the "hRLuc value”.
  • the luminescence value derived from each luciferase was measured using the Dual-Glo TM luciferase assay system (Promega) according to the operation manual of the product.
  • ⁇ 2-2> Calculation of olfactory receptor activity Divide the luminescence value (Luc value) derived from firefly luciferase induced by test substance stimulation by the luminescence value (hRluc value) derived from sea urchin shiitake luciferase in the same well, and "Luc / hRluc value ”.
  • the Luc / hRluc value in the cells stimulated with the test substance was divided by the Luc / hRluc value in the cells not stimulated with the test substance to obtain "fold increase”.
  • the fold increase in the cells into which the expression vector of the olfactory receptor was introduced was divided by the fold increase in the cells into which the empty vector Rho-pME18S was introduced to obtain a "normalized response".
  • the common logarithm of the normalized response was defined as "olfactory receptor activity," which is a quantitative index of the response intensity of the olfactory receptor to the test substance.
  • olfactory receptor activity is a quantitative index of the response intensity of the olfactory receptor to the test substance.
  • the olfactory receptor activity is -1, 0, 1, it means that the common logarithm of the normalized response is -1, 0, 1, that is, the normalized response is 0.1, 1, 10.
  • the effect that the difference in the concentration of the test substance in the test substance solution may have on the olfactory receptor activity was ignored.
  • Aroma characteristic information of the test substance For the aroma characteristic information of the test substance, the descriptor described in the Odor Description of Organoleptic Properties of The Good Scents Company (http://www.thegoodscentscompany.com) is cited. bottom.
  • ⁇ 3-2> Calculation of stereochemical structure similarity Using the molecular surface shape similarity calculation software ROCS (OpenEye), the surface of all conformational pairs of all test substances generated in ⁇ 3-1> above. The similarity was calculated focusing on the shape and surface chemistry. For the stereochemical structural similarity between the test substances, the maximum value of the similarity in all conformational pairs between the substances was adopted. Due to the specifications of similarity calculation by ROCS, the similarity calculated depending on which of the conformational pairs is used as a query does not always match. In such a case, the average value of the two numerical values was used as the similarity of the pair to form a symmetric matrix, and finally, a stereochemical structural similarity matrix considering multiple conformations among all the test substances was obtained. ..
  • the stereochemical structure similarity matrix considering the above is regarded as a matrix consisting of multidimensional stereochemical structure information feature quantity vectors for each test substance, the Euclidan distance between each test substance is calculated, and hierarchical cluster analysis by the Ward method is performed. Was done.
  • the stereochemical structure similarity matrix was rearranged according to the results of the hierarchical cluster analysis, and a heat map showing the high degree of similarity was created (Fig. 1). On the left side of the heat map, the results of classifying all the test substances into 9 clusters based on the dendrograms generated by the hierarchical cluster analysis and the dendrograms are shown in shades of color.
  • a stereochemical structure similarity matrix considering multiple conformation among all test substances is multidimensional for each test substance.
  • the stereochemical structure information of the above was regarded as a matrix consisting of feature quantity vectors, and visualization was performed by reflecting the three-dimensional structure similarity relationship between the test substances by the dimensional reduction method.
  • the t-distributed stochastic neighborhood embedding method t-SNE, Van der Maaten et al., 2008, Visualizing Data Using t-SNE, Journal of Machine Learning Research 9: 2579-2605
  • FIG. 4 shows the results of color-coding the OR10G4 activity (that is, the olfactory receptor activity for the olfactory receptor OR10G4) according to the level. From FIGS. 3 to 5, it was shown that the black dots are localized in a narrow range in the stereochemical structure similarity space, that is, the test substances exhibiting each olfactory receptor activation property are localized in a narrow range. .. Therefore, it was clarified that the olfactory receptor activation characteristics of substances can be predicted by using the stereochemical structural similarity in consideration of multiple conformations as an index.
  • aroma components have been reported to activate multiple types of olfactory receptors, but when one aroma component binds to the active site of a certain olfactory receptor, another olfactory receptor is received. It is considered that it is not necessary to have the same conformation when binding to the active site of the body.
  • Information on the multiple conformation of aroma components is considered to be important for understanding the many-to-many combinatorial coding encoded by aroma components and olfactory receptors. That is, according to the present invention, it is expected that it will be possible to accurately predict the presence or absence of aroma properties or olfactory receptor activation properties in a substance, which could not be achieved by an existing method that ignores information on multiple conformations. NS.
  • Non-Patent Document 1 Smell similarity in sensory evaluation There were 83 odor similarity data between a single substance in Non-Patent Document 1. Excluding the results of similarity evaluation between the same substances, the number was 77. Of these, 9 cases with a similarity greater than 55 and 8 cases with a similarity less than 16 were referred to, for a total of 17 cases.
  • the odor similarity evaluation in Non-Patent Document 1 was performed by the visual analog scale method, and the similarity was expressed from 0 (not at all similar) to 100 (very similar).
  • stereochemical structure similarity of ⁇ 6-3> above is in the range of 0 to 2
  • molecular fingerprint similarity of ⁇ 6-4> above was calculated in the range of 0 to 1, respectively. Therefore, by halving the stereochemical structural similarity, the range of similarity calculated by both methods was made uniform.
  • the similarity calculated by both methods is 100: 0, 90:10, 80:20, 70:30, 60:40, 50:50, 40:60, 30:70, 20:80, 10:90, or A mixed weighted average was calculated at a ratio of 0: 100.
  • ⁇ 6-6> Comparison of stereochemical structural similarity and molecular fingerprint similarity and mixing method Stereochemistry calculated in ⁇ 6-5> above with the similarity of odor referred to in ⁇ 6-1> above as the y-axis.
  • a scatter plot in which the weighted averages of structural similarity and molecular fingerprint similarity are plotted on the x-axis is shown in FIG. 9, and the correlation coefficient between the odor similarity and the weighted average at each mixing ratio is shown in FIG.
  • “ROCS” indicates the stereochemical structural similarity
  • MACCS indicates the molecular fingerprint similarity.
  • test substances the substances used in the following examples are referred to as "test substances”, but these substances can be used as control substances in the prediction model production method of the present invention and the prediction method of the present invention.
  • ⁇ 1-2> Preparation of olfactory receptor-expressing cells
  • 352 types of HEK293T cell cultures expressing 352 types of olfactory receptors were obtained.
  • Luciferase assay 1097 kinds of substances were selected from the substances listed in The Good Scents Company (http://www.thegoodscentscompany.com/) as test substances.
  • the luciferase assay was carried out in the same procedure as in ⁇ 2-1> of Example A except that.
  • ⁇ 2-2> Calculation of olfactory receptor activity The olfactory receptor activity was calculated by the same procedure as in ⁇ 2-2> of Example A.
  • Aroma characteristic information As the aroma characteristic information of the test substance, the descriptor described in the Odor Description of Organoleptic Properties of The Good Scents Company (http://www.thegoodscentscompany.com) was cited.
  • the dendrogram model is an algorithm that sequentially searches for the branching conditions that can best divide the data from the explanatory variables with respect to the objective variable.
  • the result of the analysis returns a simple rule such as "If A, then B", and the rule can be illustrated in a tree structure, so the result is easy to interpret. Gini impureness was used as the statistic used as the basis for division (an index that objectively indicates how "cleanly" the data is divided).
  • the number of samples in the node t is N t
  • the number of categories in the node t is c
  • the number of samples belonging to the category i in the node t is N i for the node t of the dendrogram model
  • the number of samples in the node t is Gini impure I (t) is expressed by the following formula.
  • the information gain IG (Dp, f) obtained by dividing the parent node D p into two child nodes D left and D right with reference to the feature quantity f is expressed by the following equation.
  • N p , N left , and N right are the number of samples included in the nodes D p , D left , and D right, respectively.
  • the feature quantity f that maximizes the information gain IG (Dp, f) is adopted as the branching condition in the node D p , and this process is repeated in sequence until the information gain above a certain level cannot be obtained.
  • Aroma characteristics "burnt” By flagging compounds with burnt or roasted in the descriptor described in the Odor Description of Organoleptic Properties of The Good Scents Company and constructing a dendrogram model, the olfactory receptor characteristic of compounds with the aroma characteristic "burnt" A body activity pattern was identified (Fig. 11). How to read the result of the tree shape model is as follows (the same applies to the subsequent experiments). The ellipse displayed at the bottom is called a leaf, and the other ellipses are called nodes. The number in [] above the ellipse is the identification number of the node and leaf.
  • the lower one represents the ratio of the number of compounds contained in the node or leaf to the total number of compounds analyzed.
  • the upper side represents the average value of the objective variable of the compound contained in the node or leaf.
  • 1 was given to the compound having "burnt" (descriptor of burnt or roasted) in the aroma characteristic, and 0 was given to the compound not, so that the average value of the objective variables in FIG. 11 has "burnt” in the aroma characteristic.
  • Branching conditions are shown below the ellipse for each node. Compounds that satisfy the conditions are classified into the lower left node or leaf, and compounds that do not meet the conditions are classified into the lower right node or leaf.
  • Each compound repeats conditional branching until it reaches the leaf.
  • the main patterns of olfactory receptor activity identified were "OR5K1 activity of 4.10 or more, OR6V1 activity of 0.10 or more, and OR1G1 activity of less than 0.37" (identification number 7). That is, it can be predicted that the substance classified into the leaf of identification number 7 is likely to have the aroma characteristic "burnt".
  • Aroma characteristics "nuts” By flagging compounds with nutty in the descriptor described in the Odor Description of Organoleptic Properties of The Good Scents Company and constructing a dendrogram model, the olfactory receptor activity characteristic of compounds with the aroma characteristic "nuts" The pattern was identified (Fig. 13). The main patterns of olfactory receptor activity identified were "OR5K1 activity of 3.80 or more and OR1G1 activity of less than 0.13" (identification number 7), and “OR5K1 activity of 3.80 or more and OR1G1 activity of 0.13 or more and OR2AK2 activity.” Was 0.82 or more ”(identification number 6). That is, it can be predicted that the substance classified into the leaf of identification number 7 or 6 is likely to have the aroma characteristic "nuts".
  • ⁇ 4-1> Pyrazine skeleton By flagging a compound having a pyrazine skeleton and constructing a tree shape model, the olfactory receptor activity pattern characteristic of the compound having a pyrazine skeleton was identified (Fig. 14).
  • the main patterns of olfactory receptor activity identified were "OR5K1 activity of 3.90 or more and OR13G1 activity of -0.21 or more and OR5AR1 activity of less than 0.51" (identification number 13), "OR5K1 activity of 3.90 or more and OR13G1 activity”.
  • OR5AR1 activity is 0.51 or more and OR2W1 activity is less than 1.00 "(identification number 12), and" OR5K1 activity is 2.30 or more and less than 3.90 and OR8B3 activity is less than -1.2 "(identification number 6).
  • rice field That is, it can be predicted that the substance classified into the leaf of identification number 13, 12, or 6 is likely to have a pyrazine skeleton.
  • ⁇ 4-2> Aldehyde group By flagging a compound having an aldehyde group and constructing a tree shape model, the olfactory receptor activity pattern characteristic of the compound having an aldehyde group was identified (Fig. 15).
  • the main patterns of olfactory receptor activity identified are "OR2J2 activity is 2.10 or more and OR2W1 activity is less than 0.83 and OR8B3 activity is 0.40 or more" (identification number 13), "OR2J2 activity is 2.10 or more and OR2W1 activity is 0.83 or more, OR6B1 activity is less than -1.60, OR2Y1 activity is -0.25 or more "(identification number 10),” OR2J2 activity is 2.10 or more, OR2W1 activity is 0.83 or more, OR6B1 activity is -1.60 or more, and OR1A1 The activity was less than -0.15 "(identification number 7). That is, it can be predicted that the substance classified into the leaf of identification number 13, 10, or 7 is likely to have
  • test substances the substances used in the following examples are referred to as "test substances”, but these substances can be used as control substances in the prediction model production method of the present invention and the prediction method of the present invention.
  • ⁇ 1-2> Preparation of olfactory receptor-expressing cells
  • 352 types of HEK293T cell cultures expressing 352 types of olfactory receptors were obtained.
  • ⁇ 2> Preparation of human olfactory receptor activity database ⁇ 2-1> Luciferase assay As a test substance, in Atlas of odor character profiles (Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985) The luciferase assay was performed in the same procedure as in ⁇ 2-1> of Example A, except that all 144 substances described were selected.
  • ⁇ 2-2> Calculation of olfactory receptor activity The olfactory receptor activity was calculated by the same procedure as in ⁇ 2-2> of Example A.
  • Aroma characteristic information As aroma characteristic information of the test substance, the percentage of described in Atlas of odor character profiles (Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985) Quoted applicability (PA value).
  • the presence or absence of aroma properties or olfactory receptor activation properties in a substance can be predicted. Further, according to the present invention, in one aspect, it is possible to predict the presence or absence of components such as aroma characteristics and molecular structure in a substance. Further, according to the present invention, in one aspect, the goodness of fit of a substance to aroma characteristics can be predicted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Fats And Perfumes (AREA)

Abstract

物質における香気特性または嗅覚受容体活性化特性の有無を予測する技術を提供する。試験物質と対照物質間での立体化学構造の最大類似度に基づいて該試験物質について前記目的の特性の有無を予測する。

Description

物質における香気特性または嗅覚受容体活性化特性の有無を予測する方法
 本発明は、一態様において、物質における香気特性または嗅覚受容体活性化特性の有無を予測する技術に関するものである。また、本発明は、別の態様において、物質における香気特性や分子構造等の構成要素の有無を予測する技術に関するものである。また、本発明は、別の態様において、物質における香気特性への適合度を予測する技術に関するものである。
 香気は、食品や香粧品等の嗜好性を左右する重要な要素である。そのため、目的の香気を再現するために必要な香気成分をスクリーニングする技術や香気成分を組み合わせて目的の香気を再現する技術は、食品や香粧品等を開発するために産業上重要な技術である。
 従来、香気成分のスクリーニングは、ヒトが官能試験によって試験物質の香気を評価することによって実施されてきた。しかし、官能試験には、香気を評価できる専門家の育成が必要なことや、スループット性が低いこと等の問題がある。
 ヒト等の哺乳動物においては、香気は、鼻腔上部の嗅上皮に存在する嗅神経細胞上の嗅覚受容体に香気成分の分子が結合し、当該分子に対する当該受容体の応答が中枢神経系へと伝達されることにより認識されている。近年、嗅覚受容体の応答を指標として目的の香気を呈する物質をスクリーニングする方法が報告されている(特許文献1等)。
 近年、機械学習技術の発展に伴い、化合物の構造から直接香気特性を予測する研究が行われている(非特許文献1~3)。予測モデルの精度向上における技術的なポイントは、分子構造の数値化、予測アルゴリズム、および学習に供するデータの量と質の3点に大別される。このうち分子構造の数値化に関する既存の方法としては、分子構造から物理化学的特徴量を算出する方法(DragonやEPI Suite等)、部分分子構造の有無を1/0でビット化した分子フィンガープリント(MACCS KeysやMorganフィンガープリント等)を作成し分子間の構造類似度を算出する方法、分子構造をグラフ(ネットワーク)或いは画像とみなしニューラルネットワーク技術により強引に数値化する方法が知られている。ここで、いずれの方法においても、1化合物1構造が想定されており、多重立体配座に関する情報は無視されている。
特開2019-037197
Kobi Snitz et. al., Predicting Odor Perceptual Similarity from Odor Structure. PLoS Comput Biol 9(9): e1003184, September 2013. Andreas Keller et. al., Predicting human olfactory perception from chemical features of odor molecules. Science, 355(6327):820-826, February 2017. Benjamin Sanchez-Lengeling et. al., Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules. arXiv:1910.10685v1, October 2019.
 本発明は、一態様において、物質における香気特性または嗅覚受容体活性化特性の有無を予測する技術を提供することを課題とする。また、本発明は、別の態様において、物質における香気特性や分子構造等の構成要素の有無を予測する技術を提供することを課題とする。また、本発明は、別の態様において、物質における香気特性への適合度を予測する技術を提供することを課題とする。
 本発明者らは、試験物質と対照物質間での立体化学構造の最大類似度に基づいて該試験物質について前記目的の特性の有無を予測できることを見出し、本発明の一態様を完成させた。
 すなわち、一態様において、本発明は以下の通り例示できる。
[1]
 試験物質について目的の特性の有無を予測する方法であって、
 試験物質と対照物質間での立体化学構造の最大類似度に基づいて該試験物質について前記目的の特性の有無を予測する工程
 を含み、
 前記特性が、香気特性または嗅覚受容体活性化特性である、方法。
[2]
 前記対照物質が、前記目的の特性についての陽性対照を含む、前記方法。
[3]
 前記対照物質が、1種の物質である、前記方法。
[4]
 前記対照物質が、2種またはそれ以上の物質の組み合わせである、前記方法。
[5]
 前記対照物質が、前記目的の特性についての陽性対照を含み、
 前記試験物質と前記陽性対照間での立体化学構造の最大類似度が高い場合に、該試験物質が前記目的の特性を有すると予測する、前記方法。
[6]
 前記予測が、前記試験物質と前記対照物質間での立体化学構造の最大類似度に基づいて該試験物質と該対照物質をクラスタリングする工程を含む、前記方法。
[7]
 前記対照物質が、前記目的の特性についての陽性対照を含み、
 前記試験物質が前記陽性対照を含むクラスタにクラスタリングされる場合に、該試験物質が前記目的の特性を有すると予測する、前記方法。
[8]
 前記予測の前に、さらに、前記最大類似度を算出する工程を含む、前記方法。
[9]
 目的の特性を有する物質をスクリーニングする方法であって、
 前記方法により試験物質について前記目的の特性の有無を予測する工程、および
 前記目的の特性を有すると予測された試験物質を該目的の特性を有する物質として選抜する工程
 を含み、
 前記特性が、香気特性または嗅覚受容体活性化特性である、方法。
[10]
 さらに、前記目的の特性を有すると予測された試験物質について該目的の特性の有無を確認する工程を含む、前記方法。
[11]
 前記最大類似度が、該最大類似度以外の、前記試験物質と前記対照物質間の構造類似度と組み合わせて前記予測に用いられる、前記方法。
[12]
 目的の特性を有する物質を設計する方法であって、
 設計対象の物質を、該設計対象の物質と対照物質間の立体化学構造の最大類似度に基づいて設計する工程
 を含み、
 前記特性が、香気特性または嗅覚受容体活性化特性である、方法。
[13]
 前記対照物質が、前記目的の特性についての陽性対照を含み、
 前記設計が、前記設計対象の物質が前記陽性対照を含むクラスタにクラスタリングされるように実施され、
 前記クラスタリングが、前記設計対象の物質と前記対照物質間での立体化学構造の最大類似度に基づいて該設計対象の物質と該対照物質をクラスタリングする工程を含む、前記方法。
 また、本発明者らは、物質における香気特性または分子構造の有無を予測するモデルを機械学習により生成できることを見出し、本発明の別の態様を完成させた。
 すなわち、別の態様において、本発明は以下の通り例示できる。
[1]
 試験物質について目的の構成要素の有無を予測するモデルの製造方法であって、
 前記モデルが、前記試験物質の試験嗅覚受容体活性化データに基づいて該試験物質における前記目的の構成要素の有無についての分類結果を出力する決定木を含み、
 前記方法が、機械学習により前記決定木を生成する工程を含み、
 前記構成要素が、香気特性または分子構造であり、
 前記試験嗅覚受容体活性化データが、前記試験物質による試験嗅覚受容体の活性化に関するデータである、方法。
[2]
 前記機械学習が、対照物質の構成要素データおよび対照嗅覚受容体活性化データを含むデータセットを用いて実施され、
 前記構成要素データが、前記対照物質における前記目的の構成要素に関するデータであり、
 前記対照嗅覚受容体活性化データが、前記対照物質による対照嗅覚受容体の活性化に関するデータであり、
 前記対照物質が、陽性対照と陰性対照を含む2種またはそれ以上の物質の組み合わせであり、
 前記対照嗅覚受容体が、前記試験嗅覚受容体を含む2種またはそれ以上の嗅覚受容体の組み合わせである、前記方法。
[3]
 前記構成要素データが、前記対照物質における前記目的の構成要素の有無を示すデータであり、
 前記対照嗅覚受容体活性化データが、前記対照物質による前記対照嗅覚受容体の活性化の程度を示すデータである、前記方法。
[4]
 前記機械学習が、前記構成要素データを目的変数とし、かつ、前記対照嗅覚受容体活性化データを説明変数として実施される、前記方法。
[5]
 前記機械学習が、CARTにより実施される、前記方法。
[6]
 前記機械学習が、アンサンブル学習により実施される、前記方法。
[7]
 前記対照物質が、500種またはそれ以上の物質の組み合わせである、前記方法。
[8]
 前記対照物質の総数の50%以上が、The Good Scents Companyに記載の化合物から選択される、前記方法。
[9]
 前記試験嗅覚受容体が、1種の嗅覚受容体であるか、2種またはそれ以上の嗅覚受容体の組み合わせである、前記方法。
[10]
 前記対照嗅覚受容体が、300種またはそれ以上の嗅覚受容体の組み合わせである、前記方法。
[11]
 前記対照嗅覚受容体の総数の50%以上が、OR1A1、OR1A2、OR1B1、OR1C1、OR1D2、OR1D5、OR1E1、OR1F1、OR1F12、OR1G1、OR1I1、OR1J1、OR1J2、OR1J4、OR1K1、OR1L1、OR1L3、OR1L4、OR1L8、OR1M1、OR1N1、OR1N2、OR1Q1、OR1R1P、OR1S1、OR2A1、OR2A2、OR2A4、OR2A5、OR2A12、OR2A14、OR2A25、OR2AE1、OR2AG1、OR2AG2、OR2AJ1P、OR2AK2、OR2AP1、OR2AT4、OR2B2、OR2B3、OR2B6、OR2B11、OR2C1、OR2C3、OR2D2、OR2D3、OR2F1、OR2G2、OR2G3、OR2G6、OR2H1、OR2H2、OR2J2、OR2J3、OR2K2、OR2L2、OR2L8、OR2L13、OR2M2、OR2M4、OR2M7、OR2S2、OR2T1、OR2T2、OR2T5、OR2T6、OR2T8、OR2T10、OR2T11、OR2T27、OR2T34、OR2V2、OR2W1、OR2W3、OR2Y1、OR2Z1、OR3A1、OR3A2、OR3A3、OR3A4、OR4A5、OR4A15、OR4A16、OR4A47、OR4B1、OR4C3、OR4C5、OR4C6、OR4C11、OR4C12、OR4C13、OR4C15、OR4C16、OR4C46、OR4D1、OR4D2、OR4D5、OR4D6、OR4D9、OR4D10、OR4D11、OR4E2、OR4F3、OR4F5、OR4F6、OR4F14P、OR4F15、OR4G11P、OR4H12P、OR4K1、OR4K2、OR4K5、OR4K13、OR4K14、OR4K15、OR4K17、OR4L1、OR4M1、OR4N2、OR4N4、OR4N5、OR4P4、OR4Q3、OR4S1、OR4S2、OR4X1、OR4X2、OR5A1、OR5A2、OR5AC2、OR5AK2、OR5AK3P、OR5AN1、OR5AP2、OR5AR1、OR5AS1、OR5AU1、OR5B2、OR5B3、OR5B12、OR5B17、OR5B21、OR5C1、OR5D13、OR5D14、OR5D16、OR5D18、OR5F1、OR5H1、OR5H2、OR5H6、OR5H14、OR5I1、OR5J2、OR5K1、OR5K3、OR5K4、OR5L2、OR5M3、OR5M8、OR5M9、OR5M10、OR5M11、OR5P3、OR5R1、OR5T1、OR5T2、OR5T3、OR5V1、OR5W2、OR6A2、OR6B1、OR6B2、OR6C1、OR6C2、OR6C3、OR6C4、OR6C6、OR6C65、OR6C66P、OR6C68、OR6C70、OR6C74、OR6C75、OR6C76、OR6F1、OR6J1、OR6K2、OR6K3、OR6K6、OR6M1、OR6N1、OR6N2、OR6P1、OR6Q1、OR6S1、OR6T1、OR6V1、OR6X1、OR6Y1、OR7A3P、OR7A5、OR7A10、OR7A17、OR7C1、OR7C2、OR7D2、OR7D4、OR7E24、OR7G1、OR7G2、OR7G3、OR8A1、OR8B3、OR8B4、OR8B8、OR8B12、OR8D1、OR8D2、OR8D4、OR8G2、OR8G5、OR8H3、OR8I2、OR8J1、OR8J3、OR8K1、OR8K3、OR8K5、OR8S1、OR8U1、OR9A4、OR9G1、OR9G4、OR9I1、OR9K2、OR9Q1、OR9Q2、OR10A3、OR10A4、OR10A5、OR10A6、OR10A7、OR10AD1、OR10AG1、OR10C1、OR10D3、OR10D4P、OR10G2、OR10G3、OR10G4、OR10G6、OR10G7、OR10G9、OR10H2、OR10H4、OR10J1、OR10J3、OR10J5、OR10K1、OR10K2、OR10P1、OR10Q1、OR10R2、OR10S1、OR10T2、OR10V1、OR10W1、OR10X1、OR10Z1、OR11A1、OR11G2、OR11H4、OR11H6、OR11H12、OR11L1、OR12D2、OR12D3、OR13A1、OR13C2、OR13C3、OR13C4、OR13C8、OR13D1、OR13F1、OR13G1、OR13H1、OR13J1、OR14A2、OR14A16、OR14C36、OR14I1、OR14J1、OR14K1、OR14L1P、OR51A1P、OR51A4、OR51A7、OR51B2、OR51B4、OR51B5、OR51B6、OR51D1、OR51E1、OR51E2、OR51F1、OR51F2、OR51F5P、OR51G1、OR51G2、OR51H1、OR51I1、OR51I2、OR51L1、OR51M1、OR51Q1、OR51S1、OR51T1、OR51V1、OR52A1、OR52A4、OR52A5、OR52B2、OR52B4、OR52B6、OR52D1、OR52E2、OR52E4、OR52E5、OR52E8、OR52H1、OR52I2、OR52J3、OR52K2、OR52L2P、OR52M1、OR52N1、OR52N2、OR52N4、OR52N5、OR52P2P、OR52R1、OR52W1、OR52Z1P、OR56A1、OR56A3、OR56A4、OR56A5、OR56B1、OR56B2P、OR56B4から選択される、前記方法。
[12]
 前記対照嗅覚受容体が、ヒトの嗅覚受容体である、前記方法。
[13]
 前記方法により製造されたモデル。
[14]
 試験物質について目的の構成要素の有無を予測する方法であって、
 試験物質の試験嗅覚受容体活性化データと前記モデルとに基づいて該試験物質について前記目的の構成要素の有無を予測する工程
 を含み、
 前記構成要素が、香気特性または分子構造である、方法。
[15]
 目的の構成要素を有する物質をスクリーニングする方法であって、
 試験物質の試験嗅覚受容体活性化データと前記モデルとに基づいて該試験物質について前記目的の構成要素の有無を予測する工程、および
 前記目的の構成要素を有すると予測された試験物質を該目的の構成要素を有する物質として選抜する工程
 を含み、
 前記構成要素が、香気特性または分子構造である、方法。
[16]
 前記試験物質が陽性対照の比率が50%以上であるリーフノードに分類される場合に、該試験物質が前記目的の構成要素を有すると予測する、前記方法。
[17]
 さらに、前記目的の構成要素を有すると予測された試験物質について該目的の構成要素の有無を確認する工程を含む、前記方法。
 また、本発明者らは、物質における香気特性への適合度を予測するモデルを機械学習により生成できることを見出し、本発明の別の態様を完成させた。
 すなわち、別の態様において、本発明は以下の通り例示できる。
[1]
 試験物質について目的の香気特性への適合度を予測するモデルの製造方法であって、
 前記モデルが、前記試験物質の試験嗅覚受容体活性化データに基づいて該試験物質の前記適合度の予測値を出力する回帰式を含み、
 前記方法が、機械学習により前記回帰式を生成する工程を含み、
 前記試験嗅覚受容体活性化データが、前記試験物質による試験嗅覚受容体の活性化に関するデータである、方法。
[2]
 前記回帰式が、線形回帰式である、前記方法。
[3]
 前記機械学習が、対照物質の香気特性データおよび対照嗅覚受容体活性化データを含むデータセットを用いて実施され、
 前記香気特性データが、前記対照物質における前記目的の香気特性への適合度を示すデータであり、
 前記対照嗅覚受容体活性化データが、前記対照物質による対照嗅覚受容体の活性化に関するデータであり、
 前記対照物質が、2種またはそれ以上の物質の組み合わせであり、
 前記対照嗅覚受容体が、前記試験嗅覚受容体を含む2種またはそれ以上の嗅覚受容体の組み合わせである、前記方法。
[4]
 前記対照嗅覚受容体活性化データが、前記対照物質による前記対照嗅覚受容体の活性化の程度を示すデータである、前記方法。
[5]
 前記機械学習が、前記香気特性データを目的変数とし、かつ、前記対照嗅覚受容体活性化データを説明変数として実施される、前記方法。
[6]
 前記対照物質が、100種またはそれ以上の物質の組み合わせである、前記方法。
[7]
 前記対照物質の総数の50%以上が、Atlas of odor character profilesに記載の化合物から選択される、前記方法。
[8]
 前記香気特性データが、Atlas of odor character profilesに記載の基準に従って算出されるpercentage of applicability値である、前記方法。
[9]
 前記試験嗅覚受容体が、10種またはそれ以上の嗅覚受容体の組み合わせである、前記方法。
[10]
 前記対照嗅覚受容体が、300種またはそれ以上の嗅覚受容体の組み合わせである、前記方法。
[11]
 前記対照嗅覚受容体の総数の50%以上が、OR1A1、OR1A2、OR1B1、OR1C1、OR1D2、OR1D5、OR1E1、OR1F1、OR1F12、OR1G1、OR1I1、OR1J1、OR1J2、OR1J4、OR1K1、OR1L1、OR1L3、OR1L4、OR1L8、OR1M1、OR1N1、OR1N2、OR1Q1、OR1R1P、OR1S1、OR2A1、OR2A2、OR2A4、OR2A5、OR2A12、OR2A14、OR2A25、OR2AE1、OR2AG1、OR2AG2、OR2AJ1P、OR2AK2、OR2AP1、OR2AT4、OR2B2、OR2B3、OR2B6、OR2B11、OR2C1、OR2C3、OR2D2、OR2D3、OR2F1、OR2G2、OR2G3、OR2G6、OR2H1、OR2H2、OR2J2、OR2J3、OR2K2、OR2L2、OR2L8、OR2L13、OR2M2、OR2M4、OR2M7、OR2S2、OR2T1、OR2T2、OR2T5、OR2T6、OR2T8、OR2T10、OR2T11、OR2T27、OR2T34、OR2V2、OR2W1、OR2W3、OR2Y1、OR2Z1、OR3A1、OR3A2、OR3A3、OR3A4、OR4A5、OR4A15、OR4A16、OR4A47、OR4B1、OR4C3、OR4C5、OR4C6、OR4C11、OR4C12、OR4C13、OR4C15、OR4C16、OR4C46、OR4D1、OR4D2、OR4D5、OR4D6、OR4D9、OR4D10、OR4D11、OR4E2、OR4F3、OR4F5、OR4F6、OR4F14P、OR4F15、OR4G11P、OR4H12P、OR4K1、OR4K2、OR4K5、OR4K13、OR4K14、OR4K15、OR4K17、OR4L1、OR4M1、OR4N2、OR4N4、OR4N5、OR4P4、OR4Q3、OR4S1、OR4S2、OR4X1、OR4X2、OR5A1、OR5A2、OR5AC2、OR5AK2、OR5AK3P、OR5AN1、OR5AP2、OR5AR1、OR5AS1、OR5AU1、OR5B2、OR5B3、OR5B12、OR5B17、OR5B21、OR5C1、OR5D13、OR5D14、OR5D16、OR5D18、OR5F1、OR5H1、OR5H2、OR5H6、OR5H14、OR5I1、OR5J2、OR5K1、OR5K3、OR5K4、OR5L2、OR5M3、OR5M8、OR5M9、OR5M10、OR5M11、OR5P3、OR5R1、OR5T1、OR5T2、OR5T3、OR5V1、OR5W2、OR6A2、OR6B1、OR6B2、OR6C1、OR6C2、OR6C3、OR6C4、OR6C6、OR6C65、OR6C66P、OR6C68、OR6C70、OR6C74、OR6C75、OR6C76、OR6F1、OR6J1、OR6K2、OR6K3、OR6K6、OR6M1、OR6N1、OR6N2、OR6P1、OR6Q1、OR6S1、OR6T1、OR6V1、OR6X1、OR6Y1、OR7A3P、OR7A5、OR7A10、OR7A17、OR7C1、OR7C2、OR7D2、OR7D4、OR7E24、OR7G1、OR7G2、OR7G3、OR8A1、OR8B3、OR8B4、OR8B8、OR8B12、OR8D1、OR8D2、OR8D4、OR8G2、OR8G5、OR8H3、OR8I2、OR8J1、OR8J3、OR8K1、OR8K3、OR8K5、OR8S1、OR8U1、OR9A4、OR9G1、OR9G4、OR9I1、OR9K2、OR9Q1、OR9Q2、OR10A3、OR10A4、OR10A5、OR10A6、OR10A7、OR10AD1、OR10AG1、OR10C1、OR10D3、OR10D4P、OR10G2、OR10G3、OR10G4、OR10G6、OR10G7、OR10G9、OR10H2、OR10H4、OR10J1、OR10J3、OR10J5、OR10K1、OR10K2、OR10P1、OR10Q1、OR10R2、OR10S1、OR10T2、OR10V1、OR10W1、OR10X1、OR10Z1、OR11A1、OR11G2、OR11H4、OR11H6、OR11H12、OR11L1、OR12D2、OR12D3、OR13A1、OR13C2、OR13C3、OR13C4、OR13C8、OR13D1、OR13F1、OR13G1、OR13H1、OR13J1、OR14A2、OR14A16、OR14C36、OR14I1、OR14J1、OR14K1、OR14L1P、OR51A1P、OR51A4、OR51A7、OR51B2、OR51B4、OR51B5、OR51B6、OR51D1、OR51E1、OR51E2、OR51F1、OR51F2、OR51F5P、OR51G1、OR51G2、OR51H1、OR51I1、OR51I2、OR51L1、OR51M1、OR51Q1、OR51S1、OR51T1、OR51V1、OR52A1、OR52A4、OR52A5、OR52B2、OR52B4、OR52B6、OR52D1、OR52E2、OR52E4、OR52E5、OR52E8、OR52H1、OR52I2、OR52J3、OR52K2、OR52L2P、OR52M1、OR52N1、OR52N2、OR52N4、OR52N5、OR52P2P、OR52R1、OR52W1、OR52Z1P、OR56A1、OR56A3、OR56A4、OR56A5、OR56B1、OR56B2P、OR56B4から選択される、前記方法。
[12]
 前記対照嗅覚受容体が、ヒトの嗅覚受容体である、前記方法。
[13]
 前記対照嗅覚受容体の内、前記香気特性データおよび前記対照嗅覚受容体活性化データの相関係数の絶対値が0.2超である嗅覚受容体についての前記対照嗅覚受容体活性化データが、説明変数として前記機械学習に用いられる、前記方法。
[14]
 前記工程が、前記機械学習の前に、前記香気特性データおよび前記対照嗅覚受容体活性化データの相関係数を算出する工程を含む、前記方法。
[15]
 前記方法により製造されたモデル。
[16]
 試験物質について目的の香気特性への適合度を予測する方法であって、
 試験物質の試験嗅覚受容体活性化データと前記モデルとに基づいて該試験物質について前記目的の香気特性への適合度を予測する工程
 を含む、方法。
[17]
 目的の香気特性への適合度が高い物質をスクリーニングする方法であって、
 試験物質の試験嗅覚受容体活性化データと前記モデルとに基づいて該試験物質について前記目的の香気特性への適合度を予測する工程、および
 前記目的の香気特性への適合度が高いと予測された試験物質を該目的の香気特性への適合度が高い物質として選抜する工程
 を含む、方法。
[18]
 さらに、前記目的の香気特性への適合度が高いと予測された試験物質について該目的の香気特性への適合度を確認する工程を含む、前記方法。
立体化学構造類似度行列のヒートマップを示す図(中間調画像)。 t-SNEによる立体化学構造類似度空間の可視化の結果を示す図(中間調画像)。 立体化学構造類似度空間における「OR4S2活性」の分布を示す図(中間調画像)。 立体化学構造類似度空間における「OR5K1活性」の分布を示す図(中間調画像)。 立体化学構造類似度空間における「OR10G4活性」の分布を示す図(中間調画像)。 立体化学構造類似度空間における香気特性「onion」の分布を示す図(中間調画像)。 立体化学構造類似度空間における香気特性「nutty」の分布を示す図(中間調画像)。 立体化学構造類似度空間における香気特性「phenolic」の分布を示す図(中間調画像)。 立体化学構造類似度と分子フィンガープリント類似度を各種混合比率で混合して匂いの類似度との相関を評価した結果を示す図(中間調画像)。 立体化学構造類似度と分子フィンガープリント類似度を各種混合比率で混合して匂いの類似度との相関を評価した結果を示す図(中間調画像)。 香気特性「焦げ」の樹形モデルを示す図。 香気特性「甘い」の樹形モデルを示す図。 香気特性「ナッツ」の樹形モデルを示す図。 ピラジン骨格の樹形モデルを示す図。 アルデヒド基の樹形モデルを示す図。 エステル結合の樹形モデルを示す図。 香気特性「STARWBERRY」のP.A.実測値とP.A.予測値の関係を示す図。 香気特性「ANISE (LICORICE)」のP.A.実測値とP.A.予測値の関係を示す図。 香気特性「NEW RUBBER」のP.A.実測値とP.A.予測値の関係を示す図。
(A)本発明の第1の態様
 以下、本発明の第1の態様について、具体的には、本発明の第1の態様に係る本発明の予測方法および本発明の設計方法について記載する。
<1>本発明の第1の態様に係る本発明の予測方法
 本発明の予測方法は、試験物質について目的の特性の有無を予測する方法である。「試験物質について目的の特性の有無を予測する」とは、試験物質が目的の特性を有するか否かを予測することを意味する。試験物質について目的の特性の有無を予測することを、以下、単に「予測」ともいう。予測は、試験物質と対照物質間での立体化学構造の最大類似度に基づいて実施することができる。すなわち、本発明の予測方法は、試験物質と対照物質間での立体化学構造の最大類似度に基づいて試験物質について目的の特性の有無を予測する工程を含んでいてよい。同工程を、「予測工程」ともいう。試験物質と対照物質間での立体化学構造の最大類似度に基づいて予測を実施することにより、例えば、分子フィンガープリント類似度等の、多重立体配座を考慮しない物質間の構造類似度に基づいて予測を実施する場合と比較して、予測の精度が向上し得る。
 また、試験物質について目的の特性の有無を予測することにより、目的の特性を有する物質をスクリーニングすることができる。すなわち、目的の特性を有すると予測された試験物質を目的の特性を有する物質として選抜することができ、以て目的の特性を有する物質をスクリーニングすることができる。すなわち、本発明の予測方法は、目的の特性を有する物質をスクリーニングする方法であってもよい。すなわち、本発明の予測方法は、さらに、目的の特性を有すると予測された試験物質を目的の特性を有する物質として選抜する工程を含んでいてもよい。すなわち、スクリーニング方法は、試験物質と対照物質間での立体化学構造の最大類似度に基づいて試験物質について前記目的の特性の有無を予測する工程、および目的の特性を有すると予測された試験物質を目的の特性を有する物質として選抜する工程を含む、目的の特性を有する物質をスクリーニングする方法であってよい。また、言い換えると、スクリーニング方法は、本発明の予測方法により試験物質について目的の特性の有無を予測する工程、および目的の特性を有すると予測された試験物質を目的の特性を有する物質として選抜する工程を含む、目的の特性を有する物質をスクリーニングする方法であってもよい。
 本発明の予測方法は、予測工程の前に、さらに、試験物質と対照物質間での立体化学構造の最大類似度を算出する工程を含んでいてもよい。同工程を、「算出工程」ともいう。
<1-1>目的の特性
 「目的の特性」とは、予測の対象となる特性を意味する。特性としては、香気特性や嗅覚受容体活性化特性が挙げられる。
 「香気特性」とは、香気を呈する性質を意味する。香気の種類は、特に制限されない。香気としては、absinthe、acacia、acai、acerola、acetic、acetone、acidic、acorn、acrylate、agarwood、alcoholic、aldehydic、alfalfa、algae、alliaceous、allspice、almond、almond bitter almond、almond roasted almond、almond toasted almond、amber、ambergris、ambrette、ammoniacal、angelica、animal、anise、anisic、apple、apple cooked apple、apple dried apple、apple green apple、apple red apple、apple skin、apricot、aromatic、arrack、artichoke、asafetida、asparagus、astringent、autumn、avocado、bacon、baked、balsamic、banana、banana peel、banana ripe banana、banana unripe banana、barley roasted barley、basil、bay、bean green bean、beany、beef juice、beefy、beefy roasted beefy、beer、beeswax、benzoin、bergamot、berry、berry ripe berry、bitter、blackberry、bloody、blueberry、bois de rose、boronia、bouillon、boysenberry、brandy、bread baked、bread crust、bread rye bread、bready、broccoli、brothy、brown、bubble gum、buchu、burnt、butter rancid、buttermilk、butterscotch、buttery、cabbage、calamus、camphoreous、cananga、candy、cantaloupe、capers、caramellic、caraway、cardamom、carnation、carrot、carrot seed、carvone、cascarilla、cashew、cassia、castoreum、catty、cauliflower、cedar、cedarwood、celery、cereal、chamomile、charred、cheesy、cheesy bleu cheese、cheesy cheddar cheese、cheesy feta cheese、cheesy gorgonzola cheese、cheesy gouda cheese、cheesy limburger cheese、cheesy parmesan cheese、cheesy roquefort cheese、chemical、cherry、cherry maraschino cherry、chervil、chestnut、chicken、chicken coup、chicken fat、chicken roasted chicken、chicory、chive、chocolate、chocolate dark chocolate、chocolate white chocolate、chrysanthemum、cider、cilantro、ciltrano、cinnamon、cinnamyl、cistus、citronella、citrus、citrus peel、citrus rind、civet、clam、clean、cloth laundered cloth、clove、clover、cocoa、coconut、coffee、coffee roasted coffee、cognac、cologne、cooked、cookie、cooling、copaiba、coriander、corn、corn chip、cornmeal、cornmint、cortex、costus、cotton candy、coumarinic、cranberry、creamy、cubeb、cucumber、cucumber skin、cumin、currant black currant、currant bud black currant bud、currant red currant、curry、custard、cyclamen、cypress、dairy、date、davana、deertongue、dewy、dill、dirty、dragon fruit、dry、durian、dusty、earthy、egg nog、egg yolk、eggy、elderberry、elderflower、elemi、estery、ethereal、eucalyptus、fatty、fecal、fennel、fenugreek、fermented、fig、filbert、fir needle、fishy、fleshy、floral、foliage、forest、fougere、frankincense、freesia、fresh、fresh outdoors、fried、fruit dried fruit、fruit overripe fruit、fruit ripe fruit、fruit tropical fruit、fruity、fudge、fungal、fusel、galanga、galbanum、gardenia、garlic、gasoline、gassy、genet、geranium、ginger、ginseng、goaty、goji berry、gooseberry、gourmand、graham cracker、grain、grain toasted grain、grape、grape skin、grapefruit、grapefruit peel、grassy、gravy、greasy、green、grilled、guaiacol、guaiacwood、guava、hairy、ham、harsh、hawthorn、hay、hay new mown hay、hazelnut、hazelnut roasted hazelnut、heather、heliotrope、herbal、hibiscus、honey、honeydew、honeysuckle、hops、horehound、horseradish、huckleberry、humus、hyacinth、hyssop、immortelle、incense、jackfruit、jammy、jasmin、jonquil、juicy、juicy fruit、juniper、ketonic、kimchi、kiwi、kokumi、kumquat、labdanum、lachrymatory、lactonic、lamb、lard、lavandin、lavender、lavender spike lavender、leafy、leathery、leek、lemon、lemon peel、lemongrass、lettuce、licorice、licorice black licorice、lilac、lily、lily of the valley、lime、linden flower、lingonberry、liver、lobster、loganberry、lovage、lychee、macadamia、mace、magnolia、mahogany、malty、mandarin、mango、maple、marigold、marine、marjoram、marshmallow、marzipan、mastic、meaty、meaty roasted meaty、medicinal、melon、melon rind、melon unripe melon、mentholic、metallic、milky、mimosa、minty、molasses、moldy、mossy、muguet、mulberry、mushroom、musk、mustard、musty、mutton、myrrh、naphthyl、narcissus、nasturtium、natural、neroli、noni fruit、nut flesh、nut skin、nutmeg、nutty、oakmoss、oatmeal、oats、ocean、oily、onion、onion cooked onion、onion green onion、opoponax、orange、orange bitter orange、orange peel、orange rind、orangeflower、orchid、oriental、origanum、orris、osmanthus、oyster、ozone、painty、palmarosa、papaya、paper、parsley、passion fruit、patchouli、pea green pea、peach、peanut、peanut butter、peanut roasted peanut、pear、pear skin、pecan、peely、pennyroyal、peony、pepper bell pepper、pepper black pepper、peppermint、peppery、peru balsam、petal、petitgrain、petroleum、phenolic、pimenta、pine、pineapple、pistachio、plastic、plum、plum skin、pomegranate、popcorn、pork、potato、potato baked potato、potato chip、potato raw potato、powdery、praline、privet、privetblossom、prune、pulpy、pumpkin、pungent、quince、radish、rain、raisin、rancid、raspberry、raw、reseda、resinous、rhubarb、rindy、ripe、roasted、root beer、rooty、rose、rose dried rose、rose red rose、rose tea rose、rose white rose、rosemary、rubbery、rue、rummy、saffron、sage、sage clary sage、salmon、salty、sandalwood、sandy、sappy、sarsaparilla、sassafrass、sauerkraut、sausage、sausage smoked sausage、savory、sawdust、scallion、seafood、seashore、seaweed、seedy、sesame、sharp、shellfish、shrimp、skunk、smoky、soapy、soft、solvent、soup、sour、spearmint、spicy、spinach、spruce、starchy、starfruit、storax、strawberry、stringent、styrene、sugar、sugar brown sugar、sugar burnt sugar、sulfurous、sweaty、sweet、sweet pea、taco、tagette、tallow、tamarind、tangerine、tansy、tarragon、tart、tea、tea black tea、tea green tea、tea rooibos tea、tea white tea、tequila、terpenic、thujonic、thyme、toasted、tobacco、toffee、tolu balsam、tomato、tomato leaf、tonka、tropical、truffle、tuberose、tuna、turkey、turmeric、turnup、tutti frutti、umami、urine、valerian root、vanilla、vegetable、verbena、vetiver、vinegar、violet、violet leaf、walnut、warm、wasabi、watercress、watermelon、watermelon rind、watery、waxy、weedy、wet、whiskey、winey、wintergreen、woody、woody burnt wood、woody oak wood、woody old wood、wormwood、yeasty、ylang、yogurt、yuzu、zedoary、zesty、bark、birch bark、blood、raw meat、burnt candle、burnt milk、burnt pepper、burnt rubber、cadaverous (dead animal)、cardboard、cat urine、chalky、cleaning fluid、cooked vegetables、cork、creosote、crushed grass、crushed weeds、dirty linen、disinfectant、carbolic、fermented (rotten) fruit、fragrant、fresh green vegetable、fresh tobacco smoke、fried chicken、heavy、household gas、kerosene、kippery (smoked fish)、laurel leaves、light、mothballs、mouse、nail polish remover、new rubber、peanut butter、perfumery、putrid、four、decayde、rope、seasoning (for meat)、seminal、sperm-like、sewer、sickening、sooty、sour milk、stale、stale tobacco smoke、tab、tea leaves、turpentine (pine oil)、varnish、wet paper、wet wool、wet dogが挙げられる。香気は、1種の香気であってもよく、2種またはそれ以上の香気の組み合わせであってもよい。すなわち、「香気特性の有無」とは、いずれか1種の香気を呈する性質の有無を意味してもよく、2種またはそれ以上の香気のそれぞれを呈する性質の有無(すなわち、2種またはそれ以上の香気について、どの香気を呈し、どの香気を呈しないかというパターン)を意味してもよい。
 「嗅覚受容体活性化特性」とは、嗅覚受容体を活性化する性質を意味する。嗅覚受容体の種類は、特に制限されない。
 嗅覚受容体としては、OR1A1、OR1A2、OR1B1、OR1C1、OR1D2、OR1D4、OR1D5、OR1E1、OR1E2、OR1F1、OR1F12、OR1G1、OR1I1、OR1J1、OR1J2、OR1J4、OR1K1、OR1L1、OR1L3、OR1L4、OR1L6、OR1L8、OR1M1、OR1N1、OR1N2、OR1Q1、OR1R1P、OR1S1、OR1S2、OR2A1、OR2A2、OR2A4、OR2A5、OR2A7、OR2A12、OR2A14、OR2A25、OR2AE1、OR2AG1、OR2AG2、OR2AJ1P、OR2AK2、OR2AP1、OR2AT4、OR2B2、OR2B3、OR2B6、OR2B11、OR2C1、OR2C3、OR2D2、OR2D3、OR2F1、OR2F2、OR2G2、OR2G3、OR2G6、OR2H1、OR2H2、OR2J1P、OR2J2、OR2J3、OR2K2、OR2L2、OR2L3、OR2L5、OR2L8、OR2L13、OR2M2、OR2M3、OR2M4、OR2M5、OR2M7、OR2S2、OR2T1、OR2T2、OR2T3、OR2T4、OR2T5、OR2T6、OR2T7、OR2T8、OR2T10、OR2T11、OR2T12、OR2T27、OR2T29、OR2T33、OR2T34、OR2T35、OR2V1、OR2V2、OR2W1、OR2W3、OR2Y1、OR2Z1、OR3A1、OR3A2、OR3A3、OR3A4、OR4A4P、OR4A5、OR4A15、OR4A16、OR4A47、OR4B1、OR4C3、OR4C5、OR4C6、OR4C11、OR4C12、OR4C13、OR4C15、OR4C16、OR4C45、OR4C46、OR4D1、OR4D2、OR4D5、OR4D6、OR4D9、OR4D10、OR4D11、OR4E2、OR4F3、OR4F4、OR4F5、OR4F6、OR4F14P、OR4F15、OR4F17、OR4F21、OR4G11P、OR4H12P、OR4K1、OR4K2、OR4K5、OR4K13、OR4K14、OR4K15、OR4K17、OR4L1、OR4M1、OR4M2、OR4N2、OR4N4、OR4N5、OR4P4、OR4Q3、OR4S1、OR4S2、OR4X1、OR4X2、OR5A1、OR5A2、OR5AC2、OR5AK2、OR5AK3P、OR5AN1、OR5AP2、OR5AR1、OR5AS1、OR5AU1、OR5B2、OR5B3、OR5B12、OR5B17、OR5B21、OR5C1、OR5D13、OR5D14、OR5D16、OR5D18、OR5F1、OR5H1、OR5H2、OR5H6、OR5H14、OR5H15、OR5I1、OR5J2、OR5K1、OR5K2、OR5K3、OR5K4、OR5L1、OR5L2、OR5M1、OR5M3、OR5M8、OR5M9、OR5M10、OR5M11、OR5P2、OR5P3、OR5R1、OR5T1、OR5T2、OR5T3、OR5V1、OR5W2、OR6A2、OR6B1、OR6B2、OR6B3、OR6C1、OR6C2、OR6C3、OR6C4、OR6C6、OR6C65、OR6C66P、OR6C68、OR6C70、OR6C74、OR6C75、OR6C76、OR6F1、OR6J1、OR6K2、OR6K3、OR6K6、OR6M1、OR6N1、OR6N2、OR6P1、OR6Q1、OR6S1、OR6T1、OR6V1、OR6X1、OR6Y1、OR7A3P、OR7A5、OR7A10、OR7A17、OR7C1、OR7C2、OR7D2、OR7D4、OR7E24、OR7G1、OR7G2、OR7G3、OR8A1、OR8B2、OR8B3、OR8B4、OR8B8、OR8B12、OR8D1、OR8D2、OR8D4、OR8G1、OR8G2、OR8G5、OR8H1、OR8H2、OR8H3、OR8I2、OR8J1、OR8J3、OR8K1、OR8K3、OR8K5、OR8S1、OR8U1、OR8U8、OR9A2、OR9A4、OR9G1、OR9G4、OR9I1、OR9K2、OR9Q1、OR9Q2、OR10A2、OR10A3、OR10A4、OR10A5、OR10A6、OR10A7、OR10AD1、OR10AG1、OR10C1、OR10D3、OR10D4P、OR10G2、OR10G3、OR10G4、OR10G6、OR10G7、OR10G8、OR10G9、OR10H1、OR10H2、OR10H3、OR10H4、OR10H5、OR10J1、OR10J3、OR10J5、OR10K1、OR10K2、OR10P1、OR10Q1、OR10R2、OR10S1、OR10T2、OR10V1、OR10W1、OR10X1、OR10Z1、OR11A1、OR11G2、OR11H1、OR11H2、OR11H4、OR11H6、OR11H12、OR11L1、OR12D2、OR12D3、OR13A1、OR13C2、OR13C3、OR13C4、OR13C5、OR13C8、OR13C9、OR13D1、OR13F1、OR13G1、OR13H1、OR13J1、OR14A2、OR14A16、OR14C36、OR14I1、OR14J1、OR14K1、OR14L1P、OR51A1P、OR51A2、OR51A4、OR51A7、OR51B2、OR51B4、OR51B5、OR51B6、OR51D1、OR51E1、OR51E2、OR51F1、OR51F2、OR51F5P、OR51G1、OR51G2、OR51H1、OR51I1、OR51I2、OR51L1、OR51M1、OR51Q1、OR51S1、OR51T1、OR51V1、OR52A1、OR52A4、OR52A5、OR52B2、OR52B4、OR52B6、OR52D1、OR52E2、OR52E4、OR52E5、OR52E6、OR52E8、OR52H1、OR52I1、OR52I2、OR52J3、OR52K1、OR52K2、OR52L1、OR52L2P、OR52M1、OR52N1、OR52N2、OR52N4、OR52N5、OR52P2P、OR52R1、OR52W1、OR52Z1P、OR56A1、OR56A3、OR56A4、OR56A5、OR56B1、OR56B2P、OR56B4が挙げられる。
 嗅覚受容体としては、特に、OR1A1、OR1A2、OR1B1、OR1C1、OR1D2、OR1D5、OR1E1、OR1F1、OR1F12、OR1G1、OR1I1、OR1J1、OR1J2、OR1J4、OR1K1、OR1L1、OR1L3、OR1L4、OR1L8、OR1M1、OR1N1、OR1N2、OR1Q1、OR1R1P、OR1S1、OR2A1、OR2A2、OR2A4、OR2A5、OR2A12、OR2A14、OR2A25、OR2AE1、OR2AG1、OR2AG2、OR2AJ1P、OR2AK2、OR2AP1、OR2AT4、OR2B2、OR2B3、OR2B6、OR2B11、OR2C1、OR2C3、OR2D2、OR2D3、OR2F1、OR2G2、OR2G3、OR2G6、OR2H1、OR2H2、OR2J2、OR2J3、OR2K2、OR2L2、OR2L8、OR2L13、OR2M2、OR2M4、OR2M7、OR2S2、OR2T1、OR2T2、OR2T5、OR2T6、OR2T8、OR2T10、OR2T11、OR2T27、OR2T34、OR2V2、OR2W1、OR2W3、OR2Y1、OR2Z1、OR3A1、OR3A2、OR3A3、OR3A4、OR4A5、OR4A15、OR4A16、OR4A47、OR4B1、OR4C3、OR4C5、OR4C6、OR4C11、OR4C12、OR4C13、OR4C15、OR4C16、OR4C46、OR4D1、OR4D2、OR4D5、OR4D6、OR4D9、OR4D10、OR4D11、OR4E2、OR4F3、OR4F5、OR4F6、OR4F14P、OR4F15、OR4G11P、OR4H12P、OR4K1、OR4K2、OR4K5、OR4K13、OR4K14、OR4K15、OR4K17、OR4L1、OR4M1、OR4N2、OR4N4、OR4N5、OR4P4、OR4Q3、OR4S1、OR4S2、OR4X1、OR4X2、OR5A1、OR5A2、OR5AC2、OR5AK2、OR5AK3P、OR5AN1、OR5AP2、OR5AR1、OR5AS1、OR5AU1、OR5B2、OR5B3、OR5B12、OR5B17、OR5B21、OR5C1、OR5D13、OR5D14、OR5D16、OR5D18、OR5F1、OR5H1、OR5H2、OR5H6、OR5H14、OR5I1、OR5J2、OR5K1、OR5K3、OR5K4、OR5L2、OR5M3、OR5M8、OR5M9、OR5M10、OR5M11、OR5P3、OR5R1、OR5T1、OR5T2、OR5T3、OR5V1、OR5W2、OR6A2、OR6B1、OR6B2、OR6C1、OR6C2、OR6C3、OR6C4、OR6C6、OR6C65、OR6C66P、OR6C68、OR6C70、OR6C74、OR6C75、OR6C76、OR6F1、OR6J1、OR6K2、OR6K3、OR6K6、OR6M1、OR6N1、OR6N2、OR6P1、OR6Q1、OR6S1、OR6T1、OR6V1、OR6X1、OR6Y1、OR7A3P、OR7A5、OR7A10、OR7A17、OR7C1、OR7C2、OR7D2、OR7D4、OR7E24、OR7G1、OR7G2、OR7G3、OR8A1、OR8B3、OR8B4、OR8B8、OR8B12、OR8D1、OR8D2、OR8D4、OR8G2、OR8G5、OR8H3、OR8I2、OR8J1、OR8J3、OR8K1、OR8K3、OR8K5、OR8S1、OR8U1、OR9A4、OR9G1、OR9G4、OR9I1、OR9K2、OR9Q1、OR9Q2、OR10A3、OR10A4、OR10A5、OR10A6、OR10A7、OR10AD1、OR10AG1、OR10C1、OR10D3、OR10D4P、OR10G2、OR10G3、OR10G4、OR10G6、OR10G7、OR10G9、OR10H2、OR10H4、OR10J1、OR10J3、OR10J5、OR10K1、OR10K2、OR10P1、OR10Q1、OR10R2、OR10S1、OR10T2、OR10V1、OR10W1、OR10X1、OR10Z1、OR11A1、OR11G2、OR11H4、OR11H6、OR11H12、OR11L1、OR12D2、OR12D3、OR13A1、OR13C2、OR13C3、OR13C4、OR13C8、OR13D1、OR13F1、OR13G1、OR13H1、OR13J1、OR14A2、OR14A16、OR14C36、OR14I1、OR14J1、OR14K1、OR14L1P、OR51A1P、OR51A4、OR51A7、OR51B2、OR51B4、OR51B5、OR51B6、OR51D1、OR51E1、OR51E2、OR51F1、OR51F2、OR51F5P、OR51G1、OR51G2、OR51H1、OR51I1、OR51I2、OR51L1、OR51M1、OR51Q1、OR51S1、OR51T1、OR51V1、OR52A1、OR52A4、OR52A5、OR52B2、OR52B4、OR52B6、OR52D1、OR52E2、OR52E4、OR52E5、OR52E8、OR52H1、OR52I2、OR52J3、OR52K2、OR52L2P、OR52M1、OR52N1、OR52N2、OR52N4、OR52N5、OR52P2P、OR52R1、OR52W1、OR52Z1P、OR56A1、OR56A3、OR56A4、OR56A5、OR56B1、OR56B2P、OR56B4が挙げられる。
 嗅覚受容体をコードする遺伝子を嗅覚受容体遺伝子ともいう。嗅覚受容体は、1種の嗅覚受容体であってもよく、2種またはそれ以上の嗅覚受容体の組み合わせであってもよい。すなわち、「嗅覚受容体活性化特性の有無」とは、いずれか1種の嗅覚受容体を活性化する性質の有無を意味してもよく、2種またはそれ以上の嗅覚受容体のそれぞれを活性化する性質の有無(すなわち、2種またはそれ以上の嗅覚受容体について、どの嗅覚受容体を活性化し、どの嗅覚受容体を活性化しないかというパターン)を意味してもよい。
 嗅覚受容体遺伝子および嗅覚受容体としては、各種生物の嗅覚受容体遺伝子および嗅覚受容体が挙げられる。生物としては、例えば、哺乳類等の動物が挙げられる。哺乳類等の動物として、具体的には、例えば、Homo sapiens(ヒト)、Mus musculus(マウス)、Rattus norvegicus(ラット)、Canis lupus familiaris(イヌ)、Felis catus(ネコ)、Bos taurus(ウシ)、Sus scrofa(ブタ)、Pan troglodytes(チンパンジー)、Macaca fascicularis(カニクイザル)、Equus caballus(ウマ)が挙げられる。哺乳類等の動物としては、特に、ヒトが挙げられる。各種生物の嗅覚受容体遺伝子の塩基配列および嗅覚受容体のアミノ酸配列は、例えば、NCBIやEnsembl等の公開データベースから取得できる。
 嗅覚受容体は、例えば、上記のような嗅覚受容体の公知または天然のアミノ酸配列を有するタンパク質であってよい。また、嗅覚受容体は、例えば、上記のような嗅覚受容体の公知または天然のアミノ酸配列を有するタンパク質のバリアントであってもよい。すなわち、上記各名称で特定される嗅覚受容体は、例えば、当該名称で特定される嗅覚受容体の公知または天然のアミノ酸配列を有するタンパク質およびそれらのバリアントを包含するものとする。なお、「タンパク質がアミノ酸配列を有する」という表現は、特記しない限り、タンパク質が当該アミノ酸配列を含むことを意味し、タンパク質が当該アミノ酸配列からなる場合も包含する。バリアントとしては、公知または天然のアミノ酸配列において、1若しくは数個の位置での1又は数個のアミノ酸が置換、欠失、挿入、および/または付加されたアミノ酸配列を有するタンパク質が挙げられる。「1又は数個」とは、具体的には、例えば、1~50個、1~40個、1~30個、好ましくは1~20個、より好ましくは1~10個、さらに好ましくは1~5個、特に好ましくは1~3個を意味してよい。バリアントとしては、公知または天然のアミノ酸配列全体に対して、例えば、50%以上、65%以上、80%以上、好ましくは90%以上、より好ましくは95%以上、さらに好ましくは97%以上、特に好ましくは99%以上の同一性を有するアミノ酸配列を有するタンパク質も挙げられる。なお、由来する生物種で特定される嗅覚受容体は、当該生物種において見出される嗅覚受容体そのものに限られず、当該生物種において見出される嗅覚受容体のアミノ酸配列を有するタンパク質およびそれらのバリアントを包含するものとする。バリアントは、当該生物種において見出されてもよく、見出されなくてもよい。すなわち、例えば、「ヒトの嗅覚受容体」とは、ヒトにおいて見出される嗅覚受容体そのものに限られず、ヒトにおいて見出される嗅覚受容体のアミノ酸配列を有するタンパク質およびそれらのバリアントを包含するものとする。嗅覚受容体は、例えば、由来の異なる2種またはそれ以上の嗅覚受容体のキメラタンパク質であってもよい。すなわち、上記各名称で特定される嗅覚受容体は、例えば、由来の異なる2種またはそれ以上の当該名称で特定される嗅覚受容体のキメラタンパク質も包含するものとする。
 なお、アミノ酸配列間の「同一性」とは、blastpによりデフォルト設定のScoring Parameters(Matrix:BLOSUM62;Gap Costs:Existence=11, Extension=1;Compositional Adjustments:Conditional compositional score matrix adjustment)を用いて算出されるアミノ酸配列間の同一性を意味する。
<1-2>試験物質
 「試験物質」とは、目的の特性の有無を予測する対象となる物質を意味する。また、「試験物質」とは、言い換えると、目的の特性を有する物質をスクリーニングする方法においては、目的の特性を有する物質の候補として用いられる物質を意味する。試験物質は、その構造が同定されているものであれば、特に制限されない。
 試験物質の構造は、試験物質の多重立体配座を生成できる程度に同定されていればよい。試験物質の構造は、例えば、化学構造式として同定されていればよい。試験物質の構造は、公知であってもよく、そうでなくてもよい。試験物質の構造が公知でない場合は、多重立体配座の生成前に、適宜、試験物質の構造を同定すればよい。試験物質の構造を同定する方法は、特に制限されない。試験物質の構造は、例えば、物質の構造を同定する公知の方法により同定することができる。そのような方法としては、核磁気共鳴法(NMR)、電子スピン共鳴法(ESR)、紫外可視近赤外分光法(UV-Vis-NIR)、赤外分光法(IR)、ラマン分光法、質量分析法(MS)が挙げられる。これらの方法は、単独で用いてもよく、適宜組み合わせて用いてもよい。
 試験物質は、公知物質であってもよく、新規物質であってもよい。試験物質は、天然物であってもよく、人工物であってもよい。試験物質は、例えば、コンビナトリアルケミストリー技術を用いて作製された化合物ライブラリーであってもよい。試験物質としては、例えば、アルコール、ケトン、アルデヒド、エーテル、エステル、炭化水素、糖、有機酸、核酸、アミノ酸、ペプチド、その他の有機または無機の各種成分が挙げられる。また、試験物質としては、特に、既存の食品添加物が挙げられる。「既存の食品添加物」とは、食品添加物としての使用が既に認められている物質を意味する。試験物質は、仮想物質(すなわち、仮想の構造を有する物質)であってもよい。仮想物質としては、GDB-11、GDB-13、GDB-17、ZINC15、FooDB、VCF(Volatile Compounds in Food)等の化合物データベースに記載の物質が挙げられる。試験物質としては、1種の試験物質を用いてもよく、2種またはそれ以上の試験物質を組み合わせて用いてもよい。試験物質は、例えば、既存の食品添加物等の、上記例示したような物質を含むように選択されてよい。すなわち、試験物質としては、例えば、1種の既存の食品添加物を用いてもよく、2種またはそれ以上の食品添加物を組み合わせて用いてもよく、1種またはそれ以上の食品添加物と1種またはそれ以上の他の物質とを組み合わせて用いてもよい。なお、「2種またはそれ以上の試験物質を組み合わせて用いる」とは、2種またはそれ以上の試験物質についてそれぞれ目的の特性の有無を予測することを意味する。
<1-3>対照物質
 「対照物質」とは、目的の特性の有無の指標として用いることができる物質を意味する。対照物質は、その構造が同定されており、且つ目的の特性の有無が同定されているものであれば、特に制限されない。
 対照物質の構造は、対照物質の多重立体配座を生成できる程度に同定されていればよい。対照物質の構造は、例えば、化学構造式として同定されていればよい。対照物質の構造は、公知であってもよく、そうでなくてもよい。対照物質の構造が公知でない場合は、多重立体配座の生成前に、適宜、対照物質の構造を同定すればよい。対照物質の構造を同定する方法は、特に制限されない。対照物質の構造は、例えば、物質の構造を同定する公知の方法により同定することができる。そのような方法としては、核磁気共鳴法(NMR)、電子スピン共鳴法(ESR)、紫外可視近赤外分光法(UV-Vis-NIR)、赤外分光法(IR)、ラマン分光法、質量分析法(MS)が挙げられる。これらの方法は、単独で用いてもよく、適宜組み合わせて用いてもよい。
 対照物質における目的の特性の有無は、公知であってもよく、そうでなくてもよい。対照物質における目的の特性の有無が公知でない場合は、予測工程の実施前に、適宜、対照物質における目的の特性の有無を同定すればよい。対照物質における特性の有無を同定する方法は、特に制限されない。対照物質における特性の有無は、例えば、物質における特性の有無を同定する公知の方法により同定することができる。対照物質における香気特性の有無は、例えば、専門パネルによる官能評価により、同定することができる。対照物質における嗅覚受容体活性化特性の有無は、例えば、嗅覚受容体と対照物質とを接触させ、対照物質との接触による嗅覚受容体の活性化の有無を測定することにより、同定することができる。嗅覚受容体と対照物質との接触およびそれによる嗅覚受容体の活性化の有無の測定は、例えば、嗅覚受容体の応答を指標とした目的の香気を呈する物質のスクリーニング方法(特開2019-037197等)を参照して実施することができる。嗅覚受容体は、例えば、動物細胞等の細胞に担持して利用してよい。嗅覚受容体の活性化は、例えば、細胞内カルシウム量または細胞内cAMP量の増大を指標として測定することができる。細胞内cAMP量を測定する手法としては、例えば、ELISAやレポーターアッセイが挙げられる。レポーターアッセイとしては、例えば、ルシフェラーゼアッセイが挙げられる。レポーターアッセイによれば、cAMP量に依存して発現するように構成されたレポーター遺伝子(ルシフェラーゼ遺伝子等)を利用して細胞内cAMP量を測定することができる。細胞内カルシウム量を測定する手法としては、例えば、カルシウムイメージングが挙げられる。
 また、対照物質は、目的の特性の程度が同定されていてもよい。「特性の程度」とは、香気特性の場合には、物質が香気を呈する強度を意味してよい。「特性の程度」とは、嗅覚受容体活性化特性の場合には、物質が嗅覚受容体を活性化する強度を意味してよい。対照物質における目的の特性の程度は、例えば、対照物質における目的の特性の有無の同定と同様の方法により同定することができる。
 嗅覚受容体と対照物質との接触およびそれによる嗅覚受容体の活性化の有無または程度の測定は、具体的には、例えば、以下の手順で実施できる。
 すなわち、対照物質による嗅覚受容体の活性化の有無または程度は、嗅覚受容体と対照物質を接触させ、当該接触を実施した際の(すなわち嗅覚受容体と対照物質を接触させる条件における)嗅覚受容体の活性化の程度(活性化の程度D1)を指標として決定することができる。嗅覚受容体と接触させる対照物質の濃度は、例えば、嗅覚受容体の種類や対照物質の種類等の諸条件に応じて適宜設定できる。嗅覚受容体と接触させる対照物質の濃度は、例えば、3~1000 μMであってよい。嗅覚受容体と接触させる対照物質の濃度は、典型的には、300 μMであってよい。また、例えば、300 μMで細胞毒性を示す対照物質については、嗅覚受容体と接触させる対照物質の濃度は、3 μM、10 μM、30 μM、または100 μMであってもよい。
 対照物質による嗅覚受容体の活性化の有無または程度は、具体的には、活性化の程度D1と対照条件における嗅覚受容体の活性化の程度(活性化の程度D2)とを比較することにより決定することができる。対照条件としては、嗅覚受容体と対照物質を接触させない条件が挙げられる。
 活性化の程度D1およびD2は、いずれも、嗅覚受容体の活性化の指標となるパラメータを反映するデータとして取得し、利用することができる。嗅覚受容体の活性化の指標となるパラメータとしては、細胞内カルシウム量や細胞内cAMP量が挙げられる。細胞内cAMP量を反映するデータとしては、ルシフェラーゼアッセイの場合、発光強度が挙げられる。嗅覚受容体の活性化の指標となるパラメータを反映するデータは、そのまま、あるいは適宜補正等の加工に供してから、利用することができる。
 活性化の程度D1が高い場合に、対照物質により嗅覚受容体が活性化されたと判断してよい。例えば、活性化の程度D2に対する活性化の程度D1の比率(すなわち、D1/D2)が、1.5以上、2以上、3以上、5以上、10以上、20以上、50以上、または100以上である場合に、対照物質により嗅覚受容体が活性化されたと判断してよい。活性化の程度D2に対する活性化の程度D1の比率としては、実施例に記載のnormalized response値が挙げられる。
 また、活性化の程度D1と活性化の程度D2との比較結果を指標として、対照物質による嗅覚受容体の活性化の程度を決定することができる。例えば、活性化の程度D2に対する活性化の程度D1の比率(すなわち、D1/D2)を、対照物質による嗅覚受容体の活性化の程度とみなすことができる。活性化の程度D2に対する活性化の程度D1の比率としては、実施例に記載のnormalized response値が挙げられる。
 対照物質としては、陽性対照および陰性対照が挙げられる。「陽性対照」とは、目的の特性を有する物質を意味する。「陰性対照」とは、目的の特性を有しない物質を意味する。対照物質は、少なくとも、陽性対照を含んでいてよい。
 対照物質は、公知物質であってもよく、新規物質であってもよい。対照物質は、天然物であってもよく、人工物であってもよい。対照物質は、例えば、コンビナトリアルケミストリー技術を用いて作製された化合物ライブラリーであってもよい。対照物質としては、例えば、アルコール、ケトン、アルデヒド、エーテル、エステル、炭化水素、糖、有機酸、核酸、アミノ酸、ペプチド、その他の有機または無機の各種成分が挙げられる。対照物質として、具体的には、目的の特性の有無および/または程度が公知である物質が挙げられる。目的の特性の有無および/または程度が公知である物質としては、The Good Scents Company(http://www.thegoodscentscompany.com/)に記載の物質が挙げられる。すなわち、対照物質は、The Good Scents Companyに記載の物質を含んでいてよい。例えば、対照物質の総数の50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上がThe Good Scents Companyに記載の物質から選択されてもよい。The Good Scents Companyに記載の物質は、いずれも、例えば、そのOdor Descriptionに列挙された香気を呈する(すなわち、そのOdor Descriptionに列挙された香気についての陽性対照である)とみなしてよい。また、The Good Scents Companyに記載の物質は、いずれも、例えば、そのOdor Descriptionに列挙されていない香気を呈しない(すなわち、そのOdor Descriptionに列挙された香気についての陰性対照である)とみなしてよい。また、目的の特性の有無および/または程度が公知である物質としては、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の物質も挙げられる。すなわち、対照物質は、Atlas of odor character profilesに記載の物質を含んでいてよい。Atlas of odor character profilesに記載の物質は、いずれも、例えば、各香気のpercentage of applicability値に応じて当該香気についての陽性対照または陰性対照とみなしてよい。すなわち、Atlas of odor character profilesに記載の物質は、いずれも、例えば、或る香気のpercentage of applicability値が高い場合に、当該香気についての陽性対照とみなしてよい。また、Atlas of odor character profilesに記載の物質は、いずれも、例えば、或る香気のpercentage of applicability値が低い場合に、当該香気についての陰性対照とみなしてよい。「percentage of applicability値が高い」とは、例えば、percentage of applicability値が4以上、7以上、10以上、15以上、または20以上であることを意味してよい。「percentage of applicability値が低い」とは、例えば、percentage of applicability値が4未満、3以下、2以下、1以下、または0.5以下であることを意味してよい。対照物質としては、1種の対照物質を用いてもよく、2種またはそれ以上の対照物質を組み合わせて用いてもよい。
 対照物質の数、陽性対照の数、および陰性対照の数は、いずれも、例えば、1以上、2以上、3以上、5以上、7以上、10以上、15以上、20以上、25以上、30以上、40以上、50以上、70以上、100以上、150以上、200以上、300以上、400以上、500以上、600以上、700以上、800以上、900以上、または1000以上であってもよく、10000以下、5000以下、2000以下、1000以下、500以下、200以下、150以下、100以下、70以下、50以下、40以下、30以下、25以下、20以下、15以下、または10以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照物質の数、陽性対照の数、および陰性対照の数は、いずれも、具体的には、例えば、1~10000、1~1000、1~100、1~10、10~10000、10~1000、10~100、100~10000、100~1000、または1000~10000であってもよい。対照物質の数、陽性対照の数、および陰性対照の数は、いずれも、具体的には、例えば、1~10、10~100、100~200、200~500、500~1000、1000~2000、2000~5000、または5000~10000であってもよい。
 対照物質における陽性対照の比率は、例えば、1%以上、3%以上、5%以上、10%以上、20%以上、30%以上、40%以上、50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上であってもよく、100%以下、99%以下、97%以下、95%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、または5%以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照物質における陽性対照の比率は、具体的には、例えば、1~100%、1~50%、1~20%、1~10%、1~5%、5~100%、5~50%、5~20%、5~10%、10~100%、10~50%、10~20%、20~100%、20~50%、または50~100%であってもよい。対照物質における陽性対照の比率は、具体的には、例えば、1~10%、10~20%、20~30%、30~40%、40~50%、50~60%、60~70%、70~80%、80~90%、または90~100%であってもよい。「対照物質における陽性対照の比率」とは、対照物質の総数に対する陽性対照の数の比率を意味する。
<1-4>物質間での立体化学構造の最大類似度
 「物質間での立体化学構造の最大類似度」とは、物質(以下、ある物質Aと別の物質Bとする)間での立体化学構造の類似度の最大値を意味する。「物質間での立体化学構造の最大類似度」とは、具体的には、物質Aの多重立体配座と物質Bの多重立体配座との全ペアの類似度の最大値を意味する。「物質の多重立体配座」とは、物質が有する2つまたはそれ以上の立体配座を意味し、言い換えると、物質が有する2つまたはそれ以上の立体配座異性体の立体配座を意味する。すなわち、「物質間での立体化学構造の最大類似度」とは、物質Aがn個の立体配座(A1~An)を、物質Bがm個の立体配座(B1~Bm)を有する場合、n×m個のペア(すなわち、A1とB1のペア~AnとBmのペア)の類似度の最大値を意味する。試験物質および対照物質が有する立体配座の数は、2つまたはそれ以上であれば、特に制限されない。立体化学構造の最大類似度を、単に「最大類似度」ともいう。
 物質の多重立体配座の生成方法は、特に制限されない。物質の多重立体配座は、例えば、公知の方法により生成できる。物質の多重立体配座は、具体的には、例えば、立体配座生成ソフトウェアOMEGA(OpenEye社)等のソフトウェアにより生成することができる。すなわち、ソフトウェアを使用することにより、物質の構造データから物質の多重立体配座を生成することができる。ソフトウェアは、例えば、製造元のマニュアルに従って使用することができる。OMEGAの場合、例えば、大環状化合物(例えば、12員環以上の環状化合物)はOMEGA macrocyclicモードで、それ以外の化合物はOMEGA classicモードで、多重立体配座を生成してもよい。
 「物質の構造データ」とは、物質の構造を示すデータを意味する。物質の構造データは、多重立体配座を生成できる限り、特に制限されない。物質の構造データは、例えば、物質の多重立体配座の生成に使用されるソフトウェアの種類等の諸条件に応じて適宜選択できる。物質の構造データとしては、例えば、既存のデータを取得して使用してもよく、化学構造式からの変換によりデータを取得して使用してもよい。既存のデータは、例えば、PubChemやChemSpider等の化学データベースまたはSigmaAldrich等の試薬会社のウェブサイトから取得することができる。化学構造式からの変換は、例えば、ChemDraw等のソフトウェアまたはウェブサイトを使用することにより実施することができる。取得した物質の構造データは、例えば、そのまま、あるいは適宜加工してから、多重立体配座の生成に使用してよい。例えば、isomeric SMILES形式のデータの場合、absolute SMILES形式に正準化(canonicalization)し、MOL形式やそれを含むSDF形式等の3次元構造データに変換し、水素付加や最適化等の加工を実施してから、多重立体配座の生成に使用してよい。SMILESデータの正準化および3次元構造データへの変換は、例えば、ケモインフォマティクスソフトウェアRDKit(http://www.rdkit.org)等のソフトウェアにより実施することができる。水素付加や最適化等の3次元構造データの加工は、例えば、統合計算化学システムMOE(CCG社)等のソフトウェアにより実施することができる。
 物質AB間の最大類似度は、例えば、物質Aの多重立体配座と物質Bの多重立体配座との各ペアの類似度を算出し、算出された類似度の内の最大値として取得することができる。ペアの類似度は、全てのペアについて算出されてもよく、最大値を少なくとも含む一部のペアについてのみ算出されてもよい。例えば、類似度が低いペアを適当な基準で予めペアの類似度の算出から除外してもよい。ペアの類似度は、通常、全てのペアについて算出されてよい。
 立体化学構造の類似度としては、Tanimoto係数(Tanimoto coefficient)が挙げられる。Tanimoto係数としては、表面形状の類似性を示すShape Tanimoto score、表面化学特性の類似性を示すColor Tanimoto score、表面形状と表面化学特性の類似性を示すTanimoto Combo scoreが挙げられる。Tanimoto Combo scoreは、Shape Tanimoto scoreとColor Tanimoto scoreの合計値として算出される。Tanimoto係数は、例えば、分子表面形状類似度計算ソフトROCS(OpenEye社)等のソフトウェアにより算出することができる。ROCSにより立体化学構造の類似度を算出する場合、比較される物質のどちらをクエリーとするかによって、算出される類似度が変動し得る。その場合、所望の精度で予測が実施できる限り、算出された類似度の内のいずれを最大類似度の算出に用いてもよい。例えば、算出された類似度の内の、低い方を最大類似度の算出に用いてもよく、高い方を最大類似度の算出に用いてもよい。あるいは、例えば、算出された類似度の平均値を最大類似度の算出に用いてもよい。Tanimoto係数の最大値として取得された最大類似度を、「Tanimoto係数に基づく最大類似度」ともいう。
<1-5>予測工程
 予測は、試験物質と対照物質間の最大類似度に基づいて実施することができる。
 予測は、例えば、試験物質と対照物質間の最大類似度を直接評価することにより実施してよい。すなわち、「試験物質と対照物質間での立体化学構造の最大類似度に基づいて試験物質について目的の特性の有無を予測すること」には、試験物質と対照物質間の最大類似度を直接評価することにより予測を実施することが包含されてよい。また、予測工程は、例えば、試験物質と対照物質間の最大類似度を直接評価する工程を含んでいてよい。
 すなわち、例えば、試験物質と陽性対照間の最大類似度が高い場合に、試験物質が目的の特性を有すると予測してよい。「試験物質と陽性対照間の最大類似度が高い」とは、陽性対照が1種の物質である場合、試験物質と当該1種の陽性対照間の最大類似度が高いことを意味する。「試験物質と陽性対照間での最大類似度が高い」とは、陽性対照が2種またはそれ以上の物質の組み合わせである場合、例えば、試験物質と当該2種またはそれ以上の陽性対照間の最大類似度の平均値または最大値が高いことを意味してよい。「試験物質と陽性対照間での最大類似度が高い」とは、陽性対照が2種またはそれ以上の物質の組み合わせである場合、例えば、試験物質に対して高い最大類似度を示す陽性対照の数または比率が大きいことを意味してもよい。また、例えば、試験物質と陽性対照間の最大類似度が高くない場合に、試験物質が目的の特性を有しないと予測してよい。
 「最大類似度が高い」とは、例えば、最大類似度が所定の値以上であることを意味してよい。所定の値は、所望の精度で予測が実施できる限り、特に制限されない。「最大類似度が高い」とは、例えば、0~1に正規化された最大類似度が、0.5以上、0.6以上、0.7以上、0.8以上、または0.9以上であることを意味してよい。「最大類似度が高い」とは、具体的には、例えば、Shape Tanimoto scoreに基づく最大類似度が0.5以上、0.6以上、0.7以上、0.8以上、または0.9以上であることを意味してもよい。「最大類似度が高い」とは、具体的には、例えば、Color Tanimoto scoreに基づく最大類似度が0.5以上、0.6以上、0.7以上、0.8以上、または0.9以上であることを意味してもよい。「最大類似度が高い」とは、具体的には、例えば、Tanimoto Combo scoreに基づく最大類似度が1以上、1.2以上、1.4以上、1.6以上、または1.8以上であることを意味してもよい。物質AB間の最大類似度が高いことを、「物質Aが物質Bに対して高い最大類似度を示す」ともいい、「物質Bが物質Aに対して高い最大類似度を示す」ともいう。
 「最大類似度の平均値が高い」または「最大類似度の最大値が高い」とは、例えば、最大類似度の平均値または最大値が所定の値以上であることを意味してよい。所定の値は、所望の精度で予測が実施できる限り、特に制限されない。「最大類似度の平均値が高い」または「最大類似度の最大値が高い」とは、例えば、0~1に正規化された最大類似度の平均値または最大値が、0.5以上、0.6以上、0.7以上、0.8以上、または0.9以上であることを意味してよい。「最大類似度の平均値が高い」または「最大類似度の最大値が高い」とは、具体的には、例えば、Shape Tanimoto scoreに基づく最大類似度の平均値または最大値が0.5以上、0.6以上、0.7以上、0.8以上、または0.9以上であることを意味してもよい。「最大類似度の平均値が高い」または「最大類似度の最大値が高い」とは、具体的には、例えば、Color Tanimoto scoreに基づく最大類似度の平均値または最大値が0.5以上、0.6以上、0.7以上、0.8以上、または0.9以上であることを意味してもよい。「最大類似度の平均値が高い」または「最大類似度の最大値が高い」とは、具体的には、例えば、Tanimoto Combo scoreに基づく最大類似度の平均値または最大値が1以上、1.2以上、1.4以上、1.6以上、または1.8以上であることを意味してもよい。
 「試験物質に対して高い最大類似度を示す陽性対照の数が大きい」とは、例えば、試験物質に対して高い最大類似度を示す陽性対照の数が、1以上、2以上、3以上、5以上、7以上、10以上、15以上、20以上、25以上、30以上、40以上、50以上、70以上、100以上、150以上、200以上、300以上、400以上、または500以上であることを意味してよい。
 「試験物質に対して高い最大類似度を示す陽性対照の比率が大きい」とは、例えば、試験物質に対して高い最大類似度を示す陽性対照の比率が、1%以上、3%以上、5%以上、10%以上、20%以上、30%以上、40%以上、50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上であることを意味してよい。「試験物質に対して高い最大類似度を示す陽性対照の比率」とは、対照物質の総数に対する試験物質に対して高い最大類似度を示す陽性対照の数の比率を意味する。
 予測は、例えば、試験物質と対照物質間の最大類似度に基づいてそれらの物質をクラスタリングすることにより実施してもよい。すなわち、「試験物質と対照物質間での立体化学構造の最大類似度に基づいて試験物質について目的の特性の有無を予測すること」には、試験物質と対照物質間の最大類似度に基づいてそれらの物質をクラスタリングすることにより予測を実施することが包含されてよい。また、予測工程は、例えば、試験物質と対照物質間の最大類似度に基づいてそれらの物質をクラスタリングする工程を含んでいてよい。クラスタリングは、特に、2種またはそれ以上の対照物質を組み合わせて使用する場合に実施してよい。
 クラスタリングは、試験物質と対照物質間の最大類似度を変数として実施することができる。クラスタリングに用いられる変数は、試験物質と対照物質間での最大類似度のみであってもよく、そうでなくてもよい。すなわち、クラスタリングには、試験物質と対照物質間の最大類似度に加えて、さらに他の変数が使用されてもよい。他の変数は、所望の精度で予測が実施できる限り、特に制限されない。他の変数としては、試験物質および対照物質と他の物質間での立体化学構造の類似度(例えば最大類似度)が挙げられる。言い換えると、予測工程においては、試験物質および対照物質のみがクラスタリングされてもよく、試験物質と対照物質に加えて、さらに他の物質がクラスタリングされてもよい。
 物質間の最大類似度は、単独で、あるいは最大類似度以外の物質間の構造類似度と組み合わせて、予測(例えば、クラスタリング)に用いられてよい。最大類似度以外の物質間の構造類似度を、「追加の構造類似度」ともいう。最大類似度と追加の構造類似度の組み合わせを、「混合類似度」ともいう。混合類似度に基づいて予測を実施する場合、上述した予測工程の説明における「最大類似度」は、「混合類似度」と読み替えてよい。すなわち、例えば、混合類似度に基づいて予測を実施する場合における「試験物質と陽性対照間での最大類似度が高い」とは、試験物質と陽性対照間での混合類似度が高いことを意味してよい。また、例えば、混合類似度に基づいて予測を実施する場合における「試験物質と陽性対照間での最大類似度が低い」とは、試験物質と陽性対照間での混合類似度が低いことを意味してよい。追加の構造類似度としては、分子フィンガープリント類似度等の、多重立体配座を考慮しない物質間の構造類似度が挙げられる。混合類似度の算出の際には、適宜、最大類似度と追加の構造類似度のスケールを合わせてからそれらを組み合わせてよい。混合類似度における最大類似度の比率は、所望の精度で予測を実施できる限り、特に制限されない。混合類似度における最大類似度の比率は、例えば、1%以上、3%以上、5%以上、20%以上、30%以上、40%以上、50%以上、60%以上、70%以上、80%以上、または90%以上であってもよく、99%以下、97%以下、95%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、または30%以下であってもよく、それらの矛盾しない組み合わせであってもよい。混合類似度における最大類似度の比率は、具体的には、例えば、1~99%、10~99%、30~99%、50~99%、60~95%、または70~90%であってもよい。混合類似度に基づいて予測を実施することにより、例えば、最大類似度のみに基づいて予測を実施する場合と比較して、予測の精度が向上し得る。
 クラスタリングされる物質の総数に対する試験物質および対照物質の総数の比率は、例えば、50%以上、60%以上、70%以上、80%以上、90%以上、95%以上、97%以上、または99%以上であってよい。また、クラスタリングされる物質の総数に対する対照物質の数の比率は、例えば、50%以上、60%以上、70%以上、80%以上、90%以上、95%以上、97%以上、または99%以上であってよい。
 クラスタリングは、所望の精度で予測が実施できる限り、1回で実施してもよく、2回またはそれ以上に分けて実施してもよい。例えば、一部の物質を予めクラスタリングし、得られたクラスタリング結果に基づいて残りの物質をさらにクラスタリングしてもよい。具体的には、例えば、試験物質以外の物質を予めクラスタリングし、得られたクラスタリング結果に基づいて試験物質をさらにクラスタリングしてもよい。すなわち、具体的には、例えば、試験物質以外の物質で予め作成したクラスタのいずれに試験物質がクラスタリングされるかを後から決定してもよい。2種またはそれ以上の試験物質を組み合わせて使用する場合、それら試験物質は、1回でまとめてクラスタリングしてもよく、2回またはそれ以上に分けてクラスタリングしてもよい。
 クラスタリングの方法は、特に制限されない。クラスタリングは、例えば、公知の方法により実施できる。そのような方法としては、階層クラスタ分析や次元削減法(Dimensionality Reduction)が挙げられる。階層クラスタ分析としては、ウォード法(Ward法)、最短距離法(nearest neighbor method)、最長距離法(furthest neighbor method)、群平均法(group average method)が挙げられる。階層クラスタ分析としては、特に、ウォード法が挙げられる。階層クラスタ分析において用いられる物質間の距離としては、ユークリッド距離(Euclidean距離)、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離、キャンベラ距離、コサイン類似度に基づく距離、角距離、ピアソンの相関係数に基づく距離、拡張ジャッカード係数に基づく距離が挙げられる。階層クラスタ分析において用いられる物質間の距離としては、特に、Euclidean距離が挙げられる。階層クラスタ分析は、具体的には、例えば、Euclidean距離を用いたウォード法により実施してよい。次元削減法としては、ランダムプロジェクション(Random Projection)、主成分分析(Principal Component Analysis;PCA)、線形判別分析(Linear Discriminant Analysis;LDA)、Isometric mapping(Isomap)、局所線形埋め込み(Locally Linear Embedding;LLE)、Modified LLE(MLLE)、Hessian-based LLE(HLLE)、スペクトル埋め込み(Spectral Embedding)、Local Tangent Space Alignment(LTSA)、多次元尺度法(Multi-dimensional Scaling;MDS)、t分布型確率的近傍埋め込み(t-distributed Stochastic Neighbor Embedding;t-SNE)、Random Forest Embedding、Uniform Manifold Approximation and Projection(UMAP)、カーネルPCA、オートエンコーダーが挙げられる。次元削減法としては、特に、t-SNEが挙げられる。これらの方法は、単独で用いてもよく、適宜組み合わせて用いてもよい。
 クラスタの数は、所望の精度で予測が実施できる限り、特に制限されない。クラスタの数は、例えば、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、または10以上であってもよく、100以下、50以下、30以下、25以下、20以下、15以下、12以下、10以下、9以下、8以下、7以下、6以下、または5以下であってもよく、それらの矛盾しない組み合わせであってもよい。クラスタの数は、具体的には、例えば、2~30、3~20、または4~15であってもよい。
 例えば、試験物質が目的の特性を有する可能性が高いクラスタにクラスタリングされる場合に、試験物質が目的の特性を有すると予測してよい。なお、例えば、試験物質が目的の特性を有する可能性が高いクラスタにクラスタリングされる場合に、試験物質と陽性対照間の最大類似度が高いと判断してもよい。また、例えば、試験物質が目的の特性を有する可能性が高いクラスタにクラスタリングされない場合に、試験物質が目的の特性を有しないと予測してよい。なお、例えば、試験物質が目的の特性を有する可能性が高いクラスタにクラスタリングされない場合に、試験物質と陽性対照間の最大類似度が高くないと判断してもよい。目的の特性を有する可能性が高いクラスタを、「陽性クラスタ」ともいう。クラスタリングの結果、陽性クラスタは1つのみ生じてもよく、2つまたはそれ以上生じてもよい。目的の特性を有する可能性が高いクラスタとしては、陽性対照を含むクラスタが挙げられる。陽性対照を含むクラスタは、1種またはそれ以上の陽性対照を含んでいてよい。陽性対照を含むクラスタは、陽性対照以外の物質を含んでいてもよく、いなくてもよい。陽性対照を含むクラスタは、例えば、陰性対照を含んでいてもよく、いなくてもよい。陽性対照を含むクラスタは、例えば、陽性対照の比率が高いクラスタであってもよい。「陽性対照の比率が高いクラスタ」とは、例えば、陽性対照の比率が、1%以上、3%以上、5%以上、10%以上、20%以上、30%以上、40%以上、50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上であるクラスタを意味してよい。或るクラスタにおける「陽性対照の比率」とは、該クラスタに含まれる対照物質の数に対する該クラスタに含まれる陽性対照の数の比率を意味する。陽性対照を含むクラスタは、例えば、目的の特性の程度が高いクラスタであってもよい。「目的の特性の程度が高いクラスタ」とは、例えば、目的の特性の程度が最大である陽性対照を含むクラスタを意味してよい。「目的の特性の程度が高いクラスタ」とは、例えば、目的の特性の程度の平均値が最大であるクラスタを意味してもよい。2つまたはそれ以上の陽性クラスタが生じる場合、例えば、上記例示した基準を満たすクラスタを順に陽性クラスタとして選択してよい。或るクラスタにおける「目的の特性の程度の平均値」とは、該クラスタに含まれる全対照物質の目的の特性の程度の平均値を意味する。
 本発明の予測方法は、さらに、予測の結果を評価する工程を含んでいてもよい。すなわち、試験物質の目的の特性を評価することにより、当該目的物質が実際に目的の特性を有するかを確認することができる。具体的には、例えば、目的の特性を有すると予測された試験物質の目的の特性を評価することにより、当該目的物質が実際に目的の特性を有するかを確認することができる。すなわち、予測の結果を評価する工程は、例えば、目的の特性を有すると予測された試験物質について目的の特性の有無を確認する工程であってよい。予測の結果を評価する方法は、特に制限されない。予測の結果を評価する方法については、対照物質における目的の特性の有無の同定についての記載を準用できる。
<2>本発明の第1の態様に係る本発明の設計方法
 本発明の設計方法は、目的の特性を有する物質を設計する方法である。「物質の設計」と「物質の構造の設計」は代替可能に用いられてよい。目的の特性を有する物質を設計することを、以下、単に「設計」ともいう。設計は、設計対象の物質と対照物質間での立体化学構造の最大類似度に基づいて実施することができる。すなわち、本発明の設計方法は、設計対象の物質を、該設計対象の物質と対照物質間の立体化学構造の最大類似度に基づいて設計する工程を含んでいてよい。同工程を、「設計工程」ともいう。
 設計は、例えば、設計対象の物質が、本発明の予測方法に基づいて目的の特性を有すると予測されるように実施することができる。言い換えると、設計対象の物質は、本発明の予測方法に基づいて目的の特性を有すると予測される構造を有するように設計することができる。例えば、既存の物質の構造を、本発明の予測方法に基づいて目的の特性を有すると予測されるように改変してよい。また、例えば、多数の化合物の構造を設計し、本発明の予測方法に基づいて目的の特性を有すると予測されるものを選抜してもよい。設計は、具体的には、例えば、設計対象の物質が目的の特性を有する可能性が高いクラスタ(例えば、陽性対照を含むクラスタ)にクラスタリングされるように実施することができる。
(B)本発明の第2の態様
 以下、本発明の第2の態様について、具体的には、本発明の第2の態様に係る本発明の予測モデル製造方法および本発明の予測方法について記載する。
<1>本発明の第2の態様に係る本発明の予測モデル製造方法
 本発明の予測モデル製造方法は、試験物質について目的の構成要素の有無を予測するモデルを製造する方法である。「試験物質について目的の構成要素の有無を予測する」とは、試験物質が目的の構成要素を有するか否かを予測することを意味する。試験物質について目的の構成要素の有無を予測することを、以下、単に「予測」ともいう。試験物質について目的の構成要素の有無を予測するモデルを、以下、単に「予測モデル」ともいう。
<1-1>予測モデル
 予測モデルは、試験物質について目的の構成要素の有無を予測するモデルである。すなわち、予測モデルは、予測に用いることができる。予測モデルは、具体的には、本発明の予測方法に記載の態様で予測に用いることができる。
 予測モデルは、決定木を含んでいてよい。決定木またはそれを含むモデルを、「樹形モデル」ともいう。決定木は、予測の指標となる結論を出力するものであれば、特に制限されない。予測は、試験物質の試験嗅覚受容体活性化データに基づいて実施することができる。試験物質の試験嗅覚受容体活性化データを、以下、単に「試験嗅覚受容体活性化データ」ともいう。すなわち、決定木は、試験嗅覚受容体活性化データに基づいて(言い換えると、試験嗅覚受容体活性化データを変数として)、予測の指標となる結論を出力するものであってよい。予測の指標となる結論としては、試験物質における目的の構成要素の有無についての分類結果が挙げられる。すなわち、決定木は、例えば、試験嗅覚受容体活性化データに基づいて、試験物質における目的の構成要素の有無についての分類結果を出力するものであってよい。「試験物質における目的の構成要素の有無についての分類結果」とは、試験物質が目的の構成要素を有するか否かを示唆する分類結果を意味する。試験物質における目的の構成要素の有無についての分類結果は、具体的には、決定木に含まれるリーフノードのいずれかに試験物質を分類した結果として得られる。すなわち、決定木は、具体的には、試験嗅覚受容体活性化データに基づいて、決定木に含まれるリーフノードのいずれかに試験物質を分類するものであってよい。
<1-2>目的の構成要素
 「目的の構成要素」とは、予測の対象となる構成要素を意味する。構成要素としては、香気特性や分子構造が挙げられる。
 香気、香気特性、および香気特性の有無については、本発明の第1の態様において記載した通りである。
 「分子構造」とは、物質の構造に係るパラメータを意味する。分子構造の種類は、特に制限されない。分子構造としては、分子の部分構造が挙げられる。分子の部分構造としては、官能基、骨格、結合、原子が挙げられる。分子構造として、具体的には、カルボニル基、アシル基、アルデヒド基、ケトン基、カルボキシル基、カルボキサミド基、アルカノイル基、ベンゾイル基、アルコキシカルボニル基、フェノキシカルボニル基、イミド基、エノン基、アルキル基、アルケニル基、水酸基、アミノ基、イミノ基、アリール基、オキソ基、アルコキシ基、フェノキシ基、アルキレンジオキシ基、チオール基、スルホ基、ニトロ基、エステル結合、エーテル結合、アミド結合、グリコシド結合、窒素原子、酸素原子、硫黄原子、ハロゲン原子、単素環骨格、複素環骨格、テルペノイド骨格が挙げられる。複素環骨格としては、窒素、硫黄、酸素等のヘテロ原子を含む複素環骨格が挙げられる。複素環骨格は、ヘテロ原子を1つまたはそれ以上含んでいてよい。複素環骨格として、具体的には、ピラジン骨格やピロール骨格等の窒素を含む複素環骨格や、チアゾール骨格等の窒素と硫黄を含む複素環骨格が挙げられる。分子構造は、1種の分子構造であってもよく、2種またはそれ以上の分子構造の組み合わせであってもよい。すなわち、「分子構造の有無」とは、いずれか1種の分子構造の有無を意味してもよく、2種またはそれ以上の分子構造の有無(すなわち、2種またはそれ以上の分子構造について、どの分子構造を有し、どの分子構造を有しないかというパターン)を意味してもよい。
<1-3>試験物質
 「試験物質」とは、目的の構成要素の有無を予測する対象となる物質を意味する。また、「試験物質」とは、言い換えると、目的の構成要素を有する物質をスクリーニングする方法においては、目的の構成要素を有する物質の候補として用いられる物質を意味する。試験物質は、その試験嗅覚受容体活性化データが利用できるものであれば、特に制限されない。
 「試験物質の試験嗅覚受容体活性化データ」とは、試験物質による試験嗅覚受容体の活性化に関するデータを意味する。「試験物質による試験嗅覚受容体の活性化」は、「試験物質に対する試験嗅覚受容体の応答」と代替可能に用いられてよい。試験嗅覚受容体活性化データとしては、試験物質による試験嗅覚受容体の活性化の有無を示すデータや試験物質による試験嗅覚受容体の活性化の程度を示すデータが挙げられる。試験嗅覚受容体活性化データとしては、特に、試験物質による試験嗅覚受容体の活性化の程度を示すデータが挙げられる。「試験物質による試験嗅覚受容体の活性化の程度」とは、試験物質が試験嗅覚受容体を活性化する強度を意味してよい。試験嗅覚受容体活性化データは、具体的には、決定木に含まれる分岐で用いられる。
 「試験嗅覚受容体」とは、決定木に含まれる分岐で用いられる嗅覚受容体を意味する。「嗅覚受容体が決定木に含まれる分岐で用いられる」とは、当該嗅覚受容体についての嗅覚受容体活性化データ(すなわち、試験物質による当該嗅覚受容体の活性化に関するデータ)が決定木に含まれる分岐で用いられることを意味してよい。試験嗅覚受容体としては、以下の嗅覚受容体が挙げられる。試験嗅覚受容体は、1種の嗅覚受容体であってもよく、2種またはそれ以上の嗅覚受容体の組み合わせであってもよい。
 嗅覚受容体およびそれをコードする遺伝子(嗅覚受容体遺伝子)については、本発明の第1の態様において記載した通りである。
 試験嗅覚受容体活性化データは、公知であってもよく、そうでなくてもよい。試験嗅覚受容体活性化データが公知でない場合は、予測の実施前に、適宜、試験嗅覚受容体活性化データを取得すればよい。試験嗅覚受容体活性化データを取得する方法は、特に制限されない。試験嗅覚受容体活性化データは、例えば、物質による嗅覚受容体の活性化の有無または程度を同定する公知の方法により取得することができる。試験嗅覚受容体活性化データは、具体的には、例えば、試験嗅覚受容体と試験物質とを接触させ、試験物質との接触による試験嗅覚受容体の活性化の有無または程度を測定することにより、取得することができる。試験嗅覚受容体と試験物質との接触およびそれによる試験嗅覚受容体の活性化の有無または程度の測定は、例えば、嗅覚受容体の応答を指標とした目的の香気を呈する物質のスクリーニング方法(特開2019-037197等)を参照して実施することができる。試験嗅覚受容体は、例えば、動物細胞等の細胞に担持して利用してよい。試験嗅覚受容体の活性化は、例えば、細胞内カルシウム量または細胞内cAMP量の増大を指標として測定することができる。細胞内cAMP量を測定する手法としては、例えば、ELISAやレポーターアッセイが挙げられる。レポーターアッセイとしては、例えば、ルシフェラーゼアッセイが挙げられる。レポーターアッセイによれば、cAMP量に依存して発現するように構成されたレポーター遺伝子(ルシフェラーゼ遺伝子等)を利用して細胞内cAMP量を測定することができる。細胞内カルシウム量を測定する手法としては、例えば、カルシウムイメージングが挙げられる。
 試験嗅覚受容体と試験物質との接触およびそれによる試験嗅覚受容体の活性化の有無または程度の測定は、具体的には、例えば、以下の手順で実施できる。
 すなわち、試験物質による試験嗅覚受容体の活性化の有無または程度は、試験嗅覚受容体と試験物質を接触させ、当該接触を実施した際の(すなわち試験嗅覚受容体と試験物質を接触させる条件における)試験嗅覚受容体の活性化の程度(活性化の程度D1)を指標として決定することができる。試験嗅覚受容体と接触させる試験物質の濃度は、例えば、試験嗅覚受容体の種類や試験物質の種類等の諸条件に応じて適宜設定できる。試験嗅覚受容体と接触させる試験物質の濃度は、例えば、3~1000 μMであってよい。試験嗅覚受容体と接触させる試験物質の濃度は、典型的には、300 μMであってよい。また、例えば、300 μMで細胞毒性を示す試験物質については、試験嗅覚受容体と接触させる試験物質の濃度は、3 μM、10 μM、30 μM、または100 μMであってもよい。
 試験物質による試験嗅覚受容体の活性化の有無または程度は、具体的には、活性化の程度D1と対照条件における試験嗅覚受容体の活性化の程度(活性化の程度D2)とを比較することにより決定することができる。対照条件としては、試験嗅覚受容体と試験物質を接触させない条件が挙げられる。
 活性化の程度D1およびD2は、いずれも、試験嗅覚受容体の活性化の指標となるパラメータを反映するデータとして取得し、利用することができる。試験嗅覚受容体の活性化の指標となるパラメータとしては、細胞内カルシウム量や細胞内cAMP量が挙げられる。細胞内cAMP量を反映するデータとしては、ルシフェラーゼアッセイの場合、発光強度が挙げられる。試験嗅覚受容体の活性化の指標となるパラメータを反映するデータは、そのまま、あるいは適宜補正等の加工に供してから、利用することができる。
 活性化の程度D1が高い場合に、試験物質により試験嗅覚受容体が活性化されたと判断してよい。例えば、活性化の程度D2に対する活性化の程度D1の比率(すなわち、D1/D2)が、1.5以上、2以上、3以上、5以上、10以上、20以上、50以上、または100以上である場合に、試験物質により試験嗅覚受容体が活性化されたと判断してよい。活性化の程度D2に対する活性化の程度D1の比率としては、実施例に記載のnormalized response値が挙げられる。
 また、活性化の程度D1と活性化の程度D2との比較結果を指標として、試験物質による試験嗅覚受容体の活性化の程度を決定することができる。例えば、活性化の程度D2に対する活性化の程度D1の比率(すなわち、D1/D2)を、試験物質による試験嗅覚受容体の活性化の程度とみなすことができる。活性化の程度D2に対する活性化の程度D1の比率としては、実施例に記載のnormalized response値が挙げられる。
 試験物質は、公知物質であってもよく、新規物質であってもよい。試験物質は、天然物であってもよく、人工物であってもよい。試験物質は、例えば、コンビナトリアルケミストリー技術を用いて作製された化合物ライブラリーであってもよい。試験物質としては、例えば、アルコール、ケトン、アルデヒド、エーテル、エステル、炭化水素、糖、有機酸、核酸、アミノ酸、ペプチド、その他の有機または無機の各種成分が挙げられる。また、試験物質としては、特に、既存の食品添加物が挙げられる。「既存の食品添加物」とは、食品添加物としての使用が既に認められている物質を意味する。試験物質としては、1種の試験物質を用いてもよく、2種またはそれ以上の試験物質を組み合わせて用いてもよい。試験物質は、例えば、既存の食品添加物等の、上記例示したような物質を含むように選択されてよい。すなわち、試験物質としては、例えば、1種の既存の食品添加物を用いてもよく、2種またはそれ以上の食品添加物を組み合わせて用いてもよく、1種またはそれ以上の食品添加物と1種またはそれ以上の他の物質とを組み合わせて用いてもよい。なお、「2種またはそれ以上の試験物質を組み合わせて用いる」とは、2種またはそれ以上の試験物質についてそれぞれ目的の構成要素の有無を予測することを意味する。
 一態様において、試験物質は、混合物であってもよい。
 試験物質が混合物である場合、「試験物質による試験嗅覚受容体の活性化の有無または程度」とは、当該混合物全体による試験嗅覚受容体の活性化の有無または程度を意味し、当該混合物を構成する各物質による試験嗅覚受容体の活性化の有無または程度は問わない
 また、試験物質が混合物である場合、「試験物質における目的の構成要素の有無」とは、当該混合物全体における目的の構成要素の有無を意味し、当該混合物を構成する各物質における目的の構成要素の有無は問わない。すなわち、例えば、試験物質が混合物である場合、「試験物質が目的の香気特性を有する」とは、当該混合物が全体として目的の香気特性を有することを意味し、当該混合物を構成する各物質が目的の香気特性を有するかは問わない。また、「試験物質が目的の分子構造を有する」とは、当該混合物が全体として目的の分子構造を有する(すなわち、当該混合物を構成する物質から選択される少なくとも1つの物質が目的の分子構造を有する)ことを意味し、当該少なくとも1つの物質以外の当該混合物を構成する物質が目的の分子構造を有するかは問わない。
<1-4>決定木の生成
 決定木は、機械学習により生成することができる。すなわち、本発明の予測モデル製造方法は、機械学習により決定木を生成する工程を含んでいてよい。同工程を、「決定木生成工程」ともいう。
 機械学習の条件は、所望の精度で予測が実施できる決定木が得られる限り、特に制限されない。
 機械学習は、対照物質の構成要素データおよび対照嗅覚受容体活性化データを含むデータセットを用いて実施することができる。対照物質の構成要素データを、以下、単に「構成要素データ」ともいう。対照物質の対照嗅覚受容体活性化データを、以下、単に「対照嗅覚受容体活性化データ」ともいう。
 機械学習は、例えば、構成要素データを目的変数とし、かつ、対照嗅覚受容体活性化データを説明変数として、実施することができる。
 機械学習の方法は、決定木を生成できるものであれば、特に制限されない。機械学習の方法としては、CART(Classification and Regression Trees)、CHAID(Chi-squared Automatic Interaction Detection)、ID3(Iterative Dichotomiser 3)、C4.5が挙げられる。機械学習の方法としては、特に、CARTが挙げられる。
 機械学習は、例えば、アンサンブル学習により実施してもよい。アンサンブル学習としては、バギングやブースティングが挙げられる。バギングとしては、ランダムフォレストやExtremely Randomized Trees(ExtraTrees)が挙げられる。ブースティングとしては、XGboostやLightGBMが挙げられる。機械学習をアンサンブル学習により実施する場合、予測モデルに含まれる決定木は、アンサンブル学習後の決定木であってよい。すなわち、例えば、バギングを実施する場合、予測モデルは、バギングにより得られた複数個の決定木を含んでいてよい。この場合、予測工程において、複数個の決定木を併用することができる。すなわち、バギングによれば、複数個の決定木を弱学習器として生成することができ、それら複数個の弱学習器の組み合わせを強学習器として使用することができる。また、例えば、ブースティングを実施する場合、予測モデルは、ブースティングにより学習レベルが向上した決定木を含んでいてよい。すなわち、ブースティングによれば、弱学習器として生成した決定木を元に強学習器としての決定木を生成し使用することができる。
 「対照物質」とは、目的の構成要素の有無の指標として決定木の生成に用いることができる物質を意味する。対照物質は、その構成要素データおよび対照嗅覚受容体活性化データが利用できるものであれば、特に制限されない。
 「対照物質の構成要素データ」とは、対照物質における目的の構成要素に関するデータを意味する。目的の構成要素が香気特性である場合の構成要素データを、「香気特性データ」ともいう。目的の構成要素が分子構造である場合の構成要素データを、「分子構造データ」ともいう。構成要素データとしては、対照物質における目的の構成要素の有無を示すデータが挙げられる。
 「対照物質の対照嗅覚受容体活性化データ」とは、対照物質による対照嗅覚受容体の活性化についてのデータを意味する。対照嗅覚受容体活性化データとしては、対照物質による対照嗅覚受容体の活性化の有無を示すデータや対照物質による対照嗅覚受容体の活性化の程度を示すデータが挙げられる。対照嗅覚受容体活性化データとしては、特に、対照物質による対照嗅覚受容体の活性化の程度を示すデータが挙げられる。
 「対照嗅覚受容体」とは、決定木の生成に用いられる嗅覚受容体を意味する。「嗅覚受容体が決定木の生成に用いられる」とは、当該嗅覚受容体についての嗅覚受容体活性化データ(すなわち、対照物質による当該嗅覚受容体の活性化に関するデータ)が決定木の生成に用いられることを意味してよい。対照嗅覚受容体としては、上述した嗅覚受容体が挙げられる。すなわち、対照嗅覚受容体は、上述した嗅覚受容体を含んでいてよい。例えば、対照嗅覚受容体の総数の50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上が上述した嗅覚受容体から選択されてもよい。対照嗅覚受容体としては、試験嗅覚受容体を含む2種またはそれ以上の嗅覚受容体の組み合わせが用いられる。対照嗅覚受容体は、試験嗅覚受容体からなるものであってもよく、試験嗅覚受容体に加えて他の嗅覚受容体を含んでいてもよい。言い換えると、対照嗅覚受容体の一部または全部が、試験嗅覚受容体として選択される。すなわち、対照嗅覚受容体の内、決定木に含まれる分岐で用いられる嗅覚受容体が、試験嗅覚受容体として選択される。
 対照嗅覚受容体の数は、所望の精度で予測が実施できる決定木が得られる限り、特に制限されない。対照嗅覚受容体の数は、例えば、目的の構成要素の種類や機械学習の方法等の諸条件に応じて適宜設定できる。
 対照嗅覚受容体の数は、例えば、50以上、70以上、100以上、150以上、200以上、300以上、400以上、または500以上であってもよく、2000以下、1500以下、1000以下、500以下、400以下、300以下、200以下、150以下、または100以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照嗅覚受容体の数は、具体的には、例えば、50~2000、100~1000、または300~500であってもよい。
 構成要素データは、公知であってもよく、そうでなくてもよい。構成要素データが公知でない場合は、決定木の生成前に、適宜、構成要素データを取得すればよい。構成要素データを取得する方法は、特に制限されない。構成要素データは、例えば、物質の構成要素の有無または程度を同定する公知の方法により同定することができる。対照物質における目的の香気特性の有無または程度は、例えば、専門パネルによる官能評価により、同定することができる。対照物質における目的の分子構造の有無は、例えば、物質の構造を同定する公知の方法により同定することができる。そのような方法としては、核磁気共鳴法(NMR)、電子スピン共鳴法(ESR)、紫外可視近赤外分光法(UV-Vis-NIR)、赤外分光法(IR)、ラマン分光法、質量分析法(MS)が挙げられる。これらの方法は、単独で用いてもよく、適宜組み合わせて用いてもよい。
 対照嗅覚受容体活性化データは、公知であってもよく、そうでなくてもよい。対照嗅覚受容体活性化データが公知でない場合は、決定木の生成前に、適宜、対照嗅覚受容体活性化データを取得すればよい。対照嗅覚受容体活性化データを取得する方法は、特に制限されない。対照嗅覚受容体活性化データは、例えば、物質による嗅覚受容体の活性化の有無または程度を同定する公知の方法により同定することができる。対照嗅覚受容体活性化データは、具体的には、例えば、対照嗅覚受容体と対照物質とを接触させ、対照物質との接触による対照嗅覚受容体の活性化の有無または程度を測定することにより、取得することができる。対照嗅覚受容体と対照物質との接触およびそれによる対照嗅覚受容体の活性化の有無または程度の測定については、上述した試験嗅覚受容体と試験物質との接触およびそれによる試験嗅覚受容体の活性化の有無または程度の測定についての記載を準用できる。
 対照物質としては、陽性対照および陰性対照を含む2種またはそれ以上の物質の組み合わせが用いられる。「陽性対照」とは、目的の構成要素を有する物質を意味する。「陰性対照」とは、目的の構成要素を有しない物質を意味する。
 対照物質は、公知物質であってもよく、新規物質であってもよい。対照物質は、天然物であってもよく、人工物であってもよい。対照物質は、例えば、コンビナトリアルケミストリー技術を用いて作製された化合物ライブラリーであってもよい。対照物質としては、例えば、アルコール、ケトン、アルデヒド、エーテル、エステル、炭化水素、糖、有機酸、核酸、アミノ酸、ペプチド、その他の有機または無機の各種成分が挙げられる。対照物質として、具体的には、目的の構成要素の有無および/または程度が公知である物質が挙げられる。目的の構成要素の有無および/または程度が公知である物質としては、The Good Scents Company(http://www.thegoodscentscompany.com/)に記載の物質が挙げられる。すなわち、対照物質は、The Good Scents Companyに記載の物質を含んでいてよい。例えば、対照物質の総数の50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上がThe Good Scents Companyに記載の物質から選択されてもよい。The Good Scents Companyに記載の物質は、いずれも、例えば、そのOdor Descriptionに列挙された香気を呈する(すなわち、そのOdor Descriptionに列挙された香気についての陽性対照である)とみなしてよい。また、The Good Scents Companyに記載の物質は、いずれも、例えば、そのOdor Descriptionに列挙されていない香気を呈しない(すなわち、そのOdor Descriptionに列挙された香気についての陰性対照である)とみなしてよい。また、目的の構成要素の有無および/または程度が公知である物質としては、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の物質も挙げられる。すなわち、対照物質は、Atlas of odor character profilesに記載の物質を含んでいてよい。Atlas of odor character profilesに記載の物質は、いずれも、例えば、各香気のpercentage of applicability値に応じて当該香気についての陽性対照または陰性対照とみなしてよい。すなわち、Atlas of odor character profilesに記載の物質は、いずれも、例えば、或る香気のpercentage of applicability値が高い場合に、当該香気についての陽性対照とみなしてよい。また、Atlas of odor character profilesに記載の物質は、いずれも、例えば、或る香気のpercentage of applicability値が低い場合に、当該香気についての陰性対照とみなしてよい。「percentage of applicability値が高い」とは、例えば、percentage of applicability値が4以上、7以上、10以上、15以上、または20以上であることを意味してよい。「percentage of applicability値が低い」とは、例えば、percentage of applicability値が4未満、3以下、2以下、1以下、または0.5以下であることを意味してよい。また、上記例示したような物質は、いずれも、当該物質が有する分子構造についての陽性対照とみなしてよい。また、上記例示したような物質は、いずれも、当該物質が有しない分子構造についての陰性対照とみなしてよい。
 一態様において、対照物質は、混合物であってもよい。
 対照物質が混合物である場合、「対照物質による対照嗅覚受容体の活性化の有無または程度」とは、当該混合物全体による対照嗅覚受容体の活性化の有無または程度を意味し、当該混合物を構成する各物質による対照嗅覚受容体の活性化の有無または程度は問わない
 また、対照物質が混合物である場合、「対照物質における目的の構成要素の有無」とは、当該混合物全体における目的の構成要素の有無を意味し、当該混合物を構成する各物質における目的の構成要素の有無は問わない。すなわち、例えば、対照物質が混合物である場合、「対照物質が目的の香気特性を有する」とは、当該混合物が全体として目的の香気特性を有することを意味し、当該混合物を構成する各物質が目的の香気特性を有するかは問わない。また、「対照物質が目的の分子構造を有する」とは、当該混合物が全体として目的の分子構造を有する(すなわち、当該混合物を構成する物質から選択される少なくとも1つの物質が目的の分子構造を有する)ことを意味し、当該少なくとも1つの物質以外の当該混合物を構成する物質が目的の分子構造を有するかは問わない。
 対照物質の数、陽性対照の数、および陰性対照の数、ならびにそれらの比率は、所望の精度で予測が実施できる決定木が得られる限り、特に制限されない。対照物質の数、陽性対照の数、および陰性対照の数、ならびにそれらの比率は、例えば、目的の構成要素の種類や機械学習の方法等の諸条件に応じて適宜設定できる。
 対照物質の数は、例えば、100以上、150以上、200以上、300以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上、1500以上、2000以上、3000以上、5000以上、10000以上、20000以上、50000以上、または100000以上であってもよく、1000000以下、500000以下、200000以下、100000以下、50000以下、20000以下、10000以下、5000以下、3000以下、2000以下、1500以下、1000以下、または500以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照物質の数は、具体的には、例えば、100~1000000、200~500000、500~100000、または1000~20000であってもよい。対照物質の数は、具体的には、例えば、100~200、200~500、500~1000、1000~2000、2000~5000、5000~10000、10000~20000、20000~50000、50000~100000、または100000~200000であってもよい。
 陽性対照の数および陰性対照の数は、いずれも、例えば、5以上、10以上、15以上、20以上、25以上、30以上、40以上、50以上、70以上、100以上、150以上、200以上、300以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上、1500以上、2000以上、3000以上、5000以上、10000以上、20000以上、50000以上、または100000以上であってもよく、1000000以下、500000以下、200000以下、100000以下、50000以下、20000以下、10000以下、5000以下、3000以下、2000以下、1500以下、1000以下、500以下、200以下、150以下、100以下、70以下、または50以下であってもよく、それらの矛盾しない組み合わせであってもよい。陽性対照の数および陰性対照の数は、いずれも、具体的には、例えば、5~1000000、100~1000000、200~500000、500~100000、または1000~20000であってもよい。陽性対照の数および陰性対照の数は、いずれも、具体的には、例えば、5~10、10~100、100~200、200~500、500~1000、1000~2000、2000~5000、5000~10000、10000~20000、20000~50000、50000~100000、または100000~200000であってもよい。
 対照物質における陽性対照の比率および陰性対照の比率は、いずれも、例えば、0%超、1%以上、3%以上、5%以上、10%以上、20%以上、30%以上、40%以上、50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上であってもよく、100%未満、99%以下、97%以下、95%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、または5%以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照物質における陽性対照の比率および陰性対照の比率は、いずれも、具体的には、例えば、1~99%、1~50%、1~20%、1~10%、1~5%、5~99%、5~50%、5~20%、5~10%、10~99%、10~50%、10~20%、20~99%、20~50%、または50~99%であってもよい。対照物質における陽性対照の比率および陰性対照の比率は、いずれも、具体的には、例えば、1~10%、10~20%、20~30%、30~40%、40~50%、50~60%、60~70%、70~80%、80~90%、または90~99%であってもよい。「対照物質における陽性対照の比率」とは、対照物質の総数に対する陽性対照の数の比率を意味する。「対照物質における陰性対照の比率」とは、対照物質の総数に対する陰性対照の数の比率を意味する。対照物質の総数は、陽性対照の数と陰性対照の数の合計であってよい。
 このようにして機械学習を実施することにより、決定木を生成することができる。決定木は、2つまたはそれ以上のリーフノードを含む。決定木に含まれるリーフノードの1つまたはそれ以上を陽性リーフノードとする。すなわち、決定木は、1つまたはそれ以上の陽性リーフノードを含む。「陽性リーフノード」とは、目的の構成要素を有する可能性が高いリーフノードを意味する。「陽性リーフノード」とは、具体的には、当該リーフノードに分類される物質が目的の構成要素を有する可能性が高いリーフノードを意味する。
 決定木に含まれるリーフノードの数は、所望の精度で予測が実施できる限り、特に制限されない。決定木に含まれるリーフノードの数は、例えば、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、または10以上であってもよく、100以下、50以下、30以下、25以下、20以下、15以下、12以下、10以下、9以下、8以下、7以下、6以下、または5以下であってもよく、それらの矛盾しない組み合わせであってもよい。決定木に含まれるリーフノードの数は、具体的には、例えば、2~30、3~20、または4~15であってもよい。
 決定木に含まれる陽性リーフノードの数は、所望の精度で予測が実施できる限り、特に制限されない。決定木は、陽性リーフノードを1つのみ含んでいてもよく、2つまたはそれ以上含んでいてもよい。決定木に含まれる陽性リーフノードの数は、例えば、1以上、2以上、3以上、4以上、または5以上であってもよく、10以下、9以下、8以下、7以下、6以下、5以下、4以下、3以下、または2以下であってもよく、それらの矛盾しない組み合わせであってもよい。決定木に含まれる陽性リーフノードの数は、具体的には、例えば、1~10、1~6、または1~4であってもよい。
 いずれのリーフノードを陽性リーフノードとするかは、所望の精度で予測が実施できる限り、特に制限されない。陽性リーフノードとしては、陽性対照を含むリーフノードが挙げられる。陽性対照を含むリーフノードは、1種またはそれ以上の陽性対照を含んでいてよい。陽性対照を含むリーフノードは、陰性対照を含んでいてもよく、いなくてもよい。陽性対照を含むリーフノードは、例えば、陽性対照の比率が高いリーフノードであってもよい。「陽性対照の比率が高いリーフノード」とは、例えば、陽性対照の比率が、30%以上、40%以上、50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上であるリーフノードを意味してよい。或るリーフノードにおける「陽性対照の比率」とは、該リーフノードに含まれる対照物質の数に対する該リーフノードに含まれる陽性対照の数の比率を意味する。また、例えば、陽性対照の比率が高いものから順に所望の個数のリーフノードを陽性リーフノードとしてもよい。
<2>本発明の第2の態様に係る本発明の予測方法
 本発明の予測方法は、試験物質について目的の構成要素の有無を予測する方法である。予測は、本発明の予測モデルを用いて実施することができる。予測は、具体的には、試験物質の試験嗅覚受容体活性化データと本発明の予測モデルとに基づいて実施することができる。すなわち、本発明の予測方法は、試験物質の試験嗅覚受容体活性化データと本発明の予測モデルとに基づいて試験物質について目的の構成要素の有無を予測する工程を含んでいてよい。同工程を、「予測工程」ともいう。
 また、試験物質について目的の構成要素の有無を予測することにより、目的の構成要素を有する物質をスクリーニングすることができる。すなわち、目的の構成要素を有すると予測された試験物質を目的の構成要素を有する物質として選抜することができ、以て目的の構成要素を有する物質をスクリーニングすることができる。すなわち、本発明の予測方法の一態様は、目的の構成要素を有する物質をスクリーニングする方法であってもよい。すなわち、本発明の予測方法は、さらに、目的の構成要素を有すると予測された試験物質を目的の構成要素を有する物質として選抜する工程を含んでいてもよい。すなわち、スクリーニング方法は、試験物質の試験嗅覚受容体活性化データと予測モデルとに基づいて試験物質について目的の構成要素の有無を予測する工程、および目的の構成要素を有すると予測された試験物質を目的の構成要素を有する物質として選抜する工程を含む、目的の構成要素を有する物質をスクリーニングする方法であってよい。また、言い換えると、スクリーニング方法は、本発明の予測方法により試験物質について目的の構成要素の有無を予測する工程、および目的の構成要素を有すると予測された試験物質を目的の構成要素を有する物質として選抜する工程を含む、目的の構成要素を有する物質をスクリーニングする方法であってもよい。
 本発明の予測方法は、予測工程の前に、さらに、本発明の予測モデル製造方法により予測モデルを製造する工程を含んでいてもよい。
 試験物質の試験嗅覚受容体活性化データに予測モデルに含まれる決定木を適用することにより、予測の指標となる結論、具体的には、試験物質における目的の構成要素の有無についての分類結果を出力することができる。具体的には、試験物質の試験嗅覚受容体活性化データに予測モデルに含まれる決定木を適用することにより、決定木に含まれるリーフノードのいずれかに試験物質を分類することができる。
 例えば、試験物質が陽性リーフノードに分類される場合に、試験物質が目的の構成要素を有すると予測してよい。また、例えば、試験物質が陽性リーフノードに分類されない場合に、試験物質が目的の構成要素を有しないと予測してよい。また、バギングを実施する場合、複数の決定木による分類結果を総合評価してよい。例えば、決定木の総数に対する試験物質が陽性リーフノードに分類される決定木の数の比率が高い場合に、試験物質が目的の構成要素を有すると予測してよい。「決定木の総数に対する試験物質が陽性リーフノードに分類される決定木の数の比率が高い」とは、例えば、決定木の総数に対する試験物質が陽性リーフノードに分類される決定木の数の比率が、50%超、60%以上、70%以上、80%以上、または90%以上であることを意味してよい。
 本発明の予測方法は、さらに、予測の結果を評価する工程を含んでいてもよい。すなわち、試験物質の目的の構成要素を評価することにより、当該目的物質が実際に目的の構成要素を有するかを確認することができる。具体的には、例えば、目的の構成要素を有すると予測された試験物質の目的の構成要素を評価することにより、当該目的物質が実際に目的の構成要素を有するかを確認することができる。すなわち、予測の結果を評価する工程は、例えば、目的の構成要素を有すると予測された試験物質について目的の構成要素の有無を確認する工程であってよい。予測の結果を評価する方法は、特に制限されない。予測の結果を評価する方法については、対照物質の構成要素データを取得する方法についての記載を準用できる。
(C)本発明の第3の態様
 以下、本発明の第3の態様について、具体的には、本発明の第3の態様に係る本発明の予測モデル製造方法および本発明の予測方法について記載する。
<1>本発明の第3の態様に係る本発明の予測モデル製造方法
 本発明の予測モデル製造方法は、試験物質について目的の香気特性への適合度を予測するモデルを製造する方法である。試験物質について目的の香気特性への適合度を予測することを、以下、単に「予測」ともいう。試験物質について目的の香気特性への適合度を予測するモデルを、以下、単に「予測モデル」ともいう。
<1-1>予測モデル
 予測モデルは、試験物質について目的の香気特性への適合度を予測するモデルである。すなわち、予測モデルは、予測に用いることができる。予測モデルは、具体的には、本発明の予測方法に記載の態様で予測に用いることができる。
 予測モデルは、回帰式を含んでいてよい。回帰式は、予測の指標となる結論を出力するものであれば、特に制限されない。予測は、試験物質の試験嗅覚受容体活性化データに基づいて実施することができる。試験物質の試験嗅覚受容体活性化データを、以下、単に「試験嗅覚受容体活性化データ」ともいう。すなわち、回帰式は、試験嗅覚受容体活性化データに基づいて(言い換えると、試験嗅覚受容体活性化データを変数として)、予測の指標となる結論を出力するものであってよい。予測の指標となる結論としては、試験物質における目的の香気特性への適合度の予測値が挙げられる。すなわち、回帰式は、例えば、試験嗅覚受容体活性化データに基づいて、試験物質における目的の香気特性への適合度の予測値を出力するものであってよい。回帰式は、例えば、線形回帰式であってよい。
<1-2>目的の香気特性への適合度
 「目的の香気特性」とは、適合度の予測の対象となる香気特性を意味する。
 香気および香気特性については、本発明の第1の態様において記載した通りである。
 「香気特性への適合度」とは、対象の香気特性に対する質的な近さを意味する。すなわち、「香気特性への適合度が高い」とは、対象の香気そのものに近い香気を呈する性質を有することを意味する。例えば、「香気特性「STARWBERRY」への適合度が高い」とは、STARWBERRYそのものに近い香気を呈する性質を有することを意味する。「香気特性への適合度が高い」ことを、「香気特性への高い適合度を有する」ともいう。香気特性への適合度としては、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の基準に従って算出されるpercentage of applicability値が挙げられる。percentage of applicability値は、具体的には、複数名の専門パネルが対象の物質における対象の香気の強度を6段階(0~5点:0, Absent;1, Slightly;3, Moderately;5, Extremely)で評価し、「1以上のスコアを付けた専門パネルの比率(%)」と「全専門パネルのスコアの平均値÷5」の相乗平均を算出することで、0~100のスコアとして取得することができる。
 香気は、1種の香気であってもよく、2種またはそれ以上の香気の組み合わせであってもよい。すなわち、「香気特性への適合度」とは、いずれか1種の香気特性への適合度を意味してもよく、2種またはそれ以上の香気特性それぞれへの適合度を意味してもよい。
<1-3>試験物質
 「試験物質」とは、目的の香気特性への適合度を予測する対象となる物質を意味する。また、「試験物質」とは、言い換えると、目的の香気特性への適合度が高い物質をスクリーニングする方法においては、目的の香気特性への適合度が高い物質の候補として用いられる物質を意味する。試験物質は、その試験嗅覚受容体活性化データが利用できるものであれば、特に制限されない。
 「試験物質の試験嗅覚受容体活性化データ」とは、試験物質による試験嗅覚受容体の活性化に関するデータを意味する。「試験物質による試験嗅覚受容体の活性化」は、「試験物質に対する試験嗅覚受容体の応答」と代替可能に用いられてよい。試験嗅覚受容体活性化データとしては、試験物質による試験嗅覚受容体の活性化の有無を示すデータや試験物質による試験嗅覚受容体の活性化の程度を示すデータが挙げられる。試験嗅覚受容体活性化データとしては、特に、試験物質による試験嗅覚受容体の活性化の程度を示すデータが挙げられる。「試験物質による試験嗅覚受容体の活性化の程度」とは、試験物質が試験嗅覚受容体を活性化する強度を意味してよい。試験嗅覚受容体活性化データは、具体的には、回帰式に変数として代入して用いられる。
 「試験嗅覚受容体」とは、回帰式で用いられる嗅覚受容体を意味する。「嗅覚受容体が回帰式で用いられる」とは、当該嗅覚受容体についての嗅覚受容体活性化データ(すなわち、試験物質による当該嗅覚受容体の活性化に関するデータ)が回帰式に変数として代入して用いられることを意味してよい。試験嗅覚受容体としては、以下の嗅覚受容体が挙げられる。試験嗅覚受容体は、1種の嗅覚受容体であってもよく、2種またはそれ以上の嗅覚受容体の組み合わせであってもよい。
 嗅覚受容体およびそれをコードする遺伝子(嗅覚受容体遺伝子)については、本発明の第1の態様において記載した通りである。
 試験嗅覚受容体活性化データは、公知であってもよく、そうでなくてもよい。試験嗅覚受容体活性化データが公知でない場合は、予測の実施前に、適宜、試験嗅覚受容体活性化データを取得すればよい。試験嗅覚受容体活性化データを取得する方法は、特に制限されない。試験嗅覚受容体活性化データは、例えば、物質による嗅覚受容体の活性化の有無または程度を同定する公知の方法により取得することができる。試験嗅覚受容体活性化データは、具体的には、例えば、試験嗅覚受容体と試験物質とを接触させ、試験物質との接触による試験嗅覚受容体の活性化の有無または程度を測定することにより、取得することができる。試験嗅覚受容体と試験物質との接触およびそれによる試験嗅覚受容体の活性化の有無または程度の測定は、例えば、嗅覚受容体の応答を指標とした目的の香気を呈する物質のスクリーニング方法(特開2019-037197等)を参照して実施することができる。試験嗅覚受容体は、例えば、動物細胞等の細胞に担持して利用してよい。試験嗅覚受容体の活性化は、例えば、細胞内カルシウム量または細胞内cAMP量の増大を指標として測定することができる。細胞内cAMP量を測定する手法としては、例えば、ELISAやレポーターアッセイが挙げられる。レポーターアッセイとしては、例えば、ルシフェラーゼアッセイが挙げられる。レポーターアッセイによれば、cAMP量に依存して発現するように構成されたレポーター遺伝子(ルシフェラーゼ遺伝子等)を利用して細胞内cAMP量を測定することができる。細胞内カルシウム量を測定する手法としては、例えば、カルシウムイメージングが挙げられる。
 試験嗅覚受容体と試験物質との接触およびそれによる試験嗅覚受容体の活性化の有無または程度の測定は、具体的には、例えば、以下の手順で実施できる。
 すなわち、試験物質による試験嗅覚受容体の活性化の有無または程度は、試験嗅覚受容体と試験物質を接触させ、当該接触を実施した際の(すなわち試験嗅覚受容体と試験物質を接触させる条件における)試験嗅覚受容体の活性化の程度(活性化の程度D1)を指標として決定することができる。試験嗅覚受容体と接触させる試験物質の濃度は、例えば、試験嗅覚受容体の種類や試験物質の種類等の諸条件に応じて適宜設定できる。試験嗅覚受容体と接触させる試験物質の濃度は、例えば、3~1000 μMであってよい。試験嗅覚受容体と接触させる試験物質の濃度は、典型的には、300 μMであってよい。また、例えば、300 μMで細胞毒性を示す試験物質については、試験嗅覚受容体と接触させる試験物質の濃度は、3 μM、10 μM、30 μM、または100 μMであってもよい。
 試験物質による試験嗅覚受容体の活性化の有無または程度は、具体的には、活性化の程度D1と対照条件における試験嗅覚受容体の活性化の程度(活性化の程度D2)とを比較することにより決定することができる。対照条件としては、試験嗅覚受容体と試験物質を接触させない条件が挙げられる。
 活性化の程度D1およびD2は、いずれも、試験嗅覚受容体の活性化の指標となるパラメータを反映するデータとして取得し、利用することができる。試験嗅覚受容体の活性化の指標となるパラメータとしては、細胞内カルシウム量や細胞内cAMP量が挙げられる。細胞内cAMP量を反映するデータとしては、ルシフェラーゼアッセイの場合、発光強度が挙げられる。試験嗅覚受容体の活性化の指標となるパラメータを反映するデータは、そのまま、あるいは適宜補正等の加工に供してから、利用することができる。
 活性化の程度D1が高い場合に、試験物質により試験嗅覚受容体が活性化されたと判断してよい。例えば、活性化の程度D2に対する活性化の程度D1の比率(すなわち、D1/D2)が、1.5以上、2以上、3以上、5以上、10以上、20以上、50以上、または100以上である場合に、試験物質により試験嗅覚受容体が活性化されたと判断してよい。活性化の程度D2に対する活性化の程度D1の比率としては、実施例に記載のnormalized response値が挙げられる。
 また、活性化の程度D1と活性化の程度D2との比較結果を指標として、試験物質による試験嗅覚受容体の活性化の程度を決定することができる。例えば、活性化の程度D2に対する活性化の程度D1の比率(すなわち、D1/D2)を、試験物質による試験嗅覚受容体の活性化の程度とみなすことができる。活性化の程度D2に対する活性化の程度D1の比率としては、実施例に記載のnormalized response値が挙げられる。
 試験物質は、公知物質であってもよく、新規物質であってもよい。試験物質は、天然物であってもよく、人工物であってもよい。試験物質は、例えば、コンビナトリアルケミストリー技術を用いて作製された化合物ライブラリーであってもよい。試験物質としては、例えば、アルコール、ケトン、アルデヒド、エーテル、エステル、炭化水素、糖、有機酸、核酸、アミノ酸、ペプチド、その他の有機または無機の各種成分が挙げられる。また、試験物質としては、特に、既存の食品添加物が挙げられる。「既存の食品添加物」とは、食品添加物としての使用が既に認められている物質を意味する。試験物質としては、1種の試験物質を用いてもよく、2種またはそれ以上の試験物質を組み合わせて用いてもよい。試験物質は、例えば、既存の食品添加物等の、上記例示したような物質を含むように選択されてよい。すなわち、試験物質としては、例えば、1種の既存の食品添加物を用いてもよく、2種またはそれ以上の食品添加物を組み合わせて用いてもよく、1種またはそれ以上の食品添加物と1種またはそれ以上の他の物質とを組み合わせて用いてもよい。なお、「2種またはそれ以上の試験物質を組み合わせて用いる」とは、2種またはそれ以上の試験物質についてそれぞれ目的の香気特性への適合度を予測することを意味する。
 一態様において、試験物質は、混合物であってもよい。
 試験物質が混合物である場合、「試験物質による試験嗅覚受容体の活性化の有無または程度」とは、当該混合物全体による試験嗅覚受容体の活性化の有無または程度を意味し、当該混合物を構成する各物質による試験嗅覚受容体の活性化の有無または程度は問わない
 また、試験物質が混合物である場合、「試験物質における目的の香気特性への適合度」とは、当該混合物全体における目的の香気特性への適合度を意味し、当該混合物を構成する各物質における目的の香気特性への適合度は問わない。すなわち、例えば、試験物質が混合物である場合、「試験物質が目的の香気特性に対して高い適合度を有する」とは、当該混合物が全体として目的の香気特性に対して高い適合度を有することを意味し、当該混合物を構成する各物質が目的の香気特性に対して高い適合度を有するかは問わない。
<1-4>回帰式の生成
 回帰式は、機械学習により生成することができる。すなわち、本発明の予測モデル製造方法は、機械学習により回帰式を生成する工程を含んでいてよい。同工程を、「回帰式生成工程」ともいう。
 機械学習の条件は、所望の精度で予測が実施できる回帰式が得られる限り、特に制限されない。
 機械学習は、対照物質の香気特性データおよび対照嗅覚受容体活性化データを含むデータセットを用いて実施することができる。対照物質の香気特性データを、以下、単に「香気特性データ」ともいう。対照物質の対照嗅覚受容体活性化データを、以下、単に「対照嗅覚受容体活性化データ」ともいう。
 機械学習は、例えば、香気特性データを目的変数とし、かつ、対照嗅覚受容体活性化データを説明変数として、実施することができる。
 機械学習の方法は、回帰式を生成できるものであれば、特に制限されない。機械学習の方法としては、回帰分析が挙げられる。回帰分析としては、単回帰分析や重回帰分析が挙げられる。回帰分析としては、特に、重回帰分析が挙げられる。線形回帰式を生成できる回帰分析としては、線形回帰分析が挙げられる。線形回帰分析としては、線形単回帰分析や線形重回帰分析が挙げられる。線形回帰分析としては、特に、線形重回帰分析が挙げられる。
 機械学習は、例えば、アンサンブル学習により実施してもよい。アンサンブル学習としては、バギングやブースティングが挙げられる。機械学習をアンサンブル学習により実施する場合、予測モデルに含まれる回帰式は、アンサンブル学習後の回帰式であってよい。すなわち、例えば、バギングを実施する場合、予測モデルは、バギングにより得られた複数個の回帰式を含んでいてよい。この場合、予測工程において、複数個の回帰式を併用することができる。すなわち、バギングによれば、複数個の回帰式を弱学習器として生成することができ、それら複数個の弱学習器の組み合わせを強学習器として使用することができる。また、例えば、ブースティングを実施する場合、予測モデルは、ブースティングにより学習レベルが向上した回帰式を含んでいてよい。すなわち、ブースティングによれば、弱学習器として生成した回帰式を元に強学習器としての回帰式を生成し使用することができる。
 「対照物質」とは、目的の香気特性への適合度の指標として回帰式の生成に用いることができる物質を意味する。対照物質は、その香気特性データおよび対照嗅覚受容体活性化データが利用できるものであれば、特に制限されない。
 「対照物質の香気特性データ」とは、対照物質における目的の香気特性への適合度を示すデータを意味する。対照物質における目的の香気特性への適合度を示すデータとしては、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の基準に従って算出されるpercentage of applicability値が挙げられる。
 「対照物質の対照嗅覚受容体活性化データ」とは、対照物質による対照嗅覚受容体の活性化についてのデータを意味する。対照嗅覚受容体活性化データとしては、対照物質による対照嗅覚受容体の活性化の有無を示すデータや対照物質による対照嗅覚受容体の活性化の程度を示すデータが挙げられる。対照嗅覚受容体活性化データとしては、特に、対照物質による対照嗅覚受容体の活性化の程度を示すデータが挙げられる。
 「対照嗅覚受容体」とは、回帰式の生成に用いられる嗅覚受容体を意味する。「嗅覚受容体が回帰式の生成に用いられる」とは、当該嗅覚受容体についての嗅覚受容体活性化データ(すなわち、対照物質による当該嗅覚受容体の活性化に関するデータ)が回帰式の生成に用いられることを意味してよい。対照嗅覚受容体としては、上述した嗅覚受容体が挙げられる。すなわち、対照嗅覚受容体は、上述した嗅覚受容体を含んでいてよい。例えば、対照嗅覚受容体の総数の50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上が上述した嗅覚受容体から選択されてもよい。対照嗅覚受容体としては、試験嗅覚受容体を含む2種またはそれ以上の嗅覚受容体の組み合わせが用いられる。対照嗅覚受容体は、試験嗅覚受容体からなるものであってもよく、試験嗅覚受容体に加えて他の嗅覚受容体を含んでいてもよい。言い換えると、対照嗅覚受容体の一部または全部が、試験嗅覚受容体として選択される。すなわち、対照嗅覚受容体の内、回帰式で用いられる嗅覚受容体が、試験嗅覚受容体として選択される。言い換えると、対照嗅覚受容体の一部または全部についての対照嗅覚受容体活性化データを説明変数として機械学習を実施してもよい。すなわち、「対照嗅覚受容体活性化データを説明変数として機械学習が実施される」とは、対照嗅覚受容体の一部または全部についての対照嗅覚受容体活性化データを説明変数として機械学習が実施されることを意味してよい。例えば、対照嗅覚受容体の内、香気特性データおよび対照嗅覚受容体活性化データの相関係数が高い嗅覚受容体を、試験嗅覚受容体として選択してもよい。言い換えると、対照嗅覚受容体の内、香気特性データおよび対照嗅覚受容体活性化データの相関係数が高い嗅覚受容体についての対照嗅覚受容体活性化データを説明変数として機械学習を実施してもよい。「香気特性データおよび対照嗅覚受容体活性化データの相関係数が高い」とは、例えば、香気特性データおよび対照嗅覚受容体活性化データの相関係数の絶対値が、0.1超、0.15超、0.2超、0.25超、または0.3超であることを意味してよい。香気特性データおよび対照嗅覚受容体活性化データの相関係数が高い嗅覚受容体は、香気特性データおよび対照嗅覚受容体活性化データの相関係数を算出することにより、同定できる。すなわち、回帰式生成工程は、例えば、機械学習の前に、香気特性データおよび対照嗅覚受容体活性化データの相関係数を算出する工程を含んでいてよい。
 対照嗅覚受容体の数は、所望の精度で予測が実施できる回帰式が得られる限り、特に制限されない。対照嗅覚受容体の数は、例えば、目的の香気特性の種類や機械学習の方法等の諸条件に応じて適宜設定できる。
 対照嗅覚受容体の数は、例えば、50以上、70以上、100以上、150以上、200以上、300以上、400以上、または500以上であってもよく、2000以下、1500以下、1000以下、500以下、400以下、300以下、200以下、150以下、または100以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照嗅覚受容体の数は、具体的には、例えば、50~2000、100~1000、または300~500であってもよい。
 回帰式で用いられる対照嗅覚受容体の数(すなわち、試験嗅覚受容体の数)は、例えば、10以上、15以上、20以上、25以上、30以上、40以上、50以上、70以上、100以上、150以上、200以上、300以上、400以上、または500以上であってもよく、2000以下、1500以下、1000以下、500以下、400以下、300以下、200以下、150以下、100以下、70以下、50以下、40以下、30以下、25以下、または20以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照嗅覚受容体の数は、具体的には、例えば、10~1000、15~500、または20~200であってもよい。
 香気特性データは、公知であってもよく、そうでなくてもよい。香気特性データが公知でない場合は、回帰式の生成前に、適宜、香気特性データを取得すればよい。香気特性データを取得する方法は、特に制限されない。香気特性データは、例えば、物質における香気特性への適合度を同定する公知の方法により同定することができる。対照物質における目的の香気特性への適合度は、例えば、専門パネルによる官能評価により、同定することができる。具体的には、例えば、目的の香気特性へのpercentage of applicability値は、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の基準に従って算出することができる。
 対照嗅覚受容体活性化データは、公知であってもよく、そうでなくてもよい。対照嗅覚受容体活性化データが公知でない場合は、回帰式の生成前に、適宜、対照嗅覚受容体活性化データを取得すればよい。対照嗅覚受容体活性化データを取得する方法は、特に制限されない。対照嗅覚受容体活性化データは、例えば、物質による嗅覚受容体の活性化の有無または程度を同定する公知の方法により同定することができる。対照嗅覚受容体活性化データは、具体的には、例えば、対照嗅覚受容体と対照物質とを接触させ、対照物質との接触による対照嗅覚受容体の活性化の有無または程度を測定することにより、取得することができる。対照嗅覚受容体と対照物質との接触およびそれによる対照嗅覚受容体の活性化の有無または程度の測定については、上述した試験嗅覚受容体と試験物質との接触およびそれによる試験嗅覚受容体の活性化の有無または程度の測定についての記載を準用できる。
 対照物質としては、2種またはそれ以上の物質の組み合わせが用いられる。
 対照物質は、公知物質であってもよく、新規物質であってもよい。対照物質は、天然物であってもよく、人工物であってもよい。対照物質は、例えば、コンビナトリアルケミストリー技術を用いて作製された化合物ライブラリーであってもよい。対照物質としては、例えば、アルコール、ケトン、アルデヒド、エーテル、エステル、炭化水素、糖、有機酸、核酸、アミノ酸、ペプチド、その他の有機または無機の各種成分が挙げられる。対照物質として、具体的には、目的の香気特性への適合度が公知である物質が挙げられる。目的の香気特性への適合度が公知である物質としては、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の物質が挙げられる。すなわち、対照物質は、Atlas of odor character profilesに記載の物質を含んでいてよい。例えば、対照物質の総数の50%以上、60%以上、70%以上、80%以上、90%以上、または95%以上がAtlas of odor character profilesに記載の物質から選択されてもよい。
 一態様において、対照物質は、混合物であってもよい。
 対照物質が混合物である場合、「対照物質による対照嗅覚受容体の活性化の有無または程度」とは、当該混合物全体による対照嗅覚受容体の活性化の有無または程度を意味し、当該混合物を構成する各物質による対照嗅覚受容体の活性化の有無または程度は問わない
 また、対照物質が混合物である場合、「対照物質における目的の香気特性への適合度」とは、当該混合物全体における目的の香気特性への適合度を意味し、当該混合物を構成する各物質における目的の香気特性への適合度は問わない。すなわち、例えば、対照物質が混合物である場合、「対照物質が目的の香気特性に対して高い適合度を有する」とは、当該混合物が全体として目的の香気特性に対して高い適合度を有することを意味し、当該混合物を構成する各物質が目的の香気特性に対して高い適合度を有するかは問わない。
 対照物質の数は、所望の精度で予測が実施できる回帰式が得られる限り、特に制限されない。対照物質の数は、例えば、目的の香気特性の種類や機械学習の方法等の諸条件に応じて適宜設定できる。
 対照物質の数は、例えば、30以上、40以上、50以上、70以上、100以上、150以上、200以上、300以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上、1500以上、2000以上、3000以上、5000以上、10000以上、20000以上、50000以上、または100000以上であってもよく、1000000以下、500000以下、200000以下、100000以下、50000以下、20000以下、10000以下、5000以下、3000以下、2000以下、1500以下、1000以下、500以下、400以下、300以下、200以下、150以下、100以下、70以下、または50以下であってもよく、それらの矛盾しない組み合わせであってもよい。対照物質の数は、具体的には、例えば、30~1000000、100~1000000、200~500000、500~100000、または1000~20000であってもよい。対照物質の数は、具体的には、例えば、30~100、100~200、200~500、500~1000、1000~2000、2000~5000、5000~10000、10000~20000、20000~50000、50000~100000、または100000~200000であってもよい。対照物質の数は、具体的には、例えば、30~1000、50~500、または100~200であってもよい。
<2>本発明の第3の態様に係る本発明の予測方法
 本発明の予測方法は、試験物質について目的の香気特性への適合度を予測する方法である。予測は、本発明の予測モデルを用いて実施することができる。予測は、具体的には、試験物質の試験嗅覚受容体活性化データと本発明の予測モデルとに基づいて実施することができる。すなわち、本発明の予測方法は、試験物質の試験嗅覚受容体活性化データと本発明の予測モデルとに基づいて試験物質について目的の香気特性への適合度を予測する工程を含んでいてよい。同工程を、「予測工程」ともいう。
 また、試験物質について目的の香気特性への適合度を予測することにより、目的の香気特性への適合度が高い物質をスクリーニングすることができる。すなわち、目的の香気特性への適合度が高いと予測された試験物質を目香気特性への適合度が高い物質として選抜することができ、以て香気特性への適合度が高い物質をスクリーニングすることができる。すなわち、本発明の予測方法の一態様は、目的の香気特性への適合度が高い物質をスクリーニングする方法であってもよい。すなわち、本発明の予測方法は、さらに、目的の香気特性への適合度が高いと予測された試験物質を目的の香気特性への適合度が高い物質として選抜する工程を含んでいてもよい。すなわち、スクリーニング方法は、試験物質の試験嗅覚受容体活性化データと予測モデルとに基づいて試験物質について目的の香気特性への適合度を予測する工程、および目的の香気特性への適合度が高いと予測された試験物質を目的の香気特性への適合度が高い物質として選抜する工程を含む、目的の香気特性への適合度が高い物質をスクリーニングする方法であってよい。また、言い換えると、スクリーニング方法は、本発明の予測方法により試験物質について目的の香気特性への適合度を予測する工程、および目的の香気特性への適合度が高いと予測された試験物質を目的の香気特性への適合度が高い物質として選抜する工程を含む、目的の香気特性への適合度が高い物質をスクリーニングする方法であってもよい。
 本発明の予測方法は、予測工程の前に、さらに、本発明の予測モデル製造方法により予測モデルを製造する工程を含んでいてもよい。
 試験物質の試験嗅覚受容体活性化データに予測モデルに含まれる回帰式を適用することにより、予測の指標となる結論、具体的には、試験物質における目的の香気特性への適合度の予測値を出力することができる。具体的には、試験物質の試験嗅覚受容体活性化データに予測モデルに含まれる回帰式を適用することにより、試験物質における目的の香気特性への適合度の予測値を出力することができる。また、バギングを実施する場合、複数の回帰式による出力結果を総合評価してよい。バギングを実施する場合、「試験物質における目的の香気特性への適合度の予測値」とは、例えば、複数の回帰式により出力された試験物質における目的の香気特性への適合度の予測値の平均値を意味してよい。
 試験物質における目的の香気特性への適合度の予測値が高い場合に、試験物質が目的の香気特性への高い適合度を有すると予測してよい。「目的の香気特性への適合度の予測値が高い」とは、例えば、目的の香気特性へのpercentage of applicability値が4以上、7以上、10以上、15以上、または20以上であることを意味してよい。
 本発明の予測方法は、さらに、予測の結果を評価する工程を含んでいてもよい。すなわち、試験物質における目的の香気特性への適合度を評価することにより、当該目的物質が実際に目的の香気特性への高い適合度を有するかを確認することができる。具体的には、例えば、目的の香気特性への高い適合度を有すると予測された試験物質の目的の香気特性への適合度を評価することにより、当該目的物質が実際に目的の香気特性への高い適合度を有するかを確認することができる。すなわち、予測の結果を評価する工程は、例えば、目的の香気特性への高い適合度を有すると予測された試験物質について目的の香気特性への適合度を確認する工程であってよい。予測の結果を評価する方法は、特に制限されない。予測の結果を評価する方法については、対照物質の香気特性データを取得する方法についての記載を準用できる。
<実施例A>
 以下、本発明の第1の態様に係る非限定的な実施例を参照して、本発明をさらに具体的に説明する。なお、以下の実施例において使用する物質は「試験物質」と表記するが、それらの物質は本発明の予測方法および本発明の設計方法においては対照物質として使用できる。
<1>ヒト嗅覚受容体発現細胞の作製
<1-1>ヒト嗅覚受容体の発現ベクターの作製
 嗅覚受容体として、ヒト嗅覚受容体の内の352種(OR1A1、OR1A2、OR1B1、OR1C1、OR1D2、OR1D5、OR1E1、OR1F1、OR1F12、OR1G1、OR1I1、OR1J1、OR1J2、OR1J4、OR1K1、OR1L1、OR1L3、OR1L4、OR1L8、OR1M1、OR1N1、OR1N2、OR1Q1、OR1R1P、OR1S1、OR2A1、OR2A2、OR2A4、OR2A5、OR2A12、OR2A14、OR2A25、OR2AE1、OR2AG1、OR2AG2、OR2AJ1P、OR2AK2、OR2AP1、OR2AT4、OR2B2、OR2B3、OR2B6、OR2B11、OR2C1、OR2C3、OR2D2、OR2D3、OR2F1、OR2G2、OR2G3、OR2G6、OR2H1、OR2H2、OR2J2、OR2J3、OR2K2、OR2L2、OR2L8、OR2L13、OR2M2、OR2M4、OR2M7、OR2S2、OR2T1、OR2T2、OR2T5、OR2T6、OR2T8、OR2T10、OR2T11、OR2T27、OR2T34、OR2V2、OR2W1、OR2W3、OR2Y1、OR2Z1、OR3A1、OR3A2、OR3A3、OR3A4、OR4A5、OR4A15、OR4A16、OR4A47、OR4B1、OR4C3、OR4C5、OR4C6、OR4C11、OR4C12、OR4C13、OR4C15、OR4C16、OR4C46、OR4D1、OR4D2、OR4D5、OR4D6、OR4D9、OR4D10、OR4D11、OR4E2、OR4F3、OR4F5、OR4F6、OR4F14P、OR4F15、OR4G11P、OR4H12P、OR4K1、OR4K2、OR4K5、OR4K13、OR4K14、OR4K15、OR4K17、OR4L1、OR4M1、OR4N2、OR4N4、OR4N5、OR4P4、OR4Q3、OR4S1、OR4S2、OR4X1、OR4X2、OR5A1、OR5A2、OR5AC2、OR5AK2、OR5AK3P、OR5AN1、OR5AP2、OR5AR1、OR5AS1、OR5AU1、OR5B2、OR5B3、OR5B12、OR5B17、OR5B21、OR5C1、OR5D13、OR5D14、OR5D16、OR5D18、OR5F1、OR5H1、OR5H2、OR5H6、OR5H14、OR5I1、OR5J2、OR5K1、OR5K3、OR5K4、OR5L2、OR5M3、OR5M8、OR5M9、OR5M10、OR5M11、OR5P3、OR5R1、OR5T1、OR5T2、OR5T3、OR5V1、OR5W2、OR6A2、OR6B1、OR6B2、OR6C1、OR6C2、OR6C3、OR6C4、OR6C6、OR6C65、OR6C66P、OR6C68、OR6C70、OR6C74、OR6C75、OR6C76、OR6F1、OR6J1、OR6K2、OR6K3、OR6K6、OR6M1、OR6N1、OR6N2、OR6P1、OR6Q1、OR6S1、OR6T1、OR6V1、OR6X1、OR6Y1、OR7A3P、OR7A5、OR7A10、OR7A17、OR7C1、OR7C2、OR7D2、OR7D4、OR7E24、OR7G1、OR7G2、OR7G3、OR8A1、OR8B3、OR8B4、OR8B8、OR8B12、OR8D1、OR8D2、OR8D4、OR8G2、OR8G5、OR8H3、OR8I2、OR8J1、OR8J3、OR8K1、OR8K3、OR8K5、OR8S1、OR8U1、OR9A4、OR9G1、OR9G4、OR9I1、OR9K2、OR9Q1、OR9Q2、OR10A3、OR10A4、OR10A5、OR10A6、OR10A7、OR10AD1、OR10AG1、OR10C1、OR10D3、OR10D4P、OR10G2、OR10G3、OR10G4、OR10G6、OR10G7、OR10G9、OR10H2、OR10H4、OR10J1、OR10J3、OR10J5、OR10K1、OR10K2、OR10P1、OR10Q1、OR10R2、OR10S1、OR10T2、OR10V1、OR10W1、OR10X1、OR10Z1、OR11A1、OR11G2、OR11H4、OR11H6、OR11H12、OR11L1、OR12D2、OR12D3、OR13A1、OR13C2、OR13C3、OR13C4、OR13C8、OR13D1、OR13F1、OR13G1、OR13H1、OR13J1、OR14A2、OR14A16、OR14C36、OR14I1、OR14J1、OR14K1、OR14L1P、OR51A1P、OR51A4、OR51A7、OR51B2、OR51B4、OR51B5、OR51B6、OR51D1、OR51E1、OR51E2、OR51F1、OR51F2、OR51F5P、OR51G1、OR51G2、OR51H1、OR51I1、OR51I2、OR51L1、OR51M1、OR51Q1、OR51S1、OR51T1、OR51V1、OR52A1、OR52A4、OR52A5、OR52B2、OR52B4、OR52B6、OR52D1、OR52E2、OR52E4、OR52E5、OR52E8、OR52H1、OR52I2、OR52J3、OR52K2、OR52L2P、OR52M1、OR52N1、OR52N2、OR52N4、OR52N5、OR52P2P、OR52R1、OR52W1、OR52Z1P、OR56A1、OR56A3、OR56A4、OR56A5、OR56B1、OR56B2P、OR56B4を採用した。
 ヒト嗅覚受容体遺伝子352種を、TrueClone cDNA Cloneコレクション(OriGene)から購入した。GenBankに登録されている配列情報を基にデザインしたプライマーを用い、購入したヒト嗅覚受容体遺伝子を鋳型としたPCR法により、ヒト嗅覚受容体遺伝子352種のサブクローニング用断片をそれぞれ増幅した。増幅した各遺伝子のサブクローニング用断片を、EcoRIおよびXhoIサイトを利用して、Rho-pME18Sベクター(K. Kajiya et al., Journal of Neuroscience 15 August 2001, 21 (16) 6018-6025)のRhoタグ配列の下流にサブクローニングし、ヒト嗅覚受容体の発現ベクター352種を得た。
<1-2>嗅覚受容体発現細胞の作製
 嗅覚受容体352種をそれぞれ発現させたHEK293T細胞を以下の手順で作製した。表1に示す遺伝子混合液及び表2に示すトランスフェクション試薬混合液を調整し、室温で5分間静置した。pcDNA3.1-microbat RTP1sはコウモリRTP1sの発現ベクター、pcDNA3.1-GolfはヒトGolfの発現ベクター、pcDNA3.1-Ric8BはラットRic8Bの発現ベクターである(特開2019-037197)。遺伝子混合液とトランスフェクション試薬混合液を混合し、poly-D-lysine coat 384 well プレートの各ウェルに12.5 μLずつ分注し、クリーンベンチ内で15分静置した。前日に10 cmシャーレに播種したHEK293T細胞(2.5×10細胞/10 cmシャーレ)を1.2×105細胞/mLに調製し、384 well プレートの各ウェルに25 μLずつ播種し、37℃、5% CO2を保持したインキュベータ内で一晩培養した。このようにして、表1に示す発現ベクターがトランスフェクションされ、それら発現ベクターにコードされる遺伝子を適宜発現するHEK293T細胞の培養物352種を得た。
Figure JPOXMLDOC01-appb-T000001
Figure JPOXMLDOC01-appb-T000002
<2>ヒト嗅覚受容体活性データベースの作製
<2-1>ルシフェラーゼアッセイ
 嗅覚受容体発現細胞を利用して、試験物質に対する嗅覚受容体の応答を測定した。
 HEK293T細胞に発現させた嗅覚受容体352種は、Golfと共役してアデニル酸シクラーゼを活性化し、以て細胞内cAMP量を増加させる。本実施例において、試験物質に対する嗅覚受容体の応答の測定には、細胞内cAMP量の増加をホタルルシフェラーゼ由来の発光値の増加としてモニターするルシフェラーゼレポータージーンアッセイを用いた。「ルシフェラーゼレポータージーンアッセイ」を「ルシフェラーゼアッセイ」ともいう。ホタルルシフェラーゼは、pGL4.29[luc2P/CRE/Hygro] Vectorに搭載されたホタルルシフェラーゼ遺伝子から、細胞内cAMP量依存的に発現する。併せて、ウミシイタケルシフェラーゼ由来の発光値を、各ウェルの遺伝子導入効率や細胞数の誤差を補正するための内部標準として用いた。ウミシイタケルシフェラーゼは、pGL4.74[hRluc/TK] Vectorに搭載されたウミシイタケルシフェラーゼ遺伝子から、TKプロモーターの制御下で構成的に発現する。
 試験物質として、The Good Scents Company(http://www.thegoodscentscompany.com/)に記載の物質から941種の物質を選択した。上記<1-2>で得られた培養物352種から培地を取り除き、それぞれに941種の試験物質溶液を15 μL添加し、352×941種の反応液を得た。各試験物質溶液は、各試験物質をCD293(Life Technologies, Inc.)に溶解して調製した。試験物質溶液中の試験物質濃度は、原則として300 μMとした。ただし、300 μMで細胞毒性を示した試験物質については、試験物質溶液中の試験物質濃度を3 μM、10 μM、30 μM、または100 μMに設定した。また、極一部の試験物質については、試験物質溶液中の試験物質濃度を1000 μMに設定した。37℃、5% CO2を保持したインキュベータ内に反応液を配置して細胞を4時間培養し、ホタルルシフェラーゼ遺伝子を細胞内で十分に発現させた。細胞内のホタルルシフェラーゼ由来の発光値を測定し、「Luc値」とした。また、細胞内のウミシイタケルシフェラーゼ由来の発光値を測定し、「hRLuc値」とした。各ルシフェラーゼ由来の発光値は、Dual-GloTM luciferase assay system(Promega)を用い、製品の操作マニュアルに従って測定した。
<2-2>嗅覚受容体活性の算出
 試験物質刺激により誘導されたホタルルシフェラーゼ由来の発光値(Luc値)を、同一ウェルのウミシイタケルシフェラーゼ由来の発光値(hRluc値)で割り、「Luc/hRluc値」とした。試験物質刺激を行った細胞でのLuc/hRluc値を、試験物質刺激を行わない細胞でのLuc/hRluc値で割り、「fold increase」とした。さらに、嗅覚受容体の発現ベクターを導入した細胞でのfold increaseを、空ベクターRho-pME18Sを導入した細胞でのfold increaseで割り、「normalized response」とした。normalized responseの常用対数を、試験物質に対する嗅覚受容体の応答強度の定量指標である「嗅覚受容体活性」とした。以降、嗅覚受容体活性が-1、0、1であると表現する際はnormalized responseの常用対数が-1、0、1であること、すなわちnormalized responseが0.1、1、10であることを指し、各々、試験物質刺激に対する嗅覚受容体導入細胞の応答が、試験物質刺激に対する空ベクター導入細胞の応答の1/10倍、1倍、10倍の強度であることを意味する。なお、簡便のため、試験物質溶液中の試験物質濃度の違いが嗅覚受容体活性に与え得る影響は無視した。
<2-3>試験物質の分子構造情報
 試験物質のisomeric SMILESをPubChem(https://pubchem.ncbi.nlm.nih.gov/)から取得した。オープンソースケモインフォマティクスソフトRDKit(http://www.rdkit.org)を用いて、isomeric SMILESを正準化した後に、3次元構造データに変換し、SDF形式で保存した。
<2-4>試験物質の香気特性情報
 試験物質の香気特性情報としては、The Good Scents Company(http://www.thegoodscentscompany.com)のOrganoleptic PropertiesのOdor Descriptionに記載されている記述子を引用した。
<3>多重立体配座を考慮した立体化学構造の類似度のスコア化
<3-1>香気成分の多重立体配座の発生
 上記<2-3>で得たSDFデータから統合計算化学システムMOE(CCG社)を用い、pH 7.0の条件のもと構造データへの水素付加及び最適化を実施した。立体配座生成ソフトOMEGA(OpenEye社)を用い、大環状化合物はOMEGA macrocyclicにて、それ以外の化合物はOMEGA classicにて、多重立体配座を生成した。
<3-2>立体化学構造の類似度の算出
 分子表面形状類似度計算ソフトROCS(OpenEye社)を用い、上記<3-1>で発生させた全試験物質の全立体配座ペアについて、表面形状と表面化学特性に着目した類似度を計算した。試験物質間の立体化学構造類似度は、当該物質間の全立体配座ペアにおける類似度の最大値を採用した。ROCSによる類似度計算の仕様上、立体配座ペアのどちらをクエリーとするかによって算出される類似度が必ずしも一致しない。そのような場合は2つの数値の平均値を当該ペアの類似度とすることで対称行列化し、最終的に、全試験物質間の多重立体配座を考慮した立体化学構造類似度行列を得た。
<4>多重立体配座を考慮した立体化学構造類似度による分子構造表現
<4-1>多重立体配座を考慮した立体化学構造類似度を用いたクラスタ分析
 全試験物質間の多重立体配座を考慮した立体化学構造類似度行列を、各試験物質に関する多次元の立体化学構造情報特徴量ベクトルからなる行列であるとみなし、各試験物質間のEuclidean距離を算出し、Ward法による階層クラスタ分析を行った。階層クラスタ分析結果に従い、立体化学構造類似度行列を並べ替え、類似度の高さを示すヒートマップを作成した(図1)。ヒートマップの左側に、階層クラスタ分析により生成されたデンドログラム及びデンドログラムに基づいて全試験物質を9クラスタに分類した結果を色の濃淡で示した。
<4-2>多重立体配座を考慮した立体化学構造類似度行列の次元縮約による可視化
 全試験物質間の多重立体配座を考慮した立体化学構造類似度行列を、各試験物質に関する多次元の立体化学構造情報特徴量ベクトルからなる行列であるとみなし、次元縮約手法により試験物質間の立体構造類似関係を反映した可視化を行った。次元縮約手法としては、t分布型確率的近傍埋め込み法(t-SNE, Van der Maatenら、2008年、Visualizing Data Using t-SNE、Journal of Machine Learning Research 9: 2579-2605)を用い、全試験物質を3次元空間にプロットした結果を図2に示した。各点の濃淡は、上記<4-1>のクラスタリング結果の色の濃淡と同一である。この3次元マップ(以下、化学構造類似度空間と呼ぶ)においては、立体化学構造が近い化合物は近くに、立体化学構造が遠い化合物は遠くに配置される。
<4-3>立体化学構造類似度空間における嗅覚受容体活性化特性
 上記<4-2>にて作成した化学構造類似度空間における各試験物質を表す点を、上記<2-2>で算出した嗅覚受容体活性の高低で色分けしてヒートマップ化した(図3~5)。図中、各試験物質を表す点は、嗅覚受容体活性が高い程黒く、嗅覚受容体活性が低い程白く示した。図中、「Response」は、嗅覚受容体活性を示す。OR4S2活性(すなわち、嗅覚受容体OR4S2についての嗅覚受容体活性)の高低で色分けした結果を図3に、OR5K1活性(すなわち、嗅覚受容体OR5K1についての嗅覚受容体活性)の高低で色分けした結果を図4に、OR10G4活性(すなわち、嗅覚受容体OR10G4についての嗅覚受容体活性)の高低で色分けした結果を図5に示す。図3~5より、立体化学構造類似度空間において、黒い点が狭い範囲に局在すること、すなわち、各嗅覚受容体活性化特性を示す試験物質が狭い範囲に局在することが示された。よって、多重立体配座を考慮した立体化学構造類似度を指標として物質の嗅覚受容体活性化特性を予測できることが明らかとなった。
<4-4>立体化学構造類似度空間における香気特性
 上記<4-2>にて作成した化学構造類似度空間における各試験物質を表す点を、上記<2-4>で得た香気特性の有無で色分けして示した(図6~8)。図中、各試験物質を表す点は、香気特性を表す記述子の出現順位が高い程黒く、香気特性を表す記述子の出現順位が低い程白く表示した。「香気特性を表す記述子の出現順位」とは、各試験物質についての、The Good Scents Company(http://www.thegoodscentscompany.com)のOrganoleptic PropertiesのOdor Descriptionにおける香気特性を表す記述子の列挙順序を意味する。図中、「Weight」は、香気特性を表す記述子の出現順位の逆数の平方根を示し、ただし、香気特性を表す記述子が出現しない場合は0とした。香気特性「onion」の有無で色分けした結果を図6に、香気特性「nutty」の有無で色分けした結果を図7に、香気特性「phenolic」の有無で色分けした結果を図8に示す。図6~8より、立体化学構造類似度空間において、黒い点が狭い範囲に局在すること、すなわち、各香気特性を示す試験物質が狭い範囲に局在することが示された。よって、多重立体配座を考慮した立体化学構造類似度を指標として物質の香気特性を予測できることが明らかとなった。
<5>考察
 本実施例より、一見して構造式が似ていない、または最安定立体配座が似ていない香気成分同士であっても、分子表面形状および/または化学特性が共通する立体配座を有する場合、共通の嗅覚受容体を活性化し、共通の香気を呈する可能性が高いと考えられる。これは、香気成分が嗅粘液に溶け込んだ後、単結合部分を中心に回転し、多数の立体配座(多重立体配座)を取り、嗅覚受容体の活性部位をそれぞれ適切な立体配座で活性化するためであると考えられる。すなわち、多くの香気成分は、複数種類の嗅覚受容体を活性化することが報告されているが、或る香気成分が、或る嗅覚受容体の活性部位に結合する時と、別の嗅覚受容体の活性部位に結合する時とで、同一の立体配座を取る必然性は無いと考えられる。香気成分と嗅覚受容体によってコードされる多対多のコンビナトリアルコーディングの理解には、香気成分の多重立体配座の情報が重要であると考えられる。すなわち、本発明によれば、多重立体配座に関する情報を無視する既存の方法ではなし得なかった、物質における香気特性または嗅覚受容体活性化特性の有無の高精度な予測が可能になると期待される。
<6>立体化学構造類似度と既存手法の比較および混合手法の検討
 非特許文献1にて実施された官能評価結果のうち、単一物質間の匂いの類似度データを用いて、本実施例の手法と既存手法との比較を行った。併せて、両手法の混合手法の検討も行った。
<6-1>官能評価における匂い類似度
 非特許文献1の単一物質間の匂いの類似度データは83件であった。同一物質間の類似度評価結果を除くと77件となった。このうち類似度が55より大きかった9件および類似度が16未満であった8件、計17件のデータを参照した。非特許文献1における匂いの類似度評価はvisual analog scale法により行われ、類似度は0(全く似ていない)~100(非常に似ている)で表された。
<6-2>試験物質
 上記<6-1>にて絞り込んだ17件のデータで用いられた25種類の化合物を用いた。
<6-3>多重立体配座を考慮した立体化学構造の類似度の算出
 上記<6-2>の試験物質について、上記<3-1>および<3-2>と同様の方法で多重配座を考慮した立体化学構造類似度を算出した。
<6-4>分子フィンガープリント(MACCS Keys)類似度の算出
 上記<2-3>で得たSDFデータからCanvas(Schroedinger社)を用いMACCS Keys(155 bits)を生成した。試験物質間のMACCS Keysのタニモト類似度を算出し、分子フィンガープリント類似度とした。
<6-5>立体化学構造類似度と分子フィンガープリント類似度の混合
 上記<6-3>の立体化学構造類似度は0~2のレンジで、上記<6-4>の分子フィンガープリント類似度は0~1のレンジで、それぞれ算出された。そこで、立体化学構造類似度を1/2倍することで、両手法により算出された類似度のレンジを揃えた。両手法で算出された類似度を100:0、90:10、80:20、70:30、60:40、50:50、40:60、30:70、20:80、10:90、または0:100の比率で混合した加重平均を算出した。
<6-6>立体化学構造類似度と分子フィンガープリント類似度および混合手法の比較
 上記<6-1>で参照した匂いの類似度をy軸に、上記<6-5>で算出した立体化学構造類似度と分子フィンガープリント類似度の加重平均をx軸にプロットした散布図を図9に、各混合比率における匂いの類似度と加重平均の相関係数を図10に、それぞれ示す。図中、「ROCS」は立体化学構造類似度を、「MACCS」は分子フィンガープリント類似度を、それぞれ示す。各混合比率における相関係数の比較から、立体化学構造類似度と分子フィンガープリント類似度を80:20の比率で混合した手法(ROCS Ratio = 80)が、最も官能と相関することが示された(図10)。また、100:0および0:100の混合比率における相関係数の比較から、立体化学構造類似度の方が分子フィンガープリント類似度よりも官能との相関が高いことが示された(図10)。
<実施例B>
 以下、本発明の第2の態様に係る非限定的な実施例を参照して、本発明をさらに具体的に説明する。なお、以下の実施例において使用する物質は「試験物質」と表記するが、それらの物質は本発明の予測モデル製造方法および本発明の予測方法においては対照物質として使用できる。
<1>ヒト嗅覚受容体発現細胞の作製
<1-1>ヒト嗅覚受容体の発現ベクターの作製
 実施例Aの<1-1>と同一の手順で、ヒト嗅覚受容体の発現ベクター352種を得た。
<1-2>嗅覚受容体発現細胞の作製
 実施例Aの<1-2>と同一の手順で、嗅覚受容体352種をそれぞれ発現するHEK293T細胞の培養物352種を得た。
<2>ヒト嗅覚受容体活性データベースの作製
<2-1>ルシフェラーゼアッセイ
 試験物質としてThe Good Scents Company(http://www.thegoodscentscompany.com/)に記載の物質から1097種の物質を選択したこと以外は、実施例Aの<2-1>と同一の手順で、ルシフェラーゼアッセイを実施した。
<2-2>嗅覚受容体活性の算出
 実施例Aの<2-2>と同一の手順で、嗅覚受容体活性を算出した。
<2-3>香気特性情報
 試験物質の香気特性情報としては、The Good Scents Company(http://www.thegoodscentscompany.com)のOrganoleptic PropertiesのOdor Descriptionに記載されている記述子を引用した。
<3>対象とする香気特性に特徴的な嗅覚受容体活性パターンの同定
 上記<2-3>で得た香気特性を表す記述子の有無をフラグ化(有り:1、無し:0)したものを目的変数、上記<2-2>で算出した嗅覚受容体活性を説明変数として、CART(L.Breiman, J.H.Friedman, R.A.Olshen and C.J.Stone, "Classification and Regression Trees", (Chapman and Hall, CRC, 1984))により樹形モデルを構築した。
 樹形モデルは、目的変数に関して、最も良くデータを分けられる分岐条件を説明変数から順次探索していくアルゴリズムである。分析の結果は「もしAであればB」のような簡潔なルールを返し、そのルールを木構造で図示することができるため、結果の解釈がしやすいという特徴がある。分割の基準とする統計量(どれだけ「綺麗に」データが分割されているかを客観的に表す指標)にはジニ不純度を用いた。樹形モデルのノードtに対し、ノードt内のサンプル数がNt個、ノードt内のカテゴリー数がc個、ノードt内でカテゴリーiに属するサンプル数がNi個とすると、ノードtにおけるジニ不純度I(t)は以下の式で表わされる。
Figure JPOXMLDOC01-appb-M000003
 この時、特徴量fを基準として親ノードDpを2つの子ノードDleftおよびDrightに分割することで得られる情報利得IG(Dp, f)は以下の式で表わされる。ただしNp、Nleft、NrightはそれぞれノードDp、Dleft、Drightに含まれるサンプル数とする。
Figure JPOXMLDOC01-appb-M000004
 この情報利得IG(Dp, f)が最大となる特徴量fをノードDpにおける分岐条件として採択し、一定以上の情報利得が得られなくなるまで、順次この過程を繰り返す。
<3-1>香気特性「焦げ」
 The Good Scents CompanyのOrganoleptic PropertiesのOdor Descriptionに記載されている記述子にburnt又はroastedを持つ化合物をフラグ化し樹形モデルを構築することで、香気特性「焦げ」を持つ化合物に特徴的な嗅覚受容体活性パターンを同定した(図11)。樹形モデルの結果の読み方は以下の通りである(以降の実験についても同じ)。一番下に表示されている楕円をリーフ、それ以外の楕円をノードと呼ぶ。楕円の上の[ ]内の数字はノード及びリーフの識別番号である。楕円内の上下2つの数字のうち、下側は解析の対象とした全化合物数に対するそのノード又はリーフに含まれる化合物数の割合を表す。上側はそのノード又はリーフに含まれる化合物の目的変数の平均値を表す。本解析では香気特性に「焦げ」(burnt又はroastedの記述子)を持つ化合物に1、そうでない化合物に0を与えたので、図11における目的変数の平均値は香気特性に「焦げ」を持つ化合物の割合を表す。各ノードには楕円の下に分岐条件が示されている。条件を満たす化合物は左下のノード又はリーフへ、満たさない化合物は右下のノード又はリーフへ分類される。各化合物はリーフに到達するまで条件分岐を繰り返す。同定された主な嗅覚受容体活性パターンは、「OR5K1活性が4.10以上、且つOR6V1活性が0.10以上、且つOR1G1活性が0.37未満」(識別番号7)であった。すなわち、識別番号7のリーフに分類される物質は、香気特性「焦げ」を有する可能性が高いと予測できる。
<3-2>香気特性「甘い」
 The Good Scents CompanyのOrganoleptic PropertiesのOdor Descriptionに記載されている記述子にsweetを持つ化合物をフラグ化し樹形モデルを構築することで、香気特性「甘い」を持つ化合物に特徴的な嗅覚受容体活性パターンを同定した(図12)。同定された主な嗅覚受容体活性パターンは、「OR8B3活性が2.50以上、且つOR5C1活性が-0.61以上」(識別番号15)、「OR8B3活性が2.50未満、且つOR1D2活性が1.40以上、且つOR52A4活性が-0.43未満」(識別番号12)、「OR8B3活性が2.50未満、且つOR1D2活性が1.40以上、且つOR52A4活性が-0.43以上、且つOR1E1活性が-0.13未満」(識別番号11)、及び「OR8B3活性が2.50未満、且つOR1D2活性が1.40未満、且つOR4S2活性が0.92未満、且つOR2L8活性が2.90以上」(識別番号7)であった。すなわち、識別番号15、12、1または7のリーフに分類される物質は、香気特性「甘い」を有する可能性が高いと予測できる。
<3-3>香気特性「ナッツ」
 The Good Scents CompanyのOrganoleptic PropertiesのOdor Descriptionに記載されている記述子にnuttyを持つ化合物をフラグ化し樹形モデルを構築することで、香気特性「ナッツ」を持つ化合物に特徴的な嗅覚受容体活性パターンを同定した(図13)。同定された主な嗅覚受容体活性パターンは、「OR5K1活性が3.80以上、且つOR1G1活性が0.13未満」(識別番号7)、及び「OR5K1活性が3.80以上、且つOR1G1活性が0.13以上、且つOR2AK2活性が0.82以上」(識別番号6)であった。すなわち、識別番号7または6のリーフに分類される物質は、香気特性「ナッツ」を有する可能性が高いと予測できる。
<4>対象とする分子構造に特徴的な嗅覚受容体活性パターンの同定
 対象とする分子構造の有無をフラグ化(有り:1、無し:0)したものを目的変数、嗅覚受容体活性を説明変数として、上記<3>に記載の手順でCARTにより樹形モデルを構築した。
<4-1>ピラジン骨格
 ピラジン骨格を持つ化合物をフラグ化し樹形モデルを構築することで、ピラジン骨格を持つ化合物に特徴的な嗅覚受容体活性パターンを同定した(図14)。同定された主な嗅覚受容体活性パターンは、「OR5K1活性が3.90以上、且つOR13G1活性が-0.21以上、且つOR5AR1活性が0.51未満」(識別番号13)、「OR5K1活性が3.90以上、且つOR13G1活性が-0.21以上、且つOR5AR1活性が0.51以上、且つOR2W1活性が1.00未満」(識別番号12)、及び「OR5K1活性が2.30以上3.90未満、且つOR8B3活性が-1.2未満」(識別番号6)であった。すなわち、識別番号13、12、または6のリーフに分類される物質は、ピラジン骨格を有する可能性が高いと予測できる。
<4-2>アルデヒド基
 アルデヒド基を持つ化合物をフラグ化し樹形モデルを構築することで、アルデヒド基を持つ化合物に特徴的な嗅覚受容体活性パターンを同定した(図15)。同定された主な嗅覚受容体活性パターンは、「OR2J2活性が2.10以上、且つOR2W1活性が0.83未満、且つOR8B3活性が0.40以上」(識別番号13)、「OR2J2活性が2.10以上、且つOR2W1活性が0.83以上、且つOR6B1活性が-1.60未満、且つOR2Y1活性が-0.25以上」(識別番号10)、及び「OR2J2活性が2.10以上、且つOR2W1活性が0.83以上、且つOR6B1活性が-1.60以上、且つOR1A1活性が-0.15未満」(識別番号7)であった。すなわち、識別番号13、10、または7のリーフに分類される物質は、アルデヒド基を有する可能性が高いと予測できる。
<4-3>エステル結合
 エステル結合を持つ化合物をフラグ化し樹形モデルを構築することで、エステル結合を持つ化合物に特徴的な嗅覚受容体活性パターンを同定した(図16)。同定された主な嗅覚受容体活性パターンは、「OR2L8活性が2.90以上、且つOR5K1活性が2.60未満、且つOR4S2活性が0.80未満」(識別番号13)、及び「OR2L8活性が2.90未満、且つOR5P3活性が0.62未満、且つOR1D2活性が0.74以上、且つOR1G1活性が0.24未満」(識別番号8)であった。すなわち、識別番号13または8のリーフに分類される物質は、エステル結合を有する可能性が高いと予測できる。
<実施例C>
 以下、本発明の第3の態様に係る非限定的な実施例を参照して、本発明をさらに具体的に説明する。なお、以下の実施例において使用する物質は「試験物質」と表記するが、それらの物質は本発明の予測モデル製造方法および本発明の予測方法においては対照物質として使用できる。
<1>ヒト嗅覚受容体発現細胞の作製
<1-1>ヒト嗅覚受容体の発現ベクターの作製
 実施例Aの<1-1>と同一の手順で、ヒト嗅覚受容体の発現ベクター352種を得た。
<1-2>嗅覚受容体発現細胞の作製
 実施例Aの<1-2>と同一の手順で、嗅覚受容体352種をそれぞれ発現するHEK293T細胞の培養物352種を得た。
<2>ヒト嗅覚受容体活性データベースの作製
<2-1>ルシフェラーゼアッセイ
 試験物質としてAtlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載の全144種の物質を選択したこと以外は、実施例Aの<2-1>と同一の手順で、ルシフェラーゼアッセイを実施した。
<2-2>嗅覚受容体活性の算出
 実施例Aの<2-2>と同一の手順で、嗅覚受容体活性を算出した。
<2-3>香気特性情報
 試験物質の香気特性情報としては、Atlas of odor character profiles(Dravnieks, A., ASTM data series publication, DS 61, PCN 05-061000-36, 1985)に記載のpercentage of applicability(P.A.値)を引用した。
<3>嗅覚受容体活性化データに基づく香気特性への適合度の予測
 試験物質と嗅覚受容体の各組み合わせについて、上記<2-3>で得たP.A.値と上記<2-2>で算出した嗅覚受容体活性との相関係数を算出した。相関係数の絶対値が閾値(0.2)を超えた嗅覚受容体活性を説明変数、P.A.値を目的変数として、機械学習により線形回帰モデルを構築した(式1~3)。式中、嗅覚受容体名(例えばOR1F1)には、当該嗅覚受容体についての嗅覚受容体活性が代入される。
<3-1>定量的な香気特性「STARWBERRY」
 「STARWBERRY」のP.A.値と嗅覚受容体活性の相関係数の絶対値が0.2を超えた嗅覚受容体数は61個であった。これら61個の嗅覚受容体についての嗅覚受容体活性を用いて、「STARWBERRY」のP.A.値を予測する線形回帰モデルを構築した(式1)。構築した回帰モデルのP.A.値予測値と化合物144種のP.A.値実測値との相関係数は0.932(p < 0.001)であった(図17)。
「STARWBERRY」の予測P.A.値= 0.305 + 1.560OR1F1 - 1.428OR1I1 + 0.982OR1J1 + 0.738OR2B6 + 0.415OR2B11 - 0.194OR2C3 - 1.092OR2G6 + 0.733OR2K2 + 1.313OR2L8 - 0.981OR2T1 + 0.018OR2T6 + 0.660OR2W3 - 0.651OR4A47 + 1.546OR4B1 + 0.131OR4C13 + 1.377OR4D10 - 0.348OR4F15 + 0.458OR4K13 - 0.843OR4P4 - 0.758OR4Q3 + 1.342OR4X1 + 0.085OR5AK2 + 0.537OR5D14 - 2.108OR5H14 + 1.377OR5I1 + 0.265OR5J2 - 0.072OR5M3 - 0.332OR5M8 - 0.019OR6C2 - 0.695OR6C66P + 0.142OR6K2 - 1.751OR6T1 + 0.146OR8D4 + 3.164OR8K1 - 2.203OR8U1 - 0.562OR10A4 + 0.921OR10A7 - 1.501OR10D3 + 2.699OR10H2 - 1.454OR10J5 + 0.733OR10T2 - 2.356OR12D3 - 1.530OR13F1 - 1.186OR13G1 - 3.013OR13H1 + 0.075OR13J1 - 0.109OR14K1 + 0.587OR51B2 - 1.775OR51B4 - 0.116OR51M1 + 0.968OR51T1 + 1.253OR51V1 - 0.327OR52A4 - 1.189OR52B2 + 1.613OR52D1 - 1.592OR52H1 + 1.186OR52J3 + 0.560OR52N5 + 0.611OR52P2P - 2.133OR52R1 + 1.951OR56A5 ・・・(式1)
<3-2>定量的な香気特性「ANISE (LICORICE)」
 「ANISE (LICORICE)」のP.A.値と嗅覚受容体活性の相関係数の絶対値が0.2を超えた嗅覚受容体数は27個であった。これら27個の嗅覚受容体についての嗅覚受容体活性を用いて、「ANISE (LICORICE)」のP.A.値を予測する線形回帰モデルを構築した(式2)。構築した回帰モデルのP.A.値予測値と化合物144種のP.A.値実測値との相関係数は0.823(p < 0.001)であった(図18)。
「ANISE (LICORICE)」の予測P.A.値 = 3.334 - 1.835OR1J2 - 2.644OR2A25 - 1.425OR2G2 - 0.561OR2L2 - 1.147OR2T11 + 5.260OR3A3 + 3.676OR4C13 + 0.353OR4D2 - 1.731OR4P4 + 0.273OR4X1 + 0.049OR5AK2 - 0.645OR6C6 + 1.418OR6T1 - 0.144OR7D4 - 2.990OR8G5 + 0.613OR9Q2 - 0.169OR10A3 - 0.535OR10J3 + 5.271OR13C3 + 1.047OR13D1 - 2.075OR51A4 - 1.535OR51B6 + 0.880OR51G1 + 0.551OR51H1 - 0.467OR51M1 - 0.839OR52A4 - 2.291OR52N1 ・・・(式2)
<3-3>定量的な香気特性「NEW RUBBER」
 「NEW RUBBER」のP.A.値と嗅覚受容体活性の相関係数の絶対値が0.2を超えた嗅覚受容体数は56個であった。これら56個の嗅覚受容体についての嗅覚受容体活性を用いて、「NEW RUBBER」のP.A.値を予測する線形回帰モデルを構築した(式3)。構築した回帰モデルのP.A.値予測値と化合物144種のP.A.値実測値との相関係数は0.927(p < 0.001)であった(図19)。
「NEW RUBBER」の予測P.A.値= 1.442 + 0.769OR1G1 + 0.148OR1J1 - 0.718OR1L3 + 0.350OR2A2 - 0.289OR2AP1 + 0.184OR2D2 + 0.041OR2L8 + 0.211OR2M2 - 0.060OR2M4 - 0.077OR4A16 + 0.470OR4C6 - 0.712OR4C12 - 1.136OR4D9 + 0.786OR4E2 + 0.019OR4G11P + 0.248OR4H12P - 0.262OR4N2 + 0.512OR4S1 + 1.233OR5AU1 - 0.331OR5B2 - 0.117OR5C1 - 0.869OR5L2 - 0.823OR5T2 + 0.126OR6B2 - 0.131OR6C70 + 0.463OR6K3 - 0.465OR6M1 + 0.004OR6Q1 + 0.108OR7A17 - 0.210OR8B3 - 0.471OR8G2 - 0.094OR8H3 - 0.978OR8K1 - 0.378OR9K2 + 0.658OR9Q2 - 1.111OR10A5 + 0.319OR10G3 + 0.183OR10G4 + 0.271OR10J3 - 0.038OR10K1 + 0.240OR10P1 + 0.584OR13D1 + 0.164OR14C36 - 0.772OR14I1 + 0.872OR51B2 + 0.179OR51H1 + 0.185OR51I2 - 0.936OR51L1 + 0.651OR51Q1 + 0.220OR52A5 - 0.001OR52B4 - 0.374OR52N2 + 0.344OR52W1 + 0.920OR56A3 - 0.786OR56A5 - 0.056OR56B1 ・・・(式3)
 本発明によれば、一態様において、物質における香気特性または嗅覚受容体活性化特性の有無を予測することができる。また、本発明によれば、一態様において、物質における香気特性や分子構造等の構成要素の有無を予測することができる。また、本発明によれば、一態様において、物質における香気特性への適合度を予測することができる。

Claims (13)

  1.  試験物質について目的の特性の有無を予測する方法であって、
     試験物質と対照物質間での立体化学構造の最大類似度に基づいて該試験物質について前記目的の特性の有無を予測する工程
     を含み、
     前記特性が、香気特性または嗅覚受容体活性化特性である、方法。
  2.  前記対照物質が、前記目的の特性についての陽性対照を含む、請求項1に記載の方法。
  3.  前記対照物質が、1種の物質である、請求項1または2に記載の方法。
  4.  前記対照物質が、2種またはそれ以上の物質の組み合わせである、請求項1または2に記載の方法。
  5.  前記対照物質が、前記目的の特性についての陽性対照を含み、
     前記試験物質と前記陽性対照間での立体化学構造の最大類似度が高い場合に、該試験物質が前記目的の特性を有すると予測する、請求項1~4のいずれか1項に記載の方法。
  6.  前記予測が、前記試験物質と前記対照物質間での立体化学構造の最大類似度に基づいて該試験物質と該対照物質をクラスタリングする工程を含む、請求項1~5のいずれか1項に記載の方法。
  7.  前記対照物質が、前記目的の特性についての陽性対照を含み、
     前記試験物質が前記陽性対照を含むクラスタにクラスタリングされる場合に、該試験物質が前記目的の特性を有すると予測する、請求項6に記載の方法。
  8.  前記予測の前に、さらに、前記最大類似度を算出する工程を含む、請求項1~7のいずれか1項に記載の方法。
  9.  目的の特性を有する物質をスクリーニングする方法であって、
     請求項1~8のいずれか1項に記載の方法により試験物質について前記目的の特性の有無を予測する工程、および
     前記目的の特性を有すると予測された試験物質を該目的の特性を有する物質として選抜する工程
     を含み、
     前記特性が、香気特性または嗅覚受容体活性化特性である、方法。
  10.  さらに、前記目的の特性を有すると予測された試験物質について該目的の特性の有無を確認する工程を含む、請求項1~9のいずれか1項に記載の方法。
  11.  前記最大類似度が、該最大類似度以外の、前記試験物質と前記対照物質間の構造類似度と組み合わせて前記予測に用いられる、請求項1~10のいずれか1項に記載の方法。
  12.  目的の特性を有する物質を設計する方法であって、
     設計対象の物質を、該設計対象の物質と対照物質間の立体化学構造の最大類似度に基づいて設計する工程
     を含み、
     前記特性が、香気特性または嗅覚受容体活性化特性である、方法。
  13.  前記対照物質が、前記目的の特性についての陽性対照を含み、
     前記設計が、前記設計対象の物質が前記陽性対照を含むクラスタにクラスタリングされるように実施され、
     前記クラスタリングが、前記設計対象の物質と前記対照物質間での立体化学構造の最大類似度に基づいて該設計対象の物質と該対照物質をクラスタリングする工程を含む、請求項12に記載の方法。
     
PCT/JP2021/013181 2020-03-30 2021-03-29 物質における香気特性または嗅覚受容体活性化特性の有無を予測する方法 WO2021200780A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21781184.3A EP4130736A4 (en) 2020-03-30 2021-03-29 METHOD FOR PREDICTING THE PRESENCE OR ABSENCE OF AROMATIC PROPERTIES OR OLFACTORY RECEPTOR ACTIVATION PROPERTIES IN A SUBSTANCE
JP2022512182A JPWO2021200780A1 (ja) 2020-03-30 2021-03-29
US17/937,048 US20230085282A1 (en) 2020-03-30 2022-09-30 Method for predicting presence or absence of aroma properties or olfactory receptor activation properties in substance

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2020060510 2020-03-30
JP2020-060531 2020-03-30
JP2020-060627 2020-03-30
JP2020060531 2020-03-30
JP2020060627 2020-03-30
JP2020-060510 2020-03-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/937,048 Continuation US20230085282A1 (en) 2020-03-30 2022-09-30 Method for predicting presence or absence of aroma properties or olfactory receptor activation properties in substance

Publications (1)

Publication Number Publication Date
WO2021200780A1 true WO2021200780A1 (ja) 2021-10-07

Family

ID=77929029

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/013181 WO2021200780A1 (ja) 2020-03-30 2021-03-29 物質における香気特性または嗅覚受容体活性化特性の有無を予測する方法

Country Status (4)

Country Link
US (1) US20230085282A1 (ja)
EP (1) EP4130736A4 (ja)
JP (1) JPWO2021200780A1 (ja)
WO (1) WO2021200780A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116179757B (zh) * 2023-04-27 2023-09-01 汉王科技股份有限公司 嗅觉受体在识别γ-十一内酯中的用途和检测γ-十一内酯的方法
CN116502130B (zh) * 2023-06-26 2023-09-15 湖南大学 一种藻源嗅味特征识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008100918A (ja) * 2006-10-17 2008-05-01 Nec Corp 類似度計算処理システム、その処理方法及びプログラム
KR101289948B1 (ko) * 2012-06-11 2013-07-26 인제대학교 산학협력단 분자 진동수 패턴을 이용한 리간드 분류 방법 및 장치
US20180107803A1 (en) * 2016-10-18 2018-04-19 International Business Machines Corporation Correlating olfactory perception with molecular structure
JP2019037197A (ja) 2017-08-28 2019-03-14 味の素株式会社 ロースト様香料素材のスクリーニング方法
US20200399558A1 (en) * 2019-06-21 2020-12-24 The Regents Of The University Of California Methods for identifying, compounds identified and compositions thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008100918A (ja) * 2006-10-17 2008-05-01 Nec Corp 類似度計算処理システム、その処理方法及びプログラム
KR101289948B1 (ko) * 2012-06-11 2013-07-26 인제대학교 산학협력단 분자 진동수 패턴을 이용한 리간드 분류 방법 및 장치
US20180107803A1 (en) * 2016-10-18 2018-04-19 International Business Machines Corporation Correlating olfactory perception with molecular structure
JP2019037197A (ja) 2017-08-28 2019-03-14 味の素株式会社 ロースト様香料素材のスクリーニング方法
US20200399558A1 (en) * 2019-06-21 2020-12-24 The Regents Of The University Of California Methods for identifying, compounds identified and compositions thereof

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
ANDREAS KELLER: "Predicting human olfactory perception from chemical features of odor molecules", SCIENCE, vol. 355, no. 6327, February 2017 (2017-02-01), pages 820 - 826, XP055349904, DOI: 10.1126/science.aal2014
BENJAMIN SANCHEZ-LENGELING: "Machine Learning for Scent", LEARNING GENERALIZABLE PERCEPTUAL REPRESENTATIONS OF SMALL MOLECULES, October 2019 (2019-10-01)
DRAVNIEKS, A., ASTM DATA SERIES PUBLICATION, 1985
HARADA, YUKI ET AL., PAPERS (3] FROM THE 2015 IEEJ NATIONAL CONVENTION: ELECTRONICS/INFORMATION ENGINEERING SYSTEMS/SENSORS AND MICROMACHINES, 2015, JAPAN, pages 115 *
ISHIHARA YUICHIRO, TAKAHASHI, YOSHIMASA: "Computerization of Structure-Toxicity Modeling Based on Structural Similarity", LECTURE ABSTRACTS OF SYMPOSIUM ON CHEMICAL INFORMATION AND COMPUTER SCIENCES AND SYMPOSIUM ON STRUCTURE-ACTIVITY RELATIONSHIPS, 7 November 2001 (2001-11-07), pages 213 - 214, XP055925677, Retrieved from the Internet <URL:https://www.jstage.jst.go.jp/article/ciqs2001/tokusi/0/tokusi_0_K14/_pdf/-char/en> [retrieved on 20220530] *
K. KAJIYA ET AL., JOURNAL OF NEUROSCIENCE, vol. 21, no. 16, 15 August 2001 (2001-08-15), pages 6018 - 6025
KANZAKI, RYOHEI; NAMIKI, SHIGEHIRO: "Predicting odor pleasantness for olfactory mixture based on physicochemical property", ANNUAL REPORT OF COSMETOLOGY, vol. 21, 1 September 2013 (2013-09-01), pages 118 - 121, XP009540550, ISSN: 2188-563X *
KAWAMURA GEN, SENO SHIGETO, TAKENAKA YOICHI, MATSUDA HIDEO: "A Combination Method of the Tanimoto Coefficient and Proximity Measure of Random Forest for Compound Activity Prediction", IPSJ DIGITAL COURIER, vol. 4, no. 5, 1 January 2008 (2008-01-01), pages 238 - 249, XP055925685, DOI: 10.2197/ipsjdc.4.238 *
KOBI SNITZ: "Predicting Odor Perceptual Similarity from Odor Structure", PLOS COMPUT BIOL, vol. 9, no. 9, September 2013 (2013-09-01), pages el003184
KOSAKA, KOSHIRO; UENO, KEISUKE; MINETA, KATSUHIKO; ENDO, TOSHINORI: "1ZC-2 Ligand Prediction for the Olfactory Receptors based on Machine Learning", 71ST NATIONAL CONFERENCE OF THE IPSJ: INTERFACE COMPUTER AND HUMAN SOCIETY 2009, vol. 71, no. 4, 1 January 2009 (2009-01-01), pages 4-667 - 4-668, XP009540971 *
L.BREIMANJ.H.FRIEDMANR.A.OLSHENC.J.STONE: "Classification and Regression Trees", CHAPMAN AND HALL, CRC, 1984
MAHLKE INGO T., THIESEN PETER H., NIEMEYER BERND: "Chemical Indices and Methods of Multivariate Statistics as a Tool for Odor Classification", ENVIRONMENTAL SCIENCE & TECHNOLOGY, AMERICAN CHEMICAL SOCIETY, US, vol. 41, no. 7, 1 April 2007 (2007-04-01), US , pages 2414 - 2421, XP055925644, ISSN: 0013-936X, DOI: 10.1021/es060512z *
See also references of EP4130736A4
T-SNEVAN DER MAATEN ET AL.: "Visualizing Data Using t-SNE", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 9, 2008, pages 2579 - 2605, XP055909869

Also Published As

Publication number Publication date
US20230085282A1 (en) 2023-03-16
EP4130736A4 (en) 2024-05-29
JPWO2021200780A1 (ja) 2021-10-07
EP4130736A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
US20230085282A1 (en) Method for predicting presence or absence of aroma properties or olfactory receptor activation properties in substance
Resconi et al. The development of aromas in ruminant meat
Brattoli et al. Gas chromatography analysis with olfactometric detection (GC-O) as a useful methodology for chemical characterization of odorous compounds
Sanmartin et al. Flaxseed cake as a tool for the improvement of nutraceutical and sensorial features of sourdough bread
Liu et al. Aroma-active compounds in jinhua ham produced with different fermentation periods
Yang et al. Current research related to wine sensory perception since 2010
Martuscelli et al. Safety, quality and analytical authentication of ḥalāl meat products, with particular emphasis on salami: a review
Vilela et al. Beverage and food fragrance biotechnology, novel applications, sensory and sensor techniques: An overview
Han et al. Characterization and discrimination of Chinese marinated pork hocks by volatile compound profiling using solid phase microextraction gas chromatography-mass spectrometry/olfactometry, electronic nose and chemometrics
Alarcón et al. Effect of wine lees as alternative antioxidants on physicochemical and sensorial composition of deer burgers stored during chilled storage
Ding et al. Comparative studies on the physicochemical and volatile flavour properties of traditional deep fried and circulating-air fried hairtail (Trichiurus lepturus)
Su et al. Sensory lexicons and formation pathways of off-aromas in dairy ingredients: A review
Škrlep et al. Aromatic profile, physicochemical and sensory traits of dry-fermented sausages produced without nitrites using pork from Krškopolje pig reared in organic and conventional husbandry
Vargas-Ramella et al. Effect of NaCl partial replacement by chloride salts on physicochemical characteristics, volatile compounds and sensorial properties of dry-cured deer cecina
Kesen et al. Characterization of aroma-active compounds in seed extract of black cumin (Nigella sativa L.) by aroma extract dilution analysis
Almeida et al. Production of a product similar to gelatin from chicken feet collagen
Yin et al. Characterization of the Key Aroma Compounds in Dog Foods by Gas Chromatography–Mass Spectrometry, Acceptance Test, and Preference Test
Anjos et al. Physicochemical and sensorial characterization of honey spirits
Wang et al. Analysis of volatile compounds in sea bass (Lateolabrax japonicus) resulting from different slaughter methods using electronic-nose (e-nose) and Gas Chromatography-Ion Mobility Spectrometry
Pavan et al. Relationships among consumer liking, lipid and volatile compounds from New Zealand commercial lamb loins
Liu et al. Characterization of the key aroma constituents in fried tilapia through the sensorics concept
Li et al. Comparison of the aroma-active compounds and sensory characteristics of different grades of light-flavor Baijiu
Borrajo et al. The effect of Salvia hispanica and Nigella sativa seed on the volatile profile and sensory parameters related to volatile compounds of dry fermented sausage
Sgarro et al. Effects of anthocyanin supplementation and ageing time on the volatile organic compounds and sensory attributes of meat from goat kids
Sun et al. Evaluation of aroma characteristics of dried shrimp (Litopenaeus vannamei) prepared by five different procedures

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21781184

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022512182

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021781184

Country of ref document: EP

Effective date: 20221031